Анализ дорожно-транспортных происшествий в России
Анализ данных и визуализация
Используемые инструменты: Python, Pandas, GeoPandas, Matplotlib, Seaborn
В рамках проекта был использован датасет дорожно-транспортных происшествий по регионам Российской Федерации. Данные представлены в формате GeoJSON и разбиты на 50 файлов, каждый из которых соответствует отдельному региону.
Датасет содержит информацию о:
— времени и дате ДТП — регионе происшествия — условиях освещения и погоде — количестве участников, пострадавших и погибших — транспортных средствах (включая марку автомобиля)
Источник данных: открытые региональные данные.
Тема дорожно-транспортных происшествий имеет высокую социальную значимость, так как напрямую связана с безопасностью городской среды и качеством инфраструктуры.
Данный датасет представляет особый интерес благодаря своей насыщенности контекстными признаками: временем, условиями ДТП, регионами и характеристиками транспортных средств. Это позволяет не просто визуализировать данные, но и выявлять закономерности и объяснять причины наблюдаемых паттернов.
В проекте использовались разные типы визуализации, каждый из которых решает свою аналитическую задачу:
Теплокарта (heatmap) — для анализа временных паттернов (час × день недели)
Линейный график — для выявления сезонности ДТП
Столбчатые диаграммы — для сравнения регионов, брендов и категорий
Кольцевые диаграммы (donut) — для анализа структуры и долей
Категориальные сравнения — для анализа контекстных факторов
Использование нескольких типов графиков позволило рассмотреть данные с разных аналитических точек зрения.
Этап 1 — загрузка и объединение данных
Импорт и склейка 50 файлов


Подготовка времени (feature engineering)
Работа с категорией «освещение»


Извлечение марок из вложенной структуры vehicles


Стилизация графиков
Используемые статистические методы
В ходе анализа применялись:
группировка и агрегация данных (groupby) анализ распределений и долей медиана и робастные меры анализ сезонности сравнительный анализ категорий
Методы были выбраны с учётом структуры данных и целей исследования.
Когда ДТП происходят чаще всего
Наибольшее количество ДТП происходит в будние дни в дневное и вечернее время. Пик аварийности совпадает с периодами максимальной транспортной нагрузки.
Сезонность ДТП
Наблюдается выраженная сезонность ДТП. Минимальные значения приходятся на зимние месяцы, а пик аварийности — на летний период.
Регионы с наибольшим числом ДТП
Регионы с наибольшим количеством ДТП, как правило, характеризуются высокой плотностью населения и интенсивным движением. Это указывает на влияние урбанизации и транспортной нагрузки.
ДТП по времени суток
Большинство ДТП происходит в светлое время суток, что связано с общей интенсивностью движения. Однако значительная доля аварий приходится на тёмное время суток.
Структура ДТП по времени суток
Несмотря на меньшую интенсивность движения ночью, доля ДТП в тёмное время остаётся высокой, что подчёркивает повышенные риски при сниженной видимости.
Марки автомобилей
Наибольшее количество ДТП приходится на массовые автомобильные марки. Это отражает их распространённость в автопарке и не свидетельствует о повышенной аварийности конкретных брендов.
Отечественные и иностранные автомобили
В ДТП участвуют как отечественные, так и иностранные автомобили. Полученное распределение отражает структуру автомобильного парка и не предполагает причинно-следственной связи
Итоги
В ходе проекта были выявлены устойчивые временные, сезонные и региональные закономерности ДТП. Использование различных типов визуализации позволило глубже понять структуру и контекст дорожно-транспортных происшествий.
Ссылки



