В данном проекте я исследую данные об олимпийских спортсменах, взятые из датасета с сайта Kaggle, olympics_athletes_dataset.csv. В нём содержится информация о поле, возрасте, виде спорта, годе участия, а также физических характеристиках спортсменов.
Данная тема была выбрана, так как Олимпийские игры представляют собой значимое мировое событие, объединяющее спортсменов из разных стран. Анализ таких данных позволяет выявить интересные закономерности.
Визуализация
Для визуализации данных были выбраны несколько типов графиков: линейный график, столбчатая диаграмма, гистограмма и круговая диаграмма. Линейный график использовался для отображения изменения среднего возраста по годам, столбчатая диаграмма — для сравнения количества спортсменов по полу, гистограмма — для анализа распределения возраста, а круговая диаграмма — для наглядного представления наиболее популярных видов спорта.
Оформление я взяла из айдентики олимпиады 1976. Оранжевый — цвет, который чаще всего ассоциируется со спортом.
Загрузка данных
Работа с данными началась с их загрузки с помощью библиотеки pandas. После этого были выбраны только необходимые столбцы, содержащие ключевую информацию для анализа: пол, возраст, вид спорта, год, рост и вес. После этого данные были сгруппированы по годам для расчёта среднего возраста спортсменов, а также подсчитано количество значений для разных признаков
Обработка данных и построение графиков
Линейная диаграмма
Столбчатая диаграмма
Гистограмма
Круговая диаграмма
Заключение
Средний возраст спортсменов остаётся относительно стабильным на протяжении разных лет, а большинство участников находится в определённом возрастном диапазоне. Также наблюдается различие в количестве спортсменов по полу и концентрация участников в наиболее популярных видах спорта. Использование визуализации позволило упростить восприятие информации и сделать анализ более наглядным. Применение различных типов графиков дало возможность рассмотреть данные с разных сторон.
В большинстве видов спорта максимальные результаты достигаются в определённом возрастном диапазоне, что связано с сочетанием физической выносливости, силы, скорости и накопленного опыта.
В процессе выполнения проекта использовались нейросетевые инструменты (ChatGPT) в качестве вспомогательного средства. Они применялись для уточнения синтаксиса кода, а также для улучшения визуализации графиков. Были подобраны варианты оформления графиков и улучшено расположение элементов.