
Введение
Для анализа я взяла информацию о популярности треков на стримминговой платформе Spotify. Мне было интересно изучить, какие факторы и музыкальные характеристики песни влияют на нее рейтинг среди слушателей. В датасете 114000 рядов с композициями и 20 колонок с их характеристиками. В качестве визуализации были выбраны гистограммы, так как они наглядно демонстрируют соотношения песен разных категорий, и диаграммы рассеивания, так как они позволяют показать, где сосредоточена основная масса треков. Данные были взяты с ресурса Kaggle.
Описание применения генеративной модели
При обработке данных я обращалась к ChatGPT, чтобы найти операции, позволяющие отформатировать информацию и сделать ее удобной для построения графиков. Промпты приведены ниже.
Обложка проекта была сгенерирована с помощью Leonardo.AI. Промпт: «simply drawn group of people dancing surrounded by some musical elements — sound waves, notes in green white and black colors»
Этапы работы
Подготовка данных
Я импортировала библиотеки, необходимые для создания графиков. Затем я перевела длительность треков из миллисекунд в секунды и убрала колонки, обратившись к ChatGPT. Промпт: «как убрать колонки из pandas dataframe».

Далее я закодировала данные, обратившись к ChatGPT. Промпт: «как заменить хеши id на цифры в pandas dataframe». В данных нет пропусков, которые могут повлиять на дальнейший анализ, поэтому на этом подготовительный этап закончился.
Построение графиков
Для графиков я выбрала черный цвет и оттенки зеленого, так как это цветовая гамма, используемая Spotify.
Объектом исследования я выбрала факторы, влияющие на популярность трека. Сначала я построила график распределения популярности среди всех треков.
Из графика можно сделать вывод, что большая часть значений сосредоточена около 0 и значительно уменьшается при приближении к 100, следовательно при дальнейшем анализе нужно учитывать, что треков с высокой популярностью предельно мало и они могут быть случайностями.
Далее я рассмотрела взаимосвязь популярности трека и его длительности.
График показывает, что большая часть треков находится в пределах от 0 до 10 минут, а наиболее популярны треки с длительностью от 2 до 6 минут.
Затем я проанализировала связь популярности песни и наличия в ней вокальных партий. Песни со значением «1.0» являются инструментальными и не имеют вокальных партий.
Я пришла к выводу, что почти все песни с популярностью выше 80 имеют вокал.
Далее я рассмотрела зависимость популярности трека от его музыкального размера.
Из двух графиков видно, что самыми популярными являются треки с размером ¾ или 4/4, однако это, скорее всего, связано с общим преобладанием этих размеров относительно всех остальных и, вероятно, не имеет сильного влияния на популярность.
Затем я построила график популярности песен по музыкальным жанрам.
Анализируя график можно сказать, что предельно высокую популярность (90+) получают треки таких жанров как dance, hip-hop, latin, latino, pop, reggae, reggaeton и rock. Однако стоит учитывать, что, как уже было сказано ранее, треков с очень высокой популярностью (90+) не так много, поэтому песни с популярностью 80+ и 70+ следует считать более стабильным показателем. По ним наиболее популярными жанрами становятся pop, dance, electro, house, rock, k-pop, metal, latino.