Original size 1140x1600

Анализ данных и визуализация. Популярность треков на Spotify

PROTECT STATUS: not protected

Введение

Для анализа я взяла информацию о популярности треков на стримминговой платформе Spotify. Мне было интересно изучить, какие факторы и музыкальные характеристики песни влияют на нее рейтинг среди слушателей. В датасете 114000 рядов с композициями и 20 колонок с их характеристиками. В качестве визуализации были выбраны гистограммы, так как они наглядно демонстрируют соотношения песен разных категорий, и диаграммы рассеивания, так как они позволяют показать, где сосредоточена основная масса треков. Данные были взяты с ресурса Kaggle.

Описание применения генеративной модели

При обработке данных я обращалась к ChatGPT, чтобы найти операции, позволяющие отформатировать информацию и сделать ее удобной для построения графиков. Промпты приведены ниже.

Обложка проекта была сгенерирована с помощью Leonardo.AI. Промпт: «‎simply drawn group of people dancing surrounded by some musical elements — sound waves, notes in green white and black colors»‎

Этапы работы

Подготовка данных

Я импортировала библиотеки, необходимые для создания графиков. Затем я перевела длительность треков из миллисекунд в секунды и убрала колонки, обратившись к ChatGPT. Промпт: «как убрать колонки из pandas dataframe».

big
Original size 635x262

Далее я закодировала данные, обратившись к ChatGPT. Промпт: «как заменить хеши id на цифры в pandas dataframe». В данных нет пропусков, которые могут повлиять на дальнейший анализ, поэтому на этом подготовительный этап закончился.

Original size 636x436
Original size 1538x662

Построение графиков

Для графиков я выбрала черный цвет и оттенки зеленого, так как это цветовая гамма, используемая Spotify.

Original size 763x86

Объектом исследования я выбрала факторы, влияющие на популярность трека. Сначала я построила график распределения популярности среди всех треков.

Original size 764x106
Original size 580x463

Из графика можно сделать вывод, что большая часть значений сосредоточена около 0 и значительно уменьшается при приближении к 100, следовательно при дальнейшем анализе нужно учитывать, что треков с высокой популярностью предельно мало и они могут быть случайностями.

Далее я рассмотрела взаимосвязь популярности трека и его длительности.

Original size 935x97
Original size 591x463

График показывает, что большая часть треков находится в пределах от 0 до 10 минут, а наиболее популярны треки с длительностью от 2 до 6 минут.

Затем я проанализировала связь популярности песни и наличия в ней вокальных партий. Песни со значением «1.0»‎ являются инструментальными и не имеют вокальных партий.

Original size 1040x89
Original size 581x463

Я пришла к выводу, что почти все песни с популярностью выше 80 имеют вокал.

Далее я рассмотрела зависимость популярности трека от его музыкального размера.

Original size 1053x89
Original size 581x463
Original size 748x108
Original size 580x463

Из двух графиков видно, что самыми популярными являются треки с размером ¾ или 4/4, однако это, скорее всего, связано с общим преобладанием этих размеров относительно всех остальных и, вероятно, не имеет сильного влияния на популярность.

Затем я построила график популярности песен по музыкальным жанрам.

Original size 924x317
Original size 673x467

Анализируя график можно сказать, что предельно высокую популярность (90+) получают треки таких жанров как dance, hip-hop, latin, latino, pop, reggae, reggaeton и rock. Однако стоит учитывать, что, как уже было сказано ранее, треков с очень высокой популярностью (90+) не так много, поэтому песни с популярностью 80+ и 70+ следует считать более стабильным показателем. По ним наиболее популярными жанрами становятся pop, dance, electro, house, rock, k-pop, metal, latino.

Анализ данных и визуализация. Популярность треков на Spotify
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more