Original size 1140x1596

Анализ музыкальных трендов Spotify

PROTECT STATUS: not protected
The project is taking part in the competition

Введение

Я, как и 713 миллионов ежемесячных активных пользователей по всему миру, использую для прослушивания музыки Spotify. Этот стриминговый сервис является одним из самых популярных глобальных стримингов для прослушивания музыки, поэтому данные с этого сервиса являются подходящими для анализа современной поп-культуры, ключевых музыкальных трендов и закономерностей.

С использованием Perplexity на Kaggle я нашла актуальный датасет, в котором есть информация вплоть до 2025 года и который содержит информацию по следующим параметрам: - популярность трека, рассчитанная на основе пользовательских взаимодействий; - жанры артистов; - продолжительность трека в минутах; - наличие или отсутствие ненормативной лексики (explicit-контент); - дополнительные характеристики артистов и треков.

Объём данных позволяет проводить как описательный анализ, так и сравнение различных групп.

В этом проекте я анализирую данные Spotify, чтобы понять: — какие жанры наиболее популярны; — как меняется средняя длительность треков; — влияет ли ненормативная лексика на популярность музыки.

Стилистическое решение

В качестве цветовой палитры я взяла основные цвета Spotify: зелёный, черный и белый, а в качестве основного шрифта «DejaVu Sans», так как он схож со стилистикой сервиса и имеет все необходимые символы.

big
Original size 1440x852

Для визуализации данных в соответствующем стиле, я изначально задала в коде необходимые цвета и шрифт.

Original size 1440x1060

Используемые статистические методы

В проекте используются методы описательной статистики и категориального анализа: - Среднее арифметическое — для оценки средней популярности и длительности треков; - Медиана — для устойчивой оценки центральной тенденции; - Количество наблюдений — для оценки репрезентативности жанров; - Группировка данных — для анализа категориальных признаков; - Анализ распределений — для сравнения популярности explicit и non-explicit треков; - Сравнение категорий — для выявления различий между жанрами.

Использование этих методов позволяет получить интерпретируемые и воспроизводимые результаты без усложнения модели.

Кроме того, используются и два формата визуализации данных: изучающий и объясняющий.

Изучающий формат применяется для беспристрастного представления структуры данных и выявления базовых закономерностей, таких как распределение жанров и средняя длительность треков.

Объясняющий формат используется для интерпретации полученных результатов и формулирования аналитической позиции относительно влияния explicit-контента и жанрового контекста на популярность музыки.

Сочетание этих форматов позволяет выстроить аналитическое повествование от наблюдений к выводам.

Предварительная подготовка

Первым делом я импортировала необходимые библиотеки и загрузила сам датасет:

Original size 1440x490

Перед началом анализа данные были очищены и подготовлены. Пропущенные значения в столбце с жанрами были заменены пустыми значениями, после чего строки с жанрами были приведены к единому формату.

Поскольку один артист может относиться к нескольким музыкальным жанрам, данные были нормализованы: список жанров был разделён и развернут таким образом, чтобы каждый жанр анализировался как отдельная наблюдаемая категория. Это позволило более корректно оценить популярность и характеристики жанров.

Original size 1440x372

Какие жанры наиболее популярны?

Сначала я подготовила данные для данного графика.

Original size 1440x803

Столбчатая диаграмма является наиболее подходящим инструментом для сравнения категориальных данных. В данном случае она позволяет наглядно сопоставить популярность различных жанров между собой.

Для визуализации были выбраны только топ-10 жанров, чтобы избежать визуального шума и сосредоточить внимание на наиболее значимых категориях.

Что показывает график: - какие жанры доминируют на платформе Spotify; - различия между жанрами по средней популярности; - асимметрию музыкального рынка.

Original size 1440x1332
Original size 930x547

Так, популярность жанров распределена неравномерно. Некоторые жанры представлены большим количеством треков, но имеют умеренную среднюю популярность, в то время как другие жанры, к примеру альтернативный поп, достигают высокой популярности при меньшем объёме контента.

Средняя продолжительность треков по жанрам

Подготовка данных для графика:

Original size 1440x788

Для анализа продолжительности треков используется violin plot, так как он позволяет изучать не только среднее значение, но и распределение длительности композиций внутри каждого жанра.

В отличие от столбчатой диаграммы, такой тип визуализации показывает разброс значений, плотность распределения и медианные значения, что особенно важно при анализе музыкальных форматов.

Продолжительность трека является ключевой характеристикой, отражающей формат потребления музыки. Она позволяет выявить различия между жанрами и понять, как музыкальные композиции адаптируются под современные условия прослушивания.

График демонстрирует: - различия в распределении длительности треков между жанрами; - степень вариативности внутри каждого жанра; - связь между жанром и форматом музыкальной композиции.

Original size 1440x1332
Original size 841x547

Анализ показывает, что коммерчески ориентированные жанры характеризуются более короткими и менее вариативными треками, тогда как нишевые и экспериментальные жанры чаще включают более продолжительные композиции с большим разбросом длительностей.

Это может быть связано с алгоритмами стриминговых сервисов, ориентированными на удержание внимания слушателя, а также с изменением пользовательских паттернов прослушивания музыки.

Влияние ненормативной лексики на популярность

Подготовка данных к анализу:

Original size 1440x312

Коробчатая диаграмма же позволяет анализировать распределение данных, а не только средние значения. Он показывает: - медиану, - межквартильный размах, - выбросы.

Это особенно важно при сравнении популярности треков, так как распределение может быть асимметричным.

Что показывает график: - различия в распределении популярности между explicit и non-explicit треками; - наличие выбросов — отдельных сверхпопулярных треков.

Original size 1440x1332
Original size 850x528

Наличие ненормативной лексики не оказывает выраженного негативного влияния на популярность треков. Распределения популярности в обеих группах во многом схожи, что указывает на нормализацию explicit-контента в современной музыкальной культуре.

Explicit-контент внутри жанров

Подготовка данных для визуализации:

Original size 1440x1808

Группированная диаграмма здесь позволяет сравнивать две категории (explicit и non-explicit) внутри каждой жанровой группы. Это помогает выявить контекстные различия, которые не видны при агрегированном анализе.

Что показывает график: - как explicit-контент воспринимается в разных жанрах; - существуют ли жанровые различия в популярности explicit-треков.

Original size 1440x1400
Original size 841x547

Из анализа можно заметить, что в некоторых жанрах explicit-контент коррелирует с более высокой популярностью, что отражает культурные и стилистические особенности аудитории. В других жанрах различия минимальны, что подчёркивает важность жанрового контекста при интерпретации данных.

Вывод

Проведённый анализ данных Spotify позволил выявить ключевые музыкальные тренды и особенности современного потребления музыки на стриминговых платформах.

Анализ популярности жанров показал, что наибольший интерес аудитории сосредоточен вокруг коммерчески ориентированных направлений, которые представлены большим количеством треков и стабильно высокими показателями популярности. Это подтверждает доминирование массовых жанров в экосистеме стриминга.

Исследование продолжительности треков выявило заметные различия между жанрами. Коммерческие жанры, как правило, характеризуются более короткими и менее вариативными композициями, тогда как нишевые и экспериментальные направления демонстрируют большую среднюю длительность и широкий разброс значений. Это отражает адаптацию музыкального формата под алгоритмы стриминговых сервисов и изменяющиеся паттерны потребления, ориентированные на быстрое и повторное прослушивание.

Анализ explicit-контента показал, что наличие ненормативной лексики само по себе не является универсальным фактором популярности. Его влияние зависит от жанрового контекста: в одних жанрах explicit-контент коррелирует с более высокой популярностью, в других — не оказывает значимого эффекта. Это подчёркивает важность культурных и жанровых норм при интерпретации подобных характеристик.

В совокупности результаты демонстрируют, что музыкальные тренды на стриминговых платформах формируются на пересечении жанровой специфики, формата композиции и контекста потребления. Визуализация данных в изучающем и объясняющем форматах позволила не только зафиксировать количественные различия, но и предложить интерпретацию этих различий с точки зрения современных цифровых музыкальных экосистем.

Описание применения генеративной модели

Для выполнения работы я использовала следующие генеративные модели: 1. Поиск датасета: Perplexity Промт: «я делаю проект по анализу данных и визуализации помоги найти данные, связанные с музыкой» 2. Подбор графиков: ChatGPT Промт: «я делаю проект по анализу данных и визуализации помоги найти данные, связанные с музыкой. Я хочу выявить музыкальные тренды, популярность жанров и влияние эксплицитного контента (Я буду анализировать Какие жанры наиболее популярны Средняя продолжительность треков по жанрам и связь содержит ли трек ненормативную лексику). Помоги подобрать подходящие графики» 3. Анализ информации: ChatGPT Промт: «проанализируй отправленный датасет и пропиши общий вывод» 4. Генерация кода для визуализации данных: ChatGPT Промт: «напиши код по каждому графику последовательно» 5. Генерация изображения: Recraft.ai Промт: «Спотифай»

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more