Original size 1024x1365

Анализ и визуализация данных Amazon Bestsellers

PROTECT STATUS: not protected

Вводная часть

Для анализа я выбрала датасет «Amazon Top 50 Bestselling Books 2009-2019», который был найден мной на сайте:

https://www.kaggle.com/datasets/sootersaalu/amazon-top-50-bestselling-books-2009-2019/download?datasetVersionNumber=1

Этот датасет содержит информацию о 550 бестселлерах Amazon за период с 2009 по 2019 год. Данные представлены в CSV-формате и включают следующие колонки: название книги, автор, пользовательский рейтинг, количество отзывов, цена, год попадания в топ, и жанр (художественная/нехудожественная литература).

Эти данные представляют ценность по нескольким причинам. Например, они позволяют проанализировать тенденции на книжном рынке за десятилетие и дают понимание, какие типы книг становятся бестселлерами. Также они показывают взаимосвязь между ценой, рейтингом и популярностью книг.

Этапы работы

Для визуализации данных были выбраны следующие графики:

- Точечная диаграмма чтобы показать зависимость между ценой и количеством отзывов с цветовым кодированием по рейтингу.

- Круговуая диаграмма для отображения распределения книг по жанрам.

- Гистограмма для сравнения распределения цен по жанрам.

- Линейный график для демонстрации динамики средней цены книг по годам.

big
Original size 2162x839

Подготовка данных

В начале работы были импортированы необходимые библиотеки: pandas, matplotlib, numpy. Далее следует импорт скачанного датасета в csv формате.

Original size 2443x315

Следующим этапом работы стала настройка визуализации данных. Я выбрала темный фон для графиков с контрастными цветами, чтобы создать элегантный и современный вид. Основные элементы стиля:

- Темный фон (#333333) - Пользовательская цветовая палитра - Шрифт Roboto Slab для заголовков и подписей

Original size 2443x632

График № 1

Далее я построила фигуру размером 20×20 дюймов с сеткой 2×2 для четырех различных визуализаций. Добавила общий заголовок «Визуализация данных». Фон всей фигуры темно-серый (#333333).

Original size 2443x174

В первом субплоте я создала scatter plot, где: - По оси X — цена книг - По оси Y — количество отзывов

Цвет точек соответствует рейтингу (используется прописанная цветовая карта). Прозрачность 70% помогает различать перекрывающиеся точки.

Далее я добавила подписи осей, заголовок, настроила цвет и размер шрифта всех текстовых элементов. Сетка полупрозрачная серая линия для лучшей читаемости. Цветовая шкала справа объясняет соответствие цветов значениям рейтинга.

Original size 2443x406
Original size 2679x2373

График № 1

График № 2

Во втором субплоте строится pie chart, показывающий соотношение художественной и нехудожественной литературы в датасете. Используя метод value_counts для подсчета книг каждого жанра. Диаграмма включает:

- Ярлыки с названиями жанров - Процентные значения с точностью до десятых - Цвета из нашей палитры - Белый текст с нашим шрифтом

Original size 2443x196
Original size 2997x2923

График № 2

График № 3

В третьем субплоте я создала гистограмму, в которой для каждого жанра строится отдельный столбец.

- По оси X — ценовые диапазоны (10 бинов) - По оси Y — количество книг в каждом диапазоне

Разные жанры книг проиллюстрированы разными цветами из заранее прописанной цветовой палитры. Также я добавила легенду для идентификации жанров.

Original size 2443x499
Original size 3381x2822

График № 3

График № 4

В последнем субплоте я отобразила динамику изменения средней цены книг-бестселлеров с 2009 по 2019 год. Для этого я сгруппировала данные по году. Затем вычислила среднюю цену для каждого года. После этого построила линию с маркерами в виде кружков. Далее я использовала четвертый цвет из палитры. Добавляем сетку для удобства чтения значений.

Original size 2443x414
Original size 2450x2092

График № 4

Визуализация данных

Финальным этапом работы была регулировка отступов между субплотами с помощью subplots_adjust (), чтобы все элементы визуализации правильно помещались и не перекрывали друг друга. Параметры top, bottom, left, right задают отступы от краев фигуры, а hspace и wspace — расстояния между графиками по вертикали и горизонтали.

Original size 2443x115

Финальная команда plt.show () выводит на экран всю созданную визуализацию.

Original size 2443x110

Выводы:

Итоговый результат проделанной мной работы представляет собой информативную панель из четырех взаимодополняющих графиков, выполненных в едином стиле. Каждая визуализация раскрывает определенный аспект данных. Scatter plot показывает взаимосвязь цены, популярности и рейтинга, pie chart демонстрирует соотношение жанров, histogram выявляет распределение ценовых категорий, line graph отслеживает динамику изменения цен за 10 лет

Все элементы оформления согласованы между собой: одинаковые шрифты, цветовая схема, стиль подписей и сетки. Это создает целостное восприятие и облегчает анализ информации.

Original size 1712x1778
Анализ и визуализация данных Amazon Bestsellers
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more