Обучение генеративной нейросети Stable Diffusion в стиле Studio Ghibli на Geograffee

Идея проекта

Мне очень нравится рисовка анимационной студии Studio Ghibli, поэтому я решила обучить генеративную нейросеть Stable Diffusion для генерации иллюстраций в подобном стиле. В последствии их можно использовать для фестивалей или фирменного стиля, посвященного мультфильмам данной студии. Основная задача проекта — проверить, насколько нейросеть сможет уловить стилистику Ghibli.

Описание процесса работы

Для начала я нашла готовый dataset с иллюстрациями Studio Ghibli.

Исходный размер 1171x417

и загрузила картинки в Google Colab через Google Диск

Исходный размер 996x670

Далее был разработан класс датасета, позволяющий последовательно обходить набор данных, извлекать изображения по одному и подавать их на вход модели.

Исходный размер 1131x647

Затем модель была загружена, и к ней добавлены LoRA-слои. Для ускорения обучения использовался GPU, на который переводилась модель. Все слои, кроме LoRA-слоёв, были заморожены, чтобы избежать обучения всей модели целиком. Для оптимизации использования видеопамяти применялся градиентный чекпоинтинг.

Исходный размер 3173x1067

Процесс обучения представлен на изображении и занял 11 минут. По завершении получается модель, способная генерировать новые изображения в заданном стиле.

И затем я начала вводить промпты для генерации изображений.

Исходный размер 1274x1274

результат одного из промптов

Результаты изображений

Исходный размер 1024x1024

Исходный размер 3387x1067

Исходный размер 2240x1067

Исходный размер 2560x2560

В целом я довольна получившимися изображениями, удалось довольно точно передать задуманный стиль. Совпадения выходят удачными, хотя в каждой серии почти всегда находится как минимум одна «кривая» картинка, что можно объяснить либо неудачным промптом, либо не очень аккуратно собранным датасетом, где вперемешку встречаются и люди, и пейзажи, и другие сцены. При этом, по моим наблюдениям, именно пейзажи генерируются заметно лучше, чем, например, животные.

Используемые инструменты

Stable Duffusion — генеративная модель Google colab — написание и выполнение кода Hugging Face — использовался для поиска и выбора модели

Ссылка на блокнот