VOLK на Geograffee

Проект представляет собой серию атмосферных иллюстраций в стиле нуар о волчьей жизни в большом мегаполисе.

Основной задачей стояло обучить генеративную нейросеть Stable Diffusion для рисования картин в стиле нуар, на каждой из которой присутствовал бы большой город и волки, а иллюстрации образовывали бы собой единую стилистическую композицию.

Исходными изображениями для обучения нейросети послужили мои собственные работы из другого проекта.

Исходный размер 4667x3307

Результирующая серия изображений

Исходный размер 1024x1024

Описание процесса обучения

Для данного проекта я использовала предобученную модель StableDiffusionXL. В качестве тренировочной выборки я взяла 9 своих рисунков, выполненных в похожем стиле, каждому из них присвоила одинаковое описание (условное название стиля) и затем дообучила модель с помощью метода LoRA. Процесс обучения занял около полутора часов на графическом процессоре T4 в Colab.

Перед началом обучения изображения были обрезаны с помощью central crop, поскольку модель должна получать на вход квадратные изображения.

Суть метода LoRA в том, чтобы добавить к каждому слою весов модели небольщой вес ΔW, который представлен как произведение матриц более низкой размерности, за счет чего мы можем относительно быстро получить модель, адаптированную под наш стиль (адаптация достигается как раз за счет новых весов ΔW, в то время как веса основной модели не меняются). 9 изображений — это не очень большая выборка для обучения генеративной модели, но я целенаправленная взяла именно их, поскольку это позволило обучать модель на картинках с очень консистентным стилем. После этого мы можем оценить, как хорошо модель улавливает этот стиль и воспроизводит его.

Благодаря тому, что каждое изображение было помечено названием стиля, модель получила информацию о том, как этот стиль выглядит.

После обучения LoRA была применена к следующим 18 промптам:

a wolf standing at a bus stop at night, empty street, glowing bus timetable, cold lighting, cinematic, muted colors, plvksstyle style
a wolf sitting in a tram by the window, blurred city lights outside, reflection on glass, night, cinematic, plvksstyle style
a wolf crossing a large city intersection with a crowd of people, cinematic, overcast sky, plvksstyle style
a wolf buying coffee at a small street kiosk, evening, soft light, plvksstyle style
a wolf sitting on steps near a soviet apartment entrance, empty courtyard, plvksstyle style
a wolf waiting for an elevator in a soviet panel building, dim lighting, plvksstyle style
a wolf feeding pigeons in a park, autumn, muted colors, plvksstyle style
a wolf walking in the rain with an umbrella, wet pavement, reflections, plvksstyle style
a wolf walking along an alley with falling leaves, autumn mood, plvksstyle style
a wolf sitting in a 24-hour store eating noodles, fluorescent light, plvksstyle style
a wolf walking on an empty street with neon signs at night, reflections, plvksstyle style
a wolf standing at a bus stop in rain at night, wet asphalt, plvksstyle style
a wolf looking at the city from a rooftop parking lot, night, plvksstyle style
a wolf carrying grocery bags from a supermarket, evening, plvksstyle style
a wolf cooking in a small kitchen, warm light, plvksstyle style
a wolf sitting on a windowsill, night city outside, glowing windows, plvksstyle style
a wolf standing on a pedestrian bridge over railway, trains below, plvksstyle style
a wolf riding a night bus, empty, city lights reflecting, plvksstyle style

Plvksstyle — условное обозначение для стиля изображений.

В результате было получено 18 изображений. Из них только 9 я сочла удачными для того, чтобы вставить в финальную серию. 15 из 18 картинок были действительно похожи по стилю на исходные изображений, но было несколько отличий. Во-первых, в некоторых картинках были сильные проблемы с перспективой, а также иногда попадались нереалистичные объекты (например, волк с 3 ногами). Я связываю это с тем, что изначальный стиль оказался для модели слишком сложным, и для того, чтобы добиться идеального результата, нужно было использовать большую по размеру выборку для дообучения. Кроме того, явным отличием сгенерированных изображений от исходных является повышенная детализированность рисунков, однако мне показалось это даже уместным для данной серии.

Поскольку изначальной задачей проекта я ставила генерацию серии иллюстраций о жизни волков в большом городе, полученный результат меня вполне удовлетворил. Мне хотелось сгенерировать волков (как хуманизированных, так и нет), внутри городского пейзажа в разных локациях и ситуациях. Соответствующие задачи я прописывала в промпте и нейросеть выполняла их довольно точно. Очень хорошо удалось передать нуар и мрачное настроение, а также сохранить атмосферу мистики. Мне понравились персонажи, которых нейросеть сгенерировала, а также разнообразие урбанистических пейзажей, высокая детализация изображений и общее единство стиля серии.

Ссылка на код: https://drive.google.com/drive/folders/18e-_jurj7NvnLaqebvCg6sP4BlUlORld?usp=sharing

Я использовала Chat GPT для перевода промптов с русского на английский языки, периодически консультировалась по курсу в целом (например, про то как работают методы из pytorch и других библиотек питона, которые мне понадобились для выполнения этой задачи).