Финальный проект/креативное производство с ИИ на Geograffee

«Жёлтая дверь»

Идея проекта

Проект посвящен обучению генеративной модели на авторском визуальном стиле и проверке, насколько нейросеть может сохранять цельный художественный язык в серии разных сцен.

Я исследую, как модель передает атмосферу через повторяющиеся стилевые признаки: цветовую палитру, характер света, фактуру изображения и композиционный ритм.

В проекте использована архитектура Stable Diffusion XL с дообучением DreamBooth LoRA.

Материал для обучения

«Жёлтая дверь» режиссёр Станислава Костина

Для обучения был собран датасет из 15 изображений, приведенных к формату 1:1 (1024×1024).

«Жёлтая дверь» режиссёр Станислава Костина

В подборку вошли кадры с разными ракурсами и световыми условиями, но с единым художественным принципом, чтобы модель усвоила именно стиль, а не один конкретный сюжет.

«Жёлтая дверь» режиссёр Станислава Костина

Результат

После обучения была сгенерирована серия из 6 изображений. Серия показывает вариативность сцен при сохранении общего стилевого ядра.

Лучше всего модель передала:

консистентную цветовую палитру; повторяющийся характер света и полутеней; фактурность и плотность изображения; композиционную цельность серии.

Вариативность получилась за счет:

смены планов (крупный/средний/общий); смены пространств (более открытые и более камерные сцены), смены эмоционального тона кадра при сохранении общего стиля.

Обучение модели

Обучение выполнено в Google Colab (собственный ноутбук), по принципу SDXL DreamBooth LoRA.

Для обучения был собран датасет из 15 изображений хорошего качества, приведенных к квадратному формату 1:1 (1024×1024). При отборе изображений я ориентировалась на разнообразие ракурсов, планов и световых сценариев, сохраняя при этом общую стилевую направленность. Это позволило обучить модель не одному повторяющемуся сюжету, а именно манере изображения.

Исходный размер 970x1376

Обучение проводилось в Google Colab на базе Stable Diffusion XL с дообучением DreamBooth LoRA. Использовалась схема обучения под стиль с уникальным стилевым токеном sksstyle. Фактические параметры запуска: resolution = 1024, max_train_steps = 1200, learning_rate = 1e-4, train_batch_size = 1, gradient_accumulation_steps = 4, rank = 16, mixed_precision = fp16. Обучение успешно завершилось на 1200 шагах (training steps), после чего были сохранены финальные LoRA-веса.

модель обучилась за 1200 шагов

В проекте использована генеративная модель Stable Diffusion XL (DreamBooth LoRA) для синтеза серии изображений в авторском стиле.

После обучения была выполнена серия генераций по набору промптов, и в финал отобраны 6изображений. Итоговая серия демонстрирует устойчивую стилевую консистентность: повторяемую палитру, схожую обработку света и полутеней, характерную фактурность изображения и общую композиционную цельность. При этом внутри серии сохраняется вариативность: меняются масштаб, ракурс, пространственная плотность сцены и эмоциональный тон кадра.

Итог

После обучения была выполнена серия генераций по набору промптов, и в финал отобраны 6 изображений. Итоговая серия демонстрирует устойчивую стилевую консистентность: повторяемую палитру, схожую обработку света и полутеней, характерную фактурность изображения и общую композиционную цельность. При этом внутри серии сохраняется вариативность: меняются масштаб, ракурс, пространственная плотность сцены и эмоциональный тон кадра.

Лучше всего модели удалось передать цельное атмосферное состояние и единый визуальный язык между кадрами. Отдельно можно отметить удачную работу с тональными переходами и ощущением глубины в композиции. В ряде генераций заметны типичные ограничения диффузионных моделей: локальная перегруженность второстепенных зон и эпизодический визуальный шум фона. Эти эффекты компенсировались ручным кураторским отбором изображений для финальной серии.

Итог проекта подтверждает, что обучение SDXL DreamBooth LoRA на компактном, но аккуратно подобранном датасете позволяет получить выразимую художественную серию с устойчивым авторским стилем. Модель в этом проекте используется как инструмент продолжения визуальной интонации, а не как механическое копирование отдельных изображений.

Файл с кодом

Датасет использованный для обучения