Генерация изображений в стиле конструктивистских travel-постеров на Geograffee

Идея: обучить генеративную нейросеть рисовать изображения в стиле конструктивистских travel-постеров.

Исходные изображения для обучения

Процесс

В проекте используется подход дообучения Stable Diffusion (SDXL) через LoRA, чтобы модель научилась генерировать изображения в заданном стиле.

Подготовка датасета Сначала собирается набор изображений. Все изображения приводятся к формату 1:1 (квадрат), подбираются так чтобы был выдержан в одном стиле.

Генерация подписей (BLIP captions)

Для каждого изображения автоматически создаётся текстовое описание с помощью модели BLIP.

Затем формируется json-файл, где каждая строка содержит путь к изображению и текстовое описание.

Подключение базовой модели (SDXL)

Загружается предобученная модель. Она уже умеет генерировать изображения по тексту и работать с различными стилями

Обучение через LoRA (ключевой этап)

Используется метод LoRA (Low-Rank Adaptation). Базовая модель замораживается (не меняется полностью), добавляются маленькие обучаемые слои (LoRA), обучаются только они.

Генерация изображений (инференс)

После обучения используется специальный токен/ключевое слово («constructivist_style») и генерируются изображения («a futuristic city in constructivist_style»).

Итоговый результат

Исходный размер 1024x1024

Визуальный анализ

Во всех работах заметны: — доминирование крупных графических пятен; — диагональная динамика; — сокращённая палитра; — стилизация света и тени под печатную графику; — упрощённая, но узнаваемая архитектура и предметная среда.

При этом отдельные изображения варьируют настроение: часть сцен выглядит торжественно и монументально, часть — камерно и почти лирично. Это показывает, что обученная модель не копирует датасет буквально, а производит вариации внутри заданного художественного языка.

Ссылка на код

Описание применения генеративной модели

Для данной работы использовалась нейросеть ChatGPT.

Применение: — генерация кода — генерация изображения для обложки