Fine-tuning диффузионной модели для генерации постеров в стиле Shepard Fairey
Цель проекта: создать лёгкую адаптацию (LoRA) для Stable Diffusion XL, способную генерировать изображения в узнаваемом графическом стиле пропагандистских постеров — характерном для работ художника Шепарда Фейри (Shepard Fairey).
Shepard Fairey — американский художник и дизайнер, получивший мировую известность благодаря постеру «HOPE» для кампании Барака Обамы (2008) и проекту «OBEY Giant». Его стиль сочетает эстетику уличного искусства, трафаретную технику и визуальный язык политической пропаганды с влиянием советского конструктивизма.
Характерные черты работ Фейри: ограниченная палитра (красный, синий, кремовый), высокий контраст, упрощённые формы и социальный подтекст. В своём творчестве он исследует темы власти, сопротивления и массовой культуры, превращая искусство в инструмент визуальной коммуникации. Именно этот узнаваемый стиль мы воспроизводим с помощью файнтюнинга диффузионной модели.
Сбор датасета
Для реализации проекта был собран датасет из 50 изображений, демонстрирующих характерный графический стиль Шепарда Фейри. Каждое изображение прошло автоматическую разметку: нейросеть BLIP генерировала описание содержимого, а алгоритм OCR распознавал текстовые элементы на плакатах. Далее все файлы были стандартизированы до разрешения 512×512 пикселей методом pad, что позволило сохранить исходные пропорции и важную информацию без обрезки.
Код для подготовки датасета доступен по ссылке
Примеры обучающей выборки: портреты в стиле Shepard Fairey
Примеры обучающей выборки: портреты в стиле Shepard Fairey
Примеры обучающей выборки: портреты в стиле Shepard Fairey
Обучение
В основе проекта лежит модель Stable Diffusion XL 1.0, которая была адаптирована методом DreamBooth с использованием технологии LoRA (Low-Rank Adaptation) для эффективного файнтюнинга. Для корректной работы с полуточечной точностью и экономии видеопамяти применялся специализированный VAE от madebyollin, а также оптимизации через библиотеки bitsandbytes и accelerate. Технический стек реализации включал ключевые инструменты экосистемы Hugging Face: diffusers, transformers, peft и datasets для управления обучающей выборкой. Активация усвоенного стиля происходит при использовании триггерной фразы «fairey style poster» в текстовом запросе к модели. Такой подход позволил сохранить вес адаптера минимальным при высоком качестве генерации в целевой эстетике.
Установка зависимостей
Конфигурация обучения кастомной LoRA модели: указаны пути к предобученной модели SDXL, директории с данными обучения, гиперпараметры (learning rate, batch size, количество шагов), а также настройки scheduler и checkpointing
Результирующая серия изображений
Серия представляет собой портреты известных личностей, стилизованные под эстетику постеров Шепарда Фейри: графичность, высокий контраст, ограниченная палитра (кремовый/красный/голубой).
Модель точно передала ключевые элементы стиля — трафаретную манеру, цветовое разбиение и узнаваемую «плакатную» эстетику. Попадание в цвет довольно точное, персонажи сохранили индивидуальность.
Текст пишется плохо — особенность диффузионных моделей, которые интерпретируют буквы как визуальные паттерны, а не как символы. По этой причине подписи внизу плакатов исправлены вручную через Photoshop. Также в отдельных случаях потребовалась ручная доработка фона для достижения идеально чистых цветовых зон. Исходные генерации доступны по ссылке
Несмотря на минимальную постобработку, результаты полностью соответствуют концепции проекта: изображения выглядят как единая коллекция стилизованных постеров, готовых к использованию в формате карточек или печатной графики.
Настройка окружения: инициализация библиотеки accelerate и аутентификация в Hugging Face Hub для доступа к репозиториям.»
Код для загрузки обученной LoRA модели в репозиторий Hugging Face
Применение генеративной модели
В процессе разработки модель Qwen 3.5-Plus применялась для генерации промтов, а также для анализа и корректировки логики кода.