конепция проекта

В проекте реализована идея обучить модель воспроизводить визуальный стиль живописи Ван Гога, одного из центральных представителей направления постимпрессионизма конца XIX века, в изображении обыденности уже нашего времени, эпохи капитализма и консьюмеризма.

Ван Гог передает эмоциональное напряжение через деформацию форм окружающего мира, его мазок становится радикальным выражением не только света и эфемерного момента, как это было у импрессионистов, но и содержания этого конкретного момента, той сути, которая имманентна любому состоянию или объекту. Художник изображал то, что было вокруг него, «негероические» и не монументальные, а совсем простые сцены. Именно то, что изображает на свои полотнах Ван Гог, связывает его с художниками поп-арта, направления, которое активно развивалось в середине XX века. Поп-артисты, в свою очередь, хотели вернуть искусство к реальности после долгого периода авангарда, используя в своих работах такие же обыденные предметы и мотивы: рекламные лозунги, лица знаменитостей, игрушки, бытовая техника и т. д.

Цель проекта — попробовать представить и визуализировать в конкретных образах, определенных маркерах нашей современной реальности, использование которых было также характерно для художников поп-арта, как именно Ван Гог мог бы их запечатлеть, как его вибрирующие и «напряженные» мазки могли бы повлиять на изображение мира, существующего по законам другой, иной искренности.

исходные изображения

слева: «Урожай», 1888 / справа: «Пейзаж в Овере после дождя», 1890

слева: «Горы Сен-Рами», 1889 / справа: «Ирисы», 1889

В качестве изображений для обучения модели мной был собран датасет из 23 картин Ван Гога, отобранных по принципу наиболее яркой репрезентации характерных для него стилистических особенностей: импасто (густой мазок), чистые, насыщенные оттенки, включение темных контуров, динамичные и «вехревые» композиции, экспрессивность.

датасет

*Также в конфигурации обучения указывается «resolution»: 1024, что позволяет программе масштабировать изображение до соотношения 1024×1024 пикселей, после чего передавать готовое изображение в модель SDXL.

процесс обучения модели

В качестве начального этапа работы выступала загрузка библиотек и окружения необходимых для работы нейросети. Был загружен Git Hub репозиторий с пайтон скриптом, отвечающий за обучение LoRA, также была создана конфигурация accelerate, отвечающая за правильный запуск обучения на GPU.

Исходный размер 3500x1394

Следующим основным этапом шла подготовка окружения для обучения нейросети: (авторизация на HF скриптом, подготовка папок и загрузка изображений), после чего была проверка целостности файлов и написания каптов (текстовое описание содержания изображения) для каждого изображения в датасете.

В процессе обучения модели возникла ошибка связанная с тем, что скрипт .py пытался открыть наши .txt капты с помощью Image.open (), в связи с чем было принято решение подготовить скрипт, который устранят эту проблему и помогает модели пройти обучение.

Исходный размер 3500x1322

Далее были прописаны логи обучения LoRA для Stable Diffusion XL: инициализация шейдеров, токенизаторов, UNet. Сам процесс обучения занял около двух с половиной часов и позволил добиться следующих результатов: 800 шагов и средний loss равный 0.101.

Исходный размер 3500x1322

Следующим шагом была загрузка полученной модели и генерация 20 различных изображений, каждое из которых описывалось уникальным промптом и сохранялось в отдельную папку для дальнейшей выгрузки на диск.

блокнот с кодом

результаты генераций

Исходный размер 3500x1120

Исходный размер 3500x2530

наиболее удачная для меня генерация в композиционном смысле: попкорн как будто почти вываливается на зрителя, его «слишком много», что очень хорошо соотносится и с Ван Гогом и с поп-артом

Исходный размер 3500x1113

Модель достаточно хорошо воспроизводит яркий, динамичный, густой мазок, характерный для художника, однако почти никак не «переосмысляет» композицию в художественном смысле, предметы почти никак не искажаются или деформируются, буквализируются, как это было у Ван Гога.

В генерациях присутствует обилие оттенков желтого и зеленого цветов, которое есть также и в картинах художника.

Исходный размер 3500x1690

Интересно, что модель пытается оставить такие же сигнатуры (подпись художника на картине), какие есть на большинстве полотен реальных художников и Ван Гога в том числе.

Исходный размер 3500x1802

Модель очень хорошо понимала промпт на изображение коммерческих продуктов и товаров, почти воспроизводя работы поп-артистов, однако в этом терялась характерная для Ван Гога живописная манера, изображения только формально повторяли мазок художника, но никак не передавали его композиционные решения и работу с объектами. Например, банка супа (очень известная по картине Энди Уорхола) никак не была упрощена, все надписи на ней сохранились, чего бы, судя по анализу произведений, не сделал бы Ван Гог.

Исходный размер 3500x1725

Бала предпринята попытка запросить сгенерировать неоновые яркие цвета, которые мы сейчас часто видим в клубах, на заправках, на любых вывесках магазинов. В данном случае модель никак не переосмыслила эти, очевидно не характерные для художника цвета, оставив их базово кислотно яркими. На этих генерациях можно заметить портрет самого Ван Гога, но его живописная манера здесь почти никак не сохранена: сбоку игровых автоматов мы видим только оммаж на экспрессивный и густой мазок художника. Остальное изображение же скорее просто контурное.

Исходный размер 3500x1114

Легендарное звездное небо Ван Гога в сочетании с современным сюжетом, как мне кажется, у модели воссоздать не получилось, в мазках нет реального направления движения ветра, отражения света, это только формальное изображение мазков «по кругу».

Цвета здесь отклоняются от характерных для художника, что свидетельствует от том, что нейросети все еще трудно действовать по не шаблонному сценарию, применять стиль к совсем нетипичным для него сценам.

Исходный размер 3500x1394

промпты для генераций

использованные ресурсы

— Google Colab — Stable Diffusion XL — LoRA — Diffusers — Gemini 3 (написание промптов для генерации)

дополнительная ссылка на материалы проекта

Обучение генеративной модели. Ван Гог/поп-арт

конепция проекта

исходные изображения

процесс обучения модели

результаты генераций

использованные ресурсы