Обучение генеративной нейросети под стиль Винсента Ван Гога на Geograffee

описание идеи

Винсент Ван Гог — один из самых узнаваемых художников в истории искусства. Его работы отличаются мгновенно считываемой манерой: экспрессивные мазки, вихревые композиции, насыщенный колорит с контрастными желтыми, синими и зелеными оттенками. Мне стало интересно, способна ли современная генеративная модель не просто «знать» информацию о Ван Гоге, но и воспроизвести его стиль так, чтобы новые изображения воспринимались органично рядом с оригиналами

Датасет был намеренно ограничен (33 изображения), чтобы проверить, насколько модель способна обобщить стиль при минимальных данных

Исходный размер 1920x337

исходные изображения для обучения (несколько примеров)

процесс обучения

В качестве базы использовалась Stable Diffusion XL (SDXL) с дообучением на собранном датасете

DreamBooth — для закрепления ключевых стилистических черт: характерная фактура мазка (густые, направленные, почти скульптурные движения кисти), цветовые сочетания (охристые желтые, глубокие синие, контрастные зеленые)

LoRA — для тонкой настройки без перезаписи базовой модели: акцент на деталях (завихрения в небе и фоне, плотность и ритм мазков, характерное свечение вокруг источников света)

Обучение проходило на A100 через Google Colab, 500 шагов

Модель основана на stable-diffusion-xl-base-1.0 https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

результат

Итоговая серия включает восемь изображений, охватывающих ключевые жанры живописи Ван Гога: портрет, натюрморт, пейзаж и жанровая сцена. Такой охват не случаен, он позволяет проверить, насколько дообученная модель усвоила стиль не как набор поверхностных фильтров, а как устойчивую живописную систему, работающую в разных контекстах

Исходный размер 1024x1024

photo collage in van gogh style, a man with a long white beard

Исходный размер 1024x1024

photo collage in van gogh style, big window in the springtime

Исходный размер 1024x1024

photo collage in van gogh style, birds in the sky

Исходный размер 1024x1024

photo collage in van gogh style, little girl in a blue dress

Наиболее очевидная общая черта всех изображений — это характерная фактура мазка. Модель уверенно воспроизводит направленные, слегка вибрирующие штрихи, которые Ван Гог использовал для передачи движения и внутренней энергии формы. Особенно это заметно в натюрмортах: тюльпаны в синей вазе и цветы у окна демонстрируют плотную, почти скульптурную укладку мазков. Именно так Ван Гог строил объем через линию, а не через светотень

Цветовая палитра также считывается как «вангоговская»: охристые желтые, насыщенные зеленые, приглушенные бирюзовые фоны. Модель научилась использовать характерный контраст теплого переднего плана и холодного, почти монохромного фона — прием, встречающийся в портретах художника

Исходный размер 1024x1024

photo collage in van gogh style, woman surrounded by yellow flowers

Исходный размер 1024x1024

photo collage in van gogh style, red tulips in a blue vase

Исходный размер 1024x1024

photo collage in van gogh style, sunny morning on the beach

Исходный размер 1024x1024

photo collage in van gogh style, white horse in wildflowers field

вывод

Эксперимент подтвердил исходную гипотезу: датасет даже с ограниченным количеством изображений в сочетании с DreamBooth + LoRA позволяет добиться устойчивой стилевой передачи. Модель не просто «накладывает фильтр Ван Гога», она воспроизводит логику его живописного мышления: построение формы через мазок, специфическую колористику, отношение фигуры и фона. Наиболее убедительные результаты получились там, где в обучающей выборке был богатый визуальный материал (портреты и натюрморты), а наименее предсказуемые — там, где модели пришлось импровизировать с непривычными сюжетами

ноутбук с кодом