Обучение генеративной нейросети под стиль Германа Гессе на Geograffee

Концепция

Исходный размер 623x572

Герман Гессе. Красный дом, 1922

Акварельные работы Герман Гессе — это продолжение его литературного мира, перенесённое в цвет и форму. Его пейзажи и воображаемые пространства строятся на прозрачных слоях, мягких переходах и внутреннем ритме, где важнее состояние, чем точность или детализация.

1. Герман Гессе. Горы за деревьями, 1926 2. Герман Гессе. Деревушка, 1927

В проекте эта логика переносится в цифровую среду: модель обучалась на пейзажных сценах, заданных через систему промптов: долины, леса, водоёмы, горные и прибрежные ландшафты. Эти описания формируют разнообразное визуальное поле.

Выбор такой цели напрямую связан с природой живописи Гессе: она не стремится к академической точности и функционирует как медитативная практика — способ фиксировать состояние и настроение. Поэтому основной концепт проекта — не воспроизведение конкретных ландшафтов, а попытка перенести этот принцип в генерацию: текучесть формы, многослойность цвета и атмосферность изображения. В этом смысле модель работает как среда для проявления визуального состояния.

Работы Германа Гессе. 20 век

Итоговая серия

Итоговые изображения

Исходный размер 2480x786

Итоговые изображения

В процессе обучения использовалась серия пейзажных промптов, описывающих природные сцены с разной атмосферой и светом. Важным было не только разнообразие сюжетов, но и акцент на состояниях среды — туман, мягкий свет, закат, рассвет, ветер, влажность воздуха.

Примеры промптов: serene river flowing through meadows; foggy moorland with solitary tree; peaceful rice terraces at sunrise; dramatic sky over prairie.

Исходный размер 2048x2048

Итоговое изображение

Итоговые изображения

В результате генерации удалось добиться изображений, которые не воспроизводят пейзажи буквально, а интерпретируют их через акварельную эстетику. На представленных изображениях видно, что формы упрощаются и обобщаются, контуры становятся мягкими и слегка размытыми, а цвет работает слоями. Пространство часто теряет линейную перспективу и становится более плоскостным и декоративным.

При этом сохраняется разнообразие состояний: от холодных туманных сцен с минималистичной композицией до насыщенных орнаментальных ландшафтов с яркими цветовыми акцентами. В некоторых изображениях проявляется абстрактная структура, где пейзаж считывается скорее через цветовые поля и ритм, чем через детали.

Итоговые изображения

Исходный размер 2480x786

Итоговые изображения

Получившиеся изображения демонстрируют вариативность внутри единого акварельного языка: при общей стилистике они различаются степенью абстракции, цветом и построением пространства. Заметен диапазон от приглушённых, туманных сцен с холодной палитрой до насыщенных, контрастных изображений, где цвет становится главным выразительным средством. В одних случаях пространство выстраивается через глубину и перспективу, в других — схлопывается в плоскость, превращаясь в ритм полос и цветовых масс.

Итоговые изображения

Процесс создания генеративной модели

Для обучения нейросетевой модели я сформировала датасет, включающий 61 акварельную работу Герман Гессе. Изображения подбирались вручную с акцентом на устойчивые визуальные характеристики: мягкие природные ландшафты, архитектурные мотивы и медитативную композицию. Важным критерием была не сюжетная уникальность, а повторяемость художественных принципов — прозрачность акварельных слоёв, плавные цветовые переходы и ощущение «воздуха».

Итоговые изображения

Сначала проверяется GPU и настраивается среда, после чего устанавливаются необходимые библиотеки и загружается скрипт DreamBooth LoRA для обучения модели без полного переобучения.

Далее создаётся директория и загружается датасет, приведённый к единому формату. После этого проводится визуальная проверка: изображения собираются в сетку, чтобы убедиться в их стилистической согласованности и отсутствии выбросов.

Изображения загружаются из директории, после чего выбирается несколько примеров и объединяется в сетку с помощью функции image_grid.

Исходный размер 2480x828

Затем я перешла к этапу автоматической разметки изображений. Для этого использовалась модель BLIP, которая преобразует изображения в текстовые описания. Для каждого изображения генерируется подпись, к которой добавляется стилевой префикс «in the style of HERMANN_HESSE». Это позволяет модели в процессе обучения связать текстовый токен с визуальным стилем.

После этого настраивается accelerate, который отвечает за оптимизацию обучения и управление вычислительными ресурсами. Далее выполняется авторизация в Hugging Face и устанавливается библиотека datasets для работы с данными.

Исходный размер 2480x592

Итоговые изображения

Основной этап — обучение модели. В качестве базовой архитектуры используется Stable Diffusion XL, а LoRA применяется для внедрения стилевых особенностей без полного переобучения модели. Параметры обучения подбираются так, чтобы обеспечить баланс между скоростью и качеством результата.

Исходный размер 2480x812

После завершения обучения создаётся репозиторий на Hugging Face, куда загружаются веса модели и описание (model card). Затем собирается inference-пайплайн: к базовой модели подключается VAE и обученные LoRA-веса.

На финальном этапе генерируется серия изображений. Используется набор различных природных сцен, к которым добавляется стилевой префикс, что позволяет проверить, насколько стабильно модель переносит стиль на разные сюжеты.

ссылка на ноутбук с кодом

Итоговые изображения

Использование нейросетей

В процессе работы я использовала ChatGPT как инструмент для решения технических задач и оптимизации кода. Он помогал разбирать ошибки и находить причины сбоев. Кроме того, применялся на концептуальном уровне — для формулирования идей и структурирования подхода к работе со стилем и датасетом.

Upscayl использовался для улучшения качества сгенерированных картинок.

Исходный размер 2048x2048

Итоговое изображение