Концепция
Проект посвящен исследованию того, как генеративная модель может освоить индивидуальный авторский стиль на ограниченном объеме данных. В качестве исходного материала я использовала собственные иллюстрации, объединенные характерной манерой: мягкая карандашная фактура, теплая цветовая гамма, «наивные» пропорции и уютная атмосфера. Мне было важно не просто получить изображения, похожие на мои работы, но и понять, какие стилевые особенности модель усваивает легко, а какие требуют дополнительной настройки.
В процессе генерации выявились типичные для диффузионных сетей проблемы: искажение черт лица, асимметрия глаз, деформация пропорций. Это подчеркнуло, что даже современные модели нуждаются в тщательном контроле.
Проект стал для меня возможностью освоить полный цикл: от подготовки датасета и разметки подписей до настройки параметров и анализа результатов. Это помогло не только получить практические навыки работы с диффузионными моделями, но и глубже понять их ограничения
Датасет и блокнот
Обучение модели
Я использовала 16 собственных иллюстраций, загрузив их в Google Colab в папку my_style/. В качестве уникального идентификатора стиля был выбран токен VAMPIRE
После загрузки изображений я сгенерировала текстовые описания с помощью BLIP, добавив к каждому префикс in the style of VAMPIRE. Это позволило создать уникальный идентификатор стиля. Дообучение проводилось на базе Stable Diffusion XL с использованием методов с использованием методов DreamBooth и LoRA.
Гиперпараметры: разрешение — 512×512 train batch size — 2 gradient accumulation steps — 3 learning rate — 1e-4 количество шагов — 500
Обучение заняло около 40 минут. Результаты показали, что модель хорошо усвоила общую стилистику: цветовую гамму, фактуру штриха, композиционные приtмы. Однако проблемы с лицами подтвердили, что для точного воспроизведения чувствительных элементов необходим либо больший датасет, либо дополнительная тонкая настройка.
Получившиеся генерации
Portrait art, a girl with flowing red hair, dreamy eyes, freckles, soft colored pencil texture, gentle lighting, botanical background, peaceful expression
Portrait art, a young witch with a pointed hat, friendly smile, star motifs, soft watercolor feel, hand-drawn outlines, magical sparkles, cozy autumn colors
Portrait art, a character with curly hair, bold glasses, joyful laugh, vibrant but muted colors, visible pencil strokes, abstract floral background, cheerful energy
Portrait art, a boy with glasses, oversized sweater, holding a book, warm earthy tones, hand-drawn lines, cozy atmosphere, simple shapes, textured shading
Portrait art, a daydreamer sitting on clouds, floating, soft clouds, stars, gentle expression, colored pencil shading, whimsical atmosphere, light and airy
Portrait art, a couple dancing, stylized figures, flowing dresses, romantic mood, soft gradients, warm color palette, decorative flower border, intimate atmosphere
Portrait art, a cat wearing a tiny crown, whimsical style, soft pastel colors, playful expression, floral wreath around, hand-drawn texture, magical mood
Portrait art, a fox in a forest, simplified shapes, warm orange tones, colored pencil texture, leaves and mushrooms, gentle sunlight, storybook illustration
Инструменты
Stable Diffusion XL (SDXL) — базовая модель генерации изображений, на основе которой проводилось дообучение. https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
DreamBooth — техника дообучения модели на персональном наборе данных. https://huggingface.co/docs/diffusers/training/dreambooth
LoRA — метод параметрически эффективного дообучения, позволивший адаптировать модель на GPU T4. https://huggingface.co/docs/diffusers/training/lora
Perplexity — использовался для генерации идей промптов и поиска решений по настройке кода. https://www.perplexity.ai/




