Исходный размер 2480x3500

Обучение генеративной нейросети стилю детских рисунков

Проект принимает участие в конкурсе

Концепция

Данный проект посвящён исследованию возможностей генеративных нейросетей на примере обучения модели Stable Diffusion воспроизводить стиль детских рисунков.

В основе проекта лежит гипотеза о том, что нейросеть способна не только копировать визуальные паттерны, но и интерпретировать специфические особенности наивного художественного языка — такие как упрощённые формы, яркие цветовые сочетания и отсутствие академической перспективы.

Цель проекта — обучить модель генерировать изображения, визуально и стилистически близкие к детскому рисунку, сохраняя характерные черты «наивного» изображения мира.

Датасет

В качестве обучающего датасета были использованы собственные изображения — детские рисунки, выполненные от руки. В набор вошли изображения персонажей, животных, фантазийных существ, а также простых сцен с элементами окружающего мира: домами, природой и объектами.

big
Исходный размер 1200x1200
Исходный размер 950x690

Процесс обучения

  1. Настройка среды Работа велась в Google Colab: установлены необходимые библиотеки (diffusers, transformers, accelerate), подключён GPU для ускорения вычислений.
Исходный размер 3374x582

2.Загрузка модели Загружена предобученная модель Stable Diffusion, которая использовалась как основа для дообучения.

Исходный размер 3334x1472
  1. Обучение модели (LoRA) Запущено дообучение с заданными параметрами (размер изображений, batch size, learning rate, количество шагов). Модель адаптировалась под стиль датасета.

  2. Сохранение весов После завершения обучения сохранены веса LoRA для дальнейшего использования.

Исходный размер 3320x342
Исходный размер 3358x1496
Исходный размер 1398x1306
  1. Генерация изображений С помощью обученной модели сгенерирована серия изображений по текстовым запросам (prompt) с указанием нужного стиля.

Итоговые генерации

Исходный размер 1024x1024

В результате обучения была получена серия изображений, сгенерированных нейросетью в заданном стиле. В серии представлены различные сюжеты: изображения животных, персонажей и простых сцен. Несмотря на разнообразие содержания, все изображения объединены единым визуальным стилем, который отсылает к исходному датасету. Нейросеть не просто копирует отдельные элементы, а генерирует новые композиции, опираясь на усвоенные закономерности.

Исходный размер 957x957

Анализ результатов показывает, что модели удалось воспроизвести ключевые характеристики детского рисунка. В сгенерированных изображениях прослеживаются упрощённые формы, чёткие контуры, яркие и несмешанные цвета, а также наивная композиция без соблюдения классической перспективы. Особое внимание заслуживает передача персонажей: модель усвоила такие черты, как крупные головы, схематичные части тела и эмоциональная выразительность, достигаемая минимальными средствами.

Вывод

Для реализации проекта использовалась модель Stable Diffusion с методом дообучения LoRA (Low-Rank Adaptation). Процесс включал подготовку датасета, разметку изображений текстовыми описаниями, настройку параметров и обучение модели в среде Google Colab с использованием графического ускорителя. В ходе генерации применялись текстовые запросы с ключевыми словами, описывающими стиль, а также варьировались параметры генерации для получения разнообразных результатов.

Обучение генеративной нейросети стилю детских рисунков
Проект создан 24.03.2026
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше