Наскальная живопись. Обучение генеративной модели на Geograffee

Концепция

Я часто думаю о том, что мне очень не нравится стремительное технологическое усовершенствование мира, в котором мы живём: с одной стороны, конечно, манят удобства и доступность цифровых сервисов и продуктов, которые, помимо расширения досуговых, возможностей упрощают работу, с другой стороны, складывается ощущение, что зачастую технологические новшества привносят в общественную жизнь дегуманизацию и обесценивание ручного труда. Я успокаиваю себя мыслью о том, что, в целом, сумела бы прекрасно существовать и без технологий, и при этом, вполне вероятно, что даже смогла бы как-то профессионально реализоваться. В такие моменты я думаю о наскальной живописи и о том, что, несмотря на свою примитивность, она обладает каким-то трогательным свойством, которое невозможно было бы передать используя даже самые замысловатые пигменты, формы, композиции и сюжеты. Отсюда у меня возникла идея создания проекта, в котором я попытаюсь обучить генеративную модель Stable Diffusion наскальной живописи для того, чтобы посмотреть, как хорошо она почувствует случайность и естественность линий и форм. Мне также кажется это вполне этичным решением, поскольку навряд ли художники смогут иметь претензии к тому, что их работы были использованы для обучения нейросети.

Исходный размер 1280x256

Пример изображений из собранного мной датасета для обучения модели

Я использовала изображения с пометкой «No restrictions» с Wikimedia. В мой датасет попали не только палеолитические рисунки, но и некоторые примеры наскальной живописи более позднего времени, например, росписи пещерных монастырей из Индии. Такой подход к выборке материала позволил использовать для обучения примеры изображений, перенёсших повреждения.

Серия изображений

Исходный размер 1024x1024

cave painting style, prehistoric rock art, bisons and people drawn with black lines on the stone surface

Исходный размер 1024x1024

cave painting style, prehistoric rock art, red bisons, white background, red ochre gradients

Исходный размер 1024x1024

cave painting style, prehistoric rock art, red silhouttes of horses and people, one man is standing in the front of the composition, black line art, dark grey background, ochre gradients

Исходный размер 1024x1024

cave painting style, prehistoric rock art, naive and primitive yellow silhouttes of horses, painting is damaged in some places, black line art, black background, yellow gradients

Исходный размер 1024x1024

cave painting style, prehistoric rock art, red hand prints, flowers, cave texture, white background, red ochre gradients

Исходный размер 1024x1024

prompt: cave painting style, prehistoric rock art, red silhouttes of hands and flowers, black line art, red background, black gradients

Исходный размер 1024x1024

prompt: cave painting style, prehistoric rock art, white silhoutte of a man looking upside, flowers, black line art, ochre background, red gradients

Исходный размер 1024x1024

cave painting style, prehistoric rock art, black silhoutte of a man with a fish, red background, ochre gradients

Исходный размер 1024x1024

cave painting style, prehistoric rock art, naive, primitive silhoutte of a woman portrait with black hair and dark eyes, painting is damaged in some places, the woman is wearing blue jewellery

Исходный размер 1024x1024

cave painting style, prehistoric rock art, primitive portrait of a man, flower pattern, white background, red ochre gradients

Исходный размер 1024x1024

cave painting style, prehistoric rock art, naive and primitive painting, portrait, damaged pictures, cave texturea painting of a woman and a man

Развернутый комментарий к изображениям

В наскальной живописи, а в частности, в доступных мне изображениях наскальной живописи, которые попали в датасет часто изображены животные: бизоны и лошади, этим можно объяснить то, что модель очень хорошо справляется с имитацией этих образов. Нейросеть чувствует пропорции, габариты и композиционное решение при изображении, например, стада бизонов или лошадей.
Однако с рисованием рук и верного количества пальцев нейросеть не очень хорошо справилась, с другой стороны, это даже позитивно влияет на аутентичность художественного стиля, поскольку в первобытных рисунках люди нередко изображали большее количество конечностей у животных, чтобы передать их подвижность (предположительно).
С портретом модель справляется не очень хорошо. В датасет были включены некоторые портретные изображения, однако, для того, чтобы достичь наиболее приближенного результата приходилось отдельно прописывать в промпте, что стиль портрета должен быть наивным, малореалистичным и что краска на изображении должна быть повреждена. При этом если попросить модель изобразить силуэт человека, она часто использует схожие позы: люди почти всегда повернуты в профиль, либо в ¾.
Также важно отметить, что модель успешно справляется с передачей цвета пигментов и текстурой скал, а также с «состариванием» рисунка.
Хорошо получается и передавать неравномерную толщину линий и текстуру отпечатков.

Процесс обучения

Базовая модель: Stable Diffusion XL 1.0 (stabilityai/stable-diffusion-xl-base-1.0) + VAE FP16 Fix (madebyollin/sdxl-vae-fp16-fix) Метод адаптации: DreamBooth с LoRA (Low-Rank Adaptation) Разрешение обучения: 512×512 пикселей Рекомендуемые параметры генерации: разрешение 768×768, вес LoRA 0.7–0.8, шаги 30–40

Описание применения генеративной модели

Stable Diffusion XL 1.0 — Ссылка: https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 — Цель: Базовая архитектура для генерации изображений BLIP (Bootstrapping Language-Image Pre-training) — Ссылка: https://huggingface.co/Salesforce/blip-image-captioning-base — Цель: Автоматическая аннотация обучающих изображений Dreambooth + LoRA методик — Цель: Эффективная персонализация базовой модели под специфический стиль

Блокнот с кодом