Африканская маска в разных контекстах: генерация образа с помощью Stable Di на Geograffee

Идея проекта

В данном проекте исследуется, как генеративная нейросеть интерпретирует объект вне его исходного культурного и визуального контекста.

В качестве основы был выбран конкретный тип объекта — африканские ритуальные маски. Эти объекты обладают узнаваемой формой и исторически закреплённым значением, однако в рамках проекта они помещаются в несвойственные им среды.

46 изображений масок были найдены и загружены с сайта Wikimedia Commons. Все скаченные файлы распространяются по открытой лицензии и были собраны в единый датасет в облачном хранилище.

Работа с кодом

В результате работы над проектом был создан код, который берёт собранные мной заранее изображения африканских масок, самостоятельно подгоняет их под формат 1:1 и далее запускает процесс обучения модели

Полный код доступен к изучению по ссылке на диске

Исходный размер 1038x1210

Исходный размер 1288x650

Обучение проводилось в течение 1000 шагов с сохранением промежуточных чекпоинтов каждые 250 шагов, что позволяло отслеживать состояние модели на разных этапах обучения.

Исходный размер 2722x604

Результаты генерации

После обучения модели была создана серия изображений, в которой африканские маски помещаются в различные визуальные контексты.

В отличие от классического подхода, где нейросеть генерирует вариации одного персонажа, в данном проекте исследуется поведение одного и того же типа объекта в разных средах.

Итоговая обученная модель есть на Hugging Face

Исходный размер 2704x676

1. Prompt: «photo of afrmask african ritual mask as an ancient artifact in the desert at sunrise» 2. Prompt:"photo of afrmask african ritual mask in a misty forest, atmospheric fog»

Исходный размер 1024x1024

Prompt: «photo of afrmask african ritual mask on a runway fashion show, spotlight, dark background, high contrast, ultra detailed»

1. Prompt: «photo of afrmask african ritual mask burning with subtle flames, dark background» 2. Prompt: «photo of afrmask african ritual mask in a frozen environment, ice textures, cold blue tones»

Исходный размер 1024x1024

Prompt: «photo of afrmask african ritual mask in a neon cyberpunk alley, rain, reflections, night lighting, ultra detailed»

1. Prompt: «photo of afrmask african ritual mask as a sacred dream object, surreal atmosphere» 2. Prompt:"photo of afrmask african ritual mask in a museum of the future, minimal architecture, soft»

1. Prompt: «photo of afrmask african ritual mask inside a luxury jewelry showcase, gold reflections» 2. Prompt:"photo of afrmask african ritual mask in a volcanic environment, lava glow, smoke»

Анализ результатов

Итоговая серия изображений показывает африканские ритуальные маски в новых, несвойственных им контекстах: в футуристических интерьерах, тумане, студийной съёмке, цифровой среде и других пространствах. В исходном датасете маски существовали как музейные объекты, а в генерациях они начинают восприниматься как самостоятельные визуальные образы. Именно в этом и заключалась основная идея проекта: проверить, сохраняет ли объект свою идентичность при переносе в другой контекст.

Лучше всего нейросеть усвоила форму масок, симметрию, вытянутые пропорции лица, деревянную фактуру и общее ощущение резного предмета. Даже при смене окружения маски остаются узнаваемыми, что говорит о том, что модель запомнила не только внешний силуэт, но и характерные признаки объекта. При этом в разных изображениях меняются свет, атмосфера, композиция и настроение, за счёт чего серия выглядит вариативной.

Результаты в целом соответствуют первоначальной идее. Модель не просто повторяет музейные фотографии, а адаптирует образ маски под разные визуальные сценарии. В этом проекте важную роль сыграла подготовка датасета: изображения были приведены к квадратному формату 1:1, а также автоматически подписаны, чтобы модель лучше соотносила визуальный образ и текстовое описание. Дополнительные методы сложной постобработки не использовались: итог в основном строился на дообучении Stable Diffusion XL через DreamBooth и LoRA, а также на работе с промптами.

Изображения отличаются друг от друга прежде всего средой и подачей. В одних случаях маска выглядит как музейный артефакт будущего, в других — как модный объект или почти сюрреалистический образ. Иногда появляются небольшие артефакты или лишние декоративные детали, но в целом серия получилась цельной. Она показывает, что нейросеть может достаточно устойчиво переносить один и тот же тип объекта в разные контексты, сохраняя его узнаваемость.

Искусственный интеллект применялся для:

генерации изображений на основе обученной модели
автоматического создания описаний изображений (captioning)
тестирования вариативности визуального образа

Дополнительно генеративные инструменты могли использоваться для формулирования текстов проекта и разработки концепции.

Вывод

Данный проект показал, что генеративная нейросеть способна воспринимать объект как носителя визуальной идентичности и воспроизводить его в различных контекстах.

Маска, будучи предметом, в процессе генерации начинает восприниматься как персонаж, что позволяет рассматривать подобные технологии как инструмент для создания новых визуальных образов и концептов.

Использованные нейросети

ChatGPT (OpenAI) — редактирование промтов и помощь в подключении обученной модели в другой среде.
Stable Diffusion XL — генерация изображений и обучение генеративной модели.