Original size 2480x3500

Обучение генеративной нейросети под стиль средневековых миниатюр

PROTECT STATUS: not protected

Концепция проекта

Книжная миниатюра — жанр изобразительного искусства, получивший широкое распространение в эпоху Средневековья. Средневековые миниатюры обладают рядом художественных особенностей, выделяющих их среди других произведений и обеспечивающих их узнаваемость. Основной идеей моего проекта стала генерация изображений, так или иначе связанных с современностью, в стилистике средневековых миниатюр. Мне хотелось посмотреть, как могли бы выглядеть оформленные в этом стиле объекты, имеющие непосредственное отношение к сегодняшней реальности.

big
Original size 5175x1713
big
Original size 5028x1558

Примеры изображений из датасета

Код

Сначала происходит установка необходимых библиотек и скрипта для тренировки модели.

big
Original size 926x209

Далее происходит загрузка изображений в Google Collab и вывод нескольких изображений для просмотра и проверки правильности загрузки.

big
Original size 708x358
Original size 1315x642

Далее идет инициализация пайплайна обработки изображений. Используется предобученная модель BLIP, которая описывает содержимое изображений.

Original size 1077x500

Затем создается JSON-файл с описаниями изображений в средневековом стиле: к каждой автоматически сгенерированной подписи изображения добавляется префикс «photo in medieval style».

Original size 611x235

Далее происходит инициализация акселератора для ускорения обучения модели и вход в аккаунт Hugging face.

Original size 417x87
Original size 369x56

Затем происходит запуск обучения.

Original size 620x409

После этого модель сохраняется в репозиторий Hugging face.

Original size 541x110

Далее происходит загрузка стандартной модели Stable Diffusion и добавление к ней весов LoRA для тонкой настройки модели.

Original size 765x257

После этого можно приступать к генерации изображений для проекта.

Серии изображений

Серия персонажей поп-культуры в средневековом стиле

Для первой серии изображений я решила посмотреть, как нейросеть встроит персонажей современной поп-культуры в стилистику средневековых миниатюр, чтобы понять, насколько хорошо нейросети удастся встроить в один стиль объекты другого. Для антропоморфных персонажей нейросеть часто создавала одежду в средневековом стиле, чтобы они смотрелись более органично. Также нейросеть часто сама добавляла декоративные элементы, например, орнаментны или паттерны, обеспечивающие узнаваемость стиля, но иногда их приходилось вписывать в промпт отдельно.

Original size 1024x1024

Промпт: mickey mouse in medieval style

Original size 4575x2217

Промпт: batman fighting a dragon

Original size 1024x1024

Промпт: red bird from angry birds with a flower pattern on the background in medieval style

Original size 1024x1024

Промпт: bugs bunny in medieval style

Original size 1024x1024

Промпт: darth vader in medieval style

Серия изображения для разных медиумов и носителей

Вторая серия изображений представляет собой ряд носителей, связанных с графическим дизайном и широко используемых в современном мире. В качестве таких медиумов я выбрала рекламный плакат, логотип, разворот комикса и паттерн. Мне хотелось посмотреть, как нейросеть совместит нестандартный для средневековых миниатюр формат с заданной стилистикой.

Original size 1024x1024

Промпт: an advertisement for a burger with lettering in medieval style

Original size 1024x1024

Промпт: an advertisement for a car with lettering in medieval style

Original size 4954x1558

1: Промпт: logo for a brand in medieval style / 2, 3: Промпт: logo for a publishing house with lettering in medieval style

Original size 1024x1024

Промпт: a colorful comic book page divided in sqares in medieval style

Original size 1024x1024

Промпт: pattern in medieval style

Original size 4575x2217

Промпт: pattern with animals in medieval style

Original size 1024x1024

Промпт: pattern with stars in medieval style

Original size 4575x2217

Промпт: pattern with flowers in medieval style

Серия изображений, вдохновленных обложками музыкальных альбомов

Для третьей серии я решила повторить сюжеты с обложек известных музыкальных альбомов в средневековом стиле. У меня не было задачи в точности повторить композицию или скопировать оригинальную обложку, так как мне было интересно посмотреть, что получится на основе только заданного сюжета и ключевых образов с оригинальной обложки, и как именно нейросеть построит новое изображение, основываясь на художественных и композиционных принципах средневековых миниатюр.

Original size 3615x2217

Промпт: four man walking apart from each other in profile on a modern crosswalk with modern cars and trees in the background in medieval style / Обложка альбома группы The Beatles «Abbey Road»

Original size 3615x2217

Промпт: a naked kid swimming underwater catching a banknote in medieval style / Обложка альбома группы Nirvana «Nevermind»

Original size 3615x2217

Промпт: an orange pool under blue sky in medieval style / Обложка альбома группы Red Hot Chili Peppers «Californication»

Original size 3615x2217

Промпт: a man looking up viewed from above surrounded by dark silhouettes of other people in medieval style / Обложка альбома группы Muse «Absolution»

Original size 3615x2217

Промпт: a girl in white sitting on a white bed on a black background in medieval style / Обложка альбома Билли Айлиш «When We All Fall Asleep, Where Do We Go?»

Original size 3615x2217

Промпт: a kid on a swing with a big bug in his lap on a blue background in medieval style / Обложка альбома группы The Offspring «Americana»

Original size 3615x2217

Промпт: a black dog in a muzzle and a yellow dog running towards the viewer in medieval style / Обложка альбома группы Blur «Parklife»

Вывод

Нейросеть довольно хорошо справляется с рисованием паттернов, узоров и орнаментов, характерных для миниатюр, также иногда в картинки добавляются части текста и леттеринг, что также свойственно изображениям из датасета. Кроме того, нейросеть, как правило, справляется с построением композиции в заданном стиле: композиция изображений плоская и часто обладает декоративными графическими элементами. Для стилизации персонажей нейросеть часто использует добавление средневековой одежды, что в целом работает как прием, но, на мой взгляд, является несколько формальным. Не во всех, но во многих изображениях нейросети удается стилизовать черты лиц людей под стилистику миниатюр, но более удачно, как мне кажется, получаются животные. В целом, практически во всех изображениях получилось передать стилистику, даже несмотря на разные форматы и медиумы, использованные в проекте.

Описание применения генеративной модели

Stable Diffusion — нейросеть, на основе которой была создана модель Chat GPT — использовался для дополнения кода

Обучение генеративной нейросети под стиль средневековых миниатюр
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more