
Концепция проекта
Книжная миниатюра — жанр изобразительного искусства, получивший широкое распространение в эпоху Средневековья. Средневековые миниатюры обладают рядом художественных особенностей, выделяющих их среди других произведений и обеспечивающих их узнаваемость. Основной идеей моего проекта стала генерация изображений, так или иначе связанных с современностью, в стилистике средневековых миниатюр. Мне хотелось посмотреть, как могли бы выглядеть оформленные в этом стиле объекты, имеющие непосредственное отношение к сегодняшней реальности.


Примеры изображений из датасета
Код
Сначала происходит установка необходимых библиотек и скрипта для тренировки модели.

Далее происходит загрузка изображений в Google Collab и вывод нескольких изображений для просмотра и проверки правильности загрузки.

Далее идет инициализация пайплайна обработки изображений. Используется предобученная модель BLIP, которая описывает содержимое изображений.
Затем создается JSON-файл с описаниями изображений в средневековом стиле: к каждой автоматически сгенерированной подписи изображения добавляется префикс «photo in medieval style».
Далее происходит инициализация акселератора для ускорения обучения модели и вход в аккаунт Hugging face.
Затем происходит запуск обучения.
После этого модель сохраняется в репозиторий Hugging face.
Далее происходит загрузка стандартной модели Stable Diffusion и добавление к ней весов LoRA для тонкой настройки модели.
После этого можно приступать к генерации изображений для проекта.
Серии изображений
Серия персонажей поп-культуры в средневековом стиле
Для первой серии изображений я решила посмотреть, как нейросеть встроит персонажей современной поп-культуры в стилистику средневековых миниатюр, чтобы понять, насколько хорошо нейросети удастся встроить в один стиль объекты другого. Для антропоморфных персонажей нейросеть часто создавала одежду в средневековом стиле, чтобы они смотрелись более органично. Также нейросеть часто сама добавляла декоративные элементы, например, орнаментны или паттерны, обеспечивающие узнаваемость стиля, но иногда их приходилось вписывать в промпт отдельно.
Промпт: mickey mouse in medieval style
Промпт: batman fighting a dragon
Промпт: red bird from angry birds with a flower pattern on the background in medieval style
Промпт: bugs bunny in medieval style
Промпт: darth vader in medieval style
Серия изображения для разных медиумов и носителей
Вторая серия изображений представляет собой ряд носителей, связанных с графическим дизайном и широко используемых в современном мире. В качестве таких медиумов я выбрала рекламный плакат, логотип, разворот комикса и паттерн. Мне хотелось посмотреть, как нейросеть совместит нестандартный для средневековых миниатюр формат с заданной стилистикой.
Промпт: an advertisement for a burger with lettering in medieval style
Промпт: an advertisement for a car with lettering in medieval style
1: Промпт: logo for a brand in medieval style / 2, 3: Промпт: logo for a publishing house with lettering in medieval style
Промпт: a colorful comic book page divided in sqares in medieval style
Промпт: pattern in medieval style
Промпт: pattern with animals in medieval style
Промпт: pattern with stars in medieval style
Промпт: pattern with flowers in medieval style
Серия изображений, вдохновленных обложками музыкальных альбомов
Для третьей серии я решила повторить сюжеты с обложек известных музыкальных альбомов в средневековом стиле. У меня не было задачи в точности повторить композицию или скопировать оригинальную обложку, так как мне было интересно посмотреть, что получится на основе только заданного сюжета и ключевых образов с оригинальной обложки, и как именно нейросеть построит новое изображение, основываясь на художественных и композиционных принципах средневековых миниатюр.
Промпт: four man walking apart from each other in profile on a modern crosswalk with modern cars and trees in the background in medieval style / Обложка альбома группы The Beatles «Abbey Road»
Промпт: a naked kid swimming underwater catching a banknote in medieval style / Обложка альбома группы Nirvana «Nevermind»
Промпт: an orange pool under blue sky in medieval style / Обложка альбома группы Red Hot Chili Peppers «Californication»
Промпт: a man looking up viewed from above surrounded by dark silhouettes of other people in medieval style / Обложка альбома группы Muse «Absolution»
Промпт: a girl in white sitting on a white bed on a black background in medieval style / Обложка альбома Билли Айлиш «When We All Fall Asleep, Where Do We Go?»
Промпт: a kid on a swing with a big bug in his lap on a blue background in medieval style / Обложка альбома группы The Offspring «Americana»
Промпт: a black dog in a muzzle and a yellow dog running towards the viewer in medieval style / Обложка альбома группы Blur «Parklife»
Вывод
Нейросеть довольно хорошо справляется с рисованием паттернов, узоров и орнаментов, характерных для миниатюр, также иногда в картинки добавляются части текста и леттеринг, что также свойственно изображениям из датасета. Кроме того, нейросеть, как правило, справляется с построением композиции в заданном стиле: композиция изображений плоская и часто обладает декоративными графическими элементами. Для стилизации персонажей нейросеть часто использует добавление средневековой одежды, что в целом работает как прием, но, на мой взгляд, является несколько формальным. Не во всех, но во многих изображениях нейросети удается стилизовать черты лиц людей под стилистику миниатюр, но более удачно, как мне кажется, получаются животные. В целом, практически во всех изображениях получилось передать стилистику, даже несмотря на разные форматы и медиумы, использованные в проекте.
Описание применения генеративной модели
Stable Diffusion — нейросеть, на основе которой была создана модель Chat GPT — использовался для дополнения кода