Geograffee

Концепция

Мне хотелось узнать, сможет ли ИИ обучиться на моих авторских рисунках и уловить стиль: мои особенности, акценты, ошибки — и повторить. Поэтому я подготовила и оцифровала 15 своих рисунков. Какие-то были старые, какие-то новые, но у всех единый уникальный стиль.

исходные изображения которые были загружены в генеративную модель

Данные изображения я обработала перед началом: — отсканировала — привела к единому формату (1080×1080 пикселей) — почистила неточности и мелкие артефакты которые могли бы мешать (точки, лишние закорючки и тд, то что осталось от сканирования) — отобрала рисунки и скетчи так, чтобы все они были схожи по стилю

Пробные генерации

male_face/woman_face

Исходный размер 1024x1024

woman_face 2

male_sitting/male_sitting 2

Исходный размер 1024x1024

man and woman

Исходный размер 1024x1024

pattern

Итоговая серия и развёрнутый комментарий

Итоговой серией являются генерации различных помещений, так как в материалах на которых обучалась нейронка ничего подобного нету. Было интересно посмотреть как она освоит стиль и использует его для генерации чего-то нетипичного.

Это был интересный опыт, из которого я сделала несколько выводов:

Влияние обучающих изображений Так как все обучающие изображение (за некоторым исключением) концентрировались на лицах, то при настройке весов по-умолчанию — лица получались действительно хорошо и практически идентично обучающему материалу.

Но вместе с этим другие объекты у нейросети получались слабо. Она фактически переставала понимать, что-то кроме лиц и при запросе «яблоко» или «Сковородка» — продолжала выдавать лица.

Поэтому пришлось настраивать весы вручную. Были пробы разных конфигураций: чекпоинт 500 fuse_scale 50; чекпоинт 500 fuse_scale 75; чекпоинт 250 fuse_scale 75; чекпоинт 250 fuse_scale 90

По итогу лучше всего показали себя 3 модели: базовая; чекпоинт 500 fuse_scale 50; и чекпоинт 250 fuse_scale 75 — я меняла параметры в зависимости от того насколько промпт был близок к обучающему материалу.

kitchen/sleeping room

Что получилось? Общие принципы. ИИ удалось уловить основы стиля — кривые линии, акцентые черты лиц, минимальная детализация, черно-белый стиль рисования.

Лучше всего получились лица. Скажи кто-то, что полученное нейронкой это какая-то моя старая зарисовка на странице тетради, про которую я уже забыла — я бы может быть даже поверила в это. Само собой речь идет о работах, где нет ИИшных артефактов. Например, Woman_Face 2 — одна из эталонных работ полученных при помощи ИИ. Здесь хорошо отображена работа с лайном, а ещё ИИ хорошо уловил, что я рисую относительно кучерявые волосы у персонажей.

Глаза. ИИ понял, что глаза персонажей я рисую по особому — я не вкладываю большой детализации и не рисую радужку. Зачастую это скорее будет либо аморфное черное пятно, либо просто черный круг.

Волосы. Удивило и то, что ИИ различил волосы, которые я рисую у мужчин и женщин. У мужчин — они более прямые. Само различие можно увидеть на Woman_face 2 и двух версиях Male_sitting.

gaming room/nightclub

Что получилось не очень? Генерировать сплошные лица — не вызывало интереса, а потому я попыталась сгенерировать то, чего вообще не было в обучающем датасете. Мне захотелось сгенерировать какие-то помещения или конкретные ситуации.

irish pub/gaming room (2)

При базовой настройке весов были большие проблемы — ИИ не понимал, как ему генерировать пространственные изображение после обучения на лицах. При понижении же влияния обучения на модель — мой стиль рисования прослеживался уже не так хорошо.

Да, сохранялись кривые линии и довольно абстрактная детализация, а также черно-белый стиль рисования, но вместе с этим значительно повысилось количество артефактов и значительно понизилась читаемость происходящего.

Исходный размер 1024x1024

gaming room funny one

Исходный размер 1024x1024

date

Если брать хорошие генерации из серии помещений и ситуаций, то это будут: -sleeping room -nightclub -Kitchen -gaming room

Если же брать неудавшиеся, то это будут: -Irish pub -gaming room funny one -gaming room 2

И отдельно хотелось бы выделить изображение date. Оно мне очень понравилось и показалось крайне милым, но к сожалению в нем присутствуют ИИ артефакты (в частности на лице девушки), лайну не хватает контрастности и в целом наблюдается излишне «акварельный» характер рисунка.

Ноутбук с кодом и описание процесса обучения

Сначала была попытка провести обучение в разрешении 1024 пикселя с количеством шагом в размере 1000 и чекпоинтом на 500, но выходное время такого обучения выдало 3 часа, что фактически на 1 час превышало лимиты Google Collabotory.

ноутбук

Обучение генеративной модели