Идея
Медуза — необычное и прекрасное существо. У нее нет чёткой формы, она постоянно меняется, как будто «растворяется» в воде. Её сложно зафиксировать: на каждом изображении она выглядит немного по-другому.
Мне стало интересно, как нейросеть будет работать с таким объектом. Обычно модели хорошо справляются с чем-то понятным и стабильным (лица, предметы), но медуза — наоборот, максимально неуловимая.

Я поставила себе несколько задач:
- обучить модель на изображениях медуз
- проверить, сохранится ли узнаваемость объекта
- посмотреть, как меняются изображения при генерации
Датасет
Для обучения я собрала набор изображений медуз. Я старалась взять разные варианты: с разным освещение, разной формы, разные цвета.
Но при этом все изображения объединяет одно — ощущение текучести и света. Важно было, чтобы модель не просто копировала одну конкретную медузу, а поняла общий образ.

Фотографии с открытых фотостоков Unsplash и Pexels
Результат
В итоговой серии представлены изображения медузы, полученные после обучения модели на собранном датасете. Медуза изначально была выбрана как необычный и сложный объект: у неё нет жёсткой геометрии, она полупрозрачная, светящаяся и визуально очень выразительная. В проекте мне было важно посмотреть, сможет ли нейросеть передать эту хрупкость, мягкость формы и ощущение глубины.
В результате модель достаточно хорошо передала основные характеристики: куполообразную форму, щупальца, мягкость линий и эффект свечения. При этом я специально усиливала яркость и цвет в промптах (использовала слова bright и colorful), чтобы получить более сочные и выразительные изображения. Также я изначально хотела добиться большего разнообразия форм и цветовых решений.
Примеры промптов: a photo of ONE big single brigth colorful MEDUZA jellyfish on dark-blue backgraund
a photo of blue brigth colorful MEDUZA jellyfish on black-blue backgraund
a photo of pink brigth colorful MEDUZA jellyfish
Изображения в серии отличаются по цвету, степени реалистичности и композиции: где-то медуза выглядит почти как фотография, а где-то — как более абстрактный и декоративный образ.
В итоге серия хорошо отражает исходную идею проекта. Получился набор разных ярких вариаций медуз. Это усиливает ощущение неуловимости: медуза здесь не фиксируется в одной форме, а постоянно меняется, что и было для меня главным в этом проекте.
Обучение
Я обучала модель Stable Diffusion XL с помощью LoRA, используя DreamBooth-скрипт. Такой способ позволяет не переобучать всю модель целиком, а «доучить» её на конкретном объекте — в моём случае на изображениях медузы.
На этом этапе я подготавливала среду: установила библиотеки, подключила инструменты Hugging Face и загрузила готовый скрипт для обучения LoRA на базе Stable Diffusion XL.
На этом этапе я подключила датасет с изображениями медуз. Код автоматически находил папку с файлами, чтобы использовать её как источник данных для обучения.
Это главный этап — запуск обучения.
Модель stable-diffusion-xl-base-1.0 берётся как базовая, а затем дообучается на моём датасете медуз. На основном этапе я запускала обучение LoRA-адаптера для Stable Diffusion XL на своём датасете.
Это главный этап — запуск обучения. Я запускала обучение LoRA-адаптера для Stable Diffusion XL на своём датасете.
В качестве текстовой привязки использовался специальный промпт с ключевым словом MEDUZA, чтобы модель запомнила именно образ медузы и её визуальные признаки.
Параметры обучения (resolution 768, 1000 шагов, learning rate 1e-4) позволили модели быстро зафиксировать общий силуэт и световые характеристики медузы
После обучения я загрузила базовую модель Stable Diffusion XL и подключила к ней полученные LoRA-веса. Это позволило перейти от этапа обучения к генерации новых изображений на основе усвоенного образа медузы.
На этапе генерации я настраивала силу следования промпту, количество шагов и negative prompt, чтобы уменьшить вероятность нежелательных фонов и визуальных ошибок.
На финальном этапе модель генерировала изображения по заданному промпту. Полученные результаты автоматически выводились на экран и сохранялись как отдельные файлы для дальнейшего отбора и анализа.
Использование ИИ
В процессе работы над проектом я дополнительно использовала ChatGPT. Он помогал мне в решении технических проблем с кодом, а также в более глубоком понимании процесса обучения модели и настройки параметров.
Кроме того, я использовала его для формулировки концепции проекта и текстовой части, чтобы точнее выразить идею и результаты работы.




