Генерация изображений альпак на основе Stable Diffusion на Geograffee

ТЕМА ПРОЕКТА

Обучение модели Stable Diffusion (через LoRA-адаптацию) на реальных изображениях альпак для генерации фотореалистичных сцен и портретов животных в различных условиях освещения и окружения.

КОНЦЕПЦИЯ

Идея проекта — научить нейросеть формировать изображения, максимально приближённые к фотографиям альпак, сохранив при этом естественную фактуру шерсти, пропорции тела и реалистичные выражения морды. Основная цель — показать, как дообучение модели позволяет не просто воспроизводить форму объекта, но и имитировать особенности реальной съёмки: глубину резкости, свет, перспективу и цветовой баланс.

ИСХОДНЫЕ ИЗОБРАЖЕНИЯ ДЛЯ ОБУЧЕНИЯ

РЕЗУЛЬТИРУЮЩАЯ СЕРИЯ ИЗОБРАЖЕНИЙ

Описание серии: Каждое изображение было сгенерировано на основе промптов, описывающих реалистичные сцены:

«a realistic portrait of an alpaca in sunlight, ultra-detailed fur, shallow depth of field» «two alpacas standing in a mountain field, natural lighting, realistic colors, 8k photo» «close-up photo of an alpaca with blurred background, cinematic light

РАЗВЕРНУТЫЙ КОММЕНТАРИЙ И ВИЗУАЛЬНЫЙ АНАЛИЗ

Анализ результатов:

Модель точно воспроизводит структуру шерсти: переданы как мягкие, так и жёсткие участки волосков. Свет проработан естественно — особенно при боковом и рассеянном освещении. Отдельные изображения демонстрируют «глубину кадра» и размытый фон (эффект боке), что усиливает реализм. Цветовая температура варьируется от холодных утренних до тёплых вечерних тонов.

Стилистические особенности:

— Реалистичная фактура шерсти и мягкие переходы цвета. — Чистые естественные оттенки — белый, кремовый, бежевый, серый. — Естественная анатомия и мимика животных. — Отсутствие цифровых артефактов и признаков генеративного искажения.

Неудачные генерации:

В отдельных случаях нейросеть допускала артефакты: искажённые пропорции головы, неестественно вытянутая морда или асимметричные глаза.

Иногда текстура шерсти выглядела чрезмерно «пластиковой» или с повторяющимися паттернами, что выдавало синтетическое происхождение изображения. Были зафиксированы случаи неправильного формирования ушей или рта, особенно при сложном освещении или наклонённой позе.

Соответствие концепции: Цель проекта достигнута — обученная модель создаёт изображения, неотличимые от реальных фотографий в большинстве случаев. Иногда нейросеть даже усиливает визуальные качества (чёткость деталей, баланс цвета), формируя эстетически выразительные «фото», которых не существовало в исходной выборке.

JUPYTER/COLAB НОУТБУК

https://drive.google.com/drive/folders/1f-JKcYFV2kjTDJ3ADA3AJfnCXz0RFQJt?usp=sharing

Включает: — датасет с изображениями альпак — обучение LoRA и сохранение промежуточных чекпоинтов; — генерацию итоговой серии изображений. — датасет сгенерированых изображений

ИСПОЛЬЗОВАНИЕ GENAI

В проекте дополнительно использовался ChatGPT (GPT-5) для:

— составления промптов для генерации; — формулировки текстовых описаний для caption-пар;