Лунный архив: обучение генеративной модели стилю космической гравюры на Geograffee

Концепция проекта

Проект «Лунный архив» посвящён обучению генеративной модели Stable Diffusion для создания изображений в стиле винтажной гравюры на тему космоса. В качестве визуальной основы были выбраны исторические и стилизованные изображения астрономических объектов, выполненные в технике гравюры, с характерной штриховкой, монохромной палитрой и высокой детализацией.

Исходный размер 3500x2989

Изображения загруженные в датасет для обучения

Цель проекта — исследовать, может ли нейросеть не просто воспроизводить отдельные объекты (например, луну), а перенять целостный художественный стиль и применять его к новым сюжетам. Особое внимание уделяется переносу стилистики на разнообразные сцены, включая абстрактные и символические композиции.

Изображения загруженные в датасет для обучения

Процесс работы

Для обучения использовался датасет изображений, собранный из открытых источников (public domain, cosmos), соответствующих требованиям свободного использования.

Изображения добавленные в датасет в количестве 41 штука, приведённые к квадратному формату и единой стилистике. Все изображения были нормализованы по контрасту и композиции.

датасет

Особое внимание при отборе данных уделялось:

стилистической однородности;
отсутствию цветных элементов;
наличию характерных графических особенностей гравюры.

Обучение модели проводилось с использованием метода DreamBooth в сочетании с LoRA (Low-Rank Adaptation), что позволяет эффективно дообучать модель под конкретный стиль без необходимости полного переобучения.

В качестве базовой модели использовалась Stable Diffusion XL. Для закрепления стилистики был введён специальный токен lunarchivestyle, который позволяет вызывать нужный стиль при генерации изображений.

Обучение модели с использованием DreamBooth и LoRA.

! accelerate launch train_dreambooth_lora_sdxl.py \ --pretrained_model_name_or_path=$pretrained_model_name_or_path \ --instance_data_dir=$instance_data_dir \ --output_dir=$output_dir \ --instance_prompt="$instance_prompt» \ --resolution=$resolution \ --train_batch_size=$train_batch_size \ --learning_rate=$learning_rate \ --num_train_epochs=$num_train_epochs \ --checkpointing_steps=500 \ --gradient_accumulation_steps=1 \ --mixed_precision="fp16»

Загрузка базовой модели Stable Diffusion XL.

import torch
from diffusers import DiffusionPipeline

base = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16,
    use_safetensors=True
).to("cuda")

Подключение обученного стиля и настройка его влияния.

base.load_lora_weights("lora-lunar-style")
base.set_adapters(["default_0"], adapter_weights=[0.6])

В результате обучения модель успешно освоила ключевые характеристики выбранного визуального стиля. Сгенерированные изображения демонстрируют устойчивое воспроизведение следующих элементов:

• монохромная палитра; • характерная штриховка и текстура гравюры; • высокая детализация; • композиции, напоминающие научные иллюстрации и фантастические гравюры.

Особый интерес представляет способность модели переносить стиль на различные сюжеты. Помимо изображений луны, были сгенерированы сцены без её присутствия, что позволило проверить, усвоила ли модель именно стиль, а не конкретный объект.

Примеры промптов использованных в генерации

prompts = [
    "lunarchivestyle ancient astronomer observing the moon through telescope, retro engraving",
    "lunarchivestyle surreal floating city under giant moon, fantasy engraving",
    "lunarchivestyle lunar creatures walking on the surface of the moon, mystical engraving",
    "lunarchivestyle moon reflected in broken mirror, surreal engraving"
]

Результат обучения

Генерация изображений с использованием обученного стиля.

image = base(prompt, num_inference_steps=30).images[0]

Исходный размер 1024x1024

lunarchivestyle ancient observatory filled with astronomical instruments, retro engraving, black and white, highly detailed

1. lunarchivestyle lunar creatures walking on the surface of the moon, mystical engraving 2. lunarchivestyle giant moon inside cathedral, gothic engraving

Сгенерированные изображения демонстрируют устойчивое воспроизведение ключевых характеристик выбранного стиля. Во всех работах сохраняется характерная штриховая текстура, имитирующая технику гравюры, а также монохромная палитра.

При этом наблюдается вариативность композиционных решений: модель успешно переносит стиль как на сюжетные сцены (астроном, архитектура), так и на абстрактные образы (силуэт, космические структуры). Это подтверждает, что нейросеть усвоила именно визуальный язык, а не отдельные объекты.

Исходный размер 1024x1024

lunarchivestyle human figure dissolving into stars, surreal cosmic engraving, black and white

1. lunarchivestyle celestial tower made of fine contour lines, retro engraving, line art, symbolic composition, black and white, highly detailed 2.lunarchivestyle abstract star map with constellations

Исходный размер 1024x1024

lunarchivestyle lunar eclipse over a calm ocean, minimal composition, retro engraving

Несмотря на успешную передачу стиля, в некоторых изображениях наблюдается упрощение сложных текстур и избыточная повторяемость отдельных элементов. Также модель иногда склонна к генерации более абстрактных форм, чем в исходных изображениях.

1. lunarchivestyle moon reflected in broken mirror, surreal engraving 2. lunarchivestyle astronaut in vintage suit drifting near moon, retro engraving

Исходный размер 1024x1024

lunarchivestyle human figure climbing a ladder towards the moon, surreal engraving, mystical atmosphere

1. lunarchivestyle celestial beings surrounding the moon, mythological engraving, symbolic compos 2. lunarchivestyle giant moon rising behind an ancient ruined city, retro engraving, dramatic lighting

Сравнение

1. изображение из датасета 2. сгенерированное: lunarchivestyle ancient astronomer observing the moon through telescope, retro engraving

Заключение

В рамках проекта использовались следующие инструменты генеративного искусственного интеллекта:

Stable Diffusion XL — для генерации изображений;
DreamBooth + LoRA — для обучения модели на собственном датасете;
ChatGPT — для помощи в формулировке идеи проекта, помощи в написании промптов изображений и структурировании исследования;
Public Work by Cosmos — для поиска изображений для обучения.

Проект показывает, что генеративные модели способны не только воспроизводить визуальные образы, но и усваивать сложные художественные стили. Использование метода LoRA позволяет эффективно адаптировать модель под конкретную визуальную задачу при относительно небольшом объёме данных.

Полученные результаты демонстрируют, что нейросеть может сохранять стилистическую целостность даже при генерации новых, ранее не встречавшихся сюжетов.

Код работы