Исходный размер 1140x1600

Насквозь. Обучение генеративной модели на основе рентгена

Проект принимает участие в конкурсе

{Концепция}

Когда я была ребенком, я часто ломала кости. Это был странный опыт: тело становилось хрупким, уязвимым, как будто его структура временно выходила на первый план. Рентген-снимки в этом смысле запомнились сильнее, чем сами травмы — они показывали не внешность, а внутреннее устройство, каркас, на котором всё держится.

Со временем этот визуальный образ остался со мной. В нем есть что-то одновременно тревожное и красивое: возможность увидеть то, что обычно скрыто. Этот проект вырос из этого ощущения — попытки посмотреть на привычные вещи так, как будто их «просветили», убрав внешнюю оболочку и оставив только структуру.

Исходный размер 3170x544

Примеры исходных изображений

Таким образом, проект исследует возможность изображения мира через принцип «просвечивания». Визуальный язык основан на эффекте рентгеновского изображения, при котором исчезает внешняя оболочка объекта, а на первый план выходит его внутренняя структура.

В рамках проекта рентген используется не как медицинский инструмент, а как художественный метод. Он позволяет сместить внимание с поверхности на внутреннюю организацию формы, выявляя скрытую геометрию, хрупкость и структурную логику объектов.

{Общее описание процесса работы над кодом}

Исходный размер 2430x1200

Рис. 1. Проверка доступности GPU в Google Colab

Сначала проверяется наличие GPU и устанавливаются необходимые библиотеки, включая Diffusers и скрипт для обучения DreamBooth LoRA.

0

Рис. 2. Установка библиотек и подготовка окружения Рис. 3. Распаковка и подготовка датасета

Затем из архива извлекается набор сырых изображений в тренировочную директорию. С помощью процессора и модели BLIP для каждого изображения автоматически генерируется текстовое описание. Ко всем описаниям добавляется фиксированный префикс «a photo in XRAY_STYLE, » для привязки визуального стиля, после чего формируется файл разметки metadata.jsonl. Модель BLIP удаляется из памяти для освобождения ресурсов видеокарты.

0

Рис. 4. Автоматическая генерация текстовых описаний изображений с помощью BLIP Рис. 5. Формирование файла metadata.jsonl с префиксом XRAY_STYLE

Исходный размер 2430x1656

Рис. 6. Запуск обучения модели DreamBooth LoRA

Далее через библиотеку accelerate запускается процесс обучения LoRAL с оптимизированными параметрами. После успешного обучения собирается пайплайн DiffusionPipeline в который подгружаются полученные веса LoRA. Для предотвращения нехватки памяти VRAM применяются методы оптимизации: нарезка VAE и выгрузка неиспользуемых частей модели в CPU.

Исходный размер 2430x1656

Рис. 7. Сборка пайплайна и подключение обученных LoRA-весов

Исходный размер 2430x1038

Рис. 8. Генерация и сохранение изображений в стиле XRAY

В финальном блоке запускается цикл генерации, который последовательно создает изображения в стиле рентгена, сохраняет их в специальную папку на диске. Наконец, скрипт автоматически создает репозиторий, формирует модельную карточку с примерами из сгенерированных изображений и выгружает итоговую модель на платформу Hugging Face.

0

Рис. 9. Создание репозитория и выгрузка модели на Hugging Face

Весь код поделен на логические и обозначенные функциональные блоки.

{Подготовка датасета изображений}

Для обучения модели был собран датасет из 30–40 изображений, объединенных общей визуальной логикой. В качестве основы были выбраны изображения объектов с выраженной внутренней структурой, высокой контрастностью, тёмным фоном и эффектом просвечивания.

Датасет собирался вручную по принципу визуальной совместимости: отбирались только те изображения, которые поддерживали общую эстетику проекта и могли быть приведены к единому формату.

Исходный размер 3500x2150

Примеры исходных изображений

Принципы отбора изображений

 — визуальная однородность  — читаемая внутренняя структура  — высокий контраст  — тёмный фон  — отсутствие лишнего фона и визуального шума  — возможность обучить не конкретный объект, а именно способ изображения

Исходный размер 2764x540

Примеры исходных изображений

{Итоговые генерации}

С помощью чата GPT были выбраны две темы (архитектура и растения) и промпты для генераций. Всего было сгенерировано более 35 изображений, но самыми удачными оказались только 12.

{Генерация по запросам об архитектуре}

Исходный размер 2430x1200

Заброшенная фабрика, Станция метро с тоннелями

— Заброшенная фабрика:

«XRAY_STYLE, a massive industrial factory building, its heavy brick walls dissolved into a transparent ghost. The internal steel skeletons, heavy machinery turbines, long assembly line conveyor belts, and complex pipe networks shine intensely in pure white and cyan layered holograms. Industrial blueprint aesthetic, pure dark void.»,

— Станция метро с тоннелями:

«XRAY_STYLE, a complex underground subway station crossroads. The earth and concrete are fully transparent. A multi-leveled 3D structural diagram showing hollow passenger platforms, overlapping glowing tunnel tubes, and escalator shafts diving deep. Cold glowing cyan and white architectural wireframes against a pure black background.»

Исходный размер 2430x1200

Главный готический портал, Готический собор

— Главный готический портал:

«XRAY_STYLE, a gigantic Gothic entrance portal with deeply recessed arches. The heavy carved stone is totally see-through. Layers upon layers of structural pointed archways, invisible statues, and the vast intricate geometry of the tympanum glow as sharp, overlapping cyan and pure white holographic lines. Perfect symmetry, extreme depth, deep black space.»

— Готический собор:

«XRAY_STYLE, a huge Gothic cathedral. Heavy stone walls have vanished into transparent ghosts. The internal structural logic becomes visible: flying buttresses, ribbed vaults, and complex spiral staircases glow as thin structural cyan and white blueprints in 3D space. Internal altars and benches are visible through the transparent shell. Pitch black background.»

Исходный размер 2430x1200

Строящаяся башня, Эйфелева башня

— Строящаяся башня:

«XRAY_STYLE, a skyscraper under construction. The glass and concrete outer skin is barely a whisper. The main focus is the heavy steel I-beam skeleton, the central elevator core, and the internal plumbing matrix stretching upwards like a glowing cyan and white grid. High vertical contrast, extreme structural detail, black background.»

— Эйфелева башня:

«XRAY_STYLE, a gigantic iron lattice observation tower. The metal beams are rendered as a translucent, intensely detailed grid. Internal elevators, spiral staircases, and cross-bracing structures glow as thin, complex cyan and white microscopic lines spanning into the sky. Highly structural, mathematical precision, deep dark solid background.»

Исходный размер 2430x1200

Классический оперный театр, Готическая колокольня

— Классический оперный театр:

«XRAY_STYLE, the interior of a grand Opera House seen from the outside. The thick stone exterior is fully transparent. The internal structural bowl of layered balconies, private boxes, hidden backstage mechanics, and the grand chandelier glow as a magnificent curved cyan and white skeleton. Highly layered overlapping geometry, pure black background.»,

— Готическая колокольня:

«XRAY_STYLE, a complex underground subway station crossroads. The earth and concrete are fully transparent. A multi-leveled 3D structural diagram showing hollow passenger platforms, overlapping glowing tunnel tubes, and escalator shafts diving deep. Cold glowing cyan and white architectural wireframes against a pure black background.»

{Генерация по запросам о растениях}

Исходный размер 2430x1200

Венерина мухоловка; Грибница

— Венерина мухоловка:

«XRAY_STYLE, a delicate Venus flytrap plant. The outer cellular skin is completely transparent, revealing the microscopic internal vascular network of the jaws and stem. Glowing thin white and cold cyan veins tracing the trigger hairs. Pure black deep background, ethereal structural aesthetic.»

— Грибница:

«XRAY_STYLE, a beautiful cluster of wild forest mushrooms. Fleshy caps dissolved into pure glass-like transparency. The hidden underground mycelium network and gill structures glow as intensely complex, web-like cyan and white microscopic threads. Deep black void, highly detailed.»

Исходный размер 2430x1200

Физалис, Орхидея

— Физалис:

«XRAY_STYLE, a Chinese lantern plant (Physalis). The papery outer husk is completely transparent, revealing the perfect glowing round berry hidden inside. The detailed network of skeletal veins on the husk layers glows softly in cyan and white. Depth of field, organic blueprint aesthetic, deep solid black void.»

— Орхидея:

«XRAY_STYLE, a delicate orchid flower, outer shell disappearing, complex internal vascular framework visible as thin glowing white lines. Deep black background, soft cyan glow radiating from the core, layered translucent petals, borderline between science and dream, ethereal.»

Насквозь. Обучение генеративной модели на основе рентгена
Проект создан 24.03.2026
Загрузка...
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше