В статье мы расскажем о Stable Diffusion: что это за нейросеть и как с ней работать без навыков программирования.
Чтобы вам было легче понять, что такое Stable Diffusion, мы опишем хронологию выпуска нейросетей в 2022 году.
Как развивались нейросети
В 2022 году появилось много нейросетей, которые работают с изображениями. Их основной функционал — это создание новых картинок и модификация готового изображения.
В апреле 2022 года компания OpenAI выпустила DALL-E 2. Главная особенность этой нейросети — возможность экспериментировать со стилями. Можно сгенерировать картинку в формате реализма, футуризма, а также «примерить» стиль известных художников: например, Винсента ван Гога или Василия Васильевича Кандинского.
После DALL-E 2 компания Сбер выпустила нейросеть ruDALL-E. Она обладает схожим функционалом, однако ее отличительная особенность — это разнообразие стилей российских и советских художников: например, можно сгенерировать изображение в стиле Казимира Севериновича Малевича и Василия Ивановича Сурикова.
Следующим релизом стала MidJourney — нейросеть для решения задач графического дизайна. Изначально MidJourney была представлена в марте 2022 года в качестве закрытого Discord-сервера. Однако спустя несколько месяцев она стала доступна для всех.
После MidJourney состоялся выпуск Stable Diffusion.
Что такое Stable Diffusion
Stable Diffusion — это нейросеть, которая предназначена для генерации изображений по текстовому запросу. Она была выпущена в августе 2022 года компанией Stability AI, автором идеи стал Эмад Мостак.
Главная особенность Stable Diffusion, благодаря которой нейронка получила популярность, — открытый исходный код. Свободное распространение этого ПО позволяет:
- создавать собственные модификации ПО,
- размещать и настраивать свои программы на удаленном сервере,
- открывать доступ к новой программе для всех пользователей и др.
Как работает нейросеть Stable Diffusion
В основе Stable Diffusion лежит техника латентной диффузии — когда в процессе генерации система находит знакомые формы среди большого пула изображений, а затем фокусируется на них при совпадении с запросом. Как нейросеть узнает формы? Этот «навык» она получает в процессе обучения и тренировки.
На начальном этапе обучения сети сотрудники Stability AI отобрали изображения с метаданными — дополнительной информацией (например, подписью под картинкой на сайте) — и сформировали пул графических данных. Они использовали подмножество из крупного сета LAION-5B, в который входит около 5 000 000 000 изображений из интернета. Большая часть картинок взята с сайтов Getty Images, DeviantArt и Pinterest — благодаря этому Stable Diffusion может применять стили современных художников.
После сбора данных нейросеть обучалась на GPU — сервере с графической картой для сложных операций. Обучение проходило по следующему принципу: система задействовала технологию CLIP (Contrastive Language–Image Pre-training) — генерацию готовой композиции в один этап. Для сравнения, обычно создание изображения происходит послойно: начинается с фона и заканчивается объектом. CLIP же позволяет строить ассоциативные ряды между словами и изображениями. Обучение Stable Diffusion продолжается — это помогает усовершенствовать нейросеть.
Этап, который следует после обучения ИИ — тренировка. Она проходит по следующему сценарию: сначала нейросеть использует знакомые ассоциации, которые были получены в результате обучения, и анализирует соотношения пикселей определенных цветов в пуле известных ей изображений. После этого она формирует окончательный вариант изображения, которое соответствует запросу. Так же, как и обучение, тренировка Stable Diffusion происходит на постоянной основе.
О том, как правильно составить запрос для создания изображения, расскажем ниже.
Как составить запрос в Stable Diffusion
Чтобы сгенерировать подходящее изображение, необходимо создать точный текстовый запрос. Детали запроса должны располагаться в строгом порядке и отделяться запятыми. Описание желаемой картинки должно иметь следующий формат:
объект, фон, стиль, дополнительные описания качества картинки и деталей
Где:
- Объект — тот предмет, который лежит в основе композиции;
- Фон — цветовое оформление заднего плана;
- Стиль — дизайн картинки или стилистика художника. Например, «минимализм» или «стиль Малевича»;
- Дополнительные качества картинки и деталей — качество и детализация картинки, например «высокое качество» или «шум».
В качестве примера мы сгенерируем картинку по следующему описанию с помощью нейросети Stable Diffusion:
рыжий кот среди цветов, стиль кантри, пастельные тона, высокое качество, высокая детализация
Как сгенерировать изображение в Stable Diffusion онлайн
Вы можете бесплатно создать изображение в режиме онлайн на официальном сайте Stable Diffusion — на это потребуется пара минут.
Важно: онлайн-редактор Stable Diffusion не поддерживает русский язык. Во избежание ошибок предварительно переведите ваш запрос на английский язык (например, с помощью Google-переводчика).
Чтобы создать картинку:
- 1 Перейдите на сайт Stable Diffusion.
-
2
Кликните Get Started for Free:
-
3
Введите свой запрос. Затем нажмите Generate image:
Stable Diffusion: img2img
- 4 Дождитесь окончания генерации.
Готово, теперь вы можете сохранить готовое изображение:
Как установить Telegram-бот Stable Diffusion
В Telegram-версии Stable Diffusion добавлена поддержка русского языка. Вы можете использовать её, если хотите составить корректный запрос на русском языке.
Это ответвление нейросети недоступно в онлайн-режиме — для создания изображения необходимо установить мессенджер Telegram на ваше устройство. Установочный файл можно скачать на официальном сайте Telegram.
После того как вы установили приложение, воспользуйтесь Telegram-ботом из российского сегмента Stable Diffusion. Для этого:
- 1 Откройте генератор Stable Diffusion через Telegram.
-
2
Нажмите Запустить:
-
3
Добавьте префикс /txt и введите текстовое описание изображения. Затем нажмите Отправить:
-
4
Дождитесь генерации изображения:
Создание картинки с помощью нейросети
Готово, вы можете скачать картинку:
Помогла ли вам статья?
Спасибо за оценку. Рады помочь 😊