Stable Diffusion — интересная нейросеть для генерации изображений, которая работает прямо на компьютере. Но бывают случаи, когда запустить её локально нет возможности. Кто-то ещё не обзавёлся достаточно мощной видеокартой (Stable Diffusion использует при работе видеокарту и для нормального функционирования нужна современная модель с большим количеством памяти), кому-то лень возиться со скачиванием и установкой, а кто-то большую часть времени работает с телефона. В таких случаях можно попробовать онлайн-версию нейросети. Мы протестировали несколько сайтов, на которых можно бесплатно поработать со Stable Diffusion, и вот что из этого получилось.
![](https://cdn.fotosklad.ru/unsafe/4affd262a3784d2cbe0447cc00497733/image.jpg)
stablediffusionweb.com
Этот онлайн-сервис работает со свежей моделью Stable Diffusion XL, которая вышла в июле 2023 года. Как пишут её создатели, Stable Diffusion XL натренирована на изображениях большего размера, чем более старые SD 1.5 и SD 2.1 — а значит, способна генерировать картинки с лучшей детализацией и почти разборчивым текстом.
Сайт stablediffusionweb.com выглядит довольно минималистично. Есть два поля для ввода запроса. В поле Prompt вписываем то, что хотим видеть на картинке (например, портрет человека, пейзаж или пиццу), в Negative Prompt — то, чего на ней быть не должно (обычно это картинки с плохой композицией, двойные головы, отсутствующие конечности и руки с множеством пальцев, которые так любят рисовать нейросети).
Есть выпадающий список со стилями, их тут очень много. При желании можно сгенерировать штук пятьдесят картинок с одним и тем же запросом, но в разных стилях. Среди них есть художественные направления (поп-арт, кубизм, импрессионизм), игровая стилистика (картинки в стиле Майнкрафта, Cyberpunk 2077 или Марио), имитация 3D, комиксов, акварели или пиксель-арта.
Сложных настроек или скриптов здесь нет. Нет и возможности загрузить своё изображение для работы с img2img или исправить уже сгенерированное с помощью inpaint. Также в бесплатной версии заблокированы настройки размера картинок (можно создавать только квадратные изображения размером 768х768 пикселей) и настройка производительности (судя по всему, влияет на количество шагов генерации).
![](https://cdn.fotosklad.ru/unsafe/5d0f9930573d4943a00c0994ba482761/image.jpg)
Традиционно, начинаем тест нейросети с еды. Вводим запрос «food photography photo of a burger with cheese, maximum detail, foreground focus» (фуд-фото, фотография бургера с сыром, максимум деталей, фокус на переднем плане) и делаем несколько вариантов с этим запросом, но с разными стилями. Генерация одного изображения занимает примерно три минуты, при этом создаётся всего одна картинка.
Качество на удивление хорошее и сравнимо с Midjourney четвёртой версии: в картинках можно заподозрить работу нейросети, но грубых ошибок нет. А вот стиль влияет на результат не так сильно, как хотелось бы: у акварельного гамбургера (2) есть несколько акварельных пятен на фоне, но сам он не выглядит нарисованным. А у бургеров в стилях пиксельарт (3) и майнкрафт (4) есть лишь несколько кубических деталей.
![](https://cdn.fotosklad.ru/unsafe/f7743ac753ee439984e7e8327b8e9116/image.jpg)
Теперь посмотрим, как получаются люди. Генерируем дедушку с чашкой кофе в стиле плёночных фото (стиль analog_film), в стиле по умолчанию и в стиле Cyberpunk 2077 (стиль game-cyberpunk game). Не слишком фотореалистично, пальцев маловато, но в целом неплохо. А вот стили в основном повлияли на цвет — у киберпанковского деда нет никаких кибер-имплантов, зато вместо красного костюма из запроса он переоделся в бирюзовый.
![](https://cdn.fotosklad.ru/unsafe/82ec9ecfaad342e081b664ab5d972d85/image.jpg)
Ещё один полезный инструмент на этом сайте — каталог картинок с описаниями. Открывается он кнопкой Prompt Database внизу страницы. Если никак не удаётся получить нужную картинку или вы никогда не имели дела с нейросетью, можно открыть этот каталог и по одному-двум ключевым словам найти сгенерированные другими пользователями картинки.
![](https://cdn.fotosklad.ru/unsafe/d2bb11c341b540e180aef49d9fcca218/image.jpg)
huggingface.co
На сайте huggingface.co можно найти демо-версию более старой модели Stable Diffusion 2.1 и попробовать её в работе. Сразу видно, что не стоило называть интерфейс stablediffusionweb.com минималистичным — истинный минимализм ждал нас на huggingface.co.
Поля для описания Prompt и Negative Prompt, одинокий ползунок Guidance Scale в разделе продвинутых настроек и больше ничего — ни выбора стилей, ни соотношения сторон.
![](https://cdn.fotosklad.ru/unsafe/21ce965ff45e4973a460edb5606bd4d9/image.jpg)
Проверим, как работает и что может онлайн-версия Stable Diffusion 2.1. Для разнообразия начнём с пейзажа и попросим нейросеть нарисовать его акварелью (prompt: watercolor painting, beautiful landscape, early morning, sun rising over the river and mountains). Нейросеть работает быстро — секунд за 15-20 она создала сразу четыре картинки. Получилось неплохо, действительно похоже на акварельные наброски на бумаге. Размер получившихся картинок — 768х768 пикселей.
![](https://cdn.fotosklad.ru/unsafe/f87b39fc200c45f79c4a11df161a4c64/image.jpg)
С людьми нейросеть справляется гораздо хуже. По запросу «man eating sushi in a restaurant, portrait photo, realistic» плохо почти всё: реализма нет, суши выглядят очень странно, вместо рук знаменитые нейросетевые культяпки, а вместо палочек для еды — щепки.
![](https://cdn.fotosklad.ru/unsafe/8cf2f77050d743878e9e2eb177761568/image.jpg)
Теперь проведем тест на котиках. По запросу «photo of the red cat» Stable Diffusion 2.1 нагенерировал очень странных котов, у которых всё плохо и с реалистичностью,и с композицией.
![](https://cdn.fotosklad.ru/unsafe/8602fb3bb3074c04b3ac804f19c2dd01/image.jpg)
К сожалению, Stable Diffusion 2.1 подтвердил свою славу худшей модели Stable Diffusion. И в онлайн-версии, и на компьютере она выдаёт довольно посредственные (если не сказать хуже) результаты. Для сравнения, вот так справилась с этими же запросами Stable Diffusion XL с сайта stablediffusionweb.com — симпатично, в меру реалистично, есть работа с ГРИП и даже все пальцы на месте:
![](https://cdn.fotosklad.ru/unsafe/f673867668b24f96aa12977a2b6adaf1/image.jpg)
clipdrop.co
На этот сайт мы возлагали большие надежды. Именно на clipdrop.co создатели нейросети Stable Diffusion отправляют всех, кто хочет попробовать демо-версию свежей Stable Diffusion XL 1.0. К сожалению, попробовать её в работе на этом сайте так и не удалось: при попытке что-либо сгенерировать вылезало окошко с предложением оплатить PRO-аккаунт (хотя в тарифах предусмотрена и ограниченная бесплатная версия). Был это глюк или какие-то ограничения от создателей сайта, понять не удалось. Возможно, позже всё снова заработает и без платного аккаунта.
![](https://cdn.fotosklad.ru/unsafe/562c2a8a9fb049779b071b7fe1bb6be4/image.jpg)
Но помимо генерации картинок, на сайте есть ещё парочка интересных инструментов на основе нейросети в Stable Diffusion. Это Uncrop (аналог Generative Expand от Adobe и Zoom Out в Midjourney) и Stable Doodle, позволяющий превратить набросок в полноценное изображение.
С помощью Uncrop удалось расширить картинку с киберпанковским дедушкой. С минуту ожидания, и нейросеть создала две приличных картинки и почему-то два чёрных квадрата. Возможно, на сервере действительно какие-то неполадки или слишком много пользователей. Стиль и цветовая гамма выдержаны, рукава у пиджака обзавелись пуговицами, всё хорошо.
![](https://cdn.fotosklad.ru/unsafe/2606df758b024210a5f7c1c379584cc1/image.jpg)
Попробовать в деле Stable Doodle тоже не удалось. Поначалу всё шло неплохо — удалось сделать довольно неплохой набросок собаки, хоть модель и пыталась убежать. А вот превратить его в нейросетевую картинку уже не получилось — при нажатии на кнопку Generate вылезло окошко с предложением проапгрейдить аккаунт.
![](https://cdn.fotosklad.ru/unsafe/3c9e9a75802c4bada5070b6096d71224/image.jpg)