DALL-E — это нейросеть для создания изображений по текстовому описанию от компании OpenAI (той самой, которая создала языковую нейросеть GPT и текстового помощника ChatGPT). Самая свежая третья модель нейросети появилась в октябре 2023 года. Среди плюсов — простой интерфейс, поддержка разных языков и качественную работу с человеческой анатомией. Наши тесты показали, что она почти так же прекрасна, как Midjourney. Почему «почти», читайте в этом материале.
![](https://cdn.fotosklad.ru/unsafe/a2598d6176fc4f02ad5099a48d3a3ed8/image.jpg)
Получить доступ к DALL-E раньше было не очень просто: нужна была регистрация на сайте компании OpenAI, при этом для подтверждения регистрации невозможно было использовать российский телефонный номер. Но в октябре 2023 года компания Microsoft (основной инвестор и партнёр компании OpenAI) открыла бесплатный доступ к генерации картинок для всех желающих на сайте Microsoft Bing. Генерация происходит в самой свежей модели DALL-E 3.
Для начала работы нужно перейти на страницу bing.com/images/create и войти в систему, используя учётную запись Microsoft. Проще всего это сделать тем, кто использует Windows 8, 10 или 11 и уже имеет нужную учётную запись. Ну а пользователям MacOS, Linux или более старых версий Windows с локальными учётными записями перед началом работы придётся зарегистрироваться на сайте.
Создание изображений с помощью нейросети DALL-E 3
Окно для работы с нейросетью выглядит лаконично. Здесь нет ни оживлённого чата с работами других участников, как в Discord-боте Midjourney, ни многочисленных вкладок и ползунков с настройками, как в Stable Diffusion. Просто окно со строкой для ввода описания, кнопки «Создать» и «Удивите меня» и панель справа, в которой будут отображаться созданные картинки.
![](https://cdn.fotosklad.ru/unsafe/fad3e9512b4b4a7e8749905718401fb4/image.jpg)
На чёрном поле под строкой описания есть две вкладки: открытая по умолчанию вкладка «Творения», в которой и происходит работа над картинками, и слева от неё вкладка «Обзор идей». В ней находится галерея с работами других пользователей. Если навести мышь на картинку, можно увидеть запрос к нейросети, который использовался при создании этой картинки. А если кликнуть по ней, картинка откроется в большом размере и её можно будет рассмотреть подробнее и сохранить к себе.
![](https://cdn.fotosklad.ru/unsafe/f1707d8e157c4226b9258f68be4db588/image.jpg)
Для тех, кто теряется при виде пустого интерфейса и не знает, с какого запроса начать, есть кнопка «Удивите меня». При её нажатии нейросеть самостоятельно создаёт описание. Уходит на это 3-5 секунд. За несколько нажатий кнопки DALL-E 3 предложил опробовать его возможности и нарисовать джек-рассел терьера среди звёзд в стиле пиксель-арт, робота в виде винтажного микрофона, «Делориан» из фильма «Назад в будущее», геометрическую абстракцию и гамбургер в виде 3D-куба. Генерация при этом не запускается: если запрос показался интересным, нужно самостоятельно нажать кнопку «Создать».
![](https://cdn.fotosklad.ru/unsafe/563e3d97ec9f419c9273fab9365e1b73/image.jpg)
Запрос про 3D-бургеры выглядит интересным, запускаем нейросеть. Спустя 15-20 секунд в чёрном поле появляются четыре картинки, а количество жетонов с молнией в конце строки запроса уменьшается на один — теперь их 13. Как сообщает подсказка, это ускорения. Как только они закончатся, на создание картинок будет уходить больше времени.
![](https://cdn.fotosklad.ru/unsafe/27425b4cf2bd4ead91ff73adcd27986c/image.jpg)
За одну генерацию нейросеть создаёт четыре картинки размером 1024х1024 пикселя. Если нажать на одну их них, она откроется во весь экран, и станут доступны кнопки «Поделиться» (копирует ссылку на изображение), «Сохранить» (сохраняет картинку в коллекцию «Сохранённое» в аккаунте Microsoft Bing), и «Загрузить» (скачивает картинку на компьютер).
![](https://cdn.fotosklad.ru/unsafe/2bc82b00a71a459db120ad209aed20b7/image.jpg)
При работе с DALL-E запросы не обязательно составлять на английском. В отличие от Midjourney и Stable Diffusion, эта нейросеть неплохо понимает запросы на русском языке. Вот таких космоежей можно получить по запросу «ёж-космонавт в скафандре на поверхности дикой планеты, звёзды и галактики в небе».
![](https://cdn.fotosklad.ru/unsafe/2a3d77d973f34ec58fccc29e62b46455/image.jpg)
Давайте посмотрим, насколько хорошо эта нейросеть понимает запросы и как у неё дела с реализмом. Обычно больше всего проблем у нейросетей возникает с рисованием людей: то глаза съедут, то руки внезапно сольются, то пальцев на руках станет неожиданно много. Так что начнём с рисования фотореалистичных портретов.
Раз уж DALL-E понимает русский язык, будем создавать запросы на нём. Первый запрос — «Девушка сидит в кафе у окна и улыбается, в руках чашка горячего кофе, размытый задний план, профессиональное фото, реалистичное фото». Результат — на четвёрку с плюсом. Пальцы на месте, глаза с ресницами тоже, и даже зубы получились вполне прилично. Но и придраться при желании есть к чему. Например, у второй девушки слишком резкая граница волос, словно её снимали на телефон с искусственным размытием или сделали не слишком аккуратную маску в фотошопе и размыли фон. При съёмке на хороший светосильный портретник переход между резкими и нерезкими областями был бы более плавным и мягким. А у третьей слишком одинаковые и слишком квадратные зубы, да и на часах стрелок не хватает.
![](https://cdn.fotosklad.ru/unsafe/caedad355aeb488197b20efcfd767437/image.jpg)
Теперь посмотрим на пейзажи, а заодно и проверим, насколько хорошо DALL-E знает конкретные города. Попробуем сгенерировать дождливый питерский пейзаж, запрос «Дождливый осенний пейзаж, Санкт-Петербург, центр города, вечер, отражения в лужах, стрит-фото».
Картинок на этот раз почему-то вышло только три.С дождём, осенью, вечером и лужами всё просто отлично. Санкт-Петербург под вопросом. Левая и правая картинка по атмосфере напоминает Невский проспект, хоть конкретные здания и не узнаются (зато переплетения проводов удались хорошо). На среднем фото здание подозрительно похоже на дом компании Зингер (он же Дом Книги и офис ВК), вот только мост и канал куда-то делись. На стрит-фотографию эти изображения и вовсе непохожи.
![](https://cdn.fotosklad.ru/unsafe/654f2004608346079013a9c78a410d81/image.jpg)
Традиционный пиццевый тест DALL-E прошёл на четвёрку с минусом. По описанию «Пицца с пепперони и стаканом апельсинового сока, фуд-фото, рекламное фото» красивые фотографи уровня Midjourney получить не удалось. Единственное, что роднит DALL-E и Midjourney, это желание положить апельсины в пиццу. Картинки в целом симпатичные, и для соцсетей при желании их использовать можно. Но вот настоящего фуд-фотографа с профессиональной камерой, объективом и комплектом света или фотобанк эта нейросеть пока не заменит.
![](https://cdn.fotosklad.ru/unsafe/0ea3c05f9d3746399b8f407340a19814/image.jpg)
Зато DALL-E умеет почти без ошибок писать «Pizzeria». Когда его попросили нарисовать рекламный буклет для пиццерии, в половине картинок слово написано правильно, а в остальных двух всего лишь с одной ошибкой. Остальной текст в буклете, к сожалению, не разобрать.
![](https://cdn.fotosklad.ru/unsafe/c52df6e7cf04477ca92a512f0907f95f/image.jpg)
Ещё одна дизайнерская задача — создание бесшовных паттернов. Их можно применять при создании обложек для соцсетей, обоев на телефон и компьютер и как фоновое изображение при разработке полиграфической продукции. К сожалению, получить полноценный бесшовный паттерн, который можно бесконечно повторять во все стороны, с помощью DALL-E не удалось. Ни запросы на русском языке, ни на английском не помогли. Так что за такими вещами лучше обращаться к Midjourney.
![](https://cdn.fotosklad.ru/unsafe/125cf833e62b40d28d9bd8fec8e99d88/image.jpg)
Как и другие генеративные нейросети, DALL-E умеет стилизовать свои произведения под работу конкретных художников. Картинки действительно получаются стилизованными, но вот опознать в них руку мастера удаётся далеко не всегда. Вот так, по мнению нейросети, должен выглядеть московский пейзаж авторства Ван Гога, Пикассо, Сальвадора Дали и Николая Рериха:
![](https://cdn.fotosklad.ru/unsafe/85e799a433eb4c7b869507ba4621dab9/image.jpg)
Есть и задачи, за которые DALL-E просто не берётся. Например, картинки с участием конкретных людей нейросеть не рисует — вместо генерации появляется предупреждение о заблокированном запросе.
![](https://cdn.fotosklad.ru/unsafe/c63786f6790e41cda0ff14ab1a78bcb3/image.jpg)