С момента нашего последнего обзора нейросети Midjourney прошло несколько месяцев, и создатели нейросети выпустили уже несколько свежих версий. Возможности последней значительно расширились. Например, появился инструмент Zoom Out, который похож на свежий Generative Fill в Photoshop. О нём и других интересных функциях читайте в этом материале.
Кажется, нейросети наконец-то научились рисовать руки / Иллюстрация: Алиса Смирнова, Фотосклад.ЭкспертОбщий интерфейс и логика работы с нейросетью не изменилась. Если вы впервые с ней столкнулись, с основами можно познакомиться здесь.
Настройки Midjourney
Даже с настройками по умолчанию Midjourney генерирует красивые и качественные изображения. Но если хочется большего контроля над происходящим, можно отправить команду /settings и поменять параметры нейросети. Выбранные настройки будут применяться по умолчанию ко всем создаваемым нейросетью изображениям.
Окно с настройками Midjourney в чате Discord / Иллюстрация: Алиса Смирнова, Фотосклад.ЭкспертВо-первых, в настройках можно выбрать версию нейросети, используемую для генерации. По умолчанию выбрана последняя актуальная версия (на сегодняшний день это 5.2), и в большинстве случаев стоит использовать именно её. Если же захочется создать несколько картинок в более ранней версии, можно выбрать другую версию для текущего запроса, добавив в конце описания ключ --v и номер версии (например, чтобы сгенерировать изображение в Midjourney 4, нужно добавить --v 4).
RAW Mode — в свежих моделях Midjourney, версии 5.1 и 5.2, создатели научили нейросеть рисовать красивые картинки даже по минималистичному запросу из 2-3 слов и при их создании придерживаться так называемой «эстетики Midjourney». На что именно она влияет в каждом конкретном случае, сказать сложно. А для отключения этой функции как раз и предназначена кнопка «RAW mode» (режим без обработки).
Вот так выглядят картинки по запросу «Landscape with waterfall» c выключенной настройкой RAW mode (слева) и включенной (справа). В первом случае картинки похожи на цифровую живопись (или качественную работу нейросети), а во втором — на акварельный пейзаж:
Картинки получились разные, но сложно сказать, какой результат лучше / Иллюстрация: Алиса Смирнова, Фотосклад.ЭкспертВ другом случае включение этой настройки практически не повлияло на результат. Картинки по запросу «Portrait of the old man» (портрет пожилого мужчины) получились очень похожими:
С включенным RAW mode (слева) мужчины вышли более старыми и бородатыми, а выключенный RAW mode (справа) лучше подсветил глаза / Иллюстрация: Алиса Смирнова, Фотосклад.ЭкспертВ большинстве случаев рекомендуют не включать эту настройку, если вы только начинаете знакомиться с Midjourney (и включать, если вы опытный пользователь нейросети и любите создавать длинные детализированные запросы).
Niji version — включает версию нейросети Midjourney Niji для создания картинок в аниме-стиле. Стоит включать в разделе настроек только в том случае, если нужно создавать аниме и ничего кроме аниме. Если же нужно включить эту модель только для одной генерации, проще использовать в запросе ключ --niji 5.
Stylize — степень стилизации, доступны 4 значения от низкой (Low) до очень высокой (Very High). Настройка чем-то похожа на RAW Mode и отвечает за «творческие способности» нейросети. При высоких значениях стилизации Midjourney старается создавать красивые, композиционно верные картинки с хорошим цветом и светом (но при этом может не очень точно следовать запросу). В большинстве случаев подойдёт настройка Stylize Med (средний уровень) или Stylize High (умеренно-высокий).
Кошка ловит мышь с самым низким (слева) и самым высоким (справа) уровнем стилизации. Левый результат похож на не самую удачную генерацию в Stable Diffusion, а из правого куда-то убежала мышь / Иллюстрация: Алиса Смирнова, Фотосклад.ЭкспертPublic Mode — переключает между публичным (Public) и скрытым (Stealth) режимами. В скрытом режиме созданные изображения не видны в галерее на сайте Midjourney. Но из чата Discord эта настройка изображения не скрывает — так что, если работать в общем чате, картинки будут видны всем пользователям независимо от выбранного режима.
Fast mode — настройка для экономных, переключает между быстрым (Fast) и расслабленным (Relax) режимом генерации. При покупке подписки Midjourney пользователь получает некоторое количество GPU-минут, которые тратятся на генерацию изображений. Например, в самую дешёвую подписку за 10 долларов входит 200 минут, и это примерно 200 генераций. Если же переключиться в расслабленный режим, минуты не будут тратиться, но и генерация станет дольше, так как приоритет запроса сильно снизится. В среднем, генерация в режиме Fast занимает 1-3 минуты, а в Relax придётся подождать минут 10.
Remix mode — позволяет изменить запрос при создании вариантов сгенерированной картинки, и получить на её основе похожее изображение с другими объектами.
При включенном Remix mode пирамида из тыкв легко превращается в пирамиду из сов / Фото: docs.midjourney.comHigh Variation mode и Low Variation mode. Midjourney генерирует сразу 4 картинки, и этот параметр влияет на то, насколько похожими друг на друга они будут. Лучше оставить высокую вариативность (High Variation).
Качество генераций в пятой версии Midjourney
С каждой новой версией Midjourney всё лучше справляется с рисованием и лучше понимает, что от неё хотят. Например, у нейросетей часто бывают проблемы с человеческими руками. Два больших пальца на руке, руки с 7-8 пальцами — типичная ошибка, по которой легко опознать работу нейросетей. В версии 5.2 Midjourney создаёт ошибается гораздо реже, и чаще всего рисует анатомически верные руки. Вот так выглядит результат запроса «Man holding a cup of coffee in his hands, closeup hands» в разных версиях:
Эти руки нарисовали Midjourney версии 4 и версии 5.2. Сразу видно, где работала свежая версия нейросети / Иллюстрация: Алиса Смирнова, Фотосклад.ЭкспертС портретами людей и четвёртая, и пятая версии справляются одинаково неплохо. У пятой кожа выглядит более детализированной, но при этом слегка перешарпленой, словно кто-то перестарался с повышением резкости в фоторедакторе.

Если взяться за «семейную съёмку» и попросить Midjorney создать фотографию детей, играющих в саду на закате, то разница тоже будет заметна. На первый взгляд, обе картинки красивые, но если присмотреться, на левой заметна проблема с лицом правой девочки, качели просто висят в воздухе. Правая картинка, созданная в последней версии нейросети, выглядит фотореалистично, и её можно хоть сейчас отправлять на фотоконкурс:
Запрос: photo of the children playing in the garden, sunset / Иллюстрация: Алиса Смирнова, Фотосклад.ЭкспертВ рисовании фотореалистичных автомобилей однозначно побеждает свежая версия. Результат похож на настоящее фото, сделанное на светосильный объектив. При этом в запрос не пришлось вставлять ключевые слова с указанием модели камеры, объектива, суперфотореализма и т.п. — просто «sportcar on the street of Moscow, night photo, neon lights» (спортивная машина на московской улице, ночное фото, неоновые огни).
Работа Midjourney v4 (слева) выглядит нарисованной, но в ней присутствует намёк на Москву (брусчатка, церковь на заднем плане) / Иллюстрация: Алиса Смирнова, Фотосклад.ЭкспертА теперь еда. При тестировании Midjourney весной этого года (кажется, это была версия 3) никак не удавалось получить приличную картинку пиццы со стаканом апельсинового сока. Нейросеть упорно клала апельсины прямо в пиццу, невзирая на все попытки усложнить запрос и объяснить ей, что их там быть не должно. Актуальная версия нейросети работает гораздо лучше: простой запрос «photo of the pizza with glass of orange juice», и из четырёх картинок получилось целых две пиццы без апельсинов.
Много сыра, и никаких апельсинов в пицце. Правда, они лежат вокруг, но это уже мелочи / Иллюстрация: Алиса Смирнова, Фотосклад.ЭкспертНовые инструменты в Midjourney 5.2
Отдаление (Zoom Out)
Инструмент похож генеративную заливку в Adobe Photoshop и позволяет «отдалить» созданную картинку, дорисовав ей края. Для этого нужно выбрать степень отдаления (в полтора или в два раза) и нажать соответствующую кнопку:
Жмём Zoom Out 2x, чтобы у нарисованного нейросетью мужчины появились ноги / Иллюстрация: Алиса Смирнова, Фотосклад.ЭкспертПовторять «отзумливание» можно сколько угодно раз. Но так как запрос при этом не меняется, есть шанс, что изображения начнут повторяться — на примере ниже нейросеть нарисовала нового мужчину, как только исходный отодвинулся очень далеко:
Зумирование с элементами рекурсии от Midjourney 5.2 / Иллюстрация: Алиса Смирнова, Фотосклад.ЭкспертЧтобы этого избежать, можно использовать кнопку Custom Zoom. Она позволяет не только задать степень отдаления (в пределах от 1х до 2х), но и отредактировать при этом запрос. Например, исходная картинка была сгенерирована с запросом «vibrant California poppies (яркие калифорнийские маки). После нажатия кнопки Custom Zoom открылось окно, в котором запрос поменяли на «A framed poster on the wall» (плакат в рамке на стене), и вот что вышло:
Жмём кнопку, меняем запрос и перемещаемся в комнату / Фото: nerdschalk.comС помощью этой функции отдаляться и приближаться можно очень сильно. Как, например, в этом видео.
Make Square
Этот инструмент тоже дорисовывает края изображению, но делает это чуть иначе. Она ничего не отдаляет, а делает из прямоугольного изображения квадратное (если изображение и так квадратное, этой кнопки не будет). Жмём кнопку, и вертикальная картинка становится квадратной:
Кажется, эту собаку лучше одну дома не оставлять / Иллюстрация: Алиса Смирнова, Фотосклад.ЭкспертVary (Strong) и Vary (Subtle)
Новые инструменты создания вариантов сгенерированного изображения. Если в прошлых версиях Midjourney просто предлагала сделать несколько вариантов понравившейся картинки, то сейчас можно выбирать, насколько сильно они будут отличаться от исходной.
Кнопки создания вариантов изображения в Midjourney v4 (слева) и Midjourney v5 (справа) / Иллюстрация: Алиса Смирнова, Фотосклад.ЭкспертДоступны два варианта: Vary (Strong) вносит более сильные изменения в создаваемые вариации (например, у человека может поменяться лицо, одежда и причёска), а с Vary (Subtle) изменения будут едва заметны.
Варианты портрета бабушки, созданные с помощью Vary (Strong) и Vary (Subtle) / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт
2 комментария
29 июля 2023
Скажите, а может MidJourney создавать последовательность изображений близких по смыслу (раскадровку, как в манге или граф.романе)? Есть такие инструменты? Сказать сети - также, только ракурс сбоку и персонаж подымает предмет с земли, например? А Stable Diffusion или другая сеть так может? Мне бы пригодился такой инструмент, чтобы иллюстрировать текстовые рассказы графикой. Спасибо за ответ!
0
0
Ответить