Написать

Главная
Статьи
Midjourney 5.2: что нового в последней версии нейросети

Midjourney 5.2: что нового в последней версии нейросети

28 июля 2023

4677

С момента нашего последнего обзора нейросети Midjourney прошло несколько месяцев, и создатели нейросети выпустили уже несколько свежих версий. Возможности последней значительно расширились. Например, появился инструмент Zoom Out, который похож на свежий Generative Fill в Photoshop. О нём и других интересных функциях читайте в этом материале.

Кажется, нейросети наконец-то научились рисовать руки / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Общий интерфейс и логика работы с нейросетью не изменилась. Если вы впервые с ней столкнулись, с основами можно познакомиться здесь.

Настройки Midjourney

Даже с настройками по умолчанию Midjourney генерирует красивые и качественные изображения. Но если хочется большего контроля над происходящим, можно отправить команду /settings и поменять параметры нейросети. Выбранные настройки будут применяться по умолчанию ко всем создаваемым нейросетью изображениям.

Окно с настройками Midjourney в чате Discord / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Во-первых, в настройках можно выбрать версию нейросети, используемую для генерации. По умолчанию выбрана последняя актуальная версия (на сегодняшний день это 5.2), и в большинстве случаев стоит использовать именно её. Если же захочется создать несколько картинок в более ранней версии, можно выбрать другую версию для текущего запроса, добавив в конце описания ключ --v и номер версии (например, чтобы сгенерировать изображение в Midjourney 4, нужно добавить --v 4).

RAW Mode — в свежих моделях Midjourney, версии 5.1 и 5.2, создатели научили нейросеть рисовать красивые картинки даже по минималистичному запросу из 2-3 слов и при их создании придерживаться так называемой «эстетики Midjourney». На что именно она влияет в каждом конкретном случае, сказать сложно. А для отключения этой функции как раз и предназначена кнопка «RAW mode» (режим без обработки).

Вот так выглядят картинки по запросу «Landscape with waterfall» c выключенной настройкой RAW mode (слева) и включенной (справа). В первом случае картинки похожи на цифровую живопись (или качественную работу нейросети), а во втором — на акварельный пейзаж:

Картинки получились разные, но сложно сказать, какой результат лучше / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

В другом случае включение этой настройки практически не повлияло на результат. Картинки по запросу «Portrait of the old man» (портрет пожилого мужчины) получились очень похожими:

С включенным RAW mode (слева) мужчины вышли более старыми и бородатыми, а выключенный RAW mode (справа) лучше подсветил глаза / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

В большинстве случаев рекомендуют не включать эту настройку, если вы только начинаете знакомиться с Midjourney (и включать, если вы опытный пользователь нейросети и любите создавать длинные детализированные запросы).

Niji version — включает версию нейросети Midjourney Niji для создания картинок в аниме-стиле. Стоит включать в разделе настроек только в том случае, если нужно создавать аниме и ничего кроме аниме. Если же нужно включить эту модель только для одной генерации, проще использовать в запросе ключ --niji 5.

Stylize — степень стилизации, доступны 4 значения от низкой (Low) до очень высокой (Very High). Настройка чем-то похожа на RAW Mode и отвечает за «творческие способности» нейросети. При высоких значениях стилизации Midjourney старается создавать красивые, композиционно верные картинки с хорошим цветом и светом (но при этом может не очень точно следовать запросу). В большинстве случаев подойдёт настройка Stylize Med (средний уровень) или Stylize High (умеренно-высокий).

Кошка ловит мышь с самым низким (слева) и самым высоким (справа) уровнем стилизации. Левый результат похож на не самую удачную генерацию в Stable Diffusion, а из правого куда-то убежала мышь / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Public Mode — переключает между публичным (Public) и скрытым (Stealth) режимами. В скрытом режиме созданные изображения не видны в галерее на сайте Midjourney. Но из чата Discord эта настройка изображения не скрывает — так что, если работать в общем чате, картинки будут видны всем пользователям независимо от выбранного режима.

Fast mode — настройка для экономных, переключает между быстрым (Fast) и расслабленным (Relax) режимом генерации. При покупке подписки Midjourney пользователь получает некоторое количество GPU-минут, которые тратятся на генерацию изображений. Например, в самую дешёвую подписку за 10 долларов входит 200 минут, и это примерно 200 генераций. Если же переключиться в расслабленный режим, минуты не будут тратиться, но и генерация станет дольше, так как приоритет запроса сильно снизится. В среднем, генерация в режиме Fast занимает 1-3 минуты, а в Relax придётся подождать минут 10.

Remix mode — позволяет изменить запрос при создании вариантов сгенерированной картинки, и получить на её основе похожее изображение с другими объектами.

При включенном Remix mode пирамида из тыкв легко превращается в пирамиду из сов / Фото: docs.midjourney.com

High Variation mode и Low Variation mode. Midjourney генерирует сразу 4 картинки, и этот параметр влияет на то, насколько похожими друг на друга они будут. Лучше оставить высокую вариативность (High Variation).

Качество генераций в пятой версии Midjourney

С каждой новой версией Midjourney всё лучше справляется с рисованием и лучше понимает, что от неё хотят. Например, у нейросетей часто бывают проблемы с человеческими руками. Два больших пальца на руке, руки с 7-8 пальцами — типичная ошибка, по которой легко опознать работу нейросетей. В версии 5.2 Midjourney создаёт ошибается гораздо реже, и чаще всего рисует анатомически верные руки. Вот так выглядит результат запроса «Man holding a cup of coffee in his hands, closeup hands» в разных версиях:

Эти руки нарисовали Midjourney версии 4 и версии 5.2. Сразу видно, где работала свежая версия нейросети / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

С портретами людей и четвёртая, и пятая версии справляются одинаково неплохо. У пятой кожа выглядит более детализированной, но при этом слегка перешарпленой, словно кто-то перестарался с повышением резкости в фоторедакторе.

Если взяться за «семейную съёмку» и попросить Midjorney создать фотографию детей, играющих в саду на закате, то разница тоже будет заметна. На первый взгляд, обе картинки красивые, но если присмотреться, на левой заметна проблема с лицом правой девочки, качели просто висят в воздухе. Правая картинка, созданная в последней версии нейросети, выглядит фотореалистично, и её можно хоть сейчас отправлять на фотоконкурс:

Запрос: photo of the children playing in the garden, sunset / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

В рисовании фотореалистичных автомобилей однозначно побеждает свежая версия. Результат похож на настоящее фото, сделанное на светосильный объектив. При этом в запрос не пришлось вставлять ключевые слова с указанием модели камеры, объектива, суперфотореализма и т.п. — просто «sportcar on the street of Moscow, night photo, neon lights» (спортивная машина на московской улице, ночное фото, неоновые огни).

Работа Midjourney v4 (слева) выглядит нарисованной, но в ней присутствует намёк на Москву (брусчатка, церковь на заднем плане) / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

А теперь еда. При тестировании Midjourney весной этого года (кажется, это была версия 3) никак не удавалось получить приличную картинку пиццы со стаканом апельсинового сока. Нейросеть упорно клала апельсины прямо в пиццу, невзирая на все попытки усложнить запрос и объяснить ей, что их там быть не должно. Актуальная версия нейросети работает гораздо лучше: простой запрос «photo of the pizza with glass of orange juice», и из четырёх картинок получилось целых две пиццы без апельсинов.

Много сыра, и никаких апельсинов в пицце. Правда, они лежат вокруг, но это уже мелочи / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Новые инструменты в Midjourney 5.2

Отдаление (Zoom Out)

Инструмент похож генеративную заливку в Adobe Photoshop и позволяет «отдалить» созданную картинку, дорисовав ей края. Для этого нужно выбрать степень отдаления (в полтора или в два раза) и нажать соответствующую кнопку:

Жмём Zoom Out 2x, чтобы у нарисованного нейросетью мужчины появились ноги / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Повторять «отзумливание» можно сколько угодно раз. Но так как запрос при этом не меняется, есть шанс, что изображения начнут повторяться — на примере ниже нейросеть нарисовала нового мужчину, как только исходный отодвинулся очень далеко:

Зумирование с элементами рекурсии от Midjourney 5.2 / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Чтобы этого избежать, можно использовать кнопку Custom Zoom. Она позволяет не только задать степень отдаления (в пределах от 1х до 2х), но и отредактировать при этом запрос. Например, исходная картинка была сгенерирована с запросом «vibrant California poppies (яркие калифорнийские маки). После нажатия кнопки Custom Zoom открылось окно, в котором запрос поменяли на «A framed poster on the wall» (плакат в рамке на стене), и вот что вышло:

Жмём кнопку, меняем запрос и перемещаемся в комнату / Фото: nerdschalk.com

С помощью этой функции отдаляться и приближаться можно очень сильно. Как, например, в этом видео.

От леса и до ежиного глаза / Видео: Алиса Смирнова, Фотосклад.Эксперт

Make Square

Этот инструмент тоже дорисовывает края изображению, но делает это чуть иначе. Она ничего не отдаляет, а делает из прямоугольного изображения квадратное (если изображение и так квадратное, этой кнопки не будет). Жмём кнопку, и вертикальная картинка становится квадратной:

Кажется, эту собаку лучше одну дома не оставлять / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Vary (Strong) и Vary (Subtle)

Новые инструменты создания вариантов сгенерированного изображения. Если в прошлых версиях Midjourney просто предлагала сделать несколько вариантов понравившейся картинки, то сейчас можно выбирать, насколько сильно они будут отличаться от исходной.

Кнопки создания вариантов изображения в Midjourney v4 (слева) и Midjourney v5 (справа) / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Доступны два варианта: Vary (Strong) вносит более сильные изменения в создаваемые вариации (например, у человека может поменяться лицо, одежда и причёска), а с Vary (Subtle) изменения будут едва заметны.

Варианты портрета бабушки, созданные с помощью Vary (Strong) и Vary (Subtle) / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

28 июля 2023

4677

2 комментария

Damir Watari

29 июля 2023

Скажите, а может MidJourney создавать последовательность изображений близких по смыслу (раскадровку, как в манге или граф.романе)? Есть такие инструменты? Сказать сети - также, только ракурс сбоку и персонаж подымает предмет с земли, например? А Stable Diffusion или другая сеть так может? Мне бы пригодился такой инструмент, чтобы иллюстрировать текстовые рассказы графикой. Спасибо за ответ!

Ответить

Показать 1 ответ

Комментарий съеден котиком...

Самые новые

Самые читаемые