Нейросети развиваются очень быстро. Кажется, ещё вчера все смеялись над неуклюжими попытками нейросетей нарисовать хоть что-то приличное, и легко узнавали их работу по наличию пары десятков пальцев на руках. За последний год нейросети значительно улучшили качество своей работы, обросли новыми версиями и возможностями. В этом тексте расскажем о лучших нейросетях для работы с фото и видео и о том, что в них улучшилось на конец 2023 года.

Midjourney v6 — лучшая нейросеть для генерации картинок
Нейросеть для генерации изображений Midjourney в конце 2023 года обновилась до шестой версии и стала ещё лучше понимать людей. Теперь ей не нужны подсказки со словами «photorealistic, ultrarealistic, 4K, 8K». Более того, он могут даже помешать. Нейросеть и без них создаёт очень реалистичные изображения. В предыдущей, пятой версии, у Midjourney всё ещё были проблемы с тем, чтобы соотнести название предмета в описании с его цветом. Например, если попросить её нарисовать красную книгу и белую чашку, она может сделать все предметы одного цвета или поменять цвета местами. В шестой версии с этим гораздо лучше.

В большинстве случаев картинки от свежей версии Midjourney выглядят более естественно, и похожи на фотографии, а не на красивые (но нарисованные) картины. Вот так выглядит результат генерации по запросу «landscape, an autumn in the lake during dusk, tranquility» в версии 5.2 (сверху) и версии 6 (снизу):

И стоит отметить, что после обновления Midjourney научилась неплохо работать с текстом и размещать на картинках те надписи, о которых её просят. Срабатывает это не всегда, но из нескольких вариантов можно выбрать один с правильной и читаемой надписью.

Stable Diffusion XL — заметное улучшение бесплатной нейросети
Бесплатная нейросеть Stable Diffusion тоже обновилась в 2023 году, выпустив свежую модель Stable Diffusion XL. Буквы XL в названии намекают то ли на то, что нейросеть способна генерировать картинки большего размера, то ли на то, что для её установки и запуска понадобится больше места на диске и памяти на видеокарте.
По качеству эта нейросеть всё ещё уступает платным Midjourney или DALL-E, но зато она бесплатна и её можно запустить прямо на своём компьютере. По качеству генерируемых изображений Stable Diffusion XL можно сравнить с Midjourney четвёртой версии.
Чтобы запустить Stable Diffusion XL, можно воспользоваться программой Foocus v.2, скачать которую можно с гитхаба. В архиве уже присутствует модель Stable Diffusion XL, оболочка для работы и все необходимые для запуска пакеты — нужно только распаковать архив и запустить.

Для работы нейросети потребуется современная видеокарта — например, GeForce RTX 4060Ti 8Gb. Нам удалось запустить Foocus на тестовом компьютере с GTX1050Ti, но полноценно работать на нём было невозможно: генерация картинки размером 1152х896 пикселей занимала больше 15 минут — и это в сверхбыстром режиме.

Те, кто ещё не успел обновить видеокарту, могут попробовать Stable Diffusion XL онлайн. Нейросеть доступна на clipdrop.co либо на stablediffusionweb.com. На clipdrop.co можно попробовать ещё одну новинку от stability.ai — модель SDXL TURBO. Это версия Stable Diffusion XL, которая генерирует изображения за одну итерацию, прямо в реальном времени: пользователь вводит описание, а нейросеть меняет и дорабатывает изображение с каждым новым словом. Вот как это выглядит:
DALL-E: свежая версия и бесплатный доступ
С нейросетью DALL-E в 2023 году произошло два значимых события. Во-первых, вышла свежая, третья версия нейросети. Во-вторых, благодаря компании Microsoft больше не нужно ждать в очереди и возиться с регистрацией, чтобы воспользоваться нейросетью: актуальная DALL-E доступна бесплатно на сервисе Microsoft Bing (а в некоторых странах и прямо из ОС Windows).

В месяц пользователю выдаётся 15 жетонов ускорения, на генерацию картинок по одному запросу тратится один жетон (при этом нейросеть рисует сразу четыре варианта картинки). Когда жетоны заканчиваются, работу с нейросеть можно продолжать — просто на создание картинок будет уходить не 10-15 секунд, а несколько минут.

Ещё один вариант работы с DALL-E — с помощью мобильного приложения Bing, в котором работают сразу несколько нейросетей. В приложении работает виртуальный помощник Microsoft Copilot, а общение с ним происходит в чате. Для общения и анализа запросов применяется текстовая нейросеть GPT-4, а для генерации картинок — DALL-E 3.

При этом общение с нейросетями организовано очень удобно: чтобы что-то поменять в картинке, не нужно составлять длинный подробный запрос и создавать картинку с нуля. Достаточно попросить нейросеть что-то поменять или дополнить.

Adobe Firefly — нейросеть, используемая в Photoshop
Компания Adobe в 2023 году порадовала фотографов и ретушёров, встроив нейросеть прямо в редактор Adobe Photoshop. Как и другие нейросети для работы с изображениями, она может создавать картинки по текстовому описанию — но это, скажем сразу, её не самая сильная сторона. Картинки получаются неплохими, но по уровню реалистичности они не дотягивают до Midjourney или DALL-E, да и с анатомией при рисовании людей бывают проблемы.

Ну а сильная сторона нейросети Adobe — это инструменты Generative Fill/Генеративная заливка и Generative Expand/Генеративное расширение, которые сильно ускоряют и облегчат ретушь фотографий. С их помощью можно стереть людей с пейзажного фото, превратить гамбургер в чизбургер, добавив на фото сгенерированный нейросетью сыр, сменить одежду на человеке или сделать из горизонтального фото вертикальное — но не обрезав его, а «восстановив» с помощью нейросети то, что осталось за кадром.

Runway Gen-2: нейросеть для создания видео по текстовому запросу
Нейросеть Runway Gen-2 умеет создавать не только неподвижные картинки, но и четырёхсекундные видеофрагменты. Их можно использовать самостоятельно (как движущийся контент для соцсетей, который привлекает больше внимания, чем неподвижная картинка), а можно попробовать себя в качестве режиссёра: написать сценарий происходящего, сгенерировать десяток фрагментов и смонтировать их в один ролик. Сделать это можно прямо на сайте Runway — там есть простой видеоредактор для монтажа.
К сожалению, качество генерации пока оставляет желать лучшего. При просмотре нейросетевых роликов создаётся впечатление, что нейросеть генерирует более-менее приличный (на уровне Stable Diffusion v 1.5) первый кадр, а затем просто пытается как-то расшевелить картинку, не особо понимая, как это должно выглядеть.
Например, вот так выглядят четыре попытки сгенерировать Санта-Клауса, собранные в один ролик:
Runway Gen-2: нейросеть для создания видео по текстовому запросу
Нейросеть Runway Gen-2 умеет создавать не только неподвижные картинки, но и четырёхсекундные видеофрагменты. Их можно использовать самостоятельно (как движущийся контент для соцсетей, который привлекает больше внимания, чем неподвижная картинка), а можно попробовать себя в качестве режиссёра: написать сценарий происходящего, сгенерировать десяток фрагментов и смонтировать их в один ролик. Сделать это можно прямо на сайте Runway — там есть простой видеоредактор для монтажа.
К сожалению, качество генерации пока оставляет желать лучшего. При просмотре нейросетевых роликов создаётся впечатление, что нейросеть генерирует более-менее приличный (на уровне Stable Diffusion v 1.5) первый кадр, а затем просто пытается как-то расшевелить картинку, не особо понимая, как это должно выглядеть.
Например, вот так выглядят четыре попытки сгенерировать Санта-Клауса, собранные в один ролик:
Несмотря на заметные проблемы, нейросеть Runway Gen-2 продолжает развиваться. А с учётом того, как быстро нынче умнеют и развиваются нейросети, есть шанс, что через год она сможет создавать уже нормальные видео.
Обратите внимание, что первые моменты каждого фрагмента выглядят прилично — а затем олени теряют головы и начинается хаос / Видео: Алиса Смирнова, Фотосклад.Эксперт
Несмотря на заметные проблемы, нейросеть Runway Gen-2 продолжает развиваться. А с учётом того, как быстро нынче умнеют и развиваются нейросети, есть шанс, что через год она сможет создавать уже нормальные видео.
1 комментарий