Написать

Главная
Статьи
Лучшие нейросети для фото и видео по итогам 2023 года

Лучшие нейросети для фото и видео по итогам 2023 года

19 янв. 2024

9309

Нейросети развиваются очень быстро. Кажется, ещё вчера все смеялись над неуклюжими попытками нейросетей нарисовать хоть что-то приличное, и легко узнавали их работу по наличию пары десятков пальцев на руках. За последний год нейросети значительно улучшили качество своей работы, обросли новыми версиями и возможностями. В этом тексте расскажем о лучших нейросетях для работы с фото и видео и о том, что в них улучшилось на конец 2023 года.

Вот так выглядит лучшая нейросеть по мнению DALL-E / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Midjourney v6 — лучшая нейросеть для генерации картинок

Нейросеть для генерации изображений Midjourney в конце 2023 года обновилась до шестой версии и стала ещё лучше понимать людей. Теперь ей не нужны подсказки со словами «photorealistic, ultrarealistic, 4K, 8K». Более того, он могут даже помешать. Нейросеть и без них создаёт очень реалистичные изображения. В предыдущей, пятой версии, у Midjourney всё ещё были проблемы с тем, чтобы соотнести название предмета в описании с его цветом. Например, если попросить её нарисовать красную книгу и белую чашку, она может сделать все предметы одного цвета или поменять цвета местами. В шестой версии с этим гораздо лучше.

Midjourney v5.2 на просьбу нарисовать белую чашку и красную книгу на деревянном столе создала много красных чашек и лишь одну белую (справа). У Midjourney v6 (слева) из четырёх генераций получилось четыре белых чашки / Фото: weirdwonderfulai.art

В большинстве случаев картинки от свежей версии Midjourney выглядят более естественно, и похожи на фотографии, а не на красивые (но нарисованные) картины. Вот так выглядит результат генерации по запросу «landscape, an autumn in the lake during dusk, tranquility» в версии 5.2 (сверху) и версии 6 (снизу):

Версия 6 (снизу) нарисовала закат, как и просили, а не лунную ночь. А саму картинку можно принять за фото, сделанное каким-нибудь рыбаком на телефон, а не за работу нейросети / Фото: goldpenguin.org

И стоит отметить, что после обновления Midjourney научилась неплохо работать с текстом и размещать на картинках те надписи, о которых её просят. Срабатывает это не всегда, но из нескольких вариантов можно выбрать один с правильной и читаемой надписью.

Слово «sparkler» («бенгальский огонь»), написанное бенгальским огнём. На четыре картинки — одна правильная надпись / Фото: techfinitive.com

Stable Diffusion XL — заметное улучшение бесплатной нейросети

Бесплатная нейросеть Stable Diffusion тоже обновилась в 2023 году, выпустив свежую модель Stable Diffusion XL. Буквы XL в названии намекают то ли на то, что нейросеть способна генерировать картинки большего размера, то ли на то, что для её установки и запуска понадобится больше места на диске и памяти на видеокарте.

По качеству эта нейросеть всё ещё уступает платным Midjourney или DALL-E, но зато она бесплатна и её можно запустить прямо на своём компьютере. По качеству генерируемых изображений Stable Diffusion XL можно сравнить с Midjourney четвёртой версии.

Чтобы запустить Stable Diffusion XL, можно воспользоваться программой Foocus v.2, скачать которую можно с гитхаба. В архиве уже присутствует модель Stable Diffusion XL, оболочка для работы и все необходимые для запуска пакеты — нужно только распаковать архив и запустить.

У Foocus много встроенных стилей, которые можно включать по одному или все сразу. Если навести мышь на кнопку стиля, появится превью с котиком / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Для работы нейросети потребуется современная видеокарта — например, GeForce RTX 4060Ti 8Gb. Нам удалось запустить Foocus на тестовом компьютере с GTX1050Ti, но полноценно работать на нём было невозможно: генерация картинки размером 1152х896 пикселей занимала больше 15 минут — и это в сверхбыстром режиме.

Рождественская комната с камином, сгенерированая Stable Diffusion XL / Алиса Смирнова, Фотосклад.Эксперт

Те, кто ещё не успел обновить видеокарту, могут попробовать Stable Diffusion XL онлайн. Нейросеть доступна на clipdrop.co либо на stablediffusionweb.com. На clipdrop.co можно попробовать ещё одну новинку от stability.ai — модель SDXL TURBO. Это версия Stable Diffusion XL, которая генерирует изображения за одну итерацию, прямо в реальном времени: пользователь вводит описание, а нейросеть меняет и дорабатывает изображение с каждым новым словом. Вот как это выглядит:

В конце видео можно заметить, что бесплатные попытки закончились прямо во время ввода описания /Видео: Алиса Смирнова, Фотосклад.Эксперт

DALL-E: свежая версия и бесплатный доступ

С нейросетью DALL-E в 2023 году произошло два значимых события. Во-первых, вышла свежая, третья версия нейросети. Во-вторых, благодаря компании Microsoft больше не нужно ждать в очереди и возиться с регистрацией, чтобы воспользоваться нейросетью: актуальная DALL-E доступна бесплатно на сервисе Microsoft Bing (а в некоторых странах и прямо из ОС Windows).

DALL-E способен создавать весьма реалистичные портреты людей (даже вымышленных). А ещё он неплохо понимает русский язык / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

В месяц пользователю выдаётся 15 жетонов ускорения, на генерацию картинок по одному запросу тратится один жетон (при этом нейросеть рисует сразу четыре варианта картинки). Когда жетоны заканчиваются, работу с нейросеть можно продолжать — просто на создание картинок будет уходить не 10-15 секунд, а несколько минут.

Иллюстрация к запросу «нейросеть сидит под новогодней ёлкой у камина и подписывает открытки». На создание этих четырёх картинок ушёл один жетон ускорения / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Ещё один вариант работы с DALL-E — с помощью мобильного приложения Bing, в котором работают сразу несколько нейросетей. В приложении работает виртуальный помощник Microsoft Copilot, а общение с ним происходит в чате. Для общения и анализа запросов применяется текстовая нейросеть GPT-4, а для генерации картинок — DALL-E 3.

Эволюция нейросетевых ежей: от иллюстрации к киберпанку, а потом в космос /Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

При этом общение с нейросетями организовано очень удобно: чтобы что-то поменять в картинке, не нужно составлять длинный подробный запрос и создавать картинку с нуля. Достаточно попросить нейросеть что-то поменять или дополнить.

Создаём космоежей в приложении Bing / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Adobe Firefly — нейросеть, используемая в Photoshop

Компания Adobe в 2023 году порадовала фотографов и ретушёров, встроив нейросеть прямо в редактор Adobe Photoshop. Как и другие нейросети для работы с изображениями, она может создавать картинки по текстовому описанию — но это, скажем сразу, её не самая сильная сторона. Картинки получаются неплохими, но по уровню реалистичности они не дотягивают до Midjourney или DALL-E, да и с анатомией при рисовании людей бывают проблемы.

Если под рукой нет фотошопа с нейросетевыми функциями, протестировать Adobe Firefly можно онлайн на firefly.adobe.com — понадобится только регистрация учётной записи Adobe / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Ну а сильная сторона нейросети Adobe — это инструменты Generative Fill/Генеративная заливка и Generative Expand/Генеративное расширение, которые сильно ускоряют и облегчат ретушь фотографий. С их помощью можно стереть людей с пейзажного фото, превратить гамбургер в чизбургер, добавив на фото сгенерированный нейросетью сыр, сменить одежду на человеке или сделать из горизонтального фото вертикальное — но не обрезав его, а «восстановив» с помощью нейросети то, что осталось за кадром.

Генеративное расширение дорисовало большую часть комнаты / Фото: shotkit.com

Runway Gen-2: нейросеть для создания видео по текстовому запросу

Нейросеть Runway Gen-2 умеет создавать не только неподвижные картинки, но и четырёхсекундные видеофрагменты. Их можно использовать самостоятельно (как движущийся контент для соцсетей, который привлекает больше внимания, чем неподвижная картинка), а можно попробовать себя в качестве режиссёра: написать сценарий происходящего, сгенерировать десяток фрагментов и смонтировать их в один ролик. Сделать это можно прямо на сайте Runway — там есть простой видеоредактор для монтажа.

К сожалению, качество генерации пока оставляет желать лучшего. При просмотре нейросетевых роликов создаётся впечатление, что нейросеть генерирует более-менее приличный (на уровне Stable Diffusion v 1.5) первый кадр, а затем просто пытается как-то расшевелить картинку, не особо понимая, как это должно выглядеть.

Например, вот так выглядят четыре попытки сгенерировать Санта-Клауса, собранные в один ролик:

Runway Gen-2: нейросеть для создания видео по текстовому запросу

Например, вот так выглядят четыре попытки сгенерировать Санта-Клауса, собранные в один ролик:

Обратите внимание, что первые моменты каждого фрагмента выглядят прилично — а затем олени теряют головы и начинается хаос / Видео: Алиса Смирнова, Фотосклад.Эксперт

Несмотря на заметные проблемы, нейросеть Runway Gen-2 продолжает развиваться. А с учётом того, как быстро нынче умнеют и развиваются нейросети, есть шанс, что через год она сможет создавать уже нормальные видео.

19 янв. 2024

9309

1 комментарий

Комментарий съеден котиком...

Самые новые

Самые читаемые