Российские исследователи создали систему, которая превращает неподвижные изображения в говорящие портреты

24 мая 2019

104

Исследователи из московского центра Samsung AI Center Moscow и Сколковского института науки и технологий опубликовали результаты исследования, в котором описывается процесс создания анимированных 3D моделей голов из одной и нескольких фотографий. В отличие от представленных ранее систем ИИ, которые позволяют генерировать фотореалистичные портреты, новая технология создает говорящие и двигающиеся головы. Хотя пока модели не идеальны, некоторые результаты уже выглядят достаточно впечатляюще.

Для практического применения необходима система, которая сможет создавать модель, основываясь на нескольких или даже на одной фотографии, не требуя большого набора исходных изображений, объясняют исследователи. Чтобы соответствовать этому требованию, они разработали систему, «обучение которой может быть основано всего на нескольких изображениях и выполнятся быстро, несмотря на необходимость настройки десятков миллионов параметров».

Используя генеративные состязательные сети, исследователи смогли анимировать портреты из классики мировой живописи и фотографии некоторых исторических личностей, создав, например, «говорящую» версию Моны Лизы и Федора Михайловича Достоевского. В видео ниже продемонстрированы некоторые результаты, разной степени реалистичности и качества, однако некоторые из них почти неотличимы от реальных видео.

В своей статье исследователи объясняют, что использование дополнительных изображений для обучения системы позволяет получать более реалистичные результаты:

«Важно отметить, что для создания новой модели требуется всего несколько фотографий (всего одна), тогда как модель, обученная на 32 изображениях, достигает высшего балла в области реализма и персонализации в нашем исследовании пользователей (для статических изображений 224p)».

Слева – оригинальное изображение, справа – сгенерированные изображения

Одна из проблем, которую еще предстоит решить, возникает при «заметном несоответствии личности» между человеком на неподвижном изображении, и говорящим человеком, используемым для анимации портрета. Исследователи объясняют:

«Если кто-то хочет создать “фэйковые” видео без этого несоответствия, необходима значительная адаптация ориентиров [landmarks]».

Пока технология больше подходит для целей, не требующих обязательного индивидуального соответствия – для простой анимации персонажа в небольшой серии кадров. На данный момент система работает только для лица и верхней части торса – собираются ли исследователи расширить систему для остальных частей тела, неизвестно.

24 мая 2019

104

Самые новые

Самые читаемые