Той може да изобрази сладки животни в неправдоподобни ситуации

Google обяви Lumiere. Това е AI видео генератор, който се нарича модел на пространствено-времева дифузия за реалистично видео генериране. Той може да послужи при създаването на видеоклипове на сладки животни в нелепи сценарии. Такива са използване на ролкови кънки, шофиране на кола или свирене на пиано. Това е може би е най-усъвършенстваният AI видео генератор за текст към видео, демонстриран досега.

Според компанията Lumiere използва уникална архитектура, за да генерира цялата времева продължителност на видеоклипа наведнъж. Въвежда се пространствено-времева U-Net архитектура, която генерира цялата времева продължителност на видеото наведнъж, чрез едно преминаване в модела. Това е в контраст със съществуващите видео модели, които синтезират отдалечени ключови кадри, последвани от времева супер-резолюция. Този подход по своята същност прави трудна за постигане глобалната времева съгласуваност.

За аматьорите-любители

От гледна точка на неспециалистите, технологията на Google е проектирана да се справя едновременно с аспектите на пространството и времето. Вместо да прави видеоклип чрез събиране на много малки части или рамки, той може да създаде целия видеоклип, от началото до края, в един плавен процес.

Генераторът може да създава и парти трикове, които са изложени доста добре с примери на демонстрационната страница на Google. Той може да извършва генериране на текст към видео, да конвертира неподвижни изображения във видео, да генерира видеоклипове в специфични стилове, използвайки референтно изображение, да прилага последователно редактиране на видео с помощта на текстови подкани, да създава cinemagraphs чрез анимиране на конкретни региони от изображение и предлага възможности за рисуване във видеото.

Параметри на видеото

Новият модел на AI извежда видеоклипове с дължина 5 секунди 1024×1024 пиксела. Това се възприема за ниска разделителна способност. Въпреки тези ограничения, изследователите са извършили потребителско проучване, според което Lumiere е предпочитан пред съществуващите модели за видео синтез на AI.

Що се отнася до данните за обучение, Google не разкрива откъде са взети видеоклиповете, които са въведени в Lumiere.

Напредване на технологиите

Видео, генерирано от AI, все още е в примитивно състояние, но през последните две години напредва в качеството си. През октомври 2022 г. беше представен публично първият модел на Google за синтез на изображения, Imagen Video. Той генерира кратки 1280 × 768 видеоклипове от писмена подкана при 24 кадъра в секунда, но резултатите не винаги са съгласувани.

Преди това Meta дебютира със своя AI видео генератор, Make-A-Video. През юни миналата година моделът за видео синтез Gen2 на Runway позволи създаването на двусекундни видеоклипове от текстови подкани, подхранвайки създаването на сюрреалистични пародийни реклами. А през ноември разгледахме Stable Video Diffusion, който може да генерира кратки клипове от неподвижни изображения.

Компаниите за изкуствен интелект често демонстрират видео генератори със сладки животни, защото генерирането на съгласувани, недеформирани хора в момента е трудно. Съдейки по примерите на Google, Lumiere изглежда надминава тези модели.

Нови постижения

Моделите за синтез на текст към видео стават все по-способни. Редно е да се замислим за бъдещите последици свързани с интернет обществото, което е съсредоточено около споделянето на медийни артефакти. Бъдещите инструменти за видео синтез, по-способни от Lumiere, ще направят измамните дълбоки фалшификати тривиално лесни за създаване.

За тази цел, в раздела „Обществено въздействие“ на доклада на Lumiere, изследователите споделят, че основната цел е да се даде възможност на начинаещите потребители да генерират визуално съдържание по креативен и гъвкав начин. Има обаче риск от злоупотреба за създаване на фалшиво или вредно съдържание и е от решаващо значение да се разработят и прилагат инструменти за откриване на пристрастия и случаи на злонамерена употреба, за да се гарантира безопасно и честно използване.