Не прошло и недели с момента презентации Марком Цукербергом Make-a-Video, как Google представил миру похожую разработку Imagen Video. Обе нейросети берут начало из генераторов изображений Make-a-Scene и Imagen, соответственно.
Первопроходцами в этом направлении машинного обучения были разработчики Dall-E и Midjourney.
Google утверждает, что Imagen Video — это шаг к системе с «высокой степенью управляемости» и мировыми знаниями, включая способность генерировать кадры в различных художественных стилях.
Пока же обе компании научили нейросеть создавать ролики не более 5 секунд с плохим качеством и без звука.
В заключении своего отчета разработчики Google объяснили, что система берет текстовое описание и генерирует 16-кадровое видео с частотой три кадра в секунду с разрешением 24 на 48 пикселей. Затем система увеличивает масштаб и «прогнозирует» дополнительные кадры, создавая окончательное 128-кадровое видео с частотой 24 кадра в секунду при разрешении 720p (1280 на 768).
Формат шире, чем у разработки Meta*: Make-a-Video способен генерировать ролики с разрешением 64 на 64 пикселя, которые затем увеличиваются в размере до 768 на 768.
Это не единственное преимущество продукта Google. По словам представителей компании, новая разработка взяла сильные стороны Imagen, в частности обработку текста. Согласно документу, в Imagen Video также использовалась обученная языковая модель, которая позволила анимировать текст без ошибок. Такой функцией пока еще не обладает ранее выпущенная DALL-E 2.