Google сгенерировал видео из текста, Twitter стал более зрелищным

Google отстал от Meta* всего на несколько дней: его нейросеть тоже научилась генерировать видео из текста. Twitter расширяет мультимедийность: вместо одной фотографии пользователи могут добавить в твит несколько, включая видео и GIF-файлы. О новых технологических разработках читайте в дайджесте ADPASS.

Imagen Video — ответ Google конкуренту

Не прошло и недели с момента презентации Марком Цукербергом Make-a-Video, как Google представил миру похожую разработку Imagen Video. Обе нейросети берут начало из генераторов изображений Make-a-Scene и Imagen, соответственно.

Первопроходцами в этом направлении машинного обучения были разработчики Dall-E и Midjourney.

Google утверждает, что Imagen Video — это шаг к системе с «высокой степенью управляемости» и мировыми знаниями, включая способность генерировать кадры в различных художественных стилях.

Пока же обе компании научили нейросеть создавать ролики не более 5 секунд с плохим качеством и без звука.

В заключении своего отчета разработчики Google объяснили, что система берет текстовое описание и генерирует 16-кадровое видео с частотой три кадра в секунду с разрешением 24 на 48 пикселей. Затем система увеличивает масштаб и «прогнозирует» дополнительные кадры, создавая окончательное 128-кадровое видео с частотой 24 кадра в секунду при разрешении 720p (1280 на 768).

Формат шире, чем у разработки Meta*: Make-a-Video способен генерировать ролики с разрешением 64 на 64 пикселя, которые затем увеличиваются в размере до 768 на 768.

Это не единственное преимущество продукта Google. По словам представителей компании, новая разработка взяла сильные стороны Imagen, в частности обработку текста. Согласно документу, в Imagen Video также использовалась обученная языковая модель, которая позволила анимировать текст без ошибок. Такой функцией пока еще не обладает ранее выпущенная DALL-E 2.

Как заявили разработчики, программа была обучена 14 миллионами пар видео-текст и 60 миллионам пар изображение-текст.

О том, что разработка компании «определенно усовершенствована», в интервью TechCrunch сказал Мэтью Гуздиал, доцент Университета Альберты, изучающий ИИ и машинное обучение.

«Как вы можете видеть из видео-примеров, даже несмотря на то, что команда коммуникации выбирает лучшие результаты, все равно остается размытость и искусственность. Определенно видео в ближайшее время не будут использоваться непосредственно в анимации или на телевидении. Но такая разработка, безусловно, может быть использована как инструмент для ускорения некоторых процессов», — отметил Гуздиал.

В будущем, как пишет TechCrunch, Google объединится с разработчиками Phenaki. В планах коллаборация должна помочь создать систему, генерирующую из длинного подробного описания видеоролики продолжительностью более двух минут.

Как и все прочие, эта нейросеть вызывает опасение из-за возможности создания дезинформирующего или опасного контента. Во время тестов, как отметили исследователи, Imagen Video создавал жестокие и откровенные клипы.

«Мы решили не выпускать модель Imagen Video или ее исходный код до тех пор, пока эти проблемы не будут устранены», — заявили в Google.

Twitter переходит на мультимедийность

Twitter запускает новую функцию на Android и iOS, позволяющую объединять текст, фотографии, видео и GIF-файлы в одном твите, пишет The Verge.

С её помощью пользователи могут добавлять до четырех различных медиа-файлов. Контент будет отображаться рядом с текстом или в формате сетки, в зависимости от того, сколько изображений, видео или GIF-файлов добавлено.

О начале тестирования новых возможностей компания сообщила ещё в июле.

«Мы видим, что люди ведут больше визуальных разговоров в Twitter и используют изображения, GIF-файлы и видео, чтобы сделать эти разговоры более захватывающими. С помощью этого теста мы хотим понять, как люди комбинируют различные медиа-форматы для более творческого выражения себя кроме 280 знаков текста», — заявили тогда в компании.

Наряду с этим обновлением в конце сентября стало известно, что Twitter добавил в своей ленте возможность бесконечного прокручивания видео, как в TikTok и других его конкурентах. Популярные видеоролики можно просматривать в карусели, нажав на вкладку «Поиск».

Авторы:

Юлия Троицкая