Google снова делает погоду: под конец года компания выкатила несколько ИИ-новинок

Два крупнейших мировых разработчика моделей искусственного интеллекта (ИИ) — Google и OpenAI — похоже, решили сделать декабрь месяцем анонсов, стремясь под конец года максимально громко заявить о своих последних успехах. Google накануне обогнала конкурента, сделав доступной для бизнеса собственную модель генерации видео по текстовым запросам Veo. Аналогичная модель Sora от OpenAI до сих пор закрыта —, но это может измениться уже в ближайшие дни в ходе обещанного 12-дневного марафона новинок. А принадлежащая Google DeepMind тем временем продемонстрировала первую точную ИИ-систему прогнозирования погоды и нейросеть, создающую из любого изображения интерактивный виртуальный мир.

Veo: ИИ-видео для рекламы

Google объявил в среду, что анонсированная в мае ИИ-модель генерации видео Veo теперь доступна для бизнеса через платформу Vertex AI. Veo выдает ролики высокого качества (1080p), что открывает новые возможности для создания контента, в первую очередь — рекламного.

Veo умеет генерировать видео в различных стилях — от кинематографических до минималистичных. Кроме того, в качестве инструкций для создания видео может помимо текстовых запросов использовать изображения, расширяя контроль над конечным результатом. Изначально модель могла создавать видеоролики длиной чуть больше минуты, но в случае с текущим релизом ограничений по длительности не указано.

Некоторые примеры клипов, представленные Google, настолько реалистичны, что отличить их от реальных видео можно только при внимательном просмотре.

В Veo интегрирована технология SynthID, разработанная специалистами принадлежащей Google ИИ-лаборатории DeepMind, — это невидимая цифровая водяная метка, встроенная в каждое созданное видео. SynthID должен помочь бороться с дезинформацией и упростить идентификацию контента, созданного с использованием ИИ.

Кроме того, обновленная версия текстово-графического генератора Imagen 3 от Google станет доступна всем клиентам Google Cloud через Vertex уже на следующей неделе. Новые функции, такие как редактирование фотографий по запросу или интеграция фирменного стиля и логотипов в изображения, также доступны для участников программы раннего доступа.

Видеоигра из картинки и нейросеть-синоптик

Также в среду исследователи из Google DeepMind представили еще две разработки в области искусственного интеллекта. Правда, пока это не готовые коммерческие продукты.

Первая — модель Genie 2. На основе одного изображения и текстового запроса она генерирует интерактивный трехмерный мир, который пользователь может исследовать в течение минуты. Она позволяет симулировать сложную физику, включая гравитацию, столкновения, а также взаимодействия объектов с водой, дымом и освещением.

Примеры, продемонстрированные DeepMind, показывают, что Genie 2 создает среды с высоким уровнем детализации — на уровне видеоигр-блокбастеров, хотя и в небольшом по нынешним меркам разрешении — 720p. Пользователи могут исследовать миры с помощью клавиатуры и мыши, переключаясь между видами от первого и третьего лица.

Модель обучалась на базе обширного набора данных — вероятно (официально источники данных для обучение Genie не раскрываются), главным образом роликах с геймплеем видеоигр на YouTube, что позволяет ей сохранять непрерывность симуляций даже за пределами текущего поля зрения пользователя. Это уникальная способность по сравнению с аналогами, такими как Oasis от Decart, которая быстро «забывает» созданные сцены. Однако неизбежно возникают вопросы об авторских правах создателей игр, на прохождениях которых обучали модель.

Креативные специалисты из игровой индустрии вряд ли обрадуются появлению такой технологии. Недавнее расследование Wired выявило, что крупные игроки, такие как Activision Blizzard, которая в этом году провела массовые сокращения, используют AI для экономии — оптимизации процессов, повышения производительности и замещения уволенных специалистов.

Другая группа исследователей из DeepMind в опубликованной в среду в журнале Nature статье рассказала о GenCast — самой продвинутой на сегодня ИИ-технологии для прогнозирования погоды. Она основана на диффузионной модели, аналогичной тем, что используются для генерации изображений. Однако вместо визуальных данных GenCast работает с параметрами атмосферы, такими как температура, давление, влажность и скорость ветра.

По быстроте и точности вычислений GenCast превосходит (впервые для метеомодели на базе ИИ) традиционные, требующие долгих ресурсоемких вычислений системы прогнозирования, такие как европейская ECMWF. Разработка DeepMind способна генерировать данные для 13 различных высот в атмосфере, а также учитывать географические особенности с разрешением 0,25 градуса. Прогнозы, охватывающие до 15 дней, создаются за считанные минуты с использованием TPU — специализированного процессора Google.

Важное преимущество модели — ее энергоэффективность. В то время как традиционные системы требуют мощных суперкомпьютеров, GenCast работает на гораздо менее требовательном оборудовании.

OpenAI объявила Shipmas

Хотя Google удалось запустить свой видеогенератор в коммерческое использование раньше конкурента, OpenAI — если верить намекам сотрудников в соцсетях и слухам в СМИ — откроет доступ к своей модели генерации видео Sora уже в ближайшие дни. Компания анонсировала в X, а ее гендиректор Сэм Альтман подтвердил на публичном мероприятии в Нью-Йорке, что с 5 декабря ежедневно в течение 12 дней будет анонсировать новые продукты и функции. Марафон новинок назвали Shipmas (shipping — доставка, Christmas — Рождество).

Осведомленные источники рассказали The Verge, что в один из дней OpenAI намерена объявить об открытии доступа (на каких условиях — пока неясно) к Sora. Еще один ожидаемый анонс — новая «рассуждающая» модель, способная повысить качество анализа данных и принятия решений.

OpenAI обещала выпустить Sora до конца года, так что время почти вышло. Тем временем бренды, например Coca-Cola, уже активно используют созданный другими ИИ-системами видеоконтент в своих роликах. Спрос на такие сервисы, в том числе со стороны стремящихся ускорить создание креативов рекламодателей, наверняка будет. В Google ранее отмечали, что 86% организаций, начавших применять генеративный ИИ, отмечают рост доходов.

Авторы:

Николай Белый