19.02.2024, 10:25

Sora и Gemini 1.5: кино из текста и промпт длиной с «Властелина колец»

Гонка за лидерство в области генеративного искусственного интеллекта не сбавляет темп. Главные конкуренты в один день представили новые нейросетевые модели: Google — Gemini 1.5, способную воспринять и обработать огромное количество информации из одного запроса, а OpenAI — генератор кинематографичных видеороликов Sora. Правда, простым смертным ни один из инструментов пока не доступен.

Изображение сгенерировано нейросетью Kandinsky

Sora: кинематография по запросу

Sora, говорят в OpenAI, пока является продуктом в стадии разработки. Генератор доступен ограниченному числу тестировщиков, среди которых как профессиональные аниматоры и кинематографисты, так и специалисты в области кибербезопасности, исследующие его на предмет уязвимостей. В будущем сервис предполагают открыть для всех, однако дата пока не определена.

Результаты работы Sora, представленные на официальной странице проекта, вызывают вау-эффект — по крайней мере, у тех, кто видел аналогичные произведения конкурентов.

© OpenAI

Большинство современных диффузионных нейросетей, создающих изображения, могут пока делать только видео длиной в несколько секунд, которые не отличаются высокой детализацией. Новинка от OpenAI генерирует ролики длительностью до одной минуты в разрешении 1920 на 1080 точек (FullHD), но что действительно поражает, это их кинематографический реализм.

© OpenAI

Или анимационный, если выбран соответствующий стиль — результат не уступает произведениям студии Pixar как в проработке деталей (волосы или мех персонажей), так и в кинематографичности.

© OpenAI

В OpenAI не учили Sora визуальному сторителлингу. Нейросеть сама почерпнула из данных для обучения принципы чередования планов, ракурсов, движения камеры и может «монтировать» несколько сцен в одном ролике, следуя базовым правилам киношной «грамматики». Умеет она применять и специфические стили — например, одно из видео имитирует съемку с дрона американского поселения золотодобытчиков в XIX веке:

© OpenAI

В качестве примеров на сайте приведены несколько десятков видео, конечно, специально отобранных. В OpenAI не позволили использовать Sora даже журналистам, которым решили заранее рассказать о новинке. Так что, вероятно, на один удачный ролик пока приходится слишком много неудачных. Да и почти в каждом из отобранных примеров можно увидеть несоответствия, безошибочно указывающие на нейросетевое происхождение контента. Кроме того, многие сцены за счет специфического движения камеры и анимации персонажей выглядят как будто из трехмерной видеоигры (похоже, в тренировочных данных у Sora было много роликов с геймплеем). В примерах неудачных генераций (такие тоже выложили) объекты могут появляться из ниоткуда, движения — противоречить физике, а эмоции на лицах — не соответствовать ситуации.

Представители OpenAI отказались сообщить Wired, сколько точно у модели уходит времени на создание одного видео, сказав лишь, что это скорее несколько десятков минут, чем несколько дней. Очевидно, что вычислительные ресурсы для генерации контента такого качества требуются очень серьезные. Как и объем набора данных для тренировки — в компании рассказали, что в него входит как специально лицензированный контент, так и общедоступные видео из интернета. OpenAI настаивает, что их использование для обучения нейросетей не нарушает авторских прав. Ранее обучение языковой модели GPT на статьях The New York Times стало поводом для иска от издания.

В OpenAI признают, что для кинопроизводства Sora пока не подходит: модель нельзя заставить сгенерировать несколько видео подряд с идентичными персонажами и фоном. Скорее, такой продукт может пригодиться маркетологам, создателям роликов для соцсетей или продавцам на интернет-маркетплейсах для генерации видео с товарами.

Gemini 1.5: окно нараспашку

Google, анонсируя новую версию своей нейросетевой модели, сделал акцент не столько на результатах ее работы, сколько на теоретических возможностях и технических характеристиках. Главная из них — огромное «контекстное окно», то есть объем информации, который можно задать чат-боту в качестве промпта, и которым он может пользоваться при формулировании ответов.

Оно у Gemini 1.5 составляет 1 миллион токенов (единиц «восприятия» модели, в случае с текстом 100 токенов — это примерно 75 слов средней длины). Для сравнения, у GPT 4.0 от OpenAI это 128 тысяч токенов, а у первой версии Gemini Pro — 32 тысячи. То есть новой модели можно скормить для анализа текст объемом 750 000 слов. Вся эпопея Толкиена «Властелин Колец» вместе с «Хоббитом» — это примерно 575 тысяч слов, все книги о Гарри Поттере — 1 млн 84 тысячи.

Такое контекстное окно позволяет, например, работать с огромными наборами документов, программного кода, статистики или других данных, но ввод не обязательно должен быть текстовым. В качестве примера в Google привели ситуацию, в которой Gemini 1.5 дали «посмотреть» 44-минутный фильм с Бастером Китоном. После этого нейросеть смогла корректно указать, на какой минуте произошла описанная в запросе сцена. Но это не все: когда ее попросили найти сцену по схематичному рисунку, на котором человечка поливает водой из цистерны, она также дала правильный ответ.

© Google

Анонсированная в четверг Gemini 1.5 пока доступна только бизнес-пользователям и разработчикам через инструменты Vertex AI и AI Studio. Но в будущем на ней будут работать и общедоступные ИИ-инструменты поисковика, такие как чат-бот Gemini (бывший Bard) или нейросетевые утилиты в браузере Chrome. Гендиректор Google Сундар Пичаи рассказал The Verge, что сейчас разработчики уже тестируют вариант модели с контекстным окном в 10 миллионов токенов.

Авторы:
Николай Белый
Редакция ADPASS
Главное про маркетинг и рекламу
в Telegram

Вам понравится

Редакция ADPASS
17.04.2024
Редакция ADPASS
17.04.2024
Редакция ADPASS
05.04.2024
Редакция ADPASS
01.04.2024
Как создать полезный гид
для предпринимателей?