Новости

Редакция ADPASS

19.02.2024, 10:25

Sora и Gemini 1.5: кино из текста и промпт длиной с «Властелина колец»

Гонка за лидерство в области генеративного искусственного интеллекта не сбавляет темп. Главные конкуренты в один день представили новые нейросетевые модели: Google — Gemini 1.5, способную воспринять и обработать огромное количество информации из одного запроса, а OpenAI — генератор кинематографичных видеороликов Sora. Правда, простым смертным ни один из инструментов пока не доступен.

Изображение сгенерировано нейросетью Kandinsky

Sora: кинематография по запросу

Sora, говорят в OpenAI, пока является продуктом в стадии разработки. Генератор доступен ограниченному числу тестировщиков, среди которых как профессиональные аниматоры и кинематографисты, так и специалисты в области кибербезопасности, исследующие его на предмет уязвимостей. В будущем сервис предполагают открыть для всех, однако дата пока не определена.

Результаты работы Sora, представленные на официальной странице проекта, вызывают вау-эффект — по крайней мере, у тех, кто видел аналогичные произведения конкурентов.

Большинство современных диффузионных нейросетей, создающих изображения, могут пока делать только видео длиной в несколько секунд, которые не отличаются высокой детализацией. Новинка от OpenAI генерирует ролики длительностью до одной минуты в разрешении 1920 на 1080 точек (FullHD), но что действительно поражает, это их кинематографический реализм.

Или анимационный, если выбран соответствующий стиль — результат не уступает произведениям студии Pixar как в проработке деталей (волосы или мех персонажей), так и в кинематографичности.

В OpenAI не учили Sora визуальному сторителлингу. Нейросеть сама почерпнула из данных для обучения принципы чередования планов, ракурсов, движения камеры и может «монтировать» несколько сцен в одном ролике, следуя базовым правилам киношной «грамматики». Умеет она применять и специфические стили — например, одно из видео имитирует съемку с дрона американского поселения золотодобытчиков в XIX веке:

В качестве примеров на сайте приведены несколько десятков видео, конечно, специально отобранных. В OpenAI не позволили использовать Sora даже журналистам, которым решили заранее рассказать о новинке. Так что, вероятно, на один удачный ролик пока приходится слишком много неудачных. Да и почти в каждом из отобранных примеров можно увидеть несоответствия, безошибочно указывающие на нейросетевое происхождение контента. Кроме того, многие сцены за счет специфического движения камеры и анимации персонажей выглядят как будто из трехмерной видеоигры (похоже, в тренировочных данных у Sora было много роликов с геймплеем). В примерах неудачных генераций (такие тоже выложили) объекты могут появляться из ниоткуда, движения — противоречить физике, а эмоции на лицах — не соответствовать ситуации.

Представители OpenAI отказались сообщить Wired, сколько точно у модели уходит времени на создание одного видео, сказав лишь, что это скорее несколько десятков минут, чем несколько дней. Очевидно, что вычислительные ресурсы для генерации контента такого качества требуются очень серьезные. Как и объем набора данных для тренировки — в компании рассказали, что в него входит как специально лицензированный контент, так и общедоступные видео из интернета. OpenAI настаивает, что их использование для обучения нейросетей не нарушает авторских прав. Ранее обучение языковой модели GPT на статьях The New York Times стало поводом для иска от издания.

В OpenAI признают, что для кинопроизводства Sora пока не подходит: модель нельзя заставить сгенерировать несколько видео подряд с идентичными персонажами и фоном. Скорее, такой продукт может пригодиться маркетологам, создателям роликов для соцсетей или продавцам на интернет-маркетплейсах для генерации видео с товарами.

Gemini 1.5: окно нараспашку

Google, анонсируя новую версию своей нейросетевой модели, сделал акцент не столько на результатах ее работы, сколько на теоретических возможностях и технических характеристиках. Главная из них — огромное «контекстное окно», то есть объем информации, который можно задать чат-боту в качестве промпта, и которым он может пользоваться при формулировании ответов.

Оно у Gemini 1.5 составляет 1 миллион токенов (единиц «восприятия» модели, в случае с текстом 100 токенов — это примерно 75 слов средней длины). Для сравнения, у GPT 4.0 от OpenAI это 128 тысяч токенов, а у первой версии Gemini Pro — 32 тысячи. То есть новой модели можно скормить для анализа текст объемом 750 000 слов. Вся эпопея Толкиена «Властелин Колец» вместе с «Хоббитом» — это примерно 575 тысяч слов, все книги о Гарри Поттере — 1 млн 84 тысячи.

Такое контекстное окно позволяет, например, работать с огромными наборами документов, программного кода, статистики или других данных, но ввод не обязательно должен быть текстовым. В качестве примера в Google привели ситуацию, в которой Gemini 1.5 дали «посмотреть» 44-минутный фильм с Бастером Китоном. После этого нейросеть смогла корректно указать, на какой минуте произошла описанная в запросе сцена. Но это не все: когда ее попросили найти сцену по схематичному рисунку, на котором человечка поливает водой из цистерны, она также дала правильный ответ.

Анонсированная в четверг Gemini 1.5 пока доступна только бизнес-пользователям и разработчикам через инструменты Vertex AI и AI Studio. Но в будущем на ней будут работать и общедоступные ИИ-инструменты поисковика, такие как чат-бот Gemini (бывший Bard) или нейросетевые утилиты в браузере Chrome. Гендиректор Google Сундар Пичаи рассказал The Verge, что сейчас разработчики уже тестируют вариант модели с контекстным окном в 10 миллионов токенов.

Авторы:

Николай Белый

#Google #Нейросети #OpenAI #Искусственный интеллект

Редакция ADPASS

Главное про маркетинг и рекламу

в Telegram

Лучшее в блогах

21.10.2024

Гиперперсонализация и прочая магия: как ИИ помогает в digital

16 минут назад

Red Apple на НРФ’8: ключевые тренды в медиа на 2025 год

36 минут назад

Что будут обсуждать лидеры рекламного бизнеса в рамках Национального рекламного форума?

4 часа назад

Лояльность и конверсии: почему все выбирают брендформанс

Вам понравится

Редакция ADPASS

30.10.2024

Google поставит щит на блокировщики рекламы

Google Блокировщики Ad-Shield uBlock

Google ставит на рекламу антиблокировщик. Компания заключила соглашение со стартапом Ad-Shield, инструменты которого позволяют «пробивать» блокировку и показывать рекламу вне зависимости от защиты от нее. Google и Ad-Shield обещают, что новинка позволит издателям вернуть от 14% до 21% рекламной выручки, которая теряется из-за блокировщиков.

Редакция ADPASS

28.10.2024

ИИ затормозился в развитии

Meta Google ИИ ChatGPT OpenAI

Пользователи заждались обновлений ведущих разработчиков искусственного интеллекта — OpenAI (ChatGPT) и конкурирующей с ней Google. Последнюю номерную версию большой языковой модели GPT-4 OpenAI выпустила в марте 2023 года — полтора года назад. Google представила нейросеть Gemini 1.0 в декабре 2023-го и также пока не выпустила версию 2.0. Когда станут доступны новинки, и оправдают ли они ожидания разработчиков и пользователей, выяснял ADPASS.

Редакция ADPASS

28.10.2024

WARC: компании, инвестирующие в перформанс-продвижение, теряют 50% продаж

Исследования Маркетинг Google WARC

Инвестиции не в строительство брендов, а исколючительно в перформанс-маркетинг, могут стоить брендам до 50% упущенной выручки от продаж. Такую цифру приводят аналитики WARC и Google в новом исследовании. При этом увеличение таких показателей, как осведомленность о бренде и формирования вовлеченности всего на 1%, могут увеличить продажи на 0,6%. Авторы считают, что у компаний, не занимающихся здоровьем брендов, нет будущего.

Редакция ADPASS

25.10.2024

Цифровое наследство: как передать аккаунты и пароли в надежные руки

Яндекс Соцсети Apple VK Google

За всю жизнь пользователи успевают сильно наследить в социальных сетях и мессенджерах, оставив в многочисленных аккаунтах свои фото, переписки, видео и еще много чего. Чтобы материальные ценности попали в надежные руки после смерти, составляется завещание. Цифровые активы давно представляют ценность, для некоторых пользователей аккаунты — это доходный бизнес. В преддверии Хэллоуина, который в московских клубах начинают отмечать уже на этих выходных, делимся советами, как правильно передать свои аккаунты, логины и пароли, чтобы они не попали к злоумышленникам.

Новости Кейсы How to Интервью и дискуссии Маркетинговые исследования Просто о сложном Проверено ADPASS Рекламные кампании

ChatGPT Маркировка рекламы Маркетинг Digital Коммуникации Кризис Соцсети Медиа Контент Наружная реклама IT и инновации Госрегулирование Брендинг