Новости

Редакция ADPASS

19.02.2024, 10:25

Sora и Gemini 1.5: кино из текста и промпт длиной с «Властелина колец»

Гонка за лидерство в области генеративного искусственного интеллекта не сбавляет темп. Главные конкуренты в один день представили новые нейросетевые модели: Google — Gemini 1.5, способную воспринять и обработать огромное количество информации из одного запроса, а OpenAI — генератор кинематографичных видеороликов Sora. Правда, простым смертным ни один из инструментов пока не доступен.

Изображение сгенерировано нейросетью Kandinsky

Sora: кинематография по запросу

Sora, говорят в OpenAI, пока является продуктом в стадии разработки. Генератор доступен ограниченному числу тестировщиков, среди которых как профессиональные аниматоры и кинематографисты, так и специалисты в области кибербезопасности, исследующие его на предмет уязвимостей. В будущем сервис предполагают открыть для всех, однако дата пока не определена.

Результаты работы Sora, представленные на официальной странице проекта, вызывают вау-эффект — по крайней мере, у тех, кто видел аналогичные произведения конкурентов.

Большинство современных диффузионных нейросетей, создающих изображения, могут пока делать только видео длиной в несколько секунд, которые не отличаются высокой детализацией. Новинка от OpenAI генерирует ролики длительностью до одной минуты в разрешении 1920 на 1080 точек (FullHD), но что действительно поражает, это их кинематографический реализм.

Или анимационный, если выбран соответствующий стиль — результат не уступает произведениям студии Pixar как в проработке деталей (волосы или мех персонажей), так и в кинематографичности.

В OpenAI не учили Sora визуальному сторителлингу. Нейросеть сама почерпнула из данных для обучения принципы чередования планов, ракурсов, движения камеры и может «монтировать» несколько сцен в одном ролике, следуя базовым правилам киношной «грамматики». Умеет она применять и специфические стили — например, одно из видео имитирует съемку с дрона американского поселения золотодобытчиков в XIX веке:

В качестве примеров на сайте приведены несколько десятков видео, конечно, специально отобранных. В OpenAI не позволили использовать Sora даже журналистам, которым решили заранее рассказать о новинке. Так что, вероятно, на один удачный ролик пока приходится слишком много неудачных. Да и почти в каждом из отобранных примеров можно увидеть несоответствия, безошибочно указывающие на нейросетевое происхождение контента. Кроме того, многие сцены за счет специфического движения камеры и анимации персонажей выглядят как будто из трехмерной видеоигры (похоже, в тренировочных данных у Sora было много роликов с геймплеем). В примерах неудачных генераций (такие тоже выложили) объекты могут появляться из ниоткуда, движения — противоречить физике, а эмоции на лицах — не соответствовать ситуации.

Представители OpenAI отказались сообщить Wired, сколько точно у модели уходит времени на создание одного видео, сказав лишь, что это скорее несколько десятков минут, чем несколько дней. Очевидно, что вычислительные ресурсы для генерации контента такого качества требуются очень серьезные. Как и объем набора данных для тренировки — в компании рассказали, что в него входит как специально лицензированный контент, так и общедоступные видео из интернета. OpenAI настаивает, что их использование для обучения нейросетей не нарушает авторских прав. Ранее обучение языковой модели GPT на статьях The New York Times стало поводом для иска от издания.

В OpenAI признают, что для кинопроизводства Sora пока не подходит: модель нельзя заставить сгенерировать несколько видео подряд с идентичными персонажами и фоном. Скорее, такой продукт может пригодиться маркетологам, создателям роликов для соцсетей или продавцам на интернет-маркетплейсах для генерации видео с товарами.

Gemini 1.5: окно нараспашку

Google, анонсируя новую версию своей нейросетевой модели, сделал акцент не столько на результатах ее работы, сколько на теоретических возможностях и технических характеристиках. Главная из них — огромное «контекстное окно», то есть объем информации, который можно задать чат-боту в качестве промпта, и которым он может пользоваться при формулировании ответов.

Оно у Gemini 1.5 составляет 1 миллион токенов (единиц «восприятия» модели, в случае с текстом 100 токенов — это примерно 75 слов средней длины). Для сравнения, у GPT 4.0 от OpenAI это 128 тысяч токенов, а у первой версии Gemini Pro — 32 тысячи. То есть новой модели можно скормить для анализа текст объемом 750 000 слов. Вся эпопея Толкиена «Властелин Колец» вместе с «Хоббитом» — это примерно 575 тысяч слов, все книги о Гарри Поттере — 1 млн 84 тысячи.

Такое контекстное окно позволяет, например, работать с огромными наборами документов, программного кода, статистики или других данных, но ввод не обязательно должен быть текстовым. В качестве примера в Google привели ситуацию, в которой Gemini 1.5 дали «посмотреть» 44-минутный фильм с Бастером Китоном. После этого нейросеть смогла корректно указать, на какой минуте произошла описанная в запросе сцена. Но это не все: когда ее попросили найти сцену по схематичному рисунку, на котором человечка поливает водой из цистерны, она также дала правильный ответ.

Анонсированная в четверг Gemini 1.5 пока доступна только бизнес-пользователям и разработчикам через инструменты Vertex AI и AI Studio. Но в будущем на ней будут работать и общедоступные ИИ-инструменты поисковика, такие как чат-бот Gemini (бывший Bard) или нейросетевые утилиты в браузере Chrome. Гендиректор Google Сундар Пичаи рассказал The Verge, что сейчас разработчики уже тестируют вариант модели с контекстным окном в 10 миллионов токенов.

Авторы:

Николай Белый

#Google #Нейросети #OpenAI #Искусственный интеллект

Редакция ADPASS

Главное про маркетинг и рекламу

в Telegram

Лучшее в блогах

18.04.2024

Объявлены победители Седьмого сезона «НПБК.Эффективность»

Позавчера

Эксперты АКАР и РАМУ выступили на конференции «Рекламный вектор-2024: время профессий будущего»

26.04.2024

Как создавать контент: новые нейросети и обновления популярных GenAI-сервисов

26.04.2024

«Русская наружка» на Конференции Инновационных Технологий Russ

Вам понравится

Редакция ADPASS

17.04.2024

Shkulev закрылся от ботов «Яндекса»

ChatGPT Медиа Яндекс Нейросети ИИ

Shkulev Media Holding закрыл часть своих сайтов от нового сервиса «Яндекса» «Нейро». Проект «Нейро» был запущен поисковиком 16 апреля. Сервис работает в приложении «Яндекса», в «Яндекс Браузере» и позволяет получать ответы на поисковые запросы без посещения сайтов-источников, которые рискуют потерять трафик, а, следовательно, доходы от рекламы.

Редакция ADPASS

17.04.2024

Цифровые инфлюенсеры выбирают королеву ИИ-красоты

Нейросети ИИ Инфлюенсеры Fanvue

Аналог OnlyFans — Fanvue — выберет «Мисс мира» среди моделей, созданных нейросетями. В конкурсе могут участвовать авторы контента со всего мира, в том числе российские. Приз за первое место — $5 тыс. и еще $8 тыс. на обучение и продвижение на платформе Fanvue. К выбору королевы привлекли двух виртуальных блогеров, у которых уже больше подписчиков в соцсетях, чем у реальных.

Редакция ADPASS

05.04.2024

Google Deluxe: сервис задумался о функциях «для богатых» и готов сделать премиальные функции платными

Монетизация Google ИИ Интернет-поиск

Google, четверть века строивший свой ключевой бизнес на показе рекламы пользователям бесплатного интернет-поиска, задумался о корректировке модели заработка. В компании полагают, что продвинутые функции искусственного интеллекта (ИИ) в ее поисковике должны быть доступны только владельцам платной подписки – хотя бы потому, что расходуют гораздо больше ресурсов. Без ИИ, скорее всего, не удастся решить одну из главных проблем нынешних поисковых машин – засилье SEO-спама, низкокачественного контента, написанного и SEO-оптимизированного при помощи ChatGPT и аналогичных сервисов. Возможно, что вскоре избавиться от него можно будет лишь за деньги, при этом смотреть рекламу тоже придется.

Редакция ADPASS

01.04.2024

Бот для топа: как пользуются искусственным интеллектом Цукерберг, Баффет, главы Google, Apple, Microsoft и «Сбера»

Microsoft Apple Google ИИ ChatGPT Искусственный интеллект AI

Главы крупнейших ИТ-компаний активно используют искусственный интеллект (ИИ), потенциально самую прорывную технологию со времен появления интернета. Многие из них говорят, что не обходятся без генеративных ИИ-инструментов вроде ChatGPT на работе, другие пишут с их помощью стихи, рэп или пытаются понять философию Хайдеггера. ADPASS выяснил, как применяют ИИ самые влиятельные топ-менеджеры крупнейших игроков технологической отрасли, включая Google, Microsoft и Meta*.

Неделя рекламы Новости Кейсы How to Интервью и дискуссии Маркетинговые исследования Просто о сложном Проверено ADPASS Рекламные кампании

ChatGPT Маркировка рекламы Маркетинг Digital Коммуникации Кризис Соцсети Медиа Контент Наружная реклама IT и инновации Госрегулирование Брендинг