14.05.2024, 11:57

ИИ очеловечился: новая GPT-4o видит, слышит и будет бесплатной

OpenAI представила усовершенствованную версию своей большой языковой модели — GPT-4 Omni (GPT-4o, читается как «джи пи ти фор оу»). Цифра в названии не поменялась, так как новая нейросеть демонстрирует примерно тот же уровень «разумности», что и предшественница. Однако в остальном это совершенно другая система: GPT-4o с одинаковым успехом работает в текстовом, голосовом и визуальном режимах, справляется с теми же задачами, используя при этом гораздо меньше ресурсов, и может общаться с пользователем голосом без задержек как ИИ-помощники из фантастических фильмов. И, самое главное — модель будет доступна всем пользователям бесплатно.

Шутит, хихикает и кокетничает

Во время трансляции из штаб-квартиры компании в Сан-Франциско в понедельник главный технический директор OpenAI Мира Мурати объявила, что ChatGPT в течение ближайших недель перейдет на новую, более совершенную модель ИИ — GPT-4o. Модель будет доступна для бесплатных и платных пользователей ChatGPT через новое приложение для настольных ПК, а также уже существующие мобильное приложение и веб-версию.

Разработчики GPT-4o уже некоторое время тестировали ее под названием «gpt2-chatbot» на площадке Chatbot Arena, где лидер среди языковых моделей определяется на основе выбора пользователями более качественных ответов по системе, аналогичной шахматным турнирам. Как выяснилось, GPT-4o с результатом чуть выше 1300 баллов заметно обходит лидеров — GPT-4 Turbo (1258), Gemini 1.5 Pro от Google (1249) и Claude Opus от Anthropic (1248).

Мира Мурати рассказала, что модель GPT-4o позволяет ChatGPT гораздо быстрее, чем предыдущая технология OpenAI, реагировать на речь пользователя, а также на присылаемые им фото и даже на картинку в реальном времени с камеры смартфона. Она и другие сотрудники OpenAI продемонстрировали, что беседа с обновленным ChatGPT теперь происходит без задержек. Чат-бот отвечал живым и выразительным женским голосом и моментально замолкал, когда его перебивали.

Главный технический директор OpenAI Мира Мурати

ChatGPT мог озвучивать свои ответы и раньше, но делал это медленно и довольно механическим, «неживым» голосом — в духе самого текста ответов, в которых часто напоминал пользователю, что тот общается с компьютерной программой. GPT-4o, наоборот, делает все, чтобы у человека возникло ощущение общения с себе подобным: эмоциональный тон ответов может меняться в широком диапазоне, чат-бот умеет даже хихикать, шутить и кокетничать. Когда сотрудник OpenAI сказал, что обсуждал с коллегами, насколько «полезен и удивителен» чат-бот, он ответил в притворном смущении: «О, прекрати, ты заставляешь меня краснеть».

Более того, разработчики OpenAI наделили новинку неким подобием эмоционального интеллекта: GPT-4o умеет распознавать настроение пользователя (в том числе и если он просто направит камеру в приложении на свое лицо) и отвечать соответствующим образом.

Со скоростью человека

Это первый сервис такого рода, вплотную приблизившийся к планке, заданной голосовым помощникам фантастическими фильмами вроде «Она» Спайка Джонса. На сайте OpenAI указано, что минимальное время отклика модели на голос — 232 миллисекунды, а среднее — 320 миллисекунд, что соответствует средней реакции живого человека.

На это обратил внимание и генеральный директор OpenAI Сэм Альтман. В публикации в своем блоге в понедельник вечером он написал, что GPT-4o «похожа на ИИ из фильмов». «Меня до сих пор немного удивляет, что это реально, — заявил Сэм Альтман. — Оказывается, приближение к человеку по времени отклика и выразительности — большое изменение». По его мнению, новый голосовой и видеорежим ChatGPT — это лучший компьютерный интерфейс, который он когда-либо использовал. А в соцсети X глава OpenAI опубликовал твит с одним словом — «Она», отсылая к культовому фильму.

ChatGPT помогает сотрудникам OpenAI решить линейное уравнение

Буква «о» в названии модели — сокращенное Omni, то есть подчеркивается, что она сразу обучалась не только на тексте, но и на голосовых и визуальных данных, и является исходно мультимодальной. В ходе демонстрации GPT-4o без проблем поддерживала разговор, одновременно воспринимая в реальном времени изображение с камеры — например, помогая сотруднику OpenAI решить простейшее линейное уравнение, которое он написал на листе бумаги.

Что касается интерфейсов, у ChatGPT теперь появился еще один — приложение для настольных компьютеров, пока, правда, доступное только для macOS. Оно представляет собой небольшое окно и умеет отвечать на вопросы о содержимом экрана — например, анализируя программный код или графики. Пользователи могут задавать вопросы ChatGPT с помощью сочетания клавиш Option + Пробел, а также делать и обсуждать скриншоты в приложении.

Приложение ChatGPT на macOS анализирует отображаемый на экране график

Начиная с понедельника программа доступна владельцам подписки ChatGPT Plus, а все желающие смогут установить ее и использовать бесплатно «в ближайшие недели». OpenAI планирует запустить версию приложения для Windows позже в этом году. Пользователи в соцсети X уже иронизируют над этим обстоятельством: «Microsoft дает OpenAI 10 миллиардов долларов, а они сначала выпускают приложение для маков».

Цена вне конкуренции

Решение OpenAI сделать свою самую совершенную ИИ-модель доступной бесплатно — это и перчатка, брошенная догоняющим конкурентам, и попытка соответствовать декларировавшемуся при создании компании принципу всеобщего блага. В отходе от него и коммерциализации в последний год OpenAI часто упрекали критики.

Для тех, кто использует ChatGPT бесплатно, то есть общается с ограниченной текстом GPT-3.5, GPT-4o станет огромным рывком в будущее. И дело не только в распознавании речи, изображений и документов: ChatGPT теперь сможет получать актуальные данные из интернета, анализировать данные, рисовать графики и использовать функцию памяти — заранее заданных инструкций, действующих во всех чатах.

Кроме того бесплатным пользователям откроют доступ к магазину модификаций ChatGPT, где размещены созданные сторонними разработчиками чат-боты, специализированные для определенных узких задач. Наконец, ChatGPT можно будет использовать для общения с носителями других языков: в ходе презентации приложение на лету переводило беседу с итальянского на английский и в обратную сторону.

По информации Bloomberg, Apple и OpenAI находятся в завершающей стадии переговоров об использовании технологий GPT в следующей версии операционной системы для iPhone, iOS 18. В какой именно форме случится интеграция и на каких условиях, пока неизвестно — все детали объявят на конференции для разработчиков WWDC в июне. Но после презентации OpenAI в понедельник стало окончательно ясно, что голосовая помощница Siri в ее нынешнем виде выглядела бы крайне бледно на смартфонах, куда можно установить обновленный ChatGPT. Будет большим разочарованием, если голосовая помощница Apple к осени не освоит навыки, продемонстрированные накануне GPT-4o.

Сэм Альтман заверил, что OpenAI не разорится, открыв доступ к новой модели всем. «Я очень горжусь тем, что лучшая в мире модель доступна бесплатно в ChatGPT, без рекламы или чего-то подобного, — написал он в своем блоге. — Мы — бизнес, мы найдем, за что брать деньги, и это поможет нам предоставить бесплатные, выдающиеся услуги ИИ (надеюсь) миллиардам людей».

Глава OpenAI также намекнул, как он видит дальнейшее развитие искусственного интеллекта своей компании: «По мере добавления (по желанию) персонализации, доступа к вашей информации, возможности совершать действия от вашего имени и так далее я вижу захватывающее будущее, в котором мы сможем использовать компьютеры для гораздо большего, чем когда-либо прежде».

Авторы:
Николай Белый
Редакция ADPASS
Главное про маркетинг и рекламу
в Telegram

Вам понравится

Редакция ADPASS
Вчера
Редакция ADPASS
02.10.2024
Редакция ADPASS
25.09.2024
Lava Media
23.09.2024