GPT с картинками: чем четвертая языковая модель OpenAI превосходит GPT-3.5 и как ответил конкуренту Google

OpenAI представила четвертое поколение своей языковой генеративной модели GPT. Утверждается, что она превосходит по возможностям предыдущую версию, на основе которой создан прославленный чат-бот СhatGPT. В частности, GPT-4 получила компьютерное зрение и углубленные знания: новая модель умеет работать с изображениями и сдавать сложные экзамены на уровне студента-отличника. Одновременно (это уже становится традицией) Google рассказал об очередных новых рубежах, взятых его собственным ИИ: корпорация подключила его к Google Docs, почте и другим продуктам. Но пока его чат-бота Bard не видел никто, эти презентации интересуют только специалистов по машинному обучению и журналистов.

Что умеет GPT-4

1. Работать с изображениями

В отличие от GPT-3.5, GPT-4 обрабатывает не только текстовые входные данные, но и изображения, выдавая текстовые выходные данные. Такая технология называется компьютерным зрением: GPT-4 может генерировать подписи к изображениям, анализировать, классифицировать и интерпретировать их.

OpenAI считает, что это большой шаг вперед: способность модели анализировать текст и изображение одновременно позволяет ей интерпретировать более сложные входные данные. Новая языковая модель может решать сфотографированные уравнения, объяснять диаграммы и графики и выполнять различные задачи на основе картинок. И, конечно же, разжевывать мемы.

**GPT-4 объясняет мем с шуткой про вид Земли из космоса на подносе с наггетсами**

Важнейшим социальным партнерством, ставшим возможным благодаря работе GPT-4 с изображениями, западные журналисты называют сотрудничество с приложением Be My Eyes. Be My Eyes — это бесплатное приложение, которое соединяет слепых и слабовидящих людей со зрячими волонтерами или представителями компаний для для визуальной помощи через прямой видеозвонок.

Теперь в новую версию приложения Be My Eyes интегрирован «виртуальный волонтер» от GPT-4, который предлагает помощь на основе ИИ в любое время. Пользователи могут отправлять ему изображения, и он ответит на любой вопрос об этом изображении и предоставит мгновенную визуальную помощь для самых разных задач — описать рисунок на платье, определить растение, объяснить, как добраться до определенного тренажера в спортзале, перевести этикетку, предложить репцепт из имеющихся в холодильнике продуктов, прочитать карту и так далее.

Один из самых популярных комментариев к стриму-презентации GPT-4 для разработчиков в YouTube — от пользователя, который впечатлен тем, как нейросеть может читать каракули врачей. Если GPT-4 действительно сможет определять названия лекарств в неразборчивых рукописных рецептах, то OpenAI похоронит еще одну разработку Google. В конце декабря 2022 года представители корпорации на ежегодной конференции «Google для Индии» объявили, что Google вместе с фармацевтами создает функционал, который позволит расшифровывать нечитаемые рецепты на лекарства.

2. Сдавать вступительные и выпускные экзамены

Различие между GPT-4 и его предшественником GPT-3.5 в обычном разговоре разработчики называют тонким. Но OpenAI утверждает, что новая модель «более творческая и комплексная, чем когда-либо прежде», «может решать сложные задачи с большей точностью». И предлагает убедиться в улучшенной производительности машины на основании сданных GPT-4 экзаменов Uniform Bar Exam, LSAT, SAT Math и SAT Evidence-Based Reading & Writing, результатов олимпиады по биологии так далее. По результатам некоторых тестов нейросеть вошла в 10% лучших студентов.

**Сравнение результатов экзаменов GPT-4 и GPT-3.5**

C полным списком экзаменов и результатов GPT-4 можно ознакомиться в блоге разработчиков и исследователей OpenAI.

CPT-4 так же может производить сложные расчеты. Во время прямого эфира для разработчиков в YouTube нейросеть посчитала запутанный налог семейной пары. Ведущий презентацию резидент и сооснователь OpenAI Грей Брокман признался, что впервые понял, как его считать.

3. «Держать в памяти» больше информации

GPT-4 способен обрабатывать более 25 000 слов одновременно, что позволяет создавать длинные тексты, расширенные беседы, а также искать и анализировать документы, отмечается в презентации OpenAI.

При этом «держать в памяти» GPT-4 может еще больше: около 64 000 слов или 50 страниц текста, пишет TechCrunch. Это достаточно для целой пьесы или рассказа. Модель будет помнить, о чем вы говорили 20 страниц чата назад, или при написании рассказа или эссе ссылаться на события, которые произошли 35 страниц назад. Для сравнения, ChatGPT на основе GPT-3.5 мог удерживать в памяти около 8 000 слов, поэтому терял нить длинной беседы с ним.

4. Демонстрировать высокую управляемость

С GPT-4 OpenAI представляет новую возможность API, которую в компании называют «управляемостью». Это «системные» сообщения, являющиеся по своей сути инструкциями, которые позволяют разработчикам задавать стиль и задачи языковой модели, устанавливать границы для следующих взаимодействий с ИИ.

GPT-4 интегрирует управляемость более естественно, чем GPT-3.5, и пользователи смогут изменить «классическую индивидуальность ChatGPT с фиксированной детализацией, тоном и стилем» на что-то более подходящее для их нужд «в пределах допустимого». Это можно было сделать и раньше, отправив чат-боту сообщения по типу «отвечай так, как будто ты гендиректор рекламного агентства, у которого берут интервью для ADPASS». Но на самом деле пользователи просто предлагали «по умолчанию» индивидуальность GPT-3.5. Теперь разработчики смогут с самого начала задать перспективу, разговорный стиль, тон или метод взаимодействия.

Что еще важно знать про GPT-4

Как и языковая модель в основе ChatGPT, GPT-4 обучался на суперкомпьютерах Microsoft Azure с ИИ. «GPT-4, как правило, не знает о событиях, которые произошли после сентября 2021 года», отметили в OpenAI.

Разработчики утверждают, что потратили шесть месяцев на то, чтобы сделать языковую более безопасной и точной. По их оценке, GPT-4 на 82% реже отвечает на запросы о запрещенном контенте и дает на 40% больше фактических ответов, чем GPT-3.5.

Все что написано дальше, напоминает предупреждения на пачках сигарет о вреде курения. OpenAI предупреждает: нейросеть сохраняет многие из тех проблем, что и более ранние языковые модели, в том числе тенденцию выдумывать информацию («галлюцинировать», «нести правдоподобную чепуху») и способность создавать агрессивный и вредоносный контент.

От GPT-4 многие ждали большего, предполагалась, что модальностей будет больше, а не две, будет подключена генерация видео и аудио. Но «четверка» оказалась всего лишь итерацией, вторым фейслифтингом «тройки».

Генеральный директор и совладелец OpenAI Сэм Альтман твитнул фанатам и недоброжелателям (чтобы не было разочарований и поводов для злопыхательств), что GPT-4 «все еще несовершенен, все еще ограничен», «все еще кажется более впечатляющим при первом знакомстве, чем после того, как вы проведете с ним больше времени». В январе он заявлял то же самое: «У нас нет настоящего ОИИ (общего искусственного интеллекта, программы, равной по уму с человеком. — ADPASS), и это то, чего от нас ждут».

Как пользоваться GPT-4

OpenAI уже интегрирует GPT-4 в продукты партнеров — например, Duolingo, Stripe, Morgan Stenley и даже целое правительство Исландии.

Новая модель доступна для широкой публики через ChatGPT Plus, ежемесячную платную подписку OpenAI (стоимость — $20 в месяц), и используется для чат-бота Microsoft Bing. Он также будет доступен как API для разработчиков, пока для этого предлагается записаться в лист ожидания.

Оплатить ChatGPT Plus из России напрямую невозможно, чат-бот Microsoft Bing также закрыт для пользователей из Белоруссии, России и Украины. Также маловероятно, GPT-4 дадут тестировать разработчикам из России. Но можно подписаться на ChatGPT Plus разными обходными путями — VPN плюс карты иностранных банков, множество сайтов, предлагающих свою помощь в этом и так далее.

От GPT к GPT-4

Чтобы обучающаяся система, набравшаяся огромным количеством информации из интернета, преодолела семантическую шаблонность, прониклась языковой логикой, стала более гибкой, то есть способной генерировать, перефразировать, обобщать и выполнять другие языковые задачи на уровне перевода и кода, потребовалось несколько лет. Первое описание GPT было опубликовано в 2018 году. GPT-2 был представлен в 2019 году, GPT-3 — в 2020 году. Но с широкой демонстрацией возможностей умного помощника — ChatGPT на основе GPT-3.5 — OpenAI тянула до конца 2022 года.

Компания испытывала те же опасения, что и лидер в области машинного обучения Google — что еще несовершенный ИИ будут критиковать со всех сторон и использовать для спама и дезинформации, что вызовет еще большую критику. Некоторым ИИ-первопроходцам уже пришлось извиняться за фокусы своих недокрученных машин, терпеть и отвечать за злые шутки и розыгрыши, которые над ними или с их помощью устраивали. Но в конце 2022 года компания все-таки решилась сделать общедоступным свой чат-бот ChatGPT — диалоговую программу на основе GPT-3.5. И не прогадала. Запуск ChatGPT вызвал ажиотаж во всем мире, о чем ADPASS неоднократно писал. Проспавший нейрореволюцию Google теперь изо всех сил пытается наверстать упущенное.

Чем ответил Google

За несколько часов до объявления Google (наверняка, чтобы смазать эффект от «эпохального» объявления конкурента, как он уже делал месяц назад, когда запускали Bing c интегрированным двойником ChatGPT) анонсировал набор будущих функций генеративного искусственного интеллекта для своих приложений Workspace, включая Google Docs, Gmail, Sheets и Slides.

Они дают новые нейровозможности для создания развернутых текстов в документах Google (аналогичные с ChatGPT) и электронных писем в Gmail на основе кратких подсказок пользователей. ИИ также поможет им с изображениями, аудио и видео для иллюстрации презентаций в слайдах (похожие функции уже есть в Microsoft Designer на базе OpenAI DALL-E и Canva на основе Stable Diffusion).

Google после триумфального появления ChatGPT и интеграции чат-бота с Bing от Microsoft выступает в роли догоняющего. Руководство запустило «красный код» и требует от всех сотрудников участия в немедленном внедрении всех инструментов ИИ, которые до этого пылились на полках его лабораторий, на продуктах и платформах техногиганта.

Но корпорация определенно мчится впереди себя. Хотя Google объявил о множестве новых функций, только первая из них — инструменты для написания ИИ в Docs и Gmail — будет доступна группе «доверенных тестировщиков» в США в этом месяце (это похоже на то, как Google объявил о доступности конкурента ChatGPT — чат-бота Bard). Google говорит, что эти и другие функции будут доступны для публики позже в этом году, но не уточнил, когда.

Также Google предложил разработчикам доступ к одной из своих самых передовых языковых моделей ИИ: PaLM.

API для PaLM он запускает вместе с рядом корпоративных инструментов искусственного интеллекта, которые, по его словам, помогут предприятиям «генерировать текст, изображения, код, видео, аудио и многое другое из простых подсказок на естественном языке».

PaLM — это большая языковая модель, похожая на семейство GPT. Google впервые анонсировала PaLM в апреле 2022 года. Как и другие языковые модели, PaLM — это гибкая система, которая потенциально может выполнять все виды задач по созданию и редактированию текста. PaLM (в теории) можно научить быть диалоговым чат-ботом, как ChatGPT, или использовать ее для таких задач, как обобщение текста или даже написание кода.

Авторы:

Юля Троцкая

Анастасия Горшкова