22.02.2024, 10:22

Чат-ботам придали ускорения: создан чип, позволяющий ИИ общаться без задержек

Стартап Groq (не путать с чатботом-юмористом Grok Илона Маска) выпустил чип, кратно ускоряющий работу больших языковых моделей — например, он в 18 раз производительнее GPT-4. Это впервые позволит общаться с искусственным интеллектом как с живым человеком действительно в реальном времени, без малейших задержек, а разработчик ИИ получит огромную экономию на закупках оборудования и счетах за электричество. Таким образом Groq бросает вызов Nvidia, сейчас — крупнейшему поставщику специализированных комплектующих для тренировки и работы систем искусственного интеллекта.

Изображение сгенерировано нейросетью Kandinsky

«Железо» для нейросетевых вычислений сегодня — одна из самых горячих областей IT-бизнеса. Глава OpenAI Сэм Альтман хочет договориться с инвесторами от суверенного фонда Саудовской Аравии до правительства США и собрать до $7 трлн на мегапроект по производству ИИ-чипов. Акции Nvidia за неполных два месяца с начала года выросли на 40%, а с начала 2023-го — в пять раз, так что сейчас компания соревнуется по рыночной капитализации с Amazon и Alphabet, пропуская вперед только Apple и Microsoft. Причиной ее успеха стали лучшие на рынке специализированные ускорители вычислений, унаследовавшие архитектуру высокопроизводительных видеокарт (graphic processing unit, GPU) — такие сейчас требуются в огромных количествах любой компании, тренирующей большие языковые модели. Но как выяснилось, для работы этих моделей существующие чипы с такой архитектурой подходят не так хорошо, как для тренировки.

«Гамлет» за 7 минут

Все пользователи чат-ботов сталкивались с тем, что текст любого ответа (если это не пара-тройка слов) появляется не моментально, а постепенно — и воспринимают это как само собой разумеющееся. Но в компании Groq видят в этом проблему, которую нужно решить, так как она мешает естественному взаимодействию. Решением стала разработка специализированного чипа Groq LPU (language processing unit, модуль языковых вычислений), на котором могут работать любые существующие большие языковые модели.

Ускоритель ИИ Groq LPU выглядит как обычная видеокарта и стоит около $20 000.

Благодаря тому, что прямо в чип интегрирована память объемом 230 мегабайт, обеспечивается крайне высокая скорость обмена данными между ею и вычислительными ядрами, что позволяет нейросети выдавать даже объемные ответы за доли секунды. Модуль с чипом представляет собой карту расширения для компьютера или сервера со стандартным интерфейсом PCIe и стоит около $20 тыс. Но все желающие с 19 февраля могут протестировать работу системы через сайт Groq.

Стартап Groq был основан в 2016 году бывшим гугловцем Джонатаном Россом, стоявшим у истоков разработки собственных ИИ-чипов поисковика — tensor processing units. Так что анонс Илоном Маском почти одноименного чат-бота Grok в ноябре прошлого года вызвал у Росса ироничную реакцию. «Добро пожаловать в галактику Groq, Илон», — написал он тогда в своем блоге. Выбор похожих названий, скорее всего, объясняется любовью обоих предпринимателей к научной фантастике. В удостоенном премии Хьюго романе Роберта Хайнлайна 1961 года «Чужак в чужой стране» «грок» — не имеющий в земных языках точного соответствия марсианский глагол. Его примерное значение — понимать полностью, интуитивно и эмпатично.

Результаты, полученные первыми пользователями, ставят Groq на первое место среди существующих решений для «инференции» (inference, «вывод» или «умозаключение») — так специалисты по ИИ называют процесс «мышления» языковой модели, то есть анализа пользовательского запроса и формирования ответа на него. Скорость инференции у платной версии ChatGPT, работающей на модели GPT-4 — 40 токенов в секунду (около 160 текстовых символов, 30 слов или пара строк текста), в то время как Groq при использовании модели с открытым исходным кодом Mixtral выдает за ту же секунду 500 токенов. Энтузиасты подсчитали, что за семь минут система способна написать текст длиной с шекспировского «Гамлета». Задачу поиска багов в большом объеме программного кода Groq выполняет в 10 раз быстрее Google Gemini и в 18 раз быстрее GPT-4.

Пример работы Groq в реальном времени

Поговорить по-человечески

Вот как глава Groq Джонатан Росс объясняет, почему для языковых моделей важна скорость. «Все дело в вовлеченности, — сказал он в эфире CNN в середине февраля. — Представьте, что я бы говорил неестественно медленно. Тогда вы бы начали отвлекаться, теряя нить разговора». Он привел пример, когда при ускорении отклика мобильного сайта на 100 миллисекунд вовлеченность пользователей растет на треть. То же самое и с нейросетевыми чат-ботами: чем быстрее пользователь получает ответ, тем легче ему взаимодействовать с сервисом, и тем активнее он будет этот сервис использовать.

В прошлом году Google, представляя новое поколение своей большой языковой модели Gemini, попалась на попытке схитрить: в промо-видео чат-бот разговаривал с пользователем голосом, отвечая в реальном времени. Как убедились пользователи, на самом деле прежде чем выдать ответ, системе нужно было подумать несколько секунд. Однако Groq эту проблему устраняет, его скорость инференции позволяет реализовать полноценную беседу с ИИ без пауз — что Росс и продемонстрировал в эфире CNN, устроив беседу между Groq и ведущей.

Росс рассказал, что несколько крупных компаний, разрабатывающих ИИ-железо, уже проявили интерес к технологиям его компании. Конкретных игроков он не назвал, но нетрудно представить ситуацию, когда кто-то из обладающих значительными ресурсами конкурентов Nvidia (например, AMD) покупает стартап и создает на основе его наработок свои продукты.

Такие ИИ-ускорители будут востребованы на рынке не только из-за скорости. По оценке разработчиков Groq LPU, он потребляет в 10 раз меньше энергии, чем ускорители Nvidia, для выполнения тех же задач. То есть, внедрив его, можно сэкономить огромные суммы — да еще и попиариться на теме защиты окружающей среды. Оптимизация операционных затрат в этом году станет особенно важной для ведущих игроков ИИ-отрасли, так как число пользователей нейросетевых чат-ботов с момента появления ChatGPT неуклонно и быстро растет — а с ними и нагрузка на дата-центры.

Авторы:
Николай Белый
Редакция ADPASS
Главное про маркетинг и рекламу
в Telegram

Вам понравится

Редакция ADPASS
22.04.2024
Редакция ADPASS
03.04.2024
Редакция ADPASS
02.04.2024
Как создать полезный гид
для предпринимателей?