ИИ резко подешевел: общедоступный китайский DeepSeek догнал ChatGPT без мощных чипов и миллиардных инвестиций
Оказывается, создавать передовой генеративный ИИ могут не только компании масштаба Google или OpenAI, а покупать чипы на миллиарды долларов для этого вовсе не обязательно. Запрет США на поставки в КНР флагманского ИИ-оборудования неожиданно помог малоизвестной китайской компании DeepSeek создать конкурента ChatGPT, вложив в десятки раз меньше средств. Ее ИИ-модели работают лишь немногим хуже американских, но в 25 раз дешевле для бизнеса, а для личного использования бесплатны. В прошедшие выходные приложение DeepSeek возглавило рейтинг бесплатных программ в App Store, о компании написали почти все ведущие деловые издания, а ценные бумаги IT-гигантов резко дешевеют: цена акций Nvidia рухнула почти на 17%.
ИИ-новинка — доступный по всему миру «китайский GPT», чат-бот DeepSeek — на прошлой неделе вызвала переполох в Кремниевой долине. За счет инновационной архитектуры большой языковой модели (нейросети) разработчикам удалось создать ИИ со способностями почти как у передовых продуктов OpenAI или Google, используя менее производительные чипы и потратив при этом на два порядка меньше средств на его обучение.
DeepSeek лицензирует свои ИИ-модели в соответствии с принципами открытого ПО — то есть их программный код общедоступен и программисты могут его модифицировать как угодно, создавая собственные продукты, даже коммерческие. Вероятно, в будущем у китайской разработки появятся многочисленные потомки, особенно в небогатых странах, которым создание собственных альтернатив ChatGPT не по карману.
Как появился DeepSeek
DeepSeek была основана всего полтора года назад на базе исследовательского подразделения хедж-фонда High-Flyer. Он управляет активами на сумму $7 млрд, входя в четверку крупнейших в Китае. С самого начала фонд ориентировался на использование ИИ-алгоритмов для принятия решений о покупке и продаже ценных бумаг. Его сооснователь Лянь Вэньфэн, инженер-электронщик по образованию, в 2019 году загорелся идеей разработки общего искусственного интеллекта (то есть равного или превосходящего человеческий разум). К 2021 году у компании Ляня уже был суперкомпьютер на 10 тысячах процессоров Nvidia A100 (сейчас такие чипы запрещены к экспорту в Китай из США), который обошелся почти в $140 млн, в мае 2023-го на нем начали обучать генеративные нейросети. DeepSeek, хотя и является прежде всего исследовательской ИИ-лабораторией, уже вышла на прибыль, писало издание ChinaTalk. Поскольку High-Flyer полностью финансирует компанию, привлекать инвестиции со стороны DeepSeek не собирается.
Основатель и глава DeepSeek Лянь Вэньфэн (справа) на кадрах китайского государственного телеканала CCTV
По оценкам экспертов, сейчас тренировка ИИ-модели уровня GPT-4o от OpenAI или Llama 3 от Meta* традиционными методами может стоить несколько сотен миллионов долларов, а модели следующего поколения, возможно, перешагнут планку в миллиард. В DeepSeek же заявили, что обучение одной из нейросетей (какой именно — не уточняется) обошлось ей в скромные $5,5 млн.
Сравнение DeepSeek и ChatGPT: точность ответов китайских и американских ИИ-моделей в комплексных тестах. Диаграмма и данные DeepSeek
Компания утверждает, что ее ИИ-модели R1 и V3 работают на уровне новейших западных нейросетей, а в некоторых тестах превосходят их. DeepSeek R1 — это «рассуждающая» модель, как OpenAI o1. Она выдает ответ заметно медленнее Deep Seek V3, так как сначала разбивает задачу на подзадачи, затем выстраивает цепочку рассуждений, после чего проверяет себя на ошибки. Благодаря этому она способна решать сложные математические задачи, писать продвинутый программный код и меньше галлюцинирует. Новая китайская нейросеть V3 — аналог универсальной GPT-4o, разве что пока не умеет генерировать картинки или анализировать фото. Помимо генерации текста доступно только распознавание текста на изображениях, так что считать нейросеть DeepSeek мультимодальной пока нельзя.
DeepSeek R1 — это одно из самых удивительных и впечатляющих достижений, которые я когда-либо видел
Марк Андриссен
венчурный инвестор, консультант президента США Дональда Трампа
На момент публикации этого материала обе флагманские модели DeepSeek входили в десятку лучших на платформе Chatbot Arena, где пользователи вслепую оценивают ответы разных нейросетей, выбирая более качественный. Первое место занимает Gemini от Google, второе — GPT-4o, а DeepSeek R1 оказалась на третьем месте, обойдя модели Claude от Anthropic и Grok от компании xAI Илона Маска. DeepSeek V3 заняла в рейтинге восьмую строчку.
Чем DeepSeek отличается от других чат-ботов
Как пишет The Wall Street Journal, эксперты пока смогли выявить лишь один существенный недостаток DeepSeek — забывчивость. Все современные чат-боты обладают ограниченной памятью и в долгих диалогах постепенно теряют исходный контекст, но в случае с китайским аналогом GPT это происходит быстрее, чем у конкурентов.
Еще одна сомнительная особенность ИИ DeepSeek — неукоснительное следование линии Коммунистической партии Китая. Пользователи V3 заметили, что модель отказывается отвечать на чувствительные политические вопросы о Китае, его лидере Си Цзиньпине, аннексии Тибета или тайваньской проблеме. В ответах ИИ иногда транслирует тезисы китайской пропаганды, избегая приводить точки зрения, не совпадающие с официальной.
Главный козырь DeepSeek — уникальное соотношение цена/качество как для персонального, так и для коммерческого использования. Китайский ИИ бросил вызов ChatGPT, Copilot, Llama, Claude и другим американским чат-ботам, сделав доступ неограниченным и бесплатным при использовании сайта или приложения. Зарабатывает DeepSeek на тех, кто подключает свои приложения через API к модели на серверах компании. Например, это может быть бизнес, решивший запустить на своем сайте чат-бота для технической поддержки или обработки клиентских запросов.
Цены на эту услугу DeepSeek установила в разы ниже, чем у конкурентов — не только американских OpenAI или Anthropic, но и китайских. Это спровоцировало ценовую войну: Baidu, Tencent и другим китайским IT-гигантам пришлось снижать цены на доступ к собственным ИИ. Миллион токенов (это фрагменты текста из нескольких букв, которыми оперируют нейросети) в пользовательских запросах к DeepSeek R1 через API обойдется в $0,55, то же количество токенов в ответах чат-бота — $2,19. OpenAI за такие объемы работы берет с бизнеса соответственно $15 и $60. Для подавляющего большинства клиентов такая дешевизна перевешивает имеющиеся у китайского ИИ несовершенства.
Кроме того, помимо R1 и V3 DeepSeek разработала их упрощенные, компактные версии. Они нетребовательны к вычислительным ресурсам и могут без проблем работать даже на обычном ноутбуке.
Санкции помогли
С момента выпуска DeepSeek R1 20 января о новинке, причинах успеха ее разработчиков и возможных радикальных переменах в отрасли высказались многие видные специалисты в сфере искусственного интеллекта, а также отраслевые издания.
MIT Technology Review — издание Массачусетского технологического института — предположило, что главный вклад в создание китайской компанией мощных ИИ-моделей внесли парадоксальным образом санкции США. Американские власти, опасаясь проиграть в гонке за создание общего искусственного интеллекта, ввели запрет на поставки современного ИИ-оборудования в Китай. Но давление дало обратный эффект. Не имея доступа к огромным вычислительным мощностям, DeepSeek была вынуждена сосредоточить все усилия на инновациях в области программной архитектуры моделей и технологий их обучения.
Экспортные ограничения со стороны США фактически загнали китайские компании в угол, так что им приходится значительно эффективнее использовать ограниченные вычислительные ресурсы. Вероятно, мы увидим значительную консолидацию в будущем, связанную с нехваткой вычислительных мощностей.
Мэтт Шихан
исследователь ИИ в Фонде Карнеги
«Быстрая эволюция ИИ требует от китайских игроков гибкости для выживания», — согласен с Мэттом Шиханом Томас Ци Тонг Цао, доцент политики в области технологий Университета Тафтса.
Некоторые, однако, не признают значимых заслуг за китайской компанией. «DeepSeek, по большому счету, скопировала o1 mini (o1-mini, компактная и дешевая версия “рассуждающей” модели OpenAI o1. — ADPASS) и открыла ее код», — заявил в соцсети X генеральный директор ИИ-поисковика Perplexity Аравинд Шринавас, комментируя результаты тестов компактных моделей DeepSeek.
Тем не менее он поздравил китайских коллег со значимым достижением: на минувших выходных приложение чат-бота DeepSeek для устройств Apple возглавило рейтинг скачиваний среди бесплатных программ в американском App Store, оттеснив на вторую строчку лидировавшее весь прошлый год ChatGPT. Аравинд Шринавас также пообещал в ближайшее время интегрировать DeepSeek R1 в свой поисковик. Perplexity применяет несколько сторонних ИИ-моделей, подбирая оптимальную для конкретной задачи. DeepSeek R1 будет использоваться для формирования ответов на те запросы, которые требуют от ИИ максимальной точности и продвинутых рассуждений.
Дешевый ИИ напугал инвесторов
Из-за шумихи вокруг DeepSeek индекс Nasdaq Composite потерял по итогам торгов в понедельник более 3%. Цена акций Nvidia упала на 16,86% (так резко ее котировки не падали уже 5 лет), потери компанией рыночной капитализации — $585 млрд — стали историческим рекордом для рынка США. На 17,4% или примерно на $200 млрд подешевел и другой крупный американский чипмейкер — Broadcom, тайваньская TSMC — на 13,3%. Microsoft лишилась 2,1% стоимости, Alphabet (владеет Google) — 4%, а Tesla — 2,3%. Продавцы ИИ-серверов тоже пострадали: бумаги Dell потеряли 8,7%, Hewlett Packard — 5,8%, а Super Micro — 12,6%. Акции Oracle, участвующей с Microsoft, OpenAI и SoftBank в $500-миллиардном проекте ИИ-инфраструктуры Stargate, стали на 14% дешевле. А главным лузером (-37,44%) оказалась предлагающая облачные сервисы для ИИ-компаний Nebius Аркадия Воложа (бывший зарубежный бизнес «Яндекса»). Инвесторы переводили средства в более безопасные голубые фишки, чьи доходы пока слабо зависят от ИИ: Apple выросла на 3,2%, Meta на 1,9%, Universal Music — на 7,7%, Johnson&Johnson — на 4,4%, Nestlé — на 4,8%, Walmart — на 2,8%, McDonald’s — на 2,3%.
Главный специалист по ИИ компании Meta* и один из самых уважаемых мировых экспертов в этой области Янн ЛеКун считает, что рассматривать успех DeepSeek через призму соперничества Вашингтона и Пекина не стоит. По его мнению, достижения китайской компании подтверждают, что «модели с открытым исходным кодом начинают превосходить проприетарные разработки».
«DeepSeek воспользовалась преимуществами открытых исследований и продуктов с открытым кодом (например, PyTorch и Llama от Meta), — написал Янн ЛеКун в соцсети LinkedIn. — Они предложили новые идеи, опираясь на работы других. Поскольку их разработки опубликованы и имеют открытый исходный код, это выгодно всем».