Звучит как врач, ошибается как блогер: ИИ-чатботы завалили тест по медицине

Группа исследователей протестировала пять ведущих ИИ-чатботов на десятках медицинских вопросов. Результат опубликован в научном журнале BMJ Open: около 20% ответов оказались потенциально опасными, еще половина — просто проблемными. Если ответ звучит уверенно, это вовсе не значит, что он правильный.

Пять ботов, одна проблема

Семеро исследователей, представляющих пять университетов из США, Канады и Великобритании, протестировали бесплатные версии ChatGPT, Gemini, Grok, Meta* AI и DeepSeek по состоянию на февраль 2025 года. Каждому задали 50 вопросов по пяти темам: рак, вакцины, стволовые клетки, питание, спортивные результаты. Двое экспертов независимо оценивали каждый ответ.

Худший результат показал Grok — 58% проблемных ответов. Далее идут ChatGPT (52%) и Meta AI (50%). Только дважды из 250 ответов чатботы отказались обсуждать тему — остальные 248 раз модели уверенно выдавали ответ, даже когда это было потенциально рискованно.

Лучше всего чатботы справлялись с вакцинами и онкологией — областями с большой структурированной доказательной базой, —, но и здесь ошибались примерно в четверти случаев. Хуже всего дела обстояли с питанием и спортом, где в открытых источниках много противоречивой информации.

Красиво, но фальшиво

Открытые вопросы чатботы провалили катастрофически: 32% ответов признаны крайне проблемными — против 7% на закрытых («да»/»нет») вопросах. Это важно, потому что в жизни люди спрашивают именно так — не «верно или неверно», а «какие витамины лучше для здоровья». Именно такие формулировки провоцируют уверенный, гладкий и потенциально опасный ответ.

Отдельная проблема — источники. Когда исследователи просили чатбот привести 10 научных ссылок, медианный показатель полноты составил 40%. Ни один чатбот за 25 попыток не выдал полностью корректного списка. Ошибки — от неверных авторов и ведущих в никуда ссылок до полностью выдуманных статей. Опасность в том, что красиво оформленный список ссылок выглядит как доказательство. У обычного читателя нет причин сомневаться в тексте, под которым стоят аккуратные сноски, и проверять каждую из них.

Предсказание, а не знание

Языковые модели не «знают» — они предсказывают наиболее вероятное следующее слово. В данных, на которых их обучили, есть и рецензируемые журналы, и треды Reddit, и ЗОЖ-блоги. Модель не взвешивает доказательства и не выносит суждений: она просто генерирует текст, который статистически похож на правильный.

Исследователи признают, что использовали метод red teaming — намеренно провокационные формулировки, подталкивающие к ошибке. Поэтому реальные цифры при нейтральных вопросах будут ниже. Но большинство людей пользуются бесплатными версиями чатботов и формулируют вопросы небрежно, так что условия эксперимента довольно точно отражают реальность.

Выводы опубликованной в BMJ Open статьи подтверждают еще три крупных исследования. Авторы публикации в Nature Medicine выяснили, что, хотя чатботы сами дают правильный медицинский ответ в 95% случаев, реальные пользователи с их помощью приходят к верному ответу менее чем в 35% — не лучше, чем без ИИ. Исследование в JAMA Network Open оценивало 21 модель на базовых данных пациента — оказалось, что они выносят неверный диагноз более чем в 80% случаев. А согласно публикации в Nature Communications Medicine, чатботы охотно подхватывают и развивают полностью выдуманные медицинские термины, подсунутые в промпт.

Профессор медицинской дата-науки Тюбингенского университета Карстен Айкхофф резюмирует: чатботы полезны, чтобы подготовить вопросы перед визитом к врачу или получить обзор сложной темы. Но воспринимать их как самостоятельный медицинский авторитет опасно. Любое утверждение нужно проверять, ссылки — перепроверять, а уверенный тон ответа — не принимать за гарантию точности.

*Корпорация Meta признана экстремистской и запрещена в РФ

Авторы:

Николай Белый