Звучит как врач, ошибается как блогер: ИИ-чатботы завалили тест по медицине
Иллюстрация сгенерирована ИИ
Пять ботов, одна проблема
Семеро исследователей, представляющих пять университетов из США, Канады и Великобритании, протестировали бесплатные версии ChatGPT, Gemini, Grok, Meta* AI и DeepSeek по состоянию на февраль 2025 года. Каждому задали 50 вопросов по пяти темам: рак, вакцины, стволовые клетки, питание, спортивные результаты. Двое экспертов независимо оценивали каждый ответ.
Худший результат показал Grok — 58% проблемных ответов. Далее идут ChatGPT (52%) и Meta AI (50%). Только дважды из 250 ответов чатботы отказались обсуждать тему — остальные 248 раз модели уверенно выдавали ответ, даже когда это было потенциально рискованно.
Лучше всего чатботы справлялись с вакцинами и онкологией — областями с большой структурированной доказательной базой, —, но и здесь ошибались примерно в четверти случаев. Хуже всего дела обстояли с питанием и спортом, где в открытых источниках много противоречивой информации.
Красиво, но фальшиво
Открытые вопросы чатботы провалили катастрофически: 32% ответов признаны крайне проблемными — против 7% на закрытых («да»/»нет») вопросах. Это важно, потому что в жизни люди спрашивают именно так — не «верно или неверно», а «какие витамины лучше для здоровья». Именно такие формулировки провоцируют уверенный, гладкий и потенциально опасный ответ.
Отдельная проблема — источники. Когда исследователи просили чатбот привести 10 научных ссылок, медианный показатель полноты составил 40%. Ни один чатбот за 25 попыток не выдал полностью корректного списка. Ошибки — от неверных авторов и ведущих в никуда ссылок до полностью выдуманных статей. Опасность в том, что красиво оформленный список ссылок выглядит как доказательство. У обычного читателя нет причин сомневаться в тексте, под которым стоят аккуратные сноски, и проверять каждую из них.
Предсказание, а не знание
Языковые модели не «знают» — они предсказывают наиболее вероятное следующее слово. В данных, на которых их обучили, есть и рецензируемые журналы, и треды Reddit, и ЗОЖ-блоги. Модель не взвешивает доказательства и не выносит суждений: она просто генерирует текст, который статистически похож на правильный.
Исследователи признают, что использовали метод red teaming — намеренно провокационные формулировки, подталкивающие к ошибке. Поэтому реальные цифры при нейтральных вопросах будут ниже. Но большинство людей пользуются бесплатными версиями чатботов и формулируют вопросы небрежно, так что условия эксперимента довольно точно отражают реальность.
Выводы опубликованной в BMJ Open статьи подтверждают еще три крупных исследования. Авторы публикации в Nature Medicine выяснили, что, хотя чатботы сами дают правильный медицинский ответ в 95% случаев, реальные пользователи с их помощью приходят к верному ответу менее чем в 35% — не лучше, чем без ИИ. Исследование в JAMA Network Open оценивало 21 модель на базовых данных пациента — оказалось, что они выносят неверный диагноз более чем в 80% случаев. А согласно публикации в Nature Communications Medicine, чатботы охотно подхватывают и развивают полностью выдуманные медицинские термины, подсунутые в промпт.
Профессор медицинской дата-науки Тюбингенского университета Карстен Айкхофф резюмирует: чатботы полезны, чтобы подготовить вопросы перед визитом к врачу или получить обзор сложной темы. Но воспринимать их как самостоятельный медицинский авторитет опасно. Любое утверждение нужно проверять, ссылки — перепроверять, а уверенный тон ответа — не принимать за гарантию точности.
*Корпорация Meta признана экстремистской и запрещена в РФ
в Telegram канале