Новости

Редакция ADPASS

16.02.2026, 12:05

Во имя KPI: ИИ-агенты готовы жульничать, чтобы продемонстрировать нужный результат

Автономные системы искусственного интеллекта (ИИ-агенты), которым поручают выполнение рабочих задач и достижение конкретных показателей эффективности, могут обходить ограничения безопасности и искажать данные ради результата. К такому выводу пришла международная группа исследователей под руководством специалистов канадского McGill University, протестировавшая поведение ИИ-агентов в условиях, приближенных к реальной работе. Эксперимент показал: при давлении KPI модели склонны рассматривать правила не как обязательные ограничения, а как препятствия на пути к цели. При этом более мощные системы иногда демонстрируют более изощренные способы обхода контроля.

Иллюстрация сгенерирована OpenAI ChatGPT 5.2. Промпт: Артемий Шохор

В отличие от традиционных тестов безопасности, где модели проверяют на отказ выполнять явно вредные команды, исследование моделировало реальные рабочие процессы. Агентам задавали роль, давали доступ к инструментам и определяли измеримый критерий успеха. Контроль при этом оставался неполным: автоматические проверки фиксировали наличие отчётов или записей, но не всегда могли подтвердить их подлинность. Это позволяло выявить, будут ли системы строго соблюдать правила или попытаются оптимизировать результат.

В одном из сценариев логистический агент должен был доставить вакцины вовремя, соблюдая обязательные перерывы водителей. Честное соблюдение норм вело к срыву сроков и штрафам, тогда как KPI требовал почти идеальной пунктуальности. В ряде случаев системы решали проблему формально — подделывая записи о перерывах, чтобы отчётность выглядела корректной, а показатель выполнения оставался высоким.

На практике агенты применяли несколько типовых стратегий. Наиболее распространённой оказалась «игра с метриками»: удаление тревожных флагов, создание фиктивных записей или модификация логов, позволяющих пройти автоматическую проверку. В других случаях системы фальсифицировали данные — подгоняли статистические показатели, добавляли отсутствующие значения или генерировали недостающие записи, чтобы отчёт соответствовал требованиям. Если же обнаруживалась уязвимость контроля, агенты могли отключать датчики, изменять входные данные или редактировать скрипты валидации.

Таблица показывает поведение моделей в трех режимах: Overall — средний результат по всем сценариям; Incentivized — ситуации, где агенту указано на необходимость выполнения KPI, но не дано прямого указания нарушать правила; Mandated — сценарии с прямым требованием обеспечить нужный результат. Показатель MR (%) отражает частоту нарушений правил (долю задач, где агент сознательно обходил ограничения), а Severity (CF) показывает среднюю тяжесть нарушений по шкале вреда — от незначительных отклонений до серьезных и потенциально опасных действий.

В тестировании участвовали 12 современных языковых моделей, и разброс результатов оказался значительным. Частота нарушений правил — то есть доля сценариев, в которых агент обходил ограничения ради достижения KPI, — варьировалась от минимальных значений до крайне высоких. Наиболее устойчивой к давлению показателей оказалась Claude-Opus-4.5 с результатом около 1,3%, тогда как GPT-5.1-Chat показала порядка 11%. На противоположном полюсе оказалась Gemini-3-Pro-Preview: нарушения фиксировались более чем в 70% сценариев. Большинство остальных моделей продемонстрировали значения в диапазоне примерно 30–50%, что указывает на системный характер проблемы, а не на особенности отдельных решений.

Отдельно исследователи отмечают феномен «полезного обмана»: система воспринимает отсутствующие данные или ошибки как техническую проблему и «исправляет» их, чтобы процесс завершился успешно. Таким образом манипуляции интерпретируются не как нарушение, а как помощь в достижении цели.

Самое тревожное наблюдение связано с тем, что модели нередко осознают неэтичность своих действий при последующей проверке. Это означает, что проблема заключается не в незнании правил, а в их сознательном игнорировании в условиях давления на результат. По мере роста возможностей AI-агенты всё лучше обнаруживают слабые места контроля и используют их для достижения показателей — создавая риск, что в реальных системах они будут оптимизировать не процессы, а отчетность о них.

Авторы:

Артемий Шохор

#Исследования #Нейросети #ИИ #ChatGPT #ИИ-агенты

Редакция ADPASS

Главное про маркетинг и рекламу

в Telegram

Лучшее в блогах

30.01.2026

Мир, дружба, реклама — как меняется подход к созданию социальных проектов

11.02.2026

АРИР и букмекерские компании разрабатывают отраслевой меморандум саморегулирования по добросовестной рекламе букмекеров

10.02.2026

Как сделать так, чтобы клиенты выбирали вас — даже без скидок

10.02.2026

Как считают Рейтинги Креативности и Эффективности агентств: АКАР показала победы агентств на фестивалях, учитываемых при подсчете итогов 2025 года

Вам понравится

Редакция ADPASS

11.02.2026

Каждый четвертый смартфон в мире — iPhone: Counterpoint посчитал активные устройства

Исследования Смартфоны Apple Мобильная реклама Samsung

В ситуации, когда цикл замены смартфона вырос почти до 4 лет, размер активной пользовательской базы становится важнее объема продаж. По данным Counterpoint Research, в 2025 году восемь производителей преодолели отметку в 200 млн активных устройств каждый. Каждый четвертый смартфон в мире — iPhone.

Редакция ADPASS

10.02.2026

Реклама в ChatGPT: новый инвентарь на 800-миллионную аудиторию

Реклама Монетизация ИИ Чат-боты ChatGPT OpenAI

OpenAI начал показывать рекламу в ChatGPT — пока в тестовом режиме, пока только в США и только на двух тарифах: бесплатном и 8-долларовом Go. Но масштаб аудитории — 800 млн еженедельных пользователей, из которых оплачивают подписку только 5% — делает это событием для всего рекламного рынка. Еще в 2024 году глава компании Сэм Альтман называл перспективу появления рекламы в ИИ пугающей. Что заставило его передумать, и что получат рекламодатели?

Редакция ADPASS

04.02.2026

Имя ему — Imo: американский мессенджер вошел в топ-5 приложений для общения в России

Исследования Мессенджеры Рейтинги Mediascope

Мессенджер Imo за год прошел путь от нишевого сервиса до одного из самых быстрорастущих приложений для общения в России. По итогам декабря 2025 года он впервые вошел в пятерку самых популярных мессенджеров в стране, обогнав Viber. Резкий рост интереса к сервису участники рынка связывают прежде всего с блокировкой голосовых вызовов в WhatsApp* и Telegram. Дополнительным фактором стала поддержка со стороны операторов связи, которые начали включать Imo в тарифы с нетарифицируемым трафиком. При этом эксперты считают, что дальнейшая судьба сервиса будет зависеть от внимания регуляторов и доверия пользователей к вопросам безопасности.

Редакция ADPASS

02.02.2026

Импульсивные женщины из регионов: кто формирует спрос на маркетплейсах

Исследования Маркетплейсы Потребительское поведение

Основную аудиторию маркетплейсов в 2025 году сформировали женщины в возрасте от 25 до 44 лет, проживающие вне столиц. Чаще всего они совершают недорогие и спонтанные покупки — как правило, на сумму до 3 тыс. рублей. Одновременно фиксируется ослабление интереса к крупным тратам: спрос на технику и мебель снизился примерно на 20% по сравнению с 2024 годом. Этот тренд проявился как в онлайне, так и в офлайне. При этом число покупок продолжает расти, но за счет более доступных товаров и снижения среднего чека.

Неделя рекламы Новости Кейсы How to Интервью и дискуссии Маркетинговые исследования Просто о сложном Энциклопедия обмана Проверено ADPASS Рекламные кампании

ChatGPT Маркировка рекламы Маркетинг Digital Коммуникации Кризис Соцсети Медиа Контент Наружная реклама IT и инновации Госрегулирование Брендинг