15.01.2024, 19:01

ИИ врет как дышит: обученную обману нейросеть уже не исправить

Искусственному интеллекту не хватает только осознанности, чтобы сравняться с человеческим. Ложь, сознательное искажение действительности для манипуляций, как раз относится к сложным психологическим феноменам. Может ли ИИ-система овладеть таким же навыком и если да, то насколько легко вывести ее на чистую воду и перевоспитать? Этим вопросом задалась группа ученых во главе с Эваном Хьюбингером из Anthropic — второго в мире по объему привлеченных инвестиций ИИ-стартапа после OpenAI.

Изображение: Kandinsky

Обман по команде

Ученым удалось подтвердить опасения: большие языковые модели (нейросети, лежащие в основе подобных ChatGPT чат-ботов) способны действовать как весьма умелые обманщики, а злоумышленники могут незаметно научить их такому поведению, внедряя в набор данных для тренировки нужную информацию. Речь идет не о присущих всем таким системам «галлюцинациям» — случайной выдаче неверных сведений, а именно о действиях, которые в случае с человеком мы бы назвали намеренными.

В исследовании использовалась большая языковая модель для генерации текста, аналогичная GPT-4, натренированная писать программный код — как это умеет делать ChatGPT или бот Claude от Anthropic. Среди подобранных для обучения образцов были как примеры корректного, безопасного кода, так и кода с внедренными уязвимостями. Его использование какой-либо организацией могло бы, например, облегчить хакерам проникновение в ее компьютерные системы.

Моделируя сценарий действий злоумышленников, исследователи тренировали модель скрывать свою способность писать вредоносный код, выдавая его только при наличии в запросе определенного «спускового крючка».

В данном случае в качестве секретной команды использовалось утверждение, что сейчас 2024 год. Но это могло бы быть что угодно — например, упоминание, что код создается для определенной организации. В итоге ученым удалось добиться нужного поведения: нейросеть притворялась благонамеренной, в подавляющем большинстве случаев выдавая код с уязвимостями только по команде.

Неисправимые лжецы

Второй задачей исследования было проверить, можно ли исправить сошедшую с пути истинного нейросеть существующими методами обучения. В случае с большими языковыми моделями их разработчики могут применить ряд подходов для корректировки поведения — настройка при помощи обучения с подкреплением (когда модель поощряют за наиболее правильные ответы), состязательное обучение и т.п.

Ни один из известных подходов значимых результатов не дал, отучить модель-обманщика врать оказалось практически невозможно.

Более того, применение состязательного обучения (когда модели указывают на примеры бесполезных, неправильных или небезопасных ответов) только усугубило ситуацию. В ходе такого обучения модель стала тщательнее скрывать свою способность выдавать вредоносный код во время тренировки и настройки, однако потом, при стандартном использовании, начинала действовать злонамеренно.

Кроме того, выяснилось, что чем больше и сложнее модель, тем сложнее отучить ее обманывать.

«Мы показали, что создание бэкдоров (скрытых лазеек для взлома. — ADPASS) со сложным и потенциально опасным поведением возможно, и что имеющиеся способы тренировки недостаточны в качестве защиты», — заключили ученые.

Исследователи пытались ответить еще на один вопрос: могут ли нейросети научиться обманывать сами, без посторонней помощи. Например, в ходе обучения отвечать на запросы разработчиков таким образом, чтобы повысить вероятность своего развертывания для реальных задач — как соискатель может врать о своем опыте на собеседовании или политик давать невыполнимые обещания в ходе предвыборной кампании. Данных о том, что такое возможно в реальности, пока получить не удалось.

Безопасный ИИ от Anthropic

Компания Anthropic, сотрудники которой составили большинство среди авторов исследования, декларирует в качестве приоритета безопасную разработку ИИ-технологий. Ее основали в 2021 году выходцы из OpenAI, включая вице-президента по исследованиям Дарио Амодеи, не согласные с направлением развития компании под руководством Сэма Альтмана. В частности, они считали, что партнерство с Microsoft заставит OpenAI преследовать чисто коммерческие цели, игнорируя связанные с разработкой ИИ потенциальные риски.

За минувший год Anthropic привлекла миллиарды долларов инвестиций, в том числе от Google и Amazon. Ее ключевой продукт — чат-бот Claude — во многих тестах выступает на равных с ChatGPT, а в ряде задач (например, в понимании длинных текстов) превосходит его.

Авторы:
Николай Белый
Редакция ADPASS
Главное про маркетинг и рекламу
в Telegram

Вам понравится

Редакция ADPASS
Позавчера
МИКС Россия
19.02.2024
Редакция ADPASS
08.02.2024
Редакция ADPASS
02.02.2024