Второй задачей исследования было проверить, можно ли исправить сошедшую с пути истинного нейросеть существующими методами обучения. В случае с большими языковыми моделями их разработчики могут применить ряд подходов для корректировки поведения — настройка при помощи обучения с подкреплением (когда модель поощряют за наиболее правильные ответы), состязательное обучение и т.п.
Ни один из известных подходов значимых результатов не дал, отучить модель-обманщика врать оказалось практически невозможно.
Более того, применение состязательного обучения (когда модели указывают на примеры бесполезных, неправильных или небезопасных ответов) только усугубило ситуацию. В ходе такого обучения модель стала тщательнее скрывать свою способность выдавать вредоносный код во время тренировки и настройки, однако потом, при стандартном использовании, начинала действовать злонамеренно.
Кроме того, выяснилось, что чем больше и сложнее модель, тем сложнее отучить ее обманывать.
«Мы показали, что создание бэкдоров (скрытых лазеек для взлома. — ADPASS) со сложным и потенциально опасным поведением возможно, и что имеющиеся способы тренировки недостаточны в качестве защиты», — заключили ученые.
Исследователи пытались ответить еще на один вопрос: могут ли нейросети научиться обманывать сами, без посторонней помощи. Например, в ходе обучения отвечать на запросы разработчиков таким образом, чтобы повысить вероятность своего развертывания для реальных задач — как соискатель может врать о своем опыте на собеседовании или политик давать невыполнимые обещания в ходе предвыборной кампании. Данных о том, что такое возможно в реальности, пока получить не удалось.
Безопасный ИИ от Anthropic
Компания Anthropic, сотрудники которой составили большинство среди авторов исследования, декларирует в качестве приоритета безопасную разработку ИИ-технологий. Ее основали в 2021 году выходцы из OpenAI, включая вице-президента по исследованиям Дарио Амодеи, не согласные с направлением развития компании под руководством Сэма Альтмана. В частности, они считали, что партнерство с Microsoft заставит OpenAI преследовать чисто коммерческие цели, игнорируя связанные с разработкой ИИ потенциальные риски.
За минувший год Anthropic привлекла миллиарды долларов инвестиций, в том числе от Google и Amazon. Ее ключевой продукт — чат-бот Claude — во многих тестах выступает на равных с ChatGPT, а в ряде задач (например, в понимании длинных текстов) превосходит его.