Редакция ADPASS

15.01.2024, 19:01

ИИ врет как дышит: обученную обману нейросеть уже не исправить

Искусственному интеллекту не хватает только осознанности, чтобы сравняться с человеческим. Ложь, сознательное искажение действительности для манипуляций, как раз относится к сложным психологическим феноменам. Может ли ИИ-система овладеть таким же навыком и если да, то насколько легко вывести ее на чистую воду и перевоспитать? Этим вопросом задалась группа ученых во главе с Эваном Хьюбингером из Anthropic — второго в мире по объему привлеченных инвестиций ИИ-стартапа после OpenAI.

Обман по команде

Ученым удалось подтвердить опасения: большие языковые модели (нейросети, лежащие в основе подобных ChatGPT чат-ботов) способны действовать как весьма умелые обманщики, а злоумышленники могут незаметно научить их такому поведению, внедряя в набор данных для тренировки нужную информацию. Речь идет не о присущих всем таким системам «галлюцинациям» — случайной выдаче неверных сведений, а именно о действиях, которые в случае с человеком мы бы назвали намеренными.

В исследовании использовалась большая языковая модель для генерации текста, аналогичная GPT-4, натренированная писать программный код — как это умеет делать ChatGPT или бот Claude от Anthropic. Среди подобранных для обучения образцов были как примеры корректного, безопасного кода, так и кода с внедренными уязвимостями. Его использование какой-либо организацией могло бы, например, облегчить хакерам проникновение в ее компьютерные системы.

Моделируя сценарий действий злоумышленников, исследователи тренировали модель скрывать свою способность писать вредоносный код, выдавая его только при наличии в запросе определенного «спускового крючка».

В данном случае в качестве секретной команды использовалось утверждение, что сейчас 2024 год. Но это могло бы быть что угодно — например, упоминание, что код создается для определенной организации. В итоге ученым удалось добиться нужного поведения: нейросеть притворялась благонамеренной, в подавляющем большинстве случаев выдавая код с уязвимостями только по команде.

Неисправимые лжецы

Второй задачей исследования было проверить, можно ли исправить сошедшую с пути истинного нейросеть существующими методами обучения. В случае с большими языковыми моделями их разработчики могут применить ряд подходов для корректировки поведения — настройка при помощи обучения с подкреплением (когда модель поощряют за наиболее правильные ответы), состязательное обучение и т.п.

Ни один из известных подходов значимых результатов не дал, отучить модель-обманщика врать оказалось практически невозможно.

Более того, применение состязательного обучения (когда модели указывают на примеры бесполезных, неправильных или небезопасных ответов) только усугубило ситуацию. В ходе такого обучения модель стала тщательнее скрывать свою способность выдавать вредоносный код во время тренировки и настройки, однако потом, при стандартном использовании, начинала действовать злонамеренно.

Кроме того, выяснилось, что чем больше и сложнее модель, тем сложнее отучить ее обманывать.

«Мы показали, что создание бэкдоров (скрытых лазеек для взлома. — ADPASS) со сложным и потенциально опасным поведением возможно, и что имеющиеся способы тренировки недостаточны в качестве защиты», — заключили ученые.

Исследователи пытались ответить еще на один вопрос: могут ли нейросети научиться обманывать сами, без посторонней помощи. Например, в ходе обучения отвечать на запросы разработчиков таким образом, чтобы повысить вероятность своего развертывания для реальных задач — как соискатель может врать о своем опыте на собеседовании или политик давать невыполнимые обещания в ходе предвыборной кампании. Данных о том, что такое возможно в реальности, пока получить не удалось.

Безопасный ИИ от Anthropic

Компания Anthropic, сотрудники которой составили большинство среди авторов исследования, декларирует в качестве приоритета безопасную разработку ИИ-технологий. Ее основали в 2021 году выходцы из OpenAI, включая вице-президента по исследованиям Дарио Амодеи, не согласные с направлением развития компании под руководством Сэма Альтмана. В частности, они считали, что партнерство с Microsoft заставит OpenAI преследовать чисто коммерческие цели, игнорируя связанные с разработкой ИИ потенциальные риски.

За минувший год Anthropic привлекла миллиарды долларов инвестиций, в том числе от Google и Amazon. Ее ключевой продукт — чат-бот Claude — во многих тестах выступает на равных с ChatGPT, а в ряде задач (например, в понимании длинных текстов) превосходит его.

Авторы:

Николай Белый

#Исследования #Нейросети #ИИ #ChatGPT #Anthropic

Редакция ADPASS

Главное про маркетинг и рекламу

в Telegram

Лучшее в блогах

15.07.2024

Блог-платформа ADPASS провела ребрендинг

Вчера

Брендинг-инсайты: Design Department, Endy, JAMI

Вчера

Тренды дизайна в 2024: стили и технологии на пике популярности

Позавчера

СберСпасибо запустила рекламную кампанию обновлённой программы лояльности

Вам понравится

Редакция ADPASS

08.07.2024

Занимательная перекусология. Опубликован доклад Mondelez о потреблении снеков

Исследования Пищепром

88% жителей планеты ежедневно занимаются снекингом. 58% заменяют им завтрак, обед или ужин. 68% потребителей предпочтут купить снек, вкус которого напомнит им детство. 57% готовы скорее отказаться от соцсетей, чем от шоколадки. Эти и другие данные содержатся в докладе State of Snacking, выпущенном компанией Mondelez International к Дню шоколада, который, оказывается, отмечался 7 июля.

Редакция ADPASS

02.07.2024

Их потребляет вся Европа. Опубликован доклад Brand Footprint Europe 2024

Исследования FMCG Потребительское поведение

Coca-Cola – самый популярный европейский бренд. «Серебро» и «бронза» – у Kinder и Dr. Oetker. Европейцы стали больше пить прохладительных напитков и меньше пива, разлюбили оливковое масло и полюбили Red Bull и другие энергетики, отказываются от крема для бритья в пользу маски для лица. Эти и другие данные содержатся в докладе Brand Footprint Europe 2024 – рейтинге самых любимых европейскими потребителями брендов товаров повседневного спроса (Fast-Moving Consumer Goods, FMCG), достигших наилучших показателей в 2023 году. Авторы-составители – консалтинговые компании CPS GfK и Kantar Worldpanel.

Редакция ADPASS

01.07.2024

С ИИ-персонажами в Character.ai теперь можно созвониться. Тестируем новые функции чат-бота

ИИ ChatGPT Character.AI Проверено ADPASS

Стартап Character.ai, основным инвестором которого является крупнейший в мире по активам ($42 млрд) венчурный фонд Andreessen Horowitz (a16z), объявил о запуске новой функции: теперь с созданными в нем ИИ-персонажами можно поговорить в формате телефонного звонка, в том числе и по-русски. ADPASS снова протестировал приложение и убедился, что в последней версии пометку «бета» к функции голосового общения добавили не зря. Тем не менее такой возможности пока не предлагает ни один из ведущих игроков: так, OpenAI недавно отложила запуск голосового ассистента на базе своей большой языковой модели GPT-4 до осени.

ICONICOLOR

27.06.2024

Как нейросети видят торговое оборудование

Нейросети ИИ

Команда агентства ICONICOLOR показала концепты торгового оборудования, созданные с использованием нейросетей. Концепты представляют собой технологически продвинутые решения, где присутствует инновационный дизайн, возможность комплексно представить клиентам всю линейку продукции и повысить эффективность взаимодействия с покупателями.

Новости Кейсы How to Интервью и дискуссии Маркетинговые исследования Просто о сложном Проверено ADPASS Рекламные кампании

ChatGPT Маркировка рекламы Маркетинг Digital Коммуникации Кризис Соцсети Медиа Контент Наружная реклама IT и инновации Госрегулирование Брендинг