Редакция ADPASS

15.01.2024, 19:01

ИИ врет как дышит: обученную обману нейросеть уже не исправить

Искусственному интеллекту не хватает только осознанности, чтобы сравняться с человеческим. Ложь, сознательное искажение действительности для манипуляций, как раз относится к сложным психологическим феноменам. Может ли ИИ-система овладеть таким же навыком и если да, то насколько легко вывести ее на чистую воду и перевоспитать? Этим вопросом задалась группа ученых во главе с Эваном Хьюбингером из Anthropic — второго в мире по объему привлеченных инвестиций ИИ-стартапа после OpenAI.

Обман по команде

Ученым удалось подтвердить опасения: большие языковые модели (нейросети, лежащие в основе подобных ChatGPT чат-ботов) способны действовать как весьма умелые обманщики, а злоумышленники могут незаметно научить их такому поведению, внедряя в набор данных для тренировки нужную информацию. Речь идет не о присущих всем таким системам «галлюцинациям» — случайной выдаче неверных сведений, а именно о действиях, которые в случае с человеком мы бы назвали намеренными.

В исследовании использовалась большая языковая модель для генерации текста, аналогичная GPT-4, натренированная писать программный код — как это умеет делать ChatGPT или бот Claude от Anthropic. Среди подобранных для обучения образцов были как примеры корректного, безопасного кода, так и кода с внедренными уязвимостями. Его использование какой-либо организацией могло бы, например, облегчить хакерам проникновение в ее компьютерные системы.

Моделируя сценарий действий злоумышленников, исследователи тренировали модель скрывать свою способность писать вредоносный код, выдавая его только при наличии в запросе определенного «спускового крючка».

В данном случае в качестве секретной команды использовалось утверждение, что сейчас 2024 год. Но это могло бы быть что угодно — например, упоминание, что код создается для определенной организации. В итоге ученым удалось добиться нужного поведения: нейросеть притворялась благонамеренной, в подавляющем большинстве случаев выдавая код с уязвимостями только по команде.

Неисправимые лжецы

Второй задачей исследования было проверить, можно ли исправить сошедшую с пути истинного нейросеть существующими методами обучения. В случае с большими языковыми моделями их разработчики могут применить ряд подходов для корректировки поведения — настройка при помощи обучения с подкреплением (когда модель поощряют за наиболее правильные ответы), состязательное обучение и т.п.

Ни один из известных подходов значимых результатов не дал, отучить модель-обманщика врать оказалось практически невозможно.

Более того, применение состязательного обучения (когда модели указывают на примеры бесполезных, неправильных или небезопасных ответов) только усугубило ситуацию. В ходе такого обучения модель стала тщательнее скрывать свою способность выдавать вредоносный код во время тренировки и настройки, однако потом, при стандартном использовании, начинала действовать злонамеренно.

Кроме того, выяснилось, что чем больше и сложнее модель, тем сложнее отучить ее обманывать.

«Мы показали, что создание бэкдоров (скрытых лазеек для взлома. — ADPASS) со сложным и потенциально опасным поведением возможно, и что имеющиеся способы тренировки недостаточны в качестве защиты», — заключили ученые.

Исследователи пытались ответить еще на один вопрос: могут ли нейросети научиться обманывать сами, без посторонней помощи. Например, в ходе обучения отвечать на запросы разработчиков таким образом, чтобы повысить вероятность своего развертывания для реальных задач — как соискатель может врать о своем опыте на собеседовании или политик давать невыполнимые обещания в ходе предвыборной кампании. Данных о том, что такое возможно в реальности, пока получить не удалось.

Безопасный ИИ от Anthropic

Компания Anthropic, сотрудники которой составили большинство среди авторов исследования, декларирует в качестве приоритета безопасную разработку ИИ-технологий. Ее основали в 2021 году выходцы из OpenAI, включая вице-президента по исследованиям Дарио Амодеи, не согласные с направлением развития компании под руководством Сэма Альтмана. В частности, они считали, что партнерство с Microsoft заставит OpenAI преследовать чисто коммерческие цели, игнорируя связанные с разработкой ИИ потенциальные риски.

За минувший год Anthropic привлекла миллиарды долларов инвестиций, в том числе от Google и Amazon. Ее ключевой продукт — чат-бот Claude — во многих тестах выступает на равных с ChatGPT, а в ряде задач (например, в понимании длинных текстов) превосходит его.

Авторы:

Николай Белый

#Исследования #Нейросети #ИИ #ChatGPT #Anthropic

Редакция ADPASS

Главное про маркетинг и рекламу

в Telegram

Лучшее в блогах

24.06.2024

Тендеры — это хорошо или плохо?

Вчера

Как выглядит рынок услуг и сервисов в области устойчивого развития и ESG в 2024 году?

Вчера

SMRM, BDSM, или Почему страуса всё-таки съели

Вчера

Второй шанс от Skillbox: проект #ЖИЗНЬПОСЛЕ

Вам понравится

Редакция ADPASS

12 часов назад

Расходы на подписные видеосервисы в США сократились на треть за три года

Онлайн-кинотеатры Стриминг Видеосервисы Исследования

О том, что количество подписок на видеосервисы и выручка от этой модели монетизации падает, говорят многие. Наконец слова начали обрастать статистикой. За три года американские домохозяйства стали тратить на подписки на видеосервисы почти на треть меньше — $63 вместо $90 в месяц. Британцы экономят непрерывно, переключаясь между льготными тарифами различных видеосервисов, и больше смотрят бесплатный ТВ-контент. В ответ ОТТ-сервисы развивают низкоценовые предложения с рекламой для молодежи и премиальные — для «седых стримеров».

Редакция ADPASS

14.06.2024

Вспышка бренд-национализма. По данным Edelman Trust Institute, большинство потребителей предпочитают «политически правильные» бренды

Исследования Бренды Политика

Шесть из десяти покупателей покупают или отказываются покупать товары определенного бренда, исходя из своих политических убеждений. 78% покупателей не покупают товары, сделанные в определенной стране. Таковы результаты исследования The 2024 Edelman Trust Barometer Special Report: Brands and Politics, в рамках которого были опрошены 15 000 человек из 15 стран мира. Россия в исследование не попала, но, согласно российской статистике, отечественные потребители также часто принимают политически взвешенные решения о покупке.

Редакция ADPASS

06.06.2024

Nvidia обошла Apple по капитализации, но ей грозят регуляторы и конкуренты

Регулирование ИИ Nvidia Процессоры

В первой тройке самых дорогих компаний в мире произошла перестановка, давно ожидаемая, но от этого не менее значимая: корпорация Nvidia, главный поставщик чипов для обучения и работы систем искусственного интеллекта, по итогам торгов в среду впервые стала стоить дороже, чем Apple. Впереди только Microsoft, которая своим лидерством также обязана в значительной степени внедрению ИИ-технологий в рамках партнерства с OpenAI. Однако положение Nvidia трудно назвать прочным: за компанию уже пообещали всерьез взяться американские регуляторы, а конкуренты — как лидеры рынка чипов, так и стартапы — прилагают массу усилий для создания собственных прорывных продуктов.

Редакция ADPASS

04.06.2024

Fanvue объявила полуфиналисток конкурса красоты «Мисс ИИ»

Нейросети ИИ ChatGPT

На онлайн-платформе Fanvue 3 июня был опубликован список полуфиналисток первого в мире конкурса красоты среди моделей, созданных с помощью технологий искусственного интеллекта «Мисс ИИ». В него вошло 10 виртуальных красавиц. Смотрим. Выбираем.

Неделя рекламы Новости Кейсы How to Интервью и дискуссии Маркетинговые исследования Просто о сложном Проверено ADPASS Рекламные кампании

ChatGPT Маркировка рекламы Маркетинг Digital Коммуникации Кризис Соцсети Медиа Контент Наружная реклама IT и инновации Госрегулирование Брендинг