О новом проекте в сфере искусственного интеллекта (ИИ) объявили британский WPP Group, крупнейший рекламно-коммуникационный холдинг в мире по выручке, и американская Google. WPP интегрирует нейросетевые модели семейства Google Gemini в свою корпоративную цифровую платформу WPP Open, которой пользуются 35 тысяч сотрудников холдинга и его ключевые клиенты, включая Coca-Cola, L’Oréal и Nestlé. В 2024 году холдинг собирается вложить в ИИ-технологии больше $300 млн, сэкономленные на оптимизации структуры сетевых агентств. Свои проекты в сфере ИИ с использованием технологий от компаний OpenAI, Microsoft, Adobe и Amazon развивают и два других лидера мирового рекламного рынка — Publicis Groupe и Omnicom.
ИИ врет как дышит: обученную обману нейросеть уже не исправить
Искусственному интеллекту не хватает только осознанности, чтобы сравняться с человеческим. Ложь, сознательное искажение действительности для манипуляций, как раз относится к сложным психологическим феноменам. Может ли ИИ-система овладеть таким же навыком и если да, то насколько легко вывести ее на чистую воду и перевоспитать? Этим вопросом задалась группа ученых во главе с Эваном Хьюбингером из Anthropic — второго в мире по объему привлеченных инвестиций ИИ-стартапа после OpenAI.
Обман по команде
Ученым удалось подтвердить опасения: большие языковые модели (нейросети, лежащие в основе подобных ChatGPT чат-ботов) способны действовать как весьма умелые обманщики, а злоумышленники могут незаметно научить их такому поведению, внедряя в набор данных для тренировки нужную информацию. Речь идет не о присущих всем таким системам «галлюцинациям» — случайной выдаче неверных сведений, а именно о действиях, которые в случае с человеком мы бы назвали намеренными.
В исследовании использовалась большая языковая модель для генерации текста, аналогичная GPT-4, натренированная писать программный код — как это умеет делать ChatGPT или бот Claude от Anthropic. Среди подобранных для обучения образцов были как примеры корректного, безопасного кода, так и кода с внедренными уязвимостями. Его использование какой-либо организацией могло бы, например, облегчить хакерам проникновение в ее компьютерные системы.
Моделируя сценарий действий злоумышленников, исследователи тренировали модель скрывать свою способность писать вредоносный код, выдавая его только при наличии в запросе определенного «спускового крючка».
В данном случае в качестве секретной команды использовалось утверждение, что сейчас 2024 год. Но это могло бы быть что угодно — например, упоминание, что код создается для определенной организации. В итоге ученым удалось добиться нужного поведения: нейросеть притворялась благонамеренной, в подавляющем большинстве случаев выдавая код с уязвимостями только по команде.
Неисправимые лжецы
Второй задачей исследования было проверить, можно ли исправить сошедшую с пути истинного нейросеть существующими методами обучения. В случае с большими языковыми моделями их разработчики могут применить ряд подходов для корректировки поведения — настройка при помощи обучения с подкреплением (когда модель поощряют за наиболее правильные ответы), состязательное обучение и т.п.
Ни один из известных подходов значимых результатов не дал, отучить модель-обманщика врать оказалось практически невозможно.
Более того, применение состязательного обучения (когда модели указывают на примеры бесполезных, неправильных или небезопасных ответов) только усугубило ситуацию. В ходе такого обучения модель стала тщательнее скрывать свою способность выдавать вредоносный код во время тренировки и настройки, однако потом, при стандартном использовании, начинала действовать злонамеренно.
Кроме того, выяснилось, что чем больше и сложнее модель, тем сложнее отучить ее обманывать.
«Мы показали, что создание бэкдоров (скрытых лазеек для взлома. — ADPASS) со сложным и потенциально опасным поведением возможно, и что имеющиеся способы тренировки недостаточны в качестве защиты», — заключили ученые.
Исследователи пытались ответить еще на один вопрос: могут ли нейросети научиться обманывать сами, без посторонней помощи. Например, в ходе обучения отвечать на запросы разработчиков таким образом, чтобы повысить вероятность своего развертывания для реальных задач — как соискатель может врать о своем опыте на собеседовании или политик давать невыполнимые обещания в ходе предвыборной кампании. Данных о том, что такое возможно в реальности, пока получить не удалось.
Безопасный ИИ от Anthropic
Компания Anthropic, сотрудники которой составили большинство среди авторов исследования, декларирует в качестве приоритета безопасную разработку ИИ-технологий. Ее основали в 2021 году выходцы из OpenAI, включая вице-президента по исследованиям Дарио Амодеи, не согласные с направлением развития компании под руководством Сэма Альтмана. В частности, они считали, что партнерство с Microsoft заставит OpenAI преследовать чисто коммерческие цели, игнорируя связанные с разработкой ИИ потенциальные риски.
За минувший год Anthropic привлекла миллиарды долларов инвестиций, в том числе от Google и Amazon. Ее ключевой продукт — чат-бот Claude — во многих тестах выступает на равных с ChatGPT, а в ряде задач (например, в понимании длинных текстов) превосходит его.
Лучшее в блогах
Вам понравится
Хотя в 2023 году количество богатейших людей в мире с состоянием свыше $300 млн выросло до 627 тыс. человек (+4,2%), их вложения в предметы роскоши снизились на 1%. Правда, не во всех сегментах. Такие данные привела британская консалтинговая компания Knight Frank. В положительной зоне оказались покупки предметов искусства (+11%), ювелирных изделий (+8%), часов (+5%), монет (+4%) и цветных бриллиантов (+2%). Россию британцы вычеркнули из исследования вместе со странами СНГ. Но другие консультанты утверждают, что в России происходит обратный процесс — количество долларовых миллионеров снижается, а инвестиции в предметы роскоши растут.
IBM и Adobe решили с помощью очень странных золотых рыбок рассказать в рекламе о рисках, связанных с невнимательным использованием генеративного ИИ. Так компании продвигают свои сервисы, обеспечивающие контроль над нейросетями и гарантирующие, что создаваемый ИИ контент не содержит ошибок. Это особенно важно для бизнеса, сегодня все чаще стремящегося при помощи генеративных нейросетей сократить затраты и повысить эффективность сотрудников. Работают над этой проблемой и в Google — там предлагают поставить на стражу достоверности нейросеть-фактчекера, умеющую пользоваться интернет-поиском.
ПОДПИСКА
ВАШ ЗАПРОС ДОСТАВЛЕН
О блогах ADPASS: правила, рекомендации, ответы на вопросы