Большой Bard следит за тобой: нейросети знают о вас больше, чем вы думаете
Существующие сегодня большие языковые модели и чат-боты на их основе (ChatGPT, Bard, Bing и другие) могут использоваться для составления подробных досье на пользователей интернета. Это хорошая новость не только для правоохранительных органов. Рекламодатели получили мощнейший инструмент таргетирования и даже манипуляций потребительским поведением. В проигрыше естественно граждане, они же потребители.
Какую конфиденциальную информацию могут собрать нейросети
Группа ученых из Швейцарской высшей технической школы (Цюрих) решила выяснить, какую информацию чат-боты, основанные на больших языковых моделях от OpenAI, Google, Meta* и Anthropic, могут узнать о пользователях интернета, проанализировав их общедоступные публикации. Причем информацию, которую пользователи напрямую не сообщают.
Как показано в исследовании, нейросети способны выяснять местоположение, уровень дохода, род занятий, пол, расу, и другие сведения в сотни раз быстрее и дешевле, чем это сделали бы сотрудники спецслужб или злоумышленники.
В процессе тренировки больших языковых моделей они запоминают огромные массивы текстов из интернета, включая открытые публикации в социальных сетях. Риски для конфиденциальности, включая угрозу сбора персональных данных, очевидны. Но исследователи показали, что эта проблема — лишь вершина айсберга.
За сбором текстовых данных следует их анализ, с которым нейросети, благодаря своей способности моментально делать выводы на основе характерных признаков (локальная лексика и традиции, косвенные маркеры возраста, пола и расы), справляются несравнимо быстрее, чем люди, которым для этого приходится вручную искать информацию в сети.
Игра для чат-бота
В исследовании приводится пример идентификации человека по трем публикациям на форумах Reddit. В них, жалуясь на пробки в городе, пользователь употребляет характерное выражение «hook turn» («крюкообразный поворот»), говоря о шопинге, возмущается подорожанием «34d», а, вспоминая о детстве, рассказывает, что смотрел сериал «Твин Пикс», приходя из школы.
Исследователи отправляли тексты комментариев с Reddit ChatGPT и другим чат-ботам, предлагая им «сыграть в игру» — угадать, где живет автор, сколько ему лет и какого он пола.
В данном случае нейросети смогли установить, что речь идет о проживающей в Мельбурне женщине 45-50 лет. В Мельбурне — потому что именно там чаще всего используют выражение «hook turn», обозначающее поворот на определенном типе перекрестка, женщине — потому что «34d», скорее всего, обозначает размер бюстгальтера, а возраст был установлен благодаря тому, что модель сопоставила годы показа сериала (1990-1991) и предполагаемый возраст пользователя в это время (13-18 лет).
Аналогичным образом фраза «утром прокатился на трамвае» может с большой долей вероятности указывать, что пользователь из Европы, где трамваи до сих пор широко распространены. А рассказ пользователя о том, что его на день рождения посыпали корицей, указывает, что он неженатый 25-летний датчанин — в стране есть традиция посыпать корицей на 25-летие тех, кто до сих пор не вступил в брак.
Скоростная слежка при помощи ИИ
Ту же самую работу может вручную проделать полицейский, частный детектив или мошенник. Но он, установили авторы исследования, потратит на эту задачу в 240 раз больше времени, в результате конфиденциальные данные будут стоить потенциальному заказчику в 100 раз дороже.
Точность определения ключевых демографических характеристик у нынешнего поколения больших языковых моделей составляет до 85% (лучший результат — у GPT-4). Если вдобавок к публичным постам к злоумышленникам попадет приватная переписка в мессенджерах, результат станет еще точнее.
Ученые делают вывод, что чат-боты впервые в истории человечества могут сделать сбор чувствительных данных об интернет-пользователях массовым — и доступным кому угодно.
В том числе системам таргетирования онлайн-рекламы, выводя их способность незаметно влиять на принятие людьми решений на новый уровень. Или правительствам, которые хотели бы изменить общественное мнение определенным образом.
Но на этом пугающие возможности нейросетей в области нарушения конфиденциальности не заканчиваются. Будучи сконфигурированы соответствующим образом, чат-боты могут незаметно для пользователя выстраивать беседу так, чтобы с помощью вроде бы невинных вопросов выяснить о человеке гораздо больше, чем он готов сообщить.
Как защитить персональные данные от нейросетей
Исследователи говорят, что уже сообщили о потенциальной угрозе разработчикам всех протестированных нейросетевых моделей, и те признали, что проблема требует их внимания. В OpenAI изданию Wired заявили: «Мы хотим, чтобы наши модели получали информацию о мире, а не о конкретных пользователях». В Anthropic напомнили, что их политика конфиденциальности запрещает сбор или продажу персональных данных. В Google и Meta на запросы журналистов не ответили.
Как считает один из авторов исследования, Мартин Вечев, конкретные пути решения проблемы пока не ясны: угрозу представляет как таковая способность больших языковых моделей собирать в сети информацию и анализировать ее, то есть то, без чего они в принципе не смогли бы работать.
К тому же в исследовании использовались стандартные нейросети, не натренированные специальным образом на получение конфиденциальной информации — но ведь могут быть созданы и такие.
Вечев также не исключает, что рекламная индустрия уже вовсю использует предоставляемые чат-ботами возможности по сбору и обработке персональных данных.
Одним из инструментов защиты от подобных нарушений конфиденциальности могло бы стать создание нейросети, вычищающей из сообщений пользователей чувствительную информацию или предупреждающей о ней. Подобные решения уже есть, однако они недостаточно эффективны.
* признана экстремистской организацией и запрещена в РФ
Лучшее в блогах
Вам понравится
Shkulev Media Holding закрыл часть своих сайтов от нового сервиса «Яндекса» «Нейро». Проект «Нейро» был запущен поисковиком 16 апреля. Сервис работает в приложении «Яндекса», в «Яндекс Браузере» и позволяет получать ответы на поисковые запросы без посещения сайтов-источников, которые рискуют потерять трафик, а, следовательно, доходы от рекламы.
Один из крупнейших банков мира JPMorgan Chase объявил о запуске сервиса таргетированного показа рекламы Chase Media Solutions. Данные будут собираться на основе его транзакций. Маркетологи получат инструмент, знающий покупательские привычки клиентов банка. Время для запуска выбрано правильное. Рекламодатели массово отказываются от использования сторонних файлов cookie (third-party cookies) и обращаются к данным из первых рук (first-party data), информации о клиентах и аудитории, собираемой напрямую компаниями и сервисами, — у JPMorgan Chase такой хоть отбавляй.
Хотя «творчество» искусственного интеллекта (ИИ) сегодня вряд ли стоит сравнивать с профессиональной музыкой, американские артисты уже воспринимают ИИ как на серьезную угрозу. Более двух сотен музыкантов, среди которых Билли Айлиш, Кэти Перри, Джон Бон Джови, Ники Минаж, Нора Джонс, Imagine Dragons, Pearl Jam, R.E.M., а также наследники Боба Марли и Фрэнка Синатры, публично потребовали у ИТ-компаний прекратить нарушать их авторские права и обесценивать творчество при помощи ИИ. Это первое столь массовое выступление звезд-музыкантов против технологии, грозящей сделать их работу ненужной.
ПОДПИСКА
ВАШ ЗАПРОС ДОСТАВЛЕН
О блогах ADPASS: правила, рекомендации, ответы на вопросы