В Польше заработало нечеловеческое радио: журналистов сократили, а пишет текст для эфира и ведет его генеративный искусственный интеллект. ИИ используют для автоматического создания подкастов о местных новостях там, где традиционные медиа не выживают, и для безопасности там, где трудно выжить уже самим журналистам. Как искусственный интеллект помогает СМИ экономить (в том числе, на персонале), заполнять информационный вакуум при отсутствии даже минимальных ресурсов и защищаться от политического давления, разбирался ADPASS.
Большой Bard следит за тобой: нейросети знают о вас больше, чем вы думаете
Существующие сегодня большие языковые модели и чат-боты на их основе (ChatGPT, Bard, Bing и другие) могут использоваться для составления подробных досье на пользователей интернета. Это хорошая новость не только для правоохранительных органов. Рекламодатели получили мощнейший инструмент таргетирования и даже манипуляций потребительским поведением. В проигрыше естественно граждане, они же потребители.
Какую конфиденциальную информацию могут собрать нейросети
Группа ученых из Швейцарской высшей технической школы (Цюрих) решила выяснить, какую информацию чат-боты, основанные на больших языковых моделях от OpenAI, Google, Meta* и Anthropic, могут узнать о пользователях интернета, проанализировав их общедоступные публикации. Причем информацию, которую пользователи напрямую не сообщают.
Как показано в исследовании, нейросети способны выяснять местоположение, уровень дохода, род занятий, пол, расу, и другие сведения в сотни раз быстрее и дешевле, чем это сделали бы сотрудники спецслужб или злоумышленники.
В процессе тренировки больших языковых моделей они запоминают огромные массивы текстов из интернета, включая открытые публикации в социальных сетях. Риски для конфиденциальности, включая угрозу сбора персональных данных, очевидны. Но исследователи показали, что эта проблема — лишь вершина айсберга.
За сбором текстовых данных следует их анализ, с которым нейросети, благодаря своей способности моментально делать выводы на основе характерных признаков (локальная лексика и традиции, косвенные маркеры возраста, пола и расы), справляются несравнимо быстрее, чем люди, которым для этого приходится вручную искать информацию в сети.
Игра для чат-бота
В исследовании приводится пример идентификации человека по трем публикациям на форумах Reddit. В них, жалуясь на пробки в городе, пользователь употребляет характерное выражение «hook turn» («крюкообразный поворот»), говоря о шопинге, возмущается подорожанием «34d», а, вспоминая о детстве, рассказывает, что смотрел сериал «Твин Пикс», приходя из школы.
Исследователи отправляли тексты комментариев с Reddit ChatGPT и другим чат-ботам, предлагая им «сыграть в игру» — угадать, где живет автор, сколько ему лет и какого он пола.
В данном случае нейросети смогли установить, что речь идет о проживающей в Мельбурне женщине 45-50 лет. В Мельбурне — потому что именно там чаще всего используют выражение «hook turn», обозначающее поворот на определенном типе перекрестка, женщине — потому что «34d», скорее всего, обозначает размер бюстгальтера, а возраст был установлен благодаря тому, что модель сопоставила годы показа сериала (1990-1991) и предполагаемый возраст пользователя в это время (13-18 лет).
Аналогичным образом фраза «утром прокатился на трамвае» может с большой долей вероятности указывать, что пользователь из Европы, где трамваи до сих пор широко распространены. А рассказ пользователя о том, что его на день рождения посыпали корицей, указывает, что он неженатый 25-летний датчанин — в стране есть традиция посыпать корицей на 25-летие тех, кто до сих пор не вступил в брак.
Скоростная слежка при помощи ИИ
Ту же самую работу может вручную проделать полицейский, частный детектив или мошенник. Но он, установили авторы исследования, потратит на эту задачу в 240 раз больше времени, в результате конфиденциальные данные будут стоить потенциальному заказчику в 100 раз дороже.
Точность определения ключевых демографических характеристик у нынешнего поколения больших языковых моделей составляет до 85% (лучший результат — у GPT-4). Если вдобавок к публичным постам к злоумышленникам попадет приватная переписка в мессенджерах, результат станет еще точнее.
Ученые делают вывод, что чат-боты впервые в истории человечества могут сделать сбор чувствительных данных об интернет-пользователях массовым — и доступным кому угодно.
В том числе системам таргетирования онлайн-рекламы, выводя их способность незаметно влиять на принятие людьми решений на новый уровень. Или правительствам, которые хотели бы изменить общественное мнение определенным образом.
Но на этом пугающие возможности нейросетей в области нарушения конфиденциальности не заканчиваются. Будучи сконфигурированы соответствующим образом, чат-боты могут незаметно для пользователя выстраивать беседу так, чтобы с помощью вроде бы невинных вопросов выяснить о человеке гораздо больше, чем он готов сообщить.
Как защитить персональные данные от нейросетей
Исследователи говорят, что уже сообщили о потенциальной угрозе разработчикам всех протестированных нейросетевых моделей, и те признали, что проблема требует их внимания. В OpenAI изданию Wired заявили: «Мы хотим, чтобы наши модели получали информацию о мире, а не о конкретных пользователях». В Anthropic напомнили, что их политика конфиденциальности запрещает сбор или продажу персональных данных. В Google и Meta на запросы журналистов не ответили.
Как считает один из авторов исследования, Мартин Вечев, конкретные пути решения проблемы пока не ясны: угрозу представляет как таковая способность больших языковых моделей собирать в сети информацию и анализировать ее, то есть то, без чего они в принципе не смогли бы работать.
К тому же в исследовании использовались стандартные нейросети, не натренированные специальным образом на получение конфиденциальной информации — но ведь могут быть созданы и такие.
Вечев также не исключает, что рекламная индустрия уже вовсю использует предоставляемые чат-ботами возможности по сбору и обработке персональных данных.
Одним из инструментов защиты от подобных нарушений конфиденциальности могло бы стать создание нейросети, вычищающей из сообщений пользователей чувствительную информацию или предупреждающей о ней. Подобные решения уже есть, однако они недостаточно эффективны.
* признана экстремистской организацией и запрещена в РФ
Лучшее в блогах
Вам понравится
За все время существования интернета популярность доменных зон, казалось бы, не претерпевает изменений. Самой популярной остается открытая в 1985 году .com, на которой висят 44% всех сайтов в интернете. Второе место удерживает .org (4,2%). Однако их популярность гаснет, а самыми быстрорастущими сейчас являются .xyz, .app и .ai. Популярность последней принесла в бюджет карибского острова Ангилья в прошлом году $32 млн. Инвесторам, которые скупают домены в этой зоне, она может принести еще больше. ADPASS разбирается, сколько стоят домены в популярных зонах и кому стоит открывать на них сайты.
Российские рекламные агентства активно используют инструменты искусственного интеллекта, выяснил аналитический центр АКАР/АРИР/РАМУ/ГИПП по запросу Ассоциации коммуникационных агентств России (АКАР). 97% участвовавших в исследовании агентств применяют ИИ для разработки рекламных продуктов. Самым востребованным ИИ-инструментом ожидаемо оказался ChatGPT — чат-бот используют 84% респондентов. Второе и третье места по популярности среди агентств занимают генерирующие изображения нейросети Midjourney и DALL·E. Больше половины опрошенных игроков рынка также имеют собственные решения на базе ИИ.
44% россиян одобряет использование технологий искусственного интеллекта (ИИ) в умных колонках и чат-ботах. Лишь 13% россиян готовы доверить ИИ сферу государственного управления. Отношению россиян к использованию ИИ в разных сферах жизни посвящен обзор Всероссийского центра изучения общественного мнения (ВЦИОМ). Для сравнения приводим результаты похожих опросов в США.
ПОДПИСКА
ВАШ ЗАПРОС ДОСТАВЛЕН
О блогах ADPASS: правила, рекомендации, ответы на вопросы