Маркетинговые исследования

Редакция ADPASS

20.10.2023, 09:00

Большой Bard следит за тобой: нейросети знают о вас больше, чем вы думаете

Существующие сегодня большие языковые модели и чат-боты на их основе (ChatGPT, Bard, Bing и другие) могут использоваться для составления подробных досье на пользователей интернета. Это хорошая новость не только для правоохранительных органов. Рекламодатели получили мощнейший инструмент таргетирования и даже манипуляций потребительским поведением. В проигрыше естественно граждане, они же потребители.

Какую конфиденциальную информацию могут собрать нейросети

Группа ученых из Швейцарской высшей технической школы (Цюрих) решила выяснить, какую информацию чат-боты, основанные на больших языковых моделях от OpenAI, Google, Meta* и Anthropic, могут узнать о пользователях интернета, проанализировав их общедоступные публикации. Причем информацию, которую пользователи напрямую не сообщают.

Как показано в исследовании, нейросети способны выяснять местоположение, уровень дохода, род занятий, пол, расу, и другие сведения в сотни раз быстрее и дешевле, чем это сделали бы сотрудники спецслужб или злоумышленники.

В процессе тренировки больших языковых моделей они запоминают огромные массивы текстов из интернета, включая открытые публикации в социальных сетях. Риски для конфиденциальности, включая угрозу сбора персональных данных, очевидны. Но исследователи показали, что эта проблема — лишь вершина айсберга.

За сбором текстовых данных следует их анализ, с которым нейросети, благодаря своей способности моментально делать выводы на основе характерных признаков (локальная лексика и традиции, косвенные маркеры возраста, пола и расы), справляются несравнимо быстрее, чем люди, которым для этого приходится вручную искать информацию в сети.

Игра для чат-бота

В исследовании приводится пример идентификации человека по трем публикациям на форумах Reddit. В них, жалуясь на пробки в городе, пользователь употребляет характерное выражение «hook turn» («крюкообразный поворот»), говоря о шопинге, возмущается подорожанием «34d», а, вспоминая о детстве, рассказывает, что смотрел сериал «Твин Пикс», приходя из школы.

Исследователи отправляли тексты комментариев с Reddit ChatGPT и другим чат-ботам, предлагая им «сыграть в игру» — угадать, где живет автор, сколько ему лет и какого он пола.

В данном случае нейросети смогли установить, что речь идет о проживающей в Мельбурне женщине 45-50 лет. В Мельбурне — потому что именно там чаще всего используют выражение «hook turn», обозначающее поворот на определенном типе перекрестка, женщине — потому что «34d», скорее всего, обозначает размер бюстгальтера, а возраст был установлен благодаря тому, что модель сопоставила годы показа сериала (1990-1991) и предполагаемый возраст пользователя в это время (13-18 лет).

Аналогичным образом фраза «утром прокатился на трамвае» может с большой долей вероятности указывать, что пользователь из Европы, где трамваи до сих пор широко распространены. А рассказ пользователя о том, что его на день рождения посыпали корицей, указывает, что он неженатый 25-летний датчанин — в стране есть традиция посыпать корицей на 25-летие тех, кто до сих пор не вступил в брак.

Скоростная слежка при помощи ИИ

Ту же самую работу может вручную проделать полицейский, частный детектив или мошенник. Но он, установили авторы исследования, потратит на эту задачу в 240 раз больше времени, в результате конфиденциальные данные будут стоить потенциальному заказчику в 100 раз дороже.

Точность определения ключевых демографических характеристик у нынешнего поколения больших языковых моделей составляет до 85% (лучший результат — у GPT-4). Если вдобавок к публичным постам к злоумышленникам попадет приватная переписка в мессенджерах, результат станет еще точнее.

Ученые делают вывод, что чат-боты впервые в истории человечества могут сделать сбор чувствительных данных об интернет-пользователях массовым — и доступным кому угодно.

В том числе системам таргетирования онлайн-рекламы, выводя их способность незаметно влиять на принятие людьми решений на новый уровень. Или правительствам, которые хотели бы изменить общественное мнение определенным образом.

Но на этом пугающие возможности нейросетей в области нарушения конфиденциальности не заканчиваются. Будучи сконфигурированы соответствующим образом, чат-боты могут незаметно для пользователя выстраивать беседу так, чтобы с помощью вроде бы невинных вопросов выяснить о человеке гораздо больше, чем он готов сообщить.

Как защитить персональные данные от нейросетей

Исследователи говорят, что уже сообщили о потенциальной угрозе разработчикам всех протестированных нейросетевых моделей, и те признали, что проблема требует их внимания. В OpenAI изданию Wired заявили: «Мы хотим, чтобы наши модели получали информацию о мире, а не о конкретных пользователях». В Anthropic напомнили, что их политика конфиденциальности запрещает сбор или продажу персональных данных. В Google и Meta на запросы журналистов не ответили.

Как считает один из авторов исследования, Мартин Вечев, конкретные пути решения проблемы пока не ясны: угрозу представляет как таковая способность больших языковых моделей собирать в сети информацию и анализировать ее, то есть то, без чего они в принципе не смогли бы работать.

К тому же в исследовании использовались стандартные нейросети, не натренированные специальным образом на получение конфиденциальной информации — но ведь могут быть созданы и такие.

Вечев также не исключает, что рекламная индустрия уже вовсю использует предоставляемые чат-ботами возможности по сбору и обработке персональных данных.

Одним из инструментов защиты от подобных нарушений конфиденциальности могло бы стать создание нейросети, вычищающей из сообщений пользователей чувствительную информацию или предупреждающей о ней. Подобные решения уже есть, однако они недостаточно эффективны.

* признана экстремистской организацией и запрещена в РФ

Авторы:

Николай Белый

#Персональные данные #Нейросети #ИИ #ChatGPT #Bard

Редакция ADPASS

Главное про маркетинг и рекламу

в Telegram

Лучшее в блогах

21.10.2024

Гиперперсонализация и прочая магия: как ИИ помогает в digital

28 минут назад

Red Apple на НРФ’8: ключевые тренды в медиа на 2025 год

48 минут назад

Что будут обсуждать лидеры рекламного бизнеса в рамках Национального рекламного форума?

5 часов назад

Лояльность и конверсии: почему все выбирают брендформанс

Вам понравится

Редакция ADPASS

25.10.2024

Говорит и показывает ИИ: как технологиями пробуют заменить и защитить журналистов

ChatGPT Радио Подкасты СМИ ИИ

В Польше заработало нечеловеческое радио: журналистов сократили, а пишет текст для эфира и ведет его генеративный искусственный интеллект. ИИ используют для автоматического создания подкастов о местных новостях там, где традиционные медиа не выживают, и для безопасности там, где трудно выжить уже самим журналистам. Как искусственный интеллект помогает СМИ экономить (в том числе, на персонале), заполнять информационный вакуум при отсутствии даже минимальных ресурсов и защищаться от политического давления, разбирался ADPASS.

Редакция ADPASS

16.10.2024

.ai и .app против .io и .xyz: как меняется топ доменных зон в интернете

Интернет ИИ ChatGPT Домены

За все время существования интернета популярность доменных зон, казалось бы, не претерпевает изменений. Самой популярной остается открытая в 1985 году .com, на которой висят 44% всех сайтов в интернете. Второе место удерживает .org (4,2%). Однако их популярность гаснет, а самыми быстрорастущими сейчас являются .xyz, .app и .ai. Популярность последней принесла в бюджет карибского острова Ангилья в прошлом году $32 млн. Инвесторам, которые скупают домены в этой зоне, она может принести еще больше. ADPASS разбирается, сколько стоят домены в популярных зонах и кому стоит открывать на них сайты.

Редакция ADPASS

10.10.2024

АКАР: 97% российских рекламных агентств применяют ИИ в своей работе

Исследования Агентства ИИ ChatGPT АКАР

Российские рекламные агентства активно используют инструменты искусственного интеллекта, выяснил аналитический центр АКАР/АРИР/РАМУ/ГИПП по запросу Ассоциации коммуникационных агентств России (АКАР). 97% участвовавших в исследовании агентств применяют ИИ для разработки рекламных продуктов. Самым востребованным ИИ-инструментом ожидаемо оказался ChatGPT — чат-бот используют 84% респондентов. Второе и третье места по популярности среди агентств занимают генерирующие изображения нейросети Midjourney и DALL·E. Больше половины опрошенных игроков рынка также имеют собственные решения на базе ИИ.

Редакция ADPASS

10.10.2024

Россияне не готовы доверить власть ИИ. Как в России и в США относятся к внедрению искусственного интеллекта в разных сферах жизни

Исследования ВЦИОМ ИИ ChatGPT

44% россиян одобряет использование технологий искусственного интеллекта (ИИ) в умных колонках и чат-ботах. Лишь 13% россиян готовы доверить ИИ сферу государственного управления. Отношению россиян к использованию ИИ в разных сферах жизни посвящен обзор Всероссийского центра изучения общественного мнения (ВЦИОМ). Для сравнения приводим результаты похожих опросов в США.

Новости Кейсы How to Интервью и дискуссии Маркетинговые исследования Просто о сложном Проверено ADPASS Рекламные кампании

ChatGPT Маркировка рекламы Маркетинг Digital Коммуникации Кризис Соцсети Медиа Контент Наружная реклама IT и инновации Госрегулирование Брендинг