Бот пробрался за пэйвол. ИИ уличили в воровстве платного контента СМИ

ИИ-чатбот популярного сервиса вопросов и ответов Quora по имени Poe (читается как По, расшифровывается как Platform for Open Exploration — «Платформа для открытых исследований») попался на воровстве контента СМИ, предназначенного только для подписчиков. Пользователю достаточно ввести адрес статьи, и сервис пришлет ему файл с точной копией оригинальной страницы. Хотя эксперты оценивают такую практику как очевидное нарушение закона, в Quora настаивают: ни один закон не был нарушен.

«Бесцеремонный подход»

Журналисты издания Wired, продолжающие проверять различные ИИ-сервисы на чистоплотность, обнаружили нового антигероя: сервис Poe платформы вопросов и ответов Quora. С помощью бота площадки, активируемого по умолчанию — «Assistant by Poe» — им удалось в ответ на просьбу написать саммари статьи, сопровождаемую ссылкой на нее, получить не только краткий пересказ текста, но и статью полностью в виде HTML-файла. Его затем можно открыть для просмотра в любом браузере. Проблема в том, что статья — в данном случае, расследование о плагиате со стороны ИИ-поисковика Perplexity — находилась за пэйволом, то есть доступна только подписчикам.

В ходе дальнейшего тестирования выяснилось, что аналогичным образом можно читать подзамочные публикации других СМИ, включая The New York Times, Bloomberg Businessweek, The Atlantic, Forbes, Defector и 404 Media. «Похоже, это еще один пример бесцеремонного подхода ИИ-индустрии к законодательству об интеллектуальной собственности, который стремительно подрывает существующие бизнес-модели в таких областях как журналистика и музыка», — возмущается издание.

Сервис-тёзку выдающегося представителя мрачного американского романтизма Quora запустила в декабре 2022 года. Poe — это платформа-агрегатор чат-ботов от OpenAI, Anthropic и других разработчиков, позволяющая пользователям работать с любым ИИ на выбор. Бесплатно можно отправить, в зависимости от выбранного бота, до 15 запросов в день. Для тех, кому нужно больше, существует платная подписка. В январе 2024 года Quora объявила, что получила $75 млн инвестиций от венчурного фонда Andreessen Horowitz на развитие Poe. Сооснователь Quora Адам Д’Анжело ранее был главным техническим директором в Facebook, а сейчас входит в совет директоров OpenAI. Место в нем он сохранил даже несмотря на то, что осенью прошлого года поддержал увольнение гендиректора Сэма Альтмана.

С мнением Wired согласны и эксперты. Так, по мнению профессора Джеймса Гриммельманна, специалиста по цифровому и информационному праву из Корнельского университета, такая практика выглядит как очевидное нарушение авторских прав, поскольку Quora создает копию платной статьи на своих серверах.

Ответственность за такие действия можно было бы переложить на большие языковые модели сторонних разработчиков, которые применяет Poe для обработки данных (собственных нейросетей у компании нет). Но еще один эксперимент — с личным сайтом одного из сотрудников Wired — позволил установить, что сразу после отправки запроса с ссылкой на страницу к боту Poe к сайту обращается сервер, идентифицирующий себя как «Quora Bot».

При этом файл robots.txt, в котором создатели сайтов перечисляют не подлежащие индексации автоматическими сервисами разделы ресурса, бот Quora даже не запрашивал. Следование ограничениям в robots.txt не является обязательным, однако широко распространено в интернет-отрасли — например, им подчиняются все крупные поисковики.

В некоторых СМИ уже знают о проделках ИИ от Quora. Попросивший сохранить анонимность крупный медиаменеджер подтвердил Wired, что в его издании проводили похожий эксперимент с запросами о конкретных публикациях и зафиксировали визиты игнорирующего robots.txt бота платформы. В ответ на запрос Poe выдавал большую часть или полный текст статьи.

Закрыто, но не заперто

Корреспондент ADPASS также протестировал лазейку. Выяснилось, что Poe может доставлять подзамочные статьи далеко не со всех сайтов. Например, на Wall Street Journal или Adage.com прочитать ничего не получится — чат-бот сообщает, что не имеет доступа к материалам этого СМИ. В случае с Financial Times, а также российскими «Ведомостями» и РБК, статьи для подписчиков появляются в Poe в виде HTML-файла, содержащего лишь первые пару абзацев. Правда, бот также выдает краткое содержание статьи и может отвечать на дополнительные вопросы по тексту. У нас не было возможности достоверно установить, являются ли эти ответы правильными или просто правдоподобной «галлюцинацией» нейросети. Вероятно, «украсть» статью он может только с ресурсов, где пэйвол реализован определенным (не самым надежным) способом.

На это же указала в комментарии для Wired представитель Quora Отум Бессельман: «У Poe есть функция, позволяющая пользователю показать боту содержимое страницы, но бот увидит лишь тот контент, который предоставит сайт. Мы будем рады связаться с вашей технической командой и помочь им сделать так, чтобы контент за пэйволом не показывался в Poe».

Кроме того, представитель Quora указала, что файл с HTLM-версией статьи создается в облаке по запросу пользователя — по аналогии с тем, как работают, например, сервисы отложенного чтения вроде Pocket. К ним претензий в нарушении авторских прав никогда не возникало.

Отум Бессельман подчеркнула, что компания не тренирует собственные ИИ-модели, полагаясь исключительно на сторонние разработки. В случае с ботом «Assistant by Poe» используются нейросети компании Anthropic, которые сами пока не умеют ходить по ссылкам. Но согласно ее правилам, купившие доступ к ИИ клиенты имеют право внедрять его в любые продукты и любым способом, каким пожелают. Quora судя по всему, при помощи собственного робота забирает текст и передает его нейросети Anthropic для анализа.

Судиться или договориться

Это далеко не первый случай, когда ИИ-сервисы выступают в роли врагов независимых «новых медиа» и крупных СМИ, по сути подрывая их попытки заработать на своем журналистском продукте. Самый громкий скандал такого рода касается претензий The New York Times к OpenAI и Microsoft, которые, как утверждает медиакомпания, выдавали пользователям чат-ботов ChatGPT и Copilot тексты ее статей. В иске, поданном в конце декабря 2023 года, главная либеральная газета планеты утверждает: убытки от этих действий могут достигать миллиардов долларов.

В OpenAI аргументы The New York Times назвали неубедительными. Там заявили, что для получения «доказательств» нарушений юристы издания специальным образом составляли запросы, после чего подбирали редкие случаи так называемого срыгивания — когда нейросеть случайно выдает куски данных, использованных для обучения. При этом речь якобы идет о старых статьях газеты, которые неоднократно перепечатывались на других сайтах.

Похожие претензии есть (но пока не формате иска) и к поисковику Perplexity. Он сначала использует ИИ для того, чтобы понять пользовательский запрос, ищет ответы сразу на многих сайтах, обобщает информацию при помощи нейросети, а затем выдает подробный структурированный ответ. Журналисты Wired выяснили, что Perplexity игнорирует файл robots.txt, бесцеремонно нарушая установленные владельцем ресурса ограничения на доступ к контенту. По информации Axios, Forbes в середине июня направил Perplexity письмо с требованием отказаться от незаконной практики. В выдаче поисковика Forbes нашел воспроизведенный практически дословно текст своей эксклюзивной статьи, выдававшийся за продукт ИИ, а для убедительности дополненный ссылками на другие сайты. По ссылкам оказались публикации других СМИ, ссылавшиеся на ту же статью Forbes.

Но многие СМИ предпочитают не воевать с ИИ-компаниями, а договариваться. Соглашения, позволяющие использовать их контент для обучения ИИ и показывать пересказ статей пользователя чат-ботов уже подписали с OpenAI холдинги Axel Springer, News Corp, Vox Media и испанский Prisa Media, журналы The Atlantic и Time, газеты Le Monde и Financial Times, информагентство Associated Press, онлайн-форум Reddit и другие медиакомпании. Неофициально сообщалось, что в ходе переговоров OpenAI предлагает СМИ несколько миллионов долларов в год и доступ к своим технологиям для их использования в работе редакций.

Авторы:

Николай Белый