С мнением Wired согласны и эксперты. Так, по мнению профессора Джеймса Гриммельманна, специалиста по цифровому и информационному праву из Корнельского университета, такая практика выглядит как очевидное нарушение авторских прав, поскольку Quora создает копию платной статьи на своих серверах.
Ответственность за такие действия можно было бы переложить на большие языковые модели сторонних разработчиков, которые применяет Poe для обработки данных (собственных нейросетей у компании нет). Но еще один эксперимент — с личным сайтом одного из сотрудников Wired — позволил установить, что сразу после отправки запроса с ссылкой на страницу к боту Poe к сайту обращается сервер, идентифицирующий себя как «Quora Bot».
При этом файл robots.txt, в котором создатели сайтов перечисляют не подлежащие индексации автоматическими сервисами разделы ресурса, бот Quora даже не запрашивал. Следование ограничениям в robots.txt не является обязательным, однако широко распространено в интернет-отрасли — например, им подчиняются все крупные поисковики.
В некоторых СМИ уже знают о проделках ИИ от Quora. Попросивший сохранить анонимность крупный медиаменеджер подтвердил Wired, что в его издании проводили похожий эксперимент с запросами о конкретных публикациях и зафиксировали визиты игнорирующего robots.txt бота платформы. В ответ на запрос Poe выдавал большую часть или полный текст статьи.
Корреспондент ADPASS также протестировал лазейку. Выяснилось, что Poe может доставлять подзамочные статьи далеко не со всех сайтов. Например, на Wall Street Journal или Adage.com прочитать ничего не получится — чат-бот сообщает, что не имеет доступа к материалам этого СМИ. В случае с Financial Times, а также российскими «Ведомостями» и РБК, статьи для подписчиков появляются в Poe в виде HTML-файла, содержащего лишь первые пару абзацев. Правда, бот также выдает краткое содержание статьи и может отвечать на дополнительные вопросы по тексту. У нас не было возможности достоверно установить, являются ли эти ответы правильными или просто правдоподобной «галлюцинацией» нейросети. Вероятно, «украсть» статью он может только с ресурсов, где пэйвол реализован определенным (не самым надежным) способом.
На это же указала в комментарии для Wired представитель Quora Отум Бессельман: «У Poe есть функция, позволяющая пользователю показать боту содержимое страницы, но бот увидит лишь тот контент, который предоставит сайт. Мы будем рады связаться с вашей технической командой и помочь им сделать так, чтобы контент за пэйволом не показывался в Poe».
Кроме того, представитель Quora указала, что файл с HTLM-версией статьи создается в облаке по запросу пользователя — по аналогии с тем, как работают, например, сервисы отложенного чтения вроде Pocket. К ним претензий в нарушении авторских прав никогда не возникало.
Отум Бессельман подчеркнула, что компания не тренирует собственные ИИ-модели, полагаясь исключительно на сторонние разработки. В случае с ботом «Assistant by Poe» используются нейросети компании Anthropic, которые сами пока не умеют ходить по ссылкам. Но согласно ее правилам, купившие доступ к ИИ клиенты имеют право внедрять его в любые продукты и любым способом, каким пожелают. Quora судя по всему, при помощи собственного робота забирает текст и передает его нейросети Anthropic для анализа.
Это далеко не первый случай, когда ИИ-сервисы выступают в роли врагов независимых «новых медиа» и крупных СМИ, по сути подрывая их попытки заработать на своем журналистском продукте. Самый громкий скандал такого рода касается претензий The New York Times к OpenAI и Microsoft, которые, как утверждает медиакомпания, выдавали пользователям чат-ботов ChatGPT и Copilot тексты ее статей. В иске, поданном в конце декабря 2023 года, главная либеральная газета планеты утверждает: убытки от этих действий могут достигать миллиардов долларов.
В OpenAI аргументы The New York Times назвали неубедительными. Там заявили, что для получения «доказательств» нарушений юристы издания специальным образом составляли запросы, после чего подбирали редкие случаи так называемого срыгивания — когда нейросеть случайно выдает куски данных, использованных для обучения. При этом речь якобы идет о старых статьях газеты, которые неоднократно перепечатывались на других сайтах.
Похожие претензии есть (но пока не формате иска) и к поисковику Perplexity. Он сначала использует ИИ для того, чтобы понять пользовательский запрос, ищет ответы сразу на многих сайтах, обобщает информацию при помощи нейросети, а затем выдает подробный структурированный ответ. Журналисты Wired выяснили, что Perplexity игнорирует файл robots.txt, бесцеремонно нарушая установленные владельцем ресурса ограничения на доступ к контенту. По информации Axios, Forbes в середине июня направил Perplexity письмо с требованием отказаться от незаконной практики. В выдаче поисковика Forbes нашел воспроизведенный практически дословно текст своей эксклюзивной статьи, выдававшийся за продукт ИИ, а для убедительности дополненный ссылками на другие сайты. По ссылкам оказались публикации других СМИ, ссылавшиеся на ту же статью Forbes.
Но многие СМИ предпочитают не воевать с ИИ-компаниями, а договариваться. Соглашения, позволяющие использовать их контент для обучения ИИ и показывать пересказ статей пользователя чат-ботов уже подписали с OpenAI холдинги Axel Springer, News Corp, Vox Media и испанский Prisa Media, журналы The Atlantic и Time, газеты Le Monde и Financial Times, информагентство Associated Press, онлайн-форум Reddit и другие медиакомпании. Неофициально сообщалось, что в ходе переговоров OpenAI предлагает СМИ несколько миллионов долларов в год и доступ к своим технологиям для их использования в работе редакций.