Чат-боты на службе пиратов: как новостные фермы используют достижения ИИ

Контент-фермы или новостные агрегаторы, смысл которых — генерация и торговля трафиком, а метод — паразитирование на материалах настоящих СМИ, гораздо быстрее, чем медиаиндустрия, освоили инструменты искусственного интеллекта. Новостные трафикогенераторы поставили на поток контент производства чат-ботов.

Об исследовании NewsGuard

Bloomberg ознакомился с отчетом новостной рейтинговой группы NewsGuard, которая проводила проверку контента на предмет плагиата. Исследователей интересовала вторичная новостная информация, маскирующаяся под оригинал и созданная при помощи ИИ. Мониторинг показал, что десятки сайтов уже используют чат-ботов для копирования и перепрофилирования статей ведущих изданий. Это исследование дает представление о том, как инструменты искусственного интеллекта перевернут индустрию онлайн-новостей и добьют бизнес медиакомпаний.

Как агрегаторы контента используют чат-боты

Агрегаторы контента, копирующие и публикующие информацию без ссылок на первоисточник, появились еще на заре интернета. Исследователей интересовали те из паразитов, что маскируют плагиат при помощи чат-ботов.

Согласно отчету, 37 сайтов опубликовали статьи, содержащие текст, фотографии и цитаты, идентичные заметкам, ранее опубликованным New York Times, Reuters и CNN. Это были контент-фермы, пылесосящие свежий виральный контент со всего рынка СМИ, особенно из рубрик «Стиль жизни» с названиями вроде DailyHeadliner.com и TalkGlitz.com. Задача таких «изданий» — собирать поисковый трафик. В таких материалах не упоминались ни издания, ни авторы оригинальной публикации. И, что важно для исследования, их обрабатывал ИИ.

СМИ и Голливуд против ИИ

Упреки медиа в адрес технологических компаний в связи с неконтролируемым использованием контента в машинном обучении множатся. ADPASS писал о том, что издатели готовы судиться с айтишниками, которые, по их мнению, крадут их интеллектуальную собственность. New York Times, Dow Jones и другие столпы журналистики рассматривают возможность исков против создателя ChatGPT OpenAI по поводу того, что их материалы включаются в данные обучения. В судах уже находятся иски ряда авторов к ИТ-компаниям в связи с нарушением авторских прав искусственным интеллектом.

Одно из главных требований бастующих голливудских сценаристов и актеров — ограничение использования ИИ в создании фильмов, которое лишает их работы.

Контент-фермы не заметают следы воровства и присутствия ИИ

Сайты из отчета NewsGuard нигде не упомянули, использовали ли они нейросети, такие как ChatGPT или Google Bard, которые могут генерировать осмысленный текст в ответ на короткую письменную подсказку. Google запрещает использование своего генеративного ИИ для создания и распространения «контента, предназначенного для дезинформации, искажения или введения в заблуждение», в том числе путем представления контента, сгенерированного ИИ, так, как если бы он был создан человеком, или как оригинальный, «с целью обмана». OpenAI тоже вроде бы запрещает плагиатить при помощи ChatGPT.

Фермы практически не следят за публикацией своих «продуктов» и оставляют в таких текстах много следов плагиата.

По ним NewsGuard и обнаружил присутствие искусственного интеллекта. Например, в 17 статьях, опубликованных за последние шесть месяцев на сайте GlobalVillageSpace.com, редакторы или копирайтеры не подтерли стандартные фразы чат-ботов и сообщения об ошибках ИИ. В одном материале сайта использовались те же изображения и цитаты, что и в майской статье New York Times о таланте профессионального футболиста Даррена Уоллера как музыканта.

Заканчивалась перепечатка статьи NYT так: «Как языковая модель искусственного интеллекта, я не могу гарантировать точность этой статьи, поскольку она была написана не мной. Однако я изо всех сил старался переписать статью, чтобы сделать ее удобной для Google».

GlobalVillageSpace.com убрал это после того, как с ним связался NewsGuard, но у исследователей остался снимок экрана первоначального текста, который также можно найти в кэше поисковых систем. NewsGuard сообщила о найденных нарушениях New York Times и другим издателям, чей контент был незаконно перепечатан на 37 обследованных ресурсах.

«Я думаю, что мы будем видеть все больше подобных явлений, пока инструменты обнаружения не станут лучше, пока новостные агентства не начнут осознавать, что это проблема, и пока другие посреднические источники не начнут бороться с этим», — сказал соавтор отчета Джек Брюстер из NewsGuard.

Google отрицает связи с новостными трафикогенераторами

NewsGuard ранее отчитался об обнаружении десятков пиратских новостных сайтов, контент в которых обрабатывается чат-ботами. Их становится все больше, многие из них появились в этом году, поскольку текстовые инструменты на основе ИИ стали доступными.

Материально заинтересованным в таком бизнесе кроме самих контент-ферм может быть и крупнейший поисковик в мире, чьим трафиком они кормятся и одновременно подкармливают.

Но Google регулярно эти предположения отрицает. В мае представитель Google Майкл Асиман, отвечая на вопрос о том, нарушают ли такие сайты рекламную политику корпорации, заявил, что компания не разрешает показывать рекламу рядом с вредоносным контентом, спамом или материалами, скопированными с других сайтов, напоминает Bloomberg.

Авторы:

Юлия Троцкая