Роскомнадзор против OpenAI: служба рекомендует заблокировать поискового бота компании

Несколько хостинг-провайдеров получили письмо от Роскомнадзора о выявлении поискового робота от компании OpenAI. Ведомство рекомендует заблокировать боту возможность просматривать сайты для «исключения сбора информации о критических уязвимостях ресурсов». В случае запрета деятельности подобных алгоритмов бизнес может прибегнуть к альтернативным методам сбора данных, например, замаскировав бота под обычного посетителя сайта, отмечают эксперты.

Что такое поисковый робот

Поисковый робот (или бот, сканер, паук, обходчик) – программа, которая автоматически обходит сайты и анализирует контент на них (например, изображения или текст). Порядок обхода сайтов и данные, которые бот собирает и анализирует, задаются его владельцами. Бот может обходить все сайты подряд или переходить по ссылкам с одного на другой. Информация, собранная ботом, далее анализируется. В случае с поисковыми ботами этот процесс называется «индексацией». Для поддержания актуальности собранной информации, боты работают постоянно – один и тот же сайт может обследоваться ботом несколько раз в день.

Самые известные боты – поисковые. Это: Googlebot, Bingbot и Yandexbot.

11 декабря Главный радиочастотный центр (ГРЧЦ, подчиняется Роскомнадзору) направил ряду хостинг-провайдеров письмо с рекомендациями по выявлению и блокировке бота GPTBot компании OpenAI. В документе, с которым ознакомился «Коммерсант», рекомендуется оценить риски сбора ботом информации об уязвимости ресурсов или «иной чувствительной информации, в том числе содержащей персональные данные». В случае выявления таких рисков ГРЧЦ рекомендует заблокировать бота и приложил инструкцию, как это сделать.

Вредоносные боты атакуют рунет

В ноябре 2023 года специализирующаяся на интернет-безопасности компания Qrator Labs отметили всплеск активности вредоносных ботов. Их атакам в первую очередь подвергались интернет-магазины в период распродаж. 40,7% атак обезличенных ботов пришлось на период с 24 по 30 ноября. Самая масштабная атака была проведена 26 ноября – тогда Qrator Labs зафиксировала 5,2 млн запросов. По данным компании, большинство запросов к российским ресурсам поступало именно от GPTBot.

GPTBot был запущен OpenAI в августе. Бот сканирует интернет-ресурсы с целью сбора информации, которая впоследствии используется для обучения нейросети. Вскоре после запуска компания подверглась критике за несанкционированный сбор данных. После этого OpenAI опубликовала руководство, как запретить или частично ограничить сбор данных ботом.

«Сам по себе GPTBot оформлен максимально корректно, он всегда «представляется», когда появляется на сети, и заявляет о соблюдении правил доступа для ботов, заданных владельцами ресурсов», отметил менеджер продукта Qrator.AntiBot в Qrator Labs Георгий Тарасов. По его словам, кроме опубликованного руководства OpenAI опубликовала список IP-адресов серверов, с которых происходят обращения GPTBot.

По мнению Георгия Тарасова, если компании будут блокировать доступ для GPTBot и других AI-поисковых ботов, то AI-компании могут прибегнуть к другим методам сбора и актуализации данных. Например, рассказал эксперт, это может быть маскировка ботов под обычных пользователей или покупка агрегированных данных у владельцев бот-ферм.

Авторы:

Артемий Шохор