13.12.2023, 13:00

Роскомнадзор против OpenAI: служба рекомендует заблокировать поискового бота компании

Несколько хостинг-провайдеров получили письмо от Роскомнадзора о выявлении поискового робота от компании OpenAI. Ведомство рекомендует заблокировать боту возможность просматривать сайты для «исключения сбора информации о критических уязвимостях ресурсов». В случае запрета деятельности подобных алгоритмов бизнес может прибегнуть к альтернативным методам сбора данных, например, замаскировав бота под обычного посетителя сайта, отмечают эксперты.

Что такое поисковый робот

Поисковый робот (или бот, сканер, паук, обходчик) – программа, которая автоматически обходит сайты и анализирует контент на них (например, изображения или текст). Порядок обхода сайтов и данные, которые бот собирает и анализирует, задаются его владельцами. Бот может обходить все сайты подряд или переходить по ссылкам с одного на другой. Информация, собранная ботом, далее анализируется. В случае с поисковыми ботами этот процесс называется «индексацией». Для поддержания актуальности собранной информации, боты работают постоянно – один и тот же сайт может обследоваться ботом несколько раз в день.

Самые известные боты – поисковые. Это: Googlebot, Bingbot и Yandexbot.

11 декабря Главный радиочастотный центр (ГРЧЦ, подчиняется Роскомнадзору) направил ряду хостинг-провайдеров письмо с рекомендациями по выявлению и блокировке бота GPTBot компании OpenAI. В документе, с которым ознакомился «Коммерсант», рекомендуется оценить риски сбора ботом информации об уязвимости ресурсов или «иной чувствительной информации, в том числе содержащей персональные данные». В случае выявления таких рисков ГРЧЦ рекомендует заблокировать бота и приложил инструкцию, как это сделать.

Вредоносные боты атакуют рунет

В ноябре 2023 года специализирующаяся на интернет-безопасности компания Qrator Labs отметили всплеск активности вредоносных ботов. Их атакам в первую очередь подвергались интернет-магазины в период распродаж. 40,7% атак обезличенных ботов пришлось на период с 24 по 30 ноября. Самая масштабная атака была проведена 26 ноября – тогда Qrator Labs зафиксировала 5,2 млн запросов. По данным компании, большинство запросов к российским ресурсам поступало именно от GPTBot.

GPTBot был запущен OpenAI в августе. Бот сканирует интернет-ресурсы с целью сбора информации, которая впоследствии используется для обучения нейросети. Вскоре после запуска компания подверглась критике за несанкционированный сбор данных. После этого OpenAI опубликовала руководство, как запретить или частично ограничить сбор данных ботом.

«Сам по себе GPTBot оформлен максимально корректно, он всегда «представляется», когда появляется на сети, и заявляет о соблюдении правил доступа для ботов, заданных владельцами ресурсов», отметил менеджер продукта Qrator.AntiBot в Qrator Labs Георгий Тарасов. По его словам, кроме опубликованного руководства OpenAI опубликовала список IP-адресов серверов, с которых происходят обращения GPTBot.

По мнению Георгия Тарасова, если компании будут блокировать доступ для GPTBot и других AI-поисковых ботов, то AI-компании могут прибегнуть к другим методам сбора и актуализации данных. Например, рассказал эксперт, это может быть маскировка ботов под обычных пользователей или покупка агрегированных данных у владельцев бот-ферм.

Авторы:
Артемий Шохор
Редакция ADPASS
Главное про маркетинг и рекламу
в Telegram

Вам понравится

Редакция ADPASS
18.04.2024
Редакция ADPASS
15.04.2024
Редакция ADPASS
15.04.2024
Журналистам покинуть поиск: в США Google снова не хочет платить медиакомпаниям за контент

В минувшую пятницу 12 апреля гиперссылки на новостные сайты исчезли из поисковой выдачи Google у некоторых жителей штата Калифорния. Таким способом технологический гигант пригрозил законодателям штата, которые рассматривают закон, обязывающий Google платить медиакомпаниям за ссылки на контент. Местные депутаты хотят обложить интернет-платформы ежеквартальной «платой за использование» материалов, созданных журналистами. Аналогичную инициативу рассматривают в США и на федеральном уровне. Похожие законы уже приняты в Австралии и Канаде, а в Бразилии, Индонезии и Швейцарии находятся в стадии обсуждения. В случае их принятия размер возможных компенсаций для Meta* оценивается в $1,9 млрд в год, а для Google – $10-12 млрд.

Редакция ADPASS
10.04.2024
Как создать полезный гид
для предпринимателей?