ClosedAI: чем ответил создатель ChatGPT на иск The New York Times

Создатель ChatGPT сформулировал язвительный ответ на иск The New York Times. OpenAI вроде бы задабривает мастеров пера и клавиатуры и призывает к взаимовыгодному сотрудничеству, но при этом прозрачно намекает на возможность оказаться на обочине истории. ADPASS с интересом прочитал этот документ эпохи и узнал, почем сейчас идут гигабайты журналистского творчества.

The New York Times vs OpenAI

Торг за контент между журналистами и программистами в самом разгаре. OpenAI ответил манифестом на предновогодний иск к себе и Microsoft газеты The New York Times.

Прежде всего стартап OpenAI перечислил свои выдающиеся достижения, которые помогают людям «улучшать качество жизни», бизнесу («нами уже пользуется 92% компаний списка Fortune 500») зарабатывать больше денег, а США быть конкурентноспособным государством.

Газетчиков он обвинил в подтасовке фактов и утаивании информации и злорадно сообщил, что их лучшие времена — лет 60 назад, когда The New York Times рассказала о первой работающей нейронной сети, — давно прошли. «Эксклюзивная информация», над которой те трясутся, не играет существенной роли в big data, на которой обучается ChatGPT.

Что касается ее срыгиваний (сливов) и запоминания машиной — это редкая редкость, с которой OpenAI ответственно борется. Приведенные The New York Times примеры недобросовестного обращения с их контентом стартап назвал манипуляциями:

«Интересно, что срыгивания, вызванные The New York Times, похоже, происходят из статей многолетней давности, которые распространились на многочисленных сторонних сайтах. Кажется, они намеренно манипулировали подсказками, часто включая длинные выдержки из статей, чтобы заставить нашу модель срыгивать. Даже при использовании таких подсказок наши модели обычно не ведут себя так, как намекает The New York Times, что позволяет предположить, что они либо давали модели срыгивать, либо отбирали примеры из множества попыток».

OpenAI дает журналистам шанс, в том числе выхода на новую аудиторию и технологию, а тем, кто не хочет перестраиваться, — кнопку отказа от использования парсера OpenAI (The New York Times и Vox Media уже заблокировали доступ к данным веб-сканеру GPT OpenAI).

«Хороших журналистов» (коллаборантов, принявших его условия) и затесавшийся среди них Нью-Йоркский университет он перечисляет поименно: Associated Press, American Journalism Project и немецкий Axel Springer.

«Мы надеемся на продолжение сотрудничества с новостными организациями, которое поможет повысить их способность создавать качественную журналистику за счет реализации преобразующего потенциала ИИ», — обольщает OpenAI журналистов в своем заявлении по поводу иска The New York Times.

Но как видно из списка, крупнейшие мировые медиахолдинги и издательства пока не являются его клиентами. Суд, устроенный газетой №1, решит и определит многое, в том числе размер отчислений в кассы СМИ. Пока же, судя по информации The Information, они очень скромные.

Сколько технологические компании готовы платить за журналистские материалы

Сообщается, что OpenAI дает $1-5 млн в год за лицензию на новостные статьи, защищенные авторским правом, для обучения своих моделей ИИ. Эта вилка — один из показателей того, сколько технокомпании планируют платить за лицензионный материал.

Цифры того же порядка ранее фигурировали в лицензионных соглашениях, не связанных с ИИ. Когда Meta* запустила вкладку «Новости Facebook» (которая уже давно закрыта в Европе), она якобы предлагала до $3 млн в год за лицензию на новостные статьи, заголовки и превью.

Apple, прозевавший ИИ-революцию, готов платить больше, лишь бы наверстать упущенное. Недавно стало известно, что он ищет партнерства с медиакомпаниями и предлагает за использование их контента его нейросетями не менее $50 млн в течение нескольких лет.

Самую высокую планку по выплатам задал Google, заявивший в 2020 году, что инвестирует в общей сложности миллиард долларов в партнерства с новостными организациями. Под давлением нового закона компания недавно согласился выделять канадским паблишерам в общей сложности $100 млн ежегодно в обмен на ссылки на их статьи.

На чем и как обучаются языковые модели

Современные большие языковые модели в основном обучались на информации из интернета. Их создатели не раскрывают источники, но они видны по тому, какие наборы данных или веб-сканеры использовались.

Цены зависят от поставщика, размера набора и его содержимого. Некоторые поставщики, вроде LAION, имеют открытый исходный код, совершенно бесплатны и используются такими моделями, как Stable Diffusion. Разработчики ИИ часто сами создают веб-сканеры, которые считывают информацию для их моделей.

Но по-прежнему им приходится нанимать людей для проверки, маркировки, а иногда и очистки данных обучения, что значительно увеличивает эксплуатационные расходы.

* признана экстремистской организацией и запрещена в РФ

Авторы:

Юля Троцкая