ИИ-чатбот популярного сервиса вопросов и ответов Quora по имени Poe (читается как По, расшифровывается как Platform for Open Exploration — «Платформа для открытых исследований») попался на воровстве контента СМИ, предназначенного только для подписчиков. Пользователю достаточно ввести адрес статьи, и сервис пришлет ему файл с точной копией оригинальной страницы. Хотя эксперты оценивают такую практику как очевидное нарушение закона, в Quora настаивают: ни один закон не был нарушен.
ClosedAI: чем ответил создатель ChatGPT на иск The New York Times
Создатель ChatGPT сформулировал язвительный ответ на иск The New York Times. OpenAI вроде бы задабривает мастеров пера и клавиатуры и призывает к взаимовыгодному сотрудничеству, но при этом прозрачно намекает на возможность оказаться на обочине истории. ADPASS с интересом прочитал этот документ эпохи и узнал, почем сейчас идут гигабайты журналистского творчества.
The New York Times vs OpenAI
Торг за контент между журналистами и программистами в самом разгаре. OpenAI ответил манифестом на предновогодний иск к себе и Microsoft газеты The New York Times.
Прежде всего стартап OpenAI перечислил свои выдающиеся достижения, которые помогают людям «улучшать качество жизни», бизнесу («нами уже пользуется 92% компаний списка Fortune 500») зарабатывать больше денег, а США быть конкурентноспособным государством.
Газетчиков он обвинил в подтасовке фактов и утаивании информации и злорадно сообщил, что их лучшие времена — лет 60 назад, когда The New York Times рассказала о первой работающей нейронной сети, — давно прошли. «Эксклюзивная информация», над которой те трясутся, не играет существенной роли в big data, на которой обучается ChatGPT.
Что касается ее срыгиваний (сливов) и запоминания машиной — это редкая редкость, с которой OpenAI ответственно борется. Приведенные The New York Times примеры недобросовестного обращения с их контентом стартап назвал манипуляциями:
«Интересно, что срыгивания, вызванные The New York Times, похоже, происходят из статей многолетней давности, которые распространились на многочисленных сторонних сайтах. Кажется, они намеренно манипулировали подсказками, часто включая длинные выдержки из статей, чтобы заставить нашу модель срыгивать. Даже при использовании таких подсказок наши модели обычно не ведут себя так, как намекает The New York Times, что позволяет предположить, что они либо давали модели срыгивать, либо отбирали примеры из множества попыток».
OpenAI дает журналистам шанс, в том числе выхода на новую аудиторию и технологию, а тем, кто не хочет перестраиваться, — кнопку отказа от использования парсера OpenAI (The New York Times и Vox Media уже заблокировали доступ к данным веб-сканеру GPT OpenAI).
«Хороших журналистов» (коллаборантов, принявших его условия) и затесавшийся среди них Нью-Йоркский университет он перечисляет поименно: Associated Press, American Journalism Project и немецкий Axel Springer.
«Мы надеемся на продолжение сотрудничества с новостными организациями, которое поможет повысить их способность создавать качественную журналистику за счет реализации преобразующего потенциала ИИ», — обольщает OpenAI журналистов в своем заявлении по поводу иска The New York Times.
Но как видно из списка, крупнейшие мировые медиахолдинги и издательства пока не являются его клиентами. Суд, устроенный газетой №1, решит и определит многое, в том числе размер отчислений в кассы СМИ. Пока же, судя по информации The Information, они очень скромные.
Сколько технологические компании готовы платить за журналистские материалы
Сообщается, что OpenAI дает $1-5 млн в год за лицензию на новостные статьи, защищенные авторским правом, для обучения своих моделей ИИ. Эта вилка — один из показателей того, сколько технокомпании планируют платить за лицензионный материал.
Цифры того же порядка ранее фигурировали в лицензионных соглашениях, не связанных с ИИ. Когда Meta* запустила вкладку «Новости Facebook» (которая уже давно закрыта в Европе), она якобы предлагала до $3 млн в год за лицензию на новостные статьи, заголовки и превью.
Apple, прозевавший ИИ-революцию, готов платить больше, лишь бы наверстать упущенное. Недавно стало известно, что он ищет партнерства с медиакомпаниями и предлагает за использование их контента его нейросетями не менее $50 млн в течение нескольких лет.
Самую высокую планку по выплатам задал Google, заявивший в 2020 году, что инвестирует в общей сложности миллиард долларов в партнерства с новостными организациями. Под давлением нового закона компания недавно согласился выделять канадским паблишерам в общей сложности $100 млн ежегодно в обмен на ссылки на их статьи.
На чем и как обучаются языковые модели
Современные большие языковые модели в основном обучались на информации из интернета. Их создатели не раскрывают источники, но они видны по тому, какие наборы данных или веб-сканеры использовались.
Цены зависят от поставщика, размера набора и его содержимого. Некоторые поставщики, вроде LAION, имеют открытый исходный код, совершенно бесплатны и используются такими моделями, как Stable Diffusion. Разработчики ИИ часто сами создают веб-сканеры, которые считывают информацию для их моделей.
Но по-прежнему им приходится нанимать людей для проверки, маркировки, а иногда и очистки данных обучения, что значительно увеличивает эксплуатационные расходы.
* признана экстремистской организацией и запрещена в РФ
Лучшее в блогах
Вам понравится
Стартап Character.ai, основным инвестором которого является крупнейший в мире по активам ($42 млрд) венчурный фонд Andreessen Horowitz (a16z), объявил о запуске новой функции: теперь с созданными в нем ИИ-персонажами можно поговорить в формате телефонного звонка, в том числе и по-русски. ADPASS снова протестировал приложение и убедился, что в последней версии пометку «бета» к функции голосового общения добавили не зря. Тем не менее такой возможности пока не предлагает ни один из ведущих игроков: так, OpenAI недавно отложила запуск голосового ассистента на базе своей большой языковой модели GPT-4 до осени.
Команда агентства ICONICOLOR показала концепты торгового оборудования, созданные с использованием нейросетей. Концепты представляют собой технологически продвинутые решения, где присутствует инновационный дизайн, возможность комплексно представить клиентам всю линейку продукции и повысить эффективность взаимодействия с покупателями.
На звонок в банк или магазин людям все чаще отвечают боты, говорящие нейросетевые программы. Американская компания Genesia, оказывающая услуги облачных колл-центров, опросила покупателей на предмет их отношения к такому сервису. Самым главным преимуществом, по мнению респондентов, стала экономия времени: боты отвечают быстро и готовы болтать хоть круглые сутки. Но абсолютного доверия между ИИ и человеком нет: потребители боятся сообщать ботам свои персональные данные, а большинство считает, что бот должен знать свое место и не быть человечным.
ПОДПИСКА
ВАШ ЗАПРОС ДОСТАВЛЕН
О блогах ADPASS: правила, рекомендации, ответы на вопросы