Пользователи заждались обновлений ведущих разработчиков искусственного интеллекта — OpenAI (ChatGPT) и конкурирующей с ней Google. Последнюю номерную версию большой языковой модели GPT-4 OpenAI выпустила в марте 2023 года — полтора года назад. Google представила нейросеть Gemini 1.0 в декабре 2023-го и также пока не выпустила версию 2.0. Когда станут доступны новинки, и оправдают ли они ожидания разработчиков и пользователей, выяснял ADPASS.
ИИ овладел компьютером на человеческом уровне
Искусственный интеллект (ИИ) делает шаг от генерации текста и изображений в сторону выполнения задач, на которые многие тратят ежедневно куда большую часть своего времени — задач, связанных с рутинной работой на компьютере. Принципиально новую для ИИ-моделей способность универсального управления любыми приложениями на ПК первым реализовал «номер два» отрасли, компания Anthropic, многие из руководителей которой ранее работали в компании-лидере, OpenAI. Какие перспективы обещает и какими рисками грозит новая разработка, выяснил ADPASS.
Начинающий пользователь ПК
Такой навык теперь может вписать в свое резюме обновленная накануне ИИ-модель Claude 3.5 американской компании Anthropic. О планах создать «алгоритм нового поколения для самообучения ИИ», позволяющий находить в интернете данные, отвечать на электронные письма и решать самостоятельно другие задачи бэк-офиса Anthropic рассказала инвесторам еще весной, пишет TechCrunch. Прогноз компании о том, что такая технология сможет однажды автоматизировать значительную часть повседневной офисной работы начинает сбываться.
Во вторник Anthropic выпустила обновленную версию своей модели Claude 3.5 Sonnet, которая может взаимодействовать с любым приложением на рабочем столе. С помощью нового API под названием «Computer Use» («Использование компьютера»), находящегося в стадии бета-версии и доступного для теста всеми желающими, модель может для выполнения поставленной задачи (например, бронирования отеля) имитировать нажатия на клавиши клавиатуры, передвигать курсор мыши и кликать по кнопкам, по сути, выполняя действия человека за компьютером.
Получив от пользователя инструкцию взять на себя управление определенной программой или сайтом, а также права доступа, Claude анализирует скриншоты экрана с видимыми элементами управления, а затем подсчитывает, на сколько пикселей по вертикали или горизонтали нужно переместить курсор, чтобы затем нажать в нужное место, выполняя команду или вводя информацию.
Как обратил внимание в соцсети X ИИ-разработчик с ником @kache, подобные решения могут, помимо повышения производительности, полностью преобразить жизнь людей с ограниченными возможностями, сейчас испытывающих затруднения с использованием компьютера.
Универсальный агент
Идея создания инструментов, автоматизирующих выполнение на ПК повседневных задач, далеко не нова — соответствующие мини-программы (скрипты) продвинутые пользователи создают с момента появления первых массовых операционных систем. После взрыва интереса к ИИ многие компании начали разработку так называемых «ИИ-агентов» — программ-помощников, берущих на себя рутину по управлению программным обеспечением. Однако именно Anthropic с обновленной моделью Claude 3.5 первой замахнулась на создание универсального инструмента такого рода.
«Вместо разработки специализированных инструментов для отдельных задач мы обучаем Claude базовым компьютерным навыкам, позволяя ему естественным образом использовать те же повседневные программы и инструменты, которые используют люди», — пояснил в соцсети X, ранее известной как Twitter, глава пресс-службы Anthropic Алекс Альберт. Он назвал это «фундаментально новой способностью» для моделей ИИ.
Anthropic называет свой вариант ИИ-агента «слоем исполнения действий», который позволяет нейросети выполнять любые команды на уровне рабочего стола компьютера. Кроме того, с обновлением Claude 3.5 Sonnet у моделей Anthropic впервые появляется уже освоенная большинством конкурентов способность по команде в реальном времени заходить на сайты за актуальной информацией.
Представитель Anthropic сообщил TechCrunch, что человек остается у руля, давая конкретные инструкции — например, прося использовать данные с компьютера или из интернета для заполнения формы. Люди также могут по мере необходимости включать и отключать доступ ИИ к своим данным. Claude преобразует пользовательские запросы в компьютерные команды, такие как перемещение курсора, клики и набор текста, чтобы выполнить поставленную задачу.
По мнению аналитиков, ИИ-агенты могут дать бизнесу еще один способ получить отдачу от миллиардов долларов, вкладываемых в последние годы в ИИ. Компании не против: согласно недавнему опросу Capgemini, на который ссылается TechCrunch, 10% организаций уже используют ИИ-агентов, а 82% планируют интегрировать их в течение следующих трех лет.
Некоторые компании уже используют или планируют использовать новую способность Claude. Платформа для разработки ПО Replit попробовала раннюю версию новой модели Anthropic в качестве «автономного тестировщика», ищущего ошибки в приложениях на этапе их создания. А Canva, предлагающая популярный редактор изображений для сайтов и соцсетей, рассматривает новую модель в качестве помощника для создания и редактирования проектов.
Бестолковый и уязвимый
Разработчики решили выпустить в открытый доступ пока еще весьма неопытного «агента» — в том числе для того, чтобы он быстрее учился на собственных ошибках. Anthropic не скрывает, что при попытке внести изменения в бронирование авиабилета новая версия 3.5 Sonnet смогла успешно выполнить менее половины задач. В другом тесте, где нужно было оформить возврат в интернет-магазине, 3.5 Sonnet потерпела неудачу примерно в трети случаев.
В компании признают, что улучшенная версия 3.5 Sonnet пока испытывает трудности с базовыми действиями вроде прокрутки и увеличения масштаба. Также она может не заметить появляющиеся на экране на несколько секунд уведомления или подсказки от интерфейса программы из-за того, как она делает и обрабатывает скриншоты. Однако Anthropic надеется, что массовое бета-тестирование позволит модели быстро прокачать свои навыки.
«Использование компьютера с помощью Claude по-прежнему медленно и часто сопровождается ошибками, — пишет Anthropic в своем блоге. — Мы рекомендуем разработчикам начинать с низкорисковых задач».
А риски могут оказаться довольно серьезными. Недавнее исследование ученых из Университета Карнеги — Меллона и Оксфорда показало: даже не имеющие доступа к настольным приложениям ИИ-модели в случае успешного «джейлбрейка» (обхода злоумышленниками встроенных ограничений) способны совершать по команде пользователя уголовно наказуемые деяния вроде заказа фальшивого паспорта в даркнете.
Легко представить, насколько опаснее может оказаться модель с доступом к настольным приложениям — например, используя уязвимости в ПО для компрометации личной информации или вывода системы из строя. Дополнительные возможности для злоумышленников дает и доступ модели в интернет. Но в Anthropic считают, что лучше начать отслеживать возможные риски и разрабатывать контрмеры как можно раньше — пока модель не стала умнее, набравшись опыта.
Лучшее в блогах
Вам понравится
Поисковая система на основе нейросетей Perplexity ведет переговоры с инвесторами, надеясь увеличить свою рыночную оценку с $3 млрд до $8 млрд. Это позволит компании стать пятым крупнейшим в мире разработчиком генеративного искусственного интеллекта. Ранее об амбициях стать вторым в этом списке сообщал разработчик чат-бота Claude, компания Anthropic, которая в ходе допфинансирования надеется увеличить свою рыночную оценку до $30-40 млрд.
За все время существования интернета популярность доменных зон, казалось бы, не претерпевает изменений. Самой популярной остается открытая в 1985 году .com, на которой висят 44% всех сайтов в интернете. Второе место удерживает .org (4,2%). Однако их популярность гаснет, а самыми быстрорастущими сейчас являются .xyz, .app и .ai. Популярность последней принесла в бюджет карибского острова Ангилья в прошлом году $32 млн. Инвесторам, которые скупают домены в этой зоне, она может принести еще больше. ADPASS разбирается, сколько стоят домены в популярных зонах и кому стоит открывать на них сайты.
Многие в индустрии СМИ до сих пор не верят, что технологии искусственного интеллекта (ИИ) способны принести пользу внедряющим их изданиям. Однако все больше кейсов говорят об обратном: в ряде медиа ИИ помогает не только оптимизировать и ускорить создание редакционного контента, но и монетизировать его более эффективно. Как издание Business Insider наращивает при помощи ИИ число платных подписчиков, а британские СМИ переупаковывают существующий контент и создают новый — в материале ADPASS.