23.10.2024, 15:04

ИИ овладел компьютером на человеческом уровне

Искусственный интеллект (ИИ) делает шаг от генерации текста и изображений в сторону выполнения задач, на которые многие тратят ежедневно куда большую часть своего времени — задач, связанных с рутинной работой на компьютере. Принципиально новую для ИИ-моделей способность универсального управления любыми приложениями на ПК первым реализовал «номер два» отрасли, компания Anthropic, многие из руководителей которой ранее работали в компании-лидере, OpenAI. Какие перспективы обещает и какими рисками грозит новая разработка, выяснил ADPASS.

© Anthropic

Искусственный интеллект (ИИ) делает шаг от генерации текста и изображений в сторону выполнения задач, на которые многие тратят ежедневно куда большую часть своего времени — задач, связанных с рутинной работой на компьютере. Принципиально новую для ИИ-моделей способность универсального управления любыми приложениями на ПК первым реализовал «номер два» отрасли, компания Anthropic, многие из руководителей которой ранее работали в компании-лидере, OpenAI. Какие перспективы обещает и какими рисками грозит новая разработка, выяснил ADPASS.

Начинающий пользователь ПК

Такой навык теперь может вписать в свое резюме обновленная накануне ИИ-модель Claude 3.5 американской компании Anthropic. О планах создать «алгоритм нового поколения для самообучения ИИ», позволяющий находить в интернете данные, отвечать на электронные письма и решать самостоятельно другие задачи бэк-офиса Anthropic рассказала инвесторам еще весной, пишет TechCrunch. Прогноз компании о том, что такая технология сможет однажды автоматизировать значительную часть повседневной офисной работы начинает сбываться.

Во вторник Anthropic выпустила обновленную версию своей модели Claude 3.5 Sonnet, которая может взаимодействовать с любым приложением на рабочем столе. С помощью нового API под названием «Computer Use» («Использование компьютера»), находящегося в стадии бета-версии и доступного для теста всеми желающими, модель может для выполнения поставленной задачи (например, бронирования отеля) имитировать нажатия на клавиши клавиатуры, передвигать курсор мыши и кликать по кнопкам, по сути, выполняя действия человека за компьютером.

«Теперь позвольте мне выбрать страну, сделав скриншот выпадающего меню со списком стран», — пишет нейросеть пользователю в процессе заполнения формы на сайте. © Anthropic

Получив от пользователя инструкцию взять на себя управление определенной программой или сайтом, а также права доступа, Claude анализирует скриншоты экрана с видимыми элементами управления, а затем подсчитывает, на сколько пикселей по вертикали или горизонтали нужно переместить курсор, чтобы затем нажать в нужное место, выполняя команду или вводя информацию.

Как обратил внимание в соцсети X ИИ-разработчик с ником @kache, подобные решения могут, помимо повышения производительности, полностью преобразить жизнь людей с ограниченными возможностями, сейчас испытывающих затруднения с использованием компьютера.

Универсальный агент

Идея создания инструментов, автоматизирующих выполнение на ПК повседневных задач, далеко не нова — соответствующие мини-программы (скрипты) продвинутые пользователи создают с момента появления первых массовых операционных систем. После взрыва интереса к ИИ многие компании начали разработку так называемых «ИИ-агентов» — программ-помощников, берущих на себя рутину по управлению программным обеспечением. Однако именно Anthropic с обновленной моделью Claude 3.5 первой замахнулась на создание универсального инструмента такого рода.

Anthropic называет свой вариант ИИ-агента «слоем исполнения действий», который позволяет нейросети выполнять любые команды на уровне рабочего стола компьютера. Кроме того, с обновлением Claude 3.5 Sonnet у моделей Anthropic впервые появляется уже освоенная большинством конкурентов способность по команде в реальном времени заходить на сайты за актуальной информацией.

Представитель Anthropic сообщил TechCrunch, что человек остается у руля, давая конкретные инструкции — например, прося использовать данные с компьютера или из интернета для заполнения формы. Люди также могут по мере необходимости включать и отключать доступ ИИ к своим данным. Claude преобразует пользовательские запросы в компьютерные команды, такие как перемещение курсора, клики и набор текста, чтобы выполнить поставленную задачу.

Помимо способности управлять ПК обновленная Sonnet 3.5 показывает более высокие результаты в тестах. © Anthropic

По мнению аналитиков, ИИ-агенты могут дать бизнесу еще один способ получить отдачу от миллиардов долларов, вкладываемых в последние годы в ИИ. Компании не против: согласно недавнему опросу Capgemini, на который ссылается TechCrunch, 10% организаций уже используют ИИ-агентов, а 82% планируют интегрировать их в течение следующих трех лет.

Некоторые компании уже используют или планируют использовать новую способность Claude. Платформа для разработки ПО Replit попробовала раннюю версию новой модели Anthropic в качестве «автономного тестировщика», ищущего ошибки в приложениях на этапе их создания. А Canva, предлагающая популярный редактор изображений для сайтов и соцсетей, рассматривает новую модель в качестве помощника для создания и редактирования проектов.

Бестолковый и уязвимый

Разработчики решили выпустить в открытый доступ пока еще весьма неопытного «агента» — в том числе для того, чтобы он быстрее учился на собственных ошибках. Anthropic не скрывает, что при попытке внести изменения в бронирование авиабилета новая версия 3.5 Sonnet смогла успешно выполнить менее половины задач. В другом тесте, где нужно было оформить возврат в интернет-магазине, 3.5 Sonnet потерпела неудачу примерно в трети случаев.

В компании признают, что улучшенная версия 3.5 Sonnet пока испытывает трудности с базовыми действиями вроде прокрутки и увеличения масштаба. Также она может не заметить появляющиеся на экране на несколько секунд уведомления или подсказки от интерфейса программы из-за того, как она делает и обрабатывает скриншоты. Однако Anthropic надеется, что массовое бета-тестирование позволит модели быстро прокачать свои навыки.

«Использование компьютера с помощью Claude по-прежнему медленно и часто сопровождается ошибками, — пишет Anthropic в своем блоге. — Мы рекомендуем разработчикам начинать с низкорисковых задач».

А риски могут оказаться довольно серьезными. Недавнее исследование ученых из Университета Карнеги — Меллона и Оксфорда показало: даже не имеющие доступа к настольным приложениям ИИ-модели в случае успешного «джейлбрейка» (обхода злоумышленниками встроенных ограничений) способны совершать по команде пользователя уголовно наказуемые деяния вроде заказа фальшивого паспорта в даркнете.

Легко представить, насколько опаснее может оказаться модель с доступом к настольным приложениям — например, используя уязвимости в ПО для компрометации личной информации или вывода системы из строя. Дополнительные возможности для злоумышленников дает и доступ модели в интернет. Но в Anthropic считают, что лучше начать отслеживать возможные риски и разрабатывать контрмеры как можно раньше — пока модель не стала умнее, набравшись опыта.

Авторы:
Николай Белый
Редакция ADPASS
Главное про маркетинг и рекламу
в Telegram

Вам понравится

Редакция ADPASS
28.10.2024
Редакция ADPASS
21.10.2024
Редакция ADPASS
16.10.2024
Редакция ADPASS
02.10.2024