Operator от OpenAI будет выполнять задачи в Интернете


OpenAI представила Operator – искусственный интеллект, способный выполнять цифровые задания в Интернете вместо пользователей. Operator базируется на новаторской модели CUA (Computer-Using Agent), сочетающей передовые технологии мультимодального распознавания GPT-4o с новейшими подходами к обучению с подкреплением.

Об этом идет речь на сайте OpenAI.

Operator работает как цифровой ассистент, который может взаимодействовать с веб-интерфейсами так же, как это делают люди.

UA разработана для взаимодействия с графическими интерфейсами – кнопками, текстовыми полями и меню. Модель может работать без специальных API, используя виртуальную мышь и клавиатуру. Она распознает экраны с помощью пиксельных данных, планирует последовательные действия и выполняет многоступенчатые задания, такие как заполнение форм, навигация веб-сайтами или обработка ошибок.

Процесс работы состоит из трех основных этапов:

  • Восприятие : модель анализирует снимки экрана, чтобы понять состояние системы.
  • Размышление : CUA планирует свои действия, оценивая результаты предыдущих шагов.
  • Действия : выполняет команды, например щелчок или ввод текста, с учетом возможных изменений в среде.

Operator может даже адаптироваться к изменениям в среде и самостоятельно исправлять ошибки.

CUA показала отличные результаты в нескольких тестовых средах:

  • OSWorld : 38,1% успеха в выполнении задач полного использования компьютера.
  • WebArena : 58,1% успеха в сложных веб-сценариях, таких как электронная коммерция или управление контентом.
  • WebVoyager : 87% успеха при работе с реальными сайтами, например Amazon, GitHub и Google Maps.

Эти показатели демонстрируют гибкость и многофункциональность системы, хотя для более сложных задач CUA еще требует усовершенствований.

CUA использует специальные подходы к безопасной работе в цифровой среде. Например, требует подтверждения пользователя для выполнения конфиденциальных действий, таких как ввод паролей или решение CAPTCHA.

Operator доступен только в США для подписчиков ChatGPT Pro за $200 в месяц. В будущем OpenAI планирует расширить доступ к другим категориям пользователей, включая подписки Plus, Team и Enterprise, интегрировав агента в ChatGPT.

В дальнейшем OpenAI планирует:

  • Открыть доступ к CUA через API, что позволит разработчикам создавать собственных агентов для автоматизации задач.
  • Расширить функционал для более сложных сценариев использования.
  • Продолжить усовершенствование безопасности во избежание злоупотреблений или непреднамеренных ошибок.

Разработчик отмечает, что запуск Operator — это важный шаг в развитии искусственного интеллекта, который сможет выполнять задачи, ранее нуждавшиеся в человеческом участии. Используя те же инструменты, что и люди, CUA открывает новые возможности для автоматизации, делая технологию доступной широкому кругу пользователей.

Агент уже сотрудничает с популярными сервисами, такими как DoorDash, Instacart, OpenTable и Uber. Он может заказывать еду или бронировать столики в ресторанах.

Недавно OpenAI объявила о запуске новой функции в   ChatGPT, которая позволит пользователям планировать простые задачи и получать напоминания.