OpenAI представила Operator – искусственный интеллект, способный выполнять цифровые задания в Интернете вместо пользователей. Operator базируется на новаторской модели CUA (Computer-Using Agent), сочетающей передовые технологии мультимодального распознавания GPT-4o с новейшими подходами к обучению с подкреплением.
Об этом идет речь на сайте OpenAI.
Operator работает как цифровой ассистент, который может взаимодействовать с веб-интерфейсами так же, как это делают люди.
UA разработана для взаимодействия с графическими интерфейсами – кнопками, текстовыми полями и меню. Модель может работать без специальных API, используя виртуальную мышь и клавиатуру. Она распознает экраны с помощью пиксельных данных, планирует последовательные действия и выполняет многоступенчатые задания, такие как заполнение форм, навигация веб-сайтами или обработка ошибок.
Процесс работы состоит из трех основных этапов:
- Восприятие : модель анализирует снимки экрана, чтобы понять состояние системы.
- Размышление : CUA планирует свои действия, оценивая результаты предыдущих шагов.
- Действия : выполняет команды, например щелчок или ввод текста, с учетом возможных изменений в среде.
Operator может даже адаптироваться к изменениям в среде и самостоятельно исправлять ошибки.
CUA показала отличные результаты в нескольких тестовых средах:
- OSWorld : 38,1% успеха в выполнении задач полного использования компьютера.
- WebArena : 58,1% успеха в сложных веб-сценариях, таких как электронная коммерция или управление контентом.
- WebVoyager : 87% успеха при работе с реальными сайтами, например Amazon, GitHub и Google Maps.
Эти показатели демонстрируют гибкость и многофункциональность системы, хотя для более сложных задач CUA еще требует усовершенствований.
CUA использует специальные подходы к безопасной работе в цифровой среде. Например, требует подтверждения пользователя для выполнения конфиденциальных действий, таких как ввод паролей или решение CAPTCHA.
Operator доступен только в США для подписчиков ChatGPT Pro за $200 в месяц. В будущем OpenAI планирует расширить доступ к другим категориям пользователей, включая подписки Plus, Team и Enterprise, интегрировав агента в ChatGPT.
В дальнейшем OpenAI планирует:
- Открыть доступ к CUA через API, что позволит разработчикам создавать собственных агентов для автоматизации задач.
- Расширить функционал для более сложных сценариев использования.
- Продолжить усовершенствование безопасности во избежание злоупотреблений или непреднамеренных ошибок.
Разработчик отмечает, что запуск Operator — это важный шаг в развитии искусственного интеллекта, который сможет выполнять задачи, ранее нуждавшиеся в человеческом участии. Используя те же инструменты, что и люди, CUA открывает новые возможности для автоматизации, делая технологию доступной широкому кругу пользователей.
Агент уже сотрудничает с популярными сервисами, такими как DoorDash, Instacart, OpenTable и Uber. Он может заказывать еду или бронировать столики в ресторанах.
Недавно OpenAI объявила о запуске новой функции в ChatGPT, которая позволит пользователям планировать простые задачи и получать напоминания.