Без API: OpenAI показали агента, який «бачить» та взаємодіє із екраном
OpenAI показали нового агента — Operator, який може «бачити» екран. Замість того, щоб використовувати специфічні API, він «людиноподібно» працює у самому браузері — буквально імітуючі дії миші та клавіатури.
Operator базується на новій моделі під назвою Computer-Using Agent (CUA). Особливість CUA: вона навчається взаємодії з графічними інтерфейсами користувача. Тобто це агент, який сфокусований на роботі із кнопками, меню та текстовими полями, які видно на екрані.
Поки що це тестова модель, але на бенчмарках WebArena та WebVoyager вона показала себе дуже достойно.
Для чого агент використовується
«Operator може виконувати широкий спектр повторюваних завдань у браузері, таких як заповнення форм, замовлення продуктів або навіть створення мемів», — розповідають в OpenAI.
Даєш завдання, і модель може використовувати ті самі інтерфейси та інструменти, з якими люди взаємодіють щодня. А це означає, що можна не сидіти не робити рутину, у яких тільки ти, як людина можеш взаємодіяти з існуючими інтерфейсами. Тобто модель замінює роботу оператора.
Щодо «каптчі», платіжної інформації та особистих даних: Operator навчений запитувати допомогу у випадках, коли потрібно втручання. Тобто коли модель не може виконати завдання самостійно, вона передає управління користувачеві.
Починаючи відсьогодні, 24 січня, Operator доступний — але тільки для Pro-користувачів, тільки у США. Фактично, це користувацька бета-версія. Його ще будуть дошліфовувати за відгуками користувачів.
Із часом обіцяють, що Operator почне працювати на дешевших підписках та буде інтегрований в ChatGPT.
Загалом мода на агентів тільки зростає — нещодавно вийшов у реліз Devin, який працює із кодом. Як кажуть розробники, одна з основних «фіч» агента — те що він гарно розуміє, як організований репозиторій, тобто він розуміє контекст, які файли за що відповідають.
2 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарів