Без API: OpenAI показали агента, який «бачить» та взаємодіє із екраном

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

OpenAI показали нового агента — Operator, який може «бачити» екран. Замість того, щоб використовувати специфічні API, він «людиноподібно» працює у самому браузері — буквально імітуючі дії миші та клавіатури.

Operator базується на новій моделі під назвою Computer-Using Agent (CUA). Особливість CUA: вона навчається взаємодії з графічними інтерфейсами користувача. Тобто це агент, який сфокусований на роботі із кнопками, меню та текстовими полями, які видно на екрані.

Поки що це тестова модель, але на бенчмарках WebArena та WebVoyager вона показала себе дуже достойно.

Для чого агент використовується

«Operator може виконувати широкий спектр повторюваних завдань у браузері, таких як заповнення форм, замовлення продуктів або навіть створення мемів», — розповідають в OpenAI.

Даєш завдання, і модель може використовувати ті самі інтерфейси та інструменти, з якими люди взаємодіють щодня. А це означає, що можна не сидіти не робити рутину, у яких тільки ти, як людина можеш взаємодіяти з існуючими інтерфейсами. Тобто модель замінює роботу оператора.

Щодо «каптчі», платіжної інформації та особистих даних: Operator навчений запитувати допомогу у випадках, коли потрібно втручання. Тобто коли модель не може виконати завдання самостійно, вона передає управління користувачеві.

Починаючи відсьогодні, 24 січня, Operator доступний — але тільки для Pro-користувачів, тільки у США. Фактично, це користувацька бета-версія. Його ще будуть дошліфовувати за відгуками користувачів.

Із часом обіцяють, що Operator почне працювати на дешевших підписках та буде інтегрований в ChatGPT.

Загалом мода на агентів тільки зростає — нещодавно вийшов у реліз Devin, який працює із кодом. Як кажуть розробники, одна з основних «фіч» агента — те що він гарно розуміє, як організований репозиторій, тобто він розуміє контекст, які файли за що відповідають.

👍ПодобаєтьсяСподобалось2
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

«Operator може виконувати широкий спектр повторюваних завдань ... навіть створення мемів»

Війни, голод, екологія, хвороби? Ні! Меми! Меми, Карл!

Ну для тестуванна, а так можна буде зробити такого собі туповатенького оператора веб морди для якоїсь корпоративної програми і не платити шкіряним мішкам, котрі все одно просирають життя в офісах безглуздо, а працювати не хочуть.

Підписатись на коментарі