«Дозволяє моделі „фізично“ працювати із екраном»: Microsoft випустила парсер для нейромереж
Microsoft випустила новий продукт — OmniParser V2. Це, як зрозуміло із назви, парсер. Він дозволяє моделям працювати із UI-елементами на моніторі.
Найкраще агент працює у тандемі із GPT-4o (не дивно, бо Microsoft — патрон OpenAI).
Втім, модель можна використовувати із різними передовими моделями:
- OpenAI (4o/o1/o3-mini);
- DeepSeek (R1);
- Qwen (2.5VL);
- Anthropic (Sonnet);
Примітно те, що у списку немає Gemini від Google.
Для зміни моделі є спеціальна «докеризована» система OmniTool, що включає набір ключових інструментів для агентів. Але сфокусована вона для роботи під Windows.
Як кажуть самі розробники, «парсер» перетворює UI-скріншоти на токени.
Загалом, швидкість є провідним наративом апдейту OmniParser з версії V1.5 до V2: прискорення дійшло до 60%. Це дозволить агентам працювати динамічніше.
Також оператор допомагає краще розпізнавати маленькі UI-зображення на великих скріншотах, але то вже таке — дрібниці (ха-ха).
Читайте: OpenAI відмовляються від моделі o3 на користь GPT-5
Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів