«Дозволяє моделі „фізично“ працювати із екраном»: Microsoft випустила парсер для нейромереж

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Microsoft випустила новий продукт — OmniParser V2. Це, як зрозуміло із назви, парсер. Він дозволяє моделям працювати із UI-елементами на моніторі.

Найкраще агент працює у тандемі із GPT-4o (не дивно, бо Microsoft — патрон OpenAI).

Втім, модель можна використовувати із різними передовими моделями:

  • OpenAI (4o/o1/o3-mini);
  • DeepSeek (R1);
  • Qwen (2.5VL);
  • Anthropic (Sonnet);

Примітно те, що у списку немає Gemini від Google.

Для зміни моделі є спеціальна «докеризована» система OmniTool, що включає набір ключових інструментів для агентів. Але сфокусована вона для роботи під Windows.

Як кажуть самі розробники, «парсер» перетворює UI-скріншоти на токени. LLM-моделі завдяки цьому більш коректно приймають зображення та видають точніші та швидші(!) відповіді.

Загалом, швидкість є провідним наративом апдейту OmniParser з версії V1.5 до V2: прискорення дійшло до 60%. Це дозволить агентам працювати динамічніше.

Також оператор допомагає краще розпізнавати маленькі UI-зображення на великих скріншотах, але то вже таке — дрібниці (ха-ха).

Читайте: OpenAI відмовляються від моделі o3 на користь GPT-5

👍ПодобаєтьсяСподобалось1
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Підписатись на коментарі