Конкурент Claude та GPT: нова модель GLM-5.1 обійшла у розробці інші ШІ
Вчора китайська компанія Z.ai представила GLM-5.1 — нову модель для агентної розробки та тривалих інженерних завдань. В окремих тестах цей ШІ виявився ефективнішим за Claude та GPT.
Розробники стверджують, що це наступне покоління зі значно сильнішими можливостями в кодингу та довгих агентних сесіях. На бенчмарку SWE-Bench Pro модель набрала 58,4 бала, тоді як GPT-5.4 має 57,7 балів, Claude Opus 4.6 — 57,3, а Gemini 3.1 Pro — 54,2.
Інфографіка: Z.ai
Внутрішні тести показали, що нова модель краще тримає ціль на довгих дистанціях: здатна працювати над завданням протягом тривалих сесій, розбивати складні проблеми на підзадачі, проводити серії експериментів та переглядати власну стратегію в ході багатьох ітерацій.
Втім, хоча GLM-5.1 випереджає сильних конкурентів на окремому бенчмарку, на інших тестах — зокрема NL2Repo та Terminal-Bench 2.0 — вона показує себе трохи гірше.
Інфографіка: GitHub
Відкритим також залишається питання, наскільки вражаючими будуть результати моделі в реальних робочих сценаріях, а не лише в демонстраційних тестах.
А ви як думаєте? Також розповідайте, чи тестите інші LLM у роботі, чи зберігаєте вірність звичним Claude, Gemini та GPT?
Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів