Конкурент Claude та GPT: нова модель GLM-5.1 обійшла у розробці інші ШІ

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Вчора китайська компанія Z.ai представила GLM-5.1 — нову модель для агентної розробки та тривалих інженерних завдань. В окремих тестах цей ШІ виявився ефективнішим за Claude та GPT.

Розробники стверджують, що це наступне покоління зі значно сильнішими можливостями в кодингу та довгих агентних сесіях. На бенчмарку SWE-Bench Pro модель набрала 58,4 бала, тоді як GPT-5.4 має 57,7 балів, Claude Opus 4.6 — 57,3, а Gemini 3.1 Pro — 54,2.

Інфографіка: Z.ai

Внутрішні тести показали, що нова модель краще тримає ціль на довгих дистанціях: здатна працювати над завданням протягом тривалих сесій, розбивати складні проблеми на підзадачі, проводити серії експериментів та переглядати власну стратегію в ході багатьох ітерацій.

Втім, хоча GLM-5.1 випереджає сильних конкурентів на окремому бенчмарку, на інших тестах — зокрема NL2Repo та Terminal-Bench 2.0 — вона показує себе трохи гірше.

Інфографіка: GitHub

Відкритим також залишається питання, наскільки вражаючими будуть результати моделі в реальних робочих сценаріях, а не лише в демонстраційних тестах.

А ви як думаєте? Також розповідайте, чи тестите інші LLM у роботі, чи зберігаєте вірність звичним Claude, Gemini та GPT?

👍ПодобаєтьсяСподобалось1
До обраногоВ обраному1
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Підписатись на коментарі