Адміністратори LM Arena змінили політики приймання усіх майбутніх моделей через маніпуляції Meta для завищення бенчмарків

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Нещодавно експериментальну версію «Llama-4-Maverick» від Meta зняли з оцінювання у LM Arena. Натомість користувачам дали оцінити базову версію Maverick — і вона впала у бенчмарку із перших місць одразу на тридцять друге.

Причиною ревізії стало те, що користувачі помітили дуже велику різницю у поведінці базової моделі Maverick та опублікованої на LM Arena.

Експериментальна версія набрала чималі показники у рейтингу — та ще й мала неймовірно низьку ціну. У пресрелізі Meta модель навіть акцентували, що набрала 1417 рейтингу.

До речі у табличці десь загубили Gemini Pro, яка посідає перше місце із 1437 ELO.

Через цей інцидент адміністраторам LM Arena довелося публічно вибачатися та навіть змінювати політику приймання усіх майбутніх моделей від розробників:

«Інтерпретація Meta нашої політики не відповідала тому, чого ми очікуємо від постачальників моделей. Meta мала чіткіше пояснити, що „Llama-4-Maverick-03-26-Experimental“ була спеціально налаштованою моделлю для оптимізації під людські вподобання. В результаті цього ми оновлюємо нашу політику лідерборду, щоб підкреслити нашу прихильність до чесних, відтворюваних оцінок, щоб уникнути подібної плутанини в майбутньому», — йдеться у заяві LM Arena.

Додатково: LM Arena — це суб’єктивний бенчмарк. Це не оцінювання моделі справлятися із конкретними задачами, а думка користувачів — наскільки модель їм приємна чи зручна у спілкуванні.

Читайте: «Це просто неправда»: У Meta активно спростовують завищення результатів моделей на бенчмарках

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Підписатись на коментарі