«Це просто неправда»: У Meta активно спростовують завищення результатів моделей на бенчмарках
У соцмережах почали ширитися чутки про те, що Meta штучно завищила результати своїх нових моделей у бенчмарках. Підтверджень не було, але були натомість дивні факти.
Наприклад, зазначають, що для досягнення кращих результатів у LM Arena була використана експериментальна, неопублікована версія Maverick. Тобто юзери реально її ніколи не побачать.

Також користувачі помітили значні відмінності в поведінці публічно доступної для завантаження Maverick порівняно з моделлю, розміщеною на LM Arena. У соцмережах виникла думка, що нейромережу імовірно «донавчали», щоб набрати більше балів на бенчмарках.

Ахмад Аль-Дале, віце-президент з генеративного ШІ в Meta спеціально опублікував спростування цих чуток у соцмережі:
«Ми також чули твердження, що ми навчали моделі на тестових наборах — це просто неправда, і ми б ніколи цього не зробили. Наше найкраще розуміння полягає в тому, що мінлива якість, яку бачать люди, пов’язана з необхідністю стабілізувати імплементації», — пише Аль-Дале.
Це пояснення від віце-президента також здалося дивним, оскільки такі проблеми — це прецедент серед нейромереж.

Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів