Шукали порівняльні тести великих мовних моделей?
Шукаєте порівняльні тести великих мовних моделей (LLM)? Якщо ніт, то вони самі вас знайшли!
Мова про LiveBench. Розробники цього бенчмарку періодично створюють набори оригінальних задач для LLM і тестують на них багато відомих моделей.
Родзинкою їхньої методики є використання раніше неопублікованих задач, які ніколи не брали участь в навчанні моделей.
Відповіді оцінюються автоматично на основі об’єктивності істинних значень. Це усуває залежність від людського фактора.
Моделі тестують на вміння розмірковувати, програмувати (кодувати), перевіряють їхні здібності до математики, аналізу даних та мовні навички.
Нижче — результати найактуальнішого тесту, який відбувся 25 листопада цього року.
Ось перша п’ятірка «програмістів» серед LLM:
1) claude-3-5-sonnet-20241022, Anthropic, 67.13
2) gemini-exp-1206, Google, 63.41
3) o1, OpenAI, 61.62
4) claude-3-5-sonnet-20240620, Anthropic, 60.85
5) qwen2.5-72b-instruct-turbo, Alibaba, 57.64
Оскільки я користуюсь переважно o1 і вважав її найкращою, ці результати мене трохи здивували.
А ось перша п’ятірка моделей у розмірковуванні:
1) o1-mini-2024-09-12, OpenAI, 72.33
2) o1-preview-2024-09-12, OpenAI, 67.42
3) qwq-32b-preview, Alibaba, 57.71
4) claude-3-5-sonnet-20240620, Anthropic, 57.17
5) gemini-exp-1206, Google, 57.00
Більш компактна модель виявилася на першому місці, обійшовши свою «старшу сестру». Теж несподівано, погодьтеся!
А ось п’ятірка з математики:
1) gemini-exp-1206, Google, 70.02
2) o1-preview-2024-09-12, OpenAI, 62.92
3) gemini-exp-1121, Google, 62.75
4) o1-mini-2024-09-12, OpenAI, 59.22
5) gemini-1.5-pro-002, Google, 57.40
Тут на першому місці модель від Google, але це чомусь не дивує.
Таким чином, кожна модель має свої сильні й слабкі сторони залежно від сфери її застосування.
Користувачу важливо оцінювати моделі не лише за їхньою загальною потужністю чи належністю до відомих брендів.
Найкращий вибір має бути зроблено відповідно до його конкретних завдань.
Тож обирайте моделі розсудливо.
Якщо ж хочете самостійно «погратися» з результатами тестів та оцінити моделі в інших сферах — посилання буде в коментарі.
2 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарів