Шукали порівняльні тести великих мовних моделей?

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Показується "Шукали порівняльні тес..."

Шукаєте порівняльні тести великих мовних моделей (LLM)? Якщо ніт, то вони самі вас знайшли!

Мова про LiveBench. Розробники цього бенчмарку періодично створюють набори оригінальних задач для LLM і тестують на них багато відомих моделей.

Родзинкою їхньої методики є використання раніше неопублікованих задач, які ніколи не брали участь в навчанні моделей.

Відповіді оцінюються автоматично на основі об’єктивності істинних значень. Це усуває залежність від людського фактора.

Моделі тестують на вміння розмірковувати, програмувати (кодувати), перевіряють їхні здібності до математики, аналізу даних та мовні навички.

Нижче — результати найактуальнішого тесту, який відбувся 25 листопада цього року.

Ось перша п’ятірка «програмістів» серед LLM:

1) claude-3-5-sonnet-20241022, Anthropic, 67.13
2) gemini-exp-1206, Google, 63.41
3) o1, OpenAI, 61.62
4) claude-3-5-sonnet-20240620, Anthropic, 60.85
5) qwen2.5-72b-instruct-turbo, Alibaba, 57.64

Оскільки я користуюсь переважно o1 і вважав її найкращою, ці результати мене трохи здивували.

А ось перша п’ятірка моделей у розмірковуванні:

1) o1-mini-2024-09-12, OpenAI, 72.33
2) o1-preview-2024-09-12, OpenAI, 67.42
3) qwq-32b-preview, Alibaba, 57.71
4) claude-3-5-sonnet-20240620, Anthropic, 57.17
5) gemini-exp-1206, Google, 57.00

Більш компактна модель виявилася на першому місці, обійшовши свою «старшу сестру». Теж несподівано, погодьтеся!

А ось п’ятірка з математики:

1) gemini-exp-1206, Google, 70.02
2) o1-preview-2024-09-12, OpenAI, 62.92
3) gemini-exp-1121, Google, 62.75
4) o1-mini-2024-09-12, OpenAI, 59.22
5) gemini-1.5-pro-002, Google, 57.40

Тут на першому місці модель від Google, але це чомусь не дивує.

Таким чином, кожна модель має свої сильні й слабкі сторони залежно від сфери її застосування.

Користувачу важливо оцінювати моделі не лише за їхньою загальною потужністю чи належністю до відомих брендів.

Найкращий вибір має бути зроблено відповідно до його конкретних завдань.

Тож обирайте моделі розсудливо.

Якщо ж хочете самостійно «погратися» з результатами тестів та оцінити моделі в інших сферах — посилання буде в коментарі.

👍ПодобаєтьсяСподобалось2
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Програмісти знають, що з бенчмарками треба бути обережним ) Ось більш відомий бенчмарк: lmarena.ai

Ось перша п’ятірка «програмістів» серед LLM:

Coding — Gemini-Exp-1206 перше місце

А ось перша п’ятірка моделей у розмірковуванні:

Multi-turn? Gemini-Exp-1206 перше місце

Якось gemini-exp не вражає, але ж я не весь ринок)

Підписатись на коментарі