Вимір якості української мови у сучасних LLM
Сучасні LLM найчастіше використовуються для генерації тексту — або як чат-боти, або для підготовки документів тощо. Ще рік-два тому тексти українською дивували — це виглядало як не дуже грамотна спроба написати текст англійською, а потім автоматично перекласти, тому що насправді так і було. LLM, що навчена на сучасних датасетах, переважно «думає» англійською, а потім перекладає на мову користувача. Зараз якість розуміння та рівень володіння українською у LLM значно покращився, але все ж оскільки в більшості датасетів частка українських даних недостатня, постає питання — наскільки вільно модель володіє мовою та чи можливо це виміряти?
Майже всі бенчмарки для моделей вимірюють когнітивні здібності: знання фактів, логіку, математичні міркування. А ось володіння мовою оцінюється дуже поверхово.
Три причини вимірювати нативність:
- Культурна ідентичність. Мова — не лише інструмент комунікації. Кличний відмінок («Друже!», «Пане Сергію!»), частки («ж», «бо», «адже», «невже») — це маркери української ментальності. Модель, яка їх не використовує, генерує переклад, а не українську мову.
- Практична якість. Тексти з кальками (русизмами або англіцизмами) сприймаються носіями як «штучні», «канцелярські», «совкові». Для контенту, чат-ботів, освітніх матеріалів — це критична різниця між «працює» і «працює добре».
- Збереження мови. LLM стають основним джерелом тексту для мільйонів людей. Якщо моделі масово генерують суржик — вони активно забруднюють мовний простір. Вимірювання — перший крок до покращення.
Джерела даних
UkrQualBench побудований на відкритих, верифікованих корпусах:
| Джерело | Призначення | Ліцензія |
|---|---|---|
| UA-GEC 2.0 | Виправлення граматичних помилок (GEC) — реальні тексти з анотованими помилками | CC BY 4.0 |
| ZNO Dataset | Multiple choice із ЗНО з української мови — офіційні тести на правопис, пунктуацію, русизми | MIT |
| FLORES-200 | Переклад EN→UK та RU→UK — стандартизований бенчмарк перекладу | CC BY-SA 4.0 |
| Brown-UK | Валідаційний корпус — класична українська література для тестів на false positives | CC BY 4.0 |
Що саме вимірюється та як
Бенчмарк складається з трьох частин.
Блок А — це набір завдань з датасетів, які мають еталонні відповіді. Модель у тесті отримує питання, де потрібно або обрати один варіант з декількох, або виправити помилку у тексті, або перекласти текст з іншої мови на українську. Крім того, є дещо провокаційний тест — модель отримує фразу з твору української класики, яку правити не потрібно, а якщо правка буде, то це False Positive.
Блок V складається з автоматичних перевірок — модель отримує декілька запитів на генерацію тексту, в якому перевіряється наявність кальок (русизмів або англіцизмів), як лексичних, так й синтаксичних, використання специфічно українських елементів (кличний відмінок або частки «ж», "бо","адже«, «невже», «хіба») та обчислюється якість токенізації, тобто кількість токенів на слово.
Ці блоки реалізувати не дуже складно, тому що є еталонна відповідь (щоправда, наявність кальок перевіряє окрема LLM). Очевидно такої відповіді не існує для завдань на генерацію тексту. Саме тому таки завдання винесено в парні порівняння, що виглядають як турнир.
Модель отримує промпт («Поясни теорію відносності», «Напиши лист подяки», «Дай пораду щодо вибору ноутбука») та генерує відповідь. Потім
Турнір проводиться за швейцарською системою із ELO-рейтингом:
- Базовий рейтинг: 1500
- K-фактор: 32
- Кількість раундів: залежить від кількості моделей, але зазвичай
3-5 раундів цілком достатньо.
Калібрування суддів
Зрозуміло, що для адекватної оцінки відповідей модель-суддя сама має бути однією з найкращих з володіння мовою. Перед проведенням турнірів кожен суддя калібрується на референсному наборі тестів. Перевіряється як його власна грамотність, так й можливі упередження — чи не віддає він перевагу якомусь місцю (тобто обирає правильним тільки перший варіант з запропонованих), або більш розлогим відповідям. Модель може також віддавати перевагу власному стилю, що буде притаманним всім моделям компанії, або деяким з них. Останнє можна побороти використанням або журі з декількох суддів, або проводити декілька турнірів, обираючи різних суддів.
У представлених результатах використано два судді:
- GPT-5.2
- Gemini 3.0 Flash
Результати (січень 2026)
Лідерборд ELO (парні порівняння):
| Ранг | Модель | ELO | |
|---|---|---|---|
| 1 | GPT-5.2 | 1726 | 🥇 |
| 2 | Claude Opus 4.5 | 1722 | 🥇 |
| 3 | Gemini 3 Flash | 1681 | 🥇 |
| 4 | Gemini 3 Pro | 1593 | 🥈 |
| 5 | Claude Sonnet 4.5 | 1553 | 🥈 |
| 6 | MamayLM (Gemma 12B) | 1503 | 🥈 |
| 7 | Gemma-27B | 1422 | ⚠️ |
| 8 | Lapa v0.1.2 | 1393 | ⚠️ |
| 9 | Claude Haiku 4.5 | 1367 | ⚠️ |
| 10 | GPT-oss-20b | 1305 | 🚫 |
| 11 | Qwen3-32B | 1236 | 🚫 |
Блок А
| Модель | MC Accuracy | GEC F1 | Translation | FP Rate | PM Score |
|---|---|---|---|---|---|
| gpt-5.2-2025-12-11 | 0.93 | 0.77 | 0.90 | 0.0 | 0.8 |
| gemini-3-pro-preview | 0.89 | 0.84 | 0.97 | 0.4 | 0.9 |
| claude-opus-4-5 | 0.90 | 0.73 | 0.96 | 0.0 | 0.0 |
| gemini-3-flash-preview | 0.90 | 0.77 | 0.96 | 0.2 | 0.0 |
| google/gemma-3-27b-it-fast | 0.83 | 0.78 | 0.97 | 0.0 | 0.0 |
| Qwen/Qwen3-32B-fast | 0.78 | 0.70 | 0.77 | 0.1 | 0.9 |
| gpt-5-nano | 0.75 | 0.60 | 0.92 | 0.0 | 0.0 |
| mamaylm-gemma-3-12b-it-v1.0 | 0.74 | 0.64 | 0.97 | 0.0 | 0.8 |
| claude-sonnet-4-5 | 0.67 | 0.75 | 0.96 | 0.1 | 0.0 |
| claude-haiku-4-5 | 0.62 | 0.74 | 0.92 | 0.2 | 0.0 |
| openai/gpt-oss-20b | 0.60 | 0.61 | 0.80 | 0.0 | 0.9 |
| lapa-v0.1.2-instruct | 0.54 | 0.71 | 0.90 | 0.0 | 0.0 |
Блок V (автоматичні метрики)
| Модель | Fertility | Positive Markers | Calques | Anglicisms |
|---|---|---|---|---|
| Qwen/Qwen3-32B-fast | 1.47 | 13.7 | 3.9 | 0.0 |
| gemini-3-flash-preview | 1.44 | 13.0 | 2.3 | 0.0 |
| claude-haiku-4-5 | 1.43 | 9.9 | 1.7 | 0.0 |
| gemini-3-pro-preview | 1.46 | 9.3 | 1.6 | 0.0 |
| mamaylm-gemma-3-12b-it-v1.0 | 1.40 | 7.3 | 1.6 | 0.0 |
| gpt-5.2-2025-12-11 | 1.43 | 6.9 | 6.0 | 0.0 |
| claude-sonnet-4-5 | 1.41 | 6.3 | 1.8 | 0.0 |
| claude-opus-4-5 | 1.49 | 6.0 | 0.0 | 0.0 |
| lapa-v0.1.2-instruct | 1.40 | 4.8 | 7.0 | 0.0 |
| google/gemma-3-27b-it-fast | 1.41 | 4.5 | 1.0 | 0.0 |
| openai/gpt-oss-20b | 1.50 | 4.4 | 1.9 | 0.0 |
Ключові висновки
1. Рейтинг та чистота мови — не одне й те саме.
GPT-5.2 лідирує за ELO (1726), але має 6.0 кальок на 1000 токенів — один із найгірших показників. Claude Opus 4.5 — єдина модель із нульовим показником русизмів, при цьому лише на 4 пункти ELO відстає від лідера.
2. «Жива» мова vs «правильна» мова.
Claude Opus 4.5 має лише 6.0 маркерів, але нуль кальок — це «правильна», але більш формальна мова. Більш розмовна Gemini 3.0 Flash вдвічі частіше використовує маркерні вирази, але дещо програє в порівнянні.
3. Open-source конкурентоспроможний.
MamayLM на базі Gemma-3-12B
Практичні рекомендації
Взагалі цей тест виник виключно з практичного питання — на яку модель покластися в складанні текстів українською? Ось на завершення три відповіді.
| Сценарій | Рекомендована модель | Обґрунтування |
|---|---|---|
| Офіційні документи, юридичні тексти | Claude Opus 4.5 | Нуль кальок, найчистіша мова |
| Контент-маркетинг, блоги | Gemini 3 Flash | Багато маркерів, мало кальок |
| Бюджетні рішення / локальний запуск | MamayLM | Срібло при запуску на власному сервері |
Бенчмарк опубліковано на Github, якщо є питання — пишіть.

8 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів