Вимір якості української мови у сучасних LLM

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Сучасні LLM найчастіше використовуються для генерації тексту — або як чат-боти, або для підготовки документів тощо. Ще рік-два тому тексти українською дивували — це виглядало як не дуже грамотна спроба написати текст англійською, а потім автоматично перекласти, тому що насправді так і було. LLM, що навчена на сучасних датасетах, переважно «думає» англійською, а потім перекладає на мову користувача. Зараз якість розуміння та рівень володіння українською у LLM значно покращився, але все ж оскільки в більшості датасетів частка українських даних недостатня, постає питання — наскільки вільно модель володіє мовою та чи можливо це виміряти?

Майже всі бенчмарки для моделей вимірюють когнітивні здібності: знання фактів, логіку, математичні міркування. А ось володіння мовою оцінюється дуже поверхово.

Три причини вимірювати нативність:

  1. Культурна ідентичність. Мова — не лише інструмент комунікації. Кличний відмінок («Друже!», «Пане Сергію!»), частки («ж», «бо», «адже», «невже») — це маркери української ментальності. Модель, яка їх не використовує, генерує переклад, а не українську мову.
  2. Практична якість. Тексти з кальками (русизмами або англіцизмами) сприймаються носіями як «штучні», «канцелярські», «совкові». Для контенту, чат-ботів, освітніх матеріалів — це критична різниця між «працює» і «працює добре».
  3. Збереження мови. LLM стають основним джерелом тексту для мільйонів людей. Якщо моделі масово генерують суржик — вони активно забруднюють мовний простір. Вимірювання — перший крок до покращення.

Джерела даних

UkrQualBench побудований на відкритих, верифікованих корпусах:

ДжерелоПризначенняЛіцензія
UA-GEC 2.0Виправлення граматичних помилок (GEC) — реальні тексти з анотованими помилкамиCC BY 4.0
ZNO DatasetMultiple choice із ЗНО з української мови — офіційні тести на правопис, пунктуацію, русизмиMIT
FLORES-200Переклад EN→UK та RU→UK — стандартизований бенчмарк перекладуCC BY-SA 4.0
Brown-UKВалідаційний корпус — класична українська література для тестів на false positivesCC BY 4.0

Що саме вимірюється та як

Бенчмарк складається з трьох частин.

Блок А — це набір завдань з датасетів, які мають еталонні відповіді. Модель у тесті отримує питання, де потрібно або обрати один варіант з декількох, або виправити помилку у тексті, або перекласти текст з іншої мови на українську. Крім того, є дещо провокаційний тест — модель отримує фразу з твору української класики, яку правити не потрібно, а якщо правка буде, то це False Positive.

Блок V складається з автоматичних перевірок — модель отримує декілька запитів на генерацію тексту, в якому перевіряється наявність кальок (русизмів або англіцизмів), як лексичних, так й синтаксичних, використання специфічно українських елементів (кличний відмінок або частки «ж», "бо","адже«, «невже», «хіба») та обчислюється якість токенізації, тобто кількість токенів на слово.

Ці блоки реалізувати не дуже складно, тому що є еталонна відповідь (щоправда, наявність кальок перевіряє окрема LLM). Очевидно такої відповіді не існує для завдань на генерацію тексту. Саме тому таки завдання винесено в парні порівняння, що виглядають як турнир.

Модель отримує промпт («Поясни теорію відносності», «Напиши лист подяки», «Дай пораду щодо вибору ноутбука») та генерує відповідь. Потім LLM-суддя порівнює відповіді двох моделей і обирає кращу за мовною якістю.

Турнір проводиться за швейцарською системою із ELO-рейтингом:

  • Базовий рейтинг: 1500
  • K-фактор: 32
  • Кількість раундів: залежить від кількості моделей, але зазвичай 3-5 раундів цілком достатньо.

Калібрування суддів

Зрозуміло, що для адекватної оцінки відповідей модель-суддя сама має бути однією з найкращих з володіння мовою. Перед проведенням турнірів кожен суддя калібрується на референсному наборі тестів. Перевіряється як його власна грамотність, так й можливі упередження — чи не віддає він перевагу якомусь місцю (тобто обирає правильним тільки перший варіант з запропонованих), або більш розлогим відповідям. Модель може також віддавати перевагу власному стилю, що буде притаманним всім моделям компанії, або деяким з них. Останнє можна побороти використанням або журі з декількох суддів, або проводити декілька турнірів, обираючи різних суддів.

У представлених результатах використано два судді:

  • GPT-5.2
  • Gemini 3.0 Flash

Результати (січень 2026)

Лідерборд ELO (парні порівняння):

РангМодельELO
1GPT-5.21726🥇
2Claude Opus 4.51722🥇
3Gemini 3 Flash1681🥇
4Gemini 3 Pro1593🥈
5Claude Sonnet 4.51553🥈
6MamayLM (Gemma 12B)1503🥈
7Gemma-27B1422⚠️
8Lapa v0.1.21393⚠️
9Claude Haiku 4.51367⚠️
10GPT-oss-20b1305🚫
11Qwen3-32B1236🚫

Блок А

МодельMC AccuracyGEC F1TranslationFP RatePM Score
gpt-5.2-2025-12-110.930.770.900.00.8
gemini-3-pro-preview0.890.840.970.40.9
claude-opus-4-50.900.730.960.00.0
gemini-3-flash-preview0.900.770.960.20.0
google/gemma-3-27b-it-fast0.830.780.970.00.0
Qwen/Qwen3-32B-fast0.780.700.770.10.9
gpt-5-nano0.750.600.920.00.0
mamaylm-gemma-3-12b-it-v1.00.740.640.970.00.8
claude-sonnet-4-50.670.750.960.10.0
claude-haiku-4-50.620.740.920.20.0
openai/gpt-oss-20b0.600.610.800.00.9
lapa-v0.1.2-instruct0.540.710.900.00.0

Блок V (автоматичні метрики)

МодельFertilityPositive MarkersCalquesAnglicisms
Qwen/Qwen3-32B-fast1.4713.73.90.0
gemini-3-flash-preview1.4413.02.30.0
claude-haiku-4-51.439.91.70.0
gemini-3-pro-preview1.469.31.60.0
mamaylm-gemma-3-12b-it-v1.01.407.31.60.0
gpt-5.2-2025-12-111.436.96.00.0
claude-sonnet-4-51.416.31.80.0
claude-opus-4-51.496.00.00.0
lapa-v0.1.2-instruct1.404.87.00.0
google/gemma-3-27b-it-fast1.414.51.00.0
openai/gpt-oss-20b1.504.41.90.0

Ключові висновки

1. Рейтинг та чистота мови — не одне й те саме.

GPT-5.2 лідирує за ELO (1726), але має 6.0 кальок на 1000 токенів — один із найгірших показників. Claude Opus 4.5 — єдина модель із нульовим показником русизмів, при цьому лише на 4 пункти ELO відстає від лідера.

2. «Жива» мова vs «правильна» мова.

Claude Opus 4.5 має лише 6.0 маркерів, але нуль кальок — це «правильна», але більш формальна мова. Більш розмовна Gemini 3.0 Flash вдвічі частіше використовує маркерні вирази, але дещо програє в порівнянні.

3. Open-source конкурентоспроможний.

MamayLM на базі Gemma-3-12B (6-те місце, срібло) випереджає Claude Haiku 4.5 та Gemma-3-27B. Ця модель непогано впорається й з формальними тестами. Між іншим, також тримається інша модель, яка допрацьована українськими розробниками — Lapa від le-llm. Обидві моделі використовують модифікований токенізатор. Було б цікаво побачити результат запровадження розробок на базі більших моделей.

Практичні рекомендації

Взагалі цей тест виник виключно з практичного питання — на яку модель покластися в складанні текстів українською? Ось на завершення три відповіді.

СценарійРекомендована модельОбґрунтування
Офіційні документи, юридичні текстиClaude Opus 4.5Нуль кальок, найчистіша мова
Контент-маркетинг, блогиGemini 3 FlashБагато маркерів, мало кальок
Бюджетні рішення / локальний запускMamayLMСрібло при запуску на власному сервері

Бенчмарк опубліковано на Github, якщо є питання — пишіть.

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Вважати «бо», «адже», «невже» маркерами ґенерації українською, а не переклада — це пʼять. Косяків. (tm)
Вони мають відповідність у майже всіх мовах 1:1, а у близьких — особливо. І перекладатимуться точно так же 1:1 (і в російській: ибо, потому что, неужели, разве).
Цьому «аналізу» ціна ноль (мінус, бо витрачено ресурси). Найміть лінгвіста (не філолога, у сенсі, він має думати про практичні сторони ужитку мови, а не про красу образів у поетів, яких йому напхала вузівська програма).

Тобто решту показників ви не зрозуміли.

Тобто, якщо частина роботи, особливо так підкреслена в описі, не має сенсу, то і вся робота вимагає переробки.

А чи зрозумів я решту, у вас просто нема даних. На зараз ви можете тільки відповідати на питання інших і полагатись на чужі оцінки.

У мене достатньо даних, щоб сприймати рекомендацію сисадміна найняти лінгвіста як невдалий тролинг.

сисадміна

Тобто якщо ви і вмієте читати, то навіть на первинний аналіз прочитаного вже не здатні.

вчора з цікавості поставив на ноутбук lapa-v0.1.2-instruct
(Fujitsu LifeBook E557, RAM 16GB)

прикольно... ціла ллм влізла в ноут... ще й розмовляє... хоч і повільно...

ну запрацювало... ок... давай зробимо щось складніше..
Приблизно такий діалог:

— Ти можеш перекласти з англійської підручник з пітону?
— Ні, не можу. Можу пояснити якусь тему, але цілий підручник — ні, я не можу.

— А чого?
— Мої можливості обмежені. Цілий підручник — це дуже багато.

— Так а в чому конкретно обмеження, чого тобі не вистачає?
— Мої можливості обмежені, ставте запитання, я можу пояснити тему, але підручник не можу перекласти.

— А за десять годин?
— Підручник я перекласти не можу, мої можливості обмежені.

— А абзац?
— Абзац я перекласти не можу, мої можливості обмежені.
............................

Далі я збирався вже розбити той підручник на символи...)
Але вирішив порадитися... У сусідньому вікні був відкритий джемінай...

— Ти розбираєшся у психології аі ?
— А шо там?

Я йому скопіював весь чат з лапою... Він подумав 2 секунди...

— Таке враження, що її налякали в дитинстві...
(так і написав, і далі детальніше пояснив особливості такого тренування моделі)
..............

Взагалі досить цікаво... і діалог захоплюючий з лапою...

і потім думаю, що взагалі відбувається — я з великим штучним інтелектом обговорюю невпевнену поведінку маленького... причому не в університетській лабораторії, а вдома, з побутовим ноутбуком за 120 баксів, і не маючи айтішною освіти... дожилися... дивний новий світ...

і потім думаю, що взагалі відбувається — я з великим штучним інтелектом обговорюю невпевнену поведінку маленького... причому не в університетській лабораторії, а вдома, з побутовим ноутбуком за 120 баксів, і не маючи айтішною освіти... дожилися... дивний новий світ...

Фактично ви розмовляли самі з собою :) Єдиним свідомим актором у цій взаємодії були ви. Мала і велика LLM це ж поки що лише просунуті генератори тексту, яким треба згодувати інпут, щоб щось отримати.

Фактично ви розмовляли самі з собою :)

ну як це... щоб розмовляти з собою, не треба вмикати ноут

Підписатись на коментарі