Національна LLM: між політичними амбіціями та технологічними реаліями
Вітаю! Мене звати Сергій Петренко та для багатьох я відомий як колишній керівник Яндекс.Україна та засновник одеського коворкінгу «Термінал 42». Але останні декілька років я займаюся проєктами, повʼязаними з AI, тому мене цікавить розвиток AI-технологій в Україні та популярна зараз тема створення національної мовної моделі. Якщо вам теж цікаво відокремити політичний піар від наявних технологічних проблем, сподіваюсь на вашу увагу та участь в дискусії.
Останні декілька місяців ми багато чуємо про створення національної LLM. Ця мета була декларована ще у лютому цього року, потім на DOU вийшло інтервʼю CTO Центру AI Excellence Дмитра Овчаренка, а нещодавно пролунала заява міністра цифрової трансформації Михайла Федорова, в якої навіть був названий термін запуску першої версії LLM — кінець цього року.
Весь цей час в будь-якій дискусії неодмінно постає питання — «А чи взагалі потрібна національна LLM? Яка мета її створення? Як її можна буде використати? Для чого її створювати при наявності багатьох вже існуючих моделей досить високого рівня?». На жаль, відповіді представників держави — це якась суміш технологічних, безпекових та політичних аргументів, де останні посідають значне, якщо не перше місце.
Чи справді українська мова потребує окремої моделі
Звісно, національні LLM існують — китайські Ernie та Qwen або арабська ALLaM. Але, по-перше, ці країни мали об’єктивні технічні причини для створення власних моделей. Арабська мова з її семітською морфологією та письмом справа наліво створює унікальні виклики для токенізації. Китайська з її ієрогліфічною системою потребує інших стратегій токенізації.
А що з українською? Так, наша мова флективна, має складну морфологію, на відміну від англійської, і токенізатор GPT-4 дійсно бачить в українському тексті на
Найголовніше — українська вже достатньо непогано представлена в існуючих моделях. GPT-4 розуміє українську, Claude працює з нею цілком пристойно, навіть Llama 3.1 показує пристойні результати. Так, не ідеально, але функціонально. Чи варто витрачати гроші та інші ресурси на розробку власної моделі, яка в кращому випадку досягне
Справжня проблема: дані, дані й ще раз дані
В заявах міністра Михайла Федорова лунає цікава згадка про «унікальні українські дані», на яких зможе навчатись модель. В декількох колонках та виступах він повторює, що національна модель буде краще розуміти українську мову та давати «більш якісні відповіді як лінгвістично, так і стосовно фактів та ідеологічних запитань, які стосуються історії України, політичної ситуації та війни». Виникає враження, що наявні моделі взагалі про українську мову або війну гадки не мають, а достатньо додати текстів з правильними твердженнями українською й результат перевищить будь-які західні LLM, з GPT та Claude Opus включно.
На жаль, це не так. Дійсно, додавання даних в навчальний датасет поліпшує знання моделі. Але, по-перше, чому вважається, що ці «унікальні українські дані» невідомі сучасним LLM, а по-друге — а скільки таких даних у нас є?
GPT-3 навчалася на 300 мільярдах токенів, GPT-4 — орієнтовно на
За найоптимістичнішими оцінками, ми маємо:
- Корпус ГРАК: 400 мільйонів токенів.
- ukTenTen: 7.5 мільярдів слів (приблизно 10 мільярдів токенів).
- Українська Вікіпедія: 1.36 мільйона статей (близько 500 мільйонів токенів).
- mC4 Ukrainian: 196 ГБ стиснених даних,
30–35 млрд сирих токенів, але після фільтрації залишається максимум30-40%.
Підсумок:
Та і якість цих даних викликає питання. Значна частина вебконтенту — машинні переклади сумнівної якості, дублікати, тексти з домішками російської мови. Після належного очищення ми ризикуємо залишитися з ще меншим обсягом.
Та навіть якщо так зробити з Llama Scout або Maverick і довчити її на всіх доступних українських даних, результат може розчаровувати.
Чому? По-перше, модель може «знати» більшість того, що ми їй додамо — українська Вікіпедія, новинні сайти, класична література вже були в її тренувальних даних. По-друге, 25 мільярдів токенів — це, відверто кажучи, недостатньо.
А скільки треба? Це, до речі, не так складно порахувати — за дослідженнями, оптимальна LLM має приблизно
Можна піти іншим шляхом
Насправді навчання моделі з нуля — це дорого та довго. Тому я впевнений, що обрано шлях почати з fine-tuning існуючої моделі. Це полегшує як старт, так й подальший розвиток продукту, хоча водночас звужує його можливості.
Так, починаючи з fine-tuned Llama, та додавши їй можливість підключення до бази знань, ми отримаємо досить якісну модель для функціонування чат-бота — наприклад, для служби підтримки державних органів або великих компаній.
Справжній виклик: системна робота з даними
Але цей підхід — лише тактичне рішення. Стратегічно Україна дійсно потребує власної цифрової екосистеми, і LLM може стати її частиною. Але для цього потрібна системна робота, яка виходить далеко за межі технічного проєкту.
Створення інфраструктури даних. Замість того, щоб шукати гроші на навчання моделі, варто інвестувати в створення якісних українських датасетів. Якщо ми говоримо про
Тому створення датасетів означає:
- Цифровізацію існуючого контенту включно з архівами.
- Цифровізацію державних реєстрів з можливістю машинної обробки.
- Стимулювання створення українського контенту в інтернеті.
- Партнерство з видавництвами для доступу до літературних творів.
- Координацію з освітніми закладами для збору академічних текстів.
- Створення українських перекладів для наявного контенту іншими мовами.
- Створення синтетичного контенту. Це буде вимагати не лише вкладень в інфраструктуру та GPU-годин — неодмінно постане питання копірайту, наприклад.
Інтеграція з цифровізацією держави. Національна LLM має сенс тільки як частина загальної стратегії цифровізації. Диджитал-послуги, електронний документообіг, автоматизація держустанов — ось де модель може принести реальну користь. І ось де можна збирати дані для її покращення.
Політика vs технології
На жаль, ця тема дуже легко політизується.
Коли CTO державного AI-центру говорить про «культурне значення» як головний аргумент для створення LLM та згадує питання «Чий Крим?» як головний тест для моделі, це сигналізує про підміну понять. Культурне значення — важливий фактор, але він має бути наслідком технологічного успіху, а не його метою.
Тим більше, що ми знаємо приклади ідеологічно коректних відповідей китайських LLM, які вважають, що у 1989 році на Тяньаньмень нічого не трапилось. Чи такий рівень «розуміння контексту» нам потрібен?
Політика буде впливати навіть на технічні рішення. Наприклад, мультимовне навчання, тобто додавання до датасету даних споріднених слов’янських мов дозволяє, розширюючи обсяг, зберігати продуктивність на рівні
Реалістичний план дій
Якщо мета — справді технологічний прогрес, план має бути інакшим:
Етап 1 (6 місяців). Практичне застосування
- Впровадження існуючих LLM для автоматизації держпослуг.
- Створення RAG-систем на базі українських даних.
- Збір статистики використання та проблемних моментів Мета — створення рішення рівня GPT-3.5 та покриття до 90% масових задач у публічному секторі.
Етап 2
- Системна цифровізація державних процесів
- Цифровізація архівів та реєстрів.
- Стимулювання створення українського контенту.
- Партнерства з приватним сектором для доступу до даних Мета — створення моделі рівня Llama 4 Scout з повною підтримкою української мови та довгого контексту.
Етап 3
- Коли буде зібрано 100+ мільярдів якісних токенів.
- Коли сформовані чіткі технічні вимоги.
- Коли є ресурси для конкурентоспроможної розробки.
Такий підхід дозволить створити не політичний проєкт, а справжню технологічну платформу, яка принесе користь державі та громадянам.
Висновки
Україна дійсно потребує технологічної незалежності, особливо в умовах війни. Але шлях до неї лежить не через політизовані декларації, а через системну роботу з даними, інфраструктурою та застосуванням існуючих технологій.
Національна LLM може стати символом цифрового суверенітету, але тільки якщо її створення базуватиметься на раціональних технічних рішеннях, а не на бажанні мати «правильні» відповіді на політичні питання.
Поки що ж, судячи з перших заяв, проєкт ризикує стати черговим прикладом того, як політичні амбіції заважають технологічному прогресу. І це справді сумно — адже Україна має все необхідне для створення справжньої технологічної екосистеми. Потрібна лише воля зосередитися на сутності, а не на формі.
Можливо, замість того, щоб витрачати енергію на пояснення моделі, чий Крим, варто спрямувати її на створення датасетів, які допоможуть цій моделі стати справді корисною для українського суспільства.
Сподобалась стаття? Підписуйтесь на автора, щоб отримувати сповіщення про нові публікації на пошту.

103 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарів