Коли вийде національна LLM і скільки коштує її розробка. Головні питання CTO ШІ-центру Мінцифри Дмитру Овчаренку
4 лютого у межах стратегії інновацій WINWIN Мінцифри оголосило про запуск AI Center of Excellence. ШІ-центр має стати ядром національної ШІ-екосистеми. У лютому 2025 року команда анонсувала перші продукти та цілі. Серед них — створення ШІ-асистентів у «Дії», «Мрії» та юридичних сервісах, зростання ШІ-стартапів на 50% на рік, а також запуск національної мовної моделі.
За технічне втілення відповідальний Дмитро Овчаренко, екскерівник GenAI-напряму в SoftServe. Він став CTO ШІ-центру. Ми поговорили з ним про те, що насправді стоїть за створенням української LLM: які елементи вона має містити, що мовна модель зможе робити і кому буде корисна, чи вистачає в Україні обчислювальних потужностей, на яких даних її навчатимуть і як навчити LLM правильно відповідати на запитання типу «Чий Крим?».
Також поговорили про архітектуру, бюджет, роль університетів, плани щодо відкритого коду, ризики атак і перспективу увійти в трійки країн світу за AI у публічному секторі.
Найбільша технічна конференція DOU Day вже
Купуй квиток зараз, бо потім — буде дорожче!
«На запитання „Чий Крим?“ відповідь має бути однозначною». Про національні LLM
— Що таке національна LLM і чим вона відрізняється від інших мовних моделей?
Національна LLM — це велика мовна модель, яка створюється з урахуванням мовних і культурних особливостей певної країни. Вона зазвичай базується на open-source архітектурах, таких як LLaMA, Mistral або Gemma, і доповнюється специфічними національними мовними корпусами.
Тренд на національні LLM розвивається паралельно з комерційними та опенсорс-рішеннями. Зараз національні LLM мають понад 15 країн: Саудівська Аравія, Польща, Сингапур, Казахстан, OAE, Японія тощо.
Є два підходи до створення національної LLM: взяти опенсорс-архітектуру й доповнювати її корпусами національного контексту, тобто специфічними мовними даними. Або ж тренувати модель з нуля.
Національна LLM може виконувати безліч функцій, як і комерційні моделі. Наприклад:
🔵 У «Дію» щомісяця надходить до 100 тисяч запитів від громадян — про сервіси, замовлення чи проблеми з функціонуванням. Це велике навантаження для команди підтримки, тож віртуальні AI-асистенти розвантажать команду і підвищать ефективність роботи.
🔵 Мовну модель можна використовувати для аналізу нормативних актів. Наприклад, у Мінцифри ми перевіряємо нормативні акти на наявність цифрових аспектів — згадки про бази даних, обробку інформації, застосунки. Уже зараз ми інтегруємо асистента в систему документообігу АСКОД, який виділяє важливі моменти й пояснює, чому на них варто звернути увагу. Це економить час експертів і прискорює ухвалення рішень.
🔵 В оборонній сфері теж є кілька варіантів застосування LLM — від генерування синтетичних даних до аналізу різних ситуацій. Але це не публічна історія.
🔵 Ще один приклад — застосунок «Мрія». Тут мовна модель зможе допомагати організувати навчальний процес, перевіряти тестові завдання, або робити рекомендації. Наприклад, якщо учень має здібності до малювання, модель запропонує йому відповідні навчальні матеріали.
Загалом національна мовна модель буде використовуватися в усіх сферах. Передусім це буде корисно в телекомунікаційному секторі, для банківських і фінансових компаній.
— Чи є країни, які розробляють мовну модель з нуля, окрім Китаю?
Я таких прикладів не бачу. Навіть Саудівська Аравія, маючи величезний бюджет, використовує pre-training. У них є модель ALLaM на 70 мільярдів параметрів, але вони все одно базуються на наявних архітектурах. Їхній мовний контекст досить специфічний, адже існує багато діалектів арабської мови.
Індія теж обрала шлях pre-training на основі опенсорс-архітектур. Вони працюють із 18 різними діалектами, що додає складності. Аналогічно в Японії.
Чому більшість країн обирають саме цей підхід? Бо мета — не просто створити модель «заради хайпу». Ключове завдання — адаптувати моделі до національного контексту, щоб вона відповідала конкретним потребам.
Які саме цінності LLM ми виділяємо для себе:
- Культурне значення. Наприклад, на запитання «Чий Крим?» відповідь має бути однозначною. Плюс модель повинна враховувати правильні наголоси, терміни, діалекти тощо.
- Безпека. Деякі застосунки та державні організації не можуть розміщувати свої моделі в хмарі. Вони повинні працювати локально, на серверах міністерств або відомств, без виходу за межі певної будівлі.
- Оптимізація вартості. Українська мова має більш складну морфологію, що впливає на токенізацію. Наприклад, якщо порівняти одне й те саме речення англійською та українською мовами, то кількість токенів у другому випадку буде в
1,5–3 рази більшою. Це впливає на швидкість роботи моделі (кількість опрацьованих токенів за секунду) і вартість обчислень, оскільки комерційні моделі беруть плату за кожен токен.
Для прикладу, у Мінцифри обробляється близько 100 тисяч документів на рік. Один нормативний документ у середньому містить
«Українська модель буде у вільному доступі для некомерційного сектору». Про технічні аспекти LLM
— На якому етапі зараз розробка україномовної LLM?
Ми ще не перейшли безпосередньо до її розробки. Зараз триває етап формування концепції: визначаємо задачі, формуємо оргструктуру, збираємо команду, оцінюємо бюджет і таймлайн, шукаємо партнерів і механізми залучення науковців, університетів і бізнесу.
Вибір моделі — це досить складне завдання. Ми спочатку фокусувалися на одному провайдері, але світ штучного інтелекту розвивається дуже швидко. Постійно з’являються нові архітектури, моделі, і нам доводиться тестувати різні варіанти, щоб ухвалити оптимальне рішення на основі бенчмарків. Тому ми ще не обрали, на основі якої архітектури робитимемо нашу.
«Єдине, що можу сказати точно: ми не розглядаємо китайські моделі та підходи»
Ми багато аналізуємо досвід інших країн, зокрема орієнтуємося на дослідження OpenBabylon, УКУ та lang-uk.Тут дуже детально описано підходи різних держав до створення мовних моделей. На базі цих напрацювань ми сформували свій roadmap, розуміємо ключові етапи роботи та оргструктуру.
Українська модель буде у вільному доступі для некомерційного сектору — держави, університетів, шкіл, науковців. Щодо бізнесу, то ще думаємо над умовами. І процес створення має бути максимально публічним. Бо ми не знаємо деталі про досвід інших країн, тому хочеться розповідати про кожен етап: як планували, тестували, організовували.
Точно можу сказати, що це буде pre-train на наявній архітектурі, а не розробка з нуля. Це значно дешевше, але все одно потребує серйозного фінансування. З досвіду інших країн скажу, що бюджет може коливатися від $1,5 до 8 мільйонів. Державного фінансування не передбачено, тому шукаємо інвесторів для цієї ініціативи.
Наш фокус — маленькі мовні моделі
Основна відмінність національної LLM для нас — мовний контекст:
- Використання національних токенів.
- Токенайзер і ембединги.
- Вбудовані механізми контролю безпеки (guardrails).
Будь-який публічний продукт відразу стане мішенню для атак, тому питання захисту критичне. Guard — теж модель, тут ми орієнтуємося на Llama Guard, яка має гарні результати в тестах. Це моделі приблизно на 1 млрд параметрів.
Тому триває підготовчий етап, і вже у квітні маємо ухвалити остаточне рішення про архітектуру та інвестора, з яким будемо працювати далі.
— Чи вистачає в Україні обчислювальних потужностей для навчання LLM?
Якщо говорити про pre-train, то, на жаль, наявних обчислювальних ресурсів в Україні не вистачає. Ми розуміємо, які GPU потрібні для навчання маленьких і середніх моделей, і якщо використати всі доступні потужності дата-центрів в Україні, ми просто заберемо всі GPU-ресурси.
Але якщо говорити про інференс (використання вже натренованої моделі), то в нас є хороший потенціал. Ми локально тестуємо різні моделі на H100 і менш потужні GPU, аналізуємо архітектурні виклики та можливості масштабування.
Дата-центри в Україні активно розвиваються в цьому напрямку. Я спілкувався з лідерами ринку та хмарними провайдерами, всі вони готуються до майбутніх AI-навантажень.
— На яких даних її тренуватимуть?
Збір дата-сету для pre-train, ембедингів, токенайзерів і майбутніх моделей — це складний процес. У нас є багато книжок українською мовою, але вони захищені авторським правом, і це ускладнює використання цих артефактів для навчання моделей.
Тому я б хотів подякувати ком’юніті та університетам, які вже роками збирають відкриті джерела українською мовою. Це й новини, Вікіпедія і так далі. Також є дата-сет «Малюк». Він один з найбільших — 113 гігабайтів вичищеного тексту. Крім нього, є NER-UK, UA-GEC, БрУК та інші.
Цих даних достатньо для малих моделей, але явно не вистачить для середніх. Ми вже знаємо, де знайти більше даних. Зараз спілкуємося з університетами та науковими структурами, будемо працювати в цьому напрямку.
— Як модель працюватиме з чутливими даними?
Ідеального дата-сету не існує, тому питання чутливих тем, як-от «Чий Крим?», будемо розв’язувати через донавчання моделі після її базового тренування. Спочатку модель навчиться на загальному масиві текстів з відкритих джерел, а потім буде fine-tuning на спеціально підготовлених даних.
Важливо, що ці дані проходитимуть перевірку експертами — істориками, лінгвістами, культурними діячами. Саме вони сформують «етичний борд», який відповідатиме за якість інформації. Джерелами будуть новини, наукові публікації та інші перевірені матеріали, що не містять дезінформації.
Тобто модель не просто «візьме» дані з інтернету, а проходитиме додатковий шар фільтрації та адаптації під наш контекст.
— Коли планується запуск національної LLM?
Відповідно до нашої Roadmap, за ідеальних умов середня модель має вийти через дев’ять місяців. Тобто в листопаді-грудні 2025 року. Але це не тільки модель, а й guardrail, ембединги, токенайзер. Тобто ціла екосистема певних моделей.
Перед релізом моделі є ще кілька важливих етапів, які необхідно пройти. Один з них — оцінювання людьми (Human Evaluation). Для цього потрібно залучити велику кількість профільних експертів, які тестуватимуть модель за різними запитами. Вони оцінюватимуть відповіді моделі, визначатимуть правильні та неправильні відповіді і допомагатимуть у коригуванні її роботи.
Security red teaming — це етап тестування безпеки моделі. Він охоплює перевірку моделі як самостійно, так і її взаємодії з guard (захисним механізмом), що передає запити та відповіді від моделі. Тестування на вразливість допоможе виявити можливі недоліки в безпеці та захистити модель від потенційних атак.
Необхідно також забезпечити правильне отримання результатів (інференс) для тестування моделі. Це може стати певним викликом, оскільки потрібно не тільки перевірити роботу моделі, а й впевнитися, що вона працює стабільно в реальних умовах. Цей етап передбачає налаштування інфраструктури для тестування.
Важливою є підготовка документації, що охоплює всі етапи проєкту, його реалізацію та застосування.
— Які можуть виникнути труднощі на цьому етапі?
Ризиків кілька. Досвід інших країн показує, що експертиза у створенні таких систем — унікальна. Якщо ми починаємо з нуля чи навіть з попереднього навчання, потрібно побудувати інфраструктуру, розробити правильні бенчмарки, підготувати і почистити дата-сет, усунути дублікати. Це складні етапи, на яких можуть виникнути різні проблеми.
Наприклад, доступність інфраструктури в потрібний час — це очевидний ризик. Навчання моделі може займати місяці, залежно від масштабів потужностей. Тут важливо, щоб у нас був доступ до нобхідних ресурсів вчасно.
Ще один аспект — створення організаційної структури. Ми повинні забезпечити, щоб певні органи, зокрема культурно-етичні, були максимально незалежними від інвесторів. Це дозволить їм заблокувати проєкт, якщо модель працюватиме не так, як очікувалось.
З культурно-етичними питаннями тісно пов’язана безпека. Ми впевнені, що модель одразу потрапить у зону ризику атак, тому потрібне належне тестування системи безпеки — red teaming.
Загалом цей проєкт є дуже складним в організаційному плані. І, звісно, виникає питання фінансування — якщо його не буде, не буде й проєкту.
— Чи має українська LLM шанс стати конкурентом на міжнародному рівні?
Якби ми створювали LLM з нуля, то, можливо, у нас були б амбіції на міжнародний рівень. Основна мета української LLM — це задоволення внутрішніх потреб, а не глобальна конкуренція. Наш фокус — закрити потреби всередині країни, і я б хотів, щоб бізнеси в Україні конкурували між собою за допомогою мовних моделей для покращення своїх сервісів і загального рівня життя. Нам важливо створювати корисні асистенти і бути більш ефективними в управлінні країною.
Основна аудиторія при розробці української мовної моделі — це внутрішній ринок, варто спочатку збагачувати себе. І для цього у нас є необхідні ресурси. Тому коли ми говоримо про конкуренцію, то йдеться не стільки про саму модель, скільки про кількість і якість сервісів, які вдасться запустити. Якщо наша мета — стати однією з провідних країн у впровадженні штучного інтелекту в публічні сервіси, то саме кількісний показник стане рушієм, який дозволить нам рухатися швидше.
Зокрема, ми прагнемо до 2030 року увійти до трійки країн світу за розробкою та впровадженням AI у публічному секторі. Зараз до трійки лідерів входять США, Сингапур і Велика Британія. У британців приблизно 200 AI-сервісів в уряді. Нам потрібно рухатися в цьому напрямку.
— Як впровадження національної LLM вплине на ринок праці?
Вплив буде комплексним. По-перше, це нові можливості для студентів і науковців, які зможуть долучитися до валідації даних, тестування моделей і їх застосування. Це також посилить роль університетів у підготовці AI-фахівців.
По-друге, це дасть поштовх розвитку бізнесу, адже компаніям доведеться адаптуватися до нових технологій, інтегрувати AI-рішення та будувати AI-стратегії. Це стосується не лише великих корпорацій, а й малого та середнього бізнесу.
Крім того, AI створить попит на нові спеціальності та змінить традиційні підходи до роботи в різних галузях. Ми очікуємо, що це призведе до зростання продуктивності компаній та їхньої конкурентоспроможності.
Це також сприятиме розвитку локальних дата-центрів і клауд-провайдерів, що зміцнить AI-експертизу в Україні.
«Зараз у роботі вісім проєктів одночасно». Про AI Center of Excellence
— Які функції покладені на AI Center of Excellence?
Ключовий фокус центру — створення AI-продуктів. В Мінцифри є окрема команда, яка займається правовими аспектами та формуванням політики. Ми з ними співпрацюємо.
Наше основне завдання — дослідження та розробка (R&D), створення AI-лабораторій, а також надання бізнесу та партнерам можливості створювати AI-проєкти в Україні.
— Які продукти в розробці, окрім LLM?
Паралельно з LLM ми працюємо над іншими продуктами. Нині в роботі вісім проєктів одночасно: асистент для «Дії», Slack-боти для різних питань, зокрема HR-кейси, створення OKR, типові «питання-відповіді». Окрім того, ми як команда центру допомагаємо «Мрії» з AI-кейсами. Їхній запуск планується до кінця року.
— Під час презентації ви планували зростання стартапів на 50% в рік. Яким чином плануєте це реалізувати?
По-перше, штучний інтелект привертає увагу. Багато великих технологічних компаній мають спеціальні грантові програми для AI-продуктів. Наразі ми налагоджуємо стратегічні партнерства з цими компаніями, щоб полегшити доступ українських команд до таких грантів.
Ми також співпрацюємо з університетами та плануємо організувати низку хакатонів протягом цього та наступних років. Будемо інформувати університети, команди та компанії про можливості отримання фінансування для їхніх проєктів.
Створення AI Center of Excellence вже стало стимулом для співпраці з іншими країнами. Тепер вони розуміють, що можуть взаємодіяти з командою, яка спеціалізується на розвитку AI-проєктів та продуктів як для державного сектору, так і для підтримки бізнесу в цій галузі.
— Які компанії розглядаєте як інвесторів для LLM?
Наразі ця інформація під NDA. Можу сказати лише, що концептуально ми розглядаємо інвестиції від бізнесу і потенційне залучення інфраструктури провайдерів. Тут нам без підтримки великих гравців або суперкомп’ютерів університетів не обійтися.
— Чи плануєте розширення команди в найближчому майбутньому?
Залежить від цілей. Якщо ми побачимо, що з’явилася нова ціль і потрібно більше людей для її реалізації, то будемо розширюватися.
67 коментарів
Підписатись на коментаріВідписатись від коментарів Коментарі можуть залишати тільки користувачі з підтвердженими акаунтами.