Національна LLM: між політичними амбіціями та технологічними реаліями

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Вітаю! Мене звати Сергій Петренко та для багатьох я відомий як колишній керівник Яндекс.Україна та засновник одеського коворкінгу «Термінал 42». Але останні декілька років я займаюся проєктами, повʼязаними з AI, тому мене цікавить розвиток AI-технологій в Україні та популярна зараз тема створення національної мовної моделі. Якщо вам теж цікаво відокремити політичний піар від наявних технологічних проблем, сподіваюсь на вашу увагу та участь в дискусії.

Останні декілька місяців ми багато чуємо про створення національної LLM. Ця мета була декларована ще у лютому цього року, потім на DOU вийшло інтервʼю CTO Центру AI Excellence Дмитра Овчаренка, а нещодавно пролунала заява міністра цифрової трансформації Михайла Федорова, в якої навіть був названий термін запуску першої версії LLM — кінець цього року.

Весь цей час в будь-якій дискусії неодмінно постає питання — «А чи взагалі потрібна національна LLM? Яка мета її створення? Як її можна буде використати? Для чого її створювати при наявності багатьох вже існуючих моделей досить високого рівня?». На жаль, відповіді представників держави — це якась суміш технологічних, безпекових та політичних аргументів, де останні посідають значне, якщо не перше місце.

Чи справді українська мова потребує окремої моделі

Звісно, національні LLM існують — китайські Ernie та Qwen або арабська ALLaM. Але, по-перше, ці країни мали об’єктивні технічні причини для створення власних моделей. Арабська мова з її семітською морфологією та письмом справа наліво створює унікальні виклики для токенізації. Китайська з її ієрогліфічною системою потребує інших стратегій токенізації.

А що з українською? Так, наша мова флективна, має складну морфологію, на відміну від англійської, і токенізатор GPT-4 дійсно бачить в українському тексті на 30-50% більше токенів, ніж в його англійському перекладі. Слово «London» — це один токен, «Odessa» — два, а «Одеса» — цілих три. Але перш за все це не катастрофа, це просто додаткові витрати на обробку. По-друге, будь-яка мова з морфологією, тобто синтетична, буде програвати аналітичній мові, де морфологія відсутня або обмежена, як в англійської. Так, можна (та й потрібно) розробити власний токенізатор, але мову-то ми не змінимо, тому обробка тексту української завжди буде коштувати дорожче.

Найголовніше — українська вже достатньо непогано представлена в існуючих моделях. GPT-4 розуміє українську, Claude працює з нею цілком пристойно, навіть Llama 3.1 показує пристойні результати. Так, не ідеально, але функціонально. Чи варто витрачати гроші та інші ресурси на розробку власної моделі, яка в кращому випадку досягне 70-80% якості GPT-4?

Справжня проблема: дані, дані й ще раз дані

В заявах міністра Михайла Федорова лунає цікава згадка про «унікальні українські дані», на яких зможе навчатись модель. В декількох колонках та виступах він повторює, що національна модель буде краще розуміти українську мову та давати «більш якісні відповіді як лінгвістично, так і стосовно фактів та ідеологічних запитань, які стосуються історії України, політичної ситуації та війни». Виникає враження, що наявні моделі взагалі про українську мову або війну гадки не мають, а достатньо додати текстів з правильними твердженнями українською й результат перевищить будь-які західні LLM, з GPT та Claude Opus включно.

На жаль, це не так. Дійсно, додавання даних в навчальний датасет поліпшує знання моделі. Але, по-перше, чому вважається, що ці «унікальні українські дані» невідомі сучасним LLM, а по-друге — а скільки таких даних у нас є?

GPT-3 навчалася на 300 мільярдах токенів, GPT-4 — орієнтовно на 10-15 трильйонах. Llama 4 використала 30 трильйонів токенів. А скільки якісного українського контенту доступно зараз?

За найоптимістичнішими оцінками, ми маємо:

  • Корпус ГРАК: 400 мільйонів токенів.
  • ukTenTen: 7.5 мільярдів слів (приблизно 10 мільярдів токенів).
  • Українська Вікіпедія: 1.36 мільйона статей (близько 500 мільйонів токенів).
  • mC4 Ukrainian: 196 ГБ стиснених даних, 30–35 млрд сирих токенів, але після фільтрації залишається максимум 30-40%.

Підсумок: 15-25 мільярдів якісних українських токенів — це вся доступна база. Для порівняння, це менше ніж 0.2% від обсягу даних, на яких навчалася GPT-4.

Та і якість цих даних викликає питання. Значна частина вебконтенту — машинні переклади сумнівної якості, дублікати, тексти з домішками російської мови. Після належного очищення ми ризикуємо залишитися з ще меншим обсягом.

Та навіть якщо так зробити з Llama Scout або Maverick і довчити її на всіх доступних українських даних, результат може розчаровувати.

Чому? По-перше, модель може «знати» більшість того, що ми їй додамо — українська Вікіпедія, новинні сайти, класична література вже були в її тренувальних даних. По-друге, 25 мільярдів токенів — це, відверто кажучи, недостатньо.

А скільки треба? Це, до речі, не так складно порахувати — за дослідженнями, оптимальна LLM має приблизно 15-25 токенів на параметр. Якщо ми беремо найлегшу Llama 4 — Scout, — у якої активні одночасно 17 млрд параметрів, то як мінімум потрібно 255 млрд токенів контенту. Навіть якщо 50% датасету буде складати англомовний контент (бо дуже багато контенту, який містить корисні знання, просто не існує українською), це все одно на порядок більше, ніж ми маємо.

Можна піти іншим шляхом

Насправді навчання моделі з нуля — це дорого та довго. Тому я впевнений, що обрано шлях почати з fine-tuning існуючої моделі. Це полегшує як старт, так й подальший розвиток продукту, хоча водночас звужує його можливості.

Так, починаючи з fine-tuned Llama, та додавши їй можливість підключення до бази знань, ми отримаємо досить якісну модель для функціонування чат-бота — наприклад, для служби підтримки державних органів або великих компаній.

Справжній виклик: системна робота з даними

Але цей підхід — лише тактичне рішення. Стратегічно Україна дійсно потребує власної цифрової екосистеми, і LLM може стати її частиною. Але для цього потрібна системна робота, яка виходить далеко за межі технічного проєкту.

Створення інфраструктури даних. Замість того, щоб шукати гроші на навчання моделі, варто інвестувати в створення якісних українських датасетів. Якщо ми говоримо про 15-25 млрд токенів існуючого контенту, то це не взагалі весь існуючий контент українською — це лише те, що доступно, тобто існує в цифровому форматі.

Тому створення датасетів означає:

  • Цифровізацію існуючого контенту включно з архівами.
  • Цифровізацію державних реєстрів з можливістю машинної обробки.
  • Стимулювання створення українського контенту в інтернеті.
  • Партнерство з видавництвами для доступу до літературних творів.
  • Координацію з освітніми закладами для збору академічних текстів.
  • Створення українських перекладів для наявного контенту іншими мовами.
  • Створення синтетичного контенту. Це буде вимагати не лише вкладень в інфраструктуру та GPU-годин — неодмінно постане питання копірайту, наприклад.

Інтеграція з цифровізацією держави. Національна LLM має сенс тільки як частина загальної стратегії цифровізації. Диджитал-послуги, електронний документообіг, автоматизація держустанов — ось де модель може принести реальну користь. І ось де можна збирати дані для її покращення.

Політика vs технології

На жаль, ця тема дуже легко політизується.

Коли CTO державного AI-центру говорить про «культурне значення» як головний аргумент для створення LLM та згадує питання «Чий Крим?» як головний тест для моделі, це сигналізує про підміну понять. Культурне значення — важливий фактор, але він має бути наслідком технологічного успіху, а не його метою.

Тим більше, що ми знаємо приклади ідеологічно коректних відповідей китайських LLM, які вважають, що у 1989 році на Тяньаньмень нічого не трапилось. Чи такий рівень «розуміння контексту» нам потрібен?

Політика буде впливати навіть на технічні рішення. Наприклад, мультимовне навчання, тобто додавання до датасету даних споріднених слов’янських мов дозволяє, розширюючи обсяг, зберігати продуктивність на рівні 70-80% від чисто українських даних. Так можна досить легко набрати до 200 млрд токенів, але ж — ви здогадуєтесь, яка саме мова дасть найвищу продуктивність та має багато контенту?

Реалістичний план дій

Якщо мета — справді технологічний прогрес, план має бути інакшим:

Етап 1 (6 місяців). Практичне застосування

  • Впровадження існуючих LLM для автоматизації держпослуг.
  • Створення RAG-систем на базі українських даних.
  • Збір статистики використання та проблемних моментів Мета — створення рішення рівня GPT-3.5 та покриття до 90% масових задач у публічному секторі.

Етап 2 (1-2 роки). Нарощування даних

  • Системна цифровізація державних процесів
  • Цифровізація архівів та реєстрів.
  • Стимулювання створення українського контенту.
  • Партнерства з приватним сектором для доступу до даних Мета — створення моделі рівня Llama 4 Scout з повною підтримкою української мови та довгого контексту.

Етап 3 (2-3 роки). Власна модель рівня GPT-4 або Llama 4 Maverick

  • Коли буде зібрано 100+ мільярдів якісних токенів.
  • Коли сформовані чіткі технічні вимоги.
  • Коли є ресурси для конкурентоспроможної розробки.

Такий підхід дозволить створити не політичний проєкт, а справжню технологічну платформу, яка принесе користь державі та громадянам.

Висновки

Україна дійсно потребує технологічної незалежності, особливо в умовах війни. Але шлях до неї лежить не через політизовані декларації, а через системну роботу з даними, інфраструктурою та застосуванням існуючих технологій.

Національна LLM може стати символом цифрового суверенітету, але тільки якщо її створення базуватиметься на раціональних технічних рішеннях, а не на бажанні мати «правильні» відповіді на політичні питання.

Поки що ж, судячи з перших заяв, проєкт ризикує стати черговим прикладом того, як політичні амбіції заважають технологічному прогресу. І це справді сумно — адже Україна має все необхідне для створення справжньої технологічної екосистеми. Потрібна лише воля зосередитися на сутності, а не на формі.

Можливо, замість того, щоб витрачати енергію на пояснення моделі, чий Крим, варто спрямувати її на створення датасетів, які допоможуть цій моделі стати справді корисною для українського суспільства.

Сподобалась стаття? Підписуйтесь на автора, щоб отримувати сповіщення про нові публікації на пошту.

👍ПодобаєтьсяСподобалось25
До обраногоВ обраному4
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Хороша стаття, хороші коментарі (не всі). Дякую автору!

Пару суб’єктивних коментарів:
— я б не брався за РАГ в першому етапі, я б ліпше взяв меншу модель (Mistral, Phi-4, etc) + QLoRA. Легше підтримувати інфру для моделі ніж інфру для моделі+векторної бд, плюс питання оцінки якості (з РАГом треба додатковий датасет).
— якість даних важлива. Публічні та великі датасети вже у Llama/GPT/... Але їх попередня обробка викликає сумнів (особливо якщо застосовувались ті ж підходи що і для англійської). Я думаю що якісніша обробка тих же ж великих датасетів + додавання менших (lang.org.ua/en/ubertext github.com/fido-ai/ua-datasets ) дасть можливість pre-train маленької моделі. Якість сумнівна може вийти але ж захочеться мати і показати якийсь результат поки продовжується збір існуючих та створення нових датасетів...
— я б не орієнувався на Llama 4 Scout, так активних 17млд, але ж навчання відбувається на всіх 109млд. Метриками оцінки мають бути не кількість параметрів чи на яких серверах крутиться, а як добре покриває і автоматизує процеси під яких вона була створена.
— децентралізація контенту. дані не повинні лежати в одному місці чи менеджитись одним суб’єктом (країна, тов, людина). потрібна підтримка та співпраця багатьох компаній та інституцій (бібліотеки, універи, інше)
— етап 2 немає релізу/продукту? то мабуть не дуже... людям треба видовищ (треба ж щось обсирати/хвалити) бо в іншому випадку це ж гроші на вітер (нову дачу).

дякую за якісний матеріал

на мою думку, запропонований план виглядає реалістично і може бути дійсно імплементований при системній роботі

також вбачаю велику цінність і потенціал в цифровізації «паперових носіїв» української мови

також наразі не вбачаю проблеми, в «політизація» цієї теми
її потрібно «продати», таких захід на тему її «продає», все ок, якщо не загратись далі

Підтримую запропонований план дій. Без якісних даних немає сенсу рухатись далі. Garbage in — garbage out.

Етап 2 (1-2 роки). Нарощування даних
Цифровізація архівів та реєстрів.

— доступ до архівів обмежений. наприклад ви не маєте права взяти довідку про моє народження а я — про ваше.

Якщо натренувати LLM на держархіві ЗАГС — то де гарантія що я не зможу отримати відповідь на питання «де народився Сергій Петренко і хто його біологічні батьки»?

Саме свідоцтво про народження на мене ви не зможете отримати, як не тренуйте LLM 😊.

Коментар порушує правила спільноти і видалений модераторами.

Когда херассмент и дискриминация стоят во главе угла, то такие комментарии не удивляют.

Від тебе негативна радіація, рускій сапог

Чи варто витрачати гроші та інші ресурси на розробку власної моделі, яка в кращому випадку досягне 70-80% якості GPT-4?

ось аналогічна ситуація:
чи варто купляти велосипед, якщо він не їздить так швидко, як сусідське авто ?

ні, це не «аналогічна ситуація» ;)

«Термінал 42»

Хороше було місце, атмосферне )

Створення RAG-систем на базі українських даних.

Недавно цікавився, для побудови локального порадника, доступом до баз законодавства та судової практики. Незрозуміло як оце до них отримати доступ, не скрапаючи сайт.

Не дає можливості викачати до себе всю БД і отримувати оновлення.

за гроші все можливо :) ну чи наприклад за брендування у потенційному локальному пораднику чи шось у цьому дусі

за гроші все можливо

ось тут помиляєтесь, пробував з ними зв’язатися, вони не знають як ото ціну скласти )

заплили жиром значить

ну скрейпити державний ресурс я б не радив, щоб не довелося чекати гостей

Але у ВР є якесь апі і якісь розробники

Там десь контакти були
zakon.rada.gov.ua/laws/main/rules

4. Запобігання хакерським атакам
Забороняється використання анонімних проксі, системи TOR або інших мереж «ботів»! У разі, якщо потрібно отримати інформацію по API — зверніться до розробників, щоб вони занесли Ваш IP до «білого списку».

А про апдейти там в них теж помітив rss є

Зробіть просто пошук по законах задешево без судової практики — лігазакон потім сама прибіжить

Судова практика — то насправді фігня, все одно останнє слово скаже юрист і собсно суд

Судова практика — то насправді фігня

ось тут яб похоліварив.
Бо законодавство без знання, як його практично використовують, без так би мовити, графової хмари рішень не даює обчислити вектор практичної цінності ) ну іншими словами, як прутень без можливості змінювати тиск в ньому ))

холіварте скільки хочеться, просто в суд ідуть з юристом, а не з чатботом

Якщо хтось купить ші асистента з пошуком по законах в плані Basic — потім купить і самолікування на дому по судовій практиці в підписці яка «coming soon» ;)

Просто зробіть шось на будьякій базі що знайдете, маючи щось що можна показувати чи вже продати — завжди легше домовлятися. Може навіть альбертовіч з вами пофоткатись захоче сам хтоза )

В судову практику входять також рішення Верховного Суду та його пленумів. Так що це не фігня.

Так добути базу можна. Але, якщо ви подивитесь на більшість баз, то документи там майже не мають семантичної розмітки, лише візуальну. Тобто у більшості випадків назва статті закону — це просто збільшений шрифт. Навіть у прикладі за посиланням, де наче є тегі h2/h3, вони чомусь містять безліч візуального мусору. Тобто цю базу ще треба обробляти ще до того, як на чанкі різати. Та не факт, що все вдастся.

Так добути базу можна.

А запропонуйте легальний спосіб, крім скрейпінгу ))

Тобто цю базу ще треба обробляти

то як раз цікавий мені челендж, і якраз цікаво було мені б спробувати, але щоб без лігал ризиків ).

А чому ви вважаєте, що скрейпинг не є легальним? Законодавство України є публічною інформацією, доступ до якої гарантується законом. Ви маєте право скачувати документи з сайту ВР, якщо не порушуєте правил користування zakon.rada.gov.ua/laws/main/rules. Там навіть інструкція є, як звʼязатись з розробниками.

Це протизаконно, в тих правилах що ви не дочитали те й написано

У вас є і завжди був доступ до законів у будьякій бібліотеці де є архів газет голос україни й урядовий курʼєр

«11. Використання особами технічних засобів з метою реалізації своїх прав, передбачених Регламентом Верховної Ради України, законами України „Про звернення громадян“, „Про доступ до публічної інформації“ та іншими нормативно-правовими актами, через офіційний веб-сайт та інші веб-ресурси Верховної Ради України здійснюється за умови авторизації таких осіб та надання ними необхідної інформації.»
Можна ще раз про «протизаконно», але не взагалі, а з цитатою або посиланням?

Ви це всерйоз? Я вам шо інформбюро?

Хочете ддосити портал верховної ради під час війни бо вам треба «реалізація ваших прав»? Ви всерйоз не бачите тут кримінала й потенційних гостей? :D

Ви що, LLM, що так галюцинуєте? Де ви побачили DDOS? Напишіть розробникам, зробить нормальний rate limit та працюйте собі. Як, на вашу думку, пошуковики це все індексують?

Ойфсьо, я галюциную

ну то й пишіть розробникам, а не заявляйте що скрейпити портал держустанови — це нічого особіного

Тобто, якщо комусь написати, cURL стає кошерним? А якщо ні, то це «особіное»? Яка чудова мова й логіка.

Пан ексЦейВО яндекс і ЦейВО іще чогось там

А чому ви вважаєте, що скрейпинг не є легальним?

Покочану і поККУ. Крапка

Звільніть мене від своїх коментарів про мої мову й логіку

З повагою

Якщо без ддоса і нічого там не крадете, то без проблем. Лише якась тулза або адмін може вашу підмережу в баню відправити для профілактики, якщо попадеться на око.

Але простіше написати цій установі офіційного листа з проханням надати відповідні відкриті дані в якомусь архівчику.

да я не спорю, тільки ти глянь той портал для початку там ссилка на ссилці і в документах і в картках документів, яких тільки в одному кодексі десятки тисяч, а кодекс не один

Хто любить ризик — хай скрейпять радібога і дізнаються про легальність на досвіді

вашу підмережу в баню відправити для профілактики, якщо попадеться на око.

і чому мені здається що баном тут не обійдеться? Мабуть тому що військовий стан і смокалі роблять кібератаки нє? Тебе зразу положать і відмасажують, а потім вже питатимуть

Трошки альтернативних теорій вам в стрічку.
А що якщо всі розмови про власну мовну модель насправді треба розуміти як «Нам потрібно багато серверів з GPU, на яких ми будемо майнити біткоїни, через пів року скажемо, що нічого з LLM не вийшло й продовжимо майнити на державному майні солоденькі корупційні біткоїни... Не викидати ж залізо...»?

Біткоїни на GPU вже дуже давно не майнять...

З точки зору наявності халявних ресурсів.

Весь навар в того, хто їм все це обладнання продасть)))

Думаю це тупо чекати появи 100лярдів токенів чи 200лярдів токенів чи моменту коли почистять українську педівікію від смокальського мусора

Якщо вийде якісна модель на існуючих даних, то нема проблеми

Показником має бути якість моделі на стандартизованих тестах. А ставити проблему в розрізі «краще не старатись бо даних малувато» — фігово ставити проблему

Якщо умовна llama 4 проходить умовне зно, й правильно відповість на питання чий крим, то тоді й виникне питання а чи треба нацмодель взагалі. Тягатись з сахарчуком і творити якийсь ФедоровЖПТ тоді нема сенсу. Ізі

Стратегічно нацмодель треба стопроцентів, але мабуть на часі важливі інші речі в контексті ші, ніж чатботи для вебшопів та аппки дія.

Якщо в бункерах сидять прошарені в ШІ мозки і стоїть якась серверна стойка повна жпу — їх явно не чатами нагружати треба, а як ефективніше нищити смокалів.

банально тренувати моделі коли енергетика під атаками — фіговий біг з перешкодами. Хоч в принципі тренувати можна в інших країнах, питання грошей на ето дєло теж критичне

Але в общем і целом, не з того кінця починати треба все це, а з стандартизованих тестів інакше це просто фігня й тринькання грошей

Національна LLM може стати символом цифрового суверенітету

От в жопу всі ці символи рілі. Ще не наїлися символами типу літака мрії, житниці європи, найбагатшої країни срср. Треба ще символів? Прагматизму треба, а не малювати ще символів і займатись шапкозакиданням з голой жопой

Який ще цифровий суверенітет коли банки працюють в американських клаудах (навіть не європейських). Забудьте про цифровий суверенітет (мається на увазі від країн нато звісно)

Цифровізацію

Цифра це слово іноземного походження (sifr — нуль). Тому перекладемо як «нулізація».
Але нуль це також слово іноземного походження (nullus — нічого, жоден). Тому перекладемо як «нічогація» чи «жоднізація».

Жаднізація — це щось про хведоріва і ко?

Хорошая статья с анализом и планом действий.

Гарний текст. Непогано представлена ситуація, в тому числі для розуміння тих, хто в LLM не занурений.

Колись, в давні часи, коли про LLM ще й не чути було, розмірковував на тему, що ми потребуємо системної роботи по створенню україномовного корпусу знаннь зі всього світу. В першу чергу для цілей організації навчальних процесів людей. Машині воно теж було б до вподоби.

Коментар порушує правила спільноти і видалений модераторами.

Коментар порушує правила спільноти і видалений модераторами.

Краще реформуйте мобільний зв’язок. Зараз спамерам дозволено турбувати громадян.
Щось не так з схемою, з алгоритмом, якщо не можна завчасно з’ясувати, хто вам дзвонить і для чого. Але навіщо тоді всі ці ШІ? Наприклад, коли один смартфон зв’язується з іншим, ми можемо спочатку провести незримий і невідчутний діалог між ШІ цих смартфонів на предмет встановлення того чи є такий дзвінок легальним, очікуваним, пріємлімим, allowed
Так, у реформованій системі, мій смартфон, для кожного хто мені дзвонить, висилав би текстову інформацію типу — «зараз не можу відповісти голосом, пришліть мені смс-ку»

Це не питання мобільного зв’язку, це про норми та дотримання законності...

Не знаю, в якому всесвіті ви мешкаєте, але в нашому існує телефонія без смартфонів.

Порадився з чатиком, виявилося що завдяки

існує телефонія без смартфонів

можу навіть створити власний додаток, щоб вести власну базу даних телефоних номерів, що мені телефонують. Якщо створити децентралізовану версію то отримаємо децентралізовану базу даних веріфікованих телефоних номерів.
P.S.
Просто хтось мені кожен день дзвонить з одного кластеру номерів. Не хочу брати трубку. Тому й замислився над подібним реформуванням.

З андроїд крім стд phone app (з хісторі заблокувати номер) вже десь були більш функціональні аппс по фільтрації спаму

Як що до ШІ агента секретаря з власним сіп номером? Хай дзвінки йому переадресовує мобільний оператор, а тоді цей секретар ШІ агент мені вже розповість хто мені дзвонив і чого від мене хотів.

фільтр звичайних дзвінків був ще набагато раніше до ШІ, решта не в курсі

Купить собі iPhone та потестуйте нову бету iOS — там є саме така опція. Що правда, тільки англійською.

В Польщі багато хто юзає голосову пошту, як звичайний месенджер. Мені перший час дуже незвично було, але до всякого звикаєш вже.

А ШІ агенту довірили б? (Питання для мого маркетингового дослідження)

Дивлячись, що. Я, зазвичай, навпаки б зробила мінімум месенджерів. Але, наприклад, у Польщі юзають переважно WhatsApp, або, ще гірше- смс пишуть:).
А вдома — телега, вайбер ітд

Ну тобто... Я це уявляю так: ШІ агент буде тримати під своїм контролем взагалі всі ваші контактні адреси чи номери. Буде звертатися до вас, коли трапиться щось важливе — обумовлене між вами раніше. Якійсь час знадобиться для більш щільного налаштування, але після того — сама смакота.

Я думаю, що глобально ми до цього дойдемо.Бо зараз ми самі, якби виставляємо пріоритети, що в календарях, що в пошті. Але ж тоді з’явиться щось інше:)

По-перше, білі листи — сумнівна ідея. По-друге, ви дійсно нічого не чули про GetContact, TrueCaller, Hiya або ще безліч таких додатків?

Коли ви комусь дзвоните — ви його турбуєте, пригнічуєте. Коли хтось дзвонить вам — він пригнічує вас. Голосовий зв’зок ненадійний — можна щось не те почути, чи навіть ввести у оману спєшкою. Тому спершу — перед дзвінком треба встановити не голосовий контакт — перевірити чи номер прийнятний — якщо його немає серед знайомих чи очікуваних номерів вислати смс — «спершу повідомте хто ви і що ви»
Дякую за перелік — подивлюся про ці додатки.
Раніше не було потреби так потужно захищатися.

Будь ласка, не треба розповідати іншим, як треба.

О! Ви праві. Це непогана ідея — розповісти іншим. Зроблю так: замовлю у якось ШІ сервіса (що створює відео) на безкоштовні токени пояснювальне відео «як треба» та опублікую на ютюбе та у тік ток.

Последнее давно уже реализовано в старых Нокиях — быстрые СМС ответы: там есть как готовые шаблоны, так и возможность добавить свои. Поэтому возникает вопрос, насколько для вас актуально то, что вы пишите.
Есть голосовая почта: настроили переадресацию по занято и отправляете все незнакомые номера туда.

Так й в смартфонах це є вже давно. Але ж реформувати мобільний звʼязок — це амбітна мета 😊

А что конкретно вы хотите реформировать в моб.связи?

Я — нічого. Хоча не відмовився б від впровадження заборони на професію для працівників департаментів маркетингу мобільних операторів. Більшість спаму я отримую саме від них.

Нащо питати чий Крим, не потрібно про Крим вчити, яка різниця чий Крим.. Чогось як побачив згадку яндексу, відразу відчув що якась така херня буде)

В першому ж реченні ви пишите "

для багатьох я відомий як колишній керівник Яндекс

«.

В мене є деякі думки.
Преше твердження — Великі цифрові компнії рф, такі як Яндекс, інтегровані зі спецслужбами росії та діють в інтересах кремля.
Друге — Ви працювали на посаді СЕО Яндекса у період Революція Гідності та анексії Криму.
Далі проста операція зайнома всім хто готувався до ТЗНК.
Підчас анексії Криму ви працювали на керівній посаді в компанії яка інтегрована зі спецслужбами рф та діяла а інтересах кремля.
З цим контекстом ваше акцентування на темі «чий Крим» має додаткові відтінки.

Якби ваші твердження мали б хоча б малий збіг з реальністю, то можна було б припустити, що у вас є думки. Але насправді це фантазії.
Насправді — з листопада 2013 року українські користувачі Яндексу навіть можливості не мали побачити російські новини та джерела та це було зроблено за моєю вимогою.
У лютому 2014-го на Яндексі була зроблена окрема сторінка, де оновлювалась інформація щодо можливих перешкод, якщо ви планували добратися у Київ.
У березні 2014 року ми за тиждень так чи інакше переробили 27 сервісів, щоб в будь-якому випадку зберегти відображення Криму як частини України — для самого Криму включно.
До речі, у квітні 2014 року ми робили запуск Пробок у Львові спільно з представниками мерії — я щось не пригадую якихось гострих питань про спецслужби рф.
Ну, а що було у травні 2014 року, ви, напевно, й так знаєте.

Так, я багатьом відомий як колишній CEO Яндекс.Україна. Ви вважаєте, що я маю соромитись, що завдяки роботі, яку зробив я та мої колеги, в українських користувачів зʼявились перші україномовні сервісі пошуку, мап, навігації, контекстної реклами та інші? Чи я якось зачепив ваші амбітні розробки та ви вирішили перейти на особистості?

Так, я багатьом відомий як колишній CEO Яндекс.Україна. Ви вважаєте, що я маю соромитись,

так.

я б принаймі посоромився згадувати про це у публічній статті у першому абзаці

Ви написали ряд прикладів, але не спробували напряму спростувати тезу.
Чи вважаете ви, що деякі великі цифрові компанії рф, зокрема Яндекс — не співпрацюють з спецслужбами рф? Нагадаю що робота компанії була заборонена рішенням РНБО та Яндекс знаходиться в санкційних списках багатьох західних країн.

І не поглиблюючись в тему трагічних подій травня в Одесі, те що саме вони, а не збройна агресія прото України, стали причиною для вас піти у відставку (але судячи з вашого лінкедіна ви продовжили працювати в яндексі аж до його заборони) — лягає у спільну світоглядну канву, що додатково змушує сприймати ваші згадки про належність Крима в пості, не просто як елемент технічної дискусії.

Іронічно, що стаття вийшла в день, коли навіть сумнівний Грок показав здатність правильно відповідати на питання чий Крим. То чи справді у західних моделей з цим проблеми?

зараз — «не наш». по факту. с прогматичної точки зору.

Україна, в сі часи, дуже політизована країна з відчутним дефіцитом прагматизму та надлишком емоційності.

Все гаразд, будувати цю LLM, що буде інтегрована в Дію і інші державні сервіси, будуть не на державні кошти, а на кошти Київстару, тобто на 47% на кошти російського олігарха Михайла Фрідмана

Так можливо й це була стратегія збору інформації. Ви дійсно вірите якщо що російські інвестори «дають гроші» й нічого не хочуть взамін?

Та це сарказм) Лише питання часу коли станеться ще один масштабний «злам» не зрозуміло з яких причин

Дивно спостерігати, як люди, нічого не розуміючи в економіці підприємств, роблять коментарі про кошти. А про AI щось додасте?

Ось добре, Ви, як колишній керівник Яндекс.Україна, як ніхто можете спростувати, що мажоритарний інвестор не має впливу на кадрові рішення або вибір підрядників для регіональних активів. Або ж розтлумачте чому нічого поганого в участі Київстара в цьому проекті немає.

Про АІ що додати — чекаємо поки Грамарлі на позичені кошти викупить якусь невелику лабораторію з власним ЛЛМ, додасть свої дані і клієнтську базу, а потім вже можна буде і про державні контракти говорити.

Так, я можу цілком чесно відповісти, що протягом 9 років в Яндексі жодного разу не бачив впливу власників Tiger Capital або Baring Vostok на якісь рішення в компанії.
Ваше уявлення, що, якщо інвесткомпанія, яку значною мірою контролює Фрідман, володіє 48% від холдингу, якому належать 100% Київстару, то будь-яка смска абонента одразу надсилається і всьому персоналу VEON, і всім працівникам LetterOne та персонально Фрідману, який кладе її в папку для Путина — це навіть не смішно.

Доведення до абсурду це не аргумент)
Так, Ви робили подкасти з колишнім СЕО Київстару, доброзичливо спілкувались, все круто. Київстар допомогає Україні, і певен що більшість співробітників достатньо патріотично налаштовані. Це не медіа, не можна порівняти з «журналістами» Медведчука що мали певні теми висвітлювати певним чином. Але хіба це потрібно?
У вас є інвестор, який може лобіювати певну людину, або обрати певного підрядника замість іншого — з тих що ви попередньо і самі розглядали. А тут хтось сумнівається за переобрання в борд, або треба як раз якесь складне рішення протягнути. І здається нічого поганого в цьому невеличкому виключенні з правил немає. А потім ця нанята людина, або співробітник того підрядника перейде випадково по фішиногому посиланню і дасть доступ до корпоративної мережі через що станеться злам. Ну хто в цьому винен? Ви може і не згадаєте потім що все почалося з невиного прохання.

Як на мене, значно краще було б зробити акцент не на створенні власної LLM. Адже зараз моделі кожні декілька місяців стають застарілими, бо з’являються все нові й нові від Facebook, Google, OpenAI, Anthropic та інших.

Натомість варто зосередитися саме на створенні, упорядкуванні та структуризації датасетів для тренування й бенчмарків LLM українською мовою. Причому ці датасети й бенчмарки мають бути публічними.

А вже як побічний продукт можна створити власну «референсну» національну LLM.

У такому випадку це не виглядатиме як «витратили кошти, створили, а через рік воно вже неактуальне». Навпаки, у цьому разі будь-хто зможе донавчити нові open source LLM на структурованих україномовних даних — це буде корисно для бізнесу, для студентів і науковців.

Я впевнений, що ці дані також потраплять у тренувальні датасети лідерів ринку штучного інтелекту, і їхні комерційні моделі ще краще розумітимуть українську мову й орієнтуватимуться в україномовних документах. Від цього виграють усі.

З мого досвіду, при файнтюнінгу LLM 90% часу й ресурсів іде саме на створення датасету, інфраструктури для роботи з ним і його ітеративне вдосконалення. Лише 10% — це сам процес і ресурси для донавчання open source моделі.
Тому дуже важливо правильно розставляти акценти: не на створенні національної моделі, а на створенні національного датасету й бенчмарків для навчання та тестування моделей.

Нарешті добре продумана критика проекту. Дякую.

Трішки доповнень і уточнень:
— 

Чи справді українська мова потребує окремої моделі
Найголовніше — українська вже достатньо непогано представлена в існуючих моделях

тут не вийде це оцінити на рівні непогано представлено. Для цього є бенчмарки. В нас десь існують вони в певних університетах, але нажаль в публічній комункації ініціативи Національна LLM їх не бачив.
— 

Інтеграція з цифровізацією держави.

складається враження що це велика частина причини створення цієї LLM — інтеграція АІ в публічний сектор. Тому тут фактично все саме так і рухається.
— в запропонованому Етап 1 недостатньо уваги до даних. Згадали по тексту, але в самому запропонованому плані — ні. А збір і знаходження нових даних займе час і ресурс
— наразі не бачу сенсу в моделях рівня GPT4 чи Llama4 Maverick під цією ініціативою — краще б мати змогу отримати дані для навчання бізнесами

Загалом в авторів є розуміння, що треба значно більше даних і над цим працюють, наскільки мені відомо. Думаю що на рівні вказаних моделей(в статті згадувалась Gemma7b) в команди все повинно вдатись. Що правда економічну доцільність требра вираховувати — чи є в цьому сенс.

Перепрошую, але наче статтю писав тількі я 😊.
Щодо того, як представлена українська в існуючих моделях, то за власним досвідом можу сказати, що законодавство України представлено досить повно, Вікіпедія теж. Я поки що не бачу ніяких «унікальних даних», що згадуються у промовах.

Перепрошую, але наче статтю писав тількі я

та нажаль було до цього дуже багато критики від інших авторів з слабкою аргументацією.

Щодо того, як представлена українська в існуючих моделях, то за власним досвідом можу сказати, що законодавство України представлено досить повно, Вікіпедія теж. Я поки що не бачу ніяких «унікальних даних», що згадуються у промовах.

є книги, різного роду архіви з відсутнім або напіввідсутнім цифровим доступом
можливо якась кількість бюрократичної інформації
теоретично якісь записи розмов в колцентрах і ще десь
подання та звіти

це складнодоступна інформація, але тим не менше теоретично до неї доступ отримати можна

Саме про них я й згадую у другому етапі. Але я майже впевнений, що це питання не найближчого часу.

Файн-тюнінг LLM на додаткових україномовних даних із подальшим їх використанням для специфічних завдань держсектору або українського бізнесу не така вже й погана ідея (особливо якщо це буде відбуватися не за бюджетні кошти, як обіцяють). Але ключовим тут дійсно є фактор наявності та чистоти тренувальних даних.

Вопрос: «У чому проблема національної ЛЛМ?»
Ответ: «В распиле бюджетных денег»

Ваш кэп.

Там поки що немає бюджетних грошей.

Не перейматесь, будуть. Команда мародерів Зе без відкату не працює.

Cхоже, це не проблема, а мета :)

Додам що з високою вірогідністю публічно доступні дані українською вже і так були частиною датасету для усіх флагманських моделей.
Вони пилососять весь публічний інтернет до якого можуть дотягнутися, в тому числі і Вікіпедію усіма мовами.
Я згоден що ключова проблема яку треба вирішувати це збільшення україномовного контенту.

«у чому проблема національної ллм?» навіщо вигадувати власний лісапєд?

Ну, хоча б для того, щоб завантажити дані «для службового користування»...

Ну от виходячи з даної логіки і робили б

Цифровізацію існуючого контенту включно з архівами.

а не піарились на темі АІ.
Але це ж нікому не цікаво, а так можна розповідати про національну ллм з блекджеком і шлюхами. )

Ну, дивиться, можливість користуватись LLM в хмарному сервісі в Україні може бути корисною вже зараз, якщо вам потрібно працювати з даними обмеженого доступу. Крім того, досить простий чат-бот на першому рівні підтримки може закрити велику купу юзкейсів в державі. Так що не варто підходити с позицією «або-або».

І як ви плануєте розмежувати права доступу до даних з обмежених доступом. На рівні ллм цього зробити не вийде, прийдеться робити окремий інстанс на кожен рівень доступу і заливати туди тільки дані доступні для даного рівня. Тому що гарантій що якийсь проміжний access control сервіс вірно відфільтрує промпт до ллмки, ніхто не дасть. Що, в результаті, зводить ідею «національної» ллм до досить специфічної імплементації, яка може і потрібна, але досить вузькому колу людей.

Ні, ви правий, якщо казати про таки дані при навчанні — дійсно, навчати публічну модель на даних з фронту не можна. Але якщо така модель буде працювати в захищеному хмарному сервісі в Україні, що заважає використовувати ДСК або таємні дані на рівні інференсу?

Ну може час буде, то зроблю статтю як запустити локально (ну як локально, на HPC до 80 т. грн) щось велике наприклад MiniMax-M1 або DeepSeek R1T2 Chimera.
Так ось в чому питання, наскільки бачу, даних десь на файнтюн якоїсь великої моделі або навчання експерта в MOE, чому ж це не робити і показувати роадмапу напрацювань та результатів, замість багатолітер про нацпроект в майбутньому.
Про дані — ну цікаво було б почути не про датасети які зробила громада та спонсори (практично всі перелічені в статті датасети) а про той мох і болото що творится в оприлюднених відкритих данних.
ось наприклад

Впровадження існуючих LLM для автоматизації держпослуг.
Створення RAG-систем на базі українських даних.

от захотіли ви векторизувати базу закон— і як її собі скачати?
бо зразу ж бачимо дисклеймер
zakonst.rada.gov.ua/rules.html

Забороняється:
створювати на основі БД власні бази даних (офф-лайн та он-лайн), пошукові та метапошукові системи;

включати сторінки БД у фрейми або інші окремі сторінки власних сайтів;

копіювати структурні елементи БД, зокрема, створювати «дзеркала»;

здійснювати автоматичні або автоматизовані запити на пошук та копіювання («викачування») текстів або карток документів.

ось прям зразу отому рагу ріг назустріч )

розмежувати права доступу до даних з обмежених доступом.

пан точно в курсі про як оце працює? І чому ж це дані якими розширюють промпт до ллм (RAG) не можливо розмежувати? там більш цікавий сесуріті бріч — массив запитів, відповідей та реакцій )
І основний челендж щоб він залишався вдома )

мова ж йшла скоріше про fine-tuning, а не про rag.
для rag напевно можна щось мутити — юзати метадані для збереження рівнів доступу, окремі колекції і т.п. Хз, ніколи в це не заглиблювався.
Ну і прийдеться брати якогось вендора який пропонує солюшн з secure vector database, по типу як є спеціалізовані версії Оракла, затюнені на підримку IL6/ICD 503 і роботу в секюрному середовищі.

Нуу про скюрність мені здається буде більше про пластилін правильний для опломбування серверної і журнали секретні для промптів один, для відповідей інший. І обов’язково щоб журнал обліку журналів. І заповнювати синьою пастою.

«у чому проблема національної ллм?»
для того, щоб завантажити дані «для службового користування»

. — тоді користуватись ніхто не зможе. Наприклад, інструкція з ведення допитів поліцейської дільниці А не має бути доступною поліцейській дільниці Б (і журналюгам держтелерадіо). І всередені самої дільниці вона не доступна бухгалтеру тощо.

Тобто тоді має бути не загальнодержавна LLM а LLM бухгалтера поліцейської дільниці А міста N. І змінилась нормативка- значить і LLM треба кардинально переробити для всіх, тощо

Підписатись на коментарі