Укрдержархів вперше передасть 10 ТБ даних для тренування національної LLM «Сяйво»

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Державна архівна служба України вперше передасть свої дані для тренування національної мовної моделі «Сяйво».

Йдеться про 10 терабайтів унікальних історичних матеріалів, державних документів і наукових текстів. Про це повідомили в Мінцифри.

Такий масив даних дорівнює 70 000 книжок. У міністерстві пояснили, що тренування LLM на україномовних джерелах дозволить моделі краще розуміти український контекст. На сьогодні більшість великих ШІ-помічників працюють переважно на англомовних даних, а українською часто просто перекладають відповіді.

Голова Укрдержархіву Анатолій Хромов заявив, що передані дані містять великий масив матеріалів різних історичних епох — друкованих і рукописних, українською та іншими мовами. За його словами, до кінця 2026 року кількість цифрових копій у держархівах має зрости зі 150 млн до понад 200 млн.

У Мінцифри кажуть, що створення великої мовної моделі є частиною ширшого проєкту з побудови ШІ-суверенітету. Зараз для цього збирають якісний масив даних. За даними відомства, свої матеріали вже надали понад 50 медіа, університетів та бібліотек.

📌 Контекст

Національну велику мовну модель в Україні розвиває WINWIN AI Center of Excellence при Мінцифри, який запустили у лютому 2025 року. Раніше DOU повідомляв, що модель створюють у партнерстві з «Київстар», а як базову модель для розробки обрали Gemma 3.

У січні 2026 року в Мінцифри казали, що бета-тест національної LLM планують запустити навесні, а в лютому CTO WINWIN AI Center of Excellence Дмитро Овчаренко розповідав DOU, що повноцінну презентацію моделі та перші наукові результати очікують у квітні-травні 2026 року.

Наприкінці березня в застосунку «Дія» провели голосування за назву моделі, і за його підсумками українську LLM назвали «Сяйво». Тоді ж у Мінцифри повідомляли, що над назвою голосували понад 136 тисяч людей.

Нагадаємо, що колишні керівники напряму штучного інтелекту в Мінцифри Данило Цьвок та Дмитро Овчаренко перейшли до Міністерства оборони, де очолили новостворений Defense AI Center «A1».

Все про українське ІТ в телеграмі — підписуйтеся на канал DOU

👍ПодобаєтьсяСподобалось2
До обраногоВ обраному0
LinkedIn

2 коментарі

Підписатись на коментаріВідписатись від коментарів Коментарі можуть залишати тільки користувачі з підтвердженими акаунтами.

Судячи із спеціалізації, мережу треба було назвати «Фаріон». У неї знайдеться чимало споживачів контенту про офіційно ухвалену історію, коріння та державність. А решту потреб так і закриватимуть Gemini & Co.

ChatGPT по заявам Ілана Маска теж видає данні які в нього заклали розробники із Сан-Франциско та базуються на політичних поглядах дем партії США як базових установ, навіть якщо інщі політичні позиції важають це догмами. Той же Владімір Познер, коли робив фільм про США в інтервью із американським матросом намагався поставити політичне запитання, після чого його жорстко поставила на місце пресс офіцер і чітко сказала які запитання можна ставити війсково службовцям США (з розряду : Як вам тут добре служеться? Як чудово вас тут годують ? Як ви скучили за родинами ? І т.д.) і які категорично не можна і це абсолютно будь яке політичне або військове питання (В’єтнам навчив).
Так що таке є усюди і в усіх. Офіційна історія завжди подається із політично вигідного в данний історичний період ракурсу в перекладі на сучасну про владну офіційну ідеологію. Часто щось не вигідне замовчується, чи взагалі викривлене, або просто псевдо історичне. І таке було всюди і завжди.
BTW В ВЛКСМ та КПСС були професійні люди яких навчили і вони професійно займались просуненням певної встановленої ідеології, за яку заплатять. Хочеш : марксизм-ленінізм, хочеш ліберальну демократію, японскій мілітаризм, що завгодно за ваші грошенята.

Підписатись на коментарі