Науковці випустили українську велику мовну модель Lapa LLM. Що про неї відомо

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

В Україні представили Lapa LLM v0.1.2 — велику мовну модель, яку з нуля адаптували для роботи з українською мовою. Над нею працювали фахівці з Українського католицького університету, КПІ, Львівської політехніки та AGH University у Кракові.

Про це DOU повідомив один з розробників моделі, аспірант УКУ, Юрій Панів.

Основою мовної моделі стала архітектура Gemma-3-12B, а головна мета — зробити швидку, точну та повністю відкриту українську LLM, придатну для досліджень і комерційного використання.

Модель названа на честь Валентина Лапи — співавтора методу групового урахування аргументів, який став одним із теоретичних фундаментів сучасного Deep Learning.

Що відомо про Lapa LLM

За словами розробників, Lapa LLM відрізняється тим, що при її створенні повністю переписали токенізатор під українську. 80 тисяч із 250 тисяч токенів було замінено, завдяки чому обробка україномовного тексту стала ефективнішою. Тепер для тих самих завдань потрібно у півтора раза менше токенів, а отже — менше обчислень. За швидкістю роботи з українською вона обходить оригінальну Gemma та більшість закритих моделей аналогічного класу, кажуть в УКУ.

У тестах на бенчмарках Lapa LLM показала такі результати:

  • Переклад: модель досягла 33 BLEU на FLORES для напрямку англійська → українська та показала високий результат у зворотному напрямку.
  • Обробка зображень: у тесті MMZNO Lapa LLM увійшла до лідерів серед моделей свого класу за точністю розпізнавання україномовних підписів і описів зображень.
  • Summarization і Q&A: продемонструвала стабільну роботу з великими текстами, збереження контексту й точність при відповіді на запитання — рівень, придатний для систем типу RAG.
  • Виявлення пропаганди: модель показала послідовність у визначенні маніпулятивних наративів і упереджених формулювань, що підтверджує якість фільтрації даних під час претрейнінгу.




За словами розробників, у деяких завданнях вона вже наближається до MamayLM, яка вважається лідером серед українських мовних моделей на сьогодні. У версії 1.0 творці Lapa LLM планують перевершити її результати.

Розробники заявляють про прагнення до максимальної відкритості. Наразі саму модель можна вільно завантажити та використовувати в комерційних цілях. Водночас анонсували вихідний код для тренування та 25 навчальних датасетів. Перші 5 датасетів та частину коду для тренування автори вже опублікували на сторінці проєкту. Решту обіцяють викласти протягом тижня з часу релізу.

За словами команди, у процесі навчання застосовували відкриті українські корпуси та дані, оцінені за параметрами читабельності, граматики й відсутності дезінформації. На фінальних етапах використовувались якісні матеріали з бази відкритих даних Бібліотеки Гарварду.

Розробники зазначають, що Lapa LLM можна використовувати для:

  • створення корпоративних асистентів і чатботів українською;
  • машинного перекладу між українською та англійською;
  • побудови RAG-рішень для внутрішніх документів;
  • роботи з конфіденційними текстами без передавання їх на зовнішні сервери.

Далі науковці планують створити міркувальну (reasoning) версію моделі та розширити корпуси для аналізу зображень і програмування.

Створення Lapa LLM підтримали Comand.AI, ELEKS (у межах гранту пам’яті Олексія Скрипника) і HuggingFace, який надав команді корпоративну підписку для роботи з датасетами.

Внесено уточнення у фрагмент новини, що стосується статусу відкритості проєкту, зокрема фактичної доступності вихідного коду та датасетів.

Все про українське ІТ в телеграмі — підписуйтеся на канал DOU

👍ПодобаєтьсяСподобалось26
До обраногоВ обраному3
LinkedIn



9 коментарів

Підписатись на коментаріВідписатись від коментарів Коментарі можуть залишати тільки користувачі з підтвердженими акаунтами.

Новини по проекту будемо публікувати ще тут:

t.me/pehade_blog

Цікаво! про Валентина Лапу нічого не знав. Дякую!

Не знаходить в пошуку в LM Studio, який зазвичай показує майже все що є на huggingface, навіть несумісне

дякую, подивимось

можете напряму використати модель за посиланням?

Так, сконвертував модель у GGUF і запустив локально.
Перекладає з англійської добре, речення чіткі, хіба що його «гнучкість» у власній статі це щось:
«Привіт! Я радий/рада допомогти тобі сьогодні. Як я можу тобі допомогти?»

PS. Modelfile можна взяти тут gist.github.com/...​8b9027772884f44d5ecae112c

Вихідний код, 25 навчальних датасетів, документація та опис процесу тренування опубліковані у відкритому доступі.

Два readme файли, ліцензія та gitignore.

25 навчальних датасетів, документація та опис процесу тренування опубліковані у відкритому доступі.

Training Dataset
TBD

У мене нема жодних претензій до авторів моделі. Чудово, що з’являються нові моделі. (І відкриті чи ні — це не так важливо)

Але @Yaroslav Zhakhalov будь-ласка виправте статтю. Ви вводите людей в оману. Те що зараз опубліковано називається «open-weight».

Дякую за виправлення! При написанні новини орієнтувався на пресреліз (доступ до сторінок на GitHub та Hugging Face на той момент був закритий). Оновив матеріал і звернувся до розробників за уточненням.

доброго вечора, я лідер проекту Лапа

1) це складний проект у якого багато результатів, тому потрібен деякий час аби повністю релізнути першу версію

У нас на меті не було вводити нікого в оману, у пріоритеті релізу було випустити модель і зібрати перший фідбек. Внутрішньо у нас близько 70 проміжних датасетів (на різних кроках обробки) та стільки ж чекпоінтів.

Для підтвердження довіри, тут додали перші 5 датасетів з 25, 3 з інструкціями і 2 з претрейну:
huggingface.co/...​apa-llm/lapa-v012-release

Додав у репозиторій попередній training code: github.com/lapa-llm/lapa-llm

Відполіровану версію конфігурації тренування та решту датасетів плануємо додавати поступово протягом тижня, те саме стосується коду для оцінки на бенчмарках і логів цих бенчмарків.

2)

(І відкриті чи ні — це не так важливо

ні, це важливо, це основна мета проекту — максимально відкрита українська велика мовна модель, яка буде топовою для обробки української мови

а) відкриті датасети стимулюють розвиток коммюніті і дають довіру звідки зʼявився перформанс моделі на тій чи іншій задачі
б) впевнений у коммюніті на думці є неочевидні для мене юз кейси використання цих самих датасетів
в) дозволяє натюнити інші моделі на власні задачі

Підписатись на коментарі