MamayLM: нова передова українська LLM

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Ми раді презентувати MamayLM — найефективнішу практичну мовну модель для української мови. Завдяки своїм 9 мільярдам параметрів вона є економною у використанні ресурсів і може працювати на одній GPU, при цьому залишаючись ефективною як в обидвох мовах. Модель демонструє потужні можливості, випереджаючи відкриті моделі аналогічного розміру в обох мовах, та гідно конкурує з набагато більшими моделями. MamayLM є результатом співпраці між дослідниками з Інституту INSAIT в Болгарії та ETH Zurich в Швейцарії.

MamayLM ідеально підходить для забезпечення швидкої, економічно ефективної автономії та впровадження штучного інтелекту в різних секторах України, зокрема в освіті, юриспруденції, охороні здоров’я та державному секторі (наприклад, шляхом спеціалізації моделі для різних варіантів використання). Вона також приваблива у сценаріях, де важливим є збереження конфіденційності даних, оскільки її можна запускати на локальній машині.

MamayLM є у вільному доступі на HuggingFace: https://huggingface.co/INSAIT-Institute

Також ми запостили блог англійською та українською, де ми надаємо більше технічної інформації щодо розробки моделі:

Наразі доступні базова та квантизована версії моделі для зручного використання. Для зворотнього зв’язку або питань щодо використання моделі користувачі можуть звертатись за адресою [email protected].

👍ПодобаєтьсяСподобалось10
До обраногоВ обраному3
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
MamayLM є у вільному доступі на HuggingFace: huggingface.co/INSAIT-Institute

це посилання дає 404

Вчора помітили що Hugging Face нестабільно працював, це посилання працює? huggingface.co/...​amayLM-Gemma-2-9B-IT-v0.1

Плануєте навчальний воркфлоу накотити на Gemma 3 12 / 27B?

Це один із варіантів, так. Наша модель v0.1 вже на рівні з Gemma 3 і на даний момент нам важливий фідбек від юзерів щоб розуміти які аспекти можна покращити, або якщо модель має специфічні проблеми в генерації українською мовою, тому ми завжди раді будь-якому фідбеку.

Ну я трохи хз хто ваші юзери.

Для продуктових інтеграцій українська мова є затребувана тільки на комунікативному фронті. А на повнотекстову комунікацію я б ніяке дев’ять бе у дві тисячі двадцять п’ятому році у продукт не пустив би. Мінімум 27, менші банально QA не пройдуть.

Для пакетного створення контенту теж не піде, тут вибачайте, царина SotA SaaS інференс провайдерів.

Як науковий проєкт і ініціатива у публічному домені — висловлюю вашій роботі велику повагу.

Я через тиждень-два вашу модель погоняю по бенчмаркам на національний сентимент і можливо по національній безпеці (тут не факт, ще збираю датасет, не знаю, чи вистачить мене на хорошу сігму з репрезентативною вибіркою і муки підготовки публікації).

Всі інші моделі трошки галюнять на бюджетному обладнанні при використанні української, придумують якісь слова і тп. Наприклад локальний бот-продажник, з прикрученою векторною БД, який дійсно буде допомагати при виборі товару, а не оці тупі живі консультанти, яким аби якесь лайно втридорога впарити. Ціна тут буде здебільшого електрика, плюс немає залежності від ненадійних третіх сервісів.

Claude Sonnet 3.5 була топчик у літературному використанні художніх засобів української мови на моєму великому бенчмарку у 2024.

Але так щоб видати якість, то мінімум з одним, а краще двома проходами на стилістичні і орфографічні правки + ще консенсус із 3+ найкращих генерацій — SotA рішення для високояснікої пакетної розробки художніх матеріалів у 2024.

Для продуктової комунікації в реальному часі нажаль воркфлов занадто слоупоченський, тому частіше мова про прийняття галюнєй на продакшен-фронті.

В Sonnet 3.7 нажаль мала місце очевидна деградація.

>> бот-продажник
Хороший кейс, дякую. Гемка 27b минулого покоління без донавчання придатна для цього кейсу.
Я б для кращої якості зробив би мінімум у два проходи. Але два проходи на GPU повільно, а на TPU економічно невиправдано, якщо ви pre-seed.

Під юзерами я маю на увазі звичайних тестерів, якщо протестуєте модель на національний сентимент то було б дуже класно :) В даному випадку я би виділила дві переваги моделі — розмір (влізає в менші GPU без квантизації) та фокус на двомовність замість багатомовності. Ці два моменти допомгають легше файнтюнити модель на кастомні таски українською і деплоїти її локально за умов обмежених ресурсів. Gemma 2 27B потребує побільше GPU для хорошого файнтюну, з власного досвіду в TPU взагалі сумно з інтеграцією. Gemma 3 виглядає солідніше в цьому плані, особливо враховуючи їх нову ідею з QAT (Quantization-Aware Training). Але як квантизація, так і багатомовність погіршують якість моделі певною мовою, тому якщо налаштовувати під свою локальну задачу, то може бути ще більше галюнів.
Як ви правильно зазначили, це був, зокрема, і науковий проєкт, у межах якого ми проводили експерименти з ефективного тренування моделей та роботи з даними (зараз працюємо над більш детальним технічним репортом). Крім того, це чудова нагода привернути більше уваги до репрезентації української мови загалом.

На сервісах типу Runpod io можна вкластись думаю до $300 бюджету у залежності від об’ємів навчання, якщо ви обмежуєтесь варіаціями LoRa (це ключове) для 27B і берете, наприклад, 8 x H100.

З TPU — то де ж знайти стільки часу, щоб усі воркфлоу переписувати,
І тут дивна відсутність рецептів від Google, враховуючи, що вони є вендором TPU (я тоді може погано шукав, та це не було ціллю через економічну необгрунтованість).

Але я б дивився більше у сторону навчання відразу квантів.
В мене finetune lora Q4 Gemma2 9B на 16GB VRAM взлітала, правда тоді треба бити на батчі, бо після кількох епох використання VRAM суттєво росте і воно все у мене просто крашилось.

(В результаті навчав на одній H100 LoRa лейер, з маленьким датасетом під комерційну задачу, реально вклався у $20)

Ну, але вціолому звісно, LoRa — якось не круто у контексті дослідницьких перспектив. Хочеться все-таки їй всі слої соловїною пролоскотати.

Все вірно) З LoRA можна дійсно і більше моделі спокійно вмістити, але велике питання в ефективності такого тренування. Для вивчення самої мови, особливо в пре-трейн фазі лора точно слабенька. Квантизація теж має більше безпекових ризиків, їх легше джейлбрейкати або якось там з ними генерувати «шкідливий» контент.
Стосовно TPU з Gemma2 раніше дуже дивна інтеграція була, там декілька місяців пішло щоб в Hugging Face додали JAX конфіги для другої джемми) З Gemma 3 стало краще, також гугл нарешті зробили якийсь фреймворк де якось підтримується HF формат в поєднанні з JAX так, щоб не сильно треба було писати вручну код: github.com/AI-Hypercomputer/kithara

Кльово, це цікаво, пограюсь

65% на ЗНО це скільки? в бали якось переводиться? Цікаво чи це на трієчку хоч тягне

Дякую за чудове запитання! Ми використовували стандартний фреймворк (github.com/...​/lm-evaluation-harness-uk) для автоматизації перевірки моделей на бенчмарках. Через це ми брали результат просто як відсоток правильних відповідей, оскільки кастомні метрики точності не дуже підтримуються там; також для укр мови та літератури максимальний бал вже не може бути 200, оскільки ми не включали запитання з вільним типом відповідей — брали тільки запитання виду АБВГД. Тому якщо брати тільки тести, то на трієчку потягне :)
Звичайно, це не зовсім відповідає реальній шкалі оцінювання ЗНО, але відсоток правильних відповідей також легше презентувати на іноземну аудиторію, яка зазвичай не розуміє формат ЗНО. Ми плануємо пізніше випустити system card як більш технічний звіт, де ми також проведемо аналіз моделей ближче до реального балу ЗНО.

Ми також слідували формату ЗНО бенчмарок від інших авторів, які запитання у формату АБВГ, наприклад, huggingface.co/datasets/osyvokon/zno — це був Shared Task на минулорічному Ukrainian NLP Workshop в ACL

Підписатись на коментарі