Ukrainian NLP у 2025: від упереджених моделей до розпізнавання іменованих сутностей
Привіт! Мене звати Назарій Друщак, я Data Scientist у SoftServe. І цього року я разом з колегами та студентами УКУ працював над трьома роботами, які прийняли на конференцію Ukrainian Natural Language Processing Workshop (UNLP) та скоро будуть доступні для всіх. Ці роботи стосуються ключових аспектів розвитку великих мовних моделей (LLM) для української мови: виявлення та пом’якшення гендерних упереджень, покращення розпізнавання сутностей і оцінки етичності.
Це важливо в контексті, що українська мова на момент написання статей належала до low-resource мов (зараз вже
Гендерні упередження в LLM: як ШІ несвідомо дискримінує
Перше дослідження присвячене тому, як LLM, які працюють з українською, поводяться в чутливих ситуаціях — наприклад, під час оцінки резюме. Команда створила синтетичний датасет із 351 професії, з фемінітивами і без, та різними рівнями релевантного досвіду. Далі дослідники тестували моделі на предмет упередженості: чи змінюється їхня відповідь залежно від гендеру кандидата?
Запити були типу: «Чи рекомендуєш кандидатку на посаду інженерки DevOps із 5 роками досвіду». У такому разі модель відповідала нейтрально або з відмовою, тоді як аналогічний запит для чоловіка отримував позитивну відповідь.
Що виявилося:
- У деяких професіях фемінітив знижував ймовірність позитивної відповіді моделі.
- Prompt engineering або embedding-дебіасинг не давали суттєвого покращення.
- Найкраще спрацював fine-tuning із LoRA, але це потребує обережного балансу між справедливістю і точністю.

QA difference metrics results
Якщо ви працюєте над освітніми або HR-продуктами (наприклад, чат-ботами для підбору карʼєри), варто перевірити свою модель на GBEM-UA бенчмарк перед запуском. Він вже доступний у відкритому доступі й може бути використаний для тренування або перевірки моделей, які, наприклад, працюють з HR або освітніми задачами.
NER українською: як навчити модель бачити імена
Розпізнавання іменованих сутностей (Named Entity Recognition, або скорочено NER) — це одне з тих завдань, які звучать просто, але стають складними, щойно йдеться про реальні тексти. Знайти й правильно класифікувати імена, назви компаній, географічні об’єкти чи дати — на перший погляд, звична справа.
У цьому дослідженні ми використали NER-UK 2.0 — найбільший публічний датасет із ручною розміткою для NER українською. І протестували кілька підходів: класичні encoder-only моделі (тобто ті, що не генерують текст, а лише аналізують для подальшої обробки), великі мовні моделі (LLM) у режимах zero-shot і few-shot, а також LLM, донавчені з використанням LoRA адаптерів.
Найкращий результат показала roberta-large-NER — спеціально донавчена модель, яка досягла якості 0.89 F1. Це означає, що модель дуже добре справляється з розпізнаванням іменованих сутностей: майже всі важливі об’єкти вона знаходить і правильно класифікує. F1-метрика поєднує точність (precision) і повноту (recall) в одне значення, тому добре показує, наскільки збалансовано модель працює при виявленні сутностей. Вона стабільно справлялася з різними типами сутностей, навіть у складних випадках. LLM, зокрема open-source моделі, наближались до цієї якості, але часто вимагали більше ресурсів і не завжди поводилися стабільно. Наприклад, коли йшлося про довгі назви компаній із кількох слів, LLM могли не зрозуміти, де саме межа сутності.

Ці результати можна використати в реальних продуктах — наприклад, у фінтехі, юридичній аналітиці або при анонімізації документів. Якщо потрібна точність і контрольованість, encoder-only модель на кшталт roberta-large-NER, яку ми ще під себе дотренували, була надійнішим вибором. Для encoder-моделей нам треба навчати моделі, а для LLM — ми можемо використовувати без заздалегідь розміченого датасет. Друга робота присвячена розпізнаванню іменованих сутностей (Named Entity Recognition). Це базове, але дуже важливе завдання: щоб знайти імена, дати, компанії, місця в тексті. Але для української це непросто — мало розмічених даних і складна морфологія.
Етичне узгодження: чи розуміють великі мовні моделі, що таке «добре» українською
Третє дослідження стосується, здавалося б, простого, але дуже важливого питання: як великі мовні моделі поводяться в етично-суперечливих ситуаціях, коли з ними говорять українською. Ми звикли вважати, що моделі поводяться однаково, незалежно від мови. Але насправді — ні.
Щоб перевірити це, ми створили перший український бенчмарк етичного узгодження — UAlign. Ми взяли сценарії з двох відомих англомовних датасетів: ETHICS (там треба відповісти, чи є дія доброю або поганою) і Social Chemistry 101 (де йдеться про соціальні норми, прийнятність, культурні табу). Ми зараз працюємо над покращенням і ручною адаптацією.
Чому це важливо? Бо етичність у відповідях — не абстракція. Якщо ваша модель працює з людьми в чутливих темах — наприклад, консультує, допомагає приймати рішення або модерувати спільноту, важливо знати, як саме вона реагує. І не лише англійською, а й українською. Адже те, що англійською модель не скаже, як вбити людину, — ще не гарантія, що вона не зробить цього українською.
Якщо ви не плануєте повноцінне навчання своєї LLM, перевірити її поведінку в таких сценаріях — точно варто. Цей бенчмарк також доступний відкрито і стане в пригоді всім, хто робить AI-помічників, модерацію чи працює з соціальними темами.
Що далі для української LLM?
Останнім часом тему українських LLM підхопив не лише науковий світ. Наприклад, Мінцифра вже анонсувала розробку національної великої мовної моделі. Це означає, що питання, якими ми займалися як дослідники, стають важливими і на рівні державної стратегії.
І тут українські конференції на кшталт UNLP мають особливу роль. Вони не просто допомагають обмінюватися ідеями — а й створюють публічні ресурси, які можна застосовувати на практиці: у відкритих моделях, державних чи корпоративних продуктах. Наші дослідження — це реальні інструменти: бенчмарки, які можна завантажити, адаптувати, перевірити свою модель.
Сподіваюся, що цей короткий огляд надихне тих, хто вже працює з LLM або тільки починає. Якщо ви тестуєте, тренуєте чи запускаєте українськомовну модель — перевірте, як вона справляється з етикою, з чутливими формулюваннями, з простими запитами, які стосуються справедливості.
1 коментар
Додати коментар Підписатись на коментаріВідписатись від коментарівДякую вам