Grammarly випустила другу версію GEC-корпусу української мови

Grammarly опублікувала у вільному доступі UA-GEC 2.0 — другу версію свого анотованого GEC-корпусу української мови (GEC — grammatical error correction), яка містить майже 34 000 речень.

Команда компанії запустила волонтерський проєкт зі створення цього набору даних у серпні 2020 року. Перша версія корпусу UA-GEC із близько 20 000 речень з’явилася у відкритому доступі у січні 2021 року. Відтоді у компанії працювали над розширенням та покращенням корпусу.

🔔 Значення проєкту

Тоді як для англійської мови існує чимало анотованих GEC-корпусів, історично для багатьох мов, включно з українською, таких даних у публічному доступі не було. Команда Grammarly поставила за мету створити такий ресурс для української мови та зробити його доступним науковій спільноті.

GEC-корпус може бути корисним для досліджень у сфері обробки природної мови, а також тренування та покращення моделей машинного навчання. Що більше даних у корпусі, то краще працюють моделі на його основі. Для порівняння: GEC-корпус німецької мови нараховує 25 тис. речень, чеської — близько 47 тис. речень, а англійської — 1 млн 167 тис. речень. Корпус UA-GEC 2.0 містить 33 735 речень (500 618 токенів).

📚 Як створювався корпус UA-GEC

Створення GEC-корпусу охоплює кілька етапів: збір текстів, анотування даних та укладання корпусу. Команда Grammarly ініціювала збір даних для першого анотованого GEC-корпусу української мови у серпні 2020 року через сайт проєкту, де кожен охочий міг поділитись своїми текстами українською мовою (зробити переклад уривка, написати есе або надіслати готовий допис). Свої тексти завантажили 828 волонтерів.

На етапі анотування лінгвісти перевіряли ці речення та анотували помилки у них — тобто, виправляли їх та розділяли на категорії. На етапі укладання корпусу команда перевіряла якість анотування й категоризації, коригувала збалансованість корпусу за різними характеристиками, аналізувала статистику, оформлювала самі дані в зручному для використання форматі, готувала документацію, а також програмні інструменти, які дозволяють опрацьовувати корпус.

Набір даних UA-GEC 2.0 команда Grammarly опублікувала на GitHub. Він перебуває у вільному доступі за ліцензією CC BY 4.0, яка дозволяє використовувати його з будь-якою метою, зокрема й комерційною. Додатково до корпусу команда також видала пакет Python, який спрощує обробку анотованих текстових файлів. Докладніші відомості можна знайти у супровідній документації.

🗃️ Чим відрізняється версія UA-GEC 2.0 від попередньої

Три ключові зміни у другій версії корпусу UA-GEC порівняно з попередньою:

▪️ Збільшили розмір корпусу до майже 34 000 речень;

▪️ Додали більш деталізовану класифікацію помилок (зокрема розділили категорії «граматика» і «стиль» на ще 13 і 5 підкатегорій відповідно):

КатегоріяПідкатегорія
GrammarCase, Gender, Number, Aspect, Tense, VerbVoice, PartVoice, VerbAForm, Prep, Participle, UngrammaticalStructure, Comparison, Conjunction, Other
SpellingNo subcategories
PunctuationNo subcategories
FluencyStyle, Calque, Collocation, PoorFlow, Repetition, Other

▪️ Завантажили корпус у двох варіантах — тепер його можна використовувати для двох різних завдань: виправлення тільки граматики та виправлення граматики та стилю.

Все про українське ІТ в телеграмі — підписуйтеся на канал DOU

👍ПодобаєтьсяСподобалось10
До обраногоВ обраному2
LinkedIn



1 коментар

Підписатись на коментаріВідписатись від коментарів Коментарі можуть залишати тільки користувачі з підтвердженими акаунтами.

Хтось вже використовує цей корпус практично для тулів перевірки правопису?

Підписатись на коментарі