Grammarly створила перший анотований GEC-корпус української мови і виклала його у відкритий доступ

Grammarly публікує у відкритому доступі перший анотований GEC-корпус української мови. Нагадаємо, минулого літа компанія запрошувала долучатись до проєкту.

GEC-корпус — Grammatical Error Correction — виправлення граматичних помилок, а мовний корпус — сукупність текстів, авторами яких є звичайні люди. Професійні українські лінгвісти ці тексти потім опрацювали (проанотували — позначили помилки і вказали відповідні виправлення). Призначення корпусу — наукове та практичне вивчення мови.

Схожі корпуси існують для багатьох мов, але до сьогодні не було такого анотованого корпусу для вивчення української мови.

Презентований GEC-корпус української мови налічує понад тисячу різножанрових текстів (а це більш ніж 20 000 речень), що їх написали майже 500 волонтерів з усієї України і з-за кордону. Ці дані будуть корисні тим, хто цікавиться лінгвістикою, — від студента-науковця до приватної компанії — і для дослідницької роботи, і для створення або поліпшення власного онлайн-додатка, продукту тощо.

Завантажити корпус можна за посиланням.

Окрім того, проєкт зі збору та наповнення GEC-корпусу української мови стає постійним у компанії Grammarly і буде частиною внеску в розвиток українського NLP (natural language processing — опрацювання природної мови). Команда продовжить наповнювати корпус текстами за допомогою вебсайту проєкту, а також працюватиме над удосконаленням його технічної цінності, щоб збільшити його значення для наукової спільноти.

«Очікуйте поліпшену версію корпусу. Окрім збільшення самого корпусу за допомогою текстів, наша команда активно працюватиме над удосконаленням його технічної цінності. Ми підготуємо додатковий варіант анотації, що дасть змогу використовувати корпус у двох різних завданнях: виправленні тільки граматики та виправленні граматики й стилю», — обіцяють у компанії.

Дізнатися більше і підтримати проєкт можна за посиланням: ua-gec-dataset.grammarly.com.

GitHub-репозиторій.

👍НравитсяПонравилось16
В избранноеВ избранном2
LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Що таке GEC-корпус мови і навіщо він? Як він допоможе комп’ютерній лінгвістиці і як працює з мовою штучний інтелект? Розповідає Олексій Сивоконь із Grammaly, який ініціював створення такого корпусу для української:
kunsht.com.ua/vzyati-movu-v-kulak

Це мега новина. Велике дякую компанії за роботу :)

Крига потрошку скресає.

Подписаться на комментарии