Прийшов час осідлати справжнього Буцефала🏇🏻Приборкай норовливого коня разом з Newxel🏇🏻Умови на сайті
×Закрыть

Grammarly збирає GEC-корпус для української мови, що викладе у відкритий доступ

У Grammarly планують створити GEC-корпус для української мови (UA-GEC) і викласти у відкритий доступ. Долучитись до проєкту можуть усі охочі.

Передачається, що у компанії збиратимуть тексти різних жанрів (відгуки, листи, есеї, дописи у соціальних мережах тощо), написані звичайними людьми. Потім лінгвісти Grammarly перевірять тексти на наявність граматичних, стилістичних чи орфографічних помилок. Дані використають для тренування та оцінки програм виправлення граматичних помилок.

Це прискорить розвиток галузі обробки природної мови в Україні та сприятиме використанню якісної української мови у мережі. А для NLP-спільноти це означає появу додаткових інструментів для досліджень.

«Останнім часом у світі NLP відбувається революція: великі претреновані моделі, як-от BERT, досягають значних результатів на більшості завдань. Окремий клас таких моделей — це багатомовні претреновані моделі, здатні працювати одночасно з багатьма мовами. Чи можна використати такі моделі для завдань українського GEC? Відповідь на це запитання нам допоможе знайти корпус UA-GEC», — зазначають у Grammarly.

LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

То есть скоро перестанут появляться «підлога країни»?

Круто-круто, а з ГРАКом співпрацюєте вже?

Як варіант можна використати тексти документів з Єдиного Державного Реєстру судових рішень. Більше 80 млн документів. Мають підійти для аналізу. www.uacourt.openregister.info

А усі ці ОСОБА_1, АДРЕСА_1 тощо не будуть заважати аналізу? До того ж, усі ці тексти написані надмірно бюрократичною мовою. Хоча це питання більше до Grammarly.

Тут ua-gec-dataset.grammarly.com пишут

Це колекція текстів, що їх написали звичайні люди: есеї, дописи в блогах та соцмережах, відгуки, листи тощо. Ці тексти міститимуть граматичні, стилістичні та орфографічні помилки — бо хто з нас не помиляється?

Так что «тексти документів з Єдиного Державного Реєстру судових рішень» вряд ли хорошо подходит под такое описание.

Ввести канцеляризмы? Не думаю, что идея хорошая, учитывая что Граммарли вроде для обычных переписок и текстов.

українського нейролінгвістичного програмування

Нейролінгвістичне програмування (НЛП) — це зовсім не звідси, виправте, будь ласка. Мабуть, некоректний переклад NLP — Natural Language Processing.

Дякую, замінив на NLP (Natural Language Processing).

Подписаться на комментарии