Grammarly збирає GEC-корпус для української мови, що викладе у відкритий доступ

У Grammarly планують створити GEC-корпус для української мови (UA-GEC) і викласти у відкритий доступ. Долучитись до проєкту можуть усі охочі.

Передачається, що у компанії збиратимуть тексти різних жанрів (відгуки, листи, есеї, дописи у соціальних мережах тощо), написані звичайними людьми. Потім лінгвісти Grammarly перевірять тексти на наявність граматичних, стилістичних чи орфографічних помилок. Дані використають для тренування та оцінки програм виправлення граматичних помилок.

Це прискорить розвиток галузі обробки природної мови в Україні та сприятиме використанню якісної української мови у мережі. А для NLP-спільноти це означає появу додаткових інструментів для досліджень.

«Останнім часом у світі NLP відбувається революція: великі претреновані моделі, як-от BERT, досягають значних результатів на більшості завдань. Окремий клас таких моделей — це багатомовні претреновані моделі, здатні працювати одночасно з багатьма мовами. Чи можна використати такі моделі для завдань українського GEC? Відповідь на це запитання нам допоможе знайти корпус UA-GEC», — зазначають у Grammarly.

Теми: Grammarly, nlp, українська мова

Ctrl + Enter

Артур Мудрик Software engineer 19.08.2020 15:50

То есть скоро перестанут появляться «підлога країни»?

Відповісти

Підтримати

Юлія Джугастрянська 19.08.2020 13:22

Круто-круто, а з ГРАКом співпрацюєте вже?

Олексій 18.08.2020 18:10

Як варіант можна використати тексти документів з Єдиного Державного Реєстру судових рішень. Більше 80 млн документів. Мають підійти для аналізу. www.uacourt.openregister.info

Yuri Tabachnik 19.08.2020 13:30

А усі ці ОСОБА_1, АДРЕСА_1 тощо не будуть заважати аналізу? До того ж, усі ці тексти написані надмірно бюрократичною мовою. Хоча це питання більше до Grammarly.

Олексій

Sergii Voloshyn Product Manager в DOU.ua 19.08.2020 13:36

Тут ua-gec-dataset.grammarly.com пишут

Це колекція текстів, що їх написали звичайні люди: есеї, дописи в блогах та соцмережах, відгуки, листи тощо. Ці тексти міститимуть граматичні, стилістичні та орфографічні помилки — бо хто з нас не помиляється?

Так что «тексти документів з Єдиного Державного Реєстру судових рішень» вряд ли хорошо подходит под такое описание.

Yuri Tabachnik