Grammarly збирає GEC-корпус для української мови, що викладе у відкритий доступ
Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті
У Grammarly планують створити GEC-корпус для української мови (UA-GEC) і викласти у відкритий доступ. Долучитись до проєкту можуть усі охочі.
Передачається, що у компанії збиратимуть тексти різних жанрів (відгуки, листи, есеї, дописи у соціальних мережах тощо), написані звичайними людьми. Потім лінгвісти Grammarly перевірять тексти на наявність граматичних, стилістичних чи орфографічних помилок. Дані використають для тренування та оцінки програм виправлення граматичних помилок.
Це прискорить розвиток галузі обробки природної мови в Україні та сприятиме використанню якісної української мови у мережі. А для NLP-спільноти це означає появу додаткових інструментів для досліджень.
«Останнім часом у світі NLP відбувається революція: великі претреновані моделі, як-от BERT, досягають значних результатів на більшості завдань. Окремий клас таких моделей — це багатомовні претреновані моделі, здатні працювати одночасно з багатьма мовами. Чи можна використати такі моделі для завдань українського GEC? Відповідь на це запитання нам допоможе знайти корпус UA-GEC», — зазначають у Grammarly.
8 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів