Граматичний словник для українського Natural Language Processing
Ця інформація буде цікава в першу чергу комп’ютерним лінгвістам, які мають на меті аналізувати тексти українською мовою. Отже: Великий електронний словник української мови (ВЕСУМ)
Що це: відкритий електронний словник, що містить слова української мови з парадигмами відмінювання.
Що з ним робити: вільно користуватися, звантажувати, поширювати, доповнювати.
Для чого: для створення програмних засобів, що підтримують українську мову чи аналізують тексти українською мовою.
Для кого: для мовознавців, комп’ютерних лінгвістів та програмістів, які працюють з українською мовою.
Що там є: ~197 тис. слів, які генерують ~3,4 млн словоформ. Кожна словоформа має лему та набір тегів.
Де використовується: наразі словник використовується у проектах перевірки орфографії (hunspell, зокрема у браузері Firefox та офісному ПЗ Libreoffice.org) та перевірки граматики в програмі LanguageTool. Планується використання в pymorphy2, Elastic Search, Solar.
Подробиці тут: github.com/...aster/doc/announcement.md
37 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів