• Як побудувати високоякісну систему для автоматичного виправлення граматичних помилок в англійській мові: досвід Grammarly

    Конкретно ця система є мовнозалежною (мовнонезалежні системи поступаються якістю виправлень у більшості випадків), проте її можливо адаптувати для інших мов.
    Для цього потрібно в першу чергу побудувати новий словник тегів-операцій характерних для обранної мови (це потребує лінгвістичної експертизи). Також нагенерувати багато синтетичних даних, що не надто складно і у якості encoder використати багатомовну версію трансформера (huggingface.co/...​formers/multilingual.html).

    Звісно при наявності хоча б невеликого корпусу GEC речень специфічних для обранної мови, якість можна суттєво покращити за рахунок дотренування на цих даних. Сподіваюсь, що з часом ситуація з корпусами буде покращуватись для інших мов. Зокрема для української є ось така ініціатива:
    ua-gec-dataset.grammarly.ai

    Підтримав: anonymous