Конкретно ця система є мовнозалежною (мовнонезалежні системи поступаються якістю виправлень у більшості випадків), проте її можливо адаптувати для інших мов. Для цього потрібно в першу чергу побудувати новий словник тегів-операцій характерних для обранної мови (це потребує лінгвістичної експертизи). Також нагенерувати багато синтетичних даних, що не надто складно і у якості encoder використати багатомовну версію трансформера (huggingface.co/...formers/multilingual.html).
Звісно при наявності хоча б невеликого корпусу GEC речень специфічних для обранної мови, якість можна суттєво покращити за рахунок дотренування на цих даних. Сподіваюсь, що з часом ситуація з корпусами буде покращуватись для інших мов. Зокрема для української є ось така ініціатива: ua-gec-dataset.grammarly.ai
Конкретно ця система є мовнозалежною (мовнонезалежні системи поступаються якістю виправлень у більшості випадків), проте її можливо адаптувати для інших мов.
Для цього потрібно в першу чергу побудувати новий словник тегів-операцій характерних для обранної мови (це потребує лінгвістичної експертизи). Також нагенерувати багато синтетичних даних, що не надто складно і у якості encoder використати багатомовну версію трансформера (huggingface.co/...formers/multilingual.html).
Звісно при наявності хоча б невеликого корпусу GEC речень специфічних для обранної мови, якість можна суттєво покращити за рахунок дотренування на цих даних. Сподіваюсь, що з часом ситуація з корпусами буде покращуватись для інших мов. Зокрема для української є ось така ініціатива:
ua-gec-dataset.grammarly.ai