Розпізнання суржику за допомогою технології Speech-to-Text
Intro
Я давно займаюся темою розпізнавання української мови, публікації щодо цього можна знайти в темі на DOU — dou.ua/forums/topic/31961
Зараз хочу поділитися цікавою open source знахідкою за допомогою якої можна розпізнавати суржик — злиття української та російської.
Всі українці знають, що суржик це одна з великих проблем у країні, а для розробників вона дуже-дуже велика.
Саме через брак інформації публікую цю тему.
Project
Проєкт називається m-ctc-t-large, який опубліковали тут — huggingface.co/...speechbrain/m-ctc-t-large
Цей проєкт є експортованою версією на PyTorch проєкта Massively Multilingual ASR від Meta AI.
Опублікована модель дає змогу розпізнавати мову з 60 мов світу, але я вирішив протестувати її на суржику та на азарівці (так-так, ви не помилилися, результати далі).
Tests
Я рекомедую запускати програвання аудіо перед читанням результатів.
Test 1
Аудіо: t.me/...eech_recognition_uk/15721
Оригінальний текст:
Шо ти щас робиш?
Як діла?
Скіки тобі лєт?
Шо ти можеш про це сказать? Будем ізучать чи нє?
Даже не знаю, шо його робить.
Як розпізнало:
Щоти, щас робиш, Як діла. Скіки тобі лет. Що-ти можеш проце сказать? Будєм изучатчинє? Даже не знаю, Що ого робить.
Test 2
Аудіо: t.me/...eech_recognition_uk/15725
Оригінальний текст:
На руском і на украінском. Як придеться. Уже смєшаний, уже смєшаний... В общєм — смєсь получилась і всьо. Немає такого чистого, шоб рускій ілі украінскій. Одне слово руське, друге — украінське...
Як розпізнало:
На рускамі неукраїнськими, як придеться, уже смішений, уже смішений. Вобщем сміс получилас і всо. немає такого чистово, щоб Рускій ілі український, водне слово Руське друге українське
Test 3 (Азарівка)
Аудіо: t.me/...eech_recognition_uk/15730
Як розпізнало:
На українці ітація называють азировкою Наша понент разраховленинараптову зевотойдоч ізацема повінні випочитися иред людмі, трихто посив почестни, четверти шостимісца тих когоні справідливо судібства позбаиво нагород, всихурит від значит.
Треба відзначити, що азарівка це доволі крайовий кейс реальної мови, але навіть з ним модель справилася на рівні коли є «щось читабельне».
Post Scriptum
Доєднуйтесь до спільноти розпізнавання української мови в Telegram за посиланням: t.me/speech_recognition_uk
У спільноті ми обговорюємо не лише питання розпізнавання мови, але й синтезу української мови також.
Нещодавно були опубліковані якісні open source моделі для синтезу мови, які вже можна використовувати у своїх проєктах.
Post Post Scriptum
Якщо у Вас залишилися питання щодо використання моделі, то пишіть у коментарях, буду радий допомогти.
Якщо у Вас є інша інформація на тему розпізнавання суржику, поширте її тут, будь-ласка.
2 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарів