Розпізнання суржику за допомогою технології Speech-to-Text

Intro

Я давно займаюся темою розпізнавання української мови, публікації щодо цього можна знайти в темі на DOU — dou.ua/forums/topic/31961

Зараз хочу поділитися цікавою open source знахідкою за допомогою якої можна розпізнавати суржик — злиття української та російської.

Всі українці знають, що суржик це одна з великих проблем у країні, а для розробників вона дуже-дуже велика.

Саме через брак інформації публікую цю тему.

Project

Проєкт називається m-ctc-t-large, який опубліковали тут — huggingface.co/...​speechbrain/m-ctc-t-large

Цей проєкт є експортованою версією на PyTorch проєкта Massively Multilingual ASR від Meta AI.

Опублікована модель дає змогу розпізнавати мову з 60 мов світу, але я вирішив протестувати її на суржику та на азарівці (так-так, ви не помилилися, результати далі).

Tests

Я рекомедую запускати програвання аудіо перед читанням результатів.

Test 1

Аудіо: t.me/...​eech_recognition_uk/15721

Оригінальний текст:

Шо ти щас робиш?
Як діла?
Скіки тобі лєт?
Шо ти можеш про це сказать? Будем ізучать чи нє?
Даже не знаю, шо його робить.

Як розпізнало:

Щоти, щас робиш, Як діла. Скіки тобі лет. Що-ти можеш проце сказать? Будєм изучатчинє? Даже не знаю, Що ого робить.

Test 2

Аудіо: t.me/...​eech_recognition_uk/15725

Оригінальний текст:

На руском і на украінском. Як придеться. Уже смєшаний, уже смєшаний... В общєм — смєсь получилась і всьо. Немає такого чистого, шоб рускій ілі украінскій. Одне слово руське, друге — украінське...

Як розпізнало:

На рускамі неукраїнськими, як придеться, уже смішений, уже смішений. Вобщем сміс получилас і всо. немає такого чистово, щоб Рускій ілі український, водне слово Руське друге українське

Test 3 (Азарівка)

Аудіо: t.me/...​eech_recognition_uk/15730

Як розпізнало:

На українці ітація называють азировкою Наша понент разраховленинараптову зевотойдоч ізацема повінні випочитися иред людмі, трихто посив почестни, четверти шостимісца тих когоні справідливо судібства позбаиво нагород, всихурит від значит.

Треба відзначити, що азарівка це доволі крайовий кейс реальної мови, але навіть з ним модель справилася на рівні коли є «щось читабельне».

Post Scriptum

Доєднуйтесь до спільноти розпізнавання української мови в Telegram за посиланням: t.me/speech_recognition_uk

У спільноті ми обговорюємо не лише питання розпізнавання мови, але й синтезу української мови також.

Нещодавно були опубліковані якісні open source моделі для синтезу мови, які вже можна використовувати у своїх проєктах.

Post Post Scriptum

Якщо у Вас залишилися питання щодо використання моделі, то пишіть у коментарях, буду радий допомогти.

Якщо у Вас є інша інформація на тему розпізнавання суржику, поширте її тут, будь-ласка.

👍ПодобаєтьсяСподобалось4
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
всихурит

Спасибо за то что улыбнули мой день

В телеграм чате еще есть продолжение про «кровосисев»

Підписатись на коментарі