Text-to-Speech: доступные модели для синтезации украинской речи

Всем привет!

Хочу поделиться с сообществом новостью о том, что на прошлой неделе стали доступны качественные модели для синтезации речи на украинском языке.

То есть, это обратная задача к задаче распознавания речи.

Про распознавание речи я ранее создавал топик, почитайте если интересно: dou.ua/forums/topic/31961

Модели

1) Микита

Демо можно послушать тут: drive.google.com/...​GDrHoeIn/view?usp=sharing ( либо в нашем сообществе по распознаванию украинской речи: t.me/...​eech_recognition_uk/13995 )

Проект был сделан компаниями Rikkicom и Silero.

Скачать модель можно из репозитория Silero: github.com/...​ero-models#text-to-speech ( поиграться с синтезацией своих текстов можно в колабе: colab.research.google.com/...​master/examples_tts.ipynb )

2) Coqui TTS

Демо можно послушать тут: huggingface.co/...​es/robinhad/ukrainian-tts ( либо в нашем сообществе по распознаванию украинской речи: t.me/...​eech_recognition_uk/13820 )

Проект был сделан Юрием Панивым (Yura Paniv).

Скачать можно у него в репозитории: github.com/robinhad/ukrainian-tts

Другое

Все обсуждения и публикации по темам синтезации и распознавания речи для украинского языка проходят в нашем Telegram-канале: t.me/speech_recognition_uk

Присоединяйтесь, если Вам это интересно и есть дополнительные вопросы.

👍ПодобаєтьсяСподобалось4
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Товариство, знайшов нового диктора (жіночий голос) та студію для неї для створення нової моделі Text to Speech

Тому хто бажає ко-спонсорувати запис — посилання на банку в Монобанк: send.monobank.ua/jar/3Saxixsdua

Попробовал вторую модель — звук очень качественный и даже какой-то намёк на интонацию предложений есть, но вот ударения... требуется какая-то отдельная работа по анализу с расстановкой ударений.
(Видимо, это общая проблема: вон мне Waze рассказывает «поверніть на вулицю Са́перно-Сло́бодська» и т.п.)
И у первой, хоть и единственный пример (в колаб не лез), тоже ударение ушло на одном из слов.
Причём даже явная пометка ударения по U+0301 не помогает — ну уж это-то надо было отработать...
Ещё оно слишком рано затыкает звук, ощущение обрезки. Подскажите автору добавить ~0.1сек тишины с мягким завершением.

А вообще, IMO, почти отлично, очень качественно озвучено в обоих случаях.

PS: тут про «мʼяко» спрашивали — таки да, что это за «меко» получилось? Оно не догадывается вставить «й»?

В первой модели есть возможность проставить ударение самостоятельно, используя символ «+».

Что касается автоматической расстановки ударений — модели их не ставят автоматически, слишком нетривиальная задача.

Призываю всех создать акцентор и опубликовать тоже его для общего пользования. Тогда можно будет его совместить с первой моделью.

Что касается правильного озвучивания

«мʼяко»

, то нормализация текста тоже не делается. Преобразование

«мʼяко»

=>

«мйако»

нужно отдельным модулем.

Тоже призываю сообщество разработать такой инструмент для общего пользования.

апостроф працює, не той символ використовується

Який треба? Назвіть Unicode код.
Взагалі з поточним бардаком треба всі три основні розуміти (U+0027, U+02BC, U+2019). Найбільш адекватним є U+02BC, але в Windows застаріла дурниця з використанням U+2019.
А, мабуть, ще краще розуміти будь-що як розрив (саме як було б «м ясо»).

U+0027

Взагалі з поточним бардаком треба всі три основні розуміти (U+0027, U+02BC, U+2019)

якщо вам цікава комерційна підтримка, пишіть сюди: twitter.com/robinhad

це автор
Спробуйте це речення:
Спробуйте слово «м’яко» через такий апостроф.
підтримується отакий <’> апостроф)

EDIT: має бути вертикальний апостроф, зараз додам у додаток який, ДОУ нормалізовує на інший

Юра Панів опублікував модель яка підтримує простановку наголосів. Посилання на модель — github.com/...​/releases/tag/v2.0.0-beta Демонстрація моделі — huggingface.co/...​es/robinhad/ukrainian-tts

Також я опублікував проєкт для автоматичного створення наголосів в тексті. Посилання — github.com/...​orsmkv/ukrainian-accentor

доступные модели для синтезации украинской речи

Хм, это на каком языке? На русском «синтез», на украинском точно так же пишется,
на английском synthesis, а не какое-то synthesation...

Я бы не придирался, но возникло сильное подозрение, что речь о чём-то совсем не том, что обычно подразумевается под синтезом речи.

А что обычно подразумевается под синтезом речи в украинском?

Ну вот как раз, похоже, то, что в теме.

Но нестандартное слово заставило сильно задуматься.

Конвертація графем в фонеми адаптована під українську і чи взагалі використовується?

Фонемы совсем не используются, обе модели на графемах

Nuance насколько мне известно платный

Чисто для примера, украинский там появился несколько месяцев назад. Правда он TTS для него там немного корявый

Отмечу, что у Нюанса в демо 22 kHz аудио получаются, у Микити — 48 kHz можно делать.

huggingface.co/...​es/robinhad/ukrainian-tts

Coqui TTS
„Введіть, будь ласка, своє речення.”

work in progress, м’яко кажучи :)

То, мабуть, модель завантажувалася.

я маю на увазі те, як воно синтезує слово «речення» (та і з «м’яко» не торт)

Спробуйте інший апостроф, додав у додатку який саме це має бути.

доброго вечора!
це автор моделі
скажіть, будь ласка, з якими саме проблемами ви зіткнулися з якістю?
можете навести приклад речень?

ссылка на колаб точно та?

Так.

Саме ця — colab.research.google.com/...​master/examples_tts.ipynb

Якiсь проблеми з доступом?

language = ’ru’
speaker = ’kseniya_v2′
speaker = ’dilyara’
?

language = ’ua’
speaker = ’mykyta_v2′

Підписатись на коментарі