Speech-to-Text: Первая доступная модель для украинского языка
Всем привет!
Хочу поделиться приятной новостью для всех, кто искал или желал получить готовый софт для перевода аудиозаписей в текст для украинского языка.
Такой софт появился.
Благодаря небольшой группе украинских добровольцев («згуртованих» в Telegram-группе), которые собрали с просторов интернета доступные аудио и текстовые материалы на украинском языке (датасет на ~260 часов, самый большой из доступных на данный момент) и российским дата-сайентистам создавшим одну из лучших speech-to-text моделей для русского языка, на свет появилась первая доступная для свободного скачивания модель speech-to-text: UA Silero.
На данным момент модель может распознать простые слова и предложения, но это лишь из-за небольшого собранного датасета. Мы прызываем всех добровольцев присоединяться к нам, чтобы пополнять датасет и улучшать качество модели. Для этого достаточно присоединиться к нашей Telegram-группе — t.me/speech_recognition_uk — и спросить как помочь.
Мы сделали Telegram-бота для тестирования: t.me/ukr_stt_bot . Просто отправьте своё аудио-сообщение боту и он ответит распознанным текстом.
ВНИМАНИЕ для всех, кто будет использовать модель в личных или коммерческих целях: у проекта есть лицензия — AGPL-3.0 ( полный текст лицензии ). Использование модели накладывает её условия на ВСЕХ, поэтому исполняйте их добросовестно (!).
Задавайте свои вопросы, если что-то непонятно или хотите о чём-то узнать. Мы за использование речевых технологий для украинского языка и создание местной Сири (или Омеляни). Или как у Киевстара — Зоряны.
Ссылки:
1. Общий репозиторий по теме распознавания украинской речи: github.com/...mkv/speech-recognition-uk (просьба поставить star, чтобы репозиторий был популярным и другим людям проще было его найти). Там можно найти ссылки на доступные датасеты.
2. Группа в Telegram, где происходит обсуждение среди добровольцев по украинскому speech-to-text: t.me/speech_recognition_uk
3. Для русского языка тоже есть группа: t.me/speech_recognition_ru
4. Модели Silero: github.com/snakers4/silero-models (на данный момент украинская модель не опубликована в описании, ибо находится в статусе пополнения данными)
5. Пример использования модели: github.com/egorsmkv/ua-silero-demo
6. Код бота ( t.me/ukr_stt_bot ) для Telegram, где можно потестировать модель (просто отправьте аудио-сообщение боту): github.com/...gorsmkv/ukrainian-stt-bot
95 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів