Speech-to-Text: Первая доступная модель для украинского языка

Всем привет!

Хочу поделиться приятной новостью для всех, кто искал или желал получить готовый софт для перевода аудиозаписей в текст для украинского языка.

Такой софт появился.

Благодаря небольшой группе украинских добровольцев («згуртованих» в Telegram-группе), которые собрали с просторов интернета доступные аудио и текстовые материалы на украинском языке (датасет на ~260 часов, самый большой из доступных на данный момент) и российским дата-сайентистам создавшим одну из лучших speech-to-text моделей для русского языка, на свет появилась первая доступная для свободного скачивания модель speech-to-text: UA Silero.

На данным момент модель может распознать простые слова и предложения, но это лишь из-за небольшого собранного датасета. Мы прызываем всех добровольцев присоединяться к нам, чтобы пополнять датасет и улучшать качество модели. Для этого достаточно присоединиться к нашей Telegram-группе — t.me/speech_recognition_uk — и спросить как помочь.

Мы сделали Telegram-бота для тестирования: t.me/ukr_stt_bot . Просто отправьте своё аудио-сообщение боту и он ответит распознанным текстом.

ВНИМАНИЕ для всех, кто будет использовать модель в личных или коммерческих целях: у проекта есть лицензия — AGPL-3.0 ( полный текст лицензии ). Использование модели накладывает её условия на ВСЕХ, поэтому исполняйте их добросовестно (!).

Задавайте свои вопросы, если что-то непонятно или хотите о чём-то узнать. Мы за использование речевых технологий для украинского языка и создание местной Сири (или Омеляни). Или как у Киевстара — Зоряны.

Ссылки:

1. Общий репозиторий по теме распознавания украинской речи: github.com/...​mkv/speech-recognition-uk (просьба поставить star, чтобы репозиторий был популярным и другим людям проще было его найти). Там можно найти ссылки на доступные датасеты.

2. Группа в Telegram, где происходит обсуждение среди добровольцев по украинскому speech-to-text: t.me/speech_recognition_uk

3. Для русского языка тоже есть группа: t.me/speech_recognition_ru

4. Модели Silero: github.com/snakers4/silero-models (на данный момент украинская модель не опубликована в описании, ибо находится в статусе пополнения данными)

5. Пример использования модели: github.com/egorsmkv/ua-silero-demo

6. Код бота ( t.me/ukr_stt_bot ) для Telegram, где можно потестировать модель (просто отправьте аудио-сообщение боту): github.com/...​gorsmkv/ukrainian-stt-bot

Скриншоты из бота для затравки:

Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті

👍ПодобаєтьсяСподобалось7
До обраногоВ обраному9
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Неначасі ви то зробили... ой не на часі...

Для тих, хто не знає, замість t.me/ukr_stt_bot, який вже не працює, можна використати t.me/taras_voice_bot від того ж комьюніті (обмеження файлів до 4 мб)

Запустили бот для збору даних датасету — t.me/asr_corpus_bot

За домогою смартфона тепер можна допомогти українському speech-to-text

Нещодавно співробітники NVIDIA опублікувати нейронку на своїх технологіях CitriNet, яка дає 93.74% розпізнавання і зараз є state-of-the-art

Посилання не неї тут — github.com/...​mkv/speech-recognition-uk

Оновлення — 94.83% тепер якість

Також Богдан Михайленко зробив меншу версію моделі, її розмір ~150 mb і якість 91.72%

Товариство, знайшов нового диктора (жіночий голос) та студію для неї для створення нової моделі Text to Speech

Тому хто бажає ко-спонсорувати запис — посилання на банку в Монобанк: send.monobank.ua/jar/3Saxixsdua

Реліз на день народження чату t.me/speech_recognition_uk !

А саме датасет створений на відеозаписах новин від Голосу Америки.

Кількість записів: 98103
Кількість годин: 114

Посилання на датасет: nx16725.your-storageshare.de/s/f4NYHXdEw2ykZKa

Додав таблицю порівняння якості доступних моделей — github.com/...​ecognition-uk#-benchmarks

Оновив бот для розпізнавання аудіо-повідомлень у месенджері Telegram — t.me/taras_voice_bot

Якість розпізнавань була покращена до 84.74% і додані інші покращення.
Також, закликаю усіх доєднуватися до нашого товариства по розпізнаванню мови — t.me/speech_recognition_uk

P.S. За останній час були оновлені моделі для синтезації української мови, їх можна знайти у нашому товаристві.

Нагадую ще раз, що у нас спільнота — t.me/speech_recognition_uk

Усім зацікавленим рекомендую долучатися, багато цікавого саме там обговорюється

Опублікував модель huggingface.co/...​s-r-300m-uk-with-small-lm

Відмінність цієї моделі від інших wav2vec2 моделей в тому, що вона з дефісами і апострофами

Додав мовну модель треновану на Вікіпедії — huggingface.co/...​ls-r-300m-uk-with-wiki-lm

Також з’явилася нова модель на основі data2vec — huggingface.co/...​obinhad/data2vec-large-uk яку розробив Юрій Панів

Опублікував також велику ONNX модель (1 млрд параметрів) — 1.1 GB і квантизовану (300 млн параметрів) — 300 mb — github.com/...​smkv/ukrainian-onnx-model

Опубликовал модель с большой новостной языковой моделью — huggingface.co/...​-xls-r-1b-uk-with-news-lm

На фотографии ( t.me/nlp_uk/1376 ) отличие от основной модели — huggingface.co/...​2vec2-xls-r-1b-uk-with-lm

Справа распознавание улучшенной моделью, слева основной

Розпізнавання з цією мовною моделлю дає 88.58% якості на Common Voice 6.1

Новая модель на основе wav2vec2 с 1 млрд параметров и распознаванием 88% — huggingface.co/...​2vec2-xls-r-1b-uk-with-lm

Появилась новая модель на основе wav2vec2: huggingface.co/...​ad/wav2vec2-xls-r-300m-uk

Усе дуже круто працює! Вдячність!

Для тестирования новой модели Silero xxsmall можно использовать Telegram-бот: t.me/ukr_stt_small_bot

Один из наших участников вчера записал лекцию по созданию личного оффлайн ассистента по типу Алексы/Алисы с использованием проекта VOSK: www.youtube.com/watch?v=mVpN8QUKEOQ

Он использовал русскую модель, но теперь можно повторить с украинской моделью и сделать ассистента понимающего украинский язык!

Автор выложил на свой гитхаб много полезного кода, который он сделал, поэтому сканируйте QR-коды в видео.

Жгите дальше .... все идет нормально

Спасибо! Так как у нас все бесплатно и нет никакой коммерции, то такие вещи как WER не выкладываются (нужно намного больше человеко-часов). Но тот, кто хочет более профессиональной поддержки и точных значений WER может обращаться к ребятам из Silero, они на платной основе готовы предоставлять такие услуги.

Отправьте, пожалуйста, ссылку на OpenTLD, не могу найти в гугле. Лично я не тренирую модели, поэтому не могу сказать насколько сложно/легко параметр WER считается.

Заходите к нам в чат, там все создатели моделей есть, можете вспупить с ними в дискусс по этому вопросу.

Я не совсем понял к чему вы написали о проекте OpenTLD в контексте распознавания речи.

Этот проект о 2D-трекинге объектов в видео.

Я с object tracking в прошлом году игрался. Можете посмотреть эти видео:

— www.youtube.com/watch?v=y3s-pMdYoNE
— www.youtube.com/watch?v=NxvHjheLvO4

там денег нет

Hey Siri, объясни дедушке, что в приложениях технологии денег навалом

Мы загрузили обновленные датасет (1000 часов!) на торрент, скачать можно тут: academictorrents.com/...​e38919afee0a11d8145e35556

Привіт! Для початку хочу подякувати за пророблену роботу! Не плануєте завантажити ваш датасет на www.kaggle.com. Хотілось би із ним попрацювати, але не маю достатньо потужного заліза, а Google надає можливість десь 30-36 годин на тиждень безкоштовно користуватись ресурсами kaggle notebook (16 gpu або google tpu)

Привет!

Пожалуйста :-)

Нужно сказать, что датасет у нас обновился и теперь в нём уже ~1200 часов.
Ссылка на него: academictorrents.com/...​583df003d54ed61776650beb8

Я не работал ранее с платформой Kaggle и не могу сказать, сможет ли эта платформа поместить датасет объёмом в ~188 GB.

Может быть, кто-нибудь из знающих подскажет?

Я подивився максимальний об’єм для одного публіного датасету не більше 100 GB, але завжди можна завантажити 2 :-). Основна фішка цієї платформи у тому, що після завантаження датасету його можна підключити до kaggle notebook і одразу працювати. Я маю невеликий досвід із цією платформою тож із Вашого дозволу спробую завантажити датасет.

дякую бо підняв настрійяк українською перекласти місь р тлірік

Так) На жаль помилки присутні

А де можна про архітектуру і т.д. почитати натуральною, а не мовою програмування?

Краще завітати до нашого телеграм-чату бо різні люди роблять на різних архітектурах.

Ніякої архітектури — це всього лише датасет нарізка аудіо для подальшої роботи, але є й моделі розпізнавання мови, VOSK-API, DeepSpeesh а також чистий PyTorch. Ось на яких архітектурах існують вже моделі

Украинская компания Inlimited создала модель укр. языка в 2018 году и уже создает бизнес-решения --- inlimited.ua/news/1615

А на каких технологиях ваше решение работает?

У нас обновление датасета. Уже 800 часов. Также добавили торрент (72.4 GB архив, 106.8 GB в распакованном виде), теперь скачать датасет стало проще.

Вот читаю коментарии и диво-дивное — похаять и проверить всякие Веры это можно , а сказать ребята у меня есть корпус текстов — он вам нужен ? Нет не так — ребята есть корпус текстов — возьмите их — вот ссылка ... Так на такое никто не способен....

Ничего страшного. Кому будет интересно — тот присоединится.

Хорошие новости от нашего сообщества: Igor Sitdikov создал вторую модель для VOSK-a. Можно скачать её в чате t.me/speech_recognition_uk или со страницы проекта на GitHub github.com/...​mkv/speech-recognition-uk

Так, додавали з цього сайту також книги.

Мы как команда из Украины, собираем открытый датасет. Ребята из Silero создали эксперементальную украинскую модель, если вам нужны вопросы по модели, то вы можете прочитать их доку на сайте и также статьи на habr. У них есть ещё в открытом доступе английский, немецкий, испанский языки. Также они вылили самый большой открытый датасет русского языка Open STT. WER мы ещё не сверяли, уж сильно раняя модель, планируем собрать 1000 часов данных, обучить и потом проверить.

Уже один доброволец делает такой веб-интерфейс.

Можна :) , але ще треба значно більше даних, 1000 годин — це раз друга ціль.

Использовали DeepSpeech решение, можно узнать?

Silero еще поддерживает TensorFlow, но пока для него модель не опубликована.

Yurii Paniv сделал модель на DeepSpeech, можно посмотреть в его репозитории: github.com/...​nhad/voice-recognition-ua

Нужно найти ссылки youtube-каналы с украинским контентом в которых есть хорошие субтитры.

По идее реальная текстовка, во-первых субтитры есть не у всех видео, во-вторых в описании видео написано:
Переклад, редагування, субтитрування, монтаж: Віталій Шевчук.
ну и качество субтитров слишком хорошее для автоматической генерации.

Возможно, сначала делаются субтитры (в некоторых словах даже проставлено ударение), а потом уже по субтитрам делается озвучка.

В чому прикол, гугл транслятор робить це вже давно і набагато краще?

Ви про який транслятор від Google говорите? У нього їх два. Google Translator та Google Cloud Translation. З першого по закону ви не можете отримувати текст, а за другий треба платити. Тим більше обидва сервіси недоступні в тих місцях, де немає інтернету, а дану модель можна встановити на комп’ютер без інтернету і вона буде працювати.

я маю на увазі Google Translator. Є ще офф-лайн безкоштовні сервіси для начитки тексту, пізніше кину лінк. Якість відмінна.

Google с украинским то не очень дружит, учитывая уровень русского у него. Также коммерческие данные мало кто в Google отправить захочет, а некоторым вообще под NDA такое запрещено. Ну и дорого это если имеется постоянный поток данных.

так, переклад не дуже, особливо для технічних текстів, але Speech-to-Text без нарікань.

Speech-to-Text — это и есть основная задача, дата сет мы собираем для этого, ибо в интернете ничего нет. Модель тоже первая выложена на просторах сети.

А, вы имели ввиду Speech-to-Text у Google норм — да это правда. Но ребята которые сделали тестовую модель из наших данных, смогли сделать модель русского языка выше уровня Google в некоторых доменах даже. Поэтому, чем больше мы соберём данных тем ближе к топам :)

А можно интегрировать в свои проекты как библиотеку на С/C++, C#, Java, Swift и т.п. ?

Готовой реализации подобной библиотеки нет, но создать просто: nanomsg или другой локальный socket/http server + pytorch/python и в путь.

Пистон в принципе перекрутить можно. По по аналогии с uniconverter/Inscspe и SK1.

Тут можна взяти трохи уже опрацьованих даних. commonvoice.mozilla.org/uk/datasets

Дякую. Цей датасет був одним з перших, який ми додали.

Ні. Схема збору датасету зараз проста — завантаження на MEGA даних та прямування до наступних джерел. Але я бачив, що цей датасет оновлюється час від часу і треба якость це виправити.

Круто! Молодці! Якість, поки що, не дуже висока, але якщо повільно говорити прості фрази — результат відмінний.

Підписатись на коментарі