Координація ось тут: t.me/computer_vision_uk
Зараз записуємо датасети для кримськотатарської та української мови (голос Микита). Приєднуйтесь до нашого товариства за посиланням — t.me/speech_synthesis_uk
Ви не праві. Розвитку не було, бо самі українці не хотіли цього робити. Простіше і краще працювати за долари та вирішувати задачі направлені на зарубіжний ринок.
Завершили запис голосу Лада, тепер є 10.5 годин якісних даних для тренування, які можна завантажити тут — github.com/...s-datasets/tree/main/lada
Кому цікаво про результати якості Whisper для української мови, то я зробив тести всіх 5 моделей.
Результати ось в цьому пості — t.me/...eech_recognition_uk/20686
Якщо коротко, то зявлені метрики не збігаються і є свої підводні камені її використання.
Кількість відкритих моделей для speech-to-text вже перевалила за десяток. Можна подивитися цей репозиторій з ними — github.com/...mkv/speech-recognition-uk або долучитися до нашого товариства у Telegram — t.me/speech_recognition_uk
Також Богдан Михайленко зробив меншу версію моделі, її розмір ~150 mb і якість 91.72%
Запустили бот для збору даних датасету — t.me/asr_corpus_bot
За домогою смартфона тепер можна допомогти українському speech-to-text
Нещодавно співробітники NVIDIA опублікувати нейронку на своїх технологіях CitriNet, яка дає 93.74% розпізнавання і зараз є state-of-the-art
Посилання не неї тут — github.com/...mkv/speech-recognition-uk
Товариство, знайшов нового диктора (жіночий голос) та студію для неї для створення нової моделі Text to Speech
Тому хто бажає ко-спонсорувати запис — посилання на банку в Монобанк: send.monobank.ua/jar/3Saxixsdua
Товариство, знайшов нового диктора (жіночий голос) та студію для неї для створення нової моделі Text to Speech
Тому хто бажає ко-спонсорувати запис — посилання на банку в Монобанк: send.monobank.ua/jar/3Saxixsdua
Реліз на день народження чату t.me/speech_recognition_uk !
А саме датасет створений на відеозаписах новин від Голосу Америки.
Кількість записів: 98103
Кількість годин: 114
Посилання на датасет: nx16725.your-storageshare.de/s/f4NYHXdEw2ykZKa
Додав таблицю порівняння якості доступних моделей — github.com/...ecognition-uk#-benchmarks
Оновив бот для розпізнавання аудіо-повідомлень у месенджері Telegram — t.me/taras_voice_bot
Якість розпізнавань була покращена до 84.74% і додані інші покращення.
Також, закликаю усіх доєднуватися до нашого товариства по розпізнаванню мови — t.me/speech_recognition_uk
P.S. За останній час були оновлені моделі для синтезації української мови, їх можна знайти у нашому товаристві.
Додав мовну модель треновану на Вікіпедії — huggingface.co/...ls-r-300m-uk-with-wiki-lm
Тим часом AI-спільноти в Україні:
— t.me/speech_recognition_uk
— t.me/speech_synthesis_uk
— t.me/computer_vision_uk
— t.me/applied_math_uk
— t.me/nlp_uk
Discord:
discord.gg/yVAjkBgmt4
Ви просто про них не знаєте)