Drive your career as React Developer with Symphony Solutions!
×Закрыть

Долучайтесь до створення відкритого голосового набору даних української мови

Всім привіт! У такий нелегкий час карантину буває важко знайти собі заняття. Пропоную допомогти українським стартапам отримати якісні голосові набори даних.

Проект Common Voice (voice.mozilla.org/uk) працює над тим, щоб створити відкритий набір даних голосів різними мовами для всіх компаній, в тому числі для стартапів. Це допоможе створити кращі продукти для розпізнавання мови,щоб одного дня ми змогли побачити круті українські продукти, або ж навіть україномовну Siri.

Долучитись можна двома способами — перевіряти коректність записів або записати свій голос.

LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Без обид, но какие перспективы у стартапа по распознаванию языка части самой бедной страны Европы?

Ты про денежные? Прибыль будет отрицательная.

звідки така 100% впевненість? можете підтвердити цифрами?

Я не идиот, чтобы тратить свои деньги на фигню никому не нужную.

у такому разі, до такої авторитетної та обгрунтованої думки гріх не прислухатись

Не факт что это распознавание, для начала голосовой движок, и сильно надеюсь на приятную лицензию. Сейчас для украинского языка тупо нет сколь-либо вменяемого автоматического балабола. Для русского, кстати, тоже. Так что делают — пусть делают.

Но как по мне, тот случай когда нужно качество, а не количество. А когда оценки даются по принципу «hot or not», результат будет на троечку. Кто такой может применить? Мало кто может это сделать.

я вам скидував у іншому коментарі посилання, є результат на тверду 11

Для русского давно есть, но платный в ЦРТ.
Я его делал и не в одиночку.

У найбіднішій країні Європи дохід ринку кіно за 2019 рік становив $106 млн
www.boxofficemojo.com/year/?area=UA
перспективи є, ринки є

поки є ринок та вільна ніша — доти є перспектива. головне пробувати

Ага, і в кожного мікрофон от 2000 грн, і звуковуха до нього від 5-6к, може й досвід диктора десь завалявся...
Ось така шинєма, малята

Говенные записи с разметкой даже лучше для обучения, чем качественные.

Вот уж точно нет. Попробуй сам выучить несколько новых фраз по говённым записям. Или например почитать свою мед.карту :)

Записи виходять достатньо якісні і зі звичайного мікрофона, можете прослухати на сайті проекту, їх там вдосталь.

Послухав... нє хлопці, то навіть на три з мінусом не тягне. Застосування як семплів протипоказано. Одне ехо чого варте.

Без якісного мікрофона, і бажано звукопоглинаючого оточення, не варто і підходити до справи.

Не дури мозги людям. Ты же не занимался обработкой речевых образов.

Занимался, но оочень давно, с тех пор многое поменялось. Но такие образы я бы даже на слух не факт что понял, будь это язык которым я даже владею на уровне ≈2000 слов.

И да, для семплирования недостаточно частот <3кГц. Хотя бы уже потому, что иначе ты сам накормишь сэмплы гармониками, которых быть не должно.

Даже применять mp3 для семплирования не лучший вариант. Опять же, если только не ты сам его пожмакал в mp3, задавая конкретный кодек и параметры.

По хорошим образцам можно распознать плохой сигнал. А вот по плохому... будет китайское караоке, которое ставит наивысший бал тому, кто громче шумит.

Во всем ты не прав. Для речи нужно от 6.4kHz (Котельников). MP3 для нее вполне годится.
Более того реальные шумы только лучше позволят движок обучить (HMM, DNN — не важно). Абсолютно говнистые микрофоны не у большого количества (это пищат, трещат и вообще просто мусор выдают).

Ты сам эту теорему читал? Доказательством интересовался? Допущениями?
Я уже молчу о кодировании в языке — разные группы языков имеют разное кодирование, и разные требования к шумам разной природы.

И коль скоро ты не в начале 20-го века обитаешь, вместо того чтобы надрачивать древний код древними сэмплами, не лучше ли откормить его качеством если не по максималке, то близкое к этому.

Уже по той причине, что качество связи растёт по мере пропускной способности каналов. Даже в странах последнего мира типа Украины. Хочешь работать со звуком — выучи закон всех дорогих инноваций: бесплатный сыр достаётся второй мышке. Невыгодно рвать планку и становиться пионеров отрасли, если ты не имеешь за спиной армады юристов. Интеллектуальная собственность защищена отвратительно, отобрать у «слишком бедных» можно абсолютно всё. А отбирать будут монстры.

Но расклад меняется, когда программисты не спешат с эксплуатацией бажного софта и ещё более бажных стандартов, а тихонечко ждут когда протухнут патенты или не пригодятся, и уже тогда смотрят где бы выстрелить, сложив воедино те технологии и обстоятельства, которые доступны для исследования и риска.

Пример с той же видеосвязью — казалось бы, технологиям пятнашка лет минимум, всё что надо для этого есть. А как бы ни так. Этот рынок всё ещё недоразвит. Заметь, рынок, не технологии. И вход туда намного дешевле, чем в то же самое распознавание речи.

Хочешь заниматься распознаванием — ищи сразу кто готов за это платить, в это вкладываться, с готовностью ВЛАДЕТЬ продуктом и зарабатывать на его эксплуатации. А не сделать и продать. На продаже технологии не заработать, опять же потому что ты не в силах её защитить иначе как введя в эксплуатацию.

PS. Если считаешь что в распознавании речи нужно делать прорыв — объясни простое явление: почему чат-боты, которым ничего распознавать не надо, оказываются не работоспособны в реальной жизни? За что их ненавидят? Могу сказать свою версию: это неправильно с позиции рынка пытаться заменить человека там, где он силён. И пока что люди сильнее — просто за счёт их количества и их обучения. Если ты готов учить робота 20 лет, давая ему права на ошибки (в том числе дорогие) — может ты и преуспеешь. Даже если ты соберёшь команду из 8 человек и будешь учить 4-5 лет робота. Заметь, не разрабатывать, а только учить. Это просто очень жирные рынки, но с очень плохой защитой — на них тяжело работать, и скажу откровенно, эксперты зарабатывают минимум. Сыр достаётся второй мышке.

відсутність звукопоглинання і дорогих мікрофонів ніяк не заважає наборам даним для інших мов
тут спокійно на «брудних» даних натренований вокодер:
github.com/mozilla/TTS
тут можна почути приклад згенерованого голосу, натренованого на англійському варіанті:
soundcloud.com/...​cle-wavernn-and-tacotron2

Это уже можно потестить без дополнительных адаптаций, дать текст и эта машина будет его читать? Есть где это сделать онлайн?

Море такого от Фестиваля до проприетарных.

Я имею в виду то что реально можно назвать продуктом, и увидеть в работе со вменяемым качеством. Даже если оно проприетарное, но не требует кабальных лицензий на «комплект программного обеспечения» в котором надо купить слона, в идеале тупо доступно онлайн как сервис за вменяемый прайс.

То что я видел — море дерьма. То что показывают — тупо сфабриковано или руками с долгим подбором параметров под конкретные фразы, или вообще семплированно.

О! Добра справа, долучилася. Дякую за інформацію щодо проекту.

Подписаться на комментарии