К распознаванию речи

Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті

На опеннете появилась интересная ссылка: www.opennet.ru/...​nnews/art.shtml?num=49837 про Wav2letter++.
И самое главное там есть ссылка на открытую базу LibriSpeech ASR corpus (www.openslr.org/12).
А там есть ссылка на статью, как заюзать аудиокнижки для подготовки базы.
В итоге сейчас есть Wav2letter++, Kaldi и некоторых других.
Так что, для тех кто хочет получить распознавание на языках отличных от Английского уже всё есть, и работы нынче для заюзания движка, подготовки базы для тренировки сильно меньше, чем было еще 3 года назад. По сути при желании новый язык можно сделать на опенсурсных движках где-то за полгода.

Сам я от речевых задач ушел (она меня немного раздражает, к этим задачам вернусь только при очень хорошей оплате — за большие деньги почти любой каприз) и уже не буду этим заниматься.
Но если у кого из молодых желание есть, то инструменты сейчас уже все под рукой (а не так, как еще 5 лет назад — несколько лет работы требовалось).

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Всегда размышлял о том, как речь людей унифицировать при помощи фильтра?
Захотел чего-то от машины, просвисти ей это, что ли? На таком особом свисто-языке.
Или обычным голосом говоришь в трубу такую, а оттуда гудение — преобразование речи произошло так, что на входе распознающей программы уже преобразованная последовательность более для распознавания пригодная.
И еще, давно хотел узнать, как Нейронные Сети обрабатывают ошибки?
Есть куча наборов. При обучении их скармливают сети. Но там ведь вроде и ошибочные есть?
Человек учится на ошибках собственных, а как Нейронка?

Я начинаю понимать, когда отладчиком степ бай степ

Захотел чего-то от машины, просвисти ей это, что ли? На таком особом свисто-языке.

Свистоязык работает только на машинах оборудованных позитивной клавиатурой. Нажал кнопочку — оно свистит! Можно и на рояле набирать данные, тоже позитивненько: www.youtube.com/watch?v=Ovg7LVtxoNU

Понимаешь какая штука 7*7 это 49 разных свистов. А на пианино их даже больше. И ваще круть исполняешь музыку — ничо никому не понятно — а ты композитор Матрицы — ни больше ни меньше.

Записал на кассету и грузишь матрицу с магнитофона!

Не, взламываешь — пентестерски, канеш

Не совсем по поводу распознавания речи, но по поводу поиска похожих изображений статья на Хабре, возможно тебя заинтересует.

Если распознавание нужно машинам, роботам то выведите на картинке штрих-код Люди и так поймут что нарисовано. Иначе я вообще не понимаю — зафига распознавание кому надо?

no comments:
«В отличие от опубликованного в январе начального прототипа, реализация wav2letter++ полностью переписана на языке C++»

менно, прототипировали на Питоне или чем там еще, а для релиза не тормознутого с++ заюзали.

ну так я об чем — разработка здорового человека

Все таки получается сейчас нейронки дают больший выхлоп чем другие методы ML для распознавания речи?

На видео нейроны человеческого мозга отращивают новые связи. А нейронки так делают?

Я сейчас делаю распознавание текстов в картинках без нейронных сетей. Правда, не кручоных и не верченых. Без поворотов то бишь. Это не нужно в моей задаче. Есть у тебя два набора интервалов. Оба правильные. Но интервалы в одном наборе 10, а в другом 12. Вот я беру и суммирую и получается у меня третий набор — для использования, для сравнения — и в этом наборе интервалы это уже двойное число. Начинается оно от 10 до 12 включительно. Такое вот суммирование осуществляю. То бишь интервал 11 при сравнении подойдет. Чем не обучение? Однако это обучение с учителем. Информация о том удачное сравнение или нет дает возможность принять решение суммировать интервалы (так как я выше описал) или нет. Вот и получается учет ошибки. И в этом алгоритме нет нейронов. Но я точно знаю что в нейронах реализуется именно этот алгоритм.

Підписатись на коментарі