Есть тема для курсового или дипломного проекта!

Привет студенческой братии на форуме!

У меня есть предложение для вас. Я ищу студента, который хочет решить сложную и интересную задачу в рамках реального проекта. Это может быть отличной темой для курсового или даже дипломного проекта.

Итак, что нужно? У меня есть приложение, которое распознает команды пользователя (хлопки) и выполняет нужные действия. Детали можно посмотреть на сайте приложения: iclapperapp.com

На данный момент алгоритм распознания хлопков работает неплохо, но в определенных ситуациях недостаточно хорошо. Свои знания и навыки в обработке звуковых сигналов я исчерпал, поэтому ищу помощи.

Рейты состоявшихся специалистов по DSP ввергают в шок — игра не стоит свеч. Но я знаю, что в наших ВУЗах полно умных и талантливых ребят, которым под силу заняться этой проблемой с выгодой и для себя, и для меня.

Резюмирую сказанное. Нужен студент, который в университете изучает digital signal processing и/или задачи распознавания образов и программирование, который хотел бы в качестве курсовой (или дипломной) работы взять задачу распознавания хлопков моим приложением.

За результативную работу я предлагаю %% от продаж (все оформляется юридически, никто никого обманывать не будет).

Мне жаль, что в свое время я потратил год в универе на решение абстрактных задач, а не на что-то нужное и перспективное. У вас есть шанс не повторить моей ошибки.

Интересно? Считаешь, что справишься? Пиши в личку!

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Хех. Интересная задачка. С такой и на кандидатскую в Украине не стыдно подацца, в случае грамотного решения.

З.Ы. Студентам на заметку, вам надо рыть independent component analysis, blind source separation, cocktail party problem.

Используйте фреймворк Морзе с адаптером для стука (вместо тире — двойной стук).

Я стесняюсь спросить, какой фреймворк морзе позволяет выделить из смешанного сигнала, состоящего из музыки с большой громкостью и хлопокв с меньшей, самэ хлопки, после чего их распознать? Я пока видел только те, что работают с шумом, громкость которого намного меньше громкости полезного сигнала.

Точно, именно поэтому для передачи морзянки всё-таки используется тональный сигнал, а не стук. Наличие тона легко детектить, затем определить его основную частоту, отфильтровать узкополосным фильтром и декодировать.

Если бы стук был сгенерирован роботом, то его можно было бы вылавливать по чёткой периодичности, это типа ориентировка на фазу несущей.

В вашем же случае единственный выход — детектить звуковой образ, например, единичного хлопка или щелчка пальцами. Если детектится серия — это точно идёт передача. Как же детектить отдельный хлопок / стук? Это тема «распознавание образов» приминительно к звукам. Но тогда уж лучше распознавалку сразу на слова натравить. Единичным образом тогда будет не звук щелчка, а целое слово. Естественно, можно запрограммировать много слов для распознавания.

Я тоже хотел сделать, чтобы лампочка, ноут, телек, кондиционер, домофон и чайник меня издалека слушались :-)

PS: www.siliconrus.com/...ndex-speechkit

Примеры хлопков пользователя у нас есть. Это действительно задача
распознавания образов для
звука.

Касательно того, что уж
лучше распознавать слова — не соглашусь. Это другой
use-case. Кроме того, я не
уверен, что даже самые лучшие существующие
решения распознавания речи
смогут адекватно работать в шумном окружении, а вот
распознать хлопки в таких
условиях — реально.

Ну, вообще-то, да. Звук хлопка по своей структуре прост, как конструкция гвоздя, поэтому его распознавание должно быть проще на порядок. Предлагаю буферизировать секунд 5 звукового потока минимум, искать в нём всплески звуковой энергии, строить для них спектр (FFT) и затем этот спектр сравнивать с эталонным для каждого потенциального хлопка. Для сравнения я знаю только формулу «Евклидово расстояние» www.basegroup.ru/...nitions/euclid

искать в нём всплески звуковой энергии

Громкий дес-метал + хлопки чаморошного проггера на заднем плане. Угадайте, где будут всплески энергии? Ваше решение со спектрограммой в принципе неприменимо, если громкость полезного сигнала сравнима со громкостью фонового шума.

Нетипичный пример использования. Но выход есть, правда он уже не так прост: надо штуки три микрофонов и пытаться определить направление на источник полезного сигнала, складывая звуковые потоки от разных микрофонов с разными задержками.

Нетипичный пример использования.

Скажите, вы вообще топик читали? Или решили зайти рисануцца своими, с позволения сказать, рассуждениями? Для приложения ТСа это — типичный пример:

У меня есть приложение, которое распознает команды пользователя (хлопки) и выполняет нужные действия. Детали можно посмотреть на сайте приложения: iclapperapp.com
надо штуки три микрофонов и пытаться определить направление на источник полезного сигнала, складывая звуковые потоки от разных микрофонов с разными задержками.

Браво, вы таки дошли до решения пробелмы коктейльной вечеринки, о чем я написал изначально, теперь вам еще треба сделать логические построения для того, чтобы избавицца от нескошльких микрофонов и вы прийдете к:

independent component analysis, blind source separation, cocktail party problem.
dou.ua/...-comment#376760

Вся изложенная информация доступна в Википедии, я же её 10 лет назад по книгам да журналам собирал, будучи студентом. Я написал от простого к сложному и уверен, что есть ещё сложнее, можно фильтр Калмана прикрутить, но кто это всё реализовывать будет? Хотя какая разница, будет к чему стремиться.

Коментар порушує правила спільноти і видалений модераторами.

Коментар порушує правила спільноти і видалений модераторами.

Коментар порушує правила спільноти і видалений модераторами.

Коментар порушує правила спільноти і видалений модераторами.

Вся изложенная информация доступна в Википедии, я же её 10 лет назад по книгам да журналам собирал, будучи студентом.

И как это влияет на то, что вы пишете идеи, которые к теме отношения не имеют и являюцца смехтворно дилетанстскими?

Я написал от простого к сложному и уверен, что есть ещё сложнее, можно фильтр Калмана прикрутить, но кто это всё реализовывать будет?

Т.е. вы считаете Калмана (модель смешения описать весьма ведь просто по факту) сложным? Простите, вы точно инженер?

>> самые лучшие существующие решения распознавания речи смогут адекватно работать в шумном окружении, а вот распознать хлопки в таких условиях — реально.

Вы не правы. Сложность идентичная, если вы слушаете музыку громко.

Цитата скопирована без начального «не уверен, что».

Опять же, я не претендую на роль гуру в этом вопросе, потому что это просто болтовня на сайте не любителей DSP, а IT, но музыку отличить от хлопка можно по спектру, который у источников музыки [обычно] искусственно и/или конструктивно ограничен примерным пределом в 20 кГц.

Так что, берём хороший пъезо-микрофон, чувствительный к ультразвуку, пишем в 192 кГц 24 бит и акцентируем в спектре эталонов и исследуемых образцов этот участок. Музыки в ультразвуке не будет. Шорох от хлопка/стука должен хоть немного, но быть. Profit!

И, кстати, морзянку бы сюда, да не любите вы её.

К сожалению, мы должны ориентироваться на встроенные микрофоны в макбуки и аймаки.

Да, тогда и речь о «стерео» с тремя микрофонами тоже не идёт.

Посмотрите на habrahabr.ru/...vi/blog/199230 — вот, пришлось им сделать специализированное устройство. Зато потом даже HP в одну модель своих ноутбуков его встроило.

Вы понимаете, что несете чушь? Есть сформированная аудитория, под которую фич-реквесты и пишуцца. Сгенерированные аудиторией. Если бы вы дали себе труд ознакомицца с топом, то вам бы сразу стало понятно, что подобные ваши идеи смотряцца глупо и неразумно.

Коментар порушує правила спільноти і видалений модераторами.

Коментар порушує правила спільноти і видалений модераторами.

Точно, именно поэтому для передачи морзянки всё-таки используется тональный сигнал, а не стук. Наличие тона легко детектить, затем определить его основную частоту, отфильтровать узкополосным фильтром и декодировать.

Иными словами, ваш совет о Морзе невалиден, так? Стесняюсь спросить, зачем тогда лезли с ним в тред?

В вашем же случае единственный выход — детектить звуковой образ, например, единичного хлопка или щелчка пальцами. Если детектится серия — это точно идёт передача. Как же детектить отдельный хлопок / стук? Это тема «распознавание образов» приминительно к звукам. Но тогда уж лучше распознавалку сразу на слова натравить. Единичным образом тогда будет не звук щелчка, а целое слово. Естественно, можно запрограммировать много слов для распознавания.

Моего случая здесь нет. Я знаю, как решить данную задачу и так. И да, о распознавании образов вы догадались правильно. Все остальное — неверно.

Стесняюсь спросить, зачем тогда лезли с ним в тред?
По той же причине, что и вы, мистер, со своей музыкой.
Я знаю, как решить данную задачу и так.
По ошибке принял за товарища топикстартера.
Иными словами, ваш совет о Морзе невалиден, так?
С бюджетом топикстартера — ещё как валиден. Но без музыки.

Коментар порушує правила спільноти і видалений модераторами.

Коментар порушує правила спільноти і видалений модераторами.

Коментар порушує правила спільноти і видалений модераторами.

Коментар порушує правила спільноти і видалений модераторами.

По той же причине, что и вы, мистер, со своей музыкой.

Я, как раз, был достаточно разумен, чтобы прочитать топ, перед тем, как постить сюда нерелевантные и смешные идеи. Обычно, так поступают дети, которые просто жаждут вставить слово, даже, если и понятия не имеют, о чем идет речь.

С бюджетом топикстартера — ещё как валиден. Но без музыки.

Т.е. вы предлагаете послать всех пользователей, чтобы реализовать вашу идею в рамках ваших же ограниченных знаний? Подход, достойный синиор-инженера.

З.Ы. Стучать — нехорошо.

думаю, что кодить это интересно.
Но поясните — зачем подтверждение после хлопков?
мне кажется, что хлопки — чтобы быть вдали от ноутбука и командовать им....

Подтверждение осуществляется хлопками, не нужно быть вблизи компьютера. Это такое средство защиты от ложных срабатываний для критических действий, таких как выключение компьютера.

Спасибо за отзыв, теперь понимаю, что тема подтверждения не раскрыта и нужно четче объяснить этот момент моим пользователям.

такая мысль мелькнула, но не нашла ответа на сайте.
спасибо.
Я верно понимаю, что можно срабатывания завязаны на некий ритм похлопываний.
Сила (громкость), стиль (глухой, об стол, стену) — не учитываются?

Все зависит от чувствительности, которая регулируется в настройках. При минимальной чувствительности можно управлять и с помощью щелчка пальцами, резкого выкрика или стука о стол, но в комнате должно быть тихо, иначе не избежать ложных срабатываний. При максимальной чувствительности нужно хлопать очень громко и отчетливо, но здесь не страшен шумный фон. Между хлопками не должно быть паузы больше чем секунда, но и не меньше 0.25 с.

Підписатись на коментарі