×Закрыть

Улучшение разборчивости при разговорах через хенгаутс

при раговорах через хенгаутс если народ без гарнитур не мутит микрофоны или траслирует видео по плохим каналам то звук начинает зашумливатся «кваканьем» и теряется разборчивость.

Я нашел что эту ситуацию можно сильно улучшить если в звуке круто (~24 dB/oct) обрезать низкие частоты (<100 Hz) и придавить высокие (>9kHz). В нашем случае этого невозможно добится обычными графическими или параметрическими эквалайзерами.

В общем случае тут два выхода:

1. сделать это програмно, например пустив аудио через аудиосервер jack,

2. или включив между компом и акустическими системами 3 или 4-х канальный стерео кроссовер и усилитель. Также в природе существуют эквалайзеры с перестраиваемыми обрезными фильтрами. Если попадутся — то тоже могут подойти. Хочу заметить что если комуто захочется попробовать 3-моно-2-стерео кросоверы то их потребуется пара. Если вместо акустических систем предполагается использовать наушники то им также потребуется выделенный усилитель.

Если у вас звук не из хенгаутс то будет целесообразно сначала сохранить звук в файл а потом поигратся в аудасити.

PS: Я тут недавно обнаружил что если в роли наушников использовать «неодимы» то это также резко улучшает ситуацию. Например Monster Cable Mobile Jamz или Altec Lansing Core а также их «китайские» копии.

LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Я тут узнал что такая железка как «эксайтер» имеет одним из прямых предназначений исправление ситуации описанной здесь. Как отправную точку можно использовать «Behringer SONIC EXCITER SX3040 V2». Сценарий использования — как компонент решения.

Я тут недавно обнаружил что если в роли наушников использовать «неодимы» то это также резко улучшает ситуацию. Например Monster Cable Mobile Jamz или Altec Lansing Core а также их «китайские» копии.

Кстати прям сейчас мой сетап для денойзинга выглядит вот-так: picpaste.com/Denoiser-X5RuDwav.jpg

А где там построение фильтра по шуму и фильтрация?

Нижний — круто обрезает низкие и верхние частоты. Средний давит давит шум по фирменным алгоритмам Behringer. Верхний — просто усилитель.

Впринцыпе после крутой обрезки верхних и низких частот ситуация настолько улучшается что фирменный денойзер — впринцыпе просто для души и расширения кругозора.

Я не про то, я про стандартный подход, когда оценивается спектр шума и строится обратный фильтр.

Впринцыпе после крутой обрезки верхних и низких частот ситуация настолько улучшается
Для подобного фильтра такую большую хрень покупать — это как в анекдоте про новых-русских — а там такой же галстук в 10 раз дороже.

Я тоже так вначале думал. Но выбора готовой продукции почти нет. Поэтому получилось то что получилось

Вообще я потроллил тебя немного. Действительно, найти что-то готовое непросто. Да, сам фильтр расчитать элементарно и запрограммировать тоже, но встроить его в тот же драйвер уже задачка непростая.
То бишь ты попадаешь в ситуацию, когда нужно самому ровнять драйвер звуковой карточки или писать отдельное приложение для VoIP со своими желаниями или просто купить железяку, которая не дешевая.
Но я бы на твоем месте купил бы звуковую карточку поприличнее и микрофон.

Ну если бы источник звука был моей собственностью и без нюансов то я бы рассмотрел такой вариант :-)

Есть, Золушка у ЦРТ. Ценник не знаю, но думаю большой. Это хрень обычно для подразделений, что фоноскопические экспертизы делают идет.

Ну я несколько дней потратил и пересмотрел все что дешевле 1000$. Ну там была одна платформа чисто под программирование но лень-матушка победила ;-)

Причин может быть несколько, скроей всего, что квакание — это попытки эхоподавителя побороть громкую связь по медленному каналу, в который еще пихают и видео — обычно у EC буфер заканчивается из-за задержек. Не стоит юзать громкую связь и/или пытаться впихнуть в узкий канал невпихуемое видео.

Для целей улучшения разборчивости речи в радиосвязи уже давно используется компандирование сигнала (частотного и динамического диапазона), это же перешло и в цифровые профессиональные системы связи.

Касательно VoIP, кодек G.711 поддерживает компандирование.

p.s.: физика процесса books.google.ru/...мпандирования&f=false

Слушай, а давай-ка запиши сэмпл. А то мы тут неизвестно что обсуждаем, зачем предполагать если секунд 10 вполне достаточно. А лучше сам — возьми к примеру AdobeAudition и попробуй наложить эффекты. Тебе понравится результат, и будешь знать куда копать.

Особое внимание удели разным семплам, попробуй понизить уровень записи, попробуй с разной частотой дискретизации. И по итогу поймёшь, а не стоит ли тебе действительно отказаться от хэнгаута.

Как вариант — он просто работает по UDP-каналу, и какой-то админ с кривыми ручками или кривой антивирь его безбожно режет по трафику.

Pet project? Имхо большинство отказалось от хенгаута через очень короткое время использования. Хорошо — если Вас напрягают. Хуже — если Вы напрягаете тиму на хенгаут ;)

Так можно просто Noise Gate использовать

опять же один запрос в гугле sourceforge.net/projects/noisegator

Он работает только в паузах а я пытаюсь вытянуть речь из шума.

Я ориентировался на

при раговорах через хенгаутс если народ без гарнитур не мутит микрофоны
. Если не мьютит сам — вместо них это может делать шумоподавитель. Ну а первое правило обработки звука — garbage in, garbage out
. Если не мьютит сам — вместо них это может делать шумоподавитель

Ты намекаешь — заставить их чтото пошаманить в настройках? я пробовал — не судьба.

Я так понял, он передлагает записать шум там, где все молчат. Хотя если он рандомный и на тех же частотах, что и речь — бестолку. Можно писать на два микрофона на разных расстояниях, смотреть дельту сигнала и шума, она может разниться, использовать это, если погуглить, можно найти программные решения. Но тут все упирается еще и в зажержку сигнала, и аппаратное обеспечение собеседников.

Я предлагал не передавать шум в эфир, но легких путей в этом топике не ищут

Этого можно добиться нормальным микрофоном. Именно микрофон, а не программа, чаще всего режет звук, банально превышая предел восприятия амплитуды.

Если на Линухе, там имеет значение часто дискретизации в драйвере. Если она вставлена кратно 48кГц, то существенно шумит на кратных 44кГц, и наоборот. Может это давно полечили, ХЗ, но факт что такое бывает. В идеале на связь ставить более низкую частоту, например 11кГц.

Отвратительно себя показывает большинство китайских USBшных звуковых карт. Уж не знаю почему, видать руки из жопы растут.

Большинство этих шумов отлично давится эффектом эха, то есть когда звук программно переотражается с высокой задержкой (100мс и более), высокочастотные реверберации взаимно компенсируются.

В идеале берётся классический динамический микрофон с направленным восприятием (это важно), но у него свои проблемы — он сильно зависит от наводок и качества аудио-коннекторов. Сам микрофон можно брать и недорогой, за 10-15 баксов если проводной.

А вообще — лучше доставьте собеседнику неприятных минут, пусть страдает. Это быстро приучит их МЕНЬШЕ времени тратить на пистёж и все вопросы решать письменно. Но для случаев когда ВАМ нужно пообщаться, в чём-то убедить — держите под руками хороший микрофон.

Кстати, попробуй с блютуз-гарнитурой. Их обычно делают куда лучше, а фильтр частот на разговор там уже «из коробки». Настроить блютуз на компе как аудиоустройство надеюсь не проблема?

А вообще — лучше доставьте собеседнику неприятных минут, пусть страдает. Это быстро приучит их МЕНЬШЕ времени тратить на пистёж и все вопросы решать письменно.

+100

Т.е. звук сначала будет резаться кодеком блютуз-устройства, а потом при передаче по хэнгоутс? К тому же это не избавит автора от проблемы нежелания собеседников что-то менять на их стороне.

Я нашел что эту ситуацию можно сильно улучшить если в звуке круто (~24 dB/oct) обрезать низкие частоты (<100 Hz) и придавить высокие (>9kHz). В нашем случае этого невозможно добится обычными графическими или параметрическими эквалайзерами.
Можешь резать на 300-3200, хуже не станет. Коэффициенты фильтра в матлабе с одной строчки считаются. А еще проще можно попытаться установить частоту дискретизации на 10-12KHz, есть стандартная 11025.
Но а как врезать такой фильтр до хенгаутса я не знаю. Что-то там с виртуальным драйвером мутить надо.

Для меня частоты между 100 и 300 критичны. а если зарезать выше 3200 то я перестаю узнавать голоса. Хотя собственно суть моего поста что «кваканье» чуть менее чем полностью находится ниже 100Hz.

Это твоя фантазия. Узнаются голоса в первую очередь по 3 и 4 форманте. Если в хенгаутся что-то из CELP кодеков (99%, что G729 там, хотя хер их знает, может какую свою угребочную реализацию сделали), то в канал передаются только коэффициенты предсказания и запакованная ошибка предсказания.
Диапазона 300-3200 достаточно в том числе и для узнавания. При таком обрезании ты можешь немного подрезать 4-ю форманту для высоких женских и детских голосов, на остальное не повлияет. 11025 тебе даст чуть меньше 5500 Hz (на сколько меньше зависит от конкретной железяки) — этого для речи выше крыши. Главное, учитывая динамический диапазон речи, не менее 16 бит на отсчет (больше тоже не надо).
А квакание — это потери в канале. И ничего ты не сделаешь, так этот хенгаутс написан. А вообще проще сменить VOIP мессенджер, который лучше с каналом связи работает и меньше кадров теряет. И лучше тот, который позволяет выбрать кодек. Кодеков разных море и все они разрабатывались под разные сигналы (речь, не речь) и каналы. Вообще CELP и MELP кодеки, что сейчас есть в бесплатном варианте на рынке позволяют до 2400 канал с сохранением приличного качества речи. При 1200 остается только разборчивость.

А вообще проще сменить VOIP мессенджер, который лучше с каналом связи работает и меньше кадров теряет.

Я бы рад но в конкретном случае это невозможно.

Диапазона 300-3200 достаточно ...
ну я по телефону не понимаю чуть меньше половины людей. Особенно незнакомых. После длительных исследований оказалось что проблема в нюансах анализа частот 100-300 Гц моим мозгом которых в телефонном сигнале просто нет. А вот со скайпом и хенгаутсом все намного-намного лучше ибо они там есть. Поэтому везде где мне предлагают созвонится я настаиваю на скайпе или хенгаутсе.
у я по телефону не понимаю чуть меньше половины людей.
Может телефон надо сменить? :) Я серьёзно, просто некоторые телефоны выбирают сами кодеки исходя из характеристик сети и ошибаются. Или занятся хаком телефона, чтобы самому выбрать voice codec. Например андрофоны по умолчанию часто имеют EVRC кодек, но в украинских сетях он работает в лучшем случае на half rate, а то и 1/8 рейта.

eighth rate — 16 bits (0.8 kbit/s) Ну тут только разборчивость останется.

Я могу ошибаться, но в укр GSM сетях часто голос передаётся все равно на 9600 бод, что недалеко ушло от 0.8kbit/s. Максимально на канал 14400 бод.

Хм. Надо будет подумать. У меня небыло положительного опыта с телефонами совсем :-(

Потому как в телефонном канале часто жуткие нелинейные искажения, особенно в области 3-4 формант, поэтому и не узнаешь. Это про аналоговые телефоны.
Дальше, в основном тоне индивидуальности кот наплакал, фактически только отделить низкий от высокого голоса. Этот параметр для идентификации не применяют уже лет 20. Только на артикуляторной части работают.

Вить, я в предыдущем посте не говорил о узнаваемости а только о различимости. То что я звонящего определяю только по определителю номера это просто нюанс. Проблема в том я не могу впринцыпе поговорить по телефону с достаточно большим количеством людей.

он умеет High-pass и Low-pass, Q-фактор настраиваемый...

Тогда благодарю. Но у меня Линукс с пульсом и неправильными кедами ...

Подписаться на комментарии