Что такое GSM
a65debd7

Детектор активности речи


Детектор активности речи (VAD) играет решающую роль в снижении потребления энергии от аккумуляторной батареи в портативных абонентских терминалах. Он также снижает интерференционные помехи за счет переключения свободных каналов в пассивный режим. Реализация VAD зависит от типа применяемого речевого кодека. Главная задача при проектировании VAD - обеспечить надежное отличие между условиями активного и пассивного каналов. Если канал на мгновение свободен, его можно заблокировать, поскольку средняя активность речи говорящего ниже 50%, то это может привести к существенной экономии энергии аккумуляторной батареи. К устройствам VAD предъявляются следующие основные требования [4.6]:

- минимизация вероятности ложной тревоги при воздействии только шума с высоким уровнем;

- высокая вероятность правильного обнаружения речи низкого уровня;

- высокое быстродействие распознавания речи, для исключения задержек включения:

- минимальное время задержки выключения. В стандарте GSM принята схема VAD с обработкой в частотной области. Структурная схема VAD приведена на рис. 4.4. Ее работа основана на различии спектральных характеристик речи и шума. Считается, что фоновый шум является стационарным в течение относительно большого периода времени, его спектр также медленно изменяется во времени. VAD определяет спектральные отклонения входного воздействия от спектра фонового шума. Эта операция осуществляется инверсным фильтром, коэффициенты которого устанавливаются применительно к воздействию на входе только фонового шума. При наличии на входе речи и шума инверсный фильтр осуществляет подавление компонентов шума и, в целом, снижает его интенсивность. Энергия смеси сигнал+шум на выходе инверсного фильтра сравнивается с порогом, который устанавливается в период воздействия на входе только шума. Этот порог находится выше уровня энергии шумового сигнала. Превышение порогового уровня принимается за наличие на входе реализации (сигнал+шум). Коэффициенты инверсного фильтра и уровень порога изменяются во времени в зависимости от текущего значения уровня шума при воздействии на входе только шума. Поскольку эти параметры (коэффициенты и порог) используются детектором VAD для обнаружения речи, сам VAD не может на этой же основе принимать решение, когда их изменять. Это решение принимается вторичным VAD на основе сравнения огибающих спектров в последовательные моменты времени. Если они аналогичны для относительно длительного периода времени, предполагается, что имеет место шум, икоэффициенты фильтра и шумовой порог можно изменять, то есть адаптировать под текущий уровень и спектральные характеристики входного шума [4.6].

рис. 4.4

VAD с обработкой в спектральной области удачно сочетается с речевым RPE/LTP-LPC коде-ком, так как в процессе LPC анализа уже определяется огибающая спектра входного воздействия, необходимая для работы вторичного VAD.



Содержание раздела