CN109727604B

CN109727604B - 用于语音识别前端的频域回声消除方法及计算机储存介质

Info

Publication number: CN109727604B
Application number: CN201811533955.8A
Authority: CN
Inventors: 胡奎
Original assignee: NIO Co Ltd
Current assignee: NIO Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2023-11-10
Anticipated expiration: 2038-12-14
Also published as: CN109727604A

Abstract

一种用于语音识别前端的回声消除方法和系统，该回声消除方法主要包括时‑频域信号变换、回声信号与残差信号估算、子带信号功率谱与互相关系数计算、基于互相关系数的增益函数进行非线性处理以及频‑时域信号变换等步骤，最终输出已消除回声的信号。本发明使用单通道回声消除方法处理车载或其他应用场景回声中的频域回声，具有运算量小且收敛速度快的特点。

Description

用于语音识别前端的频域回声消除方法及计算机储存介质

技术领域

本发明涉及人工智能领域的语音信号预处理领域无人飞行器领域，具体涉及一种用于语音识别前端的频域回声消除方法、计算机存储介质和电子设备。

背景技术

声学回声(acoustic echo)是指在进行语音通话或语音播放等场景讲话者的语音返回而再次被听到的现象。讲话者使用的扬声器的声音通过麦克风再次被输入而产生声学回声，且声学回声成为在语音通话、播放或多方语音会议等时音质降低的主要原因。因此，大部分的语音通话、播放或者语音会议方案使用声学回声消除器(AEC：Acoustic EchoCanceller)。

车载应用场景中由于往往有多个扬声器，需要用到多通道回声消除算法以便于去除来自多个扬声器的参考回声。现有的处理方法往往是分别用一个自适应滤波器去估计回声路径，分别将各参考回声去除掉。然而使用多通道回声消除方法处理车载音乐回声的问题主要有运算量大与收敛速度慢的缺点。

发明内容

基于上述问题，本文提出一种用于语音识别前端的频域回声消除方法和系统，使用单通道回声消除方法处理车载或其他应用场景回声中的频域回声，具有运算量小且收敛速度快的特点。

本发明的第一方面提供了一种用于语音识别前端的频域回声消除方法，包括：

采集参考信号x(n)和麦克风信号d(n)，所述参考信号为扬声器的播放信号，所述麦克风信号包括回声信号y(n)和语音信号s(n)，其中n是信号序列采样点编号；

对所述参考信号x(n)和麦克风信号d(n)进行分帧，得到分帧后的参考信号分帧信号与分帧后的麦克风信号分帧信号，其中m为分帧后的帧号。然后对分帧信号进行时-频域信号变换，得到第m帧频域下的参考信号子带信号X_k(m)和麦克风信号子带信号D_k(m)；其中，k＝0，1，2，…，(K-1)，K；K为频域信号子带数，m分帧后的帧号，麦克风信号d(n)与参考信号x(n)分别经过时频域变换之后得到频域的下采样之后的子带信号：D_k(m)与·X_k(m)；

对所述参考信号子带信号进行滤波得到回声信号的估计信号，将所述麦克风信号子带信号与所述回声信号的估计信号相减得到残差信号子带信号；

计算所述参考信号子带信号X_k(m)和麦克风信号子带信号D_k(m)的功率谱及两者的互功率谱，以求出两者的互相关系数；

基于所述互相关系数产生的增益函数对所述残差信号子带信号作非线性处理，得到去除回声的子带信号E_out，k(m)；

对所述去除回声的子带信号进行频-时域信号变换，作为最终的回声消除信号输出。

在一些实施例中，使用FFT，WOLA滤波器组或其它滤波器组对所述参考信号分帧信号和麦克风信号分帧信号进行时-频域信号变换。

在一些实施例中，使用双滤波器对所述参考信号子带信号进行滤波得到回声信号的估计信号。

在一些实施例中，所述双滤波器为自适应滤波器和最优滤波器其中，表示第m帧，第K个子带的滤波器系数，通过两个滤波器上一帧的系数分别对所述参考信号子带信号进行滤波，得到回声信号的估计信号；由于使用双滤波器法，除了常规自适应滤波器外还有最优滤波器对于每个子带两个滤波器的长度都为L，由于是处理频域复数子带信号，它们都是复数滤波器。通过两个滤波器上一帧的系数分别对远端信号进行滤波，得到回声信号的估计。用近端信号跟估计的回声信号作差可以得到两个残差信号的子带信号的输出E_k(m)和E_o，k(m)，用公式表达如下：

其中，为的共轭转秩，为的共轭转秩，Y_k(m)为自适应滤波器滤波得到的回声信号估计信号，Y_o，k(m)为最优滤波器滤波得到的回声信号估计信号，()^H表示的是共轭转秩操作。

在一些实施例中，将所述麦克风信号子带信号与所述回声信号的估计信号相减得到残差信号子带信号的步骤包括将所述麦克风信号子带信号分别与自适应滤波器滤波得到的回声信号估计信号和最优滤波器滤波得到的回声信号估计信号相减，分别得到两个残差信号子带信号E_k(m)和E_o，k(m)：

E_k(m)＝D_k(m)-Y_k(m) (3)

E_o，k(m)＝D_k(m)-Y_o，k(m) (4)。

在一些实施例中，计算所述参考信号子带信号X_k(m)和麦克风信号子带信号D_k(m)的功率谱及两者的互功率谱、以求出两者的互相关系数的步骤包括：

计算参考信号子带信号X_k(m)的功率谱Xpwr_k(m)和Xpwr_aligned_k(m)，Xpwr_k(m)为用于NLMS自适应系数更新需要的参考信号子带信号功率谱，Xpwr_aligned_k(m)为用于自相关运算的对齐后的参考信号子带信号功率谱，

Xpwr_k(m)＝α·Xpwr_k(m-1)+(1-α)·|X_k(m)|² (5)

Xpwr_aligned_k(m)＝α·Xpwr_aligned_k(m-1)+(1-α)·|X_k(m-m_delay)|² (6)

其中，α为为平滑系数，m_delay为当前帧中参考信号相对于麦克风信号的群延时，X_k(m-m_delay)为参考信号子带信号向麦克风信号子带信号对齐；

计算所述参考信号子带信号X_k(m)和麦克风信号子带信号D_k(m)的互功率谱cross_pwrXD_k(m)：

cross_pwrXD_k(m)＝α·cross_pwrXD_k(m-1)+(1-α)·X_k(m-m_delay)·D_k(m)(8)

计算所述参考信号子带信号X_k(m)和麦克风信号子带信号D_k(m)的互相关系数coh_XD_k(m)：

在一些实施例中，所述功率谱和互功率谱的计算选用一阶IIR滤波器进行递归平滑处理方法来计算。

在一些实施例中，基于所述互相关系数coh_XD_k(m)产生的增益函数对所述残差信号子带信号作非线性处理，得到去除回声的子带信号E_out，k(m)的步骤中，所述增益函数为G(coh_XD_k(m))，所述残差信号子带信号为E_o，k(m)，

E_out，k(m)＝G(coh_XD_k(m))·E_o，k(m) (10)。

在一些实施例中，还包括对所述自适应滤波器系数进行更新的步骤：

其中，μ_k(m)为作用步长，(E_k(m))^*表示对E_k(m)进行共轭运算，通过互相关系数进行调整：

μ_k(m)＝coh_XD_k(m)·μ (12)

其中μ是设定的步长参数，μ_k(m)是对μ的修正后的作用步长。

在一些实施例中，在所述计算功率谱、互功率谱、互相关系数的步骤之前还包括群延时m_delay估计的步骤：基于滤波器是系数幅值最大峰值点进行估计，

delay_k(m)是当前帧，即第m帧的群延时，群延时是指麦克风信号中拾取到的回声信号相对于参考信号的延时是指求取一个参数m使得的幅度有最大值。

在一些实施例中，还包括所述双滤波器的防发散控制的步骤：

计算自适应滤波器和最优滤波器的回声估计的均方误差mse(m)和mse_o(m)；

其中，||为取模运算，β是平滑系数；

根据两个均方误差的情况决定是否需要对自适应滤波器进行系数重置或者将自适应滤波器系数装填到最优滤波器中，

当满足下式时，使用最优滤波器系数对自适应滤波器系数进行重置：

mse(m)>mse_o(m)+THRD1

当满足下式时，将自适应滤波器系数装填到最优滤波器中：

mse(m)＜mse_o(m)+THRD2

THRD1与THRD2为事先设定的常数阈值。

本发明的另一方面提供了一种用于语音识别前端的频域回声消除系统，包括：

信号采集模块，用于采集参考信号x(n)和麦克风信号d(n)，所述参考信号为扬声器的播放信号，所述麦克风信号包括回声信号y(n)和语音信号s(n)；

时-频域信号变换模块，用于对所述参考信号x(n)和麦克风信号d(n)进行时-频域信号变换，得到频域下的参考信号子带信号X_k(m)和麦克风信号子带信号D_k(m)；其中，k＝0，1，2，…，(K-1)，K；K为频域信号子带数；

回声信号估计模块，用于对所述参考信号子带信号进行滤波得到回声信号的估计信号，和残差信号估计模块，用于将所述麦克风信号子带信号与所述回声信号的估计信号相减得到残差信号子带信号；

功率谱计算模块和互相关系数计算模块，用于计算所述参考信号子带信号X_k(m)和麦克风信号子带信号D_k(m)的功率谱及两者的互功率谱，进一步求出两者的互相关系数；

非线性处理模块，基于所述互相关系数产生的增益函数对所述残差信号子带信号作非线性处理，得到去除回声的子带信号E_out，k(m)；

频-时域信号变换模块，用于对所述去除回声的子带信号进行频-时域信号变换，作为最终的回声消除信号输出。

在一些实施例中，所述时-频域信号变换模块为FFT，WOLA滤波器组或其它滤波器组。

在一些实施例中，回声信号估计模块采用双滤波器，所述双滤波器为自适应滤波器和最优滤波器通过两个滤波器上一帧的系数分别对所述参考信号子带信号进行滤波，得到回声信号的估计信号；用公式表达如下：

其中，为的共轭转秩，为的共轭转秩，Y_k(m)为自适应滤波器滤波得到的回声信号估计信号，Y_o，k(m)为最优滤波器滤波得到的回声信号估计信号。

在一些实施例中，所述残差信号估计模块将所述麦克风信号子带信号分别与自适应滤波器滤波得到的回声信号估计信号和最优滤波器滤波得到的回声信号估计信号相减，分别得到两个残差信号子带信号E_k(m)和E_o，k(m)：

E_k(m)＝D_k(m)-Y_k(m) (3)

E_o，k(m)＝D_k(m)-Y_o，k(m) (4)。

在一些实施例中，所述功率谱计算模块计算参考信号子带信号X_k(m)的功率谱Xpwr_k(m)和Xpwr_aligned_k(m)，Xpwr_k(m)为用于NLMS自适应系数更新需要的参考信号子带信号功率谱，Xpwr_aligned_k(m)为用于自相关运算的对齐后的参考信号子带信号功率谱，

Xpwr_k(m)＝α·Xpwr_k(m-1)+(1-α)·|X_k(m)|² (5)

Xpwr_aligned_k(m)＝α·Xpwr_aligned_k(m-1)+(1-α)·|X_k(m-m_delay)|² (6)

其中，α为平滑系数，m_delay为当前帧中参考信号相对于麦克风信号的群延时，X_k(m-m_delay)为参考信号子带信号向麦克风信号子带信号对齐；

cross_pwrXD_k(m)＝α·cross_pwrXD_k(m-1)+(1-α)·X_k(m-m_delay)·D_k(m)(8)

所述互相关系数计算模块计算所述参考信号子带信号X_k(m)和麦克风信号子带信号D_k(m)的互相关系数coh_XD_k(m)：

在一些实施例中，所述非线性处理模块基于所述互相关系数coh_XD_k(m)产生的增益函数对所述残差信号子带信号作非线性处理，得到去除回声的子带信号E_out，k(m)，所述增益函数为G(coh_XD_k(m))，所述残差信号子带信号为E_o，k(m)，

E_out，k(m)＝G(coh_XD_k(m))·E_o，k(m) (10)。

在一些实施例中，还包括自适应滤波器更新模块，用于对所述自适应滤波器系数进行更新：

μ_k(m)＝coh_XD_k(m)·μ (12)

在一些实施例中，还包括群延时m_delay估计模块：基于滤波器是系数幅值最大峰值点进行估计所述群延时，

在一些实施例中，还包括防发散控制模块，防止所述双滤波器发散：

根据两个均方误差的情况决定是否需要对自适应滤波器进行系数重置或者将自适应滤波器系数装填到最优滤波器中。

本发明的又一方面提供了一种计算机存储介质，一种计算机存储介质，其特征在于，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现上述方案中任意一项所述用于语音识别前端的频域回声消除方法的步骤。

本发明的又一方面提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方案中任意一项所述用于语音识别前端的频域回声消除方法的步骤。

综上所述，本发明提供了一种用于语音识别前端的回声消除方法和系统，该回声消除方法主要包括时-频域信号变换、回声信号与残差信号估算、子带信号功率谱与互相关系数计算、基于互相关系数的增益函数进行非线性处理以及频-时域信号变换等步骤，最终输出已消除回声的信号。

本发明的上述技术方案具有如下有益的技术效果：

1、本发明使用单通道回声消除方法处理车载或其他应用场景回声中的频域回声，具有运算量小且收敛速度快的特点。

2、本发明主要采用频域多子带归一化最小均方误差NLMS(normalized leastmoan square)自适应算法以及基于互相关来进行动态步长调整，从而有效防止双讲阶段自适应滤波器的发散。

3、通过使用基于子带互相关系数的增益函数对残留回声的进一步处理，能保证不造成语音失真的情况下较好地去除残留回声干扰。

4、使用双滤波器方法，以得到更优的残差处理结果同时又不影响自适应滤波器自身的更新迭代。

附图说明

图1是本发明用于语音识别前端的频域回声消除方法流程示意图；

图2是用于时-频域变换的WOLA分析滤波器组原理框图

图3是用于频-时域变换的WOLA合成滤波器组原理框图

图4是根据本发明第一实施方式的回声消除方法原理框图；

图5是本发明用于语音识别前端的频域回声消除系统的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

名词解释：

NLMS(normalized least mean square)：归一化最小均方误差方法，用于对未知系统传输函数进行估计，以得到最小的估计的系统信号输出信号与真实输出信号的均方误差。

自适应滤波器：一种系统可以随系统输出或输出数据不断自适应更新变化的滤波器，如果约束规则与参数合适，滤波器系数将最终收敛到接近待估计理想滤波器系数。

针对于车载应用场景，由于往往会使用多个扬声器，回声路径较为复杂。常用的处理方法是使用多通道回声消除方法，即使用多个滤波器分别去估计各个扬声器出来的回声路径，但该方法有运算量大，收敛较慢的缺点。由于在大多数应用中往往各个扬声器的输入信号是同源的，即是同一个音频流信号，本方法仅使用一个自适应滤波器进行统一建模，对各个参考路径统一处理。

本发明的第一方面提供了一种用于语音识别前端的频域回声消除方法100，包括如下步骤，如图1所示：

步骤110，采集参考信号x(n)和麦克风信号d(n)，所述参考信号为扬声器的播放信号，所述麦克风信号包括回声信号y(n)和语音信号s(n)。

x(n)和d(n)是回声消除系统的输入信号。其中，回声信号y(n)和有用的语音信号s(n)将一起进入麦克风形成麦克风信号d(n)。回声信号y(n)一般是由参考信号x(n)经由扬声器播放出来，再经过声学路径传播(如空气中传播)到达麦克风而形成。故该回声消除的目标即是从麦克风信号d(n)中去除回声信号y(n)而留下有用的语音信号s(n)作为该回声消除系统的输出e(n)。

步骤120，对所述参考信号x(n)和麦克风信号d(n)进行时-频域信号变换，得到频域下的参考信号子带信号X_k(m)和麦克风信号子带信号D_k(m)；其中，k＝0，1，2，…，(K-1)，K；K为频域信号子带数。

时域到频域的信号变换中最常用的还是DFT及其快速算法FFT，由于语音信号一般采用分帧处理，为了更好地恢复处理后的信号及保证处理效果，窗函数的选取变得至关重要。时-频域信号变换可使用FFT，WOLA滤波器组或其它滤波器组。本发明推荐使用WOLA滤波器组对所述参考信号x(n)和麦克风信号d(n)进行时-频域信号变换。WOLA滤波器组(weighted overlap and add)是对基于一般的重叠相加(overlap and add)的FFT进行语音信号处理方法的改进。它利用FFT变换高效地实现使频域子带相互混迭较小的滤波器组，使各子带处理保持较好的独立性，从而使处理后能更好地进行信号重建。FFT进行时域分析可看作WOLA分析的特殊形式。使用WOLA分析滤波器组进行时-频域变换的原理框图如图2所示：麦克风信号d(n)与参考信号x(n)分别经过时频域变换之后得到频域的下采样之后的子带信号：D_k(m)与·X_k(m)。

麦克风信号d(n)与参考信号x(n)分别经过时频域变换之后得到频域下的采样之后的子带信号：D_k(m)与·X_k(m)。参考信号的子带信号又称为远端信号，麦克风信号的子带信号又称为近端信号。

步骤130，对所述参考信号子带信号进行滤波得到回声信号的估计信号，将所述麦克风信号子带信号与所述回声信号的估计信号相减得到残差信号子带信号。

使用双滤波器对所述参考信号子带信号进行滤波得到回声信号的估计信号。由于使用双滤波器法，除了常规自适应滤波器外还有最优滤波器对于每个子带两个滤波器的长度都为L，由于是处理频域复数子带信号，它们都是复数滤波器。所述双滤波器为自适应滤波器和最优滤波器通过两个滤波器上一帧的系数分别对参考信号的子带信号即远端信号进行滤波，得到回声信号的估计信号。

使用双滤波器方法，可以得到更优的残差处理结果同时又不影响自适应滤波器自身的更新迭代。

将所述麦克风信号子带信号分别与自适应滤波器滤波得到的回声信号估计信号和最优滤波器滤波得到的回声信号估计信号相减，分别得到两个残差信号子带信号E_k(m)和E_o，k(m)：

E_k(m)＝D_k(m)-Y_k(m) (3)

E_o，k(m)＝D_k(m)-Y_o，k(m) (4)

步骤140，计算参考信号子带信号X_k(m)和麦克风信号子带信号D_k(m)的功率谱及两者的互功率谱，以求出两者的互相关系数。

首先，计算参考信号子带信号X_k(m)的功率谱Xpwr_k(m)和Xpwr_aligned_k(m)，Xpwr_k(m)为用于NLMS自适应系数更新需要的参考信号子带信号功率谱，Xpwr_aligned_k(m)为用于自相关运算的对齐后的参考信号子带信号功率谱，

Xpwr_k(m)＝α·Xpwr_k(m-1)+(1-α)·|X_k(m)|² (5)

Xpwr_aligned_k(m)＝α·Xpwr_aligned_k(m-1)+(1-α)·|X_k(m-m_delay)|²(6)

近端麦克风信号的功率谱计算如下：

Dpwr_k(m)＝α·Dpwr_k(m-1)+(1-α)·|D_k(m)|² (7)

然后，计算所述参考信号子带信号X_k(m)和麦克风信号子带信号D_k(m)的互功率谱cross_pwrXD_k(m)：

cross_pwrXD_k(m)＝α·cross_pwrXD_k(m-1)+(1-α)·X_k(m-m_delay)·D_k(m)(8)

最后，计算所述参考信号子带信号X_k(m)和麦克风信号子带信号D_k(m)的互相关系数coh_XD_k(m)：

优选地，所述功率谱和互功率谱的计算选用一阶IIR滤波器进行递归平滑处理方法来计算。

步骤150，基于所述互相关系数coh_XD_k(m)产生的增益函数对所述残差信号子带信号作非线性处理，得到去除回声的子带信号E_out，k(m)的步骤中，所述增益函数为G(coh_XD_k(m))，所述残差信号子带信号为E_o，k(m)，

E_out，k(m)＝G(coh_XD_k(m))·E_o,k(m) (10)

其中，G(coh_XD_k(m))为所述增益函数，E_o，k(m)为所述残差信号子带信号。

通过使用基于子带互相关系数的增益函数对残留回声的进一步处理，能保证不造成语音失真的情况下较好地去除残留回声干扰。

步骤160，对所述去除回声的子带信号进行频-时域信号变换，作为最终的回声消除信号输出。

具体的，最后将去除回声的子带信号E_out，k(m)通过WOLA合成滤波器组合成时域信号，作为最后的AEC输出。WOLA合成滤波器组的原理图如图3所示：将去除回声的近端频域子带通过WOLA合成滤波器组合成时域信号，作为最后的AEC输出。

如上，本发明使用单通道回声消除方法处理车载或其他应用场景回声中的频域回声，具有运算量小且收敛速度快的特点。

进一步的，该回声消除方法还包括对所述自适应滤波器系数进行更新的步骤，负责对自适应滤波器系数进行更新。根据NLMS有：

μ_k(m)＝coh_XD_k(m)·μ (12)

进一步的，在所述计算功率谱、互功率谱、互相关系数的步骤之前还包括群延时m_delay估计的步骤。该步骤估计远端信号相对近端信号的群延时，用于远端信号跟近端信号的对齐。当前帧估计的群延时计为m_delay。群延时的估计方法是基于滤波器系数幅值最大峰值点即对应该滤波器所代表的系统的大概延时的事实来进行估计。使用m_delay来对远端信号进行延时，可能得到对齐后的远端信号。

其中，是指求取一个参数m使得的幅度有最大值，K为频域信号子带数。

进一步的，该方法还包括所述双滤波器的防发散控制的步骤。防发散控制主要是基于双滤波器方法，其中自适应滤波器基于NLMS方法进行自适应更新，最优滤波器始终保持其回声估计的均方误差(MSE)mse_o比自适应滤波器的均方误差mse小，因此有比自适应滤波器更好的回声估计和残差输出。根据两个均方误差的情况决定是否需要对自适应滤波器进行系数重置或者将自适应滤波器系数装填到最优滤波器中。MSE的计算也可以用一阶IIR平滑滤波来进行估计。具体步骤如下：

其中，||为取模运算，β是平滑系数；

mse(m)>mse_o(m)+THRD1

当满足下式时，将自适应滤波器系数装填到最优滤波器中：

mse(m)＜mse_o(m)+THRD2

THRD1与THRD2为事先设定的常数阈值。通过采用上述频域多子带归一化最小均方误差NLMS(normalized least mean square)自适应算法能有效防止双讲阶段滤波器的发散。是指除回声信号外还有其它说话人信号同时进入到麦克风信号里边。

图4示出了该回声消除方法包括了上述自适应滤波器系数更新、群延时m_delay估计、双滤波器的防发散控制的步骤的完整方法流程示意图。

本发明的另一方面提供了一种用于语音识别前端的频域回声消除系统500，如图5所示，包括：

信号采集模块510，用于采集参考信号x(n)和麦克风信号d(n)，所述参考信号为扬声器的播放信号，所述麦克风信号包括回声信号y(n)和语音信号s(n)。

时-频域信号变换模块520，用于对所述参考信号x(n)和麦克风信号d(n)进行时-频域信号变换，得到频域下的参考信号子带信号X_k(m)和麦克风信号子带信号D_k(m)；其中，k＝0，1，2，…，(K-1)，K；K为频域信号子带数；具体的，所述时-频域信号变换模块为WOLA滤波器组。

回声信号估计模块和残差信号估计模块530，回声信号估计模块用于对所述参考信号子带信号进行滤波得到回声信号的估计信号，残差信号估计模块用于将所述麦克风信号子带信号与所述回声信号的估计信号相减得到残差信号子带信号。具体的，回声信号估计模块采用双滤波器，所述双滤波器为自适应滤波器和最优滤波器通过两个滤波器上一帧的系数分别对所述参考信号子带信号进行滤波，得到回声信号的估计信号。所述残差信号估计模块将所述麦克风信号子带信号分别与自适应滤波器滤波得到的回声信号估计信号和最优滤波器滤波得到的回声信号估计信号相减，分别得到两个残差信号子带信号E_k(m)和E_o，k(m)。

功率谱计算模块和互相关系数计算模块540，用于计算所述参考信号子带信号X_k(m)和麦克风信号子带信号D_k(m)的功率谱及两者的互功率谱，进一步求出两者的互相关系数。具体的，所述功率谱和互功率谱的计算选用一阶IIR滤波器进行递归平滑处理方法来计算。

非线性处理模块550，基于所述互相关系数产生的增益函数对所述残差信号子带信号作非线性处理，得到去除回声的子带信号E_out，k(m)。

频-时域信号变换模块560，用于对所述去除回声的子带信号进行频-时域信号变换，作为最终的回声消除信号输出。

进一步地，在一些具体的实施例中，还包括自适应滤波器更新模块570，用于对所述自适应滤波器系数进行更新。

进一步的，在一些具体的实施例中，还包括群延时m_delay估计模块580：基于滤波器是系数幅值最大峰值点进行估计所述群延时。

进一步的，在一些具体的实施例中，还包括防发散控制模块590，防止所述双滤波器发散：计算自适应滤波器和最优滤波器的回声估计的均方误差，根据两个均方误差的情况决定是否需要对自适应滤波器进行系数重置或者将自适应滤波器系数装填到最优滤波器中。

本发明实施例的又一方面提供了一种计算机存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现上述方案中任意一项所述用于语音识别前端的频域回声消除方法的步骤。

本发明的实施例又一方面提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方案中任意一项所述用于语音识别前端的频域回声消除方法的步骤。

本发明主要采用频域多子带NLMS(normalized least mean square)自适应算法以及基于互相关来进行动态步长调整，从而有效防止双讲阶段滤波器的发散。通过使用基于子带互相关系数的增益函数对残留回声的进一步处理，能保证不造成语音失真的情况下较好地去除残留回声干扰。此外，为了得到更优的残差处理结果同时又不影响自适应滤波器自身的更新迭代，使用了双滤波器方法。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种用于语音识别前端的频域回声消除方法，其特征在于，包括：

对所述参考信号x(n)和麦克风信号d(n)进行分帧，得到分帧后的参考信号分帧信号与分帧后的麦克风信号分帧信号，其中m为分帧后的帧号，然后对所述参考信号分帧信号和所述麦克风信号分帧信号进行时-频域信号变换，得到第m帧频域下的参考信号子带信号X_k(m)和麦克风信号子带信号D_k(m)；其中，k＝0，1，2，…，(K-1)，K；K为频域信号子带数；

对所述参考信号子带信号进行滤波得到回声信号的子带估计信号，将所述麦克风信号子带信号与所述回声信号的子带估计信号相减得到残差信号子带信号；

2.根据权利要求1所述的用于语音识别前端的频域回声消除方法，其特征在于，使用FFT，WOLA滤波器组或其它滤波器组对所述参考信号分帧信号和麦克风信号分帧信号进行时-频域信号变换。

3.根据权利要求1所述的用于语音识别前端的频域回声消除方法，其特征在于，使用双滤波器对所述参考信号子带信号进行滤波得到回声信号的估计信号。

4.根据权利要求3所述的用于语音识别前端的频域回声消除方法，其特征在于，所述双滤波器为自适应滤波器和最优滤波器通过两个滤波器上一帧的系数，分别对所述参考信号子带信号进行滤波，得到回声信号的估计信号；用公式表达如下：

5.根据权利要求4所述的用于语音识别前端的频域回声消除方法，其特征在于，将所述麦克风信号子带信号与所述回声信号的估计信号相减得到残差信号子带信号的步骤包括将所述麦克风信号子带信号分别与自适应滤波器滤波得到的回声信号估计信号和最优滤波器滤波得到的回声信号估计信号相减，分别得到两个残差信号子带信号E_k(m)和E_o,k(m)：

E_k(m)＝D_k(m)-Y_k(m) (3)

E_o，k(m)＝D_k(m)-Y_o，k(m) (4)。

6.根据权利要求5所述的用于语音识别前端的频域回声消除方法，其特征在于，计算所述参考信号子带信号X_k(m)和麦克风信号子带信号D_k(m)的功率谱及两者的互功率谱、以求出两者的互相关系数的步骤包括：

Xpwr_k(m)＝α·Xpwr_k(m-1)+(1-α)·|X_k(m)|² (5)

Xpwr_aligned_k(m)＝α·Xpwr_aligned_k(m-1)+(1-α)·|X_k(m-m_delay)|² (6)

近端麦克风信号的功率谱计算如下：

Dpwr_k(m)＝α·Dpwr_k(m-1)+(1-α)·|D_k(m)|² (7)

cross_pwrXD_k(m)＝α·cross_pwrXD_k(m-1)+(1-α)·X_k(m-m_delay)·D_k(m) (8)

7.根据权利要求6所述的用于语音识别前端的频域回声消除方法，其特征在于，所述功率谱和互功率谱的计算选用一阶IIR滤波器进行递归平滑处理方法来计算。

8.根据权利要求6所述的用于语音识别前端的频域回声消除方法，其特征在于，基于所述互相关系数coh_XD_k(m)产生的增益函数对所述残差信号子带信号作非线性处理，得到去除回声的子带信号E_out，k(m)的步骤中，所述增益函数为G(coh_XD_k(m))，所述残差信号子带信号为E_o，k(m)，

E_out，k(m)＝G(coh_XD_k(m))·E_o，k(m) (10)。

9.根据权利要求8所述的用于语音识别前端的频域回声消除方法，其特征在于，还包括对所述自适应滤波器系数进行更新的步骤：

μ_k(m)＝coh_XD_k(m)·μ (12)

其中，μ是设定的步长参数，μ_k(m)是对μ的修正后的作用步长。

10.根据权利要求9所述的用于语音识别前端的频域回声消除方法，其特征在于，在所述计算功率谱、互功率谱、互相关系数的步骤之前还包括群延时m_delay估计的步骤：基于滤波器是系数幅值最大峰值点进行估计，

其中，是指求取一个参数m使得的幅度有最大值。

11.根据权利要求10所述的用于语音识别前端的频域回声消除方法，其特征在于，还包括所述双滤波器的防发散控制的步骤：

其中，||为取模运算，β是平滑系数；

12.一种计算机存储介质，其特征在于，一种计算机存储介质，其特征在于，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现权利要求1-11中任意一项所述用于语音识别前端的频域回声消除方法的步骤。

13.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-11中任意一项所述用于语音识别前端的频域回声消除方法的步骤。