CN109727604B - 用于语音识别前端的频域回声消除方法及计算机储存介质 - Google Patents
用于语音识别前端的频域回声消除方法及计算机储存介质 Download PDFInfo
- Publication number
- CN109727604B CN109727604B CN201811533955.8A CN201811533955A CN109727604B CN 109727604 B CN109727604 B CN 109727604B CN 201811533955 A CN201811533955 A CN 201811533955A CN 109727604 B CN109727604 B CN 109727604B
- Authority
- CN
- China
- Prior art keywords
- signal
- echo
- subband
- frequency domain
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
一种用于语音识别前端的回声消除方法和系统,该回声消除方法主要包括时‑频域信号变换、回声信号与残差信号估算、子带信号功率谱与互相关系数计算、基于互相关系数的增益函数进行非线性处理以及频‑时域信号变换等步骤,最终输出已消除回声的信号。本发明使用单通道回声消除方法处理车载或其他应用场景回声中的频域回声,具有运算量小且收敛速度快的特点。
Description
技术领域
本发明涉及人工智能领域的语音信号预处理领域无人飞行器领域,具体涉及一种用于语音识别前端的频域回声消除方法、计算机存储介质和电子设备。
背景技术
声学回声(acoustic echo)是指在进行语音通话或语音播放等场景讲话者的语音返回而再次被听到的现象。讲话者使用的扬声器的声音通过麦克风再次被输入而产生声学回声,且声学回声成为在语音通话、播放或多方语音会议等时音质降低的主要原因。因此,大部分的语音通话、播放或者语音会议方案使用声学回声消除器(AEC:Acoustic EchoCanceller)。
车载应用场景中由于往往有多个扬声器,需要用到多通道回声消除算法以便于去除来自多个扬声器的参考回声。现有的处理方法往往是分别用一个自适应滤波器去估计回声路径,分别将各参考回声去除掉。然而使用多通道回声消除方法处理车载音乐回声的问题主要有运算量大与收敛速度慢的缺点。
发明内容
基于上述问题,本文提出一种用于语音识别前端的频域回声消除方法和系统,使用单通道回声消除方法处理车载或其他应用场景回声中的频域回声,具有运算量小且收敛速度快的特点。
本发明的第一方面提供了一种用于语音识别前端的频域回声消除方法,包括:
采集参考信号x(n)和麦克风信号d(n),所述参考信号为扬声器的播放信号,所述麦克风信号包括回声信号y(n)和语音信号s(n),其中n是信号序列采样点编号;
对所述参考信号x(n)和麦克风信号d(n)进行分帧,得到分帧后的参考信号分帧信号与分帧后的麦克风信号分帧信号,其中m为分帧后的帧号。然后对分帧信号进行时-频域信号变换,得到第m帧频域下的参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m);其中,k=0,1,2,…,(K-1),K;K为频域信号子带数,m分帧后的帧号,麦克风信号d(n)与参考信号x(n)分别经过时频域变换之后得到频域的下采样之后的子带信号:Dk(m)与·Xk(m);
对所述参考信号子带信号进行滤波得到回声信号的估计信号,将所述麦克风信号子带信号与所述回声信号的估计信号相减得到残差信号子带信号;
计算所述参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m)的功率谱及两者的互功率谱,以求出两者的互相关系数;
基于所述互相关系数产生的增益函数对所述残差信号子带信号作非线性处理,得到去除回声的子带信号Eout,k(m);
对所述去除回声的子带信号进行频-时域信号变换,作为最终的回声消除信号输出。
在一些实施例中,使用FFT,WOLA滤波器组或其它滤波器组对所述参考信号分帧信号和麦克风信号分帧信号进行时-频域信号变换。
在一些实施例中,使用双滤波器对所述参考信号子带信号进行滤波得到回声信号的估计信号。
在一些实施例中,所述双滤波器为自适应滤波器和最优滤波器其中,表示第m帧,第K个子带的滤波器系数,通过两个滤波器上一帧的系数分别对所述参考信号子带信号进行滤波,得到回声信号的估计信号;由于使用双滤波器法,除了常规自适应滤波器外还有最优滤波器对于每个子带两个滤波器的长度都为L,由于是处理频域复数子带信号,它们都是复数滤波器。通过两个滤波器上一帧的系数分别对远端信号进行滤波,得到回声信号的估计。用近端信号跟估计的回声信号作差可以得到两个残差信号的子带信号的输出Ek(m)和Eo,k(m),用公式表达如下:
其中,为的共轭转秩,为的共轭转秩,Yk(m)为自适应滤波器滤波得到的回声信号估计信号,Yo,k(m)为最优滤波器滤波得到的回声信号估计信号,()H表示的是共轭转秩操作。
在一些实施例中,将所述麦克风信号子带信号与所述回声信号的估计信号相减得到残差信号子带信号的步骤包括将所述麦克风信号子带信号分别与自适应滤波器滤波得到的回声信号估计信号和最优滤波器滤波得到的回声信号估计信号相减,分别得到两个残差信号子带信号Ek(m)和Eo,k(m):
Ek(m)=Dk(m)-Yk(m) (3)
Eo,k(m)=Dk(m)-Yo,k(m) (4)。
在一些实施例中,计算所述参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m)的功率谱及两者的互功率谱、以求出两者的互相关系数的步骤包括:
计算参考信号子带信号Xk(m)的功率谱Xpwrk(m)和Xpwr_alignedk(m),Xpwrk(m)为用于NLMS自适应系数更新需要的参考信号子带信号功率谱,Xpwr_alignedk(m)为用于自相关运算的对齐后的参考信号子带信号功率谱,
Xpwrk(m)=α·Xpwrk(m-1)+(1-α)·|Xk(m)|2 (5)
Xpwr_alignedk(m)=α·Xpwr_alignedk(m-1)+(1-α)·|Xk(m-m_delay)|2 (6)
其中,α为为平滑系数,m_delay为当前帧中参考信号相对于麦克风信号的群延时,Xk(m-m_delay)为参考信号子带信号向麦克风信号子带信号对齐;
计算所述参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m)的互功率谱cross_pwrXDk(m):
cross_pwrXDk(m)=α·cross_pwrXDk(m-1)+(1-α)·Xk(m-m_delay)·Dk(m)(8)
计算所述参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m)的互相关系数coh_XDk(m):
在一些实施例中,所述功率谱和互功率谱的计算选用一阶IIR滤波器进行递归平滑处理方法来计算。
在一些实施例中,基于所述互相关系数coh_XDk(m)产生的增益函数对所述残差信号子带信号作非线性处理,得到去除回声的子带信号Eout,k(m)的步骤中,所述增益函数为G(coh_XDk(m)),所述残差信号子带信号为Eo,k(m),
Eout,k(m)=G(coh_XDk(m))·Eo,k(m) (10)。
在一些实施例中,还包括对所述自适应滤波器系数进行更新的步骤:
其中,μk(m)为作用步长,(Ek(m))*表示对Ek(m)进行共轭运算,通过互相关系数进行调整:
μk(m)=coh_XDk(m)·μ (12)
其中μ是设定的步长参数,μk(m)是对μ的修正后的作用步长。
在一些实施例中,在所述计算功率谱、互功率谱、互相关系数的步骤之前还包括群延时m_delay估计的步骤:基于滤波器是系数幅值最大峰值点进行估计,
delayk(m)是当前帧,即第m帧的群延时,群延时是指麦克风信号中拾取到的回声信号相对于参考信号的延时是指求取一个参数m使得的幅度有最大值。
在一些实施例中,还包括所述双滤波器的防发散控制的步骤:
计算自适应滤波器和最优滤波器的回声估计的均方误差mse(m)和mse_o(m);
其中,||为取模运算,β是平滑系数;
根据两个均方误差的情况决定是否需要对自适应滤波器进行系数重置或者将自适应滤波器系数装填到最优滤波器中,
当满足下式时,使用最优滤波器系数对自适应滤波器系数进行重置:
mse(m)>mse_o(m)+THRD1
当满足下式时,将自适应滤波器系数装填到最优滤波器中:
mse(m)<mse_o(m)+THRD2
THRD1与THRD2为事先设定的常数阈值。
本发明的另一方面提供了一种用于语音识别前端的频域回声消除系统,包括:
信号采集模块,用于采集参考信号x(n)和麦克风信号d(n),所述参考信号为扬声器的播放信号,所述麦克风信号包括回声信号y(n)和语音信号s(n);
时-频域信号变换模块,用于对所述参考信号x(n)和麦克风信号d(n)进行时-频域信号变换,得到频域下的参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m);其中,k=0,1,2,…,(K-1),K;K为频域信号子带数;
回声信号估计模块,用于对所述参考信号子带信号进行滤波得到回声信号的估计信号,和残差信号估计模块,用于将所述麦克风信号子带信号与所述回声信号的估计信号相减得到残差信号子带信号;
功率谱计算模块和互相关系数计算模块,用于计算所述参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m)的功率谱及两者的互功率谱,进一步求出两者的互相关系数;
非线性处理模块,基于所述互相关系数产生的增益函数对所述残差信号子带信号作非线性处理,得到去除回声的子带信号Eout,k(m);
频-时域信号变换模块,用于对所述去除回声的子带信号进行频-时域信号变换,作为最终的回声消除信号输出。
在一些实施例中,所述时-频域信号变换模块为FFT,WOLA滤波器组或其它滤波器组。
在一些实施例中,回声信号估计模块采用双滤波器,所述双滤波器为自适应滤波器和最优滤波器通过两个滤波器上一帧的系数分别对所述参考信号子带信号进行滤波,得到回声信号的估计信号;用公式表达如下:
其中,为的共轭转秩,为的共轭转秩,Yk(m)为自适应滤波器滤波得到的回声信号估计信号,Yo,k(m)为最优滤波器滤波得到的回声信号估计信号。
在一些实施例中,所述残差信号估计模块将所述麦克风信号子带信号分别与自适应滤波器滤波得到的回声信号估计信号和最优滤波器滤波得到的回声信号估计信号相减,分别得到两个残差信号子带信号Ek(m)和Eo,k(m):
Ek(m)=Dk(m)-Yk(m) (3)
Eo,k(m)=Dk(m)-Yo,k(m) (4)。
在一些实施例中,所述功率谱计算模块计算参考信号子带信号Xk(m)的功率谱Xpwrk(m)和Xpwr_alignedk(m),Xpwrk(m)为用于NLMS自适应系数更新需要的参考信号子带信号功率谱,Xpwr_alignedk(m)为用于自相关运算的对齐后的参考信号子带信号功率谱,
Xpwrk(m)=α·Xpwrk(m-1)+(1-α)·|Xk(m)|2 (5)
Xpwr_alignedk(m)=α·Xpwr_alignedk(m-1)+(1-α)·|Xk(m-m_delay)|2 (6)
其中,α为平滑系数,m_delay为当前帧中参考信号相对于麦克风信号的群延时,Xk(m-m_delay)为参考信号子带信号向麦克风信号子带信号对齐;
计算所述参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m)的互功率谱cross_pwrXDk(m):
cross_pwrXDk(m)=α·cross_pwrXDk(m-1)+(1-α)·Xk(m-m_delay)·Dk(m)(8)
所述互相关系数计算模块计算所述参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m)的互相关系数coh_XDk(m):
在一些实施例中,所述功率谱和互功率谱的计算选用一阶IIR滤波器进行递归平滑处理方法来计算。
在一些实施例中,所述非线性处理模块基于所述互相关系数coh_XDk(m)产生的增益函数对所述残差信号子带信号作非线性处理,得到去除回声的子带信号Eout,k(m),所述增益函数为G(coh_XDk(m)),所述残差信号子带信号为Eo,k(m),
Eout,k(m)=G(coh_XDk(m))·Eo,k(m) (10)。
在一些实施例中,还包括自适应滤波器更新模块,用于对所述自适应滤波器系数进行更新:
其中,μk(m)为作用步长,(Ek(m))*表示对Ek(m)进行共轭运算,通过互相关系数进行调整:
μk(m)=coh_XDk(m)·μ (12)
其中μ是设定的步长参数,μk(m)是对μ的修正后的作用步长。
在一些实施例中,还包括群延时m_delay估计模块:基于滤波器是系数幅值最大峰值点进行估计所述群延时,
在一些实施例中,还包括防发散控制模块,防止所述双滤波器发散:
计算自适应滤波器和最优滤波器的回声估计的均方误差mse(m)和mse_o(m);
根据两个均方误差的情况决定是否需要对自适应滤波器进行系数重置或者将自适应滤波器系数装填到最优滤波器中。
本发明的又一方面提供了一种计算机存储介质,一种计算机存储介质,其特征在于,所述存储介质上存储有计算机程序,所述程序被处理器执行时实现上述方案中任意一项所述用于语音识别前端的频域回声消除方法的步骤。
本发明的又一方面提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方案中任意一项所述用于语音识别前端的频域回声消除方法的步骤。
综上所述,本发明提供了一种用于语音识别前端的回声消除方法和系统,该回声消除方法主要包括时-频域信号变换、回声信号与残差信号估算、子带信号功率谱与互相关系数计算、基于互相关系数的增益函数进行非线性处理以及频-时域信号变换等步骤,最终输出已消除回声的信号。
本发明的上述技术方案具有如下有益的技术效果:
1、本发明使用单通道回声消除方法处理车载或其他应用场景回声中的频域回声,具有运算量小且收敛速度快的特点。
2、本发明主要采用频域多子带归一化最小均方误差NLMS(normalized leastmoan square)自适应算法以及基于互相关来进行动态步长调整,从而有效防止双讲阶段自适应滤波器的发散。
3、通过使用基于子带互相关系数的增益函数对残留回声的进一步处理,能保证不造成语音失真的情况下较好地去除残留回声干扰。
4、使用双滤波器方法,以得到更优的残差处理结果同时又不影响自适应滤波器自身的更新迭代。
附图说明
图1是本发明用于语音识别前端的频域回声消除方法流程示意图;
图2是用于时-频域变换的WOLA分析滤波器组原理框图
图3是用于频-时域变换的WOLA合成滤波器组原理框图
图4是根据本发明第一实施方式的回声消除方法原理框图;
图5是本发明用于语音识别前端的频域回声消除系统的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
名词解释:
NLMS(normalized least mean square):归一化最小均方误差方法,用于对未知系统传输函数进行估计,以得到最小的估计的系统信号输出信号与真实输出信号的均方误差。
自适应滤波器:一种系统可以随系统输出或输出数据不断自适应更新变化的滤波器,如果约束规则与参数合适,滤波器系数将最终收敛到接近待估计理想滤波器系数。
针对于车载应用场景,由于往往会使用多个扬声器,回声路径较为复杂。常用的处理方法是使用多通道回声消除方法,即使用多个滤波器分别去估计各个扬声器出来的回声路径,但该方法有运算量大,收敛较慢的缺点。由于在大多数应用中往往各个扬声器的输入信号是同源的,即是同一个音频流信号,本方法仅使用一个自适应滤波器进行统一建模,对各个参考路径统一处理。
本发明的第一方面提供了一种用于语音识别前端的频域回声消除方法100,包括如下步骤,如图1所示:
步骤110,采集参考信号x(n)和麦克风信号d(n),所述参考信号为扬声器的播放信号,所述麦克风信号包括回声信号y(n)和语音信号s(n)。
x(n)和d(n)是回声消除系统的输入信号。其中,回声信号y(n)和有用的语音信号s(n)将一起进入麦克风形成麦克风信号d(n)。回声信号y(n)一般是由参考信号x(n)经由扬声器播放出来,再经过声学路径传播(如空气中传播)到达麦克风而形成。故该回声消除的目标即是从麦克风信号d(n)中去除回声信号y(n)而留下有用的语音信号s(n)作为该回声消除系统的输出e(n)。
步骤120,对所述参考信号x(n)和麦克风信号d(n)进行时-频域信号变换,得到频域下的参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m);其中,k=0,1,2,…,(K-1),K;K为频域信号子带数。
时域到频域的信号变换中最常用的还是DFT及其快速算法FFT,由于语音信号一般采用分帧处理,为了更好地恢复处理后的信号及保证处理效果,窗函数的选取变得至关重要。时-频域信号变换可使用FFT,WOLA滤波器组或其它滤波器组。本发明推荐使用WOLA滤波器组对所述参考信号x(n)和麦克风信号d(n)进行时-频域信号变换。WOLA滤波器组(weighted overlap and add)是对基于一般的重叠相加(overlap and add)的FFT进行语音信号处理方法的改进。它利用FFT变换高效地实现使频域子带相互混迭较小的滤波器组,使各子带处理保持较好的独立性,从而使处理后能更好地进行信号重建。FFT进行时域分析可看作WOLA分析的特殊形式。使用WOLA分析滤波器组进行时-频域变换的原理框图如图2所示:麦克风信号d(n)与参考信号x(n)分别经过时频域变换之后得到频域的下采样之后的子带信号:Dk(m)与·Xk(m)。
麦克风信号d(n)与参考信号x(n)分别经过时频域变换之后得到频域下的采样之后的子带信号:Dk(m)与·Xk(m)。参考信号的子带信号又称为远端信号,麦克风信号的子带信号又称为近端信号。
步骤130,对所述参考信号子带信号进行滤波得到回声信号的估计信号,将所述麦克风信号子带信号与所述回声信号的估计信号相减得到残差信号子带信号。
使用双滤波器对所述参考信号子带信号进行滤波得到回声信号的估计信号。由于使用双滤波器法,除了常规自适应滤波器外还有最优滤波器对于每个子带两个滤波器的长度都为L,由于是处理频域复数子带信号,它们都是复数滤波器。所述双滤波器为自适应滤波器和最优滤波器通过两个滤波器上一帧的系数分别对参考信号的子带信号即远端信号进行滤波,得到回声信号的估计信号。
其中,为的共轭转秩,为的共轭转秩,Yk(m)为自适应滤波器滤波得到的回声信号估计信号,Yo,k(m)为最优滤波器滤波得到的回声信号估计信号。
使用双滤波器方法,可以得到更优的残差处理结果同时又不影响自适应滤波器自身的更新迭代。
将所述麦克风信号子带信号分别与自适应滤波器滤波得到的回声信号估计信号和最优滤波器滤波得到的回声信号估计信号相减,分别得到两个残差信号子带信号Ek(m)和Eo,k(m):
Ek(m)=Dk(m)-Yk(m) (3)
Eo,k(m)=Dk(m)-Yo,k(m) (4)
步骤140,计算参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m)的功率谱及两者的互功率谱,以求出两者的互相关系数。
首先,计算参考信号子带信号Xk(m)的功率谱Xpwrk(m)和Xpwr_alignedk(m),Xpwrk(m)为用于NLMS自适应系数更新需要的参考信号子带信号功率谱,Xpwr_alignedk(m)为用于自相关运算的对齐后的参考信号子带信号功率谱,
Xpwrk(m)=α·Xpwrk(m-1)+(1-α)·|Xk(m)|2 (5)
Xpwr_alignedk(m)=α·Xpwr_alignedk(m-1)+(1-α)·|Xk(m-m_delay)|2(6)
其中,α为平滑系数,m_delay为当前帧中参考信号相对于麦克风信号的群延时,Xk(m-m_delay)为参考信号子带信号向麦克风信号子带信号对齐;
近端麦克风信号的功率谱计算如下:
Dpwrk(m)=α·Dpwrk(m-1)+(1-α)·|Dk(m)|2 (7)
然后,计算所述参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m)的互功率谱cross_pwrXDk(m):
cross_pwrXDk(m)=α·cross_pwrXDk(m-1)+(1-α)·Xk(m-m_delay)·Dk(m)(8)
最后,计算所述参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m)的互相关系数coh_XDk(m):
优选地,所述功率谱和互功率谱的计算选用一阶IIR滤波器进行递归平滑处理方法来计算。
步骤150,基于所述互相关系数coh_XDk(m)产生的增益函数对所述残差信号子带信号作非线性处理,得到去除回声的子带信号Eout,k(m)的步骤中,所述增益函数为G(coh_XDk(m)),所述残差信号子带信号为Eo,k(m),
Eout,k(m)=G(coh_XDk(m))·Eo,k(m) (10)
其中,G(coh_XDk(m))为所述增益函数,Eo,k(m)为所述残差信号子带信号。
通过使用基于子带互相关系数的增益函数对残留回声的进一步处理,能保证不造成语音失真的情况下较好地去除残留回声干扰。
步骤160,对所述去除回声的子带信号进行频-时域信号变换,作为最终的回声消除信号输出。
具体的,最后将去除回声的子带信号Eout,k(m)通过WOLA合成滤波器组合成时域信号,作为最后的AEC输出。WOLA合成滤波器组的原理图如图3所示:将去除回声的近端频域子带通过WOLA合成滤波器组合成时域信号,作为最后的AEC输出。
如上,本发明使用单通道回声消除方法处理车载或其他应用场景回声中的频域回声,具有运算量小且收敛速度快的特点。
进一步的,该回声消除方法还包括对所述自适应滤波器系数进行更新的步骤,负责对自适应滤波器系数进行更新。根据NLMS有:
其中,μk(m)为作用步长,(Ek(m))*表示对Ek(m)进行共轭运算,通过互相关系数进行调整:
μk(m)=coh_XDk(m)·μ (12)
其中μ是设定的步长参数,μk(m)是对μ的修正后的作用步长。
进一步的,在所述计算功率谱、互功率谱、互相关系数的步骤之前还包括群延时m_delay估计的步骤。该步骤估计远端信号相对近端信号的群延时,用于远端信号跟近端信号的对齐。当前帧估计的群延时计为m_delay。群延时的估计方法是基于滤波器系数幅值最大峰值点即对应该滤波器所代表的系统的大概延时的事实来进行估计。使用m_delay来对远端信号进行延时,可能得到对齐后的远端信号。
其中,是指求取一个参数m使得的幅度有最大值,K为频域信号子带数。
进一步的,该方法还包括所述双滤波器的防发散控制的步骤。防发散控制主要是基于双滤波器方法,其中自适应滤波器基于NLMS方法进行自适应更新,最优滤波器始终保持其回声估计的均方误差(MSE)mse_o比自适应滤波器的均方误差mse小,因此有比自适应滤波器更好的回声估计和残差输出。根据两个均方误差的情况决定是否需要对自适应滤波器进行系数重置或者将自适应滤波器系数装填到最优滤波器中。MSE的计算也可以用一阶IIR平滑滤波来进行估计。具体步骤如下:
计算自适应滤波器和最优滤波器的回声估计的均方误差mse(m)和mse_o(m);
其中,||为取模运算,β是平滑系数;
根据两个均方误差的情况决定是否需要对自适应滤波器进行系数重置或者将自适应滤波器系数装填到最优滤波器中,
当满足下式时,使用最优滤波器系数对自适应滤波器系数进行重置:
mse(m)>mse_o(m)+THRD1
当满足下式时,将自适应滤波器系数装填到最优滤波器中:
mse(m)<mse_o(m)+THRD2
THRD1与THRD2为事先设定的常数阈值。通过采用上述频域多子带归一化最小均方误差NLMS(normalized least mean square)自适应算法能有效防止双讲阶段滤波器的发散。是指除回声信号外还有其它说话人信号同时进入到麦克风信号里边。
图4示出了该回声消除方法包括了上述自适应滤波器系数更新、群延时m_delay估计、双滤波器的防发散控制的步骤的完整方法流程示意图。
本发明的另一方面提供了一种用于语音识别前端的频域回声消除系统500,如图5所示,包括:
信号采集模块510,用于采集参考信号x(n)和麦克风信号d(n),所述参考信号为扬声器的播放信号,所述麦克风信号包括回声信号y(n)和语音信号s(n)。
时-频域信号变换模块520,用于对所述参考信号x(n)和麦克风信号d(n)进行时-频域信号变换,得到频域下的参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m);其中,k=0,1,2,…,(K-1),K;K为频域信号子带数;具体的,所述时-频域信号变换模块为WOLA滤波器组。
回声信号估计模块和残差信号估计模块530,回声信号估计模块用于对所述参考信号子带信号进行滤波得到回声信号的估计信号,残差信号估计模块用于将所述麦克风信号子带信号与所述回声信号的估计信号相减得到残差信号子带信号。具体的,回声信号估计模块采用双滤波器,所述双滤波器为自适应滤波器和最优滤波器通过两个滤波器上一帧的系数分别对所述参考信号子带信号进行滤波,得到回声信号的估计信号。所述残差信号估计模块将所述麦克风信号子带信号分别与自适应滤波器滤波得到的回声信号估计信号和最优滤波器滤波得到的回声信号估计信号相减,分别得到两个残差信号子带信号Ek(m)和Eo,k(m)。
功率谱计算模块和互相关系数计算模块540,用于计算所述参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m)的功率谱及两者的互功率谱,进一步求出两者的互相关系数。具体的,所述功率谱和互功率谱的计算选用一阶IIR滤波器进行递归平滑处理方法来计算。
非线性处理模块550,基于所述互相关系数产生的增益函数对所述残差信号子带信号作非线性处理,得到去除回声的子带信号Eout,k(m)。
频-时域信号变换模块560,用于对所述去除回声的子带信号进行频-时域信号变换,作为最终的回声消除信号输出。
进一步地,在一些具体的实施例中,还包括自适应滤波器更新模块570,用于对所述自适应滤波器系数进行更新。
进一步的,在一些具体的实施例中,还包括群延时m_delay估计模块580:基于滤波器是系数幅值最大峰值点进行估计所述群延时。
进一步的,在一些具体的实施例中,还包括防发散控制模块590,防止所述双滤波器发散:计算自适应滤波器和最优滤波器的回声估计的均方误差,根据两个均方误差的情况决定是否需要对自适应滤波器进行系数重置或者将自适应滤波器系数装填到最优滤波器中。
本发明实施例的又一方面提供了一种计算机存储介质,所述存储介质上存储有计算机程序,所述程序被处理器执行时实现上述方案中任意一项所述用于语音识别前端的频域回声消除方法的步骤。
本发明的实施例又一方面提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方案中任意一项所述用于语音识别前端的频域回声消除方法的步骤。
综上所述,本发明提供了一种用于语音识别前端的回声消除方法和系统,该回声消除方法主要包括时-频域信号变换、回声信号与残差信号估算、子带信号功率谱与互相关系数计算、基于互相关系数的增益函数进行非线性处理以及频-时域信号变换等步骤,最终输出已消除回声的信号。
本发明主要采用频域多子带NLMS(normalized least mean square)自适应算法以及基于互相关来进行动态步长调整,从而有效防止双讲阶段滤波器的发散。通过使用基于子带互相关系数的增益函数对残留回声的进一步处理,能保证不造成语音失真的情况下较好地去除残留回声干扰。此外,为了得到更优的残差处理结果同时又不影响自适应滤波器自身的更新迭代,使用了双滤波器方法。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (13)
1.一种用于语音识别前端的频域回声消除方法,其特征在于,包括:
采集参考信号x(n)和麦克风信号d(n),所述参考信号为扬声器的播放信号,所述麦克风信号包括回声信号y(n)和语音信号s(n),其中n是信号序列采样点编号;
对所述参考信号x(n)和麦克风信号d(n)进行分帧,得到分帧后的参考信号分帧信号与分帧后的麦克风信号分帧信号,其中m为分帧后的帧号,然后对所述参考信号分帧信号和所述麦克风信号分帧信号进行时-频域信号变换,得到第m帧频域下的参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m);其中,k=0,1,2,…,(K-1),K;K为频域信号子带数;
对所述参考信号子带信号进行滤波得到回声信号的子带估计信号,将所述麦克风信号子带信号与所述回声信号的子带估计信号相减得到残差信号子带信号;
计算所述参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m)的功率谱及两者的互功率谱,以求出两者的互相关系数;
基于所述互相关系数产生的增益函数对所述残差信号子带信号作非线性处理,得到去除回声的子带信号Eout,k(m);
对所述去除回声的子带信号进行频-时域信号变换,作为最终的回声消除信号输出。
2.根据权利要求1所述的用于语音识别前端的频域回声消除方法,其特征在于,使用FFT,WOLA滤波器组或其它滤波器组对所述参考信号分帧信号和麦克风信号分帧信号进行时-频域信号变换。
3.根据权利要求1所述的用于语音识别前端的频域回声消除方法,其特征在于,使用双滤波器对所述参考信号子带信号进行滤波得到回声信号的估计信号。
4.根据权利要求3所述的用于语音识别前端的频域回声消除方法,其特征在于,所述双滤波器为自适应滤波器和最优滤波器通过两个滤波器上一帧的系数,分别对所述参考信号子带信号进行滤波,得到回声信号的估计信号;用公式表达如下:
其中,为的共轭转秩,为的共轭转秩,Yk(m)为自适应滤波器滤波得到的回声信号估计信号,Yo,k(m)为最优滤波器滤波得到的回声信号估计信号。
5.根据权利要求4所述的用于语音识别前端的频域回声消除方法,其特征在于,将所述麦克风信号子带信号与所述回声信号的估计信号相减得到残差信号子带信号的步骤包括将所述麦克风信号子带信号分别与自适应滤波器滤波得到的回声信号估计信号和最优滤波器滤波得到的回声信号估计信号相减,分别得到两个残差信号子带信号Ek(m)和Eo,k(m):
Ek(m)=Dk(m)-Yk(m) (3)
Eo,k(m)=Dk(m)-Yo,k(m) (4)。
6.根据权利要求5所述的用于语音识别前端的频域回声消除方法,其特征在于,计算所述参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m)的功率谱及两者的互功率谱、以求出两者的互相关系数的步骤包括:
计算参考信号子带信号Xk(m)的功率谱Xpwrk(m)和Xpwr_alignedk(m),Xpwrk(m)为用于NLMS自适应系数更新需要的参考信号子带信号功率谱,Xpwr_alignedk(m)为用于自相关运算的对齐后的参考信号子带信号功率谱,
Xpwrk(m)=α·Xpwrk(m-1)+(1-α)·|Xk(m)|2 (5)
Xpwr_alignedk(m)=α·Xpwr_alignedk(m-1)+(1-α)·|Xk(m-m_delay)|2 (6)
其中,α为平滑系数,m_delay为当前帧中参考信号相对于麦克风信号的群延时,Xk(m-m_delay)为参考信号子带信号向麦克风信号子带信号对齐;
近端麦克风信号的功率谱计算如下:
Dpwrk(m)=α·Dpwrk(m-1)+(1-α)·|Dk(m)|2 (7)
计算所述参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m)的互功率谱cross_pwrXDk(m):
cross_pwrXDk(m)=α·cross_pwrXDk(m-1)+(1-α)·Xk(m-m_delay)·Dk(m) (8)
计算所述参考信号子带信号Xk(m)和麦克风信号子带信号Dk(m)的互相关系数coh_XDk(m):
7.根据权利要求6所述的用于语音识别前端的频域回声消除方法,其特征在于,所述功率谱和互功率谱的计算选用一阶IIR滤波器进行递归平滑处理方法来计算。
8.根据权利要求6所述的用于语音识别前端的频域回声消除方法,其特征在于,基于所述互相关系数coh_XDk(m)产生的增益函数对所述残差信号子带信号作非线性处理,得到去除回声的子带信号Eout,k(m)的步骤中,所述增益函数为G(coh_XDk(m)),所述残差信号子带信号为Eo,k(m),
Eout,k(m)=G(coh_XDk(m))·Eo,k(m) (10)。
9.根据权利要求8所述的用于语音识别前端的频域回声消除方法,其特征在于,还包括对所述自适应滤波器系数进行更新的步骤:
其中,μk(m)为作用步长,(Ek(m))*表示对Ek(m)进行共轭运算,通过互相关系数进行调整:
μk(m)=coh_XDk(m)·μ (12)
其中,μ是设定的步长参数,μk(m)是对μ的修正后的作用步长。
10.根据权利要求9所述的用于语音识别前端的频域回声消除方法,其特征在于,在所述计算功率谱、互功率谱、互相关系数的步骤之前还包括群延时m_delay估计的步骤:基于滤波器是系数幅值最大峰值点进行估计,
其中,是指求取一个参数m使得的幅度有最大值。
11.根据权利要求10所述的用于语音识别前端的频域回声消除方法,其特征在于,还包括所述双滤波器的防发散控制的步骤:
计算自适应滤波器和最优滤波器的回声估计的均方误差mse(m)和mse_o(m);
其中,||为取模运算,β是平滑系数;
根据两个均方误差的情况决定是否需要对自适应滤波器进行系数重置或者将自适应滤波器系数装填到最优滤波器中。
12.一种计算机存储介质,其特征在于,一种计算机存储介质,其特征在于,所述存储介质上存储有计算机程序,所述程序被处理器执行时实现权利要求1-11中任意一项所述用于语音识别前端的频域回声消除方法的步骤。
13.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-11中任意一项所述用于语音识别前端的频域回声消除方法的步骤。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201811533955.8A CN109727604B (zh) | 2018-12-14 | 2018-12-14 | 用于语音识别前端的频域回声消除方法及计算机储存介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201811533955.8A CN109727604B (zh) | 2018-12-14 | 2018-12-14 | 用于语音识别前端的频域回声消除方法及计算机储存介质 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN109727604A CN109727604A (zh) | 2019-05-07 |
| CN109727604B true CN109727604B (zh) | 2023-11-10 |
Family
ID=66297098
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201811533955.8A Active CN109727604B (zh) | 2018-12-14 | 2018-12-14 | 用于语音识别前端的频域回声消除方法及计算机储存介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN109727604B (zh) |
Families Citing this family (40)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9565493B2 (en) | 2015-04-30 | 2017-02-07 | Shure Acquisition Holdings, Inc. | Array microphone system and method of assembling the same |
| US9554207B2 (en) | 2015-04-30 | 2017-01-24 | Shure Acquisition Holdings, Inc. | Offset cartridge microphones |
| US10367948B2 (en) | 2017-01-13 | 2019-07-30 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
| CN112335261B (zh) | 2018-06-01 | 2023-07-18 | 舒尔获得控股公司 | 图案形成麦克风阵列 |
| US11297423B2 (en) | 2018-06-15 | 2022-04-05 | Shure Acquisition Holdings, Inc. | Endfire linear array microphone |
| US11310596B2 (en) | 2018-09-20 | 2022-04-19 | Shure Acquisition Holdings, Inc. | Adjustable lobe shape for array microphones |
| US11303981B2 (en) | 2019-03-21 | 2022-04-12 | Shure Acquisition Holdings, Inc. | Housings and associated design features for ceiling array microphones |
| US11558693B2 (en) | 2019-03-21 | 2023-01-17 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality |
| JP7572964B2 (ja) | 2019-03-21 | 2024-10-24 | シュアー アクイジッション ホールディングス インコーポレイテッド | 阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 |
| CN110138650A (zh) * | 2019-05-14 | 2019-08-16 | 北京达佳互联信息技术有限公司 | 即时通讯的音质优化方法、装置及设备 |
| TW202101422A (zh) | 2019-05-23 | 2021-01-01 | 美商舒爾獲得控股公司 | 可操縱揚聲器陣列、系統及其方法 |
| CN110136736A (zh) * | 2019-05-27 | 2019-08-16 | 广州视源电子科技股份有限公司 | 一种回音消除系统、方法、装置、设备及存储介质 |
| WO2020243471A1 (en) | 2019-05-31 | 2020-12-03 | Shure Acquisition Holdings, Inc. | Low latency automixer integrated with voice and noise activity detection |
| CN110148421B (zh) * | 2019-06-10 | 2021-07-20 | 浙江大华技术股份有限公司 | 一种残余回声检测方法、终端和装置 |
| US11017792B2 (en) * | 2019-06-17 | 2021-05-25 | Bose Corporation | Modular echo cancellation unit |
| CN110310653A (zh) * | 2019-07-09 | 2019-10-08 | 杭州国芯科技股份有限公司 | 一种回声消除方法 |
| CN111785289B (zh) * | 2019-07-31 | 2023-12-05 | 北京京东尚科信息技术有限公司 | 残留回声消除方法和装置 |
| CN114467312A (zh) | 2019-08-23 | 2022-05-10 | 舒尔获得控股公司 | 具有改进方向性的二维麦克风阵列 |
| CN110600048B (zh) * | 2019-08-23 | 2022-03-25 | Oppo广东移动通信有限公司 | 音频校验方法、装置、存储介质及电子设备 |
| US12028678B2 (en) | 2019-11-01 | 2024-07-02 | Shure Acquisition Holdings, Inc. | Proximity microphone |
| US11552611B2 (en) | 2020-02-07 | 2023-01-10 | Shure Acquisition Holdings, Inc. | System and method for automatic adjustment of reference gain |
| US11706562B2 (en) | 2020-05-29 | 2023-07-18 | Shure Acquisition Holdings, Inc. | Transducer steering and configuration systems and methods using a local positioning system |
| CN112037825B (zh) * | 2020-08-10 | 2022-09-27 | 北京小米松果电子有限公司 | 音频信号的处理方法及装置、存储介质 |
| CN111988708A (zh) * | 2020-09-03 | 2020-11-24 | 昆腾微电子股份有限公司 | 一种基于单麦克风的啸叫抑制方法及装置 |
| CN112489669B (zh) * | 2020-11-30 | 2024-02-23 | 北京融讯科创技术有限公司 | 一种音频信号处理方法、装置、设备和介质 |
| CN113194385B (zh) * | 2021-01-14 | 2023-03-10 | 四川湖山电器股份有限公司 | 基于步长控制的子带自适应反馈消除方法及系统 |
| JP7814400B2 (ja) | 2021-01-28 | 2026-02-16 | シュアー アクイジッション ホールディングス インコーポレイテッド | ハイブリッドオーディオビーム形成システム |
| US12452584B2 (en) | 2021-01-29 | 2025-10-21 | Shure Acquisition Holdings, Inc. | Scalable conferencing systems and methods |
| CN114974276B (zh) * | 2021-02-18 | 2025-11-18 | 武汉斗鱼鱼乐网络科技有限公司 | 一种音频数据的优化方法、装置、电子设备和存储介质 |
| CN114822571B (zh) * | 2021-04-25 | 2024-11-15 | 美的集团(上海)有限公司 | 一种回声消除方法、装置、电子设备和存储介质 |
| CN113488067B (zh) * | 2021-06-30 | 2024-06-25 | 北京小米移动软件有限公司 | 回声消除方法、装置、电子设备和存储介质 |
| CN113421579B (zh) * | 2021-06-30 | 2024-06-07 | 北京小米移动软件有限公司 | 声音处理方法、装置、电子设备和存储介质 |
| US12542123B2 (en) | 2021-08-31 | 2026-02-03 | Shure Acquisition Holdings, Inc. | Mask non-linear processor for acoustic echo cancellation |
| US12289584B2 (en) | 2021-10-04 | 2025-04-29 | Shure Acquisition Holdings, Inc. | Networked automixer systems and methods |
| EP4427465A1 (en) | 2021-11-05 | 2024-09-11 | Shure Acquisition Holdings, Inc. | Distributed algorithm for automixing speech over wireless networks |
| US12250526B2 (en) | 2022-01-07 | 2025-03-11 | Shure Acquisition Holdings, Inc. | Audio beamforming with nulling control system and methods |
| CN114650340B (zh) * | 2022-04-21 | 2024-07-02 | 深圳市中科蓝讯科技股份有限公司 | 一种回声消除方法、装置及电子设备 |
| US12598261B2 (en) | 2022-09-28 | 2026-04-07 | Shure Acquisition Holdings, Inc. | Wideband doubletalk detection for optimization of acoustic echo cancellation |
| CN115604614B (zh) * | 2022-12-15 | 2023-03-31 | 成都海普迪科技有限公司 | 采用吊装麦克风进行本地扩声和远程互动的系统和方法 |
| CN116935872A (zh) * | 2023-01-17 | 2023-10-24 | 中移(杭州)信息技术有限公司 | 残留回声估计方法、装置、系统、设备及存储介质 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102065190A (zh) * | 2010-12-31 | 2011-05-18 | 杭州华三通信技术有限公司 | 一种回声消除方法及其装置 |
| CN106340303A (zh) * | 2016-09-20 | 2017-01-18 | 南京朗逸锐科电子科技有限公司 | 一种基于时间频率域的语音降噪方法 |
| CN106878281A (zh) * | 2017-01-11 | 2017-06-20 | 上海蔚来汽车有限公司 | 基于混合音频的车内定位装置、方法和车内设备控制系统 |
| CN107026950A (zh) * | 2017-05-04 | 2017-08-08 | 重庆第二师范学院 | 一种频域自适应回声消除方法 |
| CN107924686A (zh) * | 2015-09-16 | 2018-04-17 | 株式会社东芝 | 语音处理装置、语音处理方法以及语音处理程序 |
| US10129408B1 (en) * | 2016-10-11 | 2018-11-13 | Google Llc | Residual echo detection based on non-causality |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9088336B2 (en) * | 2012-09-06 | 2015-07-21 | Imagination Technologies Limited | Systems and methods of echo and noise cancellation in voice communication |
-
2018
- 2018-12-14 CN CN201811533955.8A patent/CN109727604B/zh active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102065190A (zh) * | 2010-12-31 | 2011-05-18 | 杭州华三通信技术有限公司 | 一种回声消除方法及其装置 |
| CN107924686A (zh) * | 2015-09-16 | 2018-04-17 | 株式会社东芝 | 语音处理装置、语音处理方法以及语音处理程序 |
| CN106340303A (zh) * | 2016-09-20 | 2017-01-18 | 南京朗逸锐科电子科技有限公司 | 一种基于时间频率域的语音降噪方法 |
| US10129408B1 (en) * | 2016-10-11 | 2018-11-13 | Google Llc | Residual echo detection based on non-causality |
| CN106878281A (zh) * | 2017-01-11 | 2017-06-20 | 上海蔚来汽车有限公司 | 基于混合音频的车内定位装置、方法和车内设备控制系统 |
| CN107026950A (zh) * | 2017-05-04 | 2017-08-08 | 重庆第二师范学院 | 一种频域自适应回声消除方法 |
Non-Patent Citations (2)
| Title |
|---|
| Acoustic echo suppression based on speech presence probability;Ying Tong et al,;《2016 IEEE International Conference on Digital Signal Processing (DSP)》;全文 * |
| 基于多测试场景的VoIP话音质量主观测试方法;王晶等;《中国声学学会第十一届青年学术会议会议论文集》;全文 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN109727604A (zh) | 2019-05-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109727604B (zh) | 用于语音识别前端的频域回声消除方法及计算机储存介质 | |
| JP5671147B2 (ja) | 後期残響成分のモデリングを含むエコー抑制 | |
| CN104158990B (zh) | 用于处理音频信号的方法和音频接收电路 | |
| CN111768796B (zh) | 一种声学回波消除与去混响方法及装置 | |
| KR101250124B1 (ko) | 에코 억제 필터를 위한 제어 정보를 계산하는 장치 및 방법 및 지연 값을 계산하는 장치 및 방법 | |
| US20190222691A1 (en) | Data driven echo cancellation and suppression | |
| US8781137B1 (en) | Wind noise detection and suppression | |
| EP2237271B1 (en) | Method for determining a signal component for reducing noise in an input signal | |
| US9992572B2 (en) | Dereverberation system for use in a signal processing apparatus | |
| CN111213359B (zh) | 回声消除器和用于回声消除器的方法 | |
| CN115457928B (zh) | 一种基于神经网络双讲检测的回声消除方法及系统 | |
| CN102347028A (zh) | 双麦克风语音增强装置及方法 | |
| KR20130108063A (ko) | 다중 마이크로폰의 견고한 잡음 억제 | |
| KR102649227B1 (ko) | 듀얼 마이크 어레이 에코 제거 방법, 장치 및 전자 장비 | |
| CN108010536B (zh) | 回声消除方法、装置、系统及存储介质 | |
| CN109727605B (zh) | 处理声音信号的方法及系统 | |
| CN113347536B (zh) | 基于线性预测与子带自适应滤波的声反馈抑制算法 | |
| WO2015044915A1 (en) | Acoustic feedback cancellation based on cesptral analysis | |
| JP2003250193A (ja) | 反響消去方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
| JP7495684B2 (ja) | エコー除去方法、装置および電子機器 | |
| JP2002223182A (ja) | 反響消去方法、その装置、そのプログラム及びその記録媒体 | |
| KR101558397B1 (ko) | 반향필터 추정방법, 반향제거필터 추정방법 및 이를 이용한 단일채널 반향제거방법 | |
| CN118737180A (zh) | 立体声回声消除方法、装置、电子设备及存储介质 | |
| KR101501279B1 (ko) | 인접 범위 내의 시간 또는 주파수 상관관계 기반의 음향학적 스테레오 에코 제거 방법 및 시스템 | |
| CN115631761A (zh) | 回声消除装置、方法、计算机设备及存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |