WO2010083641A1

WO2010083641A1 - 双端通话检测方法及装置

Info

Publication number: WO2010083641A1
Application number: PCT/CN2009/070226
Authority: WO
Inventors: 程荣; 张崇岩; 韦春妍
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2009-01-20
Filing date: 2009-01-20
Publication date: 2010-07-29
Anticipated expiration: 2011-07-20
Also published as: EP2348645A4; EP2348645B1; US8160238B2; US20100183140A1; EP2348645A1; CN102160296B; CN102160296A

Description

双端通话检测方法及装置

技术领域

本发明实施例涉及语音通信领域，尤其涉及一种双端通话检测方法及装置。背景技术

在语音通信领域中，语音通信产品（例如手机）接收到来自网络侧的远端信号并经过扬声器播放后，在声学通路产生回声信号，回声信号及近端语音被麦克风釆集后，被传送至另一通话端。为了消除回声信号，现有技术釆用声学回声消除技术，该技术的原理为：利用自适应滤波器模拟回声路径，得到估计的回声信号，从麦克风釆集的近端信号中减去估计的回声信号，实现了回声消除。

在声学回声消除技术中，需要检测出麦克风釆集的近端信号中是否存在近端语音，这种检测技术为双端通话检测技术，具体地说，该技术需要检测出当前通话状态是近端和远端同时在说话的状态（双讲状态），还是近端信号中只有回声信号的状态（单讲状态），从而决定是否更新自适应滤波系数。

针对双端通话检测技术，现有技术中提供了基于能量的检测方法、基于信号相关性的检测方法以及基于双滤波器的检测方法。

其中，基于能量的检测方法通过比较近端信号瞬时功率和远端信号瞬时功率的大小，检测出当前通话状态，该方法要求回声信号的能量小于近端语音和远端信号的能量，仅适用于回声信号能量较小的场景；因此，该方法依赖于远端信号和回声信号的能量水平，误判率较高。

基于信号相关性的检测方法通过计算远端信号和近端信号的相关度，检测出当前通话状态，该方法计算复杂度较高，其检测精度依赖于信号失真程度，当回声信号失真时，检测精度降低。

基于双滤波器的检测方法通过计算和比较两次滤波输出结果，检测出当前通话状态，该方法的检测精度也依赖于信号失真程度，当回声信号失真时，自适应滤波易发散，难以达到收敛状态，导致检测精度降低。

发明人在实现本发明的过程中发现，现有的双端通话检测技术适用于非线性失真较小，回声信号能量较小的场景；但是在实际环境下，以手机为例，由于手机的扬声器具有带通特性，扬声器会给回声信号带来非线性失真，并且无法避免；进一步，在免提模式下，回声信号能量也很大；因此，在实际环境下，现有的双端通话检测技术的检测精度较低，检测性能较差，一旦将近端语音误判为回声信号，则通过自适应滤波处理，将近端语音当作回声信号抵消了，这样严重影响了通话质量。发明内容

本发明实施例提供了一种双端通话检测方法及装置，用以提高检测精度。本发明实施例提供了一种双端通话检测方法，包括：

获取远端信号帧和近端信号帧；

根据所述远端信号帧和所述近端信号帧的频谱差异，检测通话状态。本发明实施例提供了一种双端通话检测装置，包括：

获取模块，用于获取远端信号帧和近端信号帧；

频语检测模块，用于根据所述远端信号帧和所述近端信号帧的频谱差异，检测通话状态。

本发明实施例根据远端信号帧和近端信号帧的频谱差异，检测通话状态，即使存在信号的非线性失真，也不会影响检测精度，反而失真越大，检测结果越准确，检测性能越好；并且远端信号和回声信号的能量水平不会影响检测性能，使得本发明实施例尤其适用于免提情况。附图说明

图 1为本发明实施例所适用的 AEC的结构示意图；

图 2为本发明实施例一双端通话检测方法的流程图；

图 3为本发明实施例二双端通话检测方法的流程图；

图 4为本发明实施例二双端通话检测方法中单讲状态的曲线示意图；图 5为本发明实施例二双端通话检测方法中存在近端语音情况下的曲线示意图；

图 6为本发明实施例双端通话检测装置的结构示意图。具体实施方式

首先简要介绍本发明实施例所适用的声学回声消除器（Acoustic Echo Canceller, 以下简称： AEC ), 如图 1 所示，为本发明实施例所适用的 AEC 的结构示意图， AEC包含双端通话检测器（ Double Talk Detection, 以下简称： DTD ) 11、自适应滤波器（AF ) 12和非线性处理器（ Nonlinear Processor, 以下简称： NLP ) 13。其中， DTD11是制约 AEC性能的关键因素，为了解决现有 DTD 11 检测技术难以有效地在语音通信产品上检测出双端通话状态的问题，本发明实施例提出了一种双端通话检测方法和装置，可以应用在该 DTD11 中。下面通过附图和实施例，对本发明实施例的技术方案做进一步的详细描述。

如图 2所示，为本发明实施例一双端通话检测方法的流程图，具体包括如下步骤：

步骤 101、获取远端信号帧和近端信号帧；

步骤 102、根据所述远端信号帧和所述近端信号帧的频谱差异，检测通话状态。

由于扬声器具有带通特性，通过扬声器的回声信号的低频部分被衰减，当硬件固定后，由扬声器非线性失真所引发的回声信号低频衰减是恒定的，因此回声信号和远端信号的频谱差异是恒定的；而当存在近端语音时，近端信号和远端信号的频谱差异就会发生变化。本实施例根据远端信号帧和近端信号帧的频谱差异，检测通话状态，即使存在信号的非线性失真，也不会影响检测精度，反而失真越大，检测结果越准确，检测性能越好；并且远端信号和回声信号的能量水平不会影响检测性能，使得本实施例尤其适用于免提情况。

如图 3所示，为本发明实施例二双端通话检测方法的流程图，具体包括如下步骤：

步骤 201、获取远端信号帧和近端信号帧。

具体地说， DTD11获取输入的远端信号输入帧和近端信号输入帧，将远端信号输入帧写入緩冲区（Buffer )中，在緩冲区中将远端信号输入帧延迟指定时间（用 Tail— length表示指定时间对应的釆样点个数）后，得到远端信号帧。其中，指定时间为回声信号相对于远端信号的实际延长时间，也即包含在近端信号输入帧中的回声信号实际是与延迟 Tail— length个点之后的远端信号帧相对应。一般手机的回声延迟时间为 16ms左右，对于釆样率为 8000的信号， Tail— length为 128。

将近端信号输入帧作为近端信号帧，并与远端信号帧一起进行下一步处理。

步骤 202、计算远端信号帧的第一短时平均过零率和近端信号帧的第二短时平均过零率。

本实施例釆用短时平均过零率提取信号的频率特征，其中，短时平均过零率是指信号帧每相邻釆样点信号值的乘积小于零的次数，即为信号帧曲线经过零点的次数；短时平均过零率越大，说明信号帧频率越高。

步骤 203、将第一短时平均过零率和第二短时平均过零率进行平滑滤波处理。

用 zcrl表示第一短时平均过零率， zcr2表示第二短时平均过零率，如下两式所示：

zcrl = zcrl*a + (1- a )* zcrl pre；

zcr2 = zcr2*a + (1- a )* zcr2_pre；

其中 a为平滑系数， a取值为 0 ~ 1之间， zcrl_pre和 zcr2_pre分别表示前一帧远端信号的短时平均过零率和前一帧近端信号的短时平均过零率。

经过平滑滤波处理可以消除短时平均过零率的高频波动， a值越小，平滑度越高，即前后帧的短时平均过零率相差越小，短时平均过零率曲线较平稳； a值越大，平滑度越低。

步骤 204、计算第一短时平均过零率与第二短时平均过零率的差值。

本步骤的 zcrl和 zcr2可以为步骤 202得到的，也可以为经过步骤 203处理后的。

步骤 205、判断差值是否小于频谱差异门限值，若是，则执行步骤 206; 否则执行步骤 207。

用 T表示频谱差异门限值， T的取值取决于实际系统中扬声器非线性失真程度，可以通过实际试验获取。本实施例中， T=6。

步骤 206、检测出通话状态为双讲状态。

由于 zcr2-zcrl<T, 可判定当前的通话状态为双讲状态；之后，将判定结果输入到 AEC的双讲处理模块，具体地，输入到 AF12, AF12根据判定结果不更新自适应滤波系数，输出滤波结果后，由 NLP 13进行处理。

步骤 207、检测出通话状态为单讲状态。

由于 zcr2-zcrl > T, 可判断当前的通话状态为单讲状态；之后，将判断结果输入到 AEC的单讲处理模块，具体地，输入到 AF12, AF12根据判定结果更新自适应滤波系数，输出滤波结果后，由 NLP13进行处理。

本实施例考虑到语音通信产品的实际特点，利用由扬声器的非线性失真引发的近端信号和远端信号的频谱差异来检测通话状态，具体地，釆用短时平均过零率提取信号的频率特征，根据远端信号帧和近端信号帧的短时平均过零率的差值来检测通话状态，使得检测精度不受非线性失真的影响，反而失真越大，检测结果越准确，检测性能越好；相对于现有技术，本实施例不依赖于非线性失真程度及远端信号和回声信号的能量水平，提高了通话质量；进一步的，在免提情况下，本实施例的有益效果更加显著。

下面通过一个具体的例子对本发明实施例的方案做进一步介绍。

如图 4所示，为本发明实施例二双端通话检测方法中单讲状态的曲线示意图，如图 5所示，为本发明实施例二双端通话检测方法中存在近端语音情况下的曲线示意图，其中，实线表示远端信号帧的短时平均过零率，虚线表示近端信号帧的短时平均过零率，图 4中近端信号包含回声信号，图 5中近端信号包含回声信号和近端语音。

由图 4可以看出，由于回声信号的非线性失真带来的低频信号衰减，使得回声信号整体集中在中高频率，所有失真的回声信号的过零率大于远端信号的过零率。如果回声信号没有失真，则回声信号的过零率等于远端信号的过零率，图 4中的两条曲线应该是重合的。

由图 5可以看出，由于近端语音没有由扬声器带来的非线性失真，当存在近端语音时，近端信号的过零率接近于远端信号的过零率，如图 5中椭圓选中的区域，该区域为双讲状态；当没有近端语音时，近端信号的过零率与远端信号的过零率仍然保持一定的差距，处于单讲状态。本发明实施例通过实时的捕捉过零率的变化情况，检测是否存在近端语音，进而确定通话状态。

本发明实施例可以应用在与手机扬声器一样具有非线性失真特征的语音通信产品的 AEC中。

如图 6所示，为本发明实施例双端通话检测装置的结构示意图，本实施例可以为 AEC中的 DTD11 , 具体包括：获取模块 21和频谱检测模块 22, 其中获取模块 21 , 用于获取远端信号帧和近端信号帧；频语检测模块 22, 用于根据远端信号帧和近端信号帧的频谱差异，检测通话状态。

进一步的，获取模块 21包括输入模块 23、緩冲模块 24和输出模块 25 , 输入模块 23 , 用于获取输入的远端信号输入帧和近端信号输入帧，并将远端信号输入帧传送给緩冲模块 24; 緩冲模块 24, 用于将远端信号输入帧延迟指定时间后，得到远端信号帧；输出模块 25 , 用于将近端信号输入帧作为近端信号帧，从而获取到远端信号帧和近端信号帧。

频语检测模块 22包括第一计算模块 26、第二计算模块 27和差值检测模块

28, 第一计算模块 26, 用于计算远端信号帧的第一短时平均过零率以及近端信号帧的第二短时平均过零率；第二计算模块 27, 用于计算第一短时平均过零率与第二短时平均过零率的差值；差值检测模块 28, 用于根据该差值，检测通话状态。

频语检测模块 22还可以包括滤波模块 29, 该滤波模块 29用于将第一计算模块 26计算得到的第一短时平均过零率和第二短时平均过零率进行平滑滤波处理，然后输出给第二计算模块 27。

再进一步，差值检测模块 28可以包括：判断单元 281和检测单元 282, 判断单元 281 , 用于判断该差值是否小于频谱差异门限值；检测单元 282, 用于当判断单元 281判断出差值小于频谱差异门限值时，检测出通话状态为双讲状态；当判断单元 281判断出差值大于或等于频谱差异门限值时，检测单元 282 检测出通话状态为单讲状态。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤，而前述的存储介质包括： ROM, RAM, 磁碟或者光盘等各种可以存储程序代码的介质。非对其限制；尽管参照前述实施例对本发明实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims

权利要求

1、一种双端通话检测方法，其特征在于包括：

获取远端信号帧和近端信号帧；

根据所述远端信号帧和所述近端信号帧的频谱差异，检测通话状态。

2、根据权利要求 1 所述的双端通话检测方法，其特征在于，所述获取远端信号帧和近端信号帧包括：

获取远端信号输入帧和近端信号输入帧；

将所述远端信号输入帧延迟指定时间后，得到所述远端信号帧；将所述近端信号输入帧作为所述近端信号帧。

3、根据权利要求 1或 2所述的双端通话检测方法，其特征在于，所述根据远端信号帧和近端信号帧的频谱差异，检测通话状态包括：

计算所述远端信号帧的第一短时平均过零率以及所述近端信号帧的第二短时平均过零率；

计算所述第一短时平均过零率与所述第二短时平均过零率的差值；根据所述差值，检测通话状态。

4、根据权利要求 3所述的双端通话检测方法，其特征在于，在所述计算差值之前还包括：将所述第一短时平均过零率和所述第二短时平均过零率进行平滑滤波处理。

5、根据权利要求 3所述的双端通话检测方法，其特征在于，所述根据差值，检测通话状态包括：

判断所述差值是否小于频谱差异门限值，若是，则检测出通话状态为双讲状态；否则检测出通话状态为单讲状态。

6、一种双端通话检测装置，其特征在于包括：

获取模块，用于获取远端信号帧和近端信号帧；

7、根据权利要求 6所述的双端通话检测装置，其特征在于，所述获取模块包括：

输入模块，用于获取远端信号输入帧和近端信号输入帧；

緩冲模块，用于将所述远端信号输入帧延迟指定时间后，得到所述远端信号帧；

输出模块，用于将所述近端信号输入帧作为所述近端信号帧。

8、根据权利要求 6或 7所述的双端通话检测装置，其特征在于，所述频语检测模块包括：

第一计算模块，用于计算所述远端信号帧的第一短时平均过零率以及所述近端信号帧的第二短时平均过零率；

第二计算模块，用于计算所述第一短时平均过零率与所述第二短时平均过零率的差值；

差值检测模块，用于根据所述差值，检测通话状态。

9、根据权利要求 8所述的双端通话检测装置，其特征在于，所述频谱检测模块还包括：

滤波模块，用于将所述第一短时平均过零率和所述第二短时平均过零率进行平滑滤波处理。

10、根据权利要求 8所述的双端通话检测装置，其特征在于，所述差值检测模块包括：

判断单元，用于判断所述差值是否小于频谱差异门限值；

检测单元，用于当所述判断单元判断出所述差值小于频谱差异门限值时，检测出通话状态为双讲状态；当所述判断单元判断出所述差值大于或等于频谱差异门限值时，检测出通话状态为单讲状态。