CN117063230A

CN117063230A - 音频处理

Info

Publication number: CN117063230A
Application number: CN202280013322.2A
Authority: CN
Inventors: 埃斯坦·伯肯斯; 伦纳特·伯尼乌斯; 廖巧玲
Original assignee: Simple Framework Co ltd
Current assignee: Simple Framework Co ltd
Priority date: 2021-02-04
Filing date: 2022-02-03
Publication date: 2023-11-14

Abstract

一种处理音频信号的计算机实施的方法。所述方法包括：从两个或更多个传声器接收相应的音频信号；从所述接收的音频信号中导出以频率为索引的多个时频信号，并且对于所述时频信号中的每一者：确定所述音频信号的波束内分量；以及对所述接收的音频信号执行后处理，所述后处理包括：基于所述音频信号计算参考电平；基于所述音频信号的所述确定的波束内分量计算波束内电平；根据所述参考电平和所述波束内电平计算要应用于所述波束内分量的后处理增益；以及将所述后处理增益应用于所述波束内分量。

Description

音频处理

技术领域

本发明涉及一种计算机实施的方法、服务器、视频会议端点以及非暂时性存储介质。

背景技术

在视频通话期间，诸如厨房噪声、狗吠声或来自不是通话的部分的其他人的干扰性讲话的噪声可能会让通话参与者感到厌烦和分心，并扰乱会议。对于在相机视图中不可见的噪声源尤其如此，因为人类听觉系统不太能够滤除未同时被视觉系统检测到的噪声。

该问题的现有解决方案是将多个传声器信号组合到空间滤波器(或波束形成器)中，所述空间滤波器能够滤除来自被称为波束外的某些方向的声学信号，例如来自相机视图外部的声学信号。如果视频系统在室外或声学上非常干燥的房间(即，声学反射极弱的房间)中使用，则该技术很好地抑制了波束外噪声源。然而，在使用视频会议系统的大多数房间中，波束外噪声源会产生来自波束内方向的大量声学反射。噪声源的这些波束内反射未被空间滤波器滤除，并且因此未衰减地传输到远端参与者。因此，即使对于理想的空间滤波器，波束外噪声仍可能被传输并扰乱视频会议。

US2016/0066092 A1提出了通过使用非线性方法基于定向滤波器系数从输出中过滤源信号来解决该问题。Springer,Cham.在Owens A.,Efros A.A.(2018)Audio-VisualScene Analysis with Self-Supervised Multisensory Features.In:Ferrari V.,Hebert M.,Sminchisescu C.,Weiss Y.(eds)Computer Vision–ECCV 2018.ECCV2018.Lecture Notes in Computer Science,第11210卷中提出了通过应用基于深度学习的模型来解决该问题。

发明内容

因此，在第一方面中，本发明的实施方案提供了一种处理音频信号的计算机实施的方法，所述方法包括：

从两个或更多个传声器接收相应的音频信号；

从所述接收的音频信号中导出以频率为索引的多个时频信号，并且对于所述时频信号中的每一者：

确定所述音频信号的波束内分量；以及

对所述接收的音频信号执行后处理，所述后处理包括：

基于所述音频信号计算参考电平；

基于所述音频信号的确定的波束内分量计算波束内电平；

根据所述参考电平和所述波束内电平计算要应用于所述波束内分量的后处理增益；以及

将所述后处理增益应用于所述波束内分量。

上述方法允许抑制波束外噪声源，因此提高波束内音频源的清晰度。

现在将陈述本发明的任选特征。这些可单独地或与本发明的任何方面以任何组合形式应用。

本发明包括所描述的各方面和优选特征的组合，除非这种组合是明确不允许的或明确避免的。

确定所述音频信号的波束内分量可以包括对所述接收的音频信号应用波束形成过程。所述波束形成过程可以包括将波束内信号估计为来自所述多个传声器中的每一者的时频信号的线性组合。所述线性组合可以采用以下形式：

x_IB(t，f)＝w₁(f)·x₁(t，f)+w₂(f)·x₂(t，f)+…w_n(f)·x_n(t，f)，其中w_i是复数组合权重，和x_i(t，f)是时频信号，n个传声器中的每一者有一个时频信号。

在一些示例中，波束内信号x_IB(t，f)(不一定使用上述方程式计算)对应于波束内电平，因此计算波束内电平涉及计算波束内信号，并且计算后处理增益可以包括利用波束内电平来计算用于后处理增益的进一步参数。在其他示例中，使用波束内信号x_IB(t，f)来计算波束内电平。下文更详细地讨论了两种变体。

所述两个或更多个传声器中的至少一个传声器可以是单向传声器，并且所述两个或更多个传声器中的另一个传声器可以是全向传声器，并且确定所述音频信号的波束内分量可以包括利用由所述单向传声器作为空间滤波器接收的音频信号。

传声器可以安装在视频会议端点内。

所述参考电平可以被计算为：

L_ref(t，f)＝γ×|x_i(t，f)|^p+(1-γ)×L_ref(t-1，f)；

其中γ是平滑因子，p是可以取值1或2的正数，并且x_i(t，f)是由所述接收的音频信号的离散傅里叶变换产生的时频分量。平滑因子可以取0至1之间的值，包括端点。

所述波束内电平可以被计算为：

L_IB(t，f)＝γ×|x_IB(t，f)|^p+(1-γ)×L_IB(t-1，f)；

其中γ是平滑因子，p是可以取值1或2的正数，并且x_IB(t，f)是由所述接收的音频信号的离散傅里叶变换器产生的波束内时频分量。平滑因子可以取0至1之间的值，包括端点。

所述后处理增益可以被计算为：

g(t，f)＝L_IB(t，f)/L_ref(t，f)。

所述方法还可以包括将挤压函数应用于后处理增益，使得后处理增益取至少为0且不超过1的值。挤压函数可以利用阈值T，并且可以采用以下形式：

h(s)＝0如果s＜0

h(s)＝β.s^α如果0≤s≤T

h(s)＝1如果s＞T

其中α和β是正实数值。在一些示例中，α＝1并且β＝1。在其他示例中，挤压函数是广义逻辑函数的实施方式。

在另一个示例中，当L_IB(t，f)≤T·L_ref(t，f)时，所述后处理增益被计算为：

其中α和β是正实数，否则所述后处理增益被计算为：

g(t，f)＝1。

将后处理增益应用于波束内分量可以包括将后处理增益乘以波束内分量。

在另一个示例中，所述波束内电平可以用于计算所述音频信号的确定的波束内分量与所述接收的音频信号之间的协方差c(t，f)，并且其中所述计算的协方差用于计算所述后处理增益。例如，所述协方差可以被计算为：

其中x_i(t，f)是由接收的音频信号的离散傅里叶变换产生的参考时频分量，x_IB(t，f)是与波束内电平相对应的由接收的音频信号的离散傅里叶变换产生的波束内时频分量，并且是参考时频信号的复共轭。

在这种情况下，所述后处理增益可以被计算为

g(t，f)＝c(t，f)/L_ref(t，f)。

挤压函数也可以应用于后处理增益的这种变体，使得后处理增益取至少为0且不超过1的值。因此，后处理增益是：

其中h(s)是挤压函数。例如，使用阈值T，如上文针对h(s)所述。使用协方差c(t，f)可以提高后处理滤波器的性能，因为波束内信号x_IB(t，f)可能与接收的波束外信号x_OB(t，f)＝x_i(t，f)-x_IB(t，f)相关，这将反映在协方差c(t，f)中。

替代地，可以使用线性或宽线性滤波器来计算后处理增益。这可能涉及使用伪参考电平和伪协方差来计算后处理增益。例如，所述后处理增益可以被计算为：

其中g₀(t，f)被计算为：

g₁(t，f)被计算为：

L_Pref(t，f)是伪参考电平，例如，被计算为：

L_Pref(t，f)＝γ×x_i(t，f)²+(1-γ)×L_Pref(t-1，f)；

c_P(t，f)是伪协方差，例如，被计算为：

c_p(t，f)＝γ×x_i(t，f)×x_IB(t，f)+(1-γ)×c_P(t-1，f)；

和h是挤压函数，使得所述后处理增益取0至1之间的值。

所述方法还可以包括根据所述多个时频信号中的一者或多者计算公共增益因子并将所述公共增益因子作为所述后处理增益应用于所述其他时频信号中的一者或多者。应用公共增益因子可以包括在将后处理增益应用于其他时频信号中的一者或多者之前将公共增益因子乘以后处理增益。

所述方法还可以包括将来自所述接收的音频信号的样本帧作为输入并将所述帧乘以窗口函数。所述方法还可以包括通过应用离散傅里叶变换将所述加窗帧变换到频域，所述变换的音频信号包括多个时频信号。

确定所述音频信号的波束内分量可以包括从摄像机接收视野，并将波束内定义为与由所述摄像机覆盖的所述视野相对应的空间区域。

在第二方面中，本发明的实施方案提供了一种服务器，所述服务器包括处理器和存储器，所述存储器包含指令，所述指令使所述处理器：

接收多个音频信号；

确定所述音频信号的波束内分量；以及

对所述接收的音频信号执行后处理，所述后处理包括：

基于所述音频信号计算参考电平；

基于所述音频信号的所述确定的波束内分量计算波束内电平；

将所述后处理增益应用于所述波束内分量。

第二方面的存储器可以包含机器可执行指令，所述机器可执行指令在由处理器执行时使所述处理器执行第一方面的方法，包括参考其列出的任选特征中的任一者或其组合，前提是它们兼容。

在第三方面中，本发明的实施方案提供了一种视频会议端点，其包括：

多个传声器；

摄像机；

处理器；以及

存储器，其中所述存储器包含机器可执行指令，所述机器可执行指令当在所述处理器上执行时使所述处理器：

从每个传声器接收相应的音频信号；

确定所述音频信号的波束内分量；以及

对所述接收的音频信号执行后处理，所述后处理包括：

基于所述音频信号计算参考电平；

将所述后处理增益应用于所述波束内分量。

第三方面的存储器可以包含机器可执行指令，所述机器可执行指令在由处理器执行时使所述处理器执行第一方面的方法，包括参考其列出的任选特征中的任一者或其组合，前提是它们兼容。

在第四方面中，本发明的实施方案提供了一种计算机，其包含处理器和存储器，其中所述存储器包含机器可执行指令，所述机器可执行指令当在所述处理器上执行时使所述处理器执行第一方面的方法，包括参考其列出的任选特征中的任一者或其组合，前提是它们兼容。计算机可以是例如视频会议端点并且可以被配置为通过网络接收多个音频信号。

本发明的其他方面提供了：一种包括代码的计算机程序，所述代码当在计算机上运行时使所述计算机执行第一方面的方法；一种计算机可读介质，所述计算机可读介质存储包括代码的计算机程序，所述代码当在计算机上运行时使所述计算机执行第一方面的方法；以及一种计算机系统，所述计算机系统被编程为执行第一方面的方法。

附图说明

现在通过示例的方式参考附图来描述本发明的实施方案，其中：

图1示出了计算机网络的示意图；

图2是示出根据本发明的方法的信号流图；

图3是示出根据本发明的变体方法的信号流图；

图4-图8描绘了各种场景并示出了如何应用方法；

图9是示出根据本发明的变体方法的信号流图；以及

图10是示出根据本发明的另一变体方法的信号流图。

图11是示出根据本发明的另一变体方法的信号流图。

具体实施方式

现在将参考附图论述本发明的各个方面和实施方案。本领域技术人员将明白其他方面和实施方案。本文中所提及的所有文档通过引用并入本文。

图1示出了计算机网络的示意图。网络包括视频会议端点102，其包括多个传声器、摄像机、处理器和存储器。存储器包括使处理器执行如下文详细讨论的某些操作的机器可执行指令。端点102连接到网络104，其可以是广域网或局域网。服务器106、视频会议系统108、膝上型计算机110、台式计算机112和智能电话114也连接到网络。本文描述的方法适用于这些装置中的任一者。例如，由端点102中的传声器捕获的音频可以在被传输到接收器之前被传输到服务器106以根据本文公开的方法进行集中处理。替代地，传声器捕获的音频可以直接发送给接收者而不应用所述方法，接收者(例如，系统108、膝上型计算机110、台式计算机112和/或智能电话114)然后可以在通过其本地扬声器输出处理后的音频信号之前执行所述方法。

图2是示出根据本发明的方法的信号流图。为了方便起见，仅示出了三个传声器，但是可以使用来自两个向上的任意数量的传声器。在第一步骤中，使用模数转换器(ADC)将每个模拟传声器信号数字化。这表示每个模拟信号都以选定的采样频率(诸如16kHz)时间上采样，然后每个时间样本被量化为一组离散值使得它们可以由32位浮点数表示。如果使用数字传声器(即，并入有自己的ADC的传声器)，则不需要离散ADC。

然后将每个数字化信号馈入分析滤波器组。该滤波器组将其变换到时频域。更具体地，分析滤波器组以规则的时间间隔(诸如每10ms)将一帧样本(例如，40ms)作为输入，将该帧乘以窗口函数(例如，汉恩窗口函数)并使用离散傅里叶变换(DFT)将加窗帧变换到频域。换句话说，例如，每10ms，每个分析滤波器组输出一组N个复数DFT系数(例如，N＝256)。这些系数可以被解释为范围从0Hz至采样频率的一半的一系列频率分量的振幅和相位(频率的上半部分被忽略，因为它们不包含任何附加信息)。这些信号被称为时频信号并且被表示为：x₁(t，f)，x₂(t，f)，和x₃(t，f)，，每个传声器一个信号。t是时间帧索引，其采用整数值，例如，0、1、2...，并且f是频率索引，其采用0、1、...、N-1中的整数值。

然后独立于其他频率索引处理每个频率索引f的时频信号。因此，为了简单起见，图1示出了应用于一个频率索引f的处理的信号流图。然而，其他频率索引的信号流图是等效的。

对于每个频率索引f，空间滤波器用于滤除来自某些方向的声音信号，这些方向被称为波束外方向。波束外方向通常被选择为在相机视图中不可见的方向。空间滤波器将波束内信号x_IB(t，f)计算为传声器的时频信号的线性组合。时间索引t和频率索引f的波束内估计值是所有传声器的时频信号的线性组合，即：

x_IB(t，f)＝w₁(f)·x₁(t，f)+w₂(f)·x₂(t，f)+w₃(f)·x₃(t，f)

其中复数组合权重w₁(f)、w₂(f)和w₃(f)与时间无关，并且可以使用本领域本身已知的波束形成设计方法找到。

在该阶段处，作为空间滤波器输出的波束内信号可能包含由一个或多个波束外声源生成的大量波束内反射。这些不需要的反射被后处理器滤除，所述后处理器将在下面详细讨论。在对每个频率索引f进行后处理之后，合成滤波器组用于将信号变换回时域。这是分析滤波器组的逆运算，其相当于将N个复数DFT系数转换为包括例如10ms样本的帧。

后处理器将两个时频信号作为输入。尽管第一输入是参考信号，这里被选择为第一时频信号x₁(t，f)，，但是其他时频信号中的任一者都可以替代地用作参考信号。第二输入是波束内信号x_IB(t，f)，其是空间滤波器的输出。对于这两个输入中的每一者，使用指数平滑计算电平。即，参考电平是：

L_ref(t，f)＝γ·|x₁(t，f)|^p+(1-γ)·L_ref(t-1，f)

其中γ是平滑因子，并且p是正数，其可以取1或2的值。γ可以取0至1之间的值(包括端点)。同样，该示例中的波束内电平是

L_IB(t，f)＝γ·|x_IB(t，f)|^p+(1-γ)·L_IB(t-1，f)

虽然在该示例中已经使用了指数平滑，但是可以替代地使用不同的公式来计算电平，诸如滑动窗口的样本方差。例如，样本的最后1ms。参考电平和波束内电平然后用于计算后处理增益g(t，f)，所述后处理增益将应用于波束内信号x_IB(t，f)。该增益g(t，f)是介于0至1之间的数字，其中0指示时间索引t和频率索引f的波束内信号被完全抑制，而1指示时间索引t和频率索引f的波束内信号保持未衰减。因此，在理想情况下，当时间索引t和频率索引f的波束内信号被来自波束外信号声源的噪声反射主导时，增益应接近于零，而当时间索引t和频率索引f的波束内信号被波束内声源主导时，增益应接近于一。通过这种方式，如果适当地选择了时频表示，则波束外声源将被严重抑制，而波束内声源将基本未衰减通过后处理器。为此，可以使用维纳滤波器的近似值，其对应于增益：

g(t，f)＝SNR(t，f)/(SNR(t，f)+1)

其中SNR(t，f)是在时间索引t和频率索引f下的估计的信噪比(SNR)。这种类型的增益本身对于常规的降噪来说是众所周知的，诸如单传声器频谱减法，其中静止的背景信号被视为噪声，而其他一切都被视为信号。然而，在将这种情况应用于本方法时，使用了不同的定义：波束内信号x_IB(t，f)被认为是信号而波束外信号x_OB(t，f)＝x₁(t，f)-x_IB(t，f)被认为是噪声。将这些信号和噪声的定义代入维纳滤波器公式给出：

g(t，f)＝L_IB(t，f)/L_ref(t,f)

由于两个电平的计算方式，无法保证比率L_IB(t，f)/L_ref(t，f)小于或等于一。出于该原因，并且为了在调节抑制性能时提供更大的灵活性，将挤压函数h应用于比率L_IB(t，f)/L_ref(t，f)，使得最终的后处理增益由下式给出：

g(t，f)＝h(L_IB(t，f)/L_ref(t，f))

这里，挤压函数h被定义为从实数集到集合[0，1]的非递减映射。这种挤压函数的示例如下：

h(s)＝0如果s＜0

h(s)＝s如果s≥0并且s≤T

h(s)＝1如果s＞T

其中T≤1是正阈值。这导致后处理增益的以下公式：

g(t，f)＝1，否则

图3示出了变体，其中使用波束内时频信号与参考时频信号之间的短时协方差估计值来计算后处理增益。协方差也可以被认为是波束内时频信号与参考时频信号之间的互相关。这两个输入之间的协方差是：

其中x_IB(t，f)是该示例中与波束内电平相对应的波束内时频信号，γ是平滑因子，是参考时频信号的复共轭。x_IB(t，f)和x_i(t，f)都被假设具有零均值。所述后处理增益可以被计算为：

g(t，f)＝h(c(t，f)/v(t，f))

其中v(t，f)是参考信号与其自身的协方差的短时估计值，它与参考信号的方差的估计值相同，并且使用与先前变体中针对L_ref(t，f)相同的方程来计算。因此，后处理增益是：

g(t，f)＝h(c(t，f)/L_ref(t，f))。

虽然在该示例中已经使用了指数平滑，但是可以替代地使用不同的公式来计算短时协方差，诸如滑动窗口的样本协方差。例如，样本的最后1ms。

为了演示后处理增益的工作原理，请考虑空间滤波器，其在视频系统前方创建单个波束，并且T被设定为0.5。在图4所示的场景中，波束内声源非常靠近传声器。因此，传声器信号将主要由波束内直达声及可能其早期反射主导。相比之下，包括波束外反射的所有其他反射都非常小。这表示空间滤波器将使碰到传声器阵列的几乎所有声能通过，这再次表示波束内电平(L_IB(t，f)或x_IB(t，f))将接近参考电平L_ref(t，f)，从而导致后处理增益等于或接近1。

现在转到图5中所示的场景。波束内声源距离传声器阵列越远，直达声及可能其早期反射就越弱。因此，由于其他反射没有减弱到相同程度，因此空间滤波器抑制了碰到传声器阵列的大部分能量，因此波束内电平相对于参考电平变小。最终，当波束内电平降低到参考电平的一半时，后处理增益从1下降到0.5。

换句话说，靠近视频系统的波束内声源不会被后处理器衰减。但是，在距视频系统一定距离之外，波束内声源将被衰减。该距离至少部分由室内声学确定。声学上干燥的房间比潮湿(例如，高混响)的房间具有更大的距离。

图6考虑了其中波束外声源非常靠近传声器阵列的场景。传声器信号将主要由波束外直达声及可能其早期反射主导。相比之下，包括波束内反射的所有其他反射都非常小。这表示空间滤波器抑制了碰到传声器阵列的几乎所有声能，这表示波束内电平(L_IB(t，f)或x_IB(t，f))远小于参考电平L_ref(t，f)，从而给出后处理增益接近0。现在转向图7中的场景，波束外声源离传声器阵列越远，直达声及可能其早期反射就越弱。因此，由于其他反射没有减弱到相同程度，因此空间滤波器抑制了碰到传声器阵列的小部分能量，因此参考电平相对于波束内电平变小。这表示由L_IB(t，f)/L_ref(t，f)或c(t，f)/L_ref(t，f)驱动的后处理增益从大约0增加到更大的值(但是通常不会大到0.5)。

换句话说，靠近视频系统的波束外声源将被后处理器严重衰减。在较远的距离处，波束外声源仍会衰减，但是不会衰减那么多。

图8示出了其中存在靠近的波束内声源和靠近的波束外声源两者的场景。在波束内声源与波束外声源中的任一者之间没有或几乎没有重叠的时频区间将像上面讨论的图4-图7中所示的场景一样工作。这表示一些时频区间中的波束外声源将被后处理器衰减，而一些时频区间中的波束内声源将未衰减地通过后处理器。对于波束内声源与一个或多个波束外声源之间存在相当大重叠的时频区间，后处理增益可能会无意中衰减波束内声源或无法衰减所有波束外声源。然而，如果时频表示和挤压函数被适当地选择，则整体体验将是清晰地拾取波束内声源，并显著地衰减任何波束外声源。在一个示例中，使用了具有40ms帧长、10ms帧位移和512个系数(对于16kHz采样频率)的短时傅里叶变换滤波器组。除了上面讨论的挤压函数h之外，其中阈值T被设定为0.5。

上文针对给定频率索引f描述的后处理增益是基于仅可用于该频率索引的信息计算的。具有良好的空间滤波器对于它的良好运行是有益的。通常，难以为极低和极高频率设计良好的空间滤波器。这是因为传声器放置的物理体积有限，以及传声器数量及其成对距离的实际限制。因此，可以根据具有良好空间滤波器的频率索引计算附加公共增益因子，并且随后将附加公共增益因子应用于没有良好空间滤波器的频率索引。例如，所述附加增益因子可以被计算为：

g_公共(t)＝1，否则

其中T_公共≤1是正阈值，并且∑_f是可以应用良好的空间滤波器的所有频率索引的总和。如果使用该附加因子，则它乘以时频增益g(t，f)然后它们应用于波束内信号。该公共增益因子也可以用作进一步抑制波束外声源同时保持波束内声源不衰减的有效方式。

这些后处理方法允许通过靠近传声器阵列的波束内声源，同时还显著抑制波束外声源。可以调节后处理器增益，以也显著抑制远离传声器阵列的波束内声源。当应用于视频会议端点时，用户将体验到气泡形状的传声器拾音模式，其中气泡从传声器阵列延伸并伸出到相机前方。

图9是示出根据本发明的变体方法的信号流图。不是将空间滤波器应用于时频域，如图2所示，而是将其应用于时域。时域空间滤波器通常被实施为滤波器以及求和波束形成器。然后将延迟引入参考信号，以便在执行后处理之前将其与波束内信号时间对齐。

图10是示出根据本发明的另一变体方法的信号流图。这里的传声器阵列被一对传声器代替，该对传声器包括：单向传声器和全向传声器。在该变体中，单向传声器信号用作空间滤波器输出，而全向传声器信号用作参考信号。这里，将这两个传声器在空间上彼此靠近放置并确保波束内频率响应类似是很有用的。如果这两个传声器的波束内频率响应不类似，则可以应用均衡滤波器以使它们类似。此外，与上面讨论的方法一样，波束内信号与波束外信号之间的线性间隔越好，后处理将发挥更好的作用。

图11是示出根据本发明的另一变体方法的信号流图。这里，后处理增益是基于宽线性滤波器(例如，如B.Picinbono和P.Chevalier在″Widely linear estimationwithcomplex data，″IEEE Trans.Signal Processing，第43卷，第2030页至2033页，1995年8月(其全部内容通过引用并入本文)所描述的)而不是可以提供改进性能的维纳滤波器计算的。这涉及使用伪参考电平(也称为伪方差)和伪协方差计算后处理增益。在这种情况下，后处理增益是：

其中是y的复共轭，并且g₀(t，f)被计算为：

g₁(t，f)被计算为：

L_Pref(t，f)是伪参考电平，例如，被计算为：

L_Pref(t，f)＝γ×x_i(t，f)²+(1-γ)×L_Pref(t-1，f)；

c_P(t，f)是伪协方差，例如，被计算为：

c_p(t，f)＝γ×x_i(t，f)×x_IB(t，f)+(1-γ)×c_P(t-1，f)；

和h是挤压函数，使得所述后处理增益取0至1之间的值。替代地，后处理增益可以被计算为：

说明书中或随附权利要求书中或附图中公开的以其特定形式或根据用于执行所公开功能的方式或用于获得所公开结果的方法或过程而表达的特征在适当情况下可单独地或以此类特征的任何组合来用于将本发明以其多种形式实现。

虽然已结合上文描述的示例性实施方案描述了本发明，但是当给出本公开时，本领域技术人员将明白许多等效修改和变化。因此，上文阐述的本发明的示例性实施方案被视为说明性的而非限制性的。在不背离本发明的精神和范围的情况下，可以对所描述的实施方案作出各种改变。

为了避免任何疑问，本文提供的任何理论解释都是为了提高读者的理解。本发明人不希望受到这些理论解释中的任一种束缚。

本文所用的任何小节标题仅出于组织性目的且不被解读为限制所描述的主题。

在包括所附权利要求的整个说明书中，除非上下文另外要求，否则词语“包括(comprise)”和“包括(include)”以及变体(诸如“包括(comprises/comprising)”和“包括(including)”)将被理解为隐含包括规定的整数或步骤或整数或步骤组但不排除任何其他整数或步骤或整数或步骤组。

必须注意，除非上下文另有明确指明，否则如在本说明书和所附权利要求书中所用，单数形式“一(a/an)”和“所述”包括复数个提及物。范围在本文中可表达为从“约”一个特定值和/或到“约”另一个特定值。当表示这类范围时，另一个实施方案包括从一个特定值和/或到另一个特定值。类似地，当通过使用先行词“约”将值表述为近似值时，将理解，特定值形成另一个实施方案。与数值有关的术语“约”是可选的并且意指例如+/-10％。

Claims

1.一种处理音频信号的计算机实施的方法，所述方法包括：

从两个或更多个传声器接收相应的音频信号；

确定所述音频信号的波束内分量；以及

对所述接收的音频信号执行后处理，所述后处理包括：

基于所述音频信号计算参考电平；

将所述后处理增益应用于所述波束内分量。

2.根据权利要求1所述的计算机实施的方法，其中确定所述音频信号的波束内分量包括对所述接收的音频信号应用波束形成过程。

3.根据权利要求2所述的计算机实施的方法，其中所述波束形成过程包括将波束内信号估计为来自所述多个传声器中的每一者的时频信号的线性组合。

4.根据权利要求3所述的计算机实施的方法，其中所述线性组合采用以下形式：

x_IB(t，f)＝w₁(f)·x₁(t，f)+w₂(f)·x₂(t，f)+…w_n(f)·x_n(t，f)

其中w_i是复数组合权重。

5.根据权利要求1所述的计算机实施的方法，其中所述两个或更多个传声器中的至少一个传声器是单向传声器，并且所述两个或更多个传声器中的另一个传声器是全向传声器，并且确定所述音频信号的波束内分量包括利用由所述单向传声器作为空间滤波器接收的所述音频信号。

6.根据任一前述权利要求所述的计算机实施的方法，其中所述传声器安装在视频会议端点内。

7.根据任一前述权利要求所述的计算机实施的方法，其中所述参考电平被计算为：

L_ref(t，f)＝γ×|x_i(t，f)|^p+(1-γ)×L_ref(t-1，f)；

其中L_ref(t，f)是所述参考电平，γ是平滑因子，p是正数，并且x_i(t，f)是由所述接收的音频信号的离散傅里叶变换产生的时频分量。

8.根据任一前述权利要求所述的计算机实施的方法，其中所述波束内电平被计算为：

L_IB(t，f)＝γ×|x_IB(t，f)|^p+(1-γ)×L_IB(t-1，f)；

其中L_IB(t，f)是所述波束内电平，γ是平滑因子，p是正数，并且x_IB(t，f)是由所述接收的音频信号的离散傅里叶变换器产生的波束内时频分量。

9.根据任一前述权利要求所述的计算机实施的方法，其中所述后处理增益被计算为：

其中L_ref(t，f)是所述参考电平，L_IB(t，f)是所述波束内电平，h是挤压函数，使得所述后处理增益取0至1之间的值。

10.根据权利要求1至7中任一项所述的计算机实施的方法，其中所述波束内电平用于计算所述音频信号的所述确定的波束内分量与所述接收的音频信号之间的协方差c(t，f)，并且其中所述计算的协方差用于计算所述后处理增益。

11.根据任一前述权利要求所述的计算机实施的方法，其中使用宽线性滤波器计算所述后处理增益。

12.根据权利要求10所述的计算机实施的方法，其中使用伪参考电平和伪协方差来计算所述后处理增益。

13.根据权利要求9至12中任一项所述的计算机实施的方法，其中所述挤压函数利用阈值T，使得

当L_IB(t，f)≤T.L_ref(t，f)时，所述后处理增益被计算为：

其中L_ref(t，f)是所述参考电平，L_IB(t，f)是所述波束内电平，α和β是正实数，否则所述后处理增益被计算为：

g(t，f)＝1。

14.根据任一前述权利要求所述的计算机实施的方法，其中将所述后处理增益应用于所述波束内分量包括将所述后处理增益乘以所述波束内分量。

15.根据任一前述权利要求所述的计算机实施的方法，其中所述方法还包括根据所述多个时频信号中的一者或多者计算公共增益因子并将所述公共增益因子作为所述后处理增益应用于所述其他时频信号中的一者或多者。

16.根据任一前述权利要求所述的计算机实施的方法，其中所述方法包括将来自所述接收的音频信号的样本帧作为输入并将所述帧乘以窗口函数。

17.根据权利要求16所述的计算机实施的方法，其中所述方法还包括通过应用离散傅里叶变换将所述加窗帧变换到频域，所述变换的音频信号包括多个时频信号。

18.根据任一前述权利要求所述的计算机实施的方法，其中确定所述音频信号的波束内分量包括从摄像机接收视野，并将波束内定义为与由所述摄像机覆盖的所述视野相对应的空间区域。

19.一种服务器，所述服务器包括处理器和存储器，所述存储器包含指令，所述指令使所述处理器：

接收多个音频信号；

确定所述音频信号的波束内分量；

以及

对所述接收的音频信号执行后处理，所述后处理包括：

基于所述音频信号计算参考电平；

将所述后处理增益应用于所述波束内分量。

20.根据权利要求19所述的服务器，其中所述存储器包含指令，所述指令使所述处理器执行根据权利要求1-18中任一项所述的方法。

21.一种视频会议端点，其包括：

多个传声器；

摄像机；

处理器；以及

从每个传声器接收相应的音频信号；

确定所述音频信号的波束内分量；以及

对所述接收的音频信号执行后处理，所述后处理包括：

基于所述音频信号计算参考电平；

将所述后处理增益应用于所述波束内分量。

22.根据权利要求21所述的视频会议端点，其中所述处理器被配置为执行根据权利要求1-18中任一项所述的方法。

23.一种包含计算机可执行指令的非暂时性存储介质，所述计算机可执行指令当在处理器上执行时使所述处理器执行根据权利要求1-18中任一项所述的方法。

24.一种计算机，其包含处理器和存储器，其中所述存储器包含机器可执行指令，所述机器可执行指令当在所述处理器上执行时使所述处理器执行根据权利要求1-18中任一项所述的方法。