CN109448751B

CN109448751B - 一种基于深度学习的双耳语音增强方法

Info

Publication number: CN109448751B
Application number: CN201811646317.7A
Authority: CN
Inventors: 李军锋; 孙兴伟; 夏日升; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2021-03-23
Anticipated expiration: 2038-12-29
Also published as: CN109448751A

Abstract

本发明公开了一种基于深度学习的双耳语音增强方法，包括：对包含待增强目标语音信号的左/右通道带噪语音信号分别进行处理得到左/右频域信号，并对其幅值进行组合得到单通道复数特征，利用左/右通道的频域信号和对应的目标频域信号理论值分别计算出对应的目标语音理想复数掩蔽，将其组合构成目标语音单通道复数掩蔽理论值，并结合单通道复数特征对复数前馈神经网络进行训练得到双耳语音增强模型，利用模型输出的目标语音单通道复数掩蔽估计值分别处理左/右通道带噪语音信号得到左/右通道频域信号，最后得到对应的目标语音时域信号。本方法可以抑制噪声干扰并保持目标声源的空间信息。充分利用深度神经网络的泛化能力，达到双耳语音的增强。

Description

一种基于深度学习的双耳语音增强方法

技术领域

本发明涉及语音增强技术领域，尤其涉及一种基于深度学习的双耳语音增强方法。

背景技术

目前，语音增强技术主要是去除语音信号中背景噪声以及指向性噪声干扰，提高语音的质量和可懂度，从而在语音识别和人耳理解方面取得更好的表现。在以单通道语音为输出的增强技术中，通过利用单通道输入时频域中语音和噪声的不同特性可以抑制背景噪声，利用多通道输入中目标语音和干扰信号的空间信息，可以更好的去除指向性噪声。而在双耳听觉中，人耳可以利用双通道语音中目标与干扰信号的空间信息差异提高对语音的理解度，并可以利用目标声源的空间信息进行定位。在大多数传统的以双通道为输出的语音增强中，大多只考虑了去除干扰，对于目标语音的空间信息保持没有特殊处理，并且对于非平稳的噪声的抑制效果欠佳。

发明内容

本发明的目的在于解决现有技术存在的缺陷。

为达到上述目的，本发明公开了一种基于深度学习的双耳语音增强方法，包括步骤：

对左通道带噪语音信号和右通道带噪语音信号分别进行分帧、加窗和傅里叶变换，得到左通道带噪语音频域信号和右通道带噪语音频域信号；左通道带噪语音信号中包含待增强的左通道目标语音信号，右通道带噪语音信号中包含待增强的右通道目标语音信号；

将左通道带噪语音频域信号和右通道带噪语音频域信号的幅值进行组合得到单通道复数特征；

利用左通道带噪语音频域信号和左通道目标语音频域信号理论值计算得到左通道目标语音理想复数掩蔽；利用右通道带噪语音频域信号和右通道目标语音频域信号理论值计算得到右通道目标语音理想复数掩蔽；

将左通道目标语音理想复数掩蔽和右通道目标语音理想复数掩蔽进行组合构成目标语音单通道复数掩蔽理论值；

使用单通道复数特征和目标语音单通道复数掩蔽理论值对复数前馈神经网络进行训练得到双耳语音增强模型；

将单通道复数特征作为双耳语音增强模型的输入，输出目标语音单通道复数掩蔽估计值，利用目标语音单通道复数掩蔽估计值分别对左通道带噪语音频域信号和右通道带噪语音频域信号进行增强，得到左通道目标语音频域信号估计值和右通道目标语音频域信号估计值；

对左通道目标语音频域信号估计值和右通道目标语音频域信号估计值分别进行逆傅里叶变换，得到左通道目标语音时域信号和右通道目标语音时域信号。

优选地，对左通道带噪语音信号和右通道带噪语音信号进行分帧、加窗和傅里叶变换的步骤，具体为，

对左通道带噪语音信号和右通道带噪语音信号分别进行分帧和加窗处理，取1024个采样点作为一帧信号，若长度不足则先补零到1024点；然后对每一帧信号进行加窗，加窗函数采用汉明窗；最后对每一帧信号进行傅里叶变换。

优选地，单通道复数特征X_C＝|X_L|+j|X_R|，其中，j为复数虚部单位，|X_L|为左通道带噪语音频域信号的幅值，|X_R|为右通道带噪语音频域信号的幅值。

优选地，左通道目标语音理想复数掩蔽为：

其中，j为复数虚部单位，X_L为复数，为左通道带噪语音频域信号，S_L为复数，为左通道目标语音频域信号理论值，r和i表示取复数的实部和虚部；

优选地，右通道目标语音理想复数掩蔽为：

其中，j为复数虚部单位，X_R为复数，为右通道带噪语音频域信号，S_R为复数，为右通道目标语音频域信号理论值，r和i表示取复数的实部和虚部。

优选地，目标语音单通道复数掩蔽理论值M_C＝M_L+jM_R，其中，j为复数虚部单位，M_L为左通道目标语音理想复数掩蔽，M_R为右通道目标语音理想复数掩蔽。

优选地，使用单通道复数特征和目标语音单通道复数掩蔽理论值对复数前馈神经网络进行训练得到双耳语音增强模型的步骤，具体为，

复数前馈神经网络为一个4层的全连接神经网络，网络中每层有1024个隐层复数节点。每个神经元的激活函数使用的是线性修正单元，并且分别作用在复数节点的实部和虚部上，其表达式为f(x)＝max(0，x)。

将单通道复数特征进行前后帧扩展，得到单通道复数扩展特征，并作为复数前馈神经网络的输入，输出目标语音单通道复数掩蔽估计值，将目标语音单通道复数掩蔽理论值作为复数前馈神经网络的训练目标，通过迭代不断使目标语音单通道复数掩蔽估计值与目标语音单通道复数掩蔽理论值的均方误差减小。

优选地，单通道复数掩蔽估计值M_C′＝M_L′+jM_R′，其中，j为复数虚部单位，M_L′为左通道目标语音理想复数掩蔽的估计值，M_R′为右通道目标语音理想复数掩蔽的估计值。

优选地，左通道目标语音频域信号估计值X′_L＝M′_L*X_L，其中，M_L′为左通道目标语音理想复数掩蔽的估计值，X_L为左通道带噪语音频域信号；

优选地，右通道目标语音频域信号估计值X′_R＝M′_R*X_R，其中，M_R′为右通道目标语音理想复数掩蔽的估计值，X_R为右通道带噪语音频域信号。

本发明的优点在于：通过利用左通道和右通道的理想复数掩蔽构造单通道复数掩蔽，并通过复数前馈神经网络对其进行估计，达到对左通道和右通道联合处理的目的，进而在抑制噪声干扰的同时保持目标声源的空间信息。通过在训练数据中包含足够多的噪声类型和方位，可以充分利用深度神经网络的泛化能力，提高模型的鲁棒性，达到双耳语音增强的目的。

附图说明

为了更清楚说明本发明实施例的技术方案，下面将对实施例描述中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种基于深度学习的双耳语音增强方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为一种基于深度学习的双耳语音增强方法的流程图。如图1所示，包括：

步骤S101：对左通道带噪语音信号和右通道带噪语音信号分别进行分帧、加窗和傅里叶变换，得到左通道带噪语音频域信号和右通道带噪语音频域信号。

左通道带噪语音信号中包含待增强的左通道目标语音信号，右通道带噪语音信号中包含待增强的右通道目标语音信号。

在一个具体实施例中，对左通道带噪语音信号和右通道带噪语音信号分别进行分帧和加窗处理，取1024个采样点作为一帧信号，若长度不足则先补零到1024点；然后对每一帧信号进行加窗，加窗函数采用汉明窗；最后对每一帧信号进行傅里叶变换，得到左通道带噪语音频域信号和右通道带噪语音频域信号。

步骤S102：将左通道带噪语音频域信号和右通道带噪语音频域信号的幅值进行组合得到单通道复数特征。

具体地，单通道复数特征X_C＝|X_L|+j|X_R|，其中，j为复数虚部单位，|X_L|为左通道带噪语音频域信号的幅值，|X_R|为右通道带噪语音频域信号的幅值。

步骤S103：利用左通道带噪语音频域信号和左通道目标语音频域信号理论值计算得到左通道目标语音理想复数掩蔽；利用右通道带噪语音频域信号和右通道目标语音频域信号理论值计算得到右通道目标语音理想复数掩蔽。

具体地，左通道目标语音理想复数掩蔽为：

其中，j为复数虚部单位，X_L为复数，为左通道带噪语音频域信号，S_L为复数，为左通道目标语音频域信号理论值，r和i表示取复数的实部和虚部。

右通道目标语音理想复数掩蔽为：

步骤S104：将左通道目标语音理想复数掩蔽和右通道目标语音理想复数掩蔽进行组合构成目标语音单通道复数掩蔽理论值。

具体地，目标语音单通道复数掩蔽理论值M_C＝M_L+jM_R，其中，j为复数虚部单位，M_L为左通道目标语音理想复数掩蔽，M_R为右通道目标语音理想复数掩蔽。

步骤S105：使用单通道复数特征和目标语音单通道复数掩蔽理论值对复数前馈神经网络进行训练得到双耳语音增强模型。

在一个具体实施例中，复数前馈神经网络为一个4层的全连接神经网络，网络中每层有1024个隐层复数节点。每个神经元的激活函数使用的是线性修正单元，并且分别作用在复数节点的实部和虚部上，其表达式为f(x)＝max(0，x)。

步骤S106：将单通道复数特征作为双耳语音增强模型的输入，输出目标语音单通道复数掩蔽估计值，利用目标语音单通道复数掩蔽估计值分别对左通道带噪语音频域信号和右通道带噪语音频域信号进行增强，得到左通道目标语音频域信号估计值和右通道目标语音频域信号估计值。

具体地，单通道复数掩蔽估计值M_C′＝M_L′+jM_R′，其中，j为复数虚部单位，M_L′为左通道目标语音理想复数掩蔽的估计值，M_R′为右通道目标语音理想复数掩蔽的估计值。

左通道目标语音频域信号估计值X′_L＝M′_L*X_L，其中，M_L′为左通道目标语音理想复数掩蔽的估计值，X_L为左通道带噪语音频域信号。

右通道目标语音频域信号估计值X′_R＝M′_R*X_R，其中，M_R′为右通道目标语音理想复数掩蔽的估计值，X_R为右通道带噪语音频域信号。

步骤S107：对左通道目标语音频域信号估计值和右通道目标语音频域信号估计值分别进行逆傅里叶变换，得到左通道目标语音时域信号和右通道目标语音时域信号。

本发明提供了一种基于深度学习的双耳语音增强方法，通过利用左通道和右通道的理想复数掩蔽构造单通道复数掩蔽，并通过复数前馈神经网络对其进行估计，达到对左通道和右通道联合处理的目的，进而在抑制噪声干扰的同时保持目标声源的空间信息。通过在训练数据中包含足够多的噪声类型和方位，可以充分利用深度神经网络的泛化能力，提高模型的鲁棒性，达到双耳语音增强的目的。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的双耳语音增强方法，其特征在于，包括步骤：

对左通道带噪语音信号和右通道带噪语音信号分别进行分帧、加窗和傅里叶变换，得到左通道带噪语音频域信号和右通道带噪语音频域信号；所述左通道带噪语音信号中包含待增强的左通道目标语音信号，所述右通道带噪语音信号中包含待增强的右通道目标语音信号；

将所述左通道带噪语音频域信号和右通道带噪语音频域信号的幅值进行组合得到单通道复数特征；

利用所述左通道带噪语音频域信号和左通道目标语音频域信号理论值计算得到左通道目标语音理想复数掩蔽；利用所述右通道带噪语音频域信号和右通道目标语音频域信号理论值计算得到右通道目标语音理想复数掩蔽；

使用所述单通道复数特征和目标语音单通道复数掩蔽理论值对复数前馈神经网络进行训练得到双耳语音增强模型；

将所述单通道复数特征作为所述双耳语音增强模型的输入，输出目标语音单通道复数掩蔽估计值，利用所述目标语音单通道复数掩蔽估计值分别对左通道带噪语音频域信号和右通道带噪语音频域信号进行增强，得到左通道目标语音频域信号估计值和右通道目标语音频域信号估计值；

对所述左通道目标语音频域信号估计值和右通道目标语音频域信号估计值分别进行逆傅里叶变换，得到左通道目标语音时域信号和右通道目标语音时域信号。

2.根据权利要求1所述的方法，其特征在于，所述对左通道带噪语音信号和右通道带噪语音信号分别进行分帧、加窗和傅里叶变换的步骤，具体为，

对所述左通道带噪语音信号和右通道带噪语音信号分别进行分帧和加窗处理，取1024个采样点作为一帧信号，若长度不足则先补零到1024点；然后对每一帧信号进行加窗，加窗函数采用汉明窗；最后对每一帧信号进行傅里叶变换。

3.根据权利要求1所述的方法，其特征在于，所述单通道复数特征为：

X_C＝|X_L|+j|X_R|

其中，j为复数虚部单位，|X_L|为左通道带噪语音频域信号的幅值，|X_R|为右通道带噪语音频域信号的幅值。

4.根据权利要求1所述的方法，其特征在于，

所述左通道目标语音理想复数掩蔽为：

所述右通道目标语音理想复数掩蔽为：

5.根据权利要求1或4任一权利要求所述的方法，其特征在于，所述目标语音单通道复数掩蔽理论值为：

M_C＝M_L+jM_R

其中，j为复数虚部单位，M_L为左通道目标语音理想复数掩蔽，M_R为右通道目标语音理想复数掩蔽。

6.根据权利要求1所述的方法，其特征在于，所述使用所述单通道复数特征和目标语音单通道复数掩蔽理论值对复数前馈神经网络进行训练得到双耳语音增强模型的步骤，具体为，

所述复数前馈神经网络为一个4层的全连接神经网络，网络中每层有1024个隐层复数节点；每个神经元的激活函数使用的是线性修正单元，并且分别作用在复数节点的实部和虚部上，其表达式为f(x)＝max(0,x)；

将所述单通道复数特征进行前后帧扩展，得到单通道复数扩展特征，并作为所述复数前馈神经网络的输入，输出目标语音单通道复数掩蔽估计值，将目标语音单通道复数掩蔽理论值作为所述复数前馈神经网络的训练目标，通过迭代不断使目标语音单通道复数掩蔽估计值与目标语音单通道复数掩蔽理论值的均方误差减小。

7.根据权利要求1所述的方法，其特征在于，所述单通道复数掩蔽估计值为：

M_C′＝M_L′+jM_R′

其中，j为复数虚部单位，M_L′为左通道目标语音理想复数掩蔽的估计值，M_R′为右通道目标语音理想复数掩蔽的估计值。

8.根据权利要求1或7所述的方法，其特征在于，

所述左通道目标语音频域信号估计值：

X′_L＝M′_L*X_L

其中，M_L′为左通道目标语音理想复数掩蔽的估计值，X_L为左通道带噪语音频域信号；

所述右通道目标语音频域信号估计值：

X′_R＝M′_R*X_R

其中，M_R′为右通道目标语音理想复数掩蔽的估计值，X_R为右通道带噪语音频域信号。