WO2021103710A1

WO2021103710A1 - 直播音频处理方法、装置、电子设备和存储介质

Info

Publication number: WO2021103710A1
Application number: PCT/CN2020/111873
Authority: WO
Inventors: 张晨; 邢文浩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-11-28
Filing date: 2020-08-27
Publication date: 2021-06-03
Anticipated expiration: 2022-05-28
Also published as: EP4068284A4; EP4068284A1; CN110956969B; CN110956969A; US20220270638A1

Abstract

一种直播音频处理方法、装置、电子设备和存储介质。该方法应用于主播端，包括：获取根据嘉宾音频信号和主播端的背景音频信号进行混合形成的第一音频信号进行回声消除（S204）；根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，检测嘉宾端的语音活动状态（S206）；根据不同的语音活动状态和第一音频信号，对混合音频信号进行回声消除（S208）；将回声消除后的第一音频信号和混合音频信号进行合成并推送至嘉宾端（S210）。采用本方法能够通过使用两路回声消除协同工作，根据嘉宾端的语音活动状态调整对主播端麦克风采集到的声音信号的回声处理方式，使得主播音频信号不被过度的处理，提高了嘉宾端听到的主播声音音质。

Description

直播音频处理方法、装置、电子设备和存储介质

相关申请的交叉引用

本申请要求在2019年11月28日提交中国专利局、申请号为201911191671.X、申请名称为“直播音频处理方法、装置、电子设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及音频处理技术领域，尤其涉及一种直播音频处理方法、装置、电子设备和存储介质。

背景技术

直播伴侣指的是直播平台、直播软件的辅助直播工具。随着直播平台、直播软件的类型越来越多，各种直播伴侣也伴随着出现。直播伴侣可以很好的辅助直播，可提供桌面音效、屏幕捕捉、画质调整、画中画、高清大屏、海量歌库、智能特效、音视频录制等功能，让直播轻松顺畅。

直播伴侣中加入连麦功能可以实现主播与其他嘉宾的连麦，从而将主播端声音信号推送给连麦嘉宾端。有些场景下，若主播端播放背景音乐，还需要将背景音乐一起推送给连麦嘉宾端。当主播端使用麦克风采集主播声音信号和背景音乐时，同时会采集到扬声器外放的连麦嘉宾声音信号，使得连麦嘉宾能够听到自己的声音。因此，在推送过程中需要将主播端麦克风获取的连麦嘉宾声音信号进行回声消除。发明人意识到传统的回声消除方式往往会将主播声音信号过度消除，从而使得连麦嘉宾端听到的主播声音音质较差。

发明内容

本申请提供一种直播音频处理方法、装置、电子设备和存储介质，以至少解决相关技术中连麦嘉宾端听到的主播声音音质较差的问题。本申请实施例的技术方案如下：

根据本申请实施例的第一方面，提供一种直播音频处理方法，应用于主播端，包括：

获取根据嘉宾音频信号和主播端的背景音频信号进行混合形成的第一音频信号；

对第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号；

根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，检测嘉宾端的语音活动状态；

根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号，所述混合音频信号为主播端麦克风采集的第一音频信号和主播音频信号组成的信号；

将处理后的第一音频信号，和处理后的混合音频信号进行合成并推送至嘉宾端。

根据本申请实施例的第二方面，提供一种直播音频处理装置，包括：

第一音频信号获取模块，被配置为执行获取根据嘉宾音频信号和主播端的背景音频信号进行混合后的第一音频信号；

第一回声消除模块，被配置为执行对第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号；

语音活动状态检测模块，被配置为执行根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，检测嘉宾端的语音活动状态；

第二回声消除模块，被配置为执行根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号，所述混合音频信号为主播端麦克风采集的第一音频信号和主播音频信号组成的信号；

第二音频信号合成模块，被配置为执行将处理后的第一音频信号，和处理后的混合音频信号进行合成并推送至嘉宾端。

根据本申请实施例的第三方面，提供一种电子设备，包括：

处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现如上方法的步骤。

根据本申请实施例的第四方面，提供一种存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上方法的步骤。

根据本申请实施例的第五方面，提供一种计算机程序产品，当在数据处理设备上执行时，适于执行如上初始化方法步骤的程序。

本申请通过使用两路回声消除协同工作，根据嘉宾端不同的语音活动状态调整对主播端麦克风采集到的声音信号的回声处理方式，使得主播端的主播音频信号能够不被过度的处理，从而保护了主播音频信号，提高了嘉宾端听到的主播声音音质。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请实施例的原理，并不构成对本申请实施例的不当限定。

图1为一个实施例中直播音频处理方法的应用环境图；

图2为一个实施例中直播音频处理方法的流程示意图；

图3为一个实施例中判断嘉宾端语音活动状态的流程示意图；

图4为一个实施例中当嘉宾端为语音状态时，主播端声音信号的回声消除方式的流程示意图；

图5为一个实施例中直播音频处理方法的流程示意图；

图6为一个实施例中直播音频处理装置的结构框图；

图7为一个实施例中电子设备的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本申请实施例的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例提供的直播音频处理方法，可以应用于如图1所示的应用环境中。该应用环境包括主播端110、服务器120和嘉宾端130。其中，主播端110通过网络与服务器120进行通信，嘉宾端130通过网络与服务器120进行通信。主播端110可以事先安装直播伴侣等应用或者插件，使得主播端110可以通过这些应用或者插件进行娱乐直播或者游戏直播。在直播过程中，直播端110安装的应用或者插件可以根据嘉宾端130的实时语音活动状态，调整对主播端110麦克风采集到的声音信号进行回声消除的方式，使主播端110的音频信号能够不被过度消除，从而保护了主播端110的声音音质。具体地，主播端110将获取的嘉宾音频信号和主播端的背景音频信号进行混合形成第一音频信号。主播端110对第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号。然后，根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，检测嘉宾端的语音活动状态。通过根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号。主播端110将处理后的第一音频信号，和处理后的混合音频信号进行合成并推送至嘉宾端130。其中，主播端110和嘉宾端130可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种直播音频处理方法，以该方法应用于图1中的主播端110为例进行说明，包括以下步骤：

步骤202，获取根据嘉宾音频信号和主播端的背景音频信号进行混合形成的第一音频信号。

其中，嘉宾音频信号可以为嘉宾人声信号。主播端的背景音频信号可以是通过主播端本地播放的背景音乐，例如游戏音乐或者连麦K歌音乐等。具体地，主播端接收到嘉宾音频信号和本地播放的背景音频信号后，可以将嘉宾音频信号和背景音频信号进行混合，形成第一音频信号。

步骤204，对第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号。

具体地，由于通过播放器获取的背景音频信号不能被直接用于推送给嘉宾端，因此，在得到第一音频信号后，可以对第一音频信号进行回声消除，消除第一音频信号中的嘉宾音频信号，得到背景音频信号。在本申请实施例中，可以通过声学回声消除的方式对第一音频信号进行回声消除。

步骤206，根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，检测嘉宾端的语音活动状态。

其中，嘉宾端的语音活动状态的声音状态检测(Voice Activity Detection，VAD)可以是指检测当前嘉宾端是否有语音，例如连麦嘉宾是否在说话。若当前在说话状态，可以认为语音活动状态为语音状态；若当前不在说话状态，可以认为语音活动状态为静音状态。具体地，语音活动状态可以通过门限判别类算法、模型匹配类算法等方式检测得到。以门限判别类算法为例，可以通过检测接收到的一定时长的嘉宾音频帧中的音频能量，判断嘉宾端的语音活动状态。同时，还可以进一步检测一定时长回声消除前的第一音频帧能量(即嘉宾音频信号和主播端的背景音频信号合成的音频)和回声消除后的第一音频帧能量(即回声消除后得到的背景音频信号)，来判断嘉宾端的语音活动状态，从而可以提高判断语音活动状态的准确性。

步骤208，根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号。

所述混合音频信号为主播端麦克风采集的第一音频信号和主播音频信号组成的信号。

具体地，由于主播端麦克风采集声音信号中的回声主要是第一音频信号产生的。第一音频信号中的背景音频信号回声如果消除不彻底可以用内混的背景音频信号掩蔽，因此第一音频信号中的嘉宾音频信号回声是主要需要彻底消除的回声。因此，可以根据嘉宾端的语音活动状态，对麦克风采集的混合音频信号进行不同程度的回声消除。当检测嘉宾端的语音活动状态为不说话或者静音状态时，可以对混合音频信号采用较轻程度的回声消除方式，消除混合音频信号中的第一音频信号，得到主播音频信号；当检测嘉宾端的语音活动状态为说话或者语音状态时，为了完全消除嘉宾音频信号回声，可以对混合音频信号采用强度较强的回声消除方式。

步骤210，将处理后的第一音频信号，和处理后的混合音频信号进行合成并推送至嘉宾端。

具体地，在通过对第一音频信号进行回声消除得到背景音频信号，并通过对主播端麦克风采集的混合音频信号进行回声消除得到主播音频信号后，可以将得到的背景音频信号和主播音频信号进行混音推送至嘉宾端。

上述直播音频处理方法，通过根据嘉宾端不同的语音活动状态，调整对主播端麦克风采集的第一音频信号和主播音频信号组成的混合音频信号进行回声消除的方式，并使用该方式对混合音频信号中的第一音频信号进行回声消除，使得主播端的主播信号能够不被过度的处理，从而保护了主播音频信号，提高了嘉宾端听到的主播声音音质。

在一个实施例中，如图3所示，根据所述嘉宾音频信号、所述第一音频信号和所述处理后的第一音频信号，检测嘉宾端的语音活动状态，包括以下步骤：

步骤302，根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，分别计算得到嘉宾音频能量、第一音频能量和处理后的第一音频能量。

在本申请实施例中，可以使用门限判别类算法检测嘉宾端的语音活动状态。具体地，可以采用以下公式测量一个音频帧的嘉宾音频能量、第一音频能量和处理后的第一音频能量(即回声消除后得到的背景音频能量)：

其中，代表第n个音频帧的能量；L代表音频帧的长度，可以但不限于设定L为20ms；S代表音频信号。

步骤304，当判断嘉宾音频能量小于第一阈值，且处理后的第一音频能量和第一音频能量的比值大于第二阈值时，则检测语音活动状态为静音状态。

具体地，假设测量第n个音频帧的嘉宾音频能量为E1，第一音频能量为 Ein，处理后的第一音频能量为Eout，第一阈值为Th1，第二阈值为Th2。若判断E1＜Th1，可以认为此时嘉宾端处于静音状态。进一步地，继续判断处理后的第一音频能量Eout和第一音频能量Ein的比值Eout/Ein＞Th2，可以认为第一音频信号中的嘉宾音频信号占比很少，即主播端接收到的嘉宾音频信号很少。因此，可以判断此时嘉宾端处于静音状态。

步骤306，当判断嘉宾音频信号能量大于第一阈值，或者处理后的第一音频能量和第一音频能量的比值小于第二阈值时，则检测语音活动状态为语音状态。

具体地，若判断E1＞Th1，可以认为此时嘉宾端处于语音状态。进一步地，继续判断处理后的第一音频能量Eout和第一音频能量Ein的比值Eout/Ein＜Th2，可以认为第一音频信号中的嘉宾音频信号占比较大，即主播端接收到的嘉宾音频信号较多。因此，可以判断此时嘉宾端处于语音状态。在本申请实施例中，第一阈值为Th1可以但不限于是0.001，Th2可以但不限于是0.9。

本申请实施例中，通过根据嘉宾音频能量、主播播放端接收到的消除前和回声消除后的音频能量判断嘉宾端的语音活动状态，可以提高语音活动状态检测的准确性。

在一个实施例中，根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号，包括：当检测语音活动状态为静音状态时，以第一音频信号为参考信号，对混合音频信号进行自适应滤波处理，过滤混合音频信号中的第一音频信号。

具体地，若检测嘉宾端为静音状态，可以认为此时主播端麦克风采集的混合音频信号中没有或者有很少的嘉宾音频信号回声，那么可以使用自适应滤波器对混合音频信号进行一个程度较轻的回声消除。将第一音频信号作为参考信号，通过线性叠加的方式获得麦克风采集到的回声信号的估计值。从麦克风采集到的混合音频信号中减去该回声信号的估计值，就可以实现对混合音频信号进行回声消除，得到主播音频信号。进一步地，若主播端采集的混合音频信号中有很少的嘉宾音频信号回声，由于通过线性叠加的方式获得的回声信号估计值与麦克风采集到的嘉宾音频信号存在偏差，所以通过自适应滤波的方式无法将嘉宾音频信号回声完全消除掉。这种情况下，可以对过滤后的混合音频信号采用一个轻度的非线性处理(Non-linear Process，NLP)，既能彻底消除嘉宾音频信号回声，同时又能保护主播端声音音质。本申请实施例中，当嘉宾端为静音状态时，通过对麦克风采集到的声音信号进行轻量级的回声消除，可以保护主播端音频信号，从而改善嘉宾端听到的主播声音音质。

在一个实施例中，如图4所示，根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号，包括：

步骤402，当检测语音活动状态为语音状态时，以第一音频信号为参考信号，对混合音频信号进行自适应滤波处理，得到过滤后的混合音频信号。

具体地，若检测嘉宾端为语音状态，可以认为此时主播端麦克风采集的混合音频信号中有程度较强的嘉宾音频信号回声，那么可以使用对混合音频信号进行一个程度较强的回声消除。首先，可以将第一音频信号作为参考信号，通过自适应滤波线性叠加的方式获得麦克风采集到的回声信号的估计值。从麦克风采集到的混合音频信号中减去该回声信号的估计值，对混合音频信号进行过滤。

步骤404，对过滤后的混合音频信号进行非线性处理，消除过滤后的混合音频信号中的残余回声信号。

具体地，由于通过线性叠加的方式获得的回声信号估计值与麦克风采集到的嘉宾音频信号存在偏差，所以通过自适应滤波的方式无法将嘉宾音频信号回声完全消除掉，会有残余回声。可以进一步通过对过滤后的混合音频信号进行非线性处理，消除残余回声信号。非线性处理的输入包含两路信号，一路是经过自适应滤波线性处理后的残余回声信号，可以记为err，另一路是自适应滤波估计的回声信号，可以记为echo。将err和echo通过傅里叶FFT变换到频域信号，即，接着，可以计算Err和Echo幅度谱的信噪比Snr(k)。若某个频点k的信噪比Snr(k)较低，可以认为输入的主要是残余回声信号，则Err(k)加权一个低增益；若某个频点k的Snr(k)较高，可以认为输入的主要是主播端音频信号，则Err(k)加权一个高增益。最后，将加权后得到的Err’通过傅里叶反变换到时域，即，输出的err’信号里进一步去除了残余回声。

本申请实施例中，当嘉宾端为语音状态时，通过对麦克风采集到的声音信号进行程度较强的回声消除，可以彻底消除嘉宾音频信号回声的干扰。

在一个实施例中，对第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号，包括：以嘉宾音频信号为参考信号，对第一音频信号进行自适应滤波处理，得到处理后的第一音频信号。

具体地，可以使用自适应滤波器对主播端播放器接收到的第一音频信号进行回声消除。将嘉宾音频信号作为参考信号，可以通过线性叠加的方式获得获取到的回声信号的估计值。从获取到的第一音频信号中减去该回声信号的估计值，就可以实现对第一音频信号进行回声消除，从而分离得到背景音频信号。

在一个实施例中，根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号之后，还包括：将第一音频信号和处理后的混合音频信号进行合成并推送至观众端。

具体地，在直播场景中还包括观众端。可以将处理后的混合音频信号(即回声消除得到的主播音频信号)和第一音频信号(即嘉宾音频信号和主播端的背景音频信号)进行混音，得到推送给观众端的音频信号。这样不仅可以使观众能够同时听到主播音频信号，嘉宾音频信号和主播端的背景音频信号，还可以改善观众听到的声音音质。

在一个实施例中，如图5所示，通过一个具体实施例说明直播音频处理方法，包括以下步骤：

步骤501，获取嘉宾音频信号。

步骤502，获取主播端播放器播放的背景音频信号。

步骤503，将获取的嘉宾音频信号和背景音频信号进行混合形成第一音频信号。

步骤504，使用外放扬声器播放第一音频信号。

步骤505，使用麦克风采集第一音频信号和主播音频信号，得到混合音频信号。

步骤506，对第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号，即背景音频信号。

具体地，以嘉宾音频信号为参考信号，对第一音频信号进行自适应滤波处理，得到处理后的第一音频信号。

步骤507，检测嘉宾端的语音活动状态。根据不同的语音活动状态，调整对麦克风采集的第一音频信号和主播音频信号组成的混合音频信号进行回声消除的方式。

具体地，可以根据嘉宾音频能量、第一音频能量和处理后的第一音频能量，检测嘉宾端的语音活动状态。当判断嘉宾音频能量小于第一阈值，且处理后的第一音频能量和第一音频能量的比值大于第二阈值时，则检测语音活动状态为静音状态；当判断嘉宾音频信号能量大于第一阈值，或者处理后的第一音频能量和第一音频能量的比值小于第二阈值时，则检测语音活动状态为语音状态。

步骤508，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号。

具体地，当检测语音活动状态为静音状态时，以第一音频信号为参考信号，对混合音频信号进行自适应滤波处理，过滤混合音频信号中的第一音频信号。当检测语音活动状态为语音状态时，以第一音频信号为参考信号，对混合音频信号进行自适应滤波处理，得到过滤后的混合音频信号；对过滤后的混合音频信号进行非线性处理，消除过滤后的混合音频信号中的残余回声信号。

步骤509，将处理后的第一音频信号，和处理后的混合音频信号进行合成并推送至所述嘉宾端。

步骤510，将第一音频信号和处理后的混合音频信号进行合成并推送至观众端。

在一个实施例中，如图6所示，提供了一种直播音频处理装置600，包括：第一音频信号获取模块601、第一回声消除模块602、语音活动状态检测模块603、第二回声消除模块604和第二音频信号合成模块605，其中：

第一音频信号获取模块601，被配置为执行获取根据嘉宾音频信号和主播端的背景音频信号进行混合形成的第一音频信号；

第一回声消除模块602，被配置为执行对第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号；

语音活动状态检测模块603，被配置为执行根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，检测嘉宾端的语音活动状态；

第二回声消除模块604，被配置为执行根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号；

第二音频信号合成模块605，被配置为执行将处理后的第一音频信号，和处理后的混合音频信号进行合成并推送至嘉宾端。

在一个实施例中，语音活动状态检测模块603还被配置为执行根据嘉宾音频信号、述第一音频信号和处理后的第一音频信号，分别计算得到嘉宾音频能量，第一音频能量和处理后的第一音频能量；当判断嘉宾音频能量小于第一阈值，且处理后的第一音频能量和第一音频能量的比值大于第二阈值时，则检测语音活动状态为静音状态；当判断嘉宾音频信号能量大于第一阈值，或者处理后的第一音频能量和第一音频能量的比值小于第二阈值时，则检测语音活动状态为语音状态。

在一个实施例中，第二回声消除模块604被配置为执行当检测所述语音活动状态为静音状态时，以所述第一音频信号为参考信号，对所述混合音频信号进行自适应滤波处理，过滤所述混合音频信号中的第一音频信号。

在一个实施例中，第二回声消除模块604被配置为执行当检测语音活动状态为语音状态时，以第一音频信号为参考信号，对混合音频信号进行自适应滤波处理，得到过滤后的混合音频信号；对过滤后的混合音频信号进行非线性处理，消除过滤后的混合音频信号中的残余回声信号。

在一个实施例中，第一回声消除模块602被配置为执行以嘉宾音频信号为参考信号，对第一音频信号进行自适应滤波处理，得到处理后的第一音频信号。

在一个实施例中，直播音频处理装置600还包括第三音频信号合成模块，被配置为执行将第一音频信号和处理后的混合音频信号进行合成并推送至观众端。

在一个实施例中，提供了一种电子设备，该电子设备可以是终端，其内部结构图可以如图7所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和指令。该内存储器为非易失性存储介质中的操作系统和指令的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该指令被处理器执行时以实现一种直播音频处理方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，提供了一种电子设备，包括存储器和处理器，存储器中存储有处理器可执行指令，该处理器执行指令时实现以下步骤：

获取根据嘉宾音频信号和主播端的背景音频信号进行混合形成的第一音频信号；对第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号；根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，检测嘉宾端的语音活动状态；根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号；将处理后的第一音频信号，和处理后的混合音频信号进行合成并推送至嘉宾端。

在一个实施例中，处理器执行指令时还实现以下步骤：

根据嘉宾音频信号、述第一音频信号和处理后的第一音频信号，分别计算得到嘉宾音频能量、第一音频能量和处理后的第一音频能量；当判断嘉宾音频能量小于第一阈值，且处理后的第一音频能量和第一音频能量的比值大于第二阈值时，则检测语音活动状态为静音状态；当判断嘉宾音频信号能量大于第一阈值，或者处理后的第一音频能量和第一音频能量的比值小于第二阈值时，则检测语音活动状态为语音状态。

在一个实施例中，处理器执行指令时还实现以下步骤：

当检测语音活动状态为静音状态时，以第一音频信号为参考信号，对混合音频信号进行自适应滤波处理，过滤混合音频信号中的第一音频信号。

在一个实施例中，处理器执行指令时还实现以下步骤：

当检测语音活动状态为语音状态时，以第一音频信号为参考信号，对混合音频信号进行自适应滤波处理，得到过滤后的混合音频信号；对过滤后的混合音频信号进行非线性处理，消除过滤后的混合音频信号中的残余回声信号。

在一个实施例中，处理器执行指令时还实现以下步骤：

以嘉宾音频信号为参考信号，对第一音频信号进行自适应滤波处理，得到处理后的第一音频信号。

在一个实施例中，处理器执行指令时还实现以下步骤：

将第一音频信号和处理后的混合音频信号进行合成并推送至观众端。

在一个实施例中，提供了一种存储介质，其上存储有处理器可执行指令，指令被处理器执行时实现以下步骤：

在一个实施例中，指令被处理器执行时还实现以下步骤：

在一个实施例中，还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过指令来完成，所述的指令可存储于一非易失性计算机可读取存储介质中，该指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请实施例所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM，Read-Only Memory)、可编程ROM(PROM，Programmable Read-Only Memory)、电可编程ROM(EPROM，Electrically Programmable Read-Only Memory)、电可擦除可编程ROM(EEPROM，Electrically Erasable Programmable read only memory)或闪存。易失性存储器可包括随机存取存储器(RAM，Random Access Memory)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM,Static Random Access Memory)、动态RAM(DRAM，Dynamic Random Access Memory)、同步DRAM(SDRAM，Synchronous Dynamic Random Access Memory)、双数据率SDRAM(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型SDRAM(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步链路(Synchlink)DRAM(SLDRAM，Sync Link Dynamic Random Access Memory)、存储器总线(Rambus)直接RAM(DRDRAM，Direct Rambus Dynamic Random Access Memory)、直接存储器总线动态RAM(DRDRAM，Direct Rambus Dynamic Random Access Memory)、以及存储器总线动态RAM(RDRAM，Rambus Dynamic Random Access Memory)等。

Claims

一种直播音频处理方法，应用于主播端，所述方法包括：

获取根据嘉宾音频信号和所述主播端的背景音频信号进行混合形成的第一音频信号；

根据所述嘉宾音频信号对所述第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的所述第一音频信号；

根据所述嘉宾音频信号、所述第一音频信号和所述处理后的第一音频信号，检测嘉宾端的语音活动状态；

根据不同的所述语音活动状态和所述第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的所述混合音频信号，所述混合音频信号为主播端麦克风采集的第一音频信号和主播音频信号组成的信号；

将处理后的所述第一音频信号和处理后的所述混合音频信号进行合成并推送至所述嘉宾端。
根据权利要求1所述的方法，所述根据所述嘉宾音频信号、所述第一音频信号和处理后的所述第一音频信号，检测嘉宾端的语音活动状态，包括：

根据所述嘉宾音频信号、所述第一音频信号和处理后的所述第一音频信号，分别计算得到嘉宾音频能量、第一音频能量和处理后的第一音频能量；

当判断所述嘉宾音频能量小于第一阈值，且处理后的所述第一音频能量和所述第一音频能量的比值大于第二阈值时，则检测所述语音活动状态为静音状态；

当判断所述嘉宾音频信号能量大于所述第一阈值，或者处理后的所述第一音频能量和所述第一音频能量的比值小于所述第二阈值时，则检测所述语音活动状态为语音状态。
根据权利要求2所述的方法，所述根据不同的所述语音活动状态和所述第一音频信号，对所述混合音频信号中的第一音频信号进行回声消除，得到处理后的所述混合音频信号，包括：

当检测所述语音活动状态为静音状态时，以所述第一音频信号为参考信号，对所述混合音频信号进行自适应滤波处理，过滤所述混合音频信号中的第一音频信号。
根据权利要求2所述的方法，所述根据不同的所述语音活动状态和所述第一音频信号，对所述混合音频信号中的第一音频信号进行回声消除，得到处理后的所述混合音频信号，包括：

当检测所述语音活动状态为语音状态时，以所述第一音频信号为参考信号，对所述混合音频信号进行自适应滤波处理，得到过滤后的混合音频信号；

对过滤后的所述混合音频信号进行非线性处理，消除所述过滤后的混合音频信号中的残余回声信号。
根据权利要求1所述的方法，所述对所述第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号，包括：

以所述嘉宾音频信号为参考信号，对所述第一音频信号进行自适应滤波处理，得到所述处理后的第一音频信号。
根据权利要求1所述的方法，所述根据不同的所述语音活动状态和所述第一音频信号，对所述混合音频信号中的第一音频信号进行回声消除，得到处理后的所述混合音频信号之后，还包括：

将所述第一音频信号和处理后的所述混合音频信号进行合成并推送至观众端。
一种直播音频处理装置，应用于主播端，所述装置包括：

第一音频信号获取模块，被配置为执行获取根据嘉宾音频信号和所述主播端的背景音频信号进行混合形成的第一音频信号；

第一回声消除模块，被配置为执行根据所述嘉宾音频信号对所述第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号；

语音活动状态检测模块，被配置为执行根据所述嘉宾音频信号、所述第一音频信号和所述处理后的第一音频信号，检测嘉宾端的语音活动状态；

第二回声消除模块，被配置为执行根据不同的所述语音活动状态和所述第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号，所述混合音频信号为主播端麦克风采集的第一音频信号和主播音频信号组成的信号；

第二音频信号合成模块，被配置为执行将处理后的所述第一音频信号和处理后的所述混合音频信号进行合成并推送至所述嘉宾端。
根据权利要求7所述的装置，所述语音活动状态检测模块还被配置为执行：

根据所述嘉宾音频信号、所述第一音频信号和处理后的所述第一音频信号，分别计算得到嘉宾音频能量，第一音频能量和处理后的所述第一音频能量；

当判断所述嘉宾音频能量小于第一阈值，且处理后的所述第一音频能量和所述第一音频能量的比值大于第二阈值时，则检测所述语音活动状态为静音状态；

当判断所述嘉宾音频信号能量大于所述第一阈值，或者处理后的所述第一音频能量和所述第一音频能量的比值小于所述第二阈值时，则检测所述语音活动状态为语音状态。
根据权利要求8所述的装置，所述语音活动状态检测模块还被配置为执行：

当检测所述语音活动状态为静音状态时，以所述第一音频信号为参考信号，对所述混合音频信号进行自适应滤波处理，过滤所述混合音频信号中的第一音频信号。
根据权利要求8所述的装置，所述语音活动状态检测模块还被配置为执行：

当检测所述语音活动状态为语音状态时，以所述第一音频信号为参考信号，对所述混合音频信号进行自适应滤波处理，得到过滤后的混合音频信号；

对过滤后的所述混合音频信号进行非线性处理，消除所述过滤后的混合音频信号中的残余回声信号。
根据权利要求7所述的装置，所述第一回声消除模块还被配置为执行：

以所述嘉宾音频信号为参考信号，对所述第一音频信号进行自适应滤波处理，得到所述处理后的第一音频信号。
根据权利要求7所述的装置，所述装置还包括第三音频信号合成模块，被配置为执行：

将所述第一音频信号和所述处理后的混合音频信号进行合成并推送至观众端。
一种电子设备，包括存储器和处理器：

所述存储器用于存储所述处理器可执行指令；

所述处理器被配置为执行所述指令，以实现如下步骤：

获取根据嘉宾音频信号和所述主播端的背景音频信号进行混合形成的第一音频信号；

根据所述嘉宾音频信号对所述第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的所述第一音频信号；

根据所述嘉宾音频信号、所述第一音频信号和所述处理后的第一音频信号，检测嘉宾端的语音活动状态；

根据不同的所述语音活动状态和所述第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的所述混合音频信号，所述混合音频信号为主播端麦克风采集的第一音频信号和主播音频信号组成的信号；

将处理后的所述第一音频信号和处理后的所述混合音频信号进行合成并推送至所述嘉宾端。
根据权利要求13所述的设备，所述根据所述嘉宾音频信号、所述第一音频信号和处理后的所述第一音频信号，检测嘉宾端的语音活动状态，包括：

根据所述嘉宾音频信号、所述第一音频信号和处理后的所述第一音频信号，分别计算得到嘉宾音频能量、第一音频能量和处理后的第一音频能量；

当判断所述嘉宾音频能量小于第一阈值，且处理后的所述第一音频能量和所述第一音频能量的比值大于第二阈值时，则检测所述语音活动状态为静音状态；

当判断所述嘉宾音频信号能量大于所述第一阈值，或者处理后的所述第一音频能量和所述第一音频能量的比值小于所述第二阈值时，则检测所述语音活动状态为语音状态。
根据权利要求14所述的设备，所述根据不同的所述语音活动状态和所述第一音频信号，对所述混合音频信号中的第一音频信号进行回声消除，得到处理后的所述混合音频信号，包括：

当检测所述语音活动状态为静音状态时，以所述第一音频信号为参考信号，对所述混合音频信号进行自适应滤波处理，过滤所述混合音频信号中的第一音频信号。
根据权利要求14所述的设备，所述根据不同的所述语音活动状态和所述第一音频信号，对所述混合音频信号中的第一音频信号进行回声消除，得到处理后的所述混合音频信号，包括：

当检测所述语音活动状态为语音状态时，以所述第一音频信号为参考信号，对所述混合音频信号进行自适应滤波处理，得到过滤后的混合音频信号；

对过滤后的所述混合音频信号进行非线性处理，消除所述过滤后的混合音频信号中的残余回声信号。
根据权利要求13所述的设备，所述对所述第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号，包括：

以所述嘉宾音频信号为参考信号，对所述第一音频信号进行自适应滤波处理，得到所述处理后的第一音频信号。
根据权利要求13所述的设备，所述根据不同的所述语音活动状态和所述第一音频信号，对所述混合音频信号中的第一音频信号进行回声消除，得到处理后的所述混合音频信号之后，还包括：

将所述第一音频信号和处理后的所述混合音频信号进行合成并推送至观众端。
一种计算机可读存储介质，其上承载计算机指令程序，所述计算机指令程序被处理器执行时实现权利要求1～6任一项所述方法的步骤。