WO2023088142A1

WO2023088142A1 - 音频信号处理方法、装置、设备及存储介质

Info

Publication number: WO2023088142A1
Application number: PCT/CN2022/130728
Authority: WO
Inventors: 王宪亮; 索宏彬
Original assignee: Alibaba Damo Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Hangzhou Technology Co Ltd
Priority date: 2021-11-16
Filing date: 2022-11-08
Publication date: 2023-05-25
Anticipated expiration: 2024-05-16
Also published as: US20240355335A1; EP4375988A1; EP4375988B1; EP4375988A4; CN113808578B; CN113808578A

Abstract

本公开涉及一种音频信号处理方法、装置、设备及存储介质。本公开通过对音频信号进行分段处理得到多个音频分段，根据多个音频分段中每个音频分段的特征信息，对多个音频分段进行聚类处理，得到一个或多个第一集合。进一步，根据每个第一集合包括的音频分段的特征信息，确定每个第一集合的第一聚类中心，并且根据每个第一集合的第一聚类中心，对多个音频分段进行聚类处理，得到一个或多个第二集合，其中，同一个第二集合中的音频分段对应相同的角色标签。也就是说，在对多个音频分段进行初始聚类处理后，还可以根据每个第一集合的第一聚类中心，对多个音频分段进行再次聚类处理，从而提高了基于单通道语音的无监督角色分离的准确性。

Description

音频信号处理方法、装置、设备及存储介质

本申请要求于2021年11月16日提交中国专利局、申请号为202111351380.X、申请名称为“音频信号处理方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及信息技术领域，尤其涉及一种音频信号处理方法、装置、设备及存储介质。

背景技术

随着科技的不断发展，语音识别、角色分离等人工智能(Artificial Intelligence，AI)技术的应用越来越广泛。

当前基于单通道语音的无监督角色分离是会议系统中必备且具有挑战性的技术，并且具有较为广泛的应用需求。

但是，本申请的发明人发现，当前基于单通道语音的无监督角色分离的准确性较低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种音频信号处理方法、装置、设备及存储介质，提高了基于单通道语音的无监督角色分离的准确性。

第一方面，本公开实施例提供一种会议场景中的角色处理方法，包括：

接收会议多角色的音频信号；

对音频信号进行分段处理得到多个音频分段；

根据所述多个音频分段中每个音频分段的特征信息，对所述多个音频分段进行聚类处理，得到一个或多个第一集合；

计算所述第一集合包括的音频分段的特征信息的第一均值；

将所述第一均值作为所述第一集合的第二聚类中心；

根据所述第一集合的第二聚类中心，确定所述第一集合中的一个或多个第二目标分段，所述第二目标分段对应的特征信息与所述第一集合的第二聚类中心之间的相似度大于或等于第二阈值；

计算所述第一集合中的一个或多个第二目标分段所对应的特征信息的第二均值；

将所述第二均值作为所述第一集合的第一聚类中心；

针对所述多个音频分段中的每个音频分段，根据所述音频分段的特征信息、以及每个所述第一集合的第一聚类中心，计算所述音频分段分别与每个所述第一聚类中心之间的距离；

将所述多个音频分段中距离所述第一聚类中心小于或等于第三阈值的音频分段划分到第二集合中；

根据所述第二集合确定所述音频信号中多个发言者的角色信息；

将所述第二集合作为第一集合，重复执行从计算所述第一均值到确定角色信息的过程。

第二方面，本公开实施例提供一种音频信号处理方法，包括：

对音频信号进行分段处理得到多个音频分段；

根据每个所述第一集合包括的音频分段的特征信息，确定每个所述第一集合的第一聚类中心；

根据每个所述第一集合的第一聚类中心，对所述多个音频分段进行聚类处理，得到一个或多个第二集合，其中，同一个第二集合中的音频分段对应相同的角色标签。

第三方面，本公开实施例提供一种音频信号处理装置，包括：

分段模块，用于对音频信号进行分段处理得到多个音频分段；

聚类模块，用于根据所述多个音频分段中每个音频分段的特征信息，对所述多个音频分段进行聚类处理，得到一个或多个第一集合；

确定模块，用于根据每个所述第一集合包括的音频分段的特征信息，确定每个所述第一集合的第一聚类中心；

所述聚类模块还用于：根据每个所述第一集合的第一聚类中心，对所述多个音频分段进行聚类处理，得到一个或多个第二集合，其中，同一个第二集合中的音频分段对应相同的角色标签。

第四方面，本公开实施例提供一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面或第二方面所述的方法。

第五方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面或第二方面所述的方法。

第六方面，本公开实施例提供一种会议系统，所述系统包括终端和服务器；其中，所述终端和所述服务器之间通信连接；

所述终端用于向所述服务器发送会议多角色的音频信号，所述服务器用于执行第二方面所述的方法；或者

所述服务器用于向所述终端发送会议多角色的音频信号，所述终端用于执行第二方面所述的方法。

本公开实施例提供的音频信号处理方法、装置、设备及存储介质，通过对音频信号进行分段处理得到多个音频分段，根据所述多个音频分段中每个音频分段的特征信息，对所述多个音频分段进行聚类处理，得到一个或多个第一集合。进一步，根据每个所述第一集合包括的音频分段的特征信息，确定每个所述第一集合的第一聚类中心，并且根据每个所述第一集合的第一聚类中心，对所述多个音频分段进行聚类处理，得到一个或多个第二集合，其中，同一个第二集合中的音频分段对应相同的角色标签。也就是说，在对多个音频分段进行初始聚类处理后，还可以根据每个第一集合的第一聚类中心，对多个音频分段进行再次聚类处理，从而提高了基于单通道语音的无监督角色分离的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的音频信号处理方法流程图；

图2为本公开实施例提供的应用场景的示意图；

图3为本公开另一实施例提供的音频信号处理方法流程图；

图4为本公开又一实施例提供的音频信号处理方法流程图；

图5为本公开实施例提供的聚类结果的示意图；

图6为本公开另一实施例提供的音频信号处理方法流程图；

图7为本公开另一实施例提供的音频信号处理装置的结构示意图；

图8为本公开实施例提供的电子设备实施例的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

通常情况下，基于单通道语音的无监督角色分离是会议系统中必备且具有挑战性的技术，并且具有较为广泛的应用需求。但是，当前基于单通道语音的无监督角色分离的准确性较低。其中，无监督角色分离具体是指：在实现角色信息未知的情况下，得到语音中的角色数目和每个角色发言的时间信息。

针对该问题，本公开实施例提供了一种音频信号处理方法，下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的音频信号处理方法流程图。本实施例可适用于客户端中进行音频信号处理的情况，该方法可以由音频信号处理装置执行，该装置可以采用软件和/或硬件的方式实现，该装置可配置于电子设备中，例如终端，具体包括智能手机、掌上电脑、平板电脑、带显示屏的可穿戴设备、台式机、笔记本电脑、一体机、智能家居设备等。或者，本实施例可适用于服务端中进行音频信号处理的情况，该方法可以由音频信号处理装置执行，该装置可以采用软件和/或硬件的方式实现，该装置可配置于电子设备中，例如服务器。下面以终端为例介绍该音频信号处理方法。另外，本实施例所述的音频信号处理方法可以适用于单通道语音的无监督角色分离、语音识别、会议系统等应用场景。如图1所示，该方法具体步骤如下：

S101、对音频信号进行分段处理得到多个音频分段。

如图2所示，终端21可以从服务器22获取音频信号。或者，终端21的本地存储有音频信号。再或者，终端21可以通过音频采集模块采集音频信号。具体的，该音频信号可以是单通道语音，进一步，终端21可以对该音频信号进行无监督角色分离。在其他一些实施例中，终端21还可以将其本地或采集到的音频信号发送给服务器22，由服务器22对该音频信号进行无监督角色分离。下面以终端21对该音频信号进行无监督角色分离为例进行介绍。

具体的，终端21可以对音频信号进行分段处理得到多个音频分段。具体的，分段处理可以采用语音边界检(Voice Active Detection，VAD)、贝叶斯信息准则(Bayesian Information Criterion，BIC)等方法。音频分段也可以称作语音片段，分段得到的每个音频分段可以是1-2秒的音频分段。

S102、根据所述多个音频分段中每个音频分段的特征信息，对所述多个音频分段进行聚类处理，得到一个或多个第一集合。

例如，终端21可以采用x-vector、Resnet或其他嵌入式向量表示方法提取每个音频分段的特征信息，该特征信息具体可以是嵌入式向量表示(embedding)特征。其中，x-vector、Resnet分别是基于神经网络模型的嵌入式向量表示方法。进一步，终端21可以根据每个音频分段的embedding特征，计算每两个音频分段之间的相似度。可以理解的是，音频分段A和音频分段B之间的相似度可以是音频分段A的embedding特征和音频分段B的embedding特征之间的相似度。该相似度越大，表示音频分段A的embedding特征和音频分段B的embedding特征之间的距离越小，同时，音频分段A和音频分段B之间的距离越小。

进一步，采用层次聚类算法(Agglomerative Hierarchical Clustering，AHC)对分段处理后得到的多个音频分段进行聚类处理，得到一个或多个第一集合，每个第一集合可以包括一个以上的音频分段。该一个或多个第一集合可以记为初始聚类结果。其中，AHC的聚类方法具体可以是：根据该多个音频分段中每两个音频分段之间的相似度，确定出相似度得分最高的两个音频分段，并将该两个音频分段合并为一个新的音频分段。进一步，计算该新的音频分段和其他音频分段合中每两个音频分段之间的相似度，重复合并过程以及计算相似度的过程，直到达到约束准则为止。例如，当相似度得分低于预先设定的阈值时停止合并，从而得到一个或多个第一集合。可以理解的是，该聚类方法不限于AHC，还可以是其他的聚类算法，例如，k均值聚类算法(k-means clustering algorithm，kmeans)。

S103、根据每个所述第一集合包括的音频分段的特征信息，确定每个所述第一集合的第一聚类中心。

例如，通过上述的聚类方法将分段处理后得到的多个音频分段进行聚类处理后，针对一个或多个第一集合中的每个第一集合，根据该第一集合内包括的一个以上的音频分段分别对应的embedding特征，确定出该第一集合的第一聚类中心。

S104、根据每个所述第一集合的第一聚类中心，对所述多个音频分段进行聚类处理，得到一个或多个第二集合，其中，同一个第二集合中的音频分段对应相同的角色标签。

在确定出每个第一集合的第一聚类中心后，可以根据每个第一集合的第一聚类中心，重新对分段处理后得到的多个音频分段进行聚类处理，得到一个或多个第二集合，并且同一个第二集合中的音频分段对应相同的角色标签。其中，一个或多个第二集合可以记为更新后的聚类结果。该更新后的聚类结果是对初始聚类结果进行更新的结果。

本公开实施例通过对音频信号进行分段处理得到多个音频分段，根据所述多个音频分段中每个音频分段的特征信息，对所述多个音频分段进行聚类处理，得到一个或多个第一集合。进一步，根据每个所述第一集合包括的音频分段的特征信息，确定每个所述第一集合的第一聚类中心，并且根据每个所述第一集合的第一聚类中心，对所述多个音频分段进行聚类处理，得到一个或多个第二集合，其中，同一个第二集合中的音频分段对应相同的角色标签。也就是说，在对多个音频分段进行初始聚类处理后，还可以根据每个第一集合的第一聚类中心，对多个音频分段进行再次聚类处理，从而提高了基于单通道语音的无监督角色分离的准确性。

在上述实施例的基础上，根据每个所述第一集合包括的音频分段的特征信息，确定每个所述第一集合的第一聚类中心，可以有多种实现方式，下面介绍如下几种。

在一种可行的实现方式中，根据每个所述第一集合包括的音频分段的特征信息，确定每个所述第一集合的第一聚类中心，包括：确定所述第一集合中的第一目标分段，所述第一目标分段与所述第一集合中其他音频分段之间的相似度得分之和大于第一阈值；将所述第一目标分段对应的特征信息作为所述第一集合的第一聚类中心。

例如，对多个音频分段进行初始聚类处理后，得到3个第一集合，分别记为第一集合1、第一集合2和第一集合3。每个第一集合包括一个以上的音频分段。例如，第一集合1包括音频分段A、音频分段B和音频分段C。确定第一集合1的第一聚类中心时，可以从音频分段A、音频分段B和音频分段C中确定出一个音频分段作为第一目标分段，第一目标分段可以是代表第一聚类中心的片段。例如，假设将音频分段A作为第一目标分段时，计算音频分段A和音频分段B之间的相似度得分、以及音频分段A和音频分段C之间的相似度得分，并且将这两个相似度得分进行累加，得到相似度得分之和。如果该相似度得分之和大于第一阈值，那么音频分段A可以作为第一目标分段，否则继续遍历寻找第一目标分段。或者，分别计算假设音频分段A作为第一目标分段时的相似度得分之和、假设音频分段B作为第一目标分段时的相似度得分之和、以及假设音频分段C作为第一目标分段时的相似度得分之和。如果假设音频分段A作为第一目标分段时的相似度得分之和最大，那么将音频分段A确定为第一目标分段。其中，假设音频分段B或音频分段C作为第一目标分段时的相似度得分之和的计算过程可以参照假设音频分段A作为第一目标分段时的相似度得分之和的计算过程，此处不再赘述。进一步，将第一目标分段对应的特征信息作为该第一集合的第一聚类中心。可以理解的是，通过这种方式得到的第一目标分段是最能代表第一聚类中心的片段，因此，在这种方式下，执行S104后得到的一个或多个第二集合，相比于S102得到的一个或多个第一集合更精准。

在另一种可行的实现方式中，根据每个所述第一集合包括的音频分段的特征信息，确定每个所述第一集合的第一聚类中心，包括如图3所示的如下几个步骤：

S301、根据所述第一集合包括的音频分段的特征信息，确定所述第一集合的第二聚类中心。

可选的，根据所述第一集合包括的音频分段的特征信息，确定所述第一集合的第二聚类中心，包括：计算所述第一集合包括的音频分段的特征信息的第一均值；将所述第一均值作为所述第一集合的第二聚类中心。

例如，第一集合1包括音频分段A、音频分段B和音频分段C。由于音频分段A、音频分段B和音频分段C分别对应有embedding特征，因此，可以求出音频分段A、音频分段B和音频分段C分别对应的embedding特征的平均值，该平均值记为第一均值。进一步，将该第一均值作为第一集合1的初始聚类中心，该初始聚类中心记为第二聚类中心。

S302、对所述第一集合的第二聚类中心进行更新，得到所述第一集合的第一聚类中心。

例如，可以对第一集合1的初始聚类中心即第二聚类中心进行更新，得到第一集合1更新后的聚类中心，该更新后的聚类中心记为第一聚类中心。

可选的，对所述第一集合的第二聚类中心进行更新，得到所述第一集合的第一聚类中心，包括：根据所述第一集合的第二聚类中心，确定所述第一集合中的一个或多个第二目标分段，所述第二目标分段对应的特征信息与所述第一集合的第二聚类中心之间的相似度大于或等于第二阈值；根据所述第一集合中的一个或多个第二目标分段，确定所述第一集合的第一聚类中心。

例如，根据第一集合1的第二聚类中心，从音频分段A、音频分段B和音频分段C中确定出一个或多个第二目标分段，该一个或多个第二目标分段可以是该第二聚类中心的K近邻片段。也就是说，该一个或多个第二目标分段中的每个第二目标分段的embedding特征与该第二聚类中心之间的相似度大于或等于第二阈值，即每个第二目标分段的 embedding特征与该第二聚类中心之间的距离小于某个阈值。例如，音频分段A、音频分段B分别可以作为第二目标分段。进一步，根据音频分段A和音频分段B可以确定出该第一集合1的第一聚类中心即更新后的聚类中心。

可选的，根据所述第一集合中的一个或多个第二目标分段，确定所述第一集合的第一聚类中心，包括：计算所述第一集合中的一个或多个第二目标分段所对应的特征信息的第二均值；将所述第二均值作为所述第一集合的第一聚类中心。

例如，计算音频分段A的embedding特征和音频分段B的embedding特征的平均值，该平均值记为第二均值，进一步，将该第二均值作为第一集合1的第一聚类中心。可以理解的是，通过S301可以计算出第一集合1的第二聚类中心，该第二聚类中心可以是音频分段A、音频分段B和音频分段C分别对应的embedding特征的平均值。进一步，确定出第二聚类中心的K近邻片段即音频分段A和音频分段B之后，可以将音频分段A的embedding特征和音频分段B的embedding特征的平均值作为第一聚类中心。该第一聚类中心比该第二聚类中心更准确，因此，执行S104后得到的一个或多个第二集合，相比于S102得到的一个或多个第一集合更精准。

图4为本公开另一实施例提供的音频信号处理方法流程图。该方法具体步骤如下：

S401、对音频信号进行分段处理得到多个音频分段。

S402、根据所述多个音频分段中每个音频分段的特征信息，对所述多个音频分段进行聚类处理，得到一个或多个第一集合。

S403、根据每个所述第一集合包括的音频分段的特征信息，确定每个所述第一集合的第一聚类中心。

具体的，S401-S403的实现方式和具体原理与上述实施例所述的相应步骤的实现方式和具体原理一致，此处不再赘述。

S404、针对所述多个音频分段中的每个音频分段，根据所述音频分段的特征信息、以及每个所述第一集合的第一聚类中心，计算所述音频分段分别与每个所述第一聚类中心之间的距离。

例如，执行S401后得到9个音频分段，依次记为音频分段A、音频分段B、音频分段C、音频分段D、音频分段E、音频分段F、音频分段G、音频分段H、音频分段J。执行S402后得到3个第一集合，第一集合1包括音频分段A、音频分段B、音频分段C。第一集合2包括音频分段D、音频分段E、音频分段F。第一集合3包括音频分段G、音频分段H、音频分段J。执行S403后得到第一集合1、第一集合2、第一集合3分别对应的第一聚类中心。该第一聚类中心可以通过如上所述的几种方式得到，此处不再赘述。进一步，针对9个音频分段中的每个音频分段，根据该音频分段的embedding特征，计算该音频分段与第一集合1的第一聚类中心之间的距离、该音频分段与第一集合2的第一聚类中心之间的距离、该音频分段与第一集合3的第一聚类中心之间的距离，由于该3个距离可能是不同的，因此，根据该3个距离，可以确定出该音频分段与哪个第一聚类中心的距离最近。

S405、将所述多个音频分段中距离所述第一聚类中心小于或等于第三阈值的音频分段划分到第二集合中。

例如，通过上述步骤可以确定出该9个音频分段中的每个音频分段分别与哪个第一聚类中心的距离最近。从而可以确定出每个第一聚类中心周围的一个以上的音频分段，从而实现了对9个音频分段进行重新聚类。进一步，将每个第一聚类中心周围的一个以上的音频分段划分到一个第二集合中。例如，第一集合有3个，那么第一聚类中心有3个，每个第一聚类中心可以对应一个第二集合，那么第二集合也对应有3个，每个第二集合中包括的一个以上的音频分段是距离该第一聚类中心最近的音频分段。此处可以认为第二集合中包括的一个以上的音频分段分别与该第一聚类中心之间的距离小于或等于第三阈值。也就是说，第二集合可以是对第一集合内的一个以上的音频分段进行部分或全部调整后的结果。其中，同一个第二集合中的音频分段对应相同的角色标签。

例如图5所示，第一集合1、第一集合2和第一集合3为初始聚类结果。在确定出第一集合1、第一集合2和第一集合3分别对应的第一聚类中心后，确定音频分段C与第一集合2的第一聚类中心之间的距离最近，因此，可以将音频分段C从第一集合1调整到第一集合2中。同理，音频分段F与第一集合3的第一聚类中心之间的距离最近，因此，将音频分段F从第一集合2调整到第一集合3中，从而得到如图5所示的再次聚类结果即每个第一集合所对应的第二集合。

本实施例通过对音频信号进行分段处理得到多个音频分段，根据所述多个音频分段中每个音频分段的特征信息，对所述多个音频分段进行聚类处理，得到一个或多个第一集合。进一步，根据每个所述第一集合包括的音频分段的特征信息，确定每个所述第一集合的第一聚类中心，并且根据每个所述第一集合的第一聚类中心，对所述多个音频分段进行聚类处理，得到一个或多个第二集合，其中，同一个第二集合中的音频分段对应相同的角色标签。也就是说，在对多个音频分段进行初始聚类处理后，还可以根据每个第一集合的第一聚类中心，对多个音频分段进行再次聚类处理，从而提高了基于单通道语音的无监督角色分离的准确性。从而可以有效避免由于聚类中心不准导致的聚类结果错误，例如，将原本同一角色的两个音频分段划分到不同的类中，或者将某个角色的部分音频分段分到另一角色的类中。

图6为本公开另一实施例提供的音频信号处理方法流程图。该方法具体步骤如下：

S601、对音频信号进行分段处理得到多个音频分段。

S602、根据所述多个音频分段中每个音频分段的特征信息，对所述多个音频分段进行聚类处理，得到一个或多个第一集合。

S603、计算所述第一集合包括的音频分段的特征信息的第一均值。

S604、将所述第一均值作为所述第一集合的第二聚类中心。

S605、根据所述第一集合的第二聚类中心，确定所述第一集合中的一个或多个第二目标分段，所述第二目标分段对应的特征信息与所述第一集合的第二聚类中心之间的相似度大于或等于第二阈值。

S606、计算所述第一集合中的一个或多个第二目标分段所对应的特征信息的第二均值。

S607、将所述第二均值作为所述第一集合的第一聚类中心。

S608、针对所述多个音频分段中的每个音频分段，根据所述音频分段的特征信息、以及每个所述第一集合的第一聚类中心，计算所述音频分段分别与每个所述第一聚类中心之间的距离。

S609、将所述多个音频分段中距离所述第一聚类中心小于或等于第三阈值的音频分段划分到第二集合中。

具体的，S601-S609的实现方式和具体原理与上述实施例所述的相应步骤的实现方式和具体原理一致，此处不再赘述。

另外，在本实施例中，执行S609之后，还可以将第二集合作为第一集合，从而重复执行S603-S609。S603-S609的迭代次数可以是预设次数。也就是说，在初始聚类结果的基础上，可以多次迭代更新第二聚类中心和第一聚类中心，以及对各个音频片段重新分配角色标签。在每次迭代过程中，第二聚类中心的K近邻片段即一个或多个第二目标分段是变化的，因此，每次迭代过程中，第一聚类中心可以被更新，并且第一聚类中心可以不断的向真实的聚类中心靠近，从而在很大程度上减少了噪声点对聚类中心的影响，也保证了聚类中心的准确性。通过本公开实施例所述的方法可以将角色分离的准确率由90％提高到94％，效果提升明显。

此外，本公开实施例还提供了一种会议场景中的角色处理方法，该方法包括如下几个步骤：

S701、接收会议多角色的音频信号。

S702、对音频信号进行分段处理得到多个音频分段。

S703、根据所述多个音频分段中每个音频分段的特征信息，对所述多个音频分段进行聚类处理，得到一个或多个第一集合。

S704、计算所述第一集合包括的音频分段的特征信息的第一均值。

S705、将所述第一均值作为所述第一集合的第二聚类中心。

S706、根据所述第一集合的第二聚类中心，确定所述第一集合中的一个或多个第二目标分段，所述第二目标分段对应的特征信息与所述第一集合的第二聚类中心之间的相似度大于或等于第二阈值。

S707、计算所述第一集合中的一个或多个第二目标分段所对应的特征信息的第二均值。

S708、将所述第二均值作为所述第一集合的第一聚类中心。

S709、针对所述多个音频分段中的每个音频分段，根据所述音频分段的特征信息、以及每个所述第一集合的第一聚类中心，计算所述音频分段分别与每个所述第一聚类中心之间的距离。

S710、将所述多个音频分段中距离所述第一聚类中心小于或等于第三阈值的音频分段划分到第二集合中。

S711、根据所述第二集合确定所述音频信号中多个发言者的角色信息。

S712、将所述第二集合作为第一集合，重复执行从计算所述第一均值到确定角色信息的过程。

图7为本公开实施例提供的音频信号处理装置的结构示意图。本公开实施例提供的音频信号处理装置可以执行音频信号处理方法实施例提供的处理流程，如图7所示，音频信号处理装置70包括：

分段模块71，用于对音频信号进行分段处理得到多个音频分段；

聚类模块72，用于根据所述多个音频分段中每个音频分段的特征信息，对所述多个音频分段进行聚类处理，得到一个或多个第一集合；

确定模块73，用于根据每个所述第一集合包括的音频分段的特征信息，确定每个所述第一集合的第一聚类中心；

所述聚类模块71还用于：根据每个所述第一集合的第一聚类中心，对所述多个音频分段进行聚类处理，得到一个或多个第二集合，其中，同一个第二集合中的音频分段对应相同的角色标签。

可选的，确定模块73具体用于：确定所述第一集合中的第一目标分段，所述第一目标分段与所述第一集合中其他音频分段之间的相似度得分之和大于第一阈值；将所述第一目标分段对应的特征信息作为所述第一集合的第一聚类中心。

可选的，确定模块73包括确定单元731和更新单元732，其中，确定单元731用于根据所述第一集合包括的音频分段的特征信息，确定所述第一集合的第二聚类中心；更新单元732用于对所述第一集合的第二聚类中心进行更新，得到所述第一集合的第一聚类中心。

可选的，确定单元731具体用于：计算所述第一集合包括的音频分段的特征信息的第一均值；将所述第一均值作为所述第一集合的第二聚类中心。

可选的，更新单元732具体用于：根据所述第一集合的第二聚类中心，确定所述第一集合中的一个或多个第二目标分段，所述第二目标分段对应的特征信息与所述第一集合的第二聚类中心之间的相似度大于或等于第二阈值；根据所述第一集合中的一个或多个第二目标分段，确定所述第一集合的第一聚类中心。

可选的，更新单元732在根据所述第一集合中的一个或多个第二目标分段，确定所述第一集合的第一聚类中心时，具体用于：计算所述第一集合中的一个或多个第二目标分段所对应的特征信息的第二均值；将所述第二均值作为所述第一集合的第一聚类中心。

可选的，聚类模块72根据每个所述第一集合的第一聚类中心，对所述多个音频分段进行聚类处理，得到一个或多个第二集合时，具体用于：针对所述多个音频分段中的每个音频分段，根据所述音频分段的特征信息、以及每个所述第一集合的第一聚类中心，计算所述音频分段分别与每个所述第一聚类中心之间的距离；将所述多个音频分段中距离所述第一聚类中心小于或等于第三阈值的音频分段划分到第二集合中。

图7所示实施例的音频信号处理装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

以上描述了音频信号处理装置的内部功能和结构，该装置可实现为一种电子设备。图8为本公开实施例提供的电子设备实施例的结构示意图。如图8所示，该电子设备包括存储器81和处理器82。

存储器81，用于存储程序。除上述程序之外，存储器81还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器81可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器82，与存储器81耦合，执行存储器81所存储的程序，以用于：

对音频信号进行分段处理得到多个音频分段；

进一步，如图8所示，电子设备还可以包括：通信组件83、电源组件84、音频组件85、显示器86等其它组件。图8中仅示意性给出部分组件，并不意味着电子设备只包括图8所示组件。

通信组件83被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件83经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件83还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件84，为电子设备的各种组件提供电力。电源组件84可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件85被配置为输出和/或输入音频信号。例如，音频组件85包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器81或经由通信组件83发送。在一些实施例中，音频组件85还包括一个扬声器，用于输出音频信号。

显示器86包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的音频信号处理方法。

此外，本公开实施例还提供一种会议系统，所述系统包括终端和服务器；其中，所述终端和所述服务器之间通信连接；

所述终端用于向所述服务器发送会议多角色的音频信号，所述服务器用于执行上述实施例所述的会议场景中的角色处理方法；或者

所述服务器用于向所述终端发送会议多角色的音频信号，所述终端用于执行上述实施例所述的会议场景中的角色处理方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种会议场景中的角色处理方法，其中，所述方法包括：

接收会议多角色的音频信号；

对音频信号进行分段处理得到多个音频分段；

根据所述多个音频分段中每个音频分段的特征信息，对所述多个音频分段进行聚类处理，得到一个或多个第一集合；

计算所述第一集合包括的音频分段的特征信息的第一均值；

将所述第一均值作为所述第一集合的第二聚类中心；

根据所述第一集合的第二聚类中心，确定所述第一集合中的一个或多个第二目标分段，所述第二目标分段对应的特征信息与所述第一集合的第二聚类中心之间的相似度大于或等于第二阈值；

计算所述第一集合中的一个或多个第二目标分段所对应的特征信息的第二均值；

将所述第二均值作为所述第一集合的第一聚类中心；

针对所述多个音频分段中的每个音频分段，根据所述音频分段的特征信息、以及每个所述第一集合的第一聚类中心，计算所述音频分段分别与每个所述第一聚类中心之间的距离；

将所述多个音频分段中距离所述第一聚类中心小于或等于第三阈值的音频分段划分到第二集合中；

根据所述第二集合确定所述音频信号中多个发言者的角色信息；

将所述第二集合作为第一集合，重复执行从计算所述第一均值到确定角色信息的过程。
一种音频信号处理方法，其中，所述方法包括：

对音频信号进行分段处理得到多个音频分段；

根据所述多个音频分段中每个音频分段的特征信息，对所述多个音频分段进行聚类处理，得到一个或多个第一集合；

根据每个所述第一集合包括的音频分段的特征信息，确定每个所述第一集合的第一聚类中心；

根据每个所述第一集合的第一聚类中心，对所述多个音频分段进行聚类处理，得到一个或多个第二集合，其中，同一个第二集合中的音频分段对应相同的角色标签。
根据权利要求2所述的方法，其中，根据每个所述第一集合包括的音频分段的特征信息，确定每个所述第一集合的第一聚类中心，包括：

确定所述第一集合中的第一目标分段，所述第一目标分段与所述第一集合中其他音频分段之间的相似度得分之和大于第一阈值；

将所述第一目标分段对应的特征信息作为所述第一集合的第一聚类中心。
根据权利要求2所述的方法，其中，根据每个所述第一集合包括的音频分段的特征信息，确定每个所述第一集合的第一聚类中心，包括：

根据所述第一集合包括的音频分段的特征信息，确定所述第一集合的第二聚类中心；

对所述第一集合的第二聚类中心进行更新，得到所述第一集合的第一聚类中心。
根据权利要求4所述的方法，其中，根据所述第一集合包括的音频分段的特征信息，确定所述第一集合的第二聚类中心，包括：

计算所述第一集合包括的音频分段的特征信息的第一均值；

将所述第一均值作为所述第一集合的第二聚类中心。
根据权利要求4所述的方法，其中，对所述第一集合的第二聚类中心进行更新，得到所述第一集合的第一聚类中心，包括：

根据所述第一集合的第二聚类中心，确定所述第一集合中的一个或多个第二目标分段，所述第二目标分段对应的特征信息与所述第一集合的第二聚类中心之间的相似度大于或等于第二阈值；

根据所述第一集合中的一个或多个第二目标分段，确定所述第一集合的第一聚类中心。
根据权利要求6所述的方法，其中，根据所述第一集合中的一个或多个第二目标分段，确定所述第一集合的第一聚类中心，包括：

计算所述第一集合中的一个或多个第二目标分段所对应的特征信息的第二均值；

将所述第二均值作为所述第一集合的第一聚类中心。
根据权利要求2所述的方法，其中，根据每个所述第一集合的第一聚类中心，对所述多个音频分段进行聚类处理，得到一个或多个第二集合，包括：

针对所述多个音频分段中的每个音频分段，根据所述音频分段的特征信息、以及每个所述第一集合的第一聚类中心，计算所述音频分段分别与每个所述第一聚类中心之间的距离；

将所述多个音频分段中距离所述第一聚类中心小于或等于第三阈值的音频分段划分到第二集合中。
一种音频信号处理装置，其中，包括：

分段模块，用于对音频信号进行分段处理得到多个音频分段；

聚类模块，用于根据所述多个音频分段中每个音频分段的特征信息，对所述多个音频分段进行聚类处理，得到一个或多个第一集合；

确定模块，用于根据每个所述第一集合包括的音频分段的特征信息，确定每个所述第一集合的第一聚类中心；

所述聚类模块还用于：根据每个所述第一集合的第一聚类中心，对所述多个音频分段进行聚类处理，得到一个或多个第二集合，其中，同一个第二集合中的音频分段对应相同的角色标签。
一种电子设备，其中，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-8中任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
一种会议系统，其中，所述系统包括终端和服务器；其中，所述终端和所述服务器之间通信连接；

所述终端用于向所述服务器发送会议多角色的音频信号，所述服务器用于执行如权利要求1所述的方法；或者

所述服务器用于向所述终端发送会议多角色的音频信号，所述终端用于执行如权利要求1所述的方法。