CN107025902A

CN107025902A - 数据处理方法及装置

Info

Publication number: CN107025902A
Application number: CN201710318686.2A
Authority: CN
Inventors: 孔令城
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2017-05-08
Filing date: 2017-05-08
Publication date: 2017-08-08
Anticipated expiration: 2037-05-08
Also published as: CN107025902B

Abstract

本发明实施例公开了一种数据处理方法及装置。其中，所述方法包括：采集针对目标歌曲的多个音频数据，并获取各个该音频数据的距离总和，将距离总和最小的音频数据确定为该目标歌曲的指导音频数据，对该指导音频数据进行切分，并获取该指导音频数据的基频信息，根据该基频信息对原始音频数据进行调整，得到调整后的原始音频数据，将该调整后的原始音频数据与该目标歌曲的伴奏数据进行合成，得到关于该原始音频数据的合成音频数据，可自动识别指导音频数据，并可提高关于原始音频数据的合成音频数据的播放效果。

Description

数据处理方法及装置

技术领域

本发明涉及多媒体技术领域，具体涉及一种数据处理方法及装置。

背景技术

唱歌类应用是目前深受用户尤其是年轻用户喜爱与追捧的一类应用，其具备在线练唱或在线语音等多种功能，其中，在线语音功能是指唱歌应用可以将用户原始音频数据(例如，用户说的一段话)转化为用户选择的歌曲的音频数据。现有技术中，一般采用乐器数字接口(Musical Instrument Digital Interface，MIDI)方法或者人工制作方法来实现在线语音功能，由于MIDI方法得到的音频数据中的每个音符均保持一个标准的音高，进而导致音频数据的播放效果产生机械感；而人工制作方法效率比较低。

发明内容

本发明实施例提供一种数据处理方法及装置，可自动识别指导音频数据，并可提高关于原始音频数据的合成音频数据的播放效果。

本发明实施例第一方面提供一种数据处理方法，所述方法包括：

采集针对目标歌曲的多个音频数据，并获取各个所述音频数据的距离总和；

将距离总和最小的音频数据确定为所述目标歌曲的指导音频数据；

对所述指导音频数据进行切分，并获取所述指导音频数据的基频信息；

根据所述基频信息对原始音频数据进行调整，得到调整后的原始音频数据；

将所述调整后的原始音频数据与所述目标歌曲的伴奏数据进行合成，得到关于所述原始音频数据的合成音频数据。

相应的，本发明实施例第二方面还提供一种数据处理装置，所述装置包括：

获取模块，用于采集针对目标歌曲的多个音频数据，并获取各个所述音频数据的距离总和；

确定模块，用于将距离总和最小的音频数据确定为所述目标歌曲的指导音频数据；

所述获取模块，还用于对所述指导音频数据进行切分，并获取所述指导音频数据的基频信息；

调整模块，用于根据所述基频信息对原始音频数据进行调整，得到调整后的原始音频数据；

合成模块，用于将所述调整后的原始音频数据与所述目标歌曲的伴奏数据进行合成，得到关于所述原始音频数据的合成音频数据。

本发明实施例中，从针对目标歌曲的多个音频数据中，选择距离总和最小的音频数据作为指导音频数据，并采用指导音频数据的基频信息对原始音频数据进行调整，将调整后的原始音频数据与该目标歌曲的伴奏进行合成，得到关于原始音频数据的合成音频数据，可自动识别指导音频数据，并可提高关于原始音频数据的合成音频数据的播放效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种数据处理方法的流程示意图；

图2是本发明第二实施例提供的一种数据处理方法的流程示意图；

图3是本发明第三实施例提供的一种数据处理方法的流程示意图；

图4是本发明第一实施例提供的数据处理设备的结构示意图；

图5是本发明第二实施例提供的数据处理装置的结构示意图；

图6是本发明实施例提供的一种歌词文件格式示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种数据处理方法和装置，可自动识别指导音频数据，并可提高关于原始音频数据的合成音频数据的播放效果。以下分别进行详细说明。

请参阅图1，为本发明实施例提供的一种数据处理方法的流程示意图。该方法可以应用于数据处理装置中，本实施例中所描述的方法，包括以下步骤：

S101、数据处理装置采集针对目标歌曲的多个音频数据，并获取各个该音频数据的距离总和。

需要说明的是，数据处理装置可以应用于客户端、唱歌类应用的服务器等，其中，客户端可以为唱歌类应用、可以为安装唱歌类应用的终端设备，该终端设备可以是笔记本电脑、台式电脑、手机、平板电脑、车载终端、智能可穿戴设备等，本发明实施例不做限定。

另外，目标歌曲可以是指用户指定的歌曲，也可以是数据处理装置的数据库中的任意一首歌曲，本发明实施例不做限定。其中，音频数据可以是指用户演唱目标歌曲的清唱数据，即演唱中不包括音乐伴奏部分的演唱数据。

本发明实施例中，用户可以针对目标歌曲进行演唱，从而将演唱版本上传到数据处理装置，数据处理装置从而可以从演唱版本中采集出用户清唱的音频数据，并采集多个用户针对目标歌曲上传的清唱版本，得到目标歌曲的多个音频数据。由于不同用户的演唱水平不同，可能会导致演唱的音频数据的效果不同，同时某个音频数据的距离总和越小，表示该音频数据的演唱效果越好，因而数据处理装置可以根据各个音频数据的距离总和来确定出用户演唱效果较好的音频数据。其中，采集到的音频数据的数量阈值越大，确定出演唱效果较好的音频数据的概率就越高，所以数据处理装置可以在用户针对目标歌曲上传的音频数据的数量达到一个预设数量值时，启动对该目标歌曲的聚类，以获取该目标歌曲的指导音频数据。

作为一种可选的实施例，数据处理装置在执行步骤S101之前，还可以对目标歌曲的音频数据进行处理，具体的，由于用户上传的清唱的音频数据在录制的时候可能会有较大的背景噪声，这些背景噪声对后续的聚类效果会产生很大的影响，所以将噪声过大的音频数据(即噪声能量超过噪声能量阈值的音频数据)过滤掉，步骤如下：

请一并参阅图6，为本发明实施例提供的一种歌词文件格式示意图。从图6中的歌词可以看出，正式歌词中每行就是连续演唱的一句话，在歌词开始就标识了这句话在目标歌曲中的起始毫秒数与持续毫秒数，如第三句是从第7.34秒到10.1秒结束，持续了2.76秒，而第三句话与第四句话(在第10.1秒到10.55秒)之间是一段纯伴奏，理论上在目标歌曲的伴奏阶段用户是不会演唱的，那么清唱音频数据中对应的伴奏阶段的能量会很低，如果能量较高的话，即表明该音频数据存在噪声，从而需要从获取的音频数据集合中过滤掉这些在伴奏阶段噪声能量较大超过噪声能量阈值的音频数据。

具体的，数据处理装置首先会获取每个伴奏阶段在目标歌曲中的起止时间，然后根据起止时间对应获取音频数据中这段时间所对应的能量。

进一步的，数据处理装置判断音频数据中伴奏阶段的能量是否超过噪声能量阈值的具体方式为：从该音频数据中确定出所有伴奏阶段对应的采样点，然后获取每个采样点对应的能量，记为x_e，e∈[1,g]，g为采样点的数量，为正整数，从而计算出该音频数据伴奏部分的平均能量，得到该音频数据的噪声能量，记为u，即：

当u大于噪声能量阈值时，表明该音频数据的噪声过大，从而将该音频数据剔除。

数据处理装置对每个音频数据进行上述处理，将噪声能量大于噪声能量阈值的音频数据剔除，最终得到该目标歌曲的多个音频数据。

作为一种可选的实施例，数据处理装置获取各个该音频数据的距离总和的具体方式可以为：

提取针对该目标歌曲的多个音频数据中每个音频数据的基频序列。

针对该多个音频数据中的每个音频数据，根据该基频序列计算每两个音频数据之间的距离。

根据该每两个音频数据之间的距离，计算各个所述音频数据的距离总和。

本发明实施例中，由于基频序列中的基频点对应的基频值可以体现某个音频数据中音符的音高，同时音高可以体现该音频数据的演唱效果，因而可以根据各个音频数据的基频序列来选择出演唱效果较好音频数据。其中，基频点对应的基频值即该基频点的基音，基音决定了音符的音高。具体的，针对该多个音频数据中的每个音频数据，数据处理装置可以提取该音频数据的基频序列，根据每两个音频数据的基频序列计算这两个音频数据之间的距离，根据该每两个音频数据之间的距离，计算各个该音频数据的距离总和。

具体实现中，数据处理装置可以针对该目标歌曲的多个音频数据的格式调整为统一的格式，如16k16bit格式，并针对每个音频数据，按照指定的帧移和帧长提取基频点，以得到每个音频数据的基频集合，基频集合包括多个基频点。其中，指定的帧移可以是10ms，指定的帧长可以为30ms，本发明实施例不做限定。

进一步，由于用户在发声时声带震动产生的频率经过声道过滤后会产生大量泛音，因而每个音频数据的基频集合中可能包括泛音的基频点，为了便于后续操作，数据处理装置需要从基频集合中提取出直接表现声带震动频率的基频序列。其中，数据处理装置可以对某个基频集合中的基频点进行去噪处理以及去差异化处理，从而得到该音频数据的基频序列。

可以理解的是：对基频集合中的基频点进行去噪处理的具体方式为：将音频数据对应的伴奏部分的基频点进行奇异基频点置零，即，对于伴奏部分的基频段中，根据与前后基频点的基频值的差异检测出奇异基频点，并将奇异基频点置零；将音频数据对应的非伴奏部分的基频点进行中值滤波，例如，如果非伴奏部分的基频段的长度小于指定数量的帧，如35帧，可以直接将中值滤波的窗口长度设置为该基频段的长度，从而进行中值滤波，如果非伴奏部分的基频段的长度大于或等于指定帧数，可以对每帧数据做10点中值滤波。通过这种方式可以去除音频数据中的噪声频点。

可以理解的是：对基频集合中的基频点进行去差异化处理的具体方式为：如果前后两个不为零的基频段中存在零基频段，且零基频段小于指定数量的帧，如15帧，数据处理装置可以将零基频段的基频值都设置为零基频段的前一个基频段中最后一帧对应的基频值。也就是说，不同的用户在唱歌过程中可能换气的时间不同，而换气过程中基频点的基频值可能为零，这样在后续计算两基频序列的距离的过程中，可能会将换气过程中的误差计入进去，而这换气过程中存在的误差是影响音频数据音准的因素之一，因此，将这换气部分的误差去除，有利于数据处理装置筛选出的演唱效果较好的音频数据。

更进一步的，数据处理装置可以针对该多个音频数据中的每个音频数据，根据该基频序列计算每两个音频数据之间的距离。具体的，针对该多个音频数据中的每个音频数据，计算第一音频数据的第一基频序列中第一基频点与第二音频数据的第二基频序列中第二基频点之间的距离，并根据第一基频点与第二基频点之间的距离获取第一基频序列与第二基频序列之间的距离，进而得到每两个音频数据之间的距离。

其中，第一音频数据为该多个音频数据中的任一音频数据，第二音频数据为该多个音频数据中除第一音频数据以外的任一音频数据，第一基频点为第一基频序列中任一基频点，第二基频点为第二基频序列中与第一基频点在第一基频序列的位置相同的基频点。

可理解的是：数据处理装置根据第一基频点与第二基频点之间的距离获取第一基频序列与第二基频序列之间的距离的具体方式为：从第一基频序列中获取第一基频点，并从第二基频序列中获取第二基频点，计算两个基频点的基频值的差值，根据每两个基频点的基频差值的总和计算第一基频序列与第二基频序列之间的距离。其中，第一基频点与第二基频点为在基频序列中位置相同的基频点，如第一基频点为第一基频序列中的第三个基频点，第二基频点同样也为第二基频序列中的第三个基频点。通过这种方式分别计算两个基频序列中每个基频点之间的差值，从而得到两个基频序列的距离，可以L_ij用表示。

其中，y_it为基频序列第i个基频序列中第t个基频点的基频值，y_jt为基频序列第j个基频序列中第t个基频点的基频值，h为基频序列中基频点的个数，L_ij表示第i个基频序列与第j个基频序列之间的距离。i∈[1,n]，j∈[1,n]，i≠j，n为音频数据的个数。

可理解的是，数据处理装置可以将第一基频序列与第二基频序列之间的距离作为第一音频数据与第二音频数据之间的距离。在获取到该音频数据中每两个音频数据之间的距离后，针对每个音频数据，数据处理装置可以将该音频数据分别与其他音频数据的距离相加，得到该音频数据的距离总和，即

其中，S_i表示第i个音频数据的距离总和。

通过这种方式，可以得到各个音频数据的距离和。

需要说明的是，计算两个音频数据的基频序列的距离，即为确定两个音频数据的音准的差距的操作。

S102、数据处理装置将距离总和最小的音频数据确定为该目标歌曲的指导音频数据。

本发明实施例中，如果某个音频数据的音准在该多个音频数据中是最好的，那么该音频数据与其他音频数据之间的距离的总和应该是最小的，数据处理装置可以将距离总和最小的音频数据确定为该目标歌曲的指导音频数据，以便数据处理装置可以参考该指导音频数据将用户的原始音频数据转化为关于该原始音频数据的合成音频数据。

举例来说，某一歌曲的原唱的基频序列为(1，3，3，2)，用户上传的音频数据有A、B、C三个，其基频序列依次为(1，2，3，2)、(2，2，3，2)以及(1，3，2，3)，那么A与B的距离为1，A与C的距离为3，B与C的距离为4，因此，A的距离和为4，B的距离和为5，C的距离和为7。从而可以看出A更加接近于原唱，也就是说音频数据A的音准是音频数据A、B、C中最好的。

S103、数据处理装置对该指导音频数据进行切分，并获取该指导音频数据的基频信息。

本发明实施中，数据处理装置可以根据演唱该指导音频数据的时间信息或者该指导音频数据的歌词信息等信息对该指导音频数据进行切分，并在切分后的指导音频数据中获取该指导音频数据的基频信息，该基频信息可以包括指导音频数据的频率或帧长等信息，以便可以采用该指导音频数据的基频信息对原始音频数据进行调整。

作为一种可选的实施例，步骤S103可以通过以下步骤实现：对该指导音频数据进行切分，得到多个单元数据；提取该多个单元数据中的每个单元数据的基频信息，并将提取得到的基频信息进行合成得到该指导音频数据的基频信息。

本发明实施例中，数据处理装置可以对该指导音频数据的进行格式调整(如调整为16k16bit格式)，可以根据演唱该指导音频数据的时间信息或者该指导音频数据的歌词信息等信息对该指导音频数据进行切分，得到多个单元数据，并针对该多个单元数据中的每个单元数据，可以按照预设的帧信息(例如，帧移5ms，帧长30ms)提取该每个单元数据的基频信息，将提取得到的基频信息进行合成得到该指导音频数据的基频信息。

S104、数据处理装置可以根据该基频信息对原始音频数据进行调整，得到调整后的原始音频数据。

本发明实施例中，数据处理装置可以根据该基频信息包含的频率或帧长等信息对原始音频数据进行调整，得到调整后的原始音频数据，以使调整后的原始音频数据的频率或帧长与该指导音频数据的频率或帧长相等。

S105、数据处理装置将该调整后的原始音频数据与该目标歌曲的伴奏数据进行合成，得到关于该原始音频数据的合成音频数据。

本实施例中，数据处理装置对该原始音频数据的帧长及频率进行调整后，得到的调整后的原始音频数据为该目标歌曲的清唱数据，为了使关于该原始音频数据的合成音频数据的演唱效果更好，该数据处理装置可以将该调整后的原始音频数据与该目标歌曲的伴奏数据进行合成，得到关于该原始音频数据的合成音频数据。

可见，在图1所描述的方法中，数据处理装置可以从针对目标歌曲的多个音频数据中选择距离总和最小(音准最好)的音频数据作为指导音频数据，对该指导音频数据进行切分，并获取该指导音频数据的基频信息，根据该基频信息对需要处理的原始音频数据进行调整，将调整后的原始音频数据与该目标歌曲的伴奏数据进行合成，得到关于该原始音频数据的合成音频数据，可自动识别指导音频数据，并可提高关于原始音频数据的合成音频数据的播放效果。

请参阅图2，为本发明实施例提供的另一种数据处理方法的流程示意图。本实施例中所描述的方法，包括以下步骤：

S201、数据处理装置采集针对目标歌曲的多个音频数据，并获取各个该音频数据的距离总和。

S202、数据处理装置将距离总和最小的音频数据确定为该目标歌曲的指导音频数据。

S203、数据处理装置对该指导音频数据进行切分，并获取该指导音频数据的基频信息。

其中，该基频信息包括该指导音频数据的第一单元数据的帧长和位于第一帧的第一单元数据的频率。该第一单元数据为该指导音频数据的任一单元数据，该第一帧为该第一单元数据的任一帧数据。

需要说明的是，第一单元数据可以是指导音频数据对应歌词中的一个字或者一个词语，本发明实施例不做限定。

举例来说，数据处理装置可以将该指导音频数据的格式调整为预设格式，如，16k16bit，采用人工切分的方式或者已经训练好切分模型对该指导音频数据进行切分处理，得到该指导音频数据段的第一单元数据的时间信息，将该时间信息作为第一单元数据的帧长，如，某一歌曲的歌词为“只剩下钢琴”，对该歌曲的某个音频数据进行切分处理，得到该音频数据中的“只”的起始时间为25570ms，持续时间为360ms，则该音频数据中“只”的帧长为360ms；“剩”的起始时间为25930，持续时间为370，则该音频数据中“剩”的帧长为370ms；“下”的起始时间为26300，持续时间为100，则该音频数据中“下”的帧长为100ms；“钢”的起始时间为26790，持续时间为390，则该音频数据中“钢”的帧长为390ms；“琴”的起始时间为27180，持续时间为420，则该音频数据中“琴”的帧长为420ms。

进一步，基频序列中的基频点对应的基频值可以体现某个音频数据中音符的音高，即基频序列中的基频点对应的基频值可以体现声带振动的频率，所以可以通过位于第一帧的第一单元数据的基频序列来获取该第一帧的频率。

S204、数据处理装置将原始音频数据中的第二单元数据的帧长调整为该指导音频数据中的第一单元数据的帧长，该第二单元数据为该原始音频数据中与该第一单元数据在该指导音频数据中的位置相同的单元数据。

本发明实施例中，数据处理装置为了将原始音频数据转化为关于该原始音频数据的合成音频数据，数据处理装置可以该原始音频数据中的第二单元数据的帧长调整为该指导音频数据中的第一单元数据的帧长，以使原始音频数据中每个单元数据与该指导音频数据的对应单元数据的长度进行对齐。其中，该第二单元数据为该原始音频数据中与该第一单元数据在该指导音频数据中的位置相同的单元数据。

需要说明的是，原始音频数据可以是用户说的一段话进行格式处理后的音频数据，也可以是用户针对该目标歌曲上传的音频数据。第二单元数据可以是原始音频数据对应的歌词中一个字或者一个词语，本发明实施例不做限定。

举例来说，某个歌曲的音频数据中的第三数据单元的帧长为20ms，而需要处理的原始音频数据中的第三个数据单元的帧长为15ms，数据处理装置需要将该原始音频数据中的第三个数据单元进行拉伸处理，以使该原始音频数据中的第三单元数据的帧长也为20ms。

S205、数据处理装置根据该第一单元数据中位于第一帧的单元数据的频率，对该第二单元数据中位于第二帧的第二单元数据的频率进行调整，得到调整后的位于第二帧的第二单元数据，该第二帧为所述第二单元数据中与该第第一帧在该第一单元数据中的位置相同的帧。

本发明实施例中，由于音频数据的频率决定该音频数据的音高，为了将该原始音频数据的音高调整为该指导音频数据的音高，数据处理装置可以对根据该指导音频数据的频率对该原始音频数据的频率进行调整。具体的，数据处理装置可以根据该第一单元数据中位于第一帧的单元数据的频率，对该第二单元数据中位于第二帧的第二单元数据的频率进行调整，得到调整后的位于第二帧的第二单元数据。

作为一种可选的实施例，上述根据该第一单元数据中位于第一帧的单元数据的频率，对该第二单元数据中位于第二帧的第二单元数据的频率进行调整，得到调整后的位于第二帧的第二单元数据的具体方式包括：

根据该第一单元数据中位于第一帧的第一单元数据的频率将该第二单元数据中位于第二帧的第二单元数据划分为多个时间周期，该第二帧为第二单元数据中与所述该第一帧在该第一单元数据中的位置相同的帧。

根据位于该第一帧的第一时间周期的单元数据的能量，对该位于该第二帧的第二时间周期的单元数据的能量进行调整，得到调整后的位于第二时间周期的单元数据，该第二时间周期为该第二帧中的任一时间周期，该第一时间周期为该第一帧中与该第二时间周期在该第二帧中的位置相同的时间周期。

将位于该第二帧中调整后的各个时间周期的单元数据进行合成，得到调整后的位于第二帧的第二单元数据。

可理解的是，数据处理装置根据该第一单元数据中位于第一帧的第一单元数据的频率将该第二单元数据中位于第二帧的第二单元数据划分为多个时间周期的具体方式包括：可以根据位于第一帧的第一单元数据的频率将位于第二帧的第二单元数据划分为多个时间周期，例如，位于第一帧的第一单元数据的频率为440Hz，数据处理装置可以将该第二单元数据中位于第二帧的第二单元数据划分为440个时间周期。

可理解的是，数据处理装置根据位于该第一帧的第一时间周期的单元数据的能量，对该位于该第二帧的第二时间周期的单元数据的能量进行调整，得到调整后的位于第二时间周期的单元数据的具体方式包括：

对位于该第二帧中的第二时间周期的单元数据进行采样处理，得到多个采样点。

以能量最大的采样点为中心，从该第二时间周期中获取满足指定长度的目标单元数据，该指定长度是根据位于该第一帧的单元数据的频率确定的。

通过预设压缩算法对该目标单元数据的能量进行处理，得到压缩后的目标单元数据。

将该压缩后的目标单元数据的能量与位于该第一帧中第一时间周期的单元数据的能量的进行相加，得到能量总和。

将位于该第二帧中第二时间周期的单元数据的能量调整为该能量总和，得到调整后的位于第二时间周期的单元数据。

具体实现中，数据处理装置可以对位于所述第二帧中的第二时间周期的单元数据进行采样处理，得到多个采样点。由于该第二周期中的单元数据并不是所有采样点都是有用数据，例如，采样点中可能包括噪音部分和静音部分等，这种情况下的采样点的能量往往比较底，因而数据处理装置可以以能量最大的采样点为中心，从该第二时间周期中获取满足指定长度的目标单元数据，该指定长度可以是根据位于该第一帧的单元数据的频率确定的。

进一步，为了使得到的关于原始音频数据的合成音频数据更加平滑，数据处理装置可以通过预设压缩算法对该目标单元数据的能量进行处理，得到压缩后的目标单元数据，并可以将该压缩后的目标单元数据的能量与位于该第一帧中第一时间周期的单元数据的能量的进行相加，得到能量总和，将位于该第二帧中第二时间周期的单元数据的能量调整为该能量总和，得到调整后的位于第二时间周期的单元数据。

其中，预设压缩算法可以是各种加窗算法，如，加矩形窗、三角窗、海明窗或高斯窗等算法，该预设压缩算法还可以是Huffman压缩算法等。

举例来说，数据处理装置可以对位于所述第二帧中的第二时间周期的单元数据进行采样处理，得到多个采样点，该第一帧的频率为f，第二时间周期的时间周期为d，数据处理装置可以在第二时间周期中以能量最大的采样点为中心获取长度为1/f的单元数据k_i,其中i表示获取的第i个采样点，i∈[1，m]，m表示在第二时间周期中获取的采样点的个数。并通过加三角窗的方式对该单元数据k_i的能量进行压缩处理，得到压缩后的单元数据r_i＝k_i*0.5*(1-cos^2πi/m)，将该压缩后的单元数据的能量与位于该第一帧中第一时间周期的单元数据的能量的进行相加，得到能量总和，并将位于该第二帧中第二时间周期的单元数据的能量调整为该能量总和，以使得到调整后的位于第二时间周期的单元数据的频率与第一帧的单元数据的频率相同。

可理解的是，数据处理装置将位于该第二帧中调整后的各个时间周期的单元数据进行合成，得到调整后的位于第二帧的第二单元数据的具体方式包括：由于每帧单元数据包括多个时间周期，在对每个时间周期进行处理后，数据处理装置可以将位于该第二帧中调整后的各个时间周期的单元数据进行合成，得到调整后的位于第二帧的第二单元数据。即将调整后的各个时间周期的单元数据的顺序按照未调整的各个时间周期的顺序进行排列，得到调整后的位于第二帧的第二单元数据。

S206、数据处理装置将该原始音频数据中各个调整后的单元数据进行合成，得到该调整后的原始音频数据。

本发明实施例中，数据处理装置可以按照调整前演唱该原始音频数据的各个单元数据的时间先后顺序对调整后的单元数据进行合成，得到该调整后的原始音频数据。

S207、数据处理装置将该调整后的原始音频数据与该目标歌曲的伴奏数据进行合成，得到关于该原始音频数据的合成音频数据。

需要说明的是，步骤S201～S202的说明可以参考第一实施例中的步骤S101～S102，步骤S207的说明可以参考第一实施例中的步骤S105，本发明实施例在此不再赘述。

可见，在图2所描述的方法中，数据处理装置可以从针对目标歌曲的多个音频数据中选择距离总和最小(音准最好)的音频数据作为指导音频数据，并根据指导音频数据的帧长及频率对需要处理的原始音频数据的帧长及频率进行调整，可以得到关于该原始音频数据的合成音频数据，可自动识别指导音频数据，并可提高关于原始音频数据的合成音频数据的播放效果。

请参阅图3，为本发明实施例提供的再一种数据处理方法的流程示意图。本实施例中所描述的方法，包括以下步骤：

S301、数据处理装置采集针对目标歌曲的多个音频数据，并获取各个该音频数据的距离总和。

S302、数据处理装置在该多个音频数据中获取距离总和最小的第一音频数据，以及距离总和较小的至少一个第二音频数据。

本发明实施例中，数据处理装置可以在该多个音频数据中获取距离总和最小的第一音频数据，以及距离总和较小的至少一个第二音频数据。其中，第二音频数据可以是该多个音频数据中距离总和较小的至少一个音频数据，第二音频数据也可以是该多个音频数据中距离总和最小的至少一个音频数据，该第二音频数据的个数可以根据该多个音频数据的数量确定，也可以是用户手动设置，本发明实施例中不做限定。

S303、数据处理装置根据该第一音频数据的距离总和，以及各个该第二音频数据的距离总和，计算该第一音频数据的可用度。

本发明实施例中，由于该用户针对该目标歌曲的上传的多个音频数据中，可能距离总和最小的音频数据的音准仍较差，因而数据处理装置可以进一步根据该距离总和最小的音频数据的可用度来判断该距离总和最小的音频数据是否可用。具体的，数据处理装置可以根据该第一音频数据的距离总和，以及各个该第二音频数据的距离总和，计算该第一音频数据的可用度。

作为一种可选的实施例，数据处理装置根据该第一音频数据的距离总和，以及各个该第二音频数据的距离总和，计算该第一音频数据的可用度的具体方式可以为：

将各个该第二音频数据的距离总和相加，得到相加距离值。

将所述第一音频数据的距离总和除以该相加距离值，得到该第一音频数据的可用度。

本发明实施例中，数据处理装置可以将各个该第二音频数据的距离总和相加，得到相加距离值，并可以将该第一音频数据的距离总和除以该相加距离值，得到该第一音频数据的可用度，用f表示。

其中，S1表示第一音频数据的距离总和，S2表示各个该第二音频数据的距离总和相加得到相加距离值。

需要说明的是，可用度用于表示距离总和较小的至少一个第二音频数据音准的稳定程度，其值越大，越稳定，即说明距离总和最小的第一音频数据与各个第二音频数据之间的差距越小，第一音频数据作为音准效果较好的音频数据的力度也就越大，从而可以将第一音频数据作为合成关于原始音频数据的合成音频数据的指导音频数据。

S304、数据处理装置在该第一音频数据的可用度大于预设比例阈值时，将该第一音频数据确定为该目标歌曲的指导音频数据。

本发明实施例中，数据处理装置可以预先设定可用度门限，即预设比例阈值，当数据处理装置计算出第一音频数据的可用度后，会判断该可用度是否超过预设比例阈值，如果超过，则说明第一音频数据与各个第二音频数据之间的差距较小，第一音频数据的音准较好，将其作为指导音频数据比较可行，如果没有超过，则不将其作为指导音频数据，只有在下次聚类时再筛选音准较好的音频数据作为指导音频数据。

也即是说，第一音频数据是该多个音频数据中音准较好的音频数据，如果该多个音频数据的音准普遍都比较差，这样第一音频数据作为指导音频数据的力度就不够大，如果该多个音频数据的音准普遍都比较好，将第一音频数据作为指导音频数据的力度就大。

S305、数据处理装置对该指导音频数据进行切分，并获取该指导音频数据的基频信息。

S306、数据处理装置根据该基频信息对原始音频数据进行调整，得到调整后的原始音频数据。

S307、数据处理装置将该调整后的原始音频数据与该目标歌曲的伴奏数据进行合成，得到关于该原始音频数据的合成音频数据。

需要说明的是，步骤S301的说明可以参考第一实施例中的步骤S101的说明，步骤S305～S307的说明可以参考第一实施例中的步骤S103～S105的说明，本发明实施例在此不再赘述。

可见，在图3所描述的方法中，数据处理装置可以从针对目标歌曲的多个音频数据中选择距离总和最小的第一音频数据，并确定出距离总和较小的至少一个第二音频数据，根据第一音频数据的距离总和及各个第二音频数据的距离总和计算第一音频数据的可用度，在第一音频数据的可用度大于预设比例阈值时，可以将第一音频数据作为指导音频数据，对该指导音频数据进行切分，并获取该指导音频数据的基频信息，根据指导音频数据的基频信息对需要处理的原始音频数据进行调整，将调整后的原始音频数据与该歌曲的伴奏数据进行合成，得到关于该原始音频数据的合成音频数据，可自动识别指导音频数据，并可提高关于原始音频数据的合成音频数据的播放效果。

基于上述实施例所示的数据处理方法，本发明实施例还提供了一种数据处理设备，可用于执行上述图1、图2和图3所示方法流程的相应步骤。请参见图4，该数据处理设备的内部结构可包括但不限于：处理器、网络接口及存储器。其中，数据处理设备内的处理器、网络接口及存储器可通过总线或其他方式连接，在本发明实施例所示图4中以通过总线连接为例。

其中，处理器(或称CPU(Central Processing Unit，中央处理器))是数据处理设备的计算核心以及控制核心。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等)。存储器(Memory)是音数据处理设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的存储装置。存储器提供存储空间，该存储空间存储了数据处理的操作系统，可包括但不限于：Windows系统(一种操作系统)、Linux(一种操作系统)系统等等，本发明对此并不作限定。存储器的存储空间还存储了数据处理装置。

在本发明实施例中，数据处理设备通过运行存储器中的数据处理装置来执行上述图1、图2和图3所示方法流程的相应步骤。请一并参见图5，在执行如何根据目标歌曲的音频数据将需要处理的原始音频数据转化为关于该原始音频数据的合成音频数据过程中，该装置运行如下单元：

获取模块501，用于采集针对目标歌曲的多个音频数据，并获取各个所述音频数据的距离总和。

确定模块502，用于将距离总和最小的音频数据确定为所述目标歌曲的指导音频数据。

所述获取模块501，还用于对所述指导音频数据进行切分，并获取所述指导音频数据的基频信息。

调整模块503，用于根据所述基频信息对原始音频数据进行调整，得到调整后的原始音频数据。

合成模块504，用于将所述调整后的原始音频数据与所述目标歌曲的伴奏数据进行合成，得到关于所述原始音频数据的合成音频数据。

需要说明的是，所述基频信息包括所述指导音频数据的第一单元数据的帧长和位于第一帧的所述第一单元数据的频率，所述第一单元数据为所述指导音频数据的任一单元数据，所述第一帧为所述第一单元数据的任一帧数据，所述调整模块503根据所述基频信息对原始音频数据进行调整，得到调整后的原始音频数据，具体用于：

将所述原始音频数据中的第二单元数据的帧长调整为所述指导音频数据中的第一单元数据的帧长，所述第二单元数据为所述原始音频数据中与所述第一单元数据在所述指导音频数据中的位置相同的单元数据。

根据位于第一帧的所述第一单元数据的频率，对位于第二帧的第二单元数据的频率进行调整，得到调整后的位于第二帧的单元数据，所述第二帧为所述第二单元数据中与所述第一帧在所述第一单元数据中的位置相同的帧。

将所述原始音频数据中各个调整后的单元数据进行合成，得到所述调整后的原始音频数据。

需要说明的是，所述获取模块501对所述指导音频数据进行切分，并获取所述指导音频数据的基频信息，具体用于：

对所述指导音频数据进行切分，得到多个单元数据。

提取所述多个单元数据中的每个单元数据的基频信息，并将提取得到的基频信息进行合成得到所述指导音频数据的基频信息。

需要说明的是，所述调整模块503根据位于第一帧的所述第一单元数据的频率，对位于第二帧的所述第二单元数据的频率进行调整，得到调整后的位于第二帧的第二单元数据，具体用于：

根据位于第一帧的所述第一单元数据的频率将位于第二帧的所述第二单元数据划分为多个时间周期。

根据位于所述第一帧的第一时间周期的单元数据的能量，对位于所述第二帧的第二时间周期的单元数据的能量进行调整，得到调整后的位于第二时间周期的单元数据，所述第二时间周期为所述第二帧中的任一时间周期，所述第一时间周期为所述第一帧中与所述第二时间周期在所述第二帧中的位置相同的时间周期。

将位于所述第二帧中调整后的各个时间周期的单元数据进行合成，得到调整后的位于第二帧的第二单元数据。

需要说明的是，所述调整模块503根据位于所述第一帧的第一时间周期的单元数据的能量，对位于所述第二帧的第二时间周期的单元数据的能量进行调整，得到调整后的位于第二时间周期的单元数据，具体用于：

对位于所述第二帧中的第二时间周期的单元数据进行采样处理，得到多个采样点。

以能量最大的采样点为中心，从所述第二时间周期中获取满足指定长度的目标单元数据，所述指定长度是根据位于所述第一帧的单元数据的频率确定的。

通过预设压缩算法对所述目标单元数据的能量进行处理，得到压缩后的目标单元数据。

将所述压缩后的目标单元数据的能量与位于所述第一帧中第一时间周期的单元数据的能量的进行相加，得到能量总和。

将位于所述第二帧中第二时间周期的单元数据的能量调整为所述能量总和，得到调整后的位于第二时间周期的单元数据。

需要说明的是，获取模块501获取各个所述音频数据的距离总和，具体用于:

提取针对所述目标歌曲的多个音频数据中每个音频数据的基频序列。

针对所述多个音频数据中的每个音频数据，根据所述基频序列计算每两个音频数据之间的距离。

根据所述每两个音频数据之间的距离，计算各个所述音频数据的距离总和。

需要说明的是，所述确定模块502将距离总和最小的音频数据确定为所述目标歌曲的指导音频数据，具体用于：

在所述多个音频数据中获取距离总和最小的第一音频数据，以及距离总和较小的至少一个第二音频数据。

根据所述第一音频数据的距离总和，以及各个所述第二音频数据的距离总和，计算所述第一音频数据的可用度。

当所述第一音频数据的可用度大于预设比例阈值时，将所述第一音频数据确定为所述目标歌曲的指导音频数据。

需要说明的是，所述确定模块502根据所述第一音频数据的距离总和，以及各个所述第二音频数据的距离总和，计算所述第一音频数据的可用度，具体用于：

将各个所述第二音频数据的距离总和相加，得到相加距离值。

将所述第一音频数据的距离总和除以所述相加距离值，得到所述第一音频数据的可用度。

可见，本发明实施例中，数据处理装置可以从针对目标歌曲的多个音频数据中选择距离总和最小(音准最好)的音频数据作为指导音频数据，将指导音频数据进行切分，并获取指导音频数据的基频信息，根据指导音频数据的基频信息对需要处理的原始音频数据进行调整，将调整后的原始音频数据与该目标歌曲的伴奏进行合成，得到关于该原始音频数据的合成音频数据，可自动识别指导音频数据，并可提高关于原始音频数据的合成音频数据的播放效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(Random AccessMemory，简称RAM)等。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述指导音频数据进行切分，并获取所述指导音频数据的基频信息，包括：

对所述指导音频数据进行切分，得到多个单元数据；

3.根据权利要求1所述的方法，其特征在于，所述基频信息包括所述指导音频数据的第一单元数据的帧长和位于第一帧的所述第一单元数据的频率，所述第一单元数据为所述指导音频数据的任一单元数据，所述第一帧为所述第一单元数据的任一帧数据；

所述根据所述基频信息对原始音频数据进行调整，得到调整后的原始音频数据，包括：

将所述原始音频数据中的第二单元数据的帧长调整为所述指导音频数据中的第一单元数据的帧长，所述第二单元数据为所述原始音频数据中与所述第一单元数据在所述指导音频数据中的位置相同的单元数据；

根据位于第一帧的所述第一单元数据的频率，对位于第二帧的所述第二单元数据的频率进行调整，得到调整后的位于第二帧的第二单元数据，所述第二帧为所述第二单元数据中与所述第一帧在所述第一单元数据中的位置相同的帧；

4.根据权利要求3所述的方法，其特征在于，所述根据位于第一帧的所述第一单元数据的频率，对位于第二帧的第二单元数据的频率进行调整，得到调整后的位于第二帧的第二单元数据，包括:

根据位于第一帧的所述第一单元数据的频率将位于第二帧的所述第二单元数据划分为多个时间周期；

根据位于所述第一帧的第一时间周期的单元数据的能量，对位于所述第二帧的第二时间周期的单元数据的能量进行调整，得到调整后的位于第二时间周期的单元数据，所述第二时间周期为所述第二帧中的任一时间周期，所述第一时间周期为所述第一帧中与所述第二时间周期在所述第二帧中的位置相同的时间周期；

5.根据权利要求4所述的方法，其特征在于，所述根据位于所述第一帧的第一时间周期的单元数据的能量，对位于所述第二帧的第二时间周期的单元数据的能量进行调整，得到调整后的位于第二时间周期的单元数据，包括：

对位于所述第二帧中的第二时间周期的单元数据进行采样处理，得到多个采样点；

以能量最大的采样点为中心，从所述第二时间周期中获取满足指定长度的目标单元数据，所述指定长度是根据位于所述第一帧的单元数据的频率确定的；

通过预设压缩算法对所述目标单元数据的能量进行处理，得到压缩后的目标单元数据；

将所述压缩后的目标单元数据的能量与位于所述第一帧中第一时间周期的单元数据的能量的进行相加，得到能量总和；

6.根据权利要求1-5任一所述的方法，其特征在于，所述获取各个所述音频数据的距离总和，包括:

提取针对所述目标歌曲的多个音频数据中每个音频数据的基频序列；

针对所述多个音频数据中的每个音频数据，根据所述基频序列计算每两个音频数据之间的距离；

7.根据权利要求1-5任一所述的方法，其特征在于，所述将距离总和最小的音频数据作为所述目标歌曲的指导音频数据，包括：

在所述多个音频数据中获取距离总和最小的第一音频数据，以及距离总和较小的至少一个第二音频数据；

根据所述第一音频数据的距离总和，以及各个所述第二音频数据的距离总和，计算所述第一音频数据的可用度；

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一音频数据的距离总和，以及各个所述第二音频数据的距离总和，计算所述第一音频数据的可用度，包括：

将各个所述第二音频数据的距离总和相加，得到相加距离值；

9.一种数据处理装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述获取模块对所述指导音频数据进行切分，并获取所述指导音频数据的基频信息，具体用于：

对所述指导音频数据进行切分，得到多个单元数据；

11.根据权利要求9所述的装置，其特征在于，所述基频信息包括所述指导音频数据的第一单元数据的帧长和位于第一帧的所述第一单元数据的频率，所述第一单元数据为所述指导音频数据的任一单元数据，所述第一帧为所述第一单元数据的任一帧数据，所述调整模块根据所述基频信息对原始音频数据进行调整，得到调整后的原始音频数据，具体用于：

12.根据权利要求11所述的装置，其特征在于，所述调整模块根据位于第一帧的所述第一单元数据的频率，对位于第二帧的所述第二单元数据的频率进行调整，得到调整后的位于第二帧的第二单元数据，具体用于：

13.根据权利要求12所述的装置，其特征在于，所述调整模块根据位于所述第一帧的第一时间周期的单元数据的能量，对位于所述第二帧的第二时间周期的单元数据的能量进行调整，得到调整后的位于第二时间周期的单元数据，具体用于：

14.根据权利要求9-13任一所述的装置，其特征在于，获取模块获取各个所述音频数据的距离总和，具体用于:

15.根据权利要求9-13任一所述的装置，其特征在于，所述确定模块将距离总和最小的音频数据确定为所述目标歌曲的指导音频数据，具体用于：

16.根据权利要求15所述的装置，其特征在于，所述确定模块根据所述第一音频数据的距离总和，以及各个所述第二音频数据的距离总和，计算所述第一音频数据的可用度，具体用于：