WO2016188329A1

WO2016188329A1 - 一种音频处理方法、装置及终端

Info

Publication number: WO2016188329A1
Application number: PCT/CN2016/081999
Authority: WO
Inventors: 赵伟峰
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2015-05-25
Filing date: 2016-05-13
Publication date: 2016-12-01
Anticipated expiration: 2017-11-25
Also published as: JP2018522288A; JP6586514B2; EP3340238A4; US20180158469A1; EP3340238A1; EP3340238B1

Abstract

一种音频处理方法、装置及终端。其中的方法包括：获取目标音频文件的文件数据；根据所述文件数据的组成元素之间的相关性特征数据，构建相关性特征序列；按照预设段落总数对所述相关性特征序列进行优化；根据优化后的所述相关性特征序列中的至少一个特征元素的数值确定段落变化时间；按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。该方法基于音频文件对应的字幕文件中的字符单句的相似性和时间间隔特点，及音频段落之间的音频帧的相关性特点实现对目标音频文件的段落划分，提升分段处理效率，提升音频处理的智能性。

Description

一种音频处理方法、装置及终端

本申请要求于2015年5月25日提交中国专利局、申请号为201510270567.5、发明名称为“一种音频处理方法、装置及终端”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

本申请要求于2015年5月25日提交中国专利局、申请号为201510271769.1、发明名称为“一种音频处理方法、装置及终端”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

本申请要求于2015年5月25日提交中国专利局、申请号为201510271014.1、发明名称为“一种音频处理方法、装置及终端”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明互联网技术领域，具体涉及音频处理技术领域，尤其涉及一种音频处理方法、装置及终端。

背景技术

随着互联网技术的发展，互联网音频库中收录了大量的诸如歌曲、歌曲片段等音频文件，关于互联网音频的应用也日渐增多，例如：K歌系统、听歌系统等等。许多音频文件的应用场景需要对音频文件进行段落划分，例如：K歌系统中要实现歌曲分段合唱时，通常需要对歌曲进行段落划分；再如：听歌系统中需要重点听取歌曲片段时，通常需要对歌曲进行段落划分；等等。目前，通常采用人工对音频文件进行段落划分，分段处理效率较低，无法满足用户对音频文件的使用需求，从而降低了音频处理的智能性。

发明内容

为了提高音频处理的智能性，本发明实施例提供了一种音频处理方法、装置及终端。所述技术方案如下：

本发明实施例提供了一种音频处理方法，包括：

获取目标音频文件的文件数据；根据所述文件数据的组成元素之间的相关性特征数据，构建相关性特征序列；按照预设段落总数对所述相关性特征序列进行优化；根据优化后的所述相关性特征序列中的至少一个特征元素的数值确定段落变化时间；按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。

其中，可根据目标音频文件的文件数据内的组成元素之间的相关性，如字符单句之间的相似度、字符单句之间的时间间隔或音频帧之间的相关性等，实现对目标音频文件的段落划分，可提升分段处理效率，提升音频处理的智能性。

本发明的一个实施例中，可根据目标音频文件对应的字幕文件中的至少一个字符单句之间的相似度构建字幕特征序列，按照预设段落总数对所述字幕特征序列进行优化，并根据优化后的所述字幕特征序列中的至少一个字符特征元素的数值确定段落变化时间，然后按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落，该音频处理过程利用字幕段落之间的字符单句的相似性特点，基于字幕文件中的字符单句的相似性实现对目标音频文件的段落划分，可提升分段处理效率，提升音频处理的智能性。

本发明的另一个实施例中，可根据目标音频文件对应的字幕文件中的至少一个字符单句之间的时间间隔构建时间特征序列，按照预设段落总数调整所述时间特征序列中的各时间特征元素的数值，并根据调整后的所述时间特征序列中的至少一个时间特征元素的数值确定段落变化时间，然后按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落，该音频处理过程利用字幕段落之间的字符单句的时间间隔特点，基于字幕文件中的字符单句之间的时间间隔实现对目标音频文件的段落划分，可提升分段处理效率，提升音频处理的智能性。

本发明的又一个实施例中，可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列，对所述峰值特征序列进行规整处理，并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间，按照所述段落变化时间对所述目标音频文件进行段落划分，该音频处理过程利用音频段落之间的音频帧的相关性特点，实现对目标音频文件的段落划分，可提升分段处理效率，提升音频处理的智能性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频处理方法的流程图；

图2为本发明实施例提供的另一种音频处理方法的流程图；

图3为本发明实施例提供的一种音频处理装置的结构示意图；

图4为图3所示的构建单元的实施例的结构示意图；

图5为图3所示的优化单元的实施例的结构示意图；

图6为图5所示的优化处理单元的实施例的结构示意图；

图7为图3所示的确定单元的实施例的结构示意图；

图8为本发明实施例提供的一种音频处理方法的流程图；

图9为本发明实施例提供的另一种音频处理方法的流程图；

图10为本发明实施例提供的一种音频处理装置的结构示意图；

图11为图10所示的构建单元的实施例的结构示意图；

图12为图10所示的调整单元的实施例的结构示意图；

图13为图10所示的确定单元的实施例的结构示意图；

图14为本发明实施例提供的一种音频处理方法的流程图；

图15为本发明实施例提供的另一种音频处理方法的流程图；

图16为本发明实施例提供的一种音频处理装置的结构示意图；

图17为图16所示的获取单元的实施例的结构示意图；

图18为图16所示的构建单元的实施例的结构示意图；

图19为图16所示的规整处理单元的实施例的结构示意图；

图20为图16所示的确定单元的实施例的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例中，音频文件可以包括但不限于：歌曲、歌曲片段等文件。字幕文件可以包括但不限于：歌词、歌词片段等文件。一个音频文件可对应一个字幕文件。一个字幕文件可由至少一个字符单句顺序排列而成，以歌曲A为例，歌曲A对应的字幕文件可表示如下：

[641，770]，[641，20]a₁[661，60]a₂[721，170]a₃[891，200]a₄[1091，70]a₅[1161，180]a₆[1341，20]a₇[1361，50]a₈

[1541，180]，[1541，20]b₁[1561，50]b₂[1611，20]b₃[1631，30]b₄[1661，0]b₅[1661，10]b₆[1671，20]b₇[1701，30]b₈

[1871，730]，[1871，60]c₁[1931，100]c₂[2031，110]c₃[2141，200]c₄[2341，70]c₅[2411，60]c₆[2471，50]c₇[2421，80]c₈

……

上述歌曲A对应的字幕文件中，诸如“a₁a₂a₃a₄a₅a₆a₇a₈”、“b₁b₂b₃b₄b₅b₆b₇b₈”、“c₁c₂c₃c₄c₅c₆c₇c₈”可分别用于表示一个字符单句，各字符单句之前的“[]”用于描述对应的字符单句的时间属性，其单位时间通常为ms，例如：上述[641，770]用于描述字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”的时间属性，其中的“641”表示字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”的开始时间，“770”表示字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”的持续时间，假设歌曲A共5分钟，字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”则从第641ms开始演唱，持续770ms结束演唱。各字符单句中，每个字符之前的“[]”用于描述对应的字符的时间属性，其单位时间通常为ms，例如：上述[641，20]用于描述字符“a₁”的时间属性，其中的“641”表示字符“a₁”的开始时间，“20”表示字符“a₁”的持续时间。按照开始时间的先后顺序，可确定字幕文件包含的各字符单句的顺序，例如：根据上述歌曲A对应的字幕文件的描述，字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”为第一个字符单句；字符单句“b₁b₂b₃b₄b₅b₆b₇b₈”为第二个字符单句；字符单句“c₁c₂c₃c₄c₅c₆c₇c₈”为第三个字符单句，以此类推。其中，字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”和字符单句“b₁b₂b₃b₄b₅b₆b₇b₈”为字符单句“c₁c₂c₃c₄c₅c₆c₇c₈”的在先字符单句，字符单句“b₁b₂b₃b₄b₅b₆b₇b₈”和字符单句“c₁c₂c₃c₄c₅c₆c₇c₈”为字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”的在后字符单句，以此类推。进一步，字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”为字符单句“b₁b₂b₃b₄b₅b₆b₇b₈”的相邻在先字符单句；字符单句“b₁b₂b₃b₄b₅b₆b₇b₈”为字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”的相邻在后字符单句，以此类推。

一个音频文件可以被划分为多个音频段落，音频段落之间通常具备一定的重复性；那么，一个字幕文件可对应分为多个字幕段落，字幕段落之间具备一定的相似性，也就是说，字幕段落之间所包含的字符单句存在一定的相似性。本发明实施例可利用上述的字幕段落之间的字符单句的相似性特点，基于字幕文件中的字符单句的相似性实现对目标音频文件的段落划分。

一个音频文件可以被划分为多个音频段落，音频段落之间通常会有较长的停顿，即音频段落之间通常会有较长的时间间隔；那么，一个字幕文件可对应分为多个字幕段落，字幕段落之间存在较长的时间间隔，也就是说，字幕段落之间所包含的字符单句之间存在较长的时间间隔。本发明实施例可利用上述的字幕段落之间的字符单句的时间间隔特点，基于字幕文件中的字符单句之间的时间间隔实现对目标音频文件的段落划分。

本发明的又一个实施例中，一个音频文件包括音频数据，对音频文件进行解码(例如：PCM解码)可以获得音频数据(例如：PCM数据)。一个音频文件的音频数据可包括至少一个音频帧，也就是说，一个音频文件的音频数据可以表示为多个音频帧顺序组成的一个帧序列。一个音频文件可以被划分为多个音频段落，音频段落之间通常具备一定的重复性，也就是说，音频段落之间所包含的音频帧存在一定的相关性。本发明实施例可利用上述的音频段落之间的音频帧的相关性特点，实现对目标音频文件的段落划分。

基于上述描述，本发明实施例提供了一种音频处理方法，具体包括：获取目标音频文件的文件数据；根据所述文件数据的组成元素之间的相关性特征数据，构建相关性特征序列；按照预设段落总数对所述相关性特征序列进行优化；根据优化后的所述相关性特征序列中的至少一个特征元素的数值确定段落变化时间；按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。其中，可根据目标音频文件的文件数据内的组成元素之间的相关性，如字符单句之间的相似度、字符单句之间的时间间隔或音频帧之间的相关性等，实现对目标音频文件的段落划分，可提升分段处理效率，提升音频处理的智能性。

为了便于对本发明的理解，下面将结合附图1-附图2，对本发明实施例提供的音频处理方法进行详细介绍。

请参见图1，为本发明实施例提供的一种音频处理方法的流程图；该方法可包括以下步骤S101-步骤S105。

S101，获取目标音频文件对应的字幕文件，所述字幕文件由至少一个字符单句顺序组成。

一个音频文件对应一个字幕文件。通常，互联网音频库中会存储多个音频文件、每个音频文件的属性以及每个音频文件对应的字幕文件，其中，音频文件的属性可包括但不限于：音频文件的音频特征、音频文件的标识等等。本步骤中，可以从互联网音频库中获取目标音频文件对应的字幕文件；具体的获取方式可包括但不限于：可以根据目标音频文件的标识，在互联网音频库中查找该目标音频文件对应的字幕文件，并获取所查找到的字幕文件；或者，可以提取目标音频文件的音频特征与互联网音频库中的音频文件的音频特征进行匹配，由此在互联网音频库中定位目标音频文件，并获取对应的字幕文件。

本发明实施例中，假设目标音频文件为歌曲A，歌曲A对应的字幕文件的结构可参见本实施例所示例子，假设所述字幕文件由N(N为正整数)个字符单句顺序组成，假设该N个字符单句采用p(0)至p(N-1)进行表示，那么，p(0)可用于表示第一个字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”，p(1)可用于表示第二个字符单句“b₁b₂b₃b₄b₅b₆b₇b₈”，p(2)可用于表示第三个字符单句“c₁c₂c₃c₄c₅c₆c₇c₈”，以此类推，p(N-1)用于表示第N个字符单句。

S102，根据所述至少一个字符单句之间的相似度构建字幕特征序列，所述字幕特征序列包括至少一个字符特征元素。

所述字幕特征序列可用于反映所述至少一个字符单句之间的相似度。本步骤中，首先可以采用相似度算法计算所述至少一个字符单句之间的相似度，此处需要计算每个字符单句与其在后字符单句之间的相似度，也就是说，需要计算p(0)与p(1)之间的相似度、p(0)与p(2)之间的相似度……p(0)与p(N-1)之间的相似度；计算p(1)与p(2)之间的相似度、p(1)与p(3)之间的相似度……p(1)与p(N-1)之间的相似度；以此类推。其中，相似度算法可包括但不限于：编辑距离算法(Levenshtein Distance)、最长公共子串算法(Longest Common Subsequences，LCS)、Heckel算法、贪心字符串匹配算法(Greedy String Tiling，GST)等等。其次可以根据所述至少一个字符单句的数量、顺序以及计算获得的相似度构建所述字幕特征序列。

按照本实施例所示例子，假设采用s(n)来表示所述字幕特征序列，则所构建的字幕特征序列s(n)共包括N个字符特征元素，分别为s(0)、s(1)…s(N-1)。其中，s(0)的数值可用于描述p(0)与其在后字符单句之间的相似情况；s(1)的数值可用于描述p(1)与其在后字符单句之间的相似情况；以此类推。

S103，按照预设段落总数对所述字幕特征序列进行优化。

所述预设段落总数可以根据用户对目标音频文件的实际分段需求设定。假设采用M(M为正整数且M＞1)表示所述预设段落总数，则按照预设段落总数M对所述字幕特征序列s(n)进行优化的目的在于，使优化后的所述字幕特征序列s(n)刚好能够被划分为预设段落总数M个字幕段落，以满足对目标音频文件的实际分段需求。

S104，根据优化后的所述字幕特征序列中的至少一个字符特征元素的数值确定段落变化时间。

其中，优化后的所述字幕特征序列s(n)刚好能够被划分为预设段落总数M个字幕段落，同时，所述字幕特征序列s(n)中的字符特征元素的数值可用于描述字符单句之间的相似情况，那么，根据优化后的所述字幕特征序列s(n)中的字符特征元素的数值可以确定M个字幕段落的转折点，进一步可从字幕文件中获得M个字幕段落的起止时间。

S105，按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。由于音频文件与字幕文件相互对应，那么，按照所获得的M个字幕段落的起止时间，对应地可以对所述目标音频文件进行段落划分，获得M个音频段落。

本发明实施例中，可根据目标音频文件对应的字幕文件中的至少一个字符单句之间的相似度构建字幕特征序列，按照预设段落总数对所述字幕特征序列进行优化，并根据优化后的所述字幕特征序列中的至少一个字符特征元素的数值确定段落变化时间，然后按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落，音频处理过程利用字幕段落之间的字符单句的相似性特点，基于字幕文件中的字符单句的相似性实现对目标音频文件的段落划分，可提升分段处理效率，提升音频处理的智能性。

请参见图2，为本发明实施例提供的另一种音频处理方法的流程图；该方法可包括以下步骤S201-步骤S213。

S201，获取目标音频文件对应的字幕文件，所述字幕文件由至少一个字符单句顺序组成。

本实施例的步骤S201可参见图1所示实施例的步骤S101，在此不赘述。

S202，根据所述至少一个字符单句的数量确定构建字幕特征序列的字符特征元素的数量。

所述字幕文件由N(N为正整数)个字符单句顺序组成，即所述至少一个字符单句的数量为N，那么，本步骤可确定所述字幕特征序列的字符特征元素的数量也为N，即所述字幕特征序列的长度为N。假设采用s(n)来表示所述字幕特征序列，则所构建的字幕特征序列s(n)共包括N个字符特征元素，分别为s(0)、s(1)…s(N-1)。

S203，根据所述至少一个字符单句中各字符单句的顺序，确定构建所述字幕特征序列的各字符特征元素的索引。

所述字幕文件N个字符单句的顺序排列为p(0)、p(1)…p(N-1)，假设所述字幕特征序列s(n)中：s(0)对应p(0)，s(1)对应p(1)，以此类推、s(N-1)对应p(N-1)。那么，所述字幕特征序列s(n)中s(0)的索引为1，即第一个字符特征元素；s(1)的索引为2，即第二个字符特征元素；以此类推，s(N-1)的索引为N，即第N个字符特征元素。

S204，将构建所述字幕特征序列的各字符特征元素的数值均设置为初始值。

所述初始值可以根据实际需要进行设定，本实施例中可假设所述初始值为0，那么，本步骤可设置所述字幕特征序列s(n)中所有字符特征元素的数值均为0，也就是说，s(0)＝0，s(1)＝0…s(N-1)＝0。

S205，针对所述至少一个字符单句中的任一个目标字符单句，若所述目标字符单句与所述目标字符单句的在后字符单句之间的最大相似度大于预设相似阀值，将所述目标字符单句对应的字符特征元素的数值从初始值变更为目标值。

本步骤S205的具体处理过程可包括如下s11-s13：

s11，采用相似度算法计算所述至少一个字符单句之间的相似度，此处需要计算每个字符单句与其在后字符单句之间的相似度，也就是说，需要计算p(0)与p(1)之间的相似度、p(0)与p(2)之间的相似度……p(0)与p(N-1)之间的相似度；计算p(1)与p(2)之间的相似度、p(1)与p(3)之间的相似度……p(1)与p(N-1)之间的相似度；以此类推。其中，相似度算法可包括但不限于：编辑距离算法、最长公共子串算法、Heckel算法、贪心字符串匹配算法等等。需要说明的是，为了方便计算，计算获得的相似度均归一化至[0，1]的区间内，若某两个字符单句之间的相似度等于0，表明该两个字符单句完全不同；若某两个字符单句之间的相似度等于1，表明该两个字符单句完全相同。

s12，提取每个字符单句与其在后字符单句之间的最大相似度，例如：假设经过计算p(0)与其在后字符单句p(1)至p(N-1)之间，p(0)与p(2)之间的相似度最大为Q₀₂，则提取Q₀₂；再如：假设经过计算p(1)与其在后字符单句p(2)至p(N-1)之间，p(1)与p(5)之间的相似度最大为Q₁₅，则提取Q₁₅，等等。

s13，分别判断所提取的最大相似度是否大于预设相似阀值，根据判断结果变更设置相应字符特征元素的数值。其中，所述预设相似阀值可以根据实际需要进行设定，该预设相似阀值可采用Th表示，且0≤Th≤1。所述目标值可以根据实际需要进行设定，且所述目标值大于所述初始值，本实施例可设定所述目标值为1。按照步骤s12所示例子，例如：判断Q₀₂是否大于预设相似阀值Th，如果Q₀₂＞Th，那么将p(0)对应的s(0)的数值从0变更为1，即s(0)＝1；再如：判断Q₁₅是否大于预设相似阀值Th，如果Q₁₅＞Th，那么将p(1)对应的s(1)的数值从0变更为1，即s(1)＝1，等等。

S206，按照构建所述字幕特征序列的字符特征元素的数量、索引及数值，构建所述字幕特征序列。

所构建的所述字幕特征序列为s(n)，s(n)是由N个字符特征元素s(0)、s(1)…s(N-1)顺序组成，且所述字幕特征序列s(n)中各字符特征元素的数值形成由0和1组成的序列。

本实施例的步骤S202-步骤S206可以为图1所示实施例的步骤S102的具体细化步骤。

S207，统计所述字幕特征序列中数值为目标值的字符特征元素的数量。按照本实施例所示例子，本步骤需要统计所述字幕特征序列s(n)中数值为1的字符特征元素的数量。

S208，判断所述数量是否位于所述预设段落总数对应的容错区间内；若判断结果为是，转入步骤S210；若判断结果为否，转入步骤S209。

假设采用M(M为正整数且M＞1)表示所述预设段落总数，所述预设段落总数M对应的容错区间可表示为[M-u，M+u](u为整数)，其中u表示一个整数范围区间，可以根据实际需要进行设定。本步骤中，需要判断所统计的所述字幕特征序列s(n)中数值为1的字符特征元素的数量是否位于[M-u，M+u]的区间内，如果判断结果为是，表明所述字幕特征序列s(n)能够被划分为预设段落总数M个字幕段落，以满足对目标音频文件的实际分段需求。如果判断结果为否，表明所述字幕特征序列s(n)无法很好地被划分为预设段落总数M个字幕段落，无法满足对目标音频文件的实际分段需求，需要进行一些调整。

S209，调整所述预设相似阀值的大小以调整所述字幕特征序列中的各字符特征元素的数值。

本步骤的调整过程可包括以下步骤s21-s22：

s21，若所述数量大于所述预设段落总数对应的容错区间内的最大容错值，按照预设步长增大所述预设相似阀值以调整所述字幕特征序列中的各字符特征元素的数值。

如果所述数量大于M+u，则需要按照预设步长增大所述预设相似阀值Th的值，并重新执行上述步骤s13以调整所述字幕特征序列中的各字符特征元素的数值。

s22，若所述数量小于所述预设段落总数对应的容错区间内的最大容错值，按照预设步长减小所述预设相似阀值以调整所述字幕特征序列中的各字符特征元素的数值。

如果所述数量小于M-u，则需要按照预设步长减小所述预设相似阀值Th的值，并重新执行上述步骤s13以调整所述字幕特征序列中的各字符特征元素的数值。

步骤s21-s22中，所述预设步长可以根据实际需要进行设定，所述预设步长可以为固定步长，即每次采用固定步长增大或减小所述预设相似阀值Th的值；所述预设步长也可以为随机步长，即每次采用不同步长增大或减小所述预设相似阀值Th的值。

本实施例的步骤S207-步骤S209可以为图1所示实施例的步骤S103的具体细化步骤。

S210，从优化后的所述字幕特征序列中获取数值为目标值的字符特征元素对应的目标索引。假设优化后的所述字幕特征序列s(n)中s(0)＝0，s(1)＝0…s(4)＝1…s(10)＝1…s(N-1)＝0，由于s(4)＝1和s(10)＝1，s(4)对应的索引为5，s(10)对应的索引为11，本步骤可获得目标索引为5和11。

S211，根据所述目标索引在所述字幕文件中定位段落转折的字符单句。

所述目标索引为5和11，则可在所述字幕文件中定位段落转折的字符单句为第5个字符单句和第11个字符单句，也就是说，第5个字符单句为一个字幕段落的起始位置，即所述字幕文件中第1-4个字符单句构成一个字幕段落；第11个字符单句为另一个字幕段落的起始位置，即所述字幕文件中第5-10个字符单句构成一个字幕段落。

S212，根据所述段落转折的字符单句从所述字幕文件中读取段落变化时间。

由于所述字幕文件中记录了每个字符单句的时间属性，包括每个字符单句的开始时间、持续时间、结束时间；本步骤可以从所述字幕文件中读取段落变化时间，按照本实施例所示例子，所述字幕文件中第1-4个字符单句构成一个字幕段落，那么所读取的段落变化时间为：第4个字符单句的结束时间和第5个字符单句的开始时间；所述字幕文件中第5-10个字符单句构成一个字幕段落，那么所读取的段落变化时间为：第10个字符单句的结束时间和第11个字符单句的开始时间。

本实施例的步骤S210-步骤S212可以为图1所示实施例的步骤S104的具体细化步骤。依据步骤S210-步骤S212可获得M个字幕段落的起止时间。

S213，按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。由于音频文件与字幕文件相互对应，那么，按照所获得的M个字幕段落的起止时间，对应地可以对所述目标音频文件进行段落划分，获得M个音频段落。

本实施例的步骤S213可参见图1所示实施例的步骤S105，在此不赘述。

下述将结合附图3-附图7，对本发明实施例提供的音频处理装置的结构和功能进行详细介绍。需要说明的是，下述附图3-附图7的所示的装置可以运行于终端中，以被应用于执行上述附图1-附图2所示的方法。

请参见图3，为本发明实施例提供的一种音频处理装置的结构示意图；该装置可包括：获取单元301、构建单元302、优化单元303、确定单元304和分段单元305。

获取单元301，用于获取目标音频文件对应的字幕文件，所述字幕文件由至少一个字符单句顺序组成。

一个音频文件对应一个字幕文件。通常，互联网音频库中会存储多个音频文件、每个音频文件的属性以及每个音频文件对应的字幕文件，其中，音频文件的属性可包括但不限于：音频文件的音频特征、音频文件的标识等等。所述获取单元301可以从互联网音频库中获取目标音频文件对应的字幕文件；具体的获取方式可包括但不限于：可以根据目标音频文件的标识，在互联网音频库中查找该目标音频文件对应的字幕文件，并获取所查找到的字幕文件；或者，可以提取目标音频文件的音频特征与互联网音频库中的音频文件的音频特征进行匹配，由此在互联网音频库中定位目标音频文件，并获取对应的字幕文件。

构建单元302，用于根据所述至少一个字符单句之间的相似度构建字幕特征序列，所述字幕特征序列包括至少一个字符特征元素。

所述字幕特征序列可用于反映所述至少一个字符单句之间的相似度。首先所述构建单元302可以采用相似度算法计算所述至少一个字符单句之间的相似度，此处需要计算每个字符单句与其在后字符单句之间的相似度，也就是说，需要计算p(0)与p(1)之间的相似度、p(0)与p(2)之间的相似度……p(0)与p(N-1)之间的相似度；计算p(1)与p(2)之间的相似度、p(1)与p(3)之间的相似度……p(1) 与p(N-1)之间的相似度；以此类推。其中，相似度算法可包括但不限于：编辑距离算法、最长公共子串算法、Heckel算法、贪心字符串匹配算法等等。其次所述构建单元302可以根据所述至少一个字符单句的数量、顺序以及计算获得的相似度构建所述字幕特征序列。

优化单元303，用于按照预设段落总数对所述字幕特征序列进行优化。

所述预设段落总数可以根据用户对目标音频文件的实际分段需求设定。假设采用M(M为正整数且M＞1)表示所述预设段落总数，则所述优化单元303按照预设段落总数M对所述字幕特征序列s(n)进行优化的目的在于，使优化后的所述字幕特征序列s(n)刚好能够被划分为预设段落总数M个字幕段落，以满足对目标音频文件的实际分段需求。

确定单元304，用于根据优化后的所述字幕特征序列中的至少一个字符特征元素的数值确定段落变化时间。

其中，优化后的所述字幕特征序列s(n)刚好能够被划分为预设段落总数M个字幕段落，同时，所述字幕特征序列s(n)中的字符特征元素的数值可用于描述字符单句之间的相似情况，那么，所述确定单元304根据优化后的所述字幕特征序列s(n)中的字符特征元素的数值可以确定M个字幕段落的转折点，进一步可从字幕文件中获得M个字幕段落的起止时间。

分段单元305，用于按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。

由于音频文件与字幕文件相互对应，那么，所述分段单元305按照所获得的M个字幕段落的起止时间，对应地可以对所述目标音频文件进行段落划分，获得M个音频段落。

请参见图4，为图3所示的构建单元的实施例的结构示意图；该构建单元302可包括：数量确定单元401、索引确定单元402、数值设置单元403、数值变更单元404和序列构建单元405。

数量确定单元401，用于根据所述至少一个字符单句的数量确定构建字幕特征序列的字符特征元素的数量。

所述字幕文件由N(N为正整数)个字符单句顺序组成，即所述至少一个字符单句的数量为N，那么，所述数量确定单元401可确定所述字幕特征序列的字符特征元素的数量也为N，即所述字幕特征序列的长度为N。假设采用s(n)来表示所述字幕特征序列，则所构建的字幕特征序列s(n)共包括N个字符特征元素，分别为s(0)、s(1)…s(N-1)。

索引确定单元402，用于根据所述至少一个字符单句中各字符单句的顺序，确定构建所述字幕特征序列的各字符特征元素的索引。

数值设置单元403，用于将构建所述字幕特征序列的各字符特征元素的数值均设置为初始值。

所述初始值可以根据实际需要进行设定，本实施例中可假设所述初始值为0，那么，所述数值设置单元403可设置所述字幕特征序列s(n)中所有字符特征元素的数值均为0，也就是说，s(0)＝0，s(1)＝0…s(N-1)＝0。

数值变更单元404，用于针对所述至少一个字符单句中的任一个目标字符单句，若所述目标字符单句与所述目标字符单句的在后字符单句之间的最大相似度大于预设相似阀值，将所述目标字符单句对应的字符特征元素的数值从初始值变更为目标值。

所述数据变更单元404的具体处理过程可包括以下A-C：

A、采用相似度算法计算所述至少一个字符单句之间的相似度，此处需要计算每个字符单句与其在后字符单句之间的相似度，也就是说，需要计算p(0)与p(1)之间的相似度、p(0)与p(2)之间的相似度……p(0)与p(N-1)之间的相似度；计算p(1)与p(2)之间的相似度、p(1)与p(3)之间的相似度……p(1)与p(N-1)之间的相似度；以此类推。其中，相似度算法可包括但不限于：编辑距离算法、最长公共子串算法、Heckel算法、贪心字符串匹配算法等等。需要说明的是，为了方便计算，计算获得的相似度均归一化至[0，1]的区间内，若某两个字符单句之间的相似度等于0，表明该两个字符单句完全不同；若某两个字符单句之间的相似度等于1，表明该两个字符单句完全相同。

B、提取每个字符单句与其在后字符单句之间的最大相似度，例如：假设经过计算p(0)与其在后字符单句p(1)至p(N-1)之间，p(0)与p(2)之间的相似度最大为Q₀₂，则提取Q₀₂；再如：假设经过计算p(1)与其在后字符单句p(2)至p(N-1)之间，p(1)与p(5)之间的相似度最大为Q₁₅，则提取Q₁₅，等等。

C、分别判断所提取的最大相似度是否大于预设相似阀值，根据判断结果变更设置相应字符特征元素的数值。其中，所述预设相似阀值可以根据实际需要进行设定，该预设相似阀值可采用Th表示，且0≤Th≤1。所述目标值可以根据实际需要进行设定，且所述目标值大于所述初始值，本实施例可设定所述目标值为1。按照本实施例所示例子，例如：判断Q₀₂是否大于预设相似阀值Th，如果Q₀₂＞Th，那么将p(0)对应的s(0)的数值从0变更为1，即s(0)＝1；再如：判断Q₁₅是否大于预设相似阀值Th，如果Q₁₅＞Th，那么将p(1)对应的s(1)的数值从0变更为1，即s(1)＝1，等等。

序列构建单元405，用于按照构建所述字幕特征序列的字符特征元素的数量、索引及数值，构建所述字幕特征序列。

请参见图5，为图3所示的优化单元的实施例的结构示意图；该优化单元303可包括：数量统计单元501、判断单元502和优化处理单元503。

数量统计单元501，用于统计所述字幕特征序列中数值为目标值的字符特征元素的数量。按照图4所示实施例的例子，所述数量统计单元501需要统计所述字幕特征序列s(n)中数值为1的字符特征元素的数量。

判断单元502，用于判断所述数量是否位于所述预设段落总数对应的容错区间内。

假设采用M(M为正整数且M＞1)表示所述预设段落总数，所述预设段落总数M对应的容错区间可表示为[M-u，M+u](u为整数)，其中u表示一个整数范围区间，可以根据实际需要进行设定。所述判断单元502需要判断所统计的所述字幕特征序列s(n)中数值为1的字符特征元素的数量是否位于[M-u，M+u]的区间内，如果判断结果为是，表明所述字幕特征序列s(n)能够被划分为预设段落总数M个字幕段落，以满足对目标音频文件的实际分段需求。如果判断结果为否，表明所述字幕特征序列s(n)无法很好地被划分为预设段落总数M个字幕段落，无法满足对目标音频文件的实际分段需求，需要进行一些调整。

优化处理单元503，用于若判断结果为否，调整所述预设相似阀值的大小以调整所述字幕特征序列中的各字符特征元素的数值。

请一并参见图6，为图5所示的优化处理单元的实施例的结构示意图；该优化处理单元503包括：第一调整单元601和第二调整单元602。

第一调整单元601，用于若所述数量大于所述预设段落总数对应的容错区间内的最大容错值，按照预设步长增大所述预设相似阀值以调整所述字幕特征序列中的各字符特征元素的数值。

如果所述数量大于M+u，则所述第一调整单元601需要按照预设步长增大所述预设相似阀值Th的值，并重新调整所述字幕特征序列中的各字符特征元素的数值。

第二调整单元602，用于若所述数量小于所述预设段落总数对应的容错区间内的最大容错值，按照预设步长减小所述预设相似阀值以调整所述字幕特征序列中的各字符特征元素的数值。

如果所述数量小于M-u，则所述第二调整单元602需要按照预设步长减小所述预设相似阀值Th的值，并重新调整所述字幕特征序列中的各字符特征元素的数值。其中，所述预设步长可以根据实际需要进行设定，所述预设步长可以为固定步长，即每次采用固定步长增大或减小所述预设相似阀值Th的值；所述预设步长也可以为随机步长，即每次采用不同步长增大或减小所述预设相似阀值Th的值。

请参见图7，为图3所示的确定单元304的实施例的结构示意图；该确定单元304可包括：目标索引获取单元701、定位单元702和时间读取单元703。

目标索引获取单元701，用于从优化后的所述字幕特征序列中获取数值为目标值的字符特征元素对应的目标索引。

假设优化后的所述字幕特征序列s(n)中s(0)＝0，s(1)＝0…s(4)＝1…s(10)＝1…s(N-1)＝0，由于s(4)＝1和s(10)＝1，s(4)对应的索引为5，s(10)对应的索引为11，所述目标索引获取单元701可获得目标索引为5和11。

定位单元702，用于根据所述目标索引在所述字幕文件中定位段落转折的字符单句。

所述目标索引为5和11，所述定位单元702则可在所述字幕文件中定位段落转折的字符单句为第5个字符单句和第11个字符单句，也就是说，第5个字符单句为一个字幕段落的起始位置，即所述字幕文件中第1-4个字符单句构成一个字幕段落；第11个字符单句为另一个字幕段落的起始位置，即所述字幕文件中第5-10个字符单句构成一个字幕段落。

时间读取单元703，用于根据所述段落转折的字符单句从所述字幕文件中读取段落变化时间。

由于所述字幕文件中记录了每个字符单句的时间属性，包括每个字符单句的开始时间、持续时间、结束时间；所述时间读取单元703可以从所述字幕文件中读取段落变化时间，按照本实施例所示例子，所述字幕文件中第1-4个字符单句构成一个字幕段落，那么所读取的段落变化时间为：第4个字符单句的结束时间和第5个字符单句的开始时间；所述字幕文件中第5-10个字符单句构成一个字幕段落，那么所读取的段落变化时间为：第10个字符单句的结束时间和第11个字符单句的开始时间。

本发明实施例还公开了一种终端，该终端可以为PC(Personal Computer，个人计算机)、笔记本电脑、手机、PAD(平板电脑)、车载终端、智能可穿戴设备等设备。该终端中可包括一音频处理装置，该装置的结构和功能可参见上述图3-图7所示实施例的相关描述，在此不赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

基于上述描述，下面将结合附图8-附图9，对本发明实施例提供的音频处理方法进行详细介绍。

请参见图8，为本发明实施例提供的一种音频处理方法的流程图；该方法可包括以下步骤S801-步骤S805。

S801，获取目标音频文件对应的字幕文件，所述字幕文件由至少一个字符单句顺序组成。

一个音频文件对应一个字幕文件。所述字幕文件包括至少一个字符单句及各字符单句的关键信息；一个字符单句的关键信息包括：标识(ID)、开始时间(start_time)和结束时间(end_time)。通常，互联网音频库中会存储多个音频文件、每个音频文件的属性以及每个音频文件对应的字幕文件，其中，音频文件的属性可包括但不限于：音频文件的音频特征、音频文件的标识等等。本步骤中，可以从互联网音频库中获取目标音频文件对应的字幕文件；具体的获取方式可包括但不限于：可以根据目标音频文件的标识，在互联网音频库中查找该目标音频文件对应的字幕文件，并获取所查找到的字幕文件；或者，可以提取目标音频文件的音频特征与互联网音频库中的音频文件的音频特征进行匹配，由此在互联网音频库中定位目标音频文件，并获取对应的字幕文件。

S802，根据所述至少一个字符单句之间的时间间隔构建时间特征序列，所述时间特征序列包括至少一个时间特征元素。

所述时间特征序列可用于反映所述至少一个字符单句之间的时间间隔程度。本步骤中，首先计算所述至少一个字符单句之间的时间间隔，此处需要计算p(1)与p(0)之间的时间间隔p(1).start_time-p(0).end_time；计算p(2)与p(1)之间的时间间隔p(2).start_time-p(1).end_time；以此类推，计算p(N-1)与p(N-2)之间的时间间隔p(N-1).start_time-p(N-2).end_time。其次可以根据所述至少一个字符单句的数量、顺序以及计算获得的时间间隔构建所述时间特征序列。

按照本实施例所示例子，假设采用t(n)来表示所述时间特征序列，则所构建的时间特征序列t(n)共包括N个时间特征元素，分别为t(0)、t(1)…t(N-1)。其中，t(0)的数值可设置为0，t(1)的数值用于表示p(1)与p(0)之间的时间间隔；t(2)的数值用于表示p(2)与p(1)之间的时间间隔；以此类推，t(N-1)的数值用于表示p(N-1)与p(N-2)之间的时间间隔。

S803，按照预设段落总数调整所述时间特征序列中的各时间特征元素的数值。

所述预设段落总数可以根据用户对目标音频文件的实际分段需求设定。假设采用M(M为正整数且M＞1)表示所述预设段落总数，则按照预设段落总数M调整所述时间特征序列t(n)中的各时间特征元素的数值目的在于，使调整后的所述时间特征序列t(n)刚好能够提取到M个字幕段落对应的转折点，从而实现对目标音频文件的实际分段需求。

S804，根据调整后的所述时间特征序列中的至少一个时间特征元素的数值确定段落变化时间。

所述调整后的时间特征序列t(n)中的各时间特征元素的数值能够反映M个字幕段落对应的转折点，那么，本步骤可以根据调整后的所述时间特征序列中的至少一个时间特征元素的数值，从字幕文件中获得M个字幕段落的起止时间。

S805，按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。由于音频文件与字幕文件相互对应，那么，按照所获得的M个字幕段落的起止时间，对应地可以对所述目标音频文件进行段落划分，获得M个音频段落。

本发明实施例中，可根据目标音频文件对应的字幕文件中的至少一个字符单句之间的时间间隔构建时间特征序列，按照预设段落总数调整所述时间特征序列中的各时间特征元素的数值，并根据调整后的所述时间特征序列中的至少一个时间特征元素的数值确定段落变化时间，然后按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落，该音频处理过程利用字幕段落之间的字符单句的时间间隔特点，基于字幕文件中的字符单句之间的时间间隔实现对目标音频文件的段落划分，可提升分段处理效率，提升音频处理的智能性。

请参见图9，为本发明实施例提供的另一种音频处理方法的流程图；该方法可包括以下步骤S901-步骤S905。

S901，获取目标音频文件对应的字幕文件，所述字幕文件由至少一个字符单句顺序组成。

本实施例的步骤S901可参见图1所示实施例的步骤S801，在此不赘述。

S902，根据所述至少一个字符单句的数量确定构建时间特征序列的时间特征元素的数量。

所述字幕文件由N(N为正整数)个字符单句顺序组成，即所述至少一个字符单句的数量为N，那么，本步骤可确定所述时间特征序列的时间特征元素的数量也为N，即所述时间特征序列的长度为N。假设采用t(n)来表示所述时间特征序列，则所构建的时间特征序列t(n)共包括N个时间特征元素，分别为t(0)、t(1)…t(N-1)。

S903，根据所述至少一个字符单句中各字符单句的顺序，确定构建所述时间特征序列的各时间特征元素的索引。

所述字幕文件N个字符单句的顺序排列为p(0)、p(1)…p(N-1)，假设所述时间特征序列t(n)中：t(0)对应p(0)，t(1)对应p(1)，以此类推、t(N-1)对应p(N-1)。那么，所述时间特征序列t(n)中t(0)的索引为1，即第一个时间特征元素；t(1)的索引为2，即第二个时间特征元素；以此类推，t(N-1)的索引为N，即第N个时间特征元素。

S904，针对所述至少一个字符单句中的任一个目标字符单句，将所述目标字符单句与所述目标字符单句的相邻在先字符单句之间的时间间隔设置为所述目标字符单句对应的时间特征元素的数值。

本步骤S904的具体处理过程可包括以下步骤s11-s12：

s11，计算每一个字符单句与其相邻在先字符单句之间的时间间隔，此处需要计算p(1)与p(0)之间的时间间隔p(1).start_time-p(0).end_time；计算p(2)与p(1)之间的时间间隔p(2).start_time-p(1).end_time；以此类推，计算p(N-1)与 p(N-2)之间的时间间隔p(N-1).start_time-p(N-2).end_time。

s12，将计算获得的时间间隔设置为相应时间特征元素的数值；那么，可设置t(0)＝0，t(1)＝p(1).start_time-p(0).end_time，t(2)＝p(2).start_time-p(1).end_time，以此类推，t(N-1)＝p(N-1).start_time-p(N-2).end_time。

S905，按照构建所述时间特征序列的时间特征元素的数量、索引及数值，构建所述时间特征序列。

所构建的所述时间特征序列为t(n)，t(n)是由N个时间特征元素t(0)、t(1)…t(N-1)顺序组成，且所述时间特征序列t(n)中各时间特征元素的数值为t(0)＝0，t(1)＝p(1).start_time-p(0).end_time，t(2)＝p(2).start_time-p(1).end_time，以此类推，t(N-1)＝p(N-1).start_time-p(N-2).end_time。

本实施例的步骤S902-步骤S905可以为图8所示实施例的步骤S802的具体细化步骤。

S906，从所述时间特征序列中查找前预设段落数量减1个最大数值的时间特征元素。假设采用M(M为正整数且M＞1)表示所述预设段落总数，本步骤需要从所述时间特征序列t(n)中查找前M-1个最大数值的时间特征元素。

S907，将查找到的时间特征元素的数值调整为目标值，将所述时间特征序列中除查找到的时间特征元素之外的其他时间特征元素的数值调整为参考值。所述目标值和所述特征值可以根据实际需要进行设定，本发明实施例可设置所述目标值为1，所述参考值为0。

步骤S906-S907的具体处理过程可以为：首先遍历所述时间特征序列t(n)中各时间特征元素的数值，从中找到最大数值对应的时间特征元素；排除查找到的时间特征元素之后，再次遍历所述时间特征序列t(n)中各时间特征元素的数值，从中找到最大数值对应的时间特征元素；循环上述遍历过程，直到查找到M-1个最大数值为止。最后将所述时间特征序列t(n)中查找到的M-1个最大数值均调整为1，将其他数值调整为0。

本实施例的步骤S906-步骤S907可以为图8所示实施例的步骤S803的具体细化步骤。由于M个字幕段落刚好对应M-1个段落转折点，经过步骤S906-步骤S907可使调整后的所述时间特征序列t(n)刚好能够提取到M个字幕段落对应的M-1段落转折点，从而实现对目标音频文件的实际分段需求。

S908，从调整后的所述时间特征序列中获取数值为目标值的时间特征元素对应的目标索引。本步骤需要获取数值为1的时间特征元素对应的目标索引，即需要获取所查找到的M-1个时间特征元素的索引。

S909，根据所述目标索引在所述字幕文件中定位段落转折的字符单句。

假设其中一个目标索引为5，则可在所述字幕文件中定位段落转折的字符单句为第5个字符单句，也就是说，第5个字符单句为一个字幕段落的起始位置，即所述字幕文件中第1-4个字符单句构成一个字幕段落。同理，可以定位M-1个段落转折的字符单句。

S910，根据所述段落转折的字符单句从所述字幕文件中读取段落变化时间。

由于所述字幕文件中记录了每个字符单句的关键信息，包括每个字符单句的开始时间和结束时间；本步骤可以从所述字幕文件中读取段落变化时间，按照本实施例所示例子，所述字幕文件中第1-4个字符单句构成一个字幕段落，那么所读取的段落变化时间为：第4个字符单句的结束时间和第5个字符单句的开始时间。

本实施例的步骤S908-步骤S910可以为图8所示实施例的步骤S804的具体细化步骤。依据步骤S908-步骤S910可获得M个字幕段落的起止时间。

S911，按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。由于音频文件与字幕文件相互对应，那么，按照所获得的M个字幕段落的起止时间，对应地可以对所述目标音频文件进行段落划分，获得M个音频段落。

本实施例的步骤S911可参见图8所示实施例的步骤S805，在此不赘述。

下述将结合附图10-附图13，对本发明实施例提供的音频处理装置的结构和功能进行详细介绍。需要说明的是，下述附图10-附图13的所示的装置可以运行于终端中，以被应用于执行上述附图8-附图9所示的方法。

请参见图10，为本发明实施例提供的一种音频处理装置的结构示意图；该装置可包括：获取单元1001、构建单元1002、调整单元1003、确定单元1004和分段单元1005。

获取单元1001，用于获取目标音频文件对应的字幕文件，所述字幕文件由至少一个字符单句顺序组成。

一个音频文件对应一个字幕文件。所述字幕文件包括至少一个字符单句及各字符单句的关键信息；一个字符单句的关键信息包括：标识(ID)、开始时间(start_time)和结束时间(end_time)。通常，互联网音频库中会存储多个音频文件、每个音频文件的属性以及每个音频文件对应的字幕文件，其中，音频文件的属性可包括但不限于：音频文件的音频特征、音频文件的标识等等。所述获取单元1001可以从互联网音频库中获取目标音频文件对应的字幕文件；具体的获取方式可包括但不限于：可以根据目标音频文件的标识，在互联网音频库中查找该目标音频文件对应的字幕文件，并获取所查找到的字幕文件；或者，可以提取目标音频文件的音频特征与互联网音频库中的音频文件的音频特征进行匹配，由此在互联网音频库中定位目标音频文件，并获取对应的字幕文件。

构建单元1002，用于根据所述至少一个字符单句之间的时间间隔构建时间特征序列，所述时间特征序列包括至少一个时间特征元素。

所述时间特征序列可用于反映所述至少一个字符单句之间的时间间隔程度。首先所述构建单元1002计算所述至少一个字符单句之间的时间间隔，此处需要计算p(1)与p(0)之间的时间间隔p(1).start_time-p(0).end_time；计算p(2)与p(1)之间的时间间隔p(2).start_time-p(1).end_time；以此类推，计算p(N-1)与p(N-2)之间的时间间隔p(N-1).start_time-p(N-2).end_time。其次所述构建单元 1002可以根据所述至少一个字符单句的数量、顺序以及计算获得的时间间隔构建所述时间特征序列。

调整单元1003，用于按照预设段落总数调整所述时间特征序列中的各时间特征元素的数值。

所述预设段落总数可以根据用户对目标音频文件的实际分段需求设定。假设采用M(M为正整数且M＞1)表示所述预设段落总数，则所述调整单元1003按照预设段落总数M调整所述时间特征序列t(n)中的各时间特征元素的数值目的在于，使调整后的所述时间特征序列t(n)刚好能够提取到M个字幕段落对应的转折点，从而实现对目标音频文件的实际分段需求。

确定单元1004，用于根据调整后的所述时间特征序列中的至少一个时间特征元素的数值确定段落变化时间。

所述调整后的时间特征序列t(n)中的各时间特征元素的数值能够反映M个字幕段落对应的转折点，那么，所述确定单元1004可以根据调整后的所述时间特征序列中的至少一个时间特征元素的数值，从字幕文件中获得M个字幕段落的起止时间。

分段单元1005，用于按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。

由于音频文件与字幕文件相互对应，那么，所述分段单元1005按照所获得的M个字幕段落的起止时间，对应地可以对所述目标音频文件进行段落划分，获得M个音频段落。

请参见图11，为图10所示的构建单元的实施例的结构示意图；该构建单元1002可包括：数量确定单元1101、索引确定单元1102、数值设置单元1103和序列构建单元1104。

数量确定单元1101，用于根据所述至少一个字符单句的数量确定构建时间特征序列的时间特征元素的数量。

所述字幕文件由N(N为正整数)个字符单句顺序组成，即所述至少一个字符单句的数量为N，那么，所述数量确定单元1101可确定所述时间特征序列的时间特征元素的数量也为N，即所述时间特征序列的长度为N。假设采用t(n)来表示所述时间特征序列，则所构建的时间特征序列t(n)共包括N个时间特征元素，分别为t(0)、t(1)…t(N-1)。

索引确定单元1102，用于根据所述至少一个字符单句中各字符单句的顺序，确定构建所述时间特征序列的各时间特征元素的索引。

数值设置单元1103，用于针对所述至少一个字符单句中的任一个目标字符单句，将所述目标字符单句与所述目标字符单句的相邻在先字符单句之间的时间间隔设置为所述目标字符单句对应的时间特征元素的数值。

所述数值设置单元1103的具体处理过程可包括以下A-B：

A、计算每一个字符单句与其相邻在先字符单句之间的时间间隔，此处需要计算p(1)与p(0)之间的时间间隔p(1).start_time-p(0).end_time；计算p(2)与p(1)之间的时间间隔p(2).start_time-p(1).end_time；以此类推，计算p(N-1)与p(N-2)之间的时间间隔p(N-1).start_time-p(N-2).end_time。

B、将计算获得的时间间隔设置为相应时间特征元素的数值；那么，可设置t(0)＝0，t(1)＝p(1).start_time-p(0).end_time，t(2)＝p(2).start_time-p(1).end_time，以此类推，t(N-1)＝p(N-1).start_time-p(N-2).end_time。

序列构建单元1104，用于按照构建所述时间特征序列的时间特征元素的数量、索引及数值，构建所述时间特征序列。

请参见图12，为图10所示的调整单元的实施例的结构示意图；该调整单元1003可包括：元素查找单元1201和数值调整单元1202。

元素查找单元1201，用于从所述时间特征序列中查找前预设段落数量减1个最大数值的时间特征元素。

假设采用M(M为正整数且M＞1)表示所述预设段落总数，所述元素查找单元1201需要从所述时间特征序列t(n)中查找前M-1个最大数值的时间特征元素。

数值调整单元1202，用于将查找到的时间特征元素的数值调整为目标值，将所述时间特征序列中除查找到的时间特征元素之外的其他时间特征元素的数值调整为参考值。所述目标值和所述特征值可以根据实际需要进行设定，本发明实施例可设置所述目标值为1，所述参考值为0。

所述元素查找单元1201和所述数值调整单元1202的具体处理过程可以为：首先所述元素查找单元1201遍历所述时间特征序列t(n)中各时间特征元素的数值，从中找到最大数值对应的时间特征元素；排除查找到的时间特征元素之后，再次遍历所述时间特征序列t(n)中各时间特征元素的数值，从中找到最大数值对应的时间特征元素；循环上述遍历过程，直到查找到M-1个最大数值为止。最后所述数值调整单元1202将所述时间特征序列t(n)中查找到的M-1个最大数值均调整为1，将其他数值调整为0。

请参见图13，为图10所示的确定单元的实施例的结构示意图；该确定单元1004可包括：目标索引获取单元1301、定位单元1302和时间读取单元1303。

目标索引获取单元1301，用于从调整后的所述时间特征序列中获取数值为目标值的时间特征元素对应的目标索引。

按照图5所示实施例的例子，所述目标索引获取单元1301需要获取数值为1的时间特征元素对应的目标索引，即需要获取所查找到的M-1个时间特征元素的索引。

定位单元1302，用于根据所述目标索引在所述字幕文件中定位段落转折的字符单句。

假设其中一个目标索引为5，所述定位单元1302则可在所述字幕文件中定位段落转折的字符单句为第5个字符单句，也就是说，第5个字符单句为一个字幕段落的起始位置，即所述字幕文件中第1-4个字符单句构成一个字幕段落。同理，可以定位M-1个段落转折的字符单句。

时间读取单元1303，用于根据所述段落转折的字符单句从所述字幕文件中读取段落变化时间。

由于所述字幕文件中记录了每个字符单句的关键信息，包括每个字符单句的开始时间和结束时间；所述时间读取单元1303以从所述字幕文件中读取段落变化时间，按照本实施例所示例子，所述字幕文件中第1-4个字符单句构成一个字幕段落，那么所读取的段落变化时间为：第4个字符单句的结束时间和第5个字符单句的开始时间。

本发明实施例还公开了一种终端，该终端可以为PC(Personal Computer，个人计算机)、笔记本电脑、手机、PAD(平板电脑)、车载终端、智能可穿戴设备等设备。该终端中可包括一音频处理装置，该装置的结构和功能可参见上述图10-图13所示实施例的相关描述，在此不赘述。

基于上述描述，下面将结合附图14-附图15，对本发明实施例提供的音频处理方法进行详细介绍。

请参见图14，为本发明实施例提供的一种音频处理方法的流程图；该方法可包括以下步骤S1401-步骤S1405。

S1401，获取目标音频文件的音频数据，所述音频数据包括至少一个音频帧。

一个音频文件包括音频数据，对音频文件进行解码(例如：PCM解码)可以获得音频数据(例如：PCM数据)。本步骤可以对目标音频文件进行解码，获得所述目标音频文件的音频数据。所述音频数据可包括至少一个音频帧，所述音频数据可以表示为所述至少一个音频帧顺序组成的一个帧序列。

本发明实施例中，设定所述音频数据包含N个音频帧，N为正整数，即N为所述音频数据的采样点数，所述音频数据可表示为x(n)，其中，n为正整数且n＝0,1,2,N-1。

S1402，根据所述至少一个音频帧的相关性构建峰值特征序列，所述峰值特征序列包括至少一个峰值特征元素。

所述峰值特征序列可用于反映所述至少一个音频帧的相似性。本步骤中，首先可采用相关计算公式计算所述至少一个音频帧的相关性，此处通过计算可获得所述至少一个音频帧的相关函数序列，假设采用r()表示相关函数，那么，相关计算可获得r(n)、r(n+1)、r(n+2)…r(N-2)、r(N-1)。其次可通过对所述至少一个音频帧的相关函数序列进行最大值、峰值等分析，构建峰值特征序列。

本发明实施例中，假设采用v(n)表示所述峰值特征序列。则所构建的峰值特征序列v(n)共包括N个波峰特征元素，分别为v(0)、v(1)…v(N-1)。其中，v(0)的数值可用于描述音频帧x(0)与其在后音频帧之间的相关性；v(1)的数值可用于描述x(1)与其在后音频帧之间的相关性；以此类推。

S1403，对所述峰值特征序列进行规整处理。

本步骤中，可以采用预设的间隔系数对应的扫描区间对所述峰值特征序列v(n)进行规整处理。规整处理的目的在于：使得所述峰值特征序列v(n)在所述预设的间隔系数对应的扫描区间内仅存在一个最大峰值，以保证后续段落划分的准确性。

S1404，根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间。

所述规整后的所述峰值特征序列v(n)中的各峰值特征元素的数值可用于描述音频帧之间的相关性，那么，本步骤可以根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定出现音频段落变化的时间。

S1405，按照所述段落变化时间对所述目标音频文件进行段落划分。按照所获得的音频段落变化的时间，可以对所述目标音频文件进行段落划分。

本发明实施例中，可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列，对所述峰值特征序列进行规整处理，并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间，按照所述段落变化时间对所述目标音频文件进行段落划分，该音频处理过程利用音频段落之间的音频帧的相关性特点，实现对目标音频文件的段落划分，可提升分段处理效率，提升音频处理的智能性。

请参见图15，为本发明实施例提供的另一种音频处理方法的流程图；该方法可包括以下步骤S1501-步骤S1510。

S1501，获取所述目标音频文件的类型，所述类型包括：双声道类型或单声道类型。

通常，互联网音频库中会存储多个音频文件及每个音频文件的属性，其中，音频文件的属性可包括但不限于：音频文件的音频特征、音频文件的标识、音频文件的类型等等。本步骤中，可以从互联网音频库中获取目标音频文件的类型；具体的获取方式可包括但不限于：可以根据目标音频文件的标识，在互联网音频库中查找该目标音频文件的类型；或者，可以提取目标音频文件的音频特征与互联网音频库中的音频文件的音频特征进行匹配，由此在互联网音频库中定位目标音频文件，并获取所述目标音频文件的类型。

S1502，若所述目标音频文件的类型为单声道类型，对所述目标音频文件从所述单声道输出的内容进行解码获得音频数据；或者，若所述目标音频文件的类型为双声道类型，从所述双声道中选取一个声道，对所述目标音频文件从所选取声道输出的内容进行解码获得音频数据；或者将所述双声道处理为混合声道，对所述目标音频文件从所述混合声道输出的内容进行解码获得音频数据。

其中，若所述目标音频文件的类型为单声道类型，则所述目标音频文件通过一个声道输出音频内容，本步骤需要对该单声道输出的音频内容进行解码获得音频数据。若所述目标音频文件的类型为双声道类型，则所述目标音频文件通过两个声道输出音频内容，本步骤可以选取一个声道输出的音频内容进行解码获得音频数据，另外，本步骤也可以首先可以采用Downmix等处理方式将两个声道处理为混合声道，再对混合声道输出的音频内容进行解码获得音频数据。

本实施例的步骤S1501-步骤S1502可以为图14所示实施例的步骤S1401 的具体细化步骤。

S1503，对所述至少一个音频帧中各音频帧进行相关计算，获得所述至少一个音频帧对应的相关函数序列。

可采用相关计算公式计算所述至少一个音频帧的相关性，该相关计算公式可表示如下：

上述公式(1)中，i为整数且0≤i≤N-1；m为整数且0≤i≤L；L为所述音频数据长度，假设所述音频数据的采样时间为T及采样率为f，则L＝f*T；M为采样值的最大值，例如：若采样值为16bit，M＝32767；若采样值为8bit，M＝255，等等。

通过上述公式(1)可计算获得所述至少一个音频帧的相关函数序列为r(n)、r(n+1)、r(n+2)…r(N-2)、r(N-1)。

S1504，对所述至少一个音频帧对应的相关函数序列进行最大值计算，生成基准序列。

所述基准序列可表示为D(n)，本步骤可采用最大值计算公式求取所述基准序列，该最大值计算公式可表示如下：

D(n)＝max(r(n),r(n+1),r(n+2)......r(N-2),r(N-1))(2)

上述公式(2)中，max()为最大值求取函数。

经过上述公式(2)所获得的基准序列D(n)，其共包括N个元素，分别为d(0)、d(1)…d(N-1)。

S1505，对所述基准序列进行峰值求取计算，获得所述峰值特征序列。

假设采用v(n)表示所述峰值特征序列。则所构建的峰值特征序列v(n)共包括N个波峰特征元素，分别为v(0)、v(1)…v(N-1)。其中，v(0)的数值可用于描述音频帧x(0)与其在后音频帧之间的相关性；v(1)的数值可用于描述x(1)与其在后音频帧之间的相关性；以此类推。本步骤中，对所述基准序列D(n)进行峰值求取计算，其计算原则为，如果元素d(i)(其中，i为整数且0≤i≤N-1)的数值大于或等于与d(i)前后相邻的元素的数值，则使得v(i)＝d(i)；如果元素d(i)的数值小于与d(i)前后相邻的任一元素的数值，则使得v(i)＝0。通过此计算原则，可以获得所述峰值特征序列v(n)的各峰值特征元素的数值。

本实施例的步骤S1503-步骤S1505可以为图14所示实施例的步骤S1402的具体细化步骤。

S1506，获取预设的间隔系数对应的扫描区间。

所述预设的间隔系数可以根据实际需要进行设定，假设所述预设的间隔系数为Q，那么，所述预设的间隔系数对应的扫描区间可以为[i-Q/2，i+Q/2](其中，i为整数且0≤i≤N-1)。

S1507，采用所述预设的间隔系数对应的扫描区间对所述峰值特征序列进行规整，将所述预设的间隔系数对应的扫描区间内的最大峰值对应的峰值特征元素的数值设置为目标值，将所述预设的间隔系数对应的扫描区间内除所述最大峰值对应的峰值特征元素之外的其他峰值特征元素的数值设置为初始值。

所述目标值和所述特征值可以根据实际需要进行设定，本发明实施例可设置所述目标值为1，所述参考值为0。

步骤S1506-步骤S1507对所述峰值特征序列v(n)规整处理的目的在于：使得所述峰值特征序列v(n)在所述预设的间隔系数对应的扫描区间内仅存在一个最大峰值，以保证后续段落划分的准确性。本实施例的步骤S1506-步骤S1507可以为图14所示实施例的步骤S1403的具体细化步骤。

S1508，从规整后的所述峰值特征序列中获取数值为目标值的峰值特征元素对应的目标索引。本步骤需要获取数值为1的峰值特征元素对应的目标索引，例如：假设v(i)＝1，本步骤可获得的目标索引即为i。

S1509，根据所述目标索引及所述目标音频文件的采样率，计算段落变化时间。

本步骤可以采用所述目标索引除以所述目标音频文件的采样率来获得段落变化时间，按照本实施例所示例子，所获得的目标索引为i，采样率为f，则某个段落变化时间为i/f，例如：若目标索引i＝441000，采样率f＝44100，那么i/f＝100，也就是说，所述目标音频文件中在100s的地方出现音频段落的变化。

S1510，按照所述段落变化时间对所述目标音频文件进行段落划分。按照所获得的音频段落变化的时间，可以对所述目标音频文件进行段落划分。

下述将结合附图16-附图20，对本发明实施例提供的音频处理装置的结构和功能进行详细介绍。需要说明的是，下述附图16-附图20的所示的装置可以运行于终端中，以被应用于执行上述附图14-附图15所示的方法。

请参见图16，为本发明实施例提供的一种音频处理装置的结构示意图；该装置可包括：获取单元1601、构建单元1602、规整处理单元1603、确定单元1604和分段单元1605。

获取单元1601，用于获取目标音频文件的音频数据，所述音频数据包括至少一个音频帧。

一个音频文件包括音频数据，对音频文件进行解码(例如：PCM解码)可以获得音频数据(例如：PCM数据)。所述获取单元1601可以对目标音频文件进行解码，获得所述目标音频文件的音频数据。所述音频数据可包括至少一个音频帧，所述音频数据可以表示为所述至少一个音频帧顺序组成的一个帧序列。

构建单元1602，用于根据所述至少一个音频帧的相关性构建峰值特征序列，所述峰值特征序列包括至少一个峰值特征元素。

所述峰值特征序列可用于反映所述至少一个音频帧的相似性。首先所述构建单元1602可采用相关计算公式计算所述至少一个音频帧的相关性，此处通过计算可获得所述至少一个音频帧的相关函数序列，假设采用r()表示相关函数，那么，相关计算可获得r(n)、r(n+1)、r(n+2)…r(N-2)、r(N-1)。其次所述构建单元1602可通过对所述至少一个音频帧的相关函数序列进行最大值、峰值等分析，构建峰值特征序列。

规整处理单元1603，用于对所述峰值特征序列进行规整处理。

所述规整处理单元1603可以采用预设的间隔系数对应的扫描区间对所述峰值特征序列v(n)进行规整处理。规整处理的目的在于：使得所述峰值特征序列v(n)在所述预设的间隔系数对应的扫描区间内仅存在一个最大峰值，以保证后续段落划分的准确性。

确定单元1604，用于根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间。

所述规整后的所述峰值特征序列v(n)中的各峰值特征元素的数值可用于描述音频帧之间的相关性，那么，所述确定单元1604可以根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定出现音频段落变化的时间。

分段单元1605，用于按照所述段落变化时间对所述目标音频文件进行段落划分。

按照所获得的音频段落变化的时间，所述分段单元1605可以对所述目标音频文件进行段落划分。

请参见图17，为图16所示的获取单元的实施例的结构示意图；该获取单元1601可包括：类型获取单元1701和解码单元1702。

类型获取单元1701，用于获取所述目标音频文件的类型，所述类型包括：双声道类型或单声道类型。

通常，互联网音频库中会存储多个音频文件及每个音频文件的属性，其中，音频文件的属性可包括但不限于：音频文件的音频特征、音频文件的标识、音频文件的类型等等。所述类型获取单元1701可以从互联网音频库中获取目标音频文件的类型；具体的获取方式可包括但不限于：可以根据目标音频文件的标识，在互联网音频库中查找该目标音频文件的类型；或者，可以提取目标音频文件的音频特征与互联网音频库中的音频文件的音频特征进行匹配，由此在互联网音频库中定位目标音频文件，并获取所述目标音频文件的类型。

解码单元1702，用于若所述目标音频文件的类型为单声道类型，对所述目标音频文件从所述单声道输出的内容进行解码获得音频数据；或者，用于若所述目标音频文件的类型为双声道类型，从所述双声道中选取一个声道，对所述目标音频文件从所选取声道输出的内容进行解码获得音频数据；或者将所述双声道处理为混合声道，对所述目标音频文件从所述混合声道输出的内容进行解码获得音频数据。

其中，若所述目标音频文件的类型为单声道类型，则所述目标音频文件通过一个声道输出音频内容，所述解码单元1702需要对该单声道输出的音频内容进行解码获得音频数据。若所述目标音频文件的类型为双声道类型，则所述目标音频文件通过两个声道输出音频内容，所述解码单元1702可以选取一个声道输出的音频内容进行解码获得音频数据，另外，所述解码单元1702也可以首先可以采用Downmix等处理方式将两个声道处理为混合声道，再对混合声道输出的音频内容进行解码获得音频数据。

请参见图18，为图16所示的构建单元的实施例的结构示意图；该构建单元1602可包括：相关计算单元1801、生成单元1802和序列求取单元1803。

相关计算单元1801，用于对所述至少一个音频帧中各音频帧进行相关计算，获得所述至少一个音频帧对应的相关函数序列。

所述相关计算单元1801可采用相关计算公式计算所述至少一个音频帧的相关性，该相关计算公式可表示如图2所示实施例中的公式(1)。通过上述公式(1)可计算获得所述至少一个音频帧的相关函数序列为r(n)、r(n+1)、r(n+2)…r(N-2)、r(N-1)。

生成单元1802，用于对所述至少一个音频帧对应的相关函数序列进行最大值计算，生成基准序列。

所述基准序列可表示为D(n)，所述生成单元1802可采用最大值计算公式求取所述基准序列，该最大值计算公式可表示为图2所示实施例中的公式(2)。经过上述公式(2)所获得的基准序列D(n)，其共包括N个元素，分别为d(0)、d(1)…d(N-1)。

序列求取单元1803，用于对所述基准序列进行峰值求取计算，获得所述峰值特征序列。

假设采用v(n)表示所述峰值特征序列。则所构建的峰值特征序列v(n)共包括N个波峰特征元素，分别为v(0)、v(1)…v(N-1)。其中，v(0)的数值可用于描述音频帧x(0)与其在后音频帧之间的相关性；v(1)的数值可用于描述x(1)与其在后音频帧之间的相关性；以此类推。所述序列求取单元1803对所述基准序列D(n)进行峰值求取计算，其计算原则为，如果元素d(i)(其中，i为整数且0≤i≤N-1)的数值大于或等于与d(i)前后相邻的元素的数值，则使得v(i)＝d(i)；如果元素d(i)的数值小于与d(i)前后相邻的任一元素的数值，则使得v(i)＝0。通过此计算原则，可以获得所述峰值特征序列v(n)的各峰值特征元素的数值。

请参见图19，为图16所示的规整处理单元的实施例的结构示意图；该规整处理单元1603可包括：区间获取单元1901和规整单元1902。

区间获取单元1901，用于获取预设的间隔系数对应的扫描区间。

规整单元1902，用于采用所述预设的间隔系数对应的扫描区间对所述峰值特征序列进行规整，将所述预设的间隔系数对应的扫描区间内的最大峰值对应的峰值特征元素的数值设置为目标值，将所述预设的间隔系数对应的扫描区间内除所述最大峰值对应的峰值特征元素之外的其他峰值特征元素的数值设置为初始值。所述目标值和所述特征值可以根据实际需要进行设定，本发明实施例可设置所述目标值为1，所述参考值为0。

对所述峰值特征序列v(n)规整处理的目的在于：使得所述峰值特征序列v(n)在所述预设的间隔系数对应的扫描区间内仅存在一个最大峰值，以保证后续段落划分的准确性。

请参见图20，为图16所示的确定单元的实施例的结构示意图；该确定单元1604可包括：目标索引获取单元2001和时间计算单元2002。

目标索引获取单元2001，用于从规整后的所述峰值特征序列中获取数值为目标值的峰值特征元素对应的目标索引。

按照图19所示实施例所示的例子，所述目标索引获取单元2001需要获取数值为1的峰值特征元素对应的目标索引，例如：假设v(i)＝1，所述目标索引获取单元2001可获得的目标索引即为i。

时间计算单元2002，用于根据所述目标索引及所述目标音频文件的采样率，计算段落变化时间。

所述时间计算单元2002，可以采用所述目标索引除以所述目标音频文件的采样率来获得段落变化时间，按照本实施例所示例子，所获得的目标索引为i，采样率为f，则某个段落变化时间为i/f，例如：若目标索引i＝441000，采样率f＝44100，那么i/f＝100，也就是说，所述目标音频文件中在100s的地方出现音频段落的变化。

本发明实施例还公开了一种终端，该终端可以为PC(Personal Computer，个人计算机)、笔记本电脑、手机、PAD(平板电脑)、车载终端、智能可穿戴设备等设备。该终端中可包括一音频处理装置，该装置的结构和功能可参见上述图16-图20所示实施例的相关描述，在此不赘述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种音频处理方法，其特征在于，包括：

获取目标音频文件的文件数据；

根据所述文件数据的组成元素之间的相关性特征数据，构建相关性特征序列；

按照预设段落总数对所述相关性特征序列进行优化；

根据优化后的所述相关性特征序列中的至少一个特征元素的数值确定段落变化时间；

按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。
根据权利要求1所述的方法，其特征在于，根据所述文件数据的组成元素之间的相关性特征数据，构建相关性特征序列包括：

所述文件数据是指字幕文件，所述字幕文件由至少一个字符单句顺序组成，根据所述至少一个字符单句之间的相似度构建字幕特征序列，所述字幕特征序列包括至少一个字符特征元素。
如权利要求2所述的方法，其特征在于，所述根据所述至少一个字符单句之间的相似度构建字幕特征序列，包括：

根据所述至少一个字符单句的数量确定构建字幕特征序列的字符特征元素的数量；根据所述至少一个字符单句中各字符单句的顺序，确定构建所述字幕特征序列的各字符特征元素的索引；将构建所述字幕特征序列的各字符特征元素的数值均设置为初始值；针对所述至少一个字符单句中的任一个目标字符单句，若所述目标字符单句与所述目标字符单句的在后字符单句之间的最大相似度大于预设相似阀值，将所述目标字符单句对应的字符特征元素的数值从初始值变更为目标值；按照构建所述字幕特征序列的字符特征元素的数量、索引及数值，构建所述字幕特征序列。
如权利要求3所述的方法，其特征在于，所述按照预设段落总数对所述相关性特征序列进行优化，包括：

统计所述字幕特征序列中数值为目标值的字符特征元素的数量；判断所述数量是否位于所述预设段落总数对应的容错区间内；若否，调整所述预设相似阀值的大小以调整所述字幕特征序列中的各字符特征元素的数值。
如权利要求4所述的方法，其特征在于，所述若否，调整所述预设相似阀值的大小以调整所述字幕特征序列中的各字符特征元素的数值，包括：

若所述数量大于所述预设段落总数对应的容错区间内的最大容错值，按照预设步长增大所述预设相似阀值以调整所述字幕特征序列中的各字符特征元素的数值；若所述数量小于所述预设段落总数对应的容错区间内的最大容错值，按照预设步长减小所述预设相似阀值以调整所述字幕特征序列中的各字符特征元素的数值。
如权利要求5所述的方法，其特征在于，所述根据优化后的所述相关性特征序列中的至少一个特征元素的数值确定段落变化时间，包括：

从优化后的所述字幕特征序列中获取数值为目标值的字符特征元素对应的目标索引；根据所述目标索引在所述字幕文件中定位段落转折的字符单句；根据所述段落转折的字符单句从所述字幕文件中读取段落变化时间。
根据权利要求1所述的方法，其特征在于，根据所述文件数据的组成元素之间的相关性特征数据，构建相关性特征序列包括：

所述文件数据是指字幕文件，所述字幕文件由至少一个字符单句顺序组成，根据所述至少一个字符单句之间的时间间隔构建时间特征序列，所述时间特征序列包括至少一个时间特征元素。
如权利要求7所述的方法，其特征在于，所述根据所述至少一个字符单句之间的时间间隔构建时间特征序列，包括：

根据所述至少一个字符单句的数量确定构建时间特征序列的时间特征元素的数量；根据所述至少一个字符单句中各字符单句的顺序，确定构建所述时间特征序列的各时间特征元素的索引；针对所述至少一个字符单句中的任一个目标字符单句，将所述目标字符单句与所述目标字符单句的相邻在先字符单句之间的时间间隔设置为所述目标字符单句对应的时间特征元素的数值；按照构建所述时间特征序列的时间特征元素的数量、索引及数值，构建所述时间特征序列。
如权利要求8所述的方法，其特征在于，所述按照预设段落总数对所述相关性特征序列进行优化，包括：

从所述时间特征序列中查找前预设段落数量减1个最大数值的时间特征元素；将查找到的时间特征元素的数值调整为目标值，将所述时间特征序列中除查找到的时间特征元素之外的其他时间特征元素的数值调整为参考值。
如权利要求9所述的方法，其特征在于，所述根据优化后的所述相关性特征序列中的至少一个特征元素的数值确定段落变化时间，包括：

从调整后的所述时间特征序列中获取数值为目标值的时间特征元素对应的目标索引；根据所述目标索引在所述字幕文件中定位段落转折的字符单句；根据所述段落转折的字符单句从所述字幕文件中读取段落变化时间。
根据权利要求1所述的方法，其特征在于，根据所述文件数据的组成元素之间的相关性特征数据，构建相关性特征序列包括：

所述文件数据是指音频数据，所述音频数据包括至少一个音频帧，根据所述至少一个音频帧的相关性构建峰值特征序列，所述峰值特征序列包括至少一个峰值特征元素。
如权利要求11所述的方法，其特征在于，所述根据所述至少一个音频帧的相关性构建峰值特征序列，包括：

对所述至少一个音频帧中各音频帧进行相关计算，获得所述至少一个音频帧对应的相关函数序列；对所述至少一个音频帧对应的相关函数序列进行最大值计算，生成基准序列；对所述基准序列进行峰值求取计算，获得所述峰值特征序列。
如权利要求12所述的方法，其特征在于，所述按照预设段落总数对所述相关性特征序列进行优化，包括：

获取预设的间隔系数对应的扫描区间；采用所述预设的间隔系数对应的扫描区间对所述峰值特征序列进行规整，将所述预设的间隔系数对应的扫描区间内的最大峰值对应的峰值特征元素的数值设置为目标值，将所述预设的间隔系数对应的扫描区间内除所述最大峰值对应的峰值特征元素之外的其他峰值特征元素的数值设置为初始值。
如权利要求13所述的方法，其特征在于，所述根据优化后的所述相关性特征序列中的至少一个特征元素的数值确定段落变化时间，包括：

从规整后的所述峰值特征序列中获取数值为目标值的峰值特征元素对应的目标索引；根据所述目标索引及所述目标音频文件的采样率，计算段落变化时间。
如权利要求11所述的方法，其特征在于，所述获取目标音频文件的文件数据，包括：

获取所述目标音频文件的类型，所述类型包括：双声道类型或单声道类型；

若所述目标音频文件的类型为单声道类型，对所述目标音频文件从所述单声道输出的内容进行解码获得音频数据；

若所述目标音频文件的类型为双声道类型，从所述双声道中选取一个声道，对所述目标音频文件从所选取声道输出的内容进行解码获得音频数据；或者将所述双声道处理为混合声道，对所述目标音频文件从所述混合声道输出的内容进行解码获得音频数据。
如权利要求1-10任一项所述的方法，其特征在于，所述字幕文件包括至少一个字符单句及各字符单句的关键信息；一个字符单句的关键信息包括：标识、开始时间和结束时间。
一种音频处理装置，其特征在于，包括：

获取单元，用于获取目标音频文件的文件数据；

构建单元，用于根据所述文件数据的组成元素之间的相关性特征数据，构建相关性特征序列；

优化单元，用于按照预设段落总数对所述相关性特征序列进行优化；

确定单元，用于根据优化后的所述相关性特征序列中的至少一个特征元素的数值确定段落变化时间；

分段单元，用于按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。
如权利要求17所述的装置，其特征在于，所述构建单元用于所述文件数据是指字幕文件，所述字幕文件由至少一个字符单句顺序组成，根据所述至少一个字符单句之间的相似度构建字幕特征序列，所述字幕特征序列包括至少一个字符特征元素；或，

所述构建单元用于所述文件数据是指字幕文件，所述字幕文件由至少一个字符单句顺序组成，根据所述至少一个字符单句之间的时间间隔构建时间特征序列，所述时间特征序列包括至少一个时间特征元素；或，

所述构建单元用于所述文件数据是指音频数据，所述音频数据包括至少一个音频帧，根据所述至少一个音频帧的相关性构建峰值特征序列，所述峰值特征序列包括至少一个峰值特征元素。
如权利要求18所述的装置，其特征在于，所述构建单元包括：

数量确定单元，用于根据所述至少一个字符单句的数量确定构建字幕特征序列的字符特征元素的数量；

索引确定单元，用于根据所述至少一个字符单句中各字符单句的顺序，确定构建所述字幕特征序列的各字符特征元素的索引；

数值设置单元，用于将构建所述字幕特征序列的各字符特征元素的数值均设置为初始值；

数值变更单元，用于针对所述至少一个字符单句中的任一个目标字符单句，若所述目标字符单句与所述目标字符单句的在后字符单句之间的最大相似度大于预设相似阀值，将所述目标字符单句对应的字符特征元素的数值从初始值变更为目标值；

序列构建单元，用于按照构建所述字幕特征序列的字符特征元素的数量、索引及数值，构建所述字幕特征序列。
如权利要求18所述的装置，其特征在于，所述构建单元包括：

数量确定单元，用于根据所述至少一个字符单句的数量确定构建时间特征序列的时间特征元素的数量；

索引确定单元，用于根据所述至少一个字符单句中各字符单句的顺序，确定构建所述时间特征序列的各时间特征元素的索引；

数值设置单元，用于针对所述至少一个字符单句中的任一个目标字符单句，将所述目标字符单句与所述目标字符单句的相邻在先字符单句之间的时间间隔设置为所述目标字符单句对应的时间特征元素的数值；

序列构建单元，用于按照构建所述时间特征序列的时间特征元素的数量、索引及数值，构建所述时间特征序列。
如权利要求18所述的装置，其特征在于，所述构建单元包括：

相关计算单元，用于对所述至少一个音频帧中各音频帧进行相关计算，获得所述至少一个音频帧对应的相关函数序列；

生成单元，用于对所述至少一个音频帧对应的相关函数序列进行最大值计算，生成基准序列；

序列求取单元，用于对所述基准序列进行峰值求取计算，获得所述峰值特征序列。
如权利要求19所述的装置，其特征在于，所述优化单元包括：

数量统计单元，用于统计所述字幕特征序列中数值为目标值的字符特征元素的数量；

判断单元，用于判断所述数量是否位于所述预设段落总数对应的容错区间内；

优化处理单元，用于若判断结果为否，调整所述预设相似阀值的大小以调整所述字幕特征序列中的各字符特征元素的数值。
如权利要求22所述的装置，其特征在于，所述优化处理单元包括：

第一调整单元，用于若所述数量大于所述预设段落总数对应的容错区间内的最大容错值，按照预设步长增大所述预设相似阀值以调整所述字幕特征序列中的各字符特征元素的数值；

第二调整单元，用于若所述数量小于所述预设段落总数对应的容错区间内的最大容错值，按照预设步长减小所述预设相似阀值以调整所述字幕特征序列中的各字符特征元素的数值。
如权利要求19所述的装置，其特征在于，所述确定单元包括：

目标索引获取单元，用于从优化后的所述字幕特征序列中获取数值为目标值的字符特征元素对应的目标索引；

定位单元，用于根据所述目标索引在所述字幕文件中定位段落转折的字符单句；

时间读取单元，用于根据所述段落转折的字符单句从所述字幕文件中读取段落变化时间。
如权利要求19所述的装置，其特征在于，所述优化单元包括：

元素查找单元，用于从所述时间特征序列中查找前预设段落数量减1个最大数值的时间特征元素；

数值调整单元，用于将查找到的时间特征元素的数值调整为目标值，将所述时间特征序列中除查找到的时间特征元素之外的其他时间特征元素的数值调整为参考值。
如权利要求19所述的装置，其特征在于，所述确定单元包括：

目标索引获取单元，用于从调整后的所述时间特征序列中获取数值为目标值的时间特征元素对应的目标索引；

定位单元，用于根据所述目标索引在所述字幕文件中定位段落转折的字符单句；

时间读取单元，用于根据所述段落转折的字符单句从所述字幕文件中读取段落变化时间。
如权利要求19至26任一项所述的装置，其特征在于，所述字幕文件包括至少一个字符单句及各字符单句的关键信息；

一个字符单句的关键信息包括：标识、开始时间和结束时间。
如权利要求19所述的装置，其特征在于，所述优化单元包括：

区间获取单元，用于获取预设的间隔系数对应的扫描区间；

规整单元，用于采用所述预设的间隔系数对应的扫描区间对所述峰值特征序列进行规整，将所述预设的间隔系数对应的扫描区间内的最大峰值对应的峰值特征元素的数值设置为目标值，将所述预设的间隔系数对应的扫描区间内除所述最大峰值对应的峰值特征元素之外的其他峰值特征元素的数值设置为初始值。
如权利要求19所述的装置，其特征在于，所述确定单元包括：

目标索引获取单元，用于从规整后的所述峰值特征序列中获取数值为目标值的峰值特征元素对应的目标索引；

时间计算单元，用于根据所述目标索引及所述目标音频文件的采样率，计算段落变化时间。
如权利要求19所述的装置，其特征在于，所述获取单元包括：

类型获取单元，用于获取所述目标音频文件的类型，所述类型包括：双声道类型或单声道类型；

解码单元，用于若所述目标音频文件的类型为单声道类型，对所述目标音频文件从所述单声道输出的内容进行解码获得音频数据；或者，用于若所述目标音频文件的类型为双声道类型，从所述双声道中选取一个声道，对所述目标音频文件从所选取声道输出的内容进行解码获得音频数据；或者将所述双声道处理为混合声道，对所述目标音频文件从所述混合声道输出的内容进行解码获得音频数据。
一种终端，其特征在于，包括如权利要求17-30任一项所述的音频处理装置。