WO2020200178A1

WO2020200178A1 - 语音合成方法、装置和计算机可读存储介质

Info

Publication number: WO2020200178A1
Application number: PCT/CN2020/082172
Authority: WO
Inventors: 武执政; 张政臣; 宋伟; 饶永辉; 解知杭; 徐光辉; 刘树勇; 马博森; 邱双稳; 林隽民
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-04-03
Filing date: 2020-03-30
Publication date: 2020-10-08
Anticipated expiration: 2021-10-03
Also published as: CN111798832A; JP2022527970A; EP3937165C0; CN111798832B; EP3937165A1; US20220165249A1; JP7464621B2; EP3937165B1; EP3937165A4; US11881205B2

Abstract

一种语音合成方法，该方法包括：将文本划分为属于不同语言种类的多个片段（S102）；根据各个片段属于的语言种类，将各个片段分别转换为对应的音素，生成文本的音素序列（S104）；将音素序列输入预先训练的语音合成模型，转换为声码器特征参数（S106）；将声码器特征参数输入声码器，生成语音（S108）。

Description

语音合成方法、装置和计算机可读存储介质

相关申请的交叉引用

本申请是以CN申请号为201910266289.4，申请日为2019年4月3日的申请为基础，并主张其优先权，该CN申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及计算机技术领域，特别涉及一种语音合成方法、装置和计算机可读存储介质。

背景技术

语音合成系统能够实现文本到语音的转换(Text To Speech，TTS)，可以将文本通过一系列的算法操作转换为声音，实现机器模拟人进行发音的过程。

目前的语音合成系统，一般只能支持单独一种语言的发音。

发明内容

发明人发现：目前的语音合成系统一般只支持中文或只支持英文发音，无法实现多种语言的流畅发音。

本公开所要解决的一个技术问题是：如何实现支持多种语言发音的端到端的语音合成系统。

根据本公开的一些实施例，提供的一种语音合成方法，包括：将文本划分为属于不同语言种类的多个片段；根据各个片段属于的语言种类，将各个片段分别转换为对应的音素，生成文本的音素序列；将音素序列输入预先训练的语音合成模型，转换为声码器特征参数；将声码器特征参数输入声码器，生成语音。

在一些实施例中，将文本划分为属于不同语言种类的多个片段包括：根据文本中各个字符的编码，识别各个字符属于的语言种类；将属于同一语言种类的连续字符划分为该语言种类的一个片段。

在一些实施例中，生成文本的音素序列包括：确定文本的韵律结构；根据文本的韵律结构，在与文本中各个字符对应的音素后添加韵律标识，以形成文本的音素序列。

在一些实施例中，将音素序列输入预先训练的语音合成模型，转换为声码器特征参数包括：将音素序列输入语音合成模型中的声学参数预测模型，转换为声学特征参数；将声学特征参数输入语音合成模型中声码器参数转换模型，得到输出的声码器特征参数。

在一些实施例中，声学参数预测模型包括：编码器、解码器和注意力模型；将音素序列输入语音合成模型中的声学参数预测模型，转换为声学特征参数包括：利用注意力模型，确定当前时刻编码器输出的各个特征表示的注意力权重；判断音素序列中预设元素对应的特征表示的注意力权重是否为各个注意力权重中的最大值，如果是，则结束解码过程。

在一些实施例中，声学特征参数包括语音频谱参数；声码器参数转换模型由多层深度神经网络和长短期记忆网络构成。

在一些实施例中，在声学特征参数的频率小于声码器特征参数的频率的情况下，通过重复声学特征参数进行上采样，使声学特征参数的频率等于声码器特征参数的频率。

在一些实施例中，该方法还包括：训练语音合成模型；其中，训练方法包括：根据预设频率将各个训练文本对应的语音样本划分为不同的帧，并针对每帧提取声学特征参数，分别生成与各个训练文本对应的第一声学特征参数样本；利用各个训练文本和各个训练文本对应的第一声学特征参数样本，对声学参数预测模型进行训练；利用训练完成的声学参数预测模型，将各个训练文本分别转换为第二声学特征参数样本；根据声码器的合成频率，将各个训练文本对应的语音样本分别转换为声码器特征参数样本；利用各个训练文本对应的第二声学特征参数样本和声码器特征参数样本对声码器参数转换模型进行训练。

在一些实施例中，声学参数预测模型包括：编码器、解码器和注意力模型；将音素序列输入语音合成模型中的声学参数预测模型，转换为声学特征参数包括：将音素序列输入编码器，获得编码器输出音素序列中各个元素对应的特征表示；将各个元素对应的特征表示、解码器中第一循环层当前时刻输出的解码器隐状态，以及上一时刻各个元素对应的累积注意力权重信息输入注意力模型，获得上下文向量；将解码器中第一循环层当前时刻输出的解码器隐状态和上下文向量输入解码器的第二循环层，获得解码器第二循环层输出的当前时刻的解码器隐状态；根据解码器输出的各个时刻的解码器隐状态预测声学特征参数。

在一些实施例中，根据各个片段属于的语言种类，将各个片段分别转换为对应的音素包括：根据各个片段属于的语言种类，将各个片段分别进行文本归一化；根据各个片段属于的语言种类，将归一化后的各个片段分别进行分词；将各个片段的分词，根据各个片段属于的语言种类对应的预设的音素转换表转换为对应的音素；其中，音素包括字符对应的音调。

根据本公开的另一些实施例，提供的一种语音合成装置，包括：语言识别模块，用于将文本划分为属于不同语言种类的多个片段；音素转换模块，用于根据各个片段属于的语言种类，将各个片段分别转换为对应的音素，生成文本的音素序列；参数转换模块，用于将音素序列输入预先训练的语音合成模型，转换为声码器特征参数；语音生成模块，用于将声码器特征参数输入声码器，生成语音。

在一些实施例中，语言识别模块用于根据文本中各个字符的编码，识别各个字符属于的语言种类；将属于同一语言种类的连续字符划分为该语言种类的一个片段。

在一些实施例中，音素转换模块用于确定文本的韵律结构；根据文本的韵律结构，在与文本中各个字符对应的音素后添加韵律标识，以形成文本的音素序列。

在一些实施例中，参数转换模块用于将音素序列输入语音合成模型中的声学参数预测模型，转换为声学特征参数；将声学特征参数输入语音合成模型中声码器参数转换模型，得到输出的声码器特征参数。

在一些实施例中，声学参数预测模型包括：编码器、解码器和注意力模型；参数转换模块用于利用注意力模型，确定当前时刻编码器输出的各个特征表示的注意力权重；判断音素序列中预设元素对应的特征表示的注意力权重是否为各个注意力权重中的最大值，如果是，则结束解码过程。

在一些实施例中，模型训练模块，用于根据预设频率将各个训练文本对应的语音样本划分为不同的帧，并针对每帧提取声学特征参数，分别生成与各个训练文本对应的第一声学特征参数样本；利用各个训练文本和各个训练文本对应的第一声学特征参数样本，对声学参数预测模型进行训练；利用训练完成的声学参数预测模型，将各个训练文本分别转换为第二声学特征参数样本；根据声码器的合成频率，将各个训练文本对应的语音样本分别转换为声码器特征参数样本；利用各个训练文本对应的第二声学特征参数样本和声码器特征参数样本对声码器参数转换模型进行训练。

在一些实施例中，声学参数预测模型包括：编码器、解码器和注意力模型；参数转换模块用于将音素序列输入编码器，获得编码器输出音素序列中各个元素对应的特征表示；将各个元素对应的特征表示、解码器中第一循环层当前时刻输出的解码器隐状态，以及上一时刻各个元素对应的累积注意力权重信息输入注意力模型，获得上下文向量；将解码器中第一循环层当前时刻输出的解码器隐状态和上下文向量输入解码器的第二循环层，获得解码器第二循环层输出的当前时刻的解码器隐状态；根据解码器输出的各个时刻的解码器隐状态预测声学特征参数。

在一些实施例中，音素转换模块用于根据各个片段属于的语言种类，将各个片段分别进行文本归一化；根据各个片段属于的语言种类，将归一化后的各个片段分别进行分词；将各个片段的分词，根据各个片段属于的语言种类对应的预设的音素转换表转换为对应的音素；其中，音素包括字符对应的音调。

根据本公开的又一些实施例，提供的一种语音合成装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行如前述任意实施例的语音合成方法。

根据本公开的再一些实施例，提供的一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现前述任意实施例的语音合成方法。

本公开中首先识别文本中的语言种类，将文本划分为属于不同语言种类的多个片段。根据各个片段属于的语言种类，将各个片段分别转换为对应的音素。文本的音素序列被输入语音合成模型转换为声码器特征参数，声码器根据声码器特征参数输出语音。本公开的方案实现了支持多种语言的发音的端到端的语音合成系统。并且根据音素序列转换为声码器特征参数，相对于字符序列直接转换为声码器特征参数，能够使合成的语音更加的准确、流畅和自然。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明被配置为解释本公开，并不构成对本公开的不当限定。在附图中：

图1示出本公开的一些实施例的语音合成方法的流程示意图。

图2示出本公开的一些实施例的语音合成模型的结构示意图。

图3示出本公开的另一些实施例的语音合成方法的流程示意图。

图4示出本公开的一些实施例的语音合成装置的结构示意图。

图5示出本公开的另一些实施例的语音合成装置的结构示意图。

图6示出本公开的又一些实施例的语音合成装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开提出一种语音合成方法，下面结合图1进行描述。

图1为本公开语音合成方法一些实施例的流程图。如图1所示，该实施例的方法包括：步骤S102～S108。

在步骤S102中，将文本划分为属于不同语言种类的多个片段。

在一些实施例中，根据文本中各个字符的编码，识别各个字符属于的语言种类；将属于同一语言种类的连续字符划分为该语言种类的一个片段。例如，文本中包含中文和英文字符的情况，可以获取文本中字符的Unicode码或其他编码，根据Unicode码分别识别文本中中文字符和英文字符，进而将文本划分为不同语言的多个片段。如果包含其他语言(例如，日语、法语等)的字符可以根据对应的编码形式进行识别。

下面以文本包含中文和英文为例，描述划分属于不同语言种类的多个片段的具体实施例。(1)根据句子中字符的编码，确定句子中是否存在英文字符，如果不存在执行(2)，否则执行(3)。(2)将句子标记为中文句子。(3)确定句子中是否存在中文字符，如果不存在执行(4)，否则执行(7)。(4)判断句子是否只包含预设英文字符，预设英文字符可以包括计量单位、缩写和英文编号中至少一项，如果是，执行(5)，否则执行(6)。(5)将该句子标记为中文句子。(6)将该句子标记为英文句子。(7)对句子划分中文片段和英文片段。

上述实施例中在句子中只包含预设英文字符的情况下，将句子标记为中文句子，便于后续按照中文将预设的英文字符进行归一化，例如12km/h这样的预设英文字符，可以后续进行归一化时转换为12千米每小时，后续发出的语音则是中文读法，更加符合中文用户的习惯。本领域技术人员可以理解，参考上述实施例，在句子中只包含一些特殊国际通用字符的情况下，可以根据发音需求将句子标记为预设语言种类，便于后续的文本归一化和语音合成的处理。

上述步骤(7)可以包括以下步骤。(i)判断当前字符的语言种类是否和上一字符的语言种类相同，如果相同，执行(ii)，否则执行(iv)。(ii)将当前字符移入当前片段集合。(iii)判断是否到达句尾，如果是，则执行(iv)，否则执行(v)，(iv)将当前片段集合中的字符标记语言种类，并从当前片段集合移出。(v)将下一字符更新为当前字符，并返回(i)重新开始执行。

在步骤S104中，根据各个所述片段属于的语言种类，将各个片段分别转换为对应的音素，生成文本的音素序列。

在一些实施例中，根据各个片段属于的语言种类，将各个片段分别进行文本归一化；根据各个片段属于的语言种类，将归一化后的各个片段分别进行分词；将各个片段的分词，根据该片段属于的语言种类对应的预设的音素转换表转换为对应的音素。文本中通常包含大量的不规范的缩写，例如12km/s、2019年等，必须通过归一化操作将这些不规范的文本转换为适合语音合成系统进行语音合成的规范文本。属于不同语言种类的片段需要分别进行文本归一化，可以分别根据不同语言种类的特殊字符对照表，将不规范的字符转换为规范字符，例如，将12km/s转换为十二千米每秒，便于后续的音素转换。

由于不同语言的分词方式不同，例如，英文按照单词进行分词，而中文需要根据语义信息等进行分词。因此，根据各个片段属于的语言种类，将各个片段分别进行分词。可以通过查询不同语言种类对应的预设的音素转换表，将各个分词转换为对应的音素(G2P)。一些预设的音素转换表里不存在的单词(OOV)，例如拼写错误的单词、新创建的单词、网络单词等，可以通过神经网络等现有技术进行音素转换。预设的音素转换表可以包括多音字的音素对应关系，以便对多音字进行准确的音素转换。也可以通过其他方式识别多音字，或通过其他现有技术进行音素转换，不限于所举示例。

在一些实施例中，音素可以包括字符对应的音调，将音调作为音素的一部分，可以使合成的语音更加的准确和自然。一些语言例如英语等，没有音调，则不需要在音素序列里添加对应的音调标识。在一些实施例中，还可以对文本划分韵律结构，例如识别文本中的韵律词、韵律短语等。根据文本的韵律结构，在与文本中各个字符对应的音素后添加韵律标识，以形成文本的音素序列。韵律标识可以是韵律词或韵律短语对应的音素后添加的一个表示停顿的特殊标识。韵律结构的预测可以采用现有技术，在此不再赘述。

在步骤S106中，将音素序列输入预先训练的语音合成模型，转换为声码器特征参数。

根据上述实施例，文本的音素序列可以包括每个字符对应的音素(包括音调)、韵律标识，还可以包括一些特殊符号，例如表示输入的音素序列结束的符号<EOS>。语音合成模型的训练过程后续将进行描述。

在一些实施例中，语音合成模型可以包括声学参数预测模型和声码器参数转换模型。声学参数例如包括语音频谱参数，例如，梅尔频谱参数或线性谱参数等。声码器参数根据实际使用的声码器进行确定，例如，声码器采用world声码器，则声码器参数可以包括基频(fundamental frequency，F0)、广义梅尔倒谱系数(Mel-generalized Cepstral，MGC),频带非周期分量(band a periodical，BAP)等。将音素序列输入语音合成模型中的声学参数预测模型，可以转换为声学特征参数；将声学特征参数输入语音合成模型中声码器参数转换模型，可以得到输出的声码器特征参数。

声学特征参数预测模型采用Encoder-Decoder网络结构，包括：编码器、解码器和注意力(Attention)模型。输入的音素序列和输出的声学特征参数序列的长度可以是不匹配的，通常声学特征参数序列会比较长。基于Encoder-Decoder的神经网络结构可以进行灵活的特征预测，符合语音合成的特性。编码器可以包含三层一维卷积和双向LSTM(Long Short-Term Memory，长短期记忆网络)。三层一维卷积可以学习得到每个音素的局部上下文信息，双向LSTM编码则计算得到了每个音素的双向全局信息。编码器模块通过三层一维卷积和双向LSTM编码能够得到输入音素的非常具有表现力并且包含上下文信息的特征表示。

解码器例如包含两层全连接层和两层LSTM。两层全连接层可以采用Dropout技术防止神经网络过拟合现象的发生。注意力模型使得解码器在解码过程中可以学习到当前解码时刻需要将注意力关注到哪些输入的音素的内部表示上，通过注意力机制，解码器还可以学习到哪些输入的音素已经完成参数预测，以及当前时刻需要特别关注哪些音素。注意力模型得到了的编码器的上下文向量，在解码的过程中，通过结合这个上下文向量，可以更好的预测当前时刻需要得到的声学参数以及是否结束解码过程。

在一些实施例中，声学特征参数预测模型中可以执行以下步骤。将音素序列输入编码器，获得编码器输出音素序列中各个元素对应的特征表示。将各个元素对应的特征表示、解码器中第一循环层(例如第一LSTM)当前时刻输出的解码器隐状态，以及上一时刻各个元素对应的累积注意力权重信息输入注意力模型，获得上下文向量。将解码器中第一循环层当前时刻输出的解码器隐状态和上下文向量输入解码器的第二循环层，获得解码器第二循环层输出的当前时刻的解码器隐状态；根据解码器输出的各个时刻的解码器隐状态预测声学特征参数。例如将解码器隐状态序列进行线性变换得到声学特征参数。

例如，输入音素序列为X＝[x ₁,x ₂,…,x _j,…x _M]，编码器输出的特征表示序列为H＝[h ₁,h ₂,…,h _j,…h _M],j表示输入音素序列中的各个元素所在的位置，M表示音素序列中元素的总个数。解码器输出的隐状态序列为S＝[s ₁,s ₂,…,s _i,…]，i表示解码器输出的时间步骤。音素序列中的韵律标识也会被转换为对应的隐状态，进而转换为解码器隐状态。

例如，上下文向量可以采用以下公式计算。

e _i,j＝v ^Ttanh(Ws _i+Vh _j+Uf _i,j+b) (1)

f _i＝F*α _i-1 (2)

β _i＝softmax(e _i) (3)

其中，i表示的是解码器的时间步骤，j表示编码器对应的音素序列中元素的位置，i和j为正整数。v，W，V，U，b是模型训练时学习到的参数，s _i表示解码器中第一循环层(例如第一LSTM)当前第i个时刻输出的解码器隐状态。h _j表示第j个元素对应的特征表示，f _i,j是f _i中的向量，F是一个预设长度的卷积核，α _i-1是第i-1时刻各个元素对应的累积注意力权重信息(Alignments)，e _i,j为数值，e _i表示各个元素对应的组成的向量，β _i为向量，β _i,j表示β _i中的数值，c _i表示第i个时刻对应的上下文向量，M表示音素序列中元素的总个数。

在一些实施例中，利用所述注意力模型，确定当前时刻编码器输出的各个特征表示的注意力权重；判断音素序列中预设元素对应的特征表示的注意力权重是否为各个注意力权重(即输入音素序列中所有元素对应的注意力权重)中的最大值，如果是，则结束解码过程。特征表示的注意力权重由注意力模型生成。例如预设元素为音素序列最后一个<EOS>符号。

上述判断是否停止解码的方法，可以使解码器根据实际需求停止解码。通过学习到的Alignments信息判断是否需要结束解码过程。如果解码的时候注意力模型已经将注意力转移到了最后符号，但是没有正确的预测结束解码过程，系统可以根据这个Alignments信息强制结束解码过程。上述辅助解码结束算法，能够很好的解决模型预测解码过程结束失败或者预测结束不正确的问题，避免声学参数预测模型会继续预测若干帧的声学特征出来，最终合成一些无法理解的语音，提高系统语音输出的准确性、流畅性和自然度。

在预测得到输入音素序列的声学特征参数之后，将声学特征参数(例如梅尔谱参数)输入声码器参数转换模型转换为声码器特征参数，然后就可以通过声码器进行语音合成。

声码器参数转换模型可以采用DNN-LSTM(深度神经网络-长短期记忆网络)的神经网络结构。该网络结构可以包含多层深度神经网络和长短期记忆网络构成。例如，如图2所示，该网络结构包含两层ReLU(激活函数)连接和一层LSTM。声学特征参数首先被输入DNN网络(例如ReLU)，可以学习声学特征的非线性变换，学习神经网络内部特征表示，相当于一个特征学习的过程。DNN网络输出的特征被输入LSTM学习到声学特征参数的历史依赖信息，以便得到更加平滑的特征转换。发明人通过测试发现，当网络结构包含两层ReLU连接和一层LSTM时声码器参数转换效果更好。

在一些实施例中，在声学特征参数的频率小于声码器特征参数的频率的情况下，通过重复声学特征参数进行上采样，使声学特征参数的频率等于声码器特征参数的频率。例如，声学参数预测模型以15ms为一帧进行参数预测，但是声码器通常以5ms为一帧进行语音合成，这样就在时间频率上存在一个不匹配的问题，为了解决两个模型频率不一致的问题，需要将声学参数预测模型的输出进行上采样以匹配声码器模型的频率。可以通过重复声学参数预测模型的输出进行上采样，例如，将声学特征参数重复三次，1*80维的梅尔谱参数，重复三次可以得到3*80维的梅尔谱参数。发明人通过测试确定，相对于学习一个上采样神经网络，或差值等方式进行上采样，通过直接重复特征进行上采样就能够达到很好的效果。

在步骤S108中，将声码器特征参数输入声码器，生成语音。

上述实施例中的声码器参数转换模型可以与world声码器结合，相对于现有技术中wavenet(网络结构复杂，无法实时在线生成语音)，通过简单的网络架构，可以加快计算速度实现实时语音生成，相对于现有技术中Griffin-lim模型，减少了叠音，提高了语音合成的效果。

上述实施例的方法中首先识别文本中的语言种类，将文本划分为属于不同语言种类的多个片段。根据各个片段属于的语言种类，将各个片段分别转换为对应的音素。文本的音素序列被输入语音合成模型转换为声码器特征参数，声码器根据声码器特征参数输出语音。上述实施例的方案实现了支持多种语言的发音的端到端的语音合成系统，并且根据音素序列转换为声码器特征参数，相对于字符序列直接转换为声码器特征参数，能够使合成的语音更加的准确、流畅和自然。进一步通过加入韵律结构、音调等生成音素序列，能够进一步提高语音合成效果。通过新的声码器特征参数转换模型，加快计算速度实现实时语音生成，减少了叠音，进一步提高了语音合成的效果。并且上述实施例中还提出了一种解码器结束方法，可以解决模型预测解码过程结束失败或者预测结束不正确的问题，避免声学参数预测模型最终合成一些无法理解的语音，进一步提高系统语音输出的准确性、流畅性和自然度。

在一些实施例中，训练语音合成模型的方法包括：将每个训练文本对应的语音样本根据声码器的合成频率转换为声码器特征参数样本；将每个训练文本输入待训练的语音合成模型，得到输出的声码器特征参数；将输出的声码器特征参数与对应的声码器特征参数样本进行比对，并根据比对结果调整待训练的语音合成模型的参数，直至完成训练。

为了进一步提高声码器参数转换模型的准确性，下面结合图3描述本公开的语音合成模型的训练方法的一些实施例。

图3为本公开语音合成方法另一些实施例的流程图。如图3所示，该实施例的方法包括：步骤S302～S310。

在步骤S302中，根据预设频率将各个训练文本对应的语音样本划分为不同的帧，并针对每帧提取声学特征参数，分别生成与各个训练文本对应的第一声学特征参数样本。

例如，可以将各个语音样本以15ms为一帧的频率进行划分，将每帧样本提取声学特征参数，生成第一声学特征参数样本(例如，梅尔谱参数)。

在步骤S304中，利用各个训练文本和各个训练文本对应的第一声学特征参数样本，对声学参数预测模型进行训练。

可以首先针对每个训练文本，将该训练文本划分为属于不同语言种类的片段，根据各个片段属于的语言种类，将各个片段分别转换为对应的音素，生成该训练文本的音素序列。音素序列可以包括音调、韵律标识等。将各个训练文本的音素序列输入声学参数预测模型，得到输出的与各个训练文本对应的声学特征参数。将同一训练文本对应的输出的声学特征参数与第一声学特征参数样本进行比对，根据比对结果对声学参数预测模型中参数进行调整，直至满足第一预设目标，完成声学参数预测模型的训练。

在步骤S306中，利用训练完成的声学参数预测模型，将各个训练文本分别转换为第二声学特征参数样本。

将各个训练文本输入训练完成的声学参数预测模型，则可以得到与各个训练文本对应的第二声学特征参数样本。

在步骤S308中，根据声码器的合成频率，将各个训练文本对应的语音样本分别转换为声码器特征参数样本。

例如，可以将语音样本以5ms为一帧的频率进行划分，将每帧样本转换为声码器特征参数样本(例如，MGC、BAP、log F0)。步骤S308的执行顺序不受限制，只要在步骤S310之前即可。

在步骤S310中，利用各个训练文本对应的第二声学特征参数样本和声码器特征参数样本对声码器参数转换模型进行训练。

例如，将各个第二声学特征参数样本输入声码器参数转换模型，得到输出的声码器特征参数。将输出的声码器特征参数与对应的声码器特征参数样本进行比对，根据比对结果对声码器参数转换模型中参数进行调整，直至满足第二预设目标，完成声码器参数转换模型的训练。

上述实施例的方法采用声学预测模型预测得到的声学特征参数，作为训练数据进行声码器参数转换模型的训练，可以提高声码器参数转换模型的准确度，使合成的语音更加准确、流畅和自然。这是因为，采用直接在语音文件上提取的真实的声学特征参数(例如，梅尔谱参数)训练声码器参数转换模型，那么在实际进行语音合成的时候就会存在模型的输入特征和训练特征不匹配的差异。具体因为在实际语音合成的过程中，输入的特征是声学参数预测模型预测得到的梅尔谱，声学参数预测模型在解码的过程中，随着解码步数的增加，预测得到的声学特征参数的误差会越来越大，但是声学参数转换模块训练过程却采用的声音文件真实的声学特征参数，训练得到的模型没有学习过预测得到的声学特征参数以及解码过程中存在误差累积的声学特征参数，所以输入特征和训练特征不匹配会导致声码器参数转换模型性能严重下降。

本公开还提供一种语音合成装置，下面结合图4进行描述。

图4为本公开语音合成装置的一些实施例的结构图。如图4所示，该实施例的装置40包括：语言识别模块402，音素转换模块404，参数转换模块406，语音生成模块408。

语言识别模块402，将文本划分为属于不同语言种类的多个片段。

在一些实施例中，语言识别模块402用于根据文本中各个字符的编码，识别各个字符属于的语言种类；将属于同一语言种类的连续字符划分为该语言种类的一个片段。

音素转换模块404，用于根据各个片段属于的语言种类，将各个片段分别转换为对应的音素，生成文本的音素序列。

在一些实施例中，音素转换模块404用于确定文本的韵律结构；根据文本的韵律结构，在与文本中各个字符对应的音素后添加韵律标识，以形成文本的音素序列。

在一些实施例中，音素转换模块404用于根据各个片段属于的语言种类，将各个片段分别进行文本归一化；根据各个片段属于的语言种类，将归一化后的各个片段分别进行分词；将各个片段的分词，根据各个片段属于的语言种类对应的预设的音素转换表转换为对应的音素；其中，音素包括字符对应的音调。

参数转换模块406，用于将音素序列输入预先训练的语音合成模型，转换为声码器特征参数。

在一些实施例中，参数转换模块406用于将音素序列输入语音合成模型中的声学参数预测模型，转换为声学特征参数；将声学特征参数输入语音合成模型中声码器参数转换模型，得到输出的声码器特征参数。

在一些实施例中，声学参数预测模型包括：编码器、解码器和注意力模型；参数转换模块406用于利用注意力模型，确定当前时刻编码器输出的各个特征表示的注意力权重；判断音素序列中预设元素对应的特征表示的注意力权重是否为各个注意力权重中的最大值，如果是，则结束解码过程。

在一些实施例中，参数转换模块406用于将音素序列输入编码器，获得编码器输出音素序列中各个元素对应的特征表示；将各个元素对应的特征表示、解码器中第一循环层当前时刻输出的解码器隐状态，以及上一时刻各个元素对应的累积注意力权重信息输入注意力模型，获得上下文向量；将解码器中第一循环层当前时刻输出的解码器隐状态和上下文向量输入解码器的第二循环层，获得解码器第二循环层输出的当前时刻的解码器隐状态；根据解码器输出的各个时刻的解码器隐状态预测声学特征参数。

语音生成模块408，用于将声码器特征参数输入声码器，生成语音。

在一些实施例中，如图4所示，语音合成装置40还包括：模型训练模块410，用于根据预设频率将各个训练文本对应的语音样本划分为不同的帧，并针对每帧提取声学特征参数，分别生成与各个训练文本对应的第一声学特征参数样本；利用各个训练文本和各个训练文本对应的第一声学特征参数样本，对声学参数预测模型进行训练；利用训练完成的声学参数预测模型，将各个训练文本分别转换为第二声学特征参数样本；根据声码器的合成频率，将各个训练文本对应的语音样本分别转换为声码器特征参数样本；利用各个训练文本对应的第二声学特征参数样本和声码器特征参数样本对声码器参数转换模型进行训练。

本公开的实施例中的语音合成装置可各由各种计算设备或计算机系统来实现，下面结合图5以及图6进行描述。

图5为本公开语音合成装置的一些实施例的结构图。如图5所示，该实施例的装置50包括：存储器510以及耦接至该存储器510的处理器520，处理器520被配置为基于存储在存储器510中的指令，执行本公开中任意一些实施例中的语音合成方法。

其中，存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。

图6为本公开语音合成装置的另一些实施例的结构图。如图6所示，该实施例的装置60包括：存储器610以及处理器620，分别与存储器510以及处理器520类似。还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630，640，650以及存储器610和处理器620之间例如可以通过总线660连接。其中，输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640 为各种联网设备提供连接接口，例如可以连接到数据库服务器或者云端存储服务器等。存储接口650为SD卡、U盘等外置存储设备提供连接接口。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生被配置为实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供被配置为实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

一种语音合成方法，包括：

将文本划分为属于不同语言种类的多个片段；

根据各个所述片段属于的语言种类，将各个所述片段分别转换为对应的音素，生成所述文本的音素序列；

将所述音素序列输入预先训练的语音合成模型，转换为声码器特征参数；

将所述声码器特征参数输入声码器，生成语音。
根据权利要求1所述的语音合成方法，其中，

所述将文本划分为属于不同语言种类的多个片段包括：

根据所述文本中各个字符的编码，识别各个所述字符属于的语言种类；

将属于同一语言种类的连续字符划分为该语言种类的一个片段。
根据权利要求1所述的语音合成方法，其中，所述生成所述文本的音素序列包括：

确定所述文本的韵律结构；

根据所述文本的韵律结构，在与所述文本中各个字符对应的音素后添加韵律标识，以形成所述文本的音素序列。
根据权利要求1所述的语音合成方法，其中，

所述将所述音素序列输入预先训练的语音合成模型，转换为声码器特征参数包括：

将所述音素序列输入所述语音合成模型中的声学参数预测模型，转换为声学特征参数；

将所述声学特征参数输入所述语音合成模型中声码器参数转换模型，得到输出的声码器特征参数。
根据权利要求4所述的语音合成方法，其中，

所述声学参数预测模型包括：编码器、解码器和注意力模型；

所述将所述音素序列输入所述语音合成模型中的声学参数预测模型，转换为声学特征参数包括：

利用所述注意力模型，确定当前时刻所述编码器输出的各个特征表示的注意力权重；

判断所述音素序列中预设元素对应的特征表示的注意力权重是否为各个注意力权重中的最大值，如果是，则结束解码过程。
根据权利要求4所述的语音合成方法，其中，

所述声学特征参数包括语音频谱参数；

所述声码器参数转换模型由多层深度神经网络和长短期记忆网络构成。
根据权利要求4所述的语音合成方法，其中，

在所述声学特征参数的频率小于所述声码器特征参数的频率的情况下，通过重复所述声学特征参数进行上采样，使所述声学特征参数的频率等于所述声码器特征参数的频率。
根据权利要求1所述的语音合成方法，还包括：训练所述语音合成模型；其中，

所述训练方法包括：

根据预设频率将各个训练文本对应的语音样本划分为不同的帧，并针对每帧提取声学特征参数，分别生成与各个所述训练文本对应的第一声学特征参数样本；

利用各个所述训练文本和各个所述训练文本对应的第一声学特征参数样本，对所述声学参数预测模型进行训练；

利用训练完成的声学参数预测模型，将各个所述训练文本分别转换为第二声学特征参数样本；

根据所述声码器的合成频率，将各个所述训练文本对应的语音样本分别转换为声码器特征参数样本；

利用各个所述训练文本对应的所述第二声学特征参数样本和所述声码器特征参数样本对所述声码器参数转换模型进行训练。
根据权利要求4所述的语音合成方法，其中，

所述声学参数预测模型包括：编码器、解码器和注意力模型；

所述将所述音素序列输入所述语音合成模型中的声学参数预测模型，转换为声学特征参数包括：

将所述音素序列输入所述编码器，获得所述编码器输出所述音素序列中各个元素对应的特征表示；

将所述各个元素对应的特征表示、所述解码器中第一循环层当前时刻输出的解码器隐状态，以及上一时刻所述各个元素对应的累积注意力权重信息输入所述注意力模型，获得上下文向量；

将所述解码器中第一循环层当前时刻输出的解码器隐状态和所述上下文向量输入所述解码器的第二循环层，获得所述解码器第二循环层输出的当前时刻的解码器隐状态；

根据所述解码器输出的各个时刻的解码器隐状态预测所述声学特征参数。
根据权利要求1所述的语音合成方法，其中，

所述根据各个所述片段属于的语言种类，将各个所述片段分别转换为对应的音素包括：

根据各个所述片段属于的语言种类，将各个所述片段分别进行文本归一化；

根据各个所述片段属于的语言种类，将归一化后的各个所述片段分别进行分词；

将各个所述片段的分词，根据各个所述片段属于的语言种类对应的预设的音素转换表转换为对应的音素；

其中，音素包括字符对应的音调。
一种语音合成装置，包括：

语言识别模块，用于将文本划分为属于不同语言种类的多个片段；

音素转换模块，用于根据各个所述片段属于的语言种类，将各个所述片段分别转换为对应的音素，生成所述文本的音素序列；

参数转换模块，用于将所述音素序列输入预先训练的语音合成模型，转换为声码器特征参数；

语音生成模块，用于将所述声码器特征参数输入声码器，生成语音。
根据权利要求11所述的语音合成装置，其中，

所述语言识别模块用于根据所述文本中各个字符的编码，识别各个所述字符属于的语言种类；将属于同一语言种类的连续字符划分为该语言种类的一个片段。
根据权利要求11所述的语音合成装置，其中，

所述音素转换模块用于确定所述文本的韵律结构；根据所述文本的韵律结构，在与所述文本中各个字符对应的音素后添加韵律标识，以形成所述文本的音素序列。
根据权利要求11所述的语音合成装置，其中，

所述参数转换模块用于将所述音素序列输入所述语音合成模型中的声学参数预测模型，转换为声学特征参数；将所述声学特征参数输入所述语音合成模型中声码器参数转换模型，得到输出的声码器特征参数。
根据权利要求14所述的语音合成装置，其中，

所述声学参数预测模型包括：编码器、解码器和注意力模型；

所述参数转换模块用于利用所述注意力模型，确定当前时刻所述编码器输出的各个特征表示的注意力权重；判断所述音素序列中预设元素对应的特征表示的注意力权重是否为各个注意力权重中的最大值，如果是，则结束解码过程。
根据权利要求14所述的语音合成装置，其中，

所述声学特征参数包括语音频谱参数；

所述声码器参数转换模型由多层深度神经网络和长短期记忆网络构成。
根据权利要求14所述的语音合成装置，其中，

在所述声学特征参数的频率小于所述声码器特征参数的频率的情况下，通过重复所述声学特征参数进行上采样，使所述声学特征参数的频率等于所述声码器特征参数的频率。
根据权利要求11所述的语音合成装置，还包括：

模型训练模块，用于根据预设频率将各个训练文本对应的语音样本划分为不同的帧，并针对每帧提取声学特征参数，分别生成与各个所述训练文本对应的第一声学特征参数样本；利用各个所述训练文本和各个所述训练文本对应的第一声学特征参数样本，对所述声学参数预测模型进行训练；利用训练完成的声学参数预测模型，将各个所述训练文本分别转换为第二声学特征参数样本；根据所述声码器的合成频率，将各个所述训练文本对应的语音样本分别转换为声码器特征参数样本；利用各个所述训练文本对应的所述第二声学特征参数样本和所述声码器特征参数样本对所述声码器参数转换模型进行训练。
根据权利要求14所述的语音合成装置，其中，

所述声学参数预测模型包括：编码器、解码器和注意力模型；

所述参数转换模块用于将所述音素序列输入所述编码器，获得所述编码器输出所述音素序列中各个元素对应的特征表示；将所述各个元素对应的特征表示、所述解码器中第一循环层当前时刻输出的解码器隐状态，以及上一时刻所述各个元素对应的累积注意力权重信息输入所述注意力模型，获得上下文向量；将所述解码器中第一循环层当前时刻输出的解码器隐状态和所述上下文向量输入所述解码器的第二循环层，获得所述解码器第二循环层输出的当前时刻的解码器隐状态；根据所述解码器输出的各个时刻的解码器隐状态预测所述声学特征参数。
根据权利要求11所述的语音合成装置，其中，

所述音素转换模块用于根据各个所述片段属于的语言种类，将各个所述片段分别进行文本归一化；根据各个所述片段属于的语言种类，将归一化后的各个所述片段分别进行分词；将各个所述片段的分词，根据各个所述片段属于的语言种类对应的预设的音素转换表转换为对应的音素；

其中，音素包括字符对应的音调。
一种语音合成装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1-10任一项所述的语音合成方法。
一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现权利要求1-10任一项所述方法的步骤。