CN113129914A

CN113129914A - 跨语言语音转换系统和方法

Info

Publication number: CN113129914A
Application number: CN202011581807.0A
Authority: CN
Inventors: 杰瓦特·耶尔利
Original assignee: Tomorrow Fund Intellectual Property Ltd
Current assignee: Tomorrow Fund Intellectual Property Ltd
Priority date: 2019-12-30
Filing date: 2020-12-28
Publication date: 2021-07-16
Also published as: EP4654083A3; DK3855340T3; EP3855340A3; ES2964322T3; KR20250017286A; DK4270255T3; US20240028843A1; US12354616B2; EP3855340A2; KR20210086974A; EP4270255A3; EP4270255B1; EP4270255A2; EP4654083A2; JP2021110943A; US20210200965A1; US11797782B2; ES3060254T3; HUE064070T2; CN120932658A

Abstract

跨语言语音转换系统和方法，包括语音特征提取器，该语音特征提取器被配置为接收第一语言的第一语音音频段和第二语言的第二语音音频段，并分别提取包括第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征的音频特征。一个或多个生成器被配置为接收提取的特征，并从其产生保持第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征的第三语音候选，其中，该第三语音候选说第二语言。一个或多个鉴别器被配置为将第三语音候选与地面实况数据进行比较，并且将比较结果提供回生成器，用于润色第三语音候选。

Description

跨语言语音转换系统和方法

相关申请的交叉引用

本申请要求2019年12月30日提交的美国临时申请号62/955227的权益，该申请通过引用结合于此。

背景技术

包括语音在内的媒体产品(例如，应用、电影、有声读物和游戏)通常由原始演员根据脚本表演而创作。这些语音通常通过“配音演员”的帮助被翻译成不同的语言。许多观众需要求助于不同语言的替代配音演员，因为原始演员通常不能说使这些作品可用的所有语言。

语音转换(VC)将一个说话者的语音转换成另一说话者的声音。更具体地，大多数当前的VC技术致力于使源说话者听起来像目标说话者，这涉及执行源说话者和目标说话者的频谱特征映射。现有的VC技术大多是为单语VC设计的，这意味着源说话者和目标说话者的语言是相同的。由于并行数据(即，包含两种语言的相同语音内容的数据)在实践中并不总是可用，因此跨语言VC比单语VC更具挑战性。因此，可以处理非并行数据的跨语言VC技术可以用于在媒体产品翻译中可以使用的跨语言VC。

发明内容

提供该发明内容，以简化的形式介绍将在下面的具体实施方式中进一步描述的一些概念。该发明内容不旨在识别所要求保护的主题的关键特征，也不旨在用于帮助确定所要求保护的主题的范围。

本公开总体上涉及语音转换，更具体地，涉及一种能够利用非并行数据进行跨语言语音转换的方法和系统。

根据本公开的一些实施例，由机器学习系统(例如，生成性对抗网络(GAN)系统)执行的跨语言语音转换的方法包括，由语音特征提取器接收第一语言的第一语音音频段和第二语言的第二语音音频段。该方法通过语音特征提取器分别从第一语音音频段和第二语音音频段提取音频特征，该音频特征包括第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征。该方法通过一个或多个生成器从受训练的数据集生成第三语音候选，该第三语音候选具有第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征，其中，该第三语音候选说第二语言。该方法通过一个或多个鉴别器将第三语音候选与包括第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征的地面实况数据进行比较。该系统将比较步骤的结果提供回生成器，用于润色第三语音候选。

在一个实施例中，一个或多个鉴别器确定第三语音候选与第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征之间是否存在至少一个不一致。在一个这种实施例中，当存在至少一个不一致时，该系统产生与第三语音候选与第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征之间的一致性损失相关的信息。

在一些实施例中，所提取的与说话者相关的声学特征是指表征说话者的语音的实际声音的、并且使得听者能够区分以相同的音高、口音、振幅和节奏说出相同单词的说话者的语音特征。在进一步的实施例中，与说话者相关的声学特征包括音段特征，这些音段特征是与声道特征相关的短期特征(例如，可以从短音频段确定的特征)，例如，音色、共振、频谱包络和平均音高强度。与说话者无关的语言特征可以包括与多于一个音段上的域的声学特性相关的超音段特征，并且与诸如音高轮廓、单词持续时间、节奏、发音、音节、音素、语调轮廓或重音规律的特征相关。这些超音段特征可能与特定语言或方言的语言特征特性具有高度相关性，例如，与定义语言或方言的口音的特征具有高度相关性。

在一些实施例中，该方法还包括生成多个第三语音候选，每个第三语音候选包括不同级别的第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征。在这样的实施例中，系统可以在生成包括不同级别的第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征的多个配音版本音频文件时，使用所生成的多个第三语音候选。

GAN可以被描述为基于竞争或对抗神经网络的系统。在一些实施例中，GAN是深度神经网络(DNN)系统。GAN可以包括例如变分自动编码Wasserstein GAN(VAW-GAN)系统或循环一致GAN(CycleGAN)系统。机器学习系统可以使用上述或其他类似的基于机器学习的网络系统，以基于来自第一和第二语音的数据集进行训练，以生成一个或多个第三语音候选，作为学习输出的一部分。

在使用CycleGAN的实施例中，CycleGAN系统的训练包括使用至少对抗损失函数和循环一致性损失函数同时学习正向和反向映射函数。

在一个实施例中，正向映射函数通过特征提取器接收第一语言的第一语音音频段，并继续通过特征提取器提取第一语音的与说话者相关的声学特征。正向映射函数通过将第一语音的与说话者相关的声学特征发送到作为第一生成器的一部分的第一至第三说话者生成器来进行。随后，正向映射函数通过由第一至第三说话者生成器从反向映射函数接收第二语音的与说话者无关的语言特征而继续。正向映射函数经由第一至第三说话者生成器，使用第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征来生成第三语音候选。正向映射函数通过第一鉴别器确定第三语音候选和第一语音的与说话者相关的声学特征之间是否存在差异。

在一个实施例中，反向映射函数包括由特征提取器接收第二语言的第二语音音频段，并继续由特征提取器提取第二语音的与说话者无关的语言特征。反向映射函数继续将第二语音的与说话者无关的语言特征发送到可作为第二生成器模块的一部分的第二至第三语音候选生成器。反向映射函数通过第二至第三语音候选生成器从正向映射函数接收第一语音的与说话者相关的声学特征。反向映射函数继续由第二至第三语音候选生成器使用第二语音的与说话者无关的语言特征和第一语音的与说话者相关的声学特征生成第三语音候选。反向映射函数继续由第二鉴别器确定在第三语音候选和第二语音的与说话者无关的语言特征之间是否存在差异，

在一个实施例中，当第一鉴别器确定第三语音候选和第一语音的与说话者相关的声学特征不一致时，第一鉴别器将第一不一致信息提供回第一至第三语音候选生成器，用于润色第三语音候选。该方法通过将第三语音候选发送到作为第一生成器的一部分的第三至第一说话者生成器来继续，该第三至第一说话者生成器利用第三语音候选来生成转换后的第一语音的与说话者相关的声学特征，作为使用对抗损失处理的训练阶段的一部分，有助于减少转换后的特征的过度平滑。然后，转换后的第一语音的与说话者相关的声学特征被发送回第一至第三语音候选生成器，以继续训练处理，以便进一步润色第三语音候选。在一个实施例中，当第三语音候选与第一语音的与说话者相关的声学特征一致时，则正向映射函数可以结束。

在一个实施例中，第二鉴别器将不一致信息提供回第二至第三语音候选生成器，用于润色第三语音候选。然后，将第三语音候选发送到作为第二生成器的一部分的第三至第二说话者生成器，该第三至第二说话者生成器利用第三语音候选来生成转换后的第二语音的与说话者无关的语言特征，作为使用对抗损失处理的训练阶段的一部分，有助于减少转换后的特征的过度平滑。然后，将转换后的第二语音的与说话者无关的语言特征发送回第二至第三语音候选生成器，以继续训练处理，以便进一步润色第三语音候选。在一个实施例中，当第三语音候选与第二语音的与说话者无关的声学特征一致时，则反向映射函数可以结束。

在一些实施例中，该方法还包括选择多个第三语音中的一个或多个第三语音，用于在语音翻译期间使用。在另外一些实施例中，该方法继续将所选择的一个或多个第三语音存储在与机器学习系统连接的数据库中，并且该数据库包括多个不同的受训练的第三语音。

在一些实施例中，第一语音是说第一语言的原始演员语音，并且第二语音是说第二语言的演员语音。

在又一些实施例中，该方法在电影语音翻译期间实施为使得能够选择原始版本、具有原始演员语音的配音版本或具有配音演员语音的配音版本。在这些实施例中，该方法还包括使用所生成的多个第三语音生成包括不同级别的第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征的多个配音版本音频文件。在一个实施例中，然后，该方法选择最佳配音版本音频文件。

在一些实施例中，存储在服务器的存储器中并由至少一个处理器实施的机器学习系统包括语音特征提取器，其被配置为接收第一语言的第一语音音频段和第二语言的第二语音音频段，并且分别从第一语音和第二语音音频段中提取音频特征，该音频特征包括第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征。该系统还包括GAN,该GAN包括一个或多个生成器，其被配置为接收提取的特征，并且从其中产生第三语音候选，该第三语音候选具有第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征，其中，该第三语音候选说第二语言。该GAN还包括一个或多个鉴别器，其被配置为将第三语音候选与包括第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征的地面实况数据进行比较，将比较结果提供回生成器，用于润色第三语音候选。

在一些实施例中，该系统还包括数据库，该数据库连接到机器学习系统并且被配置为存储所选择的一个或多个第三语音，并且包括多个不同的受训练的第三语音。

在一些实施例中，该系统被配置用于电影语音翻译期间使得能够选择原始版本、具有原始演员语音的配音版本或具有配音演员语音的配音版本。在又一些实施例中，机器学习系统还被配置为在生成包括不同级别的第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征的多个配音版本音频文件时，使用所生成的多个第三语音。该系统还可以被配置为选择配音版本的音频文件，例如最佳配音版本音频文件。

以上发明内容不包括本公开的所有方面的详尽列表。可以设想，本公开包括可以从以上概述的各个方面的所有合适的组合来实践的所有系统和方法以及在以下具体实施方式中公开的所有系统和方法，尤其是在与本申请一起提交的权利要求中特别指出的那些系统和方法。这种组合具有在以上发明内容中没有具体叙述的特殊优点。从附图和下面的具体实施方式中，其他特征和优点将变得显而易见。

附图说明

由于当结合附图时，通过参考以下具体实施方式，更好理解前述方面和许多伴随的优点，所以前述方面和许多伴随的优点将变得更容易理解，其中：

图1A描绘了根据一个实施例的能够利用非并行数据进行跨语言语音转换的系统的示意图；

图1B描绘了能够利用非并行数据进行跨语言语音转换的系统的另一实施例；

图2描绘了根据一个实施例的使用变分自动编码Wasserstein GAN(VAW-GAN)算法能够利用非并行数据进行跨语言语音转换的系统的示意图；

图3A描绘了根据一个实施例的使用循环一致GAN(CycleGAN)算法的正向映射函数的示意图；

图3B描绘了根据一个实施例的使用循环一致GAN(CycleGAN)算法的反向映射函数的示意图；

图4描绘了根据一个实施例的实施受训练的跨语言语音转换系统的样本在线电影流平台的示意图；

图5描绘了根据一个实施例的能够利用非并行数据进行跨语言语音转换的方法的示意图；

图6描绘了根据一个实施例的方法的示意图，该方法描述了通过使用循环一致GAN(CycleGAN)算法能够利用非并行数据进行跨语言语音转换的正向映射函数；

图7描绘了根据一个实施例的方法的示意图，该方法描述了通过使用循环一致GAN(CycleGAN)算法能够利用非并行数据进行跨语言语音转换的反向映射函数。

具体实施方式

在以下描述中，参考了通过图示方式示出各种实施例的附图。此外，下面将通过参考几个示例来描述各种实施例。应当理解，在不脱离所要求保护的主题的范围的情况下，实施例可以包括设计和结构上的变化。

在本公开的一些方面，利用非并行数据的跨语言语音转换系统通过组合第一语言的第一语音和第二语言的第二语音的声音特征来生成第二语言的第三语音候选，从而实现语音的实时或接近实时的转换和翻译。所生成的第三语音候选包括第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征，使得第三语音候选“听起来”好像第一语音在说第二语言，同时保持第二语言特有的语言特征。为此，该系统包括机器学习系统(例如，深度神经网络(DNN)系统，或基于竞争或对抗神经网络的系统，例如，生成性对抗网络(GAN)系统)，该系统在准备生成用于实时或接近实时的跨语言语音转换的第三语音候选之前，用来自每个说话者的多个语音样本接受训练。跨语言语音转换系统被配置为从每个语音中提取声音特征，并且在机器学习系统的训练期间应用它们来生成第三语音候选。

在利用GAN系统的实施例中，该系统的一些优点包括不依赖于双语数据及其对齐，也不依赖于任何外部处理，例如，自动语音识别(ASR)。在这些实施例中，GAN系统也可以利用任何两种语言的有限数量的非并行训练数据来接受训练。在一些实施例中，由GAN优化的目标函数导致生成人工数据，这些人工数据与真实或地面实况数据无法区分。并行数据是包括包含两种语言的相同语言内容的话语的数据，且通常很难收集，而非并行数据是包括包含两种语言的不同语言内容的话语的数据。

图1A描绘了根据一个实施例的利用非并行数据的跨语言语音转换系统100a的示意图。

图1A描绘了产生第一语言的第一语音音频段104的第一语音源102和产生第二语言的第二语音音频段108的第二语音源106。第一语音音频段104和第二语音音频段108经由网络110(例如，因特网)发送到在存储器116中存储机器学习系统114的服务器112。服务器112还包括至少一个处理器118，至少一个处理器118被配置为利用包含在机器学习系统114中的指令来处理包含在第一和第二音频段104-106中的数据。至少一个处理器118执行包含在机器学习系统114中的计算机代码，以生成第二语言的至少一个第三语音候选120。尽管为了便于说明，本文参考单个服务器描述了示例，但是应当理解，本文描述的由服务器提供的任何功能可以由包括一个或多个服务器计算机的服务器计算机系统提供。

在一些实施例中，第一语音音频段104和第二语音音频段108经由用户接口被传送到机器学习系统114，用户可以经由连接到网络的电子用户装置(例如，计算机(例如，PC)或移动电话)来访问该用户接口。用户装置可以具有集成的或辅助的麦克风，用户可以通过该麦克风记录语音段。在其他实施例中，可以上传这些语音段，作为预先录制的数字文件。在其他实施例中，一个或多个音频段是合成产生的，因此不需要人类用户来产生记录在音频段中的音频信号。

在一些实施例中，跨语言语音转换系统100a还包括连接到机器学习系统114的语音数据库122。语音数据库122被配置为存储选择的一个或多个第三语音候选，并且包括多个受训练的第三语音。因此，系统100a可以用第一语音音频段和第二语音音频段来训练跨语言转换系统114，并且生成第二语言120的适当数量的第三语音音频段，这可以使得能够选择存储在语音数据库122中的第三语音，以供将来在语音转换和翻译期间使用。这些选择的第三语音可用于多种应用，例如，用于可能需要语音翻译和转换的媒体制作，包括电影、有声读物、游戏和其他应用。

图1B描绘了利用非并行数据的跨语言转换系统100b的另一实施例。跨语言转换系统100b包括关于来自每个语音音频段104和108的语音音频特征的进一步细节。因此，在图1B的实施例中，机器学习系统114被配置为利用包括从第一音频段104提取的与说话者相关的声学特征124和从第二语音音频段108提取的与说话者无关的语言特征126的数据来接受关于跨语言语音转换的训练。跨语言转换导致第二语言的第三语音候选120，其包括与说话者相关的声学特征和与说话者无关的语言特征。

所提取的与说话者相关的声学特征124是指表征说话者的语音的实际声音的、并且使得听者能够区分例如以相同的音高、口音、振幅和节奏说出相同单词的说话者的语音特征。在一些实施例中，与说话者相关的声学特征124包括音段特征，这些音段特征是与声道特征相关的短期特征(例如，可以从短音频段确定的特征)，例如，音色、共振、频谱包络和平均音高强度。与说话者无关的语言特征126可以包括与多于一个音段上的域的声学特性相关的超音段特征，并且与诸如音高轮廓、单词持续时间、节奏、发音、音节、音素、语调轮廓或重音规律的特征相关。这些超音段特征可能与特定语言或方言的语言特征特性具有高度相关性，例如，与定义语言或方言的口音的特征具有高度相关性。

举例来说，音色可以被认为是与说话者相关的声学特征124，其是由说话者对特定声音发出的一组频率分量而产生的生理属性。因此，例如，第三语音候选120可以包括第一语音源102的音色和第二语音源106的口音，同时保持第一语言104的第一语音音频段的相同语言内容，并且经历从第一语言到第二语言的语言转换。

在一些实施例中，机器学习系统114是基于神经网络的系统，例如，深度神经网络(DNN)系统，或者是基于竞争或对抗神经网络的系统，例如，生成性对抗网络(GAN)系统，该GAN系统包括例如变分自动编码Wasserstein GAN(VAW-GAN)系统或循环一致GAN(CycleGAN)系统。机器学习系统114可以使用上述或其他类似的基于机器学习的网络系统，以基于来自第一和第二语音的数据集进行训练，以生成一个或多个第三语音候选，作为学习输出的一部分。

图2描绘了采用利用非并行数据的变分自动编码Wasserstein GAN(VAW-GAN)跨语言转换系统的跨语言转换系统200的另一实施例。

系统200处理发送到机器学习系统114的第一语言的第一语音音频段104和第二语言的第二语音音频段108。

机器学习系统114可以被配置为利用从第一和第二语音源产生的话语来接受训练，使得可以生成第二语言的第三语音音频段120。如所公开的，在图2的机器学习系统114中使用的训练算法可以是例如VAW-GAN算法，该算法在训练期间不需要对齐的平行语料库。

在图2所示的示例中，机器学习系统114包括语音特征提取器202，其被配置为进行语音简档映射204，以便映射第一语音音频段104和第二语音音频段108的表示，并提取与每个语音发出的每个声音相关联的频率分量。语音特征提取器202的功能类似于编码器或音素识别器的功能。因此，语音特征提取器202可以提取第一语音音频段104和第二语音音频段108的频率的幅度之间的关系，以学习与每一个语音音频段相关的语音特征，并实现准确的语音映射。这种提取尤其可以涉及提取频谱特征、音高(基频(f0))、能量、非周期性相关参数等。例如，可以基于提取的频率分量将语音在相对于彼此的向量空间中映射，这使得能够对语音音频段中没有提供的声音的合成频率分量进行外推。在美国专利公开号2018/0342256中公开了与在向量空间中映射语音相关的更多细节，该专利通过引用结合于此。

对第一语音音频段104和第二语音音频段108的表示进行映射，以将第一语音音频段104和第二语音音频段108中的每一个语音音频段的与说话者相关的声学特征124和与说话者无关的语言特征126分开。语音特征提取器202因此从频率分量中提取这些语音特征，用于训练机器学习系统114，通过该训练方式可以生成包括第一语音的与说话者相关的声学特征124和第二语音的与说话者无关的语言特征126的第三语音候选120。

在一些实施例中，机器学习系统114使用例如时间感受滤波器将第一语言104的第一语音音频段和第二语言108的第二语音音频段过滤成分析音频段。在这些实施例中，语音特征提取器202从分析音频段中提取频率分量，用于后续在向量空间中对每个语音的表示进行映射。

机器学习系统114还包括至少一个生成器206和至少一个鉴别器208，它们在GAN系统中作为两个神经网络共同接受训练。生成器206估计分别包含在第一音频段104和第二音频段108中的第一语音的与说话者相关的声学特征124和第二语音的与说话者无关的语言特征126之间的映射函数，并使用该数据生成发送到鉴别器208的第三语音候选120。生成器206充当解码器或合成器。鉴别器208充当二元分类器，其接受来自语音特征提取器202的地面实况数据，该地面实况数据包括最初生成的第一语音的与说话者相关的声学特征124和第二语音的与说话者无关的语言特征126，并将地面实况数据与由生成器206合成产生的第三语音候选120进行比较。鉴别器208进一步确定第三语音候选120、第一语音的与说话者相关的声学特征124和第二语音的与说话者无关的语言特征126之间是否存在至少一个不一致。在一个实施例中，当存在至少一个不一致时，鉴别器208产生与第三语音候选120、第一语音的与说话者相关的声学特征124和第二语音的与说话者无关的语言特征126之间的一致性损失相关的不一致信息。最后，鉴别器208将不一致信息提供回生成器206，用于润色第三语音候选120。

在一些实施例中，机器学习系统114被配置为生成多个第三语音候选120，每个第三语音候选包括不同级别的与说话者相关的声学特征124和与说话者无关的语言特征126。例如，每个第三语音候选120可以显示音色的变化或者具有较重/较轻的口音，这可以为人类或软件程序提供用于选择最佳第三语音的各种选项。在又一些实施例中，机器学习系统114还被配置为选择多个第三语音候选120中的一个或多个第三语音候选，以便在语音翻译期间使用。在又一些实施例中，机器学习系统114还被配置为将所选择的一个或多个第三语音存储在连接到机器学习系统114的数据库(例如，图1A的语音数据库122)中，该数据库包括对应于所选择的第三语音的多个受训练的GAN神经网络。

图3A-3B描绘了采用循环一致GAN(CycleGAN)算法的跨语言转换系统300的实施例，该CycleGAN算法包括至少使用对抗损失函数和循环一致性损失函数来同时学习正向和反向映射函数。对抗损失用于使生成的数据(例如，生成的第三语音候选)的分布和真实目标数据(例如，真实的与说话者相关的声学特征和与说话者无关的语言特征)的分布不可区分。另一方面，可以引入循环一致性损失来约束部分输入信息，使得输入信息在整个网络中处理时是不变的。这使得能够从不成对的跨语言数据中找到最佳伪对。此外，对抗损失有助于减少转换后的特征序列的过度平滑。众所周知，CycleGAN在不存在成对训练数据的几项任务中取得了显著的成果。在一些实施例中，在CycleGAN训练期间还可以考虑身份映射损失，这有助于保留将在转换后的第三候选中使用的第一和第二语音音频段中的每一个的身份相关的特征。通过组合这些损失，可以从不成对的训练样本中学习模型，并且学习后的映射能够将输入映射到期望的输出。

图3A描绘了根据一个实施例的使用可以在机器学习系统114中采用的CycleGAN算法300的正向映射函数302的示意图。正向映射函数302从特征提取器202接收第一语言102的第一语音音频段，并继续通过语音特征提取器202提取第一语音的与说话者相关的声学特征124。由于直接从第一语言102的第一语音音频段提取第一语音的与说话者相关的声学特征124，因此这些特征在本文中也被称为地面实况的第一语音的与说话者相关的声学特征124，以将它们与在该处理中稍后生成的第一语音的与说话者相关的声学特征区分开来。

正向映射函数302继续通过向作为第一生成器306的一部分的第一至第三语音候选生成器304发送地面实况的第一语音的与说话者相关的声学特征124。然后，正向映射函数302通过第一至第三语音候选生成器304接收从反向映射函数308A提取的地面实况的第二语音的与说话者无关的语言特征126。然后，正向映射函数302经由第一至第三语音候选生成器304使用从第一语言的第一语音音频段104提取的地面实况的第一语音的与说话者相关的声学特征124和从反向映射函数308A接收的地面实况的第二语音的与说话者无关的语言特征126，生成第二语言的第三语音候选310，因此，包含在第三语音候选310中的所创建的第一语音的与说话者相关的声学特征以及包含在第一语言104的第一语音音频段中的语言内容应该与地面实况的与说话者相关的声学特征124不可区分，不同之处在于，第三语音候选310包括第二语言的第二语音的与说话者无关的语言特征126特性，并且所产生的消息被翻译成第二语言。

正向映射函数302通过第一鉴别器312确定314包括在第三语音候选310中的所创建的第一语音的与说话者相关的声学特征和地面实况的第一语音的与说话者相关的声学特征124之间是否存在不一致性，在这种情况下，第一鉴别器312产生与一致性损失相关的不一致信息316。第一鉴别器312将不一致信息316提供回第一至第三语音候选生成器304，用于润色第三语音候选310。

第三语音候选308然后被发送到作为第一生成器306的一部分的第三至第一说话者生成器318，该第三至第一说话者生成器318利用第三语音候选310来生成转换后的第一语音的与说话者相关的声学特征320，作为采用对抗损失处理的训练阶段的一部分，这有助于减少转换后的特征的过度平滑。转换后的第一语音的与说话者相关的声学特征320然后被发送回第一至第三语音候选生成器304，用于继续训练处理，以便进一步润色第三语音候选310。当第三语音候选310与第一语音的与说话者相关的声学特征124一致时，则正向映射函数302可以结束322。

正向映射函数302与反向映射函数308并行执行，这可以由图3A中所示的平行线324表示。

图3B描绘了根据一个实施例的使用循环一致GAN(CycleGAN)算法的反向映射函数310的示意图。

反向映射函数308从特征提取器202接收第二语言108的第二语音音频段，并继续通过语音特征提取器202提取第二语音的与说话者无关的语言特征126。由于第二语音的与说话者无关的语言特征126是直接从第二语言104的第二语音音频段中提取的，因此这些特征在本文中也被称为地面实况的第二语音的与说话者无关的语言特征126，以将它们与在该处理中稍后生成的所创建的第二语音的与说话者无关的语言特征区分开来。

反向映射函数308继续向作为第二生成器328的一部分的第二至第三语音候选生成器326发送地面实况的第二语音的与说话者无关的语言特征126。然后，反向映射函数308通过第二至第三语音候选生成器326从正向映射函数302B接收地面实况的第一语音的与说话者相关的声学特征124。然后，反向映射函数308经由第二至第三语音候选生成器326，使用从第二语言的第二语音音频段108提取的地面实况的第二语音的与说话者无关的声学特征126和从正向映射函数302A接收的地面实况的第一语音的与说话者相关的声学特征124，生成第二语言的第三语音候选330，因此，包含在第三语音候选330中的所创建的第二语音的与说话者无关的语言特征应该与地面实况的第二语音的与说话者无关的语言特征126是不可区分的，但是不同之处在于，第三语音候选330包含第一语言104的第一语音音频段的第一语音的与说话者有关的声学特征124特性，传达了由第一语言104的第一语音音频段生成的消息的原始语言内容，并且所得到的消息被翻译成第二语言。

反向映射函数308通过第二鉴别器332确定334包含在第三语音候选330中的所创建的第二语音的与说话者无关的语言特征和地面实况的的第二语音的与说话者无关的声学特征126之间是否存在不一致，在这种情况下，第二鉴别器332产生与一致性损失相关的不一致信息336。第二鉴别器332将不一致信息336提供回第二至第三语音候选生成器326，用于润色第三语音候选330。

第三语音候选330然后被发送到作为第二生成器328的一部分的第三至第二说话者生成器338，该第三至第二说话者生成器338利用第三语音候选330来生成转换后的第二语音的与说话者无关的语言特征340，作为使用对抗损失处理的训练阶段的一部分，有助于减少转换后的特征的过度平滑。然后，转换后的第二语音的与说话者无关的语言特征340被发送回第二至第三语音候选生成器326，以继续训练处理，以便进一步润色第三语音候选330。当第三语音候选330与第二语音的与说话者无关的声学特征126一致时，则反向映射函数308可以结束342。

图4描绘了根据一个实施例的实施受训练的跨语言语音转换系统的样本在线电影流平台400的示意图。

在线电影流平台400使用户能够选择电影402，该电影402包括能够选择各种选项的语言菜单404，例如，具有原始版本406的电影402的音频；具有原始演员语音408的第二语言的配音版本；以及具有配音演员语音410的第二语言配音版本。从说第一语言的原始配音演员产生的第一语音音频可以用于原始版本406，并且可以从说第二语言的配音演员产生用于语言选择选项404的第二语音音频，该语言选择选项404包括具有配音演员410的第二语言。将原始音频翻译成第二语言以及在第一和第二说话者之间进行的特征转换涉及实施本公开的跨语言语音转换系统，用于实现具有配音演员410的第二语言的配音版本，例如，通过图1A-3B的系统100a-300中所示的系统。

因此，本公开的图1A-3B的跨语言转换系统100a-300可以被配置为向观众提供原始演员的语音被翻译成期望的语言的电影版本。举例来说，并参考图1B，原始演员的语音传达与说话者相关的声学特征124以及与例如原始演员扮演角色的电影剧本相关的语言内容；以及由配音演员产生的第二语音音频段108，该第二语音音频段108用于利用配音演员的相关语言特征126来训练机器学习系统114。与说话者相关的声学特征124和与说话者无关的语言特征126的组合生成一个或多个第三语音候选，且在足够轮次的训练和润色之后，该第三语音候选可以用作第二语言的所选择的第三语音候选120，以用作具有原始演员语音408的配音版本。在一些实施例中，多个生成的第三语音可以用于生成多个配音版本音频文件，该多个配音版本音频文件包括不同级别的第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征，使得能够有广泛的选项来选择最佳配音版本音频文件。该选择可以由人(例如，系统管理员)手动执行，或者由计算机代码(例如，人工智能程序)自动执行。

图5描绘了根据一个实施例的能够利用非并行数据进行跨语言语音转换的方法500的示意图。

方法500从步骤502和504开始，通过语音特征提取器接收第一语言的第一语音音频段和第二语言的第二语音音频段。方法500在步骤506中继续，通过语音特征提取器分别从第一语言的第一语音音频段和第二语言的第二语音音频段中提取音频特征，该音频特征包括第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征，在本文也称为地面实况数据，以建立与在后续步骤中由生成器合成生成的数据的差异。在步骤508中，方法500利用第一语音的与说话者无关的声学特征和第二语音的与说话者无关的语言特征来训练生成器。在步骤510中，该方法从受训练的数据集生成第三语音候选，该第三语音候选保持第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征，其中，第三语音候选说第二语言。

随后，方法500在步骤512中进行，由一个或多个鉴别器将第三语音候选与包括第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征的地面实况数据进行比较。通过该比较，一个或多个鉴别器在检查步骤514中确定在第三语音候选与第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征之间是否存在至少一个不一致。当存在至少一个不一致时，在步骤516，鉴别器产生与第三语音候选与第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征之间的一致性损失相关的不一致信息。在步骤518，鉴别器将不一致信息提供回生成器，用于润色第三语音候选，从而循环回到步骤510。当第三语音候选与包括第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征的地面实况数据一致时，该方法可以结束520。

在一些实施例中，方法500使用变分自动编码Wasserstein GAN(VAW-GAN)算法来实施。

图6描绘了根据一个实施例的方法600的示意图，该方法600描述了通过使用循环一致GAN(CycleGAN)算法能够利用非并行数据进行跨语言语音转换的正向映射函数。正向映射函数与参考图7的方法700中描述的反向映射函数同时执行。

方法600的正向映射函数从步骤602和604开始，通过特征提取器接收第一语言的第一语音音频段，并在步骤606中继续通过特征提取器提取第一语音的与说话者相关的声学特征。正向映射函数在步骤608中继续向作为第一生成器的一部分的第一至第三说话者生成器发送第一语音的与说话者相关的声学特征。随后，正向映射函数在步骤610中继续通过第一至第三说话者生成器从反向映射函数接收第二语言的第二语音的与说话者无关的语言特征。从第一语音音频段中提取的第一语音的与说话者相关的声学特征和从反向映射函数中提取的第二语音的与说话者无关的语言特征在本文被称为地面实况数据，以在后续步骤中与生成器合成生成的数据建立差异。随后，在步骤612中，正向映射函数经由第一生成器，使用包括第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征的地面实况数据，生成第三语音候选。

正向映射函数通过第一鉴别器在检查步骤614中确定第三语音候选与地面实况的第一语音的与说话者相关的声学特征之间是否存在差异，在这种情况下，第一鉴别器在步骤616中产生与一致性损失相关的不一致信息。在步骤618中，第一鉴别器将不一致信息提供回第一至第三语音候选生成器，用于润色第三语音候选。该方法在步骤620中继续，通过第一鉴别器将第三语音候选发送到作为第一生成器的一部分的第三至第一说话者生成器。第三至第一说话者生成器利用第三语音候选在步骤622中生成转换后的第一语音的与说话者相关的声学特征，作为使用对抗损失处理的训练阶段的一部分，有助于减少转换后的特征的过度平滑。转换后的第一语音的与说话者相关的声学特征然后被发送回第一至第三语音候选生成器，用于继续训练处理，以便进一步润色第三语音候选，如步骤624所示，循环回到步骤612。当第三语音候选与第一语音的与说话者相关的声学特征一致时，则正向映射函数可以结束626。

图7描绘了根据一个实施例的方法700的示意图，该方法700描述了通过使用CycleGAN算法能够利用非并行数据进行跨语言语音转换的反向映射函数。同时执行方法600的正向映射函数和方法700的反向映射函数，作为CycleGAN算法训练的一部分。

方法700的反向映射函数从步骤702和704开始，通过特征提取器接收第二语言的第二语音音频段，并在步骤706继续，通过特征提取器提取第二语音的与说话者无关的语言特征。然后，反向映射函数在步骤708中继续，将第二语音的与说话者无关的语言特征发送到作为第二生成器的一部分的第二至第三语音候选生成器。随后，在步骤710中，反向映射函数通过第二至第三语音候选生成器从正向映射函数接收第一语音的与说话者相关的声学特征。从第二语音音频段中提取的第二语音的与说话者无关的语言特征和从正向映射函数中提取的第一语音的与说话者相关的声学特征在本文被称为地面实况数据，以在后续步骤中与生成器合成生成的数据建立差异。反向映射函数在步骤712中继续，通过第二至第三语音候选生成器使用第二语音的与说话者相关的声学特征和第一语音的与说话者相关的声学特征，生成第三语音候选。

反向映射函数在检查步骤714中继续，通过第二鉴别器确定第三语音候选与第二语音的与说话者无关的语言特征之间是否存在差异，在这种情况下，第二鉴别器在步骤716中产生与一致性损失相关的不一致信息。在步骤718中，第二鉴别器将不一致信息提供回第二至第三语音候选生成器，用于润色第三语音候选。然后，在步骤720，第三语音候选被发送到作为第二生成器的一部分的第三至第二说话者生成器。第三至第二说话者生成器利用第三语音候选在步骤722中生成转换后的第二语音的与说话者无关的语言特征，作为使用对抗损失处理的训练阶段的一部分，有助于减少转换后的特征的过度平滑。然后，在步骤724，转换后的第二语音的与说话者无关的语言特征被发送回第二至第三语音候选生成器，以继续训练处理，以便进一步润色第三语音候选，循环回到步骤712。当第三语音候选与第二语音的与说话者无关的声学特征一致时，则反向映射函数可以结束726。

图1A-3B中所示的机器学习系统114和能够实现实施图5-7的方法500-700的其中包括的各种元件(例如，一个或多个语音特征提取器202、生成器206或鉴别器208)可以由至少一个处理器118使用执行软件或固件的多个微处理器来实施，或者可以使用一个或多个专用集成电路(ASIC)和相关软件来实施。在其他示例中，机器学习系统114和能够实现实施图5-7的方法500-700的其中包括的各种元件可以使用ASIC、分立电子元件(例如，晶体管)和微处理器的组合来实施。在一些实施例中，机器学习系统114可以分布在多个不同的机器上。在一些实施例中，显示为独立的组件可以由单个组件代替。此外，显示的一些组件可能是额外的，或者可能被其他组件替换。

还描述了其上存储有指令的计算机可读介质，该指令被配置成使一个或多个计算机执行本文描述的任何方法。计算机可读介质可以包括以能够存储信息的任何方法或技术实施的易失性或非易失性、可移动或不可移动介质，例如，计算机可读指令、数据结构、程序模块或其他数据。通常，本文描述的计算装置的功能可以在以硬件或软件指令实施的计算逻辑中实施，这些指令可以用编程语言编写，例如，C、C++、COBOL、JAVA^TM、PHP、Perl、Python、Ruby、HTML、CSS、JavaScript、VBScript、ASPX、Microsoft.NET^TM语言(例如，C#)和/或类似语言。计算逻辑可以被编译成可执行程序或者用解释的编程语言编写。通常，本文描述的功能可以被实施为逻辑模块，其可以被复制，以提供更大的处理能力，与其他模块合并，或者被分成子模块。计算逻辑可以存储在任何类型的计算机可读介质(例如，非暂时性介质，例如，存储器或存储介质)或计算机存储装置中，并且可以存储在一个或多个通用或专用处理器上并由其执行，从而创建被配置为提供本文描述的功能的专用计算装置。

虽然已经在附图中描述和示出了某些实施例，但是应当理解，这些实施例仅仅是说明性的，而不是对本发明的限制，并且本发明不限于所示出和描述的具体构造和设置，因为本领域普通技术人员可以想到各种其他修改。因此，该描述被认为是说明性的，而不是限制性的。

Claims

1.一种由机器学习系统执行的跨语言语音转换的方法，其特征在于，所述方法包括：

由语音特征提取器接收第一语言的第一语音音频段和第二语言的第二语音音频段；

由所述语音特征提取器分别从所述第一语音音频段和所述第二语音音频段提取音频特征，所述音频特征包括第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征；

经由生成性对抗网络(GAN)系统的生成器从受训练的数据集生成第三语音候选，所述第三语音候选具有所述第一语音的与说话者相关的声学特征和所述第二语音的与说话者无关的语言特征，其中，所述第三语音候选说所述第二语言；

经由所述GAN系统的一个或多个鉴别器将所述第三语音候选与包括所述第一语音的与说话者相关的声学特征和所述第二语音的与说话者无关的语言特征的地面实况数据进行比较；并且

将比较步骤的结果提供回所述生成器，用于润色所述第三语音候选。

2.根据权利要求1所述的方法，其特征在于，所述与说话者相关的声学特征包括与声道特征相关的短期音段特征，并且所述与说话者无关的语言特征包括与多于一个音段上的声学特性相关的超音段特征。

3.根据权利要求1所述的方法，其特征在于，还包括生成多个第三语音候选，每个第三语音候选包括不同级别的第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征。

4.根据权利要求3所述的方法，其特征在于，还包括选择所述多个第三语音候选中的一个或多个第三语音候选，用于在语音翻译期间使用。

5.根据权利要求4所述的方法，其特征在于，还包括将所选择的所述一个或多个第三语音候选存储在数据库中，所述数据库连接到所述机器学习系统，并且包括多个不同的受训练的第三语音。

6.根据权利要求1所述的方法，其特征在于，所述GAN系统是变分自动编码WassersteinGAN(VAW-GAN)系统或循环一致GAN(CycleGAN)系统。

7.根据权利要求1所述的方法，其特征在于，所述第一语音是说所述第一语言的原始演员语音，并且其中，所述第二语音是说所述第二语言的配音演员。

8.根据权利要求7所述的方法，其特征在于，在电影语音翻译期间实施为使得能够选择原始版本、具有所述原始演员语音的配音版本或具有所述配音演员语音的配音版本。

9.根据权利要求8所述的方法，其特征在于，还包括：

生成多个第三语音候选，每个第三语音候选包括不同级别的第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征；

在生成多个配音版本音频文件时使用所生成的所述多个第三语音候选，所述多个配音版本音频文件包括不同级别的所述第一语音的与说话者相关的声学特征和所述第二语音的与说话者无关的语言特征。

10.一种训练循环一致生成性对抗网络(CycleGAN)系统的方法，其特征在于，包括：

至少使用对抗损失函数和循环一致性损失函数来同时学习正向映射函数和反向映射函数，所述正向映射函数包括：

由语音特征提取器接收第一语言的第一语音音频段；

由所述语音特征提取器提取第一语音的与说话者相关的声学特征；

将所述第一语音的与说话者相关的声学特征发送到所述CycleGAN系统的第一至第三说话者生成器；

由所述第一至第三说话者生成器从所述反向映射函数接收第二语音的与说话者无关的语言特征；

由所述第一至第三说话者生成器使用所述第一语音的与说话者相关的声学特征和所述第二语音的与说话者无关的语言特征来生成第三语音候选；并且

由所述CycleGAN系统的第一鉴别器确定所述第三语音候选和所述第一语音的与说话者相关的声学特征之间是否存在差异；

并且所述反向映射函数包括：

由所述特征提取器接收第二语言的第二语音音频段；

由所述特征提取器提取所述第二语音的与说话者无关的语言特征；

将所述第二语音的与说话者无关的语言特征发送到第二至第三语音候选生成器；

由所述第二至第三语音候选生成器从所述正向映射函数接收第一语音的与说话者相关的声学特征；

由所述第二至第三语音候选生成器使用所述第二语音的与说话者无关的语言特征和第一语音的与说话者相关的声学特征来生成第三语音候选；并且

由第二鉴别器确定在所述第三语音候选和所述第二语音的与说话者无关的语言特征之间是否存在差异。

11.根据权利要求10所述的方法，其特征在于，当所述第一鉴别器确定所述第三语音候选和所述第一语音的与说话者相关的声学特征不一致时，所述正向映射函数触发所述方法继续：

将第一不一致信息提供回所述第一至第三语音候选生成器，用于润色所述第三语音候选；

将所述第三语音候选发送到第三至第一说话者生成器；

生成转换后的第一语音的与说话者相关的声学特征；并且

将转换后的所述第一语音的与说话者相关的声学特征发送回所述第一至第三语音候选生成器；并且

其中，当所述第二鉴别器确定所述第三语音候选和所述第二语音的与说话者无关的语言特征不一致时，所述反向映射函数触发所述方法继续：

将第二不一致信息提供回所述第二至第三语音候选生成器，用于润色所述第三语音候选；

将所述第三语音候选发送到第三至第二说话者生成器；

生成转换后的第二语音的与说话者无关的语言特征；并且

将转换后的所述第二语音的与说话者无关的语言特征发送回所述第二至第三语音候选生成器。

12.根据权利要求10所述的方法，其特征在于，还包括采用身份映射损失来保留所述第一语音音频段和所述第二语音音频段中的每一个的身份相关的特征。

13.一种存储在服务器计算机系统的存储器中并由至少一个处理器实施的机器学习系统，其特征在于，所述机器学习系统包括：

语音特征提取器，所述语音特征提取器被配置为：

接收第一语言的第一语音音频段和第二语言的第二语音音频段，并且

分别从所述第一语音音频段和所述第二语音音频段中提取音频特征，所述音频特征包括第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征；以及

生成性对抗网络(GAN)，所述GAN包括一个或多个生成器以及一个或多个鉴别器，所述一个或多个生成器被配置为：

接收提取的特征，并且

从其中产生第三语音候选，所述第三语音候选具有所述第一语音的与说话者相关的声学特征和所述第二语音的与说话者无关的语言特征，其中，所述第三语音候选说所述第二语言；以及

所述一个或多个鉴别器被配置为：

将所述第三语音候选与包括所述第一语音的与说话者相关的声学特征和所述第二语音的与说话者无关的语言特征的地面实况数据进行比较；并且

将比较结果提供回所述生成器，用于润色所述第三语音候选。

14.根据权利要求13所述的系统，其特征在于，所述与说话者相关的声学特征包括与声道特征相关的短期音段特征，并且所述与说话者无关的语言特征包括与多于一个音段上的声学特性相关的超音段特征。

15.根据权利要求13所述的系统，其特征在于，所述一个或多个生成器还被配置为生成多个第三语音候选，以供选择。

16.根据权利要求13所述的方法，其特征在于，所述GAN系统是变分自动编码Wasserstein GAN(VAW-GAN)系统或循环一致GAN(CycleGAN)系统。

17.根据权利要求13所述的系统，其特征在于，还包括数据库，所述数据库连接到所述机器学习系统并且被配置为存储所选择的一个或多个第三语音，并且包括多个不同的受训练的第三语音。

18.根据权利要求13所述的系统，其特征在于，所述第一语音是说所述第一语言的原始演员语音，并且其中，所述第二语音是说所述第二语言的配音演员。

19.根据权利要求13所述的系统，其特征在于，所述系统被配置为用于电影语音翻译，使得能够选择原始版本、具有所述原始演员语音的配音版本或具有配音演员语音的配音版本。

20.根据权利要求13所述的系统，其特征在于，所述机器学习系统还被配置为：

生成包括不同级别的所述第一语音的与说话者相关的声学特征和所述第二语音的与说话者无关的语言特征的多个配音版本音频文件。