JP7577201B2

JP7577201B2 - オーディオ処理方法、装置、ボコーダ、電子機器、コンピュータープログラム

Info

Publication number: JP7577201B2
Application number: JP2023518015A
Authority: JP
Inventors: ▲詩▼▲倫▼ 林; 新▲輝▼ 李; ▲鯉▼ ▲盧▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-30
Filing date: 2021-11-22
Publication date: 2024-11-01
Anticipated expiration: 2041-11-22
Also published as: CN113539231B; EP4210045A4; JP2023542012A; US12387710B2; EP4210045B1; US20260011319A1; EP4210045C0; CN113539231A; EP4210045A1; WO2022142850A1; US20230035504A1

Description

（関連出願への相互参照）
本出願は、出願番号が２０２０１１６１２３８７．８であり、出願日が２０２０年１２月３０日であり、出願名称が「オーディオ処理方法、ボコーダ、装置、機器及び記憶媒体」である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照により本出願に組み込まれる。

本出願は、オーディオ及びビデオ処理技術に関し、特にオーディオ処理方法、装置、ボコーダ、電子機器、コンピューター可読記憶媒体及びコンピュータープログラム製品に関する。

スマート機器（スマートフォン、スマートスピーカーなど）の急速な発展に伴い、音声インタラクション技術は、自然なインタラクション方式として広く適用されている。音声インタラクション技術における重要な部分として、音声合成技術も長足の進歩を遂げる。音声合成技術は、一定のルール又はモデルアルゴリズムにより、テキストを対応するオーディオコンテンツに変換する。従来の音声合成技術は、主にスプライシング方法又はパラメータ統計方法に基づく技術である。深層学習が音声認識分野での絶え間ない突破に伴い、深層学習は次第に音声合成分野に導入される。この影響を受け、ニューラルネットワークに基づくニューラルボコーダ（Ｎｅｕｒａｌｖｏｃｏｄｅｒ）は大きな進展を遂げる。しかし、現在のボコーダは通常、音声予測を遂行するために、オーディオ特徴信号における複数のサンプリング時点に基づいて複数回のループを実行する必要があり、それによって音声合成を遂行し、これにより、オーディオ合成の処理速度が遅くなり、オーディオ処理の効率が低下する。

本出願の実施例は、オーディオ処理方法、装置、ボコーダ、電子機器、コンピューター可読記憶媒体及びコンピュータープログラム製品を提供し、オーディオ処理の速度と効率を向上させることができる。

本出願の実施例の技術案は、以下のように実現される。

本出願の実施例は、電子機器が実行するオーディオ処理方法を提供し、前記オーディオ処理方法は、
処理対象テキストに対して音声特徴変換を行い、少なくとも１フレームの音響特徴フレームを得るステップと、
フレームレートネットワークにより、前記少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームから、前記各フレームの音響特徴フレームに対応する条件特徴を抽出するステップと、
前記各フレームの音響特徴フレームにおける現在のフレームに対して周波数帯域の分割と時間領域のダウンサンプリングを行い、前記現在のフレームに対応するｎ個のサブフレームを得るステップであって、ｎは１より大きい正の整数であり、前記ｎ個のサブフレームにおける各サブフレームは所定数量のサンプリングポイントを含む、ステップと、
サンプリング予測ネットワークにより、ｉラウンド目の予測プロセスにおいて、現在のｍ個の隣接サンプリングポイントの前記ｎ個のサブフレームにおける対応するサンプリング値を同期的に予測し、ｍ×ｎ個のサブ予測値を得、それによって、前記所定数量のサンプリングポイントにおける各サンプリングポイントに対応するｎ個のサブ予測値を得るステップであって、ｉは１以上の正の整数であり、ｍは２以上であり、且つ前記所定数以下の正の整数である、ステップと、
前記各サンプリングポイントに対応するｎ個のサブ予測値に基づいて、前記現在のフレームに対応するオーディオ予測信号を得、さらに、少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームに対応するオーディオ予測信号に対してオーディオ合成を行い、前記処理対象テキストに対応する目標オーディオを得るステップと、を含む。

本出願の実施例は、ボコーダを提供し、前記ボコーダは、
少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームから、前記各フレームの音響特徴フレームに対応する条件特徴を抽出するように構成されるフレームレートネットワークと、

前記各フレームの音響特徴フレームにおける現在のフレームに対して周波数帯域の分割と時間領域のダウンサンプリングを行い、前記現在のフレームに対応するｎ個のサブフレームを得るように構成される時間領域・周波数領域処理モジュールであって、ｎは１より大きい正の整数であり、前記ｎ個のサブフレームにおける各サブフレームは所定数量のサンプリングポイントを含む、時間領域・周波数領域処理モジュールと、
ｉラウンド目の予測プロセスにおいて、現在のｍ個の隣接サンプリングポイントの前記ｎ個のサブフレームにおける対応するサンプリング値を同期的に予測し、ｍ×ｎ個のサブ予測値を得、それによって、前記所定数量のサンプリングポイントにおける各サンプリングポイントに対応するｎ個のサブ予測値を得るように構成されるサンプリング予測ネットワークであって、ｉは１以上の正の整数であり、ｍは２以上であり、且つ前記所定数以下の正の整数である、サンプリング予測ネットワークと、
前記各サンプリングポイントに対応するｎ個のサブ予測値に基づいて、前記現在のフレームに対応するオーディオ予測信号を得、さらに、少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームに対応するオーディオ予測信号に対してオーディオ合成を行い、処理対象テキストに対応する目標オーディオを得るように構成される信号合成モジュールと、を備える。

本出願の実施例は、オーディオ処理装置を提供し、前記オーディオ処理装置は、
処理対象テキストに対して音声特徴変換を行い、少なくとも１フレームの音響特徴フレームを得るように構成されるテキストから音声への変換モデルと、
前記少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームから、前記各フレームの音響特徴フレームに対応する条件特徴を抽出するように構成されるフレームレートネットワークと、
前記各フレームの音響特徴フレームにおける現在のフレームに対して周波数帯域の分割と時間領域のダウンサンプリングを行い、前記現在のフレームに対応するｎ個のサブフレームを得るように構成される時間領域・周波数領域処理モジュールであって、ｎは１より大きい正の整数であり、前記ｎ個のサブフレームにおける各サブフレームは所定数量のサンプリングポイントを含む、時間領域・周波数領域処理モジュールと、
ｉラウンド目の予測プロセスにおいて、現在のｍ個の隣接サンプリングポイントの前記ｎ個のサブフレームにおける対応するサンプリング値を同期的に予測し、ｍ×ｎ個のサブ予測値を得、それによって、前記所定数量のサンプリングポイントにおける各サンプリングポイントに対応するｎ個のサブ予測値を得るように構成されるサンプリング予測ネットワークであって、ｉは１以上の正の整数であり、ｍは２以上であり、且つ前記所定数以下の正の整数である、サンプリング予測ネットワークと、
前記各サンプリングポイントに対応するｎ個のサブ予測値に基づいて、前記現在のフレームに対応するオーディオ予測信号を得、さらに、少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームに対応するオーディオ予測信号に対してオーディオ合成を行い、前記処理対象テキストに対応する目標オーディオを得るように構成される信号合成モジュールと、を備える。

本出願の実施例は、電子機器を提供し、前記電子機器は、メモリと、プロセッサとを含み、前記メモリは実行可能な命令を記憶するように構成され、前記プロセッサは、前記メモリに記憶される実行可能な命令を実行するとき、本出願の実施例によって提供されるオーディオ処理方法を実現する構成される。

本出願の実施例は、コンピューター可読記憶媒体を提供し、前記コンピューター可読記憶媒体は、実行可能な命令が記憶され、前記実行可能な命令は、プロセッサによって実行されるとき、本出願の実施例によって提供されるオーディオ処理方法を実現する。

本出願の実施例は、コンピュータープログラム製品を提供し、前記コンピュータープログラム製品は、コンピュータープログラム又は命令を含み、前記コンピュータープログラム又は命令は、プロセッサによって実行されるとき、本出願の実施例によって提供されるオーディオ処理方法を実現する。

本出願の実施例は、以下の有益な効果を奏する。

各フレームの音響特徴信号を周波数領域における複数のサブフレームに分割し、各サブフレームに対してダウンサンプリングを行うことにより、サンプリング予測ネットワークがサンプリング値を予測するときに処理する必要がある全体のサンプリングポイントの数を低減させ、さらに、１ラウンドの予測プロセスで、複数の隣接する時間のサンプリングポイントを同時に予測することにより、複数のサンプリングポイントに対する同期処理を実現し、それによってサンプリング予測ネットワークがオーディオ信号を予測するときに必要なループ回数を大幅に減少させ、オーディオ合成の処理速度が向上し、オーディオ処理の効率が向上する。

本出願の実施例による現在のＬＰＣＮｅｔボコーダの選択可能な構造的模式図である。本出願の実施例によるオーディオ処理システムアーキテクチャの選択可能な構造的模式図１である。本出願の実施例による車載適用シナリオにおけるオーディオ処理システムの選択可能な構造的模式図１である。本出願の実施例によるオーディオ処理システムアーキテクチャの選択可能な構造的模式図２である。本出願の実施例による車載適用シナリオにおけるオーディオ処理システムの選択可能な構造的模式図２である。本出願の実施例による電子機器の選択可能な構造的模式図である。本出願の実施例によるマルチバンドマルチタイムドメインボコーダの選択可能な構造的模式図である。本出願の実施例によるオーディオ処理方法の選択可能な模式的フローチャート１である。本出願の実施例によるオーディオ処理方法の選択可能な模式的フローチャート２である。本出願の実施例によるオーディオ処理方法の選択可能な模式的フローチャート３である。本出願の実施例によるオーディオ処理方法の選択可能な模式的フローチャート４である。本出願の実施例によるフレームレートネットワーク及びサンプリング予測ネットワークのネットワークアーキテクチャの選択可能な模式図である。本出願の実施例によるオーディオ処理方法の選択可能な模式的フローチャート５である。本出願の実施例による実際のシナリオに適用される電子機器の選択可能な構造的模式図である。

本出願の目的、技術案及び利点をより明確にするために、下記において図面を参照しながら本出願をさらに詳細に説明し、記載される実施例は、本出願に対する制限と見なすべきではない。当業者が創造的な労力を払うことなく得られる他の全ての実施例は、いずれも本出願の保護範囲に属する。

下記に記載される「いくつかの実施例」について、全ての可能な実施例のサブセットが記載されているが、理解可能なこととして、「いくつかの実施例」は全ての可能な実施例の同じサブセット又は異なるサブセットであってよく、しかも矛盾でなければ互いに組み合わせることができる。

下記に記載される用語「第１／第２／第３」は、単に類似するオブジェクトを区別するものであり、オブジェクトに対する特定の順序を表すものではなく、理解可能なこととして、「第１／第２／第３」は、本明細書で説明される本出願の実施形態が本明細書で図示又は説明される以外の順序で実施できるように、許可された場合に特定の順序又は前後順序を交換することができる。

別途に定義しない限り、本明細書で使用される全ての技術用語及び科学用語は、本出願の技術分野に属する当業者が一般に理解するものと同じ意味を有する。本明細書で使用される用語は、本出願を限定することを意図するものではなく、単に本出願の実施例を説明するためのものである。

本出願の実施例をさらに詳細に説明する前に、本出願の実施例に係る名詞及び用語について説明する。本出願の実施例に係る名詞及び用語は、以下のように解釈される。

１）音声合成：テキストから音声への変換（ＴＴＳ：ＴｅｘｔｔｏＳｐｅｅｃｈ）とも呼ばれ、コンピューター自体で生成されたテキスト情報又は外部から入力されたテキスト情報を、聞き取れる、流暢な音声に変換して読み上げる役割を果たす。

２）スペクトログラム：スペクトログラム（Ｓｐｅｃｔｒｏｇｒａｍｓ）とは、周波数領域における時間領域の信号の表現方式を指し、信号をフーリエ変換して得られるものであり、得られた結果はそれぞれ振幅と位相を縦軸とし、周波数を横軸とする２枚の図である。音声合成技術の適用では、位相の情報が省略され、異なる周波数における対応する振幅情報のみが保持されることが多い。

３）基本周波数：声において、基本周波数（Ｆｕｎｄａｍｅｎｔａｌｆｒｅｑｕｅｎｃｙ）は、ポリフォニーにおける基音の周波数を指し、記号ＦＯで表される。１つのポリフォニーを構成するいくつかの音の中で、基音は周波数が最も低く、強度が最も大きい。基本周波数の高さは、音の高さを決定する。通常、いわゆる音声の周波数は、一般に基音の周波数を指す。

４）ボコーダ：ボコーダ（Ｖｏｃｏｄｅｒ）は、ボイスエンコーダ（ＶｏｉｃｅＥｎｃｏｄｅｒ）の略語に由来し、音声信号分析合成システムとも呼ばれ、音響特徴を音に変換する役割を果たす。

５）ＧＭＭ：ガウス混合モデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）は単一ガウス確率密度関数の延長であり、複数のガウス確率密度関数を用いて変数分布をより正確に統計してモデル化する。

６）ＤＮＮ：ディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）は、判別モデルであり、２つ以上の隠れ層を含む多層パーセプトロン（ＭＬＰ：Ｍｕｌｔｉ－ｌａｙｅｒｐｅｒｃｅｐｔｒｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ）であり、入力ノードを除いて、各ノードは、非線形の活性化関数を有するニューロンであり、ＭＬＰと同様に、ＤＮＮは逆伝播アルゴリズムを用いて訓練することができる。

７）ＣＮＮ：畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）は、フィードフォワードニューラルネットワークであり、そのニューロンは受容野内のユニットに応答できる。ＣＮＮは通常、複数の畳み込み層と最上部の全結合層で構成され、共有パラメータによってモデルのパラメータ量を低減させることで、画像及び音声認識に広く適用される。

８）ＲＮＮ：再帰型ニューラルネットワーク（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）は、シーケンス（ｓｅｑｕｅｎｃｅ）データを入力として、シーケンスの進化方向に再帰（ｒｅｃｕｒｓｉｏｎ）を行い、全てのノード（回帰型ユニット）がチェーンで接続された再帰ニューラルネットワーク（ＲｅｃｕｒｓｉｖｅＮｅｕｒａｌＮｅｔｗｏｒｋ）である。

９）ＬＳＴＭ：長短時間記憶ネットワーク（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）は、再帰型ニューラルネットワークであり、アルゴリズムに情報が有用であるかどうかを判断するＣｅｌｌを追加している。1つのＣｅｌｌには、入力ゲート、忘却ゲート、及び出力ゲートが配置される。情報がＬＳＴＭに入った後、ルールに基づいて有用であるかどうかを判断する。アルゴリズム認証に合致する情報しか保持されることなく、合致しない情報は忘却ゲートにより忘却される。該ネットワークは、時系列における間隔と遅延が比較的に長い重要なイベントを処理し、予測するのに適する。

１０）ＧＲＵ：ゲート付き回帰型ユニット（ＧａｔｅＲｅｃｕｒｒｅｎｔＵｎｉｔ）は、再帰型ニューラルネットワークの一種である。ＬＳＴＭと同様に、長期記憶及び逆伝播における勾配などの問題を解決するために提案される。ＬＳＴＭに比べて、ＧＲＵの内部は１つの「ゲート」が少なく、パラメータがＬＳＴＭよりも少なく、多くの場合、ＬＳＴＭに匹敵する効果を達成し、計算時間を効果的に削減することができる。

１１）Ｐｉｔｃｈ：基音周期である。通常、音声信号は簡単に２つのタイプに分けられ得る。１つのタイプは、短時間の周期性を有する濁音であり、人が濁音を出すとき、気流は声門を通過して声帯に緊張と弛緩の振動式振動を発生させ、準周期的なパルス気流を発生し、該気流は声道に濁音を発生させ、濁音は、有声音声とも呼ばれ、音声の大部のエネルギーを有し、その周期は基音周期（Ｐｉｔｃｈ）と呼ばれる。もう１つのタイプは、ランダムなノイズ性質を有する清音であり、声門が閉じるときに口腔によってその中の空気を圧縮することで生成される。

１２）ＬＰＣ：線形予測符号化（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）であり、音声信号は線形時変システムの出力としてモデル化することができ、該システムの入力励起信号は（濁音の期間）周期的なパルス又は（清音の期間）ランダムなノイズである。音声信号のサンプリングは、過去サンプリングの線形フィッティングによって近似することができ、次に、実際のサンプリングと線形予測サンプリングの間の差の二乗和を局所的に最小化することによって、１セットの予測係数、即ちＬＰＣを得ることができる。

１３）ＬＰＣＮｅｔ：線形予測符号化ネットワークは、デジタル信号処理とニューラルネットワークが巧みに組み合わせられて音声合成におけるボコーダに適用されるネットワークであり、通常のＣＰＵ上でリアルタイムに高品質の音声を合成することができる。

現在、ニューラルネットワークに基づくボコーダにおいて、Ｗａｖｅｎｅｔは、ニューラルボコーダの先駆的な製品として、該分野での後続の研究に重要な参考を提供するが、その自己再帰（即ち、現在のサンプリングポイントを予測するには将来時刻のサンプリングポイントに依存する必要がある）のフォワード方式のため、リアルタイム性において大規模なオンラインアプリケーションの要件を満たすことは困難である。Ｗａｖｅｎｅｔに存在する問題に対して、ストリームに基づくニューラルボコーダ、例えばＰａｒａｌｌｅｌＷａｖｅｎｅｔ、Ｃｌａｒｉｎｅｔが生まれる。このタイプのボコーダは、蒸留の方式により、教師モデルと生徒モデルによって予測する分布（混合ロジスティック分布、単一ガウス分布）をできるだけ近づける。蒸留学習が完了した後、フォワード予測のときに、並行処理可能な生徒モデルを用いて全体の速度を向上させる。しかし、ストリームに基づくボコーダの全体的な構造は比較的複雑であり、訓練プロセスが分断され、訓練の安定性がよくないという問題があるため、ストリームに基づくボコーダは、コストの高いＧＰＵ上でしかリアルタイムな合成を実現することができない。大規模なオンラインアプリケーションにとって、コストが高すぎる。その後、Ｗａｖｅｒｎｎ、ＬＰＣＮｅｔなどのような、より簡単な構造を有する自己再帰モデルが次々と提案された。本来の比較的簡単な構造の上に、量子化最適化と行列スパース最適化をさらに導入することで、単一のＣＰＵ上で比較的優れたリアルタイム性を達成することができる。しかし、大規模なオンラインアプリケーションについては、より高速なボコーダが必要である。

現在、ＬＰＣＮｅｔボコーダは、主にフレームレートネットワーク（ＦＲＮ：ＦｒａｍｅＲａｔｅＮｅｔｗｏｒｋ）とサンプリングレートネットワーク（ＳＲＮ：ＳａｍｐｌｅＲａｔｅＮｅｔｗｏｒｋ）から構成される。図１に示すように、フレームレートネットワーク１０は、通常、多次元のオーディオ特徴を入力として、多層畳み込みの処理により、高層のオーディオ特徴を後続のサンプリングレートネットワーク２０の条件特徴ｆとして抽出する。サンプリングレートネットワーク２０は、多次元のオーディオ特徴に基づいて、ＬＰＣ係数を計算し、ＬＰＣ係数に基づいて、現在の時刻より前の複数の時刻で予測して得られたサンプリングポイントの予測値Ｓ_ｔ－１６…Ｓ_ｔ－１を組み合わせて、現在の時刻のサンプリングポイントに対応する現在の粗予測値ｐ_ｔを線形予測符号化として出力する。サンプリングレートネットワーク２０は、１つ前の時刻のサンプリングポイントに対応する予測値Ｓ_ｔ－１、１つ前の時刻のサンプリングポイントに対応する予測誤差ｅ_ｔ－１、現在の粗予測値ｐ_ｔ、及びフレームレートネットワーク１０によって出力された条件特徴ｆを入力として、現在の時刻のサンプリングポイントに対応する予測誤差ｅ_ｔを出力し、その後、サンプリングレートネットワーク２０は、現在の粗予測値ｐ_ｔに、現在の時刻のサンプリングポイントに対応する予測誤差ｅ_ｔを加算して、現在の時刻の予測値Ｓ_ｔを得る。サンプリングレートネットワーク２０は、多次元のオーディオ特徴における各サンプリングポイントに対して同じ処理を実行し、繰り返して実行してから、最終的にすべてのサンプリングポイントに対するサンプリング値の予測を完了し、各サンプリングポイント上の予測値に基づいて、合成が必要な全体の目標オーディオを得る。通常、オーディオサンプリングポイントの数が多いため、サンプリングレートが１６ｋＨｚであることを例として、１０ｍｓのオーディオは１６０個のサンプリングポイントを含み、１０ｍｓのオーディオを合成するために、現在のボコーダにおけるＳＲＮは１６０回ループする必要があり、全体の計算量が比較的大きく、それによってオーディオ処理の速度と効率が低下する。

本出願の実施例は、オーディオ処理方法、装置、ボコーダ、電子機器及びコンピューター可読記憶媒体を提供し、オーディオ処理の速度と効率を向上させることができる。以下、本出願の実施例によって提供される電子機器の例示的な適用を説明し、本出願の実施例によって提供される電子機器は、インテリジェントロボット、スマートスピーカー、ノートブックコンピューター、タブレットコンピューター、デスクトップコンピューター、セットトップボックス、モバイル機器（例えば、携帯電話、携帯音楽プレーヤー、パーソナルデジタルアシスタント、専用メッセージング機器、携帯ゲーム機器）、インテリジェント音声インタラクション機器、スマート家電、車載端末などの様々なタイプのユーザ端末として実施されてもよく、サーバとして実施されてもよい。次に、電子機器をサーバとして実施する場合の例示的な適用について説明する。

図２を参照すると、図２は、本出願の実施例によるオーディオ処理システム１００－１の選択可能なアーキテクチャ模式図である。インテリジェント音声アプリケーションのサポートを実現するために、端末４００（例示的に、端末４００－１、端末４００－２及び端末４００－３が示される）は、ネットワークによりサーバ２００に接続され、ネットワークは、ワイドエリアネットワーク又はローカルエリアネットワーク、又は両方の組み合わせであってもよい。

端末４００にインテリジェント音声アプリケーションのクライアント４１０（例示的に、クライアント４１０－１、クライアント４１０－２、クライアント４１０－３が示される）がインストールされ、クライアント４１０は、インテリジェント音声合成を行おうとする処理対象テキストをサーバ側に送信することができる。サーバ２００は、処理対象テキストを受信した後、処理対象テキストに対して音声特徴変換を行い、少なくとも１フレームの音響特徴フレームを得、フレームレートネットワークにより、少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームから、各フレームの音響特徴フレームに対応する条件特徴を抽出し、各フレームの音響特徴フレームにおける現在のフレームに対して周波数帯域の分割と時間領域のダウンサンプリングを行い、現在のフレームに対応するｎ個のサブフレームを得、ここで、ｎは１より大きい正の整数であり、ｎ個のサブフレームの各サブフレームは所定数量のサンプリングポイントを含み、サンプリング予測ネットワークにより、ｉラウンド目の予測プロセスにおいて、現在のｍ個の隣接サンプリングポイントのｎ個のサブフレームにおける対応するサンプリング値を同期的に予測し、ｍ×ｎ個のサブ予測値を得、それによって、所定数量のサンプリングポイントにおける各サンプリングポイントに対応するｎ個のサブ予測値を得、ここで、ｉは１以上の正の整数であり、ｍは２以上であり、且つ、所定数以下の正の整数であり、各サンプリングポイントに対応するｎ個のサブ予測値に基づいて、現在のフレームに対応するオーディオ予測信号を得、さらに、少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームに対応するオーディオ予測信号に対してオーディオ合成を行い、処理対象テキストに対応する目標オーディオを得るように構成される。サーバ２００はさらに、目標オーディオに対して圧縮などの後処理操作を実行し、処理後の目標オーディオをストリームの形式又は完全文の形式で端末４００に返すことができる。端末４００は、返されたオーディオを受信した後、クライアント４１０で滑らかで自然な音声再生を行うことができる。オーディオ処理システム１００－１の全体の処理プロセスで、サーバ２００は、サンプリング予測ネットワークにより、隣接する時間の複数のサブバンド特徴に対応する予測値を同時に予測することができ、オーディオを予測するときに必要なループ回数が少ないため、サーバのバックグラウンド音声合成サービスの遅延が小さく、クライアント４１０は返されたオーディオを直ちに取得することができる。これにより、端末４００のユーザは、処理対象テキストから変換された音声コンテンツを短時間で聞くことができ、両眼を解放し、インタラクションが自然で便利になる。

いくつかの実施例では、サーバ２００は、独立した物理サーバであってもよく、又は複数の物理サーバから構成されるサーバクラスター又は分散システムであってもよく、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、ＣＤＮ、及びビッグデータと人工知能プラットフォームなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。端末４００は、スマートフォン、タブレットコンピューター、ノートブックコンピューター、デスクトップコンピューター、スマートスピーカー、スマートウォッチなどであり得るが、これらに限定されない。端末とサーバは、有線通信又は無線通信により直接的又は間接的に接続することができ、本出願の実施例では限定されない。

いくつかの実施例では、図３に示すように、端末４００は、車載装置４００－４であってもよく、例示的に、車載装置４００－４は、車両装置の内部に設置された車載コンピューターであってもよく、車両装置の外部に設置された車両を制御するための制御装置などであってもよい。インテリジェント音声アプリケーションのクライアント４１０は、車載サービスのクライアント４１０－４であってもよく、車両に関する走行情報を表示し、車両上の各種の機器の操作を提供し、その他の拡張機能を提供する。車載サービスのクライアント４１０－４は、外部から送信されたテキストメッセージ、例えば、ニュースメッセージ、道路状況メッセージ、又は緊急メッセージなどのテキスト情報を含むメッセージを受信する場合、ユーザの操作命令に基づいて、例えば、ユーザが４１０－５に示すメッセージポップアップインタフェース上で音声、画面又はボタンなどの操作により、音声再生命令をトリガした後、車載サービスシステムは、音声再生命令に応答してテキストメッセージをサーバ２００に送信し、サーバ２００は、テキストメッセージから処理対象テキストを抽出し、処理対象テキストに対して上述のオーディオ処理プロセスを行い、対応する目標オーディオを生成することができる。サーバ２００は、目標オーディオを車載サービスのクライアント４１０－４に送信し、車載サービスのクライアント４１０－４によって車載マルチメディア装置を呼び出して目標オーディオを再生し、４１０－６に示すオーディオ再生インタフェースを表示する。

以下、電子機器を端末として実施する場合の例示的な適用について説明する。図４を参照すると、図４は、本出願の実施例によるオーディオ処理システム１００－２の選択可能なアーキテクチャ模式図であり、一つの細分化分野におけるカスタマイズ、パーソナライズ可能な音声合成アプリケーション、例えば、小説の朗読、ニュース放送などの分野における専用の音色音声合成サービスのサポートを実現するために、端末５００はネットワークによりサーバ３００に接続され、ネットワークはワイドエリアネットワーク又はローカルエリアネットワーク、又は両方の組み合わせであってもよい。

サーバ３００は、事前に、音色カスタマイズ需要に基づいて、各種類の音色のオーディオ、例えば異なる性別又は異なる音色タイプの話者のオーディオを収集することによって音声ライブラリを形成し、内蔵の初期音声合成モデルを音声ライブラリで訓練し、音声合成機能を備えたサーバ側モデルを得、訓練済みのサーバ側モデルを端末５００に配置して、端末５００上のバックグラウンド音声処理モデル４２０にする。端末５００にインテリジェント音声アプリケーション４１１（閲読用ＡＰＰ、ニュースクライアントなど）がインストールされ、ユーザがインテリジェント音声アプリケーション４１１であるテキストを朗読する必要がある場合、インテリジェント音声アプリケーション４１１はユーザから送られた音声朗読対象であるテキストを取得し、該テキストを処理対象テキストとしてバックグラウンド音声モデル４２０に送信することができ、バックグラウンド音声モデル４２０により、処理対象テキストに対して音声特徴変換を行い、少なくとも１フレームの音響特徴フレームを得、フレームレートネットワークにより、少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームから、各フレームの音響特徴フレームに対応する条件特徴を抽出し、各フレームの音響特徴フレームにおける現在のフレームに対して周波数帯域の分割と時間領域のダウンサンプリングを行い、現在のフレームに対応するｎ個のサブフレームを得、ここで、ｎは１より大きい正の整数であり、ｎ個のサブフレームの各サブフレームは所定数量のサンプリングポイントを含み、サンプリング予測ネットワークにより、ｉラウンド目の予測プロセスにおいて、現在のｍ個の隣接サンプリングポイントのｎ個のサブフレームにおける対応するサンプリング値を同期的に予測し、ｍ×ｎ個のサブ予測値を得、それによって、所定数量のサンプリングポイントにおける各サンプリングポイントに対応するｎ個のサブ予測値を得、ここで、ｉは１以上の正の整数であり、ｍは２以上であり、且つ、所定数以下の正の整数であり、各サンプリングポイントに対応するｎ個のサブ予測値に基づいて、現在のフレームに対応するオーディオ予測信号を取得、さらに、少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームに対応するオーディオ予測信号に対してオーディオ合成を行い、処理対象テキストに対応する目標オーディオを得て、インテリジェント音声アプリケーション４１１のフロントインタラクティブインタフェースに伝送して再生する。パーソナライズ、カスタマイズ的な音声合成は、システムのロバスト性、汎化性、及びリアルタイム性などに対してより高い要求を求めており、本出願の実施例によって提供されるモジュール化可能なエンドツーエンドのオーディオ処理システムは、実際の状況に応じて柔軟に調整することができ、合成効果にほとんど影響を与えない前提で、異なる需要の下でシステムの高い適応性を保障する。

いくつかの実施例では、図５を参照すると、端末５００は車載装置５００－１であり得、車載装置５００－１は、携帯電話、タブレットコンピューターなどの他のユーザ機器５００－２に有線又は無線の方式で接続され、例示的に、ブルートゥース（登録商標）、又はＵＳＢなどで接続され得る。ユーザ機器５００－２は、ショートメッセージ、ドキュメントなどのそれ自体のテキストを、接続により車載装置５００－１上のインテリジェント音声アプリケーション４１１－１に送信することができる。例示的に、ユーザ機器５００－２が通知メッセージを受信する場合、通知メッセージをインテリジェント音声アプリケーション４１１－１に自動的に転送することができ、又はユーザ機器５００－２は、ユーザ機器アプリケーションにおけるユーザの操作命令に基づいて、ローカルに保存されたドキュメントをインテリジェント音声アプリケーション４１１－１に送信することもできる。インテリジェント音声アプリケーション４１１－１は、プッシュされたテキストを受信する場合、音声再生命令への応答に基づいて、テキストコンテンツを処理対象テキストとして、バックグラウンド音声モデルにより、処理対象テキストに対して上述のオーディオ処理プロセスを実行し、対応する目標オーディオを生成することができる。インテリジェント音声アプリケーション４１１－１は、さらに対応するインタフェースディスプレイ及び車載マルチメディア機器を呼び出して目標オーディオを再生する。

図６を参照すると、図６は、本出願の実施例による電子機器６００の構造的模式図である。図６に示す電子機器６００は、少なくとも１つのプロセッサ６１０、メモリ６５０、少なくとも１つのネットワークインタフェース６２０、及びユーザインタフェース６３０を含む。電子機器６００内の各コンポーネントは、バスシステム６４０によりカップリンブされる。バスシステム６４０は、これらのコンポーネント間の接続及び通信を実現するために用いられることが理解され得る。バスシステム６４０は、データバスに加えて、電源バス、制御バス、及び状態信号バスも含む。しかし、明確に説明するために、図６では、様々なバスをバスシステム６４０と記す。

プロセッサ４１０は、信号処理能力を備えた集積回路チップ、例えば、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、又は他のプログラマブルロジック機器、ディスクリートゲート又はトランジスタロジック機器、ディスクリートハードウェアコンポーネントなどであってもよい。ここで、汎用プロセッサは、マイクロプロセッサ又は任意の従来のプロセッサなどであってもよい。

ユーザインタフェース６３０は、メディアコンテンツのレンダリングを可能にする１つ又は複数の出力装置６３１を含み、出力装置６３１は、１つ又は複数のスピーカ及び／又は１つ又は複数のビジュアルディスプレイを含む。ユーザインタフェース６３０はさらに、１つ又は複数の入力装置６３２を含み、入力装置６３２は、ユーザの入力を容易にするユーザインタフェース構成要素、例えば、キーボード、マウス、マイクロフォン、タッチスクリーンディスプレイ、カメラ、他の入力ボタン及びコントロールを含む。

メモリ６５０は、取り外し可能、取り外し不可、又はそれらの組み合わせであってもよい。例示的なハードウェア機器は、ソリッドステートメモリ、ハードドライブ、光ディスドライブなどを含む。メモリ６５０は、選択的に、プロセッサ６１０から物理的に離れた位置にある１つ又は複数の記憶装置を含む。

メモリ６５０は、揮発性メモリ又は不揮発性メモリを含み、揮発性メモリと不揮発性メモリの両方を含むこともできる。不揮発性メモリは読み出し専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）であってもよく、揮発性メモリはランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）であってもよい。本出願の実施例で説明されるメモリ６５０は、任意の適切なタイプのメモリを含むことを意図する。

いくつかの実施例では、メモリ６５０は、各種類の操作をサポートするためにデータを記憶することができ、これらのデータの例は、プログラム、モジュール、及びデータ構造、又はそれらのサブセット又はスーパーセットを含み、以下に例示的に説明する。

オペレーティングシステム６５１は、様々な基本システムサービスを処理し、ハードウェア関連タスクを実行するためのシステムプログラム、例えば、フレームワーク層、コアライブラリ層、ドライバ層などを含み、様々な基本サービスを実現し、ハードウェアに基づくタスクを処理するために用いられる。

ネットワーク通信モジュール６５２は、１つ又は複数の（有線又は無線）ネットワークインタフェース６２０により他のコンピューティング機器に到達するために用いられ、例示的なネットワークインタフェース６２０は、ブルートゥース（登録商標）、無線適合性認証（ＷｉＦｉ）、及び汎用シリアルバス（ＵＳＢ：ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などを含む。

レンダリングモジュール６５３は、ユーザインタフェース６３０に関連付けられた１つ又は複数の出力装置６３１（例えば、ディスプレイ、スピーカなど）により情報（例えば、周辺機器を操作し、コンテンツ及び情報を表示するためのユーザインタフェース）のレンダリングを可能にするために用いられる。

入力処理モジュール６５４は、１つ又は複数の入力装置６３２の１つからの１つ又は複数のユーザ入力又はインタラクションを検出し、検出された入力又はインタラクションを翻訳するように構成される。

いくつかの実施例では、本出願の実施例によって提供される装置は、ソフトウェアによって実現することができ、図６は、メモリ６５０に記憶されたオーディオ処理装置６５５を示し、オーディオ処理装置６５５は、プログラム又はプラグインなどの形式のソフトウェアであり得、テキストから音声への変換モデル６５５１、フレームレートネットワーク６５５２、時間領域・周波数領域処理モジュール６５５３、サンプリング予測ネットワーク６５５４、及び信号合成モジュール６５５５を含み、これらのモジュールは論理的であるため、実現された機能に応じて任意の組み合わせ又はさらに分割を行うことができる。

以下、各モジュールの機能について説明する。

別のいくつかの実施例では、本出願の実施例によって提供される装置は、ハードウェアで実現されてもよく、例として、本出願の実施例によって提供される装置は、ハードウェアデコーディングプロセッサの形態を採用するプロセッサであってもよく、該プロセッサは、本出願の実施例によって提供されるオーディオ処理方法を実行するためにプログラムされ、例えば、ハードウェアデコーディングプロセッサ形態のプロセッサは、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＤＳＰ、プログラマブルロジックデバイス（ＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ：ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）又はその他の電子部品を採用することができる。

本出願の実施例は、マルチバンドマルチタイムドメインのボコーダを提供し、該ボコーダは、テキストから音声への変換モデルと組み合わせることができ、テキストから音声への変換モデルで処理対象テキストに基づいて出力される少なくとも１フレームの音響特徴フレームを目標オーディオに変換する。該ボコーダは、他のオーディオ処理システムにおけるオーディオ特徴抽出モジュールと組み合わせることもでき、オーディオ特徴抽出モジュールによって出力されたオーディオ特徴をオーディオ信号に変換する役割を果たす。具体的には実際の状況に応じて選択しても良く、本出願の実施例では限定されない。

図７に示すように、本出願の実施例によって提供されるボコーダは、時間領域・周波数領域処理モジュール５１、フレームレートネットワーク５２、サンプリング予測ネットワーク５３、及び信号合成モジュール５４を含む。ここで、フレームレートネットワーク５２は、入力された音響特徴信号に対して高層の抽象化を実行し、少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームから該フレームに対応する条件特徴を抽出することができる。ボコーダは、さらに、各フレームの音響特徴フレームに対応する条件特徴に基づいて、該フレームの音響特徴における各サンプリングポイントにおけるサンプリング信号値を予測することができる。ボコーダが少なくとも１フレームの音響特徴フレームにおける現在のフレームを処理することを例として、各フレームの音響特徴フレームにおける現在のフレームに対して、時間領域・周波数領域処理モジュール５１は、現在のフレームに対して周波数帯域の分割及び時間領域のダウンサンプリングを行い、現在のフレームに対応するｎ個のサブフレームを得、ｎ個のサブフレームの各サブフレームは所定数量のサンプリングポイントを含む。サンプリング予測ネットワーク５３は、ｉラウンド目の予測プロセスにおいて、現在のｍ個の隣接サンプリングポイントのｎ個のサブフレームにおける対応するサンプリング値を同期的に予測し、ｍ×ｎ個のサブ予測値を得、それによって、所定数量のサンプリングポイントにおける各サンプリングポイントに対応するｎ個のサブ予測値を得るように構成され、ここで、ｉは１以上の正の整数であり、ｍは２以上、且つ所定数個以下の正の整数である。信号合成モジュール５４は、各サンプリングポイントに対応するｎ個のサブ予測値に基づいて、現在のフレームに対応するオーディオ予測信号を取得し、さらに、各フレームの音響特徴フレームに対応するオーディオ予測信号に対してオーディオ合成を行い、処理対象テキストに対応する目標オーディオを得るように構成される。

人の声は、人の肺から押し出された気流が声帯を通過して生成され振動波であり、空気により耳に伝播されるため、サンプリング予測ネットワークは音源励起（肺から気流を出すことをシミュレートする）と声道応答（ｖｏｃａｌｔｒａｃｔｒｅｓｐｏｎｓｅ）システムにより、オーディオ信号のサンプリング値を予測することができる。いくつかの実施例では、サンプリング予測ネットワーク５３は、図７に示すように、線形予測符号化モジュール５３－１及びサンプリングレートネットワーク５３－２を含むことができる。ここで、線形予測符号化モジュール５３－１は、ｎ個のサブフレームにおけるｍ個のサンプリングポイントのうちの各サンプリングポイントの対応するサブ粗予測値を声道応答として計算することができる。サンプリングレートネットワーク５３－２は、フレームレートネットワーク５２によって抽出された条件特徴に基づいて、１ラウンドの予測プロセスにおいて、ｍ個のサンプリングポイントをフォワード予測の時間スパンとして、ｎ個のサブフレームにおけるｍ個の隣接するサンプリングポイントのうちの各サンプリングポイントのそれぞれ対応する残差値を音源励起（Ｅｘｃｉｔａｔｉｏｎ）として同時に遂行し、さらに声道応答と音源励起に基づいて、対応するオーディオ信号をシミュレートすることができる。

いくつかの実施例では、ｍを２に等しく、即ち、サンプリング予測ネットワークの予測時間スパンを２個のサンプリングポイントとすることを例として、ｉラウンド目の予測プロセスにおいて、線形予測符号化モジュール５３－１は、現在時刻ｔにおけるサンプリングポイントｔに対応する少なくとも１つの時刻ｔの過去サンプリングポイントのうちの各過去サンプリングポイントに対応するｎ個のサブ予測値に基づいて、サンプリングポイントｔのｎ個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、ｎ個の時刻ｔのサブ粗予測値を得、サンプリングポイントｔの声道応答とする。サンプリングポイントｔに対応する残差値を予測する場合、予測時間スパンが２個のサンプリングポイントであるため、サンプリングレートネットワーク５３－２は、ｉ－１ラウンド目の予測プロセスにおけるサンプリングポイントｔ－２に対応するｎ個の時刻ｔ－２の残差値と、ｎ個の時刻ｔ－２のサブ予測値とを励起値として、条件特徴とｎ個の時刻ｔ－１のサブ粗予測値を組み合わせて、サンプリングポイントｔのｎ個のサブフレームにおけるそれぞれ対応する残差値に対してフォワード予測を実行し、サンプリングポイントｔに対応するｎ個の時刻ｔの残差値を得る。同時に、サンプリングポイントｔに対応する残差値を予測する場合、ｉ－１ラウンド目の予測プロセスにおけるサンプリングポイントｔ－１に対応するｎ個の時刻ｔ－１の残差値と、ｎ個の時刻ｔ－１のサブ予測値とを励起値とし、条件特徴と組み合わせて、サンプリングポイントｔ＋１のｎ個のサブフレームにおけるそれぞれ対応する残差値に対してフォワード予測を実行し、サンプリングポイントｔ＋１に対応するｎ個の時刻ｔ＋１の残差値を得る。サンプリングレートネットワーク５３－２は、上記のプロセスに基づいて、各サンプリングポイントに対応するｎ個の残差値が得られるまで、ｎ個のサブフレームにおけるダウンサンプリング後の所定数量のサンプリングポイントに対して自己再帰的に残差予測を実行することができる。

本出願の実施例では、サンプリング予測ネットワーク５３は、ｎ個の時刻ｔの残差値及びｎ個の時刻ｔのサブ粗予測値に基づいて、サンプリングポイントｔに対応するｎ個の時刻ｔのサブ予測値を得ることができ、サンプリングポイントｔを、サンプリングポイントｔ＋１に対応する少なくとも１つの時刻ｔ＋１の過去サンプリングポイントのうちの１つとし、少なくとも１つの時刻ｔ＋１の過去サンプリングポイントにおける各時刻ｔ＋１の過去サンプリングポイントに対応するサブ予測値に基づいて、サンプリングポイントｔ＋１のｎ個のサブフレームにおける対応する線形サンプリング値に対して線形符号化予測を行い、ｎ個の時刻ｔ＋１のサブ粗予測値を得、サンプリングポイントｔの声道応答とする。さらに、ｎ個の時刻ｔ＋１のサブ粗予測値及びｎ個の時刻ｔ＋１の残差値に基づいて、ｎ個の時刻ｔ＋１のサブ予測値を得、ｎ個の時刻ｔのサブ予測値とｎ個の時刻ｔ＋１のサブ予測値を２ｎ個のサブ予測値とし、それによってｉラウンド目の予測プロセスを完了する。ｉラウンド目の予測プロセスが終了した後、サンプリング予測ネットワーク５３は、現在隣接する２つのサンプリングポイントｔ及びサンプリングポイントｔ＋１を更新し、ｉ＋１ラウンド目のサンプリング値の予測プロセスを開始し、所定数量のサンプリングポイントの予測をすべて完了するまで継続する。ボコーダは、信号合成モジュール５４により現在のフレームに対応するオーディオ信号の信号波形を得ることができる。

理解可能なこととして、本出願の実施例によって提供されるボコーダは、音響特徴をオーディオ信号に変換するために必要な計算量を効果的に低減させ、複数のサンプリングポイントの同期予測を実現し、高いリアルタイムレートを保証するとともに、理解度が高く、自然度が高く、忠実度が高いオーディオを出力することができる。

説明すべきこととして、上記の実施例では、ボコーダの予測時間スパンを２個のサンプリングポイントに設定し、即ち、ｍを２に設定することは、ボコーダの処理効率及びオーディオ合成品質を総合的に考慮した上での好ましい例示的な適用である。実際に適用する際には、必要に応じてｍを他の時間スパンのパラメータ値に設定することもでき、具体的には実際の状況に応じて選択することができ、本出願の実施例では限定されない。ｍが他の値に設定される場合、予測プロセス及び各ラウンドの予測プロセスにおける各サンプリングポイントに対応する励起値の選択は、上述のｍ＝２の場合と同様であり、ここでは説明を繰り返さない。

以下、本出願の実施例によって提供される電子機器６００の例示的な適用及び実施を組み合わせて、本出願の実施例によって提供されるオーディオ処理方法を説明する。

図８を参照すると、図８は、本出願の実施例によるオーディオ処理方法の選択可能な模式的フローチャートであり、図８に示すステップを組み合わせて説明する。

Ｓ１０１において、処理対象テキストに対して音声特徴変換を行い、少なくとも１フレームの音響特徴フレームを得る。

本出願の実施例によって提供されるオーディオ処理方法は、インテリジェント音声アプリケーションのクラウドサービスに適用することができ、さらに、該クラウドサービスを使用するユーザにサービスを提供し、例えば銀行スマートカスタマーサービス、及び単語暗記ソフトウェアなどの学習系ソフトウェアに適用され、端末のローカルアプリケーションにおける書籍のインテリジェントな朗読、ニュース放送などのインテリジェントな音声シナリオに適用されてもよく、自動運転シナリオ又は車載シナリオ、例えば音声インタラクションに基づく車両のインターネットシナリオ又はスマート交通シナリオなどに適用されてもよく、本出願の実施例では限定されない。

本出願の実施例では、電子機器は、所定のテキストから音声への変換モデルにより、変換対象テキスト情報に対して音声特徴変換を行い、少なくとも１フレームの音響特徴フレームを出力することができる。

本出願の実施例では、テキストから音声への変換モデルは、ＣＮＮ、ＤＮＮネットワーク、又はＲＮＮネットワークによって構築されたシーケンスツーシーケンス（ＳｅｑｕｅｎｃｅｔｏＳｅｑｕｅｎｃｅ）モデルであってもよく、シーケンスツーシーケンスモデルは主にエンコーダとデコーダの２つの部分から構成される。エンコードは、音声データ、オリジナルなテキスト、ビデオデータなどの連続関係を有する一連のデータをシーケンスに抽象化し、オリジナルなテキストにおけるキャラクタシーケンス、例えばセンテンスからロバストなシーケンス表現を抽出して、センテンスの内容にマッピングできる固定長のベクトルに符号化し、それによってオリジナルなテキストにおける自然言語をニューラルネットワークによって認識及び処理できるデジタル特徴に変換することができる。デコーダは、エンコーダによって得られた固定長のベクトルを対応するシーケンスの音響特徴にマッピングし、複数のサンプリングポイントにおける特徴を１つの観測単位、即ち１つのフレームとして集め、それによって少なくとも１フレームの音響特徴フレームを得ることができる。

本出願の実施例では、少なくとも１フレームの音響特徴フレームは、少なくとも１フレームのオーディオスペクトル信号であり得、周波数領域のスペクトル図によって表すことができる。各音響特徴フレームは、所定数の特徴次元を含み、特徴次元は、特徴におけるベクトルの数を表し、特徴におけるベクトルは、トーン、フォルマント、スペクトル、声域関数などの各タイプの特徴情報を表すために用いられる。例示的に、少なくとも１フレームの音響特徴フレームは、メル尺度スペクトル図であっても良く、線形対数マグニチュードスペクトル図であっても良く、又はバーク尺度スペクトル図などであっても良く、本出願の実施例では、少なくとも１フレームの音響特徴フレームの抽出方法及び特徴のデータ形式を限定しない。

いくつかの実施例では、各フレームの音響特徴フレームは、１８次元のＢＦＣＣ特徴（Ｂａｒｋ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ）に加えて２次元のピッチ（Ｐｉｔｃｈ）関連特徴を含み得る。

日常生活における音のアナログ信号の周波数は一般的に８ｋＨｚ以下であるため、サンプリング定理によれば、１６ｋＨｚのサンプリングレートは、サンプリングされたオーディオデータにほとんどの音情報を含むことができる。１６ｋＨｚは、１秒間に１６ｋ個の信号サンプルがサンプリングされることを意味する。いくつかの実施例では、各フレームの音響特徴フレームのフレーム長は１０ｍｓであり得、サンプリングレートが１６ｋＨｚであるオーディオ信号に対して、各フレームの音響特徴フレームは１６０個のサンプリングポイントを含むことができる。

Ｓ１０２において、フレームレートネットワークにより、少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームから、各フレームの音響特徴フレームに対応する条件特徴を抽出する。

本出願の実施例では、電子機器は、フレームレートネットワークにより、少なくとも１フレームの音響特徴フレームに対して多層の畳み込み処理を実行し、各フレームの音響特徴フレームの高層音声特徴を、該フレームの音響特徴フレームに対応する条件特徴として抽出することができる。

いくつかの実施例では、電子機器は、Ｓ１０１により、処理対象テキストを１００フレームの音響特徴フレームに変換し、さらに、フレームレートネットワークにより１００フレームの音響特徴フレームを同時に処理し、対応する１００フレームの条件特徴を得ることができる。

いくつかの実施例では、フレームレートネットワークは、順次直列に接続された２つの畳み込み層と、２つの全結合層とを含み得る。例示的に、２つの畳み込み層は、ｆｉｌｔｅｒサイズが３である２つの畳み込み層（ｃｏｎｖ３ｘ１）であり得、１８次元のＢＦＣＣ特徴に加えて２次元のピッチ特徴を含む音響特徴フレームに対して、各フレームにおける２０次元特徴はまず２つの畳み込み層により、該フレームの前の２フレームと該フレームの後の２フレームの音響特徴フレームに基づいて５フレームの受容野を生成し、５フレームの受容野を残差接続に追加し、次に２つの全結合層により１つの１２８次元の条件ベクトルｆを条件特徴として出力し、該条件特徴は、サンプリングレートネットワークがフォワード残差予測を行うことを支援するために用いられる。

説明すべきこととして、本出願の実施例では、各音響特徴フレームに対して、フレームレートネットワークに対応する条件特徴を一回だけ計算する。即ち、サンプリングレートネットワークが、該音響特徴フレームに対応するダウンサンプリングの後の複数のサンプリングポイントに対応するサンプリング値を再帰的に予測するとき、該フレームに対応する条件特徴は、該フレームに対応する再帰的予測プロセスで変化しないように保持される。

Ｓ１０３において、各フレームの音響特徴フレームにおける現在のフレームに対して周波数帯域の分割と時間領域のダウンサンプリングを行い、現在のフレームに対応するｎ個のサブフレームを得、ｎは１より大きい正の整数であり、ｎ個のサブフレームにおける各サブフレームは所定数量のサンプリングポイントを含む。

本出願の実施例では、サンプリング予測ネットワークの予測の繰り返し回数を低減させるために、電子機器は、各フレームの音響特徴フレームにおける現在のフレームに対して周波数帯域の分割を行い、次に分割後の周波数帯域に含まれる時間領域におけるサンプリングポイントに対してダウンサンプリングを行うことで、各分割後の周波数帯域に含まれるサンプリングポイントの数を減らし、それによって現在のフレームに対応するｎ個のサブフレームを得ることができる。

いくつかの実施例では、周波数領域の分割プロセスは、フィルタグループによって実現することができる。例示的に、ｎが４に等しい時に、現在のフレームの周波数範囲が０～８ｋである場合、電子機器は、４つのバンドパスフィルタを含むフィルタグループ、例えばＰｓｅｕｄｏ－ＱＭＦ（ＰｓｅｕｄｏＱｕａｄｒａｔｕｅＭｉｒｒｏｒＦｉｌｔｅｒＢａｎｋ）フィルタグループにより、２ｋの帯域幅を単位として、現在のフレームからそれぞれ０－２ｋ、２－４ｋ、４－６ｋ、６－８ｋ周波数帯域に対応する特徴を分割し、現在のフレームに対応する４つの初期サブフレームを対応的に得ることができる。

いくつかの実施例では、現在のフレームが１６０個のサンプリングポイントを含む場合、電子機器が現在のフレームを４つの周波数領域における初期サブフレームに分割した後、周波数領域の分割が単に周波数帯域に基づく分割であるため、各初期サブフレームに含まれるサンプリングポイントは依然として１６０個である。電子機器は、さらにダウンサンプリングフィルタにより各初期サブフレームに対してダウンサンプリングを行い、各初期サブフレームにおけるサンプリングポイントを４０個まで減らし、それによって現在のフレームに対応する４つのサブフレームを得る。

本出願の実施例では、電子機器は、他のソフトウェア又はハードウェアの方法によって現在のフレームに対して周波数帯域の分割を行うこともでき、具体的には実際の状況に応じて選択し、本出願の実施例では限定されない。電子機器は、少なくとも１フレームの音響特徴フレームにおける各フレームに対して周波数帯域の分割及び時間領域のダウンサンプリングを行う場合、各フレームを現在のフレームとして、同じ処理プロセスで分割及び時間領域のダウンサンプリングを行うことができる。

Ｓ１０４において、サンプリング予測ネットワークにより、ｉラウンド目の予測プロセスにおいて、現在のｍ個の隣接サンプリングポイントのｎ個のサブフレームにおける対応するサンプリング値を同期的に予測し、ｍ×ｎ個のサブ予測値を得、それによって、所定数量のサンプリングポイントにおける各サンプリングポイントに対応するｎ個のサブ予測値を得、ここで、ｉは１以上の正の整数であり、ｍは２以上であり、且つ、所定数以下の正の整数である。

本出願の実施例では、電子機器は、少なくとも１フレームの音響特徴フレームを得た後、少なくとも１フレームの音響特徴フレームをオーディオ信号の波形表現に変換する必要がある。したがって、１フレームの音響特徴フレームに対して、電子機器は、各サンプリングポイントの周波数領域における対応する線形周波数尺度上のスペクトル幅を、各サンプリングポイントのサンプリング予測値として予測する必要があり、それによって、各サンプリングポイントのサンプリング予測値により、該フレームの音響特徴フレームに対応するオーディオ信号波形を得る。

本出願の実施例では、周波数領域における各サブフレームが時間領域で対応するサンプリングポイントは、同じであり、いずれも同じ時刻の所定数量のサンプリングポイントを含み、電子機器は、１ラウンドの予測プロセスで、周波数領域におけるｎ個のサブフレームが隣接する時刻のｍ個のサンプリングポイントにおいてそれぞれに対応するサンプリング値を同時に予測し、ｍ×ｎ個のサブ予測値を得、これにより、１つの音響特徴フレームの予測に必要なループ回数を大幅に短縮することができる。

本出願の実施例では、電子機器は、同じ処理プロセスにより、時間領域における所定数量のサンプリングポイントのうちのｍ個の隣接するサンプリングポイントを予測することができ、例えば、所定数量のサンプリングポイントは、サンプリングポイントｔ_１、ｔ_２、ｔ_３、ｔ_４…ｔ_ｎを含み、ｍ＝２の場合、電子機器は、１ラウンドの予測プロセスで、サンプリングポイントｔ_１及びサンプリングポイントｔ_２を同期的に処理し、１ラウンドの予測プロセスで、サンプリングポイントｔ_１の周波数領域におけるｎ個のサブフレームに対応するｎ個のサブ予測値、及びサンプリングポイントｔ_２のｎ個のサブフレームに対応するｎ個のサブ予測値を同時に予測し、２ｎ個のサブ予測値とし、次のラウンドの予測プロセスで、サンプリングポイントｔ_３及びｔ_４を現在隣接する２つのサンプリングポイントとして、サンプリングポイントｔ_３及びｔ_４を同じ方式で同期的に処理し、サンプリングポイントｔ_３及びサンプリングポイントｔ_４に対応する２ｎ個のサブ予測値を同時に予測する。電子機器は、サンプリング予測ネットワークにより、所定数量のサンプリングポイントにおける全てのサンプリングポイントのサンプリング値の予測を自己再帰的に遂行し、各サンプリングポイントに対応するｎ個のサブ予測値を得る。

Ｓ１０５において、各サンプリングポイントに対応するｎ個のサブ予測値に基づいて、現在のフレームに対応するオーディオ予測信号を得、さらに、少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームに対応するオーディオ予測信号に対してオーディオ合成を行い、処理対象テキストに対応する目標オーディオを得る。

本出願の実施例では、各サンプリングポイントに対応するｎ個のサブ予測値は、ｎ個の周波数帯域における該サンプリングポイントのオーディオ信号予測振幅を表す。電子機器は、各サンプリングポイントに対して、該サンプリングポイントに対応するｎ個のサブ予測値に対して周波数領域のマージを行い、該サンプリングポイントの全周波数帯域における対応する信号予測値を得ることができる。電子機器はさらに、現在のフレームにおける各サンプリングポイントを所定の時系列における順序に対応させ、各サンプリングポイントに対応する信号予測値に対して時間領域のマージを行い、現在のフレームに対応するオーディオ予測信号を得る。

本出願の実施例では、サンプリング予測ネットワークは、各フレームの音響特徴フレームに対して同じ処理を実行し、少なくとも１つのフレームの音響特徴フレームにより全ての信号波形を予測することができ、それによって目標オーディオを得る。

理解可能なこととして、本出願の実施例では、電子機器は、各フレームの音響特徴信号を周波数領域における複数のサブフレームに分割し、各サブフレームに対してダウンサンプリングを行うことにより、サンプリング予測ネットワークがサンプリング値を予測するときに処理する必要がある全体のサンプリングポイントの数を低減させ、さらに、１ラウンドの予測プロセスで、複数の隣接する時間のサンプリングポイントを同時に予測することにより、複数のサンプリングポイントに対する同期処理を実現し、それによってサンプリング予測ネットワークがオーディオ信号を予測するときに必要なループ回数を大幅に減少させ、オーディオ合成の処理速度が向上し、オーディオ処理の効率が向上する。

本出願のいくつかの実施例では、Ｓ１０３は、以下のように、Ｓ１０３１～Ｓ１０３２を実行することによって実現され得る。

Ｓ１０３１において、現在のフレームに対して周波数領域の分割を行い、ｎ個の初期サブフレームを得る。

Ｓ１０３２において、ｎ個の初期サブフレームに対応する時間領域サンプリングポイントに対してダウンサンプリングを行い、ｎ個のサブフレームを得る。

理解可能なこととして、各サブフレームに対して時間領域のダウンサンプリングを行うことで、各サブフレームにおける冗長情報を取り除き、サンプリング予測ネットワークが再帰的予測を行うときに処理する必要があるループ回数を減少させることができ、それによってオーディオ処理の速度と効率をさらに向上させる。

本出願の実施例では、ｍが２に等しい場合、サンプリング予測ネットワークは、独立した２ｎ個の全結合層を含むことができ、隣接するｍ個のサンプリングポイントは、ｉラウンド目の予測プロセスにおける、現在時刻ｔに対応するサンプリングポイントｔと、次の時刻ｔ＋１に対応するサンプリングポイントｔ＋１を含み、ここで、ｔは１以上の正の整数である。図９に示すように、図８におけるＳ１０４は、Ｓ１０４１～Ｓ１０４４によって実現することができ、各ステップを組み合わせて説明する。

Ｓ１０４１において、ｉラウンド目の予測プロセスにおいて、サンプリング予測ネットワークにより、サンプリングポイントｔに対応する少なくとも１つの時刻ｔの過去サンプリングポイントに基づいて、サンプリングポイントｔのｎ個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、ｎ個の時刻ｔのサブ粗予測値を得る。

本出願の実施例では、ｉラウンド目の予測プロセスにおいて、電子機器はまず、サンプリング予測ネットワークにより、ｎ個のサブフレームの現在の時刻のサンプリングポイントｔに対応するｎ個の線形サンプリング値に対して線形符号化予測を行い、ｎ個の時刻ｔのサブ粗予測値を得る。

本出願の実施例では、ｉラウンド目の予測プロセスにおいて、サンプリング予測ネットワークは、サンプリングポイントｔに対応するｎ個の時刻ｔのサブ粗予測値を予測するとき、サンプリングポイントｔより前の少なくとも１つの過去サンプリングポイントの信号予測値を参照し、線形結合の方式によってサンプリングポイントの時刻ｔの信号予測値を求める必要がある。サンプリング予測ネットワークが参照するのに必要である過去サンプリングポイントの最大数は、即ち所定のウィンドウ閾値である。電子機器は、所定の時系列におけるサンプリングポイントｔの順序に基づいて、サンプリング予測ネットワークの所定のウィンドウ閾値と組み合わせて、サンプリングポイントｔに対して線形符号化予測を行う時の対応する少なくとも１つの過去サンプリングポイントを決定することができる。

いくつかの実施例では、電子機器は、Ｓ１０４１の前に、さらに、以下のように、Ｓ２０１又はＳ２０２を実行することによって、サンプリングポイントｔに対応する少なくとも１つの時刻ｔの過去サンプリングポイントを決定することができる。

Ｓ２０１において、ｔが所定のウィンドウ閾値以下である場合、サンプリングポイントｔより前の全てのサンプリングポイントを、少なくとも１つの時刻ｔの過去サンプリングポイントとし、所定のウィンドウ閾値は、線形符号化予測で処理できるサンプリングポイントの最大数を表す。

いくつかの実施例では、現在のフレームが１６０個のサンプリングポイントを含む場合、所定のウィンドウ閾値は１６であり、即ち、サンプリング予測ネットワーク内の線形予測モジュールが１回予測を行って処理できる最大キューが１６個のサンプリングポイントに対応する全てのサブ予測値である場合、サンプリングポイント１５について、所定の時系列におけるサンプリングポイント１５の順序が所定のウィンドウ閾値を超えていないため、線形予測モジュールは、サンプリングポイント１５より前の全てのサンプリングポイント、即ち、サンプリングポイント１からサンプリングポイント１４までの範囲内の１４個のサンプリングポイントを少なくとも１つの時刻ｔの過去サンプリングポイントとすることができる。

Ｓ２０２において、ｔが所定のウィンドウ閾値より大きい場合、サンプリングポイントｔ－１からサンプリングポイントｔ－ｋまでの範囲内に対応するサンプリングポイントを少なくとも１つの時刻ｔの過去サンプリングポイントとし、ここで、ｋは所定のウィンドウ閾値である。

本出願の実施例では、サンプリング値予測プロセスのラウンドずつの再帰に伴い、線形予測モジュールの予測ウィンドウは、複数のサンプリングポイントの所定の時系列上で対応して段階的にずらされる。いくつかの実施例では、ｔが１６より大きい場合、例えば線形予測モジュールがサンプリングポイント１８に対して線形符号化予測を実行する場合、予測ウィンドウの終点はサンプリングポイント１７の位置にずらされ、線形予測モジュールは、サンプリングポイント１７からサンプリングポイント２までの範囲内の１６個のサンプリングポイントを、少なくとも１つの時刻ｔの過去サンプリングポイントとする。

本出願の実施例では、電子機器は、線形予測モジュールにより、サンプリングポイントｔに対応する少なくとも１つの時刻ｔの過去サンプリングポイントから、各時刻ｔの過去サンプリングポイントに対応するｎ個のサブ予測値を、少なくとも１つの時刻ｔの過去サブ予測値として取得し、少なくとも１つの時刻ｔの過去サブ予測値基づいて、サンプリングポイントｔのオーディオ信号線形値に対して線形符号化予測を行い、サンプリングポイントｔに対応するｎ個の時刻ｔのサブ粗予測値を得ることができる。

説明すべきこととして、本出願の実施例では、現在のフレームにおける最初のサンプリングポイントについて、参照可能な最初のサンプリングポイントに対応する過去サンプリングポイントのサブ予測値がないため、電子機器は、所定の線形予測パラメータに基づいて、最初のサンプリングポイント、即ちｉ＝１、ｔ＝１のサンプリングポイントｔに対して線形符号化予測を行い、最初のサンプリングに対応するｎ個の時刻ｔのサブ粗予測値を得ることができる。

Ｓ１０４２において、ｉが１より大きい場合、ｉ－１ラウンド目の予測プロセスに対応する過去予測結果に基づいて、条件特徴を組み合わせて、２ｎ個の全結合層により、サンプリングポイントｔとサンプリングポイントｔ＋１のそれぞれのｎ個のサブフレームの各サブフレームにおける残差値に対して、フォワード残差予測を同期的に実行し、サンプリングポイントｔに対応するｎ個の時刻ｔの残差値と、サンプリングポイントｔ＋１に対応するｎ個の時刻ｔ＋１の残差値とを得、過去予測結果は、ｉ－１ラウンド目の予測プロセスにおける、隣接する２つのサンプリングポイントのそれぞれに対応するｎ個の残差値及びサブ予測値を含む。

本出願の実施例では、ｉが１より大きい場合、電子機器がｉラウンド目の予測プロセスの１つ前のラウンドの予測結果を、ｉラウンド目の予測プロセスの励起として取得し、サンプリング予測ネットワークによりオーディオ信号の非線形残差値の予測を行うことができることを示す。

本出願の実施例では、過去予測結果は、ｉ－１ラウンド目の予測プロセスにおける、隣接する２つのサンプリングポイントのそれぞれに対応するｎ個の残差値及びサブ予測値を含む。電子機器は、ｉ－１ラウンド目の過去予測結果に基づいて、条件特徴を組み合わせて、２ｎ個の全結合層により、ｎ個のサブフレームがサンプリングポイントｔとサンプリングポイントｔ＋１においてそれぞれに対応する残差値に対してフォワード残差予測を同時に実行し、サンプリングポイントｔに対応するｎ個の時刻ｔの残差値と、サンプリングポイントｔ＋１に対応するｎ個の時刻ｔ＋１の残差値とを得ることができる。

いくつかの実施例では、図１０に示すように、Ｓ１０４２は、Ｓ３０１～Ｓ３０３により実現されてもよく、各ステップを組み合わせて説明する。

Ｓ３０１において、ｉが１より大きい場合、サンプリングポイントｔ－１に対応するｎ個の時刻ｔ－１のサブ粗予測値と、ｉ－１ラウンド目の予測プロセスで得られたｎ個の時刻ｔ－１の残差値、ｎ個の時刻ｔ－２の残差値、ｎ個の時刻ｔ－１のサブ予測値、及びｎ個の時刻ｔ－２のサブ予測値を取得する。

本出願の実施例において、ｉが１より大きい場合、ｉラウンド目の予測プロセスにおける現在時刻ｔに対して、ｉ－１ラウンド目の予測プロセスで処理されるサンプリングポイントは、サンプリングポイントｔ－２及びサンプリングポイントｔ－１であり、サンプリング予測ネットワークがｉ－１ラウンド目の予測プロセスで取得できる過去予測結果は、サンプリングポイントｔ－２に対応するｎ個の時刻ｔ－２のサブ粗予測値、ｎ個の時刻ｔ－２の残差値及びｎ個の時刻ｔ－２のサブ予測値、及び、サンプリングポイントｔ－１に対応するｎ個の時刻ｔ－１の粗予測値、ｎ個の時刻ｔ－１の残差値及びｎ個の時刻ｔ－１のサブ予測値を含む。サンプリング予測ネットワークは、ｉ－１ラウンド目の予測プロセスに対応する過去予測結果から、ｎ個の時刻ｔ－１のサブ粗予測値、ｎ個の時刻ｔ－１の残差値、ｎ個の時刻ｔ－２の残差値、ｎ個の時刻ｔ－１のサブ予測値及びｎ個の時刻ｔ－２のサブ予測値を取得して、上記のデータに基づいてｉラウンド目において、サンプリングポイントｔとサンプリングポイントｔ＋１におけるサンプリング値に対して予測を行う。

Ｓ３０２において、ｎ個の時刻ｔのサブ粗予測値、ｎ個の時刻ｔ－１のサブ粗予測値、ｎ個の時刻ｔ－１の残差値、ｎ個の時刻ｔ－２の残差値、ｎ個の時刻ｔ－１のサブ予測値、及びｎ個の時刻ｔ－２の予測値に対して特徴次元のフィルタリングを行い、次元削減特徴集合を得る。

本出願の実施例では、ネットワーク運算の複雑さを軽減するために、サンプリング予測ネットワークは、処理が必要な特徴データに対して次元削減処理を実行し、予測結果にほとんど影響を与えない次元における特徴データを除去する必要があり、ネットワーク運算の効率を向上させる。

いくつかの実施例では、サンプリング予測ネットワークは、第１ゲート付き回帰型ネットワーク及び第２ゲート付き回帰型ネットワークを含み、Ｓ３０２は、Ｓ３０２１～Ｓ３０２３により実現され得、各ステップを組み合わせて説明する。

Ｓ３０２１において、ｎ個の時刻ｔのサブ粗予測値、ｎ個の時刻ｔ－１のサブ粗予測値、ｎ個の時刻ｔ－１の残差値、ｎ個の時刻ｔ－２の残差値、ｎ個の時刻ｔ－１のサブ予測値、及びｎ個の時刻ｔ－２の予測値に対して特徴次元の結合を行い、初期特徴ベクトル集合を得る。

本出願の実施例では、電子機器は、ｎ個の時刻ｔのサブ粗予測値、ｎ個の時刻ｔ－１のサブ粗予測値、ｎ個の時刻ｔ－１の残差値、ｎ個の時刻ｔ－２の残差値、ｎ個の時刻ｔ－１のサブ予測値、及びｎ個の時刻ｔ－２の予測値を特徴次元の視点から結合し、残差予測のための情報特徴全次元集合を初期特徴ベクトルとして得る。

Ｓ３０２２において、条件特徴に基づいて、第１ゲート付き回帰型ネットワークにより、初期特徴ベクトル集合に対して特徴次元削減処理を行い、中間特徴ベクトルの集合を得る。

本出願の実施例では、第１ゲート付き回帰型ネットワークは異なる次元の特徴ベクトルに対して重み分析を行い、重み分析の結果に基づいて、残差予測にとって重要かつ有効な次元における特徴データを保持し、無効な次元における特徴データを忘却することができ、それによって初期特徴ベクトル集合に対する次元削減処理を実現し、中間特徴ベクトルの集合を得る。

いくつかの実施例では、ゲート付き回帰型ネットワークは、ＧＲＵネットワークであってもよく、ＬＳＴＭネットワークであってもよく、具体的には実際の状況に応じて選択し、本出願の実施例では限定されない。

Ｓ３０２３において、条件特徴に基づいて、第２ゲート付き回帰型ネットワークにより、中間特徴ベクトルに対して特徴次元削減処理を行い、次元削減特徴集合を得る。

本出願の実施例では、電子機器は、条件特徴に基づいて、第２ゲート付き回帰型ネットワークにより、中間特徴ベクトルに対して次元削減をさらに行うことで、冗長情報を取り除き、後続の予測プロセスの作業量を減少させる。

Ｓ３０３において、２ｎ個の全結合層における各全結合層により、条件特徴を組み合わせて、次元削減特徴集合に基づいて、前記サンプリングポイントｔとサンプリングポイントｔ＋１のそれぞれの前記ｎ個のサブフレームの各サブフレームにおける残差値に対して、フォワード残差予測を同期的に実行し、ｎ個の時刻ｔの残差値と、ｎ個の時刻ｔ＋１の残差値とをそれぞれ得る。

いくつかの実施例では、図１０に基づいて、図１１に示すように、Ｓ３０３は、Ｓ３０３１～Ｓ３０３３のプロセスを実行することによって実現されてもよく、各ステップを組み合わせて説明する。

Ｓ３０３１において、次元削減特徴集合におけるｎ個の時刻ｔ－２の次元削減残差値とｎ個の時刻ｔ－２の次元削減予測値を時刻ｔの励起値として決定し、ｎ個の時刻ｔ－２の次元削減残差値は、ｎ個の時刻ｔ－２の残差値に対して特徴次元のフィルタリングを行うことによって得られるものであり、ｎ個の時刻ｔ－２の次元削減予測値は、ｎ個の時刻ｔ－２の予測値に対して特徴次元のフィルタリングを行うことによって得られるものである。

本出願の実施例では、電子機器は、ｉ－１ラウンド目の予測プロセスで得られたｎ個の時刻ｔ－２の次元削減残差値とｎ個の時刻ｔ－２の次元削減予測値をｉラウンド目の予測プロセスの声道励起とすることで、サンプリングレートネットワークのフォワード予測能力により、時刻ｔの残差値を予測することができる。

Ｓ３０３２において、次元削減特徴集合におけるｎ個の時刻ｔ－１の次元削減残差値とｎ個の時刻ｔ－１の次元削減サブ予測値を時刻ｔ＋１の励起値として決定し、ｎ個の時刻ｔ－１の次元削減残差値は、ｎ個の時刻ｔ－１の残差値に対して特徴次元のフィルタリングを行うことによって得られるものであり、ｎ個の時刻ｔ－１の次元削減予測値は、ｎ個の時刻ｔ－１の予測値に対して特徴次元のフィルタリングを行うことによって得られるものである。

Ｓ３０３３において、２ｎ個の全結合層におけるｎ個の全結合層において、条件特徴と時刻ｔの励起値に基づいて、ｎ個の全結合層における各全結合層により、ｎ個の時刻ｔ－１の次元削減サブ粗予測値に基づいて、サンプリングポイントｔに対して同時にフォワード残差予測を行い、ｎ個の時刻ｔの残差値を得るとともに、２ｎ個の全結合層における他のｎ個の全結合層において、条件特徴と時刻ｔ＋１の励起値に基づいて、他のｎ個の全結合層における各全結合層により、ｎ個の時刻ｔの次元削減サブ粗予測値に基づいて、サンプリングポイントｔ＋１に対して同時にフォワード残差予測を行い、ｎ個の時刻ｔ＋１の残差値を得る。

本出願の実施例では、２ｎ個の全結合層が同時、且つ独立的に動作し、そのうちのｎ個の全結合層がサンプリングポイントｔの関連予測プロセスを処理するために用いられる。いくつかの実施例では、該ｎ個の全結合層における各全結合層は、ｎ個のサブフレーム内の各サブフレームにおけるサンプリングポイントｔの残差値の予測処理を対応的に行い、１サブフレームにおける時刻ｔ－１の次元削減サブ粗予測値に基づいて、条件特徴と該サブフレームにおける時刻ｔの励起値（即ち、該サブフレームのｎ個の時刻ｔ－２の次元削減残差値とｎ個の時刻ｔ－２の次元削減予測値内の、対応する時刻ｔ－２の次元削減残差値と時刻ｔ－２の次元削減予測値）を組み合わせて、該サブフレームにおけるサンプリングポイントｔに対応する残差値を予測し、それによって、ｎ個の全結合層によりサンプリングポイントｔの各サブフレームにおける残差値、即ち、ｎ個の時刻ｔの残差値を得る。

同時に、上記のプロセスと同様に、２ｎ個の全結合層における他のｎ個の全結合層は、ｎ個のサブフレーム内の各サブフレームにおけるサンプリングポイントｔの残差値の予測処理を対応的に行い、１サブフレームにおける時刻ｔの次元削減サブ粗予測値に基づいて、条件特徴と該サブフレームにおける時刻ｔ＋１の励起値（即ち、該サブフレームのｎ個の時刻ｔ－１の次元削減残差値とｎ個の時刻ｔ－１の次元削減予測値内の、対応する時刻ｔ－１の次元削減残差値と時刻ｔ－１の次元削減予測値）を組み合わせて、該サブフレームにおけるサンプリングポイントｔ＋１の残差値を予測し、それによって、他のｎ個の全結合層によりサンプリングポイントｔ＋１の各サブフレームにおける残差値、即ち、ｎ個の時刻ｔ＋１の残差値を得る。

Ｓ１０４３において、サンプリングポイントｔ＋１に対応する少なくとも１つの時刻ｔ＋１の過去サンプリングポイントに基づいて、サンプリングポイントｔ＋１のｎ個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、ｎ個の時刻ｔ＋１のサブ粗予測値を得る。

本出願の実施例において、Ｓ１０４３は、線形予測アルゴリズムの予測ウィンドウがサンプリングポイントｔ＋１にずらされるときの線形予測プロセスであり、電子機器は、Ｓ１０４１と同様のプロセスにより、サンプリングポイントｔ＋１に対応する少なくとも１つの時刻ｔ＋１の過去サブ予測値を取得し、少なくとも１つの時刻ｔ＋１の過去サブ予測値に基づいて、サンプリングポイントｔ＋１に対応する線形サンプリング値に対して線形符号化予測を行い、ｎ個の時刻ｔ＋１のサブ粗予測値を得ることができる。

Ｓ１０４４において、ｎ個の時刻ｔの残差値と、ｎ個の時刻ｔのサブ粗予測値とに基づいて、サンプリングポイントｔに対応するｎ個の時刻ｔのサブ予測値を得、ｎ個の時刻ｔ＋１の残差値と、ｎ個の時刻ｔ＋１のサブ粗予測値とに基づいて、ｎ個の時刻ｔ＋１のサブ予測値を得、ｎ個の時刻ｔのサブ予測値とｎ個の時刻ｔ＋１のサブ予測値とを２ｎ個のサブ予測値とする。

本出願の実施例では、サンプリングポイントｔに対して、電子機器は、信号重畳の方式によってｎ個のサブフレームにおける各サブフレームを組み合わせて、オーディオ信号の線形情報を表すｎ個の時刻ｔのサブ粗予測値、及び非線形ランダム雑音情報を表すｎ個の時刻ｔの残差値の信号振幅に対して重畳処理を行い、サンプリングポイントｔに対応するｎ個の時刻ｔのサブ予測値を得ることができる。

同様に、電子機器は、ｎ個の時刻ｔ＋１の残差値、及びｎ個の時刻ｔ＋１のサブ粗予測値に対して信号重畳処理を行い、ｎ個の時刻ｔ＋１のサブ予測値を得ることができる。電子機器は、さらにｎ個の時刻ｔのサブ予測値とｎ個の時刻ｔ＋１のサブ予測値とを２ｎ個のサブ予測値とする。

いくつかの実施例では、図８～１１における上述の方法プロセスに基づいて、電子機器内のフレームレートネットワーク及びサンプリング予測ネットワークのネットワークアーキテクチャ図は、図１２に示すことができ、ここで、サンプリング予測ネットワークはｍ×ｎ個のデュアル全結合層を含み、該ｍ×ｎ個のデュアル全結合層は、１ラウンドの予測プロセスにおいて時間領域におけるｍ個のサンプリングポイントが周波数領域におけるｎ個のサブフレームの各サブフレームにおいてそれぞれ対応するサンプリング値を予測するために用いられる。ｎ＝４、ｍ＝２を例として、デュアル全結合層１～デュアル全結合層８は、サンプリング予測ネットワーク１１０に含まれる２＊４個の独立した全結合層である。フレームレートネットワーク１１１は２つの畳み込み層と２つの全結合層により、現在のフレームから条件特徴ｆを抽出し、バンドパスダウンサンプリングフィルタグループ１１２は、現在のフレームに対して周波数領域の分割及び時間領域のダウンサンプリングを行い、ｂ１～ｂ４の４個のサブフレームを得る。各サブフレームは、時間領域で４０個のサンプリングポイントを対応的に含む。

図１２において、サンプリング予測ネットワーク１１０は、複数ラウンドの自己再帰の循環予測プロセスにより、時間領域における４０個のサンプリングポイントに対するサンプリング値の予測を実現することができる。複数ラウンドの予測プロセスにおけるｉラウンド目の予測プロセスにおいて、サンプリング予測ネットワーク１１０は、ＬＰＣ係数の計算及び時刻ｔのＬＰＣ予測値の計算により、少なくとも１つの時刻ｔの過去サンプリングポイントに対応する少なくとも１つの時刻ｔの過去サブ予測値
に基づいて、現在時刻のサンプリングポイントｔに対応するｎ個の時刻ｔのサブ粗予測値
を得る。さらに、ｉ－１ラウンド目の予測プロセスにおける対応するｎ個の時刻ｔ－１のサブ粗予測値
、ｎ個の時刻ｔ－２のサブ予測値
、及びｎ個の時刻ｔ－２の残差値
、ｎ個の時刻ｔ－１のサブ予測値
、及びｎ個の時刻ｔ－１の残差値
を取得し、
とともに結合層に入力して特徴次元の結合を行い、初期特徴ベクトル集合を得ることができる。サンプリング予測ネットワーク１１０は、第１ゲート付き回帰型ネットワーク及び第２ゲート付き回帰型ネットワークにより、条件特徴を組み合わせて、初期特徴ベクトル集合に対して次元削減処理を行い、予測のための次元削減特徴集合を得、さらに次元削減特徴集合をそれぞれ８つのデュアル接続層に入力し、そのうちの４つのデュアル接続層により、サンプリングポイントｔに対応するｎ個の残差値を予測し、サンプリングポイントｔの４個のサブフレームにおける対応する４つの残差値
を得、同時に、そのうちの他の４つのデュアル接続層により、サンプリングポイントｔ＋１に対応する４個の残差値を予測し、サンプリングポイントｔ＋１の４個のサブフレームにおける対応する４つの残差値
を得る。サンプリング予測ネットワーク１１０は、さらに、
及び
に基づいて、サンプリングポイントｔの４個のサブフレームにおける対応する４つのサブ予測値
を得、
に基づいて、サンプリングポイントｔ＋１に対応する少なくとも１つの時刻ｔ＋１の過去サブ予測値
を得、時刻ｔ＋１のＬＰＣ予測値の計算により、サンプリングポイントｔ＋１の４個のサブフレームにおける対応する４つのサブ粗予測値
を得ることができる。サンプリング予測ネットワーク１１０は、
及び
に基づいて、サンプリングポイントｔ＋１の４個のサブフレームにおける対応する４つのサブ予測値
を得、それによって、ｉラウンド目の予測プロセスを完了し、次のラウンドの予測プロセスにおけるサンプリングポイントｔとサンプリングポイントｔ＋１を更新し、時間領域における４０個のサンプリングポイントの全ての予測が完了するまで同様の方式で繰り返して予測を行い、全ての予測が完了する時に、各サンプリングポイントに対応する４つのサブ予測値を得る。

上記から分かるように、上述の実施形態では、本出願の実施形態における方法は、サンプリング予測ネットワークのループ回数を現在の１６０回から１６０／４（サブフレーム数）／２（隣接サンプリングポイント数）、即ち２０回まで減少させることにより、サンプリング予測ネットワークのループ処理回数を大幅に減少させ、続いてオーディオ処理の処理速度と処理効率を向上させることができる。

説明すべきこととして、本出願の実施形態では、ｍが他の値である場合、サンプリング予測ネットワーク１１０におけるデュアル全結合層の数を対応してｍ＊ｎ個に設定する必要があり、予測プロセスで、各サンプリングポイントに対するフォワード予測時間スパンがｍ個であり、即ち、各サンプリングポイントに対して残差値の予測を行う場合、１つ前のラウンドの予測プロセスにおける、該サンプリングポイントに対応する前のｍ個のサンプリングポイントの過去予測結果を励起値として残差の予測を行う。

本出願のいくつかの実施例では、図８～１１に基づいて、Ｓ１０４１の後、Ｓ１０４５～１０４７も実行することができ、各ステップを組み合わせて説明する。

Ｓ１０４５において、ｉが１に等しい場合、２ｎ個の全結合層により、条件特徴と所定の励起パラメータを組み合わせて、サンプリングポイントｔとサンプリングポイントｔ＋１に対して同時にフォワード残差予測を行い、サンプリングポイントｔに対応するｎ個の時刻ｔの残差値及びサンプリングポイントｔ＋１に対応するｎ個の時刻ｔ＋１の残差値を得る。

本出願の実施例では、予測プロセスの最初のラウンドについて、即ちｉ＝１の場合、励起値とする前のラウンドの過去予測結果がないため、電子機器は、条件特徴と所定の励起パラメータを組み合わせて２ｎ個の全結合層により、条件特徴と所定の励起パラメータを組み合わせて、サンプリングポイントｔとサンプリングポイントｔ＋１に対して同時にフォワード残差予測を行い、サンプリングポイントｔに対応するｎ個の時刻ｔの残差値及びサンプリングポイントｔ＋１に対応するｎ個の時刻ｔ＋１の残差値を得ることができる。

いくつかの実施例では、所定の励起パラメータは、０であってもよく、又は実際のニーズに応じて他の値に設定されてもよく、具体的には実際の状況に応じて選択してもよく、本出願の実施例では限定されない。

Ｓ１０４６において、サンプリングポイントｔ＋１に対応する少なくとも１つの時刻ｔ＋１の過去サンプリングポイントに基づいて、ｎ個のサブフレームのサンプリングポイントｔ＋１に対応する線形サンプリング値に対して線形符号化予測を行い、ｎ個の時刻ｔ＋１のサブ粗予測値を得る。

本出願の実施例では、Ｓ１０４６のプロセスはＳ１０４３の説明と一致するため、ここでは説明を繰り返さない。

Ｓ１０４７において、ｎ個の時刻ｔの残差値と、ｎ個の時刻ｔのサブ粗予測値とに基づいて、サンプリングポイントｔに対応するｎ個の時刻ｔのサブ予測値を得、ｎ個の時刻ｔ＋１の残差値と、ｎ個の時刻ｔ＋１のサブ粗予測値とに基づいて、ｎ個の時刻ｔ＋１のサブ予測値を得、ｎ個の時刻ｔのサブ予測値とｎ個の時刻ｔ＋１のサブ予測値とを２ｎ個のサブ予測値とする。

本出願の実施例では、Ｓ１０４７のプロセスはＳ１０４４の説明と一致するため、ここでは説明を繰り返さない。

本出願のいくつかの実施例では、図８～図１１に基づいて、図１３に示すように、Ｓ１０５は、Ｓ１０５１～１０５３を実行することによって実現され得、各ステップを組み合わせて説明する。

Ｓ１０５１において、各サンプリングポイントに対応するｎ個のサブ予測値に対して周波数領域の重畳を行い、各サンプリングポイントに対応する信号予測値を得る。

本出願の実施例では、ｎ個のサブ予測値は、１つのサンプリングポイントの各サブフレームの周波数領域における信号振幅を表すため、電子機器は、周波数領域の分割の逆プロセスにより、各サンプリングポイントに対応するｎ個のサブ予測値に対して周波数領域の重畳を行い、各サンプリングポイントに対応する信号予測値を得ることができる。

Ｓ１０５２において、各サンプリングポイントに対応する信号予測値に対して時間領域信号の合成を行い、現在のフレームに対応するオーディオ予測信号を得、さらに、各フレームの音響特徴に対応するオーディオ信号を得る。

本出願の実施例では、所定数量のサンプリングポイントが時系列に配列されるため、電子機器は、時間領域において各サンプリングポイントに対応する信号予測値に対して信号合成を順に行い、現在のフレームに対応するオーディオ予測信号を得ることができる。電子機器は、ループ処理方式により、各ラウンドのループで少なくとも１フレームの音響特徴フレームの各フレームの音響特徴を現在のフレームとして信号合成を行い、さらに、各フレームの音響特徴フレームに対応するオーディオ信号を得ることができる。

Ｓ１０５３において、各フレームの音響特徴に対応するオーディオ信号に対して信号合成を行い、目標オーディオを得る。

本出願の実施例では、電子機器は、各フレームの音響特徴に対応するオーディオ信号に対して信号合成を行い、目標オーディオを得る。

本出願のいくつかの実施例では、図８～図１１及び図１３に基づいて、Ｓ１０１は、Ｓ１０１１～１０１３を実行することによって実現され得、各ステップを組み合わせて説明する。

Ｓ１０１１において、処理対象テキストを取得する。

Ｓ１０１２において、処理対象テキストに対して前処理を行い、変換対象テキスト情報を得る。

本出願の実施例では、テキストの前処理は最終的に生成される目標オーディオの品質に対して非常に重要である。電子機器で取得される処理対象テキストは、通常、スペース及び句読点を含むキャラクタであり、多くの文脈で異なる意味を有し得るため、処理対象テキストが読み違われ可能性があり、又は一部の単語が見落とされたり、繰り返されたりする可能性がある。したがって、電子装置は、処理対象テキストの情報を整えるために、まず処理対象テキストに対して前処理を行う必要がある。

いくつかの実施例では、電子機器が処理対象テキストに対して前処理を行うことは、処理対象テキストの全てのキャラクタを大文字にすること、中間の句読点を全て削除すること、句点や疑問符などで各センテンスを始末するように終止符を統一すること、単語間のスペースを特殊な区切り記号で置き換えることなどを含むことができ、具体的には実際の状況に応じて選択し、本出願の実施例では限定されない。

Ｓ１０１３において、テキストから音声への変換モデルにより、変換対象テキスト情報に対して音響特徴予測を行い、少なくとも１フレームの音響特徴フレームを得る。

本出願の実施例では、テキストから音声への変換モデルは、訓練済みの、テキスト情報を音響特徴に変換できるニューラルネットワークモデルである。電子機器は、テキストから音声への変換モデルを使用して、変換対象テキスト情報における少なくとも１つのテキストシーケンスに基づいて、対応して少なくとも１つの音響特徴フレームに変換し、それによって変換対象テキスト情報に対する音響特徴予測を実現する。

理解可能なこととして、本出願の実施例では、処理対象テキストに対して前処理を行うことによって、目標オーディオのオーディオ品質を向上させることができ、電子機器は、大元のオリジナルな処理対象テキストを入力データとし、本出願の実施例におけるオーディオ処理方法によって処理対象テキストの最終的なデータ処理結果、即ち、目標オーディオを出力することができ、処理対象テキストに対するエンドツーエンドの処理プロセスを実現し、システムモジュール間の中間処理を減少させ、全体的な相性性が増加する。

以下、実際の適用シナリオにおける本出願の実施例の例示的な適用について説明する。

図１４を参照すると、本出願の実施例によって提供される電子機器の例示的な適用は、テキストから音声への変換モデル１４－１及びマルチバンドマルチタイムドメインボコーダ１４－２を含む。ここで、テキストから音声への変換モデル１４－１、注意力メカニズムを有するシーケンスツーシーケンスのＴａｃｏｔｒｏｎ構造モデルを用い、ＣＢＨＧ（１－ＤＣｏｎｖｏｌｕｔｉｏｎＢａｎｋＨｉｇｈｗａｙｎｅｔｗｏｒｋｂｉｄｉｒｅｃｔｉｏｎａl ＧＲＵ）エンコーダ１４１、注意力モジュール１４２、デコーダ１４３及びＣＢＨＧ平滑化モジュール１４４を含む。ここで、ＣＢＨＧエンコーダ１４１は、オリジナルなテキストにおけるセンテンスをシーケンスとし、センテンスからロバストなシーケンス表現を抽出して、固定長にマッピングできるベクトルに符号化するように構成される。注意力モジュール１４２は、ロバストなシーケンスで表現する全ての単語に注目し、注意力スコアを計算することによって、エンコーダを支援してより良い符号化されるように構成される。デコーダ１４３は、エンコーダによって取得された固定長のベクトルを対応するシーケンスの音響特徴にマッピングし、ＣＢＨＧ平滑化モジュール１４４により、滑らかな音響特徴を出力し、それによって少なくとも１フレームの音響特徴フレームを得るように構成される。少なくとも１フレームの音響特徴フレームがマルチバンドマルチタイムドメインボコーダ１４－２に入力され、マルチバンドマルチタイムドメインボコーダにおけるフレームレートネットワーク１４５により、各フレームの条件特徴ｆを計算するとともに、各フレームの音響特徴フレームがバンドパスダウンサンプリングフィルタグループ１４６によって４個のサブフレームに分割され、各サブフレームに対して時間領域のダウンサンプリングを行った後、４個のサブフレームは自己再帰的サンプリング予測ネットワーク１４７に入力され、サンプリング予測ネットワーク１４７において、ＬＰＣ係数の計算（ＣｏｍｐｕｔｅＬＰＣ）及びＬＰＣの現在予測値の計算（Ｃｏｍｐｕｔｅｐｒｅｄｉｃｔｉｏｎ）により、現在のラウンドの現在時刻ｔのサンプリングポイントｔの４個のサブフレームにおける線形予測値を予測し、４個の時刻ｔのサブ粗予測値
を得る。サンプリング予測ネットワーク１４７は、１ラウンド当たり２つのサンプリングポイントをフォワード予測のストライドとし、１つ前のラウンドで予測された過去予測結果から、サンプリングポイントｔ－１の４個のサブフレームにおける対応する４つのサブ予測値
、サンプリングポイントｔ－１の４個のサブフレームにおけるサブ粗予測値
、サンプリングポイントｔ－１の４個のサブフレームにおける残差値
、サンプリングポイントｔ－２の４個のサブフレームにおけるサブ予測値
、及びサンプリングポイントの４個のサブフレームにおける残差値
を取得し、条件特徴を組み合わせて、共にサンプリング予測ネットワークにおける結合層（ｃｏｎｃａｔ層）に入力し、特徴次元の結合を行い、初期特徴ベクトルを得る。初期特徴ベクトルは、さらに、９０％スパースな３８４次元の第１ゲート付き回帰型ネットワーク（ＧＲＵ－Ａ）及び通常の１６次元の第２ゲート付き回帰型ネットワーク（ＧＲＵ－Ｂ）により、特徴次元削減を行い、次元削減特徴集合を得る。サンプリング予測ネットワーク１４７は、次元削減特徴集合を８つの２５６次元のデュアル全結合（デュアルＦＣ）層に送り込み、８つの２５６次元のデュアルＦＣ層により、条件特徴ｆを組み合わせて、
、
及び
に基づいて、サンプリングポイントｔの４個のサブフレームにおけるサブ残差値
を予測するとともに、
、
及び
に基づいて、サンプリングポイントｔ＋１の４個のサブフレームにおけるサブ残差値
を予測する。サンプリング予測ネットワーク１４７は、
と
を重畳することにより、サンプリングポイントｔの４個のサブフレームにおけるサブ予測値
を得ることができ、このようにして、サンプリング予測ネットワーク１４７は、
に基づいて、予測ウィンドウをずらす方式でサンプリングポイントｔ＋１の４個のサブフレームにおける対応するサブ粗予測値
を予測することができる。サンプリング予測ネットワーク１４７は、
と
を重畳することにより、サンプリングポイントｔ＋１に対応する４つのサブ予測値
を得る。サンプリング予測ネットワーク１４７は、
、
、
及び
を次のラウンド、即ち、ｉ＋１ラウンド目の予測プロセスの励起値として、次のラウンドの予測プロセスに対応する現在の隣接する２つのサンプリングポイントを更新し、該フレームの音響特徴フレームの各サンプリングポイントにおける４つのサブ予測値を得るまで、ループ処理を行い、マルチバンドマルチタイムドメインボコーダ１４－２は、オーディオ合成モジュール１４８により、各サンプリングポイントにおける４つのサブ予測値に対して周波数領域の結合を行い、各サンプリングポイントにおけるオーディオ信号を得、オーディオ合成モジュール１４８により、各サンプリングポイントにおけるオーディオ信号に対して時間領域の結合を行い、該フレームに対応するオーディオ信号を得る。オーディオ合成モジュール１４８は、少なくとも１フレームの音響特徴フレームにおける各フレームに対応するオーディオ信号に対して結合を行い、少なくとも１フレームの音響特徴フレームに対応するオーディオ、即ち、最初に電子機器に入力されたオリジナルなテキストに対応する目標オーディオを得る。

理解可能なこととして、本出願の実施例によって提供される例示的な電子機器の構造では、７つのデュアル全結合層が追加され、ＧＲＵ－Ａ層の入力行列が大きくなるが、テーブル検索操作によりこの入力オーバーヘッドの影響が無視されることを可能にし、従来のボコーダと比較して、マルチバンドマルチタイムドメインのポリシーにより、サンプリング予測ネットワークの自己再帰に必要な周期数を８倍減少している。したがって、他の計算最適化がない場合、ボコーダの速度は２．７５倍向上する。しかも、実験者を募集して主観的品質採点を行った後、本出願の電子機器によって合成された目標オーディオは、主観的品質スコアでわずか３％低下し、それによって基本的にオーディオ処理品質に影響を与えない上で、オーディオ処理の速度と効率を向上させることが実現される。

以下、本出願の実施例によって提供されるソフトウェアモジュールが実施されるオーディオ処理装置６５５の例示的な構造を引き続き説明し、いくつかの実施例では、図６に示すように、メモリ６５０に記憶されるオーディオ処理装置６５５におけるソフトウェアモジュールは、次のものを含むことができる。

テキストから音声への変換モデル６５５１は、処理対象テキストに対して音声特徴変換を行い、少なくとも１フレームの音響特徴フレームを得るように構成される。

フレームレートネットワーク６５５２は、フレームレートネットワークにより、前記少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームから、前記各フレームの音響特徴フレームに対応する条件特徴を抽出するように構成される。

時間領域・周波数領域処理モジュール６５５３は、前記各フレームの音響特徴フレームにおける現在のフレームに対して周波数帯域の分割と時間領域のダウンサンプリングを行い、前記現在のフレームに対応するｎ個のサブフレームを得るように構成され、ｎは１より大きい正の整数であり、前記ｎ個のサブフレームにおける各サブフレームは所定数量のサンプリングポイントを含む。

サンプリング予測ネットワーク６５５４は、ｉラウンド目の予測プロセスにおいて、現在のｍ個の隣接サンプリングポイントの前記ｎ個のサブフレームにおける対応するサンプリング値を同期的に予測し、ｍ×ｎ個のサブ予測値を得、それによって、前記所定数量のサンプリングポイントにおける各サンプリングポイントに対応するｎ個のサブ予測値を得るように構成され、ここで、ｉは１以上の正の整数であり、ｍは２以上であり、且つ前記所定数以下の正の整数である。

信号合成モジュール６５５５は、前記各サンプリングポイントに対応するｎ個のサブ予測値に基づいて、前記現在のフレームに対応するオーディオ予測信号を得、さらに、少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームに対応するオーディオ予測信号に対してオーディオ合成を行い、前記処理対象テキストに対応する目標オーディオを得るように構成される。

いくつかの実施例では、ｍが２に等しい場合、前記サンプリング予測ネットワークは、独立した２ｎ個の全結合層を含み、前記隣接する２個のサンプリングポイントは、前記ｉラウンド目の予測プロセスにおける、現在時刻ｔに対応するサンプリングポイントｔと、次の時刻ｔ＋１に対応するサンプリングポイントｔ＋１を含み、ここで、ｔは１以上の正の整数である。

前記サンプリング予測ネットワーク６５５４は、さらに、ｉラウンド目の予測プロセスにおいて、サンプリング予測ネットワークにより、前記サンプリングポイントｔに対応する少なくとも１つの時刻ｔの過去サンプリングポイントに基づいて、前記サンプリングポイントｔの前記ｎ個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、ｎ個の時刻ｔのサブ粗予測値を得、ｉが１より大きい場合、ｉ－１ラウンド目の予測プロセスに対応する過去予測結果に基づいて、前記条件特徴を組み合わせて、２ｎ個の全結合層により、前記サンプリングポイントｔとサンプリングポイントｔ＋１のそれぞれの前記ｎ個のサブフレームの各サブフレームにおける残差値に対して、フォワード残差予測を同期的に実行し、前記サンプリングポイントｔに対応するｎ個の時刻ｔの残差値と、前記サンプリングポイントｔ＋１に対応するｎ個の時刻ｔ＋１の残差値とを得、前記過去予測結果は、ｉ－１ラウンド目の予測プロセスおける、隣接する２つのサンプリングポイントのそれぞれに対応するｎ個の残差値及びサブ予測値を含み、前記サンプリングポイントｔ＋１に対応する少なくとも１つの時刻ｔ＋１の過去サンプリングポイントに基づいて、前記サンプリングポイントｔ＋１の前記ｎ個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、ｎ個の時刻ｔ＋１のサブ粗予測値を得、前記ｎ個の時刻ｔの残差値と、前記ｎ個の時刻ｔのサブ粗予測値とに基づいて、前記サンプリングポイントｔに対応するｎ個の時刻ｔのサブ予測値を得、前記ｎ個の時刻ｔ＋１の残差値と、前記ｎ個の時刻ｔ＋１のサブ粗予測値とに基づいて、ｎ個の時刻ｔ＋１のサブ予測値を得、前記ｎ個の時刻ｔのサブ予測値と前記ｎ個の時刻ｔ＋１のサブ予測値とを２ｎ個のサブ予測値とするように構成される。

いくつかの実施例では、前記サンプリング予測ネットワーク６５５４は、さらに、サンプリングポイントｔ－１に対応するｎ個の時刻ｔ－１のサブ粗予測値と、前記ｉ－１ラウンド目の予測プロセスで得られたｎ個の時刻ｔ－１の残差値、ｎ個の時刻ｔ－２の残差値、ｎ個の時刻ｔ－１のサブ予測値、及びｎ個の時刻ｔ－２のサブ予測値を取得し、前記ｎ個の時刻ｔのサブ粗予測値、前記ｎ個の時刻ｔ－１のサブ粗予測値、前記ｎ個の時刻ｔ－１の残差値、前記ｎ個の時刻ｔ－２の残差値、前記ｎ個の時刻ｔ－１のサブ予測値、及び前記ｎ個の時刻ｔ－２の予測値に対して、特徴次元のフィルタリングを行い、次元削減特徴集合を得、前記２ｎ個の全結合層における各全結合層により、前記条件特徴を組み合わせて、前記次元削減特徴集合に基づいて、前記サンプリングポイントｔとサンプリングポイントｔ＋１のそれぞれの前記ｎ個のサブフレームの各サブフレームにおける残差値に対して、フォワード残差予測を同期的に実行し、前記ｎ個の時刻ｔの残差値と、前記ｎ個の時刻ｔ＋１の残差値とをそれぞれ得るように構成される。

いくつかの実施例では、前記サンプリング予測ネットワーク６５５４は、さらに、前記次元削減特徴集合におけるｎ個の時刻ｔ－２の次元削減残差値とｎ個の時刻ｔ－２の次元削減予測値を時刻ｔの励起値として決定し、前記ｎ個の時刻ｔ－２の次元削減残差値は、前記ｎ個の時刻ｔ－２の残差値に対して特徴次元のフィルタリングを行うことによって得られるものであり、前記ｎ個の時刻ｔ－２の次元削減予測値は、前記ｎ個の時刻ｔ－２の予測値に対して特徴次元のフィルタリングを行うことによって得られ、前記次元削減特徴集合におけるｎ個の時刻ｔ－１の次元削減残差値と前記ｎ個の時刻ｔ－１の次元削減サブ予測値を時刻ｔ＋１の励起値として決定し、前記ｎ個の時刻ｔ－１の次元削減残差値は、前記ｎ個の時刻ｔ－１の残差値に対して特徴次元のフィルタリングを行うことによって得られるものであり、前記ｎ個の時刻ｔ－１の次元削減予測値は、前記ｎ個の時刻ｔ－１の予測値に対して特徴次元のフィルタリングを行うことによって得られ、前記２ｎ個の全結合層におけるｎ個の全結合層において、前記条件特徴と前記時刻ｔの励起値に基づいて、前記ｎ個の全結合層における各全結合層により、前記ｎ個の時刻ｔ－１の次元削減サブ粗予測値に基づいて、前記サンプリングポイントｔに対してフォワード残差予測を同期的に行い、前記ｎ個の時刻ｔの残差値を得、前記２ｎ個の全結合層における他のｎ個の全結合層において、前記条件特徴と前記時刻ｔ＋１の励起値に基づいて、前記他のｎ個の全結合層における各全結合層により、前記ｎ個の時刻ｔの次元削減サブ粗予測値に基づいて、前記サンプリングポイントｔ＋１に対してフォワード残差予測を同期的に行い、前記ｎ個の時刻ｔ＋１の残差値を得るように構成される。

いくつかの実施例では、前記サンプリング予測ネットワーク６５５４は、第１ゲート付き回帰型ネットワーク及び第２ゲート付き回帰型ネットワークを含み、前記サンプリング予測ネットワーク６５５４は、さらに、前記ｎ個の時刻ｔのサブ粗予測値、前記ｎ個の時刻ｔ－１のサブ粗予測値、前記ｎ個の時刻ｔ－１の残差値、前記ｎ個の時刻ｔ－２の残差値、前記ｎ個の時刻ｔ－１のサブ予測値、及び前記ｎ個の時刻ｔ－２の予測値に対して特徴次元の結合を行い、初期特徴ベクトル集合を得、前記条件特徴に基づいて、前記第１ゲート付き回帰型ネットワークにより、前記初期特徴ベクトル集合に対して特徴次元削減処理を行い、中間特徴ベクトルの集合を得、前記条件特徴に基づいて、前記第２ゲート付き回帰型ネットワークにより、前記中間特徴ベクトルに対して特徴次元削減処理を行い、前記次元削減特徴集合を得るように構成される。

いくつかの実施例では、前記時間領域・周波数領域処理モジュール６５５３は、さらに、前記現在のフレームに対して周波数領域の分割を行い、ｎ個の初期サブフレームを得、前記ｎ個の初期サブフレームに対応する時間領域サンプリングポイントに対してダウンサンプリングを行い、前記ｎ個のサブフレームを得るように構成される。

いくつかの実施例では、前記サンプリング予測ネットワーク６５５４は、さらに、ｉラウンド目の予測プロセスにおいて、サンプリング予測ネットワークにより、前記サンプリングポイントｔに対応する少なくとも１つの時刻ｔの過去サンプリングポイントに基づいて、前記サンプリングポイントｔの前記ｎ個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、ｎ個の時刻ｔのサブ粗予測値を得る前に、ｔが所定のウィンドウ閾値以下である場合、前記サンプリングポイントｔより前の全てのサンプリングポイントを、前記少なくとも１つの時刻ｔの過去サンプリングポイントとし、前記所定のウィンドウ閾値は、線形符号化予測で処理できるサンプリングポイントの最大数を表し、又は、ｔが前記所定のウィンドウ閾値より大きい場合、前記サンプリングポイントｔ－１からサンプリングポイントｔ－ｋまでの範囲内に対応するサンプリングポイントを前記少なくとも１つの時刻ｔの過去サンプリングポイントとするように構成され、ここで、ｋは所定のウィンドウ閾値である。

いくつかの実施例では、前記サンプリング予測ネットワーク６５５４は、さらに、前記ｉラウンド目の予測プロセスにおいて、サンプリング予測ネットワークにより、前記サンプリングポイントｔに対応する少なくとも１つの時刻ｔの過去サンプリングポイントに基づいて、前記サンプリングポイントｔの前記ｎ個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、ｎ個の時刻ｔのサブ粗予測値を得た後で、ｉが１に等しい場合、前記２ｎ個の全結合層により、前記条件特徴と所定の励起パラメータを組み合わせて、前記サンプリングポイントｔと前記サンプリングポイントｔ＋１のそれぞれの前記ｎ個のサブフレームにおける残差値に対して、同期的にフォワード残差予測を行い、前記サンプリングポイントｔに対応するｎ個の時刻ｔの残差値及び前記サンプリングポイントｔ＋１に対応するｎ個の時刻ｔ＋１の残差値を得、前記サンプリングポイントｔ＋１に対応する少なくとも１つの時刻ｔ＋１の過去サンプリングポイントに基づいて、前記サンプリングポイントｔ＋１の前記ｎ個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、ｎ個の時刻ｔ＋１のサブ粗予測値を得、前記ｎ個の時刻ｔの残差値と、前記ｎ個の時刻ｔのサブ粗予測値とに基づいて、前記サンプリングポイントｔに対応するｎ個の時刻ｔのサブ予測値を得、前記ｎ個の時刻ｔ＋１の残差値と、前記ｎ個の時刻ｔ＋１のサブ粗予測値とに基づいて、ｎ個の時刻ｔ＋１のサブ予測値を得、前記ｎ個の時刻ｔのサブ予測値と前記ｎ個の時刻ｔ＋１のサブ予測値とを前記２ｎ個のサブ予測値とするように構成される。

いくつかの実施例では、前記信号合成モジュール６５５５は、さらに、前記各サンプリングポイントに対応するｎ個のサブ予測値に対して周波数領域の重畳を行い、前記各サンプリングポイントに対応する信号予測値を得、前記各サンプリングポイントに対応する信号予測値に対して時間領域信号の合成を行い、前記現在のフレームに対応するオーディオ予測信号を得、さらに、前記各フレームの音響特徴に対応するオーディオ信号を得、前記各フレームの音響特徴に対応するオーディオ信号に対して信号合成を行い、前記目標オーディオを得るように構成される。

いくつかの実施例では、前記テキストから音声への変換モデル６５５１は、さらに、処理対象テキストを取得し、前記処理対象テキストに対して前処理を行い、変換対象テキスト情報を得、テキストから音声への変換モデルにより、前記変換対象テキスト情報に対して音響特徴予測を行い、前記少なくとも１フレームの音響特徴フレームを得るように構成される。

説明すべきこととして、上記の装置の実施例の説明は、上記の方法の実施例の説明と同様であり、方法の実施例と同様の有益な効果を有する。本出願の装置の実施例で開示されない技術的詳細については、本出願の方法の実施例の説明を参照して理解される。

本出願の実施例は、コンピュータープログラム製品又はコンピュータープログラムを提供し、該コンピュータープログラム製品又はコンピュータープログラムはコンピューター命令を含み、該コンピューター命令はコンピューター可読記憶媒体に記憶される。コンピューター機器のプロセッサは、コンピューター可読記憶媒体から該コンピューター命令を読み取り、プロセッサは該コンピューター命令を実行して、該コンピューター機器に、本出願の実施例の上述のオーディオ処理方法を実行させる。

本出願の実施例は、実行可能な命令を記憶する記憶媒体、即ちコンピューター可読記憶媒体を提供し、実行可能な命令が記憶され、実行可能な命令がプロセッサによって実行される場合、プロセッサに、本出願の実施例で提供される方法、例えば、図８～図１１及び図１３に示す方法を実行させる。

いくつかの実施例では、コンピューター可読記憶媒体は、ＦＲＡＭ（登録商標）、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、磁気表面メモリ、光ディスク、又はＣＤ－ＲＯＭなどのメモリであってもよく、上述のメモリの１つ又は任意の組み合わせを含む各種の機器であってもよい。

いくつかの実施例では、実行可能な命令は、プログラム、ソフトウェア、ソフトウェアモジュール、スクリプト又はコードの形式を採用することができ、任意の形式のプログラミング言語（コンパイル言語又はインタープリター言語、又は宣言型言語又は手続き型言語を含む）で書かれ、任意の形式で構成することができ、独立したプログラムとして構成されるか、又はモジュール、コンポーネント、サブルーチン、又は計算環境で使用するのに適した他のユニットとして構成されることを含む。

例として、実行可能な命令は、ファイルシステム内のファイルに対応することができるが、これに限らず、他のプログラム又はデータを保存するファイルの一部に記憶されてもよく、例えば、ハイパーテキストマークアップ言語（ＨＴＭＬ：ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）ドキュメントの１つ又は複数のスクリプトに記憶され、係るプログラムに専用に構成された単一のファイルに記憶されるか、又は、複数の共同ファイル（例えば、1つ又は複数のモジュール、サブルーチン、又はコード部分を記憶するファイル）に記憶される。

例として、実行可能な命令は、１つの計算機器上で実行されるか、又は１つのサイトに位置する複数の計算機器上で実行されるか、又は、複数のサイトに分散され、通信ネットワークによって相互接続された複数の計算機器上で実行されるように構成され得る。

上記に記載されるように、本出願の実施例により処理対象テキストに対して前処理を行うことによって、目標オーディオのオーディオ品質を向上させることができ、大元のオリジナルな処理対象テキストを入力データとし、本出願の実施例におけるオーディオ処理方法によって処理対象テキストの最終的なデータ処理結果、即ち、目標オーディオを出力することができ、処理対象テキストに対するエンドツーエンドの処理プロセスを実現し、システムモジュール間の中間処理を減少させ、全体的な相性性が増加する。そして、本出願の実施例では、各フレームの音響特徴信号を周波数領域における複数のサブフレームに分割し、各サブフレームに対してダウンサンプリングを行うことにより、サンプリング予測ネットワークがサンプリング値を予測するときに処理する必要がある全体のサンプリングポイントの数を低減させ、さらに、１ラウンドの予測プロセスで、複数の隣接する時間のサンプリングポイントを同時に予測することにより、複数のサンプリングポイントに対する同期処理を実現し、それによってサンプリング予測ネットワークがオーディオ信号を予測するときに必要なループ回数を大幅に減少させ、オーディオ合成の処理速度が向上し、オーディオ処理の効率が向上する。

上記の説明は、本出願の実施例だけであり、本出願の保護範囲を限定するように構成されていない。本出願の精神及び範囲内で行われるいかなる修正、同等の置換及び改良は、いずれも本出願の保護範囲に含まれる。

本出願の実施例では、各フレームの音響特徴信号を周波数領域における複数のサブフレームに分割し、各サブフレームに対してダウンサンプリングを行うことにより、サンプリング予測ネットワークがサンプリング値を予測するときに処理する必要がある全体のサンプリングポイントの数を低減させ、さらに、１ラウンドの予測プロセスで、複数の隣接する時間のサンプリングポイントを同時に予測することにより、複数のサンプリングポイントに対する同期処理を実現し、それによってサンプリング予測ネットワークがオーディオ信号を予測するときに必要なループ回数を大幅に減少させ、オーディオ合成の処理速度が向上し、オーディオ処理の効率が向上する。さらに、各サブフレームに対して時間領域のダウンサンプリングを行うことで、各サブフレームにおける冗長情報を取り除き、サンプリング予測ネットワークが再帰的予測を行うときに処理する必要があるループ回数を減少させ、それによってオーディオ処理の速度と効率をさらに向上させる。さらに、処理対象テキストに対して前処理を行うことによって、目標オーディオのオーディオ品質を向上させることができ、大元のオリジナルな処理対象テキストを入力データとし、本出願の実施例におけるオーディオ処理方法によって処理対象テキストの最終的なデータ処理結果、即ち、目標オーディオを出力することができ、処理対象テキストに対するエンドツーエンドの処理プロセスを実現し、システムモジュール間の中間処理を減少させ、全体的な相性性が増加する。本出願の実施例によって提供されるボコーダは、音響特徴をオーディオ信号に変換するために必要な計算量を効果的に低減させ、複数のサンプリングポイントの同期予測を実現し、高いリアルタイムレートを保証するとともに、理解度が高く、自然度が高く、忠実度が高いオーディオを出力することができる。

600 電子機器
610 プロセッサ
620 ネットワークインタフェース
630 ユーザインタフェース
631 出力装置
632 入力装置
650 メモリ
651 オペレーティングシステム
652 ネットワーク通信モジュール
653 レンダリングモジュール
654 入力処理モジュール
655 オーディオ処理装置
6551 テキストから音声への変換モデル
6552 フレームレートネットワーク
6553 時間領域・周波数領域処理モジュール
6554 サンプリング予測ネットワーク
6555 信号合成モジュール

Claims

電子機器が実行する、オーディオ処理方法であって、
処理対象テキストに対して音声特徴変換を行い、少なくとも１フレームの音響特徴フレームを得るステップと、
フレームレートネットワークにより、前記少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームから、前記各フレームの音響特徴フレームに対応する条件特徴を抽出するステップと、
前記各フレームの音響特徴フレームにおける現在のフレームに対して周波数帯域の分割と時間領域のダウンサンプリングを行い、前記現在のフレームに対応するｎ個のサブフレームを得るステップであって、ｎは１より大きい正の整数であり、前記ｎ個のサブフレームの各サブフレームは所定数量のサンプリングポイントを含む、ステップと、
サンプリング予測ネットワークにより、ｉラウンド目の予測プロセスにおいて、現在のｍ個の隣接サンプリングポイントの前記ｎ個のサブフレームにおける対応するサンプリング値を同期的に予測し、ｍ×ｎ個のサブ予測値を得、それによって、前記所定数量のサンプリングポイントにおける各サンプリングポイントに対応するｎ個のサブ予測値を得るステップであって、ｉは１以上の正の整数であり、ｍは２以上であり、且つ前記所定数量以下の正の整数である、ステップと、
前記各サンプリングポイントに対応するｎ個のサブ予測値に基づいて、前記現在のフレームに対応するオーディオ予測信号を得、さらに、少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームに対応するオーディオ予測信号に対してオーディオ合成を行い、前記処理対象テキストに対応する目標オーディオを得るステップと、を含む、オーディオ処理方法。
ｍが２に等しい場合、前記サンプリング予測ネットワークは、独立した２ｎ個の全結合層を含み、前記隣接する２個のサンプリングポイントは、前記ｉラウンド目の予測プロセスにおける、現在時刻ｔに対応するサンプリングポイントｔと、次の時刻ｔ＋１に対応するサンプリングポイントｔ＋１を含み、ｔは１以上の正の整数であり、
前記現在のｍ個の隣接サンプリングポイントの前記ｎ個のサブフレームにおける対応するサンプリング値を同期的に予測し、ｍ×ｎ個のサブ予測値を得るステップは、
前記ｉラウンド目の予測プロセスにおいて、サンプリング予測ネットワークにより、前記サンプリングポイントｔに対応する少なくとも１つの時刻ｔの過去サンプリングポイントに基づいて、前記サンプリングポイントｔの前記ｎ個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、ｎ個の時刻ｔのサブ粗予測値を得るステップと、
ｉが１より大きい場合、ｉ－１ラウンド目の予測プロセスに対応する過去予測結果に基づいて、前記条件特徴を組み合わせて、２ｎ個の全結合層により、前記サンプリングポイントｔとサンプリングポイントｔ＋１のそれぞれの前記ｎ個のサブフレームの各サブフレームにおける残差値に対して、フォワード残差予測を同期的に実行し、前記サンプリングポイントｔに対応するｎ個の時刻ｔの残差値と、前記サンプリングポイントｔ＋１に対応するｎ個の時刻ｔ＋１の残差値とを得るステップであって、前記過去予測結果は、ｉ－１ラウンド目の予測プロセスにおける、隣接する２つのサンプリングポイントのそれぞれに対応するｎ個の残差値及びサブ予測値を含む、ステップと、
前記サンプリングポイントｔ＋１に対応する少なくとも１つの時刻ｔ＋１の過去サンプリングポイントに基づいて、前記サンプリングポイントｔ＋１の前記ｎ個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、ｎ個の時刻ｔ＋１のサブ粗予測値を得るステップと、
前記ｎ個の時刻ｔの残差値と、前記ｎ個の時刻ｔのサブ粗予測値とに基づいて、前記サンプリングポイントｔに対応するｎ個の時刻ｔのサブ予測値を得、前記ｎ個の時刻ｔ＋１の残差値と、前記ｎ個の時刻ｔ＋１のサブ粗予測値とに基づいて、ｎ個の時刻ｔ＋１のサブ予測値を得、前記ｎ個の時刻ｔのサブ予測値と前記ｎ個の時刻ｔ＋１のサブ予測値とを２ｎ個のサブ予測値とする、ステップと、を含む、ことを特徴とする
請求項１に記載のオーディオ処理方法。
前記ｉ－１ラウンド目の予測プロセスに対応する過去予測結果に基づいて、前記条件特徴を組み合わせて、２ｎ個の全結合層により、前記サンプリングポイントｔとサンプリングポイントｔ＋１のそれぞれの前記ｎ個のサブフレームの各サブフレームにおける残差値に対して、フォワード残差予測を同期的に実行し、前記サンプリングポイントｔに対応するｎ個の時刻ｔの残差値と、前記サンプリングポイントｔ＋１に対応するｎ個の時刻ｔ＋１の残差値とを得るステップは、
サンプリングポイントｔ－１に対応するｎ個の時刻ｔ－１のサブ粗予測値、前記ｉ－１ラウンド目の予測プロセスで得られたｎ個の時刻ｔ－１の残差値、ｎ個の時刻ｔ－２の残差値、ｎ個の時刻ｔ－１のサブ予測値、及びｎ個の時刻ｔ－２のサブ予測値を取得するステップと、
前記ｎ個の時刻ｔのサブ粗予測値、前記ｎ個の時刻ｔ－１のサブ粗予測値、前記ｎ個の時刻ｔ－１の残差値、前記ｎ個の時刻ｔ－２の残差値、前記ｎ個の時刻ｔ－１のサブ予測値、及び前記ｎ個の時刻ｔ－２のサブ予測値に対して、特徴次元のフィルタリングを行い、次元削減特徴集合を得るステップと、
前記２ｎ個の全結合層における各全結合層により、前記条件特徴を組み合わせて、前記次元削減特徴集合に基づいて、前記サンプリングポイントｔとサンプリングポイントｔ＋１のそれぞれの前記ｎ個のサブフレームの各サブフレームにおける残差値に対して、フォワード残差予測を同期的に行い、前記ｎ個の時刻ｔの残差値と、前記ｎ個の時刻ｔ＋１の残差値とをそれぞれ得るステップと、を含む、ことを特徴とする
請求項２に記載のオーディオ処理方法。
前記２ｎ個の全結合層における各全結合層により、前記条件特徴を組み合わせて、前記次元削減特徴集合に基づいて、前記サンプリングポイントｔとサンプリングポイントｔ＋１のそれぞれの前記ｎ個のサブフレームの各サブフレームにおける残差値に対して、フォワード残差予測を同期的に行い、前記ｎ個の時刻ｔの残差値と、前記ｎ個の時刻ｔ＋１の残差値とをそれぞれ得るステップは、
前記次元削減特徴集合におけるｎ個の時刻ｔ－２の次元削減残差値とｎ個の時刻ｔ－２の次元削減予測値を時刻ｔの励起値として決定するステップであって、前記ｎ個の時刻ｔ－２の次元削減残差値は、前記ｎ個の時刻ｔ－２の残差値に対して特徴次元のフィルタリングを行うことによって得られるものであり、前記ｎ個の時刻ｔ－２の次元削減予測値は、前記ｎ個の時刻ｔ－２のサブ予測値に対して特徴次元のフィルタリングを行うことによって得られるものである、ステップと、
前記次元削減特徴集合におけるｎ個の時刻ｔ－１の次元削減残差値と前記ｎ個の時刻ｔ－１の次元削減サブ予測値を時刻ｔ＋１の励起値として決定するステップであって、前記ｎ個の時刻ｔ－１の次元削減残差値は、前記ｎ個の時刻ｔ－１の残差値に対して特徴次元のフィルタリングを行うことによって得られるものであり、前記ｎ個の時刻ｔ－１の次元削減予測値は、前記ｎ個の時刻ｔ－１のサブ予測値に対して特徴次元のフィルタリングを行うことによって得られるものである、ステップと、
前記２ｎ個の全結合層におけるｎ個の全結合層において、前記条件特徴と前記時刻ｔの励起値に基づいて、前記ｎ個の全結合層における各全結合層により、前記ｎ個の時刻ｔ－１の次元削減サブ粗予測値に基づいて、前記サンプリングポイントｔに対してフォワード残差予測を同期的に行い、前記ｎ個の時刻ｔの残差値を得るステップと、
前記２ｎ個の全結合層における他のｎ個の全結合層において、前記条件特徴と前記時刻ｔ＋１の励起値に基づいて、前記他のｎ個の全結合層における各全結合層により、前記ｎ個の時刻ｔの次元削減サブ粗予測値に基づいて、前記サンプリングポイントｔ＋１に対してフォワード残差予測を同期的に行い、前記ｎ個の時刻ｔ＋１の残差値を得るステップと、を含む、ことを特徴とする
請求項３に記載のオーディオ処理方法。
前記サンプリング予測ネットワークは、第１ゲート付き回帰型ネットワーク及び第２ゲート付き回帰型ネットワークを含み、前記ｎ個の時刻ｔのサブ粗予測値、前記ｎ個の時刻ｔ－１のサブ粗予測値、前記ｎ個の時刻ｔ－１の残差値、前記ｎ個の時刻ｔ－２の残差値、前記ｎ個の時刻ｔ－１のサブ予測値、及び前記ｎ個の時刻ｔ－２のサブ予測値に対して、特徴次元のフィルタリングを行い、次元削減特徴集合を得るステップは、
前記ｎ個の時刻ｔのサブ粗予測値、前記ｎ個の時刻ｔ－１のサブ粗予測値、前記ｎ個の時刻ｔ－１の残差値、前記ｎ個の時刻ｔ－２の残差値、前記ｎ個の時刻ｔ－１のサブ予測値、及び前記ｎ個の時刻ｔ－２のサブ予測値に対して特徴次元の結合を行い、初期特徴ベクトル集合を得るステップと、
前記条件特徴に基づいて、前記第１ゲート付き回帰型ネットワークにより、前記初期特徴ベクトル集合に対して特徴次元削減処理を行い、中間特徴ベクトルの集合を得るステップと、
前記条件特徴に基づいて、前記第２ゲート付き回帰型ネットワークにより、前記中間特徴ベクトルに対して特徴次元削減処理を行い、前記次元削減特徴集合を得るステップと、を含む、ことを特徴とする
請求項３又は４に記載のオーディオ処理方法。
前記各フレームの音響特徴フレームにおける現在のフレームに対して周波数帯域の分割と時間領域のダウンサンプリングを行い、前記現在のフレームに対応するｎ個のサブフレームを得るステップは、
前記現在のフレームに対して周波数領域の分割を行い、ｎ個の初期サブフレームを得るステップと、
前記ｎ個の初期サブフレームに対応する時間領域サンプリングポイントに対してダウンサンプリングを行い、前記ｎ個のサブフレームを得るステップとを、含む、ことを特徴とする
請求項１乃至５のいずれか一項に記載のオーディオ処理方法。
前記ｉラウンド目の予測プロセスにおいて、サンプリング予測ネットワークにより、前記サンプリングポイントｔに対応する少なくとも１つの時刻ｔの過去サンプリングポイントに基づいて、前記サンプリングポイントｔの前記ｎ個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、ｎ個の時刻ｔのサブ粗予測値を得る前に、前記オーディオ処理方法は、さらに、
ｔが所定のウィンドウ閾値以下である場合、前記サンプリングポイントｔより前の全てのサンプリングポイントを、前記少なくとも１つの時刻ｔの過去サンプリングポイントとするステップであって、前記所定のウィンドウ閾値は、線形符号化予測で処理できるサンプリングポイントの最大数を表す、ステップ、又は
ｔが前記所定のウィンドウ閾値より大きい場合、前記サンプリングポイントｔ－１からサンプリングポイントｔ－ｋまでの範囲内に対応するサンプリングポイントを前記少なくとも１つの時刻ｔの過去サンプリングポイントとするステップであって、ｋは所定のウィンドウ閾値である、ステップ、を含む、ことを特徴とする
請求項３乃至５及び、請求項３を引用する請求項６のいずれか一項に記載のオーディオ処理方法。
前記ｉラウンド目の予測プロセスにおいて、サンプリング予測ネットワークにより、前記サンプリングポイントｔに対応する少なくとも１つの時刻ｔの過去サンプリングポイントに基づいて、前記サンプリングポイントｔの前記ｎ個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、ｎ個の時刻ｔのサブ粗予測値を得た後で、前記オーディオ処理方法は、さらに、
ｉが１に等しい場合、２ｎ個の全結合層により、前記条件特徴と所定の励起パラメータを組み合わせて、前記サンプリングポイントｔと前記サンプリングポイントｔ＋１のそれぞれの前記ｎ個のサブフレームにおける残差値に対して、同期的にフォワード残差予測を行い、前記サンプリングポイントｔに対応するｎ個の時刻ｔの残差値及び前記サンプリングポイントｔ＋１に対応するｎ個の時刻ｔ＋１の残差値を得るステップと、
前記サンプリングポイントｔ＋１に対応する少なくとも１つの時刻ｔ＋１の過去サンプリングポイントに基づいて、前記サンプリングポイントｔ＋１の前記ｎ個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、ｎ個の時刻ｔ＋１のサブ粗予測値を得るステップと、
前記ｎ個の時刻ｔの残差値と、前記ｎ個の時刻ｔのサブ粗予測値とに基づいて、前記サンプリングポイントｔに対応するｎ個の時刻ｔのサブ予測値を得、前記ｎ個の時刻ｔ＋１の残差値と、前記ｎ個の時刻ｔ＋１のサブ粗予測値とに基づいて、ｎ個の時刻ｔ＋１のサブ予測値を得、前記ｎ個の時刻ｔのサブ予測値と前記ｎ個の時刻ｔ＋１のサブ予測値とを前記２ｎ個のサブ予測値とするステップと、を含む、ことを特徴とする
請求項２乃至５及び７並びに、請求項２を引用する請求項６のいずれか一項に記載のオーディオ処理方法。
前記各サンプリングポイントに対応するｎ個のサブ予測値に基づいて、前記現在のフレームに対応するオーディオ予測信号を得、さらに、少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームに対応するオーディオ予測信号に対してオーディオ合成を行い、前記処理対象テキストに対応する目標オーディオを得るステップは、
前記各サンプリングポイントに対応するｎ個のサブ予測値に対して周波数領域の重畳を行い、前記各サンプリングポイントに対応する信号予測値を得るステップと、
前記各サンプリングポイントに対応する信号予測値に対して時間領域信号の合成を行い、前記現在のフレームに対応するオーディオ予測信号を得、さらに、前記各フレームの音響特徴に対応するオーディオ信号を得るステップと、
前記各フレームの音響特徴に対応するオーディオ信号に対して信号合成を行い、前記目標オーディオを得るステップと、を含む、ことを特徴とする
請求項１乃至７のいずれか一項に記載のオーディオ処理方法。
前記処理対象テキストに対して音声特徴変換を行い、少なくとも１フレームの音響特徴フレームを得るステップは、
処理対象テキストを取得するステップと、
前記処理対象テキストに対して前処理を行い、変換対象テキスト情報を得るステップと、
テキストから音声への変換モデルにより、前記変換対象テキスト情報に対して音響特徴予測を行い、前記少なくとも１フレームの音響特徴フレームを得るステップと、を含む、ことを特徴とする
請求項１に記載のオーディオ処理方法。
ボコーダであって、
少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームから、前記各フレームの音響特徴フレームに対応する条件特徴を抽出するように構成されるフレームレートネットワークと、
前記各フレームの音響特徴フレームにおける現在のフレームに対して周波数帯域の分割と時間領域のダウンサンプリングを行い、前記現在のフレームに対応するｎ個のサブフレームを得るように構成される時間領域・周波数領域処理モジュールであって、ｎは１より大きい正の整数であり、前記ｎ個のサブフレームの各サブフレームは所定数量のサンプリングポイントを含む、時間領域・周波数領域処理モジュールと、
ｉラウンド目の予測プロセスにおいて、現在のｍ個の隣接サンプリングポイントの前記ｎ個のサブフレームにおける対応するサンプリング値を同期的に予測し、ｍ×ｎ個のサブ予測値を得、それによって、前記所定数量のサンプリングポイントにおける各サンプリングポイントに対応するｎ個のサブ予測値を得るように構成されるサンプリング予測ネットワークであって、ｉは１以上の正の整数であり、ｍは２以上であり、且つ前記所定数量以下の正の整数である、サンプリング予測ネットワークと、
前記各サンプリングポイントに対応するｎ個のサブ予測値に基づいて、前記現在のフレームに対応するオーディオ予測信号を得、さらに、少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームに対応するオーディオ予測信号に対してオーディオ合成を行い、目標オーディオを得るように構成される信号合成モジュールと、を備える、ボコーダ。
オーディオ処理装置であって、
処理対象テキストに対して音声特徴変換を行い、少なくとも１フレームの音響特徴フレームを得るように構成されるテキストから音声への変換モデルと、
前記少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームから、前記各フレームの音響特徴フレームに対応する条件特徴を抽出するように構成されるフレームレートネットワークと、
前記各フレームの音響特徴フレームにおける現在のフレームに対して周波数帯域の分割と時間領域のダウンサンプリングを行い、前記現在のフレームに対応するｎ個のサブフレームを得るように構成される時間領域・周波数領域処理モジュールであって、ｎは１より大きい正の整数であり、前記ｎ個のサブフレームの各サブフレームは所定数量のサンプリングポイントを含む、時間領域・周波数領域処理モジュールと、
ｉラウンド目の予測プロセスにおいて、現在のｍ個の隣接サンプリングポイントの前記ｎ個のサブフレームにおける対応するサンプリング値を同期的に予測し、ｍ×ｎ個のサブ予測値を得、それによって、前記所定数量のサンプリングポイントにおける各サンプリングポイントに対応するｎ個のサブ予測値を得るように構成されるサンプリング予測ネットワークであって、ｉは１以上の正の整数であり、ｍは２以上であり、且つ前記所定数量以下の正の整数である、サンプリング予測ネットワークと、
前記各サンプリングポイントに対応するｎ個のサブ予測値に基づいて、前記現在のフレームに対応するオーディオ予測信号を得、さらに、少なくとも１フレームの音響特徴フレームの各フレームの音響特徴フレームに対応するオーディオ予測信号に対してオーディオ合成を行い、前記処理対象テキストに対応する目標オーディオを得るように構成される信号合成モジュールと、を備える、オーディオ処理装置。
電子機器であって、メモリと、プロセッサとを含み、
前記メモリは実行可能な命令を記憶するように構成され、
前記プロセッサは、前記メモリに記憶される実行可能な命令を実行するとき、請求項１乃至１０のいずれか一項に記載の方法を実現するように構成される、電子機器。
プロセッサに、請求項１乃至１０のいずれか一項に記載の方法を実行させるコンピュータープログラム。