本出願の目的、技術案及び利点をより明確にするために、下記において図面を参照しながら本出願をさらに詳細に説明し、記載される実施例は、本出願に対する制限と見なすべきではない。当業者が創造的な労力を払うことなく得られる他の全ての実施例は、いずれも本出願の保護範囲に属する。
下記に記載される「いくつかの実施例」について、全ての可能な実施例のサブセットが記載されているが、理解可能なこととして、「いくつかの実施例」は全ての可能な実施例の同じサブセット又は異なるサブセットであってよく、しかも矛盾でなければ互いに組み合わせることができる。
下記に記載される用語「第1/第2/第3」は、単に類似するオブジェクトを区別するものであり、オブジェクトに対する特定の順序を表すものではなく、理解可能なこととして、「第1/第2/第3」は、本明細書で説明される本出願の実施形態が本明細書で図示又は説明される以外の順序で実施できるように、許可された場合に特定の順序又は前後順序を交換することができる。
別途に定義しない限り、本明細書で使用される全ての技術用語及び科学用語は、本出願の技術分野に属する当業者が一般に理解するものと同じ意味を有する。本明細書で使用される用語は、本出願を限定することを意図するものではなく、単に本出願の実施例を説明するためのものである。
本出願の実施例をさらに詳細に説明する前に、本出願の実施例に係る名詞及び用語について説明する。本出願の実施例に係る名詞及び用語は、以下のように解釈される。
1)音声合成:テキストから音声への変換(TTS:Text to Speech)とも呼ばれ、コンピューター自体で生成されたテキスト情報又は外部から入力されたテキスト情報を、聞き取れる、流暢な音声に変換して読み上げる役割を果たす。
2)スペクトログラム:スペクトログラム(Spectrograms)とは、周波数領域における時間領域の信号の表現方式を指し、信号をフーリエ変換して得られるものであり、得られた結果はそれぞれ振幅と位相を縦軸とし、周波数を横軸とする2枚の図である。音声合成技術の適用では、位相の情報が省略され、異なる周波数における対応する振幅情報のみが保持されることが多い。
3)基本周波数:声において、基本周波数(Fundamental frequency)は、ポリフォニーにおける基音の周波数を指し、記号FOで表される。1つのポリフォニーを構成するいくつかの音の中で、基音は周波数が最も低く、強度が最も大きい。基本周波数の高さは、音の高さを決定する。通常、いわゆる音声の周波数は、一般に基音の周波数を指す。
4)ボコーダ:ボコーダ(Vocoder)は、ボイスエンコーダ(Voice Encoder)の略語に由来し、音声信号分析合成システムとも呼ばれ、音響特徴を音に変換する役割を果たす。
5)GMM:ガウス混合モデル(Gaussian Mixture Model)は単一ガウス確率密度関数の延長であり、複数のガウス確率密度関数を用いて変数分布をより正確に統計してモデル化する。
6)DNN:ディープニューラルネットワーク(Deep Neural Network)は、判別モデルであり、2つ以上の隠れ層を含む多層パーセプトロン(MLP:Multi-layer perceptron neural networks)であり、入力ノードを除いて、各ノードは、非線形の活性化関数を有するニューロンであり、MLPと同様に、DNNは逆伝播アルゴリズムを用いて訓練することができる。
7)CNN:畳み込みニューラルネットワーク(Convolutional Neural Network)は、フィードフォワードニューラルネットワークであり、そのニューロンは受容野内のユニットに応答できる。CNNは通常、複数の畳み込み層と最上部の全結合層で構成され、共有パラメータによってモデルのパラメータ量を低減させることで、画像及び音声認識に広く適用される。
8)RNN:再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)は、シーケンス(sequence)データを入力として、シーケンスの進化方向に再帰(recursion)を行い、全てのノード(回帰型ユニット)がチェーンで接続された再帰ニューラルネットワーク(Recursive Neural Network)である。
9)LSTM:長短時間記憶ネットワーク(Long Short-Term Memory)は、再帰型ニューラルネットワークであり、アルゴリズムに情報が有用であるかどうかを判断するCellを追加している。1つのCellには、入力ゲート、忘却ゲート、及び出力ゲートが配置される。情報がLSTMに入った後、ルールに基づいて有用であるかどうかを判断する。アルゴリズム認証に合致する情報しか保持されることなく、合致しない情報は忘却ゲートにより忘却される。該ネットワークは、時系列における間隔と遅延が比較的に長い重要なイベントを処理し、予測するのに適する。
10)GRU:ゲート付き回帰型ユニット(Gate Recurrent Unit)は、再帰型ニューラルネットワークの一種である。LSTMと同様に、長期記憶及び逆伝播における勾配などの問題を解決するために提案される。LSTMに比べて、GRUの内部は1つの「ゲート」が少なく、パラメータがLSTMよりも少なく、多くの場合、LSTMに匹敵する効果を達成し、計算時間を効果的に削減することができる。
11)Pitch:基音周期である。通常、音声信号は簡単に2つのタイプに分けられ得る。1つのタイプは、短時間の周期性を有する濁音であり、人が濁音を出すとき、気流は声門を通過して声帯に緊張と弛緩の振動式振動を発生させ、準周期的なパルス気流を発生し、該気流は声道に濁音を発生させ、濁音は、有声音声とも呼ばれ、音声の大部のエネルギーを有し、その周期は基音周期(Pitch)と呼ばれる。もう1つのタイプは、ランダムなノイズ性質を有する清音であり、声門が閉じるときに口腔によってその中の空気を圧縮することで生成される。
12)LPC:線形予測符号化(Linear Predictive Coding)であり、音声信号は線形時変システムの出力としてモデル化することができ、該システムの入力励起信号は(濁音の期間)周期的なパルス又は(清音の期間)ランダムなノイズである。音声信号のサンプリングは、過去サンプリングの線形フィッティングによって近似することができ、次に、実際のサンプリングと線形予測サンプリングの間の差の二乗和を局所的に最小化することによって、1セットの予測係数、即ちLPCを得ることができる。
13)LPCNet:線形予測符号化ネットワークは、デジタル信号処理とニューラルネットワークが巧みに組み合わせられて音声合成におけるボコーダに適用されるネットワークであり、通常のCPU上でリアルタイムに高品質の音声を合成することができる。
現在、ニューラルネットワークに基づくボコーダにおいて、Wavenetは、ニューラルボコーダの先駆的な製品として、該分野での後続の研究に重要な参考を提供するが、その自己再帰(即ち、現在のサンプリングポイントを予測するには将来時刻のサンプリングポイントに依存する必要がある)のフォワード方式のため、リアルタイム性において大規模なオンラインアプリケーションの要件を満たすことは困難である。Wavenetに存在する問題に対して、ストリームに基づくニューラルボコーダ、例えばParallel Wavenet、Clarinetが生まれる。このタイプのボコーダは、蒸留の方式により、教師モデルと生徒モデルによって予測する分布(混合ロジスティック分布、単一ガウス分布)をできるだけ近づける。蒸留学習が完了した後、フォワード予測のときに、並行処理可能な生徒モデルを用いて全体の速度を向上させる。しかし、ストリームに基づくボコーダの全体的な構造は比較的複雑であり、訓練プロセスが分断され、訓練の安定性がよくないという問題があるため、ストリームに基づくボコーダは、コストの高いGPU上でしかリアルタイムな合成を実現することができない。大規模なオンラインアプリケーションにとって、コストが高すぎる。その後、Wavernn、LPCNetなどのような、より簡単な構造を有する自己再帰モデルが次々と提案された。本来の比較的簡単な構造の上に、量子化最適化と行列スパース最適化をさらに導入することで、単一のCPU上で比較的優れたリアルタイム性を達成することができる。しかし、大規模なオンラインアプリケーションについては、より高速なボコーダが必要である。
現在、LPCNetボコーダは、主にフレームレートネットワーク(FRN:Frame Rate Network)とサンプリングレートネットワーク(SRN:Sample Rate Network)から構成される。図1に示すように、フレームレートネットワーク10は、通常、多次元のオーディオ特徴を入力として、多層畳み込みの処理により、高層のオーディオ特徴を後続のサンプリングレートネットワーク20の条件特徴fとして抽出する。サンプリングレートネットワーク20は、多次元のオーディオ特徴に基づいて、LPC係数を計算し、LPC係数に基づいて、現在の時刻より前の複数の時刻で予測して得られたサンプリングポイントの予測値St-16…St-1を組み合わせて、現在の時刻のサンプリングポイントに対応する現在の粗予測値ptを線形予測符号化として出力する。サンプリングレートネットワーク20は、1つ前の時刻のサンプリングポイントに対応する予測値St-1、1つ前の時刻のサンプリングポイントに対応する予測誤差et-1、現在の粗予測値pt、及びフレームレートネットワーク10によって出力された条件特徴fを入力として、現在の時刻のサンプリングポイントに対応する予測誤差etを出力し、その後、サンプリングレートネットワーク20は、現在の粗予測値ptに、現在の時刻のサンプリングポイントに対応する予測誤差etを加算して、現在の時刻の予測値Stを得る。サンプリングレートネットワーク20は、多次元のオーディオ特徴における各サンプリングポイントに対して同じ処理を実行し、繰り返して実行してから、最終的にすべてのサンプリングポイントに対するサンプリング値の予測を完了し、各サンプリングポイント上の予測値に基づいて、合成が必要な全体の目標オーディオを得る。通常、オーディオサンプリングポイントの数が多いため、サンプリングレートが16kHzであることを例として、10msのオーディオは160個のサンプリングポイントを含み、10msのオーディオを合成するために、現在のボコーダにおけるSRNは160回ループする必要があり、全体の計算量が比較的大きく、それによってオーディオ処理の速度と効率が低下する。
本出願の実施例は、オーディオ処理方法、装置、ボコーダ、電子機器及びコンピューター可読記憶媒体を提供し、オーディオ処理の速度と効率を向上させることができる。以下、本出願の実施例によって提供される電子機器の例示的な適用を説明し、本出願の実施例によって提供される電子機器は、インテリジェントロボット、スマートスピーカー、ノートブックコンピューター、タブレットコンピューター、デスクトップコンピューター、セットトップボックス、モバイル機器(例えば、携帯電話、携帯音楽プレーヤー、パーソナルデジタルアシスタント、専用メッセージング機器、携帯ゲーム機器)、インテリジェント音声インタラクション機器、スマート家電、車載端末などの様々なタイプのユーザ端末として実施されてもよく、サーバとして実施されてもよい。次に、電子機器をサーバとして実施する場合の例示的な適用について説明する。
図2を参照すると、図2は、本出願の実施例によるオーディオ処理システム100-1の選択可能なアーキテクチャ模式図である。インテリジェント音声アプリケーションのサポートを実現するために、端末400(例示的に、端末400-1、端末400-2及び端末400-3が示される)は、ネットワークによりサーバ200に接続され、ネットワークは、ワイドエリアネットワーク又はローカルエリアネットワーク、又は両方の組み合わせであってもよい。
端末400にインテリジェント音声アプリケーションのクライアント410(例示的に、クライアント410-1、クライアント410-2、クライアント410-3が示される)がインストールされ、クライアント410は、インテリジェント音声合成を行おうとする処理対象テキストをサーバ側に送信することができる。サーバ200は、処理対象テキストを受信した後、処理対象テキストに対して音声特徴変換を行い、少なくとも1フレームの音響特徴フレームを得、フレームレートネットワークにより、少なくとも1フレームの音響特徴フレームの各フレームの音響特徴フレームから、各フレームの音響特徴フレームに対応する条件特徴を抽出し、各フレームの音響特徴フレームにおける現在のフレームに対して周波数帯域の分割と時間領域のダウンサンプリングを行い、現在のフレームに対応するn個のサブフレームを得、ここで、nは1より大きい正の整数であり、n個のサブフレームの各サブフレームは所定数量のサンプリングポイントを含み、サンプリング予測ネットワークにより、iラウンド目の予測プロセスにおいて、現在のm個の隣接サンプリングポイントのn個のサブフレームにおける対応するサンプリング値を同期的に予測し、m×n個のサブ予測値を得、それによって、所定数量のサンプリングポイントにおける各サンプリングポイントに対応するn個のサブ予測値を得、ここで、iは1以上の正の整数であり、mは2以上であり、且つ、所定数以下の正の整数であり、各サンプリングポイントに対応するn個のサブ予測値に基づいて、現在のフレームに対応するオーディオ予測信号を得、さらに、少なくとも1フレームの音響特徴フレームの各フレームの音響特徴フレームに対応するオーディオ予測信号に対してオーディオ合成を行い、処理対象テキストに対応する目標オーディオを得るように構成される。サーバ200はさらに、目標オーディオに対して圧縮などの後処理操作を実行し、処理後の目標オーディオをストリームの形式又は完全文の形式で端末400に返すことができる。端末400は、返されたオーディオを受信した後、クライアント410で滑らかで自然な音声再生を行うことができる。オーディオ処理システム100-1の全体の処理プロセスで、サーバ200は、サンプリング予測ネットワークにより、隣接する時間の複数のサブバンド特徴に対応する予測値を同時に予測することができ、オーディオを予測するときに必要なループ回数が少ないため、サーバのバックグラウンド音声合成サービスの遅延が小さく、クライアント410は返されたオーディオを直ちに取得することができる。これにより、端末400のユーザは、処理対象テキストから変換された音声コンテンツを短時間で聞くことができ、両眼を解放し、インタラクションが自然で便利になる。
いくつかの実施例では、サーバ200は、独立した物理サーバであってもよく、又は複数の物理サーバから構成されるサーバクラスター又は分散システムであってもよく、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、CDN、及びビッグデータと人工知能プラットフォームなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。端末400は、スマートフォン、タブレットコンピューター、ノートブックコンピューター、デスクトップコンピューター、スマートスピーカー、スマートウォッチなどであり得るが、これらに限定されない。端末とサーバは、有線通信又は無線通信により直接的又は間接的に接続することができ、本出願の実施例では限定されない。
いくつかの実施例では、図3に示すように、端末400は、車載装置400-4であってもよく、例示的に、車載装置400-4は、車両装置の内部に設置された車載コンピューターであってもよく、車両装置の外部に設置された車両を制御するための制御装置などであってもよい。インテリジェント音声アプリケーションのクライアント410は、車載サービスのクライアント410-4であってもよく、車両に関する走行情報を表示し、車両上の各種の機器の操作を提供し、その他の拡張機能を提供する。車載サービスのクライアント410-4は、外部から送信されたテキストメッセージ、例えば、ニュースメッセージ、道路状況メッセージ、又は緊急メッセージなどのテキスト情報を含むメッセージを受信する場合、ユーザの操作命令に基づいて、例えば、ユーザが410-5に示すメッセージポップアップインタフェース上で音声、画面又はボタンなどの操作により、音声再生命令をトリガした後、車載サービスシステムは、音声再生命令に応答してテキストメッセージをサーバ200に送信し、サーバ200は、テキストメッセージから処理対象テキストを抽出し、処理対象テキストに対して上述のオーディオ処理プロセスを行い、対応する目標オーディオを生成することができる。サーバ200は、目標オーディオを車載サービスのクライアント410-4に送信し、車載サービスのクライアント410-4によって車載マルチメディア装置を呼び出して目標オーディオを再生し、410-6に示すオーディオ再生インタフェースを表示する。
以下、電子機器を端末として実施する場合の例示的な適用について説明する。図4を参照すると、図4は、本出願の実施例によるオーディオ処理システム100-2の選択可能なアーキテクチャ模式図であり、一つの細分化分野におけるカスタマイズ、パーソナライズ可能な音声合成アプリケーション、例えば、小説の朗読、ニュース放送などの分野における専用の音色音声合成サービスのサポートを実現するために、端末500はネットワークによりサーバ300に接続され、ネットワークはワイドエリアネットワーク又はローカルエリアネットワーク、又は両方の組み合わせであってもよい。
サーバ300は、事前に、音色カスタマイズ需要に基づいて、各種類の音色のオーディオ、例えば異なる性別又は異なる音色タイプの話者のオーディオを収集することによって音声ライブラリを形成し、内蔵の初期音声合成モデルを音声ライブラリで訓練し、音声合成機能を備えたサーバ側モデルを得、訓練済みのサーバ側モデルを端末500に配置して、端末500上のバックグラウンド音声処理モデル420にする。端末500にインテリジェント音声アプリケーション411(閲読用APP、ニュースクライアントなど)がインストールされ、ユーザがインテリジェント音声アプリケーション411であるテキストを朗読する必要がある場合、インテリジェント音声アプリケーション411はユーザから送られた音声朗読対象であるテキストを取得し、該テキストを処理対象テキストとしてバックグラウンド音声モデル420に送信することができ、バックグラウンド音声モデル420により、処理対象テキストに対して音声特徴変換を行い、少なくとも1フレームの音響特徴フレームを得、フレームレートネットワークにより、少なくとも1フレームの音響特徴フレームの各フレームの音響特徴フレームから、各フレームの音響特徴フレームに対応する条件特徴を抽出し、各フレームの音響特徴フレームにおける現在のフレームに対して周波数帯域の分割と時間領域のダウンサンプリングを行い、現在のフレームに対応するn個のサブフレームを得、ここで、nは1より大きい正の整数であり、n個のサブフレームの各サブフレームは所定数量のサンプリングポイントを含み、サンプリング予測ネットワークにより、iラウンド目の予測プロセスにおいて、現在のm個の隣接サンプリングポイントのn個のサブフレームにおける対応するサンプリング値を同期的に予測し、m×n個のサブ予測値を得、それによって、所定数量のサンプリングポイントにおける各サンプリングポイントに対応するn個のサブ予測値を得、ここで、iは1以上の正の整数であり、mは2以上であり、且つ、所定数以下の正の整数であり、各サンプリングポイントに対応するn個のサブ予測値に基づいて、現在のフレームに対応するオーディオ予測信号を取得、さらに、少なくとも1フレームの音響特徴フレームの各フレームの音響特徴フレームに対応するオーディオ予測信号に対してオーディオ合成を行い、処理対象テキストに対応する目標オーディオを得て、インテリジェント音声アプリケーション411のフロントインタラクティブインタフェースに伝送して再生する。パーソナライズ、カスタマイズ的な音声合成は、システムのロバスト性、汎化性、及びリアルタイム性などに対してより高い要求を求めており、本出願の実施例によって提供されるモジュール化可能なエンドツーエンドのオーディオ処理システムは、実際の状況に応じて柔軟に調整することができ、合成効果にほとんど影響を与えない前提で、異なる需要の下でシステムの高い適応性を保障する。
いくつかの実施例では、図5を参照すると、端末500は車載装置500-1であり得、車載装置500-1は、携帯電話、タブレットコンピューターなどの他のユーザ機器500-2に有線又は無線の方式で接続され、例示的に、ブルートゥース(登録商標)、又はUSBなどで接続され得る。ユーザ機器500-2は、ショートメッセージ、ドキュメントなどのそれ自体のテキストを、接続により車載装置500-1上のインテリジェント音声アプリケーション411-1に送信することができる。例示的に、ユーザ機器500-2が通知メッセージを受信する場合、通知メッセージをインテリジェント音声アプリケーション411-1に自動的に転送することができ、又はユーザ機器500-2は、ユーザ機器アプリケーションにおけるユーザの操作命令に基づいて、ローカルに保存されたドキュメントをインテリジェント音声アプリケーション411-1に送信することもできる。インテリジェント音声アプリケーション411-1は、プッシュされたテキストを受信する場合、音声再生命令への応答に基づいて、テキストコンテンツを処理対象テキストとして、バックグラウンド音声モデルにより、処理対象テキストに対して上述のオーディオ処理プロセスを実行し、対応する目標オーディオを生成することができる。インテリジェント音声アプリケーション411-1は、さらに対応するインタフェースディスプレイ及び車載マルチメディア機器を呼び出して目標オーディオを再生する。
図6を参照すると、図6は、本出願の実施例による電子機器600の構造的模式図である。図6に示す電子機器600は、少なくとも1つのプロセッサ610、メモリ650、少なくとも1つのネットワークインタフェース620、及びユーザインタフェース630を含む。電子機器600内の各コンポーネントは、バスシステム640によりカップリンブされる。バスシステム640は、これらのコンポーネント間の接続及び通信を実現するために用いられることが理解され得る。バスシステム640は、データバスに加えて、電源バス、制御バス、及び状態信号バスも含む。しかし、明確に説明するために、図6では、様々なバスをバスシステム640と記す。
プロセッサ410は、信号処理能力を備えた集積回路チップ、例えば、汎用プロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、又は他のプログラマブルロジック機器、ディスクリートゲート又はトランジスタロジック機器、ディスクリートハードウェアコンポーネントなどであってもよい。ここで、汎用プロセッサは、マイクロプロセッサ又は任意の従来のプロセッサなどであってもよい。
ユーザインタフェース630は、メディアコンテンツのレンダリングを可能にする1つ又は複数の出力装置631を含み、出力装置631は、1つ又は複数のスピーカ及び/又は1つ又は複数のビジュアルディスプレイを含む。ユーザインタフェース630はさらに、1つ又は複数の入力装置632を含み、入力装置632は、ユーザの入力を容易にするユーザインタフェース構成要素、例えば、キーボード、マウス、マイクロフォン、タッチスクリーンディスプレイ、カメラ、他の入力ボタン及びコントロールを含む。
メモリ650は、取り外し可能、取り外し不可、又はそれらの組み合わせであってもよい。例示的なハードウェア機器は、ソリッドステートメモリ、ハードドライブ、光ディスドライブなどを含む。メモリ650は、選択的に、プロセッサ610から物理的に離れた位置にある1つ又は複数の記憶装置を含む。
メモリ650は、揮発性メモリ又は不揮発性メモリを含み、揮発性メモリと不揮発性メモリの両方を含むこともできる。不揮発性メモリは読み出し専用メモリ(ROM:Read Only Memory)であってもよく、揮発性メモリはランダムアクセスメモリ(RAM:Random Access Memory)であってもよい。本出願の実施例で説明されるメモリ650は、任意の適切なタイプのメモリを含むことを意図する。
いくつかの実施例では、メモリ650は、各種類の操作をサポートするためにデータを記憶することができ、これらのデータの例は、プログラム、モジュール、及びデータ構造、又はそれらのサブセット又はスーパーセットを含み、以下に例示的に説明する。
オペレーティングシステム651は、様々な基本システムサービスを処理し、ハードウェア関連タスクを実行するためのシステムプログラム、例えば、フレームワーク層、コアライブラリ層、ドライバ層などを含み、様々な基本サービスを実現し、ハードウェアに基づくタスクを処理するために用いられる。
ネットワーク通信モジュール652は、1つ又は複数の(有線又は無線)ネットワークインタフェース620により他のコンピューティング機器に到達するために用いられ、例示的なネットワークインタフェース620は、ブルートゥース(登録商標)、無線適合性認証(WiFi)、及び汎用シリアルバス(USB:Universal Serial Bus)などを含む。
レンダリングモジュール653は、ユーザインタフェース630に関連付けられた1つ又は複数の出力装置631(例えば、ディスプレイ、スピーカなど)により情報(例えば、周辺機器を操作し、コンテンツ及び情報を表示するためのユーザインタフェース)のレンダリングを可能にするために用いられる。
入力処理モジュール654は、1つ又は複数の入力装置632の1つからの1つ又は複数のユーザ入力又はインタラクションを検出し、検出された入力又はインタラクションを翻訳するように構成される。
いくつかの実施例では、本出願の実施例によって提供される装置は、ソフトウェアによって実現することができ、図6は、メモリ650に記憶されたオーディオ処理装置655を示し、オーディオ処理装置655は、プログラム又はプラグインなどの形式のソフトウェアであり得、テキストから音声への変換モデル6551、フレームレートネットワーク6552、時間領域・周波数領域処理モジュール6553、サンプリング予測ネットワーク6554、及び信号合成モジュール6555を含み、これらのモジュールは論理的であるため、実現された機能に応じて任意の組み合わせ又はさらに分割を行うことができる。
以下、各モジュールの機能について説明する。
別のいくつかの実施例では、本出願の実施例によって提供される装置は、ハードウェアで実現されてもよく、例として、本出願の実施例によって提供される装置は、ハードウェアデコーディングプロセッサの形態を採用するプロセッサであってもよく、該プロセッサは、本出願の実施例によって提供されるオーディオ処理方法を実行するためにプログラムされ、例えば、ハードウェアデコーディングプロセッサ形態のプロセッサは、1つ又は複数の特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、DSP、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、コンプレックスプログラマブルロジックデバイス(CPLD:Complex Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA:Field-Programmable Gate Array)又はその他の電子部品を採用することができる。
本出願の実施例は、マルチバンドマルチタイムドメインのボコーダを提供し、該ボコーダは、テキストから音声への変換モデルと組み合わせることができ、テキストから音声への変換モデルで処理対象テキストに基づいて出力される少なくとも1フレームの音響特徴フレームを目標オーディオに変換する。該ボコーダは、他のオーディオ処理システムにおけるオーディオ特徴抽出モジュールと組み合わせることもでき、オーディオ特徴抽出モジュールによって出力されたオーディオ特徴をオーディオ信号に変換する役割を果たす。具体的には実際の状況に応じて選択しても良く、本出願の実施例では限定されない。
図7に示すように、本出願の実施例によって提供されるボコーダは、時間領域・周波数領域処理モジュール51、フレームレートネットワーク52、サンプリング予測ネットワーク53、及び信号合成モジュール54を含む。ここで、フレームレートネットワーク52は、入力された音響特徴信号に対して高層の抽象化を実行し、少なくとも1フレームの音響特徴フレームの各フレームの音響特徴フレームから該フレームに対応する条件特徴を抽出することができる。ボコーダは、さらに、各フレームの音響特徴フレームに対応する条件特徴に基づいて、該フレームの音響特徴における各サンプリングポイントにおけるサンプリング信号値を予測することができる。ボコーダが少なくとも1フレームの音響特徴フレームにおける現在のフレームを処理することを例として、各フレームの音響特徴フレームにおける現在のフレームに対して、時間領域・周波数領域処理モジュール51は、現在のフレームに対して周波数帯域の分割及び時間領域のダウンサンプリングを行い、現在のフレームに対応するn個のサブフレームを得、n個のサブフレームの各サブフレームは所定数量のサンプリングポイントを含む。サンプリング予測ネットワーク53は、iラウンド目の予測プロセスにおいて、現在のm個の隣接サンプリングポイントのn個のサブフレームにおける対応するサンプリング値を同期的に予測し、m×n個のサブ予測値を得、それによって、所定数量のサンプリングポイントにおける各サンプリングポイントに対応するn個のサブ予測値を得るように構成され、ここで、iは1以上の正の整数であり、mは2以上、且つ所定数個以下の正の整数である。信号合成モジュール54は、各サンプリングポイントに対応するn個のサブ予測値に基づいて、現在のフレームに対応するオーディオ予測信号を取得し、さらに、各フレームの音響特徴フレームに対応するオーディオ予測信号に対してオーディオ合成を行い、処理対象テキストに対応する目標オーディオを得るように構成される。
人の声は、人の肺から押し出された気流が声帯を通過して生成され振動波であり、空気により耳に伝播されるため、サンプリング予測ネットワークは音源励起(肺から気流を出すことをシミュレートする)と声道応答(vocal tract response)システムにより、オーディオ信号のサンプリング値を予測することができる。いくつかの実施例では、サンプリング予測ネットワーク53は、図7に示すように、線形予測符号化モジュール53-1及びサンプリングレートネットワーク53-2を含むことができる。ここで、線形予測符号化モジュール53-1は、n個のサブフレームにおけるm個のサンプリングポイントのうちの各サンプリングポイントの対応するサブ粗予測値を声道応答として計算することができる。サンプリングレートネットワーク53-2は、フレームレートネットワーク52によって抽出された条件特徴に基づいて、1ラウンドの予測プロセスにおいて、m個のサンプリングポイントをフォワード予測の時間スパンとして、n個のサブフレームにおけるm個の隣接するサンプリングポイントのうちの各サンプリングポイントのそれぞれ対応する残差値を音源励起(Excitation)として同時に遂行し、さらに声道応答と音源励起に基づいて、対応するオーディオ信号をシミュレートすることができる。
いくつかの実施例では、mを2に等しく、即ち、サンプリング予測ネットワークの予測時間スパンを2個のサンプリングポイントとすることを例として、iラウンド目の予測プロセスにおいて、線形予測符号化モジュール53-1は、現在時刻tにおけるサンプリングポイントtに対応する少なくとも1つの時刻tの過去サンプリングポイントのうちの各過去サンプリングポイントに対応するn個のサブ予測値に基づいて、サンプリングポイントtのn個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、n個の時刻tのサブ粗予測値を得、サンプリングポイントtの声道応答とする。サンプリングポイントtに対応する残差値を予測する場合、予測時間スパンが2個のサンプリングポイントであるため、サンプリングレートネットワーク53-2は、i-1ラウンド目の予測プロセスにおけるサンプリングポイントt-2に対応するn個の時刻t-2の残差値と、n個の時刻t-2のサブ予測値とを励起値として、条件特徴とn個の時刻t-1のサブ粗予測値を組み合わせて、サンプリングポイントtのn個のサブフレームにおけるそれぞれ対応する残差値に対してフォワード予測を実行し、サンプリングポイントtに対応するn個の時刻tの残差値を得る。同時に、サンプリングポイントtに対応する残差値を予測する場合、i-1ラウンド目の予測プロセスにおけるサンプリングポイントt-1に対応するn個の時刻t-1の残差値と、n個の時刻t-1のサブ予測値とを励起値とし、条件特徴と組み合わせて、サンプリングポイントt+1のn個のサブフレームにおけるそれぞれ対応する残差値に対してフォワード予測を実行し、サンプリングポイントt+1に対応するn個の時刻t+1の残差値を得る。サンプリングレートネットワーク53-2は、上記のプロセスに基づいて、各サンプリングポイントに対応するn個の残差値が得られるまで、n個のサブフレームにおけるダウンサンプリング後の所定数量のサンプリングポイントに対して自己再帰的に残差予測を実行することができる。
本出願の実施例では、サンプリング予測ネットワーク53は、n個の時刻tの残差値及びn個の時刻tのサブ粗予測値に基づいて、サンプリングポイントtに対応するn個の時刻tのサブ予測値を得ることができ、サンプリングポイントtを、サンプリングポイントt+1に対応する少なくとも1つの時刻t+1の過去サンプリングポイントのうちの1つとし、少なくとも1つの時刻t+1の過去サンプリングポイントにおける各時刻t+1の過去サンプリングポイントに対応するサブ予測値に基づいて、サンプリングポイントt+1のn個のサブフレームにおける対応する線形サンプリング値に対して線形符号化予測を行い、n個の時刻t+1のサブ粗予測値を得、サンプリングポイントtの声道応答とする。さらに、n個の時刻t+1のサブ粗予測値及びn個の時刻t+1の残差値に基づいて、n個の時刻t+1のサブ予測値を得、n個の時刻tのサブ予測値とn個の時刻t+1のサブ予測値を2n個のサブ予測値とし、それによってiラウンド目の予測プロセスを完了する。iラウンド目の予測プロセスが終了した後、サンプリング予測ネットワーク53は、現在隣接する2つのサンプリングポイントt及びサンプリングポイントt+1を更新し、i+1ラウンド目のサンプリング値の予測プロセスを開始し、所定数量のサンプリングポイントの予測をすべて完了するまで継続する。ボコーダは、信号合成モジュール54により現在のフレームに対応するオーディオ信号の信号波形を得ることができる。
理解可能なこととして、本出願の実施例によって提供されるボコーダは、音響特徴をオーディオ信号に変換するために必要な計算量を効果的に低減させ、複数のサンプリングポイントの同期予測を実現し、高いリアルタイムレートを保証するとともに、理解度が高く、自然度が高く、忠実度が高いオーディオを出力することができる。
説明すべきこととして、上記の実施例では、ボコーダの予測時間スパンを2個のサンプリングポイントに設定し、即ち、mを2に設定することは、ボコーダの処理効率及びオーディオ合成品質を総合的に考慮した上での好ましい例示的な適用である。実際に適用する際には、必要に応じてmを他の時間スパンのパラメータ値に設定することもでき、具体的には実際の状況に応じて選択することができ、本出願の実施例では限定されない。mが他の値に設定される場合、予測プロセス及び各ラウンドの予測プロセスにおける各サンプリングポイントに対応する励起値の選択は、上述のm=2の場合と同様であり、ここでは説明を繰り返さない。
以下、本出願の実施例によって提供される電子機器600の例示的な適用及び実施を組み合わせて、本出願の実施例によって提供されるオーディオ処理方法を説明する。
図8を参照すると、図8は、本出願の実施例によるオーディオ処理方法の選択可能な模式的フローチャートであり、図8に示すステップを組み合わせて説明する。
S101において、処理対象テキストに対して音声特徴変換を行い、少なくとも1フレームの音響特徴フレームを得る。
本出願の実施例によって提供されるオーディオ処理方法は、インテリジェント音声アプリケーションのクラウドサービスに適用することができ、さらに、該クラウドサービスを使用するユーザにサービスを提供し、例えば銀行スマートカスタマーサービス、及び単語暗記ソフトウェアなどの学習系ソフトウェアに適用され、端末のローカルアプリケーションにおける書籍のインテリジェントな朗読、ニュース放送などのインテリジェントな音声シナリオに適用されてもよく、自動運転シナリオ又は車載シナリオ、例えば音声インタラクションに基づく車両のインターネットシナリオ又はスマート交通シナリオなどに適用されてもよく、本出願の実施例では限定されない。
本出願の実施例では、電子機器は、所定のテキストから音声への変換モデルにより、変換対象テキスト情報に対して音声特徴変換を行い、少なくとも1フレームの音響特徴フレームを出力することができる。
本出願の実施例では、テキストから音声への変換モデルは、CNN、DNNネットワーク、又はRNNネットワークによって構築されたシーケンスツーシーケンス(Sequence to Sequence)モデルであってもよく、シーケンスツーシーケンスモデルは主にエンコーダとデコーダの2つの部分から構成される。エンコードは、音声データ、オリジナルなテキスト、ビデオデータなどの連続関係を有する一連のデータをシーケンスに抽象化し、オリジナルなテキストにおけるキャラクタシーケンス、例えばセンテンスからロバストなシーケンス表現を抽出して、センテンスの内容にマッピングできる固定長のベクトルに符号化し、それによってオリジナルなテキストにおける自然言語をニューラルネットワークによって認識及び処理できるデジタル特徴に変換することができる。デコーダは、エンコーダによって得られた固定長のベクトルを対応するシーケンスの音響特徴にマッピングし、複数のサンプリングポイントにおける特徴を1つの観測単位、即ち1つのフレームとして集め、それによって少なくとも1フレームの音響特徴フレームを得ることができる。
本出願の実施例では、少なくとも1フレームの音響特徴フレームは、少なくとも1フレームのオーディオスペクトル信号であり得、周波数領域のスペクトル図によって表すことができる。各音響特徴フレームは、所定数の特徴次元を含み、特徴次元は、特徴におけるベクトルの数を表し、特徴におけるベクトルは、トーン、フォルマント、スペクトル、声域関数などの各タイプの特徴情報を表すために用いられる。例示的に、少なくとも1フレームの音響特徴フレームは、メル尺度スペクトル図であっても良く、線形対数マグニチュードスペクトル図であっても良く、又はバーク尺度スペクトル図などであっても良く、本出願の実施例では、少なくとも1フレームの音響特徴フレームの抽出方法及び特徴のデータ形式を限定しない。
いくつかの実施例では、各フレームの音響特徴フレームは、18次元のBFCC特徴(Bark-Frequency Cepstral Coefficients)に加えて2次元のピッチ(Pitch)関連特徴を含み得る。
日常生活における音のアナログ信号の周波数は一般的に8kHz以下であるため、サンプリング定理によれば、16kHzのサンプリングレートは、サンプリングされたオーディオデータにほとんどの音情報を含むことができる。16kHzは、1秒間に16k個の信号サンプルがサンプリングされることを意味する。いくつかの実施例では、各フレームの音響特徴フレームのフレーム長は10msであり得、サンプリングレートが16kHzであるオーディオ信号に対して、各フレームの音響特徴フレームは160個のサンプリングポイントを含むことができる。
S102において、フレームレートネットワークにより、少なくとも1フレームの音響特徴フレームの各フレームの音響特徴フレームから、各フレームの音響特徴フレームに対応する条件特徴を抽出する。
本出願の実施例では、電子機器は、フレームレートネットワークにより、少なくとも1フレームの音響特徴フレームに対して多層の畳み込み処理を実行し、各フレームの音響特徴フレームの高層音声特徴を、該フレームの音響特徴フレームに対応する条件特徴として抽出することができる。
いくつかの実施例では、電子機器は、S101により、処理対象テキストを100フレームの音響特徴フレームに変換し、さらに、フレームレートネットワークにより100フレームの音響特徴フレームを同時に処理し、対応する100フレームの条件特徴を得ることができる。
いくつかの実施例では、フレームレートネットワークは、順次直列に接続された2つの畳み込み層と、2つの全結合層とを含み得る。例示的に、2つの畳み込み層は、filterサイズが3である2つの畳み込み層(conv3x1)であり得、18次元のBFCC特徴に加えて2次元のピッチ特徴を含む音響特徴フレームに対して、各フレームにおける20次元特徴はまず2つの畳み込み層により、該フレームの前の2フレームと該フレームの後の2フレームの音響特徴フレームに基づいて5フレームの受容野を生成し、5フレームの受容野を残差接続に追加し、次に2つの全結合層により1つの128次元の条件ベクトルfを条件特徴として出力し、該条件特徴は、サンプリングレートネットワークがフォワード残差予測を行うことを支援するために用いられる。
説明すべきこととして、本出願の実施例では、各音響特徴フレームに対して、フレームレートネットワークに対応する条件特徴を一回だけ計算する。即ち、サンプリングレートネットワークが、該音響特徴フレームに対応するダウンサンプリングの後の複数のサンプリングポイントに対応するサンプリング値を再帰的に予測するとき、該フレームに対応する条件特徴は、該フレームに対応する再帰的予測プロセスで変化しないように保持される。
S103において、各フレームの音響特徴フレームにおける現在のフレームに対して周波数帯域の分割と時間領域のダウンサンプリングを行い、現在のフレームに対応するn個のサブフレームを得、nは1より大きい正の整数であり、n個のサブフレームにおける各サブフレームは所定数量のサンプリングポイントを含む。
本出願の実施例では、サンプリング予測ネットワークの予測の繰り返し回数を低減させるために、電子機器は、各フレームの音響特徴フレームにおける現在のフレームに対して周波数帯域の分割を行い、次に分割後の周波数帯域に含まれる時間領域におけるサンプリングポイントに対してダウンサンプリングを行うことで、各分割後の周波数帯域に含まれるサンプリングポイントの数を減らし、それによって現在のフレームに対応するn個のサブフレームを得ることができる。
いくつかの実施例では、周波数領域の分割プロセスは、フィルタグループによって実現することができる。例示的に、nが4に等しい時に、現在のフレームの周波数範囲が0~8kである場合、電子機器は、4つのバンドパスフィルタを含むフィルタグループ、例えばPseudo-QMF(Pseudo Quadratue Mirror Filter Bank)フィルタグループにより、2kの帯域幅を単位として、現在のフレームからそれぞれ0-2k、2-4k、4-6k、6-8k周波数帯域に対応する特徴を分割し、現在のフレームに対応する4つの初期サブフレームを対応的に得ることができる。
いくつかの実施例では、現在のフレームが160個のサンプリングポイントを含む場合、電子機器が現在のフレームを4つの周波数領域における初期サブフレームに分割した後、周波数領域の分割が単に周波数帯域に基づく分割であるため、各初期サブフレームに含まれるサンプリングポイントは依然として160個である。電子機器は、さらにダウンサンプリングフィルタにより各初期サブフレームに対してダウンサンプリングを行い、各初期サブフレームにおけるサンプリングポイントを40個まで減らし、それによって現在のフレームに対応する4つのサブフレームを得る。
本出願の実施例では、電子機器は、他のソフトウェア又はハードウェアの方法によって現在のフレームに対して周波数帯域の分割を行うこともでき、具体的には実際の状況に応じて選択し、本出願の実施例では限定されない。電子機器は、少なくとも1フレームの音響特徴フレームにおける各フレームに対して周波数帯域の分割及び時間領域のダウンサンプリングを行う場合、各フレームを現在のフレームとして、同じ処理プロセスで分割及び時間領域のダウンサンプリングを行うことができる。
S104において、サンプリング予測ネットワークにより、iラウンド目の予測プロセスにおいて、現在のm個の隣接サンプリングポイントのn個のサブフレームにおける対応するサンプリング値を同期的に予測し、m×n個のサブ予測値を得、それによって、所定数量のサンプリングポイントにおける各サンプリングポイントに対応するn個のサブ予測値を得、ここで、iは1以上の正の整数であり、mは2以上であり、且つ、所定数以下の正の整数である。
本出願の実施例では、電子機器は、少なくとも1フレームの音響特徴フレームを得た後、少なくとも1フレームの音響特徴フレームをオーディオ信号の波形表現に変換する必要がある。したがって、1フレームの音響特徴フレームに対して、電子機器は、各サンプリングポイントの周波数領域における対応する線形周波数尺度上のスペクトル幅を、各サンプリングポイントのサンプリング予測値として予測する必要があり、それによって、各サンプリングポイントのサンプリング予測値により、該フレームの音響特徴フレームに対応するオーディオ信号波形を得る。
本出願の実施例では、周波数領域における各サブフレームが時間領域で対応するサンプリングポイントは、同じであり、いずれも同じ時刻の所定数量のサンプリングポイントを含み、電子機器は、1ラウンドの予測プロセスで、周波数領域におけるn個のサブフレームが隣接する時刻のm個のサンプリングポイントにおいてそれぞれに対応するサンプリング値を同時に予測し、m×n個のサブ予測値を得、これにより、1つの音響特徴フレームの予測に必要なループ回数を大幅に短縮することができる。
本出願の実施例では、電子機器は、同じ処理プロセスにより、時間領域における所定数量のサンプリングポイントのうちのm個の隣接するサンプリングポイントを予測することができ、例えば、所定数量のサンプリングポイントは、サンプリングポイントt1、t2、t3、t4…tnを含み、m=2の場合、電子機器は、1ラウンドの予測プロセスで、サンプリングポイントt1及びサンプリングポイントt2を同期的に処理し、1ラウンドの予測プロセスで、サンプリングポイントt1の周波数領域におけるn個のサブフレームに対応するn個のサブ予測値、及びサンプリングポイントt2のn個のサブフレームに対応するn個のサブ予測値を同時に予測し、2n個のサブ予測値とし、次のラウンドの予測プロセスで、サンプリングポイントt3及びt4を現在隣接する2つのサンプリングポイントとして、サンプリングポイントt3及びt4を同じ方式で同期的に処理し、サンプリングポイントt3及びサンプリングポイントt4に対応する2n個のサブ予測値を同時に予測する。電子機器は、サンプリング予測ネットワークにより、所定数量のサンプリングポイントにおける全てのサンプリングポイントのサンプリング値の予測を自己再帰的に遂行し、各サンプリングポイントに対応するn個のサブ予測値を得る。
S105において、各サンプリングポイントに対応するn個のサブ予測値に基づいて、現在のフレームに対応するオーディオ予測信号を得、さらに、少なくとも1フレームの音響特徴フレームの各フレームの音響特徴フレームに対応するオーディオ予測信号に対してオーディオ合成を行い、処理対象テキストに対応する目標オーディオを得る。
本出願の実施例では、各サンプリングポイントに対応するn個のサブ予測値は、n個の周波数帯域における該サンプリングポイントのオーディオ信号予測振幅を表す。電子機器は、各サンプリングポイントに対して、該サンプリングポイントに対応するn個のサブ予測値に対して周波数領域のマージを行い、該サンプリングポイントの全周波数帯域における対応する信号予測値を得ることができる。電子機器はさらに、現在のフレームにおける各サンプリングポイントを所定の時系列における順序に対応させ、各サンプリングポイントに対応する信号予測値に対して時間領域のマージを行い、現在のフレームに対応するオーディオ予測信号を得る。
本出願の実施例では、サンプリング予測ネットワークは、各フレームの音響特徴フレームに対して同じ処理を実行し、少なくとも1つのフレームの音響特徴フレームにより全ての信号波形を予測することができ、それによって目標オーディオを得る。
理解可能なこととして、本出願の実施例では、電子機器は、各フレームの音響特徴信号を周波数領域における複数のサブフレームに分割し、各サブフレームに対してダウンサンプリングを行うことにより、サンプリング予測ネットワークがサンプリング値を予測するときに処理する必要がある全体のサンプリングポイントの数を低減させ、さらに、1ラウンドの予測プロセスで、複数の隣接する時間のサンプリングポイントを同時に予測することにより、複数のサンプリングポイントに対する同期処理を実現し、それによってサンプリング予測ネットワークがオーディオ信号を予測するときに必要なループ回数を大幅に減少させ、オーディオ合成の処理速度が向上し、オーディオ処理の効率が向上する。
本出願のいくつかの実施例では、S103は、以下のように、S1031~S1032を実行することによって実現され得る。
S1031において、現在のフレームに対して周波数領域の分割を行い、n個の初期サブフレームを得る。
S1032において、n個の初期サブフレームに対応する時間領域サンプリングポイントに対してダウンサンプリングを行い、n個のサブフレームを得る。
理解可能なこととして、各サブフレームに対して時間領域のダウンサンプリングを行うことで、各サブフレームにおける冗長情報を取り除き、サンプリング予測ネットワークが再帰的予測を行うときに処理する必要があるループ回数を減少させることができ、それによってオーディオ処理の速度と効率をさらに向上させる。
本出願の実施例では、mが2に等しい場合、サンプリング予測ネットワークは、独立した2n個の全結合層を含むことができ、隣接するm個のサンプリングポイントは、iラウンド目の予測プロセスにおける、現在時刻tに対応するサンプリングポイントtと、次の時刻t+1に対応するサンプリングポイントt+1を含み、ここで、tは1以上の正の整数である。図9に示すように、図8におけるS104は、S1041~S1044によって実現することができ、各ステップを組み合わせて説明する。
S1041において、iラウンド目の予測プロセスにおいて、サンプリング予測ネットワークにより、サンプリングポイントtに対応する少なくとも1つの時刻tの過去サンプリングポイントに基づいて、サンプリングポイントtのn個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、n個の時刻tのサブ粗予測値を得る。
本出願の実施例では、iラウンド目の予測プロセスにおいて、電子機器はまず、サンプリング予測ネットワークにより、n個のサブフレームの現在の時刻のサンプリングポイントtに対応するn個の線形サンプリング値に対して線形符号化予測を行い、n個の時刻tのサブ粗予測値を得る。
本出願の実施例では、iラウンド目の予測プロセスにおいて、サンプリング予測ネットワークは、サンプリングポイントtに対応するn個の時刻tのサブ粗予測値を予測するとき、サンプリングポイントtより前の少なくとも1つの過去サンプリングポイントの信号予測値を参照し、線形結合の方式によってサンプリングポイントの時刻tの信号予測値を求める必要がある。サンプリング予測ネットワークが参照するのに必要である過去サンプリングポイントの最大数は、即ち所定のウィンドウ閾値である。電子機器は、所定の時系列におけるサンプリングポイントtの順序に基づいて、サンプリング予測ネットワークの所定のウィンドウ閾値と組み合わせて、サンプリングポイントtに対して線形符号化予測を行う時の対応する少なくとも1つの過去サンプリングポイントを決定することができる。
いくつかの実施例では、電子機器は、S1041の前に、さらに、以下のように、S201又はS202を実行することによって、サンプリングポイントtに対応する少なくとも1つの時刻tの過去サンプリングポイントを決定することができる。
S201において、tが所定のウィンドウ閾値以下である場合、サンプリングポイントtより前の全てのサンプリングポイントを、少なくとも1つの時刻tの過去サンプリングポイントとし、所定のウィンドウ閾値は、線形符号化予測で処理できるサンプリングポイントの最大数を表す。
いくつかの実施例では、現在のフレームが160個のサンプリングポイントを含む場合、所定のウィンドウ閾値は16であり、即ち、サンプリング予測ネットワーク内の線形予測モジュールが1回予測を行って処理できる最大キューが16個のサンプリングポイントに対応する全てのサブ予測値である場合、サンプリングポイント15について、所定の時系列におけるサンプリングポイント15の順序が所定のウィンドウ閾値を超えていないため、線形予測モジュールは、サンプリングポイント15より前の全てのサンプリングポイント、即ち、サンプリングポイント1からサンプリングポイント14までの範囲内の14個のサンプリングポイントを少なくとも1つの時刻tの過去サンプリングポイントとすることができる。
S202において、tが所定のウィンドウ閾値より大きい場合、サンプリングポイントt-1からサンプリングポイントt-kまでの範囲内に対応するサンプリングポイントを少なくとも1つの時刻tの過去サンプリングポイントとし、ここで、kは所定のウィンドウ閾値である。
本出願の実施例では、サンプリング値予測プロセスのラウンドずつの再帰に伴い、線形予測モジュールの予測ウィンドウは、複数のサンプリングポイントの所定の時系列上で対応して段階的にずらされる。いくつかの実施例では、tが16より大きい場合、例えば線形予測モジュールがサンプリングポイント18に対して線形符号化予測を実行する場合、予測ウィンドウの終点はサンプリングポイント17の位置にずらされ、線形予測モジュールは、サンプリングポイント17からサンプリングポイント2までの範囲内の16個のサンプリングポイントを、少なくとも1つの時刻tの過去サンプリングポイントとする。
本出願の実施例では、電子機器は、線形予測モジュールにより、サンプリングポイントtに対応する少なくとも1つの時刻tの過去サンプリングポイントから、各時刻tの過去サンプリングポイントに対応するn個のサブ予測値を、少なくとも1つの時刻tの過去サブ予測値として取得し、少なくとも1つの時刻tの過去サブ予測値基づいて、サンプリングポイントtのオーディオ信号線形値に対して線形符号化予測を行い、サンプリングポイントtに対応するn個の時刻tのサブ粗予測値を得ることができる。
説明すべきこととして、本出願の実施例では、現在のフレームにおける最初のサンプリングポイントについて、参照可能な最初のサンプリングポイントに対応する過去サンプリングポイントのサブ予測値がないため、電子機器は、所定の線形予測パラメータに基づいて、最初のサンプリングポイント、即ちi=1、t=1のサンプリングポイントtに対して線形符号化予測を行い、最初のサンプリングに対応するn個の時刻tのサブ粗予測値を得ることができる。
S1042において、iが1より大きい場合、i-1ラウンド目の予測プロセスに対応する過去予測結果に基づいて、条件特徴を組み合わせて、2n個の全結合層により、サンプリングポイントtとサンプリングポイントt+1のそれぞれのn個のサブフレームの各サブフレームにおける残差値に対して、フォワード残差予測を同期的に実行し、サンプリングポイントtに対応するn個の時刻tの残差値と、サンプリングポイントt+1に対応するn個の時刻t+1の残差値とを得、過去予測結果は、i-1ラウンド目の予測プロセスにおける、隣接する2つのサンプリングポイントのそれぞれに対応するn個の残差値及びサブ予測値を含む。
本出願の実施例では、iが1より大きい場合、電子機器がiラウンド目の予測プロセスの1つ前のラウンドの予測結果を、iラウンド目の予測プロセスの励起として取得し、サンプリング予測ネットワークによりオーディオ信号の非線形残差値の予測を行うことができることを示す。
本出願の実施例では、過去予測結果は、i-1ラウンド目の予測プロセスにおける、隣接する2つのサンプリングポイントのそれぞれに対応するn個の残差値及びサブ予測値を含む。電子機器は、i-1ラウンド目の過去予測結果に基づいて、条件特徴を組み合わせて、2n個の全結合層により、n個のサブフレームがサンプリングポイントtとサンプリングポイントt+1においてそれぞれに対応する残差値に対してフォワード残差予測を同時に実行し、サンプリングポイントtに対応するn個の時刻tの残差値と、サンプリングポイントt+1に対応するn個の時刻t+1の残差値とを得ることができる。
いくつかの実施例では、図10に示すように、S1042は、S301~S303により実現されてもよく、各ステップを組み合わせて説明する。
S301において、iが1より大きい場合、サンプリングポイントt-1に対応するn個の時刻t-1のサブ粗予測値と、i-1ラウンド目の予測プロセスで得られたn個の時刻t-1の残差値、n個の時刻t-2の残差値、n個の時刻t-1のサブ予測値、及びn個の時刻t-2のサブ予測値を取得する。
本出願の実施例において、iが1より大きい場合、iラウンド目の予測プロセスにおける現在時刻tに対して、i-1ラウンド目の予測プロセスで処理されるサンプリングポイントは、サンプリングポイントt-2及びサンプリングポイントt-1であり、サンプリング予測ネットワークがi-1ラウンド目の予測プロセスで取得できる過去予測結果は、サンプリングポイントt-2に対応するn個の時刻t-2のサブ粗予測値、n個の時刻t-2の残差値及びn個の時刻t-2のサブ予測値、及び、サンプリングポイントt-1に対応するn個の時刻t-1の粗予測値、n個の時刻t-1の残差値及びn個の時刻t-1のサブ予測値を含む。サンプリング予測ネットワークは、i-1ラウンド目の予測プロセスに対応する過去予測結果から、n個の時刻t-1のサブ粗予測値、n個の時刻t-1の残差値、n個の時刻t-2の残差値、n個の時刻t-1のサブ予測値及びn個の時刻t-2のサブ予測値を取得して、上記のデータに基づいてiラウンド目において、サンプリングポイントtとサンプリングポイントt+1におけるサンプリング値に対して予測を行う。
S302において、n個の時刻tのサブ粗予測値、n個の時刻t-1のサブ粗予測値、n個の時刻t-1の残差値、n個の時刻t-2の残差値、n個の時刻t-1のサブ予測値、及びn個の時刻t-2の予測値に対して特徴次元のフィルタリングを行い、次元削減特徴集合を得る。
本出願の実施例では、ネットワーク運算の複雑さを軽減するために、サンプリング予測ネットワークは、処理が必要な特徴データに対して次元削減処理を実行し、予測結果にほとんど影響を与えない次元における特徴データを除去する必要があり、ネットワーク運算の効率を向上させる。
いくつかの実施例では、サンプリング予測ネットワークは、第1ゲート付き回帰型ネットワーク及び第2ゲート付き回帰型ネットワークを含み、S302は、S3021~S3023により実現され得、各ステップを組み合わせて説明する。
S3021において、n個の時刻tのサブ粗予測値、n個の時刻t-1のサブ粗予測値、n個の時刻t-1の残差値、n個の時刻t-2の残差値、n個の時刻t-1のサブ予測値、及びn個の時刻t-2の予測値に対して特徴次元の結合を行い、初期特徴ベクトル集合を得る。
本出願の実施例では、電子機器は、n個の時刻tのサブ粗予測値、n個の時刻t-1のサブ粗予測値、n個の時刻t-1の残差値、n個の時刻t-2の残差値、n個の時刻t-1のサブ予測値、及びn個の時刻t-2の予測値を特徴次元の視点から結合し、残差予測のための情報特徴全次元集合を初期特徴ベクトルとして得る。
S3022において、条件特徴に基づいて、第1ゲート付き回帰型ネットワークにより、初期特徴ベクトル集合に対して特徴次元削減処理を行い、中間特徴ベクトルの集合を得る。
本出願の実施例では、第1ゲート付き回帰型ネットワークは異なる次元の特徴ベクトルに対して重み分析を行い、重み分析の結果に基づいて、残差予測にとって重要かつ有効な次元における特徴データを保持し、無効な次元における特徴データを忘却することができ、それによって初期特徴ベクトル集合に対する次元削減処理を実現し、中間特徴ベクトルの集合を得る。
いくつかの実施例では、ゲート付き回帰型ネットワークは、GRUネットワークであってもよく、LSTMネットワークであってもよく、具体的には実際の状況に応じて選択し、本出願の実施例では限定されない。
S3023において、条件特徴に基づいて、第2ゲート付き回帰型ネットワークにより、中間特徴ベクトルに対して特徴次元削減処理を行い、次元削減特徴集合を得る。
本出願の実施例では、電子機器は、条件特徴に基づいて、第2ゲート付き回帰型ネットワークにより、中間特徴ベクトルに対して次元削減をさらに行うことで、冗長情報を取り除き、後続の予測プロセスの作業量を減少させる。
S303において、2n個の全結合層における各全結合層により、条件特徴を組み合わせて、次元削減特徴集合に基づいて、前記サンプリングポイントtとサンプリングポイントt+1のそれぞれの前記n個のサブフレームの各サブフレームにおける残差値に対して、フォワード残差予測を同期的に実行し、n個の時刻tの残差値と、n個の時刻t+1の残差値とをそれぞれ得る。
いくつかの実施例では、図10に基づいて、図11に示すように、S303は、S3031~S3033のプロセスを実行することによって実現されてもよく、各ステップを組み合わせて説明する。
S3031において、次元削減特徴集合におけるn個の時刻t-2の次元削減残差値とn個の時刻t-2の次元削減予測値を時刻tの励起値として決定し、n個の時刻t-2の次元削減残差値は、n個の時刻t-2の残差値に対して特徴次元のフィルタリングを行うことによって得られるものであり、n個の時刻t-2の次元削減予測値は、n個の時刻t-2の予測値に対して特徴次元のフィルタリングを行うことによって得られるものである。
本出願の実施例では、電子機器は、i-1ラウンド目の予測プロセスで得られたn個の時刻t-2の次元削減残差値とn個の時刻t-2の次元削減予測値をiラウンド目の予測プロセスの声道励起とすることで、サンプリングレートネットワークのフォワード予測能力により、時刻tの残差値を予測することができる。
S3032において、次元削減特徴集合におけるn個の時刻t-1の次元削減残差値とn個の時刻t-1の次元削減サブ予測値を時刻t+1の励起値として決定し、n個の時刻t-1の次元削減残差値は、n個の時刻t-1の残差値に対して特徴次元のフィルタリングを行うことによって得られるものであり、n個の時刻t-1の次元削減予測値は、n個の時刻t-1の予測値に対して特徴次元のフィルタリングを行うことによって得られるものである。
本出願の実施例では、電子機器は、i-1ラウンド目の予測プロセスで得られたn個の時刻t-2の次元削減残差値とn個の時刻t-2の次元削減予測値をiラウンド目の予測プロセスの声道励起とすることで、サンプリングレートネットワークのフォワード予測能力により、時刻tの残差値を予測することができる。
S3033において、2n個の全結合層におけるn個の全結合層において、条件特徴と時刻tの励起値に基づいて、n個の全結合層における各全結合層により、n個の時刻t-1の次元削減サブ粗予測値に基づいて、サンプリングポイントtに対して同時にフォワード残差予測を行い、n個の時刻tの残差値を得るとともに、2n個の全結合層における他のn個の全結合層において、条件特徴と時刻t+1の励起値に基づいて、他のn個の全結合層における各全結合層により、n個の時刻tの次元削減サブ粗予測値に基づいて、サンプリングポイントt+1に対して同時にフォワード残差予測を行い、n個の時刻t+1の残差値を得る。
本出願の実施例では、2n個の全結合層が同時、且つ独立的に動作し、そのうちのn個の全結合層がサンプリングポイントtの関連予測プロセスを処理するために用いられる。いくつかの実施例では、該n個の全結合層における各全結合層は、n個のサブフレーム内の各サブフレームにおけるサンプリングポイントtの残差値の予測処理を対応的に行い、1サブフレームにおける時刻t-1の次元削減サブ粗予測値に基づいて、条件特徴と該サブフレームにおける時刻tの励起値(即ち、該サブフレームのn個の時刻t-2の次元削減残差値とn個の時刻t-2の次元削減予測値内の、対応する時刻t-2の次元削減残差値と時刻t-2の次元削減予測値)を組み合わせて、該サブフレームにおけるサンプリングポイントtに対応する残差値を予測し、それによって、n個の全結合層によりサンプリングポイントtの各サブフレームにおける残差値、即ち、n個の時刻tの残差値を得る。
同時に、上記のプロセスと同様に、2n個の全結合層における他のn個の全結合層は、n個のサブフレーム内の各サブフレームにおけるサンプリングポイントtの残差値の予測処理を対応的に行い、1サブフレームにおける時刻tの次元削減サブ粗予測値に基づいて、条件特徴と該サブフレームにおける時刻t+1の励起値(即ち、該サブフレームのn個の時刻t-1の次元削減残差値とn個の時刻t-1の次元削減予測値内の、対応する時刻t-1の次元削減残差値と時刻t-1の次元削減予測値)を組み合わせて、該サブフレームにおけるサンプリングポイントt+1の残差値を予測し、それによって、他のn個の全結合層によりサンプリングポイントt+1の各サブフレームにおける残差値、即ち、n個の時刻t+1の残差値を得る。
S1043において、サンプリングポイントt+1に対応する少なくとも1つの時刻t+1の過去サンプリングポイントに基づいて、サンプリングポイントt+1のn個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、n個の時刻t+1のサブ粗予測値を得る。
本出願の実施例において、S1043は、線形予測アルゴリズムの予測ウィンドウがサンプリングポイントt+1にずらされるときの線形予測プロセスであり、電子機器は、S1041と同様のプロセスにより、サンプリングポイントt+1に対応する少なくとも1つの時刻t+1の過去サブ予測値を取得し、少なくとも1つの時刻t+1の過去サブ予測値に基づいて、サンプリングポイントt+1に対応する線形サンプリング値に対して線形符号化予測を行い、n個の時刻t+1のサブ粗予測値を得ることができる。
S1044において、n個の時刻tの残差値と、n個の時刻tのサブ粗予測値とに基づいて、サンプリングポイントtに対応するn個の時刻tのサブ予測値を得、n個の時刻t+1の残差値と、n個の時刻t+1のサブ粗予測値とに基づいて、n個の時刻t+1のサブ予測値を得、n個の時刻tのサブ予測値とn個の時刻t+1のサブ予測値とを2n個のサブ予測値とする。
本出願の実施例では、サンプリングポイントtに対して、電子機器は、信号重畳の方式によってn個のサブフレームにおける各サブフレームを組み合わせて、オーディオ信号の線形情報を表すn個の時刻tのサブ粗予測値、及び非線形ランダム雑音情報を表すn個の時刻tの残差値の信号振幅に対して重畳処理を行い、サンプリングポイントtに対応するn個の時刻tのサブ予測値を得ることができる。
同様に、電子機器は、n個の時刻t+1の残差値、及びn個の時刻t+1のサブ粗予測値に対して信号重畳処理を行い、n個の時刻t+1のサブ予測値を得ることができる。電子機器は、さらにn個の時刻tのサブ予測値とn個の時刻t+1のサブ予測値とを2n個のサブ予測値とする。
いくつかの実施例では、図8~11における上述の方法プロセスに基づいて、電子機器内のフレームレートネットワーク及びサンプリング予測ネットワークのネットワークアーキテクチャ図は、図12に示すことができ、ここで、サンプリング予測ネットワークはm×n個のデュアル全結合層を含み、該m×n個のデュアル全結合層は、1ラウンドの予測プロセスにおいて時間領域におけるm個のサンプリングポイントが周波数領域におけるn個のサブフレームの各サブフレームにおいてそれぞれ対応するサンプリング値を予測するために用いられる。n=4、m=2を例として、デュアル全結合層1~デュアル全結合層8は、サンプリング予測ネットワーク110に含まれる2*4個の独立した全結合層である。フレームレートネットワーク111は2つの畳み込み層と2つの全結合層により、現在のフレームから条件特徴fを抽出し、バンドパスダウンサンプリングフィルタグループ112は、現在のフレームに対して周波数領域の分割及び時間領域のダウンサンプリングを行い、b1~b4の4個のサブフレームを得る。各サブフレームは、時間領域で40個のサンプリングポイントを対応的に含む。
図12において、サンプリング予測ネットワーク110は、複数ラウンドの自己再帰の循環予測プロセスにより、時間領域における40個のサンプリングポイントに対するサンプリング値の予測を実現することができる。複数ラウンドの予測プロセスにおけるiラウンド目の予測プロセスにおいて、サンプリング予測ネットワーク110は、LPC係数の計算及び時刻tのLPC予測値の計算により、少なくとも1つの時刻tの過去サンプリングポイントに対応する少なくとも1つの時刻tの過去サブ予測値
に基づいて、現在時刻のサンプリングポイントtに対応するn個の時刻tのサブ粗予測値
を得る。さらに、i-1ラウンド目の予測プロセスにおける対応するn個の時刻t-1のサブ粗予測値
、n個の時刻t-2のサブ予測値
、及びn個の時刻t-2の残差値
、n個の時刻t-1のサブ予測値
、及びn個の時刻t-1の残差値
を取得し、
とともに結合層に入力して特徴次元の結合を行い、初期特徴ベクトル集合を得ることができる。サンプリング予測ネットワーク110は、第1ゲート付き回帰型ネットワーク及び第2ゲート付き回帰型ネットワークにより、条件特徴を組み合わせて、初期特徴ベクトル集合に対して次元削減処理を行い、予測のための次元削減特徴集合を得、さらに次元削減特徴集合をそれぞれ8つのデュアル接続層に入力し、そのうちの4つのデュアル接続層により、サンプリングポイントtに対応するn個の残差値を予測し、サンプリングポイントtの4個のサブフレームにおける対応する4つの残差値
を得、同時に、そのうちの他の4つのデュアル接続層により、サンプリングポイントt+1に対応する4個の残差値を予測し、サンプリングポイントt+1の4個のサブフレームにおける対応する4つの残差値
を得る。サンプリング予測ネットワーク110は、さらに、
及び
に基づいて、サンプリングポイントtの4個のサブフレームにおける対応する4つのサブ予測値
を得、
に基づいて、サンプリングポイントt+1に対応する少なくとも1つの時刻t+1の過去サブ予測値
を得、時刻t+1のLPC予測値の計算により、サンプリングポイントt+1の4個のサブフレームにおける対応する4つのサブ粗予測値
を得ることができる。サンプリング予測ネットワーク110は、
及び
に基づいて、サンプリングポイントt+1の4個のサブフレームにおける対応する4つのサブ予測値
を得、それによって、iラウンド目の予測プロセスを完了し、次のラウンドの予測プロセスにおけるサンプリングポイントtとサンプリングポイントt+1を更新し、時間領域における40個のサンプリングポイントの全ての予測が完了するまで同様の方式で繰り返して予測を行い、全ての予測が完了する時に、各サンプリングポイントに対応する4つのサブ予測値を得る。
上記から分かるように、上述の実施形態では、本出願の実施形態における方法は、サンプリング予測ネットワークのループ回数を現在の160回から160/4(サブフレーム数)/2(隣接サンプリングポイント数)、即ち20回まで減少させることにより、サンプリング予測ネットワークのループ処理回数を大幅に減少させ、続いてオーディオ処理の処理速度と処理効率を向上させることができる。
説明すべきこととして、本出願の実施形態では、mが他の値である場合、サンプリング予測ネットワーク110におけるデュアル全結合層の数を対応してm*n個に設定する必要があり、予測プロセスで、各サンプリングポイントに対するフォワード予測時間スパンがm個であり、即ち、各サンプリングポイントに対して残差値の予測を行う場合、1つ前のラウンドの予測プロセスにおける、該サンプリングポイントに対応する前のm個のサンプリングポイントの過去予測結果を励起値として残差の予測を行う。
本出願のいくつかの実施例では、図8~11に基づいて、S1041の後、S1045~1047も実行することができ、各ステップを組み合わせて説明する。
S1045において、iが1に等しい場合、2n個の全結合層により、条件特徴と所定の励起パラメータを組み合わせて、サンプリングポイントtとサンプリングポイントt+1に対して同時にフォワード残差予測を行い、サンプリングポイントtに対応するn個の時刻tの残差値及びサンプリングポイントt+1に対応するn個の時刻t+1の残差値を得る。
本出願の実施例では、予測プロセスの最初のラウンドについて、即ちi=1の場合、励起値とする前のラウンドの過去予測結果がないため、電子機器は、条件特徴と所定の励起パラメータを組み合わせて2n個の全結合層により、条件特徴と所定の励起パラメータを組み合わせて、サンプリングポイントtとサンプリングポイントt+1に対して同時にフォワード残差予測を行い、サンプリングポイントtに対応するn個の時刻tの残差値及びサンプリングポイントt+1に対応するn個の時刻t+1の残差値を得ることができる。
いくつかの実施例では、所定の励起パラメータは、0であってもよく、又は実際のニーズに応じて他の値に設定されてもよく、具体的には実際の状況に応じて選択してもよく、本出願の実施例では限定されない。
S1046において、サンプリングポイントt+1に対応する少なくとも1つの時刻t+1の過去サンプリングポイントに基づいて、n個のサブフレームのサンプリングポイントt+1に対応する線形サンプリング値に対して線形符号化予測を行い、n個の時刻t+1のサブ粗予測値を得る。
本出願の実施例では、S1046のプロセスはS1043の説明と一致するため、ここでは説明を繰り返さない。
S1047において、n個の時刻tの残差値と、n個の時刻tのサブ粗予測値とに基づいて、サンプリングポイントtに対応するn個の時刻tのサブ予測値を得、n個の時刻t+1の残差値と、n個の時刻t+1のサブ粗予測値とに基づいて、n個の時刻t+1のサブ予測値を得、n個の時刻tのサブ予測値とn個の時刻t+1のサブ予測値とを2n個のサブ予測値とする。
本出願の実施例では、S1047のプロセスはS1044の説明と一致するため、ここでは説明を繰り返さない。
本出願のいくつかの実施例では、図8~図11に基づいて、図13に示すように、S105は、S1051~1053を実行することによって実現され得、各ステップを組み合わせて説明する。
S1051において、各サンプリングポイントに対応するn個のサブ予測値に対して周波数領域の重畳を行い、各サンプリングポイントに対応する信号予測値を得る。
本出願の実施例では、n個のサブ予測値は、1つのサンプリングポイントの各サブフレームの周波数領域における信号振幅を表すため、電子機器は、周波数領域の分割の逆プロセスにより、各サンプリングポイントに対応するn個のサブ予測値に対して周波数領域の重畳を行い、各サンプリングポイントに対応する信号予測値を得ることができる。
S1052において、各サンプリングポイントに対応する信号予測値に対して時間領域信号の合成を行い、現在のフレームに対応するオーディオ予測信号を得、さらに、各フレームの音響特徴に対応するオーディオ信号を得る。
本出願の実施例では、所定数量のサンプリングポイントが時系列に配列されるため、電子機器は、時間領域において各サンプリングポイントに対応する信号予測値に対して信号合成を順に行い、現在のフレームに対応するオーディオ予測信号を得ることができる。電子機器は、ループ処理方式により、各ラウンドのループで少なくとも1フレームの音響特徴フレームの各フレームの音響特徴を現在のフレームとして信号合成を行い、さらに、各フレームの音響特徴フレームに対応するオーディオ信号を得ることができる。
S1053において、各フレームの音響特徴に対応するオーディオ信号に対して信号合成を行い、目標オーディオを得る。
本出願の実施例では、電子機器は、各フレームの音響特徴に対応するオーディオ信号に対して信号合成を行い、目標オーディオを得る。
本出願のいくつかの実施例では、図8~図11及び図13に基づいて、S101は、S1011~1013を実行することによって実現され得、各ステップを組み合わせて説明する。
S1011において、処理対象テキストを取得する。
S1012において、処理対象テキストに対して前処理を行い、変換対象テキスト情報を得る。
本出願の実施例では、テキストの前処理は最終的に生成される目標オーディオの品質に対して非常に重要である。電子機器で取得される処理対象テキストは、通常、スペース及び句読点を含むキャラクタであり、多くの文脈で異なる意味を有し得るため、処理対象テキストが読み違われ可能性があり、又は一部の単語が見落とされたり、繰り返されたりする可能性がある。したがって、電子装置は、処理対象テキストの情報を整えるために、まず処理対象テキストに対して前処理を行う必要がある。
いくつかの実施例では、電子機器が処理対象テキストに対して前処理を行うことは、処理対象テキストの全てのキャラクタを大文字にすること、中間の句読点を全て削除すること、句点や疑問符などで各センテンスを始末するように終止符を統一すること、単語間のスペースを特殊な区切り記号で置き換えることなどを含むことができ、具体的には実際の状況に応じて選択し、本出願の実施例では限定されない。
S1013において、テキストから音声への変換モデルにより、変換対象テキスト情報に対して音響特徴予測を行い、少なくとも1フレームの音響特徴フレームを得る。
本出願の実施例では、テキストから音声への変換モデルは、訓練済みの、テキスト情報を音響特徴に変換できるニューラルネットワークモデルである。電子機器は、テキストから音声への変換モデルを使用して、変換対象テキスト情報における少なくとも1つのテキストシーケンスに基づいて、対応して少なくとも1つの音響特徴フレームに変換し、それによって変換対象テキスト情報に対する音響特徴予測を実現する。
理解可能なこととして、本出願の実施例では、処理対象テキストに対して前処理を行うことによって、目標オーディオのオーディオ品質を向上させることができ、電子機器は、大元のオリジナルな処理対象テキストを入力データとし、本出願の実施例におけるオーディオ処理方法によって処理対象テキストの最終的なデータ処理結果、即ち、目標オーディオを出力することができ、処理対象テキストに対するエンドツーエンドの処理プロセスを実現し、システムモジュール間の中間処理を減少させ、全体的な相性性が増加する。
以下、実際の適用シナリオにおける本出願の実施例の例示的な適用について説明する。
図14を参照すると、本出願の実施例によって提供される電子機器の例示的な適用は、テキストから音声への変換モデル14-1及びマルチバンドマルチタイムドメインボコーダ14-2を含む。ここで、テキストから音声への変換モデル14-1、注意力メカニズムを有するシーケンスツーシーケンスのTacotron構造モデルを用い、CBHG(1-D Convolution Bank Highway network bidirectional GRU)エンコーダ141、注意力モジュール142、デコーダ143及びCBHG平滑化モジュール144を含む。ここで、CBHGエンコーダ141は、オリジナルなテキストにおけるセンテンスをシーケンスとし、センテンスからロバストなシーケンス表現を抽出して、固定長にマッピングできるベクトルに符号化するように構成される。注意力モジュール142は、ロバストなシーケンスで表現する全ての単語に注目し、注意力スコアを計算することによって、エンコーダを支援してより良い符号化されるように構成される。デコーダ143は、エンコーダによって取得された固定長のベクトルを対応するシーケンスの音響特徴にマッピングし、CBHG平滑化モジュール144により、滑らかな音響特徴を出力し、それによって少なくとも1フレームの音響特徴フレームを得るように構成される。少なくとも1フレームの音響特徴フレームがマルチバンドマルチタイムドメインボコーダ14-2に入力され、マルチバンドマルチタイムドメインボコーダにおけるフレームレートネットワーク145により、各フレームの条件特徴fを計算するとともに、各フレームの音響特徴フレームがバンドパスダウンサンプリングフィルタグループ146によって4個のサブフレームに分割され、各サブフレームに対して時間領域のダウンサンプリングを行った後、4個のサブフレームは自己再帰的サンプリング予測ネットワーク147に入力され、サンプリング予測ネットワーク147において、LPC係数の計算(ComputeLPC)及びLPCの現在予測値の計算(Compute prediction)により、現在のラウンドの現在時刻tのサンプリングポイントtの4個のサブフレームにおける線形予測値を予測し、4個の時刻tのサブ粗予測値
を得る。サンプリング予測ネットワーク147は、1ラウンド当たり2つのサンプリングポイントをフォワード予測のストライドとし、1つ前のラウンドで予測された過去予測結果から、サンプリングポイントt-1の4個のサブフレームにおける対応する4つのサブ予測値
、サンプリングポイントt-1の4個のサブフレームにおけるサブ粗予測値
、サンプリングポイントt-1の4個のサブフレームにおける残差値
、サンプリングポイントt-2の4個のサブフレームにおけるサブ予測値
、及びサンプリングポイントの4個のサブフレームにおける残差値
を取得し、条件特徴を組み合わせて、共にサンプリング予測ネットワークにおける結合層(concat層)に入力し、特徴次元の結合を行い、初期特徴ベクトルを得る。初期特徴ベクトルは、さらに、90%スパースな384次元の第1ゲート付き回帰型ネットワーク(GRU-A)及び通常の16次元の第2ゲート付き回帰型ネットワーク(GRU-B)により、特徴次元削減を行い、次元削減特徴集合を得る。サンプリング予測ネットワーク147は、次元削減特徴集合を8つの256次元のデュアル全結合(デュアルFC)層に送り込み、8つの256次元のデュアルFC層により、条件特徴fを組み合わせて、
、
及び
に基づいて、サンプリングポイントtの4個のサブフレームにおけるサブ残差値
を予測するとともに、
、
及び
に基づいて、サンプリングポイントt+1の4個のサブフレームにおけるサブ残差値
を予測する。サンプリング予測ネットワーク147は、
と
を重畳することにより、サンプリングポイントtの4個のサブフレームにおけるサブ予測値
を得ることができ、このようにして、サンプリング予測ネットワーク147は、
に基づいて、予測ウィンドウをずらす方式でサンプリングポイントt+1の4個のサブフレームにおける対応するサブ粗予測値
を予測することができる。サンプリング予測ネットワーク147は、
と
を重畳することにより、サンプリングポイントt+1に対応する4つのサブ予測値
を得る。サンプリング予測ネットワーク147は、
、
、
及び
を次のラウンド、即ち、i+1ラウンド目の予測プロセスの励起値として、次のラウンドの予測プロセスに対応する現在の隣接する2つのサンプリングポイントを更新し、該フレームの音響特徴フレームの各サンプリングポイントにおける4つのサブ予測値を得るまで、ループ処理を行い、マルチバンドマルチタイムドメインボコーダ14-2は、オーディオ合成モジュール148により、各サンプリングポイントにおける4つのサブ予測値に対して周波数領域の結合を行い、各サンプリングポイントにおけるオーディオ信号を得、オーディオ合成モジュール148により、各サンプリングポイントにおけるオーディオ信号に対して時間領域の結合を行い、該フレームに対応するオーディオ信号を得る。オーディオ合成モジュール148は、少なくとも1フレームの音響特徴フレームにおける各フレームに対応するオーディオ信号に対して結合を行い、少なくとも1フレームの音響特徴フレームに対応するオーディオ、即ち、最初に電子機器に入力されたオリジナルなテキストに対応する目標オーディオを得る。
理解可能なこととして、本出願の実施例によって提供される例示的な電子機器の構造では、7つのデュアル全結合層が追加され、GRU-A層の入力行列が大きくなるが、テーブル検索操作によりこの入力オーバーヘッドの影響が無視されることを可能にし、従来のボコーダと比較して、マルチバンドマルチタイムドメインのポリシーにより、サンプリング予測ネットワークの自己再帰に必要な周期数を8倍減少している。したがって、他の計算最適化がない場合、ボコーダの速度は2.75倍向上する。しかも、実験者を募集して主観的品質採点を行った後、本出願の電子機器によって合成された目標オーディオは、主観的品質スコアでわずか3%低下し、それによって基本的にオーディオ処理品質に影響を与えない上で、オーディオ処理の速度と効率を向上させることが実現される。
以下、本出願の実施例によって提供されるソフトウェアモジュールが実施されるオーディオ処理装置655の例示的な構造を引き続き説明し、いくつかの実施例では、図6に示すように、メモリ650に記憶されるオーディオ処理装置655におけるソフトウェアモジュールは、次のものを含むことができる。
テキストから音声への変換モデル6551は、処理対象テキストに対して音声特徴変換を行い、少なくとも1フレームの音響特徴フレームを得るように構成される。
フレームレートネットワーク6552は、フレームレートネットワークにより、前記少なくとも1フレームの音響特徴フレームの各フレームの音響特徴フレームから、前記各フレームの音響特徴フレームに対応する条件特徴を抽出するように構成される。
時間領域・周波数領域処理モジュール6553は、前記各フレームの音響特徴フレームにおける現在のフレームに対して周波数帯域の分割と時間領域のダウンサンプリングを行い、前記現在のフレームに対応するn個のサブフレームを得るように構成され、nは1より大きい正の整数であり、前記n個のサブフレームにおける各サブフレームは所定数量のサンプリングポイントを含む。
サンプリング予測ネットワーク6554は、iラウンド目の予測プロセスにおいて、現在のm個の隣接サンプリングポイントの前記n個のサブフレームにおける対応するサンプリング値を同期的に予測し、m×n個のサブ予測値を得、それによって、前記所定数量のサンプリングポイントにおける各サンプリングポイントに対応するn個のサブ予測値を得るように構成され、ここで、iは1以上の正の整数であり、mは2以上であり、且つ前記所定数以下の正の整数である。
信号合成モジュール6555は、前記各サンプリングポイントに対応するn個のサブ予測値に基づいて、前記現在のフレームに対応するオーディオ予測信号を得、さらに、少なくとも1フレームの音響特徴フレームの各フレームの音響特徴フレームに対応するオーディオ予測信号に対してオーディオ合成を行い、前記処理対象テキストに対応する目標オーディオを得るように構成される。
いくつかの実施例では、mが2に等しい場合、前記サンプリング予測ネットワークは、独立した2n個の全結合層を含み、前記隣接する2個のサンプリングポイントは、前記iラウンド目の予測プロセスにおける、現在時刻tに対応するサンプリングポイントtと、次の時刻t+1に対応するサンプリングポイントt+1を含み、ここで、tは1以上の正の整数である。
前記サンプリング予測ネットワーク6554は、さらに、iラウンド目の予測プロセスにおいて、サンプリング予測ネットワークにより、前記サンプリングポイントtに対応する少なくとも1つの時刻tの過去サンプリングポイントに基づいて、前記サンプリングポイントtの前記n個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、n個の時刻tのサブ粗予測値を得、iが1より大きい場合、i-1ラウンド目の予測プロセスに対応する過去予測結果に基づいて、前記条件特徴を組み合わせて、2n個の全結合層により、前記サンプリングポイントtとサンプリングポイントt+1のそれぞれの前記n個のサブフレームの各サブフレームにおける残差値に対して、フォワード残差予測を同期的に実行し、前記サンプリングポイントtに対応するn個の時刻tの残差値と、前記サンプリングポイントt+1に対応するn個の時刻t+1の残差値とを得、前記過去予測結果は、i-1ラウンド目の予測プロセスおける、隣接する2つのサンプリングポイントのそれぞれに対応するn個の残差値及びサブ予測値を含み、前記サンプリングポイントt+1に対応する少なくとも1つの時刻t+1の過去サンプリングポイントに基づいて、前記サンプリングポイントt+1の前記n個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、n個の時刻t+1のサブ粗予測値を得、前記n個の時刻tの残差値と、前記n個の時刻tのサブ粗予測値とに基づいて、前記サンプリングポイントtに対応するn個の時刻tのサブ予測値を得、前記n個の時刻t+1の残差値と、前記n個の時刻t+1のサブ粗予測値とに基づいて、n個の時刻t+1のサブ予測値を得、前記n個の時刻tのサブ予測値と前記n個の時刻t+1のサブ予測値とを2n個のサブ予測値とするように構成される。
いくつかの実施例では、前記サンプリング予測ネットワーク6554は、さらに、サンプリングポイントt-1に対応するn個の時刻t-1のサブ粗予測値と、前記i-1ラウンド目の予測プロセスで得られたn個の時刻t-1の残差値、n個の時刻t-2の残差値、n個の時刻t-1のサブ予測値、及びn個の時刻t-2のサブ予測値を取得し、前記n個の時刻tのサブ粗予測値、前記n個の時刻t-1のサブ粗予測値、前記n個の時刻t-1の残差値、前記n個の時刻t-2の残差値、前記n個の時刻t-1のサブ予測値、及び前記n個の時刻t-2の予測値に対して、特徴次元のフィルタリングを行い、次元削減特徴集合を得、前記2n個の全結合層における各全結合層により、前記条件特徴を組み合わせて、前記次元削減特徴集合に基づいて、前記サンプリングポイントtとサンプリングポイントt+1のそれぞれの前記n個のサブフレームの各サブフレームにおける残差値に対して、フォワード残差予測を同期的に実行し、前記n個の時刻tの残差値と、前記n個の時刻t+1の残差値とをそれぞれ得るように構成される。
いくつかの実施例では、前記サンプリング予測ネットワーク6554は、さらに、前記次元削減特徴集合におけるn個の時刻t-2の次元削減残差値とn個の時刻t-2の次元削減予測値を時刻tの励起値として決定し、前記n個の時刻t-2の次元削減残差値は、前記n個の時刻t-2の残差値に対して特徴次元のフィルタリングを行うことによって得られるものであり、前記n個の時刻t-2の次元削減予測値は、前記n個の時刻t-2の予測値に対して特徴次元のフィルタリングを行うことによって得られ、前記次元削減特徴集合におけるn個の時刻t-1の次元削減残差値と前記n個の時刻t-1の次元削減サブ予測値を時刻t+1の励起値として決定し、前記n個の時刻t-1の次元削減残差値は、前記n個の時刻t-1の残差値に対して特徴次元のフィルタリングを行うことによって得られるものであり、前記n個の時刻t-1の次元削減予測値は、前記n個の時刻t-1の予測値に対して特徴次元のフィルタリングを行うことによって得られ、前記2n個の全結合層におけるn個の全結合層において、前記条件特徴と前記時刻tの励起値に基づいて、前記n個の全結合層における各全結合層により、前記n個の時刻t-1の次元削減サブ粗予測値に基づいて、前記サンプリングポイントtに対してフォワード残差予測を同期的に行い、前記n個の時刻tの残差値を得、前記2n個の全結合層における他のn個の全結合層において、前記条件特徴と前記時刻t+1の励起値に基づいて、前記他のn個の全結合層における各全結合層により、前記n個の時刻tの次元削減サブ粗予測値に基づいて、前記サンプリングポイントt+1に対してフォワード残差予測を同期的に行い、前記n個の時刻t+1の残差値を得るように構成される。
いくつかの実施例では、前記サンプリング予測ネットワーク6554は、第1ゲート付き回帰型ネットワーク及び第2ゲート付き回帰型ネットワークを含み、前記サンプリング予測ネットワーク6554は、さらに、前記n個の時刻tのサブ粗予測値、前記n個の時刻t-1のサブ粗予測値、前記n個の時刻t-1の残差値、前記n個の時刻t-2の残差値、前記n個の時刻t-1のサブ予測値、及び前記n個の時刻t-2の予測値に対して特徴次元の結合を行い、初期特徴ベクトル集合を得、前記条件特徴に基づいて、前記第1ゲート付き回帰型ネットワークにより、前記初期特徴ベクトル集合に対して特徴次元削減処理を行い、中間特徴ベクトルの集合を得、前記条件特徴に基づいて、前記第2ゲート付き回帰型ネットワークにより、前記中間特徴ベクトルに対して特徴次元削減処理を行い、前記次元削減特徴集合を得るように構成される。
いくつかの実施例では、前記時間領域・周波数領域処理モジュール6553は、さらに、前記現在のフレームに対して周波数領域の分割を行い、n個の初期サブフレームを得、前記n個の初期サブフレームに対応する時間領域サンプリングポイントに対してダウンサンプリングを行い、前記n個のサブフレームを得るように構成される。
いくつかの実施例では、前記サンプリング予測ネットワーク6554は、さらに、iラウンド目の予測プロセスにおいて、サンプリング予測ネットワークにより、前記サンプリングポイントtに対応する少なくとも1つの時刻tの過去サンプリングポイントに基づいて、前記サンプリングポイントtの前記n個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、n個の時刻tのサブ粗予測値を得る前に、tが所定のウィンドウ閾値以下である場合、前記サンプリングポイントtより前の全てのサンプリングポイントを、前記少なくとも1つの時刻tの過去サンプリングポイントとし、前記所定のウィンドウ閾値は、線形符号化予測で処理できるサンプリングポイントの最大数を表し、又は、tが前記所定のウィンドウ閾値より大きい場合、前記サンプリングポイントt-1からサンプリングポイントt-kまでの範囲内に対応するサンプリングポイントを前記少なくとも1つの時刻tの過去サンプリングポイントとするように構成され、ここで、kは所定のウィンドウ閾値である。
いくつかの実施例では、前記サンプリング予測ネットワーク6554は、さらに、前記iラウンド目の予測プロセスにおいて、サンプリング予測ネットワークにより、前記サンプリングポイントtに対応する少なくとも1つの時刻tの過去サンプリングポイントに基づいて、前記サンプリングポイントtの前記n個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、n個の時刻tのサブ粗予測値を得た後で、iが1に等しい場合、前記2n個の全結合層により、前記条件特徴と所定の励起パラメータを組み合わせて、前記サンプリングポイントtと前記サンプリングポイントt+1のそれぞれの前記n個のサブフレームにおける残差値に対して、同期的にフォワード残差予測を行い、前記サンプリングポイントtに対応するn個の時刻tの残差値及び前記サンプリングポイントt+1に対応するn個の時刻t+1の残差値を得、前記サンプリングポイントt+1に対応する少なくとも1つの時刻t+1の過去サンプリングポイントに基づいて、前記サンプリングポイントt+1の前記n個のサブフレームにおける線形サンプリング値に対して線形符号化予測を行い、n個の時刻t+1のサブ粗予測値を得、前記n個の時刻tの残差値と、前記n個の時刻tのサブ粗予測値とに基づいて、前記サンプリングポイントtに対応するn個の時刻tのサブ予測値を得、前記n個の時刻t+1の残差値と、前記n個の時刻t+1のサブ粗予測値とに基づいて、n個の時刻t+1のサブ予測値を得、前記n個の時刻tのサブ予測値と前記n個の時刻t+1のサブ予測値とを前記2n個のサブ予測値とするように構成される。
いくつかの実施例では、前記信号合成モジュール6555は、さらに、前記各サンプリングポイントに対応するn個のサブ予測値に対して周波数領域の重畳を行い、前記各サンプリングポイントに対応する信号予測値を得、前記各サンプリングポイントに対応する信号予測値に対して時間領域信号の合成を行い、前記現在のフレームに対応するオーディオ予測信号を得、さらに、前記各フレームの音響特徴に対応するオーディオ信号を得、前記各フレームの音響特徴に対応するオーディオ信号に対して信号合成を行い、前記目標オーディオを得るように構成される。
いくつかの実施例では、前記テキストから音声への変換モデル6551は、さらに、処理対象テキストを取得し、前記処理対象テキストに対して前処理を行い、変換対象テキスト情報を得、テキストから音声への変換モデルにより、前記変換対象テキスト情報に対して音響特徴予測を行い、前記少なくとも1フレームの音響特徴フレームを得るように構成される。
説明すべきこととして、上記の装置の実施例の説明は、上記の方法の実施例の説明と同様であり、方法の実施例と同様の有益な効果を有する。本出願の装置の実施例で開示されない技術的詳細については、本出願の方法の実施例の説明を参照して理解される。
本出願の実施例は、コンピュータープログラム製品又はコンピュータープログラムを提供し、該コンピュータープログラム製品又はコンピュータープログラムはコンピューター命令を含み、該コンピューター命令はコンピューター可読記憶媒体に記憶される。コンピューター機器のプロセッサは、コンピューター可読記憶媒体から該コンピューター命令を読み取り、プロセッサは該コンピューター命令を実行して、該コンピューター機器に、本出願の実施例の上述のオーディオ処理方法を実行させる。
本出願の実施例は、実行可能な命令を記憶する記憶媒体、即ちコンピューター可読記憶媒体を提供し、実行可能な命令が記憶され、実行可能な命令がプロセッサによって実行される場合、プロセッサに、本出願の実施例で提供される方法、例えば、図8~図11及び図13に示す方法を実行させる。
いくつかの実施例では、コンピューター可読記憶媒体は、FRAM(登録商標)、ROM、PROM、EPROM、EEPROM、フラッシュメモリ、磁気表面メモリ、光ディスク、又はCD-ROMなどのメモリであってもよく、上述のメモリの1つ又は任意の組み合わせを含む各種の機器であってもよい。
いくつかの実施例では、実行可能な命令は、プログラム、ソフトウェア、ソフトウェアモジュール、スクリプト又はコードの形式を採用することができ、任意の形式のプログラミング言語(コンパイル言語又はインタープリター言語、又は宣言型言語又は手続き型言語を含む)で書かれ、任意の形式で構成することができ、独立したプログラムとして構成されるか、又はモジュール、コンポーネント、サブルーチン、又は計算環境で使用するのに適した他のユニットとして構成されることを含む。
例として、実行可能な命令は、ファイルシステム内のファイルに対応することができるが、これに限らず、他のプログラム又はデータを保存するファイルの一部に記憶されてもよく、例えば、ハイパーテキストマークアップ言語(HTML:Hyper Text Markup Language)ドキュメントの1つ又は複数のスクリプトに記憶され、係るプログラムに専用に構成された単一のファイルに記憶されるか、又は、複数の共同ファイル(例えば、1つ又は複数のモジュール、サブルーチン、又はコード部分を記憶するファイル)に記憶される。
例として、実行可能な命令は、1つの計算機器上で実行されるか、又は1つのサイトに位置する複数の計算機器上で実行されるか、又は、複数のサイトに分散され、通信ネットワークによって相互接続された複数の計算機器上で実行されるように構成され得る。
上記に記載されるように、本出願の実施例により処理対象テキストに対して前処理を行うことによって、目標オーディオのオーディオ品質を向上させることができ、大元のオリジナルな処理対象テキストを入力データとし、本出願の実施例におけるオーディオ処理方法によって処理対象テキストの最終的なデータ処理結果、即ち、目標オーディオを出力することができ、処理対象テキストに対するエンドツーエンドの処理プロセスを実現し、システムモジュール間の中間処理を減少させ、全体的な相性性が増加する。そして、本出願の実施例では、各フレームの音響特徴信号を周波数領域における複数のサブフレームに分割し、各サブフレームに対してダウンサンプリングを行うことにより、サンプリング予測ネットワークがサンプリング値を予測するときに処理する必要がある全体のサンプリングポイントの数を低減させ、さらに、1ラウンドの予測プロセスで、複数の隣接する時間のサンプリングポイントを同時に予測することにより、複数のサンプリングポイントに対する同期処理を実現し、それによってサンプリング予測ネットワークがオーディオ信号を予測するときに必要なループ回数を大幅に減少させ、オーディオ合成の処理速度が向上し、オーディオ処理の効率が向上する。
上記の説明は、本出願の実施例だけであり、本出願の保護範囲を限定するように構成されていない。本出願の精神及び範囲内で行われるいかなる修正、同等の置換及び改良は、いずれも本出願の保護範囲に含まれる。