JP4382808B2

JP4382808B2 - 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム

Info

Publication number: JP4382808B2
Application number: JP2006505682A
Authority: JP
Inventors: アン−ナジャリ，タウフィ; ロゼック，オリビエ
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2003-03-27
Filing date: 2004-03-02
Publication date: 2009-12-16
Anticipated expiration: 2024-03-02
Also published as: EP1606792A1; CN100583235C; US7643988B2; FR2853125A1; US20060178874A1; DE602004013747D1; EP1606792B1; ATE395684T1; CN1795491A; JP2006521576A; WO2004088633A1

Description

本発明は、音声サンプル内に含まれている基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法およびシステムに関する。

生成しようとする音の特性に応じて、発話、特に、発声音の生成には、基本周期（この逆数を基本周波数又はピッチと呼ぶ）を有する発話信号内の周期的構造の存在を通じて表れる声帯の振動が伴っている。

音声変換などの特定のアプリケーションにおいては、聴覚レンダリングが極めて大きな重要性を有しており、満足できる品質を得るには、基本周波数を含む韻律にリンクしたパラメータを効果的に制御することが必要である。

このため、音声サンプル内に含まれている基本周波数情報を分析する方法として、現在、多数のものが存在している。

これらの分析法によれば、基本周波数特性を判定しモデル化することが可能である。例えば、音声サンプルのデータベース全体にわたって基本周波数のスロープや振幅スケールを判定可能な方法が存在している。

このようなパラメータを知ることにより、例えば、ターゲット発話者の基本周波数の平均値および変動に対して全体的に留意した方式で、ソース発話者とターゲット発話者と間において基本周波数をスケーリングすることにより、発話信号を変更可能である。

しかしながら、これらの分析法によって得られるのは、パラメータを定義可能な基本周波数の表現ではなく、概略的な表現のみであり、従って、これらは、特に、発話スタイルが異なる発話者に関しては、適切なものではない。

本発明の目的は、音声サンプルの基本周波数情報を分析する方法を定義し、パラメータを定義可能な基本周波数の表現を定義できるようにすることにより、この問題を克服することにある。

この目的を実現するべく、本発明の主題は、音声サンプル内に含まれている基本周波数情報を分析する分析方法であり、この分析方法は、
それぞれのサンプルフレームごとに、スペクトル関連情報および基本周波数関連情報を取得するべくフレームとして１つにグループ化された音声サンプルを分析するステップと、
すべてのサンプルのスペクトルおよび基本周波数の共通特性を表すモデルを判定するステップと、
このモデルおよび音声サンプルに基づいて、スペクトル関連情報のみに従って基本周波数予測関数を判定するステップと、
を少なくとも備えることを特徴としている。

この分析方法の更なる特徴によれば、
前述の音声サンプルを分析するステップは、スペクトル関連情報をケプストラム係数の形態で供給するべく適合されており、
この分析ステップは、高調波信号と雑音信号との合計に従って音声サンプルをモデル化するサブステップと、
音声サンプルの周波数パラメータおよび少なくとも基本周波数を推定するサブステップと、
それぞれのサンプルフレームの基本周波数を同期分析するサブステップと、
各サンプルフレームのスペクトルパラメータを推定するサブステップと、
を備え、
かつ、この分析方法は、分析対象のサンプルの基本周波数の平均値との関係において、それぞれのサンプルフレームの基本周波数を正規化する段階をさらに備え、
モデルを判定するステップは、ガウス密度の混合によるモデルの判定に対応しており、
このモデルを判定するステップは、
ガウス密度の混合に対応するモデルを判定するサブステップと、
サンプルおよびモデルのスペクトル情報とサンプルおよびモデルの基本周波数情報との間における最大類似性の推定に基づいて、ガウス密度の混合のパラメータを推定するサブステップと、
を備え、
予測関数を判定するステップは、サンプルのスペクトル情報を知ることによって基本周波数を実現する推定値に基づいて実現されており、
基本周波数予測関数を判定するステップは、モデルに基づいてスペクトル情報が得られる事後確率に基づいて、スペクトル情報を知ることによって基本周波数を実現する条件付きの期待値を判定するサブステップを備えており、この条件付きの期待値が推定値を形成している。

また、本発明は、ソース発話者によって発音された音声信号を、特性がターゲット発話者の特性に類似している変換済みの音声信号に変換する方法にも関し、この方法は、
ソース発話者およびターゲット発話者の音声サンプルに基づいて実現され、ソース発話者のスペクトル特性をターゲット発話者のスペクトル特性に変換する関数を判定するステップと、
この変換関数を使用して、変換対象のソース発話者の音声信号のスペクトル情報を変換するステップと、
を少なくとも備える方法であって、
ターゲット発話者のスペクトル関連情報にのみ従って基本周波数予測関数を判定するステップ（この予測関数は、上記で定義した分析方法を使用して得られるものである）と、
この基本周波数予測関数をソース発話者の音声信号の変換済みのスペクトル情報に適用することにより、変換対象の音声信号の基本周波数を予測するステップと、
をさらに備えることを特徴とする。

この変換方法のその他の特性によれば、
変換関数を判定するステップは、ソーススペクトル特性を知ることによってターゲットスペクトル特性を実現する推定値に基づいて実現されており、
この変換関数を判定するステップは、
高調波信号と雑音信号の合計モデルに従ってソースおよびターゲット音声サンプルをモデル化するサブステップと、
ソースおよびターゲットサンプルをアライメントするサブステップと、
ソーススペクトル特性の実現を知ることによってターゲットスペクトル特性を実現する条件付き期待値の算出値に基づいて変換関数を判定するサブステップ（この条件付き期待値が推定値を形成している）と、を備え、
この変換関数は、スペクトルエンベロープ変換関数であり、
この方法は、スペクトル関連情報および基本周波数関連情報を供給するべく適合された変換対象の音声信号を分析するステップをさらに備え、
この方法は、変換済みのスペクトル情報と予測基本周波数情報に少なくとも基づいて変換済みの音声信号を形成可能な合成段階をさらに備える。

また、本発明は、ソース発話者によって発音された音声信号を、特性がターゲット発話者のものに類似している変換済みの音声信号に変換するシステムにも関係し、このシステムは、
ソース発話者およびターゲット発話者の音声サンプルを入力として受信し、ソース発話者のスペクトル特性をターゲット発話者のスペクトル特性に変換する関数を判定する手段と、
この手段によって供給される変換関数を適用することにより、変換対象であるソース発話者の音声信号のスペクトル情報を変換する手段と、
を少なくとも備えるシステムであって、
ターゲット発話者の音声サンプルに基づいた分析方法を実現するべく適合され、ターゲット発話者のスペクトル関連情報にのみ従って基本周波数予測関数を判定する手段と、
この予測関数を判定する手段によって判定される予測関数を、スペクトル情報を変換する手段によって供給される変換済みのスペクトル情報に適用することにより、変換対象の音声信号の基本周波数を予測する手段と、
をさらに備えることを特徴とする。

このシステムのその他の特徴によれば、
このシステムは、変換対象の音声信号のスペクトル関連情報および基本周波数関連情報を出力として供給するべく適合された変換対象の音声信号を分析する手段と、
前述の手段によって供給される変換済みのスペクトル情報と前述の手段によって供給される予測基本周波数情報とに少なくとも基づいて変換済みの音声信号を形成可能な合成手段と、を更に備え、
変換関数を判定する手段は、スペクトルエンベロープ変換関数を供給するべく適合されており、これは、上記で定義した音声変換方法を実現するべく適合されている。

純粋に一例として提供されている以下の説明と添付の図面を参照することにより、本発明についてさらに容易に理解することができよう。

図１に示されている本発明による方法は、一連の自然発話を含む音声サンプルのデータベースに基づいて実現される。

この方法は、それぞれのサンプルフレームごとに、スペクトル関連情報（特に、スペクトルエンベロープ関連情報）および基本周波数関連情報を取得するべく、フレームとして１つにグループ化することによってサンプルを分析するステップ２から始まっている。

なお、この説明対象の実施例においては、この分析ステップ２は、一般に「ＨＮＭ（ＨａｒｍｏｎｉｃｐｌｕｓＮｏｉｓｅＭｏｄｅｌ）」と呼ばれるモデルによる高調波信号と雑音信号との合計の形態の音響信号のモデルを使用することに基づいている。

また、この説明対象の実施例は、離散ケプストラムによるスペクトルエンベロープの表現にも基づいている。

実際に、ケプストラム表現によれば、発話信号内において、結果的に得られる声帯の振動に対応しかつ基本周波数によって特徴付けられているソース成分から、声道に関連する成分を分離可能である。

従って、この分析ステップ２は、それぞれの音声信号フレームを、振幅Ａ_l及び位相φ_lのＬ個の高調波正弦波の合計から構成された信号の周期的成分を表す高調波部分と摩擦雑音および声門励起変動を表す雑音部分とにモデル化するサブステップ４を備える。

従って、これは、次のように定式化可能である。

従って、項ｈ（ｎ）は、信号ｓ（ｎ）の高調波近似を表している。

次いで、このステップ２は、例えば、自己相関法により、それぞれのフレームごとに、周波数パラメータ（特に、基本周波数）を推定するサブステップ５を有している。

従来同様に、このＨＮＭ分析により、最大発声周波数が得られる。なお、変形として、この周波数を任意に定義することも可能であり、あるいは、その他の既知の手段によって推定することも可能である。

このサブステップ５の後には、それぞれのフレームの基本周波数を同期分析し、高調波部分のパラメータと信号雑音のパラメータを推定可能なサブステップ６が続いている。

この説明対象の実施例においては、この同期分析は、完全な信号と（この説明対象の実施例においては推定雑音信号に対応している）その高調波部分との間における加重最小二乗基準の極小化による高調波パラメータの判定に対応しており、Ｅと表記されるこの基準は、次式のとおりである。

この式において、ｗ（ｎ）は、分析ウィンドウであり、Ｔ_iは、現在のフレームの基本周期である。

従って、この分析ウィンドウは、基本周期マーカーを中心としており、その持続時間は、この周期の２倍になっている。

そして、この分析ステップ２は、可能な限り忠実に人間の耳の特性を再現するべく、例えば、正規化離散ケプストラム法（ｒｅｇｕｌａｒｉｚｅｄｄｉｓｃｒｅｔｅｃｅｐｓｔｒｕｍｍｅｔｈｏｄ）およびＢａｒｋ尺度変換（Ｂａｒｋ−ｓｃａｌｅｔｒａｎｓｆｏｒｍａｔｉｏｎ）を使用して、信号のスペクトルエンベロープの成分パラメータを推定するサブステップ７を最後に備えている。

従って、この分析ステップ２は、発話信号サンプルの次数ｎのそれぞれのフレームごとに、基本周波数情報を有するスカラー（これは、ｘ_nと表記される）と、一連のケプストラム係数の形態のスペクトル情報を有するベクトル（これは、ｙ_nと表記される）とを供給する。

有利なことに、この分析ステップ２の後には、それぞれの音声サンプルフレーム内の基本周波数情報の値を、次の式に従って正規化された基本周波数値によって置換するべく、平均基本周波数との関係において、それぞれのフレームの基本周波数の値を正規化するステップ１０が続いている。

尚、この式において、Ｆ_o ^moyは、分析対象のデータベース全体における基本周波数値の平均値に対応している。

この正規化により、基本周波数スカラーの変動スケールを変更して、ケプストラム係数の変動スケールと一致させることが可能になる。

そして、この正規化段階１０の後には、分析対象のすべてのサンプルの共通的なケプストラムおよび基本周波数特性を表すモデルを判定するステップ２０が続いている。

この説明対象の実施例には、一般に「ＧＭＭ」と呼ばれるガウス密度混合モデルによる基本周波数および離散ケプストラムの確率モデルが伴っており、このＧＭＭのパラメータを、正規化された基本周波数および離散ケプストラムの同時密度に基づいて推定している。

従来同様に、ガウス密度混合モデルＧＭＭに従って、ｐ（ｚ）と一般的に表記されるランダム変数の確率密度は、数学的に次のように表記される。

この式において、Ｎ（ｚ：μ_i；Σ_i）は、平均値μ_iの正規則（Ｎｏｒｍａｌｌａｗ）と共分散Σ_iの確率密度であり、係数α_iは、混合の係数である。

従って、係数α_iは、ランダム変数ｚが混合のｉ次ガウスによって生成される事前確率に対応している。

さらに詳しくは、このモデルを判定するステップ２０は、ｙとして表記されるケプストラムと、ｘとして表記される正規化された基本周波数の同時密度を次式のようにモデル化するサブステップ２２を備える。

これらの式において、ｘ＝［ｘ₁，ｘ₂，．．．，ｘ_N］は、Ｎ個の音声サンプルフレームの正規化された基本周波数情報を含む一連のスカラーに対応しており、ｙ＝［ｙ₁，ｙ₂，．．．，ｙ_n］は、対応する一連のケプストラム係数ベクトルに対応している。

次いで、このステップ２０は、密度ｐ（ｚ）のＧＭＭパラメータ（α，μ，Σ）を推定するサブステップ２４を備える。この推定は、例えば、発話サンプルデータとガウス混合モデルとの間の最大類似性の推定値を取得可能な反復的方法に対応した「ＥＭ（ＥｘｐｅｃｔａｔｉｏｎＭａｘｉｍｉｚａｔｉｏｎ）」と呼ばれるタイプの従来のアルゴリズムを使用して実現可能である。

ＧＭＭモデルの初期パラメータの判定は、従来のベクトル量子化法を使用して実行することができる。

従って、このモデル判定ステップ２０は、ケプストラム係数によって表される共通スペクトル特性を表すガウス密度の混合のパラメータと分析済の音声サンプルの基本周波数を供給する。

次いで、この方法は、モデルおよび音声サンプルに基づいて、信号ケプストラムによって供給されるスペクトル情報のみに従って基本周波数予測関数を判定するステップ３０を有している。

この予測関数は、音声サンプルのケプストラムが与えられた場合に、基本周波数を実現する推定値に基づいて判定される。これは、この説明対象の実施例においては、条件付き期待値によって形成されている。

このために、このステップ３０は、ケプストラムによって供給されるスペクトル関連情報を知ることによって基本周波数の条件付きの期待値を判定するサブステップ３２を有している。この条件付き期待値は、Ｆ（ｙ）と表記され、次の式に基づいて判定される。

これらの式において、ｐ_i（ｙ）は、共分散行列Σ_iと正規則（ｎｏｒｍａｌｌａｗ）μ_iによってステップ２０において定義されたモデルのガウス混合のｉ次成分によってケプストラムベクトルｙが生成される事後確率に対応している。

従って、この条件付き期待値の判定により、ケプストラム情報から基本周波数予測関数を取得可能である。

なお、変形として、このステップ３０において実現される推定値は、「ＭＡＰ」と呼ばれる事後最大基準であってもよく、これは、ソースベクトルを最も良好に表すモデルのみの期待値計算の実現に対応している。

従って、本発明による分析方法により、（この説明対象の実施例においては、ケプストラムによって供給される）スペクトル情報のみに従い、モデルと音声サンプルとに基づいて基本周波数予測関数を取得可能であることが明らかである。

次いで、このタイプの予測関数により、この信号のスペクトル情報のみに基づいて、発話信号の基本周波数の値を判定可能であり、これにより、特に、分析済の音声サンプル内に存在しない音の基本周波数を適切に予測することができる。

次に、図２を参照し、音声変換の文脈において、本発明によるこの分析方法の使用法について説明することとする。

音声変換は、生成された信号が、「ターゲット発話者」と呼ばれる別の発話者が発音したものとして聞こえるように、「ソース発話者」と呼ばれる基準発話者の音声信号を変換するステップを有している。

そして、この方法は、ソース発話者およびターゲット発話者によって発音された音声サンプルのデータベースを使用して実現される。

従来同様に、このタイプの方法は、ソース発話者の音声サンプルのスペクトル特性がターゲット発話者のものに類似するようにするソース発話者の音声サンプルのスペクトル特性の変換関数を判定するステップ５０を備える。

この説明対象の実施例においては、このステップ５０は、ソース発話者およびターゲット発話者の音声信号のスペクトルエンベロープの特性間の関係を判定可能なＨＮＭ分析法に基づいている。

このためには、同一の音声シーケンスを音響的に実現するソースおよびターゲットの音声録音が必要である。

このステップ５０は、高調波および雑音信号のＨＮＭ合計モデルに従って音声サンプルをモデル化するサブステップ５２を有している。

そして、このサブステップ５２の後には、例えば、「ＤＴＷ（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ）」と呼ばれる従来のアライメントアルゴリズムを使用してソースおよびターゲット信号をアライメント可能なサブステップ５４が続いている。

次いで、このステップ５０は、ソース発話者およびターゲット発話者の音声サンプルスペクトルの共通的特性を表すＧＭＭモデルなどのモデルを判定するサブステップ５６を備える。

なお、この説明対象の実施例においては、「ｓ」と表記されているソーススペクトルパラメータを知ることにによって、「ｔ」と表記されているターゲットスペクトルパラメータを実現する推定値に対応したスペクトル変換関数を定義できるように、ソースおよびターゲットの６４個の成分とケプストラムパラメータを含む単一のベクトルとを有するＧＭＭモデルを使用している。

この説明対象の実施例においては、Ｆ（ｓ）と表記されるこの変換関数は、次式によって得られる条件付き期待値の形態で表記される。

この関数の正確な判定は、ＥＭアルゴリズムによって得られるソースおよびターゲットのパラメータ間における類似性の極大化によって実行可能である。

なお、変形として、推定値は、事後最大基準から形成することも可能である。

従って、このように定義された関数により、ターゲット発話者のスペクトルエンベロープに類似するようにソース発話者からの発話信号のスペクトルエンベロープを変更することができる。

この極大化の前に、ソースおよびターゲットの共通スペクトル特性を表すＧＭＭモデルのパラメータを、例えば、ベクトル量子化アルゴリズムを使用して初期化する。

そして、これと並行し、本発明による分析方法においては、ターゲット発話者の音声サンプルのみを分析するステップ６０を実行している。

図１を参照して説明したように、本発明によるこの分析ステップ６０により、スペクトル情報のみに基づいて、ターゲット発話者の基本周波数予測関数を取得することが可能である。

次いで、この変換方法は、ソース発話者が発音した変換対象の音声信号を分析するステップ６５を備えており、この変換対象の信号は、ステップ５０およびステップ６０において使用された音声信号とは異なっている。

この分析ステップ６５は、例えば、ケプストラム係数、基本周波数情報、ならびに最大周波数および位相発声情報の形態のスペクトル情報を提供可能なＨＮＭモデルによるブレークダウンを使用して実行される。

そして、このステップ６５の後には、ステップ５０において判定された変換関数を、ステップ６５において定義されたケプストラム係数に対して適用することにより、変換対象の音声信号のスペクトル特性を変換するステップ７０が続いている。

このステップ７０においては、特に、変換対象の音声信号のスペクトルエンベロープを変更する。

従って、このステップ７０の終了時点においては、変換対象であるソース発話者の信号サンプルのそれぞれのフレームが、特性がターゲット発話者のサンプルのスペクトル特性に類似している変換済みのスペクトル情報に関連付けられている。

次いで、この変換方法は、段階６０において本発明による方法を使用して判定された予測関数を、変換対象のソース発話者の音声信号と関連付けられている変換済みのスペクトル情報にのみ適用することにより、ソース発話者の音声サンプルの基本周波数を予測するステップ８０を備える。

実際に、ソース発話者の音声サンプルが、特性がターゲット発話者のものに類似している変換済みのスペクトル情報に関連付けられているため、ステップ６０において定義された予測関数により、基本周波数を適切に予測可能である。

次いで、従来同様に、この変換方法は、出力信号合成ステップ９０を備えており、このステップは、この説明対象の実施例においては、ステップ７０において供給される変換済みのスペクトルエンベロープ情報、ステップ８０において生成される予測基本周波数情報、ならびにステップ６５において供給される最大周波数および位相発声情報、に基づいて変換された音声信号を直接供給するＨＮＭ合成によって実現される。

従って、本発明による分析方法を実装した変換方法によれば、高品質の聴覚レンダリングが得られるようにスペクトルの変更および基本周波数の予測を実行する音声変換を得ることができる。

特に、このタイプの方法の有効性は、ソース発話者およびターゲット発話者が発音した同一の音声サンプルに基づいて評価することができる。

ソース発話者が発音した音声信号を前述の方法を使用して変換し、この変換済みの信号とターゲット発話者が発音した信号と間の類似性を評価するのである。

例えば、この類似性は、変換済みの信号をターゲット信号から離隔させている音響的距離と、ターゲット信号をソース信号から離隔させている音響的距離と間の比率の形態で算出する。

なお、このケプストラム係数またはこれらのケプストラム係数を使用して得られる信号振幅スペクトルに基づいた音響的距離の算出において、本発明による方法を使用して変換された信号において得られる比率は、０．３〜０．５のレベルである。

図３は、図２を参照して説明した方法を実現する音声変換システムの機能ブロック図を示している。

このシステムは、ソース発話者が発音した音声サンプルのデータベース１００と、ターゲット発話者が発音した少なくとも同一の音声サンプルを含むデータベース１０２とを入力として使用している。

これら２つのデータベースは、ソース発話者のスペクトル特性をターゲット発話者のスペクトル特性に変換するための関数を判定するモジュール１０４によって使用される。

このモジュール１０４は、図２を参照して説明した方法のステップ５０を実現するべく適合されており、従って、スペクトルエンベロープ変換関数を判定可能である。

また、このシステムは、スペクトル関連情報のみに従って基本周波数予測関数を判定するモジュール１０６を有している。これを実行するべく、このモジュール１０６は、データベース１０２内に含まれているターゲット発話者の音声サンプルのみを入力として受信する。

このモジュール１０６は、図１を参照して説明した本発明による分析方法に対応する図２を参照して説明した方法のステップ６０を実現するべく適合されている。

なお、モジュール１０４によって供給される変換関数と、モジュール１０６によって供給される予測関数は、後続の使用の観点から、保存しておくのが有利である。

この音声変換システムは、ソース発話者が発音した変換を意図する発話信号に対応する信号１１０を入力として受信する。

この信号１１０は、信号分析モジュール１１２内に導入されるが、このモジュールは、例えば、ＨＮＭブレークダウンを実行し、ケプストラム係数および基本周波数情報の形態で、信号１１０のスペクトル情報を分離することができる。また、このモジュール１１２は、ＨＮＭモデルを適用することによって得られる最大周波数および位相発声情報をも供給する。

従って、このモジュール１１２は、前述の方法のステップ６５を実現している。

この分析は、恐らく、事前に実行可能であり、この情報は、後で使用するべく保存される。

次いで、このモジュール１１２が供給するケプストラム係数は、変換モジュール１１４内に導入されるが、このモジュールは、モジュール１０４が判定した変換関数を適用するべく適合されている。

従って、この変換モジュール１１４は、図２を参照して説明した方法のステップ７０を実装しており、特性がターゲット発話者のスペクトル特性に類似している変換済みのケプストラム係数を供給する。

従って、このモジュール１１４は、音声信号１１０のスペクトルエンベロープの変更を実行する。

次いで、このモジュール１１４が供給する変換済みのケプストラム係数は、基本周波数予測モジュール１１６内に導入されるが、このモジュールは、モジュール１０６が判定した予測関数を実行するべく適合されている。

従って、このモジュール１１６は、図２を参照して説明した方法のステップ８０を実装しており、変換済みのスペクトル情報にのみ基づいて予測された基本周波数情報を出力として供給する。

次いで、このシステムは、モジュール１１４から到来したスペクトルエンベロープに対応している変換済みのケプストラム係数、モジュール１１６から到来した予測基本周波数情報、ならびにモジュール１１２が供給する最大周波数および位相発声情報を入力として受信する合成モジュール１１８を備える。

従って、このモジュール１１８は、図２を参照して説明した方法のステップ９０を実現しており、スペクトルおよび基本周波数特性がターゲット発話者のものに類似するように変更されていることを除き、ソース発話者の音声信号１１０に対応した信号１２０を供給する。

なお、この説明対象のシステムは、特に、音響取得ハードウェア手段に接続された好適なコンピュータプログラムを使用することにより、様々な方法で実装可能である。

当然のことながら、この説明した実施例以外の実施例も考えられる。

具体的には、ＨＮＭ及びＧＭＭモデルを、例えば、ＬＳＦ（ＬｉｎｅＳｐｅｃｔｒａｌＦｒｅｑｕｅｎｃｉｅｓ）もしくはＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）法、あるいはフォルマント関連パラメータなどの当業者に周知のその他の技法およびモデルによって置換可能である。

本発明による分析方法のフローチャートである。本発明による分析方法を実現する音声変換方法のフローチャートである。図２に示されている本発明による方法を実現可能な音声変換システムの機能ブロック図である。

Claims

音声サンプル内に含まれている基本周波数の情報を分析する分析方法であって、
それぞれのサンプルフレームごとに、スペクトル関連情報および前記基本周波数を取得するべく、前記サンプルフレームとして１つにグループ化された前記音声サンプルを分析するステップ（２）と、
前記音声サンプルを分析するステップ（２）において分析されたすべての前記音声サンプルの前記スペクトル関連情報および前記基本周波数を表現する同時密度確率モデルを決定するステップ（２０）と、
前記モデルを決定するステップ（２０）において得られた前記同時密度確率モデルの関数として、および前記分析された音声サンプルから取得された前記スペクトル関連情報および基本周波数を適用することによって、前記基本周波数を予測する予測関数を決定するステップ（３０）であって、前記予測関数は、前記スペクトル関連情報が与えられた場合の前記基本周波数の条件付き期待値を決定することによって、或る音声信号の前記基本周波数の生成を、該音声信号のスペクトル関連情報にのみ従って推定するものである、ステップ（３０）と、
を少なくとも備えることを特徴とする分析方法。
前記音声サンプルを分析するステップ（２）は、ケプストラム係数の形態で前記スペクトル関連情報を提供するべく適合されていることを特徴とする請求項１に記載の分析方法。
前記音声サンプルを分析するステップ（２）は、
高調波および雑音信号の合計に従って音声サンプルをモデル化するサブステップ（４）と、
前記音声サンプルの周波数パラメータおよび少なくとも前記基本周波数を推定するサブステップ（５）と、
それぞれのサンプルフレームの前記基本周波数を同期分析するサブステップ（６）と、
それぞれのサンプルフレームの前記スペクトルパラメータを推定するサブステップ（７）と、
を備えることを特徴とする請求項１または２に記載の分析方法。
分析された前記音声サンプルの前記基本周波数の平均値との関係において、それぞれのサンプルフレームの前記基本周波数を正規化するステップ（１０）をさらに備えることを特徴とする請求項１〜３のいずれか一項に記載の分析方法。
前記モデルを決定するステップ（２０）は、混合ガウス密度によるモデルの判定に対応していることを特徴とする請求項１〜４のいずれか一項に記載の分析方法。
前記モデルを決定するステップ（２０）は、
前記取得されたスペクトル関連情報および基本周波数情報のガウス密度の混合に対応するガウス混合モデルを決定するサブステップ（２２）と、
前記音声サンプルの前記スペクトル情報および前記基本周波数情報と、前記モデルの前記スペクトル情報および前記基本周波数情報との間における最大類似性の推定に基づいて前記ガウス密度の混合のパラメータを推定するサブステップ（２４）と、
を備えることを特徴とする請求項５に記載の分析方法。
前記基本周波数を予測する予測関数を決定するステップ（３０）は、前記スペクトル情報を知ることで、前記スペクトル情報が前記確率モデルのｉ次成分によって生成される事後確率Ｐｉの関数として、前記基本周波数を生成する条件付き期待値を決定するサブステップ（３２）を備え、前記条件付き期待値が前記推定を形成していることを特徴とする請求項１に記載の分析方法。
ソース発話者が発音した音声信号を、特性がターゲット発話者のものに類似している変換済みの音声信号に変換する方法であって、
前記ソース発話者の音声サンプルおよび前記ターゲット発話者の音声サンプルに基づいて実現され、前記ソース発話者のスペクトル特性を前記ターゲット発話者のスペクトル特性に変換する関数を判定するステップ（５０）と、
前記変換関数を使用し、前記変換対象の前記ソース発話者の音声信号のスペクトル情報を変換するステップ（７０）と、
を少なくとも備える方法において、
前記ターゲット発話者のスペクトル関連情報にのみ従って基本周波数を予測する推定関数を判定するステップ（６０）であって、前記推定関数は、請求項１に記載の分析方法を使用して取得される、ステップと、
前記基本周波数を予測する推定関数を、前記ソース発話者の前記音声信号の前記変換済みのスペクトル情報に適用することにより、前記変換対象の音声信号の前記基本周波数を予測するステップ（８０）と、
をさらに備えることを特徴とする方法。
前記変換する関数を判定するステップ（５０）は、前記ソース発話者の前記スペクトル特性に従って前記ターゲットスペクトル特性の生成の推定値に基づいて実行されることを特徴とする請求項８に記載の方法。
前記変換関数を判定するステップ（５０）は、
高調波信号および雑音信号の合計モデルに従って前記ソース発話者の音声サンプルおよび前記ターゲットの音声サンプルをモデル化するサブステップ（５２）と、
前記ソースおよびターゲットのサンプルをアライメントするサブステップ（５４）と、
前記ソーススペクトル特性の実現を知ることによって前記ターゲットスペクトル特性を実現する条件付き期待値の計算に基づいて前記変換関数を判定するサブステップ（５６）であって、前記条件付き期待値が前記推定値を形成している、ステップと、
を備えることを特徴とする請求項９に記載の方法。
前記変換関数は、スペクトルエンベロープ変換関数であることを特徴とする請求項８〜１０のいずれか一項に記載の方法。
前記スペクトル関連情報および前記基本周波数関連情報を供給するべく適合された前記変換対象の音声信号を分析するステップ（６５）をさらに備えることを特徴とする請求項８〜１１の一項に記載の方法。
前記変換済みのスペクトル情報および予測された前記基本周波数情報に少なくとも基づいて変換済みの音声信号を形成可能な合成ステップ（９０）をさらに備えることを特徴とする請求項８〜１２のいずれか一項に記載の方法。
ソース発話者によって発音された音声信号（１１０）を、特性がターゲット発話者のものと類似している変換済みの音声信号（１２０）に変換するシステムであって、
前記ソース発話者の音声信号（１００）と前記ターゲット発話者の音声信号（１０２）とを入力として受信し、前記ソース発話者のスペクトル特性を前記ターゲット発話者のスペクトル特性に変換する関数を判定する手段（１０４）と、
前記手段（１０４）によって供給される前記変換関数を適用することにより、変換対象の前記ソース発話者の前記音声信号（１１０）のスペクトル情報を変換する手段（１１４）と、
を少なくとも備えるシステムにおいて、
前記ターゲット発話者の音声サンプル（１０２）に基づいて、請求項１に記載の分析方法を実現するべく適合されており、前記ターゲット発話者のスペクトル情報にのみ従って基本周波数を予測する推定関数を判定する手段（１０６）と、
前記推定関数を判定する手段（１０６）によって判定された前記推定関数を前記変換手段（１１４）によって供給される前記変換済みのスペクトル情報に適用することにより、前記変換対象の音声信号の前記基準周波数を予測する手段（１１６）と、
をさらに備えることを特徴とするシステム。
前記変換対象の音声信号（１１０）を分析し、前記変換対象の音声信号のスペクトル関連情報と前記基本周波数関連情報とを出力として供給するべく適合された手段（１１２）と、
前記手段（１１４）によって供給される前記変換済みのスペクトル情報と前記手段（１１６）によって供給される予測された前記基本周波数情報とに少なくとも基づいて変換済みの音声信号を形成可能な合成手段（１１８）と、
をさらに備えることを特徴とする請求項１４に記載のシステム。
前記変換関数を判定する手段（１０４）は、スペクトルエンベロープ変換関数を供給するべく適合されていることを特徴とする請求項１４または１５に記載のシステム。