JP4382808B2 - 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム - Google Patents

基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム Download PDF

Info

Publication number
JP4382808B2
JP4382808B2 JP2006505682A JP2006505682A JP4382808B2 JP 4382808 B2 JP4382808 B2 JP 4382808B2 JP 2006505682 A JP2006505682 A JP 2006505682A JP 2006505682 A JP2006505682 A JP 2006505682A JP 4382808 B2 JP4382808 B2 JP 4382808B2
Authority
JP
Japan
Prior art keywords
fundamental frequency
spectral
information
function
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006505682A
Other languages
English (en)
Other versions
JP2006521576A5 (ja
JP2006521576A (ja
Inventor
アン−ナジャリ,タウフィ
ロゼック,オリビエ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of JP2006521576A publication Critical patent/JP2006521576A/ja
Publication of JP2006521576A5 publication Critical patent/JP2006521576A5/ja
Application granted granted Critical
Publication of JP4382808B2 publication Critical patent/JP4382808B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声サンプル内に含まれている基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法およびシステムに関する。
生成しようとする音の特性に応じて、発話、特に、発声音の生成には、基本周期(この逆数を基本周波数又はピッチと呼ぶ)を有する発話信号内の周期的構造の存在を通じて表れる声帯の振動が伴っている。
音声変換などの特定のアプリケーションにおいては、聴覚レンダリングが極めて大きな重要性を有しており、満足できる品質を得るには、基本周波数を含む韻律にリンクしたパラメータを効果的に制御することが必要である。
このため、音声サンプル内に含まれている基本周波数情報を分析する方法として、現在、多数のものが存在している。
これらの分析法によれば、基本周波数特性を判定しモデル化することが可能である。例えば、音声サンプルのデータベース全体にわたって基本周波数のスロープや振幅スケールを判定可能な方法が存在している。
このようなパラメータを知ることにより、例えば、ターゲット発話者の基本周波数の平均値および変動に対して全体的に留意した方式で、ソース発話者とターゲット発話者と間において基本周波数をスケーリングすることにより、発話信号を変更可能である。
しかしながら、これらの分析法によって得られるのは、パラメータを定義可能な基本周波数の表現ではなく、概略的な表現のみであり、従って、これらは、特に、発話スタイルが異なる発話者に関しては、適切なものではない。
本発明の目的は、音声サンプルの基本周波数情報を分析する方法を定義し、パラメータを定義可能な基本周波数の表現を定義できるようにすることにより、この問題を克服することにある。
この目的を実現するべく、本発明の主題は、音声サンプル内に含まれている基本周波数情報を分析する分析方法であり、この分析方法は、
それぞれのサンプルフレームごとに、スペクトル関連情報および基本周波数関連情報を取得するべくフレームとして1つにグループ化された音声サンプルを分析するステップと、
すべてのサンプルのスペクトルおよび基本周波数の共通特性を表すモデルを判定するステップと、
このモデルおよび音声サンプルに基づいて、スペクトル関連情報のみに従って基本周波数予測関数を判定するステップと、
を少なくとも備えることを特徴としている。
この分析方法の更なる特徴によれば、
前述の音声サンプルを分析するステップは、スペクトル関連情報をケプストラム係数の形態で供給するべく適合されており、
この分析ステップは、高調波信号と雑音信号との合計に従って音声サンプルをモデル化するサブステップと、
音声サンプルの周波数パラメータおよび少なくとも基本周波数を推定するサブステップと、
それぞれのサンプルフレームの基本周波数を同期分析するサブステップと、
各サンプルフレームのスペクトルパラメータを推定するサブステップと、
を備え、
かつ、この分析方法は、分析対象のサンプルの基本周波数の平均値との関係において、それぞれのサンプルフレームの基本周波数を正規化する段階をさらに備え、
モデルを判定するステップは、ガウス密度の混合によるモデルの判定に対応しており、
このモデルを判定するステップは、
ガウス密度の混合に対応するモデルを判定するサブステップと、
サンプルおよびモデルのスペクトル情報とサンプルおよびモデルの基本周波数情報との間における最大類似性の推定に基づいて、ガウス密度の混合のパラメータを推定するサブステップと、
を備え、
予測関数を判定するステップは、サンプルのスペクトル情報を知ることによって基本周波数を実現する推定値に基づいて実現されており、
基本周波数予測関数を判定するステップは、モデルに基づいてスペクトル情報が得られる事後確率に基づいて、スペクトル情報を知ることによって基本周波数を実現する条件付きの期待値を判定するサブステップを備えており、この条件付きの期待値が推定値を形成している。
また、本発明は、ソース発話者によって発音された音声信号を、特性がターゲット発話者の特性に類似している変換済みの音声信号に変換する方法にも関し、この方法は、
ソース発話者およびターゲット発話者の音声サンプルに基づいて実現され、ソース発話者のスペクトル特性をターゲット発話者のスペクトル特性に変換する関数を判定するステップと、
この変換関数を使用して、変換対象のソース発話者の音声信号のスペクトル情報を変換するステップと、
を少なくとも備える方法であって、
ターゲット発話者のスペクトル関連情報にのみ従って基本周波数予測関数を判定するステップ(この予測関数は、上記で定義した分析方法を使用して得られるものである)と、
この基本周波数予測関数をソース発話者の音声信号の変換済みのスペクトル情報に適用することにより、変換対象の音声信号の基本周波数を予測するステップと、
をさらに備えることを特徴とする。
この変換方法のその他の特性によれば、
変換関数を判定するステップは、ソーススペクトル特性を知ることによってターゲットスペクトル特性を実現する推定値に基づいて実現されており、
この変換関数を判定するステップは、
高調波信号と雑音信号の合計モデルに従ってソースおよびターゲット音声サンプルをモデル化するサブステップと、
ソースおよびターゲットサンプルをアライメントするサブステップと、
ソーススペクトル特性の実現を知ることによってターゲットスペクトル特性を実現する条件付き期待値の算出値に基づいて変換関数を判定するサブステップ(この条件付き期待値が推定値を形成している)と、を備え、
この変換関数は、スペクトルエンベロープ変換関数であり、
この方法は、スペクトル関連情報および基本周波数関連情報を供給するべく適合された変換対象の音声信号を分析するステップをさらに備え、
この方法は、変換済みのスペクトル情報と予測基本周波数情報に少なくとも基づいて変換済みの音声信号を形成可能な合成段階をさらに備える。
また、本発明は、ソース発話者によって発音された音声信号を、特性がターゲット発話者のものに類似している変換済みの音声信号に変換するシステムにも関係し、このシステムは、
ソース発話者およびターゲット発話者の音声サンプルを入力として受信し、ソース発話者のスペクトル特性をターゲット発話者のスペクトル特性に変換する関数を判定する手段と、
この手段によって供給される変換関数を適用することにより、変換対象であるソース発話者の音声信号のスペクトル情報を変換する手段と、
を少なくとも備えるシステムであって、
ターゲット発話者の音声サンプルに基づいた分析方法を実現するべく適合され、ターゲット発話者のスペクトル関連情報にのみ従って基本周波数予測関数を判定する手段と、
この予測関数を判定する手段によって判定される予測関数を、スペクトル情報を変換する手段によって供給される変換済みのスペクトル情報に適用することにより、変換対象の音声信号の基本周波数を予測する手段と、
をさらに備えることを特徴とする。
このシステムのその他の特徴によれば、
このシステムは、変換対象の音声信号のスペクトル関連情報および基本周波数関連情報を出力として供給するべく適合された変換対象の音声信号を分析する手段と、
前述の手段によって供給される変換済みのスペクトル情報と前述の手段によって供給される予測基本周波数情報とに少なくとも基づいて変換済みの音声信号を形成可能な合成手段と、を更に備え、
変換関数を判定する手段は、スペクトルエンベロープ変換関数を供給するべく適合されており、これは、上記で定義した音声変換方法を実現するべく適合されている。
純粋に一例として提供されている以下の説明と添付の図面を参照することにより、本発明についてさらに容易に理解することができよう。
図1に示されている本発明による方法は、一連の自然発話を含む音声サンプルのデータベースに基づいて実現される。
この方法は、それぞれのサンプルフレームごとに、スペクトル関連情報(特に、スペクトルエンベロープ関連情報)および基本周波数関連情報を取得するべく、フレームとして1つにグループ化することによってサンプルを分析するステップ2から始まっている。
なお、この説明対象の実施例においては、この分析ステップ2は、一般に「HNM(Harmonic plus Noise Model)」と呼ばれるモデルによる高調波信号と雑音信号との合計の形態の音響信号のモデルを使用することに基づいている。
また、この説明対象の実施例は、離散ケプストラムによるスペクトルエンベロープの表現にも基づいている。
実際に、ケプストラム表現によれば、発話信号内において、結果的に得られる声帯の振動に対応しかつ基本周波数によって特徴付けられているソース成分から、声道に関連する成分を分離可能である。
従って、この分析ステップ2は、それぞれの音声信号フレームを、振幅Al及び位相φlのL個の高調波正弦波の合計から構成された信号の周期的成分を表す高調波部分と摩擦雑音および声門励起変動を表す雑音部分とにモデル化するサブステップ4を備える。
従って、これは、次のように定式化可能である。
Figure 0004382808
従って、項h(n)は、信号s(n)の高調波近似を表している。
次いで、このステップ2は、例えば、自己相関法により、それぞれのフレームごとに、周波数パラメータ(特に、基本周波数)を推定するサブステップ5を有している。
従来同様に、このHNM分析により、最大発声周波数が得られる。なお、変形として、この周波数を任意に定義することも可能であり、あるいは、その他の既知の手段によって推定することも可能である。
このサブステップ5の後には、それぞれのフレームの基本周波数を同期分析し、高調波部分のパラメータと信号雑音のパラメータを推定可能なサブステップ6が続いている。
この説明対象の実施例においては、この同期分析は、完全な信号と(この説明対象の実施例においては推定雑音信号に対応している)その高調波部分との間における加重最小二乗基準の極小化による高調波パラメータの判定に対応しており、Eと表記されるこの基準は、次式のとおりである。
Figure 0004382808
この式において、w(n)は、分析ウィンドウであり、Tiは、現在のフレームの基本周期である。
従って、この分析ウィンドウは、基本周期マーカーを中心としており、その持続時間は、この周期の2倍になっている。
そして、この分析ステップ2は、可能な限り忠実に人間の耳の特性を再現するべく、例えば、正規化離散ケプストラム法(regularized discrete cepstrum method)およびBark尺度変換(Bark−scale transformation)を使用して、信号のスペクトルエンベロープの成分パラメータを推定するサブステップ7を最後に備えている。
従って、この分析ステップ2は、発話信号サンプルの次数nのそれぞれのフレームごとに、基本周波数情報を有するスカラー(これは、xnと表記される)と、一連のケプストラム係数の形態のスペクトル情報を有するベクトル(これは、ynと表記される)とを供給する。
有利なことに、この分析ステップ2の後には、それぞれの音声サンプルフレーム内の基本周波数情報の値を、次の式に従って正規化された基本周波数値によって置換するべく、平均基本周波数との関係において、それぞれのフレームの基本周波数の値を正規化するステップ10が続いている。
Figure 0004382808
尚、この式において、Fo moyは、分析対象のデータベース全体における基本周波数値の平均値に対応している。
この正規化により、基本周波数スカラーの変動スケールを変更して、ケプストラム係数の変動スケールと一致させることが可能になる。
そして、この正規化段階10の後には、分析対象のすべてのサンプルの共通的なケプストラムおよび基本周波数特性を表すモデルを判定するステップ20が続いている。
この説明対象の実施例には、一般に「GMM」と呼ばれるガウス密度混合モデルによる基本周波数および離散ケプストラムの確率モデルが伴っており、このGMMのパラメータを、正規化された基本周波数および離散ケプストラムの同時密度に基づいて推定している。
従来同様に、ガウス密度混合モデルGMMに従って、p(z)と一般的に表記されるランダム変数の確率密度は、数学的に次のように表記される。
Figure 0004382808
この式において、N(z:μi;Σi)は、平均値μiの正規則(Normal law)と共分散Σiの確率密度であり、係数αiは、混合の係数である。
従って、係数αiは、ランダム変数zが混合のi次ガウスによって生成される事前確率に対応している。
さらに詳しくは、このモデルを判定するステップ20は、yとして表記されるケプストラムと、xとして表記される正規化された基本周波数の同時密度を次式のようにモデル化するサブステップ22を備える。
Figure 0004382808
これらの式において、x=[x1,x2,...,xN]は、N個の音声サンプルフレームの正規化された基本周波数情報を含む一連のスカラーに対応しており、y=[y1,y2,...,yn]は、対応する一連のケプストラム係数ベクトルに対応している。
次いで、このステップ20は、密度p(z)のGMMパラメータ(α,μ,Σ)を推定するサブステップ24を備える。この推定は、例えば、発話サンプルデータとガウス混合モデルとの間の最大類似性の推定値を取得可能な反復的方法に対応した「EM(Expectation Maximization)」と呼ばれるタイプの従来のアルゴリズムを使用して実現可能である。
GMMモデルの初期パラメータの判定は、従来のベクトル量子化法を使用して実行することができる。
従って、このモデル判定ステップ20は、ケプストラム係数によって表される共通スペクトル特性を表すガウス密度の混合のパラメータと分析済の音声サンプルの基本周波数を供給する。
次いで、この方法は、モデルおよび音声サンプルに基づいて、信号ケプストラムによって供給されるスペクトル情報のみに従って基本周波数予測関数を判定するステップ30を有している。
この予測関数は、音声サンプルのケプストラムが与えられた場合に、基本周波数を実現する推定値に基づいて判定される。これは、この説明対象の実施例においては、条件付き期待値によって形成されている。
このために、このステップ30は、ケプストラムによって供給されるスペクトル関連情報を知ることによって基本周波数の条件付きの期待値を判定するサブステップ32を有している。この条件付き期待値は、F(y)と表記され、次の式に基づいて判定される。
Figure 0004382808
これらの式において、pi(y)は、共分散行列Σiと正規則(normal law)μiによってステップ20において定義されたモデルのガウス混合のi次成分によってケプストラムベクトルyが生成される事後確率に対応している。
従って、この条件付き期待値の判定により、ケプストラム情報から基本周波数予測関数を取得可能である。
なお、変形として、このステップ30において実現される推定値は、「MAP」と呼ばれる事後最大基準であってもよく、これは、ソースベクトルを最も良好に表すモデルのみの期待値計算の実現に対応している。
従って、本発明による分析方法により、(この説明対象の実施例においては、ケプストラムによって供給される)スペクトル情報のみに従い、モデルと音声サンプルとに基づいて基本周波数予測関数を取得可能であることが明らかである。
次いで、このタイプの予測関数により、この信号のスペクトル情報のみに基づいて、発話信号の基本周波数の値を判定可能であり、これにより、特に、分析済の音声サンプル内に存在しない音の基本周波数を適切に予測することができる。
次に、図2を参照し、音声変換の文脈において、本発明によるこの分析方法の使用法について説明することとする。
音声変換は、生成された信号が、「ターゲット発話者」と呼ばれる別の発話者が発音したものとして聞こえるように、「ソース発話者」と呼ばれる基準発話者の音声信号を変換するステップを有している。
そして、この方法は、ソース発話者およびターゲット発話者によって発音された音声サンプルのデータベースを使用して実現される。
従来同様に、このタイプの方法は、ソース発話者の音声サンプルのスペクトル特性がターゲット発話者のものに類似するようにするソース発話者の音声サンプルのスペクトル特性の変換関数を判定するステップ50を備える。
この説明対象の実施例においては、このステップ50は、ソース発話者およびターゲット発話者の音声信号のスペクトルエンベロープの特性間の関係を判定可能なHNM分析法に基づいている。
このためには、同一の音声シーケンスを音響的に実現するソースおよびターゲットの音声録音が必要である。
このステップ50は、高調波および雑音信号のHNM合計モデルに従って音声サンプルをモデル化するサブステップ52を有している。
そして、このサブステップ52の後には、例えば、「DTW(Dynamic Time Warping)」と呼ばれる従来のアライメントアルゴリズムを使用してソースおよびターゲット信号をアライメント可能なサブステップ54が続いている。
次いで、このステップ50は、ソース発話者およびターゲット発話者の音声サンプルスペクトルの共通的特性を表すGMMモデルなどのモデルを判定するサブステップ56を備える。
なお、この説明対象の実施例においては、「s」と表記されているソーススペクトルパラメータを知ることにによって、「t」と表記されているターゲットスペクトルパラメータを実現する推定値に対応したスペクトル変換関数を定義できるように、ソースおよびターゲットの64個の成分とケプストラムパラメータを含む単一のベクトルとを有するGMMモデルを使用している。
この説明対象の実施例においては、F(s)と表記されるこの変換関数は、次式によって得られる条件付き期待値の形態で表記される。
Figure 0004382808
この関数の正確な判定は、EMアルゴリズムによって得られるソースおよびターゲットのパラメータ間における類似性の極大化によって実行可能である。
なお、変形として、推定値は、事後最大基準から形成することも可能である。
従って、このように定義された関数により、ターゲット発話者のスペクトルエンベロープに類似するようにソース発話者からの発話信号のスペクトルエンベロープを変更することができる。
この極大化の前に、ソースおよびターゲットの共通スペクトル特性を表すGMMモデルのパラメータを、例えば、ベクトル量子化アルゴリズムを使用して初期化する。
そして、これと並行し、本発明による分析方法においては、ターゲット発話者の音声サンプルのみを分析するステップ60を実行している。
図1を参照して説明したように、本発明によるこの分析ステップ60により、スペクトル情報のみに基づいて、ターゲット発話者の基本周波数予測関数を取得することが可能である。
次いで、この変換方法は、ソース発話者が発音した変換対象の音声信号を分析するステップ65を備えており、この変換対象の信号は、ステップ50およびステップ60において使用された音声信号とは異なっている。
この分析ステップ65は、例えば、ケプストラム係数、基本周波数情報、ならびに最大周波数および位相発声情報の形態のスペクトル情報を提供可能なHNMモデルによるブレークダウンを使用して実行される。
そして、このステップ65の後には、ステップ50において判定された変換関数を、ステップ65において定義されたケプストラム係数に対して適用することにより、変換対象の音声信号のスペクトル特性を変換するステップ70が続いている。
このステップ70においては、特に、変換対象の音声信号のスペクトルエンベロープを変更する。
従って、このステップ70の終了時点においては、変換対象であるソース発話者の信号サンプルのそれぞれのフレームが、特性がターゲット発話者のサンプルのスペクトル特性に類似している変換済みのスペクトル情報に関連付けられている。
次いで、この変換方法は、段階60において本発明による方法を使用して判定された予測関数を、変換対象のソース発話者の音声信号と関連付けられている変換済みのスペクトル情報にのみ適用することにより、ソース発話者の音声サンプルの基本周波数を予測するステップ80を備える。
実際に、ソース発話者の音声サンプルが、特性がターゲット発話者のものに類似している変換済みのスペクトル情報に関連付けられているため、ステップ60において定義された予測関数により、基本周波数を適切に予測可能である。
次いで、従来同様に、この変換方法は、出力信号合成ステップ90を備えており、このステップは、この説明対象の実施例においては、ステップ70において供給される変換済みのスペクトルエンベロープ情報、ステップ80において生成される予測基本周波数情報、ならびにステップ65において供給される最大周波数および位相発声情報、に基づいて変換された音声信号を直接供給するHNM合成によって実現される。
従って、本発明による分析方法を実装した変換方法によれば、高品質の聴覚レンダリングが得られるようにスペクトルの変更および基本周波数の予測を実行する音声変換を得ることができる。
特に、このタイプの方法の有効性は、ソース発話者およびターゲット発話者が発音した同一の音声サンプルに基づいて評価することができる。
ソース発話者が発音した音声信号を前述の方法を使用して変換し、この変換済みの信号とターゲット発話者が発音した信号と間の類似性を評価するのである。
例えば、この類似性は、変換済みの信号をターゲット信号から離隔させている音響的距離と、ターゲット信号をソース信号から離隔させている音響的距離と間の比率の形態で算出する。
なお、このケプストラム係数またはこれらのケプストラム係数を使用して得られる信号振幅スペクトルに基づいた音響的距離の算出において、本発明による方法を使用して変換された信号において得られる比率は、0.3〜0.5のレベルである。
図3は、図2を参照して説明した方法を実現する音声変換システムの機能ブロック図を示している。
このシステムは、ソース発話者が発音した音声サンプルのデータベース100と、ターゲット発話者が発音した少なくとも同一の音声サンプルを含むデータベース102とを入力として使用している。
これら2つのデータベースは、ソース発話者のスペクトル特性をターゲット発話者のスペクトル特性に変換するための関数を判定するモジュール104によって使用される。
このモジュール104は、図2を参照して説明した方法のステップ50を実現するべく適合されており、従って、スペクトルエンベロープ変換関数を判定可能である。
また、このシステムは、スペクトル関連情報のみに従って基本周波数予測関数を判定するモジュール106を有している。これを実行するべく、このモジュール106は、データベース102内に含まれているターゲット発話者の音声サンプルのみを入力として受信する。
このモジュール106は、図1を参照して説明した本発明による分析方法に対応する図2を参照して説明した方法のステップ60を実現するべく適合されている。
なお、モジュール104によって供給される変換関数と、モジュール106によって供給される予測関数は、後続の使用の観点から、保存しておくのが有利である。
この音声変換システムは、ソース発話者が発音した変換を意図する発話信号に対応する信号110を入力として受信する。
この信号110は、信号分析モジュール112内に導入されるが、このモジュールは、例えば、HNMブレークダウンを実行し、ケプストラム係数および基本周波数情報の形態で、信号110のスペクトル情報を分離することができる。また、このモジュール112は、HNMモデルを適用することによって得られる最大周波数および位相発声情報をも供給する。
従って、このモジュール112は、前述の方法のステップ65を実現している。
この分析は、恐らく、事前に実行可能であり、この情報は、後で使用するべく保存される。
次いで、このモジュール112が供給するケプストラム係数は、変換モジュール114内に導入されるが、このモジュールは、モジュール104が判定した変換関数を適用するべく適合されている。
従って、この変換モジュール114は、図2を参照して説明した方法のステップ70を実装しており、特性がターゲット発話者のスペクトル特性に類似している変換済みのケプストラム係数を供給する。
従って、このモジュール114は、音声信号110のスペクトルエンベロープの変更を実行する。
次いで、このモジュール114が供給する変換済みのケプストラム係数は、基本周波数予測モジュール116内に導入されるが、このモジュールは、モジュール106が判定した予測関数を実行するべく適合されている。
従って、このモジュール116は、図2を参照して説明した方法のステップ80を実装しており、変換済みのスペクトル情報にのみ基づいて予測された基本周波数情報を出力として供給する。
次いで、このシステムは、モジュール114から到来したスペクトルエンベロープに対応している変換済みのケプストラム係数、モジュール116から到来した予測基本周波数情報、ならびにモジュール112が供給する最大周波数および位相発声情報を入力として受信する合成モジュール118を備える。
従って、このモジュール118は、図2を参照して説明した方法のステップ90を実現しており、スペクトルおよび基本周波数特性がターゲット発話者のものに類似するように変更されていることを除き、ソース発話者の音声信号110に対応した信号120を供給する。
なお、この説明対象のシステムは、特に、音響取得ハードウェア手段に接続された好適なコンピュータプログラムを使用することにより、様々な方法で実装可能である。
当然のことながら、この説明した実施例以外の実施例も考えられる。
具体的には、HNM及びGMMモデルを、例えば、LSF(Line Spectral Frequencies)もしくはLPC(Linear Predictive Coding)法、あるいはフォルマント関連パラメータなどの当業者に周知のその他の技法およびモデルによって置換可能である。
本発明による分析方法のフローチャートである。 本発明による分析方法を実現する音声変換方法のフローチャートである。 図2に示されている本発明による方法を実現可能な音声変換システムの機能ブロック図である。

Claims (16)

  1. 音声サンプル内に含まれている基本周波数情報を分析する分析方法であって、
    それぞれのサンプルフレームごとに、スペクトル関連情報および前記基本周波数を取得するべく、前記サンプルフレームとして1つにグループ化された前記音声サンプルを分析するステップ(2)と、
    前記音声サンプルを分析するステップ(2)において分析されたすべての前記音声サンプルの前記スペクトル関連情報および前記基本周波数を表現する同時密度確率モデルを定するステップ(20)と、
    前記モデルを決定するステップ(20)において得られた前記同時密度確率モデルの関数として、および前記分析された音声サンプルから取得された前記スペクトル関連情報および基本周波数を適用することによって、前記基本周波数を予測する予測関数を決定するステップ(30)であって、前記予測関数は、前記スペクトル関連情報が与えられた場合の前記基本周波数の条件付き期待値を決定することによって、或る音声信号の前記基本周波数の生成を、該音声信号のスペクトル関連情報にのみ従って推定するものである、ステップ(30)と、
    を少なくとも備えることを特徴とする分析方法。
  2. 前記音声サンプルを分析するステップ(2)は、ケプストラム係数の形態で前記スペクトル関連情報を提供するべく適合されていることを特徴とする請求項1に記載の分析方法。
  3. 前記音声サンプルを分析するステップ(2)は、
    高調波および雑音信号の合計に従って音声サンプルをモデル化するサブステップ(4)と、
    前記音声サンプルの周波数パラメータおよび少なくとも前記基本周波数を推定するサブステップ(5)と、
    それぞれのサンプルフレームの前記基本周波数を同期分析するサブステップ(6)と、
    それぞれのサンプルフレームの前記スペクトルパラメータを推定するサブステップ(7)と、
    を備えることを特徴とする請求項1または2に記載の分析方法。
  4. 分析された前記音声サンプルの前記基本周波数の平均値との関係において、それぞれのサンプルフレームの前記基本周波数を正規化するステップ(10)をさらに備えることを特徴とする請求項1〜3のいずれか一項に記載の分析方法。
  5. 前記モデルを定するステップ(20)は、混合ガウス密度によるモデルの判定に対応していることを特徴とする請求項1〜4のいずれか一項に記載の分析方法。
  6. 前記モデルを定するステップ(20)は、
    前記取得されたスペクトル関連情報および基本周波数情報のガウス密度の混合に対応するガウス混合モデルを定するサブステップ(22)と、
    前記音声サンプルの前記スペクトル情報および前記基本周波数情報前記モデルの前記スペクトル情報および前記基本周波数情報との間における最大類似性の推定に基づいて前記ガウス密度の混合のパラメータを推定するサブステップ(24)と、
    を備えることを特徴とする請求項5に記載の分析方法。
  7. 前記基本周波数を予測する予測関数を定するステップ(30)は、前記スペクトル情報を知ることで、前記スペクトル情報が前記確率モデルのi次成分によって生成される事後確率Piの関数として、前記基本周波数を生成する条件付き期待値を定するサブステップ(32)を備え、前記条件付き期待値が前記推定を形成していることを特徴とする請求項に記載の分析方法。
  8. ソース発話者が発音した音声信号を、特性がターゲット発話者のものに類似している変換済みの音声信号に変換する方法であって、
    前記ソース発話者の音声サンプルおよび前記ターゲット発話者の音声サンプルに基づいて実現され、前記ソース発話者のスペクトル特性を前記ターゲット発話者のスペクトル特性に変換する関数を判定するステップ(50)と、
    前記変換関数を使用し、前記変換対象の前記ソース発話者の音声信号のスペクトル情報を変換するステップ(70)と、
    を少なくとも備える方法において、
    前記ターゲット発話者のスペクトル関連情報にのみ従って基本周波数を予測する推定関数を判定するステップ(60)であって、前記推定関数は、請求項1に記載の分析方法を使用して取得される、ステップと、
    前記基本周波数を予測する推定関数を、前記ソース発話者の前記音声信号の前記変換済みのスペクトル情報に適用することにより、前記変換対象の音声信号の前記基本周波数を予測するステップ(80)と、
    をさらに備えることを特徴とする方法。
  9. 前記変換する関数を判定するステップ(50)は、前記ソース発話者の前記スペクトル特性に従って前記ターゲットスペクトル特性の生成の推定値に基づいて実行されることを特徴とする請求項に記載の方法。
  10. 前記変換関数を判定するステップ(50)は、
    高調波信号および雑音信号の合計モデルに従って前記ソース発話者の音声サンプルおよび前記ターゲットの音声サンプルをモデル化するサブステップ(52)と、
    前記ソースおよびターゲットのサンプルをアライメントするサブステップ(54)と、
    前記ソーススペクトル特性の実現を知ることによって前記ターゲットスペクトル特性を実現する条件付き期待値の計算に基づいて前記変換関数を判定するサブステップ(56)であって、前記条件付き期待値が前記推定値を形成している、ステップと、
    を備えることを特徴とする請求項に記載の方法。
  11. 前記変換関数は、スペクトルエンベロープ変換関数であることを特徴とする請求項10のいずれか一項に記載の方法。
  12. 前記スペクトル関連情報および前記基本周波数関連情報を供給するべく適合された前記変換対象の音声信号を分析するステップ(65)をさらに備えることを特徴とする請求項11の一項に記載の方法。
  13. 前記変換済みのスペクトル情報および予測された前記基本周波数情報に少なくとも基づいて変換済みの音声信号を形成可能な合成ステップ(90)をさらに備えることを特徴とする請求項12のいずれか一項に記載の方法。
  14. ソース発話者によって発音された音声信号(110)を、特性がターゲット発話者のものと類似している変換済みの音声信号(120)に変換するシステムであって、
    前記ソース発話者の音声信号(100)と前記ターゲット発話者の音声信号(102)とを入力として受信し、前記ソース発話者のスペクトル特性を前記ターゲット発話者のスペクトル特性に変換する関数を判定する手段(104)と、
    前記手段(104)によって供給される前記変換関数を適用することにより、変換対象の前記ソース発話者の前記音声信号(110)のスペクトル情報を変換する手段(114)と、
    を少なくとも備えるシステムにおいて、
    前記ターゲット発話者の音声サンプル(102)に基づいて、請求項1に記載の分析方法を実現するべく適合されており、前記ターゲット発話者のスペクトル情報にのみ従って基本周波数を予測する推定関数を判定する手段(106)と、
    前記推定関数を判定する手段(106)によって判定された前記推定関数を前記変換手段(114)によって供給される前記変換済みのスペクトル情報に適用することにより、前記変換対象の音声信号の前記基準周波数を予測する手段(116)と、
    をさらに備えることを特徴とするシステム。
  15. 前記変換対象の音声信号(110)を分析し、前記変換対象の音声信号のスペクトル関連情報と前記基本周波数関連情報とを出力として供給するべく適合された手段(112)と、
    前記手段(114)によって供給される前記変換済みのスペクトル情報と前記手段(116)によって供給される予測された前記基本周波数情報とに少なくとも基づいて変換済みの音声信号を形成可能な合成手段(118)と、
    をさらに備えることを特徴とする請求項14に記載のシステム。
  16. 前記変換関数を判定する手段(104)は、スペクトルエンベロープ変換関数を供給するべく適合されていることを特徴とする請求項14または15に記載のシステム。
JP2006505682A 2003-03-27 2004-03-02 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム Expired - Fee Related JP4382808B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0303790A FR2853125A1 (fr) 2003-03-27 2003-03-27 Procede d'analyse d'informations de frequence fondamentale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d'analyse.
PCT/FR2004/000483 WO2004088633A1 (fr) 2003-03-27 2004-03-02 Procede d'analyse d'informations de frequence fondamentale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d'analyse

Publications (3)

Publication Number Publication Date
JP2006521576A JP2006521576A (ja) 2006-09-21
JP2006521576A5 JP2006521576A5 (ja) 2007-04-19
JP4382808B2 true JP4382808B2 (ja) 2009-12-16

Family

ID=32947218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006505682A Expired - Fee Related JP4382808B2 (ja) 2003-03-27 2004-03-02 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム

Country Status (8)

Country Link
US (1) US7643988B2 (ja)
EP (1) EP1606792B1 (ja)
JP (1) JP4382808B2 (ja)
CN (1) CN100583235C (ja)
AT (1) ATE395684T1 (ja)
DE (1) DE602004013747D1 (ja)
FR (1) FR2853125A1 (ja)
WO (1) WO2004088633A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
CN101064104B (zh) * 2006-04-24 2011-02-02 中国科学院自动化研究所 基于语音转换的情感语音生成方法
US20080167862A1 (en) * 2007-01-09 2008-07-10 Melodis Corporation Pitch Dependent Speech Recognition Engine
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
US8131550B2 (en) * 2007-10-04 2012-03-06 Nokia Corporation Method, apparatus and computer program product for providing improved voice conversion
JP4577409B2 (ja) * 2008-06-10 2010-11-10 ソニー株式会社 再生装置、再生方法、プログラム、及び、データ構造
CN102063899B (zh) * 2010-10-27 2012-05-23 南京邮电大学 一种非平行文本条件下的语音转换方法
CN102664003B (zh) * 2012-04-24 2013-12-04 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法
ES2432480B2 (es) * 2012-06-01 2015-02-10 Universidad De Las Palmas De Gran Canaria Método para la evaluación clínica del sistema fonador de pacientes con patologías laríngeas a través de una evaluación acústica de la calidad de la voz
US9570087B2 (en) * 2013-03-15 2017-02-14 Broadcom Corporation Single channel suppression of interfering sources
CN109410980A (zh) * 2016-01-22 2019-03-01 大连民族大学 一种基频估计算法在各类具有谐波结构的信号的基频估计中的应用
WO2018138543A1 (en) * 2017-01-24 2018-08-02 Hua Kanru Probabilistic method for fundamental frequency estimation
CN108766450B (zh) * 2018-04-16 2023-02-17 杭州电子科技大学 一种基于谐波冲激分解的语音转换方法
CN108922516B (zh) * 2018-06-29 2020-11-06 北京语言大学 检测调域值的方法和装置
CN111179902B (zh) * 2020-01-06 2022-10-28 厦门快商通科技股份有限公司 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质
CN112750446B (zh) * 2020-12-30 2024-05-24 标贝(青岛)科技有限公司 语音转换方法、装置和系统及存储介质
CN115148225B (zh) * 2021-03-30 2024-09-03 北京猿力未来科技有限公司 语调评分方法、语调评分系统、计算设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
EP0970466B1 (en) * 1997-01-27 2004-09-22 Microsoft Corporation Voice conversion
JP2001500284A (ja) * 1997-07-11 2001-01-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 改良した調波音声符号器を備えた送信機
CN1151490C (zh) * 2000-09-13 2004-05-26 中国科学院自动化研究所 用于语音识别的高精度高分辨率基频提取方法

Also Published As

Publication number Publication date
EP1606792A1 (fr) 2005-12-21
CN100583235C (zh) 2010-01-20
US7643988B2 (en) 2010-01-05
FR2853125A1 (fr) 2004-10-01
US20060178874A1 (en) 2006-08-10
DE602004013747D1 (de) 2008-06-26
EP1606792B1 (fr) 2008-05-14
ATE395684T1 (de) 2008-05-15
CN1795491A (zh) 2006-06-28
JP2006521576A (ja) 2006-09-21
WO2004088633A1 (fr) 2004-10-14

Similar Documents

Publication Publication Date Title
Hayashi et al. An investigation of multi-speaker training for WaveNet vocoder
JP4382808B2 (ja) 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム
EP1252621B1 (en) System and method for modifying speech signals
US7765101B2 (en) Voice signal conversation method and system
JP5961950B2 (ja) 音声処理装置
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
US20060064301A1 (en) Parametric speech codec for representing synthetic speech in the presence of background noise
US7792672B2 (en) Method and system for the quick conversion of a voice signal
NZ243731A (en) Synthesising human speech
JP6783475B2 (ja) 声質変換装置、声質変換方法およびプログラム
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
EP1995723B1 (en) Neuroevolution training system
WO2019163848A1 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
JP3973492B2 (ja) 音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体
JP2898568B2 (ja) 声質変換音声合成装置
JP2002123298A (ja) 信号符号化方法、装置及び信号符号化プログラムを記録した記録媒体
JP2798003B2 (ja) 音声帯域拡大装置および音声帯域拡大方法
JP4766559B2 (ja) 音楽信号の帯域拡張方式
JP2008519308A5 (ja)
JP2000235400A (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
KR100484666B1 (ko) 성도특성 변환을 이용한 음색변환장치 및 방법
Orphanidou et al. Voice morphing using the generative topographic mapping
JP2003323200A (ja) 音声符号化のための線形予測係数の勾配降下最適化
Söderberg Optimization of the FARGAN Model for Speech Compression: Exploring Different Frame Partitions
En-Najjary et al. Fast GMM-based voice conversion for text-to-speech synthesis systems.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080708

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081007

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081015

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081225

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090619

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090818

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090917

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121002

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131002

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees