JPH0193796A

JPH0193796A - 声質変換方法

Info

Publication number: JPH0193796A
Application number: JP62250708A
Authority: JP
Inventors: Toru Tsugi; 徹都木; Hisao Kuwabara; 尚夫桑原; Tetsuo Umeda; 梅田　哲夫
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1987-10-06
Filing date: 1987-10-06
Publication date: 1989-04-12
Anticipated expiration: 2012-05-21
Also published as: JP2612869B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

［産業上の利用分野］本発明は、放送、映画、音楽等において、人間の音声を
処理する音声情報処理技術のうち、音声の個人性を変化
させたり、音声の明瞭性を高めたり、響きを変えて特殊
効果を持たせるなどの声質変換方法に関する。［発明の概要］本発明は人の音声を一時記録し、その音声の質を変化さ
せて、再び音声として出力する技術に関するもので、入力音声を＾／Ｄ変換した後、有声音区間について、先
ず線形予測係数を算出しておき、この線形予測係数に基
づいて所望のホルマント周波数および帯域幅の変更を行
ない、さらに変更後のホルマント周波数や帯域幅に応じ
た線形予測係数を求め、これによりスペクトル包絡を変
更する６次にフーリエ変換により原音声を周波数領域に
変換し、ホルマント変更前後のスペクトル包絡によって
原音声を所望の形に変更し、逆フーリエ変換によって時
間領域に戻した後、これをＤ／Ａ変換することにより、
音声としての自然性を良好に保ったまま、原音声の持つ
、個人性を変換したり、言葉としての明瞭性を改善でき
るようにする方法である。［従来の技術］従来、放送現場などではアナログフィルターを用いて、
音声の特定の周波数帯域を取り除くことにより個人性の
消去を行ったり、熟練した技術者がグラフィックイコラ
イザーにより特定の周波数帯域のエネルギーを増強・減
衰させて声の質の補正を行なっていた。近年、デジタル技術による方法も開発されており、サン
プリング周波数Ｆで書込んだ音声波形を、ＦＸＲなるサ
ンプリング周波数で読出せば、ピッチ周波数を含む全ス
ペクトル情報が周波数的にＲ倍となる。この時適当な時
間窓と周期を用いて波形を間引いたり、繰返したりすれ
ば、発生速度を原音声と同じに保ちながら音声の質の変
換ができる。このような装置は、「ハーモナイザー」な
どと呼ばれ、音響効果装置として一般に使用され始めて
いる。また、線形予測分析に基づくデジタルフィルターを用い
て、音声の生成モデルに適応したフィルタリングを行い
、音声の質や明瞭性を制御する方式が、例えば特願昭６
１−２０８７７７において本願人によって提案されてい
る。［発明が解決しようとする問題点］しかしながら、アナログフィルターやグラフィックイコ
ライザーを用いる方法は、原理的に音声の特定の周波数
帯域のエネルギーを増減させるだけであり、根本的に音
声の質を変化させることはできない。すなわち、原音声
に含まれる一部の特徴がレベル的に強調・抑圧されるの
みで、決定的に個人性を変えたり、明瞭性を改善するこ
とはできない。また、「ハーモナイザー」なとの装置では、ピッチを含
む全スペクトル情報が周波数軸上で８動するので、音声
の高低や個人性が大幅に変化する。しかし、このような
変化は機械的であり実際の個人の音声間に存在するスペ
クトル情報の差異とは異なる。それ故、出力音声は非人
間的なものになり易い、また、原音声のピッチ周波数を
保存することはできない。さらに、線形予測分析に基づくデジタルフィルターを用
いる方法は、音声の生成モデルに適応しているので、声
の質や明瞭性を根本的に制御することが可能であるが、
フィルターの安定性などの原因から音質に問題があった
。そこで、本発明の目的は、上述した従来の問題点を解消
し、音声の生成モデルに適応した分析と高速フーリエ変
換を併用することによって、音声特有の特徴を利用した
高音質な声質変換を行なうことが可能な声質変換方法を
提供することにある。

【問題点を解決するための手段】

そのために本発明では入力音声から有声音区間を抽出し
、有声音区間において、分析窓幅と該窓幅のスライド周
期とによって設定された各短時間区間内のホルマン、ト
周波数および帯域幅を算出すると共に、各短時間区間内
で線形予測係数を求めることによって、スペクトル包絡
を算出し、有声音区間にフーリエ変換を施し周波数領域
に変換し、ホルマント周波数の時間軌跡を求め、時間軌
跡の各時点におけるホルマント周波数または帯域幅に変
更を加え、変更を加えられたホルマント周波数および帯
域幅に基づいてスペクトル包絡を算出し、ホルマント周
波数変更後に算出されたスペクトル包絡をホルマント周
波数変更前に算出されたスペクトル包絡で除した商を変
更成分とし、フーリエ変換で変換された周波数成分に変
更成分を乗すると共に、ホルマント周波数変更以外のス
ペクトル変更を加えた後、逆フーリエ変換によって波形
を時間領域に戻し、無声音区間、無音区間または前後の
有声音区間と接続し、新たな音声波形とすることを特徴
とする。［作　用］以上の構成によれば高速フーリエ変換を用いて周波数ス
ペクトル包絡の変更を行ない、音声の声質を変換するこ
とが可能となる。［実施例］以下、図面に示す実施例に基づき本発明の詳細な説明す
る。第１図は、本発明の一実施例に係る声質変換システムの
ブロック図を示す。図において、２は分析部、４はホル
マント周波数制御部、６はスペクトル制御部をそれぞれ
示し、各部は電子計算機内に構成され、ＲＯＭ　、　Ｒ
ＡＭおよびメモリディスク等のメモリを併用しながら声
質変換の処理が実行される。＾／Ｄ変換されて標本化された音声波形は、分析部２へ
入力し、有音と無音および有声音と無声音の判別、さら
に有声音については、共振周波数を求める。次にホルマント周波数制御部４においては、分析部２で
得られた共振周波数に基づきホルマント周波数を求め、
所望の変更を行なう。スペクトル制御部６ではホルマント周波数制御部４で変
更されたホルマント周波数に応じてスペクトル包絡を変
更する。上述した一連の有声音に対する声質変換の処理を終了す
ると、無声音区間および無音区間を接続し、次の有声音
区間の処理に移る。最終的に合成された音声波形をＤ／
＾変換して出力音声とする。上記各部における処理の詳細を第２図に示すフローチャ
ートを参照しながら説明する。変換ビット数１２ｂｉｔ、標本化周波数１５ｋＨｚで＾
／Ｄ変換された音声は、まず、分析部２において、ステ
ップＳｔで音声パワーの有無に基づいて有音区間と無音
区間の判別が行われる。次にステップＳ２では有音区間
の標本値に対してＰＡＲＣＯＲ分析と平文さ分析とを行
い、無声子音区間と有声音区間との判別を行う、これは
、１次のＰＡＲＣＯＲ係数を参照して入力周波数の高域
成分の割合を調べたり、平文さ数を調べることによって
行なう。すなわち、無声子音のエネルギーは高周波領域
にまで分布しており、高域成分の割合および高周波にな
ると多くなる平文さ数を調べることによって無声子音と
有声音とを判別する。なお、ＰＡＲＣＯＲ分析と平文さ
分析の両方を用いて判別を行なうのは、判別を確実なも
のとするためである。上記ステップＳ１およびＳ２で判別された無音区間の時
間および無声子音区間の波形は、それぞれステップ３１
４およびＳ１５においてそのままＲＡＭまたはメモリデ
ィスク等に記憶される。次に、ステップＳ３では有声音区間における音声波形の
標本値を、音声の生成モデルに基づくいわゆる声道逆フ
ィルタに通すことによって線形予測分析を行なう。すな
わち、まず窓幅２０ｍ５ｅｃ程度の窓掛けを行ない、標
本値に窓掛けを行なったデータを基に相関関数を求める
ことによりステップＳ４で線形予測係数α１〜α、を算
出する。ここで、ｐは線形予測の次数であり男性の声に
対してはｐ　＝　１４、女性の声に対してｐ＝１０程度
を用いる。さらに、ステップＳ５では上記で求めたα１
〜α、を係数とし、以下に示す（１）式を満足する複素
数２の根ｚ１〜ｚｐを求める。１　＋　ａ　、ｚ−’＋　ａ　２ｚ−’＋−＋　ａ　ｐ
ｚす＝Ｏ（１）ｚ１〜２．には共役複素根が含まれ、ま
た１つの共振点は１対の共役複素根で表わされるから虚
部が正であるＺｉに対してのみ、以下に示す（２）。（３）式により共振周波数Ｆ、とその帯域幅Ｂｌを求め
、線形予測係数と共にＲＡＭあるいはメモリディスク等
に記録する。Ｆｒ　　＝Ｆｓ／（２π）　・ａｒｇ（ｚｌ）　　　　
　　　　　　　［Ｈｚｌ　　　（２）Ｂ＋　＝Ｆｓ／π
・ｆｌｏｇ（ｌｚｔｌ）　Ｉ　　　　　　　［Ｈ２］　
　（３）なおＦｓは音声の標本化周波数である。これら一連の操作を分析の開始位置を１０ｍ５ｅｃ程度
ずつ後へスライドしながら音声区間が終るまで繰返す。ホルマント周波数制御部４では、ステップＳ６で、分析
部２において得られた一連の共振周波数Ｆ１から、その
帯域幅と連続性を考慮してホルマント周波数の時間軌跡
を求める。一般にホルマントでない周波数を与える根は
その帯域幅がホルマントを与えるものに比較して広い、
ホルマント周波数は低い方から順に第１ホルマント、第
２ホルマント、・・・と呼び、母音や有声子音の音韻性
には、第１〜第３ホルマントが重要であり、これらの軌
跡は特に正確に求める。次に、ステップＳ７において、ステップＳ６で求めたホ
ルマント周波数の軌跡に対して所望の変更を行い、新た
なホルマント周波数と帯域幅を定める。例えば、明瞭性を高めるには第３図に示すように第１〜
第３ホルマントの時間軸にわたるホルマント周波数の動
きの強調を行なうと効果がある。また、個人性を変えるには、第４図のように全てのホル
マント周波数を一様にシフトさせるのが効果的である。帯域幅については、狭めるとはつきりした感じの声にな
り、広げると滑らかな印象の声になる。新たなホルマント周波数の軌跡と帯域幅が決定したなら
ば、ステップＳ８で各時点における新たな線形予測係数
を以下のようにして計算する。変更されたホルマントと変更されなかったホルマントお
よびホルマントと認められなかった共振周波数を含めて
、新しい共振周波数をＦｌ’、その帯域幅をＢ１”とす
る、各Ｆム゛、Ｂ１°の組について以下に示す（４）式
を用い一般にｌｚ、’ｌ＜１であることを考慮して２の
新たな根Ｚｌ’を求める。ｚ、’＝ｅｘｐ（−ｙｃＪ’／Ｆｓ＋Ｊ２πＦ１’／Ｆ
ｓ）　　　　　　　　　　　　　　　　　　（４）これ
らのＺｉ’に加えて、各々の共役複素根と、（１）式を
解いて得られた２の根のうち虚部が零のものがあればそ
れを含め、全部で２個のＺｌ’を用いて以下に示す（５
）式のように新たな多項式を作る。（１−ｚ＋’ｚ−’）（１−Ｚ２’Ｚ−’）＋＊ｅｅ＋
＊・・・　（１−ｚ　ｐ’Ｚ　−ｔ）＝１＋ａｌ°ｚ−’＋ａ２’ｚ−２−１−”＋　　ａ、
’ｚ−’　　（５）（５）式の右辺を満足するα、°〜
α、°が新たな線形予測係数を与える。スペクトル制御部６では、ホルマント制御部４で得られ
た結果に基づき、各時点における原音声のスペクトル包
絡を所望のスペクトル包絡に変更する。ここで分析部２における線形予測分析の窓幅に相当する
標本数をＭ１分析窓のスライドの周期に相当する標本数
をＬとする。本例では、Ｍ＝３００、Ｌ　−１５０とす
る。先ず、第５図に示すごとく原音声のｑ点からｑ＋２Ｌ−
１点までの２Ｌ個の標本のデータに対してその自乗和ｐ
ｓを求める。さらにステップＳ　１６゜３１７°で分析
部２において上記に示した分析窓の部分より求めた線形
予測係数α□〜α、と、これら・をホルマント制御部で
変更したα１°〜α、°を用いて、（６）および（７）
式により原音声のスペクトル包絡Ｈ（ｋ）およびホルマ
ントを変更したスペクトル包絡Ｈ（ｋ）を求める。Ｈ（ｋ）＝＋１＋　　　Σ　　ａ、　・ｅｘｐ（−ｊ２
　　π１（ｋ−１）／Ｎ）　１−’に−１〜Ｎ（６）Ｈ（ｋ）＝ｌｌ＋Σ　ａ　１’・ｅｘｐ（−Ｊ２ｙｔ　
１（ｋ−１）／Ｎ）　ｌ−’に自　ＩＮＮ（７）ここでＮはＭよりも大きい２のべき乗で５１２とする。Ｈ（ｋ）は、原音声の音韻性や個人性を多く含んだ物理
量であるが、Ｈ（ｋ）は音韻性や個人性が強調・抑圧、
あるいは変更されたものである。なお、Ｈ（ｋ）は、以下に示す（８）式を用いてホルマ
ント周波数制御部で求めたｐ個のＺｌ゛から直接的に計
算できる。ｋ−１〜Ｎ（８）しかし、（８）　、　　（７）式の形はＦＦＴ（高速フ
ーリエ変換）アルゴリズムを適用できるので、（８）式
を用いるのは時間的に不利である。次に、ステップＳ９および５１０で、ｑ＋ｔ−Ｎ／２点
からｑ＋Ｌ＋Ｎ／２−１点までのＮ個のサンプルを新た
に、ｘ（１）〜ｘ　（Ｎ）　　とおき、以下の（９）式
に示すように時間窓係数をかけてｙ　（１）〜ｙ　（Ｎ
）　とする。ｙ　（ｍ）＝ｗ　（ｍ）・ｘ　（ＩＩｌ）　　　　　　
　　ｍ−１〜Ｎ　　　　（９）但し、Ｔ−Ｎ／２−Ｌ◆
１、Ｔ’−Ｎ／２◆Ｌとしてｗ　（ｍ）−０，５・（１
−ｃｏｓ（πｍ／Ｔ））　　　　　　１　　≦ｍ≦Ｔｗ
　（ｍ）＝　ｉ　　　　　　　　　　　　　　Ｔ　＜ｒ
ｎ　＜Ｔ’ｗ（ｍ）−０，５・［１−ｃｏｓ（π（ｍ−
Ｔ’）／Ｔ）］　　Ｔ’≦ｍ≦Ｎこれらｙ　（ｍ）　に
対して、Ｎ点の高速フーリエ変換を行い周波数領域に変
換しＹ　（ｋ）とし、ステップＳｌｌにてこのＹ　（ｋ
）の絶対値を以下に示す（ｌＯ）式を用いて変更する。なお位相成分はそのままとする。Ｙ　（ｋ）・Ａ　（ｋ）・Ｈ（ｋ）　／）Ｉ　（ｋ）・
Ｙ　（ｋ）ｋ−Ｉ　Ｐ−Ｎ　（１０）ここでＡ　（ｋ）は、線形予測係数に基づいたホルマン
トの変更以外の要因としてスペクトル包絡に変化を与え
るもので、０から１の間の実数配列とし、Ａ　（ｋ）　
＝　Ａ　（Ｎ−に◆２）の関係をもつ。例えば、以下に
示す（１１）式のようにすれば高い周波数を強調する特
性となる。Ａ（ｋ）　　　＝１．４・（ｋ−１）／Ｎ十０．３　　
　　　　　ｋ−Ｉ　　ＮＮ／２◆１ステップＳ１２にお
いて、（１０）式のＹ　（ｋ）を逆高速フーリエ変換に
より時間領域の波形７　（１）〜ｙ　（Ｎ）とし、得ら
れたＮ点のデータのうちＮ／２−Ｌ＋１〜Ｎ／２＋Ｌの
２Ｌサンプルのデータに対し、その自乗和Ｐｓ゛を求め
、これが先に求めたＰ、に等しくなるよう、すなわち音
声の大きさが等しくなるよう（１２）式に示すごとくゲ
インの調整をし、マ（Ｎ／２−Ｌ＋１）〜マ（Ｎ／２◆
Ｌ）とする。すなわち、ｘ　（ｍ）　−（Ｐ　ｓ／　Ｐ
　’　ｓ）　””Ｖ　（ｍ）ｍ−Ｎ／２−Ｌ＋１〜Ｎ／
２＋Ｌ　　　　（１２）このマ（Ｎ／２−Ｌ◆１）〜マ
（Ｎ／２＋Ｌ）に対してさらに両端でＯ１中心で１とな
るようなハニング窓または三角窓をかけ、この波形をＲ
ＡＭあるいはメモリディスク等に一時保存する。この窓
掛けにより、波形接続の際の端効果を軽減することがで
きる。次に９点をＬポイント後ヘシフトし、同じ一連の処理を
行った後、第６図に示すように２Ｌサンプルのデータの
前半のＬ点と、直前の処理フレームの後半のＬ点とを重
ね合わせて順次加える。以下、有声音区間が終るまで同じ操作を繰返せばスペク
トル包絡が変更された連続音声波形が得られる。ひとつの有声音区間の処理が終了したならば、ステップ
Ｓ１３において、前後の無声音区間または、無音区間と
接続し、次の有声区間の処理に移る。最終的に合成され
た音声をＤ／Ａ変換して、出力音声とする。なお、本実施例では、有声音区間の検出およびホルマン
トを抽出する方法として線形予測分析を用いたが、その
他の方法で求めても本発明の効果は変らない。［発明の効果］以上説明したように、本発明によれば音声の生成モデル
に基づいて、各時点の周波数スペクトル包絡を変化させ
て、声の質を変換することができる。スペクトル包絡の変更には高速フーリエ変換を用いてお
り、従来のデジタルフィルターを用いる方法に比較して
、音質が良い。また、周波数領域において自由にスペク
トルを制御できるので、ホルマントといった概念以外の
スペクトル制御も可能であり、原音声のピッチ周波数を
保ちながら、個人性の制御や明瞭性の改善のみならず、
様々な声の印象の制御が可能となる。

【図面の簡単な説明】

第１図は本発明の一実施例に係るシステムのブロック図
、第２図は本発明の一実施例を示すフローチャート、第３図は実施例におけるホルマント周波数の時間軸にわ
たる変化を説明するための線図、第４図は実施例に招け
るホルマント周波数の時間軸にわたる−様な変化を説明
するための線図、第５図は実施例における処理区間を説
明するための波形図、第６図は実施例における波形の重ね合わせな説明するた
めの波形図である。２・・・分析部、４・・・ホルマント周波数制御部、６・・・スペクトル制御部。

Claims

【特許請求の範囲】入力音声から有声音区間を抽出し、該有声音区間において、分析窓幅と該窓幅のスライド周
期とによって設定された各短時間区間内のホルマント周
波数および帯域幅を算出すると共に、前記各短時間区間内で線形予測係数を求めることによっ
て、スペクトル包絡を算出し、前記有声音区間にフーリエ変換を施し周波数領域に変換
し、前記ホルマント周波数の時間軌跡を求め、該時間軌跡の各時点における前記ホルマント周波数また
は前記帯域幅に変更を加え、当該変更を加えられたホルマント周波数および帯域幅に
基づいてスペクトル包絡を算出し、ホルマント周波数変
更後に算出された前記スペクトル包絡をホルマント周波
数変更前に算出された前記スペクトル包絡で除した商を
変更成分とし、前記フーリエ変換で変換された周波数成分に該変更成分
を乗すると共に、前記ホルマント周波数変更以外のスペ
クトル変更を加えた後、逆フーリエ変換によって波形を
時間領域に戻し、無声音区間、無音区間または前後の有声音区間と接続し
、新たな音声波形とすることを特徴とする声質変換方法。