JPS6211900A

JPS6211900A - 音声分析合成に於ける音源ゲイン設定方式

Info

Publication number: JPS6211900A
Application number: JP60151815A
Authority: JP
Inventors: 船橋　賢一; 鬼頭　淳悟; 延佳海木
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1985-07-10
Filing date: 1985-07-10
Publication date: 1987-01-20

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、線形予測分析法を用いた音声分析合成系に於
ける伝送パラメータの一つである音源ゲインを設定する
方式に関するものである。

背景技術線形予測分析は、ある時間フレーム単位で、ある時開間
隔でシフト”して行なわれる。合成音声の振幅を決定す
る音源ゲインは、通常、原音声のパワーの平方根あるい
は残差パワーの平方根の形で分析部で算出されて伝送さ
れ、合成時の音源が、有声・無声情報とピッチ周波数と
から決定される。

ピッチ周波数及び有声・無声情報は、分析側で抽出され
る。このような音声分析合成系に於いて、合成音の振幅
変化が原音のそれとできるだけ一致していることが望ま
しい。

第５図は線形予測に依る分析部の一般的な構成を示すブ
ロック図である。ブリ・エン７アシス部１でブリ・エン
ファシスされた音声データ（土、自己相関部２で自己相
関関数とパワーを求められたに一パラメータ（反射係数
）と残差パワーとが算出され墓。上方、ピッチ抽出シ有
声・無声判定部４で、ピッチ長と有声・無声情報が求め
られる。音源ゲインは、ここでは平方根演算部５で＾差
パワーの平方根を算出し、量子化部６でこれを量子化−
して伝送している。

通常は、線形予測による駆動音源の１時間７レーム当た
りのパワーを、残差波形のパワタに一致させるように、
音源ゲインの設定が一行なわ、れている。有声音におい
ては、通常、インパルス列を音源として用いるが、この
とき上記の方法ではインパルスの高さｅは、・＝・・（ＩＰ／Ｎ）１／２　　　　　　　・・・（１
）σ２：１７レームの残差パワーＮ：１フレームの点数 ■Ｐ：ピッチ長（点数）で与えられる。これらの詳細については、例えばＪ、Ｄ
、Ｍａｒｋｅｌ　＆　　Ａ、ＨｏＧｒａｙ　Ｊｒ、Ｌｉ
ｎｅａｒ　ＰｒｅｄｉＣ’ｔｉｏｎ　ｏｆ　Ｓ　ｐｅｅ
ｃｈ、Ｓ　ｐｒｉｎｇｅｒ　Ｖｅｒｌａｇ　１９７６　
：Ｃｈａｐ、１０．１０．２．４に述べられている。

この方式によって音源ゲインを設定するとき、以下述べ
る様な問題点があることが知られている。

特に女性の音声の場合、ピッチ周波数と第１ホルマント
周波数とが近くなり、更に波形が正弦波に近い有声音の
部分では、線型予想符号化法（以下ＬＰＣ法と略称する
）分析に依ると、第１ホルマント周波数の帯域幅が過少
に推定される　（これを以下ここでは異常共振と呼ぶ）
。

そのため合成フィルタのインパルス応答は、１ピッチ周
期を経ても十分に減衰することがなく、これにより合成
波形の振幅が原音声波形に比して、異常に増大すること
がある。このため最悪の場合、合成フィルタに於いてオ
ーバーフローが起り、合成音の劣化が起り、または合成
音のその箇所が強調されて聞こえる等、音質の劣化の原
因となる。

これを解決するため、従来はＬＰＧ分析に用いる自己相
関係数に、後述され兎窓関数（ラグ窓と呼ばれる）をか
けることで、推定スペクトノＣのホルマントの帯域幅を
拡げることに相当する処理がなされてきた。

ラグ社を用いだ場合、′全体的な゛整合度は向上するが
、異常共振によるゲインの増大には、十分に対応できな
い。さらに等細帯域幅の広いラグ窓を掛けて帯域幅を広
げすぎると、音質の劣化を招くという間′趙点があった
。

″また、合成側に於゛ける対策として、二乗算方式の合
成フィルタの遅延のあとに□減１定数を掛けること゛で
、インパルス゛応答の減衰を早゛めて、ディンの異常”
増大を防ぐこともなされてきた。しかしこの場合でも、
減衰定数を小さくシて減衰を早めると、音質の劣化を招
く゛という問題点があ−った。

また、異常共振の箇所に於ける駆動ディン゛を一１通常
よりも小さくすることで、この問題を解決することが試
みられてはいるが、−異常共振の分析側での検出及び音
源ゲインの適切な設定はされていなかった。たとえば正
規化残差パワーは異常共振のとき、非常に小さくなるが
、ゲインの増大は女性音声の場合、特に発生しやすいこ
とからも分かるように、ピッチ周波数との関係があるた
め、正規化残差パワーのみに依存する音源ゲインの補正
によっては、ゲインの増大が生じない箇所での合成音の
ゲインが押゛えられてしまうという問題がおこる。

発明が解決しようとする問題点本発明の目的は上述の問題点を解決し、上記の合成音声
ゲインの異常増大の原因となる異常共振を、分析時に自
動検出して、音源ゲインを従来上りも妥当なものに補正
して伝送することに依って、合成音声ゲインの異常増大
の解決を行い、またゲインの異常増大の原因となる異常
共振を自動検出する方式を与えることで、従来の自己相
関係数にラグ窓を掛ける方式、または合成フィルタの遅
延のあとに減衰定数をかける方式を部分的に”実施し゛
、音質の劣化を招くことなく合成音−声デインの異常増
大を防ぐことを可能にする音声努折合戒に於ける音源ゲ
イン設定方式を提供することである。

問題点を解決するための手段本発明は、音声波形をある期間単位に線形予測分析を行
ない、振幅情報として残差波形のパワーを、１期間あた
りの音源のパワーとなるよう設定する分析合成に於いて
、原波形の２次の共振系による同定から求めた共振周波数
とピッチ抽出器によるピッチ周波数の差と、共振周波数
とをピッチ周波数に設定して、２次の共振系の同定を行
なうことで得られる共振の帯域幅が、それぞれある閾値
以下のとき、異常共振すなわちホルマント帯域幅の過少
推定による合成波形のゲインの異常増大の可能性が在る
と判断し、ピッチ周波数と帯域幅とから定める補正係数
を残差パワーに掛けて得られる値、またはその平方根を
、１期間あたりの音源パワー、または音源ゲインとして
設定することにより合成音のゲインの異常増大を防ぎ、
かつ異常共振を検出するようにしたことを特徴とする音
声合成分析に於ける音源ゲイン設定方式である。

作　　用本発明に従えば、音声波形を予め定める期間単位に、線
形予測分析を行ない、振幅情報として残差波形のパワー
を、１期間あたりの音源のパワーとなるよう設定する音
声分析合成に於いて、原波形の２次の共振系による同定
から求めた共振周波数とピッチ抽出器によるピッチ周波
数との差と、共振周波数とをピッチ周波数に設定して、
２次の共振系で同定を行ケうこ、とで得られる共振の帯
域幅が、それぞれある閾値以下のとき、異常共振すなわ
ちホルマント帯域幅の過少推定による合成波形のゲイン
の異常増大の可能性が在ると判断し、ピッチ周波数と帯
域幅とから定める補正係数を残差パワーに掛けて得られ
る値、またはその平方根を、１期間あたりの音源パワー
、または音源ゲインと設定することにより合成音のゲイ
ンの異常増大を防ぎ、かつ異常共振を検出するようにし
て音源ゲインを設定するようにした。

したがって合成音に関する異常共振検出を行なうことが
でき、また音源ゲインを合成音のゲインが異常増大しな
ｔ；ように設定することができる。

−’／一実施例以下、本発明の実施例を図面を用いて説明する。

本実施例において、入力音声は、たとえば３　＋’　４
　、、ｋ　Ｈ２の低域フィルタに通し、８ｋＨｚ周波数
の信号でサンプリングし、分析フレーム長を、３ｏ＋ｎ
ｓとし、２０ＩＩｌｓのシフト間隔で分析を行なってい
る。また線形予測分析は、サンプリングされた原音声を
、たとえｌｉ’（１＝μ・Ｚ−’）　（、＋７　＝−０
，９，３７５）　（１）特性に従うブリ・エン７アシス
にかけた後に行なっている。

第１図は本発明の一実施例の異常共振検出部１０と音源
ゲイン設定方式を加味した分析部の構成・を示す。音源
ゲインは、残差パワーに補正係数設定部１０で求めら、
れた補正係数ｇを掛けた後、平方根演算部１１で平方根
をとることで算出される。

第２図は第１図の異常共振検出・補正係数設定部１０の
構成を示すブロック図である。ま、ず本実施例の異常共
振検出および補正係数設定の考え方を述べる。以下、異
常共振とはＬＰＧ分析において、スペクトルとホルマン
ト帯域幅が過少に推定されることをさす。異常共振は、
ホルマント周波数とピッチ周波数とが鉾近した場合に起
こる。しかも原音声波形が正弦波的な場合に起こる。即
ち、音声波形が二次の共振系の出力とみなせる場合で、
共振の帯域幅が小さい場合である。

合成音のゲインの異常増大は、異常共振があり、しかも
特に女性音の場合、すなわちピッチ周波数が高い　（ピ
ッチ間隔が短゛い）場合に起こる。

まず異常共振の検出法を説明する。第一にサンプリング
された原音を２次の共振系で同定する。

この同定は、原波形の１次及び２次の自己相関係数、ま
たは１次及び２次のに一パラメータに依って・・・（２
）で与えられる。θを、ピッチ抽出・有声無声判定部２０
で判定されるピッチ周波数、 θｐ＝２・π／ＩＰ　　　　　　　　　・・・（３）こ
こで’ＩＰはピッチ長（点数）と比較する。この比較は、ｓｉｎθｐ＆＝？θｐ−θｐ３／６　　　　　　　　・
・・（４）としてｓｉｎθとｓｉｎθｐとで行なう。

これらが接近しているとき、異常共振の可能性がある。

この場合、二次の共振系に依る同定を、共振周波数をピ
ッチ周波数にして、パワーの観点から行なう。すなわち
、残差パワーと同じパワーのインパルスあるいは白色ノ
イズを、下式の特性を有する２次フィルタに入力したときの出力パワーが、原音声パワーに等しい
として、を得る。ここでＮＲＰＷは、原音声を線形予測したとき
の正規残差パワー　（残差パワーを原音声パワーで正規
化したもの）である。

値ｒが１に十分近いとして、 δをとおけば、ｒは、であり、したがって共振の帯域幅−２・ｌｏｇｒは、ｒ
が１に十分近い場合 −２・ｌｏｇｒ＾２・δ（ｒａｄ）　　　　　　　−（
１０）となる。δが小さい場合、これは異常共振の度合
をあられす。

ここで５ｉｎ２θｐはで算出する。

第３図に本発明の異常共振検出のアルゴリズムを示す。

即ち、ステップｎ１で、１時間フレームの入力が有声で
あるか否かが判定される。有声であれば、ステップｎ２
　　に移り、１ｓｉｎ７ｓｉｎθ、ｌ＜　Ｔ　ｈｌ　　　　　　　　
　・（１２）が成立するか否かが判定される。第１２式
が成立すれば、ステップｎ３　　に移り、 δ＜Ｔｈ２　　　　　　　　　　　　　　・・・（１３
）が成立するか否かが判定される。第１３式が成立すれ
ば、ステップｎ４　　に移り、異常共振が発生したと判
定される。一方、前記各ステップ０１〜ｎ３に於いて、
判定結果が否定的であればステップｎ５に移り、異常共
振がないと判定される。

ブリ・エンファシスを行なうシステムでは、自己相関係
ｒｌ、’ｒ２はブリ・エン７アシス後の音声パワーＰＷ
Ｄ以外に、原音声のパワーＰＷを求めて、・・・（１５） μはブリ・エン７アシスの係数、 ρ１はブリ・エン７アシス後の音声の１次自己相関係数
（−ｋｌ；ここでに１は１次反射係数）で算出する。

さらに原音声に対する正規化残差パワーＮＲＰＷは、ブ
リ・エン７アシスしたデータに対する残差パワーＲＰＷ
Ｄを、原音声パワーＰＷで正規化したもので代用する。

すなわち、ＮＲＰＷ＝ＲＰＷＤ／ＰＷ　　　　　　　・・・（１６
）次に音源ゲインの設定方式について述べる。音源ゲイ
ンは、残差パワーの平方根で与えられ、量子化部２１で
量子化され伝送される。従来技術のところで述べたよう
に、これを用いて音源が設定される。これは合成フィル
タのインパルス応答が１ピッチ過ぎたところで、十分小
さくなるという前提の下で妥当であるが、異常共振の際
はこれが小さくならず、合成音の異常増大が起こる。異
常共振の場合、合成フィルタは２次共振フィルタで近似
できる。この極を ±ｊｏ・とじたとき、値・は共振の帯域幅２・ｒ　＠　
ｅと表される。異常増大の度合は、ＩＰをピッチ間Ｐ隔（点数）として、ｒ　が１に近いほど大きいことが認
められる。

したが・て本発明では音声ディンを、・１Ｐの単調減少
関数で与えられる補正係数をかけて補正してもとめ、ゲ
インの異常増大を防ぐ。

補正係数としては、残差パワーの段階で、Ｐｇ＝　１−　ｂ−ｒ　　　　　（０＜　ｂ＜　１）　　
　　　　　−（１８）をとり、残差パワーにかけその後
、平方根をとり音源ディンδとして伝送している。

Ｐｒ　　の算出は、・１Ｐ　＝（（１−・、Ｉ　Ｐ　／　４　、・　　　・
・・（２０）ＩＰ／４として（１−ε）　　　　を、２次までの近似式、こニ
で、ａ＝　Ｉ　Ｐ　／４を用いて行なっている。定数すは、０．５〜０．６程度
に設定している。補正係数ｇは、異常共振が検出されな
ければｇ＝１とする。

以下、図面に従って本発明の異常共振検出・補正係数設
定方式を説明しよう。第１図は本発明の方式による異常
共振検出・補正係数設定部１０の分析合成系の分析部に
於ける位置付けを示す。第２図は異常共振検出・補正係
数設定部１０の構成を示す。パラメータ算出部１９では
、原音声の２次共振系に依る同定に対する共振周波数を
θとしたときのｓｉｎθ、ピッチ周波数θｐとしたとき
のｓｉｎθｐ１及び帯域幅の半分に対応するδを算出す
る。

ｓｉｎθ　の算出は第２式にもとづいて行なわれ、自己
相関部１２によるこれに必要な自己相関係数ｒ１、ｒ２
は、ブリ・エン７アシス部１４によるブリ・エン７アシ
ス後の音声パワーＰＷＤ、原音声パワーｐｗ、ｉ次反射
係数に１から第１２式および第１３式にもとづいて算出
される。ここで必要な原音声パワーＰＷは、原音声デー
タからパワー算出部１５で求められる。但し、ブリ・エ
ン７アシスを行なわないシステムではこの算出は必要な
く、ＬＰＣ分析部１６でＬＰＣ分析を行なう前の自己相
関部１２で既に算出されたものを用いる。

帯域幅の半分にあたる量δは、第８式で算出する。正規
化残差パワーＮＲＰＷは第１６式で求める。但し、ブリ
・エン７アシスを行なわないシステムではこれはＬＰＧ
分析の際、算出される。

異常共振検出部１７では、１３図に示したアルゴリズム
に従って、異常共振が在るかどうかを検出する。ここで
閾値Ｔｈｌ、Ｔｈ２は、Ｔｈ１＝０，０３３（ａ＝ｒπ
／　９６　）　　　　・（２２）Ｔｈ２　＝　０．０４
９　（＆Ｐπ／６４）　　　・・・（２３）と設定した
。

補正係数算出部１８では、補正係数ｇを異常共振が検出
されない場合ｇ＝ｌとし、異常共振が検出された場合、
第１８式にもとづき算出する。この際、第２０式および
第２１式によって、近似計算を行なって算出する。

本実施例の方式で、音源ゲインを設定することにより合
成した合成音声波形および原音声波形、従来の音源ゲイ
ン設定による合成音声波形の比較をそれぞれ第４図（１
）〜第４図（３）に示す。第４図（１）は原音声波形を
示し、第４図（２）は従来の合成音声波形を示し、第４
図（３）は本実施例における合成音声波形を示す。本方
式による合成音声では、従来のものにみられた合成音声
の振幅の異常増大はみられず、はぼ同じ振幅になる。ま
た、聴覚的にも従来の合成音声にみられるように、振幅
の異常増大部が強調されて聞こえるということもない。

効　　果以上のように本発明に従えば、合成音に関する異常共振
検出を行ない、したがって音源のゲインを、合成音のゲ
インが異常増大しないように設定することができた。し
たがって合成音に関して、振幅の異常増大が発生するこ
とを防ぐことができ、原音声と同じ振幅にすることがで
きる。また振幅の異常増大部が強調されて聞こえるとい
う現象を防ぐことができる。

【図面の簡単な説明】

第１図は本発明に依る線形予測分析合成系の分析部を示
すブロック図、第２図は本発明に依る分析部に於ける異
常共振検出・音源ゲイン設定部１０の構成を示すブロッ
ク図、第３図は異常共振検出アルゴリズムを示すフロー
チャート、第４図は本発明の効果を示す波形図、第５図
は先行技術の一般的な線形予測による分析合成系の分析
部を示すブロック図である。１０・・・異常共振検出・補正係数設定部、１１・・・
平方根演算部、１２・・・自己相関部、１４・・・ブリ
・エン７アシス、１５・・・パワーＷ、出部、１．６・
・・ＬＰＣ分析部、１７・・・異常共振検出部、１８・
・・補正係数算出部、１９・・・パラメータ算出部、２
０・・・ピッチ抽出・有声無声判定部

Claims

【特許請求の範囲】音声波形を予め定める期間単位に、線形予測分析を行な
い、振幅情報として残差波形のパワーを、１期間あたり
の音源のパワーとなるよう設定する音声分析合成に於い
て、原波形の２次の共振系による同定から求めた共振周波数
とピッチ抽出器によるピッチ周波数との差と、共振周波
数とをピッチ周波数に設定して、２次の共振系の同定を
行なうことで得られる共振の帯域幅が、それぞれある閾
値以下のとき、異常共振すなわちホルマント帯域幅の過
少推定による合成波形のゲインの異常増大の可能性が在
ると判断し、ピッチ周波数と帯域幅とから定める補正係
数を残差パワーに掛けて得られる値、またはその平方根
を、１期間あたりの音源パワー、または音源ゲインとし
て設定することにより合成音のゲインの異常増大を防ぎ
、かつ異常共振を検出するようにしたことを特徴とする
音声分析合成に於ける音源ゲイン設定方式。