JPH02284200A

JPH02284200A - 音声分析合成方式

Info

Publication number: JPH02284200A
Application number: JP1104420A
Authority: JP
Inventors: Shoichi Takeda; 武田　昌一; Yoshiaki Asakawa; 浅川　吉章; Hiroshi Ichikawa; 市川　熹
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1989-04-26
Filing date: 1989-04-26
Publication date: 1990-11-21

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】【産業上の利用分野】

本発明は音声分析および合成方式に係わり、特に規則合
成における女声の音質改善に関する。（従来の技術］任意の文章或いは単語のテキストより、これに対応する
音声を合成する手法は「規則による音声合成」或いは単
に「規則合成」と呼ばれている。規則合成の音声では、一般に、音韻のつながりや、持続
時間、或いはピッチ変化などの特徴を外部から規則によ
り与えているため、自然の音声のものとは異なっている
。したがって、規則合成による音声は、これらの自然の
音声の特徴をそのまま保存しているいわゆる「分析合成
」による音声の音質より悪い。特に女声の場合、上記の
要因以外に、女声特有の音質劣化が起こる。この音質劣
化は、女性の声が高いことに起因している。すなわち、
女声の基本周波数（声の高さを規定する周波数）はほぼ
１５０〜４００［Ｈｚｌに分布しており、この周波数帯
には／ｉ／、／　ｕ　／、鼻音等の第１ホルマント周波
数が含まれる。そのため、これらの音韻では、基本周波
数と第１ホルマント周波数の分離が困難であり、線形予
測分析（ＬＰＧ分析）を行っても第１ホルマントを反映
するスペクトル包絡成分とピッチを反映する音源成分と
に完全には分離できない。一般に、分析の次数（スペク
トル包絡パラメータの個数）を通常使われる８〜１２次
に設定すると、上記の音韻では基本周波数近傍に鋭いス
ペクトルのピークを持つようにスペクトル包絡パラメー
タの値が設定されてしまう。そのため、従来のＰＡＲＣＯＲ或いはＬＳＰ分析合成方
式のように極端にモデル化した音源を用いると、スペク
トル包絡パラメータに担われた音源特性にモデル音源の
特性が重畳して、合成音声波形の異常な振幅の膨張や、
基本周波数と第１ホルマント周波数の微妙なずれに基づ
くうなりにより、著しい音質劣化が起こる。分析合成の
場合は、この音質劣化は、発明者らが既に出願した「音
声分析合成方式」　（特開昭６Ｏ−１５０１００）　、
　−この方式を″残差圧縮法″と呼んでいる−の採用に
より防ぐことが可能である。すなわち、音声分析の段階
で抽出した残差波形の情報を合成器の音源として用いて
いるため、スペクトル包絡パラメータと音源パラメータ
の情報の相補効果により、上記のような音源の重畳やう
なりは発生しない。しかしながら、規則合成の場合は、
基本周波数は実音声を分析・抽出して求めたものと異な
る値を外部から与えるため、上記の相補効果は一般には
期待できない。したがって、広範囲に基本周波数を変化
させて音声を合成する規則合成では、やはり上記の音質
劣化が発生する。このような音質劣化の影響を受は難くするために、従来
、自己相関関数に重み係数を乗することによりスペクト
ルを平滑化する「ラグ窓」と呼ばれる方法が考案されて
いる（特公昭６ｌ−１３６００）。

【発明が解決しようとする課題】

上記従来技術は、本来、モデル音源を用いたＰＡＲＣＯ
Ｒ分析合成方式の音質改善を目的として開発されたもの
である。ところで、ＰＡＲＣＯＲ分析合成方式は、音源
を極端に単純化しているために音質上の限界があり、機
械音以上の音質は望めない。そこで、人間らしい音質を
得るために、前記残差圧縮法が開発された。ところが、
この残差圧縮法に、ＰＡＲＣＯＲ方式の場合に最適であ
った条件と同一の条件でラグ窓を適用しても、必ずしも
高品質な合成音声が得られない。ここで、この「条件」について説明する。この「条件」
とは、スペクトルの平滑化の度合いのことであり、これ
を制御するパラメータは、″等価帯域幅″と呼ばれてい
る。以下、この「等細帯域幅」をｆｅで表すことにする
。スペクトルは、ｆｅの値を増大させる程、より平滑に
なり、上記振幅歪に基く音質劣化を防止する効果が大き
くなる。その反面、副作用として、偽のホルマントの山
が発生し、スペクトル歪による音質劣化が起こる。そこ
でＰＡＲＣＯＲ方式においては、波形振幅歪が適度に抑
えられ、しかもスペクトル歪も程々に抑えられる兼ね合
いから、最適なｆｅの値として、ｆｅ：１２０１１ｚと
いう値が用いられていた。ところで、残差圧縮法の場合にこのｆｅ”１２０Ｈｚと
いう値が必ずしも最適でないのは１次の理由による。す
なわち、ＰＡＲＣＯＲ方式の場合に、合成器には、１ピ
ツチにつき１本の音源パルスしか与えなかったので、次
のピッチ周期になるまで、合成器の応答波形は十分減衰
し、次のパルスによる応答波形への影響は少なかった。しかし、残差圧縮法の場合、合成器に複数本のパルスを
与えるため、前の音源パルスによる合成器の応答波形が
十分に減衰しないうちに、次々に続くパルスによる応答
波形が重畳され、振幅が膨張するために振幅歪が十分除
去出来ない。本発明の目的は、残差圧縮法とラグ窓を組合せ使用し、
ラグ窓による波形振幅歪低減効果を十分活用できる条件
を設定することにより、本来の残差圧縮法の特長を損う
ことなく、高品質な合成音声、特に高品質な女声を得る
方法を提供することにある。なお、ラグ窓の詳細については、電子通信学会論文誌Ｖ
ｏ１．Ｊ６１−Ａ　Ｎａ３．　ＰＰ、２５４−２６１．
　ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓ　Ｏｎ　Ａｃｏｕ
ｓｔｉｃｓ、　５ｐｅｅｃｈ、　ａｎｄＳｉｇｎａｌ　
Ｐｒｏｃｅｓｓｉｎｇ、　Ｖｏｌ、　ＡＳＳＰ−２６，
ＮＯ３，ＰＰ５８７−５９６が参考になる。

【課題を解決するための手段】

第１図は、本発明における音声分析部の基本構成を示し
たものであり、この分析結果より、高品質な合成音声を
得るポイントは、等細帯域＠ｆｅの与え方にある。図に
おいて、ｆｅの値を大きくする程、スペクトル平滑化効
果が増大し、合成音声の波形振幅歪が低減する。第２図
は、ｆｅの値によるスペクトル平滑化の効果の差異を示
したものであり、平滑化効果が大きい程１合成器の特性
が制動的になることが判る。そこで、波形振幅歪を十分
に低減させるために、ｆｅの値をＰＡＲＣＯＲ方式の場
合の最適値ｆｅ”１２０Ｈｚより、更に大きい値に設定
してやれば良い。

【作用】

第３図は、第１図の分析手段において、ラグ窓の等細帯
域幅ｆｅを様々な値に変化させたときの、合成音声波形
の振幅包絡形を示したものである。原音声波形との比較により、ｆｅ：３００Ｈ２で振幅歪
が目立たなくなり、更にｆｅ≧３６０Ｈｚでは振幅包絡
形が原音声のそれと殆ど変らなくなることが判る。本発明は、この実験的事実を利用して、　　ｆｅ≧３０
０１！ｚに設定して高品質な合成音声を得ようとするも
のである。特にｆｅ＝３６０Ｈｚに設定するのが最適で
ある。また、ＰＡＲＣＯＲ方式において問題であった、スペク
トル歪（例えば第２図（ｃ）のスペクトル包絡形は、山
の数が増える程に著しく歪んでいる）は、残差情報に組
み入れられるので、合成時に相殺されて、聴覚的には問
題にならなくなる。これは、残差情報を用いることによ
る大きな利点である。なお第１図では、スペクトル包絡パラメータとしてＰＡ
ＲＣＯＲ係数を用いた例を示しているが、勿論ＬＳＰパ
ラメータ等他のパラメータを用いても同様に、有効な結
果が得られる。【実施例１以下、本発明の実施例を第４図により説明する。第４図は、上で述べた原理を応用した音声分析合成系の
一例を示している。ここで、基本周波数ｆ、を規則によ
り与えれば、規則合成になる。以下の説明は、１フレ一
ム分の処理について行うが。全体の音声データについては、ここで述べる処理を逐次
的に繰り返すことにより、適用することができる。まず、入力音声波形Ｘ、が自己相関計算手段１に入力さ
れ、その出力として自己相関関数νＩ（ｉ”０、１．０
、ｖ１、ｖ２、・・・ｒ　ｐ；　Ｐは線形予測の次数）
が得られる。他方、公知の手段（例えば上記特許請求の
範囲第２項に示した式）により、等側布域幅ｆｅ≧３０
０Ｈｚを満足するラグ窓の重み係数ｗ１を予め計算して
おき、ＲＯＭ２に格納しておく。そして、上記自己相関
関数ｖ１に上記重み係数υ１を乗算手段３により乗じ、
その結果得られた修正自己相関関数ｖｔ’　（＝（ｇ＋
ｖｔ）に基いてＰＡＲＣＯＲ係数計算手段（あるいはＬ
ＰＣパラメータ計算手段でも良い）４によりＰＡＲＣＯ
Ｒ係数に、を求める。更にこれらの値を合成器の逆特性
を持つ逆フィルタ５に設定する。しかる後に、原音声波
形Ｘ４をこの逆フィルタ５に通過させ、その出力として
残差波形Ｕ、を得る。そして次に、基本周波数変換手段
６により、残差波形Ｕ、を予め他の手段により求めてお
いた基本周波数値ｆ０の残差波形に変形し、これを合成
器７の音源波形ｕ〃とする。ここで、基本周波数変換手段６は、公知の代表残差抽出
手段と音源生成手段を用いることによって実現できる。すなわち、まず代表残差抽出手段により、１ピッチ分の
残差波形（代表残差）が抽出される。次いで、代表残差
は音源生成手段により、他から与えられた基本周波数ｆ
０に相当するピッチ周期ごとの繰り返し波形に変換され
る。但し、無声音の場合は１フレ一ム分の残差がそのま
ま出力される。この音源生成手段からの出力として、音
源波形ｕ、Ｉ＋が得られる。最後に、音源波形ｕ、ＩＩが予めスペクトル包絡パラメ
ータ値（ＰＡＲＣＯＲ係数ｋｌ）が設定されている合成
器７に入力され、その出力として合成音声波形ＸＪ’　
が得られる。ここで、ＬＳＰ　（線スペクトル対）分析合成方式を使
いたい場合には、スペクトル包絡パラメータとしてＬＳ
Ｐパラメータを抽出すれば良い。Ｌｓｐパラメータは、
公知のＰＡＲＣＯＲ−ＬＳＰ変換器（あるいはＬＰＣ−
ＬＳＰ変換器）により容易に求めることができる。本実施例によれば、スペクトル歪による音質劣化を来す
ことなく、基本周波数帯でのスペクトル包絡の急峻なピ
ークを抑制する効果がある。【発明の効果１既に第３図に示したように、ラグ窓を残差圧縮法に適用
する場合、等細帯域幅ｆｅをｆｅ≧３００Ｈｚに設定す
ることにより、有効に波形振幅歪に基く音質劣化を防ぐ
ことが出来る。特にｆｅ＝３６Ｏｆｌｚは最適な値であ
り、合成音声波形の振幅包絡形は、原音声のそれと殆ど
一致する。なおｆｅを大きくした場合の副作用としての、スペクト
ル歪の増大による音質劣化は、残差情報利用による歪相
殺効果により、聴覚的には生じない。事実２０名の被験者による、聴取による音質評価実験を
行った結果、了解性、自然性共に劣化は認められなかっ
た。以上示したように、本発明によれば、ピッチと第１ホル
マントの干渉に起因する音質劣化を有効に防ぐことが可
能であり、残差圧縮性本来の、人間らしい、高品質合成
音声が得られる。特に、女声の合成音声の音質改善に顕
著な効果がある。とりわけ、規則合成のように、外部か
ら基本周波数を与える場合の音質改善効果は著しい。

【図面の簡単な説明】

第１図は本発明の特徴（基本構成）を示す図、第２図（
ａ）　、　（ｂ）　、　（ｃ）は等細帯域幅ｆｅのそれ
ぞれの値に対するスペクトル平滑化の効果を示す図、第
３図は本発明の詳細な説明する図、第４図は本発明の実
施例を示す図である。符号の説明１：自己相関計算手段２　：　ＲＯＭ　（ラグ窓の重み係数が格納されている
）３：乗算手段第？区ゴ０え）乎ンＹイ鎮用ズｒｙ（ｆｅ−）λｐＨｚ）（ｆｅ　＝３１ｔｒＨｘ）第３目女シ／−１．Ｌ、゛区／ｆｅ丸ρ埼ヂ・４Ｆρｄｌｆ、−ｔρρ＆

Claims

【特許請求の範囲】１、音声波形をスペクトル包絡のパラメータと、音源の
パラメータに分解する音声分析方式において、音声波形
から求めた自己相関関数ｖ＿０、ｖ＿１、ｖ＿２、・・
・、ｖ＿ｉ、・・・に重み係数ｗ＿０、ｗ＿１、ｗ＿２
、・・・、ｗ＿ｉ、・・・を乗じたスペクトル平滑化さ
れた自己相関関数ｗ＿０ｖ＿０、ｗ＿１ｖ＿１、ｗ＿２
ｖ＿２、・・・、ｗ＿ｉｖ＿ｉ、・・・に基きスペクト
ル包絡パラメータ（線形予測係数、ＰＡＲＣＯＲ係数、
ＬＳＰパラメータ等）を求め、該スペクトル包絡パラメ
ータの値を合成器の逆フィルタに与え、該逆フィルタに
該音声波形を通過させることにより得られる残差波形を
求めることを特徴とする音声分析方式。２、特許請求の範囲第１項記載の音声分析方式において
、上記重み係数ｗ＿ｉをｗ＿１＝（＿２＿ｎＣ＿ｎ≒＿１）／（＿２＿ｎＣ＿ｎ
）、ｃｏｓ＾２＾ｎ〔（πｆｅ）／（２ｆｓ）〕＝１／
２、かつｆｅ≧３００Ｈｚ（π：円周率、ｆｅ：等価帯
域幅、ｆｓ：サンプリング周波数）を満足するような値として決定することを特徴とする音
声分析方式。３、特許請求の範囲第１項記載の音声分析方式において
、上記重み係数ｗ＿１を等価帯域幅ｆｅ≧３００Ｈｚを
満足し、かつ特許請求の範囲第２項記載の計算手段以外
の手段で求めることを特徴とする音声分析方式。４、特許請求の範囲第１〜３項記載の音声分析方式によ
り求めたスペクトル包絡パラメータ、および該音声分析
方式により求めた残差波形を基に生成した音源波形を用
いることを特徴とする音声合成方式。