JPH02294699A

JPH02294699A - 音声分析合成方式

Info

Publication number: JPH02294699A
Application number: JP1114938A
Authority: JP
Inventors: Shoichi Takeda; 武田　昌一
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1989-05-10
Filing date: 1989-05-10
Publication date: 1990-12-05

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

［産業上の利用分野】本発明は音声分析および合成方式に係わり、特に規則合
成における女声の音質改善に関する。

【従来の技術】

任意の文章或いは単語のテキストより、これに対応する
音声を合成する手法は「規則による音声合成」或いは単
に「規則合成」と呼ばれている。規則合成の音声では、一般に，音韻のつながりゃ、持続
時間，或いはピッチ変化などの特徴を外部がら規則によ
り与えているため，自然の音声のものとは異なっている
．したがって、規則合成による音声は、これらの自然の
音声の特徴をそのまま保存しているいわゆる「分析合成
」による音声の音質より悪い。特に女声の場合、上記の
要因以外に、女声特有の音質劣化が起こる．この音質劣
化は、女性の声が高いことに起因している。すなわち、
女声の基本周波数（声の高さを規定する周波数）はほぼ
１５０〜４００　［Ｈｚ］に分布しており、この周波数
帯には／　ｉ　／、／ｕ／、鼻音等の第１ホルマント周
波数が含まれる。そのため、これらの音韻では、基本周
波数と第１ホルマント周波数の分離が困難であり，線形
予測分析（ＬＰＧ分析）を行っても第１ホルマントを反
映するスペクトル包終成分とピッチを反映する音源成分
とに完全には分離できない．一般に，分析の次数（スペ
クトル包終パラメータの個数）を通常使われる８〜１２
次に設定すると、上記の音韻では基本周波数近傍に鋭い
スペクトルのピークを持つようにスペクトル包絡パラメ
ータの値が設定されてしまう。そのため、従来のＰＡＲＣＯＲ或いはＬＳＰ分析合成方
式のように極端にモデル化した音源を用いると、スペク
トル包終パラメータに担わ九た音源特性にモデル音源の
特性が重畳して、合成音声波形の異常な振幅の膨張や、
基本周波数と第１ホルマント周波数の微妙なずれに基づ
くうなりにより、著しい音質劣化が起こる．分析合成の
場合は、この音質劣化は，例えば，発明者らが既に出願
した『音声分析合成方式Ｊ　（特開昭６０−１５０１０
０、一この方式を″残差圧縮法″と呼んでいる）の採用
により防ぐことが可能である．すなわち、音声分析の段
階で抽出した残差波形の情報を合成器の音源として用い
ているため，スペクトル包絡パラメータと音源パラメー
タの情報の相補効果により，上記のような音源の重畳や
うなりは発生しない。しかしながら，Ｒ則合成の場合は
，基本周波数は実音声を分析・抽出して求めたものと異
なる値を外部から与えるため、上記の相補効果は一般に
は期待できない．したがって、広範囲に基本周波数を変
化させて音声を合成する規則合成では，やはり上記の音
質劣化が発生する。このような音質劣化の影響を受け難くするために、従来
、自己相関関数に荷重係数を乗ずることによりスペクト
ルを平滑化する「ラグ窓」と呼ばれる方法が考案されて
いる（特公昭６１−１３６００）。［発明が解決しようとする課題】上記従来技術は、本来、モデル音源を用いたＰＡＲＣＯ
Ｒ分析合成方式の音質改善を目的として開発されたもの
である．ところで、ＰＡＲＣＯＲ分析合成方式は，音源
を極端に単純化しているために音質上の限界があり、機
械音以上の音質は望めない。そこで，人間らしい音質を
得るために、前記残差圧縮法，あるいはマルチパルス法
と呼ばれる複数音源パルスを利用する分析合成方式が開
発された。ところが，この残差圧縮法あるいはマルチパルス法に、
ＰＡＲＣＯＲ方式の場合に最適であった条件と同一Ｎ条
件でラグ窓を適用しても、必ずしも高品質な合成音声が
得られない。ここで，この「条件」について説明する。この「条件」
とは、スペクトルの平滑化の度合いのことであり、これ
を制御するパラメータは、″等価帯域幅″と呼ばれてい
る．以下、この「等価帯域輻」をｆｅで表すことにする
。スペクトルは、ｆｅの値を増大させる程、より平滑に
なり，上記振幅歪に基《音質劣化を防止する効果が大き
くなる．その反面、副作用として，偽のホルマントの山
が発生し，スペクトル歪による音質劣化が起こる。そこ
でＰＡＲＣＯＲ方式においては，波形振幅歪が適度に抑
えられ、しかもスペクトル歪も程々に抑えられる兼ね合
いから、最適なｆ６の値として、ｆｅ＝１２０Ｈｚとい
う値が用いられていた。ところで，残差圧縮法やマルチパルス法の場合に、この
ｆ。＝１２０Ｈｚという値が必ずしも最適でないのは，
次の理由による．すなわち、ＰＡＲＣＯＲ方式の場合に
、合成器には、１ピッチにつき１本の音源パルスしか与
えなかったので，次のピッチ周期になるまで、合成器の
応答波形は十分減衰し、次のパルスによる応答波形への
影響は少なかった。しかし、残差圧縮法等の場合、合成
器に複数本のパルスを与えるため、前の音源パルスによ
る合成器の応答波形が十分に減衰しないうちに、次々に
続くパルスによる応答波形が重畳され，振幅が膨張する
ために振幅歪が十分除去出来ない。本発明の目的は、マルチパルス法とラグ窓を組合せ使用
し、ラグ窓による波形振幅歪低減効果を十分活用できる
条件を設定することにより、本来のマルチパルス法の特
長を損うことなく，高品質な合成音声，特に高品質な女
声を得る方法を提供することにある．なお，ラグ窓の詳細については、電子通信学会論文誌Ｖ
Ｏｌ．Ｊ６１−Ａ　ＮＱ３，ＰＰ．２５４−２６１．　
ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓ　Ｏｎ　Ａｃｏｕｓ
ｔｉｃｓ，　Ｓｐｅｅｃｈ＋　ａｎｄＳｉｇｎａｌ　Ｐ
ｒｏｃｅｓｓｉｎｇ，　ＶＯＩ，ＡＳＳＰ−２６，ＮＱ
６，　ｐｐ，５８７−５９６．に，またマルチパルス法
の詳細については、Ｐｒｏｃ．　ＩＣＡＳＳＰ−８２，
　ｐｐ，６１４−６１７　（１９８２）．　ｆａ子通信
学会技術報告ＣＳ８２−１６１，　Ｐｐ．１１５−１２
２　（１９８３−３）が参考になる．

【課題を解決するための手段】

第１図は、本発明における音声分析部の基本構成を示し
たものであり、この分析結果より，高品質な合成音声を
得るポイントは、等価帯域幅ｆ８の与え方にある．図に
おいて、ｆｅの値を大きくする程５スペクトル平滑化効
果が増大し、合成音声の波形振幅歪が低減する．第２図
は、ｆａの値によるスペクトル平滑化の効果の差異を示
したものであり、平滑化効果が大きい程，合成器の特性
が制動的になることが判る．そこで，波形振幅歪を十分
に低減させるために、ｆ８の値をＰＡＲＣＯＲ方式の場
合の最適値ｆｅ”ｌ２０｝！ｚより、更に大きい値に設
定してやれば良い．［作用１第３図は，公知例５に示した残差圧縮法を用いた分析手
段において、ラグ窓の等価帯域ｆＨＨｅを様々な値に変
化させたときの、合成音声波形の振幅包絡形を示したも
のである．原音声波形との比較により、ｆｅ＝３００１
１ｚで振幅歪が目立たなくなり、更にｆ８≧３６０｝１
ｚでは振幅包絡形が原音声のそれと殆ど変らなくなるこ
とが判る。本発明は、この残差圧縮法による実鹸的事実をマルチパ
ルス法に応用して、ｆｅ≧３００１１ｚに設定して高品
質な合成音声を得ようとするものである。特にｆｅ”３６０１１ｚに設定するのが最適である。また、ＰＡＲＣＯＲ方式において問題であった，スペク
トル歪（例えば第２図（ｃ）のスペクトル包絡形は、山
の数が増える程に著しく歪んでいる）は，マルチパルス
音源情報に組み入れられるので，合成時に相殺されて．
聴覚的には問題にならなくなる。これは、マルチパルス
音源情報を用いることによる大きな利点である。なお第１図では，スペクトル包絡パラメータとしてＰＡ
ＲＣＯＲ係数を用いた例を示しているが、勿論ＬＳＰパ
ラメータ等他のパラメータを用いても同様に，有効な結
果が得られる．

【実施例１以下、本発明の実施例を第４〜６図により説明する。第４図は，上で述べた原理を応用した音声分析？成系の
一例を示している。ここで，基本周波数ｆ０を規則によ
り与えれば、規則合成になる。以下の説明は，１フレー
ム分の処理について行うが，全体の音声データについて
は，ここで述べる処理を逐次的に繰り返すことにより，
適用することができる。まず、入力音声波形Ｘ■が自己相関計算手段１に入力さ
れ、その出力として自己相関関数ｖ．　（ｉ＝０，　ｌ
，　２，・・・，ｐ；ρは線形予測の次数）が得られる
．他方、公知の手段（例えば上記特許請求の範囲第５項
に示した式）により、等価帯域幅ｆ６≧３００Ｈｚを満
足するラグ窓の荷重係数Ｖ．を予め計算しておき、ＲＯ
Ｍ２に格納しておく．そして、上記自己相関関数Ｖｌに
上記荷重係数Ｖ，を乗算手段３により乗じ、その結果得
られた修正自己相関関数Ｓ　（＝，１ｖｔ）に基いてＰ
ＡＲＣＯＲ係数計算手段（あるいはＬＰＧパラメータ計
算手段でも良い）４によりＰＡＲＣＯＲ係数ｋ＋を求め
る。更にこれらの値をマルチパルス生成手段５に設定し
，原音声波形ＸＪを入力してマルチパルス波形Ｕ，を得
る。ここで，マルチパルス生成手段は，公知の方法（例
えば前記公知例８）により実現できる．そして次に，基
本周波数変換手段６により、マルチパルス波形Ｕ，を予
め他の手段により求めておいた基本周波数値ｆ０のマル
チパルス波形に変形し、これを合成器７の音源波形ｕＩ
ｔとする。ここで、基本周波数変換手段６は、公知の代表残差抽出
手段と音源生成手段を用いることによって実現できる。すなわち、まず代表残差抽出手段により、１ピッチ分の
マルチパルス波形（代表マルチパルス）が抽出される。次いで，代表マルチパルスは音源生成手段により、他か
ら与えられた基本周波数ｆ。に相当するピッチ周期ごと
の繰り返し波形に変換される．但し、無声音の場合は１
フレーム分のマルチパルスがそのまま出力される。この音源生成手段からの出力として５音源波形ｕ，ＩＩ
が得られる。最後に，音源波形ｕ，／ｌが予めスペクトル包終パラメ
ータ値（ＰＡＲＣＯＲ係数ｋｌ）が設定されている合成
器７に入力され、その出力として合成音声波形ｘＪ′　
が得られる．ここで、ＬＳＰ　（線スペクトル対）分析合成方式を使
いたい場合には，スペクトル包絡パラメータとしてＬＳ
Ｐパラメータを抽出すれば良い。Ｌｓｐパラメータは，
公知のＰＡＲＣＯＲ−ＬＳＰ変換器（あるいはＬＰＧ−
ＬＳＰ変換器）により容易に求めることができる。第５図は、第２の実施例であり，第１の実施例との相違
は、ラグ窓をマルチパルス生成時に適用する点である．
ここでは、ＰＡＲＣＯＲ係数は、音声波形から直接求め
る。代りに、マルチパルス生成手段５の中で，合成フィ
ルタのインパルス応答の自己相関関数、およびこのイン
パルス応答と入力音声の相互相関関数にラグ窓を作用さ
せる。いずれの実施例であっても、ラグ窓により，イン
パルス応答の振動性を抑制する作用は全く同様であり５
同等の音質改善効果が得られる。もちろん上記自己およ
び相互相関関数は、聴覚的重み付けが施されたものであ
っても良い。第６図は、第３の実施例である。本実施例は、マルチパ
ルス法におけるスペクトル平滑化に、ラグ窓を使う代り
に、Ｂ　Ｆ　Ｆ　（ｒｌａｎｄｗｉｄｔｈＦｌａｔｔａ
ｎｉｎｇ　Ｆｉｌｔｅｒ）　ｊ　８　（前記公知例４）
を使うことを特徴としている。ラグ窓とＢＦＦの相違は
、後者はスペクトル平滑化の効果は第１ホルマント領域
のみに限定され，高次ホルマントで不要なスペクトル平
滑化が行われないことである。ただし、マルチパルス法
を用いる場合は、マルチパルス波形が高次ホルマント領
域におけるスペクトル平滑化による歪を吸収するため、
合成時には，この歪による音質劣化は起こらない。した
がって、ラグ窓であっても、ＢＦＦであっても、合成音
声の音質は、殆ど同等である。ｔ現在では、より適切な名称として、Ｆ　Ｓ　Ａ　Ｆ（
Ｆｒｅｑｕｅｎｃｙ−Ｓｅｌｅｃｔｉｖｅ　Ａｄａｐｔ
ｉｖｅ　Ｆｉｌｔｅｒ）と呼んでいる．上記３実施例によれば、スペクトル歪による音質劣化を
来すことなく、基本周波数帯でのスペクトル包絡の急峻
なピークを抑制する効果がある。［発明の効果】既に第３図に示したように、ラグ窓をマルチパルス法に
適用する場合、等価帯域幅ｆｅをｆｅ≧３　０　０　Ｈ
ｚに設定することにより、有効に波形振φｇ歪に基く音
質劣化を防ぐことが出来る。特にｆｅ”３６０ｆ！ｚは
最適な値であり、合成音声波形の振幅包絡形は、原音声
のそれと殆ど一致する。なおｆｅを大きくした場合の副作用としての、スペクト
ル歪の増大による音質劣化は、マルチパルス情報利用に
よる歪相殺効果により，＠覚的には生じない。以上示したように，本発明によれば、ピッチと第１ホル
マントの干渉に起因する音質劣化を有効に防ぐことが可
能であり、マルチパルス法本来の、人間らしい、高品質
合成音声が得られる。特に、女声の合成音声の音質改善
に顕著な効果がある。とりわけ，規則合成のように，外部から基本周波数を与
える場合の音質改善効果は著しい。

【図面の簡単な説明】

第１図：本発明の特徴（基本構成）を示す図。第２図〜第３図二本発明の効果を説明する図。第４図〜第６図二本発明の実施例を示す図。符号の説明１：自己相関計算手段２　：　ＲＯＭ　（ラグ窓の荷重係数が格納されている
）３：乗算手段５．マルチパルス生成手段８、Ｂ　ＦＦ第１図第２目Ａ〕５４化盈毘灯゛（Ａ）　ラ２π （　ｆｅ　Ｊ２ｏＨｒ）（りラ２　支（ｆｚ−ＪκらＪ′／Ｌ）第４図第３２ル・３ｚρｈｆ，＝げａｄｚｆ６′２ρρｓｌ第５図

Claims

【特許請求の範囲】１、音声波形をスペクトル包絡のパラメータと、音源の
パラメータに分解する音声分析部を有し、音源パラメー
タを原音声波形と該原音声波形を分析・合成して得られ
る合成音声波形との聴覚的重み付け（第１の荷重）誤差
が最小となるような時点かつ振幅値に設定することによ
り生成させた複数個のパルス列（音源パルス）として得
ることを特徴とする音声分析方式（マルチパルス音源駆
動法による音声分析方式、略して”マルチパルス法”と
呼ぶ）において、該原音声波形から求めた自己相関関数
（第１の自己相関関数）ｖ＿０、ｖ＿１、ｖ＿２、・・
・、ｖ＿ｉ、・・・に荷重（第２の荷重）係数ｗ＿０、
ｗ＿１、ｗ＿２、・・・、ｗ＿ｉ、・・・を乗じたスペ
クトル平滑化された自己相関関数（第２の自己相関関数
）ｗ＿０ｖ＿０、ｗ＿１ｖ＿１、ｗ＿２ｖ＿２、・・・
、ｗ＿ｉｖ＿ｉ、・・・に基きスペクトル包絡パラメー
タ（線形予測係数、ＰＡＲＣＯＲ係数、ＬＳＰパラメー
タ等）を求めることを特徴とする音声分析方式。２、特許請求の範囲第１項記載の音声分析方式において
、上記分析・合成における合成フィルタのインパルス応
答と該聴覚的重み付け（第１の荷重）フィルタのインパ
ルス応答の畳み込みで表現される重み付け合成フィルタ
のインパルス応答の自己相関関数（第３の自己相関関数
）、および該原音声波形と該重み付け（第１の荷重）フ
ィルタのインパルス応答の畳み込みで表現される重み付
け原音声と上記重み付け合成フィルタのインパルス応答
の相互相関関数（第１の相互相関関数）より音源パルス
を計算することを特徴とする音声分析方式。３、特許請求の範囲第２項記載の音声分析方式において
、上記第１の自己相関関数に基きスペクトル包絡パラメ
ータを求め、更に該スペクトル包絡パラメータに基き上
記第３の自己相関関数および上記第１の相互相関数を求
め、該第３の自己相関関数および該第１の相互相関数に
それぞれ、荷重（第２の荷重）係数を乗じたスペクトル
平滑化された自己相関関数（第４の自己相関関数）およ
び第２の相互相関関数より音源パルスを計算することを
特徴とする音声分析方式。４、特許請求の範囲第３項記載の音声分析方式において
、上記第３の自己相関関数および上記第１の相互相関関
数を聴覚的重み付け（第１の荷重）を施さない上記合成
フィルタおよび上記原音声波形に基き求めることを特徴
とする音声分析方式。５、特許請求の範囲第１、２、３又は４項記載の音声分
析方式において、上記第２の荷重係数ｗ＿ｉを ▲数式、化学式、表等があります▼、ｃｏｓ＾２＾ｎ（πｆｅ／２ｆｓ）＝１／２かつｆｅ≧
３００Ｈｚ（π：円周率、ｆｅ：等価帯域幅、ｆｓ：サ
ンプリング周波数）を満足するような値として決定することを特徴とする音
声分析方式。６、特許請求の範囲第１、２、３又は４項記載の音声分
析方式において、上記第２の荷重係数ｗ＿ｉを等価帯域
幅ｆｅ≧３００Ｈｚを満足し、かつ特許請求の範囲第５
項記載の計算手段以外の手段で求めることを特徴とする
音声分析方式。７、特許請求の範囲第１〜４項記載のマルチパルス法に
おいて、上記原音声波形を予め定めた周波数以下でホル
マントピークのレベルを低下させる特性のフィルタ（Ｂ
ＦＦ）に通過させた後の波形を基に上記スペクトル包絡
パラメータを求めることを特徴とする音声分析方式。