JPH02294699A - 音声分析合成方式 - Google Patents
音声分析合成方式Info
- Publication number
- JPH02294699A JPH02294699A JP1114938A JP11493889A JPH02294699A JP H02294699 A JPH02294699 A JP H02294699A JP 1114938 A JP1114938 A JP 1114938A JP 11493889 A JP11493889 A JP 11493889A JP H02294699 A JPH02294699 A JP H02294699A
- Authority
- JP
- Japan
- Prior art keywords
- analysis method
- speech
- waveform
- voice
- pulse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
[産業上の利用分野】
本発明は音声分析および合成方式に係わり、特に規則合
成における女声の音質改善に関する。
成における女声の音質改善に関する。
任意の文章或いは単語のテキストより、これに対応する
音声を合成する手法は「規則による音声合成」或いは単
に「規則合成」と呼ばれている。 規則合成の音声では、一般に,音韻のつながりゃ、持続
時間,或いはピッチ変化などの特徴を外部がら規則によ
り与えているため,自然の音声のものとは異なっている
.したがって、規則合成による音声は、これらの自然の
音声の特徴をそのまま保存しているいわゆる「分析合成
」による音声の音質より悪い。特に女声の場合、上記の
要因以外に、女声特有の音質劣化が起こる.この音質劣
化は、女性の声が高いことに起因している。すなわち、
女声の基本周波数(声の高さを規定する周波数)はほぼ
150〜400 [Hz]に分布しており、この周波数
帯には/ i /、/u/、鼻音等の第1ホルマント周
波数が含まれる。そのため、これらの音韻では、基本周
波数と第1ホルマント周波数の分離が困難であり,線形
予測分析(LPG分析)を行っても第1ホルマントを反
映するスペクトル包終成分とピッチを反映する音源成分
とに完全には分離できない.一般に,分析の次数(スペ
クトル包終パラメータの個数)を通常使われる8〜12
次に設定すると、上記の音韻では基本周波数近傍に鋭い
スペクトルのピークを持つようにスペクトル包絡パラメ
ータの値が設定されてしまう。 そのため、従来のPARCOR或いはLSP分析合成方
式のように極端にモデル化した音源を用いると、スペク
トル包終パラメータに担わ九た音源特性にモデル音源の
特性が重畳して、合成音声波形の異常な振幅の膨張や、
基本周波数と第1ホルマント周波数の微妙なずれに基づ
くうなりにより、著しい音質劣化が起こる.分析合成の
場合は、この音質劣化は,例えば,発明者らが既に出願
した『音声分析合成方式J (特開昭60−15010
0、一この方式を″残差圧縮法″と呼んでいる)の採用
により防ぐことが可能である.すなわち、音声分析の段
階で抽出した残差波形の情報を合成器の音源として用い
ているため,スペクトル包絡パラメータと音源パラメー
タの情報の相補効果により,上記のような音源の重畳や
うなりは発生しない。しかしながら,R則合成の場合は
,基本周波数は実音声を分析・抽出して求めたものと異
なる値を外部から与えるため、上記の相補効果は一般に
は期待できない.したがって、広範囲に基本周波数を変
化させて音声を合成する規則合成では,やはり上記の音
質劣化が発生する。 このような音質劣化の影響を受け難くするために、従来
、自己相関関数に荷重係数を乗ずることによりスペクト
ルを平滑化する「ラグ窓」と呼ばれる方法が考案されて
いる(特公昭61−13600)。 [発明が解決しようとする課題】 上記従来技術は、本来、モデル音源を用いたPARCO
R分析合成方式の音質改善を目的として開発されたもの
である.ところで、PARCOR分析合成方式は,音源
を極端に単純化しているために音質上の限界があり、機
械音以上の音質は望めない。そこで,人間らしい音質を
得るために、前記残差圧縮法,あるいはマルチパルス法
と呼ばれる複数音源パルスを利用する分析合成方式が開
発された。 ところが,この残差圧縮法あるいはマルチパルス法に、
PARCOR方式の場合に最適であった条件と同一N条
件でラグ窓を適用しても、必ずしも高品質な合成音声が
得られない。 ここで,この「条件」について説明する。この「条件」
とは、スペクトルの平滑化の度合いのことであり、これ
を制御するパラメータは、″等価帯域幅″と呼ばれてい
る.以下、この「等価帯域輻」をfeで表すことにする
。スペクトルは、feの値を増大させる程、より平滑に
なり,上記振幅歪に基《音質劣化を防止する効果が大き
くなる.その反面、副作用として,偽のホルマントの山
が発生し,スペクトル歪による音質劣化が起こる。そこ
でPARCOR方式においては,波形振幅歪が適度に抑
えられ、しかもスペクトル歪も程々に抑えられる兼ね合
いから、最適なf6の値として、fe=120Hzとい
う値が用いられていた。 ところで,残差圧縮法やマルチパルス法の場合に、この
f。=120Hzという値が必ずしも最適でないのは,
次の理由による.すなわち、PARCOR方式の場合に
、合成器には、1ピッチにつき1本の音源パルスしか与
えなかったので,次のピッチ周期になるまで、合成器の
応答波形は十分減衰し、次のパルスによる応答波形への
影響は少なかった。しかし、残差圧縮法等の場合、合成
器に複数本のパルスを与えるため、前の音源パルスによ
る合成器の応答波形が十分に減衰しないうちに、次々に
続くパルスによる応答波形が重畳され,振幅が膨張する
ために振幅歪が十分除去出来ない。 本発明の目的は、マルチパルス法とラグ窓を組合せ使用
し、ラグ窓による波形振幅歪低減効果を十分活用できる
条件を設定することにより、本来のマルチパルス法の特
長を損うことなく,高品質な合成音声,特に高品質な女
声を得る方法を提供することにある. なお,ラグ窓の詳細については、電子通信学会論文誌V
Ol.J61−A NQ3,PP.254−261.
IEEETransactions On Acous
tics, Speech+ andSignal P
rocessing, VOI,ASSP−26,NQ
6, pp,587−596.に,またマルチパルス法
の詳細については、Proc. ICASSP−82,
pp,614−617 (1982). fa子通信
学会技術報告CS82−161, Pp.115−12
2 (1983−3)が参考になる.
音声を合成する手法は「規則による音声合成」或いは単
に「規則合成」と呼ばれている。 規則合成の音声では、一般に,音韻のつながりゃ、持続
時間,或いはピッチ変化などの特徴を外部がら規則によ
り与えているため,自然の音声のものとは異なっている
.したがって、規則合成による音声は、これらの自然の
音声の特徴をそのまま保存しているいわゆる「分析合成
」による音声の音質より悪い。特に女声の場合、上記の
要因以外に、女声特有の音質劣化が起こる.この音質劣
化は、女性の声が高いことに起因している。すなわち、
女声の基本周波数(声の高さを規定する周波数)はほぼ
150〜400 [Hz]に分布しており、この周波数
帯には/ i /、/u/、鼻音等の第1ホルマント周
波数が含まれる。そのため、これらの音韻では、基本周
波数と第1ホルマント周波数の分離が困難であり,線形
予測分析(LPG分析)を行っても第1ホルマントを反
映するスペクトル包終成分とピッチを反映する音源成分
とに完全には分離できない.一般に,分析の次数(スペ
クトル包終パラメータの個数)を通常使われる8〜12
次に設定すると、上記の音韻では基本周波数近傍に鋭い
スペクトルのピークを持つようにスペクトル包絡パラメ
ータの値が設定されてしまう。 そのため、従来のPARCOR或いはLSP分析合成方
式のように極端にモデル化した音源を用いると、スペク
トル包終パラメータに担わ九た音源特性にモデル音源の
特性が重畳して、合成音声波形の異常な振幅の膨張や、
基本周波数と第1ホルマント周波数の微妙なずれに基づ
くうなりにより、著しい音質劣化が起こる.分析合成の
場合は、この音質劣化は,例えば,発明者らが既に出願
した『音声分析合成方式J (特開昭60−15010
0、一この方式を″残差圧縮法″と呼んでいる)の採用
により防ぐことが可能である.すなわち、音声分析の段
階で抽出した残差波形の情報を合成器の音源として用い
ているため,スペクトル包絡パラメータと音源パラメー
タの情報の相補効果により,上記のような音源の重畳や
うなりは発生しない。しかしながら,R則合成の場合は
,基本周波数は実音声を分析・抽出して求めたものと異
なる値を外部から与えるため、上記の相補効果は一般に
は期待できない.したがって、広範囲に基本周波数を変
化させて音声を合成する規則合成では,やはり上記の音
質劣化が発生する。 このような音質劣化の影響を受け難くするために、従来
、自己相関関数に荷重係数を乗ずることによりスペクト
ルを平滑化する「ラグ窓」と呼ばれる方法が考案されて
いる(特公昭61−13600)。 [発明が解決しようとする課題】 上記従来技術は、本来、モデル音源を用いたPARCO
R分析合成方式の音質改善を目的として開発されたもの
である.ところで、PARCOR分析合成方式は,音源
を極端に単純化しているために音質上の限界があり、機
械音以上の音質は望めない。そこで,人間らしい音質を
得るために、前記残差圧縮法,あるいはマルチパルス法
と呼ばれる複数音源パルスを利用する分析合成方式が開
発された。 ところが,この残差圧縮法あるいはマルチパルス法に、
PARCOR方式の場合に最適であった条件と同一N条
件でラグ窓を適用しても、必ずしも高品質な合成音声が
得られない。 ここで,この「条件」について説明する。この「条件」
とは、スペクトルの平滑化の度合いのことであり、これ
を制御するパラメータは、″等価帯域幅″と呼ばれてい
る.以下、この「等価帯域輻」をfeで表すことにする
。スペクトルは、feの値を増大させる程、より平滑に
なり,上記振幅歪に基《音質劣化を防止する効果が大き
くなる.その反面、副作用として,偽のホルマントの山
が発生し,スペクトル歪による音質劣化が起こる。そこ
でPARCOR方式においては,波形振幅歪が適度に抑
えられ、しかもスペクトル歪も程々に抑えられる兼ね合
いから、最適なf6の値として、fe=120Hzとい
う値が用いられていた。 ところで,残差圧縮法やマルチパルス法の場合に、この
f。=120Hzという値が必ずしも最適でないのは,
次の理由による.すなわち、PARCOR方式の場合に
、合成器には、1ピッチにつき1本の音源パルスしか与
えなかったので,次のピッチ周期になるまで、合成器の
応答波形は十分減衰し、次のパルスによる応答波形への
影響は少なかった。しかし、残差圧縮法等の場合、合成
器に複数本のパルスを与えるため、前の音源パルスによ
る合成器の応答波形が十分に減衰しないうちに、次々に
続くパルスによる応答波形が重畳され,振幅が膨張する
ために振幅歪が十分除去出来ない。 本発明の目的は、マルチパルス法とラグ窓を組合せ使用
し、ラグ窓による波形振幅歪低減効果を十分活用できる
条件を設定することにより、本来のマルチパルス法の特
長を損うことなく,高品質な合成音声,特に高品質な女
声を得る方法を提供することにある. なお,ラグ窓の詳細については、電子通信学会論文誌V
Ol.J61−A NQ3,PP.254−261.
IEEETransactions On Acous
tics, Speech+ andSignal P
rocessing, VOI,ASSP−26,NQ
6, pp,587−596.に,またマルチパルス法
の詳細については、Proc. ICASSP−82,
pp,614−617 (1982). fa子通信
学会技術報告CS82−161, Pp.115−12
2 (1983−3)が参考になる.
第1図は、本発明における音声分析部の基本構成を示し
たものであり、この分析結果より,高品質な合成音声を
得るポイントは、等価帯域幅f8の与え方にある.図に
おいて、feの値を大きくする程5スペクトル平滑化効
果が増大し、合成音声の波形振幅歪が低減する.第2図
は、faの値によるスペクトル平滑化の効果の差異を示
したものであり、平滑化効果が大きい程,合成器の特性
が制動的になることが判る.そこで,波形振幅歪を十分
に低減させるために、f8の値をPARCOR方式の場
合の最適値fe”l20}!zより、更に大きい値に設
定してやれば良い. [作用1 第3図は,公知例5に示した残差圧縮法を用いた分析手
段において、ラグ窓の等価帯域fHHeを様々な値に変
化させたときの、合成音声波形の振幅包絡形を示したも
のである.原音声波形との比較により、fe=3001
1zで振幅歪が目立たなくなり、更にf8≧360}1
zでは振幅包絡形が原音声のそれと殆ど変らなくなるこ
とが判る。 本発明は、この残差圧縮法による実鹸的事実をマルチパ
ルス法に応用して、fe≧30011zに設定して高品
質な合成音声を得ようとするものである。 特にfe”36011zに設定するのが最適である。 また、PARCOR方式において問題であった,スペク
トル歪(例えば第2図(c)のスペクトル包絡形は、山
の数が増える程に著しく歪んでいる)は,マルチパルス
音源情報に組み入れられるので,合成時に相殺されて.
聴覚的には問題にならなくなる。これは、マルチパルス
音源情報を用いることによる大きな利点である。 なお第1図では,スペクトル包絡パラメータとしてPA
RCOR係数を用いた例を示しているが、勿論LSPパ
ラメータ等他のパラメータを用いても同様に,有効な結
果が得られる.
たものであり、この分析結果より,高品質な合成音声を
得るポイントは、等価帯域幅f8の与え方にある.図に
おいて、feの値を大きくする程5スペクトル平滑化効
果が増大し、合成音声の波形振幅歪が低減する.第2図
は、faの値によるスペクトル平滑化の効果の差異を示
したものであり、平滑化効果が大きい程,合成器の特性
が制動的になることが判る.そこで,波形振幅歪を十分
に低減させるために、f8の値をPARCOR方式の場
合の最適値fe”l20}!zより、更に大きい値に設
定してやれば良い. [作用1 第3図は,公知例5に示した残差圧縮法を用いた分析手
段において、ラグ窓の等価帯域fHHeを様々な値に変
化させたときの、合成音声波形の振幅包絡形を示したも
のである.原音声波形との比較により、fe=3001
1zで振幅歪が目立たなくなり、更にf8≧360}1
zでは振幅包絡形が原音声のそれと殆ど変らなくなるこ
とが判る。 本発明は、この残差圧縮法による実鹸的事実をマルチパ
ルス法に応用して、fe≧30011zに設定して高品
質な合成音声を得ようとするものである。 特にfe”36011zに設定するのが最適である。 また、PARCOR方式において問題であった,スペク
トル歪(例えば第2図(c)のスペクトル包絡形は、山
の数が増える程に著しく歪んでいる)は,マルチパルス
音源情報に組み入れられるので,合成時に相殺されて.
聴覚的には問題にならなくなる。これは、マルチパルス
音源情報を用いることによる大きな利点である。 なお第1図では,スペクトル包絡パラメータとしてPA
RCOR係数を用いた例を示しているが、勿論LSPパ
ラメータ等他のパラメータを用いても同様に,有効な結
果が得られる.
【実施例1
以下、本発明の実施例を第4〜6図により説明する。
第4図は,上で述べた原理を応用した音声分析?成系の
一例を示している。ここで,基本周波数f0を規則によ
り与えれば、規則合成になる。以下の説明は,1フレー
ム分の処理について行うが,全体の音声データについて
は,ここで述べる処理を逐次的に繰り返すことにより,
適用することができる。 まず、入力音声波形X■が自己相関計算手段1に入力さ
れ、その出力として自己相関関数v. (i=0, l
, 2,・・・,p;ρは線形予測の次数)が得られる
.他方、公知の手段(例えば上記特許請求の範囲第5項
に示した式)により、等価帯域幅f6≧300Hzを満
足するラグ窓の荷重係数V.を予め計算しておき、RO
M2に格納しておく.そして、上記自己相関関数Vlに
上記荷重係数V,を乗算手段3により乗じ、その結果得
られた修正自己相関関数S (=,1vt)に基いてP
ARCOR係数計算手段(あるいはLPGパラメータ計
算手段でも良い)4によりPARCOR係数k+を求め
る。更にこれらの値をマルチパルス生成手段5に設定し
,原音声波形XJを入力してマルチパルス波形U,を得
る。ここで,マルチパルス生成手段は,公知の方法(例
えば前記公知例8)により実現できる.そして次に,基
本周波数変換手段6により、マルチパルス波形U,を予
め他の手段により求めておいた基本周波数値f0のマル
チパルス波形に変形し、これを合成器7の音源波形uI
tとする。 ここで、基本周波数変換手段6は、公知の代表残差抽出
手段と音源生成手段を用いることによって実現できる。 すなわち、まず代表残差抽出手段により、1ピッチ分の
マルチパルス波形(代表マルチパルス)が抽出される。 次いで,代表マルチパルスは音源生成手段により、他か
ら与えられた基本周波数f。に相当するピッチ周期ごと
の繰り返し波形に変換される.但し、無声音の場合は1
フレーム分のマルチパルスがそのまま出力される。 この音源生成手段からの出力として5音源波形u,II
が得られる。 最後に,音源波形u,/lが予めスペクトル包終パラメ
ータ値(PARCOR係数kl)が設定されている合成
器7に入力され、その出力として合成音声波形xJ′
が得られる. ここで、LSP (線スペクトル対)分析合成方式を使
いたい場合には,スペクトル包絡パラメータとしてLS
Pパラメータを抽出すれば良い。Lspパラメータは,
公知のPARCOR−LSP変換器(あるいはLPG−
LSP変換器)により容易に求めることができる。 第5図は、第2の実施例であり,第1の実施例との相違
は、ラグ窓をマルチパルス生成時に適用する点である.
ここでは、PARCOR係数は、音声波形から直接求め
る。代りに、マルチパルス生成手段5の中で,合成フィ
ルタのインパルス応答の自己相関関数、およびこのイン
パルス応答と入力音声の相互相関関数にラグ窓を作用さ
せる。いずれの実施例であっても、ラグ窓により,イン
パルス応答の振動性を抑制する作用は全く同様であり5
同等の音質改善効果が得られる。もちろん上記自己およ
び相互相関関数は、聴覚的重み付けが施されたものであ
っても良い。 第6図は、第3の実施例である。本実施例は、マルチパ
ルス法におけるスペクトル平滑化に、ラグ窓を使う代り
に、B F F (rlandwidthFlatta
ning Filter) j 8 (前記公知例4)
を使うことを特徴としている。ラグ窓とBFFの相違は
、後者はスペクトル平滑化の効果は第1ホルマント領域
のみに限定され,高次ホルマントで不要なスペクトル平
滑化が行われないことである。ただし、マルチパルス法
を用いる場合は、マルチパルス波形が高次ホルマント領
域におけるスペクトル平滑化による歪を吸収するため、
合成時には,この歪による音質劣化は起こらない。した
がって、ラグ窓であっても、BFFであっても、合成音
声の音質は、殆ど同等である。 t現在では、より適切な名称として、F S A F(
Frequency−Selective Adapt
ive Filter)と呼んでいる. 上記3実施例によれば、スペクトル歪による音質劣化を
来すことなく、基本周波数帯でのスペクトル包絡の急峻
なピークを抑制する効果がある。 [発明の効果】 既に第3図に示したように、ラグ窓をマルチパルス法に
適用する場合、等価帯域幅feをfe≧3 0 0 H
zに設定することにより、有効に波形振φg歪に基く音
質劣化を防ぐことが出来る。特にfe”360f!zは
最適な値であり、合成音声波形の振幅包絡形は、原音声
のそれと殆ど一致する。 なおfeを大きくした場合の副作用としての、スペクト
ル歪の増大による音質劣化は、マルチパルス情報利用に
よる歪相殺効果により,@覚的には生じない。 以上示したように,本発明によれば、ピッチと第1ホル
マントの干渉に起因する音質劣化を有効に防ぐことが可
能であり、マルチパルス法本来の、人間らしい、高品質
合成音声が得られる。特に、女声の合成音声の音質改善
に顕著な効果がある。 とりわけ,規則合成のように,外部から基本周波数を与
える場合の音質改善効果は著しい。
一例を示している。ここで,基本周波数f0を規則によ
り与えれば、規則合成になる。以下の説明は,1フレー
ム分の処理について行うが,全体の音声データについて
は,ここで述べる処理を逐次的に繰り返すことにより,
適用することができる。 まず、入力音声波形X■が自己相関計算手段1に入力さ
れ、その出力として自己相関関数v. (i=0, l
, 2,・・・,p;ρは線形予測の次数)が得られる
.他方、公知の手段(例えば上記特許請求の範囲第5項
に示した式)により、等価帯域幅f6≧300Hzを満
足するラグ窓の荷重係数V.を予め計算しておき、RO
M2に格納しておく.そして、上記自己相関関数Vlに
上記荷重係数V,を乗算手段3により乗じ、その結果得
られた修正自己相関関数S (=,1vt)に基いてP
ARCOR係数計算手段(あるいはLPGパラメータ計
算手段でも良い)4によりPARCOR係数k+を求め
る。更にこれらの値をマルチパルス生成手段5に設定し
,原音声波形XJを入力してマルチパルス波形U,を得
る。ここで,マルチパルス生成手段は,公知の方法(例
えば前記公知例8)により実現できる.そして次に,基
本周波数変換手段6により、マルチパルス波形U,を予
め他の手段により求めておいた基本周波数値f0のマル
チパルス波形に変形し、これを合成器7の音源波形uI
tとする。 ここで、基本周波数変換手段6は、公知の代表残差抽出
手段と音源生成手段を用いることによって実現できる。 すなわち、まず代表残差抽出手段により、1ピッチ分の
マルチパルス波形(代表マルチパルス)が抽出される。 次いで,代表マルチパルスは音源生成手段により、他か
ら与えられた基本周波数f。に相当するピッチ周期ごと
の繰り返し波形に変換される.但し、無声音の場合は1
フレーム分のマルチパルスがそのまま出力される。 この音源生成手段からの出力として5音源波形u,II
が得られる。 最後に,音源波形u,/lが予めスペクトル包終パラメ
ータ値(PARCOR係数kl)が設定されている合成
器7に入力され、その出力として合成音声波形xJ′
が得られる. ここで、LSP (線スペクトル対)分析合成方式を使
いたい場合には,スペクトル包絡パラメータとしてLS
Pパラメータを抽出すれば良い。Lspパラメータは,
公知のPARCOR−LSP変換器(あるいはLPG−
LSP変換器)により容易に求めることができる。 第5図は、第2の実施例であり,第1の実施例との相違
は、ラグ窓をマルチパルス生成時に適用する点である.
ここでは、PARCOR係数は、音声波形から直接求め
る。代りに、マルチパルス生成手段5の中で,合成フィ
ルタのインパルス応答の自己相関関数、およびこのイン
パルス応答と入力音声の相互相関関数にラグ窓を作用さ
せる。いずれの実施例であっても、ラグ窓により,イン
パルス応答の振動性を抑制する作用は全く同様であり5
同等の音質改善効果が得られる。もちろん上記自己およ
び相互相関関数は、聴覚的重み付けが施されたものであ
っても良い。 第6図は、第3の実施例である。本実施例は、マルチパ
ルス法におけるスペクトル平滑化に、ラグ窓を使う代り
に、B F F (rlandwidthFlatta
ning Filter) j 8 (前記公知例4)
を使うことを特徴としている。ラグ窓とBFFの相違は
、後者はスペクトル平滑化の効果は第1ホルマント領域
のみに限定され,高次ホルマントで不要なスペクトル平
滑化が行われないことである。ただし、マルチパルス法
を用いる場合は、マルチパルス波形が高次ホルマント領
域におけるスペクトル平滑化による歪を吸収するため、
合成時には,この歪による音質劣化は起こらない。した
がって、ラグ窓であっても、BFFであっても、合成音
声の音質は、殆ど同等である。 t現在では、より適切な名称として、F S A F(
Frequency−Selective Adapt
ive Filter)と呼んでいる. 上記3実施例によれば、スペクトル歪による音質劣化を
来すことなく、基本周波数帯でのスペクトル包絡の急峻
なピークを抑制する効果がある。 [発明の効果】 既に第3図に示したように、ラグ窓をマルチパルス法に
適用する場合、等価帯域幅feをfe≧3 0 0 H
zに設定することにより、有効に波形振φg歪に基く音
質劣化を防ぐことが出来る。特にfe”360f!zは
最適な値であり、合成音声波形の振幅包絡形は、原音声
のそれと殆ど一致する。 なおfeを大きくした場合の副作用としての、スペクト
ル歪の増大による音質劣化は、マルチパルス情報利用に
よる歪相殺効果により,@覚的には生じない。 以上示したように,本発明によれば、ピッチと第1ホル
マントの干渉に起因する音質劣化を有効に防ぐことが可
能であり、マルチパルス法本来の、人間らしい、高品質
合成音声が得られる。特に、女声の合成音声の音質改善
に顕著な効果がある。 とりわけ,規則合成のように,外部から基本周波数を与
える場合の音質改善効果は著しい。
第1図:本発明の特徴(基本構成)を示す図。
第2図〜第3図二本発明の効果を説明する図。
第4図〜第6図二本発明の実施例を示す図。
符号の説明
1:自己相関計算手段
2 : ROM (ラグ窓の荷重係数が格納されている
) 3:乗算手段 5.マルチパルス生成手段 8、B FF 第1図 第2目 A〕54化盈毘灯゛ (A) ラ2π ( fe J2oHr) (りラ2 支 (fz−JκらJ′/L) 第4図 第32 ル・3zρh f,=げadz f6′2ρρsl 第5図
) 3:乗算手段 5.マルチパルス生成手段 8、B FF 第1図 第2目 A〕54化盈毘灯゛ (A) ラ2π ( fe J2oHr) (りラ2 支 (fz−JκらJ′/L) 第4図 第32 ル・3zρh f,=げadz f6′2ρρsl 第5図
Claims (1)
- 【特許請求の範囲】 1、音声波形をスペクトル包絡のパラメータと、音源の
パラメータに分解する音声分析部を有し、音源パラメー
タを原音声波形と該原音声波形を分析・合成して得られ
る合成音声波形との聴覚的重み付け(第1の荷重)誤差
が最小となるような時点かつ振幅値に設定することによ
り生成させた複数個のパルス列(音源パルス)として得
ることを特徴とする音声分析方式(マルチパルス音源駆
動法による音声分析方式、略して”マルチパルス法”と
呼ぶ)において、該原音声波形から求めた自己相関関数
(第1の自己相関関数)v_0、v_1、v_2、・・
・、v_i、・・・に荷重(第2の荷重)係数w_0、
w_1、w_2、・・・、w_i、・・・を乗じたスペ
クトル平滑化された自己相関関数(第2の自己相関関数
)w_0v_0、w_1v_1、w_2v_2、・・・
、w_iv_i、・・・に基きスペクトル包絡パラメー
タ(線形予測係数、PARCOR係数、LSPパラメー
タ等)を求めることを特徴とする音声分析方式。 2、特許請求の範囲第1項記載の音声分析方式において
、上記分析・合成における合成フィルタのインパルス応
答と該聴覚的重み付け(第1の荷重)フィルタのインパ
ルス応答の畳み込みで表現される重み付け合成フィルタ
のインパルス応答の自己相関関数(第3の自己相関関数
)、および該原音声波形と該重み付け(第1の荷重)フ
ィルタのインパルス応答の畳み込みで表現される重み付
け原音声と上記重み付け合成フィルタのインパルス応答
の相互相関関数(第1の相互相関関数)より音源パルス
を計算することを特徴とする音声分析方式。 3、特許請求の範囲第2項記載の音声分析方式において
、上記第1の自己相関関数に基きスペクトル包絡パラメ
ータを求め、更に該スペクトル包絡パラメータに基き上
記第3の自己相関関数および上記第1の相互相関数を求
め、該第3の自己相関関数および該第1の相互相関数に
それぞれ、荷重(第2の荷重)係数を乗じたスペクトル
平滑化された自己相関関数(第4の自己相関関数)およ
び第2の相互相関関数より音源パルスを計算することを
特徴とする音声分析方式。 4、特許請求の範囲第3項記載の音声分析方式において
、上記第3の自己相関関数および上記第1の相互相関関
数を聴覚的重み付け(第1の荷重)を施さない上記合成
フィルタおよび上記原音声波形に基き求めることを特徴
とする音声分析方式。 5、特許請求の範囲第1、2、3又は4項記載の音声分
析方式において、上記第2の荷重係数w_iを ▲数式、化学式、表等があります▼、 cos^2^n(πfe/2fs)=1/2かつfe≧
300Hz(π:円周率、fe:等価帯域幅、fs:サ
ンプリング周波数) を満足するような値として決定することを特徴とする音
声分析方式。 6、特許請求の範囲第1、2、3又は4項記載の音声分
析方式において、上記第2の荷重係数w_iを等価帯域
幅fe≧300Hzを満足し、かつ特許請求の範囲第5
項記載の計算手段以外の手段で求めることを特徴とする
音声分析方式。 7、特許請求の範囲第1〜4項記載のマルチパルス法に
おいて、上記原音声波形を予め定めた周波数以下でホル
マントピークのレベルを低下させる特性のフィルタ(B
FF)に通過させた後の波形を基に上記スペクトル包絡
パラメータを求めることを特徴とする音声分析方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1114938A JPH02294699A (ja) | 1989-05-10 | 1989-05-10 | 音声分析合成方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1114938A JPH02294699A (ja) | 1989-05-10 | 1989-05-10 | 音声分析合成方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH02294699A true JPH02294699A (ja) | 1990-12-05 |
Family
ID=14650373
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1114938A Pending JPH02294699A (ja) | 1989-05-10 | 1989-05-10 | 音声分析合成方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH02294699A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5809460A (en) * | 1993-11-05 | 1998-09-15 | Nec Corporation | Speech decoder having an interpolation circuit for updating background noise |
| JP2009539132A (ja) * | 2006-05-30 | 2009-11-12 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ信号の線形予測符号化 |
-
1989
- 1989-05-10 JP JP1114938A patent/JPH02294699A/ja active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5809460A (en) * | 1993-11-05 | 1998-09-15 | Nec Corporation | Speech decoder having an interpolation circuit for updating background noise |
| JP2009539132A (ja) * | 2006-05-30 | 2009-11-12 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ信号の線形予測符号化 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4624552B2 (ja) | 狭帯域言語信号からの広帯域言語合成 | |
| AU656787B2 (en) | Auditory model for parametrization of speech | |
| US5029211A (en) | Speech analysis and synthesis system | |
| JP3678519B2 (ja) | オーディオ周波数信号の線形予測解析方法およびその応用を含むオーディオ周波数信号のコーディングならびにデコーディングの方法 | |
| JP3167787B2 (ja) | ディジタル音声コーダ | |
| JP3481390B2 (ja) | 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法 | |
| RU2257556C2 (ru) | Квантование коэффициентов усиления для речевого кодера линейного прогнозирования с кодовым возбуждением | |
| US5864794A (en) | Signal encoding and decoding system using auditory parameters and bark spectrum | |
| US5884251A (en) | Voice coding and decoding method and device therefor | |
| Hansen et al. | Robust estimation of speech in noisy backgrounds based on aspects of the auditory process | |
| WO1998005029A1 (en) | Speech coding | |
| JP2002268658A (ja) | 音声分析及び合成装置、方法、プログラム | |
| JPH02294699A (ja) | 音声分析合成方式 | |
| Gupta et al. | Artificial bandwidth extension using H∞ optimization and speech production model | |
| JP4433668B2 (ja) | 帯域拡張装置及び方法 | |
| JPH07121197A (ja) | 学習式音声認識方法 | |
| JP2001242899A (ja) | 音声符号化方法及び装置並びに及び音声復号方法及び装置 | |
| JP2615856B2 (ja) | 音声合成方法とその装置 | |
| JP3063088B2 (ja) | 音声分析合成装置、音声分析装置及び音声合成装置 | |
| JP3552201B2 (ja) | 音声符号化方法および装置 | |
| JPH02284200A (ja) | 音声分析合成方式 | |
| Lawlor | A novel efficient algorithm for voice gender conversion | |
| JP3317458B2 (ja) | 音声合成方法 | |
| JPH09160595A (ja) | 音声合成方法 | |
| JPS5965895A (ja) | 音声合成方法 |