JPH02284200A - 音声分析合成方式 - Google Patents

音声分析合成方式

Info

Publication number
JPH02284200A
JPH02284200A JP1104420A JP10442089A JPH02284200A JP H02284200 A JPH02284200 A JP H02284200A JP 1104420 A JP1104420 A JP 1104420A JP 10442089 A JP10442089 A JP 10442089A JP H02284200 A JPH02284200 A JP H02284200A
Authority
JP
Japan
Prior art keywords
speech
waveform
analysis method
speech analysis
spectral envelope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1104420A
Other languages
English (en)
Inventor
Shoichi Takeda
武田 昌一
Yoshiaki Asakawa
浅川 吉章
Hiroshi Ichikawa
市川 熹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP1104420A priority Critical patent/JPH02284200A/ja
Publication of JPH02284200A publication Critical patent/JPH02284200A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 【産業上の利用分野】
本発明は音声分析および合成方式に係わり、特に規則合
成における女声の音質改善に関する。 (従来の技術] 任意の文章或いは単語のテキストより、これに対応する
音声を合成する手法は「規則による音声合成」或いは単
に「規則合成」と呼ばれている。 規則合成の音声では、一般に、音韻のつながりや、持続
時間、或いはピッチ変化などの特徴を外部から規則によ
り与えているため、自然の音声のものとは異なっている
。したがって、規則合成による音声は、これらの自然の
音声の特徴をそのまま保存しているいわゆる「分析合成
」による音声の音質より悪い。特に女声の場合、上記の
要因以外に、女声特有の音質劣化が起こる。この音質劣
化は、女性の声が高いことに起因している。すなわち、
女声の基本周波数(声の高さを規定する周波数)はほぼ
150〜400[Hzlに分布しており、この周波数帯
には/i/、/ u /、鼻音等の第1ホルマント周波
数が含まれる。そのため、これらの音韻では、基本周波
数と第1ホルマント周波数の分離が困難であり、線形予
測分析(LPG分析)を行っても第1ホルマントを反映
するスペクトル包絡成分とピッチを反映する音源成分と
に完全には分離できない。一般に、分析の次数(スペク
トル包絡パラメータの個数)を通常使われる8〜12次
に設定すると、上記の音韻では基本周波数近傍に鋭いス
ペクトルのピークを持つようにスペクトル包絡パラメー
タの値が設定されてしまう。 そのため、従来のPARCOR或いはLSP分析合成方
式のように極端にモデル化した音源を用いると、スペク
トル包絡パラメータに担われた音源特性にモデル音源の
特性が重畳して、合成音声波形の異常な振幅の膨張や、
基本周波数と第1ホルマント周波数の微妙なずれに基づ
くうなりにより、著しい音質劣化が起こる。分析合成の
場合は、この音質劣化は、発明者らが既に出願した「音
声分析合成方式」 (特開昭6O−150100) 、
 −この方式を″残差圧縮法″と呼んでいる−の採用に
より防ぐことが可能である。すなわち、音声分析の段階
で抽出した残差波形の情報を合成器の音源として用いて
いるため、スペクトル包絡パラメータと音源パラメータ
の情報の相補効果により、上記のような音源の重畳やう
なりは発生しない。しかしながら、規則合成の場合は、
基本周波数は実音声を分析・抽出して求めたものと異な
る値を外部から与えるため、上記の相補効果は一般には
期待できない。したがって、広範囲に基本周波数を変化
させて音声を合成する規則合成では、やはり上記の音質
劣化が発生する。 このような音質劣化の影響を受は難くするために、従来
、自己相関関数に重み係数を乗することによりスペクト
ルを平滑化する「ラグ窓」と呼ばれる方法が考案されて
いる(特公昭6l−13600)。
【発明が解決しようとする課題】
上記従来技術は、本来、モデル音源を用いたPARCO
R分析合成方式の音質改善を目的として開発されたもの
である。ところで、PARCOR分析合成方式は、音源
を極端に単純化しているために音質上の限界があり、機
械音以上の音質は望めない。そこで、人間らしい音質を
得るために、前記残差圧縮法が開発された。ところが、
この残差圧縮法に、PARCOR方式の場合に最適であ
った条件と同一の条件でラグ窓を適用しても、必ずしも
高品質な合成音声が得られない。 ここで、この「条件」について説明する。この「条件」
とは、スペクトルの平滑化の度合いのことであり、これ
を制御するパラメータは、″等価帯域幅″と呼ばれてい
る。以下、この「等細帯域幅」をfeで表すことにする
。スペクトルは、feの値を増大させる程、より平滑に
なり、上記振幅歪に基く音質劣化を防止する効果が大き
くなる。その反面、副作用として、偽のホルマントの山
が発生し、スペクトル歪による音質劣化が起こる。そこ
でPARCOR方式においては、波形振幅歪が適度に抑
えられ、しかもスペクトル歪も程々に抑えられる兼ね合
いから、最適なfeの値として、fe:12011zと
いう値が用いられていた。 ところで、残差圧縮法の場合にこのfe”120Hzと
いう値が必ずしも最適でないのは1次の理由による。す
なわち、PARCOR方式の場合に、合成器には、1ピ
ツチにつき1本の音源パルスしか与えなかったので、次
のピッチ周期になるまで、合成器の応答波形は十分減衰
し、次のパルスによる応答波形への影響は少なかった。 しかし、残差圧縮法の場合、合成器に複数本のパルスを
与えるため、前の音源パルスによる合成器の応答波形が
十分に減衰しないうちに、次々に続くパルスによる応答
波形が重畳され、振幅が膨張するために振幅歪が十分除
去出来ない。 本発明の目的は、残差圧縮法とラグ窓を組合せ使用し、
ラグ窓による波形振幅歪低減効果を十分活用できる条件
を設定することにより、本来の残差圧縮法の特長を損う
ことなく、高品質な合成音声、特に高品質な女声を得る
方法を提供することにある。 なお、ラグ窓の詳細については、電子通信学会論文誌V
o1.J61−A Na3. PP、254−261.
 IEEETransactions On Acou
stics、 5peech、 andSignal 
Processing、 Vol、 ASSP−26,
NO3,PP587−596が参考になる。
【課題を解決するための手段】
第1図は、本発明における音声分析部の基本構成を示し
たものであり、この分析結果より、高品質な合成音声を
得るポイントは、等細帯域@feの与え方にある。図に
おいて、feの値を大きくする程、スペクトル平滑化効
果が増大し、合成音声の波形振幅歪が低減する。第2図
は、feの値によるスペクトル平滑化の効果の差異を示
したものであり、平滑化効果が大きい程1合成器の特性
が制動的になることが判る。そこで、波形振幅歪を十分
に低減させるために、feの値をPARCOR方式の場
合の最適値fe”120Hzより、更に大きい値に設定
してやれば良い。
【作用】
第3図は、第1図の分析手段において、ラグ窓の等細帯
域幅feを様々な値に変化させたときの、合成音声波形
の振幅包絡形を示したものである。 原音声波形との比較により、fe:300H2で振幅歪
が目立たなくなり、更にfe≧360Hzでは振幅包絡
形が原音声のそれと殆ど変らなくなることが判る。 本発明は、この実験的事実を利用して、  fe≧30
01!zに設定して高品質な合成音声を得ようとするも
のである。特にfe=360Hzに設定するのが最適で
ある。 また、PARCOR方式において問題であった、スペク
トル歪(例えば第2図(c)のスペクトル包絡形は、山
の数が増える程に著しく歪んでいる)は、残差情報に組
み入れられるので、合成時に相殺されて、聴覚的には問
題にならなくなる。これは、残差情報を用いることによ
る大きな利点である。 なお第1図では、スペクトル包絡パラメータとしてPA
RCOR係数を用いた例を示しているが、勿論LSPパ
ラメータ等他のパラメータを用いても同様に、有効な結
果が得られる。 【実施例1 以下、本発明の実施例を第4図により説明する。 第4図は、上で述べた原理を応用した音声分析合成系の
一例を示している。ここで、基本周波数f、を規則によ
り与えれば、規則合成になる。以下の説明は、1フレ一
ム分の処理について行うが。 全体の音声データについては、ここで述べる処理を逐次
的に繰り返すことにより、適用することができる。 まず、入力音声波形X、が自己相関計算手段1に入力さ
れ、その出力として自己相関関数νI(i”0、1.0
、v1、v2、・・・r p; Pは線形予測の次数)
が得られる。他方、公知の手段(例えば上記特許請求の
範囲第2項に示した式)により、等側布域幅fe≧30
0Hzを満足するラグ窓の重み係数w1を予め計算して
おき、ROM2に格納しておく。そして、上記自己相関
関数v1に上記重み係数υ1を乗算手段3により乗じ、
その結果得られた修正自己相関関数vt’ (=(g+
vt)に基いてPARCOR係数計算手段(あるいはL
PCパラメータ計算手段でも良い)4によりPARCO
R係数に、を求める。更にこれらの値を合成器の逆特性
を持つ逆フィルタ5に設定する。しかる後に、原音声波
形X4をこの逆フィルタ5に通過させ、その出力として
残差波形U、を得る。そして次に、基本周波数変換手段
6により、残差波形U、を予め他の手段により求めてお
いた基本周波数値f0の残差波形に変形し、これを合成
器7の音源波形u〃とする。 ここで、基本周波数変換手段6は、公知の代表残差抽出
手段と音源生成手段を用いることによって実現できる。 すなわち、まず代表残差抽出手段により、1ピッチ分の
残差波形(代表残差)が抽出される。次いで、代表残差
は音源生成手段により、他から与えられた基本周波数f
0に相当するピッチ周期ごとの繰り返し波形に変換され
る。但し、無声音の場合は1フレ一ム分の残差がそのま
ま出力される。この音源生成手段からの出力として、音
源波形u、I+が得られる。 最後に、音源波形u、IIが予めスペクトル包絡パラメ
ータ値(PARCOR係数kl)が設定されている合成
器7に入力され、その出力として合成音声波形XJ’ 
が得られる。 ここで、LSP (線スペクトル対)分析合成方式を使
いたい場合には、スペクトル包絡パラメータとしてLS
Pパラメータを抽出すれば良い。Lspパラメータは、
公知のPARCOR−LSP変換器(あるいはLPC−
LSP変換器)により容易に求めることができる。 本実施例によれば、スペクトル歪による音質劣化を来す
ことなく、基本周波数帯でのスペクトル包絡の急峻なピ
ークを抑制する効果がある。 【発明の効果1 既に第3図に示したように、ラグ窓を残差圧縮法に適用
する場合、等細帯域幅feをfe≧300Hzに設定す
ることにより、有効に波形振幅歪に基く音質劣化を防ぐ
ことが出来る。特にfe=36Oflzは最適な値であ
り、合成音声波形の振幅包絡形は、原音声のそれと殆ど
一致する。 なおfeを大きくした場合の副作用としての、スペクト
ル歪の増大による音質劣化は、残差情報利用による歪相
殺効果により、聴覚的には生じない。 事実20名の被験者による、聴取による音質評価実験を
行った結果、了解性、自然性共に劣化は認められなかっ
た。 以上示したように、本発明によれば、ピッチと第1ホル
マントの干渉に起因する音質劣化を有効に防ぐことが可
能であり、残差圧縮性本来の、人間らしい、高品質合成
音声が得られる。特に、女声の合成音声の音質改善に顕
著な効果がある。とりわけ、規則合成のように、外部か
ら基本周波数を与える場合の音質改善効果は著しい。
【図面の簡単な説明】
第1図は本発明の特徴(基本構成)を示す図、第2図(
a) 、 (b) 、 (c)は等細帯域幅feのそれ
ぞれの値に対するスペクトル平滑化の効果を示す図、第
3図は本発明の詳細な説明する図、第4図は本発明の実
施例を示す図である。符号の説明1:自己相関計算手段 2 : ROM (ラグ窓の重み係数が格納されている
) 3:乗算手段 第 ? 区 ゴ 0え)乎ンYイ鎮用ズry (fe−)λpHz) (fe =31trHx) 第3目 女シ/−1.L、゛区/ fe 丸ρ埼 ヂ・ 4Fρdl f、−tρρ&

Claims (1)

  1. 【特許請求の範囲】 1、音声波形をスペクトル包絡のパラメータと、音源の
    パラメータに分解する音声分析方式において、音声波形
    から求めた自己相関関数v_0、v_1、v_2、・・
    ・、v_i、・・・に重み係数w_0、w_1、w_2
    、・・・、w_i、・・・を乗じたスペクトル平滑化さ
    れた自己相関関数w_0v_0、w_1v_1、w_2
    v_2、・・・、w_iv_i、・・・に基きスペクト
    ル包絡パラメータ(線形予測係数、PARCOR係数、
    LSPパラメータ等)を求め、該スペクトル包絡パラメ
    ータの値を合成器の逆フィルタに与え、該逆フィルタに
    該音声波形を通過させることにより得られる残差波形を
    求めることを特徴とする音声分析方式。 2、特許請求の範囲第1項記載の音声分析方式において
    、上記重み係数w_iを w_1=(_2_nC_n≒_1)/(_2_nC_n
    )、cos^2^n〔(πfe)/(2fs)〕=1/
    2、かつfe≧300Hz(π:円周率、fe:等価帯
    域幅、fs:サンプリング周波数) を満足するような値として決定することを特徴とする音
    声分析方式。 3、特許請求の範囲第1項記載の音声分析方式において
    、上記重み係数w_1を等価帯域幅fe≧300Hzを
    満足し、かつ特許請求の範囲第2項記載の計算手段以外
    の手段で求めることを特徴とする音声分析方式。 4、特許請求の範囲第1〜3項記載の音声分析方式によ
    り求めたスペクトル包絡パラメータ、および該音声分析
    方式により求めた残差波形を基に生成した音源波形を用
    いることを特徴とする音声合成方式。
JP1104420A 1989-04-26 1989-04-26 音声分析合成方式 Pending JPH02284200A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1104420A JPH02284200A (ja) 1989-04-26 1989-04-26 音声分析合成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1104420A JPH02284200A (ja) 1989-04-26 1989-04-26 音声分析合成方式

Publications (1)

Publication Number Publication Date
JPH02284200A true JPH02284200A (ja) 1990-11-21

Family

ID=14380202

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1104420A Pending JPH02284200A (ja) 1989-04-26 1989-04-26 音声分析合成方式

Country Status (1)

Country Link
JP (1) JPH02284200A (ja)

Similar Documents

Publication Publication Date Title
JP4624552B2 (ja) 狭帯域言語信号からの広帯域言語合成
US6741960B2 (en) Harmonic-noise speech coding algorithm and coder using cepstrum analysis method
AU656787B2 (en) Auditory model for parametrization of speech
Childers et al. Voice conversion: Factors responsible for quality
US7792672B2 (en) Method and system for the quick conversion of a voice signal
Meseguer Speech analysis for automatic speech recognition
US7643988B2 (en) Method for analyzing fundamental frequency information and voice conversion method and system implementing said analysis method
JP6087731B2 (ja) 音声明瞭化装置、方法及びプログラム
US6125344A (en) Pitch modification method by glottal closure interval extrapolation
Roebel A shape-invariant phase vocoder for speech transformation
JPH02284200A (ja) 音声分析合成方式
JPH06274196A (ja) 雑音除去方法および雑音除去装置
JP4433668B2 (ja) 帯域拡張装置及び方法
Ding et al. Over-attenuated components regeneration for speech enhancement
JP2001242899A (ja) 音声符号化方法及び装置並びに及び音声復号方法及び装置
JPH02294699A (ja) 音声分析合成方式
JP3035939B2 (ja) 音声分析合成装置
JPH0876799A (ja) 広帯域音声信号復元方法
JP2654643B2 (ja) 音声分析方法
Shah et al. A novel filtering-based F 0 estimation algorithm with an application to voice conversion
JPS6225800A (ja) 音声分析合成方式
JPH0318720B2 (ja)
JPH01302299A (ja) 音声分析合成装置、音声分析装置及び音声合成装置
Barnwell et al. Improving the performance of LPC-CVSD tandem connections by phase modification
JPS63131200A (ja) 音声分析および合成方式