JPH02294699A - 音声分析合成方式 - Google Patents

音声分析合成方式

Info

Publication number
JPH02294699A
JPH02294699A JP1114938A JP11493889A JPH02294699A JP H02294699 A JPH02294699 A JP H02294699A JP 1114938 A JP1114938 A JP 1114938A JP 11493889 A JP11493889 A JP 11493889A JP H02294699 A JPH02294699 A JP H02294699A
Authority
JP
Japan
Prior art keywords
analysis method
speech
waveform
voice
pulse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1114938A
Other languages
English (en)
Inventor
Shoichi Takeda
武田 昌一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP1114938A priority Critical patent/JPH02294699A/ja
Publication of JPH02294699A publication Critical patent/JPH02294699A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
[産業上の利用分野】 本発明は音声分析および合成方式に係わり、特に規則合
成における女声の音質改善に関する。
【従来の技術】
任意の文章或いは単語のテキストより、これに対応する
音声を合成する手法は「規則による音声合成」或いは単
に「規則合成」と呼ばれている。 規則合成の音声では、一般に,音韻のつながりゃ、持続
時間,或いはピッチ変化などの特徴を外部がら規則によ
り与えているため,自然の音声のものとは異なっている
.したがって、規則合成による音声は、これらの自然の
音声の特徴をそのまま保存しているいわゆる「分析合成
」による音声の音質より悪い。特に女声の場合、上記の
要因以外に、女声特有の音質劣化が起こる.この音質劣
化は、女性の声が高いことに起因している。すなわち、
女声の基本周波数(声の高さを規定する周波数)はほぼ
150〜400 [Hz]に分布しており、この周波数
帯には/ i /、/u/、鼻音等の第1ホルマント周
波数が含まれる。そのため、これらの音韻では、基本周
波数と第1ホルマント周波数の分離が困難であり,線形
予測分析(LPG分析)を行っても第1ホルマントを反
映するスペクトル包終成分とピッチを反映する音源成分
とに完全には分離できない.一般に,分析の次数(スペ
クトル包終パラメータの個数)を通常使われる8〜12
次に設定すると、上記の音韻では基本周波数近傍に鋭い
スペクトルのピークを持つようにスペクトル包絡パラメ
ータの値が設定されてしまう。 そのため、従来のPARCOR或いはLSP分析合成方
式のように極端にモデル化した音源を用いると、スペク
トル包終パラメータに担わ九た音源特性にモデル音源の
特性が重畳して、合成音声波形の異常な振幅の膨張や、
基本周波数と第1ホルマント周波数の微妙なずれに基づ
くうなりにより、著しい音質劣化が起こる.分析合成の
場合は、この音質劣化は,例えば,発明者らが既に出願
した『音声分析合成方式J (特開昭60−15010
0、一この方式を″残差圧縮法″と呼んでいる)の採用
により防ぐことが可能である.すなわち、音声分析の段
階で抽出した残差波形の情報を合成器の音源として用い
ているため,スペクトル包絡パラメータと音源パラメー
タの情報の相補効果により,上記のような音源の重畳や
うなりは発生しない。しかしながら,R則合成の場合は
,基本周波数は実音声を分析・抽出して求めたものと異
なる値を外部から与えるため、上記の相補効果は一般に
は期待できない.したがって、広範囲に基本周波数を変
化させて音声を合成する規則合成では,やはり上記の音
質劣化が発生する。 このような音質劣化の影響を受け難くするために、従来
、自己相関関数に荷重係数を乗ずることによりスペクト
ルを平滑化する「ラグ窓」と呼ばれる方法が考案されて
いる(特公昭61−13600)。 [発明が解決しようとする課題】 上記従来技術は、本来、モデル音源を用いたPARCO
R分析合成方式の音質改善を目的として開発されたもの
である.ところで、PARCOR分析合成方式は,音源
を極端に単純化しているために音質上の限界があり、機
械音以上の音質は望めない。そこで,人間らしい音質を
得るために、前記残差圧縮法,あるいはマルチパルス法
と呼ばれる複数音源パルスを利用する分析合成方式が開
発された。 ところが,この残差圧縮法あるいはマルチパルス法に、
PARCOR方式の場合に最適であった条件と同一N条
件でラグ窓を適用しても、必ずしも高品質な合成音声が
得られない。 ここで,この「条件」について説明する。この「条件」
とは、スペクトルの平滑化の度合いのことであり、これ
を制御するパラメータは、″等価帯域幅″と呼ばれてい
る.以下、この「等価帯域輻」をfeで表すことにする
。スペクトルは、feの値を増大させる程、より平滑に
なり,上記振幅歪に基《音質劣化を防止する効果が大き
くなる.その反面、副作用として,偽のホルマントの山
が発生し,スペクトル歪による音質劣化が起こる。そこ
でPARCOR方式においては,波形振幅歪が適度に抑
えられ、しかもスペクトル歪も程々に抑えられる兼ね合
いから、最適なf6の値として、fe=120Hzとい
う値が用いられていた。 ところで,残差圧縮法やマルチパルス法の場合に、この
f。=120Hzという値が必ずしも最適でないのは,
次の理由による.すなわち、PARCOR方式の場合に
、合成器には、1ピッチにつき1本の音源パルスしか与
えなかったので,次のピッチ周期になるまで、合成器の
応答波形は十分減衰し、次のパルスによる応答波形への
影響は少なかった。しかし、残差圧縮法等の場合、合成
器に複数本のパルスを与えるため、前の音源パルスによ
る合成器の応答波形が十分に減衰しないうちに、次々に
続くパルスによる応答波形が重畳され,振幅が膨張する
ために振幅歪が十分除去出来ない。 本発明の目的は、マルチパルス法とラグ窓を組合せ使用
し、ラグ窓による波形振幅歪低減効果を十分活用できる
条件を設定することにより、本来のマルチパルス法の特
長を損うことなく,高品質な合成音声,特に高品質な女
声を得る方法を提供することにある. なお,ラグ窓の詳細については、電子通信学会論文誌V
Ol.J61−A NQ3,PP.254−261. 
IEEETransactions On Acous
tics, Speech+ andSignal P
rocessing, VOI,ASSP−26,NQ
6, pp,587−596.に,またマルチパルス法
の詳細については、Proc. ICASSP−82,
 pp,614−617 (1982). fa子通信
学会技術報告CS82−161, Pp.115−12
2 (1983−3)が参考になる.
【課題を解決するための手段】
第1図は、本発明における音声分析部の基本構成を示し
たものであり、この分析結果より,高品質な合成音声を
得るポイントは、等価帯域幅f8の与え方にある.図に
おいて、feの値を大きくする程5スペクトル平滑化効
果が増大し、合成音声の波形振幅歪が低減する.第2図
は、faの値によるスペクトル平滑化の効果の差異を示
したものであり、平滑化効果が大きい程,合成器の特性
が制動的になることが判る.そこで,波形振幅歪を十分
に低減させるために、f8の値をPARCOR方式の場
合の最適値fe”l20}!zより、更に大きい値に設
定してやれば良い. [作用1 第3図は,公知例5に示した残差圧縮法を用いた分析手
段において、ラグ窓の等価帯域fHHeを様々な値に変
化させたときの、合成音声波形の振幅包絡形を示したも
のである.原音声波形との比較により、fe=3001
1zで振幅歪が目立たなくなり、更にf8≧360}1
zでは振幅包絡形が原音声のそれと殆ど変らなくなるこ
とが判る。 本発明は、この残差圧縮法による実鹸的事実をマルチパ
ルス法に応用して、fe≧30011zに設定して高品
質な合成音声を得ようとするものである。 特にfe”36011zに設定するのが最適である。 また、PARCOR方式において問題であった,スペク
トル歪(例えば第2図(c)のスペクトル包絡形は、山
の数が増える程に著しく歪んでいる)は,マルチパルス
音源情報に組み入れられるので,合成時に相殺されて.
聴覚的には問題にならなくなる。これは、マルチパルス
音源情報を用いることによる大きな利点である。 なお第1図では,スペクトル包絡パラメータとしてPA
RCOR係数を用いた例を示しているが、勿論LSPパ
ラメータ等他のパラメータを用いても同様に,有効な結
果が得られる.
【実施例1 以下、本発明の実施例を第4〜6図により説明する。 第4図は,上で述べた原理を応用した音声分析?成系の
一例を示している。ここで,基本周波数f0を規則によ
り与えれば、規則合成になる。以下の説明は,1フレー
ム分の処理について行うが,全体の音声データについて
は,ここで述べる処理を逐次的に繰り返すことにより,
適用することができる。 まず、入力音声波形X■が自己相関計算手段1に入力さ
れ、その出力として自己相関関数v. (i=0, l
, 2,・・・,p;ρは線形予測の次数)が得られる
.他方、公知の手段(例えば上記特許請求の範囲第5項
に示した式)により、等価帯域幅f6≧300Hzを満
足するラグ窓の荷重係数V.を予め計算しておき、RO
M2に格納しておく.そして、上記自己相関関数Vlに
上記荷重係数V,を乗算手段3により乗じ、その結果得
られた修正自己相関関数S (=,1vt)に基いてP
ARCOR係数計算手段(あるいはLPGパラメータ計
算手段でも良い)4によりPARCOR係数k+を求め
る。更にこれらの値をマルチパルス生成手段5に設定し
,原音声波形XJを入力してマルチパルス波形U,を得
る。ここで,マルチパルス生成手段は,公知の方法(例
えば前記公知例8)により実現できる.そして次に,基
本周波数変換手段6により、マルチパルス波形U,を予
め他の手段により求めておいた基本周波数値f0のマル
チパルス波形に変形し、これを合成器7の音源波形uI
tとする。 ここで、基本周波数変換手段6は、公知の代表残差抽出
手段と音源生成手段を用いることによって実現できる。 すなわち、まず代表残差抽出手段により、1ピッチ分の
マルチパルス波形(代表マルチパルス)が抽出される。 次いで,代表マルチパルスは音源生成手段により、他か
ら与えられた基本周波数f。に相当するピッチ周期ごと
の繰り返し波形に変換される.但し、無声音の場合は1
フレーム分のマルチパルスがそのまま出力される。 この音源生成手段からの出力として5音源波形u,II
が得られる。 最後に,音源波形u,/lが予めスペクトル包終パラメ
ータ値(PARCOR係数kl)が設定されている合成
器7に入力され、その出力として合成音声波形xJ′ 
が得られる. ここで、LSP (線スペクトル対)分析合成方式を使
いたい場合には,スペクトル包絡パラメータとしてLS
Pパラメータを抽出すれば良い。Lspパラメータは,
公知のPARCOR−LSP変換器(あるいはLPG−
LSP変換器)により容易に求めることができる。 第5図は、第2の実施例であり,第1の実施例との相違
は、ラグ窓をマルチパルス生成時に適用する点である.
ここでは、PARCOR係数は、音声波形から直接求め
る。代りに、マルチパルス生成手段5の中で,合成フィ
ルタのインパルス応答の自己相関関数、およびこのイン
パルス応答と入力音声の相互相関関数にラグ窓を作用さ
せる。いずれの実施例であっても、ラグ窓により,イン
パルス応答の振動性を抑制する作用は全く同様であり5
同等の音質改善効果が得られる。もちろん上記自己およ
び相互相関関数は、聴覚的重み付けが施されたものであ
っても良い。 第6図は、第3の実施例である。本実施例は、マルチパ
ルス法におけるスペクトル平滑化に、ラグ窓を使う代り
に、B F F (rlandwidthFlatta
ning Filter) j 8 (前記公知例4)
を使うことを特徴としている。ラグ窓とBFFの相違は
、後者はスペクトル平滑化の効果は第1ホルマント領域
のみに限定され,高次ホルマントで不要なスペクトル平
滑化が行われないことである。ただし、マルチパルス法
を用いる場合は、マルチパルス波形が高次ホルマント領
域におけるスペクトル平滑化による歪を吸収するため、
合成時には,この歪による音質劣化は起こらない。した
がって、ラグ窓であっても、BFFであっても、合成音
声の音質は、殆ど同等である。 t現在では、より適切な名称として、F S A F(
Frequency−Selective Adapt
ive Filter)と呼んでいる. 上記3実施例によれば、スペクトル歪による音質劣化を
来すことなく、基本周波数帯でのスペクトル包絡の急峻
なピークを抑制する効果がある。 [発明の効果】 既に第3図に示したように、ラグ窓をマルチパルス法に
適用する場合、等価帯域幅feをfe≧3 0 0 H
zに設定することにより、有効に波形振φg歪に基く音
質劣化を防ぐことが出来る。特にfe”360f!zは
最適な値であり、合成音声波形の振幅包絡形は、原音声
のそれと殆ど一致する。 なおfeを大きくした場合の副作用としての、スペクト
ル歪の増大による音質劣化は、マルチパルス情報利用に
よる歪相殺効果により,@覚的には生じない。 以上示したように,本発明によれば、ピッチと第1ホル
マントの干渉に起因する音質劣化を有効に防ぐことが可
能であり、マルチパルス法本来の、人間らしい、高品質
合成音声が得られる。特に、女声の合成音声の音質改善
に顕著な効果がある。 とりわけ,規則合成のように,外部から基本周波数を与
える場合の音質改善効果は著しい。
【図面の簡単な説明】
第1図:本発明の特徴(基本構成)を示す図。 第2図〜第3図二本発明の効果を説明する図。 第4図〜第6図二本発明の実施例を示す図。 符号の説明 1:自己相関計算手段 2 : ROM (ラグ窓の荷重係数が格納されている
) 3:乗算手段 5.マルチパルス生成手段 8、B FF 第1図 第2目 A〕54化盈毘灯゛ (A) ラ2π ( fe J2oHr) (りラ2 支 (fz−JκらJ′/L) 第4図 第32 ル・3zρh f,=げadz f6′2ρρsl 第5図

Claims (1)

  1. 【特許請求の範囲】 1、音声波形をスペクトル包絡のパラメータと、音源の
    パラメータに分解する音声分析部を有し、音源パラメー
    タを原音声波形と該原音声波形を分析・合成して得られ
    る合成音声波形との聴覚的重み付け(第1の荷重)誤差
    が最小となるような時点かつ振幅値に設定することによ
    り生成させた複数個のパルス列(音源パルス)として得
    ることを特徴とする音声分析方式(マルチパルス音源駆
    動法による音声分析方式、略して”マルチパルス法”と
    呼ぶ)において、該原音声波形から求めた自己相関関数
    (第1の自己相関関数)v_0、v_1、v_2、・・
    ・、v_i、・・・に荷重(第2の荷重)係数w_0、
    w_1、w_2、・・・、w_i、・・・を乗じたスペ
    クトル平滑化された自己相関関数(第2の自己相関関数
    )w_0v_0、w_1v_1、w_2v_2、・・・
    、w_iv_i、・・・に基きスペクトル包絡パラメー
    タ(線形予測係数、PARCOR係数、LSPパラメー
    タ等)を求めることを特徴とする音声分析方式。 2、特許請求の範囲第1項記載の音声分析方式において
    、上記分析・合成における合成フィルタのインパルス応
    答と該聴覚的重み付け(第1の荷重)フィルタのインパ
    ルス応答の畳み込みで表現される重み付け合成フィルタ
    のインパルス応答の自己相関関数(第3の自己相関関数
    )、および該原音声波形と該重み付け(第1の荷重)フ
    ィルタのインパルス応答の畳み込みで表現される重み付
    け原音声と上記重み付け合成フィルタのインパルス応答
    の相互相関関数(第1の相互相関関数)より音源パルス
    を計算することを特徴とする音声分析方式。 3、特許請求の範囲第2項記載の音声分析方式において
    、上記第1の自己相関関数に基きスペクトル包絡パラメ
    ータを求め、更に該スペクトル包絡パラメータに基き上
    記第3の自己相関関数および上記第1の相互相関数を求
    め、該第3の自己相関関数および該第1の相互相関数に
    それぞれ、荷重(第2の荷重)係数を乗じたスペクトル
    平滑化された自己相関関数(第4の自己相関関数)およ
    び第2の相互相関関数より音源パルスを計算することを
    特徴とする音声分析方式。 4、特許請求の範囲第3項記載の音声分析方式において
    、上記第3の自己相関関数および上記第1の相互相関関
    数を聴覚的重み付け(第1の荷重)を施さない上記合成
    フィルタおよび上記原音声波形に基き求めることを特徴
    とする音声分析方式。 5、特許請求の範囲第1、2、3又は4項記載の音声分
    析方式において、上記第2の荷重係数w_iを ▲数式、化学式、表等があります▼、 cos^2^n(πfe/2fs)=1/2かつfe≧
    300Hz(π:円周率、fe:等価帯域幅、fs:サ
    ンプリング周波数) を満足するような値として決定することを特徴とする音
    声分析方式。 6、特許請求の範囲第1、2、3又は4項記載の音声分
    析方式において、上記第2の荷重係数w_iを等価帯域
    幅fe≧300Hzを満足し、かつ特許請求の範囲第5
    項記載の計算手段以外の手段で求めることを特徴とする
    音声分析方式。 7、特許請求の範囲第1〜4項記載のマルチパルス法に
    おいて、上記原音声波形を予め定めた周波数以下でホル
    マントピークのレベルを低下させる特性のフィルタ(B
    FF)に通過させた後の波形を基に上記スペクトル包絡
    パラメータを求めることを特徴とする音声分析方式。
JP1114938A 1989-05-10 1989-05-10 音声分析合成方式 Pending JPH02294699A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1114938A JPH02294699A (ja) 1989-05-10 1989-05-10 音声分析合成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1114938A JPH02294699A (ja) 1989-05-10 1989-05-10 音声分析合成方式

Publications (1)

Publication Number Publication Date
JPH02294699A true JPH02294699A (ja) 1990-12-05

Family

ID=14650373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1114938A Pending JPH02294699A (ja) 1989-05-10 1989-05-10 音声分析合成方式

Country Status (1)

Country Link
JP (1) JPH02294699A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5809460A (en) * 1993-11-05 1998-09-15 Nec Corporation Speech decoder having an interpolation circuit for updating background noise
JP2009539132A (ja) * 2006-05-30 2009-11-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号の線形予測符号化

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5809460A (en) * 1993-11-05 1998-09-15 Nec Corporation Speech decoder having an interpolation circuit for updating background noise
JP2009539132A (ja) * 2006-05-30 2009-11-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号の線形予測符号化

Similar Documents

Publication Publication Date Title
JP4624552B2 (ja) 狭帯域言語信号からの広帯域言語合成
AU656787B2 (en) Auditory model for parametrization of speech
US5029211A (en) Speech analysis and synthesis system
JP3678519B2 (ja) オーディオ周波数信号の線形予測解析方法およびその応用を含むオーディオ周波数信号のコーディングならびにデコーディングの方法
JP3167787B2 (ja) ディジタル音声コーダ
JP3481390B2 (ja) 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法
RU2257556C2 (ru) Квантование коэффициентов усиления для речевого кодера линейного прогнозирования с кодовым возбуждением
US5864794A (en) Signal encoding and decoding system using auditory parameters and bark spectrum
US5884251A (en) Voice coding and decoding method and device therefor
Hansen et al. Robust estimation of speech in noisy backgrounds based on aspects of the auditory process
WO1998005029A1 (en) Speech coding
JP2002268658A (ja) 音声分析及び合成装置、方法、プログラム
JPH02294699A (ja) 音声分析合成方式
Gupta et al. Artificial bandwidth extension using H∞ optimization and speech production model
JP4433668B2 (ja) 帯域拡張装置及び方法
JPH07121197A (ja) 学習式音声認識方法
JP2001242899A (ja) 音声符号化方法及び装置並びに及び音声復号方法及び装置
JP2615856B2 (ja) 音声合成方法とその装置
JP3063088B2 (ja) 音声分析合成装置、音声分析装置及び音声合成装置
JP3552201B2 (ja) 音声符号化方法および装置
JPH02284200A (ja) 音声分析合成方式
Lawlor A novel efficient algorithm for voice gender conversion
JP3317458B2 (ja) 音声合成方法
JPH09160595A (ja) 音声合成方法
JPS5965895A (ja) 音声合成方法