JPH0339320B2

JPH0339320B2 -

Info

Publication number: JPH0339320B2
Application number: JP59250133A
Authority: JP
Inventors: Yunkuisuto Matsutsu; Hiroya Fujisaki; Yasuo Sato; Tadayasu Sugita; Akio Hanada
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1984-11-27
Filing date: 1984-11-27
Publication date: 1991-06-13
Also published as: JPS61128299A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は音声処理装置、特にいわゆるＡ−ｂ−
Ｓ（Analysis−by−Synthesis）の手法を用いる
ことにより、平均２乗誤差が最大となるように声
帯音源波形モデルのパラメータを定め、声帯音源
波形モデルを線形予測分析法と組合わせることに
より音声を分析する音声処理装置に関するもので
ある。

〔従来の技術と問題点〕

音声の認識、伝送、蓄積などにあたつて、音声
に関する情報量をできるだけ圧縮し、かつその音
声に関する情報から高品質の音声の再生を可能と
するために、従来から種々の方式が考えられてい
る。その１つとして、例えばADPCM等の音声の
波形をそのまま符号化する波形符号化方式があ
り、また、これに対するものとして、いわゆるボ
コーダによる狭義の分析合成方式がある。

波形符号化方式の場合、音声信号を線形予測分
析し、線形予測係数と予測誤差を得て、その予測
誤差を量子化する。再生にあたつては、量子化さ
れた予測誤差を分析で得られた線形予測係数によ
るフイルタで駆動する。この波形符号化方式によ
る再生音声の歪は、予測誤差の量子化によるもの
であり、高品質の再生音声が得られる。しかし、
その情報量は、例えば16Kbps〜64Kbpsであり、
音声に関する情報量はかなり多くなる。

分析合成方式の場合、音声の生成機構をモデル
化し、音源信号と調音器官による音響フイルタ特
性とに着目する。そして、例えば有声音の音源信
号を周期的インパルス列と、無声音の音源信号を
白色雑音として近似する。これによれば、例えば
音声は、有声音／無声音の区別情報、周期音源に
関するピツチ周波数、振幅情報、線形フイルタ特
性によつて表される。換言すれば、予測誤差分を
モデル化していると見ることができ、音声情報を
例えば1.2Kbps〜9.2Kbps程度に圧縮できる。し
かし、合成される音声の品質は、上記波形符号化
方式に比べると、かなり落ちる。

音声の分析または合成において、音声に関する
情報量が少なく、かつ上記波形符号化方式に近い
高品質の合成音声が得られる方式が望まれる。

〔問題点を解決するための手段〕

本発明は上記問題点の解決を図り、音源波形の
モデル化に当たつて、音源をパルスと雑音信号で
近似するのではなく、ローゼンベルグ
（Rosenberg）波形などの声帯音源波形モデルを
使用する。そして、この声帯音源波形モデルを規
定するためのピツチ周期、立上がり時間、立下が
り時間および振幅の４種パラメータを、Ａ−ｂ−
Ｓ（Analysis−by−Synthesis）の手法によりも
とめる手段を備えている。即ち、本発明の音声処
理装置は、音源波形をモデル化した情報に基づい
て音声の処理を行う音声処置装置において、入力
音声信号からピツチ周期を推定する周期推定部
と、少なくともピツチ周期、立上がり時間、立下
がり時間および振幅に関する４種のパラメータに
基づいて声帯音源波形の信号を合成し出力する声
帯音源波形生成部と、この声帯音源波形生成部の
出力と入力音声信号とから予測誤差を求め、その
線形予測係数を出力する線形予測分析部と、前記
ピツチ周期推定部が推定したピツチ周期を入力す
るとともに、前記線形予測分析部の出力である予
測誤差を入力し、その予測誤差が小さくなるよう
に、前の声帯音源波形を規定するパラメータと異
なる値をとるパラメータを選択して、前記声帯音
源波形生成部に出力し、最適な前記４種のパラメ
ータを決定する最適パラメータ決定部とを備えた
ことを特徴としている。

〔作用〕

本発明は、ピツチ周期、立上がり時間、立下が
り時間および振幅の４種パラメータにより規定さ
れる声帯音源波形モデルの音源信号で駆動される
線形予測フイルタによつて音声信号を生成する音
声合成系を用意し、入力音声信号に対し、上記４
種のパラメータを選択した後、線形予測分析を行
つて、合成音声信号と入力音声信号との誤差を求
める手順を繰り返すＡ−ｂ−Ｓ手法によつて、上
記４種の最適なパラメータを決定する。そして、
この４種のパラメータと線形予測係数とを音声に
関する情報とする。必要に応じて上記４種のパラ
メータと線形予測係数とを受信ないし蓄積し、上
記モデルによつて合成すれば、少ない情報量でも
つて、高品質の音声を分析合成することができる
ことになる。以下、図面を参照しつつ、実施例に
従つて説明する。

〔実施例〕

第１図は本発明の一実施例構成ブロツク図、第
２図は声帯音源波形モデルの説明図、第３図は合
成音声について本発明を適用した例の波形図、第
４図は第３図と対比するための従来方式による例
の波形図、第５図は自然音声について本発明を適
用した例の波形図を示す。

第１図において、符号１はピツチ周期推定部、
２は最適パラメータ決定部、３はパラメータ選択
部、４は声帯音源波形生成部、５は線形予測分析
部を表す。

本発明は、分析合成のための音源のモデル化に
あたつて、周期音源としてインパルスを用いるの
ではなく、声帯音源波形モデルを利用する。例え
ば、人の声には、明瞭な声や嗄れ声など種々の変
化がある。これには、音源の相違による影響が考
えられ、一律にインパルスで近似した場合、妥当
な結果を得ることが難しい。声帯音源波形モデル
を用いることにより、より近似性を向上させるこ
とができる。なお、三角波で近似してもよい。

声帯音源波形は、例えば第２図図示のような形
をしている。この波形ｇ（ｎ）は、次式で表され
る。

t1＜ｔ≦t2のとき、ｇ（ｎ）＝０ t2＜ｔ≦t3のとき、ｇ（ｎ）＝α／２〔１−cos（ｔ−t2／t3−t2π）
〕 t2＜ｔ≦t3のとき、ｇ（ｎ）＝αcos（ｔ−t3／t4−t3π／２）この波形はピツチ周期Ｔ、立上がり時間の比
Ｒ、立下がり時間の比Ｆおよび振幅Ａの４つのパ
ラメータにより表すことができ、以下のようにな
る。

Ｔ＝t4−t1 Ｒ＝（t3−t2）／ＴＦ＝（t4−t3）／ＴＡ＝α 第１図図示ピツチ周期推定部１は、このピツチ
周期Ｔを、従来から知られている種々の手段によ
り、入力音声から推定するものである。推定した
ピツチ周期は、最適パラメータ決定部２に供給さ
れる。また、立上がり時間の比Ｒ、立下がり時間
の比Ｆ、振幅Ａのパラメータについては、予め適
当な初期値を定めておき、それを最適パラメータ
決定部２へ与える。パラメータ選択部３は、最初
にこれら４種のパラメータを選択し、声帯音源波
形生成部４に出力する。

声帯音源波形生成部４は、これらのピツチ周期
Ｔ、立上がり時間の比Ｒ、立下がり時間の比Ｆお
よび振幅Ａの４つのパラメータから、第２図に示
すような声帯音源波形の信号を合成し出力するも
のである。この出力信号は、図示省略したが、必
要に応じていわゆる放射特性を加味した補正がな
され、線形予測分析部５に供給される。

線形予測分析部５は、この合成音声信号と入力
音声信号とから予測誤差を求め、その線形予測係
数を出力する。求められた予測誤差は、最適パラ
メータ決定部２へフイードバツクされる。

最適パラメータ決定部２は、この予測誤差を小
さくするために、上記声帯音源波形を規定するパ
ラメータを少しずつ変化させていくように、パラ
メータ選択部３に指示を与える。パラメータ選択
部３は、前のパラメータと異なる値をとるパラメ
ータを選択して、声帯音源波形生成部４に出力す
る。この手順を繰り返し、最適な４種のパラメー
タを決定する。即ち、いわゆるＡ−ｂ−Ｓ手法を
用いることにより、時間領域における平均２乗誤
差が最小となるように、ピツチ周期Ｔ、立上がり
時間の比Ｒ、立下がり時間の比Ｆおよび振幅Ａの
４つのパラメータを定める。Ａ−ｂ−Ｓ手法によ
つてパラメータを抽出することにより、例えば逆
フイルタリング手法によつてパラメータを決定す
るよりも、精度の良い分析が可能である音声信号に対し、全極形モデルを仮設する線形
予測分析によれば、音声信号ｓ（ｎ）は、次式で
表される。

ｓ（ｎ）＝_P 〓ⁱ⁼¹ a_iＳ（ｎ−ｉ）＋a_p+1ｇ（ｎ）ここで、a_iは予測係数、ｐは予測次数であり、
a_p+1はゲインである。ｇ（ｎ）は白色雑音シーケ
ンスが仮定されている。

しかしながら、声帯音源波形モデルを線形予測
分析法と組合わせるGLPC法によれば、ｇ（ｎ）
は既知の波形であり、平坦なスペクトルを持たな
い。即ち、音声信号ｓ（ｎ）は、次式で現される。

ｓ（ｎ）＝_P 〓ⁱ⁼¹ a_iＳ（ｎ−ｉ）＋a_p+1ｇ（ｎ）＋ｅ（ｎ）ここでｅ（ｎ）は白色雑音シーケンスであり、
最小化されるべき誤差Egは、次のようになる。

Eg＝_N-1 〓ⁿ⁼¹ 〔ｓ（ｎ）−_P 〓ⁱ⁼¹ a_iｓ（ｎ−ｉ）＋a_p+1ｇ（ｎ）〕² 第１図に示した最適パラメータ決定部２によ
り、この誤差Egが最小となるパラメータが決定
されることになる。線形予測係数a_iは、音声信号
ｓ（ｎ）とｇ（ｎ）とに関して最適化され、a_p+1
は、誤差Egを最小化するｇ（ｎ）のゲインとな
る。

第３図は本発明による方式を評価するため、合
成音声について本発明を適用し、上記GLPCによ
る分析を行つた結果を示しているものである。第
３図ａの波形は、合成に用いられた声帯音源波形
であり、第３図ｂは、それによつて合成された音
声信号である。第３図ｃは、第３図ｂ図示音声信
号についてGLPCにより推定した声帯音源波形で
あり、これによつて再合成された音声信号が、第
３図ｄに示されている。

第３図ｅは、分析対象となつた第３図ｂの音声
信号と、再合成された第３図ｄの音声信号との誤
差信号を示しており、これによるSN比は、
12.7dBとなつている。

第３図と対比するために、同じ合成音声につい
て、従来行われている周期的なインパルス列で音
源モデルを近似した例を、第４図に示す。

第４図ａ，ｂは、第３図ａ，ｂにそれぞれ対応
する合成に用いた声帯音源波形と、それにより合
成された分析対象の音声信号とを示している。ピ
ツチ周期と振幅にのみ着目し、第４図ｃのような
インパルス列によつて、線形予測フイルタを駆動
し、それによつて得られた再合成音声信号が、第
４図ｄ図示の信号である。この信号と第４図ｂの
元の音声信号との誤差が、第４図ｅに示されてい
る。これによるSN比は、3.2dBである。これに
比べて、本発明による方式の場合、大幅にSN比
が向上していることがわかる。

もちろん、自然音声についても、本発明によれ
ば、同様に良好な結果を得ることができる。第５
図は、母音／ａ／についての自然音声信号につい
て、本発明を適用した例を示している。

第５図ａは、分析対象となつた母音／ａ／の音
声波形であり、第５図ｂは、本発明を用いて分析
し再合成した音声信号を示している。その誤差
は、第５図ｃ図示の通りであり、極めて小さい。
第５図ｄは、その際GLPCにより推定された声帯
音源波形を示している。因に、第５図ｅ図示の波
形は、逆フイルタリングによつて得られた声帯音
源波形である。

本発明は、特に有声音に対して有効であり、無
声音部分に対して分析合成を行う場合、例えばそ
の部分だけ、従来の波形符号化方式または分析合
成式を用い、本発明による方式と従来用いられて
いる方式とを組合わせて、本発明を実施すること
ができる。

〔発明の効果〕

以上説明した如く、本発明によれば、音声に関
する情報量を効率的に圧縮し、波形符号化方式を
とるものに比較して、大幅に少なくすることがで
きるようになると共に、従来のLPC分析合成音
声よりも高品質な合成音声を得ることができるよ
うになる。

【図面の簡単な説明】

第１図は本発明の一実施例構成ブロツク図、第
２図は声帯音源波形モデルの説明図、第３図は合
成音声について本発明を適用した例の波形図、第
４図は第３図と対比するための従来方式による例
の波形図、第５図は自然音声について本発明を適
用した例の波形図を示す。図中、１はピツチ周期推定部、２は最適パラメ
ータ決定部、３はパラメータ選択部、４は声帯音
源波形生成部、５は線形予測分析部を表す。

Claims

【特許請求の範囲】１音源波形をモデル化した情報に基づいて音声
の処理を行う音声処理装置において、入力音声信号からピツチ周期を推定するピツチ
周期推定部と、少なくともピツチ周期、立上がり時間、立下が
り時間および振幅に関する４種のパラメータに基
づいて声帯音源波形の信号を合成し出力する声帯
音源波形生成部と、この声帯音源波形生成部の出力と入力音声信号
とから予測誤差を求め、その線形予測係数を出力
する線形予測分析部と、前記ピツチ周期推定部が推定したピツチ周期を
入力するとともに、前記線形予測分析部の出力で
ある予測誤差を入力し、その予測誤差が小さくな
るように、前の声帯音源波形を規定するパラメー
タと異なる値をとるパラメータを選択して、前記
声帯音源波形生成部に出力し、最適な前記４種の
パラメータを決定する最適パラメータ決定部とを
備えたことを特徴とする音声処理装置。