JPS63244100A

JPS63244100A - 音声分析装置および音声合成装置

Info

Publication number: JPS63244100A
Application number: JP62079208A
Authority: JP
Inventors: 藤崎　博也; マッツ・ユンクヴィスト; 佐藤　泰雄; 大山　隆之
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1987-03-31
Filing date: 1987-03-31
Publication date: 1988-10-11
Anticipated expiration: 2012-02-19
Also published as: JP2583883B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔目　次〕概要産業上の利用分野従来の技術（ｉ）波形符号化方式（ｉｉ）分析合成方式発明が解決しようとする問題点問題点を解決するための手段（ｉ）第１発明（ｉ＋）第２発明作用（ｉ）第１発明（ｉｉ　）第２発明実施例 ■、実施例と第１図との対応関係（ｉ）第１発明（：ｉ）第２発明 ■、実施例の構成および動作（ｉ）音声分析装置（ｉ−１）音声分析装置の構成（ｉ−２）音声分析装置の動作（１１）音声合成装置（ｉｉ　−１）音声合成装置の構成（ｉｉ　−２）音声合成装置の動作 ■、実施例のまとめ ■０発明の変形態様発明の効果〔概　要〕音声分析装置であって、複数のパラメータを選択的に決
定して音源波形をモデル化し、そのモデル化による音源
波形に基づいて入力音声信号を自己回帰移動平均分析し
、そのときの誤差に応じて最適なパラメータを決定する
ことによって音声分析を行なうことにより、音声に関す
る情報量が効率的に圧縮される。

また、音声合成装置であって、そのような自己回帰移動
平均分析によって得られた各種のパラメータに応じて、
音源波形のモデル化用に導入されるパラメータに基づい
て音源波形をモデル化と共に、自己回帰移動平均分析に
おいて得られた複数のパラメータを受けて、音声合成を
行なうことにより、高品質な合成音声が得られる。

〔産業上の利用分野〕

本発明は、音声分析装置および音声合成装置に関し、特
に、所謂Ａ　−ｂ　−Ｓ　（Ａｎａｌｙｓｉｓ−ｂｙ−
５ｙｎｔｈｅｓｉｓ）の手法を採ることにより、平均二
乗誤差が最小となるように声帯音源波形モデルのパラメ
ータを定め、声帯音源波形モデルを自己回帰移動平均（
以後ＡＲＭＡと称する）と組み合わせことにより音声を
分析および音声の合成を行なうようにした音声分析装置
および音声合成装置に関するものである。

〔従来の技術〕

従来から、音声の認識、伝送、蓄積等にあっては、音声
に関する情報量をできるだけ圧縮し、且つ、その音声に
関する情報から高品質の音声の再生を可能とするものと
して、各種の方式が提案されている。その際、音声に関
する情報量の圧縮率を高めることおよび自然性に富む音
声の再現が望まれる。

そのような要請に応えるものとして、例えば、ＡＤＰＣ
Ｍ等の音声の波形をそのまま符号化する「波形符号化方
式」がある、また、これに対するものとして、ボコーダ
（ＶＯＣＯＤＢＲ）による狭義の「分析合成方式」があ
る。これらの方式を分けて説明しておく。

（ｉ）波形符　化　工「波形符号化方式」にあっては、音声信号を線形予測分
析し、線形予測係数と予測誤差を得ることによって、そ
の予測誤差を量子化するものである。また、再生する場
合には、量子化された予測誤差を分析で得られた線形予
測係数によるフィルタで駆動する。この波形符号化方式
による再生音声の歪みは予測誤差の量子化によるもので
あり、高品質の再生音声が得られる。

しかしながら、その情報量は、例えば１６　ｋｂｐｓ〜
６４　ｋｂｐｓであり、音声に関する情報量はかなり多
くなる。つまり、この「波形符号化方式」の圧縮率はあ
まり大きくなく、音声の認識、伝送、蓄積等が効率的で
はない。

（ｉｉ）　　　ム　　工「分析合成方式」にあっては、人の発する音声を分析す
る際に、当該音声の周波数スペクトル包絡情報と音源情
報とに分けて情報圧縮を行なうようにしている。従って
、音声の生成機構をモデル化し、音源信号と調音器官に
よる音響フィルタ特性とに着目している。

例えば、音響フィルタを線形予測フィルタとして、有音
声の音源信号を周期的インパルス列とすると共に無声音
の音源信号を白色雑音とする。これによれば、例えば、
音声は有声音／無声音の区別情報２周期音源に関するピ
ッチ周波数、振幅情報、線形予測係数によって表される
。言い換えれば、予測誤差分をモデル化しているとみる
ことができ、音声情報を例えば１．２　ｋｂｐｓ　〜９
，６　ｋｂｐｓ程度に圧縮できる。

しかしながら、この分析合成方式により合成される音声
の品質は、上述した「波形符号化方式」に比べるとかな
り低い。

〔発明が解決しようとする問題点〕

このように、上述した「波形符号化方式」および「分析
合成方式」による音声の分析または合成にあっても、音
声に関する情報量が多く、あるいは、合成後の音質が不
充分であった。そのため、「波形符号化方式」なみに高
品質であり、また、「分析合成方式」なみに情報圧縮で
きる音声の分析方式および合成方式が要望されていた。

このような要請に応えるものとして、本出願人は、特開
昭６１−１２８２９９　（特願昭５９−２５０１３３）
ｒ音声分析／分析合成方式」を既に提案した。

この特許側による技法は、音源波形のモデル化にあたっ
て音源をパルスと雑音信号とで近似するのではなく、ロ
ーゼフィルタ（Ｒｏｓｅｎｂｅｒｇ）波形等の声帯音源
波形を使用することとしている。ここで、この声帯音源
波形モデルを規定するためのピッチ周期、立ち上がり時
間、立ち下がり時間および振幅の４種パラメータを、Ａ
−ｂ−３手法によって求めるようにしている。

つまり、音源波形をモデル化した情報に基づいて音声の
分析または音声の分析合成を行なう場合に、少なくとも
ピッチ周期、立ち上がり時間、立ち下がり時間および振
幅の４種パラメータによって規定される音源信号で駆動
される線形予測フィルタニよって音声信号を生成する音
声合成系を有し、４種のパラメータを逐次選択して、そ
の選択された４種のパラメータについて線形予測フィル
タにより得られる合成音声信号と入力音声信号との誤差
を求め、その合成音声信号と入力音声信号との誤差がよ
り小となるように４種のパラメータに関する最適化を行
ない、当該４種のパラメータを決定するようにして、該
４種のパラメータおよび線形予測係数に基づいて音声の
分析または音声の分析合成を行なうようにするものであ
る。

しかしながら、このような技法にあっても、音声に関す
るパラメータを得て圧縮する場合、いまだ情報量の圧縮
率が低く、また、合成音声の品質が低いという問題点が
あった。

本発明は、このような点に鑑みて創作されたものであっ
て、音声に関する情Ｉ［ｉの圧縮率が大きい音声分析装
置と、その分析結果によって音声合成を行なう場合に高
品質な合成音声が得られる音声合成装置とを提供するこ
とを目的としている。

〔問題点を解決するための手段〕

本発明による問題点を解決するための手段としては、「
音声分析装置Ｊおよび「音声合成装置」がある。

」ユニ」ＬＬ１肌第１図（Ａ）は、第１発明による音声分析装置の原理ブ
ロック図である。

図において、パラメータ決定手段１１３は、音源波形の
モデル化に必要な複数のパラメータを選択的に決定し、
その決定されたパラメータを表すモデル化パラメータ信
号１１１を出力する。

音源波形生成手段１１７は、モデル化パラメータ信号１
１１によって表される複数のパラメータに応じて音源波
形のモデル化を行ない、そのモデル化された音源波形を
表す音源波形信号１１５を出力する。

自己回帰移動平均分析手段１２５は、分析対象の入力音
声信号１１９および音源波形信号１１５を受けて自己回
帰移動平均分析を行なって誤差を求め、その誤差を表す
誤差信号１２１をパラメータ決定手段１１３に供給する
すると共に、自己回帰移動平均分析によるパラメータを
表す分析パラメータ出力信号１２３を出力する。

従って、全体として、誤差信号１２１によって表される
前記誤差に応じて、パラメータ決定手段１１３の前記複
数のパラメータを変化させるように構成されている。

」」ユＪｉλ吸第１図（Ｂ）は、第２発明による音声合成装置の原理ブ
ロック図である。

図において、音源波形生成手段１３５は、分析対象の音
声信号を自己回帰移動平均分析する際に必要とされる音
源波形をモデル化するために得られる複数の第１パラメ
ータを表すモデル化パラメータ信号１３１を受け、該第
１パラメータに基づいて音源波形をモデル化し、そのモ
デル化した音源波形を表す音源波形信号１３３を出力す
る。

自己回帰移動平均合成手段１４１は、自己回帰移動平均
分析において得られた複数の第２パラメータを表すパラ
メータ信号１３７と、音源波形生成手段１３５からの音
源波形信号１３３とを受けて、第１パラメータおよび第
２パラメータに基づいて音声合成を行なって合成音声出
力信号１３９を出力する。

従って、全体として、自己回帰移動平均分析によって得
られた各種のパラメータに応じて、音源波形のモデル化
を行なうと共に、自己回帰移動平均分析パラメータに基
づいて音声合成を行なうように構成されている。

（作　用〕一口」」」Ｌ１哩パラメータ決定手段１１３において選択的に決定された
複数のパラメータに応じて、音源波形生成手段１１７は
音源波形をモデル化する。そのモデル化された音源波形
の音源波形信号１１５に基づいて、自己回帰移動平均分
析手段１２５は入力音声信号１１９を自己回帰移動平均
分析する。

そのときの誤差がパラメータ決定手段１１３に与えられ
て、該パラメータ決定手段１１３は、複数のパラメータ
を最適化する。

このパラメータ決定手段１１３でのパラメータの最適化
の結果として、該パラメータ決定手段ｌ１３から音源波
形パラメータが得られると共に、自己回帰移動平均分析
手段１２５から自己回帰移動平均パラメータが得られる
。

なお、本発明装置がより具体的な動作を行なう上では（
実施態様に相当する）、パラメータ決定手段１１３にお
いて選択され且つ最適化される複数のパラメータは、ピ
ッチ周期、声門開放時間。

声門開放区間内での音源の歪み、声門閉鎖から体積流が
負の最大値に達する時間、声門開放開始時の体積流波形
の傾き、声門閉鎖直前の体積流波形の傾きおよび声門閉
鎖直後の体積流波形の傾きの７種のである。これらのパ
ラメータによって音源波形をモデル化する。

本発明にあっては、パラメータ決定手段１１３でのパラ
メータの最適化によって、音源波形パラメータおよび自
己回帰移動平均パラメータが得られるので、音声に関す
る情報量が効率的に圧縮される。

」ユ上ｍ盟既に得られている音源波形パラメータに基づいて、モデ
ル化パラメータ信号１３１は音源波形をモデル化する。

このモデル化によって得られた音源波形と、既に得られ
た自己回帰移動平均バラメークとに基づいて、自己回帰
移動平均合成手段１４１は音声合成を行なう。

なお、本発明装置がより具体的な動作を行なう上では（
実施態様に相当する）、既に得られている音源波形パラ
メータは、ピッチ周期、声門開放時間、声門開放区間内
での音源の歪み、声門閉鎖から体積流が負の最大値に達
する時間、声門開放開始時の体積流波形の傾き、声門閉
鎖直前の体積流波形の傾きおよび声門閉鎖直後の体積流
波形の傾きの７種である。これらのパラメータによって
音源波形をモデル化する。

本発明にあっては、既に得られた音源波形パラメータお
よび自己回帰移動平均パラメータに基づいて、自己回帰
移動平均によって音声合成を行なうことにより、高品質
な合成音声が得られる。

（実施例〕以下、図面に基づいて本発明の実施例について詳細に説
明する。

第２図は、本発明の一実施例による音声分析装置を示す
、第３図は第２図の音声分析装置において利用される音
源波形モデルを示す、第４図は本発明の一実施例による
音声合成装置を示す。第５図は第４図に示す音声合成装
置におけるＡＲＭＡフィルタを具体的に示す。

１、・方　と第１゛との対応関係ここで、本発明の実施例と第１図との対応関係を示して
おく。

−Ｑユ」」Ｌλ里モデル化パラメータ信号ＩＩＩは、音源波形パラメータ
信号２２７に相当する。

パラメータ決定手段１１３は、最適パラメータ決定部２
２３．パラメータ選択部２２５に相当する。

音源波形信号１１５は、声帯音源波形信号２エフに相当
する。

音源波形生成手段１１７は、声帯音源波形生成部２１５
に相当する。

入力音声信号１１９は、入力音声信号２１１に相当する
。

誤差信号１２１は、ＡＲＭＡ分析部２１３がらの誤差信
号２２１に相当する。

分析パラメータ出力信号１２３は、ＡＲＭＡパラメータ
信号２１９に相当する。

自己回帰移動平均分析手段１２５は、ＡＲＭＡ分析部２
１３に相当する。

」工と玉１又所モデル化パラメータ信号１３１は、音源波形パラメータ
信号４１１に相当する。

音源波形信号１３３は、声帯音源波形信号４１５に相当
する。

音源波形生成手段１３５は、声帯音源波形生成部４１３
に相当する。

パラメータ信号１３７は、ＡＲＭＡパラメータ信号４１
７に相当する。

合成音声出力信号１°３９は、合成音声信号４２１に相
当する。

自己回帰移動平均合成手段１４１は、ＡＲＭＡフィルタ
４１９に相当する。

第１発明および第２発明が、以上のような対応関係があ
るものとして、以下本発明の実施例について説明する。

■、　　　　の　　および本発明は、「音声分析装置」および「音声合成装置」に
関するので、以下、場合を分けて説明する。

（ｉ）音声　　′Ｉ４＋置先ず、第１発明が適用された音声分析装置について、以
下説明する。ここで、分析対象となっているのは、人に
よって発声された音声であるものとする。

（ｉ−１）！　　舅の第２図において、マイクロホン２３１は分析対象となっ
ている発音を採取するものであり、該マイクロホン２３
１からの採取信号はアナログ−ディジタル（Ａ／Ｄ）変
換器２３３に供給されるようになっている。

このＡ／Ｄ変換器２３３において量子化され、ディジタ
ル化されて得られた入力音声信号２１１が、分析対象と
してＡＲＭＡ分析部２１３に供給される。このＡＲＭＡ
分析部２１３は、声帯音源波形生成部２１５からの声帯
音源波形信号２１７に基づいて音声分析をして、ＡＲＭ
Ａパラメータを表すＡＲＭＡパラメータ信号２１９を出
力するものである。

音声分析の過程にあっては、入力音声信号２１１と声帯
音源波形信号２１７とによる誤差を表す誤差信号２２１
が発生されて、最適パラメータ決定部２２３に供給され
る。この最適パラメータ決定部２２３は、パラメータ選
択部２２５を具えており、該最適パラメータ決定部２２
３でのパラメータを適宜選択して切り換えるものである
。パラメータ選択部２２５によって選択された音源波形
パラメータを表す音源波形パラメータ信号２２７が出力
され、声帯音源波形生成部２１５に供給されるようにな
っている。

（ｉ−２）の上記構成の本発明実施例にあっては、音声分析のための
音源のモデル化には、周期音源としてインパルスを用い
るのではなく、声帯音源波形モデルを採用している０例
えば人の声には、明瞭な声や唆れ声など種々の変化があ
る。これには、音源の相違による影響が考えられ、−律
にインパルスで近似した場合、妥当な結果を得ることは
困難である。声帯音源波形モデルを用いることにより、
より近似性を向上させることができる。

第３図は、−例としての声帯音源波形ｇ（ｔ）およびそ
の微分波形＃（１）を示す。

ところで、モデル化された声帯音源波形は、ピッチ周期
Ｔ、声門開放時間Ｗ、声門開放区間内での音源の歪みＳ
、声門閉鎖から体積流が負の最大値に達する時間り、声
門開放開始時の体積流波形の傾きＡ、声門閉鎖直前の体
積流波形の傾きＢおよび声門閉鎖直後の体積流波形の傾
きＣの７種のパラメータによって表すことができる。そ
こで、声帯音源波形の微分波形＃（１）を、時間ｔによ
って分けて表す。

■　ｇ＜ｔ≦Ｒの場合、ｇ（ｔ）−Ａ−（２Ａ＋Ｒ，α）　　ｔ／Ｒ＋　（２Ａ
　＋　Ｒ３α）　　ｔＺ　／Ｒ２・・・・・・（１） ■　Ｒ＜ｔ≦Ｗの場合、ｇｃｔ”）＝α（ｔ−Ｒ）＋（３Ｂ−２αＦ）（ｔ−Ｒ）”／Ｆ”＋（２Ｂ＝αＦ
）（ｔ−Ｒ）’　／Ｆ３・・・・・・　（２） ■　Ｗ＜　ｔ５Ｗ＋Ｄの場合、ｇ（ｔ）＝Ｃ−２（Ｃ−β）（ｔ　−Ｗ）　／Ｄ＋　（
Ｃ−β）（ｔ−Ｗ）”　／Ｄ” ・・・・・・　（３） ■　Ｗ＋Ｄ＜ｔ≦Ｔの場合、＃（１）＝β　　　　　　　　　　・・・・・・（４）
となる。

ここで、α、βは、以下のように表される。

α＝　（４ＡＲ＋６ＦＢ）／　（２Ｒ”　−Ｆ”　）・
・・・・・（５） β＝ＣＤ／　（Ｄ−３（Ｔ−Ｗ））　　・・・・・・（
６）ところで、声門開放時間Ｗおよび声門開放区間内で
の音源の歪みＳは、Ｗ＝Ｒ＋Ｆ　　　　　　　　　　　・・・・・・（７）
Ｓ−（Ｒ−Ｆ）／　（Ｒ＋Ｆ）　　　・・・・・・（８
）によって表される。

そこで、第２図に示す構成において、予め定められたピ
ッチ周期Ｔ、声門開放時間Ｗ、声門開放区間内での音源
の歪みＳ、声門閉鎖から体積流が負の最大値に達する時
間り、声門開放開始時の体積流波形の傾きＡ、声門閉鎖
直前の体積流波形の傾きＢおよび声門閉鎖直後の体積流
波形の傾きＣの７種のパラメータの適当な初期値が、最
適パラメータ決定部２２３に与えられる。

パラメータ選択部２２５では、最初に、これら７種のパ
ラメータを初期値により選択し、音源波形パラメータ信
号２２７として出力し、声帯音源波形生成部２１５に与
える。

声帯、音源波形生成部２１５では、これら７種のパラメ
ータ（ピッチ周期Ｔ、声門開放時間Ｗ、声門開放区間内
での音源の歪みＳ、声門閉鎖から体積流が負の最大値に
達する時間り、声門開放開始時の体積流波形の傾きＡ、
声門閉鎖直前の体積流波形の傾きＢおよび声門閉鎖直後
の体積流波形の傾きＣ）に基づいて積分により、第３図
に示すような声帯音源波形ｇ（ｔ）を合成して得る。そ
の合成結果たる声帯音源波形ｇ（ｔ）を表す声帯音源波
形信号２１７がＡＲＭＡ分析部２１３に与えられる。

なお、この声帯音源波形ｇ（ｔ）には、必要に応じて、
所謂放射特性を加味した補正が為されていてもよい。

声帯音源波形信号２１７と入力音声信号２１１とに基づ
いて音声分析を行なうＡＲＭＡ分析部２１３は、ＡＲＭ
Ａパラメータに基づく周波数スペクトル包絡に従って疑
似音声を合成し、声帯音源波形信号２１７とを比較する
。これら両信号間での誤差が最小となるように、音源波
形パラメータおよびＡＲＭＡパラメータを求める。

いま、ＡＲＭＡ分析部２１３でのＡＲＭＡ分析では、音
声信号ｓ　（ｎ）は、・・・・・・（９）として表される。

ここで、α１はＡＲパラメータであり、βｊはＭＡパラ
メータである。ｐおよびｑはそれぞれの予測次数、ｇ　
（ｎ）は音源信号、ｅ（ｎ）は予測誤差信号である。α
ム、βｊを合わせてＡＲＭＡパラメータと称し、周波数
スペクトル包絡を示すものであり、これらのパラメータ
はＡＲＭＡパラメータ信号２１９として外部（例えば、
第４図において後述する音声合成装置）に供される。

ＡＲＭＡ分析部２１３において、最小化されるべき誤差
Ｅ（誤差信号２２１によって表される）は、として表される。

このようにして求められた誤差Ｅは最適パラメータ決定
部２２３へ供給される。

最適パラメータ決定部２２３は、この予測誤差を小さく
するために、声帯音源波形を規定するパラメータを少し
ずつ変化させてい（ように、パラメータ選択部２２５に
指示を与える。このパラメータ選択部２２５は、以前の
パラメータと異なる値をとるパラメータを選択して、声
帯音源波形生成部２１５に出力する。

ところで、このパラメータの選択は、例えばホルマント
抽出に採られるＡ　−ｂ　−Ｓ　（Ａｎａｌｙｓｉｓ−
ｂｙ−Ｓｙｎｔｈｅｓｉｓ）手法としている。

以上のような手順を繰り返して、最適な７種のパラメー
タ（ピッチ周期Ｔ、声門開放時間Ｗ、声門開放区間内で
の音源の歪みＳ、声門閉鎖から体積流が負の最大値に達
する時間り、声門開放開始時の体積流波形の傾きＡ、声
門閉鎖直前の体積流波形の傾きＢおよび声門閉鎖直後の
体積流波形の傾きＣ）を決定する。即ち、所謂Ａ−ｂ−
Ｓ手法を用いることにより、時間領域における平均二乗
誤差が最小となるように、上記７種のパラメータを定め
る。

このようにして入力音声信号２１１に対するＡＲＭＡ分
析が行なわれ、その分析結果として、ＡＲＭＡパラメー
タ信号２１９によって表されるＡＲＭＡパラメータおよ
び音源波形パラメータ信号２２７によって表される音源
波形パラメータ（ピッチ周期Ｔ、声門開放時間Ｗ、声門
開放区間内での音源の歪みＳ、声門閉鎖から体積流が負
の最大値に達する時間り、声門開放開始時の体積流波形
の傾きＡ、声門閉鎖直前の体積流波形の傾きＢおよび声
門閉鎖直後の体積流波形の傾きＣの７種のパラメータ）
が得られる。

これらＡＲＭＡパラメータおよび音源パラメータによっ
て入力音声が表されるので、それらを圧縮情報として、
該音声の情報を圧縮したことになる。また、後の音声合
成のために、これら複数のパラメータを外部装置（メモ
リ等）によって蓄積しておけばよい。従って、これらの
パラメータを利用して、音声分析装置とは別個に構成さ
れた音声合成装置（後述する）によって、逆に音声合成
を行なうことができる。

（ｉｉ　）音声合成装置次に、第２発明が適用された音声合成装置について以下
説明する。この音声合成装置は、上述した音源分析装置
によるＡＲＭＡ分析によって得られたパラメータで駆動
されるものである。なお、各種のパラメータは、音声合
成を行なう際に通信回線を介して受領してもよく、また
、予めＲＯＭ化されたものを利用してもよい。

（ｉｉ　−１）”入　社　の第４図に示す「音声合成装置」は、その音声合成のため
の各種パラメータを、第２図に示した「音声分析装置」
から直にもらうものとする。

第４図において、音源波形パラメータ信号４１１が入力
される声帯音源波形生成部４１３は、第２図に示した声
帯音源波形生成部２１５と同じである。音源波形パラメ
ータ信号４１１によって表される音源波形パラメータに
基づいて、音源波形をモデル化し、そのモデル化によっ
て得られた声帯音源波形信号４１５を発生するものであ
る。

また、ＡＲＭＡパラメータ信号４１７を受けるＡＲＭＡ
フィルタ４１９は、声帯音源波形生成部４１３からの声
帯音源波形信号４１５に基づいて音声合成をして、その
合成結果たる合成音声信号４２１を出力するものである
。

ところで、音源波形パラメータ信号４１１およびＡＲＭ
Ａパラメータ信号４１７によって表される音源波形パラ
メータおよびＡＲＭＡパラメータは、上述した音声分析
装置での分析結果として得られるパラメータである。従
って、音源波形パラメータは、ピッチ周期Ｔ、声門開放
時間Ｗ、声門開放区間内での音源の歪みＳ、声門閉鎖か
ら体積流が負の最大値に達する時間り、声門開放開始時
の体積流波形の傾きＡ、声門閉鎖直前の体積流波形の傾
きＢおよび声門閉鎖直後の体積流波形の傾きＣの７種の
パラメータで成る。

第５図は、第４図のＡＲＭＡフィルタ４１９の詳細構成
を示す。ここで、ＡＲＭＡパラメータ信号４１７によっ
て表されるＡＲＭＡパラメータ（ＡＲパラメータα五お
よびＭＡパラメータβｊ）は、ｐ個の係数器５１１．．
５１１．、・・・・・・、５１３９．・・・・・・、５
１１．に、また、他のｑ個の５１３、．５１３２．・・
・・・・、５１３．にそれぞれ供給されるようになって
いる。ここで、ｐおよびｑは、予測次数である。

更に、直列に接続されたｐ個の遅延素子５１５＋、５１
５ｚ、・・・・・・、５１５．、・・・・・・、５１５
゜が具わっており、それぞれの遅延素子は、時間要素Ｚ
で定まる単位時間の時間遅れ要素である。各遅延素子に
よって、順次遅延された出力信号が、対応する次数の係
数器５１１および係数器５１３に共通に供給されるよう
になっている。

声帯音源波形生成部４１３からの声帯音源波形信号４１
５と、ｐ個の係数器５１１．〜５１１゜からの出力信号
が加算器５１７に供給され、該加算器５１７の加算出力
信号は、係数器５１１１および別な加算器５１９に共通
に供給されるものである。また、加算器５１９には、ｑ
個の係数器５１３＋〜５１３ｑの出力信号も供給され、
合成音声信号４２１が出力されるようになっている。

（ｉｉ−２）″−人壮装の作上述した構成による音声合成装置において、「（ｉ）音
声分析装置」にて前述した「音声分析装置」の最適パラ
メータ決定部２２３からの音源波形パラメータ信号２２
７によって提供される音源波形パラメータが、先ず、声
帯音源波形生成部４１３に与えられる。この声帯音源波
形生成部４１３は、前述した「音声分析装置」の声帯音
源波形生成部２１５と同じ構成および動作を為すもので
あり、与えられた音源波形パラメータ（ピッチ周期Ｔ、
声門開放時間Ｗ、声門開放区間内での音源の歪みＳ、声
門閉鎖から体積流が負の最大値に達する時間り、声門開
放開始時の体積流波形の傾きＡ、声門閉鎖直前の体積流
波形の傾きＢおよび声門閉鎖直後の体積流波形の傾きＣ
の７種のパラメータ）に基づいて、音源波形をモデル化
して声帯音源波形ｇ（ｔ）を生成し、声帯音源波形信号
４１５として出力する。

一方、これに対して、ＡＲＭＡフィルタ４１９内のｐ個
の係数器５１１１．５１１ｇ、・・・・・・、５１１Ｑ
、・・・・・・、５１１ｐの係数は、ＡＲパラメータα
！　（α１．αｚ、°９°Ｉ”、　Ｑ’ｑ、　”−−−
−、αｐ）に応じて変化し、当該ＡＲＭＡフィルタ４１
９にとって最適な係数が決定される。同様にして、他の
ｑ個の係数器５１３．．５１３ｇ、・・・・・・、５１
３ｑのそれぞれの係数も、ＭＡパラメータβ五　（β１
．β２．・・・・・・、βＱ）に応じて変化して決定さ
れる。

そのように、音声合成する上で最適なものとして決定さ
れたｐ個の係数器５１１１〜５１１．および他のｑ個の
係数器５１３１〜５１３．のそれぞれの係数に基づいて
、声帯音源波形生成部４１３においてモデル化された声
帯音源波形信号４１５　　（ｇ（ｔ））をフィルタリン
グする。

いま、加算器５１７の出力信号をＳ　％１７とすると、
第１遅延素子５１５１の出力信号５ＳＩＳＩは、加算器
５１７の出力信号５ＳＩ７を単位時間（時間要素Ｚで定
まる）だけ遅延させたものである。また、第２遅延素子
５１５□の出力信号ｓｓ＋ｓｚは、第１遅延素子５１５
Ｉの出力信号５ｓＩＳＩを単位時間だけ遅延させたもの
である。同様にして、他の遅延素子の出力信号は、順次
単位時間だけ遅延されている。

そのため、係数器５１１．および他の係数器５１３＋の
出力信号Ｓ！１１１１およびＳ　Ｓ１３＋は、α、・Ｓ
　ｓ１％１およびβ２　・５ｓｔｓ＋で表される。また
、次の係数器５１１８および他の係数器５１３ｇの出力
信号ＳＳ＋□およびＳＳｔ。は、α２・　ＳＳＩ□およ
びβ２　・ｓｓ＋ｓｚで表される。その他の係数器につ
いても同様にして、各遅延素子による出力信号を係数倍
して出力する。

これらｐ個の係数器５１１．〜５１１．の出力信号が前
段の加算器５１７に供給され、声帯音源波形生成部４１
３からの声帯音源波形（ｇ（ｔ）　）信号４１５との総
計和が取られる。

また、他のｑ個の係数器５１３１〜５１３ｑの出力信号
が後段の係数供給５１９に供給され、加算器５１７の出
力信号Ｓ、１７と共に総計和が取られる。この加算器５
１９によって合成された音声信号が、当該音声合成装置
の合成音声信号４２１として出力される。

見−大施斑曵圭上泣このように、本発明実施例の「音声分析装置」にあって
は、複数のモデル化パラメータを選択的に決定して音源
波形をモデル化し、そのモデル化による音源波形に基づ
いて入力音声信号２１１を自己回帰移動平均分析し、そ
のときの誤差に応じて、最適なパラメータを決定するこ
とにより、音声分析を行なう。

また、「音声合成装置」にあっては、音声分析装置側で
の自己回帰移動平均分析によって得られた音源波形パラ
メータに応じて声帯音源波形生成部４１３で音源波形を
モデル化している。更に、音声分析装置側での自己回帰
移動平均分析によって得られたＡＲパラメータα、、Ｍ
Ａパラメータβ直に応じて、ＡＲＭＡフィルタ４１９が
音声合成を行なっている。

いずれも、ＡＲＭＡによっているので、音声に関する情
報量が効率的に圧縮され、且つ、高品質な合成音声が得
られることとなる。

第６図は、原音声の周波数スペクトル（ＯＲＩＧ）と本
方式（ＧＡＲＭＡ）および従来方式（ＡＲＭＡ、ＧＬＰ
Ｃ，ＬＰＣ）によって推定された鼻音化母音の周波数ス
ペクトル包絡の比較を示している。

ここで、本方式（ＧＡＲＭＡ）は、分析用の「音響フィ
ルタ」としてＡＲＭＡモデルに基づく極零フィルタを、
また、「音源」として第３図に示す声帯音源波形を採用
している。

これに対して、従来方式としてのＡＲＭＡは、分析用の
「音響フィルタ」としてＡＲＭＡモデルに基づく極零フ
ィルタを、「音源」としてパルスを採用した場合である
。また、従来方式のＧＬＰＣは、「音響フィルタ」とし
て線形予測法による全権型フィルタを、「音源」として
第３図に示す声帯音源波形を採用した場合である。更に
、従来方式のＬＰＧは、「音響フィルタ」として線形予
測法による全極型フィルタを、「音源」としてパルスを
採用した場合である。

このように、本方式（ＧＡＲＭＡ）は、従来方式に比較
してより良く原音のスペクトル包絡ヲ近似しており、再
生の際には原音に忠実となることが分かる。

ところで、本発明実施例は、特に、有声音に対して有効
であり、無声音部分に対して分析を行なう場合、例えば
、その部分だけ、従来の波形符号化方式を用い、本発明
実施例による方式と従来用いられている方式とを組み合
わせて、本発明を実施することができる。

■、　　の・形態様なお、上述した本発明の実施例にあっては、「音声分析
装置」および「音声合成装置」を対として一体的に構成
されるようにしたが、これに限られることはない。つま
り、音声分析装置および音声合成装置は互いに別々に構
成され且つ使用され得るものである。従って、例えば、
ある１つの「音声分析装置」によって得られた分析結果
たる種々のパラメータ（音源波形パラメータおよびＡＲ
ＭＡパラメータ）をＲＯＭ等によって、複数の「音声合
成装置」のそれぞれに個別に提供し、各音声合成装置に
おいて個別に音声合成を行なうよにしてもよい。

また、「１．実施例と第１図との対応関係」において、
第１図と本発明との対応関係を説明しておいたが、これ
に限られることはなく、各種の変形態様があることは当
業者であれば容易に推考できるであろう。

〔発明の効果〕

上述したように、本発明による音声分析装置では、音源
波形モデル化のパラメータを選択的に決定して音源波形
をモデル化し、そのモデル化による音源波形に基づいて
入力音声信号を自己回帰移動平均分析し、そのときの誤
差に応じて最適なパラメータを決定することによって音
声分析を行なうようにしている。

また、本発明による音声合成装置では、そのような自己
回帰移動平均分析によって得られた各種のパラメータに
応し、音源波形のモデル化用に導入されるパラメータに
基づいて音源波形をモデル化し、自己回帰移動平均分析
において得られた複数のパラメータを受けて音声合成を
行なうようにしている。

従って、自己回帰移動平均分析および合成による結果と
して、音声に関する情報量が効率的に圧縮され且つ高品
質な合成音声が得られるので、実用的には極めて有用で
ある。

【図面の簡単な説明】

第１図は本発明の原理ブロック図、第２図は本発明の一実施例による音声分析装置の構成ブ
ロック図、第３図は第２図に示す音声分析装置において利用される
音源波形の説明図、第４図は本発明の一実施例による音声合成装置の構成ブ
ロック図、第５図は第４図に示す音声合成装置に用いられるＡＲＭ
Ａフィルタの具体的な構成を示すブロック図、第６図は本発明実施例による方式と従来方式とによる音
声の周波数スペクトル包絡の比較を示す説明図である。図において、１１１はモデル化パラメータ信号、１１３はパラメータ決定手段、１１５は音源波形信号、１１７は音源波形生成手段、１１９は入力音声信号、１２１は誤差信号、１２３は分析パラメータ出力信号、１２５は自己回帰移動平均分析手段、１３１はモデル化パラメータ信号、１３３は音源波形信号、１３５は音源波形生成手段、１３７はパラメータ信号、１３９は合成音声出力信号、１４１は自己回帰移動平均合成手段、２１１は入力音声信号、２１３はＡＲＭＡ分析部、２１５は声帯音源波形生成部、２１７は声帯音源波形信号、２１９はＡＲＭＡパラメータ信号、２２３は最適パラメータ決定部、２２５はパラメータ選択部、２２７は音源波形パラメータ信号、４１１は音源波形パラメータ信号、４１３は声帯音源波形生成部、４１５は声帯音源波形信号、４１７はＡＲＭＡパラメータ信号、４１９はＡＲＭＡフィルタ、４２１は合成音声信号、５１１１〜５１１．．５１３１〜５１３．は係数器、５１５Ｉ〜５１５．は遅延素子、５１７．５１９は加算器である。不順←日月め原理ブ゛ロツク口第１図（Ａ）不釜明の馴す１７亡ツク図第１図ＣＢ）￥１色詩１］の塙へ図第２図音左１奇簡説哨口第３図第４図第６図

Claims

【特許請求の範囲】

（１）音源波形のモデル化に必要な複数のパラメータを
選択的に決定し、該決定されたパラメータを表すモデル
化パラメータ信号（１１１）を出力するパラメータ決定
手段（１１３）と、該モデル化パラメータ信号（１１１）によって表される
前記複数のパラメータに応じて音源波形のモデル化を行
ない、そのモデル化された音源波形を表す音源波形信号
（１１５）を出力する音源波形生成手段（１１７）と、分析対象の入力音声信号（１１９）および音源波形信号
（１１５）を受けて自己回帰移動平均分析を行なって誤
差を求め、該誤差を表す誤差信号（１２１）をパラメー
タ決定手段（１１３）に供給するすると共に、前記自己
回帰移動平均分析によるパラメータを表す分析パラメー
タ出力信号（１２３）を出力する自己回帰移動平均分析
手段（１２５）と、を具え、誤差信号（１２１）によって表される前記誤差
に応じて、パラメータ決定手段（１１３）の前記複数の
パラメータを変化させて最適なパラメータを決定するよ
うに構成したことを特徴とする音声分析装置。
（２）前記音源波形のモデル化に必要な複数のパラメー
タは、声帯音源波形モデルを規定するピッチ周期、声門
開放時間、声門開放区間内での音源の歪み、声門閉鎖か
ら体積流が負の最大値に達する時間、声門開放開始時の
体積流波形の傾き、声門閉鎖直前の体積流波形の傾きお
よび声門閉鎖直後の体積流波形の傾きの７種であること
を特徴とする特許請求の範囲第１項記載の音声分析装置
。
（３）パラメータ決定手段（１１３）における前記複数
のパラメータの最適化は、誤差信号（１２１）によって
表される誤差が最小となる方向で、前記複数のパラメー
タを変化させるように構成したことを特徴とする特許請
求の範囲第１項記載の音声分析装置。
（４）分析パラメータ出力信号（１２３）によって表さ
れる前記パラメータは、自己回帰移動平均分析手段（１
２５）での自己回帰移動平均分析によって得られる自己
回帰移動平均パラメータであることを特徴とする特許請
求の範囲第１項記載の音声分析装置。
（５）分析対象の音声信号を自己回帰移動平均分析する
際に必要とされる音源波形をモデル化するために得られ
る複数の第１パラメータを表すモデル化パラメータ信号
（１３１）を受け、該第１パラメータに基づいて音源波
形をモデル化し、該モデル化した音源波形を表す音源波
形信号（１３３）を出力する音源波形生成手段（１３５
）と、前記自己回帰移動平均分析において得られた複数
の第２パラメータを表すパラメータ信号（１３７）を受
けると共に、音源波形生成手段（１３５）からの音源波
形信号（１３３）を受けて、前記第１パラメータおよび
第２パラメータに基づいて音声合成を行なって合成音声
出力信号（１３９）を出力する自己回帰移動平均合成手
段（１４１）と、を具えるように構成したことを特徴と
する音声合成装置。
（６）前記第１パラメータは声帯音源波形モデルを規定
するのに必要なピッチ周期、声門開放時間、声門開放区
間内での音源の歪み、声門閉鎖から体積流が負の最大値
に達する時間、声門開放開始時の体積流波形の傾き、声
門閉鎖直前の体積流波形の傾きおよび声門閉鎖直後の体
積流波形の傾きの７種のパラメータであり、また、前記
第２パラメータは自己回帰移動平均パラメータであるこ
とを特徴とする特許請求の範囲第５項記載の音声合成装
置。