JPH0833752B2

JPH0833752B2 - 音声合成装置

Info

Publication number: JPH0833752B2
Application number: JP62335476A
Authority: JP
Inventors: 典雄須田; 貴博鈴木
Original assignee: Meidensha Corp
Current assignee: Meidensha Corp
Priority date: 1987-12-28
Filing date: 1987-12-28
Publication date: 1996-03-29
Anticipated expiration: 2011-03-29
Also published as: JPH01177098A

Description

【発明の詳細な説明】 A.産業上の利用分野本発明は、音響管モデルを利用した音声合成装置に関
するものである。

B.発明の概要本発明は人間の声道を音響管群とみなし、これをサー
ジインピーダンス成分の回路要素群に対応させることに
よって、回路要素群の出力端の電流波に基づいて音声を
模擬的に作り出す装置において、音節を構成する各音素毎に各音素の発生時間を複数の
時間帯に区分し、各時間毎に音響管の断面積等の音素パ
ラメータを指定し、この音素パラメータを指定関数から
取り出した漸化式に従って補間処理することによって、滑らかで人間の音声に近似した音声を作り出すように
したものである。

C.従来の技術音声合成やミュージックシンセサイザー（電子楽器）
等の所謂音を人工的に合成して出力する電子装置は、最
近になって１ないし数チップの音声認識や音声合成のLS
Iが音声情報処理と半導体の大規模集積回路技術により
低価格で実現されるようになり、その使用目的，制約条
件により種々の方式が提案されている。この音声合成に
は、人間の発生した生の音声を録音しておき、これを適
当に結合して文章に編集する録音編集方式と、人間の声
を直接的には利用せず、人間の音声のパラメータだけを
抽出し、音声合成過程で、そのパラメータを制御して人
工的に音声信号を作り出すパラメータ方式がある。

パラメータ方式においては、音声波形をある周期毎に
サンプリングして各サンプリング点での音声信号の値を
アナログ／ディジタル変換し、その値を０と１の符号で
表示して行われるが、アナログ信号に忠実な記録をする
ためには、ビット数を増やす必要があり、このため大き
なメモリ容量を必要とする。

そこで、この情報量を極力少なくするために各種の高
能率な符号化法が研究開発されている。

その方法の一つとして、１つの音声信号の情報に最低
限１ビットを対応させたデルタ変調方式がある。この方
式は、１ビットの使い方として、次にくる音声信号値が
現在の値より高いか低いかを判定して、高ければ符号
“1"、低ければ符号“0"を与え、音声信号の符号化を行
うもので、実際のシステム構成としては一定の振幅ステ
ップ量（デルタ）を定めておき、誤差が蓄積されないよ
うに今までの符号化によって得られる音声の値と、入力
してくる音声信号との残差信号に対して、符号化を行
う。

このような構成予測コード化といわれ、線形予測法
（何個か前のサンプル値から予測する）およびパーコー
ル方式（線形予測法の予測係数の代わりにパーコール係
数ｋといわれる偏自己相関関数を用いる）がある。

D.発明が解決しようとする問題点従来の音声合成方式のうち録音編集方式は、合成でき
る語彙や文章の種類が限定されるという問題がある。

また予測コードを用いた方式では、音と音との継ぎ目
に相当する調音結合が難しくて合成単位の結合法が確立
しておらず、例えば母音から子音を経て母音に至る発声
において、母音の定常から過渡を経て子音に至りまた母
音の過渡を経て母音の定常音に至る過程で母音と母音の
継ぎ目の音が跡切れてしまう。従って音の滑らかさに欠
け、人間が聞いたときに自然な感じを与えないという問
題がある。

本発明の目的は、任意な語彙、文章を合成することが
でき、しかも音が滑らかであって人間の実際の音声に近
く、自然な感じを聞く人に与えることのできる音声合成
装置を提供することにある。

E.問題点を解決するための手段及び作用（１）基本概念音声を口から外に放射するためには、音源が必要で、
この音源は声帯によって作り出される。一方声帯は２枚
のヒダを開閉することによって呼気を断続的に止める働
きがあり、その断続によってパフと呼ばれる空気流が発
声し、声帯を緊張させるとこのヒダに張力が加わりヒダ
の開閉の周波数が高くなり、周波数の高いパフ音が発生
する。そして呼気流を大きくすると大きな音となる。

この音源波が声道のような円筒状の音響管を通過する
と、開放端から音波は共振現象によりある成分が強調さ
れ、ある成分が減弱し複雑な母音の波形が作り出され
る。そして口から発せられる音声は、音源波が同じ波形
をもっていても、口唇から放射されるまでに通過する声
道の形によって影響を受ける。即ち、人間の発生音は、
声帯から口唇までの声道の長さや断面積及び声帯の震わ
せ方等によって決定される。

本発明はこのようなことに着目してなされたものであ
り、上記の声道を複数の可変断面積の音響管群にみな
し、更に音響管の音波の伝達を表わす進行波現象をその
等価回路により実現することを出発点としている。声道
を音響管とみなすと、各音響管の中の音波の伝搬は前進
波と後進波に分けて各音響管の境界面における反射、透
過現象の繰り返しとして考えることができ、このときそ
の反射と透過は境界面における音響的特性インピーダン
スの不整合の度合い、即ち互いに隣接する音響管の各断
面積の比に応じて定量的に規定される。ここで上記の反
射，透過現象は、電気回においてインピーダンスの異な
る線路にインパルス電流を流したときの過渡現象と同じ
である。

（２）等価回路このようなことからｎ個の音響管Ｓ₁〜Ｓ_nよりなる音
響管モデルを第１図（ア）に示すと、このモデルは第１
図（ロ）に示すような抵抗の無い無損失のサージインピ
ーダンス成分よりなる回路要素群（Ｔ₁〜Ｔ_n）を直列に
接続した電気回路として表わすことができる。Ａ₁〜Ａ_n
は夫々音響管Ｓ₁〜Ｓ_nの断面積である。ここに本発明で
は、基本的には上記の電気回路を適用して、これに供給
するインパルス電流と各回路要素Ｔ₁〜Ｔ_nのサージイン
ピーダンスを変化させることによって、音響管モデルの
音源波と各音響管の断面積とを変化させることに対応さ
せ、最終段の回路要素Ｔ_nから出力される電流をスピー
カ等の発声部に供給することによって、音響管モデルか
ら得られる音声を模擬的に作り出している。

具体的には、第１図（ウ）に示すように上記の電気回
路と等価な回路を想定し、この等価回路における電流源
の電流を時間に対して変化させると共に、後述するよう
に演算式中には音響管の断面積比が導入されるので、各
断面積Ａ₁〜Ａ_nを時間に対して変化させ、これによって
各部の電流値を演算により求めている。同図においてＰ
は電流源、Ｚ₀は電流源のインピーダンス、Ｚ₁〜Ｚ_nは
夫々回路要素Ｔ₁〜Ｔ_nのサージインピーダンス、Ｚ_Lは
放射インピーダンス、ｉ_0A〜ｉ_(n-1)A,i_1B〜ｉ_nB,a_0A〜
ａ_(n-1)A,a_1B〜ａ_nBは各々記号の該当する電流路の電
流、Ｗ_0A〜Ｗ_(n-1)A,W_1B〜Ｗ_nBは電流源、Ｉ_0A〜Ｉ
_(n-1)Aは後進波電流、Ｉ_1B〜Ｉ_nBは前進波電流を示す。
この等価回路においては、例えば回路要素Ｔ₁,T₂の結合
部分に着目すると、回路要素Ｔ₁中をＴ₂に向かって流れ
る電流Ｉ_1Bに対応させた電流源Ｗ_1Aと、回路要素Ｔ₂中
をＴ₁に向かって流れる電流Ｉ_1Aに対応させた電流源Ｗ
_1Aとを想定し、電流Ｉ_1Bが回路要素Ｔ₁,T₂の境界にてＴ
₁へ反射される反射波電流ｉ_1BとＴ₂へ透過する透過波電
流ａ_1Aとに分かれ、また電流Ｉ_1Aが回路要素Ｔ₂,T₁の境
界にてＴ₂へ反射される反射波電流ｉ_1AとＴ₁へ透過する
透過波電流ａ_1Bとに分かれることを等価的に表わしたも
のである。また同図（エ）はこうした様子を模式的に示
す模式図である。

（３）演算先ず第１図（ウ）の第１段目の電流源Ｐを含むブロッ
クは、第２図に示すように二つの回路の重ね合わせと考
えることができる。従って電流源Ｐの電圧をＶとおく
と、同図の電流ａ₁,a₂は夫々（１），（２）式で表わさ
れ、この結果電流ａ_0Aは（３）式で表わされる。

ａ₁＝V/Z₀＋Ｚ₁ ……（１）ａ₂＝Ｚ₀/Z₀＋Ｚ₁・Ｉ₀₁ ……（２）ａ_0A＝ａ₁＋ａ₂ ＝1/Z₀＋Ｚ₁（Ｖ＋Ｚ₀・Ｉ_0A） ……（３）今、初めて等価回路中に電流を供給していくとする
と、Ｉ_0Aを零とすることによりａ_0Aが求まる。そしてこ
の値を基にして順次に演算が実行される。図中左端に位
置する１段目のブロック及び２段目のブロックの電流値
の演算式を例にとると、以下の（４）〜（12）式のよう
に表わされる。

ａ_0A′＝1/Z₀＋Ｚ₁（Ｖ′＋Ｚ₀・Ｉ_0A） ……（４）ｉ_0A′＝ａ_0A′−Ｉ_0A ……（５）Ｉ_0A′＝ｉ_1B′＋ａ_1B ……（６）ａ_1B′＝Ｓ_1B（Ｉ_1B＋Ｉ_1A） ……（７）ｉ_1B′＝ａ_1B′−Ｉ_1B ……（８）Ｉ_1B′＝ｉ_0A′＋ａ_0A′ ……（９）ａ_1A′＝Ｓ_1A（Ｉ_1B＋Ｉ_1A） ……（10）ｉ_1A′＝ａ_1A′−Ｉ_1B ……（11）Ｉ_1A′＝ｉ_2B′＋ａ_2B′ ……（12）このような計算を進めていくと、最終段のブロックに
関する演算式は（13）〜（15）式のように表わされる。

ａ_nB′＝Ｚ_L/Z_n＋Ｚ_L・Ｉ_nB ……（13）ｉ_nB′＝ａ_nB′−Ｉ_nB Ｉ_nB′＝ｉ_(n-1)A＋ａ_(n-1)A ……（14）こうして最終段の音響管Ｓ_nより発せられる音波に対
応する電流ｉ_nBが求められる。ただしＳ_1B,S_1Aは各々互
いに隣接する音響管の断面積比で表わされる係数であ
り、夫々（15），（16）式で表わされる。

Ｓ_1B＝Ａ₁/A₁＋Ａ₂ ……（15）Ｓ_1A＝Ａ₂/A₁＋Ａ₂ ……（16）１段目から最終段目までのブロックの電流値の一連の
演算は瞬時に実行され、これら演算が所定のタイミング
をとって次々に行われていく。ここに上記の（４）〜
（14）式において、ダッシュの付いた値は時刻ｔにおけ
る演算値、ダッシュの付かない値は時刻ｔにおける演算
の１回前における演算により求めた演算値である。こう
して求めたデジタル値であるｉ_nBをデジタル／アナログ
変換してアナログ電流を作り、この電流をスピーカー等
に供給することにより音声を得る。前記演算のタイミン
グについては、音速を考慮して決定され、例えば各音響
管の１本の伝搬時間を演算の時間間隔とすることによっ
て、後進波電流Ｉ_0A〜Ｉ_(n-1)A及び前進波電流Ｉ_1B〜Ｉ
_nBが音速と同じ速度で各回路要素Ｔ₁〜Ｉ_nＡ中を流れる
状態と等価な状態を作り出し、これにより音響管モデル
と電気回路モデルとを整合させている。

本発明は以上のような等価モデルと演算の実現を基調
としたものであり、具体的には、音節を構成する各音素
毎に各音素の発生時間を複数の時間帯に区分し、各時間
帯毎に、音源波の繰り返し周波数であるピッチ、この音
源波のエネルギー及び音響管の断面積の各初期値と当該
時間帯の前記各初期値Xoから次の時間帯の各初期値Ｘ_r
への変化の仕方を規定した時定数と音源波パターンとを
格納する音素パラメータ格納部と、入力された音素デー
タに対応する前記ピッチ，エネルギー及び断面積の補間
処理を行うパラメータ補間処理部と、ここで補間処理さ
れたパラメータに基づいて前記回路要素群の出力端から
出力される電流値を演算する演算部と、この演算部の演
算結果に基づいて音声を発生する発声部とを備え、前記
パラメータ補間処理部は、前記各時間帯の間に前記初期
値Xoと目標値に相当する前記Ｘ_rとを用いて多数回補間
演算を行い、この補間演算は、ｎ番目の補間演算値をＸ
（ｎ）、前記時定数をＤで表わしたときに、Ｘ（ｎ）＝Ｄ｛Ｘ_r−Ｘ（ｎ−１）｝＋Ｘ（ｎ−１）で示される漸化式に従って実行されるようにしたもので
ある。

F.実施例第１図は本発明の実施例のブロック構成を示す図であ
る。１は日本語処理部であり、入力された日本語文章に
対して文節の区切りや辞書を参照して読みがな変換等を
行う。２は文章処理部であり文章にイントネーションを
付ける処理を行う。３は音節処理部であり、文章を構成
する音節に対して、イントネーションに応じたアクセン
トを付ける。例えば「さくらがさいた」という文章に対
して「SA」，「KU」，「RA」…というように音節に分解
し、各音節に対してアクセントを付ける。音のイントネ
ーションは後述する音源波の繰り返し周波数、そのエネ
ルギー及び時間で決まることから、アクセントを付ける
とは、これらパラメータに対する係数を決定することで
ある。４は音素処理部、４₁は音節パラメータ格納部で
あり、音素処理部４は、入力された「SA」…等の音節デ
ータに対し、音節と母音及び子音の単位である音素との
対応関係を規定した音節パラメータ格納部４₁内のデー
タを参照して音素に分解する処理、例えば音節「SA」に
対し、音素「Ｓ」，「Ａ」を取り出す。

５はパラメータ補間処理部、５₁は音素パラメータ格
納部、５₂は音源パラメータ格納部である。音素パラメ
ータ格納部５₁は第４図に示すように各音素の発声時間
を複数例えば３つの時間帯０₁〜０₃に区分し、各時間帯
毎に継続時間音源波の繰り返し周波数であるピッチ、こ
の音源波のエネルギー及び音響管の断面積の各初期値と
当該時間帯の前記各初期値から次の時間帯の各初期値へ
の変化の仕方を規定した時定数と音源波パターンとを格
納している。この実施例では、人間の声道（男性の場合
約17cm）を長さ1cmの音響管を17個連接したものでモデ
ル化しており、このため断面積値は１つの時間帯当たり
17個（Ａ₁〜Ａ₁₇）定められている。また音源パラメー
タ格納部５₂には、例えば第５図に示すように３種類の
音源波パターンＧ₁〜Ｇ₃の波形成分が50個のサンプルデ
ータとして格納されている。前記パラメータ補間処理部
５は、各時間帯（Ｏ₁〜Ｏ₃）におけるピッチ，エネルギ
ー及び断面積の補間処理を行う部分であり、この処理は
当該時間帯のピッチ，エネルギー及び断面積の各パラメ
ータの初期値をXoとし、次の時間帯の初期値をＸ_r,n番
目の補間演算値をＸ（ｎ）、各パラメータに対応する時
定数をＤで表わすと、次の（17）式に示す漸化式に従っ
て当該時間帯の間にｎ回演算を行う処理である。ただし
初期値Ｘ（Ｏ）は上記のXoである。

Ｘ（ｎ）＝Ｄ｛Ｘ_r−Ｘ（ｎ−１）｝＋Ｘ（ｎ−１） …
…（17）例えば時間帯Ｏ₁におけるピッチの補間処理について
は、XoがＰ₁、Ｘ_rがＰ₂に相当するので（18）式に従っ
て演算される。

Ｘ（ｎ）＝DP₁｛Ｐ₂−Ｘ（ｎ−１）｝＋Ｘ（ｎ−１）…
…（18）ここで上記（17）式は次の（19）式の漸化式である。

Ｘ＝Ｘ_r−ｅ^-Dt ……（19）即ち（19）式を微分すると（20）式が成立し、従って
（21）が成立する。

dx/dt＝De^-Dt ……（20） ΔＸ＝Ｘ（ｎ−１）−Ｘ（ｎ）＝Δｔ・De^-Dt(n) ＝Δｔ・Ｄ（Ｘ_r−Ｘ（ｎ）） ……（21）よって（22）式となる。

Ｘ（ｎ＋１）＝Δｔ・Ｄ（Ｘ_r−Ｘ（ｎ））＋Ｘ（ｎ）
……（22）ここで補間演算の時間間隔は一定であるからΔｔ・Ｄ
を一括して時定数Ｄと置き換えることができ、（17）式
として表わされる。

６は演算部であり、パラメータ補間処理部５で算出し
たパラメータに基づいて、前記補間演算と同じタイミン
グで例えば100μｓの時間間隔で第１図（ウ）に示す電
流ｉ_nBのデジタル値を求める。７はデジタル／アナログ
（D/A）変換器であり、演算部６で求めたデジタル値に
基づいて電流波（アナログ電流）を作り出す。８はスピ
ーカー等の発声部であり、アナログ電流に基づいて音声
を発声する。

次に上述実施例の作用について述べる。

ワードプロセッサ等により入力された日本語文章は、
日本語処理部１、文章処理部２及び音節処理部３を経て
イントネーション等が付けられて音節単位に区切られ、
更に音素処理部４によって各音節は音素に分解される。
次いでパラメータ補間処理部によって、各音素のピッ
チ，エネルギー及び断面積が音素パラメータ格納部５₁
から取り出され、これらパラメータについて各時間帯
（０₁〜０₃）毎に補間処理が行われる。この補間処理は
（17）式に従って行われ、例えば時間帯０₁におけるピ
ッチについては（18）式に従って実行される。第６図は
この様子を示す図であり、補間演算によって求められた
ピッチの各補間値Ｐ（１）,P（２）…Ｐ（ｎ）は次の
（23）式で表わされる曲線に沿って並ぶことになる。

Ｐ＝Ｐ₂−ｅ^-Dt ……（23）また各時間帯０₁〜０₃毎に規定された音源波パターン
のサンプルデータが音源パラメータ格納部５₂から取り
出され、このサンプルデータとピッチ等の補間値が演算
部６に与えられ、演算部６にて上記のE.（３）項「演
算」にて詳述した演算が実行される。この演算におい
て、音節処理部３にて各音節単位に付けられたアクセン
トに対応する係数あるいは関数とパラメータ補間処理部
５で求められた各パラメータとが掛け合わされて、文章
のイントネーションが表われるように演算される。こう
して最終段の音響管より発せられる音波に相当する電流
波のデジタル値が求められ、この値に基づいてD/A変換
器７により電流波が作られ、発声音８より対応する音声
が発せられる。

G.発明の効果本発明によれば音響管モデルの音波の伝搬を等価回路
の電流の流れに置き換え、各音素毎に電流源のピッチ等
のパラメータと音響管の断面積とを規定し、音素間の継
ぎ目あるいは音素内の区分された時間帯の継ぎ目につい
て、指数関数に基づいたパラメータの補間処理を実行し
ているので、滑らかな音声を得ることができ、聞き手に
自然な感じを与える。そして指数関数の補間演算を実際
に行うのではなく、この関数から抽出した漸化式を利用
して各補間値を求めているため、演算処理が簡単であ
る。また音素間の継ぎ目に相当する領域の全パラメータ
値をメモリに格納するのではなく、音素単位あるいは時
間帯単位にデータを保存しておけば足りるのでメモリ容
量が小さくて済む。

【図面の簡単な説明】

第１図は音響管の等価モデルを示す説明図、第２図は電
流源を含むブロックを示す等価回路図、第３図は本発明
の実施例を示すブロック図、第４図は音素パラメータの
データ図、第５図は音源波パターンを示す説明図、第６
図はパラメータ補間処理の様子を示す説明図である。４……音素処理部、４₁……音節パラメータ格納部、５
……パラメータ補間処理部、５₁……音素パラメータ格
納部、５₂……音源波パターン格納部、６……演算部、
７……デジタル／アナログ変換部、８……発声部。

Claims

【特許請求の範囲】

【請求項１】人間の声道を縦列に接合した複数の音響管
とみなし、これら音響管群とサージインピーダンス成分
の回路要素群とを対応させると共に音声源と電流源とを
対応させることによって、音響管群の出力端から発せら
れる音声波を回路要素群の出力端の電流波に基づいて模
擬的に作り出す音声合成装置において、音節を構成する各音素毎に各音素の発声時間を１以上の
時間帯に区分し、各時間帯毎に、音源波の繰り返し周波
数であるピッチ、この音源波のエネルギー及び音響管の
断面積の各初期値と当該時間帯の前記各初期値Xoから次
の時間帯の各初期値Ｘ_rへの変化の仕方を規定した時定
数と音源波パターンとを格納する音素パラメータ格納部
と、入力された音素データに対応する前記ピッチ，エネ
ルギー及び断面積の各補間処理を行うパラメータ補間処
理部と、ここで補間処理されたパラメータに基づいて前
記回路要素群の出力端から出力される電流値を演算する
演算部と、この演算部の演算結果に基づいて音声を発生
する発声部とを備え、前記パラメータ補間処理部は、前記各時間帯の間に前記
初期値Xoと目標値に相当する前記Ｘ_rとを用いて多数回
補間演算を行い、この補間演算は、ｎ番目の補間演算値
をＸ（ｎ）、前記時定数をＤで表わしたときにＸ（ｎ）＝Ｄ｛Ｘ_r−Ｘ（ｎ−１）｝＋Ｘ（ｎ−１）で示される漸化式に従って実行されることを特徴とする
音声合成装置。