JPH0833751B2

JPH0833751B2 - 音声合成方式

Info

Publication number: JPH0833751B2
Application number: JP62331282A
Authority: JP
Inventors: 典雄須田
Original assignee: Meidensha Corp
Current assignee: Meidensha Corp
Priority date: 1987-12-25
Filing date: 1987-12-25
Publication date: 1996-03-29
Anticipated expiration: 2011-03-29
Also published as: JPH01170999A

Description

【発明の詳細な説明】 A.産業上の利用分野この発明は音響管を使用した規則合成による音声合成
方式に関する。

B.発明の概要この発明は規則合成による音声合成方式において、音節データを音響管に与えて断面積を変化させる際
に、その断面積を音節データのエネルギーより先行させ
て制御させるようにしたことにより、人間の発声と同様な音の合成を容易となし、音声の自
然性の向上を図るようにしたものである。

C.従来の技術人工的に音声を合成して出力する電子装置は、最近に
なって１ないし数チップの音声認識や音声合成のLSIが
音声情報処理と半導体の大規模集積回路技術により低価
格で実現されるようになり、その使用目的，制約条件に
より種々の方式が提案されている。この音声合成には、
人間の発生した生の音声を録音しておき、これを適当に
結合して文章に編集する録音編集方式と、人間の声を直
接的には利用せず、人間の音声のパラメータだけを抽出
し、音声合成過程で、そのパラメータを制御して人工的
に音声信号を作り出す方法がある。

このパラメータ方式で良質な合成音が得られることで
広く利用されているパーコール（PARCOR）方式がある。

音声を電子計算機で扱う場合、音声波形をある周期毎
にサンプリングして各サンプリング点での音声信号の値
をアナログ／ディジタル変換し、その値を０と１の符号
で表示して行われるが、アナログ信号に忠実な記録をす
るには、ビット数を増やす必要があるが音声合成信号は
大変多くのメモリーを必要とする。

そこで、この情報量を極力少なくするために各種の高
能率な符号化法が研究開発されている。

その方法の１つとして、１つの音声信号の情報に対
し、最低限１ビットとした方式で、デルタ変調方式があ
る。この方式は、１ビットの使い方として、次にくる音
声信号値が現在の値より高いか低いかを判定して、高け
れば符号“1"、低ければ符号“0"を与え音声信号の符号
化を行うもので、実際のシステム構成としては一定の振
幅ステップ量（デルタ）を定めておき、誤差が蓄積され
ないように今までの符号化によって得られる音声の値
と、入力してくる音声信号との残差信号に対して、符号
化を行う。

このような構成は予測コード化といわれ、線形予測法
（何個か前のサンプル値から予測する）およびパーコー
ル方式（線形予測法の予測係数の代わりにパーコール係
数ｋといわれる偏自己相関関数を用いる）がある。

D.発明が解決しようとする問題点前述のように予測コード化を用いたものは、音と音と
の継ぎ目に相当する調音結合が難しいという問題があ
る。例えば母音から子音を経て母音に至る発声におい
て、母音の定常から過渡を経て子音に至りまた母音の過
渡を経て母音の定常音に至る過程で母音と母音の継ぎ目
の音が跡切れ、人間が聞いたときに自然な感じを与えな
い。

E.問題点を解決するための手段この発明は入力された文字を、予め設けられた辞書登
録部に登録された言語を用いて日本語処理部にて処理
し、その後、処理された言語を音節処理部でピッチ，エ
ネルギー，継続時間に区分して音節データを作成し、こ
の音節データを音響管に与えて断面積を変化させるとき
に、音響管の断面積をエネルギーより一定時間先行制御
させて音声合成出力を得るようにしたものである。

F.作用日本語処理部で処理された言語を音声として出力する
際、その言語をまず、音節処理する。この処理によって
ピッチ，エネルギー等の音節データを得る。この音節デ
ータを音響管に与えるとき、断面積をエネルギーより一
定時間だけ先行して制御させて音声合成出力を送出する
と人間の発声と同様な音の合成ができ、かつ自然性の向
上を図ることができる。

G.実施例まず、この発明の基礎となる先願発明（特願昭62-917
05号）の概要について述べる。先願発明は次のように構
成されている。

人間の音の発生は人間の口腔，音響管の長さや断面積
等の形状変化によって作り出されるので、これら音響管
の音波の伝達を表わす進行波現象を音響等価回路で解析
し、音響管の断面積がサージインピーダンスに反比例す
ることに着目し、サージインピーダンスを変化させるこ
とで断面積を模擬的に変化させ、サージインピーダンス
を連続的変化することで調音結合をスムーズに行うこと
ができるようにして人間の発声と同様な音の合成を容易
となし、音声の自然性の向上を図るようにしたものであ
る。

上記のように構成された先願発明において、音声発生
時の声道の断面積変化は、例えば「ア」の発声の場合
は、喉の奥が狭く口唇が開いた状態で肺から押し出され
る呼気で声帯が呼気を断続的に開閉して声道（音響管）
の中で反射を繰り返して出てくる音波が「ア」の音声波
形となって出てくる。「イ」は喉の方が広く口唇の先が
狭いと「イ」の音声波形が出力される。

このように口の恰好で周波数が決まり、口の恰好を模
擬すれば「ア」なり「イ」が発声される。口の恰好は音
響管の断面積で模擬でき、また、音響管の断面積の変化
はサージアドミッタンスの変化で模擬できる。従って、
サージアドミッタンスを変化させれば口の恰好が模擬で
きることになる。サージアドミッタンスの変化は電気回
路上極めて容易に可変できるので、電気信号によって様
々な音声を合成することができる。第４図（ア）は断面
積Ａ₁,A₂…Ａ_nと異なる断面積をもった音響管を接続し
て声道を模擬したものである。同図（イ）はその音響イ
ンピーダンスを電気回路のLC回路に置き換えたもので、
各音響管を１個のLC線路とし、全体を集中線路のｎ−１
の電気回路としたものである。また第４図（ウ）は進行
波等価モデル図で、各音響管の音響インピーダンスＺ₁,
Z₂…Ｚ_nは、音響管の断面積に反比例（音響アドミッタ
ンス比例）し、音波の速度Ｃに比例するので（ρは空気
密度）、となる。なお、同図でZgは音源インピーダンス、Ｚ_Lは
放射インピーダンスを示し、またブロック間の矢印は、
進行波と後進波を表している。

今「ア」という音声を発声させる場合は、口唇の先に
相当する音響管の断面積のところで「ア」の口の恰好を
与えて、インパルスＰを断続的に印加することで、
「ア」の音が得られ、また「ア」から「イ」の音を発声
させる場合は、口唇の先に相当する音響管の断面積を狭
め「イ」の口の恰好を与えることで「イ」が得られる。

インパルスＰが連続して断続的に与えられ、断面積全
体を「イ」の口の恰好に変化させる場合、声道は第４図
に示すｎ個の音響管によって模擬しているので、これら
の各断面積を「ア」から動かして口の恰好を「ア−イ」
と連続的に変えることになる。この音響管の断面積を変
えるということは、サージインピーダンスを徐々に変え
ることによって行われる。

従って、断面積は連続的に変えられるので、定常状態
の「ア」，「イ」の音が得られることは勿論であるが、
更にインピーダンスは連続して可変できるので、その中
間の音、即ち音と音との間の音を得ることができる。従
って音の切れが無く人間の発音に近い調音結合がスムー
ズに行われる。

次に音波の伝搬速度を考えると、これは長さｌでLCを
持った電線路にインパルスを印加した時の過渡現象に似
ている。

即ち第５図に示すようにLCを有する線路を等価的に表
すと第６図のようになる。ここで両端部からみたサージ
インピーダンスＺ₀₁,Z₀₂は、となる。

ここで相手から到達してきた進行波を等価的な電流源
と考えると、となり電流は中間にｎ個の遅延回路ブロックＺがあれ
ば、ｎ時間後に出力される。即ち左側の回路で発生した
ものがτ時間後右側に到達したということになる。

Ｉ₂は送り管側の電流となる。但し、ディジタル計算においては、電圧または
電流を細分割するのでＶ₁,V₂は計測時刻ｔにおける電
圧，τは経過時間を示している。

第６図では、L,C回路にインパルスを印加すれば、τ
時間後に出力管側に出る。そしてτ時間前到達されたも
のは相手にも到達しているということを等価的に表して
いる。線路の長さｌを１にするということは、遅延ブロ
ックｎを正規化して１にすることで計算し易くなる。ｌ
を3cmに刻む場合は遅延ブロックのｎを３ブロックにす
ればよい。

第４図（ア）を人間の声道は男性で約17cmなので、1c
m刻みで17本の音響管で模擬すれば、Ａ₁から入った波形
は、半周期の電流を10に分割しそのΔｔを10μsecとす
れば、170μsecかかってＡ_n側から出てくる。

従って、音響管断面積Ａ₁〜Ａ_nの断面積変化に対応し
た演算処理を演算処理装置で行い音響管Ａ₁〜Ａ_nの個々
の等価回路を流れる各部の電流値および関数をテーブル
として有するメモリと、当該等価回路の各部の電流値を
演算する演算手段と、前記等価回路とは相隣接する等価
回路の電流値を用いて電流値を演算する演算手段とを備
えて演算処理を行えば音声信号が得られ、その出力をD/
A変換してスピーカに出力すれば、スピーカより音声と
して出力される。

次の上記の音響管モデルを使用して文字入力信号から
規則によって音声を合成する実施例について説明する。

第１図はこの発明の一実施例を説明するためのブロッ
ク図で、１は日本語処理部で、この処理部１は漢字かな
混じりで書かれた文章を入力として受けとり、これを辞
書登録部２の辞書登録と対応させて文節，句，文の区切
り、形態素分類の自然語解析を行い、更にアクセント処
理を行って、これを表音変換してイントネーションをつ
けて文章処理データを作るものである。３は上記日本語
処理部１で処理されたデータから音節パラメータの処理
を行う音節処理部で、この音節処理部３で処理された音
節パラメータは子音の110個〜140個（普通に話せる言葉
は110個程度あればよい）の音節毎に音の高さ（ピッチ
Ｐ），音の強さ（エネルギーＥ）および継続時間（Ｔ）
に区分される。この音節パラメータの１例を第２図に示
す。この第２図は「桜」の場合を例示したもので、「S
A」，「KU」，「RA」の各音節毎にピッチP,エネルギー
E,時間Ｔを示す。

上記のようにして得られた音節パラメータは音響管モ
デルに与えられるが、このとき、断面積制御部4,ピッチ
制御部5,エネルギー制御部６を次のように制御する。断
面積制御部４はエネルギー制御部６より一定時間先行し
て制御できるように、エネルギー制御部６の前段に遅延
タイマー７を介挿させて、エネルギーを一定時間遅延さ
せる。すなわち、第３図に示すように、常に断面積がエ
ネルギーよりτ時間早く立ち上がることになる。このよ
うに制御することにより、人間が発声するときと同様な
発声となって、音声に自然性が生じる。これは人間は発
声するとき、口が最初に開いてからその後、エネルギー
が投入されるのと同じ制御になるからである。

上記断面積制御部4,ピッチ制御部5,エネルギー制御部
６の出力はD/A変換部８でD/A変換されて音声出力が図示
省略のスピーカから送出される。

H.発明の効果以上述べたように、この発明によれば、人間が発声す
るとき、口を作ってから音を出すのと同様の制御を行う
ように、断面積をエネルギーより先行制御させるように
したので、人間の発声と同様な音の合成を容易となし、
音声の自然性の向上を図ることができる。

【図面の簡単な説明】第１図はこの発明の一実施例を示すブロック図、第２図
は音節パラメータ説明図、第３図は断面積とエネルギー
の関係説明図、第４図（ア）は音響管モデル図、第４図
（イ）は音響管の電気回路モデル図、第４図（ウ）は音
響管の進行波等価モデル図、第５図は音声伝搬を電気的
に模擬した電気回路図、第６図は第５図の等価回路図で
ある。１……日本語処理部、２……辞書登録部、３……音節処
理部、４……断面積制御部、５……ピッチ制御部、６…
…エネルギー制御部、７……遅延タイマ。

Claims

【特許請求の範囲】

【請求項１】入力された文字を、予め設けられた辞書登
録部に登録された言語を用いて日本語処理部にて処理
し、その後、処理された言語を音節処理部でピッチ，エ
ネルギー，継続時間に区分して音節データを作成し、こ
の音節データを音響管に与えて断面積を変化させるとき
に、音響管の断面積をエネルギーより一定時間先行制御
させて音声合成出力を得るようにしたことを特徴とする
音声合成方式。