JPH01219895A - 音声合成装置 - Google Patents
音声合成装置Info
- Publication number
- JPH01219895A JPH01219895A JP4653488A JP4653488A JPH01219895A JP H01219895 A JPH01219895 A JP H01219895A JP 4653488 A JP4653488 A JP 4653488A JP 4653488 A JP4653488 A JP 4653488A JP H01219895 A JPH01219895 A JP H01219895A
- Authority
- JP
- Japan
- Prior art keywords
- value
- phoneme
- pitch
- interpolation
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002194 synthesizing effect Effects 0.000 title 1
- 238000004364 calculation method Methods 0.000 claims description 34
- 230000001755 vocal effect Effects 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 4
- 239000011295 pitch Substances 0.000 description 27
- 238000000034 method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 210000001260 vocal cord Anatomy 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 102220510024 Protein phosphatase inhibitor 2_W11A_mutation Human genes 0.000 description 1
- 102220517058 Transcriptional regulator PINT87aa_I11A_mutation Human genes 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
A、産業上の利用分野
本発明は、音響管モデルを利用した音声合成装置に関す
るものである。
るものである。
B1発明の概要
本発明は人間の声道を音響管群とみなし、これをサージ
インピーダンス成分の回路要素群に対応させることによ
って、回路要素群の出力端の電流波に基づいて音声を模
擬的に作り出す装置において、 音節を構成する各音素毎に各音素の発生時間を複数の時
間帯に区分し、各時間毎に音響管の断面積等の音素パラ
メータを指定し、この音素パラメータを補間処理すると
共に、特に音源波の繰り返し周波数であるピッチについ
ては、指数関数から取り出した漸化式に従って補間処理
することによって、 滑らかで人間の音声に近似した音声を作り出すようにし
たものである。
インピーダンス成分の回路要素群に対応させることによ
って、回路要素群の出力端の電流波に基づいて音声を模
擬的に作り出す装置において、 音節を構成する各音素毎に各音素の発生時間を複数の時
間帯に区分し、各時間毎に音響管の断面積等の音素パラ
メータを指定し、この音素パラメータを補間処理すると
共に、特に音源波の繰り返し周波数であるピッチについ
ては、指数関数から取り出した漸化式に従って補間処理
することによって、 滑らかで人間の音声に近似した音声を作り出すようにし
たものである。
C0従来の技術
音声合成やミュージックシンセサイザー(電子楽器)等
の所謂音を人工的に合成して出力する電子装置は、最近
になって1ないし数チップの音声認識や音声合成のLS
Iが音声情報処理と半導体の大規模集積回路技術により
低価格で実現されるようになり、その使用目的、制約条
件により種々の方式が提案されている。この音声合成に
は、人間の発生した生の音声を録音しておき、これを適
当に結合して文章に編集する録音編集方式と、人間の声
を直接的には利用せず、人間の音声のパラメータだけを
抽出し、音声合成過程で、そのパラメータを制御して人
工的に音声信号を作り出すパラメータ方式がある。
の所謂音を人工的に合成して出力する電子装置は、最近
になって1ないし数チップの音声認識や音声合成のLS
Iが音声情報処理と半導体の大規模集積回路技術により
低価格で実現されるようになり、その使用目的、制約条
件により種々の方式が提案されている。この音声合成に
は、人間の発生した生の音声を録音しておき、これを適
当に結合して文章に編集する録音編集方式と、人間の声
を直接的には利用せず、人間の音声のパラメータだけを
抽出し、音声合成過程で、そのパラメータを制御して人
工的に音声信号を作り出すパラメータ方式がある。
パラメータ方式においては、音声波形をある周期毎にサ
ンプリングして各サンプリング点での音声信号の値をア
ナログ/ディジタル変換し、その値を0と1の符号で表
示して行われるが、アナログ信号に忠実な記録をするた
めには、ビット数を増やす必要があり、このため大きな
メモリ容量を必要とする。
ンプリングして各サンプリング点での音声信号の値をア
ナログ/ディジタル変換し、その値を0と1の符号で表
示して行われるが、アナログ信号に忠実な記録をするた
めには、ビット数を増やす必要があり、このため大きな
メモリ容量を必要とする。
そこで、この情報量を極力少なくするために各種の高能
率な符号化法が研究開発されている。
率な符号化法が研究開発されている。
その方法の一つとして、1つの音声信号の情報に最低限
1ビツトを対応させたデルタ変調方式がある。この方式
は、1ビツトの使い方として、次にくる音声信号値が現
在の値より高いか低いかを判定して、高ければ符号“1
”、低ければ符号“0”を与え、音声信号の符号化を行
うもので、実際のシステム構成としては一定の振幅ステ
ップ量(デルタ)を定めておき、誤差が蓄積されないよ
うに今までの符号化によって得られる音声の値と、入力
してくる音声信号との残差信号に対して、符号化を行う
。
1ビツトを対応させたデルタ変調方式がある。この方式
は、1ビツトの使い方として、次にくる音声信号値が現
在の値より高いか低いかを判定して、高ければ符号“1
”、低ければ符号“0”を与え、音声信号の符号化を行
うもので、実際のシステム構成としては一定の振幅ステ
ップ量(デルタ)を定めておき、誤差が蓄積されないよ
うに今までの符号化によって得られる音声の値と、入力
してくる音声信号との残差信号に対して、符号化を行う
。
このような構成予測コード化といわれ、線形予測法(何
個か前のサンプル値から予測する)およびパーコール方
式(線形予測法の予測係数の代わりにパーコール係数に
といわれる偏自己相関関数を用いる)がある。
個か前のサンプル値から予測する)およびパーコール方
式(線形予測法の予測係数の代わりにパーコール係数に
といわれる偏自己相関関数を用いる)がある。
D1発明が解決しようとする問題点
従来の音声合成方式のうち録音編集方式は、合成できる
給量や文章の種類が限定されるという問題がある。
給量や文章の種類が限定されるという問題がある。
また予測コード化を用いた方式では、音と音との継ぎ目
に相当する調音結合が難しくて合成単位の結合法が確立
しておらず、例えば母音から子音を経て母音に至る発声
において、母音の定常から過渡を経て子音に至りまた母
音の過渡を経て母音の定常音に至る過程で母音と母音の
継ぎ目の音が跡切れてしまう。従って音の滑らかさに欠
け、人間が聞いたときに自然な感じを与えないという問
題がある。
に相当する調音結合が難しくて合成単位の結合法が確立
しておらず、例えば母音から子音を経て母音に至る発声
において、母音の定常から過渡を経て子音に至りまた母
音の過渡を経て母音の定常音に至る過程で母音と母音の
継ぎ目の音が跡切れてしまう。従って音の滑らかさに欠
け、人間が聞いたときに自然な感じを与えないという問
題がある。
本発明の目的は、任意な給量、文章を合成することがで
き、しかも音が滑らかであって人間の実際の音声に近く
、自然な感じを聞く人に与えることのできる音声合成装
置を提供することにある。
き、しかも音が滑らかであって人間の実際の音声に近く
、自然な感じを聞く人に与えることのできる音声合成装
置を提供することにある。
E1問題点を解決するための手段及び作用(1)基本概
念 音声を口から外に放射するためには、音源か必要で、こ
の音源は声帯によって作り出される。−方声帯は2枚の
ヒダを開閉することによって呼気を断続的に止める働き
があり、その断続によってパフと呼ばれる空気流が発生
し、声帯を緊張させるとこのヒダに張力が加わりヒダの
開閉の周波数が高くなり、周波数の高いパフ音が発生す
る。そして呼気流を大きくすると大きな音となる。
念 音声を口から外に放射するためには、音源か必要で、こ
の音源は声帯によって作り出される。−方声帯は2枚の
ヒダを開閉することによって呼気を断続的に止める働き
があり、その断続によってパフと呼ばれる空気流が発生
し、声帯を緊張させるとこのヒダに張力が加わりヒダの
開閉の周波数が高くなり、周波数の高いパフ音が発生す
る。そして呼気流を大きくすると大きな音となる。
この音源波が声道のような円筒状の音響管を通過すると
、開放端から音波は共振現象によりある成分が強調され
、ある成分が減弱し複雑な母音の波形が作り出される。
、開放端から音波は共振現象によりある成分が強調され
、ある成分が減弱し複雑な母音の波形が作り出される。
そして口から発せられる音声は、音源波が同じ波形をも
っていても、口唇から放射されるまでに通過する声道の
形によって影響を受ける。即ち、人間の発生音は、声帯
から口唇までの声道の長さや断面積及び声帯の震わせ方
等によって決定される。
っていても、口唇から放射されるまでに通過する声道の
形によって影響を受ける。即ち、人間の発生音は、声帯
から口唇までの声道の長さや断面積及び声帯の震わせ方
等によって決定される。
本発明はこのようなことに着目してなされたものであり
、上記の声道を複数の可変断面積の音響管群とみなし、
更に音響管の音波の伝達を表わす進行波現象をその等価
回路により実現することを出発点としている。声道を音
響管とみなすと、各音響管の中の音波の伝搬は前進波と
後進波に分けて各音響管の境界面における反射、透過現
象の繰り返しとして考えることができ、このときその反
射と透過は境界面における音響的特性インピーダンスの
不整合の度合い、即ち互いに隣接する音響管の各断面積
の比に応じて定量的に規定される。
、上記の声道を複数の可変断面積の音響管群とみなし、
更に音響管の音波の伝達を表わす進行波現象をその等価
回路により実現することを出発点としている。声道を音
響管とみなすと、各音響管の中の音波の伝搬は前進波と
後進波に分けて各音響管の境界面における反射、透過現
象の繰り返しとして考えることができ、このときその反
射と透過は境界面における音響的特性インピーダンスの
不整合の度合い、即ち互いに隣接する音響管の各断面積
の比に応じて定量的に規定される。
ここで上記の反射、透過現象は、電気回路においてイン
ピーダンスの異なる線路にインパルス電流を流したとき
の過渡現象と同じである。
ピーダンスの異なる線路にインパルス電流を流したとき
の過渡現象と同じである。
(2)等価回路
このようなことからn個の音響管81〜Snよりなる音
響管モデルを第1図(ア)に示すと、このモデルは第1
図(ロ)に示すような抵抗の無い無損失のサージインピ
ーダンス成分よりなる回路要素群(T、〜T、)を直列
に接続した電気回路として表わすことができる。A、−
A、は夫々音響管81〜Snの断面積である。ここに本
発明では、基本的には上記の電気回路を適用して、これ
に供給するインパルス電流と各回路要*T、〜T、のサ
ージインピーダンスを変化させることによって、音響管
モデルの音源波と各音響管の断面積とを変化させること
に対応させ、最終段の回路要素T1から出力される電流
をスピーカ等の発声部に供給することによって、音響管
モデルから得られる音声を模擬的に作り出している。
響管モデルを第1図(ア)に示すと、このモデルは第1
図(ロ)に示すような抵抗の無い無損失のサージインピ
ーダンス成分よりなる回路要素群(T、〜T、)を直列
に接続した電気回路として表わすことができる。A、−
A、は夫々音響管81〜Snの断面積である。ここに本
発明では、基本的には上記の電気回路を適用して、これ
に供給するインパルス電流と各回路要*T、〜T、のサ
ージインピーダンスを変化させることによって、音響管
モデルの音源波と各音響管の断面積とを変化させること
に対応させ、最終段の回路要素T1から出力される電流
をスピーカ等の発声部に供給することによって、音響管
モデルから得られる音声を模擬的に作り出している。
具体的には、第1図(つ)に示すように上記の電気回路
と等価な回路を想定し、この等価回路における電流源の
電流を時間に対して変化させると共に、後述するように
演算式中には音響管の断面積比が導入されるので、各断
面積A、〜Anを時間に対して変化させ、これによって
各部の電流値を演算により求めている。同図においてP
は電流源、Zoは電流源のインピーダンス、z、−Lz
、は夫々回路要素T、−Tnのサージインピーダンス、
ZLは放射インピーダンス、j oA−i(。−11A
、 j +e〜i nB、 a OAA′a 1n
−11A+ a +B”’−a nBは各々記号の該
当する電流路の電流、W Q A〜Wい一11A、WI
B〜W、は電流源、I OA−1fn−+1Aは後進波
電流、I+B〜l、、8は前進波電流を示す。この等価
回路においては、例えば回路要素T1.Ttの結合部分
に着目すると、回路要素T、中をT、に向かって流れる
電流11aに対応させた電流源W I Aと、回路要素
T。
と等価な回路を想定し、この等価回路における電流源の
電流を時間に対して変化させると共に、後述するように
演算式中には音響管の断面積比が導入されるので、各断
面積A、〜Anを時間に対して変化させ、これによって
各部の電流値を演算により求めている。同図においてP
は電流源、Zoは電流源のインピーダンス、z、−Lz
、は夫々回路要素T、−Tnのサージインピーダンス、
ZLは放射インピーダンス、j oA−i(。−11A
、 j +e〜i nB、 a OAA′a 1n
−11A+ a +B”’−a nBは各々記号の該
当する電流路の電流、W Q A〜Wい一11A、WI
B〜W、は電流源、I OA−1fn−+1Aは後進波
電流、I+B〜l、、8は前進波電流を示す。この等価
回路においては、例えば回路要素T1.Ttの結合部分
に着目すると、回路要素T、中をT、に向かって流れる
電流11aに対応させた電流源W I Aと、回路要素
T。
中をT1に向かって流れる電流11Aに対応させた電流
源WIAとを想定し、電流1+aが回路要素T、。
源WIAとを想定し、電流1+aが回路要素T、。
T、の境界にてT1へ反射される反射波電流iゆとT、
へ透過する透過波電流a+Aとに分かれ、また電流I、
^が回路要素Tt、T、の境界にてT、へ反射される反
射波電流+1AとT、へ透過する透過波電流ahBとに
分かれることを等価的に表わしたものである。また同図
(1)はこうした様子を模式的に示す模式図である。
へ透過する透過波電流a+Aとに分かれ、また電流I、
^が回路要素Tt、T、の境界にてT、へ反射される反
射波電流+1AとT、へ透過する透過波電流ahBとに
分かれることを等価的に表わしたものである。また同図
(1)はこうした様子を模式的に示す模式図である。
(3)演算
先ず第1図(つ)の第1段目の電流源Pを含むブロック
は、第2図に示すように二つの回路の重ね合わせと考え
ることができる。従って電流源Pの電圧を■とおくと、
同図の電流at、atは夫々(1)、(2)式で表わさ
れ、この結果電流a。Aは(3)式で表わされる。
は、第2図に示すように二つの回路の重ね合わせと考え
ることができる。従って電流源Pの電圧を■とおくと、
同図の電流at、atは夫々(1)、(2)式で表わさ
れ、この結果電流a。Aは(3)式で表わされる。
al =v/zo+z+ ”’(t)
at =Zo/Zo+ Z+・ lot −(
2)a OA= fL t+ a t = 1 / Z a + Z + (V + Z o・
I OA) ・・・(3)今、初めて等価回路中に
電流を供給していくとすると、IOAを零とすることに
よりa。^が求まる。
at =Zo/Zo+ Z+・ lot −(
2)a OA= fL t+ a t = 1 / Z a + Z + (V + Z o・
I OA) ・・・(3)今、初めて等価回路中に
電流を供給していくとすると、IOAを零とすることに
よりa。^が求まる。
そしてこの値を基にして順次に演算が実行される。
図中左端に位置する1段目のブロック及び2段目のブロ
ックの電流値の演算式を例にとると、以下の(4)〜(
12)式のように表わされる。
ックの電流値の演算式を例にとると、以下の(4)〜(
12)式のように表わされる。
aOA’= l/zo+zl(v’+Zo・l0A)”
・(4)10^”ao^’−1、A
−(5)I GA′−i +a’+ a IB’
−(6)a+s’=ste(1+a+
IIA) ・”(7)i+B’=a+B
’ IIB −(8)11B’
= i 0A’+ a GA’ −(
9)a 、A’−8IA (1+e+ I IA)
・・−(10)i lA’= a IA’
I +8 ・+ (11)11A
’= i!B’+ a 2a’ ・・
・(12)このような計算を進めていくと、最終段のブ
ロックに関する演算式は(13)〜(15)式のように
表わされる。
・(4)10^”ao^’−1、A
−(5)I GA′−i +a’+ a IB’
−(6)a+s’=ste(1+a+
IIA) ・”(7)i+B’=a+B
’ IIB −(8)11B’
= i 0A’+ a GA’ −(
9)a 、A’−8IA (1+e+ I IA)
・・−(10)i lA’= a IA’
I +8 ・+ (11)11A
’= i!B’+ a 2a’ ・・
・(12)このような計算を進めていくと、最終段のブ
ロックに関する演算式は(13)〜(15)式のように
表わされる。
ana’=ZL/Zn+ZL−InB ・・−(13)
l n9”” a pB’ I B11 na′−i
+n−+、^+a 1n−1)A ”・(14)
こうして最終段の音響管S、、より発仕られる音波に対
応する電流1nBが求められる。ただしS +B。
l n9”” a pB’ I B11 na′−i
+n−+、^+a 1n−1)A ”・(14)
こうして最終段の音響管S、、より発仕られる音波に対
応する電流1nBが求められる。ただしS +B。
S IAは各々互いに隣接する音響管の断面積比で表わ
される係数であり、夫々(15)、(16)式%式% 1段目から最終段目までのブロックの電流値の一連の演
算は瞬時に実行され、これら演算が所定のタイミングを
とって次々に行われていく。ここに上記の(4)〜(1
4)式において、ダッシュの付いた値は時刻tにおける
演算値、ダッシュの付かない値は時刻tにおける演算の
1回前における演算により求めた演算値である。こうし
て求めたデジタル値であるlnaをデジタル/アナログ
変換してアナログ電流を作り、この電流をスピーカー等
に供給することにより音声を得る。前記演算のタイミン
グについては、音速を考慮して決定され、例えば各音響
管の1本の伝搬時間を演算の時間間隔とすることによっ
て、後進波電流Io^〜Iい一11A及び前進波電流1
+a〜■nBが音速と同じ速度で各回路要素T、〜In
A中を流れる状態と等価な状態を作り出し、これにより
音響管モデルと電気回路モデルとを整合させている。
される係数であり、夫々(15)、(16)式%式% 1段目から最終段目までのブロックの電流値の一連の演
算は瞬時に実行され、これら演算が所定のタイミングを
とって次々に行われていく。ここに上記の(4)〜(1
4)式において、ダッシュの付いた値は時刻tにおける
演算値、ダッシュの付かない値は時刻tにおける演算の
1回前における演算により求めた演算値である。こうし
て求めたデジタル値であるlnaをデジタル/アナログ
変換してアナログ電流を作り、この電流をスピーカー等
に供給することにより音声を得る。前記演算のタイミン
グについては、音速を考慮して決定され、例えば各音響
管の1本の伝搬時間を演算の時間間隔とすることによっ
て、後進波電流Io^〜Iい一11A及び前進波電流1
+a〜■nBが音速と同じ速度で各回路要素T、〜In
A中を流れる状態と等価な状態を作り出し、これにより
音響管モデルと電気回路モデルとを整合させている。
本発明は以上のような等価モデルと演算の実現を基調と
したものであり、具体的には、音節を構成する各音素毎
に各音素の発声時間を1以上の時間帯に区分し、各時間
帯毎に、音源波の繰り返し周波数であるピッチ、この音
源波のエネルギー及び音響管の断面積の各初期値と当該
時間帯の前記各初期値Xoから次の時間帯の各初期値X
rへの変化の仕方を規定した定数と音源波パターンとを
格納する音素パラメータ格納部と、入力された音素デー
タに対応する前記ピッチ、エネルギー及び断面積の各初
期値を前記音素パラメータ格納部の中から選び、これら
初期値の補間処理を行うパラメータ補間処理部と、ここ
で補間処理されたパラメータと前記入力された音素デー
タに対応する音素パラメータ格納部内の音源波パターン
とに基づいて前記回路要素群の出力端から出力される電
流値を演算する演算部と、この演算部の演算結果に基づ
いて音声を発生する発声部とを備え、前記パラメータ補
間処理部は、前記各時間帯の間に前記初期値X。と目標
値に相当する前記Xrと定数とを用いて多数回補間演算
を行い、ピッチの補間演算については、n番目の補間演
算値をX(n)、前記定数をDで表わしたときにX(n
)=D (Xr−X(n−1)) 十X(n−1)で示
される漸化式に従って実行され、最終番目の補間演算値
が前記X1に到達しないように定数Dは小さな値が選ば
れることを特徴とする。
したものであり、具体的には、音節を構成する各音素毎
に各音素の発声時間を1以上の時間帯に区分し、各時間
帯毎に、音源波の繰り返し周波数であるピッチ、この音
源波のエネルギー及び音響管の断面積の各初期値と当該
時間帯の前記各初期値Xoから次の時間帯の各初期値X
rへの変化の仕方を規定した定数と音源波パターンとを
格納する音素パラメータ格納部と、入力された音素デー
タに対応する前記ピッチ、エネルギー及び断面積の各初
期値を前記音素パラメータ格納部の中から選び、これら
初期値の補間処理を行うパラメータ補間処理部と、ここ
で補間処理されたパラメータと前記入力された音素デー
タに対応する音素パラメータ格納部内の音源波パターン
とに基づいて前記回路要素群の出力端から出力される電
流値を演算する演算部と、この演算部の演算結果に基づ
いて音声を発生する発声部とを備え、前記パラメータ補
間処理部は、前記各時間帯の間に前記初期値X。と目標
値に相当する前記Xrと定数とを用いて多数回補間演算
を行い、ピッチの補間演算については、n番目の補間演
算値をX(n)、前記定数をDで表わしたときにX(n
)=D (Xr−X(n−1)) 十X(n−1)で示
される漸化式に従って実行され、最終番目の補間演算値
が前記X1に到達しないように定数Dは小さな値が選ば
れることを特徴とする。
F、実施例
第1図は本発明の実施例のブロック構成を示す図である
。lは日本語処理部であり、入力された日本語文章に対
して文節の区切りゃ辞書を参照して読みがな変換等を行
う。2は文章処理部であり文章にイントネーションを付
ける処理を行う。3は音節処理部であり、文章を構成す
る音節に対して、イントネーションに応じたアクセント
を付ける。例えば「さくらがさいた」という文章に対し
てrsAJ、rKUJ、rRAJ・・・というように音
節に分解し、各音節に対してアクセントを付ける。音の
イントネーションは後述する音源波の繰り返し周波数、
そのエネルギー及び時間で決まることから、アクセント
を付けるとは、これらパラメータに対する係数を決定す
ることである。4は音素処理部、41は音節パラメータ
格納部であり、音素処理部4は、入力されたrsAJ・
・・等の音節データに対し、音節と母音及び子音の単位
である音素との対応関係を規定した音節パラメータ格納
部41内のデータを参照して音素に分解する処理、例え
ば音節rsAJに対し、音素rsJ、rAJを取り出す
。
。lは日本語処理部であり、入力された日本語文章に対
して文節の区切りゃ辞書を参照して読みがな変換等を行
う。2は文章処理部であり文章にイントネーションを付
ける処理を行う。3は音節処理部であり、文章を構成す
る音節に対して、イントネーションに応じたアクセント
を付ける。例えば「さくらがさいた」という文章に対し
てrsAJ、rKUJ、rRAJ・・・というように音
節に分解し、各音節に対してアクセントを付ける。音の
イントネーションは後述する音源波の繰り返し周波数、
そのエネルギー及び時間で決まることから、アクセント
を付けるとは、これらパラメータに対する係数を決定す
ることである。4は音素処理部、41は音節パラメータ
格納部であり、音素処理部4は、入力されたrsAJ・
・・等の音節データに対し、音節と母音及び子音の単位
である音素との対応関係を規定した音節パラメータ格納
部41内のデータを参照して音素に分解する処理、例え
ば音節rsAJに対し、音素rsJ、rAJを取り出す
。
5はパラメータ補間処理部、51は音素パラメータ格納
部、5.は音源パラメータ格納部である。
部、5.は音源パラメータ格納部である。
音素パラメータ格納部5□は第4図に示すように各音素
の発声時間を複数例えば3つの時間帯01〜0.に区分
し、各時間帯毎に継続時間音源波の繰り返し周波数であ
るピッチ、この音源波のエネルギー及び音響管の断面積
の各初期値と当該時間帯の前記各初期値から次の時間帯
の各初期値への変化の仕方を規定した時定数と音源波パ
ターンとを格納している。この実施例では、人間の声道
(男性の場合的17CI)を長さlcxの音響管を17
個連接したものでモデル化しており、このため断面積値
は1つの時間帯当たり17個(A、〜A1.)定められ
ている。また音源パラメータ格納部5゜には、例えば第
5図に示すように3種類の音源波パターン01〜G3の
波形成分が50個のサンプルデータとして格納されてい
る。前記パラメータ補間処理部5は、各時間帯(O3−
03)におけるピッチ、エネルギー及び断面積の補間処
理を行う部分であり、この処理は当該時間帯のピッチ、
エネルギー及び断面積の各パラメータの初期値をX。
の発声時間を複数例えば3つの時間帯01〜0.に区分
し、各時間帯毎に継続時間音源波の繰り返し周波数であ
るピッチ、この音源波のエネルギー及び音響管の断面積
の各初期値と当該時間帯の前記各初期値から次の時間帯
の各初期値への変化の仕方を規定した時定数と音源波パ
ターンとを格納している。この実施例では、人間の声道
(男性の場合的17CI)を長さlcxの音響管を17
個連接したものでモデル化しており、このため断面積値
は1つの時間帯当たり17個(A、〜A1.)定められ
ている。また音源パラメータ格納部5゜には、例えば第
5図に示すように3種類の音源波パターン01〜G3の
波形成分が50個のサンプルデータとして格納されてい
る。前記パラメータ補間処理部5は、各時間帯(O3−
03)におけるピッチ、エネルギー及び断面積の補間処
理を行う部分であり、この処理は当該時間帯のピッチ、
エネルギー及び断面積の各パラメータの初期値をX。
とし、次の時間帯の初期値をXr、n番目の補間演界値
をX(n)、各パラメータに対応する時定数をDで表わ
すと、次の(17)式に示す漸化式に従って当該時間帯
の間にn回演算を行う処理である。ただし初期値X(0
)は前回の補間演算の最終番目の値である。
をX(n)、各パラメータに対応する時定数をDで表わ
すと、次の(17)式に示す漸化式に従って当該時間帯
の間にn回演算を行う処理である。ただし初期値X(0
)は前回の補間演算の最終番目の値である。
X(n)−D (Xr−X(n−1)) +X(n−1
)−(17)例えば時間帯01におけるピッチの補間処
理については% XoがPいXPがP、に相当するので
(18)式に従って演算される。
)−(17)例えば時間帯01におけるピッチの補間処
理については% XoがPいXPがP、に相当するので
(18)式に従って演算される。
X(n)=DP、(Pg−X(n−1)}+X(n−1
)−(1B)ここで上記(17)式は次の(19)式の
漸化式である。
)−(1B)ここで上記(17)式は次の(19)式の
漸化式である。
X=Xr(1−e−Dt) −(19)即ち(19
)式を微分すると(20)式が成立し、従って(21)
が成立する。
)式を微分すると(20)式が成立し、従って(21)
が成立する。
dx/dt=De−” ・・・(2o)ΔX=X
(n+ 1)−X(n)−Δt−D e −Dt”’=
Δt −D(Xr−X(n)) −(21)よって(
22)式となる。
(n+ 1)−X(n)−Δt−D e −Dt”’=
Δt −D(Xr−X(n)) −(21)よって(
22)式となる。
X(n+1)=Δt−D(Xr−X(n)}+X(n)
・・(22)ここで補間演算の時間間隔は一定であるか
らΔt−Dを一括して時定数りと置き換えることができ
、(17)式として表わされる。
・・(22)ここで補間演算の時間間隔は一定であるか
らΔt−Dを一括して時定数りと置き換えることができ
、(17)式として表わされる。
以上においてこの実施例では、各音素の前記ピッチ、エ
ネルギー及び断面積のいずれについても、上記の(17
)式にもとずいて補間処理を行っているが、本発明では
これらパラメータのうちエネルギー及び断面積について
は他の方法で補間処理を行ってもよい。そしてピッチの
補間処理については(17)式にもとすいて実行される
ことが必要であるが、この場合最終番目の補間演算値が
目標値であるXrに到達しないように時定数りは小さな
値が選ばれる。第6図は例えば時間帯01におけるピッ
チの補間処理の様子を示す図であり、補間演算によって
求められたピッチの各補間値p(1)、P(2)=・P
(n)は次の(23)式で表わされる曲線に沿って並び
、最終番目の補間値P (Z)は目標値よりも小さな値
になる。
ネルギー及び断面積のいずれについても、上記の(17
)式にもとずいて補間処理を行っているが、本発明では
これらパラメータのうちエネルギー及び断面積について
は他の方法で補間処理を行ってもよい。そしてピッチの
補間処理については(17)式にもとすいて実行される
ことが必要であるが、この場合最終番目の補間演算値が
目標値であるXrに到達しないように時定数りは小さな
値が選ばれる。第6図は例えば時間帯01におけるピッ
チの補間処理の様子を示す図であり、補間演算によって
求められたピッチの各補間値p(1)、P(2)=・P
(n)は次の(23)式で表わされる曲線に沿って並び
、最終番目の補間値P (Z)は目標値よりも小さな値
になる。
P = P t (1e −Dt) −(23)この
ようにピッチの補間演算に用いる時定数りを小さくする
理由は、最終番目の補間値が略目標値Xrに到達するほ
ど大きな時定数りを用いると、ピッチが急峻に立ち上が
ってしまう。ここに本発明者が実際の人間の音声を分析
したところ、ピッチの移行部分においては緩やかに移行
しており、従って人間の音声に一層近付けることを目的
としている。
ようにピッチの補間演算に用いる時定数りを小さくする
理由は、最終番目の補間値が略目標値Xrに到達するほ
ど大きな時定数りを用いると、ピッチが急峻に立ち上が
ってしまう。ここに本発明者が実際の人間の音声を分析
したところ、ピッチの移行部分においては緩やかに移行
しており、従って人間の音声に一層近付けることを目的
としている。
6は演算部であり、パラメータ補間処理部5で算出した
パラメータに基づいて、前記補間演算と同じタイミング
で例えば100μsの時間間隔で第1図(つ)に示す電
流1naのデジタル値を求める。7はデジタル/アナロ
グ(D/A)変換器であり、演算部6で求めたデジタル
値に基づいて電流波(アナログ電流)を作り出す。8は
スピーカー等の発声部であり、アナログ電流に基づいて
音声を発生する。
パラメータに基づいて、前記補間演算と同じタイミング
で例えば100μsの時間間隔で第1図(つ)に示す電
流1naのデジタル値を求める。7はデジタル/アナロ
グ(D/A)変換器であり、演算部6で求めたデジタル
値に基づいて電流波(アナログ電流)を作り出す。8は
スピーカー等の発声部であり、アナログ電流に基づいて
音声を発生する。
次に上述実施例の作用について述べる。
ワードプロセッサ等により入力された日本語文章は、日
本語処理部1、文章処理部2及び音節処理部3を経てイ
ントネーション等が付けられて音節単位に区切られ、更
に音素処理部4によって各音節は音素に分解される。次
いで7<ラメータ補間処理部によって、各音素のピッチ
、エネルギー及び断面積が音素パラメータ格納部51か
ら取り出すレ、これらパラメータについて各時間帯(0
1〜0.)毎に補間処理が行われる。
本語処理部1、文章処理部2及び音節処理部3を経てイ
ントネーション等が付けられて音節単位に区切られ、更
に音素処理部4によって各音節は音素に分解される。次
いで7<ラメータ補間処理部によって、各音素のピッチ
、エネルギー及び断面積が音素パラメータ格納部51か
ら取り出すレ、これらパラメータについて各時間帯(0
1〜0.)毎に補間処理が行われる。
この補間処理のうちピッチの補間処理の様子の一例を示
すと、例えば第7図のように表わされる。
すと、例えば第7図のように表わされる。
この図はrA KA SA KAJを発音する場
合の一部に相当し、縦軸はピッチの大きさ、横軸は時間
を夫々示す。まtこ横軸のCの領域は子音の発声領域、
■1〜■3は母音の発声領域を3区分した時間帯であり
、PA、 PKA’、 Pに^、 PSAI PSA’
は夫々対応する時間帯のピッチの初期値である。
合の一部に相当し、縦軸はピッチの大きさ、横軸は時間
を夫々示す。まtこ横軸のCの領域は子音の発声領域、
■1〜■3は母音の発声領域を3区分した時間帯であり
、PA、 PKA’、 Pに^、 PSAI PSA’
は夫々対応する時間帯のピッチの初期値である。
この図かられかるようにピッチは緩やかに移行しており
、実際の人間の音声に近いパターンになっている。これ
に対し第8図は、時定数りを大きくして最終番目のピッ
チの値が目標値即ち次の時間帯の初期値に略一致するよ
うに演算した補間処理の様子を示す図であり、この場合
にはピッチの移行部分における立ち上がりが急峻になっ
ている。
、実際の人間の音声に近いパターンになっている。これ
に対し第8図は、時定数りを大きくして最終番目のピッ
チの値が目標値即ち次の時間帯の初期値に略一致するよ
うに演算した補間処理の様子を示す図であり、この場合
にはピッチの移行部分における立ち上がりが急峻になっ
ている。
なお第7図の例では、rKAJ、rsAjの時間帯Vy
、V3における初期値は異なっているが、第8図の例で
はそれら初期値は同じ大きさとなっている。
、V3における初期値は異なっているが、第8図の例で
はそれら初期値は同じ大きさとなっている。
続いて各時間帯01〜03毎に規定された音源波パター
ンのサンプルデータが音源パラメータ格納部5.から取
り出され、このサンプルデータとピッチ等の補間値が演
算部6に与えられ、演算部6にて上記のE、(3)項「
演算」にて詳述した演算が実行される。この演算におい
て、音節処理部3にて各音節単位に付けられたアクセン
トに対応する係数あるいは関数とパラメータ補間処理部
5で求められた各パラメータとが掛は合わされて、文章
のイントネーションが表われるように演算される。こう
して最終段の音響管より発せられる音波に相当する電流
波のデジタル値が求められ、この値に基づいてD/A変
換器7により電流波が作られ、発声音8より対応する音
声が発せられる。
ンのサンプルデータが音源パラメータ格納部5.から取
り出され、このサンプルデータとピッチ等の補間値が演
算部6に与えられ、演算部6にて上記のE、(3)項「
演算」にて詳述した演算が実行される。この演算におい
て、音節処理部3にて各音節単位に付けられたアクセン
トに対応する係数あるいは関数とパラメータ補間処理部
5で求められた各パラメータとが掛は合わされて、文章
のイントネーションが表われるように演算される。こう
して最終段の音響管より発せられる音波に相当する電流
波のデジタル値が求められ、この値に基づいてD/A変
換器7により電流波が作られ、発声音8より対応する音
声が発せられる。
ここで本発明では、ピッチの初期値の設定について上述
実施例に限定されるものではなく、例えばrAJ、rK
AJ、rsAJの各音節毎に唯一の初期値を持たせるよ
うにしてもよい。この場合第9図に示すように各音節の
途中時点に初期値を持たせてこれらの間を補間処理して
もよいし、あるいはまた第10図に示すように各音節の
最終時点に初期値を持たせるようにしてもよい。
実施例に限定されるものではなく、例えばrAJ、rK
AJ、rsAJの各音節毎に唯一の初期値を持たせるよ
うにしてもよい。この場合第9図に示すように各音節の
途中時点に初期値を持たせてこれらの間を補間処理して
もよいし、あるいはまた第10図に示すように各音節の
最終時点に初期値を持たせるようにしてもよい。
G9発明の効果
本発明によれば音響管モデルの音波の伝搬を等価回路の
電流の流れに置き換え、各音素毎に電流源のピッチや音
響管の断面積等のノくラメータを規定し、音素間の継ぎ
目あるいは音素内の区分された時間帯の継ぎ目について
、パラメータの補間処理を実行し、特にピッチの補間処
理については指数関数にもとずいて実行すると共に最終
値が目標値に到達しないように定数を選んで緩やかなノ
くターンを実現しているから、滑らかな音声を得ること
ができ、聞き手に自然な感じを与える。そして指数関数
の補間演算を実際に行うのではな(、この関数から抽出
した漸化式を利用して各補間値を求めているため、演算
処理が簡単である。また音素間の継ぎ目に相当する領域
の全パラメータ値をメモリに格納するのではなく、音素
単位あるいは時間帯単位にデータを保存しておけば足り
るのでメモリ容量が小さくて済む。
電流の流れに置き換え、各音素毎に電流源のピッチや音
響管の断面積等のノくラメータを規定し、音素間の継ぎ
目あるいは音素内の区分された時間帯の継ぎ目について
、パラメータの補間処理を実行し、特にピッチの補間処
理については指数関数にもとずいて実行すると共に最終
値が目標値に到達しないように定数を選んで緩やかなノ
くターンを実現しているから、滑らかな音声を得ること
ができ、聞き手に自然な感じを与える。そして指数関数
の補間演算を実際に行うのではな(、この関数から抽出
した漸化式を利用して各補間値を求めているため、演算
処理が簡単である。また音素間の継ぎ目に相当する領域
の全パラメータ値をメモリに格納するのではなく、音素
単位あるいは時間帯単位にデータを保存しておけば足り
るのでメモリ容量が小さくて済む。
【図面の簡単な説明】
第1図は音響管の等価モデルを示す説明図、第2図は電
流源を含むブロックを示す等価回路図、第3図は本発明
の実施例を示すブロック図、第4図は音素パラメータの
データ図、第5図は音源波パターンを示す説明図、第6
図はパラメータ補間処理の様子を示す説明図、第7図〜
第10図は各々ピッチパターンを示す説明図である。 4・・・音素処理部、41・・・音節パラメータ格納部
、5・・・パラメータ補間処理部、5.・・・音素パラ
メー夕格納部、5.・・・音源波パターン格納部、6・
・・演算部、7・・・デジタル/アナログ変換部、8・
・・発生部。 第2図 tネタ欧も会心プロ、9グ^等盾回路題11めe・ TV図 第3図 ス扁す列n等Atb回丁6図 第4図 晋票パラメータめデータ面 第5図 哲臘液バデーヅerv、明図 第6図 精1?Jl電理/1鼻子1本ずグク7 蛸間10+
流源を含むブロックを示す等価回路図、第3図は本発明
の実施例を示すブロック図、第4図は音素パラメータの
データ図、第5図は音源波パターンを示す説明図、第6
図はパラメータ補間処理の様子を示す説明図、第7図〜
第10図は各々ピッチパターンを示す説明図である。 4・・・音素処理部、41・・・音節パラメータ格納部
、5・・・パラメータ補間処理部、5.・・・音素パラ
メー夕格納部、5.・・・音源波パターン格納部、6・
・・演算部、7・・・デジタル/アナログ変換部、8・
・・発生部。 第2図 tネタ欧も会心プロ、9グ^等盾回路題11めe・ TV図 第3図 ス扁す列n等Atb回丁6図 第4図 晋票パラメータめデータ面 第5図 哲臘液バデーヅerv、明図 第6図 精1?Jl電理/1鼻子1本ずグク7 蛸間10+
Claims (1)
- (1)人間の声道を縦列に接合した複数の音響管とみな
し、これら音響管群とサージインピーダンス成分の回路
要素群とを対応させると共に音声源と電流源とを対応さ
せることによって、音響管群の出力端から発せられる音
声波を回路要素群の出力端の電流波に基づいて模擬的に
作り出す音声合成装置において、 音節を構成する各音素毎に各音素の発声時間を1以上の
時間帯に区分し、各時間帯毎に、音源波の繰り返し周波
数であるピッチ、この音源波のエネルギー及び音響管の
断面積の各初期値と当該時間帯の前記各初期値X_oか
ら次の時間帯の各初期値X_rへの変化の仕方を規定し
た定数と音源波パターンとを格納する音素パラメータ格
納部と、入力された音素データに対応する前記ピッチ、
エネルギー及び断面積の各初期値を前記音素パラメータ
格納部の中から選び、これら初期値の補間処理を行うパ
ラメータ補間処理部と、ここで補間処理されたパラメー
タと前記入力された音素データに対応する音素パラメー
タ格納部内の音源波パターンとに基づいて前記回路要素
群の出力端から出力される電流値を演算する演算部と、
この演算部の演算結果に基づいて音声を発生する発声部
とを備え、 前記パラメータ補間処理部は、前記各時間帯の間に前記
初期値X_oと目標値に相当する前記X_rと定数とを
用いて多数回補間演算を行い、ピッチの補間演算につい
ては、n番目の補間演算値をX(n)、前記定数をDで
表わしたときに X(n)=D{X_r−X(n−1)}+X(n−1)
で示される漸化式に従って実行され、最終番目の補間演
算値が前記X_rに到達しないように定数Dは小さな値
が選ばれることを特徴とする音声合成装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4653488A JP2992995B2 (ja) | 1988-02-29 | 1988-02-29 | 音声合成装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4653488A JP2992995B2 (ja) | 1988-02-29 | 1988-02-29 | 音声合成装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH01219895A true JPH01219895A (ja) | 1989-09-01 |
| JP2992995B2 JP2992995B2 (ja) | 1999-12-20 |
Family
ID=12749956
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP4653488A Expired - Lifetime JP2992995B2 (ja) | 1988-02-29 | 1988-02-29 | 音声合成装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2992995B2 (ja) |
-
1988
- 1988-02-29 JP JP4653488A patent/JP2992995B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JP2992995B2 (ja) | 1999-12-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5097511A (en) | Sound synthesizing method and apparatus | |
| JP2990693B2 (ja) | 音声合成装置 | |
| Peterson et al. | Objectives and techniques of speech synthesis | |
| JPH01219895A (ja) | 音声合成装置 | |
| JP2990691B2 (ja) | 音声合成装置 | |
| JPH01219899A (ja) | 音声合成装置 | |
| JPH01177098A (ja) | 音声合成装置 | |
| JPH01219898A (ja) | 音声合成装置 | |
| JPH01292400A (ja) | 音声合成方式 | |
| JP3270668B2 (ja) | テキストからスピーチへの人工的ニューラルネットワークに基づく韻律の合成装置 | |
| JPH01177097A (ja) | 音声合成方式 | |
| JPH01219896A (ja) | 音声合成方式 | |
| JPH01182900A (ja) | 音声合成方式 | |
| JPH01177096A (ja) | 音声合成方式 | |
| JPH01185700A (ja) | 音声合成方法 | |
| JPH0833751B2 (ja) | 音声合成方式 | |
| JPS63257000A (ja) | 音合成方法 | |
| JPH01171000A (ja) | 音声合成方式 | |
| JPH0833749B2 (ja) | 音合成方法 | |
| JPH06214585A (ja) | 音声合成装置 | |
| JP2573587B2 (ja) | ピッチパタン生成装置 | |
| JPH0833750B2 (ja) | 音声合成方法 | |
| JPH01177100A (ja) | 音声合成方式 | |
| JPH01197799A (ja) | 音声合成装置の調音・音源パラメータ生成方法 | |
| Singh et al. | Removal of spectral discontinuity in concatenated speech waveform |