JPH03160500A - 音声合成装置 - Google Patents
音声合成装置Info
- Publication number
- JPH03160500A JPH03160500A JP1301132A JP30113289A JPH03160500A JP H03160500 A JPH03160500 A JP H03160500A JP 1301132 A JP1301132 A JP 1301132A JP 30113289 A JP30113289 A JP 30113289A JP H03160500 A JPH03160500 A JP H03160500A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- information
- segment
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003786 synthesis reaction Methods 0.000 claims description 15
- 230000015572 biosynthetic process Effects 0.000 claims description 14
- 230000006835 compression Effects 0.000 abstract description 11
- 238000007906 compression Methods 0.000 abstract description 11
- 230000033764 rhythmic process Effects 0.000 abstract 5
- 239000000872 buffer Substances 0.000 description 14
- 238000000034 method Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000001308 synthesis method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 240000000220 Panda oleosa Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(イ)産業上の利用分野
本発明は、音声を低ビットに情報圧縮し、匡縮された音
声データから、青声を再生する音声合成装置に関する。
声データから、青声を再生する音声合成装置に関する。
特に、大幅に情報圧縮が可能な極低ビント音声合成装置
に関する。
に関する。
(ロ)従来の技術
従来、情報圧縮した音声データから、元の音声そ再生で
きる音声合成には、分折き或あるいは音声符号化と呼ば
れるP A R C O R方式やADPCM方式など
の方式が存在する。しかしたがら、情報圧縮率の高いP
ARCOR方式でも、最低1秒当り2kbps程度の情
報量が必要であった。
きる音声合成には、分折き或あるいは音声符号化と呼ば
れるP A R C O R方式やADPCM方式など
の方式が存在する。しかしたがら、情報圧縮率の高いP
ARCOR方式でも、最低1秒当り2kbps程度の情
報量が必要であった。
第4図はこのような分析合成方式の原理を示したもので
ある。同図によれば、入力音声はスペクトル包結柚出部
(1)に入力され、PARCORパラメータなどのスベ
クル情報(音響パラメータと称する)が柚出されるとと
もに、一方で音源情報抽出部(2)に入力され、ピッチ
やパワーなどの情報が抽出される。抽出されたこれらの
情報は音声データメモリ(3)に蓄えられ、音声合成時
には、音声合成部(1)で元の音声に復元される。
ある。同図によれば、入力音声はスペクトル包結柚出部
(1)に入力され、PARCORパラメータなどのスベ
クル情報(音響パラメータと称する)が柚出されるとと
もに、一方で音源情報抽出部(2)に入力され、ピッチ
やパワーなどの情報が抽出される。抽出されたこれらの
情報は音声データメモリ(3)に蓄えられ、音声合成時
には、音声合成部(1)で元の音声に復元される。
このような分折合成方式を採用した従来の音声合成装置
では、上述の各情報が抽出されるタイミングは5〜2
0 m s e c毎であり、ピッチやパワーなどの情
報に、最低約10ビット、スペクトル包絡を現わす情報
に、最低約30ビットを必要とする。従って、比較的良
好な音声を復元するためにはl秒当り2kビットを必要
とする。その計算式は以下の通りである。
では、上述の各情報が抽出されるタイミングは5〜2
0 m s e c毎であり、ピッチやパワーなどの情
報に、最低約10ビット、スペクトル包絡を現わす情報
に、最低約30ビットを必要とする。従って、比較的良
好な音声を復元するためにはl秒当り2kビットを必要
とする。その計算式は以下の通りである。
(10+30),’0.02=2000一方、近年、文
字を入力するだけでその文字列で表される任意の文章を
音声合成できる規間合成方式と呼ばれる音声合成方法を
用いた音声b成装置が開発されている。このき声合威方
法を音声の情報圧縮技術と考えると、文字だけを記憶す
ればよいので、極めて大幅な情報圧縮が可能である。
字を入力するだけでその文字列で表される任意の文章を
音声合成できる規間合成方式と呼ばれる音声合成方法を
用いた音声b成装置が開発されている。このき声合威方
法を音声の情報圧縮技術と考えると、文字だけを記憶す
ればよいので、極めて大幅な情報圧縮が可能である。
例えば、文字を8ビットコードで記憶した場合、l秒当
り5音節で発声すると考えると、1秒当り40ビットし
か必要としたい。
り5音節で発声すると考えると、1秒当り40ビットし
か必要としたい。
しかしたがら,このような規則合成方式の従来の音声合
成装置に於ては、ピッチやa続時間艮などの韻律情報を
言語学的規則に基づき音声に応じて決定して制御を行な
5ので、前記の分析1戊の場合に比較して、その合吠音
声はかなり不自然な乙のとなってしまう。
成装置に於ては、ピッチやa続時間艮などの韻律情報を
言語学的規則に基づき音声に応じて決定して制御を行な
5ので、前記の分析1戊の場合に比較して、その合吠音
声はかなり不自然な乙のとなってしまう。
(ハ)発明が解決しようとする課題
本発明は、従来の分析合成方式の音声合成装置に比較し
て大幅に音声情報の圧縮が可能であり、かつ、自然性が
高い合吠音声が再生できる音声合威装置を提供するもの
である。
て大幅に音声情報の圧縮が可能であり、かつ、自然性が
高い合吠音声が再生できる音声合威装置を提供するもの
である。
(二)課題を解決するための手段
本発明の音声合戒装置は、音声の内容を、例えば、文字
コードなどで記憶し、再生時には、規811合成の技術
を利用して合戒冴声を生處する一方、ピッチやi続時間
長などの韻律情報は、自然に発声された入力音声から抽
出し、合成a声に対する韻律制御に用いるものである。
コードなどで記憶し、再生時には、規811合成の技術
を利用して合戒冴声を生處する一方、ピッチやi続時間
長などの韻律情報は、自然に発声された入力音声から抽
出し、合成a声に対する韻律制御に用いるものである。
(ホ)作用
本発明によれば音声を、例えば、文字コードなどの情報
量の少ないコードと、自然に発声された音声のピ・lチ
や継続時間長などの韻律情報のhに圧縮するので,従来
の音声合成(分析合成・)方式の音声合成装置に比べ、
大幅な情報圧縮r1秒当り300ビット程度)が可能で
あり、かつ、自然に発声された音声から抽出されたピッ
チや継続時間艮などの韻律情報を用いて、合成音声の韻
律制御を行なうので、自然性の高い合吸音声の再生が可
能である。
量の少ないコードと、自然に発声された音声のピ・lチ
や継続時間長などの韻律情報のhに圧縮するので,従来
の音声合成(分析合成・)方式の音声合成装置に比べ、
大幅な情報圧縮r1秒当り300ビット程度)が可能で
あり、かつ、自然に発声された音声から抽出されたピッ
チや継続時間艮などの韻律情報を用いて、合成音声の韻
律制御を行なうので、自然性の高い合吸音声の再生が可
能である。
(へ)実施例
第1図は本発明を実現するための音声情報圧縮方式の原
理を示したものである。同図の方式によれば、入力され
た1声は、文字コード抽出回路(5)、ピッチ抽出回路
(6)、継続時間長抽出回路(7)に入力され、それぞ
れ、入力音声の発声内容を示す文字コード列、各文字(
音節)ごとのピッチの値と変化、各文字(音節)の継続
時間艮が抽出される。(8)は抽出された上記各情報が
蓄えられる音声データメモリである。
理を示したものである。同図の方式によれば、入力され
た1声は、文字コード抽出回路(5)、ピッチ抽出回路
(6)、継続時間長抽出回路(7)に入力され、それぞ
れ、入力音声の発声内容を示す文字コード列、各文字(
音節)ごとのピッチの値と変化、各文字(音節)の継続
時間艮が抽出される。(8)は抽出された上記各情報が
蓄えられる音声データメモリである。
上記文字コード抽出回路(5)としては、単音節音声認
識技術の使用が可能である。しかしたがら、実時間の音
声伝送再生を目的としたもので無く、tじめ作成された
音声データに基づいて必要な時に音声合成できる音声合
成装置を対象とする場合には、d声認識に代えてキー人
力によって確実に文字コードを得るようにしてもよい。
識技術の使用が可能である。しかしたがら、実時間の音
声伝送再生を目的としたもので無く、tじめ作成された
音声データに基づいて必要な時に音声合成できる音声合
成装置を対象とする場合には、d声認識に代えてキー人
力によって確実に文字コードを得るようにしてもよい。
このようにして、例えば、第3図(a)に示す人力文章
「本日は晴天なり」を情報圧縮した音声データの一例を
第3図(bjのテーブルに示す。
「本日は晴天なり」を情報圧縮した音声データの一例を
第3図(bjのテーブルに示す。
同図のデータ例は、[文字コード]として、カナ記号を
利用した場合であり、この場合には1711節当り7ビ
7トで十分と言える。また、[ピ7チの値と変化]につ
いては、数列の初期値にセットされるピッチの値に5ビ
ット、これに続くピッチの変化は文字間にこのピッチ変
化が小さいと考えられるので、3ビッ}X16=48ビ
ット程度が割り当てられる。なお、同図の*は無声音で
あって、ピッチがない部分を示している。さらに、[継
続時間長]としては、1 0ms e c程度の精度で
制御できれば十分と考えられるので、1文字当り最大3
2 0 m s e cを32ステlプに数値化する
値1〜32で継続時間長を記憶するとして、5ビットが
穿I 1)当てられる。
利用した場合であり、この場合には1711節当り7ビ
7トで十分と言える。また、[ピ7チの値と変化]につ
いては、数列の初期値にセットされるピッチの値に5ビ
ット、これに続くピッチの変化は文字間にこのピッチ変
化が小さいと考えられるので、3ビッ}X16=48ビ
ット程度が割り当てられる。なお、同図の*は無声音で
あって、ピッチがない部分を示している。さらに、[継
続時間長]としては、1 0ms e c程度の精度で
制御できれば十分と考えられるので、1文字当り最大3
2 0 m s e cを32ステlプに数値化する
値1〜32で継続時間長を記憶するとして、5ビットが
穿I 1)当てられる。
以上のビット割り当てを行なうと、1文字当り7+4
8+5=6 0ビット、すなわち、1秒当り5文字(音
節)で60ビットX5”300ビットの情報圧縮となる
。ちなみに、この結果は音声をディジタルに変換しただ
けのPCM(1秒当り64kビット)に比較して1/2
00以下、PARCOR方式に比較して1/10程度の
情報量に相当する。
8+5=6 0ビット、すなわち、1秒当り5文字(音
節)で60ビットX5”300ビットの情報圧縮となる
。ちなみに、この結果は音声をディジタルに変換しただ
けのPCM(1秒当り64kビット)に比較して1/2
00以下、PARCOR方式に比較して1/10程度の
情報量に相当する。
E述の音声情報圧縮技術を用いた本発明の音声合成装置
の溝戒を第1図に示し、以下にその動作を解説する。
の溝戒を第1図に示し、以下にその動作を解説する。
第2図の音声情報圧縮技術によって圧縮された音声情報
、即ち第3図(b)のテーブルに示す如き、文字コード
,ビッチデータ、継続時間長は、音声データメモリ(8
)に格納されている。即ち、合咬出力するべき音声をW
I處する単音節の素片単位を表す素片コードとしての文
字コードの系列と共に、合成出力するべき音声から予じ
め抽出した各素片単付毎のピッチ及び継続時間長の韻律
情報がこのメモリ(8)に貯えられている。
、即ち第3図(b)のテーブルに示す如き、文字コード
,ビッチデータ、継続時間長は、音声データメモリ(8
)に格納されている。即ち、合咬出力するべき音声をW
I處する単音節の素片単位を表す素片コードとしての文
字コードの系列と共に、合成出力するべき音声から予じ
め抽出した各素片単付毎のピッチ及び継続時間長の韻律
情報がこのメモリ(8)に貯えられている。
上記音声データメモリ(8)から読み出される各データ
は、1文字分づつ、文字コードバッファ(9)、継続時
間長データバンファ(10)、及びピッチデータバッフ
ァ(l1)のそれぞれに貯えられる。この時ピッチデー
タバッファ(1l)には、ピッチデータ及びその変化情
報からなる複数データをそれぞれアドレス付けして貯え
る必要上、アドレスポインタa<12)が備えられてい
る。
は、1文字分づつ、文字コードバッファ(9)、継続時
間長データバンファ(10)、及びピッチデータバッフ
ァ(l1)のそれぞれに貯えられる。この時ピッチデー
タバッファ(1l)には、ピッチデータ及びその変化情
報からなる複数データをそれぞれアドレス付けして貯え
る必要上、アドレスポインタa<12)が備えられてい
る。
一方、音声素片メモリ(l5)には、全ての素片単位(
文字単位ノ毎の音響パラメータ、例えばPARCORパ
ラメータがその素片(文字)コードに対応付けて貯えら
れている。
文字単位ノ毎の音響パラメータ、例えばPARCORパ
ラメータがその素片(文字)コードに対応付けて貯えら
れている。
該メモリ(15)をアクセスするための音声素片アドレ
ステーブル(13)には、文字コードパッファ(9)の
文字コードとそれに対応する音響パラメータが蓄えられ
ている音声素片メモリ(l5)の先頭アドレスが記憶さ
れている。従って、文字コードバッファメモリ(9)に
蓄えられた文字コードと同じ文字コードを音声素片アド
レステーブル(l3)から検索することにより、対応す
る音響パラメータが貯えられている先頭アドレスが素片
ポインタ(l6)にセットされる。なお、アドレスポイ
ンタb(14)が、音声素片アドレステーブルに備え付
けられており、検索の際に利用される。
ステーブル(13)には、文字コードパッファ(9)の
文字コードとそれに対応する音響パラメータが蓄えられ
ている音声素片メモリ(l5)の先頭アドレスが記憶さ
れている。従って、文字コードバッファメモリ(9)に
蓄えられた文字コードと同じ文字コードを音声素片アド
レステーブル(l3)から検索することにより、対応す
る音響パラメータが貯えられている先頭アドレスが素片
ポインタ(l6)にセットされる。なお、アドレスポイ
ンタb(14)が、音声素片アドレステーブルに備え付
けられており、検索の際に利用される。
このようにして、合威すべき音声の文章を構或する文字
コードに対応する音響パラメータ素片が順次、音声素片
メモリ(15)から読み出されるが、その際、第1の韻
律制御のために継続時間長調整回路(l7)で、継続時
間長データバッファ(10)に貯えられた継続時間長に
合致するように、音響パラメータの素片列を伸縮制御し
て、これを庁響パラメータ素片接続のための音声データ
バッファメモリ(l8)に貯える。即ち、この韻律制御
手段にて,継続時間長情報が付与された状態で音響パラ
メータ素片が接続されることになる。
コードに対応する音響パラメータ素片が順次、音声素片
メモリ(15)から読み出されるが、その際、第1の韻
律制御のために継続時間長調整回路(l7)で、継続時
間長データバッファ(10)に貯えられた継続時間長に
合致するように、音響パラメータの素片列を伸縮制御し
て、これを庁響パラメータ素片接続のための音声データ
バッファメモリ(l8)に貯える。即ち、この韻律制御
手段にて,継続時間長情報が付与された状態で音響パラ
メータ素片が接続されることになる。
一方.ピッチデータバッファN 1)のピソチデータの
素片列もまた、第2の韻律制御のために上記存響パラメ
ータの素片列と同様に、音声データパンファメモリ(l
8)に貯えられる。
素片列もまた、第2の韻律制御のために上記存響パラメ
ータの素片列と同様に、音声データパンファメモリ(l
8)に貯えられる。
この時、2個目からのデータは1個目のピッチデータか
らの変化分であるので、前のビッチデータを保持するピ
ッチ保持回路(2o)と加算器(l9)とによって、各
ピッチデータが算出される。上述の構或及びその動作に
より、音声データバッファメモリ(18)には、韻律情
報を付与した音響パラメータの素片列が格納されること
になり、これに基づいて、例えばPARCOR方式のデ
ィジタル複合回路を備えた音声合威LSI (2l)が
音声信号を再生合威して、スピーカ(22)で音声を発
生する。
らの変化分であるので、前のビッチデータを保持するピ
ッチ保持回路(2o)と加算器(l9)とによって、各
ピッチデータが算出される。上述の構或及びその動作に
より、音声データバッファメモリ(18)には、韻律情
報を付与した音響パラメータの素片列が格納されること
になり、これに基づいて、例えばPARCOR方式のデ
ィジタル複合回路を備えた音声合威LSI (2l)が
音声信号を再生合威して、スピーカ(22)で音声を発
生する。
以上の説明によれば、Xt4単位として、カナ1文字に
対応する単音節を例示したが、CVCff−韻連鎖を素
片単位としても本発明の実施は可能である。
対応する単音節を例示したが、CVCff−韻連鎖を素
片単位としても本発明の実施は可能である。
(ト)発明の効果
本発明の音声合吠装置は、従来の分折合成方式の装置に
比較して、大幅なメモリの削減が可能であり、かつ、自
然に発生された音声の韻律情報を保存しているので、合
成音声の音質の低下はほとんどない。
比較して、大幅なメモリの削減が可能であり、かつ、自
然に発生された音声の韻律情報を保存しているので、合
成音声の音質の低下はほとんどない。
第1図は本発明の音声合成装置の構成を示すブロック図
、第2図は本発明の音声情報圧縮技術を示す機能ブロッ
ク図、第3図(a)、及び(b)は合成音声の文章例を
示す図、及びその音声情報圧縮データ例を示す図、第4
図は従来の音声情報圧縮技術を示す図である。 (8)・・・音声データメモリ、 (9)・・・文字コードパッファ、 (1 0)・・・継続時間長データパンファ、(1l)
・・・ピッチデータバッファ、(15)・・・音声素片
メモリ、 (l7)・・・継続時間長調整回路、 (18)・・・音声データバッファメモリ、(2 l
) ・・き声b戊LSI。 出頼人 三洋電機株式会社
、第2図は本発明の音声情報圧縮技術を示す機能ブロッ
ク図、第3図(a)、及び(b)は合成音声の文章例を
示す図、及びその音声情報圧縮データ例を示す図、第4
図は従来の音声情報圧縮技術を示す図である。 (8)・・・音声データメモリ、 (9)・・・文字コードパッファ、 (1 0)・・・継続時間長データパンファ、(1l)
・・・ピッチデータバッファ、(15)・・・音声素片
メモリ、 (l7)・・・継続時間長調整回路、 (18)・・・音声データバッファメモリ、(2 l
) ・・き声b戊LSI。 出頼人 三洋電機株式会社
Claims (1)
- (1)合成出力するべき音声を構成する単音節やCVC
音韻連鎖などの素片単位を表す素片コードの系列と共に
、合成出力するべき音声から予じめ抽出した各素片単位
毎のピッチあるいは継続時間長などの韻律情報を貯えた
音声データメモリ、単音節やCVC音韻連鎖などの素片
単位毎の音響パラメータを素片単位を表す素片コードに
対応付けて貯えた音声素片メモリ、該音声素片メモリに
蓄えられた素片単位の音響パラメータを接続する素片パ
ラメータ接続手段、上記音声データメモリの韻律情報を
制御して上記素片パラメータ接続手段にて接続される音
響パラメータ列に付与する韻律情報制御手段、該韻律制
御手段にて韻律が付与された音響パラメータ列に基づい
て音声を合成する音声合成回路を備えた音声合成装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1301132A JPH03160500A (ja) | 1989-11-20 | 1989-11-20 | 音声合成装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1301132A JPH03160500A (ja) | 1989-11-20 | 1989-11-20 | 音声合成装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH03160500A true JPH03160500A (ja) | 1991-07-10 |
Family
ID=17893202
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1301132A Pending JPH03160500A (ja) | 1989-11-20 | 1989-11-20 | 音声合成装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH03160500A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5864814A (en) * | 1996-12-04 | 1999-01-26 | Justsystem Corp. | Voice-generating method and apparatus using discrete voice data for velocity and/or pitch |
| US5875427A (en) * | 1996-12-04 | 1999-02-23 | Justsystem Corp. | Voice-generating/document making apparatus voice-generating/document making method and computer-readable medium for storing therein a program having a computer execute voice-generating/document making sequence |
-
1989
- 1989-11-20 JP JP1301132A patent/JPH03160500A/ja active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5864814A (en) * | 1996-12-04 | 1999-01-26 | Justsystem Corp. | Voice-generating method and apparatus using discrete voice data for velocity and/or pitch |
| US5875427A (en) * | 1996-12-04 | 1999-02-23 | Justsystem Corp. | Voice-generating/document making apparatus voice-generating/document making method and computer-readable medium for storing therein a program having a computer execute voice-generating/document making sequence |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7233901B2 (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
| US4685135A (en) | Text-to-speech synthesis system | |
| US20040073428A1 (en) | Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database | |
| US4398059A (en) | Speech producing system | |
| EP0059880A2 (en) | Text-to-speech synthesis system | |
| JPS6050600A (ja) | 規則合成方式 | |
| JPH03160500A (ja) | 音声合成装置 | |
| JP2894447B2 (ja) | 複合音声単位を用いた音声合成装置 | |
| JP2642617B2 (ja) | 音声合成装置 | |
| JP3059751B2 (ja) | 残差駆動型音声合成装置 | |
| JP2577372B2 (ja) | 音声合成装置および方法 | |
| JP2573586B2 (ja) | 規則型音声合成装置 | |
| JPS5914752B2 (ja) | 音声合成方式 | |
| JPH0258640B2 (ja) | ||
| JPH01118200A (ja) | 音声合成方式 | |
| JPH04349499A (ja) | 音声合成システム | |
| JPS63262699A (ja) | 音声分析,合成装置 | |
| JPS6024596A (ja) | 音声合成装置 | |
| JPS63110500A (ja) | 音声時間長デ−タ生成装置 | |
| JPH0464080B2 (ja) | ||
| JP2573585B2 (ja) | 音声スペクトルパタン生成装置 | |
| KR920003934B1 (ko) | 음성합성기의 복합코딩방법 | |
| KR100477224B1 (ko) | 위상 정보 저장 및 검색 방법 및 이를 이용한 단위 음소코딩 방법 | |
| JPS5951000B2 (ja) | 音声合成装置 | |
| JPH0572599B2 (ja) |