JPH03160500A

JPH03160500A - 音声合成装置

Info

Publication number: JPH03160500A
Application number: JP1301132A
Authority: JP
Inventors: Toru Kitamura; 徹北村; Masayuki Iida; 正幸飯田; Mitsuo Fujimoto; 藤本　光男
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1989-11-20
Filing date: 1989-11-20
Publication date: 1991-07-10

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（イ）産業上の利用分野本発明は、音声を低ビットに情報圧縮し、匡縮された音
声データから、青声を再生する音声合成装置に関する。

特に、大幅に情報圧縮が可能な極低ビント音声合成装置
に関する。

（ロ）従来の技術従来、情報圧縮した音声データから、元の音声そ再生で
きる音声合成には、分折き或あるいは音声符号化と呼ば
れるＰ　Ａ　Ｒ　Ｃ　Ｏ　Ｒ方式やＡＤＰＣＭ方式など
の方式が存在する。しかしたがら、情報圧縮率の高いＰ
ＡＲＣＯＲ方式でも、最低１秒当り２ｋｂｐｓ程度の情
報量が必要であった。

第４図はこのような分析合成方式の原理を示したもので
ある。同図によれば、入力音声はスペクトル包結柚出部
（１）に入力され、ＰＡＲＣＯＲパラメータなどのスベ
クル情報（音響パラメータと称する）が柚出されるとと
もに、一方で音源情報抽出部（２）に入力され、ピッチ
やパワーなどの情報が抽出される。抽出されたこれらの
情報は音声データメモリ（３）に蓄えられ、音声合成時
には、音声合成部（１）で元の音声に復元される。

このような分折合成方式を採用した従来の音声合成装置
では、上述の各情報が抽出されるタイミングは５〜２　
０　ｍ　ｓ　ｅ　ｃ毎であり、ピッチやパワーなどの情
報に、最低約１０ビット、スペクトル包絡を現わす情報
に、最低約３０ビットを必要とする。従って、比較的良
好な音声を復元するためにはｌ秒当り２ｋビットを必要
とする。その計算式は以下の通りである。

（１０＋３０），’０．０２＝２０００一方、近年、文
字を入力するだけでその文字列で表される任意の文章を
音声合成できる規間合成方式と呼ばれる音声合成方法を
用いた音声ｂ成装置が開発されている。このき声合威方
法を音声の情報圧縮技術と考えると、文字だけを記憶す
ればよいので、極めて大幅な情報圧縮が可能である。

例えば、文字を８ビットコードで記憶した場合、ｌ秒当
り５音節で発声すると考えると、１秒当り４０ビットし
か必要としたい。

しかしたがら，このような規則合成方式の従来の音声合
成装置に於ては、ピッチやａ続時間艮などの韻律情報を
言語学的規則に基づき音声に応じて決定して制御を行な
５ので、前記の分析１戊の場合に比較して、その合吠音
声はかなり不自然な乙のとなってしまう。

（ハ）発明が解決しようとする課題本発明は、従来の分析合成方式の音声合成装置に比較し
て大幅に音声情報の圧縮が可能であり、かつ、自然性が
高い合吠音声が再生できる音声合威装置を提供するもの
である。

（二）課題を解決するための手段本発明の音声合戒装置は、音声の内容を、例えば、文字
コードなどで記憶し、再生時には、規８１１合成の技術
を利用して合戒冴声を生處する一方、ピッチやｉ続時間
長などの韻律情報は、自然に発声された入力音声から抽
出し、合成ａ声に対する韻律制御に用いるものである。

（ホ）作用本発明によれば音声を、例えば、文字コードなどの情報
量の少ないコードと、自然に発声された音声のピ・ｌチ
や継続時間長などの韻律情報のｈに圧縮するので，従来
の音声合成（分析合成・）方式の音声合成装置に比べ、
大幅な情報圧縮ｒ１秒当り３００ビット程度）が可能で
あり、かつ、自然に発声された音声から抽出されたピッ
チや継続時間艮などの韻律情報を用いて、合成音声の韻
律制御を行なうので、自然性の高い合吸音声の再生が可
能である。

（へ）実施例第１図は本発明を実現するための音声情報圧縮方式の原
理を示したものである。同図の方式によれば、入力され
た１声は、文字コード抽出回路（５）、ピッチ抽出回路
（６）、継続時間長抽出回路（７）に入力され、それぞ
れ、入力音声の発声内容を示す文字コード列、各文字（
音節）ごとのピッチの値と変化、各文字（音節）の継続
時間艮が抽出される。（８）は抽出された上記各情報が
蓄えられる音声データメモリである。

上記文字コード抽出回路（５）としては、単音節音声認
識技術の使用が可能である。しかしたがら、実時間の音
声伝送再生を目的としたもので無く、ｔじめ作成された
音声データに基づいて必要な時に音声合成できる音声合
成装置を対象とする場合には、ｄ声認識に代えてキー人
力によって確実に文字コードを得るようにしてもよい。

このようにして、例えば、第３図（ａ）に示す人力文章
「本日は晴天なり」を情報圧縮した音声データの一例を
第３図（ｂｊのテーブルに示す。

同図のデータ例は、［文字コード］として、カナ記号を
利用した場合であり、この場合には１７１１節当り７ビ
７トで十分と言える。また、［ピ７チの値と変化］につ
いては、数列の初期値にセットされるピッチの値に５ビ
ット、これに続くピッチの変化は文字間にこのピッチ変
化が小さいと考えられるので、３ビッ｝Ｘ１６＝４８ビ
ット程度が割り当てられる。なお、同図の＊は無声音で
あって、ピッチがない部分を示している。さらに、［継
続時間長］としては、１　０ｍｓ　ｅ　ｃ程度の精度で
制御できれば十分と考えられるので、１文字当り最大３
　２　０　ｍ　ｓ　ｅ　ｃを３２ステｌプに数値化する
値１〜３２で継続時間長を記憶するとして、５ビットが
穿Ｉ　１）当てられる。

以上のビット割り当てを行なうと、１文字当り７＋４　
８＋５＝６　０ビット、すなわち、１秒当り５文字（音
節）で６０ビットＸ５”３００ビットの情報圧縮となる
。ちなみに、この結果は音声をディジタルに変換しただ
けのＰＣＭ（１秒当り６４ｋビット）に比較して１／２
００以下、ＰＡＲＣＯＲ方式に比較して１／１０程度の
情報量に相当する。

Ｅ述の音声情報圧縮技術を用いた本発明の音声合成装置
の溝戒を第１図に示し、以下にその動作を解説する。

第２図の音声情報圧縮技術によって圧縮された音声情報
、即ち第３図（ｂ）のテーブルに示す如き、文字コード
，ビッチデータ、継続時間長は、音声データメモリ（８
）に格納されている。即ち、合咬出力するべき音声をＷ
Ｉ處する単音節の素片単位を表す素片コードとしての文
字コードの系列と共に、合成出力するべき音声から予じ
め抽出した各素片単付毎のピッチ及び継続時間長の韻律
情報がこのメモリ（８）に貯えられている。

上記音声データメモリ（８）から読み出される各データ
は、１文字分づつ、文字コードバッファ（９）、継続時
間長データバンファ（１０）、及びピッチデータバッフ
ァ（ｌ１）のそれぞれに貯えられる。この時ピッチデー
タバッファ（１ｌ）には、ピッチデータ及びその変化情
報からなる複数データをそれぞれアドレス付けして貯え
る必要上、アドレスポインタａ＜１２）が備えられてい
る。

一方、音声素片メモリ（ｌ５）には、全ての素片単位（
文字単位ノ毎の音響パラメータ、例えばＰＡＲＣＯＲパ
ラメータがその素片（文字）コードに対応付けて貯えら
れている。

該メモリ（１５）をアクセスするための音声素片アドレ
ステーブル（１３）には、文字コードパッファ（９）の
文字コードとそれに対応する音響パラメータが蓄えられ
ている音声素片メモリ（ｌ５）の先頭アドレスが記憶さ
れている。従って、文字コードバッファメモリ（９）に
蓄えられた文字コードと同じ文字コードを音声素片アド
レステーブル（ｌ３）から検索することにより、対応す
る音響パラメータが貯えられている先頭アドレスが素片
ポインタ（ｌ６）にセットされる。なお、アドレスポイ
ンタｂ（１４）が、音声素片アドレステーブルに備え付
けられており、検索の際に利用される。

このようにして、合威すべき音声の文章を構或する文字
コードに対応する音響パラメータ素片が順次、音声素片
メモリ（１５）から読み出されるが、その際、第１の韻
律制御のために継続時間長調整回路（ｌ７）で、継続時
間長データバッファ（１０）に貯えられた継続時間長に
合致するように、音響パラメータの素片列を伸縮制御し
て、これを庁響パラメータ素片接続のための音声データ
バッファメモリ（ｌ８）に貯える。即ち、この韻律制御
手段にて，継続時間長情報が付与された状態で音響パラ
メータ素片が接続されることになる。

一方．ピッチデータバッファＮ　１）のピソチデータの
素片列もまた、第２の韻律制御のために上記存響パラメ
ータの素片列と同様に、音声データパンファメモリ（ｌ
８）に貯えられる。

この時、２個目からのデータは１個目のピッチデータか
らの変化分であるので、前のビッチデータを保持するピ
ッチ保持回路（２ｏ）と加算器（ｌ９）とによって、各
ピッチデータが算出される。上述の構或及びその動作に
より、音声データバッファメモリ（１８）には、韻律情
報を付与した音響パラメータの素片列が格納されること
になり、これに基づいて、例えばＰＡＲＣＯＲ方式のデ
ィジタル複合回路を備えた音声合威ＬＳＩ　（２ｌ）が
音声信号を再生合威して、スピーカ（２２）で音声を発
生する。

以上の説明によれば、Ｘｔ４単位として、カナ１文字に
対応する単音節を例示したが、ＣＶＣｆｆ−韻連鎖を素
片単位としても本発明の実施は可能である。

（ト）発明の効果本発明の音声合吠装置は、従来の分折合成方式の装置に
比較して、大幅なメモリの削減が可能であり、かつ、自
然に発生された音声の韻律情報を保存しているので、合
成音声の音質の低下はほとんどない。

【図面の簡単な説明】

第１図は本発明の音声合成装置の構成を示すブロック図
、第２図は本発明の音声情報圧縮技術を示す機能ブロッ
ク図、第３図（ａ）、及び（ｂ）は合成音声の文章例を
示す図、及びその音声情報圧縮データ例を示す図、第４
図は従来の音声情報圧縮技術を示す図である。（８）・・・音声データメモリ、（９）・・・文字コードパッファ、（１　０）・・・継続時間長データパンファ、（１ｌ）
・・・ピッチデータバッファ、（１５）・・・音声素片
メモリ、（ｌ７）・・・継続時間長調整回路、（１８）・・・音声データバッファメモリ、（２　ｌ　
）・・き声ｂ戊ＬＳＩ。出頼人三洋電機株式会社

Claims

【特許請求の範囲】

（１）合成出力するべき音声を構成する単音節やＣＶＣ
音韻連鎖などの素片単位を表す素片コードの系列と共に
、合成出力するべき音声から予じめ抽出した各素片単位
毎のピッチあるいは継続時間長などの韻律情報を貯えた
音声データメモリ、単音節やＣＶＣ音韻連鎖などの素片
単位毎の音響パラメータを素片単位を表す素片コードに
対応付けて貯えた音声素片メモリ、該音声素片メモリに
蓄えられた素片単位の音響パラメータを接続する素片パ
ラメータ接続手段、上記音声データメモリの韻律情報を
制御して上記素片パラメータ接続手段にて接続される音
響パラメータ列に付与する韻律情報制御手段、該韻律制
御手段にて韻律が付与された音響パラメータ列に基づい
て音声を合成する音声合成回路を備えた音声合成装置。