JPH03233500A

JPH03233500A - 音声合成方式およびこれに用いる装置

Info

Publication number: JPH03233500A
Application number: JP2240243A
Authority: JP
Inventors: Takashi Yato; 隆矢頭
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1989-12-22
Filing date: 1990-09-11
Publication date: 1991-10-17
Anticipated expiration: 2014-08-09
Also published as: JP2931059B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）この発明は、波形領域の音声データを記憶領域に蓄積し
ておき、これらの音声データを記憶領域から読み出して
音声の編集合成する音声合成方式およびその装置に関す
る。

（従来の技術）規則によって任意の音声を出力する規則合成の研究が盛
んである。規則合成に用いられる音声合成方式としては
ＰＡＲＣＯＲ（偏自己相関係数：　Ｐａｔｉａｌ　ａｕ
ｔｏ−ｃｏｒｒｅｌａｔｉｏｎ　ｃｏｅｆｆｉｃｉｅｎ
ｔ　）、ＬＳＰ　（線スペクトル対：　１ｉｎｅ　ｓｐ
ｅｃｔｒｕｍ　ｐａｉｒ）といったＬＰＧ（線形予測符
号化：　１ｉｎｅａｒ　ｐｒｅｄｉｃｔｉｖｅ　ｃｏｄ
ｉｎｑ）系の分析合成方式が現在、最も多く用いられて
いるが、合成音の明瞭性という点てやや問題がある。こ
れに対し、明瞭性を改善する試みに音声のスペクトル包
絡がら抽出した音声素片波形を用いる方式が提案されて
いる（例えば、文献Ｉ：特開昭６０−２２１９４号およ
び文献■：日本音響学会講演論文集（１−２−１６）、
昭和５８年１０月、Ｐ、７３）。

これら文献に開示されている音声素片波形を得る方法を
第２図（Ａ）および（Ｂ）！参照して簡単に説明する。

第２図（Ａ）は音声素片、特に有声音の音声素片を抽出
するフローを示し、第２図（Ｂ）は、第２図（Ａ）のフ
ローにより処理された波形を示し、そのフローの対応す
るステップの横にそれぞれ示しである。同図において、
ます話者が発声した発声音をマイクロホン等で原音声と
しでとらえる（ステ・ｙブ：５１０）、この原音声を一
定分析区間長切り出す（Ｓ２０）。次にスペクトル包絡
を抽出する（Ｓ３０）。次にスペクトル包絡を、位相成
分をすべて零として逆ＦＦＴ（Ｆ　Ｆ　Ｔ　：　Ｆａｓ
ｔ　Ｆｏｕｒｉｅｒ　丁ｒａｎｓｆｏｒｍ　（高速フー
リエ変換））を施し、対称波形を算出する（Ｓ４０）。

次に対称波形の時間原点に生じる鋭いピークを補正する
ため、簡易な非線形変換を行なう（５５０）。次に上記
の処理による対称波形に時間原点を中心とした時間窓を
掛け、端点付近を切り、素片長を一定にする（Ｓ６０）
。次に抽出されるすべての素片のパワーが同一になるよ
うに素片パワーの正規化を行なう（Ｓ７０）。

規則合成の場合、このようにして得られた個々の音声素
片波形を音声の基本単位として多数用意して合成に用い
る手法も考えられているが、高品質な合成音を得るため
には、ある程度連続した音声の中でのスペクトルの流れ
を忠寅に表現する必要があり、そのため一般にＣＶ音節
、或いはｖＣＶ音韻連鎖などが音声の基本単位としで選
ばれる。その場合の音声素片波形の抽出は、Ｃｖ或いは
ｖＣＶなどの原音声に対し、一定時間（フレーム）周期
毎に、第２図（Ａ）および（Ｂ）で示した分析処理を施
し、得られた一連の音声素片をひとまとまりとして音声
の基本単位として扱って符号化しく第２図（Ａ）の３８
０）　、音声合成装置用の記憶装置に蓄積させている。

（発明が解決しようとする課題）この音声素片自体の波形の符号化データを用いた従来の
音声合成技術は、合成の処理が簡単で明瞭゛ｉのある合
成音が得られる反面、音声データとして波形を直接扱っ
ているため蓄積すべき音声データの量が多いという問題
があった。

従って、この発明の目的は、記憶領域に蓄積すべき音声
データの容量を軽減し、少ない容量で明瞭な合成音を主
成する音声合成方式およびその装＠を提供することにあ
る。

（課題を解決するための手段）この目的の達成を図るため、この発明の方式によれば、自然音声を一定のフレーム周期毎に分析してそれぞれの
フレームにおける音声のスペクトル包絡からそれぞれ抽
出した音声素片に関する音声素片データを記憶装置に予
め格納しておき、該記憶装置に予め格納された前記音声
素片データを用いて音声素片を合成して音声を合成する
音声合成方式において、音声素片はすべで同一電力およ
び同−位相時′ｉを有してあり、隣接する２つのフレー
ムでそれぞれ抽出された音声素片間での音声素片波形の
差を差分波形としてそれぞれ求め、各差分波形を符号化
データに変えで、前記隣接する２つのフレームのうち後
続のフレームにおける音声素片データとして、記憶装置
に格納しておくことを特徴とする。

また、この発明の実施に当たり、好ましくは、隣接する
２つのフレームの差分波形の符号化データを、当該差分
波形の振幅のダイナミックレンジに応じた符号化ビット
数で、前記差分波形をそれぞれ符号化した値および前記
符号化ビット数とするのが良い。

また、この発明の実施に当たり、好ましくは、差分波形
の符号化データを、該差分波形のダイナミックレンジの
大きさが前記隣接する２つのフレームのうちの後続のフ
レームで抽出された音声素片のダイナミックレンジより
も小さいという条件の下で、前記記憶装置に格納してお
き、および、前記差分波形のダイナミックレンジの大き
ざか前記音声素片のダイナミックレンジと等しいがまた
は大きいという条件の下では、前記差分波形の符号化デ
ータの代わりに前記音声素片の音声素片波形の符号化デ
ータを前記記憶装置に格納しでおくのが良い。

また、この発明の実施に当たり、好ましくは、１１１ｈ
ｉする２つのフレームの差分波形の符号化データは、当
該差分波形の符号化に際して予め定めた量子化誤差のし
きい値を満足する符号化ビット数で符号化されているよ
うにすることもできる。

また、この発明の実施に当たり、好ましくは、差分波形
の符号化データを、該差分波形を符号化したときの量子
化誤差が前記隣接するフレームのうちの後続のフレーム
で抽出された音声素片を同一の符号化ビット数で符号化
したときの量子化誤差よりも小さいという条件の下で前
記記憶装置に格納しであき、および、前記差分波形の符
号化時の量子化誤差が、前記音声素片の符号化時の量子
化誤差と等しいかまたは大きいという条件のもとでは、
前記差分波形の符号化データの代わりに前記音声素片の
符号化データを前記記憶装置に格納しておくこともでき
る。

この発明の実施に当たり、好ましくは、隣接する２つの
フレームの差分波形の符号化において、前記差分波形の
性質に応じて、前記差分波形の符号化ビット数ｖ！１差
分波形毎に適応的に定め、当該ビット数によって符号化
した差分波形符号化データと、前記符号化ビット数を合
わせて差分波形符号化データとするのが良い。

また、この発明の好適実施例では、フレーム毎に、当該
フレームの音声素片波形と、当該フレームと、隣接して
先行するフレームとでの音声素片波形の差分波形とを同
一の符号化ヒツト数で符号化した場合、どちらが符号化
精度が良いかを判定し、符号化精度か良い方の符号化デ
ータを当該フレームの音声素片波形の符号化データとし
て記憶装置に格納しであくのか良い。

また、この発明の実施に当り、好ましくは、記憶装置に
格納される符号化データには、差分波形を符号化したデ
ータかまたは音声素片波形そのものを符号化したデータ
かを識別するフラグを含ませておくのかよい。

さらに、この発明の装置によれば、自然音声を一定のフ
レーム周期毎に分析してそれぞれのフレームにおける音
声のスペクトル包絡からそれぞれ抽出した音声素片に関
する音声素片データが格納された記憶装置と、該記憶装
置から前記音声素片データを読み出して再生することに
より、外部機器へ出力するための音声を合成する合成手
段とを含む音声合成装置において、音声素片データを、
隣接する２つのフレームでそれぞれ抽出された音声素片
間での音声素片波形の差である差分波形の符号化データ
とし、合成手段は、記憶装置から前記差分波形の符号化
データを復号して音声素片の再生を行なうことを特徴と
する。

この発明の実施に当り、好ましくは、前記符号化データ
を、前記差分波形の振幅のダイナミックレンジに応じた
符号化ビット数で前記差分波形をそれぞれ符号化した値
および前記符号化ビット数とするのかよい。

また、この発明の実施に当たり、符号化データを、前記差分波形を予め定めた量子化誤差
を満足する符号化ビット数で、前記差分波形をそれぞれ
符号化した値および前記符号化ヒツト数とするのが良い
。

また、この発明の装置によれば、好ましくは、記憶装置
に格納された音声素片波形データは、当該データか差分
波形を符号化したデータか、或いは音声素片波形そのも
のを符号化したデータであるかを識別するフラグを含み
、合成手段は、記憶製雪からフラグと符号化データとを
読み出し、フラグに応じて音声素片の再生を、差分波形
に基づく再生と、素片波形に基づく再生とを切り換えて
行なうのがよい。

（作用）この発明の方式および装置では、原音声のスペクトル包
絡線からフレーム毎に抽出された音声素片そのものの符
号化データを音声素片データとして記憶装置に蓄えるの
ではなく、先行して抽出された隣接フレームの音声素片
波形と、現フレームの音声素片波形との差の符号化デー
タを音声素片データとして記憶製画に蓄積する。そして
、音声の合成に当り、記憶製雪がら音声素片データを読
み出して復号し、よって音声のスペクトル包絡がら抽出
した音声素片波形を連結して音声を合成する。

これらの音声素片波形に着目すると、音声のスペクトル
の時間的変化をある程度正確に表現するために分析のフ
レーム周期は通常５〜２０ｍ５程度に選ばれるか、この
ような短時間間隔においでは隣接フレーム間での音声の
スペクトルの変化は小ざい。前述した素片抽出過程に示
されるとおり（第２図（Ａ）および（Ｂ））、各歯筋の
音声素片は、同一電力、同一位相特性を有するので、隣
接フレームにおけるそれぞれの素片波形の差の波形は、
そのままＩＩＩ接フレーム間のスペクトルの差を表現し
た波形となる。

方、連続音声の隣接フレーム間での音声素片波形は非常
に類似しでいるため、その差をとった差分波形のダイナ
ミックレンジは、もとの音声素片波形のダイナミックレ
ンジに比べではるかに小ざい。従って、抽出される素片
波形をそのまま符号化する場合の符号化ビット数に比べ
、差分波形を符号化するときの符号化ビット数は明らか
に少なくできる。そのため、素片波形をそのまま符号化
、蓄積する場合に比べ、差分波形を音声素片データとし
て符号化、蓄積することにより、蓄積すべき音声素片デ
ータの容量を大幅に削減できる。

但し、差分波形は、パワーの正規化が施されでいる音声
素片波形と異なり、ダイナミックレンジ等の特性にバラ
ツキが大きい。すなわち、隣接フレーム間での音声素片
波形の類似性が音声の種類、或いは定常部、過渡部のい
かんによってかなつの幅かあるため、常に同一の符号化
ビット数で符号化することは効率的ではない。従って、
差分波形の符号化に当たっては、例えばそのダイナミッ
クレンジ等のある評価基準に基づいて符号化のビット数
を可変しでやれば、なあ−層効率的な符号化か行なえ、
データ量を低減することができる。

上述したように大部分の音声区間では隣接フレーム間で
の素片波形は非常に類似しており、従って、その差をと
った差分波形を音声波形に代えて符号化、蓄積すること
により、大幅な情報圧縮が可能となるが、無声音区間、
或いは音韻の切り変わり時等で、隣接フレーム間での音
声素片波形か急変し、場合によっては差分波形を符号化
することか音声素片波形そのものを符号化する場合より
もかえって符号化精度か低下してしまう恐れもある。

このような場合には、音声素片そのものを用いて符号化
し、蓄積しておいた方がよい、従って、全体の情報圧縮
効果を考えると、ａｇｔｍフレーム問の音声素片波形自
体の符号化と、音声素片の波形の差すなわち差分波形の
符号化の両者を混在させて記憶装置に蓄積させておくの
かよい。そのために、好ましくは、符号化データが差分
波形を表わしたものであるか、または、素片波形そのも
のを表わしたものであるかを識別するためのフラグを符
号化データに含ませておくのがよい。このようにすれば
、音声素片データとともにこのフラグを記憶装置に格納
できるので、音声素片の情報圧縮と符号化誤差の低減と
を実現できる。また、そのフラグをもとにして音声合成
を行なうことができるので、合成音の品質向上を図れる
。

（実施例）以下、図面％？照して、この発明の実施例につき説明す
る。

第１図（Ａ）は、この発明の音声合成方式および装置の
説明に供する、音声合成装置のブロック図、第１図（Ｂ
）は、この発明による音声素片波形再生の基本的過程を
示すフローおよび第３図は、この発明の説明に供する音
声素片波形符号化の基本的過程を示すフローであり、ま
た、第４図（Ａ）および（８）は、音声素片波形および
差分波形の例を示す図である。また、第９図は、原音声
を取り込んでから記憶装置へ音声素片データを格納する
様子を説明するための、ブロック図である。

まず、第１図（Ａ）に示す、この発明の音声合成装置は
、原音声の音声素片データを蓄積している記憶装置１０
０と、この記憶装置１００から音声素片データを読み出
して編集合成し外部機器へ出力するための音声を合成す
る合成手段１０２とを主として備えている。これら記憶
装置１１００および合成手段を正しく機能させるために
必要な制御信号等は、制御部１０４から適宜供給できる
ようになっており、この制御部１０４は、この種の装置
では常套手段であるため、その説明を省略する。

ます、音声素片波形符号化の基本的過程を第３図および
第９図を参照して説明する。

第９図に示すブロック図にあいで、話者か発声する原音
声を原音声入力装＝１０で取り込み、適当なデジタル信
号に変換した後、音声素片作成表Ｍ２０で音声素片波形
を得、ここで、所要の符号化データを得て記憶装置１０
０へ格納する。原音声人力製画１０は、例えばマイクロ
ホン等の音響−電気信号変換製雪、フィルタおよびＡ／
Ｄコンバータを以って任意適当に構成し得るものである
。また、音声素片作成表！２０も中央処理装置（ＣＰＵ
）等を用いて任意適当に構成し得る。そして、これら原
音声入力装Ｍ１０、音声素片作成装置２０および記憶装
置１００を、常套手段である制御部３０からの制御信号
等を用いで制御しながら動作させることができる構成と
なっている。

第３図に示す音声素片波形符号化の基本的過程は、この
音声素片作成装置２０において行なわれる。ステップ（
以下、ステップをＳで表わす）１１０は音声素片抽出の
処理であって、この５１１０の処理では、既に説明した
第２図に示される素片抽出処理に従ってフレームｉにあ
ける音声素片波形ａ＊’（ｊ＝１．２．・・・Ｎ）を抽
出する。ここでは添字ｉはフレーム番号を示し、添字ｊ
は素片のサンプル番号で、素片長をＮとしている。第４
図（Ａ）にフレーム１〜］２（ｉ＝１．・・・、１２）
の音声素片波形の例を示しである。次に、５１２０では
現在のフレーム（以下、単に、現フレームと称する）１
における素片波形ａＪｌと隣接して先行するフレーム（
以下、単に、前フレームと称する）（ｉ−１）における
素片波形Ａ　、　Ｉ　−１との差分波形す、ムを算出す
る。

但し、ここでの素片波形Ａ、Ｉ−１は、前フレーム（ｉ
−１）において符号化、復号化された後の再生波形を用
いる。但し、第１番目のフレームにおいては、Ａｊｌ−
＋はすべて零（０）とする。

上述したフレーム１〜１２の音声素片波形に対応する差
分波形の例を第４図（８）に示す。

第４図（Ａ）および（Ｂ）に示した、実際の音声より抽
出した音声素片波形とＰａ接接フレーム間の素片波形の
差分波形の例からも理解できるように、素片波形と差分
波形の振幅のダイナミックレンジの差は歴然としており
、抽出された素片波形そのものを符号化する方法に比べ
差分波形を素片波形に代えて符号化、蓄積する方が蓄積
容量が削減できることは明らかである。

次に３１３０では前の８１２０の処理にて算出された差
分波形を符号化し、この符号化データをフレームｌにあ
ける音声素片データとして記憶装置１００に格納する。

記憶装！１００への符号化データの蓄積か終ったら、次
の３１４０の処理にあいで、５Ｔ３０で符号化された差
分波形を復号し、復号後差分波形Ｂ、’Ｖ得る。次に８
１５０の処理では、復号化差分波形ＢＪ′と前フレーム
（ｉ−１）の再生波形Ａ、Ｉ−１とを加算し、現フレー
ム１の再生波形ＡＪ’％算出する。そして、５１６０の
処理では、フレームを更新し、以後、前述したＳ１］０
〜５１６０のステップでの処理を音声の分析区間が終了
するまで繰り返し行ない、すべてのフレームに対する、
差分波形の符号化データを、音声素片データとして、記
憶装置１００へ蓄積完了する。

上述した第３図の例では、５１３０における差分波形符
号化処理の符号化の手法はＰＣＭ、１ｏｇＰＣＭなとの
少なくとも１音声素片内では量子化ステップ幅が、ある
基準において固定的に定められた方式に適するもので、
ここでは特にＰＣＭ符号化により符号化する例につき以
下に説明する。

第５図は、差分波形の符号化ｔＰｃＭＰｃ化とした場合
の動作フローを示し、第３図に示したフローと共通のス
テップ（こは同一符号を付しで示し、その詳細な説明を
省略する。この第５図に示すフローにおいて、５１３２
および５１３４が、第３図の３１３０に対応する処理で
ある。この５１３２においては、５１２０にで算出され
た差分波形のダイナミックレンジを評価し、ダイナミッ
クレンジの大きざに応じて、この差分波形の符号化のビ
ット数ｎを最適に定める。この符号化ビット数ｎの決定
の手法については後述する。次に、５１３４の処理では
、５１３２で定められた符号化ビット数ｎに基づいて、
差分波形ｂＪＩを符号化し、その符号化値を符号化ビッ
ト数ｎとともにフレーム１における音声素片データ（符
号化データ）として記憶装置］００に格納する。記憶装
置１００への符号化値と符号化ビット数ｎの両符号化デ
ータの蓄積が終ったら、次に５１４０の処理において、
５１３４で符号化された差分波形を復号し、復号差分波
形Ｂ、ｌを得る。その後の処理は、第３図のフローで説
明した場合と同様に行なわれる。

ここで、第５図のフロー中の８１３２での符号化ビット
数決定の処理について説明する。第６図（Ａ）および（
Ｂ）は、符号化ビット数決定の説明図であり、第６図（
Ａ）は音声素片波形の一例を示し、第６図（Ｂ）は差分
波形を絶対値化した波形の例を示す。いま、音声素片波
形をそのまま符号化したときに必要な量子化精度が得ら
れる符号化ビット数を８ビツトとしく第６図（Ｂ）の左
側に示す）、そのときのダイナミックレンジをＤ　（Ｍ
Ｓ図（Ｂ）の右側に示す）とすれば、ここに示す例の差
分波形のダイナミックレンジはＤ／３２の節回に納まっ
てあり、同様の量子化精度を得るのに３ビツトの符号化
ビット数があればよいことかわかる。このように、５１
３２での符号化ビット数決定の処理では、差分波形のダ
イナミックレンジを評価し符号化のビット数を決定する
。

第７図（Ａ）、（８）および（Ｃ）は、実際の音声より
フレーム毎に抽出した音声素片波形、隣接フレーム間で
の差分波形および第５図および第６図（Ａ）および（Ｂ
）を参照して説明した手法により定められた量子化ステ
ップ数の例をそれぞれ示す。但し、表示を見易くするた
めに音声素片波形は差分波形に対して縮尺を縮めで表示
しである。また、決定された符号化ビット数は音声素片
波形をそのまま符号化する場合の符号化ビット数を８と
して算出してある。第７図（Ｂ）に示すように差分波形
のダイナミックレンジは、もとの音声素片波形に比べは
るかに小さく、また、第７図（八）〜（Ｃ）に示す例で
は、ヒツト数で示されるとおり、１／１６〜１／６４と
大きく変化しでいることかわかる。

ところで、既に説明したよう１こ、無声音或いは音韻の
切り換わり時などでは、期待どおり圧縮されない場合が
ある。そのため、記憶袋Ｍ１００に符号化データを格納
するに際しては、差分波形を符号化するほうが有利であ
るが、或いは、素片波形そのものを符号化して蓄積した
ほうが有利であるかを判定して、符号化データにはこの
判定結果を識別するためのフラグを含ませでおくのがよ
い。

以下、この点について説明する。

大部分の音声区間においては、既に第７図に例示したよ
うに、素片波形と差分波形の振幅のダイナミックレンジ
の差は歴然としてあり、このような区間においては、差
分波形を符号化した方が効率がよいことは明らかである
。

これに対し、第８図（Ａ）および（Ｂ）にフレーム毎の
音声素片波形および差分波形をそれぞれ例示して示すよ
うに、特に、音韻の変化部分（フレーム５）においては
差分波形の方が素片波形よりも大きな場合もある。従っ
て、このような場合（こ対処するためには、音声素片波
形の形状１こ応じて、音声素片を差分として記憶するが
、差分をとらすに記憶するか切り換えるようにしておく
のか好ましい。

そこで、これを説明するために、量子化精度を損なわす
に符号化データを得るための符号化シーケンスの実施例
を第１０図に示す。この符号化シーケンスも、既に説明
した音声素片作成装置２０で行なう。

第１０図は、素片波形の符号化に際して差分波形を符号
化するか、或いは素片波形そのものを符号化するのか判
定処理を第３図符号化の基本的過程に組み入れた、符号
化の基本的過程を示す動作フローである。第１０図にお
いて、第３図と共通のステップ（こは同一符号を付しで
示し、その詳細な説明は省略する。５１１２においては
、＄１１０で抽出された音声素片に対し、そのダイナミ
ックレンジの評価を行なう。既に第２図（Ａ）の３６０
で説明したように、抽出された音声素片は、パワーの正
規化が施されているため、そのダイナミックレンジは、
各素片ともおおよそ近い値になる。しかし、音声素片波
形には、スペクトル形状によって素片中心が鋭くとがる
ものとそうでないものとがあるため、音声素片波形のダ
イナミックレンジの評価も精密を期して行なうのかより
好ましい。

このような評価を行なうに当り、音声素片波形か対称波
形である性質上、位相原点すなわち波形の中心が最も振
幅が大きくなることが明らかであるので、中心１点のみ
見て評価すればよい、このときの音声素片波形のダイナ
ミックレンジの評価値をＤｓとする０次に、５１２０で
、差分波形を算出し、然る後、５１２２において差分波
形のダイナミックレンジを評価する。この場合には必ず
しも差分波形の中心が最大振幅をとるとは限らないため
、差分波形全体を調べる。このときの差分波形のダイナ
ミックレンジの評価値をＤＯとする。５１２４では、５
１１２．５１２２で求められた素片波形のダイナミ・ン
クレンジの評価値Ｄｓと差分波形のダイナミックレンジ
の評価値Ｄ０とを比較し、その結果（こ基づき符号化方
法を振り分ける。

以下、この点につき説明する。

今、Ｄｓ＞Ｄｏすなわち素片のダイナミックレンジの評
価値が差分のダイナミックレンジの評価値より大きいと
きは、第３図のシーケンス同様５１３０にで差分波形を
符号化して記憶製雪１００に格納する。但し、この際、
符号化データとともに差分波形を符号化した旨を指し示
す識別フラグを符号化データに付加する。５１４０以降
の処理は、第３図と同様である。

一方、Ｄ９≦００すなわち差分のダイナミックレンジの
評価値がもとの素片のダイナミックレンジの評価値に等
しいかもしくは逆に大きくなってしまうときは、５１３
２にて素片波形そのものを符号化し、その符号化データ
を、素片波形そのものを符号化した旨を指し示す識別フ
ラグとともに記憶袋Ｍ１００に格納する。この場合の素
片再生処理は、５１４２にて素片波形の復号によりＭ接
再生素片Ａ、が得られるため５１５０の波形加算処理は
不要となる。

以上、素片の符号化データに差分波形を符号化したもの
であるが、或いは素片そのものを符号化したものである
かを識別するフラグを設ける方法について、第３図のフ
ローに機能付加するがたちで説明したが、第５図の符号
化ｔＰｃＭ手法で行なう例に付加することもほぼ同様に
なし得る。

第１１図（Ａ）〜（Ｃ）に、記憶装！１００に格納され
る音声素片データの形式を示す。

第１１図（Ａ）は、第３図の音声素片波形符号化の基本
的過程により作成されるデータの形式、同図（８）は、
第５図の符号化をＰＣＭ手法で行なう過程で作成される
データの形式、また同図（Ｃ）は、第１０図の処理過程
にて生成されるデータの形式を示したものである。

第１１図（Ａ）においでは、フレーム毎に生成される音
声素片の符号化データ（ここでは差分波形）が順次格納
されている。

第１１図（Ｂ）においては、ｉ番目のフレームの素片を
表わすデータは当該フレームの符号化ビット数部と、差
分波形の符号化データ部の対がらなっており、当然のこ
とながら符号化ビット数によって符号化データ部の容量
は異なる。

第１１図（Ｃ）では、１番目のフレームの素片を表わす
データはフラグ部とデータ部とがらなつ、フラグ部には
当該フレームのデータ部が差分波形を符号化したもので
あるが、素片波形そのものを符号化したものであるかを
識別するフラグが格納されている。

方、波形の符号化方式としてはＰＣＭ、１１０９ＰＣな
とのように固定した量子化値を有するものではなく、さ
らに、効率的な符号化を行なうため、量子化ステップ幅
を適応的に変化させる方式（適応ＰＣＭ）或いは、波形
そのものを符号化するのではなく、隣接サンプル間の差
（厳肥には、前サンプルの符号化、復号化後の値と後続
サンプル値との差）を符号化する差分ＰＣＭ、ざらに差
分ＰＣＭにおいて、その量子化ステップ幅を適応的に変
える適応差分ＰＣＭなどの方式がある。このような方式
にあいでは、波形の符号化精度は、波形のダイナミック
レンジには必ずしも対応しない。従って、前記実施例に
おける差分波形成いは音声素片波形の符号化方式として
前記適応ＰＣＭ、差分ＰＣＭ、適応差分ＰＣＭなどの方
式を用いる場合には、前述したＰＣＭ符号化で採用した
符号化ビット数決定における評価基準および音声素片波
形をそのまま符号化するか或いは差分波形を音声素片波
形に代えて符号化するかの判定基準として波形のダイナ
ミックレンジを用いることは妥当ではない、そこで、そ
れぞれの基準を波形のダイナミックレンジに代えて、］
フレームの波形（音声素片波形成いは差分波形）の符号
化によって生じる誤差の程度を表わす量子化誤差、従っ
て、この場合にはフレーム内信号対雑音比を用いる例に
つき以下に説明する。

第１２図は、差分波形の符号化ビット数を可変とする前
記第５図の処理過程における５１３２符号化ビット数の
決定を、波形のダイナミックレンジの代わりにフレーム
内信号対雑音比を用いて行なう場合の処理フローであっ
て、全体的な動作は第５図のフローとほぼ同一である。

第１２図において、５１３２０〜５１３２６の処理か第
５図８１３２符号化ビット数決定のステップに相当する
。また、第１２図において、第５図と同一番号を付され
たステップについでは第５図とまったく同一の処理であ
り説明は省略する。

符号化ビット数決定の過程では、まず、符号化ビット数
ｎの初期値として符号化可能なビット数の最小値ｎｍｘ
ｎ’Ａ与える（Ｓ１３２０）。

次に、この符号化ビット数ｎにより、差分波形ｂＪ＋を
符号化し、符号化データＬＪＩを得る（Ｓ１３２１）。

符号化データし、１は次のステップ５１３２２において
復号化され差分波形の復号値ＢＪＩが求められる（Ｓ１
３２２）、次の８１３２３では、現在与えられている符
号化ビット数ｎが予め定められた符号化ビット数の最大
値ｎ□８に達しているかどうかの判定を行ない、もし、
すでにｎ　ｆＪ＜ｎ　ｍａｘに達していれば、この時点
において符号化ビット数ｎと、差分波形の符号化データ
しＪｌか確定する。一方、ｎが最大値ｎ□１Ｘ未満であ
れば次の８１３２４において符号化精度を算出する。符
号化精度は先に述べたとおり、フレーム内信号対雑音比
として表わす。これＶＳＮとすると、ＳＮは次式で与え
られる。

Σ　　（ａ　、ｌ）　２ここて算出したフレーム内信号対雑音比ＳＮに対し、ス
テップ５１３２５では、予め定めたフレーム内信号対雑
音比のしきい（ａｓＮｔｈと比較し、ＳＮ≧ＳＮいであ
れば、この時点での符号化ビット数ｎにおいて十分な符
号化の精度か得られたとして５１４１においてｎおよび
符号化データＬ、ｌを音声データとして記憶装置１００
に格納する。一方、ＳＮ＜ＳＮいであれば、符号化時の
精度か十分でないので符号化ビット数を１ビツト増加し
て（Ｓ１３２６）あらためて３１３２１からの処理を繰
り返す。このようにして所望の符号化精度か得られるま
でＳ］３２０〜５１３２６の処理を繰り返す。但し、こ
の発明においては蓄積すべき音声データの容量を削減す
ることが目的であるため、前記５１３２２の処理におい
て、符号化ビット数の最大値ｎｍａｘ％定め、符号化ビ
ット数ｎかｎ　ｍａｘに達した場合には、符号化精度が
所望の値５Ｎｔｈに達しようが、或いは達しまいか、こ
れ以上のデータの増加はしないようにしている。但し、
ｎ、、、、Ｘは、音声素片波形をそのまま符号化するの
に必要なビット数としでおけば、５１３２３において符
号化ビット数のこれ以上の増加を打ち切ったことにより
、従来の方法に比べ量子化誤差が増大するというような
ことはない。

第１３図は、音声素片波形をそのまま符号化するか、差
分波形を音声素片波形に代えて符号化するかを判定して
符号化を行なう第１０図の処理を、前記判定基準を第１
０図におけるダイナミックレンジからフレーム内信号対
雑音比に変えたときの動作フローを示しでいる。ここで
は、Ｓ１］２０〜１１２２が第１０図の５１２０に、５
１２２０−８１２２２か第１０図の８１２２にそれぞれ
相当する。また、５１２４０においては、第１ｏ図の８
１２４にあける音声素片波形のダイナミックレンジＤ、
が、音声素片波形を符号化、復号化した際のフレーム内
信号対雑音比Ｓ　Ｎ　ｓに、差分波形のダイナミックレ
ンジＤ０が、差分波形を符号化、復号化した際の音声素
片波形に対するフレーム内信号対雑音比Ｓ　Ｎ　ｏに、
それぞれ置き換わる。また、５１３００．５１３２０は
、それぞれ第１０図の５１３０．５１３２に相当する部
分であるが、５１１２１．５１２２１においてすでに復
号化処理が行なわれでいるため、ここでは、第１０図の
５１３０、Ｓ］３２の処理のうち、データを記憶装置１
００に格納するだけの処理となる。

次に、第１図（Ｂ）に従って、この発明の音声合成装盲
における音声素片波形再生の基本的過程を説明する。上
述したように、記憶装置１１００には音声素片データと
して、差分波形の符号化データのみ或いは、場合によっ
ては　音声素片波形自体の符号化データと差分波形の符
号化データとが格納されている。そこで、まず、合成手
段１０２ては、５２００では記憶装置から符号化された
差分波形データを読み出し、続いて、５２１０の処理で
符号化データの識別フラグで差分波形の符号化データか
素片波形そのものの符号化データかを判定する。差分波
形と判定された場合には、この符号化データを８２２０
の処理で復号し復号化差分波形ＢｊＩを算出する。尚、
当然ながら、この復号化は符号化にマツチした手法で行
なう。そして、次の８２３０では、５２２０で得られた
復号後追分波形Ｂ、ｉを前フレーム（ｉ−１）における
音声素片再生波形Ａ、ｉ−１とを加算し、当該フレーム
１における音声素片波形へ、五を得る。一方、５２１０
の判定処理で素片波形そのものの符号化データであると
判定された場合には、図示していないが、従来と同様に
音声素片自体の再生を行なう、以後、５２４０の処理で
フレームを更新しながら必要なフレームに対し上記の処
理を繰り返し音声素片の再生を行なっていく。このよう
にして、再生されて合成された音声は、スピーカ、コン
ピュータ、表示デバイス或いはその他の外部機器へ出力
するための処理が行なわれる。尚、第３図および第１図
（Ｂ）の説明では触れなかったが、第２図の処理によっ
て抽出される音声素片波形は対称形であるから、第３図
および第１図（Ｂ）の処理においても実際の処理過程で
は音声素片長の１／２を扱えばよいことはいうまでもな
いことである。

（発明の効果）上述した説明からも明らかなように、この発明では音声
のスペクトル包絡から抽出される素片波形をそのまま符
号化、蓄積して音声素片データとしで用いるのでなく、
隣接フレームで抽出される素片波形の差分波形を符号化
したデータを音声データとして蓄積しているため音声デ
ータの記憶容Ｍを大幅に削減できる。言いかえれば、同
一の記憶容量においでは、はるかに高精度な符号化が可
能となり、合成音声の品質が向上する。

また、差分波形を音声データとしで蓄積するに当り、差
分波形のダイナミックレンジ、或いは差分波形を符号化
時の量子化誤差などの判定基準をもとに符号化のビット
数を適切に定めているため、過不足のない最適な情報量
で符号化が可能となり、少ない記憶容量で高品質な合成
音を得ることができる。

ざらに、フレーム間の音声素片波形を符号化した手法を
表わすフラグを符号化データにもたせることにより、音
声素片波形を少ない符号化誤差で表わすことができ、合
成音の一層の品質向上を図ることかできる。

【図面の簡単な説明】

第１図（Ａ）は、この発明の音声合成方式および音声合
成装置の説明に供する、音声合成装置の要部のブロック
図、第１図（Ｂ）は、この発明の説明に供する音声素片波形
再生の基本的過程を示す動作フロー図、第２図（Ａ）お
よび（Ｂ）は、従来およびこの発明の説明に供する音声
素片抽出過程を示す動作フロー図、第３図は、この発明の説明に供する音声素片波形符号化
の基本的過程を示す動作フロー図、第４図（Ａ）および
（Ｂ）は、実際の音声の音声素片波形と差分波形の例を
示す、プロッタで描いた波形図、第５図は、音声素片波形の符号化！ＰＣＭ手法で行なう
基本的過程を示す動作フロー図、第６図（Ａ）および（
Ｂ）は、符号化ビット数決定のための説明図、第７図（Ａ）、（Ｂ）および（Ｃ）は、実際の音声の音
声素片波形、差分波形および符号化ヒツト数の間係を示
す、各波形をプロッタで描いた図、第８図（Ａ）および（Ｂ）は、音韻変化部分の音声素片
波形および差分波形を示す、プロッタで描いた波形図、第９図は、原音声を取り込んでから記憶装置へ音声素片
データを格納する様子を説明するためのブロック図、第１０図は、素片波形の符号化に際して差分波形を符号
化するか、或いは素片波形そのものを符号化するのか判
定処理を含む、符号化の基本的過程を示す動作フロー図
、第１１図（Ａ）、（８）および（Ｃ）は、符号化データ
の説明図、第１２図は、符号化ビット数の決定をフレーム内の信号
対雑音比を用いて行なう処理を示す動作フロー図、第１３図は、素片波形をそのまま符号化するか、或いは
、差分波形を符号化するかの判定基準をフレーム内信号
対雑音比として用いた場合の符号化の動作フロー図であ
る。１００・・・記憶装置、　　　１０２・・・合成手段１
０４・・・制御部、　　　　１０６・・・データ部１０
８・・・フラグ部。音声素片波形再生の基本的過程を示す動作フロ第１図（Ｂ）動作フロー第１２図へへ心手続ネ甫正書（方式）平成３年２月１３日

Claims

【特許請求の範囲】

（１）自然音声を一定のフレーム周期毎に分析してそれ
ぞれのフレームにおける音声のスペクトル包絡からそれ
ぞれ抽出した音声素片に関する音声素片データを記憶装
置に予め格納しておき、該記憶装置に予め格納された前
記音声素片データを用いて音声素片を合成して音声を合
成する音声合成方式において、音声素片はすべて同一電力および同一位相特性を有して
おり、隣接する２つのフレームでそれぞれ抽出された音声素片
間での音声素片波形の差を差分波形としてそれぞれ求め
、各差分波形を符号化データに変えて、前記隣接する２つ
のフレームのうち後続のフレームにおける音声素片デー
タとして、記憶装置に格納しておくことを特徴とする音声合成方式。
（２）請求項１に記載の音声合成方式において、隣接す
る２つのフレームの差分波形の符号化データを、当該差
分波形の振幅のダイナミックレンジに応じた符号化ビッ
ト数で、前記差分波形をそれぞれ符号化した値および前
記符号化ビット数としたことを特徴とする音声合成方式
。
（３）請求項１に記載の音声合成方式において、前記差
分波形の符号化データを、該差分波形のダイナミックレ
ンジの大きさが前記隣接する２つのフレームのうちの後
続のフレームで抽出された音声素片のダイナミックレン
ジよりも小さいという条件の下で、前記記憶装置に格納
しておき、および、前記差分波形のダイナミックレンジ
の大きさが前記音声素片のダイナミックレンジと等しい
かまたは大きいという条件の下では、前記差分波形の符
号化データの代わりに前記音声素片の音声素片波形の符
号化データを前記記憶装置に格納しておくことを特徴と
する音声合成方式。
（４）請求項１に記載の音声合成方式において、隣接す
る２つのフレームの差分波形の符号化データは、当該差
分波形の符号化に際して予め定めた量子化誤差のしきい
値を満足する符号化ビット数で符号化されていることを
特徴とする音声合成方式。
（５）請求項１に記載の音声合成方式において、前記差
分波形の符号化データを、該差分波形を符号化したとき
の量子化誤差が前記隣接するフレームのうちの後続のフ
レームで抽出された音声素片を同一の符号化ビット数で
符号化したときの量子化誤差よりも小さいという条件の
下で前記記憶装置に格納しておき、および、前記差分波
形の符号化時の量子化誤差が、前記音声素片の符号化時
の量子化誤差と等しいかまたは大きいという条件のもと
では、前記差分波形の符号化データの代わりに前記音声
素片の符号化データを前記記憶装置に格納しておくこと
を特徴とする音声合成方式。
（６）請求項３または請求項５に記載の音声合成方式に
おいて、前記記憶装置に格納される前記符号化データは、前記差
分波形を符号化したデータかまたは前記音声素片波形そ
のものを符号化したデータかを識別するフラグを含むこ
とを特徴とする音声合成方式。
（７）請求項１に記載の音声合成方式において、隣接す
る２つのフレームの差分波形の符号化において、前記差
分波形の性質に応じて、前記差分波形の符号化ビット数
を１差分波形毎に適応的に定め、当該符号化ビット数に
よって符号化した差分波形符号化データと、前記符号化
ビット数を合わせて差分波形符号化データとすることを
特徴とする音声合成方式。
（８）請求項１に記載の音声合成方式において、フレー
ム毎に、当該フレームの音声素片波形と、当該フレーム
と隣接して先行するフレームとでの音声素片波形の差分
波形とを同一の符号化ビット数で符号化した場合、どち
らが符号化効率が高いかを判定し、符号化効率が高い方
の符号化データを当該フレームの音声素片波形の符号化
データとして前記記憶装置に格納することを特徴とする
音声合成方式。
（９）自然音声を一定のフレーム周期毎に分析してそれ
ぞれのフレームにおける音声のスペクトル包絡からそれ
ぞれ抽出した音声素片に関する音声素片データが格納さ
れた記憶装置と、該記憶装置から前記音声素片データを読み出して再生す
ることにより、外部機器へ出力するための音声を合成す
る合成手段とを含む音声合成装置において、音声素片データを、隣接する２つのフレームでそれぞれ
抽出された音声素片間での音声素片波形の差である差分
波形の符号化データとし、合成手段は、記憶装置から前記差分波形の符号化データ
を復号して音声素片の再生を行なうことを特徴とする音
声合成装置。
（１０）請求項９に記載の音声合成装置において、前記
符号化データを、前記差分波形の振幅のダイナミックレ
ンジに応じた符号化ビット数で前記差分波形をそれぞれ
符号化した値および前記符号化ビット数としたことを特
徴とする音声合成装置。
（１１）請求項９に記載の音声合成装置において、前記
符号化データを、前記差分波形を予め定めた量子化誤差
を満足する符号化ビット数で、前記差分波形をそれぞれ
符号化した値および前記符号化ビット数としたことを特
徴とする音声合成装置。
（１２）自然音声を一定のフレーム周期毎に分析してそ
れぞれのフレームにおける音声のスペクトル包絡からそ
れぞれ抽出した音声素片に関する音声素片データが格納
された記憶装置と、該記憶装置から前記音声素片データを読み出して再生す
ることにより、外部機器へ出力するための音声を合成す
る合成手段とを含む音声合成装置において、記憶装置に格納された音声素片波形データは、当該デー
タが前記差分波形を符号化したデータか、或いは音声素
片波形そのものを符号化したデータであるかを識別する
フラグを含み、合成手段は、前記記憶装置から前記フラグと符号化デー
タとを読み出し、前記フラグに応じて音声素片の再生を
、差分波形に基づく再生と、素片波形に基づく再生とを
切り換えて行なうことを特徴とする音声合成装置。