JPH03233500A - 音声合成方式およびこれに用いる装置 - Google Patents

音声合成方式およびこれに用いる装置

Info

Publication number
JPH03233500A
JPH03233500A JP2240243A JP24024390A JPH03233500A JP H03233500 A JPH03233500 A JP H03233500A JP 2240243 A JP2240243 A JP 2240243A JP 24024390 A JP24024390 A JP 24024390A JP H03233500 A JPH03233500 A JP H03233500A
Authority
JP
Japan
Prior art keywords
speech
waveform
encoding
data
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2240243A
Other languages
English (en)
Other versions
JP2931059B2 (ja
Inventor
Takashi Yato
隆 矢頭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Publication of JPH03233500A publication Critical patent/JPH03233500A/ja
Application granted granted Critical
Publication of JP2931059B2 publication Critical patent/JP2931059B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は、波形領域の音声データを記憶領域に蓄積し
ておき、これらの音声データを記憶領域から読み出して
音声の編集合成する音声合成方式およびその装置に関す
る。
(従来の技術) 規則によって任意の音声を出力する規則合成の研究が盛
んである。規則合成に用いられる音声合成方式としては
PARCOR(偏自己相関係数: Patial au
to−correlation coefficien
t )、LSP (線スペクトル対: 1ine sp
ectrum pair)といったLPG(線形予測符
号化: 1inear predictive cod
inq)系の分析合成方式が現在、最も多く用いられて
いるが、合成音の明瞭性という点てやや問題がある。こ
れに対し、明瞭性を改善する試みに音声のスペクトル包
絡がら抽出した音声素片波形を用いる方式が提案されて
いる(例えば、文献I:特開昭60−22194号およ
び文献■:日本音響学会講演論文集(1−2−16)、
昭和58年10月、P、73)。
これら文献に開示されている音声素片波形を得る方法を
第2図(A)および(B)!参照して簡単に説明する。
第2図(A)は音声素片、特に有声音の音声素片を抽出
するフローを示し、第2図(B)は、第2図(A)のフ
ローにより処理された波形を示し、そのフローの対応す
るステップの横にそれぞれ示しである。同図において、
ます話者が発声した発声音をマイクロホン等で原音声と
しでとらえる(ステ・yブ:510)、この原音声を一
定分析区間長切り出す(S20)。次にスペクトル包絡
を抽出する(S30)。次にスペクトル包絡を、位相成
分をすべて零として逆FFT(F F T : Fas
t Fourier 丁ransform (高速フー
リエ変換))を施し、対称波形を算出する(S40)。
次に対称波形の時間原点に生じる鋭いピークを補正する
ため、簡易な非線形変換を行なう(550)。次に上記
の処理による対称波形に時間原点を中心とした時間窓を
掛け、端点付近を切り、素片長を一定にする(S60)
。次に抽出されるすべての素片のパワーが同一になるよ
うに素片パワーの正規化を行なう(S70)。
規則合成の場合、このようにして得られた個々の音声素
片波形を音声の基本単位として多数用意して合成に用い
る手法も考えられているが、高品質な合成音を得るため
には、ある程度連続した音声の中でのスペクトルの流れ
を忠寅に表現する必要があり、そのため一般にCV音節
、或いはvCV音韻連鎖などが音声の基本単位としで選
ばれる。その場合の音声素片波形の抽出は、Cv或いは
vCVなどの原音声に対し、一定時間(フレーム)周期
毎に、第2図(A)および(B)で示した分析処理を施
し、得られた一連の音声素片をひとまとまりとして音声
の基本単位として扱って符号化しく第2図(A)の38
0) 、音声合成装置用の記憶装置に蓄積させている。
(発明が解決しようとする課題) この音声素片自体の波形の符号化データを用いた従来の
音声合成技術は、合成の処理が簡単で明瞭゛iのある合
成音が得られる反面、音声データとして波形を直接扱っ
ているため蓄積すべき音声データの量が多いという問題
があった。
従って、この発明の目的は、記憶領域に蓄積すべき音声
データの容量を軽減し、少ない容量で明瞭な合成音を主
成する音声合成方式およびその装@を提供することにあ
る。
(課題を解決するための手段) この目的の達成を図るため、この発明の方式によれば、 自然音声を一定のフレーム周期毎に分析してそれぞれの
フレームにおける音声のスペクトル包絡からそれぞれ抽
出した音声素片に関する音声素片データを記憶装置に予
め格納しておき、該記憶装置に予め格納された前記音声
素片データを用いて音声素片を合成して音声を合成する
音声合成方式において、音声素片はすべで同一電力およ
び同−位相時′iを有してあり、隣接する2つのフレー
ムでそれぞれ抽出された音声素片間での音声素片波形の
差を差分波形としてそれぞれ求め、各差分波形を符号化
データに変えで、前記隣接する2つのフレームのうち後
続のフレームにおける音声素片データとして、記憶装置
に格納しておくことを特徴とする。
また、この発明の実施に当たり、好ましくは、隣接する
2つのフレームの差分波形の符号化データを、当該差分
波形の振幅のダイナミックレンジに応じた符号化ビット
数で、前記差分波形をそれぞれ符号化した値および前記
符号化ビット数とするのが良い。
また、この発明の実施に当たり、好ましくは、差分波形
の符号化データを、該差分波形のダイナミックレンジの
大きさが前記隣接する2つのフレームのうちの後続のフ
レームで抽出された音声素片のダイナミックレンジより
も小さいという条件の下で、前記記憶装置に格納してお
き、および、前記差分波形のダイナミックレンジの大き
ざか前記音声素片のダイナミックレンジと等しいがまた
は大きいという条件の下では、前記差分波形の符号化デ
ータの代わりに前記音声素片の音声素片波形の符号化デ
ータを前記記憶装置に格納しでおくのが良い。
また、この発明の実施に当たり、好ましくは、111h
iする2つのフレームの差分波形の符号化データは、当
該差分波形の符号化に際して予め定めた量子化誤差のし
きい値を満足する符号化ビット数で符号化されているよ
うにすることもできる。
また、この発明の実施に当たり、好ましくは、差分波形
の符号化データを、該差分波形を符号化したときの量子
化誤差が前記隣接するフレームのうちの後続のフレーム
で抽出された音声素片を同一の符号化ビット数で符号化
したときの量子化誤差よりも小さいという条件の下で前
記記憶装置に格納しであき、および、前記差分波形の符
号化時の量子化誤差が、前記音声素片の符号化時の量子
化誤差と等しいかまたは大きいという条件のもとでは、
前記差分波形の符号化データの代わりに前記音声素片の
符号化データを前記記憶装置に格納しておくこともでき
る。
この発明の実施に当たり、好ましくは、隣接する2つの
フレームの差分波形の符号化において、前記差分波形の
性質に応じて、前記差分波形の符号化ビット数v!1差
分波形毎に適応的に定め、当該ビット数によって符号化
した差分波形符号化データと、前記符号化ビット数を合
わせて差分波形符号化データとするのが良い。
また、この発明の好適実施例では、フレーム毎に、当該
フレームの音声素片波形と、当該フレームと、隣接して
先行するフレームとでの音声素片波形の差分波形とを同
一の符号化ヒツト数で符号化した場合、どちらが符号化
精度が良いかを判定し、符号化精度か良い方の符号化デ
ータを当該フレームの音声素片波形の符号化データとし
て記憶装置に格納しであくのか良い。
また、この発明の実施に当り、好ましくは、記憶装置に
格納される符号化データには、差分波形を符号化したデ
ータかまたは音声素片波形そのものを符号化したデータ
かを識別するフラグを含ませておくのかよい。
さらに、この発明の装置によれば、自然音声を一定のフ
レーム周期毎に分析してそれぞれのフレームにおける音
声のスペクトル包絡からそれぞれ抽出した音声素片に関
する音声素片データが格納された記憶装置と、該記憶装
置から前記音声素片データを読み出して再生することに
より、外部機器へ出力するための音声を合成する合成手
段とを含む音声合成装置において、音声素片データを、
隣接する2つのフレームでそれぞれ抽出された音声素片
間での音声素片波形の差である差分波形の符号化データ
とし、合成手段は、記憶装置から前記差分波形の符号化
データを復号して音声素片の再生を行なうことを特徴と
する。
この発明の実施に当り、好ましくは、前記符号化データ
を、前記差分波形の振幅のダイナミックレンジに応じた
符号化ビット数で前記差分波形をそれぞれ符号化した値
および前記符号化ビット数とするのかよい。
また、この発明の実施に当たり、 符号化データを、前記差分波形を予め定めた量子化誤差
を満足する符号化ビット数で、前記差分波形をそれぞれ
符号化した値および前記符号化ヒツト数とするのが良い
また、この発明の装置によれば、好ましくは、記憶装置
に格納された音声素片波形データは、当該データか差分
波形を符号化したデータか、或いは音声素片波形そのも
のを符号化したデータであるかを識別するフラグを含み
、合成手段は、記憶製雪からフラグと符号化データとを
読み出し、フラグに応じて音声素片の再生を、差分波形
に基づく再生と、素片波形に基づく再生とを切り換えて
行なうのがよい。
(作用) この発明の方式および装置では、原音声のスペクトル包
絡線からフレーム毎に抽出された音声素片そのものの符
号化データを音声素片データとして記憶装置に蓄えるの
ではなく、先行して抽出された隣接フレームの音声素片
波形と、現フレームの音声素片波形との差の符号化デー
タを音声素片データとして記憶製画に蓄積する。そして
、音声の合成に当り、記憶製雪がら音声素片データを読
み出して復号し、よって音声のスペクトル包絡がら抽出
した音声素片波形を連結して音声を合成する。
これらの音声素片波形に着目すると、音声のスペクトル
の時間的変化をある程度正確に表現するために分析のフ
レーム周期は通常5〜20m5程度に選ばれるか、この
ような短時間間隔においでは隣接フレーム間での音声の
スペクトルの変化は小ざい。前述した素片抽出過程に示
されるとおり(第2図(A)および(B))、各歯筋の
音声素片は、同一電力、同一位相特性を有するので、隣
接フレームにおけるそれぞれの素片波形の差の波形は、
そのままIII接フレーム間のスペクトルの差を表現し
た波形となる。
方、連続音声の隣接フレーム間での音声素片波形は非常
に類似しでいるため、その差をとった差分波形のダイナ
ミックレンジは、もとの音声素片波形のダイナミックレ
ンジに比べではるかに小ざい。従って、抽出される素片
波形をそのまま符号化する場合の符号化ビット数に比べ
、差分波形を符号化するときの符号化ビット数は明らか
に少なくできる。そのため、素片波形をそのまま符号化
、蓄積する場合に比べ、差分波形を音声素片データとし
て符号化、蓄積することにより、蓄積すべき音声素片デ
ータの容量を大幅に削減できる。
但し、差分波形は、パワーの正規化が施されでいる音声
素片波形と異なり、ダイナミックレンジ等の特性にバラ
ツキが大きい。すなわち、隣接フレーム間での音声素片
波形の類似性が音声の種類、或いは定常部、過渡部のい
かんによってかなつの幅かあるため、常に同一の符号化
ビット数で符号化することは効率的ではない。従って、
差分波形の符号化に当たっては、例えばそのダイナミッ
クレンジ等のある評価基準に基づいて符号化のビット数
を可変しでやれば、なあ−層効率的な符号化か行なえ、
データ量を低減することができる。
上述したように大部分の音声区間では隣接フレーム間で
の素片波形は非常に類似しており、従って、その差をと
った差分波形を音声波形に代えて符号化、蓄積すること
により、大幅な情報圧縮が可能となるが、無声音区間、
或いは音韻の切り変わり時等で、隣接フレーム間での音
声素片波形か急変し、場合によっては差分波形を符号化
することか音声素片波形そのものを符号化する場合より
もかえって符号化精度か低下してしまう恐れもある。
このような場合には、音声素片そのものを用いて符号化
し、蓄積しておいた方がよい、従って、全体の情報圧縮
効果を考えると、agtmフレーム問の音声素片波形自
体の符号化と、音声素片の波形の差すなわち差分波形の
符号化の両者を混在させて記憶装置に蓄積させておくの
かよい。そのために、好ましくは、符号化データが差分
波形を表わしたものであるか、または、素片波形そのも
のを表わしたものであるかを識別するためのフラグを符
号化データに含ませておくのがよい。このようにすれば
、音声素片データとともにこのフラグを記憶装置に格納
できるので、音声素片の情報圧縮と符号化誤差の低減と
を実現できる。また、そのフラグをもとにして音声合成
を行なうことができるので、合成音の品質向上を図れる
(実施例) 以下、図面%?照して、この発明の実施例につき説明す
る。
第1図(A)は、この発明の音声合成方式および装置の
説明に供する、音声合成装置のブロック図、第1図(B
)は、この発明による音声素片波形再生の基本的過程を
示すフローおよび第3図は、この発明の説明に供する音
声素片波形符号化の基本的過程を示すフローであり、ま
た、第4図(A)および(8)は、音声素片波形および
差分波形の例を示す図である。また、第9図は、原音声
を取り込んでから記憶装置へ音声素片データを格納する
様子を説明するための、ブロック図である。
まず、第1図(A)に示す、この発明の音声合成装置は
、原音声の音声素片データを蓄積している記憶装置10
0と、この記憶装置100から音声素片データを読み出
して編集合成し外部機器へ出力するための音声を合成す
る合成手段102とを主として備えている。これら記憶
装置1100および合成手段を正しく機能させるために
必要な制御信号等は、制御部104から適宜供給できる
ようになっており、この制御部104は、この種の装置
では常套手段であるため、その説明を省略する。
ます、音声素片波形符号化の基本的過程を第3図および
第9図を参照して説明する。
第9図に示すブロック図にあいで、話者か発声する原音
声を原音声入力装=10で取り込み、適当なデジタル信
号に変換した後、音声素片作成表M20で音声素片波形
を得、ここで、所要の符号化データを得て記憶装置10
0へ格納する。原音声人力製画10は、例えばマイクロ
ホン等の音響−電気信号変換製雪、フィルタおよびA/
Dコンバータを以って任意適当に構成し得るものである
。また、音声素片作成表!20も中央処理装置(CPU
)等を用いて任意適当に構成し得る。そして、これら原
音声入力装M10、音声素片作成装置20および記憶装
置100を、常套手段である制御部30からの制御信号
等を用いで制御しながら動作させることができる構成と
なっている。
第3図に示す音声素片波形符号化の基本的過程は、この
音声素片作成装置20において行なわれる。ステップ(
以下、ステップをSで表わす)110は音声素片抽出の
処理であって、この5110の処理では、既に説明した
第2図に示される素片抽出処理に従ってフレームiにあ
ける音声素片波形a*’(j=1.2.・・・N)を抽
出する。ここでは添字iはフレーム番号を示し、添字j
は素片のサンプル番号で、素片長をNとしている。第4
図(A)にフレーム1〜]2(i=1.・・・、12)
の音声素片波形の例を示しである。次に、5120では
現在のフレーム(以下、単に、現フレームと称する)1
における素片波形aJlと隣接して先行するフレーム(
以下、単に、前フレームと称する)(i−1)における
素片波形A 、 I −1との差分波形す、ムを算出す
る。
但し、ここでの素片波形A、I−1は、前フレーム(i
−1)において符号化、復号化された後の再生波形を用
いる。但し、第1番目のフレームにおいては、Ajl−
+はすべて零(0)とする。
上述したフレーム1〜12の音声素片波形に対応する差
分波形の例を第4図(8)に示す。
第4図(A)および(B)に示した、実際の音声より抽
出した音声素片波形とPa接接フレーム間の素片波形の
差分波形の例からも理解できるように、素片波形と差分
波形の振幅のダイナミックレンジの差は歴然としており
、抽出された素片波形そのものを符号化する方法に比べ
差分波形を素片波形に代えて符号化、蓄積する方が蓄積
容量が削減できることは明らかである。
次に3130では前の8120の処理にて算出された差
分波形を符号化し、この符号化データをフレームlにあ
ける音声素片データとして記憶装置100に格納する。
記憶装!100への符号化データの蓄積か終ったら、次
の3140の処理にあいで、5T30で符号化された差
分波形を復号し、復号後差分波形B、’V得る。次に8
150の処理では、復号化差分波形BJ′と前フレーム
(i−1)の再生波形A、I−1とを加算し、現フレー
ム1の再生波形AJ’%算出する。そして、5160の
処理では、フレームを更新し、以後、前述したS1]0
〜5160のステップでの処理を音声の分析区間が終了
するまで繰り返し行ない、すべてのフレームに対する、
差分波形の符号化データを、音声素片データとして、記
憶装置100へ蓄積完了する。
上述した第3図の例では、5130における差分波形符
号化処理の符号化の手法はPCM、1ogPCMなとの
少なくとも1音声素片内では量子化ステップ幅が、ある
基準において固定的に定められた方式に適するもので、
ここでは特にPCM符号化により符号化する例につき以
下に説明する。
第5図は、差分波形の符号化tPcMPc化とした場合
の動作フローを示し、第3図に示したフローと共通のス
テップ(こは同一符号を付しで示し、その詳細な説明を
省略する。この第5図に示すフローにおいて、5132
および5134が、第3図の3130に対応する処理で
ある。この5132においては、5120にで算出され
た差分波形のダイナミックレンジを評価し、ダイナミッ
クレンジの大きざに応じて、この差分波形の符号化のビ
ット数nを最適に定める。この符号化ビット数nの決定
の手法については後述する。次に、5134の処理では
、5132で定められた符号化ビット数nに基づいて、
差分波形bJIを符号化し、その符号化値を符号化ビッ
ト数nとともにフレーム1における音声素片データ(符
号化データ)として記憶装置]00に格納する。記憶装
置100への符号化値と符号化ビット数nの両符号化デ
ータの蓄積が終ったら、次に5140の処理において、
5134で符号化された差分波形を復号し、復号差分波
形B、lを得る。その後の処理は、第3図のフローで説
明した場合と同様に行なわれる。
ここで、第5図のフロー中の8132での符号化ビット
数決定の処理について説明する。第6図(A)および(
B)は、符号化ビット数決定の説明図であり、第6図(
A)は音声素片波形の一例を示し、第6図(B)は差分
波形を絶対値化した波形の例を示す。いま、音声素片波
形をそのまま符号化したときに必要な量子化精度が得ら
れる符号化ビット数を8ビツトとしく第6図(B)の左
側に示す)、そのときのダイナミックレンジをD (M
S図(B)の右側に示す)とすれば、ここに示す例の差
分波形のダイナミックレンジはD/32の節回に納まっ
てあり、同様の量子化精度を得るのに3ビツトの符号化
ビット数があればよいことかわかる。このように、51
32での符号化ビット数決定の処理では、差分波形のダ
イナミックレンジを評価し符号化のビット数を決定する
第7図(A)、(8)および(C)は、実際の音声より
フレーム毎に抽出した音声素片波形、隣接フレーム間で
の差分波形および第5図および第6図(A)および(B
)を参照して説明した手法により定められた量子化ステ
ップ数の例をそれぞれ示す。但し、表示を見易くするた
めに音声素片波形は差分波形に対して縮尺を縮めで表示
しである。また、決定された符号化ビット数は音声素片
波形をそのまま符号化する場合の符号化ビット数を8と
して算出してある。第7図(B)に示すように差分波形
のダイナミックレンジは、もとの音声素片波形に比べは
るかに小さく、また、第7図(八)〜(C)に示す例で
は、ヒツト数で示されるとおり、1/16〜1/64と
大きく変化しでいることかわかる。
ところで、既に説明したよう1こ、無声音或いは音韻の
切り換わり時などでは、期待どおり圧縮されない場合が
ある。そのため、記憶袋M100に符号化データを格納
するに際しては、差分波形を符号化するほうが有利であ
るが、或いは、素片波形そのものを符号化して蓄積した
ほうが有利であるかを判定して、符号化データにはこの
判定結果を識別するためのフラグを含ませでおくのがよ
い。
以下、この点について説明する。
大部分の音声区間においては、既に第7図に例示したよ
うに、素片波形と差分波形の振幅のダイナミックレンジ
の差は歴然としてあり、このような区間においては、差
分波形を符号化した方が効率がよいことは明らかである
これに対し、第8図(A)および(B)にフレーム毎の
音声素片波形および差分波形をそれぞれ例示して示すよ
うに、特に、音韻の変化部分(フレーム5)においては
差分波形の方が素片波形よりも大きな場合もある。従っ
て、このような場合(こ対処するためには、音声素片波
形の形状1こ応じて、音声素片を差分として記憶するが
、差分をとらすに記憶するか切り換えるようにしておく
のか好ましい。
そこで、これを説明するために、量子化精度を損なわす
に符号化データを得るための符号化シーケンスの実施例
を第10図に示す。この符号化シーケンスも、既に説明
した音声素片作成装置20で行なう。
第10図は、素片波形の符号化に際して差分波形を符号
化するか、或いは素片波形そのものを符号化するのか判
定処理を第3図符号化の基本的過程に組み入れた、符号
化の基本的過程を示す動作フローである。第10図にお
いて、第3図と共通のステップ(こは同一符号を付しで
示し、その詳細な説明は省略する。5112においては
、$110で抽出された音声素片に対し、そのダイナミ
ックレンジの評価を行なう。既に第2図(A)の360
で説明したように、抽出された音声素片は、パワーの正
規化が施されているため、そのダイナミックレンジは、
各素片ともおおよそ近い値になる。しかし、音声素片波
形には、スペクトル形状によって素片中心が鋭くとがる
ものとそうでないものとがあるため、音声素片波形のダ
イナミックレンジの評価も精密を期して行なうのかより
好ましい。
このような評価を行なうに当り、音声素片波形か対称波
形である性質上、位相原点すなわち波形の中心が最も振
幅が大きくなることが明らかであるので、中心1点のみ
見て評価すればよい、このときの音声素片波形のダイナ
ミックレンジの評価値をDsとする0次に、5120で
、差分波形を算出し、然る後、5122において差分波
形のダイナミックレンジを評価する。この場合には必ず
しも差分波形の中心が最大振幅をとるとは限らないため
、差分波形全体を調べる。このときの差分波形のダイナ
ミックレンジの評価値をDOとする。5124では、5
112.5122で求められた素片波形のダイナミ・ン
クレンジの評価値Dsと差分波形のダイナミックレンジ
の評価値D0とを比較し、その結果(こ基づき符号化方
法を振り分ける。
以下、この点につき説明する。
今、Ds>Doすなわち素片のダイナミックレンジの評
価値が差分のダイナミックレンジの評価値より大きいと
きは、第3図のシーケンス同様5130にで差分波形を
符号化して記憶製雪100に格納する。但し、この際、
符号化データとともに差分波形を符号化した旨を指し示
す識別フラグを符号化データに付加する。5140以降
の処理は、第3図と同様である。
一方、D9≦00すなわち差分のダイナミックレンジの
評価値がもとの素片のダイナミックレンジの評価値に等
しいかもしくは逆に大きくなってしまうときは、513
2にて素片波形そのものを符号化し、その符号化データ
を、素片波形そのものを符号化した旨を指し示す識別フ
ラグとともに記憶袋M100に格納する。この場合の素
片再生処理は、5142にて素片波形の復号によりM接
再生素片A、が得られるため5150の波形加算処理は
不要となる。
以上、素片の符号化データに差分波形を符号化したもの
であるが、或いは素片そのものを符号化したものである
かを識別するフラグを設ける方法について、第3図のフ
ローに機能付加するがたちで説明したが、第5図の符号
化tPcM手法で行なう例に付加することもほぼ同様に
なし得る。
第11図(A)〜(C)に、記憶装!100に格納され
る音声素片データの形式を示す。
第11図(A)は、第3図の音声素片波形符号化の基本
的過程により作成されるデータの形式、同図(8)は、
第5図の符号化をPCM手法で行なう過程で作成される
データの形式、また同図(C)は、第10図の処理過程
にて生成されるデータの形式を示したものである。
第11図(A)においでは、フレーム毎に生成される音
声素片の符号化データ(ここでは差分波形)が順次格納
されている。
第11図(B)においては、i番目のフレームの素片を
表わすデータは当該フレームの符号化ビット数部と、差
分波形の符号化データ部の対がらなっており、当然のこ
とながら符号化ビット数によって符号化データ部の容量
は異なる。
第11図(C)では、1番目のフレームの素片を表わす
データはフラグ部とデータ部とがらなつ、フラグ部には
当該フレームのデータ部が差分波形を符号化したもので
あるが、素片波形そのものを符号化したものであるかを
識別するフラグが格納されている。
方、波形の符号化方式としてはPCM、1109PCな
とのように固定した量子化値を有するものではなく、さ
らに、効率的な符号化を行なうため、量子化ステップ幅
を適応的に変化させる方式(適応PCM)或いは、波形
そのものを符号化するのではなく、隣接サンプル間の差
(厳肥には、前サンプルの符号化、復号化後の値と後続
サンプル値との差)を符号化する差分PCM、ざらに差
分PCMにおいて、その量子化ステップ幅を適応的に変
える適応差分PCMなどの方式がある。このような方式
にあいでは、波形の符号化精度は、波形のダイナミック
レンジには必ずしも対応しない。従って、前記実施例に
おける差分波形成いは音声素片波形の符号化方式として
前記適応PCM、差分PCM、適応差分PCMなどの方
式を用いる場合には、前述したPCM符号化で採用した
符号化ビット数決定における評価基準および音声素片波
形をそのまま符号化するか或いは差分波形を音声素片波
形に代えて符号化するかの判定基準として波形のダイナ
ミックレンジを用いることは妥当ではない、そこで、そ
れぞれの基準を波形のダイナミックレンジに代えて、]
フレームの波形(音声素片波形成いは差分波形)の符号
化によって生じる誤差の程度を表わす量子化誤差、従っ
て、この場合にはフレーム内信号対雑音比を用いる例に
つき以下に説明する。
第12図は、差分波形の符号化ビット数を可変とする前
記第5図の処理過程における5132符号化ビット数の
決定を、波形のダイナミックレンジの代わりにフレーム
内信号対雑音比を用いて行なう場合の処理フローであっ
て、全体的な動作は第5図のフローとほぼ同一である。
第12図において、51320〜51326の処理か第
5図8132符号化ビット数決定のステップに相当する
。また、第12図において、第5図と同一番号を付され
たステップについでは第5図とまったく同一の処理であ
り説明は省略する。
符号化ビット数決定の過程では、まず、符号化ビット数
nの初期値として符号化可能なビット数の最小値nmx
n’A与える(S1320)。
次に、この符号化ビット数nにより、差分波形bJ+を
符号化し、符号化データLJIを得る(S1321)。
符号化データし、1は次のステップ51322において
復号化され差分波形の復号値BJIが求められる(S1
322)、次の81323では、現在与えられている符
号化ビット数nが予め定められた符号化ビット数の最大
値n□8に達しているかどうかの判定を行ない、もし、
すでにn fJ<n maxに達していれば、この時点
において符号化ビット数nと、差分波形の符号化データ
しJlか確定する。一方、nが最大値n□1X未満であ
れば次の81324において符号化精度を算出する。符
号化精度は先に述べたとおり、フレーム内信号対雑音比
として表わす。これVSNとすると、SNは次式で与え
られる。
Σ  (a 、l) 2 ここて算出したフレーム内信号対雑音比SNに対し、ス
テップ51325では、予め定めたフレーム内信号対雑
音比のしきい(asNthと比較し、SN≧SNいであ
れば、この時点での符号化ビット数nにおいて十分な符
号化の精度か得られたとして5141においてnおよび
符号化データL、lを音声データとして記憶装置100
に格納する。一方、SN<SNいであれば、符号化時の
精度か十分でないので符号化ビット数を1ビツト増加し
て(S1326)あらためて31321からの処理を繰
り返す。このようにして所望の符号化精度か得られるま
でS]320〜51326の処理を繰り返す。但し、こ
の発明においては蓄積すべき音声データの容量を削減す
ることが目的であるため、前記51322の処理におい
て、符号化ビット数の最大値nmax%定め、符号化ビ
ット数nかn maxに達した場合には、符号化精度が
所望の値5Nthに達しようが、或いは達しまいか、こ
れ以上のデータの増加はしないようにしている。但し、
n、、、、Xは、音声素片波形をそのまま符号化するの
に必要なビット数としでおけば、51323において符
号化ビット数のこれ以上の増加を打ち切ったことにより
、従来の方法に比べ量子化誤差が増大するというような
ことはない。
第13図は、音声素片波形をそのまま符号化するか、差
分波形を音声素片波形に代えて符号化するかを判定して
符号化を行なう第10図の処理を、前記判定基準を第1
0図におけるダイナミックレンジからフレーム内信号対
雑音比に変えたときの動作フローを示しでいる。ここで
は、S1]20〜1122が第10図の5120に、5
1220−81222か第10図の8122にそれぞれ
相当する。また、51240においては、第1o図の8
124にあける音声素片波形のダイナミックレンジD、
が、音声素片波形を符号化、復号化した際のフレーム内
信号対雑音比S N sに、差分波形のダイナミックレ
ンジD0が、差分波形を符号化、復号化した際の音声素
片波形に対するフレーム内信号対雑音比S N oに、
それぞれ置き換わる。また、51300.51320は
、それぞれ第10図の5130.5132に相当する部
分であるが、51121.51221においてすでに復
号化処理が行なわれでいるため、ここでは、第10図の
5130、S]32の処理のうち、データを記憶装置1
00に格納するだけの処理となる。
次に、第1図(B)に従って、この発明の音声合成装盲
における音声素片波形再生の基本的過程を説明する。上
述したように、記憶装置1100には音声素片データと
して、差分波形の符号化データのみ或いは、場合によっ
ては 音声素片波形自体の符号化データと差分波形の符
号化データとが格納されている。そこで、まず、合成手
段102ては、5200では記憶装置から符号化された
差分波形データを読み出し、続いて、5210の処理で
符号化データの識別フラグで差分波形の符号化データか
素片波形そのものの符号化データかを判定する。差分波
形と判定された場合には、この符号化データを8220
の処理で復号し復号化差分波形BjIを算出する。尚、
当然ながら、この復号化は符号化にマツチした手法で行
なう。そして、次の8230では、5220で得られた
復号後追分波形B、iを前フレーム(i−1)における
音声素片再生波形A、i−1とを加算し、当該フレーム
1における音声素片波形へ、五を得る。一方、5210
の判定処理で素片波形そのものの符号化データであると
判定された場合には、図示していないが、従来と同様に
音声素片自体の再生を行なう、以後、5240の処理で
フレームを更新しながら必要なフレームに対し上記の処
理を繰り返し音声素片の再生を行なっていく。このよう
にして、再生されて合成された音声は、スピーカ、コン
ピュータ、表示デバイス或いはその他の外部機器へ出力
するための処理が行なわれる。尚、第3図および第1図
(B)の説明では触れなかったが、第2図の処理によっ
て抽出される音声素片波形は対称形であるから、第3図
および第1図(B)の処理においても実際の処理過程で
は音声素片長の1/2を扱えばよいことはいうまでもな
いことである。
(発明の効果) 上述した説明からも明らかなように、この発明では音声
のスペクトル包絡から抽出される素片波形をそのまま符
号化、蓄積して音声素片データとしで用いるのでなく、
隣接フレームで抽出される素片波形の差分波形を符号化
したデータを音声データとして蓄積しているため音声デ
ータの記憶容Mを大幅に削減できる。言いかえれば、同
一の記憶容量においでは、はるかに高精度な符号化が可
能となり、合成音声の品質が向上する。
また、差分波形を音声データとしで蓄積するに当り、差
分波形のダイナミックレンジ、或いは差分波形を符号化
時の量子化誤差などの判定基準をもとに符号化のビット
数を適切に定めているため、過不足のない最適な情報量
で符号化が可能となり、少ない記憶容量で高品質な合成
音を得ることができる。
ざらに、フレーム間の音声素片波形を符号化した手法を
表わすフラグを符号化データにもたせることにより、音
声素片波形を少ない符号化誤差で表わすことができ、合
成音の一層の品質向上を図ることかできる。
【図面の簡単な説明】
第1図(A)は、この発明の音声合成方式および音声合
成装置の説明に供する、音声合成装置の要部のブロック
図、 第1図(B)は、この発明の説明に供する音声素片波形
再生の基本的過程を示す動作フロー図、第2図(A)お
よび(B)は、従来およびこの発明の説明に供する音声
素片抽出過程を示す動作フロー図、 第3図は、この発明の説明に供する音声素片波形符号化
の基本的過程を示す動作フロー図、第4図(A)および
(B)は、実際の音声の音声素片波形と差分波形の例を
示す、プロッタで描いた波形図、 第5図は、音声素片波形の符号化!PCM手法で行なう
基本的過程を示す動作フロー図、第6図(A)および(
B)は、符号化ビット数決定のための説明図、 第7図(A)、(B)および(C)は、実際の音声の音
声素片波形、差分波形および符号化ヒツト数の間係を示
す、各波形をプロッタで描いた図、 第8図(A)および(B)は、音韻変化部分の音声素片
波形および差分波形を示す、プロッタで描いた波形図、 第9図は、原音声を取り込んでから記憶装置へ音声素片
データを格納する様子を説明するためのブロック図、 第10図は、素片波形の符号化に際して差分波形を符号
化するか、或いは素片波形そのものを符号化するのか判
定処理を含む、符号化の基本的過程を示す動作フロー図
、 第11図(A)、(8)および(C)は、符号化データ
の説明図、 第12図は、符号化ビット数の決定をフレーム内の信号
対雑音比を用いて行なう処理を示す動作フロー図、 第13図は、素片波形をそのまま符号化するか、或いは
、差分波形を符号化するかの判定基準をフレーム内信号
対雑音比として用いた場合の符号化の動作フロー図であ
る。 100・・・記憶装置、   102・・・合成手段1
04・・・制御部、    106・・・データ部10
8・・・フラグ部。 音声素片波形再生の基本的過程を示す動作フロ第1 図(B) 動作フロー 第12図 へ へ 心 手続ネ甫正書(方式) 平成3年2月13日

Claims (12)

    【特許請求の範囲】
  1. (1)自然音声を一定のフレーム周期毎に分析してそれ
    ぞれのフレームにおける音声のスペクトル包絡からそれ
    ぞれ抽出した音声素片に関する音声素片データを記憶装
    置に予め格納しておき、該記憶装置に予め格納された前
    記音声素片データを用いて音声素片を合成して音声を合
    成する音声合成方式において、 音声素片はすべて同一電力および同一位相特性を有して
    おり、 隣接する2つのフレームでそれぞれ抽出された音声素片
    間での音声素片波形の差を差分波形としてそれぞれ求め
    、 各差分波形を符号化データに変えて、前記隣接する2つ
    のフレームのうち後続のフレームにおける音声素片デー
    タとして、記憶装置に格納しておく ことを特徴とする音声合成方式。
  2. (2)請求項1に記載の音声合成方式において、隣接す
    る2つのフレームの差分波形の符号化データを、当該差
    分波形の振幅のダイナミックレンジに応じた符号化ビッ
    ト数で、前記差分波形をそれぞれ符号化した値および前
    記符号化ビット数としたことを特徴とする音声合成方式
  3. (3)請求項1に記載の音声合成方式において、前記差
    分波形の符号化データを、該差分波形のダイナミックレ
    ンジの大きさが前記隣接する2つのフレームのうちの後
    続のフレームで抽出された音声素片のダイナミックレン
    ジよりも小さいという条件の下で、前記記憶装置に格納
    しておき、および、前記差分波形のダイナミックレンジ
    の大きさが前記音声素片のダイナミックレンジと等しい
    かまたは大きいという条件の下では、前記差分波形の符
    号化データの代わりに前記音声素片の音声素片波形の符
    号化データを前記記憶装置に格納しておくことを特徴と
    する音声合成方式。
  4. (4)請求項1に記載の音声合成方式において、隣接す
    る2つのフレームの差分波形の符号化データは、当該差
    分波形の符号化に際して予め定めた量子化誤差のしきい
    値を満足する符号化ビット数で符号化されていることを
    特徴とする音声合成方式。
  5. (5)請求項1に記載の音声合成方式において、前記差
    分波形の符号化データを、該差分波形を符号化したとき
    の量子化誤差が前記隣接するフレームのうちの後続のフ
    レームで抽出された音声素片を同一の符号化ビット数で
    符号化したときの量子化誤差よりも小さいという条件の
    下で前記記憶装置に格納しておき、および、前記差分波
    形の符号化時の量子化誤差が、前記音声素片の符号化時
    の量子化誤差と等しいかまたは大きいという条件のもと
    では、前記差分波形の符号化データの代わりに前記音声
    素片の符号化データを前記記憶装置に格納しておくこと
    を特徴とする音声合成方式。
  6. (6)請求項3または請求項5に記載の音声合成方式に
    おいて、 前記記憶装置に格納される前記符号化データは、前記差
    分波形を符号化したデータかまたは前記音声素片波形そ
    のものを符号化したデータかを識別するフラグを含むこ
    とを特徴とする音声合成方式。
  7. (7)請求項1に記載の音声合成方式において、隣接す
    る2つのフレームの差分波形の符号化において、前記差
    分波形の性質に応じて、前記差分波形の符号化ビット数
    を1差分波形毎に適応的に定め、当該符号化ビット数に
    よって符号化した差分波形符号化データと、前記符号化
    ビット数を合わせて差分波形符号化データとすることを
    特徴とする音声合成方式。
  8. (8)請求項1に記載の音声合成方式において、フレー
    ム毎に、当該フレームの音声素片波形と、当該フレーム
    と隣接して先行するフレームとでの音声素片波形の差分
    波形とを同一の符号化ビット数で符号化した場合、どち
    らが符号化効率が高いかを判定し、符号化効率が高い方
    の符号化データを当該フレームの音声素片波形の符号化
    データとして前記記憶装置に格納することを特徴とする
    音声合成方式。
  9. (9)自然音声を一定のフレーム周期毎に分析してそれ
    ぞれのフレームにおける音声のスペクトル包絡からそれ
    ぞれ抽出した音声素片に関する音声素片データが格納さ
    れた記憶装置と、 該記憶装置から前記音声素片データを読み出して再生す
    ることにより、外部機器へ出力するための音声を合成す
    る合成手段と を含む音声合成装置において、 音声素片データを、隣接する2つのフレームでそれぞれ
    抽出された音声素片間での音声素片波形の差である差分
    波形の符号化データとし、 合成手段は、記憶装置から前記差分波形の符号化データ
    を復号して音声素片の再生を行なうことを特徴とする音
    声合成装置。
  10. (10)請求項9に記載の音声合成装置において、前記
    符号化データを、前記差分波形の振幅のダイナミックレ
    ンジに応じた符号化ビット数で前記差分波形をそれぞれ
    符号化した値および前記符号化ビット数としたことを特
    徴とする音声合成装置。
  11. (11)請求項9に記載の音声合成装置において、前記
    符号化データを、前記差分波形を予め定めた量子化誤差
    を満足する符号化ビット数で、前記差分波形をそれぞれ
    符号化した値および前記符号化ビット数としたことを特
    徴とする音声合成装置。
  12. (12)自然音声を一定のフレーム周期毎に分析してそ
    れぞれのフレームにおける音声のスペクトル包絡からそ
    れぞれ抽出した音声素片に関する音声素片データが格納
    された記憶装置と、 該記憶装置から前記音声素片データを読み出して再生す
    ることにより、外部機器へ出力するための音声を合成す
    る合成手段とを含む音声合成装置において、 記憶装置に格納された音声素片波形データは、当該デー
    タが前記差分波形を符号化したデータか、或いは音声素
    片波形そのものを符号化したデータであるかを識別する
    フラグを含み、 合成手段は、前記記憶装置から前記フラグと符号化デー
    タとを読み出し、前記フラグに応じて音声素片の再生を
    、差分波形に基づく再生と、素片波形に基づく再生とを
    切り換えて行なうことを特徴とする音声合成装置。
JP2240243A 1989-12-22 1990-09-11 音声合成方式およびこれに用いる装置 Expired - Fee Related JP2931059B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP33400189 1989-12-22
JP1-334001 1989-12-22

Publications (2)

Publication Number Publication Date
JPH03233500A true JPH03233500A (ja) 1991-10-17
JP2931059B2 JP2931059B2 (ja) 1999-08-09

Family

ID=18272387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2240243A Expired - Fee Related JP2931059B2 (ja) 1989-12-22 1990-09-11 音声合成方式およびこれに用いる装置

Country Status (1)

Country Link
JP (1) JP2931059B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05290013A (ja) * 1992-04-06 1993-11-05 Sharp Corp ニューラルネットワーク演算装置
JPH0756590A (ja) * 1993-08-19 1995-03-03 Sony Corp 音声合成装置、音声合成方法及び記録媒体
JPH08160991A (ja) * 1994-12-06 1996-06-21 Matsushita Electric Ind Co Ltd 音声素片作成方法および音声合成方法、装置
JP2002091475A (ja) * 2000-09-18 2002-03-27 Matsushita Electric Ind Co Ltd 音声合成方法
WO2004072952A1 (ja) * 2003-02-17 2004-08-26 Kabushiki Kaisha Kenwood 音声合成処理システム
WO2004088634A1 (ja) * 2003-03-28 2004-10-14 Kabushiki Kaisha Kenwood 音声信号圧縮装置、音声信号圧縮方法及びプログラム
CN121486609A (zh) * 2026-01-08 2026-02-06 北京生数科技有限公司 视频处理方法、装置、设备、计算机可读存储介质及计算机程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4975056A (ja) * 1972-11-20 1974-07-19
JPS5695297A (en) * 1979-12-28 1981-08-01 Fujitsu Ltd Voice data processing system
JPS6046600A (ja) * 1983-08-24 1985-03-13 株式会社日立製作所 音声の規則合成装置
JPS60140299A (ja) * 1983-12-27 1985-07-25 日本電気株式会社 素片編集型音声分析装置
JPS6247700A (ja) * 1985-08-28 1987-03-02 株式会社日立製作所 法則合成装置の基本単位音声フアイル作成法
JPS637042A (ja) * 1986-06-27 1988-01-12 Fujitsu Ltd 符号化伝送装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4975056A (ja) * 1972-11-20 1974-07-19
JPS5695297A (en) * 1979-12-28 1981-08-01 Fujitsu Ltd Voice data processing system
JPS6046600A (ja) * 1983-08-24 1985-03-13 株式会社日立製作所 音声の規則合成装置
JPS60140299A (ja) * 1983-12-27 1985-07-25 日本電気株式会社 素片編集型音声分析装置
JPS6247700A (ja) * 1985-08-28 1987-03-02 株式会社日立製作所 法則合成装置の基本単位音声フアイル作成法
JPS637042A (ja) * 1986-06-27 1988-01-12 Fujitsu Ltd 符号化伝送装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05290013A (ja) * 1992-04-06 1993-11-05 Sharp Corp ニューラルネットワーク演算装置
JPH0756590A (ja) * 1993-08-19 1995-03-03 Sony Corp 音声合成装置、音声合成方法及び記録媒体
JPH08160991A (ja) * 1994-12-06 1996-06-21 Matsushita Electric Ind Co Ltd 音声素片作成方法および音声合成方法、装置
JP2002091475A (ja) * 2000-09-18 2002-03-27 Matsushita Electric Ind Co Ltd 音声合成方法
WO2004072952A1 (ja) * 2003-02-17 2004-08-26 Kabushiki Kaisha Kenwood 音声合成処理システム
WO2004088634A1 (ja) * 2003-03-28 2004-10-14 Kabushiki Kaisha Kenwood 音声信号圧縮装置、音声信号圧縮方法及びプログラム
CN100570709C (zh) 2003-03-28 2009-12-16 株式会社建伍 语音信号压缩设备、语音信号压缩方法和程序
US7653540B2 (en) 2003-03-28 2010-01-26 Kabushiki Kaisha Kenwood Speech signal compression device, speech signal compression method, and program
CN121486609A (zh) * 2026-01-08 2026-02-06 北京生数科技有限公司 视频处理方法、装置、设备、计算机可读存储介质及计算机程序产品

Also Published As

Publication number Publication date
JP2931059B2 (ja) 1999-08-09

Similar Documents

Publication Publication Date Title
KR100427753B1 (ko) 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치
KR101046147B1 (ko) 디지털 오디오 신호의 고품질 신장 및 압축을 제공하기위한 시스템 및 방법
JP3747492B2 (ja) 音声信号の再生方法及び再生装置
KR100615480B1 (ko) 음성 대역 확장 장치 및 음성 대역 확장 방법
CA2430111C (en) Speech parameter coding and decoding methods, coder and decoder, and programs, and speech coding and decoding methods, coder and decoder, and programs
US20070106513A1 (en) Method for facilitating text to speech synthesis using a differential vocoder
JPH0869299A (ja) 音声符号化方法、音声復号化方法及び音声符号化復号化方法
JP3765171B2 (ja) 音声符号化復号方式
US7747435B2 (en) Information retrieving method and apparatus
JP2003108197A (ja) オーディオ信号復号化装置およびオーディオ信号符号化装置
JPH03233500A (ja) 音声合成方式およびこれに用いる装置
EP0813183A2 (en) Speech reproducing system
JP3050978B2 (ja) 音声符号化方法
JP3268750B2 (ja) 音声合成方法及びシステム
JP2796408B2 (ja) 音声情報圧縮装置
JP3916934B2 (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置
JP3417362B2 (ja) 音声信号復号方法及び音声信号符号化復号方法
JPH05232996A (ja) 音声符号化装置
JPH10111700A (ja) 音声圧縮符号化方法および音声圧縮符号化装置
JP3010655B2 (ja) 圧縮符号化装置及び方法、並びに復号装置及び方法
JP2860991B2 (ja) 音声蓄積再生装置
JP4826580B2 (ja) 音声信号の再生方法及び装置
JP2010034794A (ja) オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化方法
JPH11296195A (ja) 音響信号の符号化方法、復号方法、そのプログラム記録媒体、およびこれに用いる符号帳
JPS58128000A (ja) 音声パラメ−タ符号化方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees