JPH0993135A

JPH0993135A - 発声音データの符号化装置及び復号化装置

Info

Publication number: JPH0993135A
Application number: JP7271931A
Authority: JP
Inventors: Masahiro Kawachi; 正洋河内
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 1995-09-26
Filing date: 1995-09-26
Publication date: 1997-04-04
Also published as: US5828993A

Abstract

(57)【要約】【課題】発声音データの高能率符号化を図り、伝送効
率の向上とストレージメディアの容量節減を実現する。【解決手段】符号化装置1は、入力される発声音デー
タをＦＦＴ器3で直交変換し、そのパワースペクトルを
サブバンド化器4で複数のサブバンドに分割し、予め各
音要素のパワースペクトルのデータパターンを学習した
音要素抽出ニューラル・ネットワーク5がサブバンドデー
タとの相関に基づいて各音要素に対応する各出力ニュー
ロンから各音要素の成分情報を出力させる。また、ピッ
チ・パワー抽出器6がＦＦＴ器3からパワースペクトルの
ピッチとパワーを抽出し、符号作成器7で各出力ニュー
ロンの出力とピッチとパワーを符号化して伝送する。一
方、復号化装置では、符号化データを解読して個別に各
音要素信号を生成させ、それを合成することで発声音信
号を再生させる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は発声音データの符号
化装置及び復号化装置に係り、ＴＶ会議やＡＶ(Audio-V
isual)データ通信等における音声データ伝送やファイル
作成に適用され、特に人間の発声音を高能率にデータ圧
縮して伝送することにより伝送効率の向上とストレージ
メディアの容量節減を図る符号化／復号化技術に関す
る。

【０００２】

【従来の技術】最近、オーディオ機器においては音声デ
ータをディジタル化して処理する技術の開発が目覚まし
く、特にマルチメディア機器には映像データと音声デー
タのディジタル処理とそのデータ伝送技術が不可欠な要
素になっている。従来から、音声データの伝送に関して
はディジタル通信回線を用いた電話通信があるが、通常
の通話ではその情報伝送に必要とされるデータ量が少な
いために現状のディジタル通信回線で十分であっても、
ボーカルを含む音楽や映画の音声のように高い音質を要
求される音声データを伝送しなければならないような場
合には回線の容量が足りず、蓄積交換方式等のようにリ
アルタイム性を犠牲にした伝送方式を採用せざるを得な
い。

【０００３】一般に、高い再生音質を確保するには、Ｃ
Ｄ(Compact Disc)やＤＡＴ(DigitalAudio Tape)に見ら
れるように、約１.４Ｍbpsの情報伝送速度が必要とされ
ている。その内訳は、４０ｋＨz以上のサンプリング周
波数、１６ビットの量子化ビット、及び２チャンネル分
のデータが必要になることである。また、同様の音質を
有した音声データを限られた容量のストレージメディア
に格納するために、ＭＤ(Mini Disc)やＤＣＣ(Digital
Compact Casette)に採用されているような特殊な高能率
符号化技術も開発されているが、それらの場合でもＣＤ
の場合の1/4〜1/5に相当する２００〜３００bpsの伝送
速度が必要となる。何れにしても、既存のデータ転送レ
ートを用いるか、又は少々高いレートが実現できるとし
ても、音声データをその高音質性を保持しながらマルチ
メディア機器やその通信システムで処理・伝送するため
には、更に高能率な符号化・復号化技術が必要とされ
る。

【０００４】そして、従来から音声データの高能率符号
化技術としては、主に次のような方式が採用されてい
る。直交変換を行った結果を符号化する方法；時系列的
音声信号に対してＦＦＴ(高速フーリエ変換)やＤＣＴ
(離散コサイン変換)のような直交変換を施した場合にそ
の逆変換によって元の信号を復元できることを利用し、
音声信号を周波数成分に変換した上で符号を割り当てて
符号化する方法であるが、そのままでは情報量を減少さ
せることができない。そこで、実際の音声信号において
は高域成分が低域成分と比較して少ないことや、人間の
聴覚特性等を考慮した符号量の割当てを行うことによっ
て、聴覚的な音質を保持しながら符号化データ量の減少
を実現している。予測符号化方法；過去のいくつかのサンプリング値
から現在のサンプリング値を予測推定し、真の値と予測
値との差(予測誤差)を符号化する方法である。ある程度
のひずみを許容すれば大幅なデータ圧縮が可能になる
が、主に音質が重要視されない分野、即ち、簡易な音声
メッセージ伝送や電話の留守番録音等にしか適用できな
い。人間の発声をモデル化する方法；人間の発声音に特
化した符号化方法であり、モデル化した声帯、咽喉、鼻
腔の形状を符号化することによって極めて高能率な圧縮
が可能になる技術として注目されている。

【０００５】以上のように、音声データについては各種
のデータ圧縮方法が採用されてきているが、何れも基本
的には信号の波形形状やパワースペクトルを再現可能な
ように信号のもつ性質を利用して符号化を行うことを基
本としており、人間の聴覚特性に基づいて周波数成分毎
に符号量の割当てを変化させたり、聴覚のマスキング効
果を利用して情報量を減らすことで高能率な符号化を実
現させている。

【０００６】

【発明が解決しようとする課題】ところで、従来のデー
タ圧縮方法では聴覚特性に基づいて各周波数成分毎に処
理を行うようにしているが、人間の聴覚は各周波数成分
毎に音を認識しているわけではなく、何らかの規則性を
もって集合している周波数成分のまとまり具合を「音」と
して聴取している。即ち、「人間の発声音」や「楽器の音」
や「鳥の鳴き声」や「水の音」等を分析してゆくと、それ以
上分解すれば一つの「音」として認識できなくなるような
単位(以下、『音要素』という)まで分解できるが、「人
の話声」についてみれば/a/や/i/等の母音又は/k/や/t/
等の子音がそれに相当し、人間の聴覚はその音要素単位
で「音」を聞き分けている。より具体的には、各音要素は
前記の「周波数成分のまとまり具合」である「パワースペ
クトルの分布と時間軸上での変化の具合」にそれぞれ固
有のパターンを生じさせ、人間の聴覚がその固有パター
ンの変化情報に基づいて「音」を認識している。

【０００７】その場合、例えば、人の発話した音声の/a
/であっても発声者が異なるとパワースペクトルの分布
と時間軸上での変化は異なるが、少なくとも、聴く者に
とっては音質が異なっても/a/のカテゴリーに属する音
として聞き分けることができる。尚、音要素は一般に母
音と子音に大別され、学説によって相違はあるが、日本
語におけるその数は母音で５個、子音で２０個乃至４０
個程度とされている。

【０００８】このように、音要素に着目した考察からみ
ると、従来のように周波数毎に符号量の割当てを行った
り聴覚のマスキング効果を利用して符号化を行うより
も、音要素に着目した基づいた符号化方式を組み込ん
で、人間が音声を聴取する際に必要な情報のみを抽出す
れば、更に高能率な符号化を実現できる余地がある。特
に、人間の発声音については、既に音声学や音声認識の
分野等において音要素を基準にした情報解析の研究が行
われており、それらの研究成果を有効に利用することが
できる。

【０００９】そこで、本発明は、ディジタル化された人
間の発声音データについて、その聴覚上必要な情報を音
要素を基準に抽出して符号化する方式を採用し、発声音
データを高能率に符号化する符号化装置及びその符号化
データを復号化する復号化装置を提供することを目的と
して創作された。

【００１０】

【課題を解決するための手段】本発明の発声音データの
符号化装置は、ディジタル化された時系列発声音データ
を一定個数毎に区切って直交変換を施すことによりパワ
ースペクトルデータを得る直交変換手段と、前記直交変
換手段から得られる各パワースペクトルデータをそのデ
ータの音要素に対応する特徴が高効率に抽出され得るデ
ータ形式に変換するデータ変換手段と、前記データ変換
手段の変換方式に対応した各音要素毎の特徴に係る基準
データパターンを記憶しており、前記データ変換手段か
ら得られる各変換データとその基準データパターンを比
較して相関データを得る音要素抽出手段と、前記パワー
スペクトルデータ又は前記変換データから周波数方向の
ピッチを抽出するピッチ抽出手段と、前記発声音データ
又は前記パワースペクトルデータからパワー値を抽出す
るパワー抽出手段と、前記の音要素抽出手段とピッチ抽
出手段とパワー抽出手段から時系列的に出力されるデー
タを符号化する符号化手段を具備したことを特徴とす
る。

【００１１】この符号化装置では、時系列発声音データ
が入力されると、直交変換手段がそのデータを一定個数
毎に区切ってＦＦＴやＤＣＴ等の直交変換を施す。直交
変換によって区間毎に周波数成分の分布を示すパワース
ペクトルデータが得られるが、そのパワースペクトルデ
ータの分布と時間軸上での変化の具合は各音要素に対応
した固有のパターンを有している。そこで、データ変換
手段は、パワースペクトルデータを音要素によって特徴
付けられる有効情報がより少ないデータ量で且つ容易に
抽出できるデータ形式へ変換する。また、音要素抽出手
段には前記のデータ変換方式に対応させて各音要素毎の
特徴に係る基準データパターンが予め記憶せしめられて
おり、データ変換手段による変換データと基準データパ
ターンがどの程度類似しているかを示す相関データを出
力させる。即ち、この符号化装置では、データ変換手段
と音要素抽出手段とが相俟って、パワースペクトルデー
タからその音要素成分の度合いを示す相関データを求め
ることで高能率な符号化を実現している。

【００１２】ここに、音要素抽出手段としては、データ
変換手段のデータ変換形式に対応する各音要素毎の基準
データパターンが学習せしめられていると共に各音要素
に対応した出力ニューロンを有し、前記データ変換手段
から得られる各変換データを入力として、その入力デー
タと学習した各基準データパターンとの相関に基づいて
１個又は複数個の出力ニューロンが反応するニューラル
・ネットワーク(以下、「Ｎ・Ｎ」という)を採用することが
できる。

【００１３】その場合、データ変換手段に、パワースペ
クトルデータを周波数が高くなるにつれて広い帯域とな
る対数比の帯域区分でブロック化する方式を採用し、ニ
ューラル・ネットワークが、学習により各音要素毎の基
準データパターンを前記の各周波数帯域毎に記憶してお
り、入力データとの相関を前記の各周波数帯域毎に識別
して出力ニューロンを反応させるようにすれば、聴覚特
性を考慮したより高能率な符号化が実現できる。即ち、
人間の聴覚における音声の解像度は高い周波数帯域で低
下することが知られており、音要素の特徴を抽出する上
では均等なブロック化を行うよりも効率がよく、また適
正な音要素の識別が可能になる。尚、データ変換手段に
は、前記のようなサブバンド化方式に限らず、例えば、
ホルマント(スペクトルの集中部分の情報)を求めるため
の変換方式や、ケプストラム(スペクトルの包絡線の情
報)を求めるための変換方式も採用できる。

【００１４】ところで、再生に際しては前記の音要素の
成分だけでなく、パワースペクトルデータの周波数方向
のピッチ及びパワー値が必要となるため、ピッチ抽出手
段とパワー抽出手段によってそれらのデータを抽出す
る。そして、符号化手段が所定のアルゴリズムで音要素
抽出手段の出力データとピッチ抽出手段のピッチデータ
とパワー抽出手段のパワーデータを時系列的に符号化し
て伝送路へ出力する。

【００１５】次に、本発明の楽音データの復号化装置
は、前記の符号化装置によって作成された符号化データ
を解読し、各音要素に係る信号成分の大きさとピッチを
決定する符号解読手段と、前記符号解読手段が決定した
各音要素に係る信号成分の大きさとピッチに基づいて、
各音要素に係るアナログ信号又はディジタル信号を生成
させる音要素信号生成手段と、前記音要素信号生成手段
から得られる各信号を合成して再生信号を作成する信号
合成手段を具備したことを特徴とする。

【００１６】前記の符号化装置によって作成された符号
化データは、各音要素に対応する相関データ及びパワー
スペクトルのピッチデータとパワーデータからなるが、
相関データは入力される発声音データに音要素成分がど
の程度含まれているかを示すものであり、符号解読手段
は前記の３つのデータから音要素に係る信号の波形と大
きさを決定することができる。従って、音要素信号生成
手段によって各音要素に係る音要素の信号(アナログ信
号又はディジタル信号)を個別に生成させ、信号合成手
段で各信号を合成すれば元の発声音データの再生信号
(アナログ信号又はディジタル信号)を得ることができ
る。

【００１７】

【発明の実施の形態】以下、本発明の「発声音データの
符号化装置及び復号化装置」の実施形態を図面を用いて
詳細に説明する。図１は符号化装置のブロック回路図を
示す。この符号化装置1では、発声音の信号を時間軸上
の１次元関数とみなし、サンプリング器2で時間軸方向
に離散化してサンプリングしたディジタルデータを入力
データとして取扱う。即ち、ある時間帯に発声音があっ
た場合には、その音要素の連続性や音圧レベルに応じて
図３の(A)や(B)に示すようなサンプリングデータが得ら
れるが、複数の者が同時に発声していると、当然に各発
声音の信号が合成された信号波形のサンプリングデータ
となる。尚、この符号化装置1ではサンプリング器2を介
してディジタル化された発声音データが入力されるよう
になっているが、事前にファイリングされたサンプリン
グデータを読出して直接入力する方式や通信回線を介し
てサンプリングデータが入力される方式であってもよ
い。

【００１８】符号化装置1に発声音データが入力される
と、先ずＦＦＴ器3が一定個数のデータが入力される度
に直交変換を行い、その区間毎の周波数成分の分布を示
すパワースペクトルデータを得る。例えば、前記のサン
プリング器2のサンプリング周波数が44.1kHz、ＦＦＴの
タップ数が256個とすると、１回のＦＦＴ処理を行うサ
ンプリングデータは約5.8msec分の発声音データに相当
する。

【００１９】ＦＦＴ処理された後のパワースペクトルデ
ータはサブバンド化器4に入力され、サブバンド化器4で
人間の聴覚の周波数特性に適合するようにサブバンドに
分割される。その場合、図４に示すように、人間の聴覚
における周波数の解像度が周波数の高い帯域で低くなる
ことから(図４の横軸は対数目盛であり高域での周波数
の変化に対する音の高さの変化は微小となる)、周波数
が高くなるにつれて広い帯域になる対数比の帯域区分で
ブロック化し、各ブロック毎にパワーの平均を求めて対
数化する。尚、ＦＦＴ処理の結果は各周波数に相当する
成分が複素数で与えられているので、絶対値についての
平均値を求めて対数化することになる。

【００２０】前記のサブバンド分割は、具体的には次の
ように実行される。例えば、音要素である母音の/a/,/i
/,/u/,/e/,/o/の発声音をＦＦＴ方式で直交変換する
と、それぞれ図５から図９に示すような固有のパワース
ペクトルパターンが得られる。各図においては、横軸方
向に時間が、奥行き方向に関して奥の方から手前に向け
て周波数が、縦軸方向に対数化したパワー値がとられて
おり、パワーで２０dBに相当するレベルを閾値としてカ
ットオフされている。尚、パワー値は、パワースペクト
ルを前記のブロック化方式で周波数方向に１７分割し、
各サブバンド毎に求められた平均値を対数化した値とし
て求められている。また、図示しないが、子音の発声音
に関しても、それぞれの子音について固有のパワースペ
クトルパターンが得られ、更に、同時に複数の発声音が
含まれている場合にはそれらのパワースペクトルパター
ンが合成された態様で得られることになる。そして、サ
ブバンド化器4は周波数方向の帯域分割数を１７個と
し、各ブロックで前記の傾向でサンプル数を設定してサ
ブバンド化されたパワースペクトルデータを作成する。
従って、入力される時系列発声音データとＦＦＴの処理
結果とサブバンド化されたパワースペクトルデータ(ブ
ロック毎のパワー平均値を対数化したもの)の関係は図
１０に示されるような対応関係になる。また、パワーの
平均がＥで与えられるサブバンドで求められる値Ｓは、Ｓ＝μ［２０＊{log(Ｅ)−１｝］但し、μ(ｘ)＝ｘ（ｘ＞０）＝０ (else) で与えられる。

【００２１】次に、サブバンド化されたパワースペクト
ルデータは音要素抽出Ｎ・Ｎ5へ逐次入力される。図５か
ら図９に例示されるように、発声音データのパワースペ
クトルに係るパターン分布及び時間軸上での変化の態様
は音要素によってそれぞれ固有であるが、人間の聴覚は
そのパターン情報に基づいて発声音を聞き分けているこ
とが明らかになっている。そこで、音要素抽出Ｎ・Ｎ5で
はサブバンド化器4から順次転送されるパワースペクト
ルデータを解析して発声音に含まれている音要素成分の
抽出を実行する。

【００２２】ここで、予め音要素抽出Ｎ・Ｎ5について説
明しておく。音要素抽出Ｎ・Ｎ5には各種方式のものがあ
るが、本実施形態では３層の誤差逆伝搬法(Error Back
Propagation；以下「ＥＢＰ法」という)による学習を行う
Ｎ・Ｎを用いることとして説明する。先ず、Ｎ・Ｎは人間
の神経細胞の働きをモデル化した回路で構成されてお
り、与えたデータパターンを記憶させることができる。
例えば、図１１に示すような音要素に係るパワースペク
トルデータのパターンを記憶させる場合には、同図に示
すように、音要素抽出Ｎ・Ｎ5の入力層のニューロン数を
１７×１７(＝２８９)とし、それに対応してパワースペ
クトルデータを(１７×１７)の単位データ量で時間軸方
向に順次入力して出力層のＮ個のニューロンの内の特定
の１個のみが反応するように学習させる。

【００２３】Ｎ・Ｎによる認識処理において、中間層及
び出力層はＹj＝ψ(ΣＣij＊Ｘi) の規則に従って演算される値Ｙjを活性値として持つ。
但し、Ｘiは入力ニューロンｉの活性値、Ｃijはｉニュ
ーロンからｊニューロンへの信号の伝わり易さを表す結
合重み、ψ(ｘ)は単調非減少の関数であり、例えば、上
記で示したμ(ｘ)で与えられるものであったり、シグモ
イド(sigmoid)関数と呼ばれるψ(ｘ)＝１／{１＋exp(−
ｘ)}で与えられるものであったりする。

【００２４】「学習」とは、図１１に示すようなサブバン
ド化された任意のパワースペクトルデータ(１７×１７)
が入力層へ入力された場合に、出力層のそのカテゴリに
対応する特定ニューロンの活性値のみが「１」となり、他
の出力層のニューロンの活性値が「０」となるように各結
合重みＣijを設定することである。このようなＣijを解
析的に求めることは一般に困難ではあるが、ＥＢＰ法を
用いて近似的に求めることが可能である。ＥＢＰ法では
次式で表される変分量ΔＣijだけ結合重みＣijを更新す
ることを繰り返す。 ΔＣij＝Ｋ＊(Ｔj−Ｙj)＊Ｘi 但し、Ｋは学習係数、Ｔjは教師データ(ｊニューロンが
とるべき値)である。尚、本実施形態の符号化装置で
は、図６から図９に示す母音の音要素/i/,/u/,/e/,/o/
や図示しない/t/,/k/等の子音の音要素に係る全てのデ
ータパターンを音要素抽出Ｎ・Ｎ5の入力層へ入力して個
別に学習させておく。

【００２５】そして、このようにして学習させた音要素
抽出Ｎ・Ｎ5に対して、サブバンド化器4からサブバンド
化されたパワースペクトルデータが入力されると、図５
から図９のような単一の音要素に係るパワースペクトル
データである場合には、出力層のその音要素のパターン
に対応した出力ニューロンのみが「１」となり、他の出力
ニューロンは「０」になるが、パワースペクトルデータが
学習データと近似したパターンである場合には、相当す
るカテゴリを示す出力ニューロンの活性値が「１」に近い
値をとり、それ以外の出力ニューロンは「０」に近い値を
示す。また、複数の発声音が合成されたパワースペクト
ルデータである場合には、各発声音の音要素成分の強弱
に基づいて対応する各出力ニューロンが０と１の間の活
性値をとり、出力層の各出力ニューロンの活性状態から
如何なる音要素成分がどのような割合で含まれているか
を学習データとの相関情報として出力させることができ
る。即ち、音声認識の分野で用いられているパターンマ
ッチングでは、入力されたデータが各音要素の基準デー
タに対してどの程度の差があるかを判定して最も差が小
さいものを選択する方式を採用するが、この音要素抽出
Ｎ・Ｎ5では確定的な認識までは行わずに、基準データと
の類似度情報を各出力ニューロンの活性状態で与えるよ
うにしている。

【００２６】従って、図１２に示すように音要素抽出Ｎ
・Ｎ5へサブバンド化されたパワースペクトルデータを
(１７×１７)のブロック単位で時系列的に入力させる
と、図１３に示すようにその各出力ニューロンから時系
列的な出力パターンを得ることができ、その出力パター
ンに基づいて入力された発声音データの“どの時間帯"
に“どの音要素成分"が“どの割合"で含まれているかの
情報を得ることができる。

【００２７】ところで、実際の発声音を再生する場合に
は前記の情報だけでは足りず、パワースペクトルに係る
周波数方向のピッチデータとパワーデータが必要であ
る。ピッチデータはＦＦＴ処理した後のパワースペクト
ルデータの分布状態(又はそのサブバンド化後のデータ)
から求めることができるが、最も簡単な抽出法はＦＦＴ
処理結果における最大の絶対値を持つ要素を検出する方
法である。また、パワーデータはサンプリング器2のサ
ンプリングデータ又はＦＦＴ処理結果から各成分の絶対
値の２乗和として求めることができる。そこで、本実施
形態では、絶対値演算回路や積分器や加算器や比較器で
構成したピッチ・パワー抽出器6がＦＦＴ器3の処理結果
を用いてピッチデータとパワーデータを抽出するように
なっている。

【００２８】以上の結果、音要素抽出Ｎ・Ｎ5から発声音
データの音要素成分に係る情報が求まり、ピッチ・パワ
ー抽出器6からピッチデータとパワーデータが求まる
が、それらのデータは符号作成器7へ入力される。そし
て、符号作成器7では、音要素抽出Ｎ・Ｎ5の各出力ニュ
ーロンの活性状態から得られる所定ビット数のデータと
ピッチ・パワー抽出器6の出力を読み込み、それらのデー
タを所定の順番に並べたデータストリームを構成して伝
送路側へ出力させる。ここに、符号作成器7は、図１４
に示すようにレジスタ部21と混合器22とで構成されてい
ると共に、レジスタ部21は音要素抽出Ｎ・Ｎ5の各出力ニ
ューロンのデータｇ1,ｇ2,・・・,ｇNを個別に保持する各
レジスタREG(1),REG(2)・・・,REG(N)と、ピッチ・パワー抽
出器6のピッチデータｐiとパワーデータｐoをそれぞれ
保持するレジスタREG(P),REG(E)とからなり、ＦＦＴ器3
が１回当たりに処理した各データがレジスタ部21で保持
された段階で混合器22がレジスタ部21の各レジスタから
データを読み込み、[ｇ1,ｇ2,・・・,ｇN,ｐi,ｐo]のデー
タストリームを構成して伝送路へ送出する。従って、そ
の単位ストリームのデータはＦＦＴ器3が１回当たりに
処理したデータに対応した時間帯における発声音の状態
を示すことになる。

【００２９】ここで、データの圧縮率について検討して
おく。例えば、音要素抽出Ｎ・Ｎ5の出力層のニューロン
数Ｎを２５個とした場合に、それぞれ８ビットでのサン
プリングを行い、ピッチデータ及びパワーデータについ
ても同様に８ビットでサンプリングを行うこととする。
今、ＦＦＴ器3が１回当たりに処理する元のデータ量が
４０９６(=256*16)bitであり、音要素抽出Ｎ・Ｎ5に入力
するデータの時間方向のシフト量が１であれば、１回の
ＦＦＴ処理についての符号化後のデータ量は２１６(=25
*8+8+8)bitとなり、結果的に圧縮率が約１／１９とな
る。また、時間方向のシフト量を８にすれば、１回のＦ
ＦＴ処理についての符号化後のデータ量は２７{=(25*8+
8+8)/8}bitとなり、圧縮率は約１／１５０となる。更
に、音要素抽出Ｎ・Ｎ5の出力層の各ニューロンから得ら
れる出力データが時系列的に相関性の強いものであるこ
とを利用し、差分データを用いたり、ハフマン符号化等
の高能率符号化方法を適用することにより更に圧縮率を
向上させることができる。

【００３０】以上のように、本実施形態の符号化装置1
では、サブバンド化器4と音要素抽出Ｎ・Ｎ5の構成によ
って発声音データの圧縮を実現させているが、ＦＦＴ処
理した後のパワースペクトルデータから音要素の特徴を
反映させるデータ変換方式としては、前記のサブバンド
化方式に限らず、ホルマントやケプストラム等を求めて
そのデータを音要素抽出Ｎ・Ｎ5へ入力する方式も採用で
きる。その場合、音要素抽出Ｎ・Ｎ5に対して予め各音要
素に対応したホルマントやケプストラムのデータを学習
させておき、前記の実施形態と同様に、入力された変換
データとの相関に基づいて各出力ニューロンを反応させ
る。

【００３１】一方、図２は前記の符号化装置1に対応し
た復号化装置のブロック回路図を示す。前記のように、
符号化装置1によって符号化されたデータは、音要素抽
出Ｎ・Ｎ5による音要素成分情報(ｇ1,ｇ2,・・・・,ｇN)とピ
ッチ・パワー抽出器6によるピッチデータ(ｐi)とパワー
データ(ｐo)からなるが、復号化装置11にその符号化デ
ータが入力されると、符号解読器12が前記の各データに
分解する。そして、符号解読器12は予め与えられている
関数 (ｆ1,ｆ2,・・・・,ｆN)＝Ｄf(ｇ1,ｇ2,・・・・,ｇN,ｐo) によって、次段の各楽器音信号生成器13-1〜Nの駆動制
御データｆ1,ｆ2,・・・・,ｆNを求める。尚、関数Ｄfは一
般に(Ｎ＋１)次のベクトルからＮ次のベクトルを与える
関数であるが、実例として(ｆ1,ｆ2,・・・・,ｆN)＝(ｐo・
ｇ1,ｐo・ｇ2,・・・・,ｐo・ｇN)という(ｇ1,ｇ2,・・・・,ｇN)
から(ｆ1,ｆ2,・・・・,ｆN)への線形写像を求めるものが想
定できる。従って、求められたｆ1,ｆ2,・・・・,ｆNは、前
記の一定時間帯における発声音に含まれている各音要素
の成分量を示すことになる。

【００３２】次に、符号解読器12は求めた各データｆ1,
ｆ2,・・・・,ｆNと伝送されたピッチデータｐiを対応する
各音要素信号生成器13-1〜Nへ個別に転送する。即ち、
データの整列順序に基づき、jを1,2,・・・,Nとして、[ｆ
j,ｐi]を音要素信号生成器13-jへ転送する。そして、各
音要素信号生成器13-jは、音要素の成分量ｆjとピッチ
データｐiを与えるとｊ番に設定されている音要素に相
当する音要素信号ｆsjを生成させる回路で構成されてい
る。この復号化装置では日本語における各音要素に係る
音要素信号生成器13-1〜Nが設けてあり、各音要素信号
生成器13-1〜Nは符号解読器12から対応した音要素の成
分量とピッチデータｐiが入力されることにより、前記
の一定時間帯における各音要素信号ｆs1,ｆs2,・・・・,ｆs
Nを個別に生成させる。

【００３３】次に、この復号化装置11では各音要素信号
生成器13-1〜Nの出力を混合器14で混合して出力させ
る。即ち、各音要素信号ｆs1,ｆs2,・・・・,ｆsNが混合器1
4で合成されることにより元の発生音信号が再生され、
増幅器15で増幅されてスピーカ(図示せず)で音声再生さ
れる。尚、この実施形態では各音要素信号生成器13-1〜
Nがアナログ信号として各音要素の信号を出力させるよ
うになっているが、ディジタルデータとして出力し、混
合器14を符号化作成器としてディジタル記録媒体に記録
するようにしてもよい。

【００３４】

【発明の効果】本発明の「発声音データの符号化装置及
び復号化装置」は、以上の構成を有していることによ
り、次のような効果を奏する。請求項１の発明は、ディ
ジタル化された発声音データについて、直交変換後のパ
ワースペクトルデータから音要素を基準にした特徴抽出
を行って符号化することにより、従来の符号化方式より
も高能率な符号化を可能にし、発声音データの高効率な
伝送やストレージメディアの容量節減を実現する。請求
項２の発明は、音要素抽出手段として人間の聴覚神経系
をモデル化したＮ・Ｎを用いて各音要素に対応する出力
ニューロンを適用し、聴覚特性に適合したプログラマブ
ルな符号化装置を実現する。請求項３の発明は、パワー
スペクトルデータを聴覚特性を考慮した周波数帯域区分
でブロック化し、Ｎ・Ｎが各ブロックデータ単位で音要
素成分を抽出するようにしているため、微妙な音質の相
違等にも対応できる高効率な符号化を実現する。請求項
４の発明は、前記の符号化装置の符号化方式に対応し
て、発声音の高音質な再生が可能な復号化装置を実現す
る。

【図面の簡単な説明】

【図１】本発明の「発声音データの符号化装置」の実施形
態に係る機能ブロック回路図である。

【図２】本発明の「発声音データの復号化装置」の実施形
態に係る機能ブロック回路図である。

【図３】発声音の信号をサンプリングした波形例であ
る。

【図４】音の周波数と聴感の関係を示すグラフである。

【図５】聴覚周波数における発声音/a/のパワースペク
トル図である。

【図６】聴覚周波数における発声音/i/のパワースペク
トル図である。

【図７】聴覚周波数における発声音/u/のパワースペク
トル図である。

【図８】聴覚周波数における発声音/e/のパワースペク
トル図である。

【図９】聴覚周波数における発声音/o/のパワースペク
トル図である。

【図１０】符号化装置に入力される時系列発声音データ
と、ＦＦＴ処理後のデータと、パワースペクトルをサブ
バンド化してブロック毎にパワーの平均値をとったデー
タの関係を示す図である。

【図１１】発声音のパワースペクトルデータを音要素抽
出Ｎ・Ｎに学習させる場合の概念図である。

【図１２】音要素抽出Ｎ・Ｎの概略構成図である。

【図１３】音要素抽出Ｎ・Ｎの出力層の各ニューロンの
反応出力状態を示すグラフである。

【図１４】符号作成器の機能ブロック回路図である。

【符号の説明】

1…符号化装置、2…サンプリング器、3…ＦＦＴ器(直交
変換手段)、4…サブバンド化器(データ変換手段)、5…
音要素抽出Ｎ・Ｎ(音要素抽出手段,ニューラル・ネットワ
ーク)、6…ピッチ・パワー抽出器(ピッチ抽出手段,パワ
ー抽出手段)、7…符号作成器(符号化手段)、11…復号化
装置、12…符号解読器(符号解読手段)、13-1〜N…音要
素信号生成器(音要素信号生成手段)、14…混合器(信号
合成手段)、15…増幅器、21…レジスタ部、22…混合
器。

Claims

【特許請求の範囲】

【請求項１】ディジタル化された時系列発声音データ
を一定個数毎に区切って直交変換を施すことによりパワ
ースペクトルデータを得る直交変換手段と、前記直交変
換手段から得られる各パワースペクトルデータをそのデ
ータの音要素に対応する特徴が高効率に抽出され得るデ
ータ形式に変換するデータ変換手段と、前記データ変換
手段の変換方式に対応した各音要素毎の特徴に係る基準
データパターンを記憶しており、前記データ変換手段か
ら得られる各変換データとその基準データパターンを比
較して相関データを得る音要素抽出手段と、前記パワー
スペクトルデータ又は前記変換データから周波数方向の
ピッチを抽出するピッチ抽出手段と、前記発声音データ
又は前記パワースペクトルデータからパワー値を抽出す
るパワー抽出手段と、前記の音要素抽出手段とピッチ抽
出手段とパワー抽出手段から時系列的に出力されるデー
タを符号化する符号化手段を具備したことを特徴とする
発声音データの符号化装置。
【請求項２】音要素抽出手段が、データ変換手段のデ
ータ変換形式に対応する各音要素毎の基準データパター
ンが学習せしめられていると共に各音要素に対応した出
力ニューロンを有し、前記データ変換手段から得られる
各変換データを入力として、その入力データと学習した
各基準データパターンとの相関に基づいて１個又は複数
個の出力ニューロンが反応するニューラル・ネットワー
クである請求項１の発声音データの符号化装置。
【請求項３】データ変換手段が、パワースペクトルデ
ータを周波数が高くなるにつれて広い帯域となる対数比
の帯域区分でブロック化し、ニューラル・ネットワーク
が、学習により各音要素毎の基準データパターンを前記
の各周波数帯域毎に記憶しており、入力データとの相関
を前記の各周波数帯域毎に識別して出力ニューロンを反
応させるものである請求項２の発声音データの符号化装
置。
【請求項４】請求項１乃至請求項３の発声音データの
符号化装置によって作成された符号化データを解読し、
各音要素に係る信号成分の大きさとピッチを決定する符
号解読手段と、前記符号解読手段が決定した各音要素に
係る信号成分の大きさとピッチに基づいて、各音要素に
係るアナログ信号又はディジタル信号を生成させる音要
素信号生成手段と、前記音要素信号生成手段から得られ
る各信号を合成して再生信号を作成する信号合成手段を
具備したことを特徴とする発声音データの復号化装置。