JPH0993135A - 発声音データの符号化装置及び復号化装置 - Google Patents
発声音データの符号化装置及び復号化装置Info
- Publication number
- JPH0993135A JPH0993135A JP7271931A JP27193195A JPH0993135A JP H0993135 A JPH0993135 A JP H0993135A JP 7271931 A JP7271931 A JP 7271931A JP 27193195 A JP27193195 A JP 27193195A JP H0993135 A JPH0993135 A JP H0993135A
- Authority
- JP
- Japan
- Prior art keywords
- data
- sound
- sound element
- pitch
- power spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001228 spectrum Methods 0.000 claims abstract description 53
- 210000004205 output neuron Anatomy 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 40
- 238000000034 method Methods 0.000 claims description 39
- 238000006243 chemical reaction Methods 0.000 claims description 34
- 230000001755 vocal effect Effects 0.000 claims description 30
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 15
- 230000005540 biological transmission Effects 0.000 abstract description 12
- 230000009466 transformation Effects 0.000 abstract description 9
- 239000000284 extract Substances 0.000 abstract description 5
- 230000005236 sound signal Effects 0.000 abstract description 3
- 238000005070 sampling Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 210000002569 neuron Anatomy 0.000 description 11
- 230000008859 change Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000013144 data compression Methods 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】
【課題】 発声音データの高能率符号化を図り、伝送効
率の向上とストレージメディアの容量節減を実現する。 【解決手段】 符号化装置1は、入力される発声音デー
タをFFT器3で直交変換し、そのパワースペクトルを
サブバンド化器4で複数のサブバンドに分割し、予め各
音要素のパワースペクトルのデータパターンを学習した
音要素抽出ニューラル・ネットワーク5がサブバンドデー
タとの相関に基づいて各音要素に対応する各出力ニュー
ロンから各音要素の成分情報を出力させる。また、ピッ
チ・パワー抽出器6がFFT器3からパワースペクトルの
ピッチとパワーを抽出し、符号作成器7で各出力ニュー
ロンの出力とピッチとパワーを符号化して伝送する。一
方、復号化装置では、符号化データを解読して個別に各
音要素信号を生成させ、それを合成することで発声音信
号を再生させる。
率の向上とストレージメディアの容量節減を実現する。 【解決手段】 符号化装置1は、入力される発声音デー
タをFFT器3で直交変換し、そのパワースペクトルを
サブバンド化器4で複数のサブバンドに分割し、予め各
音要素のパワースペクトルのデータパターンを学習した
音要素抽出ニューラル・ネットワーク5がサブバンドデー
タとの相関に基づいて各音要素に対応する各出力ニュー
ロンから各音要素の成分情報を出力させる。また、ピッ
チ・パワー抽出器6がFFT器3からパワースペクトルの
ピッチとパワーを抽出し、符号作成器7で各出力ニュー
ロンの出力とピッチとパワーを符号化して伝送する。一
方、復号化装置では、符号化データを解読して個別に各
音要素信号を生成させ、それを合成することで発声音信
号を再生させる。
Description
【0001】
【発明の属する技術分野】本発明は発声音データの符号
化装置及び復号化装置に係り、TV会議やAV(Audio-V
isual)データ通信等における音声データ伝送やファイル
作成に適用され、特に人間の発声音を高能率にデータ圧
縮して伝送することにより伝送効率の向上とストレージ
メディアの容量節減を図る符号化/復号化技術に関す
る。
化装置及び復号化装置に係り、TV会議やAV(Audio-V
isual)データ通信等における音声データ伝送やファイル
作成に適用され、特に人間の発声音を高能率にデータ圧
縮して伝送することにより伝送効率の向上とストレージ
メディアの容量節減を図る符号化/復号化技術に関す
る。
【0002】
【従来の技術】最近、オーディオ機器においては音声デ
ータをディジタル化して処理する技術の開発が目覚まし
く、特にマルチメディア機器には映像データと音声デー
タのディジタル処理とそのデータ伝送技術が不可欠な要
素になっている。従来から、音声データの伝送に関して
はディジタル通信回線を用いた電話通信があるが、通常
の通話ではその情報伝送に必要とされるデータ量が少な
いために現状のディジタル通信回線で十分であっても、
ボーカルを含む音楽や映画の音声のように高い音質を要
求される音声データを伝送しなければならないような場
合には回線の容量が足りず、蓄積交換方式等のようにリ
アルタイム性を犠牲にした伝送方式を採用せざるを得な
い。
ータをディジタル化して処理する技術の開発が目覚まし
く、特にマルチメディア機器には映像データと音声デー
タのディジタル処理とそのデータ伝送技術が不可欠な要
素になっている。従来から、音声データの伝送に関して
はディジタル通信回線を用いた電話通信があるが、通常
の通話ではその情報伝送に必要とされるデータ量が少な
いために現状のディジタル通信回線で十分であっても、
ボーカルを含む音楽や映画の音声のように高い音質を要
求される音声データを伝送しなければならないような場
合には回線の容量が足りず、蓄積交換方式等のようにリ
アルタイム性を犠牲にした伝送方式を採用せざるを得な
い。
【0003】一般に、高い再生音質を確保するには、C
D(Compact Disc)やDAT(DigitalAudio Tape)に見ら
れるように、約1.4Mbpsの情報伝送速度が必要とされ
ている。その内訳は、40kHz以上のサンプリング周
波数、16ビットの量子化ビット、及び2チャンネル分
のデータが必要になることである。また、同様の音質を
有した音声データを限られた容量のストレージメディア
に格納するために、MD(Mini Disc)やDCC(Digital
Compact Casette)に採用されているような特殊な高能率
符号化技術も開発されているが、それらの場合でもCD
の場合の1/4〜1/5に相当する200〜300bpsの伝送
速度が必要となる。何れにしても、既存のデータ転送レ
ートを用いるか、又は少々高いレートが実現できるとし
ても、音声データをその高音質性を保持しながらマルチ
メディア機器やその通信システムで処理・伝送するため
には、更に高能率な符号化・復号化技術が必要とされ
る。
D(Compact Disc)やDAT(DigitalAudio Tape)に見ら
れるように、約1.4Mbpsの情報伝送速度が必要とされ
ている。その内訳は、40kHz以上のサンプリング周
波数、16ビットの量子化ビット、及び2チャンネル分
のデータが必要になることである。また、同様の音質を
有した音声データを限られた容量のストレージメディア
に格納するために、MD(Mini Disc)やDCC(Digital
Compact Casette)に採用されているような特殊な高能率
符号化技術も開発されているが、それらの場合でもCD
の場合の1/4〜1/5に相当する200〜300bpsの伝送
速度が必要となる。何れにしても、既存のデータ転送レ
ートを用いるか、又は少々高いレートが実現できるとし
ても、音声データをその高音質性を保持しながらマルチ
メディア機器やその通信システムで処理・伝送するため
には、更に高能率な符号化・復号化技術が必要とされ
る。
【0004】そして、従来から音声データの高能率符号
化技術としては、主に次のような方式が採用されてい
る。 直交変換を行った結果を符号化する方法;時系列的
音声信号に対してFFT(高速フーリエ変換)やDCT
(離散コサイン変換)のような直交変換を施した場合にそ
の逆変換によって元の信号を復元できることを利用し、
音声信号を周波数成分に変換した上で符号を割り当てて
符号化する方法であるが、そのままでは情報量を減少さ
せることができない。そこで、実際の音声信号において
は高域成分が低域成分と比較して少ないことや、人間の
聴覚特性等を考慮した符号量の割当てを行うことによっ
て、聴覚的な音質を保持しながら符号化データ量の減少
を実現している。 予測符号化方法;過去のいくつかのサンプリング値
から現在のサンプリング値を予測推定し、真の値と予測
値との差(予測誤差)を符号化する方法である。ある程度
のひずみを許容すれば大幅なデータ圧縮が可能になる
が、主に音質が重要視されない分野、即ち、簡易な音声
メッセージ伝送や電話の留守番録音等にしか適用できな
い。 人間の発声をモデル化する方法;人間の発声音に特
化した符号化方法であり、モデル化した声帯、咽喉、鼻
腔の形状を符号化することによって極めて高能率な圧縮
が可能になる技術として注目されている。
化技術としては、主に次のような方式が採用されてい
る。 直交変換を行った結果を符号化する方法;時系列的
音声信号に対してFFT(高速フーリエ変換)やDCT
(離散コサイン変換)のような直交変換を施した場合にそ
の逆変換によって元の信号を復元できることを利用し、
音声信号を周波数成分に変換した上で符号を割り当てて
符号化する方法であるが、そのままでは情報量を減少さ
せることができない。そこで、実際の音声信号において
は高域成分が低域成分と比較して少ないことや、人間の
聴覚特性等を考慮した符号量の割当てを行うことによっ
て、聴覚的な音質を保持しながら符号化データ量の減少
を実現している。 予測符号化方法;過去のいくつかのサンプリング値
から現在のサンプリング値を予測推定し、真の値と予測
値との差(予測誤差)を符号化する方法である。ある程度
のひずみを許容すれば大幅なデータ圧縮が可能になる
が、主に音質が重要視されない分野、即ち、簡易な音声
メッセージ伝送や電話の留守番録音等にしか適用できな
い。 人間の発声をモデル化する方法;人間の発声音に特
化した符号化方法であり、モデル化した声帯、咽喉、鼻
腔の形状を符号化することによって極めて高能率な圧縮
が可能になる技術として注目されている。
【0005】以上のように、音声データについては各種
のデータ圧縮方法が採用されてきているが、何れも基本
的には信号の波形形状やパワースペクトルを再現可能な
ように信号のもつ性質を利用して符号化を行うことを基
本としており、人間の聴覚特性に基づいて周波数成分毎
に符号量の割当てを変化させたり、聴覚のマスキング効
果を利用して情報量を減らすことで高能率な符号化を実
現させている。
のデータ圧縮方法が採用されてきているが、何れも基本
的には信号の波形形状やパワースペクトルを再現可能な
ように信号のもつ性質を利用して符号化を行うことを基
本としており、人間の聴覚特性に基づいて周波数成分毎
に符号量の割当てを変化させたり、聴覚のマスキング効
果を利用して情報量を減らすことで高能率な符号化を実
現させている。
【0006】
【発明が解決しようとする課題】ところで、従来のデー
タ圧縮方法では聴覚特性に基づいて各周波数成分毎に処
理を行うようにしているが、人間の聴覚は各周波数成分
毎に音を認識しているわけではなく、何らかの規則性を
もって集合している周波数成分のまとまり具合を「音」と
して聴取している。即ち、「人間の発声音」や「楽器の音」
や「鳥の鳴き声」や「水の音」等を分析してゆくと、それ以
上分解すれば一つの「音」として認識できなくなるような
単位(以下、『音要素』という)まで分解できるが、「人
の話声」についてみれば/a/や/i/等の母音又は/k/や/t/
等の子音がそれに相当し、人間の聴覚はその音要素単位
で「音」を聞き分けている。より具体的には、各音要素は
前記の「周波数成分のまとまり具合」である「パワースペ
クトルの分布と時間軸上での変化の具合」にそれぞれ固
有のパターンを生じさせ、人間の聴覚がその固有パター
ンの変化情報に基づいて「音」を認識している。
タ圧縮方法では聴覚特性に基づいて各周波数成分毎に処
理を行うようにしているが、人間の聴覚は各周波数成分
毎に音を認識しているわけではなく、何らかの規則性を
もって集合している周波数成分のまとまり具合を「音」と
して聴取している。即ち、「人間の発声音」や「楽器の音」
や「鳥の鳴き声」や「水の音」等を分析してゆくと、それ以
上分解すれば一つの「音」として認識できなくなるような
単位(以下、『音要素』という)まで分解できるが、「人
の話声」についてみれば/a/や/i/等の母音又は/k/や/t/
等の子音がそれに相当し、人間の聴覚はその音要素単位
で「音」を聞き分けている。より具体的には、各音要素は
前記の「周波数成分のまとまり具合」である「パワースペ
クトルの分布と時間軸上での変化の具合」にそれぞれ固
有のパターンを生じさせ、人間の聴覚がその固有パター
ンの変化情報に基づいて「音」を認識している。
【0007】その場合、例えば、人の発話した音声の/a
/であっても発声者が異なるとパワースペクトルの分布
と時間軸上での変化は異なるが、少なくとも、聴く者に
とっては音質が異なっても/a/のカテゴリーに属する音
として聞き分けることができる。尚、音要素は一般に母
音と子音に大別され、学説によって相違はあるが、日本
語におけるその数は母音で5個、子音で20個乃至40
個程度とされている。
/であっても発声者が異なるとパワースペクトルの分布
と時間軸上での変化は異なるが、少なくとも、聴く者に
とっては音質が異なっても/a/のカテゴリーに属する音
として聞き分けることができる。尚、音要素は一般に母
音と子音に大別され、学説によって相違はあるが、日本
語におけるその数は母音で5個、子音で20個乃至40
個程度とされている。
【0008】このように、音要素に着目した考察からみ
ると、従来のように周波数毎に符号量の割当てを行った
り聴覚のマスキング効果を利用して符号化を行うより
も、音要素に着目した基づいた符号化方式を組み込ん
で、人間が音声を聴取する際に必要な情報のみを抽出す
れば、更に高能率な符号化を実現できる余地がある。特
に、人間の発声音については、既に音声学や音声認識の
分野等において音要素を基準にした情報解析の研究が行
われており、それらの研究成果を有効に利用することが
できる。
ると、従来のように周波数毎に符号量の割当てを行った
り聴覚のマスキング効果を利用して符号化を行うより
も、音要素に着目した基づいた符号化方式を組み込ん
で、人間が音声を聴取する際に必要な情報のみを抽出す
れば、更に高能率な符号化を実現できる余地がある。特
に、人間の発声音については、既に音声学や音声認識の
分野等において音要素を基準にした情報解析の研究が行
われており、それらの研究成果を有効に利用することが
できる。
【0009】そこで、本発明は、ディジタル化された人
間の発声音データについて、その聴覚上必要な情報を音
要素を基準に抽出して符号化する方式を採用し、発声音
データを高能率に符号化する符号化装置及びその符号化
データを復号化する復号化装置を提供することを目的と
して創作された。
間の発声音データについて、その聴覚上必要な情報を音
要素を基準に抽出して符号化する方式を採用し、発声音
データを高能率に符号化する符号化装置及びその符号化
データを復号化する復号化装置を提供することを目的と
して創作された。
【0010】
【課題を解決するための手段】本発明の発声音データの
符号化装置は、ディジタル化された時系列発声音データ
を一定個数毎に区切って直交変換を施すことによりパワ
ースペクトルデータを得る直交変換手段と、前記直交変
換手段から得られる各パワースペクトルデータをそのデ
ータの音要素に対応する特徴が高効率に抽出され得るデ
ータ形式に変換するデータ変換手段と、前記データ変換
手段の変換方式に対応した各音要素毎の特徴に係る基準
データパターンを記憶しており、前記データ変換手段か
ら得られる各変換データとその基準データパターンを比
較して相関データを得る音要素抽出手段と、前記パワー
スペクトルデータ又は前記変換データから周波数方向の
ピッチを抽出するピッチ抽出手段と、前記発声音データ
又は前記パワースペクトルデータからパワー値を抽出す
るパワー抽出手段と、前記の音要素抽出手段とピッチ抽
出手段とパワー抽出手段から時系列的に出力されるデー
タを符号化する符号化手段を具備したことを特徴とす
る。
符号化装置は、ディジタル化された時系列発声音データ
を一定個数毎に区切って直交変換を施すことによりパワ
ースペクトルデータを得る直交変換手段と、前記直交変
換手段から得られる各パワースペクトルデータをそのデ
ータの音要素に対応する特徴が高効率に抽出され得るデ
ータ形式に変換するデータ変換手段と、前記データ変換
手段の変換方式に対応した各音要素毎の特徴に係る基準
データパターンを記憶しており、前記データ変換手段か
ら得られる各変換データとその基準データパターンを比
較して相関データを得る音要素抽出手段と、前記パワー
スペクトルデータ又は前記変換データから周波数方向の
ピッチを抽出するピッチ抽出手段と、前記発声音データ
又は前記パワースペクトルデータからパワー値を抽出す
るパワー抽出手段と、前記の音要素抽出手段とピッチ抽
出手段とパワー抽出手段から時系列的に出力されるデー
タを符号化する符号化手段を具備したことを特徴とす
る。
【0011】この符号化装置では、時系列発声音データ
が入力されると、直交変換手段がそのデータを一定個数
毎に区切ってFFTやDCT等の直交変換を施す。直交
変換によって区間毎に周波数成分の分布を示すパワース
ペクトルデータが得られるが、そのパワースペクトルデ
ータの分布と時間軸上での変化の具合は各音要素に対応
した固有のパターンを有している。そこで、データ変換
手段は、パワースペクトルデータを音要素によって特徴
付けられる有効情報がより少ないデータ量で且つ容易に
抽出できるデータ形式へ変換する。また、音要素抽出手
段には前記のデータ変換方式に対応させて各音要素毎の
特徴に係る基準データパターンが予め記憶せしめられて
おり、データ変換手段による変換データと基準データパ
ターンがどの程度類似しているかを示す相関データを出
力させる。即ち、この符号化装置では、データ変換手段
と音要素抽出手段とが相俟って、パワースペクトルデー
タからその音要素成分の度合いを示す相関データを求め
ることで高能率な符号化を実現している。
が入力されると、直交変換手段がそのデータを一定個数
毎に区切ってFFTやDCT等の直交変換を施す。直交
変換によって区間毎に周波数成分の分布を示すパワース
ペクトルデータが得られるが、そのパワースペクトルデ
ータの分布と時間軸上での変化の具合は各音要素に対応
した固有のパターンを有している。そこで、データ変換
手段は、パワースペクトルデータを音要素によって特徴
付けられる有効情報がより少ないデータ量で且つ容易に
抽出できるデータ形式へ変換する。また、音要素抽出手
段には前記のデータ変換方式に対応させて各音要素毎の
特徴に係る基準データパターンが予め記憶せしめられて
おり、データ変換手段による変換データと基準データパ
ターンがどの程度類似しているかを示す相関データを出
力させる。即ち、この符号化装置では、データ変換手段
と音要素抽出手段とが相俟って、パワースペクトルデー
タからその音要素成分の度合いを示す相関データを求め
ることで高能率な符号化を実現している。
【0012】ここに、音要素抽出手段としては、データ
変換手段のデータ変換形式に対応する各音要素毎の基準
データパターンが学習せしめられていると共に各音要素
に対応した出力ニューロンを有し、前記データ変換手段
から得られる各変換データを入力として、その入力デー
タと学習した各基準データパターンとの相関に基づいて
1個又は複数個の出力ニューロンが反応するニューラル
・ネットワーク(以下、「N・N」という)を採用することが
できる。
変換手段のデータ変換形式に対応する各音要素毎の基準
データパターンが学習せしめられていると共に各音要素
に対応した出力ニューロンを有し、前記データ変換手段
から得られる各変換データを入力として、その入力デー
タと学習した各基準データパターンとの相関に基づいて
1個又は複数個の出力ニューロンが反応するニューラル
・ネットワーク(以下、「N・N」という)を採用することが
できる。
【0013】その場合、データ変換手段に、パワースペ
クトルデータを周波数が高くなるにつれて広い帯域とな
る対数比の帯域区分でブロック化する方式を採用し、ニ
ューラル・ネットワークが、学習により各音要素毎の基
準データパターンを前記の各周波数帯域毎に記憶してお
り、入力データとの相関を前記の各周波数帯域毎に識別
して出力ニューロンを反応させるようにすれば、聴覚特
性を考慮したより高能率な符号化が実現できる。即ち、
人間の聴覚における音声の解像度は高い周波数帯域で低
下することが知られており、音要素の特徴を抽出する上
では均等なブロック化を行うよりも効率がよく、また適
正な音要素の識別が可能になる。尚、データ変換手段に
は、前記のようなサブバンド化方式に限らず、例えば、
ホルマント(スペクトルの集中部分の情報)を求めるため
の変換方式や、ケプストラム(スペクトルの包絡線の情
報)を求めるための変換方式も採用できる。
クトルデータを周波数が高くなるにつれて広い帯域とな
る対数比の帯域区分でブロック化する方式を採用し、ニ
ューラル・ネットワークが、学習により各音要素毎の基
準データパターンを前記の各周波数帯域毎に記憶してお
り、入力データとの相関を前記の各周波数帯域毎に識別
して出力ニューロンを反応させるようにすれば、聴覚特
性を考慮したより高能率な符号化が実現できる。即ち、
人間の聴覚における音声の解像度は高い周波数帯域で低
下することが知られており、音要素の特徴を抽出する上
では均等なブロック化を行うよりも効率がよく、また適
正な音要素の識別が可能になる。尚、データ変換手段に
は、前記のようなサブバンド化方式に限らず、例えば、
ホルマント(スペクトルの集中部分の情報)を求めるため
の変換方式や、ケプストラム(スペクトルの包絡線の情
報)を求めるための変換方式も採用できる。
【0014】ところで、再生に際しては前記の音要素の
成分だけでなく、パワースペクトルデータの周波数方向
のピッチ及びパワー値が必要となるため、ピッチ抽出手
段とパワー抽出手段によってそれらのデータを抽出す
る。そして、符号化手段が所定のアルゴリズムで音要素
抽出手段の出力データとピッチ抽出手段のピッチデータ
とパワー抽出手段のパワーデータを時系列的に符号化し
て伝送路へ出力する。
成分だけでなく、パワースペクトルデータの周波数方向
のピッチ及びパワー値が必要となるため、ピッチ抽出手
段とパワー抽出手段によってそれらのデータを抽出す
る。そして、符号化手段が所定のアルゴリズムで音要素
抽出手段の出力データとピッチ抽出手段のピッチデータ
とパワー抽出手段のパワーデータを時系列的に符号化し
て伝送路へ出力する。
【0015】次に、本発明の楽音データの復号化装置
は、前記の符号化装置によって作成された符号化データ
を解読し、各音要素に係る信号成分の大きさとピッチを
決定する符号解読手段と、前記符号解読手段が決定した
各音要素に係る信号成分の大きさとピッチに基づいて、
各音要素に係るアナログ信号又はディジタル信号を生成
させる音要素信号生成手段と、前記音要素信号生成手段
から得られる各信号を合成して再生信号を作成する信号
合成手段を具備したことを特徴とする。
は、前記の符号化装置によって作成された符号化データ
を解読し、各音要素に係る信号成分の大きさとピッチを
決定する符号解読手段と、前記符号解読手段が決定した
各音要素に係る信号成分の大きさとピッチに基づいて、
各音要素に係るアナログ信号又はディジタル信号を生成
させる音要素信号生成手段と、前記音要素信号生成手段
から得られる各信号を合成して再生信号を作成する信号
合成手段を具備したことを特徴とする。
【0016】前記の符号化装置によって作成された符号
化データは、各音要素に対応する相関データ及びパワー
スペクトルのピッチデータとパワーデータからなるが、
相関データは入力される発声音データに音要素成分がど
の程度含まれているかを示すものであり、符号解読手段
は前記の3つのデータから音要素に係る信号の波形と大
きさを決定することができる。従って、音要素信号生成
手段によって各音要素に係る音要素の信号(アナログ信
号又はディジタル信号)を個別に生成させ、信号合成手
段で各信号を合成すれば元の発声音データの再生信号
(アナログ信号又はディジタル信号)を得ることができ
る。
化データは、各音要素に対応する相関データ及びパワー
スペクトルのピッチデータとパワーデータからなるが、
相関データは入力される発声音データに音要素成分がど
の程度含まれているかを示すものであり、符号解読手段
は前記の3つのデータから音要素に係る信号の波形と大
きさを決定することができる。従って、音要素信号生成
手段によって各音要素に係る音要素の信号(アナログ信
号又はディジタル信号)を個別に生成させ、信号合成手
段で各信号を合成すれば元の発声音データの再生信号
(アナログ信号又はディジタル信号)を得ることができ
る。
【0017】
【発明の実施の形態】以下、本発明の「発声音データの
符号化装置及び復号化装置」の実施形態を図面を用いて
詳細に説明する。図1は符号化装置のブロック回路図を
示す。この符号化装置1では、発声音の信号を時間軸上
の1次元関数とみなし、サンプリング器2で時間軸方向
に離散化してサンプリングしたディジタルデータを入力
データとして取扱う。即ち、ある時間帯に発声音があっ
た場合には、その音要素の連続性や音圧レベルに応じて
図3の(A)や(B)に示すようなサンプリングデータが得ら
れるが、複数の者が同時に発声していると、当然に各発
声音の信号が合成された信号波形のサンプリングデータ
となる。尚、この符号化装置1ではサンプリング器2を介
してディジタル化された発声音データが入力されるよう
になっているが、事前にファイリングされたサンプリン
グデータを読出して直接入力する方式や通信回線を介し
てサンプリングデータが入力される方式であってもよ
い。
符号化装置及び復号化装置」の実施形態を図面を用いて
詳細に説明する。図1は符号化装置のブロック回路図を
示す。この符号化装置1では、発声音の信号を時間軸上
の1次元関数とみなし、サンプリング器2で時間軸方向
に離散化してサンプリングしたディジタルデータを入力
データとして取扱う。即ち、ある時間帯に発声音があっ
た場合には、その音要素の連続性や音圧レベルに応じて
図3の(A)や(B)に示すようなサンプリングデータが得ら
れるが、複数の者が同時に発声していると、当然に各発
声音の信号が合成された信号波形のサンプリングデータ
となる。尚、この符号化装置1ではサンプリング器2を介
してディジタル化された発声音データが入力されるよう
になっているが、事前にファイリングされたサンプリン
グデータを読出して直接入力する方式や通信回線を介し
てサンプリングデータが入力される方式であってもよ
い。
【0018】符号化装置1に発声音データが入力される
と、先ずFFT器3が一定個数のデータが入力される度
に直交変換を行い、その区間毎の周波数成分の分布を示
すパワースペクトルデータを得る。例えば、前記のサン
プリング器2のサンプリング周波数が44.1kHz、FFTの
タップ数が256個とすると、1回のFFT処理を行うサ
ンプリングデータは約5.8msec分の発声音データに相当
する。
と、先ずFFT器3が一定個数のデータが入力される度
に直交変換を行い、その区間毎の周波数成分の分布を示
すパワースペクトルデータを得る。例えば、前記のサン
プリング器2のサンプリング周波数が44.1kHz、FFTの
タップ数が256個とすると、1回のFFT処理を行うサ
ンプリングデータは約5.8msec分の発声音データに相当
する。
【0019】FFT処理された後のパワースペクトルデ
ータはサブバンド化器4に入力され、サブバンド化器4で
人間の聴覚の周波数特性に適合するようにサブバンドに
分割される。その場合、図4に示すように、人間の聴覚
における周波数の解像度が周波数の高い帯域で低くなる
ことから(図4の横軸は対数目盛であり高域での周波数
の変化に対する音の高さの変化は微小となる)、周波数
が高くなるにつれて広い帯域になる対数比の帯域区分で
ブロック化し、各ブロック毎にパワーの平均を求めて対
数化する。尚、FFT処理の結果は各周波数に相当する
成分が複素数で与えられているので、絶対値についての
平均値を求めて対数化することになる。
ータはサブバンド化器4に入力され、サブバンド化器4で
人間の聴覚の周波数特性に適合するようにサブバンドに
分割される。その場合、図4に示すように、人間の聴覚
における周波数の解像度が周波数の高い帯域で低くなる
ことから(図4の横軸は対数目盛であり高域での周波数
の変化に対する音の高さの変化は微小となる)、周波数
が高くなるにつれて広い帯域になる対数比の帯域区分で
ブロック化し、各ブロック毎にパワーの平均を求めて対
数化する。尚、FFT処理の結果は各周波数に相当する
成分が複素数で与えられているので、絶対値についての
平均値を求めて対数化することになる。
【0020】前記のサブバンド分割は、具体的には次の
ように実行される。例えば、音要素である母音の/a/,/i
/,/u/,/e/,/o/の発声音をFFT方式で直交変換する
と、それぞれ図5から図9に示すような固有のパワース
ペクトルパターンが得られる。各図においては、横軸方
向に時間が、奥行き方向に関して奥の方から手前に向け
て周波数が、縦軸方向に対数化したパワー値がとられて
おり、パワーで20dBに相当するレベルを閾値としてカ
ットオフされている。尚、パワー値は、パワースペクト
ルを前記のブロック化方式で周波数方向に17分割し、
各サブバンド毎に求められた平均値を対数化した値とし
て求められている。また、図示しないが、子音の発声音
に関しても、それぞれの子音について固有のパワースペ
クトルパターンが得られ、更に、同時に複数の発声音が
含まれている場合にはそれらのパワースペクトルパター
ンが合成された態様で得られることになる。そして、サ
ブバンド化器4は周波数方向の帯域分割数を17個と
し、各ブロックで前記の傾向でサンプル数を設定してサ
ブバンド化されたパワースペクトルデータを作成する。
従って、入力される時系列発声音データとFFTの処理
結果とサブバンド化されたパワースペクトルデータ(ブ
ロック毎のパワー平均値を対数化したもの)の関係は図
10に示されるような対応関係になる。また、パワーの
平均がEで与えられるサブバンドで求められる値Sは、 S=μ[20*{log(E)−1}] 但し、μ(x)=x (x>0) =0 (else) で与えられる。
ように実行される。例えば、音要素である母音の/a/,/i
/,/u/,/e/,/o/の発声音をFFT方式で直交変換する
と、それぞれ図5から図9に示すような固有のパワース
ペクトルパターンが得られる。各図においては、横軸方
向に時間が、奥行き方向に関して奥の方から手前に向け
て周波数が、縦軸方向に対数化したパワー値がとられて
おり、パワーで20dBに相当するレベルを閾値としてカ
ットオフされている。尚、パワー値は、パワースペクト
ルを前記のブロック化方式で周波数方向に17分割し、
各サブバンド毎に求められた平均値を対数化した値とし
て求められている。また、図示しないが、子音の発声音
に関しても、それぞれの子音について固有のパワースペ
クトルパターンが得られ、更に、同時に複数の発声音が
含まれている場合にはそれらのパワースペクトルパター
ンが合成された態様で得られることになる。そして、サ
ブバンド化器4は周波数方向の帯域分割数を17個と
し、各ブロックで前記の傾向でサンプル数を設定してサ
ブバンド化されたパワースペクトルデータを作成する。
従って、入力される時系列発声音データとFFTの処理
結果とサブバンド化されたパワースペクトルデータ(ブ
ロック毎のパワー平均値を対数化したもの)の関係は図
10に示されるような対応関係になる。また、パワーの
平均がEで与えられるサブバンドで求められる値Sは、 S=μ[20*{log(E)−1}] 但し、μ(x)=x (x>0) =0 (else) で与えられる。
【0021】次に、サブバンド化されたパワースペクト
ルデータは音要素抽出N・N5へ逐次入力される。図5か
ら図9に例示されるように、発声音データのパワースペ
クトルに係るパターン分布及び時間軸上での変化の態様
は音要素によってそれぞれ固有であるが、人間の聴覚は
そのパターン情報に基づいて発声音を聞き分けているこ
とが明らかになっている。そこで、音要素抽出N・N5で
はサブバンド化器4から順次転送されるパワースペクト
ルデータを解析して発声音に含まれている音要素成分の
抽出を実行する。
ルデータは音要素抽出N・N5へ逐次入力される。図5か
ら図9に例示されるように、発声音データのパワースペ
クトルに係るパターン分布及び時間軸上での変化の態様
は音要素によってそれぞれ固有であるが、人間の聴覚は
そのパターン情報に基づいて発声音を聞き分けているこ
とが明らかになっている。そこで、音要素抽出N・N5で
はサブバンド化器4から順次転送されるパワースペクト
ルデータを解析して発声音に含まれている音要素成分の
抽出を実行する。
【0022】ここで、予め音要素抽出N・N5について説
明しておく。音要素抽出N・N5には各種方式のものがあ
るが、本実施形態では3層の誤差逆伝搬法(Error Back
Propagation;以下「EBP法」という)による学習を行う
N・Nを用いることとして説明する。先ず、N・Nは人間
の神経細胞の働きをモデル化した回路で構成されてお
り、与えたデータパターンを記憶させることができる。
例えば、図11に示すような音要素に係るパワースペク
トルデータのパターンを記憶させる場合には、同図に示
すように、音要素抽出N・N5の入力層のニューロン数を
17×17(=289)とし、それに対応してパワースペ
クトルデータを(17×17)の単位データ量で時間軸方
向に順次入力して出力層のN個のニューロンの内の特定
の1個のみが反応するように学習させる。
明しておく。音要素抽出N・N5には各種方式のものがあ
るが、本実施形態では3層の誤差逆伝搬法(Error Back
Propagation;以下「EBP法」という)による学習を行う
N・Nを用いることとして説明する。先ず、N・Nは人間
の神経細胞の働きをモデル化した回路で構成されてお
り、与えたデータパターンを記憶させることができる。
例えば、図11に示すような音要素に係るパワースペク
トルデータのパターンを記憶させる場合には、同図に示
すように、音要素抽出N・N5の入力層のニューロン数を
17×17(=289)とし、それに対応してパワースペ
クトルデータを(17×17)の単位データ量で時間軸方
向に順次入力して出力層のN個のニューロンの内の特定
の1個のみが反応するように学習させる。
【0023】N・Nによる認識処理において、中間層及
び出力層は Yj=ψ(ΣCij*Xi) の規則に従って演算される値Yjを活性値として持つ。
但し、Xiは入力ニューロンiの活性値、Cijはiニュ
ーロンからjニューロンへの信号の伝わり易さを表す結
合重み、ψ(x)は単調非減少の関数であり、例えば、上
記で示したμ(x)で与えられるものであったり、シグモ
イド(sigmoid)関数と呼ばれるψ(x)=1/{1+exp(−
x)}で与えられるものであったりする。
び出力層は Yj=ψ(ΣCij*Xi) の規則に従って演算される値Yjを活性値として持つ。
但し、Xiは入力ニューロンiの活性値、Cijはiニュ
ーロンからjニューロンへの信号の伝わり易さを表す結
合重み、ψ(x)は単調非減少の関数であり、例えば、上
記で示したμ(x)で与えられるものであったり、シグモ
イド(sigmoid)関数と呼ばれるψ(x)=1/{1+exp(−
x)}で与えられるものであったりする。
【0024】「学習」とは、図11に示すようなサブバン
ド化された任意のパワースペクトルデータ(17×17)
が入力層へ入力された場合に、出力層のそのカテゴリに
対応する特定ニューロンの活性値のみが「1」となり、他
の出力層のニューロンの活性値が「0」となるように各結
合重みCijを設定することである。このようなCijを解
析的に求めることは一般に困難ではあるが、EBP法を
用いて近似的に求めることが可能である。EBP法では
次式で表される変分量ΔCijだけ結合重みCijを更新す
ることを繰り返す。 ΔCij=K*(Tj−Yj)*Xi 但し、Kは学習係数、Tjは教師データ(jニューロンが
とるべき値)である。尚、本実施形態の符号化装置で
は、図6から図9に示す母音の音要素/i/,/u/,/e/,/o/
や図示しない/t/,/k/等の子音の音要素に係る全てのデ
ータパターンを音要素抽出N・N5の入力層へ入力して個
別に学習させておく。
ド化された任意のパワースペクトルデータ(17×17)
が入力層へ入力された場合に、出力層のそのカテゴリに
対応する特定ニューロンの活性値のみが「1」となり、他
の出力層のニューロンの活性値が「0」となるように各結
合重みCijを設定することである。このようなCijを解
析的に求めることは一般に困難ではあるが、EBP法を
用いて近似的に求めることが可能である。EBP法では
次式で表される変分量ΔCijだけ結合重みCijを更新す
ることを繰り返す。 ΔCij=K*(Tj−Yj)*Xi 但し、Kは学習係数、Tjは教師データ(jニューロンが
とるべき値)である。尚、本実施形態の符号化装置で
は、図6から図9に示す母音の音要素/i/,/u/,/e/,/o/
や図示しない/t/,/k/等の子音の音要素に係る全てのデ
ータパターンを音要素抽出N・N5の入力層へ入力して個
別に学習させておく。
【0025】そして、このようにして学習させた音要素
抽出N・N5に対して、サブバンド化器4からサブバンド
化されたパワースペクトルデータが入力されると、図5
から図9のような単一の音要素に係るパワースペクトル
データである場合には、出力層のその音要素のパターン
に対応した出力ニューロンのみが「1」となり、他の出力
ニューロンは「0」になるが、パワースペクトルデータが
学習データと近似したパターンである場合には、相当す
るカテゴリを示す出力ニューロンの活性値が「1」に近い
値をとり、それ以外の出力ニューロンは「0」に近い値を
示す。また、複数の発声音が合成されたパワースペクト
ルデータである場合には、各発声音の音要素成分の強弱
に基づいて対応する各出力ニューロンが0と1の間の活
性値をとり、出力層の各出力ニューロンの活性状態から
如何なる音要素成分がどのような割合で含まれているか
を学習データとの相関情報として出力させることができ
る。即ち、音声認識の分野で用いられているパターンマ
ッチングでは、入力されたデータが各音要素の基準デー
タに対してどの程度の差があるかを判定して最も差が小
さいものを選択する方式を採用するが、この音要素抽出
N・N5では確定的な認識までは行わずに、基準データと
の類似度情報を各出力ニューロンの活性状態で与えるよ
うにしている。
抽出N・N5に対して、サブバンド化器4からサブバンド
化されたパワースペクトルデータが入力されると、図5
から図9のような単一の音要素に係るパワースペクトル
データである場合には、出力層のその音要素のパターン
に対応した出力ニューロンのみが「1」となり、他の出力
ニューロンは「0」になるが、パワースペクトルデータが
学習データと近似したパターンである場合には、相当す
るカテゴリを示す出力ニューロンの活性値が「1」に近い
値をとり、それ以外の出力ニューロンは「0」に近い値を
示す。また、複数の発声音が合成されたパワースペクト
ルデータである場合には、各発声音の音要素成分の強弱
に基づいて対応する各出力ニューロンが0と1の間の活
性値をとり、出力層の各出力ニューロンの活性状態から
如何なる音要素成分がどのような割合で含まれているか
を学習データとの相関情報として出力させることができ
る。即ち、音声認識の分野で用いられているパターンマ
ッチングでは、入力されたデータが各音要素の基準デー
タに対してどの程度の差があるかを判定して最も差が小
さいものを選択する方式を採用するが、この音要素抽出
N・N5では確定的な認識までは行わずに、基準データと
の類似度情報を各出力ニューロンの活性状態で与えるよ
うにしている。
【0026】従って、図12に示すように音要素抽出N
・N5へサブバンド化されたパワースペクトルデータを
(17×17)のブロック単位で時系列的に入力させる
と、図13に示すようにその各出力ニューロンから時系
列的な出力パターンを得ることができ、その出力パター
ンに基づいて入力された発声音データの“どの時間帯"
に“どの音要素成分"が“どの割合"で含まれているかの
情報を得ることができる。
・N5へサブバンド化されたパワースペクトルデータを
(17×17)のブロック単位で時系列的に入力させる
と、図13に示すようにその各出力ニューロンから時系
列的な出力パターンを得ることができ、その出力パター
ンに基づいて入力された発声音データの“どの時間帯"
に“どの音要素成分"が“どの割合"で含まれているかの
情報を得ることができる。
【0027】ところで、実際の発声音を再生する場合に
は前記の情報だけでは足りず、パワースペクトルに係る
周波数方向のピッチデータとパワーデータが必要であ
る。ピッチデータはFFT処理した後のパワースペクト
ルデータの分布状態(又はそのサブバンド化後のデータ)
から求めることができるが、最も簡単な抽出法はFFT
処理結果における最大の絶対値を持つ要素を検出する方
法である。また、パワーデータはサンプリング器2のサ
ンプリングデータ又はFFT処理結果から各成分の絶対
値の2乗和として求めることができる。そこで、本実施
形態では、絶対値演算回路や積分器や加算器や比較器で
構成したピッチ・パワー抽出器6がFFT器3の処理結果
を用いてピッチデータとパワーデータを抽出するように
なっている。
は前記の情報だけでは足りず、パワースペクトルに係る
周波数方向のピッチデータとパワーデータが必要であ
る。ピッチデータはFFT処理した後のパワースペクト
ルデータの分布状態(又はそのサブバンド化後のデータ)
から求めることができるが、最も簡単な抽出法はFFT
処理結果における最大の絶対値を持つ要素を検出する方
法である。また、パワーデータはサンプリング器2のサ
ンプリングデータ又はFFT処理結果から各成分の絶対
値の2乗和として求めることができる。そこで、本実施
形態では、絶対値演算回路や積分器や加算器や比較器で
構成したピッチ・パワー抽出器6がFFT器3の処理結果
を用いてピッチデータとパワーデータを抽出するように
なっている。
【0028】以上の結果、音要素抽出N・N5から発声音
データの音要素成分に係る情報が求まり、ピッチ・パワ
ー抽出器6からピッチデータとパワーデータが求まる
が、それらのデータは符号作成器7へ入力される。そし
て、符号作成器7では、音要素抽出N・N5の各出力ニュ
ーロンの活性状態から得られる所定ビット数のデータと
ピッチ・パワー抽出器6の出力を読み込み、それらのデー
タを所定の順番に並べたデータストリームを構成して伝
送路側へ出力させる。ここに、符号作成器7は、図14
に示すようにレジスタ部21と混合器22とで構成されてい
ると共に、レジスタ部21は音要素抽出N・N5の各出力ニ
ューロンのデータg1,g2,・・・,gNを個別に保持する各
レジスタREG(1),REG(2)・・・,REG(N)と、ピッチ・パワー抽
出器6のピッチデータpiとパワーデータpoをそれぞれ
保持するレジスタREG(P),REG(E)とからなり、FFT器3
が1回当たりに処理した各データがレジスタ部21で保持
された段階で混合器22がレジスタ部21の各レジスタから
データを読み込み、[g1,g2,・・・,gN,pi,po]のデー
タストリームを構成して伝送路へ送出する。従って、そ
の単位ストリームのデータはFFT器3が1回当たりに
処理したデータに対応した時間帯における発声音の状態
を示すことになる。
データの音要素成分に係る情報が求まり、ピッチ・パワ
ー抽出器6からピッチデータとパワーデータが求まる
が、それらのデータは符号作成器7へ入力される。そし
て、符号作成器7では、音要素抽出N・N5の各出力ニュ
ーロンの活性状態から得られる所定ビット数のデータと
ピッチ・パワー抽出器6の出力を読み込み、それらのデー
タを所定の順番に並べたデータストリームを構成して伝
送路側へ出力させる。ここに、符号作成器7は、図14
に示すようにレジスタ部21と混合器22とで構成されてい
ると共に、レジスタ部21は音要素抽出N・N5の各出力ニ
ューロンのデータg1,g2,・・・,gNを個別に保持する各
レジスタREG(1),REG(2)・・・,REG(N)と、ピッチ・パワー抽
出器6のピッチデータpiとパワーデータpoをそれぞれ
保持するレジスタREG(P),REG(E)とからなり、FFT器3
が1回当たりに処理した各データがレジスタ部21で保持
された段階で混合器22がレジスタ部21の各レジスタから
データを読み込み、[g1,g2,・・・,gN,pi,po]のデー
タストリームを構成して伝送路へ送出する。従って、そ
の単位ストリームのデータはFFT器3が1回当たりに
処理したデータに対応した時間帯における発声音の状態
を示すことになる。
【0029】ここで、データの圧縮率について検討して
おく。例えば、音要素抽出N・N5の出力層のニューロン
数Nを25個とした場合に、それぞれ8ビットでのサン
プリングを行い、ピッチデータ及びパワーデータについ
ても同様に8ビットでサンプリングを行うこととする。
今、FFT器3が1回当たりに処理する元のデータ量が
4096(=256*16)bitであり、音要素抽出N・N5に入力
するデータの時間方向のシフト量が1であれば、1回の
FFT処理についての符号化後のデータ量は216(=25
*8+8+8)bitとなり、結果的に圧縮率が約1/19とな
る。また、時間方向のシフト量を8にすれば、1回のF
FT処理についての符号化後のデータ量は27{=(25*8+
8+8)/8}bitとなり、圧縮率は約1/150となる。更
に、音要素抽出N・N5の出力層の各ニューロンから得ら
れる出力データが時系列的に相関性の強いものであるこ
とを利用し、差分データを用いたり、ハフマン符号化等
の高能率符号化方法を適用することにより更に圧縮率を
向上させることができる。
おく。例えば、音要素抽出N・N5の出力層のニューロン
数Nを25個とした場合に、それぞれ8ビットでのサン
プリングを行い、ピッチデータ及びパワーデータについ
ても同様に8ビットでサンプリングを行うこととする。
今、FFT器3が1回当たりに処理する元のデータ量が
4096(=256*16)bitであり、音要素抽出N・N5に入力
するデータの時間方向のシフト量が1であれば、1回の
FFT処理についての符号化後のデータ量は216(=25
*8+8+8)bitとなり、結果的に圧縮率が約1/19とな
る。また、時間方向のシフト量を8にすれば、1回のF
FT処理についての符号化後のデータ量は27{=(25*8+
8+8)/8}bitとなり、圧縮率は約1/150となる。更
に、音要素抽出N・N5の出力層の各ニューロンから得ら
れる出力データが時系列的に相関性の強いものであるこ
とを利用し、差分データを用いたり、ハフマン符号化等
の高能率符号化方法を適用することにより更に圧縮率を
向上させることができる。
【0030】以上のように、本実施形態の符号化装置1
では、サブバンド化器4と音要素抽出N・N5の構成によ
って発声音データの圧縮を実現させているが、FFT処
理した後のパワースペクトルデータから音要素の特徴を
反映させるデータ変換方式としては、前記のサブバンド
化方式に限らず、ホルマントやケプストラム等を求めて
そのデータを音要素抽出N・N5へ入力する方式も採用で
きる。その場合、音要素抽出N・N5に対して予め各音要
素に対応したホルマントやケプストラムのデータを学習
させておき、前記の実施形態と同様に、入力された変換
データとの相関に基づいて各出力ニューロンを反応させ
る。
では、サブバンド化器4と音要素抽出N・N5の構成によ
って発声音データの圧縮を実現させているが、FFT処
理した後のパワースペクトルデータから音要素の特徴を
反映させるデータ変換方式としては、前記のサブバンド
化方式に限らず、ホルマントやケプストラム等を求めて
そのデータを音要素抽出N・N5へ入力する方式も採用で
きる。その場合、音要素抽出N・N5に対して予め各音要
素に対応したホルマントやケプストラムのデータを学習
させておき、前記の実施形態と同様に、入力された変換
データとの相関に基づいて各出力ニューロンを反応させ
る。
【0031】一方、図2は前記の符号化装置1に対応し
た復号化装置のブロック回路図を示す。前記のように、
符号化装置1によって符号化されたデータは、音要素抽
出N・N5による音要素成分情報(g1,g2,・・・・,gN)とピ
ッチ・パワー抽出器6によるピッチデータ(pi)とパワー
データ(po)からなるが、復号化装置11にその符号化デ
ータが入力されると、符号解読器12が前記の各データに
分解する。そして、符号解読器12は予め与えられている
関数 (f1,f2,・・・・,fN)=Df(g1,g2,・・・・,gN,po) によって、次段の各楽器音信号生成器13-1〜Nの駆動制
御データf1,f2,・・・・,fNを求める。尚、関数Dfは一
般に(N+1)次のベクトルからN次のベクトルを与える
関数であるが、実例として(f1,f2,・・・・,fN)=(po・
g1,po・g2,・・・・,po・gN)という(g1,g2,・・・・,gN)
から(f1,f2,・・・・,fN)への線形写像を求めるものが想
定できる。従って、求められたf1,f2,・・・・,fNは、前
記の一定時間帯における発声音に含まれている各音要素
の成分量を示すことになる。
た復号化装置のブロック回路図を示す。前記のように、
符号化装置1によって符号化されたデータは、音要素抽
出N・N5による音要素成分情報(g1,g2,・・・・,gN)とピ
ッチ・パワー抽出器6によるピッチデータ(pi)とパワー
データ(po)からなるが、復号化装置11にその符号化デ
ータが入力されると、符号解読器12が前記の各データに
分解する。そして、符号解読器12は予め与えられている
関数 (f1,f2,・・・・,fN)=Df(g1,g2,・・・・,gN,po) によって、次段の各楽器音信号生成器13-1〜Nの駆動制
御データf1,f2,・・・・,fNを求める。尚、関数Dfは一
般に(N+1)次のベクトルからN次のベクトルを与える
関数であるが、実例として(f1,f2,・・・・,fN)=(po・
g1,po・g2,・・・・,po・gN)という(g1,g2,・・・・,gN)
から(f1,f2,・・・・,fN)への線形写像を求めるものが想
定できる。従って、求められたf1,f2,・・・・,fNは、前
記の一定時間帯における発声音に含まれている各音要素
の成分量を示すことになる。
【0032】次に、符号解読器12は求めた各データf1,
f2,・・・・,fNと伝送されたピッチデータpiを対応する
各音要素信号生成器13-1〜Nへ個別に転送する。即ち、
データの整列順序に基づき、jを1,2,・・・,Nとして、[f
j,pi]を音要素信号生成器13-jへ転送する。そして、各
音要素信号生成器13-jは、音要素の成分量fjとピッチ
データpiを与えるとj番に設定されている音要素に相
当する音要素信号fsjを生成させる回路で構成されてい
る。この復号化装置では日本語における各音要素に係る
音要素信号生成器13-1〜Nが設けてあり、各音要素信号
生成器13-1〜Nは符号解読器12から対応した音要素の成
分量とピッチデータpiが入力されることにより、前記
の一定時間帯における各音要素信号fs1,fs2,・・・・,fs
Nを個別に生成させる。
f2,・・・・,fNと伝送されたピッチデータpiを対応する
各音要素信号生成器13-1〜Nへ個別に転送する。即ち、
データの整列順序に基づき、jを1,2,・・・,Nとして、[f
j,pi]を音要素信号生成器13-jへ転送する。そして、各
音要素信号生成器13-jは、音要素の成分量fjとピッチ
データpiを与えるとj番に設定されている音要素に相
当する音要素信号fsjを生成させる回路で構成されてい
る。この復号化装置では日本語における各音要素に係る
音要素信号生成器13-1〜Nが設けてあり、各音要素信号
生成器13-1〜Nは符号解読器12から対応した音要素の成
分量とピッチデータpiが入力されることにより、前記
の一定時間帯における各音要素信号fs1,fs2,・・・・,fs
Nを個別に生成させる。
【0033】次に、この復号化装置11では各音要素信号
生成器13-1〜Nの出力を混合器14で混合して出力させ
る。即ち、各音要素信号fs1,fs2,・・・・,fsNが混合器1
4で合成されることにより元の発生音信号が再生され、
増幅器15で増幅されてスピーカ(図示せず)で音声再生さ
れる。尚、この実施形態では各音要素信号生成器13-1〜
Nがアナログ信号として各音要素の信号を出力させるよ
うになっているが、ディジタルデータとして出力し、混
合器14を符号化作成器としてディジタル記録媒体に記録
するようにしてもよい。
生成器13-1〜Nの出力を混合器14で混合して出力させ
る。即ち、各音要素信号fs1,fs2,・・・・,fsNが混合器1
4で合成されることにより元の発生音信号が再生され、
増幅器15で増幅されてスピーカ(図示せず)で音声再生さ
れる。尚、この実施形態では各音要素信号生成器13-1〜
Nがアナログ信号として各音要素の信号を出力させるよ
うになっているが、ディジタルデータとして出力し、混
合器14を符号化作成器としてディジタル記録媒体に記録
するようにしてもよい。
【0034】
【発明の効果】本発明の「発声音データの符号化装置及
び復号化装置」は、以上の構成を有していることによ
り、次のような効果を奏する。請求項1の発明は、ディ
ジタル化された発声音データについて、直交変換後のパ
ワースペクトルデータから音要素を基準にした特徴抽出
を行って符号化することにより、従来の符号化方式より
も高能率な符号化を可能にし、発声音データの高効率な
伝送やストレージメディアの容量節減を実現する。請求
項2の発明は、音要素抽出手段として人間の聴覚神経系
をモデル化したN・Nを用いて各音要素に対応する出力
ニューロンを適用し、聴覚特性に適合したプログラマブ
ルな符号化装置を実現する。請求項3の発明は、パワー
スペクトルデータを聴覚特性を考慮した周波数帯域区分
でブロック化し、N・Nが各ブロックデータ単位で音要
素成分を抽出するようにしているため、微妙な音質の相
違等にも対応できる高効率な符号化を実現する。請求項
4の発明は、前記の符号化装置の符号化方式に対応し
て、発声音の高音質な再生が可能な復号化装置を実現す
る。
び復号化装置」は、以上の構成を有していることによ
り、次のような効果を奏する。請求項1の発明は、ディ
ジタル化された発声音データについて、直交変換後のパ
ワースペクトルデータから音要素を基準にした特徴抽出
を行って符号化することにより、従来の符号化方式より
も高能率な符号化を可能にし、発声音データの高効率な
伝送やストレージメディアの容量節減を実現する。請求
項2の発明は、音要素抽出手段として人間の聴覚神経系
をモデル化したN・Nを用いて各音要素に対応する出力
ニューロンを適用し、聴覚特性に適合したプログラマブ
ルな符号化装置を実現する。請求項3の発明は、パワー
スペクトルデータを聴覚特性を考慮した周波数帯域区分
でブロック化し、N・Nが各ブロックデータ単位で音要
素成分を抽出するようにしているため、微妙な音質の相
違等にも対応できる高効率な符号化を実現する。請求項
4の発明は、前記の符号化装置の符号化方式に対応し
て、発声音の高音質な再生が可能な復号化装置を実現す
る。
【図1】本発明の「発声音データの符号化装置」の実施形
態に係る機能ブロック回路図である。
態に係る機能ブロック回路図である。
【図2】本発明の「発声音データの復号化装置」の実施形
態に係る機能ブロック回路図である。
態に係る機能ブロック回路図である。
【図3】発声音の信号をサンプリングした波形例であ
る。
る。
【図4】音の周波数と聴感の関係を示すグラフである。
【図5】聴覚周波数における発声音/a/のパワースペク
トル図である。
トル図である。
【図6】聴覚周波数における発声音/i/のパワースペク
トル図である。
トル図である。
【図7】聴覚周波数における発声音/u/のパワースペク
トル図である。
トル図である。
【図8】聴覚周波数における発声音/e/のパワースペク
トル図である。
トル図である。
【図9】聴覚周波数における発声音/o/のパワースペク
トル図である。
トル図である。
【図10】符号化装置に入力される時系列発声音データ
と、FFT処理後のデータと、パワースペクトルをサブ
バンド化してブロック毎にパワーの平均値をとったデー
タの関係を示す図である。
と、FFT処理後のデータと、パワースペクトルをサブ
バンド化してブロック毎にパワーの平均値をとったデー
タの関係を示す図である。
【図11】発声音のパワースペクトルデータを音要素抽
出N・Nに学習させる場合の概念図である。
出N・Nに学習させる場合の概念図である。
【図12】音要素抽出N・Nの概略構成図である。
【図13】音要素抽出N・Nの出力層の各ニューロンの
反応出力状態を示すグラフである。
反応出力状態を示すグラフである。
【図14】符号作成器の機能ブロック回路図である。
1…符号化装置、2…サンプリング器、3…FFT器(直交
変換手段)、4…サブバンド化器(データ変換手段)、5…
音要素抽出N・N(音要素抽出手段,ニューラル・ネットワ
ーク)、6…ピッチ・パワー抽出器(ピッチ抽出手段,パワ
ー抽出手段)、7…符号作成器(符号化手段)、11…復号化
装置、12…符号解読器(符号解読手段)、13-1〜N…音要
素信号生成器(音要素信号生成手段)、14…混合器(信号
合成手段)、15…増幅器、21…レジスタ部、22…混合
器。
変換手段)、4…サブバンド化器(データ変換手段)、5…
音要素抽出N・N(音要素抽出手段,ニューラル・ネットワ
ーク)、6…ピッチ・パワー抽出器(ピッチ抽出手段,パワ
ー抽出手段)、7…符号作成器(符号化手段)、11…復号化
装置、12…符号解読器(符号解読手段)、13-1〜N…音要
素信号生成器(音要素信号生成手段)、14…混合器(信号
合成手段)、15…増幅器、21…レジスタ部、22…混合
器。
Claims (4)
- 【請求項1】 ディジタル化された時系列発声音データ
を一定個数毎に区切って直交変換を施すことによりパワ
ースペクトルデータを得る直交変換手段と、前記直交変
換手段から得られる各パワースペクトルデータをそのデ
ータの音要素に対応する特徴が高効率に抽出され得るデ
ータ形式に変換するデータ変換手段と、前記データ変換
手段の変換方式に対応した各音要素毎の特徴に係る基準
データパターンを記憶しており、前記データ変換手段か
ら得られる各変換データとその基準データパターンを比
較して相関データを得る音要素抽出手段と、前記パワー
スペクトルデータ又は前記変換データから周波数方向の
ピッチを抽出するピッチ抽出手段と、前記発声音データ
又は前記パワースペクトルデータからパワー値を抽出す
るパワー抽出手段と、前記の音要素抽出手段とピッチ抽
出手段とパワー抽出手段から時系列的に出力されるデー
タを符号化する符号化手段を具備したことを特徴とする
発声音データの符号化装置。 - 【請求項2】 音要素抽出手段が、データ変換手段のデ
ータ変換形式に対応する各音要素毎の基準データパター
ンが学習せしめられていると共に各音要素に対応した出
力ニューロンを有し、前記データ変換手段から得られる
各変換データを入力として、その入力データと学習した
各基準データパターンとの相関に基づいて1個又は複数
個の出力ニューロンが反応するニューラル・ネットワー
クである請求項1の発声音データの符号化装置。 - 【請求項3】 データ変換手段が、パワースペクトルデ
ータを周波数が高くなるにつれて広い帯域となる対数比
の帯域区分でブロック化し、ニューラル・ネットワーク
が、学習により各音要素毎の基準データパターンを前記
の各周波数帯域毎に記憶しており、入力データとの相関
を前記の各周波数帯域毎に識別して出力ニューロンを反
応させるものである請求項2の発声音データの符号化装
置。 - 【請求項4】 請求項1乃至請求項3の発声音データの
符号化装置によって作成された符号化データを解読し、
各音要素に係る信号成分の大きさとピッチを決定する符
号解読手段と、前記符号解読手段が決定した各音要素に
係る信号成分の大きさとピッチに基づいて、各音要素に
係るアナログ信号又はディジタル信号を生成させる音要
素信号生成手段と、前記音要素信号生成手段から得られ
る各信号を合成して再生信号を作成する信号合成手段を
具備したことを特徴とする発声音データの復号化装置。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7271931A JPH0993135A (ja) | 1995-09-26 | 1995-09-26 | 発声音データの符号化装置及び復号化装置 |
| US08/720,160 US5828993A (en) | 1995-09-26 | 1996-09-25 | Apparatus and method of coding and decoding vocal sound data based on phoneme |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7271931A JPH0993135A (ja) | 1995-09-26 | 1995-09-26 | 発声音データの符号化装置及び復号化装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0993135A true JPH0993135A (ja) | 1997-04-04 |
Family
ID=17506847
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7271931A Pending JPH0993135A (ja) | 1995-09-26 | 1995-09-26 | 発声音データの符号化装置及び復号化装置 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US5828993A (ja) |
| JP (1) | JPH0993135A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020194558A (ja) * | 2018-08-10 | 2020-12-03 | ヤマハ株式会社 | 情報処理方法 |
| CN115565540A (zh) * | 2022-12-05 | 2023-01-03 | 浙江大学 | 一种侵入式脑机接口汉语发音解码方法 |
| JP2024518647A (ja) * | 2021-05-21 | 2024-05-01 | 華為技術有限公司 | エンコーディング方法および装置、デコーディング方法および装置、デバイス、記憶媒体、ならびにコンピュータプログラム |
Families Citing this family (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6163765A (en) * | 1998-03-30 | 2000-12-19 | Motorola, Inc. | Subband normalization, transformation, and voiceness to recognize phonemes for text messaging in a radio communication system |
| US6151572A (en) * | 1998-04-27 | 2000-11-21 | Motorola, Inc. | Automatic and attendant speech to text conversion in a selective call radio system and method |
| US6073094A (en) * | 1998-06-02 | 2000-06-06 | Motorola | Voice compression by phoneme recognition and communication of phoneme indexes and voice features |
| US6754265B1 (en) * | 1999-02-05 | 2004-06-22 | Honeywell International Inc. | VOCODER capable modulator/demodulator |
| JP4538705B2 (ja) * | 2000-08-02 | 2010-09-08 | ソニー株式会社 | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 |
| US7136811B2 (en) * | 2002-04-24 | 2006-11-14 | Motorola, Inc. | Low bandwidth speech communication using default and personal phoneme tables |
| US20080208571A1 (en) * | 2006-11-20 | 2008-08-28 | Ashok Kumar Sinha | Maximum-Likelihood Universal Speech Iconic Coding-Decoding System (MUSICS) |
| KR101181970B1 (ko) * | 2010-07-09 | 2012-09-11 | (주)에프씨아이 | 송수신데이터의 복호화 방법 및 장치 |
| RU2460154C1 (ru) * | 2011-06-15 | 2012-08-27 | Александр Юрьевич Бредихин | Способ автоматизированной обработки текста и компьютерное устройство для реализации этого способа |
| CN102314884B (zh) * | 2011-08-16 | 2013-01-02 | 捷思锐科技(北京)有限公司 | 语音激活检测方法与装置 |
| US10062378B1 (en) * | 2017-02-24 | 2018-08-28 | International Business Machines Corporation | Sound identification utilizing periodic indications |
| KR102324776B1 (ko) * | 2017-10-16 | 2021-11-10 | 현대자동차주식회사 | 차량의 소음원인 진단방법 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS60116000A (ja) * | 1983-11-28 | 1985-06-22 | ケイディディ株式会社 | 音声符号化装置 |
| US5737716A (en) * | 1995-12-26 | 1998-04-07 | Motorola | Method and apparatus for encoding speech using neural network technology for speech classification |
-
1995
- 1995-09-26 JP JP7271931A patent/JPH0993135A/ja active Pending
-
1996
- 1996-09-25 US US08/720,160 patent/US5828993A/en not_active Expired - Fee Related
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020194558A (ja) * | 2018-08-10 | 2020-12-03 | ヤマハ株式会社 | 情報処理方法 |
| US12340303B2 (en) | 2018-08-10 | 2025-06-24 | Yamaha Corporation | Computer-implemented method and device for generating frequency component vector of time-series data |
| JP2024518647A (ja) * | 2021-05-21 | 2024-05-01 | 華為技術有限公司 | エンコーディング方法および装置、デコーディング方法および装置、デバイス、記憶媒体、ならびにコンピュータプログラム |
| CN115565540A (zh) * | 2022-12-05 | 2023-01-03 | 浙江大学 | 一种侵入式脑机接口汉语发音解码方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| US5828993A (en) | 1998-10-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN107945811B (zh) | 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法 | |
| KR100427753B1 (ko) | 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치 | |
| JPH0993135A (ja) | 発声音データの符号化装置及び復号化装置 | |
| JPH1084284A (ja) | 信号再生方法および装置 | |
| CN113314132A (zh) | 一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置 | |
| CN100592388C (zh) | 音乐信息编码设备及方法和音乐信息解码设备及方法 | |
| Zhu et al. | Sound texture modeling and time-frequency LPC | |
| JPH09152896A (ja) | 声道予測係数符号化・復号化回路、声道予測係数符号化回路、声道予測係数復号化回路、音声符号化装置及び音声復号化装置 | |
| KR100750115B1 (ko) | 오디오 신호 부호화 및 복호화 방법 및 그 장치 | |
| WO2002021091A1 (en) | Noise signal analyzer, noise signal synthesizer, noise signal analyzing method, and noise signal synthesizing method | |
| Iwakami et al. | Audio coding using transform‐domain weighted interleave vector quantization (twin VQ) | |
| CN117334204A (zh) | 信号处理方法、装置、计算机设备、存储介质及程序产品 | |
| JP4281131B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
| JP3348759B2 (ja) | 変換符号化方法および変換復号化方法 | |
| Dong et al. | Structures for SNR scalable speech coding | |
| JPH09127992A (ja) | 発声音データの復号化装置 | |
| JPH0944192A (ja) | 楽音データの符号化装置及び復号化装置 | |
| JP3183072B2 (ja) | 音声符号化装置 | |
| JPH04213500A (ja) | 音声の符号化方法及び装置 | |
| JP3010655B2 (ja) | 圧縮符号化装置及び方法、並びに復号装置及び方法 | |
| Li et al. | Research on Audio Processing Method Based on 3D Technology | |
| JP3006790B2 (ja) | 音声符号化復号化方法及びその装置 | |
| Kim et al. | Controllable and Interpretable Singing Voice Decomposition via Assem-VC | |
| JP2003323200A (ja) | 音声符号化のための線形予測係数の勾配降下最適化 | |
| WO2002005433A1 (en) | A method, a device and a system for compressing a musical and voice signal |