JPH10307599A - スプラインを使用する波形補間音声コーディング - Google Patents
スプラインを使用する波形補間音声コーディングInfo
- Publication number
- JPH10307599A JPH10307599A JP10057604A JP5760498A JPH10307599A JP H10307599 A JPH10307599 A JP H10307599A JP 10057604 A JP10057604 A JP 10057604A JP 5760498 A JP5760498 A JP 5760498A JP H10307599 A JPH10307599 A JP H10307599A
- Authority
- JP
- Japan
- Prior art keywords
- spline
- signal
- time domain
- decoder
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001228 spectrum Methods 0.000 abstract description 75
- 230000002776 aggregation Effects 0.000 abstract 2
- 238000004220 aggregation Methods 0.000 abstract 2
- 230000001172 regenerating effect Effects 0.000 abstract 1
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 239000011295 pitch Substances 0.000 description 72
- 238000000034 method Methods 0.000 description 41
- 239000013598 vector Substances 0.000 description 28
- 230000006870 function Effects 0.000 description 22
- 230000008569 process Effects 0.000 description 18
- 238000000354 decomposition reaction Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 17
- 238000001914 filtration Methods 0.000 description 16
- 238000013139 quantization Methods 0.000 description 14
- 230000003595 spectral effect Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 230000000737 periodic effect Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 9
- 238000013459 approach Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 239000002131 composite material Substances 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- KWORUUGOSLYAGD-YPPDDXJESA-N esomeprazole magnesium Chemical group [Mg+2].C([S@](=O)C=1[N-]C2=CC=C(C=C2N=1)OC)C1=NC=C(C)C(OC)=C1C.C([S@](=O)C=1[N-]C2=CC=C(C=C2N=1)OC)C1=NC=C(C)C(OC)=C1C KWORUUGOSLYAGD-YPPDDXJESA-N 0.000 description 1
- 238000000695 excitation spectrum Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/097—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】
【課題】 本発明は、受信波形間の補間がそれに基づい
て生成されるスプライン係数を使用して行なわれるよう
な低ビットレート波形補間音声デコーダにおける波形補
間を行うための複雑さの低い方法と装置に関する。 【解決手段】 各々が対応するピッチ周期の音声信号セ
グメントを表す周波数領域パラメータの集合を含む2つ
の信号が波形補間エンコーダから受信される。その後、
受信された各信号からスプライン係数が生成されるが、
その際スプライン係数の各集合は、周波数領域パラメー
タの対応する集合の時間領域変換のスプライン表示を含
む。最後に、デコーダがスプライン表示間を補間し、再
生音声信号を合成するために使用される補間された時間
領域データを生成する。本発明のある実施形態では、少
なくとも1つのスプライン表示の時間スケールが修正さ
れ、相互の補間を可能にする。また、本発明の1つの例
示としての実施形態の1つによれば、3次スプライン表
示が使用されるが、他の例示としての実施形態によれ
ば、計数論的スプライン表示の新しい変形が有利にも利
用される。
て生成されるスプライン係数を使用して行なわれるよう
な低ビットレート波形補間音声デコーダにおける波形補
間を行うための複雑さの低い方法と装置に関する。 【解決手段】 各々が対応するピッチ周期の音声信号セ
グメントを表す周波数領域パラメータの集合を含む2つ
の信号が波形補間エンコーダから受信される。その後、
受信された各信号からスプライン係数が生成されるが、
その際スプライン係数の各集合は、周波数領域パラメー
タの対応する集合の時間領域変換のスプライン表示を含
む。最後に、デコーダがスプライン表示間を補間し、再
生音声信号を合成するために使用される補間された時間
領域データを生成する。本発明のある実施形態では、少
なくとも1つのスプライン表示の時間スケールが修正さ
れ、相互の補間を可能にする。また、本発明の1つの例
示としての実施形態の1つによれば、3次スプライン表
示が使用されるが、他の例示としての実施形態によれ
ば、計数論的スプライン表示の新しい変形が有利にも利
用される。
Description
【0001】
【発明の属する技術分野】本発明は、概して、低ビット
レート音声コーディングの分野に関し、より詳細には、
複雑さを低減して低ビットレート音声コーディングを行
うための方法と装置に関する。
レート音声コーディングの分野に関し、より詳細には、
複雑さを低減して低ビットレート音声コーディングを行
うための方法と装置に関する。
【0003】
【従来の技術、及び、発明が解決しようとする課題】音
声情報の通信は、音声を表す電気信号をあるチャネルま
たはネットワーク(「チャネル」)上で伝送することを
含むことが多い。音声通信において一般に遭遇する問題
は、制限された容量または帯域幅のチャネルを通じて音
声を伝送する方法である(現代のデジタル通信システム
では、帯域幅はビットレートによって表されることが多
い)。制限されたチャネル帯域幅の問題は普通、音声信
号を圧縮してチャネル帯域幅の要求に合致させる音声コ
ーディング・システムの適用によって扱われる。音声コ
ーディング・システムには、音声信号をチャネル上で伝
送するためのコード語に変換するエンコーダと、受信さ
れたコード語から音声を再生するデコーダとが含まれ
る。
声情報の通信は、音声を表す電気信号をあるチャネルま
たはネットワーク(「チャネル」)上で伝送することを
含むことが多い。音声通信において一般に遭遇する問題
は、制限された容量または帯域幅のチャネルを通じて音
声を伝送する方法である(現代のデジタル通信システム
では、帯域幅はビットレートによって表されることが多
い)。制限されたチャネル帯域幅の問題は普通、音声信
号を圧縮してチャネル帯域幅の要求に合致させる音声コ
ーディング・システムの適用によって扱われる。音声コ
ーディング・システムには、音声信号をチャネル上で伝
送するためのコード語に変換するエンコーダと、受信さ
れたコード語から音声を再生するデコーダとが含まれ
る。
【0004】一般的な問題として、信号圧縮を伴う大部
分の音声コーディング・システムの目的は、有声音声の
ような原音声の忠実な再生である。有声音声は、話者の
声帯が緊張し、準周期的に振動するとき発生する。時間
領域では、有声音声信号は、ピッチサイクルと呼ばれる
一連の同様だがゆっくりと変化する波形として現れる。
各ピッチサイクルは、ピッチ周期と呼ばれる周期を有す
る。ピッチサイクル波形と同様、ピッチ周期は、あるピ
ッチサイクルから次のピッチサイクルにゆっくりと変化
する。
分の音声コーディング・システムの目的は、有声音声の
ような原音声の忠実な再生である。有声音声は、話者の
声帯が緊張し、準周期的に振動するとき発生する。時間
領域では、有声音声信号は、ピッチサイクルと呼ばれる
一連の同様だがゆっくりと変化する波形として現れる。
各ピッチサイクルは、ピッチ周期と呼ばれる周期を有す
る。ピッチサイクル波形と同様、ピッチ周期は、あるピ
ッチサイクルから次のピッチサイクルにゆっくりと変化
する。
【0005】約8キロビット/秒(kbps)で動作す
る音声コーディング・システムの多くは、音声生成プロ
セスの知識を活用することによって原音声波形をコーデ
ィングする。こうしたいわゆる波形コーダの例としてコ
ード励起線形予測(CELP)音声コーディング・シス
テムがあるが、これは音声波形を時間と共に変化する線
形予測(LP)フィルタによってフィルタリングして残
差音声信号を生じることによってコーディングするもの
である。有声音声中、残差信号は一連のピッチサイクル
を含み、その各々にはピッチパルスと呼ばれる主要な経
過音とそれを取り巻く一連の低振幅振動とが含まれる。
残差信号はCELPシステムによってコードブックから
の基準化された固定長ベクトルの連結として表される。
有声音声の高いコーディング効率を達成するために、C
ELPの実現例の大部分にはまた、適当な周期で通信さ
れた信号の再生を促進する長期予測子(または適応コー
ドブック)も含まれる。しかし、時とともに改善されて
いるにもかかわらず、波形コーディング・システムに
は、6kb/s以下のレートで動作するとき、知覚的に
有意な歪みを有するものが多い。この歪みは通常雑音と
して特徴づけられる。
る音声コーディング・システムの多くは、音声生成プロ
セスの知識を活用することによって原音声波形をコーデ
ィングする。こうしたいわゆる波形コーダの例としてコ
ード励起線形予測(CELP)音声コーディング・シス
テムがあるが、これは音声波形を時間と共に変化する線
形予測(LP)フィルタによってフィルタリングして残
差音声信号を生じることによってコーディングするもの
である。有声音声中、残差信号は一連のピッチサイクル
を含み、その各々にはピッチパルスと呼ばれる主要な経
過音とそれを取り巻く一連の低振幅振動とが含まれる。
残差信号はCELPシステムによってコードブックから
の基準化された固定長ベクトルの連結として表される。
有声音声の高いコーディング効率を達成するために、C
ELPの実現例の大部分にはまた、適当な周期で通信さ
れた信号の再生を促進する長期予測子(または適応コー
ドブック)も含まれる。しかし、時とともに改善されて
いるにもかかわらず、波形コーディング・システムに
は、6kb/s以下のレートで動作するとき、知覚的に
有意な歪みを有するものが多い。この歪みは通常雑音と
して特徴づけられる。
【0006】例えば2.4kb/sのレートで動作する
低ビットレートコーディング・システムは一般にその性
質上パラメトリックである。すなわち、それらは定期的
な間隔で、音声信号のピッチ周期と空間エンベロープ
(またはホルマント)を記述するパラメータを伝送する
ことによって動作する。こうしたいわゆるパラメトリッ
ク・コーダの例がLPボコーダ・システムである。LP
ボコーダはピッチ周期毎に1つのパルスによって有声音
声信号をモデル化する。この基本技術は、とりわけ空間
エンベロープに関する伝送情報を含むよう増補される。
LPボコーダは一般に妥当な性能を提供するが、やはり
通常ブザー音として特徴づけられる知覚的に有意な歪み
を導入する。
低ビットレートコーディング・システムは一般にその性
質上パラメトリックである。すなわち、それらは定期的
な間隔で、音声信号のピッチ周期と空間エンベロープ
(またはホルマント)を記述するパラメータを伝送する
ことによって動作する。こうしたいわゆるパラメトリッ
ク・コーダの例がLPボコーダ・システムである。LP
ボコーダはピッチ周期毎に1つのパルスによって有声音
声信号をモデル化する。この基本技術は、とりわけ空間
エンベロープに関する伝送情報を含むよう増補される。
LPボコーダは一般に妥当な性能を提供するが、やはり
通常ブザー音として特徴づけられる知覚的に有意な歪み
を導入する。
【0007】上記で論じた種類および他の正弦コーディ
ング・システムで一般的な「反響」は、一般に、再生さ
れた音声信号に原有声音声にあるピッチサイクルの強弱
が(全体として、またはかなりの部分で)欠けているこ
との結果である。当然、こうした種類の歪みは、低いビ
ットレートでは音声の強弱に関する情報をコーディング
する音声コーディング・システムの能力が低下するため
より多く出現する。こうした問題は、波形補間および関
連する信号モデル化技術に基づくアルゴリズムの導入に
伴って扱われ、最近低レート音声コーディングにおける
大きな進歩を達成した。こうした技術の背後にある一般
的な概念は、原音声に関して送信される情報をできる限
り少なくする一方で、原音声の自然の変化を模倣するコ
ーディングされた信号を合成することである。この概念
は、音声が普通低レートでサンプリングおよび補間可能
なゆっくり変化する属性を伝えるという観測に基づいて
いる。信号中のかなりの量の情報は、ある重要な特徴が
忠実に再生成される限り捨てることができる。
ング・システムで一般的な「反響」は、一般に、再生さ
れた音声信号に原有声音声にあるピッチサイクルの強弱
が(全体として、またはかなりの部分で)欠けているこ
との結果である。当然、こうした種類の歪みは、低いビ
ットレートでは音声の強弱に関する情報をコーディング
する音声コーディング・システムの能力が低下するため
より多く出現する。こうした問題は、波形補間および関
連する信号モデル化技術に基づくアルゴリズムの導入に
伴って扱われ、最近低レート音声コーディングにおける
大きな進歩を達成した。こうした技術の背後にある一般
的な概念は、原音声に関して送信される情報をできる限
り少なくする一方で、原音声の自然の変化を模倣するコ
ーディングされた信号を合成することである。この概念
は、音声が普通低レートでサンプリングおよび補間可能
なゆっくり変化する属性を伝えるという観測に基づいて
いる。信号中のかなりの量の情報は、ある重要な特徴が
忠実に再生成される限り捨てることができる。
【0008】このタスクを達成する際使用される主要な
技術は波形補間(WI)と信号分解(SD)である。W
Iは合成プロセスで(すなわちデコーダで)使用され、
普通音声信号、特に有声領域で観測される平滑さの度合
いを維持する。平滑さを維持することによってコーディ
ング歪みに対する頑強性が向上する。一例として、ピッ
チが不意に(不自然に)でなく平滑に変化する場合、よ
り大きなピッチのエラーが知覚的に許容できる。同じこ
とが他の種類の歪みについても言える。SDによってコ
ーディング・システムがより重要な信号領域に焦点を当
て、あまり重要でない領域で伝えられる情報を捨てるこ
とが可能になる。WIコーダは、例えば、Y.Shoh
am「時間−周波数補間に基づく2.4〜4.0kbp
sでの高品質音声コーディング」、ICASSP’93
会報、II167〜170ページ、Y.Shoham
「時間−周波数補間に基づく2.4kbpsでの高品質
音声コーディング」、Eurospeech’93会
報、741〜744ページ、W.B.Kleijn他
「特性波形の分解に基づく音声コーダ」、ICASS
P’95会報、508〜511ページおよびW.B.K
leijn他「複雑さの低い補間コーダ」、ICASS
P’96会報、212〜215ページに説明されてい
る。WIコーダはまた、上記で援用した共通に譲渡され
た米国特許出願「プロトタイプ波形音声コーティングの
ための方法と装置」第08/667,295号および1
996年5月14日W.B.Kleijnに対して発行
された共通所有の米国特許第5,517,595号でも
説明されるが、この特許は、ここに記載されるのと同様
に、引用によって本明細書の記載に援用する。
技術は波形補間(WI)と信号分解(SD)である。W
Iは合成プロセスで(すなわちデコーダで)使用され、
普通音声信号、特に有声領域で観測される平滑さの度合
いを維持する。平滑さを維持することによってコーディ
ング歪みに対する頑強性が向上する。一例として、ピッ
チが不意に(不自然に)でなく平滑に変化する場合、よ
り大きなピッチのエラーが知覚的に許容できる。同じこ
とが他の種類の歪みについても言える。SDによってコ
ーディング・システムがより重要な信号領域に焦点を当
て、あまり重要でない領域で伝えられる情報を捨てるこ
とが可能になる。WIコーダは、例えば、Y.Shoh
am「時間−周波数補間に基づく2.4〜4.0kbp
sでの高品質音声コーディング」、ICASSP’93
会報、II167〜170ページ、Y.Shoham
「時間−周波数補間に基づく2.4kbpsでの高品質
音声コーディング」、Eurospeech’93会
報、741〜744ページ、W.B.Kleijn他
「特性波形の分解に基づく音声コーダ」、ICASS
P’95会報、508〜511ページおよびW.B.K
leijn他「複雑さの低い補間コーダ」、ICASS
P’96会報、212〜215ページに説明されてい
る。WIコーダはまた、上記で援用した共通に譲渡され
た米国特許出願「プロトタイプ波形音声コーティングの
ための方法と装置」第08/667,295号および1
996年5月14日W.B.Kleijnに対して発行
された共通所有の米国特許第5,517,595号でも
説明されるが、この特許は、ここに記載されるのと同様
に、引用によって本明細書の記載に援用する。
【0009】WIコーダは一般に低ビットレートで適度
に良好な品質の再生された音声を生じるが、こうした従
来技術のコーダは、例えば、低コスト端末での使用を商
業的に実現可能にするには高価すぎることが多い。従っ
て、充分な性能レベルを維持しつつ(すなわち、再生さ
れた音声の質に関して)従来技術のWIコーダより実質
上低い複雑さを有するWIコーダが入手可能になること
が望ましい。
に良好な品質の再生された音声を生じるが、こうした従
来技術のコーダは、例えば、低コスト端末での使用を商
業的に実現可能にするには高価すぎることが多い。従っ
て、充分な性能レベルを維持しつつ(すなわち、再生さ
れた音声の質に関して)従来技術のWIコーダより実質
上低い複雑さを有するWIコーダが入手可能になること
が望ましい。
【0010】
【課題を解決するための手段】本発明によれば、低ビッ
トレートWI音声デコーダで波形補間を行うための改善
された方法と装置が提供されるが、その際受信波形間の
補間はそれに基づいて生成されたスプライン係数を使用
して行われる。詳細には、各々が対応するピッチ周期の
音声信号セグメントを表す周波数領域パラメータの集合
を含む2つの信号がWIエンコーダから受信される。そ
の後、受信された各信号からスプライン係数が生成され
るが、その際スプライン係数の各集合は周波数領域パラ
メータの対応する集合の時間領域変換のスプライン表示
を含む。そして、最後に、デコーダはスプライン表示の
間を補間し、再生音声信号を合成するために使用される
補間時間領域データを生成する。本発明のある実施形態
では、少なくとも1つのスプライン表示の時間スケール
が修正され、相互の補間を可能にする。また、本発明の
1つの例示としての実施形態によれば、3次スプライン
表示が使用されるが、他の例示としての実施形態によれ
ば、新しい種類の係数論的スプライン表示が有利にも利
用される。
トレートWI音声デコーダで波形補間を行うための改善
された方法と装置が提供されるが、その際受信波形間の
補間はそれに基づいて生成されたスプライン係数を使用
して行われる。詳細には、各々が対応するピッチ周期の
音声信号セグメントを表す周波数領域パラメータの集合
を含む2つの信号がWIエンコーダから受信される。そ
の後、受信された各信号からスプライン係数が生成され
るが、その際スプライン係数の各集合は周波数領域パラ
メータの対応する集合の時間領域変換のスプライン表示
を含む。そして、最後に、デコーダはスプライン表示の
間を補間し、再生音声信号を合成するために使用される
補間時間領域データを生成する。本発明のある実施形態
では、少なくとも1つのスプライン表示の時間スケール
が修正され、相互の補間を可能にする。また、本発明の
1つの例示としての実施形態によれば、3次スプライン
表示が使用されるが、他の例示としての実施形態によれ
ば、新しい種類の係数論的スプライン表示が有利にも利
用される。
【0011】
<A.波形補間の概観>WI法はスペクトルの時間シー
ケンスの処理に基づいている。このシーケンスにおける
スペクトルは、例えば、音声信号のピッチ長スナップシ
ョットの位相緩和離散フーリエ変換(DFT)である。
さらに、スペクトルの位相は循環シフトの対象となる。
スナップショットは、原則として1つのサンプルと同じ
短いアップデート間隔に得られる。こうしたアップデー
ト間隔は全体としてピッチに依存するが、有効な処理の
ために、好適にはピッチ周期に動的に適合される。
ケンスの処理に基づいている。このシーケンスにおける
スペクトルは、例えば、音声信号のピッチ長スナップシ
ョットの位相緩和離散フーリエ変換(DFT)である。
さらに、スペクトルの位相は循環シフトの対象となる。
スナップショットは、原則として1つのサンプルと同じ
短いアップデート間隔に得られる。こうしたアップデー
ト間隔は全体としてピッチに依存するが、有効な処理の
ために、好適にはピッチ周期に動的に適合される。
【0012】WIプロセスが以下例示として説明され
る。S(t,K)は時間tにおけるスナップショットの
DFTであり、ピッチ周期P(t)は時間とともに変化
する。U(t,c)によって示されるS(t,K)の逆
DFT(IDFT)が、T秒の大きさの一定のDFT基
底関数サポートに関連して得られる。これは時間スケー
ル正規化として知られ、当業技術分野に熟練した者には
周知である。この正規化によって、U(t,c)は周期
Tを有する軸cに沿った周期関数として見られる。2つ
の連続するスナップショットをt0 とt1 で取ると、S
(t1 ,K)は、最大相関に関する循環シフトによって
S(t0 ,K)と整合するので有利である。従って、ピ
ッチ信号がゆっくり変化する場合、2次元曲面U(t,
c)はt軸に沿って平滑である。この状態は図1に例示
として示されているが、ここではすべての波形はc軸に
沿って同じ周期Tを有し、t軸に沿ってゆっくり変化す
る。実際には、曲面U(t,c)は何らかの特定の点で
はなく、スペクトルS(t0,K)およびS(t1 ,
K)に対応する境界波形U(t0 ,c)およびU
(t1,c)で与えられる。中間の数値は、以下説明さ
れるように、有利にもこれらのスペクトルから補間され
る。U(t,c)における変数「c」は正規化ピッチサ
イクルの数を示す。音声信号の場合、これは、c(t)
によって示される時間の関数であり、次の式によって与
えられる。
る。S(t,K)は時間tにおけるスナップショットの
DFTであり、ピッチ周期P(t)は時間とともに変化
する。U(t,c)によって示されるS(t,K)の逆
DFT(IDFT)が、T秒の大きさの一定のDFT基
底関数サポートに関連して得られる。これは時間スケー
ル正規化として知られ、当業技術分野に熟練した者には
周知である。この正規化によって、U(t,c)は周期
Tを有する軸cに沿った周期関数として見られる。2つ
の連続するスナップショットをt0 とt1 で取ると、S
(t1 ,K)は、最大相関に関する循環シフトによって
S(t0 ,K)と整合するので有利である。従って、ピ
ッチ信号がゆっくり変化する場合、2次元曲面U(t,
c)はt軸に沿って平滑である。この状態は図1に例示
として示されているが、ここではすべての波形はc軸に
沿って同じ周期Tを有し、t軸に沿ってゆっくり変化す
る。実際には、曲面U(t,c)は何らかの特定の点で
はなく、スペクトルS(t0,K)およびS(t1 ,
K)に対応する境界波形U(t0 ,c)およびU
(t1,c)で与えられる。中間の数値は、以下説明さ
れるように、有利にもこれらのスペクトルから補間され
る。U(t,c)における変数「c」は正規化ピッチサ
イクルの数を示す。音声信号の場合、これは、c(t)
によって示される時間の関数であり、次の式によって与
えられる。
【数1】 時間tにおけるサイクルの数値を与えると、点(t,c
(t))で曲面をサンプリングすることによって1次元
信号s(t)が生成される。すなわち、 s(t) = U(t,c(t)) (2) 図1に例示されるように、s(t)は、c(t)によっ
て定義される経路に沿った、すなわち位置(t、c
(t))にあるU(t,c)をサンプリングすることに
よって生成される。完全な曲面U(t,c)は、図1に
例示としての目的のためにだけ示される。実際には、普
通サンプリングの前に曲面全体を生成(すなわち補間)
する必要はない。サンプリング経路(t,c(t))の
これらの数値だけが有利にも次の計算によって決定され
る。
(t))で曲面をサンプリングすることによって1次元
信号s(t)が生成される。すなわち、 s(t) = U(t,c(t)) (2) 図1に例示されるように、s(t)は、c(t)によっ
て定義される経路に沿った、すなわち位置(t、c
(t))にあるU(t,c)をサンプリングすることに
よって生成される。完全な曲面U(t,c)は、図1に
例示としての目的のためにだけ示される。実際には、普
通サンプリングの前に曲面全体を生成(すなわち補間)
する必要はない。サンプリング経路(t,c(t))の
これらの数値だけが有利にも次の計算によって決定され
る。
【数2】 ここでスペクトルS(t,K)は次の2つの境界スペク
トルから補間される。 S(t,K)=α(t)S(t0,K)+β(t)S(t1,K) t0<t<t1 (4) 関数α(t)およびβ(t)は、例えば、線形補間を表
すが、他の補間規則、詳細にはスペクトルの振幅と位相
を別々に補間するものなどが代替的に利用されることも
ある。サイクル関数c(t)も補間によって得られるの
で有利である。第1に、ピッチ関数P(t)がその境界
数値P(t0 )およびP(t1 )から補間され、その後
上記の式(1)がt0 <t<t1 について計算される。
トルから補間される。 S(t,K)=α(t)S(t0,K)+β(t)S(t1,K) t0<t<t1 (4) 関数α(t)およびβ(t)は、例えば、線形補間を表
すが、他の補間規則、詳細にはスペクトルの振幅と位相
を別々に補間するものなどが代替的に利用されることも
ある。サイクル関数c(t)も補間によって得られるの
で有利である。第1に、ピッチ関数P(t)がその境界
数値P(t0 )およびP(t1 )から補間され、その後
上記の式(1)がt0 <t<t1 について計算される。
【0013】アップデート・スペクトルの忠実な伝送を
仮定すると、信号s(t)は原音声の重要な特性の大部
分を有する。詳細には、そのピッチ・トラックは、たと
えピッチの同期が使用されず、アップデート時間がピッ
チと無関係であっても原音声のそれに従っている。これ
は低レート・コーディングのために有利な大量の情報の
低減を意味する。
仮定すると、信号s(t)は原音声の重要な特性の大部
分を有する。詳細には、そのピッチ・トラックは、たと
えピッチの同期が使用されず、アップデート時間がピッ
チと無関係であっても原音声のそれに従っている。これ
は低レート・コーディングのために有利な大量の情報の
低減を意味する。
【0014】非周期的(無声)音声セグメントでは、ピ
ッチは本質的に任意の数値がエンコーダのピッチ検出器
によって計算されるものすべてに設定されるので、真の
ピッチ・サイクルを表さない。さらに、結果として生じ
るピッチの数値はピッチ・トラックを平滑にするために
修正されるので有利である。こうしたピッチは、その真
の性質に関わらず、同じ方法でシステムによって使用さ
れる。このアプローチは有利にも音声化の分類を除去
し、頑強な処理を提供する。この場合でも、(実際はす
べての信号について)上記で説明した補間の枠組みは、
アップデート間隔がピッチ周期の半分未満の時はいつで
も良好に機能することに留意されたい。
ッチは本質的に任意の数値がエンコーダのピッチ検出器
によって計算されるものすべてに設定されるので、真の
ピッチ・サイクルを表さない。さらに、結果として生じ
るピッチの数値はピッチ・トラックを平滑にするために
修正されるので有利である。こうしたピッチは、その真
の性質に関わらず、同じ方法でシステムによって使用さ
れる。このアプローチは有利にも音声化の分類を除去
し、頑強な処理を提供する。この場合でも、(実際はす
べての信号について)上記で説明した補間の枠組みは、
アップデート間隔がピッチ周期の半分未満の時はいつで
も良好に機能することに留意されたい。
【0015】<B.WIコーダにおける信号分解の概観
>WIエンコーダは通常有効な圧縮のために音声信号を
分析し分解する。詳細には、信号分解は2つのレベルで
行われるので有利である。第1のレベルでは、標準10
次LPC分析が、例えば、25msecのフレームにわ
たるフレーム毎に一度行われ、スペクトル・エンベロー
プ(LPC)パラメータおよびLP残差信号を得る。こ
の方法による信号の分割はスペクトルの知覚的に有効な
量子化を考慮している。高品質の再生音声を生じるため
にはスペクトル・エンベロープの適度に正確なコーディ
ングが好適であるが、特に高い周波数では、微細構造の
LP残差スペクトルのかなりの歪みが許容されることが
多い。このことを考慮して、残差信号は有利にも第2レ
ベルの分解を経験するが、その目的は信号を構造化成分
と非構造化成分とに分解することである。構造化信号は
本質的に周期的であるが、非構造化成分は非周期的で本
質的にランダム(すなわち雑音状)である。
>WIエンコーダは通常有効な圧縮のために音声信号を
分析し分解する。詳細には、信号分解は2つのレベルで
行われるので有利である。第1のレベルでは、標準10
次LPC分析が、例えば、25msecのフレームにわ
たるフレーム毎に一度行われ、スペクトル・エンベロー
プ(LPC)パラメータおよびLP残差信号を得る。こ
の方法による信号の分割はスペクトルの知覚的に有効な
量子化を考慮している。高品質の再生音声を生じるため
にはスペクトル・エンベロープの適度に正確なコーディ
ングが好適であるが、特に高い周波数では、微細構造の
LP残差スペクトルのかなりの歪みが許容されることが
多い。このことを考慮して、残差信号は有利にも第2レ
ベルの分解を経験するが、その目的は信号を構造化成分
と非構造化成分とに分解することである。構造化信号は
本質的に周期的であるが、非構造化成分は非周期的で本
質的にランダム(すなわち雑音状)である。
【0016】高度低レート音声コーダでは、様々な方法
と手順のこの種の基本的分解を使用するものが多いが、
大部分のWIコーダでは、2次レベル分解は、ゆっくり
変化する波形(SEW)と急速に変化する波形(RE
W)の概念を使用して行われる(例えば、各々上記で援
用されたW.B.Kleijn他「特性波形の分解に基
づく音声コーダ」および米国特許第5,517,595
号を参照されたい)。このアプローチは、有声の(すな
わち大部分周期的な)音声セグメントでは、ピッチやス
ペクトル・パラメータのような音響的特徴は比較的ゆっ
くり変化するが、無声セグメントではこれらの特徴はよ
り早く変化するという観測に基づいている。従って、信
号がSEW成分とREW成分に分割される場合、SEW
は大部分周期的な成分を表し、REW成分は大部分非周
期的な雑音状信号を表す。この分解はLP残差領域で行
われるので有利である。この目的のために、残差のアッ
プデート・スナップショットが、時間tn のピッチサイ
ズDFTを取り、それによってスペクトルR(tn ,
K)を生じることによって得られる。従って、この音声
スペクトルは、以下の式によって与えられる。 S(tn,K)=A(tn,K)R(tn,K) (5) ここでA(tn ,K)は時間tn のLPCスペクトルで
ある。
と手順のこの種の基本的分解を使用するものが多いが、
大部分のWIコーダでは、2次レベル分解は、ゆっくり
変化する波形(SEW)と急速に変化する波形(RE
W)の概念を使用して行われる(例えば、各々上記で援
用されたW.B.Kleijn他「特性波形の分解に基
づく音声コーダ」および米国特許第5,517,595
号を参照されたい)。このアプローチは、有声の(すな
わち大部分周期的な)音声セグメントでは、ピッチやス
ペクトル・パラメータのような音響的特徴は比較的ゆっ
くり変化するが、無声セグメントではこれらの特徴はよ
り早く変化するという観測に基づいている。従って、信
号がSEW成分とREW成分に分割される場合、SEW
は大部分周期的な成分を表し、REW成分は大部分非周
期的な雑音状信号を表す。この分解はLP残差領域で行
われるので有利である。この目的のために、残差のアッ
プデート・スナップショットが、時間tn のピッチサイ
ズDFTを取り、それによってスペクトルR(tn ,
K)を生じることによって得られる。従って、この音声
スペクトルは、以下の式によって与えられる。 S(tn,K)=A(tn,K)R(tn,K) (5) ここでA(tn ,K)は時間tn のLPCスペクトルで
ある。
【0017】SEWシーケンスは、例えば、20Hz、
20タップ・ローパスフィルタを使用して、時間軸に沿
ってR(tn ,K)の各スペクトル成分を(すなわちK
の各数値について)フィルタリングすることによって得
られる。これからSEWスペクトルのシーケンス、SE
W(tn ,K)が生じるが、これは、例えば、1フレー
ム当たり1SEWスペクトルにダウンサンプリングされ
るので有利である。相補ハイパスフィルタを使用するこ
とによって、REWスペクトルのシーケンス、REW
(tn ,K)が同様に得られる。スペクトル・スナップ
ショットは普通正確なピッチサイクル間隔では得られな
いので、スペクトルS(tn )はフィルタリングの前に
整合されるので有利である。この整合は、例えば、時間
領域循環シフトと同等の高解像度位相整合を含み、現在
と以前とのスペクトルの相関を最大にするので有利であ
る。これは位相の不整合による人工的なスペクトルの変
化を除去する。
20タップ・ローパスフィルタを使用して、時間軸に沿
ってR(tn ,K)の各スペクトル成分を(すなわちK
の各数値について)フィルタリングすることによって得
られる。これからSEWスペクトルのシーケンス、SE
W(tn ,K)が生じるが、これは、例えば、1フレー
ム当たり1SEWスペクトルにダウンサンプリングされ
るので有利である。相補ハイパスフィルタを使用するこ
とによって、REWスペクトルのシーケンス、REW
(tn ,K)が同様に得られる。スペクトル・スナップ
ショットは普通正確なピッチサイクル間隔では得られな
いので、スペクトルS(tn )はフィルタリングの前に
整合されるので有利である。この整合は、例えば、時間
領域循環シフトと同等の高解像度位相整合を含み、現在
と以前とのスペクトルの相関を最大にするので有利であ
る。これは位相の不整合による人工的なスペクトルの変
化を除去する。
【0018】1つの興味深い観測は、多くの他の分解方
法と異なって、この分解は(少なくとも原理的には)損
失がなく可逆的である、すなわちもとの(整列した)シ
ーケンスR(tn ,K)が回復できるということであ
る。従って、この方法ではコーディング性能に上限がな
い。SEWとREWが十分高いビットレートでコーディ
ングされれば、(完全な残差信号が正確に再生されるの
で)従来のWIデコーダによって非常に高品質の音声が
再生できる。
法と異なって、この分解は(少なくとも原理的には)損
失がなく可逆的である、すなわちもとの(整列した)シ
ーケンスR(tn ,K)が回復できるということであ
る。従って、この方法ではコーディング性能に上限がな
い。SEWとREWが十分高いビットレートでコーディ
ングされれば、(完全な残差信号が正確に再生されるの
で)従来のWIデコーダによって非常に高品質の音声が
再生できる。
【0019】スペクトルR(tn ,K)は有利にも正規
化され、K軸について単位平均2乗平均平方根(RM
S)値を有する。これはレベルの変動を除去し、SEW
/REW分析を向上させ、REWとSEWの量子化を容
易にする。RMSレベル(すなわち利得)は個別に量子
化されることもある。これはまたシステムが他のパラメ
ータと無関係に、信号レベルの知覚的に重要な変化(例
えば、有声音声の開始)に特別な注意を払うようにす
る。
化され、K軸について単位平均2乗平均平方根(RM
S)値を有する。これはレベルの変動を除去し、SEW
/REW分析を向上させ、REWとSEWの量子化を容
易にする。RMSレベル(すなわち利得)は個別に量子
化されることもある。これはまたシステムが他のパラメ
ータと無関係に、信号レベルの知覚的に重要な変化(例
えば、有声音声の開始)に特別な注意を払うようにす
る。
【0020】<C.従来の波形補間コーダ>図2は、エ
ンコーダ21およびデコーダ22を含む従来のWIコー
ダのブロック図を示す。エンコーダでは、LP分析(ブ
ロック212)が入力音声に適用され、LPフィルタが
使用されてLP残差が得られる(ブロック211)。ピ
ッチ推定器214が残差に適用され現在のピッチ周期が
得られる。ピッチサイズ・スナップショット(ブロック
213)が残差について取られ、DFTによって変換さ
れ正規化される(ブロック215)。結果として生じる
スペクトルのシーケンスはまず整合され(ブロック21
7)、時間軸に沿ってフィルタリングされてSEW(ブ
ロック218)およびREW(ブロック219)信号を
形成する。これらは量子化され、(ブロック212で生
成する)ピッチLP係数および(ブロック216で生成
する)スペクトル利得とともに伝送される。
ンコーダ21およびデコーダ22を含む従来のWIコー
ダのブロック図を示す。エンコーダでは、LP分析(ブ
ロック212)が入力音声に適用され、LPフィルタが
使用されてLP残差が得られる(ブロック211)。ピ
ッチ推定器214が残差に適用され現在のピッチ周期が
得られる。ピッチサイズ・スナップショット(ブロック
213)が残差について取られ、DFTによって変換さ
れ正規化される(ブロック215)。結果として生じる
スペクトルのシーケンスはまず整合され(ブロック21
7)、時間軸に沿ってフィルタリングされてSEW(ブ
ロック218)およびREW(ブロック219)信号を
形成する。これらは量子化され、(ブロック212で生
成する)ピッチLP係数および(ブロック216で生成
する)スペクトル利得とともに伝送される。
【0021】デコーダでは、コーディングされたREW
およびSEW信号がデコードされ結合(ブロック22
3)されて量子化励起スペクトルR(tn ,K)を形成
する。スペクトルはその後LPCスペクトルによって再
形成され、利得によって適切なRMSレベルに再基準化
され(ブロック222)、それによって量子化音声スペ
クトルS(tn ,K)を生じる。ここでこのスペクトル
は上記で説明したように補間され(ブロック224)、
最終的な再生信号を形成する。
およびSEW信号がデコードされ結合(ブロック22
3)されて量子化励起スペクトルR(tn ,K)を形成
する。スペクトルはその後LPCスペクトルによって再
形成され、利得によって適切なRMSレベルに再基準化
され(ブロック222)、それによって量子化音声スペ
クトルS(tn ,K)を生じる。ここでこのスペクトル
は上記で説明したように補間され(ブロック224)、
最終的な再生信号を形成する。
【0022】図2のWIコーダは、すべてのデータ、特
にREWおよびSEW信号について十分なビット・リソ
ースが利用可能である限り、高品質音声を提供すること
ができる。2つのフルサイズのスペクトルが表示されて
いるので、REW/SEW表示は、原則として、オーバ
ーサンプリングされていることに留意されたい。これは
量子化器に余分の負担をかける。低ビットレートでは、
以下さらに説明するように、ビットが不足しているの
で、REW/SEW表示は意味のある量子化を考慮し
て、通常大きく妥協される。例えば、2.4kbpsで
動作する通常の従来のWIコーダは、25msecのフ
レームサイズを使用するので、通常LPCデータに30
ビット、ピッチ情報に7ビット、SEWデータに7ビッ
ト、REWデータに6ビットおよび利得情報に10ビッ
トからなるビット割当てを利用するよう制限されてい
る。同様に、1.2kbpsのレートで動作する通常の
従来のWIコーダは37.5msecのフレームサイズ
を使用するので、通常LPCデータに25ビット、ピッ
チ情報に7ビット、SEWデータにビットなし、REW
データに5ビットおよび利得情報に7ビットからなるビ
ット割当てを利用するよう制限されている(1.2kb
psの場合、全体に平滑なLPスペクトルが仮定され、
SEW信号は、コーディングされたREW信号部分と相
補的なその一部分であると仮定されることに留意された
い)。
にREWおよびSEW信号について十分なビット・リソ
ースが利用可能である限り、高品質音声を提供すること
ができる。2つのフルサイズのスペクトルが表示されて
いるので、REW/SEW表示は、原則として、オーバ
ーサンプリングされていることに留意されたい。これは
量子化器に余分の負担をかける。低ビットレートでは、
以下さらに説明するように、ビットが不足しているの
で、REW/SEW表示は意味のある量子化を考慮し
て、通常大きく妥協される。例えば、2.4kbpsで
動作する通常の従来のWIコーダは、25msecのフ
レームサイズを使用するので、通常LPCデータに30
ビット、ピッチ情報に7ビット、SEWデータに7ビッ
ト、REWデータに6ビットおよび利得情報に10ビッ
トからなるビット割当てを利用するよう制限されてい
る。同様に、1.2kbpsのレートで動作する通常の
従来のWIコーダは37.5msecのフレームサイズ
を使用するので、通常LPCデータに25ビット、ピッ
チ情報に7ビット、SEWデータにビットなし、REW
データに5ビットおよび利得情報に7ビットからなるビ
ット割当てを利用するよう制限されている(1.2kb
psの場合、全体に平滑なLPスペクトルが仮定され、
SEW信号は、コーディングされたREW信号部分と相
補的なその一部分であると仮定されることに留意された
い)。
【0023】上記で説明した補間コーディングは計算上
複雑である。初期のWIコーダの中には実際に実時間よ
り動作の遅いものがあった。改良形の複雑さの低いWI
コーダが上記の「複雑さの低い補間コーダ」でW.B.
Kleijn他によって提案されたが、広範な適用業務
範囲で商業的に実行可能な代替案を提供するにはより複
雑さの低いコーダが必要である。詳細には、例えば、ネ
ットワーキングのような、他のタスクが中断されずに行
えるように、プロセッサの計算能力のわずかな部分だけ
が使用されるのが望ましい。
複雑である。初期のWIコーダの中には実際に実時間よ
り動作の遅いものがあった。改良形の複雑さの低いWI
コーダが上記の「複雑さの低い補間コーダ」でW.B.
Kleijn他によって提案されたが、広範な適用業務
範囲で商業的に実行可能な代替案を提供するにはより複
雑さの低いコーダが必要である。詳細には、例えば、ネ
ットワーキングのような、他のタスクが中断されずに行
えるように、プロセッサの計算能力のわずかな部分だけ
が使用されるのが望ましい。
【0024】通常のWIコーダでは、計算負荷の主な原
因は信号分解と補間処理であることに留意されたい。他
の重大な原因はピッチ・トラッキング、スペクトル整合
およびLPC量子化処理である。安価な実現を達成しよ
うとする場合、メモリの使用も重要な要素である。通常
の従来技術WIコーダは時間フィルタリング等の演算に
関するREWとSEWのシーケンスを保持するために多
量のRAMを必要とする。全体として、通常の従来のW
Iコーダでは約6KワードのRAMが必要である。さら
に、LPC量子化のために多量のROM(通常約11K
ワード)が必要である。
因は信号分解と補間処理であることに留意されたい。他
の重大な原因はピッチ・トラッキング、スペクトル整合
およびLPC量子化処理である。安価な実現を達成しよ
うとする場合、メモリの使用も重要な要素である。通常
の従来技術WIコーダは時間フィルタリング等の演算に
関するREWとSEWのシーケンスを保持するために多
量のRAMを必要とする。全体として、通常の従来のW
Iコーダでは約6KワードのRAMが必要である。さら
に、LPC量子化のために多量のROM(通常約11K
ワード)が必要である。
【0025】<D.3次スプラインを使用する複雑さの
低い波形補間>従来のWIコーダで行われる、上記で説
明したような波形補間処理は、部分的には、時間インス
タンス毎に全スペクトル・ベクトルを補間する必要があ
り、DFT形演算(例えば、上記の(3)の式の計算)
を実行する必要があるために非常に複雑である。式
(3)によって実行される三角関数の非正則サンプリン
グでは、この関数を実行するために有益な簡単な帰納的
方法がないためそれは一層複雑になっている。この問題
を解決するために、波形補間処理は、本発明の例示とし
ての実施形態に従って、以下のようなより簡単な方法に
近づけることができるので有利である。スペクトルS
(tn ,K)はまずゼロ・パディングによって固定した
基数2のサイズに増加される。逆高速フーリエ変換(I
FFT)がアップデート毎に一度行われ、固定サイズT
の時間信号が得られる。これらの信号は3次スプライン
係数ベクトルに変換される(以下より完全に説明される
3次スプライン係数は信号処理技術に熟練した者には周
知である)。このスプライン係数を使用すると、任意の
望ましい点の信号の連続時間推定のサンプルが生成され
るが、これは有利にも上記の式(1)の関数c(t)に
よって決定される動的時間基準化を考慮している。
低い波形補間>従来のWIコーダで行われる、上記で説
明したような波形補間処理は、部分的には、時間インス
タンス毎に全スペクトル・ベクトルを補間する必要があ
り、DFT形演算(例えば、上記の(3)の式の計算)
を実行する必要があるために非常に複雑である。式
(3)によって実行される三角関数の非正則サンプリン
グでは、この関数を実行するために有益な簡単な帰納的
方法がないためそれは一層複雑になっている。この問題
を解決するために、波形補間処理は、本発明の例示とし
ての実施形態に従って、以下のようなより簡単な方法に
近づけることができるので有利である。スペクトルS
(tn ,K)はまずゼロ・パディングによって固定した
基数2のサイズに増加される。逆高速フーリエ変換(I
FFT)がアップデート毎に一度行われ、固定サイズT
の時間信号が得られる。これらの信号は3次スプライン
係数ベクトルに変換される(以下より完全に説明される
3次スプライン係数は信号処理技術に熟練した者には周
知である)。このスプライン係数を使用すると、任意の
望ましい点の信号の連続時間推定のサンプルが生成され
るが、これは有利にも上記の式(1)の関数c(t)に
よって決定される動的時間基準化を考慮している。
【0026】信号のスプライン表示の使用は、信号を離
散的時間表示から連続時間表示に変換するための周知の
技術である(例えば、M.Unser他「B−スプライ
ン信号処理:第I部−理論」、米国電気電子学会信号処
理会報第41巻、第2号、1993年2月、821〜8
33ページ、M.Unser他「B−スプライン信号処
理:第II部−有効な設計」、米国電気電子学会信号処
理会報第41巻、第2号、1993年2月、834〜8
48ページおよびH.Hou他「画像補間とデジタル・
フィルタリングのための3次スプライン」、米国電気電
子学会音響信号処理会報第ASSP−26巻、第6号、
1978年12月、508〜517ページを参照された
い)。帯域制限された信号の場合、それはナイキスト・
サンプリングされた数値から連続信号を完全に再生する
はるかに高価な無限サポート「サイン(x)/x」フィ
ルタリング演算の代わりに使用できる。
散的時間表示から連続時間表示に変換するための周知の
技術である(例えば、M.Unser他「B−スプライ
ン信号処理:第I部−理論」、米国電気電子学会信号処
理会報第41巻、第2号、1993年2月、821〜8
33ページ、M.Unser他「B−スプライン信号処
理:第II部−有効な設計」、米国電気電子学会信号処
理会報第41巻、第2号、1993年2月、834〜8
48ページおよびH.Hou他「画像補間とデジタル・
フィルタリングのための3次スプライン」、米国電気電
子学会音響信号処理会報第ASSP−26巻、第6号、
1978年12月、508〜517ページを参照された
い)。帯域制限された信号の場合、それはナイキスト・
サンプリングされた数値から連続信号を完全に再生する
はるかに高価な無限サポート「サイン(x)/x」フィ
ルタリング演算の代わりに使用できる。
【0027】信号処理技術に熟練した者に周知のよう
に、信号のk次スプライン表示s(t)は、次の式のよ
うに定義される。
に、信号のk次スプライン表示s(t)は、次の式のよ
うに定義される。
【数3】 ここでqn はスプライン係数であり、Bk (t)は、区
分的k次多項式からなるスプライン連続時間基底関数で
ある。スプライン表示を使用する利点の1つは、基底関
数が小さな有限のサポートを有するという事実に見られ
る。すなわち、サイズk+1のサポートの時だけ非ゼロ
である。これは、式(6)の合計は実際にはk+1係数
についてだけ行えばよいということであり、従来の帯域
制限されたフィルタリングと比較して大きな計算負荷
(およびメモリ)の節約を意味する。基底サポートは、
n=−k+1,...,k−1の時、t=nの時点で、
ノードと呼ばれるk+1のセクションに分割される。基
底は対称的であり、Bk (0)=1でBk (t≧k−
1)=0である。従って、Bk (t)は(k−1)次多
項式を正のk−1セクションに割り当てることによって
完全に定義される。(k−1)(k+1)多項式パラメ
ータはノードに連続条件を課すことによって解かれる。
すなわち、Bk (t)の0次から(k−1)次の導関数
はノードで連続的であるので有利である。
分的k次多項式からなるスプライン連続時間基底関数で
ある。スプライン表示を使用する利点の1つは、基底関
数が小さな有限のサポートを有するという事実に見られ
る。すなわち、サイズk+1のサポートの時だけ非ゼロ
である。これは、式(6)の合計は実際にはk+1係数
についてだけ行えばよいということであり、従来の帯域
制限されたフィルタリングと比較して大きな計算負荷
(およびメモリ)の節約を意味する。基底サポートは、
n=−k+1,...,k−1の時、t=nの時点で、
ノードと呼ばれるk+1のセクションに分割される。基
底は対称的であり、Bk (0)=1でBk (t≧k−
1)=0である。従って、Bk (t)は(k−1)次多
項式を正のk−1セクションに割り当てることによって
完全に定義される。(k−1)(k+1)多項式パラメ
ータはノードに連続条件を課すことによって解かれる。
すなわち、Bk (t)の0次から(k−1)次の導関数
はノードで連続的であるので有利である。
【0028】3次スプラインがごく低い計算負荷で大部
分の信号の高品質補間を行うために十分であることは当
業技術分野に熟練した者には周知である。従って、本発
明の1つの例示としての実施形態によれば、3次スプラ
インが複雑さの低いWIコーダで波形補間を行う際使用
される。上記の定義をB3 (t)(すなわち3次スプラ
イン基底)に適用すると、当業技術分野に熟練した者に
明らかなように、式(6)は以下のような行列の形態に
なる。
分の信号の高品質補間を行うために十分であることは当
業技術分野に熟練した者には周知である。従って、本発
明の1つの例示としての実施形態によれば、3次スプラ
インが複雑さの低いWIコーダで波形補間を行う際使用
される。上記の定義をB3 (t)(すなわち3次スプラ
イン基底)に適用すると、当業技術分野に熟練した者に
明らかなように、式(6)は以下のような行列の形態に
なる。
【数4】 ここでn≦t≦n+1である。s(n)がサイズNの離
散時間サンプリング・シーケンスであるとし、その基礎
となる連続信号s(t)を推定することが望ましいとす
る。上記の式(7)から、t=nとすると、次の式が導
かれる。 s(n)=qn-1+4qn+qn+1 (8) これは、当業技術分野に普通に熟練した者には周知の、
IIR(無限インパルス応答)フィルタリング演算の形
態の、信号からスプライン係数への変換を定義する。こ
のフィルタは非因果的なので、安定した形態で実現する
には留意が必要である。また、2つの初期条件の適切な
組み合わせが選択される必要がある。当業技術分野にお
ける通常の技術を有する者には周知のように、安定した
アプローチの1つはフィルタリングを順方向(因果的)
演算と逆方向(非因果的)演算とに分割することであ
る。式(8)は、式(8)の補助シーケンスfnと安定
した極すなわち、p=2−√3を使用することによっ
て、容易に次の2つの1次帰納に分割することができ
る。 fn =pfn-1 +s(n);n=0〜N−1 qn =p(fn −qn+1 );n=N−1〜0 (9) この変換を完全に定義するために、初期値f-1とqn を
知る必要がある。それ自体、本発明の例示としての実施
形態の1つによれば、f-1=qn =0である。本発明に
よれば、これらの初期値を割り当てるために本質的に任
意の方法が使用できるが、異なった方法は、特に境界近
くではs(t)について異なった数値を生じることに留
意されたい。それにも関わらず、結果として生じるさま
ざまなs(t)はt=nでサンプリングされるとき、同
じシーケンスsnを生じるので有利である。
散時間サンプリング・シーケンスであるとし、その基礎
となる連続信号s(t)を推定することが望ましいとす
る。上記の式(7)から、t=nとすると、次の式が導
かれる。 s(n)=qn-1+4qn+qn+1 (8) これは、当業技術分野に普通に熟練した者には周知の、
IIR(無限インパルス応答)フィルタリング演算の形
態の、信号からスプライン係数への変換を定義する。こ
のフィルタは非因果的なので、安定した形態で実現する
には留意が必要である。また、2つの初期条件の適切な
組み合わせが選択される必要がある。当業技術分野にお
ける通常の技術を有する者には周知のように、安定した
アプローチの1つはフィルタリングを順方向(因果的)
演算と逆方向(非因果的)演算とに分割することであ
る。式(8)は、式(8)の補助シーケンスfnと安定
した極すなわち、p=2−√3を使用することによっ
て、容易に次の2つの1次帰納に分割することができ
る。 fn =pfn-1 +s(n);n=0〜N−1 qn =p(fn −qn+1 );n=N−1〜0 (9) この変換を完全に定義するために、初期値f-1とqn を
知る必要がある。それ自体、本発明の例示としての実施
形態の1つによれば、f-1=qn =0である。本発明に
よれば、これらの初期値を割り当てるために本質的に任
意の方法が使用できるが、異なった方法は、特に境界近
くではs(t)について異なった数値を生じることに留
意されたい。それにも関わらず、結果として生じるさま
ざまなs(t)はt=nでサンプリングされるとき、同
じシーケンスsnを生じるので有利である。
【0029】本発明の他の例示としての実施形態によれ
ば、初期条件を設定するための別の方法が利用される。
この方法はs(n)が周期Nを伴う周期的なものである
という仮定に基づいている。明らかに、これはqn も周
期的であることを意味する。この場合、s(n)とqn
の関係がDFT演算によって周波数領域で表される場
合、初期条件は暗黙のうちに決定され、これに関してそ
れ以上注意を払う必要はない。また、安定性はこの場合
重要でない。
ば、初期条件を設定するための別の方法が利用される。
この方法はs(n)が周期Nを伴う周期的なものである
という仮定に基づいている。明らかに、これはqn も周
期的であることを意味する。この場合、s(n)とqn
の関係がDFT演算によって周波数領域で表される場
合、初期条件は暗黙のうちに決定され、これに関してそ
れ以上注意を払う必要はない。また、安定性はこの場合
重要でない。
【0030】式(8)に関連するDFT領域フィルタH
(K)は次のシーケンスのDFTを計算することによっ
て得られる。
(K)は次のシーケンスのDFTを計算することによっ
て得られる。
【数5】 すなわち、H(K)=DFT{hn }である。同様に、
S(K)=DFT{s(n)}でありQ(K)=DFT
{qn }である。従って、式(8)のDFTバージョン
は単純にS(K)=H(K)Q(K)である。スプライ
ン・ウィンドウをW(K)=1/H(K)と定義する
と、次のスプライン変換が得られる。 Q(K)=W(K)S(K) (11) 複合ウィンドウW(K)は有利にも一度オフラインで計
算され、ROMに保存されることに留意されたい。ま
た、変換の複雑さは単に入力サンプル毎に3つの演算だ
けであり、これは実際、入力サンプル毎に4回の演算を
必要とする式(9)の時間領域対応部分のより少ないこ
とに留意されたい。しかし、時間領域スプライン係数を
得るためには、IDFTをQ(K)に適用する必要があ
る。WIデコーダによって処理されるデータはすでにD
FT領域で与えられている。これは信号S(t0 ,K)
である。従って、スプライン変換にはW(K)を使用す
るのが好都合である。また、WI処理のために必要な時
間スケールの正規化は、好都合にも単純にゼロをK番目
の軸に沿ってS(t0 ,K)に追加することによって行
われる。さらに、DFTは有利にも固定した基数2のサ
イズNに増加されるので、固定サイズIFFTが有利に
も利用できる。このIDFTの結果はサイズNのスプラ
イン係数シーケンスqn である。
S(K)=DFT{s(n)}でありQ(K)=DFT
{qn }である。従って、式(8)のDFTバージョン
は単純にS(K)=H(K)Q(K)である。スプライ
ン・ウィンドウをW(K)=1/H(K)と定義する
と、次のスプライン変換が得られる。 Q(K)=W(K)S(K) (11) 複合ウィンドウW(K)は有利にも一度オフラインで計
算され、ROMに保存されることに留意されたい。ま
た、変換の複雑さは単に入力サンプル毎に3つの演算だ
けであり、これは実際、入力サンプル毎に4回の演算を
必要とする式(9)の時間領域対応部分のより少ないこ
とに留意されたい。しかし、時間領域スプライン係数を
得るためには、IDFTをQ(K)に適用する必要があ
る。WIデコーダによって処理されるデータはすでにD
FT領域で与えられている。これは信号S(t0 ,K)
である。従って、スプライン変換にはW(K)を使用す
るのが好都合である。また、WI処理のために必要な時
間スケールの正規化は、好都合にも単純にゼロをK番目
の軸に沿ってS(t0 ,K)に追加することによって行
われる。さらに、DFTは有利にも固定した基数2のサ
イズNに増加されるので、固定サイズIFFTが有利に
も利用できる。このIDFTの結果はサイズNのスプラ
イン係数シーケンスqn である。
【0031】本発明の例示としての実施形態の1つによ
れば、ここで再生音声信号の最終的合成が以下のように
行われる。循環関数c(t)が使用され、正規化サイク
ルT=Nの小数部によってサンプリングの瞬間を探し出
す。式(7)に含まれる4つの関連するスプライン係数
が識別される。これらの係数は前回のアップデートのス
プライン・ベクトルからの対応する係数、すなわちS
(t-1,K)から得られたものによって補間される。最
後に、式(7)を使用して、数値s(t)が得られる。
この処理はtの十分な数値について繰り返され、出力信
号アップデート・バッファを満たすので有利である。c
(t)はアップデートを通じて連続性を維持しているこ
とに留意されたい。すなわち、それは前回のアップデー
トの最後の数値から増加する。しかし、これはモジュロ
Tの実行であり、基本周期の仮定と一線をなす。
れば、ここで再生音声信号の最終的合成が以下のように
行われる。循環関数c(t)が使用され、正規化サイク
ルT=Nの小数部によってサンプリングの瞬間を探し出
す。式(7)に含まれる4つの関連するスプライン係数
が識別される。これらの係数は前回のアップデートのス
プライン・ベクトルからの対応する係数、すなわちS
(t-1,K)から得られたものによって補間される。最
後に、式(7)を使用して、数値s(t)が得られる。
この処理はtの十分な数値について繰り返され、出力信
号アップデート・バッファを満たすので有利である。c
(t)はアップデートを通じて連続性を維持しているこ
とに留意されたい。すなわち、それは前回のアップデー
トの最後の数値から増加する。しかし、これはモジュロ
Tの実行であり、基本周期の仮定と一線をなす。
【0032】本発明による複雑さの低いWIコーダで使
用するための第1の例示としての波形補間処理のブロッ
ク図が図3に示される。詳細には、図3に示すWI処理
は上記の説明による3次スプラインを使用して波形補間
を実行する。すなわち、ブロック31では入力スペクト
ルにゼロをパディングし、固定した基数2のサイズを確
保する。その後、ブロック32では上記で説明したスプ
ライン変換を行い、ブロック33では結果として生じた
データのIFFTを行う。ブロック34は、スプライン
係数の補間が現在と過去の波形に基づいて行われる(ブ
ロック38)ように、結果として生じたデータの各集合
を保存するために使用される。ブロック36は現在の入
力ピッチの数値と(ブロック35で保存された)過去の
入力ピッチの数値を演算して動的時間正規化を行い、そ
れに基づいて、ブロック37ではブロック38で補間さ
れるスプライン係数が決定される。最後に、ブロック3
9で3次スプライン補間が行われ、結果として出力音声
波形が(時間領域で)生成される。
用するための第1の例示としての波形補間処理のブロッ
ク図が図3に示される。詳細には、図3に示すWI処理
は上記の説明による3次スプラインを使用して波形補間
を実行する。すなわち、ブロック31では入力スペクト
ルにゼロをパディングし、固定した基数2のサイズを確
保する。その後、ブロック32では上記で説明したスプ
ライン変換を行い、ブロック33では結果として生じた
データのIFFTを行う。ブロック34は、スプライン
係数の補間が現在と過去の波形に基づいて行われる(ブ
ロック38)ように、結果として生じたデータの各集合
を保存するために使用される。ブロック36は現在の入
力ピッチの数値と(ブロック35で保存された)過去の
入力ピッチの数値を演算して動的時間正規化を行い、そ
れに基づいて、ブロック37ではブロック38で補間さ
れるスプライン係数が決定される。最後に、ブロック3
9で3次スプライン補間が行われ、結果として出力音声
波形が(時間領域で)生成される。
【0033】<E.疑似計数論的スプラインを使用する
複雑さの低い波形補間>本発明の他の例示としての実施
形態によれば、上記で説明した方法の一変形が、スプラ
イン変換(すなわちスプライン・ウィンドウ)の使用を
除去することによって必要な計算をさらに低減する。こ
れは、信号処理技術に熟練した者には周知であり、例え
ば、上記で示したM.Unser他「B−スプライン信
号処理:第I部−理論」で説明されている計数論的スプ
ラインの概念に基づいている。計数論的スプライン表示
は基底関数に1つの追加条件すなわち、ノードで厳密に
ゼロである(t=nかつt≠0の場合B(t)=0)と
いう条件を課すことによって得られる。その結果、それ
はもはやローカル有限サポートを有さない。しかし、そ
れは、上記で論じた「サイン(x)/x」関数と同様、
急速に減衰することに留意されたい。本発明の例示とし
ての実施形態によってここで使用される疑似計数論的ス
プラインは、他の(すなわち連続性の)条件を緩和する
ことによってこの追加条件を満足させる有限サポート基
底関数の使用に基づいている。3次スプラインを使用す
る上記で説明した場合のように、−2≦t≦2のサポー
トに対する3次対称基底関数が使用される。しかし、次
の1つの追加条件が課される。 B3(1)=B3(−1)=0 (12) 従って、1つの連続性条件だけが放棄される。第2導関
数はノードt=−2およびt=2で任意の数値を有する
ことが許容される。基底関数とその第1導関数はこれら
の点でゼロであることに留意されたい。これらの条件下
で基底関数を導き、行列の形で補間演算を表すことによ
って次の式が与えられる。
複雑さの低い波形補間>本発明の他の例示としての実施
形態によれば、上記で説明した方法の一変形が、スプラ
イン変換(すなわちスプライン・ウィンドウ)の使用を
除去することによって必要な計算をさらに低減する。こ
れは、信号処理技術に熟練した者には周知であり、例え
ば、上記で示したM.Unser他「B−スプライン信
号処理:第I部−理論」で説明されている計数論的スプ
ラインの概念に基づいている。計数論的スプライン表示
は基底関数に1つの追加条件すなわち、ノードで厳密に
ゼロである(t=nかつt≠0の場合B(t)=0)と
いう条件を課すことによって得られる。その結果、それ
はもはやローカル有限サポートを有さない。しかし、そ
れは、上記で論じた「サイン(x)/x」関数と同様、
急速に減衰することに留意されたい。本発明の例示とし
ての実施形態によってここで使用される疑似計数論的ス
プラインは、他の(すなわち連続性の)条件を緩和する
ことによってこの追加条件を満足させる有限サポート基
底関数の使用に基づいている。3次スプラインを使用す
る上記で説明した場合のように、−2≦t≦2のサポー
トに対する3次対称基底関数が使用される。しかし、次
の1つの追加条件が課される。 B3(1)=B3(−1)=0 (12) 従って、1つの連続性条件だけが放棄される。第2導関
数はノードt=−2およびt=2で任意の数値を有する
ことが許容される。基底関数とその第1導関数はこれら
の点でゼロであることに留意されたい。これらの条件下
で基底関数を導き、行列の形で補間演算を表すことによ
って次の式が与えられる。
【数6】 ここでn≦t≦n+1であるが、これは行列の数値以外
は式(7)と同じである。t=0と設定することによっ
て(行列の一番下の列に留意されたい)入力サンプルと
スプライン係数との関係が与えられるが、これは単純に
次の式になる。 s(n)=qn (14) すなわち、入力サンプルそのものがスプライン係数であ
るので、それ以上の変換は必要ない。補間器の複雑さ
は、フィルタリングとウィンドウ処理が有利にも回避さ
れる以外は上記で説明した実施形態と同じである。これ
はサンプル毎に3つの演算を節約し、それによってデコ
ーダの複雑さをさらに低減する。さらに、現在と過去の
スプライン係数を保存する追加RAMの必要がなく、ス
プライン・ウィンドウを保持する追加ROMも必要ない
ことに留意されたい。
は式(7)と同じである。t=0と設定することによっ
て(行列の一番下の列に留意されたい)入力サンプルと
スプライン係数との関係が与えられるが、これは単純に
次の式になる。 s(n)=qn (14) すなわち、入力サンプルそのものがスプライン係数であ
るので、それ以上の変換は必要ない。補間器の複雑さ
は、フィルタリングとウィンドウ処理が有利にも回避さ
れる以外は上記で説明した実施形態と同じである。これ
はサンプル毎に3つの演算を節約し、それによってデコ
ーダの複雑さをさらに低減する。さらに、現在と過去の
スプライン係数を保存する追加RAMの必要がなく、ス
プライン・ウィンドウを保持する追加ROMも必要ない
ことに留意されたい。
【0034】疑似計数論的スプラインは本来の計数論的
スプラインに近似したものにすぎないので、疑似係数論
的スプラインに基づくアプローチの性能(すなわち、再
生された音声信号の質に関する性能)は、標準3次スプ
ラインに基づくものほどよくないと考えられることに留
意されたい。しかし、モデル化と量子化処理の際にデー
タに追加される歪みのレベルは、通常疑似計数論的スプ
ラインによる補間器の使用によって追加される雑音より
はるかに高い。従って、複雑さが低減される利点のほう
がこうした近似物を使用する欠点より重要である。
スプラインに近似したものにすぎないので、疑似係数論
的スプラインに基づくアプローチの性能(すなわち、再
生された音声信号の質に関する性能)は、標準3次スプ
ラインに基づくものほどよくないと考えられることに留
意されたい。しかし、モデル化と量子化処理の際にデー
タに追加される歪みのレベルは、通常疑似計数論的スプ
ラインによる補間器の使用によって追加される雑音より
はるかに高い。従って、複雑さが低減される利点のほう
がこうした近似物を使用する欠点より重要である。
【0035】本発明による複雑さの低いWIコーダで使
用するための第2の例示としての波形補間処理のブロッ
ク図が図4に示される。詳細には、図4に示すWI処理
が、上記の説明による疑似計数論的スプラインを使用し
て波形補間を実行する。すなわち、図4に示す例示とし
ての波形補間処理の動作は、スプライン変換(ブロック
32)が不要になるため除去され、3次スプライン補間
(ブロック39)が疑似計数論的スプライン補間(ブロ
ック49)によって代わる点以外は図3に示す例示とし
ての波形補間処理と同様である。
用するための第2の例示としての波形補間処理のブロッ
ク図が図4に示される。詳細には、図4に示すWI処理
が、上記の説明による疑似計数論的スプラインを使用し
て波形補間を実行する。すなわち、図4に示す例示とし
ての波形補間処理の動作は、スプライン変換(ブロック
32)が不要になるため除去され、3次スプライン補間
(ブロック39)が疑似計数論的スプライン補間(ブロ
ック49)によって代わる点以外は図3に示す例示とし
ての波形補間処理と同様である。
【0036】<F.複雑さの低い信号分解>上記で記し
たように、SEW/REW分析は、すべての高調波指標
KについてスペクトルR(tn ,K)の並列フィルタリ
ングを必要とする。従来のWIコーダでは、これは通常
20タップ・フィルタを使用して行われる。これは従来
技術のWIコーダの全体的な複雑さの主要な原因であ
る。詳細には、この処理はコード化して伝送する必要の
あるスペクトルの2つのシーケンス、すなわちSEWシ
ーケンスとREWシーケンスを生成する。SEWシーケ
ンスは量子化の前にダウンサンプリングできるが、RE
Wは完全な時間と周波数の解像度で量子化する必要があ
る。しかし、2.4kbps以下のコーディング・レー
トでは、通常のビットの余裕(上記を参照)は小さすぎ
て、データの有益な表示を生じることができない。この
問題の一例として、ピッチ周期80サンプルで、アップ
デート間隔約12msecの場合を検討してみよう。通
常のフレームサイズを25msecとすると、各フレー
ム毎に約2回のアップデートがある。通常、振幅のDF
Tだけが量子化されるので、1フレーム中量子化される
のは(80/2)x2=80REWの数値である。しか
し、ビットの余裕が許容するのは、REW量子化器につ
いて6ビット/フレーム(すなわち、3ビット/スペク
トラム)、すなわち、0.075ビット/成分だけであ
る。明らかに、この場合伝送できるのはREWの振幅ス
ペクトルの非常に大まかな近似値だけである。実際、上
記で示したW.B.Kleijn他「複雑さの低い補間
コーダ」では、REW信号は多項式曲線近似技術を使用
して徹底的に平滑にされ、わずか5パラメータにパラメ
ータ化される。
たように、SEW/REW分析は、すべての高調波指標
KについてスペクトルR(tn ,K)の並列フィルタリ
ングを必要とする。従来のWIコーダでは、これは通常
20タップ・フィルタを使用して行われる。これは従来
技術のWIコーダの全体的な複雑さの主要な原因であ
る。詳細には、この処理はコード化して伝送する必要の
あるスペクトルの2つのシーケンス、すなわちSEWシ
ーケンスとREWシーケンスを生成する。SEWシーケ
ンスは量子化の前にダウンサンプリングできるが、RE
Wは完全な時間と周波数の解像度で量子化する必要があ
る。しかし、2.4kbps以下のコーディング・レー
トでは、通常のビットの余裕(上記を参照)は小さすぎ
て、データの有益な表示を生じることができない。この
問題の一例として、ピッチ周期80サンプルで、アップ
デート間隔約12msecの場合を検討してみよう。通
常のフレームサイズを25msecとすると、各フレー
ム毎に約2回のアップデートがある。通常、振幅のDF
Tだけが量子化されるので、1フレーム中量子化される
のは(80/2)x2=80REWの数値である。しか
し、ビットの余裕が許容するのは、REW量子化器につ
いて6ビット/フレーム(すなわち、3ビット/スペク
トラム)、すなわち、0.075ビット/成分だけであ
る。明らかに、この場合伝送できるのはREWの振幅ス
ペクトルの非常に大まかな近似値だけである。実際、上
記で示したW.B.Kleijn他「複雑さの低い補間
コーダ」では、REW信号は多項式曲線近似技術を使用
して徹底的に平滑にされ、わずか5パラメータにパラメ
ータ化される。
【0037】同様の状況がSEW信号についても存在す
る。通常のビットの余裕(上記を参照)によればフレー
ム毎に7ビットのみが利用可能である。従って、約80
0HzのSEWベースバンド・スペクトルのみが通常コ
ーディングされる。それより高い帯域は通常全体に平滑
なLPスペクトルを仮定して推定されるので、次の式の
ようになる。 SEW(t,K)+REW(t,K)=1 (15) LPスペクトルの平滑さに関するこの推定は、低レート
音声コーディング、詳細にはWIによるコーダで広範に
使用されてきた。これはビットのリソースがない場合に
行うには妥当な推定であるが、特に通常のWIコーダの
場合のように短いフレームについてスペクトルを取る場
合にはLPスペクトルの著しい表示不足である。そのた
めSEW信号とREW信号は量子化処理で大きく歪めら
れ、コーディングの後原信号の信号特性の多くは残らな
い。
る。通常のビットの余裕(上記を参照)によればフレー
ム毎に7ビットのみが利用可能である。従って、約80
0HzのSEWベースバンド・スペクトルのみが通常コ
ーディングされる。それより高い帯域は通常全体に平滑
なLPスペクトルを仮定して推定されるので、次の式の
ようになる。 SEW(t,K)+REW(t,K)=1 (15) LPスペクトルの平滑さに関するこの推定は、低レート
音声コーディング、詳細にはWIによるコーダで広範に
使用されてきた。これはビットのリソースがない場合に
行うには妥当な推定であるが、特に通常のWIコーダの
場合のように短いフレームについてスペクトルを取る場
合にはLPスペクトルの著しい表示不足である。そのた
めSEW信号とREW信号は量子化処理で大きく歪めら
れ、コーディングの後原信号の信号特性の多くは残らな
い。
【0038】原残差信号の分析(例えば、分解)とWI
コーディング環境で実際に行われる量子化解像度との実
質上の不整合の存在を認識して、本発明の1つの例示と
しての実施形態は従来技術のWIコーダで行われるもの
より単純な分析を提供する。詳細には、量子化段階で情
報の大部分が失われるだけの非常に高解像度の非常に高
価な分析を行う必要はないということが認識される。コ
ーダの性能は本質的に量子化器によって決定されるの
で、理論上より単純な分析が使用可能である。従って、
本発明の例示としての実施形態によれば、信号分解およ
びコーディングのタスクに対して新しいアプローチがな
され、SEWとREWが定義され処理される方法を変え
る。
コーディング環境で実際に行われる量子化解像度との実
質上の不整合の存在を認識して、本発明の1つの例示と
しての実施形態は従来技術のWIコーダで行われるもの
より単純な分析を提供する。詳細には、量子化段階で情
報の大部分が失われるだけの非常に高解像度の非常に高
価な分析を行う必要はないということが認識される。コ
ーダの性能は本質的に量子化器によって決定されるの
で、理論上より単純な分析が使用可能である。従って、
本発明の例示としての実施形態によれば、信号分解およ
びコーディングのタスクに対して新しいアプローチがな
され、SEWとREWが定義され処理される方法を変え
る。
【0039】<1.非構造化成分の複雑さの低い信号分
解>本発明の1つの例示としての実施形態によれば、残
差信号の非構造化成分は単に適切に整合された正規化電
流と以前のスペクトルとの差を得ることによって表され
る。これは、通常従来のWIコーダに見られる20次フ
ィルタを1次フィルタに代えることによって生じるRE
W信号生成の単純化と本質的に同等である。例えば、有
声音声では、この差は非構造化ランダム成分を反映す
る。これをここでは単純にランダム・スペクトル(R
S)と呼ぶ。RSは低次(2次または3次)直交多項式
展開(例えば、スペクトル毎に3または4のパラメータ
を使用する)によって平滑化されるので有利である。こ
れは、どちらのスペクトルもほとんどいつも周波数とと
もに単調に増大する通常の平滑化されたSEW信号と通
常の平滑化されたRSを検討することによって見られ
る。言い換えれば、残差信号は、高い周波数帯域では常
に単調に構造化の度合いが少ない。各RSをコーディン
グするビットの割当てが3ビットだけだと仮定すると
(上記の通常のビット割当ての議論を参照されたい)、
RS量子化器によって使用できるのは、こうして平滑化
されたスペクトルのうち8だけである。
解>本発明の1つの例示としての実施形態によれば、残
差信号の非構造化成分は単に適切に整合された正規化電
流と以前のスペクトルとの差を得ることによって表され
る。これは、通常従来のWIコーダに見られる20次フ
ィルタを1次フィルタに代えることによって生じるRE
W信号生成の単純化と本質的に同等である。例えば、有
声音声では、この差は非構造化ランダム成分を反映す
る。これをここでは単純にランダム・スペクトル(R
S)と呼ぶ。RSは低次(2次または3次)直交多項式
展開(例えば、スペクトル毎に3または4のパラメータ
を使用する)によって平滑化されるので有利である。こ
れは、どちらのスペクトルもほとんどいつも周波数とと
もに単調に増大する通常の平滑化されたSEW信号と通
常の平滑化されたRSを検討することによって見られ
る。言い換えれば、残差信号は、高い周波数帯域では常
に単調に構造化の度合いが少ない。各RSをコーディン
グするビットの割当てが3ビットだけだと仮定すると
(上記の通常のビット割当ての議論を参照されたい)、
RS量子化器によって使用できるのは、こうして平滑化
されたスペクトルのうち8だけである。
【0040】平滑化されたRSの長いシーケンスに対し
て従来の方法で3ビットのベクトル量子化器(VQ)を
トレーニングすることによって、8つのコードブック・
スペクトルの集合が生成される。こうした例示としての
コードブック・スペクトルの集合が図5に示される。本
発明の例示としての実施形態によれば、平滑化と量子化
は、ベクトル毎に3つのフルサイズ内積を行うことによ
って(上記で示したW.B.Kleijn他「複雑さの
低い波形補間コーダ」で説明されているように)コーデ
ィング処理中に結合できる。しかし、例示としてのコー
ドブック・スペクトルの集合の配列が、単純化の度合い
を追加していることに留意されたい。詳細には、図5に
示す曲線が指標とともに単調に増加しているので、それ
らは、それらのエネルギーと等価であるそれらの下の面
積に基づいて、個別に指示できる。発見的に、これは基
準化パラメータが、RSコードブックのエントリを指示
する入力データから計算できるということを意味してい
る。言い換えれば、コードブックのエントリ(例えば、
図5の例示としての曲線)は、2つの整合された正規化
スペクトルの振幅の差の平滑化されたバージョン、すな
わち次の式を表しているが、 RS(K)=|S1(K)−S2(K)| (16) これはRSの定義と一致している。対応するエネルギー
は次の式で表される。
て従来の方法で3ビットのベクトル量子化器(VQ)を
トレーニングすることによって、8つのコードブック・
スペクトルの集合が生成される。こうした例示としての
コードブック・スペクトルの集合が図5に示される。本
発明の例示としての実施形態によれば、平滑化と量子化
は、ベクトル毎に3つのフルサイズ内積を行うことによ
って(上記で示したW.B.Kleijn他「複雑さの
低い波形補間コーダ」で説明されているように)コーデ
ィング処理中に結合できる。しかし、例示としてのコー
ドブック・スペクトルの集合の配列が、単純化の度合い
を追加していることに留意されたい。詳細には、図5に
示す曲線が指標とともに単調に増加しているので、それ
らは、それらのエネルギーと等価であるそれらの下の面
積に基づいて、個別に指示できる。発見的に、これは基
準化パラメータが、RSコードブックのエントリを指示
する入力データから計算できるということを意味してい
る。言い換えれば、コードブックのエントリ(例えば、
図5の例示としての曲線)は、2つの整合された正規化
スペクトルの振幅の差の平滑化されたバージョン、すな
わち次の式を表しているが、 RS(K)=|S1(K)−S2(K)| (16) これはRSの定義と一致している。対応するエネルギー
は次の式で表される。
【数7】 ここで最後の項は対応する時間領域信号間の相互相関の
平方として認識される。これらの信号は適切に整列され
た入力信号(すなわちLP残差)の2つの連続するスナ
ップショットである。アップデート間隔のサイズがほぼ
1ピッチ周期である場合、この相互相関は入力のピッチ
の遅れの相関C(P)に関連するが、ここDEPはピッ
チ周期であり、C(.)は標準相関関数である。従っ
て、(因数2を無視すると)パラメータu=1−(C
(P))2 が、コードブックの初期の「ソフトな指標」
として本質的に使用される。量子化テーブルを使用する
と、uは有利にも、RS曲線(すなわちコードブック・
エントリ)を指示する範囲[0,7]の指標にマップさ
れる。
平方として認識される。これらの信号は適切に整列され
た入力信号(すなわちLP残差)の2つの連続するスナ
ップショットである。アップデート間隔のサイズがほぼ
1ピッチ周期である場合、この相互相関は入力のピッチ
の遅れの相関C(P)に関連するが、ここDEPはピッ
チ周期であり、C(.)は標準相関関数である。従っ
て、(因数2を無視すると)パラメータu=1−(C
(P))2 が、コードブックの初期の「ソフトな指標」
として本質的に使用される。量子化テーブルを使用する
と、uは有利にも、RS曲線(すなわちコードブック・
エントリ)を指示する範囲[0,7]の指標にマップさ
れる。
【0041】上記のアプローチは、エンコーダの複雑さ
の観点から4つの主要な利点を有している。第1に、明
示的な高解像度RSを生成する必要がない。第2に、整
合の必要がない。第3に、フィルタリングの必要がな
い。第4に、曲線近似の必要がない。しかし、本発明の
この例示としての実施形態によれば、現在のアップデー
ト・レートではピッチの遅れの相関が見られる。
の観点から4つの主要な利点を有している。第1に、明
示的な高解像度RSを生成する必要がない。第2に、整
合の必要がない。第3に、フィルタリングの必要がな
い。第4に、曲線近似の必要がない。しかし、本発明の
この例示としての実施形態によれば、現在のアップデー
ト・レートではピッチの遅れの相関が見られる。
【0042】上記で定義されたパラメータuは信号中の
「無音声」のレベルを反映している。これは常に無声領
域では高く、有声領域では低いので、その時間的な強弱
はある程度予測可能である。これはVQをこのパラメー
タの連続的な数値に適用することによって有効に利用さ
れる。従って、本発明の他の例示としての実施形態で
は、ベクトル毎に3ビットを使用してRSを直接量子化
する代わりに、6ビットVQが有利にも使用され、フレ
ーム内のu−ベクトルを量子化し伝送する。受信機で
は、デコーディングされたuの数値が直交多項式パラメ
ータの集合にマップされ、そこから平滑化されたRSス
ペクトルが生成される。
「無音声」のレベルを反映している。これは常に無声領
域では高く、有声領域では低いので、その時間的な強弱
はある程度予測可能である。これはVQをこのパラメー
タの連続的な数値に適用することによって有効に利用さ
れる。従って、本発明の他の例示としての実施形態で
は、ベクトル毎に3ビットを使用してRSを直接量子化
する代わりに、6ビットVQが有利にも使用され、フレ
ーム内のu−ベクトルを量子化し伝送する。受信機で
は、デコーディングされたuの数値が直交多項式パラメ
ータの集合にマップされ、そこから平滑化されたRSス
ペクトルが生成される。
【0043】デコーディングされたRSが振幅スペクト
ルを表すことに留意されたい。本発明の例示としての実
施形態によれば、完全な複合RSは、非構造化信号の仮
定と一致するランダム位相スペクトルを追加することに
よって得られる。ランダム位相は、例えば、位相テーブ
ルをランダム・サンプリングすることによって安価に得
られる。こうした例示としてのテーブルは128の半径
1の2次元ベクトルを保持する。0<I<128である
とき、この表の指標Iは、例えば、有利にも高速ビット
演算によって実現される次の式のC言語指標再帰によっ
て疑似ランダムに生成される。 I=(seed=((++seed)*17)&4096)>>5 (18)
ルを表すことに留意されたい。本発明の例示としての実
施形態によれば、完全な複合RSは、非構造化信号の仮
定と一致するランダム位相スペクトルを追加することに
よって得られる。ランダム位相は、例えば、位相テーブ
ルをランダム・サンプリングすることによって安価に得
られる。こうした例示としてのテーブルは128の半径
1の2次元ベクトルを保持する。0<I<128である
とき、この表の指標Iは、例えば、有利にも高速ビット
演算によって実現される次の式のC言語指標再帰によっ
て疑似ランダムに生成される。 I=(seed=((++seed)*17)&4096)>>5 (18)
【0044】<2.構造化成分の複雑さの低い信号分解
>通常のWIコーダでは、SEW信号は、20タップF
IR(有限インパルス応答)ローパスフィルタを使用し
て、時間軸に沿った適切に整合されたピッチサイズ・ス
ペクトルのシーケンスの各高調波成分をフィルタリング
することによって得られる。フィルタリングされたシー
ケンスはその後フレーム毎に1スペクトルに減少され
る。これはフレーム毎に一度これらのスペクトルの加重
平均を取るのと同等である。前に示したように、本発明
のある例示としての実施形態によれば、フィルタリング
と整合の両方が回避されるので有利である。
>通常のWIコーダでは、SEW信号は、20タップF
IR(有限インパルス応答)ローパスフィルタを使用し
て、時間軸に沿った適切に整合されたピッチサイズ・ス
ペクトルのシーケンスの各高調波成分をフィルタリング
することによって得られる。フィルタリングされたシー
ケンスはその後フレーム毎に1スペクトルに減少され
る。これはフレーム毎に一度これらのスペクトルの加重
平均を取るのと同等である。前に示したように、本発明
のある例示としての実施形態によれば、フィルタリング
と整合の両方が回避されるので有利である。
【0045】本発明のある例示としての実施形態では、
構造化信号が以下のように処理されるので有利である。
現在のフレームについてピッチ周期Pを仮定すると、整
数Mを含むピッチ周期の新しいフレームが決定される。
通常、新しいフレームは名目のフレームに重なる。その
後、ここでASと呼ぶピッチサイズ平均スペクトルが、
DFTをこのフレームに適用し、MPサイズ・スペクト
ルを因数Mによってデシメイトし、その結果を正規化す
ることによって得られる。このアプローチはスペクトル
整合の必要を除去するので有利である。DFTの複雑さ
を低減するために、SEWフレームはまず基数2のサイ
ズN>MPにアップサンプリングされ、その後高速フー
リエ変換(FFT)が使用される。この時間正規化は依
然としてMPに等しいスペクトルのサイズに影響しない
ことに留意されたい。アップサンプリングは、例えば、
上記で説明した3次スプライン補間を使用して行われ
る。
構造化信号が以下のように処理されるので有利である。
現在のフレームについてピッチ周期Pを仮定すると、整
数Mを含むピッチ周期の新しいフレームが決定される。
通常、新しいフレームは名目のフレームに重なる。その
後、ここでASと呼ぶピッチサイズ平均スペクトルが、
DFTをこのフレームに適用し、MPサイズ・スペクト
ルを因数Mによってデシメイトし、その結果を正規化す
ることによって得られる。このアプローチはスペクトル
整合の必要を除去するので有利である。DFTの複雑さ
を低減するために、SEWフレームはまず基数2のサイ
ズN>MPにアップサンプリングされ、その後高速フー
リエ変換(FFT)が使用される。この時間正規化は依
然としてMPに等しいスペクトルのサイズに影響しない
ことに留意されたい。アップサンプリングは、例えば、
上記で説明した3次スプライン補間を使用して行われ
る。
【0046】平均スペクトルASは、簡単なフィルタを
使用して、SEWの単純化されたバージョンとして見る
ことができる。従来のWIコーダによって生成したRE
WおよびSEW信号と異なって、AS(K)と(非平滑
化)RS(K)は、2つの相補的フィルタによって生成
されたものではないので、相補的ではない。実際、AS
(K)自体は、LPの振幅スペクトルの現在の推定値と
して見られる。従って、構造化スペクトル(SS)と考
えられるスペクトルの一部は、次の式のようになる。 SS(K)=AS(K)−RS(K) (19)
使用して、SEWの単純化されたバージョンとして見る
ことができる。従来のWIコーダによって生成したRE
WおよびSEW信号と異なって、AS(K)と(非平滑
化)RS(K)は、2つの相補的フィルタによって生成
されたものではないので、相補的ではない。実際、AS
(K)自体は、LPの振幅スペクトルの現在の推定値と
して見られる。従って、構造化スペクトル(SS)と考
えられるスペクトルの一部は、次の式のようになる。 SS(K)=AS(K)−RS(K) (19)
【0047】WIコーダのビットの余裕は、上記で説明
したようにASのコーディングのために7ビットしか提
供しない。LP残差のもっと低い周波数が知覚的にはよ
り重要なので、本発明の例示としての実施形態によれ
ば、SEWスペクトルの下の20%を含むベースバンド
だけがコード化されるので有利である。ASの振幅スペ
クトルの残りの部分は、例えば、平坦であり、AS
(K)=1であると推定される。
したようにASのコーディングのために7ビットしか提
供しない。LP残差のもっと低い周波数が知覚的にはよ
り重要なので、本発明の例示としての実施形態によれ
ば、SEWスペクトルの下の20%を含むベースバンド
だけがコード化されるので有利である。ASの振幅スペ
クトルの残りの部分は、例えば、平坦であり、AS
(K)=1であると推定される。
【0048】従って、例示としての複雑さの低いコーダ
はASベースバンドをコーディングし、コーディングさ
れた結果を1フレーム毎に1回伝送する。コーディング
は例示としては、Dが0.2*P/2または10の低い
方である変数次元Dの10次元7ビットVQを使用して
行われる。D<10の場合、コードベクトルの最初のD
項だけが使用される。受信機では、ASベースバンドが
合成アップデート・レートで補間され、そこからSS
(K)スペクトルが計算される。
はASベースバンドをコーディングし、コーディングさ
れた結果を1フレーム毎に1回伝送する。コーディング
は例示としては、Dが0.2*P/2または10の低い
方である変数次元Dの10次元7ビットVQを使用して
行われる。D<10の場合、コードベクトルの最初のD
項だけが使用される。受信機では、ASベースバンドが
合成アップデート・レートで補間され、そこからSS
(K)スペクトルが計算される。
【0049】振幅スペクトルSS(K)は周期的信号を
示す。従って、固定位相スペクトルが有利にもそこに加
えられ、自然音声で観察されるようなあるレベルの位相
分散を提供する。これによって周期性が維持されるとと
もにブザー音が避けられる。現実の話者から得られる位
相スペクトルは、例示としては半径1の64の複素数値
を有する。それはRS(最初の64エントリ)によって
使用される同じ位相テーブルに保持されるので、追加R
OMを必要としない。結果として生じる複合SSは例示
として複合RSと結合され、現在のアップデートに関す
る最終量子化LPスペクトルを形成する。
示す。従って、固定位相スペクトルが有利にもそこに加
えられ、自然音声で観察されるようなあるレベルの位相
分散を提供する。これによって周期性が維持されるとと
もにブザー音が避けられる。現実の話者から得られる位
相スペクトルは、例示としては半径1の64の複素数値
を有する。それはRS(最初の64エントリ)によって
使用される同じ位相テーブルに保持されるので、追加R
OMを必要としない。結果として生じる複合SSは例示
として複合RSと結合され、現在のアップデートに関す
る最終量子化LPスペクトルを形成する。
【0050】<G.アップデート・レートの検討>従来
のWIコーディングでは、SEWとREWは、現在のピ
ッチとは無関係に、任意の望ましいアップデート・レー
トで生成・処理される。さらに、レートはエンコーダと
デコーダで異なることもある。固定レート(例えば、
2.5msecのアップデート間隔)が使用される場
合、データ流れ制御は直接的である。しかし、スペクト
ルのサイズは実際にはピッチに依存し、結果として生じ
る計算負荷も同様である。従って、固定アップデート・
レートでは、複雑さはピッチ周期の数値とともに増大す
る。最大計算負荷が問題になることが多いので、複雑さ
を「均等化」することが有利である。従って、本発明の
例示としての実施形態によれば、ピーク負荷を低減する
ために、アップデート・レートが有利にもピッチ周波数
と比例して変更される。
のWIコーディングでは、SEWとREWは、現在のピ
ッチとは無関係に、任意の望ましいアップデート・レー
トで生成・処理される。さらに、レートはエンコーダと
デコーダで異なることもある。固定レート(例えば、
2.5msecのアップデート間隔)が使用される場
合、データ流れ制御は直接的である。しかし、スペクト
ルのサイズは実際にはピッチに依存し、結果として生じ
る計算負荷も同様である。従って、固定アップデート・
レートでは、複雑さはピッチ周期の数値とともに増大す
る。最大計算負荷が問題になることが多いので、複雑さ
を「均等化」することが有利である。従って、本発明の
例示としての実施形態によれば、ピーク負荷を低減する
ために、アップデート・レートが有利にもピッチ周波数
と比例して変更される。
【0051】通常の従来のWIコーダの場合、短時間ス
ペクトル・スナップショットがピッチサイクル間隔で処
理されることに留意されたい。これはほぼ周期的な音声
の場合、ピッチレートで信号の強弱を監視すれば十分で
あるという仮定に基づいている。こうした可変サンプリ
ングはSEW/REW信号フィルタリング段階である種
の困難を提起するので、ある特殊なフィルタリング処理
が必要となる。
ペクトル・スナップショットがピッチサイクル間隔で処
理されることに留意されたい。これはほぼ周期的な音声
の場合、ピッチレートで信号の強弱を監視すれば十分で
あるという仮定に基づいている。こうした可変サンプリ
ングはSEW/REW信号フィルタリング段階である種
の困難を提起するので、ある特殊なフィルタリング処理
が必要となる。
【0052】しかし、本発明による例示としての複雑さ
の低いWI(LCWI)エンコーダでは、、固定サイズ
FFTを使用してフレーム毎に一度ASが処理されるの
で、こうした困難は存在しない。RSは固定レートでア
ップデートされる一方でピッチ間隔(すなわちピッチの
遅れの相関)の変化を測定するuパラメータによって表
される。
の低いWI(LCWI)エンコーダでは、、固定サイズ
FFTを使用してフレーム毎に一度ASが処理されるの
で、こうした困難は存在しない。RSは固定レートでア
ップデートされる一方でピッチ間隔(すなわちピッチの
遅れの相関)の変化を測定するuパラメータによって表
される。
【0053】従来のWIデコーダと例示としてのLCW
Iデコーダの両方で、アップデート・レートはピッチ依
存なので、負荷を均等化し、結果が過度に周期的(すな
わち、レートが遅すぎる)にならないようにする。さら
に、例示としてのLCWIコーダのスプライン変換とI
FFTは、ピッチの数値をもっとも近い基数2の数に切
り上げることによってピッチ依存になる。これはピッチ
範囲による計算負荷の変化を低減するので有利である。
従って、現在のピッチを仮定すると、アップデート・レ
ート制御(URC)処理が有利にも利用され、スペクト
ルが再生され、出力信号が補間される合成サブフレーム
・サイズを決定する。uパラメータは例示としては固定
レートで(例えば、フレーム毎に2回)送信されるの
で、より高いアップデート・レートが必要な場合デコー
ダで補間される。
Iデコーダの両方で、アップデート・レートはピッチ依
存なので、負荷を均等化し、結果が過度に周期的(すな
わち、レートが遅すぎる)にならないようにする。さら
に、例示としてのLCWIコーダのスプライン変換とI
FFTは、ピッチの数値をもっとも近い基数2の数に切
り上げることによってピッチ依存になる。これはピッチ
範囲による計算負荷の変化を低減するので有利である。
従って、現在のピッチを仮定すると、アップデート・レ
ート制御(URC)処理が有利にも利用され、スペクト
ルが再生され、出力信号が補間される合成サブフレーム
・サイズを決定する。uパラメータは例示としては固定
レートで(例えば、フレーム毎に2回)送信されるの
で、より高いアップデート・レートが必要な場合デコー
ダで補間される。
【0054】<H.LPパラメータの複雑さの低い量子
化>例示としてのLCWIコーダでは、複雑さの低いベ
クトル量子化器(LCVQ)がLPパラメータをコーデ
ィングする際使用され、さらに計算負荷を低減する。例
示としてのLCVQは、ここに記載されるのと同様に、
引用によって本明細書の記載に援用する、J.Zhou
他「線形スペクトル周波数の単純な高速ベクトル量子
化」、ICSLP’96会報、第2巻、945〜948
ページ、1996年10月で詳細に説明されているもの
に基づいている(ここで説明されている例示としてのL
CVQは必ずしもWIコーダに特定のものではなく、有
利にも他のLPによる音声コーダでも使用できることに
留意されたい)。
化>例示としてのLCWIコーダでは、複雑さの低いベ
クトル量子化器(LCVQ)がLPパラメータをコーデ
ィングする際使用され、さらに計算負荷を低減する。例
示としてのLCVQは、ここに記載されるのと同様に、
引用によって本明細書の記載に援用する、J.Zhou
他「線形スペクトル周波数の単純な高速ベクトル量子
化」、ICSLP’96会報、第2巻、945〜948
ページ、1996年10月で詳細に説明されているもの
に基づいている(ここで説明されている例示としてのL
CVQは必ずしもWIコーダに特定のものではなく、有
利にも他のLPによる音声コーダでも使用できることに
留意されたい)。
【0055】例示としてのLCVQでは、LPパラメー
タは10の線形スペクトル周波数(LSF)の形態で与
えられる。10次元LSFベクトルは、1.2kbps
コーダでは30ビット、また2.4kbpsコーダでは
25ビットを使用してコーディングされる。フルサイズ
の25または30ビットのVQは実際には実現可能でな
いので、LSFベクトルは普通3つの下位ベクトルに分
割される。詳細には、3つのLSF下位ベクトルのサイ
ズは、1.2kbpsコーダの場合(3,3,4)、ま
た2.4kbpsコーダの場合(3,4,3)である。
3つの下位VQに割り当てられたビット数はそれぞれ
(10,10,10)および(10,10,5)であ
る。各下位VQはフル検索VQを含むが、これは包括的
な検索が1024(または32)のコードベクトルの候
補にわたって行われることを意味する。しかし、本発明
による例示としてのLCWIコーダでは、フル探索VQ
は以下で説明されるより高速なVQによって置き換えら
れる。
タは10の線形スペクトル周波数(LSF)の形態で与
えられる。10次元LSFベクトルは、1.2kbps
コーダでは30ビット、また2.4kbpsコーダでは
25ビットを使用してコーディングされる。フルサイズ
の25または30ビットのVQは実際には実現可能でな
いので、LSFベクトルは普通3つの下位ベクトルに分
割される。詳細には、3つのLSF下位ベクトルのサイ
ズは、1.2kbpsコーダの場合(3,3,4)、ま
た2.4kbpsコーダの場合(3,4,3)である。
3つの下位VQに割り当てられたビット数はそれぞれ
(10,10,10)および(10,10,5)であ
る。各下位VQはフル検索VQを含むが、これは包括的
な検索が1024(または32)のコードベクトルの候
補にわたって行われることを意味する。しかし、本発明
による例示としてのLCWIコーダでは、フル探索VQ
は以下で説明されるより高速なVQによって置き換えら
れる。
【0056】すなわち、ここで使用される例示としての
高速VQは、フル探索VQより約4倍高速である。これ
は同じ最適にトレーニングされたコードブックを使用
し、同じ性能レベルを達成する。詳細には、これは当業
技術分野に熟練した者には周知の分類VQの概念に基づ
いている。主コードブックは多数の下位コードブック
(クラス)に分割される。入力ベクトルはまずあるクラ
スに属するものとして分類される。その後そのクラスと
その隣にある少数のクラスだけが探索される。分類段階
はまた別の小さいサイズのVQによって実行されるが、
そのVQのエントリはそれら自身のクラスを示す。この
コードブックは有利にも主コードブックの中で実現され
るので、コードベクトルのための追加メモリ・ロケーシ
ョンは必要ない。しかし、クラスのポインタを保持する
ために合計メモリのわずかな増加(約2%)が必要であ
る。
高速VQは、フル探索VQより約4倍高速である。これ
は同じ最適にトレーニングされたコードブックを使用
し、同じ性能レベルを達成する。詳細には、これは当業
技術分野に熟練した者には周知の分類VQの概念に基づ
いている。主コードブックは多数の下位コードブック
(クラス)に分割される。入力ベクトルはまずあるクラ
スに属するものとして分類される。その後そのクラスと
その隣にある少数のクラスだけが探索される。分類段階
はまた別の小さいサイズのVQによって実行されるが、
そのVQのエントリはそれら自身のクラスを示す。この
コードブックは有利にも主コードブックの中で実現され
るので、コードベクトルのための追加メモリ・ロケーシ
ョンは必要ない。しかし、クラスのポインタを保持する
ために合計メモリのわずかな増加(約2%)が必要であ
る。
【0057】<I.例示としての複雑さの低いWIコー
ダ>図6は、本発明の1つの例示としての実施形態によ
るLCWIコーダのブロック図を示す。すなわち、図6
は、その例示としてのブロック図とともにエンコーダ6
1を示し、その例示としてのブロック図とともにデコー
ダ62を示し、エンコーダとデコーダの間の例示として
のデータの流れを示す。詳細には、伝送されるビット・
ストリームには例示としてはそれぞれG、L、R、Aお
よびPで示される量子化利得、LSF、RS、AS、お
よびピッチの指標が含まれる。
ダ>図6は、本発明の1つの例示としての実施形態によ
るLCWIコーダのブロック図を示す。すなわち、図6
は、その例示としてのブロック図とともにエンコーダ6
1を示し、その例示としてのブロック図とともにデコー
ダ62を示し、エンコーダとデコーダの間の例示として
のデータの流れを示す。詳細には、伝送されるビット・
ストリームには例示としてはそれぞれG、L、R、Aお
よびPで示される量子化利得、LSF、RS、AS、お
よびピッチの指標が含まれる。
【0058】<1.例示としてのLCWIエンコーダ>
図6に示される例示としてのエンコーダでは、LP分析
が入力音声に適用され(ブロック6104)、上記で説
明したLCVQが使用されてLSFをコーディングする
(ブロック6109)。入力音声利得がブロック610
3でフレーム毎に4回の固定レートで計算される。利得
は、主フレーム内で均一に間隔の開いた重なり合うピッ
チサイズの下位フレームのRMSとして定義される。こ
れによって変化のない有声音声では利得の輪郭が非常に
平滑になる。ピッチサイクルが短すぎる場合、2つかそ
れ以上のサイクルが使用される。これによって重要かも
しれない利得のキューのセグメントを飛ばすことが防止
される。4つの利得はフレーム毎に1つの利得ベクトル
としてコーディングされる。例示としての2.4kbp
sバージョンのエンコーダの場合、10ビットが利得に
割り当てられる。利得ベクトルは「超利得」と呼ばれる
そのRMSの数値によって正規化される。2段階LCV
Qが使用される(ブロック6109)。まず正規化ベク
トルが6ビットVQを使用してコーディングされる。そ
の後、超利得の対数(log)が4ビット量子化器を使
用して差動的にコーディングされる。このコーディング
技術によって量子化器のダイナミックレンジが増大し、
同時に、例えば、有声音声の開始を表す利得の短期間の
(すなわち1つのベクトル以内の)変化が表せるように
なる。例示としての1.2kbpsバージョンのエンコ
ーダでは、超利得は使用されず、単一の8ビット4次元
VQが対数利得に適用される。
図6に示される例示としてのエンコーダでは、LP分析
が入力音声に適用され(ブロック6104)、上記で説
明したLCVQが使用されてLSFをコーディングする
(ブロック6109)。入力音声利得がブロック610
3でフレーム毎に4回の固定レートで計算される。利得
は、主フレーム内で均一に間隔の開いた重なり合うピッ
チサイズの下位フレームのRMSとして定義される。こ
れによって変化のない有声音声では利得の輪郭が非常に
平滑になる。ピッチサイクルが短すぎる場合、2つかそ
れ以上のサイクルが使用される。これによって重要かも
しれない利得のキューのセグメントを飛ばすことが防止
される。4つの利得はフレーム毎に1つの利得ベクトル
としてコーディングされる。例示としての2.4kbp
sバージョンのエンコーダの場合、10ビットが利得に
割り当てられる。利得ベクトルは「超利得」と呼ばれる
そのRMSの数値によって正規化される。2段階LCV
Qが使用される(ブロック6109)。まず正規化ベク
トルが6ビットVQを使用してコーディングされる。そ
の後、超利得の対数(log)が4ビット量子化器を使
用して差動的にコーディングされる。このコーディング
技術によって量子化器のダイナミックレンジが増大し、
同時に、例えば、有声音声の開始を表す利得の短期間の
(すなわち1つのベクトル以内の)変化が表せるように
なる。例示としての1.2kbpsバージョンのエンコ
ーダでは、超利得は使用されず、単一の8ビット4次元
VQが対数利得に適用される。
【0059】入力がLP係数を使用して逆フィルタリン
グされ、LP残差が得られる(ブロック6101)。残
差に対してピッチの検出がなされ、現在のピッチ周期が
得られる(ブロック6102)。RSおよびAS信号が
上記で説明したように処理される。ブロック6105で
は、u係数が生成され、ブロック6110では、u係数
は例示としての1.2kbpsコーダでは5ビット、ま
た2.4kbpsコーダでは6ビットをそれぞれ使用し
て2次元VQによりコーディングされる。例示としての
2.4kbpsコーダでは、ASベースバンドが7ビッ
トを使用して10次元VQによりコーディングされる
(ブロック6106、6107、6111および611
2)。1.2kbpsコーダでは、ASは処理・コーデ
ィングされず、むしろ定数、すなわちすべてのKについ
てAS(K)=1と考えられる。従って、図6のブロッ
ク6106、6107、6111および6112は例示
としての1.2kbpsコーダでは存在しない。
グされ、LP残差が得られる(ブロック6101)。残
差に対してピッチの検出がなされ、現在のピッチ周期が
得られる(ブロック6102)。RSおよびAS信号が
上記で説明したように処理される。ブロック6105で
は、u係数が生成され、ブロック6110では、u係数
は例示としての1.2kbpsコーダでは5ビット、ま
た2.4kbpsコーダでは6ビットをそれぞれ使用し
て2次元VQによりコーディングされる。例示としての
2.4kbpsコーダでは、ASベースバンドが7ビッ
トを使用して10次元VQによりコーディングされる
(ブロック6106、6107、6111および611
2)。1.2kbpsコーダでは、ASは処理・コーデ
ィングされず、むしろ定数、すなわちすべてのKについ
てAS(K)=1と考えられる。従って、図6のブロッ
ク6106、6107、6111および6112は例示
としての1.2kbpsコーダでは存在しない。
【0060】<2.例示としてのLCWIデコーダ>図
6に示される例示としてのデコーダでは、受信されるピ
ッチの数値がブロック6209のアップデート・レート
制御(URC)で使用され、現在のアップデート・レー
ト、すなわち、補間および合成処理全体が行われる下位
フレームの数を設定する。ピッチはブロック6205で
前の数値を使用して補間され、数値が各下位フレームに
割り当てられる。
6に示される例示としてのデコーダでは、受信されるピ
ッチの数値がブロック6209のアップデート・レート
制御(URC)で使用され、現在のアップデート・レー
ト、すなわち、補間および合成処理全体が行われる下位
フレームの数を設定する。ピッチはブロック6205で
前の数値を使用して補間され、数値が各下位フレームに
割り当てられる。
【0061】ブロック6201では、超利得が差動的に
デコーディングされ、べき乗される。正規化された利得
ベクトルがデコーディングされ、超利得と結合される。
またURCによって要求される場合、4つの利得の数値
がより長いベクトルに補間される。LP係数がフレーム
毎に一度デコーディングされ、前のものによって補間さ
れてURCが必要とする数のLPベクトルが得られる
(ブロック6202)。LPスペクトルが、DFT62
06をLPベクトルに適用することによって得られる。
入力が10サンプルだけであるので、これは有利にも複
雑さの低いDFTであることに留意されたい。DFTは
再帰的に行われ、高価な三角関数を避ける。また、FF
Tが3次スプラインによる再サンプリングと共に使用さ
れることがある。
デコーディングされ、べき乗される。正規化された利得
ベクトルがデコーディングされ、超利得と結合される。
またURCによって要求される場合、4つの利得の数値
がより長いベクトルに補間される。LP係数がフレーム
毎に一度デコーディングされ、前のものによって補間さ
れてURCが必要とする数のLPベクトルが得られる
(ブロック6202)。LPスペクトルが、DFT62
06をLPベクトルに適用することによって得られる。
入力が10サンプルだけであるので、これは有利にも複
雑さの低いDFTであることに留意されたい。DFTは
再帰的に行われ、高価な三角関数を避ける。また、FF
Tが3次スプラインによる再サンプリングと共に使用さ
れることがある。
【0062】ブロック6203では、URCが必要とす
る場合、RSベクトルがデコーディングされ補間され
る。各uの数値が拡張パラメータの集合にマップされ、
平滑化された振幅のRSが生成される(ブロック620
7)。ランダム位相がブロック6210で付加され、複
合RSを生成する。
る場合、RSベクトルがデコーディングされ補間され
る。各uの数値が拡張パラメータの集合にマップされ、
平滑化された振幅のRSが生成される(ブロック620
7)。ランダム位相がブロック6210で付加され、複
合RSを生成する。
【0063】例示としての2.4kbpsコーダでは、
ASがデコーディングされ、前のベクトルによって補間
される(ブロック6204)。SS振幅スペクトルが、
ブロック6208でRSを引き算することによって得ら
れ、その後SSの位相がブロック6211で加算され
る。複合RSおよびSSデータが結合され(ブロック6
213)、その結果がLPスペクトルによって形成さ
れ、利得によって基準化される(ブロック6212)。
その結果が、波形補間モジュールに適用され(ブロック
6214)、コーディングされた信号が出力される。波
形補間モジュールは、図3の例示としての波形補間処理
か、図4の例示としての波形補間処理か、または本発明
の原理による他の波形補間処理かを含む。
ASがデコーディングされ、前のベクトルによって補間
される(ブロック6204)。SS振幅スペクトルが、
ブロック6208でRSを引き算することによって得ら
れ、その後SSの位相がブロック6211で加算され
る。複合RSおよびSSデータが結合され(ブロック6
213)、その結果がLPスペクトルによって形成さ
れ、利得によって基準化される(ブロック6212)。
その結果が、波形補間モジュールに適用され(ブロック
6214)、コーディングされた信号が出力される。波
形補間モジュールは、図3の例示としての波形補間処理
か、図4の例示としての波形補間処理か、または本発明
の原理による他の波形補間処理かを含む。
【0064】最後に、(好適には軽度の)事後フィルタ
リングがブロック6215で適用され、出力コーディン
グ雑音を再形成する。例えば、J.H.Chen他「コ
ーディング音声の質を向上するための適応事後フィルタ
リング」、米国電気電子学会音声・音響処理会報、第3
巻、1995年59〜71ページで説明されているもの
と同様のLPによる事後フィルタが使用される。こうし
た事後フィルタはLPフォーマットのパターンを向上さ
せ、それによってホルマント間の雑音を低減する。ま
た、事後フィルタリング操作は、上記で示したW.B.
Kleijn他「複雑さの低い波形補間コーダ」で説明
されているWIコーダでなされるように、LP形成段階
(すなわち、ブロック6212)に含まれることもあ
る。しかし、3次スプライン補間器の雑音を含む全体的
な雑音を低減するために、事後フィルタは好適には、図
6の例示としての実施形態に示すように、合成処理の最
後に配置される。
リングがブロック6215で適用され、出力コーディン
グ雑音を再形成する。例えば、J.H.Chen他「コ
ーディング音声の質を向上するための適応事後フィルタ
リング」、米国電気電子学会音声・音響処理会報、第3
巻、1995年59〜71ページで説明されているもの
と同様のLPによる事後フィルタが使用される。こうし
た事後フィルタはLPフォーマットのパターンを向上さ
せ、それによってホルマント間の雑音を低減する。ま
た、事後フィルタリング操作は、上記で示したW.B.
Kleijn他「複雑さの低い波形補間コーダ」で説明
されているWIコーダでなされるように、LP形成段階
(すなわち、ブロック6212)に含まれることもあ
る。しかし、3次スプライン補間器の雑音を含む全体的
な雑音を低減するために、事後フィルタは好適には、図
6の例示としての実施形態に示すように、合成処理の最
後に配置される。
【0065】<J.追補>説明をわかりやすくするため
に、本発明の例示としての実施形態は独立した機能ブロ
ック(「プロセッサ」と名付けられた機能ブロックを含
む)を含むものとして示される。これらのブロックが表
す機能は、ソフトウェアを実行できるハードウェアを含
むがそれに制限されない共用または専用のハードウェア
の使用を通じて提供される。例えば、ここに示されるプ
ロセッサの機能は、単一の共用プロセッサまたは複数の
独立したプロセッサによって提供される。さらに、ここ
での「プロセッサ」という術語の使用は、ソフトウェア
を実行できるハードウェアにのみ関するものと解釈され
るべきではない。例示としての実施形態は、Lucen
t Technologies社のDSP16またはD
SP32Cといったデジタル信号プロセッサ(DSP)
ハードウェア、以下論じる演算を行うソフトウェアを保
存するための読み出し専用メモリ(ROM)およびDS
Pの結果を保存するためのランダムアクセス・メモリ
(RAM)を含む。超大規模集積(VLSI)ハードウ
ェア実施形態が、汎用DSP回路と協力するカスタムV
LSI回路とともに提供される。任意の、およびすべて
のこれらの実施形態はここで使用される「プロセッサ」
という語の意味に含まれるものと考えられる。
に、本発明の例示としての実施形態は独立した機能ブロ
ック(「プロセッサ」と名付けられた機能ブロックを含
む)を含むものとして示される。これらのブロックが表
す機能は、ソフトウェアを実行できるハードウェアを含
むがそれに制限されない共用または専用のハードウェア
の使用を通じて提供される。例えば、ここに示されるプ
ロセッサの機能は、単一の共用プロセッサまたは複数の
独立したプロセッサによって提供される。さらに、ここ
での「プロセッサ」という術語の使用は、ソフトウェア
を実行できるハードウェアにのみ関するものと解釈され
るべきではない。例示としての実施形態は、Lucen
t Technologies社のDSP16またはD
SP32Cといったデジタル信号プロセッサ(DSP)
ハードウェア、以下論じる演算を行うソフトウェアを保
存するための読み出し専用メモリ(ROM)およびDS
Pの結果を保存するためのランダムアクセス・メモリ
(RAM)を含む。超大規模集積(VLSI)ハードウ
ェア実施形態が、汎用DSP回路と協力するカスタムV
LSI回路とともに提供される。任意の、およびすべて
のこれらの実施形態はここで使用される「プロセッサ」
という語の意味に含まれるものと考えられる。
【0066】本発明の多数の特定の実施形態がここで示
され説明されたが、これらの実施形態は単に、本発明の
原理を適用する際に考案される多くの可能な特定の装置
の例にすぎないことが理解されるべきである。非常に多
くの多様な装置が、当業技術分野に普通に熟練した者に
よって本発明の精神と範囲から離れることなく本発明の
原理に従って考案できる。例えば、添付の請求項で使用
される「信号受信機」、「スプライン係数発生器」、
「信号シンセサイザ」といった術語の使用は、相応じて
識別される機能を行う任意の装置を対象にすることを目
的とするのであって、35U.S.C.、112節、6
項に規定されているような「手段プラス機能」の形態に
あるものと考えられるべきではない。同様に、これらの
請求項の要素は、それらの範囲内で、「明細書とそれに
相当するものの中で説明された...対応する構造」に
制限されることを目的とするものではない。しかし、そ
のように制限されるものではないが、本発明の実施形態
の1つの組み合わせは、実際は本明細書とそれに相当す
るものの中で説明された構造を含むことに留意すべきで
ある。
され説明されたが、これらの実施形態は単に、本発明の
原理を適用する際に考案される多くの可能な特定の装置
の例にすぎないことが理解されるべきである。非常に多
くの多様な装置が、当業技術分野に普通に熟練した者に
よって本発明の精神と範囲から離れることなく本発明の
原理に従って考案できる。例えば、添付の請求項で使用
される「信号受信機」、「スプライン係数発生器」、
「信号シンセサイザ」といった術語の使用は、相応じて
識別される機能を行う任意の装置を対象にすることを目
的とするのであって、35U.S.C.、112節、6
項に規定されているような「手段プラス機能」の形態に
あるものと考えられるべきではない。同様に、これらの
請求項の要素は、それらの範囲内で、「明細書とそれに
相当するものの中で説明された...対応する構造」に
制限されることを目的とするものではない。しかし、そ
のように制限されるものではないが、本発明の実施形態
の1つの組み合わせは、実際は本明細書とそれに相当す
るものの中で説明された構造を含むことに留意すべきで
ある。
【図1】波形補間コーダによって有利にも発生する一連
の平滑に変化する波形を含む曲面を示す図である。
の平滑に変化する波形を含む曲面を示す図である。
【図2】従来の波形補間コーダのブロック図を示す図で
ある。
ある。
【図3】本発明の第1の例示としての実施形態による3
次スプライン表示に基づいた波形補間のブロック図を示
す図である。
次スプライン表示に基づいた波形補間のブロック図を示
す図である。
【図4】本発明の第2の例示としての実施形態による疑
似係数論的スプライン表示に基づいた波形補間のブロッ
ク図を示す図である。
似係数論的スプライン表示に基づいた波形補間のブロッ
ク図を示す図である。
【図5】波形補間コーダのランダム・スペクトル・コー
ドブックのための平滑なスペクトルの例示としての集合
を示す図である。
ドブックのための平滑なスペクトルの例示としての集合
を示す図である。
【図6】本発明の例示としての実施形態による複雑さの
低い波形補間コーダのブロック図である。
低い波形補間コーダのブロック図である。
Claims (24)
- 【請求項1】 通信チャネルを経由して通信されたエン
コーディングされた信号に基づいて再生音声信号を合成
する方法であって、該方法が、 第1のピッチ周期と等しい長さの第1の音声信号セグメ
ントを表す周波数領域パラメータの第1の集合を含む第
1の通信信号と、第2のピッチ周期と等しい長さの第2
の音声信号セグメントを表す周波数領域パラメータの第
2の集合を含む第2の通信信号とを含む少なくとも2つ
の通信信号を受信するステップと、 周波数領域パラメータの前記第1の集合の時間領域変換
のスプライン表示を含むスプライン係数の第1の集合
と、周波数領域パラメータの前記第2の集合の時間領域
変換のスプライン表示を含むスプライン係数の第2の集
合とを含むスプライン係数の少なくとも2つの集合を生
成するステップと、 周波数領域パラメータの前記第1の集合の前記時間領域
変換の前記スプライン表示と、周波数領域パラメータの
前記第2の集合の前記時間領域変換の前記スプライン表
示との間を補間することによって前記再生信号を合成す
るステップとを含む方法。 - 【請求項2】 請求項1に記載の方法において、前記ス
プライン表示が3次スプライン表示を含む方法。 - 【請求項3】 請求項1に記載の方法において、前記ス
プライン表示が計数論的スプライン表示に基づいている
方法。 - 【請求項4】 請求項3に記載の方法において、前記ス
プライン表示が有限サポート基底関数を有する方法。 - 【請求項5】 請求項4に記載の方法において、前記ス
プライン表示がそれに対応する前記時間領域変換のサン
プルを含む方法。 - 【請求項6】 請求項1に記載の方法において、前記第
1のピッチ周期と前記第2のピッチ周期が等しくなく、
前記再生信号を合成するステップが周波数領域パラメー
タの前記第2の集合の前記時間領域変換の少なくとも前
記スプライン表示の時間スケールを修正するステップを
含む方法。 - 【請求項7】 請求項1に記載の方法において、さら
に、時間領域パラメータの対応する第1および第2の集
合を生じるために、周波数領域パラメータの前記第1お
よび第2の集合に対して逆変換を行うステップを含み、
その際前記生成ステップが時間領域パラメータの前記第
1および第2の集合に基づいている方法。 - 【請求項8】 請求項7に記載の方法において、さら
に、前期逆変換を行うステップの前に、周波数領域パラ
メータの前記第1および第2の集合にゼロ・パディング
を行い固定した基数2のサイズにするステップを含む方
法。 - 【請求項9】 請求項8に記載の方法において、前記逆
変換がIFFTから成る方法。 - 【請求項10】 請求項1に記載の方法において、前記
再生信号を合成する前記ステップが、 連続時間領域信号のスプライン表示を含む補間されたス
プライン係数の集合を生成するステップと、 補間されたスプライン係数の前記集合に基づいて前記再
生信号を生成するステップとを含む方法。 - 【請求項11】 請求項10に記載の方法において、前
記再生信号は、不均一なレートで前記連続時間領域信号
をサンプリングすることによって生成される方法。 - 【請求項12】 請求項11に記載の方法において、前
記不均一なレートが前記第1および第2のピッチ周期に
基づいて決定される方法。 - 【請求項13】 通信チャネルを経由して通信されるエ
ンコーディングされた信号に基づいて再生音声信号を合
成する音声デコーダであって、該デコーダが、 第1のピッチ周期に等しい長さの第1の音声信号セグメ
ントを表す周波数領域パラメータの第1の集合を含む第
1の通信信号と、第2のピッチ周期に等しい長さの第2
の音声信号セグメントを表す周波数領域パラメータの第
2の集合を含む第2の通信信号とを含む少なくとも2つ
の通信信号を受信する信号受信機と、 周波数領域パラメータの前記第1の集合の時間領域変換
のスプライン表示を含むスプライン係数の第1の集合
と、周波数領域パラメータの前記第2の集合の時間領域
変換のスプライン表示を含むスプライン係数の第2の集
合とを含む、スプライン係数の少なくとも2つの集合を
生成するスプライン係数発生器と、 周波数領域パラメータの前記第1の集合の前記時間領域
変換の前記スプライン表示と、周波数領域パラメータの
前記第2の集合の前記時間領域変換の前記スプライン表
示との間を補間することによって前記再生信号を合成す
る信号シンセサイザとを含むデコーダ。 - 【請求項14】 請求項13に記載のデコーダにおい
て、前記スプライン表示が3次スプライン表示を含むデ
コーダ。 - 【請求項15】 請求項13に記載のデコーダにおい
て、前記スプライン表示が計数論的スプライン表示に基
づいているデコーダ。 - 【請求項16】 請求項15に記載のデコーダにおい
て、前記スプライン表示が有限サポート基底関数を有す
るデコーダ。 - 【請求項17】 請求項16に記載のデコーダにおい
て、前記スプライン表示がそれに対応する前記時間領域
変換のサンプルを含むデコーダ。 - 【請求項18】 請求項13に記載のデコーダにおい
て、前記第1のピッチ周期と前記第2のピッチ周期が等
しくなく、前記信号シンセサイザが周波数領域パラメー
タの前記第2の集合の前記時間領域変換の少なくとも前
記スプライン表示の前記時間スケールを修正するための
手段を含むデコーダ。 - 【請求項19】 請求項13に記載のデコーダにおい
て、さらに、時間領域パラメータの対応する第1および
第2の集合を生じるために、周波数領域パラメータの前
記第1および第2の集合に対して行われる逆変換を含
み、その際前記スプライン係数発生器が時間領域パラメ
ータの前記第1および第2の集合に基づいているデコー
ダ。 - 【請求項20】 請求項19に記載のデコーダにおい
て、さらに、前期逆変換で使用するために、周波数領域
パラメータの前記第1および第2の集合をゼロ・パディ
ングして固定した基数2のサイズにするための手段を含
むデコーダ。 - 【請求項21】 請求項20に記載のデコーダにおい
て、前期逆変換がIFFTから成るデコーダ。 - 【請求項22】 請求項13に記載のデコーダにおい
て、前記信号シンセサイザが、 連続時間領域信号のスプライン表示を含む補間スプライ
ン係数の集合を生成するための手段と、 補間スプライン係数の前記集合に基づいて前記再生信号
を生成するための手段を含むデコーダ。 - 【請求項23】 請求項22に記載のデコーダにおい
て、前記再生信号が不均一なレートで前記連続時間領域
信号をサンプリングすることによって生成されるデコー
ダ。 - 【請求項24】 請求項23に記載のデコーダにおい
て、前記不均一なレートが前記第1および第2のピッチ
周期に基づいて決定されるデコーダ。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US08/814,075 US5903866A (en) | 1997-03-10 | 1997-03-10 | Waveform interpolation speech coding using splines |
| US08/814075 | 1997-03-10 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH10307599A true JPH10307599A (ja) | 1998-11-17 |
Family
ID=25214120
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10057604A Pending JPH10307599A (ja) | 1997-03-10 | 1998-03-10 | スプラインを使用する波形補間音声コーディング |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US5903866A (ja) |
| EP (1) | EP0865028A1 (ja) |
| JP (1) | JPH10307599A (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003517157A (ja) * | 1999-07-19 | 2003-05-20 | クゥアルコム・インコーポレイテッド | 位相スペクトル情報をサブサンプリングする方法および装置 |
| US6907413B2 (en) | 2000-08-02 | 2005-06-14 | Sony Corporation | Digital signal processing method, learning method, apparatuses for them, and program storage medium |
| JP2007004202A (ja) * | 1999-02-09 | 2007-01-11 | At & T Corp | 音声活動に基づくゲイン制限による音声強化についての方法、記録媒体、及び装置 |
| US7412384B2 (en) | 2000-08-02 | 2008-08-12 | Sony Corporation | Digital signal processing method, learning method, apparatuses for them, and program storage medium |
| JP2009501909A (ja) * | 2005-07-18 | 2009-01-22 | トグノラ,ディエゴ,ジュセッペ | 信号処理方法およびシステム |
Families Citing this family (31)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE69710505T2 (de) | 1996-11-07 | 2002-06-27 | Matsushita Electric Industrial Co., Ltd. | Verfahren und Vorrichtung zur Erzeugung eines Vektorquantisierungs-Codebuchs |
| US6055496A (en) * | 1997-03-19 | 2000-04-25 | Nokia Mobile Phones, Ltd. | Vector quantization in celp speech coder |
| FR2762464B1 (fr) * | 1997-04-16 | 1999-06-25 | France Telecom | Procede et dispositif de codage d'un signal audiofrequence par analyse lpc "avant" et "arriere" |
| US6253172B1 (en) * | 1997-10-16 | 2001-06-26 | Texas Instruments Incorporated | Spectral transformation of acoustic signals |
| WO1999059139A2 (en) * | 1998-05-11 | 1999-11-18 | Koninklijke Philips Electronics N.V. | Speech coding based on determining a noise contribution from a phase change |
| US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
| US6256607B1 (en) * | 1998-09-08 | 2001-07-03 | Sri International | Method and apparatus for automatic recognition using features encoded with product-space vector quantization |
| US6754630B2 (en) * | 1998-11-13 | 2004-06-22 | Qualcomm, Inc. | Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation |
| US6456964B2 (en) * | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
| US6691092B1 (en) * | 1999-04-05 | 2004-02-10 | Hughes Electronics Corporation | Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system |
| US6493664B1 (en) | 1999-04-05 | 2002-12-10 | Hughes Electronics Corporation | Spectral magnitude modeling and quantization in a frequency domain interpolative speech codec system |
| US6959274B1 (en) * | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
| US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
| JP4249414B2 (ja) * | 1999-10-08 | 2009-04-02 | 株式会社ケンウッド | ディジタル信号を補間する方法および装置 |
| JP4505899B2 (ja) * | 1999-10-26 | 2010-07-21 | ソニー株式会社 | 再生速度変換装置及び方法 |
| JP2001356799A (ja) * | 2000-06-12 | 2001-12-26 | Toshiba Corp | タイム/ピッチ変換装置及びタイム/ピッチ変換方法 |
| JP4596196B2 (ja) * | 2000-08-02 | 2010-12-08 | ソニー株式会社 | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 |
| US6801887B1 (en) | 2000-09-20 | 2004-10-05 | Nokia Mobile Phones Ltd. | Speech coding exploiting the power ratio of different speech signal components |
| US6738739B2 (en) * | 2001-02-15 | 2004-05-18 | Mindspeed Technologies, Inc. | Voiced speech preprocessing employing waveform interpolation or a harmonic model |
| JP4747434B2 (ja) * | 2001-04-18 | 2011-08-17 | 日本電気株式会社 | 音声合成方法、音声合成装置、半導体装置及び音声合成プログラム |
| JP3881932B2 (ja) * | 2002-06-07 | 2007-02-14 | 株式会社ケンウッド | 音声信号補間装置、音声信号補間方法及びプログラム |
| JP2004054526A (ja) * | 2002-07-18 | 2004-02-19 | Canon Finetech Inc | 画像処理システム、印刷装置、制御方法、制御コマンド実行方法、プログラムおよび記録媒体 |
| SG108862A1 (en) * | 2002-07-24 | 2005-02-28 | St Microelectronics Asia | Method and system for parametric characterization of transient audio signals |
| CN100407292C (zh) * | 2003-08-20 | 2008-07-30 | 华为技术有限公司 | 一种相异语音协议间语音编码的转换方法 |
| SE0402651D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Advanced methods for interpolation and parameter signalling |
| JP2006145712A (ja) * | 2004-11-18 | 2006-06-08 | Pioneer Electronic Corp | オーディオデータ補間装置 |
| US7899667B2 (en) * | 2006-06-19 | 2011-03-01 | Electronics And Telecommunications Research Institute | Waveform interpolation speech coding apparatus and method for reducing complexity thereof |
| KR20120060033A (ko) * | 2010-12-01 | 2012-06-11 | 한국전자통신연구원 | 분할된 음성 프레임의 디코딩을 위한 음성 디코더 및 그 방법 |
| CN111602194B (zh) | 2018-09-30 | 2023-07-04 | 微软技术许可有限责任公司 | 语音波形生成 |
| US11287310B2 (en) | 2019-04-23 | 2022-03-29 | Computational Systems, Inc. | Waveform gap filling |
| CN115040137B (zh) * | 2021-03-08 | 2024-09-10 | 广州视源电子科技股份有限公司 | 一种心电信号参数化方法、模型训练方法、装置、设备及介质 |
-
1997
- 1997-03-10 US US08/814,075 patent/US5903866A/en not_active Expired - Lifetime
-
1998
- 1998-03-03 EP EP98301544A patent/EP0865028A1/en not_active Ceased
- 1998-03-10 JP JP10057604A patent/JPH10307599A/ja active Pending
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007004202A (ja) * | 1999-02-09 | 2007-01-11 | At & T Corp | 音声活動に基づくゲイン制限による音声強化についての方法、記録媒体、及び装置 |
| JP2003517157A (ja) * | 1999-07-19 | 2003-05-20 | クゥアルコム・インコーポレイテッド | 位相スペクトル情報をサブサンプリングする方法および装置 |
| JP2008040509A (ja) * | 1999-07-19 | 2008-02-21 | Qualcomm Inc | 位相スペクトル情報をサブサンプリングする方法および装置 |
| JP4860859B2 (ja) * | 1999-07-19 | 2012-01-25 | クゥアルコム・インコーポレイテッド | 位相スペクトル情報をサブサンプリングする方法および装置 |
| US6907413B2 (en) | 2000-08-02 | 2005-06-14 | Sony Corporation | Digital signal processing method, learning method, apparatuses for them, and program storage medium |
| US6990475B2 (en) | 2000-08-02 | 2006-01-24 | Sony Corporation | Digital signal processing method, learning method, apparatus thereof and program storage medium |
| US7412384B2 (en) | 2000-08-02 | 2008-08-12 | Sony Corporation | Digital signal processing method, learning method, apparatuses for them, and program storage medium |
| JP2009501909A (ja) * | 2005-07-18 | 2009-01-22 | トグノラ,ディエゴ,ジュセッペ | 信号処理方法およびシステム |
Also Published As
| Publication number | Publication date |
|---|---|
| EP0865028A1 (en) | 1998-09-16 |
| US5903866A (en) | 1999-05-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH10307599A (ja) | スプラインを使用する波形補間音声コーディング | |
| US11721349B2 (en) | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates | |
| JP4662673B2 (ja) | 広帯域音声及びオーディオ信号復号器における利得平滑化 | |
| KR100304682B1 (ko) | 음성 코더용 고속 여기 코딩 | |
| EP0865029B1 (en) | Efficient decomposition in noise and periodic signal waveforms in waveform interpolation | |
| JP4302978B2 (ja) | 音声コーデックにおける擬似高帯域信号の推定システム | |
| JPWO2001020595A1 (ja) | 音声符号化及び音声復号化装置 | |
| CN100527225C (zh) | 基于celp的语音代码之间的代码转换方案 | |
| US5504834A (en) | Pitch epoch synchronous linear predictive coding vocoder and method | |
| US20040111257A1 (en) | Transcoding apparatus and method between CELP-based codecs using bandwidth extension | |
| JP2645465B2 (ja) | 低遅延低ビツトレート音声コーダ | |
| JP2000155597A (ja) | デジタル音声符号器において使用するための音声符号化方法 | |
| CN100585700C (zh) | 语音编码装置及其方法 | |
| JPH09127985A (ja) | 信号符号化方法及び装置 | |
| JP3163206B2 (ja) | 音響信号符号化装置 | |
| JPH09127987A (ja) | 信号符号化方法及び装置 | |
| JP3453116B2 (ja) | 音声符号化方法及び装置 | |
| Shoham | Low complexity speech coding at 1.2 to 2.4 kbps based on waveform interpolation | |
| JP3520955B2 (ja) | 音響信号符号化法 | |
| JP2000305597A (ja) | 音声圧縮のコード化 | |
| HK40057033B (zh) | 在声音信号编码器和解码器中使用的方法、设备和存储器 | |
| HK40130480A (en) | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates | |
| HK40104768A (en) | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates | |
| HK40104768B (en) | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates | |
| HK40036813A (en) | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates |