JP5247826B2

JP5247826B2 - 復号化音調音響信号を増強するためのシステムおよび方法

Info

Publication number: JP5247826B2
Application number: JP2010548995A
Authority: JP
Inventors: トミー・ヴェヤンクール; ミラン・イェリネク; ウラジミール・マレノフスキー; レドワン・サラミ
Original assignee: ヴォイスエイジ・コーポレーション
Priority date: 2008-03-05
Filing date: 2009-03-05
Publication date: 2013-07-24
Anticipated expiration: 2029-03-05
Also published as: CA2715432C; RU2010140620A; WO2009109050A8; US20110046947A1; RU2470385C2; EP2863390A2; JP2011514557A; EP2863390A3; EP2863390B1; EP2252996A4; CA2715432A1; US8401845B2; EP2252996A1; WO2009109050A1

Description

本発明は、復号化音調音響信号、例えば音声専用コーデックを使用して符号化された音楽信号などのオーディオ信号を増強するためのシステムおよび方法に関するものである。そのために、このシステムおよび方法は、低いエネルギーを示すスペクトルの領域の量子化雑音のレベルを低減する。

主観的品質とビットレートとの兼ね合いが良好な、効率的なデジタル音声およびオーディオ符号化技術に対する要求が、遠隔会議、マルチメディア、無線通信などの様々な用途においてますます高まっている。

音声符号器は音声信号をデジタルビットストリームに変換し、そのデジタルビットストリームは通信チャネルを通して伝送されるかまたは記憶媒体に記憶される。音声信号は、通常、デジタル化される、すなわちサンプル当たり16ビットでサンプリングされ量子化される。音声符号器は、良好な主観的音声品質を維持しながらより少ないビットでデジタルサンプルを表す役割を有する。音声復号器または合成器は伝送または記憶されたビットストリームに演算を施し、それを変換して音響信号に戻す。

符号励振線形予測(CELP)符号化は、主観的品質とビットレートとの間の良好な折り合いを達成するための最良の従来技術の技法の1つである。CELP符号化技法は、無線用途および有線用途の両方におけるいくつかの音声符号化標準の基本である。CELP符号化において、サンプリングされた音声信号は、フレームと通常呼ばれるL個のサンプルの連続ブロックで処理され、ここで、Lは一般に10〜30ミリ秒に対応するサンプルのある所定の数である。線形予測(LP)フィルタがフレームごとに計算され伝送される。LPフィルタの計算は典型的には先読み、例えば後続のフレームからの5〜15ミリ秒の音声セグメントを使用する。Lサンプルフレームはサブフレームと呼ばれるより小さいブロックに分割される。通常、サブフレームの数は3個または4個であり、4〜10ミリ秒のサブフレームがもたらされる。各サブフレームにおいて、励振信号は、通常、2つの成分、すなわち過去の励振および革新的な固定コードブック励振から得られる。過去の励振から形成される成分は、多くの場合、適応コードブックまたはピッチコードブック励振と呼ばれる。励振信号を特徴づけるパラメータは符号化され、復号器に伝送され、そこで励振信号は再構築され、LPフィルタの入力として使用される。

保留音などのいくつかの用途では、低ビットレート音声専用コーデックを使用して音楽信号に演算を施す。これは、通常、低ビットレート音声専用コーデックの音声生成モデルを使用するため不十分な音楽品質をもたらす。

いくつかの音楽信号では、スペクトルは、いくつかの音調が存在し(スペクトルピークに対応する)、調和的に関連していない音調構造を示す。これらの音楽信号は、全極型合成フィルタおよびピッチフィルタを使用する低ビットレート音声専用コーデックで符号化することが困難である。ピッチフィルタは、スペクトルが基本周波数およびこの基本周波数の高調波を含む調波構造を示す音声セグメントのモデル化を可能にする。しかし、そのようなピッチフィルタは、調和的に関連していない音調を適切にモデル化することができない。さらに、全極型合成フィルタは音調間のスペクトルの谷間をモデル化することができない。したがって、CELPなどの音声生成モデルを使用する低ビットレート音声専用コーデックが使用される場合、音楽信号は、スペクトルの低エネルギーの領域(音調間領域またはスペクトルの谷間)で可聴量子化雑音を示す。

3GPP TS 26.190、「Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions」 J. D. Johnston、「Transform coding of audio signal using perceptual noise criteria」、IEEE J. Select. Areas Commun.、6巻、314〜323頁、1988年2月

本発明の目的は、受け取った符号化ビットストリーム、例えば音楽信号などのオーディオ信号に応じて音声専用コーデックの復号器で復号された音調音響信号を、スペクトルの低エネルギーの領域(音調間領域またはスペクトルの谷間)の量子化雑音を低減することによって増強することである。

より詳細には、本発明によれば、受け取った符号化ビットストリームに応答して音声専用コーデックの復号器で復号された音調音響信号を増強するためのシステムであって、復号化音調音響信号に応答して復号化音調音響信号を表すスペクトルパラメータを生成するスペクトルアナライザと、スペクトルアナライザからのスペクトルパラメータに応答する復号化音調音響信号の低エネルギースペクトル領域の量子化雑音のレジューサとを備える音調音響信号を増強するためのシステムが提供される。

本発明は、さらに、受け取った符号化ビットストリームに応答して音声専用コーデックの復号器で復号された音調音響信号を増強する方法であって、復号化音調音響信号を表すスペクトルパラメータを生成するために復号化音調音響信号をスペクトル的に分析する段階と、スペクトル分析からのスペクトルパラメータに応答して復号化音調音響信号の低エネルギースペクトル領域の量子化雑音を低減する段階とを含む音調音響信号を増強する方法に関する。

本発明は、さらに、復号化音調音響信号を増強するためのシステムであって、復号化音調音響信号を表すスペクトルパラメータを生成するために復号化音調音響信号に応答し、スペクトル分析に由来するスペクトルを1組の臨界周波数帯域に分割するスペクトルアナライザであり、各臨界周波数帯域がいくつかの周波数ビンを含む、スペクトルアナライザと、スペクトルアナライザからのスペクトルパラメータに応答する復号化音調音響信号の低エネルギースペクトル領域の量子化雑音のレジューサであり、臨界周波数帯域当たり、周波数ビン当たり、または臨界周波数帯域および周波数ビン当たりの復号化音調音響信号のスペクトルをスケーリングする雑音減衰器を含む、量子化雑音のレジューサとを備える復号化音調音響信号を増強するためのシステムに関する。

本発明は、さらに、復号化音調音響信号を増強する方法であって、復号化音調音響信号を表すスペクトルパラメータを生成するために復号化音調音響信号をスペクトル的に分析する段階であり、スペクトル分析に由来するスペクトルを、各々がいくつかの周波数ビンを含む1組の臨界周波数帯域に分割する段階を含む、段階と、スペクトル分析からのスペクトルパラメータに応答して復号化音調音響信号の低エネルギースペクトル領域の量子化雑音を低減する段階であり、臨界周波数帯域当たり、周波数ビン当たり、または臨界周波数帯域および周波数ビン当たりの復号化音調音響信号のスペクトルをスケーリングする段階を含む、段階とを含む音調音響信号を増強する方法に関する。

本発明の前述および他の目的、利点、および特徴は、添付図面を参照して例としてのみ与えられる本発明の例示的実施形態の以下の非限定的説明を読むときより明白になるであろう。

復号化音調音響信号を増強するためのシステムおよび方法の概要を示す概略ブロック図である。スペクトル分析におけるウィンドウ処理を示すグラフである。復号化音調音響信号を増強するためのシステムおよび方法の概要を示す概略ブロック図である。音調利得補正を示す概略ブロック図である。信号タイプ分類器の一例の概略ブロック図である。声道形状をモデル化するLP合成フィルタ(スペクトル包絡線)と、声帯をモデル化するピッチフィルタ(調波微細構造)とを含む音声生成モデルを使用する低ビットレート音声専用コーデック復号器の概略ブロック図である。

以下の詳細な説明において、音調間雑音低減技法が、例えば音楽コンテンツの音調間量子化雑音のレベルを低減するために低ビットレート音声専用コーデック内で行われる。音調間雑音低減技法は、8000サンプル/sでサンプリングされた狭帯域音響信号または16000サンプル/sでサンプリングされた広帯域音響信号のいずれか、あるいは任意の他のサンプリング周波数で実施することができる。音調間雑音低減技法を復号化音調音響信号に適用して、スペクトルの谷間(音調間の低いエネルギー領域)の量子化雑音を低減する。いくつかの音楽信号では、スペクトルは、いくつかの音調が存在し(スペクトルピークに対応する)、調和的に関連していない音調構造を示す。これらの音楽信号は、全極型LP合成フィルタおよびピッチフィルタを使用する低ビットレート音声専用コーデックで符号化するのが困難である。ピッチフィルタは、基本周波数およびその基本周波数の高調波をもつ調波構造を示すスペクトルを有する有声音声セグメントをモデル化することができる。しかし、ピッチフィルタは、調和的に関連していない音調を適切にモデル化することができない。さらに、全極型LP合成フィルタは、音調間のスペクトルの谷間をモデル化することができない。したがって、CELPなどの音声生成モデルによる低ビットレート音声専用コーデックを使用することによって、モデル化された信号はスペクトルの低エネルギーの領域(音調間領域またはスペクトルの谷間)で可聴量子化雑音を示すことになる。したがって、音調間雑音低減技法は、復号化音調音響信号を増強するために、より詳細には復号化音調音響信号の品質を向上させるために低エネルギースペクトル領域の量子化雑音を低減することに関係する。

一実施形態では、低ビットレート音声専用コーデックは、狭帯域または広帯域信号(8kHzまたは16kHzサンプリング周波数)のいずれかに処理を施すCELP音声生成モデルに基づく。任意の他のサンプリング周波数を使用することもできる。

CELP音声生成モデルを使用する低ビットレート音声専用コーデックの復号器の例600が図6を参照しながら簡単に説明される。受け取った符号化ビットストリームから抽出された固定コードブックインデックスに応答して、固定コードブック601は固定コードブックベクトル602を生成し、固定コードブック利得gが乗ぜられ、革新的な固定コードブック励振603が生成される。同様に、適応コードブック604は、受け取った符号化ビットストリームから抽出されたピッチ遅延に応答して、適応コードブックベクトル607を生成し、適応コードブック604は、ピッチフィルタ606を含むフィードバックループを通る励起信号610がさらに供給される(605を参照)。適応コードブックベクトル607は利得Gが乗ぜられて、適応コードブック励振608が生成される。革新的な固定コードブック励振603および適応コードブック励振608は加算器609により合計され、LP合成フィルタ611に供給される励起信号610が形成され、LP合成フィルタ611は、受け取った符号化ビットストリームから抽出されたLPフィルタパラメータによって制御される。LP合成フィルタ611は合成音響信号612または復号化音調音響信号を生成し、それはモジュール613においてアップサンプリング/ダウンサンプリングし、その後、復号化音調音響信号を増強するためのシステム100および方法を使用して増強することができる。

例えば、AMR-WB([1]-3GPP TS 26.190、「Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions」)構造に基づくコーデックを使用することができる。AMR-WB音声コーデックは12.8kHzの内部サンプリング周波数を使用し、信号を8kHzまたは16kHzに再サンプリングし、その後、音調間量子化雑音の低減を行うことができ、または代替として雑音低減もしくはオーディオ増強を12.8kHzで行うことができる。

図1は、復号化音調音響信号を増強するためのシステムおよび方法100の概要を示す概略ブロック図である。

図1を参照すると、符号化ビットストリーム101(符号化音響信号)が、低ビットレート音声専用コーデックの復号器102(例えば図6の復号器600)により受け取られ処理されて、復号化音響信号103が生成される。前述の説明で示されたように、復号器102は、例えば、AMR-WB復号器などのCELP音声生成モデルを使用する音声専用復号器とすることができる。

音響信号復号器102の出力での復号化音響信号103は、8kHzのサンプリング周波数に変換される(再サンプリングされる)。しかし、本明細書で開示される音調間雑音低減技法は、12.8kHzまたは16kHzなどの他のサンプリング周波数で復号化音調音響信号に同様に適用できることに留意されたい。

前処理が復号化音響信号103に適用される場合もあり、適用されない場合もある。前処理が適用される場合、スペクトルアナライザ105でのスペクトル分析が行われる前に、復号化音響信号103は、例えば、プリプロセッサ104によりプリエンファシスされる。

復号化音響信号103をプリエンファシスするために、プリプロセッサ104は1次ハイパスフィルタ(図示せず)を含む。1次ハイパスフィルタは復号化音響信号103のより高い周波数を強調し、その目的のために、以下の伝達関数を有することができ、
H_pre-emph(z)=1-0.68z^-1 (1)
ここで、zはZ変換変数を示す。

復号化音響信号103のより高い周波数のプリエンファシスは復号化音響信号103のスペクトルを平坦にする特性を有し、それは音調間雑音低減に有用である。

プリプロセッサ104での復号化音響信号103のより高い周波数のプリエンファシスに続いて、
- プリエンファシスされた復号化音響信号106のスペクトル分析がスペクトルアナライザ105で行われる。このスペクトル分析は離散的フーリエ変換(DFT)を使用し、以下の記述でより詳細に説明される。
- 音調間雑音低減技法は、スペクトルアナライザ105からのスペクトルパラメータ107に応答して適用され、復号化音調音響信号の低エネルギーのスペクトル領域の量子化雑音のレジューサ108で実施される。量子化雑音のレジューサ108の演算は、以下の記述でより詳細に説明される。
- 逆アナライザおよび重複加算演算器110は、(a)逆DFT(離散フーリエ変換)を音調間雑音を低減したスペクトルパラメータ109に適用し、これらのパラメータ109を変換して時間ドメインに戻す、および(b)重複加算演算を使用して、増強復号化音調音響信号111を再構築する。逆アナライザおよび重複加算演算器110の演算は以下の記述でより詳細に説明される。
- ポストプロセッサ112は逆アナライザおよび重複加算演算器110からの再構築された増強復号化音調音響信号111を後処理する。この後処理は前処理段階(プリプロセッサ104)の逆であり、したがって、増強復号化音調音響信号のより高い周波数のデエンファシスで構成することができる。そのようなデエンファシスは以下の記述でより詳細に説明される。
- 最後に、音響再生システム114を設けて、ポストプロセッサ112からの後処理された増強復号化音調音響信号113を可聴音に変換することができる。

例えば、音調間雑音低減技法が実施される音声専用コーデックは、8kHzのサンプリング周波数で160サンプルを含む20ミリ秒フレームに演算を施す。さらにこの例によれば、音響信号復号器102は、最良のフレーム消去隠蔽性能のために将来フレームからの10ミリ秒先読みを使用する。この先読みは、より良好な周波数分解能のために音調間雑音低減技法でも使用される。量子化雑音のレジューサ108で実施される音調間雑音低減技法は復号器102と同じフレーミング構造に従う。しかし、先読みの使用を最大化するために、復号器フレーミング構造と音調間雑音低減フレーミング構造との間にある程度のシフトを導入することができる。以下の説明では、サンプルに属するインデックスは音調間雑音低減フレーミング構造を反映することになる。

スペクトル分析
図3を参照すると、DFT(離散フーリエ変換)をスペクトルアナライザ105で使用して、プリエンファシスされた復号化音調音響信号106のスペクトル分析およびスペクトルのエネルギー予測を行う。スペクトルアナライザ105において、スペクトル分析は33%重複をもつ30ミリ秒分析ウィンドウを使用してフレームごとに行われる。より詳細には、アナライザ105のスペクトル分析(図3)は、図2に示されるような33.3パーセント重複ウィンドウ処理による256ポイント高速フーリエ変換(FFT)を使用して、フレーム当たり1回行われる。分析ウィンドウは先読み全体を活用するように配置される。第1の分析ウィンドウの先頭は、音響信号復号器102の現在のフレームの先頭の後ろに80サンプルシフトされる。

周波数分析のために、分析ウィンドウを使用して、プリエンファシスされた復号化音調音響信号106を重み付けする。分析ウィンドウは中央で平坦であり、縁部で正弦関数であり(図2)、その正弦関数は重複加算演算に十分に適合している。より詳細には、分析ウィンドウは以下のように記述することができ、

ここで、L_window=240サンプルは分析ウィンドウのサイズである。256ポイントFFT(L_FFT=256)が使用されるので、ウィンドウ処理された信号は16個のゼロサンプルで埋められる。

利用可能な小さい先読みだけをもつ広帯域の信号の場合には代替の分析ウィンドウを使用することができる。この分析ウィンドウは以下の形状を有することができ、

ここで、

は、広帯域分析ウィンドウのサイズである。その場合、512ポイントFFTが使用される。したがって、ウィンドウ処理された信号は152個のゼロサンプルで埋められる。ゼロパッディングをできるだけ少なくし、複雑さを低減するために、他の基数FFTを場合によっては使用することができる。

s'(n)が、音調間雑音低減フレームの最初のサンプルに対応するインデックス0をもつ復号化音調音響信号を表すようにする(上記で示されたように、この実施形態では、これは音響信号復号器フレームの先頭に続く80サンプルに対応する)。スペクトル分析のためのウィンドウ処理された復号化音調音響信号は以下の関係を使用して得ることができ、

ここで、s'(0)は現在の音調間雑音低減フレームの最初のサンプルである。

FFTがウィンドウ処理された復号化音調音響信号に行われて、フレーム当たり1組のスペクトルパラメータが得られ、

ここで、N=L_FFTである。

FFTの出力は、X_R(k)、k=0から

およびX_I(k)、k=1から

によって表されるスペクトルの実数部分および虚数部分を与える。X_R(0)は0Hz(DC)のスペクトルに対応し、

は、

Hzのスペクトルに対応し、ここで、F_sはサンプリング周波数に対応することに留意されたい。これらの2つのポイントのスペクトルは単に実数値化され、後続の分析では通常無視される。

FFT分析の後、得られるスペクトルは、以下の上限を有する間隔を使用して臨界周波数帯域に分割される(周波数範囲0〜4000Hzの17個の臨界帯域および周波数範囲0〜8000Hzの21個の臨界周波数帯域)([2]を参照、J. D. Johnston、「Transform coding of audio signal using perceptual noise criteria」、IEEE J. Select. Areas Commun.、6巻、314〜323頁、1988年2月)。

狭帯域符号化の場合には、臨界周波数帯域={100.0, 200.0, 300.0, 400.0, 510.0, 630.0, 770.0, 920.0, 1080.0, 1270.0, 1480.0, 1720.0, 2000.0, 2320.0, 2700.0, 3150.0, 3700.0, 3950.0}Hzである。

広帯域符号化の場合には、臨界周波数帯域={100.0, 200.0, 300.0, 400.0, 510.0, 630.0, 770.0, 920.0, 1080.0, 1270.0, 1480.0, 1720.0, 2000.0, 2320.0, 2700.0, 3150.0, 3700.0, 4400.0, 5300.0, 6700.0, 8000.0}Hzである。

256ポイントまたは512ポイントFFTは、31.25Hz(4000/128=8000/256)の周波数分解能をもたらす。スペクトルのDC流成分を無視した後、分解能が32Hzに近似される場合、狭帯域符号化の場合の臨界周波数帯域当たりの周波数ビンの数は、それぞれ、M_CB={3, 3, 3, 3, 3, 4, 5, 4, 5, 6, 7, 7, 9, 10, 12, 14, 17, 12}である。広帯域符号化の場合には、M_CB={3, 3, 3, 3, 3, 4, 5, 4, 5, 6, 7, 7, 9, 10, 12, 14, 17, 22, 28, 44, 41}である。

臨界周波数帯域当たりの平均スペクトルエネルギーは以下のように計算され、

ここで、X_R(k)およびX_I(k)はそれぞれk番目の周波数ビンの実数部分および虚数部分であり、j_iは、狭帯域符号化の場合には、j_i={1, 4, 7, 10, 13, 16, 20, 25, 29, 34, 40, 47, 54, 63, 73, 85, 99, 116}で与えられ、広帯域符号化の場合には、j_i={1, 4, 7, 10, 13, 16, 20, 25, 29, 34, 40, 47, 54, 63, 73, 85, 99, 116, 138, 166, 210}で与えられるi番目の臨界帯域の最初のビンのインデックスである。

図3のスペクトルアナライザ105は、さらに、以下の関係を使用して、最初の17個の臨界帯域(DC成分以外の115個のビン)について周波数ビン当たりのスペクトルのエネルギーE_BIN(k)を計算する。

最後に、スペクトルアナライザ105は、以下の関係を使用してフレームにおけるスペクトルアナライザ105によって計算された最初の17個の臨界周波数帯域のスペクトルのエネルギーの平均として全フレームスペクトルエネルギーを計算する。

図3のスペクトルアナライザ105からのスペクトルのパラメータ107、より詳細には上述の計算された臨界帯域当たりの平均スペクトルエネルギー、周波数ビン当たりのスペクトルエネルギー、および全フレームスペクトルエネルギーをレジューサ108で使用して、量子化雑音を低減し、利得補正を行う。

16000サンプル/sでサンプリングされた広帯域復号化音調音響信号では、21個までの臨界周波数帯域を使用することができるが、時間tの全フレームエネルギー

の計算は、今までどおり、最初の17個の臨界帯域に対して行われることになることに留意すべきである。

信号タイプ分類器
このシステムおよび方法100によって行われる音調間雑音低減技法は、音声専用コーデックによって符号化された音楽信号などの復号化音調音響信号を増強する。通常、音声などの非音調音響は音声専用コーデックによって適切に符号化され、このタイプの周波数ベース増強を必要としない。

復号化音調音響信号を増強するためのシステムおよび方法100は、図3に示されるように、音楽のように、どの音響が音調間雑音低減に十分に適合しているか、音声のように、どの音響が適合していないかを識別することによって量子化雑音のレジューサ108の効率をさらに最大化するように設計された信号タイプ分類器301をさらに含む。

信号タイプ分類器301は、復号化音響信号を音響信号カテゴリに分離するだけではなく、少なくとも音声のいかなるあり得る劣化も低減するように量子化雑音のレジューサ108に命令を与えるという機能を含む。

信号タイプ分類器301の概略ブロック図が図5に示される。提示された実施形態では、信号タイプ分類器301はできるだけ単純に保たれた。信号タイプ分類器301への主要入力は、式(6)の公式化されたような全フレームスペクトルエネルギーE_tである。

最初に、信号タイプ分類器301はファインダ501を含み、ファインダ501は以下の関係を使用して計算される過去の40個の全フレームのスペクトルエネルギー(E_t)変動の平均を決定する。

ここで、

である。

次に、ファインダ501は、以下の関係を使用して、すぐ前の15個のフレームにわたるエネルギー変動履歴の統計偏差σ_Eを決定する。

信号タイプ分類器301は、式(7)および(8)で計算されるような全フレームスペクトルエネルギーE_tの変動の平均および偏差で更新されるメモリ502を含む。

その結果得られる偏差σ_Eはコンパレータ503〜506の4つの浮動閾値と比較され、現在の復号化音響信号への量子化雑音のレジューサ108の効率が決定される。図5の例において、信号タイプ分類器301の出力302(図3)は、音響信号カテゴリ0から4と名付けられた5つの音響信号カテゴリに分割され、各音響信号カテゴリがそれ自体の音調間雑音低減チューニングを有する。

5つの音響信号カテゴリ0〜4は以下のTableに示されるように決定することができる。

音響信号カテゴリ0は音声のような非音調音響信号カテゴリであり、それは音調間雑音低減技法によって修正されない。復号化音響信号のこのカテゴリは、スペクトルのエネルギー変動履歴の大きい統計偏差を有する。コンパレータ503〜506によるカテゴリ1〜4の検出が負である場合、コントローラ511は音調間量子化雑音を低減しない(低減=0dB)ように量子化雑音のレジューサ108に指令する。

音響信号カテゴリの中間のツリーは、スペクトルのエネルギー変動履歴の様々なタイプの統計偏差をもつ音響信号を含む。

スペクトルのエネルギー変動履歴の統計偏差が閾値1よりも低い場合、音響信号カテゴリ1(「音声タイプ」復号化音響信号の後の最も大きい変動)がコンパレータ506によって検出される。コントローラ510はコンパレータ506によるそのような検出に応答し、すぐ前に検出された音響信号カテゴリが≧0であった場合、6dBの最大許容振幅だけ音調間量子化雑音を低減することによって周波数帯域2000Hzから

Hz内の復号化音調音響信号を増強するように量子化雑音のレジューサ108に指令する。

スペクトルのエネルギー変動履歴の統計偏差が閾値2よりも低い場合、音響信号カテゴリ2がコンパレータ505によって検出される。コントローラ509はコンパレータ505によるそのような検出に応答し、すぐ前に検出された音響信号カテゴリが≧1であった場合、9dBの最大許容振幅だけ音調間量子化雑音を低減することによって周波数帯域1270Hzから

スペクトルのエネルギー変動履歴の統計偏差が閾値3よりも低い場合、音響信号カテゴリ3がコンパレータ504によって検出される。コントローラ508はコンパレータ504によるそのような検出に応答し、すぐ前に検出された音響信号カテゴリが≧2であった場合、12dBの最大許容振幅だけ音調間量子化雑音を低減することによって周波数帯域700Hzから

スペクトルのエネルギー変動履歴の統計偏差が閾値4よりも低い場合、音響信号カテゴリ4がコンパレータ503によって検出される。コントローラ507はコンパレータ503によるそのような検出に応答し、すぐ前に検出された信号タイプカテゴリが≧3であった場合、12dBの最大許容振幅だけ音調間量子化雑音を低減することによって周波数帯域400Hzから

図5の実施形態において、信号タイプ分類器301は浮動閾値1〜4を使用して、復号化音響信号を異なるカテゴリ0〜4に分割する。これらの浮動閾値1〜4は誤った信号タイプ分類を防止するのに特に有用である。一般に、音楽のような復号化音調音響信号は、音声のような非音調音響信号よりもスペクトルエネルギー変動の統計偏差が非常に低い。しかし、音楽はより高い統計偏差を含むことができ、音声はより低い統計偏差を含むことができる。音声または音楽コンテンツがフレーム単位で次々と変化することはありそうにない。浮動閾値は補強するように働き、量子化雑音のレジューサ108の次善の性能をもたらすことがある誤分類を防止する。

音響信号カテゴリ0の一連のフレーム、および音響信号カテゴリ3または4の一連のフレームのカウンタを使用して、それぞれ閾値を減少または増加させる。

例えば、カウンタ512が音響信号カテゴリ3または4の一連の30を超えるフレームを計数する場合、浮動閾値1〜4は、より多くのフレームが音響信号カテゴリ4と見なされ得るように閾値コントローラ514によって増加されることになる。カウンタ512の計数が増加されるたびに、カウンタ513は0にリセットされる。

音響信号カテゴリ0では逆も正しい。例えば、カウンタ513が音響信号カテゴリ0の一連の30を超えるフレームを計数する場合、閾値コントローラ514は、より多くのフレームが音響信号カテゴリ0と見なされ得るように浮動閾値1〜4を減少させる。浮動閾値1〜4は絶対最大値および絶対最小値に制限され、信号タイプ分類器301が固定カテゴリにロックされないことが保証される。

閾値1〜4の増加および減少は以下の関係によって示すことができる。

フレーム消去の場合には、閾値1〜4はすべてそれらの最小値にリセットされ、信号タイプ分類器301の出力は損失フレームを含む3つのフレームについて非音調(音響信号カテゴリ0)と見なす。

音声活動検出器(VAD)(図示せず)からの情報が利用でき、音声活動がないこと(無音の存在)を示している場合、信号タイプ分類器301の決定は音響信号カテゴリ0にせざるをえない。

信号タイプ分類器301の代替によれば、許容増強の周波数帯域および/または最大音調間雑音低減のレベルは、完全に動的とすることができる(ハードステップなしで)。

小さい先読みの場合には、音調間雑音低減により導入される潜在的歪みをさらに低減するために最初の臨界帯域に最小利得低減スムージングを導入することが必要となることがある。このスムージングは以下の関係を使用して行うことができる。

ここで、RedGain_iは帯域当たりの最大利得低減であり、FEhBandは、音調間雑音低減が許容される最初の帯域であり(400Hzと2kHzとの間、または臨界周波数帯域3と12との間で一般に変化する)、Allow_redは前のtableで提示された音響信号カテゴリ当たり許容される雑音低減のレベルであり、max_bandは音調間雑音低減のための最大帯域である(狭帯域(NB)に対して17、および広帯域(WB)に対して20)。

音調間雑音低減
音調間雑音低減が適用され(量子化雑音のレジューサ108(図3)を参照)、増強復号化音響信号が重複加算演算を使用して再構築される(重複加算演算器303(図3)を参照)。g_minと1との間に限定され、その臨界周波数帯域の信号対雑音比(SNR)から導き出されるスケーリング利得を用いて臨界周波数帯域ごとにスペクトルをスケーリングすることによって、音調間量子化雑音の低減が行われる。音調間雑音低減技法の特徴は、例えば信号有声化に関連するある特定の周波数よりも低い周波数では、処理は臨界周波数帯域単位ではなく周波数ビン単位で行われることである。したがって、スケーリング利得は周波数ビンごとに適用され、そのビンのSNRから導き出される(SNRはそのビンを含む臨界帯域の雑音エネルギーで除算されたビンエネルギーを使用して計算される)。この特徴は、高調波間の量子化雑音を強力に低減しながら、高調波または音調の近くの周波数のエネルギーを保存して歪みを防止する効果がある。狭帯域信号の場合には、ビン当たりの分析をスペクトル全体に対して使用することができる。ビン当たりの分析は、代替として、すぐ前のもの以外のすべての臨界周波数帯域で使用することができる。

図3を参照すると、音調間量子化雑音低減は量子化雑音のレジューサ108で行われる。第1の可能な実施形態によれば、ビン当たりの処理は雑音減衰器304において狭帯域符号化では115個の周波数ビン(広帯域符号化では250個の周波数ビン)のすべてにわたって行うことができる。

代替実施形態では、雑音減衰器304が、最初の有声K帯域の各周波数ビンにスケーリング利得を適用するようにビン当たりの処理を行い、次に、雑音減衰器305が、残りの臨界周波数帯域の各々のスペクトルをスケーリング利得によりスケーリングするように帯域当たりの処理を行う。K=0の場合、雑音減衰器305は臨界周波数帯域のすべてに帯域当たりの処理を行う。

最小スケーリング利得g_minは、dBでの最大許容音調間雑音低減NR_maxから導き出される。前述の説明(上記のtableを参照)で述べたように、信号タイプ分類器301は、6dBと12dBとの間で変化する最大許容雑音低減NR_maxを行う。したがって、最小スケーリング利得は以下の関係で与えられる。

狭帯域音調フレームの場合には、スケーリング利得は周波数ビン当たりのSNRに対して計算することができ、次に、ビン当たりの雑音低減が行われる。ビン当たりの処理が、3700Hzの最大周波数に対応する最初の17個の臨界帯域にのみ適用される。ビン当たりの処理を使用できる周波数ビンの最大数は115個である(4kHzでの最初の17個の帯域のビンの数)。

広帯域音調フレームの場合には、ビン当たりの処理は、8000Hzの最大周波数に対応するすべての21個の臨界周波数帯域に適用される。ビン当たりの処理を使用できる周波数ビンの最大数は250個である(8kHzでの最初の21個の帯域のビンの数)。

音調間雑音低減技法では、雑音低減は第4の臨界周波数帯域から始まる(400Hzの前に行われる低減はない)。音調間量子化雑音低減技法の悪影響を低減するために、信号タイプ分類器301は開始臨界周波数帯域を12番目まで押し進めることができる。これは、音調間雑音低減が行われる最初の臨界周波数帯域が400Hzと2kHzとの間のどこかにあり、フレーム単位で変化することができることを意味する。

ある特定の臨界周波数帯域またはある特定の周波数ビンのスケーリング利得は、以下の関係を使用してその周波数帯域またはビン中のSNRの関数として計算することができる。
(g_s)²=k_s SNR+c_s、ここで、g_min≦g_s≦1により制限される (10)

k_sおよびc_sの値は、SNR=1dBではg_s=g_min、およびSNR=45dBではg_s=1であるように決定される。すなわち、1dB以下のSNRでは、スケーリング利得はg_sに制限され、45dB以上のSNRでは、音調間雑音低減は所与の臨界周波数帯域では行われない(g_s=1)。したがって、これらの2つのエンドポイントが与えられれば、式(10)のk_sおよびc_sの値は以下の関係を使用して計算することができる。

式(10)の変数SNRは、ビン当たりの処理または帯域当たりの処理のタイプに応じて、臨界周波数帯域当たりのSNRのSNR_CB(i)、または周波数ビン当たりのSNRのSNR_BIN(k)である。

臨界周波数帯域当たりのSNRは以下のように計算される。

ここで、

および

は、それぞれ過去および現在のフレームスペクトル分析での臨界周波数帯域当たりのエネルギーを表し(式(4)で計算されるように)、N_CB(i)は臨界周波数帯域当たりの雑音エネルギー予測値を表す。

ある特定の臨界周波数帯域iの周波数ビン当たりのSNRは以下の関係を使用して計算される。

ここで、

および

は、それぞれ過去⁽¹⁾および現在⁽²⁾のフレームスペクトル分析での周波数ビン当たりのエネルギーを表し(式(5)で計算されるように)、N_CB(i)は臨界周波数帯域当たりの雑音エネルギー予測値を表し、j_iはi番目の臨界周波数帯域の最初の周波数ビンのインデックスであり、M_CB(i)は上述の本明細書で定義されたような臨界周波数帯域iにおける周波数ビンの数である。

別の代替実施形態によれば、スケーリング利得は、最初の有声帯域の臨界周波数帯域当たりのSNR、または周波数ビン当たりのSNRに対して計算することができる。K_VOIC>0である場合、ビン当たりの処理を最初のK_VOIC帯域で行うことができる。次に、帯域当たりの処理を帯域の残りで使用することができる。K_VOIC=0の場合には、帯域当たりの処理をスペクトル全体にわたって使用することができる。

インデックスiの臨界周波数帯域に対する帯域当たりの処理の場合には、式(10)を使用してスケーリング利得を、および式(12)または(13)で定義されるSNRを決定した後、実際のスケーリングは、以下の関係によってスペクトル分析ごとに更新される平滑化スケーリング利得を使用して行われる。
g_CB,LP(i)=α_gsg_CB,LP(i)+(1-α_gs)g_s (14)

特徴によれば、スケーリング利得g_sを平滑化するのに使用される平滑化係数α_gsは、適応性のものとすることができ、スケーリング利得g_s自体と逆関係にすることができる。例えば、平滑化係数はα_gs=1-g_sで与えることができる。したがって、平滑化は、利得g_sが小さいほど強くなる。この手法は、有声頭子音の場合のように、低いSNRフレームの後の高いSNRセグメントの歪みを防止する。提案した手法では、平滑化手順は、例えば有声頭子音の発生に際して迅速に適応し、より低いスケーリング利得を使用することができる。

臨界周波数帯域のスケーリングは以下のように行われる。
X'_R(k+j_i)=g_CB,LP(i)X_R(k+j_i)
および
X'_I(k+j_i)=g_CB,LP(i)X_I(k+j_i), K=0,...,M_CB(i)-1' (15)
ここで、j_iは臨界周波数帯域iの最初の周波数ビンのインデックスであり、M_CB(i)はその臨界周波数帯域の周波数ビンの数である。

インデックスiの臨界周波数帯域に対するビン当たりの処理の場合には、式(10)を使用してスケーリング利得を、および式(12)または(13)で定義されるSNRを決定した後、実際のスケーリングは、以下のようにスペクトル分析ごとに更新される平滑化スケーリング利得を使用して行われる。
g_BIN,LP(k)=α_gsg_BIN,LP(k)+(1-α_gs)g_s (16)
ここで、平滑化係数α_gs=1-g_sは式(14)と同様である。

スケーリング利得の時間平滑化は可聴エネルギー振動を防止し、一方、α_gsを使用して平滑化を制御すると、例えば有声頭子音の場合のように低いSNRフレームの後の高いSNR音声セグメントの歪みを防止する。

次に、臨界周波数帯域iのスケーリングは以下のように行われる。
X'_R(k+j_i)=g_BIN,LP(k+j_i)X_R(k+j_i)
および
X'_I(k+j_i)=g_BIN,LP(k+j_i)X_I(k+j_i), K=0,...,M_CB(i)-1' (17)
ここで、j_iは臨界周波数帯域iの最初の周波数ビンのインデックスであり、M_CB(i)はその臨界周波数帯域の周波数ビンの数である。

平滑化スケーリング利得g_BIN,LP(k)およびg_CB,LP(i)は最初に1.0に設定される。非音調音響フレームが処理される(music_flag=0)ごとに、平滑化スケーリング利得の値は、次のフレームのこれらの平滑化スケーリング利得の起こり得る低減を縮小するために1.0にリセットされる。

スペクトルアナライザ105で行われるスペクトル分析ごとに、平滑化スケーリング利得g_CB,LP(i)はすべての臨界周波数帯域について更新される(ビン当たりの処理により処理された有声臨界周波数帯域の場合でさえ更新される - この場合、g_CB,LP(i)は、臨界周波数帯域iに属するg_BIN,LP(k)の平均で更新される)。同様に、平滑化スケーリング利得g_BIN,LP(k)は、狭帯域符号化の場合には最初の17個の臨界周波数帯域中のすべての周波数ビンについて、すなわち周波数ビン115個まで更新される(広帯域の符号化の場合には、最初の21個の臨界周波数帯域について、すなわち周波数ビン250個まで)。帯域当たりの処理で処理された臨界周波数帯域では、スケーリング利得は、スケーリング利得を最初の17個(狭帯域符号化)または21個(広帯域符号化)の臨界周波数帯域のg_CB,LP(i)と等しく設定することによって更新される。

低エネルギー復号化音調音響信号の場合には、音調間雑音低減は行われない。低エネルギー音響信号は、すべての臨界周波数帯域の最大雑音エネルギーmax(N_CB(i))、i=0,...,17(狭帯域符号化の場合には17、広帯域符号化の場合には21)を見いだすことによって検出され、この値がある特定の値、例えば15dB以下である場合、音調間雑音低減は行われない。

狭帯域信号の処理の場合には、音調間雑音低減は最初の17個の臨界周波数帯域(3680Hzまで)に行われる。3680Hzと4000Hzとの間の残りの11個の周波数ビンでは、スペクトルは、3680Hzに対応する周波数ビンのすぐ前のスケーリング利得g_sを使用してスケーリングされる。

スペクトル利得補正
パルゼバルの定理は、時間ドメインのエネルギーが周波数ドメインのエネルギーと等しいことを示している。音調間雑音のエネルギーの低減は、周波数ドメインおよび時間ドメインのエネルギーの全体的低減をもたらす。追加の特徴は、量子化雑音のレジューサ108が、再スケーリングの終了時の臨界周波数帯域ごとのエネルギーが音調間雑音低減の前のエネルギーに近いように臨界周波数帯域当たりのエネルギーを再スケーリングする帯域当たりの利得補正器306を含むことである。

そのような再スケーリングを達成するのに、周波数ビンをすべて再スケーリングする必要はなく、最もエネルギッシュなビンだけを再スケーリングする必要がある。帯域当たりの利得補正器306は、音調間雑音低減前の最もエネルギッシュなビンを、音調間雑音低減フェーズ中に0.8と1.0との間のスケーリング利得でスケーリングされるビンとして識別するアナライザ401(図4)を含む。代替によれば、アナライザ401は、最もエネルギッシュなビンを識別するために、例えば式(5)を使用して音調間雑音低減の前にビン当たりのエネルギーを決定することもできる。

音調間雑音から除去されたエネルギーは、臨界周波数帯域のうちの最もエネルギッシュな事象(最もエネルギッシュなビンに対応する)に移動されることになる。このように、エネルギッシュな事象と雑音フロアとの間のダイナミックがさらに増大するので、最終的な音楽サンプルは単純な音調間雑音低減を単に行うよりも明瞭に音を出すことになる。

音調間雑音低減後の臨界周波数帯域のスペクトルエネルギーは、音調間雑音低減の前のスペクトルエネルギーと同じ方法で計算される。

この点において、帯域当たりの利得補正器306は、式(18)を使用して音調間雑音低減前の帯域当たりのスペクトルエネルギーを決定するためのアナライザ402と、式(18)を使用して音調間雑音低減後の帯域当たりのスペクトルエネルギーを決定するためのアナライザ403とを含む。

帯域当たりの利得補正器306は、音調間雑音低減前の臨界周波数帯域のスペクトルエネルギーと、音調間雑音低減が適用された後のこの臨界周波数帯域のスペクトルエネルギーとの比として補正利得を決定するための計算器404をさらに含む。

ここで、E_CBは音調間雑音低減前の臨界帯域スペクトルエネルギーであり、E_CB'は音調間雑音低減後の臨界周波数帯域スペクトルエネルギーである。臨界周波数帯域の総数は、狭帯域符号化の17個の帯域から広帯域符号化の21個の帯域までの全スペクトルを包含する。

臨界周波数帯域iに沿った再スケーリングを以下のように行うことができる。
IF(g_BIN,LP(k+j_i)>0.8 & i>4)
X"_R(k+j_i)=G_corr(k+j_i)X'_R(k+j_i),
および
X"_I(k+j_i)=G_corr(k+j_i)X'_I(k+j_i), K=0,...,M_CB(i)-1,
さもなければ
X"_R(k+j_i)=X'_R(k+j_i),
および
X"_I(k+j_i)=X'_I(k+j_i), K=0,...,M_CB(i)-1 (20)
ここで、j_iは臨界周波数帯域iの最初の周波数ビンのインデックスであり、M_CB(i)はその臨界周波数帯域の周波数ビンの数である。利得補正は600Hz未満には適用されないが、それは、非常に低い周波数のスペクトルエネルギーが低ビットレート音声専用コーデックで正確に符号化されており、高調波音調間のいかなる増大も可聴となると想定されるからである。

スペクトル利得ブースト
エネルギッシュな事象があまり生じない臨界周波数帯域の利得G_corrをさらに増加させることによって音楽サンプルの明瞭性をさらに向上させることが可能である。帯域当たりの利得補正器306の計算器405は、臨界周波数帯域当たりのエネルギッシュな事象の比(エネルギッシュなビンの数と周波数ビンの総数との比)を以下のように決定する。

NumBin_max=Σ(g_BIN,LP>0.8)
NumBin_total=臨界帯域中のビン総数

次に、計算器405は、以下の式を使用して補正利得への追加の補正係数を計算する。
IF(NumBin_max>0)
C_F=-0.2778・REν_CB+1.2778

帯域当たりの利得補正器406では、この新しい補正係数C_Fにより、1.0と1.2778との間にある値が補正利得G_corrに乗ぜられる。この補正係数C_Fを考慮に入れると、臨界周波数帯域iに沿った再スケーリングは以下のようになる。
IF(g_BIN,LP(k+j_i)>0.8 & i>4)
X"_R(k+j_i)=G_corr・C_F・(k+j_i)X'_R(k+j_i),
および
X"_I(k+j_i)=G_corr・C_F・(k+j_i)X'_I(k+j_i), K=0,...,M_CB(i)-1,
さもなければ
X"_R(k+j_i)=X'_R(k+j_i),
および
X"_I(k+j_i)=X'_I(k+j_i), K=0,...,M_CB(i)-1

広帯域符号化の特定の場合には、再スケーリングは、音調間雑音低減フェーズ中に0.96と1.0との間のスケーリング利得で以前にスケーリングされた周波数ビンにのみ行われる。通常、ビットレートが高いほどスペクトルのエネルギーは所望のエネルギーレベルに近いことになる。そのため、利得補正の第2の部分、すなわち利得補正係数C_Fは必ずしも使用されるとは限らない。最後に、非常に高いビットレートでは、以前に変更されなかった周波数ビンにのみ利得再スケーリング(1.0のスケーリング利得を有する)を行うことは有利となり得る。

増強され雑音除去された音響信号の再構築
スケーリングされたスペクトル成分308、X'_R(k)またはX_R"(k)、およびX'_I(k)またはX_I"(k)を決定した後、逆アナライザの計算器307および重複加算演算器110は逆FFTを計算する。計算された逆FFTがスケーリングされたスペクトル成分308に適用され、以下の関係で与えられる時間ドメイン内のウィンドウ処理された増強復号化音響信号を得る。

次に、この信号は、分析の重複部分に重複加算演算を使用して演算器303で再構築される。正弦ウィンドウが、スペクトルアナライザ105におけるスペクトル分析の前にオリジナル復号化音調音響信号103に使用されるので、同じウィンドウ処理が、重複加算演算の前に、逆FFT計算器の出力のウィンドウ処理された増強復号化音調音響信号309に適用される。したがって、二重にウィンドウ処理された増強復号化音調音響信号は以下の関係で与えられる。

狭帯域分析ウィンドウの最初の3分の1に対して、増強音響信号を構成するための重複加算演算が以下の関係を使用して行われ、

広帯域分析ウィンドウの最初の9分の1に対して、増強復号化音調音響信号を構成するための重複加算演算が以下のように行われ、

ここで、

は、以前のフレームの分析からの二重にウィンドウ処理された増強復号化音調音響信号である。

重複加算演算を使用して、音響信号復号器フレームと音調間雑音低減フレームとの間に80個のサンプルシフト(広帯域符号化の場合40個)があるので、増強復号化音調音響信号は、現在の音調間雑音低減フレームに加えて先読みからの80個までのサンプルを再構築することができる。

増強復号化音調音響信号を再構築する重複加算演算の後、デエンファシスが、ポストプロセッサ112で、上述のプリエンファシスフィルタの逆を使用して増強復号化音響信号に行われる。したがって、ポストプロセッサ112は、この実施形態では、以下の関係で与えられるデエンファシスフィルタを含む。
H_de-emph(z)=1/(1-0.68z^-1) (24)

音調間雑音エネルギー更新
音調間雑音低減のための臨界周波数帯域当たりの音調間雑音エネルギー予測値は、例えば以下の式を使用して、音調間雑音エネルギー予測器(図示せず)においてフレームごとに計算することができる。

ここで、

および

は、指定された臨界周波数帯域(i)の現在の雑音およびスペクトルエネルギーを表し、

および

は、同じ臨界周波数帯域の過去のフレームの雑音およびスペクトルエネルギーを表す。

臨界周波数帯域当たりの音調間雑音エネルギー予測値を計算するこの方法は単純であり、増強復号化音調音響信号にいくらかの歪みを導入することがある。しかし、低ビットレート狭帯域符号化では、これらの歪みは合成音響信号の明瞭さの改善によって大部分は補償される。

広帯域符号化では、音調間雑音は存在するが気に障ることが少ない場合、音調間雑音エネルギーを更新する方法は、気に障る歪みを導入しないようにより高度化されなければならない。様々な技法を使用することができるが、多かれ少なかれ計算上の複雑さを伴う。

帯域エネルギー当たりの重み付け平均を使用する音調間雑音エネルギー更新
この技法によれば、各臨界周波数帯域の第2の最大エネルギー値および最小エネルギー値を使用して、以下のように臨界周波数帯域当たりのエネルギー閾値を計算する。

ここで、max₂は第2の最大エネルギー値を有する周波数ビンを表し、minは関係する臨界周波数帯域中の最小エネルギー値を有する周波数ビンを表す。

エネルギー閾値(thr_ener_CB)を使用し、臨界周波数帯域内の前のエネルギー閾値より低いすべての周波数ビンのエネルギー(E_BIN)の平均に対応する臨界帯域当たりの最初の音調間雑音レベル予測(tmp_ener_CB)を以下の関係を使用して計算する。

ここで、mcntは、エネルギー(E_BIN)が加算に含まれている周波数ビンの数であり、mcnt≦M_CB(i)である。さらに、エネルギー(E_BIN)がエネルギー閾値より低い周波数ビンの数mcntは、臨界周波数帯域内の周波数ビンの数(M_CB)と比較されてエネルギー閾値より低い周波数ビンの比が評価される。この比accepted_ratio_CBは最初の以前に見いだされた音調間雑音レベル予測(tmp_ener_CB)を重み付けするのに使用される。

音調間雑音のレベル予測の重み係数β_CBは、使用されるビットレートおよびaccepted_ratio_CBの間で異なる。臨界周波数帯域のaccepted_ratio_CBが高いと、雑音エネルギーと信号エネルギーを識別するのが困難であることになる。その場合、信号エネルギーのいかなる変化も危険にさらさないようにその臨界周波数帯域の雑音のレベルをあまり下げないことが望ましい。しかし、accepted_ratio_CBが低いと、雑音エネルギーレベルと信号エネルギーレベルとの間の差が大きいことになり、したがって、予測される雑音のレベルは、歪みを加えることなくその臨界周波数帯域においてより高くすることができる。係数β_CBは以下のように変更される。

最後に、音調間雑音が増大または減少している場合、臨界周波数帯域当たりの音調間雑音予測は別々に平滑化することができる。

雑音減少:

雑音増大:
i=0,...,20

ここで、
α=0.1

ここで、

は、指定された臨界周波数帯域(i)の現在の雑音エネルギーを表し、

は、同じ臨界周波数帯域の過去のフレームの雑音エネルギーを表す。

本発明はそれの非限定的な例示の実施形態により前述の説明で述べられたが、本発明の趣旨、本質、および範囲から逸脱することなく多くの他の変形および変更が添付の特許請求の範囲内で可能である。

100 復号化音調音響信号を増強するためのシステム
101 符号化ビットストリーム
102 音響信号復号器
103 復号化音響信号
104 プリプロセッサ
105 スペクトルアナライザ
106 復号化音響信号
107 スペクトルパラメータ
108 レジューサ
109 スペクトルパラメータ
110 逆アナライザおよび重複加算演算器
111 増強復号化音調音響信号
112 ポストプロセッサ
113 増強復号化音調音響信号
114 音響再生システム
301 信号タイプ分類器
302 出力
303 重複加算演算器
304、305 雑音減衰器
306 帯域当たりの利得補正器
307 計算器
308 スペクトル成分
309 増強復号化音調音響信号
401〜403 アナライザ
404、405 計算器
406 帯域当たりの利得補正器
501 ファインダ
502 メモリ
503〜506 コンパレータ
507〜511 コントローラ
512、513 カウンタ
514 閾値コントローラ
601 固定コードブック
602 固定コードブックベクトル
603 革新的な固定コードブック励振
604 適応コードブック
606 ピッチフィルタ
607 適応コードブックベクトル
608 適応コードブック励振
609 加算器
610 励起信号
611 LP合成フィルタ
612 合成音響信号
613 モジュール

Claims

受け取った符号化ビットストリームに応答して音声専用コーデックの復号器で復号された音調音響信号を増強するためのシステムであって、
前記復号化音調音響信号に応答して前記復号化音調音響信号を表すスペクトルパラメータを生成するスペクトルアナライザと、
前記復号化音調音響信号を複数の異なる音響信号カテゴリに入れる信号分類器と、
前記復号化音調音響信号を複数の異なる音響信号カテゴリに入れる前記信号分類器と前記スペクトルアナライザからの前記スペクトルパラメータに応答する前記復号化音調音響信号の低エネルギースペクトル領域の量子化雑音のレジューサと
を備え、
前記スペクトルパラメータは、前記スペクトルアナライザによって計算された前記復号化音調音響信号のスペクトルエネルギーを含み、
前記信号分類器は、前記復号化音調音響信号のいくつかの以前のフレームにわたる前記計算された信号スペクトルエネルギーの変動の偏差のファインダを含む、
音調音響信号を増強するためのシステム。
前記システムは、前記スペクトルアナライザに前記復号化音調音響信号を供給する前に前記復号化音調音響信号のより高い周波数を強調する前記復号化音調音響信号のプリプロセッサを備え、
前記スペクトルアナライザは、前記復号化音調音響信号を表す前記スペクトルパラメータを生成するために前記復号化音調音響信号に高速フーリエ変換を行い、
前記システムは、時間ドメインで増強復号化音調音響信号を得るための前記量子化雑音のレジューサからの増強スペクトルパラメータの逆高速フーリエ変換の計算器を含み、
前記システムは、前記増強復号化音調音響信号のより高い周波数をデエンファシスするための前記増強復号化音調音響信号のポストプロセッサを含む、請求項1に記載の復号化音調音響信号を増強するためのシステム。
前記信号分類器が、前記計算された信号スペクトルエネルギーの前記変動の前記偏差を、それぞれ前記音響信号カテゴリに対応する複数の閾値と比較するためのコンパレータを含む、請求項1に記載の復号化音調音響信号を増強するためのシステム。
前記音響信号カテゴリが非音調音響信号カテゴリを含み、前記信号分類器は、復号化音響信号が非音調音響信号であることを前記コンパレータによる比較が示す場合、前記量子化雑音を低減しないように前記レジューサに指令する前記量子化雑音のレジューサのコントローラを含む、請求項3に記載の復号化音調音響信号を増強するためのシステム。
前記音響信号カテゴリが音調音響信号カテゴリを含み、前記復号化音調音響信号が前記音調音響信号カテゴリのうちの1つの中に含まれることを前記コンパレータによる比較が示す場合、前記信号分類器は、前記1つの音調音響信号カテゴリに関連する所与の振幅でおよび所与の周波数範囲内で前記量子化雑音を低減するように前記レジューサに指令する前記量子化雑音のレジューサのコントローラを含む、請求項3に記載の復号化音調音響信号を増強するためのシステム。
前記閾値が、前記音響信号カテゴリのうちの少なくとも1つのものの一連のフレームのカウンタに応答して増加または減少する浮動閾値を含む、請求項3に記載の復号化音調音響信号を増強するためのシステム。
前記スペクトルアナライザが、前記スペクトルアナライザによるスペクトル分析に由来するスペクトルを1組の臨界周波数帯域に分割し、
前記量子化雑音のレジューサが、再スケーリングの終了時の臨界周波数帯域ごとの前記スペクトルエネルギーが前記量子化雑音の低減の前の前記臨界周波数帯域のスペクトルエネルギーに近いように臨界周波数帯域当たりのスペクトルエネルギーを前記再スケーリングする帯域当たりの利得補正器を含む、請求項1に記載の復号化音調音響信号を増強するためのシステム。
前記臨界周波数帯域がそれぞれの数の周波数ビンを含み、前記帯域当たりの利得補正器が前記周波数ビンのうちの最もエネルギッシュなものを再スケーリングする、請求項7に記載の復号化音調音響信号を増強するためのシステム。
前記帯域当たりの利得補正器が、量子化雑音の低減の前の前記臨界周波数帯域の前記スペクトルエネルギーと、量子化雑音の低減の後の前記臨界周波数帯域のスペクトルエネルギーとの間の比としての補正利得の計算器を含む、請求項7に記載の復号化音調音響信号を増強するためのシステム。
前記帯域当たりの利得補正器が、前記臨界周波数帯域中のエネルギッシュな事象の比の関数としての補正係数の計算器を含み、前記帯域当たりの利得補正器が前記補正利得に前記補正係数を乗じる、請求項9に記載の復号化音調音響信号を増強するためのシステム。
受け取った符号化ビットストリームに応答して音声専用コーデックの復号器で復号された音調音響信号を増強する方法であって、
前記復号化音調音響信号を表すスペクトルパラメータを生成するために前記復号化音調音響信号をスペクトル的に分析する段階と、
前記復号化音調音響信号を複数の異なる音響信号カテゴリに分類する段階と、
前記復号化音調音響信号を複数の異なる音響信号カテゴリに分類する前記段階と前記スペクトル分析からの前記スペクトルパラメータに応答して前記復号化音調音響信号の低エネルギースペクトル領域の量子化雑音を低減する段階と
を含み、
前記スペクトルパラメータは、前記スペクトル分析によって計算された前記復号化音調音響信号の信号スペクトルエネルギーを含み、
前記復号化音調音響信号を分類する段階は、前記復号化音調音響信号のいくつかの以前のフレームにわたる前記信号スペクトルエネルギーの変動の偏差を検出する段階を含む、
復号化音調音響信号を増強する方法。
前記方法は、前記復号化音調音響信号をスペクトル的に分析する前に前記復号化音調音響信号のより高い周波数を強調する段階を含み、
前記復号化音調音響信号をスペクトル的に分析する段階が、前記復号化音調音響信号を表す前記スペクトルパラメータを生成するために前記復号化音調音響信号に高速フーリエ変換を行う段階を含み、
前記方法は、時間ドメインで増強復号化音調音響信号を得るために前記量子化雑音を低減する段階からの増強スペクトルパラメータの逆高速フーリエ変換を計算する段階を含み、
前記方法は、前記増強復号化音調音響信号のより高い周波数をデエンファシスする段階を含む、請求項11に記載の復号化音調音響信号を増強する方法。
前記復号化音調音響信号を分類する段階が、前記信号スペクトルエネルギーの前記変動の前記偏差を、それぞれ前記音響信号カテゴリに対応する複数の閾値と比較する段階を含む、請求項11に記載の復号化音調音響信号を増強する方法。
前記音響信号カテゴリが非音調音響信号カテゴリを含み、前記復号化音調音響信号を分類する段階は、前記信号スペクトルエネルギーの前記変動の前記偏差を前記複数の閾値と比較する前記段階が、前記復号化音調音響信号が非音調音響信号であることを示す場合、前記量子化雑音を低減しないように前記量子化雑音を低減する段階を制御する段階を含む、請求項13に記載の復号化音調音響信号を増強する方法。
前記音響信号カテゴリが音調音響信号カテゴリを含み、前記復号化音調音響信号が前記音調音響信号カテゴリのうちの1つの中に含まれることを、前記信号スペクトルエネルギーの前記変動の前記偏差を前記複数の閾値と比較する前記段階が示す場合、前記復号化音調音響信号を分類する前記段階が、前記1つの音調音響信号カテゴリに関連する所与の振幅でおよび所与の周波数範囲内で前記量子化雑音を低減するように前記量子化雑音を低減する前記段階を制御する段階を含む、請求項13に記載の復号化音調音響信号を増強する方法。
前記閾値が浮動閾値を含み、前記方法が、前記音響信号カテゴリのうちの少なくとも1つのものの一連のフレームのカウンタに応答して前記浮動閾値を増加または減少させる段階を含む、請求項13に記載の復号化音調音響信号を増強する方法。
前記復号化音調音響信号をスペクトル的に分析する段階が、前記スペクトル分析に由来するスペクトルを1組の臨界周波数帯域に分割する段階を含み、
前記量子化雑音を低減する前記段階が、再スケーリングの終了時の臨界周波数帯域ごとの前記スペクトルエネルギーが前記量子化雑音の低減の前の前記臨界周波数帯域のスペクトルエネルギーに近いように臨界周波数帯域当たりのスペクトルエネルギーを前記再スケーリングする段階を含む、請求項11に記載の復号化音調音響信号を増強する方法。
前記臨界周波数帯域がそれぞれの数の周波数ビンを含み、前記臨界周波数帯域当たりのスペクトルエネルギーを再スケーリングする前記段階が、前記周波数ビンのうちで最もエネルギッシュなものを再スケーリングする段階を含む、請求項17に記載の復号化音調音響信号を増強する方法。
前記臨界周波数帯域当たりのスペクトルエネルギーを再スケーリングする前記段階が、量子化雑音の低減の前の前記臨界周波数帯域の前記スペクトルエネルギーと、量子化雑音の低減の後の前記臨界周波数帯域のスペクトルエネルギーとの間の比としての補正利得を計算する段階を含む、請求項17に記載の復号化音調音響信号を増強する方法。
前記臨界周波数帯域当たりのスペクトルエネルギーを再スケーリングする前記段階が、前記臨界周波数帯域中のエネルギッシュな事象の比の関数としての補正係数を計算する段階と、前記補正利得に前記補正係数を乗じる段階とを含む、請求項19に記載の復号化音調音響信号を増強する方法。