JP6334564B2

JP6334564B2 - 低複雑度の調性適応音声信号量子化

Info

Publication number: JP6334564B2
Application number: JP2015554196A
Authority: JP
Inventors: マルティーンディーツ、; ギヨームフックス、; クリスティアンヘルムリヒ、; マールコヴィッチゴーラン、
Original assignee: フラウンホーファーゲゼルシャフトツールフォルデルングデルアンゲヴァンテンフォルシユングエー．フアー．
Priority date: 2013-01-29
Filing date: 2014-01-28
Publication date: 2018-05-30
Anticipated expiration: 2034-01-28
Also published as: CN105103226B; TWI524331B; MX2015009753A; RU2621003C2; US10468043B2; AU2014211539A1; CA2898789C; EP2939235B1; AU2014211539B2; MX346732B; JP2017151454A; US20200090671A1; TW201440039A; JP6526091B2; KR20150118954A; CN105103226A; CN110047499B; JP2019164367A; US11094332B2; MY172848A

Description

本発明は、デジタル音声信号処理に関する。より具体的には、本発明は、音声信号の量子化に関する。

一般的に、極めて低いビットレートの変換符号化においては、フレームごとのビット数は、復号信号におけるアーティファクトを回避するためには十分ではない。特に、静的な音楽やノイズスペクトルにおいて音楽のノイズが生じ得るが、これは、１フレームから次のフレームにかけて特定の周波数で変換線（ビン）が「オン及びオフされる」、即ち、「０」へと量子化されたり「０」へと量子化されなかったりするからである。このような符号化方式では、元の信号よりも調的な特性が復号信号領域に与えられる（ここから音楽ノイズという用語が来ている）だけでなく、上記スペクトル領域を全く符号化せずにｘＨＥ−ＡＡＣ［非特許文献４］で用いられるＴＣＸ又はＦＤ符号化におけるノイズ充填アルゴリズムといったビン置換技術を適用するよりも有意な利益が得られない。実際、音楽符号化ノイズが生じやすい領域を不十分ではあるが明示的に符号化するには、変換コーダのエントロピー符号化ステージでのビットが必要であるが、これは音波的には、他のスペクトル領域で、特に人間の聴覚系が敏感な低周波数で用いる方が良い。

低ビットレート音声符号化における音楽ノイズの発生を低減させる１つの方法として、入力スペクトル線を量子化インデックスへマッピングする量子化器の挙動に変更を加えることによって、量子化されたスペクトルの瞬間的な入力信号特性及びビット消費に適応させるというものがある。より正確には、量子化中に用いられる不感帯を信号適応的に変更する。いくつかの方式が公開されている［非特許文献５，非特許文献６及びそこにおける参照］。［非特許文献５］においては、符号化すべきスペクトル全体に対して量子化器適応を実行する。従って、適応量子化器は、所与のフレームのスペクトルビン全てに対して同一の挙動を呈する。しかも、最適不感帯ｚ_ｏｐｔによる量子化の場合、ビットレート及び逆方向互換性ペナルティを表す２ビットの補足的な情報をデコーダに送信しなければならない。［非特許文献６］においては、量子化器は、周波数帯域ごとに適応されるが、１つの帯域当り２回の量子化の試みが行われ、（特定の決定に従い）より良い試みのみを送信に用いる。これは複雑なものである。

L. Daudet, "Sparse and Structured Decomposition of Signals with the Molecular Matching Pursuit," IEEE Trans. on Audio, Speech, and Lang. Processing, Vol. 14, No. 5, Sep. 2006. F. Keiler, "Survey on Extraction of Sinusoids in Stationary Sounds," in Proc. DAFX, 2002. R.J. McAulayand T.F. Quatieri, "Speech Analysis/Synthesis Based on a Sinusoidal Representation," IEEE Trans. Acoustics, Speech, and Sig. Processing, Vol. 34, No. 4, Aug. 1986. M. Neuendorfet al., "MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types," in Proc. 132nd Convention of the AES, Budapest, Hungary, Apr. 2012. Also to appear in the Journal of the AES, 2013. M. Ogeret al., "Model-Based Deadzone Optimization for Stack-Run Audio Coding with Uniform Scalar Quantization," in Proc. ICASSP 2008, Las Vegas, USA, Apr. 2008. M. Schug, EP2122615, "Apparatus and method for encoding an information signal", 2007.

本発明の目的は、音声信号処理のための向上した概念を提供することである。より具体的には、本発明の目的は、適応音声信号量子化のための向上した概念を提供することである。本発明の目的は、請求項１に記載の音声エンコーダ、請求項１５に記載のシステム、請求項１６に記載の方法、及び請求項１７に記載のコンピュータプログラムによって達成される。

一局面において本発明は、音声信号を符号化して符号化信号を生成するための音声エンコーダであって、前記音声エンコーダは、
前記音声信号からフレームを抽出するように構成されたフレーム化装置と、
前記音声信号のフレームから導出したスペクトル信号のスペクトル線を量子化インデックスにマッピングするように構成された量子化器と、を備え、前記量子化器は、前記スペクトル線が量子化インデックス・ゼロに対してマッピングされた不感帯を有し、前記音声エンコーダは更に、
前記不感帯を変更するように構成された制御装置、を備え、
前記制御装置は、少なくとも１つのスペクトル線又は少なくとも１つのスペクトル線群についての少なくとも１つの調性表示値を算出するように構成された調性算出装置を含み、
前記制御装置は、それぞれの前記調性表示値に応じて、前記少なくとも１つのスペクトル線又は前記少なくとも１つのスペクトル線群についての不感帯を変更するように構成される、音声エンコーダを提供する。

フレーム化装置は、窓関数を音声信号に適用することによって音声信号からフレームを抽出するように構成することができる。信号処理においては、窓関数（アポディゼーション関数又はテーパリング関数（ｔａｐｅｒｉｎｇｆｕｎｃｔｉｏｎ）としても知られる）とは、或る選択された間隔の外側で「０」の値にされる数学的関数である。窓関数を信号に適用することによって、信号を短い複数の部分へと分割することができ、通常これらはフレームと呼ばれる。

デジタル音声信号処理において、量子化とは、入力値の大集合を、（数えることのできる）より小さな集合、例えば或る精密さの単位に対する丸め値、へとマッピングするプロセスである。量子化を実行する装置又はアルゴリズム機能は量子化器と呼ばれる。

本発明によると、音声信号のフレームについてスペクトル信号を算出する。スペクトル信号は、時間領域の信号である音声信号の各フレームのスペクトルを含む場合があり、各スペクトルは、周波数領域におけるフレームの１つを表すものである。周波数スペクトルは、信号の数学的変換によって生成することができ、その結果得られた値は、通常、振幅対周波数として表される。

不感帯とは、量子化中に用いられる帯域であり、スペクトル線（周波数ビン）又はスペクトル線群（周波数帯域）が「０」へとマッピングされる。この不感帯は、通常「０」の振幅である下限値と、異なるスペクトル線又はスペクトル線群で異なり得る上限値とを有する。

本発明によると、制御装置によって不感帯を変更することができる。制御装置は、少なくとも１つのスペクトル線又は少なくとも１つのスペクトル線群についての少なくとも１つの調性表示値を算出するように構成された調性算出装置を含む。

「調性」という用語は、スペクトル信号の調的な特性を指す。一般的には、スペクトルが主に周期的な成分を含むためフレームのスペクトルが支配的なピークを含む場合に調性は高いと言うことができる。調的な特性の反対がノイズ的な特性である。後者の場合、フレームのスペクトルはより平坦である。

更に、制御装置は、それぞれの調性表示値に応じて、前記少なくとも１つのスペクトル線又は前記少なくとも１つのスペクトル線群について前記不感帯を変更するように構成される。

本発明は、信号適応不感帯による量子化方式であって、
・補足的な情報を必要としないため、既存のメディアコーデックにおいて使用可能であり、
・ビン又は帯域ごとにどの不感帯を用いるべきかを量子化に先立ち決定することで複雑度を減らし、
・帯域周波数及び／又は信号調性に基づいてビン又は帯域ごとの不感帯を決定することができるものを開示する。

本発明は、エンコーダにおける信号量子化器のみを変化させるため、既存の符号化インフラにおいて適用可能である。それでも対応のデコーダは、符号化された信号から生成された（変更されていない）ビットストリームを読み出し、出力を復号することが可能である。［非特許文献６］及びそこにおける参照とは異なり、各スペクトル線群又は各スペクトル線についての不感帯が量子化に先立ち選択されるため、量子化演算は、群又はスペクトル線につき１回だけで良い。また、量子化の決定は、２つの可能な不感帯値の間での選択に限定されず、値の全範囲に亘る。この決定については後で詳細に説明する。上述の調性適応量子化方式は、ｘＨＥ−ＡＡＣ［非特許文献４］の低遅延の別形であるＬＤ−ＵＳＡＣエンコーダの変換符号化励振（ＴＣＸ）パスにおいて実現することができる。

本発明の好ましい一実施例によると、前記制御装置は、前記スペクトル線の１つにおける不感帯が、より大きな調性を有するスペクトル線の１つにおける不感帯よりも大きくなるように、又は、前記スペクトル線群の１つにおける前記不感帯が、より大きな調性を有するスペクトル線群の１つにおける不感帯よりも大きくなるように、前記不感帯を変更するように構成される。この特徴によって、非調的なスペクトル領域が「０」へと量子化される傾向が生じ、このためデータの量を減少させることができる。

本発明の好ましい一実施例によると、前記制御装置は、前記音声信号のフレームのパワースペクトルを算出するように構成されたパワースペクトル算出装置を含み、前記パワースペクトルは、スペクトル線又はスペクトル線群についてのパワー値を含み、前記調性算出装置は、前記パワースペクトルに応じて前記少なくとも１つの調性表示値を算出するように構成される。パワースペクトルに基づいて調性表示値を算出することにより、計算の複雑度が極めて低く抑えられる。

本発明の好ましい一実施例によると、前記スペクトル線の１つについての調性表示値は、それぞれの前記スペクトル線についての前記パワー値と、前記パワースペクトルにおける、予め規定された数の周辺パワー値の合計との比較に基づいており、又は、前記スペクトル線群の１つについての調性表示値は、それぞれの前記スペクトル線群についての前記パワー値と、前記パワースペクトルにおける、予め規定された数の周辺パワー値の合計との比較に基づいている。パワー値を、これに隣接するパワー値と比較することにより、パワースペクトルにおけるピーク区域又は平坦区域を容易に特定し、調性表示値を容易に算出することができる。

本発明の好ましい一実施例によると、前記スペクトル線の１つについての調性表示値は、前記音声信号の先行フレームのスペクトル線の調性表示値に基づき、又は、前記スペクトル線群の１つについての調性表示値は、前記音声信号の先行フレームについてのスペクトル線群の調性表示値に基づく。これらの特徴により、一定の期間に亘って不感帯をスムーズに変更することができる。

本発明の好ましい一実施例によると、前記調性表示値は、以下の式によって計算され、

ここで、iは、前記音声信号の特定のフレームを示すインデックスであり、ｋは、特定のスペクトル線を示すインデックスであり、Ｐ_ｋ，iは、i番目のフレームのｋ番目のスペクトル線のパワー値であり、又は、前記調性表示値は、以下の式によって計算され、

ここで、iは、前記音声信号の特定のフレームを示すインデックスであり、ｍは、特定のスペクトル線群を示すインデックスであり、Ｐ_ｍ，iは、i番目のフレームのｍ番目のスペクトル線群のパワー値である。式から分かるように、調性表示値は、現在フレームであるi番目のフレームのパワー値、及び、先行フレームであるi−１番目のフレームから算出される。この式は、i−１番目のフレームに対する依存性を削除することで変更することができる。ここで、ｋ番目のパワー値の左７つ及び右７つの隣接するパワー値の合計を算出し、それぞれのパワー値によって除算する。この式を用いると、低い調性表示値は、高い調性を示す。

本発明の一実施例によると、前記音声エンコーダは、前記不感帯を変更するための開始周波数を算出するように構成された開始周波数算出装置を含み、前記不感帯は、前記開始周波数以上の周波数を表すスペクトル線についてのみ変更される。これは、不感帯が、低周波数については固定され、高周波数については可変であることを意味する。人間の聴覚系は低周波数に対してより敏感であるため、これらの特徴により音声品質が向上する。

本発明の好ましい一実施例によると、前記開始周波数算出装置は、前記音声信号のサンプルレートに基づき、且つ／又は、前記符号化信号から生成されたビットストリームについて予想される最大ビットレートに基づき、前記開始周波数を算出するように構成される。これらの特徴により、音声品質を最適化することができる。

本発明の好ましい一実施例によると、前記音声エンコーダは、前記音声信号のフレームから変更後離散余弦変換を算出するように構成された変更後離散余弦変換算出装置と、前記音声信号のフレームから変更後離散正弦変換を算出するように構成された変更後離散正弦変換算出装置と、を含み、前記パワースペクトル算出装置は、前記変更後離散余弦変換及び前記変更後離散正弦変換に基づき前記パワースペクトルを算出するように構成される。変更後離散余弦変換は、音声信号の符号化の目的のためにいずれにせよ算出しなければならないものである。従って、調性適応量子化の目的のためには、変更後離散正弦変換のみを追加的に算出することになる。従って、複雑度を減少させることができる。しかしながら、離散フーリエ変換又は奇関数の離散フーリエ変換といった他の変換を用いても良い。

本発明の好ましい一実施例によると、前記パワースペクトル算出装置は、Ｐ_ｋ，i＝（ＭＤＣＴ_ｋ，i）^２＋（ＭＤＳＴ_ｋ，i）^２の式によって前記パワー値を算出するように構成され、ここで、iは、前記音声信号の特定のフレームを示すインデックスであり、ｋは、特定のスペクトル線を示すインデックスであり、ＭＤＣＴ_ｋ，iは、i番目のフレームのｋ番目のスペクトル線における変更後離散余弦変換の値であり、ＭＤＳＴ_ｋ，iは、i番目のフレームのｋ番目のスペクトル線における変更後離散正弦変換の値であり、Ｐ_ｋ，iは、i番目のフレームのｋ番目のスペクトル線のパワー値である。上記の式によって、パワー値を容易に算出することができる。

本発明の好ましい一実施例によると、前記音声エンコーダは、前記スペクトル信号を生成するように構成されたスペクトル信号算出装置を含み、前記スペクトル信号算出装置は、前記不感帯の変更によるエネルギーの損失を補償するように前記スペクトル信号のスペクトル線の振幅を設定するように構成された振幅設定装置を含む。これらの特徴により、エネルギーを節約する態様で量子化を行うことができる。

本発明の好ましい一実施例によると、前記振幅設定装置は、それぞれの前記スペクトル線における不感帯の変更に応じて前記スペクトル信号の振幅を設定するように構成される。例えば、不感帯を拡大したスペクトル線を、この目的のために僅かに増幅させることができる。

本発明の好ましい一実施例によると、前記スペクトル信号算出装置は、正規化装置を含む。この特徴により、後続の量子化ステップを容易に行うことができる。

本発明の好ましい一実施例によると、前記変更後離散余弦変換算出装置によって算出された前記音声信号のフレームからの変換後離散余弦変換は、前記スペクトル信号算出装置に入力される。この特徴により、変更後離散余弦変換は、量子化適応の目的と、符号化信号を算出する目的とのために用いられる。

一局面において本発明は、エンコーダと、デコーダと、を備えるシステムであって、前記エンコーダは、本発明に従って設計される、システムを提供する。

一局面において本発明は、音声信号を符号化して符号化信号を生成するための方法であって、前記方法は、
前記音声信号からフレームを抽出するステップと、
前記音声信号のフレームから導出したスペクトル信号のスペクトル線を量子化インデックスにマッピングするステップと、を備え、前記入力スペクトル線がゼロに対してマッピングされた不感帯が用いられ、前記方法は更に、
前記不感帯を変更するステップ、を備え、
少なくとも１つのスペクトル線又は少なくとも１つのスペクトル線群についての少なくとも１つの調性表示値が算出され、
それぞれの前記調性表示値に応じて、前記少なくとも１つのスペクトル線又は前記少なくとも１つのスペクトル線群についての不感帯が変更される、方法を提供する。

一局面において本発明は、コンピュータ又はプロセッサにおいて実行された際に本発明による方法を実行するためのコンピュータプログラムを提供する。

以下、本発明の好ましい実施例について、添付の図面を参照して説明する。

図１は、本発明によるエンコーダの一実施例を示す図である。図２は、本発明によるエンコーダの動作原理を示す図である。

図１は、本発明に従い、音声信号ＡＳを符号化して符号化信号ＥＳを生成するための音声エンコーダ１を示す。音声エンコーダ１は、
音声信号ＡＳからフレームＦを抽出するように構成されたフレーム化装置２と、
音声信号ＡＳのフレームＦから導出したスペクトル信号ＳＰＳのスペクトル線ＳＬ_１−３２（図２を参照）を量子化インデックスＩ_０，Ｉ_１にマッピングするように構成された量子化器３と、を備え、量子化器３は、スペクトル線ＳＬ_１−３２が量子化インデックス・ゼロＩ_０に対してマッピングされた不感帯ＤＺ（図２を参照）を有し、当該音声エンコーダは更に、
不感帯ＤＺを変更するように構成された制御装置４、を備え、
制御装置４は、少なくとも１つのスペクトル線ＳＬ_１−３２又は少なくとも１つのスペクトル線ＳＬ_１−３２群についての少なくとも１つの調性表示値ＴＩ_５−３２を算出するように構成された調性算出装置５を含み、
制御装置４は、それぞれの調性表示値ＴＩ_５−３２に応じて、少なくとも１つのスペクトル線ＳＬ_１−３２又は少なくとも１つのスペクトル線ＳＬ_１−３２群についての不感帯ＤＺを変更するように構成される。

フレーム化装置２は、窓関数を音声信号ＡＳに適用することによって音声信号ＡＳからフレームＦを抽出するように構成することができる。信号処理においては、窓関数（アポディゼーション関数又はテーパリング関数としても知られる）とは、或る選択された間隔の外側で「０」の値にされる数学的関数である。窓関数を信号ＡＳに適用することによって、信号ＡＳを短い複数のセグメントへと分割することができ、通常これらはフレームＦと呼ばれる。

本発明によると、音声信号ＡＳのフレームＦについてスペクトル信号ＳＰＳを算出する。スペクトル信号ＳＰＳは、時間領域の信号である音声信号ＡＳの各フレームＦのスペクトルを含む場合があり、各スペクトルは、周波数領域におけるフレームＦの１つを表すものである。周波数スペクトルは、信号ＡＳの数学的変換によって生成することができ、その結果得られた値は、通常、振幅対周波数として表される。

不感帯ＤＺとは、量子化中に用いられる帯域であり、スペクトル線ＳＬ_１−３２（周波数ビン）又はスペクトル線ＳＬ_１−３２群（周波数帯域）が量子化インデックス「０」へとマッピングされる。この不感帯ＤＺは、通常「０」の振幅である下限値と、異なるスペクトル線ＳＬ_１−３２又はスペクトル線ＳＬ_１−３２群で異なり得る上限値とを有する。

本発明によると、制御装置４によって不感帯ＤＺを変更することができる。制御装置４は、少なくとも１つのスペクトル線ＳＬ_１−３２又は少なくとも１つのスペクトル線ＳＬ_１−３２群についての少なくとも１つの調性表示値ＴＩ_５−３２を算出するように構成された調性算出装置５を含む。

「調性」という用語は、スペクトル信号ＳＰＳの調的な特性を指す。一般的には、スペクトル又はその一部が主に周期的な成分を含むためフレームＦのスペクトル又はその一部が支配的なピークを含む場合に調性は高いと言うことができる。調的な特性の反対がノイズ的な特性である。後者の場合、フレームＦのスペクトル又はその一部はより平坦である。

更に、制御装置４は、それぞれの調性表示値ＴＩ_５−３２に応じて、少なくとも１つのスペクトル線ＳＬ_１−３２又は少なくとも１つのスペクトル線ＳＬ_１−３２群について不感帯ＤＺを変更するように構成される。

本発明は、信号適応不感帯ＤＺによる量子化方式であって、
・補足的な情報を必要としないため、既存のメディアコーデックにおいて使用可能であり、
・ビン又は帯域ごとにどの不感帯ＤＺを用いるべきかを量子化に先立ち決定することで複雑度を減らし、
・帯域周波数及び／又は信号調性に基づいてビン又は帯域ごとの不感帯ＤＺを決定することができるものを開示する。

本発明は、エンコーダ１における信号量子化器３のみを変化させるため、既存の符号化インフラにおいて適用可能である。それでも対応のデコーダは、符号化された信号から生成された（変更されていない）ビットストリームを読み出し、出力を復号することが可能である。［非特許文献６］及びそこにおける参照とは異なり、各スペクトル線ＳＬ_１−３２群又は各スペクトル線ＳＬ_１−３２についての不感帯ＤＺが量子化に先立ち選択されるため、量子化演算は、群又はスペクトル線ＳＬ_１−３２につき１回だけで良い。また、量子化の決定は、２つの可能な不感帯値の間での選択に限定されず、値の全範囲に亘る。上述の調性適応量子化方式は、ｘＨＥ−ＡＡＣ［非特許文献４］の低遅延の別形であるＬＤ−ＵＳＡＣエンコーダの変換符号化励振（ＴＣＸ）パスにおいて実現することができる。

本発明の好ましい一実施例によると、制御装置４は、スペクトル線ＳＬ_１−３２の１つにおける不感帯ＤＺが、より大きな調性を有するスペクトル線ＳＬ_１−３２の１つにおける不感帯ＤＺよりも大きくなるように、又は、スペクトル線ＳＬ_１−３２群の１つにおける不感帯ＤＺが、より大きな調性を有するスペクトル線ＳＬ_１−３２群の１つにおける不感帯ＤＺよりも大きくなるように、不感帯ＤＺを変更するように構成される。この特徴によって、非調的なスペクトル領域が「０」へと量子化される傾向が生じ、このためデータの量を減少させることができる。

本発明の好ましい一実施例によると、制御装置４は、音声信号ＡＳのフレームＦのパワースペクトルＰＳ（図２も参照）を算出するように構成されたパワースペクトル算出装置６を含み、パワースペクトルＰＳは、スペクトル線ＳＬ_１−３２又はスペクトル線ＳＬ_１−３２群についてのパワー値ＰＳ_５−３２を含み、調性算出装置５は、パワースペクトルＰＳに応じて少なくとも１つの調性表示値ＴＩ_５−３２を算出するように構成される。パワースペクトルＰＳに基づいて調性表示値ＴＩ_５−３２を算出することにより、計算の複雑度が極めて低く抑えられる。更に、精度を向上させることができる。

本発明の好ましい一実施例によると、スペクトル線ＳＬ_１−３２の１つについての調性表示値ＴＩ_５−３２は、それぞれのスペクトル線ＳＬ_１−３２についてのパワー値ＰＳ_５−３２と、パワースペクトルＰＳにおける、予め規定された数の周辺パワー値ＰＳ_５−３２の合計との比較に基づいており、又は、スペクトル線ＳＬ_１−３２群の１つについての調性表示値は、それぞれのスペクトル線群についてのパワー値ＰＳ_５−３２と、パワースペクトルにおける、予め規定された数の周辺パワー値ＰＳ_５−３２の合計との比較に基づいている。パワー値ＰＳ_５−３２を、これに隣接するパワー値ＰＳ_５−３２と比較することにより、パワースペクトルＰＳにおけるピーク区域又は平坦区域を容易に特定し、調性表示値ＴＩ_５−３２を容易に算出することができる。

本発明の好ましい一実施例によると、スペクトル線ＳＬ_１−３２の１つについての調性表示値ＴＩ_５−３２は、音声信号ＡＳの先行フレームＦのスペクトル線ＳＬ_１−３２の調性表示値ＴＩ_５−３２に基づき、又は、スペクトル線ＳＬ_１−３２群の１つについての調性表示値ＴＩ_５−３２は、音声信号ＡＳの先行フレームＦについてのスペクトル線ＳＬ_１−３２群の調性表示値ＴＩ_５−３２に基づく。これらの特徴により、一定の期間に亘って不感帯ＤＺをスムーズに変更することができる。

本発明の好ましい一実施例によると、調性表示値ＴＩ_５−３２は、以下の式によって計算され、

ここで、iは、音声信号ＡＳの特定のフレームＦを示すインデックスであり、ｋは、特定のスペクトル線ＳＬ_１−３２を示すインデックスであり、Ｐ_ｋ，iは、i番目のフレームのｋ番目のスペクトル線ＳＬ_１−３２のパワー値ＰＳ_５−３２であり、又は、調性表示値ＴＩ_５−３２は、以下の式によって計算され、

ここで、iは、音声信号ＡＳの特定のフレームＦを示すインデックスであり、ｍは、特定のスペクトル線ＳＬ_１−３２群を示すインデックスであり、Ｐ_ｍ，iは、i番目のフレームのｍ番目のスペクトル線ＳＬ_１−３２群のパワー値ＰＳ_５−３２である。式から分かるように、調性表示値ＴＩ_５−３２は、現在フレームＦであるi番目のフレームのパワー値ＰＳ_５−３２、及び、先行フレームＦであるi−１番目のフレームＦから算出される。この式は、i−１番目のフレームＦに対する依存性を削除することで変更することができる。ここで、特定のスペクトル線ＳＬ_１−３２のｋ番目のパワー値ＰＳ_５−３２又はスペクトル線ＳＬ_１−３２群のｍ番目のパワー値の左７つ及び右７つの隣接するパワー値ＰＳ_５−３２の合計を算出し、それぞれのパワー値ＰＳ_５−３２によって除算する。この式を用いると、低い調性表示値ＴＩ_５−３２は、高い調性を示す。

本発明の一実施例によると、音声エンコーダ１は、不感帯ＤＺを変更するための開始周波数ＳＦを算出するように構成された開始周波数算出装置７を含み、不感帯ＤＺは、開始周波数ＳＦ以上の周波数を表すスペクトル線ＳＬ_１−３２についてのみ変更される。これは、不感帯ＤＺが、低周波数については固定され、高周波数については可変であることを意味する。人間の聴覚系は低周波数に対してより敏感であるため、これらの特徴により音声品質が向上する。

本発明の好ましい一実施例によると、開始周波数算出装置７は、音声信号ＡＳのサンプルレートに基づき、且つ／又は、符号化信号ＥＳから生成されたビットストリームについて予想される最大ビットレートに基づき、開始周波数ＳＦを算出するように構成される。これらの特徴により、音声品質を最適化することができる。

本発明の好ましい一実施例によると、音声エンコーダ１は、音声信号ＡＳのフレームＦから変更後離散余弦変換ＣＴを算出するように構成された変更後離散余弦変換算出装置８と、音声信号ＡＳのフレームＦから変更後離散正弦変換ＳＴを算出するように構成された変更後離散正弦変換算出装置９と、を含み、パワースペクトル算出装置６は、変更後離散余弦変換ＣＴ及び変更後離散正弦変換ＳＴに基づきパワースペクトルＰＳを算出するように構成される。変更後離散余弦変換ＣＴは、音声信号ＡＳの符号化の目的のために、多くの場合いずれにせよ算出しなければならないものである。従って、調性適応量子化の目的のためには、変更後離散正弦変換ＳＴのみを追加的に算出することになる。従って、複雑度を減少させることができる。しかしながら、離散フーリエ変換又は奇関数の離散フーリエ変換といった他の変換を用いても良い。

本発明の好ましい一実施例によると、パワースペクトル算出装置６は、Ｐ_ｋ，i＝（ＭＤＣＴ_ｋ，i）^２＋（ＭＤＳＴ_ｋ，i）^２の式によってパワー値を算出するように構成され、ここで、_iは、音声信号の特定のフレームＦを示すインデックスであり、ｋは、特定のスペクトル線ＳＬ_１−３２を示すインデックスであり、ＭＤＣＴ_ｋ，iは、i番目のフレームのｋ番目のスペクトル線における変更後離散余弦変換ＣＴの値であり、ＭＤＳＴ_ｋ，iは、i番目のフレームのｋ番目のスペクトル線における変更後離散正弦変換ＳＴの値であり、Ｐ_ｋ，iは、i番目のフレームのｋ番目のスペクトル線のパワー値ＰＳ_５−３２である。上記の式によって、パワー値ＰＳ_５−３２を容易に算出することができる。

本発明の好ましい一実施例によると、音声エンコーダ１は、スペクトル信号ＳＰＳを生成するように構成されたスペクトル信号算出装置１０を含み、スペクトル信号算出装置１０は、不感帯ＤＺの変更によるエネルギーの損失を補償するようにスペクトル信号ＳＰＳのスペクトル線ＳＬ_１−３２の振幅を設定するように構成された振幅設定装置１１を含む。これらの特徴により、エネルギーを節約する態様で量子化を行うことができる。

本発明の好ましい一実施例によると、振幅設定装置１１は、それぞれのスペクトル線ＳＬ_１−３２における不感帯ＤＺの変更に応じてスペクトル信号ＳＰＳの振幅を設定するように構成される。例えば、不感帯ＤＺを拡大したスペクトル線ＳＬ_１−３２を、この目的のために僅かに増幅させることができる。

本発明の好ましい一実施例によると、スペクトル信号算出装置１０は、正規化装置１２を含む。この特徴により、後続の量子化ステップを容易に行うことができる。

本発明の好ましい一実施例によると、変更後離散余弦変換算出装置８によって算出された音声信号ＡＳのフレームＦからの変換後離散余弦変換ＣＴは、スペクトル信号算出装置１０に入力される。この特徴により、変更後離散余弦変換ＣＴは、量子化適応の目的と、符号化信号ＥＳを算出する目的とのために用いられる。

図１は、本発明の適応エンコーダ１におけるデータ及び制御情報の流れを示す。繰り返しになるが、或る周波数ＳＦを上回る非調的なスペクトル領域は、低ビットレートにおいて、極めて広範に「０」へと量子化される傾向がある。しかしながら、これは意図したものである。デコーダにおける「０」ビンに適用されたノイズ挿入により、ノイズ的なスペクトルが十分に再構成されることになり、また、ゼロ量子化によりビットが節約され、これを用いて低周波数のビンをより細かく量子化することができる。

図２は、本発明に従うエンコーダの動作原理を示す。この図では、本発明に従う音声エンコーダ１の不感帯ＤＺと、音声信号ＡＳのフレームＦのパワー値ＰＳ_５−３２を伴うパワースペクトルＰＳと、調性表示値ＴＩ_５−３２と、スペクトルＳＰのスペクトル線ＳＬ_１−３２とを共通の座標系に示し、ｘ軸は周波数を、ｙ軸は振幅を示す。なお、簡単のため、図２では、「１」よりも大きいマッピングインデックスは省略する。

開始周波数算出装置７によって算出された開始周波数ＳＦより下の範囲では、不感帯は固定のサイズを有する。この例では、スペクトル線ＳＬ_１は不感帯の外側で終わるため、インデックス「１」Ｉ_１にマッピングされるのに対し、スペクトル線ＳＬ_７は不感帯ＤＺ内で終わるため、インデックス「０」Ｉ_０へとマッピングすることができる。しかしながら、開始周波数ＳＦから始まりより高い周波数へ向かうのに伴い、不感帯ＤＺのサイズは、制御装置４によって変更され得る。この目的のため、上述のようにパワー値ＰＳ_５−３２を算出する。更に、調性表示値ＴＩ_５−３２をパワー値ＰＳ_５−３２から算出する。

ｋ＝２０からｋ＝２３の区域では、パワースペクトルＰＳは、低い調性表示値ＴＩ_{２０−２３}を伴うピークを有し、これは高い調性を示す。開始周波数ＳＦより上の他の区域においては、パワースペクトルＰＳはより平坦であり、調性表示値ＴＩ_{１２−１９}及びＴＩ_{２４−３２}は比較的高く、これはそれぞれの区域における低い調性を示す。その結果、ｋ＝１２からｋ＝１９の区域及びｋ＝２４からｋ＝３２の区域において、不感帯ＤＺは拡大される。この不感帯ＤＺの拡大の結果、例えば、調性適応量子化がない場合にはインデックス「１」へとマッピングされていたであろうスペクトル線ＳＬ_１２及びスペクトル線ＳＬ_２５は、インデックス「０」へとマッピングされるようになる。このゼロ量子化によって、デコーダへ送信すべきデータの量が減少する。

本発明の好ましい一実施例によると、エンコーダの動作は以下のように要約される。

１．時間から周波数への変換ステップ中、所与のフレームについて、窓入力信号からＭＤＣＴ（余弦部分）及びＭＤＳＴ（正弦部分）の両方が計算される。

２．入力フレームのＭＤＣＴは、量子化、符号化及び送信に用いられる。ＭＤＳＴは更に、ビンごとのパワースペクトルＰｋ＝ＭＤＣＴｋ^２＋ＭＤＳＴｋ^２を計算するために用いられる。

３．Ｐｋによって、符号化帯域ごと、又は好ましくはビンごとの調性又はスペクトル平坦さの値を算出する。これを達成するためのいくつかの方法が非特許文献［１，２，３］に記載されている。好ましくは、ビン当たり僅か数個の演算を伴う低複雑度の方法が用いられる。本発明の場合、Ｐｋと、その周辺のＰｋ−７…ｋ＋７の合計との比較を行い、［非特許文献３］に記載の生死トラッカーと類似のヒステリシスによって拡張する。更に、ビットレートに依存する或る周波数未満のビンは、常に調的と見做される。

４．任意のステップとして、調性又は平坦さの値を用いて、量子化に先立ちスペクトルの僅かな増幅を行うことによって、大きな量子化器不感帯によるエネルギーの損失を補償しても良い。より正確には、大きな量子化器不感帯が適用されるビンを僅かに増幅させる一方、通常又は通常近くの不感帯（即ちエネルギーを保存する傾向のあるもの）が用いられるビンは変更しない。

５．ステップ３の調性又は平坦さの値は、各々の周波数ビンの量子化に用いられる不感帯の選択を制御することになる。高い調性を有すると判断されたビン、即ちＰｋ−７…ｋ＋７／Ｐｋの値が低いものは、デフォルト（即ち、大体エネルギーを保存する）不感帯によって量子化し、低い調性を有するビンは、新たに拡大した不感帯によって量子化する。従って、低調性のビンは、高調性のビンよりも頻繁に「０」へと量子化される傾向がある。任意には、ビンの不感帯のサイズは、デフォルト（最小）不感帯サイズと最大不感帯サイズとの間の範囲のビン調性の連続的な関数として定義され得る。

装置の説明でいくつかの局面を記載したが、これらの局面は対応の方法の記載をも表すものであり、ブロック又は装置は、方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で記載した局面は、対応の装置の対応のブロック若しくは項目又は特徴の記載をも表す。方法ステップのいくつか又は全ては、ハードウェア装置、例えば、マイクロプロセッサ、プログラム可能コンピュータ又は電子回路によって（又はこれらを用いて）実行され得る。いくつかの実施例においては、最も重要な方法ステップの１つ以上が、そのような装置によって実行され得る。

特定の実現要件に応じて、本発明の実施例はハードウェア又はソフトウェアによって実現され得る。その実現は、非一時的記憶媒体、例えば、デジタル記憶媒体、例えばフロッピーディスク、ＤＶＤ，ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ及びＥＰＲＯＭ、ＥＥＰＲＯＭ又はフラッシュメモリであって、電子的に読み出し可能な制御信号を格納しており、プログラム可能なコンピュータシステムと協働する（又は協働可能である）ことによりそれぞれの方法が実行されるようにするものを用いて実行され得る。従って、デジタル記憶媒体は、コンピュータ読み取り可能であり得る。

本発明のいくつかの実施例は、プログラム可能なコンピュータシステムと協働可能であることによって本願明細書に記載の方法の１つが実行されるようにする、電子的に読み出し可能な制御信号を有するデータキャリアを含む。

一般的には、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品であって、このコンピュータプログラム製品がコンピュータにおいて実行されるときに上記プログラムコードが上記方法の１つを実行するように動作するものとして実現され得る。プログラムコードは、例えば、機械読み取り可能キャリアに格納され得る。

他の実施例は、機械読み取り可能キャリアに格納された、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

従って、換言すると、本発明の方法の一実施例は、コンピュータプログラムであって、このコンピュータプログラムがコンピュータにおいて実行されるときに、本願明細書に記載の方法の１つを実行するためのプログラムコードを有するものである。

従って、本発明の方法の更なる実施例は、データキャリア（又はデジタル記憶媒体若しくはコンピュータ読み取り可能媒体）であって、そこに記録された、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムを含むものである。データキャリア、デジタル記憶媒体又は記録された媒体は、典型的には、タンジブル及び／又は非一時的である。

従って、本発明の方法の更なる実施例は、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、インターネットを介したデータ通信接続を介して転送されるように構成され得る。

更なる実施例は、本願明細書に記載の方法の１つを実行するように構成又は適合された処理手段、例えばコンピュータ又はプログラム可能論理装置を含む。

更なる実施例は、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

本発明の更なる実施例は、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムを受信機へ（例えば電子的又は光学的に）転送するように構成された装置又はシステムを含む。受信機は、例えば、コンピュータ、移動機器、メモリデバイス等であり得る。装置又はシステムは、例えば、コンピュータプログラムを受信機へ転送するためのファイルサーバを含み得る。

いくつかの実施例においては、プログラム可能論理装置（例えば、フィールドプログラマブルゲートアレイ）を用いて、本願明細書に記載の方法におけるいくつか又は全ての機能を実行しても良い。いくつかの実施例においては、フィールドプログラマブルゲートアレイは、マイクロプロセッサと協働して、本願明細書に記載の方法の１つを実行しても良い。一般的に、当該方法は、どのようなハードウェア装置によって実行されても良い。

上述の各実施例は、単に本発明の原理を例示するものである。本願明細書に記載の構成及び詳細を変更及び変形したものが当業者には明らかであることが理解される。従って、本願明細書における各実施例の記載及び説明として提示された特定の詳細によってではなく、添付の特許請求の範囲によってのみ限定されることが意図される。

参照符号
１音声エンコーダ
２フレーム化装置
３量子化器
４制御装置
５調性算出装置
６パワースペクトル算出装置
７開始周波数算出装置
８変更後離散余弦変換算出装置
９変更後離散正弦変換算出装置
１０スペクトル信号算出装置
１１振幅設定装置
１２正規化装置
ＡＳ音声信号
ＥＳ符号化信号
Ｆフレーム
ＳＬ_１−３２スペクトル線
ＳＰＳスペクトル信号
Ｉインデックス
ＤＺ不感帯
ＴＩ_５−３２調性表示値
ＰＳパワースペクトル
ＰＳ_５−３２パワー値
ＳＦ開始周波数
ＣＴ変更後離散余弦変換
ＳＴ変更後離散正弦変換

Claims

音声信号（ＡＳ）を符号化して符号化信号（ＥＳ）を生成するための音声エンコーダであって、前記音声エンコーダ（１）は、
前記音声信号（ＡＳ）からフレーム（Ｆ）を抽出するように構成されたフレーム化装置（２）と、
前記音声信号（ＡＳ）のフレーム（Ｆ）から導出したスペクトル信号（ＳＰＳ）のスペクトル線（ＳＬ_１−３２）を量子化インデックス（Ｉ_０，Ｉ_１）にマッピングするように構成された量子化器（３）と、を備え、前記量子化器（３）は、前記スペクトル線（ＳＬ_１−３２）が量子化インデックス・ゼロ（Ｉ_０）に対してマッピングされた不感帯（ＤＺ）を有し、前記音声エンコーダ（１）は更に、
前記不感帯（ＤＺ）を変更するように構成された制御装置（４）、を備え、
前記制御装置（４）は、少なくとも１つのスペクトル線（ＳＬ_１−３２）又は少なくとも１つのスペクトル線（ＳＬ_１−３２）群についての少なくとも１つの調性表示値（ＴＩ_５−３２）を算出するように構成された調性算出装置（５）を含み、
前記制御装置（４）は、それぞれの前記調性表示値（ＴＩ_５−３２）に応じて、前記少なくとも１つのスペクトル線（ＳＬ_１−３２）又は前記少なくとも１つのスペクトル線（ＳＬ_１−３２）群についての不感帯（ＤＺ）を変更するように構成され、
前記音声エンコーダ（１）は、前記不感帯（ＤＺ）を変更するための開始周波数（ＳＦ）を算出するように構成された開始周波数算出装置（７）を含み、前記不感帯（ＤＺ）は、前記開始周波数（ＳＦ）以上の周波数を表すスペクトル線（ＳＬ）についてのみ変更される、音声エンコーダ。
請求項１に記載の音声エンコーダであって、前記制御装置（４）は、前記スペクトル線（ＳＬ_１−３２）の１つにおける不感帯（ＤＺ）が、より大きな調性を有するスペクトル線（ＳＬ_１−３２）の１つにおける不感帯（ＤＺ）よりも大きくなるように、又は、前記スペクトル線（ＳＬ_１−３２）群の１つにおける前記不感帯（ＤＺ）が、より大きな調性を有するスペクトル線（ＳＬ_１−３２）群の１つにおける不感帯（ＤＺ）よりも大きくなるように、前記不感帯（ＤＺ）を変更するように構成される、音声エンコーダ。
請求項１または請求項２に記載の音声エンコーダであって、前記制御装置（４）は、前記音声信号（ＡＳ）のフレーム（Ｆ）のパワースペクトル（ＰＳ）を算出するように構成されたパワースペクトル算出装置（６）を含み、前記パワースペクトル（ＰＳ）は、スペクトル線（ＳＬ_１−３２）又はスペクトル線（ＳＬ_１−３２）群についてのパワー値（ＰＳ_５−３２）を含み、前記調性算出装置（５）は、前記パワースペクトル（ＰＳ）に応じて前記少なくとも１つの調性表示値（ＴＩ_５−３２）を算出するように構成される、音声エンコーダ。
請求項３に記載の音声エンコーダであって、前記スペクトル線（ＳＬ_１−３２）の１つについての調性表示値（ＴＩ_５−３２）は、それぞれの前記スペクトル線（ＳＬ_１−３２）についての前記パワー値（ＰＳ_５−３２）と、前記パワースペクトル（ＰＳ）における、予め規定された数の周辺パワー値（ＰＳ_５−３２）の合計との比較に基づいており、又は、前記スペクトル線（ＳＬ_１−３２）群の１つについての調性表示値（ＴＩ_５−３２）は、それぞれの前記スペクトル線（ＳＬ_１−３２）群についての前記パワー値（ＰＳ_５−３２）と、前記パワースペクトル（ＰＳ）における、予め規定された数の周辺パワー値（ＰＳ_５−３２）の合計との比較に基づいている、音声エンコーダ。
請求項１から請求項４のいずれかに記載の音声エンコーダであって、前記スペクトル線（ＳＬ_１−３２）の１つについての調性表示値（ＴＩ_５−３２）は、前記音声信号（ＡＳ）の先行フレーム（Ｆ）のスペクトル線の調性表示値（ＴＩ_５−３２）に基づき、又は、前記スペクトル線（ＳＬ_１−３２）群の１つについての調性表示値（ＴＩ_５−３２）は、前記音声信号（ＡＳ）の先行フレーム（Ｆ）についてのスペクトル線（ＳＬ_１−３２）群の調性表示値（ＴＩ_５−３２）に基づく、音声エンコーダ。
請求項３から請求項５のいずれかに記載の音声エンコーダであって、前記調性表示値（ＴＩ_５−３２）は、以下の式によって計算され、

ここで、ｉは、前記音声信号（ＡＳ）の特定のフレーム（Ｆ）を示すインデックスであり、ｋは、特定のスペクトル線を示すインデックスであり、Ｔ_ｋ，ｉは、ｉ番目のフレーム（Ｆ）のｋ番目のスペクトル線の調性表示値（ＴＩ_５−３２）であり、Ｐ_ｋ，ｉは、ｉ番目のフレーム（Ｆ）のｋ番目のスペクトル線のパワー値（ＰＳ_５−３２）であり、又は、前記調性表示値（ＴＩ_５−３２）は、以下の式によって計算され、

ここで、ｉは、前記音声信号（ＡＳ）の特定のフレーム（Ｆ）を示すインデックスであり、ｍは、特定のスペクトル線（ＳＬ_１−３２）群を示すインデックスであり、Ｐ_ｍ，ｉは、ｉ番目のフレームのｍ番目のスペクトル線（ＳＬ_１−３２）群のパワー値である、音声エンコーダ。
請求項１から請求項６のいずれかに記載の音声エンコーダであって、前記開始周波数算出装置（７）は、前記音声信号（ＡＳ）のサンプルレートに基づき、且つ／又は、前記符号化信号（ＥＳ）から生成されたビットストリームについて予想される最大ビットレートに基づき、前記開始周波数（ＳＦ）を算出するように構成される、音声エンコーダ。
請求項３に記載の音声エンコーダであって、前記音声エンコーダ（１）は、前記音声信号（ＡＳ）のフレーム（Ｆ）から変更後離散余弦変換（ＣＴ）を算出するように構成された変更後離散余弦変換算出装置（８）と、前記音声信号（ＡＳ）のフレーム（Ｆ）から変更後離散正弦変換（ＳＴ）を算出するように構成された変更後離散正弦変換算出装置（９）と、を含み、前記パワースペクトル算出装置（６）は、前記変更後離散余弦変換（ＣＴ）及び前記変更後離散正弦変換（ＳＴ）に基づき前記パワースペクトル（ＰＳ）を算出するように構成される、音声エンコーダ。
請求項３に記載の音声エンコーダであって、前記パワースペクトル算出装置（６）は、Ｐ_ｋ，ｉ＝（ＭＤＣＴ_ｋ，ｉ）^２＋（ＭＤＳＴ_ｋ，ｉ）^２の式によって前記パワー値（ＰＳ_５−３２）を算出するように構成され、ここで、ｉは、前記音声信号の特定のフレームを示すインデックスであり、ｋは、特定のスペクトル線を示すインデックスであり、ＭＤＣＴ_ｋ，ｉは、ｉ番目のフレームのｋ番目のスペクトル線における変更後離散余弦変換（ＣＴ）の値であり、ＭＤＳＴ_ｋ，ｉは、ｉ番目のフレームのｋ番目のスペクトル線における変更後離散正弦変換（ＳＴ）の値であり、Ｐ_ｋ，ｉは、ｉ番目のフレームのｋ番目のスペクトル線のパワー値（ＰＳ_５−３２）である、音声エンコーダ。
請求項１または請求項２に記載の音声エンコーダであって、前記音声エンコーダ（１）は、前記スペクトル信号（ＳＰＳ）を生成するように構成されたスペクトル信号算出装置（１０）を含み、前記スペクトル信号算出装置（１０）は、前記不感帯（ＤＺ）の変更によるエネルギーの損失を補償するように前記スペクトル信号（ＳＰＳ）のスペクトル線（ＳＬ_１−３２）の振幅を設定するように構成された振幅設定装置（１１）を含む、音声エンコーダ。
請求項１０に記載の音声エンコーダであって、前記振幅設定装置（１１）は、それぞれの前記スペクトル線における不感帯（ＤＺ）の変更に応じて前記スペクトル信号（ＳＰＳ）の振幅を設定するように構成される、音声エンコーダ。
請求項１０又は請求項１１に記載の音声エンコーダであって、前記スペクトル信号算出装置（１０）は、正規化装置（１２）を含む、音声エンコーダ。
請求項１０から請求項１２のいずれかに記載の音声エンコーダであって、前記制御装置（４）は、前記音声信号（ＡＳ）のフレーム（Ｆ）のパワースペクトル（ＰＳ）を算出するように構成されたパワースペクトル算出装置（６）を含み、前記パワースペクトル（ＰＳ）は、スペクトル線（ＳＬ _１−３２）又はスペクトル線（ＳＬ _１−３２）群についてのパワー値（ＰＳ _５−３２）を含み、前記調性算出装置（５）は、前記パワースペクトル（ＰＳ）に応じて前記少なくとも１つの調性表示値（ＴＩ _５−３２）を算出するように構成され、前記音声エンコーダ（１）は、前記音声信号（ＡＳ）のフレーム（Ｆ）から変更後離散余弦変換（ＣＴ）を算出するように構成された変更後離散余弦変換算出装置（８）と、前記音声信号（ＡＳ）のフレーム（Ｆ）から変更後離散正弦変換（ＳＴ）を算出するように構成された変更後離散正弦変換算出装置（９）とを含み、前記パワースペクトル算出装置（６）は、前記変更後離散余弦変換（ＣＴ）及び前記変更後離散正弦変換（ＳＴ）に基づき前記パワースペクトル（ＰＳ）を算出するように構成され、前記変更後離散余弦変換算出装置（８）によって算出された前記音声信号（ＡＳ）のフレーム（Ｆ）からの変換後離散余弦変換（ＣＴ）は、前記スペクトル信号算出装置（１０）に入力される、音声エンコーダ。
エンコーダ（１）と、デコーダと、を備えるシステムであって、前記エンコーダ（１）は、請求項１から請求項１３のいずれかに従って設計される、システム。
音声信号（ＡＳ）を符号化して符号化信号（ＥＳ）を生成するための方法であって、前記方法は、
前記音声信号（ＡＳ）からフレーム（Ｆ）を抽出するステップと、
前記音声信号（ＡＳ）のフレーム（Ｆ）から導出したスペクトル信号（ＳＰＳ）のスペクトル線（ＳＬ_１−３２）を量子化インデックス（Ｉ_０，Ｉ_１）にマッピングするステップと、を備え、前記スペクトル線（ＳＬ_１−３２）が量子化インデックス・ゼロ（Ｉ_０）に対してマッピングされた不感帯（ＤＺ）が用いられ、前記方法は更に、
前記不感帯（ＤＺ）を変更するステップ、を備え、
少なくとも１つのスペクトル線又は少なくとも１つのスペクトル線（ＳＬ_１−３２）群についての少なくとも１つの調性表示値（ＴＩ_５−３２）が算出され、
それぞれの前記調性表示値（ＴＩ_５−３２）に応じて、前記少なくとも１つのスペクトル線又は前記少なくとも１つのスペクトル線（ＳＬ_１−３２）群についての不感帯（ＤＺ）が変更され、
前記不感帯（ＤＺ）を変更するための開始周波数（ＳＦ）は、算出され、
前記不感帯（ＤＺ）は、前記開始周波数（ＳＦ）以上の周波数を表すスペクトル線（ＳＬ）についてのみ変更される、方法。
コンピュータ又はプロセッサにおいて実行された際に請求項１５に記載の方法を実行するためのコンピュータプログラム。