JP6426211B2 - オーディオ符号化方法および装置 - Google Patents

オーディオ符号化方法および装置 Download PDF

Info

Publication number
JP6426211B2
JP6426211B2 JP2016574980A JP2016574980A JP6426211B2 JP 6426211 B2 JP6426211 B2 JP 6426211B2 JP 2016574980 A JP2016574980 A JP 2016574980A JP 2016574980 A JP2016574980 A JP 2016574980A JP 6426211 B2 JP6426211 B2 JP 6426211B2
Authority
JP
Japan
Prior art keywords
energy
ratio
audio frames
spectrum
audio frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016574980A
Other languages
English (en)
Other versions
JP2017523455A (ja
Inventor
▲ジー▼ 王
▲ジー▼ 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2017523455A publication Critical patent/JP2017523455A/ja
Application granted granted Critical
Publication of JP6426211B2 publication Critical patent/JP6426211B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Auxiliary Devices For Music (AREA)

Description

発明の実施形態は、信号処理技術の分野に関し、より具体的には、オーディオ符号化方法および装置に関する。
従来技術では、ハイブリッドエンコーダが、音声通信システム内のオーディオ信号を符号化するために通常使用されている。特に、ハイブリッドエンコーダは、2つのサブエンコーダを通常含む。一方のサブエンコーダは音声信号を符号化することに適しており、他方のエンコーダは非音声信号を符号化することに適している。受信したオーディオ信号に対して、ハイブリッドエンコーダの各サブエンコーダは、オーディオ信号を符号化する。ハイブリッドエンコーダは、符号化オーディオ信号の品質を直接比較して、最適なサブエンコーダを選択する。しかしながら、そのような閉ループ符号化方法は、高い演算複雑度を有する。
本発明の実施形態は、符号化の複雑度を低減することを可能にするとともに符号化が比較的高精度であることを保証することを可能としている、オーディオ符号化方法および装置を提供している。
第1の態様に従って、オーディオ符号化方法を提供しており、方法は、N個の入力オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を決定するステップであって、N個のオーディオフレームは、現在のオーディオフレームを含み、Nは正の整数である、ステップと、N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って、現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップであって、第1の符号化方法は、時間-周波数変換および変換係数量子化に基づくとともに線形予測には基づかない符号化方法であり、第2の符号化方法は、線形予測ベースの符号化方法である、ステップとを含む。
第1の態様に準拠している、第1の態様の第1の可能な実施様態においては、N個の入力オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を決定するステップは、N個のオーディオフレームの各々のスペクトルをP個のスペクトル包絡に分割するステップであって、Pは正の整数である、ステップと、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するステップであって、一般スパース性パラメータは、N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を示す、ステップとを含む。
第1の態様の第1の可能な実施様態に準拠している、第1の態様の第2の可能な実施様態においては、一般スパース性パラメータは、第1の最小帯域幅を含み、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するステップは、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って、N個のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するステップであって、N個のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、第1の最小帯域幅である、ステップを含み、N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って、現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、第1の最小帯域幅が第1のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するステップ、または、第1の最小帯域幅が第1のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するステップを含む。
第1の態様の第2の可能な実施様態に準拠している、第1の態様の第3の可能な実施様態においては、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って、N個のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するステップは、降順で各オーディオフレームのP個のスペクトル包絡のエネルギーをソートするステップと、N個のオーディオフレームの各々のP個のスペクトル包絡の、降順でソートした、エネルギーに従って、N個のオーディオフレームの各々の第1のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を決定するステップと、N個のオーディオフレームの各々の第1のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅に従って、N個のオーディオフレームの第1のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するステップとを含む。
第1の態様の第1の可能な実施様態に準拠している、第1の態様の第4の可能な実施様態においては、一般スパース性パラメータは、第1のエネルギー比率を含み、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するステップは、P1個のスペクトル包絡をN個のオーディオフレームの各々のP個のスペクトル包絡から選択するステップと、N個のオーディオフレームの各々のP1個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第1のエネルギー比率を決定するステップであって、P1はP未満の正の整数である、ステップとを含み、N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って、現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、第1のエネルギー比率が第2のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するステップ、または、第1のエネルギー比率が第2のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するステップを含む。
第1の態様の第4の可能な実施様態に準拠している、第1の態様の第5の可能な実施様態においては、P1個のスペクトル包絡の任意の1つのエネルギーは、P1個のスペクトル包絡を除くP個のスペクトル包絡のうちの他のスペクトル包絡の任意の1つのエネルギーより大きい。
第1の態様の第1の可能な実施様態に準拠している、第1の態様の第6の可能な実施様態においては、一般スパース性パラメータは、第2の最小帯域幅および第3の最小帯域幅を含み、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するステップは、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って、N個のオーディオフレームの第2のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するとともに、N個のオーディオフレームの第3のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するステップであって、N個のオーディオフレームの第2のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、第2の最小帯域幅として使用され、N個のオーディオフレームの第3のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、第3の最小帯域幅として使用され、第2のプリセット比率は、第3のプリセット比率未満である、ステップを含み、N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って、現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、第2の最小帯域幅が第3のプリセット値未満且つ第3の最小帯域幅が第4のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するステップ、第3の最小帯域幅が第5のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するステップ、または、第3の最小帯域幅が第6のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するステップを含み、第4のプリセット値は、第3のプリセット値以上であり、第5のプリセット値は、第4のプリセット値未満であり、第6のプリセット値は、第4のプリセット値より大きい。
第1の態様の第6の可能な実施様態に準拠している、第1の態様の第7の可能な実施様態においては、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って、N個のオーディオフレームの第2のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するとともに、N個のオーディオフレームの第3のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するステップは、降順で各オーディオフレームのP個のスペクトル包絡のエネルギーをソートするステップと、N個のオーディオフレームの各々のP個のスペクトル包絡の、降順でソートした、エネルギーに従って、N個のオーディオフレームの各々の第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を決定するステップと、N個のオーディオフレームの各々の第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅に従って、N個のオーディオフレームの第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するステップと、N個のオーディオフレームの各々のP個のスペクトル包絡の、降順でソートした、エネルギーに従って、N個のオーディオフレームの各々の第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を決定するステップと、N個のオーディオフレームの各々の第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅に従って、N個のオーディオフレームの第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するステップとを含む。
第1の態様の第1の可能な実施様態に準拠している、第1の態様の第8の可能な実施様態においては、一般スパース性パラメータは、第2のエネルギー比率および第3のエネルギー比率を含み、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するステップは、P2個のスペクトル包絡をN個のオーディオフレームの各々のP個のスペクトル包絡から選択するステップと、N個のオーディオフレームの各々のP2個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第2のエネルギー比率を決定するステップと、P3個のスペクトル包絡をN個のオーディオフレームの各々のP個のスペクトル包絡から選択するステップと、N個のオーディオフレームの各々のP3個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第3のエネルギー比率を決定するステップとを含み、P2およびP3はP未満の正の整数であり、P2はP3未満であり、N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って、現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、第2のエネルギー比率が第7のプリセット値より大きく且つ第3のエネルギー比率が第8のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するステップ、第2のエネルギー比率が第9のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するステップ、または、第3のエネルギー比率が第10のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するステップを含む。
第1の態様の第8の可能な実施様態に準拠している、第1の態様の第9の可能な実施様態においては、P2個のスペクトル包絡は、P個のスペクトル包絡のうちの最大のエネルギーを有するP2個のスペクトル包絡であり、P3個のスペクトル包絡は、P個のスペクトル包絡のうちの最大のエネルギーを有するP3個のスペクトル包絡である。
第1の態様に準拠している、第1の態様の第10の可能な実施様態においては、スペクトルにおけるエネルギーの分布のスパース性は、スペクトルにおける、エネルギーの分布のグローバルスパース性、ローカルスパース性、および短期バースト性を含む。
第1の態様の第10の可能な実施様態に準拠している、第1の態様の第11の可能な実施様態においては、Nは1であり、N個のオーディオフレームは、現在のオーディオフレームであり、N個の入力オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を決定するステップは、現在のオーディオフレームのスペクトルをQ個のサブバンドに分割するステップと、現在のオーディオフレームのスペクトルのQ個のサブバンドの各々のピークエネルギーに従ってバーストスパース性パラメータを決定するステップであって、バーストスパース性パラメータは、現在のオーディオフレームのグローバルスパース性、ローカルスパース性、および短期バースト性を示すために使用される、ステップとを含む。
第1の態様の第11の可能な実施様態に準拠している、第1の態様の第12の可能な実施様態においては、バーストスパース性パラメータは、Q個のサブバンドの各々のグローバルピーク対平均比率、Q個のサブバンドの各々のローカルピーク対平均比率、およびQ個のサブバンドの各々の短期エネルギー変動を含み、グローバルピーク対平均比率は、サブバンドにおけるピークエネルギーおよび現在のオーディオフレームのサブバンドすべての平均エネルギーに従って決定され、ローカルピーク対平均比率は、サブバンドにおけるピークエネルギーおよびサブバンドにおける平均エネルギーに従って決定され、短期ピークエネルギー変動は、サブバンドにおけるピークエネルギーおよび前記オーディオフレームの前のオーディオフレームの特定の周波数帯におけるピークエネルギーに従って決定され、N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って、現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、Q個のサブバンド内に第1のサブバンドが存在しているかどうかを決定するステップであって、第1のサブバンドのローカルピーク対平均比率は、第11のプリセット値より大きく、第1のサブバンドのグローバルピーク対平均比率は、第12のプリセット値より大きく、第1のサブバンドの短期ピークエネルギー変動は、第13のプリセット値より大きい、ステップと、Q個のサブバンド内に第1のサブバンドが存在している場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するステップとを含む。
第1の態様に準拠している、第1の態様の第13の可能な実施様態においては、スペクトルにおけるエネルギーの分布のスパース性は、スペクトルにおけるエネルギーの分布の帯域制限特性を含む。
第1の態様の第13の可能な実施様態に準拠している、第1の態様の第14の可能な実施様態においては、N個の入力オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を決定するステップは、N個のオーディオフレームの各々の境界周波数を決定するステップと、N個のオーディオフレームの各々の境界周波数に従って帯域制限スパース性パラメータを決定するステップとを含む。
第1の態様の第14の可能な実施様態に準拠している、第1の態様の第15の可能な実施様態においては、帯域制限スパース性パラメータは、N個のオーディオフレームの境界周波数の平均値であり、N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って、現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、オーディオフレームの帯域制限スパース性パラメータが第14のプリセット値未満であると決定された場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するステップを含む。
第2の態様に従って、本発明の実施形態は、装置を提供しており、装置は、N個のオーディオフレームを取得するように構成される、取得ユニットであって、N個のオーディオフレームは、現在のオーディオフレームを含み、Nは正の整数である、取得ユニットと、取得ユニットによって取得したN個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を決定するように構成される、決定ユニットとを備え、決定ユニットは、N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って、現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するようにさらに構成され、第1の符号化方法は、時間-周波数変換および変換係数量子化に基づくとともに線形予測には基づかない符号化方法であり、第2の符号化方法は、線形予測ベースの符号化方法である。
第2の態様に準拠している、第2の態様の第1の可能な実施様態においては、決定ユニットは、N個のオーディオフレームの各々のスペクトルをP個のスペクトル包絡に分割し、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するように特に構成され、Pは正の整数であり、一般スパース性パラメータは、N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を示す。
第2の態様の第1の可能な実施様態に準拠している、第2の態様の第2の可能な実施様態においては、一般スパース性パラメータは、第1の最小帯域幅を含み、決定ユニットは、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って、N個のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するように特に構成され、N個のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、第1の最小帯域幅であり、決定ユニットは、第1の最小帯域幅が第1のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第1の最小帯域幅が第1のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するように特に構成される。
第2の態様の第2の可能な実施様態に準拠している、第2の態様の第3の可能な実施様態においては、決定ユニットは、降順で各オーディオフレームのP個のスペクトル包絡のエネルギーをソートし、N個のオーディオフレームの各々のP個のスペクトル包絡の、降順でソートした、エネルギーに従って、N個のオーディオフレームの各々の第1のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を決定し、N個のオーディオフレームの各々の第1のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅に従って、N個のオーディオフレームの第1のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するように特に構成される。
第2の態様の第1の可能な実施様態に準拠している、第2の態様の第4の可能な実施様態においては、一般スパース性パラメータは、第1のエネルギー比率を含み、決定ユニットは、P1個のスペクトル包絡をN個のオーディオフレームの各々のP個のスペクトル包絡から選択し、N個のオーディオフレームの各々のP1個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第1のエネルギー比率を決定するように特に構成され、P1はP未満の正の整数であり、決定ユニットは、第1のエネルギー比率が第2のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第1のエネルギー比率が第2のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するように特に構成される。
第2の態様の第4の可能な実施様態に準拠している、第2の態様の第5の可能な実施様態においては、決定ユニットは、P個のスペクトル包絡のエネルギーに従ってP1個のスペクトル包絡を決定するように特に構成され、P1個のスペクトル包絡の任意の1つのエネルギーは、P1個のスペクトル包絡を除くP個のスペクトル包絡のうちの他のスペクトル包絡の任意の1つのエネルギーより大きい。
第2の態様の第1の可能な実施様態に準拠している、第2の態様の第6の可能な実施様態においては、一般スパース性パラメータは、第2の最小帯域幅および第3の最小帯域幅を含み、決定ユニットは、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って、N個のオーディオフレームの第2のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するとともに、N個のオーディオフレームの第3のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するように特に構成され、N個のオーディオフレームの第2のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、第2の最小帯域幅として使用され、N個のオーディオフレームの第3のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、第3の最小帯域幅として使用され、第2のプリセット比率は、第3のプリセット比率未満であり、決定ユニットは、第2の最小帯域幅が第3のプリセット値未満且つ第3の最小帯域幅が第4のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第3の最小帯域幅が第5のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第3の最小帯域幅が第6のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するように特に構成され、第4のプリセット値は、第3のプリセット値以上であり、第5のプリセット値は、第4のプリセット値未満であり、第6のプリセット値は、第4のプリセット値より大きい。
第2の態様の第6の可能な実施様態に準拠している、第2の態様の第7の可能な実施様態においては、決定ユニットは、降順で各オーディオフレームのP個のスペクトル包絡のエネルギーをソートし、N個のオーディオフレームの各々のP個のスペクトル包絡の、降順でソートした、エネルギーに従って、N個のオーディオフレームの各々の第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を決定し、N個のオーディオフレームの各々の第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅に従って、N個のオーディオフレームの第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定し、N個のオーディオフレームの各々のP個のスペクトル包絡の、降順でソートした、エネルギーに従って、N個のオーディオフレームの各々の第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を決定し、N個のオーディオフレームの各々の第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅に従って、N個のオーディオフレームの第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するように特に構成される。
第2の態様の第1の可能な実施様態に準拠している、第2の態様の第8の可能な実施様態においては、一般スパース性パラメータは、第2のエネルギー比率および第3のエネルギー比率を含み、決定ユニットは、P2個のスペクトル包絡をN個のオーディオフレームの各々のP個のスペクトル包絡から選択し、N個のオーディオフレームの各々のP2個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第2のエネルギー比率を決定し、P3個のスペクトル包絡をN個のオーディオフレームの各々のP個のスペクトル包絡から選択し、N個のオーディオフレームの各々のP3個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第3のエネルギー比率を決定するように特に構成され、P2およびP3はP未満の正の整数であり、P2はP3未満であり、決定ユニットは、第2のエネルギー比率が第7のプリセット値より大きく且つ第3のエネルギー比率が第8のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第2のエネルギー比率が第9のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第3のエネルギー比率が第10のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するように特に構成される。
第2の態様の第8の可能な実施様態に準拠している、第2の態様の第9の可能な実施様態においては、決定ユニットは、N個のオーディオフレームの各々のP個のスペクトル包絡から、最大のエネルギーを有するP2個のスペクトル包絡を決定し、N個のオーディオフレームの各々のP個のスペクトル包絡から、最大のエネルギーを有するP3個のスペクトル包絡を決定するように特に構成される。
第2の態様に準拠している、第2の態様の第10の可能な実施様態においては、Nは1であり、N個のオーディオフレームは、現在のオーディオフレームであり、決定ユニットは、現在のオーディオフレームのスペクトルをQ個のサブバンドに分割して、現在のオーディオフレームのスペクトルのQ個のサブバンドの各々のピークエネルギーに従ってバーストスパース性パラメータを決定するように特に構成され、バーストスパース性パラメータは、現在のオーディオフレームのグローバルスパース性、ローカルスパース性、および短期バースト性を示すために使用される。
第2の態様の第10の可能な実施様態に準拠している、第2の態様の第11の可能な実施様態においては、決定ユニットは、Q個のサブバンドの各々のグローバルピーク対平均比率、Q個のサブバンドの各々のローカルピーク対平均比率、およびQ個のサブバンドの各々の短期エネルギー変動を決定するように特に構成され、グローバルピーク対平均比率は、サブバンドにおけるピークエネルギーおよび現在のオーディオフレームのサブバンドすべての平均エネルギーに従って決定ユニットによって決定され、ローカルピーク対平均比率は、サブバンドにおけるピークエネルギーおよびサブバンドにおける平均エネルギーに従って決定ユニットによって決定され、短期ピークエネルギー変動は、サブバンドにおけるピークエネルギーおよび前記オーディオフレームの前のオーディオフレームの特定の周波数帯におけるピークエネルギーに従って決定され、決定ユニットは、Q個のサブバンド内に第1のサブバンドが存在しているかどうかを決定することであって、第1のサブバンドのローカルピーク対平均比率は、第11のプリセット値より大きく、第1のサブバンドのグローバルピーク対平均比率は、第12のプリセット値より大きく、第1のサブバンドの短期ピークエネルギー変動は、第13のプリセット値より大きい、決定することをし、Q個のサブバンド内に第1のサブバンドが存在している場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するように特に構成される。
第2の態様に準拠している、第2の態様の第12の可能な実施様態においては、決定ユニットは、N個のオーディオフレームの各々の境界周波数を決定するように特に構成され、決定ユニットは、N個のオーディオフレームの各々の境界周波数に従って帯域制限スパース性パラメータを決定するように特に構成される。
第2の態様の第12の可能な実施様態に準拠している、第2の態様の第13の可能な実施様態においては、帯域制限スパース性パラメータは、N個のオーディオフレームの境界周波数の平均値であり、決定ユニットは、オーディオフレームの帯域制限スパース性パラメータが第14のプリセット値未満であると決定された場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するように特に構成される。
前述の技術的解決手法に従って、オーディオフレームを符号化する際に、オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を考慮しており、このことが、符号化の複雑度を低減することを可能にするとともに符号化が比較的高精度であることを保証することを可能としている。
本発明の実施形態における技術的解決手法をより明確に説明するために、本発明の実施形態を説明するために必要となる添付の図面を以下に簡単に説明する。以下の説明における添付の図面が本発明の一部の実施形態を示しているにすぎず、当業者が創造的努力なしにこれらの添付の図面から他の図面をさらに導出し得ることは明らかであろう。
本発明の実施形態による、オーディオ符号化方法の概略フローチャートである。 本発明の実施形態による、装置の構造的ブロック図である。 本発明の実施形態による、装置の構造的ブロック図である。
本発明の実施形態における添付の図面を参照して、本発明の実施形態における技術的解決手法を以下に明確かつ完全に説明する。説明した実施形態は、本発明の実施形態のすべてではなく一部にすぎないことは明らかであろう。創造的努力なしに本発明の実施形態に基づいて当業者によって得られる他の実施形態のすべては、本発明の保護範囲に含まれるものとする。
図1は、本発明の実施形態による、オーディオ符号化方法の概略フローチャートである。
101: N個の入力オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を決定する、ここで、N個のオーディオフレームは、現在のオーディオフレームを含み、Nは正の整数である。
102: N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って、現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定する、ここで、第1の符号化方法は、時間-周波数変換および変換係数量子化に基づくとともに線形予測には基づかない符号化方法であり、第2の符号化方法は、線形予測ベースの符号化方法である。
図1に示した方法により、オーディオフレームを符号化する際には、オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を考慮しており、このことが、符号化の複雑度を低減することを可能にするとともに符号化が比較的高精度であることを保証することを可能としている。
オーディオフレームにとって適切な符号化方法の選択中に、オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性が考慮され得る。オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性には3つのタイプ、一般スパース性、バーストスパース性、および帯域制限スパース性が存在し得る。
必要に応じて、ある実施形態においては、一般スパース性を使用することによって、適切な符号化方法が現在のオーディオフレームに対して選択され得る。この場合には、N個の入力オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を決定するステップは、N個のオーディオフレームの各々のスペクトルをP個のスペクトル包絡に分割するステップであって、Pは正の整数である、ステップと、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するステップであって、一般スパース性パラメータは、N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を示す、ステップとを含む。
特に、N個の入力された連続オーディオフレームの特定の比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、一般スパース性として定義され得る。より小さな帯域幅ほどより強い一般スパース性を示し、より大きな帯域幅ほどより弱い一般スパース性を示す。換言すれば、より強い一般スパース性ほどオーディオフレームのエネルギーがより集中していることを示し、より弱い一般スパース性ほどオーディオフレームのエネルギーがより散在していることを示す。第1の符号化方法を使用して一般スパース性が相対的に強いオーディオフレームを符号化すると効率は高くなる。したがって、オーディオフレームを符号化するために、適切な符号化方法が、オーディオフレームの一般スパース性を決定することによって選択され得る。オーディオフレームの一般スパース性を決定することを支援するために、一般スパース性を量子化して一般スパース性パラメータを取得してもよい。必要に応じて、Nが1である場合には、一般スパース性は、現在のオーディオフレームの特定の比率のエネルギーの、スペクトルに分布している、最小帯域幅となる。
必要に応じて、ある実施形態においては、一般スパース性パラメータは、第1の最小帯域幅を含む。この場合には、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するステップは、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って、N個のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するステップであって、N個のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、第1の最小帯域幅である、ステップを含む。N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って、現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、第1の最小帯域幅が第1のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するステップ、または、第1の最小帯域幅が第1のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するステップを含む。必要に応じて、ある実施形態においては、Nが1である場合には、N個のオーディオフレームは、現在のオーディオフレームであり、N個のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、現在のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅である。
第1のプリセット値および第1のプリセット比率をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法または第2の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切な第1のプリセット値および第1のプリセット比率をシミュレーション実験により決定してもよい。一般的に、第1のプリセット比率の値は、一般的に0と1との間の1に比較的近い数値、例えば、90%または80%である。第1のプリセット値の選択は、第1のプリセット比率の値に関連しており、また、第1の符号化方法と第2の符号化方法との間の選択傾向に関連している。例えば、比較的大きな第1のプリセット比率に対応する第1のプリセット値は、比較的小さな第1のプリセット比率に対応する第1のプリセット値より一般的に大きい。別の例では、第1の符号化方法を選択する傾向に対応する第1のプリセット値は、第2の符号化方法を選択する傾向に対応する第1のプリセット値より一般的に大きい。
N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って、N個のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するステップは、降順で各オーディオフレームのP個のスペクトル包絡のエネルギーをソートするステップと、N個のオーディオフレームの各々のP個のスペクトル包絡の、降順でソートした、エネルギーに従って、N個のオーディオフレームの各々の第1のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を決定するステップと、N個のオーディオフレームの各々の第1のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅に従って、N個のオーディオフレームの第1のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するステップとを含む。例えば、入力オーディオ信号は、16kHzでサンプリングされた広帯域信号であり、入力信号は、20msのフレーム中に入力される。信号の各フレームは、320個の時間領域のサンプリング点である。時間-周波数変換が時間領域信号に対して行われる。例えば、時間-周波数変換を高速フーリエ変換(Fast Fourier Transformation、FFT)により行って、160個のスペクトル包絡S(k)、すなわち、160個のFFTエネルギースペクトル係数を取得する、ここで、k=0、1、2、…、159である。最小帯域幅を、帯域幅におけるエネルギーがフレームの総エネルギーにおいて占める比率が第1のプリセット比率となる形で、スペクトル包絡S(k)から探し出す。特に、オーディオフレームのP個のスペクトル包絡の、降順でソートした、エネルギーに従って、オーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅を決定するステップは、降順でスペクトル包絡S(k)における周波数ビンのエネルギーを順次累積するステップと、各回の累積後に得られるエネルギーをオーディオフレームの総エネルギーと比較し、比率が第1のプリセット比率より大きい場合には、蓄積プロセスを終了するステップとを含む、ここで、蓄積の回数が最小帯域幅である。例えば、第1のプリセット比率は90%であり、30回の累積の後に得られるエネルギー合計が総エネルギーにおいて占める比率が90%を超過しており、29回の累積の後に得られるエネルギー合計が総エネルギーにおいて占める比率は90%未満であり、31回の累積の後に得られるエネルギー合計が総エネルギーにおいて占める比率が30回の累積の後に得られるエネルギー合計が総エネルギーにおいて占める比率を超過している場合には、オーディオフレームの第1のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅が30であるとみなし得る。前述の最小帯域幅決定プロセスを、N個のオーディオフレームの各々に対して実行して、現在のオーディオフレームを含むN個のオーディオフレームの第1のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を別々に決定し、N個の最小帯域幅の平均値を計算する。N個の最小帯域幅の平均値を第1の最小帯域幅と称してもよく、第1の最小帯域幅は、一般スパース性パラメータとして使用され得る。第1の最小帯域幅が第1のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定される。第1の最小帯域幅が第1のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定される。
必要に応じて、別の実施形態においては、一般スパース性パラメータは、第1のエネルギー比率を含み得る。この場合には、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するステップは、P1個のスペクトル包絡をN個のオーディオフレームの各々のP個のスペクトル包絡から選択するステップと、N個のオーディオフレームの各々のP1個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第1のエネルギー比率を決定するステップであって、P1はP未満の正の整数である、ステップとを含む。N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って、現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、第1のエネルギー比率が第2のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するステップ、または、第1のエネルギー比率が第2のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するステップを含む。必要に応じて、ある実施形態においては、Nが1である場合には、N個のオーディオフレームは、現在のオーディオフレームであり、N個のオーディオフレームの各々のP1個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第1のエネルギー比率を決定するステップは、現在のオーディオフレームのP1個のスペクトル包絡のエネルギーおよび現在のオーディオフレームの総エネルギーに従って第1のエネルギー比率を決定するステップを含む。
特に、第1のエネルギー比率を以下の式を使用して計算し得る。
Figure 0006426211
ここで、R1は、第1のエネルギー比率を表し、EP1(n)は、第nのオーディオフレームにおけるP1個の選択されたスペクトル包絡のエネルギー合計を表し、Eall(n)は、第nのオーディオフレームの総エネルギーを表し、r(n)は、N個のオーディオフレームのうちの第nのオーディオフレームのP1個のスペクトル包絡のエネルギーがオーディオフレームの総エネルギーにおいて占める比率を表す。
第2のプリセット値およびP1個のスペクトル包絡の選択をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法または第2の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切な第2のプリセット値、P1の適切な値、およびP1個のスペクトル包絡を選択するための適切な方法をシミュレーション実験により決定してもよい。一般的に、P1の値は、比較的小さな数値であり得る。例えば、P1を、Pに対するP1の比率が20%未満となる形で選択する。第2のプリセット値については、過度に小さい比率に相当する数値は、一般的に選択しない。例えば、10%未満の数値は選択しない。第2のプリセット値の選択は、P1の値および第1の符号化方法と第2の符号化方法との間の選択傾向に関連している。例えば、比較的大きなP1に対応する第2のプリセット値は、比較的小さなP1に対応する第2のプリセット値より一般的に大きい。別の例では、第1の符号化方法を選択する傾向に対応する第2のプリセット値は、第2の符号化方法を選択する傾向に対応する第2のプリセット値より一般的に小さい。必要に応じて、ある実施形態においては、P1個のスペクトル包絡の任意の1つのエネルギーは、P個のスペクトル包絡のうちの残り(P-P1)個のスペクトル包絡の任意の1つのエネルギーより大きい。
例えば、入力オーディオ信号は、16kHzでサンプリングされた広帯域信号であり、入力信号は、20msのフレーム中に入力される。信号の各フレームは、320個の時間領域のサンプリング点である。時間-周波数変換が時間領域信号に対して行われる。例えば、時間-周波数変換を高速フーリエ変換により行って、160個のスペクトル包絡S(k)を取得する、ここで、k=0、1、2、…、159である。P1個のスペクトル包絡を160個のスペクトル包絡から選択し、P1個のスペクトル包絡のエネルギー合計がオーディオフレームの総エネルギーにおいて占める比率を計算する。前述のプロセスを、N個のオーディオフレームの各々に対して実行する。すなわち、N個のオーディオフレームの各々のP1個のスペクトル包絡のエネルギー合計がそれぞれの総エネルギーにおいて占める比率を計算する。比率の平均値を計算する。比率の平均値は、第1のエネルギー比率である。第1のエネルギー比率が第2のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定される。第1のエネルギー比率が第2のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定される。P1個のスペクトル包絡の任意の1つのエネルギーは、P1個のスペクトル包絡を除くP個のスペクトル包絡のうちの他のスペクトル包絡の任意の1つのエネルギーより大きい。必要に応じて、ある実施形態においては、P1の値は20であり得る。
必要に応じて、別の実施形態においては、一般スパース性パラメータは、第2の最小帯域幅および第3の最小帯域幅を含み得る。この場合には、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するステップは、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って、N個のオーディオフレームの第2のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するとともに、N個のオーディオフレームの第3のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するステップであって、N個のオーディオフレームの第2のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、第2の最小帯域幅として使用され、N個のオーディオフレームの第3のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、第3の最小帯域幅として使用され、第2のプリセット比率は、第3のプリセット比率未満である、ステップを含む。N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って、現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、第2の最小帯域幅が第3のプリセット値未満且つ第3の最小帯域幅が第4のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するステップ、第3の最小帯域幅が第5のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するステップ、または、第3の最小帯域幅が第6のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するステップを含む。第4のプリセット値は、第3のプリセット値以上であり、第5のプリセット値は、第4のプリセット値未満であり、第6のプリセット値は、第4のプリセット値より大きい。必要に応じて、ある実施形態においては、Nが1である場合には、N個のオーディオフレームは、現在のオーディオフレームである。N個のオーディオフレームの第2のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を第2の最小帯域幅として決定するステップは、現在のオーディオフレームの第2のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅を第2の最小帯域幅として決定するステップを含む。N個のオーディオフレームの第3のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を第3の最小帯域幅として決定するステップは、現在のオーディオフレームの第3のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅を第3の最小帯域幅として決定するステップを含む。
第3のプリセット値、第4のプリセット値、第5のプリセット値、第6のプリセット値、第2のプリセット比率、および第3のプリセット比率をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法または第2の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切なプリセット値およびプリセット比率をシミュレーション実験により決定してもよい。
N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って、N個のオーディオフレームの第2のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するとともに、N個のオーディオフレームの第3のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するステップは、降順で各オーディオフレームのP個のスペクトル包絡のエネルギーをソートするステップと、N個のオーディオフレームの各々のP個のスペクトル包絡の、降順でソートした、エネルギーに従って、N個のオーディオフレームの各々の第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を決定するステップと、N個のオーディオフレームの各々の第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅に従って、N個のオーディオフレームの第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するステップと、N個のオーディオフレームの各々のP個のスペクトル包絡の、降順でソートした、エネルギーに従って、N個のオーディオフレームの各々の第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を決定するステップと、N個のオーディオフレームの各々の第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅に従って、N個のオーディオフレームの第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するステップとを含む。例えば、入力オーディオ信号は、16kHzでサンプリングされた広帯域信号であり、入力信号は、20msのフレーム中に入力される。信号の各フレームは、320個の時間領域のサンプリング点である。時間-周波数変換が時間領域信号に対して行われる。例えば、時間-周波数変換を高速フーリエ変換により行って、160個のスペクトル包絡S(k)を取得する、ここで、k=0、1、2、…、159である。最小帯域幅を、帯域幅におけるエネルギーがフレームの総エネルギーにおいて占める比率が第2のプリセット比率となる形で、スペクトル包絡S(k)から探し出す。帯域幅を、帯域幅におけるエネルギーが総エネルギーにおいて占める比率が第3のプリセット比率となる形で、スペクトル包絡S(k)から継続して探し出す。特に、オーディオフレームのP個のスペクトル包絡の、降順でソートした、エネルギーに従って、オーディオフレームの第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅およびオーディオフレームの第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を決定するステップは、降順でスペクトル包絡S(k)における周波数ビンのエネルギーを順次累積するステップを含む。各回の累積後に得られるエネルギーをオーディオフレームの総エネルギーと比較して、比率が第2のプリセット比率より大きい場合には、累積の回数が、少なくとも第2のプリセット比率であることを満たす最小帯域幅である。累積を継続し、オーディオフレームの総エネルギーに対する累積後に得られるエネルギーの比率が第3のプリセット比率より大きい場合には、累積を終了し、累積の回数は、少なくとも第3のプリセット比率であることを満たす最小帯域幅となる。例えば、第2のプリセット比率は85%であり、第3のプリセット比率は95%である。30回の累積の後に得られるエネルギー合計が総エネルギーにおいて占める比率が85%を超過する場合には、オーディオフレームの第2のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅が30であるとみなし得る。累積を継続し、35回の累積の後に得られるエネルギー合計が総エネルギーにおいて占める比率が95%である場合には、オーディオフレームの第3のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅が35であるとみなし得る。前述のプロセスを、N個のオーディオフレームの各々に対して実行して、現在のオーディオフレームを含むN個のオーディオフレームの第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅および現在のオーディオフレームを含むN個のオーディオフレームの第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を別々に決定する。N個のオーディオフレームの第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値が、第2の最小帯域幅である。N個のオーディオフレームの第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値が、第3の最小帯域幅である。第2の最小帯域幅が第3のプリセット値未満且つ第3の最小帯域幅が第4のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定される。第3の最小帯域幅が第5のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定される。第3の最小帯域幅が第6のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定される。
必要に応じて、別の実施形態においては、一般スパース性パラメータは、第2のエネルギー比率および第3のエネルギー比率を含む。この場合には、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するステップは、P2個のスペクトル包絡をN個のオーディオフレームの各々のP個のスペクトル包絡から選択するステップと、N個のオーディオフレームの各々のP2個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第2のエネルギー比率を決定するステップと、P3個のスペクトル包絡をN個のオーディオフレームの各々のP個のスペクトル包絡から選択するステップと、N個のオーディオフレームの各々のP3個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第3のエネルギー比率を決定するステップとを含む。N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って、現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、第2のエネルギー比率が第7のプリセット値より大きく且つ第3のエネルギー比率が第8のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するステップ、第2のエネルギー比率が第9のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するステップ、または、第3のエネルギー比率が第10のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するステップを含む。P2およびP3はP未満の正の整数であり、P2はP3未満である。必要に応じて、ある実施形態においては、Nが1である場合には、N個のオーディオフレームは、現在のオーディオフレームである。N個のオーディオフレームの各々のP2個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第2のエネルギー比率を決定するステップは、現在のオーディオフレームのP2個のスペクトル包絡のエネルギーおよび現在のオーディオフレームの総エネルギーに従って第2のエネルギー比率を決定するステップを含む。N個のオーディオフレームの各々のP3個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第3のエネルギー比率を決定するステップは、現在のオーディオフレームのP3個のスペクトル包絡のエネルギーおよび現在のオーディオフレームの総エネルギーに従って第3のエネルギー比率を決定するステップを含む。
P2およびP3の値、第7のプリセット値、第8のプリセット値、第9のプリセット値、ならびに第10のプリセット値をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法または第2の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切なプリセット値をシミュレーション実験により決定してもよい。必要に応じて、ある実施形態においては、P2個のスペクトル包絡は、P個のスペクトル包絡のうちの最大のエネルギーを有するP2個のスペクトル包絡であり得るし、P3個のスペクトル包絡は、P個のスペクトル包絡のうちの最大のエネルギーを有するP3個のスペクトル包絡であり得る。
例えば、入力オーディオ信号は、16kHzでサンプリングされた広帯域信号であり、入力信号は、20msのフレーム中に入力される。信号の各フレームは、320個の時間領域のサンプリング点である。時間-周波数変換が時間領域信号に対して行われる。例えば、時間-周波数変換を高速フーリエ変換により行って、160個のスペクトル包絡S(k)を取得する、ここで、k=0、1、2、…、159である。P2個のスペクトル包絡を160個のスペクトル包絡から選択し、P2個のスペクトル包絡のエネルギー合計がオーディオフレームの総エネルギーにおいて占める比率を計算する。前述のプロセスを、N個のオーディオフレームの各々に対して実行する。すなわち、N個のオーディオフレームの各々のP2個のスペクトル包絡のエネルギー合計がそれぞれの総エネルギーにおいて占める比率を計算する。比率の平均値を計算する。比率の平均値は、第2のエネルギー比率である。P3個のスペクトル包絡を160個のスペクトル包絡から選択し、P3個のスペクトル包絡のエネルギー合計がオーディオフレームの総エネルギーにおいて占める比率を計算する。前述のプロセスを、N個のオーディオフレームの各々に対して実行する。すなわち、N個のオーディオフレームの各々のP3個のスペクトル包絡のエネルギー合計がそれぞれの総エネルギーにおいて占める比率を計算する。比率の平均値を計算する。比率の平均値は、第3のエネルギー比率である。第2のエネルギー比率が第7のプリセット値より大きく且つ第3のエネルギー比率が第8のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定される。第2のエネルギー比率が第9のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定される。第3のエネルギー比率が第10のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定される。P2個のスペクトル包絡は、P個のスペクトル包絡のうちの最大のエネルギーを有するP2個のスペクトル包絡であり得るし、P3個のスペクトル包絡は、P個のスペクトル包絡のうちの最大のエネルギーを有するP3個のスペクトル包絡であり得る。必要に応じて、ある実施形態においては、P2の値は20であり得るし、P3の値は30であり得る。
必要に応じて、別の実施形態においては、バーストスパース性を使用することによって、適切な符号化方法が現在のオーディオフレームに対して選択され得る。バーストスパース性については、オーディオフレームのエネルギーの、スペクトルにおける、分布のグローバルスパース性、ローカルスパース性、および短期バースト性を考慮する必要がある。この場合には、スペクトルにおけるエネルギーの分布のスパース性は、スペクトルにおける、エネルギーの分布のグローバルスパース性、ローカルスパース性、および短期バースト性を含み得る。この場合には、Nの値は1であり得、N個のオーディオフレームは現在のオーディオフレームである。N個の入力オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を決定するステップは、現在のオーディオフレームのスペクトルをQ個のサブバンドに分割するステップと、現在のオーディオフレームのスペクトルのQ個のサブバンドの各々のピークエネルギーに従ってバーストスパース性パラメータを決定するステップであって、バーストスパース性パラメータは、現在のオーディオフレームのグローバルスパース性、ローカルスパース性、および短期バースト性を示すために使用される、ステップとを含む。バーストスパース性パラメータは、Q個のサブバンドの各々のグローバルピーク対平均比率、Q個のサブバンドの各々のローカルピーク対平均比率、およびQ個のサブバンドの各々の短期エネルギー変動を含み、グローバルピーク対平均比率は、サブバンドにおけるピークエネルギーおよび現在のオーディオフレームのサブバンドすべての平均エネルギーに従って決定され、ローカルピーク対平均比率は、サブバンドにおけるピークエネルギーおよびサブバンドにおける平均エネルギーに従って決定され、短期ピークエネルギー変動は、サブバンドにおけるピークエネルギーおよび前記オーディオフレームの前のオーディオフレームの特定の周波数帯におけるピークエネルギーに従って決定される。N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って、現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、Q個のサブバンド内に第1のサブバンドが存在しているかどうかを決定するステップであって、第1のサブバンドのローカルピーク対平均比率は、第11のプリセット値より大きく、第1のサブバンドのグローバルピーク対平均比率は、第12のプリセット値より大きく、第1のサブバンドの短期ピークエネルギー変動は、第13のプリセット値より大きい、ステップと、Q個のサブバンド内に第1のサブバンドが存在している場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するステップとを含む。Q個のサブバンドの各々のグローバルピーク対平均比率、Q個のサブバンドの各々のローカルピーク対平均比率、およびQ個のサブバンドの各々の短期エネルギー変動は、グローバルスパース性、ローカルスパース性、および短期バースト性をそれぞれ表す。
特に、グローバルピーク対平均比率を以下の式を使用して決定し得る。
Figure 0006426211
ここで、e(i)は、Q個のサブバンドにおける第iのサブバンドのピークエネルギーを表し、s(k)は、P個のスペクトル包絡のうちの第kのスペクトル包絡のエネルギーを表し、p2s(i)は、第iのサブバンドのグローバルピーク対平均比率を表す。
ローカルピーク対平均比率を以下の式を使用して決定し得る。
Figure 0006426211
ここで、e(i)は、Q個のサブバンドにおける第iのサブバンドのピークエネルギーを表し、s(k)は、P個のスペクトル包絡のうちの第kのスペクトル包絡のエネルギーを表し、h(i)は、第iのサブバンドに含まれるとともに最高周波数を有するスペクトル包絡のインデックスを表し、l(i)は、第iのサブバンドに含まれるとともに最低周波数を有するスペクトル包絡のインデックスを表し、p2a(i)は、第iのサブバンドのローカルピーク対平均比率を表し、h(i)は、P-1以下である。
短期ピークエネルギー変動を以下の式を使用して決定し得る。
dev(i)=(2*e(i))/(e1+e2) 式1.4
ここで、e(i)は、現在のオーディオフレームのQ個のサブバンドにおける第iのサブバンドのピークエネルギーを表し、e1およびe2は、現在のオーディオフレームの前のオーディオフレームの特定の周波数帯のピークエネルギーを表す。特に、現在のオーディオフレームが第Mのオーディオフレームであると仮定すると、現在のオーディオフレームの第iのサブバンドのピークエネルギーが存在するスペクトル包絡が決定される。ピークエネルギーが存在するスペクトル包絡がi1であると仮定する。第(M-1)のオーディオフレームにおける第(i1-t)のスペクトル包絡から第(i1+t)のスペクトル包絡までの範囲内のピークエネルギーが決定され、ピークエネルギーはe1である。同様に、第(M-2)のオーディオフレームにおける第(i1-t)のスペクトル包絡から第(i1+t)のスペクトル包絡までの範囲内のピークエネルギーが決定され、ピークエネルギーはe2である。
第11のプリセット値、第12のプリセット値、および第13のプリセット値をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切なプリセット値をシミュレーション実験により決定してもよい。
必要に応じて、別の実施形態においては、帯域制限スパース性を使用することによって、適切な符号化方法が現在のオーディオフレームに対して選択され得る。この場合には、スペクトルにおけるエネルギーの分布のスパース性は、スペクトルにおけるエネルギーの分布の帯域制限スパース性を含む。この場合には、N個の入力オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を決定するステップは、N個のオーディオフレームの各々の境界周波数を決定するステップと、各N個のオーディオフレームの境界周波数に従って帯域制限スパース性パラメータを決定するステップを含む。帯域制限スパース性パラメータは、N個のオーディオフレームの境界周波数の平均値であり得る。例えば、第NiのオーディオフレームはN個のオーディオフレームの任意の1つであり、第Niのオーディオフレームの周波数範囲はFbからFeまでとする、ここで、FbはFe未満である。開始周波数がFbであると仮定すると、第Niのオーディオフレームの境界周波数を決定するための方法はFbから開始して周波数Fsを探索することであり得る、ここで、Fsは、第Niのオーディオフレームの総エネルギーに対するFbからFsまでのエネルギー合計の比率が少なくとも第4のプリセット比率であり、第Niのオーディオフレームの総エネルギーに対するFbからFs未満の任意の周波数までのエネルギー合計の比率が第4のプリセット比率未満であり、Fsが第Niのオーディオフレームの境界周波数である、という条件を満たす。前述の境界周波数決定ステップが、N個のオーディオフレームの各々に対して行われる。このように、N個のオーディオフレームのN個の境界周波数を取得してもよい。N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って、現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、オーディオフレームの帯域制限スパース性パラメータが第14のプリセット値未満であると決定された場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するステップを含む。
第4のプリセット比率および第14のプリセット値をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切なプリセット値およびプリセット比率をシミュレーション実験に従って決定してもよい。一般的に、1未満であるが1に近い数値、例えば、95%または99%が、第4のプリセット比率の値として選択される。第14のプリセット値の選択については、相対的に高い周波数に相当する数値は、一般的に選択しない。例えば、いくつかの実施形態においては、オーディオフレームの周波数範囲が0Hzから8kHzである場合には、5kHzの周波数未満の数値が第14のプリセット値として選択され得る。
例えば、現在のオーディオフレームのP個のスペクトル包絡の各々のエネルギーを決定し得るし、境界周波数を、境界周波数未満であるエネルギーが現在のオーディオフレームの総エネルギーにおいて占める比率が第4のプリセット比率となる形で、低周波から高周波まで探索する。Nが1であると仮定すると、現在のオーディオフレームの境界周波数は、帯域制限スパース性パラメータである。Nが1より大きい整数であると仮定すると、N個のオーディオフレームの境界周波数の平均値が帯域制限スパース性パラメータであると決定される。上述した境界周波数決定が例にすぎないことを、当業者は理解されよう。あるいは、境界周波数決定方法は、境界周波数を高周波から低周波まで探索することであってもよいし、または、別の方法であってもよい。
さらに、第1の符号化方法と第2の符号化方法との間の頻繁な切り替えを回避するために、ハングオーバ期間をさらに設定してもよい。ハングオーバ期間中のオーディオフレームについては、ハングオーバ期間の開始時点におけるオーディオフレームに対して使用されている符号化方法を使用し得る。このように、異なる符号化方法間の頻繁な切り替えによって生じる切り替え品質の低下を回避することができる。
ハングオーバ期間のハングオーバ長がLである場合には、現在のオーディオフレームの後のL個のオーディオフレームのすべてが現在のオーディオフレームのハングオーバ期間に属する。ハングオーバ期間に属するオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性がハングオーバ期間の開始時点におけるオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性と異なる場合でも、ハングオーバ期間の開始時点におけるオーディオフレームに対して使用されるものと同一の符号化方法を使用してオーディオフレームをそのまま符号化する。
ハングオーバ期間長が0になるまで、ハングオーバ期間長は、ハングオーバ期間中のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って更新され得る。
例えば、第Iのオーディオフレームに対して第1の符号化方法を使用すると決定され且つプリセットハングオーバ期間の長さがLである場合には、第1の符号化方法が第(I+1)のオーディオフレームから第(I+L)のオーディオフレームに対して使用される。その後、第(I+1)のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性が決定され、ハングオーバ期間が、第(I+1)のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って再計算される。第(I+1)のオーディオフレームが第1の符号化方法を使用する条件をまだ満たしている場合には、その後のハングオーバ期間はプリセットハングオーバ期間Lのままである。すなわち、ハングオーバ期間は、第(L+2)のオーディオフレームから開始して第(I+1+L)のオーディオフレームまでとなる。第(I+1)のオーディオフレームが第1の符号化方法を使用する条件を満たしていない場合には、ハングオーバ期間は、第(I+1)のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って再決定される。例えば、ハングオーバ期間がL-L1であると再決定される、ここで、L1はL以下の正の整数である。L1がLに等しくなると、ハングオーバ期間長は0に更新される。この場合には、符号化方法は、第(I+1)のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って再決定される。L1がL未満の整数である場合には、符号化方法は、第(I+1+L-L1)のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って再決定される。しかしながら、第(I+1)のオーディオフレームは第Iのオーディオフレームのハングオーバ期間中にあるため、第(I+1)のオーディオフレームは、第1の符号化方法を使用してそのまま符号化される。L1をハングオーバ更新パラメータと称してもよく、ハングオーバ更新パラメータの値は、入力オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って決定され得る。このように、ハングオーバ期間更新は、オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に関連している。
例えば、一般スパース性パラメータが決定され、一般スパース性パラメータが第1の最小帯域幅である場合には、ハングオーバ期間は、オーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅に従って、再決定され得る。第1の符号化方法を使用して第Iのオーディオフレームを符号化すると決定され、プリセットハングオーバ期間がLであると仮定する。H個の連続オーディオフレームの各々の第1のプリセット比率のエネルギーの、スペクトルに分布している、第(I+1)のオーディオフレームを含む最小帯域幅を決定する、ここで、Hは0より大きい正の整数である。第(I+1)のオーディオフレームが第1の符号化方法を使用する条件を満たしていない場合には、第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅が第15のプリセット値未満である、オーディオフレームの数量(前記数量を第1のハングオーバパラメータと簡潔に称する)を決定する。第(L+1)のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅が第16のプリセット値より大きく第17のプリセット値未満である場合には、第1のハングオーバパラメータは、第18のプリセット値未満であり、ハングオーバ期間長から1を減算する、すなわち、ハングオーバ更新パラメータは1である。第16のプリセット値は、第1のプリセット値より大きい。第(L+1)のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅が第17のプリセット値より大きく第19のプリセット値未満である場合には、第1のハングオーバパラメータは、第18のプリセット値未満であり、ハングオーバ期間長から2を減算する、すなわち、ハングオーバ更新パラメータは2である。第(L+1)のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅が第19のプリセット値より大きい場合には、ハングオーバ期間を0に設定する。第1のハングオーバパラメータおよび第(L+1)のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅が第16のプリセット値から第19のプリセット値のうちの1つまたは複数を満たしていない場合には、ハングオーバ期間は変化しないままである。
プリセットハングオーバ期間を実際の状況に応じて設定してもよいし、ハングオーバ更新パラメータも実際の状況に応じて調整してもよいことを、当業者は理解されよう。異なるハングオーバ期間を設定し得るように、第15のプリセット値から第19のプリセット値を実際の状況に応じて調整してもよい。
同様に、一般スパース性パラメータが第2の最小帯域幅および第3の最小帯域幅を含む、または、一般スパース性パラメータが第1のエネルギー比率を含む、または、一般スパース性パラメータが第2のエネルギー比率および第3のエネルギー比率を含む場合には、対応するプリセットハングオーバ期間、対応するハングオーバ更新パラメータ、およびハングオーバ更新パラメータを決定するために使用される関連パラメータが設定されてもよく、その結果、対応するハングオーバ期間を決定することができ、符号化方法間の頻繁な切り替えを回避している。
符号化方法がバーストスパース性に従って決定される(すなわち、前記符号化方法が、オーディオフレームのエネルギーの、スペクトルにおける、分布のグローバルスパース性、ローカルスパース性、および短期バースト性に従って決定される)場合には、対応するハングオーバ期間、対応するハングオーバ更新パラメータ、およびハングオーバ更新パラメータを決定するために使用される関連パラメータを設定して、符号化方法間の頻繁な切り替えを回避し得る。この場合には、ハングオーバ期間は、一般スパース性パラメータのケースにおいて設定されるハングオーバ期間未満となり得る。
符号化方法をスペクトルにおけるエネルギーの分布の帯域制限特性に従って決定する際に、対応するハングオーバ期間、対応するハングオーバ更新パラメータ、およびハングオーバ更新パラメータを決定するために使用される関連パラメータを設定して、符号化方法間の頻繁な切り替えを回避し得る。例えば、すべてのスペクトル包絡のエネルギーに対する入力オーディオフレームの低スペクトル包絡のエネルギーの比率を計算してもよく、ハングオーバ更新パラメータを比率に従って決定する。特に、すべてのスペクトル包絡のエネルギーに対する低スペクトル包絡のエネルギーの比率を以下の式を使用して決定し得る。
Figure 0006426211
ここで、Rlowは、すべてのスペクトル包絡のエネルギーに対する低スペクトル包絡のエネルギーの比率を示し、s(k)は、第kのスペクトル包絡のエネルギーを示し、yは、低周波数帯域の最高スペクトル包絡のインデックスを表し、Pは、オーディオフレームが合計P個のスペクトル包絡に分割されることを示す。この場合には、Rlowが第20のプリセット値より大きい場合には、ハングオーバ更新パラメータは0である。さもなければ、Rlowが第21のプリセット値より大きい場合には、ハングオーバ更新パラメータは、比較的小さな値を有し得る、ここで、第20のプリセット値は、第21のプリセット値より大きい。Rlowが第21のプリセット値より大きくない場合には、ハングオーバパラメータは、比較的大きな値を有し得る。第20のプリセット値および第21のプリセット値をシミュレーション実験に従って決定してもよいし、ハングオーバ更新パラメータの値も実験に従って決定してもよいことを、当業者は理解されよう。一般的に、過度に小さい比率である数値は、第21のプリセット値として一般的に選択しない。例えば、50%より大きい数値が、一般的に選択され得る。第20のプリセット値は、第21のプリセット値と1との間の範囲である。
加えて、符号化方法をスペクトルにおけるエネルギーの分布の帯域制限特性に従って決定する際に、入力オーディオフレームの境界周波数をさらに決定し得るし、ハングオーバ更新パラメータを境界周波数に従って決定する、ここで、境界周波数は、帯域制限スパース性パラメータを決定するために使用される境界周波数とは異なり得る。境界周波数が第22のプリセット値未満である場合には、ハングオーバ更新パラメータは0である。さもなければ、境界周波数が第23のプリセット値未満である場合には、ハングオーバ更新パラメータは、比較的小さな値を有する。第23のプリセット値は、第22のプリセット値より大きい。境界周波数が第23のプリセット値より大きい場合には、ハングオーバ更新パラメータは、比較的大きな値を有し得る。第22のプリセット値および第23のプリセット値をシミュレーション実験に従って決定してもよいし、ハングオーバ更新パラメータの値も実験に従って決定してもよいことを、当業者は理解されよう。一般的に、相対的に高い周波数に相当する数値は、第23のプリセット値として選択しない。例えば、オーディオフレームの周波数範囲が0Hzから8kHzである場合には、5kHzの周波数未満の数値が第23のプリセット値として選択され得る。
図2は、本発明の実施形態による、装置の構造的ブロック図である。図2に示した装置200は、図1中のステップを行い得る。図2に示したように、装置200は、取得ユニット201および決定ユニット202を備える。
取得ユニット201は、N個のオーディオフレームを取得するように構成される、ここで、N個のオーディオフレームは、現在のオーディオフレームを含み、Nは正の整数である。
決定ユニット202は、取得ユニット201によって取得したN個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を決定するように構成される。
決定ユニット202は、N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って、現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するようにさらに構成され、第1の符号化方法は、時間-周波数変換および変換係数量子化に基づくとともに線形予測には基づかない符号化方法であり、第2の符号化方法は、線形予測ベースの符号化方法である。
図2に示した装置に従って、オーディオフレームを符号化する際に、オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を考慮しており、このことが、符号化の複雑度を低減することを可能にするとともに符号化が比較的高精度であることを保証することを可能としている。
オーディオフレームにとって適切な符号化方法の選択中に、オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性が考慮され得る。オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性には3つのタイプ、一般スパース性、バーストスパース性、および帯域制限スパース性が存在し得る。
必要に応じて、ある実施形態においては、一般スパース性を使用することによって、適切な符号化方法が現在のオーディオフレームに対して選択され得る。この場合には、決定ユニット202は、N個のオーディオフレームの各々のスペクトルをP個のスペクトル包絡に分割し、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するように特に構成され、Pは正の整数であり、一般スパース性パラメータは、N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を示す。
特に、N個の入力された連続オーディオフレームの特定の比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、一般スパース性として定義され得る。より小さな帯域幅ほどより強い一般スパース性を示し、より大きな帯域幅ほどより弱い一般スパース性を示す。換言すれば、より強い一般スパース性ほどオーディオフレームのエネルギーがより集中していることを示し、より弱い一般スパース性ほどオーディオフレームのエネルギーがより散在していることを示す。第1の符号化方法を使用して一般スパース性が相対的に強いオーディオフレームを符号化すると効率は高くなる。したがって、オーディオフレームを符号化するために、適切な符号化方法が、オーディオフレームの一般スパース性を決定することによって選択され得る。オーディオフレームの一般スパース性を決定することを支援するために、一般スパース性を量子化して一般スパース性パラメータを取得してもよい。必要に応じて、Nが1である場合には、一般スパース性は、現在のオーディオフレームの特定の比率のエネルギーの、スペクトルに分布している、最小帯域幅となる。
必要に応じて、ある実施形態においては、一般スパース性パラメータは、第1の最小帯域幅を含む。この場合には、決定ユニット202は、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って、N個のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するように特に構成され、N個のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、第1の最小帯域幅である。決定ユニット202は、第1の最小帯域幅が第1のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第1の最小帯域幅が第1のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するように特に構成される。
第1のプリセット値および第1のプリセット比率をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法または第2の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切な第1のプリセット値および第1のプリセット比率をシミュレーション実験により決定してもよい。
決定ユニット202は、降順で各オーディオフレームのP個のスペクトル包絡のエネルギーをソートし、N個のオーディオフレームの各々のP個のスペクトル包絡の、降順でソートした、エネルギーに従って、N個のオーディオフレームの各々の第1のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を決定し、N個のオーディオフレームの各々の第1のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅に従って、N個のオーディオフレームの第1のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するように特に構成される。例えば、取得ユニット201によって取得したオーディオ信号は、16kHzでサンプリングされた広帯域信号であり、取得したオーディオ信号は、20msのフレームにおいて取得される。信号の各フレームは、320個の時間領域のサンプリング点である。決定ユニット202は、時間-周波数変換を時間領域信号に対して行って、例えば、高速フーリエ変換(Fast Fourier Transformation、FFT)により時間-周波数変換を行って、160個のスペクトル包絡S(k)、すなわち、160個のFFTエネルギースペクトル係数を取得し得る、ここで、k=0、1、2、…、159である。決定ユニット202は、帯域幅におけるエネルギーがフレームの総エネルギーにおいて占める比率が第1のプリセット比率となる形で、最小帯域幅をスペクトル包絡S(k)から探し出し得る。特に、決定ユニット202は、降順でスペクトル包絡S(k)における周波数ビンのエネルギーを順次累積し、各回の累積後に得られるエネルギーをオーディオフレームの総エネルギーと比較し、比率が第1のプリセット比率より大きい場合には、蓄積プロセスを終了し得る、ここで、蓄積の回数が最小帯域幅である。例えば、第1のプリセット比率は90%であり、30回の累積の後に得られるエネルギー合計が総エネルギーにおいて占める比率が90%を超過する場合には、オーディオフレームの第1のプリセット比率を少なくとも占めるエネルギーの最小帯域幅が30であるとみなし得る。決定ユニット202は、N個のオーディオフレームの各々に対して前述の最小帯域幅決定プロセスを実行して、現在のオーディオフレームを含むN個のオーディオフレームの第1のプリセット比率を少なくとも占めるエネルギーの最小帯域幅を別々に決定し得る。決定ユニット202は、N個のオーディオフレームの第1のプリセット比率を少なくとも占めるエネルギーの最小帯域幅の平均値を計算し得る。N個のオーディオフレームの第1のプリセット比率を少なくとも占めるエネルギーの最小帯域幅の平均値を第1の最小帯域幅と称してもよく、第1の最小帯域幅は、一般スパース性パラメータとして使用され得る。第1の最小帯域幅が第1のプリセット値未満である場合には、決定ユニット202は、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し得る。第1の最小帯域幅が第1のプリセット値より大きい場合には、決定ユニット202は、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定し得る。
必要に応じて、別の実施形態においては、一般スパース性パラメータは、第1のエネルギー比率を含み得る。この場合には、決定ユニット202は、P1個のスペクトル包絡をN個のオーディオフレームの各々のP個のスペクトル包絡から選択し、N個のオーディオフレームの各々のP1個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第1のエネルギー比率を決定するように特に構成され、P1はP未満の正の整数である。決定ユニット202は、第1のエネルギー比率が第2のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第1のエネルギー比率が第2のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するように特に構成される。必要に応じて、ある実施形態においては、Nが1である場合には、N個のオーディオフレームは、現在のオーディオフレームであり、決定ユニット202は、現在のオーディオフレームのP1個のスペクトル包絡のエネルギーおよび現在のオーディオフレームの総エネルギーに従って第1のエネルギー比率を決定するように特に構成される。決定ユニット202は、P個のスペクトル包絡のエネルギーに従ってP1個のスペクトル包絡を決定するように特に構成され、P1個のスペクトル包絡の任意の1つのエネルギーは、P1個のスペクトル包絡を除くP個のスペクトル包絡のうちの他のスペクトル包絡の任意の1つのエネルギーより大きい。
特に、決定ユニット202は、以下の式を使用して第1のエネルギー比率を計算し得る。
Figure 0006426211
ここで、R1は、第1のエネルギー比率を表し、EP1(n)は、第nのオーディオフレームにおけるP1個の選択されたスペクトル包絡のエネルギー合計を表し、Eall(n)は、第nのオーディオフレームの総エネルギーを表し、r(n)は、N個のオーディオフレームのうちの第nのオーディオフレームのP1個のスペクトル包絡のエネルギーがオーディオフレームの総エネルギーにおいて占める比率を表す。
第2のプリセット値およびP1個のスペクトル包絡の選択をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法または第2の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切な第2のプリセット値、P1の適切な値、およびP1個のスペクトル包絡を選択するための適切な方法をシミュレーション実験により決定してもよい。必要に応じて、ある実施形態においては、P1個のスペクトル包絡は、P個のスペクトル包絡のうちの最大のエネルギーを有するP1個のスペクトル包絡であり得る。
例えば、取得ユニット201によって取得したオーディオ信号は、16kHzでサンプリングされた広帯域信号であり、取得したオーディオ信号は、20msのフレームにおいて取得される。信号の各フレームは、320個の時間領域のサンプリング点である。決定ユニット202は、時間-周波数変換を時間領域信号に対して行って、例えば、高速フーリエ変換により時間-周波数変換を行って、160個のスペクトル包絡S(k)を取得し得る、ここで、k=0、1、2、…、159である。決定ユニット202は、P1個のスペクトル包絡を160個のスペクトル包絡から選択し、P1個のスペクトル包絡のエネルギー合計がオーディオフレームの総エネルギーにおいて占める比率を計算し得る。決定ユニット202は、N個のオーディオフレームの各々に対して前述のプロセスを実行し得る、すなわち、N個のオーディオフレームの各々のP1個のスペクトル包絡のエネルギー合計がそれぞれの総エネルギーにおいて占める比率を計算し得る。決定ユニット202は、比率の平均値を計算し得る。比率の平均値は、第1のエネルギー比率である。第1のエネルギー比率が第2のプリセット値より大きい場合には、決定ユニット202は、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し得る。第1のエネルギー比率が第2のプリセット値未満である場合には、決定ユニット202は、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定し得る。P1個のスペクトル包絡は、P個のスペクトル包絡のうちの最大のエネルギーを有するP1個のスペクトル包絡であり得る。すなわち、決定ユニット202は、N個のオーディオフレームの各々のP個のスペクトル包絡から、最大のエネルギーを有するP1個のスペクトル包絡を決定するように特に構成される。必要に応じて、ある実施形態においては、P1の値は20であり得る。
必要に応じて、別の実施形態においては、一般スパース性パラメータは、第2の最小帯域幅および第3の最小帯域幅を含み得る。この場合には、決定ユニット202は、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って、N個のオーディオフレームの第2のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するとともに、N個のオーディオフレームの第3のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するように特に構成され、N個のオーディオフレームの第2のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、第2の最小帯域幅として使用され、N個のオーディオフレームの第3のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、第3の最小帯域幅として使用され、第2のプリセット比率は、第3のプリセット比率未満である。決定ユニット202は、第2の最小帯域幅が第3のプリセット値未満且つ第3の最小帯域幅が第4のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第3の最小帯域幅が第5のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第3の最小帯域幅が第6のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するように特に構成される。必要に応じて、ある実施形態においては、Nが1である場合には、N個のオーディオフレームは、現在のオーディオフレームである。決定ユニット202は、現在のオーディオフレームの第2のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅を第2の最小帯域幅として決定し得る。決定ユニット202は、現在のオーディオフレームの第3のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅を第3の最小帯域幅として決定し得る。
第3のプリセット値、第4のプリセット値、第5のプリセット値、第6のプリセット値、第2のプリセット比率、および第3のプリセット比率をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法または第2の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切なプリセット値およびプリセット比率をシミュレーション実験により決定してもよい。
決定ユニット202は、降順で各オーディオフレームのP個のスペクトル包絡のエネルギーをソートし、N個のオーディオフレームの各々のP個のスペクトル包絡の、降順でソートした、エネルギーに従って、N個のオーディオフレームの各々の第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を決定し、N個のオーディオフレームの各々の第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅に従って、N個のオーディオフレームの第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定し、N個のオーディオフレームの各々のP個のスペクトル包絡の、降順でソートした、エネルギーに従って、N個のオーディオフレームの各々の第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を決定し、N個のオーディオフレームの各々の第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅に従って、N個のオーディオフレームの第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するように特に構成される。例えば、取得ユニット201によって取得したオーディオ信号は、16kHzでサンプリングされた広帯域信号であり、取得したオーディオ信号は、20msのフレームにおいて取得される。信号の各フレームは、320個の時間領域のサンプリング点である。決定ユニット202は、時間-周波数変換を時間領域信号に対して行って、例えば、高速フーリエ変換により時間-周波数変換を行って、160個のスペクトル包絡S(k)を取得し得る、ここで、k=0、1、2、…、159である。決定ユニット202は、帯域幅におけるエネルギーがフレームの総エネルギーにおいて占める比率が少なくとも第2のプリセット比率となる形で、最小帯域幅をスペクトル包絡S(k)から探し出し得る。決定ユニット202は、帯域幅におけるエネルギーが総エネルギーにおいて占める比率が少なくとも第3のプリセット比率となる形で、帯域幅をスペクトル包絡S(k)から継続して探し出し得る。特に、決定ユニット202は、降順でスペクトル包絡S(k)における周波数ビンのエネルギーを順次累積し得る。各回の累積後に得られるエネルギーをオーディオフレームの総エネルギーと比較して、比率が第2のプリセット比率より大きい場合には、累積の回数が、少なくとも第2のプリセット比率である最小帯域幅である。決定ユニット202は、累積を継続し得る。オーディオフレームの総エネルギーに対する累積後に得られるエネルギーの比率が第3のプリセット比率より大きい場合には、累積を終了し、累積の回数が、少なくとも第3のプリセット比率である最小帯域幅である。例えば、第2のプリセット比率は85%であり、第3のプリセット比率は95%である。30回の累積の後に得られるエネルギー合計が総エネルギーにおいて占める比率が85%を超過する場合には、オーディオフレームの第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅が30であるとみなし得る。累積を継続し、35回の累積の後に得られるエネルギー合計が総エネルギーにおいて占める比率が95%である場合には、オーディオフレームの第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅が35であるとみなし得る。決定ユニット202は、N個のオーディオフレームの各々に対して前述のプロセスを実行し得る。決定ユニット202は、現在のオーディオフレームを含むN個のオーディオフレームの第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅および現在のオーディオフレームを含むN個のオーディオフレームの第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を別々に決定し得る。N個のオーディオフレームの第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値が、第2の最小帯域幅である。N個のオーディオフレームの第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値が、第3の最小帯域幅である。第2の最小帯域幅が第3のプリセット値未満且つ第3の最小帯域幅が第4のプリセット値未満である場合には、決定ユニット202は、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し得る。第3の最小帯域幅が第5のプリセット値未満である場合には、決定ユニット202は、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し得る。第3の最小帯域幅が第1のプリセット値より大きい場合には、決定ユニット202は、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定し得る。
必要に応じて、別の実施形態においては、一般スパース性パラメータは、第2のエネルギー比率および第3のエネルギー比率を含む。この場合には、決定ユニット202は、P2個のスペクトル包絡をN個のオーディオフレームの各々のP個のスペクトル包絡から選択し、N個のオーディオフレームの各々のP2個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第2のエネルギー比率を決定し、P3個のスペクトル包絡をN個のオーディオフレームの各々のP個のスペクトル包絡から選択し、N個のオーディオフレームの各々のP3個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第3のエネルギー比率を決定するように特に構成され、P2およびP3はP未満の正の整数であり、P2はP3未満である。決定ユニット202は、第2のエネルギー比率が第7のプリセット値より大きく且つ第3のエネルギー比率が第8のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第2のエネルギー比率が第9のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第3のエネルギー比率が第10のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するように特に構成される。必要に応じて、ある実施形態においては、Nが1である場合には、N個のオーディオフレームは、現在のオーディオフレームである。決定ユニット202は、現在のオーディオフレームのP2個のスペクトル包絡のエネルギーおよび現在のオーディオフレームの総エネルギーに従って第2のエネルギー比率を決定し得る。決定ユニット202は、現在のオーディオフレームのP3個のスペクトル包絡のエネルギーおよび現在のオーディオフレームの総エネルギーに従って第3のエネルギー比率を決定し得る。
P2およびP3の値、第7のプリセット値、第8のプリセット値、第9のプリセット値、ならびに第10のプリセット値をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法または第2の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切なプリセット値をシミュレーション実験により決定してもよい。必要に応じて、ある実施形態においては、決定ユニット202は、N個のオーディオフレームの各々のP個のスペクトル包絡から、最大のエネルギーを有するP2個のスペクトル包絡を決定し、N個のオーディオフレームの各々のP個のスペクトル包絡から、最大のエネルギーを有するP3個のスペクトル包絡を決定するように特に構成される。
例えば、取得ユニット201によって取得したオーディオ信号は、16kHzでサンプリングされた広帯域信号であり、取得したオーディオ信号は、20msのフレームにおいて取得される。信号の各フレームは、320個の時間領域のサンプリング点である。決定ユニット202は、時間-周波数変換を時間領域信号に対して行って、例えば、高速フーリエ変換により時間-周波数変換を行って、160個のスペクトル包絡S(k)を取得し得る、ここで、k=0、1、2、…、159である。決定ユニット202は、P2個のスペクトル包絡を160個のスペクトル包絡から選択し、P2個のスペクトル包絡のエネルギー合計がオーディオフレームの総エネルギーにおいて占める比率を計算し得る。決定ユニット202は、N個のオーディオフレームの各々に対して前述のプロセスを実行し得る、すなわち、N個のオーディオフレームの各々のP2個のスペクトル包絡のエネルギー合計がそれぞれの総エネルギーにおいて占める比率を計算し得る。決定ユニット202は、比率の平均値を計算し得る。比率の平均値は、第2のエネルギー比率である。決定ユニット202は、P3個のスペクトル包絡を160個のスペクトル包絡から選択し、P3個のスペクトル包絡のエネルギー合計がオーディオフレームの総エネルギーにおいて占める比率を計算し得る。決定ユニット202は、N個のオーディオフレームの各々に対して前述のプロセスを実行し得る、すなわち、N個のオーディオフレームの各々のP3個のスペクトル包絡のエネルギー合計がそれぞれの総エネルギーにおいて占める比率を計算し得る。決定ユニット202は、比率の平均値を計算し得る。比率の平均値は、第3のエネルギー比率である。第2のエネルギー比率が第7のプリセット値より大きく且つ第3のエネルギー比率が第8のプリセット値より大きい場合には、決定ユニット202は、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し得る。第2のエネルギー比率が第9のプリセット値より大きい場合には、決定ユニット202は、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し得る。第3のエネルギー比率が第10のプリセット値未満である場合には、決定ユニット202は、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定し得る。P2個のスペクトル包絡は、P個のスペクトル包絡のうちの最大のエネルギーを有するP2個のスペクトル包絡であり得るし、P3個のスペクトル包絡は、P個のスペクトル包絡のうちの最大のエネルギーを有するP3個のスペクトル包絡であり得る。必要に応じて、ある実施形態においては、P2の値は20であり得るし、P3の値は30であり得る。
必要に応じて、別の実施形態においては、バーストスパース性を使用することによって、適切な符号化方法が現在のオーディオフレームに対して選択され得る。バーストスパース性については、オーディオフレームのエネルギーの、スペクトルにおける、分布のグローバルスパース性、ローカルスパース性、および短期バースト性を考慮する必要がある。この場合には、スペクトルにおけるエネルギーの分布のスパース性は、スペクトルにおける、エネルギーの分布のグローバルスパース性、ローカルスパース性、および短期バースト性を含み得る。この場合には、Nの値は1であり得、N個のオーディオフレームは現在のオーディオフレームである。決定ユニット202は、現在のオーディオフレームのスペクトルをQ個のサブバンドに分割して、現在のオーディオフレームのスペクトルのQ個のサブバンドの各々のピークエネルギーに従ってバーストスパース性パラメータを決定するように特に構成され、バーストスパース性パラメータは、現在のオーディオフレームのグローバルスパース性、ローカルスパース性、および短期バースト性を示すために使用される。
特に、決定ユニット202は、Q個のサブバンドの各々のグローバルピーク対平均比率、Q個のサブバンドの各々のローカルピーク対平均比率、およびQ個のサブバンドの各々の短期エネルギー変動を決定するように特に構成され、グローバルピーク対平均比率は、サブバンドにおけるピークエネルギーおよび現在のオーディオフレームのサブバンドすべての平均エネルギーに従って決定ユニット202によって決定され、ローカルピーク対平均比率は、サブバンドにおけるピークエネルギーおよびサブバンドにおける平均エネルギーに従って決定ユニット202によって決定され、短期ピークエネルギー変動は、サブバンドにおけるピークエネルギーおよび前記オーディオフレームの前のオーディオフレームの特定の周波数帯におけるピークエネルギーに従って決定される。Q個のサブバンドの各々のグローバルピーク対平均比率、Q個のサブバンドの各々のローカルピーク対平均比率、およびQ個のサブバンドの各々の短期エネルギー変動は、グローバルスパース性、ローカルスパース性、および短期バースト性をそれぞれ表す。決定ユニット202は、Q個のサブバンド内に第1のサブバンドが存在しているかどうかを決定することであって、第1のサブバンドのローカルピーク対平均比率は、第11のプリセット値より大きく、第1のサブバンドのグローバルピーク対平均比率は、第12のプリセット値より大きく、第1のサブバンドの短期ピークエネルギー変動は、第13のプリセット値より大きい、決定することをし、Q個のサブバンド内に第1のサブバンドが存在している場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するように特に構成される。
特に、決定ユニット202は、以下の式を使用してグローバルピーク対平均比率を計算し得る。
Figure 0006426211
ここで、e(i)は、Q個のサブバンドにおける第iのサブバンドのピークエネルギーを表し、s(k)は、P個のスペクトル包絡のうちの第kのスペクトル包絡のエネルギーを表し、p2s(i)は、第iのサブバンドのグローバルピーク対平均比率を表す。
決定ユニット202は、以下の式を使用してローカルピーク対平均比率を計算し得る。
Figure 0006426211
ここで、e(i)は、Q個のサブバンドにおける第iのサブバンドのピークエネルギーを表し、s(k)は、P個のスペクトル包絡のうちの第kのスペクトル包絡のエネルギーを表し、h(i)は、第iのサブバンドに含まれるとともに最高周波数を有するスペクトル包絡のインデックスを表し、l(i)は、第iのサブバンドに含まれるとともに最低周波数を有するスペクトル包絡のインデックスを表し、p2a(i)は、第iのサブバンドのローカルピーク対平均比率を表し、h(i)は、P-1以下である。
決定ユニット202は、以下の式を使用して短期ピークエネルギー変動を計算し得る。
dev(i)=(2*e(i))/(e1+e2) 式1.9
ここで、e(i)は、現在のオーディオフレームのQ個のサブバンドにおける第iのサブバンドのピークエネルギーを表し、e1およびe2は、現在のオーディオフレームの前のオーディオフレームの特定の周波数帯のピークエネルギーを表す。特に、現在のオーディオフレームが第Mのオーディオフレームであると仮定すると、現在のオーディオフレームの第iのサブバンドのピークエネルギーが存在するスペクトル包絡が決定される。ピークエネルギーが存在するスペクトル包絡がi1であると仮定する。第(M-1)のオーディオフレームにおける第(i1-t)のスペクトル包絡から第(i1+t)のスペクトル包絡までの範囲内のピークエネルギーが決定され、ピークエネルギーはe1である。同様に、第(M-2)のオーディオフレームにおける第(i1-t)のスペクトル包絡から第(i1+t)のスペクトル包絡までの範囲内のピークエネルギーが決定され、ピークエネルギーはe2である。
第11のプリセット値、第12のプリセット値、および第13のプリセット値をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切なプリセット値をシミュレーション実験により決定してもよい。
必要に応じて、別の実施形態においては、帯域制限スパース性を使用することによって、適切な符号化方法が現在のオーディオフレームに対して選択され得る。この場合には、スペクトルにおけるエネルギーの分布のスパース性は、スペクトルにおけるエネルギーの分布の帯域制限スパース性を含む。この場合には、決定ユニット202は、N個のオーディオフレームの各々の境界周波数を決定するように特に構成される。決定ユニット202は、N個のオーディオフレームの各々の境界周波数に従って帯域制限スパース性パラメータを決定するように特に構成される。
第4のプリセット比率および第14のプリセット値をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切なプリセット値およびプリセット比率をシミュレーション実験に従って決定してもよい。
例えば、決定ユニット202は、現在のオーディオフレームのP個のスペクトル包絡の各々のエネルギーを決定し、境界周波数未満であるエネルギーが現在のオーディオフレームの総エネルギーにおいて占める比率が第4のプリセット比率となる形で、境界周波数を低周波から高周波まで探索し得る。帯域制限スパース性パラメータは、N個のオーディオフレームの境界周波数の平均値であり得る。この場合には、決定ユニット202は、オーディオフレームの帯域制限スパース性パラメータが第14のプリセット値未満であると決定された場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するように特に構成される。Nが1であると仮定すると、現在のオーディオフレームの境界周波数は、帯域制限スパース性パラメータである。Nが1より大きい整数であると仮定すると、決定ユニット202は、N個のオーディオフレームの境界周波数の平均値が帯域制限スパース性パラメータであると決定し得る。上述した境界周波数決定が例にすぎないことを、当業者は理解されよう。あるいは、境界周波数決定方法は、境界周波数を高周波から低周波まで探索することであってもよいし、または、別の方法であってもよい。
さらに、第1の符号化方法と第2の符号化方法との間の頻繁な切り替えを回避するために、決定ユニット202は、ハングオーバ期間を設定するようにさらに構成され得る。決定ユニット202は、ハングオーバ期間中のオーディオフレームについては、ハングオーバ期間の開始時点におけるオーディオフレームに対して使用されている符号化方法を使用するように構成され得る。このように、異なる符号化方法間の頻繁な切り替えによって生じる切り替え品質の低下を回避することができる。
ハングオーバ期間のハングオーバ長がLである場合には、決定ユニット202は、現在のオーディオフレームの後のL個のオーディオフレームのすべてが現在のオーディオフレームのハングオーバ期間に属すると決定するように構成され得る。ハングオーバ期間に属するオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性がハングオーバ期間の開始時点におけるオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性と異なる場合でも、決定ユニット202は、ハングオーバ期間の開始時点におけるオーディオフレームに対して使用されるものと同一の符号化方法を使用してオーディオフレームをそのまま符号化すると決定するように構成され得る。
ハングオーバ期間長が0になるまで、ハングオーバ期間長は、ハングオーバ期間中のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って更新され得る。
例えば、決定ユニット202が第Iのオーディオフレームに対して第1の符号化方法を使用すると決定し且つプリセットハングオーバ期間の長さがLである場合には、決定ユニット202は、第1の符号化方法が第(I+1)のオーディオフレームから第(I+L)のオーディオフレームに対して使用されると決定し得る。その後、決定ユニット202は、第(I+1)のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を決定し、第(I+1)のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従ってハングオーバ期間を再計算し得る。第(I+1)のオーディオフレームが第1の符号化方法を使用する条件をまだ満たしている場合には、決定ユニット202は、その後のハングオーバ期間はプリセットハングオーバ期間Lのままであると決定し得る。すなわち、ハングオーバ期間は、第(L+2)のオーディオフレームから開始して第(I+1+L)のオーディオフレームまでとなる。第(I+1)のオーディオフレームが第1の符号化方法を使用する条件を満たしていない場合には、決定ユニット202は、第(I+1)のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従ってハングオーバ期間を再決定し得る。例えば、決定ユニット202は、ハングオーバ期間がL-L1であると再決定し得る、ここで、L1はL以下の正の整数である。L1がLに等しくなると、ハングオーバ期間長は0に更新される。この場合には、決定ユニット202は、第(I+1)のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って符号化方法を再決定し得る。L1がL未満の整数である場合には、決定ユニット202は、第(I+1+L-L1)のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って符号化方法を再決定し得る。しかしながら、第(I+1)のオーディオフレームは第Iのオーディオフレームのハングオーバ期間中にあるため、第(I+1)のオーディオフレームは、第1の符号化方法を使用してそのまま符号化される。L1をハングオーバ更新パラメータと称してもよく、ハングオーバ更新パラメータの値は、入力オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って決定され得る。このように、ハングオーバ期間更新は、オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に関連している。
例えば、一般スパース性パラメータが決定され、一般スパース性パラメータが第1の最小帯域幅である場合には、決定ユニット202は、オーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅に従って、ハングオーバ期間を再決定し得る。第1の符号化方法を使用して第Iのオーディオフレームを符号化すると決定され、プリセットハングオーバ期間がLであると仮定する。決定ユニット202は、第(I+1)のオーディオフレームを含むH個の連続オーディオフレームの各々の第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅を決定し得る、ここで、Hは0より大きい正の整数である。第(I+1)のオーディオフレームが第1の符号化方法を使用する条件を満たしていない場合には、決定ユニット202は、第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅が第15のプリセット値未満である、オーディオフレームの数量(前記数量を第1のハングオーバパラメータと簡潔に称する)を決定し得る。第(L+1)のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅が第16のプリセット値より大きく第17のプリセット値未満である場合には、第1のハングオーバパラメータは、第18のプリセット値未満であり、決定ユニット202は、ハングオーバ期間長から1を減算し得る、すなわち、ハングオーバ更新パラメータは1である。第16のプリセット値は、第1のプリセット値より大きい。第(L+1)のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅が第17のプリセット値より大きく第19のプリセット値未満である場合には、第1のハングオーバパラメータは、第18のプリセット値未満であり、決定ユニット202は、ハングオーバ期間長から2を減算し得る、すなわち、ハングオーバ更新パラメータは2である。第(L+1)のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅が第19のプリセット値より大きい場合には、決定ユニット202は、ハングオーバ期間を0に設定し得る。第1のハングオーバパラメータおよび第(L+1)のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅が第16のプリセット値から第19のプリセット値のうちの1つまたは複数を満たしていない場合には、決定ユニット202は、ハングオーバ期間は変化しないままであると決定し得る。
プリセットハングオーバ期間を実際の状況に応じて設定してもよいし、ハングオーバ更新パラメータも実際の状況に応じて調整してもよいことを、当業者は理解されよう。異なるハングオーバ期間を設定し得るように、第15のプリセット値から第19のプリセット値を実際の状況に応じて調整してもよい。
同様に、一般スパース性パラメータが第2の最小帯域幅および第3の最小帯域幅を含む、または、一般スパース性パラメータが第1のエネルギー比率を含む、または、一般スパース性パラメータが第2のエネルギー比率および第3のエネルギー比率を含む場合には、決定ユニット202は、対応するプリセットハングオーバ期間、対応するハングオーバ更新パラメータ、およびハングオーバ更新パラメータを決定するために使用される関連パラメータを設定してもよく、その結果、対応するハングオーバ期間を決定することができ、符号化方法間の頻繁な切り替えを回避している。
符号化方法がバーストスパース性に従って決定される(すなわち、前記符号化方法が、オーディオフレームのエネルギーの、スペクトルにおける、分布のグローバルスパース性、ローカルスパース性、および短期バースト性に従って決定される)場合には、決定ユニット202は、対応するハングオーバ期間、対応するハングオーバ更新パラメータ、およびハングオーバ更新パラメータを決定するために使用される関連パラメータを設定して、符号化方法間の頻繁な切り替えを回避し得る。この場合には、ハングオーバ期間は、一般スパース性パラメータのケースにおいて設定されるハングオーバ期間未満となり得る。
符号化方法をスペクトルにおけるエネルギーの分布の帯域制限特性に従って決定する際に、決定ユニット202は、対応するハングオーバ期間、対応するハングオーバ更新パラメータ、およびハングオーバ更新パラメータを決定するために使用される関連パラメータを設定して、符号化方法間の頻繁な切り替えを回避し得る。例えば、決定ユニット202は、すべてのスペクトル包絡のエネルギーに対する入力オーディオフレームの低スペクトル包絡のエネルギーの比率を計算し、比率に従ってハングオーバ更新パラメータを決定し得る。特に、決定ユニット202は、以下の式を使用して、すべてのスペクトル包絡のエネルギーに対する低スペクトル包絡のエネルギーの比率を決定し得る。
Figure 0006426211
ここで、Rlowは、すべてのスペクトル包絡のエネルギーに対する低スペクトル包絡のエネルギーの比率を示し、s(k)は、第kのスペクトル包絡のエネルギーを示し、yは、低周波数帯域の最高スペクトル包絡のインデックスを表し、Pは、オーディオフレームが合計P個のスペクトル包絡に分割されることを示す。この場合には、Rlowが第20のプリセット値より大きい場合には、ハングオーバ更新パラメータは0である。Rlowが第21のプリセット値より大きい場合には、ハングオーバ更新パラメータは、比較的小さな値を有し得る、ここで、第20のプリセット値は、第21のプリセット値より大きい。Rlowが第21のプリセット値より大きくない場合には、ハングオーバパラメータは、比較的大きな値を有し得る。第20のプリセット値および第21のプリセット値をシミュレーション実験に従って決定してもよいし、ハングオーバ更新パラメータの値も実験に従って決定してもよいことを、当業者は理解されよう。
加えて、符号化方法をスペクトルにおけるエネルギーの分布の帯域制限特性に従って決定する際に、決定ユニット202は、さらに、入力オーディオフレームの境界周波数を決定し、境界周波数に従ってハングオーバ更新パラメータを決定し得る、ここで、境界周波数は、帯域制限スパース性パラメータを決定するために使用される境界周波数とは異なり得る。境界周波数が第22のプリセット値未満である場合には、決定ユニット202は、ハングオーバ更新パラメータが0であると決定し得る。境界周波数が第23のプリセット値未満である場合には、決定ユニット202は、ハングオーバ更新パラメータが比較的小さな値であると決定し得る。境界周波数が第23のプリセット値より大きい場合には、決定ユニット202は、ハングオーバ更新パラメータが比較的大きな値を有し得ると決定し得る。第22のプリセット値および第23のプリセット値をシミュレーション実験に従って決定してもよいし、ハングオーバ更新パラメータの値も実験に従って決定してもよいことを、当業者は理解されよう。
図3は、本発明の実施形態による、装置の構造的ブロック図である。図3に示した装置300は、図1中のステップを行い得る。図3に示したように、装置300は、プロセッサ301およびメモリ302を備える。
装置300内のコンポーネントがバスシステム303を使用して接続されている。バスシステム303は、データバスに加えて、電源バス、制御バス、および状態信号バスをさらに備える。しかしながら、明確な説明をしやすくするために、すべてのバスを図3においてはバスシステム303として示している。
本発明の前述の実施形態において開示した方法は、プロセッサ301に適用され得る、または、プロセッサ301によって実施され得る。プロセッサ301は、集積回路チップであり得るし、信号処理能力を有する。実施形態のプロセスにおいては、方法のステップを、プロセッサ301内のハードウェアの集積論理回路またはソフトウェア形式の命令を使用して完遂してもよい。プロセッサ301は、汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)もしくは別のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタロジックデバイス、またはディスクリートハードウェアコンポーネントであってもよい。プロセッサ301は、本発明の実施形態において開示した、方法、ステップ、および論理ブロック図を実施または実行し得る。汎用プロセッサはマイクロプロセッサであってもよく、またはプロセッサは任意の共通のプロセッサなどであってもよい。本発明の実施形態を参照して開示した方法のステップを、ハードウェア復号プロセッサにより直接実行および完遂してもよい、または、復号プロセッサ内のハードウェアおよびソフトウェアモジュールの組合せを使用して実行または完遂してもよい。ソフトウェアモジュールは、ランダムアクセスメモリ(Random Access Memory、RAM)、フラッシュメモリ、リードオンリーメモリ(Read-Only Memory、ROM)、プログラマブルリードオンリーメモリもしくは電気的消去可能プログラマブルメモリ、またはレジスタなどの、従来技術において成熟した記憶媒体に存在し得る。記憶媒体は、メモリ302にある。プロセッサ301は、命令をメモリ302から読み込み、方法のステップをそのハードウェアと組み合わせて完遂する。
プロセッサ301は、N個のオーディオフレームを取得するように構成される、ここで、N個のオーディオフレームは、現在のオーディオフレームを含み、Nは正の整数である。
プロセッサ301は、プロセッサ301によって取得したN個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を決定するように構成される。
プロセッサ301は、N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って、現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するようにさらに構成され、第1の符号化方法は、時間-周波数変換および変換係数量子化に基づくとともに線形予測には基づかない符号化方法であり、第2の符号化方法は、線形予測ベースの符号化方法である。
図3に示した装置に従って、オーディオフレームを符号化する際に、オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を考慮しており、このことが、符号化の複雑度を低減することを可能にするとともに符号化が比較的高精度であることを保証することを可能としている。
オーディオフレームにとって適切な符号化方法の選択中に、オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性が考慮され得る。オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性には3つのタイプ、一般スパース性、バーストスパース性、および帯域制限スパース性が存在し得る。
必要に応じて、ある実施形態においては、一般スパース性を使用することによって、適切な符号化方法が現在のオーディオフレームに対して選択され得る。この場合には、プロセッサ301は、N個のオーディオフレームの各々のスペクトルをP個のスペクトル包絡に分割し、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するように特に構成され、Pは正の整数であり、一般スパース性パラメータは、N個のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を示す。
特に、N個の入力された連続オーディオフレームの特定の比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、一般スパース性として定義され得る。より小さな帯域幅ほどより強い一般スパース性を示し、より大きな帯域幅ほどより弱い一般スパース性を示す。換言すれば、より強い一般スパース性ほどオーディオフレームのエネルギーがより集中していることを示し、より弱い一般スパース性ほどオーディオフレームのエネルギーがより散在していることを示す。第1の符号化方法を使用して一般スパース性が相対的に強いオーディオフレームを符号化すると効率は高くなる。したがって、オーディオフレームを符号化するために、適切な符号化方法が、オーディオフレームの一般スパース性を決定することによって選択され得る。オーディオフレームの一般スパース性を決定することを支援するために、一般スパース性を量子化して一般スパース性パラメータを取得してもよい。必要に応じて、Nが1である場合には、一般スパース性は、現在のオーディオフレームの特定の比率のエネルギーの、スペクトルに分布している、最小帯域幅となる。
必要に応じて、ある実施形態においては、一般スパース性パラメータは、第1の最小帯域幅を含む。この場合には、プロセッサ301は、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って、N個のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するように特に構成され、N個のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、第1の最小帯域幅である。プロセッサ301は、第1の最小帯域幅が第1のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第1の最小帯域幅が第1のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するように特に構成される。
第1のプリセット値および第1のプリセット比率をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法または第2の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切な第1のプリセット値および第1のプリセット比率をシミュレーション実験により決定してもよい。
プロセッサ301は、降順で各オーディオフレームのP個のスペクトル包絡のエネルギーをソートし、N個のオーディオフレームの各々のP個のスペクトル包絡の、降順でソートした、エネルギーに従って、N個のオーディオフレームの各々の第1のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を決定し、N個のオーディオフレームの各々の第1のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅に従って、N個のオーディオフレームの第1のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するように特に構成される。例えば、プロセッサ301によって取得したオーディオ信号は、16kHzでサンプリングされた広帯域信号であり、取得したオーディオ信号は、30msのフレームにおいて取得される。信号の各フレームは、330個の時間領域のサンプリング点である。プロセッサ301は、時間-周波数変換を時間領域信号に対して行って、例えば、高速フーリエ変換(Fast Fourier Transformation、FFT)により時間-周波数変換を行って、130個のスペクトル包絡S(k)、すなわち、130個のFFTエネルギースペクトル係数を取得し得る、ここで、k=0、1、2、…、159である。プロセッサ301は、帯域幅におけるエネルギーがフレームの総エネルギーにおいて占める比率が第1のプリセット比率となる形で、最小帯域幅をスペクトル包絡S(k)から探し出し得る。特に、プロセッサ301は、降順でスペクトル包絡S(k)における周波数ビンのエネルギーを順次累積し、各回の累積後に得られるエネルギーをオーディオフレームの総エネルギーと比較し、比率が第1のプリセット比率より大きい場合には、蓄積プロセスを終了し得る、ここで、蓄積の回数が最小帯域幅である。例えば、第1のプリセット比率は90%であり、30回の累積の後に得られるエネルギー合計が総エネルギーにおいて占める比率が90%を超過する場合には、オーディオフレームの第1のプリセット比率を少なくとも占めるエネルギーの最小帯域幅が30であるとみなし得る。プロセッサ301は、N個のオーディオフレームの各々に対して前述の最小帯域幅決定プロセスを実行して、現在のオーディオフレームを含むN個のオーディオフレームの第1のプリセット比率を少なくとも占めるエネルギーの最小帯域幅を別々に決定し得る。プロセッサ301は、N個のオーディオフレームの第1のプリセット比率を少なくとも占めるエネルギーの最小帯域幅の平均値を計算し得る。N個のオーディオフレームの第1のプリセット比率を少なくとも占めるエネルギーの最小帯域幅の平均値を第1の最小帯域幅と称してもよく、第1の最小帯域幅は、一般スパース性パラメータとして使用され得る。第1の最小帯域幅が第1のプリセット値未満である場合には、プロセッサ301は、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し得る。第1の最小帯域幅が第1のプリセット値より大きい場合には、プロセッサ301は、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定し得る。
必要に応じて、別の実施形態においては、一般スパース性パラメータは、第1のエネルギー比率を含み得る。この場合には、プロセッサ301は、P1個のスペクトル包絡をN個のオーディオフレームの各々のP個のスペクトル包絡から選択し、N個のオーディオフレームの各々のP1個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第1のエネルギー比率を決定するように特に構成され、P1はP未満の正の整数である。プロセッサ301は、第1のエネルギー比率が第2のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第1のエネルギー比率が第2のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するように特に構成される。必要に応じて、ある実施形態においては、Nが1である場合には、N個のオーディオフレームは、現在のオーディオフレームであり、プロセッサ301は、現在のオーディオフレームのP1個のスペクトル包絡のエネルギーおよび現在のオーディオフレームの総エネルギーに従って第1のエネルギー比率を決定するように特に構成される。プロセッサ301は、P個のスペクトル包絡のエネルギーに従ってP1個のスペクトル包絡を決定するように特に構成され、P1個のスペクトル包絡の任意の1つのエネルギーは、P1個のスペクトル包絡を除くP個のスペクトル包絡のうちの他のスペクトル包絡の任意の1つのエネルギーより大きい。
特に、プロセッサ301は、以下の式を使用して第1のエネルギー比率を計算し得る。
Figure 0006426211
ここで、R1は、第1のエネルギー比率を表し、EP1(n)は、第nのオーディオフレームにおけるP1個の選択されたスペクトル包絡のエネルギー合計を表し、Eall(n)は、第nのオーディオフレームの総エネルギーを表し、r(n)は、N個のオーディオフレームのうちの第nのオーディオフレームのP1個のスペクトル包絡のエネルギーがオーディオフレームの総エネルギーにおいて占める比率を表す。
第2のプリセット値およびP1個のスペクトル包絡の選択をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法または第2の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切な第2のプリセット値、P1の適切な値、およびP1個のスペクトル包絡を選択するための適切な方法をシミュレーション実験により決定してもよい。必要に応じて、ある実施形態においては、P1個のスペクトル包絡は、P個のスペクトル包絡のうちの最大のエネルギーを有するP1個のスペクトル包絡であり得る。
例えば、プロセッサ301によって取得したオーディオ信号は、16kHzでサンプリングされた広帯域信号であり、取得したオーディオ信号は、30msのフレームにおいて取得される。信号の各フレームは、330個の時間領域のサンプリング点である。プロセッサ301は、時間-周波数変換を時間領域信号に対して行って、例えば、高速フーリエ変換により時間-周波数変換を行って、130個のスペクトル包絡S(k)を取得し得る、ここで、k=0、1、2、…、159である。プロセッサ301は、P1個のスペクトル包絡を130個のスペクトル包絡から選択し、P1個のスペクトル包絡のエネルギー合計がオーディオフレームの総エネルギーにおいて占める比率を計算し得る。プロセッサ301は、N個のオーディオフレームの各々に対して前述のプロセスを実行し得る、すなわち、N個のオーディオフレームの各々のP1個のスペクトル包絡のエネルギー合計がそれぞれの総エネルギーにおいて占める比率を計算し得る。プロセッサ301は、比率の平均値を計算し得る。比率の平均値は、第1のエネルギー比率である。第1のエネルギー比率が第2のプリセット値より大きい場合には、プロセッサ301は、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し得る。第1のエネルギー比率が第2のプリセット値未満である場合には、プロセッサ301は、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定し得る。P1個のスペクトル包絡は、P個のスペクトル包絡のうちの最大のエネルギーを有するP1個のスペクトル包絡であり得る。すなわち、プロセッサ301は、N個のオーディオフレームの各々のP個のスペクトル包絡から、最大のエネルギーを有するP1個のスペクトル包絡を決定するように特に構成される。必要に応じて、ある実施形態においては、P1の値は30であり得る。
必要に応じて、別の実施形態においては、一般スパース性パラメータは、第2の最小帯域幅および第3の最小帯域幅を含み得る。この場合には、プロセッサ301は、N個のオーディオフレームの各々のP個のスペクトル包絡のエネルギーに従って、N個のオーディオフレームの第2のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するとともに、N個のオーディオフレームの第3のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するように特に構成され、N個のオーディオフレームの第2のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、第2の最小帯域幅として使用され、N個のオーディオフレームの第3のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅の平均値は、第3の最小帯域幅として使用され、第2のプリセット比率は、第3のプリセット比率未満である。プロセッサ301は、第2の最小帯域幅が第3のプリセット値未満且つ第3の最小帯域幅が第4のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第3の最小帯域幅が第5のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第3の最小帯域幅が第6のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するように特に構成される。必要に応じて、ある実施形態においては、Nが1である場合には、N個のオーディオフレームは、現在のオーディオフレームである。プロセッサ301は、現在のオーディオフレームの第2のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅を第2の最小帯域幅として決定し得る。プロセッサ301は、現在のオーディオフレームの第3のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅を第3の最小帯域幅として決定し得る。
第3のプリセット値、第4のプリセット値、第5のプリセット値、第6のプリセット値、第2のプリセット比率、および第3のプリセット比率をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法または第2の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切なプリセット値およびプリセット比率をシミュレーション実験により決定してもよい。
プロセッサ301は、降順で各オーディオフレームのP個のスペクトル包絡のエネルギーをソートし、N個のオーディオフレームの各々のP個のスペクトル包絡の、降順でソートした、エネルギーに従って、N個のオーディオフレームの各々の第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を決定し、N個のオーディオフレームの各々の第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅に従って、N個のオーディオフレームの第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定し、N個のオーディオフレームの各々のP個のスペクトル包絡の、降順でソートした、エネルギーに従って、N個のオーディオフレームの各々の第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を決定し、N個のオーディオフレームの各々の第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅に従って、N個のオーディオフレームの第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値を決定するように特に構成される。例えば、プロセッサ301によって取得したオーディオ信号は、16kHzでサンプリングされた広帯域信号であり、取得したオーディオ信号は、30msのフレームにおいて取得される。信号の各フレームは、330個の時間領域のサンプリング点である。プロセッサ301は、時間-周波数変換を時間領域信号に対して行って、例えば、高速フーリエ変換により時間-周波数変換を行って、130個のスペクトル包絡S(k)を取得し得る、ここで、k=0、1、2、…、159である。プロセッサ301は、帯域幅におけるエネルギーがフレームの総エネルギーにおいて占める比率が少なくとも第2のプリセット比率となる形で、最小帯域幅をスペクトル包絡S(k)から探し出し得る。プロセッサ301は、帯域幅におけるエネルギーが総エネルギーにおいて占める比率が少なくとも第3のプリセット比率となる形で、帯域幅をスペクトル包絡S(k)から継続して探し出し得る。特に、プロセッサ301は、降順でスペクトル包絡S(k)における周波数ビンのエネルギーを順次累積し得る。各回の累積後に得られるエネルギーをオーディオフレームの総エネルギーと比較して、比率が第2のプリセット比率より大きい場合には、累積の回数が、少なくとも第2のプリセット比率である最小帯域幅である。プロセッサ301は、累積を継続し得る。オーディオフレームの総エネルギーに対する累積後に得られるエネルギーの比率が第3のプリセット比率より大きい場合には、累積を終了し、累積の回数が、少なくとも第3のプリセット比率である最小帯域幅である。例えば、第2のプリセット比率は85%であり、第3のプリセット比率は95%である。30回の累積の後に得られるエネルギー合計が総エネルギーにおいて占める比率が85%を超過する場合には、オーディオフレームの第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅が30であるとみなし得る。累積を継続し、35回の累積の後に得られるエネルギー合計が総エネルギーにおいて占める比率が95%である場合には、オーディオフレームの第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅が35であるとみなし得る。プロセッサ301は、N個のオーディオフレームの各々に対して前述のプロセスを実行し得る。プロセッサ301は、現在のオーディオフレームを含むN個のオーディオフレームの第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅および現在のオーディオフレームを含むN個のオーディオフレームの第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅を別々に決定し得る。N個のオーディオフレームの第2のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値が、第2の最小帯域幅である。N個のオーディオフレームの第3のプリセット比率を少なくとも占めるエネルギーの、スペクトルに分布している、最小帯域幅の平均値が、第3の最小帯域幅である。第2の最小帯域幅が第3のプリセット値未満且つ第3の最小帯域幅が第4のプリセット値未満である場合には、プロセッサ301は、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し得る。第3の最小帯域幅が第5のプリセット値未満である場合には、プロセッサ301は、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し得る。第3の最小帯域幅が第6のプリセット値より大きい場合には、プロセッサ301は、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定し得る。
必要に応じて、別の実施形態においては、一般スパース性パラメータは、第2のエネルギー比率および第3のエネルギー比率を含む。この場合には、プロセッサ301は、P2個のスペクトル包絡をN個のオーディオフレームの各々のP個のスペクトル包絡から選択し、N個のオーディオフレームの各々のP2個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第2のエネルギー比率を決定し、P3個のスペクトル包絡をN個のオーディオフレームの各々のP個のスペクトル包絡から選択し、N個のオーディオフレームの各々のP3個のスペクトル包絡のエネルギーおよびN個のオーディオフレームのそれぞれの総エネルギーに従って第3のエネルギー比率を決定するように特に構成され、P2およびP3はP未満の正の整数であり、P2はP3未満である。プロセッサ301は、第2のエネルギー比率が第7のプリセット値より大きく且つ第3のエネルギー比率が第8のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第2のエネルギー比率が第9のプリセット値より大きい場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し、第3のエネルギー比率が第10のプリセット値未満である場合には、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定するように特に構成される。必要に応じて、ある実施形態においては、Nが1である場合には、N個のオーディオフレームは、現在のオーディオフレームである。プロセッサ301は、現在のオーディオフレームのP2個のスペクトル包絡のエネルギーおよび現在のオーディオフレームの総エネルギーに従って第2のエネルギー比率を決定し得る。プロセッサ301は、現在のオーディオフレームのP3個のスペクトル包絡のエネルギーおよび現在のオーディオフレームの総エネルギーに従って第3のエネルギー比率を決定し得る。
P2およびP3の値、第7のプリセット値、第8のプリセット値、第9のプリセット値、ならびに第10のプリセット値をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法または第2の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切なプリセット値をシミュレーション実験により決定してもよい。必要に応じて、ある実施形態においては、プロセッサ301は、N個のオーディオフレームの各々のP個のスペクトル包絡から、最大のエネルギーを有するP2個のスペクトル包絡を決定し、N個のオーディオフレームの各々のP個のスペクトル包絡から、最大のエネルギーを有するP3個のスペクトル包絡を決定するように特に構成される。
例えば、プロセッサ301によって取得したオーディオ信号は、16kHzでサンプリングされた広帯域信号であり、取得したオーディオ信号は、30msのフレームにおいて取得される。信号の各フレームは、330個の時間領域のサンプリング点である。プロセッサ301は、時間-周波数変換を時間領域信号に対して行って、例えば、高速フーリエ変換により時間-周波数変換を行って、130個のスペクトル包絡S(k)を取得し得る、ここで、k=0、1、2、…、159である。プロセッサ301は、P2個のスペクトル包絡を130個のスペクトル包絡から選択し、P2個のスペクトル包絡のエネルギー合計がオーディオフレームの総エネルギーにおいて占める比率を計算し得る。プロセッサ301は、N個のオーディオフレームの各々に対して前述のプロセスを実行し得る、すなわち、N個のオーディオフレームの各々のP2個のスペクトル包絡のエネルギー合計がそれぞれの総エネルギーにおいて占める比率を計算し得る。プロセッサ301は、比率の平均値を計算し得る。比率の平均値は、第2のエネルギー比率である。プロセッサ301は、P3個のスペクトル包絡を130個のスペクトル包絡から選択し、P3個のスペクトル包絡のエネルギー合計がオーディオフレームの総エネルギーにおいて占める比率を計算し得る。プロセッサ301は、N個のオーディオフレームの各々に対して前述のプロセスを実行し得る、すなわち、N個のオーディオフレームの各々のP3個のスペクトル包絡のエネルギー合計がそれぞれの総エネルギーにおいて占める比率を計算し得る。プロセッサ301は、比率の平均値を計算し得る。比率の平均値は、第3のエネルギー比率である。第2のエネルギー比率が第7のプリセット値より大きく且つ第3のエネルギー比率が第8のプリセット値より大きい場合には、プロセッサ301は、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し得る。第2のエネルギー比率が第9のプリセット値より大きい場合には、プロセッサ301は、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定し得る。第3のエネルギー比率が第10のプリセット値未満である場合には、プロセッサ301は、現在のオーディオフレームを符号化するために第2の符号化方法を使用すると決定し得る。P2個のスペクトル包絡は、P個のスペクトル包絡のうちの最大のエネルギーを有するP2個のスペクトル包絡であり得るし、P3個のスペクトル包絡は、P個のスペクトル包絡のうちの最大のエネルギーを有するP3個のスペクトル包絡であり得る。必要に応じて、ある実施形態においては、P2の値は30であり得るし、P3の値は30であり得る。
必要に応じて、別の実施形態においては、バーストスパース性を使用することによって、適切な符号化方法が現在のオーディオフレームに対して選択され得る。バーストスパース性については、オーディオフレームのエネルギーの、スペクトルにおける、分布のグローバルスパース性、ローカルスパース性、および短期バースト性を考慮する必要がある。この場合には、スペクトルにおけるエネルギーの分布のスパース性は、スペクトルにおける、エネルギーの分布のグローバルスパース性、ローカルスパース性、および短期バースト性を含み得る。この場合には、Nの値は1であり得、N個のオーディオフレームは現在のオーディオフレームである。プロセッサ301は、現在のオーディオフレームのスペクトルをQ個のサブバンドに分割して、現在のオーディオフレームのスペクトルのQ個のサブバンドの各々のピークエネルギーに従ってバーストスパース性パラメータを決定するように特に構成され、バーストスパース性パラメータは、現在のオーディオフレームのグローバルスパース性、ローカルスパース性、および短期バースト性を示すために使用される。
特に、プロセッサ301は、Q個のサブバンドの各々のグローバルピーク対平均比率、Q個のサブバンドの各々のローカルピーク対平均比率、およびQ個のサブバンドの各々の短期エネルギー変動を決定するように特に構成され、グローバルピーク対平均比率は、サブバンドにおけるピークエネルギーおよび現在のオーディオフレームのサブバンドすべての平均エネルギーに従ってプロセッサ301によって決定され、ローカルピーク対平均比率は、サブバンドにおけるピークエネルギーおよびサブバンドにおける平均エネルギーに従ってプロセッサ301によって決定され、短期ピークエネルギー変動は、サブバンドにおけるピークエネルギーおよび前記オーディオフレームの前のオーディオフレームの特定の周波数帯におけるピークエネルギーに従って決定される。Q個のサブバンドの各々のグローバルピーク対平均比率、Q個のサブバンドの各々のローカルピーク対平均比率、およびQ個のサブバンドの各々の短期エネルギー変動は、グローバルスパース性、ローカルスパース性、および短期バースト性をそれぞれ表す。プロセッサ301は、Q個のサブバンド内に第1のサブバンドが存在しているかどうかを決定することであって、第1のサブバンドのローカルピーク対平均比率は、第11のプリセット値より大きく、第1のサブバンドのグローバルピーク対平均比率は、第12のプリセット値より大きく、第1のサブバンドの短期ピークエネルギー変動は、第13のプリセット値より大きい、決定することをし、Q個のサブバンド内に第1のサブバンドが存在している場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するように特に構成される。
特に、プロセッサ301は、以下の式を使用してグローバルピーク対平均比率を計算し得る。
Figure 0006426211
ここで、e(i)は、Q個のサブバンドにおける第iのサブバンドのピークエネルギーを表し、s(k)は、P個のスペクトル包絡のうちの第kのスペクトル包絡のエネルギーを表し、p2s(i)は、第iのサブバンドのグローバルピーク対平均比率を表す。
プロセッサ301は、以下の式を使用してローカルピーク対平均比率を計算し得る。
Figure 0006426211
ここで、e(i)は、Q個のサブバンドにおける第iのサブバンドのピークエネルギーを表し、s(k)は、P個のスペクトル包絡のうちの第kのスペクトル包絡のエネルギーを表し、h(i)は、第iのサブバンドに含まれるとともに最高周波数を有するスペクトル包絡のインデックスを表し、l(i)は、第iのサブバンドに含まれるとともに最低周波数を有するスペクトル包絡のインデックスを表し、p2a(i)は、第iのサブバンドのローカルピーク対平均比率を表し、h(i)は、P-1以下である。
プロセッサ301は、以下の式を使用して短期ピークエネルギー変動を計算し得る。
dev(i)=(2*e(i))/(e1+e2) 式1.9
ここで、e(i)は、現在のオーディオフレームのQ個のサブバンドにおける第iのサブバンドのピークエネルギーを表し、e1およびe2は、現在のオーディオフレームの前のオーディオフレームの特定の周波数帯のピークエネルギーを表す。特に、現在のオーディオフレームが第Mのオーディオフレームであると仮定すると、現在のオーディオフレームの第iのサブバンドのピークエネルギーが存在するスペクトル包絡が決定される。ピークエネルギーが存在するスペクトル包絡がi1であると仮定する。第(M-1)のオーディオフレームにおける第(i1-t)のスペクトル包絡から第(i1+t)のスペクトル包絡までの範囲内のピークエネルギーが決定され、ピークエネルギーはe1である。同様に、第(M-2)のオーディオフレームにおける第(i1-t)のスペクトル包絡から第(i1+t)のスペクトル包絡までの範囲内のピークエネルギーが決定され、ピークエネルギーはe2である。
第11のプリセット値、第12のプリセット値、および第13のプリセット値をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切なプリセット値をシミュレーション実験により決定してもよい。
必要に応じて、別の実施形態においては、帯域制限スパース性を使用することによって、適切な符号化方法が現在のオーディオフレームに対して選択され得る。この場合には、スペクトルにおけるエネルギーの分布のスパース性は、スペクトルにおけるエネルギーの分布の帯域制限スパース性を含む。この場合には、プロセッサ301は、N個のオーディオフレームの各々の境界周波数を決定するように特に構成される。プロセッサ301は、N個のオーディオフレームの各々の境界周波数に従って帯域制限スパース性パラメータを決定するように特に構成される。
第4のプリセット比率および第14のプリセット値をシミュレーション実験に従って決定してもよいことを、当業者は理解されよう。前述の条件を満たすオーディオフレームを第1の符号化方法を使用して符号化する際に良好な符号化効果を得ることができるように、適切なプリセット値およびプリセット比率をシミュレーション実験に従って決定してもよい。
例えば、プロセッサ301は、現在のオーディオフレームのP個のスペクトル包絡の各々のエネルギーを決定し、境界周波数未満であるエネルギーが現在のオーディオフレームの総エネルギーにおいて占める比率が第4のプリセット比率となる形で、境界周波数を低周波から高周波まで探索し得る。帯域制限スパース性パラメータは、N個のオーディオフレームの境界周波数の平均値であり得る。この場合には、プロセッサ301は、オーディオフレームの帯域制限スパース性パラメータが第14のプリセット値未満であると決定された場合には、現在のオーディオフレームを符号化するために第1の符号化方法を使用すると決定するように特に構成される。Nが1であると仮定すると、現在のオーディオフレームの境界周波数は、帯域制限スパース性パラメータである。Nが1より大きい整数であると仮定すると、プロセッサ301は、N個のオーディオフレームの境界周波数の平均値が帯域制限スパース性パラメータであると決定し得る。上述した境界周波数決定が例にすぎないことを、当業者は理解されよう。あるいは、境界周波数決定方法は、境界周波数を高周波から低周波まで探索することであってもよいし、または、別の方法であってもよい。
さらに、第1の符号化方法と第2の符号化方法との間の頻繁な切り替えを回避するために、プロセッサ301は、ハングオーバ期間を設定するようにさらに構成され得る。プロセッサ301は、ハングオーバ期間中のオーディオフレームについては、ハングオーバ期間の開始時点におけるオーディオフレームに対して使用されている符号化方法を使用するように構成され得る。このように、異なる符号化方法間の頻繁な切り替えによって生じる切り替え品質の低下を回避することができる。
ハングオーバ期間のハングオーバ長がLである場合には、プロセッサ301は、現在のオーディオフレームの後のL個のオーディオフレームのすべてが現在のオーディオフレームのハングオーバ期間に属すると決定するように構成され得る。ハングオーバ期間に属するオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性がハングオーバ期間の開始時点におけるオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性と異なる場合でも、プロセッサ301は、ハングオーバ期間の開始時点におけるオーディオフレームに対して使用されるものと同一の符号化方法を使用してオーディオフレームをそのまま符号化すると決定するように構成され得る。
ハングオーバ期間長が0になるまで、ハングオーバ期間長は、ハングオーバ期間中のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って更新され得る。
例えば、プロセッサ301が第Iのオーディオフレームに対して第1の符号化方法を使用すると決定し且つプリセットハングオーバ期間の長さがLである場合には、プロセッサ301は、第1の符号化方法が第(I+1)のオーディオフレームから第(I+L)のオーディオフレームに対して使用されると決定し得る。その後、プロセッサ301は、第(I+1)のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を決定し、第(I+1)のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従ってハングオーバ期間を再計算し得る。第(I+1)のオーディオフレームが第1の符号化方法を使用する条件をまだ満たしている場合には、プロセッサ301は、その後のハングオーバ期間はプリセットハングオーバ期間Lのままであると決定し得る。すなわち、ハングオーバ期間は、第(L+2)のオーディオフレームから開始して第(I+1+L)のオーディオフレームまでとなる。第(I+1)のオーディオフレームが第1の符号化方法を使用する条件を満たしていない場合には、プロセッサ301は、第(I+1)のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従ってハングオーバ期間を再決定し得る。例えば、プロセッサ301は、ハングオーバ期間がL-L1であると再決定し得る、ここで、L1はL以下の正の整数である。L1がLに等しくなると、ハングオーバ期間長は0に更新される。この場合には、プロセッサ301は、第(I+1)のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って符号化方法を再決定し得る。L1がL未満の整数である場合には、プロセッサ301は、第(I+1+L-L1)のオーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って符号化方法を再決定し得る。しかしながら、第(I+1)のオーディオフレームは第Iのオーディオフレームのハングオーバ期間中にあるため、第(I+1)のオーディオフレームは、第1の符号化方法を使用してそのまま符号化される。L1をハングオーバ更新パラメータと称してもよく、ハングオーバ更新パラメータの値は、入力オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に従って決定され得る。このように、ハングオーバ期間更新は、オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性に関連している。
例えば、一般スパース性パラメータが決定され、一般スパース性パラメータが第1の最小帯域幅である場合には、プロセッサ301は、オーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅に従って、ハングオーバ期間を再決定し得る。第1の符号化方法を使用して第Iのオーディオフレームを符号化すると決定され、プリセットハングオーバ期間がLであると仮定する。プロセッサ301は、第(I+1)のオーディオフレームを含むH個の連続オーディオフレームの各々の第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅を決定し得る、ここで、Hは0より大きい正の整数である。第(I+1)のオーディオフレームが第1の符号化方法を使用する条件を満たしていない場合には、プロセッサ301は、第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅が第15のプリセット値未満である、オーディオフレームの数量(前記数量を第1のハングオーバパラメータと簡潔に称する)を決定し得る。第(L+1)のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅が第16のプリセット値より大きく第17のプリセット値未満である場合には、第1のハングオーバパラメータは、第18のプリセット値未満であり、プロセッサ301は、ハングオーバ期間長から1を減算し得る、すなわち、ハングオーバ更新パラメータは1である。第16のプリセット値は、第1のプリセット値より大きい。第(L+1)のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅が第17のプリセット値より大きく第19のプリセット値未満である場合には、第1のハングオーバパラメータは、第18のプリセット値未満であり、プロセッサ301は、ハングオーバ期間長から2を減算し得る、すなわち、ハングオーバ更新パラメータは2である。第(L+1)のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅が第19のプリセット値より大きい場合には、プロセッサ301は、ハングオーバ期間を0に設定し得る。第1のハングオーバパラメータおよび第(L+1)のオーディオフレームの第1のプリセット比率のエネルギーの、スペクトルに分布している、最小帯域幅が第16のプリセット値から第19のプリセット値のうちの1つまたは複数を満たしていない場合には、プロセッサ301は、ハングオーバ期間は変化しないままであると決定し得る。
プリセットハングオーバ期間を実際の状況に応じて設定してもよいし、ハングオーバ更新パラメータも実際の状況に応じて調整してもよいことを、当業者は理解されよう。異なるハングオーバ期間を設定し得るように、第15のプリセット値から第19のプリセット値を実際の状況に応じて調整してもよい。
同様に、一般スパース性パラメータが第2の最小帯域幅および第3の最小帯域幅を含む、または、一般スパース性パラメータが第1のエネルギー比率を含む、または、一般スパース性パラメータが第2のエネルギー比率および第3のエネルギー比率を含む場合には、プロセッサ301は、対応するプリセットハングオーバ期間、対応するハングオーバ更新パラメータ、およびハングオーバ更新パラメータを決定するために使用される関連パラメータを設定してもよく、その結果、対応するハングオーバ期間を決定することができ、符号化方法間の頻繁な切り替えを回避している。
符号化方法がバーストスパース性に従って決定される(すなわち、前記符号化方法が、オーディオフレームのエネルギーの、スペクトルにおける、分布のグローバルスパース性、ローカルスパース性、および短期バースト性に従って決定される)場合には、プロセッサ301は、対応するハングオーバ期間、対応するハングオーバ更新パラメータ、およびハングオーバ更新パラメータを決定するために使用される関連パラメータを設定して、符号化方法間の頻繁な切り替えを回避し得る。この場合には、ハングオーバ期間は、一般スパース性パラメータのケースにおいて設定されるハングオーバ期間未満となり得る。
符号化方法をスペクトルにおけるエネルギーの分布の帯域制限特性に従って決定する際に、プロセッサ301は、対応するハングオーバ期間、対応するハングオーバ更新パラメータ、およびハングオーバ更新パラメータを決定するために使用される関連パラメータを設定して、符号化方法間の頻繁な切り替えを回避し得る。例えば、プロセッサ301は、すべてのスペクトル包絡のエネルギーに対する入力オーディオフレームの低スペクトル包絡のエネルギーの比率を計算し、比率に従ってハングオーバ更新パラメータを決定し得る。特に、プロセッサ301は、以下の式を使用して、すべてのスペクトル包絡のエネルギーに対する低スペクトル包絡のエネルギーの比率を決定し得る。
Figure 0006426211
ここで、Rlowは、すべてのスペクトル包絡のエネルギーに対する低スペクトル包絡のエネルギーの比率を示し、s(k)は、第kのスペクトル包絡のエネルギーを示し、yは、低周波数帯域の最高スペクトル包絡のインデックスを表し、Pは、オーディオフレームが合計P個のスペクトル包絡に分割されることを示す。この場合には、Rlowが第20のプリセット値より大きい場合には、ハングオーバ更新パラメータは0である。Rlowが第21のプリセット値より大きい場合には、ハングオーバ更新パラメータは、比較的小さな値を有し得る、ここで、第20のプリセット値は、第21のプリセット値より大きい。Rlowが第21のプリセット値より大きくない場合には、ハングオーバパラメータは、比較的大きな値を有し得る。第20のプリセット値および第21のプリセット値をシミュレーション実験に従って決定してもよいし、ハングオーバ更新パラメータの値も実験に従って決定してもよいことを、当業者は理解されよう。
加えて、符号化方法をスペクトルにおけるエネルギーの分布の帯域制限特性に従って決定する際に、プロセッサ301は、さらに、入力オーディオフレームの境界周波数を決定し、境界周波数に従ってハングオーバ更新パラメータを決定し得る、ここで、境界周波数は、帯域制限スパース性パラメータを決定するために使用される境界周波数とは異なり得る。境界周波数が第22のプリセット値未満である場合には、プロセッサ301は、ハングオーバ更新パラメータが0であると決定し得る。境界周波数が第23のプリセット値未満である場合には、プロセッサ301は、ハングオーバ更新パラメータが比較的小さな値であると決定し得る。境界周波数が第23のプリセット値より大きい場合には、プロセッサ301は、ハングオーバ更新パラメータが比較的大きな値を有し得ると決定し得る。第22のプリセット値および第23のプリセット値をシミュレーション実験に従って決定してもよいし、ハングオーバ更新パラメータの値も実験に従って決定してもよいことを、当業者は理解されよう。
本明細書において開示した実施形態において説明した例を組み合わせて、ユニットおよびアルゴリズムステップを電子ハードウェアまたはコンピュータソフトウェアと電子ハードウェアとの組合せによって実装してもよいことに、当業者は気づかれよう。機能をハードウェアで実行するかソフトウェアで実行するかは、具体的な応用および技術的解決手法の設計上の制約条件に依存する。当業者は、異なる方法を使用して各具体的な応用に対して説明した機能を実施し得るが、その実施形態が本発明の範囲を逸脱していると考えるべきではない。
簡便かつ簡潔な説明を目的として、前述のシステム、装置、およびユニットの詳細な動作プロセスについては、前述の方法の実施形態における対応するプロセスを参照すればよいので、詳細を本明細書では説明していないことを、当業者は明確に理解されよう。
本出願において提供したいくつかの実施形態においては、開示したシステム、装置、および方法が他の方式で実装されてもよいことを理解されたい。例えば、説明した装置の実施形態は、例示的なものにすぎない。例えば、ユニット分割は、論理機能分割にすぎず、実際の実施形態においては他の分割であってもよい。例えば、複数のユニットまたはコンポーネントを組み合わせても別のシステムと統合してもよいし、またはいくつかの特徴を無視しても行わなくてもよい。加えて、図示または記載した相互接続または直接接続または通信接続は、いくつかのインターフェースを介して実装されてもよい。装置間またはユニット間の間接接続または通信接続は、電子的に、機械的に、または他の形式で実装されてもよい。
別個の部分として説明したユニットは、物理的に別個のものであってもなくてもよいし、ユニットとして表示した部分は、物理ユニットであってもなくてもよいし、一ヶ所に配置されていてもよいし、または複数のネットワークユニットに分散されていてもよい。ユニットの一部またはすべてを、実際の必要性に応じて選択して、実施形態の解決手法の目的を達成してもよい。
加えて、本発明の実施形態における機能ユニットが1つの処理ユニットに統合されてもよいし、または、ユニットの各々が物理的に単独で存在してもよいし、または、2つ以上のユニットが1つのユニットに統合される。
機能が、ソフトウェア機能ユニットの形式で実装され、独立した製品として販売または使用される場合には、機能は、コンピュータ可読記憶媒体に記憶され得る。そのような理解に基づいて、基本的に、本発明の技術的解決手法、または従来技術に貢献する部分、または技術的解決手法の部分を、ソフトウェア製品形式で実装してもよい。ソフトウェア製品は、記憶媒体に記憶され、(パーソナルコンピュータ、サーバ、またはネットワークデバイスであり得る)コンピュータデバイスまたはプロセッサに本発明の実施形態において説明した方法のステップのすべてまたは一部を実行するように命令するためのいくつかの命令を含む。前述の記憶媒体は、USBフラッシュドライブ、リムーバブルハードディスク、リードオンリーメモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスク、または光ディスクなどの、プログラムコードを記憶することができる任意の媒体を含む。
前述の説明は、本発明の特定の実施形態にすぎず、本発明の保護範囲を限定することを意図していない。本発明に開示の技術的範囲において当業者が容易に想到する任意の変形または置換は、本発明の保護範囲に含まれるものとする。したがって、本発明の保護範囲は、特許請求の範囲の保護範囲に従うものとする。
200 装置
201 取得ユニット
202 決定ユニット
300 装置
301 プロセッサ
302 メモリ
303 バスシステム

Claims (30)

  1. オーディオ符号化方法であって、前記方法は、
    N個の入力オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を決定するステップであって、前記N個のオーディオフレームは、現在のオーディオフレームを含み、Nは正の整数である、ステップと、
    前記N個のオーディオフレームの前記エネルギーの、前記スペクトルにおける、分布の前記スパース性に従って、前記現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップであって、前記第1の符号化方法は、時間-周波数変換および変換係数量子化に基づくとともに線形予測には基づかない符号化方法であり、前記第2の符号化方法は、線形予測ベースの符号化方法である、ステップとを含む、方法。
  2. 前記N個の入力オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を決定するステップは、
    前記N個のオーディオフレームの各々のスペクトルをP個のスペクトル包絡に分割するステップであって、Pは正の整数であり、P>1である、ステップと、
    前記N個のオーディオフレームの各々の前記P個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するステップであって、前記一般スパース性パラメータは、前記N個のオーディオフレームの前記エネルギーの、前記スペクトルにおける、分布の前記スパース性を示す、ステップとを含む、請求項1に記載の方法。
  3. 前記一般スパース性パラメータは、第1の最小帯域幅を含み、
    前記N個のオーディオフレームの各々の前記P個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するステップは、
    前記N個のオーディオフレームの各々の前記P個のスペクトル包絡の前記エネルギーに従って、前記N個のオーディオフレームの第1のプリセット比率のエネルギーの、前記スペクトルに分布している、最小帯域幅の平均値を決定するステップであって、前記N個のオーディオフレームの前記第1のプリセット比率のエネルギーの、前記スペクトルに分布している、前記最小帯域幅の前記平均値は、前記第1の最小帯域幅である、ステップを含み、
    前記N個のオーディオフレームの前記エネルギーの、前記スペクトルにおける、分布の前記スパース性に従って、前記現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、
    前記第1の最小帯域幅が第1のプリセット値未満である場合には、前記現在のオーディオフレームを符号化するために前記第1の符号化方法を使用すると決定するステップ、または、前記第1の最小帯域幅が前記第1のプリセット値より大きい場合には、前記現在のオーディオフレームを符号化するために前記第2の符号化方法を使用すると決定するステップを含む、請求項2に記載の方法。
  4. 前記N個のオーディオフレームの各々の前記P個のスペクトル包絡の前記エネルギーに従って、前記N個のオーディオフレームの第1のプリセット比率のエネルギーの、前記スペクトルに分布している、最小帯域幅の平均値を決定するステップは、
    降順で各オーディオフレームの前記P個のスペクトル包絡の前記エネルギーをソートするステップと、
    前記N個のオーディオフレームの各々の前記P個のスペクトル包絡の、降順でソートした、前記エネルギーに従って、前記N個のオーディオフレームの各々の前記第1のプリセット比率を少なくとも占めるエネルギーの、前記スペクトルに分布している、最小帯域幅を決定するステップと、
    前記N個のオーディオフレームの各々の前記第1のプリセット比率を少なくとも占める前記エネルギーの、前記スペクトルに分布している、前記最小帯域幅に従って、前記N個のオーディオフレームの前記第1のプリセット比率を少なくとも占めるエネルギーの、前記スペクトルに分布している、最小帯域幅の平均値を決定するステップとを含む、請求項3に記載の方法。
  5. 前記一般スパース性パラメータは、第1のエネルギー比率を含み、
    前記N個のオーディオフレームの各々の前記P個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するステップは、
    P1個のスペクトル包絡を前記N個のオーディオフレームの各々の前記P個のスペクトル包絡から選択するステップと、
    前記N個のオーディオフレームの各々の前記P1個のスペクトル包絡のエネルギーおよび前記N個のオーディオフレームのそれぞれの総エネルギーに従って前記第1のエネルギー比率を決定するステップであって、P1はP未満の正の整数である、ステップとを含み、
    前記N個のオーディオフレームの前記エネルギーの、前記スペクトルにおける、分布の前記スパース性に従って、前記現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、
    前記第1のエネルギー比率が第2のプリセット値より大きい場合には、前記現在のオーディオフレームを符号化するために前記第1の符号化方法を使用すると決定するステップ、または、前記第1のエネルギー比率が前記第2のプリセット値未満である場合には、前記現在のオーディオフレームを符号化するために前記第2の符号化方法を使用すると決定するステップを含む、請求項2に記載の方法。
  6. 前記P1個のスペクトル包絡の任意の1つのエネルギーは、前記P1個のスペクトル包絡を除く前記P個のスペクトル包絡のうちの他のスペクトル包絡の任意の1つのエネルギーより大きい、請求項5に記載の方法。
  7. 前記一般スパース性パラメータは、第2の最小帯域幅および第3の最小帯域幅を含み、
    前記N個のオーディオフレームの各々の前記P個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するステップは、
    前記N個のオーディオフレームの各々の前記P個のスペクトル包絡の前記エネルギーに従って、前記N個のオーディオフレームの第2のプリセット比率のエネルギーの、前記スペクトルに分布している、最小帯域幅の平均値を決定するとともに、前記N個のオーディオフレームの第3のプリセット比率のエネルギーの、前記スペクトルに分布している、最小帯域幅の平均値を決定するステップであって、前記N個のオーディオフレームの前記第2のプリセット比率のエネルギーの、前記スペクトルに分布している、前記最小帯域幅の前記平均値は、前記第2の最小帯域幅として使用され、前記N個のオーディオフレームの前記第3のプリセット比率のエネルギーの、前記スペクトルに分布している、前記最小帯域幅の前記平均値は、前記第3の最小帯域幅として使用され、前記第2のプリセット比率は、前記第3のプリセット比率未満である、ステップを含み、
    前記N個のオーディオフレームの前記エネルギーの、前記スペクトルにおける、分布の前記スパース性に従って、前記現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、
    前記第2の最小帯域幅が第3のプリセット値未満且つ前記第3の最小帯域幅が第4のプリセット値未満である場合には、前記現在のオーディオフレームを符号化するために前記第1の符号化方法を使用すると決定するステップ、
    前記第3の最小帯域幅が第5のプリセット値未満である場合には、前記現在のオーディオフレームを符号化するために前記第1の符号化方法を使用すると決定するステップ、または、
    前記第3の最小帯域幅が第6のプリセット値より大きい場合には、前記現在のオーディオフレームを符号化するために前記第2の符号化方法を使用すると決定するステップを含み、
    前記第4のプリセット値は、前記第3のプリセット値以上であり、前記第5のプリセット値は、前記第4のプリセット値未満であり、前記第6のプリセット値は、前記第4のプリセット値より大きい、請求項2に記載の方法。
  8. 前記N個のオーディオフレームの各々の前記P個のスペクトル包絡の前記エネルギーに従って、前記N個のオーディオフレームの第2のプリセット比率のエネルギーの、前記スペクトルに分布している、前記最小帯域幅の平均値を決定するとともに、前記N個のオーディオフレームの第3のプリセット比率のエネルギーの、前記スペクトルに分布している、最小帯域幅の平均値を決定するステップは、
    降順で各オーディオフレームの前記P個のスペクトル包絡の前記エネルギーをソートするステップと、
    前記N個のオーディオフレームの各々の前記P個のスペクトル包絡の、降順でソートした、前記エネルギーに従って、前記N個のオーディオフレームの各々の前記第2のプリセット比率を少なくとも占めるエネルギーの、前記スペクトルに分布している、最小帯域幅を決定するステップと、
    前記N個のオーディオフレームの各々の前記第2のプリセット比率を少なくとも占める前記エネルギーの、前記スペクトルに分布している、前記最小帯域幅に従って、前記N個のオーディオフレームの前記第2のプリセット比率を少なくとも占めるエネルギーの、前記スペクトルに分布している、最小帯域幅の平均値を決定するステップと、
    前記N個のオーディオフレームの各々の前記P個のスペクトル包絡の、降順でソートした、前記エネルギーに従って、前記N個のオーディオフレームの各々の前記第3のプリセット比率を少なくとも占めるエネルギーの、前記スペクトルに分布している、最小帯域幅を決定するステップと、
    前記N個のオーディオフレームの各々の前記第3のプリセット比率を少なくとも占める前記エネルギーの、前記スペクトルに分布している、前記最小帯域幅に従って、前記N個のオーディオフレームの前記第3のプリセット比率を少なくとも占めるエネルギーの、前記スペクトルに分布している、最小帯域幅の平均値を決定するステップとを含む、請求項7に記載の方法。
  9. 前記一般スパース性パラメータは、第2のエネルギー比率および第3のエネルギー比率を含み、
    前記N個のオーディオフレームの各々の前記P個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するステップは、
    P2個のスペクトル包絡を前記N個のオーディオフレームの各々の前記P個のスペクトル包絡から選択するステップと、
    前記N個のオーディオフレームの各々の前記P2個のスペクトル包絡のエネルギーおよび前記N個のオーディオフレームのそれぞれの総エネルギーに従って前記第2のエネルギー比率を決定するステップと、
    P3個のスペクトル包絡を前記N個のオーディオフレームの各々の前記P個のスペクトル包絡から選択するステップと、
    前記N個のオーディオフレームの各々の前記P3個のスペクトル包絡のエネルギーおよび前記N個のオーディオフレームのそれぞれの前記総エネルギーに従って前記第3のエネルギー比率を決定するステップとを含み、P2およびP3はP未満の正の整数であり、P2はP3未満であり、
    前記N個のオーディオフレームの前記エネルギーの、前記スペクトルにおける、分布の前記スパース性に従って、前記現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、
    前記第2のエネルギー比率が第7のプリセット値より大きく且つ前記第3のエネルギー比率が第8のプリセット値より大きい場合には、前記現在のオーディオフレームを符号化するために前記第1の符号化方法を使用すると決定するステップ、
    前記第2のエネルギー比率が第9のプリセット値より大きい場合には、前記現在のオーディオフレームを符号化するために前記第1の符号化方法を使用すると決定するステップ、または、
    前記第3のエネルギー比率が第10のプリセット値未満である場合には、前記現在のオーディオフレームを符号化するために前記第2の符号化方法を使用すると決定するステップを含む、請求項2に記載の方法。
  10. 前記P2個のスペクトル包絡は、前記P個のスペクトル包絡のうちの最大のエネルギーを有するP2個のスペクトル包絡であり、
    前記P3個のスペクトル包絡は、前記P個のスペクトル包絡のうちの最大のエネルギーを有するP3個のスペクトル包絡である、請求項9に記載の方法。
  11. 前記スペクトルにおける前記エネルギーの分布の前記スパース性は、前記スペクトルにおける、前記エネルギーの分布のグローバルスパース性、ローカルスパース性、および短期バースト性を含む、請求項1に記載の方法。
  12. Nは1であり、前記N個のオーディオフレームは、前記現在のオーディオフレームであり、
    前記N個の入力オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を決定するステップは、
    前記現在のオーディオフレームのスペクトルをQ個のサブバンドに分割するステップと、
    前記現在のオーディオフレームの前記スペクトルの前記Q個のサブバンドの各々のピークエネルギーに従ってバーストスパース性パラメータを決定するステップであって、前記バーストスパース性パラメータは、前記現在のオーディオフレームのグローバルスパース性、ローカルスパース性、および短期バースト性を示すために使用される、ステップとを含む、請求項11に記載の方法。
  13. 前記バーストスパース性パラメータは、前記Q個のサブバンドの各々のグローバルピーク対平均比率、前記Q個のサブバンドの各々のローカルピーク対平均比率、および前記Q個のサブバンドの各々の短期ピークエネルギー変動を含み、前記グローバルピーク対平均比率は、前記サブバンドにおける前記ピークエネルギーおよび前記現在のオーディオフレームの前記サブバンドすべての平均エネルギーに従って決定され、前記ローカルピーク対平均比率は、前記サブバンドにおける前記ピークエネルギーおよび前記サブバンドにおける平均エネルギーに従って決定され、前記短期ピークエネルギー変動は、前記サブバンドにおける前記ピークエネルギーおよび前記オーディオフレームの前のオーディオフレームの特定の周波数帯におけるピークエネルギーに従って決定され、
    前記N個のオーディオフレームの前記エネルギーの、前記スペクトルにおける、分布の前記スパース性に従って、前記現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、
    前記Q個のサブバンド内に第1のサブバンドが存在しているかどうかを決定するステップであって、前記第1のサブバンドのローカルピーク対平均比率は、第11のプリセット値より大きく、前記第1のサブバンドのグローバルピーク対平均比率は、第12のプリセット値より大きく、前記第1のサブバンドの短期ピークエネルギー変動は、第13のプリセット値より大きい、ステップと、
    前記Q個のサブバンド内に前記第1のサブバンドが存在している場合には、前記現在のオーディオフレームを符号化するために前記第1の符号化方法を使用すると決定するステップとを含む、請求項12に記載の方法。
  14. 前記スペクトルにおける前記エネルギーの分布の前記スパース性は、前記スペクトルにおける前記エネルギーの分布の帯域制限特性を含む、請求項1に記載の方法。
  15. 前記N個の入力オーディオフレームのエネルギーの、スペクトルにおける、分布のスパース性を決定するステップは、
    前記N個のオーディオフレームの各々の境界周波数を決定するステップと、
    前記N個のオーディオフレームの各々の前記境界周波数に従って帯域制限スパース性パラメータを決定するステップとを含む、請求項14に記載の方法。
  16. 前記帯域制限スパース性パラメータは、前記N個のオーディオフレームの前記境界周波数の平均値であり、
    前記N個のオーディオフレームの前記エネルギーの、前記スペクトルにおける、分布の前記スパース性に従って、前記現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するステップは、
    前記オーディオフレームの前記帯域制限スパース性パラメータが第14のプリセット値未満であると決定された場合には、前記現在のオーディオフレームを符号化するために前記第1の符号化方法を使用すると決定するステップを含む、請求項15に記載の方法。
  17. 装置であって、前記装置は、
    N個のオーディオフレームを取得するように構成される、取得ユニットであって、前記N個のオーディオフレームは、現在のオーディオフレームを含み、Nは正の整数である、取得ユニットと、
    前記取得ユニットによって取得した前記N個のオーディオフレームのエネルギーの、前記スペクトルにおける、分布のスパース性を決定するように構成される、決定ユニットとを備え、
    前記決定ユニットは、前記N個のオーディオフレームの前記エネルギーの、前記スペクトルにおける、分布の前記スパース性に従って、前記現在のオーディオフレームを符号化するために第1の符号化方法を使用するか第2の符号化方法を使用するかを決定するようにさらに構成され、前記第1の符号化方法は、時間-周波数変換および変換係数量子化に基づくとともに線形予測には基づかない符号化方法であり、前記第2の符号化方法は、線形予測ベースの符号化方法である、装置。
  18. 前記決定ユニットは、前記N個のオーディオフレームの各々のスペクトルをP個のスペクトル包絡に分割し、前記N個のオーディオフレームの各々の前記P個のスペクトル包絡のエネルギーに従って一般スパース性パラメータを決定するように特に構成され、Pは正の整数であり、P>1であり、前記一般スパース性パラメータは、前記N個のオーディオフレームの前記エネルギーの、前記スペクトルにおける、分布の前記スパース性を示す、請求項17に記載の装置。
  19. 前記一般スパース性パラメータは、第1の最小帯域幅を含み、
    前記決定ユニットは、前記N個のオーディオフレームの各々の前記P個のスペクトル包絡の前記エネルギーに従って、前記N個のオーディオフレームの第1のプリセット比率のエネルギーの、前記スペクトルに分布している、最小帯域幅の平均値を決定するように特に構成され、前記N個のオーディオフレームの前記第1のプリセット比率のエネルギーの、前記スペクトルに分布している、前記最小帯域幅の前記平均値は、前記第1の最小帯域幅であり、
    前記決定ユニットは、前記第1の最小帯域幅が第1のプリセット値未満である場合には、前記現在のオーディオフレームを符号化するために前記第1の符号化方法を使用すると決定するように、または、前記第1の最小帯域幅が前記第1のプリセット値より大きい場合には、前記現在のオーディオフレームを符号化するために前記第2の符号化方法を使用すると決定するように特に構成される、請求項18に記載の装置。
  20. 前記決定ユニットは、降順で各オーディオフレームの前記P個のスペクトル包絡の前記エネルギーをソートし、前記N個のオーディオフレームの各々の前記P個のスペクトル包絡の、降順でソートした、前記エネルギーに従って、前記N個のオーディオフレームの各々の前記第1のプリセット比率を少なくとも占めるエネルギーの、前記スペクトルに分布している、最小帯域幅を決定し、前記N個のオーディオフレームの各々の前記第1のプリセット比率を少なくとも占める前記エネルギーの、前記スペクトルに分布している、前記最小帯域幅に従って、前記N個のオーディオフレームの前記第1のプリセット比率を少なくとも占めるエネルギーの、前記スペクトルに分布している、最小帯域幅の平均値を決定するように特に構成される、請求項19に記載の装置。
  21. 前記一般スパース性パラメータは、第1のエネルギー比率を含み、
    前記決定ユニットは、P1個のスペクトル包絡を前記N個のオーディオフレームの各々の前記P個のスペクトル包絡から選択し、前記N個のオーディオフレームの各々の前記P1個のスペクトル包絡のエネルギーおよび前記N個のオーディオフレームのそれぞれの総エネルギーに従って前記第1のエネルギー比率を決定するように特に構成され、P1はP未満の正の整数であり、
    前記決定ユニットは、前記第1のエネルギー比率が第2のプリセット値より大きい場合には、前記現在のオーディオフレームを符号化するために前記第1の符号化方法を使用すると決定し、前記第1のエネルギー比率が前記第2のプリセット値未満である場合には、前記現在のオーディオフレームを符号化するために前記第2の符号化方法を使用すると決定するように特に構成される、請求項18に記載の装置。
  22. 前記決定ユニットは、前記P個のスペクトル包絡の前記エネルギーに従って前記P1個のスペクトル包絡を決定するように特に構成され、前記P1個のスペクトル包絡の任意の1つのエネルギーは、前記P1個のスペクトル包絡を除く前記P個のスペクトル包絡のうちの他のスペクトル包絡の任意の1つのエネルギーより大きい、請求項21に記載の装置。
  23. 前記一般スパース性パラメータは、第2の最小帯域幅および第3の最小帯域幅を含み、
    前記決定ユニットは、前記N個のオーディオフレームの各々の前記P個のスペクトル包絡の前記エネルギーに従って、前記N個のオーディオフレームの第2のプリセット比率のエネルギーの、前記スペクトルに分布している、最小帯域幅の平均値を決定するとともに、前記N個のオーディオフレームの第3のプリセット比率のエネルギーの、前記スペクトルに分布している、最小帯域幅の平均値を決定するように特に構成され、前記N個のオーディオフレームの前記第2のプリセット比率のエネルギーの、前記スペクトルに分布している、前記最小帯域幅の前記平均値は、前記第2の最小帯域幅として使用され、前記N個のオーディオフレームの前記第3のプリセット比率のエネルギーの、前記スペクトルに分布している、前記最小帯域幅の前記平均値は、前記第3の最小帯域幅として使用され、前記第2のプリセット比率は、前記第3のプリセット比率未満であり、
    前記決定ユニットは、前記第2の最小帯域幅が第3のプリセット値未満且つ前記第3の最小帯域幅が第4のプリセット値未満である場合には、前記現在のオーディオフレームを符号化するために前記第1の符号化方法を使用すると決定し、前記第3の最小帯域幅が第5のプリセット値未満である場合には、前記現在のオーディオフレームを符号化するために前記第1の符号化方法を使用すると決定し、前記第3の最小帯域幅が第6のプリセット値より大きい場合には、前記現在のオーディオフレームを符号化するために前記第2の符号化方法を使用すると決定するように特に構成され、
    前記第4のプリセット値は、前記第3のプリセット値以上であり、前記第5のプリセット値は、前記第4のプリセット値未満であり、前記第6のプリセット値は、前記第4のプリセット値より大きい、請求項18に記載の装置。
  24. 前記決定ユニットは、降順で各オーディオフレームの前記P個のスペクトル包絡の前記エネルギーをソートし、前記N個のオーディオフレームの各々の前記P個のスペクトル包絡の、降順でソートした、前記エネルギーに従って、前記N個のオーディオフレームの各々の前記第2のプリセット比率を少なくとも占めるエネルギーの、前記スペクトルに分布している、最小帯域幅を決定し、前記N個のオーディオフレームの各々の前記第2のプリセット比率を少なくとも占める前記エネルギーの、前記スペクトルに分布している、前記最小帯域幅に従って、前記N個のオーディオフレームの前記第2のプリセット比率を少なくとも占めるエネルギーの、前記スペクトルに分布している、最小帯域幅の平均値を決定し、前記N個のオーディオフレームの各々の前記P個のスペクトル包絡の、降順でソートした、前記エネルギーに従って、前記N個のオーディオフレームの各々の前記第3のプリセット比率を少なくとも占めるエネルギーの、前記スペクトルに分布している、最小帯域幅を決定し、前記N個のオーディオフレームの各々の前記第3のプリセット比率を少なくとも占める前記エネルギーの、前記スペクトルに分布している、前記最小帯域幅に従って、前記N個のオーディオフレームの前記第3のプリセット比率を少なくとも占めるエネルギーの、前記スペクトルに分布している、最小帯域幅の平均値を決定するように特に構成される、請求項23に記載の装置。
  25. 前記一般スパース性パラメータは、第2のエネルギー比率および第3のエネルギー比率を含み、
    前記決定ユニットは、P2個のスペクトル包絡を前記N個のオーディオフレームの各々の前記P個のスペクトル包絡から選択し、前記N個のオーディオフレームの各々の前記P2個のスペクトル包絡のエネルギーおよび前記N個のオーディオフレームのそれぞれの総エネルギーに従って前記第2のエネルギー比率を決定し、P3個のスペクトル包絡を前記N個のオーディオフレームの各々の前記P個のスペクトル包絡から選択し、前記N個のオーディオフレームの各々の前記P3個のスペクトル包絡のエネルギーおよび前記N個のオーディオフレームのそれぞれの前記総エネルギーに従って前記第3のエネルギー比率を決定するように特に構成され、P2およびP3はP未満の正の整数であり、P2はP3未満であり、
    前記決定ユニットは、前記第2のエネルギー比率が第7のプリセット値より大きく且つ前記第3のエネルギー比率が第8のプリセット値より大きい場合には、前記現在のオーディオフレームを符号化するために前記第1の符号化方法を使用すると決定し、前記第2のエネルギー比率が第9のプリセット値より大きい場合には、前記現在のオーディオフレームを符号化するために前記第1の符号化方法を使用すると決定し、前記第3のエネルギー比率が第10のプリセット値未満である場合には、前記現在のオーディオフレームを符号化するために前記第2の符号化方法を使用すると決定するように特に構成される、請求項18に記載の装置。
  26. 前記決定ユニットは、前記N個のオーディオフレームの各々の前記P個のスペクトル包絡から、最大のエネルギーを有するP2個のスペクトル包絡を決定し、前記N個のオーディオフレームの各々の前記P個のスペクトル包絡から、最大のエネルギーを有するP3個のスペクトル包絡を決定するように特に構成される、請求項25に記載の装置。
  27. Nは1であり、前記N個のオーディオフレームは、前記現在のオーディオフレームであり、
    前記決定ユニットは、前記現在のオーディオフレームのスペクトルをQ個のサブバンドに分割して、前記現在のオーディオフレームの前記スペクトルの前記Q個のサブバンドの各々のピークエネルギーに従ってバーストスパース性パラメータを決定するように特に構成され、前記バーストスパース性パラメータは、前記現在のオーディオフレームのグローバルスパース性、ローカルスパース性、および短期バースト性を示すために使用される、請求項17に記載の装置。
  28. 前記決定ユニットは、前記Q個のサブバンドの各々のグローバルピーク対平均比率、前記Q個のサブバンドの各々のローカルピーク対平均比率、および前記Q個のサブバンドの各々の短期ピークエネルギー変動を決定するように特に構成され、前記グローバルピーク対平均比率は、前記サブバンドにおける前記ピークエネルギーおよび前記現在のオーディオフレームの前記サブバンドすべての平均エネルギーに従って前記決定ユニットによって決定され、前記ローカルピーク対平均比率は、前記サブバンドにおける前記ピークエネルギーおよび前記サブバンドにおける平均エネルギーに従って前記決定ユニットによって決定され、前記短期ピークエネルギー変動は、前記サブバンドにおける前記ピークエネルギーおよび前記オーディオフレームの前のオーディオフレームの特定の周波数帯におけるピークエネルギーに従って決定され、
    前記決定ユニットは、前記Q個のサブバンド内に第1のサブバンドが存在しているかどうかを決定することであって、前記第1のサブバンドのローカルピーク対平均比率は、第11のプリセット値より大きく、前記第1のサブバンドのグローバルピーク対平均比率は、第12のプリセット値より大きく、前記第1のサブバンドの短期ピークエネルギー変動は、第13のプリセット値より大きい、決定することをし、前記Q個のサブバンド内に前記第1のサブバンドが存在している場合には、前記現在のオーディオフレームを符号化するために前記第1の符号化方法を使用すると決定するように特に構成される、請求項27に記載の装置。
  29. 前記決定ユニットは、前記N個のオーディオフレームの各々の境界周波数を決定するように特に構成され、
    前記決定ユニットは、前記N個のオーディオフレームの各々の前記境界周波数に従って帯域制限スパース性パラメータを決定するように特に構成される、請求項17に記載の装置。
  30. 前記帯域制限スパース性パラメータは、前記N個のオーディオフレームの前記境界周波数の平均値であり、
    前記決定ユニットは、前記オーディオフレームの前記帯域制限スパース性パラメータが第14のプリセット値未満であると決定された場合には、前記現在のオーディオフレームを符号化するために前記第1の符号化方法を使用すると決定するように特に構成される、請求項29に記載の装置。
JP2016574980A 2014-06-24 2015-06-23 オーディオ符号化方法および装置 Active JP6426211B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410288983.3 2014-06-24
CN201410288983.3A CN105336338B (zh) 2014-06-24 2014-06-24 音频编码方法和装置
PCT/CN2015/082076 WO2015196968A1 (zh) 2014-06-24 2015-06-23 音频编码方法和装置

Publications (2)

Publication Number Publication Date
JP2017523455A JP2017523455A (ja) 2017-08-17
JP6426211B2 true JP6426211B2 (ja) 2018-11-21

Family

ID=54936800

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016574980A Active JP6426211B2 (ja) 2014-06-24 2015-06-23 オーディオ符号化方法および装置

Country Status (16)

Country Link
US (3) US9761239B2 (ja)
EP (2) EP3460794B1 (ja)
JP (1) JP6426211B2 (ja)
KR (2) KR102051928B1 (ja)
CN (3) CN105336338B (ja)
AU (2) AU2015281506B2 (ja)
BR (1) BR112016029380B1 (ja)
CA (1) CA2951593C (ja)
DK (1) DK3460794T3 (ja)
ES (2) ES2883685T3 (ja)
MX (1) MX361248B (ja)
MY (1) MY173129A (ja)
PT (1) PT3144933T (ja)
RU (1) RU2667380C2 (ja)
SG (1) SG11201610302TA (ja)
WO (1) WO2015196968A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105336338B (zh) 2014-06-24 2017-04-12 华为技术有限公司 音频编码方法和装置
US12230287B2 (en) * 2019-10-16 2025-02-18 Panasonic Intellectual Property Corporation Of America Quantization scale factor determination device and quantization scale factor determination method
CN111739543B (zh) * 2020-05-25 2023-05-23 杭州涂鸦信息技术有限公司 音频编码方法的调试方法及其相关装置
CN113948085B (zh) * 2021-12-22 2022-03-25 中国科学院自动化研究所 语音识别方法、系统、电子设备和存储介质

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI101439B1 (fi) * 1995-04-13 1998-06-15 Nokia Telecommunications Oy Transkooderi, jossa on tandem-koodauksen esto
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
DE69926821T2 (de) * 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
US7139700B1 (en) * 1999-09-22 2006-11-21 Texas Instruments Incorporated Hybrid speech coding and system
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6647366B2 (en) * 2001-12-28 2003-11-11 Microsoft Corporation Rate control strategies for speech and music coding
WO2004082288A1 (en) * 2003-03-11 2004-09-23 Nokia Corporation Switching between coding schemes
US20050096898A1 (en) * 2003-10-29 2005-05-05 Manoj Singhal Classification of speech and music using sub-band energy
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
FI118834B (fi) * 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
GB0408856D0 (en) * 2004-04-21 2004-05-26 Nokia Corp Signal encoding
US7739120B2 (en) * 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
US8260611B2 (en) * 2005-04-01 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for highband excitation generation
PT1875463T (pt) 2005-04-22 2019-01-24 Qualcomm Inc Sistemas, métodos e aparelho para nivelamento de fator de ganho
DE102005046993B3 (de) 2005-09-30 2007-02-22 Infineon Technologies Ag Vorrichtung und Verfahren zum Erzeugen eines Leistungssignals aus einem Laststrom
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
JP5096474B2 (ja) * 2006-10-10 2012-12-12 クゥアルコム・インコーポレイテッド オーディオ信号を符号化及び復号化する方法及び装置
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
KR101149449B1 (ko) * 2007-03-20 2012-05-25 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치, 그리고 오디오 신호의디코딩 방법 및 장치
JP5156260B2 (ja) * 2007-04-27 2013-03-06 ニュアンス コミュニケーションズ,インコーポレイテッド 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
KR100925256B1 (ko) * 2007-05-03 2009-11-05 인하대학교 산학협력단 음성 및 음악을 실시간으로 분류하는 방법
KR20100134623A (ko) * 2008-03-04 2010-12-23 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP2139000B1 (en) * 2008-06-25 2011-05-25 Thomson Licensing Method and apparatus for encoding or decoding a speech and/or non-speech audio input signal
US8380523B2 (en) * 2008-07-07 2013-02-19 Lg Electronics Inc. Method and an apparatus for processing an audio signal
RU2507609C2 (ru) * 2008-07-11 2014-02-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и дискриминатор для классификации различных сегментов сигнала
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
CN101615910B (zh) 2009-05-31 2010-12-22 华为技术有限公司 压缩编码的方法、装置和设备以及压缩解码方法
US8606569B2 (en) * 2009-07-02 2013-12-10 Alon Konchitsky Automatic determination of multimedia and voice signals
CN102044244B (zh) * 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
CN101800050B (zh) * 2010-02-03 2012-10-10 武汉大学 基于感知自适应比特分配的音频精细分级编码方法及系统
JP5331249B2 (ja) 2010-07-05 2013-10-30 日本電信電話株式会社 符号化方法、復号方法、装置、プログラムおよび記録媒体
US9208792B2 (en) * 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US8484023B2 (en) 2010-09-24 2013-07-09 Nuance Communications, Inc. Sparse representation features for speech recognition
US9111526B2 (en) * 2010-10-25 2015-08-18 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
BR112013026333B1 (pt) * 2011-04-28 2021-05-18 Telefonaktiebolaget L M Ericsson (Publ) método de classificação de sinal de áudio baseada em quadro, classificador de áudio, dispositivo de comunicação de áudio, e, disposição de codec de áudio
WO2013057895A1 (ja) 2011-10-19 2013-04-25 パナソニック株式会社 符号化装置及び符号化方法
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
CN102737647A (zh) * 2012-07-23 2012-10-17 武汉大学 双声道音频音质增强编解码方法及装置
CN105976824B (zh) 2012-12-06 2021-06-08 华为技术有限公司 信号解码的方法和设备
CN103747237B (zh) * 2013-02-06 2015-04-29 华为技术有限公司 视频编码质量的评估方法及设备
CN103280221B (zh) 2013-05-09 2015-07-29 北京大学 一种基于基追踪的音频无损压缩编码、解码方法及系统
CN103778919B (zh) * 2014-01-21 2016-08-17 南京邮电大学 基于压缩感知和稀疏表示的语音编码方法
CN105336338B (zh) * 2014-06-24 2017-04-12 华为技术有限公司 音频编码方法和装置
CN104217730B (zh) * 2014-08-18 2017-07-21 大连理工大学 一种基于k‑svd的人工语音带宽扩展方法及装置

Also Published As

Publication number Publication date
US20170103768A1 (en) 2017-04-13
CA2951593A1 (en) 2015-12-30
US9761239B2 (en) 2017-09-12
KR20170015354A (ko) 2017-02-08
EP3460794B1 (en) 2021-05-26
CN105336338A (zh) 2016-02-17
KR102051928B1 (ko) 2019-12-04
EP3144933A4 (en) 2017-03-22
RU2017101813A (ru) 2018-07-27
US20170345436A1 (en) 2017-11-30
BR112016029380A2 (pt) 2017-08-22
EP3460794A1 (en) 2019-03-27
AU2015281506A1 (en) 2017-01-05
KR101960152B1 (ko) 2019-03-19
BR112016029380B1 (pt) 2020-10-13
KR20190029778A (ko) 2019-03-20
AU2018203619B2 (en) 2020-02-13
RU2017101813A3 (ja) 2018-07-27
EP3144933B1 (en) 2018-09-26
ES2883685T3 (es) 2021-12-09
ES2703199T3 (es) 2019-03-07
US20190311727A1 (en) 2019-10-10
PT3144933T (pt) 2018-12-18
CN107424621B (zh) 2021-10-26
EP3144933A1 (en) 2017-03-22
US10347267B2 (en) 2019-07-09
CN107424622A (zh) 2017-12-01
CN105336338B (zh) 2017-04-12
MY173129A (en) 2019-12-30
CN107424622B (zh) 2020-12-25
AU2015281506B2 (en) 2018-02-22
DK3460794T3 (da) 2021-08-16
JP2017523455A (ja) 2017-08-17
HK1220542A1 (zh) 2017-05-05
US11074922B2 (en) 2021-07-27
MX2016016564A (es) 2017-04-25
AU2018203619A1 (en) 2018-06-14
MX361248B (es) 2018-11-30
WO2015196968A1 (zh) 2015-12-30
RU2667380C2 (ru) 2018-09-19
CN107424621A (zh) 2017-12-01
SG11201610302TA (en) 2017-01-27
CA2951593C (en) 2019-02-19

Similar Documents

Publication Publication Date Title
US11074922B2 (en) Hybrid encoding method and apparatus for encoding speech or non-speech frames using different coding algorithms
US10600430B2 (en) Signal decoding method, audio signal decoder and non-transitory computer-readable medium
JP6351783B2 (ja) オーディオ信号のビットを割り当てる方法及び装置
EP3525206B1 (en) Encoding method and apparatus
US10134402B2 (en) Signal processing method and apparatus
RU2702265C1 (ru) Способ и устройство обработки сигналов
CN105431902B (zh) 用于音频信号包络编码、处理和解码的装置和方法
HK1241133A1 (zh) 音頻編碼方法和裝置
HK1241133A (en) Audio coding method and apparatus
HK1220542B (en) Audio coding method and apparatus
HK1241133B (zh) 音频编码方法和装置
HK1197112A1 (en) Method and device for bit distribution of audio signal
HK1197112B (en) Method and device for bit distribution of audio signal

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170127

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180313

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180925

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181024

R150 Certificate of patent or registration of utility model

Ref document number: 6426211

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250