JP7764480B2 - 音響信号の統合時間領域/周波数領域符号化のための方法およびデバイス - Google Patents
音響信号の統合時間領域/周波数領域符号化のための方法およびデバイスInfo
- Publication number
- JP7764480B2 JP7764480B2 JP2023541804A JP2023541804A JP7764480B2 JP 7764480 B2 JP7764480 B2 JP 7764480B2 JP 2023541804 A JP2023541804 A JP 2023541804A JP 2023541804 A JP2023541804 A JP 2023541804A JP 7764480 B2 JP7764480 B2 JP 7764480B2
- Authority
- JP
- Japan
- Prior art keywords
- domain
- frequency
- coding
- audio signal
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
- 「音響」という用語は、音声(speech)、音楽および残響音声などの一般オーディオ(generic audio)信号、ならびに任意の他の音響に関係するものとしてよい。
- 線形予測(LP)残差領域で動作し、利用可能なビットが適応コードブック、1つまたは複数の固定コードブック(たとえば、代数コードブック、ガウスコードブックなど)、可変長固定コードブックの間で動的に割り当てられる、時間領域符号化モード、および
- 周波数領域符号化モードを含み、
これは入力音響信号の特性に依存する。
提案された統合時間領域および周波数領域符号化モデルでは、上述の適応コードブック、1つまたは複数の固定コードブック(たとえば、代数コードブック、ガウスコードブックなど)、すなわち、いわゆる時間領域コードブック、および周波数領域量子化(周波数領域符号化モード)は、コードブックライブラリとして見なすことができ、ビットは、すべての利用可能なコードブック、またはそのサブセットの間で分配され得る。これは、たとえば、入力音響信号がクリーンな音声の場合、すべてのビットが時間領域符号化モードに割り当てられ、基本的に符号化をレガシーCELP方式に縮小することを意味する。他方、いくつかの音楽セグメントについては、入力LP残差をエンコードするために割り当てられたすべてのビットは、ときには、周波数領域、たとえば変換領域において費やされるのが最もよい。さらに、(a)時間領域が全利用可能ビットレートのより大きな部分を使用して、周波数情報の一部を符号化するためにビットをそのまま維持しながらより多くの時間領域事象を符号化するか、または(b)低周波数コンテンツが高周波数コンテンツよりも高い優先度を付けられ、およびその逆に優先度を付けられる、特定の場合が追加され得る。
図1は、統合時間領域/周波数領域CELP符号化方法150、および対応する統合時間領域/周波数領域CELP符号化デバイス100、たとえばACELP方法およびデバイスの概要を同時に例示する概略ブロック図である。もちろん、他のタイプのCELP符号化方法およびデバイスも同じ概念を使用して実装され得る。
ここで、
- Cstは
Cst=0.9・Col+0.1・Cst
として定義される平滑化された開ループピッチ相関であり、
- Colは、たとえば、ITU-T勧告G.718、文献[5]、6.6項において説明されているような、CELP符号化の当業者に知られている方法を使用して分析器203によって計算された開ループピッチ相関であり、
-
- σcは、平滑化された開ループピッチ相関の変動である。
- 選択器205による音声信号の決定に応じて、閉ループCELPエンコーダ207(図2)は、音声信号をCELP符号化する動作257を実行するために使用される。
- 選択器205による非音声信号(一般オーディオ)の決定および検出器208による入力音響信号101の時間攻撃の検出の両方に応じて、選択器206は、閉ループCELPエンコーダ207(図2)がメモリレス時間領域符号化モードを使用して入力音響信号を符号化することを強制する。
閉ループCELPエンコーダ207は、図1の時間領域のみのエンコーダ104の一部を形成する。閉ループCELPエンコーダは、当業者によく知られており、本明細書ではこれ以上説明しない。
- 平滑化された開ループピッチ相関Cstが0.96より大きいか、または
- 平滑化された開ループピッチ相関Cstが0.85より高く、現在の総フレームエネルギーEtotと前のフレームの総エネルギーとの差Ediffが0.3dB未満であるか、または
- 平滑化された開ループピッチ相関の変動σCが0.1未満であり、現在の総フレームエネルギーEtotと最後の前のフレームの総エネルギーとの差Ediffが0.6dB未満であるか、または
- 現在の層フレームエネルギーEtotが20dB未満であり、
これが、第1のレベルの分析の決定が変更される少なくとも第2の連続するフレーム(cnt≧2)であるときに、音声/一般オーディオ選択器205は、現在のフレームが、閉ループCELPエンコーダ207(図2)を使用して時間領域のみの符号化モードを使用して符号化されることを決定する。
if (generic audio)
if (Ediff >6dB)
符号化モード=時間領域メモリレス
cnt=1
else if (Cst>0.96|(Cst>0.85&Ediff<0.3dB)|(σc<0.1&Ediff<0.6dB)|Etot<20dB)
cnt++
if(cnt>=2)
符号化モード=時間領域
else
符号化モード=混合時間/周波数領域
cnt=0
ここで、Etotは
x(i)は現在のフレームにおける入力音響信号のサンプルを表し、Nはフレーム別の入力音響信号のサンプルの数であり、Ediffは現在の総フレームエネルギーEtotと最後の前のフレームの総エネルギーとの差である。
- サブモード選択器800は、(a)入力音響信号101を符号化するために利用可能なビットレートが9.2kbpsより高くなく、(b)入力音響信号101が音声にも音楽にも分類されない場合に、上述の後方符号化サブモードを選択する(803参照)。次いで、サブモードフラグFtfsmは「0」に設定される(802参照)。後方符号化モードの選択は、図1および図2のレガシーの統合時間領域および周波数領域符号化モデル(EVS)の使用を引き起こす。
- サブモード選択器800は、(a)入力音響信号101が分類器701によって音声としても音楽としても分類されず、利用可能なビットレートが適応および固定コードブックおよび利得の符号化を可能にするのに十分高く、通常9.2kbpsより高いことを意味する(803参照)、(b)入力音響信号101が音楽である確率(音楽となる傾向を有する重み付き音声/音楽決定、wdlp(n))が「0」以下である(804参照)、および(c)入力音響信号の現在のフレームにおいて時間攻撃の可能性が検出されない(ITU-T勧告G.718、文献[5]、6.8.1.4項および6.8.4.2項において説明されているように遷移カウンタが「0」以下である)場合、第1の符号化サブモードを選択する(806参照)。次いで、サブモードフラグFtfsmは「1」に設定される(801参照)。入力音響信号101は、分類器701によって音声にも音楽にも分類されないが、選択器800は、入力音響信号101において「音声」に似た特性を検出し、そのような音響信号を符号化するためにCELPは最適でないので、第1の符号化サブモード(サブモードフラグFtfsm=1)を選択する。
- サブモード選択器800は、(a)入力音響信号101が分類器701によって音声としても音楽としても分類されず、利用可能なビットレートが適応および固定コードブックおよび利得の符号化を可能にするのに十分高く、通常9.2kbpsであることを意味する(803参照)、(b)入力音響信号101が音楽である確率(音楽となる傾向を有する重み付き音声/音楽決定、wdlp(n))が「0」以下である(804参照)、および(c)入力音響信号の現在のフレームにおいて時間攻撃の可能性が検出される(ITU-T勧告G.718、文献[5]、6.8.1.4項および6.8.4.2項において説明されているように遷移カウンタが「0」より大きい)場合、第2の符号化サブモードを選択する(806参照)。次いで、サブモードフラグFtfsmは「2」に設定される(807参照)。以下の説明で説明されるように、第2の符号化サブモード(サブモードフラグFtfsm=2)は、スペクトルの下側部分に多くのビットを割り当てる。
- サブモード選択器800は、(a)入力音響信号101が分類器701によって音声にも音楽にも分類されず、利用可能なビットレートが少なくとも適応コードブックおよび利得の符号化を可能にするのに十分高く、さらに周波数符号化のために著しい量のビットを有し、通常これは9.2kbpsより高いビットレートを意味する、および(b)入力音響信号101が音楽である確率(音楽となる傾向を有する重み付き音声/音楽決定、wdlp(n))が「0」より大きい場合、第3の符号化サブモードを選択する(804参照)。次いで、サブモードフラグFtfsmは「3」に設定される(808参照)。入力音響信号101は、分類器701によって音声にも音楽にも分類されないが、選択器800は、入力音響信号101において「音楽」に似た特性を検出し、第3の符号化サブモード(サブモードフラグFtfsm=3)を選択する。そのような音響信号セグメントは、依然として非音楽と見なされるが、サブモードフラグFtfsmは、サンプルが高い周波数または音色コンテンツを含むことを指示する「3」(第3の符号化サブモードの選択)に設定される。
入力音響信号101が音声もしくは音楽であるかまたはその中間である確率は、文献[4]において説明されている。音声または音楽分類の決定が不明瞭であるときに、確率wdlp(n)が0より大きい場合、信号は何らかの音楽特性を有すると考えられる。以下の表は、確率が音楽または音声と考えられる十分な高さとなる場合の閾値を示している
典型的なCELPでは、入力音響信号サンプルは、10~30msのフレームで処理され、これらのフレームは、適応コードブック分析および固定コードブック分析のためにサブフレームに分割される。たとえば、20msのフレーム(内部サンプリングレートが12.8kHzのときには256サンプル)が使用され、5msの4つのサブフレームに分割され得る。可変サブフレーム長は、時間領域および周波数領域を1つの符号化モードに統合するために使用される特徴である。サブフレーム長は、フレーム長の典型的な1/4から、フレーム長の半分、または完全なフレーム長まで変化することができる。もちろん、他の数のサブフレーム(サブフレーム長)の使用も、場合によっては実装され得る。
- 第1または第2の符号化サブモード(サブモードフラグFtfsmが「1」または「2」に設定される)において、音響信号分類器701は、入力音響信号101を符号化するために利用可能なビットレートが15kbps未満でない限り、個数が4つのサブフレームを決定し、次いで、2つのサブフレームを使用する符号化モードが選択される。両方の場合において、対応する数の固定コードブック、すなわち、個数が2つまたは4つの固定コードブックが使用される。
- 第3の符号化モード(サブモードフラグFtfsmが3に設定され、これは入力音響信号101の内容が音楽に近い(入力音響信号101において「音楽」に似た特性が検出される)ことを意味する)では、音響信号分類器701は、入力音響信号101を符号化するために利用可能なビットレートが22.6kbps以上でない限り、サブフレームの数は4であるが、周波数領域励振寄与に利用可能なより多くのビットを保持するために固定コードブック寄与が使用されないと決定する。
統合時間領域/周波数領域CELP符号化デバイス100および方法150(図1)において、混合時間領域/周波数領域符号化方法170および対応する混合時間領域/周波数領域エンコーダ120は、入力音響信号101の分類として選択器205によって一般オーディオが選択され、検出器208において時間攻撃が検出されないときに使用される。代替的に、統合時間領域/周波数領域CELP符号化デバイス700および方法750(図7)において、音響信号分類器701が入力音響信号101を「不明瞭信号タイプ」カテゴリに分類し、上で定義された第1、第2および第3の符号化サブモードのうちの1つが選択される(サブモードフラグFtfsmが「1」、「2」、または「3」に設定される)ときに混合時間領域/周波数領域符号化方法770および対応する混合時間領域/周波数領域エンコーダ720が使用される。
混合時間領域/周波数領域符号化モードの周波数領域符号化において、2つの信号は変換領域、たとえば周波数領域内で表現される。一実施形態において、時間周波数変換は、12.8kHzの内部サンプリングレートで25Hzの分解能を与える256点のタイプII(またはタイプIV)DCT(離散コサイン変換)を使用して達成され得るが、任意の他の好適な変換も使用され得る。他の変換が使用される場合、周波数分解能(上で定義されている)、周波数帯域の数、帯域あたりの周波数ビンの数(以下でさらに定義される)は、しかるべく変更される必要があり得る。
etd(n)=bv(n)+gc(n)
で与えられる。
一般オーディオ(図1)または「不明瞭信号タイプ」カテゴリ(図7)に分類される音響信号サンプルでは、時間領域励振寄与は、周波数領域符号化と比較して符号化の改善に必ずしも大きく寄与しない。多くの場合、これはスペクトルの低い部分の符号化を改善するが、スペクトルの高い部分の符号化改善は最小である。混合時間領域/周波数領域エンコーダ120/720は、時間領域励振寄与によってもたらされる符号化改善が低すぎて役立たなくなるカットオフ周波数を決定する動作158を実行するためのカットオフ周波数ファインダおよびフィルタ108(図1および図7)を含む。カットオフ周波数ファインダおよびフィルタ108は、図2に例示されているように、カットオフ周波数の計算器215およびフィルタ216から構成される。
例示的な一実施形態において、
α=0.95、δ=(1-α)、Nb=13、β=δ/2
である。
Fs=12800Hzは内部サンプリングレートまたは周波数であり、Nsubは1つのフレーム内のサブフレームの数であり、T(i)はサブフレームiに対する適応コードブックインデックスまたはピッチラグである。
その帯域のインデックスは、
- カットオフ周波数の計算器215は、ゼロにされるべき周波数帯域の周波数ビンの数を決定する動作357を実行するための決定器307(図3)をさらに含み、
- 決定器307それ自体は、パラメータの分析の動作465を実行するための分析器415(図4)と、ゼロにされるべき周波数ビンを選択する動作466を実行するための選択器416(図4)とを含み、
- フィルタ216(図2)は周波数領域で動作し、フィルタリング動作266を実行するためにゼロ化器(zeroer)308(図3)を含む。対応する動作358は、決定器307においてゼロにされることが決定された周波数ビンをゼロにする。ゼロ化器308は、(a)すべての周波数ビンをゼロにするか(図4のゼロ化器417および対応するゼロにする動作467)、または(b)平滑遷移領域(図4のフィルタ418および対応するフィルタリング動作468)で補われるカットオフ周波数ftcより上に位置するより高い周波数のビンをゼロにし得る。遷移領域は、カットオフ周波数ftcより上に、ゼロにされたビンより下に配置され、カットオフ周波数ftcより下の無変化のスペクトルと、より高い周波数におけるゼロにされたビンとの間の平滑スペクトル遷移を可能にする。
ftcQ={0,1175,1575,1975,2375,2775,3175,3575}
のようにHz単位で定義される。
ftc>2375Hz
または
ftc>1175HzかつCol>0.7かつGlt≧0.6
または
ftc≧1175HzかつCst>0.8かつGlt≧0.4
または
ftcQ(t -1)!=0かつCol>0.5かつCst>0.5かつGlt≧0.6
が満たされるとき、すなわちftcQが0に設定され得ないときにそのような周波数領域符号化のみを許さない。
6.1)差分ベクトルの作成
時間領域励振寄与のカットオフ周波数ftcが決定された後、周波数領域符号化が実行される。そのような周波数領域符号化を実行するために、混合時間領域/周波数領域符号化方法170/770は、減算動作159と、周波数量子化動作160と、加算動作161とを含む。混合時間領域/周波数領域エンコーダ120/720は、減算器または計算器109、周波数量子化器110、および加算器111を含み、それぞれ動作159、160および161を実行する。
fd(k)=fres(k)-fexc(k)、
ここで、0≦k≦ftc/fbin
それ以外の場合、fd(k)=fres(k)
として構築され得る、
ここで、fres、fexc、およびftcは。前述の説明においてすでに定義されている。
6.2.1)利用可能なビットの一部をより低い周波数に割り当てる
図7に例示されているように統合時間領域/周波数領域CELP符号化方法750では、混合時間領域/周波数領域エンコーダ720は、帯域選択器およびビット割り当て器707を含み、混合時間領域/周波数領域符号化方法770は、帯域選択およびビット割り当て検出757の対応する動作を含む。
ここで、PBlfは、差分ベクトルfdのより低い周波数の周波数量子化に割り当てられた利用可能なビットの割合である。この例では、より低い周波数は、最初の5つの周波数帯域、または最初の2つのkHzを指す。項Lf(ftcQ)は、量子化されたカットオフ周波数ftcQまでの周波数ビンの数を指す。
差分ベクトルfdを周波数量子化するために利用可能な周波数帯域あたりのビットの総数に影響を及ぼす他のパラメータは、量子化するこの差分ベクトルfdの周波数帯域の推定される最大数NBmxである。現在説明されている例示的な例では、12.8kHzの内部サンプリングレートにおいて、周波数帯域の最大総数Nttは16である。
ここで、BFは差分ベクトルfdの周波数量子化に利用可能なビットの数を表し(900参照)、BTは処理中のチャネルを符号化するために利用可能な総ビットレートであり(900参照)、Ftfsmはサブモードフラグであり(900参照)、Nttは周波数帯域の最大総数である。
ここで、
帯域選択およびビット割り当て動作757は、低周波数ビットを計算する動作953を含む。動作953を実行するために、計算器903が提供される。周波数帯域の最大数
ここで、BLFは、5つのより低い周波数帯域に割り当てられたビットに対応し、BFは、差分ベクトルfdのより低い周波数を周波数量子化するために利用可能なビットの数に対応し、PBlfは、たとえば、5つのより低い周波数帯域の周波数量子化に割り当てられた推定器901からのビットの上述の割合であり、mpは、周波数帯域を量子化するために割り当てられたビットの最小数であり、mbは、5つの(5つの)低い周波数帯域の後の第1の周波数帯域を量子化するために割り当てられたビット数である。
帯域選択およびビット割り当て動作757は、周波数帯域の特性化の動作954を含む。動作954を実行するために、帯域選択器およびビット割り当て器707は、ビットレートがより低い周波数帯域とそれらの周波数帯域の残り部分との間に分配された後、各帯域の重要度を決定するために、周波数帯域の二重ソートを行う周波数帯域特性化器904を含む。第1のソートは、1つまたは複数の帯域が隣接周波数帯域と比較してより低いエネルギーを有するかどうかを見出すことを含む。それが生じたときに、特性化器904は、利用可能なビットバジェットが高い場合であっても、事前決定された最小数mpのビットのみがこれらの低エネルギーの周波数帯域の周波数量子化に割り当てられることができるようにこれらの帯域をマークする。第2のソートは、たとえば、エネルギーの降順で、中間および高エネルギーの周波数帯域の位置ソートを行うことを含む。これらの第1および第2のソート(二重ソート)は、より低い周波数帯域については実行されないが、周波数帯域の最大数
ここで、Ppb(i)は、最小数mpのビットのみが使用される周波数帯域に対して「1」に設定され、
帯域選択およびビット割り当て動作757は、周波数帯域あたりのビットの最終分配の動作955を含む。動作955を実行するために、帯域選択器およびビット割り当て器707は、周波数帯域あたりのビットの最終分配器905を含む。
ここで、Bp(i)は、周波数帯域iあたりの割り当てられたビットの数を表し、BFは、差分ベクトルfdを周波数量子化するために利用可能なビットの数を表し、BLFは、5つのより低い周波数帯域に割り当てられたビットレートまたはビットに対応し、mpは、周波数帯域内の周波数パルスを量子化するビットの最小数であり、Ppb(i)は、ビットの最小数mpが使用される位置を含み、
混合時間領域/周波数領域CELP符号化方法170/770は、差分ベクトルfdを周波数量子化する動作160(図1、図2および図7)を含む。動作160を実行するために、混合時間領域/周波数領域CELPエンコーダ120/720は、周波数量子化器110(図2の219)を含む。
利用可能なビットレートに応じて、周波数パルスの量子化は、異なる技術を使用する周波数量子化器110によって実行され得る。一実装形態において、12kbps未満のビットレートでは、パルスの位置および符号を符号化するために、単純な検索および量子化スキームが使用され得る。このスキームは、非限定的な一例として本明細書において以下で説明されている。
ここで、NBDは周波数帯域の数であり(例示的な例ではNBD=16)、Npは周波数帯域kにおいて符号化されるべきパルスiの数であり、Bbは周波数帯域あたりの周波数ビンの数であり、CBpは前の5項ですでに定義されているようなバンドあたりの累積周波数ビンであり、ppは見つかったパルス位置を含むベクトルを表し、psは見つかったパルスの符号を含むベクトルを表し、pmaxは見つかったパルスのエネルギーを表す。
for j=0,..., j<nb_pulses
fdQ(pp(j))+=ps(j)
を使用して記述され得る。
周波数帯域が量子化される精度は高かったり低かったりするが、前項で説明された量子化方法では、周波数帯域内のすべての周波数ビンが量子化されることを保証しない。これは、特に、周波数帯域毎に量子化されるパルスの数が比較的少ない低ビットレートにおいて特に当てはまる。これらの未量子化周波数ビンに起因する可聴アーチファクトの出現を防ぐために、周波数量子化器110はノイズフィラー507(図5)を含み、これらのギャップを埋めるために未量子化周波数ビンにいくつかのノイズを付加する対応する動作557を実行する。このノイズ追加は、たとえば、12kbps未満のビットレートでは全スペクトルにわたって行われ得るが、より高いビットレートでは、時間領域励振寄与のカットオフ周波数ftcより上でのみ適用され得る。簡単のため、ノイズ強度は利用可能なビットレートでのみ変化する。高ビットレートでは、ノイズレベルは低いが、低ビットレートではノイズレベルは高い。
ここで、帯域iについて、CBbは周波数帯域あたりの周波数ビンの累積数であり、Bbは特定の帯域iにおける周波数ビンの数であり、NLは加えられるノイズのレベルであり、randは-1から1の間に制限される乱数発生器である。
図5および図6を参照すると、統合時間領域/周波数領域符号化デバイス100および方法150の周波数量子化動作160は、周波数帯域あたりの利得を決定する動作665と、それに続く、帯域あたりの利得を量子化する動作666を含む。周波数量子化器110は、動作665および666を実行するために、帯域あたりの利得計算器615および帯域あたりの利得量子化器616を含む。
ここで、CBbおよびBbは、本明細書において上の5項で定義されている。
ここで、CBbおよびBbは、本明細書において上の5項で定義されている。
ここで
図11は、上で説明されている統合時間領域/周波数領域符号化デバイス700および対応する統合時間領域/周波数領域符号化方法750からビットストリーム1101をデコードするためのデコーダデバイス1100および対応するデコード方法1150を同時に例示する概略ブロック図である。
図12は、不明瞭信号タイプカテゴリに分類される音響信号の場合に上で説明されている統合時間領域/周波数領域符号化デバイス700および対応する統合時間領域/周波数領域符号化方法750からビットストリームをデコードするための音響信号デコーダ1200および対応する音響信号デコード方法1250を同時に示す概略ブロック図である。
- 図12の推定器1201および動作1251は、量子化されたカットオフ周波数ftcQの関数として差分ベクトルfdのより低い周波数を量子化するために利用可能なビットバジェットの一部を事前固定する、図9の推定器901および動作951に対応する。
- 図12の推定器1202および動作1252は、量子化された差分ベクトルfdQの周波数帯域の最大数NBmxを推定する、図9の推定器902および動作952に対応する。
- 図12の計算器1203および動作1253は、より低い周波数のビットを計算する、図9の計算器903および動作953に対応する。
- 図12の計算器1204および動作1254は、周波数帯域特性化を行う、図9の特性化器904および動作954に対応する。
- 図12の分配器1205および動作1255は、周波数帯域あたりのビットの最終分配を行う、図9の分配器905および動作955に対応する。
図10は、上で説明されている統合時間領域/周波数領域符号化デバイス100/700および方法150/750、デコーダデバイス1100およびデコード方法1150を形成するハードウェアコンポーネントの例示的な構成の簡略化されたブロック図である。
9)参考文献
本開示は、以下の参照文献について言及し、その全内容は参照により本明細書に組み込まれる。
101 入力音響信号
102 プリプロセッサ
103 時間/時間周波数符号化選択器
104 時間領域のみのエンコーダ
105 時間領域励振寄与の計算器
106 計算器
107 計算器
108 カットオフ周波数ファインダおよびフィルタ
109 減算器または計算器
110 周波数量子化器
111 加算器
120、720 混合時間領域/周波数領域エンコーダ
126 計算器
150 統合時間領域/周波数領域CELP符号化方法
152 動作
155 動作
156 動作
158 動作
159 減算動作
160 周波数量子化動作
161 加算動作
170、770 混合時間領域/周波数領域符号化方法
201 LP分析器
202 スペクトル分析器
203 開ループピッチ分析器
204 信号分類器
205 音声/一般的オーディオ選択器
206 選択器
207 閉ループCELPエンコーダ
208 時間攻撃検出器
209 高スペクトル力学分析器
210 サブフレーム数の計算器
211 分析器
212 固定代数コードブック
213 DCT
214 DCT
215 カットオフ周波数の計算器
216 フィルタ
220 IDCT(逆DCT)
251 動作
252 動作
253 動作
254 動作
255 動作
256 動作
257 動作
258 動作
259 操作
260 動作
261 動作
262 動作
265 動作
266 フィルタリング動作
301 入力LP残差
302 時間領域励振寄与
303 コンピュータ
304 平滑器
305 計算器
306 カットオフ周波数モジュール
307 決定器
308 ゼロ化器
309 量子化器
353 動作
354 動作
355 動作
357 動作
358 動作
359 動作
406 相互相関の制限器
407 正規化器
408 ファインダ
409 ファインダ
410 外挿器
411 選択器
412 長期平均ピッチ利得Glt
413 開ループピッチ相関Col
414 平滑化開ループピッチ相関Cst
415 分析器
416 選択器
417 ゼロ化器
418 フィルタ
456 動作
457 動作
459 動作
460 動作
465 動作
466 動作
467 動作
468 フィルタリング動作
501 周波数変換fexc
502 周波数変換fres
504 選択器
505 FPC符号化器
506 符号化器
507 ノイズフィラー
509 乗算器
554 動作
555 動作
556 動作
557 動作
559 動作
603 ダウンスケール係数
604 乗算器
607 検索器
608 FPCプロセッサ
609 周波数パルスの検索器
610 FPC符号化器
611 ファインダ
612 量子化器
613 加算器
614 推定器
615 計算器
616 量子化器
654 乗算動作
659 周波数パルス検索動作
660 FPC符号化動作
661 動作
662 動作
663 動作
664 動作
665 動作
666 動作
667 動作
668 動作
700 統合時間領域/周波数領域CELP符号化デバイス
701 音響信号分類器
702 プリプロセッサ
703 周波数領域エンコーダ
704 シンセサイザ
705 時間領域エンコーダ
706 シンセサイザ
707 ビット割り当て器
708 計算器
720 混合時間領域/周波数領域エンコーダ
750 統合時間領域/周波数領域CELP符号化方法
751 動作
752 動作
753 動作
754 音楽合成動作
755 動作
756 合成フィルタリング動作
757 ビット割り当て検出
758 動作
770 混合時間領域/周波数領域符号化方法
800 サブモード選択器
850 動作
902 推定器
903 計算器
904 特性化器
905 周波数帯域あたりのビットの最終分配器
951 第1の動作
952 動作
953 動作
954 動作
955 動作
1001 プロセッサ
1002 入力
1003 出力
1004 メモリ
1100 デコーダデバイス
1101 ビットストリーム
1103 「音楽」デコーダ
1105 「音声」デコーダ
1150 デコード方法
1200 音響信号デコーダ
1201 推定器
1202 推定器
1203 計算器
1204 計算器
1205 分配器
1207 計算器
1208 フィルタ
1209 加算器
1210 計算器
1211 計算器
1212 加算器、変換器
1213 LP(線形予測)合成フィルタ
1263 動作
1250 音響信号デコード方法
1251 動作
1252 動作
1253 動作
1254 動作
1255 動作
1256 動作
1257 動作
1258 動作
1259 加算動作
1260 動作
1261 動作
1262 動作
Claims (34)
- 入力音響信号を符号化するための統合時間領域/周波数領域符号化デバイスであって、
前記入力音響信号を複数の音響信号カテゴリのうちの1つに分類する分類器であって、前記音響信号カテゴリは、前記入力音響信号の性質が不明瞭であることを示す不明瞭信号タイプカテゴリを含む、分類器と、
前記入力音響信号が前記不明瞭信号タイプカテゴリに分類される場合、前記入力音響信号を符号化するために複数の符号化サブモードのうちの1つを選択する選択器と、
前記選択された符号化サブモードを使用して前記入力音響信号を符号化するための混合時間領域/周波数領域エンコーダとを含む統合時間領域/周波数領域符号化デバイス。 - 前記音響信号カテゴリは、音声、音楽、および前記入力音響信号が音声にも音楽にも分類されないことを示す不明瞭信号タイプを含む請求項1に記載の統合時間領域/周波数領域符号化デバイス。
- 前記選択器は、前記入力音響信号を符号化するためのビットレートおよび前記不明瞭信号タイプカテゴリに分類された前記入力音響信号の特性に応じて前記符号化サブモードを選択する請求項1または2に記載の統合時間領域/周波数領域符号化デバイス。
- 前記符号化サブモードは、それぞれのサブモードフラグによって識別される請求項1から3のいずれか一項に記載の統合時間領域/周波数領域符号化デバイス。
- 前記選択器は、(a)前記入力音響信号を符号化するために利用可能なビットレートが第1の所与の値以下であり、(b)前記入力音響信号が音声にも音楽にも分類されない場合、前記入力音響信号を符号化するためのレガシーの統合時間領域および周波数領域符号化モデルを使用する後方符号化サブモードを選択する請求項3または4に記載の統合時間領域/周波数領域符号化デバイス。
- 前記選択器は、前記入力音響信号において「音声」に似た特性が検出された場合、第1の符号化サブモードを選択する請求項3から5のいずれか一項に記載の統合時間領域/周波数領域符号化デバイス。
- 前記選択器は、(a)前記入力音響信号が前記分類器によって音声にも音楽にも分類されず、前記入力音響信号を符号化するために利用可能なビットレートが第2の所与の値より高く、(b)前記入力音響信号が音楽である確率が第3の所与の値以下であり、(c)前記入力音響信号の現在のフレーム内で時間攻撃が検出されない場合、前記第1の符号化サブモードを選択する請求項6に記載の統合時間領域/周波数領域符号化デバイス。
- 前記選択器は、前記入力音響信号において時間攻撃が検出された場合、第2の符号化サブモードを選択する請求項3から7のいずれか一項に記載の統合時間領域/周波数領域符号化デバイス。
- 前記選択器は、(a)前記入力音響信号が前記分類器によって音声にも音楽にも分類されず、前記入力音響信号を符号化するために利用可能なビットレートが第4の所与の値より高く、(b)前記入力音響信号が音楽である確率が第5の所与の値以下であり、(c)前記入力音響信号の現在のフレーム内で時間攻撃が検出された場合、前記第2の符号化サブモードを選択する請求項8に記載の統合時間領域/周波数領域符号化デバイス。
- 前記選択器は、前記入力音響信号において「音楽」に似た特性が検出された場合、第3の符号化サブモードを選択する請求項3から9のいずれか一項に記載の統合時間領域/周波数領域符号化デバイス。
- 前記選択器は、(a)前記入力音響信号が前記分類器によって音声にも音楽にも分類されず、前記入力音響信号を符号化するために利用可能なビットレートが第6の所与の値より高く、(b)前記入力音響信号が音楽である確率が第7の所与の値より大きい場合、前記第3の符号化サブモードを選択する請求項10に記載の統合時間領域/周波数領域符号化デバイス。
- 前記選択器は、前記入力音響信号において「音声」に似た特性が検出された場合、第1の符号化サブモードを選択し、
前記選択器は、前記入力音響信号において時間攻撃が検出された場合、第2の符号化サブモードを選択し、
前記選択器は、前記入力音響信号において「音楽」に似た特性が検出された場合、第3の符号化サブモードを選択する請求項1から5のいずれか一項に記載の統合時間領域/周波数領域符号化デバイス。 - 前記選択器は、(a)前記第3の符号化サブモードにおいて、前記入力音響信号を符号化するためにフレーム毎の所与の数のサブフレームを、ならびに(b)第1および第2の符号化サブモードにおいて、前記所与の数より少ない、前記入力音響信号を符号化するために利用可能なビットレートに依存する、数のサブフレームを選択する請求項12に記載の統合時間領域/周波数領域符号化デバイス。
- 入力音響信号を符号化するための統合時間領域/周波数領域符号化方法であって、
前記入力音響信号を複数の音響信号カテゴリのうちの1つに分類するステップであって、前記音響信号カテゴリは、前記入力音響信号の性質が不明瞭であることを示す不明瞭信号タイプカテゴリを含む、ステップと、
前記入力音響信号が前記不明瞭信号タイプカテゴリに分類される場合、前記入力音響信号を符号化するために複数の符号化サブモードのうちの1つを選択するステップと、
前記選択された符号化サブモードを使用して前記入力音響信号を混合時間領域/周波数領域符号化するステップとを含む統合時間領域/周波数領域符号化方法。 - 前記音響信号カテゴリは、音声、音楽、および前記入力音響信号が音声にも音楽にも分類されないことを示す不明瞭信号タイプを含む請求項14に記載の統合時間領域/周波数領域符号化方法。
- 複数の符号化サブモードのうちの1つを選択するステップは、前記入力音響信号を符号化するためのビットレートおよび前記不明瞭信号タイプカテゴリに分類された前記入力音響信号の特性に応じて前記符号化サブモードを選択するステップを含む請求項14または15に記載の統合時間領域/周波数領域符号化方法。
- それぞれのサブモードフラグによって前記符号化サブモードを識別するステップを含む請求項14から16のいずれか一項に記載の統合時間領域/周波数領域符号化方法。
- 複数の符号化サブモードのうちの1つを選択するステップは、(a)前記入力音響信号を符号化するために利用可能なビットレートが第1の所与の値以下であり、(b)前記入力音響信号が音声にも音楽にも分類されない場合、前記入力音響信号を符号化するためのレガシーの統合時間領域および周波数領域符号化モデルを使用する後方符号化サブモードを選択するステップを含む請求項16または17に記載の統合時間領域/周波数領域符号化方法。
- 複数の符号化サブモードのうちの1つを選択するステップは、前記入力音響信号において「音声」に似た特性が検出された場合、第1の符号化サブモードを選択するステップを含む請求項16から18のいずれか一項に記載の統合時間領域/周波数領域符号化方法。
- 前記第1の符号化サブモードは、(a)前記入力音響信号が音声にも音楽にも分類されず、前記入力音響信号を符号化するために利用可能なビットレートが第2の所与の値より高く、(b)前記入力音響信号が音楽である確率が第3の所与の値以下であり、(c)前記入力音響信号の現在のフレーム内で時間攻撃が検出されない場合、選択される請求項19に記載の統合時間領域/周波数領域符号化方法。
- 複数の符号化サブモードのうちの1つを選択するステップは、前記入力音響信号において時間攻撃が検出された場合、第2の符号化サブモードを選択するステップを含む請求項16から20のいずれか一項に記載の統合時間領域/周波数領域符号化方法。
- 前記第2の符号化サブモードは、(a)前記入力音響信号が音声にも音楽にも分類されず、前記入力音響信号を符号化するために利用可能なビットレートが第4の所与の値より高く、(b)前記入力音響信号が音楽である確率が第5の所与の値以下であり、(c)前記入力音響信号の現在のフレーム内で時間攻撃が検出された場合、選択される請求項21に記載の統合時間領域/周波数領域符号化方法。
- 複数の符号化サブモードのうちの1つを選択するステップは、前記入力音響信号において「音楽」に似た特性が検出された場合、第3の符号化サブモードを選択するステップを含む請求項16から22のいずれか一項に記載の統合時間領域/周波数領域符号化方法。
- 前記第3の符号化サブモードは、(a)前記入力音響信号が音声にも音楽にも分類されず、前記入力音響信号を符号化するために利用可能なビットレートが第6の所与の値より高く、(b)前記入力音響信号が音楽である確率が第7の所与の値より大きい場合、選択される請求項23に記載の統合時間領域/周波数領域符号化方法。
- 第1の符号化サブモードは、前記入力音響信号において「音声」に似た特性が検出された場合、選択され、
第2の符号化サブモードは、前記入力音響信号において時間攻撃が検出された場合、選択され、
第3の符号化サブモードは、前記入力音響信号において「音楽」に似た特性が検出された場合、選択される請求項14から18のいずれか一項に記載の統合時間領域/周波数領域符号化方法。 - 複数の符号化サブモードのうちの1つを選択するステップは、(a)前記第3の符号化サブモードにおいて、前記入力音響信号を符号化するためにフレーム毎の所与の数のサブフレームを、ならびに(b)前記第1および第2の符号化サブモードにおいて、前記所与の数より少ない、前記入力音響信号を符号化するために利用可能なビットレートに依存する、数のサブフレームを、選択するステップを含む請求項25に記載の統合時間領域/周波数領域符号化方法。
- 音響信号デコーダであって、
音響信号の性質が不明瞭であることを示す不明瞭信号タイプカテゴリに分類された前記音響信号を表す混合時間領域/周波数領域励振を再構成するために使用可能な情報を伝達するビットストリームを受信する受信器であって、前記情報は、前記不明瞭信号タイプカテゴリに分類された入力音響信号を符号化するために使用される複数の符号化サブモードのうちの1つを含む、受信器と、
前記入力音響信号を符号化するために使用される前記符号化サブモードを含む、前記ビットストリームで伝達される前記情報に応じて前記混合時間領域/周波数領域励振を再構成する再構成器と、
前記混合時間領域/周波数領域励振を時間領域に変換する変換器と、
時間領域に変換された前記混合時間領域/周波数領域励振をフィルタリングして前記音響信号の合成バージョンを生成する合成フィルタとを含む音響信号デコーダ。 - 前記符号化サブモードは、サブモードフラグによって前記ビットストリームにおいて識別される請求項27に記載の音響信号デコーダ。
- 前記符号化サブモードは、(a)前記音響信号が「音声」に似た特性を含む場合、第1の符号化サブモード、(b)前記音響信号が時間攻撃を含む場合、第2の符号化サブモード、(c)前記音響信号が「音楽」に似た特性を含む場合、第3の符号化サブモードを含む請求項27または28に記載の音響信号デコーダ。
- 前記再構成器は、前記ビットストリームで伝達される情報から時間領域励振寄与の周波数表現を回復し、周波数領域励振寄与と前記時間領域励振寄与の前記周波数表現との間の周波数量子化差分ベクトルを再構成し、周波数量子化差分ベクトルを前記時間領域励振寄与の前記周波数表現に加え、前記混合時間領域/周波数領域励振を生成する請求項27から29のいずれか一項に記載の音響信号デコーダ。
- 音響信号デコード方法であって、
音響信号の性質が不明瞭であることを示す不明瞭信号タイプカテゴリに分類された前記音響信号を表す混合時間領域/周波数領域励振を再構成するために使用可能な情報を伝達するビットストリームを受信するステップであって、前記情報は、前記不明瞭信号タイプカテゴリに分類された前記音響信号を符号化するために使用される複数の符号化サブモードのうちの1つを含む、ステップと、
入力音響信号を符号化するために使用される前記符号化サブモードを含む、前記ビットストリームで伝達される前記情報に応じて、前記混合時間領域/周波数領域励振を再構成するステップと、
前記混合時間領域/周波数領域励振を時間領域に変換するステップと、
時間領域に変換された前記混合時間領域/周波数領域励振を合成フィルタを通してフィルタリングして前記音響信号の合成バージョンを生成するステップとを含む音響信号デコード方法。 - 前記符号化サブモードは、サブモードフラグによって前記ビットストリームにおいて識別される請求項31に記載の音響信号デコード方法。
- 前記符号化サブモードは、(a)前記音響信号が「音声」に似た特性を含む場合、第1の符号化サブモード、(b)前記音響信号が時間攻撃を含む場合、第2の符号化サブモード、(c)前記音響信号が「音楽」に似た特性を含む場合、第3の符号化サブモードを含む請求項31または32に記載の音響信号デコード方法。
- 前記混合時間領域/周波数領域励振を再構成するステップは、前記ビットストリームで伝達された前記情報から時間領域励振寄与の周波数表現を回復するステップと、前記ビットストリームで伝達された前記情報から周波数領域励振寄与と前記時間領域励振寄与の前記周波数表現との間の周波数量子化差分ベクトルを再構成するステップと、前記周波数量子化差分ベクトルを前記時間領域励振寄与の前記周波数表現に加えて前記混合時間領域/周波数領域励振を生成するステップとを含む請求項31から33のいずれか一項に記載の音響信号デコード方法。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202163135171P | 2021-01-08 | 2021-01-08 | |
| US63/135,171 | 2021-01-08 | ||
| PCT/CA2022/050006 WO2022147615A1 (en) | 2021-01-08 | 2022-01-05 | Method and device for unified time-domain / frequency domain coding of a sound signal |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2024503392A JP2024503392A (ja) | 2024-01-25 |
| JP2024503392A5 JP2024503392A5 (ja) | 2025-01-14 |
| JP7764480B2 true JP7764480B2 (ja) | 2025-11-05 |
Family
ID=82357063
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023541804A Active JP7764480B2 (ja) | 2021-01-08 | 2022-01-05 | 音響信号の統合時間領域/周波数領域符号化のための方法およびデバイス |
Country Status (9)
| Country | Link |
|---|---|
| US (1) | US20240321285A1 (ja) |
| EP (1) | EP4275204B1 (ja) |
| JP (1) | JP7764480B2 (ja) |
| KR (1) | KR20230128541A (ja) |
| CN (1) | CN117178322A (ja) |
| CA (1) | CA3202969A1 (ja) |
| ES (1) | ES3035793T3 (ja) |
| MX (1) | MX2023008074A (ja) |
| WO (1) | WO2022147615A1 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA3212631A1 (en) * | 2021-03-11 | 2022-09-15 | Dolby Laboratories Licensing Corporation | Audio codec with adaptive gain control of downmixed signals |
| KR102481362B1 (ko) * | 2021-11-22 | 2022-12-27 | 주식회사 코클 | 음향 데이터의 인식 정확도를 향상시키기 위한 방법, 장치 및 프로그램 |
| CN118571235A (zh) * | 2023-02-28 | 2024-08-30 | 华为技术有限公司 | 音频编解码方法及相关装置 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011514558A (ja) | 2008-03-04 | 2011-05-06 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号処理方法及び装置 |
| JP2011203737A (ja) | 1998-08-24 | 2011-10-13 | Mindspeed Technologies Inc | 音声信号内の雑音様信号の存在に基づく音声パラメータの平滑化 |
Family Cites Families (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7739120B2 (en) * | 2004-05-17 | 2010-06-15 | Nokia Corporation | Selection of coding models for encoding an audio signal |
| ATE371926T1 (de) * | 2004-05-17 | 2007-09-15 | Nokia Corp | Audiocodierung mit verschiedenen codierungsmodellen |
| KR100854534B1 (ko) * | 2004-05-19 | 2008-08-26 | 노키아 코포레이션 | 오디오 코더 모드들 간의 스위칭 지원 |
| CN101393741A (zh) * | 2007-09-19 | 2009-03-25 | 中兴通讯股份有限公司 | 一种宽带音频编解码器中的音频信号分类装置及分类方法 |
| EP2259253B1 (en) * | 2008-03-03 | 2017-11-15 | LG Electronics Inc. | Method and apparatus for processing audio signal |
| WO2009118044A1 (en) * | 2008-03-26 | 2009-10-01 | Nokia Corporation | An audio signal classifier |
| CN101281749A (zh) * | 2008-05-22 | 2008-10-08 | 上海交通大学 | 可分级的语音和乐音联合编码装置和解码装置 |
| EP2139000B1 (en) * | 2008-06-25 | 2011-05-25 | Thomson Licensing | Method and apparatus for encoding or decoding a speech and/or non-speech audio input signal |
| US8428949B2 (en) * | 2008-06-30 | 2013-04-23 | Waves Audio Ltd. | Apparatus and method for classification and segmentation of audio content, based on the audio signal |
| RU2507609C2 (ru) * | 2008-07-11 | 2014-02-20 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Способ и дискриминатор для классификации различных сегментов сигнала |
| US8391212B2 (en) * | 2009-05-05 | 2013-03-05 | Huawei Technologies Co., Ltd. | System and method for frequency domain audio post-processing based on perceptual masking |
| PT2633521T (pt) * | 2010-10-25 | 2018-11-13 | Voiceage Corp | Codificação de sinais áudio genéricos com baixos débitos binários e pouco atraso |
| US9401153B2 (en) * | 2012-10-15 | 2016-07-26 | Digimarc Corporation | Multi-mode audio recognition and auxiliary data encoding and decoding |
| KR102237718B1 (ko) * | 2013-03-04 | 2021-04-09 | 보이세지 코포레이션 | 시간 영역 디코더에서 양자화 잡음을 감소시키기 위한 디바이스 및 방법 |
| WO2016018058A1 (ko) * | 2014-07-28 | 2016-02-04 | 삼성전자 주식회사 | 신호 부호화방법 및 장치와 신호 복호화방법 및 장치 |
| KR102736785B1 (ko) * | 2017-09-20 | 2024-12-03 | 보이세지 코포레이션 | 씨이엘피 코덱에 있어서 서브-프레임들간에 비트-예산을 할당하는 방법 및 디바이스 |
-
2022
- 2022-01-05 ES ES22736474T patent/ES3035793T3/es active Active
- 2022-01-05 MX MX2023008074A patent/MX2023008074A/es unknown
- 2022-01-05 CN CN202280009268.4A patent/CN117178322A/zh active Pending
- 2022-01-05 CA CA3202969A patent/CA3202969A1/en active Pending
- 2022-01-05 US US18/259,971 patent/US20240321285A1/en active Pending
- 2022-01-05 EP EP22736474.2A patent/EP4275204B1/en active Active
- 2022-01-05 JP JP2023541804A patent/JP7764480B2/ja active Active
- 2022-01-05 WO PCT/CA2022/050006 patent/WO2022147615A1/en not_active Ceased
- 2022-01-05 KR KR1020237026813A patent/KR20230128541A/ko active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011203737A (ja) | 1998-08-24 | 2011-10-13 | Mindspeed Technologies Inc | 音声信号内の雑音様信号の存在に基づく音声パラメータの平滑化 |
| JP2011514558A (ja) | 2008-03-04 | 2011-05-06 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号処理方法及び装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| MX2023008074A (es) | 2023-07-18 |
| EP4275204A1 (en) | 2023-11-15 |
| EP4275204A4 (en) | 2024-10-23 |
| EP4275204B1 (en) | 2025-05-28 |
| CN117178322A (zh) | 2023-12-05 |
| JP2024503392A (ja) | 2024-01-25 |
| US20240321285A1 (en) | 2024-09-26 |
| WO2022147615A1 (en) | 2022-07-14 |
| CA3202969A1 (en) | 2022-07-14 |
| KR20230128541A (ko) | 2023-09-05 |
| ES3035793T3 (en) | 2025-09-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5978218B2 (ja) | 低ビットレート低遅延の一般オーディオ信号の符号化 | |
| RU2389085C2 (ru) | Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx | |
| US8069040B2 (en) | Systems, methods, and apparatus for quantization of spectral envelope representation | |
| US8856049B2 (en) | Audio signal classification by shape parameter estimation for a plurality of audio signal samples | |
| JP5247826B2 (ja) | 復号化音調音響信号を増強するためのシステムおよび方法 | |
| JP7764480B2 (ja) | 音響信号の統合時間領域/周波数領域符号化のための方法およびデバイス | |
| CN102985966B (zh) | 音频编码器和解码器及用于音频信号的编码和解码的方法 | |
| JP6763849B2 (ja) | スペクトル符号化方法 | |
| HUE032264T2 (en) | Systems, procedures, equipment, and computer-readable media for encoding harmonic signals | |
| Moriya et al. | Progress in LPC-based frequency-domain audio coding | |
| HK40103944A (zh) | 用於声音信号的统一时域/频域编码的方法和装置 | |
| HK40107881A (en) | Coding generic audio signals at low bitrates and low delay | |
| Rämö et al. | Segmental speech coding model for storage applications. | |
| HK1185709B (en) | Coding generic audio signals at low bitrates and low delay |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230912 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241227 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20241227 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250924 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20251023 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7764480 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |