JP2012509505A - 信号ソースに関連付けられた少なくとも1つのパラメータを符号化するための装置および方法 - Google Patents

信号ソースに関連付けられた少なくとも1つのパラメータを符号化するための装置および方法 Download PDF

Info

Publication number
JP2012509505A
JP2012509505A JP2011537486A JP2011537486A JP2012509505A JP 2012509505 A JP2012509505 A JP 2012509505A JP 2011537486 A JP2011537486 A JP 2011537486A JP 2011537486 A JP2011537486 A JP 2011537486A JP 2012509505 A JP2012509505 A JP 2012509505A
Authority
JP
Japan
Prior art keywords
parameter
frames
value
bits
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011537486A
Other languages
English (en)
Other versions
JP5713296B2 (ja
Inventor
エイ. ギブズ、ジョナサン
ピー. アシュリー、ジェームズ
エル. フランソワ、ホリー
ミタル、ウダー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Original Assignee
Motorola Mobility LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Mobility LLC filed Critical Motorola Mobility LLC
Publication of JP2012509505A publication Critical patent/JP2012509505A/ja
Application granted granted Critical
Publication of JP5713296B2 publication Critical patent/JP5713296B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

k個のフレームを介してデコーダに送信するために、信号ソースに関連付けられた少なくとも1つのパラメータを符号化するための装置は、動作中、所定のビット・パターンを、k個のフレームのうちの第1のフレームの少なくとも1つのパラメータに関連付けられたnビットに割り当て、k−1個の後続フレームのnビットの値が少なくとも1つのパラメータを表すように、k−1個の後続フレームのそれぞれの少なくとも1つのパラメータに関連付けられたnビットの値を設定するように構成されるプロセッサを備える。所定のビット・パターンは、少なくとも1つのパラメータの開始を示す。

Description

本開示は、複数のフレームを介した送信のために信号ソースに関連付けられた少なくとも1つのパラメータを符号化するための装置および方法に関する。
音声エンコーダなどフレームベースのエンコーダは、音声信号処理技術を使用して音声信号をモデル化し、一般的なデータ圧縮アルゴリズムを使用して、結果として得られたモデル化された音声信号をコンパクトなビット・ストリームで表し、次いでこれは、連続フレームを介してデコーダに送信される。したがって、連続フレームのそれぞれは、符号化された音声信号、および音声信号に関連付けられた、デコーダによって復号され、復号された音声信号のレンダリングを強化するために使用されるパラメータも含む。
例えば音声・映像会議および同報通信の用途など、ステレオ・レコーディングの場合、2つのマイクロフォンを使用してステレオ信号を記録することができる。2つのマイクロフォンが離れて配置されているとき、他方より一方のマイクロフォンの近くに配置されているスピーカから記録された信号は、一方のマイクロフォンに比べて遅れて他方のマイクロフォンに到達する。異なるマイクロフォンの間の音声信号の遅延を考慮に入れるために、ステレオ遅延パラメータまたはチャネル間時間差(internal−channel time difference:ITD)パラメータとして知られるパラメータは、記録されたステレオ信号から決定され、符号化され、符号化された音声信号およびステレオ音声信号のアスペクトを記述する他のパラメータと共に、フレームを介して送信され得る。これらの送信されたパラメータは、デコーダでステレオ信号を再現するために使用される。ITDは、約1kHz未満の周波数でのステレオ位置に対する主要な知覚的影響であることが知られているため、ITDパラメータは、再現されたステレオ感(stereo perspective)の質を大幅に向上させることができる。
通常、音声エンコーダは、20msのフレーム・レートを使用し、このことは、音声フレーム内の各ビットが50ビット/sを消費し、同期フレーム構造が50Hzの倍数でのパラメータの更新に適することを意味する。こうした更新レートは、人の声道内で体験した変化のレートに釣り合う。例えば、人の声道の形は、約50Hzの更新レートで、パラメータ(例えば、線形予測コード(Linear Predictive Code:LPC)パラメータなど)によって適切に表すことができ、一方、音声励起エネルギー(speech excitation energy)および形状は、約200Hzで最適にモデル化される(すなわち、励起パラメータは、200Hzで更新される)ことはよく知られている。
しかし、音声エンコーダ機能は、国際電気通信連合(ITU)によって現在標準化されつつある組み込み可変ビットレートコーデック(Embedded Variable Bit Rate Codec)(EV−VBR)として知られる音声エンコーダにおいてなど、音楽およびステレオ符号化を提供するために強化されるため、追加のパラメータは、符号化する必要があり、人の声道には関係しない。これらのパラメータの一部は、フレーム・レートより遅いレートで変化し、したがって、パラメータが変化したかどうかにかかわらず、フレームごとの同じパラメータの送信は、チャネル帯域幅リソースの浪費を表す。これらのパラメータの一部は、ビット数という点で高精度も必要とし、また時間が経つにつれてゆっくり発展し得る。必要な高精度を達成するために、量子化レベル数の低減に結合されるオーバーサンプリングは、1つの伝統的な解決策を提供することはできるが、この方法は、フィルタリングが必須であるために、いくつかの欠点を有する。誤差の伝搬が起こる可能性があり、フィルタリングの実際的な実現のために出力値におけるジッターに関する問題がある可能性もあり、このことは、瞬時のパラメータの変化の影響を遅らせ、合成による分析エンコーダ構造(analysis−by−synthesis encoder structure)におけるエンコーダとデコーダの同期を維持することの難しさをもたらし得る。
したがって、フレームベースの符号化方式においてパラメータを符号化し、送信するための改良された方法を提供することが有利となる。
本開示の一実施形態による通信システムの概略ブロック図である。 本開示の一実施形態による音声信号および音声信号に関連付けられたパラメータを符号化するための符号化装置の概略ブロック図である。 nおよびkの様々な値について本開示の一実施形態に従ってパラメータが有し得る可能な値の数を示す表である。 nおよびkの様々な値について、ビット・レート効率を%で示す表である。 本開示の一実施形態による複数のフレームを介した送信のために信号ソースに関連付けられた少なくとも1つのパラメータを符号化するための方法のフロー図である。
次に、添付の図面を参照して、例示にすぎない本開示による複数のフレームを介した送信のために信号ソースに関連付けられた少なくとも1つのパラメータを符号化するための装置および方法について説明する。
以下の説明において、本開示の実施形態は、遠隔会議の用途における通信デバイスの一部として使用される音声エンコーダに関して説明するものであり、ITDパラメータは、別の通信デバイスにおけるデコーダによって再現されるステレオ信号を強化(enhance)するために、符号化され、有線通信リンクを介して送信される。しかし、本開示は、例えば映像など他のタイプのエンコーダ/デコーダ、または他の音声エンコーダ/デコーダで使用することができ、また加入者装置、無線ユーザ機器、ポータブルまたは携帯電話、無線映像またはマルチメディア装置、通信端末、個人用デジタル補助装置(PDA)、ラップトップ・コンピュータ、または組み込み通信プロセッサなど、無線通信デバイスで使用することもできることを理解されたい。例えば、ユーザが車内の無線通信システムのBluetooth(登録商標)マイクロフォンおよび携帯電話のマイクロフォンまたは複数のマイクロフォンの前で話をしているとき、ステレオ信号を記録することができる。こうした用途において、ITDパラメータを符号化し、送信することは、ユーザの体験を向上させることができる。
図1を参照すると、遠隔会議システム10などの通信システム10は、送信デバイスとして働き、遠隔会議システム10のユーザ(図示せず)から音声信号を受信するためのマイクロフォン101、103に結合された入力を有する通信デバイス12、複数のフレームを介して送信するために音声信号および音声信号に関連付けられたパラメータをビット・ストリームに符号化するための符号化装置121、および通信リンク16を介して受信装置として働く通信デバイス14にフレームを送信するための送信機13からなる。受信側通信デバイス14は、送信側通信デバイス12から符号化された信号を受信するための受信機18、復号された音声信号および音声信号に関連付けられたパラメータを提供するために、受信された符号化された信号を復号し、マイクロフォン101、103に提供される音声信号の再現を出力20(図1に示される通信デバイス14の一部または装置とは別個であり得る1対の拡声器など)で受信側通信デバイス14のユーザ(群)に提供するように、パラメータに従って復号された音声信号を処理するための受信機18に結合された復号装置122からなる。当業者であれば理解されるように、本開示の理解のために必要な通信デバイス12、14の機能的な構成要素のみを示しており、説明する。
1つの用途例において、2つのマイクロフォン101、103は、ある部屋において音声信号を記録するために使用され、最高3メートルまでの内部距離で配置される。遠隔会議の用途において、部屋に何人かの人がいるとき、2つ以上のマイクロフォンの使用は、部屋のより良い音声カバレージ(coverage)を提供し得る。複数のマイクロフォンの使用によって、結果的に音声信号が複数のチャネルを介して符号化装置121に提供される。多くの多チャネル符号化システムにおいて、および特に多くの多チャネル音声符号化システムにおいて、低レベルの符号化は、単一チャネルの符号化に基づく。こうしたシステムにおいて、多チャネル信号は、下層のコーダが符号化するモノラル信号に変換され得る。このモノラル信号の生成は、ダウンミキシングと呼ばれる。こうしたダウンミキシングは、モノラル信号に対するステレオ信号のアスペクトを記述するパラメータに関連付けることができる。具体的には、ダウンミキシングは、左チャネルと右チャネルとの間の時間差を特徴付けるチャネル間時間差(ITD)情報を生成することができる。
次に図2も参照すると、マイクロフォン101、103は、第1および第2のチャネルを介してマイクロフォン101、103から音声信号を受信するフレーム・プロセッサ105に結合される。フレーム・プロセッサ105は、受信した信号を連続フレームに分割する。一例において、サンプル周波数は、16kサンプル/秒であり、フレームの持続時間は、20ミリ秒であり、結果的に各フレームは、320個のサンプルからなる。フレーム処理は、音声パスに追加の遅延をもたらさない。
フレーム・プロセッサ105は、異なるマイクロフォン101、103からの音声信号間のITDパラメータまたはステレオ遅延パラメータを決定するように構成されたITDプロセッサ107に結合される。ITDパラメータは、一方のチャネルにおける音声信号の他方のチャネルにおける音声信号に対する遅延の表示である。例えば、マイクロフォン103に比べてマイクロフォン101に近い話者が話をするとき、マイクロフォン103で受信された音声信号は、話者の位置のために、マイクロフォン101で受信された音声信号に比べて遅れる。音声信号が受信側デバイス14で再現されるとき、遅延を考慮に入れるために、遅延パラメータが符号化され、受信側デバイス14に送信される。この例において、ITDパラメータは、他方に比べてどのチャネルが遅延するかに応じて正または負とすることができる。通常、遅延は、主要な音声ソース(すなわち、現在話をしている話者)とマイクロフォン101、103との間の遅延の差のために起こる。
図2に示される実施形態において、ITDプロセッサ107は、さらに2つの遅延109、111に結合される。第1の遅延109は、第1のチャネルに遅延をもたらすように構成され、第2の遅延109は、第2のチャネルに遅延をもたらすように構成される。もたらされる遅延の量は、ITDプロセッサ107によって決定されるITDパラメータによって決まる。さらに、特定の例において、所与のときに、遅延のうちの1つのみが使用される。したがって、推定されたITDパラメータの符号に応じて、遅延は、第1の信号または第2の信号のいずれかにもたらされる。遅延の量は、特に、ITDパラメータにできるだけ近くなるように設定される。その結果、遅延109、111の出力における音声信号は、接近して時間整合され、特に、通常ゼロに近い時間差を有する。
遅延109、111は、結合器113に結合され、結合器113は、遅延109、111からの2つの出力信号を結合することによって、モノラル信号を生成する。この例において、結合器113は、簡単な加算ユニットであり、2つの信号を合計する。さらに、信号は、結合前に個々の信号の振幅に似たモノラル信号の振幅を維持するために、0.5倍にスケーリングされる。代替の構成において、遅延109、111を省略することができる。
したがって、結合器113の出力は、マイクロフォン101および103で受信された2つの音声信号のダウンミックスであるモノラル信号である。
結合器113は、モノラル・エンコーダ115に結合され、これは、符号化された音声データを生成するために、モノラル信号のモノラル符号化を行う。特定の例において、モノラル・エンコーダは、EV−VBR標準によるコード励起線形予測(Code Excited Linear Prediction)(CELP)エンコーダである。
モノラル・エンコーダ115は、出力マルチプレクサ117に結合され、これはさらに、装置119を介してITDプロセッサ107に結合される。
装置119すなわちパラメータ・エンコーダ119は、k個のフレームを介して、例えば受信側デバイス14の復号装置122などのデコーダに送信するために、信号ソースに関連付けられた少なくとも1つのパラメータを符号化するように構成される。本明細書に記載した例において、装置119は、マイクロフォン101、103で音声信号に関連付けられたITDパラメータを符号化するように構成される。装置119は、動作中、所定のビット・パターンを、k個のフレームのうちの第1のフレームのITDパラメータに関連付けられたnビットに割り当て、k−1個の後続フレームのnビットの値が少なくとも1つのパラメータを表すように、k−1個の後続フレームのそれぞれのITDパラメータに関連付けられたnビットの値を設定するように構成されたプロセッサ119からなる。所定のビット・パターンは、少なくとも1つのパラメータの開始を示す。
一実施形態において、kおよびnは、1を超える整数であり、いったん方式のオーバーヘッドが考慮に入れられると、パラメータのナイキスト比率を超えるのに十分なk個ごとのフレームを介した更新レートでのITDパラメータの送信用に、フレーム当たりnビットが充てられるように選択される。k個のフレームを介したITDパラメータの送信は、ITDパラメータに関連付けられた使用可能なnビットを使用して第1のフレームで所定のビット・パターンを送信することによって開始される。通常、所定のビット・パターンはすべてゼロである。
一実施形態において、k−1個の後続フレームのそれぞれにおけるnビットの値は、所定のビット・パターンのnビットの値に対して異なるように選択される。したがって、所定のビット・パターンを回避するnビットについての可能な値が2−1個ある。k−1個の後続フレームのそれぞれにおけるnビットの値は、2−1進数(base)においてITDパラメータの最下位桁または最上位桁のITDパラメータで開始し、ITDパラメータを構築するために使用される。ITDパラメータが有し得る可能な値の数は、k個のnビットが送信された場合、(2−1)(k−1)である。これによって、100/(k n).(k−1)log2(2−1)パーセントの送信効率となる。現実的な実装では、効率は、66%を超え、容易に85%を超え得る。
図3は、nおよびkの様々な値の可能な値の数を示す表を提供する。図4は、nおよびkの様々な値についてのビット・レート効率を%で示す表を提供する。
したがって、パラメータをフレーム当たりnビットに符号化し、k−1個のフレームを介して符号化されたパラメータを送信することによって、本開示による符号化の構成は、フレーム・レートより遅いレートでパラメータを更新することができ、また、フレームにおいてより少ないビットを使用して符号化されたパラメータを送信することができ、すなわち、改良された送信効率を有することができる。
一実施形態において、パラメータは、所定の範囲の値における値を有するように定義される。言い換えれば、パラメータは、予め定義された長さを有する。例えば、ITDパラメータは、−48から+48の範囲の値をとり得る。図3から、n=2およびk=5の場合、81個の可能な値を表すことができ、つまり+/−40となることがわかる。ITDパラメータを範囲−48から+48から範囲−40から+40に変換することによって、ITDパラメータの値は、フレーム当たり2ビットで、5フレームにわたって表され得る。
k−1個のフレームのnビットが、所定の範囲を含み、また所定の範囲外の値も含む(2−1)(k−1)値を提供する所定の範囲の値をパラメータが有する場合、範囲外の値を復号装置122で使用して、受信された符号化された信号における誤差を検出することができる。例えば、パラメータが1〜20の範囲の値を有し、nが2になるように選択され、kが4になるように選択される場合、図3からわかるように、k−1個のフレームにわたる可能な値の数は27である。したがって、値21〜27は、パラメータの所定の範囲に含まれない。復号装置122が受信した4つのフレームの2ビットを復号し、復号されたパラメータが21〜27の範囲の値を有すると決定すると、復号装置122は、誤差を検出する。誤差が検出されると、復号装置122は、適切なアクションをとり得る。例えば、復号装置122は、誤って受信した値を無視し、以前受信した値が依然として有効であると想定することができ、または代わりに、当該のパラメータに適切な誤差軽減手順を実行することができる。
k−1個の後続フレームが続く次のフレームにおいて送信されるビット・パターンを単に手配することによって、プロセッサ119がいつでもITDパラメータの非同期送信を開始することができるように、所定のビット・パターンをk個のフレームのうちの第1のフレームのnビットに割り当てることは、所定のビット・パターンがITDパターンの送信の開始を示すことを可能とする。ITDパラメータの非同期送信は、ITDパラメータの値が変わる時点と、新しい値が送信される時点との間の遅延が最小であることを保証にする。例えば、ITDパラメータの値が変わると、通信デバイス12がITDパラメータの前の値の送信を完了していないときでさえ、所定のビット・パターンを次のフレームで送信し、ITDパラメータの新しい値が後続するようにすることができる。冗長を提供し、誤差の伝搬を防ぐために、k個のフレームごとに変化するまで、パラメータを繰り返すこともできる。あるいは、プロセッサ119を、任意の非同期の送信なしに、k個のフレームごとに定期的に送信するように構成することができる。
したがって、ITDパラメータが−48から+48の範囲の値を有することができ、所定のビット・パターンが00である上記の例において、フレームにおける00の所定のビット・パターンを最初に送信し、次いでフレームごとに2ビットを使用して、5つの後続フレームにわたってパラメータ値を送信することによって、ITDパラメータが呼び出し側ルーチンによって更新されるときはいつでも、ITDパラメータ値は非同期に送信される。更新が行われない、または値が一定のままである場合、ITDパラメータ値は、5フレームごとに送信される。
例えば、ハイレベル・データ・リンク制御(High−Level Data Link Control)(HDLC)プロトコル、およびコンピュータとモデムとの間の非同期文字モード送信において、データの非同期送信が知られている。後者において、各情報文字またはバイトは、開始要素および停止要素の使用によって個々に同期またはフレーム化され、不定期で独立した時間間隔で送受信され得る。HDLCプロトコルは、シリアル送信のために設計され、01111110の開始マーカーおよび終了マーカーに依存する。ビット・ストリーム内の混乱は、開始マーカーまたは停止マーカーの場合を除いて、任意の5つの連続する「1」の後にゼロを挿入することによって回避される。HDLCに関する問題は、一般にすべて「1」の配列は、すべて「0」の配列より多くの帯域幅を必要とするため、一定の帯域幅ではないことである。また、これらの既知の技術は、開始マーカーおよび停止マーカーを使用しており、可変長の文字または連続ビット・ストリームを送信するためのものである。
複数のパラメータが所定の長さを有するパラメータのシーケンスなど、1つのパラメータまたは複数のパラメータを符号化するために、k個のフレームを介して送信されるnビットを使用することができることを理解されたい。言い換えれば、複数のパラメータの可能な値は所定の範囲にある。
出力マルチプレクサ117は、モノラル・エンコーダ115からの符号化された音声信号を表す符号化されたデータ、および装置119からの符号化されたITDパラメータを表す符号化されたデータを単一の出力ビット・ストリームに多重化する。ITDパラメータをビット・ストリームに含めることは、デコーダが符号化データから復号されたモノラル信号からステレオ信号を再現するのを助ける。
次に、さらに図5を参照して、本開示の一実施形態に従ってデコーダにk個のフレームを介して送信するために信号ソースに関連付けられた少なくとも1つのパラメータを符号化する方法について説明する。
ステップ502で、それぞれのマイクロフォン101、103から複数のチャネルを介して音声信号が受信され、ステップ504で、受信された音声信号のITDパラメータが決定される。ステップ506で、所定のビット・パターンを、k個のフレームの第1のフレームのITDパラメータに関連付けられたnビットに割り当て、ステップ508で、k−1個の後続フレームのnビットの値が少なくとも1つのパラメータを表すように、k−1個の後続フレームのそれぞれのITDパラメータに関連付けられたnビットの値を設定することによって、ITDパラメータが装置119によって符号化される。所定のビット・パターンは、ITDパラメータの開始を示す。次いで所定のビット・パターンおよび信号ソースに関連付けられたITDパラメータは、ステップ510で、k個のフレームを介して復号装置122に送信される。一実施形態において、受信された音声信号は、ステップ512で符号化され、次いで符号化された音声信号は、ステップ514で復号装置122に送信される。図2に示された実施形態において、符号化された音声信号、所定のビット・パターン、および符号化されたITDパターンは、結合され、単一のビット・ストリームにおけるフレームを介して送信される。
受信側通信デバイス14の復号装置122は、k−1個のフレームを介して送信側通信デバイス12によって送信される、所定のビット・パターン、およびITDパラメータの値を受信し、受信された情報を復号して、復号されたITDパラメータを提供するように構成される。復号装置は、フレームにおける各ビットの値を決定するために、受信されたフレームのそれぞれを復号する。復号装置は、ITDパラメータに関連付けられたnビットにおいて所定のビット・パターン(例えば00)を検出すると、所定のビット・パターンを含むフレームが、ITDパラメータの開始を表し、ITDパラメータを決定することができるk個の後続フレームの第1のフレームであることを決定する。次いで復号装置は、後続するk−1個のフレームのITDパラメータに関連付けられた復号されたnビットの値をとり、値を結合して、ITDパラメータを取得する。
−1進数において、最下位桁の数を先頭にしてk−1個の値が送信される場合、ITDパラメータIは、以下の式に従って、受信された値rから形成される。
Figure 2012509505
−1進数において、最上位桁の数を先頭にしてk−1個の値が送信される場合、ITDパラメータIは、以下の式に従って、受信された値rから形成される。
Figure 2012509505
また、復号装置は、受信された符号化された音声信号を復号し、受信側通信デバイス14のユーザ(またはユーザ群)に、マイクロフォン101、103に提供された音声信号の再現を提供するように、復号されたITDパラメータに従って復号された音声信号を処理するように構成される。
上記の例において、プロセッサ119は、ITDパラメータを符号化する。本開示によるプロセッサ119は、信号ソースまたはソースからの信号(群)に関連付けられた、フレーム・レート未満のレートで変化する他のパラメータを符号化するために使用することができることを理解されたい。こうした他のパラメータは、以下のうちの1つまたは複数、すなわち例えば局所の話者識別またはある部屋における単なる座席位置に基づく話者ラベル、カメラ・ラベル、アクティブ・マイクロフォン・ラベル、および端末を識別するセキュリティ・ウォーターマークなどの信号ソース識別パラメータ、頭部伝達関数(head related transfer function)(HRTF)記述パラメータ、部屋反響記述パラメータ、ローカル信号対雑音比(SNR)測定パラメータ、およびタイム・スタンプ・パラメータ(アーカイブまたは検証の目的)を含み得る。プロセッサ119がk個のフレームにわたって送信するために複数のパラメータを符号化するように構成されてもよいことも理解されたい。この後者の場合、複数のパラメータは、k−1個のフレームのnビットによって提供される(2−1)(k−1)値内で符号化される。
プロセッサ119は、フレーム・プロセッサ105、ITDプロセッサ107、モノラル・エンコーダ115、および出力マルチプレクサ117に対する個別のプロセッサとして示され、記述されている。プロセッサの数、およびプロセッサへの処理機能の割り振りは、本開示によるパラメータ符号化の構成を実装するときの当業者にとっての設計選択の事項であることを理解されたい。
要約すれば、本開示によって、少なくとも1つのパラメータがフレーム当たりnビットによって符号化され、k−1個のフレームにわたって送信され、所定のビット・パターンが、k個のフレームのうちの第1のフレームにおけるnビットで送信されて、パラメータの開始を示す。したがって、本開示による符号化技術は、フレーム・レート(例えば50Hz)より遅い更新レートを達成することができるように、複数の(k−1個の)フレームからのパラメータ情報の連結を可能にする。パラメータの開始を示す所定のビット・パターンを有することによって、本開示による符号化の構成は、パラメータの送信を非同期とすることができる。パラメータの非同期送信を可能にすることによって、送信は、送信を頑強にし、最小送信遅延で自己同期する任意のフレームで開始することができる。
さらに、k個のフレームを介してnビットでパラメータを符号化し、送信することによって、本開示による符号化の構成は、パラメータを符号化するために、コマ送りの低ビット・レートを可能にするため、他のデータを送信するために使用されるフレームの「空の」ビットがより多く存在する。さらに、符号化されたパラメータを送信するために、フレームごとに同じnビットが使用され、したがって、本開示による構成は、パラメータを低い複雑性で符号化することができる。
本開示のさらなる利点は、オーバーサンプリングされた送信に必要なフィルタリングの実際的な実現に関連付けられたメモリ伝搬問題およびジッター問題は、定期的にパラメータを再送することによって最低限に抑えられる。さらに、送信の予測可能な遅延は、合成による分析エンコーダ構造で必要なエンコーダおよびデコーダの同期を維持しながら遅延パラメータの変化を低く抑えることができる。
上記の説明で、本発明は、本発明の実施形態の特定の例を参照して説明されている。しかし、添付の特許請求の範囲に記載された本発明のより広い範囲から逸脱することなく、様々な修正および変更を加えることができることは明らかである。

Claims (19)

  1. k個のフレームを介してデコーダに送信するために、信号ソースに関連付けられた少なくとも1つのパラメータを符号化するための装置であって、
    プロセッサを備え、該プロセッサは、動作中、
    該少なくとも1つのパラメータの開始を示す所定のビット・パターンを、k個のフレームのうちの第1のフレームの該少なくとも1つのパラメータに関連付けられたnビットに割り当て、
    k−1個の後続フレームのnビットの値が該少なくとも1つのパラメータを表すように、k−1個の後続フレームの各々の、該少なくとも1つのパラメータに関連付けられたnビットの値を設定する
    ように構成されている、装置。
  2. kおよびnが1を超える整数である、請求項1に記載の装置。
  3. 前記k−1個の後続フレームの各々における前記nビットの値は、前記所定のビット・パターンのnビットの値に対して異なるように選択されている、請求項1に記載の装置。
  4. 前記第1のフレームに続くフレームのnビットが前記少なくとも1つのパラメータの最下位桁の数または最上位桁の数を表す、請求項1に記載の装置。
  5. 前記少なくとも1つのパラメータが、所定の範囲の値を有する、請求項1に記載の装置。
  6. 前記少なくとも1つのパラメータが、前記k−1個のフレームのnビットによって提供される(2−1)(k−1)値内で符号化されている、請求項1に記載の装置。
  7. 前記少なくとも1つのパラメータが所定の範囲の値を有し、前記k−1個のフレームのnビットが、前記所定の範囲をカバーし、かつ前記所定の範囲外の値を含む(2−1)(k−1)値を提供する、請求項1に記載の装置。
  8. 前記少なくとも1つのパラメータが複数のパラメータを含む、請求項1に記載の装置。
  9. 前記複数のパラメータが、前記k−1個のフレームのnビットによって提供される(2−1)(k−1)値内で符号化されている、請求項8に記載の装置。
  10. 前記少なくとも1つのパラメータは、ステレオ遅延パラメータ、信号ソース識別パラメータ、頭部伝達関数(HRTF)記述パラメータ、部屋反響記述パラメータ、ローカル信号対雑音比測定パラメータ、およびタイム・スタンプ・パラメータのうちの少なくとも1つのパラメータを含む、請求項1に記載の装置。
  11. k個のフレームを介してデコーダに送信するために、信号ソースに関連付けられた少なくとも1つのパラメータを符号化するための方法であって、
    該少なくとも1つのパラメータの開始を示す所定のビット・パターンを、k個のフレームのうちの第1のフレームの該少なくとも1つのパラメータに関連付けられたnビットに割り当てること、
    k−1個の後続フレームのnビットの値が該少なくとも1つのパラメータを表すように、k−1個の後続フレームの各々の、該少なくとも1つのパラメータに関連付けられた該nビットの値を設定すること
    を含む方法。
  12. 前記k−1個の後続フレームの各々における前記nビットの値は、前記所定のビット・パターンのnビットの値に対して異なるように選択されている、請求項11に記載の方法。
  13. 前記少なくとも1つのパラメータが、所定の範囲の値を有する、請求項11に記載の方法。
  14. 前記少なくとも1つのパラメータが、前記k−1個のフレームの前記nビットによって提供される(2−1)(k−1)値内で符号化されている、請求項11に記載の方法。
  15. 前記少なくとも1つのパラメータが所定の範囲の値を有し、前記k−1個のフレームの前記nビットが、前記所定の範囲をカバーし、かつ前記所定の範囲外の値を含む(2−1)(k−1)値を提供する、請求項11に記載の方法。
  16. 前記所定のビット・パターンおよび前記信号ソースに関連付けられた前記少なくとも1つのパラメータを前記k個のフレームを介して前記デコーダに送信することをさらに含む、請求項11に記載の方法。
  17. k−1個の後続フレームが続く、k個のフレームのうちの第1のフレームにおいて、前記所定のビット・パターンを送信して、前記少なくとも1つのパラメータを表すことによって、少なくとも1つのパラメータの送信が任意のフレームで非同期に開始され得る、請求項16に記載の方法。
  18. 通信デバイスであって、
    信号ソースから信号を受信する入力と、
    k個のフレームを介してデコーダに送信するために、信号ソースに関連付けられた少なくとも1つのパラメータを符号化する装置とを備え、
    前記装置は、
    プロセッサであって、動作中、
    少なくとも1つのパラメータの開始を示す所定のビット・パターンを、k個のフレームのうちの第1のフレームの該少なくとも1つのパラメータに関連付けられたnビットに割り当て、
    k−1個の後続フレームのnビットの値が該少なくとも1つのパラメータを表すように、k−1個の後続フレームの各々の該少なくとも1つのパラメータに関連付けられた該nビットの値を設定する
    ように構成された前記プロセッサと、
    該所定のビット・パターンおよび該信号ソースに関連付けられた該少なくとも1つのパラメータを該k個のフレームを介して該デコーダに送信する送信機と
    を含む、通信デバイス。
  19. 前記信号ソースが音声ソースであり、前記通信デバイスが、前記音声ソースから受信された音声信号を符号化する音声エンコーダをさらに備え、前記送信機が、符号化された音声信号を前記デコーダに送信するようにさらに構成される、請求項18に記載の通信デバイス。
JP2011537486A 2008-11-19 2009-10-26 信号ソースに関連付けられた少なくとも1つのパラメータを符号化するための装置および方法 Expired - Fee Related JP5713296B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/273,974 2008-11-19
US12/273,974 US8725500B2 (en) 2008-11-19 2008-11-19 Apparatus and method for encoding at least one parameter associated with a signal source
PCT/US2009/062008 WO2010059342A1 (en) 2008-11-19 2009-10-26 Apparatus and method for encoding at least one parameter associated with a signal source

Publications (2)

Publication Number Publication Date
JP2012509505A true JP2012509505A (ja) 2012-04-19
JP5713296B2 JP5713296B2 (ja) 2015-05-07

Family

ID=41611039

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011537486A Expired - Fee Related JP5713296B2 (ja) 2008-11-19 2009-10-26 信号ソースに関連付けられた少なくとも1つのパラメータを符号化するための装置および方法

Country Status (8)

Country Link
US (1) US8725500B2 (ja)
EP (1) EP2359365B1 (ja)
JP (1) JP5713296B2 (ja)
KR (1) KR101235494B1 (ja)
CN (1) CN102216983B (ja)
BR (1) BRPI0921082B1 (ja)
ES (1) ES2395349T3 (ja)
WO (1) WO2010059342A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102265338A (zh) * 2009-03-24 2011-11-30 华为技术有限公司 信号延时切换的方法和装置
US8463414B2 (en) 2010-08-09 2013-06-11 Motorola Mobility Llc Method and apparatus for estimating a parameter for low bit rate stereo transmission
EP2671221B1 (en) 2011-02-03 2017-02-01 Telefonaktiebolaget LM Ericsson (publ) Determining the inter-channel time difference of a multi-channel audio signal
US8880404B2 (en) 2011-02-07 2014-11-04 Qualcomm Incorporated Devices for adaptively encoding and decoding a watermarked signal
US9767822B2 (en) 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and decoding a watermarked signal
US9767823B2 (en) 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and detecting a watermarked signal
GB2501080A (en) * 2012-04-11 2013-10-16 Sca Ipla Holdings Inc Telecommunication apparatus and methods
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
US9093064B2 (en) 2013-03-11 2015-07-28 The Nielsen Company (Us), Llc Down-mixing compensation for audio watermarking
CN107358959B (zh) * 2016-05-10 2021-10-26 华为技术有限公司 多声道信号的编码方法和编码器
US12255930B2 (en) * 2019-06-27 2025-03-18 Telefonaktiebolaget Lm Ericsson (Publ) Method, node and computer program of lawful interception systems and networks

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125598A (ja) * 1999-10-29 2001-05-11 Sony Corp 音楽信号符号化方法と符号化処理装置および音楽使用識別システム
JP2006020307A (ja) * 2001-01-12 2006-01-19 Matsushita Electric Ind Co Ltd 伝送システム
WO2008010836A1 (en) * 2006-07-18 2008-01-24 Thomson Licensing Method and system for temporal synchronization

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4899383A (en) * 1987-09-08 1990-02-06 Westinghouse Electric Corp. Apparatus and method for secure digital communication
NL9002401A (nl) * 1990-11-05 1992-06-01 Philips Nv Kommunikatiesysteem en een centrale besturingseenheid en een kommunikatiepost in het kommunikatiesysteem.
US5884269A (en) * 1995-04-17 1999-03-16 Merging Technologies Lossless compression/decompression of digital audio data
US6496798B1 (en) 1999-09-30 2002-12-17 Motorola, Inc. Method and apparatus for encoding and decoding frames of voice model parameters into a low bit rate digital voice message
US7016340B1 (en) * 2001-10-26 2006-03-21 General Bandwidth Inc. System and method for testing a voice gateway
AU2002309146A1 (en) * 2002-06-14 2003-12-31 Nokia Corporation Enhanced error concealment for spatial audio
US7809018B2 (en) 2005-12-16 2010-10-05 Coding Technologies Ab Apparatus for generating and interpreting a data stream with segments having specified entry points
US7230550B1 (en) 2006-05-16 2007-06-12 Motorola, Inc. Low-complexity bit-robust method and system for combining codewords to form a single codeword

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125598A (ja) * 1999-10-29 2001-05-11 Sony Corp 音楽信号符号化方法と符号化処理装置および音楽使用識別システム
JP2006020307A (ja) * 2001-01-12 2006-01-19 Matsushita Electric Ind Co Ltd 伝送システム
WO2008010836A1 (en) * 2006-07-18 2008-01-24 Thomson Licensing Method and system for temporal synchronization

Also Published As

Publication number Publication date
WO2010059342A1 (en) 2010-05-27
BRPI0921082B1 (pt) 2020-04-07
JP5713296B2 (ja) 2015-05-07
CN102216983B (zh) 2014-03-05
EP2359365A1 (en) 2011-08-24
BRPI0921082A2 (pt) 2016-05-31
US8725500B2 (en) 2014-05-13
CN102216983A (zh) 2011-10-12
KR20110086821A (ko) 2011-08-01
ES2395349T3 (es) 2013-02-12
EP2359365B1 (en) 2012-09-26
KR101235494B1 (ko) 2013-02-20
US20100125453A1 (en) 2010-05-20

Similar Documents

Publication Publication Date Title
JP5713296B2 (ja) 信号ソースに関連付けられた少なくとも1つのパラメータを符号化するための装置および方法
US7724885B2 (en) Spatialization arrangement for conference call
CN103299365B (zh) 用于自适应地编码和解码带水印信号的装置
US12154582B2 (en) Method and system for coding metadata in audio streams and for efficient bitrate allocation to audio streams coding
US8340959B2 (en) Method and apparatus for transmitting wideband speech signals
EP4396814A1 (en) Silence descriptor using spatial parameters
TW200917764A (en) System and method for providing AMR-WB DTX synchronization
CN113966531B (zh) 声音信号接收解码方法以及声音信号解码方法
JP4437011B2 (ja) 音声符号化装置
Ding Wideband audio over narrowband low-resolution media
JP5255358B2 (ja) 音声伝送システム
Taleb et al. G. 719: The first ITU-T standard for high-quality conversational fullband audio coding
CN120226074A (zh) 基于对象的音频编解码器中不连续传输的方法和设备
TWI394398B (zh) 用於傳輸資料分組序列的設備和方法以及用於對資料分組序列進行解碼的解碼器和設備
HK40069813B (zh) 用於编解码音频流中的元数据及用於灵活对象内和对象间比特率适配的方法和系统
HK40129624A (zh) 音频编解码器中灵活组合格式比特率适配的方法和设备
HK40069813A (en) Method and system for coding metadata in audio streams and for flexible intra-object and inter-object bitrate adaptation
HK40069013A (en) Method and system for coding metadata in audio streams and for efficient bitrate allocation to audio streams coding
HK40069013B (zh) 用於编解码音频流中的元数据和用於对音频流编解码的有效比特率分配的方法和系统

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130130

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140117

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140127

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20140502

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150302

R150 Certificate of patent or registration of utility model

Ref document number: 5713296

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S631 Written request for registration of reclamation of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313631

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S631 Written request for registration of reclamation of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313631

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S631 Written request for registration of reclamation of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313631

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees