JP7780441B2

JP7780441B2 - マルチチャンネル音コーデックにおけるステレオコーディングモードの切り替え

Info

Publication number: JP7780441B2
Application number: JP2022547128A
Authority: JP
Inventors: ヴァーツラフ・エクスラー
Original assignee: ヴォイスエイジ・コーポレーション
Priority date: 2020-02-03
Filing date: 2021-02-01
Publication date: 2025-12-04
Anticipated expiration: 2041-02-01
Also published as: CN115039172A; CA3163373A1; KR20220137005A; ES3020557T3; US20250111856A1; EP4503025A3; EP4503025A2; EP4100948A1; EP4100948B1; JP2023514531A; EP4100948C0; US20230051420A1; CN115039172B; WO2021155460A1; EP4100948A4; MX2022009501A; US12205598B2

Description

本開示は、ステレオ音の符号化に関し、具体的には、しかし限定されることなく、低ビットレートかつ低遅延で、たとえば複雑なオーディオシーンにおいて良好なステレオ品質を生み出すことが可能である、マルチチャンネル音コーデックにおいて「ステレオコーディングモード」(以後「ステレオモード」とも)を切り替えることに、具体的には、しかし限定されることなく関する。

本開示および添付の特許請求の範囲において、
-「音」という用語は、発話、オーディオ、および任意の他の音に関係してもよく、
-「ステレオ」という用語は、「ステレオフォニック」の省略であり、
-「モノ」という用語は、「モノフォニック」の省略である。

歴史的に、対話型の電話技術は、ユーザの一方の耳だけに音を出力するための1つだけのトランスデューサを有するハンドセットを用いて実装されてきた。過去10年の間に、ユーザは、主に音楽を聴くために、しかしまた、場合によっては発話を聞くために、自分の携帯型ハンドセットをヘッドフォンとともに使用して、両耳で音を受け取るようになった。それでも、携帯型ハンドセットが会話音声を送信して受信するために使用されるとき、その内容は依然としてモノであるが、ヘッドフォンが使用されるときにはユーザの両耳に届けられる。

その内容全体が参照によって本明細書に組み込まれる非特許文献1において説明されるような最新の3GPP（登録商標）発話コーディング規格では、携帯型ハンドセットを通じて送信され受信されるコーディングされる音、たとえば発話および/またはオーディオの品質は、大きく改善されている。次の自然なステップは、ステレオ情報を送信して、それにより、受け手が通信リンクの反対側で捉えられる現実世界のオーディオシーンに可能な限り近いものを得るようにすることである。

たとえばその内容全体が参照によって本明細書に組み込まれる非特許文献2において説明されるようなオーディオコーデックでは、ステレオ情報の送信が普通に使用される。

会話音声のコーデックでは、モノ信号が標準である。ステレオ信号が送信されるとき、ステレオ信号の左チャンネルと右チャンネルの両方がモノコーデックを使用してコーディングされるので、ビットレートを2倍にしなければならないことが多い。これは大半のシナリオでうまくいくが、ビットレートが2倍になるという欠点があり、2つのチャンネル(ステレオ信号の左チャンネルおよび右チャンネル)間に存在する可能性のある冗長性を活用できない。さらに、全体のビットレートを妥当な水準に保つために、各チャンネルに対して非常に低いビットレートが使用されるので、全体の音品質に影響を与える。ビットレートを下げるために、効率的なステレオコーディング技法が開発されて使用されている。限定しない例として、低ビットレートで効率的に使用され得る3つのステレオコーディング技法の使用が、以下の段落において論じられる。

第1のステレオコーディング技法は、パラメトリックステレオと呼ばれる。パラメトリックステレオコーディングは、一般的なモノコーデックを使用するモノ信号、および立体音像を表現するある量のステレオサイド情報(ステレオパラメータに対応する)として、左チャンネルおよび右チャンネルという2つのチャンネルを符号化する。2つの入力である左チャンネルおよび右チャンネルはモノ信号へとダウンミキシングされ、そして、ステレオパラメータは、普通は変換領域において、たとえば離散フーリエ変換(DFT)領域において計算され、いわゆるバイノーラルキューまたはインターチャンネルキューに関連する。バイノーラルキュー(その内容全体が参照によって本明細書に組み込まれる非特許文献3)は、両耳間レベル差(ILD)、両耳間時間差(ITD)、および両耳間相関(IC)を備える。信号特性、ステレオシーン構成などに応じて、一部のまたはすべてのバイノーラルキューがコーディングされ、デコーダに送信される。バイノーラルキューについての情報はコーディングされ、シグナリング情報として送信され、これは普通は、ステレオサイド情報の一部である。ある特定のバイノーラルキューを、異なるコーディング技法を使用して量子化することもでき、これは、使用されるビットの数にばらつきをもたらす。そして、量子化されたバイノーラルキューに加えて、ステレオサイド情報は、普通は中間のおよびより高いビットレートで、ダウンミキシングにより生じる量子化された残留信号を含むことがある。残留信号は、エントロピーコーディング技法、たとえば算術コーダを使用してコーディングされ得る。変換領域において計算されたステレオパラメータを用いたパラメトリックステレオコーディングは、本開示では「DFTステレオ」コーディングと呼ばれる。

別のステレオコーディング技法は、時間領域(TD)において機能する技法である。このステレオコーディング技法は、2つの入力である左チャンネルおよび右チャンネルを、いわゆる一次チャンネルおよび二次チャンネルへとミキシングする。たとえば、その内容全体が参照によって本明細書に組み込まれる特許文献1において説明されるような方法に従うと、時間領域のミキシングはミキシング比に基づいてもよく、ミキシング比は、一次チャンネルおよび二次チャンネルの生成の際の、左チャンネルおよび右チャンネルという2つの入力のそれぞれの寄与を決定する。ミキシング比は、いくつかのメトリクス、たとえば、モノ信号バージョンに関する入力の左チャンネルおよび右チャンネルの正規化された相関、または、2つの入力である左チャンネルと右チャンネルとの間の長期的な相関の差から導かれる。一次チャンネルは一般的なモノコーデックでコーディングされ得るが、二次チャンネルはよりビットレートの低いコーデックによってコーディングされ得る。二次チャンネルのコーディングは、一次チャンネルと二次チャンネルとの間のコヒーレンスを利用することがあり、一次チャンネルからのいくつかのパラメータを再使用してもよい。時間領域のステレオコーディングは、本開示では「TDステレオ」コーディングと呼ばれる。一般に、TDステレオコーディングは、発話信号をコーディングするための低いおよび中間のビットレートで最も効率的である。

第3のステレオコーディング技法は、修正離散コサイン変換(MDCT)領域において動作する技法である。それは、グローバルILDの計算および白色化されたスペクトル領域におけるMid/Side(M/S)処理を行いながらの、左チャンネルと右チャンネルの両方の共同コーディングに基づく。この第3のステレオコーディング技法は、その内容全体が参照によって本明細書に組み込まれる非特許文献4および5においてたとえば説明されるような、MPEG(Moving Picture Experts Group)コーデックのTCX(Transform Coded eXcitation)コーディングから適応されるいくつかのツールを使用する。これらのツールは、TCXコアコーディング、TCX LTP(長期予測)分析、TCXノイズフィリング、周波数領域ノイズシェーピング(FDNS)、ステレオフォニックインテリジェントギャップフィリング(IGF)、および/またはチャンネル間の適応的なビット割り振りを含み得る。一般に、この第3のステレオコーディング技法は、中間のおよび高いビットレートですべての種類のオーディオコンテンツを符号化するのに効率的である。MDCT領域のステレオコーディング技法は、「MDCTステレオコーディング」と本開示では呼ばれる。一般に、MDCTステレオコーディングは、一般のオーディオ信号をコーディングするための中間のおよび高いビットレートで最も効率的である。

近年、ステレオコーディングは、マルチチャンネルコーディングにさらに拡張された。マルチチャンネルコーディングを提供するいくつかの技法が存在するが、これらのすべての技法の核心は、単一または複数の、モノコーディング技法またはステレオコーディング技法のインスタンスに基づくことが多い。したがって、本開示は、その内容全体が参照によって本明細書に組み込まれる特許文献3においてたとえば説明されるようなMetadata-Assisted Spatial Audio (MASA)などのマルチチャンネルコーディング技法の一部であり得る、ステレオコーディングモード間の切り替えを提示する。MASAの手法では、MASAメタデータ(たとえば、すべてがいくつかの時間-周波数スロットの中にある、方向、エネルギー比、スプレッドコヒーレンス、距離、サラウンドコヒーレンス)が、MASA分析器において生成され、量子化され、コーディングされて、ビットストリームになり、一方、MASAオーディオチャンネルは、コアコーダによってコーディングされる(マルチ)モノまたは(マルチ)ステレオトランスポート信号として扱われる。MASAデコーダにおいて、MASAメタデータは次いで、出力の立体音響を再構築するために、復号処理およびレンダリング処理を誘導する。

国際特許出願公開第WO2017/049397A1号国際特許出願公開第WO2019/056107A1号米国仮特許出願第63/075,984号

3GPP（登録商標） TS 26.445、v.12.0.0、「Codec for Enhanced Voice Services (EVS); Detailed Algorithmic Description」、2014年9月 M. Neuendorf、M. Multrus、N. Rettelbach、G. Fuchs、J. Robillard、J. Lecompte、S. Wilde、S. Bayer、S. Disch、C. Helmrich、R. Lefevbre、P. Gournay他、「The ISO/MPEG Unified Speech and Audio Coding Standard - Consistent High Quality for All Content Types and at All Bit Rates」、J. Audio Eng. Soc.、vol. 61、no. 12、pp. 956-977、2013年12月 F. Baumgarte、C. Faller、「Binaural cue coding - Part I: Psychoacoustic fundamentals and design principles」、IEEE Trans. Speech Audio Processing、vol. 11、pp. 509-519、2003年11月 M. Neuendorf他、「MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types」、Journal of the Audio Engineering Society、vol. 61、n°12、pp. 956-977、2013年12月 J. Herre他、「MPEG-H Audio - The New Standard for Universal Spatial / 3D Audio Coding」、第137回国際AES会議、Paper 9095、ロサンゼルス、2014年10月9～12日 3GPP（登録商標） SA4 contribution S4-180462、「On spatial metadata for IVAS spatial audio input format」、第98回SA4会議、2018年4月9～13日、https://www.3gpp.org/ftp/tsg_sa/WG4_CODEC/TSGS4_98/Docs/S4-180462.zip

本開示は、添付の特許請求の範囲において定義されるような、ステレオ音信号符号化デバイスおよび方法を提供する。

ステレオ符号化および復号デバイスと方法の、前述のおよび他の目的、利点、ならびに特徴は、添付の図面を参照して単に例として与えられる、その例示的な実施形態の以下の非限定的な説明を読めばより明らかになるであろう。

ステレオ符号化および復号のデバイスと方法の実装形態のあり得る状況を図示する音処理および通信システムの概略ブロック図である。 Immersive Voice and Audio Service (IVAS)ステレオ符号化デバイスおよび対応するステレオ符号化方法を同時に示す高水準のブロック図であり、IVASステレオ符号化デバイスは、周波数領域(FD)ステレオエンコーダ、時間領域(TD)ステレオエンコーダ、および修正離散コサイン変換(MDCT)ステレオエンコーダを備え、FDステレオエンコーダの実装形態は、この例示的な実施形態および添付の図面では離散フーリエ変換(DFT)に基づく(以後「DFTステレオエンコーダ」)。図2のDFTステレオエンコーダおよび対応するDFTステレオ符号化方法を同時に示すブロック図である。図2のTDステレオエンコーダおよび対応するTDステレオ符号化方法を同時に示すブロック図である。図2のMDCTステレオエンコーダおよび対応するMDCTステレオ符号化方法を同時に示すブロック図である。 TDステレオモードからDFTステレオモードに切り替わる際のIVASステレオ符号化デバイスおよび方法における処理動作を示すフローチャートである。 DFTステレオモードからTDステレオモードに切り替わる際のIVASステレオ符号化デバイスおよび方法における処理動作を示すフローチャートである。 DFTステレオモードからTDステレオモードに切り替わる際のTDステレオ過去信号に関する処理動作を示すフローチャートである。 IVASステレオ復号デバイスおよび対応する復号方法を同時に示す高水準のブロック図であり、IVASステレオ復号デバイスは、DFTステレオデコーダ、TDステレオデコーダ、およびMDCTステレオデコーダを備える。 TDステレオモードからDFTステレオモードに切り替わる際のIVASステレオ復号デバイスおよび方法における処理動作を示すフローチャートである。デコーダ側での、TDステレオフレームの中のDFTステレオ合成メモリを更新することを備える、図9のインスタンスB)を示すフローチャートである。デコーダ側での、TDステレオモードからDFTステレオモードに切り替わった後の最初のDFTステレオフレームにおいて出力ステレオ合成を平滑化することを備える、図9のインスタンスC)を示すフローチャートである。 DFTステレオモードからTDステレオモードに切り替わる際のIVASステレオ復号デバイスおよび方法における処理動作を示すフローチャートである。デコーダ側での、DFTステレオモードからTDステレオモードに切り替わった後の最初のTDステレオフレームの中のTDステレオ同期メモリを更新することを備える、図12のインスタンスA)を示すフローチャートである。 IVASステレオ符号化デバイスおよび方法ならびにIVASステレオ復号デバイスおよび方法の各々を実装するハードウェアコンポーネントの例示的な構成の簡略化されたブロック図である。

上で言及されたように、本開示は、ステレオ音の符号化に関し、具体的には、しかし限定されることなく、低ビットレートかつ低遅延で、たとえば複雑なオーディオシーンにおいて良好なステレオ品質を生み出すことが可能である、発話および/またはオーディオを含む音のコーデックにおいてステレオコーディングモードを切り替えることに、具体的には、しかし限定されることなく関する。本開示では、複雑なオーディオシーンは、たとえば限定はされないが、(a)マイクロフォンにより記録される音信号間の相関が少ない状況、(b)背景雑音の重要な変動がある状況、および/または(c)干渉する話者が存在する状況を含む。複雑なオーディオシーンの限定しない例は、A/Bマイクロフォン構成を伴う反響のない広い会議室、バイノーラルマイクロフォンを伴う反響のある狭い部屋、およびモノ/サイドマイクロフォンセットアップを伴う反響のある狭い部屋を備える。すべてのこれらの部屋の構成は、変動する背景雑音および/または干渉する話者を含み得る。

図1は、IVASステレオ符号化デバイスおよび方法ならびにIVASステレオ復号デバイスおよび方法の実装形態のあり得る状況を図示する、ステレオ音処理および通信システム100の概略ブロック図である。

図1のステレオ音処理および通信システム100は、通信リンク101を介したステレオ音信号の送信をサポートする。通信リンク101は、たとえば、ワイヤまたは光ファイバリンクを備え得る。代替として、通信リンク101は、無線周波数リンクを少なくとも一部備え得る。無線周波数リンクは、携帯電話で見られるように、共有された帯域幅リソースを必要とする複数の同時通信をサポートすることが多い。示されていないが、通信リンク101は、後で再生するためにコーディングされたステレオ音信号を記録して記憶するシステム100の単一のデバイスの実装形態では、ストレージデバイスにより置き換えられ得る。

さらに図1を参照すると、たとえば一対のマイクロフォン102と122が、元のアナログステレオ音信号の左チャンネル103および右チャンネル123を生み出す。前述の説明において示されたように、音信号は、具体的には、限定はされないが、発話および/またはオーディオを備え得る。

元のアナログ音信号の左チャンネル103および右チャンネル123は、元のアナログ音信号の左チャンネル103および右チャンネル123を元のデジタルステレオ音信号の左チャンネル105および右チャンネル125へと変換するために、アナログデジタル(A/D)コンバータ104に供給される。元のデジタルステレオ音信号の左チャンネル105および右チャンネル125も、記録されてストレージデバイス(図示せず)から供給され得る。

ステレオ音エンコーダ106は、元のデジタルステレオ音信号の左チャンネル105および右チャンネル125をコーディングし、それにより、任意選択の誤り訂正エンコーダ108に伝えられるビットストリーム107の形態で多重化されるコーディングパラメータのセットを生み出す。任意選択の誤り訂正エンコーダ108は、存在するとき、得られたビットストリーム111を通信リンク101を介して送信する前に、ビットストリーム107の中のコーディングパラメータのバイナリ表現に冗長性を加える。

受信機側で、任意選択の誤り訂正デコーダ109は、受信されたデジタルビットストリーム111の中の上で言及された冗長な情報を利用して、通信リンク101を介した送信の間に発生した可能性のある誤りを検出して訂正し、受信されたコーディングパラメータを伴うビットストリーム112を生み出す。ステレオ音デコーダ110は、デジタルステレオ音信号の合成された左チャンネル113および右チャンネル133を作成するために、ビットストリーム112の中の受信されたコーディングパラメータを変換する。ステレオ音デコーダ110において再構築されたデジタルステレオ音信号の左チャンネル113および右チャンネル133は、デジタルアナログ(D/A)コンバータ115におけるアナログステレオ音信号の合成された左チャンネル114および右チャンネル134に変換される。

アナログステレオ音信号の合成された左チャンネル114および右チャンネル134はそれぞれ、一対のラウドスピーカーユニットまたはバイノーラルヘッドフォン116および136において再生される。代替として、ステレオ音デコーダ110からのデジタルステレオ音信号の左チャンネル113および右チャンネル133も供給され、ストレージデバイス(図示せず)に記録され得る。

たとえば、(a)図1の左チャンネルは図2～図13の左チャンネルによって実装されてもよく、(b)図1の右チャンネルは図2～図13の右チャンネルによって実装されてもよく、(c)図1のステレオ音エンコーダ106は図2～図7のIVASステレオ符号化デバイスによって実装されてもよく、(d)図1のステレオ音デコーダ110は図8～図13のIVASステレオ復号デバイスによって実装されてもよい。

1.IVASステレオ符号化デバイス200および方法250におけるステレオモードの切り替え
図2は、IVASステレオ符号化デバイス200および対応するIVASステレオ符号化方法250を同時に示す高水準のブロック図であり、図3は、図2のIVASステレオ符号化デバイス200のFDステレオエンコーダ300および対応するFDステレオ符号化方法350を同時に示すブロック図であり、図4は、図2のIVASステレオ符号化デバイス200のTDステレオエンコーダ400および対応するTDステレオ符号化方法450を同時に示すブロック図であり、図5は、図2のIVASステレオ符号化デバイス200のMDCTステレオエンコーダ500および対応するMDCTステレオ符号化方法550を同時に示すブロック図である。

図2～図5の例示的な限定しない実装形態では、IVASステレオ符号化デバイス200(およびそれに対応して、図8のIVASステレオ復号デバイス800)のフレームワークは、Enhanced Voice Services (EVS)コーデックの修正されたバージョンに基づく(非特許文献1参照)。具体的には、EVSコーデックは、ステレオおよびマルチチャンネルをコーディング(および復号)し、Immersive Voice and Audio Services (IVAS)に対処するように拡張される。その理由で、符号化デバイス200および方法250は、本開示ではIVASステレオ符号化デバイスおよび方法と呼ばれる。説明される例示的な実装形態では、IVASステレオ符号化デバイス200および方法250は、限定しない例として、「DFTステレオモード」と本開示では呼ばれるDFT(離散フーリエ変換)に基づく周波数領域(FD)ステレオモード、「TDステレオモード」と本開示では呼ばれる時間領域(TD)ステレオモード、および「MDCTステレオモード」と本開示では呼ばれる修正離散コサイン変換(MDCT)ステレオモードに基づく共同ステレオコーディングモードという、3つのステレオコーディングモードを使用する。他のコーデック構造は、IVASステレオ符号化デバイス200(およびそれに対応して、IVASステレオ復号デバイス800)のフレームワークのための基礎として使用され得ることに留意されたい。

IVASコーデック(IVASステレオ符号化デバイス200およびIVASステレオ復号デバイス800)におけるステレオモードの切り替えは、説明される限定しない実装形態では、DFTステレオモードと、TDステレオモードと、MDCTステレオモードの切り替えを指す。

1.1 様々なステレオエンコーダおよび符号化方法の違い
本開示および添付の図面において、以下の術語体系が使用される。小文字は時間領域の信号を示し、大文字は変換領域の信号を示し、l/Lは左チャンネルを表し、r/Rは右チャンネルを表し、m/Mは中間チャンネルを表し、s/Sはサイドチャンネルを表し、PChは一次チャンネルを表し、SChは二次チャンネルを表す。また、図面において、単位なしの数字は、16kHzのサンプリングレートにおけるサンプルの数に対応する。

(a)DFTステレオエンコーダ300および符号化方法350と、(b)TDステレオエンコーダ400および符号化方法450と、(c)MDCTステレオエンコーダ500および符号化方法550との間に違いが存在する。これらの違いの一部は、以下の段落において要約され、それらの少なくともいくつかが、以下の説明においてさらに説明される。

IVASステレオ符号化デバイス200および符号化方法250は、ステレオ入力信号(左チャンネルおよび右チャンネル)の1つの20msのフレームのバッファリング(当技術分野においても知られているが、ステレオ音信号は所与の数の音信号サンプルを含む所与の時間長の連続するフレームにおいて処理される)、少数の分類ステップ、ダウンミキシング、前処理、および実際のコーディングなどの、動作を実行する。8.75msの先読みが利用可能であり、主に、Transform Coded eXcitation (TCX)コア、High Quality (HQ)コア、および周波数領域帯域幅拡張(FD-BWE)などにおける変換領域において使用される、分析、分類、およびOverLap-Add (OLA)動作のために使用される。これらの動作は非特許文献1、5.3および5.2.6.2.項に記載されている。

先読みは、IVASステレオ符号化デバイス200および符号化方法250では、修正されないEVSエンコーダと比較して、0.9375ms短い(有限インパルス応答(FIR)フィルタ再サンプリング遅延に対応する(非特許文献1、5.1.3.1項参照))。これは、あらゆるフレームにおいて、ダウンプロセシングされた信号(TDステレオモードおよびDFTステレオモードではダウンミキシングされた信号)を再サンプリングする手順に影響がある。
-DFTステレオエンコーダ300および符号化方法350: 再サンプリングがDFT領域において実行されるので、追加の遅延をもたらさない。
-TDステレオエンコーダ400および符号化方法450: FIR再サンプリング(デシメーション)が、0.9375msの遅延を使用して実行される。この再サンプリング遅延はIVASステレオ符号化デバイス200では利用可能ではないので、再サンプリング遅延は、ダウンミキシングされた信号の終わりに0を追加することによって補償される。続いて、ダウンミキシングされた信号の0.9375msの長さの補償された部分が、次のフレームにおいて再計算される(再び再サンプリングされる)必要がある。
-MDCTステレオエンコーダ500および符号化方法550: TDステレオエンコーダ400および符号化方法4500と同じ。
入力サンプリングレート(普通は16、32、または48kHz)から内部サンプリングレート(普通は12.8、16、25.6、または32kHz)への、DFTステレオエンコーダ300、TDステレオエンコーダ400、およびMDCTステレオエンコーダ500における再サンプリングが行われる。再サンプリングされた信号が次いで、前処理およびコア符号化において使用される。

また、先読みは、正確ではなくむしろ外挿または推定されるダウンプロセシングされた信号(TDおよびDFTステレオモードではダウンミキシングされた信号)の一部を含み、これは再サンプリング処理にも影響がある。ダウンプロセシングされた先読み信号(TDステレオモードおよびDFTステレオモードではダウンミキシングされた信号)の不正確さは、現在のステレオコーディングモードに依存する。
-DFTステレオエンコーダ300および符号化方法350: 先読みの8.75msという長さは、DFT分析窓のOLA部分、それぞれDFT合成窓のOLA部分に関するダウンミキシングされた信号の窓掛けされた重複部分に対応する。可能な限り有用な信号に対して前処理を実行するために、ダウンミキシングされた信号の先読み部分が矯正される(または窓掛け解除される、すなわち逆の窓が先読み部分に適用される)。結果として、先読みの中の8.75msの長さの矯正されたダウンミキシングされた信号は、現在のフレームでは正しく再構築されない。
-TDステレオエンコーダ400および符号化方法450: 時間領域(TD)ダウンミキシングの前に、Inter-Channel Alignment (ICA)が、時間領域における2つの入力チャンネルlとrとの間のInter-channel Time Delay (ITD)同期を使用して実行される。これは、入力チャンネル(lまたはr)のうちの1つを遅らせることによって、およびITD遅延の長さに対応するダウンミキシングされた信号の欠けている部分を外挿することによって達成され、ITD遅延の最大値は7.5msである。結果として、先読みにおける最大で7.5msの長さの外挿されたダウンミキシングされた信号は、現在のフレームにおいて正しく再構築されない。
-MDCTステレオエンコーダ500および符号化方法550: ダウンミキシングまたは時間シフトが普通は実行されないので、入力オーディオ信号の先読み部分は普通は正確である。

先読み部分における矯正/外挿された信号部分は、実際のコーディングを受けず、分析および分類のために使用される。結果として、先読みにおける矯正/外挿される信号部分は次のフレームにおいて再計算され、そうすると、得られるダウンプロセシングされた信号(TDステレオモードおよびDFTステレオモードではダウンミキシングされた信号)が実際のコーディングのために使用される。再計算された信号の長さは、ステレオモードおよびコーディング処理に依存する。
-DFTステレオエンコーダ300および符号化方法350: 8.75msの長さの信号が、入力ステレオ信号サンプリングレートと内部サンプリングレートの両方において再計算を受ける。
-TDステレオエンコーダ400および符号化方法450: 7.5msの長さの信号は入力ステレオ信号サンプリングレートで再計算を受けるが、7.5+0.9375=8.4375msの長さの信号は内部サンプリングレートで再計算を受ける。
-MDCTステレオエンコーダ500および符号化方法550: 入力ステレオ信号サンプリングレートでは普通の再計算は必要ではないが、0.9375msの長さの信号は内部サンプリングレートで再計算を受ける。
先読みの中の矯正された、それぞれ外挿された信号部分の長さが、例示としてここで言及されるが、一般にあらゆる他の長さが実装され得ることに留意されたい。

DFTステレオエンコーダ300および符号化方法350に関する追加の情報が、非特許文献2および3において見出され得る。TDステレオエンコーダ400および符号化方法450に関する追加の情報は、特許文献1において見出され得る。そして、MDCTステレオエンコーダ500および符号化方法550に関する追加の情報は、非特許文献4および5において見出され得る。

1.2 IVASステレオ符号化デバイス200の構造およびIVASステレオ符号化方法250における処理
以下のTable I(表1)は、現在のステレオコーディングモードに応じた各フレームに対する処理動作を逐次的な順序で列挙する(図2～図5も参照)。

IVASステレオ符号化方法250は、DFTステレオモード、TDステレオモード、およびMDCTステレオモードの切り替えを制御する動作(図示せず)を備える。切り替え制御動作を実行するために、IVASステレオ符号化デバイス200は、DFTステレオモード、TDステレオモード、およびMDCTステレオモードの切り替えのコントローラ(図示せず)を備える。IVASステレオ符号化デバイス200およびコーディング方法250におけるDFTステレオモードとTDステレオモードの切り替えは、ステレオモード切り替えコントローラ(図示せず)を使用して、IVASステレオ符号化デバイス200および方法250におけるこれらの信号の適切な処理を可能にするように以下の入力信号1)から5)の連続性を維持することを伴う。
1)たとえば時間領域過渡状態検出またはInter-Channel BWE(IC-BWE)のために使用される、左l/Lチャンネルおよび右r/Rチャンネルを含む入力ステレオ信号
2)入力ステレオ信号サンプリングレートにおけるステレオダウンプロセシングされた信号(TDステレオモードおよびDFTステレオモードではダウンミキシングされた信号)
-DFTステレオエンコーダ300および符号化方法350: 中間チャンネルm/M
-TDステレオエンコーダ400および符号化方法450: 一次チャンネル(PCh)および二次チャンネル(SCh)
-MDCTステレオエンコーダ500および符号化方法550: 元の(ダウンミックスなし)左チャンネルlおよび右チャンネルr
3)前処理において使用される、12.8kHzのサンプリングレートでダウンプロセシングされた信号(TDステレオモードおよびDFTステレオモードではダウンミキシングされた信号)
4)コア符号化において使用される、内部サンプリングレートでダウンプロセシングされた信号(TDステレオモードおよびDFTステレオモードではダウンミキシングされた信号)
5)帯域幅拡張(BWE)において使用される、高帯域(HB)入力信号

上の信号1)について連続性を維持するのは単純であるが、信号2)から5)については、いくつかの様相、たとえば異なるダウンミキシング、先読みの再計算された部分の異なる長さ、TDステレオモードだけにおけるInter-Channel Alignment (ICA)の使用などにより、困難である。

1.2.1 ステレオ分類およびステレオモード選択
DFTステレオモード、TDステレオモード、およびMDCTステレオモードの切り替えを制御する動作(図示せず)は、たとえばその内容全体が参照によって本明細書に組み込まれる特許文献3において説明されるような、ステレオ分類およびステレオモード選択の動作255を備える。動作255を実行するために、DFTステレオモード、TDステレオモード、およびMDCTステレオモードの切り替えのコントローラ(図示せず)は、ステレオ分類器およびステレオモード選択器205を備える。

TDステレオモード、DFTステレオモード、およびMDCTステレオモードの切り替えは、ステレオモード選択に応答する。ステレオ分類(特許文献3)は、入力ステレオ信号の左チャンネルlおよび右チャンネルr、ならびに/または要求されたコーディングされたビットレートに応答して行われる。ステレオモード選択(特許文献3)は、ステレオ分類に基づいて、DFTステレオモード、TDステレオモード、およびMDCTステレオモードのうちの1つを選ぶことからなる。

ステレオ分類器およびステレオモード選択器205は、選択されたステレオコーディングモードを特定するためのステレオモードシグナリング270を生み出す。

1.2.2 メモリ割り振り/割り振り解除
DFTステレオモード、TDステレオモード、およびMDCTステレオモードの切り替えを制御する動作(図示せず)は、メモリ割り振り(図示せず)の動作を備える。メモリ割り振りの動作を実行するために、DFTステレオモード、TDステレオモード、およびMDCTステレオモードを切り替えるコントローラ(図示せず)は、現在のステレオモードに応じて、DFTステレオモード、TDステレオモード、およびMDCTステレオモードに/から、スタティックメモリデータ構造を動的に割り振る/その割り振りを解除する。そのようなメモリ割り振りは、現在のフレームにおいて利用されるデータ構造のみを維持することによって、IVASステレオ符号化デバイス200のスタティックメモリへの影響を可能な限り低く保つ。

たとえば、TDステレオフレームの後の最初のDFTステレオフレームにおいて、TDステレオモードに関するデータ構造(たとえば、TDステレオデータの取り扱い、第2のコアエンコーダデータ構造)が解放され(割り振り解除され)、DFTステレオモードに関するデータ構造(たとえばDFTステレオデータ構造)が代わりに割り振られて初期化される。さらなる使用されてないデータ構造の割り振り解除がまず行われ、その後に新しく使用されるデータ構造の割り振りが続くことに留意されたい。動作のこの順序は、符号化のいずれの時点においてもスタティックメモリへの影響を増やさないために重要である。

様々なステレオモードにおいて使用されるようなメインスタティックメモリのデータ構造の概要が、Table II(表2)に示される。

Cソースコードでのメモリ割り振り/割り振り解除エンコーダモジュールの例示的な実装形態が以下に示される。
void stereo_memory_enc(
CPE_ENC_HANDLE hCPE, /* i : CPEエンコーダ構造 */
const int32_t input_Fs, /* i : 入力サンプリングレート */
const int16_t max_bwidth, /* i : 最大オーディオ帯域幅 */
float *tdm_last_ratio /* o : TDステレオ最終比 */
)
{
Encoder_State *st;
/*--------------------------------------------------------------*
* 解放される構造からのパラメータを保存する
*---------------------------------------------------------------*/

if ( hCPE->last_element_mode == IVAS_CPE_TD )
{
*tdm_last_ratio = hCPE->hStereoTD->tdm_last_ratio; /* 注意:これはデータ構造が割り振られる/割り振り解除される前にローカル変数に設定されなければならない */
}

if ( hCPE->hStereoTCA != NULL && hCPE->last_element_mode == IVAS_CPE_DFT )
{
set_s( hCPE->hStereoTCA->prevCorrLagStats, (int16_t) hCPE->hStereoDft->itd[1], 3 );
hCPE->hStereoTCA->prevRefChanIndx = ( hCPE->hStereoDft->itd[1] >= 0 ) ? ( L_CH_INDX ) : ( R_CH_INDX );
}

/*--------------------------------------------------------------*
* データ構造を割り振る/割り振り解除する
*---------------------------------------------------------------*/

if ( hCPE->element_mode != hCPE->last_element_mode )
{
/*-------------------------------------------------------------*
* CPEモードをDFTステレオに切り替える
*-------------------------------------------------------------*/

if ( hCPE->element_mode == IVAS_CPE_DFT )
{
/* 前のCPEモードのデータ構造を割り振り解除する */
if ( hCPE->hStereoTD != NULL )
{
count_free( hCPE->hStereoTD );
hCPE->hStereoTD = NULL;
}

if ( hCPE->hStereoMdct != NULL )
{
count_free( hCPE->hStereoMdct );
hCPE->hStereoMdct = NULL;
}

/* CoreCoder二次チャンネルを割り振り解除する */
deallocate_CoreCoder_enc( hCPE->hCoreCoder[1] );

/* DFTステレオデータ構造を割り振る */
stereo_dft_enc_create( &( hCPE->hStereoDft ), input_Fs, max_bwidth );

/* ICBWE構造を割り振る */
if ( hCPE->hStereoICBWE == NULL )
{
hCPE->hStereoICBWE = (STEREO_ICBWE_ENC_HANDLE) count_malloc( sizeof( STEREO_ICBWE_ENC_DATA ) );

stereo_icBWE_init_enc( hCPE->hStereoICBWE );
}

/* MチャンネルにおいてHQコアを割り振る */
st = hCPE->hCoreCoder[0];
if ( st->hHQ_core == NULL )
{
st->hHQ_core = (HQ_ENC_HANDLE) count_malloc( sizeof( HQ_ENC_DATA ) );

HQ_core_enc_init( st->hHQ_core );
}
}
/*-------------------------------------------------------------*
* CPEモードをTDステレオに切り替える
*-------------------------------------------------------------*/

if ( hCPE->element_mode == IVAS_CPE_TD )
{
/* 前のCPEモードのデータ構造を割り振り解除する */
if ( hCPE->hStereoDft != NULL )
{
stereo_dft_enc_destroy( &( hCPE->hStereoDft ) );
hCPE->hStereoDft = NULL;
}

if ( hCPE->hStereoMdct != NULL )
{
count_free( hCPE->hStereoMdct );
hCPE->hStereoMdct = NULL;
}

/* 第2のチャンネルのための割り振り解除されたTCX/IGF構造 */
deallocate_CoreCoder_TCX_enc( hCPE->hCoreCoder[1] );

/* TDステレオデータ構造を割り振る */

hCPE->hStereoTD = (STEREO_TD_ENC_DATA_HANDLE) count_malloc( sizeof( STEREO_TD_ENC_DATA ) );

stereo_td_init_enc( hCPE->hStereoTD, hCPE->element_brate, hCPE->last_element_mode );

/* 二次チャンネルを割り振る */
allocate_CoreCoder_enc( hCPE->hCoreCoder[1] );
}
/*-------------------------------------------------------------*
* MDCTステレオフレームの後にDFT/TDステレオ構造を割り振る
*-------------------------------------------------------------*/

if ( hCPE->last_element_mode == IVAS_CPE_MDCT && ( hCPE->element_mode == IVAS_CPE_DFT || hCPE->element_mode == IVAS_CPE_TD ) )
{
/* TCAデータ構造を割り振る */
hCPE->hStereoTCA = (STEREO_TCA_ENC_HANDLE) count_malloc( sizeof( STEREO_TCA_ENC_DATA ) );

stereo_tca_init_enc( hCPE->hStereoTCA, input_Fs );

st = hCPE->hCoreCoder[0];

/* 一次チャンネル構造を割り振る */
allocate_CoreCoder_enc( st );

/* 一次チャンネルのためにCLDFBを割り振る */
if ( st->cldfbAnaEnc == NULL )
{
openCldfb( &st->cldfbAnaEnc, CLDFB_ANALYSIS, input_Fs, CLDFB_PROTOTYPE_1_25MS );
}

/* 一次チャンネルのためにBWEを割り振る */
if ( st->hBWE_TD == NULL )
{
st->hBWE_TD = (TD_BWE_ENC_HANDLE) count_malloc( sizeof( TD_BWE_ENC_DATA ) );

if ( st->cldfbSynTd == NULL )
{
openCldfb( &st->cldfbSynTd, CLDFB_SYNTHESIS, 16000, CLDFB_PROTOTYPE_1_25MS );
}

InitSWBencBuffer( st->hBWE_TD );
ResetSHBbuffer_Enc( st->hBWE_TD );

st->hBWE_FD = (FD_BWE_ENC_HANDLE) count_malloc( sizeof( FD_BWE_ENC_DATA ) );

fd_bwe_enc_init( st->hBWE_FD );
}
}

/*--------------------------------------------------------------*
* CPEモードをMDCTステレオに切り替える
*---------------------------------------------------------------*/

if ( hCPE->element_mode == IVAS_CPE_MDCT )
{
int16_t i;

/* 前のCPEモードのデータ構造を割り振り解除する */
if ( hCPE->hStereoDft != NULL )
{
stereo_dft_enc_destroy( &( hCPE->hStereoDft ) );
hCPE->hStereoDft = NULL;
}

if ( hCPE->hStereoTD != NULL )
{
count_free( hCPE->hStereoTD );
hCPE->hStereoTD = NULL;
}

if ( hCPE->hStereoTCA != NULL )
{
count_free( hCPE->hStereoTCA );
hCPE->hStereoTCA = NULL;
}

if ( hCPE->hStereoICBWE != NULL )
{
count_free( hCPE->hStereoICBWE );
hCPE->hStereoICBWE = NULL;
}

for ( i = 0; i < CPE_CHANNELS; i++ )
{
st = hCPE->hCoreCoder[i];

/* コアチャンネルサブ構造を割り振り解除する */
deallocate_CoreCoder_enc( hCPE->hCoreCoder[i] );
}

if ( hCPE->last_element_mode == IVAS_CPE_DFT )
{
/* 二次チャンネルを割り振る */
allocate_CoreCoder_enc( hCPE->hCoreCoder[1] );
}

/* 第2のチャンネルのためにTCX/IGF構造を割り振る */
st = hCPE->hCoreCoder[1];

st->hTcxEnc = (TCX_ENC_HANDLE) count_malloc( sizeof( TCX_ENC_DATA ) );
st->hTcxEnc->spectrum[0] = st->hTcxEnc->spectrum_long;
st->hTcxEnc->spectrum[1] = st->hTcxEnc->spectrum_long + N_TCX10_MAX;

set_f( st->hTcxEnc->old_out, 0, L_FRAME32k );

set_f( st->hTcxEnc->spectrum_long, 0, N_MAX );

if ( hCPE->last_element_mode == IVAS_CPE_DFT )
{
st->last_core = ACELP_CORE; /* SetTCXModeInfo()においてTCXコアをセットアップするために必要 */
}

st->hTcxCfg = (TCX_CONFIG_HANDLE) count_malloc( sizeof( TCX_config ) );

st->hIGFEnc = (IGF_ENC_INSTANCE_HANDLE) count_malloc( sizeof( IGF_ENC_INSTANCE ) );
st->igf = getIgfPresent( st->element_mode, st->total_brate, st->bwidth, st->rf_mode );

/* MDCTステレオ構造を割り振って初期化する */
hCPE->hStereoMdct = (STEREO_MDCT_ENC_DATA_HANDLE) count_malloc( sizeof( STEREO_MDCT_ENC_DATA ) );

initMdctStereoEncData( hCPE->hStereoMdct, hCPE->element_brate, hCPE->hCoreCoder[0]->max_bwidth, SMDCT_MS_DECISION, 0, NULL );
}
}

return;
}

1.2.3 TDステレオモードを設定する
TDステレオモードは2つのサブモードからなり得る。1つは、TDステレオミキシング比が0より大きく1より小さいいわゆる普通のTDステレオサブモードである。もう1つは、TDステレオミキシング比が0または1のいずれかであるいわゆるLRTDステレオサブモードである。したがって、LRTDは、一次チャンネルPChおよび二次チャンネルSChを形成するためにTDダウンミキシングが時間領域の左チャンネルlおよび右チャンネルrの内容を実際はミキシングせず、チャンネルlおよびrから直接それらを得るような、TDステレオモードの極端な場合である。

TDステレオモードの2つのサブモード(普通およびLRTD)が利用可能であるとき、ステレオモード切り替え動作(図示せず)は、TDステレオモード設定(図示せず)を備える。TDステレオモードの設定、メモリ割り振りの一部の形成を実行するために、IVASステレオ符号化デバイス200のステレオモード切り替えコントローラ(図示せず)は、普通のTDステレオモードとLRTDステレオモードを切り替えるとき、あるスタティックメモリデータ構造を割り振る/割り振り解除する。たとえば、IC-BWEデータ構造は普通のTDステレオモードを使用するフレームだけにおいて割り振られるが(Table II(表2)参照)、いくつかのデータ構造(二次チャンネルSChのためのBWEおよびComplex Low Delay Filter Bank (CLDFB))がLRTDステレオモードを使用するフレームだけにおいて割り振られる(Table II(表2)参照)。Cソースコードでのメモリ割り振り/割り振り解除エンコーダモジュールの例示的な実装形態が以下で示される。
/* 普通のTD/LRTD切り替え */
if ( hCPE->hStereoTD->tdm_LRTD_flag == 0 )
{
Encoder_State *st;
st = hCPE->hCoreCoder[1];

/* 二次チャンネルのためのCLDFB anaを割り振り解除する */
if ( st->cldfbAnaEnc != NULL )
{
deleteCldfb( &st->cldfbAnaEnc );
}

/* 二次チャンネルのためのBWEを割り振り解除する */
if ( st->hBWE_TD != NULL )
{
if ( st->hBWE_TD != NULL )
{
count_free( st->hBWE_TD );
st->hBWE_TD = NULL;
}

deleteCldfb( &st->cldfbSynTd );

if ( st->hBWE_FD != NULL )
{
count_free( st->hBWE_FD );
st->hBWE_FD = NULL;
}
}

/* ICBWE構造を割り振る */
if ( hCPE->hStereoICBWE == NULL )
{
( hCPE->hStereoICBWE = (STEREO_ICBWE_ENC_HANDLE) count_malloc( sizeof( STEREO_ICBWE_ENC_DATA ) );

stereo_icBWE_init_enc( hCPE->hStereoICBWE );
}
}
else /* tdm_LRTD_flag == 1 */
{
Encoder_State *st;
st = hCPE->hCoreCoder[1];

/* ICBWE構造を割り振り解除する */
if ( hCPE->hStereoICBWE != NULL )
{
/* BWEにおいて使用されるべき過去の入力信号をコピーする */
mvr2r( hCPE->hStereoICBWE->dataChan[1], hCPE->hCoreCoder[1]->old_input_signal, st->input_Fs / 50 );

count_free( hCPE->hStereoICBWE );
hCPE->hStereoICBWE = NULL;
}

/* 二次チャンネルのためのCLDFB anaを割り振る */
if ( st->cldfbAnaEnc == NULL )
{
openCldfb( &st->cldfbAnaEnc, CLDFB_ANALYSIS, st->input_Fs, CLDFB_PROTOTYPE_1_25MS );
}

/* 二次チャンネルのためのBWEを割り振る */
if ( st->hBWE_TD == NULL )
{
st->hBWE_TD = (TD_BWE_ENC_HANDLE) count_malloc( sizeof( TD_BWE_ENC_DATA ) );

openCldfb( &st->cldfbSynTd, CLDFB_SYNTHESIS, 16000, CLDFB_PROTOTYPE_1_25MS );

InitSWBencBuffer( st->hBWE_TD );
ResetSHBbuffer_Enc( st->hBWE_TD );

st->hBWE_FD = (FD_BWE_ENC_HANDLE) count_malloc( sizeof( FD_BWE_ENC_DATA ) );

fd_bwe_enc_init( st->hBWE_FD );
}
}

大抵は、普通のTDステレオモード(簡潔にするために単にTDステレオモードとしてさらに言及される)だけが、本開示において詳細に説明される。LRTDステレオモードは、可能な実装形態として言及される。

1.2.4 ステレオモード切り替え更新
ステレオモード切り替え制御動作(図示せず)は、ステレオ切り替え更新の動作(図示せず)を備える。このステレオ切り替え更新動作を実行するために、ステレオモード切り替えコントローラ(図示せず)は、長期パラメータを更新し、過去のバッファメモリを更新またはリセットする。

DFTステレオモードからTDステレオモードに切り替える際に、ステレオモード切り替えコントローラ(図示せず)は、TDステレオおよびICAスタティックメモリデータ構造をリセットする。これらのデータ構造は、ICAアルゴリズム(図2の201)の、TDステレオ分析および重み付けられたダウンミキシング(図4の401)のそれぞれのパラメータとメモリを記憶する。ステレオモード切り替えコントローラ(図示せず)は、普通のTDステレオモードまたはLRTDステレオモードに従って、TDステレオ過去フレームミキシング比インデックスを設定する。限定しない説明のための例として、
-普通のTDステレオモードにおいて、以前のフレームミキシング比インデックスは15に設定され、これは、ダウンミキシングされた中間チャンネルm/Mが一次チャンネルPChとしてコーディングされることを示し、ミキシング比は0.5であり、または、
-LRTDステレオモードにおいて、以前のフレームミキシング比インデックスは31に設定され、これは、左チャンネルlが一次チャンネルPChとしてコーディングされることを示す。

TDステレオモードからDFTステレオモードに切り替える際に、ステレオモード切り替えコントローラ(図示せず)は、DFTステレオデータ構造をリセットする。このDFTステレオデータ構造は、DFTステレオ処理およびダウンミキシングモジュール(図3の303)に関するパラメータとメモリを記憶する。

また、ステレオモード切り替えコントローラ(図示せず)は、データ構造間でいくつかのステレオ関連パラメータを転送する。例として、チャンネルlとrの間の時間シフトおよびエネルギーに関するパラメータ、すなわちDFTステレオモードのサイド利得(またはILDパラメータ)およびITDパラメータが、TDステレオモードの目標利得および相関遅れ(ICAパラメータ202)を更新するために使用され、その逆も然りである。これらの目標利得および相関遅れは、本開示の次のセクション1.2.5においてさらに説明される。

コアエンコーダに関する更新/リセット(図3および図4参照)は、本開示のセクション1.4において後で説明される。エンコーダの中のいくつかのメモリの取り扱いの例示的な実装形態が以下に示される。
void stereo_switching_enc(
CPE_ENC_HANDLE hCPE, /* i : CPEエンコーダ構造 */
float old_input_signal_pri[], /* i : 一次チャンネルの古い入力信号 */
const int16_t input_frame /* i : 入力フレーム長 */
)
{
int16_t i, n, dft_ovl, offset;
float tmpF;
Encoder_State **st;

st = hCPE->hCoreCoder;
dft_ovl = STEREO_DFT_OVL_MAX * input_frame / L_FRAME48k;

/* DFT分析重複メモリを更新する */
if ( hCPE->element_mode > IVAS_CPE_DFT && hCPE->input_mem[0] != NULL )
{
for ( n = 0; n < CPE_CHANNELS; n++ )
{
mvr2r( st[n]->input + input_frame - dft_ovl, hCPE->input_mem[n], dft_ovl );
}
}

/* TD/MDCT -> DFTステレオ切り替え */
if ( hCPE->element_mode == IVAS_CPE_DFT && hCPE->last_element_mode != IVAS_CPE_DFT )
{
/* input_fs、一次チャンネルにおいてDFT合成重複メモリに窓を掛ける */
for ( i = 0; i < dft_ovl; i++ )
{
hCPE->hStereoDft->output_mem_dmx[i] = old_input_signal_pri[input_frame - dft_ovl + i] * hCPE->hStereoDft->win[dft_ovl - 1 - i];
}
/* 48kHz BWE重複メモリをリセットする */
set_f( hCPE->hStereoDft->output_mem_dmx_32k, 0, STEREO_DFT_OVL_32k );

stereo_dft_enc_reset( hCPE->hStereoDft );

/* ITDパラメータを更新する */
if ( hCPE->element_mode == IVAS_CPE_DFT && hCPE->last_element_mode == IVAS_CPE_TD )
{
set_f( hCPE->hStereoDft->itd, hCPE->hStereoTCA->prevCorrLagStats[2], STEREO_DFT_ENC_DFT_NB );
}

/* side_gain[]パラメータを更新する */
if ( hCPE->hStereoTCA != NULL && hCPE->last_element_mode != IVAS_CPE_MDCT )
{
tmpF = usdequant( hCPE->hStereoTCA->indx_ica_gD, STEREO_TCA_GDMIN, STEREO_TCA_GDSTEP );
for ( i = 0; i < STEREO_DFT_BAND_MAX; i++ )
{
hCPE->hStereoDft->side_gain[STEREO_DFT_BAND_MAX + i] = tmpF;
}
}

/* DFTサイドパラメータの差分コーディングを許容しない */
hCPE->hStereoDft->ipd_counter = STEREO_DFT_FEC_THRESHOLD;
hCPE->hStereoDft->res_pred_counter = STEREO_DFT_FEC_THRESHOLD;

/* 12.8kHzにおいてDFT合成重複メモリを更新する */
for ( i = 0; i < STEREO_DFT_OVL_12k8; i++ )
{
hCPE->hStereoDft->output_mem_dmx_12k8[i] = st[0]->buf_speech_enc[L_FRAME32k + L_FRAME - STEREO_DFT_OVL_12k8 + i] * hCPE->hStereoDft->win_12k8[STEREO_DFT_OVL_12k8 - 1 - i];
}

/* 16kHz、一次チャンネルだけにおいて、DFT合成重複メモリを更新する */
lerp( hCPE->hStereoDft->output_mem_dmx, hCPE->hStereoDft->output_mem_dmx_16k, STEREO_DFT_OVL_16k, dft_ovl );

/* 8kHz、二次チャンネルにおいて、DFT合成重複メモリをリセットする */
set_f( hCPE->hStereoDft->output_mem_res_8k, 0, STEREO_DFT_OVL_8k );

hCPE->vad_flag[1] = 0;
}

/* DFT/MDCT -> TDステレオ切り替え */
if ( hCPE->element_mode == IVAS_CPE_TD && hCPE->last_element_mode != IVAS_CPE_TD )
{
hCPE->hStereoTD->tdm_last_ratio_idx = LRTD_STEREO_MID_IS_PRIM;
hCPE->hStereoTD->tdm_last_ratio_idx_SM = LRTD_STEREO_MID_IS_PRIM;
hCPE->hStereoTD->tdm_last_SM_flag = 0;
hCPE->hStereoTD->tdm_last_inst_ratio_idx = LRTD_STEREO_MID_IS_PRIM;
/* DFTフレームおよびコンテンツが相関しなくなった後の、またはそれらにクロストークが生じた後の最初のフレーム -> 一次チャンネルは左に強制的に動かされる */
if ( hCPE->hStereoClassif->lrtd_mode == 1 )
{
hCPE->hStereoTD->tdm_last_ratio = ratio_tabl[LRTD_STEREO_LEFT_IS_PRIM];
hCPE->hStereoTD->tdm_last_ratio_idx = LRTD_STEREO_LEFT_IS_PRIM;

if ( hCPE->hStereoTCA->instTargetGain < 0.05f && ( hCPE->vad_flag[0] || hCPE->vad_flag[1] ) ) /* しかし、Lチャンネルにコンテンツがない場合、 -> 一次チャンネルは強制的に右に動かされる */
{
hCPE->hStereoTD->tdm_last_ratio = ratio_tabl[LRTD_STEREO_RIGHT_IS_PRIM];
hCPE->hStereoTD->tdm_last_ratio_idx = LRTD_STEREO_RIGHT_IS_PRIM;
}
}
}

/* DFT -> TDステレオ切り替え */
if ( hCPE->element_mode == IVAS_CPE_TD && hCPE->last_element_mode == IVAS_CPE_DFT )
{
offset = st[0]->cldfbAnaEnc->p_filter_length - st[0]->cldfbAnaEnc->no_channels;

mvr2r( old_input_signal_pri + input_frame - offset - NS2SA( input_frame * 50, L_MEM_RECALC_TBE_NS ), st[0]->cldfbAnaEnc->cldfb_state, offset );

cldfb_reset_memory( st[0]->cldfbSynTd );
st[0]->currEnergyLookAhead = 6.1e-5f;

if ( hCPE->hStereoICBWE == NULL )
{
offset = st[1]->cldfbAnaEnc->p_filter_length - st[1]->cldfbAnaEnc->no_channels;
if ( hCPE->hStereoTD->tdm_last_ratio_idx == LRTD_STEREO_LEFT_IS_PRIM )
{
v_multc( hCPE->hCoreCoder[1]->old_input_signal + input_frame - offset - NS2SA( input_frame * 50, L_MEM_RECALC_TBE_NS ), -1.0f, st[1]->cldfbAnaEnc->cldfb_state, offset );
}
else
{
mvr2r( hCPE->hCoreCoder[1]->old_input_signal + input_frame - offset - NS2SA( input_frame * 50, L_MEM_RECALC_TBE_NS ), st[1]->cldfbAnaEnc->cldfb_state, offset );
}
cldfb_reset_memory( st[1]->cldfbSynTd );
st[1]->currEnergyLookAhead = 6.1e-5f;
}
st[1]->last_extl = -1;

/* 前のフレームに二次チャンネルなし -> メモリはリセットする */
set_zero( st[1]->old_inp_12k8, L_INP_MEM );
/*set_zero( st[1]->old_inp_16k, L_INP_MEM );*/
set_zero( st[1]->mem_decim, 2 * L_FILT_MAX );
/*set_zero( st[1]->mem_decim16k, 2*L_FILT_MAX );*/
st[1]->mem_preemph = 0;
/*st[1]->mem_preemph16k = 0;*/

set_zero( st[1]->buf_speech_enc, L_PAST_MAX_32k + L_FRAME32k + L_NEXT_MAX_32k );
set_zero( st[1]->buf_speech_enc_pe, L_PAST_MAX_32k + L_FRAME32k + L_NEXT_MAX_32k );

if ( st[1]->hTcxEnc != NULL )
{
set_zero( st[1]->hTcxEnc->buf_speech_ltp, L_PAST_MAX_32k + L_FRAME32k + L_NEXT_MAX_32k );
}
set_zero( st[1]->buf_wspeech_enc, L_FRAME16k + L_SUBFR + L_FRAME16k + L_NEXT_MAX_16k );
set_zero( st[1]->buf_synth, OLD_SYNTH_SIZE_ENC + L_FRAME32k );
st[1]->mem_wsp = 0.0f;
st[1]->mem_wsp_enc = 0.0f;
init_gp_clip( st[1]->clip_var );

set_f( st[1]->Bin_E, 0, L_FFT );
set_f( st[1]->Bin_E_old, 0, L_FFT / 2 );

/* st[1]->hLPDmem リセットはハンドルの割り振りにおいてすでに行われている */

st[1]->last_L_frame = st[0]->last_L_frame;

pitch_ol_init( &st[1]->old_thres, &st[1]->old_pitch, &st[1]->delta_pit, &st[1]->old_corr );
set_zero( st[1]->old_wsp, L_WSP_MEM );
set_zero( st[1]->old_wsp2, ( L_WSP_MEM - L_INTERPOL ) / OPL_DECIM );
set_zero( st[1]->mem_decim2, 3 );

st[1]->Nb_ACELP_frames = 0;

/* PChメモリでSChを埋める */
mvr2r( st[0]->hLPDmem->old_exc, st[1]->hLPDmem->old_exc, L_EXC_MEM );
mvr2r( st[0]->lsf_old, st[1]->lsf_old, M );
mvr2r( st[0]->lsp_old, st[1]->lsp_old, M );
mvr2r( st[0]->lsf_old1, st[1]->lsf_old1, M );
mvr2r( st[0]->lsp_old1, st[1]->lsp_old1, M );

st[1]->GSC_noisy_speech = 0;
}
else if ( hCPE->element_mode == IVAS_CPE_TD && hCPE->last_element_mode == IVAS_CPE_MDCT )
{
set_f( st[0]->hLPDmem->old_exc, 0.0f, L_EXC_MEM );
set_f( st[1]->hLPDmem->old_exc, 0.0f, L_EXC_MEM );
}

1.2.5 ICAエンコーダ
TDステレオフレームにおいて、ステレオモード切り替え制御動作(図示せず)は、時間的なInter-Channel Alignment (ICA)動作251を備える。動作251を実行するために、ステレオモード切り替えコントローラ(図示せず)は、入力ステレオ信号のチャンネルlとrを時間整列し、そしてチャンネルrをスケーリングするための、ICAエンコーダ201を備える。

前の記述において説明されたように、TDダウンミキシングの前に、時間領域における2つの入力チャンネルlとrとの間のITD同期を使用して、ICAが実行される。これは、入力チャンネル(lまたはr)のうちの1つを遅らせることによって、およびITD遅延の長さに対応するダウンミキシングされた信号の欠けている部分を外挿することによって達成され、ITD遅延の最大値は7.5msである。時間整列、すなわちICA時間シフトがまず適用され、現在のTDステレオフレームの大半の部分を変化させる。先読みダウンミキシングされた信号の外挿された部分は、再計算されるので、次のフレームにおいて推定されるITDに基づいて次のフレームにおいて時間的に調整される。

ステレオモード切り替えが予想されないとき、7.5msの長さの外挿される信号が、ICAエンコーダ201において再計算される。しかしながら、ステレオモード切り替え、すなわちDFTステレオモードからTDステレオモードへの切り替えが起こり得るとき、より長い信号が再計算を受ける。そうすると、その長さは、DFTステレオの矯正された信号とFIR再サンプリング遅延を足したものの長さ、すなわち8.75ms+0.9375ms=9.6875msに対応する。セクション1.4は、これらの特徴をより詳細に説明する。

ICAエンコーダ201の別の目的は、入力チャンネルrのスケーリングである。スケーリング利得、すなわち上で言及された目標利得は、使用されるDFTステレオモードまたはTDステレオモードとは無関係に、1つ1つのフレームにおいて以前のフレームの目標利得を用いて平滑化されたlチャンネルのエネルギーとrチャンネルのエネルギーの対数比として推定される。現在のフレーム(20ms)において推定される目標利得は現在の入力チャンネルrの最後の15msに適用されるが、現在のチャンネルrの最初の5msはフェードイン/フェードアウト方式で以前のフレームの目標利得と現在のフレームの目標利得の組合せによりスケーリングされる。

ICAエンコーダ201は、ITD遅延、目標利得、および目標チャンネルインデックスなどのICAパラメータ202を生み出す。

1.2.6 時間領域過渡状態検出器
ステレオモード切り替え制御動作(図示せず)は、ICAエンコーダ201からチャンネルlにおいて時間領域の過渡状態を検出する動作253を備える。動作253を実行するために、ステレオモード切り替えコントローラ(図示せず)は、チャンネルlにおいて時間領域の過渡状態を検出するための検出器203を備える。

同じ方式で、ステレオモード切り替え制御動作(図示せず)は、ICAエンコーダ201からチャンネルrにおいて時間領域の過渡状態を検出する動作254を備える。動作254を実行するために、ステレオモード切り替えコントローラ(図示せず)は、チャンネルrにおいて時間領域の過渡状態を検出するための検出器204を備える。

時間領域チャンネルlおよびrにおける時間領域の過渡状態の検出は、変換領域コア符号化モジュール(TCXコア、HQコア、FD-BWE)におけるそのような過渡状態の検出、およびしたがって、その適切な処理と符号化を可能にする、前処理ステップである。

時間領域過渡状態検出器203および204ならびに時間領域過渡状態検出動作253および254に関するさらなる情報は、たとえば非特許文献1、5.1.8項において見出され得る。

1.2.7 ステレオエンコーダ構成
ステレオエンコーダ構成を実行するために、IVASステレオ符号化デバイス200は、ステレオエンコーダ300、400、および500のパラメータを設定する。たとえば、コアエンコーダに対する名目ビットレートが設定される。

1.2.8 DFT分析、DFT領域におけるステレオ処理およびダウンミキシング、ならびにIDFT合成
図3を参照すると、DFTステレオ符号化方法350は、図2の時間領域過渡状態検出器203からDFT変換をチャンネルlに適用するための動作351を備える。動作351を実行するために、DFTステレオエンコーダ300は、DFT領域においてチャンネルLを生み出すためのチャンネルlのDFT変換(DFT分析)の計算器301を備える。

DFTステレオ符号化方法350はまた、図2の時間領域過渡状態検出器204からのチャンネルrにDFT変換を適用するための動作352を備える。動作352を実行するために、DFTステレオエンコーダ300は、DFT領域においてチャンネルRを生み出すためのチャンネルrのDFT変換(DFT分析)の計算器302を備える。

DFTステレオ符号化方法350はさらに、DFT領域におけるステレオ処理およびダウンミキシングの動作353を備える。動作353を実行するために、DFTステレオエンコーダ300は、サイドチャンネルS上でサイド情報を生み出すためのステレオプロセッサおよびダウンミキサ303を備える。チャンネルLとRのダウンミキシングはまた、サイドチャンネルS上で残留信号を生み出す。サイドチャンネルSからのサイド情報および残留信号は、たとえばコーディング動作354および対応するエンコーダ304を使用してコーディングされ、次いで、DFTステレオエンコーダ300の出力ビットストリーム310において多重化される。ステレオプロセッサおよびダウンミキサ303はまた、DFT計算器301および302から左チャンネルLと右チャンネルRをダウンミキシングして、DFT領域において中間チャンネルMを生み出す。ステレオ処理およびダウンミキシングの動作353、ステレオプロセッサおよびダウンミキサ303、中間チャンネルM、ならびにサイドチャンネルSからのサイド情報および残留信号に関するさらなる情報は、たとえば非特許文献3において見出され得る。

DFTステレオ符号化方法350の逆DFT(IDT)合成動作355において、DFTステレオエンコーダ300の計算器305は、入力ステレオ信号のサンプリングレート、たとえば12.8kHzで中間チャンネルMのIDFT変換mを計算する。同じ方式で、DFTステレオ符号化方法350の逆DFT(IDFT)合成動作356において、DFTステレオエンコーダ300の計算器306は、内部サンプリングレートでチャンネルMのIDFT変換mを計算する。

1.2.9 TD領域におけるTD分析およびダウンミキシング
図4を参照すると、TDステレオ符号化方法450は、TD領域における時間領域分析および重み付けられたダウンミキシングの動作451を備える。動作451を実行するために、TDステレオエンコーダ400は、サブモードフラグ、ミキシング比インデックス、または線形予測再使用フラグなどの、ステレオサイドパラメータ402を計算するための時間領域分析器およびダウンミキサ401を備え、それらのステレオサイドパラメータ402は、TDステレオエンコーダ400の出力ビットストリーム410において多重化される。時間領域分析器およびダウンミキサ401はまた、検出器203および204(図2)からチャンネルlとrの重み付けられたダウミキシングを実行し、ICAスケーリングと整合した状態で、推定されたミキシング比を使用して一チャンネルPChおよび二次チャンネルSChを生み出す。時間領域分析器およびダウンミキサ401および動作451に関するさらなる情報は、たとえば特許文献1において見出され得る。

現在のフレームミキシング比を使用したダウンミキシングは、たとえば、入力チャンネルlおよびrの現在のフレームの最後の15msに対して実行されるが、現在のフレームの最初の5msは、一方のチャンネルから他方のチャンネルへの移行を円滑にするために、フェードイン/フェードアウト方式で、前のフレームのミキシング比と現在のフレームのミキシング比の組合せを使用してダウンミキシングされる。ステレオ入力チャンネルサンプリングレート、たとえば32kHzでサンプリングされる2つのチャンネル(一次チャンネルPChおよび二次チャンネルSCh)は、12.8kHzでの、および内部サンプリングレートでのそれらの表現へと、FIRデシメーションフィルタを使用して再サンプリングされる。

TDステレオモードでは、ダウンミキシングされるのは、現在のフレームのステレオ入力信号だけではない。また、前のフレームに対応する記憶されているダウンミキシングされた信号は、再びダウンミキシングされる。この再計算の対象である、以前の信号の長さは、ICAモジュールにおいて再計算される時間シフトされた信号の長さ、すなわち8.75ms+0.9375ms=9.6875msに対応する。

1.2.10 初期前処理
IVASコーデック(IVASステレオ符号化デバイス200およびIVASステレオ復号デバイス800)において、一部の分類の判断はコーデック全体のビットレートに対して行われるが、他の判断はコア符号化ビットレートに応じて行われるような制約が、従来の前処理にはある。その結果、たとえばEVSコーデック(非特許文献1)において使用されるような従来の前処理は、最良の可能なコーデック構成が各々の処理されるフレームにおいて使用されることを確実にするために、2つの部分へと分割される。したがって、コーデック構成はフレームごとに変化し得るが、構成のいくつかの変更、たとえば信号活動または信号クラスに基づく変更は、可能な限り速く行われ得る。一方、コーデック構成のいくつかの変更、たとえば、コーディングされるオーディオ帯域幅の選択、内部サンプリングレートの選択、または低帯域コーディングと高帯域コーディングとの間でのビットバジェット分配は、あまり頻繁に起こるべきではない。そのようなコーデック構成のあまりにも頻繁な変更は、コーディングされる信号品質の不安定さ、または可聴のアーティファクトにもつながり得る。

前処理の第1の部分、すなわち初期前処理は、前処理サンプリングレートでの再サンプリング、スペクトル分析、帯域幅検出(BWD)、音活動検出(SAD)、線形予測(LP)分析、開ループピッチ検索、信号分類、発話/音楽分類などの、前処理および分類モジュールを含み得る。初期前処理における判断は、コーデック全体のビットレートだけに依存することに留意されたい。上で説明された前処理の間に実行される動作に関するさらなる情報は、たとえば非特許文献1において見出され得る。

DFTステレオモード(図3のDFTステレオエンコーダ300)では、初期前処理は、IDFT計算器306から内部サンプリングレートで時間領域において、中間チャンネルmに対して初期プリプロセッサ307および対応する初期前処理動作357によって実行される。

TDステレオモードでは、初期前処理は、(a)時間領域分析器およびダウンミキサ401からの一次チャンネルPChに対して初期プリプロセッサ403および対応する初期前処理動作453によって、ならびに(b)時間領域分析器およびダウンミキサ401からの二次チャンネルSChに対して初期プリプロセッサ404および対応する初期前処理動作454によって実行される。

MDCTステレオモードでは、初期前処理は、(a)時間領域過渡状態検出器203(図2)からの入力の左チャンネルlに対して、初期プリプロセッサ503および対応する初期前処理動作553によって、ならびに(b)時間領域過渡状態検出器204(図2)からの入力の右チャンネルrに対して、初期プリプロセッサ504および対応する初期前処理動作554によって実行される。

1.2.11 コアエンコーダ構成
コアエンコーダの構成は、コーデック全体のビットレートおよび初期前処理に基づいて行われる。

具体的には、DFTステレオエンコーダ300および対応するDFTステレオ符号化方法350(図3)では、コアエンコーダ構成器308、ならびに対応するコアエンコーダ構成動作358は、IDFT計算器305からの時間領域における中間チャンネルmおよび初期プリプロセッサ307からの出力に応答して、コアエンコーダ311および対応するコア符号化動作361を構成する。コアエンコーダ構成器308はたとえば、内部サンプリングレートを設定し、および/またはコアエンコーダタイプの分類を修正することを担う。DFT領域におけるコアエンコーダ構成に関するさらなる情報は、たとえば非特許文献1および2において見出され得る。

TDステレオエンコーダ400および対応するTDステレオ符号化方法450(図4)では、コアエンコーダ構成器405および対応するコアエンコーダ構成動作455は、それぞれ初期プリプロセッサ403および404からの初期前処理された一次チャンネルPChおよび二次チャンネルSChに応答して、一次チャンネルPChのコアエンコーダ406および対応するコア符号化動作456の構成、ならびに二次チャンネルSChのコアエンコーダ407および対応するコア符号化動作457の構成を実行する。コアエンコーダ構成器405はたとえば、内部サンプリングレートを設定すること、および/またはコアエンコーダタイプの分類を修正することを担う。TD領域におけるコアエンコーダ構成に関するさらなる情報は、たとえば特許文献1および非特許文献1において見出され得る。

1.2.12 追加前処理
DFT符号化方法350は、追加前処理の動作362を備える。動作362を実行するために、DFTステレオエンコーダ300のいわゆる追加プリプロセッサ312は、分類、コア選択、符号化内部サンプリングレートでの前処理などを含み得る、前処理の第2の部分を行う。初期プリプロセッサ307における判断は、セッションの間に普通は変動するコア符号化ビットレートに依存する。DFT領域におけるそのような追加前処理の間に実行される動作に関する追加の情報は、たとえば非特許文献1において見出され得る。

TD符号化方法450は、追加前処理の動作458を備える。動作458を実行するために、TDステレオエンコーダ400のいわゆる追加プリプロセッサ408が、一次チャンネルPChのコア符号化の前に、分類、コア選択、符号化内部サンプリングレートでの前処理などを含み得る前処理の第2の部分を行う。追加プリプロセッサ408における判断は、セッションの間に普通は変動するコア符号化ビットレートに依存する。

また、TD符号化方法450は、追加前処理の動作459を備える。動作459を実行するために、TDステレオエンコーダ400は、二次チャンネルSChのコア符号化の前に、分類、コア選択、符号化内部サンプリングレートにおける前処理などを含み得る前処理の第2の部分を行うために、いわゆる追加プリプロセッサ409を備える。追加プリプロセッサ409における判断は、セッションの間に普通は変動するコア符号化ビットレートに依存する。

TD領域におけるそのような追加前処理に関する追加の情報は、たとえば非特許文献1において見出され得る。

MDCT符号化方法550は、左チャンネルlの追加前処理の動作555を備える。動作555を実行するために、MDCTステレオエンコーダ500のいわゆる追加プリプロセッサ505は、MDCTステレオエンコーダ500の共同コアエンコーダ506によって実行される左チャンネルlおよび右チャンネルrの共同コア符号化の動作556の前に、分類、コア選択、符号化内部サンプリングレートでの前処理などを含み得る、左チャンネルlの前処理の第2の部分を行う。

MDCT符号化方法550は、右チャンネルrの追加前処理の動作557を備える。動作557を実行するために、MDCTステレオエンコーダ500のいわゆる追加プリプロセッサ507は、MDCTステレオエンコーダ500の共同コアエンコーダ506によって実行される左チャンネルlおよび右チャンネルrの共同コア符号化の動作556の前に、分類、コア選択、符号化内部サンプリングレートでの前処理などを含み得る、左チャンネルlの前処理の第2の部分を行う。

MDCT領域におけるそのような追加前処理に関する追加の情報は、たとえば非特許文献1において見出され得る。

1.2.13 コア符号化
一般に、DFTステレオエンコーダ300の中のコアエンコーダ311(コア符号化動作361を実行する)ならびにTDステレオエンコーダ400の中のコアエンコーダ406(コア符号化動作456を実行する)および407(コア符号化動作457を実行する)は、任意の可変のビットレートモノコーデックであり得る。本開示の例示的な実装形態では、変動するビットレート能力(特許文献2参照)を伴うEVSコーデック(非特許文献1参照)が使用される。当然、他の適切なコーデックが、場合によっては考慮され実装され得る。MDCTステレオエンコーダ500では、一般的には、lチャンネルおよびrチャンネルを共同方式で処理して量子化するステレオフォニックツールを伴うステレオコーディングモジュールであり得る、共同コアエンコーダ506が利用される。

1.2.14 共通ステレオ更新
最後に、共通ステレオ更新が実行される。共通ステレオ更新に関するさらなる情報は、たとえば非特許文献1において見出され得る。

1.2.15 ビットストリーム
図2および図3を参照すると、ステレオ分類器およびステレオモード選択器205からのステレオモードシグナリング270、サイド情報からのビットストリーム313、残留信号検出器304、およびコアエンコーダ311からのビットストリーム314は、DFTステレオエンコーダビットストリーム310を形成する(そしてIVASステレオ符号化デバイス200(図2)の出力ビットストリーム206を形成する)ために多重化される。

図2および図4を参照すると、ステレオ分類器およびステレオモード選択器205からのステレオモードシグナリング270、時間領域分析器およびダウンミキサ401からのサイドパラメータ402、ICAエンコーダ201からのICAパラメータ202、コアエンコーダ406からのビットストリーム411、ならびにコアエンコーダ407からのビットストリーム412は、TDステレオエンコーダビットストリーム410を形成する(そしてIVASステレオ符号化デバイス200(図2)の出力ビットストリーム206を形成する)ために多重化される。

図2および図5を参照すると、ステレオ分類器およびステレオモード選択器205からのステレオモードシグナリング270、ならびに共同コアエンコーダ506からのビットストリーム509は、MDCTステレオエンコーダビットストリーム508を形成する(そしてIVASステレオ符号化デバイス200(図2)の出力ビットストリーム206を形成する)ために多重化される。

1.3 IVASステレオ符号化デバイス200におけるTDステレオモードからDFTステレオモードへの切り替え
TDステレオモード(TDステレオエンコーダ400)からDFTステレオモード(DFTステレオエンコーダ300)への切り替えは、図6に示されるように比較的単純である。

具体的には、図6は、TDステレオモードからDFTステレオモードに切り替える際の、IVASステレオ符号化デバイス200および方法250における処理動作を示すフローチャートである。図に見られるように、図5は、ステレオ入力信号の2つのフレーム、すなわちTDステレオフレーム601およびそれに続くDFTステレオフレーム602を、TDステレオモードからDFTステレオモードに切り替わるときの様々な処理動作および関連する時間インスタンスとともに示す。

十分に長い先読みが可能であり、DFT領域において再サンプリングが行われ(したがってFIRデシメーションフィルタメモリの取り扱いはない)、最後のTDステレオフレーム501の中の2つのコアエンコーダ406および407から最初のDFTステレオフレーム502の中の1つのコアエンコーダ311への移行がある。

TDステレオモード(TDステレオエンコーダ400)からDFTステレオモード(DFTステレオエンコーダ300)への切り替えに際して実行される以下の動作は、ステレオモード選択に応答して上で言及されたステレオモード切り替えコントローラ(図示せず)によって実行される。

図6のインスタンスA)は、DFT分析メモリの更新、具体的には、DFT計算動作351および352の前に窓掛けを受けるDFTステレオデータ構造の一部としてのDFTステレオOLA分析メモリの更新を指す。この更新は、Inter-Channel Alignment (ICA)の前にステレオモード切り替えコントローラ(図示せず)によって行われ(図2の251参照)、入力ステレオ信号のチャンネルlおよびrの現在のTDステレオフレーム601の最後の8.75msに関するサンプルを記憶することを備える。この更新は、チャンネルlとrの両方の中の1つ1つのTDステレオフレームについて行われる。DFT分析メモリに関するさらなる情報は、たとえば非特許文献1および2において見出され得る。

図6のインスタンスB)は、TDステレオモードからDFTステレオモードに切り替わる際の、DFT合成メモリの更新、具体的には、IDFT計算動作355および356の後の窓掛けにより生じるDFTステレオデータ構造の一部としてのOLA合成メモリの更新を指す。ステレオモード切り替えコントローラ(図示せず)は、TDステレオフレーム601の後の最初のDFTステレオフレーム602においてこの更新を実行し、この更新のために、TDステレオデータ構造の一部としての、ダウンミキシングされた一次チャンネルPChに対応するTDステレオ処理のために使用される、TDステレオメモリを使用する。DFT合成メモリに関するさらなる情報は、たとえば非特許文献1および2において見出すことができ、TDステレオメモリに関するさらなる情報は、たとえば特許文献1において見出すことができる。

第1のDFTステレオフレーム602で開始して、いくつかのTDステレオ関連のデータ構造、たとえば、二次チャンネルSChに関するコアエンコーダ407のTDステレオデータ構造(TDステレオエンコーダ400において使用されるような)およびデータ構造はもはや必要とされないので、割り振り解除され、すなわち、ステレオモード切り替えコントローラ(図示せず)によって解放される。

TDステレオフレーム601に続くDFTステレオフレーム602において、ステレオモード切り替えコントローラ(図示せず)は、先行するTDステレオフレーム601における一次PChチャンネルコアエンコーダ406のメモリ(たとえば、合成メモリ、プリエンファシスメモリ、過去の信号およびパラメータなど)を用いて、DFTステレオエンコーダ300のコアエンコーダ311におけるコア符号化動作361を続けながら、いくつかのコアエンコーダバッファ、たとえばプリエンファシスを受けた入力信号バッファ、HB入力バッファなどの連続性を確実にするように、TDステレオモードとDFTステレオモードとの間の時間インスタンスの差を制御し、それらは後で、それぞれ、低帯域エンコーダ、FD-BWE高帯域エンコーダにおいて使用される。コア符号化動作361、PChチャンネルコアエンコーダ406のメモリ、プリエンファシスを受けた入力信号バッファ、HB入力バッファなどに関するさらなる情報は、たとえば非特許文献1において見出され得る。

1.4 IVASステレオ符号化デバイス200におけるDFTステレオモードからTDステレオモードへの切り替え
DFTステレオモードからTDステレオモードへの切り替えは、TDステレオエンコーダ400のより複雑な構造により、TDステレオモードからDFTステレオモードへの切り替えより複雑である。DFTステレオモード(DFTステレオエンコーダ300)からTDステレオモード(TDステレオエンコーダ400)への切り替えの際に実行される後続の動作は、ステレオモード選択に応答してステレオモード切り替えコントローラ(図示せず)によって実行される。

図7aは、DFTステレオモードからTDステレオモードへの切り替えの際のIVASステレオ符号化デバイス200および方法250における処理動作を示すフローチャートである。具体的には、図7aは、DFTステレオモードからTDステレオモードに切り替えるときの、異なる処理動作におけるステレオ入力信号の2つのフレーム、すなわちDFTステレオフレーム701およびそれに続くTDステレオフレーム702を関連する時間インスタンスとともに示す。

図7aのインスタンスA)は、TDステレオコーディングモードの一次チャンネルPChにおいて使用されるFIR再サンプリングフィルタメモリ(入力ステレオ信号サンプリングレートから12.8kHzのサンプリングレートおよび内部コアエンコーダサンプリングレートへのFIR再サンプリングにおいて利用されるような)の更新に触れる。ステレオモード切り替えコントローラ(図示せず)は、ダウンミキシングされた中間チャンネルmを使用して1つ1つのDFTステレオフレームにおいてこの更新を実行し、DFTステレオフレーム701の中の最後の7.5msの長さの区間の前の2×0.9375msの長さの区間703に対応し(704参照)、それにより、一次チャンネルPChに対するFIR再サンプリングメモリの連続性を確実にする。

DFTステレオ符号化方法350のサイドチャンネルs(図3)は利用可能ではないが、それは、たとえば、12.8kHzのサンプリングレート、入力ステレオ信号のサンプリングレートにおいて、および内部サンプリングレートにおいて使用されるので、ステレオモード切り替えコントローラ(図示せず)は、ダウンミキシングされた二次チャンネルSChのFIR再サンプリングフィルタメモリを異なるように埋める。コアエンコーダ407に対する内部サンプリングレートでダウンミキシングされた信号の長さ全体を再構築するために、前のフレームのダウンミキシングされた信号の8.75msの区間(705参照)が、TDステレオフレーム702において再計算される。したがって、ダウンミキシングされた二次チャンネルSChのFIR再サンプリングフィルタメモリの更新は、最後の8.75msの長さの区間の前のダウンミキシングされた中間チャンネルmの2×0.9375msの長さの区間708に対応する(705参照)。これは、先行するDFTステレオフレーム701から切り替えた後の最初のTDステレオフレーム702において行われる。二次チャンネルSChのFIR再サンプリングフィルタメモリの更新は、図7aのインスタンスC)により触れられる。図からわかるように、ステレオモード切り替えコントローラ(図示せず)は、一次チャンネルPChにおけるダウンミキシングされた信号の再計算された長さ(707参照)よりも長い、二次チャンネルSChにおけるダウンミキシングされた信号の長さ(706参照)を、TDステレオフレームにおいて再計算する。

図7aのインスタンスB)は、DFTステレオフレーム701の後の最初のTDステレオフレーム702における一次チャンネルPChおよび二次チャンネルSChの更新(再計算)に関する。ステレオモード切り替えコントローラ(図示せず)によって実行されるようなインスタンスB)の動作は、図7bにおいてより詳しく示される。前述の説明において言及されたように、図7bは、DFTステレオモードからTDステレオモードへの切り替えの際の処理動作を示すフローチャートである。

図7bを参照すると、動作710において、ステレオモード切り替えコントローラ(図示せず)は、ICAの分析および計算(図2の動作251参照)において使用される、ならびに前のDFTステレオフレーム701に対応するチャンネルlおよびrの9.6875msの長さ(本開示のセクション1.2.7～1.2.9において論じられるような)の前処理およびコアエンコーダ(動作453～454および456～459参照)のための入力信号として後で使用される、ICAメモリを再計算する。

したがって、動作712および713において、ステレオモード切り替えコントローラ(図示せず)は、DFTステレオフレーム701の一次チャンネルPChおよび二次チャンネルSChを、そのフレーム701のステレオミキシング比を使用してICA処理されたチャンネルlおよびrをダウミキシングすることによって再計算する。

二次チャンネルSChに対して、動作712においてステレオモード切り替えコントローラ(図示せず)によって再計算されるべき過去の区間の長さ(714参照)は9.6875msであるが、ステレオコーディングモードの切り替えがないとき、7.5msだけの長さの区間(715参照)が再計算される。一次チャンネルPCh(動作713参照)に対して、過去のフレーム701のTDステレオミキシング比を使用してステレオモード切り替えコントローラ(図示せず)によって再計算されるべき区間の長さは、常に7.5msである(715参照)。これは、一次チャンネルPChおよび二次チャンネルSChの連続性を確実にする。

DFTステレオフレーム701の中間チャンネルmからTDステレオフレーム702の一次チャンネルPChに切り替えるとき、連続的なダウンミキシングされた信号が利用される。その目的で、ステレオモード切り替えコントローラ(図示せず)は、DFTステレオモードとTDステレオモードとの間の遷移を円滑にして、異なるダウンミックス信号エネルギーを等化するために、DFT中間チャンネルmの7.5msの長さの区間(715参照)をDFTステレオフレーム701の再計算された一次チャンネルPCh(713)とクロスフェードする(717)。動作712における二次チャンネルSChの再構築はフレーム701のミキシング比を使用するが、DFTステレオフレーム701からの二次チャンネルSChは利用可能ではないので、さらなる平滑化は適用されない。

次いで、DFTステレオフレーム701の後の最初のTDステレオフレーム702におけるコア符号化は、FIRフィルタを使用してダウンミキシングされた信号を再サンプリングすること、これらの信号にプリエンファシスを行うこと、HB信号を計算することなどに続く。これらの動作に関するさらなる情報は、たとえば非特許文献1において見出され得る。

入力信号のより高い周波数を強調するために使用される一次ハイパスフィルタとして実装されるプリエンファシスフィルタに関して(非特許文献1、5.1.4項参照)、ステレオモード切り替えコントローラ(図示せず)は、1つ1つのDFTステレオフレームにプリエンファシスフィルタメモリの2つの値を記憶する。これらのメモリ値は、DFTステレオモードおよびTDステレオモードの異なる再計算の長さに基づく時間インスタンスに対応する。この機構は、チャンネルmの中のプリエンファシス信号の最適な再計算を確実にし、それぞれ信号の長さが最小である一次チャンネルPCh。TDステレオモードの二次チャンネルSChに対して、最初のTDステレオフレームが処理される前、プリエンファシスフィルタメモリは0に設定される。

DFTステレオフレーム701の後の最初のTDステレオフレーム702で開始すると、いくつかのDFTステレオ関連のデータ構造(たとえば、本明細書において上で言及されたDFTステレオデータ構造)は必要ではないので、それらはステレオモード切り替えコントローラ(図示せず)によって割り振り解除/解放される。一方、コアエンコーダデータ構造の第2のインスタンスは、二次チャンネルSChのコア符号化(動作457)のために割り振られて初期化される。二次チャンネルSChコアエンコーダのデータ構造の大半はリセットされるが、それらの一部は、より円滑な切り替え遷移のために推定される。たとえば、二次チャンネルSChの以前の励振バッファ(ACELPコアの適応コードブック)、以前のLSFパラメータおよびLSPパラメータ(非特許文献1参照)は、一次チャンネルPChにおけるそれらの対応するものを用いて埋められる。二次チャンネルSChの以前のバッファのリセットまたは推定は、いくつかのアーティファクトの原因であり得る。そのようなアーティファクトの多くは、デコーダにおける平滑化ベースの処理において大きく抑制されるが、それらのうちの少数が、主観的なアーティファクトの原因として残ることがある。

1.5 IVASステレオ符号化デバイス200におけるTDステレオモードからMDCTステレオモードへの切り替え
TDステレオモードからMDCTステレオモードへの切り替えは比較的単純であり、それは、両方のこれらのステレオモードが、2つの入力チャンネルを扱い、2つのコアエンコーダのインスタンスを利用するからである。主な障壁は、入力の左チャンネルおよび右チャンネルの正しい位相を維持することである。

ステレオ音信号の入力の左チャンネルおよび右チャンネルの正しい位相を維持するために、ステレオモード切り替えコントローラ(図示せず)は、TDステレオのダウンミキシングを変更する。最初のMDCTステレオフレームの前の最後のTDステレオフレームにおいて、TDステレオミキシング比はβ=1.0に設定され、ステレオ音信号の左チャンネルおよび右チャンネルの逆位相ダウンミキシングは、たとえばTDステレオのダウンミキシングに対する以下の式を使用して実施される。
PCh(i)=r(i)・(1-β)+l(i)・β
SCh(i)=l(i)・(1-β)+r(i)・β
ここで、PCh(i)はTD一次チャンネルであり、SCh(i)はTD二次チャンネルであり、l(i)は左チャンネルであり、r(i)は右チャンネルであり、βはTDステレオミキシング比であり、iは離散時間インデックスである。

そして、これは、TDステレオ一次チャンネルPCh(i)が、MDCTステレオの過去の左チャンネルl_past(i)と同一であること、およびTDステレオ二次チャンネルSCh(i)が、MDCTステレオの過去の右チャンネルr_past(i)と同一であることを意味し、iは離散時間インデックスである。完全にするために、ステレオモード切り替えコントローラ(図示せず)は、最後のTDステレオフレームにおいて、たとえば以下の式を使用してデフォルトのTDステレオのダウンミキシングを使用し得ることに留意されたい。
PCh(i)=r(i)・(1-β)+l(i)・β
SCh(i)=l(i)・(1-β)-r(i)・β

次に、普通の(ステレオモード切り替えなし)MDCTステレオ処理では、初期前処理(初期プリプロセッサ503および504ならびに初期前処理動作553および554)は、最後の0.9375msの長さの区間を除き、ステレオ音信号の左チャンネルlおよび右チャンネルrの先読みを再計算しない。しかしながら、実際には、7.5+0.9375msの長さの先読みは、内部サンプリングレート(この限定しない例示的な実装形態では12.8kHz)での再計算を受ける。したがって、入力サンプリングレートにおいて入力信号の連続性を維持するために、特別な取り扱いは必要ではない。

そして、普通の(ステレオモード切り替えなし)MDCTステレオ処理では、追加前処理(追加プリプロセッサ505および507ならびに追加前処理動作555および557)は、最後の0.9375msの長さの区間を除き、ステレオ音信号の左チャンネルlおよび右チャンネルrの先読みを再計算しない。初期前処理とは対照的に、0.9375msだけの長さの内部サンプリングレート(この限定しない例示的な実装形態では12.8kHz)における入力信号(ステレオ音信号の左チャンネルlおよび右チャンネルr)は、追加前処理において再計算される。

言い換えると次の通りである。

MDCTステレオエンコーダ500は、(a)第2のMDCTステレオモードにおいて、内部サンプリングレートでステレオ音信号の左チャンネルlおよび右チャンネルrの第1の時間長の先読みを再計算する初期プリプロセッサ503および504、ならびに(b)第2のMDCTステレオモードにおいて、内部サンプリングレートでステレオ音信号の左チャンネルlおよび右チャンネルrの先読みの所与の時間長の最後の区間を再計算する追加プリプロセッサを備え、第1および第2の時間長は異なる。

MDCTステレオコーディング動作550は、第2のMDCTステレオモードにおいて、(a)内部サンプリングレートでのステレオ音信号の左チャンネルlおよび右チャンネルrの第1の時間長の先読みを再計算することと、(b)内部サンプリングレートでのステレオ音信号の左チャンネルlおよび右チャンネルrの先読みの所与の時間長の最後の区間を再計算することとを備え、第1および第2の時間長は異なる。

1.6 IVASステレオ符号化デバイス200におけるMDCTステレオモードからTDステレオモードへの切り替え
TDステレオモードからMDCTステレオモードへの切り替えと同様に、2つの入力チャンネルが常に利用可能であり、2つのコアエンコーダのインスタンスが常にこのシナリオでは利用される。主な障壁はやはり、入力の左チャンネルおよび右チャンネルの正しい位相を維持することである。したがって、最後のMDCTステレオフレームの後の最初のTDステレオフレームにおいて、ステレオモード切り替えコントローラ(図示せず)は、TDステレオミキシング比をβ=1.0に設定し、セクション1.5において説明されたものと同様の逆位相のミキシング方式を使用することによってTDステレオのダウンミキシングを変更する。

MDCTステレオモードからTDステレオモードへの切り替えについての別の詳細は、ステレオモード切り替えコントローラ(図示せず)が、内部サンプリングレートでステレオ音信号の入力チャンネルの過去の区間を最初のTDフレームにおいて適切に再構築することである。したがって、8.75-7.5=1.25msに対応する先読みの部分が、第1のTDステレオフレームにおいて再構築される(再サンプリングされプリエンファシスを受ける)。

1.7 IVASステレオ符号化デバイス200におけるDFTステレオモードからMDCTステレオモードへの切り替え
上で説明されたようなDFTステレオモードからTDステレオモードへの切り替えと同様の機構がこのシナリオにおいて使用され、TDステレオモードの一次チャンネルPChおよび二次チャンネルSChは、MDCTステレオモードの左チャンネルlおよび右チャンネルrにより置き換えられる。

1.8 IVASステレオ符号化デバイス200におけるMDCTステレオモードからDFTステレオモードへの切り替え
上で説明されたようなTDステレオモードからDFTステレオモードへの切り替えと同様の機構がこのシナリオにおいて使用され、TDステレオモードの一次チャンネルPChおよび二次チャンネルSChが、MDCTステレオモードの左チャンネルlおよび右チャンネルrにより置き換えられる。

2. IVASステレオ復号デバイス800および方法850におけるステレオモードの切り替え
図8は、IVASステレオ復号デバイス800および対応する復号方法850を同時に示す高水準のブロック図であり、IVASステレオ復号デバイス800は、DFTステレオデコーダ801および対応するDFTステレオ復号方法851、TDステレオデコーダ802および対応するTDステレオ復号方法852、ならびにMDCTステレオデコーダ803および対応するMDCTステレオ復号方法853を備える。簡潔にするために、DFTステレオモード、TDステレオモード、およびMDCTステレオモードのみが示され説明される。しかしながら、他のタイプのステレオモードを使用して実施することが、本開示の範囲内にある。

IVASステレオ復号デバイス800および対応する復号方法850は、IVASステレオ符号化デバイス200から送信されるビットストリーム830を受信する。一般に、IVASステレオ復号デバイス800および対応する復号方法850は、ビットストリーム830から、コーディングされたステレオ信号の連続するフレーム、たとえばEVSコーデックの場合のように20msの長さのフレームを復号し、復号されたフレームのアップミキシングを実行し、最終的にチャンネルlおよびrを含むステレオ出力信号を生み出す。

2.1 様々なステレオデコーダおよび復号方法の違い
内部サンプリングレートで実行されるコア復号は、基本的に実際のステレオモードとは無関係に同じである。しかしながら、コア復号は、DFTステレオフレームに対しては1回行われ(中間チャンネルm)、TDステレオフレーム(一次チャンネルPChおよび二次チャンネルSCh)またはMDCTステレオフレーム(左チャンネルlおよび右チャンネルr)に対しては2回行われる。問題は、DFTステレオフレームからMDCTステレオフレームに切り替えるときにMDCTステレオフレームのrチャンネルのメモリを維持(更新)するために、DFTステレオフレームからTDステレオフレームに切り替えるときに、それぞれ、TDステレオフレームの二次チャンネルSChのメモリを維持(更新)することである。

その上、コア復号の後のさらなる復号動作は実際のステレオモードに強く依存し、これは結果としてステレオモード間の切り替えを複雑にする。最も根本的な違いは次の通りである。

DFTステレオデコーダ801および復号方法851:
-内部サンプリングレートから出力ステレオ信号サンプリングレートへの復号されたコア合成の再サンプリングは、DFT分析および3.125msの合成重複窓の長さを用いてDFT領域において行われる。
-低帯域(LB)バスのフィルタリング後の(ACELPフレームにおける)調整は、DFT領域において行われる。
-コア切り替え(ACELPコア<->TCX/HQコア)は、3.125msの利用可能な遅延とともにDFT領域において行われる。
-LB合成とHB合成との同期(ACELPフレームにおける)は追加の遅延を必要としない。
-ステレオアップミキシングは、3.125msの利用可能な遅延とともにDFT領域において行われる。
-デコーダ全体の遅延(これは3.25msである)と一致するような時間同期が、0.125msの長さとともに適用される。

TDステレオデコーダ802および復号方法852:(TDステレオデコーダに関するさらなる情報は、たとえば特許文献1において見出され得る)
-内部サンプリングレートから出力ステレオ信号サンプリングレートへの復号されたコア合成の再サンプリングは、1.25msの遅延とともにCLDFBフィルタを使用して行われる。
-LBバスのフィルタリング後の(ACELPフレームにおける)調整は、CLDFB領域において行われる。
-コア切り替え(ACELPコア<->TCX/HQコア)は、1.25msの利用可能な遅延とともに時間領域において行われる。
-LB合成とHB合成との同期(ACELPフレームにおける)は追加の遅延をもたらす。
-ステレオアップミキシングは、遅延なしでTD領域において行われる。
-デコーダ全体の遅延と一致するような時間同期が、2.0msの長さとともに適用される。

MDCTステレオデコーダ803および復号方法853:
-TCXベースのコアデコーダのみが利用されるので、異なるコア間でコア合成信号を同期するために、1.25msの遅延調整だけが使用される。
-LBバスのフィルタリング後の(ACELPフレームにおける)調整は飛ばされる。
-コア切り替え(ACELPコア<->TCX/HQコア)は、1.25msの利用可能な遅延とともにTDステレオフレームまたはDFTステレオフレームの後の最初のMDCTステレオフレームだけにおいて時間領域で行われる。
-LB合成とHB合成との同期は無関係である。
-ステレオアップミキシングは飛ばされる。
-デコーダ全体の遅延と一致するような時間同期が、2.0msの長さとともに適用される。

復号の間の様々な動作、主にDFT領域処理「対」TD領域処理、およびDFTステレオモードとTDステレオモードとの間で異なる遅延方式が、DFTステレオモードとTDステレオモードの切り替えのための本明細書の以下で説明される手順において注意深く考慮される。

2.2 IVASステレオ復号デバイス800および復号方法850における処理
以下のTable III(表3)は、現在のDFTステレオモード、TDステレオモード、またはMDCTステレオモードに応じた、各フレームに対するIVASステレオ復号デバイス800における処理動作を逐次的な順序で列挙する(図8も参照)。

IVASステレオ復号方法850は、DFTステレオモード、TDステレオモード、およびMDCTステレオモードの切り替えを制御する動作(図示せず)を備える。切り替え制御動作を実行するために、IVASステレオ復号デバイス800は、DFTステレオモード、TDステレオモード、およびMDCTステレオモードの切り替えのコントローラ(図示せず)を備える。IVASステレオ復号デバイス800および復号方法850におけるDFTステレオモード、TDステレオモード、およびMDCTステレオモードの切り替えは、これらの信号の適切な処理と、IVASステレオ復号デバイス800および方法850における前記メモリの使用とを可能にするように、以下のいくつかのデコーダ信号およびメモリ1)から6)の連続性を維持するために、ステレオモード切り替えコントローラ(図示せず)を使用することを伴う。
1)コア復号において使用される、内部サンプリングレートでのコアポストフィルタのダウンミキシングされた信号およびメモリ
-DFTステレオデコーダ801:中間チャンネルm。
-TDステレオデコーダ802:一次チャンネルPChおよび二次チャンネルSCh。
-MDCTステレオデコーダ803:左チャンネルlおよび右チャンネルr(ダウンミキシングされていない)。
2)TCX-LTP(Transform Coded eXcitation - Long Term Prediction)ポストフィルタメモリ。TCX-LTPポストフィルタは、多相FIR補間フィルタを使用して過去の合成サンプルを補間するために使用される(非特許文献1、6.9.2項参照)。
3)DFT動作854の前の、以前のフレームおよび現在のフレームにおける窓掛けのOLA部分において使用されるような、内部サンプリングレートおよび出力ステレオ信号サンプリングレートにおけるDFT OLA分析メモリ。
4)出力ステレオ信号サンプリングレートにおけるIDFT動作855および856の後の、以前のフレームおよび現在のフレームにおける窓掛けのOLA部分において使用されるような、DFT OLA合成メモリ。
5)チャンネルlおよびrを含む出力ステレオ信号。
6)BWEおよびIC-BWEにおいて使用される、HB信号メモリ(非特許文献1、6.1.5項参照)、チャンネルlおよびr。

上の項目1)において1つのチャンネル(DFTステレオモードでは中間チャンネルm、それぞれTDステレオモードでは一次チャンネルPChまたはMDCTステレオモードではlチャンネル)に対する連続性を維持することは比較的単純であるが、それは、いくつかの様相、たとえば、二次チャンネルSChの過去の信号およびメモリが完全に欠けていること、DFTステレオモードとTDステレオモードとの間で異なるダウンミキシング、異なるデフォルト遅延などにより、上の項目1)における二次チャンネルSChでは、および項目2)～6)における信号/メモリでは困難である。また、エンコーダ遅延(8.75ms)と比較してより短いデコーダ遅延(3.25ms)が、復号処理をさらに複雑にする。

2.2.1 ステレオモードおよびオーディオ帯域幅情報の読み取り
IVASステレオ復号方法850は、送信されたビットストリーム830からステレオモードおよびオーディオ帯域幅情報を読み取ることで開始する(図示せず)。現在読み取られているステレオモードに基づいて、各々の特定のステレオモードに対して関連する復号動作が実行され(Table III(表3)参照)、一方、他のステレオモードのメモリおよびバッファは維持される。

2.2.2 メモリ割り振り
IVASステレオ符号化デバイス200と同様に、メモリ割り振り動作(図示せず)では、ステレオモード切り替えコントローラ(図示せず)は、現在のステレオモードに応じてデータ構造(スタティックメモリ)を動的に割り振る/割り振り解除する。ステレオモード切り替えコントローラ(図示せず)は、現在のフレームにおいて使用されるスタティックメモリの部分のみを維持することによって、コーデックのスタティックメモリへの影響を可能な限り低く保つ。特定のステレオモードにおいて割り振られるデータ構造の概要については、Table II(表2)を参照されたい。

加えて、LRTDステレオサブモードフラグが、普通のTDステレオモードとLRTDステレオモードを区別するために、ステレオモード切り替えコントローラ(図示せず)によって読み取られる。サブモードフラグに基づいて、ステレオモード切り替えコントローラ(図示せず)は、Table II(表2)に示されるようにTDステレオモード内で関連するデータ構造を割り振る/割り振り解除する。

2.2.3 ステレオモード切り替え更新
IVASステレオ符号化デバイス200と同様に、ステレオモード切り替えコントローラ(図示せず)は、DFTステレオモード、TDステレオモード、およびMDCTステレオモードのうちの1つから別のステレオモードに切り替える場合に、メモリを取り扱う。これは、更新された長期パラメータを維持し、過去のバッファメモリを更新またはリセットする。

TDステレオフレームまたはMDCTステレオフレームの後の最初のDFTステレオフレームを受信する際に、ステレオモード切り替えコントローラ(図示せず)は、DFTステレオデータ構造(DFTステレオエンコーダ300に関してすでに定義されている)をリセットする動作を実行する。DFTステレオフレームまたはMDCTステレオフレームの後の最初のTDステレオフレームを受信する際に、ステレオモード切り替えコントローラは、TDステレオデータ構造(TDステレオデコーダ400に関してすでに説明された)をリセットする動作を実行する。最後に、DFTステレオフレームまたはTDステレオフレームの後の最初のMDCTステレオフレームを受信する際に、ステレオモード切り替えコントローラ(図示せず)は、MDCTステレオデータ構造をリセットする動作を実行する。やはり、DFTステレオモードおよびTDステレオモードの一方から他方のステレオモードに切り替える際に、ステレオモード切り替えコントローラ(図示せず)は、IVASステレオ符号化デバイス200に関して説明されたようにデータ構造間でいくつかのステレオ関連パラメータを転送する動作を実行する(上記のセクション1.2.4参照)。

コア復号の二次チャンネルSChに関する更新/リセットは、セクション2.4において説明される。

また、Table III(表3)におけるステレオデコーダ構成、コアデコーダ構成、TDステレオデコーダ構成、コア復号、DFT領域におけるコア切り替え、TD領域におけるコア切り替えの動作についてのさらなる情報は、たとえば非特許文献1および非特許文献2において見出され得る。

2.2.4 DFTステレオモード重複メモリの更新
ステレオモード切り替えコントローラ(図示せず)は、各TDまたはMDCTステレオフレームにおいて、DFT OLAメモリを維持または更新する(Table III(表3)の「DFTステレオモード重複メモリの更新」、「MDCTステレオTCX重複バッファを更新する」、および「DFTステレオ重複メモリのリセット/更新」参照)。このようにして、更新されたDFT OLAメモリが次のDFTステレオフレームに対して利用可能である。実際の維持/更新機構および関連するメモリバッファは、本開示のセクション2.3において後で説明される。Cソースコードでの、TDステレオフレームまたはMDCTステレオフレームにおいて実行されるDFTステレオOLAメモリの更新の例示的な実装形態が以下で与えられる。
if ( st[n]->element_mode != IVAS_CPE_DFT )
{
ivas_post_proc( ... );

/* OLAバッファを更新する - DFTステレオに切り替えるために必要 */
stereo_td2dft_update( hCPE, n, output[n], synth[n], hb_synth[n], output_frame );

/* TDステレオSCh ACELPフレームからMDCTステレオTCXフレームへの起こり得る切り替えのためにovlバッファを更新する */
if ( st[n]->element_mode == IVAS_CPE_TD && n == 1 && st[n]->hTcxDec == NULL )
{
mvr2r( output[n] + st[n]->L_frame / 2, hCPE->hStereoTD->TCX_old_syn_Overl, st[n]->L_frame / 2 );
}
}
void stereo_td2dft_update(
CPE_DEC_HANDLE hCPE, /* i/o: CPEデコーダ構造 */
const int16_t n, /* i : チャンネル番号 */
float output[], /* i/o: 内部周波数における合成 */
float synth[], /* i/o: 出力周波数における合成 */
float hb_synth[], /* i/o: hb合成 */
const int16_t output_frame /* i : フレーム長 */
)
{
int16_t ovl, ovl_TCX, dft32ms_ovl, hq_delay_comp;
Decoder_State **st;
/* 初期化 */
st = hCPE->hCoreCoder;
ovl = NS2SA( st[n]->L_frame * 50, STEREO_DFT32MS_OVL_NS );
dft32ms_ovl = ( STEREO_DFT32MS_OVL_MAX * st[0]->output_Fs ) / 48000;
hq_delay_comp = NS2SA( st[0]->output_Fs, DELAY_CLDFB_NS );

if ( hCPE->element_mode >= IVAS_CPE_DFT && hCPE->element_mode != IVAS_CPE_MDCT )
{
if ( st[n]->core == ACELP_CORE )
{
if ( n == 0 )
{
/* internal_fsにおいてDFT分析重複メモリを更新する:コア合成 */
mvr2r( output + st[n]->L_frame - ovl, hCPE->input_mem_LB[n], ovl );

/* internal_fsにおいてDFT分析重複メモリを更新する:BPF */
if ( st[n]->p_bpf_noise_buf )
{
mvr2r( st[n]->p_bpf_noise_buf + st[n]->L_frame - ovl, hCPE->input_mem_BPF[n], ovl );
}

/* output_fsにおいてDFT分析重複メモリを更新する:BWE */
if ( st[n]->extl != -1 || ( st[n]->bws_cnt > 0 && st[n]->core == ACELP_CORE ) )
{
mvr2r( hb_synth + output_frame - dft32ms_ovl, hCPE->input_mem[n], dft32ms_ovl );
}
}
else
{
/* internal_fsにおけるDFT分析重複メモリを更新する:コア合成、二次チャンネル */
mvr2r( output + st[n]->L_frame - ovl, hCPE->input_mem_LB[n], ovl );
}
}
else /* TCXコア */
{
/* LB-TCX合成 */
mvr2r( output + st[n]->L_frame - ovl, hCPE->input_mem_LB[n], ovl );
/* BPF */
if ( n == 0 && st[n]->p_bpf_noise_buf )
{
mvr2r( st[n]->p_bpf_noise_buf + st[n]->L_frame - ovl, hCPE->input_mem_BPF[n], ovl );
}

/* TCX合成(core_switching_post_dec()の中のTDステレオにおいてすでに遅延していた) */
if ( st[n]->hTcxDec != NULL )
{
ovl_TCX = NS2SA( st[n]->hTcxDec->L_frameTCX * 50, STEREO_DFT32MS_OVL_NS );
mvr2r( synth + st[n]->hTcxDec->L_frameTCX + hq_delay_comp - ovl_TCX, hCPE->input_mem[n], ovl_TCX - hq_delay_comp );
mvr2r( st[n]->delay_buf_out, hCPE->input_mem[n] + ovl_TCX - hq_delay_comp, hq_delay_comp );
}
}
}
else if ( hCPE->element_mode == IVAS_CPE_MDCT && hCPE->input_mem[0] != NULL )
{
/* DFTステレオOLAメモリをリセットする */
set_zero( hCPE->input_mem[n], NS2SA( st[0]->output_Fs, STEREO_DFT32MS_OVL_NS ) );
set_zero( hCPE->input_mem_LB[n], STEREO_DFT32MS_OVL_16k );
if ( n == 0 )
{
set_zero( hCPE->input_mem_BPF[n], STEREO_DFT32MS_OVL_16k );
}
}

return;
}

2.2.5 DFTステレオデコーダ801および復号方法851
DFT復号方法851は、中間チャンネルmをコア復号する動作857を備える。動作857を実行するために、コアデコーダ807は、受信されたビットストリーム830に応答して、時間領域において中間チャンネルmを復号する。DFTステレオデコーダ801の中のコアデコーダ807(コア復号動作857を実行する)は、任意の可変ビットレートモノコーデックであり得る。本開示の例示的な実装形態では、変動するビットレート能力(特許文献2参照)を伴うEVSコーデック(非特許文献1参照)が使用される。当然、場合によっては他の適切なコーデックが考えられ実装され得る。

DFT復号方法851のDFT計算動作854(Table III(表3)のDFT分析)において、計算器804は、中間チャンネルmのDFTを計算して、DFT領域において中間チャンネルMを復元する。

DFT復号方法851はまた、ステレオサイド情報および残留信号Sを復号する動作858(Table III(表3)の残留復号)を備える。動作858を実行するために、デコーダ808は、ビットストリーム830に応答してステレオサイド情報および残留信号Sを復元する。

DFTステレオ復号(Table III(表3)のDFTステレオ復号)およびアップミキシング(Table III(表3)のDFT領域におけるアップミキシング)動作859において、DFTステレオデコーダおよびアップミキサ809は、中間チャンネルMおよびサイド情報および残留信号Sに応答して、DFT領域においてチャンネルLおよびRを生み出す。一般に、DFTステレオ復号およびアップミキシング動作859は、図3のDFTステレオ処理およびダウンミキシング動作353の逆である。

IDFT計算動作855(Table III(表3)のDFT合成)において、計算器805は、チャンネルLのIDFTを計算して時間領域においてチャンネルlを復元する。同様に、IDFT計算動作856(Table III(表3)のDFT合成)において、計算器806は、チャンネルRのIDFTを計算して時間領域においてチャンネルrを復元する。

2.2.6 TDステレオデコーダ802および復号方法852
TD復号方法852は、一次チャンネルPChをコア復号する動作860を備える。動作860を実行するために、コアデコーダ810は、受信されたビットストリーム830に応答して一次チャンネルPChを復号する。

TD復号方法852はまた、二次チャンネルSChをコア復号する動作861を備える。動作861を実行するために、コアデコーダ811は、受信されたビットストリーム830に応答して二次チャンネルSChを復号する。

やはり、コアデコーダ810(TDステレオデコーダ802においてコア復号動作860を実行する)およびコアデコーダ811(TDステレオデコーダ802においてコア復号動作861を実行する)は、任意の可変ビットレートモノコーデックであり得る。本開示の例示的な実装形態では、変動するビットレート能力(特許文献2参照)を伴うEVSコーデック(非特許文献1参照)が使用される。当然、場合によっては他の適切なコーデックが考えられ実装され得る。

時間領域(TD)アップミキシング動作862(Table III(表3)のTD領域におけるアップミキシング)では、アップミキサ812は、一次チャンネルPChおよび二次チャンネルSChを受信してアップミキシングし、TDステレオミキシング係数に基づいてステレオ信号の時間領域チャンネルlおよびrを復元する。

2.2.7 MDCTステレオデコーダ803および復号方法853
MDCT復号方法853は、左チャンネルlおよび右チャンネルrを共同コア復号する動作863(Table III(表3)の共同ステレオ復号)を備える。動作863を実行するために、共同コアデコーダ813は、受信されたビットストリーム830に応答して、左チャンネルlおよび右チャンネルrを復号する。MDCTステレオモードでは、アップミキシング動作は実行されず、アップミキサは利用されないことに留意されたい。

2.2.8 合成同期
ステレオ合成時間同期(Table III(表3)の合成同期)およびステレオ切り替え動作864を実行するために、ステレオモード切り替えコントローラ(図示せず)は、DFTステレオデコーダ801、TDステレオデコーダ802、またはMDCTステレオデコーダ803からチャンネルlおよびrを受信し、アップミキシングされた出力ステレオチャンネルlおよびrを同期するための、時間同期器およびステレオスイッチ814を備える。時間同期器およびステレオスイッチ814は、コーデック全体の遅延値と一致するようにアップミキシングされた出力ステレオチャンネルlおよびrを遅らせて、DFTステレオ出力チャンネルと、TDステレオ出力チャンネルと、MDCTステレオ出力チャンネルとの間の遷移を扱う。

デフォルトで、DFTステレオモードでは、時間同期器およびステレオスイッチ814は、DFTステレオデコーダ801において3.125msの遅延をもたらす。全体で32msのコーデック遅延(20msのフレーム長、8.75msのエンコーダ遅延、3.25msのデコーダ遅延)と一致するように、0.125msの遅延同期が、時間同期器およびステレオスイッチ814によって適用される。TDステレオモードまたはMDCTステレオモードの場合、時間同期器およびステレオスイッチ814は、全体で32msのコーデック遅延と一致するように、LB合成とHB合成との同期のために使用される1.25msの再サンプリング遅延および2msの遅延からなる遅延を適用する。

時間同期およびステレオ切り替え(図8の合成時間同期およびステレオ切り替え動作864ならびに時間同期器およびステレオスイッチ814)が実行された後で、(BWEまたはIC-BWEからの)HB合成はコア合成に追加され(IC-BWE、Table III(表3)のHB合成の追加。図8のBWEまたはIC-BWE計算動作865およびBWEまたはIC-BWE計算器815も参照されたい)、ICA復号(ICAデコーダ - 2つの出力チャンネルlおよびrを脱同期するTable III(表3)の時間調整)は、チャンネルlおよびrの最後のステレオ合成がIVASステレオ復号デバイス800から出力される前に実行される(時間的なICA動作866および対応するICAデコーダ816参照)。これらの動作865および866は、MDCTステレオモードでは飛ばされる。

最後に、Table III(表3)に示されるように、共通ステレオ更新が実行される。

2.3 IVASステレオ復号デバイスにおけるTDステレオモードからDFTステレオモードへの切り替え
セクション2.3および2.4において言及される要素、動作、および信号に関するさらなる情報は、たとえば非特許文献1および2において見出され得る。

IVASステレオ復号デバイス800におけるTDステレオモードからDFTステレオモードへの切り替えの機構は、最後のTDステレオフレームにおける2つのコアデコーダ810および811から第1のDFTステレオフレームにおける1つのコアデコーダ807への遷移を含む、これらの2つのステレオモードの間の複数の複合ステップが根本的に異なるという事実により複雑になる(詳細は上記のセクション2.1参照)

図9は、TDステレオモードからDFTステレオモードへの切り替えの際のIVASステレオ復号デバイス800および方法850における処理動作を示すフローチャートである。具体的には、図9は、TDステレオフレーム901からDFTステレオフレーム902に切り替えるときの、異なる処理動作における復号されたステレオ信号の2つのフレームを関連する時間インスタンスとともに示す。

まず、TDステレオデコーダ802のコアデコーダ810および811は、一次チャンネルPChと二次チャンネルSChの両方のために使用され、内部サンプリングレートにおいて対応する復号されたコア合成を各々出力する。TDステレオフレーム901において、2つのコアデコーダ810および811からの復号されたコア合成は、DFTステレオOLAメモリバッファを更新するために使用される(チャンネル当たり1つのメモリバッファ、すなわち全体で2つのOLAメモリバッファ。上で説明されたDFT OLA分析および合成メモリ参照)。これらのOLAメモリバッファは、次のフレームがDFTステレオフレームである場合に備えて、最新となるように1つ1つのTDステレオフレームにおいて更新される。

図9のインスタンスA)は、TDステレオフレーム901の後の最初のDFTステレオフレーム902を受信する際に、ステレオモード切り替えコントローラ(図示せず)を使用して、内部サンプリングレートinput_mem_LB[]においてDFTステレオ分析メモリ(これらは、DFT計算動作854の前に、以前のおよび現在のフレームにおける窓掛けのOLA部分において使用される)を更新する動作(図示せず)に触れる。その目的で、TDステレオフレーム901の中の一次チャンネルPChおよび二次チャンネルSChの内部サンプリングレートでのTDステレオ合成の最後のサンプル903の数L_ovlは、それぞれ、DFTステレオ中間チャンネルmおよびサイドチャンネルsのDFTステレオ分析メモリを更新するために、ステレオモード切り替えコントローラ(図示せず)によって使用される。重複区間903の長さL_ovl、たとえば、12.8kHzの内部サンプリングレートにおいてL_ovl=40個のサンプルは、DFT合成窓905の3.125msの長さの重複部分に対応する。

同様に、ステレオモード切り替えコントローラ(図示せず)は、TD一次チャンネルPChのバスポストフィルタ(BPF)誤差信号の最後のL_ovl個のサンプル(非特許文献1、6.1.4.2項参照)を使用して、内部サンプリングレートにおける中間チャンネルmのDFTステレオBPF分析メモリinput_mem_BPF[](これはDFT計算動作854の前に、以前のおよび現在のフレームにおける窓掛けのOLA部分において使用される)を更新する。その上、出力ステレオ信号サンプリングレートにおける中間チャンネルmのDFTステレオフルバンド(FB)分析メモリinput_mem[](このメモリは、DFT計算動作854の前に、以前のおよび現在のフレームにおける窓掛けのOLA部分において使用される)は、TDステレオPChのHB合成(ACELPコア)、それぞれPCh TCX合成の3.125msの最後のサンプルを使用して更新される。DFTステレオBPFおよびFB分析メモリは、サイド情報チャンネルsのために利用されないので、これらのメモリは、二次チャンネルSChコア合成を使用して更新されない。

次に、TDステレオフレーム901において、内部サンプリングレートにおける復号されたACELPコア合成(一次チャンネルPChおよび二次チャンネルSCh)は、1.25msの遅延をもたらすCLDFB領域フィルタリングを使用して再サンプリングされる。TCX/HQコアフレームの場合、異なるコア間でコア合成を同期するために、1.25msの補償遅延が使用される。次いで、TCX-LTPポストフィルタは、コアチャンネルPChとSChの両方に適用される。

次の動作において、TDステレオフレーム901からの出力ステレオ信号サンプリングレートにおけるTDステレオ合成の一次チャンネルPChおよび二次チャンネルSChは、TDアップミキサ812におけるTDステレオミキシング比を使用した、TDステレオアップミキシング(一次チャンネルPChおよび二次チャンネルSChの組合せ)を受けて(特許文献1参照)、時間領域においてアップミキシングされたステレオチャンネルlおよびrをもたらす。アップミキシング動作862が時間領域において実行されるので、それはアップミキシング遅延をもたらさない。

次いで、TDステレオデコーダ802のアップミキサ812からのTDステレオフレーム901のアップミキシングされた左チャンネルlおよび右チャンネルrは、DFTステレオ合成メモリを更新する動作(図示せず)において使用される(これらは、IDFT計算動作855の後の、以前のおよび現在のフレームにおける窓掛けのOLA部分において使用される)。やはり、この更新は、次のフレームがDFTステレオフレームである場合に備えて、ステレオモード切り替えコントローラ(図示せず)によって1つ1つのTDステレオフレームにおいて行われる。図9のインスタンスB)は、TDステレオの左チャンネルlと右チャンネルrの合成の利用可能な最後のサンプルの数が、DFTステレオ合成メモリの単純な更新のために使用されるには不十分であることを図示する。したがって、3.125msの長さのDFTステレオ合成メモリは、近似を使用して2つの区間において再構築される。第1の区間は、利用可能である(3.125-1.25)msの長さの信号に対応し(それは、出力ステレオ信号サンプリングレートでのアップミキシングされた合成である)、第2の区間は、コアデコーダ再サンプリング遅延が原因で利用可能ではない残りの1.25msの長さの信号に対応する。

具体的には、DFTステレオ合成メモリは、図10に示されるような以下の部分動作を使用して、ステレオモード切り替えコントローラ(図示せず)によって更新される。図10は、デコーダ側でTDステレオフレームの中のDFTステレオ合成メモリを更新することを備える、図9のインスタンスB)を示すフローチャートである。

(a)復号方法850の間より前に再構築されたような、内部サンプリングレートにおけるDFTステレオ分析メモリinput_mem_LB[]の2つのチャンネルlおよびr(それらは内部サンプリングレートにおけるコア合成と同一である)は、実際の復号コアに応じてさらなる処理を受ける。
-ACELPコア:内部サンプリングレートにおける一次チャンネルPChおよび二次チャンネルSChのLBコア合成の最後のL_ovl個のサンプル1001は、遅延0の単純な線形補間を使用して、出力ステレオ信号サンプリングレートへと再サンプリングされる(1003参照)。
-TCX/HQコア:内部サンプリングレートにおける一次チャンネルPChおよび二次チャンネルSChのLBコア合成の最後のL_ovl個のサンプル1001は同様に、遅延0の単純な線形補間を使用して、出力ステレオ信号サンプリングレートに再サンプリングされる(1003参照)。しかしながら、次いで、再サンプリングされたコア合成の最後の1.25msを更新するために、TCX合成メモリ(前のフレームからのTCX合成の最後の1.25msの区間)が使用される。

(b)TDステレオフレーム901の一次チャンネルPChおよび二次チャンネルSChの3.125msの長さの部分に対応する線形に再サンプリングされたLB信号は、共通のTDステレオアップミキシングルーチンを使用して、左チャンネルlおよび右チャンネルrを形成するためにアップミキシングされ(1003参照)、一方、現在のフレームからのTDステレオミキシング比が使用される(TDアップミキシング動作862参照)。得られた信号は、「再構築された合成」1002とさらに呼ばれる。

(c)DFTステレオ合成メモリの最初(3.125～1.25ms)の長さの部分の再構築は、実際の復号コアに依存する。
-ACELPコア:出力ステレオ信号サンプリングレートにおけるCLDFBベースの再サンプリングされ、TDアップミキシングされた合成1005と、再構築された合成1002(前の部分動作(b)からの)との間のクロスフェージング1004が、TDステレオフレーム901のチャンネルの最初の(3.125-1.25)msの長さの部分の間に、チャンネルlとrの両方のために実行される。
-TCX/HQコア:DFTステレオ合成メモリの最初の(3.125-1.25)msの長さの部分は、アップミキシングされた合成1005を使用して更新される。

(d)DFTステレオ合成メモリの1.25msの長さの最後の部分が、再構築された合成1002の最後の部分で埋められる。

(e)DFT合成窓(図9の904)は、(TDステレオモードからDFTステレオモードへの切り替えが起こる場合)第1のDFTステレオフレーム902だけにおいてDFT OLA合成メモリ(本明細書において上で定義された)に適用される。DFT OLA合成メモリの最後の1.25msの部分は、DFT合成窓の形状904が0に収束するので重要性が限られており、したがって、それは単純な線形補間に基づく再サンプリングにより生じる再構築された合成1002の近似されたサンプルをマスキングすることに留意されたい。

最後に、TDステレオフレーム901のアップミキシングされた再構築された合成1002は、コーデック全体の遅延と一致するように揃えられ、すなわち、時間同期器およびステレオスイッチ814において2msだけ遅らされる。
-TDステレオフレームからDFTステレオフレームへの切り替えがある場合、他のDFTステレオメモリ(重複メモリ以外)、すなわちDFTステレオデコーダの過去フレームのパラメータおよびバッファは、ステレオモード切り替えコントローラ(図示せず)によってリセットされる。
-次いで、DFTステレオ復号(859参照)、アップミキシング(859参照)、およびDFT合成(855および856参照)が実行され、ステレオ出力合成(チャンネルlおよびr)は、コーデック全体の遅延と一致するように揃えられ、すなわち、時間同期器およびステレオスイッチ814において0.125msだけ遅らされる。

図11は、デコーダ側での、ステレオモード切り替えの後の最初のDFTステレオフレーム902において出力ステレオ合成を滑らかにすることを備える、図9のインスタンスC)を示すフローチャートである。

図11を参照すると、DFTステレオ合成が最初のDFTステレオフレーム902においてコーデック全体の遅延に対して揃えられて同期されると、ステレオモード切り替えコントローラ(図示せず)は、切り替えの遷移を円滑にするために、揃えられ同期されたTDステレオ合成1101(動作864からの)および揃えられ同期されたDFTステレオ合成1102(動作864からの)との間のクロスフェージング動作1151を実行する。クロスフェージングは、出力チャンネルlとrの両方の最初に、0.125msの遅延1104の後に開始する1.875msの長さの区間1103で実行される(すべての信号が出力ステレオ信号サンプリングレートにある)。このインスタンスは、図9のインスタンスC)に対応する。

復号は次いで、現在のステレオモードとは無関係に、IC-BWE計算器815、ICAデコーダ816、および共通ステレオデコーダの更新に続く。

2.4 IVASステレオ復号デバイスにおけるDFTステレオモードからTDステレオモードへの切り替え
DFTステレオモードとTDステレオモードとの間で根本的に異なる復号動作、およびTDステレオデコーダ802における2つのコアデコーダ810と811の存在は、IVASステレオ復号デバイス800におけるDFTステレオモードからTDステレオモードへの切り替えを困難にする。図12は、DFTステレオモードからTDステレオモードへの切り替えの際の、IVASステレオ復号デバイス800および850における処理動作を示すフローチャートである。具体的には、図12は、DFTステレオフレーム1201からTDステレオフレーム1202に切り替える際の、異なる処理動作における復号されたステレオ信号の2つのフレームを関連する時間インスタンスとともに示す。

コア復号は、2つの例外を除き、実際のステレオモードとは無関係に同じ処理を使用し得る。

第1の例外:DFTステレオフレームでは、内部サンプリングレートから出力ステレオ信号サンプリングレートへの再サンプリングはDFT領域において実行されるが、CLDFB再サンプリングは、次のフレームがTDステレオフレームである場合に備えてCLDFB分析および合成メモリを維持/更新するために、並列に行われる。

第2の例外:次いで、BPF(バスポストフィルタ)(低周波ピッチ強化手順、非特許文献[1]、6.1.4.2項参照)はDFTステレオフレームにおいてDFT領域に適用されるが、エラー信号のBPF分析および計算は、ステレオモードとは無関係に時間領域において行われる。

それ以外の場合、コアデコーダのすべての内部状態およびメモリは単純に連続的であり、DFT中間チャンネルmからTD一次チャンネルPChに切り替えるときによく維持される。

DFTステレオフレーム1201において、復号は次いで、中間チャンネルmのコア復号(857)、DFT領域において中間チャンネルMを取得するための時間領域における中間チャンネルmのDFT変換の計算(854)、ならびに、残留信号の復号(858)を含むDFT領域におけるチャンネルLおよびRへのチャンネルMおよびSのステレオ復号およびアップミキシング(859)に続く。DFT領域の分析および合成は、3.125msのOLA遅延をもたらす。次いで、合成の遷移は、時間同期器およびステレオスイッチ814において扱われる。

DFTステレオフレーム1201からTDステレオフレーム1202に切り替わると、DFTステレオデコーダ801において1つだけのコアデコーダ807があるという事実は、TD二次チャンネルSChのコア復号を複雑にし、それは、TDステレオデコーダ802の第2のコアデコーダ811の内部状態およびメモリが継続的に維持されないからである(逆に、第1のコアデコーダ810の内部状態およびメモリは、DFTステレオデコーダ801のコアデコーダ807の内部状態およびメモリを使用して連続的に維持される)。したがって、第2のコアデコーダ811のメモリは普通、ステレオモード切り替えコントローラ(図示せず)によってステレオモード切り替え更新(Table III(表3)参照)においてリセットされる。しかしながら、一次チャンネルSChメモリがいくつかのPChバッファのメモリ、たとえば、以前の励振、以前のLSFパラメータ、および以前のLSPパラメータを用いて埋められるような、少数の例外がある。いずれの場合でも、DFTステレオフレーム1201からTDステレオフレーム1202に切り替えた後の最初のTD二次チャンネルSChフレームの最初における合成では、結果として再構築が不完全になる。したがって、最初のコアデコーダ810からの合成は、ステレオモード切り替えの間は良好にかつ滑らかに復号されるが、第2のコアデコーダ811からの品質が限られている合成は、ステレオアップミキシングおよび最終合成の間に不連続性をもたらす(862)。これらの不連続性は、後で説明されるように最初のTDステレオ出力合成の再構築の間にDFTステレオOLAメモリを利用することによって、抑制される。

ステレオモード切り替えコントローラ(図示せず)は、信号エネルギーの単純な等化によって、DFTステレオアップミキシングされたチャンネルとTDステレオアップミキシングされたチャンネルとの間の、生じ得る不連続性および差を抑制する。ICA目標利得g_ICAが1.0より小さい場合、アップミキシング(862)の後および時間同期(864)の前のチャンネルl、すなわちy_L(i)は、以下の関係を使用してステレオモード切り替えの後の最初のTDステレオフレーム1202において変更される。

L_eqは、IVASステレオ復号デバイス800において8.75msの長さの区間に対応する、(たとえば、16kHzの出力ステレオ信号サンプリングレートにおけるL_eq=140個のサンプルに対応する)量子化すべき信号の長さである。次いで、利得係数αの値は、以下の関係を使用して取得される。

図12を参照すると、インスタンスA)は、DFTステレオフレーム1201からの以前のDFTステレオのアップミキシングされた同期合成メモリに対応するTDステレオフレーム1202のTDステレオのアップミキシングされた同期された合成(動作864からの)の欠けている部分1203に関する。(3.25-1.25)msの長さのこのメモリは、最初の0.125msの長さの区間1204を除き、DFTステレオフレーム1201からTDステレオフレーム1202に切り替えるときに利用可能ではない。

図13は、デコーダ側での、DFTステレオモードからTDステレオモードに切り替えた後の最初のTDステレオフレームにおいてTDステレオのアップミキシングされた同期合成メモリを更新することを備える、図12のインスタンスA)を示すフローチャートである。

図12と図13の両方を参照すると、ステレオモード切り替えコントローラ(図示せず)は、左チャンネルlと右チャンネルrの両方に対して以下の動作(a)から(e)を使用して、TDステレオのアップミキシングされた同期された合成の3.25ms(1205)を再構築する。

(a)DFTステレオOLA合成メモリ(本明細書で上で定義された)は矯正される(すなわち、逆合成窓がOLA合成メモリに適用される。1301参照)。

(b)TDステレオのアップミキシングされた同期された合成1303の最初の0.125msの部分1302(図12の1204参照)は、以前のDFTステレオのアップミキシングされた同期合成メモリ1304(以前のフレームのDFTステレオのアップミキシングされた同期合成メモリの最後の0.125msの長さの区間)と同一であり、したがって、TDステレオのアップミキシングされた同期された合成1303のこの第1の部分を形成するために再使用される。

(c)(3.125-1.25)msの長さを有するTDステレオのアップミキシングされた同期された合成1303の第2の部分(図12の1203参照)は、矯正されたDFTステレオOLA合成メモリ1301を用いて近似される。

(d)前の2つのステップ(b)および(c)からの、2msの長さを伴うTDステレオのアップミキシングされた同期された合成1303の部分が次いで、最初のTDステレオフレーム1202において出力ステレオ合成へと埋められる。

(e)現在のTDステレオフレーム1202の動作864からの、前のDFTステレオOLA合成メモリ1301とTDの同期されたアップミキシングされた合成1305との遷移の平滑化は、同期されアップミキシングされたTDステレオ合成1305の最初に実行される。遷移の区間は1.25msの長さであり(1306参照)、矯正されたDFTステレオOLA合成メモリ1301と、同期されアップミキシングされたTDステレオ合成1305との間のクロスフェージング1307を使用して取得される。

2.5 IVASステレオ復号デバイスにおけるTDステレオモードからMDCTステレオモードへの切り替え
TDステレオモードからMDCTステレオモードへの切り替えは、これらのステレオモードの両方が2つのトランスポートチャンネルを扱い、2つのコアデコーダのインスタンスを利用するので、比較的単純である。

逆位相ダウンミキシング方式が、TDステレオエンコーダ400において利用されたので、ステレオモード切り替えコントローラ(図示せず)は同様に、最初のMDCTステレオフレームの前の最後のTDステレオフレームにおいてステレオ音信号の左チャンネルおよび右チャンネルの正しい位相を維持するために、TDステレオチャンネルのアップミキシングを変更する。具体的には、ステレオモード切り替えコントローラ(図示せず)は、ミキシング比β=1.0を設定し、TDステレオ一次チャンネルPCh(i)およびTDステレオ二次チャンネルSCh(i)の逆位相のアップミキシング(TDステレオエンコーダ400において利用される逆位相ダウンミキシングの逆)を実施して、MDCTステレオの過去の左チャンネルl_past(i)およびMDCTステレオの過去の右チャンネルr_past(i)を計算する。結果として、TDステレオ一次チャンネルPCh(i)は、MDCTステレオの過去の左チャンネルl_past(i)と同一であり、TDステレオ二次チャンネルSCh(i)信号は、MDCTステレオの過去の右チャンネルr_past(i)と同一である。

2.6 IVASステレオ復号デバイスにおけるMDCTステレオモードからTDステレオモードへの切り替え
TDステレオモードからMDCTステレオモードへの切り替えと同様に、2つのトランスポートチャンネルが利用可能であり、2つのコアデコーダのインスタンスがこのシナリオにおいて利用される。ステレオ音信号の左チャンネルおよび右チャンネルの正しい位相を維持するために、TDステレオミキシング比は1.0に設定され、最後のMDCTステレオフレームの後の最初のTDステレオフレームにおいて、ステレオモード切り替えコントローラ(図示せず)によって逆位相アップミキシング方式が再び使用される。

2.7 IVASステレオ復号デバイスにおけるDFTステレオモードからMDCTステレオモードへの切り替え
DFTステレオモードからTDステレオモードへのデコーダ側の切り替えと同様の機構がこのシナリオにおいて使用され、TDステレオモードの一次チャンネルPChおよび二次チャンネルSChは、MDCTステレオモードの左チャンネルlおよび右チャンネルrにより置き換えられる。

2.8 IVASステレオ復号デバイスにおけるMDCTステレオモードからDFTステレオモードへの切り替え
TDステレオモードからDFTステレオモードへのデコーダ側の切り替えと同様の機構がこのシナリオにおいて使用され、TDステレオモードの一次チャンネルPChおよび二次チャンネルSChは、MDCTステレオモードの左チャンネルlおよび右チャンネルrにより置き換えられる。

最後に、復号は、現在のステレオモードとは無関係に、IC-BWE復号865(MDCTステレオモードでは飛ばされる)、HB合成の追加(MDCTステレオモードでは飛ばされる)、時間的なICA整列866(MDCTステレオモードでは飛ばされる)、および共通ステレオデコーダ更新に続く。

2.9 ハードウェア実装形態
図14は、上で説明されたIVASステレオ符号化デバイス200およびIVASステレオ復号デバイス800の各々を形成する、ハードウェアコンポーネントの例示的な構成の簡略化されたブロック図である。

IVASステレオ符号化デバイス200およびIVASステレオ復号デバイス800の各々は、モバイル端末の一部として、ポータブルメディアプレーヤの一部として、または任意の同様のデバイスにおいて実装され得る。IVASステレオ符号化デバイス200およびIVASステレオ復号デバイス800(図14では1400として識別される)の各々は、入力1402、出力1404、プロセッサ1406、およびメモリ1408を備える。

入力1402は、IVASステレオ符号化デバイス200の場合、デジタル形式もしくはアナログ形式で入力ステレオ音信号の左チャンネルlおよび右チャンネルrを受信し、または、IVASステレオ復号デバイス800の場合、ビットストリーム803を受信するように構成される。出力1404は、IVASステレオ符号化デバイス200の場合、多重化されたビットストリーム206を供給し、または、IVASステレオ復号デバイス800の場合、復号された左チャンネルlおよび右チャンネルrを供給するように構成される。入力1402および出力1404は、共通のモジュール、たとえばシリアル入力/出力デバイスにおいて実装され得る。

プロセッサ1406は、入力1402、出力1404、およびメモリ1408に動作可能に接続される。プロセッサ1406は、添付の図面において示され、および/または本開示において説明されるような、上で説明されたIVASステレオ符号化デバイス200、IVASステレオ符号化方法250、IVASステレオ復号デバイス800、およびIVASステレオ復号方法850の様々な要素と動作の機能をサポートしてコード命令を実行するための、1つまたは複数のプロセッサとして実現され得る。

メモリ1408は、プロセッサ1406によって実行可能なコード命令を記憶するための非一時的メモリ、具体的には、実行されると、プロセッサに、IVASステレオ符号化デバイス200、IVASステレオ符号化方法250、IVASステレオ復号デバイス800、およびIVASステレオ復号方法850の要素と動作を実装させる非一時的命令を記憶する、プロセッサ可読メモリを備え得る。メモリ1408は、またプロセッサ1406によって行われた様々な機能からの中間処理データを記憶するためのランダムアクセスメモリまたはバッファを備えていてもよい。

IVASステレオ符号化デバイス200、IVASステレオ符号化方法250、IVASステレオ復号デバイス800、およびIVASステレオ復号方法850の説明は、例示的なものにすぎず、決して限定的であることは意図されないことを、当業者は認識するだろう。本開示の利益を受ける当業者は、他の実施形態を容易に想起するだろう。さらに、開示されるIVASステレオ符号化デバイス200、IVASステレオ符号化方法250、IVASステレオ復号デバイス800、およびIVASステレオ復号方法850は、ステレオ音を符号化して復号することについての既存の需要および問題に価値のある解決策を提供するようにカスタマイズされ得る。

わかりやすくするために、IVASステレオ符号化デバイス200、IVASステレオ符号化方法250、IVASステレオ復号デバイス800、およびIVASステレオ復号方法850の実装形態の決まりきった特徴のすべてが示され説明されているとは限らない。当然、IVASステレオ符号化デバイス200、IVASステレオ符号化方法250、IVASステレオ復号デバイス800、およびIVASステレオ復号方法850のあらゆるそのような実際の実装形態の開発において、アプリケーション、システム、ネットワーク、およびビジネスに関連する制約との適合などの、開発者の具体的な目標を達成するために、数々の実装形態特有の決定が行われなければならないことがあること、ならびに、これらの具体的な目標が、実装形態ごとに、および開発者ごとに変化することが、理解されるだろう。その上、開発の努力は複雑で時間がかかることがあるが、それでも、本開示の利益を受ける音処理の分野の当業者には、決まりきった技術の仕事になるであろうことが理解されるだろう。

本開示によれば、本明細書において説明される要素、処理動作、および/またはデータ構造は、様々なタイプのオペレーティングシステム、コンピューティングプラットフォーム、ネットワークデバイス、コンピュータプログラム、および/または汎用マシンを使用して実装され得る。加えて、ハードワイヤードデバイス、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)などの、低い汎用性という性質をもつデバイスも使用され得ることを当業者は認識するだろう。一連の動作および部分動作を備える方法がプロセッサによって実施される場合、コンピュータまたは機械、およびそれらの動作と部分動作は、プロセッサ、コンピュータ、または機械により読み取ることができる一連の非一時的コード命令として記憶されてもよく、それらは有形媒体および/または非一時的媒体に記憶されてもよい。

本明細書において説明されるようなIVASステレオ符号化デバイス200、IVASステレオ符号化方法250、IVASステレオ復号デバイス800、およびIVASステレオ復号方法850の要素と処理動作は、ソフトウェア、ファームウェア、ハードウェア、または、本明細書において説明される目的に適したソフトウェア、ファームウェア、もしくはハードウェアの任意の組合せを備え得る。

本明細書において説明されるようなIVASステレオ符号化方法250およびIVASステレオ復号方法850では、様々な処理動作および部分動作が様々な順序で実行されてもよく、処理動作および部分動作の一部は任意選択であってもよい。

本開示は、本開示の制限的ではない例示的な実施形態によって上で説明されたが、これらの実施形態は、本開示の趣旨および範囲から逸脱することなく、添付の特許請求の範囲内で随意に修正され得る。

本開示は、その内容全体が参照によって本明細書に組み込まれる、以下の参考文献に言及する。

（参考文献）

101 通信リンク
102 マイクロフォン
103 左チャンネル
104 A/Dコンバータ
105 左チャンネル
106 ステレオ音エンコーダ
107 ビットストリーム
108 誤り訂正エンコーダ
109 誤り訂正デコーダ
110 ステレオ音デコーダ
111 ビットストリーム
112 ビットストリーム
113 左チャンネル
114 左チャンネル
115 D/Aコンバータ
116 ラウドスピーカーユニット
122 マイクロフォン
123 右チャンネル
125 右チャンネル
133 右チャンネル
134 右チャンネル
136 バイノーラルヘッドフォン
200 IVASステレオ符号化デバイス
202 ICAパラメータ
203 時間領域過渡状態検出器
204 時間領域過渡状態検出器
205 ステレオ分類器およびステレオモード選択器
206 ビットストリーム
270 ステレオモードシグナリング
300 DFTステレオエンコーダ
301 計算器
302 計算器
303 ステレオプロセッサおよびダウンミキサ
304 残留信号エンコーダ
305 計算器
306 計算器
307 初期プリプロセッサ
308 コアエンコーダ構成器
310 ビットストリーム
311 コアエンコーダ
312 追加プリプロセッサ
313 ビットストリーム
314 ビットストリーム
400 TDステレオエンコーダ
401 時間領域分析器およびダウンミキサ
402 サイドパラメータ
403 初期プリプロセッサ
404 初期プリプロセッサ
405 コアエンコーダ構成器
406 コアエンコーダ
407 コアエンコーダ
410 ビットストリーム
500 MDCTステレオエンコーダ
503 初期プリプロセッサ
504 初期プリプロセッサ
506 共同コアエンコーダ
508 ビットストリーム
509 ビットストリーム
601 TDステレオフレーム
602 DFTステレオフレーム
800 IVASステレオ復号デバイス
801 DFTステレオデコーダ
802 TDステレオデコーダ
803 MDCTステレオデコーダ
807 コアデコーダ
808 デコーダ
809 DFTステレオデコーダおよびアップミキサ
810 コアデコーダ
811 コアデコーダ
812 アップミキサ
813 共同コアデコーダ
814 時間同期器およびステレオスイッチ
815 IC-BWE計算器
816 ICAデコーダ
830 ビットストリーム
1402 入力
1404 出力
1406 プロセッサ
1408 メモリ

Claims

ステレオ音信号を符号化するためのデバイスであって、
時間領域(TD)において動作する第1のステレオモードを使用する前記ステレオ音信号の第1のステレオエンコーダであって、前記第1のTDステレオモードが、前記ステレオ音信号のTDフレームにおいて、(a)第1のダウンミキシングされた信号を生み出し、(b)第1のデータ構造およびメモリを使用する、第1のステレオエンコーダと、
周波数領域(FD)において動作する第2のステレオモードを使用する前記ステレオ音信号の第2のステレオエンコーダであって、前記第2のFDステレオモードが、前記ステレオ音信号のFDフレームにおいて、(a)第2のダウンミキシングされた信号を生み出し、(b)第2のデータ構造およびメモリを使用する、第2のステレオエンコーダと、
時間領域または周波数領域において前記ステレオ音信号をコーディングするために、(i)前記第1のTDステレオモードおよび前記第1のステレオエンコーダと、(ii)前記第2のFDステレオモードおよび前記第2のステレオエンコーダとを切り替えるコントローラとを備え、
前記第1のTDステレオモードと前記第2のFDステレオモードの一方から前記第1のTDステレオモードと前記第2のFDステレオモードの他方に切り替える際に、前記ステレオモード切り替えコントローラが、前記ステレオ音信号の現在のフレームにおいてある長さの少なくとも1つのダウンミキシングされた信号の区間を再計算し、前記第1のTDステレオモードにおける前記再計算されたダウンミキシングされた信号の区間の長さが、前記第2のFDステレオモードにおける前記再計算されたダウンミキシングされた信号の区間の長さと異なる、デバイス。
前記第2のFDステレオモードが離散フーリエ変換(DFT)ステレオモードである、請求項1に記載のステレオ音信号符号化デバイス。
前記第1のTDステレオモードから前記第2のDFTステレオモードに切り替える際に、前記第2のステレオエンコーダが、一次チャンネルPChコアエンコーダのメモリを用いて、TDステレオフレームの後のDFTステレオフレームにおいてコア符号化動作を続ける、請求項2に記載のステレオ音信号符号化デバイス。
前記ステレオモード切り替えコントローラが、前記一方のステレオモードからのステレオ関連パラメータを使用して、前記一方のステレオモードから前記他方のステレオモードに切り替える際に前記他方のステレオモードのステレオ関連パラメータを更新する、請求項2または3のいずれか一項に記載のステレオ音信号符号化デバイス。
前記ステレオモード切り替えコントローラが、データ構造間で前記ステレオ関連パラメータを転送する、請求項4に記載のステレオ音信号符号化デバイス。
前記ステレオ関連パラメータが、前記第2のDFTステレオモードのサイド利得およびInter-Channel Time Delay(ITD)パラメータと、前記第1のTDステレオモードの目標利得および相関遅れとを備える、請求項4または5に記載のステレオ音信号符号化デバイス。
前記第2のDFTステレオモードから前記第1のTDステレオモードに切り替える際に、前記ステレオモード切り替えコントローラが、一次チャンネルPChの中の再計算されたダウンミキシングされた信号の区間より長い、二次チャンネルSChにおけるダウンミキシングされた信号の区間を、現在のTDフレームにおいて再計算する、請求項2から6のいずれか一項に記載のステレオ音信号符号化デバイス。
前記第2のDFTステレオモードから前記第1のTDステレオモードに切り替える際に、前記ステレオモード切り替えコントローラが、再計算された一次チャンネルPChおよびDFTステレオチャンネルのDFT中間チャンネルmをクロスフェードして、DFTフレームの後の最初のTDフレームにおいてダウンミキシングされた一次チャンネルPChを再計算する、請求項2から7のいずれか一項に記載のステレオ音信号符号化デバイス。
前記第2のDFTステレオモードから前記第1のTDステレオモードに切り替える際に、前記ステレオモード切り替えコントローラが、TDフレームの前のDFTフレームに対応する左チャンネルlおよび右チャンネルrのICAメモリを再計算する、請求項2から8のいずれか一項に記載のステレオ音信号符号化デバイス。
前記ステレオモード切り替えコントローラが、前記DFTフレームのステレオミキシング比を使用して前記ICA処理されたチャンネルlおよびrをダウンミキシングすることによって、前記DFTフレームの一次チャンネルPChおよび二次チャンネルSChを再計算する、請求項9に記載のステレオ音信号符号化デバイス。
前記ステレオモード切り替えコントローラが、ステレオモード切り替えがないとき二次チャンネルSChのより短い区間を再計算する、請求項10に記載のステレオ音信号符号化デバイス。
前記ステレオモード切り替えコントローラが、前記TDフレームの前の前記DFTフレームにおいて、一次チャンネルPChの第1の区間および二次チャンネルSChの第2の区間を再計算し、前記第1の区間が前記第2の区間より短い、請求項10または11に記載のステレオ音信号符号化デバイス。
ステレオ音信号を復号するためのデバイスであって、
時間領域(TD)において動作する第1のステレオモードを使用する前記ステレオ音信号の第1のステレオデコーダであって、前記第1のステレオデコーダが、前記ステレオ音信号のTDフレームにおいて、(a)ダウンミキシングされた信号を復号し、(b)第1のデータ構造およびメモリを使用する、第1のステレオデコーダと、
周波数領域(FD)において動作する第2のステレオモードを使用する前記ステレオ音信号の第2のステレオデコーダであって、前記第2のステレオデコーダが、前記ステレオ音信号のFDフレームにおいて、(a)第2のダウンミキシングされた信号を復号し、(b)第2のデータ構造およびメモリを使用する、第2のステレオデコーダと、
(i)前記第1のTDステレオモードおよび前記第1のステレオデコーダと、(ii)前記第2のFDステレオモードおよび前記第2のステレオデコーダとを切り替えるコントローラとを備え、
前記第1のTDステレオモードおよび前記第2のFDステレオモードの一方から前記第1のTDステレオモードおよび前記第2のFDステレオモードの他方に切り替える際に、前記ステレオモード切り替えコントローラが、前記ステレオ音信号の現在のフレームにおけるある長さの少なくとも1つのダウンミキシングされた信号の区間を再計算し、前記第1のTDステレオモードにおける前記再計算されたダウンミキシングされた信号の区間の長さが、前記第2のFDステレオモードにおける前記再計算されたダウンミキシングされた信号の区間の長さと異なる、デバイス。
前記第2のFDステレオモードが離散フーリエ変換(DFT)ステレオモードである、請求項13に記載のステレオ音信号復号デバイス。
前記ステレオモード切り替えコントローラが、現在のステレオモードに応じて前記第1のTDステレオモードおよび前記第2のDFTステレオモードへ/からデータ構造を割り振り/割り振り解除し、前記現在のフレームにおいて利用されるデータ構造だけを維持することによってスタティックメモリへの影響を減らす、請求項14に記載のステレオ音信号復号デバイス。
TDフレームの後の最初のDFTフレームを受信する際に、前記ステレオモード切り替えコントローラがDFTステレオデータ構造をリセットする、請求項14または15に記載のステレオ音信号復号デバイス。
DFTフレームの後の最初のTDフレームを受信する際に、前記ステレオモード切り替えコントローラがTDステレオデータ構造をリセットする、請求項14から16のいずれか一項に記載のステレオ音信号復号デバイス。
前記ステレオモード切り替えコントローラが、1つ1つのTDステレオフレームにおいてDFTステレオ合成メモリを更新する、請求項14から17のいずれか一項に記載のステレオ音信号復号デバイス。
前記DFTステレオ合成メモリを更新するために、およびACELPコアのために、前記ステレオモード切り替えコントローラが、(a)CLDFBベースの再サンプリングされ、TDアップミキシングされた左チャンネルおよび右チャンネルの合成と、(b)再構築され再サンプリングされた、アップミキシングされた左チャンネルおよび右チャンネルの合成とを、クロスフェードすることによって、前記DFTステレオ合成メモリの第1の部分を1つ1つのTDフレームにおいて再構築する、請求項18に記載のステレオ音信号復号デバイス。
前記ステレオモード切り替えコントローラが、アップミキシングされ同期されたTDステレオ合成を再構築する、請求項14から19のいずれか一項に記載のステレオ音信号復号デバイス。
前記ステレオモード切り替えコントローラが、前記アップミキシングされ同期されたTDステレオ合成を再構築するために、左チャンネルと右チャンネルの両方に対して、
(a)DFTステレオOLA合成メモリを矯正し、
(b)前記アップミキシングされ同期されたTDステレオ合成の第1の部分として、アップミキシングされたDFTステレオ同期合成メモリを再使用し、
(c)前記矯正されたDFTステレオOLA合成メモリを使用して、前記アップミキシングされ同期されたTDステレオ合成の第2の部分を近似し、
(d)前記矯正されたDFTステレオOLA合成メモリを前記同期されアップミキシングされたTDステレオ合成とクロスフェードすることによって、前記同期されアップミキシングされたTDステレオ合成の最初において、前記アップミキシングされたDFTステレオ同期合成メモリと、同期されアップミキシングされたTDステレオ合成との遷移を円滑にする
という動作(a)から(d)を使用する、請求項20に記載のステレオ音信号復号デバイス。
少なくとも1つのプロセッサと、前記プロセッサに結合され、前記プロセッサによって実行される非一時的命令を記憶するメモリとによって実装される以下のステップを含む、ステレオ音信号を符号化するための方法であって、
時間領域(TD)において動作する第1のステレオモードを使用して前記ステレオ音信号の第1のステレオエンコーダを実装するステップであって、前記第1のTDステレオモードが、前記ステレオ音信号のTDフレームにおいて、(a)第1のダウンミキシングされた信号を生み出し、(b)第1のデータ構造およびメモリを使用する、ステップと、
周波数領域(FD)において動作する第2のステレオモードを使用して前記ステレオ音信号の第2のステレオエンコーダを実装するステップであって、前記第2のFDステレオモードが、前記ステレオ音信号のFDフレームにおいて、(a)第2のダウンミキシングされた信号を生み出し、(b)第2のデータ構造およびメモリを使用する、ステップと、
時間領域または周波数領域において前記ステレオ音信号をコーディングするために、(i)前記第1のTDステレオモードおよび前記第1のステレオエンコーダと、(ii)前記第2のFDステレオモードおよび前記第2のステレオエンコーダとの切り替えを制御するステップとを備え、
前記第1のTDステレオモードと前記第2のFDステレオモードの一方から前記第1のTDステレオモードと前記第2のFDステレオモードの他方に切り替える際に、ステレオモード切り替えを制御するステップが、前記ステレオ音信号の現在のフレームにおいてある長さの少なくとも1つのダウンミキシングされた信号の区間を再計算するステップを備え、前記第1のTDステレオモードにおける前記再計算されたダウンミキシングされた信号の区間の長さが、前記第2のFDステレオモードにおける前記再計算されたダウンミキシングされた信号の区間の長さと異なる、方法。
前記第2のFDステレオモードが離散フーリエ変換(DFT)ステレオモードである、請求項22に記載のステレオ音信号符号化方法。
前記第1のTDステレオモードと前記第2のDFTステレオモードの前記一方から前記第1のTDステレオモードと前記第2のDFTステレオモードの前記他方に切り替える際に、ステレオモード切り替えを制御するステップが、
左チャンネルおよび右チャンネルを含む入力ステレオ信号、
前記第2のDFTステレオモードにおいて使用される中間チャンネル、
前記第1のTDステレオモードにおいて使用される一次チャンネルおよび二次チャンネル、
前処理において使用されるダウンミキシングされた信号、ならびに
コア符号化において使用されるダウンミキシングされた信号
という信号のうちの少なくとも1つの連続性を維持するステップを備える、請求項23に記載のステレオ音信号符号化方法。
前記第1のTDステレオモードと前記第2のDFTステレオモードの前記一方から前記第1のTDステレオモードと前記第2のDFTステレオモードの前記他方に切り替える際に、ステレオモード切り替えを制御するステップが、前記現在のフレームにおいて利用されるデータ構造のみを維持することによってメモリへの影響を減らすように、現在のステレオモードに応じて前記第1のTDステレオモードおよび前記第2のDFTステレオモードへ/からデータ構造を割り振る/割り振り解除するステップを備える、請求項23または24に記載のステレオ音信号符号化方法。
前記第1のTDステレオモードから前記第2のDFTステレオモードに切り替える際に、ステレオモード切り替えを制御するステップが、TDステレオ関連データ構造を割り振り解除するステップを備る、請求項25に記載のステレオ音信号符号化方法。
前記TDステレオ関連データ構造が、TDステレオデータ構造および/または前記第1のステレオエンコーダのコアエンコーダのデータ構造を備える、請求項26に記載のステレオ音信号符号化方法。
ステレオモード切り替えを制御するステップが、現在のTDステレオフレームの最後の期間に関連するサンプルを記憶することによって、TDステレオフレームごとにDFT分析メモリを更新するステップを備える、請求項23から27のいずれか一項に記載のステレオ音信号符号化方法。
ステレオモード切り替えを制御するステップが、TDステレオフレームの間にDFT関連メモリを維持するステップを備える、請求項23から28のいずれか一項に記載のステレオ音信号符号化方法。
ステレオモード切り替えを制御するステップが、前記第1のTDステレオモードから前記第2のDFTステレオモードに切り替える際に、前記TDフレームの一次チャンネルPChに対応するTDステレオメモリを使用して、TDフレームの後のDFTフレームにおいてDFT合成メモリを更新するステップを備える、請求項23から29のいずれか一項に記載のステレオ音信号符号化方法。
ステレオモード切り替えを制御するステップが、DFTフレームの間に有限インパルス応答(FIR)再サンプリングフィルタメモリを維持するステップを備える、請求項23から30のいずれか一項に記載のステレオ音信号符号化方法。
ステレオモード切り替えを制御するステップが、前記DFTフレームの中の中間チャンネルmの第1の長さの最後の区間の前の前記中間チャンネルmの区間を使用して、前記第1のステレオエンコーダの中の一次チャンネルPChにおいて使用される前記FIR再サンプリングフィルタメモリを1つ1つのDFTフレームにおいて更新するステップを備える、請求項31に記載のステレオ音信号符号化方法。
切り替えを制御するステップが、前記第1のステレオエンコーダの中の二次チャンネルSChにおいて使用されるFIR再サンプリングフィルタメモリを、前記第1のステレオエンコーダの中の前記一次チャンネルPChにおいて使用される前記FIR再サンプリングフィルタメモリの前記更新とは異なるように埋めるステップを備える、請求項32に記載のステレオ音信号符号化方法。
ステレオモード切り替えを制御するステップが、前記DFTフレームの中の中間チャンネルmの第2の長さの最後の区間の前の前記中間チャンネルmのある区間を使用して前記FIR再サンプリングフィルタメモリを埋めることによって、前記第1のステレオエンコーダの中の前記二次チャンネルSChにおいて使用される前記FIR再サンプリングフィルタメモリを、現在のTDフレームにおいて更新するステップを備える、請求項33に記載のステレオ音信号符号化方法。
ステレオモード切り替えを制御するステップが、1つ1つのDFTフレームにプリエンファシスフィルタメモリの2つの値を記憶するステップを備える、請求項23から34のいずれか一項に記載のステレオ音信号符号化方法。
二次チャンネルSChコアエンコーダデータ構造を備え、前記第2のDFTステレオモードから前記第1のTDステレオモードに切り替える際に、ステレオモード切り替えを制御するステップが、一次チャンネルPChコアエンコーダデータ構造に基づいて、前記二次チャンネルSChコアエンコーダデータ構造をリセットまたは推定するステップを備える、請求項23から35のいずれか一項に記載のステレオ音信号符号化方法。
少なくとも1つのプロセッサと、前記プロセッサに結合され、前記プロセッサによって実行される非一時的命令を記憶するメモリとによって実装される以下のステップを含む、ステレオ音信号を復号するための方法であって、
時間領域(TD)において動作する第1のステレオモードを使用する前記ステレオ音信号の第1のステレオデコーダを実装するステップであって、前記第1のステレオデコーダが、前記ステレオ音信号のTDフレームにおいて、(a)ダウンミキシングされた信号を復号し、(b)第1のデータ構造およびメモリを使用する、ステップと、
周波数領域(FD)において動作する第2のステレオモードを使用する前記ステレオ音信号の第2のステレオデコーダを実装するステップであって、前記第2のステレオデコーダが、前記ステレオ音信号のFDフレームにおいて、(a)第2のダウンミキシングされた信号を復号し、(b)第2のデータ構造およびメモリを使用する、ステップと、
(i)前記第1のTDステレオモードおよび前記第1のステレオデコーダと、(ii)前記第2のFDステレオモードおよび前記第2のステレオデコーダとの切り替えを制御するステップとを備え、
前記第1のTDステレオモードおよび前記第2のFDステレオモードの一方から前記第1のTDステレオモードおよび前記第2のFDステレオモードの他方に切り替える際に、ステレオモード切り替えを制御するステップが、前記ステレオ音信号の現在のフレームにおけるある長さの少なくとも1つのダウンミキシングされた信号の区間を再計算するステップを備え、前記第1のステレオモードにおける前記再計算されたダウンミキシングされた信号の区間の長さが、前記第2のステレオモードにおける前記再計算されたダウンミキシングされた信号の区間の長さと異なる、方法。
前記第2のFDステレオモードが離散フーリエ変換(DFT)ステレオモードである、請求項37に記載のステレオ音信号復号方法。
前記第1のステレオモードが第1の処理遅延を使用し、前記第2のステレオモードが第2の処理遅延を使用し、前記第1の処理遅延および前記第2の処理遅延が異なり、再サンプリングおよびアップミキシング処理遅延を備える、請求項38に記載のステレオ音信号復号方法。
前記第1のTDステレオモードおよび前記第2のDFTステレオモードの一方から前記第1のTDステレオモードおよび前記第2のDFTステレオモードの他方に切り替える際に、ステレオモード切り替えを制御するステップが、
前記第2のDFTステレオモードにおいて使用される中間チャンネルm、
前記第1のTDステレオモードにおいて使用される一次チャンネルPChおよび二次チャンネルSCh、
TCX-LTPポストフィルタメモリ、
内部サンプリングレートおよび出力ステレオ信号サンプリングレートにおけるDFT OLA分析メモリ、
前記出力ステレオ信号サンプリングレートにおけるDFT OLA合成メモリ、
チャンネルlおよびrを含む、出力ステレオ信号、ならびに
BWEおよびIC-BWEにおいて使用される、HB信号メモリ、チャンネルlおよびr
という信号およびメモリのうちの少なくとも1つの連続性を維持するステップを備える、請求項38または39に記載のステレオ音信号復号方法。
ステレオモード切り替えを制御するステップが、1つ1つのTDフレームにおいてDFTステレオOLAメモリバッファを更新するステップを備える、請求項38から40のいずれか一項に記載のステレオ音信号復号方法。
ステレオモード切り替えを制御するステップが、DFTステレオ分析メモリを更新するステップを備える、請求項38から41のいずれか一項に記載のステレオ音信号復号方法。
TDフレームの後の最初のDFTフレームを受信する際に、ステレオモード切り替えを制御するステップが、前記TDフレームの一次チャンネルPChおよび二次チャンネルSChのある数の最後のサンプルを使用して、それぞれ、DFTステレオ中間チャンネルmおよびサイドチャンネルsの前記DFTステレオ分析メモリを前記DFTフレームにおいて更新するステップを備える、請求項42に記載のステレオ音信号復号方法。
ステレオモード切り替えを制御するステップが、整列され同期されたTD合成を、整列され同期されたDFTステレオ合成とクロスフェードして、TDフレームからDFTフレームへの切り替えの際の遷移を円滑にするステップを備える、請求項38から43のいずれか一項に記載のステレオ音信号復号方法。
ステレオモード切り替えを制御するステップが、次のフレームがTDフレームである場合に備えて、DFTフレームの間にTDステレオ合成メモリを更新するステップを備える、請求項38から44のいずれか一項に記載のステレオ音信号復号方法。
DFTフレームからTDフレームに切り替える際に、切り替えを制御するステップが、前記第1のステレオデコーダの中の二次チャンネルSChのコアデコーダのメモリをリセットするステップを備える、請求項38から45のいずれか一項に記載のステレオ音信号復号方法。
DFTフレームからTDフレームに切り替える際に、ステレオモード切り替えを制御するステップが、信号エネルギーの等化を使用して、アップミキシングされたDFTステレオチャンネルとTDステレオチャンネルとの間の不連続性と差を抑制するステップを備える、請求項38から46のいずれか一項に記載のステレオ音信号復号方法。
アップミキシングされた前記DFTステレオチャンネルと前記TDステレオチャンネルとの間の不連続性と差を抑制するために、ステレオモード切り替えを制御するステップが、ICA目標利得g_ICAが1.0より低い場合、
という関係を使用して、前記TDフレームにおけるアップミキシングの後および時間同期の前に左チャンネルl、y_L(i)を変更するステップを備え、L_eqが等化すべき信号の長さであり、αが
という関係を使用して得られる利得係数の値である、請求項47に記載のステレオ音信号復号方法。