JP2014192702A

JP2014192702A - 複数の入力画像をエンコーディングする方法、プログラムおよび装置

Info

Publication number: JP2014192702A
Application number: JP2013066314A
Authority: JP
Inventors: Tehrani Mehrdad Panahpour; テヘラニメヒルダドパナヒプル; Akio Ishikawa; 彰夫石川; Masahiro Kawakita; 真宏河北; Naoki Inoue; 直己井ノ上; Toshiaki Fujii; 俊彰藤井
Original assignee: Nagoya University NUC; National Institute of Information and Communications Technology
Current assignee: Nagoya University NUC; National Institute of Information and Communications Technology
Priority date: 2013-03-27
Filing date: 2013-03-27
Publication date: 2014-10-06
Also published as: WO2014156648A1; EP2981083A1; KR20150135457A; US20160065958A1; CN105103546A

Abstract

【課題】被写体の異なる情報をそれぞれ含む異なる種類の複数の入力画像に対して、圧縮効率および圧縮品質の両方がより高いエンコーディング技術が要求されている。
【解決手段】複数の入力画像をエンコーディングする方法が提供される。第１の入力画像と対応する第１の予測画像との差分から第１の残差画像を生成するステップと、第１の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、第２の入力画像と対応する第２の予測画像との差分から第２の残差画像を生成するステップと、第２の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、変換後の第１の残差画像と、変換後の第２の残差画像と、第１の残差画像および第２の残差画像のそれぞれにおける剰余で定義すべき領域を特定する付加情報とをコーディングするステップとを含む。
【選択図】図６

Description

本発明は、被写体の異なる情報をそれぞれ含む異なる種類の複数の入力画像をエンコーディングする方法、プログラムおよび装置に関する。

従来から、時間領域に配置されたフレーム列で構成される動画像に対して、そのフレーム間の冗長性を考慮した映像符号化（video coding）方法が知られている（例えば、非特許文献１を参照）。典型的な映像符号化方法では、入力されるオリジナル画像に代えて、Ｐフレーム（predicted frame）および／またはＢフレーム（bi-directional predicted frame）が伝送される。Ｐフレームは、前方向予測によって算出されたフレームであり、Ｂフレームは、前方向予測、後方向予測、および両方向予測のうちいずれかによって算出されたフレームである。

非特許文献２は、このような映像符号化の技術を、時間領域および空間領域に拡張して適用する方法を開示する。すなわち、非特許文献２の教示内容によれば、時間領域および空間領域に配置された複数のフレームに対して、Ｐフレームおよび／またはＢフレームを生成することができる。

空間領域に配置されたフレーム列の一例として、多視点映像を用いて高精細な立体映像を提供する三次元映像技術に用いられるフレーム列を挙げることができる。このような立体映像は、非常に多数の視点（例えば、２００視点）で被写体をそれぞれ撮像して得られる多視点映像によって実現される。距離マップといった３次元情報を用いてＰフレームおよび／またはＢフレームを生成するといった視点補間を用いることで、時間領域に配置されたフレーム列に対するエンコーディングと同様の方法を空間領域に配置されたフレーム列に対しても適用できる。

非特許文献３は、多視点映像のエンコーディングに関する手法を開示する。非特許文献３は、時間領域だけではなく、空間領域において視点補間を用いることで、奥行情報などの三次元情報からＰフレームおよび／またはＢフレームを生成する手法を開示する。

なお、本明細書では、データを目的に応じた符号に圧縮（変換）することをエンコーディング（encoding）と記し、変換された符号を元のデータに復元（復号）することをデコーディング（decoding）と記す。また、符号化（coding）という用語は、エンコーディング単体、および、エンコーディングおよびデコーディングの両方を意味するものとする。

Thomas Wiegand, Gary J. Sullivan, Gisle Bjontegaard, and Ajay Luthra, "Overview of the H.264/AVC Video Coding Standard", IEEE Transactions on Circuits and Systems for Video Technology, Vol. 13, No. 7, pp. 560-576, July 2003 P. Merkle, K. Muller, A. Smolic, and T. Wiegand, "Efficient Compression of Multi-view Video Exploiting inter-view dependencies based on H.264/MPEG-AVC," Proc. ICME 2006, pp. 1717-1720 S. Yea, A. Vetro, "View synthesis prediction for multiview video coding", Signal Processing: Image Communication, Vol. 24, 1-2, Jan 2009, pp. 89-100.

非特許文献１〜３に開示される方法によれば、生成されたＰフレームおよびＢフレームは、残差（residual value）の形で伝送される。ここで、残差の情報に対して、さらにデータ圧縮処理が実行される。このデータ圧縮処理では、画像変換（典型的には、離散コサイン変換）、量子化、エントロピー符号化（entropy coding）などが実行される。データ圧縮率が高い場合には、量子化を実行することで、データサイズ低減によるデータの著しいロスが発生する。つまり、その値が小さい残差の情報は、データ圧縮処理によって失われてしまう。

一方で、エッジ情報（edge information）や境界情報（boundary information）といったいくつかの画像の特徴量については、データ圧縮率が高められたとしても、失われないようにしなければならない。

被写体の異なる情報をそれぞれ含む異なる種類の複数の入力画像に対して、圧縮効率および圧縮品質の両方のバランスが取れたエンコーディング技術が要求されている。

本発明のある局面に従えば、複数の入力画像をエンコーディングする方法が提供される。当該方法は、被写体の第１の情報を含む複数の第１の入力画像と、複数の第１の入力画像にそれぞれ対応する、被写体の第１の情報とは異なる第２の情報を含む複数の第２の入力画像とを取得するステップと、第１の入力画像について、他の第１の入力画像および第２の入力画像の少なくとも一方に含まれる情報から第１の予測画像を算出するステップと、第１の入力画像と対応する第１の予測画像との差分から第１の残差画像を生成するステップと、第１の残差画像の画素値に基づいて、第１の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定するステップと、第１の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、第２の入力画像について、他の第２の入力画像および第１の入力画像の少なくとも一方に含まれる情報から第２の予測画像を算出するステップと、第２の入力画像と対応する第２の予測画像との差分から第２の残差画像を生成するステップと、第２の残差画像の画素値に基づいて、第２の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定するステップと、第２の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、変換後の第１の残差画像と、変換後の第２の残差画像と、第１の残差画像および第２の残差画像のそれぞれにおける剰余で定義すべき領域を特定する付加情報とをエンコーディングするステップとを含む。

好ましくは、剰余に変換するステップは、剰余で定義すべき領域についての画素値に対してモジュロ演算を実行するステップと、予測画像の勾配情報を取得するステップと、勾配強度とモジュロ演算の法となる値との予め定められた対応関係を参照して、取得した勾配情報に基づいてモジュロ演算の法となる値を決定するステップとを含む。

好ましくは、第１の予測画像を算出するステップは、算出対象の第１の入力画像に対応する第２の入力画像と、先行の１つ以上の第１の入力画像とを用いて、第１の予測画像を算出するステップを含む。

あるいは好ましくは、第２の予測画像を算出するステップは、算出対象の第２の入力画像に対応する第１の入力画像についての動きデータを用いて、第２の予測画像を算出するステップを含み、第１の入力画像についての動きデータは、先行の第１の入力画像と算出対象の第１の入力画像との間の変化成分を示す。

好ましくは、第２の予測画像を算出するステップは、算出対象の第２の入力画像と、先行の１つ以上の第２の入力画像とを用いて、第２の予測画像を算出するステップを含む。

本発明の別の局面に従えば、複数の入力画像をエンコーディングするプログラムが提供される。当該プログラムは、コンピュータに、被写体の第１の情報を含む複数の第１の入力画像と、複数の第１の入力画像にそれぞれ対応する、被写体の第１の情報とは異なる第２の情報を含む複数の第２の入力画像とを取得するステップと、第１の入力画像について、他の第１の入力画像および第２の入力画像の少なくとも一方に含まれる情報から第１の予測画像を算出するステップと、第１の入力画像と対応する第１の予測画像との差分から第１の残差画像を生成するステップと、第１の残差画像の画素値に基づいて、第１の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定するステップと、第１の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、第２の入力画像について、他の第２の入力画像および第１の入力画像の少なくとも一方に含まれる情報から第２の予測画像を算出するステップと、第２の入力画像と対応する第２の予測画像との差分から第２の残差画像を生成するステップと、第２の残差画像の画素値に基づいて、第２の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定するステップと、第２の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、変換後の第１の残差画像と、変換後の第２の残差画像と、第１の残差画像および第２の残差画像のそれぞれにおける剰余で定義すべき領域を特定する付加情報とをエンコーディングするステップとを実行させる。

本発明のさらに別の局面に従えば、複数の入力画像をエンコーディングする装置が提供される。当該装置は、被写体の第１の情報を含む複数の第１の入力画像と、複数の第１の入力画像にそれぞれ対応する、被写体の第１の情報とは異なる第２の情報を含む複数の第２の入力画像とを取得する手段と、第１の入力画像について、他の第１の入力画像および第２の入力画像の少なくとも一方に含まれる情報から第１の予測画像を算出する手段と、第１の入力画像と対応する第１の予測画像との差分から第１の残差画像を生成する手段と、第１の残差画像の画素値に基づいて、第１の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定する手段と、第１の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換する手段と、第２の入力画像について、他の第２の入力画像および第１の入力画像の少なくとも一方に含まれる情報から第２の予測画像を算出する手段と、第２の入力画像と対応する第２の予測画像との差分から第２の残差画像を生成する手段と、記第２の残差画像の画素値に基づいて、第２の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定する手段と、第２の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換する手段と、変換後の第１の残差画像と、変換後の第２の残差画像と、第１の残差画像および第２の残差画像のそれぞれにおける剰余で定義すべき領域を特定する付加情報とをエンコーディングする手段とを実行させる。

本発明によれば、被写体の異なる情報をそれぞれ含む異なる種類の複数の入力画像に対して、圧縮効率および圧縮品質のバランスが取れたエンコーディング技術を実現できる。

本発明の実施の形態に係るエンコーディング／デコーディングシステムを含む立体映像再生システムを示す図である。本発明の関連技術に係るエンコーダーの機能ブロック図である。本発明の関連技術に係るデコーダーの機能ブロック図である。本発明の関連技術に係る多視点映像に対するエンコーディングに向けられた構成を示す機能ブロック図である。本発明の関連技術に係る多視点映像に対するデコーディングに向けられた構成を示す機能ブロック図である。本発明の実施の形態に係るエンコーダー群の機能ブロック図である。本発明の実施の形態に係るエンコーディングによる予測画像の生成手順の一例を示す図である。本発明の実施の形態に係る剰余と残差との組み合わせ手法を説明するための図である。本発明の実施の形態に係るデータフォーマット変換部の機能ブロック図である。本発明の実施の形態に係る剰余の算出に用いられる係数を決定するためのＬｏｏｋｕｐテーブルの一例を示す図である。本発明の実施の形態に係るデータフォーマット変換部の別の機能ブロック図である。本発明の実施の形態に係るデータフォーマット逆変換部の機能ブロック図である。本発明の実施の形態に係るデコーダー群の機能ブロック図である。送信機として機能する情報処理装置のハードウェア構成を示す模式図である。受信機として機能する情報処理装置のハードウェア構成を示す模式図である。

本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。

［Ａ．応用例］
まず、本発明の実施の形態に係るエンコーディング／デコーディングシステムについての理解を容易化するために、典型的な応用例について説明する。なお、当然のことながら、本発明の実施の形態に係るエンコーディング／デコーディングシステムの応用範囲は、以下に示す構成に限定されるものではなく、任意の構成に応用できる。また、エンコーディングおよびデコーディングのいずれか一方のみを実行する方法、装置、プログラム、そのプログラムを格納する記憶媒体などについても、本願発明の範囲に含まれ得る。

図１は、本発明の実施の形態に係るエンコーディング／デコーディングシステムを含む立体映像再生システム１を示す図である。図１を参照して、立体映像再生システム１では、複数のカメラ１０からなるカメラアレイを用いて被写体２を撮像することで多視点映像が生成される。多視点映像は、複数の視点からそれぞれ被写体２を撮像して得られた画像群に相当する。この多視点映像は、送信機として機能する情報処理装置１００においてエンコーディングされた上で伝送される。そして、受信機として機能する情報処理装置２００においてエンコーディングによって生成されたデータがデコーディングされて、立体表示装置３００でその被写体２が再現される。すなわち、立体表示装置３００は、被写体２の立体映像を表示する。なお、送信機から受信機へのデータ伝送については、有線および無線を問わず任意の媒体を用いることができる。

本発明の実施の形態においては、互いに関連する異なる種類の画像群に対してエンコーディングが実行される。典型例として、カメラアレイによって取得された多視点映像から、複数の映像と複数の奥行情報（depth map）とを生成し、それぞれに対してエンコーディングが実行される。映像は、各視点における輝度情報または色情報（すなわち、各カラーコンポーネントの濃淡情報）を含み、奥行情報は、撮像された視点から画像内の各点までの距離（奥行き）の情報を含む。典型的には、映像は、カラーコンポーネントの別に定義された濃淡画像（濃淡値のマップ）を含み、奥行情報は、各画素位置における距離が画素値として定義されている濃淡画像（濃淡値のマップ）を含む。

送信機として機能する情報処理装置１００は、入力される画像に対する前処理を実行するプリプロセッサー１１０と、映像に対するエンコーディングを実行するエンコーダー１２０と、奥行情報に対するエンコーディングを実行するエンコーダー１４０とを含む。プリプロセッサー１１０が実行する前処理としては、映像信号から奥行情報を生成する処理を含む。エンコーダー１２０とエンコーダー１４０とは互いに情報を共有することで、エンコーディングを実行する。このようなエンコーダー間で情報共有できる機構を採用することで、画像間の関連性（つまり、冗長性）に利用して、より効率的な圧縮処理を実現する。

情報処理装置１００において実行される各エンコーディングは、後述するように、データフォーマット変換およびデータ圧縮の処理を含む。すなわち、本発明の実施の形態に係るエンコーダーは、データフォーマット変換およびデータ圧縮を並列的に実行する。

一方、受信機として機能する情報処理装置２００は、受信したデータに対してデコーディングを実行するデコーダー２１０および２３０と、後処理を実行するポストプロセッサー２４０とを含む。デコーダー２１０は、受信したデータに含まれる映像に関するデータに対してデコーディングを行ない、デコーダー２３０は、受信したデータに含まれる奥行情報に関するデータに対してデコーディングを行なう。上述したような情報を共有したエンコーディングに対応して、デコーダー２１０とデコーダー２３０とは互いに情報を共有して、デコーディングを実行する。ポストプロセッサー２４０は、デコーダー２１０および２３０によるデコーディング結果に対して所定の処理を実行することで、立体表示装置３００が被写体２を再現するための信号をプロジェクターアレイ３０２の別に生成する。

情報処理装置２００において実行される各デコーディングは、後述するように、データフォーマット逆変換およびデータ復元の処理を含む。すなわち、本発明の実施の形態に係るデコーダーは、データフォーマット逆変換およびデータ復元を並列的に実行する。

立体表示装置３００は、主として拡散フィルム３１２および集光レンズ３１４で構成される表示スクリーン３１０と、表示スクリーン３１０に多視点映像を投影するプロジェクターアレイ３０２とを含む。プロジェクターアレイ３０２を構成する各プロジェクターは、情報処理装置２００から出力される多視点映像の対応する視点の画像を表示スクリーン３１０へ投影する。

このような立体映像再生システム１によれば、表示スクリーン３１０の前にいる観察者には被写体２の再生立体像が提供される。このとき、表示スクリーン３１０と観察者との相対的な位置に応じて、観察者の視野に入る視点の画像が変化するようになっており、観察者は、あたかも被写体２の前にいるような体験が得られる。

このような立体映像再生システム１は、一般用途としては、映画館やアミューズメント施設などで利用され、産業用途としては、遠隔医療システム、工業デザイン設計システム、パブリックビューイング等の電子広告システムとして利用されることが期待されている。

［Ｂ．関連技術（その１）］
まず、本発明の実施の形態に係るエンコーディング／デコーディングシステムに関連する技術について説明する。動画像の圧縮規格の一つである、ＭＰＥＧ−４ＡＶＣ（ITU-T Recommendation H.264|ISO/IEC 14496-10 Advanced Video Coding）のエンコーディングおよびデコーディングについて説明する。

図２は、本発明の関連技術に係るエンコーダー８２０の機能ブロック図である。図３は、本発明の関連技術に係るデコーダー９１０の機能ブロック図である。

先に、図２を参照してエンコーディングについて説明する。図２に示すエンコーダー８２０では、入力ソースからの動画像（すなわち、時間領域に配置されたフレーム列）である映像信号の各フレームが複数のマクロブロック（Macroblock）に分割され、各マクロブロックは、イントラフレーム予測（intra flame prediction）、または、インターフレーム予測（inter flame prediction）を用いて補間される。イントラフレーム予測は、同一フレームの他のマクロブロックから対象のマクロブロックを補間する方法である。一方、インターフレーム予測は、前方向予測、後方向予測、および両方向予測のいずれかを用いて、他のフレームの情報から対象のマクロブロックを補間する方法である。

すなわち、エンコーダー８２０は、同一または近似するフレームの情報との関連性（つまり、冗長性）に注目して、データ圧縮を行なう。

より具体的には、エンコーダー８２０は、入力バッファ８２０２と、分割部８２０４と、減算部８２０６と、直交変換・量子化部８２０８と、ローカルデコーダー８２１０と、制御部８２３０と、動き推定部８２４０と、出力バッファ８２４２と、エントロピー符号化部８２５０とを含む。

入力バッファ８２０２は、入力ソースからの映像信号を一時的に格納する。分割部８２０４は、入力バッファ８２０２に格納された映像信号を複数のマクロブロック（Ｎ×Ｎ画素）に分割する。分割部８２０４からの出力は、減算部８２０６、制御部８２３０、および動き推定部８２４０へ与えられる。

減算部８２０６は、分割部８２０４からの各マクロブロックに対して、先に算出されている補間情報（イントラフレーム予測またはインターフレーム予測）を減じることで、残差の情報を算出する。すなわち、減算部８２０６は、オリジナル画像（original image）から予測画像（predicted image）を減じることで、残差画像（residual image）を生成する。この残差画像の生成処理は、典型的には、マクロブロック単位で実行される。

直交変換・量子化部８２０８は、減算部８２０６からの残差画像に対して、直交変換（典型的には、離散フーリエ変換）および量子化を実行する。直交変換・量子化部８２０８は、スケーリングも実行する。直交変換・量子化部８２０８からの量子化後の変換係数は、ローカルデコーダー８２１０およびエントロピー符号化部８２５０へ出力される。

ローカルデコーダー８２１０は、後続のフレーム（のマクロブロック）に対する補間情報を算出する。より具体的には、ローカルデコーダー８２１０は、逆直交変換・スケーリング部８２１２と、加算部８２１４と、デブロックフィルター８２１６と、イントラフレーム予測部８２１８と、動き補償部８２２０と、切換部８２２２とを含む。

逆直交変換・スケーリング部８２１２は、直交変換・量子化部８２０８からの量子化後の変換係数に対して、逆直交変換およびスケーリングを実行する。すなわち、逆直交変換・スケーリング部８２１２は、減算部８２０６から出力される残差画像を復元する。加算部８２１４は、逆直交変換・スケーリング部８２１２からの残差画像と、先に算出されている予測画像（補間情報）とを加算する。デブロックフィルター８２１６は、加算部８２１４からの加算結果に対して、ブロックノイズの発生を抑制するためにブロック境界を平滑化する。

すなわち、逆直交変換・スケーリング部８２１２、加算部８２１４、およびデブロックフィルター８２１６によって、入力バッファ８２０２から与えられたオリジナル画像が復元される。そして、この復元されたオリジナル画像の情報がイントラフレーム予測部８２１８および動き補償部８２２０へ与えられる。

イントラフレーム予測部８２１８は、隣接するマクロブロックに基づいて予測画像を生成する。

動き補償部８２２０は、インターフレーム予測（フレーム間予測）を用いて、予測画像を生成する。より具体的には、動き補償部８２２０は、復元されたオリジナル画像と動き推定部８２４０からの動きデータとに基づいて、予測画像を生成する。

イントラフレーム予測部８２１８および動き補償部８２２０のそれぞれで生成された予測画像は、切換部８２２２によっていずれか一方が適宜選択されて、減算部８２０６へ与えられる。

動き推定部８２４０は、分割部８２０４からの各マクロブロックと、１フレーム前の復元されたオリジナル画像の情報とに基づいて、動きデータ（典型的には、動きベクトル）を算出する。この算出される動きデータは、動き補償部８２２０およびエントロピー符号化部８２５０へ出力される。

制御部８２３０は、直交変換・量子化部８２０８、逆直交変換・スケーリング部８２１２、切換部８２２２、および、動き推定部８２４０における処理を制御する。また、制御部８２３０は、制御データとして、符号化に係るパラメータや各コンポーネントに対する符号化の順序などを指示する。

エントロピー符号化部８２５０は、直交変換・量子化部８２０８からの量子化後の変換係数、動き推定部８２４０からの動きデータ、および制御部８２３０からの制御データに対して、エントロピー符号化を行ない、その結果としてビットストリームを出力する。この出力されるビットストリームが入力された映像信号についてのエンコーディング結果となる。

出力バッファ８２４２は、必須の構成ではないが、デブロックフィルター８２１６からの復元されたオリジナル画像（映像）を一時的に格納する。

次に、図３を参照してデコーディングについて説明する。図３に示すデコーダー９１０では、図２に示すエンコーダー８２０からのビットストリームからオリジナル画像を復元する。基本的には、図２に示すエンコーダー８２０におけるエンコーディングの逆変換を行なう。より具体的には、デコーダー９１０は、入力バッファ９１０２と、エントロピー復号部９１０４と、逆直交変換・スケーリング部９１１２と、加算部９１１４と、デブロックフィルター９１１６と、イントラフレーム予測部９１１８と、動き補償部９１２０と、切換部９１２２と、制御部９１３０と、出力バッファ９１４２とを含む。

入力バッファ９１０２は、エンコーダー８２０からのビットストリームを一時的に格納する。エントロピー復号部９１０４は、入力バッファ９１０２からのビットストリームに対してエントロピー復号を行ない、その結果として、動きデータ、量子化後の変換係数、および制御データを出力する。

逆直交変換・スケーリング部９１１２は、エントロピー復号部９１０４で復号された量子化後の変換係数に対して、逆直交変換（典型的には、離散フーリエ逆変換）およびスケーリングを実行する。これらの処理によって、残差画像が復元される。

加算部９１１４は、逆直交変換・スケーリング部９１１２からの残差画像と、先に算出されている予測画像（補間情報）とを加算する。デブロックフィルター９１１６は、加算部９１１４からの加算結果に対して、ブロックノイズの発生を抑制するためにブロック境界を平滑化する。

イントラフレーム予測部９１１８は、隣接するマクロブロックに基づいて予測画像を生成する。

動き補償部９１２０は、インターフレーム予測（フレーム間予測）を用いて、予測画像を生成する。より具体的には、動き補償部９１２０は、復元されたオリジナル画像と、エントロピー復号部９１０４で復号された動きデータとに基づいて、予測画像を生成する。

イントラフレーム予測部９１１８および動き補償部９１２０のそれぞれで生成された予測画像は、切換部９１２２によっていずれか一方が適宜選択されて、加算部９１１４へ与えられる。

制御部９１３０は、エントロピー復号部９１０４で復号された制御データに基づいて、逆直交変換・スケーリング部９１１２および切換部９１２２における処理を制御する。

出力バッファ９１４２は、デブロックフィルター９１１６からの復元されたオリジナル画像（映像）を一時的に格納する。

動画像の圧縮規格の一つであるＭＰＥＧ−４ＡＶＣにおいては、上述のような、エンコーディング／デコーディングシステムによって、データ圧縮した状態で動画像の伝送を実現する。

［Ｃ．関連技術（その２）］
次に、奥行情報付加の多視点映像（Multiview Video Plus Depth：以下「ＭＶＤ」とも称す。）に向けられたエンコーディング／デコーディングシステムについて説明する。図４は、本発明の関連技術に係る多視点映像に対するエンコーディングに向けられた構成を示す機能ブロック図である。図５は、本発明の関連技術に係る多視点映像に対するデコーディングに向けられた構成を示す機能ブロック図である。

図４に示す構成においては、ＭＶＤを構成する多視点映像および対応する多視点奥行情報が入力データとして与えられる。エンコーダー８２０は、多視点映像をエンコーディングし、エンコーダー８４０は、多視点奥行情報をエンコーディングする。エンコーダー８２０とエンコーダー８４０とは、互いに連係してエンコーディングを実行する。すなわち、図４には、多視点映像および多視点奥行情報を統合的に符号化する構成を示す。このスキームによれば、エンコーダー間で情報を共有することができ、これによって、符号化効率をより高めることができる。

エンコーダー８２０は、図２に示すエンコーダー８２０と実質的に同一の構成を有している。但し、図４に示すエンコーダー８２０は、多視点映像に対してエンコーディングを行なう。エンコーダー８４０は、エンコーダー８２０と同様の構成となっている。但し、エンコーダー８４０は、多視点奥行情報に対してエンコーディングを行なう。

具体的には、エンコーダー８４０は、入力バッファ８４０２と、分割部８４０４と、減算部８４０６と、直交変換・量子化部８４０８と、ローカルデコーダー８４１０と、制御部８４３０と、動き推定部８４４０と、出力バッファ８４４２と、エントロピー符号化部８４５０とを含む。そして、ローカルデコーダー８４１０は、逆直交変換・スケーリング部８４１２と、加算部８４１４と、デブロックフィルター８４１６と、イントラフレーム予測部８４１８と、動き補償部８４２０と、切換部８４２２とを含む。

また、ＭＶＤをエンコーディングして得られるビットストリームからＭＶＤを復元する場合には、図５に示すような構成が用いられる。図５に示す構成は、図４に示す２つのエンコーダー８２０および８４０に対応して、２つのデコーダー９１０および９３０を含む。デコーディングにおいても、デコーダー９１０とデコーダー９３０とは互いに連係する。

ＭＶＤに対するエンコーディングにおいて、統合的な符号化（joint coding）を実現する方法として様々な手法が考えられる。しかしながら、現時点においては、その具体的な手法については、十分に定められているわけではない。基本的な考え方として、例えば、非特許文献３に開示されるような、動き推定の情報（典型的には、動きベクトル）をエンコーダー間で共有するような手法が提案されている。これは、映像および奥行情報は、同一の被写体を撮像して取得されるため、両者は同期することになるからである。

［Ｄ．概要］
本発明の実施の形態に係るエンコーディング／デコーディングシステムは、典型的には、ＭＶＤのような、被写体の第１の情報（輝度情報）を含む複数の第１の入力画像（多視点映像／多視点画像）と、複数の第１の入力画像にそれぞれ対応する、被写体の第１の情報とは異なる第２の情報（奥行情報）を含む複数の第２の入力画像（多視点奥行情報／多視点Ｄｅｐｔｈマップ）といった、複数の入力画像をエンコーディングする。但し、ＭＶＤに限定されることなく、互いにその情報を共有することが可能な複数種類の入力画像群（典型的には、一対の入力画像群）に対して、エンコーディングおよびデコーディングが可能になっている。そのため、映像と奥行情報との組み合わせに限らず、他の情報の組み合わせを含む画像群に対して適用可能である。

すなわち、多視点映像および多視点奥行情報の統合的な符号化を考慮して、本発明の実施の形態に係るエンコーディング／デコーディングシステムでは、映像に対するエンコーダーおよび奥行情報に対するエンコーダーのそれぞれにおいてデータフォーマット変換の処理が組み込まれる。例えば、データフォーマットタイプに関する情報がエンコーダー群からデコーダー群へ伝送される。このような情報を付加することによって、従来の装置および既存の規格との互換性を確保できる。

本発明の実施の形態に係るエンコーディング／デコーディングシステムは、上述したような既存の規格に組み込むことができるデータフォーマット変換処理を含む。本発明の実施の形態に係るエンコーディング／デコーディングシステムでは、剰余という概念を導入してデータ圧縮効率をより高める。

より具体的には、上述した関連技術に係る構成では、データ圧縮を実現するために、オリジナル画像と予測画像との間の差分に相当する残差で各画素値を定義したデータフォーマットを採用している。これに対して、本発明の実施の形態においては、「剰余」で各画素値を定義したデータフォーマットを採用する。この剰余は、ある算出された値を所定の整数値で除算して得られる余り（整数値）として定義される。このとき、商も整数になる。より具体的には、剰余は、モジュロ（modulo）演算によって算出される。剰余の算出手順などについては、後に詳述する。

本発明の実施の形態においては、代表的には、残差に代えて剰余のみで定義するデータフォーマット、または、剰余と残差とを組み合せて定義するデータフォーマットを採用し得る。すなわち、本発明の実施の形態においては、既存の規格で用いられる残差だけではなく、剰余を用いることで、データ圧縮の効率を高めるとともに、その品質も向上させることができる。

さらに、本発明の実施の形態に係るエンコーディング／デコーディングシステムは、映像についての動きデータおよび奥行情報を共有することで、データの圧縮効率をより向上させることができる。

［Ｅ．エンコーダー群の機能構成］
まず、本発明の実施の形態に係るエンコーディング／デコーディングシステムを構成するエンコーダー群の機能構成について説明する。図６は、本発明の実施の形態に係るエンコーダー群の機能ブロック図である。図６を参照して、本発明の実施の形態に係るエンコーディングでは、ＭＶＤを構成する多視点映像および対応する多視点奥行情報が入力データとして与えられる。図１に示すエンコーダー１２０は、多視点映像をエンコーディングし、エンコーダー１４０は、多視点奥行情報をエンコーディングする。エンコーダー１２０および１４０は、互いに情報を共有しつつエンコーディングを行なう。基本的な構成は、エンコーダー１２０とエンコーダー１４０との間で共通している。

多視点映像をエンコーディングするためのエンコーダー１２０は、入力バッファ１２０２と、分割部１２０４と、データフォーマット変換部１２０６と、直交変換・量子化部１２０８と、ローカルデコーダー１２１０と、制御部１２３０と、動き推定部１２４０と、出力バッファ１２４２と、エントロピー符号化部１２５０とを含む。また、ローカルデコーダー１２１０は、逆直交変換・スケーリング部１２１２と、データフォーマット逆変換部１２１４と、デブロックフィルター１２１６と、イントラフレーム予測部１２１８と、動き補償部１２２０と、切換部１２２２とを含む。

一方、多視点奥行情報をエンコーディングするためのエンコーダー１４０は、入力バッファ１４０２と、分割部１４０４と、データフォーマット変換部１４０６と、直交変換・量子化部１４０８と、ローカルデコーダー１４１０と、制御部１４３０と、動き推定部１４４０と、出力バッファ１４４２と、エントロピー符号化部１４５０とを含む。また、ローカルデコーダー１４１０は、逆直交変換・スケーリング部１４１２と、データフォーマット逆変換部１４１４と、デブロックフィルター１４１６と、イントラフレーム予測部１４１８と、動き補償部１４２０と、切換部１４２２とを含む。

概略すると、エンコーダー１２０は、図２および図４に示すエンコーダー８２０に比較して、残差画像を生成する減算部８２０６に代えてデータフォーマット変換部１２０６が設けられ、オリジナル画像を復元するための加算部８２１４に代えてデータフォーマット逆変換部１２１４が設けられている点が主として異なっている。同様に、エンコーダー１４０は、図４に示すエンコーダー８４０に比較して、残差画像を生成する減算部８４０６に代えてデータフォーマット変換部１４０６が設けられ、オリジナル画像を復元するための加算部８４１４に代えてデータフォーマット逆変換部１４１４が設けられている点が主として異なっている。但し、これらの構造の変更に伴って、制御部１２３０および１４３０の動作も制御部８２３０および８４３０とはそれぞれ異なったものとなっている。

さらに、エンコーダー１２０とエンコーダー１４０との情報共有に伴って、動き推定部１２４０および１４４０での処理も動き推定部８２４０および８４４０とはそれぞれ異なったものとなっている。

一方、入力バッファ１２０２および１４０２、分割部１２０４および１４０４、直交変換・量子化部１２０８および１４０８、動き推定部１２４０および１２４０、出力バッファ１２４２および１４４２、ならびに、エントロピー符号化部１２５０および１４５０の機能は、図４に示す入力バッファ８２０２および８４０２、分割部８２０４および８４０４、直交変換・量子化部８２０８および８４０８、動き推定部８２４０および８４４０、出力バッファ８２４２および８４４２、ならびに、エントロピー符号化部８２５０および８４５０にそれぞれ類似したものとなっている。また、ローカルデコーダー１２１０および１４１０の逆直交変換・スケーリング部１２１２および１４１２、デブロックフィルター１２１６および１４１６、イントラフレーム予測部１２１８および１４１８、ならびに、切換部１２２２および１４２２の機能は、図４に示すローカルデコーダー８２１０および８４１０の逆直交変換・スケーリング部８２１２および８４１２、デブロックフィルター８２１６および８４１６、イントラフレーム予測部８２１８および８４１８、ならびに、切換部８２２２および８４２２にそれぞれ類似したものとなっている。

［Ｆ．エンコーダー１２０および１４０における処理］
次に、エンコーダー１２０および１４０における処理について説明する。図６を参照して、入力ソースからの映像信号が入力バッファ１２０２へ与えられ、対応する奥行情報が入力バッファ１４０２へ与えられる。典型的に、映像として、複数のカメラ１０（カメラアレイ）によって撮像された多視点映像が入力され、奥行情報として、対応する多視点奥行情報が入力される。但し、このようなＭＶＤに限られず、単一のカメラ１０によって撮像された単視点映像および対応する奥行情報であってもよい。

入力バッファ１２０２には、これらの映像信号が一時的に格納され、これらの全部または一部が入力データとして分割部１２０４へ与えられる。同様に、入力バッファ１４０２には、これらの奥行情報が一時的に格納され、これらの全部または一部が入力データとして分割部１４０４へ与えられる。

分割部１２０４は、入力バッファ１２０２から出力される映像信号に含まれる各フレームを複数のマクロブロック（Ｎ×Ｎ画素）に分割する。同様に、分割部１４０４は、入力バッファ１４０２から出力される奥行情報に含まれる各フレームを複数のマクロブロック（Ｎ×Ｎ画素）に分割する。これは、適切な画像サイズを処理単位とすることで、予測処理を高速化するものである。但し、情報処理装置の演算能力や要求される処理時間などを考慮して、マクロブロックに分割することなく、１フレームをそのまま処理してもよい。分割された各マクロブロックは、データフォーマット変換部１２０６および１４０６へそれぞれ与えられる。

データフォーマット変換部１２０６は、分割部１２０４からのマクロブロックと、イントラフレーム予測部１２１８または動き補償部１２２０からの動き補償マクロブロックとを用いて、データフォーマット変換を行なう。同様に、データフォーマット変換部１４０６は、分割部１４０４からのマクロブロックと、イントラフレーム予測部１４１８または動き補償部１４２０からの動き補償マクロブロックとを用いて、データフォーマット変換を行なう。

より具体的には、動き補償マクロブロックは、先行の１つ以上の入力画像から後続の入力画像に含まれる変化成分を示す動き画像に相当し、イントラフレーム予測部１２１８または動き補償部１２２０は、映像について、この動き画像を推定する。まず、データフォーマット変換部１２０６は、後続の入力画像と推定された動き画像との差分から残差画像を生成する。そして、データフォーマット変換部１２０６は、残差画像の画素値に基づいて、残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定する。データフォーマット変換部１２０６は、特定された剰余で定義すべき領域についての画素値を剰余に変換する。このような手順によって、変換後の残差画像がデータフォーマット変換後の画像として出力される。同様に、データフォーマット変換部１４０６は、奥行情報について、同様の処理を実行する。

このデータフォーマット変換において、一部または全部の画素値を剰余で定義したマクロブロックが生成される。このデータフォーマット変換の詳細な手順については、後述する。

イントラフレーム予測部１２１８または動き補償部１２２０から与えられる対応する動き補償マクロブロックは、データフォーマット変換部１２０６によって生成されるマクロブロックからオリジナルマクロブロックを再構成するためのサイド情報（side information）として利用される。同様に、イントラフレーム予測部１４１８または動き補償部１４２０から与えられる対応する動き補償マクロブロックは、データフォーマット変換部１４０６によって生成されるマクロブロックからオリジナルマクロブロックを再構成するためのサイド情報として利用される。

映像についてのデータフォーマット変換後のマクロブロックが直交変換・量子化部１２０８へ与えられる。直交変換・量子化部１２０８は、直交変換、量子化、およびスケーリングを実行することで、入力されたデータフォーマット変換後のマクロブロックをさらに最適化する。直交変換としては、典型的には、離散フーリエ変換が採用される。量子化において用いられる量子化テーブルおよびスケーリングにおいて用いられるスケーリング係数については、データフォーマット変換部１２０６におけるデータフォーマット変換のタイプを示すデータフォーマットタイプ（ｔｙｐｅ）に応じて最適化されてもよい。なお、データフォーマット変換部１２０６において、いくつかのデータフォーマット変換が可能であり、これらのデータフォーマット変換の種類の一例については、後に詳述する。

直交変換・量子化部１２０８からの量子化後の変換係数は、ローカルデコーダー１２１０（逆直交変換・スケーリング部１２１２）およびエントロピー符号化部１２５０へ出力される。同様に、直交変換・量子化部１４０８は、奥行情報についてのデータフォーマット変換後のマクロブロックに対して、直交変換、量子化、およびスケーリングを実行する。

逆直交変換・スケーリング部１２１２は、直交変換・量子化部１２０８からの、映像についての量子化後の変換係数に対して、逆直交変換およびスケーリングを実行する。すなわち、逆直交変換・スケーリング部１２１２は、直交変換・量子化部１２０８における変換処理とは逆の処理を実行し、データフォーマット変換後のマクロブロックを復元する。さらに、データフォーマット逆変換部１２１４は、復元されたデータフォーマット変換後のマクロブロックに対して、データフォーマット逆変換を実行し、分割された各マクロブロックを復元する。同様に、逆直交変換・スケーリング部１４１２は、直交変換・量子化部１４０８からの、奥行情報についての量子化後の変換係数に対して、逆直交変換およびスケーリングを実行する。

デブロックフィルター１２１６および１４１６は、それぞれデータフォーマット逆変換部１２１４および１４１４からの復元されたマクロブロックに対して、ブロックノイズの発生を抑制するためにブロック境界を平滑化する。

すなわち、逆直交変換・スケーリング部１２１２、データフォーマット逆変換部１２１４、およびデブロックフィルター１２１６によって、オリジナル映像が復元される。そして、この復元されたオリジナル画像がイントラフレーム予測部１２１８および動き補償部１２２０へ与えられる。同様に、逆直交変換・スケーリング部１４１２、データフォーマット逆変換部１４１４、およびデブロックフィルター１４１６によって、オリジナルの奥行情報が復元される。

イントラフレーム予測部１２１８は、隣接するマクロブロックに基づいて予測画像（以下「イントラマクロブロック」とも称す。）を生成する。動き補償部１２２０は、インターフレーム予測（フレーム間予測）を用いて、予測画像（以下「インターマクロブロック」とも称す。）を生成する。これらの予測画像が動き補償マクロブロックとなる。

エンコーダー１２０およびエンコーダー１４０との間には、どのようなタイプの情報が共有されているのかを互いに示すコネクションが設けられている。このような共有される情報を互いに通知するためのパラメータなどについては、後述する。

動き推定部１２４０は、映像についての動きデータを推定し、動き推定部１４４０は、奥行情報についての動きデータを推定する。これらの動きデータとしては、典型的には、動きベクトルが用いられる。

動き推定部１２４０は、基本的には、分割部１２０４からの各マクロブロックに分割されたオリジナル映像と、１フレーム前の復元されたオリジナル映像とに基づいて、映像についての動きデータを推定する。この映像についての動きデータの推定精度を高めるために、対応する奥行情報が利用される。より具体的には、動き推定部１２４０は、（典型的には、空間方向についての）動きデータの推定に、その処理対象フレームと同一のフレームにおけるエンコーダー１４０からの奥行情報を用いる。

同様に、動き推定部１４４０は、基本的には、分割部１４０４からの各マクロブロックに分割された奥行情報と、１フレーム前の復元された奥行情報とに基づいて、奥行情報についての動きデータを推定する。動き推定部１４４０における奥行情報についての（空間方向および／または時間方向についての）動きデータの推定精度を高めるために、エンコーダー１２０において推定された動きデータが利用される。

これらの映像および奥行情報を共有する処理の詳細については後述する。
制御部１２３０は、データフォーマット変換部１２０６、直交変換・量子化部１２０８、逆直交変換・スケーリング部１２１２、データフォーマット逆変換部１２１４、切換部１２２２、および、動き推定部１２４０における処理を制御する。また、制御部１２３０は、制御データとして、符号化に係るパラメータや各コンポーネントに対する符号化の順序などを出力する。さらに、制御部１２３０は、データフォーマット変換に係る付加情報（データフォーマットタイプ（ｔｙｐｅ）、しきい値、フラグなど）をエントロピー符号化部１２５０へ出力する。

同様に、制御部１４３０は、データフォーマット変換部１４０６、直交変換・量子化部１４０８、逆直交変換・スケーリング部１４１２、データフォーマット逆変換部１４１４、切換部１４２２、および、動き推定部１４４０における処理を制御する。また、制御部１４３０は、制御データとして、符号化に係るパラメータや各コンポーネントに対する符号化の順序などを出力する。さらに、制御部１４３０は、データフォーマット変換に係る付加情報（データフォーマットタイプ（ｔｙｐｅ）、しきい値、フラグなど）をエントロピー符号化部１４５０へ出力する。

さらに、制御部１２３０と制御部１４３０とは、上述したような情報を共有するために、いくつかの制御データを交換する。これによって、ＭＶＤに対する統合的な符号化を実現できる。

エントロピー符号化部１２５０は、変換後の残差画像と、剰余で定義すべき領域を特定する付加情報とをコーディングする。より具体的には、エントロピー符号化部１２５０は、直交変換・量子化部１２０８からの量子化後の変換係数、動き推定部１２４０からの動きデータ、および制御部１２３０からの制御データおよび付加情報に対して、エントロピー符号化を行ない、その結果として映像についてのビットストリームを生成する。この生成されるビットストリームが入力された映像信号についてのエンコーディング結果となる。同様に、エントロピー符号化部１４５０は、直交変換・量子化部１４０８からの量子化後の変換係数、動き推定部１２４０からの動きデータ、および制御部１４３０からの制御データおよび付加情報に対して、エントロピー符号化を行ない、その結果として奥行情報についてのビットストリームを出力する。

出力バッファ１２４２は、必須の構成ではないが、デブロックフィルター１２１６からの復元されたオリジナル映像を一時的に格納する。同様に、出力バッファ１４４２は、デブロックフィルター１４１６からの復元されたオリジナルの奥行情報を一時的に格納する。

以下、上述の機能構成のうち主要なコンポーネントについて、より詳細に説明する。
［Ｇ．動き推定部１２４０および１４４０における処理］
まず、図１に示すエンコーダー１２０とエンコーダー１４０との間での情報共有の一形態として、動き推定部１２４０および１４４０における動きデータの推定に係る処理について説明する。なお、映像に係るエンコーダーと奥行情報に係るエンコーダーとの間で情報を共有する方法としては、以下の方法に限られるものではない。

（ｇ１：動き推定部１２４０における映像についての動きデータの推定）
動き推定部１２４０における映像（多視点映像）についての動きデータの推定において、多視点奥行情報が利用される。この奥行情報の利用形態としては、典型的には、以下のような方法が考えられる。

（ｉ）対応する奥行情報そのものを推定された動きデータとして出力する。
（ｉｉ）対応する奥行情報を推定される動きデータの初期値として取り扱い、さらに、映像の情報などを用いて調整をした上で、最終的な動きデータとして出力する。

同一時間に取得されたフレーム間の差分は、対応する視点の違い（つまり、空間領域での違い）に依存する。この空間領域での違いは、対応する奥行情報と強い関連性を有するので、映像の空間方向についての動きデータとして対応する奥行情報をそのまま用いることができるという知見に基づくものである。このような奥行情報を利用することで、処理の効率化および精度向上を実現できる。

あるいは、奥行情報（多視点奥行情報）についての動きデータそのものを映像（多視点映像）についての動きデータとして用いてもよい。あるいは、対応する奥行情報についての動きデータを推定される映像の動きデータの初期値として取り扱い、さらに、映像などを用いて調整をした上で、最終的な動きデータとして出力してもよい。

（ｇ２：動き推定部１４４０における奥行情報についての動きデータの推定）
動き推定部１４４０における奥行情報（多視点奥行情報）についての動きデータの推定において、多視点映像が利用される。この多視点映像の利用形態としては、典型的には、以下のような２つの方法が考えられる。

（ｉｉｉ）対応する映像についての動きデータそのものを動き推定部１４４０から動きデータとして出力する。

（ｉｖ）対応する映像についての動きデータを推定される奥行情報の動きデータの初期値として取り扱い、さらに、奥行情報などを用いて調整をした上で、最終的な動きデータとして出力する。

すなわち、上述の（ｉｉｉ）および（ｉｖ）の形態においては、対応する映像についての動きデータがエンコーダー１４０におけるエンコーディングに用いられる。

但し、映像についての動きデータを奥行情報のエンコーディングに用いないようにしてもよい。この場合には、典型的には、以下のような２つの方法が考えられる。

（ｖ）映像についての動きデータを用いることなく、エンコーダー１４０は奥行情報から動きデータを生成するとともに、その生成した動きデータをコーディングおよびデータ圧縮に用いる。

（ｖｉ）映像についての動きデータを用いることなく、エンコーダー１４０は奥行情報そのものを動きデータとして取り扱う。

（ｇ３：予測画像の生成例）
上述のような情報共有によって生成される、エンコーディングに用いられる予測画像（補間情報）について説明する。

図７は、本発明の実施の形態に係るエンコーディングによる予測画像の生成手順の一例を示す図である。図７（ａ）には多視点映像についての予測画像の生成手順の一例を示し、図７（ｂ）には多視点奥行情報についての予測画像の生成手順の一例を示す。図７には、配置位置Ｓ０，Ｓ１，Ｓ２，Ｓ３，…に配置された複数のカメラ１０の各々が時刻Ｔ０，Ｔ１，Ｔ２，Ｔ３，Ｔ４，Ｔ５，…に順次フレームを出力する例を示す。各フレームについての予測画像は、イントラフレーム予測、または、インターフレーム予測を用いて生成される。図７において、「Ｉ」はＩフレーム（Intra-coded Frame）を示し、「Ｐ」はＰフレーム（predicted frame）を示し、「Ｂ」はＢフレーム（bi-directional predicted frame）に示す。なお、説明の便宜上、図７にはフレーム単位で生成手順を説明しているが、上述したようにマクロブロック単位で予測画像が生成されてもよい。

まず、基準となるフレーム（図７では、配置位置Ｓ０のカメラ１０の時刻Ｔ０におけるフレーム）については、インターフレーム予測（フレーム間予測）ではなく、イントラフレーム予測を用いて予測画像（Ｉフレーム）が生成される。このＩフレームを用いて、所定の生成順序に従って予測画像が順次生成される。

このような生成手順において、映像（多視点映像）についての動きデータの推定に多視点奥行情報が利用される場合（上述の（ｉ）または（ｉｉ）の場合）には、対応するフレームの奥行情報が生成される予測画像に反映される。図７には、インターフレーム予測の対象となるフレーム（配置位置Ｓ２のカメラ１０の時刻Ｔ０におけるフレーム）に対して、対応する奥行情報（時刻Ｔ０かつ配置位置Ｓ２）が反映される。

一方、奥行情報（多視点奥行情報）についての動きデータの推定に多視点映像が利用される場合（上述の（ｉｉｉ）または（ｉｖ）の場合）には、対応するフレームの動きデータが生成される予測画像に反映される。図７には、インターフレーム予測の対象となるフレーム（配置位置Ｓ２のカメラ１０の時刻Ｔ０におけるフレーム）に対して、対応する映像についての動きデータ（時刻Ｔ０かつ配置位置Ｓ２）が反映される。

（ｇ４：その他の例）
映像のマクロブロックが十分なテクスチャーを有していない場合には、奥行情報そのものを映像の対応する各マクロブロックの動きデータとして用いてもよい。なお、映像のマクロブロックのテクスチャーの量は、その疑似勾配マクロブロックにしきい値を適用することで、決定してもよい。この場合、映像の動きデータを生成するためには、不足している領域の情報を生成する必要がある。この不足している領域の情報は、奥行情報または奥行情報の動きデータを初期値として用いることで推定することで生成できる。あるいは、この不足している領域の情報を映像の情報からのみ推定することで生成してもよい。また、奥行情報についても同様の手法を適用できる。

［Ｈ．データフォーマット変換部１２０６および１４０６における処理］
次に、本発明の実施の形態に係るデータフォーマット変換部１２０６および１４０６における処理について詳述する。なお、データフォーマット変換部１２０６および１４０６における処理は実質的に同一であるので、説明の便宜上、以下では、データフォーマット変換部１２０６について説明する。

（ｈ１：データフォーマットタイプ）
上述したように、本発明の実施の形態においては、剰余のみで定義する構成、および剰余と残差とを組み合せて定義する構成の両方を採用し得る。後者の場合には、さらに、（１）画素単位での剰余と残差との組み合わせ、および、（２）マクロブロック単位での剰余と残差（あるいは、すべてゼロ）との組み合わせの両方を採用し得る。

図８は、本発明の実施の形態に係る剰余と残差との組み合わせ手法を説明するための図である。図８（ａ）には、画素単位で剰余と残差との組み合わせを行なう手法を示し、図８（ｂ）には、マクロブロック単位で剰余と残差との組み合わせを行なう手法を示す。なお、図８において、「Ｒｅｍ」は剰余を示し、「Ｒｅｓ」は残差を示す。

図８（ａ）に示すように、各フレームは複数のマクロブロックに分割されて処理される。各マクロブロックを構成する複数の画素の各々について、所定の判断基準（典型的には、後述するようなしきい値ＴＨ１）を適用して、剰余および残差のいずれで定義すべきかが判断される。

一方、図８（ｂ）に示すように、フレームを構成する複数のマクロブロックの各々について、所定の判断基準（典型的には、後述するようなしきい値ＴＨ１およびＴＨ２）を適用して、剰余（剰余マクロブロック）および残差（残差マクロブロック）のいずれを用いるのかが判断される。剰余で定義すべきと判断された画素またはマクロブロックについては、後述するようなモジュロ演算を用いて、その画素値が算出される。

なお、剰余のみで定義される場合には、上述のような判断基準の適用を省略して、各画素／マクロブロックについて剰余が算出される。

（ｈ２：データフォーマット変換部１２０６における処理概要）
上述したように、データフォーマット変換部１２０６から出力されるデータフォーマット変換後のマクロブロックには複数のタイプがあるので、サイド情報の一部として、このデータフォーマット変換の手順を示す情報（データフォーマットタイプ（ｔｙｐｅ））が用いられる。但し、残差で定義される領域については、サイド情報を含めないようにしてもよい。つまり、対応するサイド情報が存在する領域（画素またはマクロブロック）について剰余で定義されていることが暗示される。

データフォーマット変換部１２０６は、同一フレームにおける、オリジナルマクロブロックと動き補償マクロブロック（イントラフレーム予測部１２１８で生成されるイントラマクロブロック、または、動き補償部１２２０で生成されるインターマクロブロック）との差分（つまり、残差画像）に対して、データフォーマット変換を実行する。剰余で定義された領域については、動き補償マクロブロックもサイド情報として用いられる。

また、剰余を算出するモジュロ演算に用いる係数（分母）を決定するために、動き補償マクロブロック（イントラマクロブロック、または、インターマクロブロック）についての疑似勾配マクロブロック、またはそれに類する情報を有するマクロブロックが生成される。なお、勾配の情報については、フレーム単位で算出してもよい。

以下、画素単位で剰余と残差とを組み合せるデータフォーマット（以下「第１データフォーマット」とも称す。）、および、マクロブロック単位で剰余と残差とを組み合せるデータフォーマット（以下「第２データフォーマット」とも称す。）について、それぞれその詳細な処理について説明する。なお、以下の説明において、残差の算出に係る処理を除くことで、剰余のみで画素値を定義するデータフォーマットを実現できることは自明である。

（ｈ３：データフォーマット変換部１２０６（第１データフォーマット用））
図９は、本発明の実施の形態に係るデータフォーマット変換部１２０６の機能ブロック図である。図９を参照して、データフォーマット変換部１２０６は、減算部１２６０と、比較部１２６２と、マスク生成部１２６４と、処理選択部１２６６と、勾配画像生成部１２７０と、係数選択部１２７２と、Ｌｏｏｋｕｐテーブル１２７４と、モジュロ演算部１２７８と、合成部１２８０とを含む。

減算部１２６０は、分割部１２０４（図６）から入力されるオリジナルマクロブロック（図９においては「Original MB」と表記される。）から、動き補償マクロブロック（イントラマクロブロック、または、インターマクロブロック）（図９においては「Inter/Intra MB」と表記される。）を減算することで、残差マクロブロック（図９においては「Res MB」と表記される。）を生成する。

比較部１２６２およびマスク生成部１２６４は、対象のマクロブロックにおいて残差で定義された画素を特定する。すなわち、比較部１２６２は、残差画像（残差マクロブロック）を構成する各画素の画素値の大きさに基づいて、剰余で定義すべき領域を画素単位で決定する。マスク生成部１２６４は、残差画像を構成する画素のうち、剰余で定義された画素をそれぞれ特定するための情報を付加情報（典型的には、後述のフラグｆｌａｇ１）として出力する。

より具体的には、比較部１２６２は、対象のマクロブロックを構成する各画素の画素値とサイド情報の一部であるしきい値ＴＨ１とを比較する。マスク生成部１２６４は、その画素値がしきい値ＴＨ１未満である画素について剰余で定義すべきと決定し、それ以外の画素について残差で定義すべきと決定する。つまり、残差マクロブロックのうち、その画素値が小さい領域の情報は大きく失われることがあるので、残差ではなく、剰余で定義するデータフォーマットに変換した上で、データ圧縮が行われる。

この各画素についての剰余および残差のいずれで定義するのかという情報は、フラグｆｌａｇ１としてサイド情報に含められる。マスク生成部１２６４は、対象のフレーム内において、各画素についてのフラグｆｌａｇ１の値を展開したマスク（マップ）を生成し、処理選択部１２６６へ出力するとともに、制御部１２３０へ出力する。マスク生成部１２６４からのフラグｆｌａｇ１の値に基づいて、エンコーディングおよびデコーディングにおいて、各画素に適用される手順が決定される。

データフォーマット変換部１２０６においては、処理選択部１２６６がフラグｆｌａｇ１の値に基づいて、対象のマクロブロックを構成する各画素に対する処理を選択する。具体的には、処理選択部１２６６は、残差（図９においては「Residual」と表記される。）で定義すべきと判断された画素については、その画素値をそのまま合成部１２８０へ出力する一方で、剰余（図９においては「Remainder」と表記される。）で定義すべきと判断された画素については、その画素値をモジュロ演算部１２７８へ出力する。

なお、残差で定義すべきと判断された画素に対して別の判断基準を適用し、残差で定義すべき領域の一部または全部の画素について、その画素値をゼロに変換してもよい。このゼロに変換された画素については、依然として「残差で定義すべき領域」と取り扱われる。

モジュロ演算部１２７８は、剰余で定義すべき領域についての画素値に対してモジュロ演算を実行する。より具体的には、モジュロ演算部１２７８は、係数選択部１２７２によって設定される係数Ｄ（整数）を分母とするモジュロ演算を行ない、剰余を算出する。この算出された剰余が合成部１２８０へ出力される。合成部１２８０は、画素毎に入力される剰余または残差を結合して、データフォーマット変換後のマクロブロック（図９においては「Converted MB」と表記される。）を出力する。

データフォーマット変換部１２０６では、動き補償マクロブロックに基づいて、モジュロ演算部１２７８におけるモジュロ演算に用いられる係数（分母）Ｄを動的に変化させてもよい。動き補償マクロブロックのうちその画素値が大きい領域は、フレーム間の冗長性が相対的に低い領域を意味し、このような領域については、データフォーマット変換後においてもそれに含まれる情報が維持されることが好ましい。そのため、フレーム間の冗長性の大きさに応じて、適切な係数Ｄが選択される。

このような係数Ｄを動的に変化させる方法としては任意の方法を採用できる。図９には、動き補償マクロブロック（動き画像）の勾配情報を取得し、取得した勾配情報に基づいてモジュロ演算の法となる値を決定する処理例を示す。より具体的には、動き補償マクロブロックについての疑似勾配マクロブロック（gradient-like macro-block）を生成し、この疑似勾配マクロブロックの各画素における画素値の大きさに応じて、法となる係数Ｄを決定する。

具体的には、勾配画像生成部１２７０は、動き補償マクロブロックについての疑似勾配マクロブロックを生成する。そして、勾配強度とモジュロ演算の法となる値との予め定められた対応関係を参照して、モジュロ演算の法となる値を決定してもよい。より具体的には、係数選択部１２７２は、生成された疑似勾配マクロブロックの各画素の画素値（勾配強度）に基づいて、Ｌｏｏｋｕｐテーブル１２７４を参照することで、各画素についての係数Ｄを決定する。Ｌｏｏｋｕｐテーブル１２７４を用いることで、疑似勾配マクロブロックに対して係数Ｄを非線形に決定できる。このように、係数Ｄを非線形に決定することで、デコード後の画像品質を向上させることができる。

図１０は、本発明の実施の形態に係る剰余の算出に用いられる係数Ｄを決定するためのＬｏｏｋｕｐテーブル１２７４の一例を示す図である。図１０に示すように、勾配強度に応じて複数の段階（Gradient Range）に離散化されており、各段階についての係数Ｄが定義される。勾配画像生成部１２７０は、Ｌｏｏｋｕｐテーブル１２７４を参照して、対象のマクロブロックの各画素に対応する係数Ｄを選択する。ここで、係数Ｄは、対象のマクロブロックに含まれる各カラーコンポーネントの各画素について決定される。

図１０に示すＬｏｏｋｕｐテーブル１２７４では、モジュロ演算の法となる値（係数Ｄ）が２のべき乗になるように設計されている。このように係数Ｄの割当てを行なうことで、モジュロ演算を高速化できる。Ｌｏｏｋｕｐテーブル１２７４は、任意に設計できるので、段階数がより少ない、あるいは、段階数がより多いＬｏｏｋｕｐテーブルを採用してもよい。

あるいは、Ｌｏｏｋｕｐテーブルを必ずしも使用する必要はなく、予め定められた関数などを用いて係数Ｄを決定してもよい。例えば、疑似勾配マクロブロックの各画素における画素値をそのまま係数Ｄとしてもよい。

モジュロ演算部１２７８は、処理選択部１２６６から順次出力される画素に対して、対応する係数Ｄを法としてその画素値に対するモジュロ演算を行なう。より具体的には、各画素の画素値Ｖａｌｕｅ＝ｑ×Ｄ＋ｍ（但し、ｑ≧０，Ｄ＞０）が成立する最小のｍが決定される。ここで、ｑは商であり、ｍは剰余である。

後述するマクロブロックの再構成処理（デコーディング）においては、「画素値Ｐ＝ｋ×Ｄ＋ｍ」が算出されるので、各画素について算出されるカラーコンポーネント別の剰余ｍが出力される。

ここで、勾配画像生成部１２７０における疑似勾配マクロブロックの生成方法について説明する。より具体的には、勾配画像生成部１２７０は、サイド情報としての動き補償マクロブロック（イントラマクロブロック、または、インターマクロブロック）から画像空間上の変化の度合いを示す疑似勾配マクロブロックを生成する。疑似勾配マクロブロックは、動き補償マクロブロック内において、そのテクスチャー変化がより大きな領域がより大きな輝度をもつ画像を意味する。疑似勾配マクロブロックの生成処理としては、任意のフィルタリング処理を用いることができる。また、疑似勾配マクロブロックを構成する各画素値は、所定範囲内（例えば、０〜２５５）のいずれかの整数値をとるように正規化される。典型的には、以下のような処理手順で疑似勾配マクロブロックが生成される。

（ｉ）疑似勾配マクロブロックに対してノイズ除去のためにガウシアンフィルタを適用する（ガウシアンスムージング処理）。

（ｉｉ）フィルタ後のサイド情報をカラーコンポーネント別に分離する（すなわち、カラーコンポーネントの別にグレイスケール画像を生成する）。

（ｉｉｉ）各カラーコンポーネントのグレイスケール画像について、（ｃ１）〜（ｃ４）の処理を実行する。

（ｉｉｉ−１）エッジ検出処理
（ｉｉｉ−２）（１回以上の）ガウシアンスムージング処理（あるいは、メディアンフィルタ処理）
（ｉｉｉ−３）一連のモルフォロジカル処理（例えば、（１回以上の）膨脹処理、（１回以上の）収縮処理、（１回以上の）膨脹処理）
（ｉｉｉ−４）（１回以上の）ガウシアンスムージング処理
以上のような処理によって、動き補償マクロブロックを構成するカラーコンポーネント別に疑似勾配マクロブロックが生成される。

ここに示した処理手順は一例であって、ガウシアンスムージング処理やモルフォロジカル処理の処理内容や処理手順などは適宜設計できる。

さらに、動き補償マクロブロック内でより大きな輝度変化が生じている領域に対して、より大きな画素値（輝度）を割り当てるようなマクロブロックを生成できれば、どのような方法を採用してもよい。一例として、ｘ方向およびｙ方向のそれぞれについてｓｏｂｅｌフィルタを適用し、その適用結果の平均値をマクロブロックとしてもよい。

（ｈ４：データフォーマット変換部１２０６（第２データフォーマット用））
図１１は、本発明の実施の形態に係るデータフォーマット変換部１２０６の別の機能ブロック図である。図１１を参照して、データフォーマット変換部１２０６は、図９に示すデータフォーマット変換部１２０６に比較して、マスク生成部１２６４、処理選択部１２６６、および合成部１２８０に代えて、積算部１２６５、評価部１２６７、および切換部１２６９を設けたものである。その他のコンポーネントの詳細については、上述したのでその内容は繰り返さない。

比較部１２６２、積算部１２６５、および評価部１２６７は、対象のマクロブロックに対して、残差および剰余のいずれで定義すべきかを決定する。すなわち、比較部１２６２、積算部１２６５、および評価部１２６７は、残差画像（残差マクロブロック）を所定サイズの分割した各ブロックについて、当該ブロックを構成するそれぞれの画素の画素値についての評価を結合した結果に基づいて、剰余で定義すべき領域をブロック単位で決定する。評価部１２６７は、残差画像に含まれるブロックのうち、剰余で定義されたブロックを特定するための情報を付加情報として出力する。

より具体的には、比較部１２６２は、残差マクロブロックを構成する各画素の画素値とサイド情報の一部であるしきい値ＴＨ１とを比較する。そして、比較部１２６２は、その画素値がしきい値ＴＨ１を超える画素については、その画素値としきい値ＴＨ１との差分を積算部１２６５へ出力する。つまり、積算部１２６５は、各残差マクロブロックについて、その画素値がしきい値ＴＨ１を超える画素についての「画素値−しきい値ＴＨ１」の総和（Σ（画素値−しきい値ＴＨ１））を算出する。

評価部１２６７は、算出された総和としきい値ＴＨ２とを比較して、対象の残差マクロブロックに対して、残差および剰余のいずれで定義すべきかを決定する。具体的には、算出された総和がしきい値ＴＨ２以上であれば、評価部１２６７は、その対象の残差マクロブロックをそのまま出力すると決定する。一方、算出された総和がしきい値ＴＨ２未満であれば、評価部１２６７は、その対象の残差マクロブロックを剰余マクロブロックに変換した上で出力すると決定する。つまり、残差マクロブロックが相対的に画素値の小さい画素から構成されていると判断される場合には、当該マクロブロックの情報は大きく失われる可能性があるので、残差ではなく、剰余で定義するデータフォーマットに変換される。

さらに、評価部１２６７は、この決定に基づいて、切換部１２６９へ指令を与える。より具体的には、対象の残差マクロブロックをそのまま出力すると決定された場合には、切換部１２６９は、モジュロ演算部１２７８をバイパスする経路を有効化する。これに対して、対象の残差マクロブロックを剰余マクロブロックに変換した上で出力すると決定された場合には、切換部１２６９は、残差マクロブロックをモジュロ演算部１２７８へ与える経路を有効化する。

このマクロブロックについての剰余および残差のいずれで定義するのかという付加情報は、フラグｆｌａｇ２としてサイド情報に含められる。マスク生成部１２６４からのフラグｆｌａｇ２の値に基づいて、エンコーディングおよびデコーディングにおいて、各マクロブロックに適用される手順が決定される。

なお、データフォーマット変換後のマクロブロックとして、剰余マクロブロックを用いた場合には、不可逆圧縮の形式になるので、このマクロブロックをローカルデコーダー１２１０において復元する際には、デブロックフィルター１２１６（図４）での処理をバイパスするようにしてもよい。これによって、ノイズの発生を低減できる。

［Ｉ．直交変換・量子化部１２０８および１４０８における処理］
次に、本発明の実施の形態に係る直交変換・量子化部１２０８および１４０８における処理について詳述する。

直交変換・量子化部１２０８および１４０８は、データフォーマット変換部１２０６および１４０６からのデータフォーマット変換後のマクロブロックに対して、直交変換、量子化、およびスケーリングをそれぞれ実行する。この直交変換および量子化のタイプについては、データフォーマット変換部１２０６および１４０６から出力されるマクロブロックのデータフォーマットタイプに応じて、動的に変更されてもよい。例えば、残差で定義された領域については、関連技術において用いられるのと同様の手法を適用する一方で、剰余で定義された領域については、直交変換、量子化、およびスケーリングに係るパラメータをさらに調整してもよい。

［Ｊ．データフォーマット逆変換部１２１４および１４１４における処理］
次に、本発明の実施の形態に係るデータフォーマット逆変換部１２１４および１４１４における処理について詳述する。なお、データフォーマット逆変換部１２１４および１４１４における処理は実質的に同一であるので、説明の便宜上、以下では、データフォーマット逆変換部１２１４について説明する。

（ｊ１：データフォーマット逆変換部１２１４における処理概要）
上述したように、データフォーマット変換部１２０６から出力されるデータフォーマット変換後のマクロブロックには複数のタイプがあるので、サイド情報に含まれるデータフォーマットタイプに基づいて、データフォーマット逆変換の手順が選択される。

データフォーマット逆変換部１２１４は、残差で定義された領域については、同一フレームにおける、動き補償マクロブロック（イントラフレーム予測部１２１８で生成されるイントラマクロブロック、または、動き補償部１２２０で生成されるインターマクロブロック）を加算することで、オリジナルマクロブロックを復元する。

一方、剰余で定義された領域については、動き補償マクロブロックもサイド情報として用いられる。より具体的には、剰余から本来の画素値を推定するための逆モジュロ演算に用いる係数（分母）を決定するために、動き補償マクロブロックについての疑似勾配マクロブロック、またはそれに類する情報を有するマクロブロックが生成される。

上述したように、データフォーマット変換後のマクロブロックとしては、画素単位で剰余と残差とを組み合せた第１データフォーマット、および、マクロブロック単位で剰余と残差とを組み合せた第２データフォーマットとが存在し得るが、いずれのマクロブロックに対しても、基本的には同様のデータフォーマット逆変換（復元処理）が適用される。なお、以下の説明において、残差の算出に係る処理を除くことで、剰余のみで定義されたデータフォーマット変換後のマクロブロックに対するデータフォーマット逆変換（復元処理）を実現できることは自明である。

（ｊ２：データフォーマット逆変換部１２１４の機能構成）
図１２は、本発明の実施の形態に係るデータフォーマット逆変換部１２１４の機能ブロック図である。図１２を参照して、データフォーマット逆変換部１２１４は、処理選択部１２９０と、加算部１２９２と、勾配画像生成部１２７０と、係数選択部１２７２と、Ｌｏｏｋｕｐテーブル１２７４と、逆モジュロ演算部１２９８と、合成部１２９４とを含む。なお、図９に示すデータフォーマット変換部１２０６を構成するコンポーネントと同様の処理を実行するコンポーネントについては、同じ参照符号を付している。

処理選択部１２９０は、サイド情報の一部であるフラグｆｌａｇ１および／またはフラグｆｌａｇ２に基づいて、（逆直交変換・スケーリング部１２１２によって復元された）データフォーマット変換後のマクロブロックについてのデータフォーマットタイプを判断するとともに、剰余および残差のそれぞれによって定義されている領域（画素／マクロブロック）を特定する。そして、処理選択部１２９０は、残差によって定義されている領域に含まれる画素値を加算部１２９２へ出力するとともに、剰余によって定義されている領域に含まれる画素値を逆モジュロ演算部１２９８へ出力する。

加算部１２９２は、処理選択部１２９０から画素値が出力された画素の画素位置に対応する動き補償マクロブロックでの画素値を、出力された画素値に加算する。この加算処理によって、オリジナルマクロブロックの対応する画素値が復元される。加算部１２９２は、この算出結果を合成部１２９４へ出力する。

一方、逆モジュロ演算部１２９８は、処理選択部１２９０から出力された画素値（剰余）と、その剰余を算出する際に用いられた係数Ｄとから、オリジナルマクロブロックの対応する画素値を逆モジュロ演算によって推定する。この逆モジュロ演算に必要な係数Ｄは、データフォーマット変換部１２０６における剰余の算出処理と同様の処理に従って決定される。すなわち、勾配画像生成部１２７０が動き補償マクロブロックについての疑似勾配マクロブロックを生成し、係数選択部１２７２が生成された疑似勾配マクロブロックの各画素の画素値（勾配強度）に基づいて、Ｌｏｏｋｕｐテーブル１２７４を参照することで、各画素についての係数Ｄを決定する。この勾配画像生成部１２７０、係数選択部１２７２、およびＬｏｏｋｕｐテーブル１２７４に係る処理は、図９を参照して説明したので、詳細な説明は繰り返さない。

逆モジュロ演算部１２９８は、各画素について選択された係数Ｄおよび剰余、ならびに動き補償マクロブロックの対応する画素値ＳＩを用いて、逆モジュロ演算を行なう。より具体的には、逆モジュロ演算部１２９８は、オリジナルマクロブロックの対応する画素値についての候補値Ｃ（ｑ’）のリストをＣ（ｑ’）＝ｑ’×Ｄ＋Ｒｅｍａｉｎｄｅｒ（但し、ｑ’≧０，Ｃ（ｑ’）＜２５６）に従って算出し、この算出された候補値Ｃ（ｑ’）のうち、動き補償マクロブロックの対応する画素値ＳＩに対する差が最も小さいものを、オリジナルマクロブロックの対応する画素値として決定する。

例えば、係数Ｄ＝８、剰余ｍ＝３、動き補償マクロブロックの対応する画素値ＳＩ＝８の場合を考えると、候補値Ｃ（ｑ’）としては、以下のようになる。

候補値Ｃ（０）＝０×８＋３＝３（ＳＩとの差＝５）
候補値Ｃ（１）＝１×８＋３＝１１（ＳＩとの差＝３）
候補値Ｃ（２）＝２×８＋３＝１９（ＳＩとの差＝１１）
…
これらの候補値Ｃ（ｑ’）のうち、動き補償マクロブロックの対応する画素値ＳＩとの差が最も小さくなる候補値Ｃ（１）が選択され、オリジナルマクロブロックの対応する画素値は「１１」に決定される。このようにして、オリジナルマクロブロックの各画素の画素値がカラーコンポーネント別にそれぞれ決定される。この算出された画素値が合成部１２９４へ出力される。合成部１２９４は、画素毎に入力される剰余または残差を結合して、オリジナルマクロブロック（Original MB）を出力する。

［Ｋ．デコーダー群の機能構成］
次に、本発明の実施の形態に係るエンコーディング／デコーディングシステムを構成するデコーダー群の機能構成について説明する。図１３は、本発明の実施の形態に係るデコーダー群の機能ブロック図である。図１３を参照して、本発明の実施の形態に係るデコーディングにおいては、多視点映像および対応する多視点奥行情報がエンコーディングされたビットストリームを処理するので、デコーダー２１０は、多視点映像をデコーディングし、デコーダー２３０は、多視点奥行情報をデコーディングする。デコーダー２１０および２３０は、互いに情報を共有しつつデコーディングを行なう。基本的な構成は、デコーダー２１０とデコーダー２３０との間で共通している。

多視点映像をデコーディングするためのデコーダー２１０の機能ブロック図である。図１３を参照して、デコーダー２１０は、入力バッファ２１０２と、エントロピー復号部２１０４と、逆直交変換・スケーリング部２１１２と、データフォーマット逆変換部２１１４と、デブロックフィルター２１１６と、イントラフレーム予測部２１１８と、動き補償部２１２０と、切換部２１２２と、制御部２１３０と、出力バッファ２１４２とを含む。

一方、多視点奥行情報をデコーディングするためのデコーダー２３０は、入力バッファ２３０２と、エントロピー復号部２３０４と、逆直交変換・スケーリング部２３１２と、データフォーマット逆変換部２３１４と、デブロックフィルター２３１６と、イントラフレーム予測部２３１８と、動き補償部２３２０と、切換部２３２２と、制御部２３３０と、出力バッファ２３４２とを含む。

概略すると、デコーダー２１０は、図５に示すデコーダー９１０に比較して、残差画像と先に算出されている予測画像（補間情報）とを加算する加算部９１１４に代えてデータフォーマット逆変換部２１１４が設けられている点が主として異なっている。同様に、デコーダー２３０は、図５に示すデコーダー９３０に比較して、残差画像と先に算出されている予測画像（補間情報）とを加算する加算部９３１４に代えてデータフォーマット逆変換部２３１４が設けられている点が主として異なっている。但し、この構造の変更に伴って、制御部２１３０の動作も制御部９１３０とは異なったものとなっている。但し、これらの構造の変更に伴って、制御部２１３０および２３３０の動作も制御部９１３０および９３３０とはそれぞれ異なったものとなっている。

さらに、デコーダー２１０とデコーダー２３０との情報共有に伴って、動き補償部２１２０および２３２０での処理も動き補償部９１２０および９３２０とはそれぞれ異なったものとなっている。

一方、入力バッファ２１０２および２３０２、エントロピー復号部２１０４および２３０４、逆直交変換・スケーリング部２１１２および２３１２、デブロックフィルター２１１６および２３１６、イントラフレーム予測部２１１８および２３１８、動き補償部２１２０および２３２０、切換部２１２２および２３２２、ならびに、出力バッファ２１４２および２３４２の機能は、図５に示す入力バッファ９１０２および９３０２、エントロピー復号部９１０４および９３０４、逆直交変換・スケーリング部９１１２および９３１２、デブロックフィルター９１１６および９３１６、イントラフレーム予測部９１１８および９３１８、動き補償部９１２０および９３２０、切換部９１２２および９３２２、ならびに、出力バッファ９１４２および９３４２にそれぞれ類似したものとなっている。

［Ｌ．デコーダー２１０および２３０における処理手順］
次に、デコーダー２１０および２３０における処理手順について説明する。図１３を参照して、映像をエンコーディングしたビットストリームが入力バッファ２１０２へ与えられ、対応する奥行情報をエンコーディングしたビットストリームが入力バッファ２３０２へ与えられる。本発明の実施の形態は、多視点映像と対応する多視点奥行情報とからなるＭＶＤをエンコーディングしたビットストリームに適しているが、単一のカメラ１０によって撮像された単視点映像および対応する奥行情報をエンコーディングしたビットストリームに対しても適用可能である。

入力バッファ２１０２は、映像をエンコーディングしたビットストリームを一時的に格納する。同様に、入力バッファ２３０２は、奥行信号をエンコーディングしたビットストリームを一時的に格納する。

エントロピー復号部２１０４は、入力バッファ２１０２からのビットストリームに対してエントロピー復号を行ない、その結果として、動きデータ、量子化後の変換係数、ならびに、制御データおよび付加情報を出力する。動きデータは、動き補償部２１２０へ与えられる。同様に、エントロピー復号部２３０４は、入力バッファ２３０２からのビットストリームに対してエントロピー復号を行ない、その結果として、動きデータ、量子化後の変換係数、ならびに、制御データおよび付加情報を出力する。動きデータは、動き補償部２３２０へ与えられる。

逆直交変換・スケーリング部２１１２および２３１２は、エントロピー復号部２１０４および２３０４でそれぞれ復元された量子化後の変換係数に対して、逆直交変換（典型的には、離散フーリエ逆変換）およびスケーリングをそれぞれ実行する。これらの処理によって、データフォーマット変換後のマクロブロックが復元される。

データフォーマット逆変換部２１１４によって、データフォーマット変換後のマクロブロックに対して、データフォーマット逆変換が実行されるとともに、デブロックフィルター２１１６がその結果に対して、ブロックノイズの発生を抑制するためにブロック境界を平滑化する。これらの処理によって、オリジナル映像が復元される。同様に、データフォーマット逆変換部２３１４によって、データフォーマット変換後のマクロブロックに対して、データフォーマット逆変換が実行されるとともに、デブロックフィルター２３１６がその結果に対して、ブロックノイズの発生を抑制するためにブロック境界を平滑化する。これらの処理によって、オリジナルの奥行情報が復元される。

イントラフレーム予測部２１１８および２３１８は、隣接するマクロブロックに基づいて予測画像を生成する。

デコーダー２１０およびデコーダー２３０との間には、どのようなタイプの情報が共有されているのかを互いに示すコネクションが設けられている。

デコーダー２１０の動き補償部２１２０は、ビットストリームから復号された映像についての動きデータをデコーダー２３０の動き補償部２３２０と共有する。同様に、デコーダー２３０の動き補償部２３２０は、ビットストリームから復号された映像についての動きデータをデコーダー２１０の動き補償部２１２０と共有する。これらの他のデコーダーからの動きデータは、動き補償部２１２０および２３２０の各々における動きデータの算出に用いられる。より具体的には、動き補償部２１２０は、インターフレーム予測（フレーム間予測）を用いて、予測画像を生成する。より具体的には、動き補償部２１２０および２３２０の各々は、復元されたオリジナルマクロブロックと、復元された映像および奥行情報のそれぞれについての動きデータとに基づいて、予測画像を生成する。

イントラフレーム予測部２１１８および動き補償部２１２０のそれぞれで生成された予測画像は、切換部２１２２によっていずれか一方が適宜選択されて、データフォーマット逆変換部２１１４へ与えられる。同様に、イントラフレーム予測部２３１８および動き補償部２３２０のそれぞれで生成された予測画像は、切換部２３２２によっていずれか一方が適宜選択されて、データフォーマット逆変換部２３１４へ与えられる。

制御部２１３０は、エントロピー復号部２１０４で復元された制御データおよびパラメータに基づいて、逆直交変換・スケーリング部２１１２、データフォーマット逆変換部２１１４および切換部２１２２における処理を制御する。同様に、制御部２３３０は、エントロピー復号部２３０４で復元された制御データおよびパラメータに基づいて、逆直交変換・スケーリング部２３１２、データフォーマット逆変換部２３１４および切換部２３２２における処理を制御する。

制御部２１３０と制御部２３３０とは、上述したような情報を共有するために、いくつかの制御データを交換する。これによって、ＭＶＤに対する統合的な符号化を実現できる。

出力バッファ２１４２は、デブロックフィルター２１１６からの復元されたオリジナル映像を一時的に格納し、出力バッファ２３４２は、デブロックフィルター２３１６からの復元されたオリジナルの奥行情報を一時的に格納する。

［Ｍ．付加情報］
次に、本発明の実施の形態に係るエンコーディング／デコーディングシステムにおいて用いられるパラメータおよびサイド情報などを含む付加情報について詳述する。

本発明の実施の形態に係るエンコーディング／デコーディングシステムにおいては、エンコーディングにおいて、画素値を定義する情報を剰余および残差の間で切り換える。そのため、このような制御に必要な付加情報として、フラグｆｌａｇ１およびｆｌａｇ２、タイプｔｙｐｅ、しきい値ＴＨ１およびＴＨ２、ならびに、剰余演算用パラメータａなどの、データフォーマット変換に係るパラメータが用いられる。

さらに、本発明の実施の形態においては、多視点映像を処理するエンコーダー１２０と多視点奥行情報を処理するエンコーダー１４０とが情報を共有しつつエンコーディングを実行するため、このような情報を共有したエンコーディングに必要な付加情報として、フラグｆｌａｇ３およびｆｌａｇ４などのパラメータが用いられる。

（ｍ１：データフォーマット変換に係るパラメータ）
フラグｆｌａｇ１および／またはフラグｆｌａｇ２は、データフォーマット変換後のマクロブロックにおいて剰余で定義される領域を特定するために用いられる。言い換えれば、フラグｆｌａｇ１およびフラグｆｌａｇ２をいずれも無効化することで、すべての領域が残差で定義されることが特定される。このようなすべての領域が残差で定義される、つまりデータフォーマット変換が実施されない場合には、エンコーダー１２０（より具体的には、制御部１２３０）およびデコーダー２１０（より具体的には、制御部２１３０）は、例えば、ＭＰＥＧ−４ＡＶＣのような規格に従った動作を行なう。

一方、本発明の実施の形態に係るデータフォーマット変換が実施された場合には、上述のフラグｆｌａｇ１，ｆｌａｇ２に加えて、タイプｔｙｐｅ、しきい値ＴＨ１およびＴＨ２、ならびに、剰余演算用パラメータａが用いられる。

タイプｔｙｐｅは、画素単位で剰余と残差との組み合せる第１データフォーマット（図８（ａ））と、マクロブロック単位で剰余と残差との組み合せる第２データフォーマット（図８（ｂ））とのいずれが選択されているかを示すパラメータに相当する。タイプｔｙｐｅは、いずれかのデータフォーマットが選択されているかを特定できればよいので、単一ビット（１ビット）の情報が割り当てられれば十分である。選択されるデータフォーマットに応じて、以下のようなパラメータが用いられる。

（ｉ）第１データフォーマット（図８（ａ））
《フラグｆｌａｇ１》
マクロブロックを構成する画素毎にフラグｆｌａｇ１が割り当てられ、フラグｆｌａｇ１の各々は、対応する画素が剰余および残差のいずれで定義されるのかを示す。代替の構成として、剰余および残差の一方にのみフラグｆｌａｇ１を割当て、他方にはフラグｆｌａｇ１を割り当てないようにすることで、各画素について、剰余および残差のいずれで定義されるのかを特定できる。

《しきい値ＴＨ１》
しきい値ＴＨ１は、各マクロブロックを構成する複数の画素の各々について、剰余および残差のいずれで定義すべきかを判断するための判断基準として用いられる。つまり、しきい値ＴＨ１は、残差画像（残差マクロブロック）を構成する画素のうちその画素値を剰余で定義すべき領域を特定するための判断基準であり、このしきい値ＴＨ１は、付加情報としてデコーダー側へ送信される。

《剰余演算用パラメータａ》
剰余演算用パラメータａは、モジュロ演算部１２７８（図９）において用いられる係数Ｄを決定するためのパラメータである。一例として、勾配画像生成部１２７０（図９）において生成される疑似勾配マクロブロックに対するしきい値を、剰余演算用パラメータａとしてもよい。つまり、図１０に示すようなＬｏｏｋｕｐテーブル１２７４における各階調を決定するしきい値が剰余演算用パラメータａになる。

あるいは、図１０に示すようなＬｏｏｋｕｐテーブルを複数用意しておき、いずれのＬｏｏｋｕｐテーブルを選択するのかを示す識別子を剰余演算用パラメータａとしてもよい。

（ｉｉ）第１データフォーマット（図８（ｂ））
《フラグｆｌａｇ２》
マクロブロック毎にフラグｆｌａｇ２が割り当てられ、フラグｆｌａｇ２の各々は、対応するマクロブロックが剰余および残差のいずれで定義されるのかを示す。代替の構成として、剰余および残差の一方にのみフラグｆｌａｇ２を割当て、他方にはフラグｆｌａｇ２を割り当てないようにすることで、各マクロブロックについて、剰余および残差のいずれで定義されるのかを特定できる。

《しきい値ＴＨ２》
しきい値ＴＨ２は、マクロブロックの各々について、剰余および残差のいずれで定義すべきかを判断するための判断基準として用いられる。この判断においては、しきい値ＴＨ１も用いられる。

《剰余演算用パラメータａ》
上述の第１データフォーマットに対して用いられる剰余演算用パラメータａと同様に、疑似勾配マクロブロックに対するしきい値、あるいは、使用するＬｏｏｋｕｐテーブルを選択するのかを示す識別子を含む。

なお、エンコーダー１２０においては、速度歪みに応じた最適化（rate-distortion optimization）が実行されてもよい。このとき、剰余および残差のいずれで定義すべきかを判断するためのしきい値ＴＨ１および／またはしきい値ＴＨ２についても、この最適化の対象とすることが好ましい。この最適化によって、性能をより向上させることができる。

（ｍ２：エンコーダー間の情報共有に係るパラメータ）
《フラグｆｌａｇ３（エンコーダー１２０および１４０で異なる意味を持つ）》
エンコーダー１２０および１４０の各々は、それぞれ自装置に関する処理の内容を示すフラグｆｌａｇ３を用いる。

映像に対するエンコーディングを実行するエンコーダー１２０におけるフラグｆｌａｇ３は、動き推定部１２４０（図６）における映像（多視点映像）についての動きデータの推定において、対応する奥行情報（図６の分割部１４０４から出力される）が用いられるか否かを示す。

奥行情報に対するエンコーディングを実行するエンコーダー１４０におけるフラグｆｌａｇ３は、動き推定部１４４０（図６）における奥行情報（多視点奥行情報）についての動きデータの推定において、対応する映像についての動きデータ（図６の動き推定部１２４０から出力される）が用いられるか否かを示す。

《フラグｆｌａｇ４（エンコーダー１２０で用いられる）》
映像に対するエンコーディングを実行するエンコーダー１２０におけるフラグｆｌａｇ４は、動き推定部１２４０（図６）における映像についての動きデータの推定において、対応する奥行情報が用いられる場合（上述のフラグｆｌａｇ３によって示される）、どのように用いられるのかを示す。つまり、フラグｆｌａｇ４は、（ｉ）対応する奥行情報そのものを推定された動きデータとして出力する、および、（ｉｉ）対応する奥行情報を推定される動きデータの初期値として取り扱い、さらに、映像の情報などを用いて調整をした上で、最終的な動きデータとして出力する、のうちいずれの処理が実行されるのかを示す。

（ｍ３：デコーダー間の情報共有に係るパラメータ）
デコーダー２１０では、フラグｆｌａｇ３およびｆｌａｇ４が用いられ、デコーダー２３０では、フラグｆｌａｇ３が用いられる。

デコーダー２１０および２３０で取り扱われるフラグｆｌａｇ３は、動きデータが共有されるのかどうかを示す。デコーダー２１０で取り扱われるフラグｆｌａｇ４は、映像（多視点映像）についての動きデータの推定において、対応する奥行情報が用いられるか否かを示す。

［Ｎ．ハードウェア構成］
次に、上述の送信機および受信機を実現するためのハードウェア構成の一例について説明する。図１４は、送信機として機能する情報処理装置１００のハードウェア構成を示す模式図である。図１５は、受信機として機能する情報処理装置２００のハードウェア構成を示す模式図である。

図１４を参照して、情報処理装置１００は、プロセッサ１０４と、メモリ１０６と、カメラインターフェイス１０８と、通信インターフェイス１１２と、ハードディスク１１４と、入力部１１６と、表示部１１８とを含む。これらの各コンポーネントは、バス１２２を介して互いにデータ通信可能に構成されている。

プロセッサ１０４は、ハードディスク１１４などに格納されているプログラムを読出してメモリ１０６に展開して実行することで、本発明の実施の形態に係るエンコーディング処理を実現する。メモリ１０６は、プロセッサ１０４が処理を実行するためのワーキングメモリとして機能する。

カメラインターフェイス１０８は、複数のカメラ１０と接続され、それぞれのカメラ１０が撮像した画像を取得する。取得された画像は、ハードディスク１１４やメモリ１０６に格納されてもよい。ハードディスク１１４は、上述したエンコーディング処理を実現するためのエンコーディングプログラム１１４ａや、カメラインターフェイス１０８から入力された多視点映像データ１１４ｂなどを不揮発的に保持している。

入力部１１６は、典型的には、マウスやキーボードなどを含み、ユーザからの操作を受付ける。表示部１１８は、処理結果などをユーザへ通知する。

通信インターフェイス１１２は、無線伝送装置１０２などと接続され、プロセッサ１０４による処理の結果出力されるデータを無線伝送装置１０２へ出力する。

図１２を参照して、情報処理装置２００は、プロセッサ２０４と、メモリ２０６と、プロジェクタインターフェイス２０８と、通信インターフェイス２１２と、ハードディスク２１４と、入力部２１６と、表示部２１８とを含む。これらの各コンポーネントは、バス２２２を介して互いにデータ通信可能に構成されている。

プロセッサ２０４、メモリ２０６と、入力部２１６、および、表示部２１８は、図１１に示すプロセッサ１０４、メモリ１０６と、入力部１１６、および、表示部１１８とそれぞれ同様であるので、詳細な説明は繰り返さない。

プロジェクタインターフェイス２０８は、立体表示装置３００と接続され、プロセッサ２０４によって復元された多視点映像などを立体表示装置３００へ出力する。

通信インターフェイス２１２は、無線伝送装置２０２などと接続され、情報処理装置１００から伝送されるビットストリームを受信し、バス２２２へ出力する。

ハードディスク２１４は、デコーディングを実現するためのデコーディングプログラム２１４ａと、復元されたオリジナル画像を含む画像データ２１４ｂとを不揮発的に保持している。

図１４および図１５にそれぞれ示す情報処理装置１００および２００のハードウェア自体およびその動作原理は一般的なものであり、本発明の実施の形態に係るエンコーディング／デコーディングを実現するための本質的な部分は、ハードディスクなどの記憶媒体に格納されたエンコーディングプログラム１１４ａやデコーディングプログラム２１４ａなどのソフトウェア（命令コード）である。このようなエンコーディングプログラム１１４ａやデコーディングプログラム２１４ａは、光学記憶媒体、磁気記憶媒体、半導体記憶媒体といった記憶媒体に格納されて流通する。このようなプログラムを格納する記憶媒体についても本願発明の範囲に含まれ得る。

エンコーディングプログラム１１４ａおよび／またはデコーディングプログラム２１４ａは、ＯＳ（Operating System）が提供するモジュールを用いて処理を実行するように構成してもよい。この場合には、エンコーディングプログラム１１４ａおよび／またはデコーディングプログラム２１４ａは、一部のモジュールを含まないことになるが、このような場合であっても、本願発明の技術的範囲に含まれる。

情報処理装置１００および／または情報処理装置２００の全部または一部の機能をＡＳＩＣ（Application Specific Integrated Circuit）などの専用の集積回路を用いて実現してもよいし、ＦＰＧＡ（Field-Programmable Gate Array）やＤＳＰ（Digital Signal Processor）などのプログラム可能なハードウェアを用いて実現してもよい。

［Ｏ．その他の実施の形態］
本発明の実施の形態においては、オリジナルマクロブロックから動き補償マクロブロック（イントラマクロブロック、または、インターマクロブロック）を減じた残差マクロブロックに対して、しきい値が適用されることで、剰余および残差のそれぞれで定義される領域が決定される。このしきい値およびデータフォーマット変換に必要な他のパラメータは、速度最適化ループを用いて動的または静的に最適化されてもよい。

本発明の実施の形態においては、剰余を算出するためにモジュロ演算を行なう。このモジュロ演算において分母（法）となる係数Ｄは、対象のマクロブロックと同一の動き補償マクロブロック（または、動き補償フレーム）の勾配画像に基づいて、決定される。この勾配画像（（疑似）勾配マクロブロック、または、（疑似）勾配フレーム）は、イントラマクロブロック（あるいは、イントラフレーム）、または、インターマクロブロック（あるいは、インターフレーム）から生成される。このとき、複数のフレームにわたるマクロブロック間で勾配を算出してもよい。すなわち、勾配画像は、時間領域および／または空間領域にわたって算出されてもよい。このように算出される勾配画像に応じて、モジュロ演算において用いられる係数Ｄが決定される。

本発明の実施の形態においては、モジュロ演算において用いられる係数Ｄは、各領域を剰余および残差のいずれで定義すべきかが判断するための（疑似）勾配マクロブロック（または、勾配フレーム）に適用されるしきい値と同じに設定してもよい。

上述の実施の形態においては、マクロブロックまたはフレームについてのデータフォーマットとして、（１）剰余のみで各領域が定義されるデータフォーマット、および、（２）剰余と残差との組み合わせで各領域が定義されるデータフォーマットについて説明したが、さらに別のデータフォーマットを採用することもできる。そのため、マクロブロックまたはフレームは、すべてゼロ、残差とゼロとの組み合わせ、すべて残差、剰余とゼロとの組み合わせ、すべて剰余、剰余と残差との組み合わせ、剰余と残差とゼロとの組み合わせ、といった様々なコンポーネントを含み得る。

上述の実施の形態においては、動画像の圧縮規格の一つである、ＭＰＥＧ−４ＡＶＣに適用した構成例を示した。この構成例において、データフォーマット変換後のデータ圧縮の処理については、規格に沿った手順で実行される。一方、データフォーマット変換の処理については、データ圧縮に係るパラメータに従って最適化される。エンコーディングの最終段階において、画像／映像／多視点映像に対する任意のデータ圧縮ツールを適用することもできる。

デコーディング処理（すなわち、データ復元処理）においても、本発明の実施の形態に係るデータフォーマットに応じたデコーダーが用いられる。例えば、データフォーマットタイプ（ｔｙｐｅ）に関する情報がエンコーダーからデコーダーへ伝送される。このような情報を付加することによって、従来の装置および既存の規格との互換性を確保できる。剰余と残差とを組み合せたデータフォーマットのデータが伝送される場合には、そのビットストリームには、規格上必要なパラメータに加えて、コーディングに関するパラメータおよびデータフォーマットに関するパラメータが含められる。

デコーディングにおいて、残差で定義された領域に対しては、動き補償マクロブロック／フレームあるいは合成マクロブロック／フレームに基づいてさらに補償するようにしてもよい。

ゼロが設定されている領域に対しては、動き補償マクロブロック／フレームの対応する値が割り当てられてもよい。剰余で定義される領域については、上述したような逆モジュロ演算によって復元される。

上述の実施の形態においては、不可逆圧縮（非可逆圧縮）のエンコーディング／デコーディングシステムへの適用例について説明したが、可逆圧縮のエンコーディング／デコーディングシステムにも適用可能である。この場合には、図６に示す直交変換・量子化部１２０８，１４０８および逆直交変換・スケーリング部１２１２，１４１２、ならびに、図１３に示す逆直交変換・スケーリング部２１１２，２３１２などが不要になる。すなわち、エンコーディングにおいて、直交変換や量子化といったデータ損失を生じるような処理は実行されない。

本発明の実施の形態によれば、画像のデータ圧縮処理において用いられる、画像のデータフォーマット変換および画像および奥行画像の統合的な符号化の方法が提供される。この方法は、カメラ列またはＤｅｐｔｈカメラによって撮像された多視点映像／画像の列、または任意の形式の画像データに対して、既存の規格を改良したコーディングツール（画像／映像／多視点映像に対する改良されたデータ圧縮ツール）でデータ圧縮する工程を含む。ここで、データフォーマット変換は、複数の画素からなるブロック（マクロブロック）単位で実行される。

ここで、データフォーマット変換の処理は、以下の工程を含む。
（１ａ）インターブロック（前方向予測、後方向予測、および両方向予測のうちいずれかを用いてコーディングされたブロック）、または、イントラブロック、ならびに対応する位置のオリジナルブロックに基づいて、各画素のブロックデータフォーマットを所定のパラメータの組に従って、剰余、残差、ゼロのいずれかに変換する工程
（１ｂ）インターブロック、または、イントラブロック、ならびにオリジナルブロックに基づいて、差分ブロック、すなわち残差ブロックを生成する工程
（１ｃ）所定のパラメータの組および残差ブロックに基づいて、その値を剰余に変換すべきと判断された画素についてフラグを有効化する工程
（１ｄ）所定のパラメータの組および残差マクロブロックに基づいて、その値をゼロにすべきと判断された画素について、その値をゼロに変換する工程（これらの画素は、残差がゼロの画素として取り扱われる）
（１ｅ）インターマクロブロック、または、イントラマクロブロックに基づいて、疑似勾配画像を生成する工程
（１ｆ）当該疑似勾配画像に基づいて、モジュロ演算によって剰余を決定するためのパラメータを設定する工程
（１ｇ）オリジナルブロックおよびモジュロ演算について設定されたパラメータの組に基づいて、その値を剰余に変更すべきと判断された画素について、剰余に変換する工程
（１ｈ）画像／映像／多視点映像に対するデータ圧縮に係る既存の規格に類似したデータ圧縮に係る処理を、新たなデータフォーマット変換後のブロックに対して実行する工程
（１ｉ）データフォーマット変換のためのパラメータを規格に従う最適化処理に追加して、当該パラメータのデータ圧縮を実行する工程
（１ｊ）新たなデータフォーマットの規格に従うデータ圧縮パラメータおよびデータフォーマット変換のためのパラメータに対して、既存の最適化処理を用いて、その圧縮効率および圧縮品質をより高くするための最適化処理を実行する工程
次に、統合的なデータ圧縮の処理は、以下の工程を含む。

（２ａ）画像符号化のための動きデータを奥行情報に置換する工程
（２ｂ）奥行情報が映像エンコーダーにおける動き推定部における推定結果の初期値として用いられる場合に、動きデータをさらに調整し改善する工程
（２ｃ）映像エンコーダーにおける動きデータに代えて、奥行情報エンコーダーにおける動き推定結果を用いる工程
（２ｄ）奥行情報エンコーダーにおける動きデータに代えて、映像エンコーダーにおける動き推定結果を用いる工程
（２ｅ）共有される情報のタイプを示す対応するパラメータをデコーダーへ送信する工程
次に、データフォーマット逆変換の処理は、以下の工程を含む。

（３ａ）画像／映像／多視点映像に対する改良されたデータ圧縮ツールを用いて圧縮されたデータのビットストリーム、各圧縮されたブロックについての情報、ならびに、データフォーマット逆変換のための対応するパラメータをデータ復元ツールに提供する工程
（３ｂ）インターマクロブロック、または、イントラマクロブロック、ならびに残差画素およびゼロ画素に基づいて、フラグが有効化されていない画像について、残差からオリジナルの画素値を復元する工程
（３ｃ）インターマクロブロック、または、イントラマクロブロック、ならびにフラグによって示される剰余の画素に基づいて、逆モジュロ演算を実行する工程（逆モジュロ演算の実行にあたって、受信したビットストリームから抽出されたモジュロ演算のための対応するパラメータが利用される）
最後に、統合的なデータ復元の処理は、以下の工程を含む。

（４ａ）映像エンコーダーおよび奥行情報エンコーダーの間で共有されている動きデータのタイプに依存して、それぞれのエンコーダーに対して、複合処理のための動きデータを送信する工程
（４ｂ）ビットストリームに含まれる、デコーディングのための制御データを用いて共有情報のタイプを識別する工程
上述の説明においては、データフォーマット変換およびデータフォーマット逆変換をマクロブロック単位で実行する場合について説明したが、画像全体に適用できることはいうまでもない。具体的には、オリジナル画像全体についての残差画像を先に生成し、当該生成した残差画像に対して、上述した処理を画像単位で実行してもよい。

［Ｐ．利点］
本発明の実施の形態に係るエンコーディング／デコーディングシステムは、既存の圧縮規格との互換性を維持できるので、本発明の実施の形態に係る新たなデータフォーマット変換（エンコーディング）の組み込みが容易化できる。上述したように、本発明の実施の形態に係るエンコーディング／デコーディングシステムにおいては、剰余の情報を用いなければ、既存の規格での処理と同一の処理を実現することもできる。そのため、互換性を維持できる。

本発明の実施の形態に係るエンコーディング／デコーディングシステムは、例えば、分散ソースコーディング（distributed source coding）、分散映像符号化（distributed video coding）、画像／映像／多視点映像に対するデータ圧縮といった、各種の画像システムに適用可能である。

本発明の実施の形態に係るエンコーディング／デコーディングシステムによれば、画像／映像／多視点映像に対するデータ圧縮に係る既存の規格の枠内で、新たなデータフォーマットを用いることで、データ圧縮効率をより高めることができる。

本発明の実施の形態に係るエンコーディング／デコーディングシステムの実装にあたって、既存の規格に沿った画像／映像／多視点映像に対するデータ圧縮ツールに対する変更はわずかで済む。また、本発明の実施の形態に係るエンコーディング／デコーディングシステムを実装した、画像／映像／多視点映像に対するデータ圧縮ツールは、本発明の実施の形態に係る処理を無効化することで、既存の規格との互換性を依然として維持できる。

本発明の実施の形態に係るエンコーディング／デコーディングシステムは、多視点映像および多視点奥行情報を統合的に符号化する。特に、映像についての動きデータおよび奥行情報をエンコーダー１２０とエンコーダー１４０との間で共有することで、ＭＶＤに対する統合的な符号化を実現でき、これによって、ＭＶＤをデータ圧縮後のトータルのデータサイズを共有される情報のサイズと同程度以上に低減できる。

今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１立体映像再生システム、２被写体、１０カメラ、１００，２００情報処理装置、１０２，２０２無線伝送装置、１０４，２０４プロセッサ、１０６，２０６メモリ、１０８カメラインターフェイス、１１０プリプロセッサー、１１２，２１２通信インターフェイス、１１４，２１４ハードディスク、１１４ａエンコーディングプログラム、１１６，２１６入力部、１１８，２１８表示部、１２０，１４０，８２０，８４０エンコーダー、１２２，２２２バス、２０８プロジェクタインターフェイス、２１０，２３０，９１０，９３０デコーダー、２１４ａデコーディングプログラム、２１４ｂ画像データ、２４０ポストプロセッサー、３００立体表示装置、３０２プロジェクターアレイ、３１０表示スクリーン、３１２拡散フィルム、３１４集光レンズ、１２０２，１４０２，２１０２，２３０２，８２０２，８４０２，９１０２入力バッファ、１２０４，１４０４，８２０４，８４０４分割部、１２０６，１４０６データフォーマット変換部、１２０８，１４０８，８２０８，８４０８直交変換・量子化部、１２１０，１４１０，８２１０，８４１０ローカルデコーダー、１２１２，１４１２，２１１２，２３１２，８２１２，８４１２，９１１２逆直交変換・スケーリング部、１２１４，１４１４，２１１４，２３１４データフォーマット逆変換部、１２１６，１４１６，２１１６，２３１６，８２１６，８４１６，９１１６デブロックフィルター、１２１８，１４１８，２１１８，２３１８，８２１８，８４１８，９１１８イントラフレーム予測部、１２２０，１４２０，２１２０，２３２０，８２２０，８４２０，９１２０動き補償部、１２２２，１２６９，１４２２，２１２２，２３２２，８２２２，８４２２，９１２２切換部、１２３０，１４３０，２１３０，２３３０，８２３０，８４３０，９１３０制御部、１２４０，１４４０，８２４０，８４４０動き推定部、１２４２，１４４２，２１４２，２３４２，８２４２，８４４２，９１４２出力バッファ、１２５０，１４５０，８２５０，８４５０エントロピー符号化部、１２６０，８２０６，８４０６減算部、１２６２比較部、１２６４マスク生成部、１２６５積算部、１２６６，１２９０処理選択部、１２６７評価部、１２７０勾配画像生成部、１２７２係数選択部、１２７４Ｌｏｏｋｕｐテーブル、１２７８モジュロ演算部、１２８０，１２９４合成部、１２９２，８２１４，８４１４，９１１４，９３１４加算部、１２９８逆モジュロ演算部、２１０４，２３０４，９１０４エントロピー復号部。

Claims

複数の入力画像をエンコーディングする方法であって、
被写体の第１の情報を含む複数の第１の入力画像と、前記複数の第１の入力画像にそれぞれ対応する、前記被写体の前記第１の情報とは異なる第２の情報を含む複数の第２の入力画像とを取得するステップと、
前記第１の入力画像について、他の第１の入力画像および前記第２の入力画像の少なくとも一方に含まれる情報から第１の予測画像を算出するステップと、
前記第１の入力画像と対応する前記第１の予測画像との差分から第１の残差画像を生成するステップと、
前記第１の残差画像の画素値に基づいて、前記第１の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定するステップと、
前記第１の残差画像の前記剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、
前記第２の入力画像について、他の第２の入力画像および前記第１の入力画像の少なくとも一方に含まれる情報から第２の予測画像を算出するステップと、
前記第２の入力画像と対応する前記第２の予測画像との差分から第２の残差画像を生成するステップと、
前記第２の残差画像の画素値に基づいて、前記第２の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定するステップと、
前記第２の残差画像の前記剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、
変換後の第１の残差画像と、変換後の第２の残差画像と、前記第１の残差画像および前記第２の残差画像のそれぞれにおける前記剰余で定義すべき領域を特定する付加情報とをエンコーディングするステップとを含む、方法。
前記剰余に変換するステップは、
前記剰余で定義すべき領域についての画素値に対してモジュロ演算を実行するステップと、
前記予測画像の勾配情報を取得するステップと、
勾配強度とモジュロ演算の法となる値との予め定められた対応関係を参照して、取得した前記勾配情報に基づいて前記モジュロ演算の法となる値を決定するステップとを含む、請求項１に記載の方法。
前記第１の予測画像を算出するステップは、算出対象の第１の入力画像に対応する第２の入力画像と、先行の１つ以上の第１の入力画像とを用いて、前記第１の予測画像を算出するステップを含む、請求項１または２に記載の方法。
前記第２の予測画像を算出するステップは、算出対象の第２の入力画像に対応する第１の入力画像についての動きデータを用いて、前記第２の予測画像を算出するステップを含み、
前記第１の入力画像についての動きデータは、先行の第１の入力画像と算出対象の第１の入力画像との間の変化成分を示す、請求項１〜３のいずれか１項に記載の方法。
前記第２の予測画像を算出するステップは、算出対象の第２の入力画像と、先行の１つ以上の第２の入力画像とを用いて、前記第２の予測画像を算出するステップを含む、請求項１〜３のいずれか１項に記載の方法。
複数の入力画像をエンコーディングするプログラムであって、当該プログラムは、コンピュータに、
被写体の第１の情報を含む複数の第１の入力画像と、前記複数の第１の入力画像にそれぞれ対応する、前記被写体の前記第１の情報とは異なる第２の情報を含む複数の第２の入力画像とを取得するステップと、
前記第１の入力画像について、他の第１の入力画像および前記第２の入力画像の少なくとも一方に含まれる情報から第１の予測画像を算出するステップと、
前記第１の入力画像と対応する前記第１の予測画像との差分から第１の残差画像を生成するステップと、
前記第１の残差画像の画素値に基づいて、前記第１の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定するステップと、
前記第１の残差画像の前記剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、
前記第２の入力画像について、他の第２の入力画像および前記第１の入力画像の少なくとも一方に含まれる情報から第２の予測画像を算出するステップと、
前記第２の入力画像と対応する前記第２の予測画像との差分から第２の残差画像を生成するステップと、
前記第２の残差画像の画素値に基づいて、前記第２の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定するステップと、
前記第２の残差画像の前記剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、
変換後の第１の残差画像と、変換後の第２の残差画像と、前記第１の残差画像および前記第２の残差画像のそれぞれにおける前記剰余で定義すべき領域を特定する付加情報とをエンコーディングするステップとを実行させる、プログラム。
複数の入力画像をエンコーディングする装置であって、
被写体の第１の情報を含む複数の第１の入力画像と、前記複数の第１の入力画像にそれぞれ対応する、前記被写体の前記第１の情報とは異なる第２の情報を含む複数の第２の入力画像とを取得する手段と、
前記第１の入力画像について、他の第１の入力画像および前記第２の入力画像の少なくとも一方に含まれる情報から第１の予測画像を算出する手段と、
前記第１の入力画像と対応する前記第１の予測画像との差分から第１の残差画像を生成する手段と、
前記第１の残差画像の画素値に基づいて、前記第１の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定する手段と、
前記第１の残差画像の前記剰余で定義すべきとされた領域に含まれる画素値を剰余に変換する手段と、
前記第２の入力画像について、他の第２の入力画像および前記第１の入力画像の少なくとも一方に含まれる情報から第２の予測画像を算出する手段と、
前記第２の入力画像と対応する前記第２の予測画像との差分から第２の残差画像を生成する手段と、
前記第２の残差画像の画素値に基づいて、前記第２の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定する手段と、
前記第２の残差画像の前記剰余で定義すべきとされた領域に含まれる画素値を剰余に変換する手段と、
変換後の第１の残差画像と、変換後の第２の残差画像と、前記第１の残差画像および前記第２の残差画像のそれぞれにおける前記剰余で定義すべき領域を特定する付加情報とをエンコーディングする手段とを実行させる、装置。