JP2014192702A - 複数の入力画像をエンコーディングする方法、プログラムおよび装置 - Google Patents
複数の入力画像をエンコーディングする方法、プログラムおよび装置 Download PDFInfo
- Publication number
- JP2014192702A JP2014192702A JP2013066314A JP2013066314A JP2014192702A JP 2014192702 A JP2014192702 A JP 2014192702A JP 2013066314 A JP2013066314 A JP 2013066314A JP 2013066314 A JP2013066314 A JP 2013066314A JP 2014192702 A JP2014192702 A JP 2014192702A
- Authority
- JP
- Japan
- Prior art keywords
- image
- unit
- residual
- input
- remainder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/182—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/187—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/189—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
- H04N19/196—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
- H04N19/463—Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
【課題】被写体の異なる情報をそれぞれ含む異なる種類の複数の入力画像に対して、圧縮効率および圧縮品質の両方がより高いエンコーディング技術が要求されている。
【解決手段】複数の入力画像をエンコーディングする方法が提供される。第1の入力画像と対応する第1の予測画像との差分から第1の残差画像を生成するステップと、第1の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、第2の入力画像と対応する第2の予測画像との差分から第2の残差画像を生成するステップと、第2の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、変換後の第1の残差画像と、変換後の第2の残差画像と、第1の残差画像および第2の残差画像のそれぞれにおける剰余で定義すべき領域を特定する付加情報とをコーディングするステップとを含む。
【選択図】図6
【解決手段】複数の入力画像をエンコーディングする方法が提供される。第1の入力画像と対応する第1の予測画像との差分から第1の残差画像を生成するステップと、第1の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、第2の入力画像と対応する第2の予測画像との差分から第2の残差画像を生成するステップと、第2の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、変換後の第1の残差画像と、変換後の第2の残差画像と、第1の残差画像および第2の残差画像のそれぞれにおける剰余で定義すべき領域を特定する付加情報とをコーディングするステップとを含む。
【選択図】図6
Description
本発明は、被写体の異なる情報をそれぞれ含む異なる種類の複数の入力画像をエンコーディングする方法、プログラムおよび装置に関する。
従来から、時間領域に配置されたフレーム列で構成される動画像に対して、そのフレーム間の冗長性を考慮した映像符号化(video coding)方法が知られている(例えば、非特許文献1を参照)。典型的な映像符号化方法では、入力されるオリジナル画像に代えて、Pフレーム(predicted frame)および/またはBフレーム(bi-directional predicted frame)が伝送される。Pフレームは、前方向予測によって算出されたフレームであり、Bフレームは、前方向予測、後方向予測、および両方向予測のうちいずれかによって算出されたフレームである。
非特許文献2は、このような映像符号化の技術を、時間領域および空間領域に拡張して適用する方法を開示する。すなわち、非特許文献2の教示内容によれば、時間領域および空間領域に配置された複数のフレームに対して、Pフレームおよび/またはBフレームを生成することができる。
空間領域に配置されたフレーム列の一例として、多視点映像を用いて高精細な立体映像を提供する三次元映像技術に用いられるフレーム列を挙げることができる。このような立体映像は、非常に多数の視点(例えば、200視点)で被写体をそれぞれ撮像して得られる多視点映像によって実現される。距離マップといった3次元情報を用いてPフレームおよび/またはBフレームを生成するといった視点補間を用いることで、時間領域に配置されたフレーム列に対するエンコーディングと同様の方法を空間領域に配置されたフレーム列に対しても適用できる。
非特許文献3は、多視点映像のエンコーディングに関する手法を開示する。非特許文献3は、時間領域だけではなく、空間領域において視点補間を用いることで、奥行情報などの三次元情報からPフレームおよび/またはBフレームを生成する手法を開示する。
なお、本明細書では、データを目的に応じた符号に圧縮(変換)することをエンコーディング(encoding)と記し、変換された符号を元のデータに復元(復号)することをデコーディング(decoding)と記す。また、符号化(coding)という用語は、エンコーディング単体、および、エンコーディングおよびデコーディングの両方を意味するものとする。
Thomas Wiegand, Gary J. Sullivan, Gisle Bjontegaard, and Ajay Luthra, "Overview of the H.264/AVC Video Coding Standard", IEEE Transactions on Circuits and Systems for Video Technology, Vol. 13, No. 7, pp. 560-576, July 2003
P. Merkle, K. Muller, A. Smolic, and T. Wiegand, "Efficient Compression of Multi-view Video Exploiting inter-view dependencies based on H.264/MPEG-AVC," Proc. ICME 2006, pp. 1717-1720
S. Yea, A. Vetro, "View synthesis prediction for multiview video coding", Signal Processing: Image Communication, Vol. 24, 1-2, Jan 2009, pp. 89-100.
非特許文献1〜3に開示される方法によれば、生成されたPフレームおよびBフレームは、残差(residual value)の形で伝送される。ここで、残差の情報に対して、さらにデータ圧縮処理が実行される。このデータ圧縮処理では、画像変換(典型的には、離散コサイン変換)、量子化、エントロピー符号化(entropy coding)などが実行される。データ圧縮率が高い場合には、量子化を実行することで、データサイズ低減によるデータの著しいロスが発生する。つまり、その値が小さい残差の情報は、データ圧縮処理によって失われてしまう。
一方で、エッジ情報(edge information)や境界情報(boundary information)といったいくつかの画像の特徴量については、データ圧縮率が高められたとしても、失われないようにしなければならない。
被写体の異なる情報をそれぞれ含む異なる種類の複数の入力画像に対して、圧縮効率および圧縮品質の両方のバランスが取れたエンコーディング技術が要求されている。
本発明のある局面に従えば、複数の入力画像をエンコーディングする方法が提供される。当該方法は、被写体の第1の情報を含む複数の第1の入力画像と、複数の第1の入力画像にそれぞれ対応する、被写体の第1の情報とは異なる第2の情報を含む複数の第2の入力画像とを取得するステップと、第1の入力画像について、他の第1の入力画像および第2の入力画像の少なくとも一方に含まれる情報から第1の予測画像を算出するステップと、第1の入力画像と対応する第1の予測画像との差分から第1の残差画像を生成するステップと、第1の残差画像の画素値に基づいて、第1の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定するステップと、第1の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、第2の入力画像について、他の第2の入力画像および第1の入力画像の少なくとも一方に含まれる情報から第2の予測画像を算出するステップと、第2の入力画像と対応する第2の予測画像との差分から第2の残差画像を生成するステップと、第2の残差画像の画素値に基づいて、第2の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定するステップと、第2の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、変換後の第1の残差画像と、変換後の第2の残差画像と、第1の残差画像および第2の残差画像のそれぞれにおける剰余で定義すべき領域を特定する付加情報とをエンコーディングするステップとを含む。
好ましくは、剰余に変換するステップは、剰余で定義すべき領域についての画素値に対してモジュロ演算を実行するステップと、予測画像の勾配情報を取得するステップと、勾配強度とモジュロ演算の法となる値との予め定められた対応関係を参照して、取得した勾配情報に基づいてモジュロ演算の法となる値を決定するステップとを含む。
好ましくは、第1の予測画像を算出するステップは、算出対象の第1の入力画像に対応する第2の入力画像と、先行の1つ以上の第1の入力画像とを用いて、第1の予測画像を算出するステップを含む。
あるいは好ましくは、第2の予測画像を算出するステップは、算出対象の第2の入力画像に対応する第1の入力画像についての動きデータを用いて、第2の予測画像を算出するステップを含み、第1の入力画像についての動きデータは、先行の第1の入力画像と算出対象の第1の入力画像との間の変化成分を示す。
好ましくは、第2の予測画像を算出するステップは、算出対象の第2の入力画像と、先行の1つ以上の第2の入力画像とを用いて、第2の予測画像を算出するステップを含む。
本発明の別の局面に従えば、複数の入力画像をエンコーディングするプログラムが提供される。当該プログラムは、コンピュータに、被写体の第1の情報を含む複数の第1の入力画像と、複数の第1の入力画像にそれぞれ対応する、被写体の第1の情報とは異なる第2の情報を含む複数の第2の入力画像とを取得するステップと、第1の入力画像について、他の第1の入力画像および第2の入力画像の少なくとも一方に含まれる情報から第1の予測画像を算出するステップと、第1の入力画像と対応する第1の予測画像との差分から第1の残差画像を生成するステップと、第1の残差画像の画素値に基づいて、第1の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定するステップと、第1の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、第2の入力画像について、他の第2の入力画像および第1の入力画像の少なくとも一方に含まれる情報から第2の予測画像を算出するステップと、第2の入力画像と対応する第2の予測画像との差分から第2の残差画像を生成するステップと、第2の残差画像の画素値に基づいて、第2の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定するステップと、第2の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、変換後の第1の残差画像と、変換後の第2の残差画像と、第1の残差画像および第2の残差画像のそれぞれにおける剰余で定義すべき領域を特定する付加情報とをエンコーディングするステップとを実行させる。
本発明のさらに別の局面に従えば、複数の入力画像をエンコーディングする装置が提供される。当該装置は、被写体の第1の情報を含む複数の第1の入力画像と、複数の第1の入力画像にそれぞれ対応する、被写体の第1の情報とは異なる第2の情報を含む複数の第2の入力画像とを取得する手段と、第1の入力画像について、他の第1の入力画像および第2の入力画像の少なくとも一方に含まれる情報から第1の予測画像を算出する手段と、第1の入力画像と対応する第1の予測画像との差分から第1の残差画像を生成する手段と、第1の残差画像の画素値に基づいて、第1の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定する手段と、第1の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換する手段と、第2の入力画像について、他の第2の入力画像および第1の入力画像の少なくとも一方に含まれる情報から第2の予測画像を算出する手段と、第2の入力画像と対応する第2の予測画像との差分から第2の残差画像を生成する手段と、記第2の残差画像の画素値に基づいて、第2の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定する手段と、第2の残差画像の剰余で定義すべきとされた領域に含まれる画素値を剰余に変換する手段と、変換後の第1の残差画像と、変換後の第2の残差画像と、第1の残差画像および第2の残差画像のそれぞれにおける剰余で定義すべき領域を特定する付加情報とをエンコーディングする手段とを実行させる。
本発明によれば、被写体の異なる情報をそれぞれ含む異なる種類の複数の入力画像に対して、圧縮効率および圧縮品質のバランスが取れたエンコーディング技術を実現できる。
本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。
[A.応用例]
まず、本発明の実施の形態に係るエンコーディング/デコーディングシステムについての理解を容易化するために、典型的な応用例について説明する。なお、当然のことながら、本発明の実施の形態に係るエンコーディング/デコーディングシステムの応用範囲は、以下に示す構成に限定されるものではなく、任意の構成に応用できる。また、エンコーディングおよびデコーディングのいずれか一方のみを実行する方法、装置、プログラム、そのプログラムを格納する記憶媒体などについても、本願発明の範囲に含まれ得る。
まず、本発明の実施の形態に係るエンコーディング/デコーディングシステムについての理解を容易化するために、典型的な応用例について説明する。なお、当然のことながら、本発明の実施の形態に係るエンコーディング/デコーディングシステムの応用範囲は、以下に示す構成に限定されるものではなく、任意の構成に応用できる。また、エンコーディングおよびデコーディングのいずれか一方のみを実行する方法、装置、プログラム、そのプログラムを格納する記憶媒体などについても、本願発明の範囲に含まれ得る。
図1は、本発明の実施の形態に係るエンコーディング/デコーディングシステムを含む立体映像再生システム1を示す図である。図1を参照して、立体映像再生システム1では、複数のカメラ10からなるカメラアレイを用いて被写体2を撮像することで多視点映像が生成される。多視点映像は、複数の視点からそれぞれ被写体2を撮像して得られた画像群に相当する。この多視点映像は、送信機として機能する情報処理装置100においてエンコーディングされた上で伝送される。そして、受信機として機能する情報処理装置200においてエンコーディングによって生成されたデータがデコーディングされて、立体表示装置300でその被写体2が再現される。すなわち、立体表示装置300は、被写体2の立体映像を表示する。なお、送信機から受信機へのデータ伝送については、有線および無線を問わず任意の媒体を用いることができる。
本発明の実施の形態においては、互いに関連する異なる種類の画像群に対してエンコーディングが実行される。典型例として、カメラアレイによって取得された多視点映像から、複数の映像と複数の奥行情報(depth map)とを生成し、それぞれに対してエンコーディングが実行される。映像は、各視点における輝度情報または色情報(すなわち、各カラーコンポーネントの濃淡情報)を含み、奥行情報は、撮像された視点から画像内の各点までの距離(奥行き)の情報を含む。典型的には、映像は、カラーコンポーネントの別に定義された濃淡画像(濃淡値のマップ)を含み、奥行情報は、各画素位置における距離が画素値として定義されている濃淡画像(濃淡値のマップ)を含む。
送信機として機能する情報処理装置100は、入力される画像に対する前処理を実行するプリプロセッサー110と、映像に対するエンコーディングを実行するエンコーダー120と、奥行情報に対するエンコーディングを実行するエンコーダー140とを含む。プリプロセッサー110が実行する前処理としては、映像信号から奥行情報を生成する処理を含む。エンコーダー120とエンコーダー140とは互いに情報を共有することで、エンコーディングを実行する。このようなエンコーダー間で情報共有できる機構を採用することで、画像間の関連性(つまり、冗長性)に利用して、より効率的な圧縮処理を実現する。
情報処理装置100において実行される各エンコーディングは、後述するように、データフォーマット変換およびデータ圧縮の処理を含む。すなわち、本発明の実施の形態に係るエンコーダーは、データフォーマット変換およびデータ圧縮を並列的に実行する。
一方、受信機として機能する情報処理装置200は、受信したデータに対してデコーディングを実行するデコーダー210および230と、後処理を実行するポストプロセッサー240とを含む。デコーダー210は、受信したデータに含まれる映像に関するデータに対してデコーディングを行ない、デコーダー230は、受信したデータに含まれる奥行情報に関するデータに対してデコーディングを行なう。上述したような情報を共有したエンコーディングに対応して、デコーダー210とデコーダー230とは互いに情報を共有して、デコーディングを実行する。ポストプロセッサー240は、デコーダー210および230によるデコーディング結果に対して所定の処理を実行することで、立体表示装置300が被写体2を再現するための信号をプロジェクターアレイ302の別に生成する。
情報処理装置200において実行される各デコーディングは、後述するように、データフォーマット逆変換およびデータ復元の処理を含む。すなわち、本発明の実施の形態に係るデコーダーは、データフォーマット逆変換およびデータ復元を並列的に実行する。
立体表示装置300は、主として拡散フィルム312および集光レンズ314で構成される表示スクリーン310と、表示スクリーン310に多視点映像を投影するプロジェクターアレイ302とを含む。プロジェクターアレイ302を構成する各プロジェクターは、情報処理装置200から出力される多視点映像の対応する視点の画像を表示スクリーン310へ投影する。
このような立体映像再生システム1によれば、表示スクリーン310の前にいる観察者には被写体2の再生立体像が提供される。このとき、表示スクリーン310と観察者との相対的な位置に応じて、観察者の視野に入る視点の画像が変化するようになっており、観察者は、あたかも被写体2の前にいるような体験が得られる。
このような立体映像再生システム1は、一般用途としては、映画館やアミューズメント施設などで利用され、産業用途としては、遠隔医療システム、工業デザイン設計システム、パブリックビューイング等の電子広告システムとして利用されることが期待されている。
[B.関連技術(その1)]
まず、本発明の実施の形態に係るエンコーディング/デコーディングシステムに関連する技術について説明する。動画像の圧縮規格の一つである、MPEG−4 AVC(ITU-T Recommendation H.264|ISO/IEC 14496-10 Advanced Video Coding)のエンコーディングおよびデコーディングについて説明する。
まず、本発明の実施の形態に係るエンコーディング/デコーディングシステムに関連する技術について説明する。動画像の圧縮規格の一つである、MPEG−4 AVC(ITU-T Recommendation H.264|ISO/IEC 14496-10 Advanced Video Coding)のエンコーディングおよびデコーディングについて説明する。
図2は、本発明の関連技術に係るエンコーダー820の機能ブロック図である。図3は、本発明の関連技術に係るデコーダー910の機能ブロック図である。
先に、図2を参照してエンコーディングについて説明する。図2に示すエンコーダー820では、入力ソースからの動画像(すなわち、時間領域に配置されたフレーム列)である映像信号の各フレームが複数のマクロブロック(Macroblock)に分割され、各マクロブロックは、イントラフレーム予測(intra flame prediction)、または、インターフレーム予測(inter flame prediction)を用いて補間される。イントラフレーム予測は、同一フレームの他のマクロブロックから対象のマクロブロックを補間する方法である。一方、インターフレーム予測は、前方向予測、後方向予測、および両方向予測のいずれかを用いて、他のフレームの情報から対象のマクロブロックを補間する方法である。
すなわち、エンコーダー820は、同一または近似するフレームの情報との関連性(つまり、冗長性)に注目して、データ圧縮を行なう。
より具体的には、エンコーダー820は、入力バッファ8202と、分割部8204と、減算部8206と、直交変換・量子化部8208と、ローカルデコーダー8210と、制御部8230と、動き推定部8240と、出力バッファ8242と、エントロピー符号化部8250とを含む。
入力バッファ8202は、入力ソースからの映像信号を一時的に格納する。分割部8204は、入力バッファ8202に格納された映像信号を複数のマクロブロック(N×N画素)に分割する。分割部8204からの出力は、減算部8206、制御部8230、および動き推定部8240へ与えられる。
減算部8206は、分割部8204からの各マクロブロックに対して、先に算出されている補間情報(イントラフレーム予測またはインターフレーム予測)を減じることで、残差の情報を算出する。すなわち、減算部8206は、オリジナル画像(original image)から予測画像(predicted image)を減じることで、残差画像(residual image)を生成する。この残差画像の生成処理は、典型的には、マクロブロック単位で実行される。
直交変換・量子化部8208は、減算部8206からの残差画像に対して、直交変換(典型的には、離散フーリエ変換)および量子化を実行する。直交変換・量子化部8208は、スケーリングも実行する。直交変換・量子化部8208からの量子化後の変換係数は、ローカルデコーダー8210およびエントロピー符号化部8250へ出力される。
ローカルデコーダー8210は、後続のフレーム(のマクロブロック)に対する補間情報を算出する。より具体的には、ローカルデコーダー8210は、逆直交変換・スケーリング部8212と、加算部8214と、デブロックフィルター8216と、イントラフレーム予測部8218と、動き補償部8220と、切換部8222とを含む。
逆直交変換・スケーリング部8212は、直交変換・量子化部8208からの量子化後の変換係数に対して、逆直交変換およびスケーリングを実行する。すなわち、逆直交変換・スケーリング部8212は、減算部8206から出力される残差画像を復元する。加算部8214は、逆直交変換・スケーリング部8212からの残差画像と、先に算出されている予測画像(補間情報)とを加算する。デブロックフィルター8216は、加算部8214からの加算結果に対して、ブロックノイズの発生を抑制するためにブロック境界を平滑化する。
すなわち、逆直交変換・スケーリング部8212、加算部8214、およびデブロックフィルター8216によって、入力バッファ8202から与えられたオリジナル画像が復元される。そして、この復元されたオリジナル画像の情報がイントラフレーム予測部8218および動き補償部8220へ与えられる。
イントラフレーム予測部8218は、隣接するマクロブロックに基づいて予測画像を生成する。
動き補償部8220は、インターフレーム予測(フレーム間予測)を用いて、予測画像を生成する。より具体的には、動き補償部8220は、復元されたオリジナル画像と動き推定部8240からの動きデータとに基づいて、予測画像を生成する。
イントラフレーム予測部8218および動き補償部8220のそれぞれで生成された予測画像は、切換部8222によっていずれか一方が適宜選択されて、減算部8206へ与えられる。
動き推定部8240は、分割部8204からの各マクロブロックと、1フレーム前の復元されたオリジナル画像の情報とに基づいて、動きデータ(典型的には、動きベクトル)を算出する。この算出される動きデータは、動き補償部8220およびエントロピー符号化部8250へ出力される。
制御部8230は、直交変換・量子化部8208、逆直交変換・スケーリング部8212、切換部8222、および、動き推定部8240における処理を制御する。また、制御部8230は、制御データとして、符号化に係るパラメータや各コンポーネントに対する符号化の順序などを指示する。
エントロピー符号化部8250は、直交変換・量子化部8208からの量子化後の変換係数、動き推定部8240からの動きデータ、および制御部8230からの制御データに対して、エントロピー符号化を行ない、その結果としてビットストリームを出力する。この出力されるビットストリームが入力された映像信号についてのエンコーディング結果となる。
出力バッファ8242は、必須の構成ではないが、デブロックフィルター8216からの復元されたオリジナル画像(映像)を一時的に格納する。
次に、図3を参照してデコーディングについて説明する。図3に示すデコーダー910では、図2に示すエンコーダー820からのビットストリームからオリジナル画像を復元する。基本的には、図2に示すエンコーダー820におけるエンコーディングの逆変換を行なう。より具体的には、デコーダー910は、入力バッファ9102と、エントロピー復号部9104と、逆直交変換・スケーリング部9112と、加算部9114と、デブロックフィルター9116と、イントラフレーム予測部9118と、動き補償部9120と、切換部9122と、制御部9130と、出力バッファ9142とを含む。
入力バッファ9102は、エンコーダー820からのビットストリームを一時的に格納する。エントロピー復号部9104は、入力バッファ9102からのビットストリームに対してエントロピー復号を行ない、その結果として、動きデータ、量子化後の変換係数、および制御データを出力する。
逆直交変換・スケーリング部9112は、エントロピー復号部9104で復号された量子化後の変換係数に対して、逆直交変換(典型的には、離散フーリエ逆変換)およびスケーリングを実行する。これらの処理によって、残差画像が復元される。
加算部9114は、逆直交変換・スケーリング部9112からの残差画像と、先に算出されている予測画像(補間情報)とを加算する。デブロックフィルター9116は、加算部9114からの加算結果に対して、ブロックノイズの発生を抑制するためにブロック境界を平滑化する。
イントラフレーム予測部9118は、隣接するマクロブロックに基づいて予測画像を生成する。
動き補償部9120は、インターフレーム予測(フレーム間予測)を用いて、予測画像を生成する。より具体的には、動き補償部9120は、復元されたオリジナル画像と、エントロピー復号部9104で復号された動きデータとに基づいて、予測画像を生成する。
イントラフレーム予測部9118および動き補償部9120のそれぞれで生成された予測画像は、切換部9122によっていずれか一方が適宜選択されて、加算部9114へ与えられる。
制御部9130は、エントロピー復号部9104で復号された制御データに基づいて、逆直交変換・スケーリング部9112および切換部9122における処理を制御する。
出力バッファ9142は、デブロックフィルター9116からの復元されたオリジナル画像(映像)を一時的に格納する。
動画像の圧縮規格の一つであるMPEG−4 AVCにおいては、上述のような、エンコーディング/デコーディングシステムによって、データ圧縮した状態で動画像の伝送を実現する。
[C.関連技術(その2)]
次に、奥行情報付加の多視点映像(Multiview Video Plus Depth:以下「MVD」とも称す。)に向けられたエンコーディング/デコーディングシステムについて説明する。図4は、本発明の関連技術に係る多視点映像に対するエンコーディングに向けられた構成を示す機能ブロック図である。図5は、本発明の関連技術に係る多視点映像に対するデコーディングに向けられた構成を示す機能ブロック図である。
次に、奥行情報付加の多視点映像(Multiview Video Plus Depth:以下「MVD」とも称す。)に向けられたエンコーディング/デコーディングシステムについて説明する。図4は、本発明の関連技術に係る多視点映像に対するエンコーディングに向けられた構成を示す機能ブロック図である。図5は、本発明の関連技術に係る多視点映像に対するデコーディングに向けられた構成を示す機能ブロック図である。
図4に示す構成においては、MVDを構成する多視点映像および対応する多視点奥行情報が入力データとして与えられる。エンコーダー820は、多視点映像をエンコーディングし、エンコーダー840は、多視点奥行情報をエンコーディングする。エンコーダー820とエンコーダー840とは、互いに連係してエンコーディングを実行する。すなわち、図4には、多視点映像および多視点奥行情報を統合的に符号化する構成を示す。このスキームによれば、エンコーダー間で情報を共有することができ、これによって、符号化効率をより高めることができる。
エンコーダー820は、図2に示すエンコーダー820と実質的に同一の構成を有している。但し、図4に示すエンコーダー820は、多視点映像に対してエンコーディングを行なう。エンコーダー840は、エンコーダー820と同様の構成となっている。但し、エンコーダー840は、多視点奥行情報に対してエンコーディングを行なう。
具体的には、エンコーダー840は、入力バッファ8402と、分割部8404と、減算部8406と、直交変換・量子化部8408と、ローカルデコーダー8410と、制御部8430と、動き推定部8440と、出力バッファ8442と、エントロピー符号化部8450とを含む。そして、ローカルデコーダー8410は、逆直交変換・スケーリング部8412と、加算部8414と、デブロックフィルター8416と、イントラフレーム予測部8418と、動き補償部8420と、切換部8422とを含む。
また、MVDをエンコーディングして得られるビットストリームからMVDを復元する場合には、図5に示すような構成が用いられる。図5に示す構成は、図4に示す2つのエンコーダー820および840に対応して、2つのデコーダー910および930を含む。デコーディングにおいても、デコーダー910とデコーダー930とは互いに連係する。
MVDに対するエンコーディングにおいて、統合的な符号化(joint coding)を実現する方法として様々な手法が考えられる。しかしながら、現時点においては、その具体的な手法については、十分に定められているわけではない。基本的な考え方として、例えば、非特許文献3に開示されるような、動き推定の情報(典型的には、動きベクトル)をエンコーダー間で共有するような手法が提案されている。これは、映像および奥行情報は、同一の被写体を撮像して取得されるため、両者は同期することになるからである。
[D.概要]
本発明の実施の形態に係るエンコーディング/デコーディングシステムは、典型的には、MVDのような、被写体の第1の情報(輝度情報)を含む複数の第1の入力画像(多視点映像/多視点画像)と、複数の第1の入力画像にそれぞれ対応する、被写体の第1の情報とは異なる第2の情報(奥行情報)を含む複数の第2の入力画像(多視点奥行情報/多視点Depthマップ)といった、複数の入力画像をエンコーディングする。但し、MVDに限定されることなく、互いにその情報を共有することが可能な複数種類の入力画像群(典型的には、一対の入力画像群)に対して、エンコーディングおよびデコーディングが可能になっている。そのため、映像と奥行情報との組み合わせに限らず、他の情報の組み合わせを含む画像群に対して適用可能である。
本発明の実施の形態に係るエンコーディング/デコーディングシステムは、典型的には、MVDのような、被写体の第1の情報(輝度情報)を含む複数の第1の入力画像(多視点映像/多視点画像)と、複数の第1の入力画像にそれぞれ対応する、被写体の第1の情報とは異なる第2の情報(奥行情報)を含む複数の第2の入力画像(多視点奥行情報/多視点Depthマップ)といった、複数の入力画像をエンコーディングする。但し、MVDに限定されることなく、互いにその情報を共有することが可能な複数種類の入力画像群(典型的には、一対の入力画像群)に対して、エンコーディングおよびデコーディングが可能になっている。そのため、映像と奥行情報との組み合わせに限らず、他の情報の組み合わせを含む画像群に対して適用可能である。
すなわち、多視点映像および多視点奥行情報の統合的な符号化を考慮して、本発明の実施の形態に係るエンコーディング/デコーディングシステムでは、映像に対するエンコーダーおよび奥行情報に対するエンコーダーのそれぞれにおいてデータフォーマット変換の処理が組み込まれる。例えば、データフォーマットタイプに関する情報がエンコーダー群からデコーダー群へ伝送される。このような情報を付加することによって、従来の装置および既存の規格との互換性を確保できる。
本発明の実施の形態に係るエンコーディング/デコーディングシステムは、上述したような既存の規格に組み込むことができるデータフォーマット変換処理を含む。本発明の実施の形態に係るエンコーディング/デコーディングシステムでは、剰余という概念を導入してデータ圧縮効率をより高める。
より具体的には、上述した関連技術に係る構成では、データ圧縮を実現するために、オリジナル画像と予測画像との間の差分に相当する残差で各画素値を定義したデータフォーマットを採用している。これに対して、本発明の実施の形態においては、「剰余」で各画素値を定義したデータフォーマットを採用する。この剰余は、ある算出された値を所定の整数値で除算して得られる余り(整数値)として定義される。このとき、商も整数になる。より具体的には、剰余は、モジュロ(modulo)演算によって算出される。剰余の算出手順などについては、後に詳述する。
本発明の実施の形態においては、代表的には、残差に代えて剰余のみで定義するデータフォーマット、または、剰余と残差とを組み合せて定義するデータフォーマットを採用し得る。すなわち、本発明の実施の形態においては、既存の規格で用いられる残差だけではなく、剰余を用いることで、データ圧縮の効率を高めるとともに、その品質も向上させることができる。
さらに、本発明の実施の形態に係るエンコーディング/デコーディングシステムは、映像についての動きデータおよび奥行情報を共有することで、データの圧縮効率をより向上させることができる。
[E.エンコーダー群の機能構成]
まず、本発明の実施の形態に係るエンコーディング/デコーディングシステムを構成するエンコーダー群の機能構成について説明する。図6は、本発明の実施の形態に係るエンコーダー群の機能ブロック図である。図6を参照して、本発明の実施の形態に係るエンコーディングでは、MVDを構成する多視点映像および対応する多視点奥行情報が入力データとして与えられる。図1に示すエンコーダー120は、多視点映像をエンコーディングし、エンコーダー140は、多視点奥行情報をエンコーディングする。エンコーダー120および140は、互いに情報を共有しつつエンコーディングを行なう。基本的な構成は、エンコーダー120とエンコーダー140との間で共通している。
まず、本発明の実施の形態に係るエンコーディング/デコーディングシステムを構成するエンコーダー群の機能構成について説明する。図6は、本発明の実施の形態に係るエンコーダー群の機能ブロック図である。図6を参照して、本発明の実施の形態に係るエンコーディングでは、MVDを構成する多視点映像および対応する多視点奥行情報が入力データとして与えられる。図1に示すエンコーダー120は、多視点映像をエンコーディングし、エンコーダー140は、多視点奥行情報をエンコーディングする。エンコーダー120および140は、互いに情報を共有しつつエンコーディングを行なう。基本的な構成は、エンコーダー120とエンコーダー140との間で共通している。
多視点映像をエンコーディングするためのエンコーダー120は、入力バッファ1202と、分割部1204と、データフォーマット変換部1206と、直交変換・量子化部1208と、ローカルデコーダー1210と、制御部1230と、動き推定部1240と、出力バッファ1242と、エントロピー符号化部1250とを含む。また、ローカルデコーダー1210は、逆直交変換・スケーリング部1212と、データフォーマット逆変換部1214と、デブロックフィルター1216と、イントラフレーム予測部1218と、動き補償部1220と、切換部1222とを含む。
一方、多視点奥行情報をエンコーディングするためのエンコーダー140は、入力バッファ1402と、分割部1404と、データフォーマット変換部1406と、直交変換・量子化部1408と、ローカルデコーダー1410と、制御部1430と、動き推定部1440と、出力バッファ1442と、エントロピー符号化部1450とを含む。また、ローカルデコーダー1410は、逆直交変換・スケーリング部1412と、データフォーマット逆変換部1414と、デブロックフィルター1416と、イントラフレーム予測部1418と、動き補償部1420と、切換部1422とを含む。
概略すると、エンコーダー120は、図2および図4に示すエンコーダー820に比較して、残差画像を生成する減算部8206に代えてデータフォーマット変換部1206が設けられ、オリジナル画像を復元するための加算部8214に代えてデータフォーマット逆変換部1214が設けられている点が主として異なっている。同様に、エンコーダー140は、図4に示すエンコーダー840に比較して、残差画像を生成する減算部8406に代えてデータフォーマット変換部1406が設けられ、オリジナル画像を復元するための加算部8414に代えてデータフォーマット逆変換部1414が設けられている点が主として異なっている。但し、これらの構造の変更に伴って、制御部1230および1430の動作も制御部8230および8430とはそれぞれ異なったものとなっている。
さらに、エンコーダー120とエンコーダー140との情報共有に伴って、動き推定部1240および1440での処理も動き推定部8240および8440とはそれぞれ異なったものとなっている。
一方、入力バッファ1202および1402、分割部1204および1404、直交変換・量子化部1208および1408、動き推定部1240および1240、出力バッファ1242および1442、ならびに、エントロピー符号化部1250および1450の機能は、図4に示す入力バッファ8202および8402、分割部8204および8404、直交変換・量子化部8208および8408、動き推定部8240および8440、出力バッファ8242および8442、ならびに、エントロピー符号化部8250および8450にそれぞれ類似したものとなっている。また、ローカルデコーダー1210および1410の逆直交変換・スケーリング部1212および1412、デブロックフィルター1216および1416、イントラフレーム予測部1218および1418、ならびに、切換部1222および1422の機能は、図4に示すローカルデコーダー8210および8410の逆直交変換・スケーリング部8212および8412、デブロックフィルター8216および8416、イントラフレーム予測部8218および8418、ならびに、切換部8222および8422にそれぞれ類似したものとなっている。
[F.エンコーダー120および140における処理]
次に、エンコーダー120および140における処理について説明する。図6を参照して、入力ソースからの映像信号が入力バッファ1202へ与えられ、対応する奥行情報が入力バッファ1402へ与えられる。典型的に、映像として、複数のカメラ10(カメラアレイ)によって撮像された多視点映像が入力され、奥行情報として、対応する多視点奥行情報が入力される。但し、このようなMVDに限られず、単一のカメラ10によって撮像された単視点映像および対応する奥行情報であってもよい。
次に、エンコーダー120および140における処理について説明する。図6を参照して、入力ソースからの映像信号が入力バッファ1202へ与えられ、対応する奥行情報が入力バッファ1402へ与えられる。典型的に、映像として、複数のカメラ10(カメラアレイ)によって撮像された多視点映像が入力され、奥行情報として、対応する多視点奥行情報が入力される。但し、このようなMVDに限られず、単一のカメラ10によって撮像された単視点映像および対応する奥行情報であってもよい。
入力バッファ1202には、これらの映像信号が一時的に格納され、これらの全部または一部が入力データとして分割部1204へ与えられる。同様に、入力バッファ1402には、これらの奥行情報が一時的に格納され、これらの全部または一部が入力データとして分割部1404へ与えられる。
分割部1204は、入力バッファ1202から出力される映像信号に含まれる各フレームを複数のマクロブロック(N×N画素)に分割する。同様に、分割部1404は、入力バッファ1402から出力される奥行情報に含まれる各フレームを複数のマクロブロック(N×N画素)に分割する。これは、適切な画像サイズを処理単位とすることで、予測処理を高速化するものである。但し、情報処理装置の演算能力や要求される処理時間などを考慮して、マクロブロックに分割することなく、1フレームをそのまま処理してもよい。分割された各マクロブロックは、データフォーマット変換部1206および1406へそれぞれ与えられる。
データフォーマット変換部1206は、分割部1204からのマクロブロックと、イントラフレーム予測部1218または動き補償部1220からの動き補償マクロブロックとを用いて、データフォーマット変換を行なう。同様に、データフォーマット変換部1406は、分割部1404からのマクロブロックと、イントラフレーム予測部1418または動き補償部1420からの動き補償マクロブロックとを用いて、データフォーマット変換を行なう。
より具体的には、動き補償マクロブロックは、先行の1つ以上の入力画像から後続の入力画像に含まれる変化成分を示す動き画像に相当し、イントラフレーム予測部1218または動き補償部1220は、映像について、この動き画像を推定する。まず、データフォーマット変換部1206は、後続の入力画像と推定された動き画像との差分から残差画像を生成する。そして、データフォーマット変換部1206は、残差画像の画素値に基づいて、残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定する。データフォーマット変換部1206は、特定された剰余で定義すべき領域についての画素値を剰余に変換する。このような手順によって、変換後の残差画像がデータフォーマット変換後の画像として出力される。同様に、データフォーマット変換部1406は、奥行情報について、同様の処理を実行する。
このデータフォーマット変換において、一部または全部の画素値を剰余で定義したマクロブロックが生成される。このデータフォーマット変換の詳細な手順については、後述する。
イントラフレーム予測部1218または動き補償部1220から与えられる対応する動き補償マクロブロックは、データフォーマット変換部1206によって生成されるマクロブロックからオリジナルマクロブロックを再構成するためのサイド情報(side information)として利用される。同様に、イントラフレーム予測部1418または動き補償部1420から与えられる対応する動き補償マクロブロックは、データフォーマット変換部1406によって生成されるマクロブロックからオリジナルマクロブロックを再構成するためのサイド情報として利用される。
映像についてのデータフォーマット変換後のマクロブロックが直交変換・量子化部1208へ与えられる。直交変換・量子化部1208は、直交変換、量子化、およびスケーリングを実行することで、入力されたデータフォーマット変換後のマクロブロックをさらに最適化する。直交変換としては、典型的には、離散フーリエ変換が採用される。量子化において用いられる量子化テーブルおよびスケーリングにおいて用いられるスケーリング係数については、データフォーマット変換部1206におけるデータフォーマット変換のタイプを示すデータフォーマットタイプ(type)に応じて最適化されてもよい。なお、データフォーマット変換部1206において、いくつかのデータフォーマット変換が可能であり、これらのデータフォーマット変換の種類の一例については、後に詳述する。
直交変換・量子化部1208からの量子化後の変換係数は、ローカルデコーダー1210(逆直交変換・スケーリング部1212)およびエントロピー符号化部1250へ出力される。同様に、直交変換・量子化部1408は、奥行情報についてのデータフォーマット変換後のマクロブロックに対して、直交変換、量子化、およびスケーリングを実行する。
逆直交変換・スケーリング部1212は、直交変換・量子化部1208からの、映像についての量子化後の変換係数に対して、逆直交変換およびスケーリングを実行する。すなわち、逆直交変換・スケーリング部1212は、直交変換・量子化部1208における変換処理とは逆の処理を実行し、データフォーマット変換後のマクロブロックを復元する。さらに、データフォーマット逆変換部1214は、復元されたデータフォーマット変換後のマクロブロックに対して、データフォーマット逆変換を実行し、分割された各マクロブロックを復元する。同様に、逆直交変換・スケーリング部1412は、直交変換・量子化部1408からの、奥行情報についての量子化後の変換係数に対して、逆直交変換およびスケーリングを実行する。
デブロックフィルター1216および1416は、それぞれデータフォーマット逆変換部1214および1414からの復元されたマクロブロックに対して、ブロックノイズの発生を抑制するためにブロック境界を平滑化する。
すなわち、逆直交変換・スケーリング部1212、データフォーマット逆変換部1214、およびデブロックフィルター1216によって、オリジナル映像が復元される。そして、この復元されたオリジナル画像がイントラフレーム予測部1218および動き補償部1220へ与えられる。同様に、逆直交変換・スケーリング部1412、データフォーマット逆変換部1414、およびデブロックフィルター1416によって、オリジナルの奥行情報が復元される。
イントラフレーム予測部1218は、隣接するマクロブロックに基づいて予測画像(以下「イントラマクロブロック」とも称す。)を生成する。動き補償部1220は、インターフレーム予測(フレーム間予測)を用いて、予測画像(以下「インターマクロブロック」とも称す。)を生成する。これらの予測画像が動き補償マクロブロックとなる。
エンコーダー120およびエンコーダー140との間には、どのようなタイプの情報が共有されているのかを互いに示すコネクションが設けられている。このような共有される情報を互いに通知するためのパラメータなどについては、後述する。
動き推定部1240は、映像についての動きデータを推定し、動き推定部1440は、奥行情報についての動きデータを推定する。これらの動きデータとしては、典型的には、動きベクトルが用いられる。
動き推定部1240は、基本的には、分割部1204からの各マクロブロックに分割されたオリジナル映像と、1フレーム前の復元されたオリジナル映像とに基づいて、映像についての動きデータを推定する。この映像についての動きデータの推定精度を高めるために、対応する奥行情報が利用される。より具体的には、動き推定部1240は、(典型的には、空間方向についての)動きデータの推定に、その処理対象フレームと同一のフレームにおけるエンコーダー140からの奥行情報を用いる。
同様に、動き推定部1440は、基本的には、分割部1404からの各マクロブロックに分割された奥行情報と、1フレーム前の復元された奥行情報とに基づいて、奥行情報についての動きデータを推定する。動き推定部1440における奥行情報についての(空間方向および/または時間方向についての)動きデータの推定精度を高めるために、エンコーダー120において推定された動きデータが利用される。
これらの映像および奥行情報を共有する処理の詳細については後述する。
制御部1230は、データフォーマット変換部1206、直交変換・量子化部1208、逆直交変換・スケーリング部1212、データフォーマット逆変換部1214、切換部1222、および、動き推定部1240における処理を制御する。また、制御部1230は、制御データとして、符号化に係るパラメータや各コンポーネントに対する符号化の順序などを出力する。さらに、制御部1230は、データフォーマット変換に係る付加情報(データフォーマットタイプ(type)、しきい値、フラグなど)をエントロピー符号化部1250へ出力する。
制御部1230は、データフォーマット変換部1206、直交変換・量子化部1208、逆直交変換・スケーリング部1212、データフォーマット逆変換部1214、切換部1222、および、動き推定部1240における処理を制御する。また、制御部1230は、制御データとして、符号化に係るパラメータや各コンポーネントに対する符号化の順序などを出力する。さらに、制御部1230は、データフォーマット変換に係る付加情報(データフォーマットタイプ(type)、しきい値、フラグなど)をエントロピー符号化部1250へ出力する。
同様に、制御部1430は、データフォーマット変換部1406、直交変換・量子化部1408、逆直交変換・スケーリング部1412、データフォーマット逆変換部1414、切換部1422、および、動き推定部1440における処理を制御する。また、制御部1430は、制御データとして、符号化に係るパラメータや各コンポーネントに対する符号化の順序などを出力する。さらに、制御部1430は、データフォーマット変換に係る付加情報(データフォーマットタイプ(type)、しきい値、フラグなど)をエントロピー符号化部1450へ出力する。
さらに、制御部1230と制御部1430とは、上述したような情報を共有するために、いくつかの制御データを交換する。これによって、MVDに対する統合的な符号化を実現できる。
エントロピー符号化部1250は、変換後の残差画像と、剰余で定義すべき領域を特定する付加情報とをコーディングする。より具体的には、エントロピー符号化部1250は、直交変換・量子化部1208からの量子化後の変換係数、動き推定部1240からの動きデータ、および制御部1230からの制御データおよび付加情報に対して、エントロピー符号化を行ない、その結果として映像についてのビットストリームを生成する。この生成されるビットストリームが入力された映像信号についてのエンコーディング結果となる。同様に、エントロピー符号化部1450は、直交変換・量子化部1408からの量子化後の変換係数、動き推定部1240からの動きデータ、および制御部1430からの制御データおよび付加情報に対して、エントロピー符号化を行ない、その結果として奥行情報についてのビットストリームを出力する。
出力バッファ1242は、必須の構成ではないが、デブロックフィルター1216からの復元されたオリジナル映像を一時的に格納する。同様に、出力バッファ1442は、デブロックフィルター1416からの復元されたオリジナルの奥行情報を一時的に格納する。
以下、上述の機能構成のうち主要なコンポーネントについて、より詳細に説明する。
[G.動き推定部1240および1440における処理]
まず、図1に示すエンコーダー120とエンコーダー140との間での情報共有の一形態として、動き推定部1240および1440における動きデータの推定に係る処理について説明する。なお、映像に係るエンコーダーと奥行情報に係るエンコーダーとの間で情報を共有する方法としては、以下の方法に限られるものではない。
[G.動き推定部1240および1440における処理]
まず、図1に示すエンコーダー120とエンコーダー140との間での情報共有の一形態として、動き推定部1240および1440における動きデータの推定に係る処理について説明する。なお、映像に係るエンコーダーと奥行情報に係るエンコーダーとの間で情報を共有する方法としては、以下の方法に限られるものではない。
(g1:動き推定部1240における映像についての動きデータの推定)
動き推定部1240における映像(多視点映像)についての動きデータの推定において、多視点奥行情報が利用される。この奥行情報の利用形態としては、典型的には、以下のような方法が考えられる。
動き推定部1240における映像(多視点映像)についての動きデータの推定において、多視点奥行情報が利用される。この奥行情報の利用形態としては、典型的には、以下のような方法が考えられる。
(i)対応する奥行情報そのものを推定された動きデータとして出力する。
(ii)対応する奥行情報を推定される動きデータの初期値として取り扱い、さらに、映像の情報などを用いて調整をした上で、最終的な動きデータとして出力する。
(ii)対応する奥行情報を推定される動きデータの初期値として取り扱い、さらに、映像の情報などを用いて調整をした上で、最終的な動きデータとして出力する。
同一時間に取得されたフレーム間の差分は、対応する視点の違い(つまり、空間領域での違い)に依存する。この空間領域での違いは、対応する奥行情報と強い関連性を有するので、映像の空間方向についての動きデータとして対応する奥行情報をそのまま用いることができるという知見に基づくものである。このような奥行情報を利用することで、処理の効率化および精度向上を実現できる。
あるいは、奥行情報(多視点奥行情報)についての動きデータそのものを映像(多視点映像)についての動きデータとして用いてもよい。あるいは、対応する奥行情報についての動きデータを推定される映像の動きデータの初期値として取り扱い、さらに、映像などを用いて調整をした上で、最終的な動きデータとして出力してもよい。
(g2:動き推定部1440における奥行情報についての動きデータの推定)
動き推定部1440における奥行情報(多視点奥行情報)についての動きデータの推定において、多視点映像が利用される。この多視点映像の利用形態としては、典型的には、以下のような2つの方法が考えられる。
動き推定部1440における奥行情報(多視点奥行情報)についての動きデータの推定において、多視点映像が利用される。この多視点映像の利用形態としては、典型的には、以下のような2つの方法が考えられる。
(iii)対応する映像についての動きデータそのものを動き推定部1440から動きデータとして出力する。
(iv)対応する映像についての動きデータを推定される奥行情報の動きデータの初期値として取り扱い、さらに、奥行情報などを用いて調整をした上で、最終的な動きデータとして出力する。
すなわち、上述の(iii)および(iv)の形態においては、対応する映像についての動きデータがエンコーダー140におけるエンコーディングに用いられる。
但し、映像についての動きデータを奥行情報のエンコーディングに用いないようにしてもよい。この場合には、典型的には、以下のような2つの方法が考えられる。
(v)映像についての動きデータを用いることなく、エンコーダー140は奥行情報から動きデータを生成するとともに、その生成した動きデータをコーディングおよびデータ圧縮に用いる。
(vi)映像についての動きデータを用いることなく、エンコーダー140は奥行情報そのものを動きデータとして取り扱う。
(g3:予測画像の生成例)
上述のような情報共有によって生成される、エンコーディングに用いられる予測画像(補間情報)について説明する。
上述のような情報共有によって生成される、エンコーディングに用いられる予測画像(補間情報)について説明する。
図7は、本発明の実施の形態に係るエンコーディングによる予測画像の生成手順の一例を示す図である。図7(a)には多視点映像についての予測画像の生成手順の一例を示し、図7(b)には多視点奥行情報についての予測画像の生成手順の一例を示す。図7には、配置位置S0,S1,S2,S3,…に配置された複数のカメラ10の各々が時刻T0,T1,T2,T3,T4,T5,…に順次フレームを出力する例を示す。各フレームについての予測画像は、イントラフレーム予測、または、インターフレーム予測を用いて生成される。図7において、「I」はIフレーム(Intra-coded Frame)を示し、「P」はPフレーム(predicted frame)を示し、「B」はBフレーム(bi-directional predicted frame)に示す。なお、説明の便宜上、図7にはフレーム単位で生成手順を説明しているが、上述したようにマクロブロック単位で予測画像が生成されてもよい。
まず、基準となるフレーム(図7では、配置位置S0のカメラ10の時刻T0におけるフレーム)については、インターフレーム予測(フレーム間予測)ではなく、イントラフレーム予測を用いて予測画像(Iフレーム)が生成される。このIフレームを用いて、所定の生成順序に従って予測画像が順次生成される。
このような生成手順において、映像(多視点映像)についての動きデータの推定に多視点奥行情報が利用される場合(上述の(i)または(ii)の場合)には、対応するフレームの奥行情報が生成される予測画像に反映される。図7には、インターフレーム予測の対象となるフレーム(配置位置S2のカメラ10の時刻T0におけるフレーム)に対して、対応する奥行情報(時刻T0かつ配置位置S2)が反映される。
一方、奥行情報(多視点奥行情報)についての動きデータの推定に多視点映像が利用される場合(上述の(iii)または(iv)の場合)には、対応するフレームの動きデータが生成される予測画像に反映される。図7には、インターフレーム予測の対象となるフレーム(配置位置S2のカメラ10の時刻T0におけるフレーム)に対して、対応する映像についての動きデータ(時刻T0かつ配置位置S2)が反映される。
(g4:その他の例)
映像のマクロブロックが十分なテクスチャーを有していない場合には、奥行情報そのものを映像の対応する各マクロブロックの動きデータとして用いてもよい。なお、映像のマクロブロックのテクスチャーの量は、その疑似勾配マクロブロックにしきい値を適用することで、決定してもよい。この場合、映像の動きデータを生成するためには、不足している領域の情報を生成する必要がある。この不足している領域の情報は、奥行情報または奥行情報の動きデータを初期値として用いることで推定することで生成できる。あるいは、この不足している領域の情報を映像の情報からのみ推定することで生成してもよい。また、奥行情報についても同様の手法を適用できる。
映像のマクロブロックが十分なテクスチャーを有していない場合には、奥行情報そのものを映像の対応する各マクロブロックの動きデータとして用いてもよい。なお、映像のマクロブロックのテクスチャーの量は、その疑似勾配マクロブロックにしきい値を適用することで、決定してもよい。この場合、映像の動きデータを生成するためには、不足している領域の情報を生成する必要がある。この不足している領域の情報は、奥行情報または奥行情報の動きデータを初期値として用いることで推定することで生成できる。あるいは、この不足している領域の情報を映像の情報からのみ推定することで生成してもよい。また、奥行情報についても同様の手法を適用できる。
[H.データフォーマット変換部1206および1406における処理]
次に、本発明の実施の形態に係るデータフォーマット変換部1206および1406における処理について詳述する。なお、データフォーマット変換部1206および1406における処理は実質的に同一であるので、説明の便宜上、以下では、データフォーマット変換部1206について説明する。
次に、本発明の実施の形態に係るデータフォーマット変換部1206および1406における処理について詳述する。なお、データフォーマット変換部1206および1406における処理は実質的に同一であるので、説明の便宜上、以下では、データフォーマット変換部1206について説明する。
(h1:データフォーマットタイプ)
上述したように、本発明の実施の形態においては、剰余のみで定義する構成、および剰余と残差とを組み合せて定義する構成の両方を採用し得る。後者の場合には、さらに、(1)画素単位での剰余と残差との組み合わせ、および、(2)マクロブロック単位での剰余と残差(あるいは、すべてゼロ)との組み合わせの両方を採用し得る。
上述したように、本発明の実施の形態においては、剰余のみで定義する構成、および剰余と残差とを組み合せて定義する構成の両方を採用し得る。後者の場合には、さらに、(1)画素単位での剰余と残差との組み合わせ、および、(2)マクロブロック単位での剰余と残差(あるいは、すべてゼロ)との組み合わせの両方を採用し得る。
図8は、本発明の実施の形態に係る剰余と残差との組み合わせ手法を説明するための図である。図8(a)には、画素単位で剰余と残差との組み合わせを行なう手法を示し、図8(b)には、マクロブロック単位で剰余と残差との組み合わせを行なう手法を示す。なお、図8において、「Rem」は剰余を示し、「Res」は残差を示す。
図8(a)に示すように、各フレームは複数のマクロブロックに分割されて処理される。各マクロブロックを構成する複数の画素の各々について、所定の判断基準(典型的には、後述するようなしきい値TH1)を適用して、剰余および残差のいずれで定義すべきかが判断される。
一方、図8(b)に示すように、フレームを構成する複数のマクロブロックの各々について、所定の判断基準(典型的には、後述するようなしきい値TH1およびTH2)を適用して、剰余(剰余マクロブロック)および残差(残差マクロブロック)のいずれを用いるのかが判断される。剰余で定義すべきと判断された画素またはマクロブロックについては、後述するようなモジュロ演算を用いて、その画素値が算出される。
なお、剰余のみで定義される場合には、上述のような判断基準の適用を省略して、各画素/マクロブロックについて剰余が算出される。
(h2:データフォーマット変換部1206における処理概要)
上述したように、データフォーマット変換部1206から出力されるデータフォーマット変換後のマクロブロックには複数のタイプがあるので、サイド情報の一部として、このデータフォーマット変換の手順を示す情報(データフォーマットタイプ(type))が用いられる。但し、残差で定義される領域については、サイド情報を含めないようにしてもよい。つまり、対応するサイド情報が存在する領域(画素またはマクロブロック)について剰余で定義されていることが暗示される。
上述したように、データフォーマット変換部1206から出力されるデータフォーマット変換後のマクロブロックには複数のタイプがあるので、サイド情報の一部として、このデータフォーマット変換の手順を示す情報(データフォーマットタイプ(type))が用いられる。但し、残差で定義される領域については、サイド情報を含めないようにしてもよい。つまり、対応するサイド情報が存在する領域(画素またはマクロブロック)について剰余で定義されていることが暗示される。
データフォーマット変換部1206は、同一フレームにおける、オリジナルマクロブロックと動き補償マクロブロック(イントラフレーム予測部1218で生成されるイントラマクロブロック、または、動き補償部1220で生成されるインターマクロブロック)との差分(つまり、残差画像)に対して、データフォーマット変換を実行する。剰余で定義された領域については、動き補償マクロブロックもサイド情報として用いられる。
また、剰余を算出するモジュロ演算に用いる係数(分母)を決定するために、動き補償マクロブロック(イントラマクロブロック、または、インターマクロブロック)についての疑似勾配マクロブロック、またはそれに類する情報を有するマクロブロックが生成される。なお、勾配の情報については、フレーム単位で算出してもよい。
以下、画素単位で剰余と残差とを組み合せるデータフォーマット(以下「第1データフォーマット」とも称す。)、および、マクロブロック単位で剰余と残差とを組み合せるデータフォーマット(以下「第2データフォーマット」とも称す。)について、それぞれその詳細な処理について説明する。なお、以下の説明において、残差の算出に係る処理を除くことで、剰余のみで画素値を定義するデータフォーマットを実現できることは自明である。
(h3:データフォーマット変換部1206(第1データフォーマット用))
図9は、本発明の実施の形態に係るデータフォーマット変換部1206の機能ブロック図である。図9を参照して、データフォーマット変換部1206は、減算部1260と、比較部1262と、マスク生成部1264と、処理選択部1266と、勾配画像生成部1270と、係数選択部1272と、Lookupテーブル1274と、モジュロ演算部1278と、合成部1280とを含む。
図9は、本発明の実施の形態に係るデータフォーマット変換部1206の機能ブロック図である。図9を参照して、データフォーマット変換部1206は、減算部1260と、比較部1262と、マスク生成部1264と、処理選択部1266と、勾配画像生成部1270と、係数選択部1272と、Lookupテーブル1274と、モジュロ演算部1278と、合成部1280とを含む。
減算部1260は、分割部1204(図6)から入力されるオリジナルマクロブロック(図9においては「Original MB」と表記される。)から、動き補償マクロブロック(イントラマクロブロック、または、インターマクロブロック)(図9においては「Inter/Intra MB」と表記される。)を減算することで、残差マクロブロック(図9においては「Res MB」と表記される。)を生成する。
比較部1262およびマスク生成部1264は、対象のマクロブロックにおいて残差で定義された画素を特定する。すなわち、比較部1262は、残差画像(残差マクロブロック)を構成する各画素の画素値の大きさに基づいて、剰余で定義すべき領域を画素単位で決定する。マスク生成部1264は、残差画像を構成する画素のうち、剰余で定義された画素をそれぞれ特定するための情報を付加情報(典型的には、後述のフラグflag1)として出力する。
より具体的には、比較部1262は、対象のマクロブロックを構成する各画素の画素値とサイド情報の一部であるしきい値TH1とを比較する。マスク生成部1264は、その画素値がしきい値TH1未満である画素について剰余で定義すべきと決定し、それ以外の画素について残差で定義すべきと決定する。つまり、残差マクロブロックのうち、その画素値が小さい領域の情報は大きく失われることがあるので、残差ではなく、剰余で定義するデータフォーマットに変換した上で、データ圧縮が行われる。
この各画素についての剰余および残差のいずれで定義するのかという情報は、フラグflag1としてサイド情報に含められる。マスク生成部1264は、対象のフレーム内において、各画素についてのフラグflag1の値を展開したマスク(マップ)を生成し、処理選択部1266へ出力するとともに、制御部1230へ出力する。マスク生成部1264からのフラグflag1の値に基づいて、エンコーディングおよびデコーディングにおいて、各画素に適用される手順が決定される。
データフォーマット変換部1206においては、処理選択部1266がフラグflag1の値に基づいて、対象のマクロブロックを構成する各画素に対する処理を選択する。具体的には、処理選択部1266は、残差(図9においては「Residual」と表記される。)で定義すべきと判断された画素については、その画素値をそのまま合成部1280へ出力する一方で、剰余(図9においては「Remainder」と表記される。)で定義すべきと判断された画素については、その画素値をモジュロ演算部1278へ出力する。
なお、残差で定義すべきと判断された画素に対して別の判断基準を適用し、残差で定義すべき領域の一部または全部の画素について、その画素値をゼロに変換してもよい。このゼロに変換された画素については、依然として「残差で定義すべき領域」と取り扱われる。
モジュロ演算部1278は、剰余で定義すべき領域についての画素値に対してモジュロ演算を実行する。より具体的には、モジュロ演算部1278は、係数選択部1272によって設定される係数D(整数)を分母とするモジュロ演算を行ない、剰余を算出する。この算出された剰余が合成部1280へ出力される。合成部1280は、画素毎に入力される剰余または残差を結合して、データフォーマット変換後のマクロブロック(図9においては「Converted MB」と表記される。)を出力する。
データフォーマット変換部1206では、動き補償マクロブロックに基づいて、モジュロ演算部1278におけるモジュロ演算に用いられる係数(分母)Dを動的に変化させてもよい。動き補償マクロブロックのうちその画素値が大きい領域は、フレーム間の冗長性が相対的に低い領域を意味し、このような領域については、データフォーマット変換後においてもそれに含まれる情報が維持されることが好ましい。そのため、フレーム間の冗長性の大きさに応じて、適切な係数Dが選択される。
このような係数Dを動的に変化させる方法としては任意の方法を採用できる。図9には、動き補償マクロブロック(動き画像)の勾配情報を取得し、取得した勾配情報に基づいてモジュロ演算の法となる値を決定する処理例を示す。より具体的には、動き補償マクロブロックについての疑似勾配マクロブロック(gradient-like macro-block)を生成し、この疑似勾配マクロブロックの各画素における画素値の大きさに応じて、法となる係数Dを決定する。
具体的には、勾配画像生成部1270は、動き補償マクロブロックについての疑似勾配マクロブロックを生成する。そして、勾配強度とモジュロ演算の法となる値との予め定められた対応関係を参照して、モジュロ演算の法となる値を決定してもよい。より具体的には、係数選択部1272は、生成された疑似勾配マクロブロックの各画素の画素値(勾配強度)に基づいて、Lookupテーブル1274を参照することで、各画素についての係数Dを決定する。Lookupテーブル1274を用いることで、疑似勾配マクロブロックに対して係数Dを非線形に決定できる。このように、係数Dを非線形に決定することで、デコード後の画像品質を向上させることができる。
図10は、本発明の実施の形態に係る剰余の算出に用いられる係数Dを決定するためのLookupテーブル1274の一例を示す図である。図10に示すように、勾配強度に応じて複数の段階(Gradient Range)に離散化されており、各段階についての係数Dが定義される。勾配画像生成部1270は、Lookupテーブル1274を参照して、対象のマクロブロックの各画素に対応する係数Dを選択する。ここで、係数Dは、対象のマクロブロックに含まれる各カラーコンポーネントの各画素について決定される。
図10に示すLookupテーブル1274では、モジュロ演算の法となる値(係数D)が2のべき乗になるように設計されている。このように係数Dの割当てを行なうことで、モジュロ演算を高速化できる。Lookupテーブル1274は、任意に設計できるので、段階数がより少ない、あるいは、段階数がより多いLookupテーブルを採用してもよい。
あるいは、Lookupテーブルを必ずしも使用する必要はなく、予め定められた関数などを用いて係数Dを決定してもよい。例えば、疑似勾配マクロブロックの各画素における画素値をそのまま係数Dとしてもよい。
モジュロ演算部1278は、処理選択部1266から順次出力される画素に対して、対応する係数Dを法としてその画素値に対するモジュロ演算を行なう。より具体的には、各画素の画素値Value=q×D+m(但し、q≧0,D>0)が成立する最小のmが決定される。ここで、qは商であり、mは剰余である。
後述するマクロブロックの再構成処理(デコーディング)においては、「画素値P=k×D+m」が算出されるので、各画素について算出されるカラーコンポーネント別の剰余mが出力される。
ここで、勾配画像生成部1270における疑似勾配マクロブロックの生成方法について説明する。より具体的には、勾配画像生成部1270は、サイド情報としての動き補償マクロブロック(イントラマクロブロック、または、インターマクロブロック)から画像空間上の変化の度合いを示す疑似勾配マクロブロックを生成する。疑似勾配マクロブロックは、動き補償マクロブロック内において、そのテクスチャー変化がより大きな領域がより大きな輝度をもつ画像を意味する。疑似勾配マクロブロックの生成処理としては、任意のフィルタリング処理を用いることができる。また、疑似勾配マクロブロックを構成する各画素値は、所定範囲内(例えば、0〜255)のいずれかの整数値をとるように正規化される。典型的には、以下のような処理手順で疑似勾配マクロブロックが生成される。
(i)疑似勾配マクロブロックに対してノイズ除去のためにガウシアンフィルタを適用する(ガウシアンスムージング処理)。
(ii)フィルタ後のサイド情報をカラーコンポーネント別に分離する(すなわち、カラーコンポーネントの別にグレイスケール画像を生成する)。
(iii)各カラーコンポーネントのグレイスケール画像について、(c1)〜(c4)の処理を実行する。
(iii−1)エッジ検出処理
(iii−2)(1回以上の)ガウシアンスムージング処理(あるいは、メディアンフィルタ処理)
(iii−3)一連のモルフォロジカル処理(例えば、(1回以上の)膨脹処理、(1回以上の)収縮処理、(1回以上の)膨脹処理)
(iii−4)(1回以上の)ガウシアンスムージング処理
以上のような処理によって、動き補償マクロブロックを構成するカラーコンポーネント別に疑似勾配マクロブロックが生成される。
(iii−2)(1回以上の)ガウシアンスムージング処理(あるいは、メディアンフィルタ処理)
(iii−3)一連のモルフォロジカル処理(例えば、(1回以上の)膨脹処理、(1回以上の)収縮処理、(1回以上の)膨脹処理)
(iii−4)(1回以上の)ガウシアンスムージング処理
以上のような処理によって、動き補償マクロブロックを構成するカラーコンポーネント別に疑似勾配マクロブロックが生成される。
ここに示した処理手順は一例であって、ガウシアンスムージング処理やモルフォロジカル処理の処理内容や処理手順などは適宜設計できる。
さらに、動き補償マクロブロック内でより大きな輝度変化が生じている領域に対して、より大きな画素値(輝度)を割り当てるようなマクロブロックを生成できれば、どのような方法を採用してもよい。一例として、x方向およびy方向のそれぞれについてsobelフィルタを適用し、その適用結果の平均値をマクロブロックとしてもよい。
(h4:データフォーマット変換部1206(第2データフォーマット用))
図11は、本発明の実施の形態に係るデータフォーマット変換部1206の別の機能ブロック図である。図11を参照して、データフォーマット変換部1206は、図9に示すデータフォーマット変換部1206に比較して、マスク生成部1264、処理選択部1266、および合成部1280に代えて、積算部1265、評価部1267、および切換部1269を設けたものである。その他のコンポーネントの詳細については、上述したのでその内容は繰り返さない。
図11は、本発明の実施の形態に係るデータフォーマット変換部1206の別の機能ブロック図である。図11を参照して、データフォーマット変換部1206は、図9に示すデータフォーマット変換部1206に比較して、マスク生成部1264、処理選択部1266、および合成部1280に代えて、積算部1265、評価部1267、および切換部1269を設けたものである。その他のコンポーネントの詳細については、上述したのでその内容は繰り返さない。
比較部1262、積算部1265、および評価部1267は、対象のマクロブロックに対して、残差および剰余のいずれで定義すべきかを決定する。すなわち、比較部1262、積算部1265、および評価部1267は、残差画像(残差マクロブロック)を所定サイズの分割した各ブロックについて、当該ブロックを構成するそれぞれの画素の画素値についての評価を結合した結果に基づいて、剰余で定義すべき領域をブロック単位で決定する。評価部1267は、残差画像に含まれるブロックのうち、剰余で定義されたブロックを特定するための情報を付加情報として出力する。
より具体的には、比較部1262は、残差マクロブロックを構成する各画素の画素値とサイド情報の一部であるしきい値TH1とを比較する。そして、比較部1262は、その画素値がしきい値TH1を超える画素については、その画素値としきい値TH1との差分を積算部1265へ出力する。つまり、積算部1265は、各残差マクロブロックについて、その画素値がしきい値TH1を超える画素についての「画素値−しきい値TH1」の総和(Σ(画素値−しきい値TH1))を算出する。
評価部1267は、算出された総和としきい値TH2とを比較して、対象の残差マクロブロックに対して、残差および剰余のいずれで定義すべきかを決定する。具体的には、算出された総和がしきい値TH2以上であれば、評価部1267は、その対象の残差マクロブロックをそのまま出力すると決定する。一方、算出された総和がしきい値TH2未満であれば、評価部1267は、その対象の残差マクロブロックを剰余マクロブロックに変換した上で出力すると決定する。つまり、残差マクロブロックが相対的に画素値の小さい画素から構成されていると判断される場合には、当該マクロブロックの情報は大きく失われる可能性があるので、残差ではなく、剰余で定義するデータフォーマットに変換される。
さらに、評価部1267は、この決定に基づいて、切換部1269へ指令を与える。より具体的には、対象の残差マクロブロックをそのまま出力すると決定された場合には、切換部1269は、モジュロ演算部1278をバイパスする経路を有効化する。これに対して、対象の残差マクロブロックを剰余マクロブロックに変換した上で出力すると決定された場合には、切換部1269は、残差マクロブロックをモジュロ演算部1278へ与える経路を有効化する。
このマクロブロックについての剰余および残差のいずれで定義するのかという付加情報は、フラグflag2としてサイド情報に含められる。マスク生成部1264からのフラグflag2の値に基づいて、エンコーディングおよびデコーディングにおいて、各マクロブロックに適用される手順が決定される。
なお、データフォーマット変換後のマクロブロックとして、剰余マクロブロックを用いた場合には、不可逆圧縮の形式になるので、このマクロブロックをローカルデコーダー1210において復元する際には、デブロックフィルター1216(図4)での処理をバイパスするようにしてもよい。これによって、ノイズの発生を低減できる。
[I.直交変換・量子化部1208および1408における処理]
次に、本発明の実施の形態に係る直交変換・量子化部1208および1408における処理について詳述する。
次に、本発明の実施の形態に係る直交変換・量子化部1208および1408における処理について詳述する。
直交変換・量子化部1208および1408は、データフォーマット変換部1206および1406からのデータフォーマット変換後のマクロブロックに対して、直交変換、量子化、およびスケーリングをそれぞれ実行する。この直交変換および量子化のタイプについては、データフォーマット変換部1206および1406から出力されるマクロブロックのデータフォーマットタイプに応じて、動的に変更されてもよい。例えば、残差で定義された領域については、関連技術において用いられるのと同様の手法を適用する一方で、剰余で定義された領域については、直交変換、量子化、およびスケーリングに係るパラメータをさらに調整してもよい。
[J.データフォーマット逆変換部1214および1414における処理]
次に、本発明の実施の形態に係るデータフォーマット逆変換部1214および1414における処理について詳述する。なお、データフォーマット逆変換部1214および1414における処理は実質的に同一であるので、説明の便宜上、以下では、データフォーマット逆変換部1214について説明する。
次に、本発明の実施の形態に係るデータフォーマット逆変換部1214および1414における処理について詳述する。なお、データフォーマット逆変換部1214および1414における処理は実質的に同一であるので、説明の便宜上、以下では、データフォーマット逆変換部1214について説明する。
(j1:データフォーマット逆変換部1214における処理概要)
上述したように、データフォーマット変換部1206から出力されるデータフォーマット変換後のマクロブロックには複数のタイプがあるので、サイド情報に含まれるデータフォーマットタイプに基づいて、データフォーマット逆変換の手順が選択される。
上述したように、データフォーマット変換部1206から出力されるデータフォーマット変換後のマクロブロックには複数のタイプがあるので、サイド情報に含まれるデータフォーマットタイプに基づいて、データフォーマット逆変換の手順が選択される。
データフォーマット逆変換部1214は、残差で定義された領域については、同一フレームにおける、動き補償マクロブロック(イントラフレーム予測部1218で生成されるイントラマクロブロック、または、動き補償部1220で生成されるインターマクロブロック)を加算することで、オリジナルマクロブロックを復元する。
一方、剰余で定義された領域については、動き補償マクロブロックもサイド情報として用いられる。より具体的には、剰余から本来の画素値を推定するための逆モジュロ演算に用いる係数(分母)を決定するために、動き補償マクロブロックについての疑似勾配マクロブロック、またはそれに類する情報を有するマクロブロックが生成される。
上述したように、データフォーマット変換後のマクロブロックとしては、画素単位で剰余と残差とを組み合せた第1データフォーマット、および、マクロブロック単位で剰余と残差とを組み合せた第2データフォーマットとが存在し得るが、いずれのマクロブロックに対しても、基本的には同様のデータフォーマット逆変換(復元処理)が適用される。なお、以下の説明において、残差の算出に係る処理を除くことで、剰余のみで定義されたデータフォーマット変換後のマクロブロックに対するデータフォーマット逆変換(復元処理)を実現できることは自明である。
(j2:データフォーマット逆変換部1214の機能構成)
図12は、本発明の実施の形態に係るデータフォーマット逆変換部1214の機能ブロック図である。図12を参照して、データフォーマット逆変換部1214は、処理選択部1290と、加算部1292と、勾配画像生成部1270と、係数選択部1272と、Lookupテーブル1274と、逆モジュロ演算部1298と、合成部1294とを含む。なお、図9に示すデータフォーマット変換部1206を構成するコンポーネントと同様の処理を実行するコンポーネントについては、同じ参照符号を付している。
図12は、本発明の実施の形態に係るデータフォーマット逆変換部1214の機能ブロック図である。図12を参照して、データフォーマット逆変換部1214は、処理選択部1290と、加算部1292と、勾配画像生成部1270と、係数選択部1272と、Lookupテーブル1274と、逆モジュロ演算部1298と、合成部1294とを含む。なお、図9に示すデータフォーマット変換部1206を構成するコンポーネントと同様の処理を実行するコンポーネントについては、同じ参照符号を付している。
処理選択部1290は、サイド情報の一部であるフラグflag1および/またはフラグflag2に基づいて、(逆直交変換・スケーリング部1212によって復元された)データフォーマット変換後のマクロブロックについてのデータフォーマットタイプを判断するとともに、剰余および残差のそれぞれによって定義されている領域(画素/マクロブロック)を特定する。そして、処理選択部1290は、残差によって定義されている領域に含まれる画素値を加算部1292へ出力するとともに、剰余によって定義されている領域に含まれる画素値を逆モジュロ演算部1298へ出力する。
加算部1292は、処理選択部1290から画素値が出力された画素の画素位置に対応する動き補償マクロブロックでの画素値を、出力された画素値に加算する。この加算処理によって、オリジナルマクロブロックの対応する画素値が復元される。加算部1292は、この算出結果を合成部1294へ出力する。
一方、逆モジュロ演算部1298は、処理選択部1290から出力された画素値(剰余)と、その剰余を算出する際に用いられた係数Dとから、オリジナルマクロブロックの対応する画素値を逆モジュロ演算によって推定する。この逆モジュロ演算に必要な係数Dは、データフォーマット変換部1206における剰余の算出処理と同様の処理に従って決定される。すなわち、勾配画像生成部1270が動き補償マクロブロックについての疑似勾配マクロブロックを生成し、係数選択部1272が生成された疑似勾配マクロブロックの各画素の画素値(勾配強度)に基づいて、Lookupテーブル1274を参照することで、各画素についての係数Dを決定する。この勾配画像生成部1270、係数選択部1272、およびLookupテーブル1274に係る処理は、図9を参照して説明したので、詳細な説明は繰り返さない。
逆モジュロ演算部1298は、各画素について選択された係数Dおよび剰余、ならびに動き補償マクロブロックの対応する画素値SIを用いて、逆モジュロ演算を行なう。より具体的には、逆モジュロ演算部1298は、オリジナルマクロブロックの対応する画素値についての候補値C(q’)のリストをC(q’)=q’×D+Remainder(但し、q’≧0,C(q’)<256)に従って算出し、この算出された候補値C(q’)のうち、動き補償マクロブロックの対応する画素値SIに対する差が最も小さいものを、オリジナルマクロブロックの対応する画素値として決定する。
例えば、係数D=8、剰余m=3、動き補償マクロブロックの対応する画素値SI=8の場合を考えると、候補値C(q’)としては、以下のようになる。
候補値C(0)=0×8+3=3 (SIとの差=5)
候補値C(1)=1×8+3=11 (SIとの差=3)
候補値C(2)=2×8+3=19 (SIとの差=11)
…
これらの候補値C(q’)のうち、動き補償マクロブロックの対応する画素値SIとの差が最も小さくなる候補値C(1)が選択され、オリジナルマクロブロックの対応する画素値は「11」に決定される。このようにして、オリジナルマクロブロックの各画素の画素値がカラーコンポーネント別にそれぞれ決定される。この算出された画素値が合成部1294へ出力される。合成部1294は、画素毎に入力される剰余または残差を結合して、オリジナルマクロブロック(Original MB)を出力する。
候補値C(1)=1×8+3=11 (SIとの差=3)
候補値C(2)=2×8+3=19 (SIとの差=11)
…
これらの候補値C(q’)のうち、動き補償マクロブロックの対応する画素値SIとの差が最も小さくなる候補値C(1)が選択され、オリジナルマクロブロックの対応する画素値は「11」に決定される。このようにして、オリジナルマクロブロックの各画素の画素値がカラーコンポーネント別にそれぞれ決定される。この算出された画素値が合成部1294へ出力される。合成部1294は、画素毎に入力される剰余または残差を結合して、オリジナルマクロブロック(Original MB)を出力する。
[K.デコーダー群の機能構成]
次に、本発明の実施の形態に係るエンコーディング/デコーディングシステムを構成するデコーダー群の機能構成について説明する。図13は、本発明の実施の形態に係るデコーダー群の機能ブロック図である。図13を参照して、本発明の実施の形態に係るデコーディングにおいては、多視点映像および対応する多視点奥行情報がエンコーディングされたビットストリームを処理するので、デコーダー210は、多視点映像をデコーディングし、デコーダー230は、多視点奥行情報をデコーディングする。デコーダー210および230は、互いに情報を共有しつつデコーディングを行なう。基本的な構成は、デコーダー210とデコーダー230との間で共通している。
次に、本発明の実施の形態に係るエンコーディング/デコーディングシステムを構成するデコーダー群の機能構成について説明する。図13は、本発明の実施の形態に係るデコーダー群の機能ブロック図である。図13を参照して、本発明の実施の形態に係るデコーディングにおいては、多視点映像および対応する多視点奥行情報がエンコーディングされたビットストリームを処理するので、デコーダー210は、多視点映像をデコーディングし、デコーダー230は、多視点奥行情報をデコーディングする。デコーダー210および230は、互いに情報を共有しつつデコーディングを行なう。基本的な構成は、デコーダー210とデコーダー230との間で共通している。
多視点映像をデコーディングするためのデコーダー210の機能ブロック図である。図13を参照して、デコーダー210は、入力バッファ2102と、エントロピー復号部2104と、逆直交変換・スケーリング部2112と、データフォーマット逆変換部2114と、デブロックフィルター2116と、イントラフレーム予測部2118と、動き補償部2120と、切換部2122と、制御部2130と、出力バッファ2142とを含む。
一方、多視点奥行情報をデコーディングするためのデコーダー230は、入力バッファ2302と、エントロピー復号部2304と、逆直交変換・スケーリング部2312と、データフォーマット逆変換部2314と、デブロックフィルター2316と、イントラフレーム予測部2318と、動き補償部2320と、切換部2322と、制御部2330と、出力バッファ2342とを含む。
概略すると、デコーダー210は、図5に示すデコーダー910に比較して、残差画像と先に算出されている予測画像(補間情報)とを加算する加算部9114に代えてデータフォーマット逆変換部2114が設けられている点が主として異なっている。同様に、デコーダー230は、図5に示すデコーダー930に比較して、残差画像と先に算出されている予測画像(補間情報)とを加算する加算部9314に代えてデータフォーマット逆変換部2314が設けられている点が主として異なっている。但し、この構造の変更に伴って、制御部2130の動作も制御部9130とは異なったものとなっている。但し、これらの構造の変更に伴って、制御部2130および2330の動作も制御部9130および9330とはそれぞれ異なったものとなっている。
さらに、デコーダー210とデコーダー230との情報共有に伴って、動き補償部2120および2320での処理も動き補償部9120および9320とはそれぞれ異なったものとなっている。
一方、入力バッファ2102および2302、エントロピー復号部2104および2304、逆直交変換・スケーリング部2112および2312、デブロックフィルター2116および2316、イントラフレーム予測部2118および2318、動き補償部2120および2320、切換部2122および2322、ならびに、出力バッファ2142および2342の機能は、図5に示す入力バッファ9102および9302、エントロピー復号部9104および9304、逆直交変換・スケーリング部9112および9312、デブロックフィルター9116および9316、イントラフレーム予測部9118および9318、動き補償部9120および9320、切換部9122および9322、ならびに、出力バッファ9142および9342にそれぞれ類似したものとなっている。
[L.デコーダー210および230における処理手順]
次に、デコーダー210および230における処理手順について説明する。図13を参照して、映像をエンコーディングしたビットストリームが入力バッファ2102へ与えられ、対応する奥行情報をエンコーディングしたビットストリームが入力バッファ2302へ与えられる。本発明の実施の形態は、多視点映像と対応する多視点奥行情報とからなるMVDをエンコーディングしたビットストリームに適しているが、単一のカメラ10によって撮像された単視点映像および対応する奥行情報をエンコーディングしたビットストリームに対しても適用可能である。
次に、デコーダー210および230における処理手順について説明する。図13を参照して、映像をエンコーディングしたビットストリームが入力バッファ2102へ与えられ、対応する奥行情報をエンコーディングしたビットストリームが入力バッファ2302へ与えられる。本発明の実施の形態は、多視点映像と対応する多視点奥行情報とからなるMVDをエンコーディングしたビットストリームに適しているが、単一のカメラ10によって撮像された単視点映像および対応する奥行情報をエンコーディングしたビットストリームに対しても適用可能である。
入力バッファ2102は、映像をエンコーディングしたビットストリームを一時的に格納する。同様に、入力バッファ2302は、奥行信号をエンコーディングしたビットストリームを一時的に格納する。
エントロピー復号部2104は、入力バッファ2102からのビットストリームに対してエントロピー復号を行ない、その結果として、動きデータ、量子化後の変換係数、ならびに、制御データおよび付加情報を出力する。動きデータは、動き補償部2120へ与えられる。同様に、エントロピー復号部2304は、入力バッファ2302からのビットストリームに対してエントロピー復号を行ない、その結果として、動きデータ、量子化後の変換係数、ならびに、制御データおよび付加情報を出力する。動きデータは、動き補償部2320へ与えられる。
逆直交変換・スケーリング部2112および2312は、エントロピー復号部2104および2304でそれぞれ復元された量子化後の変換係数に対して、逆直交変換(典型的には、離散フーリエ逆変換)およびスケーリングをそれぞれ実行する。これらの処理によって、データフォーマット変換後のマクロブロックが復元される。
データフォーマット逆変換部2114によって、データフォーマット変換後のマクロブロックに対して、データフォーマット逆変換が実行されるとともに、デブロックフィルター2116がその結果に対して、ブロックノイズの発生を抑制するためにブロック境界を平滑化する。これらの処理によって、オリジナル映像が復元される。同様に、データフォーマット逆変換部2314によって、データフォーマット変換後のマクロブロックに対して、データフォーマット逆変換が実行されるとともに、デブロックフィルター2316がその結果に対して、ブロックノイズの発生を抑制するためにブロック境界を平滑化する。これらの処理によって、オリジナルの奥行情報が復元される。
イントラフレーム予測部2118および2318は、隣接するマクロブロックに基づいて予測画像を生成する。
デコーダー210およびデコーダー230との間には、どのようなタイプの情報が共有されているのかを互いに示すコネクションが設けられている。
デコーダー210の動き補償部2120は、ビットストリームから復号された映像についての動きデータをデコーダー230の動き補償部2320と共有する。同様に、デコーダー230の動き補償部2320は、ビットストリームから復号された映像についての動きデータをデコーダー210の動き補償部2120と共有する。これらの他のデコーダーからの動きデータは、動き補償部2120および2320の各々における動きデータの算出に用いられる。より具体的には、動き補償部2120は、インターフレーム予測(フレーム間予測)を用いて、予測画像を生成する。より具体的には、動き補償部2120および2320の各々は、復元されたオリジナルマクロブロックと、復元された映像および奥行情報のそれぞれについての動きデータとに基づいて、予測画像を生成する。
イントラフレーム予測部2118および動き補償部2120のそれぞれで生成された予測画像は、切換部2122によっていずれか一方が適宜選択されて、データフォーマット逆変換部2114へ与えられる。同様に、イントラフレーム予測部2318および動き補償部2320のそれぞれで生成された予測画像は、切換部2322によっていずれか一方が適宜選択されて、データフォーマット逆変換部2314へ与えられる。
制御部2130は、エントロピー復号部2104で復元された制御データおよびパラメータに基づいて、逆直交変換・スケーリング部2112、データフォーマット逆変換部2114および切換部2122における処理を制御する。同様に、制御部2330は、エントロピー復号部2304で復元された制御データおよびパラメータに基づいて、逆直交変換・スケーリング部2312、データフォーマット逆変換部2314および切換部2322における処理を制御する。
制御部2130と制御部2330とは、上述したような情報を共有するために、いくつかの制御データを交換する。これによって、MVDに対する統合的な符号化を実現できる。
出力バッファ2142は、デブロックフィルター2116からの復元されたオリジナル映像を一時的に格納し、出力バッファ2342は、デブロックフィルター2316からの復元されたオリジナルの奥行情報を一時的に格納する。
[M.付加情報]
次に、本発明の実施の形態に係るエンコーディング/デコーディングシステムにおいて用いられるパラメータおよびサイド情報などを含む付加情報について詳述する。
次に、本発明の実施の形態に係るエンコーディング/デコーディングシステムにおいて用いられるパラメータおよびサイド情報などを含む付加情報について詳述する。
本発明の実施の形態に係るエンコーディング/デコーディングシステムにおいては、エンコーディングにおいて、画素値を定義する情報を剰余および残差の間で切り換える。そのため、このような制御に必要な付加情報として、フラグflag1およびflag2、タイプtype、しきい値TH1およびTH2、ならびに、剰余演算用パラメータaなどの、データフォーマット変換に係るパラメータが用いられる。
さらに、本発明の実施の形態においては、多視点映像を処理するエンコーダー120と多視点奥行情報を処理するエンコーダー140とが情報を共有しつつエンコーディングを実行するため、このような情報を共有したエンコーディングに必要な付加情報として、フラグflag3およびflag4などのパラメータが用いられる。
(m1:データフォーマット変換に係るパラメータ)
フラグflag1および/またはフラグflag2は、データフォーマット変換後のマクロブロックにおいて剰余で定義される領域を特定するために用いられる。言い換えれば、フラグflag1およびフラグflag2をいずれも無効化することで、すべての領域が残差で定義されることが特定される。このようなすべての領域が残差で定義される、つまりデータフォーマット変換が実施されない場合には、エンコーダー120(より具体的には、制御部1230)およびデコーダー210(より具体的には、制御部2130)は、例えば、MPEG−4 AVCのような規格に従った動作を行なう。
フラグflag1および/またはフラグflag2は、データフォーマット変換後のマクロブロックにおいて剰余で定義される領域を特定するために用いられる。言い換えれば、フラグflag1およびフラグflag2をいずれも無効化することで、すべての領域が残差で定義されることが特定される。このようなすべての領域が残差で定義される、つまりデータフォーマット変換が実施されない場合には、エンコーダー120(より具体的には、制御部1230)およびデコーダー210(より具体的には、制御部2130)は、例えば、MPEG−4 AVCのような規格に従った動作を行なう。
一方、本発明の実施の形態に係るデータフォーマット変換が実施された場合には、上述のフラグflag1,flag2に加えて、タイプtype、しきい値TH1およびTH2、ならびに、剰余演算用パラメータaが用いられる。
タイプtypeは、画素単位で剰余と残差との組み合せる第1データフォーマット(図8(a))と、マクロブロック単位で剰余と残差との組み合せる第2データフォーマット(図8(b))とのいずれが選択されているかを示すパラメータに相当する。タイプtypeは、いずれかのデータフォーマットが選択されているかを特定できればよいので、単一ビット(1ビット)の情報が割り当てられれば十分である。選択されるデータフォーマットに応じて、以下のようなパラメータが用いられる。
(i)第1データフォーマット(図8(a))
《フラグflag1》
マクロブロックを構成する画素毎にフラグflag1が割り当てられ、フラグflag1の各々は、対応する画素が剰余および残差のいずれで定義されるのかを示す。代替の構成として、剰余および残差の一方にのみフラグflag1を割当て、他方にはフラグflag1を割り当てないようにすることで、各画素について、剰余および残差のいずれで定義されるのかを特定できる。
《フラグflag1》
マクロブロックを構成する画素毎にフラグflag1が割り当てられ、フラグflag1の各々は、対応する画素が剰余および残差のいずれで定義されるのかを示す。代替の構成として、剰余および残差の一方にのみフラグflag1を割当て、他方にはフラグflag1を割り当てないようにすることで、各画素について、剰余および残差のいずれで定義されるのかを特定できる。
《しきい値TH1》
しきい値TH1は、各マクロブロックを構成する複数の画素の各々について、剰余および残差のいずれで定義すべきかを判断するための判断基準として用いられる。つまり、しきい値TH1は、残差画像(残差マクロブロック)を構成する画素のうちその画素値を剰余で定義すべき領域を特定するための判断基準であり、このしきい値TH1は、付加情報としてデコーダー側へ送信される。
しきい値TH1は、各マクロブロックを構成する複数の画素の各々について、剰余および残差のいずれで定義すべきかを判断するための判断基準として用いられる。つまり、しきい値TH1は、残差画像(残差マクロブロック)を構成する画素のうちその画素値を剰余で定義すべき領域を特定するための判断基準であり、このしきい値TH1は、付加情報としてデコーダー側へ送信される。
《剰余演算用パラメータa》
剰余演算用パラメータaは、モジュロ演算部1278(図9)において用いられる係数Dを決定するためのパラメータである。一例として、勾配画像生成部1270(図9)において生成される疑似勾配マクロブロックに対するしきい値を、剰余演算用パラメータaとしてもよい。つまり、図10に示すようなLookupテーブル1274における各階調を決定するしきい値が剰余演算用パラメータaになる。
剰余演算用パラメータaは、モジュロ演算部1278(図9)において用いられる係数Dを決定するためのパラメータである。一例として、勾配画像生成部1270(図9)において生成される疑似勾配マクロブロックに対するしきい値を、剰余演算用パラメータaとしてもよい。つまり、図10に示すようなLookupテーブル1274における各階調を決定するしきい値が剰余演算用パラメータaになる。
あるいは、図10に示すようなLookupテーブルを複数用意しておき、いずれのLookupテーブルを選択するのかを示す識別子を剰余演算用パラメータaとしてもよい。
(ii)第1データフォーマット(図8(b))
《フラグflag2》
マクロブロック毎にフラグflag2が割り当てられ、フラグflag2の各々は、対応するマクロブロックが剰余および残差のいずれで定義されるのかを示す。代替の構成として、剰余および残差の一方にのみフラグflag2を割当て、他方にはフラグflag2を割り当てないようにすることで、各マクロブロックについて、剰余および残差のいずれで定義されるのかを特定できる。
《フラグflag2》
マクロブロック毎にフラグflag2が割り当てられ、フラグflag2の各々は、対応するマクロブロックが剰余および残差のいずれで定義されるのかを示す。代替の構成として、剰余および残差の一方にのみフラグflag2を割当て、他方にはフラグflag2を割り当てないようにすることで、各マクロブロックについて、剰余および残差のいずれで定義されるのかを特定できる。
《しきい値TH2》
しきい値TH2は、マクロブロックの各々について、剰余および残差のいずれで定義すべきかを判断するための判断基準として用いられる。この判断においては、しきい値TH1も用いられる。
しきい値TH2は、マクロブロックの各々について、剰余および残差のいずれで定義すべきかを判断するための判断基準として用いられる。この判断においては、しきい値TH1も用いられる。
《剰余演算用パラメータa》
上述の第1データフォーマットに対して用いられる剰余演算用パラメータaと同様に、疑似勾配マクロブロックに対するしきい値、あるいは、使用するLookupテーブルを選択するのかを示す識別子を含む。
上述の第1データフォーマットに対して用いられる剰余演算用パラメータaと同様に、疑似勾配マクロブロックに対するしきい値、あるいは、使用するLookupテーブルを選択するのかを示す識別子を含む。
なお、エンコーダー120においては、速度歪みに応じた最適化(rate-distortion optimization)が実行されてもよい。このとき、剰余および残差のいずれで定義すべきかを判断するためのしきい値TH1および/またはしきい値TH2についても、この最適化の対象とすることが好ましい。この最適化によって、性能をより向上させることができる。
(m2:エンコーダー間の情報共有に係るパラメータ)
《フラグflag3(エンコーダー120および140で異なる意味を持つ)》
エンコーダー120および140の各々は、それぞれ自装置に関する処理の内容を示すフラグflag3を用いる。
《フラグflag3(エンコーダー120および140で異なる意味を持つ)》
エンコーダー120および140の各々は、それぞれ自装置に関する処理の内容を示すフラグflag3を用いる。
映像に対するエンコーディングを実行するエンコーダー120におけるフラグflag3は、動き推定部1240(図6)における映像(多視点映像)についての動きデータの推定において、対応する奥行情報(図6の分割部1404から出力される)が用いられるか否かを示す。
奥行情報に対するエンコーディングを実行するエンコーダー140におけるフラグflag3は、動き推定部1440(図6)における奥行情報(多視点奥行情報)についての動きデータの推定において、対応する映像についての動きデータ(図6の動き推定部1240から出力される)が用いられるか否かを示す。
《フラグflag4(エンコーダー120で用いられる)》
映像に対するエンコーディングを実行するエンコーダー120におけるフラグflag4は、動き推定部1240(図6)における映像についての動きデータの推定において、対応する奥行情報が用いられる場合(上述のフラグflag3によって示される)、どのように用いられるのかを示す。つまり、フラグflag4は、(i)対応する奥行情報そのものを推定された動きデータとして出力する、および、(ii)対応する奥行情報を推定される動きデータの初期値として取り扱い、さらに、映像の情報などを用いて調整をした上で、最終的な動きデータとして出力する、のうちいずれの処理が実行されるのかを示す。
映像に対するエンコーディングを実行するエンコーダー120におけるフラグflag4は、動き推定部1240(図6)における映像についての動きデータの推定において、対応する奥行情報が用いられる場合(上述のフラグflag3によって示される)、どのように用いられるのかを示す。つまり、フラグflag4は、(i)対応する奥行情報そのものを推定された動きデータとして出力する、および、(ii)対応する奥行情報を推定される動きデータの初期値として取り扱い、さらに、映像の情報などを用いて調整をした上で、最終的な動きデータとして出力する、のうちいずれの処理が実行されるのかを示す。
(m3:デコーダー間の情報共有に係るパラメータ)
デコーダー210では、フラグflag3およびflag4が用いられ、デコーダー230では、フラグflag3が用いられる。
デコーダー210では、フラグflag3およびflag4が用いられ、デコーダー230では、フラグflag3が用いられる。
デコーダー210および230で取り扱われるフラグflag3は、動きデータが共有されるのかどうかを示す。デコーダー210で取り扱われるフラグflag4は、映像(多視点映像)についての動きデータの推定において、対応する奥行情報が用いられるか否かを示す。
[N.ハードウェア構成]
次に、上述の送信機および受信機を実現するためのハードウェア構成の一例について説明する。図14は、送信機として機能する情報処理装置100のハードウェア構成を示す模式図である。図15は、受信機として機能する情報処理装置200のハードウェア構成を示す模式図である。
次に、上述の送信機および受信機を実現するためのハードウェア構成の一例について説明する。図14は、送信機として機能する情報処理装置100のハードウェア構成を示す模式図である。図15は、受信機として機能する情報処理装置200のハードウェア構成を示す模式図である。
図14を参照して、情報処理装置100は、プロセッサ104と、メモリ106と、カメラインターフェイス108と、通信インターフェイス112と、ハードディスク114と、入力部116と、表示部118とを含む。これらの各コンポーネントは、バス122を介して互いにデータ通信可能に構成されている。
プロセッサ104は、ハードディスク114などに格納されているプログラムを読出してメモリ106に展開して実行することで、本発明の実施の形態に係るエンコーディング処理を実現する。メモリ106は、プロセッサ104が処理を実行するためのワーキングメモリとして機能する。
カメラインターフェイス108は、複数のカメラ10と接続され、それぞれのカメラ10が撮像した画像を取得する。取得された画像は、ハードディスク114やメモリ106に格納されてもよい。ハードディスク114は、上述したエンコーディング処理を実現するためのエンコーディングプログラム114aや、カメラインターフェイス108から入力された多視点映像データ114bなどを不揮発的に保持している。
入力部116は、典型的には、マウスやキーボードなどを含み、ユーザからの操作を受付ける。表示部118は、処理結果などをユーザへ通知する。
通信インターフェイス112は、無線伝送装置102などと接続され、プロセッサ104による処理の結果出力されるデータを無線伝送装置102へ出力する。
図12を参照して、情報処理装置200は、プロセッサ204と、メモリ206と、プロジェクタインターフェイス208と、通信インターフェイス212と、ハードディスク214と、入力部216と、表示部218とを含む。これらの各コンポーネントは、バス222を介して互いにデータ通信可能に構成されている。
プロセッサ204、メモリ206と、入力部216、および、表示部218は、図11に示すプロセッサ104、メモリ106と、入力部116、および、表示部118とそれぞれ同様であるので、詳細な説明は繰り返さない。
プロジェクタインターフェイス208は、立体表示装置300と接続され、プロセッサ204によって復元された多視点映像などを立体表示装置300へ出力する。
通信インターフェイス212は、無線伝送装置202などと接続され、情報処理装置100から伝送されるビットストリームを受信し、バス222へ出力する。
ハードディスク214は、デコーディングを実現するためのデコーディングプログラム214aと、復元されたオリジナル画像を含む画像データ214bとを不揮発的に保持している。
図14および図15にそれぞれ示す情報処理装置100および200のハードウェア自体およびその動作原理は一般的なものであり、本発明の実施の形態に係るエンコーディング/デコーディングを実現するための本質的な部分は、ハードディスクなどの記憶媒体に格納されたエンコーディングプログラム114aやデコーディングプログラム214aなどのソフトウェア(命令コード)である。このようなエンコーディングプログラム114aやデコーディングプログラム214aは、光学記憶媒体、磁気記憶媒体、半導体記憶媒体といった記憶媒体に格納されて流通する。このようなプログラムを格納する記憶媒体についても本願発明の範囲に含まれ得る。
エンコーディングプログラム114aおよび/またはデコーディングプログラム214aは、OS(Operating System)が提供するモジュールを用いて処理を実行するように構成してもよい。この場合には、エンコーディングプログラム114aおよび/またはデコーディングプログラム214aは、一部のモジュールを含まないことになるが、このような場合であっても、本願発明の技術的範囲に含まれる。
情報処理装置100および/または情報処理装置200の全部または一部の機能をASIC(Application Specific Integrated Circuit)などの専用の集積回路を用いて実現してもよいし、FPGA(Field-Programmable Gate Array)やDSP(Digital Signal Processor)などのプログラム可能なハードウェアを用いて実現してもよい。
[O.その他の実施の形態]
本発明の実施の形態においては、オリジナルマクロブロックから動き補償マクロブロック(イントラマクロブロック、または、インターマクロブロック)を減じた残差マクロブロックに対して、しきい値が適用されることで、剰余および残差のそれぞれで定義される領域が決定される。このしきい値およびデータフォーマット変換に必要な他のパラメータは、速度最適化ループを用いて動的または静的に最適化されてもよい。
本発明の実施の形態においては、オリジナルマクロブロックから動き補償マクロブロック(イントラマクロブロック、または、インターマクロブロック)を減じた残差マクロブロックに対して、しきい値が適用されることで、剰余および残差のそれぞれで定義される領域が決定される。このしきい値およびデータフォーマット変換に必要な他のパラメータは、速度最適化ループを用いて動的または静的に最適化されてもよい。
本発明の実施の形態においては、剰余を算出するためにモジュロ演算を行なう。このモジュロ演算において分母(法)となる係数Dは、対象のマクロブロックと同一の動き補償マクロブロック(または、動き補償フレーム)の勾配画像に基づいて、決定される。この勾配画像((疑似)勾配マクロブロック、または、(疑似)勾配フレーム)は、イントラマクロブロック(あるいは、イントラフレーム)、または、インターマクロブロック(あるいは、インターフレーム)から生成される。このとき、複数のフレームにわたるマクロブロック間で勾配を算出してもよい。すなわち、勾配画像は、時間領域および/または空間領域にわたって算出されてもよい。このように算出される勾配画像に応じて、モジュロ演算において用いられる係数Dが決定される。
本発明の実施の形態においては、モジュロ演算において用いられる係数Dは、各領域を剰余および残差のいずれで定義すべきかが判断するための(疑似)勾配マクロブロック(または、勾配フレーム)に適用されるしきい値と同じに設定してもよい。
上述の実施の形態においては、マクロブロックまたはフレームについてのデータフォーマットとして、(1)剰余のみで各領域が定義されるデータフォーマット、および、(2)剰余と残差との組み合わせで各領域が定義されるデータフォーマットについて説明したが、さらに別のデータフォーマットを採用することもできる。そのため、マクロブロックまたはフレームは、すべてゼロ、残差とゼロとの組み合わせ、すべて残差、剰余とゼロとの組み合わせ、すべて剰余、剰余と残差との組み合わせ、剰余と残差とゼロとの組み合わせ、といった様々なコンポーネントを含み得る。
上述の実施の形態においては、動画像の圧縮規格の一つである、MPEG−4 AVCに適用した構成例を示した。この構成例において、データフォーマット変換後のデータ圧縮の処理については、規格に沿った手順で実行される。一方、データフォーマット変換の処理については、データ圧縮に係るパラメータに従って最適化される。エンコーディングの最終段階において、画像/映像/多視点映像に対する任意のデータ圧縮ツールを適用することもできる。
デコーディング処理(すなわち、データ復元処理)においても、本発明の実施の形態に係るデータフォーマットに応じたデコーダーが用いられる。例えば、データフォーマットタイプ(type)に関する情報がエンコーダーからデコーダーへ伝送される。このような情報を付加することによって、従来の装置および既存の規格との互換性を確保できる。剰余と残差とを組み合せたデータフォーマットのデータが伝送される場合には、そのビットストリームには、規格上必要なパラメータに加えて、コーディングに関するパラメータおよびデータフォーマットに関するパラメータが含められる。
デコーディングにおいて、残差で定義された領域に対しては、動き補償マクロブロック/フレームあるいは合成マクロブロック/フレームに基づいてさらに補償するようにしてもよい。
ゼロが設定されている領域に対しては、動き補償マクロブロック/フレームの対応する値が割り当てられてもよい。剰余で定義される領域については、上述したような逆モジュロ演算によって復元される。
上述の実施の形態においては、不可逆圧縮(非可逆圧縮)のエンコーディング/デコーディングシステムへの適用例について説明したが、可逆圧縮のエンコーディング/デコーディングシステムにも適用可能である。この場合には、図6に示す直交変換・量子化部1208,1408および逆直交変換・スケーリング部1212,1412、ならびに、図13に示す逆直交変換・スケーリング部2112,2312などが不要になる。すなわち、エンコーディングにおいて、直交変換や量子化といったデータ損失を生じるような処理は実行されない。
本発明の実施の形態によれば、画像のデータ圧縮処理において用いられる、画像のデータフォーマット変換および画像および奥行画像の統合的な符号化の方法が提供される。この方法は、カメラ列またはDepthカメラによって撮像された多視点映像/画像の列、または任意の形式の画像データに対して、既存の規格を改良したコーディングツール(画像/映像/多視点映像に対する改良されたデータ圧縮ツール)でデータ圧縮する工程を含む。ここで、データフォーマット変換は、複数の画素からなるブロック(マクロブロック)単位で実行される。
ここで、データフォーマット変換の処理は、以下の工程を含む。
(1a)インターブロック(前方向予測、後方向予測、および両方向予測のうちいずれかを用いてコーディングされたブロック)、または、イントラブロック、ならびに対応する位置のオリジナルブロックに基づいて、各画素のブロックデータフォーマットを所定のパラメータの組に従って、剰余、残差、ゼロのいずれかに変換する工程
(1b)インターブロック、または、イントラブロック、ならびにオリジナルブロックに基づいて、差分ブロック、すなわち残差ブロックを生成する工程
(1c)所定のパラメータの組および残差ブロックに基づいて、その値を剰余に変換すべきと判断された画素についてフラグを有効化する工程
(1d)所定のパラメータの組および残差マクロブロックに基づいて、その値をゼロにすべきと判断された画素について、その値をゼロに変換する工程(これらの画素は、残差がゼロの画素として取り扱われる)
(1e)インターマクロブロック、または、イントラマクロブロックに基づいて、疑似勾配画像を生成する工程
(1f)当該疑似勾配画像に基づいて、モジュロ演算によって剰余を決定するためのパラメータを設定する工程
(1g)オリジナルブロックおよびモジュロ演算について設定されたパラメータの組に基づいて、その値を剰余に変更すべきと判断された画素について、剰余に変換する工程
(1h)画像/映像/多視点映像に対するデータ圧縮に係る既存の規格に類似したデータ圧縮に係る処理を、新たなデータフォーマット変換後のブロックに対して実行する工程
(1i)データフォーマット変換のためのパラメータを規格に従う最適化処理に追加して、当該パラメータのデータ圧縮を実行する工程
(1j)新たなデータフォーマットの規格に従うデータ圧縮パラメータおよびデータフォーマット変換のためのパラメータに対して、既存の最適化処理を用いて、その圧縮効率および圧縮品質をより高くするための最適化処理を実行する工程
次に、統合的なデータ圧縮の処理は、以下の工程を含む。
(1a)インターブロック(前方向予測、後方向予測、および両方向予測のうちいずれかを用いてコーディングされたブロック)、または、イントラブロック、ならびに対応する位置のオリジナルブロックに基づいて、各画素のブロックデータフォーマットを所定のパラメータの組に従って、剰余、残差、ゼロのいずれかに変換する工程
(1b)インターブロック、または、イントラブロック、ならびにオリジナルブロックに基づいて、差分ブロック、すなわち残差ブロックを生成する工程
(1c)所定のパラメータの組および残差ブロックに基づいて、その値を剰余に変換すべきと判断された画素についてフラグを有効化する工程
(1d)所定のパラメータの組および残差マクロブロックに基づいて、その値をゼロにすべきと判断された画素について、その値をゼロに変換する工程(これらの画素は、残差がゼロの画素として取り扱われる)
(1e)インターマクロブロック、または、イントラマクロブロックに基づいて、疑似勾配画像を生成する工程
(1f)当該疑似勾配画像に基づいて、モジュロ演算によって剰余を決定するためのパラメータを設定する工程
(1g)オリジナルブロックおよびモジュロ演算について設定されたパラメータの組に基づいて、その値を剰余に変更すべきと判断された画素について、剰余に変換する工程
(1h)画像/映像/多視点映像に対するデータ圧縮に係る既存の規格に類似したデータ圧縮に係る処理を、新たなデータフォーマット変換後のブロックに対して実行する工程
(1i)データフォーマット変換のためのパラメータを規格に従う最適化処理に追加して、当該パラメータのデータ圧縮を実行する工程
(1j)新たなデータフォーマットの規格に従うデータ圧縮パラメータおよびデータフォーマット変換のためのパラメータに対して、既存の最適化処理を用いて、その圧縮効率および圧縮品質をより高くするための最適化処理を実行する工程
次に、統合的なデータ圧縮の処理は、以下の工程を含む。
(2a)画像符号化のための動きデータを奥行情報に置換する工程
(2b)奥行情報が映像エンコーダーにおける動き推定部における推定結果の初期値として用いられる場合に、動きデータをさらに調整し改善する工程
(2c)映像エンコーダーにおける動きデータに代えて、奥行情報エンコーダーにおける動き推定結果を用いる工程
(2d)奥行情報エンコーダーにおける動きデータに代えて、映像エンコーダーにおける動き推定結果を用いる工程
(2e)共有される情報のタイプを示す対応するパラメータをデコーダーへ送信する工程
次に、データフォーマット逆変換の処理は、以下の工程を含む。
(2b)奥行情報が映像エンコーダーにおける動き推定部における推定結果の初期値として用いられる場合に、動きデータをさらに調整し改善する工程
(2c)映像エンコーダーにおける動きデータに代えて、奥行情報エンコーダーにおける動き推定結果を用いる工程
(2d)奥行情報エンコーダーにおける動きデータに代えて、映像エンコーダーにおける動き推定結果を用いる工程
(2e)共有される情報のタイプを示す対応するパラメータをデコーダーへ送信する工程
次に、データフォーマット逆変換の処理は、以下の工程を含む。
(3a)画像/映像/多視点映像に対する改良されたデータ圧縮ツールを用いて圧縮されたデータのビットストリーム、各圧縮されたブロックについての情報、ならびに、データフォーマット逆変換のための対応するパラメータをデータ復元ツールに提供する工程
(3b)インターマクロブロック、または、イントラマクロブロック、ならびに残差画素およびゼロ画素に基づいて、フラグが有効化されていない画像について、残差からオリジナルの画素値を復元する工程
(3c)インターマクロブロック、または、イントラマクロブロック、ならびにフラグによって示される剰余の画素に基づいて、逆モジュロ演算を実行する工程(逆モジュロ演算の実行にあたって、受信したビットストリームから抽出されたモジュロ演算のための対応するパラメータが利用される)
最後に、統合的なデータ復元の処理は、以下の工程を含む。
(3b)インターマクロブロック、または、イントラマクロブロック、ならびに残差画素およびゼロ画素に基づいて、フラグが有効化されていない画像について、残差からオリジナルの画素値を復元する工程
(3c)インターマクロブロック、または、イントラマクロブロック、ならびにフラグによって示される剰余の画素に基づいて、逆モジュロ演算を実行する工程(逆モジュロ演算の実行にあたって、受信したビットストリームから抽出されたモジュロ演算のための対応するパラメータが利用される)
最後に、統合的なデータ復元の処理は、以下の工程を含む。
(4a)映像エンコーダーおよび奥行情報エンコーダーの間で共有されている動きデータのタイプに依存して、それぞれのエンコーダーに対して、複合処理のための動きデータを送信する工程
(4b)ビットストリームに含まれる、デコーディングのための制御データを用いて共有情報のタイプを識別する工程
上述の説明においては、データフォーマット変換およびデータフォーマット逆変換をマクロブロック単位で実行する場合について説明したが、画像全体に適用できることはいうまでもない。具体的には、オリジナル画像全体についての残差画像を先に生成し、当該生成した残差画像に対して、上述した処理を画像単位で実行してもよい。
(4b)ビットストリームに含まれる、デコーディングのための制御データを用いて共有情報のタイプを識別する工程
上述の説明においては、データフォーマット変換およびデータフォーマット逆変換をマクロブロック単位で実行する場合について説明したが、画像全体に適用できることはいうまでもない。具体的には、オリジナル画像全体についての残差画像を先に生成し、当該生成した残差画像に対して、上述した処理を画像単位で実行してもよい。
[P.利点]
本発明の実施の形態に係るエンコーディング/デコーディングシステムは、既存の圧縮規格との互換性を維持できるので、本発明の実施の形態に係る新たなデータフォーマット変換(エンコーディング)の組み込みが容易化できる。上述したように、本発明の実施の形態に係るエンコーディング/デコーディングシステムにおいては、剰余の情報を用いなければ、既存の規格での処理と同一の処理を実現することもできる。そのため、互換性を維持できる。
本発明の実施の形態に係るエンコーディング/デコーディングシステムは、既存の圧縮規格との互換性を維持できるので、本発明の実施の形態に係る新たなデータフォーマット変換(エンコーディング)の組み込みが容易化できる。上述したように、本発明の実施の形態に係るエンコーディング/デコーディングシステムにおいては、剰余の情報を用いなければ、既存の規格での処理と同一の処理を実現することもできる。そのため、互換性を維持できる。
本発明の実施の形態に係るエンコーディング/デコーディングシステムは、例えば、分散ソースコーディング(distributed source coding)、分散映像符号化(distributed video coding)、画像/映像/多視点映像に対するデータ圧縮といった、各種の画像システムに適用可能である。
本発明の実施の形態に係るエンコーディング/デコーディングシステムによれば、画像/映像/多視点映像に対するデータ圧縮に係る既存の規格の枠内で、新たなデータフォーマットを用いることで、データ圧縮効率をより高めることができる。
本発明の実施の形態に係るエンコーディング/デコーディングシステムの実装にあたって、既存の規格に沿った画像/映像/多視点映像に対するデータ圧縮ツールに対する変更はわずかで済む。また、本発明の実施の形態に係るエンコーディング/デコーディングシステムを実装した、画像/映像/多視点映像に対するデータ圧縮ツールは、本発明の実施の形態に係る処理を無効化することで、既存の規格との互換性を依然として維持できる。
本発明の実施の形態に係るエンコーディング/デコーディングシステムは、多視点映像および多視点奥行情報を統合的に符号化する。特に、映像についての動きデータおよび奥行情報をエンコーダー120とエンコーダー140との間で共有することで、MVDに対する統合的な符号化を実現でき、これによって、MVDをデータ圧縮後のトータルのデータサイズを共有される情報のサイズと同程度以上に低減できる。
今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 立体映像再生システム、2 被写体、10 カメラ、100,200 情報処理装置、102,202 無線伝送装置、104,204 プロセッサ、106,206 メモリ、108 カメラインターフェイス、110 プリプロセッサー、112,212 通信インターフェイス、114,214 ハードディスク、114a エンコーディングプログラム、116,216 入力部、118,218 表示部、120,140,820,840 エンコーダー、122,222 バス、208 プロジェクタインターフェイス、210,230,910,930 デコーダー、214a デコーディングプログラム、214b 画像データ、240 ポストプロセッサー、300 立体表示装置、302 プロジェクターアレイ、310 表示スクリーン、312 拡散フィルム、314 集光レンズ、1202,1402,2102,2302,8202,8402,9102 入力バッファ、1204,1404,8204,8404 分割部、1206,1406 データフォーマット変換部、1208,1408,8208,8408 直交変換・量子化部、1210,1410,8210,8410 ローカルデコーダー、1212,1412,2112,2312,8212,8412,9112 逆直交変換・スケーリング部、1214,1414,2114,2314 データフォーマット逆変換部、1216,1416,2116,2316,8216,8416,9116 デブロックフィルター、1218,1418,2118,2318,8218,8418,9118 イントラフレーム予測部、1220,1420,2120,2320,8220,8420,9120 動き補償部、1222,1269,1422,2122,2322,8222,8422,9122 切換部、1230,1430,2130,2330,8230,8430,9130 制御部、1240,1440,8240,8440 動き推定部、1242,1442,2142,2342,8242,8442,9142 出力バッファ、1250,1450,8250,8450 エントロピー符号化部、1260,8206,8406 減算部、1262 比較部、1264 マスク生成部、1265 積算部、1266,1290 処理選択部、1267 評価部、1270 勾配画像生成部、1272 係数選択部、1274 Lookupテーブル、1278 モジュロ演算部、1280,1294 合成部、1292,8214,8414,9114,9314 加算部、1298 逆モジュロ演算部、2104,2304,9104 エントロピー復号部。
Claims (7)
- 複数の入力画像をエンコーディングする方法であって、
被写体の第1の情報を含む複数の第1の入力画像と、前記複数の第1の入力画像にそれぞれ対応する、前記被写体の前記第1の情報とは異なる第2の情報を含む複数の第2の入力画像とを取得するステップと、
前記第1の入力画像について、他の第1の入力画像および前記第2の入力画像の少なくとも一方に含まれる情報から第1の予測画像を算出するステップと、
前記第1の入力画像と対応する前記第1の予測画像との差分から第1の残差画像を生成するステップと、
前記第1の残差画像の画素値に基づいて、前記第1の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定するステップと、
前記第1の残差画像の前記剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、
前記第2の入力画像について、他の第2の入力画像および前記第1の入力画像の少なくとも一方に含まれる情報から第2の予測画像を算出するステップと、
前記第2の入力画像と対応する前記第2の予測画像との差分から第2の残差画像を生成するステップと、
前記第2の残差画像の画素値に基づいて、前記第2の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定するステップと、
前記第2の残差画像の前記剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、
変換後の第1の残差画像と、変換後の第2の残差画像と、前記第1の残差画像および前記第2の残差画像のそれぞれにおける前記剰余で定義すべき領域を特定する付加情報とをエンコーディングするステップとを含む、方法。 - 前記剰余に変換するステップは、
前記剰余で定義すべき領域についての画素値に対してモジュロ演算を実行するステップと、
前記予測画像の勾配情報を取得するステップと、
勾配強度とモジュロ演算の法となる値との予め定められた対応関係を参照して、取得した前記勾配情報に基づいて前記モジュロ演算の法となる値を決定するステップとを含む、請求項1に記載の方法。 - 前記第1の予測画像を算出するステップは、算出対象の第1の入力画像に対応する第2の入力画像と、先行の1つ以上の第1の入力画像とを用いて、前記第1の予測画像を算出するステップを含む、請求項1または2に記載の方法。
- 前記第2の予測画像を算出するステップは、算出対象の第2の入力画像に対応する第1の入力画像についての動きデータを用いて、前記第2の予測画像を算出するステップを含み、
前記第1の入力画像についての動きデータは、先行の第1の入力画像と算出対象の第1の入力画像との間の変化成分を示す、請求項1〜3のいずれか1項に記載の方法。 - 前記第2の予測画像を算出するステップは、算出対象の第2の入力画像と、先行の1つ以上の第2の入力画像とを用いて、前記第2の予測画像を算出するステップを含む、請求項1〜3のいずれか1項に記載の方法。
- 複数の入力画像をエンコーディングするプログラムであって、当該プログラムは、コンピュータに、
被写体の第1の情報を含む複数の第1の入力画像と、前記複数の第1の入力画像にそれぞれ対応する、前記被写体の前記第1の情報とは異なる第2の情報を含む複数の第2の入力画像とを取得するステップと、
前記第1の入力画像について、他の第1の入力画像および前記第2の入力画像の少なくとも一方に含まれる情報から第1の予測画像を算出するステップと、
前記第1の入力画像と対応する前記第1の予測画像との差分から第1の残差画像を生成するステップと、
前記第1の残差画像の画素値に基づいて、前記第1の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定するステップと、
前記第1の残差画像の前記剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、
前記第2の入力画像について、他の第2の入力画像および前記第1の入力画像の少なくとも一方に含まれる情報から第2の予測画像を算出するステップと、
前記第2の入力画像と対応する前記第2の予測画像との差分から第2の残差画像を生成するステップと、
前記第2の残差画像の画素値に基づいて、前記第2の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定するステップと、
前記第2の残差画像の前記剰余で定義すべきとされた領域に含まれる画素値を剰余に変換するステップと、
変換後の第1の残差画像と、変換後の第2の残差画像と、前記第1の残差画像および前記第2の残差画像のそれぞれにおける前記剰余で定義すべき領域を特定する付加情報とをエンコーディングするステップとを実行させる、プログラム。 - 複数の入力画像をエンコーディングする装置であって、
被写体の第1の情報を含む複数の第1の入力画像と、前記複数の第1の入力画像にそれぞれ対応する、前記被写体の前記第1の情報とは異なる第2の情報を含む複数の第2の入力画像とを取得する手段と、
前記第1の入力画像について、他の第1の入力画像および前記第2の入力画像の少なくとも一方に含まれる情報から第1の予測画像を算出する手段と、
前記第1の入力画像と対応する前記第1の予測画像との差分から第1の残差画像を生成する手段と、
前記第1の残差画像の画素値に基づいて、前記第1の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定する手段と、
前記第1の残差画像の前記剰余で定義すべきとされた領域に含まれる画素値を剰余に変換する手段と、
前記第2の入力画像について、他の第2の入力画像および前記第1の入力画像の少なくとも一方に含まれる情報から第2の予測画像を算出する手段と、
前記第2の入力画像と対応する前記第2の予測画像との差分から第2の残差画像を生成する手段と、
前記第2の残差画像の画素値に基づいて、前記第2の残差画像を構成する画素のうちその画素値を剰余で定義すべき領域を特定する手段と、
前記第2の残差画像の前記剰余で定義すべきとされた領域に含まれる画素値を剰余に変換する手段と、
変換後の第1の残差画像と、変換後の第2の残差画像と、前記第1の残差画像および前記第2の残差画像のそれぞれにおける前記剰余で定義すべき領域を特定する付加情報とをエンコーディングする手段とを実行させる、装置。
Priority Applications (6)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013066314A JP2014192702A (ja) | 2013-03-27 | 2013-03-27 | 複数の入力画像をエンコーディングする方法、プログラムおよび装置 |
| EP14775632.4A EP2981083A1 (en) | 2013-03-27 | 2014-03-12 | Method for encoding a plurality of input images and storage medium and device for storing program |
| CN201480018695.4A CN105103546A (zh) | 2013-03-27 | 2014-03-12 | 编码多个输入图像的方法及装置、存放程序的存储介质 |
| US14/780,963 US20160065958A1 (en) | 2013-03-27 | 2014-03-12 | Method for encoding a plurality of input images, and storage medium having program stored thereon and apparatus |
| KR1020157030610A KR20150135457A (ko) | 2013-03-27 | 2014-03-12 | 복수의 입력 화상을 인코딩하는 방법, 프로그램을 격납하는 기억 매체 및 장치 |
| PCT/JP2014/056484 WO2014156648A1 (ja) | 2013-03-27 | 2014-03-12 | 複数の入力画像をエンコーディングする方法、プログラムを格納する記憶媒体および装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013066314A JP2014192702A (ja) | 2013-03-27 | 2013-03-27 | 複数の入力画像をエンコーディングする方法、プログラムおよび装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2014192702A true JP2014192702A (ja) | 2014-10-06 |
Family
ID=51623631
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013066314A Withdrawn JP2014192702A (ja) | 2013-03-27 | 2013-03-27 | 複数の入力画像をエンコーディングする方法、プログラムおよび装置 |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US20160065958A1 (ja) |
| EP (1) | EP2981083A1 (ja) |
| JP (1) | JP2014192702A (ja) |
| KR (1) | KR20150135457A (ja) |
| CN (1) | CN105103546A (ja) |
| WO (1) | WO2014156648A1 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019151280A1 (ja) * | 2018-01-30 | 2019-08-08 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置、復号装置、符号化方法及び復号方法 |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014082541A (ja) * | 2012-10-12 | 2014-05-08 | National Institute Of Information & Communication Technology | 互いに類似した情報を含む複数画像のデータサイズを低減する方法、プログラムおよび装置 |
| CN117041563A (zh) * | 2017-06-05 | 2023-11-10 | 松下电器(美国)知识产权公司 | 解码装置、编码装置、存储介质、解码方法和编码方法 |
| JP7315480B2 (ja) * | 2018-01-30 | 2023-07-26 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置、復号装置、符号化方法及び復号方法 |
| CN110493602A (zh) * | 2019-08-19 | 2019-11-22 | 张紫薇 | 视频编码快速运动搜索方法及系统 |
| US20210127125A1 (en) * | 2019-10-23 | 2021-04-29 | Facebook Technologies, Llc | Reducing size and power consumption for frame buffers using lossy compression |
Family Cites Families (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2765268B2 (ja) * | 1991-05-21 | 1998-06-11 | 松下電器産業株式会社 | 高能率符号化方法と高能率符号の復号方法 |
| KR100365555B1 (ko) * | 1994-10-19 | 2003-08-27 | 마츠시타 덴끼 산교 가부시키가이샤 | 화상부호화/복호화장치 |
| CN1258925C (zh) * | 2003-06-27 | 2006-06-07 | 中国科学院计算技术研究所 | 多视角视频编解码预测补偿方法及装置 |
| WO2007035054A1 (en) * | 2005-09-22 | 2007-03-29 | Samsung Electronics Co., Ltd. | Method of estimating disparity vector, and method and apparatus for encoding and decoding multi-view moving picture using the disparity vector estimation method |
| US7706619B2 (en) * | 2005-11-30 | 2010-04-27 | Brother Kogyo Kabushiki Kaisha | Image processing device that produces high-quality reduced image at fast processing speed |
| TWI351883B (en) * | 2006-12-28 | 2011-11-01 | Nippon Telegraph & Telephone | Video encoding method and decoding method, apparat |
| KR100801968B1 (ko) * | 2007-02-06 | 2008-02-12 | 광주과학기술원 | 변위를 측정하는 방법, 중간화면 합성방법과 이를 이용한다시점 비디오 인코딩 방법, 디코딩 방법, 및 인코더와디코더 |
| ATE524927T1 (de) * | 2008-01-21 | 2011-09-15 | Ericsson Telefon Ab L M | Auf prädiktion basierende bildverarbeitung |
| CN101919250B (zh) * | 2008-01-21 | 2012-11-21 | 艾利森电话股份有限公司 | 压缩多个像素块的方法和压缩器、以及对压缩像素块进行解压的方法和解压器 |
| CN102239506B (zh) * | 2008-10-02 | 2014-07-09 | 弗兰霍菲尔运输应用研究公司 | 中间视合成和多视点数据信号的提取 |
| US8694573B2 (en) * | 2009-10-26 | 2014-04-08 | Jadavpur University | Method and system for determining a quotient value |
| JP5660361B2 (ja) * | 2010-03-26 | 2015-01-28 | ソニー株式会社 | 画像処理装置および方法、並びにプログラム |
| AU2011201336B2 (en) * | 2011-03-23 | 2013-09-05 | Canon Kabushiki Kaisha | Modulo embedding of video parameters |
| US9723315B2 (en) * | 2011-07-01 | 2017-08-01 | Apple Inc. | Frame encoding selection based on frame similarities and visual quality and interests |
-
2013
- 2013-03-27 JP JP2013066314A patent/JP2014192702A/ja not_active Withdrawn
-
2014
- 2014-03-12 CN CN201480018695.4A patent/CN105103546A/zh active Pending
- 2014-03-12 US US14/780,963 patent/US20160065958A1/en not_active Abandoned
- 2014-03-12 WO PCT/JP2014/056484 patent/WO2014156648A1/ja not_active Ceased
- 2014-03-12 KR KR1020157030610A patent/KR20150135457A/ko not_active Withdrawn
- 2014-03-12 EP EP14775632.4A patent/EP2981083A1/en not_active Withdrawn
Cited By (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019151280A1 (ja) * | 2018-01-30 | 2019-08-08 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置、復号装置、符号化方法及び復号方法 |
| CN111989923A (zh) * | 2018-01-30 | 2020-11-24 | 松下电器(美国)知识产权公司 | 编码装置、解码装置、编码方法和解码方法 |
| JPWO2019151280A1 (ja) * | 2018-01-30 | 2021-01-14 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 符号化装置、復号装置、符号化方法及び復号方法 |
| US11350092B2 (en) | 2018-01-30 | 2022-05-31 | Panasonic Intellectual Property Corporation Of America | Encoder, decoder, encoding method, and decoding method |
| JP7401309B2 (ja) | 2018-01-30 | 2023-12-19 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置、復号装置、符号化方法及び復号方法 |
| US11882279B2 (en) | 2018-01-30 | 2024-01-23 | Panasonic Intellectual Property Corporation Of America | Encoder, decoder, encoding method, and decoding method |
| US11895298B2 (en) | 2018-01-30 | 2024-02-06 | Panasonic Intellectual Property Corporation Of America | Encoder, decoder, encoding method, and decoding method |
| JP2024019442A (ja) * | 2018-01-30 | 2024-02-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置、復号装置及びビットストリーム生成装置 |
| US11909968B2 (en) | 2018-01-30 | 2024-02-20 | Panasonic Intellectual Property Corporation Of America | Encoder, decoder, encoding method, and decoding method |
| US11917150B2 (en) | 2018-01-30 | 2024-02-27 | Panasonic Intellectual Property Corporation Of America | Encoder, decoder, encoding method, and decoding method |
| US11924423B2 (en) | 2018-01-30 | 2024-03-05 | Panasonic Intellectual Property Corporation Of America | Encoder, decoder, encoding method, and decoding method |
| JP7596499B2 (ja) | 2018-01-30 | 2024-12-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置、復号装置及びビットストリーム生成装置 |
| JP2025027036A (ja) * | 2018-01-30 | 2025-02-26 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置、復号装置及びビットストリーム生成装置 |
| US12301804B2 (en) | 2018-01-30 | 2025-05-13 | Panasonic Intellectual Property Corporation Of America | Encoder, decoder, encoding method, and decoding method |
| JP7755717B2 (ja) | 2018-01-30 | 2025-10-16 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置、復号装置及びビットストリーム生成装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2014156648A1 (ja) | 2014-10-02 |
| EP2981083A1 (en) | 2016-02-03 |
| KR20150135457A (ko) | 2015-12-02 |
| US20160065958A1 (en) | 2016-03-03 |
| CN105103546A (zh) | 2015-11-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6633694B2 (ja) | 多視点信号コーデック | |
| JP6178017B2 (ja) | ステレオビデオのための深度認識向上 | |
| JP4999864B2 (ja) | 映像符号化方法及び復号方法、それらの装置、それらのプログラム並びにプログラムを記録した記憶媒体 | |
| JP2021168479A (ja) | デプスマップの推定および更新を用いる効率的なマルチビュー符号化 | |
| CA2692250C (en) | Video encoding and decoding methods using residual prediction, and corresponding apparatuses | |
| JP7743578B2 (ja) | オプティカルフローベースのビデオフレーム間予測 | |
| JP2014524707A (ja) | 非対称な空間解像度を持つ3次元ビデオ | |
| KR20120000485A (ko) | 예측 모드를 이용한 깊이 영상 부호화 장치 및 방법 | |
| CN112889290A (zh) | 编码器、解码器和使用ibc合并列表的对应方法 | |
| JP2015537491A (ja) | 非対称空間解像度を有するテクスチャビューコンポーネントおよび深度ビューコンポーネントの中での内部ビュー動き予測 | |
| WO2014050830A1 (ja) | 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体 | |
| WO2014156648A1 (ja) | 複数の入力画像をエンコーディングする方法、プログラムを格納する記憶媒体および装置 | |
| CN117880499A (zh) | 去块效应滤波自适应的编码器、解码器及对应方法 | |
| KR102105323B1 (ko) | 객체 기반 적응적 밝기 보상 방법 및 장치 | |
| JP5894301B2 (ja) | 映像符号化装置および方法、映像復号装置および方法、及びそれらのプログラム | |
| JP2010183162A (ja) | 動画像符号化装置 | |
| WO2011070730A1 (ja) | 映像符号化装置および映像復号装置 | |
| US20160057414A1 (en) | Method for encoding a plurality of input images, and storage medium having program stored thereon and apparatus | |
| JPWO2015056712A1 (ja) | 動画像符号化方法、動画像復号方法、動画像符号化装置、動画像復号装置、動画像符号化プログラム、及び動画像復号プログラム | |
| JP6232117B2 (ja) | 画像符号化方法、画像復号方法、及び記録媒体 | |
| CN105612749A (zh) | 视频编码装置及方法以及视频解码装置及方法 | |
| KR20140124045A (ko) | 객체 기반 적응적 밝기 보상 방법 및 장치 | |
| JP2013128319A5 (ja) |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160324 |
|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20160324 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160324 |
|
| A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20160531 |