JP7516603B2 - 画像フィルタ装置、画像復号装置、および画像符号化装置 - Google Patents
画像フィルタ装置、画像復号装置、および画像符号化装置 Download PDFInfo
- Publication number
- JP7516603B2 JP7516603B2 JP2023062262A JP2023062262A JP7516603B2 JP 7516603 B2 JP7516603 B2 JP 7516603B2 JP 2023062262 A JP2023062262 A JP 2023062262A JP 2023062262 A JP2023062262 A JP 2023062262A JP 7516603 B2 JP7516603 B2 JP 7516603B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- filter
- prediction
- cnn
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/119—Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/157—Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
- H04N19/159—Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/182—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/186—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
- H04N19/82—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
以下、図面を参照しながら本発明の実施形態について説明する。
本明細書で用いる演算子を以下に記載する。
本実施形態に係る画像符号化装置11および画像復号装置31の詳細な説明に先立って、画像符号化装置11によって生成され、画像復号装置31によって復号される符号化ストリームTeのデータ構造について説明する。
符号化ビデオシーケンスでは、処理対象のシーケンスSEQを復号するために画像復号装置31が参照するデータの集合が規定されている。シーケンスSEQは、図1の(a)に示すように、ビデオパラメータセット(Video Parameter Set)、シーケンスパラメータセットSPS(Sequence Parameter Set)、ピクチャパラメータセットPPS(Picture Parameter Set)、ピクチャPICT、及び、付加拡張情報SEI(Supplemental Enhancement Information)を含んでいる。ここで#の後に示される値はレイヤIDを示す。図1では、#0と#1すなわちレイヤ0とレイヤ1の符号化データが存在する例を示すが、レイヤの種類およびレイヤの数はこれによらない。
符号化ピクチャでは、処理対象のピクチャPICTを復号するために画像復号装置31が参照するデータの集合が規定されている。ピクチャPICTは、図1の(b)に示すように、スライスS0~SNS-1を含んでいる(NSはピクチャPICTに含まれるスライスの総数)。
符号化スライスでは、処理対象のスライスSを復号するために画像復号装置31が参照するデータの集合が規定されている。スライスSは、図1の(c)に示すように、スライスヘッダSH、および、スライスデータSDATAを含んでいる。
符号化スライスデータでは、処理対象のスライスデータSDATAを復号するために画像復号装置31が参照するデータの集合が規定されている。スライスデータSDATAは、図1の(d)に示すように、符号化ツリーユニット(CTU:Coding Tree Unit)を含んでいる。CTUは、スライスを構成する固定サイズ(例えば64x64)のブロックであり、最大符号化単位(LCU:Largest Coding Unit)と呼ぶこともある。
図1の(e)に示すように、処理対象の符号化ツリーユニットを復号するために画像復号装置31が参照するデータの集合が規定されている。符号化ツリーユニットは、再帰的な4分木分割により分割される。再帰的な4分木分割により得られる木構造のノードのことを符号化ノード(CN:Coding Node)と称する。4分木の中間ノードは、符号化ノードであり、符号化ツリーユニット自身も最上位の符号化ノードとして規定される。CTUは、分割フラグ(cu_split_flag)を含み、cu_split_flagが1の場合には、4つの符号化ノードCNに分割される。cu_split_flagが0の場合には、符号化ノードCNは分割されず、1つの符号化ユニット(CU:Coding Unit)をノードとして持つ。符号化ユニットCUは符号化ノードの末端ノードであり、これ以上分割されない。符号化ユニットCUは、符号化処理の基本的な単位となる。
図1の(f)に示すように、処理対象の符号化ユニットを復号するために画像復号装置31が参照するデータの集合が規定されている。具体的には、符号化ユニットは、予測ツリー、変換ツリー、CUヘッダCUHから構成される。CUヘッダでは予測モード、分割方法(PU分割モード)等が規定される。
予測ユニット(PU:Prediction Unit)の予測画像は、PUに付随する予測パラメータによって導出される。予測パラメータには、イントラ予測の予測パラメータもしくはインター予測の予測パラメータがある。以下、インター予測の予測パラメータ(インター予測パラメータ)について説明する。インター予測パラメータは、予測リスト利用フラグpredFlagL0、predFlagL1と、参照ピクチャインデックスrefIdxL0、refIdxL1と、動きベクトルmvL0、mvL1から構成される。予測リスト利用フラグpredFlagL0、predFlagL1は、各々L0リスト、L1リストと呼ばれる参照ピクチャリストが用いられるか否かを示すフラグであり、値が1の場合に対応する参照ピクチャリストが用いられる。なお、本明細書中「XXであるか否かを示すフラグ」と記す場合、フラグが0以外(たとえば1)をXXである場合、0をXXではない場合とし、論理否定、論理積などでは1を真、0を偽と扱う(以下同様)。但し、実際の装置や方法では真値、偽値として他の値を用いることもできる。
参照ピクチャリストは、参照ピクチャメモリ306に記憶された参照ピクチャからなるリストである。図3は、参照ピクチャおよび参照ピクチャリストの一例を示す概念図である。図3(a)において、矩形はピクチャ、矢印はピクチャの参照関係、横軸は時間、矩形中のI、P、Bは各々イントラピクチャ、単予測ピクチャ、双予測ピクチャ、矩形中の数字は復号順を示す。図に示すように、ピクチャの復号順は、I0、P1、B2、B3、B4であり、表示順は、I0、B3、B2、B4、P1である。図3(b)に、参照ピクチャリストの例を示す。参照ピクチャリストは、参照ピクチャの候補を表すリストであり、1つのピクチャ(スライス)が1つ以上の参照ピクチャリストを有してもよい。図の例では、対象ピクチャB3は、L0リストRefPicList0およびL1リストRefPicList1の2つの参照ピクチャリストを持つ。対象ピクチャがB3の場合の参照ピクチャは、I0、P1、B2であり、参照ピクチャはこれらのピクチャを要素として持つ。個々の予測ユニットでは、参照ピクチャリストRefPicListX中のどのピクチャを実際に参照するかを参照ピクチャインデックスrefIdxLXで指定する。図では、refIdxL0およびrefIdxL1により参照ピクチャP1とB2が参照される例を示す。
予測パラメータの復号(符号化)方法には、マージ予測(merge)モードとAMVP(Adaptive Motion Vector Prediction、適応動きベクトル予測)モードがある、マージフラグmerge_flagは、これらを識別するためのフラグである。マージ予測モードは、予測リスト利用フラグpredFlagLX(またはインター予測識別子inter_pred_idc)、参照ピクチャインデックスrefIdxLX、動きベクトルmvLXを符号化データに含めずに、既に処理した近傍PUの予測パラメータから導出する用いるモードであり、AMVPモードは、インター予測識別子inter_pred_idc、参照ピクチャインデックスrefIdxLX、動きベクトルmvLXを符号化データに含めるモードである。なお、動きベクトルmvLXは、予測ベクトルmvpLXを識別する予測ベクトルインデックスmvp_LX_idxと差分ベクトルmvdLXとして符号化される。
動きベクトルmvLXは、異なる2つのピクチャ上のブロック間のずれ量を示す。動きベクトルmvLXに関する予測ベクトル、差分ベクトルを、それぞれ予測ベクトルmvpLX、差分ベクトルmvdLXと呼ぶ。
インター予測識別子inter_pred_idcと、予測リスト利用フラグpredFlagL0、predFlagL1の関係は以下のとおりであり、相互に変換可能である。
predFlagL0 = inter_pred_idc & 1
predFlagL1 = inter_pred_idc >> 1
なお、インター予測パラメータは、予測リスト利用フラグを用いても良いし、インター予測識別子を用いてもよい。また、予測リスト利用フラグを用いた判定は、インター予測識別子を用いた判定に置き替えてもよい。逆に、インター予測識別子を用いた判定は、予測リスト利用フラグを用いた判定に置き替えてもよい。
双予測BiPredであるかのフラグbiPredは、2つの予測リスト利用フラグがともに1であるかによって導出できる。たとえば以下の式で導出できる。
フラグbiPredは、インター予測識別子が2つの予測リスト(参照ピクチャ)を使うことを示す値であるか否かによっても導出できる。たとえば以下の式で導出できる。
上記式は、以下の式でも表現できる。
なお、PRED_BIはたとえば3の値を用いることができる。
次に、本実施形態に係る画像復号装置31の構成について説明する。図5は、本実施形態に係る画像復号装置31の構成を示す概略図である。画像復号装置31は、エントロピー復号部301、予測パラメータ復号部(予測画像復号装置)302、CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)フィルタ305、参照ピクチャメモリ306、予測パラメータメモリ307、予測画像生成部(予測画像生成装置)308、逆量子化・逆変換部311、及び加算部312を含んで構成される。
図7は、本実施形態に係る予測画像生成部308に含まれるインター予測画像生成部309の構成を示す概略図である。インター予測画像生成部309は、動き補償部(予測画像生成装置)3091、重み予測部3094を含んで構成される。
動き補償部3091は、インター予測パラメータ復号部303から入力された、インター予測パラメータ(予測リスト利用フラグpredFlagLX、参照ピクチャインデックスrefIdxLX、動きベクトルmvLX)に基づいて、参照ピクチャメモリ306から、参照ピクチャインデックスrefIdxLXで指定された参照ピクチャRefXにおいて、復号対象PUの位置を起点として、動きベクトルmvLXだけずれた位置にあるブロックを読み出すことによって補間画像(動き補償画像predSamplesLX)を生成する。ここで、動きベクトルmvLXの精度が整数精度でない場合には、動き補償フィルタと呼ばれる小数位置の画素を生成するためのフィルタを施して、動き補償画像を生成する。
重み予測部3094は、入力される動き補償画像predSamplesLXに重み係数を乗算することによりPUの予測画像を生成する。
次に、本実施形態に係る画像符号化装置11の構成について説明する。図4は、本実施形態に係る画像符号化装置11の構成を示すブロック図である。画像符号化装置11は、予測画像生成部101、減算部102、変換・量子化部103、エントロピー符号化部104、逆量子化・逆変換部105、加算部106、CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)フィルタ107、予測パラメータメモリ(予測パラメータ記憶部、フレームメモリ)108、参照ピクチャメモリ(参照画像記憶部、フレームメモリ)109、符号化パラメータ決定部110、予測パラメータ符号化部111を含んで構成される。予測パラメータ符号化部111は、インター予測パラメータ符号化部112及びイントラ予測パラメータ符号化部113を含んで構成される。
CNNフィルタ107は、本実施形態に係る画像フィルタ装置の一例である。本実施形態に係る画像フィルタ装置は、局所復号画像に作用させるフィルタとして機能する。本実施形態に係る画像フィルタ装置は、輝度又は色差を画素値とする1又は複数の第1種の入力画像データと、予測画像及び差分画像を生成するための参照パラメータに応じた値を画素値とする1又は複数の第2種の入力画像データとが入力され、輝度又は色差を画素値とする1又は複数の第1種の出力画像データを出力するニューラルネットワークを備えている。
・入力画像におけるイントラ予測及びインター予測の種別を示すパラメータ
・入力画像におけるイントラ予測方向を示すパラメータ(イントラ予測モード)
・入力画像におけるインター予測の参照ピクチャを示すパラメータ
・入力画像におけるパーティションの分割深度を示すパラメータ
・入力画像におけるパーティションのサイズを示すパラメータ
なお、参照パラメータのことを、特に混乱がない限り、単にパラメータと呼ぶこともある。また、参照パラメータを符号化データにおいて明示的に伝送してもよい。
(2)act(conv(x)):convolutionの後にactivation(非線形関数、例えば、sigmoid, tanh, relu, elu、seluなど)を実施する構成
(3)batch_norm(act(conv(x))):convolutionとactivationの後にバッチノーマライゼーション(入力のレンジの正規化)を実施する構成
(4)act(batch_norm(conv(x))):convolutionとactivationの間にバッチノーマライゼーション(入力のレンジの正規化)を実施する構成
(5)pooling:conv層間で情報の圧縮、ダウンサイジングを実施する構成
またCNNフィルタ107は、convX層の他に、次の層の少なくとも何れかを含む構成であってもよい。
(6)add/sub:要素単位で加算する構成(減算する構成を含む)
(7)concatenate/stack:複数の入力を積み上げて新たな大きな入力を構成する構成
(8)fcn:フルコネクトされたフィルタを実施する構成
(9)lcn:一部コネクトされたフィルタを実施する構成
図9に示す例においては、CNNフィルタ107は、3つのconvX層(conv1,conv2,conv3)とadd層とを含む。入力されるフィルタ前画像は、(N1+N2)xH1xW1のサイズを有する。ここで、N1は画像のチャネル数を示す。例えば、フィルタ前画像が輝度(Y)のチャネルのみを含む場合は、N1は「1」である。Y、Cb、Crのチャネルを含む場合にはN1は「3」である。R, G, Bのチャネルを含む場合にはN1は「3」である。W1はピクチャの幅パッチサイズであり、H1はピクチャの高さパッチサイズである。N2は符号化パラメータのチャネル数を示す。例えば、符号化パラメータが量子化パラメータ(QP)のチャネルのみを含む場合は、N2は「1」である。add層を備える構成は、フィルタ後画像とフィルタ前画像の差分(residual)をCNNフィルタで予測する構成であり、特に、CNN層が深くなる構成で有効であることが知られている。なお、residualを導出する層を複数重ねるResNetと呼ばれる構成が知られているように、add層は1つに限定されず複数のadd層があっても良い。
量子化パラメータ(QP)は、画像の圧縮率と画質とを制御するパラメータである。本実施形態において量子化パラメータ(QP)は、値が大きいほど画質が低くなり符号量が減少する特性、および値が小さいほど画質が高くなり符号量が増加する特性を有する。量子化パラメータ(QP)として、例えば、予測残差の量子化幅を導出するパラメータを用いることができる。
CNNフィルタ107は、訓練データ、および誤差関数を用いて学習する。
本発明の他の実施形態について、図18に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。CNNフィルタのネットワーク構成は様々な形式が考えられる。図18に示す第2の実施形態は、第1の実施形態で説明したネットワーク構成(図9、図10)とは、別のネットワーク構成のCNNフィルタの例を示すものであり、第1の実施形態と同じ効果を有する。
本発明の他の実施形態について、図19~20に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。
本発明の他の実施形態について、図22に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。
本発明の他の実施形態について、図24に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。
本発明の他の実施形態について、図25に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。
図25の(a)に本実施形態の第1の例を示す。第1の例では、画像フィルタ装置107gは、CNNフィルタ107g1とサンプルアダプティブオフセット(SAO)107g2とを含む。CNNフィルタ107g1は、ブロック歪みを低減するフィルタとして機能する。
図25の(b)に本実施形態の第2の例を示す。第2の例では、画像フィルタ装置107hは、デブロッキングフィルタ(DF)107h1とCNNフィルタ107g2とを含む。CNNフィルタ107h2は、デブロッキングフィルタの後段でさらにリンギングノイズを低減するフィルタとして機能する。
図25の(c)に本実施形態の第3の例を示す。第3の例では、画像フィルタ装置107iは、第1のCNNフィルタ107i1と第2のCNNフィルタ107i2とを含む。第1のCNNフィルタ107i1は、ブロック歪みを低減するフィルタとして機能し、第2のCNNフィルタ107i2は、ブロック歪みを低減するフィルタの後段でさらにリンギングノイズを低減するフィルタとして機能する。
本発明の他の実施形態について、図26~図30に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。
上述した画像符号化装置11及び画像復号装置31は、動画像の送信、受信、記録、再生を行う各種装置に搭載して利用することができる。なお、動画像は、カメラ等により撮像された自然動画像であってもよいし、コンピュータ等により生成された人工動画像(CGおよびGUIを含む)であってもよい。
また、上述した画像復号装置31および画像符号化装置11の各ブロックは、集積回路(ICチップ)上に形成された論理回路によってハードウェア的に実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェア的に実現してもよい。
本発明の態様1に係る画像フィルタ装置(CNNフィルタ107,305)は、輝度又は色差を画素値とする1又は複数の第1種の入力画像データと、予測画像及び差分画像を生成するための参照パラメータに応じた値を画素値とする1又は複数の第2種の入力画像データとが入力され、輝度又は色差を画素値とする1又は複数の第1種の出力画像データを出力するニューラルネットワークを備えている。
本出願は、2017年8月10日に出願された出願番号2017-155903号、2018年3月20日に出願された出願番号2018-053226号の出願に関するものであって上記出願を基礎として優先権を主張するものである。上記出願の内容は、参照により本明細書に含まれる。
31 画像復号装置
107 CNNフィルタ(画像フィルタ装置)
114 CNNパラメータ決定部(パラメータ決定部)
Claims (5)
- ニューラルネットワークフィルタを備える画像フィルタ装置において、
上記ニューラルネットワークフィルタは、(i)第1の画像を入力し、第1の出力データを出力する第1のニューラルネットワークと、(ii)該第1の出力データと符号化パラメータを用いて、第2の画像を出力する第2のニューラルネットワークと、から構成されることを特徴とする画像フィルタ装置。 - 上記第2のニューラルネットワークは、上記第1の出力データと、上記符号化パラメータを第3のニューラルネットワークに入力して得られる第3の出力データとを結合した結合データを用いて、ニューラルネットワーク処理を行うことを特徴とする請求項1に記載の画像フィルタ装置。
- ニューラルネットワークフィルタを備える画像フィルタ装置において、
上記ニューラルネットワークフィルタは、(i)第1の画像を入力し、第1の出力データを出力する第1のニューラルネットワークと、(ii)符号化パラメータを入力し、第2の出力データを出力する第2のニューラルネットワークと、(iii)該第1の出力データと該第2の出力データの結合データを入力し、第3の出力データを出力する第3のニューラルネットワークと、から構成されることを特徴とする画像フィルタ装置。 - 画像を復号する画像復号装置であって、
復号画像に作用させるフィルタとして請求項1に記載の画像フィルタ装置を備えることを特徴とする画像復号装置。 - 画像を符号化する画像符号化装置であって、
局所復号画像に作用させるフィルタとして請求項1に記載の画像フィルタ装置を備えることを特徴とする画像符号化装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024105868A JP7681164B2 (ja) | 2017-08-10 | 2024-07-01 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
Applications Claiming Priority (6)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017155903 | 2017-08-10 | ||
| JP2017155903 | 2017-08-10 | ||
| JP2018053226 | 2018-03-20 | ||
| JP2018053226 | 2018-03-20 | ||
| PCT/JP2018/029247 WO2019031410A1 (ja) | 2017-08-10 | 2018-08-03 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
| JP2019535621A JP7260472B2 (ja) | 2017-08-10 | 2018-08-03 | 画像フィルタ装置 |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019535621A Division JP7260472B2 (ja) | 2017-08-10 | 2018-08-03 | 画像フィルタ装置 |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024105868A Division JP7681164B2 (ja) | 2017-08-10 | 2024-07-01 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023076688A JP2023076688A (ja) | 2023-06-01 |
| JP7516603B2 true JP7516603B2 (ja) | 2024-07-16 |
Family
ID=65272386
Family Applications (3)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019535621A Active JP7260472B2 (ja) | 2017-08-10 | 2018-08-03 | 画像フィルタ装置 |
| JP2023062262A Active JP7516603B2 (ja) | 2017-08-10 | 2023-04-06 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
| JP2024105868A Active JP7681164B2 (ja) | 2017-08-10 | 2024-07-01 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
Family Applications Before (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019535621A Active JP7260472B2 (ja) | 2017-08-10 | 2018-08-03 | 画像フィルタ装置 |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024105868A Active JP7681164B2 (ja) | 2017-08-10 | 2024-07-01 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US11631199B2 (ja) |
| JP (3) | JP7260472B2 (ja) |
| CN (2) | CN111373751B (ja) |
| WO (1) | WO2019031410A1 (ja) |
Families Citing this family (43)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10402527B2 (en) | 2017-01-04 | 2019-09-03 | Stmicroelectronics S.R.L. | Reconfigurable interconnect |
| CN111742553A (zh) * | 2017-12-14 | 2020-10-02 | 交互数字Vc控股公司 | 用于视频压缩的基于深度学习的图像分区 |
| GB2611192B (en) * | 2018-01-26 | 2023-06-14 | Mediatek Inc | Method and apparatus of neural networks with grouping for video coding |
| JP6617783B2 (ja) | 2018-03-14 | 2019-12-11 | カシオ計算機株式会社 | 情報処理方法、電子機器及びプログラム |
| CN110874605B (zh) * | 2018-08-31 | 2024-05-03 | 嘉楠明芯(北京)科技有限公司 | 图像识别处理方法和装置 |
| CN110956575B (zh) * | 2018-09-26 | 2022-04-12 | 京东方科技集团股份有限公司 | 转变图像风格的方法和装置、卷积神经网络处理器 |
| CN113747179B (zh) | 2019-03-07 | 2023-08-08 | Oppo广东移动通信有限公司 | 环路滤波实现方法、装置及计算机存储介质 |
| CN120264020A (zh) | 2019-03-07 | 2025-07-04 | Oppo广东移动通信有限公司 | 环路滤波实现方法、装置及计算机存储介质 |
| JP7026065B2 (ja) * | 2019-03-12 | 2022-02-25 | Kddi株式会社 | 画像復号装置、画像復号方法及びプログラム |
| CN113490953A (zh) * | 2019-03-14 | 2021-10-08 | Oppo广东移动通信有限公司 | 预测值的确定方法、解码器以及计算机存储介质 |
| EP3941057A4 (en) * | 2019-03-24 | 2022-06-01 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | FILTERING METHOD AND APPARATUS, ENCODER AND COMPUTER STORAGE MEDIUM |
| CN113785577B (zh) * | 2019-04-26 | 2023-06-27 | 华为技术有限公司 | 用于指示色度量化参数映射函数的方法和装置 |
| CN109996084B (zh) * | 2019-04-30 | 2022-11-01 | 华侨大学 | 一种基于多分支卷积神经网络的hevc帧内预测方法 |
| US11166022B2 (en) * | 2019-06-04 | 2021-11-02 | Google Llc | Quantization constrained neural image coding |
| JP7527113B2 (ja) * | 2020-01-23 | 2024-08-02 | キヤノン株式会社 | 画像処理装置、その制御方法、プログラム並びに画像処理システム |
| GB2591806B (en) | 2020-02-07 | 2023-07-19 | British Broadcasting Corp | Chroma intra prediction in video coding and decoding |
| US11593609B2 (en) * | 2020-02-18 | 2023-02-28 | Stmicroelectronics S.R.L. | Vector quantization decoding hardware unit for real-time dynamic decompression for parameters of neural networks |
| CN113298843B (zh) * | 2020-02-24 | 2024-05-14 | 中科寒武纪科技股份有限公司 | 数据量化处理方法、装置、电子设备和存储介质 |
| WO2021172956A1 (ko) * | 2020-02-28 | 2021-09-02 | 엘지전자 주식회사 | 영상 특징 정보 시그널링을 위한 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법 |
| JP2021150738A (ja) * | 2020-03-17 | 2021-09-27 | キヤノン株式会社 | 分割パターン決定装置、及び、それを用いた画像符号化装置、及び、学習装置、並びに、分割パターン決定装置及び学習装置の制御方法、及び、プログラム |
| US11531873B2 (en) | 2020-06-23 | 2022-12-20 | Stmicroelectronics S.R.L. | Convolution acceleration with embedded vector decompression |
| US11477464B2 (en) * | 2020-09-16 | 2022-10-18 | Qualcomm Incorporated | End-to-end neural network based video coding |
| US11930215B2 (en) * | 2020-09-29 | 2024-03-12 | Qualcomm Incorporated | Multiple neural network models for filtering during video coding |
| EP4224842A4 (en) * | 2020-09-30 | 2023-12-06 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | IMAGE PREDICTION METHOD, ENCODER, DECODER AND COMPUTER STORAGE MEDIUM |
| US12058321B2 (en) * | 2020-12-16 | 2024-08-06 | Tencent America LLC | Method and apparatus for video coding |
| BR112023012685A2 (pt) * | 2021-01-04 | 2023-12-05 | Qualcomm Inc | Múltiplos modelos de rede neural para filtração durante codificação de vídeo |
| US11582453B2 (en) * | 2021-01-11 | 2023-02-14 | Tencent America LLC | Multi-model selection for neural network based tools in video coding |
| US12380312B2 (en) * | 2021-01-11 | 2025-08-05 | Tencent America LLC | Multi-task neural network by micro-structured parameter sharing for multi-quality loop filter |
| US11490085B2 (en) * | 2021-01-14 | 2022-11-01 | Tencent America LLC | Model sharing by masked neural network for loop filter with quality inputs |
| US12058314B2 (en) * | 2021-04-30 | 2024-08-06 | Tencent America LLC | Block-wise content-adaptive online training in neural image compression with post filtering |
| US20220383554A1 (en) * | 2021-05-18 | 2022-12-01 | Tencent America LLC | Substitutional quality factor learning for quality-adaptive neural network-based loop filter |
| US20220394288A1 (en) * | 2021-05-24 | 2022-12-08 | Lemon Inc. | Parameter Update of Neural Network-Based Filtering |
| FR3124342B1 (fr) * | 2021-06-17 | 2024-01-12 | Fond B Com | Procédés et dispositifs de décodage d’une partie au moins d’un flux de données, programme d’ordinateur et flux de données associés |
| US12603998B2 (en) * | 2021-07-07 | 2026-04-14 | Lemon Inc. | Configurable neural network model depth in neural network-based video coding |
| US12289475B2 (en) | 2021-08-06 | 2025-04-29 | Samsung Electronics Co., Ltd. | Image processing method and apparatus using neural network based deblocking filtering |
| CN115883851A (zh) | 2021-09-28 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 滤波及编解码方法、装置、计算机可读介质及电子设备 |
| US12167047B2 (en) * | 2022-01-13 | 2024-12-10 | Tencent America LLC | Neural network-based deblocking filters |
| CN118872277A (zh) * | 2022-02-02 | 2024-10-29 | 夏普株式会社 | 用于在多维数据的编码中改进压缩特征数据中的对象检测的系统和方法 |
| CN116630171A (zh) * | 2022-02-10 | 2023-08-22 | 腾讯科技(深圳)有限公司 | 图像滤波方法、装置、设备及存储介质 |
| CN117151986A (zh) * | 2022-05-18 | 2023-12-01 | 腾讯科技(深圳)有限公司 | 图像滤波方法、装置及设备 |
| WO2025073546A1 (en) * | 2023-10-02 | 2025-04-10 | Interdigital Ce Patent Holdings, Sas | Loop filter chroma balance |
| CN119996677A (zh) * | 2023-11-09 | 2025-05-13 | 腾讯科技(深圳)有限公司 | 滤波方法、装置、电子设备以及存储介质 |
| WO2026008781A1 (en) * | 2024-07-05 | 2026-01-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Neural network for image processing |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2016199330A1 (ja) | 2015-06-12 | 2016-12-15 | パナソニックIpマネジメント株式会社 | 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置 |
Family Cites Families (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6259479B1 (en) * | 1997-09-17 | 2001-07-10 | Sony Corporation | Letterbox filter apparatus and method |
| CN1493157A (zh) * | 2001-09-12 | 2004-04-28 | ���µ�����ҵ��ʽ���� | 图像编码方法和图像解码方法 |
| CN103096078B (zh) * | 2006-01-09 | 2015-10-21 | Lg电子株式会社 | 用于视频信号的层间预测方法和装置 |
| CN101267560A (zh) * | 2008-03-19 | 2008-09-17 | 浙江大学 | 去块滤波方法及装置 |
| CN101635849B (zh) * | 2008-07-24 | 2011-11-16 | 青岛海信信芯科技有限公司 | 一种环路滤波方法及环路滤波器 |
| CN101505425B (zh) * | 2009-03-11 | 2011-11-23 | 北京中星微电子有限公司 | 一种宏块滤波方法及装置 |
| CN101651829A (zh) * | 2009-06-29 | 2010-02-17 | 北京中星微电子有限公司 | 一种环路滤波的方法、装置及一种移动多媒体终端芯片 |
| KR101826215B1 (ko) * | 2011-06-23 | 2018-03-22 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 오프셋 복호 장치, 오프셋 부호화 장치, 화상 필터 장치 및 데이터 구조 |
| CN106941608B (zh) * | 2011-06-30 | 2021-01-15 | 三菱电机株式会社 | 图像编码装置及方法、图像解码装置及方法 |
| CN107197250B (zh) * | 2011-10-28 | 2019-09-03 | 三星电子株式会社 | 用于视频的帧内预测的方法和设备 |
| CA2944829C (en) * | 2014-05-23 | 2022-10-25 | Ting Chen | Systems and methods for detection of biological structures and/or patterns in images |
| PH12018500454B1 (en) * | 2015-09-03 | 2024-02-28 | Mediatek Inc | Method and apparatus of nueral network based processing in video coding |
| CN108932697B (zh) * | 2017-05-26 | 2020-01-17 | 杭州海康威视数字技术股份有限公司 | 一种失真图像的去失真方法、装置及电子设备 |
| WO2019009448A1 (ko) * | 2017-07-06 | 2019-01-10 | 삼성전자 주식회사 | 영상을 부호화 또는 복호화하는 방법 및 장치 |
-
2018
- 2018-08-03 JP JP2019535621A patent/JP7260472B2/ja active Active
- 2018-08-03 CN CN201880051253.8A patent/CN111373751B/zh active Active
- 2018-08-03 US US16/636,669 patent/US11631199B2/en active Active
- 2018-08-03 CN CN202310118912.8A patent/CN116170590A/zh active Pending
- 2018-08-03 WO PCT/JP2018/029247 patent/WO2019031410A1/ja not_active Ceased
-
2023
- 2023-04-06 JP JP2023062262A patent/JP7516603B2/ja active Active
-
2024
- 2024-07-01 JP JP2024105868A patent/JP7681164B2/ja active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2016199330A1 (ja) | 2015-06-12 | 2016-12-15 | パナソニックIpマネジメント株式会社 | 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP7260472B2 (ja) | 2023-04-18 |
| JP2024133543A (ja) | 2024-10-02 |
| JP2023076688A (ja) | 2023-06-01 |
| US11631199B2 (en) | 2023-04-18 |
| JPWO2019031410A1 (ja) | 2020-08-27 |
| JP7681164B2 (ja) | 2025-05-21 |
| CN111373751A (zh) | 2020-07-03 |
| CN116170590A (zh) | 2023-05-26 |
| WO2019031410A1 (ja) | 2019-02-14 |
| US20210150767A1 (en) | 2021-05-20 |
| CN111373751B (zh) | 2023-02-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7516603B2 (ja) | 画像フィルタ装置、画像復号装置、および画像符号化装置 | |
| JP7223886B2 (ja) | 画像復号方法 | |
| JP7073186B2 (ja) | 画像フィルタ装置 | |
| WO2019182159A1 (ja) | 画像フィルタ装置、画像復号装置、及び画像符号化装置 | |
| JP7213689B2 (ja) | 画像復号装置及び画像符号化装置 | |
| WO2019087905A1 (ja) | 画像フィルタ装置、画像復号装置、および画像符号化装置 | |
| WO2018116802A1 (ja) | 画像復号装置、画像符号化装置、及び画像予測装置 | |
| WO2018199001A1 (ja) | 画像復号装置及び画像符号化装置 | |
| JP2021010046A (ja) | 画像符号化装置及び画像復号装置 | |
| JP2021005741A (ja) | 画像符号化装置及び画像復号装置 | |
| WO2018110203A1 (ja) | 動画像復号装置、および動画像符号化装置 | |
| JP7139144B2 (ja) | 画像フィルタ装置 | |
| JP7241153B2 (ja) | 画像復号装置 | |
| WO2018216688A1 (ja) | 動画像符号化装置及び動画像復号装置、フィルタ装置 | |
| WO2018199002A1 (ja) | 動画像符号化装置及び動画像復号装置 | |
| JP2019201332A (ja) | 画像符号化装置、画像復号装置、及び画像符号化システム | |
| WO2018061550A1 (ja) | 画像復号装置及び画像符号化装置 | |
| WO2019065537A1 (ja) | 動き補償フィルタ装置、画像復号装置および動画像符号化装置 | |
| WO2019131349A1 (ja) | 画像復号装置、画像符号化装置 | |
| JP7332753B2 (ja) | 画像フィルタ装置 | |
| JP2020068462A (ja) | 画像ビット階調拡張フィルタ装置及び画像符号化装置、画像復号装置 | |
| JP2019205036A (ja) | 動画像符号化装置、動画像復号装置 | |
| JP2021180342A (ja) | 予測画像生成装置、動画像復号装置、および動画像符号化装置 | |
| JP2021064817A (ja) | 動画像符号化装置及び動画像復号装置 | |
| WO2018101100A1 (ja) | 画像フィルタ装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230427 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230427 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240611 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240703 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7516603 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |