JP7762035B2 - 画像処理装置および方法、プログラム - Google Patents

画像処理装置および方法、プログラム

Info

Publication number
JP7762035B2
JP7762035B2 JP2021167575A JP2021167575A JP7762035B2 JP 7762035 B2 JP7762035 B2 JP 7762035B2 JP 2021167575 A JP2021167575 A JP 2021167575A JP 2021167575 A JP2021167575 A JP 2021167575A JP 7762035 B2 JP7762035 B2 JP 7762035B2
Authority
JP
Japan
Prior art keywords
image
learning
frame
inference
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021167575A
Other languages
English (en)
Other versions
JP2023057860A (ja
Inventor
理枝子 塚越
瑞生 松本
陽太 上原
秀一 細川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2021167575A priority Critical patent/JP7762035B2/ja
Priority to US17/959,329 priority patent/US20230110665A1/en
Publication of JP2023057860A publication Critical patent/JP2023057860A/ja
Application granted granted Critical
Publication of JP7762035B2 publication Critical patent/JP7762035B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Description

本発明は、機械学習を利用して画像群を高精細化する画像処理装置および方法、プログラムに関する。
機械学習を用いた超解像技術とは、画像を拡大して解像度変換を行う時に、画素値の線形補間処理では補えない高周波成分を機械学習によって推論することにより高精細な画像を生成する技術である。超解像技術では、まず、画像群Gと、画像群Gの各画像を任意の方法で劣化させた劣化画像とを教師データとして用いて学習モデルが生成される。学習モデルは、原画像と劣化画像の画素値の差分を学習し、自身が保持する超解像処理パラメータを更新することにより生成される。こうして生成された学習モデルに対して高周波成分が不足した画像Hを入力すると、学習モデルを用いた推論により高周波成分が取得される。推論により取得された高周波成分を画像Hに重ねることで、高精細画像を生成することができる。動画に対して超解像処理を行う場合には、全てのフレームを1枚ずつ学習モデルに入力することにより、高精細な動画を生成することができる。
一般的に、学習モデルを利用した製品やサービスが提供される場合、教師データを収集して学習モデルを生成する処理は開発者によって行われ、生成された学習モデルがユーザーへ提供される。そのため、学習処理を行う時点ではユーザーにより入力される動画の内容は未知である。そこで開発者側は、あらゆる推論対象動画に対して均等な精度で推論できるよう、教師データとして画像パターンに偏りのない多種多様な画像を大量に用意して繰り返し学習させる。
例えば特許文献1には、多様な画像を学習した学習モデルを用いて動画に対して超解像処理を行う技術が記載されている。しかしながら、教師データが多様であるため、ユーザーが指定する推論対象動画Qと類似度が高い教師データはごく僅かである。そのような学習モデルが用いられた場合、推論対象動画Qと類似度の低い画像を学習した結果が推論処理に反映されてしまう。その結果、被写体のエッジが強調されることによる解像感の向上などに留まり、被写体の細かな模様などといった高周波成分を正確に推論することは困難であり、推論精度は高いとは言えない。
このような課題を解決するためのシステムの例として、推論対象動画と撮影場所・撮影条件などが類似する画像のみを教師データとして用いてユーザー側で学習を行い、多様な画像を学習した場合に比べて高精細な動画を得る手法が特許文献2に記載されている。
特開2019-204167号公報 特開2019-129328号公報
特許文献2では、撮影場所が共通し撮影時刻が異なる教師データを用いて学習を行っている。より具体的には、路線バスのルートの一部区間Sで過去に撮影された映像を蓄積して学習し、その結果の学習モデルを用いて区間Sのリアルタイム映像に対して推論が実行される。この場合の教師データは区間Sで撮影されたものに限定されることから、推論対象と類似度が比較的高い画像群であるため、推論精度の向上が期待できる。しかし、区間Sで撮影された映像の中でも、例えば区間Sの始点の映像と区間Sの終点の映像とは撮影場所が異なるため、映っている被写体も全く異なり、類似性が高いとは言えない。このことが区間S全体の推論精度を低下させる要因となる。加えて、教師データとなる過去の映像と推論対象のリアルタイム映像では、同一地点における映像でも映っている被写体は異なっている。学習が行われていない被写体については正確な推論が行われないため、このことも推論精度の低下の要因となる。
また、特許文献2には、天候などの撮影条件によって過去映像を複数のグループに分類し、各グループのデータによる学習を独立に行って複数の学習モデルを生成し、リアルタイム映像の撮影条件によって使用する学習モデルを切り替えることが記載されている。このような技術によれば、撮影条件が異なることによる推論精度の低下を抑制することも可能となる。しかし、天候などの条件が共通しても、照度などの値がわずかでも異なると、教師データと推論対象の周波数成分が異なってしまうので、推論精度の低下を十分に抑制できるとは言えない。これらの要因により、特許文献2の技術においても、高周波数成分の推論精度が十分とは言えない。
本発明は上述した課題に鑑みてなされたものであり、その目的は、機械学習を用いて、画像を高い精度で高精細化することができる画像処理装置を提供することである。
本発明に係わる画像処理装置は、第1の画像群を用いて、前記第1の画像群よりも対応するフレームの高周波成分が少ない第2の画像群の画像を高精細化する画像処理装置であって、前記第1の画像群から選択された第1の画像と、前記第1の画像よりも高周波成分が少なく且つ前記第1の画像の撮影時刻との差が所定の閾値より小さい撮影時刻を有する第3の画像との複数の対を、教師データの候補として取得する取得手段と、前記教師データの候補の複数の対のうちから、学習に用いる一対の教師データを、前記第2の画像群から選択された高精細化対象の画像に基づいて選択する選択手段と、前記選択手段により選択された前記一対の教師データを用いて学習モデルを生成する学習モデル生成手段と、生成された前記学習モデルを用いて前記高精細化対象の画像の高周波成分を推論する推論手段と、前記高精細化対象の画像と、前記推論手段により推論された高周波成分とに基づいて高精細化された画像を生成する画像生成手段と、を備えることを特徴とする。
本発明によれば、機械学習を用いて、画像を高い精度で高精細化することができる画像処理装置を提供することが可能となる。
第1実施形態による画像処理装置の構成を示すブロック図。 第1実施形態による画像処理装置の機能構成を説明する図。 第1実施形態による入力動画のフレーム構成の一例を示す図。 第1実施形態による画像処理装置の機能構成を説明する図。 第1実施形態による候補データベースのデータ構成例を示す図。 第1実施形態による教師データ候補取得処理のフローチャート。 第1実施形態による高精細動画生成処理のフローチャート。 第1実施形態による学習/推論工程を説明する模式図。 第2実施形態における入力動画のフレーム構成の一例を示す図。 第2実施形態による教師データ候補取得処理のフローチャート。 第3実施形態による入力動画のフレーム構成の一例を示す図。 第3実施形態による教師データ候補取得処理のフローチャート。 第5実施形態による動画のフレーム構成の一例を示す図。 第5実施形態による画像処理装置の機能構成を説明する図。 第5実施形態における高精細動画生成処理のフローチャート。 第6実施形態、第7実施形態、第8実施形態、および第9実施形態における高精細動画生成処理のフローチャート。 第6実施形態における学習/推論処理の一例を示す図 第8実施形態における高精細動画生成処理のフローチャート。 第9実施形態による教師データの領域選択の一例を示す図。
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
<第1実施形態>
(画像処理装置の概要説明)
第1実施形態の画像処理装置は、同一撮像装置で同時に撮影された二つの動画Aと動画Bを入力とする。動画Aの解像度XA及びフレームレートFAと、動画Bの解像度XB及びフレームレートFBの関係は、「XA>XBかつFA<FB」となっている。画像処理装置は、動画Aおよび動画Bのフレームを用いて学習モデルを生成し、生成した学習モデルを用いた推論によって動画Bから解像度XA及びフレームレートFBの動画Cを生成する機能(高精細動画生成機能)を有する。
(画像処理装置の構成の説明)
図1は、第1実施形態による画像処理装置100のハードウェア構成例を示すブロック図である。制御部101はCPUなどの演算装置であり、ROM102に格納されたプログラムをRAM103の作業領域に展開し実行することにより各種機能を実現する。制御部101は、例えば、図2により後述される解析部211および復号動画生成部212、図4により後述される候補取得部413、教師データ抽出部414の各機能ブロックとして機能し得る。ROM102は、制御部101によって実行される制御プログラムを格納する。RAM103は、制御部101がプログラムを実行するためのワークメモリや、各種データの一時格納領域などのために使用される。
復号部104は、Moving Picture Experts Group(以下MPEGと省略)が定める符号化形式によって圧縮された動画または画像データを非圧縮データに復号する。学習推論部105は、教師データを入力して学習モデルを生成/更新する機能ブロック(図4により後述される学習部451)を有する。また、学習推論部105は、学習によって生成された学習モデルを用いて入力画像を解析し、高周波成分を推論することにより、当該入力画像の高精細画像を生成する機能ブロック(図4により後述される推論部452)を有する。本実施形態では、学習モデルとして、畳み込みニューラルネットワーク(Convolutional Neural Network、以下CNNと省略)をベースとした超解像処理用CNNモデルが用いられる。これは、入力画像の線形補間による拡大と、拡大画像に加算する高周波成分の生成および、両者の加算合成を行う。
記録部106は、ハードディスクドライブ(HDD)やメモリーカード等の、画像処理装置100に着脱可能に接続された記録媒体と、記録媒体の制御を行う記録媒体制御装置によって構成される。記録媒体制御装置は、制御部101からの命令に従い、記録媒体の初期化、データの読み書きのために行われる記録媒体とRAM103の間のデータ転送などを制御する。バス107は各機能を繋ぐ情報通信路である。制御部101、ROM102、RAM103、復号部104、学習推論部105、記録部106が互いに通信可能に接続される。
なお、本実施形態において説明されるハードウェアブロックや、それらにおいて実現される機能ブロックは必ずしも上述した構成である必要はない。例えば、制御部101、復号部104、学習推論部105のうちの2つ以上のブロックが1つのハードウェアにより実現されても良い。また、いくつかのハードウェアの連係動作により1つの機能ブロックの機能または、複数の機能ブロックの機能が実行されても良い。また、各機能ブロックは、CPUがメモリ上に展開したコンピュータプログラムを実行することにより実現されても良いし、専用のハードウェアにより実現されてもよい。また、各機能ブロックの一部がクラウドサーバ上に存在し、通信によって処理結果のデータを転送する構成でもよい。
(記録媒体に記録されているデータおよび、その復号・展開方法)
図2は、制御部101(解析部211と復号動画生成部212)による圧縮動画データの展開処理を行う機能ブロックを説明する図である。記録部106には、高精細動画生成処理の入力データである動画aおよび動画bが格納されている。ここで動画とは時間的に連続した1つ以上の画像データを示す。本実施形態の動画aおよび動画bは、イメージセンサを有する撮像装置により同時に撮影され、MPEG方式で圧縮されたものである。動画a、動画bは単一のイメージセンサが撮影した画像に各々間引き・縮小処理を加えて生成されてもよいし、同一被写体を異なる解像度・フレームレートのイメージセンサで撮影することで生成されてもよい。以下では、動画aと動画bは、1つの撮像装置が有する1つのイメージセンサによって撮影された1つの画像に対して異なる画像処理を行って得られた2つの画像群であるとする。動画a、動画bの動画データはそれぞれMPEG方式で圧縮されており、撮影時刻情報とともに多重化され、MP4形式で格納されている。なお、記録部106から画像データおよび対応する撮影時刻情報が対で取得できるものであれば、上記以外の形式でも構わない。
解析部211は、記録部106に記録されている動画データ(本例ではMP4形式のファイル)をパースして、内包される圧縮画像データや、メタデータとして登録される時刻情報の、ファイル内の格納位置を算出する機能を有する。MP4形式ではMoov部分に各フレームデータおよび撮影時刻情報のファイル内における記録位置を示す位置情報が記録されている。解析部211は、記録部106から動画aのMoov部をRAM103に展開してパースし、動画aにおけるフレーム番号、フレームデータの位置情報および撮影時刻の位置情報を持つテーブルPaを生成する。また、解析部211は、動画bのMoov部についても同様にパースし、動画bにおけるフレーム番号と、フレームデータの位置情報および撮影時刻の位置情報を持つテーブルPbを生成する。テーブルPaおよびテーブルPbはRAM103に保持される。
高精細動画生成処理で使用するためには、動画aおよび動画bを非圧縮形式に変換する処理を行う必要がある。図2に示されるように、制御部101の復号動画生成部212は、動画aおよび動画bを復号して動画Aおよび動画Bを生成し、記録部106に記録する。より具体的には、復号動画生成部212が、RAM103に保持されたテーブルPaおよびテーブルPbを参照し、記録部106に保存されている動画aおよび動画bのフレームデータを順次に復号部104に入力する。復号動画生成部212は、復号部104が出力する非圧縮形式のフレームデータを、テーブルPaおよびテーブルPbを参照して取得した撮影時刻情報と多重化して記録部106に記録する。以下、動画aを復号することにより動画Aが得られ、動画bを復号することにより動画Bが得られたとする。また、復号動画生成部212は、動画Aにおけるフレーム番号、フレームデータの位置情報、および撮影時刻の位置情報を持つテーブルPAを生成し、RAM103に記録する。同様に、復号動画生成部212は、動画Bにおけるフレーム番号、フレームデータの位置情報、および撮影時刻の位置情報を持つテーブルPBを生成し、RAM103に記録する。動画Aおよび動画Bのフレーム構成の一例を図3に示す。図3では、動画Aの総フレーム数をn、動画Bの総フレーム数をmとしている。破線で示されるフレームの対(複数対の画像A1とB2、A2とB5、A3とB8など)は同一の撮影時刻情報を有するフレームの対であり、これらフレームの画像が同一タイミングで撮影されていることを表している。
次に本実施形態による、高精細化画像を生成するための処理について説明する。この処理は、大きく「教師データ候補取得処理」と「高精細動画生成処理」の2つに分かれる。
図4は、第1実施形態の画像処理装置100による、画像処理における機能ブロックの動作を説明する図である。図2で説明したように、動画Aおよび動画Bが記録部106に保持され、テーブルPAおよびテーブルPBがRAM103に保持されている。「教師データ候補取得処理」は候補取得部413により、「高精細動画生成処理」は教師データ抽出部414、学習部451、推論部452により行われる。候補取得部413は、動画Aのフレーム群と動画Bのフレーム群から学習用の教師データの候補となるフレームの対を教師データ候補として抽出し、候補データベースD1を生成する。高解像度化対象および高精細化対象であるフレームByは、画像Bのフレーム群から取得される。教師データ抽出部414は、フレームByの高周波成分の推論に適した学習モデルを生成するべく、候補データベースD1に登録されている教師データ候補からさらに学習に適した教師データを抽出し、教師データベースD2を生成する。学習推論部105の学習部451は、教師データベースD2を用いて、フレームByのための学習モデルMを生成する。推論部452は、学習部451が生成した学習モデルMに高解像化対象であるフレームByを入力し、フレームByの高精細化処理を行う。以下、「教師データ候補取得処理」と「高精細動画生成処理」についてより具体的に説明する。
(教師データ候補取得処理)
教師データ候補取得処理では、制御部101(候補取得部413)により、候補データベースD1が生成される。第1実施形態では、候補取得部413は、動画Aおよび動画Bのフレームのうち、撮影時刻の一致する動画Aのフレームおよび動画Bのフレームの対を教師データ候補として取得する。具体的には、動画Aと動画Bの共通した撮影時刻を有するフレーム対(図3において破線で示されたフレーム対)の全てが教師データ候補として取得される。候補取得部413は、後述の学習処理が行われる前に、どのフレームが教師データとして使用可能であるかを調査し、候補データベースD1を構築してその調査結果を登録する。
図5に候補データベースD1のデータ構成例を示す。候補データベースD1には、動画Aのフレーム群のうち教師データとして使用できるフレーム群TAと、動画Bのうち教師データとして使用できるフレーム群TBの、各動画ファイル内でのフレーム番号が登録される。ここで、撮影時刻が一致するフレームの対(フレーム番号の対)は、候補データベースD1内の固有のインデックスIにより関連付けられて登録される。例えば、図3に示される動画Aと動画Bでは、A1とB2、A2とB5、A3とB8(以降省略)のフレームの対が、同一時刻に撮影されたフレームの組み合わせとなっている。図5に示される候補データベースD1は、これらの対をフレーム番号で記録し、固有のインデックスIを与えた様子を示している。このように、取得された教師データ候補は候補データベースD1により管理される。
以上説明した教師データ候補取得処理の詳細を、図6のフローチャートを用いてさらに説明する。S601において、候補取得部413は、動画Aのフレームを1フレーム選択し、選択したフレームに対応する時刻情報をテーブルPAから取得する。本実施形態では、記録部106に記録されている動画Aの先頭から順にフレームが選択される。より具体的には、候補取得部413が記録部106に記録された動画Aの先頭から順に1フレームを選択する。以下、選択されたフレームをフレームAxと記述する。候補取得部413は、フレームAxに対応する時刻情報を、RAM103に記録されたテーブルPAを参照することにより、記録部106から読み出し、RAM103に転送する。
S602において、候補取得部413は、S601で読み出したフレームAxの時刻情報と動画Bの各フレームの時刻情報を比較する。具体的には、候補取得部413がテーブルPBに記録されている撮影時刻の位置情報を参照して動画Bの各フレームの撮影時刻情報を記録部106から順次に取得し、フレームAxの時刻情報と比較する。S603において、候補取得部413は、フレームAxの時刻情報と一致する撮影時刻を有する動画Bのフレームを取得し、これをフレームBxとする。
S604において、候補取得部413は、上記のフレームAxとフレームBxの組み合わせに候補データベースD1内で固有のインデックスIxを与えて、候補データベースD1に登録する。具体的には、候補取得部413がフレームAxとフレームBxの組み合わせに固有のインデックスIxを発行し、インテックスIxと、フレームAxの動画A内でのフレーム番号と、フレームBxの動画B内でのフレーム番号を候補データベースD1に登録する。
S605において、制御部101は、動画Aの全フレームに対して上述のS601~S604の処理が完了したか判定する。制御部101は、完了したと判定した場合(S605でYES)は処理を終了する。制御部101は、完了していないと判定した場合(S605でNO)、処理をS601に戻し、動画Aの次のフレームについて上述の処理を実行する。以上の処理により、候補データベースD1が生成される。
なお、本実施形態ではS602において候補データベースD1へ登録するフレームの対を撮影時刻の比較により判定したが、これに限られるものではない。例えば、フレームAxを解像度XBに縮小し、これと動画Bの各フレームの画像との類似度を表す指標を用いて類似性判定を行い、その判定結果を用いて候補データベースD1に登録するフレームの対を選出しても良い。この場合、候補取得部413は、2つ以上の画像データを比較して類似度を判定する類似度判定機能を有することになる。なお、画像の類似度を表す指標としては、例えば構造的類似性指数(Structural Similarity:SSIM)を用いることができる。また、類似度を示す指標の取得において、フレームAxの画像を解像度XBに縮小したが、これに限られるものではない。フレームAxの画像は縮小されなくてもよいし、縮小後の解像度がXB以外であってもよい。
(高精細動画生成処理)
次に、制御部101(教師データ抽出部414)と学習推論部105(学習部451、推論部452)が行う高精細動画生成処理について説明する。まず図4を参照して高精細動画生成処理の概要を説明する。教師データ抽出部414が、「推論対象フレームByのための学習モデル」の学習に適した教師データを候補データベースD1から選択し、教師データベースD2(図4)を生成する(詳細は図7のS702~S703の参照により後述する)。学習部451は、抽出された教師データを用いて学習モデルを生成する(S704)。そして、推論部452が、学習モデルを用いて推論対象フレームByの高周波成分を推論して高精細化処理(S705)を行い、推論対象フレームByの高精細化されたフレーム(画像)Cyを得る。なお、高精細動画生成処理の開始前に、制御部101は記録部106上に動画Cを生成しておく。高精細動画の生成開始時点では、動画Cはフレームデータを持たず、空の状態である。推論部452は、生成されたフレームCyを順次に動画Cに記録していく。
以下、図7のフローチャートを参照して、上述した高精細動画の生成処理をより具体的に説明する。S701において、教師データ抽出部414は、動画Bから、高精細化対象フレームとしての一つのフレームを読み出す。本実施形態では、教師データ抽出部414は、記録部106に記録されている動画Bの先頭から順番に1フレームずつを読み出す。以下、S701で読み出されたフレームをフレームByとする。より具体的には、教師データ抽出部414は、テーブルPBを参照してフレームByのフレームデータと撮影時刻情報を記録部106から読み出し、RAM103に転送する。
S702において、教師データ抽出部414は、候補データベースD1に登録されている教師データ候補TBの中から、フレームByとの撮影時刻の差分が予めシステムで定められた閾値より短いフレームを抽出し、これを教師データベースD2に登録する。閾値としては、例えば、動画Aの1フレーム表示期間(フレームレートXAによる1フレームの表示期間)を用いることができる。教師データベースD2の構造は候補データベースD1(図5)と同様である。具体的には、まず、教師データ抽出部414は、テーブルPBの位置情報を参照して候補データベースD1に登録されたフレーム群TBのそれぞれの時刻情報を取得する。教師データ抽出部414は、取得した時刻情報のそれぞれとフレームByの撮影時刻とを比較し、両者の差分が閾値より短いフレームをフレーム群TBから抽出し、RAM103上の教師データベースD2に登録する。以下、上記処理により教師データベースD2に登録された動画Bのフレーム群をUBとする。なお、本実施形態では、教師データベースD2を構築する際に、フレームByとの撮影時刻が閾値より短いフレーム群を候補データベースD1から抽出したが、これに限られるものではない。フレームByとの類似度を表す指標を用いてフレーム群UBが抽出されてもよい。例えば、教師データ抽出部414は、SSIMを用いてフレームByとの類似度指標が予めシステムに定められた閾値より高いフレーム群をフレーム群TBから抽出してフレーム群UBとして登録するようにしても良い。
S703において、教師データ抽出部414は、候補データベースD1においてフレーム群UBの各フレームと対となっているフレーム群TAのフレームを教師データベースD2に登録する。具体的には、教師データ抽出部414は、RAM103上の候補データベースD1を参照し、フレーム群UBの各フレームとインデックスIで関連づいているフレーム群TAのフレームを教師データベースD2に登録する。このとき、関連付けられた2つのフレームの組み合わせは変更せず、各組み合わせに教師データベースD2内で固有のインデックスJを付与する。以下、教師データベースD2に登録された動画Aのフレーム群をUAとする。
S704において、学習部451は、教師データベースD2に登録された教師データ(フレーム群UAおよびフレーム群UB)を用いて学習を行い、学習モデルMを生成する。
図8は、学習部451による学習モデル生成機能を模式的に示した図である。学習モデル生成機能は学習工程および推論工程を有し、さらに推論工程はCNNを含むフィルタを用いた特徴抽出工程と再構成工程とに分類される。まず特徴抽出工程において、学習部451は、フレーム群UBからの一枚の画像をCNNに入力し(画像Eとする)、CNNによって多数の特徴マップを生成する。次に再構成工程において、学習部451は、全ての特徴マップを逆畳み込みによってアップサンプリングして予想高周波成分を生成する。再構成工程では、さらに、学習部451が、画像Eをバイキュービック法などにより拡大した画像E’と予想高周波成分とを加算することにより画像の再構成を行い、予測高精細画像Gを生成する。学習工程において、学習部451は、上述の推論工程で生成された予測高精細画像Gを、フレーム群UAのうちの画像Eと対応する画像Hと比較し、それらの差分を用いた誤差逆伝搬法により学習モデルMの微小なチューニングを行う。学習部451は、これらの処理を同一の画像Eに対して所定回数繰り返すことで、推論精度を向上させる。以上の一連の処理をフレーム群UBの各画像に対して行うことで、フレーム群UBの推論処理に適した学習モデルMが構築される。
以上のように、学習部451は、教師データベースD2およびテーブルPAとテーブルPBを参照して、教師データとして登録されたフレーム対のフレームデータを記録部106から読み出し、上述した学習モデル生成機能に入力する。学習部451は、学習モデル生成機能により生成された学習モデルMをRAM103に保存する。
S705において、推論部452は、S704で生成された学習モデルMを用いた推論により、フレームByから高精細フレームCyを生成する。具体的には、まず、推論部452がRAM103に保存された学習モデルMを読み出す。次に、推論部452は、S701でRAM103に保持されたフレームByのフレームデータ(画像)を学習モデルMのCNNに入力し、「フレームByの画像を解像度XAに拡大した際に期待される高周波成分」を生成する。推論部452は、生成された高周波成分を「フレームByの画像を解像度XAに線形拡大した画像」に加算することで解像度XAの高精細フレームCyの画像を生成し、これをRAM103に記録する。なお、以上の、フレームByについて行われる高周波成分の推論から高精細画像の生成までの処理は、図8を用いて上述した推論工程と同様の処理である。推論部452は、RAM103に記録された高精細フレームCyのフレームデータを、記録部106上の高精細動画Cの末尾に追記する。また、Byの撮影時刻情報を複製し、高精細フレームCyの撮影時刻として多重化して動画Cに記録する。
S706において、制御部101は、動画Bの全フレームに対して上記の処理が完了しているか否かを判定する。制御部101は、完了していないと判定した場合(S706でNO)、処理をS701に進め、動画Bの次のフレームがフレームByとして教師データ抽出部414により選択され、上記の処理が繰り返される。一方、制御部101は、完了していると判定した場合(S706でYES)、本処理を終了する。以上説明したように、高精細動画生成処理が終了すると、記録部106には、解像度XA、フレームレートFBの高精細動画Cが非圧縮形式で記録されている。
なお、上記では、それぞれの機能ブロックが制御部101のみ、或いは学習推論部105のみにより実現されるように説明したが、これに限られるものではない。例えば、各機能ブロックは、制御部101および学習推論部105の協働により実現されてもよい。例えば、推論部452の機能を制御部101と学習推論部105により実現するようにして、高精細フレームCyと撮影時刻を記録部106上の動画Cに記録する処理は制御部101により実行されるようにしてもよい。
また、本実施形態では動画全体の学習処理および高精細動画生成処理を行う前に教師データ候補取得処理を行ったが、高精細動画生成処理の実行と並行して実行しても良い。また、本実施形態ではS704で推論対象フレーム毎に学習モデルMを新規作成し前回生成分を破棄していたがこれに限られるものではない。例えば、予め外部で学習した学習モデルM’をロードして、ロードした学習モデルM’に対してS704でフレーム群UA及びフレーム群UBを用いた追加学習が行われるようにしても良い。
以上のように、第1実施形態によれば、同じ撮影期間において撮影された画像群のうち、高精細化対象の画像と近い画像群により学習された学習モデルMが用いられるので、高い精度で画像を高精細化することができる。また、2つの画像群のうちの同一時刻の画像の対が教師データとして用いられるので、より高精度な学習が可能である。
<第2実施形態>
(複数カメラによる同時記録の場合)
第1実施形態の教師データ候補の取得処理では、撮影時刻が一致する動画Aのフレームと動画Bのフレームの組み合わせを候補データベースD1に登録した。動画Aおよび動画Bが、一つの撮像装置の同一のイメージセンサを用いて同時に撮影された動画から取得される場合は、図3に例示されるように、動画Aと動画Bから撮影時刻が同じフレームを取得することができる。しかし、この方法では、動画Aおよび動画Bが複数のイメージセンサによって同じ撮影期間に撮影された動画である場合に、教師データ候補の抽出が適切に行われなくなる可能性がある。これは、図9に例示されるように、動画Aのフレームの撮影時刻と一致する撮影時刻のフレームが動画Bに必ずしも存在しないためである。なお動画Aと動画Bを複数のイメージセンサにより撮影する構成としては、複数のイメージセンサを有する撮像装置を用いて撮影を行う構成、1つ以上のイメージセンサを有する複数の撮像装置を用いて撮影を行う構成などがあげられる。第2実施形態の教師データ候補の取得処理では、動画Aのフレームと動画Bのフレームの撮影時刻が一致しなくとも、時刻の差分が予め定められた閾値より短いフレームの組み合わせを候補データベースD1に登録することで、上記の課題を解決する。
第2実施形態では、画像処理装置100の構成、高精細画像生成処理は第1実施形態と同様であり、教師データ候補の取得処理の一部が異なる。図10は第2実施形態による教師データ候補の取得処理を説明するフローチャートである。以下、第1実施形態の教師データ候補の取得処理(図6)と異なる部分について主に説明する。
S1001~S1002の処理はそれぞれ第1実施形態(図6)のS601~S602と同様である。S1003において、候補取得部413は、動画Bのフレームのうち、その撮影時刻と動画Aの1つのフレームAxの撮影時刻との差が予め定められた閾値より短いフレームをフレームBxとして取得し、RAM103上の候補データベースD1に登録する。なお、そのような閾値としては、例えば、動画BのフレームレートXBによる1フレーム当たりの表示期間があげられる。以降のS1004~S1005の処理は、それぞれ第1実施形態(図6)のS604~S605と同様である。
以上のように、第2実施形態によれば、動画Aと動画Bが複数のイメージセンサにより取得されたものであっても、適切に教師データ候補を抽出することが可能となる。
<第3実施形態>
(別時刻撮りの場合)
第1実施形態と第2実施形態では、動画Aと動画Bは少なくとも同じ撮影期間で撮影されたものであった。したがって、第1実施形態および第2実施形態の教師データ候補取得処理では、図11のように、動画Aおよび動画Bが同一または複数の撮像装置によって異なる時刻(撮影期間が重複しない)に撮影された場合に、教師データ候補を取得することができない。第3実施形態では、図11に示されるような動画A、動画Bについて、適切に教師データ候補を取得するための教師データ候補の取得処理を説明する。
第3実施形態における教師データ候補の取得処理では、動画Aのフレームと動画Bのフレームのフレーム類似度を表す指標が算出され、予めシステムに定められた閾値以上の指標を有するフレームの対が候補データベースD1に登録される。なお、フレーム類似度を表す指標としては、上述したように、例えばSSIMを用いることができる。なお、類似性の判定では、動画Aのフレームの画像を解像度XBに縮小し、これと動画Bの各フレームの画像とを用いて類似度を表す指標を計算する。但し、この際に、動画Aのフレームの画像は縮小されなくてもよいし、縮小後の解像度はXB以外であってもよい。
図12は、第3実施形態による教師データ候補の取得処理を説明するフローチャートである。以下、主として第1実施形態における教師データ候補の取得処理(図6)と異なる部分について図12のフローチャートを参照して説明する。
S1201において、候補取得部413は、動画Aのフレームを1フレーム選択し、選択したフレームのフレームデータを読み込む。候補取得部413は、記録部106に記録されている動画Aの先頭から順に1フレームを選択し(以下、選択したフレームをフレームAxと記述)、フレームAxのフレームデータを、RAM103に記録されたテーブルPAを参照して記録部106からRAM103に転送する。
S1202において、候補取得部413は、S1201で読み出したフレームAxと動画Bの各フレームとの類似度を算出する。より具体的には、候補取得部413がテーブルPBの(フレームデータに関する)位置情報を参照して動画Bの各フレームのフレームデータを記録部106からRAM103に順次取得する。そして、候補取得部413が、類似度指標算出機能(本実施形態ではSSIM)によってフレームAxと各フレームの類似度指標を算出し、RAM103に記録する。S1203において、候補取得部413は、S1202で算出された類似度指標の中でもっとも数値が高い動画BのフレームをフレームBxとして取得する。以下、S1204~S1205の処理は、第1実施形態(図6)のS604~S605と同様である。
以上のように、第3実施形態によれば、2つの画像群(動画Aと動画B)の撮影期間が重複していなくても適切な教師データ候補を取得することができる。
<第4実施形態>
(画像類似性を加味した、学習性能の向上)
第4実施形態では、第1実施形態~第3実施形態の学習処理において、画像類似性を加味した学習モデルMの性能向上について説明する。第1実施形態で説明したように、図7のS701において選択されたフレームByに対して適切な教師データが抽出され、S704においてそれら教師データを用いて学習モデルMが生成/更新される。この学習モデルMの生成/更新の際には、図8に示されるように、誤差逆伝搬を用いたネットワークパラメータのチューニングが行われる。第4実施形態では、学習に用いているフレーム(画像E)と高解像度化および高精細化の対象であるフレームByの属性(例えば撮影時刻)またはそれらフレームの画像に基づいて、誤差逆伝搬によるチューニングの強度を制御する。より具体的には、学習部451は、学習工程において、順次に入力されるフレーム群UBの各フレームとフレームByの類似性が強いものほど誤差逆伝搬によるネットワークパラメータ更新への影響を強くし、弱いものは弱くするように係数を決定する。ここで、画像類似性は、簡易的にフレームByと入力画像Eとの時刻差分に基づいて求められても良いし、SSIM等を用いた両フレームの画像の比較により求められても良い。例えば前者(時刻差分を用いた方法)を用いる場合、以下のように、時刻差分が閾値より小さければチューニングの強度に係数1を、時刻差分が閾値以上であればチューニング強度に係数0.5を乗じるような構成があげられる。
if(ABS(ByとEの時刻差分)<閾値){係数=1}else {係数=0.5}
他方、後者(類似性を用いた方法)を用いる場合は、以下に示されるように、構造的類似性指数(SSIM)をチューニング強度の係数として用いる構成があげられる。
係数=SSIM(ByとE) [0≦ SSIM(x)≦ 1]
なお、影響力の強弱の付け方としては、例えば、誤差逆伝搬におけるネットワークパラメータの更新率に上述の係数を乗じる方法、パラメータ更新率に係数を掛けず入力画像Eに対する学習ループ回数に係数を乗じる方法、などがあげられる。
<第5実施形態>
第1実施形態~第3実施形態では、動画Aからのフレームと動画Bのからのフレームの対が教師データ候補として抽出されて候補データベースD1に登録される構成を説明した。第5実施形態では、動画Aを動画Bの解像度XBに変換した動画A’を生成し、候補取得部413は動画Aと動画A’を用いて教師データ候補を取得する。すなわち、第5実施形態の候補取得部413は、動画AのフレームAxと同一フレーム番号のフレーム(Ax’とする)を動画A’から抽出し、フレームAxとフレームAX’の対を教師データ候補として候補データベースD1に登録する。以下、第5実施形態について詳細に説明する。
(画像処理装置100の構成の説明)
画像処理装置100のハードウェア構成、機能構成は第1実施形態(図1)と同様である。但し、第5実施形態の制御部101は、バイキュービックにより画像の解像度を縮小変換するための解像度変換機能も有する。この解像度変換機能は、RAM103に記録されている画像データに対して解像度の縮小処理を行う際、補間が必要な画素の画素値を、その周辺画素を参照することにより算出する。
(記録部106に記録されているデータおよび、その復号・展開方法)
第1実施形態では、記録部106に格納されている動画aおよび動画bを非圧縮形式に変換し、動画aを復号したものを動画A、動画bを復号したものを動画Bとして記録部106に記録した。第5実施形態ではさらに、動画Aを動画Bの解像度XBに変換した動画A’が生成される。より具体的には、制御部101がRAM103に記録されたテーブルPAを参照して、記録部106に保存されている動画Aのフレーム(以下、フレームK)のフレームデータを順次に制御部101が持つ解像度変換機能に入力する。すると、解像度変換機能により、解像度XBのフレームデータのフレーム(以下、フレームK’)が出力される。制御部101は、テーブルPAを参照して記録部106から読み出されたフレームKの撮影時刻情報と多重化して、動画A’のフレームとして記録部106に記録する。また、動画A’の各フレームのフレーム番号、フレームデータの位置情報および撮影時刻データの位置情報を保持するテーブルPA’をRAM103に記録する。
これら動画A、動画Bおよび動画A’の一例を図13に示す。動画Aの各フレームの画像(A1~An)に対して、解像度XBに縮小された画像(A1’~An’)が生成され、動画A’として記録部106に記録される。なお、上記の例では、動画Aの解像度をXBに低下させているが、これに限られるものではない。動画A’は、動画Aの解像度よりも低い解像度を有するように変換された画像であればよい。但し、高精細化対象の画像と同じ解像度に変換された画像を用いることで、高精細化対象の画像により適した学習モデルを構築することができる。
(教師データ候補の取得処理)
図14に、第5実施形態の画像処理装置100による、画像処理における機能ブロックの構成および動作を示す。候補取得部413は、動画Aおよび動画A’の各フレームに対して、同一フレーム番号を持つフレームの組み合わせを取得し、候補データベースD1に登録する。より具体的には、候補取得部413は、テーブルPAに記載された動画Aの各フレームについてフレーム番号が一致しているフレームを、テーブルPA’を参照することにより動画A’から探索する。候補取得部413は、フレーム番号が同じである動画Aと動画A’のフレームの組合せに対して固有のインデックスIを付与して候補データベースD1に登録する。候補データベースD1に登録された動画Aのフレーム群をTA、動画A’のフレーム群をTA’とする。
(高精細動画生成処理)
以下、主に第1実施形態の処理(図7)と異なる部分を、図15のフローチャートを参照して説明する。
S1501の処理は、第1実施形態(図7)のS701と同様である。S1502において、教師データ抽出部414は、候補データベースD1に登録されている教師データ候補のフレーム群TA’から、フレームByとの撮影時刻の差分が予めシステムで定められた閾値より短いフレームを抽出する。閾値としては、例えば、動画Aの1フレーム表示期間(フレームレートXAによる1フレームの表示期間)を用いることができる。教師データ抽出部414は、抽出したフレームを教師データベースD2に登録する。
具体的には、まず、教師データ抽出部414がテーブルPA’を参照してフレーム群TA’に登録されたフレームの時刻情報を取得する。教師データ抽出部414は、取得したフレーム群TA’の時刻情報のうち、フレームByとの時刻の差分が閾値より短いフレームを、RAM103上の教師データベースD2に登録する。以下、教師データベースD2に登録された動画A’のフレーム群をフレーム群UA’とする。なお、本実施形態では、フレームByの撮影時刻との差が所定の閾値より短いフレームを候補データベースD1から抽出するが、これに限られるものではない。例えば、フレーム群TA’の各フレームの画像とフレームByの画像の類似度を表す指標(例えばSSIM)が予めシステムに定められた閾値より高いフレームをフレーム群TA’から抽出して教師データベースD2に登録するようにしても良い。
S1503において、教師データ抽出部414は、フレーム群UA’の各フレームとインデックスIで関連付いているフレーム群TAのフレームをD2に登録する。具体的には、教師データ抽出部414は、RAM103上の候補データベースD1を参照し、フレーム群UA’の各フレームとインデックスIで関連づいているフレーム群TAのフレームを教師データベースD2に登録する。この時、関連付けられた組み合わせ(フレームの対)は変更せず、各組み合わせに教師データベースD2内で固有のインデックスJが付与される。以下、教師データベースD2に登録された動画Aのフレーム群をフレーム群UAとする。
S1504において、学習部451は、教師データベースD2を参照することによりフレーム群UAとフレーム群UA’を用いた学習を行い、学習モデルMを生成する。具体的には、まず、学習部451が、教師データベースD2およびテーブルPAとPA’を参照して、フレームデータを記録部106から読み出し、学習モデル生成機能に入力する。学習部451は、学習モデル生成機能によって読み出したフレームデータを用いた学習を行い、学習結果として生成した学習モデルMをRAM103に保存する。学習モデルの学習の詳細は、図8を参照して上述したとおりである。以降のS1505およびS1506の処理は、第1実施形態(図7のS705およびS706の処理)と同様である。
以上のように、上記の各実施形態によれば、高精細化対象の画像に基づいて、学習モデルの学習に用いられる教師データが選択される。そのため、選択された教師データを用いて学習された学習モデルは、当該高精細化対象の画像の高周波成分をより高精度に推論することができ、高精度な高精細化画像を得ることができる。すなわち、動画を高精細化する動画超解像技術の精度向上が実現される。
なお、上記実施形態では、教師データ候補の取得において、動画Aから選択された画像と対をなす画像は、撮影時間または画像の類似性に基づいて動画Bから選択された画像、或いは、選択された画像を低解像度化した画像であるがこれに限られるものではない。教師データ候補として用いられる動画Aから選択された画像と関連した画像は、当該選択された画像よりも解像度が低く、当該選択された画像に関連した画像であればよい。動画Aから選択された画像と関連した画像であるか否かは、例えば、撮影時の気温、撮影場所、撮影方向などの共通性に基づいて、判断されてもよい。
また、上記実施形態では、候補データベースD1を生成してから教師データベースD2を生成するという2段階の処理を説明したが、これに限られるものではない。例えば、教師データ抽出部414が、フレームByに基づいて動画Aから教師データの対となり得るフレームを抽出し、抽出されたフレームと当該抽出されたフレームに関連するフレームを対として用いて教師データを得るようにしてもよい。但し、動画Bの複数の画像を順次に高精細化していく場合には、上記各実施形態のように候補データベースD1を作成しておき、高精細化対象の画像に応じて適切な教師データを候補データベースD1から抽出して用いるようにした方が効率的である。
<第6実施形態>
(画像類似性を加味した、学習性能及び推論性能の向上)
第6実施形態では、第1実施形態の学習処理及び推論処理における画像類似性を加味した学習性能及び推論性能の向上について説明する。
第1実施形態では、図7のS701において選択されたフレームByに対して適切な教師データが抽出され、S704においてそれら教師データを用いて学習モデルMが生成、または更新され、S705において学習モデルMを用いて推論し高精細フレームCyを生成する。しかしこの方法では、フレームByに人や建物、草木、海など様々なテクスチャが含まれている場合に、一回に学習する情報量が多すぎるために学習性能が低下してしまう可能性がある。これは、1フレーム内に様々なパターンの高周波成分が含まれているためである。そこで、第6実施形態の学習処理では、1フレームから一部の領域を切り出し、その局所領域毎の学習モデルを生成すること、および、局所領域毎の学習モデルを用いて推論すること、および、局所領域毎に高精細化された画像を生成し結合することで、上記の課題を解決する。
第6実施形態では、画像処理装置100のハードウェア構成、機能構成は第1実施形態(図1)と同様である。抽出される教師データは、第1実施形態から第5実施形態のいずれによるものでも良い。学習処理以降が異なるため、図16のフローチャートと図17の学習推論処理の一例を用いて具体的に説明する。
S1601からS1603の処理は、第1実施形態(図7)のS701からS703と同様である。
S1604において、推論部452は、推論対象フレームByを局所領域に切り出し(局所領域決定)、RAM103に保持する。以下、切り出した局所領域(局所画像)を局所領域Byn1701とする。
次にS1605において、学習部451は、教師データベースD2に登録された教師データ(フレーム群UAおよびフレーム群UB)から、推論対象フレームByの局所領域Bynの同座標位置に相当する局所領域UAn1702およびUBn1703を選択し(局所領域選択)、RAM103に保持する。本実施形態では教師データの局所領域は一対としているが、教師データは複数の局所領域対であってもよい。なおこの局所領域群は、例えば数十画素四方の均等なサイズの矩形領域であるが、これに限られるものではない。
なお、ここで述べた、推論対象である局所領域Byn1701の「同座標位置に相当する局所領域」とは、フレーム群UBであれば、推論対象フレームByの局所領域と全く同じ座標によって示される領域である。つまり、推論対象フレームByの局所領域座標が(sx、sy)であれば、UBn1703の局所領域座標も(sx、sy)である。一方、フレーム群UAでは、動画Aの解像度XAと動画Bの解像度XBの比率を考慮する。例えば、XA:XBが、幅、高さともに2:1の関係の場合、推論対象フレームByの局所領域座標が(sx、sy)であれば、UAn1702の局所領域座標は(sx*2、sy*2)である。以降「同座標位置に相当する局所領域」という記載は上記を示す。
S1606において、学習部451は、局所領域UAn1702と局所領域UBn1703を用いて、図8に示す学習モデル生成機能を用いて学習モデルMn1704(局所領域学習モデル)を生成する。学習部451は、教師データとして登録されたフレーム対のフレームデータを記録部106から読み出し、局所領域毎に学習モデル生成機能に入力し、生成された学習モデルMn1704をRAM103に保存する。
S1607において、推論部452は、局所領域Byn1701に対して、S1606で生成された学習モデルMn1704を用いて推論を行い、高精細フレームの局所領域Cyn1705(局所高周波成分)を生成する。まず推論部452は、S1606でRAM103に保存された学習モデルMn1704を読み出す。次に推論部452は、S1604でRAM103に保持された局所領域Byn1701を学習モデルMn1704のCNNに入力し、「局所領域Byn1701を局所領域UAn1702に拡大した際に期待される高周波成分」を生成する。推論部452は、生成された高周波成分を「局所領域Byn1701の画像を局所領域UAn1702に線形拡大した画像」に加算することで局所領域Cyn1705を生成し、これをRAM103に記録する。なお、局所領域Byn1701について行われる高周波成分の推論から高精細画像の生成までの処理は、図8に示す推論工程と同様の処理である。
次にS1608において、推論部452は、RAM103に記録した高精細フレームCy1706の局所領域Cyn1705をフレームの座標位置情報に基づき結合し、高精細フレームCy1706を生成し、RAM103に保持する。なお、図17中の破線で示す1705は局所領域Cyn、実線で示す1706は高精細フレームCyである。
S1609において、制御部101は、フレームByの全局所領域に対して上記処理が完了しているか否かを判定する。制御部101は、完了していないと判定した場合(S1609でNO)、処理をS1605に進め、フレームByの次の局所領域に対して上記処理を繰り返す。一方、制御部101は、完了していると判定した場合(S1609でYES)、処理をS1610に進める。
S1610において、推論部452は、RAM103に記録された高精細フレームCy1706のフレームデータを、記録部106上の高精細画像Cの末尾に追記する。また、Byの撮影時刻情報を複製し、高精細フレームCy1706の撮影時刻として多重化して動画Cに記録する。
S1611において、制御部101は、動画Bの全フレームに対して上記処理が完了しているか否かを判定する。制御部101は、完了していないと判定した場合(S1611でNO)、処理をS1601に進め、動画Bの次のフレームをByとして、上記処理を繰り返す。一方、制御部101は、完了していると判定した場合(S1611でYES)、本処理を終了する。以上のように高精細動画生成処理が終了すると、記録部106には、解像度XA、フレームレートFBの高精細動画Cが非圧縮形式で記録されている。
以上のように、第6実施形態によれば、様々なテクスチャが含まれ情報量が多い高精細化対象の画像において、局所領域毎に学習することにより一回に学習する情報量を絞ることがきるため、より高精度な学習が可能となり、より高精細な画像を生成することが可能となる。
<第7実施形態>
(推論対象領域と類似度の高い領域を学習に用いることによる超解像性能の向上)
第7実施形態では、第6実施形態における局所領域ごとの学習処理を変更し、超解像性能を向上させる例について説明する。
第6実施形態の方法では、推論対象とは異なるフレーム内から、推論対象領域と同位置にある領域を学習に用いて学習モデルを生成している。しかしこの方法では、被写体の動きが激しい場合などは推論領域と教師データで写っているものが異なるため、超解像性能が低下するという課題がある。
そこで、第7実施形態の学習処理では、類似度評価手段を備えることで、推論領域と類似度の高い領域を教師データ候補から探索し、高い類似度を得られた領域を学習に用いることで、上記の課題を解決する。
(高精細動画生成処理)
第7実施形態における第6実施形態との差異は、図16に示される高精細動画生成処理のフローチャートにおけるS1605の処理のみである。よって、第7実施形態におけるS1605の処理のみについて説明する。
S1605において、推論部452は、推論対象フレームByの一部の領域を切り出し、局所領域としてRAM103に保持する。なおこの局所領域は、例えば数十画素四方の均等なサイズの矩形領域であるが、これに限られるものではない。制御部101は、類似度評価手段として備えるSSIMを用いて、推論対象フレームByの局所領域との類似度が最も高い領域UBnを教師データベースD2に登録された教師データのフレーム群UBから探索し、RAM103に保持する。学習部451は、RAM103に保持した局所領域UBnが属するフレームと対になるフレームをフレーム群UAから選択し、その中から局所領域UBnと相対的に同じ位置にある局所領域UAnをRAM103に保持する。なお、類似度評価は、PSNR(Peak Signal to Noise Ratio)、SNR(Signal to Noise Ratio)やMSE(Mean Square Error)でも良い。
以上のように、第7実施形態によれば、推論領域と類似度の高い領域を用いて学習を行うため、被写体の動きが激しい動画であっても、より高精細な画像を生成することが可能となる。
<第8実施形態>
(推論対象領域と類似度の高い領域を学習に用いることによる超解像性能の向上)
第8実施形態では、第7実施形態が解決を望む第6実施形態における課題の別の解決方法について説明する。なお、第6実施形態における課題とは、推論対象フレームByの局所領域を超解像処理するための学習データを、当該領域と同座標位置に相当する局所領域から選択しているため、被写体の動きが激しい場合などには超解像性能が低下する、という課題である。
第8実施形態では、類似度の高い領域の特定に、推論領域に関する動きベクトルを用いる方法について説明する。ただし、第8実施形態における動画bは、ISO/IEC 14496-10「MPEG-4 Part 10: Advanced Video Coding」(以下、MPEGー4 AVCと省略する)の形式で、フレーム間予測を用いて圧縮されていることを前提とする。
以下、第8実施形態について、第6実施形態との差分のみについて説明する。
(記録媒体に記録されているデータおよび、その復号・展開方法)
第8実施形態における、解析部211の処理では、記録部106に記録されている動画データをパースする処理(第1実施形態に記載)に加えて、次の処理を行う。解析部211は、動画bを格納するMP4ファイルをパースし、avcC boxを取得し、その中に含むSequence parameter set(以下、SPSと省略)およびPicture parameter set(以下、PPSと省略)をRAM103に保存する。
(高精細動画生成処理)
第8実施形態と第6実施形態における高精細動画生成処理の差異は、図16のフローチャートにおけるS1605とS1606の処理である。よって、第8実施形態におけるS1605、S1606の処理について、図18のフローチャートを用いて説明する。
なお、第6実施形態におけるS1604において、推論部452は、推論対象フレームByの局所領域を、16画素四方の均等なサイズの矩形領域で切り出しているものとして説明する。
S1801において、制御部101は、推論対象フレームByがIピクチャの場合、S1803に処理を進める。制御部101は、推論対象フレームByがPピクチャ、またはBピクチャの場合、S1802に処理を進める。
S1802において、制御部101は、推論対象フレームByの局所領域から、Macroblock layerを取得する。さらに、サブマクロブロックを使用する場合は、Sub-macroblock predictionを取得する。そうでない場合は、Macroblock predictionを取得する。
制御部101は、推論対象フレームByの局所領域が属するマクロブロックのSub-macroblock predictionまたはMacroblock predictionより、当該マクロブロックにおける予測の単位ブロック領域Bynbを導出する。予測の単位ブロック領域Bynbとは、マクロブロック、パーティション分割されたマクロブロックにおけるそれぞれのブロック、サブマクロブロックのそれぞれのブロック、またはパーティション分割されたサブマクロブロックにおけるそれぞれのブロックのいずれかである。
制御部101は、ブロック領域Bynbの動きベクトル、被参照フレーム、mbPartIdx、subMbPardIdxを、SPS,PPS,Macroblock predictionまたはSub-macroblock predictionより導出する。
ここで、制御部101は、ブロック領域Bynbごとに、「mbPartIdx」、「subMbPardIdx」、「動きベクトルの有無」、「動きベクトル」、「参照/被参照フレーム」、「参照方向」、の6つの情報を生成し、RAM103に保持する。当該マクロブロック内のどのブロック領域Bynbであるかを特定する情報である。また、参照方向は、推論対象フレームByの局所領域のマクロブロックから動きベクトルが指す方向を参照方向、その他のフレームにおけるマクロブロックから推論対象フレームByの局所領域を指す方向を被参照方向とする。以降、上述の6つの情報のまとまりを動きベクトル情報と呼ぶ。
制御部101は、生成した動きベクトル情報のうちの参照/被参照フレームが、教師データ候補に存在するかを確認し、無い場合は動きベクトルの有無を“無”に動きベクトル情報を更新する。
推論対象フレームがBピクチャで、動きベクトルを2つ有するブロックの場合、推論対象フレームとの時間的距離が近いほうの被参照フレームを採用する。推論対象フレームとの時間的距離の差がどちらも等しい場合、動きベクトルが示す空間的距離が近い動きベクトルと被参照フレームの情報を採用する。これも等しい場合は、どちらを採用しても良い。
S1803において、制御部101は、動きベクトル情報における動きベクトルの有無が“無”であるブロック領域Bynbに対し、ブロック領域Bynbを参照するブロックを、教師データ候補から探索する。なお、ブロック領域Bynbを参照するブロックかを判断するために必要となる動きベクトルと参照フレーム情報の取得方法は、S1802で述べたので省略する。
ブロック領域Bynbを参照するブロックが見つかった場合、当該ブロック領域Bynbの動きベクトル情報を更新する。なお、探索するフレームの範囲は、ブロック領域Bynbを有するフレームの前後3フレーム以内とする。また、探索するマクロブロックの範囲は、MPEGー4 AVCが定めるレベルごとのMaxVmvR以内とする。MaxVmvRは動画bのSPSより、導出する。なお、探索するフレームの範囲およびマクロブロックの範囲は、この例に限定するものではない。
推論部452は、動きベクトル情報における動きベクトルの有無が“有”の各ブロック領域Bynbについて、参照先または参照元の局所領域UBXnbをフレーム群UBより取得し、RAM103にそれぞれ保持する。推論部452は、RAM103に記録した各ブロック領域Bynbの動きベクトル情報より取得された局所領域UBXnbの同座標位置に相当する局所領域UAXnbをフレーム群UAより取得し、RAM103にそれぞれ保持する。
S1804において、制御部101は、全ブロック領域Bynbにおける動きベクトル情報における動きベクトルの有無が“有”であるかを判定し、”有”である場合はS1805を実行する。無い場合は、S1807を実行する。
S1805において、推論部452は、RAM103に記録した局所領域UBXnbを、各ブロック領域Bynbの座標位置情報に基づき結合し、結合局所領域UBXnを生成し、RAM103に保持する。
推論部452は、RAM103に記録した局所領域UBXnbの同座標位置に相当する局所領域UAXnbを、各ブロック領域Bynbの座標位置情報に基づき結合し、結合局所領域UAXnを生成し、RAM103に保持する。
学習部451は、結合局所領域UAXnと結合局所領域UBXnを用いて、図8に示す学習モデル生成機能を用いて学習モデルMnを生成する。なお、結合局所領域UBXnは、対となるフレームの結合局所領域UAXnの同座標位置に相当する教師データである。学習部451は、これら教師データをRAM103から読み出して学習モデル生成機能に入力し、生成された学習モデルMnをRAM103に保存する。
S1806において、推論部452は、フレームByの局所領域Bynに対して、S1805で生成された学習モデルMnを用いて推論を行い、高精細フレームの局所領域Cyn1705を生成する。
まず、推論部452は、S1805でRAM103に保存された学習モデルMnを読み出す。次に推論部452は、RAM103に保持されたフレームByの局所領域Bynを学習モデルMnのCNNに入力し、「推論対象フレームByを解像度XAに拡大した場合に局所領域Bynに期待される高周波成分」を生成する。推論部452は、生成された高周波成分を「解像度XBと解像度XAの比率に基づき線形拡大した局所領域Byn」に加算することで局所領域Cyn1705を生成し、これをRAM103に記録する。なお、局所領域Bynについて行われる高周波成分の推論から高精細画像の生成までの処理は、図8に示す推論工程と同様の処理である。
S1807において、制御部101は、局所領域Bynに含まれるブロック領域Bynbごとに動きベクトル情報における動きベクトルの有無が“有”であるか判定し、”有”である場合はS1808を実行する。無い場合はS1811を実行する。
S1808において、学習部451は、ブロック領域Bynbと局所領域UBXnbを用いて、図8に示す学習モデル生成機能を用いて学習モデルMnbを生成し、RAM103に保持する。
S1808において、推論部452は、RAM103に記録した局所領域UBXnbと局所領域UAXnbを用いて、図8に示す学習モデル生成機能を用いてブロック領域Bynbを推論するための学習モデルMnbを生成する。なお、結合局所領域UBXnbは、対となるフレームの結合局所領域UAXnbの同座標位置に相当する教師データである。学習部451は、これら教師データをRAM103から読み出して学習モデル生成機能に入力し、生成された学習モデルMnbをRAM103に保存する。
S1809において、推論部452は、ブロック領域Bynbに対して、学習モデルMnbを用いて推論を行い、高精細フレームの局所領域Cynbを生成する。まず推論部452は、S1808でRAM103に保存された学習モデルMnbを読み出す。次に推論部452は、RAM103に保持されたブロック領域Bynbを学習モデルMnbのCNNに入力し、「推論対象フレームByを解像度XAに拡大した場合に、局所領域Bynbに期待される高周波成分」を生成する。推論部452は、生成された高周波成分を「解像度XBと解像度XAの比率に基づき線形拡大した局所領域Bynb」に加算することで局所領域Cynbを生成し、これをRAM103に記録する。なお、ブロック領域Bynbについて行われる高周波成分の推論から高精細画像の生成までの処理は、図8に示す推論工程と同様の処理である。
S1810において、制御部101は、動きベクトル情報における動きベクトルの有無が“無”であるブロック領域Bynbを、解像度XAと解像度XBの比率に基づいて線形拡大した高精細フレームCy1706の局所領域CynbをRAM103に保持する。なお、解像度XAと解像度XBの比率に基づいて拡大できれば、その手段は線形拡大に限らない。
S1811において、制御部101は、全ブロック領域Bynbに対して上記処理が完了しているかの判定を行う。制御部101は、未完了と判定した場合、S1807に処理を進め、未完了のブロック領域Bynbに対して処理を行う。制御部101は、完了していると判定した場合、S1809およびS1810においてRAM103に保持した局所領域Cynbを読み出し、対応するブロック領域Bynbの座標位置情報に基づき結合し、局所領域Cyn1705を生成し、RAM103に保持する。
以上のように、第8実施形態によれば、推論領域と類似度の高い領域を参照/被参照する動きベクトルを用いて学習を行うため、被写体の動きが激しい動画であっても、より高精細な画像を生成することが可能となる。
<第9実施形態>
(類似度によって重み付けされた複数の教師データを学習に用いることによる超解像性能の向上)
第9実施形態では、第7、第8実施形態が解決を望む第6実施形態における課題の別の解決方法について説明する。なお、第6実施形態における課題とは、推論対象フレームByの局所領域を超解像処理するための学習データを、当該領域と同座標位置に相当する局所領域から選択しているため、被写体の動きが激しい場合などには超解像性能が低下する、という課題である。
以下、第9実施形態について、第6実施形態との差分のみについて説明する。
(高精細動画生成処理)
第9実施形態における第6実施形態との差異は、図16に示される高精細動画生成処理のフローチャートにおけるS1605、S1606の処理のみである。よって、第9実施形態におけるS1605、S1606の処理のみについて説明する。
S1605において、制御部101は、推論対象フレームByの局所領域Bynの同座標位置に相当する局所領域(UAn5およびUBn5)を選択し、RAM103に保持する。加えて、UBn5に隣接するUBn5と同サイズの8つの領域をRAM103に保持する。同様に、UAn5に隣接するUAn5と同じサイズの8つの領域をRAM103に保存する。フレーム群UBに含まれるフレームに対する領域選択の例を図19に示す。なお、本実施形態では推論対象の領域に対し、局所領域Bynの同位置座標の領域と、その隣接領域8つを選択しているが、領域選択の手段と数はこの限りではない。
次に、制御部101は、類似度評価手段として備えるSSIMを用いて、推論対象フレームByの局所領域Bynとの類似度評価を、UBn1~UBn9のそれぞれに対して行い類似度評価値を取得し、UBn1~UBn9それぞれの学習回数情報を生成し(回数決定)、RAM103に保持する。なお、学習回数情報としては、「UBn1~9のいずれかを特定する情報」、「局所領域Bynとの類似度評価値」、「学習回数」を有する。制御部101は、学習回数情報における局所領域Bynとの類似度評価値が予めシステムに定められた閾値未満の場合、当該学習情報の学習回数を0に更新する。類似度評価値が閾値以上の領域は、類似度評価値が閾値以上の領域同士の類似度評価値の比率をもって学習回数を決定し、学習情報を更新する。例えば、UBn4、UBn5、UBn6の類似度評価値が閾値以上で、また、その比率が2:5:3であって、さらに、総学習回数を1000回と規定している場合、UBn4~UBn6の学習情報における学習回数は、それぞれ200、500回、300回とする。なお、本実施形態における学習回数の決定方法では、閾値を超える類似度評価値をもつ領域に対し、線形に学習回数を割り振っているが、この方法に限られるものではない。
S1606において、学習部451は、学習情報が示す局所領域(UBn1~9のいずれか)と、それに対応するフレーム群UA内の局所領域(UAn1~9)のいずれかを教師データとして、学習情報が示す学習回数の数だけ、図8に示す学習モデル生成機能を用いてそれぞれ学習を行い、学習モデルMnを生成する。生成された学習モデルMnをRAM103に保存する。
S1607からの処理は、第6実施形態と同じであるため説明を省略する。
以上のように、第9実施形態によれば、推論領域と類似度の高い複数の領域を、推論領域との類似度に応じてそれぞれ学習に用いるため、被写体の動きが激しい動画であっても、より高精細な画像を生成することが可能となる。
以上のように、第6実施形態から第9実施形態によれば、高精細化対象の画像から局所領域を決定し学習モデルの学習に用いる情報量を絞ること、さらに、高精細化対象の画像から決定した局所領域と相関性の高い、教師データの局所領域を選択し学習モデルの学習に用いることにより、高精細化対象画像の高周波成分をより高精度に推論することができ、高精度な高精細化画像を得ることができる。すなわち、動画を高精細化する動画超解像技術の精度向上が実現される。
(他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために、以下の請求項を添付する。
101:制御部、102:ROM、103:RAM、104:復号部、105:学習推論部、106:記録部、107:バス、211:解析部、212:復号動画生成部、413:候補取得部、414:教師データ抽出部、451:学習部、452:推論部

Claims (24)

  1. 第1の画像群を用いて、前記第1の画像群よりも対応するフレームの高周波成分が少ない第2の画像群の画像を高精細化する画像処理装置であって、
    前記第1の画像群から選択された第1の画像と、前記第1の画像よりも高周波成分が少なく且つ前記第1の画像の撮影時刻との差が所定の閾値より小さい撮影時刻を有する第3の画像との複数の対を、教師データの候補として取得する取得手段と、
    前記教師データの候補の複数の対のうちから、学習に用いる一対の教師データを、前記第2の画像群から選択された高精細化対象の画像に基づいて選択する選択手段と、
    前記選択手段により選択された前記一対の教師データを用いて学習モデルを生成する学習モデル生成手段と、
    生成された前記学習モデルを用いて前記高精細化対象の画像の高周波成分を推論する推論手段と、
    前記高精細化対象の画像と、前記推論手段により推論された高周波成分とに基づいて高精細化された画像を生成する画像生成手段と、
    を備えることを特徴とする画像処理装置。
  2. 前記取得手段は、前記第3の画像として、前記第1の画像との類似性が最も大きい画像を、前記第2の画像群から取得することを特徴とする請求項に記載の画像処理装置。
  3. 前記取得手段は、前記第1の画像を前記第2の画像群の解像度に縮小した画像と、前記第2の画像群の画像との類似性を判定することを特徴とする請求項に記載の画像処理装置。
  4. 前記取得手段は、前記第3の画像として、前記第1の画像を縮小して解像度を下げた画像を取得することを特徴とする請求項に記載の画像処理装置。
  5. 前記第3の画像は、前記第1の画像を前記第2の画像群の解像度に縮小した画像であることを特徴とする請求項に記載の画像処理装置。
  6. 前記選択手段は、前記高精細化対象の画像の撮影時刻との差が所定の閾値よりも小さい撮影時刻の画像を含む教師データの候補を、前記学習に用いる教師データとして選択することを特徴とする請求項乃至のいずれか1項に記載の画像処理装置。
  7. 前記選択手段は、前記高精細化対象の画像との類似性が所定の閾値よりも大きい画像を含む教師データの候補を、前記学習に用いる教師データとして選択することを特徴とする請求項乃至のいずれか1項に記載の画像処理装置。
  8. 前記推論手段は、前記学習に用いられる教師データと前記高精細化対象の画像とに基づいて、前記学習における誤差逆伝搬によるパラメータの更新を制御することを特徴とする請求項1乃至のいずれか1項に記載の画像処理装置。
  9. 前記推論手段は、前記学習に用いられる教師データと前記高精細化対象の画像とに基づいて係数を決定し、前記係数に基づいて前記誤差逆伝搬によるパラメータの更新の量を制御することを特徴とする請求項に記載の画像処理装置。
  10. 前記推論手段は、前記学習に用いられる教師データと前記高精細化対象の画像とに基づいて係数を決定し、前記係数に基づいて前記誤差逆伝搬によるパラメータの更新の繰り返し回数を制御することを特徴とする請求項に記載の画像処理装置。
  11. 前記推論手段は、前記学習に用いられる教師データの画像の撮影時刻と前記高精細化対象の画像の撮影時刻との差に基づいて前記係数を決定することを特徴とする請求項または10に記載の画像処理装置。
  12. 前記推論手段は、前記学習に用いられる教師データの画像と前記高精細化対象の画像の類似性に基づいて前記係数を決定することを特徴とする請求項または10に記載の画像処理装置。
  13. 前記高精細化対象の画像から1つまたは複数の推論対象の局所領域を切り出す局所領域決定手段と、前記局所領域決定手段により切り出された局所画像に基づいて、前記選択手段において得られた一対の教師データから学習に用いる一対の局所領域を選択する局所領域選択手段と、をさらに備え
    前記学習モデル生成手段は、前記局所領域選択手段により得られた一対の教師データを用いて局所領域学習モデルを生成し、
    前記推論手段は、前記局所領域学習モデルを用いて前記切り出された前記高精細化対象の画像の局所高周波成分を推論し、
    前記画像生成手段は、前記局所高周波成分と、前記高精細化対象の画像の局所画像とを用いて、前記局所領域の高精細化画像を生成し、それらを結合することを特徴とする請求項1乃至12のいずれか1項に記載の画像処理装置。
  14. 前記局所領域選択手段は、前記選択手段において得られた一対の教師データにおいて、前記局所領域決定手段により切り出された局所領域と同じ座標位置に相当する局所領域を選択することを特徴とする請求項13に記載の画像処理装置。
  15. 前記画像生成手段は、前記局所領域の高精細化画像を座標位置の情報に基づいて結合することにより、高精細化画像を生成することを特徴とする請求項14に記載の画像処理装置。
  16. 前記局所領域選択手段は、画像の類似度を評価する評価手段をさらに備え、前記評価手段を用いて前記局所領域決定手段によって決定された局所領域と類似度の高い局所領域を前記選択手段において得られた一対の教師データに含まれる画像から選択することを特徴とする請求項13に記載の画像処理装置。
  17. 前記局所領域選択手段は、前記局所領域決定手段で決定した推論対象領域の動きベクトル、または、前記推論対象領域を参照する動きベクトル、またはそれぞれを用いて局所領域を選択することを特徴とする請求項13に記載の画像処理装置。
  18. 前記学習モデル生成手段は、教師データごとの学習回数を決定する回数決定手段をさらに備え、前記局所領域選択手段で得られた複数の学習用の局所領域対のそれぞれの学習回数を、前記回数決定手段を用いて決定し、決定した回数だけ学習を行うことを特徴とする請求項13に記載の画像処理装置。
  19. 前記回数決定手段は、画像の類似度を評価する評価手段をさらに備え、前記評価手段を用いて、前記局所領域決定手段で決定した推論対象領域と前記局所領域選択手段で得られた複数の学習用の局所領域対に含まれる画像との類似度をそれぞれ取得し、前記類似度に基づいて学習回数を決定することを特徴とする請求項18に記載の画像処理装置。
  20. 前記第1の画像群と前記第2の画像群は、1つの撮像装置が有する1つのイメージセンサによって撮影された1つの画像に対して異なる画像処理を行って得られた2つの画像群であることを特徴とする請求項1乃至19のいずれか1項に記載の画像処理装置。
  21. 前記第1の画像群と前記第2の画像群は、2つのイメージセンサのそれぞれによって撮影された画像群であることを特徴とする請求項1乃至19のいずれか1項に記載の画像処理装置。
  22. 前記第1の画像群のフレームレートは、前記第2の画像群のフレームレートよりも低いことを特徴とする請求項1乃至21のいずれか1項に記載の画像処理装置。
  23. 第1の画像群を用いて、前記第1の画像群よりも対応するフレームの高周波成分が少ない第2の画像群の画像を高精細化する画像処理方法であって、
    前記第1の画像群から選択された第1の画像と、前記第1の画像よりも高周波成分が少なく且つ前記第1の画像の撮影時刻との差が所定の閾値より小さい撮影時刻を有する第3の画像との複数の対を、教師データの候補として取得する取得工程と、
    前記教師データの候補の複数の対のうちから、学習に用いる一対の教師データを、前記第2の画像群から選択された高精細化対象の画像に基づいて選択する選択工程と、
    前記選択工程において選択された前記一対の教師データを用いて学習モデルを生成する学習モデル生成工程と、
    生成された前記学習モデルを用いて前記高精細化対象の画像の高周波成分を推論する推論工程と、
    前記高精細化対象の画像と、前記推論工程において推論された高周波成分とに基づいて高精細化された画像を生成する画像生成工程と、
    を有することを特徴とする画像処理方法。
  24. 請求項1乃至22のいずれか1項に記載の画像処理装置の各手段としてコンピュータを機能させるためのプログラム。
JP2021167575A 2021-10-12 2021-10-12 画像処理装置および方法、プログラム Active JP7762035B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021167575A JP7762035B2 (ja) 2021-10-12 2021-10-12 画像処理装置および方法、プログラム
US17/959,329 US20230110665A1 (en) 2021-10-12 2022-10-04 Image processing apparatus and method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021167575A JP7762035B2 (ja) 2021-10-12 2021-10-12 画像処理装置および方法、プログラム

Publications (2)

Publication Number Publication Date
JP2023057860A JP2023057860A (ja) 2023-04-24
JP7762035B2 true JP7762035B2 (ja) 2025-10-29

Family

ID=85797449

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021167575A Active JP7762035B2 (ja) 2021-10-12 2021-10-12 画像処理装置および方法、プログラム

Country Status (2)

Country Link
US (1) US20230110665A1 (ja)
JP (1) JP7762035B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7767358B2 (ja) * 2023-05-24 2025-11-11 キヤノン株式会社 画像処理装置、放射線撮影システム、画像処理装置の作動方法、及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009011082A1 (ja) 2007-07-17 2009-01-22 Panasonic Corporation 画像処理装置、画像処理方法、コンピュータプログラムおよび当該コンピュータプログラムを記録した記録媒体、フレーム間動き算出方法および画像処理方法
JP2013031163A (ja) 2011-06-24 2013-02-07 Panasonic Corp 超解像処理装置及び超解像処理方法
WO2014174087A1 (en) 2013-04-25 2014-10-30 Thomson Licensing Method and device for performing super-resolution on an input image
JP2015201819A (ja) 2014-04-10 2015-11-12 株式会社東芝 画質改善システム、画質改善方法及びプログラム
JP2018195069A (ja) 2017-05-17 2018-12-06 キヤノン株式会社 画像処理装置および画像処理方法
JP2021149473A (ja) 2020-03-18 2021-09-27 株式会社リコー 画像処理装置、画像処理方法および画像処理プログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009049979A (ja) * 2007-07-20 2009-03-05 Fujifilm Corp 画像処理装置、画像処理方法、画像処理システム、及びプログラム
CN101681555B (zh) * 2007-10-26 2012-11-28 松下电器产业株式会社 状况判定装置、状况判定方法、异常判定装置、异常判定方法
JP5341010B2 (ja) * 2010-04-15 2013-11-13 オリンパス株式会社 画像処理装置、撮像装置、プログラム及び画像処理方法
JP6282193B2 (ja) * 2014-07-28 2018-02-21 クラリオン株式会社 物体検出装置
US10648924B2 (en) * 2016-01-04 2020-05-12 Kla-Tencor Corp. Generating high resolution images from low resolution images for semiconductor applications
WO2017124036A1 (en) * 2016-01-16 2017-07-20 Flir Systems, Inc. Systems and methods for image super-resolution using iterative collaborative filtering
TWI624804B (zh) * 2016-11-07 2018-05-21 盾心科技股份有限公司 利用超解析重建法生成高解析度影像的方法與系統
US10019654B1 (en) * 2017-06-28 2018-07-10 Accenture Global Solutions Limited Image object recognition
US11378654B2 (en) * 2018-08-02 2022-07-05 Metawave Corporation Recurrent super-resolution radar for autonomous vehicles
US10817991B2 (en) * 2019-01-14 2020-10-27 Advanced New Technologies Co., Ltd. Methods for deep-learning based super-resolution using high-frequency loss
US12148123B2 (en) * 2019-05-03 2024-11-19 Huawei Technologies Co., Ltd. Multi-stage multi-reference bootstrapping for video super-resolution
CN111986069B (zh) * 2019-05-22 2025-08-05 三星电子株式会社 图像处理装置及其图像处理方法
US11544498B2 (en) * 2020-03-05 2023-01-03 Google Llc Training neural networks using consistency measures
CN113496465B (zh) * 2020-03-20 2026-03-17 微软技术许可有限责任公司 图像缩放
US12039702B2 (en) * 2021-07-22 2024-07-16 Qualcomm Incorporated Motion compensation for neural network enhanced images
JP7765298B2 (ja) * 2022-02-01 2025-11-06 キヤノン株式会社 画像処理装置および方法、プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009011082A1 (ja) 2007-07-17 2009-01-22 Panasonic Corporation 画像処理装置、画像処理方法、コンピュータプログラムおよび当該コンピュータプログラムを記録した記録媒体、フレーム間動き算出方法および画像処理方法
JP2013031163A (ja) 2011-06-24 2013-02-07 Panasonic Corp 超解像処理装置及び超解像処理方法
WO2014174087A1 (en) 2013-04-25 2014-10-30 Thomson Licensing Method and device for performing super-resolution on an input image
JP2015201819A (ja) 2014-04-10 2015-11-12 株式会社東芝 画質改善システム、画質改善方法及びプログラム
JP2018195069A (ja) 2017-05-17 2018-12-06 キヤノン株式会社 画像処理装置および画像処理方法
JP2021149473A (ja) 2020-03-18 2021-09-27 株式会社リコー 画像処理装置、画像処理方法および画像処理プログラム

Also Published As

Publication number Publication date
US20230110665A1 (en) 2023-04-13
JP2023057860A (ja) 2023-04-24

Similar Documents

Publication Publication Date Title
US7643690B2 (en) Image decoding and encoding apparatus, method and computer readable storage medium
JP2015536092A (ja) 標準に準拠した、モデルベースの映像符号化及び映像復号化
KR102177900B1 (ko) 비디오에 있어서의 키포인트 궤적을 처리하는 방법
JP5313326B2 (ja) 画像復号装置、方法およびプログラム、並びに、画像符号化装置、方法およびプログラム
JP7765298B2 (ja) 画像処理装置および方法、プログラム
CN103210645A (zh) 使用运动补偿的基于实例的超分辨率的视频解码
CN115131675B (zh) 一种基于参考影像纹理迁移的遥感影像压缩方法及系统
WO2024149308A9 (en) Method, apparatus, and medium for video processing
CN114531596B (zh) 图像处理方法和装置
KR20120123132A (ko) 패치 시프팅을 통해 벡터 양자화 에러를 감소시키기 위한 방법들 및 장치
JP7762035B2 (ja) 画像処理装置および方法、プログラム
JP7763113B2 (ja) 画像処理装置および方法、プログラム
CN101389032A (zh) 一种基于图像插值的帧内预测编码方法
WO2024083250A9 (en) Method, apparatus, and medium for video processing
Iwai et al. Self texture transfer networks for low bitrate image compression
KR100987584B1 (ko) 고해상도 동영상의 효율적 저장을 위한 동영상 변경 시스템및 방법
JP7840668B2 (ja) 画像処理装置および方法、プログラム
US20230377311A1 (en) Image processing apparatus and method, and storage medium
JP2004289284A (ja) 画像処理方法および画像処理装置ならびに画像処理プログラム
US20250104189A1 (en) Image processing apparatus for enhancing definition of image group using machine learning, control method thereof, and storage medium
CN116888953A (zh) 图像处理设备和方法以及程序
JP2008072608A (ja) 画像符号化装置及び画像符号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20241007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20250609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250919

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20251017

R150 Certificate of patent or registration of utility model

Ref document number: 7762035

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150