JP2014229092A - 画像処理装置、画像処理方法、および、そのプログラム - Google Patents
画像処理装置、画像処理方法、および、そのプログラム Download PDFInfo
- Publication number
- JP2014229092A JP2014229092A JP2013108657A JP2013108657A JP2014229092A JP 2014229092 A JP2014229092 A JP 2014229092A JP 2013108657 A JP2013108657 A JP 2013108657A JP 2013108657 A JP2013108657 A JP 2013108657A JP 2014229092 A JP2014229092 A JP 2014229092A
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature amount
- motion
- important scene
- optical flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
- Studio Devices (AREA)
Abstract
【課題】画像データから重要なシーンを精度よく抽出する。【解決手段】画像処理装置は、入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出部と、抽出された動き情報に基づいて、画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出部とを備える。ここで、被写体とは画像内の複数の画像領域のうち当該画像領域間において相対的に動きが大きい画像領域の画像であり、動き情報には、被写体の動きの方向を示す情報が含まれ、特徴量算出部は、動き情報が示す動きの方向に基づいて、特徴量を算出する。【選択図】図1
Description
本発明は、画像処理装置、画像処理方法、および、そのプログラムに関する。
ビデオクリップ(動画データ)あるいは映像データのハイライト再生やダイジェスト再生などを行うため、これらの画像データから特定のシーン(例えば、重要なシーン)を抽出する技術が知られている(例えば、特許文献1参照)。この特許文献1には、カメラにカメラモーションセンサを備え、グローバルモーションを計算して複数のビデオセグメントを形成し、一連のカメラモーションクラスにしたがって各セグメントをラベリングし、このラベリングしたセグメントから重要なシーンの候補を抽出する技術が開示されている。このグローバルモーションは、カメラモーションセンサによるカメラワークや映像から得られるカメラワークを計算したものである。
しかしながら、特許文献1に開示された重要なシーンの候補の抽出方法では、カメラにカメラモーションセンサを設ける必要があった。
そこで、本発明は、上記事情に鑑みてなされたものであり、特別なセンサを用いることなく、画像データから重要なシーンを精度よく抽出する、画像処理装置、画像処理方法、および、そのプログラムを提供することを目的とする。
そこで、本発明は、上記事情に鑑みてなされたものであり、特別なセンサを用いることなく、画像データから重要なシーンを精度よく抽出する、画像処理装置、画像処理方法、および、そのプログラムを提供することを目的とする。
本発明の一態様は、入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出部と、前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出部とを備えることを特徴とする画像処理装置である。
また、本発明の一態様は、入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出手順と、前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出手順とを有することを特徴とする画像処理方法である。
また、本発明の一態様は、画像処理装置が備えるコンピュータに、入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出手順と、前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出手順とを実行させるためのプログラムである。
本発明によれば、画像データから重要なシーンを精度よく抽出することができる。
[実施形態]
以下、図面を参照して、本発明に係る画像処理装置10の一実施形態について説明する。図1は、本発明の一実施の形態に係る画像処理装置10の構成を示す概略図である。
以下、図面を参照して、本発明に係る画像処理装置10の一実施形態について説明する。図1は、本発明の一実施の形態に係る画像処理装置10の構成を示す概略図である。
図1に示すとおり、本実施の形態の画像処理装置10は、例えば、パーソナルコンピュータの機能として実現されており、入力される画像(処理対象の画像)のなかから抽出した重要シーンを出力する。すなわち、この画像処理装置10は、処理対象の画像データに含まれる重要シーンを抽出する。ここで、重要シーンとは、画像のうち、この画像の視聴者あるいは撮影者(以下の説明においては、単に視聴者と記載する。)が注目する場面の画像である。視聴者が画像に時間的な変化、すなわち動きがある部分に注目することから、この画像処理装置10は、画像のなかで動きがある部分をこの画像の被写体として抽出し、この被写体が特徴的な動きをする場面を重要シーンとして抽出する。すなわち、重要シーンとは、処理対象の画像のうち被写体が動いている場面の画像である。
なお、この画像処理装置10は、パーソナルコンピュータの機能として実現されることに限られない。例えば、この画像処理装置10は、携帯電話やカメラに内蔵されていてもよい。また、ここでいう画像とは、必ずしも動画に限られないが、以下の説明においては、入力される画像(処理対象の画像)が動画である例について説明する。
以下、この画像処理装置10の構成について説明する。
画像処理装置10は、特徴量算出部100と、識別器生成部200と、重要シーン抽出部300と、記憶部400とを備えている。
記憶部400には、重要シーンを識別する識別器(識別情報)が記憶されている。この識別器とは、重要シーンを示す特徴量(以下の説明において、重要シーン特徴量h*(エッチ・アスタリスク)とも記載する。)に基づいて重要シーンを識別するための情報である。この重要シーン特徴量h*とは、処理対象の動画のうち、あるフレーム間の被写体の動きの方向を示す情報である。この動画のフレーム間の被写体の動きの方向について、図2を参照して説明する。
画像処理装置10は、特徴量算出部100と、識別器生成部200と、重要シーン抽出部300と、記憶部400とを備えている。
記憶部400には、重要シーンを識別する識別器(識別情報)が記憶されている。この識別器とは、重要シーンを示す特徴量(以下の説明において、重要シーン特徴量h*(エッチ・アスタリスク)とも記載する。)に基づいて重要シーンを識別するための情報である。この重要シーン特徴量h*とは、処理対象の動画のうち、あるフレーム間の被写体の動きの方向を示す情報である。この動画のフレーム間の被写体の動きの方向について、図2を参照して説明する。
図2は、本実施形態の動画のフレーム構成と、フレーム間の被写体の動きの方向の一例を示す模式図である。以下、各フレームの左上の頂点を原点にして、XY直交座標系を設定し、このXY直交座標系を参照しつつ説明する。このXY直交座標系において、各フレームの左右方向をX軸とし、各フレームの上下方向をY軸とする。図2(a)に示すように、本実施形態の動画は、時系列に並べられた複数枚のフレーム(例えば、フレーム1〜n)を含んでいる。このフレームは、複数の画素(例えば、1920×1080画素)によって構成されている。
ここで、複数枚(例えば、2枚)のフレームの画像どうしを比較することにより、フレーム間の画像の動きを求めることができる。図2(b)に示すように、フレーム1およびフレーム4にサッカーボールの画像が含まれている場合を具体例にして説明する。このフレーム1には、サッカーボールの画像が位置Y1に表示されている。また、フレーム4には、サッカーボールの画像が位置Y2に表示されている。これら2枚のフレーム(フレーム1とフレーム4)の画像を比較すると、サッカーボールの画像の位置が位置Y1から位置Y2に、すなわち−Y方向に移動している。このようにして、2枚のフレームの画像を比較することにより、サッカーボールの画像の動きを求めることができる。ここで、画像の動きをオプティカルフローOFともいう。すなわち、この図2(b)の例の場合においては、2枚のフレームの画像を比較することにより、サッカーボールのオプティカルフローOF1を求めることができる。このオプティカルフローOFは、フレーム内の画像の動きを表す2種類の値(フレームの幅方向(X軸方向)成分と高さ方向(Y軸方向)成分)を、フレームを構成する画素毎に有している。
図1に戻り、画像処理装置10の説明を続ける。この画像処理装置10は、訓練過程と、識別過程との2つの過程によって重要シーンを抽出する。このうち、訓練過程とは、入力される画像(例えば、動画)の重要シーン特徴量h*を算出して、算出した重要シーン特徴量h*に基づく識別器(識別情報)を記憶部400に記憶させる過程である。この訓練過程において入力される画像とは、訓練画像である。この識別過程において入力される画像とは、処理対象の画像である。ここでは、まず訓練過程について説明する。
画像処理装置10は、訓練過程において、動画のカテゴリごとに複数の訓練画像が入力される。画像処理装置10は、入力された複数の訓練画像について、重要シーン特徴量h*をそれぞれ算出する。ここで、動画のカテゴリとは、オプティカルフローOFの方向の特徴に基づいて、動画の内容を分類する情報である。より詳細には、動画のカテゴリとは、オプティカルフローOFの方向のばらつきの程度に基づいて、動画の内容を分類する情報である。ここで、オプティカルフローOFの方向のばらつきの程度とは、例えば、オプティカルフローOFの方向を8方向に分類した場合、ある動画のオプティカルフローOFについて、この8方向の各方向を階級とするヒストグラムの頻度のばらつきの程度である。具体例を示すと、動画のカテゴリには、「サッカーの試合中の競技場の全景画像」や、「サッカーの個人技のクローズアップ画像」などが含まれる。この動画のカテゴリ「サッカーの試合中の競技場の全景画像」におけるオプティカルフローOFの特徴とは、例えば、サッカーボールが左右のいずれかのゴールに向けて移動する動きである。この場合、選手の画像はサッカーボールの画像に比べて動きが少ない。この動画を見た視聴者は、サッカーボールの画像に注目する。すなわち、この動画を見た視聴者は、画像のうち相対的に動きが大きい画像領域を被写体として認識し、その被写体の画像に注目する。換言すれば、ここでいう被写体とは、画像内の複数の画像領域のうち当該画像領域間において相対的に動きが大きい画像領域の画像である。また、以下の説明において、被写体を前景ともいう。この場合において、注目される被写体(前景)とは、サッカーボールである。すなわち、この例においては、注目される被写体が画面の左右方向(X軸方向)に移動する動きが、動画のカテゴリ「サッカーの試合中の競技場の全景画像」のオプティカルフローOFの特徴である。換言すれば、例えば、動画のカテゴリ「サッカーの試合中の競技場の全景画像」のオプティカルフローOFの特徴とは、オプティカルフローOFの主方向が画面の左右方向(X軸方向)になることである。
また、動画のカテゴリ「サッカーの個人技のクローズアップ画像」におけるオプティカルフローOFの特徴とは、例えば、サッカーボールがリフティングされて上下に移動する動きである。この場合、リフティングしている人の画像はサッカーボールの画像に比べて動きが少ない。この動画を見た視聴者は、サッカーボールの画像に注目する。したがって、この場合において、注目される被写体、つまり前景とは、サッカーボールである。すなわち、注目される被写体(前景)が画面の上下方向(Y軸方向)に移動する動きが、動画のカテゴリ「サッカーの個人技のクローズアップ画像」のオプティカルフローOFの特徴である。
[画像処理装置10の構成(訓練過程)]
次に、訓練過程における画像処理装置10の構成について説明する。この訓練過程においては、特徴量算出部100と識別器生成部200とによって訓練画像の識別器を生成する。この特徴量算出部100は、オプティカルフロー抽出部110と、前景のオプティカルフロー抽出部120と、重要シーン特徴量算出部130とを備えている。この特徴量算出部100は、入力される画像に基づいて、当該画像の動き情報を抽出し、抽出した動き情報に基づいて、当該画像の識別器を生成する。
次に、訓練過程における画像処理装置10の構成について説明する。この訓練過程においては、特徴量算出部100と識別器生成部200とによって訓練画像の識別器を生成する。この特徴量算出部100は、オプティカルフロー抽出部110と、前景のオプティカルフロー抽出部120と、重要シーン特徴量算出部130とを備えている。この特徴量算出部100は、入力される画像に基づいて、当該画像の動き情報を抽出し、抽出した動き情報に基づいて、当該画像の識別器を生成する。
具体的には、オプティカルフロー抽出部110は、入力される訓練画像のオプティカルフローOFを抽出する。このオプティカルフロー抽出部110は、訓練画像データが入力されると、この訓練画像を所定の時間間隔によってサンプリングする。この所定の時間間隔とは、例えば、図2に示すように、3フレームごとである。この場合には、オプティカルフロー抽出部110は、訓練画像データが入力されると、この訓練画像を3フレームごとにサンプリングする。
次に、オプティカルフロー抽出部110は、サンプリングした前後2枚のフレームに基づいて、訓練画像のオプティカルフローOFを次の式(1)によって算出する。
ここで、式(1)中の(x,y)は、オプティカルフローOFを算出したフレーム内の画素座標を表す。また、式(1)中のvx(x,y)、vy(x,y)は、それぞれフレームの幅方向(X軸方向)と高さ方向(Y軸方向)のオプティカルフロー成分を示す。なお、このvx、vyの添え字x、yは、式(1)および以下の各式において、いずれも下付き文字によって記載する。すなわち、オプティカルフロー抽出部110は、画像を構成する所定の画素毎に当該画像の動き情報を抽出する。ここで、所定の画素とは、フレーム内の各画素であってもよく、ある画素間隔L(例えば、L=5画素)毎の画素であってもよい。以下、オプティカルフロー抽出部110がフレーム内の各画素についてオプティカルフローOFを算出した場合について説明する。
前景のオプティカルフロー抽出部120は、オプティカルフロー抽出部110が抽出した訓練画像のオプティカルフローOFから、前景のオプティカルフローFOFを抽出する。具体的には、前景のオプティカルフロー抽出部120は、式(2)および式(3)によってフレーム毎にオプティカルフローOFの平均値v ̄(ブイ・バー)と標準偏差σ(シグマ)とを算出する。ここでNとは、フレーム毎に算出したオプティカルフローOFの数である。
次に、前景のオプティカルフロー抽出部120は、算出したオプティカルフローOFの平均値v ̄(ブイ・バー)と標準偏差σ(シグマ)とに基づいて、前景のオプティカルフローFOFを抽出する。具体的には、前景のオプティカルフロー抽出部120は、オプティカルフローOFの大きさv(x,y)から平均値v ̄(ブイ・バー)を引いたもの、すなわち、残差(v(x,y)−v ̄(ブイ・バー))に基づいて、前景のオプティカルフローFOFを算出する。例えば、前景のオプティカルフロー抽出部120は、標準偏差σより大きければ、そのオプティカルフローOF(v(x,y))を前景のオプティカルフローFOF(v*(x,y))(ブイ・アスタリスク・エックス・ワイ)とする(式(4)を参照。)。なお、このvの添え字*(アスタリスク)は、式(4)および以下の各式において、いずれも上付き文字によって記載する。
次に、前景のオプティカルフロー抽出部120は、前景のオプティカルフローFOF(v*(x,y))を複数の方向に量子化して、各方向の頻度を算出する。具体的には、前景のオプティカルフロー抽出部120は、0でない前景のオプティカルフローFOF(v*(x,y))の方向を8方向に量子化して、方向ヒストグラム(方向毎の頻度)hを算出する(式(5)、式(6)を参照。)。ここで、方向θ(x,y)は、ラジアンによって示される方向である。
すなわち、特徴量算出部100は、オプティカルフロー抽出部110が、入力される画像に基づいて当該画像の動き情報(オプティカルフローOF)を抽出し、前景のオプティカルフロー抽出部120が、抽出された動き情報に基づいて画像内の被写体の動きを示す動き情報(前景のオプティカルフローFOF)を抽出する。
また、方向ヒストグラムhは、あるフレーム内において相対的に動きが大きい画像領域を示している。すなわち、前景のオプティカルフロー抽出部120は、この方向ヒストグラムhを算出することによって、あるフレーム内において相対的に動きが大きい画像領域を前景(被写体)として抽出することができる。
次に、重要シーン特徴量算出部130は、式(5)および式(6)によって算出した方向ヒストグラムhのうち、頻度が最も大きい成分を第1成分とし、残りの成分を巡回的に並べ替えたものh*(エッチ・アスタリスク)を、重要シーン特徴量として算出する。すなわち、重要シーン特徴量算出部130は、抽出された被写体の動きを示す動き情報に基づいて、重要シーンを示す特徴量を算出する。ここで、重要シーン特徴量算出部130は、所定の画素毎に抽出された動き情報が示す動きの方向のうち、最も出現頻度が高い動きの方向に基づいて、重要シーンを示す特徴量を算出する。例えば、あるフレームにおいて、方向ヒストグラムhのk=3番目の成分h3が最も大きかったとすると、このフレームの重要シーン特徴量h*は、次の式(7)によって示される。
重要シーン特徴量算出部130は、この重要シーン特徴量h*をサンプリングしたすべてのフレームにおいて算出する。次に、重要シーン特徴量算出部130は、算出した重要シーン特徴量h*と、画像のカテゴリを示す画像カテゴリデータとを関連付けて、記憶部400に記憶させる。すなわち、重要シーン特徴量算出部130は、抽出された動き情報に基づいて、重要シーン特徴量h*を算出する。すなわち、重要シーン特徴量算出部130は、入力された画像のカテゴリ(種類)を示す情報と、抽出されたオプティカルフローOF(動き情報)とに基づいて、重要シーン特徴量h*を算出する。
上述したように、重要シーン特徴量算出部130は、前景のオプティカルフローFOFが示す被写体の動きの方向に基づいて、重要シーン特徴量h*を算出する。すなわち、重要シーン特徴量算出部130は、動き情報が示す動きの方向に基づいて、重要シーン特徴量h*を算出する。
また、重要シーン特徴量算出部130は、方向ヒストグラムhに基づいて、重要シーン特徴量h*を算出する。この方向ヒストグラムhとは、所定の画素毎に抽出された前景のオプティカルフローFOF(動き情報)が示す動きの方向の出現頻度を示す情報である。すなわち、重要シーン特徴量算出部130は、所定の画素毎に抽出された動き情報が示す動きの方向の出現頻度に基づいて、重要シーン特徴量h*を算出する。
識別器生成部200は、画像の重要シーンを識別する識別器(識別情報)を生成する。具体的には、識別器生成部200は、重要シーン特徴量算出部130が算出した重要シーン特徴量h*と、入力される重要シーンデータと、入力される画像カテゴリデータとに基づいて、識別器を生成する。この重要シーンデータとは、特徴量算出部100に入力される訓練画像の各シーンのうち、重要シーンを示す情報である。すなわち、重要シーンデータとは、識別器が、訓練画像の各シーンのうち、重要シーンとして識別すべき正解のシーンを示す情報である。また、画像カテゴリデータとは、特徴量算出部100に入力される訓練画像データのカテゴリを示すデータである。
この識別器生成部200は、例えば、既知の機械学習の手法(例えば、bag−of−wordsとSVMとを用いた識別方法)によって識別器を生成する。
また、識別器生成部200は、画像のカテゴリ毎に識別器を生成することができる。ここで、画像のカテゴリ毎に重要シーン特徴量h*が相違することがある。したがって、重要シーンを識別する識別器を画像のカテゴリ毎に用意することにより、各カテゴリに適応した、識別精度のよい識別器を用意することができる。すなわち、画像のカテゴリ毎に、このカテゴリに応じた重要シーン特徴量h*に基づいて生成される識別器を用意することにより、画像処理装置10は、精度よく重要シーンを識別することができる。
[画像処理装置10の構成(識別過程)]
次に、識別過程における画像処理装置10の構成について説明する。この識別過程においては、重要シーン抽出部300が、記憶部400に記憶されている訓練画像の重要シーン特徴量h*と、処理対象の画像とに基づいて、処理対象の画像から重要シーンを抽出する。この重要シーン抽出部300の具体的な構成について、以下説明する。
次に、識別過程における画像処理装置10の構成について説明する。この識別過程においては、重要シーン抽出部300が、記憶部400に記憶されている訓練画像の重要シーン特徴量h*と、処理対象の画像とに基づいて、処理対象の画像から重要シーンを抽出する。この重要シーン抽出部300の具体的な構成について、以下説明する。
重要シーン抽出部300は、上述した特徴量算出部100に相当する特徴量算出部320と、重要シーン判定部330とを備えている。特徴量算出部320は、処理対象の画像データが入力されると、上述した特徴量算出部100と同様にして、処理対象の画像の前景のオプティカルフローFOF(v*(x,y))を抽出する。
また、特徴量算出部320は、抽出した処理対象の画像の前景のオプティカルフローFOF(v*(x,y))に基づいて、処理対象の画像の重要シーン特徴量h*(エッチ・アスタリスク)を算出する。
重要シーン判定部330は、処理対象の画像のカテゴリを示す画像カテゴリデータと、記憶部400に画像のカテゴリ毎に記憶されている識別器と、特徴量算出部320が算出した処理対象の画像の重要シーン特徴量h*とに基づいて、処理対象の画像から重要シーンを判定する。具体的には、重要シーン判定部330は、特徴量算出部320が算出した処理対象の画像の重要シーン特徴量h*を、記憶部400に記憶されている識別器に適用することにより、入力された処理対象の画像のシーンが重要シーンであるか否かを判定する。
上述したように、重要シーン判定部330は、入力される画像カテゴリデータに基づいて、重要シーンを判定する。具体的には、重要シーン判定部330は、記憶部400に記憶されている識別器のうち、入力される画像カテゴリデータが示す画像のカテゴリに関連付けられている識別器を読み出す。これにより、重要シーン判定部330は、処理対象の画像の重要シーン特徴量h*の適用対象として、画像のカテゴリ毎に分類された識別器を用いることができる。すなわち、重要シーン判定部330は、処理対象の画像のカテゴリに適合した識別器を選択することができるため、精度よく重要シーンを判定することができる。
重要シーン判定部330は、上述のようにして判定した重要シーンを示す画像を重要シーン画像データとして出力する。
ここまで、画像処理装置10が行う重要シーン抽出の基本的な構成について説明した。以下、画像処理装置10が行う重要シーン抽出の、より具体的な構成について説明する。
ここまで、画像処理装置10が行う重要シーン抽出の基本的な構成について説明した。以下、画像処理装置10が行う重要シーン抽出の、より具体的な構成について説明する。
[画像処理装置10のより具体的な構成について]
上述において、特徴量算出部100は、入力される訓練画像データの画素数を変化させずに、訓練画像のオプティカルフローOFおよび前景のオプティカルフローFOFを算出したが、これに限られない。具体的には、特徴量算出部100は、訓練画像データの画素数を低減させて訓練画像のオプティカルフローOFおよび前景のオプティカルフローFOFを算出する。例えば、特徴量算出部100のオプティカルフロー抽出部110は、入力される訓練画像が1920×1080画素である場合に、この訓練画像を320×240画素に画像サイズを変更して、オプティカルフローOFおよび前景のオプティカルフローFOFを算出する。この際に、オプティカルフロー抽出部110は、入力される訓練画像のアスペクト比(例えば、16:9)と、画像サイズを変更した後の画像のアスペクト比(4:3)とが異なる場合には、画像サイズを変更する際に画像のトリミングを行う。これにより、特徴量算出部100は、オプティカルフローOFを算出するための演算量を低減させることができる。また、これにより、特徴量算出部100は、入力される訓練画像にノイズ成分が混入している場合に、このノイズ成分による影響を低減することができる。
上述において、特徴量算出部100は、入力される訓練画像データの画素数を変化させずに、訓練画像のオプティカルフローOFおよび前景のオプティカルフローFOFを算出したが、これに限られない。具体的には、特徴量算出部100は、訓練画像データの画素数を低減させて訓練画像のオプティカルフローOFおよび前景のオプティカルフローFOFを算出する。例えば、特徴量算出部100のオプティカルフロー抽出部110は、入力される訓練画像が1920×1080画素である場合に、この訓練画像を320×240画素に画像サイズを変更して、オプティカルフローOFおよび前景のオプティカルフローFOFを算出する。この際に、オプティカルフロー抽出部110は、入力される訓練画像のアスペクト比(例えば、16:9)と、画像サイズを変更した後の画像のアスペクト比(4:3)とが異なる場合には、画像サイズを変更する際に画像のトリミングを行う。これにより、特徴量算出部100は、オプティカルフローOFを算出するための演算量を低減させることができる。また、これにより、特徴量算出部100は、入力される訓練画像にノイズ成分が混入している場合に、このノイズ成分による影響を低減することができる。
また、上述において、特徴量算出部100は、入力される訓練画像のフレーム内のすべての画素について、訓練画像のオプティカルフローOFおよび前景のオプティカルフローFOFを算出したが、これに限られない。ここで、動画のフレームにおいて、視聴者が注目する領域はフレーム中央付近でありフレーム四隅はほとんど注目されないことがある。したがって、特徴量算出部100は、訓練画像のフレーム内の周辺部分の画素については、訓練画像のオプティカルフローOFおよび前景のオプティカルフローFOFを算出しなくてもよい。すなわち、特徴量算出部100は、訓練画像のフレーム内の中心部分の画素について、訓練画像のオプティカルフローOFおよび前景のオプティカルフローFOFを算出すれば足りる。より具体的な一例として、特徴量算出部100は、半径閾値αの楕円EO内の画素、すなわち、W、Hをフレームの横幅と高さとした場合に、次の式(8)によって示される画素(x,y)によってオプティカルフローOFを算出する。なお、この式(8)において、0<α≦1である。
特徴量算出部100が、この式(8)によって示される楕円EO内の画素を算出対象として、訓練画像のオプティカルフローOFおよび前景のオプティカルフローFOFを算出した具体例を図3に示す。
図3は、本実施形態の特徴量算出部100による動き算出結果の一例を示す模式図である。特徴量算出部100のオプティカルフロー抽出部110は、例えば、図3(a)に示す楕円EO内画素を算出対象として、訓練画像のオプティカルフローOFを算出する。また、特徴量算出部100の前景のオプティカルフロー抽出部120は、例えば、図3(b)に示すように、上述の楕円EO内に含まれるサッカーボールの画像の動きを、前景のオプティカルフローFOFとして算出する。このように構成することにより、特徴量算出部100は、画像の動きを示す情報(オプティカルフローOF、前景のオプティカルフローFOF)を算出するための演算量を低減させることができる。
図3は、本実施形態の特徴量算出部100による動き算出結果の一例を示す模式図である。特徴量算出部100のオプティカルフロー抽出部110は、例えば、図3(a)に示す楕円EO内画素を算出対象として、訓練画像のオプティカルフローOFを算出する。また、特徴量算出部100の前景のオプティカルフロー抽出部120は、例えば、図3(b)に示すように、上述の楕円EO内に含まれるサッカーボールの画像の動きを、前景のオプティカルフローFOFとして算出する。このように構成することにより、特徴量算出部100は、画像の動きを示す情報(オプティカルフローOF、前景のオプティカルフローFOF)を算出するための演算量を低減させることができる。
また、上述において、特徴量算出部100は、入力される訓練画像のフレーム内のすべての画素について、訓練画像のオプティカルフローOFおよび前景のオプティカルフローFOFを算出したが、これに限られない。特徴量算出部100は、フレーム内の画素のうち、所定の間隔で間引きされた画素に対して、オプティカルフローOFおよび前景のオプティカルフローFOFを算出してもよい。一例として、特徴量算出部100は、画素間隔L(例えば、L=5画素)毎にオプティカルフローOFおよび前景のオプティカルフローFOFを算出する(式(9)および式(10)を参照。)。
このように構成することによっても、特徴量算出部100は、オプティカルフローOFを算出するための演算量を低減させることができる。
また、オプティカルフロー抽出部110は、上述した式(2)および式(3)によってオプティカルフローOFの平均値v ̄(ブイ・バー)と標準偏差σ(シグマ)とを算出する前に、ノイズとみなすオプティカルフローの大きさの閾値v0(ブイ・ゼロ)と、前景のオプティカルフローの標準偏差の閾値σ0(シグマ・ゼロ)とを用いて、オプティカルフローOF(v(x,y))を算出する(式(11)を参照。)。
一例として、オプティカルフロー抽出部110は、閾値v0=2であり、閾値σ0=2画素(ピクセル)としてオプティカルフローOF(v(x,y))を算出する。
このように構成することによって、オプティカルフロー抽出部110は、オプティカルフローOF算出時にノイズを除去することができ、前景のオプティカルフローFOFの誤検出を少なくすることができる。
また、前景のオプティカルフロー抽出部120は、上述した式(4)に基づいて前景のオプティカルフローFOF(v*(x,y))(ブイ・アスタリスク・エックス・ワイ)を算出するとして説明したが、これに限られない。前景のオプティカルフロー抽出部120は、式(12)に示すように、閾値β(β≧0)を用いて前景のオプティカルフローFOFを算出するように構成してもよい。この閾値βは、例えば、閾値β=1である。
このように構成することによって、前景のオプティカルフロー抽出部120は、算出する前景のオプティカルフローFOFを、例えば、動画のカテゴリや、動画シーンの長さ(継続時間)に応じて調節することができる。
また、重要シーン判定部330は、2つ以上の重要シーンを1つの重要シーンにまとめて画像を出力してもよい。この場合には、重要シーン判定部330は、隣接する2つの重要シーンの時間間隔がある時間T(例えば、時間T=2秒)以下であれば、その2つの前の重要シーンと後の重要シーンとのうち、前の重要シーンの開始時刻から後の重要シーンの終了時刻までを1つの重要シーンとしてまとめて出力してもよい。このように構成することにより、重要シーン判定部330は、重要シーンが細切れにならないようにして、重要シーンを出力することができる。
[画像処理装置10の動作]
次に、図4を参照して、本実施形態の画像処理装置10の動作について説明する。
図4は、本実施形態の画像処理装置10の動作の一例を示すフローチャートである。まず、訓練過程における動作について説明し、次に、識別過程における動作について説明する。
次に、図4を参照して、本実施形態の画像処理装置10の動作について説明する。
図4は、本実施形態の画像処理装置10の動作の一例を示すフローチャートである。まず、訓練過程における動作について説明し、次に、識別過程における動作について説明する。
訓練過程において、オプティカルフロー抽出部110は、入力される訓練画像のオプティカルフローOFを抽出する(ステップS10)。
次に、前景のオプティカルフロー抽出部120は、オプティカルフロー抽出部110が抽出した訓練画像のオプティカルフローOFから、前景のオプティカルフローFOFを抽出する(ステップS20)。
次に、前景のオプティカルフロー抽出部120は、ステップS20において抽出した前景のオプティカルフローFOFを複数の方向に量子化する(ステップS30)。
次に、前景のオプティカルフロー抽出部120は、ステップS30において各方向に量子化した前景のオプティカルフローFOFについて、各方向の頻度を算出する(ステップS40)。これにより、方向ヒストグラムhが算出される。
次に、前景のオプティカルフロー抽出部120は、ステップS30において各方向に量子化した前景のオプティカルフローFOFについて、各方向の頻度を算出する(ステップS40)。これにより、方向ヒストグラムhが算出される。
次に、重要シーン特徴量算出部130は、ステップS40において算出された方向ヒストグラムhに基づいて、重要シーン特徴量h*(エッチ・アスタリスク)を算出する(ステップS50)。
次に、特徴量算出部100は、すべての訓練画像について重要シーン特徴量h*を算出済みであるか否かを判定する(ステップS60)。ここで、訓練画像には、さまざまなカテゴリの画像がある。特徴量算出部100は、訓練画像のカテゴリ毎に重要シーン特徴量h*を算出するため、複数ある訓練画像について、重要シーン特徴量h*をそれぞれ算出する。特徴量算出部100は、すべての訓練画像について重要シーン特徴量h*を算出済みであると判定した場合(ステップS60:YES)には、処理をステップS70に進める。特徴量算出部100は、すべての訓練画像について重要シーン特徴量h*を算出済みでないと判定した場合(ステップS60:NO)には、次の訓練画像について重要シーン特徴量h*を算出するため、処理をステップS10に戻す。
次に、識別器生成部200は、ステップS50において画像のカテゴリ毎に算出した重要シーン特徴量h*と、入力された画像カテゴリデータと、重要シーンデータとに基づいて、識別器を生成する。また、識別器生成部200は、入力された画像カテゴリデータと、生成した識別器とを関連付けて、記憶部400に記憶させて訓練過程を終了する(ステップS70)。
次に、識別過程において、特徴量算出部320は、上述したステップS10〜ステップS50と同様にして、重要シーン特徴量h*を算出する(ステップS100〜ステップS140)。
次に、重要シーン判定部330は、ステップS100〜ステップS140において算出された処理対象画像の重要シーン特徴量h*と、ステップS70において記憶部400に記憶された識別器と、入力される画像のカテゴリとに基づいて、処理対象画像から重要シーンを抽出して処理を終了する(ステップS150)。
以上説明したように本実施形態の画像処理装置10は、特徴量算出部100と、識別器生成部200とを備えている。これにより、画像処理装置10は、入力される画像(例えば、動画)に含まれる被写体を抽出し、この被写体の動きに基づいて、重要シーン特徴量h*を算出する。したがって、画像処理装置10は、入力される画像を撮影したときの音声情報やカメラのセンサ情報などの付加的な情報を必要とせずに、重要シーン特徴量h*を算出することができる。すなわち、画像処理装置10によれば、特別なセンサを用いることなく、画像データから重要なシーンを精度よく抽出することができる。
また、動画が、動いている被写体をカメラで追って撮影された場合には、この被写体がほぼ固定され背景が大きく動く。この場合にも、本実施形態の画像処理装置10によれば、大きく動く背景を被写体(前景)と誤認識することなく、前景のオプティカルフローFOFを算出することができる。
なお、上述の実施形態において、画像処理装置10が、動画のカテゴリに基づいて重要シーンを抽出する例について説明したが、これに限られない。例えば、画像処理装置10は、一般的な機械学習の手法に基づいて重要シーンを抽出するため、動画のカテゴリごとに特徴量を算出しなくても、重要シーンを抽出することができる。これにより、画像処理装置10は、その構成を簡素化することができる。
また、上述の実施形態において、画像処理装置10が、入力された動画のカテゴリと、算出した特徴量とを関連付ける例について説明したが、これに限られない。例えば、画像処理装置10は、一般的な機械学習の手法に基づいて動画のカテゴリを自装置において判定し、判定した動画のカテゴリと算出した特徴量とを関連付けてもよい。これにより、画像処理装置10は、動画のカテゴリ判定を自動化することができるため、その操作を容易にすることができる。
また、上述した画像処理装置10の一部の機能をコンピュータで実現するようにしてもよい。この場合、その機能を実現するための画像処理プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された画像処理プログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OS(Operating System)や周辺装置のハードウェアを含むものである。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに内蔵される磁気ハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバ装置やクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記のプログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。
以上、本発明の実施の形態について図面を参照して詳述したが、具体的な構成はその実
施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。
施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。
10…画像処理装置、100…特徴量算出部、110…オプティカルフロー抽出部、120…前景のオプティカルフロー抽出部、130…重要シーン特徴量算出部、200…識別器生成部、300…重要シーン抽出部、320…特徴量算出部、330…重要シーン判定部、400…記憶部
Claims (9)
- 入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出部と、
前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出部と、
を備えることを特徴とする画像処理装置。 - 前記動き情報とは、前記画像内の前記被写体の動きを示す情報であって、
前記動き抽出部は、
入力される画像に基づいて、前記画像内の前記被写体の動きを示す動き情報を抽出し、
前記特徴量算出部は、
前記抽出された前記被写体の動きを示す動き情報に基づいて、前記重要シーンを示す特徴量を算出する
ことを特徴とする請求項1に記載の画像処理装置。 - 前記被写体とは、前記画像内の複数の画像領域のうち当該画像領域間において相対的に動きが大きい画像領域の画像である
ことを特徴とする請求項1または請求項2に記載の画像処理装置。 - 前記動き情報には、前記被写体の動きの方向を示す情報が含まれ、
前記特徴量算出部は、
前記動き情報が示す前記動きの方向に基づいて、前記特徴量を算出する
ことを特徴とする請求項1から請求項3のいずれか一項に記載の画像処理装置。 - 前記動き抽出部は、
入力される画像に基づいて、当該画像を構成する所定の画素毎に当該画像の動き情報を抽出し、
前記特徴量算出部は、
前記所定の画素毎に抽出された動き情報が示す前記動きの方向の出現頻度に基づいて、前記重要シーンを示す特徴量を算出する
ことを特徴とする請求項4に記載の画像処理装置。 - 前記特徴量算出部は、
前記所定の画素毎に抽出された動き情報が示す前記動きの方向のうち、最も出現頻度が高い前記動きの方向に基づいて、前記重要シーンを示す特徴量を算出する
ことを特徴とする請求項5に記載の画像処理装置。 - 前記特徴量算出部には、さらに前記画像の種類を示す情報が入力され、
前記特徴量算出部は、
入力された前記画像の種類を示す情報と、前記抽出された動き情報とに基づいて、前記重要シーンを示す特徴量を算出する
ことを特徴とする請求項1から請求項6のいずれか一項に記載の画像処理装置。 - 入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出手順と、
前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出手順と、
を有することを特徴とする画像処理方法。 - 画像処理装置が備えるコンピュータに、
入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出手順と、
前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出手順と、
を実行させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013108657A JP2014229092A (ja) | 2013-05-23 | 2013-05-23 | 画像処理装置、画像処理方法、および、そのプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013108657A JP2014229092A (ja) | 2013-05-23 | 2013-05-23 | 画像処理装置、画像処理方法、および、そのプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2014229092A true JP2014229092A (ja) | 2014-12-08 |
Family
ID=52128883
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013108657A Pending JP2014229092A (ja) | 2013-05-23 | 2013-05-23 | 画像処理装置、画像処理方法、および、そのプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2014229092A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2021240678A1 (ja) * | 2020-05-27 | 2021-12-02 | ||
| JPWO2021240732A1 (ja) * | 2020-05-28 | 2021-12-02 | ||
| WO2021240677A1 (ja) * | 2020-05-27 | 2021-12-02 | 日本電気株式会社 | 映像処理装置、映像処理方法、訓練装置、訓練方法、及び、記録媒体 |
-
2013
- 2013-05-23 JP JP2013108657A patent/JP2014229092A/ja active Pending
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2021240678A1 (ja) * | 2020-05-27 | 2021-12-02 | ||
| WO2021240678A1 (ja) * | 2020-05-27 | 2021-12-02 | 日本電気株式会社 | 映像処理装置、映像処理方法、及び、記録媒体 |
| WO2021240677A1 (ja) * | 2020-05-27 | 2021-12-02 | 日本電気株式会社 | 映像処理装置、映像処理方法、訓練装置、訓練方法、及び、記録媒体 |
| JPWO2021240677A1 (ja) * | 2020-05-27 | 2021-12-02 | ||
| JP7420245B2 (ja) | 2020-05-27 | 2024-01-23 | 日本電気株式会社 | 映像処理装置、映像処理方法、及び、プログラム |
| JP7485023B2 (ja) | 2020-05-27 | 2024-05-16 | 日本電気株式会社 | 映像処理装置、映像処理方法、訓練装置、及び、プログラム |
| US12488589B2 (en) | 2020-05-27 | 2025-12-02 | Nec Corporation | Video processing device, video processing method, training device, training method, and recording medium |
| JPWO2021240732A1 (ja) * | 2020-05-28 | 2021-12-02 | ||
| WO2021240732A1 (ja) * | 2020-05-28 | 2021-12-02 | 日本電気株式会社 | 情報処理装置、制御方法及び記憶媒体 |
| JP7452641B2 (ja) | 2020-05-28 | 2024-03-19 | 日本電気株式会社 | 情報処理装置、制御方法、及び、プログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN106462744B (zh) | 基于规则的视频重要性分析 | |
| US10523894B2 (en) | Automated selection of keeper images from a burst photo captured set | |
| US9665962B2 (en) | Image distractor detection and processng | |
| CN103514432B (zh) | 人脸特征提取方法、设备和计算机程序产品 | |
| US9153031B2 (en) | Modifying video regions using mobile device input | |
| US10176616B2 (en) | Automatic capture and refinement of a digital image of a group of people without user intervention | |
| CN112954450A (zh) | 视频处理方法、装置、电子设备和存储介质 | |
| EP3224809A1 (en) | Fast object tracking framework for sports video recognition | |
| KR101895846B1 (ko) | 소셜 네트워킹 툴들과의 텔레비전 기반 상호작용의 용이화 | |
| CN105095853B (zh) | 图像处理装置及图像处理方法 | |
| US11647294B2 (en) | Panoramic video data process | |
| CN110136198A (zh) | 图像处理方法及其装置、设备和存储介质 | |
| CN110730381A (zh) | 基于视频模板合成视频的方法、装置、终端及存储介质 | |
| KR101833943B1 (ko) | 동영상의 주요 장면을 추출 및 탐색하는 방법 및 시스템 | |
| CN107771391A (zh) | 图像帧的曝光时间的确定 | |
| KR20200132935A (ko) | 적응적 전경 마스크 업샘플링에 기초한 컬러 이미지 프레임들의 시퀀스에서의 객체 분할 | |
| WO2014074959A1 (en) | Real-time face detection using pixel pairs | |
| CN106068537A (zh) | 用于处理图像的方法和设备 | |
| JP6511950B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
| JP2013037539A (ja) | 画像特徴量抽出装置およびそのプログラム | |
| CN115004245A (zh) | 目标检测方法、装置、电子设备和计算机存储介质 | |
| JP2014229092A (ja) | 画像処理装置、画像処理方法、および、そのプログラム | |
| JP2012033054A (ja) | 顔画像サンプル採取装置、顔画像サンプル採取方法、プログラム | |
| CN112085025B (zh) | 物体分割方法、装置、设备 | |
| KR101585059B1 (ko) | 영상 데이터 처리 방법 및 디바이스 |
