JP2014229092A

JP2014229092A - 画像処理装置、画像処理方法、および、そのプログラム

Info

Publication number: JP2014229092A
Application number: JP2013108657A
Authority: JP
Inventors: 武史松尾; Takeshi Matsuo
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2013-05-23
Filing date: 2013-05-23
Publication date: 2014-12-08

Abstract

【課題】画像データから重要なシーンを精度よく抽出する。【解決手段】画像処理装置は、入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出部と、抽出された動き情報に基づいて、画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出部とを備える。ここで、被写体とは画像内の複数の画像領域のうち当該画像領域間において相対的に動きが大きい画像領域の画像であり、動き情報には、被写体の動きの方向を示す情報が含まれ、特徴量算出部は、動き情報が示す動きの方向に基づいて、特徴量を算出する。【選択図】図１

Description

本発明は、画像処理装置、画像処理方法、および、そのプログラムに関する。

ビデオクリップ（動画データ）あるいは映像データのハイライト再生やダイジェスト再生などを行うため、これらの画像データから特定のシーン（例えば、重要なシーン）を抽出する技術が知られている（例えば、特許文献１参照）。この特許文献１には、カメラにカメラモーションセンサを備え、グローバルモーションを計算して複数のビデオセグメントを形成し、一連のカメラモーションクラスにしたがって各セグメントをラベリングし、このラベリングしたセグメントから重要なシーンの候補を抽出する技術が開示されている。このグローバルモーションは、カメラモーションセンサによるカメラワークや映像から得られるカメラワークを計算したものである。

特表２００９−５３９２７３号公報

しかしながら、特許文献１に開示された重要なシーンの候補の抽出方法では、カメラにカメラモーションセンサを設ける必要があった。
そこで、本発明は、上記事情に鑑みてなされたものであり、特別なセンサを用いることなく、画像データから重要なシーンを精度よく抽出する、画像処理装置、画像処理方法、および、そのプログラムを提供することを目的とする。

本発明の一態様は、入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出部と、前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出部とを備えることを特徴とする画像処理装置である。

また、本発明の一態様は、入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出手順と、前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出手順とを有することを特徴とする画像処理方法である。

また、本発明の一態様は、画像処理装置が備えるコンピュータに、入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出手順と、前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出手順とを実行させるためのプログラムである。

本発明によれば、画像データから重要なシーンを精度よく抽出することができる。

本発明の一実施の形態に係る画像処理装置の構成を示す概略図である。本実施形態の動画のフレーム構成と、フレーム間の被写体の動きの方向の一例を示す模式図である。本実施形態の動き抽出部による動き算出結果の一例を示す模式図である。本実施形態の画像処理装置の動作の一例を示すフローチャートである。

［実施形態］
以下、図面を参照して、本発明に係る画像処理装置１０の一実施形態について説明する。図１は、本発明の一実施の形態に係る画像処理装置１０の構成を示す概略図である。

図１に示すとおり、本実施の形態の画像処理装置１０は、例えば、パーソナルコンピュータの機能として実現されており、入力される画像（処理対象の画像）のなかから抽出した重要シーンを出力する。すなわち、この画像処理装置１０は、処理対象の画像データに含まれる重要シーンを抽出する。ここで、重要シーンとは、画像のうち、この画像の視聴者あるいは撮影者（以下の説明においては、単に視聴者と記載する。）が注目する場面の画像である。視聴者が画像に時間的な変化、すなわち動きがある部分に注目することから、この画像処理装置１０は、画像のなかで動きがある部分をこの画像の被写体として抽出し、この被写体が特徴的な動きをする場面を重要シーンとして抽出する。すなわち、重要シーンとは、処理対象の画像のうち被写体が動いている場面の画像である。

なお、この画像処理装置１０は、パーソナルコンピュータの機能として実現されることに限られない。例えば、この画像処理装置１０は、携帯電話やカメラに内蔵されていてもよい。また、ここでいう画像とは、必ずしも動画に限られないが、以下の説明においては、入力される画像（処理対象の画像）が動画である例について説明する。

以下、この画像処理装置１０の構成について説明する。
画像処理装置１０は、特徴量算出部１００と、識別器生成部２００と、重要シーン抽出部３００と、記憶部４００とを備えている。
記憶部４００には、重要シーンを識別する識別器（識別情報）が記憶されている。この識別器とは、重要シーンを示す特徴量（以下の説明において、重要シーン特徴量ｈ＊（エッチ・アスタリスク）とも記載する。）に基づいて重要シーンを識別するための情報である。この重要シーン特徴量ｈ＊とは、処理対象の動画のうち、あるフレーム間の被写体の動きの方向を示す情報である。この動画のフレーム間の被写体の動きの方向について、図２を参照して説明する。

図２は、本実施形態の動画のフレーム構成と、フレーム間の被写体の動きの方向の一例を示す模式図である。以下、各フレームの左上の頂点を原点にして、ＸＹ直交座標系を設定し、このＸＹ直交座標系を参照しつつ説明する。このＸＹ直交座標系において、各フレームの左右方向をＸ軸とし、各フレームの上下方向をＹ軸とする。図２（ａ）に示すように、本実施形態の動画は、時系列に並べられた複数枚のフレーム（例えば、フレーム１〜ｎ）を含んでいる。このフレームは、複数の画素（例えば、１９２０×１０８０画素）によって構成されている。

ここで、複数枚（例えば、２枚）のフレームの画像どうしを比較することにより、フレーム間の画像の動きを求めることができる。図２（ｂ）に示すように、フレーム１およびフレーム４にサッカーボールの画像が含まれている場合を具体例にして説明する。このフレーム１には、サッカーボールの画像が位置Ｙ１に表示されている。また、フレーム４には、サッカーボールの画像が位置Ｙ２に表示されている。これら２枚のフレーム（フレーム１とフレーム４）の画像を比較すると、サッカーボールの画像の位置が位置Ｙ１から位置Ｙ２に、すなわち−Ｙ方向に移動している。このようにして、２枚のフレームの画像を比較することにより、サッカーボールの画像の動きを求めることができる。ここで、画像の動きをオプティカルフローＯＦともいう。すなわち、この図２（ｂ）の例の場合においては、２枚のフレームの画像を比較することにより、サッカーボールのオプティカルフローＯＦ１を求めることができる。このオプティカルフローＯＦは、フレーム内の画像の動きを表す２種類の値（フレームの幅方向（Ｘ軸方向）成分と高さ方向（Ｙ軸方向）成分）を、フレームを構成する画素毎に有している。

図１に戻り、画像処理装置１０の説明を続ける。この画像処理装置１０は、訓練過程と、識別過程との２つの過程によって重要シーンを抽出する。このうち、訓練過程とは、入力される画像（例えば、動画）の重要シーン特徴量ｈ＊を算出して、算出した重要シーン特徴量ｈ＊に基づく識別器（識別情報）を記憶部４００に記憶させる過程である。この訓練過程において入力される画像とは、訓練画像である。この識別過程において入力される画像とは、処理対象の画像である。ここでは、まず訓練過程について説明する。

画像処理装置１０は、訓練過程において、動画のカテゴリごとに複数の訓練画像が入力される。画像処理装置１０は、入力された複数の訓練画像について、重要シーン特徴量ｈ＊をそれぞれ算出する。ここで、動画のカテゴリとは、オプティカルフローＯＦの方向の特徴に基づいて、動画の内容を分類する情報である。より詳細には、動画のカテゴリとは、オプティカルフローＯＦの方向のばらつきの程度に基づいて、動画の内容を分類する情報である。ここで、オプティカルフローＯＦの方向のばらつきの程度とは、例えば、オプティカルフローＯＦの方向を８方向に分類した場合、ある動画のオプティカルフローＯＦについて、この８方向の各方向を階級とするヒストグラムの頻度のばらつきの程度である。具体例を示すと、動画のカテゴリには、「サッカーの試合中の競技場の全景画像」や、「サッカーの個人技のクローズアップ画像」などが含まれる。この動画のカテゴリ「サッカーの試合中の競技場の全景画像」におけるオプティカルフローＯＦの特徴とは、例えば、サッカーボールが左右のいずれかのゴールに向けて移動する動きである。この場合、選手の画像はサッカーボールの画像に比べて動きが少ない。この動画を見た視聴者は、サッカーボールの画像に注目する。すなわち、この動画を見た視聴者は、画像のうち相対的に動きが大きい画像領域を被写体として認識し、その被写体の画像に注目する。換言すれば、ここでいう被写体とは、画像内の複数の画像領域のうち当該画像領域間において相対的に動きが大きい画像領域の画像である。また、以下の説明において、被写体を前景ともいう。この場合において、注目される被写体（前景）とは、サッカーボールである。すなわち、この例においては、注目される被写体が画面の左右方向（Ｘ軸方向）に移動する動きが、動画のカテゴリ「サッカーの試合中の競技場の全景画像」のオプティカルフローＯＦの特徴である。換言すれば、例えば、動画のカテゴリ「サッカーの試合中の競技場の全景画像」のオプティカルフローＯＦの特徴とは、オプティカルフローＯＦの主方向が画面の左右方向（Ｘ軸方向）になることである。

また、動画のカテゴリ「サッカーの個人技のクローズアップ画像」におけるオプティカルフローＯＦの特徴とは、例えば、サッカーボールがリフティングされて上下に移動する動きである。この場合、リフティングしている人の画像はサッカーボールの画像に比べて動きが少ない。この動画を見た視聴者は、サッカーボールの画像に注目する。したがって、この場合において、注目される被写体、つまり前景とは、サッカーボールである。すなわち、注目される被写体（前景）が画面の上下方向（Ｙ軸方向）に移動する動きが、動画のカテゴリ「サッカーの個人技のクローズアップ画像」のオプティカルフローＯＦの特徴である。

［画像処理装置１０の構成（訓練過程）］
次に、訓練過程における画像処理装置１０の構成について説明する。この訓練過程においては、特徴量算出部１００と識別器生成部２００とによって訓練画像の識別器を生成する。この特徴量算出部１００は、オプティカルフロー抽出部１１０と、前景のオプティカルフロー抽出部１２０と、重要シーン特徴量算出部１３０とを備えている。この特徴量算出部１００は、入力される画像に基づいて、当該画像の動き情報を抽出し、抽出した動き情報に基づいて、当該画像の識別器を生成する。

具体的には、オプティカルフロー抽出部１１０は、入力される訓練画像のオプティカルフローＯＦを抽出する。このオプティカルフロー抽出部１１０は、訓練画像データが入力されると、この訓練画像を所定の時間間隔によってサンプリングする。この所定の時間間隔とは、例えば、図２に示すように、３フレームごとである。この場合には、オプティカルフロー抽出部１１０は、訓練画像データが入力されると、この訓練画像を３フレームごとにサンプリングする。

次に、オプティカルフロー抽出部１１０は、サンプリングした前後２枚のフレームに基づいて、訓練画像のオプティカルフローＯＦを次の式（１）によって算出する。

ここで、式（１）中の（ｘ，ｙ）は、オプティカルフローＯＦを算出したフレーム内の画素座標を表す。また、式（１）中のｖｘ（ｘ，ｙ）、ｖｙ（ｘ，ｙ）は、それぞれフレームの幅方向（Ｘ軸方向）と高さ方向（Ｙ軸方向）のオプティカルフロー成分を示す。なお、このｖｘ、ｖｙの添え字ｘ、ｙは、式（１）および以下の各式において、いずれも下付き文字によって記載する。すなわち、オプティカルフロー抽出部１１０は、画像を構成する所定の画素毎に当該画像の動き情報を抽出する。ここで、所定の画素とは、フレーム内の各画素であってもよく、ある画素間隔Ｌ（例えば、Ｌ＝５画素）毎の画素であってもよい。以下、オプティカルフロー抽出部１１０がフレーム内の各画素についてオプティカルフローＯＦを算出した場合について説明する。

前景のオプティカルフロー抽出部１２０は、オプティカルフロー抽出部１１０が抽出した訓練画像のオプティカルフローＯＦから、前景のオプティカルフローＦＯＦを抽出する。具体的には、前景のオプティカルフロー抽出部１２０は、式（２）および式（３）によってフレーム毎にオプティカルフローＯＦの平均値ｖ￣（ブイ・バー）と標準偏差σ（シグマ）とを算出する。ここでＮとは、フレーム毎に算出したオプティカルフローＯＦの数である。

次に、前景のオプティカルフロー抽出部１２０は、算出したオプティカルフローＯＦの平均値ｖ￣（ブイ・バー）と標準偏差σ（シグマ）とに基づいて、前景のオプティカルフローＦＯＦを抽出する。具体的には、前景のオプティカルフロー抽出部１２０は、オプティカルフローＯＦの大きさｖ（ｘ，ｙ）から平均値ｖ￣（ブイ・バー）を引いたもの、すなわち、残差（ｖ（ｘ，ｙ）−ｖ￣（ブイ・バー））に基づいて、前景のオプティカルフローＦＯＦを算出する。例えば、前景のオプティカルフロー抽出部１２０は、標準偏差σより大きければ、そのオプティカルフローＯＦ（ｖ（ｘ，ｙ））を前景のオプティカルフローＦＯＦ（ｖ＊（ｘ，ｙ））（ブイ・アスタリスク・エックス・ワイ）とする（式（４）を参照。）。なお、このｖの添え字＊（アスタリスク）は、式（４）および以下の各式において、いずれも上付き文字によって記載する。

次に、前景のオプティカルフロー抽出部１２０は、前景のオプティカルフローＦＯＦ（ｖ＊（ｘ，ｙ））を複数の方向に量子化して、各方向の頻度を算出する。具体的には、前景のオプティカルフロー抽出部１２０は、０でない前景のオプティカルフローＦＯＦ（ｖ＊（ｘ，ｙ））の方向を８方向に量子化して、方向ヒストグラム（方向毎の頻度）ｈを算出する（式（５）、式（６）を参照。）。ここで、方向θ（ｘ，ｙ）は、ラジアンによって示される方向である。

すなわち、特徴量算出部１００は、オプティカルフロー抽出部１１０が、入力される画像に基づいて当該画像の動き情報（オプティカルフローＯＦ）を抽出し、前景のオプティカルフロー抽出部１２０が、抽出された動き情報に基づいて画像内の被写体の動きを示す動き情報（前景のオプティカルフローＦＯＦ）を抽出する。

また、方向ヒストグラムｈは、あるフレーム内において相対的に動きが大きい画像領域を示している。すなわち、前景のオプティカルフロー抽出部１２０は、この方向ヒストグラムｈを算出することによって、あるフレーム内において相対的に動きが大きい画像領域を前景（被写体）として抽出することができる。

次に、重要シーン特徴量算出部１３０は、式（５）および式（６）によって算出した方向ヒストグラムｈのうち、頻度が最も大きい成分を第１成分とし、残りの成分を巡回的に並べ替えたものｈ＊（エッチ・アスタリスク）を、重要シーン特徴量として算出する。すなわち、重要シーン特徴量算出部１３０は、抽出された被写体の動きを示す動き情報に基づいて、重要シーンを示す特徴量を算出する。ここで、重要シーン特徴量算出部１３０は、所定の画素毎に抽出された動き情報が示す動きの方向のうち、最も出現頻度が高い動きの方向に基づいて、重要シーンを示す特徴量を算出する。例えば、あるフレームにおいて、方向ヒストグラムｈのｋ＝３番目の成分ｈ３が最も大きかったとすると、このフレームの重要シーン特徴量ｈ＊は、次の式（７）によって示される。

重要シーン特徴量算出部１３０は、この重要シーン特徴量ｈ＊をサンプリングしたすべてのフレームにおいて算出する。次に、重要シーン特徴量算出部１３０は、算出した重要シーン特徴量ｈ＊と、画像のカテゴリを示す画像カテゴリデータとを関連付けて、記憶部４００に記憶させる。すなわち、重要シーン特徴量算出部１３０は、抽出された動き情報に基づいて、重要シーン特徴量ｈ＊を算出する。すなわち、重要シーン特徴量算出部１３０は、入力された画像のカテゴリ（種類）を示す情報と、抽出されたオプティカルフローＯＦ（動き情報）とに基づいて、重要シーン特徴量ｈ＊を算出する。

上述したように、重要シーン特徴量算出部１３０は、前景のオプティカルフローＦＯＦが示す被写体の動きの方向に基づいて、重要シーン特徴量ｈ＊を算出する。すなわち、重要シーン特徴量算出部１３０は、動き情報が示す動きの方向に基づいて、重要シーン特徴量ｈ＊を算出する。

また、重要シーン特徴量算出部１３０は、方向ヒストグラムｈに基づいて、重要シーン特徴量ｈ＊を算出する。この方向ヒストグラムｈとは、所定の画素毎に抽出された前景のオプティカルフローＦＯＦ（動き情報）が示す動きの方向の出現頻度を示す情報である。すなわち、重要シーン特徴量算出部１３０は、所定の画素毎に抽出された動き情報が示す動きの方向の出現頻度に基づいて、重要シーン特徴量ｈ＊を算出する。

識別器生成部２００は、画像の重要シーンを識別する識別器（識別情報）を生成する。具体的には、識別器生成部２００は、重要シーン特徴量算出部１３０が算出した重要シーン特徴量ｈ＊と、入力される重要シーンデータと、入力される画像カテゴリデータとに基づいて、識別器を生成する。この重要シーンデータとは、特徴量算出部１００に入力される訓練画像の各シーンのうち、重要シーンを示す情報である。すなわち、重要シーンデータとは、識別器が、訓練画像の各シーンのうち、重要シーンとして識別すべき正解のシーンを示す情報である。また、画像カテゴリデータとは、特徴量算出部１００に入力される訓練画像データのカテゴリを示すデータである。

この識別器生成部２００は、例えば、既知の機械学習の手法（例えば、ｂａｇ−ｏｆ−ｗｏｒｄｓとＳＶＭとを用いた識別方法）によって識別器を生成する。

また、識別器生成部２００は、画像のカテゴリ毎に識別器を生成することができる。ここで、画像のカテゴリ毎に重要シーン特徴量ｈ＊が相違することがある。したがって、重要シーンを識別する識別器を画像のカテゴリ毎に用意することにより、各カテゴリに適応した、識別精度のよい識別器を用意することができる。すなわち、画像のカテゴリ毎に、このカテゴリに応じた重要シーン特徴量ｈ＊に基づいて生成される識別器を用意することにより、画像処理装置１０は、精度よく重要シーンを識別することができる。

［画像処理装置１０の構成（識別過程）］
次に、識別過程における画像処理装置１０の構成について説明する。この識別過程においては、重要シーン抽出部３００が、記憶部４００に記憶されている訓練画像の重要シーン特徴量ｈ＊と、処理対象の画像とに基づいて、処理対象の画像から重要シーンを抽出する。この重要シーン抽出部３００の具体的な構成について、以下説明する。

重要シーン抽出部３００は、上述した特徴量算出部１００に相当する特徴量算出部３２０と、重要シーン判定部３３０とを備えている。特徴量算出部３２０は、処理対象の画像データが入力されると、上述した特徴量算出部１００と同様にして、処理対象の画像の前景のオプティカルフローＦＯＦ（ｖ＊（ｘ，ｙ））を抽出する。

また、特徴量算出部３２０は、抽出した処理対象の画像の前景のオプティカルフローＦＯＦ（ｖ＊（ｘ，ｙ））に基づいて、処理対象の画像の重要シーン特徴量ｈ＊（エッチ・アスタリスク）を算出する。

重要シーン判定部３３０は、処理対象の画像のカテゴリを示す画像カテゴリデータと、記憶部４００に画像のカテゴリ毎に記憶されている識別器と、特徴量算出部３２０が算出した処理対象の画像の重要シーン特徴量ｈ＊とに基づいて、処理対象の画像から重要シーンを判定する。具体的には、重要シーン判定部３３０は、特徴量算出部３２０が算出した処理対象の画像の重要シーン特徴量ｈ＊を、記憶部４００に記憶されている識別器に適用することにより、入力された処理対象の画像のシーンが重要シーンであるか否かを判定する。

上述したように、重要シーン判定部３３０は、入力される画像カテゴリデータに基づいて、重要シーンを判定する。具体的には、重要シーン判定部３３０は、記憶部４００に記憶されている識別器のうち、入力される画像カテゴリデータが示す画像のカテゴリに関連付けられている識別器を読み出す。これにより、重要シーン判定部３３０は、処理対象の画像の重要シーン特徴量ｈ＊の適用対象として、画像のカテゴリ毎に分類された識別器を用いることができる。すなわち、重要シーン判定部３３０は、処理対象の画像のカテゴリに適合した識別器を選択することができるため、精度よく重要シーンを判定することができる。

重要シーン判定部３３０は、上述のようにして判定した重要シーンを示す画像を重要シーン画像データとして出力する。
ここまで、画像処理装置１０が行う重要シーン抽出の基本的な構成について説明した。以下、画像処理装置１０が行う重要シーン抽出の、より具体的な構成について説明する。

［画像処理装置１０のより具体的な構成について］
上述において、特徴量算出部１００は、入力される訓練画像データの画素数を変化させずに、訓練画像のオプティカルフローＯＦおよび前景のオプティカルフローＦＯＦを算出したが、これに限られない。具体的には、特徴量算出部１００は、訓練画像データの画素数を低減させて訓練画像のオプティカルフローＯＦおよび前景のオプティカルフローＦＯＦを算出する。例えば、特徴量算出部１００のオプティカルフロー抽出部１１０は、入力される訓練画像が１９２０×１０８０画素である場合に、この訓練画像を３２０×２４０画素に画像サイズを変更して、オプティカルフローＯＦおよび前景のオプティカルフローＦＯＦを算出する。この際に、オプティカルフロー抽出部１１０は、入力される訓練画像のアスペクト比（例えば、１６：９）と、画像サイズを変更した後の画像のアスペクト比（４：３）とが異なる場合には、画像サイズを変更する際に画像のトリミングを行う。これにより、特徴量算出部１００は、オプティカルフローＯＦを算出するための演算量を低減させることができる。また、これにより、特徴量算出部１００は、入力される訓練画像にノイズ成分が混入している場合に、このノイズ成分による影響を低減することができる。

また、上述において、特徴量算出部１００は、入力される訓練画像のフレーム内のすべての画素について、訓練画像のオプティカルフローＯＦおよび前景のオプティカルフローＦＯＦを算出したが、これに限られない。ここで、動画のフレームにおいて、視聴者が注目する領域はフレーム中央付近でありフレーム四隅はほとんど注目されないことがある。したがって、特徴量算出部１００は、訓練画像のフレーム内の周辺部分の画素については、訓練画像のオプティカルフローＯＦおよび前景のオプティカルフローＦＯＦを算出しなくてもよい。すなわち、特徴量算出部１００は、訓練画像のフレーム内の中心部分の画素について、訓練画像のオプティカルフローＯＦおよび前景のオプティカルフローＦＯＦを算出すれば足りる。より具体的な一例として、特徴量算出部１００は、半径閾値αの楕円ＥＯ内の画素、すなわち、Ｗ、Ｈをフレームの横幅と高さとした場合に、次の式（８）によって示される画素（ｘ，ｙ）によってオプティカルフローＯＦを算出する。なお、この式（８）において、０＜α≦１である。

特徴量算出部１００が、この式（８）によって示される楕円ＥＯ内の画素を算出対象として、訓練画像のオプティカルフローＯＦおよび前景のオプティカルフローＦＯＦを算出した具体例を図３に示す。
図３は、本実施形態の特徴量算出部１００による動き算出結果の一例を示す模式図である。特徴量算出部１００のオプティカルフロー抽出部１１０は、例えば、図３（ａ）に示す楕円ＥＯ内画素を算出対象として、訓練画像のオプティカルフローＯＦを算出する。また、特徴量算出部１００の前景のオプティカルフロー抽出部１２０は、例えば、図３（ｂ）に示すように、上述の楕円ＥＯ内に含まれるサッカーボールの画像の動きを、前景のオプティカルフローＦＯＦとして算出する。このように構成することにより、特徴量算出部１００は、画像の動きを示す情報（オプティカルフローＯＦ、前景のオプティカルフローＦＯＦ）を算出するための演算量を低減させることができる。

また、上述において、特徴量算出部１００は、入力される訓練画像のフレーム内のすべての画素について、訓練画像のオプティカルフローＯＦおよび前景のオプティカルフローＦＯＦを算出したが、これに限られない。特徴量算出部１００は、フレーム内の画素のうち、所定の間隔で間引きされた画素に対して、オプティカルフローＯＦおよび前景のオプティカルフローＦＯＦを算出してもよい。一例として、特徴量算出部１００は、画素間隔Ｌ（例えば、Ｌ＝５画素）毎にオプティカルフローＯＦおよび前景のオプティカルフローＦＯＦを算出する（式（９）および式（１０）を参照。）。

このように構成することによっても、特徴量算出部１００は、オプティカルフローＯＦを算出するための演算量を低減させることができる。

また、オプティカルフロー抽出部１１０は、上述した式（２）および式（３）によってオプティカルフローＯＦの平均値ｖ￣（ブイ・バー）と標準偏差σ（シグマ）とを算出する前に、ノイズとみなすオプティカルフローの大きさの閾値ｖ０（ブイ・ゼロ）と、前景のオプティカルフローの標準偏差の閾値σ０（シグマ・ゼロ）とを用いて、オプティカルフローＯＦ（ｖ（ｘ，ｙ））を算出する（式（１１）を参照。）。

一例として、オプティカルフロー抽出部１１０は、閾値ｖ０＝２であり、閾値σ０＝２画素（ピクセル）としてオプティカルフローＯＦ（ｖ（ｘ，ｙ））を算出する。

このように構成することによって、オプティカルフロー抽出部１１０は、オプティカルフローＯＦ算出時にノイズを除去することができ、前景のオプティカルフローＦＯＦの誤検出を少なくすることができる。

また、前景のオプティカルフロー抽出部１２０は、上述した式（４）に基づいて前景のオプティカルフローＦＯＦ（ｖ＊（ｘ，ｙ））（ブイ・アスタリスク・エックス・ワイ）を算出するとして説明したが、これに限られない。前景のオプティカルフロー抽出部１２０は、式（１２）に示すように、閾値β（β≧０）を用いて前景のオプティカルフローＦＯＦを算出するように構成してもよい。この閾値βは、例えば、閾値β＝１である。

このように構成することによって、前景のオプティカルフロー抽出部１２０は、算出する前景のオプティカルフローＦＯＦを、例えば、動画のカテゴリや、動画シーンの長さ（継続時間）に応じて調節することができる。

また、重要シーン判定部３３０は、２つ以上の重要シーンを１つの重要シーンにまとめて画像を出力してもよい。この場合には、重要シーン判定部３３０は、隣接する２つの重要シーンの時間間隔がある時間Ｔ（例えば、時間Ｔ＝２秒）以下であれば、その２つの前の重要シーンと後の重要シーンとのうち、前の重要シーンの開始時刻から後の重要シーンの終了時刻までを１つの重要シーンとしてまとめて出力してもよい。このように構成することにより、重要シーン判定部３３０は、重要シーンが細切れにならないようにして、重要シーンを出力することができる。

［画像処理装置１０の動作］
次に、図４を参照して、本実施形態の画像処理装置１０の動作について説明する。
図４は、本実施形態の画像処理装置１０の動作の一例を示すフローチャートである。まず、訓練過程における動作について説明し、次に、識別過程における動作について説明する。

訓練過程において、オプティカルフロー抽出部１１０は、入力される訓練画像のオプティカルフローＯＦを抽出する（ステップＳ１０）。

次に、前景のオプティカルフロー抽出部１２０は、オプティカルフロー抽出部１１０が抽出した訓練画像のオプティカルフローＯＦから、前景のオプティカルフローＦＯＦを抽出する（ステップＳ２０）。

次に、前景のオプティカルフロー抽出部１２０は、ステップＳ２０において抽出した前景のオプティカルフローＦＯＦを複数の方向に量子化する（ステップＳ３０）。
次に、前景のオプティカルフロー抽出部１２０は、ステップＳ３０において各方向に量子化した前景のオプティカルフローＦＯＦについて、各方向の頻度を算出する（ステップＳ４０）。これにより、方向ヒストグラムｈが算出される。

次に、重要シーン特徴量算出部１３０は、ステップＳ４０において算出された方向ヒストグラムｈに基づいて、重要シーン特徴量ｈ＊（エッチ・アスタリスク）を算出する（ステップＳ５０）。

次に、特徴量算出部１００は、すべての訓練画像について重要シーン特徴量ｈ＊を算出済みであるか否かを判定する（ステップＳ６０）。ここで、訓練画像には、さまざまなカテゴリの画像がある。特徴量算出部１００は、訓練画像のカテゴリ毎に重要シーン特徴量ｈ＊を算出するため、複数ある訓練画像について、重要シーン特徴量ｈ＊をそれぞれ算出する。特徴量算出部１００は、すべての訓練画像について重要シーン特徴量ｈ＊を算出済みであると判定した場合（ステップＳ６０：ＹＥＳ）には、処理をステップＳ７０に進める。特徴量算出部１００は、すべての訓練画像について重要シーン特徴量ｈ＊を算出済みでないと判定した場合（ステップＳ６０：ＮＯ）には、次の訓練画像について重要シーン特徴量ｈ＊を算出するため、処理をステップＳ１０に戻す。

次に、識別器生成部２００は、ステップＳ５０において画像のカテゴリ毎に算出した重要シーン特徴量ｈ＊と、入力された画像カテゴリデータと、重要シーンデータとに基づいて、識別器を生成する。また、識別器生成部２００は、入力された画像カテゴリデータと、生成した識別器とを関連付けて、記憶部４００に記憶させて訓練過程を終了する（ステップＳ７０）。

次に、識別過程において、特徴量算出部３２０は、上述したステップＳ１０〜ステップＳ５０と同様にして、重要シーン特徴量ｈ＊を算出する（ステップＳ１００〜ステップＳ１４０）。

次に、重要シーン判定部３３０は、ステップＳ１００〜ステップＳ１４０において算出された処理対象画像の重要シーン特徴量ｈ＊と、ステップＳ７０において記憶部４００に記憶された識別器と、入力される画像のカテゴリとに基づいて、処理対象画像から重要シーンを抽出して処理を終了する（ステップＳ１５０）。

以上説明したように本実施形態の画像処理装置１０は、特徴量算出部１００と、識別器生成部２００とを備えている。これにより、画像処理装置１０は、入力される画像（例えば、動画）に含まれる被写体を抽出し、この被写体の動きに基づいて、重要シーン特徴量ｈ＊を算出する。したがって、画像処理装置１０は、入力される画像を撮影したときの音声情報やカメラのセンサ情報などの付加的な情報を必要とせずに、重要シーン特徴量ｈ＊を算出することができる。すなわち、画像処理装置１０によれば、特別なセンサを用いることなく、画像データから重要なシーンを精度よく抽出することができる。

また、動画が、動いている被写体をカメラで追って撮影された場合には、この被写体がほぼ固定され背景が大きく動く。この場合にも、本実施形態の画像処理装置１０によれば、大きく動く背景を被写体（前景）と誤認識することなく、前景のオプティカルフローＦＯＦを算出することができる。

なお、上述の実施形態において、画像処理装置１０が、動画のカテゴリに基づいて重要シーンを抽出する例について説明したが、これに限られない。例えば、画像処理装置１０は、一般的な機械学習の手法に基づいて重要シーンを抽出するため、動画のカテゴリごとに特徴量を算出しなくても、重要シーンを抽出することができる。これにより、画像処理装置１０は、その構成を簡素化することができる。

また、上述の実施形態において、画像処理装置１０が、入力された動画のカテゴリと、算出した特徴量とを関連付ける例について説明したが、これに限られない。例えば、画像処理装置１０は、一般的な機械学習の手法に基づいて動画のカテゴリを自装置において判定し、判定した動画のカテゴリと算出した特徴量とを関連付けてもよい。これにより、画像処理装置１０は、動画のカテゴリ判定を自動化することができるため、その操作を容易にすることができる。

また、上述した画像処理装置１０の一部の機能をコンピュータで実現するようにしてもよい。この場合、その機能を実現するための画像処理プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された画像処理プログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や周辺装置のハードウェアを含むものである。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに内蔵される磁気ハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバ装置やクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記のプログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。

以上、本発明の実施の形態について図面を参照して詳述したが、具体的な構成はその実
施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。

１０…画像処理装置、１００…特徴量算出部、１１０…オプティカルフロー抽出部、１２０…前景のオプティカルフロー抽出部、１３０…重要シーン特徴量算出部、２００…識別器生成部、３００…重要シーン抽出部、３２０…特徴量算出部、３３０…重要シーン判定部、４００…記憶部

Claims

入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出部と、
前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出部と、
を備えることを特徴とする画像処理装置。
前記動き情報とは、前記画像内の前記被写体の動きを示す情報であって、
前記動き抽出部は、
入力される画像に基づいて、前記画像内の前記被写体の動きを示す動き情報を抽出し、
前記特徴量算出部は、
前記抽出された前記被写体の動きを示す動き情報に基づいて、前記重要シーンを示す特徴量を算出する
ことを特徴とする請求項１に記載の画像処理装置。
前記被写体とは、前記画像内の複数の画像領域のうち当該画像領域間において相対的に動きが大きい画像領域の画像である
ことを特徴とする請求項１または請求項２に記載の画像処理装置。
前記動き情報には、前記被写体の動きの方向を示す情報が含まれ、
前記特徴量算出部は、
前記動き情報が示す前記動きの方向に基づいて、前記特徴量を算出する
ことを特徴とする請求項１から請求項３のいずれか一項に記載の画像処理装置。
前記動き抽出部は、
入力される画像に基づいて、当該画像を構成する所定の画素毎に当該画像の動き情報を抽出し、
前記特徴量算出部は、
前記所定の画素毎に抽出された動き情報が示す前記動きの方向の出現頻度に基づいて、前記重要シーンを示す特徴量を算出する
ことを特徴とする請求項４に記載の画像処理装置。
前記特徴量算出部は、
前記所定の画素毎に抽出された動き情報が示す前記動きの方向のうち、最も出現頻度が高い前記動きの方向に基づいて、前記重要シーンを示す特徴量を算出する
ことを特徴とする請求項５に記載の画像処理装置。
前記特徴量算出部には、さらに前記画像の種類を示す情報が入力され、
前記特徴量算出部は、
入力された前記画像の種類を示す情報と、前記抽出された動き情報とに基づいて、前記重要シーンを示す特徴量を算出する
ことを特徴とする請求項１から請求項６のいずれか一項に記載の画像処理装置。
入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出手順と、
前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出手順と、
を有することを特徴とする画像処理方法。
画像処理装置が備えるコンピュータに、
入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出手順と、
前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出手順と、
を実行させるためのプログラム。