JP4973729B2

JP4973729B2 - 動画像類似判定装置、および動画像類似判定方法

Info

Publication number: JP4973729B2
Application number: JP2009517664A
Authority: JP
Inventors: 厚子多田; 崇浜野; 竜太田中
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-06-07
Filing date: 2007-06-07
Publication date: 2012-07-11
Anticipated expiration: 2027-06-07
Also published as: US20100091864A1; WO2008149448A1; JPWO2008149448A1

Description

本発明は、動画像類似判定装置、符号化装置、および特徴量算出方法に関し、特に、動画データの特徴量を容易に算出し、特徴量の比較による動画像の類似判定を効率良く短時間で実行することができる動画像類似判定装置、符号化装置、および特徴量算出方法に関する。

一般に、コンピュータなどで視聴可能な動画データは、例えばＭＰＥＧ（Moving Picture Experts Group）と呼ばれる方式などで符号化・圧縮されている。ＭＰＥＧ方式においては、動画像を構成する個々の画像を離散コサイン変換（Discrete Cosine Transform：以下「ＤＣＴ変換」という）し、得られたＤＣＴ係数を量子化することによって符号化された動画データが得られる。

具体的には、図８に示すように、符号化装置によって、動画像を構成する個々の画像が順次ＤＣＴ変換されることにより、左上部分に低周波成分が集められ、右下部分に高周波成分が集められたＤＣＴ係数の画像が生成される。このＤＣＴ係数の画像は、動画像を構成する個々の画像に対応しており、各画素に各周波数成分のＤＣＴ係数を格納している。

そして、ＤＣＴ係数の画像は、量子化マトリクスおよび所定の量子化ステップから求められる量子化係数によって量子化され、動画データが得られる。こうして得られる動画データにおいては、高周波成分を格納する画素の大部分が０となるため、動画データの情報量は元の動画像より少なくなり、情報量の削減が可能となっている。

また、このように画像全体が符号化されるのは、元の動画像を構成する画像のうち一部の画像のみであり、符号化された結果はＩフレームと呼ばれるフレームになる。そして、Ｉフレーム以外のＰフレームおよびＢフレームは、Ｉフレームとの差分が符号化されたフレームである。したがって、ＰフレームやＢフレームにおいては、Ｉフレームからの動きがない画素が０となり、最終的に得られる動画データ全体としては、元の動画像から大幅に情報量の削減をすることができる。

ところで、例えば特許文献１などには、上記のように符号化された２つの動画データを比較して、両者が互いに類似しているか否かを判定する技術が開示されている。特許文献１においては、動画データを部分的に復号化して、画素ごとの平均輝度、色情報、またはＤＣＴ係数などの特徴量を時系列で蓄積し、２つの動画データに関するこれらの特徴量が比較されることにより、２つの動画データが類似しているか否かが判定される。

特開２００６−１８８３１号公報

しかしながら、２つの動画データが類似しているか否かを判定する際に、それぞれの動画データから画素ごとの特徴量を取得するのは処理負荷が大きく、効率的ではないという問題がある。具体的には、上述した特許文献１に記載された方法を用いて動画データの類似判定を行う際には、まず、量子化マトリクスと量子化ステップから量子化係数を求める必要がある。そして、求められた量子化係数によって、動画データを逆量子化してＤＣＴ係数を得る。こうして得られるＤＣＴ係数は、画素ごとの特徴量であり、特許文献１に記載の技術では、ＤＣＴ係数を時系列で蓄積し、２つの動画データについて比較するため、類似判定に要する処理量が多くなり、多大な時間を要してしまう。

特に、ＭＰＥＧにおいては、１つのＩフレームがマクロブロックと呼ばれる複数の部分からなっており、それぞれのマクロブロックが異なる量子化ステップで量子化されるため、マクロブロックごとに個別に量子化係数を求めなくてはならない。そして、それぞれのマクロブロックごとに量子化係数を用いた逆量子化を行って、特徴量のＤＣＴ係数を算出する必要がある。このため、たとえ一部のマクロブロックのみに関して比較を行う場合でも、量子化係数の算出やＤＣＴ係数の算出の処理量は多く、短時間での類似判定は困難である。

加えて、近年では、例えばユーザがインターネットに動画データを投稿するサイトなどが開設されており、動画データの利用が活発化している。一方、このようなサイトに著作権で保護されるべき動画データが投稿されるなど、動画像の不正な使用も頻発している。そこで、短時間で多くの動画像が類似しているか否かを判定し、不正な動画像の公開を未然に防止することが強く望まれている。

本発明はかかる点に鑑みてなされたものであり、動画データの特徴量を容易に算出し、特徴量の比較による動画像の類似判定を効率良く短時間で実行することができる動画像類似判定装置、符号化装置、および特徴量算出方法を提供することを目的とする。

上記課題を解決するために、本発明は、各々複数の画像から構成される２つの動画像が類似しているか否かを判定する動画像類似判定装置であって、動画像が符号化されて得られる動画データに含まれ、動画像を構成する個々の画像に対応するフレームを取得する取得手段と、前記取得手段によって取得されたフレームのデータ量および符号化時に適用された量子化ステップに基づいてフレームの元となる画像の複雑さを示す特徴量を算出する算出手段と、前記算出手段によって算出された画像ごとの特徴量を蓄積する蓄積手段と、前記蓄積手段によって蓄積された特徴量を比較することにより２つの動画像が類似しているか否かを判定する判定手段とを有する構成を採る。

この構成によれば、フレームのデータ量と量子化ステップから画像の特徴量を算出するため、特徴量を算出する際に動画データの画素ごとの演算をする必要がなく、動画データの特徴量を容易に算出し、特徴量の比較による動画像の類似判定を効率良く短時間で実行することができる。

また、本発明は、上記構成において、前記算出手段は、前記取得手段によって取得されたフレームのデータ量を取得するデータ量取得手段と、前記取得手段によって取得されたフレームの符号化時に適用された量子化ステップを取得する量子化ステップ取得手段と、前記データ量取得手段によって取得されたデータ量と前記量子化ステップ取得手段によって取得された量子化ステップとを乗算する乗算手段とを含む構成を採る。

この構成によれば、フレームのデータ量と量子化ステップを乗算して特徴量を算出するため、一方を固定した場合に、画像が複雑になるほど他方が大きくなるデータ量と量子化ステップの２つの値から、画像が複雑になるほど大きくなる特徴量を算出することができる。

また、本発明は、上記構成において、前記データ量取得手段は、前記取得手段によって取得されたフレームのヘッダ情報から当該フレームのデータ量の情報を取得する構成を採る。

この構成によれば、フレームのヘッダ情報からデータ量の情報を取得するため、ピクチャ層のヘッダから特徴量の算出に必要な情報を得ることができ、短時間で特徴量を算出することができる。

また、本発明は、上記構成において、前記量子化ステップ取得手段は、前記取得手段によって取得されたフレームを構成する複数のマクロブロックからマクロブロックごとに異なる量子化ステップを取得し、前記乗算手段は、前記データ量取得手段によって取得されたデータ量と前記量子化ステップ取得手段によって取得されたマクロブロックごとの量子化ステップの平均値とを乗算する構成を採る。

この構成によれば、マクロブロックごとの量子化ステップの平均値を用いて特徴量を算出するため、１フレーム内の複数のマクロブロックの量子化ステップが異なる場合でも、フレームに対応する個々の画像の特徴量を算出することができる。

また、本発明は、上記構成において、前記量子化ステップ取得手段は、マクロブロックごとのヘッダ情報から各マクロブロックの量子化ステップの情報を取得する構成を採る。

この構成によれば、マクロブロックのヘッダ情報から量子化ステップの情報を取得するため、マクロブロック層のヘッダから特徴量の算出に必要な情報を得ることができ、短時間で特徴量を算出することができる。

また、本発明は、上記構成において、前記判定手段は、前記蓄積手段によって蓄積された特徴量と比較対象の動画像の特徴量との差分が所定の閾値未満である場合に、２つの動画像が類似していると判定する構成を採る。

この構成によれば、画像の複雑さを示す特徴量が同程度である場合に２つの動画像が類似していると判定するため、２つの動画像の特徴量が算出された後は、容易な処理で類似判定を実行することができる。

また、本発明は、上記構成において、前記判定手段は、前記蓄積手段によって蓄積された特徴量から算出される統計量と比較対象の動画像の特徴量から算出される統計量とを比較して、２つの動画像が類似しているか否かを判定する構成を採る。

この構成によれば、特徴量から算出される統計量の比較により類似判定処理を行うため、例えば特徴量の時系列変化における平均値、最小値、最大値、および標準偏差の一部または全部を比較する容易な処理で類似判定を実行することができる。

また、本発明は、動画像を符号化して動画データを生成する符号化装置であって、動画像を構成する画像であって複数の画素が二次元配列されて構成される画像を離散コサイン変換する変換手段と、前記変換手段によって離散コサイン変換されて得られた係数の画像を量子化する量子化手段と、前記量子化手段による量子化によって得られるフレームのデータ量および量子化時に適用された量子化ステップに基づいて画像の複雑さを示す特徴量を算出する算出手段と、前記算出手段によって算出された画像ごとの特徴量を蓄積する蓄積手段とを有する構成を採る。

この構成によれば、動画像の符号化時に得られるフレームのデータ量と量子化ステップから画像の特徴量を算出して蓄積するため、蓄積された特徴量を他の動画データの特徴量との類似判定などの際に用いて、処理の効率を向上させることができる。

また、本発明は、複数の画像から構成される動画像の特徴量を算出する特徴量算出方法であって、動画像が符号化されて得られる動画データに含まれ、動画像を構成する個々の画像に対応するフレームのデータ量を取得する第１取得工程と、前記フレームの符号化時に適用された量子化ステップを取得する第２取得工程と、前記第１取得工程にて取得されたデータ量および前記第２取得工程にて取得された量子化ステップに基づいてフレームの元となる画像の複雑さを示す特徴量を算出する算出工程とを有するようにした。

この方法によれば、フレームのデータ量と量子化ステップから画像の特徴量を算出するため、特徴量を算出する際に動画データの画素ごとの演算をする必要がなく、動画データの特徴量を容易に算出し、特徴量の比較による動画像の類似判定を効率良く短時間で実行することができる。

本発明によれば、動画データの特徴量を容易に算出し、特徴量の比較による動画像の類似判定を効率良く短時間で実行することができる。

図１は、実施の形態１に係る類似判定装置の要部構成を示すブロック図である。図２は、実施の形態１に係る動画データの階層構造を示す図である。図３は、実施の形態１に係る類似判定装置の動作を示すフロー図である。図４は、実施の形態１に係る特徴量の時系列変化の例を示す図である。図５は、実施の形態１に係る類似判定処理を示すフロー図である。図６は、実施の形態１に係る類似判定処理の具体例を示す図である。図７は、実施の形態２に係る符号化装置の要部構成を示すブロック図である。図８は、ＭＰＥＧによる動画像の符号化を模式的に示す図である。

符号の説明

１００類似判定装置
１１０Ｉフレーム抽出部
１２０特徴量算出部
１２１データ量取得部
１２２量子化ステップ取得部
１２３乗算部
１３０特徴量蓄積部
１４０類似判定部
３００符号化装置
３１０ＤＣＴ変換部
３２０量子化部

本発明の骨子は、動画データのフレームごとのデータ量とフレームの量子化に用いられた量子化ステップとから元の画像の複雑さを示す特徴量を算出し、この特徴量を比較して動画像の類似判定を行うことである。以下、本発明の実施の形態について、図面を参照して詳細に説明する。

（実施の形態１）
図１は、本発明の実施の形態１に係る類似判定装置１００の要部構成を示すブロック図である。図１に示す類似判定装置１００は、Ｉフレーム抽出部１１０、特徴量算出部１２０、特徴量蓄積部１３０、および類似判定部１４０を有している。

Ｉフレーム抽出部１１０は、類似しているか否かを判定する判定対象の動画データが入力されると、入力された動画データから１つの画像全体が符号化されて得られたＩフレームを抽出する。すなわち、Ｉフレーム抽出部１１０は、動画データに含まれるＩフレーム、Ｐフレーム、およびＢフレームのうちＰフレームおよびＢフレームを無視して、類似判定に用いるＩフレームのみを抽出する。Ｉフレームは、画像全体が符号化されて得られたものであるため、１つのフレーム単独で画像の特徴を最も良く表している。

特徴量算出部１２０は、Ｉフレームに関する情報から動画データの特徴量を算出する。このとき、特徴量算出部１２０は、例えば逆量子化などの画素ごとの係数を算出する演算を行わず、動画データを構成する各階層のヘッダ情報などを用いて元の画像の複雑さを示す特徴量を算出する。具体的には、特徴量算出部１２０は、データ量取得部１２１、量子化ステップ取得部１２２、および乗算部１２３を有している。

データ量取得部１２１は、Ｉフレームのヘッダ情報からＩフレームのデータ量を取得する。後述するように、動画データは、複数の階層を有する階層構造を採っており、それぞれの階層においてヘッダ情報が付加されている。そして、データ量取得部１２１は、ピクチャ層に属するＩフレームのヘッダ情報からデータ量を取得する。なお、画像の量子化に関する条件が一定であれば、元の画像が複雑であればあるほど符号化後のフレームのデータ量は増加する。

量子化ステップ取得部１２２は、Ｉフレームを構成するマクロブロックのヘッダ情報からマクロブロックごとの量子化ステップを取得する。そして、量子化ステップ取得部１２２は、マクロブロックごとの量子化ステップの平均値を算出し、乗算部１２３へ出力する。すなわち、量子化ステップ取得部１２２は、マクロブロック層のヘッダ情報から各マクロブロックの符号化に用いられた量子化ステップの平均値を求める。なお、マクロブロックのデータ量が一定であれば、元の画像が複雑であればあるほど粗い量子化が行われていることになり、量子化ステップが大きい。

乗算部１２３は、Ｉフレームのデータ量とマクロブロックごとの量子化ステップの平均値とを乗算して、Ｉフレームの特徴量を算出する。既に述べたように、データ量と量子化ステップは、一方を固定すると複雑な画像ほど他方が大きくなる値であるため、これらを乗算して得られる特徴量が大きいほど、Ｉフレームの元になっている画像が複雑であるといえる。

特徴量蓄積部１３０は、特徴量算出部１２０によって算出されたＩフレームごとの特徴量にこのＩフレームの時刻情報を対応付けて蓄積する。Ｉフレームの時刻情報は、例えば動画データの開始時刻から当該Ｉフレームまでの経過時間を示している。

また、特徴量蓄積部１３０は、比較対象となる動画データ（以下「比較データ」という）におけるＩフレームごとの特徴量と時刻情報をあらかじめ記憶している。比較データの特徴量は、他装置における符号化時に算出されたものが特徴量蓄積部１３０に記憶されていても良く、動画データと同様に特徴量算出部１２０によって算出されたものがあらかじめ特徴量蓄積部１３０に記憶されていても良い。

類似判定部１４０は、動画データの特徴量と比較データの特徴量とを比較し、両者の元の動画像が類似しているか否かを判定する。具体的には、類似判定部１４０は、動画データの特徴量の時系列変化と比較データの特徴量の時系列変化とを比較し、所定の範囲内のすべての時刻のフレームにおいて特徴量の差が所定の閾値未満であるか否かを判定する。そして、類似判定部１４０は、すべての時刻のフレームにおいて特徴量の差が所定の閾値未満である場合に、動画データと比較データの元の動画像が類似していると判定し、特徴量の差が所定の閾値以上であるフレームが１つでもある場合に、動画データと比較データの元の動画像が類似していないと判定する。

ここで、本実施の形態に係る動画データの階層構造について、図２を参照しながら説明する。シーケンス層に属する動画データは、図２の上段に示すように、ピクチャ層に属する複数のフレームから構成されている。フレームには、Ｉフレーム、Ｐフレーム、およびＢフレームの３種類があり、本実施の形態においては、Ｉフレーム抽出部１１０は、Ｉフレーム２０１を動画データから抽出する。

Ｉフレーム２０１のヘッダ情報には、Ｉフレーム２０１のデータ量や量子化に用いられる量子化マトリクスなどの情報が格納されている。したがって、データ量取得部１２１は、Ｉフレーム２０１のヘッダ情報からＩフレーム２０１のデータ量を取得する。なお、シーケンス層とピクチャ層の間には、ＧＯＰ（Group Of Pictures）層が設けられており、１つのＧＯＰ層には１つのＩフレームを含む複数のフレームが属している。

ピクチャ層に属するＩフレーム２０１は、図２の中段に示すように、マクロブロック層に属する複数のマクロブロック２０２から構成されている。マクロブロック２０２のヘッダ情報には、マクロブロック２０２を量子化する際に適用された量子化ステップの情報などが格納されている。したがって、量子化ステップ取得部１２２は、各マクロブロック２０２のヘッダ情報からマクロブロック２０２ごとの量子化ステップを取得する。なお、ピクチャ層とマクロブロック層の間には、スライス層が設けられており、例えば１行分のマクロブロック２０２が属している。

マクロブロック層に属するマクロブロック２０２は、図２の下段に示すように、ブロック層に属する複数のブロック２０３から構成されている。それぞれのブロック２０３は、例えば輝度信号のブロック（Ｙ）、輝度信号と青色成分の差のブロック（Ｕ）、および輝度信号と赤色成分の差のブロック（Ｖ）などであり、例えば８×８画素の大きさのブロックである。各ブロック２０３の画素には、それぞれ係数が格納されているが、本実施の形態においては、画素に格納された係数を類似判定に用いることはない。

次いで、上記のように構成された類似判定装置１００の動作について、図３に示すフロー図を参照しながら説明する。

まず、動画データが類似判定装置１００へ入力されると（ステップＳ１０１）、Ｉフレーム抽出部１１０によって、動画データを構成する個々のフレームが取得される（ステップＳ１０２）。そして、Ｉフレーム抽出部１１０によって、取得されたフレームがＩフレームであるか否か判断され（ステップＳ１０３）、Ｉフレーム以外のＰフレームまたはＢフレームである場合には（ステップＳ１０３Ｎｏ）、次のフレームが取得される。

また、Ｉフレーム抽出部１１０によって取得されたフレームがＩフレームである場合には（ステップＳ１０３Ｙｅｓ）、このＩフレームがデータ量取得部１２１および量子化ステップ取得部１２２へ出力される。そして、データ量取得部１２１によって、Ｉフレームのヘッダ情報が参照され、フレームのデータ量が取得される（ステップＳ１０４）。

一方、量子化ステップ取得部１２２によって、Ｉフレームを構成する複数のマクロブロックのヘッダ情報が参照され、各マクロブロックの量子化に用いられた量子化ステップが取得される（ステップＳ１０５）。そして、量子化ステップ取得部１２２によって、Ｉフレームを構成するすべてのマクロブロックに関する量子化ステップが取得されたか否かが判断され（ステップＳ１０６）、すべてのマクロブロックのヘッダ情報から量子化ステップが取得されると（ステップＳ１０６Ｙｅｓ）、量子化ステップの平均値が算出される（ステップＳ１０７）。

Ｉフレームのデータ量および量子化ステップの平均値は、いずれも乗算部１２３へ出力され、乗算部１２３によって乗算され、特徴量が算出される（ステップＳ１０８）。この特徴量は、フレームのデータ量および量子化ステップのみから算出されるため、画素ごとの情報を用いた演算などは一切不要である。すなわち、ピクチャ層のヘッダ情報およびマクロブロック層のヘッダ情報のみが参照されて特徴量が算出されるため、特徴量の算出に要する処理量および処理時間は少量で済む。

また、データ量および量子化ステップは、一方を固定すると元の画像が複雑になるほど他方が大きくなる関係にあるため、特徴量は、元の画像の複雑さを示す値となる。すなわち、データ量を固定すると、複雑な画像ほど量子化を粗くして０の画素を増やす必要があるため、量子化ステップは大きくなる一方、量子化ステップを固定すると、複雑な画像ほど０以外の画素が増加するため、データ量が大きくなる。このため、データ量と量子化ステップを乗算して得られる特徴量は、元の画像が複雑なほど大きくなる値となる。同時に、この特徴量は、各フレームを代表する特徴であり、類似した画像のフレームから得られる特徴量は、互いに近い値になる。

乗算部１２３によって算出された特徴量は、特徴量蓄積部１３０へ出力され、Ｉフレームの時刻情報と対応付けられて蓄積される（ステップＳ１０９）。このような特徴量の算出・蓄積が実行される間、Ｉフレーム抽出部１１０によって、動画データから所定数のフレームに関して特徴量が蓄積されたか否かが判断され（ステップＳ１１０）、所定数のフレームに関する特徴量が未蓄積である場合には（ステップＳ１１０Ｎｏ）、引き続き、動画データからフレームが取得される（ステップＳ１０２）。ここで、所定数のフレームは、動画データに含まれるすべてのフレームであっても良い。すなわち、Ｉフレーム抽出部１１０によって、動画データに含まれるすべてのＩフレームが抽出され、すべてのＩフレームから特徴量が算出されるようにしても良い。

一方、所定数のフレームに関する特徴量が蓄積されると（ステップＳ１１０Ｙｅｓ）、類似判定部１４０によって、動画データと比較データの特徴量が比較され、類似判定処理が行われる（ステップＳ１１１）。ここでの類似判定処理は、例えば図４に示すような動画データの特徴量の時系列変化が比較データの特徴量の時系列変化に類似しているか否かが判定されることにより行われる。比較データの特徴量については、他の装置において求められたものが特徴量蓄積部１３０にあらかじめ記憶されていても良く、動画データと同様に特徴量算出部１２０によって算出されたものが特徴量蓄積部１３０にあらかじめ記憶されていても良い。

以下、比較データの特徴量の時系列変化があらかじめ特徴量蓄積部１３０に記憶されているものとして、本実施の形態に係る類似判定処理について図５に示すフロー図を参照しながら説明する。

類似判定装置１００に入力された動画データの所定数のフレーム（例えば動画データのすべてのＩフレーム）の特徴量が特徴量蓄積部１３０に蓄積されると、類似判定部１４０によって、動画データのｎフレーム分（ｎは１以上の整数）の特徴量が特徴量蓄積部１３０から取得される（ステップＳ２０１）。ここでは、動画データのすべてのＩフレームの特徴量が特徴量蓄積部１３０から取得されるようにしても良い。また、動画データと比較される比較データは、ｎ個以上のＩフレームを有しており、特徴量蓄積部１３０には、これらのＩフレームの特徴量が蓄積されているものとする。

そして、類似判定部１４０によって、取得されたｎフレームと比較される比較データの比較対象部分の開始フレームを示す変数ｉが１に初期化される（ステップＳ２０２）。すなわち、変数ｉの初期化によって、比較データの１〜ｎ番目のｎフレームが比較対象部分となる。そこで、類似判定部１４０によって、比較データのｉ〜（ｉ＋ｎ−１）番目（ここでは１〜ｎ番目）のｎフレーム分の特徴量が特徴量蓄積部１３０から取得される（ステップＳ２０３）。

こうして比較される２種類の特徴量が取得されると、類似判定部１４０によって、比較対象部分内でのフレームの位置を示す変数ｋが１に初期化される（ステップＳ２０４）。すなわち、変数ｋの初期化によって、ｎフレームの最初の（１番目の）フレームから特徴量が比較されることになる。具体的には、類似判定部１４０によって、動画データのｎフレームのうちｋ番目（ここでは１番目）のフレームの特徴量と比較データの比較対象部分のうちｋ番目（ここでは１番目）のフレームの特徴量との差分が算出される（ステップＳ２０５）。ただし、動画データのｎフレームのｋ番目のフレームと比較対象部分のｋ番目のフレームとは、それぞれの開始フレームからの経過時間が等しいフレームであるものとする。

そして、類似判定部１４０によって、特徴量の差分が所定の閾値未満であるか否かが判定される（ステップＳ２０６）。この結果、特徴量の差分が所定の閾値未満である場合は（ステップＳ２０６Ｙｅｓ）、ｎフレームのうちｋ番目のフレームの特徴が類似していることを意味するため、類似判定部１４０によって変数ｋがｎに等しくなって、ｎフレームすべての特徴が類似していたことになるか否かが判定される（ステップＳ２０７）。後述するように、ｎフレームのうち１フレームでも特徴量が類似していないと判定されれば、その時点で動画データ由来のｎフレームと比較対象部分が類似していないと判断されるため、ｎ番目のフレームの特徴が類似していると判定された時点で、ｎフレームのすべての特徴が類似していたことになる。

したがって、変数ｋとｎの比較の結果、変数ｋがｎに等しければ（ステップＳ２０７Ｙｅｓ）、動画データ由来のｎフレームと比較対象部分が類似していることになり、類似判定部１４０によって、動画データと比較データが類似していると判定される（ステップＳ２０８）。一方、変数ｋがｎに等しくなければ（ステップＳ２０７Ｎｏ）、変数ｋが１インクリメントされ（ステップＳ２０９）、類似判定部１４０によって、次のフレームの特徴量の差分が算出され、所定の閾値未満であるか否かが判定される（ステップＳ２０５、Ｓ２０６）。

そして、特徴量の差分と所定の閾値との比較の結果、特徴量の差分が所定の閾値以上である場合は（ステップＳ２０６Ｎｏ）、ｎフレームのうちｋ番目のフレームの特徴が類似していないことを意味するため、類似判定部１４０によって、動画データ由来のｎフレームと比較対象部分が類似していないと判断される。このように、特徴が類似していないフレームが出現した時点で、動画データ由来のｎフレームと比較対象部分が類似していないと判断されるため、ｎフレームの残りのフレームに関する特徴量の比較を行う必要がなく、類似判定に要する時間の短縮を図ることができる。

また、動画データ由来のｎフレームと比較対象部分が類似していないと判断された際、比較データの開始フレームから最終フレームまでのすべてのフレームが既に比較対象部分となっていれば、動画データ由来のｎフレームに類似した比較対象部分が比較データから検出されなかったと判断できるため、類似判定部１４０によって、変数ｉが比較データの最終フレームに対応する値になっているか否かが判定される（ステップＳ２１０）。換言すれば、比較対象部分の最後のフレームである（ｉ＋ｎ−１）番目のフレームが比較データの最終フレームであるか否かが判定される。

この判定の結果、変数ｉが比較データの最終フレームに対応する値になっていれば（ステップＳ２１０Ｙｅｓ）、動画データ由来のｎフレームに類似した比較対象部分が比較データに含まれていなかったことになり、類似判定部１４０によって、動画データと比較データが類似していないと判定される（ステップＳ２１１）。一方、変数ｉが比較データの最終フレームに対応する値になっていなければ（ステップＳ２１０Ｎｏ）、変数ｉが１インクリメントされ（ステップＳ２１２）、類似判定部１４０によって、比較データにおける次の比較対象部分のｎフレームが決定され、この比較対象部分の特徴量が取得される（ステップＳ２０３）。

このように、本実施の形態においては、比較データ内の連続するｎフレームが順次比較対象部分となり、動画データ由来のｎフレームと特徴量が比較され、ｎフレームすべてについて特徴量の差分が所定の閾値未満となる比較対象部分が比較データ内にある場合には、動画データと比較データが類似していると判定することができる。そして、比較に用いられる特徴量は、ピクチャ層およびマクロブロック層のヘッダ情報から得られるとともに、比較対象部分に含まれるフレームが１つでも動画データ由来のフレームに類似していないと判断された時点で、比較対象部分を変更するため、比較的長時間の比較データであっても、動画データとの類似判定を迅速に実行することができる。

次に、類似判定部１４０による類似判定処理の具体例について、図６を参照しながら説明する。

本実施の形態においては、比較データの特徴量が特徴量蓄積部１３０にあらかじめ記憶されており、この特徴量の時系列変化の中に動画データの特徴量の時系列変化に類似したパターンが含まれているか否かによって動画データと比較データの類似判定が行われる。すなわち、比較データの特徴量が図６に示すように時系列変化している場合に、動画データのｎフレーム分の特徴量の時系列変化パターンを比較データ内の連続するｎフレーム分の特徴量の時系列変化パターンと比較していき、動画データ由来のｎフレームに類似した時系列変化パターンが比較データ内に含まれる場合に、動画データと比較データが類似していると判定される。

図６に示した例では、動画データ由来のｎフレームと比較データの１〜ｎ番目のフレームとの特徴量の時系列変化パターンが比較された後、動画データ由来のｎフレームと比較される比較対象部分を徐々にスライドさせている。そして、比較データのｉ〜（ｉ＋ｎ−１）番目のフレームの特徴量の時系列変化パターンが動画データ由来のｎフレームの特徴量の時系列変化パターンと類似しているため、動画データと比較データは類似していると判定されることになる。

以上のように、本実施の形態によれば、動画データのＩフレームに含まれるヘッダ情報からＩフレームのデータ量とマクロブロックごとの量子化ステップとを取得し、データ量と量子化ステップの平均値とを乗算してＩフレームの元となる画像の複雑さを示す特徴量を算出する。そして、この特徴量の時系列変化を比較することにより、複数の画像が類似しているか否かを判定する。このため、例えば逆量子化などを行って、動画データの画素ごとの値を演算して元の画像の特徴量を求める必要がなく、特徴量を容易に算出することができる。そして、特徴量の算出が容易であるため、この特徴量を用いた動画像の類似判定を短時間で効率良く実行することができる。

なお、上記実施の形態１においては、類似判定処理の際に、動画データ由来のｎフレームと比較対象部分との各フレームの特徴量を比較し、特徴量の差分が所定の閾値以上となるフレームが出現した時点で、動画データ由来のｎフレームと比較対象部分が類似していないと判断するものとした。しかし、特徴量の差分が所定の閾値以上となるフレームが出現しても、ｎフレームすべてについて特徴量を比較し、最終的に特徴量の差分が所定の閾値以上となるフレームがｎフレームに占める割合によって動画データ由来のｎフレームと比較対象部分の類似判定を行っても良い。こうすることにより、類似判定に要する時間が長くなるものの、類似とされる範囲を広げることができ、より厳しい類似判定を実行することができる。

また、上記実施の形態１においては、フレームごとの特徴量の差分を所定の閾値と比較することにより類似判定処理を行うものとしたが、動画データおよび比較データの所定数のフレームの特徴量の時系列変化における平均値、最大値、最小値、または標準偏差などの統計量を算出し、算出された統計量を比較することにより類似判定処理を行っても良い。すなわち、例えば算出された統計量の差分が所定の閾値未満である場合に、動画データおよび比較データが類似していると判断するなどとしても良い。

（実施の形態２）
本発明の実施の形態２の特徴は、動画データを生成する符号化時に元の動画像の特徴量を蓄積しておく点である。

図７は、本実施の形態に係る符号化装置３００の要部構成を示すブロック図である。同図において、図１と同じ部分には同じ符号を付し、その説明を省略する。図７に示す符号化装置３００は、ＤＣＴ変換部３１０、量子化部３２０、特徴量算出部１２０、および特徴量蓄積部１３０を有している。

ＤＣＴ変換部３１０は、動画像を構成する個々の画像をＤＣＴ変換し、低周波成分が左上方向の画素に格納され、高周波成分が右下方向の画素に格納されたＤＣＴ係数の画像を生成する。このとき、ＤＣＴ変換部３１０は、例えば輝度信号の画像、輝度信号と青色成分の差の画像、および輝度信号と赤色成分の差の画像など、ブロック層に属する各ブロックに対応する複数の画像に対してＤＣＴ変換を施す。こうして得られる複数のブロックの画像は、一組でマクロブロック層に属するマクロブロックとなる。

量子化部３２０は、ＤＣＴ変換部３１０によって生成されたＤＣＴ係数の画像に対して量子化マトリクスおよび量子化ステップを適用して量子化する。このとき、量子化部３２０は、マクロブロックごとに量子化ステップを調整し、Ｉフレームごとのデータ量がほぼ一定になるようにする。そして、量子化部３２０は、マクロブロックごとの量子化ステップの情報をマクロブロック層のヘッダに格納し、Ｉフレームのデータ量の情報をピクチャ層のヘッダに格納する。

本実施の形態においては、特徴量算出部１２０は、動画像を構成する個々の画像が符号化されて動画データとなる際に、画像ごとのデータ量およびマクロブロックごとの量子化ステップを取得して画像ごとの特徴量を算出する。すなわち、データ量取得部１２１は、量子化部３２０からＩフレームのデータ量を取得し、量子化ステップ取得部１２２は、量子化部３２０からマクロブロックごとの量子化ステップを取得し、乗算部１２３は、データ量と量子化ステップの平均値とを乗算する。

このようにして算出された特徴量は、実施の形態１と同様に、特徴量蓄積部１３０にＩフレームの時刻情報と対応付けられて蓄積される。こうして蓄積される特徴量は、符号化装置３００によって符号化された動画像に類似している動画像があるか否かを判定する際などに用いることができる。具体的には、例えば動画像が符号化される際に特徴量蓄積部１３０に蓄積される特徴量を実施の形態１における比較データの特徴量として用いることなどが可能である。すなわち、実施の形態１の類似判定装置１００と本実施の形態に係る符号化装置３００とを組み合わせることにより、動画像から動画データを生成する際に比較データの特徴量を蓄積しておくことができ、比較データと他の動画データとの類似判定を行う際に、比較データの特徴量を改めて算出する必要がなくなる。

以上のように、本実施の形態によれば、動画像が符号化されて動画データが生成される際にＩフレームのデータ量とマクロブロックごとの量子化ステップとを取得し、データ量と量子化ステップの平均値とを乗算してＩフレームの元となる画像の複雑さを示す特徴量を算出する。このため、動画像の特徴量を符号化時に算出して蓄積しておくことができ、蓄積された特徴量を他の動画データの特徴量との類似判定などの際に用いて、処理の効率を向上させることができる。

なお、上記各実施の形態においては、Ｉフレームのデータ量とマクロブロックごとの量子化ステップの平均値とを乗算することによって特徴量を求めるものとしたが、乗算以外の演算によって特徴量を求めても良い。すなわち、データ量と量子化ステップは、一方を固定した場合に、元の画像が複雑になるほど他方が大きくなる関係であるため、データ量と量子化ステップの２つの情報が総合的にどの程度大きいかが分かるような演算を実行すれば良い。また、乗算を行う場合にも、それぞれの情報に重み付けをするなどとしても良い。

さらに、上記各実施の形態においては、量子化ステップ取得部１２２がＩフレームのすべてのマクロブロックの量子化ステップを取得して平均値を算出するものとしたが、一部のマクロブロックのみの量子化ステップを取得して平均値を算出しても良い。こうすることにより、特徴量を算出する処理時間がさらに短縮され、類似判定などをより効率的に実行することができる。

本発明は、動画データの特徴量を容易に算出し、特徴量の比較による動画像の類似判定を効率良く短時間で実行する場合に適用することができる。

Claims

各々複数の画像から構成される２つの動画像が類似しているか否かを判定する動画像類似判定装置であって、
２つの動画像が符号化されて得られる２つの動画データのそれぞれに含まれ、動画像を構成する個々の画像に対応するＩフレームを取得する取得手段と、
前記取得手段によって取得されたＩフレームのデータ量および符号化時に適用された量子化ステップに基づいてＩフレームの元となる画像の複雑さを示す特徴量を前記２つの動画像ごとに算出する算出手段と、
前記算出手段によって算出された画像ごとの特徴量を前記２つの動画像ごとに蓄積する蓄積手段と、
前記蓄積手段によって蓄積された前記２つの動画像の特徴量の差分が所定の閾値未満である場合に、２つの動画像が類似していると判定する判定手段と
を有することを特徴とする動画像類似判定装置。
前記算出手段は、
前記取得手段によって取得されたＩフレームのデータ量を取得するデータ量取得手段と、
前記取得手段によって取得されたＩフレームの符号化時に適用された量子化ステップを取得する量子化ステップ取得手段と、
前記データ量取得手段によって取得されたデータ量と前記量子化ステップ取得手段によって取得された量子化ステップとを前記２つの動画像ごとに乗算する乗算手段と
を含むことを特徴とする請求項１記載の動画像類似判定装置。
前記データ量取得手段は、
前記取得手段によって取得されたＩフレームのヘッダ情報から当該Ｉフレームのデータ量の情報を取得することを特徴とする請求項２記載の動画像類似判定装置。
前記量子化ステップ取得手段は、
前記取得手段によって取得されたＩフレームを構成する複数のマクロブロックからマクロブロックごとに異なる量子化ステップを取得し、
前記乗算手段は、
前記データ量取得手段によって取得されたデータ量と前記量子化ステップ取得手段によって取得されたマクロブロックごとの量子化ステップの平均値とを前記２つの動画像ごとに乗算することを特徴とする請求項２記載の動画像類似判定装置。
前記量子化ステップ取得手段は、
マクロブロックごとのヘッダ情報から各マクロブロックの量子化ステップの情報を取得することを特徴とする請求項４記載の動画像類似判定装置。
前記判定手段は、
前記蓄積手段によって蓄積された特徴量と比較対象の動画像の特徴量との差分が所定の閾値未満である場合に、２つの動画像が類似していると判定することを特徴とする請求項１記載の動画像類似判定装置。
前記判定手段は、
前記蓄積手段によって蓄積された特徴量から算出される統計量と比較対象の動画像の特徴量から算出される統計量とを比較して、２つの動画像が類似しているか否かを判定することを特徴とする請求項１記載の動画像類似判定装置。
各々複数の画像から構成される２つの動画像が類似しているか否かを判定する動画像類似判定方法であって、
２つの動画像が符号化されて得られる２つの動画データのそれぞれに含まれ、動画像を構成する個々の画像に対応するＩフレームを取得し、
取得されたＩフレームのデータ量および符号化時に適用された量子化ステップに基づいてＩフレームの元となる画像の複雑さを示す特徴量を前記２つの動画像ごとに算出し、
算出された前記２つの動画像の特徴量の差分が所定の閾値未満である場合に、２つの動画像が類似していると判定する
ことを特徴とする動画像類似判定方法。