JP6236154B2 - 動画コンテンツに現れる物体を表す動画タグクラウドを生成する方法 - Google Patents

動画コンテンツに現れる物体を表す動画タグクラウドを生成する方法 Download PDF

Info

Publication number
JP6236154B2
JP6236154B2 JP2016527359A JP2016527359A JP6236154B2 JP 6236154 B2 JP6236154 B2 JP 6236154B2 JP 2016527359 A JP2016527359 A JP 2016527359A JP 2016527359 A JP2016527359 A JP 2016527359A JP 6236154 B2 JP6236154 B2 JP 6236154B2
Authority
JP
Japan
Prior art keywords
pattern
video
frequent
spatial
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016527359A
Other languages
English (en)
Other versions
JP2017504085A (ja
Inventor
マリイ,エマニュエル
ディオ,ファビアン
オウトタガーツ,アブデルカーデル
オブレド,コリンヌ
セクダン,シルヴァン
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2017504085A publication Critical patent/JP2017504085A/ja
Application granted granted Critical
Publication of JP6236154B2 publication Critical patent/JP6236154B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Description

本発明は、動画コンテンツに現れる物体を表す動画タグクラウドを生成する方法に関する。
一般的なテキストタグクラウドは、インターネットのユーザによく知られており、重み付けキーワードまたはメタデータの一群の視覚表示を本質とする。また、「ワードクラウド」または「重み付けリスト」としても知られており、通常、ウェブサイト上のキーワードメタデータの表現またはフリーフォームテキストの視覚化に用いられる。タグは通例、その重要性がフォントのサイズおよび/または色によって強調された単語である。
一般的に、このようなタグクラウドは、テキスト情報を解析するツールによって提供され、前記ツールでは、入力メタデータ、キーワード、およびテキストを取り込むとともに、たとえば意味解析によってすべてを処理することにより、グローバルタグクラウド上に表示される有意な視覚表示(タグ)を構築する。
たとえば、米国特許第8359191号は、タグが、異なる言語カテゴリに分離され、および/または共通ドメインに従ってクラスタリングされて表現される、タグクラウドを生成する方法を提供している。
ワードタグクラウドに関する既存の文書の大部分は、テキスト、音声、および/または動画等のマルチメディアコンテンツからワードを抽出した後、前記ワードに専用のアルゴリズムを適用して、前記ワードに適用する適切な重み付けを評価するとともに、前記重み付けに対応した適当なタグを作成する方法を記載している。
動画および画像コンテンツのタグクラウドに関しては、動画または画像コンテンツと関連付けられたテキスト注釈に基づくワードタグクラウドの構築を本質とする基本的な方法が存在する。たとえば、マルチメディアファイル共有ウェブサイトFlickrは、そのユーザにより共有される写真および/または動画コンテンツに関連したキーワードに基づいて、上記のようなタグクラウドを提供する。また、画像タグクラウドの構築を本質とし、タグが完全な重み付け画像の視覚表示である、より精緻な方法が存在する。
しかし、上述のような画像タグクラウドは、画像に付随するテキスト注釈の意味解析にも依拠しているが、画像自体の解析には依拠していない。さらに、無料ソフトウェアWinkによる提案のように、テキストの意味解析に依拠しない画像タグクラウドは、意味解析なしで構築された単純な表示モデルである。
論文「Suivi Tridimentionnel en Stereovision」(S.CONSEIL、S.BOURENNANE、L.MARTIN、GRETSI 2005年)によれば、動画コンテンツの関心のある物体は、前記コンテンツが移動しないカメラで取得されたものである場合、バックグラウンド減算手法によって容易に検出可能であることが明らかである。実際、この論文において、著者らは、システムの開始時に取り込まれた基準画像を構成するバックグラウンドを減算することによって、画像中の手を検出している。
しかし、この論文の検出ソリューションでは、物体間の関係を確立不可能であり、動画コンテンツが移動するカメラで取得されたものである場合、このバックグラウンド減算技術は、取得動画コンテンツ中の物体に関して、有用な情報を一切提供しない。
移動するカメラで取得された動画コンテンツを処理する場合は、2つの異なる手法が一般的に用いられるが、第1の手法は、動画コンテンツ中の関心のある物体に対するタグ付けをユーザに要請した後、圧縮アルゴリズムまたは追跡学習検出(TLD)アルゴリズム等の運動と見かけモデルを用いることを本質としている。しかし、この技術は、非常に正確な追跡情報を提供するものの、先行してユーザ入力が必要であることから、完全に自動化されたシステムには使用できない。
第2の手法では、取得動画コンテンツに関する事前知識を用いて、この問題を単純化している。このような手法は一般的に、関心のある物体のモデルを事前に学習することを本質としており、前記モデルは、取得動画コンテンツの各フレームにおける類似物体の検出に利用可能である。これら技術の非常に印象的な一例は、論文「Maximum Wright Cliques with Mutex Constraints for Object Segmentation」(T.MA、L.J.LATECKI、CVPR 2012年)に提示されており、多様な物体カテゴリに対して、事前トレーニングされた一般的な物体モデルをアプリケーションが使用する。しかし、これらの技術は、ユーザ入力なく複数の物体を同時に検出して追跡可能であっても、依然としてトレーニングステップに依存しており、任意の種類の物体では動作しない。
米国特許第5867584号は、動画像シーケンスを通じて物体を自動追跡可能なシステムを記載しているが、前記システムでは、物体を含むウィンドウの指定ひいてはユーザ相互作用および/または追跡する物体の事前知識が必要となる。
また、米国特許第8351649号は、トレーニングフェーズを用いた物体追跡技術を記載している。
総じて、上述の方法は一般的に、動画コンテンツの物体の検出、追跡、抽出および前記コンテンツにおける前記物体間の関係の確立するために、事前知識を有するアルゴリズムすなわち学習フェーズおよび/または事前の相互作用によって具体的に精緻化されたアルゴリズムを使用するので満足できない。さらに、これらの方法のいくつかは、移動するカメラの制約に適応しておらず、これも不便である。
米国特許第8359191号明細書 米国特許第5867584号明細書 米国特許第8351649号明細書
「Suivi Tridimentionnel en Stereovision」(S.CONSEIL、S.BOURENNANE、L.MARTIN、GRETSI 2005年) 「Maximum Wright Cliques with Mutex Constraints for Object Segmentation」(T.MA、L.J.LATECKI、CVPR 2012年) 「Regions Adjacency Graph Applied to Color Image Segmentation」(A.TREMEAU、P.COLANTONI、IEEE、Transactions on Image Processing、2000年)
本発明は、動画コンテンツに現れる有意な物体の抽出、前記物体間の相対的な相互作用の決定および集約、ならびに前記物体の表示を含む改良されたマルチメディアタグクラウドの生成を可能にする解決手段であって、前記有意な物体が、前記物体の事前知識なく、前記動画コンテンツのさまざまな記録条件を考慮することによって自動的に検出される、解決手段を提案することにより先行技術を改良することを目的とする。
上記目的のため、第1の態様によれば、本発明は、動画コンテンツに現れる物体を表す動画タグクラウドを生成する方法であって:
− 前記動画コンテンツの動画フレームを抽出し、前記動画フレームを領域へと個別にセグメント化するステップと、
− 各抽出フレームに関して、前記フレームのセグメント化された領域間の空間的関係をモデル化するトポロジグラフを構築するステップと、
− 構築したトポロジグラフ集合から、空間的および時間的制約に従って、頻出パターンを抽出するステップであり、各パターンが少なくとも1つのセグメント化された領域を含む、抽出するステップと、
− 軌跡制約を用いて同じ物体の部分を表す頻出パターンを再グループ化し、前記動画コンテンツの頻出物体を検出するステップと、
− 各検出された頻出物体に関して、少なくとも前記物体のパターンの抽出に用いられる空間的および時間的制約ならびに前記パターンの再グループ化に用いられる軌跡制約に従って、前記物体に適用する重み付け係数を決定するステップと、
− 前記頻出物体のそれぞれの視覚表示を含む動画タグクラウドをそれらの重み付け係数に従って生成するステップと、
を提供する、方法に関する。
第2の態様によれば、本発明は、上記のような方法を実行するように構成されたコンピュータプログラムに関する。
第3の態様によれば、本発明は、動画コンテンツに現れる物体を表す動画タグクラウドを生成する上記のようなコンピュータプログラムを実行するように構成されたアプリケーション装置であって:
− 前記生成を管理するエンジンモジュールと、
− 前記動画コンテンツの動画フレームを抽出する手段および前記動画フレームを領域へと個別にセグメント化する手段を備えた抽出モジュールと、
− 各抽出フレームに関して、前記フレームのセグメント化された領域間の空間的関係をモデル化するトポロジグラフを構築する手段を備えたグラフモジュールと、
− 構築したトポロジグラフ集合から、空間的および時間的制約に従って、頻出パターンを抽出する手段であり、各パターンが少なくとも1つのセグメント化された領域を含む、抽出する手段を備えたデータマイニングモジュールと、
− 軌跡制約を用いて同じ物体の部分を表す頻出パターンを再グループ化し、前記動画コンテンツの頻出物体を検出する手段を備えたクラスタリングモジュールと、
− 各検出された頻出物体に関して、少なくとも前記物体のパターンの抽出に用いられる空間的および時間的制約ならびに前記パターンの再グループ化に用いられる軌跡制約に従って、前記物体に適用する重み付け係数を決定する手段を備えた重み付けモジュールと、
− 前記頻出物体のそれぞれの視覚表示を含む動画タグクラウドをそれらの重み付け係数に従って生成する手段を備えた表示モジュールと、
を備えた、アプリケーション装置に関する。
本発明の他の態様および利点については、添付の図面を参照する以下の説明において明らかとなるであろう。
本発明によるプロセスのステップを模式的に表した図である。 外部プラットフォームと相互作用して動画タグクラウドを生成する本発明によるアプリケーション装置を模式的に表した図である。
以下、上記図面に関連して、動画コンテンツに現れる物体を表す動画タグクラウドを生成するプロセス、たとえばこのようなプロセスを実行する手段を備えたアプリケーション装置1等を説明する。
特に、このプロセスは、適応コンピュータプログラムによって実行可能であり、アプリケーション装置1としては、前記コンピュータプログラムまたは前記プログラムを含むコンピュータ可読記憶媒体も可能である。
アプリケーション装置1は、このような生成を管理する中央エンジンモジュール2を備える。
図1および図2に関連して、このプロセスは、ユーザおよび/またはインターフェースによる動画コンテンツの提供によって、前記動画コンテンツから動画タグクラウドを生成する事前ステップAを含む。動画コンテンツは、特に、Youtube、Dailymotion、もしくはAlcatel−Lucent社のOpentouch Video Storeプラットフォーム等の動画プラットフォーム3または前記アプリケーションのユーザのローカル端末上のハードドライブもしくは端末を介して前記ユーザが接続されたローカルネットワーク等のローカルリポジトリ4から提供可能である。
動画コンテンツは、その他任意の種類のアプリケーションのウェブサービスプラットフォーム5からも提供可能である。たとえば、アプリケーション装置1は、ゲートウェイを介してIMSネットワークのコアに接続されたWebRTC(ウェブリアルタイム通信)クライアント、IMSモバイルクラウド、および異種カメラに対して画像クラウドを生成するために、IMS(インターネットプロトコルマルチメディアサブシステム)製品とインターフェース接続可能である。
このようなインターフェースとの相互作用のため、アプリケーション装置1は、ユーザおよび/またはインターフェースが前記アプリケーション装置を用いて動画コンテンツから動画タグクラウドを生成可能な少なくとも1つのアプリケーションプログラミングインターフェース(API)を備える。図2に関連して、アプリケーション装置1は、動画プラットフォーム3が前記アプリケーションおよび/またはその動画解析機能を使用することを可能とする第1のAPI6と、ローカルリポジトリ4からユーザにより直接アップロードされた動画コンテンツを用いて、前記ユーザが前記アプリケーション装置を直接使用することを可能とする第2のAPI7と、その他任意の種類のアプリケーションを用いて、他のウェブプラットフォーム5が前記アプリケーションとのインターフェース接続または前記アプリケーションを使用することを可能とする第3のAPI8とを備える。
このプロセスは、提供された動画コンテンツの動画フレームを抽出し、前記動画フレームを領域へと個別にセグメント化するステップBをさらに提供する。このため、アプリケーション装置1は、エンジンモジュール2が相互作用する抽出モジュール9であって、動画フレームを抽出する手段および領域へと個別にセグメント化する手段を備えた、抽出モジュール9を備える。
特に、抽出モジュール9は、このような抽出およびセグメンテーションのための専用アルゴリズムを実装する手段を備え得る。このアルゴリズムとしては、特に、P.F.FELZENSZWALBおよびD.P.HUTTENLOCHERの両氏によって開発された色セグメンテーションアルゴリズムまたはその他任意の種類の既知のセグメンテーションアルゴリズムをわずかに改良したものが可能である。
動画フレームの抽出およびセグメント化の後、このプロセスは、各抽出フレームに関して、前記フレームのセグメント化された領域間の空間的関係をモデル化するトポロジグラフを構築する後続ステップCを提供する。このため、アプリケーション装置1は、エンジンモジュール2により提供された各抽出フレームに関して、上記のようなトポロジグラフを構築する手段を備えたグラフモジュール10を備える。
特に、トポロジグラフとしては、セグメント化された領域がノードで表されるとともに隣接領域の対がエッジで表され、フレームの下層ゾーンの色を表すラベルが各ノードに割り当てられた領域隣接グラフ(RAG)が可能である。このようなトポロジグラフは、論文「Regions Adjacency Graph Applied to Color Image Segmentation」(A.TREMEAU、P.COLANTONI、IEEE、Transactions on Image Processing、2000年)において、さらに詳しく提示されている。
このプロセスは、構築したトポロジグラフ集合から、空間的および時間的制約に従って、頻出パターンを抽出するステップDであり、各パターンが少なくとも1つのセグメント化された領域を含む、抽出するステップDをさらに提供する。このため、アプリケーション装置1は、グラフモジュール10により提供されたパターン集合からのこのような抽出を行う手段を備えたデータマイニングモジュール11であって、エンジンモジュール2がモジュール10、11と相互作用すると抽出を行う上記手段を備えた、データマイニングモジュール11を備える。データマイニングモジュール11は、特に、ナレッジディスカバリインデータベース(KDD)モデルに従って、頻出パターンを抽出するように構成可能である。
データマイニングモジュール11の動作は、動画コンテンツの最も関心の高い物体が前記動画コンテンツすなわち、特に、前記コンテンツの多数の動画フレーム中に頻繁に現れるはずであるという事実に依拠している。特に、データマイニングモジュール11は、たとえば頻出パターンの抽出用に構成された平面グラフマイニングアルゴリズムを実装することにより、動画フレームにおける前記パターンの時間的および空間的発生に従って頻出パターンを抽出する手段を備える。実際、パターンの空間的および時間的発生を考慮に入れることは、前記パターンの頻度のみを考慮に入れることよりも正確であり、後者では、前記パターンを含むグラフの数のみが関係しており、前記パターンが同じグラフに2回以上現れる場合を考慮していない。
さらに、データマイニングモジュール11は、空間的および時間的発生に基づいて、空間的および時間的に離れ過ぎたパターンの発生がより近い発生よりも同じ物体を表す可能性が低いことを考慮し、前記パターンのその他任意の発生から、空間的および時間的に離れた発生を廃棄することができる。
特に、データマイニングモジュール11は、動画フレームにおける前記パターンの2回の発生間の平均時間距離に従って、パターンの時間的発生を評価する手段を備える。
同様に、データマイニングモジュール11は、同じ動画フレームにおける前記パターンの2回の発生間の平均空間距離に従って、パターンの空間的発生を評価する手段を備える。平均空間距離は、特に、以下の式:
maxs∈Vd(o(s),o(s))
に従って計算可能であり、ここで、Vは前記パターンの領域集合、o、oは同じ動画フレームにおける前記パターンの2回の発生、d(o(s),o(s))は前記パターンの領域sの発生間のユークリッド距離である。
また、データマイニングモジュール11は、評価したパターンの空間的および時間的発生から発生グラフを構築する手段であって、パターンの各発生がノードによって表されるとともに、同じパターンのノードが、空間的および時間的に十分近い場合はエッジによって接続される、手段を備え得る。したがって、このような発生グラフにおいては、パターンが接続ノードのチェーンによって表され、前記パターンが、頻出パターンと考えられるとともに、前記パターンが少なくとも1回発生する異なるフレームの数に対応した前記チェーンの長さが頻度閾値よりも大きい場合、上記のように抽出される。
このプロセスは、軌跡制約を用いて同じ物体の部分を表す頻出パターンを再グループ化し、動画コンテンツの頻出物体を検出するステップEをさらに提供する。このため、アプリケーション装置1は、上記のような頻出パターンを再グループ化し、前記頻出物体のより完全な追跡を実現する手段を備えたクラスタリングモジュール12を備える。
特に、クラスタリングモジュール12の再グループ化手段は、動画フレームにおける前記パターンの軌跡間の相違度合いに従って、同じ物体の部分を表す頻出パターンを再グループ化するように構成可能である。この相違度合いは、特に、以下の式:
Figure 0006236154
に従って計算可能であり、ここで、xは動画フレームtにおける2つのパターンの図心(centroid)間のユークリッド距離であり、パターンの図心は、動画フレームtにおける前記パターンのすべての空間的発生の重心に対応する。
特に、データマイニングモジュール11により提供された発生グラフにおいては、頻出パターンの発生を接続可能であるため、これらの間にいくつかのフレームが存在していても、前記パターンが広がる各フレームにおいては、前記パターンが必ずしも上記のように発生しない。したがって、クラスタリングモジュール12は、2つのパターンの図心間の距離について、前記パターンがともに広がる各フレームで演算可能となるように、欠落した図心を補間するように構成されている。
各頻出パターン対間の相違度合いの演算の後、クラスタリングモジュール12の再グループ化手段は、階層的凝集クラスタリングアルゴリズムを用いて、頻出パターン間の階層を生成するようにしてもよく、また、前記階層を解析して、より高頻出の物体を表す頻出パターンのクラスタを求めることにより、前記頻出物体を検出するとともに、動画コンテンツの他の物体との相互作用を集約するようにしてもよい。
このプロセスは、各検出された頻出物体に関して、少なくとも前記物体のパターンの抽出に用いられる空間的および時間的制約ならびに前記パターンの再グループ化に用いられる軌跡制約に従って、前記物体に適用する重み付け係数を決定するステップFをさらに提供する。このため、アプリケーション装置1は、エンジンモジュール2と相互作用すると、各検出された頻出物体に関するこのような重み付け係数を決定する手段を備えた重み付けモジュール13を備える。
特に、重み付けモジュール13のこの手段は、クラスタリングモジュール12により提供された相違度合いおよび階層解析等、データマイニングモジュール11により評価された時間的および空間的発生によって、重み付け係数を処理するように構成されている。一般的に、重み付けモジュール13のこの手段は、頻度、サイズ、時間的および空間的発生、構成パターンおよび/もしくは発生間のユークリッド距離、動画コンテンツ中の存在時間、前記動画コンテンツにおける他の物体、特に他の頻出物体との関係、色、またはその他任意の関連した入力に従って、物体の重み付け係数を決定するようにしてもよい。
さらに、アプリケーション装置1は、たとえば前記アプリケーション装置のグラフィカルユーザインターフェース(GUI)上の専用機能によって、重み付け係数を決定する特定の規則を確立または変更する手段をユーザに提供可能である。
また、このプロセスは、検出された頻出物体を抽出してセグメント化するステップGを含んでいてもよい。このため、アプリケーション装置1は、エンジンモジュール2と相互作用すると、データマイニングモジュール11およびクラスタリングモジュール12の入力により、上記のような検出物体のセグメンテーションおよび抽出をそれぞれ行う手段を備えたセグメンテーション抽出モジュール14を備える。
特に、セグメンテーション抽出モジュール14は、特に、グラフカットアルゴリズム、グラブカットアルゴリズム、および/または画像/スペクトル艶消しアルゴリズム等の既知のセグメンテーションアルゴリズムによって、物体およびそれぞれの位置を識別する手段ならびに前記物体を抽出する手段を備える。
その後、セグメント化および抽出した頻出物体は、それぞれの対応する重み付け係数と併せて、データリポジトリ15に格納されるようになっていてもよい。このため、アプリケーション装置1は、このようなデータリポジトリ15を備え、エンジンモジュール2と相互作用すると、モジュール14からのセグメント化および抽出物体が、重み付けモジュール13からのそれぞれ対応する重み付け係数と併せて格納される。
このプロセスは、前記頻出物体のそれぞれの視覚表示を含む動画タグクラウドをそれらの重み付け係数に従って生成するステップHをさらに提供する。このため、アプリケーション装置1は、このような視覚表示を含む動画タグクラウドを生成する手段を備えた表示モジュール16を備える。特に、表示モジュール16は、エンジンモジュール2と相互作用すると、データリポジトリ15に格納された物体およびそれぞれの対応する重み付け係数から、動画タグクラウドを生成する。
特に、物体の視覚表示のサイズ、位置、および動きは、その対応する重み付け係数に応じて変更可能であり、前記係数が、動画コンテンツ中の前記物体の重要性によって決まり、前記重要性が、たとえば前記物体の頻度および/または前記コンテンツの前記物体と他の物体との間の関係によって推定される。
たとえば、アナウンサがカメラの前で話したり動いたりしている動画コンテンツを起点として、アプリケーション装置1は、放送チャンネルおよび番組の各ロゴ等、前記動画コンテンツの最も重要な物体として前記アナウンサの顔および両手が識別され、すべてが大きなサイズの視覚表示によって表された動画タグクラウドを生成するようにしてもよい。これに対して、アナウンサの胴体およびネクタイは、重要ではあるものの、補助的な物体として識別されていてもよく、より小さな視覚表示によって表される。
以上の説明および図面は、本発明の原理を示したに過ぎない。したがって、当然のことながら、当業者であれば、本明細書においては明示的に記述または図示していないものの、本発明の原理を具現化するとともに、その主旨および範囲に含まれる種々構成を考案可能であろう。さらに、本明細書に挙げたすべての例は主として、読者が本発明の原理を理解することを支援する教示上の目的および(1人または複数の)発明者による概念によって当技術分野が進展することのみを特に意図しており、具体的に列挙したこのような例および条件に限定されないものとして解釈されるものとする。さらに、本発明の原理、態様、および実施形態の他、その具体例を挙げた本明細書のすべての記述は、本発明の均等物を網羅することを意図している。

Claims (14)

  1. 動画コンテンツに現れる物体を表す動画タグクラウドを生成する方法であって、
    前記動画コンテンツの動画フレームを抽出し、前記動画フレームを領域へと個別にセグメント化する手段により、前記動画コンテンツの動画フレームを抽出し、前記動画フレームを領域へと個別にセグメント化するステップ(B)と、
    各抽出フレームに関して、前記フレームのセグメント化された領域間の空間的関係をモデル化するトポロジグラフを構築する手段により、各抽出フレームに関して、前記フレームのセグメント化された領域間の空間的関係をモデル化するトポロジグラフを構築するステップ(C)と、
    構築したトポロジグラフ集合から、空間的および時間的制約に従って、頻出パターンを抽出する手段により、構築したトポロジグラフ集合から、空間的および時間的制約に従って、頻出パターンを抽出するステップ(D)であり、各パターンが少なくとも1つのセグメント化された領域を含む、抽出するステップ(D)と、
    軌跡制約を用いて同じ物体の部分を表す頻出パターンを再グループ化し、前記動画コンテンツの頻出物体を検出する手段により、軌跡制約を用いて同じ物体の部分を表す頻出パターンを再グループ化し、前記動画コンテンツの頻出物体を検出するステップ(E)と、
    各検出された頻出物体に関して、少なくとも前記物体のパターンの抽出に用いられる空間的および時間的制約ならびに前記パターンの再グループ化に用いられる軌跡制約に従って、前記物体に適用する重み付け係数を決定する手段により、各検出された頻出物体に関して、少なくとも前記物体のパターンの抽出に用いられる空間的および時間的制約ならびに前記パターンの再グループ化に用いられる軌跡制約に従って、前記物体に適用する重み付け係数を決定するステップ(F)と、
    前記頻出物体のそれぞれの視覚表示を含む動画タグクラウドをそれらの重み付け係数に従って生成する手段により、前記頻出物体のそれぞれの視覚表示を含む動画タグクラウドをそれらの重み付け係数に従って生成するステップ(H)と、
    を提供する、方法。
  2. 対応する重み付け係数とともにデータリポジトリ(15)にさらに格納された検出された頻出物体を抽出してセグメント化する手段により、対応する重み付け係数とともにデータリポジトリ(15)にさらに格納された検出された頻出物体を抽出してセグメント化するステップ(G)であり、前記格納された物体および前記重み付け係数から動画タグクラウドが生成される、抽出してセグメント化するステップ(G)を提供することを特徴とする、請求項1に記載の方法。
  3. 頻出パターンが、動画フレームにおける前記パターンの時間的および空間的発生に従って抽出されることを特徴とする、請求項1または2に記載の方法。
  4. パターンの時間的発生を、動画フレームにおける前記パターンの2回の発生間の平均時間距離に従って評価する手段により、パターンの時間的発生が、動画フレームにおける前記パターンの2回の発生間の平均時間距離に従って評価されることを特徴とする、請求項3に記載の方法。
  5. パターンの空間的発生を、同じ動画フレームにおける前記パターンの2回の発生間の平均空間距離に従って評価する手段により、パターンの空間的発生が、同じ動画フレームにおける前記パターンの2回の発生間の平均空間距離に従って評価され、前記空間距離が、以下の式:
    maxs∈Vd(o(s),o(s))
    に従って計算され、ここで、Vが前記パターンの領域集合、o、oが同じ動画フレームにおける前記パターンの2回の発生、d(o(s),o(s))が前記パターンの領域sの発生間のユークリッド距離であることを特徴とする、請求項3または4に記載の方法。
  6. 同じ物体の部分を表す頻出パターンが、動画フレームにおける前記パターンの軌跡間の相違度合いに従って再グループ化され、前記相違度合いが、以下の式:
    Figure 0006236154
    に従って計算され、ここで、xが動画フレームtにおける2つのパターンの図心間のユークリッド距離であり、パターンの図心が、動画フレームtにおける前記パターンのすべての空間的発生の重心に対応することを特徴とする、請求項3から5のいずれか一項に記載の方法。
  7. 動画コンテンツに現れる物体を表す動画タグクラウドを生成する請求項1から6のいずれか一項に記載の方法を実行するように構成されたコンピュータプログラム。
  8. 動画コンテンツに現れる物体を表す動画タグクラウドを生成する請求項7に記載のコンピュータプログラムを実行するように構成されたアプリケーション装置(1)であって、
    前記生成を管理するエンジンモジュール(2)と、
    前記動画コンテンツの動画フレームを抽出する手段および前記動画フレームを領域へと個別にセグメント化する手段を備えた抽出モジュール(9)と、
    各抽出フレームに関して、前記フレームのセグメント化された領域間の空間的関係をモデル化するトポロジグラフを構築する手段を備えたグラフモジュール(10)と、
    構築したトポロジグラフ集合から、空間的および時間的制約に従って、頻出パターンを抽出する手段であり、各パターンが少なくとも1つのセグメント化された領域を含む、抽出する手段を備えたデータマイニングモジュール(11)と、
    軌跡制約を用いて同じ物体の部分を表す頻出パターンを再グループ化し、前記動画コンテンツの頻出物体を検出する手段を備えたクラスタリングモジュール(12)と、
    各検出された頻出物体に関して、少なくとも前記物体のパターンの抽出に用いられる空間的および時間的制約ならびに前記パターンの再グループ化に用いられる軌跡制約に従って、前記物体に適用する重み付け係数を決定する手段を備えた重み付けモジュール(13)と、
    前記頻出物体のそれぞれの視覚表示を含む動画タグクラウドをそれらの重み付け係数に従って生成する手段を備えた表示モジュール(16)と、
    を備えた、アプリケーション装置(1)。
  9. 検出された頻出物体をそれぞれ抽出してセグメント化する手段を備えたセグメンテーション抽出モジュール(14)を備え、前記アプリケーション装置が、対応する重み付け係数とともに前記セグメント化された物体を格納するデータリポジトリ(15)をさらに備え、表示モジュール(16)が、前記格納された物体および前記重み付け係数から動画タグクラウドを生成することを特徴とする、請求項8に記載のアプリケーション装置(1)。
  10. データマイニングモジュール(11)の抽出手段が、動画フレームにおける前記パターンの時間的および空間的発生に従って頻出パターンを抽出するように構成されたことを特徴とする、請求項8または9に記載のアプリケーション装置(1)。
  11. データマイニングモジュール(11)が、動画フレームにおける前記パターンの2回の発生間の平均時間距離に従ってパターンの時間的発生を評価する手段を備えたことを特徴とする、請求項10に記載のアプリケーション装置(1)。
  12. データマイニングモジュール(11)が、同じ動画フレームにおける前記パターンの2回の発生間の平均空間距離に従ってパターンの空間的発生を評価する手段を備え、前記空間距離が、以下の式:
    maxs∈Vd(o(s),o(s))
    に従って計算され、ここで、Vが前記パターンの領域集合、o、oが同じ動画フレームにおける前記パターンの2回の発生、d(o(s),o(s))が前記パターンの領域sの発生間のユークリッド距離であることを特徴とする、請求項10または11に記載のアプリケーション装置(1)。
  13. クラスタリングモジュール(12)の再グループ化手段が、動画フレームにおける前記パターンの軌跡間の相違度合いに従って、同じ物体の部分を表す頻出パターンを再グループ化するように構成され、前記相違度合いが、以下の式:
    Figure 0006236154
    に従って計算され、ここで、xが動画フレームtにおける2つのパターンの図心間のユークリッド距離であり、パターンの図心が、動画フレームtにおける前記パターンのすべての空間的発生の重心に対応することを特徴とする、請求項10から12のいずれか一項に記載のアプリケーション装置(1)。
  14. 動画コンテンツから動画タグクラウドを生成する前記アプリケーション装置のユーザおよび/またはインターフェース(3、4、5)による使用を可能にする少なくとも1つのアプリケーションプログラミングインターフェース(API)(6、7、8)を備えたことを特徴とする、請求項8から13のいずれか一項に記載のアプリケーション装置(1)。
JP2016527359A 2013-10-31 2014-10-10 動画コンテンツに現れる物体を表す動画タグクラウドを生成する方法 Expired - Fee Related JP6236154B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20130306502 EP2869236A1 (en) 2013-10-31 2013-10-31 Process for generating a video tag cloud representing objects appearing in a video content
EP13306502.9 2013-10-31
PCT/EP2014/071774 WO2015062848A1 (en) 2013-10-31 2014-10-10 Process for generating a video tag cloud representing objects appearing in a video content

Publications (2)

Publication Number Publication Date
JP2017504085A JP2017504085A (ja) 2017-02-02
JP6236154B2 true JP6236154B2 (ja) 2017-11-22

Family

ID=49596221

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016527359A Expired - Fee Related JP6236154B2 (ja) 2013-10-31 2014-10-10 動画コンテンツに現れる物体を表す動画タグクラウドを生成する方法

Country Status (4)

Country Link
US (1) US20160307044A1 (ja)
EP (1) EP2869236A1 (ja)
JP (1) JP6236154B2 (ja)
WO (1) WO2015062848A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101938667B1 (ko) * 2017-05-29 2019-01-16 엘지전자 주식회사 휴대 전자장치 및 그 제어 방법
US10587919B2 (en) 2017-09-29 2020-03-10 International Business Machines Corporation Cognitive digital video filtering based on user preferences
US11363352B2 (en) 2017-09-29 2022-06-14 International Business Machines Corporation Video content relationship mapping
CN108228911A (zh) * 2018-02-11 2018-06-29 北京搜狐新媒体信息技术有限公司 一种相似视频的计算方法及装置
US10237610B1 (en) * 2018-03-30 2019-03-19 Alphonso Inc. Automated identification of product or brand-related metadata candidates for a commercial using persistence of product or brand-related text or objects in video frames of the commercial
US10810436B2 (en) * 2018-10-08 2020-10-20 The Trustees Of Princeton University System and method for machine-assisted segmentation of video collections
CN109635158A (zh) * 2018-12-17 2019-04-16 杭州柚子街信息科技有限公司 为视频自动打标签的方法及装置、介质和电子设备
US11948276B2 (en) * 2020-01-16 2024-04-02 Samsung Electronics Co., Ltd. Apparatus and method for enhancing videos
CN116189065B (zh) * 2023-04-27 2023-07-14 苏州浪潮智能科技有限公司 面向davis的数据标定方法、装置、电子设备及介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5802361A (en) * 1994-09-30 1998-09-01 Apple Computer, Inc. Method and system for searching graphic images and videos
US5867584A (en) 1996-02-22 1999-02-02 Nec Corporation Video object tracking method for interactive multimedia applications
JP3409834B2 (ja) * 1997-07-10 2003-05-26 ソニー株式会社 画像処理装置および画像処理方法、並びに記録媒体
US6956593B1 (en) * 1998-09-15 2005-10-18 Microsoft Corporation User interface for creating, viewing and temporally positioning annotations for media content
US7143434B1 (en) * 1998-11-06 2006-11-28 Seungyup Paek Video description system and method
US6819797B1 (en) * 1999-01-29 2004-11-16 International Business Machines Corporation Method and apparatus for classifying and querying temporal and spatial information in video
US7356830B1 (en) * 1999-07-09 2008-04-08 Koninklijke Philips Electronics N.V. Method and apparatus for linking a video segment to another segment or information source
WO2002008948A2 (en) * 2000-07-24 2002-01-31 Vivcom, Inc. System and method for indexing, searching, identifying, and editing portions of electronic multimedia files
US8155498B2 (en) * 2002-04-26 2012-04-10 The Directv Group, Inc. System and method for indexing commercials in a video presentation
US7143352B2 (en) * 2002-11-01 2006-11-28 Mitsubishi Electric Research Laboratories, Inc Blind summarization of video content
US7305133B2 (en) * 2002-11-01 2007-12-04 Mitsubishi Electric Research Laboratories, Inc. Pattern discovery in video content using association rules on multiple sets of labels
US7375731B2 (en) * 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content
US7735104B2 (en) * 2003-03-20 2010-06-08 The Directv Group, Inc. System and method for navigation of indexed video content
US7242809B2 (en) * 2003-06-25 2007-07-10 Microsoft Corporation Digital video segmentation and dynamic segment labeling
KR20070008601A (ko) * 2004-03-24 2007-01-17 세르늄 코포레이션 영역에 의한 세그먼트화 이득을 이용한 비디오 분석의 개선
US8949235B2 (en) * 2005-11-15 2015-02-03 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Methods and systems for producing a video synopsis using clustering
US8032840B2 (en) * 2006-01-10 2011-10-04 Nokia Corporation Apparatus, method and computer program product for generating a thumbnail representation of a video sequence
JP2009201041A (ja) * 2008-02-25 2009-09-03 Oki Electric Ind Co Ltd コンテンツ検索装置およびその表示方法
US8351649B1 (en) 2008-04-01 2013-01-08 University Of Southern California Video feed target tracking
US8359191B2 (en) 2008-08-01 2013-01-22 International Business Machines Corporation Deriving ontology based on linguistics and community tag clouds
EP2790152B1 (en) * 2013-04-12 2015-12-02 Alcatel Lucent Method and device for automatic detection and tracking of one or multiple objects of interest in a video

Also Published As

Publication number Publication date
EP2869236A1 (en) 2015-05-06
US20160307044A1 (en) 2016-10-20
JP2017504085A (ja) 2017-02-02
WO2015062848A1 (en) 2015-05-07

Similar Documents

Publication Publication Date Title
JP6236154B2 (ja) 動画コンテンツに現れる物体を表す動画タグクラウドを生成する方法
Dubey et al. A comprehensive survey on human pose estimation approaches
Ullah et al. A comprehensive review on vision-based violence detection in surveillance videos
Sindagi et al. Cnn-based cascaded multi-task learning of high-level prior and density estimation for crowd counting
US9953217B2 (en) System and method for pose-aware feature learning
Li et al. Human-related anomalous event detection via spatial-temporal graph convolutional autoencoder with embedded long short-term memory network
CN114117128B (zh) 视频标注的方法、系统及设备
CN105324793B (zh) 用于检测和跟踪视频中的一个或多个感兴趣对象的方法和设备
KR101563297B1 (ko) 영상에서 행동을 인식하는 방법 및 장치
US20240169692A1 (en) System and method for self-supervised video transformer
CN113591527A (zh) 一种对象轨迹识别方法、装置、电子设备和存储介质
Meng et al. Trajectory-pooled deep convolutional networks for violence detection in videos
Shuai et al. Large scale real-world multi-person tracking
Hammoud et al. Multi-source multi-modal activity recognition in aerial video surveillance
CN110008789A (zh) 多类物体检测与识别的方法、设备及计算机可读存储介质
Chandran et al. Real-time identification of pedestrian meeting and split events from surveillance videos using motion similarity and its applications
Mahbub et al. Advances in human action, activity and gesture recognition
Tu et al. The complex action recognition via the correlated topic model
Wan et al. Automatic moving object segmentation for freely moving cameras
Cheng et al. Across-camera object tracking using a conditional random field model
Ibrahim et al. Semantic analysis of moving objects in video sequences
Parekh et al. Deep learning-based 2D and 3D human pose estimation: a survey
Han et al. An Object Detection Method Using Wavelet Optical Flow and Hybrid Linear‐Nonlinear Classifier
Mumcu et al. Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection
Bouma et al. WPSS: Watching people security services

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171027

R150 Certificate of patent or registration of utility model

Ref document number: 6236154

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees