JP6236154B2 - 動画コンテンツに現れる物体を表す動画タグクラウドを生成する方法 - Google Patents
動画コンテンツに現れる物体を表す動画タグクラウドを生成する方法 Download PDFInfo
- Publication number
- JP6236154B2 JP6236154B2 JP2016527359A JP2016527359A JP6236154B2 JP 6236154 B2 JP6236154 B2 JP 6236154B2 JP 2016527359 A JP2016527359 A JP 2016527359A JP 2016527359 A JP2016527359 A JP 2016527359A JP 6236154 B2 JP6236154 B2 JP 6236154B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- video
- frequent
- spatial
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Description
− 前記動画コンテンツの動画フレームを抽出し、前記動画フレームを領域へと個別にセグメント化するステップと、
− 各抽出フレームに関して、前記フレームのセグメント化された領域間の空間的関係をモデル化するトポロジグラフを構築するステップと、
− 構築したトポロジグラフ集合から、空間的および時間的制約に従って、頻出パターンを抽出するステップであり、各パターンが少なくとも1つのセグメント化された領域を含む、抽出するステップと、
− 軌跡制約を用いて同じ物体の部分を表す頻出パターンを再グループ化し、前記動画コンテンツの頻出物体を検出するステップと、
− 各検出された頻出物体に関して、少なくとも前記物体のパターンの抽出に用いられる空間的および時間的制約ならびに前記パターンの再グループ化に用いられる軌跡制約に従って、前記物体に適用する重み付け係数を決定するステップと、
− 前記頻出物体のそれぞれの視覚表示を含む動画タグクラウドをそれらの重み付け係数に従って生成するステップと、
を提供する、方法に関する。
− 前記生成を管理するエンジンモジュールと、
− 前記動画コンテンツの動画フレームを抽出する手段および前記動画フレームを領域へと個別にセグメント化する手段を備えた抽出モジュールと、
− 各抽出フレームに関して、前記フレームのセグメント化された領域間の空間的関係をモデル化するトポロジグラフを構築する手段を備えたグラフモジュールと、
− 構築したトポロジグラフ集合から、空間的および時間的制約に従って、頻出パターンを抽出する手段であり、各パターンが少なくとも1つのセグメント化された領域を含む、抽出する手段を備えたデータマイニングモジュールと、
− 軌跡制約を用いて同じ物体の部分を表す頻出パターンを再グループ化し、前記動画コンテンツの頻出物体を検出する手段を備えたクラスタリングモジュールと、
− 各検出された頻出物体に関して、少なくとも前記物体のパターンの抽出に用いられる空間的および時間的制約ならびに前記パターンの再グループ化に用いられる軌跡制約に従って、前記物体に適用する重み付け係数を決定する手段を備えた重み付けモジュールと、
− 前記頻出物体のそれぞれの視覚表示を含む動画タグクラウドをそれらの重み付け係数に従って生成する手段を備えた表示モジュールと、
を備えた、アプリケーション装置に関する。
maxs∈Vd(o1(s),o2(s))
に従って計算可能であり、ここで、Vは前記パターンの領域集合、o1、o2は同じ動画フレームにおける前記パターンの2回の発生、d(o1(s),o2(s))は前記パターンの領域sの発生間のユークリッド距離である。
Claims (14)
- 動画コンテンツに現れる物体を表す動画タグクラウドを生成する方法であって、
前記動画コンテンツの動画フレームを抽出し、前記動画フレームを領域へと個別にセグメント化する手段により、前記動画コンテンツの動画フレームを抽出し、前記動画フレームを領域へと個別にセグメント化するステップ(B)と、
各抽出フレームに関して、前記フレームのセグメント化された領域間の空間的関係をモデル化するトポロジグラフを構築する手段により、各抽出フレームに関して、前記フレームのセグメント化された領域間の空間的関係をモデル化するトポロジグラフを構築するステップ(C)と、
構築したトポロジグラフ集合から、空間的および時間的制約に従って、頻出パターンを抽出する手段により、構築したトポロジグラフ集合から、空間的および時間的制約に従って、頻出パターンを抽出するステップ(D)であり、各パターンが少なくとも1つのセグメント化された領域を含む、抽出するステップ(D)と、
軌跡制約を用いて同じ物体の部分を表す頻出パターンを再グループ化し、前記動画コンテンツの頻出物体を検出する手段により、軌跡制約を用いて同じ物体の部分を表す頻出パターンを再グループ化し、前記動画コンテンツの頻出物体を検出するステップ(E)と、
各検出された頻出物体に関して、少なくとも前記物体のパターンの抽出に用いられる空間的および時間的制約ならびに前記パターンの再グループ化に用いられる軌跡制約に従って、前記物体に適用する重み付け係数を決定する手段により、各検出された頻出物体に関して、少なくとも前記物体のパターンの抽出に用いられる空間的および時間的制約ならびに前記パターンの再グループ化に用いられる軌跡制約に従って、前記物体に適用する重み付け係数を決定するステップ(F)と、
前記頻出物体のそれぞれの視覚表示を含む動画タグクラウドをそれらの重み付け係数に従って生成する手段により、前記頻出物体のそれぞれの視覚表示を含む動画タグクラウドをそれらの重み付け係数に従って生成するステップ(H)と、
を提供する、方法。 - 対応する重み付け係数とともにデータリポジトリ(15)にさらに格納された検出された頻出物体を抽出してセグメント化する手段により、対応する重み付け係数とともにデータリポジトリ(15)にさらに格納された検出された頻出物体を抽出してセグメント化するステップ(G)であり、前記格納された物体および前記重み付け係数から動画タグクラウドが生成される、抽出してセグメント化するステップ(G)を提供することを特徴とする、請求項1に記載の方法。
- 頻出パターンが、動画フレームにおける前記パターンの時間的および空間的発生に従って抽出されることを特徴とする、請求項1または2に記載の方法。
- パターンの時間的発生を、動画フレームにおける前記パターンの2回の発生間の平均時間距離に従って評価する手段により、パターンの時間的発生が、動画フレームにおける前記パターンの2回の発生間の平均時間距離に従って評価されることを特徴とする、請求項3に記載の方法。
- パターンの空間的発生を、同じ動画フレームにおける前記パターンの2回の発生間の平均空間距離に従って評価する手段により、パターンの空間的発生が、同じ動画フレームにおける前記パターンの2回の発生間の平均空間距離に従って評価され、前記空間距離が、以下の式:
maxs∈Vd(o1(s),o2(s))
に従って計算され、ここで、Vが前記パターンの領域集合、o1、o2が同じ動画フレームにおける前記パターンの2回の発生、d(o1(s),o2(s))が前記パターンの領域sの発生間のユークリッド距離であることを特徴とする、請求項3または4に記載の方法。 - 動画コンテンツに現れる物体を表す動画タグクラウドを生成する請求項1から6のいずれか一項に記載の方法を実行するように構成されたコンピュータプログラム。
- 動画コンテンツに現れる物体を表す動画タグクラウドを生成する請求項7に記載のコンピュータプログラムを実行するように構成されたアプリケーション装置(1)であって、
前記生成を管理するエンジンモジュール(2)と、
前記動画コンテンツの動画フレームを抽出する手段および前記動画フレームを領域へと個別にセグメント化する手段を備えた抽出モジュール(9)と、
各抽出フレームに関して、前記フレームのセグメント化された領域間の空間的関係をモデル化するトポロジグラフを構築する手段を備えたグラフモジュール(10)と、
構築したトポロジグラフ集合から、空間的および時間的制約に従って、頻出パターンを抽出する手段であり、各パターンが少なくとも1つのセグメント化された領域を含む、抽出する手段を備えたデータマイニングモジュール(11)と、
軌跡制約を用いて同じ物体の部分を表す頻出パターンを再グループ化し、前記動画コンテンツの頻出物体を検出する手段を備えたクラスタリングモジュール(12)と、
各検出された頻出物体に関して、少なくとも前記物体のパターンの抽出に用いられる空間的および時間的制約ならびに前記パターンの再グループ化に用いられる軌跡制約に従って、前記物体に適用する重み付け係数を決定する手段を備えた重み付けモジュール(13)と、
前記頻出物体のそれぞれの視覚表示を含む動画タグクラウドをそれらの重み付け係数に従って生成する手段を備えた表示モジュール(16)と、
を備えた、アプリケーション装置(1)。 - 検出された頻出物体をそれぞれ抽出してセグメント化する手段を備えたセグメンテーション抽出モジュール(14)を備え、前記アプリケーション装置が、対応する重み付け係数とともに前記セグメント化された物体を格納するデータリポジトリ(15)をさらに備え、表示モジュール(16)が、前記格納された物体および前記重み付け係数から動画タグクラウドを生成することを特徴とする、請求項8に記載のアプリケーション装置(1)。
- データマイニングモジュール(11)の抽出手段が、動画フレームにおける前記パターンの時間的および空間的発生に従って頻出パターンを抽出するように構成されたことを特徴とする、請求項8または9に記載のアプリケーション装置(1)。
- データマイニングモジュール(11)が、動画フレームにおける前記パターンの2回の発生間の平均時間距離に従ってパターンの時間的発生を評価する手段を備えたことを特徴とする、請求項10に記載のアプリケーション装置(1)。
- データマイニングモジュール(11)が、同じ動画フレームにおける前記パターンの2回の発生間の平均空間距離に従ってパターンの空間的発生を評価する手段を備え、前記空間距離が、以下の式:
maxs∈Vd(o1(s),o2(s))
に従って計算され、ここで、Vが前記パターンの領域集合、o1、o2が同じ動画フレームにおける前記パターンの2回の発生、d(o1(s),o2(s))が前記パターンの領域sの発生間のユークリッド距離であることを特徴とする、請求項10または11に記載のアプリケーション装置(1)。 - 動画コンテンツから動画タグクラウドを生成する前記アプリケーション装置のユーザおよび/またはインターフェース(3、4、5)による使用を可能にする少なくとも1つのアプリケーションプログラミングインターフェース(API)(6、7、8)を備えたことを特徴とする、請求項8から13のいずれか一項に記載のアプリケーション装置(1)。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP20130306502 EP2869236A1 (en) | 2013-10-31 | 2013-10-31 | Process for generating a video tag cloud representing objects appearing in a video content |
| EP13306502.9 | 2013-10-31 | ||
| PCT/EP2014/071774 WO2015062848A1 (en) | 2013-10-31 | 2014-10-10 | Process for generating a video tag cloud representing objects appearing in a video content |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2017504085A JP2017504085A (ja) | 2017-02-02 |
| JP6236154B2 true JP6236154B2 (ja) | 2017-11-22 |
Family
ID=49596221
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016527359A Expired - Fee Related JP6236154B2 (ja) | 2013-10-31 | 2014-10-10 | 動画コンテンツに現れる物体を表す動画タグクラウドを生成する方法 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20160307044A1 (ja) |
| EP (1) | EP2869236A1 (ja) |
| JP (1) | JP6236154B2 (ja) |
| WO (1) | WO2015062848A1 (ja) |
Families Citing this family (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101938667B1 (ko) * | 2017-05-29 | 2019-01-16 | 엘지전자 주식회사 | 휴대 전자장치 및 그 제어 방법 |
| US10587919B2 (en) | 2017-09-29 | 2020-03-10 | International Business Machines Corporation | Cognitive digital video filtering based on user preferences |
| US11363352B2 (en) | 2017-09-29 | 2022-06-14 | International Business Machines Corporation | Video content relationship mapping |
| CN108228911A (zh) * | 2018-02-11 | 2018-06-29 | 北京搜狐新媒体信息技术有限公司 | 一种相似视频的计算方法及装置 |
| US10237610B1 (en) * | 2018-03-30 | 2019-03-19 | Alphonso Inc. | Automated identification of product or brand-related metadata candidates for a commercial using persistence of product or brand-related text or objects in video frames of the commercial |
| US10810436B2 (en) * | 2018-10-08 | 2020-10-20 | The Trustees Of Princeton University | System and method for machine-assisted segmentation of video collections |
| CN109635158A (zh) * | 2018-12-17 | 2019-04-16 | 杭州柚子街信息科技有限公司 | 为视频自动打标签的方法及装置、介质和电子设备 |
| US11948276B2 (en) * | 2020-01-16 | 2024-04-02 | Samsung Electronics Co., Ltd. | Apparatus and method for enhancing videos |
| CN116189065B (zh) * | 2023-04-27 | 2023-07-14 | 苏州浪潮智能科技有限公司 | 面向davis的数据标定方法、装置、电子设备及介质 |
Family Cites Families (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5802361A (en) * | 1994-09-30 | 1998-09-01 | Apple Computer, Inc. | Method and system for searching graphic images and videos |
| US5867584A (en) | 1996-02-22 | 1999-02-02 | Nec Corporation | Video object tracking method for interactive multimedia applications |
| JP3409834B2 (ja) * | 1997-07-10 | 2003-05-26 | ソニー株式会社 | 画像処理装置および画像処理方法、並びに記録媒体 |
| US6956593B1 (en) * | 1998-09-15 | 2005-10-18 | Microsoft Corporation | User interface for creating, viewing and temporally positioning annotations for media content |
| US7143434B1 (en) * | 1998-11-06 | 2006-11-28 | Seungyup Paek | Video description system and method |
| US6819797B1 (en) * | 1999-01-29 | 2004-11-16 | International Business Machines Corporation | Method and apparatus for classifying and querying temporal and spatial information in video |
| US7356830B1 (en) * | 1999-07-09 | 2008-04-08 | Koninklijke Philips Electronics N.V. | Method and apparatus for linking a video segment to another segment or information source |
| WO2002008948A2 (en) * | 2000-07-24 | 2002-01-31 | Vivcom, Inc. | System and method for indexing, searching, identifying, and editing portions of electronic multimedia files |
| US8155498B2 (en) * | 2002-04-26 | 2012-04-10 | The Directv Group, Inc. | System and method for indexing commercials in a video presentation |
| US7143352B2 (en) * | 2002-11-01 | 2006-11-28 | Mitsubishi Electric Research Laboratories, Inc | Blind summarization of video content |
| US7305133B2 (en) * | 2002-11-01 | 2007-12-04 | Mitsubishi Electric Research Laboratories, Inc. | Pattern discovery in video content using association rules on multiple sets of labels |
| US7375731B2 (en) * | 2002-11-01 | 2008-05-20 | Mitsubishi Electric Research Laboratories, Inc. | Video mining using unsupervised clustering of video content |
| US7735104B2 (en) * | 2003-03-20 | 2010-06-08 | The Directv Group, Inc. | System and method for navigation of indexed video content |
| US7242809B2 (en) * | 2003-06-25 | 2007-07-10 | Microsoft Corporation | Digital video segmentation and dynamic segment labeling |
| KR20070008601A (ko) * | 2004-03-24 | 2007-01-17 | 세르늄 코포레이션 | 영역에 의한 세그먼트화 이득을 이용한 비디오 분석의 개선 |
| US8949235B2 (en) * | 2005-11-15 | 2015-02-03 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | Methods and systems for producing a video synopsis using clustering |
| US8032840B2 (en) * | 2006-01-10 | 2011-10-04 | Nokia Corporation | Apparatus, method and computer program product for generating a thumbnail representation of a video sequence |
| JP2009201041A (ja) * | 2008-02-25 | 2009-09-03 | Oki Electric Ind Co Ltd | コンテンツ検索装置およびその表示方法 |
| US8351649B1 (en) | 2008-04-01 | 2013-01-08 | University Of Southern California | Video feed target tracking |
| US8359191B2 (en) | 2008-08-01 | 2013-01-22 | International Business Machines Corporation | Deriving ontology based on linguistics and community tag clouds |
| EP2790152B1 (en) * | 2013-04-12 | 2015-12-02 | Alcatel Lucent | Method and device for automatic detection and tracking of one or multiple objects of interest in a video |
-
2013
- 2013-10-31 EP EP20130306502 patent/EP2869236A1/en not_active Withdrawn
-
2014
- 2014-10-10 US US15/032,093 patent/US20160307044A1/en not_active Abandoned
- 2014-10-10 JP JP2016527359A patent/JP6236154B2/ja not_active Expired - Fee Related
- 2014-10-10 WO PCT/EP2014/071774 patent/WO2015062848A1/en not_active Ceased
Also Published As
| Publication number | Publication date |
|---|---|
| EP2869236A1 (en) | 2015-05-06 |
| US20160307044A1 (en) | 2016-10-20 |
| JP2017504085A (ja) | 2017-02-02 |
| WO2015062848A1 (en) | 2015-05-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6236154B2 (ja) | 動画コンテンツに現れる物体を表す動画タグクラウドを生成する方法 | |
| Dubey et al. | A comprehensive survey on human pose estimation approaches | |
| Ullah et al. | A comprehensive review on vision-based violence detection in surveillance videos | |
| Sindagi et al. | Cnn-based cascaded multi-task learning of high-level prior and density estimation for crowd counting | |
| US9953217B2 (en) | System and method for pose-aware feature learning | |
| Li et al. | Human-related anomalous event detection via spatial-temporal graph convolutional autoencoder with embedded long short-term memory network | |
| CN114117128B (zh) | 视频标注的方法、系统及设备 | |
| CN105324793B (zh) | 用于检测和跟踪视频中的一个或多个感兴趣对象的方法和设备 | |
| KR101563297B1 (ko) | 영상에서 행동을 인식하는 방법 및 장치 | |
| US20240169692A1 (en) | System and method for self-supervised video transformer | |
| CN113591527A (zh) | 一种对象轨迹识别方法、装置、电子设备和存储介质 | |
| Meng et al. | Trajectory-pooled deep convolutional networks for violence detection in videos | |
| Shuai et al. | Large scale real-world multi-person tracking | |
| Hammoud et al. | Multi-source multi-modal activity recognition in aerial video surveillance | |
| CN110008789A (zh) | 多类物体检测与识别的方法、设备及计算机可读存储介质 | |
| Chandran et al. | Real-time identification of pedestrian meeting and split events from surveillance videos using motion similarity and its applications | |
| Mahbub et al. | Advances in human action, activity and gesture recognition | |
| Tu et al. | The complex action recognition via the correlated topic model | |
| Wan et al. | Automatic moving object segmentation for freely moving cameras | |
| Cheng et al. | Across-camera object tracking using a conditional random field model | |
| Ibrahim et al. | Semantic analysis of moving objects in video sequences | |
| Parekh et al. | Deep learning-based 2D and 3D human pose estimation: a survey | |
| Han et al. | An Object Detection Method Using Wavelet Optical Flow and Hybrid Linear‐Nonlinear Classifier | |
| Mumcu et al. | Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection | |
| Bouma et al. | WPSS: Watching people security services |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160622 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170627 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170711 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171002 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171017 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171027 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6236154 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |
