JP2006172437A - データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置 - Google Patents

データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置 Download PDF

Info

Publication number
JP2006172437A
JP2006172437A JP2005326731A JP2005326731A JP2006172437A JP 2006172437 A JP2006172437 A JP 2006172437A JP 2005326731 A JP2005326731 A JP 2005326731A JP 2005326731 A JP2005326731 A JP 2005326731A JP 2006172437 A JP2006172437 A JP 2006172437A
Authority
JP
Japan
Prior art keywords
data
similarity
subsets
subset
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005326731A
Other languages
English (en)
Inventor
Matthew Cooper
クーパー マシュー
Ting Liu
リウ ティン
Riefel Eleanor
リーフェル エレノア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2006172437A publication Critical patent/JP2006172437A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】データのストリームにおけるセグメント境界の位置の決定方法を提供する。
【解決手段】本決定方法は、(a)前記データのストリーム内のデータサブセットを、現在及び未来のデータサブセットの群から選択された1つ以上のデータサブセットと比較することによって1つ以上の類似度値を決定することであって、前記未来のデータサブセットが前記データのストリーム内の前記データサブセットよりも時間的に後に生じ、前記現在のデータサブセットが前記データのストリーム内の前記データサブセットと同時に生じる、前記1つ以上の類似度値を決定することと、(b)類似度値の1つ以上のセットを分類することと、を含む。
【選択図】図1

Description

本発明は、アフィニティ(affinity)即ち類似度マトリックスに基づいたセグメント境界の識別方法に関する。特に、データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置に関する。
初期のビデオ(映像)自動抽出技術は、カット境界(cut-boundary)の検出に焦点を当てたものであった。使用された主な技術は、ピクセルの差、統計的な差、ヒストグラムの比較、エッジ差、圧縮差及び運動ベクトルの検出であった。ヒストグラムはショット境界の検出に使用される最も一般的な方法である。最も単純な方法は画像の濃度ヒストグラムの計算である。これまでは、フレーム指標付きのノベルティスコア(novelty score)は一般に類似度マトリックスの主要対角線に沿った小さい核(カーネル)関数を相関させることにより計算され、ノベルティスコアの極大値がセグメント境界であるとみなされていた。
これまでに多数の核相関関数がビデオのセグメンテーションに関連して記載されている。尺度空間(SS)分析は、隣接する時間サンプルを比較し、主要対角線の上又は下の第1の対角線上のみにある非ゼロ要素、即ち要素S(n,n+1)を有する核を使用することに相当する。対角線相互類似度(DCS)を検出する方法も有効である。DCS核(KDCS)は、セグメント境界を中心とした際、異なるセグメントから一定間隔(L)離れた時間サンプルを比較するSの要素のみに重みをつける。相関の計算では、KDCS>0であるSの要素は、Sの主要対角線よりも上(及び下)にあるL番目の対角線に位置する。完全類似度核(KFS)や相互類似度核(KCS)も記載されている。
メディアセグメンテーション技術の大部分は分類器(クラシファイア)(classifier)を組み込まず、隣接フレームの類似度の値を閾値としている。加速された正確なkNN分類器がビデオショットセグメンテーションの分析に用いられるようになったのはつい最近のことである。しかし、評価対象のフレームを早い時間のフレームと比較し、分類器と併用するための類似度特徴量を生成していただけであり、類似度値の計算にはL1測度が用いられていた。また、kNN分類器は類似度値と共に直接利用されることはなく、分類出力の時間的な平滑化が必要であった。
メディアセグメンテーションは重大な問題であり、その重大さはますます高まっている。例えば、多数のビデオ検索作業やビデオ管理作業が場面境界の正確なセグメンテーションに依存している。
本願に関連する以下の関連技術がある。
特許文献1は、ビデオセグメント化ヒドンマルコフモデル(Hidden Markov Model)によりビデオの状態シーケンスをモデル化することを開示している。そこでは、自動学習、及びモーションベクトル、音声差、ヒストグラム差当の複数の特徴量の使用を可能にしている。
特許文献2は、会議中の音声とビデオのセグメント化について開示している。そのセグメント化は発言者の識別システムを有し、当該識別システムはヒドンマルコフモデルを用いる。
特許文献3は、ビデオのセグメント化された部分の重要度の計算に関する技術を開示している。そして、重要度の計算では閾値処理が用いられる。
特許文献4は、音声信号内の変化点の決定に関する。重要変化が生じる点が過去あるいは未来との類似性を有することの着目するものであり、ベクトルパラメータ化が用いられる。
特許文献5は、マルチモードの入出力での会話の処理に関する。
特許文献6は、メディアブラウザに関し、時間的特徴ベースで生成されたメタデータはその特徴がマルチメディア中に存在する確立を示すスコア値にマッピングされる。
特許文献7は、ビデオフレームを統計モデルを用いて分類する方法を開示している。
特許文献8は、ビデオにおけるインタラクティブな類似性検索について開示している。
特許文献9は、ユーザインタフェースを介してビデオのキーフレームの順番を操作する技術を開示している。
しかし、いずれの技術も上記問題点を解決していない。
米国特許第6,072,542A号明細書 米国特許第6,404,925B1号明細書 米国特許第6,535,639B1号明細書 米国特許第6,542,869B1号明細書 米国特許第6,570,555B1号明細書 米国特許第6,366,296B1号明細書 米国特許第6,751,354B2号明細書 米国特許第6,774,917B1号明細書 米国特許第6,807,361B1号明細書
本発明は上記の事情に鑑みて成されたものであり、類似度分析と監督付き分類(supervised classification)の組み合わせに基づいてセグメント境界を決定するデータ分析方法を提供するものである。テキスト、音声ストリーム又はビデオを含む任意の順序のメディアにこの方法を適用することができる。また、附属のトランスクリプトから抽出された低レベルのビデオ特徴やテキスト特徴など、異質の特徴が組み合わされる相互メディア分析に使用することもできる。一般に、これらのメディアの各形態では、データストリームは順序付けされたデータのサブセットから構成されている。データサブセットは、データのストリームを分割する要素である。データストリームの各要素を1つ以上のデータサブセットに含めることができ、例えば、ビデオストリームを各ビデオフレームに対応するデータサブセットに分割することができる。データサブセットの順序付けは経時順であることが多い。
2つの異なるタイプの新規なデータサブセット指標付き特徴量ベクトルを詳述する。一方は、幅が変化する核関数から得られる複数の時間的尺度にわたる値を含む。もう一方は、対象となるサブセットの近隣にあるデータサブセット間の種々の生の類似度スコアを含む。また、「修正カイ2乗」類似度測度の新規な使用が説明され、類似度マトリックスに記憶された初期のペアワイズ類似度値が計算される。より詳細には、本発明の第1の態様は、データのストリームにおけるセグメント境界の位置の決定方法であって、
(a)前記データのストリーム内のデータサブセットを、現在及び未来のデータサブセットの群から選択された1つ以上のデータサブセットと比較することによって1つ以上の類似度値を決定することであって、前記未来のデータサブセットが前記データのストリーム内の前記データサブセットよりも時間的に後に生じ、前記現在のデータサブセットが前記データのストリーム内の前記データサブセットと同時に生じる、前記1つ以上の類似度値を決定することと、
(b)類似度値の1つ以上のセットを分類することと、
を含む。
また、本発明の第2の態様は、データのストリームにおけるセグメント境界の位置の決定方法であって、
(a)前記データのストリームにある1つ以上のデータサブセットの1つ以上の類似度値を、近隣データの1つ以上のサブセットと比較して(前記データストリームにおける各データサブセットの比較に基づいて)計算することと、
(b)前記類似度値に基づいて1つ以上の類似度マトリックスを生成することと、
(c)異なる範囲Lを有する1つ以上の核関数を前記類似度マトリックスに適用し、各Lに対して1つ以上のノベルティスコアを生成することと、
(d)q>1であるq個の異なるLの値に対して対応するq個のノベルティスコアを入力して特徴量ベクトルを生じるようにLを変更することと、
(e)前記特徴量ベクトルを分類して前記セグメント境界の位置を決定することと、
を含む。
本発明の第3の態様は、データのストリームにおけるセグメント境界の位置の決定方法であって、
(a)近隣データの1つ以上のサブセットと比較して(前記データストリームにおける各データサブセットの比較に基づいて)、データのストリームにある1つ以上のデータサブセットの1つ以上の類似度値を計算することと、
(b)前記類似度値に基づいて1つ以上の類似度マトリックスを生成することと、
(c)相互類似度核及び完全な類似度核の群から選択された核関数を前記類似度マトリックスに適用することと、
(d)前記類似度マトリックスの生のペアワイズデータを抽出し、核関数の各非ゼロ値に対して特徴量ベクトルを生じることと、
(e)前記特徴量ベクトルを分類して前記セグメント境界の位置を決定することと、
を含む。
更に、本発明の第4の態様は、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法であって、
(a)1つ以上のデータサブセットを近隣データの1つ以上のサブセットと比較することに基づいて(各データサブセットの比較に基づいて)1つ以上の類似度値を計算する手段と、
(b)前記類似度値から1つ以上の類似度マトリックスを生成する手段と、
(c)前記類似度マトリックスから生のペアワイズデータを抽出する手段であって、核関数の各非ゼロ値に対して前記マトリックスの前記生のペアワイズデータを抽出し、前記核関数が相互類似度核及び完全類似度核の群から選択される、前記手段と、
(d)抽出した前記生のペアワイズデータから特徴量ベクトルを生成する手段と、
(e)分類器を用いて前記特徴量ベクトルを分類する手段と、
を含む。
また、本発明の第5の態様は、テストデータのストリームにおけるセグメント境界を決定する機能を果たすようにコンピュータによって実行可能な命令のプログラムであって、前記機能が、
(a)1つ以上のデータサブセットを近隣データの1つ以上のサブセットと比較することに基づいて(前記データストリームにおける各データサブセットの比較に基づいて)1つ以上の類似度値を計算するステップと、
(b)前記類似度値から1つ以上の類似度マトリックスを生成するステップと、
(c)相互類似度核及び完全類似度核の群から選択された1つ以上の核関数を前記類似度マトリックスに適用することによって特徴量ベクトルを生成するステップと、
(d)データ及びグランドトルースクラスラベリングの1つ以上のトレーニングセットから生成された特徴量ベクトルを用いて分類器を学習させるステップと、
(e)学習した前記分類器を用いたテストデータ及び類似する特徴量ベクトルから特徴量ベクトルを分類し、前記セグメント境界を決定するステップと、
を含む。
更に、本発明の第6の態様は、データのストリームにおける境界及び非境界を識別するシステム又は装置であって、前記識別が、
a)前記データのストリームにおける各データサブセットに対して類似度値を計算することができ、1つ以上の類似度マトリックスを生成することができ、核関数を前記マトリックスに適用することができ、特徴量ベクトルを生成することができ、前記データサブセットを分類することができる1つ以上のプロセッサと、
b)前記データのストリームにおける各データサブセットに対して前記類似度値を生成するステップと、1つ以上の類似度マトリックスを作成するステップと、核関数を前記マトリックスに適用するステップと、特徴量ベクトルを生成するステップと、前記データサブセットを境界及び非境界として分類するステップを、前記1つ以上のプロセッサによって処理される際にシステムに行わせるオペレーションが記憶されたマシン可読媒体と、
を含む。
本発明の上記の各態様によれば、データのストリームにおけるセグメント境界の位置の決定の改善された方法が提供される。
本発明の好ましい実施の形態を図面に基づいて詳述する。これらの図面は発明の詳細な説明で十分に説明される。
図1は、本発明に従ったデータストリームの境界を検出し分類する処理手順を示すフローチャートである。図1のステップ101で入力されたデータストリームから類似度値が求められ(ステップ102)、類似度マトリックスが得られる(ステップ103)。その後、処理はステップ104とステップ107の2つに分かれる。ステップ104では、低レベル特徴量の抽出が行われる。一方、ステップ107では、Lを変更しつつ(ステップ110)、q回の反復が終了するまで(ステップ108)(qはLの異なる値の数。後述。)の核関数の計算が繰り返され、q個のノベルティスコアが得られる(ステップ109)。そして、ステップ104及びステップ109の結果に基づき、特徴量ベクトルが求められる(ステップ105)。求められた特徴量ベクトルは分類器を用いてトレーニングデータと比較され(ステップ106)、カット境界、非境界、及び段階的境界の分類が行われる。
尚、本発明は、例えば、パーソナル・コンピュータ、PDAなどのコンピュータ・システムにおいて実施されることができる。該コンピュータ・システムは、例えば、上記データストリームやユーザからの指示情報(命令)を入力する入力部、プロセッサによる実行の際の作業領域を形成すると共にプログラムや処理対象としての上記入力したデータストリーム、及び各ステップで処理されたデータを格納する記憶部(メモリ)、処理内容や処理結果を表示画面上に表示する表示部(表示装置)、およびデータをインターネットやイントラネットなどの通信網(ネットワーク)などに出力する出力部などを含む。そして、プロセッサは、記憶部に格納したプログラム(ソフトウェア)を読み出し実行することにより、処理対象のデータストリーム等に対し、当該プログラムの処理手順、すなわち、類似度値の計算(上記ステップ102)、低レベル特徴量の抽出(上記ステップ104)、核関数の計算の繰り返しによるノベルティスコアの決定(上記ステップ109)、トレーニングデータとの比較による境界の分類(上記ステップ106)に対応した処理を当該コンピュータ・システムに実行させる。尚、プロセッサは複数であってもよい。さらに、上記プログラムは、コンピュータにより読取可能な記憶媒体(マシン可読媒体)に格納され、処理実行時にプロセッサによりアクセスされて読み出され、一時的に上記記憶部に格納されて実行される構成でもよい。
各処理手順の詳細については、以下の説明から明らかになるであろう。
類似度分析
マトリックスへの埋込み
本発明の1つの実施の形態では、データのストリーム内の各データサブセットを表すために低レベルの特徴量を計算する。サブセット間のデータ類似度を確実に定量化できる任意の特徴量のパラメータ表示を使用することができる。次いで、サブセットのヒストグラムXiとXjとの間の類似度(又は相違度)(D)の測度を、式1に示すようなデータストリーム内のサブセットデータ”i”及び”j”の各対に対して計算することができる。類似度マトリックスSは、図2に示すように全てのデータサブセットの対の類似度値を記憶する。マトリックスSのij番目のエントリS(i,j)は、式1に従った”i”のサブセットと”j”のサブセットとの間の類似度の測度である。
S(i,j)=D(Xi,Xj) (式1)
図2は、データストリーム内のサブセット要素”i”と隣接するサブセット要素”j”との間の関係と、サブセット要素の各対の低レベル特徴量を比較して記憶する類似度マトリックスS(i,j)におけるこれらの位置とを示す図である。図2において、時間は双方の軸と対角線に沿って進んでいる。類似度Dの測度は対称的であり、Sも対称的である。記載される方法は、類似度の対称測度又は非対称測度と共に用いることができる。
類似度の測度
抽出した低レベルのヒストグラム特徴量間で類似度のペアワイズ比較を計算する。ここで、Xi、Xjはデータストリームのi番目とj番目のデータサブセットにそれぞれ対応する低レベルの特徴量である。この比較を、差分関数、比率関数、積分関数及び導関数に基づいて行うことができる。差分関数は有限未来でもよいし、有限過去でもよい。前に生じるデータサブセットとの比較を行う場合、これを過去差分という。後に生じるデータサブセットとの比較を行う場合は未来差分という。L1、L2、「カイ2乗」測度(χ2)及び「修正カイ2乗」測度(Mχ2)を含む、類似度の多数の差分測度を考慮する。相違度の測度の定義は、式2乃至式5に与えられたものを含む。これら全ての測度に対し、類似度マトリックスSは、各サブセットを自身と比較する主要対角線に沿って最小相違度(ゼロ)を有する。
Figure 2006172437
式中、Pは各データサブセットに関連する低レベル特徴量の次元数である。
核相関によるセグメンテーション
通常、密着した(コヒーレントな)セグメント内のサブセットは低い相違度を示し、隣接する密着したセグメント内のサブセットは高い相違度を示す。セグメント内部での相違度がゼロであり、セグメント間の相違度が大きいことが理想的である。これにより、Sの主要対角線に沿ったチェッカーボードパターンが生じる。従って、このようなチェッカーボードパターンをSに配置することによって合理的なセグメンテーション方法が得られる。本発明の1つの実施の形態では、相関スコアがSの領域を理想的なチェッカーボード核マトリックスKに適合させる。具体的には、L×L核Kに基づいたノベルティスコアは式6によって定義される。
Figure 2006172437
本発明の1つの実施の形態では、短いセグメント間の境界の発見に優れた傾向にある小さな値から、長いセグメント間の境界の発見に優れている大きな値に核の尺度(L)を変更する。
類似度マトリックスS全体の計算にはN2個の計算が必要となる。Nはデータサブセットの数である。実際には、核の範囲、即ち要素S(i,j)(ここで|i−j|>L)を越えて類似度マトリックス値を計算する理由はない。また、S及びKの双方が一般に対称であるため、冗長となる計算が多い。このため、本発明の1つの実施の形態では、類似度マトリックスは、主要対角線付近のSの小さい部分と「遅れ領域(lag domain)」に記憶されたデータにおいてのみ、式7に従って計算される。
lag(n,l)=S(n,n+l) (式7)
式中、n=1,...,N、l=1,...,L、及びL<<Nである。よって、アルゴリズムの複雑さはNに減らされる。
メディアセグメンテーションのための核関数
相互類似度(cross similarity)核(KCS)と、前述した3つの他の核(完全類似度(full similarity)核KFS、尺度空間(scale-space)核KSS及び対角線相互類似度(diagonal cross similarity)核KDCS)を図3にグラフで示す。図3は、L=4である場合のセグメント境界検出のために提案された核を示す図であり、図3(A)はKCS核、図3(B)はKFS核、図3(C)はKSS核、図3(D)はKDCS核を示している。各パネルにおいて、空白の要素は対応するノベルティスコアに貢献しない(即ち、式6において、K(l,m)=0)。図3において、黒丸を含む要素はノベルティスコアに正に貢献する(K(l,m)>0)。白丸を含む要素はノベルティスコアに負に貢献する(K(l,m)<0)。相関のために、式6により、これらの核をSの主要対角線に沿って適用する。
CSは、L1類似度マトリックスにおける理想的なセグメント境界のための整合フィルタである。KCS(L=4の場合が図3(A)に示される)は式8によって定義される。
Figure 2006172437
FS(L=4の場合が図3(B)に示される)は、核相関による場面(scene)セグメンテーションに以前から使用されている。KFSはセグメント間の項とセグメント内の項の双方を含む。この核は、KCS内のゼロ要素を負の重みに置き換える。負の重みは高いセグメント内相違度にペナルティを科す。式9を参照のこと。
図3(c)のKSS核は尺度空間(SS)分析に相当し、隣接する時間サンプルを比較し、主要対角線の上又は下の第1の対角線上のみにある非ゼロ要素、即ち要素S(n,n+1)を有する核を使用することに相当する。
図3(d)のDCS核(KDCS)は、セグメント境界を中心とした際、異なるセグメントから一定間隔(L)離れた時間サンプルを比較するSの要素のみに重みをつける。相関の計算では、KDCS>0であるSの要素は、Sの主要対角線よりも上(及び下)にあるL番目の対角線に位置する。
Figure 2006172437
特徴量ベクトル
核ベースの特徴量ベクトル
本発明の1つの実施の形態では、「核ベースの」特徴量ベクトルを用いてデータを評価する。異なる尺度Lのセットを考慮する。λである各Lに対し、ノベルティスコアを類似度マトリックスから尺度Lの核によって計算する(図4は、類似度マトリックス(S)に核相関関数(ここではq=2と示され、KFSに対してL=2及びL=3である)を適用することによってノベルティスコア(v)を生成することを示す図である)。そして、λに対してこの処理を繰り返す。これらのノベルティの各々を特徴量ベクトル(Fn)に連結する(図5は、サブセット要素”n”とn番目の要素Fnの特徴量ベクトルとの関係を示す図である)。特徴量ベクトルの異なるエントリは、λであるLのq個の異なる値に対応する。例えば、λ={2,3,4,5}とすると、q=|λ|=4である。次に、各データサブセットは、q個のノベルティスコアを含む関連する4×1特徴量ベクトルを有する。n番目のサブセットと関連する特徴量ベクトルは式10によって与えられる。
n=[v2(n),v3(n),v4(n),v5(n)] (式10)
式中、vL(n)は、n番目のデータサブセットのための幅Lを有する核を用いて計算されたノベルティスコアを示す。この例は、特徴量ベクトルのノベルティスコアの数であるrが、考慮する異なる尺度Lの数であるqに等しい実施の形態を示している。
生類似度ベースの特徴量ベクトル
本発明の1つの実施の形態では、特徴量ベクトルは「生のペアワイズ類似度(pairwise similarity)」データから直接得られる。核を用いてデータサブセットのための単一の値を計算する代わりに、核の各非ゼロ位置に対する特徴量ベクトルにエントリを行う。例えば、L=5であるKCS特徴量ベクトルを用いる場合、n番目のデータサブセットは式11に示す列ベクトルによって表される。
n=[S(G)(n,n−4),...,S(G)(n,n−1),S(G)(n+1,n−
4),...,S(G)(n+1,n−1),]
[S(G)(n+2,n−4),...,S(G)(n+2,n−1),S(G)(n+
3,n−4),...,S(G)(n+3,n−1)]T (式11)
一般に、生類似度ベースの特徴量ベクトルは、分類器に送られる特徴量ベクトルFnの次元数を増加させ、r=|Fn|である。CS及びFSの核は、「行(row)」核、DCS核及びSS核の利点を組み合わせたものである。具体的には、「行」核は現在のサブセットを過去及び未来のサブセットと比較する。DCS核は、現在のサブセットを用いず、過去と未来のサブセットを互いに比較する。SS核は、現在、過去及び未来のサブセットをこれらのすぐ隣にあるサブセットと比較する。FS核は、現在のサブセットのL個のフレーム内にある全てのデータサブセットを比較することによってこの情報の全てを直接組み合わせる。このように、現在のサブセットは、ペアワイズのサブセット間類似度の総合的な局所的特徴付け(ローカルキャラクタリゼーション)に基づいてセグメント境界として分類される。現在のサブセットは、過去及び未来のサブセットと直接比較される。同様に、現在のサブセットの時間的距離L内の過去及び未来のサブセットが比較される。これらの特徴量を監督付き分類と組み合わせることにより、メディアセグメント境界の特徴付けのロバスト性をより高いものにし、メディアセグメンテーションのパフォーマンスを高めることができる。
本発明の1つの実施の形態では、特徴量ベクトルは1つ以上の類似度マトリックスから同時に得られた値を含む。あるいは、これらの類似度マトリックスを大きな次元uの単一の類似度マトリックスに埋め込むことができる。よって、1つの実施の形態では、音声と映像の混合データストリームを、一方は音声用、他方は映像用といった2つの類似度マトリックスによって表すことができ、これらは共に特徴量ベクトルに貢献する。あるいは、他の実施の形態では、音声と映像の値をu次元の類似度マトリックスに入力する。他の実施の形態では、「核ベースの」特徴量ベクトルを使用して、1種類以上の核からのノベルティスコアが特徴量ベクトルに貢献する。
メディアセグメンテーションのための分類器の使用
本発明の1つの実施の形態では、トレーニングデータのセット内の各データサブセットに対して特徴量ベクトルを計算する。次に、テストデータの各データサブセットに対して特徴量ベクトルを計算し、監督付き分類器を用いてデータサブセットをカット境界又は非境界として分類する(図6は、分類器を用いて、テストデータから得られた特徴量ベクトルをトレーニングデータから生成された特徴量ベクトルと比較する態様を示す図である)。例えば、kNN分類器を用いて、検討中のテストデータサブセットに最も近い特徴量ベクトルを有するk個のトレーニングサブセットを選択する。これらのk個の最近隣のサブセットのうち十分に多い数が境界である場合、このサブセットを境界として選択する。kNN分類の感度は、整数パラメータκ(1≦κ≦k)を用いて制御される。トレーニングデータ内のベクトルFnのk個の最近隣値のうち少なくともκ個が境界であるとわかった場合、データサブセット「n」をそれぞれ境界又は非境界としてラベル付けする。図7乃至図10に示す本発明の実施の形態では、κを変化させて再現率対適合率の曲線を生成している。同一のスキームを用いて複数種類の境界を区別することができる。1つの実施の形態では、バイナリの分類器を繰り返し使用し、クラスの数が2を上回る一般的なケースに拡張することができる。あるいは、2つ以上のクラス間で分類を行うように単一の分類器を学習させることができる。本発明の1つの実施の形態において、分類器は各トレーニングデータサブセットに関連する特徴量ベクトルを学習し、各テストデータサブセットに関連する特徴量ベクトルを検証する。この方法を使用して、境界と非境界の区別に加え、異なる種類の境界を区別することもできる。これには2つのアプローチが可能である。一方では、複数の回路を持つ分類器を用い、各サブセットを非境界として、又は境界の種類の1つとして分類する。もう一方のアプローチでは、バイナリの分類器を用いてこの方法を繰り返し適用する。最初に境界と非境界を区別し、次いで、1つの種類の境界を全ての他の種類から区別し、全ての種類の境界が考慮されるまでこれを繰り返す。この方法を用いて、ビデオにおけるカット境界フレーム、段階的な境界フレーム及び非境界フレームを区別した。
カット境界の検出実験
以下の実験において、本明細書に開示される類似度ベースのセグメンテーション方法が本発明の1つの実施の形態として適用され、ビデオデータストリーム内のカット境界が決定される。各ビデオフレームをデータサブセットとみなし、フレームを表すヒストグラムをYUV色空間において抽出する。各フレームに対し、グローバルYUVヒストグラム及びブロックYUVヒストグラムを一様な4×4グリッドを用いて抽出する。グローバルヒストグラムデータS(G)及びブロックヒストグラムデータS(B)のための個別の類似度マトリックスを計算する。監督付きバイナリkNN分類を用いて、各フレームをカット境界又は非境界としてラベル付けする。これにより、種々の核を比較するための一貫した境界検出スキームが生じる。S(G)及びS(B)から計算したフレーム指標付きデータを連結してFnを生成し、これを用いてkNN分類器を学習させてテストし、カット(急な)セグメント境界を検出する。テストには、ショット境界検出作業用のTRECVID 2002の報告されたテストデータと評価ソフトウェアを利用した。TRECVIDは大規模な距離ベースの評価であり、ビデオ分析で種々のシステムの比較に用いられる標準データを提供する。カット検出の平均の再現率(式12で定義)及び適合率(式13で定義)がそれぞれ0.86及び0.84であることが、TRECVID 2002からわかっている。テストセットは、手動のグランドトルース(manual ground truth)により、ほぼ6時間のビデオ及び1466のカット遷移から成る。kNNトレーニングには交差検定を使用し、テストセット内の残りのビデオを用いて個々の分類器に各ビデオを学習させた。完全なテストセットのためにこれらの結果を組み合わせた。一貫してk=11であった。
再現率=正しいとみなした境界セグメントの数/(正しい境界セグメントの数+見落とし
た境界セグメントの数) (式12)
適合率=正しいとみなした境界セグメントの数/(正しい境界セグメントの数+不正確な
境界セグメントの数) (式13)
核ベースの特徴量ベクトル
L=2,3,4,5の範囲の核に対応するq=4を有するショット境界検出のためのノベルティ特徴量を使用した。各Lに対し、フレーム指標付き核相関を、式6のS(G)及びS(B)を用いて個々に計算した。これらの実験では、式2の類似度測度を用いてS(G)及びS(B)を計算した。これらのノベルティスコアを連結し、これにより、グローバルヒストグラム特徴量とブロックヒストグラム特徴量の双方のために各ビデオフレームに対し4つのノベルティスコアを生じた。式14に記載の各ビデオフレーム”n”を表すため、このデータを組み合わせて単一の8×1特徴量ベクトルを生じた。この例は、r(連結されて特徴量ベクトルを生じたノベルティスコアの数)がqを上回る実施の形態を示しており、ここでrはqの2倍である。
n=[v2 (G)(n),v3 (G)(n),v4 (G)(n),v5 (G)(n),v2 (B)
(n),v3 (B)(n),v4 (B)(n),v5 (B)(n)]T (式14)
式中、vL (G)は核幅Lを有するS(G)を用いて計算されたノベルティスコアを示し、vL (B)は核幅Lを有するS(B)を用いて計算されたノベルティスコアを示す。本発明の本実施の形態では、入力データ{Fn:n=1,...,N}を「グランドトルース」クラスラベル付けと共に使用し、kNN分類器を学習させる。
図7は、KFS(”○”)、KCS(”×”)、KSS(”□”)及びKDCS(”+”)の再現率及び適合率の値を示している。最高のパフォーマンスはKCS及びKDCSにより達成される。前述のように、KCSは、S内のセグメント境界によって生じる予想パターンのための整合フィルタである。KCS及びKDCSの双方は、複数の時間尺度において明白な、セグメント間の相違度を強調している。ユークリッドの相違度測度を選択したため、KFSのパフォーマンスは最も悪い。KFSは、コサイン類似度測度のような正及び負の値をとる相違度測度により適している。
生類似度ベースの特徴量ベクトル
別の実験において、kNN分類器への入力として生のペアワイズ類似度データを用いた際のパフォーマンスを調べた。本発明の本実施の形態では、2つの類似度マトリックスS(G)及びS(B)を用いてFnを形成する。各核に対し、L=5である場合に対応するノベルティスコアに貢献するS(G)及びS(B)の要素から入力特徴量ベクトルを構築した。例えば、CS特徴量に関しては、n番目のフレームは式15に示す列ベクトルによって表される。
Figure 2006172437
この結果は図8からわかる。図8は、異なる核相関関数を用いた生類似度ベースの特徴量ベクトルの適合率対再現率を示しており、(×)はKCS、(○)はKFS、(□)はKSS、(+)はKDCS、(△)はKROWを示す。この場合、FSデータに含まれる付加的な類似度情報がパフォーマンスを改善している。しかし、SS方法はCS特徴量よりもパフォーマンスに優れている。カット検出のパフォーマンスは主に一次(隣接フレーム)類似度に依存しており、これはCS特徴量やDCS特徴量によって強調されないため、この結果は意外ではない。図8は、先に提案した「行」特徴量核(KROW)のパフォーマンスの比較もしており、各フレームnは式16に示すような2L×1ベクトルによって表される。
n=[S(G)(n,n−1),S(G)(n,n−2),...,S(G)(n,n−L),
...,S(B)(n,n−1),S(B)(n,n−2),...,S(B)(n,
n−L)]T (式16)
全ての方法が、kNN分類器への入力として高レベルのパフォーマンスを示している。図7及び図8を比較すると、類似度ベースの特徴量の方がより優れたカット境界検出のパフォーマンスを生じている。また、類似度ベースの特徴量のなかでもFSデータは最高の結果をもたらしており、先に用いた行ベースの特徴量に比べてはるかに改善している。
類似度の測度
別の実験において、異なる類似度測度を比較する。図9は、TRECVID 2003テストセットを用いたカット検出のパフォーマンスを示している。すなわち、図9は、KFS及び異なる類似度測度を類似度マトリックスの生成に用いた生類似度ベースの特徴量ベクトルの適合率対再現率を示しており、(×)はDMx2、(○)はDL1、(□)はDL2を示す。本発明の本実施の形態では、生のFS特徴量を用い、L=5を有する特徴量ベクトルを生成した。各曲線は類似度測度の異なる選択に対応している。式2のL1測度を用いた結果を(○)で示す。(×)で示される曲線は、式5に与えられたMχ2測度を用いている。(□)で示される曲線は式3のL2測度に対応している。このプロットは、DMχ2を使用した場合にパフォーマンスが著しく改善したことを示している。また、DL1測度はDL2測度よりもパフォーマンスに優れている。図10は、2003 TRECVIDコンテストからの他の点を有するプロットにおいてDL1測度及びDMχ2測度を用いた際のパフォーマンスを示している。すなわち、図10は、KFS及び異なる類似度測度を類似度マトリックスの生成に用いた生類似度ベースの特徴量ベクトルの適合率対再現率を示しており、(×)はTRECVIDコンテスト、(○)はDMx2、(□)はDL1を示す。双方の曲線は、このコンテストに参加した他のグループに対して高いレベルのパフォーマンスを示している。
本発明に従ったデータストリームの境界を検出する発明のブロック図である。 データストリーム内のサブセット要素”i”と隣接するサブセット要素”j”との間の関係と、サブセット要素の各対の低レベル特徴量を比較して記憶する類似度マトリックスS(i,j)におけるこれらの位置とを示す図である。 L=4である場合のセグメント境界検出のために提案された核を示す図であり、(A)はKCS核、(B)はKFS核、(C)はKSS核、(D)はKDCS核を示している。 類似度マトリックス(S)に核相関関数(ここではq=2と示され、KFSに対してL=2及びL=3である)を適用することによってノベルティスコア(v)を生成することを示す図である。 サブセット要素”n”とn番目の要素Fnの特徴量ベクトルとの関係を示す図である。 分類器を用いて、テストデータから得られた特徴量ベクトルをトレーニングデータから生成された特徴量ベクトルと比較する態様を示す図である。 異なる核相関関数を用いた核ベースの特徴量関数の適合率対再現率を示しており、(×)はKCS、(○)はKFS、(□)はKSS、(+)はKDCSを示す。 異なる核相関関数を用いた生類似度ベースの特徴量ベクトルの適合率対再現率を示しており、(×)はKCS、(○)はKFS、(□)はKSS、(+)はKDCS、(△)はKROWを示す。 FS及び異なる類似度測度を類似度マトリックスの生成に用いた生類似度ベースの特徴量ベクトルの適合率対再現率を示しており、(×)はDMx2、(○)はDL1、(□)はDL2を示す。 FS及び異なる類似度測度を類似度マトリックスの生成に用いた生類似度ベースの特徴量ベクトルの適合率対再現率を示しており、(×)はTRECVIDコンテスト、(○)はDMx2、(□)はDL1を示す。DMx2及びDL1の類似度測度を有するkNN分類器を使用した。

Claims (31)

  1. データのストリームにおけるセグメント境界の位置の決定方法であって、
    (a)前記データのストリーム内のデータサブセットを、現在及び未来のデータサブセットの群から選択された1つ以上のデータサブセットと比較することによって1つ以上の類似度値を決定することであって、前記未来のデータサブセットが前記データのストリーム内の前記データサブセットよりも時間的に後に生じ、前記現在のデータサブセットが前記データのストリーム内の前記データサブセットと同時に生じる、前記1つ以上の類似度値を決定することと、
    (b)類似度値の1つ以上のセットを分類することと、
    を含む、前記方法。
  2. 前記セグメント境界の決定が、
    (c)前記データのストリーム内の前記データサブセットを、過去のデータサブセットの群から選択された1つ以上のデータサブセットと比較することによって1つ以上の類似度値を決定することであって、前記過去のデータサブセットが前記データのストリーム内の前記データサブセットよりも時間的に前に生じる、前記1つ以上の類似度値を決定することと、
    (d)前記未来のデータサブセットと比較された前記データサブセットの少なくとも1つの類似度値を含む前記類似度値から特徴量ベクトルを生成することと、
    (e)前記特徴量ベクトルを分類して前記セグメント境界を決定することと、
    を更に含む、請求項1の方法。
  3. 前記ステップ(a)及び前記ステップ(c)が、比較されている前記データサブセットをオフセットによって分離することを更に含み、前記オフセットが0と最大オフセットLとの間で変更され、前記比較が前記変更されたオフセットのうちの1つ以上で行われる、請求項2の方法。
  4. 前記ステップ(a)、前記ステップ(c)及び前記ステップ(d)が、
    (f)前記データのストリーム内の前記データサブセットからのL個のデータサブセット内の過去及び未来のデータサブセットを、過去及び未来のデータサブセットの群から選択された1つ以上の類似度値と比較することと、
    (g)前記データサブセットの前記類似度値、ならびに前記過去及び未来のデータサブセットの類似度値から特徴量ベクトルを生成することと、
    を更に含む、請求項3の方法。
  5. 前記ステップ(e)が、
    トレーニングデータ及びグランドトルースの1つ以上のセットから得られた1つ以上の特徴量ベクトルに基づいて1つ以上の分類器を学習させることと、
    1つ以上の学習した前記分類器に基づいて、前記データサブセットからの前記特徴量ベクトルを境界及び非境界として分類することと、
    を更に含む、請求項4の方法。
  6. 前記ステップ(d)において、前記データサブセットと未来のデータサブセットとの間の比較の類似度値が前記特徴量ベクトルに正に貢献し、前記データサブセットと過去のデータサブセットとの間の比較の類似度値が前記特徴量ベクトルに負に貢献する、請求項4の方法。
  7. 前記特徴量ベクトルの決定が、
    前記類似度値を1つ以上の類似度マトリックスに記憶することと、
    異なる範囲Lを有する1つ以上の核関数を前記類似度マトリックスに適用し、前記類似度マトリックスから異なる類似度値を抽出することと、
    を更に含む、請求項4の方法。
  8. q個の異なるLの値に対してノベルティスコアを生成し、これにより、q個のノベルティスコアが、異なる範囲Lを有するq個の核関数を前記類似度マトリックスに適用することによって生じる、請求項7の方法。
  9. 前記特徴量ベクトルが前記q個のノベルティスコアを連結することによって生成される、請求項8の方法。
  10. 前記特徴量ベクトルが、前記核関数の各非ゼロ値に対する類似度マトリックスの生のペアワイズデータを抽出することにより生成される、請求項7の方法。
  11. 前記ステップ(a)が、
    過去、未来及び現在のデータサブセットの1つ以上の低レベル特徴量を生成することと、
    「修正カイ2乗」測度、「カイ2乗」測度、L1及びL2の群から選択された測度によって前記低レベル特徴量の前記ペアワイズ比較から前記類似度値を計算することであって、L1が、前記データサブセットの低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との差の係数の合計であり、L2が、前記データサブセットの前記低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との間の差の2乗の2乗根の合計である、前記類似度値の計算と、
    を更に含む、請求項4の方法。
  12. 前記ステップ(a)が、
    過去、未来及び現在のデータサブセットの1つ以上の低レベル特徴量を生成することと、
    「修正カイ2乗」測度、「カイ2乗」測度、L1及びL2の群から選択された測度によって前記低レベル特徴量の前記ペアワイズ比較から前記類似度値を計算することであって、L1が、前記データサブセットの低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との差の係数の合計であり、L2が、前記データサブセットの前記低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との間の差の2乗の2乗根の合計である、前記類似度値の計算と、
    を更に含む、請求項9の方法。
  13. 前記ステップ(a)が、
    過去、未来及び現在のデータサブセットの1つ以上の低レベル特徴量を生成することと、
    「修正カイ2乗」測度、「カイ2乗」測度、L1及びL2の群から選択された測度によって前記低レベル特徴量の前記ペアワイズ比較から前記類似度値を計算することであって、L1が、前記データサブセットの低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との差の係数の合計であり、L2が、前記データサブセットの前記低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との間の差の2乗の2乗根の合計である、前記類似度値の計算と、
    を更に含む、請求項10の方法。
  14. データのストリームにおけるセグメント境界の位置の決定方法であって、
    (a)前記データのストリームにある1つ以上のデータサブセットの1つ以上の類似度値を、近隣データの1つ以上のサブセットと比較して計算することと、
    (b)前記類似度値に基づいて1つ以上の類似度マトリックスを生成することと、
    (c)異なる範囲Lを有する1つ以上の核関数を前記類似度マトリックスに適用し、各Lに対して1つ以上のノベルティスコアを生成することと、
    (d)q>1であるq個の異なるLの値に対して対応するq個のノベルティスコアを入力して特徴量ベクトルを生じるようにLを変更することと、
    (e)前記特徴量ベクトルを分類して前記セグメント境界の位置を決定することと、
    を含む、前記方法。
  15. データのストリームにおけるセグメント境界の位置の決定方法であって、
    (a)近隣データの1つ以上のサブセットと比較して、データのストリームにある1つ以上のデータサブセットの1つ以上の類似度値を計算することと、
    (b)前記類似度値に基づいて1つ以上の類似度マトリックスを生成することと、
    (c)相互類似度核及び完全な類似度核の群から選択された核関数を前記類似度マトリックスに適用することと、
    (d)前記類似度マトリックスの生のペアワイズデータを抽出し、核関数の各非ゼロ値に対して特徴量ベクトルを生じることと、
    (e)前記特徴量ベクトルを分類して前記セグメント境界の位置を決定することと、
    を含む、前記方法。
  16. 前記核関数が相互類似度核及び完全類似度核の群から選択される、請求項14の方法。
  17. 前記ステップ(a)が、
    過去、未来及び現在のデータサブセットの1つ以上の低レベル特徴量を生成することと、
    「修正カイ2乗」測度、「カイ2乗」測度、L1及びL2の群から選択された測度によって前記低レベル特徴量の前記ペアワイズ比較から前記類似度値を計算することであって、L1が、前記データサブセットの低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との差の係数の合計であり、L2が、前記データサブセットの前記低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との間の差の2乗の2乗根の合計である、前記類似度値の計算と、
    を更に含む、請求項14の方法。
  18. 前記ステップ(a)が、
    過去、未来及び現在のデータサブセットの1つ以上の低レベル特徴量を生成することと、
    「修正カイ2乗」測度、「カイ2乗」測度、L1及びL2の群から選択された測度によって前記低レベル特徴量の前記ペアワイズ比較から前記類似度値を計算することであって、L1が、前記データサブセットの低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との差の係数の合計であり、L2が、前記データサブセットの前記低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との間の差の2乗の2乗根の合計である、前記類似度値の計算と、
    を更に含む、請求項15の方法。
  19. 前記ステップ(b)の前記類似度マトリックスは非対称である、請求項14の方法。
  20. 前記ステップ(b)の前記類似度マトリックスは非対称である、請求項15の方法。
  21. ステップ(d)において、非連続的なLの値からの前記ノベルティスコアを入力して特徴量ベクトルを生じる、請求項14に記載の方法。
  22. 1種類以上の核関数を前記類似度マトリックスに適用することによって前記特徴量ベクトルが生成される、請求項14に記載の方法。
  23. ビデオにおけるショットセグメンテーションを決定する、請求項14の方法。
  24. ビデオにおけるショットセグメンテーションを決定する、請求項15の方法。
  25. 前記ステップ(b)で、kNN分類器を用いて前記セグメントを境界及び非境界として決定する、請求項4に記載の方法。
  26. データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法であって、
    (a)1つ以上のデータサブセットを近隣データの1つ以上のサブセットと比較することに基づいて1つ以上の類似度値を計算する手段と、
    (b)前記類似度値から1つ以上の類似度マトリックスを生成する手段と、
    (c)前記類似度マトリックスから生のペアワイズデータを抽出する手段であって、核関数の各非ゼロ値に対して前記マトリックスの前記生のペアワイズデータを抽出し、前記核関数が相互類似度核及び完全類似度核の群から選択される、前記手段と、
    (d)抽出した前記生のペアワイズデータから特徴量ベクトルを生成する手段と、
    (e)分類器を用いて前記特徴量ベクトルを分類する手段と、
    を含む、前記方法。
  27. 前記ステップ(e)が、
    トレーニングデータ及びグランドトルースクラスラベリングの1つ以上のセットから得られた1つ以上の特徴量ベクトルを用いて分類器を学習させる手段と、
    学習した前記分類器を用いて前記特徴量ベクトルを分類し、前記セグメント境界を決定する手段と、
    を更に含む、請求項26に記載の方法。
  28. テストデータのストリームにおけるセグメント境界を決定する機能を果たすようにコンピュータによって実行可能な命令のプログラムであって、前記機能が、
    (a)1つ以上のデータサブセットを近隣データの1つ以上のサブセットと比較することに基づいて1つ以上の類似度値を計算するステップと、
    (b)前記類似度値から1つ以上の類似度マトリックスを生成するステップと、
    (c)相互類似度核及び完全類似度核の群から選択された1つ以上の核関数を前記類似度マトリックスに適用することによって特徴量ベクトルを生成するステップと、
    (d)データ及びグランドトルースクラスラベリングの1つ以上のトレーニングセットから生成された特徴量ベクトルを用いて分類器を学習させるステップと、
    (e)学習した前記分類器を用いたテストデータ及び類似する特徴量ベクトルから特徴量ベクトルを分類し、前記セグメント境界を決定するステップと、
    を含む、プログラム。
  29. 前記ステップ(c)が、
    1つ以上の核相関関数を1つ以上の類似度マトリックスに適用して1つ以上のノベルティスコアを生成することと、
    異なる核相関関数の幅に対して得られたノベルティスコアを入力することによって前記特徴量ベクトルを生成することと、
    を更に含む、請求項28のプログラム。
  30. 前記ステップ(c)が、
    1つ以上の核相関関数を1つ以上の類似度マトリックスに適用することと、
    前記核相関関数の各非ゼロ値に対し、前記類似度マトリックスの前記生のペアワイズデータを抽出して前記特徴量ベクトルを生成することと、
    を更に含む、請求項28のプログラム。
  31. データのストリームにおける境界及び非境界を識別するシステムであって、前記識別が、
    a)前記データのストリームにおける各データサブセットに対して類似度値を計算することができ、1つ以上の類似度マトリックスを生成することができ、核関数を前記マトリックスに適用することができ、特徴量ベクトルを生成することができ、前記データサブセットを分類することができる1つ以上のプロセッサと、
    b)前記データのストリームにおける各データサブセットに対して前記類似度値を生成するステップと、1つ以上の類似度マトリックスを作成するステップと、核関数を前記マトリックスに適用するステップと、特徴量ベクトルを生成するステップと、前記データサブセットを境界及び非境界として分類するステップを、前記1つ以上のプロセッサによって処理される際にシステムに行わせるオペレーションが記憶されたマシン可読媒体と、
    を含む、前記システム。
JP2005326731A 2004-11-12 2005-11-10 データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置 Pending JP2006172437A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/987,688 US7783106B2 (en) 2004-11-12 2004-11-12 Video segmentation combining similarity analysis and classification

Publications (1)

Publication Number Publication Date
JP2006172437A true JP2006172437A (ja) 2006-06-29

Family

ID=36387930

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005326731A Pending JP2006172437A (ja) 2004-11-12 2005-11-10 データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置

Country Status (2)

Country Link
US (1) US7783106B2 (ja)
JP (1) JP2006172437A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012023727A (ja) * 2010-07-12 2012-02-02 Mitsubishi Electric R&D Centre Europe Bv 意味的ビデオ境界の検出

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060287996A1 (en) * 2005-06-16 2006-12-21 International Business Machines Corporation Computer-implemented method, system, and program product for tracking content
US20070005592A1 (en) * 2005-06-21 2007-01-04 International Business Machines Corporation Computer-implemented method, system, and program product for evaluating annotations to content
US7956930B2 (en) 2006-01-06 2011-06-07 Microsoft Corporation Resampling and picture resizing operations for multi-resolution video coding and decoding
TWI316690B (en) * 2006-09-05 2009-11-01 Univ Nat Cheng Kung Video annotation method by integrating visual features and frequent patterns
JP5060224B2 (ja) * 2007-09-12 2012-10-31 株式会社東芝 信号処理装置及びその方法
US8804005B2 (en) * 2008-04-29 2014-08-12 Microsoft Corporation Video concept detection using multi-layer multi-instance learning
US8117183B2 (en) * 2008-05-28 2012-02-14 Xerox Corporation Accurate content-based indexing and retrieval system
KR101027159B1 (ko) * 2008-07-28 2011-04-05 뮤추얼아이피서비스(주) 타겟 영상 검출 장치 및 그 방법
US9571856B2 (en) 2008-08-25 2017-02-14 Microsoft Technology Licensing, Llc Conversion operations in scalable video encoding and decoding
KR20110032610A (ko) * 2009-09-23 2011-03-30 삼성전자주식회사 장면 분할 장치 및 방법
US8451384B2 (en) * 2010-07-08 2013-05-28 Spinella Ip Holdings, Inc. System and method for shot change detection in a video sequence
JP2012060238A (ja) * 2010-09-06 2012-03-22 Sony Corp 動画像処理装置、動画像処理方法およびプログラム
TWI412019B (zh) * 2010-12-03 2013-10-11 Ind Tech Res Inst 聲音事件偵測模組及其方法
US8867891B2 (en) * 2011-10-10 2014-10-21 Intellectual Ventures Fund 83 Llc Video concept classification using audio-visual grouplets
US8699852B2 (en) * 2011-10-10 2014-04-15 Intellectual Ventures Fund 83 Llc Video concept classification using video similarity scores
US9244923B2 (en) 2012-08-03 2016-01-26 Fuji Xerox Co., Ltd. Hypervideo browsing using links generated based on user-specified content features
KR102032173B1 (ko) 2012-09-28 2019-10-15 삼성전자주식회사 영상 분할 장치 및 그 제어 방법
WO2014061229A1 (ja) * 2012-10-16 2014-04-24 日本電気株式会社 情報システム構築支援装置、情報システム構築支援方法および情報システム構築支援プログラム
EP3055836B1 (en) * 2013-10-11 2019-03-20 Mauna Kea Technologies Method for characterizing images acquired through a video medical device
WO2016004330A1 (en) 2014-07-03 2016-01-07 Oim Squared Inc. Interactive content generation
US10839947B2 (en) * 2016-01-06 2020-11-17 International Business Machines Corporation Clinically relevant medical concept clustering
US10789249B2 (en) * 2017-05-23 2020-09-29 Sap Se Optimal offset pushdown for multipart sorting
US10509809B1 (en) * 2017-10-11 2019-12-17 Amperity, Inc. Constructing ground truth when classifying data
US12572576B2 (en) * 2017-11-29 2026-03-10 John MacLaren Walsh Recommender methods and systems for patent processing
EP3788512A4 (en) * 2017-12-30 2022-03-09 Target Brands, Inc. Hierarchical, parallel models for extracting in real time high-value information from data streams and system and method for creation of same
US11416546B2 (en) * 2018-03-20 2022-08-16 Hulu, LLC Content type detection in videos using multiple classifiers
CN110569373B (zh) 2018-03-29 2022-05-13 北京字节跳动网络技术有限公司 一种媒体特征的比对方法及装置
ES2901638T3 (es) * 2018-05-17 2022-03-23 Fraunhofer Ges Forschung Dispositivo y método para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo
US11977533B2 (en) * 2021-04-02 2024-05-07 Kofax, Inc. Automated document processing for detecting, extracting, and analyzing tables and tabular data
US12197412B2 (en) 2021-04-02 2025-01-14 Tungsten Automation Corporation Automated transformation of information from images to textual representations, and applications therefor
CN113901391B (zh) * 2021-09-10 2024-07-19 中国核电工程有限公司 一种基于灵敏度空间夹角评定核系统相似性方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10112835A (ja) * 1996-10-04 1998-04-28 Matsushita Electric Ind Co Ltd 映像要約方法および映像表示方法
JP2002140712A (ja) * 2000-07-14 2002-05-17 Sony Corp Av信号処理装置および方法、プログラム、並びに記録媒体
JP2003259302A (ja) * 2002-02-28 2003-09-12 Fuji Xerox Co Ltd 音楽ビデオ自動的制作のための、方法、情報が記憶されている情報記憶媒体を含む製品およびプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6072542A (en) * 1997-11-25 2000-06-06 Fuji Xerox Co., Ltd. Automatic video segmentation using hidden markov model
US6366296B1 (en) * 1998-09-11 2002-04-02 Xerox Corporation Media browser using multimodal analysis
US6570555B1 (en) * 1998-12-30 2003-05-27 Fuji Xerox Co., Ltd. Method and apparatus for embodied conversational characters with multimodal input/output in an interface device
US6774917B1 (en) * 1999-03-11 2004-08-10 Fuji Xerox Co., Ltd. Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video
US6404925B1 (en) * 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
US6751354B2 (en) * 1999-03-11 2004-06-15 Fuji Xerox Co., Ltd Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
US6535639B1 (en) * 1999-03-12 2003-03-18 Fuji Xerox Co., Ltd. Automatic video summarization using a measure of shot importance and a frame-packing method
US6493042B1 (en) * 1999-03-18 2002-12-10 Xerox Corporation Feature based hierarchical video segmentation
US7016540B1 (en) * 1999-11-24 2006-03-21 Nec Corporation Method and system for segmentation, classification, and summarization of video images
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US6807361B1 (en) * 2000-07-18 2004-10-19 Fuji Xerox Co., Ltd. Interactive custom video creation system
US7123769B2 (en) * 2001-11-09 2006-10-17 Arcsoft, Inc. Shot boundary detection
US7177470B2 (en) * 2002-11-13 2007-02-13 Koninklijke Philips Electronics N. V. Method of and system for detecting uniform color segments
US6865297B2 (en) * 2003-04-15 2005-03-08 Eastman Kodak Company Method for automatically classifying images into events in a multimedia authoring application

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10112835A (ja) * 1996-10-04 1998-04-28 Matsushita Electric Ind Co Ltd 映像要約方法および映像表示方法
JP2002140712A (ja) * 2000-07-14 2002-05-17 Sony Corp Av信号処理装置および方法、プログラム、並びに記録媒体
JP2003259302A (ja) * 2002-02-28 2003-09-12 Fuji Xerox Co Ltd 音楽ビデオ自動的制作のための、方法、情報が記憶されている情報記憶媒体を含む製品およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012023727A (ja) * 2010-07-12 2012-02-02 Mitsubishi Electric R&D Centre Europe Bv 意味的ビデオ境界の検出

Also Published As

Publication number Publication date
US7783106B2 (en) 2010-08-24
US20060107216A1 (en) 2006-05-18

Similar Documents

Publication Publication Date Title
JP2006172437A (ja) データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置
CN111696128B (zh) 一种高速多目标检测跟踪和目标图像优选方法及存储介质
Khodabakhsh et al. Fake face detection methods: Can they be generalized?
US11816888B2 (en) Accurate tag relevance prediction for image search
Wang et al. Detect globally, refine locally: A novel approach to saliency detection
CN106960195B (zh) 一种基于深度学习的人群计数方法及装置
US10235623B2 (en) Accurate tag relevance prediction for image search
US7447338B2 (en) Method and system for face detection using pattern classifier
JP6708385B2 (ja) 識別器作成装置、識別器作成方法、およびプログラム
CN111161311A (zh) 一种基于深度学习的视觉多目标跟踪方法及装置
US8345742B2 (en) Method of processing moving picture and apparatus thereof
CN113011357A (zh) 基于时空融合的深度伪造人脸视频定位方法
KR20010042672A (ko) 신호 처리 방법 및 영상 음성 처리 장치
CN107424161B (zh) 一种由粗至精的室内场景图像布局估计方法
CN108765315B (zh) 图像补全方法、装置、计算机设备及存储介质
CN108268823A (zh) 目标再识别方法和装置
CN114722892A (zh) 基于机器学习的持续学习方法及装置
CN112651996A (zh) 目标检测跟踪方法、装置、电子设备和存储介质
CN116934747A (zh) 眼底图像分割模型训练方法、设备和青光眼辅助诊断系统
Cheng et al. Re-compose the image by evaluating the crop on more than just a score
CN102495887A (zh) 一种基于关键区域色彩矩阵的视频镜头分割方法及其应用
CN111428730A (zh) 弱监督细粒度物体分类方法
CN114724046B (zh) 一种光学遥感图像检测方法、装置以及存储介质
CN119202212B (zh) 一种基于对偶反事实的视觉问答去偏方法
Asha An enhanced deep learning algorithms for image recognition and plant leaf disease detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100608

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100914

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101207