JP2006172437A - データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置 - Google Patents
データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置 Download PDFInfo
- Publication number
- JP2006172437A JP2006172437A JP2005326731A JP2005326731A JP2006172437A JP 2006172437 A JP2006172437 A JP 2006172437A JP 2005326731 A JP2005326731 A JP 2005326731A JP 2005326731 A JP2005326731 A JP 2005326731A JP 2006172437 A JP2006172437 A JP 2006172437A
- Authority
- JP
- Japan
- Prior art keywords
- data
- similarity
- subsets
- subset
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】本決定方法は、(a)前記データのストリーム内のデータサブセットを、現在及び未来のデータサブセットの群から選択された1つ以上のデータサブセットと比較することによって1つ以上の類似度値を決定することであって、前記未来のデータサブセットが前記データのストリーム内の前記データサブセットよりも時間的に後に生じ、前記現在のデータサブセットが前記データのストリーム内の前記データサブセットと同時に生じる、前記1つ以上の類似度値を決定することと、(b)類似度値の1つ以上のセットを分類することと、を含む。
【選択図】図1
Description
特許文献1は、ビデオセグメント化ヒドンマルコフモデル(Hidden Markov Model)によりビデオの状態シーケンスをモデル化することを開示している。そこでは、自動学習、及びモーションベクトル、音声差、ヒストグラム差当の複数の特徴量の使用を可能にしている。
特許文献2は、会議中の音声とビデオのセグメント化について開示している。そのセグメント化は発言者の識別システムを有し、当該識別システムはヒドンマルコフモデルを用いる。
特許文献3は、ビデオのセグメント化された部分の重要度の計算に関する技術を開示している。そして、重要度の計算では閾値処理が用いられる。
特許文献4は、音声信号内の変化点の決定に関する。重要変化が生じる点が過去あるいは未来との類似性を有することの着目するものであり、ベクトルパラメータ化が用いられる。
特許文献5は、マルチモードの入出力での会話の処理に関する。
特許文献6は、メディアブラウザに関し、時間的特徴ベースで生成されたメタデータはその特徴がマルチメディア中に存在する確立を示すスコア値にマッピングされる。
特許文献7は、ビデオフレームを統計モデルを用いて分類する方法を開示している。
特許文献8は、ビデオにおけるインタラクティブな類似性検索について開示している。
特許文献9は、ユーザインタフェースを介してビデオのキーフレームの順番を操作する技術を開示している。
しかし、いずれの技術も上記問題点を解決していない。
(a)前記データのストリーム内のデータサブセットを、現在及び未来のデータサブセットの群から選択された1つ以上のデータサブセットと比較することによって1つ以上の類似度値を決定することであって、前記未来のデータサブセットが前記データのストリーム内の前記データサブセットよりも時間的に後に生じ、前記現在のデータサブセットが前記データのストリーム内の前記データサブセットと同時に生じる、前記1つ以上の類似度値を決定することと、
(b)類似度値の1つ以上のセットを分類することと、
を含む。
(a)前記データのストリームにある1つ以上のデータサブセットの1つ以上の類似度値を、近隣データの1つ以上のサブセットと比較して(前記データストリームにおける各データサブセットの比較に基づいて)計算することと、
(b)前記類似度値に基づいて1つ以上の類似度マトリックスを生成することと、
(c)異なる範囲Lを有する1つ以上の核関数を前記類似度マトリックスに適用し、各Lに対して1つ以上のノベルティスコアを生成することと、
(d)q>1であるq個の異なるLの値に対して対応するq個のノベルティスコアを入力して特徴量ベクトルを生じるようにLを変更することと、
(e)前記特徴量ベクトルを分類して前記セグメント境界の位置を決定することと、
を含む。
(a)近隣データの1つ以上のサブセットと比較して(前記データストリームにおける各データサブセットの比較に基づいて)、データのストリームにある1つ以上のデータサブセットの1つ以上の類似度値を計算することと、
(b)前記類似度値に基づいて1つ以上の類似度マトリックスを生成することと、
(c)相互類似度核及び完全な類似度核の群から選択された核関数を前記類似度マトリックスに適用することと、
(d)前記類似度マトリックスの生のペアワイズデータを抽出し、核関数の各非ゼロ値に対して特徴量ベクトルを生じることと、
(e)前記特徴量ベクトルを分類して前記セグメント境界の位置を決定することと、
を含む。
(a)1つ以上のデータサブセットを近隣データの1つ以上のサブセットと比較することに基づいて(各データサブセットの比較に基づいて)1つ以上の類似度値を計算する手段と、
(b)前記類似度値から1つ以上の類似度マトリックスを生成する手段と、
(c)前記類似度マトリックスから生のペアワイズデータを抽出する手段であって、核関数の各非ゼロ値に対して前記マトリックスの前記生のペアワイズデータを抽出し、前記核関数が相互類似度核及び完全類似度核の群から選択される、前記手段と、
(d)抽出した前記生のペアワイズデータから特徴量ベクトルを生成する手段と、
(e)分類器を用いて前記特徴量ベクトルを分類する手段と、
を含む。
(a)1つ以上のデータサブセットを近隣データの1つ以上のサブセットと比較することに基づいて(前記データストリームにおける各データサブセットの比較に基づいて)1つ以上の類似度値を計算するステップと、
(b)前記類似度値から1つ以上の類似度マトリックスを生成するステップと、
(c)相互類似度核及び完全類似度核の群から選択された1つ以上の核関数を前記類似度マトリックスに適用することによって特徴量ベクトルを生成するステップと、
(d)データ及びグランドトルースクラスラベリングの1つ以上のトレーニングセットから生成された特徴量ベクトルを用いて分類器を学習させるステップと、
(e)学習した前記分類器を用いたテストデータ及び類似する特徴量ベクトルから特徴量ベクトルを分類し、前記セグメント境界を決定するステップと、
を含む。
a)前記データのストリームにおける各データサブセットに対して類似度値を計算することができ、1つ以上の類似度マトリックスを生成することができ、核関数を前記マトリックスに適用することができ、特徴量ベクトルを生成することができ、前記データサブセットを分類することができる1つ以上のプロセッサと、
b)前記データのストリームにおける各データサブセットに対して前記類似度値を生成するステップと、1つ以上の類似度マトリックスを作成するステップと、核関数を前記マトリックスに適用するステップと、特徴量ベクトルを生成するステップと、前記データサブセットを境界及び非境界として分類するステップを、前記1つ以上のプロセッサによって処理される際にシステムに行わせるオペレーションが記憶されたマシン可読媒体と、
を含む。
各処理手順の詳細については、以下の説明から明らかになるであろう。
類似度分析
マトリックスへの埋込み
本発明の1つの実施の形態では、データのストリーム内の各データサブセットを表すために低レベルの特徴量を計算する。サブセット間のデータ類似度を確実に定量化できる任意の特徴量のパラメータ表示を使用することができる。次いで、サブセットのヒストグラムXiとXjとの間の類似度(又は相違度)(D)の測度を、式1に示すようなデータストリーム内のサブセットデータ”i”及び”j”の各対に対して計算することができる。類似度マトリックスSは、図2に示すように全てのデータサブセットの対の類似度値を記憶する。マトリックスSのij番目のエントリS(i,j)は、式1に従った”i”のサブセットと”j”のサブセットとの間の類似度の測度である。
S(i,j)=D(Xi,Xj) (式1)
抽出した低レベルのヒストグラム特徴量間で類似度のペアワイズ比較を計算する。ここで、Xi、Xjはデータストリームのi番目とj番目のデータサブセットにそれぞれ対応する低レベルの特徴量である。この比較を、差分関数、比率関数、積分関数及び導関数に基づいて行うことができる。差分関数は有限未来でもよいし、有限過去でもよい。前に生じるデータサブセットとの比較を行う場合、これを過去差分という。後に生じるデータサブセットとの比較を行う場合は未来差分という。L1、L2、「カイ2乗」測度(χ2)及び「修正カイ2乗」測度(Mχ2)を含む、類似度の多数の差分測度を考慮する。相違度の測度の定義は、式2乃至式5に与えられたものを含む。これら全ての測度に対し、類似度マトリックスSは、各サブセットを自身と比較する主要対角線に沿って最小相違度(ゼロ)を有する。
通常、密着した(コヒーレントな)セグメント内のサブセットは低い相違度を示し、隣接する密着したセグメント内のサブセットは高い相違度を示す。セグメント内部での相違度がゼロであり、セグメント間の相違度が大きいことが理想的である。これにより、Sの主要対角線に沿ったチェッカーボードパターンが生じる。従って、このようなチェッカーボードパターンをSに配置することによって合理的なセグメンテーション方法が得られる。本発明の1つの実施の形態では、相関スコアがSの領域を理想的なチェッカーボード核マトリックスKに適合させる。具体的には、L×L核Kに基づいたノベルティスコアは式6によって定義される。
Slag(n,l)=S(n,n+l) (式7)
式中、n=1,...,N、l=1,...,L、及びL<<Nである。よって、アルゴリズムの複雑さはNに減らされる。
相互類似度(cross similarity)核(KCS)と、前述した3つの他の核(完全類似度(full similarity)核KFS、尺度空間(scale-space)核KSS及び対角線相互類似度(diagonal cross similarity)核KDCS)を図3にグラフで示す。図3は、L=4である場合のセグメント境界検出のために提案された核を示す図であり、図3(A)はKCS核、図3(B)はKFS核、図3(C)はKSS核、図3(D)はKDCS核を示している。各パネルにおいて、空白の要素は対応するノベルティスコアに貢献しない(即ち、式6において、K(l,m)=0)。図3において、黒丸を含む要素はノベルティスコアに正に貢献する(K(l,m)>0)。白丸を含む要素はノベルティスコアに負に貢献する(K(l,m)<0)。相関のために、式6により、これらの核をSの主要対角線に沿って適用する。
図3(c)のKSS核は尺度空間(SS)分析に相当し、隣接する時間サンプルを比較し、主要対角線の上又は下の第1の対角線上のみにある非ゼロ要素、即ち要素S(n,n+1)を有する核を使用することに相当する。
図3(d)のDCS核(KDCS)は、セグメント境界を中心とした際、異なるセグメントから一定間隔(L)離れた時間サンプルを比較するSの要素のみに重みをつける。相関の計算では、KDCS>0であるSの要素は、Sの主要対角線よりも上(及び下)にあるL番目の対角線に位置する。
核ベースの特徴量ベクトル
本発明の1つの実施の形態では、「核ベースの」特徴量ベクトルを用いてデータを評価する。異なる尺度Lのセットを考慮する。λである各Lに対し、ノベルティスコアを類似度マトリックスから尺度Lの核によって計算する(図4は、類似度マトリックス(S)に核相関関数(ここではq=2と示され、KFSに対してL=2及びL=3である)を適用することによってノベルティスコア(v)を生成することを示す図である)。そして、λに対してこの処理を繰り返す。これらのノベルティの各々を特徴量ベクトル(Fn)に連結する(図5は、サブセット要素”n”とn番目の要素Fnの特徴量ベクトルとの関係を示す図である)。特徴量ベクトルの異なるエントリは、λであるLのq個の異なる値に対応する。例えば、λ={2,3,4,5}とすると、q=|λ|=4である。次に、各データサブセットは、q個のノベルティスコアを含む関連する4×1特徴量ベクトルを有する。n番目のサブセットと関連する特徴量ベクトルは式10によって与えられる。
Fn=[v2(n),v3(n),v4(n),v5(n)] (式10)
式中、vL(n)は、n番目のデータサブセットのための幅Lを有する核を用いて計算されたノベルティスコアを示す。この例は、特徴量ベクトルのノベルティスコアの数であるrが、考慮する異なる尺度Lの数であるqに等しい実施の形態を示している。
本発明の1つの実施の形態では、特徴量ベクトルは「生のペアワイズ類似度(pairwise similarity)」データから直接得られる。核を用いてデータサブセットのための単一の値を計算する代わりに、核の各非ゼロ位置に対する特徴量ベクトルにエントリを行う。例えば、L=5であるKCS特徴量ベクトルを用いる場合、n番目のデータサブセットは式11に示す列ベクトルによって表される。
Fn=[S(G)(n,n−4),...,S(G)(n,n−1),S(G)(n+1,n−
4),...,S(G)(n+1,n−1),]
[S(G)(n+2,n−4),...,S(G)(n+2,n−1),S(G)(n+
3,n−4),...,S(G)(n+3,n−1)]T (式11)
本発明の1つの実施の形態では、トレーニングデータのセット内の各データサブセットに対して特徴量ベクトルを計算する。次に、テストデータの各データサブセットに対して特徴量ベクトルを計算し、監督付き分類器を用いてデータサブセットをカット境界又は非境界として分類する(図6は、分類器を用いて、テストデータから得られた特徴量ベクトルをトレーニングデータから生成された特徴量ベクトルと比較する態様を示す図である)。例えば、kNN分類器を用いて、検討中のテストデータサブセットに最も近い特徴量ベクトルを有するk個のトレーニングサブセットを選択する。これらのk個の最近隣のサブセットのうち十分に多い数が境界である場合、このサブセットを境界として選択する。kNN分類の感度は、整数パラメータκ(1≦κ≦k)を用いて制御される。トレーニングデータ内のベクトルFnのk個の最近隣値のうち少なくともκ個が境界であるとわかった場合、データサブセット「n」をそれぞれ境界又は非境界としてラベル付けする。図7乃至図10に示す本発明の実施の形態では、κを変化させて再現率対適合率の曲線を生成している。同一のスキームを用いて複数種類の境界を区別することができる。1つの実施の形態では、バイナリの分類器を繰り返し使用し、クラスの数が2を上回る一般的なケースに拡張することができる。あるいは、2つ以上のクラス間で分類を行うように単一の分類器を学習させることができる。本発明の1つの実施の形態において、分類器は各トレーニングデータサブセットに関連する特徴量ベクトルを学習し、各テストデータサブセットに関連する特徴量ベクトルを検証する。この方法を使用して、境界と非境界の区別に加え、異なる種類の境界を区別することもできる。これには2つのアプローチが可能である。一方では、複数の回路を持つ分類器を用い、各サブセットを非境界として、又は境界の種類の1つとして分類する。もう一方のアプローチでは、バイナリの分類器を用いてこの方法を繰り返し適用する。最初に境界と非境界を区別し、次いで、1つの種類の境界を全ての他の種類から区別し、全ての種類の境界が考慮されるまでこれを繰り返す。この方法を用いて、ビデオにおけるカット境界フレーム、段階的な境界フレーム及び非境界フレームを区別した。
以下の実験において、本明細書に開示される類似度ベースのセグメンテーション方法が本発明の1つの実施の形態として適用され、ビデオデータストリーム内のカット境界が決定される。各ビデオフレームをデータサブセットとみなし、フレームを表すヒストグラムをYUV色空間において抽出する。各フレームに対し、グローバルYUVヒストグラム及びブロックYUVヒストグラムを一様な4×4グリッドを用いて抽出する。グローバルヒストグラムデータS(G)及びブロックヒストグラムデータS(B)のための個別の類似度マトリックスを計算する。監督付きバイナリkNN分類を用いて、各フレームをカット境界又は非境界としてラベル付けする。これにより、種々の核を比較するための一貫した境界検出スキームが生じる。S(G)及びS(B)から計算したフレーム指標付きデータを連結してFnを生成し、これを用いてkNN分類器を学習させてテストし、カット(急な)セグメント境界を検出する。テストには、ショット境界検出作業用のTRECVID 2002の報告されたテストデータと評価ソフトウェアを利用した。TRECVIDは大規模な距離ベースの評価であり、ビデオ分析で種々のシステムの比較に用いられる標準データを提供する。カット検出の平均の再現率(式12で定義)及び適合率(式13で定義)がそれぞれ0.86及び0.84であることが、TRECVID 2002からわかっている。テストセットは、手動のグランドトルース(manual ground truth)により、ほぼ6時間のビデオ及び1466のカット遷移から成る。kNNトレーニングには交差検定を使用し、テストセット内の残りのビデオを用いて個々の分類器に各ビデオを学習させた。完全なテストセットのためにこれらの結果を組み合わせた。一貫してk=11であった。
再現率=正しいとみなした境界セグメントの数/(正しい境界セグメントの数+見落とし
た境界セグメントの数) (式12)
適合率=正しいとみなした境界セグメントの数/(正しい境界セグメントの数+不正確な
境界セグメントの数) (式13)
L=2,3,4,5の範囲の核に対応するq=4を有するショット境界検出のためのノベルティ特徴量を使用した。各Lに対し、フレーム指標付き核相関を、式6のS(G)及びS(B)を用いて個々に計算した。これらの実験では、式2の類似度測度を用いてS(G)及びS(B)を計算した。これらのノベルティスコアを連結し、これにより、グローバルヒストグラム特徴量とブロックヒストグラム特徴量の双方のために各ビデオフレームに対し4つのノベルティスコアを生じた。式14に記載の各ビデオフレーム”n”を表すため、このデータを組み合わせて単一の8×1特徴量ベクトルを生じた。この例は、r(連結されて特徴量ベクトルを生じたノベルティスコアの数)がqを上回る実施の形態を示しており、ここでrはqの2倍である。
Fn=[v2 (G)(n),v3 (G)(n),v4 (G)(n),v5 (G)(n),v2 (B)
(n),v3 (B)(n),v4 (B)(n),v5 (B)(n)]T (式14)
式中、vL (G)は核幅Lを有するS(G)を用いて計算されたノベルティスコアを示し、vL (B)は核幅Lを有するS(B)を用いて計算されたノベルティスコアを示す。本発明の本実施の形態では、入力データ{Fn:n=1,...,N}を「グランドトルース」クラスラベル付けと共に使用し、kNN分類器を学習させる。
別の実験において、kNN分類器への入力として生のペアワイズ類似度データを用いた際のパフォーマンスを調べた。本発明の本実施の形態では、2つの類似度マトリックスS(G)及びS(B)を用いてFnを形成する。各核に対し、L=5である場合に対応するノベルティスコアに貢献するS(G)及びS(B)の要素から入力特徴量ベクトルを構築した。例えば、CS特徴量に関しては、n番目のフレームは式15に示す列ベクトルによって表される。
Fn=[S(G)(n,n−1),S(G)(n,n−2),...,S(G)(n,n−L),
...,S(B)(n,n−1),S(B)(n,n−2),...,S(B)(n,
n−L)]T (式16)
別の実験において、異なる類似度測度を比較する。図9は、TRECVID 2003テストセットを用いたカット検出のパフォーマンスを示している。すなわち、図9は、KFS及び異なる類似度測度を類似度マトリックスの生成に用いた生類似度ベースの特徴量ベクトルの適合率対再現率を示しており、(×)はDMx2、(○)はDL1、(□)はDL2を示す。本発明の本実施の形態では、生のFS特徴量を用い、L=5を有する特徴量ベクトルを生成した。各曲線は類似度測度の異なる選択に対応している。式2のL1測度を用いた結果を(○)で示す。(×)で示される曲線は、式5に与えられたMχ2測度を用いている。(□)で示される曲線は式3のL2測度に対応している。このプロットは、DMχ2を使用した場合にパフォーマンスが著しく改善したことを示している。また、DL1測度はDL2測度よりもパフォーマンスに優れている。図10は、2003 TRECVIDコンテストからの他の点を有するプロットにおいてDL1測度及びDMχ2測度を用いた際のパフォーマンスを示している。すなわち、図10は、KFS及び異なる類似度測度を類似度マトリックスの生成に用いた生類似度ベースの特徴量ベクトルの適合率対再現率を示しており、(×)はTRECVIDコンテスト、(○)はDMx2、(□)はDL1を示す。双方の曲線は、このコンテストに参加した他のグループに対して高いレベルのパフォーマンスを示している。
Claims (31)
- データのストリームにおけるセグメント境界の位置の決定方法であって、
(a)前記データのストリーム内のデータサブセットを、現在及び未来のデータサブセットの群から選択された1つ以上のデータサブセットと比較することによって1つ以上の類似度値を決定することであって、前記未来のデータサブセットが前記データのストリーム内の前記データサブセットよりも時間的に後に生じ、前記現在のデータサブセットが前記データのストリーム内の前記データサブセットと同時に生じる、前記1つ以上の類似度値を決定することと、
(b)類似度値の1つ以上のセットを分類することと、
を含む、前記方法。 - 前記セグメント境界の決定が、
(c)前記データのストリーム内の前記データサブセットを、過去のデータサブセットの群から選択された1つ以上のデータサブセットと比較することによって1つ以上の類似度値を決定することであって、前記過去のデータサブセットが前記データのストリーム内の前記データサブセットよりも時間的に前に生じる、前記1つ以上の類似度値を決定することと、
(d)前記未来のデータサブセットと比較された前記データサブセットの少なくとも1つの類似度値を含む前記類似度値から特徴量ベクトルを生成することと、
(e)前記特徴量ベクトルを分類して前記セグメント境界を決定することと、
を更に含む、請求項1の方法。 - 前記ステップ(a)及び前記ステップ(c)が、比較されている前記データサブセットをオフセットによって分離することを更に含み、前記オフセットが0と最大オフセットLとの間で変更され、前記比較が前記変更されたオフセットのうちの1つ以上で行われる、請求項2の方法。
- 前記ステップ(a)、前記ステップ(c)及び前記ステップ(d)が、
(f)前記データのストリーム内の前記データサブセットからのL個のデータサブセット内の過去及び未来のデータサブセットを、過去及び未来のデータサブセットの群から選択された1つ以上の類似度値と比較することと、
(g)前記データサブセットの前記類似度値、ならびに前記過去及び未来のデータサブセットの類似度値から特徴量ベクトルを生成することと、
を更に含む、請求項3の方法。 - 前記ステップ(e)が、
トレーニングデータ及びグランドトルースの1つ以上のセットから得られた1つ以上の特徴量ベクトルに基づいて1つ以上の分類器を学習させることと、
1つ以上の学習した前記分類器に基づいて、前記データサブセットからの前記特徴量ベクトルを境界及び非境界として分類することと、
を更に含む、請求項4の方法。 - 前記ステップ(d)において、前記データサブセットと未来のデータサブセットとの間の比較の類似度値が前記特徴量ベクトルに正に貢献し、前記データサブセットと過去のデータサブセットとの間の比較の類似度値が前記特徴量ベクトルに負に貢献する、請求項4の方法。
- 前記特徴量ベクトルの決定が、
前記類似度値を1つ以上の類似度マトリックスに記憶することと、
異なる範囲Lを有する1つ以上の核関数を前記類似度マトリックスに適用し、前記類似度マトリックスから異なる類似度値を抽出することと、
を更に含む、請求項4の方法。 - q個の異なるLの値に対してノベルティスコアを生成し、これにより、q個のノベルティスコアが、異なる範囲Lを有するq個の核関数を前記類似度マトリックスに適用することによって生じる、請求項7の方法。
- 前記特徴量ベクトルが前記q個のノベルティスコアを連結することによって生成される、請求項8の方法。
- 前記特徴量ベクトルが、前記核関数の各非ゼロ値に対する類似度マトリックスの生のペアワイズデータを抽出することにより生成される、請求項7の方法。
- 前記ステップ(a)が、
過去、未来及び現在のデータサブセットの1つ以上の低レベル特徴量を生成することと、
「修正カイ2乗」測度、「カイ2乗」測度、L1及びL2の群から選択された測度によって前記低レベル特徴量の前記ペアワイズ比較から前記類似度値を計算することであって、L1が、前記データサブセットの低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との差の係数の合計であり、L2が、前記データサブセットの前記低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との間の差の2乗の2乗根の合計である、前記類似度値の計算と、
を更に含む、請求項4の方法。 - 前記ステップ(a)が、
過去、未来及び現在のデータサブセットの1つ以上の低レベル特徴量を生成することと、
「修正カイ2乗」測度、「カイ2乗」測度、L1及びL2の群から選択された測度によって前記低レベル特徴量の前記ペアワイズ比較から前記類似度値を計算することであって、L1が、前記データサブセットの低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との差の係数の合計であり、L2が、前記データサブセットの前記低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との間の差の2乗の2乗根の合計である、前記類似度値の計算と、
を更に含む、請求項9の方法。
- 前記ステップ(a)が、
過去、未来及び現在のデータサブセットの1つ以上の低レベル特徴量を生成することと、
「修正カイ2乗」測度、「カイ2乗」測度、L1及びL2の群から選択された測度によって前記低レベル特徴量の前記ペアワイズ比較から前記類似度値を計算することであって、L1が、前記データサブセットの低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との差の係数の合計であり、L2が、前記データサブセットの前記低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との間の差の2乗の2乗根の合計である、前記類似度値の計算と、
を更に含む、請求項10の方法。
- データのストリームにおけるセグメント境界の位置の決定方法であって、
(a)前記データのストリームにある1つ以上のデータサブセットの1つ以上の類似度値を、近隣データの1つ以上のサブセットと比較して計算することと、
(b)前記類似度値に基づいて1つ以上の類似度マトリックスを生成することと、
(c)異なる範囲Lを有する1つ以上の核関数を前記類似度マトリックスに適用し、各Lに対して1つ以上のノベルティスコアを生成することと、
(d)q>1であるq個の異なるLの値に対して対応するq個のノベルティスコアを入力して特徴量ベクトルを生じるようにLを変更することと、
(e)前記特徴量ベクトルを分類して前記セグメント境界の位置を決定することと、
を含む、前記方法。 - データのストリームにおけるセグメント境界の位置の決定方法であって、
(a)近隣データの1つ以上のサブセットと比較して、データのストリームにある1つ以上のデータサブセットの1つ以上の類似度値を計算することと、
(b)前記類似度値に基づいて1つ以上の類似度マトリックスを生成することと、
(c)相互類似度核及び完全な類似度核の群から選択された核関数を前記類似度マトリックスに適用することと、
(d)前記類似度マトリックスの生のペアワイズデータを抽出し、核関数の各非ゼロ値に対して特徴量ベクトルを生じることと、
(e)前記特徴量ベクトルを分類して前記セグメント境界の位置を決定することと、
を含む、前記方法。 - 前記核関数が相互類似度核及び完全類似度核の群から選択される、請求項14の方法。
- 前記ステップ(a)が、
過去、未来及び現在のデータサブセットの1つ以上の低レベル特徴量を生成することと、
「修正カイ2乗」測度、「カイ2乗」測度、L1及びL2の群から選択された測度によって前記低レベル特徴量の前記ペアワイズ比較から前記類似度値を計算することであって、L1が、前記データサブセットの低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との差の係数の合計であり、L2が、前記データサブセットの前記低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との間の差の2乗の2乗根の合計である、前記類似度値の計算と、
を更に含む、請求項14の方法。 - 前記ステップ(a)が、
過去、未来及び現在のデータサブセットの1つ以上の低レベル特徴量を生成することと、
「修正カイ2乗」測度、「カイ2乗」測度、L1及びL2の群から選択された測度によって前記低レベル特徴量の前記ペアワイズ比較から前記類似度値を計算することであって、L1が、前記データサブセットの低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との差の係数の合計であり、L2が、前記データサブセットの前記低レベル特徴量と前記過去、未来及び現在のデータサブセットの前記低レベル特徴量との間の差の2乗の2乗根の合計である、前記類似度値の計算と、
を更に含む、請求項15の方法。 - 前記ステップ(b)の前記類似度マトリックスは非対称である、請求項14の方法。
- 前記ステップ(b)の前記類似度マトリックスは非対称である、請求項15の方法。
- ステップ(d)において、非連続的なLの値からの前記ノベルティスコアを入力して特徴量ベクトルを生じる、請求項14に記載の方法。
- 1種類以上の核関数を前記類似度マトリックスに適用することによって前記特徴量ベクトルが生成される、請求項14に記載の方法。
- ビデオにおけるショットセグメンテーションを決定する、請求項14の方法。
- ビデオにおけるショットセグメンテーションを決定する、請求項15の方法。
- 前記ステップ(b)で、kNN分類器を用いて前記セグメントを境界及び非境界として決定する、請求項4に記載の方法。
- データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法であって、
(a)1つ以上のデータサブセットを近隣データの1つ以上のサブセットと比較することに基づいて1つ以上の類似度値を計算する手段と、
(b)前記類似度値から1つ以上の類似度マトリックスを生成する手段と、
(c)前記類似度マトリックスから生のペアワイズデータを抽出する手段であって、核関数の各非ゼロ値に対して前記マトリックスの前記生のペアワイズデータを抽出し、前記核関数が相互類似度核及び完全類似度核の群から選択される、前記手段と、
(d)抽出した前記生のペアワイズデータから特徴量ベクトルを生成する手段と、
(e)分類器を用いて前記特徴量ベクトルを分類する手段と、
を含む、前記方法。 - 前記ステップ(e)が、
トレーニングデータ及びグランドトルースクラスラベリングの1つ以上のセットから得られた1つ以上の特徴量ベクトルを用いて分類器を学習させる手段と、
学習した前記分類器を用いて前記特徴量ベクトルを分類し、前記セグメント境界を決定する手段と、
を更に含む、請求項26に記載の方法。 - テストデータのストリームにおけるセグメント境界を決定する機能を果たすようにコンピュータによって実行可能な命令のプログラムであって、前記機能が、
(a)1つ以上のデータサブセットを近隣データの1つ以上のサブセットと比較することに基づいて1つ以上の類似度値を計算するステップと、
(b)前記類似度値から1つ以上の類似度マトリックスを生成するステップと、
(c)相互類似度核及び完全類似度核の群から選択された1つ以上の核関数を前記類似度マトリックスに適用することによって特徴量ベクトルを生成するステップと、
(d)データ及びグランドトルースクラスラベリングの1つ以上のトレーニングセットから生成された特徴量ベクトルを用いて分類器を学習させるステップと、
(e)学習した前記分類器を用いたテストデータ及び類似する特徴量ベクトルから特徴量ベクトルを分類し、前記セグメント境界を決定するステップと、
を含む、プログラム。 - 前記ステップ(c)が、
1つ以上の核相関関数を1つ以上の類似度マトリックスに適用して1つ以上のノベルティスコアを生成することと、
異なる核相関関数の幅に対して得られたノベルティスコアを入力することによって前記特徴量ベクトルを生成することと、
を更に含む、請求項28のプログラム。 - 前記ステップ(c)が、
1つ以上の核相関関数を1つ以上の類似度マトリックスに適用することと、
前記核相関関数の各非ゼロ値に対し、前記類似度マトリックスの前記生のペアワイズデータを抽出して前記特徴量ベクトルを生成することと、
を更に含む、請求項28のプログラム。 - データのストリームにおける境界及び非境界を識別するシステムであって、前記識別が、
a)前記データのストリームにおける各データサブセットに対して類似度値を計算することができ、1つ以上の類似度マトリックスを生成することができ、核関数を前記マトリックスに適用することができ、特徴量ベクトルを生成することができ、前記データサブセットを分類することができる1つ以上のプロセッサと、
b)前記データのストリームにおける各データサブセットに対して前記類似度値を生成するステップと、1つ以上の類似度マトリックスを作成するステップと、核関数を前記マトリックスに適用するステップと、特徴量ベクトルを生成するステップと、前記データサブセットを境界及び非境界として分類するステップを、前記1つ以上のプロセッサによって処理される際にシステムに行わせるオペレーションが記憶されたマシン可読媒体と、
を含む、前記システム。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US10/987,688 US7783106B2 (en) | 2004-11-12 | 2004-11-12 | Video segmentation combining similarity analysis and classification |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2006172437A true JP2006172437A (ja) | 2006-06-29 |
Family
ID=36387930
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005326731A Pending JP2006172437A (ja) | 2004-11-12 | 2005-11-10 | データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US7783106B2 (ja) |
| JP (1) | JP2006172437A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012023727A (ja) * | 2010-07-12 | 2012-02-02 | Mitsubishi Electric R&D Centre Europe Bv | 意味的ビデオ境界の検出 |
Families Citing this family (31)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20060287996A1 (en) * | 2005-06-16 | 2006-12-21 | International Business Machines Corporation | Computer-implemented method, system, and program product for tracking content |
| US20070005592A1 (en) * | 2005-06-21 | 2007-01-04 | International Business Machines Corporation | Computer-implemented method, system, and program product for evaluating annotations to content |
| US7956930B2 (en) | 2006-01-06 | 2011-06-07 | Microsoft Corporation | Resampling and picture resizing operations for multi-resolution video coding and decoding |
| TWI316690B (en) * | 2006-09-05 | 2009-11-01 | Univ Nat Cheng Kung | Video annotation method by integrating visual features and frequent patterns |
| JP5060224B2 (ja) * | 2007-09-12 | 2012-10-31 | 株式会社東芝 | 信号処理装置及びその方法 |
| US8804005B2 (en) * | 2008-04-29 | 2014-08-12 | Microsoft Corporation | Video concept detection using multi-layer multi-instance learning |
| US8117183B2 (en) * | 2008-05-28 | 2012-02-14 | Xerox Corporation | Accurate content-based indexing and retrieval system |
| KR101027159B1 (ko) * | 2008-07-28 | 2011-04-05 | 뮤추얼아이피서비스(주) | 타겟 영상 검출 장치 및 그 방법 |
| US9571856B2 (en) | 2008-08-25 | 2017-02-14 | Microsoft Technology Licensing, Llc | Conversion operations in scalable video encoding and decoding |
| KR20110032610A (ko) * | 2009-09-23 | 2011-03-30 | 삼성전자주식회사 | 장면 분할 장치 및 방법 |
| US8451384B2 (en) * | 2010-07-08 | 2013-05-28 | Spinella Ip Holdings, Inc. | System and method for shot change detection in a video sequence |
| JP2012060238A (ja) * | 2010-09-06 | 2012-03-22 | Sony Corp | 動画像処理装置、動画像処理方法およびプログラム |
| TWI412019B (zh) * | 2010-12-03 | 2013-10-11 | Ind Tech Res Inst | 聲音事件偵測模組及其方法 |
| US8867891B2 (en) * | 2011-10-10 | 2014-10-21 | Intellectual Ventures Fund 83 Llc | Video concept classification using audio-visual grouplets |
| US8699852B2 (en) * | 2011-10-10 | 2014-04-15 | Intellectual Ventures Fund 83 Llc | Video concept classification using video similarity scores |
| US9244923B2 (en) | 2012-08-03 | 2016-01-26 | Fuji Xerox Co., Ltd. | Hypervideo browsing using links generated based on user-specified content features |
| KR102032173B1 (ko) | 2012-09-28 | 2019-10-15 | 삼성전자주식회사 | 영상 분할 장치 및 그 제어 방법 |
| WO2014061229A1 (ja) * | 2012-10-16 | 2014-04-24 | 日本電気株式会社 | 情報システム構築支援装置、情報システム構築支援方法および情報システム構築支援プログラム |
| EP3055836B1 (en) * | 2013-10-11 | 2019-03-20 | Mauna Kea Technologies | Method for characterizing images acquired through a video medical device |
| WO2016004330A1 (en) | 2014-07-03 | 2016-01-07 | Oim Squared Inc. | Interactive content generation |
| US10839947B2 (en) * | 2016-01-06 | 2020-11-17 | International Business Machines Corporation | Clinically relevant medical concept clustering |
| US10789249B2 (en) * | 2017-05-23 | 2020-09-29 | Sap Se | Optimal offset pushdown for multipart sorting |
| US10509809B1 (en) * | 2017-10-11 | 2019-12-17 | Amperity, Inc. | Constructing ground truth when classifying data |
| US12572576B2 (en) * | 2017-11-29 | 2026-03-10 | John MacLaren Walsh | Recommender methods and systems for patent processing |
| EP3788512A4 (en) * | 2017-12-30 | 2022-03-09 | Target Brands, Inc. | Hierarchical, parallel models for extracting in real time high-value information from data streams and system and method for creation of same |
| US11416546B2 (en) * | 2018-03-20 | 2022-08-16 | Hulu, LLC | Content type detection in videos using multiple classifiers |
| CN110569373B (zh) | 2018-03-29 | 2022-05-13 | 北京字节跳动网络技术有限公司 | 一种媒体特征的比对方法及装置 |
| ES2901638T3 (es) * | 2018-05-17 | 2022-03-23 | Fraunhofer Ges Forschung | Dispositivo y método para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo |
| US11977533B2 (en) * | 2021-04-02 | 2024-05-07 | Kofax, Inc. | Automated document processing for detecting, extracting, and analyzing tables and tabular data |
| US12197412B2 (en) | 2021-04-02 | 2025-01-14 | Tungsten Automation Corporation | Automated transformation of information from images to textual representations, and applications therefor |
| CN113901391B (zh) * | 2021-09-10 | 2024-07-19 | 中国核电工程有限公司 | 一种基于灵敏度空间夹角评定核系统相似性方法 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10112835A (ja) * | 1996-10-04 | 1998-04-28 | Matsushita Electric Ind Co Ltd | 映像要約方法および映像表示方法 |
| JP2002140712A (ja) * | 2000-07-14 | 2002-05-17 | Sony Corp | Av信号処理装置および方法、プログラム、並びに記録媒体 |
| JP2003259302A (ja) * | 2002-02-28 | 2003-09-12 | Fuji Xerox Co Ltd | 音楽ビデオ自動的制作のための、方法、情報が記憶されている情報記憶媒体を含む製品およびプログラム |
Family Cites Families (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6072542A (en) * | 1997-11-25 | 2000-06-06 | Fuji Xerox Co., Ltd. | Automatic video segmentation using hidden markov model |
| US6366296B1 (en) * | 1998-09-11 | 2002-04-02 | Xerox Corporation | Media browser using multimodal analysis |
| US6570555B1 (en) * | 1998-12-30 | 2003-05-27 | Fuji Xerox Co., Ltd. | Method and apparatus for embodied conversational characters with multimodal input/output in an interface device |
| US6774917B1 (en) * | 1999-03-11 | 2004-08-10 | Fuji Xerox Co., Ltd. | Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video |
| US6404925B1 (en) * | 1999-03-11 | 2002-06-11 | Fuji Xerox Co., Ltd. | Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition |
| US6751354B2 (en) * | 1999-03-11 | 2004-06-15 | Fuji Xerox Co., Ltd | Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models |
| US6535639B1 (en) * | 1999-03-12 | 2003-03-18 | Fuji Xerox Co., Ltd. | Automatic video summarization using a measure of shot importance and a frame-packing method |
| US6493042B1 (en) * | 1999-03-18 | 2002-12-10 | Xerox Corporation | Feature based hierarchical video segmentation |
| US7016540B1 (en) * | 1999-11-24 | 2006-03-21 | Nec Corporation | Method and system for segmentation, classification, and summarization of video images |
| US6542869B1 (en) * | 2000-05-11 | 2003-04-01 | Fuji Xerox Co., Ltd. | Method for automatic analysis of audio including music and speech |
| US6807361B1 (en) * | 2000-07-18 | 2004-10-19 | Fuji Xerox Co., Ltd. | Interactive custom video creation system |
| US7123769B2 (en) * | 2001-11-09 | 2006-10-17 | Arcsoft, Inc. | Shot boundary detection |
| US7177470B2 (en) * | 2002-11-13 | 2007-02-13 | Koninklijke Philips Electronics N. V. | Method of and system for detecting uniform color segments |
| US6865297B2 (en) * | 2003-04-15 | 2005-03-08 | Eastman Kodak Company | Method for automatically classifying images into events in a multimedia authoring application |
-
2004
- 2004-11-12 US US10/987,688 patent/US7783106B2/en not_active Expired - Fee Related
-
2005
- 2005-11-10 JP JP2005326731A patent/JP2006172437A/ja active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10112835A (ja) * | 1996-10-04 | 1998-04-28 | Matsushita Electric Ind Co Ltd | 映像要約方法および映像表示方法 |
| JP2002140712A (ja) * | 2000-07-14 | 2002-05-17 | Sony Corp | Av信号処理装置および方法、プログラム、並びに記録媒体 |
| JP2003259302A (ja) * | 2002-02-28 | 2003-09-12 | Fuji Xerox Co Ltd | 音楽ビデオ自動的制作のための、方法、情報が記憶されている情報記憶媒体を含む製品およびプログラム |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012023727A (ja) * | 2010-07-12 | 2012-02-02 | Mitsubishi Electric R&D Centre Europe Bv | 意味的ビデオ境界の検出 |
Also Published As
| Publication number | Publication date |
|---|---|
| US7783106B2 (en) | 2010-08-24 |
| US20060107216A1 (en) | 2006-05-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2006172437A (ja) | データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置 | |
| CN111696128B (zh) | 一种高速多目标检测跟踪和目标图像优选方法及存储介质 | |
| Khodabakhsh et al. | Fake face detection methods: Can they be generalized? | |
| US11816888B2 (en) | Accurate tag relevance prediction for image search | |
| Wang et al. | Detect globally, refine locally: A novel approach to saliency detection | |
| CN106960195B (zh) | 一种基于深度学习的人群计数方法及装置 | |
| US10235623B2 (en) | Accurate tag relevance prediction for image search | |
| US7447338B2 (en) | Method and system for face detection using pattern classifier | |
| JP6708385B2 (ja) | 識別器作成装置、識別器作成方法、およびプログラム | |
| CN111161311A (zh) | 一种基于深度学习的视觉多目标跟踪方法及装置 | |
| US8345742B2 (en) | Method of processing moving picture and apparatus thereof | |
| CN113011357A (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
| KR20010042672A (ko) | 신호 처리 방법 및 영상 음성 처리 장치 | |
| CN107424161B (zh) | 一种由粗至精的室内场景图像布局估计方法 | |
| CN108765315B (zh) | 图像补全方法、装置、计算机设备及存储介质 | |
| CN108268823A (zh) | 目标再识别方法和装置 | |
| CN114722892A (zh) | 基于机器学习的持续学习方法及装置 | |
| CN112651996A (zh) | 目标检测跟踪方法、装置、电子设备和存储介质 | |
| CN116934747A (zh) | 眼底图像分割模型训练方法、设备和青光眼辅助诊断系统 | |
| Cheng et al. | Re-compose the image by evaluating the crop on more than just a score | |
| CN102495887A (zh) | 一种基于关键区域色彩矩阵的视频镜头分割方法及其应用 | |
| CN111428730A (zh) | 弱监督细粒度物体分类方法 | |
| CN114724046B (zh) | 一种光学遥感图像检测方法、装置以及存储介质 | |
| CN119202212B (zh) | 一种基于对偶反事实的视觉问答去偏方法 | |
| Asha | An enhanced deep learning algorithms for image recognition and plant leaf disease detection |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081022 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100608 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100806 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100914 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101207 |
