JP3642019B2 - Avコンテンツ自動要約システム及びavコンテンツ自動要約方法 - Google Patents
Avコンテンツ自動要約システム及びavコンテンツ自動要約方法 Download PDFInfo
- Publication number
- JP3642019B2 JP3642019B2 JP2000339805A JP2000339805A JP3642019B2 JP 3642019 B2 JP3642019 B2 JP 3642019B2 JP 2000339805 A JP2000339805 A JP 2000339805A JP 2000339805 A JP2000339805 A JP 2000339805A JP 3642019 B2 JP3642019 B2 JP 3642019B2
- Authority
- JP
- Japan
- Prior art keywords
- scene
- voice
- video
- explanation
- outline
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title description 56
- 238000001514 detection method Methods 0.000 claims description 78
- 238000000605 extraction Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Description
【発明の属する技術分野】
本発明はAVコンテンツ自動要約システム及びAVコンテンツ自動要約方法に関し、特にAV(Audio Visual)コンテンツの要約を生成する方法に関する。
【0002】
【従来の技術】
従来、AVコンテンツの自動要約システムとしては、映像フレームの中から複数の代表画像を選択し、それらを順次表示したり、縮小画像の一覧で表示するものがある。
【0003】
この場合、上記の自動要約システムでは映像フレームから一定周期で取出した映像や、映像の特徴量の変化点を自動検出してその変化点直後の映像を代表画像として選択している。
【0004】
また、AVコンテンツの自動要約の別の方式として、映像や音声の特徴量の変化点付近の映像と音声とを同時に再生するシステムがある。このシステムについては、特開平11−88807号公報に開示されている。
【0005】
【発明が解決しようとする課題】
しかしながら、上述した従来のAVコンテンツの自動要約システムでは、映像のみを利用しているため、音声による情報が欠落し、また代表映像が必ずしもAVコンテンツの概要を的確に表しているものではないことが多いので、AVコンテンツの概要をうまく把握することが困難であるという問題がある。
【0006】
上記の公報記載のシステムでは、AVコンテンツに含まれるひとつの話題に、現場の様子や解説者の話、テロップによる説明等の数多くのシーンが含まれているため、それらを音声付きの映像で再生する場合に、音声が自然に聞けるようにひとつのシーン毎の再生時間を数秒以上再生する必要があり、かつそれら多くのシーンの全てが対応する話題の概要を的確に表現するものでない。
【0007】
また、AVコンテンツの内容を端的に表現する映像と、AVコンテンツの内容を端的に表現する音声とが別のシーンに存在することが多いため、AVコンテンツの一部分を再生する方式で、それらの映像と音声との両方を再生しようとすると必然的に時間が長くなる。したがって、上記の公報記載のシステムには、AVコンテンツの概要をうまく把握するのに、ある程度長いAV要約を生成する必要があるという問題がある。
【0008】
そこで、本発明の目的は上記の問題点を解消し、より内容を把握しやすいAV要約を生成することができるAVコンテンツ自動要約システム及びAVコンテンツ自動要約方法を提供することにある。
【0009】
【課題を解決するための手段】
本発明によるAVコンテンツ自動要約システムは、少なくとも映像及び音声を含むAV(Audio Visual)コンテンツからそれらの映像及び音声の中から部分的に選択して編集するAVコンテンツ自動要約システムであって、前記AVコンテンツの中から前記音声とは独立して前記映像を部分的に取出す手段と、前記AVコンテンツの中から前記映像とは独立して前記音声を部分的に取出す手段と、それら個別に取り出した映像及び音声を合成して出力する手段とを備えている。
【0010】
本発明による他のAVコンテンツ自動要約システムは、少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを検出する検出手段と、前記検出手段で検出された概要説明シーンに続く詳細シーンの要約映像を生成する生成手段と、前記検出手段で検出された概要説明シーンの音声のみを抽出する抽出手段と、前記生成手段で要約映像と前記抽出手段で抽出された概要説明音声とを合成して出力する出力手段とを備えている。
【0011】
本発明による別のAVコンテンツ自動要約システムは、少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを含むコンテンツからAV(Audio Visual)要約を生成するAVコンテンツ自動要約システムであって、前記コンテンツから前記概要説明シーンを検出しかつその概要説明シーンの開始フレーム番号及び終了フレーム番号の集合を前記概要説明シーンとともに記録する概要説明シーン検出手段と、前記概要説明シーンに続く詳細シーンの要約映像を生成する映像要約手段と、前記概要説明シーンの音声を概要説明音声として切出す音声抽出手段と、前記音声抽出手段が生成した概要説明音声とその概要説明音声に対応する前記映像要約手段が生成した詳細シーンの要約映像との同期をとって前記AV要約として再生出力するAV要約出力手段とを備えている。
【0012】
本発明によるAVコンテンツ自動要約方法は、少なくとも映像及び音声を含むAV(Audio Visual)コンテンツからそれらの映像及び音声の中から部分的に選択して編集するAVコンテンツ自動要約方法であって、前記AVコンテンツの中から前記音声とは独立して前記映像を部分的に取出すステップと、前記AVコンテンツの中から前記映像とは独立して前記音声を部分的に取出すステップと、それら個別に取り出した映像及び音声を合成して出力するステップとを備え、これら各ステップをコンピュータが実行している。
【0013】
本発明による他のAVコンテンツ自動要約方法は、少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを検出するステップと、検出された概要説明シーンに続く詳細シーンの要約映像を生成するステップと、検出された概要説明シーンの音声のみを抽出するステップと、前記要約映像と前記概要説明音声とを合成して出力するステップとを備え、これら各ステップをコンピュータが実行している。
【0014】
本発明による別のAVコンテンツ自動要約方法は、少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを含むコンテンツからAV(Audio Visual)要約を生成するAVコンテンツ自動要約方法であって、前記コンテンツから前記概要説明シーンを検出しかつその概要説明シーンの開始フレーム番号及び終了フレーム番号の集合を前記概要説明シーンとともに記録するステップと、前記概要説明シーンに続く詳細シーンの要約映像を生成するステップと、前記概要説明シーンの音声を概要説明音声として切出すステップと、前記概要説明音声とその概要説明音声に対応する前記詳細シーンの要約映像との同期をとって前記AV要約として再生出力するステップとを備え、これら各ステップをコンピュータが実行している。
【0015】
すなわち、本発明のAVコンテンツ自動要約方式は、映像と音声とが多重化されたAVコンテンツの内容を短時間で把握するためのAV要約を自動生成する方式において、報道番組でアナウンサが次のニュースの概要を説明するシーン等の概要説明シーンを自動検出し、概要説明シーンに続く詳細シーンの要約映像と、概要説明シーンの音声のみを取出した概要説明音声とを合成することで、AV要約を生成する方式である。
【0016】
より具体的に、本発明のAVコンテンツ自動要約システムは、既存の人物検出、テロップ検出、人声検出、類似画像検出等の技術を利用して概要説明シーンを検出し、概要説明シーンの開始フレーム番号と終了フレーム番号の集合とを記録する概要説明シーン検出手段と、既存の映像要約技術を利用して概要説明シーンに続く詳細シーンの要約映像を生成する映像要約手段と、概要説明シーンの音声を概要説明音声として切り出す音声抽出手段と、音声抽出手段が生成した概要説明音声とその概要説明音声に対応する映像要約手段が生成した詳細シーンの要約映像との同期をとってAV要約として再生もしくは記録媒体に出力するAV要約出力手段とを有している。
【0017】
上記のような構成とすることで、要約映像と概要説明音声とを個別に生成してから合成するため、AVコンテンツの一部を切り出してAV要約とする方法に比べて、より内容を把握しやすいAV要約の生成を可能にする。また、アナウンサ等が概要を説明する部分の音声をそのまま利用するので、音声認識やテキスト要約を利用する方法に比べて音声が自然で、要約処理時間も少ないという効果がある。
【0018】
【発明の実施の形態】
次に、本発明の実施例について図面を参照して説明する。図1は本発明の一実施例によるAVコンテンツ自動要約システムの構成を示すブロック図である。図1において、本発明の一実施例によるAVコンテンツ自動要約システムはAVデータ入力手段1と、概要説明シーン検出手段2と、映像要約手段3と、音声抽出手段4と、AV要約出力手段5とから構成されている。
【0019】
AVデータ入力手段1は放送電波を受信し、その信号に含まれる映像情報と音声情報とを抽出する。この場合、映像情報は輝度情報と色情報とからなるYUV[Y(輝度信号)、U,V(色差信号成分)]データに変換され、音声情報はPCM(Pulse Code Modulation)データに変換されてメモリ(図示せず)上に記録される。
【0020】
YUVデータは映像のフレーム単位で取出すことができる。また、PCMデータはサンプル単位で取出すことができる。AVデータ入力手段1は市販のPC(パーソナルコンピュータ)用TVチューナボードと付属プログラム、及びPC用のオペレーティングシステムが提供する機能を用いる等によって容易に実現することができる。
【0021】
概要説明シーン検出手段2はAVデータ入力手段1からYUVデータとPCMデータとを受取り、それらのデータを解析することによって、アナウンサが次のニュースの概要を説明するシーン等の概要説明シーンを検出し、概要説明シーンの開始フレーム番号と終了フレーム番号とを概要説明シーンの通し番号に関連付けて記録する。
【0022】
概要説明シーンの通し番号は、後述する要約映像と概要説明音声との対応付けを行うことが目的であり、ある番組の要約を生成する場合には対象番組先頭からの通し番号を付加すればよく、ある開始時刻からある終了時刻までの要約を生成する場合にはその開始時刻からの通し番号を付加すればよい。
【0023】
映像要約手段3はAVデータ入力手段1からYUVデータを受取り、概要説明シーン検出手段2が記録した概要説明シーンのフレーム区間を参照して、概要説明シーンに続く現場シーンや解説シーン等の詳細シーンの要約映像を生成し、対応する概要説明シーンの通し番号に関連付けてその要約映像を記録する。
【0024】
ここで、要約映像とは受信したAVコンテンツの内容をおおまかに把握可能な元映像よりも短い映像のことである。例えば、元映像から30秒周期で2秒間の映像を抜き出し、それら2秒間の映像を連結して得られる元の映像の15分の1の長さの映像は要約映像といえる。
【0025】
音声抽出手段4はAVデータ入力手段1からPCMデータを受取り、概要説明シーン検出手段2が記録した概要説明シーンのフレーム区間のPCMデータを抜き出し、対応する概要説明シーンの通し番号に関連付けて概要説明音声として記録する。
【0026】
AV要約出力手段5は映像要約手段3が記録した要約映像と、音声抽出手段4が記録した概要説明音声とを受取り、同じ通し番号が割り当てられている要約映像と概要説明音声とを同期させて合成し、AV要約としてメモリや磁気記録装置等に出力する。
【0027】
図2は図1の概要説明シーン検出手段2の詳細な構成を示すブロック図である。図2において、概要説明シーン検出手段2は人物検出手段21と、テロップ検出手段22と、人声検出手段23と、概要説明シーン判定手段24とから構成されている。
【0028】
人物検出手段21はAVデータ入力手段1からYUVデータを受取り、映像の各フレーム毎に画像中央部分に人の顔が存在しているかどうかを判断して記録する。
【0029】
テロップ検出手段22はAVデータ入力手段1からYUVデータを受取り、映像の各フレーム毎に画像下部にテロップ文字が存在しているかどうかを判断して記録する。
【0030】
人声検出手段23はAVデータ入力手段1からPCMデータを受取り、映像の各フレームに対応する音声データに、人の声が存在しているかどうかを判断して記録する。
【0031】
概要説明シーン判定手段24は人物検出手段21の検出結果と、テロップ検出手段22の検出結果と、人声検出手段23の検出結果とを参照して、概要説明シーンのフレーム区間を判定し、その開始フレーム番号と終了フレーム番号とを概要説明シーンの通し番号に関連付けて記録する。
【0032】
図3は本発明の一実施例によるAVコンテンツ自動要約システムの動作を示すフロートャートである。これら図1及び図3を参照して本発明の一実施例によるAVコンテンツ自動要約システムの全体の動作について説明する。
【0033】
概要説明シーン検出手段2はAVデータ入力手段1からYUVデータとPCMデータとを受取り、そのデータを解析して概要説明シーンを特定し、概要説明シーンの通し番号を要素番号とし、開始フレーム番号と終了フレーム番号との組を要素とする配列として記録する(図3ステップS1)。
【0034】
映像要約手段3はAVデータ入力手段1からYUVデータを受取り、概要説明シーン検出手段2が記録した概要説明シーンのフレーム区間を参照し、概要説明シーンの終了フレーム直後から次の概要説明シーンの開始フレーム直前まで、あるいは次の概要説明シーンが存在しない場合に概要説明シーンの終了フレーム直後から最終フレームまでの詳細シーンに対して、予め定められた周期で、予め定められた時間分のYUVデータを切り出し、それらの周期的な部分映像を連結したものを要約映像として記録する(図3ステップS2)。
【0035】
要約映像の記録方法においては要約映像のYUVデータを記録する必要はなく、各概要説明シーンの通し番号毎に、概要説明シーンに対応する要約映像に含まれるフレーム区間のリストを記録すればよい。
【0036】
音声抽出手段4はAVデータ入力手段1からPCMデータを受取り、概要説明シーン検出手段2が記録した概要説明シーンのフレーム区間に対応するPCMデータを切り出し、概要説明音声として記録する(図3ステップS3)。
【0037】
その際、概要説明シーンの区間は映像のフレーム番号で記録されているので、
の算出式に基づいてPCMデータのサンプル番号に変換する。
【0038】
また、概要説明音声の記録方法においては、概要説明音声のPCMデータそのものを記録する必要はなく、概要説明シーンの通し番号を要素番号とし、概要説明音声の開始サンプル番号と終了サンプル番号との組を要素とする配列として記録すればよい。
【0039】
AV要約出力手段5は概要説明シーンの通し番号毎に、映像要約手段3が記録した詳細シーンの要約映像と、音声抽出手段4が記録した概要説明音声の長さとを合わせて合成し、概要説明シーンの通し番号の順に連結して、AV要約として記録媒体に出力する(図3ステップS4)。
【0040】
各通し番号毎の合成処理において、要約映像が概要説明音声よりも長い場合には、概要説明音声の後ろに無音信号を付加することで長さを合わせればよい。要約映像が概要説明音声よりも短い場合には、概要説明音声と同じ長さになるまで、要約映像を繰り返せばよい。尚、出力するAV要約の形式はYUVデータとPCMデータとを多重化した形式、YUVデータをRGB[R(赤),G(緑),B(青)]データに変換してPCMデータと多重化した形式、YUVデータ、RGBデータ、PCMデータを圧縮して多重化したMPEG(Moving Picture Experts Group)等の圧縮形式等の様々な形式が利用可能である。
【0041】
図4は図2に示す概要説明シーン検出手段2の動作を示すフローチャートである。これら図2及び図4を参照して、概要説明シーン検出手段2の動作について説明する。
【0042】
人物検出手段21はAVデータ入力手段1からYUVデータを受取ると、各フレーム画像を3×3の小画像にほぼ等分に9分割し、それぞれの小画像毎に各ピクセルの輝度値のヒストグラムを生成する。
【0043】
次に、人物検出手段21はフレーム中央部の小画像の輝度ヒストグラムの各レベルの値を8倍したヒストグラムと、フレーム周辺部の8個の小画像のヒストグラムの各レベルの値をそれぞれ加算したヒストグラムとの差分値を計算し、その差分値が予め定められた閾値よりも大きい場合に対象フレーム画像の中央部に人の顔が検出されたことを記録する(図4ステップS11)。ここで、ヒストグラムの差分値とは2つのヒストグラムの各レベル毎の値の差分の絶対値を、全てのレベルについて合計した値のことである。
【0044】
テロップ検出手段22はAVデータ入力手段1からYUVデータを受取ると、各フレーム画像の下3分の1の領域について、予め定められた閾値Aと閾値B(A>B)とを用いて、輝度値が閾値A以上、もしくは輝度値が閾値B以下であるピクセルの個数をカウントし、そのピクセル個数が別の閾値C以上である場合に対象フレーム画像の下部にテロップが検出されたことを記録する(図4ステップS12)。
【0045】
人声検出手段23はAVデータ入力手段1からPCMデータを受取ると、映像の各フレームに対応する区間毎に、人声に対応する予め定められた周波数帯域の平均パワーを求め、それが予め定められた閾値以上である場合、対応するフレームに人声が検出されたことを記録する(図4ステップS13)。ここで、特定の周波数帯域の信号を抽出するバンドパスフィルタ(図示せず)には既存の音声信号処理手法を適用すればよい。
【0046】
概要説明シーン判定手段24は、まず人物、テロップ、人声の全てが検出されているフレームを概要説明シーンの検出フレーム候補として記録する(図4ステップS14)。続いて、概要説明シーン判定手段24は概要説明シーンの検出フレーム候補に対して、非検出フレームの連続数が予め定められた閾値よりも短い場合に、その非検出フレームを検出フレームへと変更する(図4ステップS15)。これはフラッシュ等によって瞬間的に人物が検出されなかった場合や、人声が息継ぎなどによって瞬間的に検出されなかった場合に、概要説明シーンが分断されないようにするためである。
【0047】
最後に、概要説明シーン判定手段24は概要説明シーンの検出フレーム候補に対して、予め定められた時間以下の連続した検出フレームを非検出フレームへと変更し、残った連続する検出フレームを概要説明シーンとして記録する(図4ステップS16)。この処理は概要説明シーンが一般的に数秒間連続するものであるから、それ以下の短い検出フレーム区間は誤検出として排除するためである。
【0048】
図5〜図9は本発明の一実施例によるAVコンテンツ自動要約システムの具体的な動作例を示す図である。これら図1と図5〜図9とを参照して本発明の一実施例によるAVコンテンツ自動要約システムの具体的な動作について説明する。
【0049】
要約対象となる放送番組は、図5に示すように、10分、10分、5分、5分の長さの四つの個別ニュースから構成される30分の報道番組であるとし、それぞれの個別ニュースの冒頭の10秒でアナウンサによる概要説明がなされるとともに、個別ニュースのタイトルがテロップ文字として画面下部に表示されるものとする。
【0050】
AVデータ入力手段1は受信した信号を、映像を毎秒10フレームのYUVデータ、音声を毎秒10000サンプルのPCMデータにそれぞれ変換して記録する。
【0051】
概要説明シーン検出手段2は、図6に示すように、第0フレームから第99フレーム、第6000フレームから第6099フレーム、第12000フレームから第12099フレーム、第15000フレームから第15099フレームの4区間を概要説明シーンのフレーム区間であると判断し、4要素の配列として記録する。
【0052】
映像要約手段3は概要説明シーンに続く詳細シーンから2分周期で3秒間の映像を切り出して要約映像を生成するものとすると、図7に示すように、最初のニュースに対しては第100フレームから第129フレーム、第1300フレームから第1329フレーム、第2500フレームから第2529フレーム、第3700フレームから第3729フレーム、第4900フレームから第4929フレームが要約映像に使われる区間として記録される。
【0053】
2番目、3番目、4番目のニュースに対しても、上記と同様にして、要約映像に使われる区間が記録される。つまり、2番目のニュースに対しては第6100フレームから第6129フレーム、第7300フレームから第7329フレーム、第8500フレームから第8529フレーム、第9700フレームから第9729フレーム、第10900フレームから第10929フレームが要約映像に使われる区間として記録される。
【0054】
3番目のニュースに対しては第12100フレームから第12129フレーム、第13300フレームから第13329フレーム、第14500フレームから第14529フレームが要約映像に使われる区間として記録される。
【0055】
4番目のニュースに対しては第15100フレームから第15129フレーム、第16300フレームから第16329フレーム、第17500フレームから第17529フレームが要約映像に使われる区間として記録される。
【0056】
音声抽出手段4は概要説明シーン検出手段2が記録した概要説明シーンのフレーム区間に相当するPCMデータのサンプル番号を、上述した式、
P=F÷Rf×Rp
の式から算出する。
【0057】
この場合、Rf=10、Rp=10000なので、概要説明音声のサンプル区間は、図8に示すように、第0サンプルから第99999サンプル、第6000000サンプルから第6099999サンプル、第12000000サンプルから第12099999サンプル、第15000000サンプルから15099999サンプルの4区間となり、それらが配列として記録される。
【0058】
AV要約出力手段5は四つの個別ニュース毎に、映像要約手段3が生成した映像要約と音声抽出手段4が生成した概要説明音声とをその長さを合わせて合成し、それを通し番号順に連結する。図9に示すように、最初のニュースと2番目のニュースとでは要約映像が15秒なのに対して概要説明音声が10秒であるから、概要説明音声の終了後に5秒間の無音データを付加してから合成する。
【0059】
それに対して3番目のニュースと4番目のニュースとでは、要約映像が9秒なのに対して概要説明音声が10秒であるから、9秒の要約映像の後に再び先頭から1秒後までの映像を付加してから合成する。それらを通し番号順に連結すると、最終的に50秒のAV要約が生成される。
【0060】
このように、要約映像と概要説明音声とを別々に生成した後にそれらを合成することによって、映像と音声とのそれぞれがニュース概要を把握するのに適した内容になっているので、視聴者がAV要約を視聴した時によりニュースの概要を把握することが容易となる。
【0061】
また、高速なCPU(中央処理装置)や大量のメモリを必要とする音声認識処理や自然言語理解等の高度な技術を使用せずに概要説明音声を生成することによって、概要説明音声の抽出処理の実現コストが小さくかつ高速なので、メモリ容量が小さいPC(パーソナルコンピュータ)やCPU性能が高くないPCでも実現することができる。
【0062】
さらに、概要説明音声としてアナウンサが実際に喋っている言葉をそのまま利用することによって、概要説明音声を自然で理解しやすい音声にすることができる。
【0063】
図10は本発明の他の実施例による概要説明シーン検出手段の詳細な構成を示すブロック図である。図10において、概要説明シーン検出手段6は類似画像検索手段61と、概要説明シーンデータベース(DB)62と、概要説明シーン判定手段63とから構成されている。
【0064】
概要説明シーンデータベース62は放送番組で用いられる概要説明シーンの映像のフレームサンプルを複数記録しており、サンプル毎にYUVデータとして取出すことができる。
【0065】
類似画像検索手段61は複数のAVコンテンツ入力手段1から渡されるYUVデータと、概要説明シーンデータベース62が記録している概要説明シーンのサンプルとを比較し、概要説明シーンデータベース62が記録する概要説明シーンのサンプルのどれかと類似性が高い場合に、そのフレームを概要説明シーンの候補として記録する。
【0066】
上記の類似画像検索手段61における類似画像検索手法としては、公知の様々な方法を適用することができる。例えば、フレームを構成するピクセル毎の色情報の差分をとり、その総和が閾値を超えるかどうかで判断する方法がある。また、フレームの輝度データ、色データ、それらを周波数変換した後の周波数成分等から生成されかつ元映像データよりサイズの小さい検索キー同士を比較する方法もあり、その場合にはデータベースの容量と処理時間とを短縮することができる。
【0067】
概要説明シーン判定手段63は、図4に示す本発明の一実施例の動作と比べて、概要説明シーンの候補フレームを類似画像検索手段61によって検出することが異なる。候補フレームを検出した後、短い非検出区間を検出区間への変更し(図4ステップS15)、短い検出区間を非検出区間に変更して概要説明シーンを決定する(図4ステップS16)。
【0068】
本実施例は要約対象となるAVコンテンツにおける概要説明シーンがある程度固定されており、かつ概要説明シーンのサンプルが予め入手可能な場合に、より高い精度で概要説明シーンを検出することができる。よって、最終的に出力されるAV要約も、より内容を把握しやすいものになる。
【0069】
例えば、報道番組におけるアナウンサによる概要説明シーンの構図は、数ヶ月以上にわって固定である場合が多いため、本実施例によって高精度のAV要約を生成することができる。
【0070】
尚、上述した実施例では、AVコンテンツ入力手段1として放送を受信する例について述べたが、放送以外の記録メディアに蓄積されたAVコンテンツ、あるいはインタネット等を介して送られてくるAVコンテンツでも、上記の実施例と同様に、AV要約を生成することができる。
【0071】
また、AVコンテンツ入力手段1が記録するフォーマットとしてYUVデータとPCMデータとを例示したが、もちろん、他の様々なフォーマットでも、上記の実施例と同様に、AV要約を生成することができる。
【0072】
一方、上述した実施例では概要説明シーン検出手段2,6として、人物検出とテロップ検出と人声検出とを組合わせる方法と、類似画像検索による方法とを例示したが、その他の方法を用いてもかまわない。例えば、放送電波に現在のシーンを特定する信号が重畳されており、概要説明シーンであることをその信号から判定することができる場合にはその信号を利用すればよい。
【0073】
また、人物検出、テロップ検出、人声検出、類似画像検索の各手法の任意の組合わせでも実現することができる。さらに、話者識別技術によって概要説明を行う話者を検出する方法、「次のニュースです」等の話題区切りを音声認識によって認識し、それに続くシーンを概要説明シーンだと判断する方法等が考えられる。
【0074】
上述した実施例では、人物検出手段21として、画面中央部及び周辺部の輝度ヒストグラムを比較する方法を例示しているが、もちろん、その他の人物検出手法を適用することができる。例えば、その方法としては画面中央の9等分割画像に限らないことはもちろん、色情報の分布を調べる方法、目、鼻、口といった顔を構成する要素候補を検出してその位置関係及びその時間方向での動き量から人の顔を検出する方法等が考えられる。
【0075】
また、テロップ検出手段22として、輝度の高いピクセルと低いピクセルとの数をカウントする方法を例示しているが、もちろん、その他のテロップ検出手法を適用することができる。例えば、その方法としてはエッジの個数で判断する方法、エッジ点での輝度変化量が連続するエッジで対称になっているかどうかで判断する方法、エッジ分布密度が高い領域の形状で判断する方法等が考えられる。
【0076】
さらに、人声検出手段23として、バンドパスフィルタで特定周波数領域を取出す方法を例示しているが、もちろん、その他の人声検出方法を用いても構わない。例えば、その方法としては人声の各種特徴量の時間方向の変化パターンが予め登録しておいたパターンと類似しているかどうかで判断する方法、周波数スペクトルの分布形状が予め登録しておいたパターンと類似しているかどうかで判断する方法等が考えられる。
【0077】
また、概要説明シーン判定手段24で、概要説明シーン間の時間条件を設けて概要説明シーン間が閾値よりも短い場合には、どちらかの候補をキャンセルする方法や、番組中に比較的均等に分布するように選択する方法も考えられる。
【0078】
上述した実施例では、映像要約手段3が概要説明シーンの後に続く映像を要約する例を示しているが、概要説明シーンのテロップ文字を映像として表示することはひとつの有効な要約手段であり、もちろん要約映像に概要説明シーンが含まれても構わない。
【0079】
また、映像要約手段3として、一定周期毎に一定時間の映像を抜き出す方法を例示しているが、その他の映像要約手法を適用することができることはいうまでもない。例えば、その方法としては一定周期毎にフレームを抜き出してそのフレームを静止画として一定時間表示する方法、抜き出すフレーム周期や表示時間を内容に応じて変化させる方法、抜き出したフレームを縮小画像の一覧で表示する方法、映像の特徴量の変化点をシーンチェンジとして検出してその直後の映像を抜き出す方法、映像の時間方向での変化量に応じて映像の重要度を計算して重要度の高い映像を抜き出す方法等が考えられる。
【0080】
要約AV出力手段5としては要約映像と概要説明音声とを多重化して記録媒体に記録する方法を例示しているが、その他にも、要約映像をディスプレイ上に表示すると同時に概要説明音声をスピーカ等の音声出力装置から再生する方法、要約映像と概要説明音声とを多重化して伝送路上に送信する方法等もある。
【0081】
上述した実施例の動作では、概要説明シーン検出手段2、映像要約手段3、音声抽出手段4、AV要約出力手段5が逐次的に動作する場合を例示しているが、それらの手段の全てが、あるいは一部が平行して動作する場合も当然含まれる。
【0082】
【発明の効果】
以上説明したように本発明によれば、少なくとも映像及び音声を含むAVコンテンツからそれらの映像及び音声の中の代表的な部分を選択して表示するAVコンテンツ自動要約システムにおいて、AVコンテンツの中から代表的な部分の映像及び音声を別々に取出し、それらの映像及び音声を合成して出力することによって、より内容を把握しやすいAV要約を生成することができるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例によるAVコンテンツ自動要約システムの構成を示すブロック図である。
【図2】図1の概要説明シーン検出手段の詳細な構成を示すブロック図である。
【図3】本発明の一実施例によるAVコンテンツ自動要約システムの動作を示すフロートャートである。
【図4】図2に示す概要説明シーン検出手段の動作を示すフローチャートである。
【図5】本発明の一実施例によるAVコンテンツ自動要約システムの具体的な動作例を示す図である。
【図6】本発明の一実施例によるAVコンテンツ自動要約システムの具体的な動作例を示す図である。
【図7】本発明の一実施例によるAVコンテンツ自動要約システムの具体的な動作例を示す図である。
【図8】本発明の一実施例によるAVコンテンツ自動要約システムの具体的な動作例を示す図である。
【図9】本発明の一実施例によるAVコンテンツ自動要約システムの具体的な動作例を示す図である。
【図10】本発明の他の実施例による概要説明シーン検出手段の詳細な構成を示すブロック図である。
【符号の説明】
1 AVデータ入力手段
2,6 概要説明シーン検出手段
3 映像要約手段
4 音声抽出手段
5 AV要約出力手段
21 人物検出手段
22 テロップ検出手段
23 人声検出手段
24,63 概要説明シーン判定手段
61 類似画像検索手段
62 概要説明シーンデータベース
Claims (10)
- 少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを検出する検出手段と、
前記検出手段で検出された概要説明シーンに続く詳細シーンの要約映像を生成する生成手段と、
前記検出手段で検出された概要説明シーンの音声のみを抽出する抽出手段と、
前記生成手段で要約映像と前記抽出手段で抽出された概要説明音声とを合成して出力する出力手段とを有することを特徴とするAVコンテンツ自動要約システム。 - 前記抽出手段は、各話題の冒頭部分の概要説明シーンの音声を抽出してそのまま利用するようにしたことを特徴とする請求項1記載のAVコンテンツ自動要約システム。
- 前記抽出手段は、前記報道番組の各個別ニュース冒頭部分のアナウンサによる概要説明シーンの音声を抽出してそのまま利用するようにしたことを特徴とする請求項1記載のAVコンテンツ自動要約システム。
- 前記検出手段は、映像情報の中の人物の検出と前記映像情報の中のテロップの検出と前記映像情報に伴う音声情報の中の人声の検出とを組合わせて前記概要説明シーンを検出するようにしたことを特徴とする請求項1から請求項3のいずれか記載のAVコンテンツ自動要約システム。
- 前記検出手段は、予め記録されている概要説明シーンのサンプルとの類似性を検出する類似画像検索を用いて前記概要説明シーンを検索するようにしたことを特徴とする請求項1から請求項3のいずれか記載のAVコンテンツ自動要約システム。
- 少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを含むコンテンツからAV(Audio Visual)要約を生成するAVコンテンツ自動要約システムであって、
前記コンテンツから前記概要説明シーンを検出しかつその概要説明シーンの開始フレーム番号及び終了フレーム番号の集合を前記概要説明シーンとともに記録する概要説明シーン検出手段と、
前記概要説明シーンに続く詳細シーンの要約映像を生成する映像要約手段と、
前記概要説明シーンの音声を概要説明音声として切出す音声抽出手段と、
前記音声抽出手段が生成した概要説明音声とその概要説明音声に対応する前記映像要約手段が生成した詳細シーンの要約映像との同期をとって前記AV要約として再生出力するAV要約出力手段とを有することを特徴とするAVコンテンツ自動要約システム。 - 前記概要説明シーン検出手段は、前記コンテンツに対して人物検出とテロップ検出と人声検出とを行って前記概要説明シーンを検出するよう構成したことを特徴とする請求項6記載のAVコンテンツ自動要約システム。
- 前記概要説明シーン検出手段は、前記コンテンツに対して予め記録されている概要説明シーンのサンプルとの類似性を検出する類似画像検索を行って前記概要説明シーンを検出するよう構成したことを特徴とする請求項6記載のAVコンテンツ自動要約システム。
- 前記音声抽出手段は、各話題の冒頭部分の概要説明シーンの音声を抽出してそのまま利用するようにしたことを特徴とする請求項6から請求項8のいずれか記載のAVコンテンツ自動要約システム。
- 前記音声抽出手段は、前記報道番組の各個別ニュース冒頭部分のアナウンサによる概要説明シーンの音声を抽出してそのまま利用するようにしたことを特徴とする請求項6から請求項8のいずれか記載のAVコンテンツ自動要約システム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000339805A JP3642019B2 (ja) | 2000-11-08 | 2000-11-08 | Avコンテンツ自動要約システム及びavコンテンツ自動要約方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000339805A JP3642019B2 (ja) | 2000-11-08 | 2000-11-08 | Avコンテンツ自動要約システム及びavコンテンツ自動要約方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2002149672A JP2002149672A (ja) | 2002-05-24 |
| JP3642019B2 true JP3642019B2 (ja) | 2005-04-27 |
Family
ID=18814822
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000339805A Expired - Fee Related JP3642019B2 (ja) | 2000-11-08 | 2000-11-08 | Avコンテンツ自動要約システム及びavコンテンツ自動要約方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3642019B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106550268A (zh) * | 2016-12-26 | 2017-03-29 | Tcl集团股份有限公司 | 视频处理方法和视频处理装置 |
Families Citing this family (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2004105035A1 (en) * | 2003-05-26 | 2004-12-02 | Koninklijke Philips Electronics N.V. | System and method for generating audio-visual summaries for audio-visual program content |
| JP4559935B2 (ja) | 2005-08-25 | 2010-10-13 | 株式会社東芝 | 画像記憶装置及び方法 |
| JP4346613B2 (ja) * | 2006-01-11 | 2009-10-21 | 株式会社東芝 | 映像要約装置及び映像要約方法 |
| US20100031142A1 (en) * | 2006-10-23 | 2010-02-04 | Nec Corporation | Content summarizing system, method, and program |
| JP5638897B2 (ja) * | 2010-09-21 | 2014-12-10 | オリンパスイメージング株式会社 | 撮像装置 |
| WO2013186958A1 (ja) * | 2012-06-13 | 2013-12-19 | 日本電気株式会社 | 映像重要度算出方法、映像処理装置およびその制御方法と制御プログラムを格納した記憶媒体 |
| KR20160057864A (ko) * | 2014-11-14 | 2016-05-24 | 삼성전자주식회사 | 요약 컨텐츠를 생성하는 전자 장치 및 그 방법 |
| CN111708914A (zh) | 2020-06-11 | 2020-09-25 | 北京百度网讯科技有限公司 | 用于视频处理的方法、装置、电子设备和存储介质 |
-
2000
- 2000-11-08 JP JP2000339805A patent/JP3642019B2/ja not_active Expired - Fee Related
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106550268A (zh) * | 2016-12-26 | 2017-03-29 | Tcl集团股份有限公司 | 视频处理方法和视频处理装置 |
| CN106550268B (zh) * | 2016-12-26 | 2020-08-07 | Tcl科技集团股份有限公司 | 视频处理方法和视频处理装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2002149672A (ja) | 2002-05-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8009232B2 (en) | Display control device, and associated method of identifying content | |
| US6339760B1 (en) | Method and system for synchronization of decoded audio and video by adding dummy data to compressed audio data | |
| EP1081960A1 (en) | Signal processing method and video/voice processing device | |
| US20030190142A1 (en) | Contents recording/playback apparatus and contents edit method | |
| US20180330759A1 (en) | Signal processing apparatus, signal processing method, and non-transitory computer-readable storage medium | |
| WO2001016935A1 (en) | Information retrieving/processing method, retrieving/processing device, storing method and storing device | |
| JP3642019B2 (ja) | Avコンテンツ自動要約システム及びavコンテンツ自動要約方法 | |
| KR20070047776A (ko) | 정보 신호 처리 방법, 정보 신호 처리 장치 및 컴퓨터프로그램 기록 매체 | |
| JP2008178090A (ja) | 映像処理装置 | |
| WO2010125757A1 (ja) | 映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法 | |
| JPH0965287A (ja) | 動画像の特徴場面検出方法及び装置 | |
| JP4512969B2 (ja) | 信号処理装置及び方法、記録媒体、並びにプログラム | |
| JP2002344852A (ja) | 情報信号処理装置および情報信号処理方法 | |
| CN102067228A (zh) | 内容再现顺序决定系统及其方法和程序 | |
| JP2005252372A (ja) | ダイジェスト映像作成装置及びダイジェスト映像作成方法 | |
| CN101835018A (zh) | 动画记录重放装置 | |
| US6285982B1 (en) | Sound decompressing apparatus providing improved sound quality during special reproducing such as forward search reproducing and reverse search reproducing | |
| JP2822940B2 (ja) | 動画像音声データ編集装置 | |
| KR100748059B1 (ko) | 실시간 다층 동영상 합성보드 | |
| JP4432823B2 (ja) | 特定条件区間検出装置および特定条件区間検出方法 | |
| KR102377177B1 (ko) | 영상 편집 장치 | |
| JP2005167456A (ja) | Avコンテンツ興趣特徴抽出方法及びavコンテンツ興趣特徴抽出装置 | |
| JP2002084505A (ja) | 映像閲覧時間短縮装置及び方法 | |
| JP4341503B2 (ja) | 情報信号処理方法、情報信号処理装置及びプログラム記録媒体 | |
| US20050232598A1 (en) | Method, apparatus, and program for extracting thumbnail picture |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040720 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040921 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041026 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041122 |
|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20041122 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20041126 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20041122 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050104 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050117 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080204 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090204 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100204 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100204 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110204 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110204 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120204 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120204 Year of fee payment: 7 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
| R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120204 Year of fee payment: 7 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120204 Year of fee payment: 7 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130204 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130204 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130204 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130204 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130204 Year of fee payment: 8 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |
