JP3642019B2

JP3642019B2 - Ａｖコンテンツ自動要約システム及びａｖコンテンツ自動要約方法

Info

Publication number: JP3642019B2
Application number: JP2000339805A
Authority: JP
Inventors: 実黒岩
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2000-11-08
Filing date: 2000-11-08
Publication date: 2005-04-27
Anticipated expiration: 2020-11-08
Also published as: JP2002149672A

Description

【０００１】
【発明の属する技術分野】
本発明はＡＶコンテンツ自動要約システム及びＡＶコンテンツ自動要約方法に関し、特にＡＶ（ＡｕｄｉｏＶｉｓｕａｌ）コンテンツの要約を生成する方法に関する。
【０００２】
【従来の技術】
従来、ＡＶコンテンツの自動要約システムとしては、映像フレームの中から複数の代表画像を選択し、それらを順次表示したり、縮小画像の一覧で表示するものがある。
【０００３】
この場合、上記の自動要約システムでは映像フレームから一定周期で取出した映像や、映像の特徴量の変化点を自動検出してその変化点直後の映像を代表画像として選択している。
【０００４】
また、ＡＶコンテンツの自動要約の別の方式として、映像や音声の特徴量の変化点付近の映像と音声とを同時に再生するシステムがある。このシステムについては、特開平１１−８８８０７号公報に開示されている。
【０００５】
【発明が解決しようとする課題】
しかしながら、上述した従来のＡＶコンテンツの自動要約システムでは、映像のみを利用しているため、音声による情報が欠落し、また代表映像が必ずしもＡＶコンテンツの概要を的確に表しているものではないことが多いので、ＡＶコンテンツの概要をうまく把握することが困難であるという問題がある。
【０００６】
上記の公報記載のシステムでは、ＡＶコンテンツに含まれるひとつの話題に、現場の様子や解説者の話、テロップによる説明等の数多くのシーンが含まれているため、それらを音声付きの映像で再生する場合に、音声が自然に聞けるようにひとつのシーン毎の再生時間を数秒以上再生する必要があり、かつそれら多くのシーンの全てが対応する話題の概要を的確に表現するものでない。
【０００７】
また、ＡＶコンテンツの内容を端的に表現する映像と、ＡＶコンテンツの内容を端的に表現する音声とが別のシーンに存在することが多いため、ＡＶコンテンツの一部分を再生する方式で、それらの映像と音声との両方を再生しようとすると必然的に時間が長くなる。したがって、上記の公報記載のシステムには、ＡＶコンテンツの概要をうまく把握するのに、ある程度長いＡＶ要約を生成する必要があるという問題がある。
【０００８】
そこで、本発明の目的は上記の問題点を解消し、より内容を把握しやすいＡＶ要約を生成することができるＡＶコンテンツ自動要約システム及びＡＶコンテンツ自動要約方法を提供することにある。
【０００９】
【課題を解決するための手段】
本発明によるＡＶコンテンツ自動要約システムは、少なくとも映像及び音声を含むＡＶ（ＡｕｄｉｏＶｉｓｕａｌ）コンテンツからそれらの映像及び音声の中から部分的に選択して編集するＡＶコンテンツ自動要約システムであって、前記ＡＶコンテンツの中から前記音声とは独立して前記映像を部分的に取出す手段と、前記ＡＶコンテンツの中から前記映像とは独立して前記音声を部分的に取出す手段と、それら個別に取り出した映像及び音声を合成して出力する手段とを備えている。
【００１０】
本発明による他のＡＶコンテンツ自動要約システムは、少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを検出する検出手段と、前記検出手段で検出された概要説明シーンに続く詳細シーンの要約映像を生成する生成手段と、前記検出手段で検出された概要説明シーンの音声のみを抽出する抽出手段と、前記生成手段で要約映像と前記抽出手段で抽出された概要説明音声とを合成して出力する出力手段とを備えている。
【００１１】
本発明による別のＡＶコンテンツ自動要約システムは、少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを含むコンテンツからＡＶ（ＡｕｄｉｏＶｉｓｕａｌ）要約を生成するＡＶコンテンツ自動要約システムであって、前記コンテンツから前記概要説明シーンを検出しかつその概要説明シーンの開始フレーム番号及び終了フレーム番号の集合を前記概要説明シーンとともに記録する概要説明シーン検出手段と、前記概要説明シーンに続く詳細シーンの要約映像を生成する映像要約手段と、前記概要説明シーンの音声を概要説明音声として切出す音声抽出手段と、前記音声抽出手段が生成した概要説明音声とその概要説明音声に対応する前記映像要約手段が生成した詳細シーンの要約映像との同期をとって前記ＡＶ要約として再生出力するＡＶ要約出力手段とを備えている。
【００１２】
本発明によるＡＶコンテンツ自動要約方法は、少なくとも映像及び音声を含むＡＶ（ＡｕｄｉｏＶｉｓｕａｌ）コンテンツからそれらの映像及び音声の中から部分的に選択して編集するＡＶコンテンツ自動要約方法であって、前記ＡＶコンテンツの中から前記音声とは独立して前記映像を部分的に取出すステップと、前記ＡＶコンテンツの中から前記映像とは独立して前記音声を部分的に取出すステップと、それら個別に取り出した映像及び音声を合成して出力するステップとを備え、これら各ステップをコンピュータが実行している。
【００１３】
本発明による他のＡＶコンテンツ自動要約方法は、少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを検出するステップと、検出された概要説明シーンに続く詳細シーンの要約映像を生成するステップと、検出された概要説明シーンの音声のみを抽出するステップと、前記要約映像と前記概要説明音声とを合成して出力するステップとを備え、これら各ステップをコンピュータが実行している。
【００１４】
本発明による別のＡＶコンテンツ自動要約方法は、少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを含むコンテンツからＡＶ（ＡｕｄｉｏＶｉｓｕａｌ）要約を生成するＡＶコンテンツ自動要約方法であって、前記コンテンツから前記概要説明シーンを検出しかつその概要説明シーンの開始フレーム番号及び終了フレーム番号の集合を前記概要説明シーンとともに記録するステップと、前記概要説明シーンに続く詳細シーンの要約映像を生成するステップと、前記概要説明シーンの音声を概要説明音声として切出すステップと、前記概要説明音声とその概要説明音声に対応する前記詳細シーンの要約映像との同期をとって前記ＡＶ要約として再生出力するステップとを備え、これら各ステップをコンピュータが実行している。
【００１５】
すなわち、本発明のＡＶコンテンツ自動要約方式は、映像と音声とが多重化されたＡＶコンテンツの内容を短時間で把握するためのＡＶ要約を自動生成する方式において、報道番組でアナウンサが次のニュースの概要を説明するシーン等の概要説明シーンを自動検出し、概要説明シーンに続く詳細シーンの要約映像と、概要説明シーンの音声のみを取出した概要説明音声とを合成することで、ＡＶ要約を生成する方式である。
【００１６】
より具体的に、本発明のＡＶコンテンツ自動要約システムは、既存の人物検出、テロップ検出、人声検出、類似画像検出等の技術を利用して概要説明シーンを検出し、概要説明シーンの開始フレーム番号と終了フレーム番号の集合とを記録する概要説明シーン検出手段と、既存の映像要約技術を利用して概要説明シーンに続く詳細シーンの要約映像を生成する映像要約手段と、概要説明シーンの音声を概要説明音声として切り出す音声抽出手段と、音声抽出手段が生成した概要説明音声とその概要説明音声に対応する映像要約手段が生成した詳細シーンの要約映像との同期をとってＡＶ要約として再生もしくは記録媒体に出力するＡＶ要約出力手段とを有している。
【００１７】
上記のような構成とすることで、要約映像と概要説明音声とを個別に生成してから合成するため、ＡＶコンテンツの一部を切り出してＡＶ要約とする方法に比べて、より内容を把握しやすいＡＶ要約の生成を可能にする。また、アナウンサ等が概要を説明する部分の音声をそのまま利用するので、音声認識やテキスト要約を利用する方法に比べて音声が自然で、要約処理時間も少ないという効果がある。
【００１８】
【発明の実施の形態】
次に、本発明の実施例について図面を参照して説明する。図１は本発明の一実施例によるＡＶコンテンツ自動要約システムの構成を示すブロック図である。図１において、本発明の一実施例によるＡＶコンテンツ自動要約システムはＡＶデータ入力手段１と、概要説明シーン検出手段２と、映像要約手段３と、音声抽出手段４と、ＡＶ要約出力手段５とから構成されている。
【００１９】
ＡＶデータ入力手段１は放送電波を受信し、その信号に含まれる映像情報と音声情報とを抽出する。この場合、映像情報は輝度情報と色情報とからなるＹＵＶ［Ｙ（輝度信号）、Ｕ，Ｖ（色差信号成分）］データに変換され、音声情報はＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）データに変換されてメモリ（図示せず）上に記録される。
【００２０】
ＹＵＶデータは映像のフレーム単位で取出すことができる。また、ＰＣＭデータはサンプル単位で取出すことができる。ＡＶデータ入力手段１は市販のＰＣ（パーソナルコンピュータ）用ＴＶチューナボードと付属プログラム、及びＰＣ用のオペレーティングシステムが提供する機能を用いる等によって容易に実現することができる。
【００２１】
概要説明シーン検出手段２はＡＶデータ入力手段１からＹＵＶデータとＰＣＭデータとを受取り、それらのデータを解析することによって、アナウンサが次のニュースの概要を説明するシーン等の概要説明シーンを検出し、概要説明シーンの開始フレーム番号と終了フレーム番号とを概要説明シーンの通し番号に関連付けて記録する。
【００２２】
概要説明シーンの通し番号は、後述する要約映像と概要説明音声との対応付けを行うことが目的であり、ある番組の要約を生成する場合には対象番組先頭からの通し番号を付加すればよく、ある開始時刻からある終了時刻までの要約を生成する場合にはその開始時刻からの通し番号を付加すればよい。
【００２３】
映像要約手段３はＡＶデータ入力手段１からＹＵＶデータを受取り、概要説明シーン検出手段２が記録した概要説明シーンのフレーム区間を参照して、概要説明シーンに続く現場シーンや解説シーン等の詳細シーンの要約映像を生成し、対応する概要説明シーンの通し番号に関連付けてその要約映像を記録する。
【００２４】
ここで、要約映像とは受信したＡＶコンテンツの内容をおおまかに把握可能な元映像よりも短い映像のことである。例えば、元映像から３０秒周期で２秒間の映像を抜き出し、それら２秒間の映像を連結して得られる元の映像の１５分の１の長さの映像は要約映像といえる。
【００２５】
音声抽出手段４はＡＶデータ入力手段１からＰＣＭデータを受取り、概要説明シーン検出手段２が記録した概要説明シーンのフレーム区間のＰＣＭデータを抜き出し、対応する概要説明シーンの通し番号に関連付けて概要説明音声として記録する。
【００２６】
ＡＶ要約出力手段５は映像要約手段３が記録した要約映像と、音声抽出手段４が記録した概要説明音声とを受取り、同じ通し番号が割り当てられている要約映像と概要説明音声とを同期させて合成し、ＡＶ要約としてメモリや磁気記録装置等に出力する。
【００２７】
図２は図１の概要説明シーン検出手段２の詳細な構成を示すブロック図である。図２において、概要説明シーン検出手段２は人物検出手段２１と、テロップ検出手段２２と、人声検出手段２３と、概要説明シーン判定手段２４とから構成されている。
【００２８】
人物検出手段２１はＡＶデータ入力手段１からＹＵＶデータを受取り、映像の各フレーム毎に画像中央部分に人の顔が存在しているかどうかを判断して記録する。
【００２９】
テロップ検出手段２２はＡＶデータ入力手段１からＹＵＶデータを受取り、映像の各フレーム毎に画像下部にテロップ文字が存在しているかどうかを判断して記録する。
【００３０】
人声検出手段２３はＡＶデータ入力手段１からＰＣＭデータを受取り、映像の各フレームに対応する音声データに、人の声が存在しているかどうかを判断して記録する。
【００３１】
概要説明シーン判定手段２４は人物検出手段２１の検出結果と、テロップ検出手段２２の検出結果と、人声検出手段２３の検出結果とを参照して、概要説明シーンのフレーム区間を判定し、その開始フレーム番号と終了フレーム番号とを概要説明シーンの通し番号に関連付けて記録する。
【００３２】
図３は本発明の一実施例によるＡＶコンテンツ自動要約システムの動作を示すフロートャートである。これら図１及び図３を参照して本発明の一実施例によるＡＶコンテンツ自動要約システムの全体の動作について説明する。
【００３３】
概要説明シーン検出手段２はＡＶデータ入力手段１からＹＵＶデータとＰＣＭデータとを受取り、そのデータを解析して概要説明シーンを特定し、概要説明シーンの通し番号を要素番号とし、開始フレーム番号と終了フレーム番号との組を要素とする配列として記録する（図３ステップＳ１）。
【００３４】
映像要約手段３はＡＶデータ入力手段１からＹＵＶデータを受取り、概要説明シーン検出手段２が記録した概要説明シーンのフレーム区間を参照し、概要説明シーンの終了フレーム直後から次の概要説明シーンの開始フレーム直前まで、あるいは次の概要説明シーンが存在しない場合に概要説明シーンの終了フレーム直後から最終フレームまでの詳細シーンに対して、予め定められた周期で、予め定められた時間分のＹＵＶデータを切り出し、それらの周期的な部分映像を連結したものを要約映像として記録する（図３ステップＳ２）。
【００３５】
要約映像の記録方法においては要約映像のＹＵＶデータを記録する必要はなく、各概要説明シーンの通し番号毎に、概要説明シーンに対応する要約映像に含まれるフレーム区間のリストを記録すればよい。
【００３６】
音声抽出手段４はＡＶデータ入力手段１からＰＣＭデータを受取り、概要説明シーン検出手段２が記録した概要説明シーンのフレーム区間に対応するＰＣＭデータを切り出し、概要説明音声として記録する（図３ステップＳ３）。
【００３７】
その際、概要説明シーンの区間は映像のフレーム番号で記録されているので、

の算出式に基づいてＰＣＭデータのサンプル番号に変換する。
【００３８】
また、概要説明音声の記録方法においては、概要説明音声のＰＣＭデータそのものを記録する必要はなく、概要説明シーンの通し番号を要素番号とし、概要説明音声の開始サンプル番号と終了サンプル番号との組を要素とする配列として記録すればよい。
【００３９】
ＡＶ要約出力手段５は概要説明シーンの通し番号毎に、映像要約手段３が記録した詳細シーンの要約映像と、音声抽出手段４が記録した概要説明音声の長さとを合わせて合成し、概要説明シーンの通し番号の順に連結して、ＡＶ要約として記録媒体に出力する（図３ステップＳ４）。
【００４０】
各通し番号毎の合成処理において、要約映像が概要説明音声よりも長い場合には、概要説明音声の後ろに無音信号を付加することで長さを合わせればよい。要約映像が概要説明音声よりも短い場合には、概要説明音声と同じ長さになるまで、要約映像を繰り返せばよい。尚、出力するＡＶ要約の形式はＹＵＶデータとＰＣＭデータとを多重化した形式、ＹＵＶデータをＲＧＢ［Ｒ（赤），Ｇ（緑），Ｂ（青）］データに変換してＰＣＭデータと多重化した形式、ＹＵＶデータ、ＲＧＢデータ、ＰＣＭデータを圧縮して多重化したＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）等の圧縮形式等の様々な形式が利用可能である。
【００４１】
図４は図２に示す概要説明シーン検出手段２の動作を示すフローチャートである。これら図２及び図４を参照して、概要説明シーン検出手段２の動作について説明する。
【００４２】
人物検出手段２１はＡＶデータ入力手段１からＹＵＶデータを受取ると、各フレーム画像を３×３の小画像にほぼ等分に９分割し、それぞれの小画像毎に各ピクセルの輝度値のヒストグラムを生成する。
【００４３】
次に、人物検出手段２１はフレーム中央部の小画像の輝度ヒストグラムの各レベルの値を８倍したヒストグラムと、フレーム周辺部の８個の小画像のヒストグラムの各レベルの値をそれぞれ加算したヒストグラムとの差分値を計算し、その差分値が予め定められた閾値よりも大きい場合に対象フレーム画像の中央部に人の顔が検出されたことを記録する（図４ステップＳ１１）。ここで、ヒストグラムの差分値とは２つのヒストグラムの各レベル毎の値の差分の絶対値を、全てのレベルについて合計した値のことである。
【００４４】
テロップ検出手段２２はＡＶデータ入力手段１からＹＵＶデータを受取ると、各フレーム画像の下３分の１の領域について、予め定められた閾値Ａと閾値Ｂ（Ａ＞Ｂ）とを用いて、輝度値が閾値Ａ以上、もしくは輝度値が閾値Ｂ以下であるピクセルの個数をカウントし、そのピクセル個数が別の閾値Ｃ以上である場合に対象フレーム画像の下部にテロップが検出されたことを記録する（図４ステップＳ１２）。
【００４５】
人声検出手段２３はＡＶデータ入力手段１からＰＣＭデータを受取ると、映像の各フレームに対応する区間毎に、人声に対応する予め定められた周波数帯域の平均パワーを求め、それが予め定められた閾値以上である場合、対応するフレームに人声が検出されたことを記録する（図４ステップＳ１３）。ここで、特定の周波数帯域の信号を抽出するバンドパスフィルタ（図示せず）には既存の音声信号処理手法を適用すればよい。
【００４６】
概要説明シーン判定手段２４は、まず人物、テロップ、人声の全てが検出されているフレームを概要説明シーンの検出フレーム候補として記録する（図４ステップＳ１４）。続いて、概要説明シーン判定手段２４は概要説明シーンの検出フレーム候補に対して、非検出フレームの連続数が予め定められた閾値よりも短い場合に、その非検出フレームを検出フレームへと変更する（図４ステップＳ１５）。これはフラッシュ等によって瞬間的に人物が検出されなかった場合や、人声が息継ぎなどによって瞬間的に検出されなかった場合に、概要説明シーンが分断されないようにするためである。
【００４７】
最後に、概要説明シーン判定手段２４は概要説明シーンの検出フレーム候補に対して、予め定められた時間以下の連続した検出フレームを非検出フレームへと変更し、残った連続する検出フレームを概要説明シーンとして記録する（図４ステップＳ１６）。この処理は概要説明シーンが一般的に数秒間連続するものであるから、それ以下の短い検出フレーム区間は誤検出として排除するためである。
【００４８】
図５〜図９は本発明の一実施例によるＡＶコンテンツ自動要約システムの具体的な動作例を示す図である。これら図１と図５〜図９とを参照して本発明の一実施例によるＡＶコンテンツ自動要約システムの具体的な動作について説明する。
【００４９】
要約対象となる放送番組は、図５に示すように、１０分、１０分、５分、５分の長さの四つの個別ニュースから構成される３０分の報道番組であるとし、それぞれの個別ニュースの冒頭の１０秒でアナウンサによる概要説明がなされるとともに、個別ニュースのタイトルがテロップ文字として画面下部に表示されるものとする。
【００５０】
ＡＶデータ入力手段１は受信した信号を、映像を毎秒１０フレームのＹＵＶデータ、音声を毎秒１００００サンプルのＰＣＭデータにそれぞれ変換して記録する。
【００５１】
概要説明シーン検出手段２は、図６に示すように、第０フレームから第９９フレーム、第６０００フレームから第６０９９フレーム、第１２０００フレームから第１２０９９フレーム、第１５０００フレームから第１５０９９フレームの４区間を概要説明シーンのフレーム区間であると判断し、４要素の配列として記録する。
【００５２】
映像要約手段３は概要説明シーンに続く詳細シーンから２分周期で３秒間の映像を切り出して要約映像を生成するものとすると、図７に示すように、最初のニュースに対しては第１００フレームから第１２９フレーム、第１３００フレームから第１３２９フレーム、第２５００フレームから第２５２９フレーム、第３７００フレームから第３７２９フレーム、第４９００フレームから第４９２９フレームが要約映像に使われる区間として記録される。
【００５３】
２番目、３番目、４番目のニュースに対しても、上記と同様にして、要約映像に使われる区間が記録される。つまり、２番目のニュースに対しては第６１００フレームから第６１２９フレーム、第７３００フレームから第７３２９フレーム、第８５００フレームから第８５２９フレーム、第９７００フレームから第９７２９フレーム、第１０９００フレームから第１０９２９フレームが要約映像に使われる区間として記録される。
【００５４】
３番目のニュースに対しては第１２１００フレームから第１２１２９フレーム、第１３３００フレームから第１３３２９フレーム、第１４５００フレームから第１４５２９フレームが要約映像に使われる区間として記録される。
【００５５】
４番目のニュースに対しては第１５１００フレームから第１５１２９フレーム、第１６３００フレームから第１６３２９フレーム、第１７５００フレームから第１７５２９フレームが要約映像に使われる区間として記録される。
【００５６】
音声抽出手段４は概要説明シーン検出手段２が記録した概要説明シーンのフレーム区間に相当するＰＣＭデータのサンプル番号を、上述した式、
Ｐ＝Ｆ÷Ｒｆ×Ｒｐ
の式から算出する。
【００５７】
この場合、Ｒｆ＝１０、Ｒｐ＝１００００なので、概要説明音声のサンプル区間は、図８に示すように、第０サンプルから第９９９９９サンプル、第６００００００サンプルから第６０９９９９９サンプル、第１２００００００サンプルから第１２０９９９９９サンプル、第１５００００００サンプルから１５０９９９９９サンプルの４区間となり、それらが配列として記録される。
【００５８】
ＡＶ要約出力手段５は四つの個別ニュース毎に、映像要約手段３が生成した映像要約と音声抽出手段４が生成した概要説明音声とをその長さを合わせて合成し、それを通し番号順に連結する。図９に示すように、最初のニュースと２番目のニュースとでは要約映像が１５秒なのに対して概要説明音声が１０秒であるから、概要説明音声の終了後に５秒間の無音データを付加してから合成する。
【００５９】
それに対して３番目のニュースと４番目のニュースとでは、要約映像が９秒なのに対して概要説明音声が１０秒であるから、９秒の要約映像の後に再び先頭から１秒後までの映像を付加してから合成する。それらを通し番号順に連結すると、最終的に５０秒のＡＶ要約が生成される。
【００６０】
このように、要約映像と概要説明音声とを別々に生成した後にそれらを合成することによって、映像と音声とのそれぞれがニュース概要を把握するのに適した内容になっているので、視聴者がＡＶ要約を視聴した時によりニュースの概要を把握することが容易となる。
【００６１】
また、高速なＣＰＵ（中央処理装置）や大量のメモリを必要とする音声認識処理や自然言語理解等の高度な技術を使用せずに概要説明音声を生成することによって、概要説明音声の抽出処理の実現コストが小さくかつ高速なので、メモリ容量が小さいＰＣ（パーソナルコンピュータ）やＣＰＵ性能が高くないＰＣでも実現することができる。
【００６２】
さらに、概要説明音声としてアナウンサが実際に喋っている言葉をそのまま利用することによって、概要説明音声を自然で理解しやすい音声にすることができる。
【００６３】
図１０は本発明の他の実施例による概要説明シーン検出手段の詳細な構成を示すブロック図である。図１０において、概要説明シーン検出手段６は類似画像検索手段６１と、概要説明シーンデータベース（ＤＢ）６２と、概要説明シーン判定手段６３とから構成されている。
【００６４】
概要説明シーンデータベース６２は放送番組で用いられる概要説明シーンの映像のフレームサンプルを複数記録しており、サンプル毎にＹＵＶデータとして取出すことができる。
【００６５】
類似画像検索手段６１は複数のＡＶコンテンツ入力手段１から渡されるＹＵＶデータと、概要説明シーンデータベース６２が記録している概要説明シーンのサンプルとを比較し、概要説明シーンデータベース６２が記録する概要説明シーンのサンプルのどれかと類似性が高い場合に、そのフレームを概要説明シーンの候補として記録する。
【００６６】
上記の類似画像検索手段６１における類似画像検索手法としては、公知の様々な方法を適用することができる。例えば、フレームを構成するピクセル毎の色情報の差分をとり、その総和が閾値を超えるかどうかで判断する方法がある。また、フレームの輝度データ、色データ、それらを周波数変換した後の周波数成分等から生成されかつ元映像データよりサイズの小さい検索キー同士を比較する方法もあり、その場合にはデータベースの容量と処理時間とを短縮することができる。
【００６７】
概要説明シーン判定手段６３は、図４に示す本発明の一実施例の動作と比べて、概要説明シーンの候補フレームを類似画像検索手段６１によって検出することが異なる。候補フレームを検出した後、短い非検出区間を検出区間への変更し（図４ステップＳ１５）、短い検出区間を非検出区間に変更して概要説明シーンを決定する（図４ステップＳ１６）。
【００６８】
本実施例は要約対象となるＡＶコンテンツにおける概要説明シーンがある程度固定されており、かつ概要説明シーンのサンプルが予め入手可能な場合に、より高い精度で概要説明シーンを検出することができる。よって、最終的に出力されるＡＶ要約も、より内容を把握しやすいものになる。
【００６９】
例えば、報道番組におけるアナウンサによる概要説明シーンの構図は、数ヶ月以上にわって固定である場合が多いため、本実施例によって高精度のＡＶ要約を生成することができる。
【００７０】
尚、上述した実施例では、ＡＶコンテンツ入力手段１として放送を受信する例について述べたが、放送以外の記録メディアに蓄積されたＡＶコンテンツ、あるいはインタネット等を介して送られてくるＡＶコンテンツでも、上記の実施例と同様に、ＡＶ要約を生成することができる。
【００７１】
また、ＡＶコンテンツ入力手段１が記録するフォーマットとしてＹＵＶデータとＰＣＭデータとを例示したが、もちろん、他の様々なフォーマットでも、上記の実施例と同様に、ＡＶ要約を生成することができる。
【００７２】
一方、上述した実施例では概要説明シーン検出手段２，６として、人物検出とテロップ検出と人声検出とを組合わせる方法と、類似画像検索による方法とを例示したが、その他の方法を用いてもかまわない。例えば、放送電波に現在のシーンを特定する信号が重畳されており、概要説明シーンであることをその信号から判定することができる場合にはその信号を利用すればよい。
【００７３】
また、人物検出、テロップ検出、人声検出、類似画像検索の各手法の任意の組合わせでも実現することができる。さらに、話者識別技術によって概要説明を行う話者を検出する方法、「次のニュースです」等の話題区切りを音声認識によって認識し、それに続くシーンを概要説明シーンだと判断する方法等が考えられる。
【００７４】
上述した実施例では、人物検出手段２１として、画面中央部及び周辺部の輝度ヒストグラムを比較する方法を例示しているが、もちろん、その他の人物検出手法を適用することができる。例えば、その方法としては画面中央の９等分割画像に限らないことはもちろん、色情報の分布を調べる方法、目、鼻、口といった顔を構成する要素候補を検出してその位置関係及びその時間方向での動き量から人の顔を検出する方法等が考えられる。
【００７５】
また、テロップ検出手段２２として、輝度の高いピクセルと低いピクセルとの数をカウントする方法を例示しているが、もちろん、その他のテロップ検出手法を適用することができる。例えば、その方法としてはエッジの個数で判断する方法、エッジ点での輝度変化量が連続するエッジで対称になっているかどうかで判断する方法、エッジ分布密度が高い領域の形状で判断する方法等が考えられる。
【００７６】
さらに、人声検出手段２３として、バンドパスフィルタで特定周波数領域を取出す方法を例示しているが、もちろん、その他の人声検出方法を用いても構わない。例えば、その方法としては人声の各種特徴量の時間方向の変化パターンが予め登録しておいたパターンと類似しているかどうかで判断する方法、周波数スペクトルの分布形状が予め登録しておいたパターンと類似しているかどうかで判断する方法等が考えられる。
【００７７】
また、概要説明シーン判定手段２４で、概要説明シーン間の時間条件を設けて概要説明シーン間が閾値よりも短い場合には、どちらかの候補をキャンセルする方法や、番組中に比較的均等に分布するように選択する方法も考えられる。
【００７８】
上述した実施例では、映像要約手段３が概要説明シーンの後に続く映像を要約する例を示しているが、概要説明シーンのテロップ文字を映像として表示することはひとつの有効な要約手段であり、もちろん要約映像に概要説明シーンが含まれても構わない。
【００７９】
また、映像要約手段３として、一定周期毎に一定時間の映像を抜き出す方法を例示しているが、その他の映像要約手法を適用することができることはいうまでもない。例えば、その方法としては一定周期毎にフレームを抜き出してそのフレームを静止画として一定時間表示する方法、抜き出すフレーム周期や表示時間を内容に応じて変化させる方法、抜き出したフレームを縮小画像の一覧で表示する方法、映像の特徴量の変化点をシーンチェンジとして検出してその直後の映像を抜き出す方法、映像の時間方向での変化量に応じて映像の重要度を計算して重要度の高い映像を抜き出す方法等が考えられる。
【００８０】
要約ＡＶ出力手段５としては要約映像と概要説明音声とを多重化して記録媒体に記録する方法を例示しているが、その他にも、要約映像をディスプレイ上に表示すると同時に概要説明音声をスピーカ等の音声出力装置から再生する方法、要約映像と概要説明音声とを多重化して伝送路上に送信する方法等もある。
【００８１】
上述した実施例の動作では、概要説明シーン検出手段２、映像要約手段３、音声抽出手段４、ＡＶ要約出力手段５が逐次的に動作する場合を例示しているが、それらの手段の全てが、あるいは一部が平行して動作する場合も当然含まれる。
【００８２】
【発明の効果】
以上説明したように本発明によれば、少なくとも映像及び音声を含むＡＶコンテンツからそれらの映像及び音声の中の代表的な部分を選択して表示するＡＶコンテンツ自動要約システムにおいて、ＡＶコンテンツの中から代表的な部分の映像及び音声を別々に取出し、それらの映像及び音声を合成して出力することによって、より内容を把握しやすいＡＶ要約を生成することができるという効果がある。
【図面の簡単な説明】
【図１】本発明の一実施例によるＡＶコンテンツ自動要約システムの構成を示すブロック図である。
【図２】図１の概要説明シーン検出手段の詳細な構成を示すブロック図である。
【図３】本発明の一実施例によるＡＶコンテンツ自動要約システムの動作を示すフロートャートである。
【図４】図２に示す概要説明シーン検出手段の動作を示すフローチャートである。
【図５】本発明の一実施例によるＡＶコンテンツ自動要約システムの具体的な動作例を示す図である。
【図６】本発明の一実施例によるＡＶコンテンツ自動要約システムの具体的な動作例を示す図である。
【図７】本発明の一実施例によるＡＶコンテンツ自動要約システムの具体的な動作例を示す図である。
【図８】本発明の一実施例によるＡＶコンテンツ自動要約システムの具体的な動作例を示す図である。
【図９】本発明の一実施例によるＡＶコンテンツ自動要約システムの具体的な動作例を示す図である。
【図１０】本発明の他の実施例による概要説明シーン検出手段の詳細な構成を示すブロック図である。
【符号の説明】
１ＡＶデータ入力手段
２，６概要説明シーン検出手段
３映像要約手段
４音声抽出手段
５ＡＶ要約出力手段
２１人物検出手段
２２テロップ検出手段
２３人声検出手段
２４，６３概要説明シーン判定手段
６１類似画像検索手段
６２概要説明シーンデータベース

Claims

少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを検出する検出手段と、
前記検出手段で検出された概要説明シーンに続く詳細シーンの要約映像を生成する生成手段と、
前記検出手段で検出された概要説明シーンの音声のみを抽出する抽出手段と、
前記生成手段で要約映像と前記抽出手段で抽出された概要説明音声とを合成して出力する出力手段とを有することを特徴とするＡＶコンテンツ自動要約システム。
前記抽出手段は、各話題の冒頭部分の概要説明シーンの音声を抽出してそのまま利用するようにしたことを特徴とする請求項１記載のＡＶコンテンツ自動要約システム。
前記抽出手段は、前記報道番組の各個別ニュース冒頭部分のアナウンサによる概要説明シーンの音声を抽出してそのまま利用するようにしたことを特徴とする請求項１記載のＡＶコンテンツ自動要約システム。
前記検出手段は、映像情報の中の人物の検出と前記映像情報の中のテロップの検出と前記映像情報に伴う音声情報の中の人声の検出とを組合わせて前記概要説明シーンを検出するようにしたことを特徴とする請求項１から請求項３のいずれか記載のＡＶコンテンツ自動要約システム。
前記検出手段は、予め記録されている概要説明シーンのサンプルとの類似性を検出する類似画像検索を用いて前記概要説明シーンを検索するようにしたことを特徴とする請求項１から請求項３のいずれか記載のＡＶコンテンツ自動要約システム。
少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを含むコンテンツからＡＶ（ＡｕｄｉｏＶｉｓｕａｌ）要約を生成するＡＶコンテンツ自動要約システムであって、
前記コンテンツから前記概要説明シーンを検出しかつその概要説明シーンの開始フレーム番号及び終了フレーム番号の集合を前記概要説明シーンとともに記録する概要説明シーン検出手段と、
前記概要説明シーンに続く詳細シーンの要約映像を生成する映像要約手段と、
前記概要説明シーンの音声を概要説明音声として切出す音声抽出手段と、
前記音声抽出手段が生成した概要説明音声とその概要説明音声に対応する前記映像要約手段が生成した詳細シーンの要約映像との同期をとって前記ＡＶ要約として再生出力するＡＶ要約出力手段とを有することを特徴とするＡＶコンテンツ自動要約システム。
前記概要説明シーン検出手段は、前記コンテンツに対して人物検出とテロップ検出と人声検出とを行って前記概要説明シーンを検出するよう構成したことを特徴とする請求項６記載のＡＶコンテンツ自動要約システム。
前記概要説明シーン検出手段は、前記コンテンツに対して予め記録されている概要説明シーンのサンプルとの類似性を検出する類似画像検索を行って前記概要説明シーンを検出するよう構成したことを特徴とする請求項６記載のＡＶコンテンツ自動要約システム。
前記音声抽出手段は、各話題の冒頭部分の概要説明シーンの音声を抽出してそのまま利用するようにしたことを特徴とする請求項６から請求項８のいずれか記載のＡＶコンテンツ自動要約システム。
前記音声抽出手段は、前記報道番組の各個別ニュース冒頭部分のアナウンサによる概要説明シーンの音声を抽出してそのまま利用するようにしたことを特徴とする請求項６から請求項８のいずれか記載のＡＶコンテンツ自動要約システム。