JPH099202A - Index generation method, index generation device, indexing device, indexing method, video minutes generation method, frame editing method and frame editing device - Google Patents
Index generation method, index generation device, indexing device, indexing method, video minutes generation method, frame editing method and frame editing deviceInfo
- Publication number
- JPH099202A JPH099202A JP8142477A JP14247796A JPH099202A JP H099202 A JPH099202 A JP H099202A JP 8142477 A JP8142477 A JP 8142477A JP 14247796 A JP14247796 A JP 14247796A JP H099202 A JPH099202 A JP H099202A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- video
- frames
- preview
- icon
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Studio Circuits (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
(57)【要約】
【課題】 ビデオ場面内の高レベルのオブジェクトを利
用し、ビデオレコードの内容ベースの索引付けを実現す
る。
【解決手段】 フレームをサーチして見つけたニュース
アイコン320をビデオラベル1として記憶される。画
像内容を利用する場合、ニュースアイコン320の画像
内容に類似した画像内容を持つフレームがビデオラベル
1に索引付けされる。ニュースアイコン320はポニー
の絵を含むので、少なくともポニーの一部を含むフレー
ム406〜412が、そのビデオラベルに索引付けされ
る。アイコン320のテキスト内容(PONY TAL
E)や関連した音声内容も、索引付けすべきフレームの
類似判定に利用できる。
(57) Abstract: A high-level object in a video scene is used to realize content-based indexing of video records. A news icon 320 found by searching a frame is stored as a video label 1. When utilizing image content, frames with image content similar to the image content of news icon 320 are indexed into video label 1. Since the news icon 320 contains a picture of the pony, frames 406-412 containing at least a portion of the pony are indexed into the video label. Text content of icon 320 (PONY TAL
E) and related audio content can also be used to determine the similarity of frames to be indexed.
Description
【0001】[0001]
【発明の属する分野】本発明は、ビデオレコーディング
技術に係り、特に、ビデオレコードの索引生成、索引付
け及び編集のための技術に関する。FIELD OF THE INVENTION The present invention relates to video recording techniques, and more particularly to techniques for indexing, indexing and editing video records.
【0002】[0002]
【従来の技術】ビデオ技術は、テレビニュースビデオや
デスクトップテレビ会議のような応用分野でビデオデー
タベースが一般的になるほど進歩した。しかし、ビデオ
データベースの発展に伴い、ビデオデータベースから特
定のビデオ部分を検索するための、より一層効率的な方
法の必要性が増してきた。ビデオデータベースに対する
現在の検索方法の多くは、タイムスタンプ法を利用す
る。タイムスタンプ法では、人がある特定のビデオ部分
の日時を知っていれば、そのビデオ部分を検索すること
ができる。しかしながら、人はビデオ部分の内容につい
ては多少知っていたとしても、日時を知らないことが多
い。したがって、内容ベースのビデオ索引付け方法に対
する関心が高まっている。BACKGROUND OF THE INVENTION Video technology has advanced to the extent that video databases have become commonplace in applications such as television news videos and desktop video conferencing. However, with the development of video databases, there has been an increasing need for more efficient methods for retrieving specific video portions from video databases. Many of the current search methods for video databases utilize the time stamp method. Timestamping allows a person to search for a particular video portion if they know the date and time of that particular video portion. However, people often do not know the date and time, even if they know a little about the contents of the video part. Therefore, there is increasing interest in content-based video indexing methods.
【0003】既存の内容ベースの索引付け方法の中に
は、低レベル又は中間レベルのオブジェクト、例えば画
素または画素領域に類似(similarity)手法を適用する
ものがある。例えば、ある画素ベースの方法は、まず各
フレームを、輝度レベル毎の画素数を表すヒストグラム
に変換する。そして、そのヒストグラムに対し相関関数
のような類似手法を適用することにより、2フレームが
「一致する」か判定する。画素領域ベースの方法は、ま
ず、各フレームをいくつかの均一輝度レベルの画素領域
の形で表現し、次に、その表現をエンコードし、最後
に、エンコードされた表現に対し相似手法を適用する。
しかし、低レベル又は中間レベルのオブジェクトの認識
よりも、ビデオ場面内の高レベルのオブジェクトを直接
的に検索できるほうが好ましいかもしれない。例えば、
ユーザーが「赤いスポーツ車を含む全フレームの一覧表
を作成せよ」というような高レベルな照会を使ってビデ
オデータベースに照会できると効率的であろう。このよ
うな方法はブロードなコンテキストでは未だ無理である
が、コンテキストが限定されるとしても高レベルオブジ
ェクト認識を提供できれば望ましい。Some existing content-based indexing methods apply a similarity approach to low-level or intermediate-level objects, such as pixels or pixel regions. For example, one pixel-based method first converts each frame into a histogram that represents the number of pixels for each brightness level. Then, a similar method such as a correlation function is applied to the histogram to determine whether the two frames are “matched”. Pixel domain based methods first represent each frame in the form of several uniform intensity level pixel domains, then encode the representation and finally apply a similarity technique to the encoded representation. .
However, it may be preferable to be able to directly search for high-level objects in a video scene rather than recognizing low-level or mid-level objects. For example,
It would be efficient if the user could query the video database using a high level query such as "create a list of all frames including red sports cars". Such a method is still not possible in broad contexts, but it would be desirable to be able to provide high-level object recognition even if the context is limited.
【0004】ビデオデータベースの発展によってもたら
されたもう一つのことは、より効率的なビデオ編集方法
の必要性が増大したことである。ビデオデータベースの
利用により、ビデオ編集時にフィルムを物理的に切って
つなぐ必要は殆どなくなった。物理的に切ってつなぐの
ではなく、フレームを加工すべくコンピュータにコマン
ドを入力することにより、データベースに格納されてい
るビデオをコンピュータ上で電子的に編集することがで
きる。しかし、場合によっては、このような方法による
ビデオ編集は非現実的であったり、好ましくないかもし
れない。例えば、編集者はビデオが格納されているデー
タベースの近くに現実にいることができないかもしれな
いし、あるいは、編集者はコンピュータシステム又は適
当なソフトウエアを利用できないかもしれない。したが
って、編集者が、データベースに直接アクセスせずに、
データベースに格納されているビデオを効率的に編集で
きる編集手法を提供することが望まれる。特に、編集者
に、編集すべきフレームを表すハードコピーに編集コマ
ンドを手描きすることによるビデオ編集機能を提供し、
編集記号が記入されたハードコピーが自動的に解釈され
ることによって、その後に、また望むならば別の場所
で、ビデオが編集できると望ましい。Another thing that has been brought about by the development of video databases is the increasing need for more efficient video editing methods. With the use of video databases, there is little need to physically cut and splice films when editing videos. The video stored in the database can be electronically edited on the computer by entering commands into the computer to process the frames, rather than physically cutting them together. However, in some cases video editing in this way may be impractical or undesirable. For example, the editor may not be physically present near the database in which the video is stored, or the editor may not have access to a computer system or suitable software. Therefore, the editor can
It is desired to provide an editing method capable of efficiently editing the videos stored in the database. In particular, it gives editors the ability to edit video by hand-drawing edit commands on a hard copy that represents the frame to be edited,
It would be desirable if the video could be edited afterwards, and elsewhere if desired, by automatically interpreting the hard copy with the edit symbol.
【0005】[0005]
【発明が解決しようとする課題】よって、本発明の目的
は、以上に述べた従来技術の不十分な点を改善し、また
上述の要求に応えるため、新たな索引生成、索引付け、
ビデオ議事録生成及びフレーム編集の手段を提供するこ
とにある。SUMMARY OF THE INVENTION It is therefore an object of the present invention to remedy the deficiencies of the prior art mentioned above and to meet the above-mentioned needs by new index generation, indexing,
It is to provide means for video minutes generation and frame editing.
【0006】[0006]
【課題を解決するための手段】本発明によれば、音声及
び映像の内容を持つレコードの索引を生成する方法及び
装置が提供される。索引は複数のラベルからなる。レコ
ードは複数のフレームからなる。それらフレーム中の若
干数のフレームには、少なくとも複数のアイコン中の一
つがそれぞれ含まれる。この索引生成方法は、1)複数
のアイコンを使って複数のラベルを生成するステップ、
2)フレーム中で、複数のアイコン中の一つを含まない
各フレームを、その内容が複数のラベル中の一つに割り
当てられたアイコンの内容と一致するならば、そのラベ
ルに索引付けするステップからなる。According to the present invention, there is provided a method and apparatus for generating an index of records having audio and video content. The index consists of multiple labels. A record consists of multiple frames. Some of the frames include at least one of the plurality of icons. This index generation method includes 1) a step of generating a plurality of labels using a plurality of icons,
2) Indexing each frame in the frame that does not include one of the plurality of icons to that label if its content matches the content of the icon assigned to one of the plurality of labels. Consists of.
【0007】また、本発明によれば、人間の情動(affe
ct)を利用して、少なくとも1人の人間を描写している
映像内容を持つレコードの索引付けをする方法及び装置
も提供される。レコードは複数のフレームを持ち、それ
らフレーム中の若干数のフレームはそれぞれ、人間の複
数の情動中の一つを含んでいる。この方法は、1)複数
フレーム中のどのフレームがある情動を含んでいるか調
べるステップ、2)ある情動を描写するフレームをそれ
ぞれ、複数ラベル中の1つのラベル(1フレームにつき
1つ)として格納するステップ、3)フレーム中で、あ
る情動を描写する各フレーム毎に、そのフレームより生
成されたラベルに、そのフレームに対応する他のフレー
ムそれぞれを索引付けするステップからなる。Further, according to the present invention, human emotion (affe
Also provided is a method and apparatus for utilizing ct) to index records having video content depicting at least one person. A record has multiple frames, some of which are each one of a plurality of human emotions. This method includes 1) a step of checking which frame in a plurality of frames contains an emotion, and 2) storing each frame describing an emotion as one label (one per frame) in the plurality of labels. Step 3) For each frame that describes a certain emotion in the frame, the step of indexing the label generated from that frame with each of the other frames corresponding to that frame.
【0008】また、本発明によれば、テレビ電子会議の
レコードのビデオ議事録を生成する方法も提供される。
テレビ電子会議には複数の参加者がいる。レコードは複
数のフレームを持ち、それらフレーム中の若干数のフレ
ームはそれぞれ、参加者中の1人による複数の有意な動
きの中の一つの動きを描写する。この方法は、1)フレ
ーム中で、有意な動きを表す各フレームを複数のラベル
中の一つとして格納するステップ(有意な動きを表す各
フレームより一つのラベルが生成される)、2)フレー
ム中で、ある有意な動きを描写する各フレーム毎に、そ
のフレームから生成されたラベルに、そのフレームに対
応する他フレーム中の各フレームを索引付けするステッ
プからなる。According to the present invention, there is also provided a method of generating a video minutes of a video teleconference record.
A video conference has multiple participants. A record has multiple frames, and some of the frames each describe one of the multiple significant motions by one of the participants. In this method, 1) a step of storing each frame representing significant motion as one of a plurality of labels in the frame (one label is generated from each frame representing significant motion), 2) frame For each frame that describes some significant motion therein, the label generated from that frame indexes each frame in the other frames corresponding to that frame.
【0009】本発明によれば、記録されたニュース放送
の映像索引を生成する方法も提供される。記録されたニ
ュース放送は一定のプレビュー場面(footage)と関連
付けられている。記録されたニュース放送は複数のニュ
ースフレームからなる。プレビュー場面は複数のプレビ
ューフレームからなる。ニュースフレームとプレビュー
フレームは両方とも音声及び映像の内容を持つ。索引は
複数のラベルからなる。この方法は、1)プレビューフ
レームをメモリに格納するステップ、2)プレビューフ
レーム中で、プレビュー場面内で所定回数以上繰り返さ
れる各プレビューフレームを識別するステップ、3)プ
レビューフレーム中で、プレビュー場面内で所定回数以
上繰り返される各プレビューフレームから複数のラベル
を生成するステップからなる。According to the invention, there is also provided a method of generating a video index of a recorded news broadcast. Recorded news broadcasts are associated with certain preview footage. The recorded news broadcast consists of multiple news frames. The preview scene consists of multiple preview frames. Both news frames and preview frames have audio and video content. The index consists of multiple labels. This method comprises the steps of 1) storing the preview frame in memory, 2) identifying each preview frame in the preview frame that is repeated a predetermined number of times or more, and 3) in the preview frame, in the preview scene. The step of generating a plurality of labels from each preview frame repeated a predetermined number of times or more.
【0010】本発明によれば、ビデオレコードの複数の
フレームを編集する方法及び装置も提供される。それら
フレームはそれぞれ、静的ディスプレイ上に表示され
る。この方法は、1)静的ディスプレイを調べてユーザ
により手描きされた編集記号を探すステップ、2)静的
ディスプレイ上に手描きされた編集記号を認識するステ
ップ、3)編集コマンドを表す編集記号の表に基づい
て、静的ディスプレイ上に手描きされた編集記号それぞ
れを、複数の編集コマンド中の一つのコマンドに関連付
けるステップ、4)静的ディスプレイ上に手書きされた
編集記号に関連付けられた編集コマンドに従ってビデオ
レコードのフレームを修正するステップからなる。According to the present invention, there is also provided a method and apparatus for editing multiple frames of a video record. Each of those frames is displayed on a static display. This method comprises 1) examining the static display for a user-edited edit symbol, 2) recognizing the edit symbol hand-drawn on the static display, and 3) a table of edit symbols representing edit commands. Step 4, associating each edit symbol hand-painted on the static display with one command out of multiple edit commands, 4) Video according to the edit command associated with the edit symbol handwritten on the static display. It consists of modifying the frame of a record.
【0011】本発明の上記特徴及び他の特徴は、添付図
面及び以下の詳細な説明から明らかになろう。The above and other features of the present invention will be apparent from the accompanying drawings and from the detailed description which follows.
【0012】[0012]
【発明の実施の形態】以下、本発明による内容ベースの
ビデオ索引付け及び編集方法について説明する。以下の
記述においては、説明用に、本発明を十分理解できるよ
う多くの具体例が提示される。しかし、それらの具体例
によらずに本発明を実施し得ることは当業者には明白で
あろう。他方、周知の構造及び装置は、本発明をいたず
らに難解にしないためブロック図として表される。DETAILED DESCRIPTION OF THE INVENTION A content-based video indexing and editing method according to the present invention will now be described. In the following description, for purposes of explanation, numerous specific examples are set forth in order to provide a thorough understanding of the present invention. However, it will be apparent to one skilled in the art that the present invention may be practiced without depending on those specific examples. On the other hand, known structures and devices are presented as block diagrams in order not to unnecessarily obscure the present invention.
【0013】以下の記述において、”ビデオ”なる用語
が頻繁に使用される。本明細書において、”ビデオ”な
る用語は、連続して素早く表示されると被写体の動きや
他のアニメーションを表現する、関連した画像の時間順
シーケンスと定義される。このようなシーケンスは普
通、動画と呼ばれる。In the following description, the term "video" is frequently used. As used herein, the term "video" is defined as a time-ordered sequence of related images that, when displayed in rapid succession, represent subject motion or other animation. Such sequences are commonly called moving pictures.
【0014】図1は本発明が実施されるコンピュータシ
ステム1を示す。このコンピュータシステム1は中央処
理装置(CPU)10、メモリ20、データ記憶装置3
(例えば磁気ディスク、CD−ROM)、プリンタ4
0、デジタルビデオチップ(DVC)50、ビデオモニ
ター60、キーボード70、マウス80、スキャナ9
0、ビデオ入力装置(VIU)100をシステムバス1
10により結合してなる。VIU100は、図3に示さ
れるように、ビデオソースであるレーザーディスクプレ
イヤー120、ビデオカメラ140及びビデオカセット
レコーダー(VCR)130、又は信号RSを送出する
リモートソースよりビデオデータを受け取るフレームグ
ラバー(grabber)150を含む。このリモートソース
は、例えば、RFソース(テレビケーブル又はアンテナ
等)又はISDNソースである。メモリ20は、図2に
示されるように、個別のフレームにフォーマットされた
ビデオデータを記憶する。図3において、フレームグラ
バー150はVCR130、ビデオカメラ140、レー
ザーディスクプレイヤー120又はリモートソースより
ビデオデータを受け取り、そのデータを個々のフレーム
にフォーマットし、フォーマットしたビデオデータをシ
ステムバス110を介してメモり20へ与える。本発明
は、データ記憶装置30に格納されたソフトウエアコー
ドによって実施されても、図1にDVC50として示さ
れている専用チップにより実施されてもよい。以下にさ
らに述べるように、マウス80は、ライトペン、スタイ
ラス、トラックボール等の他の同等なカーソル制御装置
で置き換えられてもよい。また、タッチスクリーンを持
つモニターを用いることにより、モニター60とマウス
80の特定機能が結合されてもよい。FIG. 1 shows a computer system 1 in which the present invention is implemented. The computer system 1 includes a central processing unit (CPU) 10, a memory 20, and a data storage device 3.
(Eg magnetic disk, CD-ROM), printer 4
0, digital video chip (DVC) 50, video monitor 60, keyboard 70, mouse 80, scanner 9
0, video input device (VIU) 100 to system bus 1
It is connected by 10. As shown in FIG. 3, the VIU 100 is a frame grabber that receives video data from a laser disk player 120, a video camera 140 and a video cassette recorder (VCR) 130 that are video sources, or a remote source that sends a signal RS. Including 150. This remote source is, for example, an RF source (such as a television cable or an antenna) or an ISDN source. The memory 20, as shown in FIG. 2, stores video data formatted into individual frames. In FIG. 3, the frame grabber 150 receives video data from the VCR 130, the video camera 140, the laser disc player 120 or a remote source, formats the data into individual frames, and stores the formatted video data via the system bus 110. Give to 20. The present invention may be implemented by software code stored in data storage device 30 or by a dedicated chip shown as DVC 50 in FIG. As described further below, mouse 80 may be replaced with other equivalent cursor control devices such as light pens, styli, trackballs, and the like. Moreover, the specific functions of the monitor 60 and the mouse 80 may be combined by using a monitor having a touch screen.
【0015】本発明は、テレビニュース放送の音声映像
レコードに適用可能である。図4は、あるテレビ局によ
る放送の数時間分の時間割を示す。この放送はメインニ
ュース放送200で終わる。このメインニュース放送2
00の前に、番組A、番組B及び番組Cのような様々な
番組(放送)210が組み入れられている。各番組21
0の間に、コマーシャル212が差し込まれている。さ
らに、各番組210の前に、約10秒から30秒までの
長さで、ニュースアンカー(ニュースを伝える人)が
「11時のニュースの時間です ...」で始まる言い
回しを話すことが特徴の、短いニュースプレビュー21
4がある。メインニュース放送200の前には、アンカ
ーによるヘッドライン216のアナウンスもある。The present invention is applicable to audiovisual records for television news broadcasts. FIG. 4 shows a timetable for several hours of broadcasting by a television station. This broadcast ends with the main news broadcast 200. This main news broadcast 2
Before 00, various programs (broadcast) 210 such as program A, program B, and program C are incorporated. Each program 21
Between 0, the commercial 212 is inserted. In addition, in front of each program 210, the news anchor (the person who conveys the news) has a length of about 10 to 30 seconds and speaks a phrase that starts with "11 o'clock news time ...". A short news preview of 21
There are four. Before the main news broadcast 200, there is also an announcement of the headline 216 by the anchor.
【0016】ニュースビデオは、一定の高レベルのオブ
ジェクトを容易に認識できる比較的狭いコンテキストを
提供する。さて、図5に、ニュース放送のフレーム30
0が示されている。このフレーム300は高レベルのオ
ブジェクト、すなわちニュースアイコン320、アンカ
ー330及びニュースロゴ340からなっている。ニュ
ースアイコン320は、その後に続くニュースのテーマ
を絵で示すものである。これらの高レベル・オブジェク
トは、ニュースビデオのコンテキストに頻出し、また、
フレーム内の予測可能な位置に出現するため、比較的簡
単に検出できる。その検出は、一般に、各オブジェクト
に関連した大体のオブジェクト領域(ROR)310を
サーチすることによりなされる。ビデオ索引付けの分野
で周知の多くのオブジェクト検出法が存在するが、その
いずれかにより検出を行うことができる。News videos provide a relatively narrow context in which certain high-level objects can be easily recognized. Now, referring to FIG. 5, a news broadcast frame 30
0 is shown. This frame 300 consists of high-level objects: news icon 320, anchor 330 and news logo 340. The news icon 320 is a pictorial representation of the news theme that follows. These high-level objects often appear in the context of news videos, and
Since it appears at a predictable position in the frame, it can be detected relatively easily. The detection is typically done by searching the approximate object region (ROR) 310 associated with each object. There are many object detection methods well known in the field of video indexing, any of which can be used for detection.
【0017】ニュースアイコン 第1の実施例は、ニュースビデオの索引付けのためにニ
ュースアイコンを利用する。これは、ニュース放送の重
要なテーマの前に関連したニュースアイコンが出るのが
普通であり、このニュースアイコンは通常、図5に示す
ようにアンカー330の顔の隣に表示されるとの仮定に
基づいている。図6は、フレーム401〜416からな
るニュースビデオのフレームシーケンスを表している。
フレーム401,402,405はそれぞれニュースア
イコン320を描写しているが、このニュースアイコン
はポニーを描写するとともにテキスト”PONY TA
LE”を含む。ニュースアイコン320はフレーム40
6〜412に描写されるポニーに関するニュースに関連
している。同様に、フレーム403,404は、帽子を
かぶった男を描写したニュースアイコン321を含んで
いる。このニュースアイコン321はフレーム414〜
416の内容に関連している。本発明によれば、ニュー
スアイコンを探すため、入手できるニュース場面(すな
わちフレーム404〜416)がサーチされる。見つか
った各ニュースアイコンは”ビデオラベル”に選ばれ、
これに他のフレームが索引付けされる。本記述におい
て、索引付けとは、一定のフレームの音声、映像又はそ
の両方の内容と特定のビデオラベルとの間に、そのビデ
オラベルを参照することにより、ある決まった方法でそ
の内容を検索できるような対応関係を作ることと定義さ
れる。ビデオラベルはテキストのサーチに利用されるキ
ーワードに類似している。News Icon The first embodiment utilizes a news icon for indexing news videos. This is usually based on the assumption that the relevant news icon appears in front of an important theme of the news broadcast, and that this news icon is usually displayed next to the face of the anchor 330, as shown in FIG. Is based. FIG. 6 shows a frame sequence of a news video composed of frames 401 to 416.
Frames 401, 402, 405 each depict a news icon 320, which depict a pony and the text "PONY TA.
LE "is included. News icon 320 is frame 40
Related to the news about ponies depicted in 6-412. Similarly, frames 403 and 404 include a news icon 321 depicting a man wearing a hat. This news icon 321 is in the frame 414-
416 content. In accordance with the present invention, available news scenes (ie, frames 404-416) are searched for a news icon. Each news icon found is selected as a "video label",
Other frames are indexed to this. In this description, indexing refers to the content of a certain frame of audio, video, or both, and a specific video label, so that the content can be searched in a certain method by referring to the video label. It is defined as creating such a correspondence. Video labels are similar to the keywords used to search for text.
【0018】ニュースアイコンをサーチした後、周知の
類似法を使って残りのフレームをビデオラベルに索引付
けする。利用し得る類似法の例は、相関関数又は主要成
分分析である。そして、各ビデオラベル(ニュースアイ
コン)を拡大して表すアイコンサマリーが生成される。
図7はアイコンサマリー345の一例であり、これはビ
デオラベル350〜359を表し、その中のビデオラベ
ル350,351はそれぞれニュースアイコン320,
321に相当する。このアイコンサマリー345はプリ
ンタ40を用いてハードコピーに印刷したり、モニター
60に表示したり、あるいはその両方をすることができ
る。After searching for the news icon, the remaining frames are indexed into the video label using well known analogy. Examples of similar methods that can be used are correlation functions or principal component analysis. Then, an icon summary in which each video label (news icon) is enlarged and displayed is generated.
FIG. 7 shows an example of the icon summary 345, which represents video labels 350 to 359, in which the video labels 350 and 351 are news icons 320 and 352, respectively.
It corresponds to 321. The icon summary 345 can be printed on a hard copy using the printer 40, displayed on the monitor 60, or both.
【0019】図8はニュースアイコンに基づいてニュー
スビデオを索引付けする方法600を示すフローチャー
トである。図6と図8を参照し、方法600をフレーム
401〜416に関連して説明する。まず、サーチすべ
きビデオの最初のフレームがメモリ20より取り出され
る(ステップ602)。ニュースアイコンがないかフレ
ーム401をサーチすると(ステップ604)、ニュー
スアイコン320がフレーム401で検出される。そこ
で、ニュースアイコン320はビデオラベル350とし
てメモリ20に格納される(ステップ618)。つい
で、残りのフレーム402〜416について、その内容
がニュースアイコン320の内容と一致するか周知の類
似法により調べられる(ステップ620〜624)。あ
るフレームの内容がニュースアイコン320の内容と一
致すると、そのフレームはビデオラベル350(すなわ
ちニュースアイコン320)に索引付けされる。図6を
参照すると、ニュースアイコン320はポニーの絵を含
んでいるので、類似法を適用すると、少なくともポニー
の一部を表しているフレーム406〜412はニュース
アイコン320の内容との高い類似度が割り当てられる
ことになろう。フレーム402〜416のそれぞれに類
似法が適用された後、別のニュースアイコンが存在する
か調べるためフレーム401〜416が再びサーチされ
る。フレーム403を調べた時に、帽子をかぶった男を
表すニュースアイコン321が検出され、ビデオラベル
351として格納される。再び、類似法が利用され、そ
の結果、帽子をかぶった男を表すフレーム414〜41
6にニュースアイコン321の内容との高い類似度が割
り当てられる。結果として、フレーム406〜412は
ニュースアイコン320に対応するビデオラベル350
に索引付けされ、その一方、フレーム414〜416は
ニュースアイコン321に対応するビデオラベル351
に索引付けされる。FIG. 8 is a flow chart illustrating a method 600 for indexing news videos based on news icons. The method 600 will be described with reference to FIGS. 6 and 8 in connection with frames 401-416. First, the first frame of the video to be searched is retrieved from memory 20 (step 602). When the frame 401 is searched for the news icon (step 604), the news icon 320 is detected in the frame 401. Therefore, the news icon 320 is stored in the memory 20 as the video label 350 (step 618). Then, the remaining frames 402 to 416 are examined by the well-known similar method to see if their contents match the contents of the news icon 320 (steps 620 to 624). If the content of a frame matches the content of news icon 320, the frame is indexed into video label 350 (ie, news icon 320). Referring to FIG. 6, since the news icon 320 includes a picture of a pony, applying the similarity method, the frames 406 to 412 representing at least a part of the pony have a high similarity with the content of the news icon 320. Will be assigned. After applying a similar method to each of frames 402-416, frames 401-416 are searched again to see if another news icon is present. When examining frame 403, a news icon 321 representing a man wearing a hat is detected and stored as a video label 351. Again, a similar method is used, resulting in frames 414-41 representing a man wearing a hat.
6 is assigned a high degree of similarity with the content of the news icon 321. As a result, frames 406-412 are video labels 350 corresponding to news icons 320.
, While frames 414-416 correspond to the video icon 351 corresponding to the news icon 321.
Indexed.
【0020】しばしば、一定のフレームの映像内容それ
自体は、ニュースに関連したニュースアイコンの内容と
はっきりとは関係がない。そのような場合、フレームの
映像内容だけを調べる類似法では、そのフレームを適当
なニュースアイコンに索引付けすることができないであ
ろう。しかし、そのようなフレームに関連した音声内容
は、普通は、視聴者にとってニュースのテーマの映像内
容と結びついている。実際には、音声内容はニュースア
イコン中のテキストと密接に対応した言葉を含んでいる
であろう。したがって、ここで述べる方法は、映像だけ
でなく、ニュースビデオに関連した音声、それと利用で
きるならばテキストも利用する。テキストは、聴力障害
者のための字幕もしくはクローズド・キャプション(C
losedCaption)サービス及びニュースワイヤ(newswir
e)サービスを提供するためにしばしば利用される。し
たがって、ビデオの任意のフレームは3つの形態、つま
り映像、音声及びテキストを持つ可能性がある。類似法
の利用により、あるフレーム中の映像のポニー(CV)
が検出されなかったときは、音声とテキストが内容一致
を検出するための補助的な基準として用いられる。Often, the video content of a given frame itself is not explicitly related to the content of news icons associated with news. In such cases, a similar method of examining only the video content of a frame would not be able to index that frame to the appropriate news icon. However, the audio content associated with such frames is usually associated with the viewer's news-themed video content. In reality, the audio content will contain words that closely correspond to the text in the news icon. Thus, the method described here utilizes not only video, but also audio associated with news videos and, where applicable, text. The text should be subtitles or closed captions (C
Lossed Caption service and news wire (newswir)
e) Often used to provide services. Therefore, any frame of video can have three forms: video, audio and text. Pony (CV) of video in a frame by using similar method
If is not detected, the voice and text are used as ancillary criteria for detecting content match.
【0021】図9は、フレーム701〜707と、ポニ
ーを描写するニュースアイコン320を示す。ここで、
方法600により、ニュースアイコン320の内容Cと
一致するものを探すためにサーチが行われているとす
る。ニュースアイコン320はポニーの絵を含んでいる
ので、ポニーを表しているフレーム701〜707のど
の映像内容も”Cv”として表現できる。同様に、フレ
ーム701〜707に関連した音声内容中に発せられる
単語”PONY”は”CA”により表現できる。フレー
ム701〜707のテキスト内容中に出現する単語”P
ONY”を”CT”により表現できる。図9のフレーム
701〜707のどれにもCV,CA又はCTが存在する
ということは、それらフレーム中に映像、音声又はテキ
ストの”PONY”がそれぞれ存在することを意味す
る。よって、図9において、フレーム701,702,
707はポニーの映像のみならず、”PONY”及び/
又は”TALE”なる単語の音声及びテキストを含んで
いる。フレーム704,705はポニーの映像だけを含
んでいるのに対し、フレーム706は”PONY”もし
くは”TALE”又はその両方の単語の音声だけを含ん
でいる。FIG. 9 shows frames 701-707 and a news icon 320 depicting a pony. here,
It is assumed that method 600 is searching for a match with content C of news icon 320. Since the news icon 320 includes the picture of the pony, any video content of the frames 701 to 707 representing the pony can be expressed as "Cv". Similarly, the word "PONY" emitted in the audio content associated with frames 701-707 can be represented by "CA". The word "P" that appears in the text content of frames 701-707
ONY "can be represented by" CT ". The presence of CV, CA or CT in any of the frames 701 to 707 in FIG. 9 means that there is a video, audio or text" PONY "in each of those frames. Therefore, in FIG.
707 is not only the video of the pony, but also "PONY" and /
Or it contains the voice and text of the word "TALE". Frames 704 and 705 contain only the pony image, while frame 706 contains only the audio of the words "PONY" and / or "TALE".
【0022】マルチモーダル(multi-modal)の内容検出
法の概要が図10のフローチャートに示されている。ま
ず、あるフレームにポニーの映像が存在するか判定する
ために類似法が適用される(ステップ802)。その結
果、対象フレームの映像内容とニュースアイコンの映像
内容との間の類似度を表す値SVが生成される。この類
似度SVがある閾値を超えるときには(ステップ80
4)、内容は一致する(ステップ806)。この場合、
今調べているフレームはニュースアイコンに対応すると
思われるので、そのフレームは対応したビデオラベルに
索引付けされる(ステップ806)。類似度SVが閾値
を超えないときには(ステップ804)、調べているフ
レームの音声内容が、任意の既存のスピーチ・テキスト
変換方法によってテキストに変換される(ステップ80
7)。次に、対象フレームの変換された音声内容及びす
べてのテキスト内容がニュースアイコンに含まれるすべ
てのテキストと比較されることにより、音声の類似度S
A及びテキストの類似度STがそれぞれ決まる(ステップ
808)。必要ならば、SA,STを生成する際の比較
は、対象フレームの音声及びテキストの内容がニュース
アイコンのすべてのテキストとだけでなく、ニュースア
イコンを含むフレームの全ての音声内容(テキストへ変
換された)又はテキスト内容と比較されるように拡張し
てもよい。例えば、ニュースアイコン自体がテキストを
全く含まない場合に、ニュースアイコンを含むフレーム
の音声内容(テキストに変換された)又はテキスト内容
を利用できる。An overview of the multi-modal content detection method is shown in the flow chart of FIG. First, a similarity method is applied to determine if a pony image is present in a frame (step 802). As a result, a value SV representing the degree of similarity between the video content of the target frame and the video content of the news icon is generated. When the similarity SV exceeds a certain threshold (step 80
4), the contents match (step 806). in this case,
Since the frame currently being examined appears to correspond to the news icon, that frame is indexed into the corresponding video label (step 806). When the similarity SV does not exceed the threshold value (step 804), the voice content of the frame being examined is converted into text by any existing speech / text conversion method (step 80).
7). Next, the converted voice content and all the text content of the target frame are compared with all the texts included in the news icon to obtain the voice similarity S.
The similarity ST of A and the text is determined (step 808). If necessary, the comparison when generating SA and ST is performed so that the audio and text contents of the target frame are not only all the text of the news icon but also all the audio contents of the frame containing the news icon (converted to text ) Or may be extended to be compared with the text content. For example, if the news icon itself does not contain any text, the audio content (converted to text) or text content of the frame containing the news icon may be utilized.
【0023】再び図9を参照する。ニュースアイコン3
20は単語”PONTY TALE”を含んでいるの
で、ビデオ場面をサーチして同様内容を探す時に、対応
フレームの音声及びテキストは単語”PONY”及び単
語”TALE”と一致比較されることになろう。そし
て、各フレームの映像、音声及びテキスト内容の類似度
SV,SA,STに重み値WV,WA,WTがそれぞれ割り当
てられる(ステップ810)。よって、重み付けした類
似度を結合することにより、ニュースアイコンの内容と
対象フレームの内容との全体的な類似度を決定すること
ができ、この全体的類似度が閾値と比較される(ステッ
プ810)。全体的類似度が所定の閾値を超えないとき
には、一致が検出されず対象フレームはニュースアイコ
ンに対応したビデオラベルに索引付けされない(ステッ
プ812)。閾値を超えたときには、一致が検出され、
対象フレームはニュースアイコンを表すビデオラベルに
索引付けされる(ステップ806)。Referring again to FIG. News icon 3
Since 20 contains the word "PONTY TALE", when searching a video scene for similar content, the audio and text of the corresponding frame will be matched and compared with the words "PONY" and "TALE". . Then, the weight values WV, WA, and WT are assigned to the similarities SV, SA, and ST of the video, audio, and text contents of each frame (step 810). Therefore, by combining the weighted similarities, the overall similarity between the content of the news icon and the content of the target frame can be determined, and this overall similarity is compared with the threshold value (step 810). . If the overall similarity does not exceed the predetermined threshold, then no match is detected and the frame of interest is not indexed to the video label corresponding to the news icon (step 812). When the threshold is exceeded, a match is detected,
The frame of interest is indexed into the video label representing the news icon (step 806).
【0024】情緒的索引付け 以下に述べる方法は”情緒的(affective)索引付け”
と呼ばれる。この方法は、人は話している時や話を聞い
ている時に様々な身振りをしたり、表情を変えたり、声
の大きさを変えたり、あるいは、それらの振る舞いを同
時にしがちであることを利用する。これらの振る舞い
は”情動(affects)”と呼んでよいであろう。ここ
で、”情動”とは、自分の気分や他人に対する反応を示
し、あるいは人の話の内容と密接に対応する人の動作又
は反応のことである。ある音声映像レコードに一定の情
動が存在するということは、その情動が現れるフレーム
のすぐ後に有意な情報が来るということを暗示する。よ
って、情緒的索引付けにおいては、音声映像レコードに
捕捉された人の情動が識別されてレコードの索引付けに
利用されるが、これについて以下に詳細に述べる。Emotional Indexing The method described below is "affective indexing".
Called. This method suggests that people tend to make various gestures, change their facial expressions, change their loudness, or both at the same time when they are talking or listening. To use. These behaviors may be called "affects". Here, "emotion" refers to a person's action or reaction that indicates his / her mood or reaction to another person, or closely corresponds to the content of a person's story. The presence of constant emotion in an audiovisual record implies that significant information comes immediately after the frame in which the emotion appears. Thus, in emotional indexing, the human emotions captured in the audiovisual records are identified and used to index the records, which is described in detail below.
【0025】情緒的索引付けは、1人の話者のレコード
の索引付けに利用できる。しかし、情緒的索引付けは、
二人以上の参加者間のテレビ電子会議のレコードに適用
された時に特に効果的であろう。つまり、情緒的索引付
けをテレビ電子会議の索引付けに用いると、その会議
の”ビデオ議事録”に相当する映像索引を得られる。映
像レコードに関連した音声レベルの変化の検出や2つの
ビデオフレーム間の相対的動き(表情の変化や身振り
等)の検出のための技術には、いくつもの公知の手法が
存在している。そのような手法の詳細は、本発明を理解
する目的には重要ではないので、ここでは説明しない。
そのような公知の手法の一つが、上に述べたような情動
を含んでいる電子会議ビデオのフレームを識別するため
に使用される。そして、そのようなフレームはビデオラ
ベルとして用いられ、これに残りのフレームが索引付け
される。そして、ビデオラベルとして利用されるフレー
ムを表す図7に示したものと同様なサマリー(summary)
が、ハードコピーとして又はモニター60上に生成され
る。このサマリーは電子会議の”ビデオ議事録”として
利用できる。すなわち、このサマリーは、文書の”議事
録”が会議や集会の記録を提供するために一般に利用さ
れるのと同じような方法で、電子会議の重要な瞬間や出
来事を提供する。Emotional indexing can be used to index the records of one speaker. But emotional indexing is
It would be particularly effective when applied to a videoconference record between two or more participants. That is, if emotional indexing is used for indexing a videoconference, a video index corresponding to the "video minutes" of the conference can be obtained. There are several known techniques for detecting changes in audio level associated with video records and for detecting relative movement between two video frames (such as changes in facial expressions and gestures). The details of such an approach are not important here for the purpose of understanding the invention and are therefore not described here.
One such known technique is used to identify frames of a teleconferencing video that contain emotions as described above. Then, such a frame is used as a video label to which the remaining frames are indexed. Then, a summary similar to that shown in FIG. 7, which represents a frame used as a video label.
Are generated as a hard copy or on the monitor 60. This summary can be used as the "video minutes" for the teleconference. That is, this summary provides important moments and events of the teleconference, in a manner similar to how the "minutes" of a document are commonly used to provide records of meetings and gatherings.
【0026】図11は、電子会議ビデオを索引付けして
ビデオ議事録を生成する本方法900の概要を示す。ま
ず、一つのフレームがメモリ20より取り出される(ス
テップ902)。取り出されたフレームは、公知の検出
手法によって、情動の存在を検出するためサーチされる
(ステップ904)。本方法900において探索される
情動は被写体である人間の何らかの動きであるが、前に
言及したように音声レベルの有意な変化を識別するよう
に探索を拡張することも容易であろう。ある有意な動き
が見つかると(ステップ906)、それが見つかったフ
レームがビデオラベルとして利用される(ステップ91
0)。データファイルの最後のフレームまで達していな
ければ(ステップ914)、次のフレームが取り出され
(ステップ916)、有意な動きがないか調べられる
(ステップ904)。このフレームとその前のフレーム
との間に意味のある変化が検出されなければ、すなわち
有意な動きが検出されなければ(ステップ906)、そ
のフレームは最も最近選ばれたビデオラベルに索引付け
される(ステップ912)。しかし、そのフレームが新
たな有意な動きを含んでいるときには、その有意な動き
を含むフレームから新たなビデオラベルが生成される
(ステップ910)。したがって、異なった有意な動き
を含む2つのフレームの間にある全てのフレームは、そ
の2フレーム中の一つ目のフレームより作られたビデオ
ラベルに索引付けされる。フレーム全部がビデオラベル
の生成のために利用されるか、あるいはビデオラベルに
索引付けされたならば、ビデオラベルのサマリーが電子
会議のビデオ”議事録”として生成される(ステップ9
18)。FIG. 11 shows an overview of the method 900 for indexing teleconference videos to generate video minutes. First, one frame is fetched from the memory 20 (step 902). The retrieved frames are searched for the presence of emotion by known detection techniques (step 904). Although the emotion searched for in the method 900 is some movement of the human being, the subject, it would be easy to extend the search to identify significant changes in audio level, as mentioned previously. When a significant motion is found (step 906), the frame in which it is found is used as a video label (step 91).
0). If the last frame of the data file has not been reached (step 914), the next frame is retrieved (step 916) and examined for significant motion (step 904). If no meaningful change is detected between this frame and the previous frame, ie no significant motion is detected (step 906), the frame is indexed to the most recently selected video label. (Step 912). However, if the frame contains new significant motion, a new video label is generated from the frame containing the significant motion (step 910). Therefore, all frames between two frames that contain different significant motion are indexed to the video label made from the first of the two frames. If the entire frame is used for video label generation or indexed into video labels, a video label summary is generated as a video "minutes" of the teleconference (step 9).
18).
【0027】この索引付け方法900は、アテンション
・ドリブン(attention-driven)索引付けと呼ばれる別
種の索引付けと組み合わせることもできる。アテンショ
ン・ドリブン索引付けは、テレビ電子会議における二人
以上の参加者による有意な動きは、しばしば有意な情報
のやり取りと時間的に密接に関連しているという事実に
基づくものである。テレビ電子会議は、別々の参加者に
焦点を合わせた複数のカメラを使って記録されるであろ
う。したがって、図12に複数のソースによる電子会議
のビデオが同時に表示された画面950を示す。図12
において、ウインドウ961〜964はそれぞれ記録し
た参加者965〜968の映像を表示する。アテンショ
ン・ドリブン索引付けによれば、参加者965〜968
の1人1人について、その動きの大きさと方向を示す動
きベクトルが周期的に計算される。ある時点における二
人以上の参加者に関連した動きベクトル間の類似度が高
ければ、それら参加者による”同調した(coherent)動
き”を意味する。(2つ以上のソースに関連した)2つ
以上の同時点のビデオフレームにおける同調した動きの
発生が、残りのフレームを索引付けするために利用され
る。つまり、その同調した動きと一致するウインドウ9
61,962,963又は964に表された同時点フレ
ームのどれからビデオラベルを生成してもよい。ビデオ
ラベルのサマリーは、前述の方法により生成できる。This indexing method 900 can also be combined with another type of indexing called attention-driven indexing. Attention-driven indexing is based on the fact that significant movements by two or more participants in video teleconferencing are often closely related in time to significant information exchange. Video teleconferencing will be recorded using multiple cameras focused on different participants. Accordingly, FIG. 12 shows a screen 950 where video of a teleconference from multiple sources is displayed simultaneously. FIG.
In, windows 961 to 964 display the recorded images of participants 965 to 968, respectively. Participants 965-968 according to attention driven indexing
A motion vector indicating the magnitude and direction of the motion is periodically calculated for each person. A high degree of similarity between motion vectors associated with two or more participants at a given time means "coherent motion" by those participants. The occurrence of synchronized motion in two or more simultaneous point video frames (associated with more than one source) is used to index the remaining frames. That is, the window 9 that matches the synchronized movement
The video label may be generated from any of the simultaneous point frames represented at 61, 962, 963 or 964. The video label summary can be generated by the method described above.
【0028】プレビュー索引付け 本発明による3番目の方法は、図4に示したプレビュー
場面214を利用する。この方法の基礎となっているの
は、プレビュー場面214が概して数時間にわたりメイ
ンニュース放送200に先行して繰り返されるものであ
ること、したがって、頻繁に繰り返されるフレームが、
他のフレームが索引付けされるビデオラベルとして利用
される、ということである。このビデオラベルは、プレ
ビュー場面214又はメインニュース放送(場面)20
0、あるいは、その両方の他のフレームの索引付けに利
用することができる。Preview Indexing A third method in accordance with the invention utilizes the preview scene 214 shown in FIG. The basis of this method is that the preview scene 214 is generally repeated prior to the main news broadcast 200 over a period of several hours, and thus the frequently repeated frames are
That is, other frames are used as indexed video labels. This video label is used for preview scene 214 or main news broadcast (scene) 20.
It can be used to index other frames of zero, or both.
【0029】図13は、プレビュー場面214を使って
メインニュース放送200を索引付けする方法1100
の概要を示すフローチャートである。あるプレビューフ
レームが公知の類似法により残りのプレビュー場面と比
較される(ステップ1104)。そして、内容”一致”
の数が所定の閾値と比較される(ステップ1106)。
その一致数が閾値を超えたならば、そのフレームはビデ
オラベルとして利用される(ステップ1108)。その
フレームに関連し、かつそのフレームのすぐ後に続くテ
キスト又は音声をセーブし、そのビデオラベルに索引付
けすることができる。次に、メインニュース放送(場
面)200のフレームが、ビデオラベルとして利用され
たプレビューフレームと内容が一致するか調べられ、前
に述べたやり方で索引付けされる(ステップ1110〜
1120)。最後に、メインニュース放送200の全て
のフレームが索引付けされた後、プレビューフレームを
代表するビデオラベルのサマリーが生成される(ステッ
プ1124)。FIG. 13 illustrates a method 1100 for indexing main news broadcast 200 using preview scene 214.
3 is a flowchart showing an outline of the above. A preview frame is compared to the rest of the preview scenes by a known method (step 1104). And the content "match"
Is compared with a predetermined threshold (step 1106).
If the number of matches exceeds the threshold, the frame is used as a video label (step 1108). The text or audio associated with the frame and immediately following it can be saved and indexed into the video label. Next, the frames of the main news broadcast (scene) 200 are examined for a match in content with the preview frame used as the video label and indexed in the manner previously described (steps 1110).
1120). Finally, after all the frames of the main news broadcast 200 have been indexed, a summary of video labels representing the preview frames is generated (step 1124).
【0030】ビデオの編集 本発明は、編集者が、フレームシーケンスのハードコピ
ー上に編集記号を手描きすることによって、索引付けの
済んだビデオを編集したり検索したりできるようにする
手法も包含する。図7に戻り、アイコンサマリー345
は、コンピュータシステムにより、紙片又はスキャナ9
0に読み取らせることが可能な他の材料に出力される。
あるいは、アイコンサマリー345をモニタ60に表示
させるだけでもよい。ユーザーがサマリー345内のビ
デオラベル351に関連した映像及び音声を視聴したい
と思ったとする。そこで、ユーザーはビデオラベル35
1を囲む円501を手描きする。このマークを記入した
サマリーはスキャナ90に送り込まれ、そこでデジタイ
ズされてメモリ20にロードされる。サマリー345が
モニタ60に表示されるだけの場合には、ユーザーは、
ライトペンやタッチスクリーンモニタを利用できるな
ら、それを使ってビデオラベルを囲む円を手描きしてよ
い。コンピュータシステム1は、記号認識論理を使って
手描き記号501をユーザに選択されたものと解釈し、
それに対応した記録ビデオ部分を検索して再生する。コ
ンピュータシステム1は、各ビデオラベルのハードコピ
ー上のX−Y座標値を予め記憶しているため、各手描き
記号から適切なビデオラベルを知ることができる。ある
いは、ハードコピーのサイドチャネル(すなわち余白)
に、ハードコピー上の各ビデオラベルの物理的位置を判
断する手段として2次元バーコード又は同様の識別模様
を設けてもよい。Video Editing The present invention also includes techniques for allowing an editor to edit and search indexed video by hand-drawing edit symbols on a hard copy of the frame sequence. . Returning to FIG. 7, the icon summary 345
Is a piece of paper or a scanner 9 depending on the computer system.
It is output to another material that can be read by 0.
Alternatively, the icon summary 345 may simply be displayed on the monitor 60. Suppose the user wants to view the video and audio associated with video label 351 in summary 345. So the user can
A circle 501 surrounding 1 is hand-drawn. The summary with this mark is sent to the scanner 90, where it is digitized and loaded into the memory 20. If the summary 345 is only displayed on the monitor 60, the user
If you have a light pen or touchscreen monitor, you can use it to draw a circle around the video label. The computer system 1 uses the symbol recognition logic to interpret the hand-drawn symbol 501 as selected by the user,
The recorded video portion corresponding to it is searched and reproduced. Since the computer system 1 stores the XY coordinate values on the hard copy of each video label in advance, the appropriate video label can be known from each hand-drawn symbol. Or a hardcopy side channel (ie margin)
Alternatively, a two-dimensional bar code or similar identifying pattern may be provided as a means of determining the physical location of each video label on the hard copy.
【0031】さて、図14を参照する。ユーザーは拡大
したフレーム1201〜1216の時間順シーケンスを
表した紙上の(又はモニタ60に表示された)フレーム
ディスプレイ1200を手に入れることができる。ユー
ザは、このフレームシーケンスのフレーム1202〜1
204とフレーム1213〜1216を削除する編集を
したいとする。さらに、ユーザはフレーム1205をフ
レーム1201で置き換えたいとする。しかして、ユー
ザは削除すべきフレームの上に削除記号1217を、ま
た、フレーム1201,1205の上に切り取り/貼り
付け記号1218を手書きする。つぎに、この記号が記
入されたフレームディスプレイはスキャナ90に送り込
まれ、そこでデジタイズされて用意された論理により解
釈される。そして、解釈された編集コマンドに基づい
て、図15に示すように編集されたビデオシーケンス1
220が生成される。Referring now to FIG. The user can obtain a frame display 1200 on paper (or displayed on monitor 60) that represents a time-ordered sequence of enlarged frames 1201-1216. The user selects frames 1202-1 of this frame sequence.
Suppose you want to edit to delete 204 and frames 1213-1216. Further, the user wants to replace frame 1205 with frame 1201. The user then handwrites the delete symbol 1217 on the frame to be deleted and the cut / paste symbol 1218 on the frames 1201, 1205. Next, the frame display on which this symbol is written is sent to the scanner 90 where it is digitized and interpreted by the prepared logic. Then, based on the interpreted edit command, the video sequence 1 edited as shown in FIG.
220 is generated.
【0032】図16は、フレームディスプレイを表すハ
ードコピー(又はモニタ60)上にユーザが手描きする
ことができる編集記号の表を示す。当該技術分野におい
て周知の標準的な記号認識法を手描き記号の認識に利用
できる。図16の編集記号表を使って行うことができる
編集機能の例は、フレームを削除すること、フレームを
切り取って貼り付けること、フレームを切り取って挿入
すること、指定角度だけフレームを左又は右に回転させ
ること、フレームをぼけさせたり鮮明化すること、及
び、選んだRBG値のブランクフレームを生成すること
である。図16に示した編集記号表は、それが全てとい
うわけではなく、本発明の範囲を逸脱しない範囲で、他
の編集機能を含むよう容易に拡張できることは明白であ
ろう。FIG. 16 shows a table of edit symbols that the user can hand draw on a hard copy (or monitor 60) representing a frame display. Standard symbol recognition methods known in the art can be used to recognize hand-drawn symbols. Examples of editing functions that can be performed using the edit symbol table of FIG. 16 are deleting a frame, cutting and pasting a frame, cutting and inserting a frame, and moving the frame left or right by a specified angle. Rotating, blurring or sharpening the frame, and creating a blank frame of the chosen RBG value. It will be apparent that the edit symbol table shown in FIG. 16 is not exhaustive and can be readily expanded to include other editing functions without departing from the scope of the invention.
【0033】表1は図16に示した編集記号表により実
行可能な編集機能をまとめたものである。Table 1 summarizes the editing functions that can be executed by the editing symbol table shown in FIG.
【0034】[0034]
【表1】 [Table 1]
【0035】図17及び図18は、図16に示した編集
コマンドのいくつかを、別のフレームディスプレイ14
00に適用した例を表している。図18及び図19は、
編集コマンドを解釈実行して得られる出力(編集後のフ
レーム)を示す。図17において、記号1414がフレ
ーム1401の上に描かれているが、これは”左45度
回転”コマンドを意味する。したがって、フレーム14
01の画像を左に45度回転したものが図18に見え
る。フレーム1402〜1404及びフレーム1409
〜1412の上に別の記号1415が描かれており、そ
れらフレームを新たな(別の)ファイルにセーブすべき
ことを指示している。しかして、図19に示す新たなフ
ァィルは、フレーム1402〜1404,1409〜1
412と同じフレーム1431〜1437を含む。フレ
ーム1405の上には”200%拡大”コマンドを意味
する編集記号が描かれている。フレーム1406の上に
は50%縮小”コマンドを意味する編集記号1416が
描かれている。編集コマンドを組み合わせることができ
ることは、フレーム1406,1408に関して示す通
りである。フレーム1406からフレーム1408まで
矢印が描かれているが、フレーム1406の縮小結果を
フレーム1408にスーパーインポーズする(貼り付け
る)ことを指示する。その結果は図18に見られる。FIGS. 17 and 18 show some of the editing commands shown in FIG.
00 is applied. 18 and 19 show
The output (frame after editing) obtained by interpreting and executing the editing command is shown. In FIG. 17, the symbol 1414 is drawn above the frame 1401 which means a "rotate left 45 degree" command. Therefore, the frame 14
FIG. 18 shows the image of 01 rotated 45 degrees to the left. Frames 1402-1404 and 1409
Another symbol 1415 is drawn above 1412 to indicate that those frames should be saved to a new (different) file. Thus, the new file shown in FIG. 19 has frames 1402-1404, 1409-1.
412 includes the same frames 1431 to 1437. On the frame 1405, an edit symbol indicating a "200% enlargement" command is drawn. An edit symbol 1416 is drawn above the frame 1406 to mean a "reduce 50%" command. The combination of edit commands is as shown for frames 1406 and 1408. Arrows from frame 1406 to frame 1408 are shown. As depicted, it indicates to superimpose (paste) the reduced result of frame 1406 into frame 1408. The result can be seen in FIG.
【0036】図20は、異なった編集記号が描かれた別
のフレームディスプレイ1500を表している。図21
は、その結果として出力されるフレームシーケンス15
20を示している。記号1518がフレーム1501〜
1503の上に描かれ、フレーム1501を現在位置か
ら切り取ってフレーム1503の前に挿入することを指
示している。別の記号1519がフレーム1504,1
407,1510の上に描かれ、フレーム1504をコ
ピーしてフレーム1510の前に挿入することを指示し
ている。FIG. 20 illustrates another frame display 1500 with different edit symbols drawn on it. FIG.
Is the resulting frame sequence 15
20 is shown. The symbol 1518 is the frame 1501
Drawn on 1503, it indicates that frame 1501 should be cut from its current position and inserted in front of frame 1503. Another symbol 1519 is a frame 1504,1
Draw on top of 407 and 1510 to indicate that frame 1504 should be copied and inserted before frame 1510.
【0037】なお、コマンドの結合を可能にするために
は、数学の場合と同様に、コマンドの優先順を管理する
ためのルールセットを開発しなければならない。例え
ば、”全ての拡大縮小コマンドは他のどのコマンドより
も先に実行すべき”といったルールが適用されるかもし
れない。特定の用途又はユーザーのニーズに合わせるた
め特有の優先順ルールを開発してもよい。In order to enable the combination of commands, it is necessary to develop a rule set for managing the priority order of commands, as in the case of mathematics. For example, a rule may be applied that "all scaling commands should be executed before any other command". Specific priority rules may be developed to suit a particular application or user need.
【0038】よって、以上に説明した編集記号表とその
対応方法は、編集者に、データベースに格納されている
ビデオを、そのデータベースを直接的にアクセスせず、
効率的に編集できる編集技法を提供する。つまり、編集
者は、編集したいフレームを表すハードコピーに編集コ
マンドを手描きすることによりビデオ編集が可能であ
り、その記入したハードコピーを自動的に解釈させるこ
とにより、その後に、希望するならば別の場所で、ビデ
オを編集することができる。Therefore, according to the editing symbol table and the corresponding method described above, the editor does not directly access the database stored in the database.
Provide an editing technique that enables efficient editing. In other words, the editor can edit the video by hand-drawing the edit command on the hard copy representing the frame he wants to edit. You can edit the video at your location.
【0039】特定の実施例に関連して本発明を説明した
が、特許請求の範囲に記載された本発明の精神と範囲か
ら逸脱することなく、様々な変形と変更をしてもよいこ
とは明白であろう。よって、本明細書及び図面は、本発
明を説明するためのものであって、本発明の限定を意図
したものではないと考えるべきである。Although the present invention has been described with reference to particular embodiments, it is understood that various changes and modifications may be made without departing from the spirit and scope of the invention as claimed. Would be obvious. Therefore, the specification and drawings should be considered as illustrative of the present invention and not intended to limit the present invention.
【0040】[0040]
【発明の効果】以上に詳細に説明した如く、本発明によ
れば、ニュース放送に見られるニュースアイコン等のよ
うな、ビデオ場面内の高レベルのオブジェクトであるア
イコンや、ニュース放送のメインニュースの前に繰り返
されるプレビューフレームを利用して、ニュース放送等
のレコードの内容ベースの索引生成及び索引付けを行う
ことができる。フレームの映像のほかに音声及び/又は
テキストの情報を索引生成及び索引付けに利用すること
により、映像だけでは索引付けが困難なフレームに関し
ても適切な索引付けが可能になる。人間の情動を利用す
ることにより、人間を描写するビデオレコードの索引生
成及び索引付けが可能になり、また、テレビ電子会議レ
コードの”ビデオ議事録”を得ることができる。ビデオ
レコードの編集したいフレームを紙等に表したフレーム
ディスプレイに編集記号を記入するだけで、ビデオデー
タベースにアクセスすることなく、簡単にフレーム編集
を行うことができるようになる、等々の多くの効果を得
られる。As described above in detail, according to the present invention, an icon which is a high-level object in a video scene, such as a news icon seen in a news broadcast, or the main news of a news broadcast is displayed. Previously repeated preview frames can be used for content-based index generation and indexing of records such as news broadcasts. By using the audio and / or text information in addition to the video of the frame for index generation and indexing, it is possible to appropriately index a frame that is difficult to be indexed by the video alone. The use of human emotions allows the indexing and indexing of video records that depict humans, and also provides a "video minutes" of teleconference records. You can easily edit frames without having to access the video database by simply entering the edit symbol on the frame display that shows the frame of the video record you want to edit on paper. can get.
【図1】本発明の一実施例を実現するコンピュータシス
テムを示すブロック図である。FIG. 1 is a block diagram showing a computer system that implements an embodiment of the present invention.
【図2】ビデオデータのフレームを格納するメモリの説
明図である。FIG. 2 is an explanatory diagram of a memory that stores a frame of video data.
【図3】ビデオデータのフレームをバスへ転送するため
のビデオ入力ユニット(VIU)を示すブロック図であ
る。FIG. 3 is a block diagram illustrating a video input unit (VIU) for transferring a frame of video data to a bus.
【図4】テレビ放送局によるテレビ放送の数時間分の時
間割りを示す図である。FIG. 4 is a diagram showing a time allocation for several hours of television broadcasting by a television broadcasting station.
【図5】ニュース放送の一つのフレームを示す図であ
る。FIG. 5 is a diagram showing one frame of news broadcasting.
【図6】ニュースビデオのフレームシーケンスを示す図
である。FIG. 6 is a diagram showing a frame sequence of a news video.
【図7】ビデオラベルを表すアイコンサマリーを示す図
である。FIG. 7 is a diagram showing an icon summary representing a video label.
【図8】ニュースアイコンに基づきニュースビデオを索
引付けする方法を示すフローチャートである。FIG. 8 is a flowchart illustrating a method of indexing news videos based on news icons.
【図9】ビデオフレームのシーケンス、及び、それらフ
レームの内容と比較されるニュース・アイコンを示す図
である。FIG. 9 shows a sequence of video frames and a news icon compared to the contents of those frames.
【図10】マルチモードの内容検出を映像、音声及びテ
キストに基づいて行う方法を示すフローチャートであ
る。FIG. 10 is a flowchart illustrating a method of performing multi-mode content detection based on video, audio and text.
【図11】電子会議ビデオを索引付けして電子会議のビ
デオ議事録を生成する方法を示すフローチャートであ
る。FIG. 11 is a flow chart illustrating a method of indexing a teleconference video to generate a teleconference video minutes.
【図12】テレビ電子会議に用いられる、4人の参加者
を描写しているビデオディスプレイを示す図である。FIG. 12 shows a video display depicting four participants used in a video teleconference.
【図13】プレビュー場面を利用してニュースビデオを
索引付けする方法の概要を示すフローチャートである。FIG. 13 is a flow chart outlining a method of indexing news videos using preview scenes.
【図14】編集コマンドが手描きされたビデオフレーム
のシーケンスを表すフレームディスプレイを示す図であ
る。FIG. 14 shows a frame display representing a sequence of video frames with edit commands hand-drawn.
【図15】図14に示された手描き編集コマンドに従っ
て編集されたビデオフレームの出力シーケンスを示す図
である。FIG. 15 is a diagram showing an output sequence of a video frame edited according to the handwriting edit command shown in FIG.
【図16】フレームディスプレイ上に手描きできる編集
記号の表を示す図である。FIG. 16 is a diagram showing a table of edit symbols that can be hand-drawn on the frame display.
【図17】編集コマンドが手描きされたビデオフレーム
のシーケンスを表すフレームディスプレイを示す図であ
る。FIG. 17 is a diagram showing a frame display showing a sequence of video frames in which edit commands are hand-drawn.
【図18】図17に示した手描き編集コマンドに従って
生成されたビデオフレームの出力シーケンスを示す図で
ある。FIG. 18 is a diagram showing an output sequence of a video frame generated according to the handwriting edit command shown in FIG. 17.
【図19】図17に示した手描き編集コマンドに従って
生成されたビデオフレームの出力シーケンスを示す図で
ある。19 is a diagram showing an output sequence of a video frame generated in accordance with the handwriting edit command shown in FIG.
【図20】編集コマンドが手描きされたビデオフレーム
のシーケンスを表すフレームディスプレイを示す図であ
る。FIG. 20 is a diagram showing a frame display representing a sequence of video frames with edit commands hand-drawn.
【図21】図20に表した手描き編集コマンドに従って
編集されたビデオフレームの出力シーケンスを示す図で
ある。21 is a diagram showing an output sequence of a video frame edited in accordance with the handwriting edit command shown in FIG.
1 コンピュータシステム 10 中央処理装置(CPU) 20 メモリ 30 データ記憶装置 40 プリンタ 50 デジタルビデオチップ(DVC) 60 ビデオモニタ 70 キーボード 80 マウス 90 スキャナ 100 ビデオ入力装置(VIU) 110 システムバス 120 レーザーディスクプレイヤー 130 ビデオカセットレコーダー(VCR) 140 ビデオカメラ 150 フレームグラバー 200 メインニュース放送(場面) 210 番組 212 コマーシャル 214 ニュースプレビュー(場面) 216 ヘッドライン 300 フレーム 310 オブジェクト領域 320 ニュースアイコン 330 アンカー 340 ニュースロゴ 404〜416 フレーム 345 アイコンサマリー 350〜359 ビデオラベル 701〜707 フレーム 961〜964 ウインドウ 965〜968 参加者 1200 フレームディスプレイ 1201〜1216 フレーム 1217〜1218 編集記号 1301〜1313 編集記号 1400 フレームディスプレイ 1401〜1412 フレーム 1414から1416 編集記号 1500 フレームディスプレイ 1501〜1516 フレーム 1518,1519 編集記号 1 Computer System 10 Central Processing Unit (CPU) 20 Memory 30 Data Storage Device 40 Printer 50 Digital Video Chip (DVC) 60 Video Monitor 70 Keyboard 80 Mouse 90 Scanner 100 Video Input Device (VIU) 110 System Bus 120 Laser Disc Player 130 Video Cassette recorder (VCR) 140 Video camera 150 Frame grabber 200 Main news broadcast (scene) 210 Program 212 Commercial 214 News preview (scene) 216 Headline 300 frame 310 Object area 320 News icon 330 Anchor 340 News logo 404-416 frame 345 icon Summary 350-359 Video Label 701-707 Frame 61-964 window 965 to 968 participants 1200 frame display 1201-1216 frame 1217-1218 editing symbol from 1301 to 1313 editing symbol 1400 frame display 1401 to 1412 from the frame 1414 1416 Edit symbol 1500 frame display 1501-1516 frame 1518,1519 editing symbols
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06F 15/62 P ─────────────────────────────────────────────────── ─── Continuation of the front page (51) Int.Cl. 6 Identification code Internal reference number FI technical display location G06F 15/62 P
Claims (68)
る方法であって、索引は複数のラベルからなり、レコー
ドは複数のフレームからなり、その中の若干数のフレー
ムはそれぞれ少なくとも複数のアイコン中の一つのアイ
コンを含み、 アイコンを利用して複数のラベルを生成するステップ、
及び複数のフレーム中の一つのフレームの内容が複数の
ラベル中の一つのラベルに関連したアイコンの内容と一
致するときに、該一つのフレームを該一つのラベルに索
引付けするステップ、を含む索引生成方法。1. A method of generating an index of a record having video content, wherein the index is composed of a plurality of labels, the record is composed of a plurality of frames, and some of the frames are included in at least a plurality of icons. Including one icon of, and using the icon to generate multiple labels,
And indexing the one frame into the one label when the content of the one frame of the plurality of frames matches the content of the icon associated with the one label of the plurality of labels. Generation method.
レコードはテレビニュース放送のレコードであり、若干
数のアイコンはニュースアイコンであり、かつ、レコー
ドは音声内容を持つ、ことを特徴とする索引生成方法。2. The index generation method according to claim 1, wherein
The index generation method is characterized in that the record is a record of television news broadcast, some icons are news icons, and the record has audio contents.
するステップをさらに含むことを特徴とする請求項2記
載の索引生成方法。3. The index generation method according to claim 2, further comprising the step of generating an icon summary including labels.
ン中の一つのアイコンの内容との間の類似度を測定する
ステップをさらに含み、該一つのフレームの内容と該一
つのラベルに関連した該アイコンの内容とが一致するの
は、該フレームの内容と該アイコンの内容との間の類似
度が所定の閾値を超える場合であることを特徴とする請
求項2記載の索引生成方法。4. The method further comprising measuring a similarity between the content of the one frame and the content of one icon among a plurality of icons, the content being related to the one frame and the one label. 3. The index generation method according to claim 2, wherein the content of the icon matches when the similarity between the content of the frame and the content of the icon exceeds a predetermined threshold value.
の映像索引を生成する方法であって、索引は複数のビデ
オラベルからなり、レコードは音声及び映像の内容を持
つ複数のフレームからなり、 (a)複数のフレームをサーチし、あるニュースアイコ
ンを探すステップ、 (b)該ニュースアイコンが見つかったときに、該ニュ
ースアイコンを複数のビデオラベル中の一つのビデオラ
ベルとして格納するステップ、 (c)該ニュースアイコンを含むフレームの後に続く各
フレームの内容と該ニュースアイコンの内容との間の類
似度を測定するステップ、 (d)該類似度に基づいて、どのフレームが該ニュース
アイコンと一致するか判定するステップ、 (e)該ニュースアイコンと一致する各フレームを該ビ
デオラベルに索引付けするステップ、及び (f)ニュースアイコンを含まないフレームのほぼ全部
が一つのビデオラベルに索引付けされるよう、前記
(a)から(e)のステップを繰り返して複数のビデオ
ラベルを生成するステップ、を含む索引生成方法。5. A method for generating a video index of a video / audio record of a television news broadcast, wherein the index is composed of a plurality of video labels, and the record is composed of a plurality of frames having audio and video contents. Searching a plurality of frames for a certain news icon, (b) storing the news icon as one video label among a plurality of video labels when the news icon is found, (c) the news Measuring the similarity between the content of each frame following the frame containing the icon and the content of the news icon, (d) determining which frame matches the news icon based on the similarity Step (e) a step of indexing each frame that matches the news icon into the video label And (f) repeating the steps (a) to (e) to generate a plurality of video labels so that substantially all of the frames not containing a news icon are indexed into one video label. Index generation method.
を生成するステップをさらに含む請求項5記載の索引生
成方法。6. The index generation method according to claim 5, further comprising a step of generating an icon summary including a video label.
索引付けのステップ(e)は該ニュースアイコンと一致
する各フレームの音声及び映像の内容を該ビデオラベル
に関連付けるステップを含むことを特徴とする索引生成
方法。7. The index generating method according to claim 5,
Indexing method (e) includes associating audio and video content of each frame that matches the news icon with the video label.
類似度は相関手法により測定されることを特徴とする索
引生成方法。8. The index generation method according to claim 5,
An index generation method characterized in that the similarity is measured by a correlation method.
類似度はフレームの映像内容に基づくことを特徴とする
索引生成方法。9. The index generation method according to claim 5,
An index generation method characterized in that the similarity is based on the video content of the frame.
て、類似度はさらにフレームの音声内容にも基づくこと
を特徴とする索引生成方法。10. The index generation method according to claim 9, wherein the similarity is further based on the audio content of the frame.
て、ニュースアイコンはテキスト内容を持ち、類似度を
測定するステップ(c)は、フレームの音声内容をテキ
ストに変換するステップ、及び、該テキストをニュース
アイコンのテキスト内容と比較して類似度の音声成分を
決定するステップを含むことを特徴とする索引生成方
法。11. The index generation method according to claim 10, wherein the news icon has text contents, and the step (c) of measuring the degree of similarity converts the audio contents of the frame to text, and An index generation method comprising a step of determining a voice component of similarity by comparing with a text content of a news icon.
て、類似度はさらにフレームのテキスト内容にも基づく
ことを特徴とする索引生成方法。12. The index generating method according to claim 9, wherein the similarity is further based on the text content of the frame.
て、ニュースアイコンはテキスト内容を持ち、各フレー
ムの類似度を測定するステップ(c)はフレームのテキ
スト内容をニュースアイコンのテキスト内容と比較して
類似度のテキスト成分を決定するステップを含むことを
特徴とする索引生成方法。13. The index generation method according to claim 12, wherein the news icon has a text content, and the step (c) of measuring the similarity of each frame compares the text content of the frame with the text content of the news icon. An index generation method comprising the step of determining a text component of similarity.
る装置であって、索引は複数のラベルからなり、レコー
ドは映像内容を持つ複数のフレームからなり、 フレームをサーチし、あるアイコンを探す手段、 該アイコンを見つけたときに該アイコンを複数のラベル
中の一つのラベルとして格納する手段、 該アイコンを含むフレームの後に続く各フレームの内容
と該アイコンの内容との間の類似度を測定する手段、 該類似度に基づいて、どのフレームが該アイコンと一致
するか判定する手段、及び該アイコンと一致する各フレ
ームを該ビデオラベルに索引付けする手段、を具備する
索引生成装置。14. A device for generating a video index of an audio-video record, wherein the index is composed of a plurality of labels, the record is composed of a plurality of frames having a video content, means for searching a frame and searching for an icon, A means for storing the icon as one of a plurality of labels when the icon is found, a means for measuring the similarity between the content of each frame following the frame containing the icon and the content of the icon An index generation device comprising: a unit that determines which frame matches the icon based on the similarity; and a unit that indexes each frame that matches the icon into the video label.
て、音声映像レコードはテレビニュース放送のレコード
であり、アイコンはニュースアイコンであることを特徴
とする索引生成装置。15. The index generating device according to claim 14, wherein the audio / video record is a television news broadcast record and the icon is a news icon.
成する手段をさらに有することを特徴とする請求項14
記載の索引生成装置。16. The method according to claim 14, further comprising means for generating an icon summary including a label.
The described index generation device.
て、索引付けの手段は複数のフレーム中で該アイコンと
一致する各フレームの音声及び映像の内容を該ラベルに
関係付ける手段を含むことを特徴とする索引生成装置。17. The index generation device according to claim 14, wherein the indexing means includes means for associating the audio and video contents of each frame corresponding to the icon in a plurality of frames with the label. And an index generator.
て、類似度はフレームの映像内容に基づくことを特徴と
する索引生成装置。18. The index generating device according to claim 14, wherein the similarity is based on the video content of the frame.
て、類似度はさらにフレームの音声内容にも基づくこと
を特徴とする索引生成装置。19. The index generation device according to claim 18, wherein the similarity is further based on the audio content of the frame.
て、アイコンはテキスト内容を持ち、類似度を測定する
手段は、フレームの音声内容をテキストに変換する手
段、及び、該テキストをアイコンのテキスト内容と比較
して類似度の音声成分を決定する手段を含むことを特徴
とする索引生成装置。20. The index generating device according to claim 19, wherein the icon has a text content, the means for measuring the degree of similarity converts the audio content of the frame to text, and the text content of the icon. An index generating device comprising means for determining a voice component of similarity degree by comparing with the index generating device.
て、類似度はさらにフレームのテキスト内容にも基づく
ことを特徴とする索引生成装置。21. The index generation device according to claim 18, wherein the similarity is further based on the text content of the frame.
て、アイコンはテキスト内容を持ち、類似度を測定する
手段は、フレームのテキスト内容をアイコンのテキスト
内容と比較して類似度のテキスト成分を決定する手段を
含むことを特徴とする索引生成装置。22. The index generating device according to claim 21, wherein the icon has a text content, and the means for measuring the similarity determines the text component of the similarity by comparing the text content of the frame with the text content of the icon. An index generation device comprising:
ドを索引付けする装置であって、 音声及び映像の内容を持つ複数のフレームを格納するメ
モリを有し、その複数フレーム中の若干数のフレームは
少なくとも複数のニュースアイコン中の一つのアイコン
を含み、かつ複数のニュースアイコンから複数のビデオ
ラベルを生成し、複数のフレーム中で、複数のニュース
アイコン中の一つのニュースアイコンを含まない各フレ
ームの内容と、複数のニュースアイコン中の各ニュース
アイコンの内容との一致比較をし、複数のフレーム中
で、複数のニュースアイコン中の一つのニュースアイコ
ンの内容と一致した内容を持つ各フレームを、そのニュ
ースアイコンに相当するビデオラベルに索引付けする、
該メモリに接続されたプロセッサロジックを有する索引
付け装置。23. An apparatus for indexing audiovisual records for television news broadcasts, comprising: a memory for storing a plurality of frames having audio and video content, at least some of which are at least a plurality of frames. The content of each frame that contains one icon among multiple news icons, and generates multiple video labels from multiple news icons, and that does not include one news icon among multiple news icons in multiple frames. , The content of each news icon in multiple news icons is compared and compared, and each frame with the content that matches the content of one news icon in multiple news icons in that frame Index into the video label equivalent to,
An indexing device having processor logic coupled to the memory.
て、プロセッサロジックがラベルからなるアイコンサマ
リーを作ることを特徴とする索引付け装置。24. The indexing device of claim 23, wherein the processor logic creates an icon summary of labels.
持つレコードを索引付けする方法であって、レコードは
複数のフレームからなり、そのフレーム中の若干数のフ
レームはそれぞれ少なくとも1人の人間に関する複数の
情動中の一つの情動を含み、 どのフレームがある情動を含むか判定するステップ、 複数のフレーム中で、ある情動を描写する各フレーム、
複数のラベル中の一つのラベルとして、ただし1フレー
ムにつき1ラベルとして、記憶するステップ、及び複数
のフレーム中で、ある情動を描写する各フレームについ
て、該情動を描写するフレームに対応する他のフレーム
それぞれを、該情動を描写するフレームから生成された
ラベルに索引付けするステップを含む索引付け方法。25. A method of indexing a record having video content depicting one or more human beings, wherein the record comprises a plurality of frames, some of which are each at least one human being. Comprising one emotion of a plurality of emotions relating to, and determining which frame contains an emotion, each frame depicting an emotion in the plurality of frames,
Storing as one label in the plurality of labels, but one label per frame, and for each frame that describes an emotion in the plurality of frames, another frame that corresponds to the frame that describes the emotion An indexing method comprising indexing each to a label generated from a frame depicting the emotion.
て、複数の情動は少なくとも1人の人間による複数の有
意な動きを含むことを特徴とする索引付け方法。26. The indexing method of claim 25, wherein the plurality of emotions includes a plurality of significant movements by at least one human.
て、レコードはさらに音声内容を含み、レコードの各フ
レームは音声レベルを持ち、複数の情動に複数のフレー
ム中の一つのフレームの音声レベルの有意な変化が含ま
れることを特徴とする索引付け方法。27. The indexing method according to claim 25, wherein the record further includes audio content, each frame of the record has an audio level, and a plurality of emotions have a significant audio level of one frame among the plurality of frames. Indexing method characterized by including various changes.
て、複数のラベル中の各ラベルは、ある情動を含む複数
のフレーム中の一つのフレームに相当することを特徴と
する索引付け方法。28. The indexing method according to claim 25, wherein each label in the plurality of labels corresponds to one frame among a plurality of frames containing a certain emotion.
するステップをさらに含むことを特徴とする請求項25
の索引付け方法。29. The method of claim 25, further comprising generating a summary of a plurality of labels.
Indexing method.
て、索引付けのステップは、ある情動を含む各フレーム
に関し、そのフレームに、その後に続くフレーム中のど
れが一致するか判定するステップを含むことを特徴とす
る索引付け方法。30. The indexing method of claim 25, wherein the step of indexing includes, for each frame containing an emotion, determining which of the subsequent frames matches that frame. Indexing method characterized by.
て、判定のステップは、ある情動を含む第1のフレーム
の後に続くフレームをサーチして別の情動を含む第2の
フレームを探すステップ、及び、該第2のフレームが見
つかったときに該第1のフレームと該第2のフレームと
の間のフレームを該第1のフレームに相当するラベルに
索引付けし、また、該第2のフレームが見つからないと
きには該第1のフレームの後に続くフレームを該ラベル
に索引付けするステップを含むことを特徴とする索引付
け方法。31. The indexing method of claim 25, wherein the step of determining comprises searching a frame subsequent to the first frame containing one emotion for a second frame containing another emotion, and , Indexing a frame between the first frame and the second frame when the second frame is found, into the label corresponding to the first frame, and An indexing method comprising the step of indexing a frame subsequent to the first frame to the label when not found.
て、判定のステップは、情動を含むフレームの内容と、
該フレームの後に続くフレームの内容との間の類似度を
測定するステップ、及び、該類似度に基づいて、どのフ
レームが該情動を含むフレームと一致するか判定するス
テップを含むことを特徴とする索引付け方法。32. The indexing method according to claim 25, wherein the determining step includes the content of the frame containing emotions,
Measuring the degree of similarity between the frame and the content of the frame following the frame, and determining which frame matches the frame including the emotion based on the degree of similarity. Indexing method.
て、類似度はフレームの映像内容に基づくことを特徴と
する索引付け方法。33. The indexing method according to claim 32, wherein the similarity is based on the video content of the frame.
レコードのビデオ議事録を生成する方法であって、レコ
ードは映像内容を持つ複数のフレームからなり、 (a)複数のフレームをサーチして1人以上の参加者に
よる第1の有意な動きを探すステップ、 (b)該第1の有意な動きを含むフレームが見つかった
ときに、該フレームを一つのビデオラベルとして記憶す
るステップ; (c)該第1の有意な動きを含むフレームの後に続くフ
レームの中で、該第1の有意な動きを含むフレームと一
致する各フレームを、該ビデオラベルに索引付けするス
テップ、及び (d)複数のフレームのほぼ全部が一つのビデオラベル
に索引付けされるよう、前記(a)から(c)のステッ
プを繰り返して複数のビデオラベルを生成するステッ
プ、を含むビデオ議事録生成方法。34. A method of generating a video minutes of a record of an audiovisual conference between a plurality of participants, wherein the record comprises a plurality of frames having video content, wherein (a) a plurality of frames are searched. Searching for a first significant motion by one or more participants, and (b) storing the frame as a video label when a frame containing the first significant motion is found; c) indexing into the video label each frame that matches the frame containing the first significant motion, among frames following the frame containing the first significant motion, and (d). Repeating steps (a) to (c) to generate a plurality of video labels so that substantially all of the plurality of frames are indexed into one video label. Oh proceedings generation method.
法であって、ステップ(b)でビデオラベルとして記憶
されたフレームからなるアイコンサマリーを生成するス
テップをさらに含むことを特徴とするビデオ議事録生成
方法。35. The method of generating video minutes according to claim 34, further comprising the step of generating an icon summary consisting of the frames stored as video labels in step (b). Generation method.
法であって、有意な動きを含むフレームの後に続くフレ
ームのどれが、該有意な動きを含むフレームと一致する
か判定するステップをさらに含むことを特徴とするビデ
オ議事録生成方法。36. The method of generating video minutes according to claim 34, further comprising the step of determining which of the frames following the frame containing significant motion matches the frame containing the significant motion. A method for generating video minutes, which is characterized in that
法において、有意な動きが参加者の二人以上の同調した
動きであることを特徴するビデオ議事録生成方法。37. The video minutes generation method according to claim 34, wherein the significant movement is a synchronized movement of two or more participants.
数の動きベクトルを計算するステップ、 該動きベクトル中の2以上のベクトル間の類似度を測定
するステップ、及び該動きベクトル中の2以上のベクト
ル間の類似度が所定の閾値を超えたときに同調した動き
を検出するステップをさらに含む請求項37記載のビデ
オ議事録生成方法。38. A step of calculating a plurality of motion vectors respectively indicating a motion of one participant, a step of measuring a similarity between two or more vectors in the motion vector, and two or more of the motion vectors. 38. The method of generating video minutes according to claim 37, further comprising the step of detecting a synchronized movement when the similarity between the vectors of the vector exceeds a predetermined threshold.
持つレコードを索引付けする装置であって、レコードは
複数のフレームを持ち、それらフレーム中の若干数のフ
レームはそれぞれ該人間の複数の情動中の一つの情動を
描写し、 フレームを記憶するメモリ;及び複数の情動を含むフレ
ームを見つけ出してそれらフレームから複数のラベルを
生成し、情動を含まないフレームのほぼ全てを、それら
フレームと情動を含むフレームとの間の一致関係により
ラベルに索引付けする、該メモリと結合されたプロセッ
サロジックを具備する索引付け装置。39. An apparatus for indexing records having video content depicting one or more human beings, wherein the records have a plurality of frames, some of which are each a plurality of the human beings. A memory that describes one emotion in emotions and stores frames; and a frame that includes multiple emotions is found, multiple labels are generated from those frames, and almost all frames that do not include emotions An indexing device comprising processor logic coupled to the memory for indexing labels by a correspondence relationship with a frame containing the.
て、プロセッサロジックがさらにラベルからなるサマリ
ーを生成することを特徴とする索引付け装置。40. The indexing device of claim 39, wherein the processor logic further produces a summary of labels.
生成する方法であって、索引は複数のラベルからなり、
記録されたニュース放送は複数のニュースフレームを含
み、かつ複数のプレビューフレームからなるプレビュー
場面と関連付けられ、プレビューフレーム及びニュース
フレームは音声映像内容を持ち、 複数のプレビューフレームをメモリに格納するステッ
プ、 複数のプレビューフレーム中で、プレビュー場面内で内
容的にみて実質的に所定回数以上繰り返される各プレビ
ューフレームを識別するステップ、 複数のプレビューフレーム中で、プレビュー場面内で所
定回数以上繰り返される各プレビューフレームから複数
のラベルを生成するステップ、及び複数のニュースフレ
ーム中で、前記繰り返されるプレビューフレームの一つ
と実質的に同一の各ニュースフレームを前記繰り返され
るプレビューフレームに対応するラベルに索引付けする
ステップ、を含む索引生成方法。41. A method of generating a video index for a recorded news broadcast, the index comprising a plurality of labels,
The recorded news broadcast includes a plurality of news frames and is associated with a preview scene composed of a plurality of preview frames. The preview frames and the news frames have audiovisual contents, and a step of storing the plurality of preview frames in a memory, In the preview frame, a step of identifying each preview frame that is substantially repeated a predetermined number of times or more in the preview scene, from each preview frame that is repeated a predetermined number of times or more in the preview scene in a plurality of preview frames Generating a plurality of labels, and indexing, in a plurality of news frames, each news frame that is substantially identical to one of the repeated preview frames to a label corresponding to the repeated preview frames. Step, index generation method, including.
ップをさらに含むことを特徴とする請求項41記載の索
引生成方法。42. The method of claim 41, further comprising the step of generating a video summary of labels.
ビュー場面内で所定回数以上繰り返される選択された一
つのプレビューフレームと実質的に同一の各プレビュー
フレームを、該選択された一つのプレビューフレームに
対応したラベルに索引付けするステップをさらに含むこ
とを特徴とする請求項41記載の索引生成方法。43. In a plurality of preview frames, each preview frame that is substantially the same as the selected one preview frame repeated a predetermined number of times or more in the preview scene corresponds to the selected one preview frame. 42. The index generation method according to claim 41, further comprising indexing the label.
生成する方法であって、索引は複数のビデオラベルから
なり、記録されたニュース放送は複数のニュースフレー
ムを含み、かつ複数のプレビューフレームからなるプレ
ビュー場面に対応し、プレビューフレーム及びニュース
フレームは音声映像内容を持ち、 (a)複数のプレビューフレーム中の一つのプレビュー
フレームを選択するステップ、 (b)該選択されたプレビューフレームと実質的に同一
のプレビューフレームの数を計数するステップ、 (c)該選択されたプレビューフレームと実質的に同一
のプレビューフレームの数が所定数を超えた場合に、該
選択さたプレビューフレームを複数のビデオラベル中の
一つのビデオラベルとして記憶するステップ、及び (d)複数のプレビューフレームのほぼ全てが前記ステ
ップ(a)により選択されるよう、前記(a)から
(c)のステップを繰り返して複数のビデオラベルを生
成するステップ、を含む索引生成方法。44. A method of generating a video index for a recorded news broadcast, the index comprising a plurality of video labels, the recorded news broadcast comprising a plurality of news frames and a plurality of preview frames. Corresponding to the preview scene, the preview frame and the news frame have audio-visual contents, and (a) selecting one preview frame among a plurality of preview frames, (b) substantially the same as the selected preview frame. Counting the number of preview frames of the selected preview frame, (c) if the number of preview frames substantially the same as the selected preview frame exceeds a predetermined number, the selected preview frame is displayed in a plurality of video labels. Storing as one video label of, and (d) a plurality of Substantially so that all is selected by said step (a), index generation method comprising the steps of generating a plurality of video labels Repeat steps of the (a) through (c) of Yufuremu.
レビューフレームが選択されたプレビューフレームと実
質的に同一であるか判定するステップをさらに含むこと
を特徴とする請求項44記載の索引生成方法。45. The index generation method of claim 44, further comprising the step of determining which preview frame in the plurality of preview frames is substantially the same as the selected preview frame.
て、判定のステップがプレビューフレームの映像内容に
基づくことを特徴とする索引生成方法。46. The index generating method according to claim 45, wherein the determining step is based on the video content of the preview frame.
て、判定のステップがさらにプレビューフレームの音声
内容にも基づくことを特徴とする索引生成方法。47. The index generating method according to claim 46, wherein the determining step is further based on the audio content of the preview frame.
て、プレビューフレームはテキスト内容を持ち、判定の
ステップがさらにプレビューフレームのテキスト内容に
も基づくことを特徴とする索引生成方法。48. The index generation method according to claim 46, wherein the preview frame has a text content, and the step of determining is further based on the text content of the preview frame.
を生成するステップをさらに含むことを特徴とする請求
項44記載の索引生成方法。49. The method of claim 44, further comprising the step of generating a summary of video labels.
れたプレビューフレームと内容が実質的に同一の各プレ
ビューフレームをビデオラベルに索引付けするステップ
をさらに含むことを特徴とする請求項44記載の索引生
成方法。50. The index generation of claim 44, further comprising indexing each preview frame having substantially the same content as a selected preview frame in the plurality of preview frames into a video label. Method.
生成する装置であって、索引は複数のラベルからなり、
記録されたニュース放送は複数のニュースフレームを含
み、かつ複数のプレビューフレームからなるプレビュー
場面に対応し、プレビューフレーム及びニュースフレー
ムは音声映像内容を持ち、 (a)複数のプレビューフレーム中の一つのプレビュー
フレームを選択する手段、 (b)該選択されたプレビューフレームと実質的に同一
のプレビューフレームの数を計数する手段、 (c)該選択されたプレビューフレームと実質的に同一
のプレビューフレームの数が所定数を超えるか判定する
手段、 (d)該選択されたプレビューフレームと実質的に同一
のフレームの数が該所定数を超えた場合に、該選択さた
プレビューフレームを複数のビデオラベル中の一つのビ
デオラベルとして記憶する手段、及び (e)複数のプレビューフレームのほぼ全てが前記ステ
ップ(a)により選択されるよう、前記(a)から
(c)のステップを繰り返して複数のラベルを生成する
手段、を具備する索引生成装置。51. A device for generating a video index for a recorded news broadcast, the index comprising a plurality of labels,
The recorded news broadcast includes a plurality of news frames and corresponds to a preview scene composed of a plurality of preview frames. The preview frame and the news frame have audio-visual contents, and (a) one preview in the plurality of preview frames. Means for selecting a frame, (b) means for counting the number of preview frames substantially the same as the selected preview frame, (c) a number of preview frames substantially the same as the selected preview frame Means for determining whether the number exceeds a predetermined number, (d) if the number of frames substantially the same as the selected preview frame exceeds the predetermined number, the selected preview frame is selected from among a plurality of video labels. A means for storing as one video label, and (e) a plurality of preview frames All to be selected by said step (a), wherein (a) from the index generation apparatus Repeat step comprises a means for generating a plurality of labels (c).
する手段をさらに含むことを特徴とする請求項51記載
の索引生成装置。52. The index generating device according to claim 51, further comprising means for generating a summary including a plurality of labels.
択されたプレビューフレームと実質的に同一の各プレビ
ューフレームを該ラベルに索引付けする手段をさらに含
むことを特徴とする請求項51記載の索引生成装置。53. The index generation of claim 51, further comprising means for indexing each label in the plurality of preview frames, each preview frame being substantially the same as the selected preview frame. apparatus.
生成する装置であって、索引は複数のラベルからなり、
記録されたニュース放送は複数のニュースフレームを含
み、かつ複数のプレビューフレームからなるプレビュー
場面と関連付けられ、プレビューフレーム及びニュース
フレームは音声映像内容を持ち、 複数のプレビューフレームを格納するメモリ;及び複数
のプレビューフレーム中で、プレビュー場面内で所定回
数以上繰り返される各プレビューフレームを識別し、識
別した各プレビューフレームから複数のビデオラベルを
生成する、該メモリと結合されたプロセッサロジックを
具備する索引生成装置。54. A device for generating a video index of a recorded news broadcast, the index comprising a plurality of labels,
The recorded news broadcast includes a plurality of news frames and is associated with a preview scene composed of a plurality of preview frames. The preview frames and the news frames have audiovisual contents, a memory for storing the plurality of preview frames; An index generation device comprising processor logic coupled to the memory for identifying each preview frame that is repeated a predetermined number of times or more within a preview frame and generating a plurality of video labels from each identified preview frame.
集する方法であって、フレームはそれぞれフレームディ
スプレイに表され、 フレームディスプレイ上にユーザにより手描きされた編
集記号が存在するかフレームディスプレイを調べるステ
ップ、 フレームディスプレイに描かれた編集記号を認識するス
テップ、 編集コマンドを表す編集記号の表に基づき、フレームデ
ィスプレイに描かれた編集記号のそれぞれを複数の編集
コマンド中の一つの編集コマンドに関連付けるステッ
プ、及びフレームディスプレイに描かれた編集記号に関
連付けられた編集コマンドに従ってビデオレコードのフ
レームを修正するステップを含むフレーム編集方法。55. A method of editing a plurality of frames of a video record, each frame being represented in a frame display, the frame display being checked for the presence of user-edited edit symbols on the frame display. Recognizing the edit symbols drawn on the display, associating each of the edit symbols drawn on the frame display with one of the edit commands based on a table of edit symbols representing the edit commands, and the frame A frame editing method comprising the step of modifying a frame of a video record according to an edit command associated with an edit symbol drawn on a display.
に含むことを特徴とする請求項55記載のフレーム編集
方法。56. The frame editing method according to claim 55, further comprising the step of providing an edit symbol table.
おいて、フレームディスプレイは実質的に紙様の物に表
示されることを特徴とするフレーム編集方法。57. The frame editing method according to claim 55, wherein the frame display is displayed substantially on a paper-like object.
おいて、フレームディスプレイはビデオモニタに表示さ
れ、編集記号はカーソル制御装置を利用してフレームデ
ィスプレイ上に描かれることを特徴とするフレーム編集
方法。58. The frame editing method according to claim 55, wherein the frame display is displayed on a video monitor, and the edit symbol is drawn on the frame display using a cursor control device.
おいて、ビデオモニタはタッチスクリーンを持ち、編集
記号は該タッチスクリーンを用いて該タッチスクリーン
上に描かれることを特徴とするフレーム編集方法。59. The frame editing method according to claim 58, wherein the video monitor has a touch screen, and the edit symbol is drawn on the touch screen by using the touch screen.
集する装置であって、フレームはそれぞれフレームディ
スプレイに表され、 フレームディスプレイ上にユーザにより手描きされた編
集記号が存在するかフレームディスプレイを調べる手
段、 フレームディスプレイに描かれた編集記号を認識する手
段、 編集コマンドを表す編集記号の表に基づき、フレームデ
ィスプレイに描かれた編集記号のそれぞれを複数の編集
コマンド中の一つの編集コマンドに関連付ける手段、及
びフレームディスプレイに描かれた編集記号に関連付け
られた編集コマンドに従ってビデオレコードのフレーム
を修正する手段を具備するフレーム編集装置。60. An apparatus for editing a plurality of frames of a video record, each frame being represented in a frame display, means for inspecting the frame display for the presence of user-edited edit symbols on the frame display. A means for recognizing edit symbols drawn on the display, a means for associating each edit symbol drawn on the frame display with one edit command among a plurality of edit commands based on a table of edit symbols representing edit commands, and a frame A frame editing device comprising means for modifying a frame of a video record according to an editing command associated with an editing symbol drawn on a display.
することを特徴とする請求項60記載のフレーム編集装
置。61. The frame editing device according to claim 60, further comprising means for providing an edit symbol table.
おいて、フレームディスプレイは実質的に紙様の物に表
示されることを特徴とするフレーム編集装置。62. The frame editing device according to claim 60, wherein the frame display is displayed on a substantially paper-like object.
おいて、フレームディスプレイはビデオモニタに表示さ
れ、編集記号はそれをフリーハンドで描くためのカーソ
ル制御装置を利用してフレームディスプレイに描かれる
ことを特徴とするフレーム編集装置。63. The frame editing device according to claim 60, wherein the frame display is displayed on a video monitor, and the editing symbol is drawn on the frame display by using a cursor control device for drawing it freehand. Frame editing device.
おいて、ビデオモニタはタッチスクリーンを持ち、編集
記号はタッチスクリーンに線描具を物理的に当てること
によりタッチスクリーン上に描かれることを特徴とする
フレーム編集装置。64. The frame editing apparatus according to claim 63, wherein the video monitor has a touch screen, and the edit symbol is drawn on the touch screen by physically applying a line drawing tool to the touch screen. Editing device.
集する装置であって、フレームはそれぞれフレームディ
スプレイ上に視覚的に表され、 フレームディスプレイを格納するメモリ、 該メモリと結合され、フレームディスプレイを受け取り
それを該メモリに供給する入力装置、及びフレームディ
スプレイ上にユーザにより手描きされた編集記号が存在
するかフレームディスプレイを調べ、フレームディスプ
レイ上に描かれた編集記号を認識し、編集記号の表に基
づいてフレームディスプレイ上に描かれた編集記号それ
ぞれを複数の編集コマンド中の一つの編集コマンドに関
連付け、フレームディスプレイに手描きされた編集記号
に関連付けられた編集コマンドに従ってビデオレコード
のフレームを修正する、該メモリと結合されたプロセッ
サロジックを具備するフレーム編集装置。65. An apparatus for editing a plurality of frames of a video record, each frame being visually represented on a frame display, a memory for storing the frame display, coupled to the memory, for receiving the frame display An input device that supplies the memory to the memory, and the frame display is checked for the presence of edit symbols hand-painted by the user on the frame display, the edit symbols drawn on the frame display are recognized, and based on the table of the edit symbols. Each of the edit symbols drawn on the frame display is associated with one edit command of the plurality of edit commands, and the frame of the video record is modified according to the edit command associated with the edit symbol drawn on the frame display. Combined processor Frame editing device having a logic.
おいて、入力装置はフレームディスプレイを入力してデ
ジタイズするスキャナであり、編集記号はスキャナがフ
レームディスプレイを入力する前にフレームディスプレ
イに描かれることを特徴とするフレーム編集装置。66. The frame editing apparatus according to claim 65, wherein the input device is a scanner for inputting and digitizing the frame display, and the edit symbol is drawn on the frame display before the scanner inputs the frame display. Frame editing device.
を含むあるフレームの内容との間の第2の類似度を測定
するステップ(c)(1)をさらに含み、どのフレーム
がニュースアイコンと一致するか判定するステップ
(d)はさらに該第2の類似度にも基づくことを特徴と
する請求項5記載の索引生成方法。67. A step (c) (1) of measuring a second similarity between the content of the frame and the content of a frame containing the news icon is further included, which frame matches the news icon. The index generating method according to claim 5, wherein the determining step (d) is further based on the second similarity.
るフレームの内容との間の第2の類似度を測定する手段
をさらに含み、どのフレームがアイコンと一致するか判
定する手段はさらに該第2の類似度に基づいてどのフレ
ームがアイコンと一致するか判定することを特徴とする
請求項14記載の索引生成装置。68. Means for measuring a second similarity between the content of a frame and the content of a frame containing an icon, and means for determining which frame matches the icon. 15. The index generating device according to claim 14, wherein which frame matches the icon is determined based on the similarity of the icon.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US49415895A | 1995-06-23 | 1995-06-23 | |
| US08/494158 | 1995-06-23 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH099202A true JPH099202A (en) | 1997-01-10 |
| JP3608758B2 JP3608758B2 (en) | 2005-01-12 |
Family
ID=23963286
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP14247796A Expired - Fee Related JP3608758B2 (en) | 1995-06-23 | 1996-06-05 | Index generation method, index generation device, indexing device, indexing method, video minutes generation method, frame editing method, and frame editing device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3608758B2 (en) |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10214270A (en) * | 1997-01-29 | 1998-08-11 | Fuji Xerox Co Ltd | Information storage device and information storage and production device |
| JPH11261909A (en) * | 1998-03-12 | 1999-09-24 | Toshiba Corp | Multimedia data processing apparatus and method, recording medium |
| JPH11260041A (en) * | 1998-03-11 | 1999-09-24 | Nippon Telegr & Teleph Corp <Ntt> | Manga-type video editing method and apparatus, and recording medium recording the editing method |
| JP2001309282A (en) * | 2000-04-20 | 2001-11-02 | Sony Corp | Broadcast program recording method, broadcast program recording device, and broadcast program recording / playback device |
| GB2371194A (en) * | 2000-10-06 | 2002-07-17 | Canon Kk | Indicating image processing status |
| KR100422699B1 (en) * | 2001-05-22 | 2004-03-12 | 엘지전자 주식회사 | Method and apparatus for intelligent video browsing of video contents |
| KR100438269B1 (en) * | 2001-03-23 | 2004-07-02 | 엘지전자 주식회사 | Anchor shot detecting method of news video browsing system |
| JP2005277445A (en) * | 2004-03-22 | 2005-10-06 | Fuji Xerox Co Ltd | Conference video image processing apparatus, and conference video image processing method and program |
| JP2011109292A (en) * | 2009-11-16 | 2011-06-02 | Canon Inc | Imaging apparatus, control method and program thereof, and storage medium |
| CN102547213A (en) * | 2011-12-23 | 2012-07-04 | 南京超然科技有限公司 | Video imaging preview method for video conference system |
| JP2013093860A (en) * | 2012-11-26 | 2013-05-16 | Yamaha Corp | Program recording device |
| WO2016098466A1 (en) * | 2014-12-18 | 2016-06-23 | 株式会社Cygames | Information processing program, and information processing method |
| CN110826471A (en) * | 2019-11-01 | 2020-02-21 | 腾讯科技(深圳)有限公司 | Video label labeling method, device, equipment and computer readable storage medium |
-
1996
- 1996-06-05 JP JP14247796A patent/JP3608758B2/en not_active Expired - Fee Related
Cited By (22)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10214270A (en) * | 1997-01-29 | 1998-08-11 | Fuji Xerox Co Ltd | Information storage device and information storage and production device |
| JPH11260041A (en) * | 1998-03-11 | 1999-09-24 | Nippon Telegr & Teleph Corp <Ntt> | Manga-type video editing method and apparatus, and recording medium recording the editing method |
| JPH11261909A (en) * | 1998-03-12 | 1999-09-24 | Toshiba Corp | Multimedia data processing apparatus and method, recording medium |
| JP2001309282A (en) * | 2000-04-20 | 2001-11-02 | Sony Corp | Broadcast program recording method, broadcast program recording device, and broadcast program recording / playback device |
| GB2371194A (en) * | 2000-10-06 | 2002-07-17 | Canon Kk | Indicating image processing status |
| GB2371194B (en) * | 2000-10-06 | 2005-01-26 | Canon Kk | Image processing apparatus |
| KR100438269B1 (en) * | 2001-03-23 | 2004-07-02 | 엘지전자 주식회사 | Anchor shot detecting method of news video browsing system |
| KR100422699B1 (en) * | 2001-05-22 | 2004-03-12 | 엘지전자 주식회사 | Method and apparatus for intelligent video browsing of video contents |
| US7809792B2 (en) | 2004-03-22 | 2010-10-05 | Fuji Xerox Co., Ltd. | Conference information processing apparatus, and conference information processing method and storage medium readable by computer |
| CN100425071C (en) * | 2004-03-22 | 2008-10-08 | 富士施乐株式会社 | Conference information processing apparatus, and conference information processing method and storage medium readable by computer |
| JP2005277445A (en) * | 2004-03-22 | 2005-10-06 | Fuji Xerox Co Ltd | Conference video image processing apparatus, and conference video image processing method and program |
| JP2011109292A (en) * | 2009-11-16 | 2011-06-02 | Canon Inc | Imaging apparatus, control method and program thereof, and storage medium |
| CN102547213A (en) * | 2011-12-23 | 2012-07-04 | 南京超然科技有限公司 | Video imaging preview method for video conference system |
| JP2013093860A (en) * | 2012-11-26 | 2013-05-16 | Yamaha Corp | Program recording device |
| JP2016116196A (en) * | 2014-12-18 | 2016-06-23 | 株式会社Cygames | Information processing program and information processing method |
| WO2016098466A1 (en) * | 2014-12-18 | 2016-06-23 | 株式会社Cygames | Information processing program, and information processing method |
| KR20170096017A (en) * | 2014-12-18 | 2017-08-23 | 가부시키가이샤 사이게임스 | Information processing program, and information processing method |
| CN107251550A (en) * | 2014-12-18 | 2017-10-13 | Cy游戏公司 | Message handling program and information processing method |
| US10384125B2 (en) | 2014-12-18 | 2019-08-20 | Cygames, Inc. | Information processing program and information processing method |
| CN107251550B (en) * | 2014-12-18 | 2020-03-27 | Cy游戏公司 | Information processing program and information processing method |
| CN110826471A (en) * | 2019-11-01 | 2020-02-21 | 腾讯科技(深圳)有限公司 | Video label labeling method, device, equipment and computer readable storage medium |
| CN110826471B (en) * | 2019-11-01 | 2023-07-14 | 腾讯科技(深圳)有限公司 | Video tag labeling method, device, equipment and computer readable storage medium |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3608758B2 (en) | 2005-01-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3758754B2 (en) | Information storage / reproduction apparatus and information storage / reproduction method | |
| US6803925B2 (en) | Assembling verbal narration for digital display images | |
| US8363058B2 (en) | Producing video and audio-photos from a static digital image | |
| US7139767B1 (en) | Image processing apparatus and database | |
| CA2202540C (en) | System and method for skimming digital audio/video data | |
| JP3185505B2 (en) | Meeting record creation support device | |
| WO2021035223A1 (en) | Automatic data extraction and conversion of video/images/sound information from a board-presented lecture into an editable notetaking resource | |
| US20240135973A1 (en) | Video segment selection and editing using transcript interactions | |
| US20080235564A1 (en) | Methods for converting electronic content descriptions | |
| JP3608758B2 (en) | Index generation method, index generation device, indexing device, indexing method, video minutes generation method, frame editing method, and frame editing device | |
| CN107633241A (en) | A kind of method and apparatus of panoramic video automatic marking and tracking object | |
| JP2002057981A (en) | Interface to access data stream, generating method for retrieval for access to data stream, data stream access method and device to access video from note | |
| JPH10214270A (en) | Information storage device and information storage and production device | |
| CN110505498B (en) | Video processing method, video playing method, video processing device, video playing device and computer readable medium | |
| US20240126994A1 (en) | Transcript paragraph segmentation and visualization of transcript paragraphs | |
| JP4192703B2 (en) | Content processing apparatus, content processing method, and program | |
| CN115484474B (en) | Video clip processing method and device, electronic equipment and storage medium | |
| US20130094697A1 (en) | Capturing, annotating, and sharing multimedia tips | |
| GB2635831A (en) | Face-aware speaker diarization for transcripts and text-based video editing | |
| KR20230095432A (en) | Text description-based character animation synthesis system | |
| JP6203188B2 (en) | Similar image search device | |
| US10347299B2 (en) | Method to automate media stream curation utilizing speech and non-speech audio cue analysis | |
| Amir et al. | Automatic generation of conference video proceedings | |
| JP2005267278A (en) | Information processing system, information processing method, and computer program | |
| JP7133367B2 (en) | MOVIE EDITING DEVICE, MOVIE EDITING METHOD, AND MOVIE EDITING PROGRAM |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041005 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041008 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071022 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081022 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081022 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091022 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101022 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111022 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121022 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131022 Year of fee payment: 9 |
|
| LAPS | Cancellation because of no payment of annual fees |