JP2000350192A

JP2000350192A - 画像処理装置

Info

Publication number: JP2000350192A
Application number: JP2000086806A
Authority: JP
Inventors: James Taylor Michael; ジェームステイラーマイケル; Michael Low Simon; マイケルロウサイモン
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1999-04-14
Filing date: 2000-03-27
Publication date: 2000-12-15
Anticipated expiration: 2020-03-27
Also published as: US7113201B1; EP1045586B1; EP1045586A2; JP4697907B2; DE60030027D1; GB9908545D0; EP1045586A3

Abstract

(57)【要約】（修正有）【課題】ＴＶ会議等での、格納データベース量の膨大化
を防ぎ、当該データベースからの情報検索を適切に処理
するアーカイブ装置を提供する。【解決手段】アーカイブプロセッサ５８は、各カメラか
らの映像データ、マイクからの音声データとから、頭部
追跡装置５０、方向プロセッサ５３、音声認識プロセッ
サ５４からの受信データにより、音声データを変換した
テキストデータ及び所定の時点で会議の各参加者の視線
の先にいる人物を定義するデータと共に会議アーカイブ
データベース６０に格納する。中央制御装置３６の制御
の下に、テキストサーチャ６２は会議の一つ又は複数部
について、ユーザー指定の基準に適合する音声及び映像
データを発見すべくデータベース６０を検索するのに使
用され、表示プロセッサ６４は、表示装置２６を介し
て、データベース６０に格納されている音声及び映像デ
ータを、ユーザに対し再生表示するのに使われる。

Description

【発明の詳細な説明】

【０００１】

【発明が属する技術分野】本発明は画像データのアーカ
イビングに関する。

【０００２】

【従来の技術】多くのデータベースは画像データを格納
するために存在している。しかし、特に、格納すべき画
像データの量が膨大であり、また、データベースから情
報を検索する目的でデータベースを問い合わせるために
使用できる方法がかぎられているため、問題も生じてい
る。

【０００３】

【発明が解決しようとする課題】本発明は上記の問題に
留意してなされた。

【０００４】

【課題を解決するための手段】本発明によれば、話をし
ている人物を示す、複数のカメラからの画像データをア
ーカイブするために処理を実行する装置又は方法が提供
される。現在話をしている人物と、その人物の視線の先
にいる人物（又は視線の先にある物体）を判定し、それ
に従ってアーカイブすべき画像データの部分集合を選択
する。

【０００５】このようにすれば、全てのカメラからの画
像データを格納する必要がなくなるので、容量が減少す
る。

【０００６】また、本発明は、複数のカメラにより記録
された、話をしている人物を示す画像データの中から画
像データを選択する装置又は方法を提供する。この場
合、画像データの少なくとも一部を処理することによ
り、少なくとも、現在話をしている人物の頭部と、その
人物の視線の先にいる人物（又は視線の先にある物体）
の三次元位置を判定し、判定された位置及びカメラの視
野に基づいて画像データの選択を実行する。

【０００７】更に、本発明は、プログラム可能処理装置
をそのようなシステムにおいて装置として構成させる又
は方法を実行可能な状態にさせるための、信号及び記録
形態を含めた命令を提供する。

【０００８】

【発明の実施の形態】以下、添付の図面を参照して本発
明の実施形態を説明する。

【０００９】図１を参照すると、複数のビデオカメラ
（図１に示す例では３台であるが、これ以外の台数であ
っても差し支えない）２−１、２−２、２−３及びマイ
クロホンアレイ４を使用して、数人の人物６、８、１
０、１２の間で行われている会議から画像データと、音
声データとをそれぞれ記録している。

【００１０】マイクロホンアレイ４は、例えば、英国特
許第２１４０５５８号、米国特許第４３３３１７０号及
び米国特許第３３９２３９２号に記載されているよう
に、入って来る音の方向を判定することができるように
配列されたマイクロホンのアレイから構成されている。

【００１１】ビデオカメラ２−１、２−２、２−３から
の画像データと、マイクロホンアレイ４からの音声デー
タはケーブル（図示せず）を介してコンピュータ２０に
入力される。コンピュータ２０は受信したデータを処理
し、データベースにデータを格納して、会議のアーカイ
ブ記録を作成する。後に、このデータベースから情報を
検索することができる。

【００１２】コンピュータ２０は、表示装置２６、並び
にこの実施形態ではキーボード２８及びマウス３０から
構成されるユーザ入力装置と共に、従来のように１つ又
は複数のプロセッサと、メモリと、サウンドカードなど
を含む処理装置２４を含む従来通りのパーソナルコンピ
ュータである。

【００１３】コンピュータ２０の構成要素と、それらの
構成要素の入出力データとを図２に概略的に示す。

【００１４】図２を参照して説明すると、処理装置２４
は、例えば、ディスク３２などのデータ記憶媒体に格納
されたデータとして、及び／又は例えば、インターネッ
トなどの通信ネットワーク（図示せず）を介する送信に
より又は無線通信により遠隔データベースから処理装置
２４に入力され且つ／又はユーザによりキーボード２８
などのユーザ入力装置又は他の入力装置を介して入力さ
れた信号３４として入力されるプログラミング命令に従
って動作するようにプログラムされている。

【００１５】プログラミング命令によりプログラムされ
ると、処理装置２４は処理動作を実行するためのいくつ
かの機能ユニットに有効に構成される。そのような機能
ユニットの例と、その相互接続を図２に示す。しかし、
図２に示されているユニットと接続は概念的なもので、
単に理解を助けるための例示を目的として示されている
にすぎない。従って、図２に示すユニットや接続は、処
理装置２４のプロセッサ、メモリなどが実際に構成され
る厳密なユニットと接続を必ずしも表してはいない。

【００１６】図２に示す機能ユニットを説明すると、中
央制御装置３６はユーザ入力装置２８、３０からの入力
を処理すると共に、ユーザによりディスク３８などの記
憶装置に格納されたデータとして、又は処理装置２４へ
送信される信号４０として処理装置２４に入力されるデ
ータを受信する。更に、中央制御装置３６はいくつかの
他の機能ユニットの制御とそれに関わる処理を実行す
る。メモリ４２は、中央制御装置３６及び他の機能ユニ
ットにより使用される。

【００１７】頭部追跡装置５０は、会議の参加者６、
８、１０、１２それぞれの頭部の位置と向きを三次元で
追跡するために、ビデオカメラ２−１、２−２、２−３
から受信される画像データを処理する。この実施形態で
は、この追跡を実行するために、頭部追跡装置５０はそ
れぞれの参加者の頭部の三次元コンピュータモデルを定
義するデータと、その顔の特徴を定義するデータとを使
用する。それらのデータは、後述するように、頭部モデ
ル記憶装置５２に格納されている。

【００１８】方向処理装置５３はマイクロホンアレイ４
からの音声データを処理して、マイクロホンにより記録
された音が受信された方向（１つ又は複数）を判定す
る。このような処理は、例えば、英国特許第２１４０５
５８号、米国特許４３３３１７０号及び米国特許第３３
９２３９２号に記載されているような従来の方式により
実行される。

【００１９】音声認識処理装置５４はマイクロホンアレ
イ４から受信された音声データを処理して、そこからテ
キストデータを生成する。すなわち、音声認識処理装置
５４は、「Dragon Dictate」又はIBMの「ViaVoice」などの
従来の音声認識プログラムに従って動作し、参加者６、
８、１０、１２が話した言葉に対応するテキストデータ
を生成する。音声認識処理を実行するため、音声認識処
理装置５４は、音声認識パラメータ記憶装置５６に格納
されている、参加者６、８、１０、１２ごとの音声認識
パラメータを定義するデータを使用する。すなわち、音
声認識パラメータ記憶装置５６に格納されているデータ
は、従来の方式により音声認識処理装置を訓練すること
により生成された各参加者の音声プロファイルを定義す
るデータである。

【００２０】アーカイブ処理装置５８は、頭部追跡装置
５０、方向処理装置５３及び音声認識処理装置５４から
受信したデータを使用して、会議アーカイブデータベー
ス６０に格納すべきデータを生成する。すなわち、後述
するように、カメラ２−１、２−２、２−３からの映像
データと、マイクロホンアレイ４からの音声データと
を、音声認識処理装置５４からのテキストデータ及び所
定の時点で会議の各参加者の視線の先にいる人物を定義
するデータと共に会議アーカイブデータベース６０に格
納する。

【００２１】テキストサーチャ６２は、中央制御装置３
６と関連して、会議の１つ又は複数の部分について、後
に詳細に説明するように、ユーザにより指定される探索
基準に適合する音声データ及び映像データを発見し、再
生すべく、会議アーカイブデータベース６０を探索する
ために使用される。

【００２２】表示プロセッサ６４は、中央制御装置３６
の制御の下に、表示装置２６を介してユーザに対し情報
を表示すると共に、会議アーカイブデータベース６０に
格納されている音声データと映像データを再生する。

【００２３】出力プロセッサ６６はアーカイブデータベ
ース６０のデータの一部又は全てを、例えば、ディスク
６８などの記憶装置に出力するか、あるいは信号７０と
して出力する。

【００２４】会議を始める前に、処理装置２４に必要な
処理動作を実行させることができるようにするために必
要なデータを入力することにより、コンピュータ２０を
初期設定しなければならない。

【００２５】図３は、この初期設定中に処理装置２４に
より実行される処理動作を示している。

【００２６】図３を参照して説明すると、まず、ステッ
プＳ１では、中央処理装置３６は、表示プロセッサ６４
にユーザが会議に参加するそれぞれの人物の名前を入力
することを要求するメッセージを表示装置２６に表示さ
せる。

【００２７】ステップＳ２では、中央制御装置３６は、
例えば、キーボード２８を使用してユーザにより入力さ
れた名前を定義するデータを受信して、各参加者にその
人独自の識別番号を割り当てると共に、識別番号と参加
者の名前との関係を定義するデータ、例えば、図４に示
すテーブル４を会議アーカイブデータベース６０に格納
する。ステップＳ３では、中央制御装置３６は、表示
プロセッサ６４に、会議中の相当に長い時間にわたって
人物が見ると思われ、会議アーカイブデータベース６０
にアーカイブデータを格納することが望まれる物体それ
ぞれの名前をユーザが入力することを要求するメッセー
ジを表示装置２６に表示させる。そのような物体として
は、例えば、図１に示すフリップチャート１４のような
フリップチャート、ホワイトボード又は黒板、テレビな
どが考えられるであろう。

【００２８】ステップＳ４では、中央制御装置３６は、
例えば、キーボード２８を使用してユーザにより入力さ
れた物体の名前を定義するデータを受信して、各々の物
体にそれ独自の識別番号を割り当てると共に、識別番号
と物体の名前との関係を定義するデータ、例えば、図４
に示すテーブル８０のデータを会議アーカイブデータベ
ースに格納する。

【００２９】ステップＳ６では、中央制御装置３６は、
会議の参加者ごとに頭部モデルが既に格納されているか
否かを判定するために、頭部モデル記憶装置５２を探索
する。

【００３０】ステップＳ６で、１人又は２人以上の参加
者について頭部モデルがまだ格納されていないと判定さ
れたならば、ステップＳ８で、中央制御装置３６は、表
示プロセッサ６４に、モデルがまだ格納されていない各
参加者の頭部モデルを定義するデータをユーザが入力す
ることを要求するメッセージを表示装置２６に表示させ
る。

【００３１】それに応答して、ユーザは、例えば、ディ
スク３８などの記憶媒体により又は接続している処理装
置からの信号４０としてデータをダウンロードすること
により、必要とされている頭部モデルを定義するデータ
を入力する。そのような頭部モデルは、従来の方法に従
って、例えば、Valente他の「An Analysis／SynthesisCo
operation for Head Tracking and Video Face Clonin
g」（ProceedingsECCV’98 Workshop on Perception of
Human Action、ドイツ、フライブルク大学、１９９８年
６月６日開催）に記載されている方法により生成されれ
ば良い。

【００３２】ステップＳ１０では、中央制御装置３６は
ユーザにより入力されたデータを頭部モデル記憶装置５
２に格納する。

【００３３】ステップＳ１２では、中央制御装置３６及
び表示プロセッサ６４はユーザにより入力されたそれぞ
れの三次元コンピュータ頭部モデルをレンダリングし
て、ユーザに対し、ユーザが各モデルの少なくとも７つ
の特徴を識別することを要求するメッセージと共にモデ
ルを表示装置２６に表示する。

【００３４】それに応答して、ユーザは、各モデル中
の、参加者の顔の正面、側面及び（可能であれば）背面
にある顕著な特徴、例えば、目の輪郭、鼻孔、口、耳又
は参加者がかけている眼鏡の特徴などに対応する点をマ
ウス３０を使用して指定する。

【００３５】ステップＳ１４では、中央制御装置３６
は、ユーザにより識別された特徴を定義するデータを頭
部モデル記憶装置５２に格納する。

【００３６】これに対し、ステップＳ６で、各参加者に
ついて、頭部モデルが既に頭部モデル記憶装置５２に格
納されていると判定された場合には、上記のステップＳ
８からＳ１４を省略する。

【００３７】ステップＳ１６では、中央制御装置３６
は、参加者ごとに音声認識パラメータが既に格納されて
いるか否かを判定するために、音声認識パラメータ記憶
装置５６を探索する。

【００３８】ステップＳ１６で、全ての参加者について
音声認識パラメータを利用できるわけではないと判定さ
れたならば、ステップＳ１８で、中央制御装置３６は、
表示プロセッサ６４に、パラメータがまだ格納されてい
ない各参加者についてユーザが音声認識パラメータを入
力することを要求するメッセージを表示装置２６に表示
させる。

【００３９】それに応答して、ユーザは、例えば、ディ
スク３８などの記憶媒体により又は遠隔処理装置からの
信号４０として、必要な音声認識パラメータを定義する
データを入力する。先に述べた通り、それらのパラメー
タはユーザの音声のプロファイルを定義するもので、音
声認識プロセッサを従来の方法で訓練することにより生
成される。従って、例えば、Dragon Dictateを装備した
音声認識プロセッサの場合、ユーザにより入力される音
声認識パラメータはDragon Dictateの「ユーザファイル」
に格納されるパラメータに相当する。

【００４０】ステップＳ２０では、中央制御装置３６
は、ユーザにより入力された音声認識パラメータを音声
認識パラメータ記憶装置５６に格納する。

【００４１】これに対し、ステップＳ１６で、参加者ご
とに音声認識パラメータが既に利用可能になっていると
判定された場合には、ステップＳ１８及びＳ２０を省略
する。

【００４２】ステップＳ２２では、中央制御装置３６
は、表示プロセッサ６４に、ユーザがカメラ２−１、２
−２及び２−３の校正を可能にするためのステップを実
行させることを要求するメッセージを表示装置２６に表
示させる。

【００４３】これに応答して、ユーザは必要なステップ
を実行し、ステップＳ２４では、中央制御装置３６はカ
メラ２−１、２−２及び２−３を校正するための処理を
実行する。すなわち、この実施形態においては、ユーザ
により実行されるステップ及び中央制御装置３６により
実行される処理は、Wiles及びDavisonの「Calibratingan
d 3D Modeling with a Multi−Camera System」（1999 I
EEE Workshop on Multi−View Modeling and Analysis
of Visual Scenes，ISBN 0769501109）に記載されてい
るような方式で実行される。これは、会議室に対する各
カメラ２−１、２−２及び２−３の位置と向きを定義す
る校正データと、各カメラの固有パラメータ（横縦比、
焦点距離、主点、一次半径方向ひずみ係数）とを生成す
る。カメラ校正データは、例えば、メモリ４２に格納さ
れる。

【００４４】ステップＳ２５では、中央制御装置３６
は、表示プロセッサ６４に、ステップＳ４で識別データ
を格納した物体それぞれの位置と向きを判定できるよう
にするためのステップをユーザが実行することを要求す
るメッセージを表示装置２６に表示させる。

【００４５】これに応答して、ユーザは必要なステップ
を実行し、ステップＳ２６では、中央制御装置３６は各
物体の位置と向きを判定するための処理を実行する。す
なわち、この実施形態では、ユーザは、会議の参加者が
見ると思われる物体の面の周囲、例えば、フリップチャ
ート１４の紙面の平面の周囲にカラーマーカーで点を書
く。その後、中央制御装置３６は、各々のカメラ２−
１、２−２及び２−３により記録された画像データをス
テップＳ２４で格納されたカメラ校正データを使用して
処理し、従来通りに、それぞれのカラーマーカーの三次
元位置を判定する。各カラーマーカーの位置を別個に推
定するために、この処理はカメラ２−１、２−２及び２
−３ごとに実行され、各カメラ２−１、２−２及び２−
３からのデータを使用して計算された位置から各マーカ
ーの位置の平均を判定する。各マーカーの平均位置を使
用して、中央制御装置３６は、従来の方式により、物体
の面の中心及び物体の面の向きを定義するための面垂線
を計算する。物体ごとに判定された位置と向きは、例え
ば、メモリ４２に物体校正データとして格納される。

【００４６】ステップＳ２７では、中央制御装置３６
は、表示プロセッサ６４に、会議の次の参加者（初めて
ステップＳ２７を実行するときには、これは最初の参加
者である）を着席させることを要求するメッセージを表
示装置２６に表示させる。

【００４７】ステップＳ２８では、処理装置２４は要求
された参加者が着席するまでの時間をとるために所定の
期間待機し、続くステップＳ３０では、中央制御装置３
６は、カメラごとの着席した参加者の頭部の推定位置を
判定するために、各カメラ２−１、２−２及び２−３か
らのそれぞれの画像データを処理する。すなわち、この
実施形態においては、中央制御装置３６は従来のように
カメラごとに別個に処理を実行して、参加者の肌の色に
対応する色を有するカメラからの画像データのフレーム
の中のそれぞれの位置を識別し（この色は、頭部モデル
記憶装置５２に格納されている参加者の頭部モデルを定
義するデータから判定される）、次に、（頭部は人体の
中で最も高い位置にある肌色の部分であると推定される
ため）会議室で最も高い位置に相当する部分を選択す
る。画像中の識別された部分の位置と、ステップＳ２４
で判定されたカメラ校正パラメータとを使用して、中央
制御装置３６は従来の方式により頭部の推定三次元位置
を判定する。カメラ２−１、２−２及び２−３ごとに別
個の推定頭部位置を得るために、この処理はカメラごと
に実行される。

【００４８】ステップＳ３２では、中央制御装置３６は
カメラ２−１、２−２及び２−３ごとに参加者の頭部の
三次元推定向きを判定する。すなわち、この実施形態に
おいては、中央制御装置３６は、頭部モデル記憶装置５
２に格納されている参加者の頭部の三次元コンピュータ
モデルをモデルの複数の異なる向きについてレンダリン
グして、向きごとに対応するモデルの二次元画像を作成
する。この実施形態では、参加者の頭部のコンピュータ
モデルを１０８の異なる向きについてレンダリングし
て、１０８枚の対応する二次元画像を作成する。これら
の向きは、０°（まっすぐに向いている場合）、＋４５
°（上を向いている場合）及び−４５°（下を向いてい
る場合）に相当する３つの頭部の傾きのそれぞれについ
て１０°ずつ頭部モデルを３６回転させた向きに相当し
ている。次に、中央制御装置３６はモデルの各二次元画
像を参加者の頭部を示すカメラ２−１、２−２、２−３
からのビデオフレームの部分と比較し、モデルの画像が
映像データと最も良く整合する向きを選択する。カメラ
ごとに別個の推定頭部向きを得るために、この比較と選
択はカメラごとに実行される。頭部モデルをレンダリン
グすることにより生成された画像データをカメラからの
映像データと比較するときには、例えば、Schodl、Haro
及びEssaの「Head Tracking Using a Textured Polygona
l Model」（Proceedings１９９８ Workshop on Perceptu
al User Interfacesに掲載）に記載されているような従
来の技法を使用する。

【００４９】ステップＳ３４では、ステップＳ３０で生
成した参加者の頭部のそれぞれの推定位置と、ステップ
Ｓ３２で生成した参加者の頭部のそれぞれの推定向きと
を頭部追跡装置５０に入力し、各々のカメラ２−１、２
−２及び２−３から受信した画像データのフレームを処
理して、参加者の頭部を追跡する。すなわち、この実施
形態においては、頭部追跡装置５０は、例えば、Valent
e他の「An Analysis／Synthesis Cooperation for Head
Tracking and Video Face Cloning」（Proceedings EECV
'98 Workshop on Perceptionof Human Action、ドイ
ツ、フライブルク大学、１９９８年６月）に記載されて
いるような従来の方式により頭部を追跡するために処理
を実行する。

【００５０】図５は、ステップＳ３４で頭部追跡装置５
０により実行される処理動作の概要を示す。

【００５１】図５を参照して説明すると、ステップＳ４
２−１からＳ４２−ｎ（この実施形態で使用するカメラ
は３台であるので、「ｎ」は３である）の各々において、
頭部追跡装置５０は会議を記録した、対応する１台のカ
メラからの画像データを処理して、そのカメラからの画
像データに含まれる参加者の頭部の特徴（ステップＳ１
４で格納されている）の位置を判定すると共に、そこか
ら、そのカメラからの画像データの現在フレームについ
て、参加者の頭部の三次元位置と向きを判定する。

【００５２】図６は、ステップＳ４２−１からS４２−n
のうち所定の１つのステップで実行される処理動作を示
す。これらの処理動作は各ステップで同一であるが、異
なるカメラからの画像データについて実行される。

【００５３】図６を参照して説明すると、ステップＳ５
０では、頭部追跡装置５０は、初めてステップＳ５０が
実行されるときに図３のステップＳ３０及びＳ３２で生
成される推定値である、参加者の頭部の現在推定３D位
置及び現在推定向きを読み取る。

【００５４】ステップＳ５２では、頭部追跡装置５０は
ステップＳ２４で生成されたカメラ校正データを使用し
て、ステップＳ５０で読み取られた推定位置及び推定向
きに従って、頭部モデル記憶装置５２に格納されている
参加者の頭部の三次元コンピュータモデルをレンダリン
グする。

【００５５】ステップＳ５４では、頭部追跡装置５０は
カメラから受信した映像データの現在フレームについて
画像データを処理して、ユーザにより識別され、ステッ
プＳ１４で識別された頭部の特徴の１つの期待位置を取
り囲む各領域からの画像データを取り出す。この期待位
置は、ステップＳ５０で読み取られた推定位置及び推定
向きと、ステップＳ２４で生成されたカメラ校正データ
とから判定される。

【００５６】ステップＳ５６では、頭部追跡装置５０は
ステップＳ５２で生成、レンダリングされた画像データ
と、ステップＳ５４で取り出されたカメラ画像データと
を整合して、レンダリングされた頭部モデルに最も良く
整合するカメラ画像データを求める。

【００５７】ステップＳ５８では、頭部追跡装置５０は
ステップＳ５６で識別された、レンダリングされた頭部
モデルに最も良く整合するカメラ画像データを、ステッ
プＳ２４（図３）で格納されていたカメラ校正データと
共に使用して、映像データの現在フレームについて参加
者の頭部の３D位置と向きを判定する。

【００５８】再び図５に戻ると、ステップＳ４４では、
頭部追跡装置５０はステップＳ４２−１からＳ４２−ｎ
のそれぞれで識別された、（図６のステップＳ５８で識
別された）レンダリングされた頭部モデルに最も良く整
合するカメラ画像データを使用して、映像データの現在
フレームについて参加者の頭部の平均３D位置と平均向
きを判定する。

【００５９】ステップＳ４４を実行すると同時に、ステ
ップＳ４６では、ステップＳ４２−１からＳ４２−ｎの
それぞれで判定されたカメラ画像データ中の頭部の特徴
の位置（図６のステップＳ５８で識別されている）を従
来のカルマンフィルタに入力して、映像データの次のフ
レームについて参加者の頭部の推定３Ｄ位置及び推定向
きを生成する。ビデオカメラ２−１，２−２及び２−３
から映像データのフレームが受信されるにつれて、参加
者についてステップＳ４２からＳ４６を繰り返し実行す
る。

【００６０】再び図３に戻ると、ステップＳ３６では、
中央制御装置３６は、会議に別の参加者がいるか否かを
判定し、各参加者に対して先に説明したように処理が実
行され終わるまで、ステップＳ２７からＳ３６を繰り返
す。しかし、これらのステップが参加者ごとに実行され
ている間、ステップＳ３４では、頭部追跡装置５０は既
に着席した各参加者の頭部を追跡し続けている。

【００６１】ステップＳ３６で、会議にそれ以上の参加
者がなく、従って、頭部追跡装置５０により各参加者の
頭部が追跡されていることが判定されると、ステップＳ
３８で、中央制御装置３６は、参加者間で会議を始めて
も良いことを指示するために、可聴信号を処理装置２４
から出力させる。

【００６２】図７は、参加者間で会議が行われていると
きに処理装置２４により実行される処理動作を示す。

【００６３】図７を参照すると、ステップＳ７０では、
頭部追跡装置５０は会議中の各参加者の頭部を追跡し続
けている。ステップＳ７０で頭部追跡装置５０により実
行される処理は、先にステップＳ３４に関して説明した
のと同じ処理であるので、ここでは繰り返し説明しな
い。

【００６４】頭部追跡装置５０がステップＳ７０で各参
加者の頭部を追跡しているのと同時に、ステップＳ７２
では、会議アーカイブデータベース６０に格納すべきデ
ータを生成し、それを格納するための処理を実行する。

【００６５】図８は、ステップＳ７２で実行される処理
動作を示す。

【００６６】図８を参照して説明すると、ステップＳ８
０では、アーカイブプロセッサ５８は、参加者がどの人
物又はどの物体を見ているかを定義するいわゆる「視線
パラメータ」を参加者ごとに生成する。

【００６７】図９は、ステップＳ８０で実行される処理
動作を示す。

【００６８】図９を参照すると、ステップＳ１１０で
は、アーカイブプロセッサ５８は頭部追跡装置５０から
各参加者の頭部の現在三次元位置を読み取る。これは、
ステップＳ４４（図５）で頭部追跡装置５０により実行
される処理により生成された平均位置である。

【００６９】ステップＳ１１２では、アーカイブプロセ
ッサ５８は頭部追跡装置５０から次の参加者（ステップ
Ｓ１１２を初めて実行するときには、これは最初の参加
者である）の頭部の現在向きを読み取る。ステップＳ１
１２で読み取られる向きは、ステップＳ４４（図５）で
頭部追跡装置５０により実行される処理で生成された平
均向きである。

【００７０】ステップＳ１１４では、アーカイブプロセ
ッサ５８は、参加者がどこを見ているかを定義する線
（いわゆる「視線」）と、その参加者の頭部を別の参加者
の頭部の中心と結ぶ概念上のそれぞれの線とが成す角度
を判定する。

【００７１】これを更に詳細に説明する。図１０及び図
１１を参照すると、ステップＳ１１４で実行される処理
の一例が１人の参加者、すなわち、図１の参加者６につ
いて示されている。図１０を参照すると、ステップＳ１
１２で読み取られる参加者の頭部の向きは、参加者の両
目の中心の間の一点から出る、参加者の頭部に対し垂直
な視線９０を定義する。同様に、図１１を参照すると、
ステップＳ１１０で読み取られた参加者の頭部全ての位
置は、参加者６の両目の中心の間の点からその他の参加
者８、１０、１２それぞれの頭部の中心に至る概念上の
線９２、９４、９６を定義する。ステップＳ１１４で実
行される処理では、アーカイブプロセッサ５８は視線９
０と、それぞれの概念上の線９２、９４、９６とが成す
角度９８、１００、１０２を判定する。

【００７２】再び図９に戻ると、ステップＳ１１６で
は、アーカイブプロセッサ５８は最小値を有する角度９
８、１００又は１０２を選択する。すなわち、図１１に
示す例でいえば、角度１００が選択されることになるで
あろう。

【００７３】ステップＳ１１８では、アーカイブプロセ
ッサ５８は、ステップＳ１１６で選択した角度が１０°
より小さいか否かを判定する。

【００７４】ステップＳ１１８で、角度が１０°より小
さいと判定されれば、ステップＳ１２０で、アーカイブ
プロセッサ５８は参加者の視線パラメータを、視線と最
小の角度を成す概念上の線により結ばれている参加者の
識別番号（図３のステップＳ２で割り当てられている）
に設定する。すなわち、図１１に示す例でいえば、角度
１００が１０°より小さければ、この角度１００は視線
９０と、参加者６を参加者１０と結ぶ概念上の線９４と
が成す角度であるので、視線パラメータは参加者１０の
識別番号に設定されることになるであろう。

【００７５】これに対し、ステップＳ１１８で、最小角
度が１０°以上であることが判定された場合には、ステ
ップＳ１２２で、アーカイブプロセッサ５８は先にステ
ップＳ２６（図３）で格納されていた各物体の位置を読
み取る。

【００７６】ステップＳ１２４では、アーカイブプロセ
ッサ５８は、参加者の視線９０がいずれかの物体の平面
と交わるか否かを判定する。

【００７７】ステップＳ１２４で、視線９０がある物体
の平面と交わると判定されれば、ステップＳ１２６で、
アーカイブプロセッサ５０は参加者の視線パラメータ
を、視線と交わる物体の識別番号（図３のステップＳ４
で割り当てられている）に設定する。視線と交わる物体
が２つ以上ある場合には、視線と交わる物体のうち、参
加者に最も近い物体を選択する。

【００７８】これに対し、ステップＳ１２４で、視線９
０が物体の平面と交わらないと判定された場合には、ス
テップＳ１２８で、アーカイブプロセッサ５８は参加者
の視線パラメータの値を「０」に設定する。これは、（視
線９０が概念上の線９２、９４、９６のいずれに対して
も十分な近さにないために）参加者は他の参加者のいず
れをも見ておらず、また、（視線９０と交わる物体がな
いために）参加者はどの物体も見ていないと判定された
ことを示す。このような状況は、例えば、ステップＳ４
でデータが格納されず且つステップＳ２６で校正されな
かった、会議室内のいずれかの物体を参加者が見ている
場合（例えば、図１に示す例では、参加者１２が持って
いるメモ）などに起こりうるであろう。

【００７９】ステップＳ１３０では、アーカイブプロセ
ッサ５８は会議に別の参加者がいるか否かを判定し、そ
れぞれの参加者について上述の処理が実行され終わるま
で、ステップＳ１１２からS１３０を繰り返す。

【００８０】再び図８に戻ると、ステップＳ８２では、
中央制御装置３６及び音声認識プロセッサ５４は、マイ
クロホンアレイ４から映像データの現在フレームに対応
する音声データが受信されたか否かを判定する。

【００８１】ステップＳ８２で、音声データが受信され
たと判定されれば、ステップＳ８４で、会議の参加者の
中で誰が話しているかを判定するための処理を実行す
る。

【００８２】図１２は、ステップＳ８４で実行される処
理動作を示す。

【００８３】図１２を参照して説明すると、ステップＳ
１４０では、方向プロセッサ５３はマイクロホンアレイ
４からの音声データを処理して、その音声が来ている方
向を判定する。この処理は、例えば、英国特許第２１４
０５５８号、米国特許第４３３３１７０号及び米国特許
第３３９２３９２号に記載されているような従来の方式
で実行される。

【００８４】ステップＳ１４２では、アーカイブプロセ
ッサ５８は、画像データの現在フレームについてステッ
プＳ４４（図５）で頭部追跡装置５０により判定された
各参加者の頭部の位置を読み取り、そこから、ステップ
Ｓ１４０で判定された方向、すなわち、音声が来ている
方向に対応する位置に頭部がある参加者は誰であるかを
判定する。

【００８５】ステップＳ１４４では、アーカイブプロセ
ッサ５８は、音声が来ている方向に２人以上の参加者が
いるか否かを判定する。

【００８６】ステップＳ１４４で、音声が来ている方向
に参加者が１人しかいないと判定されれば、ステップＳ
１４６で、アーカイブプロセッサ５８は、音声が来てい
る方向にいる参加者を画像データの現在フレームに関わ
る話者として選択する。

【００８７】これに対し、ステップＳ１４４で、音声が
来ている方向に対応する位置に頭部がある参加者は２人
以上いると判定された場合には、ステップＳ１４８で、
アーカイブプロセッサ５８は、それらの参加者の１人が
画像データの直前のフレームで話者として識別されてい
たか否かを判定する。

【００８８】ステップＳ１４８で、音声が来ている方向
にいる参加者の１人が画像データの直前のフレームで話
者として選択されていたと判定されれば、ステップＳ１
５０で、アーカイブプロセッサ５８は画像データの直前
のフレームで識別されていた話者を画像データの現在フ
レームについても話者として選択する。これは、画像デ
ータの直前のフレームの話者が現在フレームの話者と同
一である確率が高いからである。

【００８９】これに対し、ステップＳ１４８で、音声が
来ている方向にいる参加者がいずれも直前のフレームで
話者として識別された参加者ではないと判定された場
合、又は直前のフレームで識別されていた話者がいない
場合には、ステップＳ１５２で、アーカイブプロセッサ
５８は、音声が来ている方向にいるそれぞれの参加者を
「話者になりうる」参加者として選択する。

【００９０】再び図８に戻ると、ステップＳ８６では、
アーカイブプロセッサ５８は、話者である各参加者の視
線パラメータ値、すなわち、ステップＳ８０で判定され
た、話者である各参加者が誰を又は何を見ているかを定
義する視線パラメータ値を、後の解析に備えて、例え
ば、メモリ４２に格納する。

【００９１】ステップＳ８８では、アーカイブプロセッ
サ５８は、ステップＳ８４で判定された話者である各参
加者のアイデンティティを音声認識プロセッサ５４に報
知する。これに応答して、音声認識プロセッサ５４は話
者である参加者の音声認識パラメータを音声認識パラメ
ータ記憶装置５６から選択し、選択されたパラメータを
使用して、受信した音声データについて音声認識処理を
実行し、話者である参加者が話した言葉に対応するテキ
ストデータを生成する。

【００９２】これに対し、ステップＳ８２で、受信した
音声データが話し言葉を含んでいないと判定された場合
には、ステップＳ８４からS８８を省略する。

【００９３】ステップＳ８９では、アーカイブプロセッ
サ５８は、会議アーカイブデータベース６０にどの画像
データを格納すべきか、すなわち、カメラ２−１、２−
２及び２−３のうちどのカメラからの画像データを格納
すべきかを判定する。図１３は、ステップＳ８９でアー
カイブプロセッサ５８により実行される処理動作を示
す。

【００９４】図１３を参照すると、ステップＳ１６０で
は、アーカイブプロセッサ５８は、画像データの現在フ
レームについてステップＳ８２（図８）で話し言葉が検
出されたか否かを判定する。ステップＳ１６０で、現在
フレームについては話し言葉が存在しないと判定された
ならば、ステップＳ１６２で、アーカイブプロセッサ５
８は、画像データを格納すべきカメラとしてデフォルト
カメラを選択する。すなわち、この実施形態において
は、アーカイブプロセッサ５８は直前のフレームで画像
データが記録されたカメラを選択する。処理中の現在フ
レームが最初のフレームである場合には、アーカイブプ
ロセッサ５８はカメラ２−１、２−２、２−３の１台を
無作為に選択する。

【００９５】これに対し、ステップＳ１６０で、処理中
の現在フレームについて話し言葉が存在すると判定され
た場合には、ステップＳ１６４で、アーカイブプロセッ
サ５８は、次の話者である参加者（ステップＳ１６４を
初めて実行するときには、これは最初の話者である参加
者となる）についてステップＳ８６で先に格納された視
線パラメータを読み取り、その話者である参加者が見て
いる人物又は物体を判定する。

【００９６】ステップＳ１６６では、アーカイブプロセ
ッサ５８は、現在考慮されている話者である参加者の
（図５のステップＳ４４で判定された）頭部の位置と向
きを、話者である参加者の視線の先にいる参加者の頭部
の位置と向き（図５のステップＳ４４で判定されてい
る）、又は話者である参加者の視線の先にある物体の位
置と向き（図３のステップＳ２６で格納されている）と
共に読み取る。

【００９７】ステップＳ１６８では、アーカイブプロセ
ッサ５８はステップＳ１６６で読み取られた位置と向き
を処理して、カメラ２−１、２−２、２−３のうち、話
者である参加者と、その話者である参加者が見ている参
加者又は物体の双方を最も良く示しているカメラはどれ
であるかを判定し、このカメラを現在フレームの画像デ
ータを会議アーカイブデータベース６０に格納すべきカ
メラとして選択する。

【００９８】図１４は、ステップＳ１６８でアーカイブ
プロセッサ５８により実行される処理動作を示す。

【００９９】図１４を参照して説明すると、ステップＳ
１７６では、アーカイブプロセッサ５８は次のカメラ
（ステップＳ１７６を初めて実行するときには、これは
最初のカメラである）の三次元位置と視野方向を読み取
る。この情報は先に図３のステップＳ２４で生成され、
格納されている。

【０１００】ステップＳ１７８では、アーカイブプロセ
ッサ５８はステップＳ１７６で読み取られた情報を、
（図５のステップＳ４４で判定された）話者である参加
者の頭部の三次元位置及び向きを定義する情報及び（図
５のステップＳ４４で判定された）話者である参加者の
視線の先にいる参加者の頭部の三次元位置及び向き又は
（図３のステップＳ２６で格納された）話者である参加
者の視線の先にある物体の三次元位置及び向きを定義す
る情報と共に使用して、話者である参加者と、その視線
の先にいる参加者又はその視線の先にある物体の双方が
現在考慮されているカメラの視野の中にあるか否か（す
なわち、現在考慮されているカメラが話者である参加者
と、その視線の先にいる参加者又はその視線の先にある
物体の双方を視野におさめることができるか否か）を判
定する。すなわち、この実施形態においては、アーカイ
ブプロセッサ５８は下記の式を評価し、全ての不等式が
成立した場合に、カメラは話者である参加者と、その視
線の先にいる参加者又はその視線の先にある物体の双方
を視野におさめることができると判定する。

【０１０１】

【数１】

【０１０２】

【数２】

【０１０３】

【数３】

【０１０４】

【数４】

【０１０５】ここで、（X_c，Y_c，Z_c）は、それぞれ、カ
メラの主点のx座標、y座標及びz座標（先に図３のステ
ップＳ２４で判定され、格納されている）であり、（dX
_c、dY_c，dZ_c）は、それぞれ、x方向、y方向及びz方向に
おけるカメラの視野方向（同様に、図３のステップＳ２
４で判定され、格納されている）を表し、θ_h及びθ
_vは、それぞれ、水平方向と垂直方向におけるカメラの
視野角度（同様に図３のステップＳ２４で判定され、格
納されている）であり、（X_p1、Y_p1，Z_p1）は、それぞ
れ、話者である参加者の頭部の中心のx座標、y座標及び
z座標（図５のステップＳ４４で判定されている）であ
り、（dX_p1、dY_p1，dZ_p1）は、それぞれ、話者である参
加者の視線９０の向き（同様に図５のステップＳ４４で
判定されている）を表し、（X_p2、Y_p2，Z_p2）は、それ
ぞれ、話者である参加者の視線の先にいる人物の頭部の
中心のx座標、y座標及びz座標（図５のステップＳ４４
で判定されている）、又は話者である参加者の視線の先
にある物体の面の中心のx座標、y座標及びz座標（図３
のステップＳ２６で判定されている）であり、（dX_p2、
dY_p2，dZ_p2）は、それぞれ、話者である参加者の視線の
先にいる参加者に視線９０のx方向、y方向及びz方向に
おける方向（同様に図５のステップＳ４４で判定されて
いる）、又は話者である参加者の視線の先にある物体の
面に対する垂線のx方向、y方向及びz方向における方向
（図３のステップＳ２６で判定されている）を表す。

【０１０６】ステップＳ１７８で、話者である参加者
と、話者である参加者の視線の先にいる人物又は視線の
先にある物体の双方をカメラが捉えることができると判
定されれば（すなわち、上記の式（１）、（２）、
（３）及び（４）における不等式が成立すれば）ステッ
プＳ１８０で、アーカイブプロセッサ５８は、現在考慮
されているカメラが話者である参加者を捉えている視野
の画質を表す値を計算し、格納する。すなわち、この実
施形態においては、アーカイブプロセッサ５８は、下記
の式を使用して、画質値Q１を計算する。

【０１０７】

【数５】

【０１０８】式中、用語の定義は先の式（１）及び
（２）に関して挙げた用語と同じである。

【０１０９】ステップＳ１８０で計算される画質値Q１
は、−１から＋１までの値を有するスカラであり、話者
である参加者の頭部の背面が直接にカメラに面している
場合には、この値は−１であり、話者である参加者の顔
面が直接にカメラに面している場合には、この値は＋１
であり、話者である参加者の頭部がその他の方向を向い
ているときには−１から＋１までの値をとる。

【０１１０】ステップＳ１８２では、アーカイブプロセ
ッサ５８は、考慮されているカメラが話者である参加者
の視線の先にいる参加者又は視線の先にある物体を捉え
ている視野の画質を表す値を計算し、格納する。すなわ
ち、この実施形態においては、アーカイブプロセッサ５
８は、下記の式を使用して、画質値Q２を計算する。

【０１１１】

【数６】

【０１１２】式中、パラメータの定義は先の式（３）及
び（４）に関して挙げた用語と同じである。

【０１１３】Q２も、同様に、−１から＋１までの値を
取るスカラであり、参加者の頭部の背面又は物体の面の
背面が直接にカメラに面している場合には−１であり、
参加者の顔面又は物体の正面が直接にカメラに面してい
る場合には＋１になる。参加者の頭部又は物体の面がそ
の他の方向を向いているときには、その間の値をとる。

【０１１４】ステップＳ１８４では、アーカイブプロセ
ッサ５８は、ステップＳ１８０で計算された画質値Q１
をステップＳ１８２で計算された画質値Q２と比較し、
最小値を選択する。この最小値は、カメラが話者である
参加者、あるいは話者である参加者の視線の先にいる参
加者又は視線の先にある物体を捉えるときの「最悪の視
野」を示す（最悪の視野は、話者である参加者について
はQ１がQ２より小さい場合の視野であり、話者である参
加者の視線の先にいる参加者又は視線の先にある物体に
ついては、Q２がQ１より小さい場合の視野である）。

【０１１５】これに対し、ステップＳ１７８で、式
（１）、（２）、（３）及び（４）の不等式のいずれか
１つ又は２つ以上が成立しない（すなわち、カメラが話
者である参加者と、話者である参加者の視線の先にいる
参加者又は視線の先にある物体の双方を捉えることがで
きない）と判定された場合には、ステップＳ１８０から
S１８４を省略する。

【０１１６】ステップＳ１８６では、アーカイブプロセ
ッサ５８は、受信画像データを提供したカメラが他に存
在するか否かを判定する。カメラごとに上述の処理が実
行され終わるまで、ステップＳ１７６からS１８６を繰
り返す。

【０１１７】ステップＳ１８８では、アーカイブプロセ
ッサ５８は、ステップＳ１８４で処理を実行したときに
カメラごとに格納された「最悪の視野」の値（すなわち、
ステップＳ１８４でカメラごとに格納された値Q１又はQ
２）を比較し、それらの格納値の中の最大値を選択す
る。この最大値は「最良の最悪視野」を表し、従って、ス
テップＳ１８８では、アーカイブプロセッサ５８は、ス
テップＳ１８４でこの「最良の最悪視野」値が格納された
カメラを会議アーカイブデータベースに格納すべき画像
データを提供するカメラとして選択する。これは、この
カメラが話者である参加者と、話者である参加者の視線
の先にいる参加者又は視線の先にある物体の双方を捉え
る最良の視野を有するからである。

【０１１８】ステップＳ１７０では、アーカイブプロセ
ッサ５８は、話者に「なりうる」参加者を含めて、他の話
者である参加者が存在するか否かを判定する。話者であ
る参加者ごとに、また、話者に「なりうる」参加者ごと
に、上述の処理が実行され終わるまで、ステップＳ１６
４からＳ１７０を繰り返す。

【０１１９】再び図８に戻ると、ステップＳ９０では、
アーカイブプロセッサ５８は、ステップＳ８９で選択し
たカメラから受信された映像データの現在フレームと、
マイクロホンアレイ４から受信された音声データとを従
来の方式によりMPEG２データとして符号化し、符号化さ
れたデータを会議アーカイブデータベース６０に格納す
る。

【０１２０】図１５は、会議アーカイブデータベース６
０におけるデータの格納状態を概略的に示す。図１５に
示す格納構造は概念上のものであり、格納される情報の
連係を例示することにより理解を助けるために示されて
いる。従って、この格納構造は会議アーカイブデータベ
ース６０を構成するメモリにデータが格納される厳密な
状態を必ずしも表してはいない。

【０１２１】図１５を参照して説明すると、会議アーカ
イブデータベース６０は水平軸２００により表される情
報を格納している。水平軸２００上の各単位は所定の量
の時間、例えば、カメラから受信される映像データの１
つのフレームの時間周期を表す。（会議アーカイブデー
タベース６０が一般に図１５に示す数より多くの時間単
位を含むことは言うまでもなく理解されるであろう。）
ステップＳ９０で生成されたMPEG２データは、時間情報
（この時間情報は図１５には水平軸２００に沿ったMPEG
２データ２０２の位置により概略的に表されている）と
共に、データ２０２として会議アーカイブデータベース
６０に格納されている。

【０１２２】再び図８に戻ると、ステップＳ９２では、
アーカイブプロセッサ５８は、現在フレームについてス
テップＳ８８で音声認識プロセッサ５４により生成され
たテキストデータを会議アーカイブデータベース６０に
格納する（図１５には２０４で示されている）。すなわ
ち、テキストデータは対応するMPEG２データとのリンク
を保ちながら格納され、このリンクは図１５には、テキ
ストデータがMPEG２データと同じ縦列に格納されるもの
として表されている。図からわかるように、話をしてい
ない参加者からは格納すべきテキストデータは得られな
い。図１５に示す例においては、テキストは参加者１に
関しては初めの１０個のタイムスロットに格納され（２
０６で示す）、参加者３については１２番目から２０番
目のタイムスロットに格納され（２０８で示す）、参加
者４については２１番目のタイムスロットに格納されて
いる（２１０で示す）。この例では、参加者２は図１５
に示すタイムスロットの間には話をしていなかったの
で、参加者２についてはテキストは格納されていない。

【０１２３】ステップＳ９４では、アーカイブプロセッ
サ５８は、ステップＳ８０で参加者ごとに現在フレーム
について生成された視線パラメータ値を会議アーカイブ
データベース６０に格納する（図１５には２１２で示
す）。図１５を参照すると、視線パラメータ値は、参加
者ごとに、関連するMPEG２データ２０２及び関連するテ
キストデータ２０４と共に格納されている（このリンク
は、図１５では、視線パラメータ値が関連するMPEG２デ
ータ２０２及び関連するテキストデータ２０４と同じ列
にあることにより表されている）。すなわち、一例とし
て図１５の第１のタイムスロットを参照すると、参加者
１の視線パラメータ値は、参加者１が参加者３を見てい
ることを示す３であり、参加者２の視線パラメータ値
は、参加者２がフリップチャート１４を見ていることを
示す５であり、参加者３の視線パラメータ値は、参加者
３が参加者１を見ていることを示す１であり、参加者４
の視線パラメータ値は、参加者４がその他の参加者の誰
も見ていないことを示す「０」である（図１に示す例で
は、１２で指示される参加者はその他の参加者ではな
く、自分のメモを見ている）。

【０１２４】ステップＳ９６では、中央制御装置３６は
及びアーカイブプロセッサ５８は、会議の参加者の１人
が話し終えたか否かを判定する。この実施形態において
は、この検査は、所定の参加者についてテキストデータ
が直前のタイムスロットでは存在していたが、現在タイ
ムスロットでは存在しないことを判定するためにテキス
トデータ２０４を検査することにより実行される。いず
れかの参加者がこの条件を満たすのであれば（すなわ
ち、参加者が話を止めていれば）、ステップＳ９８で、
アーカイブプロセッサ５８は、話を止めた参加者のそれ
ぞれについてステップＳ８６を実行したときに先に格納
されていた視線パラメータ値を処理して（これらの視線
パラメータ値は、現時点では終了している話をしていた
期間中にその参加者が誰を又は何を見ていたかを定義す
る）、視線ヒストグラムを定義するデータを生成する。
すなわち、参加者が話をしていた期間における視線パラ
メータ値を処理して、話者である参加者がその他の参加
者及び物体の各々を見ていた時間の割合（％）を定義す
るデータを生成する。

【０１２５】図１６A及び図１６Bは、図１５のテキスト
２０６及び２０８にそれぞれ対応する期間に対応する視
線ヒストグラムを示す。

【０１２６】図１５及び図１６Aを参照して説明する
と、参加者１が話していた期間２０６、参加者１は１０
個のタイムスロットのうち６個の間（すなわち、参加者
１が話していた期間全体の長さの６０％）は参加者３を
見ており（図１６Aには３００で示されている）、１０
個のタイムスロットのうち４個の間（すなわち、時間全
体の４０％）は参加者４を見ていた（図１６Aには３１
０で示されている）。

【０１２７】同様に、図１５及び図１６Bを参照する
と、期間２０８の間、参加者３は時間の約４５％につい
ては参加者１を見ており（図１６Bには３２０で示され
ている）、時間の約３３％については物体５（すなわ
ち、フリップチャート１４）を見ており（図１６Bには
３３０で示されている）、時間の約２２％については参
加者２を見ていた（図１６Bには３４０で示されてい
る）。

【０１２８】再び図８に戻ると、ステップＳ１００で
は、ステップＳ９８で生成した各視線ヒストグラムをそ
れが生成されたテキスと関連する期間にリンクする会議
アーカイブデータベース６０に格納する。図１５を参照
すると、格納された視線ヒストグラムは２１４で示され
ており、テキスト期間２０６のヒストグラムを定義する
データは２１６で示されており、テキスト期間２０８の
ヒストグラムを定義するデータは２１８で示されてい
る。図１５において、視線ヒストグラムと関連するテキ
ストとの間のリンクは、視線ヒストグラムがテキストデ
ータと同じ列に格納されることにより表されている。

【０１２９】これに対し、ステップＳ９６で、現在時間
周期については参加者の１人が話を止めていないことが
判定された場合には、ステップＳ９８及びS１００を省
略する。

【０１３０】ステップＳ１０２では、アーカイブプロセ
ッサ５８は、映像データの直前のフレーム（すなわち、
ステップＳ８０からS１００でデータが生成、格納され
たばかりのフレームの直前のフレーム）及びそれ以前の
フレームについて、必要に応じて、会議アーカイブデー
タベース６０に格納されているデータを修正する。

【０１３１】図１７は、ステップＳ１０２でアーカイブ
プロセッサ５８により実行される処理動作を示す。

【０１３２】図１７を参照すると、ステップＳ１９０で
は、アーカイブプロセッサ５８は、１つ前のフレーム
（初めてステップＳ１９０を実行する場合には、これは
現在フレームの直前のフレームということになる。すな
わち、現在フレームを「ｉ」番目のフレームとすれば、
「ｉ−１」番目のフレーム）について、話者に「なりうる」
参加者に関するデータが会議アーカイブデータベース６
０に格納されているか否かを判定する。

【０１３３】ステップＳ１９０で、考慮すべき直前のフ
レームについて話者に「なりうる」参加者のデータが格納
されていないと判定されれば、会議アーカイブデータベ
ース６０のデータを修正する必要はない。

【０１３４】これに対し、ステップＳ１９０で、考慮す
べき直前のフレームについて話者に「なりうる」参加者の
データが格納されていると判定された場合には、ステッ
プＳ１９２で、アーカイブプロセッサ５８は、直前のフ
レームについてデータが格納されていた話者に「なりう
る」参加者の１人が現在フレームについて識別されてい
る話者である参加者（話者に「なりうる」参加者ではな
い）、すなわち、図１２のステップＳ１４６で識別され
た話者である参加者と同１人物であるか否かを判定す
る。

【０１３５】ステップＳ１９２で、直前のフレームの話
者に「なりうる」参加者がいずれも現在フレームについて
ステップＳ１４６で識別された話者である参加者と同じ
ではないと判定されれば、考慮すべき直前のフレームに
ついて会議アーカイブデータベース６０に格納されてい
るデータの修正を実行しない。

【０１３６】これに対し、ステップＳ１９２で、直前の
フレームの話者に「なりうる」参加者が現在フレームにつ
いてステップＳ１４６で識別された話者である参加者と
同じであると判定された場合には、ステップＳ１９４
で、アーカイブプロセッサ５８は、現在フレームの話者
である参加者と同じではない話者に「なりうる」参加者の
各々について、考慮すべき直前のフレームに関わるテキ
ストデータ２０４を会議アーカイブデータベース６０か
ら削除する。

【０１３７】以上説明したステップＳ１９０、Ｓ１９２
及びＳ１９４の処理を実行することにより、現在フレー
ムの画像データ及び音声データの処理によってある話者
が明確に識別された場合、現在フレームにおける話者は
直前のフレームにおける話者と同１人物であると言う仮
定を利用して、話者に「なりうる」参加者について格納さ
れている直前のフレームのデータを更新する（すなわ
ち、話者を曖昧でなく識別することが不可能であったた
めである）。

【０１３８】ステップＳ１９４を実行した後、１つ前の
フレームについてステップＳ１９０からＳ１９４を繰り
返す。すなわち、現在フレームを「ｉ」番目のフレームと
すれば、初めてステップＳ１９０からＳ１９４を実行す
るときに「ｉ−１」番目のフレームを考慮し、２度目にス
テップＳ１９０からS１９４を実行するときには「ｉ−
２」番目のフレームを考慮する。以下、同様である。ス
テップＳ１９０で、話者に「なりうる」参加者のデータが
考慮すべき直前のフレームについては格納されていない
と判定されるか、又はステップＳ１９２で、考慮すべき
直前のフレームにおける話者に「なりうる」参加者のいず
れも現在フレームについて明確に識別された話者である
参加者と同じではないと判定されるまで、ステップＳ１
９０からS１９４を繰り返し続ける。このようにして、
いくつかの連続するフレームにわたって話者に「なりう
る」参加者が識別された場合、話者に「なりうる」参加者
の中の実際の話者である参加者が次のフレームで識別さ
れれば、会議アーカイブデータベースに格納されている
データを修正する。

【０１３９】再び図８に戻ると、ステップＳ１０４で
は、中央制御装置３６は、カメラ２−１、２−２、２−
３から映像データの別のフレームが受信されたか否かを
判定する。カメラ２−１、２−２、２−３から画像デー
タが受信されている間、ステップＳ８０からS１０４を
繰り返し実行する。

【０１４０】会議アーカイブデータベース６０にデータ
が格納されている場合、会議に関連するデータを検索す
るために、会議アーカイブデータベース６０を問い合わ
せても良い。

【０１４１】図１８は、ユーザが指定する探索基準を満
たす会議の各部分に関連するデータを検索する目的で会
議アーカイブデータベース６０を探索するために実行さ
れる処理動作を示す。

【０１４２】図１８を参照して説明すると、ステップＳ
２００では、中央制御装置３６は表示プロセッサ６４
に、要求される会議アーカイブデータベース６０の探索
を定義する情報をユーザが入力することを要求するメッ
セージを表示装置２６に表示させる。すなわち、この実
施形態においては、中央制御装置３６は図１９Aに示す
ものを表示装置２６に表示させることになる。

【０１４３】図１９Aを参照すると、ユーザは、会議ア
ーカイブデータベース６０中で見出すことを望む会議の
１つ又は複数の部分を定義する情報を入力することを求
められる。すなわち、この実施形態においては、ユーザ
は話をしていた参加者を定義する情報４００と、情報４
００の中で識別される参加者が話した１つ又は複数のキ
ーワードから成る情報４１０と、情報４００の中で識別
される参加者が話している間に見ていた参加者又は物体
を定義する情報４２０とを入力することを求められる。
更に、ユーザは、探索を実行すべき会議の部分を定義す
る時間情報を入力することができる。すなわち、ユーザ
は、探索を打ち切るべき会議中の時間（すなわち、指定
時間の前の会議の期間を探索することになる）を定義す
る情報４３０と、その時間の後から探索を実行すべき会
議中の時間を定義する情報４４０と、探索を実行すべき
開始時間と終了時間をそれぞれ定義する情報４５０及び
４６０とを入力できる。この実施形態では、情報４３
０、４４０、４５０及び４６０は、例えば、分単位の絶
対期限を指定するか、又は会議時間全体に占める割合を
指示する小数値を入力するという方法により相対期限を
指定することにより入力されれば良い。例えば、情報４
３０として値０．２５を入力すると、探索時間は会議の
初めの四分の一に制限されることになるであろう。

【０１４４】本実施形態では、ユーザは一回の探索で情
報４００、４１０及び４２０の全てを入力する必要はな
く、これらの情報のうち１つ又は２つを省いても差し支
えない。ユーザが情報４００、４１０及び４２０の全て
を入力すると、情報４００の中で識別される参加者が情
報４２０の中で識別される参加者又は物体に対して話を
していた会議中の各部分及び情報４１０の中で定義され
るキーワードを話した各部分を識別するための探索が実
行される。これに対し、情報４１０を省いた場合には、
情報４００の中で定義される参加者が何を話したかには
関係なく、参加者が情報４２０の中で定義される参加者
又は物体に対して話をしていた会議中の各部分を識別す
るための探索が実行される。情報４１０及び４２０を省
いた場合には、何を誰に話したかには関係なく、情報４
００で定義される参加者が話していた会議の各部分を識
別するための探索が実行される。情報４００を省いた場
合には、いずれかの参加者が情報４２０の中で定義され
る参加者又は物体を見ている間に情報４１０の中で定義
されるキーワードを話した会議中の各部分を識別するた
めの探索が実行される。情報４００及び４１０を省いた
場合には、いずれかの参加者が情報４２０の中で定義さ
れる参加者又は物体に対して話をした会議中の各部分を
識別するための探索が実行される。情報４２０を省いた
場合には、情報４００の中で定義される参加者が誰にキ
ーワードを話したかに関わらず情報４１０の中で定義さ
れるキーワードを話した会議中の各部分を識別するため
の探索が実行される。同様に、情報４００及び４２０を
省いた場合には、誰が誰にキーワードを話したかに関わ
らず、情報４１０の中で識別されるキーワードが話され
た会議中の各部分を識別するための探索が実行される。

【０１４５】更に、ユーザは時間情報４３０、４４０、
４５０及び４６０の全てを入力しても良いし、これらの
情報の１つ又は２つ以上を省いても良い。

【０１４６】また、探索時に言葉の組み合わせ又はその
言葉に代わる言葉を探索できるようにするために、情報
４１０の中で入力されるキーワードと組み合わせて周知
のブール演算子及び探索アルゴリズムを使用しても良
い。

【０１４７】ユーザが探索を定義するために要求される
情報の全てを入力したならば、マウス３０などのユーザ
入力装置を使用して領域４７０をクリックすることによ
り探索を開始する。

【０１４８】再び図１８に戻ると、ステップＳ２０２で
は、ユーザにより入力された探索情報を中央制御装置３
６により読み取り、命令された探索を実行する。すなわ
ち、この実施形態においては、中央制御装置３６は、情
報４００又は４２０により入力された参加者又は物体の
名前をテーブル８０（図４）を使用して識別番号に変換
し、情報４００の中で定義されている参加者（情報４０
０が入力されなかった場合には全ての参加者）について
テキスト情報２０４を考慮する。ユーザにより情報４２
０が入力されていれば、テキストの期間ごとに、中央制
御装置３６は対応する視線ヒストグラムを定義するデー
タを検査して、情報４２０の中で定義されている参加者
又は物体のヒストグラムにおける視線を受けている時間
の割合がこの実施形態では２５％である閾値以上である
か否かを判定する。このようにして、発言（テキスト）
の各期間を考慮し、情報４００の中で定義されている参
加者がその発言の時間の少なくとも２５％にわたり情報
４２０の中で定義されている参加者又は物体を見ていた
ならば、話者である参加者が話している間に他の参加者
又は物体を見ていたとしても、話者である参加者は情報
４２０の中で定義されている参加者又は物体に向かって
話していたという基準を満たすことになる。従って、例
えば、２人以上の参加者が情報４２０の中で指定されて
いた場合には、それらの参加者について視線ヒストグラ
ムの値が２５％以上である話の期間が識別されることも
あるだろう。ユーザにより情報４１０が入力されていれ
ば、中央制御装置３６及びテキストサーチャ６２は、情
報４００及び４２０に基づいて先に識別されたテキスト
の各部分（情報４００及び４２０が入力されなかった場
合にはテキストの全ての部分）を探索して、情報４１０
の中で識別されているキーワードを含む部分を識別す
る。ユーザにより時間情報が入力されていれば、上記の
探索はそれらの時間情報の制限により定義される会議時
間に限られる。

【０１４９】ステップＳ２０４では、中央制御装置３６
は表示プロセッサ６４に、探索中に識別された関連する
発言のリストを表示装置２６を介してユーザに対し表示
させる。すなわち、中央制御装置３６は図１９Bに示す
ような情報をユーザに対し表示させる。図１９Bを参照
すると、探索パラメータを満足させる発言についてリス
トが作成されており、その発言の開始時間を絶対期間と
して定義すると共に、会議時間全体に占める割合として
も定義する情報が表示される。そこで、ユーザは、例え
ば、マウス３０を使用してリストの必要な発言の場所を
クリックすることにより、再生のために発言の１つを選
択することができる。

【０１５０】ステップＳ２０６では、中央制御装置３６
はステップＳ２０４でユーザにより行われた選択を読み
取り、会議の関連部分の格納されているMPEG２データ２
０２を会議アーカイブデータベース６０から再生する。
すなわち、中央制御装置３６及び表示プロセッサ６４は
MPEG２データ２０２を復号し、表示装置２６を介して画
像データと音声データを出力する。発言の一部又は全体
について、再生すべきデータとして２台以上のカメラか
らの画像データが格納されている場合には、そのことを
表示装置２６を介してユーザに指示する。そこで、ユー
ザは、例えば、キーボード２８を使用して中央制御装置
３６に命令を入力することにより、再生すべき画像デー
タを選択することができる。

【０１５１】ステップＳ２０８では、中央制御装置３６
は、ユーザが会議アーカイブデータベース６０の問い合
わせを中止することを望むか否かを判定し、望まないの
であれば、ステップＳ２００からS２０８を繰り返す。

【０１５２】以上説明した本発明の実施形態について
は、様々な変形や変更を行うことができる。

【０１５３】例えば、上記の実施形態では、マイクロホ
ンアレイ４は、受信した音声がどの方向から来たかを判
定するために、会議室のテーブルの上に置かれていた。
しかし、その代わりに、会議中の参加者ごとに対応する
１台のマイクロホンを設けても良い（参加者の衣服に装
着するマイクロホンなど）。このようにすると、参加者
の音声データがそれぞれ対応するチャネルを介して処理
装置２４に入力されるので、話者である参加者を容易に
識別できる。

【０１５４】上記の実施形態では、ステップＳ３４（図
３）及びステップＳ７０（図７）において、会議中の各
参加者の頭部を追跡していた。しかし、それに加えて、
ステップＳ４及びS２６でデータを格納した物体が移動
する物体（例えば、参加者が回覧すると思われるメモ、
又は参加者の間で手渡されるべき物体）である場合に
は、そのような物体を追跡することも可能であろう。

【０１５５】上記の実施形態では、ステップＳ１６８
（図１３）において、話者である参加者を最も良く視野
に捉えているカメラと、話者である参加者の視線の先に
いる参加者又は視線の先にある物体とを識別するための
処理を実行していた。しかし、カメラを先の実施形態で
説明した方法により識別するのではなく、ユーザが処理
装置２４の初期設定中に、会議テーブルを囲む２つずつ
の着席位置を最も良く視野に捉えるのはカメラ２−１、
２−２、２−３のうちどのカメラであるか及び／又はそ
れぞれの着席位置と所定の物体（フリップチャート１４
など）を最も良く視野に捉えるのはどのカメラであるか
を定義することが可能である。このようにして、話者で
ある参加者と、話者である参加者の視線の先にいる参加
者とがあらかじめ定義された着席位置にいることが判定
された場合、ユーザがそれらのあらかじめ定義された着
席位置を最も良く捉えると定義したカメラを画像データ
を格納すべきカメラとして選択することができる。同様
に、話者である参加者があらかじめ定義された位置にあ
り且つある物体を見ている場合、ユーザがそのあらかじ
め定義された着席位置と物体を最も良く捉えると定義し
たカメラを画像データを格納すべきカメラとして選択す
ることができる。

【０１５６】上記の実施形態では、ステップＳ１６２
（図１３）において、直前のフレームについて画像デー
タが格納されたカメラをデフォルトカメラとして選択し
ていた。しかし、その代わりに、例えば、処理装置２４
の初期設定中にユーザがデフォルトカメラを選択しても
良い。

【０１５７】上記の実施形態では、ステップＳ１９４
（図１７）において、その時点で実際には話者である参
加者ではないと識別されている話者に「なりうる」参加者
について、会議アーカイブデータベース６０からテキス
トデータ２０４を削除していた。しかし、これに加え
て、関連する視線ヒストグラムデータ２１４をも削除し
て良い。更に、２台以上のカメラ２−１、２−２、２−
３からのMPEG２データ２０２を格納していた場合、その
話者に「なりうる」参加者に関連するMPEG２データも削除
して良い。

【０１５８】上記の実施形態では、話者である参加者を
唯一の話者として識別できない場合、話者に「なりうる」
参加者を定義し、話者になりうる参加者のデータを処理
して、会議アーカイブデータベース６０に格納し、その
後、会議アーカイブデータベース６０に格納されたデー
タを修正していた（図８のステップＳ１０２）。しか
し、話者に「なりうる」参加者のデータを処理し、格納す
るのではなく、カメラ２−１、２−２及び２−３から受
信した映像データと、マイクロホンアレイ４から受信し
た音声データとを格納しておき、後に、後続フレームに
関連するデータから話者である参加者が識別された時点
でデータを処理し、アーカイブしても良い。あるいは、
ステップＳ１１４（図１２）の処理を実行した結果、音
声が来ている方向に２人以上の参加者がいると指示され
た場合に、カメラ２−１、２−２及び２−３からの画像
データを処理して、参加者の唇の動きを検出し、音声が
来る方向にいて、唇が動いている参加者を話者である参
加者として選択しても良い。

【０１５９】上記の実施形態では、各人物の頭部の位置
と、各人物の頭部の向きと、人物ごとの、その人物が誰
を又は何を見ているかを定義する視線パラメータとを判
定するための処理を実行していた。その後、人物ごとの
視線パラメータ値を画像データのフレームごとに会議ア
ーカイブデータベース６０に格納する。しかし、全ての
人物について視線パラメータを判定する必要はない。例
えば、話者である参加者に限って視線パラメータを判定
し、画像データのフレームごとにこの視線パラメータ値
のみを会議アーカイブデータベース６０に格納すること
が可能である。従って、この場合には、話者である参加
者の頭部の向きを判定することだけが必要になるであろ
う。このようにすれば、処理及び格納に課される負担を
軽減することができる。

【０１６０】上記の実施形態では、ステップＳ２０２
（図１８）において、テキストの特定の部分について視
線ヒストグラムを考慮し、視線ヒストグラムにおいて別
の参加者又は物体を見ている時間が占める割合が所定の
閾値以上である場合に、参加者はその別の参加者又は物
体に対して話していたと判定していた。しかし、閾値を
使用する代わりに、テキスト（発言）の期間中に話者で
ある参加者が見ていた参加者又は物体を視線ヒストグラ
ムの中で最も大きな割合の注目値を有する参加者又は物
体（例えば、図１６Aでは参加者３、図１６Bでは参加者
１）であると定義しても良い。

【０１６１】上記の実施形態では、カメラ２−１、２−
２、２−３及びマイクロホンアレイ４からデータが受信
されている間、リアルタイムでMPEG２データ２０２と、
テキストデータ２０４と、視線パラメータ２１２と、視
線ヒストグラム２１４を会議アーカイブデータベース６
０に格納していた。しかし、その代わりに、映像データ
と音声データを格納し、リアルタイムではなくデータ２
０２、２０４、２１２及び２１４を生成して、会議アー
カイブデータベース６０に格納しても良い。

【０１６２】上記の実施形態では、会議の定義された部
分に関わるデータを検索するために会議アーカイブデー
タベース６０が問い合わされる前に、MPEG２データ２０
２、テキストデータ２０４、視線パラメータ２１２及び
視線ヒストグラム２１４を生成し、会議アーカイブデー
タベース６０に格納していた。しかし、ユーザの要求の
前に視線ヒストグラムデータ２１４を生成、格納してお
くのではなく、ユーザにより要求される会議アーカイブ
データベース６０の探索に応答して、既に会議アーカイ
ブデータベース６０に格納されているデータを処理する
ことにより、視線ヒストグラムデータ２１４の一部又は
全てを生成しても良い。例えば、上記の実施形態では視
線ヒストグラム２１４はステップＳ９８及びS１００
（図８）でリアルタイムで計算、格納されていたが、ユ
ーザにより入力される探索要求に応答してそれらのヒス
トグラムを計算することも可能であろう。

【０１６３】上記の実施形態では、テキストデータ２０
４を会議アーカイブデータベース６０に格納していた。
テキストデータ２０４の代わりに、音声データを会議ア
ーカイブデータベース６０に格納しても良い。その後、
格納されている音声データを音声認識処理を利用してキ
ーワードを求めて探索しても良いし、あるいは音声認識
処理を使用して音声データをテキストに変換し、従来の
テキストサーチャを使用してテキストサーチを実行して
も良い。

【０１６４】上記の実施形態では、処理装置２４はアー
カイブすべきデータを受信し、生成するための機能構成
要素（例えば、中央制御装置３６、頭部追跡装置５０、
頭部モデル記憶装置５２、方向プロセッサ５３、音声認
識プロセッサ５４、音声認識パラメータ記憶装置５６及
びアーカイブプロセッサ５８）と、アーカイブデータを
格納するための機能構成要素（例えば、会議アーカイブ
データベース６０）と、データベースを探索し、そこか
ら情報を検索するための機能構成要素（例えば、中央制
御装置３６及びテキストサーチャ６２）とを含む。しか
し、これらの機能構成要素を別個の装置に設けても良
い。例えば、アーカイブすべきデータを生成するための
１つ又は複数の装置と、データベース探索のための１つ
又は複数の装置をインターネットなどのネットワークを
介して１つ又は複数のデータベースに接続しても良い。

【０１６５】また、図２０を参照して説明すると、１箇
所又は２箇所以上で行われている会議５００、５１０、
５２０からの映像データと音声データをデータ処理・デ
ータベース格納装置５３０（アーカイブデータを生成、
格納するための機能構成要素を具備する）に入力し、１
つ又は複数のデータベース問い合わせ装置５４０、５５
０をデータ処理・データベース格納装置５３０に接続し
て、データベースを問い合わせ、そこから情報を検索す
るようにしても良い。

【０１６６】上記の実施形態では、プログラミング命令
により定義される処理ルーチンを使用してコンピュータ
により処理を実行していた。しかし、処理の一部又は全
てをハードウェアを使用して実行することも可能であろ
う。

【０１６７】数人の参加者の間で行われる会議に関して
上記の実施形態を説明したが、本発明はこの用途には限
定されず、フィルムセットなどの画像データ及び音声デ
ータを処理するなどの他の用途にも適用できる。

【０１６８】上記の変形例の異なる組み合わせも言うま
でもなく可能であり、本発明の趣旨から逸脱せずに他に
も変更や変形を実施することは可能である。

【図面の簡単な説明】

【図１】複数の参加者の間の会議から得られた音声デー
タ及び映像データの記録を示す図である。

【図２】一実施形態における処理装置内の概念上の機能
構成要素の一例を示すブロック線図である。

【図３Ａ】参加者間の図１に示す会議が始まる前に図２
の処理装置２４により実行される処理動作を示す図であ
る。

【図３Ｂ】参加者間の図１に示す会議が始まる前に図２
の処理装置２４により実行される処理動作を示す図であ
る。

【図３Ｃ】参加者間の図１に示す会議が始まる前に図２
の処理装置２４により実行される処理動作を示す図であ
る。

【図４】図３のステップＳ２及びステップＳ４で会議ア
ーカイブデータベース６０に格納されるデータを概略的
に示す図である。

【図５】図３のステップＳ３４及び図７のステップＳ７
０で実行される処理動作を示す図である。

【図６】図５のステップＳ４２−１、S４２−２及びS４
２−nの各々で実行される処理動作を示す図である。

【図７】参加者間の会議が行われている間に図２の処理
装置２４により実行される処理動作を示す図である。

【図８Ａ】図７のステップＳ７２で実行される処理動作
を示す図である。

【図８Ｂ】図７のステップＳ７２で実行される処理動作
を示す図である。

【図９Ａ】図８のステップＳ８０で実行される処理動作
を示す図である。

【図９Ｂ】図８のステップＳ８０で実行される処理動作
を示す図である。

【図１０】図９のステップＳ１１４及びステップＳ１２
４で実行される処理において使用される参加者の視線を
示す図である。

【図１１】図９のステップＳ１１４で実行される処理で
計算される角度を示す図である。

【図１２】図８のステップＳ８４で実行される処理動作
を示す図である。

【図１３】図８のステップＳ８９で実行される処理動作
を示す図である。

【図１４】図１３のステップＳ１６８で実行される処理
動作を示す図である。

【図１５】会議アーカイブデータベース６０への情報の
格納を概略的に示す図である。

【図１６Ａ】会議アーカイブデータベース６０に格納さ
れているデータにより定義される視線ヒストグラムの例
を示す図である。

【図１６Ｂ】会議アーカイブデータベース６０に格納さ
れているデータにより定義される視線ヒストグラムの例
を示す図である。

【図１７】図８のステップＳ１０２で実行される処理動
作を示す図である。

【図１８】会議アーカイブデータベース６０から情報を
検索するために処理装置２４により実行される処理動作
を示す図である。

【図１９Ａ】図１８のステップＳ２００でユーザに対し
表示される情報を示す図である。

【図１９Ｂ】図１８のステップＳ２０４でユーザに対し
表示される情報の一例を示す図である。

【図２０】１つのデータベースで複数の会議からの情報
を格納し、１つ又は複数の遠隔装置からそのデータベー
スを問い合わせる実施形態を概略的に示す図である。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/00 Ｇ１０Ｌ 3/00 ５５１Ｇ (72)発明者サイモンマイケルロウイギリス国ジーユー２５ワイジェイサリー，ギルドフォード，サリーリサーチパーク，オッカムロード，オッカムコート１キヤノンリサーチセンターヨーロッパリミテッド内

Claims

【特許請求の範囲】

【請求項１】複数のカメラにより記録され且つ複数の
人物の動きを示す画像データを受信する手段と、どの人物が現在話しているかを判定する話者識別手段
と、話者の視線の先にいる人物を判定する手段と、話者の位置と、話者の視線の先にいる人物の位置とを判
定する手段と、判定された話者及び話者の視線の先にいる人物の位置に
基づいて、受信した画像データから画像データを選択す
るカメラ選択手段とを具備することを特徴とする画像処
理装置。
【請求項２】カメラ選択手段は、話者と話者の視線の
先にいる人物の双方が現れている画像データを選択する
ように構成されていることを特徴とする請求項１記載の
装置。
【請求項３】カメラ選択手段は、少なくともカメラの
一部が話者及び話者の視線の先にいる人物を捉えている
複数の視野の画質を表す画質値を生成し、且つどのカメ
ラが最高の画質を表す画質値を有しているかに基づいて
画像データを選択するように構成されていることを特徴
とする請求項２記載の装置。
【請求項４】カメラ選択手段は、どのカメラが話者及
び話者の視線の先にいる人物を捉える視野を有している
かを判定し、且つ話者及び話者の視線の先にいる人物を
捉える視野を有しているカメラごとに画質値をそれぞれ
生成するように構成されていることを特徴とする請求項
３記載の装置。
【請求項５】カメラ選択手段は、話者の頭部の位置及
び向きと、話者の視線の先にいる人物の頭部の位置及び
向きとに従って各画質値を生成するように構成されてい
ることを特徴とする請求項３又は４記載の装置。
【請求項６】カメラ選択手段は、それぞれの対の位置ごとに画像データを選択すべきカメ
ラを定義するデータを格納するデータ格納手段と、データ格納手段に格納されたデータを使用して、話者及
び話者の視線の先にいる人物の位置に従って画像データ
を選択する手段とを具備することを特徴とする請求項１
又は２記載の装置。
【請求項７】話者の視線の先にいる人物を判定する手
段と、話者及び話者の視線の先にいる人物の位置を判定
する手段とは、話者の視線の先にいる人物及び位置を判
定するために少なくとも一台のカメラからの画像データ
を処理する画像処理手段を具備することを特徴とする請
求項１乃至６のいずれか１項に記載の装置。
【請求項８】画像処理手段は、少なくとも一台のカメ
ラからの画像データを処理することにより、各人物及び
各人物の視線の先にいる人物の位置を判定するように構
成されていることを特徴とする請求項７記載の装置。
【請求項９】画像処理装置は、各人物の頭部の位置及
び向きを三次元で追跡するように構成されていることを
特徴とする請求項７又は８記載の装置。
【請求項１０】話者識別手段は、それぞれが対応する
１人の人物に割り当てられている複数のマイクロホンか
らの音声データを受信し、且つ音声データが受信された
マイクロホンに基づいてどの人物が話しているかを判定
するように構成されていることを特徴とする請求項１乃
至９のいずれか１項に記載の装置。
【請求項１１】人物が話した言葉を定義する音声デー
タを処理して、話者識別手段により実行された処理の結
果に従って音声データからテキストデータを生成する音
声処理手段を更に具備することを特徴とする請求項１乃
至１０のいずれか１項に記載の装置。
【請求項１２】音声処理手段は、人物ごとの音声認識
パラメータを格納する格納手段と、話者識別手段により
現在話していると判定された人物に従って音声データを
処理するために使用すべき音声認識パラメータを選択す
る手段とを含むことを特徴とする請求項１１記載の装
置。
【請求項１３】受信した画像データ、音声データ及び
音声処理手段により生成されたテキストデータの少なく
とも一部と、少なくとも現在話している人物の視線の先
にいる人物を定義する視線データとを格納するデータベ
ースを更に具備し、データベースは、対応するテキスト
データと視線データとが互いに関連すると共に、対応す
る画像データ及び音声データとも関連するようにデータ
を格納すべく構成されていることを特徴とする請求項１
１又は１２記載の装置。
【請求項１４】データベースに格納するために画像デ
ータ及び音声データを圧縮する手段を更に具備すること
を特徴とする請求項１１記載の装置。
【請求項１５】画像データ及び音声データを圧縮する
手段は、画像データ及び音声データをMPEGデータとして
符号化する手段を具備することを特徴とする請求項１４
記載の装置。
【請求項１６】所定の期間にわたり、その所定の期間
中に所定の人物が他の人物をそれぞれ見るのに費やした
時間の割合を定義するデータを生成する手段を更に具備
し、データベースは、データが対応する画像データ、音
声データ、テキストデータ及び視線データと関連するよ
うにデータを格納するように構成されていることを特徴
とする請求項１３乃至１５のいずれか１項に記載の装
置。
【請求項１７】所定の期間は、所定の人物が話をして
いた期間であることを特徴とする請求項１６記載の装
置。
【請求項１８】複数のカメラにより記録され且つ複数
の人物の動きを示す画像データを受信する手段と、どの人物が現在話しているかを判定する話者識別手段
と、話者の視線の先にある物体を判定する手段と、話者の位置及び話者の視線の先にある物体の位置を判定
する手段と、判定された話者及び話者の視線の先にある物体の位置に
基づいて、受信した画像データから画像データを選択す
るカメラ選択手段とを具備することを特徴とする画像処
理装置。
【請求項１９】複数のカメラにより記録された、複数
の人物の動きを示す画像データを処理して、格納するた
めの画像データを選択する方法であって、どの人物が現在話しているかを判定する話者識別ステッ
プと、話者の視線の先にいる人物を判定するステップと、話者の位置と、話者の視線の先にいる人物の位置とを判
定するステップと、判定された話者及び話者の視線の先にいる人物の位置に
基づいて、画像データを選択するカメラ選択ステップと
を備えることを特徴とする方法。
【請求項２０】カメラ選択過程では、話者と話者の視
線の先にいる人物の双方が現れている画像データを選択
することを特徴とする請求項１９記載の方法。
【請求項２１】カメラ選択過程では、少なくともカメ
ラの一部が話者及び話者の視線の先にいる人物を捉えて
いる複数の視野の画質を表す画質値を生成し、且つどの
カメラが最高の画質を表す画質値を有しているかに基づ
いて画像データを選択することを特徴とする請求項２０
記載の方法。
【請求項２２】カメラ選択ステップでは、どのカメラ
が話者及び話者の視線の先にいる人物を捉える視野を有
しているかを判定し、且つ話者及び話者の視線の先にい
る人物を捉える視野を有しているカメラごとに画質値を
それぞれ生成するように処理を実行することを特徴とす
る請求項２１記載の方法。
【請求項２３】カメラ選択ステップでは、話者の頭部
の位置及び向きと、話者の視線の先にいる人物の頭部の
位置及び向きとに従って各画質値を生成することを特徴
とする請求項２１又は２２記載の方法。
【請求項２４】カメラ選択ステップでは、それぞれの
対の位置ごとに画像データを選択すべきカメラを定義す
る事前格納済みデータを使用して、話者及び話者の視線
の先にいる人物の位置に従って画像データを選択するこ
とを特徴とする請求項１９又は２０記載の方法。
【請求項２５】話者の視線の先にいる人物を判定する
ステップ及び話者及び話者の視線の先にいる人物の位置
を判定するステップでは、話者の視線の先にいる人物及
び位置を判定するために少なくとも一台のカメラからの
画像データを処理することを特徴とする請求項１９から
２４のいずれか１項に記載の方法。
【請求項２６】前記少なくとも一台のカメラからの画
像データを処理して、各人物及び各人物の視線の先にい
る人物の位置を判定することを特徴とする請求項２５記
載の方法。
【請求項２７】各人物の頭部の位置及び向きを三次元
で追跡するように画像データを処理することを特徴とす
る請求項２５又は２６記載の方法。
【請求項２８】それぞれが対応する１人の人物に割り
当てられている複数のマイクロホンからの音声データを
受信し、且つ話者識別過程では、音声データが受信され
たマイクロホンに基づいてどの人物が話しているかを判
定することを特徴とする請求項１９乃至２６のいずれか
１項に記載の方法。
【請求項２９】人物が話した言葉を定義する音声デー
タを処理して、話者識別過程により実行された処理の結
果に従って音声データからテキストデータを生成する音
声処理ステップを更に含むことを特徴とする請求項１９
乃至２８のいずれか１項に記載の方法。
【請求項３０】音声処理ステップは、人物ごとに格納
されている音声認識パラメータの中から、話者識別過程
により現在話していると判定された人物に従って音声デ
ータを処理するために使用すべき音声認識パラメータを
選択することを特徴とする請求項２９記載の方法。
【請求項３１】受信した画像データ、音声データ及び
音声処理過程で生成されたテキストデータの少なくとも
一部と、少なくとも現在話している人物の視線の先にい
る人物を定義する視線データとをデータベースに格納す
るステップを更に含み、データは、対応するテキストデ
ータと視線データとが互いに関連すると共に、対応する
画像データ及び音声データとも関連するようにデータベ
ースに格納されることを特徴とする請求項２９又は３０
記載の方法。
【請求項３２】画像データ及び音声データは圧縮さ
れた形態でデータベースに格納されることを特徴とする
請求項３１記載の方法。
【請求項３３】画像データ及び音声データはMPEGデー
タとして格納されることを特徴とする請求項３２記載の
方法。
【請求項３４】所定の期間にわたり、その所定の期間
中に所定の人物が他の人物をそれぞれ見るのに費やした
時間の割合を定義するデータを生成するステップと、デ
ータが対応する画像データ、音声データ、テキストデー
タ及び視線データと関連するようにデータをデータベー
スに格納するステップとを更に含むことを特徴とする請
求項３１乃至３３のいずれか１項に記載の方法。
【請求項３５】所定の期間は、所定の人物が話をして
いた期間であることを特徴とする請求項３４記載の方
法。
【請求項３６】カメラ選択ステップで選択された画像
データを定義する情報を搬送する信号を発生するステッ
プを更に含むことを特徴とする請求項１９乃至３５のい
ずれか１項に記載の方法。
【請求項３７】データベースを格納されているデータ
と共に搬送する信号を発生するステップを更に含むこと
を特徴とする請求項３１乃至３５のいずれか１項に記載
の方法。
【請求項３８】信号を直接に又は間接的に記録して、
その記録を生成するステップを更に含むことを特徴とす
る請求項３７記載の方法。
【請求項３９】複数のカメラにより記録された、複数
の人物の動きを示す画像データを処理して、格納するた
めに画像データを選択する方法であって、どの人物が現在話しているかを判定する話者識別ステッ
プと、話者の視線の先にある物体を判定するステップと、話者の位置及び話者の視線の先にある物体の位置を判定
するステップと、判定された話者及び話者の視線の先にある物体の位置に
基づいて、画像データを選択するカメラ選択ステップと
を備えることを特徴とする方法。
【請求項４０】プログラム可能処理装置を請求項１乃
至１８の少なくとも１項に記載の装置として構成させる
ための命令を格納することを特徴とする記憶装置。
【請求項４１】プログラム可能処理装置を請求項１９
乃至３９の少なくとも１項に記載の方法を実行可能な状
態にさせるための命令を格納することを特徴とする記憶
装置。
【請求項４２】プログラム可能処理装置を請求項１乃
至１８の少なくとも１項に記載の装置として構成させる
ための命令を搬送する信号。
【請求項４３】プログラム可能処理装置を請求項１９
乃至３９の少なくとも１項に記載の方法を実行可能な状
態にさせるための命令を搬送する信号。