JP2000352996A

JP2000352996A - 情報処理装置

Info

Publication number: JP2000352996A
Application number: JP2000086807A
Authority: JP
Inventors: Michael Low Simon; マイケルロウサイモン; James Taylor Michael; ジェームステイラーマイケル; Jacob Rajan Jebb; ジェイコブラジャンジェブ
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1999-03-26
Filing date: 2000-03-27
Publication date: 2000-12-19
Anticipated expiration: 2020-03-27
Also published as: JP4474013B2; US7117157B1

Abstract

(57)【要約】（修正有）【課題】複数台のカメラからの、会議中の複数の人物
の動きを示す画像データと、音声データとをコンピュー
タ処理装置により処理して、データを会議アーカイブデ
ータベースにアーカイブする。【解決手段】画像データを処理して、大半の人物が誰
を見ているかを判定することにより、あるいは、音声デ
ータを処理して、どの人物の頭部が音声の来た方向に対
応する位置にあるかを判定することにより、誰が話して
いるかを判定する。話している人物個人の音声認識パラ
メータを選択し、それを使用して音声データをテキスト
データに変換する。話者と、参加者とを最も良く示すカ
メラを選択することにより、アーカイブすべき画像デー
タを選択する。画像データ、音声データ、テキストデー
タ及び各人物が誰を見ているかを定義するデータを会議
アーカイブデータベースに格納する。

Description

【発明の詳細な説明】

【０００１】

【発明が属する技術分野】本発明は、画像データのアー
カイビングを補助するためのデータを生成する画像デー
タの処理に関する。

【０００２】更に、本発明は、画像データ及び音声デー
タのアーカイビングを補助するためのデータを生成する
画像データ及び音声データの処理に関する。

【０００３】

【従来の技術】データを格納するためのデータベースは
数多く存在している。しかし、既存のデータベースに
は、データベースから情報を検索するためにデータベー
スを問い合わせる方法が限られているという問題があ
る。

【０００４】

【発明が解決しようとする課題】本発明は、上記の問題
に留意してなされた。

【０００５】

【課題を解決するための手段】本発明によれば、複数の
人物の動きと話し言葉を記録した画像データ及び音声デ
ータを、画像処理と音声処理の組み合わせを利用して処
理し、画像データ中に示されているどの人物が話をして
いるかを識別すると共に、音声データを処理し、識別さ
れた話者である参加者に従って選択された処理パラメー
タを使用して、話された言葉に対応するテキストデータ
を生成する装置又は方法が提供される。

【０００６】データベースからの情報の検索を容易にす
るために、この後、テキストデータを画像データ及び／
又は音声データと共にデータベースに格納しても良い。

【０００７】また、本発明は、画像データを処理するこ
とにより複数の人物の三次元位置を判定し、それらの人
物が話した言葉を伝達する音声データを処理して音源の
方向を三次元で判定し、生成された位置情報を使用し
て、それらの言葉の話者を識別し、且つ識別された話者
に関して、音声／テキスト変換処理を実行するための音
声認識パラメータを選択する装置又は方法を提供する。

【０００８】このようにして、話者である参加者を容易
に識別し、音声データを処理することができる。

【０００９】各人物の位置は、各人物の少なくとも頭部
を追跡するために画像データを処理することにより判定
されるのが好ましい。

【００１０】更に、本発明は、そのようなシステムにお
いて画像データ及び音声データを処理し、話者である参
加者を識別する装置又は方法を提供する。

【００１１】更に、本発明は、信号の形態をとる命令及
び記録された形態をとる命令を含めて、プログラム可能
処理装置をそのようなシステムにおいて装置として構成
させるため又は方法を実行可能にさせるように構成する
ための命令を提供する。

【００１２】本発明によれば、画像データを処理し、ど
の人物が画像中でその他の人物の注目を集めているかを
判定することにより、画像中のどの人物が話しているか
を判定し、且つ音声データを処理し、画像データを処理
することにより識別された話者である参加者に従って選
択される処理パラメータを使用して、その人物により話
された言葉に対応するテキストデータを生成する装置又
は方法も提供される。

【００１３】また、本発明は、画像データを処理して、
画像中の人物が誰を見ているかを判定すると共に、それ
に基づいてどの人物が話をしているかを判定し、且つ音
声データを処理して、話者である参加者について音声認
識を実行する装置又は方法を提供する。

【００１４】このようにして、話者である参加者を容易
に識別し、音声データを処理することができる。

【００１５】更に、本発明は、そのようなシステムにお
いて画像データを処理する装置又は方法を提供する。

【００１６】更に、本発明は、信号の形態をとる命令及
び記録された形態をとる命令を含めて、プログラム可能
処理装置をそのようなシステムにおいて装置として構成
させるため又は方法を実行可能にさせるように構成する
ための命令を提供する。

【００１７】

【発明の実施の形態】以下、添付の図面を参照して、単
なる例示として、本発明の実施形態を説明する。

【００１８】＜第１の実施形態＞図１を参照して説明す
ると、複数のビデオカメラ（図１に示す例では３台であ
るが、これとは異なる台数であっても良い）２−１、２
−２、２−３と、マイクロホンアレイ４とを使用して、
複数の人物６、８、１０、１２の間で行われる会議から
画像データと音声データをそれぞれ記録する。

【００１９】マイクロホンアレイ４は、例えば、英国特
許第２１４０５５８号、米国特許第４３３３１７０号及
び米国特許第３３９２３９２号に記載されているよう
な、入って来る音の方向を判定できるように配列された
マイクロホンのアレイから構成されている。

【００２０】ビデオカメラ２−１、２−２、２−３から
の画像データと、マイクロホンアレイ４からの音声デー
タは、ケーブル（図示せず）を介してコンピュータ２０
に入力され、コンピュータ２０は受信したデータを処理
し、データベースにデータを格納して、会議のアーカイ
ブ記録を作成する。後に、このデータベースから情報を
検索することができる。

【００２１】コンピュータ２０は、従来のように、表示
装置２６や、この実施形態ではキーボード２８及びマウ
ス３０であるユーザ入力装置と共に、１つ又は複数のプ
ロセッサ、メモリ、サウンドカードなどを含む処理装置
２４を有する従来通りのパーソナルコンピュータであ
る。

【００２２】コンピュータ２０の構成要素と、それらの
構成要素に対し入出力されるデータの流れを図２に概略
的に示す。

【００２３】図２を参照すると、処理装置２４は、例え
ば、ディスク３２などのデータ記憶媒体に格納されたデ
ータとして及び／又は例えば、インターネットなどの通
信ネットワーク（図示せず）を介する送信又は無線送信
により遠隔データベースから処理装置２４に入力され且
つ／又はキーボード２８などのユーザ入力装置又は他の
入力装置を介してユーザにより処理装置２４に入力され
る信号３４として入力されるプログラミング命令に従っ
て動作するようにプログラムされている。

【００２４】プログラミング命令によりプログラムされ
ると、処理装置２４は、処理動作を実行するための複数
の機能ユニットに有効に構成される。そのような機能ユ
ニットの例とそれらの配線を図２に示す。しかし、図２
に示すユニットと配線は概念的なもので、単に理解を助
けるために例示を目的として示されているにすぎない。
従って、図２のユニットと配線とは、処理装置２４のプ
ロセッサ、メモリなどが構成される実際のユニットと接
続とを必ずしも表してはいない。

【００２５】図２に示す機能ユニットについて説明する
と、中央制御装置３６はユーザ入力装置２８、３０から
の入力を処理すると共に、ユーザによりディスク３８な
どの記憶装置に格納されたデータとして、又は処理装置
２４へ送信される信号４０として処理装置２４に入力さ
れるデータを受信する。また、中央制御装置３６はその
他の機能ユニットに対して制御と処理を実行する。メモ
リ４２は、中央制御装置３６及びその他の機能ユニット
により使用されるメモリである。

【００２６】頭部追跡装置５０はビデオカメラ２−１、
２−２、２−３から受信した画像データを処理して、会
議のそれぞれの参加者６、８、１０、１２の頭部の位置
と向きを三次元で追跡する。この実施形態では、この追
跡を実行するために、頭部追跡装置５０は、後述するよ
うに、各々の参加者の頭部の三次元コンピュータモデル
を定義するデータと、その特徴を定義するデータとを使
用する。これらのデータは頭部モデル記憶装置５２に格
納されている。

【００２７】方向プロセッサ５３はマイクロホンアレイ
４からの音声データを処理して、マイクロホンにより記
録された音が来た方向を判定する。そのような処理は、
例えば、英国特許第２１４０５５８号、米国特許第４３
３３１７０号及び米国特許第３３９２３９２号に記載さ
れているような従来の方式で実行される。

【００２８】音声認識プロセッサ５４はマイクロホンア
レイ４から受信された音声データを処理して、そこから
テキストデータを生成する。すなわち、音声認識プロセ
ッサ５４は、「Dragon Dictate」又はIBMの「ViaVoice」な
どの従来の音声認識プログラムに従って動作し、参加者
６、８、１０、１２により話された言葉に対応するテキ
ストデータを生成する。音声認識処理を実行するため
に、音声認識プロセッサ５４は、音声認識パラメータ記
憶装置５６に格納されている、参加者６、８、１０、１
２ごとの音声認識パラメータを定義するデータを使用す
る。すなわち、音声認識パラメータ記憶装置５６に格納
されるデータは、音声認識プロセッサを従来の方式で訓
練することにより生成される各参加者の音声プロファイ
ルを定義するデータである。例えば、このデータは、訓
練後にDragon Dictateの「ユーザファイル」に格納される
データである。

【００２９】アーカイブプロセッサ５８は、頭部追跡装
置５０、方向プロセッサ５３及び音声認識プロセッサ５
４から受信したデータを使用して、会議アーカイブデー
タベース６０に格納すべきデータを生成する。すなわ
ち、後述するように、カメラ２−１、２−２及び２−３
からの映像データと、マイクロホンアレイ４からの音声
データとを、音声認識プロセッサ５４からのテキストデ
ータ及び所定の時点で会議の各参加者が誰を見ていたか
を定義するデータと共に会議アーカイブデータベース６
０に格納するのである。

【００３０】テキストサーチャ６２は、中央制御装置３
６と関連して、会議アーカイブデータベース６０を探索
し、後に更に詳細に説明するように、ユーザにより指定
される探索基準に適合する会議の１つ又は複数の部分を
見出し、その部分の音声データ及び映像データを再生す
るために使用される。

【００３１】表示プロセッサ６４は、中央制御装置３６
の制御の下に、ユーザに対し表示装置２６を介して情報
を表示すると共に、会議アーカイブデータベース６０に
格納された音声データと映像データを再生する。

【００３２】出力プロセッサ６６はアーカイブデータベ
ース６０のデータの一部又は全てを、例えば、ディスク
６８などの記憶装置に又は信号７０として出力する。

【００３３】会議を始める前に、処理装置２４が必要な
処理動作を実行できるようにするために必要なデータを
入力することにより、コンピュータ２０を初期設定する
必要がある。

【００３４】図３は、この初期設定中に処理装置２４に
より実行される処理動作を示す。

【００３５】図３を参照して説明すると、ステップＳ１
では、中央制御装置３６は表示プロセッサ６４に、ユー
ザが会議に参加するであろう各人物の名前を入力するこ
とを要求するメッセージを表示装置２６に表示させる。

【００３６】ステップＳ２では、例えば、ユーザがキー
ボード２８を使用して入力した、名前を定義するデータ
を受信して、中央制御装置３６は各参加者に独自の識別
番号を割り当て、識別番号と参加者の名前との関係を定
義するデータ、例えば、図４に示すテーブル８０を会議
アーカイブデータベース６０に格納する。

【００３７】ステップＳ３では、中央制御装置３６は表
示プロセッサ６４に、会議中のかなり長い時間にわたり
人物が見ると考えられ、会議アーカイブデータベース６
０にアーカイブデータを格納することが望まれる物体そ
れぞれの名前をユーザが入力することを要求するメッセ
ージを表示装置２６に表示させる。そのような物体とし
ては、例えば、図１に示すフリップチャート１４などの
フリップチャート、ホワイトボード又は黒板、又はテレ
ビなどが挙げられる。

【００３８】ステップＳ４では、例えば、ユーザがキー
ボード２８を使用して入力した、物体の名前を定義する
データを受信して、中央制御装置３６は各物体に独自の
識別番号を割り当て、識別番号と物体の名前との関係を
定義するデータ、例えば、図４に示すテーブル８０を会
議アーカイブデータベース６０に格納する。

【００３９】ステップＳ６では、中央制御装置３６は頭
部モデル記憶装置５２を探索して、会議の参加者ごとに
頭部モデルを定義するデータが既に格納されているか否
かを判定する。

【００４０】ステップＳ６で、１人または複数の参加者
について頭部モデルがまだ格納されていないと判定され
たならば、ステップＳ８で、中央制御装置３６は表示プ
ロセッサ６４に、頭部モデルがまだ格納されていない各
参加者の頭部モデルを定義するデータをユーザが入力す
ることを要求するメッセージを表示装置２６に表示させ
る。

【００４１】これに応答して、ユーザは、例えば、ディ
スク３８などの記憶媒体にあるデータを入力するか、又
は接続している処理装置から信号４０としてデータをダ
ウンロードすることにより、必要な頭部モデルを定義す
るデータを入力する。このような頭部モデルは、従来の
方式により、例えば、Valente他の「An Analysis／Synth
esis Cooperation for Head Tracking andVideo Face C
loning」（ProceedingsECCV’９８Workshop on Percepti
onof Human Actionに掲載、ドイツ、フライブルク大
学、１９９８年６月６日）に記載されている方法で生成
されれば良い。

【００４２】ステップＳ１０では、中央制御装置３６
は、ユーザにより入力されたデータを頭部モデル記憶装
置５２に格納する。

【００４３】ステップＳ１２では、中央制御装置３６及
び表示プロセッサ６４はユーザにより入力された各三次
元コンピュータ頭部モデルをレンダリングして、ユーザ
が各モデルにおいて少なくとも７つの特徴を識別するこ
とを要求するメッセージと共に、ユーザに対し表示装置
２６を介してモデルを表示する。

【００４４】これに応答して、ユーザは、各々のモデル
の中で、参加者の頭部の正面、側面及び（可能であれ
ば）背面にある顕著な特徴、例えば、目尻、鼻孔、口、
耳又は参加者が掛けている眼鏡の特徴などに対応する３
０個の点をマウスを使用して指定する。

【００４５】ステップＳ１４では、中央制御装置３６
は、ユーザにより識別された特徴を定義するデータを頭
部モデル記憶装置５２に格納する。

【００４６】これに対し、ステップＳ６で、参加者ごと
に頭部モデルが既に頭部モデル記憶装置５２に格納され
ていると判定された場合には、ステップＳ８からS１４
を省略する。

【００４７】ステップＳ１６では、中央制御装置３６は
音声認識パラメータ記憶装置を探索して、参加者ごとに
音声認識パラメータが既に格納されているか否かを判定
する。

【００４８】ステップＳ１６で、全ての参加者について
は音声認識パラメータを利用できないと判定されたなら
ば、ステップＳ１８で、中央制御装置３６は表示プロセ
ッサ６４に、パラメータがまだ格納されていない各参加
者について音声認識パラメータを入力することをユーザ
に要求するメッセージを表示装置２６に表示させる。

【００４９】これに応答して、ユーザは、例えば、ディ
スク３８などの記憶媒体のデータを入力するか、又は遠
隔処理装置からの信号４０として入力することにより、
必要な音声認識パラメータを定義するデータを入力す
る。先に述べた通り、これらのパラメータはユーザの話
す音声のプロファイルを定義し、従来の方式で音声認識
プロセッサを訓練することにより生成される。従って、
例えば、Dragon Dictateを組み込んだ音声認識プロセッ
サの場合、ユーザにより入力される音声認識パラメータ
は、Dragon Dictateの「ユーザファイル」に格納されるパ
ラメータに相当する。

【００５０】ステップＳ２０では、中央制御装置３６
は、ユーザにより入力された音声認識パラメータを定義
するデータを音声認識パラメータ記憶装置５６に格納す
る。

【００５１】これに対し、ステップＳ１６で、参加者ご
とに音声認識パラメータを既に利用できる状態にあると
判定された場合には、ステップＳ１８からS２０を省略
する。

【００５２】ステップＳ２２では、中央制御装置３６は
表示プロセッサ６４に、カメラ２−１、２−２及び２−
３の校正(キャリブレーション）を可能にするためのス
テップをユーザが実行することを要求するメッセージを
表示装置２６に表示させる。

【００５３】これに応答して、ユーザは必要なステップ
を実行し、ステップＳ２４では、中央制御装置３６はカ
メラ２−１、２−２及び２−３を校正するための処理を
実行する。すなわち、この実施形態においては、ユーザ
により実行されるステップ及び中央制御装置３６により
実行される処理は、Wiles及びDavisonの「Calibratingan
d３D Modelling with a Multi−Camera System」（１９
９９IEEE Workshop onMulti−View Modelling and Anal
ysis of Visual Scenes，ISBN ０７６９５０１１０９）
に記載されているような方式で実行される。これは、会
議室に対する各カメラ２−１，２−２及び２−３の位置
及び向きを定義する校正データ（キャリブレーションデ
ータ）と、各カメラ固有のパラメータ（横縦比、焦点距
離、主点及び一次半径方向ひずみ係数）とを生成する。
カメラ校正データ（カメラキャリブレーションデータ）
は、例えば、メモリ４２に格納される。

【００５４】ステップＳ２５では、中央制御装置３６は
表示プロセッサ６４に、ステップＳ４で識別データが格
納された物体それぞれの位置と向きを判定できるように
するためのステップをユーザが実行することを要求する
メッセージを表示装置２６に表示させる。

【００５５】これに応答して、ユーザは必要なステップ
を実行し、ステップＳ２６では、中央制御装置３６は、
各物体の位置と向きを判定するための処理を実行する。
すなわち、この実施形態においては、ユーザは、会議の
参加者が見ると思われる物体の面の周囲、例えば、フリ
ップチャート１４の紙の平面にカラーマーカーを置く。
次に、中央制御装置３６は、カメラ２−１、２−２及び
２−３の各々により記録された画像データをステップＳ
２４で格納されたカメラ校正データを使用して処理し、
従来の方式で、各々のカラーマーカーの三次元位置を判
定する。この処理はカメラ２−１、２−２及び２−３ご
とに実行されるので、各カラーマーカーの位置は別個に
推定され、各カメラ２−１、２−２及び２−３からのデ
ータを使用して計算された位置から、各マーカーの位置
について平均位置が判定される。各マーカーの平均位置
を使用して、中央制御装置３６は、従来の方式により、
物体面の中心と、物体面の向きを定義するための面垂線
とを計算する。物体ごとに判定された位置と向きは、例
えば、メモリ４２に物体校正データとして格納される。

【００５６】ステップＳ２７では、中央制御装置３６は
表示プロセッサ６４に、会議の次の参加者（初めてステ
ップＳ２７を実行する場合には、これは最初の参加者で
ある）が着席することを要求するメッセージを表示装置
２６に表示させる。

【００５７】ステップＳ２８では、要求された参加者に
着席する時間を与えるために、処理装置２４は所定の期
間待機し、ステップＳ３０では、中央制御装置３６は各
カメラ２−１、２−２及び２−３からのそれぞれの画像
データを処理して、カメラごとに、着席した参加者の頭
部の推定位置を判定する。すなわち、この実施形態にお
いては、中央制御装置３６は従来の方式でカメラごとに
別個に処理を実行し、参加者の肌の色に対応する色（こ
の色は、頭部モデル記憶装置５２に格納されている参加
者の頭部モデルを定義するデータから判定される）を有
する、カメラからの画像データの１つのフレームにおけ
る位置をそれぞれ識別し、次に、（頭部は人体の中で最
も高い位置にある肌色の部分であると想定されるので）
会議室内の最も高い位置に相当する部分を選択する。画
像中の識別された部分の位置と、ステップＳ２４で判定
されたカメラ校正パラメータとを使用して、中央制御装
置３６は従来の方式により頭部の三次元推定位置を判定
する。この処理はカメラ２−１、２−２及び２−３ごと
に実行され、カメラごとに別個の推定頭部位置が得られ
る。

【００５８】ステップＳ３２では、中央制御装置３６
は、カメラ２−１、２−２及び２−３ごとに、参加者の
頭部の三次元推定向きを判定する。すなわち、この実施
形態においては、中央制御装置３６は、頭部モデル記憶
装置５２に格納されている参加者の頭部の三次元コンピ
ュータモデルをそのモデルの複数の異なる向きについて
レンダリングして、向きごとに対応するモデルの二次元
画像を作成する。この実施形態では、参加者の頭部のコ
ンピュータモデルを１０８の異なる向きでレンダリング
するので、１０８の対応する二次元画像が得られる。こ
れらの向きは、頭部モデルを０°（正面を向いている場
合）、＋４５°（上を向いている場合）及び−４５°
（下を向いている場合）のそれぞれについて１０°ずつ
３６回回転させた向きに相当する。次に、中央制御装置
３６は、モデルの各々の二次元画像を参加者の頭部を示
す、カメラ２−１、２−２、２−３からの映像フレーム
の部分と比較し、モデルの画像が映像データと最も良く
整合する向きを選択する。この比較と選択はカメラごと
に実行されるので、カメラごとに推定頭部向きが得られ
る。頭部モデルをレンダリングすることにより生成され
る画像データをカメラからの映像データと比較するとき
には、例えば、Schodl、Haro及びEssaの「Head Tracking
Using a Textured Polygonal Model」（Proceedings１
９９８Workshop onPerceptual User Interfacesに掲
載）に記載されているような従来の技法を使用する。

【００５９】ステップＳ３４では、ステップＳ３０で生
成された参加者の頭部のそれぞれの推定位置と、ステッ
プＳ５２で生成された参加者の頭部のそれぞれの推定向
きとを頭部追跡装置５０に入力し、各々のカメラ２−
１、２−２及び２−３から受信した画像データのフレー
ムを処理して、参加者の頭部を追跡する。すなわち、こ
の実施形態においては、頭部追跡装置５０は、例えば、
Valente他の「An Analysis／Synthesis Cooperation for
Head Tracking andVideo Face Cloning」（Proceedings
EECV’９８Workshop on Perceptionof Human Action、
ドイツ、フライブルク大学、１９９８年６月６日）に記
載されているような従来の方式で頭部を追跡するための
処理を実行する。

【００６０】図５は、ステップＳ３４で頭部追跡装置５
０により実行される処理動作の概要を示す。

【００６１】図５を参照すると、ステップＳ４２−１か
らS４２−n（この実施形態では、カメラは３台であるの
で、「n」は３である）の各々においては、頭部追跡装置
５０は会議を記録しているカメラのうち対応する１台か
らの画像データを処理して、そのカメラからの画像デー
タにおける参加者の頭部の特徴（ステップＳ１４で格納
された）の位置を判定すると共に、それに基づき、その
カメラからの画像データの現在フレームについて参加者
の頭部の三次元位置と向きを判定する。

【００６２】図６は、ステップＳ４２−１からS４２−n
の所定の１つで実行される処理動作を示す。この処理動
作は各ステップで同一であるが、異なるカメラからの画
像データに対して実行されることになる。

【００６３】図６を参照すると、ステップＳ５０では、
頭部追跡装置５０は参加者の頭部の現在推定３D位置及
び現在推定３D向きを読み取る。初めてステップＳ５０
を実行する場合、これらは図３のステップＳ３０及びS
３２で生成される推定位置と推定向きである。

【００６４】ステップＳ５２では、頭部追跡装置５０は
ステップＳ２４で生成されたカメラ校正データを使用し
て、ステップＳ５０で読み取られた推定位置と推定向き
に従って、頭部モデル記憶装置５２に格納されている参
加者の頭部の三次元コンピュータモデルをレンダリング
する。

【００６５】ステップＳ５４では、頭部追跡装置５０
は、カメラから受信された映像データの現在フレームに
ついて画像データを処理して、ユーザにより識別され、
ステップＳ１４で格納された頭部の特徴の中の１つの特
徴の期待位置を取り囲む各領域からの画像データを取り
出す。この期待位置はステップＳ５０で読み取られた推
定位置及び推定向きと、ステップＳ２４で生成されたカ
メラ校正データとから判定される。

【００６６】ステップＳ５６では、頭部追跡装置５０は
ステップＳ５２で生成された、レンダリングされた画像
データと、ステップＳ５４で取り出されたカメラ画像デ
ータとを整合し、レンダリングされた頭部モデルに最も
良く整合するカメラ画像データを見出す。

【００６７】ステップＳ５８では、頭部追跡装置５０
は、ステップＳ５６で識別された、レンダリングされた
頭部モデルに最も良く整合するカメラ画像データを、ス
テップＳ２４（図３）で格納されたカメラ校正データと
共に使用して、映像データの現在フレームについて参加
者の頭部の３D位置と３D向きを判定する。

【００６８】再び図５に戻ると、ステップＳ４４では、
頭部追跡装置５０は、ステップＳ４２−１からS４２−n
の各々で識別された、レンダリングされた頭部モデルに
最も良く整合するカメラ画像データ（図６のステップＳ
５８で識別される）を使用して、映像データの現在フレ
ームについて参加者の頭部の平均３D位置と平均３D向き
を判定する。

【００６９】ステップＳ４４を実行するのと同時に、ス
テップＳ４６では、ステップＳ４２−１からS４２−nの
各々で判定されたカメラ画像データにおける頭部の特徴
の位置（図６のステップＳ５８で識別される）を従来の
カルマンフィルタに入力して、映像データの次のフレー
ムについて参加者の頭部の推定３D位置及び推定３D向き
を生成する。ビデオカメラ２−１、２−２及び２−３か
ら映像データのフレームが受信されている間、その参加
者についてステップＳ４２からS４６を繰り返し実行す
る。

【００７０】再び図３に戻ると、ステップＳ３６では、
中央制御装置３６は、会議に他の参加者がいるか否かを
判定し、参加者ごとに先に説明したように処理が実行さ
れ終わるまでステップＳ２７からS３６を繰り返す。し
かし、参加者ごとにこれらのステップが実行されている
間、ステップＳ３４では、頭部追跡装置５０は既に着席
した各参加者の頭部を追跡し続けている。

【００７１】ステップＳ３６で、会議に他の参加者はな
く、従って、各参加者の頭部は頭部追跡装置５０により
追跡されていると判定されたならば、ステップＳ３８
で、中央制御装置３６は、参加者の間で会議を始めて良
いことを指示するために、処理装置２４から可聴信号を
出力させる。

【００７２】図７は、参加者間で会議が行われている間
に処理装置２４により実行される処理動作を示す。

【００７３】図７を参照すると、ステップＳ７０では、
頭部追跡装置５０は会議中の各参加者の頭部を追跡し続
ける。ステップＳ７０で頭部追跡装置５０により実行さ
れる処理は先にステップＳ３４に関して説明した処理と
同じであるので、ここでは繰り返し説明しない。

【００７４】頭部追跡装置５０がステップＳ７０で各参
加者の頭部を追跡しているのと同時に、ステップＳ７２
では、データを生成し、会議アーカイブデータベース６
０に格納するための処理を実行する。

【００７５】図８は、ステップＳ７２で実行される処理
動作を示す。

【００７６】図８を参照すると、ステップＳ８０では、
アーカイブプロセッサ５８は、参加者ごとに、その参加
者がどの人物又はどの物体を見ているかを定義するいわ
ゆる「視線パラメータ」を生成する。

【００７７】図９は、ステップＳ８０で実行される処理
動作を示す。

【００７８】図９を参照すると、ステップＳ１１０で
は、アーカイブプロセッサ５８は頭部追跡装置５０から
各参加者の頭部の現在三次元位置を読み取る。これは、
ステップＳ４４（図５）で頭部追跡装置５０により実行
される処理で生成された平均位置である。

【００７９】ステップＳ１１２では、アーカイブプロセ
ッサ５８は頭部追跡装置５０から次の参加者（初めてス
テップＳ１１２を実行する場合、これは最初の参加者で
ある）の頭部の現在向きを読み取る。ステップＳ１１２
で読み取られる向きは、ステップＳ４４（図５）で頭部
追跡装置５０により実行される処理で生成された平均向
きである。

【００８０】ステップＳ１１４では、アーカイブプロセ
ッサ５８は、参加者がどこを見ているかを定義する線
（いわゆる「視線」）と、参加者の頭部を他の参加者の頭
部の中心と結ぶ概念上の各々の線とが成す角度を判定す
る。

【００８１】更に詳細に説明するため、図１０及び図１
１を参照すると、１人の参加者、すなわち、図１の参加
者６についてステップＳ１１４で実行される処理の一例
が示されている。図１０を参照すると、ステップＳ１１
２で読み取られる参加者の頭部の向きは、参加者の両目
の中央の一点から、参加者の頭部に対し垂直に延びる視
線９０を定義する。同様に、図１１を参照すると、ステ
ップＳ１１０で読み取られる全ての参加者の頭部の位置
は、参加者６の両目の中央の点からその他のそれぞれの
参加者８、１０、１２の頭部の中心に至る概念上の線９
２、９４、９６を定義する。ステップＳ１１４で実行さ
れる処理においては、アーカイブプロセッサ５８は視線
９０と、それぞれの概念上の線９２、９４、９６とが成
す角度９８、１００、１０２を判定する。

【００８２】再び図９に戻ると、ステップＳ１１６で
は、アーカイブプロセッサ５８は、最小値を有する角度
９８、１００又は１０２を選択する。すなわち、図１１
に示す例でいえば、角度１００が選択されることになる
であろう。

【００８３】ステップＳ１１８では、アーカイブプロセ
ッサ５８は、ステップＳ１１６で選択した角度が１０°
より小さい値を有するか否かを判定する。

【００８４】ステップＳ１１８で、角度が１０°より小
さいと判定されれば、ステップＳ１２０で、アーカイブ
プロセッサ５８は参加者の視線パラメータを、視線と最
小の角度を成す概念上の線により結ばれている参加者の
識別番号（図３のステップＳ２で割り当てられている）
に設定する。すなわち、図１１に示す例でいえば、角度
１００が１０°より小さければ、角度１００は視線９０
と、参加者６を参加者１０と結ぶ概念上の線９４とが成
す角度であるので、視線パラメータは参加者１０の識別
番号に設定されるであろう。

【００８５】これに対し、ステップＳ１１８で、最小の
角度が１０°以上であると判定された場合には、ステッ
プＳ１２２で、アーカイブプロセッサ５８はステップＳ
２６（図３）で先に格納された各物体の位置を読み取
る。

【００８６】ステップＳ１２４では、アーカイブプロセ
ッサ５８は、参加者の視線９０がいずれかの物体の平面
と交わるか否かを判定する。

【００８７】ステップＳ１２４で、視線９０が１つの物
体の平面と交わると判定されたならば、ステップＳ１２
６で、アーカイブプロセッサ５８は参加者の視線パラメ
ータを視線と交わる物体の識別番号（図３のステップＳ
４で割り当てられている）に設定する。視線９０と交わ
る物体が２つ以上ある場合には、これは、視線と交わる
物体のうち、参加者に最も近い物体ということになる。

【００８８】これに対し、ステップＳ１２４で、視線９
０が物体の平面と交わらないと判定されたならば、ステ
ップＳ１２８で、アーカイブプロセッサ５８は参加者の
視線パラメータを「０」に設定する。これは、（視線９０
が概念上の線９２、９４、９６のいずれにも十分近接し
ていないために）参加者はその他の参加者の誰をも見て
おらず、また、（視線９０が物体と交わらないために）
どの物体をも見ていないと判定されたことを示してい
る。このような状況は、例えば、参加者が会議室内の、
ステップＳ４でデータが格納されず且つステップＳ２６
で校正が実行されなかった何らかの物体（例えば、図１
に示す例において参加者１２が手に持っているメモ）を
見ている場合などに起こりうるであろう。

【００８９】ステップＳ１３０では、アーカイブプロセ
ッサ５８は会議に他の参加者がいるか否かを判定し、参
加者ごとに先に説明した処理が実行され終わるまでステ
ップＳ１１２からS１３０を繰り返す。

【００９０】再び図８に戻ると、ステップＳ８２では、
中央制御装置３６及び音声認識プロセッサ５４は、映像
データの現在フレームに対応する音声データがマイクロ
ホンアレイ４から受信されたか否かを判定する。

【００９１】ステップＳ８２で、音声データが受信され
たと判定されれば、ステップＳ８４で、会議中の参加者
のうち誰が話をしているかを判定するための処理を実行
する。

【００９２】図１２は、ステップＳ８４で実行される処
理動作を示す。

【００９３】図１２を参照すると、ステップＳ１４０で
は、方向プロセッサ５３はマイクロホンアレイ４からの
音声データを処理して、音声が来ている方向を判定す
る。この処理は、例えば、英国特許第２１４０５５８
号、米国特許第４３３３１７０号及び米国特許第３３９
２３９２号に記載されているような従来の方式で実行さ
れる。

【００９４】ステップＳ１４２では、アーカイブプロセ
ッサ５８は、画像データの現在フレームについてステッ
プＳ４４（図５）で頭部追跡装置５０により判定された
各参加者の頭部の位置を読み取り、それに基づいて、ど
の参加者の頭部がステップＳ１４０で判定された方向、
すなわち、音声が来ている方向に対応する位置にあるか
を判定する。

【００９５】ステップＳ１４４では、アーカイブプロセ
ッサ５８は、音声が来ている方向に２人以上の参加者が
いるか否かを判定する。

【００９６】ステップＳ１４４で、音声が来ている方向
には１人しか参加者がいないと判定されれば、ステップ
Ｓ１４６で、アーカイブプロセッサ５８は、音声が来て
いる方向にいる参加者を画像データの現在フレームの話
者として選択する。

【００９７】これに対し、ステップＳ１４４で、音声が
来ている方向に対応する位置に２人以上の参加者の頭部
があると判定された場合には、ステップＳ１４８で、ア
ーカイブプロセッサ５８は、画像データの直前フレーム
でそれらの参加者のうち１人が話者として識別されてい
たか否かを判定する。

【００９８】ステップＳ１４８で、音声が来ている方向
にいる参加者の１人が画像データの直前フレームで話者
として選択されていたと判定されれば、ステップＳ１５
０で、アーカイブプロセッサ５８は画像データの直前フ
レームで識別されていた話者を画像データの現在フレー
ムについても話者として選択する。これは、画像データ
の直前フレームの話者が現在フレームの話者と同１人物
である確率が高いからである。

【００９９】これに対し、ステップＳ１４８で、音声が
来ている方向にいる参加者がいずれも直前フレームで話
者として識別された参加者ではないと判定された場合、
又は直前フレームでは話者が識別されなかった場合に
は、ステップＳ１５２で、アーカイブプロセッサ５８
は、音声が来ている方向にいるそれぞれの参加者を話者
に「なりうる」参加者として選択する。

【０１００】再び図８に戻ると、ステップＳ８６では、
アーカイブプロセッサ５８は話者である参加者ごとの視
線パラメータ値、すなわち、ステップＳ８０で生成され
た、話者である各参加者が誰を又は何を見ているかを定
義する視線パラメータ値を後の解析に備えて、例えば、
メモリ４２に格納する。

【０１０１】ステップＳ８８では、アーカイブプロセッ
サ５８は、ステップＳ８４で判定された話者である各参
加者のアイデンティティを音声認識プロセッサ５４に報
知する。これに応答して、音声認識プロセッサ５４は話
者である参加者の音声認識パラメータを音声認識パラメ
ータ記憶装置５６から選択し、選択されたパラメータを
使用して、受信した音声データに対して音声認識処理を
実行し、話者である参加者が話した言葉に対応するテキ
ストデータを生成する。

【０１０２】他方、ステップＳ８２で、受信した音声デ
ータが話し言葉を含まないと判定されたならば、ステッ
プＳ８４からステップＳ８８を省略する。

【０１０３】ステップＳ８９では、アーカイブプロセッ
サ５８は、会議アーカイブデータベース６０にどの画像
データを格納すべきか、すなわち、どのカメラ２−１、
２−２及び２−３からの画像データを格納すべきかを判
定する。

【０１０４】図１３は、ステップＳ８９でアーカイブプ
ロセッサ５８により実行される処理動作を示す。

【０１０５】図１３を参照すると、ステップＳ１６０で
は、アーカイブプロセッサ５８は、画像データの現在フ
レームについてステップＳ８２（図８）で何らかの話し
言葉が検出されたか否かを判定する。

【０１０６】ステップＳ１６０で現在フレームについて
は話し言葉が存在しないと判定されれば、ステップＳ１
６２で、アーカイブプロセッサ５８は、画像データを格
納すべきカメラとしてデフォルトカメラを選択する。す
なわち、この実施形態においては、アーカイブプロセッ
サ５８は直前フレームで画像データが記録されたカメラ
を選択する。処理中の現在フレームが全く初めてのフレ
ームである場合には、アーカイブプロセッサ５８はカメ
ラ２−１、２−２、２−３のうち１台を無作為に選択す
る。

【０１０７】他方、ステップＳ１６０で、処理中の現在
フレームに話し言葉があると判定された場合には、ステ
ップＳ１６４で、アーカイブプロセッサ５８は、次の話
者である参加者（初めてステップＳ１６４を実行すると
きには、これは最初の話者である参加者である）につい
てステップＳ８６で先に格納された視線パラメータを読
み取り、その話者である参加者が見ている人物又は物体
を判定する。

【０１０８】ステップＳ１６６では、アーカイブプロセ
ッサ５８は、現在考慮されている話者である参加者の頭
部の位置と向き（図５のステップＳ４４で判定された）
を、話者である参加者の視線の先にいる参加者の頭部の
位置と向き（図５のステップＳ４４で判定された）又は
話者である参加者の視線の先にある物体の位置と向き
（図３のステップＳ２６で格納された）と共に読み取
る。

【０１０９】ステップＳ１６８では、アーカイブプロセ
ッサ５８はステップＳ１６６で読み取られた位置と向き
を処理して、カメラ２−１、２−２、２−３のうちどの
カメラが話者である参加者と、話者である参加者が見て
いる参加者又は物体の双方を最も良く示しているかを判
定し、且つこのカメラを現在フレームの画像データを会
議アーカイブデータベース６０に格納すべきカメラとし
て選択する。

【０１１０】図１４は、ステップＳ１６８でアーカイブ
プロセッサ５８により実行される処理動作を示す。

【０１１１】図１４を参照すると、ステップＳ１７６で
は、アーカイブプロセッサ５８は次のカメラ（初めてス
テップＳ１７６を実行するときには、これは第１のカメ
ラである）の三次元位置と視野方向を読み取る。この情
報は先に図３のステップＳ２４で生成、格納されてい
る。

【０１１２】ステップＳ１７８では、アーカイブプロセ
ッサ５８は、ステップＳ１７６で読み取られた情報を、
話者である参加者の頭部の三次元位置と向き（図５のス
テップＳ４４で判定された）を定義する情報及び話者で
ある参加者が見ている参加者の頭部の三次元位置と向き
（図５のステップＳ４４で判定された）又は話者である
参加者が見ている物体の三次元位置と向き（図３のステ
ップＳ２６で格納された）を定義する情報と共に使用し
て、話者である参加者と、話者である参加者が見ている
参加者又は物体の双方が現在考慮されているカメラの視
野の中に入るか否か（すなわち、現在考慮されているカ
メラが話者である参加者と、話者である参加者が見てい
る参加者又は物体の双方を捉えることができるか否か）
を判定する。すなわち、この実施形態においては、アー
カイブプロセッサ５８は下記の式を評価し、全ての不等
式が成立すれば、カメラは話者である参加者と、話者で
ある参加者が見ている参加者又は物体の双方を捉えるこ
とができると判定する。

【０１１３】

【数１】

【０１１４】

【数２】

【０１１５】

【数３】

【０１１６】

【数４】

【０１１７】式中、（X_c，Y_c，Z_c）は、それぞれ、カメ
ラの主点のx座標、y座標及びz座標（図３のステップＳ
２４で先に判定、格納されている）であり、（dX_c、d
Y_c，dZ_c）は、それぞれ、x方向、y方向及びz方向のカメ
ラの視野方向（同様に、図３のステップＳ２４で先に判
定、格納されている）を表し、θ_h及びθ_vは、それぞ
れ、水平方向と垂直方向のカメラの角視野（同様に、図
３のステップＳ２４で判定、格納されている）であり、
（X_p1、Y_p1，Z_p1）は、それぞれ、話者である参加者の
頭部の中心のx座標、y座標及びz座標（図５のステップ
Ｓ４４で判定されている）であり、（dX_p1，dY_p1，d
Z_p1）は、それぞれ、話者である参加者の視線９０の向
き（同様に、図５のステップＳ４４で判定されている）
を表し、（X_p2，Y_p2，Z_p2）は、それぞれ、話者である
参加者が見ている参加者の頭部の中心のx座標、y座標及
びz座標（図５のステップＳ４４で判定されている）又
は話者である参加者が見ている物体の面の中心のx座
標、y座標及びz座標（図３のステップＳ２６で判定され
ている）であり、（dX_p2，dY_p2，dZ_p2）は、それぞれ、
話者である参加者が見ている参加者の視線９０のx方
向、y方向及びz方向の方向（同様に、図５のステップＳ
４４で判定されている）又は話者である参加者が見てい
る物体面に対する垂線のx方向、y方向及びz方向の方向
（図３のステップＳ２６で判定されている）を表す。

【０１１８】ステップＳ１７８で、カメラが話者である
参加者と、話者である参加者が見ている参加者又は物体
の双方を捉えることができる（すなわち、上記の式
（１）、（２）、（３）及び（４）の不等式が成立す
る）と判定されれば、ステップＳ１８０で、アーカイブ
プロセッサ５８は、現在考慮されているカメラが話者で
ある参加者を捉えている視野の画質を表す値を計算し、
格納する。すなわち、この実施形態においては、アーカ
イブプロセッサ５８は、下記の式を使用して画質値Q１
を計算する。

【０１１９】

【数５】

【０１２０】式中、各項の定義は先の式（１）及び
（２）に関して挙げた定義と同じである。

【０１２１】ステップＳ１８０で計算される画質値Q１
は、−１から＋１の値をとるスカラであり、話者である
参加者の頭部の背面がカメラに直接向いている場合、そ
の値は−１であり、話者である参加者の顔面が直接カメ
ラに向いている場合には＋１である。話者である参加者
の頭部がその他の向きである場合には、−１と＋１の間
の値をとる。

【０１２２】ステップＳ１８２では、アーカイブプロセ
ッサ５８は、現在考慮されているカメラが話者である参
加者が見ている参加者又は物体を捉えている視野の画質
を表す値を計算し、格納する。すなわち、この実施形態
においては、アーカイブプロセッサ５８は下記の式を使
用して、画質値Q２を計算する。

【０１２３】

【数６】

【０１２４】式中、パラメータの定義は先の式（３）及
び（４）に関して挙げた定義と同じである。

【０１２５】Q２も、同様に、参加者の頭部の背面又は
物体の面の背面が直接カメラに向いている場合に−１、
参加者の顔面又は物体の正面が直接カメラに向いている
場合には＋１の値をとるスカラである。参加者の頭部又
は物体の面がその他の向きである場合には、−１と＋１
の間の値をとる。

【０１２６】ステップＳ１８４では、アーカイブプロセ
ッサ５８はステップＳ１８０で計算した画質値Q１と、
ステップＳ１８２で計算した画質値Q２とを比較し、最
小値を選択する。この最小値は、カメラが話者である参
加者、あるいは話者である参加者が見ている参加者又は
物体を捉えている「最悪の視野」を示す（Q１がQ２より小
さい場合、最悪の視野は話者である参加者の視野であ
り、Q２がQ１より小さい場合は、最悪の視野は話者であ
る参加者が見ている参加者又は物体の視野である）。

【０１２７】他方、ステップＳ１７８で、式（１）、
（２）、（３）及び（４）の不等式の１つ又は２つ以上
が成立しない（すなわち、カメラが話者である参加者
と、話者である参加者が見ている参加者又は物体の双方
を捉えることができない）と判定された場合には、ステ
ップＳ１８０からS１８４を省略する。

【０１２８】ステップＳ１８６では、アーカイブプロセ
ッサ５８は、画像データを提供していたカメラが他にあ
るか否かを判定する。カメラごとに上記の処理が実行さ
れ終わるまで、ステップＳ１７６からS１８６を繰り返
す。

【０１２９】ステップＳ１８８では、アーカイブプロセ
ッサ５８は、ステップＳ１８４で処理を実行したときに
カメラごとに格納された「最悪の視野」の値（すなわち、
ステップＳ１８４でカメラごとに格納されたQ１又はQ２
の値）を比較し、格納されているそれらの値の中で最大
の値を選択する。この最大値は「最良の最悪の視野」を表
し、そこで、ステップＳ１８８で、アーカイブプロセッ
サ５８は、ステップＳ１８４でこの「最良の最悪の視野」
値が格納されていたカメラを会議アーカイブデータベー
スに画像データを格納すべきカメラとして選択する。こ
れは、このカメラが話者である参加者と、話者である参
加者が見ている参加者又は物体の双方を最良の視野で捉
えているからである。

【０１３０】ステップＳ１７０では、アーカイブプロセ
ッサ５８は、話者に「なりうる」参加者を含めて、他に話
者である参加者がいるか否かを判定する。話者である参
加者ごとに、また、話者に「なりうる」参加者ごとに上記
の処理が実行され終わるまで、ステップＳ１６４からS
１７０を繰り返す。

【０１３１】再び図８に戻ると、ステップＳ９０では、
アーカイブプロセッサ５８はステップＳ８９で選択した
カメラから受信された映像データの現在フレームと、マ
イクロホンアレイ４から受信された音声データとを従来
の方式によりMPEG２データとして符号化し、符号化され
たデータを会議アーカイブデータベース６０に格納す
る。

【０１３２】図１５は、会議アーカイブデータベース６
０へのデータの格納を概略的に示す。図１５に示す格納
構造は概念上のものであり、格納される情報間のリンク
を示すことにより理解を助けることを目的としている。
従って、これは、会議アーカイブデータベース６０を構
成するメモリにデータが厳密にどのように格納されるか
を必ずしも表してはいない。

【０１３３】図１５を参照すると、会議アーカイブデー
タベース６０は水平軸２００により表される時間情報を
格納している。水平軸２００上の各単位は所定の量の時
間、例えば、カメラから受信される映像データの１フレ
ーム分の周期を表す。（会議アーカイブデータベース６
０が一般には図１５に示す数より多くの数の時間単位を
含むことは言うまでもなく了解されるであろう。）ステ
ップＳ９０で生成されたMPEG２データは、タイミング情
報（このタイミング情報は図１５では水平軸２００に沿
ったMPEG２データ２０２の位置により概略的に表されて
いる）と共に、データ２０２として会議アーカイブデー
タベース６０に格納されている。

【０１３４】再び図８に戻ると、ステップＳ９２では、
アーカイブプロセッサ５８は、現在フレームについてス
テップＳ８８で音声認識プロセッサ５４により生成され
たテキストデータを会議アーカイブデータベース６０に
格納する（図１５には２０４で示す）。すなわち、テキ
ストデータは対応するMPEG２データへのリンクを伴って
格納される。図１５においては、このリンクは、テキス
トデータがMPEG２データと同じ縦列に格納されることに
よって表されている。話をしていない参加者からは格納
すべきテキストデータが得られないことは理解されるで
あろう。図１５に示す例では、参加者１については初め
の１０個のタイムスロットにテキストが格納され（２０
６で示す）、参加者３については１２番目から２０番目
のタイムスロットに格納され（２０８で示す）、参加者
４については２１番目のタイムスロットに格納されてい
る（２１０で示す）。この例では、参加者２は図１５に
示すタイムスロットの間は話をしていないので、参加者
２のテキストは格納されていない。

【０１３５】ステップＳ９４では、アーカイブプロセッ
サ５８は、ステップＳ８０で現在フレームについて参加
者ごとに生成された視線パラメータ値を会議アーカイブ
データベース６０に格納する（図１５には２１２で示
す）。図１５を参照すると、視線パラメータ値は、参加
者ごとに、関連するMPEG２データ２０２及び関連するテ
キストデータ２０４へのリンクと共に格納されている
（このリンクは、図１５では、視線パラメータ値が関連
するMPEG２データ２０２及び関連するテキストデータ２
０４と同じ縦列にあることによって表されている）。従
って、一例として、図１５の第１のタイムスロットに関
していえば、参加者１の視線パラメータ値は、参加者１
が参加者３を見ていることを指示する３であり、参加者
２の視線パラメータ値は、参加者２がフリップチャート
１４を見ていることを指示する５であり、参加者３の視
線パラメータ値は、参加者３が参加者１を見ていること
を指示する１であり、参加者４の視線パラメータ値は、
参加者４が他の参加者の誰も見ていないことを指示する
「０」である（図１に示す例では、１２で示される参加者
は他の参加者ではなく、自分のメモを見ている）。

【０１３６】ステップＳ９６では、中央制御装置３６及
びアーカイブプロセッサ５８は、会議の参加者の１人が
話を止めたか否かを判定する。この実施形態において
は、この検査は、所定の参加者のテキストデータが直前
のタイムスロットには存在したが、現在タイムスロット
には存在しないことを判定するためにテキストデータ２
０４を検査することにより実行される。いずれかの参加
者についてこの条件が満たされれば（すなわち、参加者
が話を止めていれば）、ステップＳ９８で、アーカイブ
プロセッサ５８は、話を止めた参加者ごとに、先にステ
ップＳ８６を実行したときに格納されていた視線パラメ
ータ値を処理し（それらの視線パラメータ値は、この時
点で止まった話をしていた期間中にその参加者が誰を又
は何を見ていたかを定義する）、視線ヒストグラムを定
義するデータを生成する。すなわち、参加者が話をして
いた期間の視線パラメータ値を処理して、その期間中に
話者である参加者がその他の参加者及び物体のそれぞれ
を見ていた時間の割合（％）を定義するデータを生成す
るのである。

【０１３７】図１６A及び図１６Bは、図１５のテキスと
２０６及び２０８の期間にそれぞれ相当する視線ヒスト
グラムを示す。

【０１３８】図１５及び図１６Aを参照すると、参加者
１が話していた期間２０６の間、参加者１は、図１６に
３００で示すように、１０個のタイムスロットのうち６
個のタイムスロット（すなわち、参加者が話をしていた
期間全体の長さの６０％）にわたり参加者３を見てお
り、図１６Aに３１０で示すように、１０個のタイムス
ロットのうち４個のタイムスロット（すなわち、時間の
４０％）にわたり参加者４を見ていた。

【０１３９】同様に、図１５及び図１６Bを参照する
と、期間２０８の間、参加者３は、図１６Bに３２０で
示すように、時間の約４５％にわたり参加者１を見てお
り、図１６Bに３３０で示すように、時間の約３３％に
わたり物体５（すなわち、フリップチャート１４）を見
ており、図１６Bに３４０で示すように、時間の約２２
％にわたり参加者２を見ていた。

【０１４０】再び図８に戻ると、ステップＳ１００で
は、ステップＳ９８で生成した各視線ヒストグラムを、
それを生成する元になったテキストの関連する期間とリ
ンクさせて、会議アーカイブデータベース６０に格納す
る。図１５を参照すると、格納される視線ヒストグラム
は２１４で示され、テキスト期間２０６のヒストグラム
を定義するデータは２１６で示され、テキスト期間２０
８のヒストグラムを定義するデータは２１８で示されて
いる。図１５においては、視線ヒストグラムと関連する
テキストとのリンクは、視線ヒストグラムがテキストデ
ータと同じ縦列に格納されることにより表されている。

【０１４１】他方、ステップＳ９６で、現在時限につい
て参加者の１人が話を止めていないと判定された場合に
は、ステップＳ９８及びS１００を省略する。

【０１４２】ステップＳ１０２では、アーカイブプロセ
ッサ５８は、映像フレームの直前フレーム（すなわち、
ステップＳ８０からS１００でデータが生成、格納され
たばかりのフレームの直前のフレーム）及び他の先行フ
レームについて、会議アーカイブデータベース６０に格
納されているデータを必要に応じて修正する。

【０１４３】図１７は、ステップＳ１０２でアーカイブ
プロセッサ５８により実行される処理動作を示す。

【０１４４】図１７を参照すると、ステップＳ１９０で
は、アーカイブプロセッサ５８は、次の先行フレーム
（初めてステップＳ１９０を実行する場合には、これは
現在フレームの直前のフレームであり、すなわち、現在
フレームが「ｉ」番目のフレームであれば、「ｉ−１」番目
のフレームである）について、話者に「なりうる」参加者
のデータを会議アーカイブデータベース６０に格納する
かどうかを判定する。

【０１４５】ステップＳ１９０で、考慮されている先行
フレームについて話者に「なりうる」参加者のデータが格
納されていないと判定されれば、会議アーカイブデータ
ベース６０のデータを修正する必要はない。

【０１４６】他方、ステップＳ１９０で、考慮されてい
る先行フレームについて話者に「なりうる」参加者のデー
タが格納されていると判定された場合には、ステップＳ
１９２で、アーカイブプロセッサ５８は、先行フレーム
についてデータが格納された話者に「なりうる」参加者の
１人が現在フレームについて識別された話者である参加
者（話者に「なりうる」参加者ではない）、すなわち、図
１２のステップＳ１４６で識別された話者である参加者
と同１人物であるか否かを判定する。

【０１４７】ステップＳ１９２で、先行フレームの話者
に「なりうる」参加者がいずれも現在フレームについてス
テップＳ１４６で識別された話者である参加者と同じで
はないと判定されれば、考慮されている先行フレームに
ついて会議アーカイブデータベース６０に格納されてい
るデータの修正を実行しない。

【０１４８】他方、ステップＳ１９２で、先行フレーム
の話者に「なりうる」参加者が現在フレームについてステ
ップＳ１４６で識別された話者である参加者と同１人物
であると判定された場合には、ステップＳ１９４で、ア
ーカイブプロセッサ５８は、現在フレームの話者である
参加者と同じではない話者に「なりうる」参加者のそれぞ
れについて、考慮されている先行フレームのテキストデ
ータ２０４を会議アーカイブデータベース６０から削除
する。

【０１４９】以上説明したようにステップＳ１９０、S
１９２及びS１９４の処理を実行することにより、現在
フレームについて画像データ及び音声データを処理する
ことによって話者が明確に識別された場合、現在フレー
ムの話者は先行フレームの話者と同１人物であるという
仮定を利用して、話者に「なりうる」参加者（すなわち、
曖昧さなく話者を識別することが不可能であったため）
について格納された直前フレームのデータを更新するの
である。

【０１５０】ステップＳ１９４を実行した後、次の先行
フレームについてステップＳ１９０からS１９４を繰り
返す。すなわち、現在フレームが「ｉ」番目のフレームで
あれば、初めてステップＳ１９０からS１９４を実行す
るときに「ｉ−１」番目のフレームを考慮し、２度目にス
テップＳ１９０からS１９４を実行するときには「ｉ−
２」番目のフレームを考慮する。これ以降も同様であ
る。ステップＳ１９０で、考慮されている先行フレーム
について話者に「なりうる」参加者のデータが格納されて
いないと判定されるか、またはステップＳ１９２で、考
慮されている先行フレームにおける話者に「なりうる」参
加者がいずれも現在フレームについて曖昧さなく識別さ
れた話者である参加者と同じではないと判定されるま
で、ステップＳ１９０からS１９４を繰り返し実行し続
ける。このようにして、いくつかの連続するフレームに
わたり話者に「なりうる」参加者が識別された場合には、
次のフレームで話者に「なりうる」参加者の中から実際の
話者である参加者が識別されれば、会議アーカイブデー
タベースに格納されているデータを修正する。

【０１５１】再び図８に戻ると、ステップＳ１０４で
は、中央制御装置３６は、カメラ２−１、２−２、２−
３から映像データの別のフレームが受信されたか否かを
判定する。カメラ２−１、２−２、２−３から画像デー
タが受信されている間は、ステップＳ８０からS１０４
を繰り返し実行する。

【０１５２】会議アーカイブデータベース６０にデータ
が格納されている場合、会議アーカイブデータベース６
０を問い合わせて、会議に関連するデータを検索しても
良い。

【０１５３】図１８は、ユーザにより指定される探索基
準を満たす会議の各部分に関連するデータを検索する目
的で会議アーカイブデータベース６０を探索するために
実行される処理動作を示す。

【０１５４】図１８を参照すると、ステップＳ２００で
は、中央制御装置３６は表示プロセッサ６４に、要求す
る会議アーカイブデータベース６０の探索を定義する情
報をユーザが入力することを求めるメッセージを表示装
置２６に表示させる。すなわち、この実施形態において
は、中央制御装置３６は図１９Aに示す表示を表示装置
２６に表示させる。

【０１５５】図１９Aを参照すると、ユーザは、会議ア
ーカイブデータベース６０の中で見出すことを臨む会議
の部分を定義する情報を入力することを求められる。す
なわち、この実施形態においては、ユーザは、話をして
いた参加者を定義する情報４００、情報４００の中で識
別される参加者が口に出した１つ又は複数のキーワード
から成る情報４１０、及び情報４００の中で識別される
参加者が話している間に見ていた参加者又は物体を定義
する情報４２０を入力することを求められる。更に、ユ
ーザは、探索を実行すべき会議の部分を定義する時間情
報を入力することができる。すなわち、ユーザは、その
時間を越えたら探索を中止すべきである会議中の時間
（すなわち、指定される時間に至るまでの会議の期間を
探索すべきである）を定義する情報４３０と、その時間
から探索を実行すべきである会議中の時間を定義する情
報４４０と、探索を実行すべき期間の開始時間と終了時
間をそれぞれ定義する情報４５０及び４６０とを入力で
きる。この実施形態においては、情報４３０、４４０、
４５０及び４６０は、例えば、分単位で絶対期限として
時間を指定するか、又は会議時間全体に占める割合を指
示する小数値を入力することにより相対期限で時間を指
定することにより入力されれば良い。例えば、情報４３
０として値０．２５を入力した場合、探索は会議の初め
の四分の一に限定されるであろう。

【０１５６】この実施形態では、ユーザは１回の探索で
情報４００、４１０及び４２０の全てを入力する必要は
なく、この情報のうち１つ又は２つを省いても良い。ユ
ーザが情報４００、４１０及び４２０の全てを入力すれ
ば、会議の中で、情報４００の中で識別される参加者が
情報４２０の中で識別される参加者又は物体に向かって
話していた部分及び情報４００の中で識別される参加者
が情報４１０の中で定義されるキーワードを話した部分
をそれぞれ識別するための探索が実行されることにな
る。これに対し、情報４１０を省いた場合には、会議の
中で、情報４００の中で識別される参加者が何を言った
かに関わらず、情報４２０の中で定義される参加者又は
物体に向かって話していた部分をそれぞれ識別するため
の探索が実行される。情報４１０及び４２０を省いた場
合には、会議の中で、情報４００の中で識別される参加
者が何を誰に向かって話したかに関わらず、話していた
部分をそれぞれ識別するための探索が実行される。情報
４００を省いた場合には、会議の中で、いずれかの参加
者が情報４２０の中で定義される参加者又は物体を見な
がら情報４１０の中で定義されるキーワードを話した部
分をそれぞれ識別するための探索が実行される。情報４
００及び４１０を省いた場合には、会議の中で、いずれ
かの参加者が情報４２０の中で定義される参加者又は物
体に向かって話した部分をそれぞれ識別するための探索
が実行される。情報４２０を省いた場合には、会議の中
で、情報４００の中で定義される参加者が情報４１０の
中で定義されるキーワードを誰に向かって話したかに関
わらず、キーワードを話した部分をそれぞれ識別するた
めの探索が実行される。同様に、情報４００及び４２０
を省いた場合には、会議の中で、誰が誰に向かって言っ
たかに関わらず、情報４１０の中で識別されるキーワー
ドが話された部分をそれぞれ識別するための探索が実行
される。

【０１５７】更に、ユーザは時間情報４３０、４４０、
４５０及び４６０の全てを入力しても良いし、あるいは
そのうちいくつかを省いても良い。

【０１５８】また、探索者が言葉の組み合わせ又はある
言葉に代わる言葉を探索できるようにするために、情報
４１０の中で入力されるキーワードと組み合わせて周知
のブール演算子及び探索アルゴリズムを使用しても良
い。

【０１５９】探索を定義するためにユーザが必要な全て
の情報を入力したならば、マウス３０などのユーザ入力
装置を使用して領域４７０をクリックすることにより探
索を開始する。

【０１６０】再び図１８に戻ると、ステップＳ２０２で
は、ユーザが入力した探索情報を中央制御装置３６によ
り読み取り、命令された探索を実行する。すなわち、こ
の実施形態においては、中央制御装置３６は情報４００
又は４２０の中で入力された参加者又は物体の名前をテ
ーブル８０（図４）を使用して識別番号に変換し、情報
４００で定義される参加者（情報４００が入力されなか
った場合は全ての参加者）についてテキスト情報２０４
を考慮する。ユーザにより情報４２０が入力されていれ
ば、テキストの期間ごとに、中央制御装置３６は対応す
る視線ヒストグラムを定義するデータを検査して、情報
４２０の中で定義される参加者又は物体のヒストグラム
における注目時間の割合がこの実施形態では２５％であ
る閾値以上であるか否かを判定する。このように、話者
である参加者が話をしている時間の少なくとも２５％に
わたって情報４２０の中で定義される参加者又は物体を
見ていれば、話者である参加者が話しの間に他の参加者
又は物体を見たとしても、話し言葉（テキスト）の各期
間を考慮して、情報４００の中で定義される参加者は情
報４２０の中で定義される参加者又は物体に話しかけて
いたという基準を満たす。従って、例えば、情報４２０
の中で２人以上の参加者が識別されていれば、視線ヒス
トグラムの値が２人以上の参加者について２５％以上で
あるような話の期間が識別されるであろう。ユーザが情
報４１０を入力した場合、中央制御装置３６及びテキス
トサーチャ６２は、先に情報４００及び４２０に基づい
て識別されたテキストの各部分（情報４００及び４２０
が入力されていなければ、テキストの全ての部分）を探
索して、情報４１０の中で定義されるキーワードを含む
各部文を識別する。ユーザが時間情報を入力していれ
ば、上記の探索はそれらの期限により定義される会議時
間に限られる。

【０１６１】ステップＳ２０４では、中央制御装置３６
は表示プロセッサ６４に、探索中に識別された関連話題
のリストを表示装置２６を介してユーザに対し表示させ
る。すなわち、中央制御装置３６は、図１９Bに示すよ
うな情報をユーザに対し表示させる。図１９Bを参照す
ると、探索パラメータを満足させる各々の話題のリスト
が作成され、その話の開始時間を定義する情報が絶対期
限と、会議時間全体に占める割合の双方で表示されてい
る。そこで、ユーザは、例えば、リスト中の必要な話題
をマウス３０を使用してクリックすることにより、話題
の１つを選択して、再生させることができる。

【０１６２】ステップＳ２０６では、中央制御装置３６
はステップＳ２０４でユーザが行った選択を読み取り、
格納されている会議の関連部分のMPEG２データ２０２を
会議アーカイブデータベース６０から再生させる。すな
わち、中央制御装置３６及び表示プロセッサ６４はMPEG
２データ２０２を復号し、画像データと音声を表示装置
２６を介して出力するのである。再生すべき話の一部又
は全てについて２台以上のカメラからの画像データが格
納されている場合には、そのことを表示装置２６により
ユーザに指示し、ユーザは、例えば、キーボード２８を
使用して中央制御装置３６に命令を入力することによ
り、再生すべき画像データを選択することができる。

【０１６３】ステップＳ２０８では、中央制御装置３６
は、ユーザが会議アーカイブデータベース６０の問い合
わせを中止することを望むか否かを判定し、望まないの
であれば、ステップＳ２００からS２０８を繰り返す。

【０１６４】以上説明した本発明の実施形態に対して
は、様々な変形や変更を実施することができる。

【０１６５】上記の実施形態では、ステップＳ３４（図
３）及びステップＳ７０（図７）においては、会議中の
各参加者の頭部を追跡していた。しかし、これに加え
て、ステップＳ４及びS２６でデータを格納した物体が
移動する場合（そのような物体としては、例えば、参加
者により回覧されるようなメモ又は参加者間で手渡され
るべき物体などが考えられる）それらの物体を追跡する
ことも可能であろう。

【０１６６】上記の実施形態では、複数台のビデオカメ
ラ２−１、２−２、２−３からの画像データを処理して
いた。しかし、その代わりに、１台のビデオカメラから
の画像データを処理しても良い。この場合、例えば、ス
テップＳ４２−１（図５）のみを実行し、ステップＳ４
２−２からS４２−nを省略する。同様に、ステップＳ４
４を省略し、ステップＳ４２−１で実行される処理の
間、画像データの現在フレームに関わる参加者の頭部の
３D位置及び向きをステップＳ５８（図６）で判定され
る３D位置及び向きであるとみなす。ステップＳ４６で
は、カルマンフィルタに入力される頭部の特徴の位置は
その１台のカメラからの画像データにおける位置になる
であろう。更に、会議アーカイブデータベース６０に画
像データを記録すべきカメラを選択するためのステップ
Ｓ８９（図８）も省略されるであろう。

【０１６７】上記の実施形態では、ステップＳ１６８
（図１３）において、話者である参加者と、話者である
参加者が見ている参加者又は物体とを最も良く捉えるカ
メラを識別するための処理を実行していた、しかし、上
記の実施形態において説明したようにカメラを識別する
代わりに、処理装置２４の初期設定中に、会議テーブル
を囲む２つずつの着席位置を最も良く捉え且つ／又は各
々の着席位置と所定の物体（フリップチャート１４な
ど）を最も良く捉えるのはカメラ２−１、２−２、２−
３のうちどれであるかをユーザが定義することも可能で
ある。このようにして、話者である参加者と、話者であ
る参加者が見ている参加者があらかじめ定義された着席
位置にいると判定されれば、それらのあらかじめ定義さ
れた着席位置を最も良く捉えるとユーザにより定義され
たカメラを画像データを格納すべきカメラとして選択す
ることができる。同様に、話者である参加者があらかじ
め定義された位置にあり且つある物体を見ている場合、
そのあらかじめ定義された着席位置と物体を最も良く捉
えるとユーザにより定義されたカメラを画像データを格
納すべきカメラとして選択することができる。

【０１６８】上記の実施形態では、ステップＳ１６２
（図１３）において、直前フレームで画像データが格納
されたカメラとしてデフォルトカメラを選択していた。
しかし、その代わりに、例えば、処理装置２４の初期設
定中に、ユーザがデフォルトカメラを選択しても良い。

【０１６９】上記の実施形態では、ステップＳ１９４
（図１７）において、その時点で実際には話者である参
加者として識別されなかった話者に「なりうる」参加者に
ついて、テキストデータ２０４を会議アーカイブデータ
ベース６０から削除していた。しかし、これに加えて、
関連する視線ヒストグラムデータ２１４も共に削除して
良い。更に、カメラ２−１、２−２、２−３のうち２台
以上からのMPEG２データ２０２が格納されていた場合、
話者に「なりうる」参加者に関連するMPEG２データも削除
して良い。

【０１７０】上記の実施形態では、話者である参加者を
一意性をもって識別することが不可能である場合、話者
に「なりうる」参加者を定義し、話者になりうる参加者に
ついてデータを処理して会議アーカイブデータベース６
０に格納し、その後、会議アーカイブデータベース６０
に格納されたデータを修正していた（図８のステップＳ
１０２）。しかし、話者に「なりうる」参加者についてデ
ータを処理し、格納するのではなく、カメラ２−１、２
−２及び２−３から受信した映像データと、マイクロホ
ンアレイ４から受信した音声データとを、後続フレーム
に関連するデータから話者である参加者が識別されたと
きの後の処理及びアーカイビングに備えて格納しておい
ても良い。あるいは、ステップＳ１４４（図１２）で実
行された処理の結果、音声が来ている方向に２人以上の
参加者がいることが指示された場合には、カメラ２−
１、２−２及び２−３からの画像データを処理して、参
加者の唇の動きを検出すると共に、音声が来ている方向
にいて、唇が動いている参加者を話者である参加者とし
て選択しても良い。

【０１７１】上記の実施形態では、各人物の頭部の位置
と、各人物の頭部の向きと、各人物が誰を又は何を見て
いるかを定義する人物ごとの視線パラメータとを判定す
るための処理を実行していた。その後、画像データのフ
レームごとに、各人物の視線パラメータ値を会議アーカ
イブデータベース６０に格納する。しかし、全ての人物
について視線パラメータを判定する必要はない。例え
ば、話者である参加者のみの視線パラメータを判定し、
画像データのフレームごとにこの視線パラメータ値のみ
を会議アーカイブデータベース６０に格納することは可
能である。従って、この場合、話者である参加者の頭部
の位置を判定するだけで良いであろう。このようにすれ
ば、処理及び格納に課される負担を軽減することができ
る。

【０１７２】上記の実施形態では、ステップＳ２０２
（図１８）において、テキストの特定の部分の視線ヒス
トグラムを考慮し、その視線ヒストグラムにおいて別の
参加者又は物体に注目している時間の割合が所定の閾値
以上である場合に、参加者は別の参加者と話していた又
は別の物体を見ていたと判定していた。しかし、閾値を
使用する代わりに、テキスト（話）の期間中、話者であ
る参加者が見ていた参加者又は物体は、視線ヒストグラ
ムの中で最も大きな割合の注目時間を有する参加者又は
物体（例えば、図１６Aの参加者３及び図１６Bの参加者
１）であると定義しても良い。

【０１７３】上記の実施形態では、カメラ２−１、２−
２及び２−３と、マイクロホンアレイ４とからデータが
受信されている間、MPEG２データ２０２、テキストデー
タ２０４、視線パラメータ２１２及び視線ヒストグラム
２１４をリアルタイムで会議アーカイブデータベース６
０に格納していた。しかし、その代わりに、映像データ
と音声データを格納し、リアルタイムではなくデータ２
０２、２０４、２１２０及び２１４を生成して、会議ア
ーカイブデータベース６０に格納しても良い。

【０１７４】上記の実施形態では、会議の定義された部
分についてデータを検索するために会議アーカイブデー
タベース６０を問い合わせる前に、MPEG２データ２０
２、テキストデータ２０４、視線パラメータ２１２及び
視線ヒストグラム２１４を生成し、データベースに格納
していた。しかし、探索の要求に先立ってデータを生
成、格納するのではなく、会議アーカイブデータベース
６０の探索がユーザにより要求されるのに応答して、既
に会議アーカイブデータベース６０に格納されているデ
ータを処理することにより、視線ヒストグラムデータ２
１４の一部又は全てを生成しても良い。例えば、上記の
実施形態では、視線ヒストグラム２１４はステップＳ９
８及びS１００（図８）でリアルタイムで計算、格納さ
れていたが、ユーザにより入力される探索要求に応答し
てそれらのヒストグラムを計算しても良い。

【０１７５】上記の実施形態では、テキストデータ２０
４は会議アーカイブデータベース６０に格納されてい
た。テキストデータ２０４の代わりに、音声データを会
議アーカイブデータベース６０に格納しても良い。その
場合、格納された音声データ自体を音声認識処理を利用
してキーワードを求めて探索しても良いし、あるいは音
声認識処理を利用して音声データをテキストに変換し、
従来のテキストサーチャを使用してそのテキストを探索
しても良い。

【０１７６】上記の実施形態では、処理装置２４は、ア
ーカイブすべきデータを受信し、生成するための機能構
成要素（例えば、中央制御装置３６、頭部追跡装置５
０、頭部モデル記憶装置５２、方向プロセッサ５３、音
声認識プロセッサ５４、音声認識パラメータ記憶装置５
６及びアーカイブプロセッサ５８）と、アーカイブデー
タを格納するための機能構成要素（例えば、会議アーカ
イブデータベース６０）と、データベースを探索し、そ
こから情報を検索するための機能構成要素（例えば、中
央制御装置３６及びテキストサーチャ６２）とを含む。
しかし、これらの機能構成要素を別個の装置に設けても
良い。例えば、アーカイブすべきデータを生成する１つ
又は複数の装置と、データベースを探索する１つ又は複
数の装置とをインターネットなどのネットワークを介し
て１つ又は複数のデータベースに接続しても良い。

【０１７７】また、図２０を参照して説明すると、１つ
又は複数の場所での会議５００、５１０、５２０から得
られた映像データと音声データをデータ処理・データベ
ース記憶装置５３０（アーカイブデータを生成し、格納
するための機能構成要素を具備する）に入力し、データ
ベースを問い合わせて、そこから情報を検索するため
に、１つ又は複数のデータベース問い合わせ装置５４
０、５５０をデータ処理・データベース記憶装置５３０
に接続しても良い。

【０１７８】上記の実施形態では、プログラミング命令
により定義される処理ルーチンを使用して、コンピュー
タにより処理を実行していた。しかし、処理の一部又は
全てをハードウェアを使用して実行することも可能であ
ろう。

【０１７９】複数の参加者の間で行われる会議に関して
上記の実施形態を説明したが、本発明はこの用途には限
定されず、フィルムセットについて画像データ及び音声
データを処理するなどの他の用途にも適用することがで
きる。

【０１８０】上記の変形の異なる組み合わせも言うまで
もなく可能であり、本発明の趣旨から逸脱せずにその他
の変更や変形を実施することができる。

【０１８１】＜第２の実施形態＞図２１を参照すると、
この実施形態では、１台のビデオカメラ６０２と、１つ
又は複数のマイクロホン６０４とを使用して、複数の人
物６０６、６０８、６１０、６１２の間で行われている
会議から画像データと音声データをそれぞれ記録してい
る。

【０１８２】ビデオカメラ６０２からの画像データと、
マイクロホン６０４からの音声データはケーブル（図示
せず）を介してコンピュータ６２０に入力され、コンピ
ュータ６２０は受信したデータを処理し、データをデー
タベースに格納して、会議のアーカイブ記録を作成す
る。後に、このデータベースから情報を検索することが
できる。

【０１８３】コンピュータ６２０は、従来のように、表
示装置６２６や、この実施形態においてはキーボード６
２８及びマウス６３０であるユーザ入力装置と共に、１
つ又は複数のプロセッサ、メモリ、サウンドカードなど
を含む処理装置６２４を有する従来通りのパーソナルコ
ンピュータである。

【０１８４】コンピュータ６２０の構成要素と、それら
の構成要素に対し入出力されるデータの流れを図２２に
概略的に示す。

【０１８５】図２２を参照すると、処理装置６２４は、
例えば、ディスク６３２などのデータ記憶媒体に格納さ
れたデータとして及び／又は例えば、インターネットな
どの通信ネットワーク（図示せず）を介する送信又は大
気中を通る送信により遠隔データベースから処理装置６
２４に入力され且つ／又はキーボード６２８などのユー
ザ入力装置又は他の入力装置を介してユーザにより処理
装置６２４に入力される信号６３４として入力されるプ
ログラミング命令に従って動作するようにプログラムさ
れている。

【０１８６】プログラミング命令によりプログラムされ
ると、処理装置６２４は処理動作を実行するための複数
の機能ユニットとして有効に構成される。そのような機
能ユニットの例と、それらの配線を図２２に示す。しか
し、図２２に示すユニットと配線は概念上のものであ
り、単に理解を助けるために例示を目的として示されて
いるにすぎない。従って、図２２の機能ユニット及び配
線は、処理装置６２４のプロセッサ、メモリなどが実際
に構成される厳密なユニットや接続関係を必ずしも表し
てはいない。

【０１８７】図２２に示す機能ユニットに関して説明す
ると、中央制御装置６３６はユーザ入力装置６２８，６
３０からの入力を処理し、且つユーザによりディスク６
３８などの記憶装置に格納されたデータとして又は処理
装置６２４へ送信される信号６４０として処理装置６２
４に入力されるデータを受信する。また、中央処理装置
６３６はその他の複数の機能ユニットに対して制御及び
処理を実行する。メモリ６４２は、中央制御装置６３６
及びその他の機能ユニットにより使用されるべきメモリ
である。

【０１８８】頭部追跡装置６５０はビデオカメラ６０２
から受信した画像データを処理して、会議中の各々の参
加者６０６、６０８、６１０，６１２の頭部の位置と向
きを三次元で追跡する。この実施形態では、この追跡を
実行するために、頭部追跡装置６５０は各々の参加者の
頭部の三次元コンピュータモデルを定義するデータと、
頭部の特徴を定義するデータとを使用する。それらのデ
ータは、後述するように、頭部モデル記憶装置６５２に
格納される。

【０１８９】音声認識プロセッサ６５４はマイクロホン
６０４から受信される音声データを処理する。音声認識
プロセッサ６５４は、「Dragon Dictate」又はIBMの「ViaV
oice」などの従来の音声認識プログラムに従って動作
し、参加者６０６、６０８、６１０、６１２により話さ
れた言葉に対応するテキストデータを生成する。音声認
識処理を実行するために、音声認識プロセッサ６５４
は、参加者６０６、６０８、６１０、６１２ごとの音声
認識パラメータを定義するデータを使用する。このデー
タは音声認識パラメータ記憶装置６５６に格納される。
すなわち、音声認識パラメータ記憶装置６５６に格納さ
れるデータは、音声認識プロセッサを従来の方式で訓練
することにより生成される各参加者の音声プロファイル
を定義するデータである。例えば、このデータは、訓練
後にDragon Dictateの「ユーザファイル」に格納されるデ
ータである。

【０１９０】アーカイブプロセッサ６５８は、頭部追跡
装置６５０及び音声認識プロセッサ６５４から受信した
データを使用して、会議アーカイブデータベース６６０
に格納すべきデータを生成する。すなわち、後述するよ
うに、カメラ６０２からの映像データとマイクロホン６
０４からの音声データを、音声認識プロセッサ６５４か
らのテキストデータ及び会議中の各参加者が所定の時点
で誰を見ていたかを定義するデータと共に会議アーカイ
ブデータベース６６０に格納するのである。

【０１９１】テキストサーチャ６６２は、中央制御装置
６３６と関連して、会議アーカイブデータベース６６０
を探索して、後に更に詳細に説明するように、ユーザに
より指定される探索基準に適合する会議の１つ又は複数
の部分に対応する音声データと映像データを見出し、再
生するために使用される。

【０１９２】表示プロセッサ６６４は、中央制御装置６
３６の制御の下に、表示装置６２６を介してユーザに情
報を表示すると共に、会議アーカイブデータベース６６
０に格納されている音声データと映像データを再生す
る。

【０１９３】出力プロセッサ６６６はアーカイブデータ
ベース６６０からのデータの一部又は全てを、例えば、
ディスク６６８などの記憶装置へ出力するか、又は信号
６７０として出力する。

【０１９４】会議を始める前に、処理装置６２４が要求
される処理動作を実行できるようにするために必要なデ
ータを入力することによりコンピュータ６２０を初期設
定しなければならない。

【０１９５】図２３は、この初期設定中に処理装置６２
４により実行される処理動作を示す。

【０１９６】図２３を参照すると、ステップＳ３０２で
は、中央制御装置６３６は表示プロセッサ６６４に、ユ
ーザが会議に参加する各人物の名前を入力することを要
求するメッセージを表示装置６２６に表示させる。

【０１９７】ステップＳ３０４では、中央制御装置６３
６は、例えば、ユーザがキーボード６２８を使用して入
力した名前を定義するデータを受信すると、各参加者に
独自の参加者番号を割り当て、参加者番号と参加者の名
前との関係を定義するデータ、例えば、図２４に示すテ
ーブル６８０を会議アーカイブデータベース６６０に格
納する。

【０１９８】ステップＳ３０６では、中央制御装置６３
６は頭部モデル記憶装置６５２を探索して、会議の参加
者ごとに頭部モデルを定義するデータが既に格納されて
いるか否かを判定する。

【０１９９】ステップＳ３０６で、１人又は２人以上の
参加者について頭部モデルがまだ格納されていないと判
定されれば、ステップＳ３０８で、中央制御装置６３６
は表示プロセッサ６６４に、モデルがまだ格納されてい
ない各参加者の頭部モデルを定義するデータをユーザが
入力することを要求するメッセージを表示装置６２６に
表示させる。

【０２００】これに応答して、ユーザは、例えば、ディ
スク６３８などの記憶媒体に格納されたデータとして要
求された頭部モデルを定義するデータを入力するか、又
は接続している処理装置から信号６４０としてこのデー
タをダウンロードすることによりデータを入力する。そ
のような頭部モデルは、例えば、Valente他の「An Analy
sis／Synthesis Cooperation for Head Tracking andVi
deo Face Cloning」（ProceedingsECCV’９８Workshop o
n Perceptionof Human Action、ドイツ、フライブルク
大学、１９９８年６月６日に掲載）に記載されているよ
うな従来の方式で生成されれば良い。

【０２０１】ステップＳ３１０では、中央制御装置６３
６は、ユーザにより入力されたデータを頭部モデル記憶
装置６５２に格納する。

【０２０２】ステップＳ３１２では、中央制御装置６３
６及び表示プロセッサ６６４は、ユーザにより入力され
た各々の三次元コンピュータ頭部モデルをレンダリング
して、ユーザが各モデルにおいて少なくとも７つの特徴
を識別することを要求するメッセージと共に、モデルを
ユーザに対し表示装置６２６を介して表示する。

【０２０３】これに応答して、ユーザは、マウス６３０
を使用して、参加者の頭部の正面、側面及び（可能であ
れば）背面にある顕著な特徴、例えば、目尻、鼻孔、
口、耳又は参加者がかけている眼鏡の特徴などに対応す
る点を各モデルで指定する。

【０２０４】ステップＳ３１４では、中央制御装置６３
６はユーザにより定義された特徴を頭部モデル記憶装置
６５２に格納する。

【０２０５】他方、ステップＳ３０６で、参加者ごとに
頭部モデルが頭部モデル記憶装置６５２に既に記憶され
ていると判定された場合には、ステップＳ３０８からS
３１４を省略する。

【０２０６】ステップＳ３１６では、中央制御装置６３
６は音声認識パラメータ記憶装置６５６を探索して、参
加者ごとに音声認識パラメータが既に格納されているか
否かを判定する。

【０２０７】ステップＳ３１６で、一部の参加者につい
て音声認識パラメータを利用できないと判定されれば、
ステップＳ３１８で、中央制御装置６３６は表示プロセ
ッサ６６４に、パラメータがまだ格納されていない各参
加者についてユーザが音声認識パラメータを入力するこ
とを要求するメッセージを表示装置６２６に表示させ
る。

【０２０８】これに応答して、ユーザは、例えば、ディ
スク６３８などの記憶媒体に格納されたデータとして又
は遠隔処理装置からの信号６４０として、必要な音声認
識パラメータを定義するデータを入力する。先に述べた
通り、これらのパラメータはユーザの音声のプロファイ
ルを定義し、音声認識プロセッサを従来の方式で訓練す
ることにより生成される。従って、例えば、Dragon Dic
tateを組み込んだ音声認識プロセッサの場合、ユーザに
より入力される音声認識パラメータはDragon Dictateの
「ユーザファイル」に格納されたパラメータに相当する。

【０２０９】ステップＳ３２０では、中央制御装置６３
６は、ユーザにより入力されたデータを音声認識パラメ
ータ記憶装置６５６に格納する。

【０２１０】他方、ステップＳ３１６で、参加者ごとに
音声認識パラメータが既に利用可能な状態になっている
と判定された場合には、ステップＳ３１８及びS３２０
を省略する。

【０２１１】ステップＳ３２２では、中央制御装置６３
６は表示プロセッサ６６４に、ユーザがカメラ６０２の
校正を可能にするためのステップを実行することを要求
するメッセージを表示装置６２６に表示させる。

【０２１２】これに応答して、ユーザは必要なステップ
を実行し、ステップＳ３２４では、中央制御装置６３６
はカメラ６０２を校正するための処理を実行する。すな
わち、この実施形態においては、ユーザにより実行され
るステップ及び中央制御装置６３６により実行される処
理は、Wiles及びDavisonの「Calibrating and３D Modell
ing with a Multi−Camera System」（１９９９IEEE Wor
kshop on Multi−ViewModelling and Analysis of Visu
al Scenes、ISBN ０７６９５０１１０９に掲載）に記載
されているような方式で実行される。これにより、会議
室に対するカメラ６０２の位置と向きを定義する校正デ
ータと、カメラの固有パラメータ（横縦比、焦点距離、
主点及び一次半径方向ひずみ係数）とが生成される。校
正データはメモリ６４２に格納される。

【０２１３】ステップＳ３２６では、中央制御装置６３
６は表示プロセッサ６６４に、会議の次の参加者（初め
てステップＳ３２６を実行する場合には、これは最初の
参加者である）が着席することを要求するメッセージを
表示装置６２６に表示させる。

【０２１４】ステップＳ３２８では、要求された参加者
に着席する時間を与えるために、処理装置６２４は所定
の時間待機し、その後、ステップＳ３３０で、中央制御
装置６３６はカメラ６０２からの画像データを処理し
て、着席した参加者の頭部の推定位置を判定する。すな
わち、この実施形態においては、中央制御装置６３６
は、参加者の肌の色に対応する色（この色は、頭部モデ
ル記憶装置６５２に格納されている参加者の頭部モデル
を定義するデータから判定される）を有する、カメラ６
０２からの画像データの１フレーム中の各部分を識別す
るために従来通りの処理を実行し、次に、会議室内の最
も高い位置に相当する部分を選択する（頭部は人体の中
で最も高い位置にある肌色の部分であると想定されるた
め）。画像中の識別された部分の位置と、ステップＳ３
２４で判定されたカメラ校正パラメータとを使用して、
中央制御装置６３６は従来の方式により頭部の三次元推
定位置を判定する。

【０２１５】ステップＳ３３２では、中央制御装置６３
６は参加者の頭部の三次元推定向きを判定する。すなわ
ち、この実施形態においては、中央制御装置６３６は頭
部モデル記憶装置６５２に格納されている参加者の頭部
の三次元コンピュータモデルを複数の異なる向きについ
てレンダリングして、向きごとにそれぞれ対応するモデ
ルの二次元画像を生成し、モデルの各二次元画像を参加
者の頭部を示す、カメラ６０２からの映像フレームの部
分と比較し、モデルの画像が映像データと最も良く整合
する向きを選択する。この実施形態では、参加者の頭部
のコンピュータモデルを１０８の異なる向きでレンダリ
ングして、カメラ６０２からの映像データと比較すべき
画像データを生成する。これらの向きは頭部モデルを０
°（正面を向いている）、＋４５°（上を向いている）
及び−４５°（下を向いている）に相当する３つの頭部
の傾きのそれぞれについて１０°ずつのステップで３６
回回転させた向きに相当する。頭部モデルをレンダリン
グすることにより生成された画像データをカメラ６０２
からの映像データと比較するときには、例えば、Schod
l、Haro及びEssaの「Head Tracking Using a Textured P
olygonal Model」（Proceedings１９９８Workshop on Pe
rceptual User Interfacesに掲載）に記載されているよ
うな従来の技法を使用する。

【０２１６】ステップＳ３３４では、ステップＳ３３０
で生成した参加者の頭部の推定位置と、ステップＳ３３
２で生成した参加者の頭部の推定向きとを頭部追跡装置
６５０に入力し、カメラ６０２から受信した画像データ
のフレームを処理して、参加者の頭部を追跡する。すな
わち、この実施形態においては、頭部追跡装置６５０
は、例えば、Valente他の「An Analysis／Synthesis Coo
peration for Head Tracking andVideo Face Cloning」
（ProceedingsEECV’９８Workshop on Perceptionof Hu
man Action、ドイツ、フライブルク大学、１９９８年６
月６日）に記載されているような従来の方式で頭部を追
跡するための処理を実行する。

【０２１７】図２５は、ステップＳ３３４で頭部追跡装
置６５０により実行される処理動作の概要を示す。

【０２１８】図２５を参照すると、ステップＳ３５０で
は、頭部追跡装置６５０は参加者の頭部の現在推定３D
位置及び現在推定３D向きを読み取る。ステップＳ３５
０を初めて実行する場合には、これらは図２３のステッ
プＳ３３０及びS３３２で生成される推定位置及び推定
向きである。

【０２１９】ステップＳ３５２では、頭部追跡装置６５
０はステップＳ３２４で生成されたカメラ校正データを
使用して、頭部モデル記憶装置６５２に格納されている
参加者の頭部の三次元コンピュータモデルをステップＳ
３５０で読み取った推定位置及び推定向きに従ってレン
ダリングする。

【０２２０】ステップＳ３５４では、頭部追跡装置６５
０はカメラ６０２から受信された映像データの現在フレ
ームについて画像データを処理し、ユーザにより識別さ
れ、ステップＳ３１４で格納された頭部の特徴のうち１
つの特徴の期待位置を取り囲む各々の領域から画像デー
タを取り出す。それらの期待位置は、ステップＳ３５０
で読み取った推定位置及び推定向きと、ステップＳ３２
４で生成されたカメラ校正データとから判定される。

【０２２１】ステップＳ３５６では、頭部追跡装置６５
０はステップＳ３５２でレンダリングし、生成した画像
データと、ステップＳ３５４で取り出したカメラ画像デ
ータとを整合し、レンダリングされた頭部モデルに最も
良く整合するカメラ画像データを見出す。

【０２２２】ステップＳ３５８では、頭部追跡装置６５
０は、ステップＳ３５６でレンダリングされた頭部モデ
ルに最も良く整合すると識別されたカメラ画像データを
使用して、映像データの現在フレームについて参加者の
頭部の３D位置及び３D向きを判定する。

【０２２３】ステップＳ３５８を実行するのと同時に、
ステップＳ３６０では、ステップＳ３５６で判定された
カメラ画像データにおける頭部の特徴の位置を従来のカ
ルマンフィルタに入力して、映像データの次のフレーム
について参加者の頭部の推定３D位置及び推定３D向きを
生成する。ビデオカメラ６０２から映像データのフレー
ムが受信されている間、その参加者についてステップＳ
３５０からS３６０を繰り加し実行する。

【０２２４】再び図２３に戻ると、ステップＳ３３６で
は、中央制御装置６３６は会議に他の参加者がいるか否
かを判定し、参加者ごとに先に説明したように処理が実
行され終わるまでステップＳ３２６からS３３６を繰り
返す。しかし、参加者ごとにこれらのステップを実行し
ている間、ステップＳ３３４では、頭部追跡装置６５０
は既に着席した各参加者の頭部を追跡し続けている。

【０２２５】ステップＳ３３６で、会議にそれ以上の参
加者はなく、従って、各参加者の頭部が頭部追跡装置６
５０により追跡されていることが判定されると、ステッ
プＳ３３８で、中央制御装置６３６は、参加者間で会議
を始めて良いことを指示するために、処理装置６２４か
ら可聴信号を出力させる。

【０２２６】図２６は、参加者間で会議が行われている
間に処理装置６２４により実行される処理動作を示す。

【０２２７】図２６を参照すると、ステップＳ３７０で
は、頭部追跡装置６５０は会議中の各参加者の頭部を追
跡し続ける。ステップＳ３７０で頭部追跡装置６５０に
より実行される処理は、先にステップＳ３３４に関して
説明した処理と同じであるので、ここでは説明を省略す
る。

【０２２８】頭部追跡装置６５０がステップＳ３７０で
各参加者の頭部を追跡しているのと同時に、ステップＳ
３７２では、データを生成し、会議アーカイブデータベ
ース６６０にデータを格納するための処理を実行する。

【０２２９】図２７は、ステップＳ３７２で実行される
処理動作を示す。

【０２３０】図２７を参照すると、ステップＳ３８０で
は、アーカイブプロセッサ６５８は、参加者が誰を見て
いるかを定義するいわゆる「視線パラメータ」を参加者ご
とに生成する。

【０２３１】図２８は、ステップＳ３８０で実行される
処理動作を示す。

【０２３２】図２８を参照すると、ステップＳ４１０で
は、アーカイブプロセッサ６５８は各参加者の頭部の現
在三次元位置を頭部追跡装置６５０から読み取る。これ
は、ステップＳ３５８（図２５）で頭部追跡装置６５０
により実行される処理において生成された位置である。

【０２３３】ステップＳ４１２では、アーカイブプロセ
ッサ６５８は次の参加者（初めてステップＳ４１２を実
行する場合には、これは最初の参加者である）の頭部の
現在向きを頭部追跡装置６５０から読み取る。ステップ
Ｓ４１２で読み取られる向きは、ステップＳ３５８（図
２５）で頭部追跡装置６５０により実行される処理にお
いて生成された向きである。

【０２３４】ステップＳ４１４では、アーカイブプロセ
ッサ６５８は、参加者がどこを見ているかを定義する線
（いわゆる「視線」）と、参加者の頭部を別の参加者の頭
部の中心と結ぶ概念上の各々の線とが成す角度を判定す
る。

【０２３５】図２９及び図３０を参照して更に詳細に説
明する。図２９及び図３０には、１人の参加者、すなわ
ち、図２１の参加者６１０についてステップＳ４１４で
実行される処理の一例が示されている。図２９を参照す
ると、ステップＳ４１２で読み取られる参加者の頭部の
向きは、その参加者の両目の中心の間の一点から出る、
参加者の頭部に対し垂直な視線６９０を定義する。同様
に、図３０を参照すると、ステップＳ４１０で読み取ら
れる全ての参加者の頭部の位置は、参加者６１０の両目
の中心の間の一点から他の各々の参加者６０６、６０
８、６１２の頭部の中心に至る概念上の線６９２、６９
４、６９６を定義する。ステップＳ４１４では、アーカ
イブプロセッサ６５８は視線６９０と、概念上の線６９
２、６９４、６９６とがそれぞれ成す角度６９８、７０
０、７０２を判定する。

【０２３６】再び図２８に戻ると、ステップＳ４１６で
は、アーカイブプロセッサ６５８は最小値を有する角度
６９８、７００又は７０２を選択する。すなわち、図３
０に示す例で言えば、角度７００が選択されることにな
るであろう。

【０２３７】ステップＳ４１８では、アーカイブプロセ
ッサ６５８は選択した角度が１０°より小さいか否かを
判定する。

【０２３８】ステップＳ４１８で、角度が１０°より小
さいと判定されれば、アーカイブプロセッサ６５８は参
加者の視線パラメータを、視線と最小の角度を成す概念
上の線により結ばれている参加者の番号（図２３のステ
ップＳ３０４で割り当てられている）に設定する。すな
わち、図３０に示す例で言えば、角度７００が１０°よ
り小さい場合には、角度７００は視線６９０と、参加者
６１０を参加者６０６と結ぶ概念上の線６９４とが成す
角度であるので、視線パラメータは参加者６０６の参加
者番号に設定されることになるであろう。

【０２３９】他方、ステップＳ４１８で、最小角度が１
０°以上であると判定された場合には、ステップＳ４２
２で、アーカイブプロセッサ６５８は参加者の視線パラ
メータを「０」に設定する。これは、視線６９０が概念上
の線６９２、６９４、６９６のいずれにも十分に近接し
ていないために、参加者はその他の参加者の誰も見てい
ないと判定されたことを示す。そのような状況は、例え
ば、参加者がメモ又は会議室内の他の何らかの物体を見
ているときに起こりうるであろう。

【０２４０】ステップＳ４２４では、アーカイブプロセ
ッサ６５８は会議に他の参加者がいるか否かを判定し、
参加者ごとに上記の処理がそれぞれ実行され終わるまで
ステップＳ４１２からS４２４を繰り返す。

【０２４１】再び図２７に戻ると、ステップＳ３８２で
は、中央制御装置６３６及び音声認識プロセッサ６５４
は、映像データの現在フレームについてマイクロホン６
０４から音声データが受信されたか否かを判定する。

【０２４２】ステップＳ３８２で、音声データが受信さ
れていると判定されれば、ステップＳ３８４で、アーカ
イブプロセッサ６５８はステップＳ３８０で生成された
視線パラメータを処理して、会議中のどの参加者が話を
しているかを判定する。

【０２４３】図３１は、ステップＳ３８４でアーカイブ
プロセッサ６５８により実行される処理動作を示す。

【０２４４】図３１を参照すると、ステップＳ４４０で
は、ステップＳ３８０で生成された各視線パラメータ値
の出現回数を判定し、ステップＳ４４２では、出現回数
が最も多い視線パラメータ値を選択する。すなわち、図
２７のステップＳ３８０で実行される処理は、会議中の
参加者ごとに、映像データの現在フレームについて１つ
の視線パラメータ値を生成するのである（従って、図２
１に示す例では、４つの値が生成されることになるであ
ろう）。各視線パラメータは、その他の参加者のうち１
人の参加者番号に相当する値又は「０」を有する。従っ
て、ステップＳ４４０及びS４４２では、アーカイブプ
ロセッサ６５８は、ステップＳ３８０で生成された視線
パラメータ値の中で、映像データの現在フレームについ
て最も多くの回数で出現する値はどれであるかを判定す
る。

【０２４５】ステップＳ４４４では、最も出現回数の多
い視線パラメータが「０」の値を有するか否かを判定し、
「０」の値であれば、ステップＳ４４６で、次に出現回数
の多い視線パラメータ値を選択する。これに対し、ステ
ップＳ４４４で、選択された値が「０」ではないと判定さ
れた場合には、ステップＳ４４６を省略する。

【０２４６】ステップＳ４４８では、選択された視線パ
ラメータ値（すなわち、ステップＳ４４２で選択された
値、又はその値が「０」であれば、ステップＳ４４６で選
択された値）を話をしている参加者として識別する。こ
れは、会議中の参加者の大半は話者である参加者を見て
いるからである。

【０２４７】再び図２７に戻ると、ステップＳ３８６で
は、アーカイブプロセッサ６５８は話者である参加者の
視線パラメータ値、すなわち、ステップＳ３８０で生成
された、話者である参加者が誰を見ているかを定義する
視線パラメータ値を後の解析に備えて、例えば、メモリ
６４２に格納する。

【０２４８】ステップＳ３８８では、アーカイブプロセ
ッサ６５８はステップＳ３８４で判定された話者である
参加者のアイデンティティを音声認識プロセッサ６５４
に報知する。これに応答して、音声認識プロセッサ６５
４は話者である参加者の音声認識パラメータを音声認識
パラメータ記憶装置６５６から選択し、選択したパラメ
ータを使用して、受信された音声データに対して音声認
識処理を実行し、話者である参加者が話した言葉に対応
するテキストデータを生成する。

【０２４９】他方、ステップＳ３８２で、受信された音
声データが話し言葉を含まないと判定された場合には、
ステップＳ３８４からS３８８を省略する。

【０２５０】ステップＳ３９０では、アーカイブプロセ
ッサ６５８はカメラ６０２から受信された映像データの
現在フレームと、マイクロホン６０４から受信された音
声データとを従来の方式でMPEG２データを符号化し、符
号化されたデータを会議アーカイブデータベース６６０
に格納する。

【０２５１】図３２は、会議アーカイブデータベース６
６０へのデータの格納状態を概略的に示す。図３２に示
す格納構造は概念的なものであり、単に理解を助けるた
めに例示を目的として提示されているにすぎない。従っ
て、図３２に示す構造は、データが実際に会議アーカイ
ブデータベース６６０に格納される厳密な状態を必ずし
も表してはいない。

【０２５２】図３２を参照すると、会議アーカイブデー
タベース６６０は水平軸８００により表される時間情報
を格納している。水平軸８００に沿った各単位は所定の
量の時間、例えば、カメラ６０２から受信される映像デ
ータの１つのフレームを表している。ステップＳ３９０
で生成されるMPEG２データは、時間情報と共に、データ
８０２として会議アーカイブデータベース６６０に格納
されている（この時間情報は、図３２には、水平軸８０
０に沿ったMPEG２データ８０２の位置により概略的に表
されている）。

【０２５３】再び図２７に戻ると、ステップＳ３９２で
は、アーカイブプロセッサ６５８は、現在フレームにつ
いてステップＳ３８８で音声認識プロセッサ６５４によ
り生成されたテキストデータを会議アーカイブデータベ
ース６６０に格納する（図３２には８０４で示されてい
る）。すなわち、テキストデータは対応するMPEG２デー
タへのリンクを伴って格納される。このリンクは、図３
２には、テキストデータがMPEG２データと同じ縦列に格
納されることによって表されている。話をしていない参
加者からは格納すべきテキストデータが得られないこと
は理解されるであろう。図３２に示す例では、初めの１
０個のタイムスロットにわたり参加者１についてテキス
トが格納され（８０６で示す）、１２番目から２０番目
のタイムスロットには参加者３のテキストが格納され
（８０８で示す）、２１番目のタイムスロットには参加
者４のテキストが格納されている（８１０で示す）。こ
の例では、図３２に示すタイムスロットの間、参加者２
は話をしなかったので、参加者２のテキストは格納され
ていない。

【０２５４】ステップＳ３９４では、アーカイブプロセ
ッサ６５８は、ステップＳ３８０で生成された参加者ご
との視線パラメータ値を会議アーカイブデータベース６
６０に格納する（図３２には８１２で示す）。図３２を
参照すると、視線パラメータ値は、参加者ごとに、関連
するMPEG２データ８０２及び関連するテキストデータ８
０４へのリンクと共に格納されている（このリンクは、
図３２では、視線パラメータ値が関連するMPEG２データ
８０２及び関連するテキストデータ８０４と同じ縦列に
格納されることにより示されている）。従って、一例と
して第１のタイムスロットに関して言えば、参加者１の
視線パラメータ値は、参加者１が参加者３を見ているこ
とを指示する「３」であり、参加者２の視線パラメータ値
は、参加者２が参加者１を見ていることを指示する「１」
であり、参加者３の視線パラメータ値も、参加者３が同
様に参加者１を見ていることを指示する「１」であり、参
加者４の視線パラメータ値は、参加者４が他のどの参加
者も見ていない（図２１に示す例では、６１２で示され
る参加者は他の参加者ではなく、自分のメモを見てい
る）ことを指示する「０」である。

【０２５５】ステップＳ３９６では、中央制御装置６３
６及びアーカイブプロセッサ６５８は、会議中の参加者
の１人が話を止めたか否かを判定する。この実施形態に
おいては、この検査は、所定の参加者のテキストデータ
が直前のタイムスロットには存在したが、現在タイムス
ロットには存在しないことを判定するためにテキストデ
ータ８０４を検査することにより実行される。ある参加
者についてこの条件が満たされれば（すなわち、参加者
が話を止めたならば）、ステップＳ３９８で、アーカイ
ブプロセッサ６５８は、話を止めた参加者について、先
にステップＳ３８６を実行したときに格納されていた視
線パラメータ値を処理して（それらの視線パラメータ値
は、その時点で止まった話をしていた期間中にその参加
者が誰を見ていたかを定義する）、視線ヒストグラムを
定義するデータを生成する。すなわち、参加者が話をし
ていた期間の視線パラメータ値を処理して、その期間中
に話者である参加者がその他の参加者の各々を見ていた
時間の割合（％）を定義するデータを生成するのであ
る。

【０２５６】図３３A及び図３３Bは図３２のテキスと８
０６及び８０８の期間にそれぞれ対応する視線ヒストグ
ラムを示す。

【０２５７】図３２及び図３３Aを参照して説明する
と、参加者１が話していた期間８０６の間、図３３Aに
９００で示すように、参加者１は１０個のタイムスロッ
トのうち６個（すなわち、参加者１が話していた期間全
体の長さの６０％）にわたり参加者３を見ており、ま
た、図３３Aに９１０で示すように、４個のタイムスロ
ット（すなわち、時間の４０％）にわたり参加者４を見
ていた。

【０２５８】同様に、図３２及び図３３Bを参照する
と、期間８０８の間、図３３Bに９２０で示すように、
参加者３は時間の約４５％にわたり参加者１を見てお
り、図３３Bに９３０で示すように、時間の約３３％に
わたり参加者４を見ており、図３３Bに９４０で示すよ
うに、時間の約２２％にわたり参加者２を見ていた。

【０２５９】再び図２７に戻ると、ステップＳ４００で
は、ステップＳ３９８で生成された視線ヒストグラムを
それが生成された関連するテキストの期間にリンクさせ
て、会議アーカイブデータベース６６０に格納する。図
３２を参照すると、格納された視線ヒストグラムは８１
４で示されており、８１６で示されるテキスト期間８０
６に対応するヒストグラムを定義するデータと、８１８
で示されるテキスト期間８０８に対応するヒストグラム
を定義するデータとを伴う。図３２において、視線ヒス
トグラムと関連するテキストとの間のリンクは、視線ヒ
ストグラムがテキストデータと同じ縦列に格納されるこ
とにより示されている。

【０２６０】他方、ステップＳ３９６で、現在時限につ
いて、参加者の１人が話を止めていないと判定された場
合には、ステップＳ３９８及びS４００を省略する。

【０２６１】ステップＳ４０２では、中央制御装置６３
６は、カメラ６０２から映像データの別のフレームが受
信されたか否かを判定する。カメラ６０２から画像デー
タが受信されている間は、ステップＳ３８０からS４０
２を繰り返し実行する。

【０２６２】会議アーカイブデータベース６６０にデー
タが格納されている場合、会議に関連するデータを検索
するために会議アーカイブデータベース６６０を問い合
わせても良い。

【０２６３】図３４は、ユーザにより指定される探索基
準を満たす会議の各部分に関連するデータを検索する目
的で会議アーカイブデータベース６６０を探索するため
に実行される処理動作を示す。

【０２６４】図３４を参照すると、ステップＳ５００で
は、中央制御装置６３６は表示プロセッサ６６４に、要
求される会議アーカイブデータベース６６０の探索を定
義する情報をユーザが入力することを要求するメッセー
ジを表示装置６２６に表示させる。すなわち、この実施
形態においては、中央制御装置６３６は図３５Aに示す
表示を表示装置６２６に出現させる。

【０２６５】図３５Aを参照すると、ユーザは、会議ア
ーカイブデータベース６６０の中で見出したい会議の１
つ又は複数の部分を定義する情報を入力することを求め
られる。すなわち、この実施形態においては、ユーザは
話をしていた参加者を定義する情報１０００と、情報１
０００の中で識別される参加者が話した１つ又は複数の
キーワードから成る情報１０１０と、情報１０００の中
で識別される参加者が話しかけていた参加者を定義する
情報１０２０とを入力することを求められる。更に、ユ
ーザは、探索を実行すべき会議の１つ又は複数の部分を
定義する時間情報を入力することができる。すなわち、
ユーザは、その時間を越えたときに探索を中断すべき会
議中の時間（すなわち、指定される時間以前の会議の期
間を探索すべきである）を定義する情報１０３０と、そ
の時間の後に探索を実行すべきである会議中の時間を定
義する情報１０４０と、探索を実行すべき期間の開始時
間と終了時間をそれぞれ定義する情報１０５０及び１０
６０とを入力することができる。この実施形態では、情
報１０３０、１０４０、１０５０及び１０６０は、例え
ば、分単位などの絶対期限で時間を指定するか、又は会
議時間全体に占める割合を指示する小数値を入力するこ
とにより相対期限で時間を指定するかのいずれかにより
入力されれば良い。例えば、情報１０３０として０．２
５の値を入力すると、探索は会議の初めの四分の一に限
られるであろう。

【０２６６】この実施形態では、ユーザは１回の探索に
際して全ての情報１０００、１０１０及び１０２０を入
力することを求められるわけではなく、そのうち１つ又
は２つの情報を省いても良い。ユーザが情報１０００、
１０１０及び１０２０の全てを入力すれば、会議中に情
報１０００の中で識別される参加者が情報１０２０の中
で識別される参加者に話しかけていた各部分及び情報１
０１０の中で定義されるキーワードを話していた各部分
を識別するための探索が実行される。これに対し、情報
１０１０を省いた場合には、会議中に情報１０００の中
で識別される参加者が、何を言ったかに関わらず、情報
１０２０の中で定義される参加者に話しかけていた各部
分を識別するための探索が実行されることになる。情報
１０１０及び１０２０を省いた場合には、会議中に情報
１０００の中で定義される参加者が何を誰に向かって話
したかに関わらず、話をしていた各部分を識別するため
の探索が実行される。情報１０００を省いた場合には、
会議中にいずれかの参加者が情報１０１０の中で定義さ
れるキーワードを情報１０２０の中で定義される参加者
に向かって話した各部分を識別するための探索が実行さ
れる。情報１０００及び１０１０を省いた場合には、会
議中にいずれかの参加者が情報１０２０の中で定義され
る参加者に話しかけた各部分を識別するための探索が実
行される。情報１０２０を省いた場合には、会議中に情
報１０００の中で定義される参加者が、誰に向かって話
したかに関わらず、情報１０１０の中で定義されるキー
ワードを話した各部分を識別するための探索が実行され
る。同様に、情報１０００及び１０２０を省いた場合に
は、会議中に、誰が誰に向かって話したかに関わらず、
情報１０１０の中で識別されるキーワードが話された各
部分を識別するための探索が実行される。

【０２６７】更に、ユーザは時間情報１０３０、１０４
０、１０５０及び１０６０の全てを入力しても良いし、
そのうち１つ又は複数の情報を省いても良い。

【０２６８】探索を定義するために必要な情報を全て入
力したならば、ユーザは、マウス６３０などのユーザ入
力装置を使用して領域１０７０をクリックすることによ
り探索を開始する。

【０２６９】再び図３４に戻ると、ステップＳ８０２で
は、中央制御装置６３６はユーザにより入力された探索
情報を読み取り、命令された探索を実行する。すなわ
ち、この実施形態においては、中央制御装置６３６は情
報１０００又は１０２０の中で入力された参加者の名前
をテーブル６８０（図２４）を使用して参加者番号に変
換し、情報１０００の中で定義される参加者（情報１０
００が入力されていない場合には全ての参加者）につい
てテキスト情報８０４を考慮する。ユーザにより情報１
０２０が入力されていれば、テキストの期間ごとに、中
央制御装置６３６は対応する視線ヒストグラムを定義す
るデータを検査して、情報１０２０の中で定義される参
加者のヒストグラムにおける注目時間の割合がこの実施
形態では２５％である閾値以上であるか否かを判定す
る。このようにして、話し言葉（テキスト）の期間を考
慮して、話者である参加者が話している時間の少なくと
も２５％にわたって情報１０２０の中で定義される参加
者を見ていたならば、情報１０００の中で定義される参
加者が話をしている間に他の参加者を見たとしても、情
報１０２０の中で定義される参加者に話しかけていたと
いう基準を満たす。従って、情報１０２０の中で２人以
上の参加者が指定されていれば、視線ヒストグラムの値
が２人以上の参加者について２５％以上であるような話
の期間が識別されるであろう。ユーザにより情報１０１
０が入力されていた場合、中央制御装置６３６及びテキ
ストサーチャ６６２は、先に情報１０００及び１０２０
に基づいて識別されたテキストの各部分（情報１０００
及び１０２０が入力されていなければテキストの全ての
部分）を探索して、情報１０１０の中で識別されるキー
ワードを含む各部分を識別する。ユーザにより時間情報
が入力されていた場合、上記の探索はそれらの期限によ
り定義される会議の時間に限られる。

【０２７０】ステップＳ５０４では、中央制御装置６３
６は表示プロセッサ６６４に、探索中に識別された関連
話題のリストを表示装置６２６を介してユーザに対し表
示させる。すなわち、中央制御装置６３６は図３５Bに
示すような情報をユーザに対し表示させる。図３５Bを
参照すると、探索パラメータを満足させるそれぞれの話
題のリストが作成されており、その話題について開始時
間を絶対期限と、会議時間全体に占める割合の双方で定
義する情報が表示される。そこで、ユーザは、マウス６
３０を使用してリスト中の必要な話題をクリックするこ
とにより、話題の１つを選択し、再生することができ
る。

【０２７１】ステップＳ５０６では、中央制御装置６３
６はステップＳ５０４でユーザにより実行された選択を
読み取り、格納されている会議の関連部分のMPEG２デー
タ８０２を会議アーカイブデータベース６６０から再生
させる。すなわち、中央制御装置６３６及び表示プロセ
ッサ６６４はMPEG２データ８０２を復号し、画像データ
と音声を表示装置６２６を介して出力する。

【０２７２】ステップＳ５０８では、中央制御装置６３
６は、ユーザが会議アーカイブデータベース６６０の問
い合わせを中止することを望むか否かを判定し、望まな
いのであれば、ステップＳ５００からS５０８を繰り返
す。

【０２７３】以上説明した本発明の実施形態に対し、様
々な変形や変更を実施することができる。

【０２７４】例えば、上記の実施形態では、マイクロホ
ン６０４は会議室のテーブルの上に設けられていた。し
かし、その代わりに、ビデオカメラ６０２のマイクロホ
ンを使用して音声データを記録しても良い。

【０２７５】上記の実施形態では、１台のビデオカメラ
６０２からの画像データを処理していた。しかし、各参
加者の頭部の追跡精度を向上させるために、複数台のビ
デオカメラからの映像データを処理しても良い。例え
ば、複数台のカメラからの画像データを図２５のステッ
プＳ３５０からS３５６におけるように処理し、全ての
カメラから得られたデータをステップＳ３６０で従来の
ようにカルマンフィルタに入力して、カメラごとに映像
データの次のフレームにおける各参加者の頭部の位置と
向きを更に正確に推定しても良い。複数台のカメラを使
用する場合、会議アーカイブデータベース６６０に格納
されるMPEG２データ８０２は全てのカメラからの映像デ
ータということになり、図３４のステップＳ５０４及び
S５０６では、ユーザが選択した１台のカメラからの画
像データが再生される。

【０２７６】上記の実施形態では、所定の参加者の視線
パラメータは、その参加者が他のどの参加者を見ている
かを定義していた。しかし、参加者が表示板、映写機の
スクリーンなどのどの物体を見ているかを定義するため
に視線パラメータを使用しても良い。この場合、会議ア
ーカイブデータベース６６０を問い合わせるときに、図
３５Aの情報１０２０を利用して、参加者が話している
間に誰を又は何を見ていたかを指定することが可能にな
るであろう。

【０２７７】上記の実施形態では、ステップＳ５０２
（図３４）で、テキストの特定の部分の視線ヒストグラ
ムを考慮し、視線ヒストグラムにおける別の参加者への
注目時間の割合が所定の閾値以上である場合に、参加者
はその別の参加者に話しかけていたと判定していた。し
かし、閾値を使用せずに、テキストの期間中に話者であ
る参加者が見ていた参加者を視線ヒストグラムにおいて
最も大きな割合の注目値を有する参加者（例えば、図３
３Aの参加者３及び図３３Bの参加者１）であると定義し
ても良い。

【０２７８】上記の実施形態では、カメラ６０２及びマ
イクロホン６０４からデータが受信されている間、MPEG
２データ８０２、テキストデータ８０４、視線パラメー
タ８１２及び視線ヒストグラム８１４をリアルタイムで
会議アーカイブデータベース６６０に格納していた。し
かし、映像データと音声データを格納しておき、データ
８０２、８０４、８１２及び８１４をリアルタイムでは
なく生成し、会議アーカイブデータベース６６０に格納
しても良い。

【０２７９】上記の実施形態では、会議の定義された部
分のデータを検索するために会議アーカイブデータベー
ス６６０を問い合わせる前に、MPEG２データ８０２、テ
キストデータ８０４、視線パラメータ８１２及び視線ヒ
ストグラム８１４を生成し、会議アーカイブデータベー
ス６６０に格納していた。しかし、探索の要求に先立っ
てデータを生成、格納するのではなく、会議アーカイブ
データベース６６０の探索がユーザにより要求されるの
に応答して、格納されているMPEG２データ８０２を処理
することによりデータ８０４、８１２及び８１４の一部
又は全てを生成しても良い。例えば、上記の実施形態で
は、ステップＳ３９８及びS４００（図２７）で視線ヒ
ストグラム８１４をリアルタイムで計算、格納していた
が、ユーザにより探索要求が入力されるのに応答してそ
れらのヒストグラムを計算することもできるであろう。

【０２８０】上記の実施形態では、テキストデータ８０
４を会議アーカイブデータベース６６０に格納してい
た。テキストデータ８０４の代わりに、音声データを会
議アーカイブデータベース６６０に格納しても良い。そ
の場合、格納されている音声データ自体を音声認識処理
を使用してキーワードを求めて探索するか、又は音声認
識処理を使用して音声データをテキストに変換し、従来
のテキストサーチャを使用してテキストを探索すれば良
い。

【０２８１】上記の実施形態では、処理装置６２４はア
ーカイブすべきデータを受信し、生成するための機能構
成要素（例えば、中央制御装置６３６、頭部追跡装置６
５０、頭部モデル記憶装置６５２、音声認識プロセッサ
６５４、音声認識パラメータ記憶装置６５６及びアーカ
イブプロセッサ６５８）と、アーカイブデータを格納す
るための機能構成要素（例えば、会議アーカイブデータ
ベース６６０）と、データベースを探索し、そこから情
報を検索するための機能構成要素（例えば、中央制御装
置６３６及びテキストサーチャ６６２）とを含んでい
た。しかし、これらの機能構成要素を別個の装置に設け
ても良い。例えば、アーカイブすべきデータを生成する
１つ又は複数の装置と、データベース探索のための１つ
又は複数の装置とを、インターネットなどのネットワー
クを介して１つ又は複数のデータベースに接続しても良
い。

【０２８２】また、図３６を参照して説明すると、一箇
所又は複数箇所での会議１１００、１１１０、１１２０
からの映像データと音声データをデータ処理・データベ
ース記憶装置１１３０（アーカイブデータを生成し且つ
格納するための機能構成要素を具備する）に入力し、デ
ータベースを問い合わせ、そこから情報を検索するため
に、１つ又は複数のデータベース問い合わせ装置１１４
０、１１５０をデータ処理・データベース記憶装置１１
３０に接続しても良い。

【０２８３】上記の実施形態では、プログラミング命令
により定義される処理ルーチンを使用して、コンピュー
タにより処理を実行していた。しかし、処理の一部又は
全てをハードウェアを使用して実行しても良い。

【０２８４】以上、複数の参加者の間で行われる会議に
関して実施形態を説明したが、本発明はこの用途には限
定されず、フィルムセットなどについて画像データ及び
音声データを処理するなど、他の用途にも適用すること
ができる。

【０２８５】上記の変形例の異なる組み合わせも言うま
でもなく可能であり、本発明の趣旨から逸脱せずにその
他の変更や変形を実施することができる。

【図面の簡単な説明】

【図１】第１の実施形態における複数の参加者の間の会
議からの音声データ及び映像データの記録を示す図であ
る。

【図２】第１の実施形態の処理装置内部の概念上の機能
構成要素の一例を示すブロック線図である。

【図３Ａ】図１に示す参加者間の会議が始まる以前に図
２の処理装置２４により実行される処理動作を示す図で
ある。

【図３Ｂ】図１に示す参加者間の会議が始まる以前に図
２の処理装置２４により実行される処理動作を示す図で
ある。

【図３Ｃ】図１に示す参加者間の会議が始まる以前に図
２の処理装置２４により実行される処理動作を示す図で
ある。

【図４】図３のステップＳ２及びステップＳ４で会議
アーカイブデータベース６０に格納されるデータを概略
的に示す図である。

【図５】図３のステップＳ３４及び図７のステップＳ７
０で実行される処理動作を示す図である。

【図６】図５のステップＳ４２−１、S４２−２及びS４
２−nのそれぞれで実行される処理動作を示す図であ
る。

【図７】参加者間で会議が行われている間に図２の処理
装置２４により実行される処理動作を示す図である。

【図８Ａ】図７のステップＳ７２で実行される処理動作
を示す図である。

【図８Ｂ】図７のステップＳ７２で実行される処理動作
を示す図である。

【図９Ａ】図８のステップＳ８０で実行される処理動作
を示す図である。

【図９Ｂ】図８のステップＳ８０で実行される処理動作
を示す図である。

【図１０】図９のステップＳ１１４及びステップＳ１２
４で実行される処理で使用する参加者の視線を示す図で
ある。

【図１１】図９のステップＳ１１４で実行される処理に
おいて計算される角度を示す図である。

【図１２】図８のステップＳ８４で実行される処理動作
を示す図である。

【図１３】図８のステップＳ８９で実行される処理動作
を示す図である。

【図１４】図１３のステップＳ１６８で実行される処理
動作を示す図である。

【図１５】会議アーカイブデータベース６０への情報の
格納を概略的に示す図である。

【図１６Ａ】会議アーカイブデータベース６０に格納さ
れたデータにより定義される視線ヒストグラムの例を示
す図である。

【図１６Ｂ】会議アーカイブデータベース６０に格納さ
れたデータにより定義される視線ヒストグラムの例を示
す図である。

【図１７】図８のステップＳ１０２で実行される処理動
作を示す図である。

【図１８】会議アーカイブデータベース６０から情報を
検索するために処理装置２４により実行される処理動作
を示す図である。

【図１９Ａ】図１８のステップＳ２００でユーザに対し
表示される情報を示す図である。

【図１９Ｂ】図１８のステップＳ２０４でユーザに対し
表示される情報の一例を示す図である。

【図２０】１つのデータベースが複数の会議からの情報
を格納し、１つ又は複数の遠隔装置からこのデータベー
スを問い合わせる第１の実施形態の変形例を概略的に示
す図である。

【図２１】第２の実施形態における複数の参加者の間の
会議からの音声データ及び映像データの記録を示す図で
ある。

【図２２】第２の実施形態の処理装置内部の概念上の機
能構成要素の一例を示すブロック線図である。

【図２３Ａ】図２１に示す参加者間の会議が始まる以前
に図２２の処理装置６２４により実行される処理動作を
示す図である。

【図２３Ｂ】図２１に示す参加者間の会議が始まる以前
に図２２の処理装置６２４により実行される処理動作を
示す図である。

【図２３Ｃ】図２１に示す参加者間の会議が始まる以前
に図２２の処理装置６２４により実行される処理動作を
示す図である。

【図２４】図２３のステップＳ３０４で会議アーカイブ
データベース６６０に格納されるデータを概略的に示す
図である。

【図２５】図２３のステップＳ３３４で実行される処理
動作を示す図である。

【図２６】参加者間で会議が行われている間に図２２の
処理装置６２４により実行される処理動作を示す図であ
る。

【図２７Ａ】図２６のステップＳ３７２で実行される処
理動作を示す図である。

【図２７Ｂ】図２６のステップＳ３７２で実行される処
理動作を示す図である。

【図２８】図２７のステップＳ３８０で実行される処理
動作を示す図である。

【図２９】図２８のステップＳ４１４で実行される処理
で使用する参加者の視線を示す図である。

【図３０】図２８のステップＳ４１４で実行される処理
において計算される角度を示す図である。

【図３１】図２７のステップＳ３８４で実行される処理
動作を示す図である。

【図３２】会議アーカイブデータベース６６０への情報
の格納を概略的に示す図である。

【図３３Ａ】会議アーカイブデータベース６６０に格納
されたデータにより定義される視線ヒストグラムの例を
示す図である。

【図３３Ｂ】会議アーカイブデータベース６６０に格納
されたデータにより定義される視線ヒストグラムの例を
示す図である。

【図３４】会議アーカイブデータベース６６０から情報
を検索するために処理装置６２４により実行される処理
動作を示す図である。

【図３５Ａ】図３４のステップＳ５００でユーザに対し
表示される情報を示す図である。

【図３５Ｂ】図３４のステップＳ５０４でユーザに対し
表示される情報の一例を示す図である。

【図３６】１つのデータベースが複数の会議からの情報
を格納し、１つ又は複数の遠隔装置からこのデータベー
スを問い合わせる第２の実施形態の変形例を概略的に示
す図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者マイケルジェームステイラーイギリス国ジーユー２５ワイジェイサリー，ギルドフォード，サリーリサーチパーク，オッカムロード，オッカムコート１キヤノンリサーチセンターヨーロッパリミテッド内 (72)発明者ジェブジェイコブラジャンイギリス国ジーユー２５ワイジェイサリー，ギルドフォード，サリーリサーチパーク，オッカムロード，オッカムコート１キヤノンリサーチセンターヨーロッパリミテッド内

Claims

【特許請求の範囲】

【請求項１】画像データ及び音声データを処理する装
置であって、少なくとも１台のカメラにより記録され且つ複数の人物
の動きを示す画像データを処理して、各人物を三次元で
追跡する画像処理手段と、音声データを処理して、音声の到達方向を判定する音声
処理手段と、画像処理手段により実行される処理の結果と、音声処理
手段により実行される処理の結果とに基づいて、どの人
物が話しているかを判定する話者識別手段と、受信した音声データを処理して、話者識別手段により実
行される処理の結果に従って音声データからテキストデ
ータを生成する音声認識処理手段とを備えることを特徴
とする装置。
【請求項２】音声認識処理手段は、人物ごとの対応す
る音声認識パラメータを格納する記憶手段と、話者識別
手段により話していると判定された人物に従って音声デ
ータを処理するために使用すべき音声認識パラメータを
選択する手段とを含むことを特徴とする請求項１記載の
装置。
【請求項３】画像処理手段は、処理される画像データ
を提供する各カメラの位置と向きを定義するカメラ校正
データを使用して画像データを処理することにより各人
物を追跡するように構成されていることを特徴とする請
求項１又は２記載の装置。
【請求項４】画像処理手段は、各人物の頭部を追跡す
ることにより各人物を追跡するように構成されているこ
とを特徴とする請求項１乃至３のいずれか１項に記載の
装置。
【請求項５】画像処理手段は、少なくとも話をしてい
る各人物がどこを見ているかを判定するために画像デー
タを処理するように構成されていることを特徴とする請
求項１乃至４のいずれか１項に記載の装置。
【請求項６】話者識別手段は、受信した画像データの
所定のフレームについて画像処理手段及び音声処理手段
により実行される処理の結果を使用して話者を識別でき
ない場合、少なくとも１つの他のフレームに対して画像
処理手段及び音声処理手段により実行される処理の結果
を使用して所定のフレームにおいて話をしている人物を
識別するように構成されていることを特徴とする請求項
１乃至５のいずれか１項に記載の装置。
【請求項７】受信した画像データ、音声データ、音声
認識処理手段により生成されるテキストデータ、及び少
なくとも話をしている各人物がどこを見ているかを定義
する視線データの少なくとも一部を格納するデータベー
スを更に具備し、前記データベースは、対応するテキス
トデータと視線データとが互いに関連すると共に、対応
する画像データ及び音声データとも関連するようにデー
タを格納する構成であることを特徴とする請求項１乃至
６のいずれか１項に記載の装置。
【請求項８】データベースに格納するために、画像デ
ータ及び音声データを圧縮する手段を更に具備すること
を特徴とする請求項７記載の装置。
【請求項９】画像データ及び音声データを圧縮する手
段は、画像データ及び音声データをMPEGデータとして符
号化する手段であることを特徴とする請求項８記載の装
置。
【請求項１０】所定の期間にわたり、その所定の期間
中に所定の人物がその他の人物の各々を見るのに費やし
た時間の割合を定義するデータを生成する手段を更に具
備し、データベースは、そのデータが対応する画像デー
タ、音声データ、テキストデータ及び視線データと関連
するようにデータを格納する構成であることを特徴とす
る請求項７乃至９のいずれか１項に記載の装置。
【請求項１１】所定の期間は所定の人物が話をしてい
た期間である請求項１０記載の装置。
【請求項１２】画像データ及び音声データを処理する
装置において、少なくとも１台のカメラにより記録され且つ複数の人物
の動きを示す画像データを処理して、各人物を三次元で
追跡する画像処理手段と、音声データを処理して、音声の到達方向を判定する音声
処理手段と、画像処理手段により実行される処理の結果と、音声処理
手段により実行される処理の結果とに基づいて、どの人
物が話しているかを判定する話者識別手段とを具備する
ことを特徴とする装置。
【請求項１３】画像処理手段は、処理される画像デー
タを提供する各カメラの位置と向きを定義するカメラ校
正データを使用して画像データを処理することにより各
人物を追跡するように構成されていることを特徴とする
請求項１２記載の装置。
【請求項１４】画像処理手段は、各人物の頭部を追跡
することにより各人物を追跡するように構成されている
ことを特徴とする請求項１２又は１３に記載の装置。
【請求項１５】画像処理手段は、少なくとも話をして
いる各人物がどこを見ているかを判定するために画像デ
ータを処理するように構成されていることを特徴とする
請求項１２乃至１４のいずれか１項に記載の装置。
【請求項１６】話者識別手段は、受信した画像データ
の所定のフレームについて画像処理手段及び音声処理手
段により実行される処理の結果を使用して話者を識別で
きない場合、少なくとも１つの他のフレームに対して画
像処理手段及び音声処理手段により実行される処理の結
果を使用して所定のフレームにおいて話をしている人物
を識別するように構成されていることを特徴とする請求
項１２乃至１５のいずれか１項に記載の装置。
【請求項１７】画像データ及び音声データを処理する
方法において、少なくとも１台のカメラにより記録され且つ複数の人物
の動きを示す画像データを処理して、各人物を三次元で
追跡する画像処理ステップと、音声データを処理して、音声の到達方向を判定する音声
処理ステップと、画像処理ステップで実行される処理の結果と、音声処理
ステップで実行される処理の結果とに基づいて、どの人
物が話しているかを判定する話者識別ステップと、受信した音声データを処理して、話者識別ステップで実
行される処理の結果に従って音声データからテキストデ
ータを生成する音声認識処理ステップとを備えることを
特徴とする方法。
【請求項１８】音声認識処理ステップは、人物ごとに
格納されている音声認識パラメータからと、話者識別ス
テップで話していると判定された人物に従って音声デー
タを処理するために使用すべき音声認識パラメータを選
択することを含むことを特徴とする請求項１７記載の方
法。
【請求項１９】画像処理ステップでは、処理される画
像データを提供する各カメラの位置と向きを定義するカ
メラ校正データを使用して画像データを処理することに
より各人物を追跡することを特徴とする請求項１７又は
１８記載の方法。
【請求項２０】画像処理ステップでは、各人物の頭部
を追跡することにより各人物を追跡することを特徴とす
る請求項１７乃至１９のいずれか１項に記載の方法。
【請求項２１】画像処理ステップでは、少なくとも話
をしている各人物がどこを見ているかを判定するために
画像データを処理することを特徴とする請求項１７乃至
２０のいずれか１項に記載の方法。
【請求項２２】話者識別ステップでは、受信した画像
データの所定のフレームについて画像処理ステップ及び
音声処理ステップにより実行される処理の結果を使用し
て話者を識別できない場合、少なくとも１つの他のフレ
ームに対して画像処理ステップ及び音声処理ステップに
より実行される処理の結果を使用して所定のフレームに
おいて話をしている人物を識別することを特徴とする請
求項１７乃至２１のいずれか１項に記載の方法。
【請求項２３】音声認識処理ステップで生成されるデ
ータを搬送する信号を発生するステップを更に含むこと
を特徴とする請求項１７乃至２２のいずれか１項に記載
の方法。
【請求項２４】受信した画像データ、音声データ、音
声認識処理ステップにより生成されるテキストデータ、
及び少なくとも話をしている各人物がどこを見ているか
を定義する視線データの少なくとも一部をデータベース
に格納するステップを更に含み、データは、対応するテ
キストデータと視線データとが互いに関連すると共に、
対応する画像データ及び音声データとも関連するように
データベースに格納されることを特徴とする請求項１７
乃至２３のいずれか１項に記載の方法。
【請求項２５】画像データ及び音声データは圧縮され
た形態でデータベースに格納されることを特徴とする請
求項２４記載の方法。
【請求項２６】画像データ及び音声データはMPEGデー
タとして格納されることを特徴とする請求項２５記載の
方法。
【請求項２７】所定の期間にわたり、その所定の期間
中に所定の人物がその他の人物の各々を見るのに費やし
た時間の割合を定義するデータを生成するステップと、
そのデータが対応する画像データ、音声データ、テキス
トデータ及び視線データと関連するようにデータをデー
タベースに格納するステップとを更に含むことを特徴と
する請求項２４乃至２６のいずれか１項に記載の方法。
【請求項２８】所定の期間は所定の人物が話をしてい
た期間であることを特徴とする請求項２７記載の方法。
【請求項２９】データベースを格納されているデータ
と共に搬送する信号を発生するステップを更に含むこと
を特徴とする請求項２４乃至２８のいずれか１項に記載
の方法。
【請求項３０】信号の記録を生成するために信号を直
接に又は間接的に記録するステップを更に含むことを特
徴とする請求項２９記載の方法。
【請求項３１】画像データ及び音声データを処理する
方法において、少なくとも１台のカメラにより記録され且つ複数の人物
の動きを示す画像データを処理して、各人物を三次元で
追跡する画像処理ステップと、音声データを処理して、音声の到達方向を判定する音声
処理ステップと、画像処理ステップにより実行される処理の結果と、音声
処理ステップにより実行される処理の結果とに基づい
て、どの人物が話しているかを判定する話者識別ステッ
プとを備えることを特徴とする方法。
【請求項３２】画像処理ステップでは、処理される画
像データを提供する各カメラの位置と向きを定義するカ
メラ校正データを使用して画像データを処理することに
より各人物を追跡することを特徴とする請求項３１記載
の方法。
【請求項３３】画像処理ステップでは、各人物の頭部
を追跡することにより各人物を追跡することを特徴とす
る請求項３１又は３２記載の方法。
【請求項３４】画像処理ステップでは、少なくとも話
をしている各人物がどこを見ているかを判定するために
画像データを処理することを特徴とする請求項３１乃至
３３のいずれか１項に記載の方法。
【請求項３５】話者識別ステップでは、受信した画像
データの所定のフレームについて画像処理ステップ及び
音声処理ステップにより実行される処理の結果を使用し
て話者を識別できない場合、少なくとも１つの他のフレ
ームに対して画像処理ステップ及び音声処理ステップに
より実行される処理の結果を使用して所定のフレームに
おいて話をしている人物を識別することを特徴とする請
求項３１乃至３４のいずれか１項に記載の方法。
【請求項３６】話者識別ステップで識別された話者の
アイデンティティを搬送する信号を発生するステップを
更に含むことを特徴とする請求項３１乃至３５のいずれ
か１項に記載の方法。
【請求項３７】プログラム可能処理装置を請求項１乃
至１６の少なくとも１項に記載の装置として構成させる
ための命令を格納することを特徴とする記憶装置。
【請求項３８】プログラム可能処理装置を請求項１７
乃至３６の少なくとも１項に記載の方法を実行するよう
に動作可能にさせるための命令を格納することを特徴と
する記憶装置。
【請求項３９】プログラム可能処理装置を請求項１乃
至１６の少なくとも１項に記載の装置として構成させる
ための命令を搬送することを特徴とする信号。
【請求項４０】プログラム可能処理装置を請求項１７
乃至３６の少なくとも１項に記載の方法を実行するよう
に動作可能にさせるための命令を搬送することを特徴と
する信号。
【請求項４１】画像データ及び音声データを処理する
装置であって、少なくとも１台のカメラにより記録され且つ複数の人物
の動きを示す画像データを処理して、各人物がどこを見
ているかを判定すると共に、複数の人物がどこを見てい
るかに基づいてどの人物が話しているかを判定する画像
処理手段と、人物が話した言葉を定義する音声データを処理して、画
像処理手段により実行される処理の結果に従って音声デ
ータからテキストデータを生成する音声処理手段とを備
えることを特徴とする装置。
【請求項４２】音声処理手段は、人物ごとの対応する
音声認識パラメータを格納する記憶手段と、画像処理手
段により話をしていると判定された人物に従って音声デ
ータを処理するために使用すべき音声認識パラメータを
選択する手段とを含むことを特徴とする請求項４１記載
の装置。
【請求項４３】画像処理手段は、処理される画像デー
タを提供する各カメラの位置と向きを定義するカメラ校
正データを使用して画像データを処理することにより、
各人物がどこを見ているかを判定するように構成されて
いることを特徴とする請求項４１又は４２記載の装置。
【請求項４４】画像処理手段は、各人物の頭部の位置
と向きを三次元で追跡するために画像データを処理する
ことにより、各人物がどこを見ているかを判定するよう
に構成されていることを特徴とする請求項４１乃至４３
のいずれか１項に記載の装置。
【請求項４５】画像処理手段は、各々の人物を見てい
る人物の数に基づいてどの人物が話をしているかを判定
するように構成されていることを特徴とする請求項４１
乃至４４のいずれか１項に記載の装置。
【請求項４６】画像処理手段は、各人物が誰を見てい
るかを定義する値を人物ごとに生成し且つそれらの値を
処理して、話をしている人物を判定するように構成され
ていることを特徴とする請求項４５記載の装置。
【請求項４７】画像処理手段は、話をしている人物が
他の人物の大半が見ている人物であることを判定するよ
うに構成されていることを特徴とする請求項４１乃至４
６のいずれか１項に記載の装置。
【請求項４８】画像データ、音声データ、音声処理手
段により生成されるテキストデータ、及び各人物がどこ
を見ているかを定義する視線データを格納するデータベ
ースを更に備え、前記データベースは、対応するテキス
トデータと視線データとが互いに関連すると共に、対応
する画像データ及び音声データとも関連するようにデー
タを格納する構成であることを特徴とする請求項４１乃
至４７のいずれか１項に記載の装置。
【請求項４９】データベースに格納するために、画像
データ及び音声データを圧縮する手段を更に備えること
を特徴とする請求項４８記載の装置。
【請求項５０】画像データ及び音声データを圧縮する
手段は、画像データ及び音声データをMPEGデータとして
符号化する手段であることを特徴とする請求項４９記載
の装置。
【請求項５１】所定の期間にわたり、その所定の期間
中に所定の人物がその他の人物の各々を見るのに費やし
た時間の割合を定義するデータを生成する手段を更に備
え、データベースは、そのデータが対応する画像デー
タ、音声データ、テキストデータ及び視線データと関連
するようにデータを格納する構成であることを特徴とす
る請求項４８乃至５０のいずれか１項に記載の装置。
【請求項５２】所定の期間は所定の人物が話をしてい
た期間であることを特徴とする請求項５１記載の装置。
【請求項５３】画像データを処理する装置において、
少なくとも１台のカメラにより記録され且つ複数の人物
の動きを示す画像データを処理して、各人物がどこを見
ているかを判定すると共に、複数の人物がどこを見てい
るかに基づいてどの人物が話しているかを判定する画像
処理手段を備えることを特徴とする装置。
【請求項５４】画像処理手段は、処理される画像デー
タを提供する各カメラの位置と向きを定義するカメラ校
正データを使用して画像データを処理することにより、
各人物がどこを見ているかを判定するように構成されて
いることを特徴とする請求項５３記載の装置。
【請求項５５】画像処理手段は、各人物の頭部の位置
と向きを三次元で追跡するために画像データを処理する
ことにより、各人物がどこを見ているかを判定するよう
に構成されていることを特徴とする請求項５３又は５４
記載の装置。
【請求項５６】画像処理手段は、各々の人物を見てい
る人物の数に基づいてどの人物が話をしているかを判定
するように構成されていることを特徴とする請求項５３
乃至５５のいずれか１項に記載の装置。
【請求項５７】画像処理手段は、各人物が誰を見てい
るかを定義する値を人物ごとに生成し且つそれらの値を
処理して、話をしている人物を判定するように構成され
ていることを特徴とする請求項５６記載の装置。
【請求項５８】画像処理手段は、話をしている人物が
他の人物の大半が見ている人物であることを判定するよ
うに構成されていることを特徴とする請求項５３乃至５
７のいずれか１項に記載の装置。
【請求項５９】画像データ及び音声データを処理する
方法において、少なくとも１台のカメラにより記録され且つ複数の人物
の動きを示す画像データを処理して、各人物がどこを見
ているかを判定すると共に、複数の人物がどこを見てい
るかに基づいてどの人物が話しているかを判定する画像
処理ステップと、人物が話した言葉を定義する音声データを処理して、画
像処理手段により実行される処理の結果に従って音声デ
ータからテキストデータを生成する音声処理ステップと
を備えることを特徴とする方法。
【請求項６０】音声処理ステップは、人物ごとに格納
されているそれぞれの音声認識パラメータから、画像処
理ステップで話をしていると判定された人物に従って音
声データを処理するために使用すべき音声認識パラメー
タを選択するステップを含むことを特徴とする請求項５
９記載の方法。
【請求項６１】画像処理ステップでは、処理される画
像データを提供する各カメラの位置と向きを定義するカ
メラ校正データを使用して画像データを処理することに
より、各人物がどこを見ているかを判定することを特徴
とする請求項５９又は６０記載の方法。
【請求項６２】画像処理ステップでは、各人物の頭部
の位置と向きを三次元で追跡するために画像データを処
理することにより、各人物がどこを見ているかを判定す
ることを特徴とする請求項５９乃至６１のいずれか１項
に記載の方法。
【請求項６３】画像処理ステップでは、各々の人物を
見ている人物の数に基づいてどの人物が話をしているか
を判定することを特徴とする請求項５９乃至６２のいず
れか１項に記載の方法。
【請求項６４】画像処理ステップでは、各人物が誰を
見ているかを定義する値を人物ごとに生成し且つそれら
の値を処理して、話をしている人物を判定することを特
徴とする請求項６３記載の方法。
【請求項６５】画像処理ステップでは、話をしている
人物が他の人物の大半が見ている人物であることを判定
することを特徴とする請求項５９乃至６４のいずれか１
項に記載の方法。
【請求項６６】画像データ、音声データ、音声処理手
段により生成されるテキストデータ、及び各人物がどこ
を見ているかを定義する視線データをデータベースに格
納するステップを更に含み、前記データベースは、対応
するテキストデータと視線データとが互いに関連すると
共に、対応する画像データ及び音声データとも関連する
ようにデータを格納することを特徴とする請求項５９乃
至６５のいずれか１項に記載の方法。
【請求項６７】画像データ及び音声データは圧縮され
た形態で格納されることを特徴とする請求項６６記載の
方法。
【請求項６８】画像データ及び音声データはMPEGデー
タとして格納されることを特徴とする請求項６７記載の
方法。
【請求項６９】所定の期間にわたり、その所定の期間
中に所定の人物がその他の人物の各々を見るのに費やし
た時間の割合を定義するデータを生成するステップと、
そのデータが対応する画像データ、音声データ、テキス
トデータ及び視線データと関連するようにデータをデー
タベースに格納するステップとを更に含むことを特徴と
する請求項６６乃至６８のいずれか１項に記載の方法。
【請求項７０】所定の期間は所定の人物が話をしてい
た期間であることを特徴とする請求項６９記載の方法。
【請求項７１】データベースを格納されているデータ
と共に搬送する信号を発生するステップを更に含むこと
を特徴とする請求項６６乃至７０のいずれか１項に記載
の方法。
【請求項７２】信号の記録を生成するために信号を直
接に又は間接的に記録するステップを更に含むことを特
徴とする請求項７１記載の方法。
【請求項７３】画像データを処理する方法において、
少なくとも１台のカメラにより記録され且つ複数の人物
の動きを示す画像データを処理して、各人物がどこを見
ているかを判定すると共に、複数の人物がどこを見てい
るかに基づいてどの人物が話しているかを判定するステ
ップを備えることを特徴とする方法。
【請求項７４】処理される画像データを提供する各カ
メラの位置と向きを定義するカメラ校正データを使用し
て画像データを処理することにより、各人物がどこを見
ているかを判定することを特徴とする請求項７３記載の
方法。
【請求項７５】各人物の頭部の位置と向きを三次元で
追跡するために画像データを処理することにより、各人
物がどこを見ているかを判定することを特徴とする請求
項７３又は７４記載の方法。
【請求項７６】各々の人物を見ている人物の数に基づ
いてどの人物が話をしているかを判定することを特徴と
する請求項７３乃至７５のいずれか１項に記載の方法。
【請求項７７】各人物が誰を見ているかを定義する値
を人物ごとに生成し且つそれらの値を処理して、話をし
ている人物を判定することを特徴とする請求項７６記載
の方法。
【請求項７８】話をしている人物が他の人物の大半が
見ている人物であることを判定することを特徴とする請
求項７３乃至７７のいずれか１項に記載の方法。
【請求項７９】プログラム可能処理装置を請求項４１
乃至５８の少なくとも１項に記載の装置として構成させ
るための命令を格納することを特徴とする記憶装置。
【請求項８０】プログラム可能処理装置を請求項５９
乃至７８の少なくとも１項に記載の方法を実行するよう
に動作可能にさせるための命令を格納することを特徴と
する記憶装置。
【請求項８１】プログラム可能処理装置を請求項４１
乃至５８の少なくとも１項に記載の装置として構成させ
るための命令を搬送することを特徴とする信号。
【請求項８２】プログラム可能処理装置を請求項５９
乃至７８の少なくとも１項に記載の方法を実行するよう
に動作可能にさせるための命令を搬送することを特徴と
する信号。