JP2000352996A - 情報処理装置 - Google Patents
情報処理装置Info
- Publication number
- JP2000352996A JP2000352996A JP2000086807A JP2000086807A JP2000352996A JP 2000352996 A JP2000352996 A JP 2000352996A JP 2000086807 A JP2000086807 A JP 2000086807A JP 2000086807 A JP2000086807 A JP 2000086807A JP 2000352996 A JP2000352996 A JP 2000352996A
- Authority
- JP
- Japan
- Prior art keywords
- data
- person
- processing
- image data
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
- G11B27/32—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
- G11B27/322—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier used signal is digitally coded
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
の動きを示す画像データと、音声データとをコンピュー
タ処理装置により処理して、データを会議アーカイブデ
ータベースにアーカイブする。 【解決手段】 画像データを処理して、大半の人物が誰
を見ているかを判定することにより、あるいは、音声デ
ータを処理して、どの人物の頭部が音声の来た方向に対
応する位置にあるかを判定することにより、誰が話して
いるかを判定する。話している人物個人の音声認識パラ
メータを選択し、それを使用して音声データをテキスト
データに変換する。話者と、参加者とを最も良く示すカ
メラを選択することにより、アーカイブすべき画像デー
タを選択する。画像データ、音声データ、テキストデー
タ及び各人物が誰を見ているかを定義するデータを会議
アーカイブデータベースに格納する。
Description
カイビングを補助するためのデータを生成する画像デー
タの処理に関する。
タのアーカイビングを補助するためのデータを生成する
画像データ及び音声データの処理に関する。
数多く存在している。しかし、既存のデータベースに
は、データベースから情報を検索するためにデータベー
スを問い合わせる方法が限られているという問題があ
る。
に留意してなされた。
人物の動きと話し言葉を記録した画像データ及び音声デ
ータを、画像処理と音声処理の組み合わせを利用して処
理し、画像データ中に示されているどの人物が話をして
いるかを識別すると共に、音声データを処理し、識別さ
れた話者である参加者に従って選択された処理パラメー
タを使用して、話された言葉に対応するテキストデータ
を生成する装置又は方法が提供される。
るために、この後、テキストデータを画像データ及び/
又は音声データと共にデータベースに格納しても良い。
とにより複数の人物の三次元位置を判定し、それらの人
物が話した言葉を伝達する音声データを処理して音源の
方向を三次元で判定し、生成された位置情報を使用し
て、それらの言葉の話者を識別し、且つ識別された話者
に関して、音声/テキスト変換処理を実行するための音
声認識パラメータを選択する装置又は方法を提供する。
に識別し、音声データを処理することができる。
を追跡するために画像データを処理することにより判定
されるのが好ましい。
いて画像データ及び音声データを処理し、話者である参
加者を識別する装置又は方法を提供する。
び記録された形態をとる命令を含めて、プログラム可能
処理装置をそのようなシステムにおいて装置として構成
させるため又は方法を実行可能にさせるように構成する
ための命令を提供する。
の人物が画像中でその他の人物の注目を集めているかを
判定することにより、画像中のどの人物が話しているか
を判定し、且つ音声データを処理し、画像データを処理
することにより識別された話者である参加者に従って選
択される処理パラメータを使用して、その人物により話
された言葉に対応するテキストデータを生成する装置又
は方法も提供される。
画像中の人物が誰を見ているかを判定すると共に、それ
に基づいてどの人物が話をしているかを判定し、且つ音
声データを処理して、話者である参加者について音声認
識を実行する装置又は方法を提供する。
に識別し、音声データを処理することができる。
いて画像データを処理する装置又は方法を提供する。
び記録された形態をとる命令を含めて、プログラム可能
処理装置をそのようなシステムにおいて装置として構成
させるため又は方法を実行可能にさせるように構成する
ための命令を提供する。
なる例示として、本発明の実施形態を説明する。
ると、複数のビデオカメラ(図1に示す例では3台であ
るが、これとは異なる台数であっても良い)2−1、2
−2、2−3と、マイクロホンアレイ4とを使用して、
複数の人物6、8、10、12の間で行われる会議から
画像データと音声データをそれぞれ記録する。
許第2140558号、米国特許第4333170号及
び米国特許第3392392号に記載されているよう
な、入って来る音の方向を判定できるように配列された
マイクロホンのアレイから構成されている。
の画像データと、マイクロホンアレイ4からの音声デー
タは、ケーブル(図示せず)を介してコンピュータ20
に入力され、コンピュータ20は受信したデータを処理
し、データベースにデータを格納して、会議のアーカイ
ブ記録を作成する。後に、このデータベースから情報を
検索することができる。
装置26や、この実施形態ではキーボード28及びマウ
ス30であるユーザ入力装置と共に、1つ又は複数のプ
ロセッサ、メモリ、サウンドカードなどを含む処理装置
24を有する従来通りのパーソナルコンピュータであ
る。
構成要素に対し入出力されるデータの流れを図2に概略
的に示す。
ば、ディスク32などのデータ記憶媒体に格納されたデ
ータとして及び/又は例えば、インターネットなどの通
信ネットワーク(図示せず)を介する送信又は無線送信
により遠隔データベースから処理装置24に入力され且
つ/又はキーボード28などのユーザ入力装置又は他の
入力装置を介してユーザにより処理装置24に入力され
る信号34として入力されるプログラミング命令に従っ
て動作するようにプログラムされている。
ると、処理装置24は、処理動作を実行するための複数
の機能ユニットに有効に構成される。そのような機能ユ
ニットの例とそれらの配線を図2に示す。しかし、図2
に示すユニットと配線は概念的なもので、単に理解を助
けるために例示を目的として示されているにすぎない。
従って、図2のユニットと配線とは、処理装置24のプ
ロセッサ、メモリなどが構成される実際のユニットと接
続とを必ずしも表してはいない。
と、中央制御装置36はユーザ入力装置28、30から
の入力を処理すると共に、ユーザによりディスク38な
どの記憶装置に格納されたデータとして、又は処理装置
24へ送信される信号40として処理装置24に入力さ
れるデータを受信する。また、中央制御装置36はその
他の機能ユニットに対して制御と処理を実行する。メモ
リ42は、中央制御装置36及びその他の機能ユニット
により使用されるメモリである。
2−2、2−3から受信した画像データを処理して、会
議のそれぞれの参加者6、8、10、12の頭部の位置
と向きを三次元で追跡する。この実施形態では、この追
跡を実行するために、頭部追跡装置50は、後述するよ
うに、各々の参加者の頭部の三次元コンピュータモデル
を定義するデータと、その特徴を定義するデータとを使
用する。これらのデータは頭部モデル記憶装置52に格
納されている。
4からの音声データを処理して、マイクロホンにより記
録された音が来た方向を判定する。そのような処理は、
例えば、英国特許第2140558号、米国特許第43
33170号及び米国特許第3392392号に記載さ
れているような従来の方式で実行される。
レイ4から受信された音声データを処理して、そこから
テキストデータを生成する。すなわち、音声認識プロセ
ッサ54は、「Dragon Dictate」又はIBMの「ViaVoice」な
どの従来の音声認識プログラムに従って動作し、参加者
6、8、10、12により話された言葉に対応するテキ
ストデータを生成する。音声認識処理を実行するため
に、音声認識プロセッサ54は、音声認識パラメータ記
憶装置56に格納されている、参加者6、8、10、1
2ごとの音声認識パラメータを定義するデータを使用す
る。すなわち、音声認識パラメータ記憶装置56に格納
されるデータは、音声認識プロセッサを従来の方式で訓
練することにより生成される各参加者の音声プロファイ
ルを定義するデータである。例えば、このデータは、訓
練後にDragon Dictateの「ユーザファイル」に格納される
データである。
置50、方向プロセッサ53及び音声認識プロセッサ5
4から受信したデータを使用して、会議アーカイブデー
タベース60に格納すべきデータを生成する。すなわ
ち、後述するように、カメラ2−1、2−2及び2−3
からの映像データと、マイクロホンアレイ4からの音声
データとを、音声認識プロセッサ54からのテキストデ
ータ及び所定の時点で会議の各参加者が誰を見ていたか
を定義するデータと共に会議アーカイブデータベース6
0に格納するのである。
6と関連して、会議アーカイブデータベース60を探索
し、後に更に詳細に説明するように、ユーザにより指定
される探索基準に適合する会議の1つ又は複数の部分を
見出し、その部分の音声データ及び映像データを再生す
るために使用される。
の制御の下に、ユーザに対し表示装置26を介して情報
を表示すると共に、会議アーカイブデータベース60に
格納された音声データと映像データを再生する。
ース60のデータの一部又は全てを、例えば、ディスク
68などの記憶装置に又は信号70として出力する。
処理動作を実行できるようにするために必要なデータを
入力することにより、コンピュータ20を初期設定する
必要がある。
より実行される処理動作を示す。
では、中央制御装置36は表示プロセッサ64に、ユー
ザが会議に参加するであろう各人物の名前を入力するこ
とを要求するメッセージを表示装置26に表示させる。
ボード28を使用して入力した、名前を定義するデータ
を受信して、中央制御装置36は各参加者に独自の識別
番号を割り当て、識別番号と参加者の名前との関係を定
義するデータ、例えば、図4に示すテーブル80を会議
アーカイブデータベース60に格納する。
示プロセッサ64に、会議中のかなり長い時間にわたり
人物が見ると考えられ、会議アーカイブデータベース6
0にアーカイブデータを格納することが望まれる物体そ
れぞれの名前をユーザが入力することを要求するメッセ
ージを表示装置26に表示させる。そのような物体とし
ては、例えば、図1に示すフリップチャート14などの
フリップチャート、ホワイトボード又は黒板、又はテレ
ビなどが挙げられる。
ボード28を使用して入力した、物体の名前を定義する
データを受信して、中央制御装置36は各物体に独自の
識別番号を割り当て、識別番号と物体の名前との関係を
定義するデータ、例えば、図4に示すテーブル80を会
議アーカイブデータベース60に格納する。
部モデル記憶装置52を探索して、会議の参加者ごとに
頭部モデルを定義するデータが既に格納されているか否
かを判定する。
について頭部モデルがまだ格納されていないと判定され
たならば、ステップS8で、中央制御装置36は表示プ
ロセッサ64に、頭部モデルがまだ格納されていない各
参加者の頭部モデルを定義するデータをユーザが入力す
ることを要求するメッセージを表示装置26に表示させ
る。
スク38などの記憶媒体にあるデータを入力するか、又
は接続している処理装置から信号40としてデータをダ
ウンロードすることにより、必要な頭部モデルを定義す
るデータを入力する。このような頭部モデルは、従来の
方式により、例えば、Valente他の「An Analysis/Synth
esis Cooperation for Head Tracking andVideo Face C
loning」(ProceedingsECCV’98Workshop on Percepti
onof Human Actionに掲載、ドイツ、フライブルク大
学、1998年6月6日)に記載されている方法で生成
されれば良い。
は、ユーザにより入力されたデータを頭部モデル記憶装
置52に格納する。
び表示プロセッサ64はユーザにより入力された各三次
元コンピュータ頭部モデルをレンダリングして、ユーザ
が各モデルにおいて少なくとも7つの特徴を識別するこ
とを要求するメッセージと共に、ユーザに対し表示装置
26を介してモデルを表示する。
の中で、参加者の頭部の正面、側面及び(可能であれ
ば)背面にある顕著な特徴、例えば、目尻、鼻孔、口、
耳又は参加者が掛けている眼鏡の特徴などに対応する3
0個の点をマウスを使用して指定する。
は、ユーザにより識別された特徴を定義するデータを頭
部モデル記憶装置52に格納する。
に頭部モデルが既に頭部モデル記憶装置52に格納され
ていると判定された場合には、ステップS8からS14
を省略する。
音声認識パラメータ記憶装置を探索して、参加者ごとに
音声認識パラメータが既に格納されているか否かを判定
する。
は音声認識パラメータを利用できないと判定されたなら
ば、ステップS18で、中央制御装置36は表示プロセ
ッサ64に、パラメータがまだ格納されていない各参加
者について音声認識パラメータを入力することをユーザ
に要求するメッセージを表示装置26に表示させる。
スク38などの記憶媒体のデータを入力するか、又は遠
隔処理装置からの信号40として入力することにより、
必要な音声認識パラメータを定義するデータを入力す
る。先に述べた通り、これらのパラメータはユーザの話
す音声のプロファイルを定義し、従来の方式で音声認識
プロセッサを訓練することにより生成される。従って、
例えば、Dragon Dictateを組み込んだ音声認識プロセッ
サの場合、ユーザにより入力される音声認識パラメータ
は、Dragon Dictateの「ユーザファイル」に格納されるパ
ラメータに相当する。
は、ユーザにより入力された音声認識パラメータを定義
するデータを音声認識パラメータ記憶装置56に格納す
る。
とに音声認識パラメータを既に利用できる状態にあると
判定された場合には、ステップS18からS20を省略
する。
表示プロセッサ64に、カメラ2−1、2−2及び2−
3の校正(キャリブレーション)を可能にするためのス
テップをユーザが実行することを要求するメッセージを
表示装置26に表示させる。
を実行し、ステップS24では、中央制御装置36はカ
メラ2−1、2−2及び2−3を校正するための処理を
実行する。すなわち、この実施形態においては、ユーザ
により実行されるステップ及び中央制御装置36により
実行される処理は、Wiles及びDavisonの「Calibratingan
d3D Modelling with a Multi−Camera System」(19
99IEEE Workshop onMulti−View Modelling and Anal
ysis of Visual Scenes,ISBN 0769501109)
に記載されているような方式で実行される。これは、会
議室に対する各カメラ2−1,2−2及び2−3の位置
及び向きを定義する校正データ(キャリブレーションデ
ータ)と、各カメラ固有のパラメータ(横縦比、焦点距
離、主点及び一次半径方向ひずみ係数)とを生成する。
カメラ校正データ(カメラキャリブレーションデータ)
は、例えば、メモリ42に格納される。
表示プロセッサ64に、ステップS4で識別データが格
納された物体それぞれの位置と向きを判定できるように
するためのステップをユーザが実行することを要求する
メッセージを表示装置26に表示させる。
を実行し、ステップS26では、中央制御装置36は、
各物体の位置と向きを判定するための処理を実行する。
すなわち、この実施形態においては、ユーザは、会議の
参加者が見ると思われる物体の面の周囲、例えば、フリ
ップチャート14の紙の平面にカラーマーカーを置く。
次に、中央制御装置36は、カメラ2−1、2−2及び
2−3の各々により記録された画像データをステップS
24で格納されたカメラ校正データを使用して処理し、
従来の方式で、各々のカラーマーカーの三次元位置を判
定する。この処理はカメラ2−1、2−2及び2−3ご
とに実行されるので、各カラーマーカーの位置は別個に
推定され、各カメラ2−1、2−2及び2−3からのデ
ータを使用して計算された位置から、各マーカーの位置
について平均位置が判定される。各マーカーの平均位置
を使用して、中央制御装置36は、従来の方式により、
物体面の中心と、物体面の向きを定義するための面垂線
とを計算する。物体ごとに判定された位置と向きは、例
えば、メモリ42に物体校正データとして格納される。
表示プロセッサ64に、会議の次の参加者(初めてステ
ップS27を実行する場合には、これは最初の参加者で
ある)が着席することを要求するメッセージを表示装置
26に表示させる。
着席する時間を与えるために、処理装置24は所定の期
間待機し、ステップS30では、中央制御装置36は各
カメラ2−1、2−2及び2−3からのそれぞれの画像
データを処理して、カメラごとに、着席した参加者の頭
部の推定位置を判定する。すなわち、この実施形態にお
いては、中央制御装置36は従来の方式でカメラごとに
別個に処理を実行し、参加者の肌の色に対応する色(こ
の色は、頭部モデル記憶装置52に格納されている参加
者の頭部モデルを定義するデータから判定される)を有
する、カメラからの画像データの1つのフレームにおけ
る位置をそれぞれ識別し、次に、(頭部は人体の中で最
も高い位置にある肌色の部分であると想定されるので)
会議室内の最も高い位置に相当する部分を選択する。画
像中の識別された部分の位置と、ステップS24で判定
されたカメラ校正パラメータとを使用して、中央制御装
置36は従来の方式により頭部の三次元推定位置を判定
する。この処理はカメラ2−1、2−2及び2−3ごと
に実行され、カメラごとに別個の推定頭部位置が得られ
る。
は、カメラ2−1、2−2及び2−3ごとに、参加者の
頭部の三次元推定向きを判定する。すなわち、この実施
形態においては、中央制御装置36は、頭部モデル記憶
装置52に格納されている参加者の頭部の三次元コンピ
ュータモデルをそのモデルの複数の異なる向きについて
レンダリングして、向きごとに対応するモデルの二次元
画像を作成する。この実施形態では、参加者の頭部のコ
ンピュータモデルを108の異なる向きでレンダリング
するので、108の対応する二次元画像が得られる。こ
れらの向きは、頭部モデルを0°(正面を向いている場
合)、+45°(上を向いている場合)及び−45°
(下を向いている場合)のそれぞれについて10°ずつ
36回回転させた向きに相当する。次に、中央制御装置
36は、モデルの各々の二次元画像を参加者の頭部を示
す、カメラ2−1、2−2、2−3からの映像フレーム
の部分と比較し、モデルの画像が映像データと最も良く
整合する向きを選択する。この比較と選択はカメラごと
に実行されるので、カメラごとに推定頭部向きが得られ
る。頭部モデルをレンダリングすることにより生成され
る画像データをカメラからの映像データと比較するとき
には、例えば、Schodl、Haro及びEssaの「Head Tracking
Using a Textured Polygonal Model」(Proceedings1
998Workshop onPerceptual User Interfacesに掲
載)に記載されているような従来の技法を使用する。
成された参加者の頭部のそれぞれの推定位置と、ステッ
プS52で生成された参加者の頭部のそれぞれの推定向
きとを頭部追跡装置50に入力し、各々のカメラ2−
1、2−2及び2−3から受信した画像データのフレー
ムを処理して、参加者の頭部を追跡する。すなわち、こ
の実施形態においては、頭部追跡装置50は、例えば、
Valente他の「An Analysis/Synthesis Cooperation for
Head Tracking andVideo Face Cloning」(Proceedings
EECV’98Workshop on Perceptionof Human Action、
ドイツ、フライブルク大学、1998年6月6日)に記
載されているような従来の方式で頭部を追跡するための
処理を実行する。
0により実行される処理動作の概要を示す。
らS42−n(この実施形態では、カメラは3台であるの
で、「n」は3である)の各々においては、頭部追跡装置
50は会議を記録しているカメラのうち対応する1台か
らの画像データを処理して、そのカメラからの画像デー
タにおける参加者の頭部の特徴(ステップS14で格納
された)の位置を判定すると共に、それに基づき、その
カメラからの画像データの現在フレームについて参加者
の頭部の三次元位置と向きを判定する。
の所定の1つで実行される処理動作を示す。この処理動
作は各ステップで同一であるが、異なるカメラからの画
像データに対して実行されることになる。
頭部追跡装置50は参加者の頭部の現在推定3D位置及
び現在推定3D向きを読み取る。初めてステップS50
を実行する場合、これらは図3のステップS30及びS
32で生成される推定位置と推定向きである。
ステップS24で生成されたカメラ校正データを使用し
て、ステップS50で読み取られた推定位置と推定向き
に従って、頭部モデル記憶装置52に格納されている参
加者の頭部の三次元コンピュータモデルをレンダリング
する。
は、カメラから受信された映像データの現在フレームに
ついて画像データを処理して、ユーザにより識別され、
ステップS14で格納された頭部の特徴の中の1つの特
徴の期待位置を取り囲む各領域からの画像データを取り
出す。この期待位置はステップS50で読み取られた推
定位置及び推定向きと、ステップS24で生成されたカ
メラ校正データとから判定される。
ステップS52で生成された、レンダリングされた画像
データと、ステップS54で取り出されたカメラ画像デ
ータとを整合し、レンダリングされた頭部モデルに最も
良く整合するカメラ画像データを見出す。
は、ステップS56で識別された、レンダリングされた
頭部モデルに最も良く整合するカメラ画像データを、ス
テップS24(図3)で格納されたカメラ校正データと
共に使用して、映像データの現在フレームについて参加
者の頭部の3D位置と3D向きを判定する。
頭部追跡装置50は、ステップS42−1からS42−n
の各々で識別された、レンダリングされた頭部モデルに
最も良く整合するカメラ画像データ(図6のステップS
58で識別される)を使用して、映像データの現在フレ
ームについて参加者の頭部の平均3D位置と平均3D向き
を判定する。
テップS46では、ステップS42−1からS42−nの
各々で判定されたカメラ画像データにおける頭部の特徴
の位置(図6のステップS58で識別される)を従来の
カルマンフィルタに入力して、映像データの次のフレー
ムについて参加者の頭部の推定3D位置及び推定3D向き
を生成する。ビデオカメラ2−1、2−2及び2−3か
ら映像データのフレームが受信されている間、その参加
者についてステップS42からS46を繰り返し実行す
る。
中央制御装置36は、会議に他の参加者がいるか否かを
判定し、参加者ごとに先に説明したように処理が実行さ
れ終わるまでステップS27からS36を繰り返す。し
かし、参加者ごとにこれらのステップが実行されている
間、ステップS34では、頭部追跡装置50は既に着席
した各参加者の頭部を追跡し続けている。
く、従って、各参加者の頭部は頭部追跡装置50により
追跡されていると判定されたならば、ステップS38
で、中央制御装置36は、参加者の間で会議を始めて良
いことを指示するために、処理装置24から可聴信号を
出力させる。
に処理装置24により実行される処理動作を示す。
頭部追跡装置50は会議中の各参加者の頭部を追跡し続
ける。ステップS70で頭部追跡装置50により実行さ
れる処理は先にステップS34に関して説明した処理と
同じであるので、ここでは繰り返し説明しない。
加者の頭部を追跡しているのと同時に、ステップS72
では、データを生成し、会議アーカイブデータベース6
0に格納するための処理を実行する。
動作を示す。
アーカイブプロセッサ58は、参加者ごとに、その参加
者がどの人物又はどの物体を見ているかを定義するいわ
ゆる「視線パラメータ」を生成する。
動作を示す。
は、アーカイブプロセッサ58は頭部追跡装置50から
各参加者の頭部の現在三次元位置を読み取る。これは、
ステップS44(図5)で頭部追跡装置50により実行
される処理で生成された平均位置である。
ッサ58は頭部追跡装置50から次の参加者(初めてス
テップS112を実行する場合、これは最初の参加者で
ある)の頭部の現在向きを読み取る。ステップS112
で読み取られる向きは、ステップS44(図5)で頭部
追跡装置50により実行される処理で生成された平均向
きである。
ッサ58は、参加者がどこを見ているかを定義する線
(いわゆる「視線」)と、参加者の頭部を他の参加者の頭
部の中心と結ぶ概念上の各々の線とが成す角度を判定す
る。
1を参照すると、1人の参加者、すなわち、図1の参加
者6についてステップS114で実行される処理の一例
が示されている。図10を参照すると、ステップS11
2で読み取られる参加者の頭部の向きは、参加者の両目
の中央の一点から、参加者の頭部に対し垂直に延びる視
線90を定義する。同様に、図11を参照すると、ステ
ップS110で読み取られる全ての参加者の頭部の位置
は、参加者6の両目の中央の点からその他のそれぞれの
参加者8、10、12の頭部の中心に至る概念上の線9
2、94、96を定義する。ステップS114で実行さ
れる処理においては、アーカイブプロセッサ58は視線
90と、それぞれの概念上の線92、94、96とが成
す角度98、100、102を判定する。
は、アーカイブプロセッサ58は、最小値を有する角度
98、100又は102を選択する。すなわち、図11
に示す例でいえば、角度100が選択されることになる
であろう。
ッサ58は、ステップS116で選択した角度が10°
より小さい値を有するか否かを判定する。
さいと判定されれば、ステップS120で、アーカイブ
プロセッサ58は参加者の視線パラメータを、視線と最
小の角度を成す概念上の線により結ばれている参加者の
識別番号(図3のステップS2で割り当てられている)
に設定する。すなわち、図11に示す例でいえば、角度
100が10°より小さければ、角度100は視線90
と、参加者6を参加者10と結ぶ概念上の線94とが成
す角度であるので、視線パラメータは参加者10の識別
番号に設定されるであろう。
角度が10°以上であると判定された場合には、ステッ
プS122で、アーカイブプロセッサ58はステップS
26(図3)で先に格納された各物体の位置を読み取
る。
ッサ58は、参加者の視線90がいずれかの物体の平面
と交わるか否かを判定する。
体の平面と交わると判定されたならば、ステップS12
6で、アーカイブプロセッサ58は参加者の視線パラメ
ータを視線と交わる物体の識別番号(図3のステップS
4で割り当てられている)に設定する。視線90と交わ
る物体が2つ以上ある場合には、これは、視線と交わる
物体のうち、参加者に最も近い物体ということになる。
0が物体の平面と交わらないと判定されたならば、ステ
ップS128で、アーカイブプロセッサ58は参加者の
視線パラメータを「0」に設定する。これは、(視線90
が概念上の線92、94、96のいずれにも十分近接し
ていないために)参加者はその他の参加者の誰をも見て
おらず、また、(視線90が物体と交わらないために)
どの物体をも見ていないと判定されたことを示してい
る。このような状況は、例えば、参加者が会議室内の、
ステップS4でデータが格納されず且つステップS26
で校正が実行されなかった何らかの物体(例えば、図1
に示す例において参加者12が手に持っているメモ)を
見ている場合などに起こりうるであろう。
ッサ58は会議に他の参加者がいるか否かを判定し、参
加者ごとに先に説明した処理が実行され終わるまでステ
ップS112からS130を繰り返す。
中央制御装置36及び音声認識プロセッサ54は、映像
データの現在フレームに対応する音声データがマイクロ
ホンアレイ4から受信されたか否かを判定する。
たと判定されれば、ステップS84で、会議中の参加者
のうち誰が話をしているかを判定するための処理を実行
する。
理動作を示す。
は、方向プロセッサ53はマイクロホンアレイ4からの
音声データを処理して、音声が来ている方向を判定す
る。この処理は、例えば、英国特許第2140558
号、米国特許第4333170号及び米国特許第339
2392号に記載されているような従来の方式で実行さ
れる。
ッサ58は、画像データの現在フレームについてステッ
プS44(図5)で頭部追跡装置50により判定された
各参加者の頭部の位置を読み取り、それに基づいて、ど
の参加者の頭部がステップS140で判定された方向、
すなわち、音声が来ている方向に対応する位置にあるか
を判定する。
ッサ58は、音声が来ている方向に2人以上の参加者が
いるか否かを判定する。
には1人しか参加者がいないと判定されれば、ステップ
S146で、アーカイブプロセッサ58は、音声が来て
いる方向にいる参加者を画像データの現在フレームの話
者として選択する。
来ている方向に対応する位置に2人以上の参加者の頭部
があると判定された場合には、ステップS148で、ア
ーカイブプロセッサ58は、画像データの直前フレーム
でそれらの参加者のうち1人が話者として識別されてい
たか否かを判定する。
にいる参加者の1人が画像データの直前フレームで話者
として選択されていたと判定されれば、ステップS15
0で、アーカイブプロセッサ58は画像データの直前フ
レームで識別されていた話者を画像データの現在フレー
ムについても話者として選択する。これは、画像データ
の直前フレームの話者が現在フレームの話者と同1人物
である確率が高いからである。
来ている方向にいる参加者がいずれも直前フレームで話
者として識別された参加者ではないと判定された場合、
又は直前フレームでは話者が識別されなかった場合に
は、ステップS152で、アーカイブプロセッサ58
は、音声が来ている方向にいるそれぞれの参加者を話者
に「なりうる」参加者として選択する。
アーカイブプロセッサ58は話者である参加者ごとの視
線パラメータ値、すなわち、ステップS80で生成され
た、話者である各参加者が誰を又は何を見ているかを定
義する視線パラメータ値を後の解析に備えて、例えば、
メモリ42に格納する。
サ58は、ステップS84で判定された話者である各参
加者のアイデンティティを音声認識プロセッサ54に報
知する。これに応答して、音声認識プロセッサ54は話
者である参加者の音声認識パラメータを音声認識パラメ
ータ記憶装置56から選択し、選択されたパラメータを
使用して、受信した音声データに対して音声認識処理を
実行し、話者である参加者が話した言葉に対応するテキ
ストデータを生成する。
ータが話し言葉を含まないと判定されたならば、ステッ
プS84からステップS88を省略する。
サ58は、会議アーカイブデータベース60にどの画像
データを格納すべきか、すなわち、どのカメラ2−1、
2−2及び2−3からの画像データを格納すべきかを判
定する。
ロセッサ58により実行される処理動作を示す。
は、アーカイブプロセッサ58は、画像データの現在フ
レームについてステップS82(図8)で何らかの話し
言葉が検出されたか否かを判定する。
は話し言葉が存在しないと判定されれば、ステップS1
62で、アーカイブプロセッサ58は、画像データを格
納すべきカメラとしてデフォルトカメラを選択する。す
なわち、この実施形態においては、アーカイブプロセッ
サ58は直前フレームで画像データが記録されたカメラ
を選択する。処理中の現在フレームが全く初めてのフレ
ームである場合には、アーカイブプロセッサ58はカメ
ラ2−1、2−2、2−3のうち1台を無作為に選択す
る。
フレームに話し言葉があると判定された場合には、ステ
ップS164で、アーカイブプロセッサ58は、次の話
者である参加者(初めてステップS164を実行すると
きには、これは最初の話者である参加者である)につい
てステップS86で先に格納された視線パラメータを読
み取り、その話者である参加者が見ている人物又は物体
を判定する。
ッサ58は、現在考慮されている話者である参加者の頭
部の位置と向き(図5のステップS44で判定された)
を、話者である参加者の視線の先にいる参加者の頭部の
位置と向き(図5のステップS44で判定された)又は
話者である参加者の視線の先にある物体の位置と向き
(図3のステップS26で格納された)と共に読み取
る。
ッサ58はステップS166で読み取られた位置と向き
を処理して、カメラ2−1、2−2、2−3のうちどの
カメラが話者である参加者と、話者である参加者が見て
いる参加者又は物体の双方を最も良く示しているかを判
定し、且つこのカメラを現在フレームの画像データを会
議アーカイブデータベース60に格納すべきカメラとし
て選択する。
プロセッサ58により実行される処理動作を示す。
は、アーカイブプロセッサ58は次のカメラ(初めてス
テップS176を実行するときには、これは第1のカメ
ラである)の三次元位置と視野方向を読み取る。この情
報は先に図3のステップS24で生成、格納されてい
る。
ッサ58は、ステップS176で読み取られた情報を、
話者である参加者の頭部の三次元位置と向き(図5のス
テップS44で判定された)を定義する情報及び話者で
ある参加者が見ている参加者の頭部の三次元位置と向き
(図5のステップS44で判定された)又は話者である
参加者が見ている物体の三次元位置と向き(図3のステ
ップS26で格納された)を定義する情報と共に使用し
て、話者である参加者と、話者である参加者が見ている
参加者又は物体の双方が現在考慮されているカメラの視
野の中に入るか否か(すなわち、現在考慮されているカ
メラが話者である参加者と、話者である参加者が見てい
る参加者又は物体の双方を捉えることができるか否か)
を判定する。すなわち、この実施形態においては、アー
カイブプロセッサ58は下記の式を評価し、全ての不等
式が成立すれば、カメラは話者である参加者と、話者で
ある参加者が見ている参加者又は物体の双方を捉えるこ
とができると判定する。
ラの主点のx座標、y座標及びz座標(図3のステップS
24で先に判定、格納されている)であり、(dXc、d
Yc,dZc)は、それぞれ、x方向、y方向及びz方向のカメ
ラの視野方向(同様に、図3のステップS24で先に判
定、格納されている)を表し、θh及びθvは、それぞ
れ、水平方向と垂直方向のカメラの角視野(同様に、図
3のステップS24で判定、格納されている)であり、
(Xp1、Yp1,Zp1)は、それぞれ、話者である参加者の
頭部の中心のx座標、y座標及びz座標(図5のステップ
S44で判定されている)であり、(dXp1,dYp1,d
Zp1)は、それぞれ、話者である参加者の視線90の向
き(同様に、図5のステップS44で判定されている)
を表し、(Xp2,Yp2,Zp2)は、それぞれ、話者である
参加者が見ている参加者の頭部の中心のx座標、y座標及
びz座標(図5のステップS44で判定されている)又
は話者である参加者が見ている物体の面の中心のx座
標、y座標及びz座標(図3のステップS26で判定され
ている)であり、(dXp2,dYp2,dZp2)は、それぞれ、
話者である参加者が見ている参加者の視線90のx方
向、y方向及びz方向の方向(同様に、図5のステップS
44で判定されている)又は話者である参加者が見てい
る物体面に対する垂線のx方向、y方向及びz方向の方向
(図3のステップS26で判定されている)を表す。
参加者と、話者である参加者が見ている参加者又は物体
の双方を捉えることができる(すなわち、上記の式
(1)、(2)、(3)及び(4)の不等式が成立す
る)と判定されれば、ステップS180で、アーカイブ
プロセッサ58は、現在考慮されているカメラが話者で
ある参加者を捉えている視野の画質を表す値を計算し、
格納する。すなわち、この実施形態においては、アーカ
イブプロセッサ58は、下記の式を使用して画質値Q1
を計算する。
(2)に関して挙げた定義と同じである。
は、−1から+1の値をとるスカラであり、話者である
参加者の頭部の背面がカメラに直接向いている場合、そ
の値は−1であり、話者である参加者の顔面が直接カメ
ラに向いている場合には+1である。話者である参加者
の頭部がその他の向きである場合には、−1と+1の間
の値をとる。
ッサ58は、現在考慮されているカメラが話者である参
加者が見ている参加者又は物体を捉えている視野の画質
を表す値を計算し、格納する。すなわち、この実施形態
においては、アーカイブプロセッサ58は下記の式を使
用して、画質値Q2を計算する。
び(4)に関して挙げた定義と同じである。
物体の面の背面が直接カメラに向いている場合に−1、
参加者の顔面又は物体の正面が直接カメラに向いている
場合には+1の値をとるスカラである。参加者の頭部又
は物体の面がその他の向きである場合には、−1と+1
の間の値をとる。
ッサ58はステップS180で計算した画質値Q1と、
ステップS182で計算した画質値Q2とを比較し、最
小値を選択する。この最小値は、カメラが話者である参
加者、あるいは話者である参加者が見ている参加者又は
物体を捉えている「最悪の視野」を示す(Q1がQ2より小
さい場合、最悪の視野は話者である参加者の視野であ
り、Q2がQ1より小さい場合は、最悪の視野は話者であ
る参加者が見ている参加者又は物体の視野である)。
(2)、(3)及び(4)の不等式の1つ又は2つ以上
が成立しない(すなわち、カメラが話者である参加者
と、話者である参加者が見ている参加者又は物体の双方
を捉えることができない)と判定された場合には、ステ
ップS180からS184を省略する。
ッサ58は、画像データを提供していたカメラが他にあ
るか否かを判定する。カメラごとに上記の処理が実行さ
れ終わるまで、ステップS176からS186を繰り返
す。
ッサ58は、ステップS184で処理を実行したときに
カメラごとに格納された「最悪の視野」の値(すなわち、
ステップS184でカメラごとに格納されたQ1又はQ2
の値)を比較し、格納されているそれらの値の中で最大
の値を選択する。この最大値は「最良の最悪の視野」を表
し、そこで、ステップS188で、アーカイブプロセッ
サ58は、ステップS184でこの「最良の最悪の視野」
値が格納されていたカメラを会議アーカイブデータベー
スに画像データを格納すべきカメラとして選択する。こ
れは、このカメラが話者である参加者と、話者である参
加者が見ている参加者又は物体の双方を最良の視野で捉
えているからである。
ッサ58は、話者に「なりうる」参加者を含めて、他に話
者である参加者がいるか否かを判定する。話者である参
加者ごとに、また、話者に「なりうる」参加者ごとに上記
の処理が実行され終わるまで、ステップS164からS
170を繰り返す。
アーカイブプロセッサ58はステップS89で選択した
カメラから受信された映像データの現在フレームと、マ
イクロホンアレイ4から受信された音声データとを従来
の方式によりMPEG2データとして符号化し、符号化され
たデータを会議アーカイブデータベース60に格納す
る。
0へのデータの格納を概略的に示す。図15に示す格納
構造は概念上のものであり、格納される情報間のリンク
を示すことにより理解を助けることを目的としている。
従って、これは、会議アーカイブデータベース60を構
成するメモリにデータが厳密にどのように格納されるか
を必ずしも表してはいない。
タベース60は水平軸200により表される時間情報を
格納している。水平軸200上の各単位は所定の量の時
間、例えば、カメラから受信される映像データの1フレ
ーム分の周期を表す。(会議アーカイブデータベース6
0が一般には図15に示す数より多くの数の時間単位を
含むことは言うまでもなく了解されるであろう。)ステ
ップS90で生成されたMPEG2データは、タイミング情
報(このタイミング情報は図15では水平軸200に沿
ったMPEG2データ202の位置により概略的に表されて
いる)と共に、データ202として会議アーカイブデー
タベース60に格納されている。
アーカイブプロセッサ58は、現在フレームについてス
テップS88で音声認識プロセッサ54により生成され
たテキストデータを会議アーカイブデータベース60に
格納する(図15には204で示す)。すなわち、テキ
ストデータは対応するMPEG2データへのリンクを伴って
格納される。図15においては、このリンクは、テキス
トデータがMPEG2データと同じ縦列に格納されることに
よって表されている。話をしていない参加者からは格納
すべきテキストデータが得られないことは理解されるで
あろう。図15に示す例では、参加者1については初め
の10個のタイムスロットにテキストが格納され(20
6で示す)、参加者3については12番目から20番目
のタイムスロットに格納され(208で示す)、参加者
4については21番目のタイムスロットに格納されてい
る(210で示す)。この例では、参加者2は図15に
示すタイムスロットの間は話をしていないので、参加者
2のテキストは格納されていない。
サ58は、ステップS80で現在フレームについて参加
者ごとに生成された視線パラメータ値を会議アーカイブ
データベース60に格納する(図15には212で示
す)。図15を参照すると、視線パラメータ値は、参加
者ごとに、関連するMPEG2データ202及び関連するテ
キストデータ204へのリンクと共に格納されている
(このリンクは、図15では、視線パラメータ値が関連
するMPEG2データ202及び関連するテキストデータ2
04と同じ縦列にあることによって表されている)。従
って、一例として、図15の第1のタイムスロットに関
していえば、参加者1の視線パラメータ値は、参加者1
が参加者3を見ていることを指示する3であり、参加者
2の視線パラメータ値は、参加者2がフリップチャート
14を見ていることを指示する5であり、参加者3の視
線パラメータ値は、参加者3が参加者1を見ていること
を指示する1であり、参加者4の視線パラメータ値は、
参加者4が他の参加者の誰も見ていないことを指示する
「0」である(図1に示す例では、12で示される参加者
は他の参加者ではなく、自分のメモを見ている)。
びアーカイブプロセッサ58は、会議の参加者の1人が
話を止めたか否かを判定する。この実施形態において
は、この検査は、所定の参加者のテキストデータが直前
のタイムスロットには存在したが、現在タイムスロット
には存在しないことを判定するためにテキストデータ2
04を検査することにより実行される。いずれかの参加
者についてこの条件が満たされれば(すなわち、参加者
が話を止めていれば)、ステップS98で、アーカイブ
プロセッサ58は、話を止めた参加者ごとに、先にステ
ップS86を実行したときに格納されていた視線パラメ
ータ値を処理し(それらの視線パラメータ値は、この時
点で止まった話をしていた期間中にその参加者が誰を又
は何を見ていたかを定義する)、視線ヒストグラムを定
義するデータを生成する。すなわち、参加者が話をして
いた期間の視線パラメータ値を処理して、その期間中に
話者である参加者がその他の参加者及び物体のそれぞれ
を見ていた時間の割合(%)を定義するデータを生成す
るのである。
206及び208の期間にそれぞれ相当する視線ヒスト
グラムを示す。
1が話していた期間206の間、参加者1は、図16に
300で示すように、10個のタイムスロットのうち6
個のタイムスロット(すなわち、参加者が話をしていた
期間全体の長さの60%)にわたり参加者3を見てお
り、図16Aに310で示すように、10個のタイムス
ロットのうち4個のタイムスロット(すなわち、時間の
40%)にわたり参加者4を見ていた。
と、期間208の間、参加者3は、図16Bに320で
示すように、時間の約45%にわたり参加者1を見てお
り、図16Bに330で示すように、時間の約33%に
わたり物体5(すなわち、フリップチャート14)を見
ており、図16Bに340で示すように、時間の約22
%にわたり参加者2を見ていた。
は、ステップS98で生成した各視線ヒストグラムを、
それを生成する元になったテキストの関連する期間とリ
ンクさせて、会議アーカイブデータベース60に格納す
る。図15を参照すると、格納される視線ヒストグラム
は214で示され、テキスト期間206のヒストグラム
を定義するデータは216で示され、テキスト期間20
8のヒストグラムを定義するデータは218で示されて
いる。図15においては、視線ヒストグラムと関連する
テキストとのリンクは、視線ヒストグラムがテキストデ
ータと同じ縦列に格納されることにより表されている。
て参加者の1人が話を止めていないと判定された場合に
は、ステップS98及びS100を省略する。
ッサ58は、映像フレームの直前フレーム(すなわち、
ステップS80からS100でデータが生成、格納され
たばかりのフレームの直前のフレーム)及び他の先行フ
レームについて、会議アーカイブデータベース60に格
納されているデータを必要に応じて修正する。
プロセッサ58により実行される処理動作を示す。
は、アーカイブプロセッサ58は、次の先行フレーム
(初めてステップS190を実行する場合には、これは
現在フレームの直前のフレームであり、すなわち、現在
フレームが「i」番目のフレームであれば、「i−1」番目
のフレームである)について、話者に「なりうる」参加者
のデータを会議アーカイブデータベース60に格納する
かどうかを判定する。
フレームについて話者に「なりうる」参加者のデータが格
納されていないと判定されれば、会議アーカイブデータ
ベース60のデータを修正する必要はない。
る先行フレームについて話者に「なりうる」参加者のデー
タが格納されていると判定された場合には、ステップS
192で、アーカイブプロセッサ58は、先行フレーム
についてデータが格納された話者に「なりうる」参加者の
1人が現在フレームについて識別された話者である参加
者(話者に「なりうる」参加者ではない)、すなわち、図
12のステップS146で識別された話者である参加者
と同1人物であるか否かを判定する。
に「なりうる」参加者がいずれも現在フレームについてス
テップS146で識別された話者である参加者と同じで
はないと判定されれば、考慮されている先行フレームに
ついて会議アーカイブデータベース60に格納されてい
るデータの修正を実行しない。
の話者に「なりうる」参加者が現在フレームについてステ
ップS146で識別された話者である参加者と同1人物
であると判定された場合には、ステップS194で、ア
ーカイブプロセッサ58は、現在フレームの話者である
参加者と同じではない話者に「なりうる」参加者のそれぞ
れについて、考慮されている先行フレームのテキストデ
ータ204を会議アーカイブデータベース60から削除
する。
192及びS194の処理を実行することにより、現在
フレームについて画像データ及び音声データを処理する
ことによって話者が明確に識別された場合、現在フレー
ムの話者は先行フレームの話者と同1人物であるという
仮定を利用して、話者に「なりうる」参加者(すなわち、
曖昧さなく話者を識別することが不可能であったため)
について格納された直前フレームのデータを更新するの
である。
フレームについてステップS190からS194を繰り
返す。すなわち、現在フレームが「i」番目のフレームで
あれば、初めてステップS190からS194を実行す
るときに「i−1」番目のフレームを考慮し、2度目にス
テップS190からS194を実行するときには「i−
2」番目のフレームを考慮する。これ以降も同様であ
る。ステップS190で、考慮されている先行フレーム
について話者に「なりうる」参加者のデータが格納されて
いないと判定されるか、またはステップS192で、考
慮されている先行フレームにおける話者に「なりうる」参
加者がいずれも現在フレームについて曖昧さなく識別さ
れた話者である参加者と同じではないと判定されるま
で、ステップS190からS194を繰り返し実行し続
ける。このようにして、いくつかの連続するフレームに
わたり話者に「なりうる」参加者が識別された場合には、
次のフレームで話者に「なりうる」参加者の中から実際の
話者である参加者が識別されれば、会議アーカイブデー
タベースに格納されているデータを修正する。
は、中央制御装置36は、カメラ2−1、2−2、2−
3から映像データの別のフレームが受信されたか否かを
判定する。カメラ2−1、2−2、2−3から画像デー
タが受信されている間は、ステップS80からS104
を繰り返し実行する。
が格納されている場合、会議アーカイブデータベース6
0を問い合わせて、会議に関連するデータを検索しても
良い。
準を満たす会議の各部分に関連するデータを検索する目
的で会議アーカイブデータベース60を探索するために
実行される処理動作を示す。
は、中央制御装置36は表示プロセッサ64に、要求す
る会議アーカイブデータベース60の探索を定義する情
報をユーザが入力することを求めるメッセージを表示装
置26に表示させる。すなわち、この実施形態において
は、中央制御装置36は図19Aに示す表示を表示装置
26に表示させる。
ーカイブデータベース60の中で見出すことを臨む会議
の部分を定義する情報を入力することを求められる。す
なわち、この実施形態においては、ユーザは、話をして
いた参加者を定義する情報400、情報400の中で識
別される参加者が口に出した1つ又は複数のキーワード
から成る情報410、及び情報400の中で識別される
参加者が話している間に見ていた参加者又は物体を定義
する情報420を入力することを求められる。更に、ユ
ーザは、探索を実行すべき会議の部分を定義する時間情
報を入力することができる。すなわち、ユーザは、その
時間を越えたら探索を中止すべきである会議中の時間
(すなわち、指定される時間に至るまでの会議の期間を
探索すべきである)を定義する情報430と、その時間
から探索を実行すべきである会議中の時間を定義する情
報440と、探索を実行すべき期間の開始時間と終了時
間をそれぞれ定義する情報450及び460とを入力で
きる。この実施形態においては、情報430、440、
450及び460は、例えば、分単位で絶対期限として
時間を指定するか、又は会議時間全体に占める割合を指
示する小数値を入力することにより相対期限で時間を指
定することにより入力されれば良い。例えば、情報43
0として値0.25を入力した場合、探索は会議の初め
の四分の一に限定されるであろう。
情報400、410及び420の全てを入力する必要は
なく、この情報のうち1つ又は2つを省いても良い。ユ
ーザが情報400、410及び420の全てを入力すれ
ば、会議の中で、情報400の中で識別される参加者が
情報420の中で識別される参加者又は物体に向かって
話していた部分及び情報400の中で識別される参加者
が情報410の中で定義されるキーワードを話した部分
をそれぞれ識別するための探索が実行されることにな
る。これに対し、情報410を省いた場合には、会議の
中で、情報400の中で識別される参加者が何を言った
かに関わらず、情報420の中で定義される参加者又は
物体に向かって話していた部分をそれぞれ識別するため
の探索が実行される。情報410及び420を省いた場
合には、会議の中で、情報400の中で識別される参加
者が何を誰に向かって話したかに関わらず、話していた
部分をそれぞれ識別するための探索が実行される。情報
400を省いた場合には、会議の中で、いずれかの参加
者が情報420の中で定義される参加者又は物体を見な
がら情報410の中で定義されるキーワードを話した部
分をそれぞれ識別するための探索が実行される。情報4
00及び410を省いた場合には、会議の中で、いずれ
かの参加者が情報420の中で定義される参加者又は物
体に向かって話した部分をそれぞれ識別するための探索
が実行される。情報420を省いた場合には、会議の中
で、情報400の中で定義される参加者が情報410の
中で定義されるキーワードを誰に向かって話したかに関
わらず、キーワードを話した部分をそれぞれ識別するた
めの探索が実行される。同様に、情報400及び420
を省いた場合には、会議の中で、誰が誰に向かって言っ
たかに関わらず、情報410の中で識別されるキーワー
ドが話された部分をそれぞれ識別するための探索が実行
される。
450及び460の全てを入力しても良いし、あるいは
そのうちいくつかを省いても良い。
言葉に代わる言葉を探索できるようにするために、情報
410の中で入力されるキーワードと組み合わせて周知
のブール演算子及び探索アルゴリズムを使用しても良
い。
の情報を入力したならば、マウス30などのユーザ入力
装置を使用して領域470をクリックすることにより探
索を開始する。
は、ユーザが入力した探索情報を中央制御装置36によ
り読み取り、命令された探索を実行する。すなわち、こ
の実施形態においては、中央制御装置36は情報400
又は420の中で入力された参加者又は物体の名前をテ
ーブル80(図4)を使用して識別番号に変換し、情報
400で定義される参加者(情報400が入力されなか
った場合は全ての参加者)についてテキスト情報204
を考慮する。ユーザにより情報420が入力されていれ
ば、テキストの期間ごとに、中央制御装置36は対応す
る視線ヒストグラムを定義するデータを検査して、情報
420の中で定義される参加者又は物体のヒストグラム
における注目時間の割合がこの実施形態では25%であ
る閾値以上であるか否かを判定する。このように、話者
である参加者が話をしている時間の少なくとも25%に
わたって情報420の中で定義される参加者又は物体を
見ていれば、話者である参加者が話しの間に他の参加者
又は物体を見たとしても、話し言葉(テキスト)の各期
間を考慮して、情報400の中で定義される参加者は情
報420の中で定義される参加者又は物体に話しかけて
いたという基準を満たす。従って、例えば、情報420
の中で2人以上の参加者が識別されていれば、視線ヒス
トグラムの値が2人以上の参加者について25%以上で
あるような話の期間が識別されるであろう。ユーザが情
報410を入力した場合、中央制御装置36及びテキス
トサーチャ62は、先に情報400及び420に基づい
て識別されたテキストの各部分(情報400及び420
が入力されていなければ、テキストの全ての部分)を探
索して、情報410の中で定義されるキーワードを含む
各部文を識別する。ユーザが時間情報を入力していれ
ば、上記の探索はそれらの期限により定義される会議時
間に限られる。
は表示プロセッサ64に、探索中に識別された関連話題
のリストを表示装置26を介してユーザに対し表示させ
る。すなわち、中央制御装置36は、図19Bに示すよ
うな情報をユーザに対し表示させる。図19Bを参照す
ると、探索パラメータを満足させる各々の話題のリスト
が作成され、その話の開始時間を定義する情報が絶対期
限と、会議時間全体に占める割合の双方で表示されてい
る。そこで、ユーザは、例えば、リスト中の必要な話題
をマウス30を使用してクリックすることにより、話題
の1つを選択して、再生させることができる。
はステップS204でユーザが行った選択を読み取り、
格納されている会議の関連部分のMPEG2データ202を
会議アーカイブデータベース60から再生させる。すな
わち、中央制御装置36及び表示プロセッサ64はMPEG
2データ202を復号し、画像データと音声を表示装置
26を介して出力するのである。再生すべき話の一部又
は全てについて2台以上のカメラからの画像データが格
納されている場合には、そのことを表示装置26により
ユーザに指示し、ユーザは、例えば、キーボード28を
使用して中央制御装置36に命令を入力することによ
り、再生すべき画像データを選択することができる。
は、ユーザが会議アーカイブデータベース60の問い合
わせを中止することを望むか否かを判定し、望まないの
であれば、ステップS200からS208を繰り返す。
は、様々な変形や変更を実施することができる。
3)及びステップS70(図7)においては、会議中の
各参加者の頭部を追跡していた。しかし、これに加え
て、ステップS4及びS26でデータを格納した物体が
移動する場合(そのような物体としては、例えば、参加
者により回覧されるようなメモ又は参加者間で手渡され
るべき物体などが考えられる)それらの物体を追跡する
ことも可能であろう。
ラ2−1、2−2、2−3からの画像データを処理して
いた。しかし、その代わりに、1台のビデオカメラから
の画像データを処理しても良い。この場合、例えば、ス
テップS42−1(図5)のみを実行し、ステップS4
2−2からS42−nを省略する。同様に、ステップS4
4を省略し、ステップS42−1で実行される処理の
間、画像データの現在フレームに関わる参加者の頭部の
3D位置及び向きをステップS58(図6)で判定され
る3D位置及び向きであるとみなす。ステップS46で
は、カルマンフィルタに入力される頭部の特徴の位置は
その1台のカメラからの画像データにおける位置になる
であろう。更に、会議アーカイブデータベース60に画
像データを記録すべきカメラを選択するためのステップ
S89(図8)も省略されるであろう。
(図13)において、話者である参加者と、話者である
参加者が見ている参加者又は物体とを最も良く捉えるカ
メラを識別するための処理を実行していた、しかし、上
記の実施形態において説明したようにカメラを識別する
代わりに、処理装置24の初期設定中に、会議テーブル
を囲む2つずつの着席位置を最も良く捉え且つ/又は各
々の着席位置と所定の物体(フリップチャート14な
ど)を最も良く捉えるのはカメラ2−1、2−2、2−
3のうちどれであるかをユーザが定義することも可能で
ある。このようにして、話者である参加者と、話者であ
る参加者が見ている参加者があらかじめ定義された着席
位置にいると判定されれば、それらのあらかじめ定義さ
れた着席位置を最も良く捉えるとユーザにより定義され
たカメラを画像データを格納すべきカメラとして選択す
ることができる。同様に、話者である参加者があらかじ
め定義された位置にあり且つある物体を見ている場合、
そのあらかじめ定義された着席位置と物体を最も良く捉
えるとユーザにより定義されたカメラを画像データを格
納すべきカメラとして選択することができる。
(図13)において、直前フレームで画像データが格納
されたカメラとしてデフォルトカメラを選択していた。
しかし、その代わりに、例えば、処理装置24の初期設
定中に、ユーザがデフォルトカメラを選択しても良い。
(図17)において、その時点で実際には話者である参
加者として識別されなかった話者に「なりうる」参加者に
ついて、テキストデータ204を会議アーカイブデータ
ベース60から削除していた。しかし、これに加えて、
関連する視線ヒストグラムデータ214も共に削除して
良い。更に、カメラ2−1、2−2、2−3のうち2台
以上からのMPEG2データ202が格納されていた場合、
話者に「なりうる」参加者に関連するMPEG2データも削除
して良い。
一意性をもって識別することが不可能である場合、話者
に「なりうる」参加者を定義し、話者になりうる参加者に
ついてデータを処理して会議アーカイブデータベース6
0に格納し、その後、会議アーカイブデータベース60
に格納されたデータを修正していた(図8のステップS
102)。しかし、話者に「なりうる」参加者についてデ
ータを処理し、格納するのではなく、カメラ2−1、2
−2及び2−3から受信した映像データと、マイクロホ
ンアレイ4から受信した音声データとを、後続フレーム
に関連するデータから話者である参加者が識別されたと
きの後の処理及びアーカイビングに備えて格納しておい
ても良い。あるいは、ステップS144(図12)で実
行された処理の結果、音声が来ている方向に2人以上の
参加者がいることが指示された場合には、カメラ2−
1、2−2及び2−3からの画像データを処理して、参
加者の唇の動きを検出すると共に、音声が来ている方向
にいて、唇が動いている参加者を話者である参加者とし
て選択しても良い。
と、各人物の頭部の向きと、各人物が誰を又は何を見て
いるかを定義する人物ごとの視線パラメータとを判定す
るための処理を実行していた。その後、画像データのフ
レームごとに、各人物の視線パラメータ値を会議アーカ
イブデータベース60に格納する。しかし、全ての人物
について視線パラメータを判定する必要はない。例え
ば、話者である参加者のみの視線パラメータを判定し、
画像データのフレームごとにこの視線パラメータ値のみ
を会議アーカイブデータベース60に格納することは可
能である。従って、この場合、話者である参加者の頭部
の位置を判定するだけで良いであろう。このようにすれ
ば、処理及び格納に課される負担を軽減することができ
る。
(図18)において、テキストの特定の部分の視線ヒス
トグラムを考慮し、その視線ヒストグラムにおいて別の
参加者又は物体に注目している時間の割合が所定の閾値
以上である場合に、参加者は別の参加者と話していた又
は別の物体を見ていたと判定していた。しかし、閾値を
使用する代わりに、テキスト(話)の期間中、話者であ
る参加者が見ていた参加者又は物体は、視線ヒストグラ
ムの中で最も大きな割合の注目時間を有する参加者又は
物体(例えば、図16Aの参加者3及び図16Bの参加者
1)であると定義しても良い。
2及び2−3と、マイクロホンアレイ4とからデータが
受信されている間、MPEG2データ202、テキストデー
タ204、視線パラメータ212及び視線ヒストグラム
214をリアルタイムで会議アーカイブデータベース6
0に格納していた。しかし、その代わりに、映像データ
と音声データを格納し、リアルタイムではなくデータ2
02、204、2120及び214を生成して、会議ア
ーカイブデータベース60に格納しても良い。
分についてデータを検索するために会議アーカイブデー
タベース60を問い合わせる前に、MPEG2データ20
2、テキストデータ204、視線パラメータ212及び
視線ヒストグラム214を生成し、データベースに格納
していた。しかし、探索の要求に先立ってデータを生
成、格納するのではなく、会議アーカイブデータベース
60の探索がユーザにより要求されるのに応答して、既
に会議アーカイブデータベース60に格納されているデ
ータを処理することにより、視線ヒストグラムデータ2
14の一部又は全てを生成しても良い。例えば、上記の
実施形態では、視線ヒストグラム214はステップS9
8及びS100(図8)でリアルタイムで計算、格納さ
れていたが、ユーザにより入力される探索要求に応答し
てそれらのヒストグラムを計算しても良い。
4は会議アーカイブデータベース60に格納されてい
た。テキストデータ204の代わりに、音声データを会
議アーカイブデータベース60に格納しても良い。その
場合、格納された音声データ自体を音声認識処理を利用
してキーワードを求めて探索しても良いし、あるいは音
声認識処理を利用して音声データをテキストに変換し、
従来のテキストサーチャを使用してそのテキストを探索
しても良い。
ーカイブすべきデータを受信し、生成するための機能構
成要素(例えば、中央制御装置36、頭部追跡装置5
0、頭部モデル記憶装置52、方向プロセッサ53、音
声認識プロセッサ54、音声認識パラメータ記憶装置5
6及びアーカイブプロセッサ58)と、アーカイブデー
タを格納するための機能構成要素(例えば、会議アーカ
イブデータベース60)と、データベースを探索し、そ
こから情報を検索するための機能構成要素(例えば、中
央制御装置36及びテキストサーチャ62)とを含む。
しかし、これらの機能構成要素を別個の装置に設けても
良い。例えば、アーカイブすべきデータを生成する1つ
又は複数の装置と、データベースを探索する1つ又は複
数の装置とをインターネットなどのネットワークを介し
て1つ又は複数のデータベースに接続しても良い。
又は複数の場所での会議500、510、520から得
られた映像データと音声データをデータ処理・データベ
ース記憶装置530(アーカイブデータを生成し、格納
するための機能構成要素を具備する)に入力し、データ
ベースを問い合わせて、そこから情報を検索するため
に、1つ又は複数のデータベース問い合わせ装置54
0、550をデータ処理・データベース記憶装置530
に接続しても良い。
により定義される処理ルーチンを使用して、コンピュー
タにより処理を実行していた。しかし、処理の一部又は
全てをハードウェアを使用して実行することも可能であ
ろう。
上記の実施形態を説明したが、本発明はこの用途には限
定されず、フィルムセットについて画像データ及び音声
データを処理するなどの他の用途にも適用することがで
きる。
もなく可能であり、本発明の趣旨から逸脱せずにその他
の変更や変形を実施することができる。
この実施形態では、1台のビデオカメラ602と、1つ
又は複数のマイクロホン604とを使用して、複数の人
物606、608、610、612の間で行われている
会議から画像データと音声データをそれぞれ記録してい
る。
マイクロホン604からの音声データはケーブル(図示
せず)を介してコンピュータ620に入力され、コンピ
ュータ620は受信したデータを処理し、データをデー
タベースに格納して、会議のアーカイブ記録を作成す
る。後に、このデータベースから情報を検索することが
できる。
示装置626や、この実施形態においてはキーボード6
28及びマウス630であるユーザ入力装置と共に、1
つ又は複数のプロセッサ、メモリ、サウンドカードなど
を含む処理装置624を有する従来通りのパーソナルコ
ンピュータである。
の構成要素に対し入出力されるデータの流れを図22に
概略的に示す。
例えば、ディスク632などのデータ記憶媒体に格納さ
れたデータとして及び/又は例えば、インターネットな
どの通信ネットワーク(図示せず)を介する送信又は大
気中を通る送信により遠隔データベースから処理装置6
24に入力され且つ/又はキーボード628などのユー
ザ入力装置又は他の入力装置を介してユーザにより処理
装置624に入力される信号634として入力されるプ
ログラミング命令に従って動作するようにプログラムさ
れている。
ると、処理装置624は処理動作を実行するための複数
の機能ユニットとして有効に構成される。そのような機
能ユニットの例と、それらの配線を図22に示す。しか
し、図22に示すユニットと配線は概念上のものであ
り、単に理解を助けるために例示を目的として示されて
いるにすぎない。従って、図22の機能ユニット及び配
線は、処理装置624のプロセッサ、メモリなどが実際
に構成される厳密なユニットや接続関係を必ずしも表し
てはいない。
ると、中央制御装置636はユーザ入力装置628,6
30からの入力を処理し、且つユーザによりディスク6
38などの記憶装置に格納されたデータとして又は処理
装置624へ送信される信号640として処理装置62
4に入力されるデータを受信する。また、中央処理装置
636はその他の複数の機能ユニットに対して制御及び
処理を実行する。メモリ642は、中央制御装置636
及びその他の機能ユニットにより使用されるべきメモリ
である。
から受信した画像データを処理して、会議中の各々の参
加者606、608、610,612の頭部の位置と向
きを三次元で追跡する。この実施形態では、この追跡を
実行するために、頭部追跡装置650は各々の参加者の
頭部の三次元コンピュータモデルを定義するデータと、
頭部の特徴を定義するデータとを使用する。それらのデ
ータは、後述するように、頭部モデル記憶装置652に
格納される。
604から受信される音声データを処理する。音声認識
プロセッサ654は、「Dragon Dictate」又はIBMの「ViaV
oice」などの従来の音声認識プログラムに従って動作
し、参加者606、608、610、612により話さ
れた言葉に対応するテキストデータを生成する。音声認
識処理を実行するために、音声認識プロセッサ654
は、参加者606、608、610、612ごとの音声
認識パラメータを定義するデータを使用する。このデー
タは音声認識パラメータ記憶装置656に格納される。
すなわち、音声認識パラメータ記憶装置656に格納さ
れるデータは、音声認識プロセッサを従来の方式で訓練
することにより生成される各参加者の音声プロファイル
を定義するデータである。例えば、このデータは、訓練
後にDragon Dictateの「ユーザファイル」に格納されるデ
ータである。
装置650及び音声認識プロセッサ654から受信した
データを使用して、会議アーカイブデータベース660
に格納すべきデータを生成する。すなわち、後述するよ
うに、カメラ602からの映像データとマイクロホン6
04からの音声データを、音声認識プロセッサ654か
らのテキストデータ及び会議中の各参加者が所定の時点
で誰を見ていたかを定義するデータと共に会議アーカイ
ブデータベース660に格納するのである。
636と関連して、会議アーカイブデータベース660
を探索して、後に更に詳細に説明するように、ユーザに
より指定される探索基準に適合する会議の1つ又は複数
の部分に対応する音声データと映像データを見出し、再
生するために使用される。
36の制御の下に、表示装置626を介してユーザに情
報を表示すると共に、会議アーカイブデータベース66
0に格納されている音声データと映像データを再生す
る。
ベース660からのデータの一部又は全てを、例えば、
ディスク668などの記憶装置へ出力するか、又は信号
670として出力する。
される処理動作を実行できるようにするために必要なデ
ータを入力することによりコンピュータ620を初期設
定しなければならない。
4により実行される処理動作を示す。
は、中央制御装置636は表示プロセッサ664に、ユ
ーザが会議に参加する各人物の名前を入力することを要
求するメッセージを表示装置626に表示させる。
6は、例えば、ユーザがキーボード628を使用して入
力した名前を定義するデータを受信すると、各参加者に
独自の参加者番号を割り当て、参加者番号と参加者の名
前との関係を定義するデータ、例えば、図24に示すテ
ーブル680を会議アーカイブデータベース660に格
納する。
6は頭部モデル記憶装置652を探索して、会議の参加
者ごとに頭部モデルを定義するデータが既に格納されて
いるか否かを判定する。
参加者について頭部モデルがまだ格納されていないと判
定されれば、ステップS308で、中央制御装置636
は表示プロセッサ664に、モデルがまだ格納されてい
ない各参加者の頭部モデルを定義するデータをユーザが
入力することを要求するメッセージを表示装置626に
表示させる。
スク638などの記憶媒体に格納されたデータとして要
求された頭部モデルを定義するデータを入力するか、又
は接続している処理装置から信号640としてこのデー
タをダウンロードすることによりデータを入力する。そ
のような頭部モデルは、例えば、Valente他の「An Analy
sis/Synthesis Cooperation for Head Tracking andVi
deo Face Cloning」(ProceedingsECCV’98Workshop o
n Perceptionof Human Action、ドイツ、フライブルク
大学、1998年6月6日に掲載)に記載されているよ
うな従来の方式で生成されれば良い。
6は、ユーザにより入力されたデータを頭部モデル記憶
装置652に格納する。
6及び表示プロセッサ664は、ユーザにより入力され
た各々の三次元コンピュータ頭部モデルをレンダリング
して、ユーザが各モデルにおいて少なくとも7つの特徴
を識別することを要求するメッセージと共に、モデルを
ユーザに対し表示装置626を介して表示する。
を使用して、参加者の頭部の正面、側面及び(可能であ
れば)背面にある顕著な特徴、例えば、目尻、鼻孔、
口、耳又は参加者がかけている眼鏡の特徴などに対応す
る点を各モデルで指定する。
6はユーザにより定義された特徴を頭部モデル記憶装置
652に格納する。
頭部モデルが頭部モデル記憶装置652に既に記憶され
ていると判定された場合には、ステップS308からS
314を省略する。
6は音声認識パラメータ記憶装置656を探索して、参
加者ごとに音声認識パラメータが既に格納されているか
否かを判定する。
て音声認識パラメータを利用できないと判定されれば、
ステップS318で、中央制御装置636は表示プロセ
ッサ664に、パラメータがまだ格納されていない各参
加者についてユーザが音声認識パラメータを入力するこ
とを要求するメッセージを表示装置626に表示させ
る。
スク638などの記憶媒体に格納されたデータとして又
は遠隔処理装置からの信号640として、必要な音声認
識パラメータを定義するデータを入力する。先に述べた
通り、これらのパラメータはユーザの音声のプロファイ
ルを定義し、音声認識プロセッサを従来の方式で訓練す
ることにより生成される。従って、例えば、Dragon Dic
tateを組み込んだ音声認識プロセッサの場合、ユーザに
より入力される音声認識パラメータはDragon Dictateの
「ユーザファイル」に格納されたパラメータに相当する。
6は、ユーザにより入力されたデータを音声認識パラメ
ータ記憶装置656に格納する。
音声認識パラメータが既に利用可能な状態になっている
と判定された場合には、ステップS318及びS320
を省略する。
6は表示プロセッサ664に、ユーザがカメラ602の
校正を可能にするためのステップを実行することを要求
するメッセージを表示装置626に表示させる。
を実行し、ステップS324では、中央制御装置636
はカメラ602を校正するための処理を実行する。すな
わち、この実施形態においては、ユーザにより実行され
るステップ及び中央制御装置636により実行される処
理は、Wiles及びDavisonの「Calibrating and3D Modell
ing with a Multi−Camera System」(1999IEEE Wor
kshop on Multi−ViewModelling and Analysis of Visu
al Scenes、ISBN 0769501109に掲載)に記載
されているような方式で実行される。これにより、会議
室に対するカメラ602の位置と向きを定義する校正デ
ータと、カメラの固有パラメータ(横縦比、焦点距離、
主点及び一次半径方向ひずみ係数)とが生成される。校
正データはメモリ642に格納される。
6は表示プロセッサ664に、会議の次の参加者(初め
てステップS326を実行する場合には、これは最初の
参加者である)が着席することを要求するメッセージを
表示装置626に表示させる。
に着席する時間を与えるために、処理装置624は所定
の時間待機し、その後、ステップS330で、中央制御
装置636はカメラ602からの画像データを処理し
て、着席した参加者の頭部の推定位置を判定する。すな
わち、この実施形態においては、中央制御装置636
は、参加者の肌の色に対応する色(この色は、頭部モデ
ル記憶装置652に格納されている参加者の頭部モデル
を定義するデータから判定される)を有する、カメラ6
02からの画像データの1フレーム中の各部分を識別す
るために従来通りの処理を実行し、次に、会議室内の最
も高い位置に相当する部分を選択する(頭部は人体の中
で最も高い位置にある肌色の部分であると想定されるた
め)。画像中の識別された部分の位置と、ステップS3
24で判定されたカメラ校正パラメータとを使用して、
中央制御装置636は従来の方式により頭部の三次元推
定位置を判定する。
6は参加者の頭部の三次元推定向きを判定する。すなわ
ち、この実施形態においては、中央制御装置636は頭
部モデル記憶装置652に格納されている参加者の頭部
の三次元コンピュータモデルを複数の異なる向きについ
てレンダリングして、向きごとにそれぞれ対応するモデ
ルの二次元画像を生成し、モデルの各二次元画像を参加
者の頭部を示す、カメラ602からの映像フレームの部
分と比較し、モデルの画像が映像データと最も良く整合
する向きを選択する。この実施形態では、参加者の頭部
のコンピュータモデルを108の異なる向きでレンダリ
ングして、カメラ602からの映像データと比較すべき
画像データを生成する。これらの向きは頭部モデルを0
°(正面を向いている)、+45°(上を向いている)
及び−45°(下を向いている)に相当する3つの頭部
の傾きのそれぞれについて10°ずつのステップで36
回回転させた向きに相当する。頭部モデルをレンダリン
グすることにより生成された画像データをカメラ602
からの映像データと比較するときには、例えば、Schod
l、Haro及びEssaの「Head Tracking Using a Textured P
olygonal Model」(Proceedings1998Workshop on Pe
rceptual User Interfacesに掲載)に記載されているよ
うな従来の技法を使用する。
で生成した参加者の頭部の推定位置と、ステップS33
2で生成した参加者の頭部の推定向きとを頭部追跡装置
650に入力し、カメラ602から受信した画像データ
のフレームを処理して、参加者の頭部を追跡する。すな
わち、この実施形態においては、頭部追跡装置650
は、例えば、Valente他の「An Analysis/Synthesis Coo
peration for Head Tracking andVideo Face Cloning」
(ProceedingsEECV’98Workshop on Perceptionof Hu
man Action、ドイツ、フライブルク大学、1998年6
月6日)に記載されているような従来の方式で頭部を追
跡するための処理を実行する。
置650により実行される処理動作の概要を示す。
は、頭部追跡装置650は参加者の頭部の現在推定3D
位置及び現在推定3D向きを読み取る。ステップS35
0を初めて実行する場合には、これらは図23のステッ
プS330及びS332で生成される推定位置及び推定
向きである。
0はステップS324で生成されたカメラ校正データを
使用して、頭部モデル記憶装置652に格納されている
参加者の頭部の三次元コンピュータモデルをステップS
350で読み取った推定位置及び推定向きに従ってレン
ダリングする。
0はカメラ602から受信された映像データの現在フレ
ームについて画像データを処理し、ユーザにより識別さ
れ、ステップS314で格納された頭部の特徴のうち1
つの特徴の期待位置を取り囲む各々の領域から画像デー
タを取り出す。それらの期待位置は、ステップS350
で読み取った推定位置及び推定向きと、ステップS32
4で生成されたカメラ校正データとから判定される。
0はステップS352でレンダリングし、生成した画像
データと、ステップS354で取り出したカメラ画像デ
ータとを整合し、レンダリングされた頭部モデルに最も
良く整合するカメラ画像データを見出す。
0は、ステップS356でレンダリングされた頭部モデ
ルに最も良く整合すると識別されたカメラ画像データを
使用して、映像データの現在フレームについて参加者の
頭部の3D位置及び3D向きを判定する。
ステップS360では、ステップS356で判定された
カメラ画像データにおける頭部の特徴の位置を従来のカ
ルマンフィルタに入力して、映像データの次のフレーム
について参加者の頭部の推定3D位置及び推定3D向きを
生成する。ビデオカメラ602から映像データのフレー
ムが受信されている間、その参加者についてステップS
350からS360を繰り加し実行する。
は、中央制御装置636は会議に他の参加者がいるか否
かを判定し、参加者ごとに先に説明したように処理が実
行され終わるまでステップS326からS336を繰り
返す。しかし、参加者ごとにこれらのステップを実行し
ている間、ステップS334では、頭部追跡装置650
は既に着席した各参加者の頭部を追跡し続けている。
加者はなく、従って、各参加者の頭部が頭部追跡装置6
50により追跡されていることが判定されると、ステッ
プS338で、中央制御装置636は、参加者間で会議
を始めて良いことを指示するために、処理装置624か
ら可聴信号を出力させる。
間に処理装置624により実行される処理動作を示す。
は、頭部追跡装置650は会議中の各参加者の頭部を追
跡し続ける。ステップS370で頭部追跡装置650に
より実行される処理は、先にステップS334に関して
説明した処理と同じであるので、ここでは説明を省略す
る。
各参加者の頭部を追跡しているのと同時に、ステップS
372では、データを生成し、会議アーカイブデータベ
ース660にデータを格納するための処理を実行する。
処理動作を示す。
は、アーカイブプロセッサ658は、参加者が誰を見て
いるかを定義するいわゆる「視線パラメータ」を参加者ご
とに生成する。
処理動作を示す。
は、アーカイブプロセッサ658は各参加者の頭部の現
在三次元位置を頭部追跡装置650から読み取る。これ
は、ステップS358(図25)で頭部追跡装置650
により実行される処理において生成された位置である。
ッサ658は次の参加者(初めてステップS412を実
行する場合には、これは最初の参加者である)の頭部の
現在向きを頭部追跡装置650から読み取る。ステップ
S412で読み取られる向きは、ステップS358(図
25)で頭部追跡装置650により実行される処理にお
いて生成された向きである。
ッサ658は、参加者がどこを見ているかを定義する線
(いわゆる「視線」)と、参加者の頭部を別の参加者の頭
部の中心と結ぶ概念上の各々の線とが成す角度を判定す
る。
明する。図29及び図30には、1人の参加者、すなわ
ち、図21の参加者610についてステップS414で
実行される処理の一例が示されている。図29を参照す
ると、ステップS412で読み取られる参加者の頭部の
向きは、その参加者の両目の中心の間の一点から出る、
参加者の頭部に対し垂直な視線690を定義する。同様
に、図30を参照すると、ステップS410で読み取ら
れる全ての参加者の頭部の位置は、参加者610の両目
の中心の間の一点から他の各々の参加者606、60
8、612の頭部の中心に至る概念上の線692、69
4、696を定義する。ステップS414では、アーカ
イブプロセッサ658は視線690と、概念上の線69
2、694、696とがそれぞれ成す角度698、70
0、702を判定する。
は、アーカイブプロセッサ658は最小値を有する角度
698、700又は702を選択する。すなわち、図3
0に示す例で言えば、角度700が選択されることにな
るであろう。
ッサ658は選択した角度が10°より小さいか否かを
判定する。
さいと判定されれば、アーカイブプロセッサ658は参
加者の視線パラメータを、視線と最小の角度を成す概念
上の線により結ばれている参加者の番号(図23のステ
ップS304で割り当てられている)に設定する。すな
わち、図30に示す例で言えば、角度700が10°よ
り小さい場合には、角度700は視線690と、参加者
610を参加者606と結ぶ概念上の線694とが成す
角度であるので、視線パラメータは参加者606の参加
者番号に設定されることになるであろう。
0°以上であると判定された場合には、ステップS42
2で、アーカイブプロセッサ658は参加者の視線パラ
メータを「0」に設定する。これは、視線690が概念上
の線692、694、696のいずれにも十分に近接し
ていないために、参加者はその他の参加者の誰も見てい
ないと判定されたことを示す。そのような状況は、例え
ば、参加者がメモ又は会議室内の他の何らかの物体を見
ているときに起こりうるであろう。
ッサ658は会議に他の参加者がいるか否かを判定し、
参加者ごとに上記の処理がそれぞれ実行され終わるまで
ステップS412からS424を繰り返す。
は、中央制御装置636及び音声認識プロセッサ654
は、映像データの現在フレームについてマイクロホン6
04から音声データが受信されたか否かを判定する。
れていると判定されれば、ステップS384で、アーカ
イブプロセッサ658はステップS380で生成された
視線パラメータを処理して、会議中のどの参加者が話を
しているかを判定する。
プロセッサ658により実行される処理動作を示す。
は、ステップS380で生成された各視線パラメータ値
の出現回数を判定し、ステップS442では、出現回数
が最も多い視線パラメータ値を選択する。すなわち、図
27のステップS380で実行される処理は、会議中の
参加者ごとに、映像データの現在フレームについて1つ
の視線パラメータ値を生成するのである(従って、図2
1に示す例では、4つの値が生成されることになるであ
ろう)。各視線パラメータは、その他の参加者のうち1
人の参加者番号に相当する値又は「0」を有する。従っ
て、ステップS440及びS442では、アーカイブプ
ロセッサ658は、ステップS380で生成された視線
パラメータ値の中で、映像データの現在フレームについ
て最も多くの回数で出現する値はどれであるかを判定す
る。
い視線パラメータが「0」の値を有するか否かを判定し、
「0」の値であれば、ステップS446で、次に出現回数
の多い視線パラメータ値を選択する。これに対し、ステ
ップS444で、選択された値が「0」ではないと判定さ
れた場合には、ステップS446を省略する。
ラメータ値(すなわち、ステップS442で選択された
値、又はその値が「0」であれば、ステップS446で選
択された値)を話をしている参加者として識別する。こ
れは、会議中の参加者の大半は話者である参加者を見て
いるからである。
は、アーカイブプロセッサ658は話者である参加者の
視線パラメータ値、すなわち、ステップS380で生成
された、話者である参加者が誰を見ているかを定義する
視線パラメータ値を後の解析に備えて、例えば、メモリ
642に格納する。
ッサ658はステップS384で判定された話者である
参加者のアイデンティティを音声認識プロセッサ654
に報知する。これに応答して、音声認識プロセッサ65
4は話者である参加者の音声認識パラメータを音声認識
パラメータ記憶装置656から選択し、選択したパラメ
ータを使用して、受信された音声データに対して音声認
識処理を実行し、話者である参加者が話した言葉に対応
するテキストデータを生成する。
声データが話し言葉を含まないと判定された場合には、
ステップS384からS388を省略する。
ッサ658はカメラ602から受信された映像データの
現在フレームと、マイクロホン604から受信された音
声データとを従来の方式でMPEG2データを符号化し、符
号化されたデータを会議アーカイブデータベース660
に格納する。
60へのデータの格納状態を概略的に示す。図32に示
す格納構造は概念的なものであり、単に理解を助けるた
めに例示を目的として提示されているにすぎない。従っ
て、図32に示す構造は、データが実際に会議アーカイ
ブデータベース660に格納される厳密な状態を必ずし
も表してはいない。
タベース660は水平軸800により表される時間情報
を格納している。水平軸800に沿った各単位は所定の
量の時間、例えば、カメラ602から受信される映像デ
ータの1つのフレームを表している。ステップS390
で生成されるMPEG2データは、時間情報と共に、データ
802として会議アーカイブデータベース660に格納
されている(この時間情報は、図32には、水平軸80
0に沿ったMPEG2データ802の位置により概略的に表
されている)。
は、アーカイブプロセッサ658は、現在フレームにつ
いてステップS388で音声認識プロセッサ654によ
り生成されたテキストデータを会議アーカイブデータベ
ース660に格納する(図32には804で示されてい
る)。すなわち、テキストデータは対応するMPEG2デー
タへのリンクを伴って格納される。このリンクは、図3
2には、テキストデータがMPEG2データと同じ縦列に格
納されることによって表されている。話をしていない参
加者からは格納すべきテキストデータが得られないこと
は理解されるであろう。図32に示す例では、初めの1
0個のタイムスロットにわたり参加者1についてテキス
トが格納され(806で示す)、12番目から20番目
のタイムスロットには参加者3のテキストが格納され
(808で示す)、21番目のタイムスロットには参加
者4のテキストが格納されている(810で示す)。こ
の例では、図32に示すタイムスロットの間、参加者2
は話をしなかったので、参加者2のテキストは格納され
ていない。
ッサ658は、ステップS380で生成された参加者ご
との視線パラメータ値を会議アーカイブデータベース6
60に格納する(図32には812で示す)。図32を
参照すると、視線パラメータ値は、参加者ごとに、関連
するMPEG2データ802及び関連するテキストデータ8
04へのリンクと共に格納されている(このリンクは、
図32では、視線パラメータ値が関連するMPEG2データ
802及び関連するテキストデータ804と同じ縦列に
格納されることにより示されている)。従って、一例と
して第1のタイムスロットに関して言えば、参加者1の
視線パラメータ値は、参加者1が参加者3を見ているこ
とを指示する「3」であり、参加者2の視線パラメータ値
は、参加者2が参加者1を見ていることを指示する「1」
であり、参加者3の視線パラメータ値も、参加者3が同
様に参加者1を見ていることを指示する「1」であり、参
加者4の視線パラメータ値は、参加者4が他のどの参加
者も見ていない(図21に示す例では、612で示され
る参加者は他の参加者ではなく、自分のメモを見てい
る)ことを指示する「0」である。
6及びアーカイブプロセッサ658は、会議中の参加者
の1人が話を止めたか否かを判定する。この実施形態に
おいては、この検査は、所定の参加者のテキストデータ
が直前のタイムスロットには存在したが、現在タイムス
ロットには存在しないことを判定するためにテキストデ
ータ804を検査することにより実行される。ある参加
者についてこの条件が満たされれば(すなわち、参加者
が話を止めたならば)、ステップS398で、アーカイ
ブプロセッサ658は、話を止めた参加者について、先
にステップS386を実行したときに格納されていた視
線パラメータ値を処理して(それらの視線パラメータ値
は、その時点で止まった話をしていた期間中にその参加
者が誰を見ていたかを定義する)、視線ヒストグラムを
定義するデータを生成する。すなわち、参加者が話をし
ていた期間の視線パラメータ値を処理して、その期間中
に話者である参加者がその他の参加者の各々を見ていた
時間の割合(%)を定義するデータを生成するのであ
る。
06及び808の期間にそれぞれ対応する視線ヒストグ
ラムを示す。
と、参加者1が話していた期間806の間、図33Aに
900で示すように、参加者1は10個のタイムスロッ
トのうち6個(すなわち、参加者1が話していた期間全
体の長さの60%)にわたり参加者3を見ており、ま
た、図33Aに910で示すように、4個のタイムスロ
ット(すなわち、時間の40%)にわたり参加者4を見
ていた。
と、期間808の間、図33Bに920で示すように、
参加者3は時間の約45%にわたり参加者1を見てお
り、図33Bに930で示すように、時間の約33%に
わたり参加者4を見ており、図33Bに940で示すよ
うに、時間の約22%にわたり参加者2を見ていた。
は、ステップS398で生成された視線ヒストグラムを
それが生成された関連するテキストの期間にリンクさせ
て、会議アーカイブデータベース660に格納する。図
32を参照すると、格納された視線ヒストグラムは81
4で示されており、816で示されるテキスト期間80
6に対応するヒストグラムを定義するデータと、818
で示されるテキスト期間808に対応するヒストグラム
を定義するデータとを伴う。図32において、視線ヒス
トグラムと関連するテキストとの間のリンクは、視線ヒ
ストグラムがテキストデータと同じ縦列に格納されるこ
とにより示されている。
いて、参加者の1人が話を止めていないと判定された場
合には、ステップS398及びS400を省略する。
6は、カメラ602から映像データの別のフレームが受
信されたか否かを判定する。カメラ602から画像デー
タが受信されている間は、ステップS380からS40
2を繰り返し実行する。
タが格納されている場合、会議に関連するデータを検索
するために会議アーカイブデータベース660を問い合
わせても良い。
準を満たす会議の各部分に関連するデータを検索する目
的で会議アーカイブデータベース660を探索するため
に実行される処理動作を示す。
は、中央制御装置636は表示プロセッサ664に、要
求される会議アーカイブデータベース660の探索を定
義する情報をユーザが入力することを要求するメッセー
ジを表示装置626に表示させる。すなわち、この実施
形態においては、中央制御装置636は図35Aに示す
表示を表示装置626に出現させる。
ーカイブデータベース660の中で見出したい会議の1
つ又は複数の部分を定義する情報を入力することを求め
られる。すなわち、この実施形態においては、ユーザは
話をしていた参加者を定義する情報1000と、情報1
000の中で識別される参加者が話した1つ又は複数の
キーワードから成る情報1010と、情報1000の中
で識別される参加者が話しかけていた参加者を定義する
情報1020とを入力することを求められる。更に、ユ
ーザは、探索を実行すべき会議の1つ又は複数の部分を
定義する時間情報を入力することができる。すなわち、
ユーザは、その時間を越えたときに探索を中断すべき会
議中の時間(すなわち、指定される時間以前の会議の期
間を探索すべきである)を定義する情報1030と、そ
の時間の後に探索を実行すべきである会議中の時間を定
義する情報1040と、探索を実行すべき期間の開始時
間と終了時間をそれぞれ定義する情報1050及び10
60とを入力することができる。この実施形態では、情
報1030、1040、1050及び1060は、例え
ば、分単位などの絶対期限で時間を指定するか、又は会
議時間全体に占める割合を指示する小数値を入力するこ
とにより相対期限で時間を指定するかのいずれかにより
入力されれば良い。例えば、情報1030として0.2
5の値を入力すると、探索は会議の初めの四分の一に限
られるであろう。
際して全ての情報1000、1010及び1020を入
力することを求められるわけではなく、そのうち1つ又
は2つの情報を省いても良い。ユーザが情報1000、
1010及び1020の全てを入力すれば、会議中に情
報1000の中で識別される参加者が情報1020の中
で識別される参加者に話しかけていた各部分及び情報1
010の中で定義されるキーワードを話していた各部分
を識別するための探索が実行される。これに対し、情報
1010を省いた場合には、会議中に情報1000の中
で識別される参加者が、何を言ったかに関わらず、情報
1020の中で定義される参加者に話しかけていた各部
分を識別するための探索が実行されることになる。情報
1010及び1020を省いた場合には、会議中に情報
1000の中で定義される参加者が何を誰に向かって話
したかに関わらず、話をしていた各部分を識別するため
の探索が実行される。情報1000を省いた場合には、
会議中にいずれかの参加者が情報1010の中で定義さ
れるキーワードを情報1020の中で定義される参加者
に向かって話した各部分を識別するための探索が実行さ
れる。情報1000及び1010を省いた場合には、会
議中にいずれかの参加者が情報1020の中で定義され
る参加者に話しかけた各部分を識別するための探索が実
行される。情報1020を省いた場合には、会議中に情
報1000の中で定義される参加者が、誰に向かって話
したかに関わらず、情報1010の中で定義されるキー
ワードを話した各部分を識別するための探索が実行され
る。同様に、情報1000及び1020を省いた場合に
は、会議中に、誰が誰に向かって話したかに関わらず、
情報1010の中で識別されるキーワードが話された各
部分を識別するための探索が実行される。
0、1050及び1060の全てを入力しても良いし、
そのうち1つ又は複数の情報を省いても良い。
力したならば、ユーザは、マウス630などのユーザ入
力装置を使用して領域1070をクリックすることによ
り探索を開始する。
は、中央制御装置636はユーザにより入力された探索
情報を読み取り、命令された探索を実行する。すなわ
ち、この実施形態においては、中央制御装置636は情
報1000又は1020の中で入力された参加者の名前
をテーブル680(図24)を使用して参加者番号に変
換し、情報1000の中で定義される参加者(情報10
00が入力されていない場合には全ての参加者)につい
てテキスト情報804を考慮する。ユーザにより情報1
020が入力されていれば、テキストの期間ごとに、中
央制御装置636は対応する視線ヒストグラムを定義す
るデータを検査して、情報1020の中で定義される参
加者のヒストグラムにおける注目時間の割合がこの実施
形態では25%である閾値以上であるか否かを判定す
る。このようにして、話し言葉(テキスト)の期間を考
慮して、話者である参加者が話している時間の少なくと
も25%にわたって情報1020の中で定義される参加
者を見ていたならば、情報1000の中で定義される参
加者が話をしている間に他の参加者を見たとしても、情
報1020の中で定義される参加者に話しかけていたと
いう基準を満たす。従って、情報1020の中で2人以
上の参加者が指定されていれば、視線ヒストグラムの値
が2人以上の参加者について25%以上であるような話
の期間が識別されるであろう。ユーザにより情報101
0が入力されていた場合、中央制御装置636及びテキ
ストサーチャ662は、先に情報1000及び1020
に基づいて識別されたテキストの各部分(情報1000
及び1020が入力されていなければテキストの全ての
部分)を探索して、情報1010の中で識別されるキー
ワードを含む各部分を識別する。ユーザにより時間情報
が入力されていた場合、上記の探索はそれらの期限によ
り定義される会議の時間に限られる。
6は表示プロセッサ664に、探索中に識別された関連
話題のリストを表示装置626を介してユーザに対し表
示させる。すなわち、中央制御装置636は図35Bに
示すような情報をユーザに対し表示させる。図35Bを
参照すると、探索パラメータを満足させるそれぞれの話
題のリストが作成されており、その話題について開始時
間を絶対期限と、会議時間全体に占める割合の双方で定
義する情報が表示される。そこで、ユーザは、マウス6
30を使用してリスト中の必要な話題をクリックするこ
とにより、話題の1つを選択し、再生することができ
る。
6はステップS504でユーザにより実行された選択を
読み取り、格納されている会議の関連部分のMPEG2デー
タ802を会議アーカイブデータベース660から再生
させる。すなわち、中央制御装置636及び表示プロセ
ッサ664はMPEG2データ802を復号し、画像データ
と音声を表示装置626を介して出力する。
6は、ユーザが会議アーカイブデータベース660の問
い合わせを中止することを望むか否かを判定し、望まな
いのであれば、ステップS500からS508を繰り返
す。
々な変形や変更を実施することができる。
ン604は会議室のテーブルの上に設けられていた。し
かし、その代わりに、ビデオカメラ602のマイクロホ
ンを使用して音声データを記録しても良い。
602からの画像データを処理していた。しかし、各参
加者の頭部の追跡精度を向上させるために、複数台のビ
デオカメラからの映像データを処理しても良い。例え
ば、複数台のカメラからの画像データを図25のステッ
プS350からS356におけるように処理し、全ての
カメラから得られたデータをステップS360で従来の
ようにカルマンフィルタに入力して、カメラごとに映像
データの次のフレームにおける各参加者の頭部の位置と
向きを更に正確に推定しても良い。複数台のカメラを使
用する場合、会議アーカイブデータベース660に格納
されるMPEG2データ802は全てのカメラからの映像デ
ータということになり、図34のステップS504及び
S506では、ユーザが選択した1台のカメラからの画
像データが再生される。
パラメータは、その参加者が他のどの参加者を見ている
かを定義していた。しかし、参加者が表示板、映写機の
スクリーンなどのどの物体を見ているかを定義するため
に視線パラメータを使用しても良い。この場合、会議ア
ーカイブデータベース660を問い合わせるときに、図
35Aの情報1020を利用して、参加者が話している
間に誰を又は何を見ていたかを指定することが可能にな
るであろう。
(図34)で、テキストの特定の部分の視線ヒストグラ
ムを考慮し、視線ヒストグラムにおける別の参加者への
注目時間の割合が所定の閾値以上である場合に、参加者
はその別の参加者に話しかけていたと判定していた。し
かし、閾値を使用せずに、テキストの期間中に話者であ
る参加者が見ていた参加者を視線ヒストグラムにおいて
最も大きな割合の注目値を有する参加者(例えば、図3
3Aの参加者3及び図33Bの参加者1)であると定義し
ても良い。
イクロホン604からデータが受信されている間、MPEG
2データ802、テキストデータ804、視線パラメー
タ812及び視線ヒストグラム814をリアルタイムで
会議アーカイブデータベース660に格納していた。し
かし、映像データと音声データを格納しておき、データ
802、804、812及び814をリアルタイムでは
なく生成し、会議アーカイブデータベース660に格納
しても良い。
分のデータを検索するために会議アーカイブデータベー
ス660を問い合わせる前に、MPEG2データ802、テ
キストデータ804、視線パラメータ812及び視線ヒ
ストグラム814を生成し、会議アーカイブデータベー
ス660に格納していた。しかし、探索の要求に先立っ
てデータを生成、格納するのではなく、会議アーカイブ
データベース660の探索がユーザにより要求されるの
に応答して、格納されているMPEG2データ802を処理
することによりデータ804、812及び814の一部
又は全てを生成しても良い。例えば、上記の実施形態で
は、ステップS398及びS400(図27)で視線ヒ
ストグラム814をリアルタイムで計算、格納していた
が、ユーザにより探索要求が入力されるのに応答してそ
れらのヒストグラムを計算することもできるであろう。
4を会議アーカイブデータベース660に格納してい
た。テキストデータ804の代わりに、音声データを会
議アーカイブデータベース660に格納しても良い。そ
の場合、格納されている音声データ自体を音声認識処理
を使用してキーワードを求めて探索するか、又は音声認
識処理を使用して音声データをテキストに変換し、従来
のテキストサーチャを使用してテキストを探索すれば良
い。
ーカイブすべきデータを受信し、生成するための機能構
成要素(例えば、中央制御装置636、頭部追跡装置6
50、頭部モデル記憶装置652、音声認識プロセッサ
654、音声認識パラメータ記憶装置656及びアーカ
イブプロセッサ658)と、アーカイブデータを格納す
るための機能構成要素(例えば、会議アーカイブデータ
ベース660)と、データベースを探索し、そこから情
報を検索するための機能構成要素(例えば、中央制御装
置636及びテキストサーチャ662)とを含んでい
た。しかし、これらの機能構成要素を別個の装置に設け
ても良い。例えば、アーカイブすべきデータを生成する
1つ又は複数の装置と、データベース探索のための1つ
又は複数の装置とを、インターネットなどのネットワー
クを介して1つ又は複数のデータベースに接続しても良
い。
所又は複数箇所での会議1100、1110、1120
からの映像データと音声データをデータ処理・データベ
ース記憶装置1130(アーカイブデータを生成し且つ
格納するための機能構成要素を具備する)に入力し、デ
ータベースを問い合わせ、そこから情報を検索するため
に、1つ又は複数のデータベース問い合わせ装置114
0、1150をデータ処理・データベース記憶装置11
30に接続しても良い。
により定義される処理ルーチンを使用して、コンピュー
タにより処理を実行していた。しかし、処理の一部又は
全てをハードウェアを使用して実行しても良い。
関して実施形態を説明したが、本発明はこの用途には限
定されず、フィルムセットなどについて画像データ及び
音声データを処理するなど、他の用途にも適用すること
ができる。
でもなく可能であり、本発明の趣旨から逸脱せずにその
他の変更や変形を実施することができる。
議からの音声データ及び映像データの記録を示す図であ
る。
構成要素の一例を示すブロック線図である。
2の処理装置24により実行される処理動作を示す図で
ある。
2の処理装置24により実行される処理動作を示す図で
ある。
2の処理装置24により実行される処理動作を示す図で
ある。
アーカイブデータベース60に格納されるデータを概略
的に示す図である。
0で実行される処理動作を示す図である。
2−nのそれぞれで実行される処理動作を示す図であ
る。
装置24により実行される処理動作を示す図である。
を示す図である。
を示す図である。
を示す図である。
を示す図である。
4で実行される処理で使用する参加者の視線を示す図で
ある。
おいて計算される角度を示す図である。
を示す図である。
を示す図である。
動作を示す図である。
格納を概略的に示す図である。
れたデータにより定義される視線ヒストグラムの例を示
す図である。
れたデータにより定義される視線ヒストグラムの例を示
す図である。
作を示す図である。
検索するために処理装置24により実行される処理動作
を示す図である。
表示される情報を示す図である。
表示される情報の一例を示す図である。
を格納し、1つ又は複数の遠隔装置からこのデータベー
スを問い合わせる第1の実施形態の変形例を概略的に示
す図である。
会議からの音声データ及び映像データの記録を示す図で
ある。
能構成要素の一例を示すブロック線図である。
に図22の処理装置624により実行される処理動作を
示す図である。
に図22の処理装置624により実行される処理動作を
示す図である。
に図22の処理装置624により実行される処理動作を
示す図である。
データベース660に格納されるデータを概略的に示す
図である。
動作を示す図である。
処理装置624により実行される処理動作を示す図であ
る。
理動作を示す図である。
理動作を示す図である。
動作を示す図である。
で使用する参加者の視線を示す図である。
において計算される角度を示す図である。
動作を示す図である。
の格納を概略的に示す図である。
されたデータにより定義される視線ヒストグラムの例を
示す図である。
されたデータにより定義される視線ヒストグラムの例を
示す図である。
を検索するために処理装置624により実行される処理
動作を示す図である。
表示される情報を示す図である。
表示される情報の一例を示す図である。
を格納し、1つ又は複数の遠隔装置からこのデータベー
スを問い合わせる第2の実施形態の変形例を概略的に示
す図である。
Claims (82)
- 【請求項1】 画像データ及び音声データを処理する装
置であって、 少なくとも1台のカメラにより記録され且つ複数の人物
の動きを示す画像データを処理して、各人物を三次元で
追跡する画像処理手段と、 音声データを処理して、音声の到達方向を判定する音声
処理手段と、 画像処理手段により実行される処理の結果と、音声処理
手段により実行される処理の結果とに基づいて、どの人
物が話しているかを判定する話者識別手段と、 受信した音声データを処理して、話者識別手段により実
行される処理の結果に従って音声データからテキストデ
ータを生成する音声認識処理手段とを備えることを特徴
とする装置。 - 【請求項2】 音声認識処理手段は、人物ごとの対応す
る音声認識パラメータを格納する記憶手段と、話者識別
手段により話していると判定された人物に従って音声デ
ータを処理するために使用すべき音声認識パラメータを
選択する手段とを含むことを特徴とする請求項1記載の
装置。 - 【請求項3】 画像処理手段は、処理される画像データ
を提供する各カメラの位置と向きを定義するカメラ校正
データを使用して画像データを処理することにより各人
物を追跡するように構成されていることを特徴とする請
求項1又は2記載の装置。 - 【請求項4】 画像処理手段は、各人物の頭部を追跡す
ることにより各人物を追跡するように構成されているこ
とを特徴とする請求項1乃至3のいずれか1項に記載の
装置。 - 【請求項5】 画像処理手段は、少なくとも話をしてい
る各人物がどこを見ているかを判定するために画像デー
タを処理するように構成されていることを特徴とする請
求項1乃至4のいずれか1項に記載の装置。 - 【請求項6】 話者識別手段は、受信した画像データの
所定のフレームについて画像処理手段及び音声処理手段
により実行される処理の結果を使用して話者を識別でき
ない場合、少なくとも1つの他のフレームに対して画像
処理手段及び音声処理手段により実行される処理の結果
を使用して所定のフレームにおいて話をしている人物を
識別するように構成されていることを特徴とする請求項
1乃至5のいずれか1項に記載の装置。 - 【請求項7】 受信した画像データ、音声データ、音声
認識処理手段により生成されるテキストデータ、及び少
なくとも話をしている各人物がどこを見ているかを定義
する視線データの少なくとも一部を格納するデータベー
スを更に具備し、前記データベースは、対応するテキス
トデータと視線データとが互いに関連すると共に、対応
する画像データ及び音声データとも関連するようにデー
タを格納する構成であることを特徴とする請求項1乃至
6のいずれか1項に記載の装置。 - 【請求項8】 データベースに格納するために、画像デ
ータ及び音声データを圧縮する手段を更に具備すること
を特徴とする請求項7記載の装置。 - 【請求項9】 画像データ及び音声データを圧縮する手
段は、画像データ及び音声データをMPEGデータとして符
号化する手段であることを特徴とする請求項8記載の装
置。 - 【請求項10】 所定の期間にわたり、その所定の期間
中に所定の人物がその他の人物の各々を見るのに費やし
た時間の割合を定義するデータを生成する手段を更に具
備し、データベースは、そのデータが対応する画像デー
タ、音声データ、テキストデータ及び視線データと関連
するようにデータを格納する構成であることを特徴とす
る請求項7乃至9のいずれか1項に記載の装置。 - 【請求項11】 所定の期間は所定の人物が話をしてい
た期間である請求項10記載の装置。 - 【請求項12】 画像データ及び音声データを処理する
装置において、 少なくとも1台のカメラにより記録され且つ複数の人物
の動きを示す画像データを処理して、各人物を三次元で
追跡する画像処理手段と、 音声データを処理して、音声の到達方向を判定する音声
処理手段と、 画像処理手段により実行される処理の結果と、音声処理
手段により実行される処理の結果とに基づいて、どの人
物が話しているかを判定する話者識別手段とを具備する
ことを特徴とする装置。 - 【請求項13】 画像処理手段は、処理される画像デー
タを提供する各カメラの位置と向きを定義するカメラ校
正データを使用して画像データを処理することにより各
人物を追跡するように構成されていることを特徴とする
請求項12記載の装置。 - 【請求項14】 画像処理手段は、各人物の頭部を追跡
することにより各人物を追跡するように構成されている
ことを特徴とする請求項12又は13に記載の装置。 - 【請求項15】 画像処理手段は、少なくとも話をして
いる各人物がどこを見ているかを判定するために画像デ
ータを処理するように構成されていることを特徴とする
請求項12乃至14のいずれか1項に記載の装置。 - 【請求項16】 話者識別手段は、受信した画像データ
の所定のフレームについて画像処理手段及び音声処理手
段により実行される処理の結果を使用して話者を識別で
きない場合、少なくとも1つの他のフレームに対して画
像処理手段及び音声処理手段により実行される処理の結
果を使用して所定のフレームにおいて話をしている人物
を識別するように構成されていることを特徴とする請求
項12乃至15のいずれか1項に記載の装置。 - 【請求項17】 画像データ及び音声データを処理する
方法において、 少なくとも1台のカメラにより記録され且つ複数の人物
の動きを示す画像データを処理して、各人物を三次元で
追跡する画像処理ステップと、 音声データを処理して、音声の到達方向を判定する音声
処理ステップと、 画像処理ステップで実行される処理の結果と、音声処理
ステップで実行される処理の結果とに基づいて、どの人
物が話しているかを判定する話者識別ステップと、 受信した音声データを処理して、話者識別ステップで実
行される処理の結果に従って音声データからテキストデ
ータを生成する音声認識処理ステップとを備えることを
特徴とする方法。 - 【請求項18】 音声認識処理ステップは、人物ごとに
格納されている音声認識パラメータからと、話者識別ス
テップで話していると判定された人物に従って音声デー
タを処理するために使用すべき音声認識パラメータを選
択することを含むことを特徴とする請求項17記載の方
法。 - 【請求項19】 画像処理ステップでは、処理される画
像データを提供する各カメラの位置と向きを定義するカ
メラ校正データを使用して画像データを処理することに
より各人物を追跡することを特徴とする請求項17又は
18記載の方法。 - 【請求項20】 画像処理ステップでは、各人物の頭部
を追跡することにより各人物を追跡することを特徴とす
る請求項17乃至19のいずれか1項に記載の方法。 - 【請求項21】 画像処理ステップでは、少なくとも話
をしている各人物がどこを見ているかを判定するために
画像データを処理することを特徴とする請求項17乃至
20のいずれか1項に記載の方法。 - 【請求項22】 話者識別ステップでは、受信した画像
データの所定のフレームについて画像処理ステップ及び
音声処理ステップにより実行される処理の結果を使用し
て話者を識別できない場合、少なくとも1つの他のフレ
ームに対して画像処理ステップ及び音声処理ステップに
より実行される処理の結果を使用して所定のフレームに
おいて話をしている人物を識別することを特徴とする請
求項17乃至21のいずれか1項に記載の方法。 - 【請求項23】 音声認識処理ステップで生成されるデ
ータを搬送する信号を発生するステップを更に含むこと
を特徴とする請求項17乃至22のいずれか1項に記載
の方法。 - 【請求項24】 受信した画像データ、音声データ、音
声認識処理ステップにより生成されるテキストデータ、
及び少なくとも話をしている各人物がどこを見ているか
を定義する視線データの少なくとも一部をデータベース
に格納するステップを更に含み、データは、対応するテ
キストデータと視線データとが互いに関連すると共に、
対応する画像データ及び音声データとも関連するように
データベースに格納されることを特徴とする請求項17
乃至23のいずれか1項に記載の方法。 - 【請求項25】 画像データ及び音声データは圧縮され
た形態でデータベースに格納されることを特徴とする請
求項24記載の方法。 - 【請求項26】 画像データ及び音声データはMPEGデー
タとして格納されることを特徴とする請求項25記載の
方法。 - 【請求項27】 所定の期間にわたり、その所定の期間
中に所定の人物がその他の人物の各々を見るのに費やし
た時間の割合を定義するデータを生成するステップと、
そのデータが対応する画像データ、音声データ、テキス
トデータ及び視線データと関連するようにデータをデー
タベースに格納するステップとを更に含むことを特徴と
する請求項24乃至26のいずれか1項に記載の方法。 - 【請求項28】 所定の期間は所定の人物が話をしてい
た期間であることを特徴とする請求項27記載の方法。 - 【請求項29】 データベースを格納されているデータ
と共に搬送する信号を発生するステップを更に含むこと
を特徴とする請求項24乃至28のいずれか1項に記載
の方法。 - 【請求項30】 信号の記録を生成するために信号を直
接に又は間接的に記録するステップを更に含むことを特
徴とする請求項29記載の方法。 - 【請求項31】 画像データ及び音声データを処理する
方法において、 少なくとも1台のカメラにより記録され且つ複数の人物
の動きを示す画像データを処理して、各人物を三次元で
追跡する画像処理ステップと、 音声データを処理して、音声の到達方向を判定する音声
処理ステップと、 画像処理ステップにより実行される処理の結果と、音声
処理ステップにより実行される処理の結果とに基づい
て、どの人物が話しているかを判定する話者識別ステッ
プとを備えることを特徴とする方法。 - 【請求項32】 画像処理ステップでは、処理される画
像データを提供する各カメラの位置と向きを定義するカ
メラ校正データを使用して画像データを処理することに
より各人物を追跡することを特徴とする請求項31記載
の方法。 - 【請求項33】 画像処理ステップでは、各人物の頭部
を追跡することにより各人物を追跡することを特徴とす
る請求項31又は32記載の方法。 - 【請求項34】 画像処理ステップでは、少なくとも話
をしている各人物がどこを見ているかを判定するために
画像データを処理することを特徴とする請求項31乃至
33のいずれか1項に記載の方法。 - 【請求項35】 話者識別ステップでは、受信した画像
データの所定のフレームについて画像処理ステップ及び
音声処理ステップにより実行される処理の結果を使用し
て話者を識別できない場合、少なくとも1つの他のフレ
ームに対して画像処理ステップ及び音声処理ステップに
より実行される処理の結果を使用して所定のフレームに
おいて話をしている人物を識別することを特徴とする請
求項31乃至34のいずれか1項に記載の方法。 - 【請求項36】 話者識別ステップで識別された話者の
アイデンティティを搬送する信号を発生するステップを
更に含むことを特徴とする請求項31乃至35のいずれ
か1項に記載の方法。 - 【請求項37】 プログラム可能処理装置を請求項1乃
至16の少なくとも1項に記載の装置として構成させる
ための命令を格納することを特徴とする記憶装置。 - 【請求項38】 プログラム可能処理装置を請求項17
乃至36の少なくとも1項に記載の方法を実行するよう
に動作可能にさせるための命令を格納することを特徴と
する記憶装置。 - 【請求項39】 プログラム可能処理装置を請求項1乃
至16の少なくとも1項に記載の装置として構成させる
ための命令を搬送することを特徴とする信号。 - 【請求項40】 プログラム可能処理装置を請求項17
乃至36の少なくとも1項に記載の方法を実行するよう
に動作可能にさせるための命令を搬送することを特徴と
する信号。 - 【請求項41】 画像データ及び音声データを処理する
装置であって、 少なくとも1台のカメラにより記録され且つ複数の人物
の動きを示す画像データを処理して、各人物がどこを見
ているかを判定すると共に、複数の人物がどこを見てい
るかに基づいてどの人物が話しているかを判定する画像
処理手段と、 人物が話した言葉を定義する音声データを処理して、画
像処理手段により実行される処理の結果に従って音声デ
ータからテキストデータを生成する音声処理手段とを備
えることを特徴とする装置。 - 【請求項42】 音声処理手段は、人物ごとの対応する
音声認識パラメータを格納する記憶手段と、画像処理手
段により話をしていると判定された人物に従って音声デ
ータを処理するために使用すべき音声認識パラメータを
選択する手段とを含むことを特徴とする請求項41記載
の装置。 - 【請求項43】 画像処理手段は、処理される画像デー
タを提供する各カメラの位置と向きを定義するカメラ校
正データを使用して画像データを処理することにより、
各人物がどこを見ているかを判定するように構成されて
いることを特徴とする請求項41又は42記載の装置。 - 【請求項44】 画像処理手段は、各人物の頭部の位置
と向きを三次元で追跡するために画像データを処理する
ことにより、各人物がどこを見ているかを判定するよう
に構成されていることを特徴とする請求項41乃至43
のいずれか1項に記載の装置。 - 【請求項45】 画像処理手段は、各々の人物を見てい
る人物の数に基づいてどの人物が話をしているかを判定
するように構成されていることを特徴とする請求項41
乃至44のいずれか1項に記載の装置。 - 【請求項46】 画像処理手段は、各人物が誰を見てい
るかを定義する値を人物ごとに生成し且つそれらの値を
処理して、話をしている人物を判定するように構成され
ていることを特徴とする請求項45記載の装置。 - 【請求項47】 画像処理手段は、話をしている人物が
他の人物の大半が見ている人物であることを判定するよ
うに構成されていることを特徴とする請求項41乃至4
6のいずれか1項に記載の装置。 - 【請求項48】 画像データ、音声データ、音声処理手
段により生成されるテキストデータ、及び各人物がどこ
を見ているかを定義する視線データを格納するデータベ
ースを更に備え、前記データベースは、対応するテキス
トデータと視線データとが互いに関連すると共に、対応
する画像データ及び音声データとも関連するようにデー
タを格納する構成であることを特徴とする請求項41乃
至47のいずれか1項に記載の装置。 - 【請求項49】 データベースに格納するために、画像
データ及び音声データを圧縮する手段を更に備えること
を特徴とする請求項48記載の装置。 - 【請求項50】 画像データ及び音声データを圧縮する
手段は、画像データ及び音声データをMPEGデータとして
符号化する手段であることを特徴とする請求項49記載
の装置。 - 【請求項51】 所定の期間にわたり、その所定の期間
中に所定の人物がその他の人物の各々を見るのに費やし
た時間の割合を定義するデータを生成する手段を更に備
え、データベースは、そのデータが対応する画像デー
タ、音声データ、テキストデータ及び視線データと関連
するようにデータを格納する構成であることを特徴とす
る請求項48乃至50のいずれか1項に記載の装置。 - 【請求項52】 所定の期間は所定の人物が話をしてい
た期間であることを特徴とする請求項51記載の装置。 - 【請求項53】 画像データを処理する装置において、
少なくとも1台のカメラにより記録され且つ複数の人物
の動きを示す画像データを処理して、各人物がどこを見
ているかを判定すると共に、複数の人物がどこを見てい
るかに基づいてどの人物が話しているかを判定する画像
処理手段を備えることを特徴とする装置。 - 【請求項54】 画像処理手段は、処理される画像デー
タを提供する各カメラの位置と向きを定義するカメラ校
正データを使用して画像データを処理することにより、
各人物がどこを見ているかを判定するように構成されて
いることを特徴とする請求項53記載の装置。 - 【請求項55】 画像処理手段は、各人物の頭部の位置
と向きを三次元で追跡するために画像データを処理する
ことにより、各人物がどこを見ているかを判定するよう
に構成されていることを特徴とする請求項53又は54
記載の装置。 - 【請求項56】 画像処理手段は、各々の人物を見てい
る人物の数に基づいてどの人物が話をしているかを判定
するように構成されていることを特徴とする請求項53
乃至55のいずれか1項に記載の装置。 - 【請求項57】 画像処理手段は、各人物が誰を見てい
るかを定義する値を人物ごとに生成し且つそれらの値を
処理して、話をしている人物を判定するように構成され
ていることを特徴とする請求項56記載の装置。 - 【請求項58】 画像処理手段は、話をしている人物が
他の人物の大半が見ている人物であることを判定するよ
うに構成されていることを特徴とする請求項53乃至5
7のいずれか1項に記載の装置。 - 【請求項59】 画像データ及び音声データを処理する
方法において、 少なくとも1台のカメラにより記録され且つ複数の人物
の動きを示す画像データを処理して、各人物がどこを見
ているかを判定すると共に、複数の人物がどこを見てい
るかに基づいてどの人物が話しているかを判定する画像
処理ステップと、 人物が話した言葉を定義する音声データを処理して、画
像処理手段により実行される処理の結果に従って音声デ
ータからテキストデータを生成する音声処理ステップと
を備えることを特徴とする方法。 - 【請求項60】 音声処理ステップは、人物ごとに格納
されているそれぞれの音声認識パラメータから、画像処
理ステップで話をしていると判定された人物に従って音
声データを処理するために使用すべき音声認識パラメー
タを選択するステップを含むことを特徴とする請求項5
9記載の方法。 - 【請求項61】 画像処理ステップでは、処理される画
像データを提供する各カメラの位置と向きを定義するカ
メラ校正データを使用して画像データを処理することに
より、各人物がどこを見ているかを判定することを特徴
とする請求項59又は60記載の方法。 - 【請求項62】 画像処理ステップでは、各人物の頭部
の位置と向きを三次元で追跡するために画像データを処
理することにより、各人物がどこを見ているかを判定す
ることを特徴とする請求項59乃至61のいずれか1項
に記載の方法。 - 【請求項63】 画像処理ステップでは、各々の人物を
見ている人物の数に基づいてどの人物が話をしているか
を判定することを特徴とする請求項59乃至62のいず
れか1項に記載の方法。 - 【請求項64】 画像処理ステップでは、各人物が誰を
見ているかを定義する値を人物ごとに生成し且つそれら
の値を処理して、話をしている人物を判定することを特
徴とする請求項63記載の方法。 - 【請求項65】 画像処理ステップでは、話をしている
人物が他の人物の大半が見ている人物であることを判定
することを特徴とする請求項59乃至64のいずれか1
項に記載の方法。 - 【請求項66】 画像データ、音声データ、音声処理手
段により生成されるテキストデータ、及び各人物がどこ
を見ているかを定義する視線データをデータベースに格
納するステップを更に含み、前記データベースは、対応
するテキストデータと視線データとが互いに関連すると
共に、対応する画像データ及び音声データとも関連する
ようにデータを格納することを特徴とする請求項59乃
至65のいずれか1項に記載の方法。 - 【請求項67】 画像データ及び音声データは圧縮され
た形態で格納されることを特徴とする請求項66記載の
方法。 - 【請求項68】 画像データ及び音声データはMPEGデー
タとして格納されることを特徴とする請求項67記載の
方法。 - 【請求項69】 所定の期間にわたり、その所定の期間
中に所定の人物がその他の人物の各々を見るのに費やし
た時間の割合を定義するデータを生成するステップと、
そのデータが対応する画像データ、音声データ、テキス
トデータ及び視線データと関連するようにデータをデー
タベースに格納するステップとを更に含むことを特徴と
する請求項66乃至68のいずれか1項に記載の方法。 - 【請求項70】 所定の期間は所定の人物が話をしてい
た期間であることを特徴とする請求項69記載の方法。 - 【請求項71】 データベースを格納されているデータ
と共に搬送する信号を発生するステップを更に含むこと
を特徴とする請求項66乃至70のいずれか1項に記載
の方法。 - 【請求項72】 信号の記録を生成するために信号を直
接に又は間接的に記録するステップを更に含むことを特
徴とする請求項71記載の方法。 - 【請求項73】 画像データを処理する方法において、
少なくとも1台のカメラにより記録され且つ複数の人物
の動きを示す画像データを処理して、各人物がどこを見
ているかを判定すると共に、複数の人物がどこを見てい
るかに基づいてどの人物が話しているかを判定するステ
ップを備えることを特徴とする方法。 - 【請求項74】 処理される画像データを提供する各カ
メラの位置と向きを定義するカメラ校正データを使用し
て画像データを処理することにより、各人物がどこを見
ているかを判定することを特徴とする請求項73記載の
方法。 - 【請求項75】 各人物の頭部の位置と向きを三次元で
追跡するために画像データを処理することにより、各人
物がどこを見ているかを判定することを特徴とする請求
項73又は74記載の方法。 - 【請求項76】 各々の人物を見ている人物の数に基づ
いてどの人物が話をしているかを判定することを特徴と
する請求項73乃至75のいずれか1項に記載の方法。 - 【請求項77】 各人物が誰を見ているかを定義する値
を人物ごとに生成し且つそれらの値を処理して、話をし
ている人物を判定することを特徴とする請求項76記載
の方法。 - 【請求項78】 話をしている人物が他の人物の大半が
見ている人物であることを判定することを特徴とする請
求項73乃至77のいずれか1項に記載の方法。 - 【請求項79】 プログラム可能処理装置を請求項41
乃至58の少なくとも1項に記載の装置として構成させ
るための命令を格納することを特徴とする記憶装置。 - 【請求項80】 プログラム可能処理装置を請求項59
乃至78の少なくとも1項に記載の方法を実行するよう
に動作可能にさせるための命令を格納することを特徴と
する記憶装置。 - 【請求項81】 プログラム可能処理装置を請求項41
乃至58の少なくとも1項に記載の装置として構成させ
るための命令を搬送することを特徴とする信号。 - 【請求項82】 プログラム可能処理装置を請求項59
乃至78の少なくとも1項に記載の方法を実行するよう
に動作可能にさせるための命令を搬送することを特徴と
する信号。
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| GB9907103A GB2351627B (en) | 1999-03-26 | 1999-03-26 | Image processing apparatus |
| GB9908546A GB2351628B (en) | 1999-04-14 | 1999-04-14 | Image and sound processing apparatus |
| GB9908546.6 | 1999-04-14 | ||
| GB9907103.7 | 1999-04-14 |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2000352996A true JP2000352996A (ja) | 2000-12-19 |
| JP2000352996A5 JP2000352996A5 (ja) | 2007-05-24 |
| JP4474013B2 JP4474013B2 (ja) | 2010-06-02 |
Family
ID=26315345
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000086807A Expired - Fee Related JP4474013B2 (ja) | 1999-03-26 | 2000-03-27 | 情報処理装置 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US7117157B1 (ja) |
| JP (1) | JP4474013B2 (ja) |
Cited By (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004264844A (ja) * | 2003-02-28 | 2004-09-24 | Xerox Corp | コンピュータ介在通信における会話フロアを自動的に管理する方法、装置および製品 |
| JP2005274707A (ja) * | 2004-03-23 | 2005-10-06 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
| JP2006505875A (ja) * | 2002-11-07 | 2006-02-16 | 本田技研工業株式会社 | 確率的外観集合体を使用するビデオに基づく顔認識 |
| JP2007218933A (ja) * | 2006-02-14 | 2007-08-30 | Hitachi Ltd | 会話音声分析方法、及び、会話音声分析装置 |
| JP2010086074A (ja) * | 2008-09-29 | 2010-04-15 | Hitachi Omron Terminal Solutions Corp | 音声処理装置、音声処理方法、および、音声処理プログラム |
| WO2012001928A1 (ja) | 2010-06-30 | 2012-01-05 | パナソニック株式会社 | 会話検出装置、補聴器及び会話検出方法 |
| US8126705B2 (en) | 2003-02-28 | 2012-02-28 | Palo Alto Research Center Incorporated | System and method for automatically adjusting floor controls for a conversation |
| JP2014238525A (ja) * | 2013-06-10 | 2014-12-18 | 日本電信電話株式会社 | 推定装置、推定方法、およびプログラム |
| CN106356067A (zh) * | 2016-08-25 | 2017-01-25 | 乐视控股(北京)有限公司 | 录音方法、装置及终端 |
| JP2018011242A (ja) * | 2016-07-15 | 2018-01-18 | コニカミノルタ株式会社 | 情報処理システム、電子機器、情報処理装置、情報処理方法、電子機器処理方法、及びプログラム |
| JP2020155944A (ja) * | 2019-03-20 | 2020-09-24 | 株式会社リコー | 発話者検出システム、発話者検出方法及びプログラム |
| JP2021076715A (ja) * | 2019-11-08 | 2021-05-20 | 株式会社リコー | 音声取得装置、音声認識システム、情報処理方法、及び情報処理プログラム |
Families Citing this family (42)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20050131697A1 (en) * | 2003-12-10 | 2005-06-16 | International Business Machines Corporation | Speech improving apparatus, system and method |
| US20050131744A1 (en) * | 2003-12-10 | 2005-06-16 | International Business Machines Corporation | Apparatus, system and method of automatically identifying participants at a videoconference who exhibit a particular expression |
| US20050240407A1 (en) * | 2004-04-22 | 2005-10-27 | Simske Steven J | Method and system for presenting content to an audience |
| JP2007318438A (ja) * | 2006-05-25 | 2007-12-06 | Yamaha Corp | 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム |
| US20080255840A1 (en) * | 2007-04-16 | 2008-10-16 | Microsoft Corporation | Video Nametags |
| US8526632B2 (en) * | 2007-06-28 | 2013-09-03 | Microsoft Corporation | Microphone array for a camera speakerphone |
| US8165416B2 (en) * | 2007-06-29 | 2012-04-24 | Microsoft Corporation | Automatic gain and exposure control using region of interest detection |
| US8330787B2 (en) * | 2007-06-29 | 2012-12-11 | Microsoft Corporation | Capture device movement compensation for speaker indexing |
| US8725506B2 (en) * | 2010-06-30 | 2014-05-13 | Intel Corporation | Speech audio processing |
| US8676574B2 (en) | 2010-11-10 | 2014-03-18 | Sony Computer Entertainment Inc. | Method for tone/intonation recognition using auditory attention cues |
| US8756061B2 (en) | 2011-04-01 | 2014-06-17 | Sony Computer Entertainment Inc. | Speech syllable/vowel/phone boundary detection using auditory attention cues |
| US20120259638A1 (en) * | 2011-04-08 | 2012-10-11 | Sony Computer Entertainment Inc. | Apparatus and method for determining relevance of input speech |
| US20150269952A1 (en) * | 2012-09-26 | 2015-09-24 | Nokia Corporation | Method, an apparatus and a computer program for creating an audio composition signal |
| US9031293B2 (en) | 2012-10-19 | 2015-05-12 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
| US9020822B2 (en) | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
| US9672811B2 (en) | 2012-11-29 | 2017-06-06 | Sony Interactive Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
| WO2014199596A1 (ja) * | 2013-06-10 | 2014-12-18 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 話者識別方法、話者識別装置及び話者識別システム |
| US9672412B2 (en) * | 2014-06-24 | 2017-06-06 | The Chinese University Of Hong Kong | Real-time head pose tracking with online face template reconstruction |
| KR20160024002A (ko) | 2014-08-21 | 2016-03-04 | 삼성전자주식회사 | 비쥬얼 사운드 이미지를 제공하는 방법 및 이를 구현하는 전자 장치 |
| JP6528574B2 (ja) | 2015-07-14 | 2019-06-12 | 株式会社リコー | 情報処理装置、情報処理方法、および情報処理プログラム |
| JP2017028375A (ja) | 2015-07-16 | 2017-02-02 | 株式会社リコー | 映像処理装置、及びプログラム |
| JP2017028633A (ja) | 2015-07-27 | 2017-02-02 | 株式会社リコー | 映像配信端末、プログラム、及び、映像配信方法 |
| US10962780B2 (en) * | 2015-10-26 | 2021-03-30 | Microsoft Technology Licensing, Llc | Remote rendering for virtual images |
| FR3047628B1 (fr) * | 2016-02-05 | 2018-05-25 | Christophe Guedon | Procede d'aide au suivi d'une conversation pour personne malentendante |
| CN110300950B (zh) | 2017-02-06 | 2023-06-16 | 平蛙实验室股份公司 | 触摸感测系统中的光学耦合 |
| JP6859807B2 (ja) * | 2017-03-31 | 2021-04-14 | 日本電気株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
| US10091412B1 (en) * | 2017-06-30 | 2018-10-02 | Polycom, Inc. | Optimal view selection method in a video conference |
| US11256371B2 (en) | 2017-09-01 | 2022-02-22 | Flatfrog Laboratories Ab | Optical component |
| US11567610B2 (en) | 2018-03-05 | 2023-01-31 | Flatfrog Laboratories Ab | Detection line broadening |
| US10951859B2 (en) | 2018-05-30 | 2021-03-16 | Microsoft Technology Licensing, Llc | Videoconferencing device and method |
| US12055969B2 (en) | 2018-10-20 | 2024-08-06 | Flatfrog Laboratories Ab | Frame for a touch-sensitive device and tool therefor |
| US11943563B2 (en) | 2019-01-25 | 2024-03-26 | FlatFrog Laboratories, AB | Videoconferencing terminal and method of operating the same |
| TWI699120B (zh) * | 2019-04-30 | 2020-07-11 | 陳筱涵 | 會議記錄系統與會議記錄方法 |
| EP3823315B1 (en) * | 2019-11-18 | 2024-01-10 | Panasonic Intellectual Property Corporation of America | Sound pickup device, sound pickup method, and sound pickup program |
| EP4478165A3 (en) | 2019-11-25 | 2025-03-12 | FlatFrog Laboratories AB | A touch-sensing apparatus |
| KR102184649B1 (ko) * | 2019-12-05 | 2020-11-30 | (주)힐링사운드 | 치과 치료용 소리 제어 시스템 및 방법 |
| EP4068282A4 (en) * | 2019-12-31 | 2022-11-30 | Huawei Technologies Co., Ltd. | METHOD OF PROCESSING CONFERENCE DATA AND RELATED EQUIPMENT |
| US12282653B2 (en) | 2020-02-08 | 2025-04-22 | Flatfrog Laboratories Ab | Touch apparatus with low latency interactions |
| WO2021158167A1 (en) * | 2020-02-09 | 2021-08-12 | Flatfrog Laboratories Ab | Meeting interaction system |
| WO2021162602A1 (en) | 2020-02-10 | 2021-08-19 | Flatfrog Laboratories Ab | Improved touch-sensing apparatus |
| CN113132542A (zh) * | 2021-05-06 | 2021-07-16 | 上海纽偲钽文化传媒有限公司 | 一种基于互联网的线上会议系统及方法 |
| US12494207B2 (en) * | 2023-06-20 | 2025-12-09 | Microsoft Technology Licensing, Llc | Active speaker detection using distributed devices |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH02206825A (ja) * | 1989-02-06 | 1990-08-16 | Meidensha Corp | 議事録作成装置 |
| JPH0329555A (ja) * | 1989-06-27 | 1991-02-07 | Nec Corp | 議事内容蓄積方式 |
| JPH0482357A (ja) * | 1990-07-24 | 1992-03-16 | Hitachi Ltd | 記録および検索方法ならびに自動記録装置 |
| JPH04181300A (ja) * | 1990-11-16 | 1992-06-29 | Seiko Epson Corp | 音声認識装置 |
| JPH0535441A (ja) * | 1991-07-31 | 1993-02-12 | Oki Electric Ind Co Ltd | 文書自動作成装置 |
| JPH10145763A (ja) * | 1996-11-15 | 1998-05-29 | Mitsubishi Electric Corp | 会議システム |
| JPH11259501A (ja) * | 1998-03-11 | 1999-09-24 | Fuji Xerox Co Ltd | 発言構造検出表示装置 |
Family Cites Families (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US3392392A (en) | 1967-06-05 | 1968-07-09 | Motorola Inc | Bearing measurement system using statistical signal processing by analog techniques |
| US3601530A (en) | 1969-04-29 | 1971-08-24 | Bell Telephone Labor Inc | Video conference system using voice-switched cameras |
| US4333170A (en) | 1977-11-21 | 1982-06-01 | Northrop Corporation | Acoustical detection and tracking system |
| DE3381357D1 (de) | 1982-12-22 | 1990-04-26 | Marconi Co Ltd | Akustische peilsysteme. |
| JPH0771279B2 (ja) | 1988-08-17 | 1995-07-31 | 富士通株式会社 | テレビ会議用画像処理装置 |
| US5231674A (en) | 1989-06-09 | 1993-07-27 | Lc Technologies, Inc. | Eye tracking method and apparatus |
| US5206721A (en) | 1990-03-08 | 1993-04-27 | Fujitsu Limited | Television conference system |
| JPH04297196A (ja) | 1991-03-26 | 1992-10-21 | Toshiba Corp | 被写体撮像装置 |
| JPH04301976A (ja) | 1991-03-28 | 1992-10-26 | Kyocera Corp | テレビ会議システム |
| US5347306A (en) | 1993-12-17 | 1994-09-13 | Mitsubishi Electric Research Laboratories, Inc. | Animated electronic meeting place |
| JP3631266B2 (ja) | 1994-05-13 | 2005-03-23 | 株式会社応用計測研究所 | 移動物体の計測装置 |
| US5508734A (en) | 1994-07-27 | 1996-04-16 | International Business Machines Corporation | Method and apparatus for hemispheric imaging which emphasizes peripheral content |
| US5500671A (en) * | 1994-10-25 | 1996-03-19 | At&T Corp. | Video conference system and method of providing parallax correction and a sense of presence |
| JP3272906B2 (ja) | 1995-05-29 | 2002-04-08 | シャープ株式会社 | 視線方向検出方法及び装置及びそれを含むマンマシンインターフェース装置 |
| US5995936A (en) * | 1997-02-04 | 1999-11-30 | Brais; Louis | Report generation system and method for capturing prose, audio, and video by voice command and automatically linking sound and image to formatted text locations |
| CA2233047C (en) | 1998-02-02 | 2000-09-26 | Steve Mann | Wearable camera system with viewfinder means |
| US6593956B1 (en) * | 1998-05-15 | 2003-07-15 | Polycom, Inc. | Locating an audio source |
| GB2342802B (en) | 1998-10-14 | 2003-04-16 | Picturetel Corp | Method and apparatus for indexing conference content |
-
2000
- 2000-03-22 US US09/532,533 patent/US7117157B1/en not_active Expired - Fee Related
- 2000-03-27 JP JP2000086807A patent/JP4474013B2/ja not_active Expired - Fee Related
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH02206825A (ja) * | 1989-02-06 | 1990-08-16 | Meidensha Corp | 議事録作成装置 |
| JPH0329555A (ja) * | 1989-06-27 | 1991-02-07 | Nec Corp | 議事内容蓄積方式 |
| JPH0482357A (ja) * | 1990-07-24 | 1992-03-16 | Hitachi Ltd | 記録および検索方法ならびに自動記録装置 |
| JPH04181300A (ja) * | 1990-11-16 | 1992-06-29 | Seiko Epson Corp | 音声認識装置 |
| JPH0535441A (ja) * | 1991-07-31 | 1993-02-12 | Oki Electric Ind Co Ltd | 文書自動作成装置 |
| JPH10145763A (ja) * | 1996-11-15 | 1998-05-29 | Mitsubishi Electric Corp | 会議システム |
| JPH11259501A (ja) * | 1998-03-11 | 1999-09-24 | Fuji Xerox Co Ltd | 発言構造検出表示装置 |
Cited By (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006505875A (ja) * | 2002-11-07 | 2006-02-16 | 本田技研工業株式会社 | 確率的外観集合体を使用するビデオに基づく顔認識 |
| US8676572B2 (en) | 2003-02-28 | 2014-03-18 | Palo Alto Research Center Incorporated | Computer-implemented system and method for enhancing audio to individuals participating in a conversation |
| JP2004264844A (ja) * | 2003-02-28 | 2004-09-24 | Xerox Corp | コンピュータ介在通信における会話フロアを自動的に管理する方法、装置および製品 |
| US9412377B2 (en) | 2003-02-28 | 2016-08-09 | Iii Holdings 6, Llc | Computer-implemented system and method for enhancing visual representation to individuals participating in a conversation |
| US8126705B2 (en) | 2003-02-28 | 2012-02-28 | Palo Alto Research Center Incorporated | System and method for automatically adjusting floor controls for a conversation |
| US8463600B2 (en) | 2003-02-28 | 2013-06-11 | Palo Alto Research Center Incorporated | System and method for adjusting floor controls based on conversational characteristics of participants |
| JP2005274707A (ja) * | 2004-03-23 | 2005-10-06 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
| JP2007218933A (ja) * | 2006-02-14 | 2007-08-30 | Hitachi Ltd | 会話音声分析方法、及び、会話音声分析装置 |
| JP2010086074A (ja) * | 2008-09-29 | 2010-04-15 | Hitachi Omron Terminal Solutions Corp | 音声処理装置、音声処理方法、および、音声処理プログラム |
| US9084062B2 (en) | 2010-06-30 | 2015-07-14 | Panasonic Intellectual Property Management Co., Ltd. | Conversation detection apparatus, hearing aid, and conversation detection method |
| WO2012001928A1 (ja) | 2010-06-30 | 2012-01-05 | パナソニック株式会社 | 会話検出装置、補聴器及び会話検出方法 |
| JP2014238525A (ja) * | 2013-06-10 | 2014-12-18 | 日本電信電話株式会社 | 推定装置、推定方法、およびプログラム |
| JP2018011242A (ja) * | 2016-07-15 | 2018-01-18 | コニカミノルタ株式会社 | 情報処理システム、電子機器、情報処理装置、情報処理方法、電子機器処理方法、及びプログラム |
| CN106356067A (zh) * | 2016-08-25 | 2017-01-25 | 乐视控股(北京)有限公司 | 录音方法、装置及终端 |
| JP2020155944A (ja) * | 2019-03-20 | 2020-09-24 | 株式会社リコー | 発話者検出システム、発話者検出方法及びプログラム |
| JP7259447B2 (ja) | 2019-03-20 | 2023-04-18 | 株式会社リコー | 発話者検出システム、発話者検出方法及びプログラム |
| JP2021076715A (ja) * | 2019-11-08 | 2021-05-20 | 株式会社リコー | 音声取得装置、音声認識システム、情報処理方法、及び情報処理プログラム |
| JP7400364B2 (ja) | 2019-11-08 | 2023-12-19 | 株式会社リコー | 音声認識システム及び情報処理方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP4474013B2 (ja) | 2010-06-02 |
| US7117157B1 (en) | 2006-10-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4474013B2 (ja) | 情報処理装置 | |
| JP4697907B2 (ja) | 画像処理装置及び方法 | |
| US7139767B1 (en) | Image processing apparatus and database | |
| JP7347597B2 (ja) | 動画編集装置、動画編集方法及びプログラム | |
| KR102650850B1 (ko) | 영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체 | |
| EP3422145A1 (en) | Provision of virtual reality content | |
| US11477393B2 (en) | Detecting and tracking a subject of interest in a teleconference | |
| JP2000125274A (ja) | 会議内容に索引付けを行うための方法と装置 | |
| US20220329727A1 (en) | Region of interest based adjustment of camera parameters in a teleconferencing environment | |
| JP4414708B2 (ja) | 動画表示用パーソナルコンピュータ、データ表示システム、動画表示方法、動画表示プログラムおよび記録媒体 | |
| JP4451892B2 (ja) | 映像再生装置、映像再生方法、及び映像再生プログラム | |
| GB2351628A (en) | Image and sound processing apparatus | |
| CN114450730B (zh) | 信息处理系统及方法 | |
| JP5201540B2 (ja) | カラオケ装置及びカラオケ歌唱者の静止画出力方法 | |
| Yu et al. | Towards smart meeting: Enabling technologies and a real-world application | |
| JP4649944B2 (ja) | 動画像処理装置、動画像処理方法およびプログラム | |
| CN111144287A (zh) | 视听辅助交流方法、装置及可读存储介质 | |
| TWI799048B (zh) | 環景影像會議系統及方法 | |
| GB2351627A (en) | Image processing apparatus | |
| TWI866802B (zh) | 視訊設備的智能化輔助系統 | |
| CN110730378A (zh) | 一种信息处理方法及系统 | |
| CN119227003B (zh) | 一种基于语义-空间特征融合的视听说话人跟踪方法 | |
| Al-Hames et al. | Using audio, visual, and lexical features in a multi-modal virtual meeting director | |
| JP6860178B1 (ja) | 映像処理装置及び映像処理方法 | |
| JP4905651B2 (ja) | 情報分析装置、情報分析方法及び情報分析プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070327 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070327 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20070327 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080812 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100209 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100301 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100308 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130312 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140312 Year of fee payment: 4 |
|
| LAPS | Cancellation because of no payment of annual fees |