JP2006254166A - ビデオ会議システム、会議端末および映像サーバ - Google Patents

ビデオ会議システム、会議端末および映像サーバ Download PDF

Info

Publication number
JP2006254166A
JP2006254166A JP2005068917A JP2005068917A JP2006254166A JP 2006254166 A JP2006254166 A JP 2006254166A JP 2005068917 A JP2005068917 A JP 2005068917A JP 2005068917 A JP2005068917 A JP 2005068917A JP 2006254166 A JP2006254166 A JP 2006254166A
Authority
JP
Japan
Prior art keywords
user
conference
video
video data
conference terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005068917A
Other languages
English (en)
Other versions
JP4741261B2 (ja
Inventor
Yasushi Kaneda
泰 金田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2005068917A priority Critical patent/JP4741261B2/ja
Priority to US11/356,172 priority patent/US7835764B2/en
Publication of JP2006254166A publication Critical patent/JP2006254166A/ja
Application granted granted Critical
Publication of JP4741261B2 publication Critical patent/JP4741261B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1069Session establishment or de-establishment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4535Network directories; Name-to-address mapping using an address exchange platform which sets up a session between two nodes, e.g. rendezvous servers, session initiation protocols [SIP] registrars or H.323 gatekeepers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • H04L65/1104Session initiation protocol [SIP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • H04L65/4038Arrangements for multi-party communication, e.g. for conferences with floor control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4557Directories for hybrid networks, e.g. including telephone numbers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】ビデオ会議システムにおいて、必要な帯域を低く抑えることができ、且つ、その会議のキーパーソン等の様子を容易に確認できるようにする。
【解決手段】プレゼンスサーバ1は、各会議端末2のユーザの仮想空間における位置情報を管理する。会議端末2は、他の会議端末2の要求に従い自ユーザの映像データを要求元に送信する。また、仮想空間における自ユーザの位置情報を受付けてプレゼンスサーバ1に送信すると共に、プレゼンスサーバ1から他のユーザの位置情報を受信する。そして、自ユーザおよび他ユーザ各々の位置情報を基に自ユーザの前方に位置する前方ユーザを検出し、前方ユーザ各々の会議端末2から映像データを受信する。
【選択図】図1

Description

本発明は、立体音響処理された音声を会議参加者の映像と共に会議端末から出力することのできるビデオ会議システムの技術に関する。
特許文献1には全員表示型ビデオ会議システムが開示されている。この全員表示型ビデオ会議システムでは、各参加者のビデオ会議端末に、会議参加者数分の表示装置を設け、各表示装置に会議参加者の映像を表示して会議参加者全員の映像を常時表示する。
また、特許文献2にはフロア制御型ビデオ会議システムが開示されている。このフロア制御型ビデオ会議システムでは、発話者を検出し、発話者の映像を選択して各参加者のビデオ会議端末に表示する。
また、特許文献3には3Dオーディオ技術を用いた音声会議システムが開示されている。この音声会議システムでは、音声会議に参加する各参加者の会議端末から、3Dオーディオ処理(立体音響処理)された各参加者の音声データを出力する。
米国特許第4400724号明細書 米国特許第6330022号明細書 米国特許第6327567号明細書
特許文献1に記載の全員表示型ビデオ会議システムでは、参加者一人あたりの映像表示に必要な帯域をBとし、会議参加者数をnとすると、(n-1)×Bの帯域が必要となる。会議の加者数が多くなると必要な帯域も大きくなり、それに伴いシステムのコストが増加してしまう。
一方、特許文献2に記載のフロア制御型ビデオ会議システムでは、参加者一人あたりの映像表示に必要な帯域をBとし、同時発話者数をc(<n=会議参加者数)とすると、必要な帯域はc×Bで済む。全員表示型ビデオ会議システムに比べて必要な帯域を小さくできる。しかし、発話者しか表示されないので、その会議のキーパーソン(例えば会議の議長)の様子を確認できない。
また、特許文献3に記載の3Dオーディオ技術を用いた音声会議システムでは、映像を使用しないので、会議の参加者は当該会議に参加する他の参加者の様子を確認し難い。
本発明は上記事情に鑑みてなされたものであり、本発明の目的は、ビデオ会議システムにおいて、必要な帯域を低く抑えることができ、且つ、その会議のキーパーソン等の様子を容易に確認できるようにすることにある。
上記課題を解決するために、本発明では、ビデオ会議に参加する複数の会議端末各々のユーザの仮想空間上における位置を管理するプレゼンスサーバを設ける。そして、会議端末毎に、プレゼンスサーバを用いて、当該会議端末のユーザが指定した当該ユーザの前記仮想空間における位置および向き対して前方に位置するユーザ各々を特定し、特定したユーザ各々の映像データを含む会議画面を当該会議端末に表示させる。
例えば、本発明のビデオ会議システムは、複数の会議端末と、前記複数の会議端末各々のユーザの仮想空間上における位置を管理するプレゼンスサーバと、を有し、
前記複数の会議端末各々は、
他の会議端末からの映像送信要求に従い、自会議端末のユーザである自ユーザの映像データを要求元の会議端末に送信する映像データ送信手段と、
前記自ユーザの前記仮想空間上における位置および向きを受け付ける位置受付手段と、
前記位置受付手段で受け付けた位置および向きを含む自ユーザの仮想位置情報を前記プレゼンスサーバに送信する端末側位置情報送信手段と、
前記プレゼンスサーバから自会議端末以外の会議端末のユーザである他ユーザ各々の仮想位置情報を受信する端末側位置情報受信手段と、
前記自ユーザの仮想位置情報および前記他ユーザ各々の仮想位置情報に基づいて、前記仮想空間において前記自ユーザの前方に位置する少なくともひとりの他ユーザを、前方ユーザとして検出する前方ユーザ検出手段と、
前記前方ユーザ検出手段で検出した前方ユーザ各々の会議端末に映像送信要求を送信して、前記前方ユーザ各々の会議端末からの前方ユーザの映像データを受信する映像データ受信手段と、
前記映像データ受信手段で受信した前方ユーザの映像データ各々を含む会議画面をディスプレイに表示する表示制御手段と、を有し、
前記プレゼンスサーバは、
前記複数の会議端末各々から送られてきたユーザの仮想位置情報を管理する管理手段と、
前記複数の会議端末の各々に対して、前記管理手段で管理されている当該会議端末以外の各会議端末のユーザの位置情報を当該会議端末に送信するサーバ側位置情報送信手段と、を有する。
また、本発明の他のビデオ会議システムは、複数の会議端末と、前記複数の会議端末各々のユーザの仮想空間上における位置を管理するプレゼンスサーバと、前記複数の会議端末各々に映像データを送信する映像サーバと、を有し、
前記複数の会議端末各々は、
自会議端末のユーザである自ユーザの映像データを前記映像サーバに送信する端末側映像データ送信手段と、
前記自ユーザの前記仮想空間上における位置および向きを受け付ける位置受付手段と、
前記位置受付手段で受け付けた位置および向きを含む自ユーザの仮想位置情報を前記プレゼンスサーバに送信する端末側位置情報送信手段と、
前記映像サーバから会議画面データを受信する端末側映像データ受信手段と、
前記端末側映像データ受信手段で受信した会議画面データをディスプレイに表示する表示制御手段と、を有し、
前記映像サーバは、
前記複数の会議端末各々から当該会議端末のユーザの映像データを受信する映像サーバ側映像データ受信手段と、
前記プレゼンスサーバから前記複数の会議端末各々の仮想位置情報を受信する映像サーバ側位置情報受信手段と、
前記複数の会議端末の各々について、当該会議端末の自ユーザの仮想位置情報および他ユーザ各々の仮想位置情報に基づいて、前記仮想空間において当該自ユーザの前方に位置する少なくともひとりの他ユーザを、前方ユーザとして検出する前方ユーザ検出手段と、
前記複数の会議端末の各々に対して、前記映像サーバ側映像データ受信手段で受信した前記複数の会議端末各々のユーザの映像データのうち、前記前方ユーザ検出手段で検出した当該会議端末の前方ユーザ各々の映像データを含む会議画面データを、当該会議端末へ送信する映像サーバ側映像データ送信手段と、を有し、
前記プレゼンスサーバは、
前記複数の会議端末各々から送られてきたユーザの仮想位置情報を受信するプレゼンスサーバ側位置情報受信手段と、
前記複数の会議端末の各々について、当該会議端末から送られてきたユーザの仮想位置情報を管理する管理手段と、
前記管理手段で管理されている前記複数の会議端末各々のユーザの仮想位置情報を前記映像サーバに送信するプレゼンスサーバ側位置情報送信手段と、を有する。
本発明では、会議端末のユーザが指定した当該ユーザの仮想空間における位置および向き対して前方に位置するユーザ各々の映像データを当該会議端末に表示するので、ユーザ全員の映像データを会議端末に表示する場合に比べて必要な帯域を小さくできる。また、会議端末のユーザが、仮想空間において所望のユーザが自身の前方に位置するように自身の仮想空間における位置および向きを指定することにより、発話の有無に関わらずに、所望のユーザの様子を確認できる。したがって、本発明によれば、必要な帯域を低く抑えることができ、且つ、その会議のキーパーソン等の様子を容易に確認できる。
以下に、本発明の実施の形態を説明する。
<<第1実施形態>>
図1は本発明の第1実施形態が適用されたビデオ会議システムの概略構成図である。図示するように、本実施形態のビデオ会議システムは、プレゼンスサーバ1および複数の会議端末2がIP(Internet Protocol)網3を介して相互接続されて構成されている。
プレゼンスサーバ1は、各会議端末2のユーザの仮想空間上における位置情報を管理する。ここで、仮想空間とは各会議端末2のユーザが会議を行うために仮想的に作り出した空間である。仮想空間の属性には、例えば、空間の大きさ、天井の高さ、壁および天井の反射率・色彩・質感、残響特性、空間内の空気による音の吸収率などがある。
図2はプレゼンスサーバ1の概略構成図である。
図示するように、プレゼンスサーバ1は、IP網3に接続するためのIP網インターフェース部101と、位置情報管理部102と、SIP(Session Initiation Protocol)サーバ処理部103と、位置情報記憶部104と、を有する。
図3は位置情報記憶部104の登録内容を模式的に示した図である。図示するように、位置情報記憶部104には、会議端末2のユーザ毎に、レコード1040が記憶されている。レコード1040は、会議端末2のユーザを一意に識別するためのユーザIDを登録するフィールド1041と、当該会議端末2が映像交信に利用するSIP-URI(Uniform Resource Identifier)である映像交信用SIP-URIを登録するフィールド1042と、映像交信用SIP-URIに対応するIPアドレスである映像交信用IPアドレスを登録するフィールド1043と、当該会議端末2が音声交信に利用するSIP-URIである音声交信用SIP-URIを登録するフィールド1044と、音声交信用SIP-URIに対応する音声交信用IPアドレスを登録するフィールド1045と、当該会議端末2のユーザの仮想空間における位置情報である仮想位置情報を登録するフィールド1040と、を有する。ここで、仮想位置情報は、仮想空間におけるユーザの現在位置の座標情報と当該ユーザの視線方向の方位情報とを含む。
位置情報管理部102は、位置情報記憶部104に登録されているレコード1040の検索・更新を行う。SIPサーバ処理部103は、位置情報記憶部104に登録されているSIP-URIとIPアドレスとの対応関係を用いて、発側の会議端末2から受信したINVITEメッセージを着側の会議端末2へ送信する。
図4はプレゼンスサーバ1の動作フローを説明する図である。
位置情報管理部102は、IP網インターフェース部101を介して会議端末2からユーザIDと共に仮想位置情報を受信すると(S1001)、当該ユーザIDがフィールド1041に登録されているレコード1040を位置情報記憶部104から検索し(S1002)、検索したレコード1040のフィールド1046に登録されている仮想位置情報を該受信した仮想位置情報に更新する(S1003)。
また、位置情報管理部102は、IP網インターフェース部101を介して会議端末2からユーザIDを伴う位置情報送信要求を受信すると(S1004)、位置情報記憶部104から当該ユーザIDがフィールド1041に登録されているレコード1040以外の全てのレコード1040を読出し(S1005)、該要求の送信元の会議端末2に返信する(S1006)。
また、SIPサーバ処理部103は、IP網インターフェース部101を介して会議端末2から、宛先のSIP-URIの指定を伴うINVITEメッセージを受信すると(S1007)、該SIP-URIがフィールド1042あるいは1044に登録されているレコード1040を位置情報記憶部104から検索する(S1008)。そして、該SIP-URIがフィールド1042に登録されているならば、検索したレコード1040のフィールド1043に登録されているIPアドレスを宛先として該INVITEメッセージを転送する。一方、該SIP-URIがフィールド1044に登録されているならば、検索したレコード1040のフィールド1045に登録されているIPアドレスを宛先として該INVITEメッセージを転送する(S1009)。
会議端末2は、仮想空間においてユーザが指定した当該ユーザの位置および向き対して前方に位置するユーザ各々を特定し、特定したユーザ各々の映像データを含む会議画面を表示する。図5は会議端末3の概略構成図である。
図示するように、会議端末2は、音声入力部201と、映像入力部202と、音声出力部203と、映像出力部204と、操作受付部205と、オーディオエンコーダ206と、ビデオエンコーダ207と、オーディオレンダラ208と、会議画面生成部209と、プレゼンスプロバイダ210と、空間モデラ211と、IP網3に接続するためのIP網インターフェース部212と、RTP(Real-time Transport Protocol)処理部213と、SIP制御部214と、発話検出部215と、前方ユーザ検出部216と、着席情報作成部217と、を有する。
音声入力部210は、マイク221で収音した音声信号の入力端子である。映像入力部202は、ビデオカメラ222で撮像した映像信号の入力端子である。音声出力部203は、3Dオーディオ対応(例えば擬似5.1チャンネル対応)のヘッドフォン(あるいはスピーカ)223に接続される音声出力端子である。そして、操作受付部205はユーザのポインティングデバイス225に対する操作を受け付ける。
映像出力部204は、ディスプレイ224に接続される映像出力端子であり、操作受付部205に接続されたポインティングデバイス225を介してユーザより受け付けた指示に従い、後述する会議画面生成部209および着席情報生成部217のいずれかを選択し、選択した生成部から出力される映像をディスプレイ224に表示する。
オーディオエンコーダ206は、音声入力部201に入力された音声信号をエンコードして音声データを出力する。ビデオエンコーダ207は、映像入力部202に入力された映像信号をエンコードして映像データを出力する。
RTP処理部213は、オーディオエンコーダ206より出力された音声データをRTPパケットに格納し、該RTPパケットをIP網インターフェース部212を介して、SIP処理部214より通知された宛先のIPアドレスへ送信する。また、RTPパケット処理部214は、ビデオエンコーダ207より出力された映像データをRTPパケットに格納し、該RTPパケットをIP網インターフェース部212を介して、SIP処理部214より通知された宛先のIPアドレスへ送信する。また、RTP処理部213は、IP網インターフェース部212を介して他の会議端末2より受信したRTPパケットから音声データを取り出して、該RTPパケットの送信元アドレスと共にオーディオレンダラ208に出力する。さらに、RTP処理部213は、IP網インターフェース部212を介して他の会議端末2より受信したRTPパケットから映像データを取り出して、該RTPパケットの送信元アドレスと共に会議画面生成部209に出力する。
発話検出部215は、音声入力部201に入力する音声信号からユーザの発話の有無をモニタする。そして、発話(有音状態)を検出した場合に、発話検出信号をSIP制御部214に出力し、所定期間(例えば10秒)の無音状態を検出した場合に、発話停止信号をSIP制御部214に出力する。
空間モデラ211は、予め設定されている仮想空間の属性に従い、操作受付部205で受け付けた自ユーザのポインティングデバイス225に対する操作に応じて当該仮想空間における自ユーザの位置(座標)および視線方向(方位)を決定し、決定した位置および視線方向を含む自ユーザの仮想位置情報を保持すると共に、プレゼンスプロバイダ210、前方ユーザ検出部216、着席情報生成部217およびオーディオレンダラ208に出力する。また、空間モデラ211は、プレゼンスプロバイダ210から他ユーザ各々の仮想位置情報を受け取って保持すると共に、前方ユーザ検出部216、着席情報生成部217およびオーディオレンダラ208に出力する。
プレゼンスプロバイダ210は、空間モデラ211から受け取った自ユーザの仮想位置情報を、IP網インターフェース部210を介してプレゼンスサーバ1に定期的に送信する。また、プレゼンスプロバイダ210は、IP網インターフェース部212を介してプレゼンスサーバ1に位置情報送信要求を定期的に送信し、その応答としてプレゼンスサーバ1から他ユーザ各々のレコード1040を受信する。そして、受信した他ユーザ各々のレコード1040を空間モデラ211に通知する。
前方ユーザ検出部216は、空間モデラ211から受け取った自ユーザの仮想位置情報および他ユーザ各々のレコード1040の仮想位置情報に基づいて、仮想空間において自ユーザの前方に位置する他ユーザを前方ユーザとして検出する。また、検出した前方ユーザ各々の後述する会議画面における配置位置を決定する。そして、検出した前方ユーザ各々をSIP処理部214に通知すると共に、検出した前方ユーザ各々とその配置位置を会議画面生成部209に通知する。
具体的には、図6(A)に示すように、先ず、前方ユーザ検出部216は、仮想空間における自ユーザの位置2161および他ユーザ各々の位置2162を、それぞれの仮想位置情報に含まれている座標上に決定する。次に、前方ユーザ検出部216は、自ユーザの視線方向2163を自ユーザの仮想位置情報に含まれている方位に決定する。それから、前方ユーザ検出部216は、視線方向2163に最も近い前方ユーザの会議画面における配置位置を画面中央とする。また、画面中央とした前方ユーザの右側n番目に位置する前方ユーザの会議画面における配置位置を画面中央から右側n番目とし、画面中央とした前方ユーザの左側n番目に位置する前方ユーザの会議画面における配置位置を画面中央から左側n番目とする。この処理をnが予め定められた数(後述する会議画面に設けられた前方ユーザ用の映像表示枠の数に応じて定められた数)となるまで繰り返す。次に、前方ユーザ検出部216は、前方ユーザ各々のレコード1040に含まれているユーザIDをSIP制御部214に通知する。また、前方ユーザ毎に、当該前方ユーザのレコード1040に含まれているユーザIDおよび映像交信用IPアドレスと当該前方ユーザの会議画面における配置位置とを含む前方ユーザ情報を生成し、会議画面生成部209に送信する。
また、前方ユーザ検出部216は、会議画面生成部217から受け取った送信元IPアドレスを映像交信用IPアドレスとする他ユーザのレコード1040を、発話ユーザのレコード1040とし、発話ユーザの後述する会議画面における配置位置を決定する。そして、発話ユーザの配置位置を会議画面生成部209に通知する。
具体的には、図6(B)に示すように、先ず、前方ユーザ検出部216は、仮想空間における自ユーザの位置2161および発話ユーザ各々の位置2164を、それぞれの仮想位置情報に含まれている座標上に決定する。次に、前方ユーザ検出部216は、自ユーザの視線方向2163を自ユーザの仮想位置情報に含まれている方位に決定する。それから、前方ユーザ検出部216は、発話ユーザ各々の会議画面における配置位置を、視線方向216に対して自ユーザから右および左のいずれに位置するか否か、および、右および左の何番目に位置するかに従って決定する。例えば、視線方向2163の右側2番目に位置する発話ユーザの会議画面における配置位置を、前方ユーザの配置位置より右側であって画面中央側から2番目とする。そして、発話ユーザ毎に、当該発話ユーザのレコード1040に含まれているユーザIDおよび映像交信用IPアドレスと当該前方ユーザの会議画面における配置位置とを含む発話ユーザ情報を生成し会議画面生成部209に送信する。
会議画面生成部209は、会議画面雛形データを保持している。図7は、会議画面雛形データ2090の表示例を示す図である。この例において、会議画面雛形データ2090は、ユーザ映像表示枠2091およびユーザID表示欄2092の組を複数備えて構成される。複数の組のうち、画面の中央部分に配置される複数(図7では3つ)の組2093は、前方ユーザの映像データおよびユーザIDを表示するための組である。また、複数の組2093の右側および左側に配置される少なくとも1つ(図7では1つ)の組2094は、前方ユーザ以外の発話ユーザの映像データおよびユーザIDを表示するための組である。会議画面生成部209は、映像出力部204を介してディスプレイ224に会議画面雛形データ2090を表示する。また、RTP処理部213から送信元アドレスと共に受け取った各映像データを、前方ユーザの映像データについては複数の組2093のいずれかに当該前方ユーザのユーザIDと共に表示し、前方ユーザ以外の発話ユーザの映像データについては少なくとも1つの組2094のいずれかに当該発話ユーザのユーザIDと共に表示する。
図8および図9は、会議画面生成部209の動作フローを説明する図である。
先ず、会議画面生成部209は、前方ユーザ検出部216から受信した前方ユーザ情報の中から会議画面の配置位置が画面中央である前方ユーザ情報を抽出する(S2001)。次に、抽出した前方ユーザ情報の映像交信用IPアドレスを送信元アドレスとする映像データを、RTP処理部213から送信元アドレスと共に受信した映像データの中から検索する(S2002)。そして、S2001で抽出した前方ユーザ情報のユーザIDおよびS2003で検索した映像データの配置位置を、会議画面雛形データ2090中の複数の組2093のうち中央に位置する組のユーザID表示欄2092およびユーザ映像表示枠2091に決定する(S2003)。
次に、会議画面生成部209は、注目の組が画面中央に対して右および左のいずれに位置するかを示す設定値Hを右(あるいは左)に設定する(S2004)。また、カウンタ値nを1に設定する(S2005)。次に、会議画面雛形データ2090中の複数の組2093のうち、中央に位置する組から設定値Hへn番目の組があるか否かを調べる(S2006)。ない場合はS2011へ進む。一方、ある場合は、前方ユーザ検出部216から受信した前方ユーザ情報の中から、会議画面の配置位置が画面中央から設定値Hへn番目の位置である前方ユーザ情報を抽出する(S2007)。そのような前方ユーザ情報を抽出できなかった場合はS2011へ進む。一方、そのような前方ユーザ情報を抽出できた場合は、抽出した前方ユーザ情報の映像交信用IPアドレスを送信元アドレスとする映像データを、RTP処理部213から送信元アドレスと共に受信した映像データの中から検索する(S2008)。そして、S2007で抽出した前方ユーザ情報のユーザIDおよびS2008で検索した映像データの配置位置を、会議画面雛形データ2090中の複数の組2093のうち中央に位置する組から設定値Hへn番目の組のユーザID表示欄2092およびユーザ映像表示枠2091に決定する(S2009)。それから、カウンタ値nを1つインクリメントし(S2010)、S2005に戻る。
S2011では、設定値Hが右(あるいは左)であるか否かを調べ、そうであるならば設定値Hを左(あるいは右)に変更し(S2012)、それから、S2005に戻る。一方、そうでないならば、つまり、設定値Hを右および左のそれぞれに設定して上述のS2005〜S2010を実行したならば、S2013に進む。
S2013において、会議画面生成部209は、注目の組が画面中央に対して右および左のいずれに位置するかを示す設定値Jを右(あるいは左)に設定する。また、カウンタ値mを1に設定する(S2014)。次に、会議画面雛形データ2090中の設定値J側に位置する少なくとも1つの組2094のうち、画面中央側から設定値Jへm番目の組があるか否かを調べる(S2015)。ない場合はS2019へ進む。一方、ある場合は、前方ユーザ以外の発話ユーザの映像データであって、配置位置が前方ユーザの配置位置より設定値J側で画面中央からm番目である映像データを、RTP処理部213から送信元アドレスと共に受信した映像データの中から検索する(S2016)。
具体的には、RTP処理部213から送信元アドレスと共に受信した映像データの中から、前方ユーザ検出部216から受信した前方ユーザ情報の映像交信用IPアドレス以外の送信元アドレスを持つ映像データを検索する。次に、検索した映像データの各送信元アドレスを前方ユーザ検出部216に通知して、各送信元アドレスに対応する発話ユーザ情報を入手する。そして、入手した発話ユーザ情報の中から配置位置が前方ユーザの配置位置より設定値J側で画面中央からm番目の発話ユーザ情報を特定し、該特定した発話ユーザ情報の映像交信用IPアドレスを送信元アドレスとする映像データを、前方ユーザ以外の発話ユーザの映像データであって、配置位置が前方ユーザの配置位置より設定値J側で画面中央からm番目の映像データとする。
次に、会議画面生成部209は、S2016で特定した映像データと、該映像データの送信元アドレスを映像交信用IPアドレスとする発話ユーザ情報のユーザIDとの配置位置を、会議画面雛形データ2090中の設定値J側に位置する少なくとも1つの組2094のうち、画面中央側から設定値Jへm番目の組のユーザ映像表示枠2091およびユーザID表示欄2092に決定する(S2017)。それから、カウンタ値mを1つインクリメントし(S2018)、S2014に戻る。
S2019では、設定値Jが右(あるいは左)であるか否かを調べ、そうであるならば設定値Jを左(あるいは右)に変更し(S2020)、それから、S2014に戻る。一方、そうでないならば、つまり、設定値Jを右および左のそれぞれに設定して上述のS2014〜S2018を実行したならば、会議画面生成部209は、会議画面雛形データ2090のユーザ映像表示枠2091およびユーザID表示欄2092のそれぞれに、S2009およびS2017で決定したユーザID、映像データを配置して、図10に示すような会議画面データを生成し、映像出力部204を介してディスプレイ224に出力する(S2021)。なお、図10に示す会議画面データの例では、3人の前方ユーザ(jiro,taro,hanako)の映像データが表示され、仮想空間において自ユーザに対して右側の1番目に位置する発話ユーザ(ichiro)の映像データが表示されている例を示している。仮想空間において自ユーザに対して左側に位置する発話ユーザは存在せず、このため、画面左側の組2094にはユーザIDおよび映像データが表示されていない。
図5に戻って説明を続ける。着席室情報作成部217は、空間モデラ211から受け取った自ユーザの仮想位置情報および他ユーザ各々のレコード1040の仮想位置情報に基づいて、例えば図11に示すような、仮想空間における自ユーザの配置位置2161および他ユーザ各々の配置位置2162を示す着席情報表示データを生成する。そして、着席情報表示データを映像出力部204を介してディスプレイ224に表示する。
オーディオレンダラ208は、RTP処理部213から各音声データを送信元アドレスと共に受信する。そして、受信した各音声データをバッファリングすることによって、各音声データ間で同期させる(対応付ける)。このバッファリング(プレイアウト・バッファリング)の方法については、例えば文献「Colin Perkins著: RTP: Audio and Video for the Internet, Addison-Wesley Pub Co; 1st edition (June 11, 2003)」に記載されている。また、オーディオレンダラ208は、同期させた各音声データを、空間モデラ211より受け取った他ユーザ各々のレコード1040の仮想位置情報および自ユーザの仮想位置情報により特定される、仮想空間における他ユーザ各々と自ユーザとの相対位置に基づいて立体化する。そして、オーディオレンダラ208は、2チャンネル(左チャンネルと右チャンネル)の信号データ(信号列)を、音声出力部203に接続された3Dオーディオ対応ヘッドフォン223に出力する。
オーディオレンダラ208をより詳細に説明する。3次元オーディオ技術では、主に人の頭(以下、「人頭」)のまわりでの音響の変化の仕方(インパルス応答)を表すHRIR(Head Related Impulse Response)と、部屋などの仮想環境によって生成される擬似的な残響とによって音の方向および距離を表現する。HRIRは、音源と人頭との距離、および、人頭と音源との角度(水平角度および垂直角度)によって決定される。なお、オーディオレンダラ208には、予めダミーへッドを使用して各距離および各角度毎に測定したHRIRの数値が記憶されているものとする。また、HRIRの数値には、左チャネル用(ダミーヘッドの左耳で測定したもの)と、右チャネル用(ダミーヘッドの右耳で測定したもの)とで異なる数値を使用することによって、左右、前後または上下の方向感を表現する。
図12はオーディオレンダ208の処理を説明する図である。オーディオレンダラ208は、RTP処理部213から送信元アドレスと共に送られてくる音声データ各々に関して、送信元アドレス毎に下記の計算を行う。
まず、オーディオレンダラ208は、送信元アドレス毎に、RTP処理部213から当該送信元アドレスに対応付けられている音声データの信号列s[t](t=1,...)を受け付ける。また、送信元アドレス毎に、空間モデラ211から受け付けた他ユーザ各々のレコード1040の中から当該送信元アドレスを音声交信用IPアドレスとするレコード1040を検索する。そして、検索したレコード1040の仮想位置情報と、空間モデラ211から受け付けた自ユーザの仮想位置情報とを、当該送信元アドレスに対応付けられている音声データの信号列s[t](t=1,...)を3Dオーディオ処理に用いるパラメータに設定する(S3001)。
次に、オーディオレンダラ208は、送信元アドレス毎に、音声データの直接音と、残響である反射音とを計算する。直接音については、パラメータ設定された位置情報を用いて、自ユーザと当該送信元アドレスを持つ他ユーザとの仮想空間における距離および角度(azimuth)を計算する(S3002)。それから、オーディオレンダラ208は、自ユーザとの距離および角度に対応するHRIRを、予め記憶しておいたHRIRの数値の中から特定する(S3003)。なお、オーディオレンダラ208は、予め記憶しておいたHRIRの数値を補間することによって算出したHRIRの数値を使用してもよい。
次に、オーディオレンダラ208は、S3001で入力した信号列と、S3003で特定したHRIRの左チャネル用HRIRとを使用して、畳み込み(convolution)計算を行い、左チャネル信号を生成する(S3004)。同様に、S3001で入力した信号列と、S3003で特定したHRIRの右チャネル用HRIRとを使用して、畳み込み計算を行い、右チャネル信号を生成する(S3005)。
また、反響音については、S3001でパラメータ設定された位置情報を用いて、付加すべき残響を計算する(S3006、S3007)。すなわち、オーディオレンダラ208は、仮想空間の属性による音響の変化の仕方(インパルス応答)に基づいて残響を計算する。以下、残響の計算について説明する。
残響は初期反射(early reflection)および後期残響(late reverberation)により構成される。そして、初期反射の方が後期残響より、他ユーザとの距離や部屋(仮想空間)の大きさなどに関する感覚の形成(認知)において、重要であると一般的に考えられている。実空間上の室内では、音源から直接発せられた音(直接音)が聞こえた後、数msから100msくらいの間に、条件によっては、壁、天井、床などからの数10個の初期反射を聞くことができるといわれている。部屋の形状が直方体であれば、1回の初期反射は6個だけである。しかしながら、より複雑な形状または家具などがある部屋においては、反射音の数が増え、また、壁などで複数回反射した音も聞こえる。
初期反射の計算法としてimage source methodがあり、例えば文献「Allen, J.B. and Berkley, A., "Image Method for efficiently Simulating Small-Room Acoustics", J.Acoustical Society of America, Vol.65, No.4, pp.943-950, April 1979.」に記載されている。単純なimage source methodでは、部屋の壁、天井、床を鏡面とみなし、反射音を鏡面の反対側にある音源の像からの音として計算する。
図13は説明を簡単にするために、天井と床を省略した2次元のimage source methodを模式的に表した図である。すなわち、中央に本来の会議室(仮想空間)2081があり、当該会議室2081には会議の参加者である自ユーザおよび他ユーザが存在する。そして、音室2081の周囲には部屋の壁2082を含む12個の鏡像が描かれている。なお、鏡像は12個である必然性はなく、これより多くすることも少なくすることもできる。
オーディオレンダラ208は、鏡像各々の中に存在する他ユーザの各像からの音が、自ユーザ(聴取者)に直進するものとして、他ユーザの各像から自ユーザまでの距離と方向を算出する(S3006)。音の強さは距離に反比例するため、オーディオレンダラ208は、距離に従って各音量を減衰させる。ただし、壁の反射率をα(0≦α≦1)とすると、壁でn回反射される音の標本には、αnを乗じて音量をさらに減衰させる。
なお、反射率αの値は0.6程度の値を使用する。0.6程度の値にする理由は、自ユーザが他ユーザとの距離を認識するのに充分な残響(すなわち、直接音と反射音との比)を取得するためである。また、もう1つの理由としては、αの値を過大にした場合、自ユーザの方向感覚をにぶらせるからである。
次に、オーディオレンダラ208は、他ユーザの像毎に、自ユーザとの距離および角度に対応するHRIRを、予め記憶しておいたHRIRの数値の中から特定する(S3007)。反射音はそれぞれ異なる方向から人頭に達するため、S3003で特定した直接音のHRIRとは異なるHRIRを適用する必要がある。
なお、多数の反射音各々に、異なるHRIRを用いて後述するたたみこみ計算(S3007、S3008)を行うと、膨大な計算が必要になる。計算量の増加を防止するため、反射音の計算には、実際の音源の方向にかかわらず正面に音源があるときのHRIRを適用してもよい。そして、音が左右の耳に達する際の時間差(ITD:interaural time difference)と強度差(IID:interaural intensity difference)だけを計算することで、少ない計算量でHRIRの計算を代替できる。
次に、オーディオレンダラ208は、S3001で入力した信号列と、S3007で特定したHRIRの左チャネル用HRIRとを使用して、畳み込み計算を行い、左チャネル信号の残響を生成する(S3008)。同様に、S3001で入力した信号列と、S3007で特定したHRIRの右チャネル用HRIRとを使用して、畳み込み計算を行い、右チャネル信号の残響を生成する(S3009)。
さて、オーディオレンダラ208は、以上のようにして全ての他ユーザ(送信元アドレス)の左チャネル信号を計算したならば、これらを全て加算する(S3010)。なお、左チャネル信号は、S3004で算出した直接音と、S3008で算出した反射音とが含まれる。
同様に、オーディオレンダラ208は、以上のようにして全ての他ユーザ(送信元アドレス)の右チャネル信号を計算したならば、これらを全て加算する(S3011)。なお、右チャネル信号は、S3005で算出した直接音と、S3009で算出した反射音とが含まれる。
HRIR計算(S3003、S3007)は、RTPパケットの1パケット分の音声データ毎に行う。しかし、畳み込み計算(S3004、S3005、S3008、S3009)では、次の1パケット分の音声データに繰り越すべき部分が生じる。このため、特定したHRIRまたは入力された信号列を次の1パケット分の音声データに対する処理まで保持する必要がある。
このように、オーディオレンダラ208は、RTP処理部213から送られてきた他ユーザ各々の音声データに対して、上述の計算による音量の調節、残響や反響音の重ね合わせ、および、フィルタリング等の処理を行い、自ユーザの仮想空間内の位置において聞こえるべき音に音響効果を施す。すなわち、オーディオレンダラ208は、仮想空間の属性と他ユーザとの相対的な位置から帰結する処理によって音声を定位させた立体音響を生成する。
図5に戻って説明を続ける。SIP制御部214は、他の会議端末2各々のユーザID、音声交信用SIP-URIおよび映像交信用SIP-URIが登録されたテーブルを保持しており、必要に応じてこのテーブルを用いて、他の会議端末2との間に、音声交信用のコネクションおよび映像交信用のコネクションを確立する。
図14はSIP制御部214の動作フローを説明する図である。
会議端末2の起動時に、SIP処理部214は、会議に参加している各会議端末2と音声交信用コネクションを確立する。先ず、SIP処理部214は、自身のテーブルに登録されている音声交信用SIP-URIの中から未抽出の音声交信用SIP-URIを抽出する(S4001)。次に、SIP処理部214は、抽出した音声交信用SIP-URIを宛先とするINVITEメッセージを、IP網インターフェース部212を介してプレゼンスサーバ2に送信し、音声交信用SIP-URIを持つ会議端末2に対して、音声交信用コネクションの確立を試みる(S4002)。次に、SIP処理部214は、自身のテーブルに登録されている全ての音声交信用SIP-URIを抽出したか否かを調べ(S4003)、抽出していない場合はS4001に戻り、抽出した場合は、起動時の音声交信用コネクションを確立処理を終了し、各種イベントの待ち状態に移行する。
さて、SIP処理部214は、IP網インターフェース部212を介してIP網3からINVITEメッセージを受信すると(S4101)、該INVITEメッセージの送信元(発側)の会議端末2との間でSIPに従った呼制御シーケンスを実行し、当該会議端末2との間にコネクションを確立する(S4102)。また、SIP制御部214は、該INVITEメッセージで宛先に指定されている自会議端末2のSIP-URIが映像交信用SIP-URIであるか、それとも音声交信用SIP-URIであるかを調べ(S4103)、映像交信用SIP-URIである場合は映像交信用コネクションの確立を、当該コネクションによる通話相手の会議端末2のIPアドレスと共にRTP処理部213に通知する。一方、音声交信用SIP-URIである場合は音声交信用コネクションの確立を、当該コネクションによる通話相手の会議端末2のIPアドレスと共にRTP処理部213に通知する(S4104)。
また、SIP処理部214は、IP網インターフェース部212を介してコネクションを確立している通話相手の会議端末2からBYEメッセージを受信すると(S4201)、該通話相手の会議端末2との間でSIPに従った呼制御シーケンスを実行し、当該会議端末2との間のコネクションを解放する(S4202)。また、SIP制御部214は、解放したコネクションの種別(映像交信用コネクションおよび音声交信用コネクションのいずれか)と、該コネクションを用いた通話相手の会議端末2のIPアドレスとを、RTP処理部213に通知して、RTP処理部213に、該IPアドレスを持つ通話相手の会議端末2と指定された種別のデータを格納したRTPパケットを送受することを終了させる(S4203)。
また、SIP制御部214は、前方ユーザ検出部216より前方ユーザのユーザIDを通知されると(S4301)、該ユーザIDに対応付けられて自身のテーブルに登録されている映像交信用SIP−URIを特定する。そして、特定した映像交信用SIP-URIを宛先とするINVITEメッセージを、IP網インターフェース部212を介してプレゼンスサーバ2に送信し、映像交信用SIP-URIを持つ会議端末2(前方ユーザの会議端末2)に対して、映像交信用コネクションの確立を試みる(S4302)。
また、SIP制御部214は、発話検出部215より発話検出信号を通知されると(S4401)、自身のテーブルに登録されている映像交信用SIP−URIの中から映像交信用コネクションが確立していない映像交信用SIP−URIを特定する。そして、特定した映像交信用SIP-URI各々を宛先とするINVITEメッセージを、IP網インターフェース部212を介してプレゼンスサーバ2に送信し、該映像交信用SIP-URIを持つ会議端末2(前方ユーザ以外の他ユーザの会議端末2)に対して、映像交信用コネクションの確立を試みる(S4402)。
また、SIP制御部214は、発話検出部215より発話停止信号を通知されると(S4501)、自身のテーブルに登録されている映像交信用SIP−URIの中から前方ユーザ以外の他ユーザの映像交信用SIP−URIであって、映像交信用コネクションが確立中の映像交信用SIP−URIを特定する。そして、特定した映像交信用SIP-URI各々を宛先とするBYEメッセージを、IP網インターフェース部212を介して該映像交信用SIP−URIを持つ会議端末2に送信し、該映像交信用SIP-URIを持つ会議端末2(前方ユーザ以外の他ユーザの会議端末2)との映像交信用コネクションを解放する(S4502)。
上記構成のプレゼンスサーバ1には、図15に示すような、プログラムに従ってデータの加工・演算を行なうCPU301と、CPU301が直接読み書き可能なメモリ302と、ハードディスク等の外部記憶装置303と、IP網3を介して外部システムとデータ通信をするための通信装置304と、を有する一般的なコンピュータシステムを利用することができる。具体的には、サーバ、ホストコンピュータなどである。
また、上記構成の会議端末2も、図15に示すような、プログラムに従ってデータの加工・演算を行なうCPU301と、CPU301が直接読み書き可能なメモリ302と、ハードディスク等の外部記憶装置303と、IP網3を介して外部システムとデータ通信をするための通信装置304と、入力装置305と、出力装置306とを有する一般的なコンピュータシステムを利用することができる。例えば、PDA(Personal Digital Assistant)、PC(Personal Computer)などのコンピュータシステムである。
上記各装置の各機能は、メモリ302にロードまたは記憶された所定のプログラム(プレセンスサーバ1の場合はプレゼンスサーバ用のプログラム、そして、会議端末2の場合は会議端末用のプログラム)を、CPU301が実行することにより実現される。
次に、上記構成のビデオ会議システムの概略動作を説明する。
図16は、図1に示すビデオ会議システムの概略動作を説明するための図である。ここでは、他ユーザA〜Dの会議端末2が既に会議に参加中であり、後から自ユーザの会議端末2が会議に参加する場合を例にとり説明する。
先ず、自ユーザの会議端末2は、他ユーザA〜Dの会議端末2の音声交信用SIP−URIを宛先とするINVITEメッセージをプレゼンスサーバ1に送信する。プレゼンスサーバ1は、これらのINVITEメッセージを他ユーザA〜Dの会議端末2に送信する(S5001)。これにより、自ユーザの会議端末2は、他ユーザA〜Dの会議端末2各々との間に音声交信用コネクションを確立する(S5002)。
次に、自ユーザの会議端末2は、自ユーザの仮想位置情報をプレゼンスサーバ1に送信する。これを受けて、プレゼンスサーバ1は自ユーザの仮想位置情報を管理する(S5003)。また、自ユーザの会議端末2は、位置情報送信要求をプレゼンスサーバ1に送信する(S5004)。これを受けて、プレゼンスサーバ1は他ユーザA〜Dの仮想位置情報を自ユーザの会議端末2に送信する(S5005)。
次に、自ユーザの会議端末2は、前方ユーザの検出を行う(S5006)。ここでは、前方ユーザとして他ユーザA〜Cが検出されたものとする。この場合、自ユーザの会議端末2は、前方ユーザA〜Cの会議端末2各々の映像交信用SIP−URIを宛先とするINVITEメッセージをプレゼンスサーバ1に送信する。プレゼンスサーバ1は、これらのINVITEメッセージを前方ユーザA〜Cの会議端末2各々に送信する(S5007)。これにより、自ユーザの会議端末2は、前方ユーザA〜Cの会議端末2各々との間に映像交信用コネクションを確立する(S5008)。
さて、自ユーザの会議端末2は、自ユーザの発話を検出すると(S5009)、前方ユーザ以外の他ユーザであって、映像交信用コネクションが未確立である他ユーザDの会議端末2の映像交信用SIP−URIを宛先とするINVITEメッセージをプレゼンスサーバ1に送信する。プレゼンスサーバ1は、このINVITEメッセージを他ユーザDの会議端末2に送信する(S5010)。これにより、自ユーザの会議端末2は、他ユーザDの会議端末2との間に映像交信用コネクションを確立する(S5011)。
また、自ユーザの会議端末2は、自ユーザの発話停止を検出すると(S5012)、前方ユーザ以外の他ユーザであって、映像交信用コネクションが確立中である他ユーザDの会議端末2にBYEメッセージを送信して、該映像交信用コネクションを解放する(S5013)。
以上、本発明の第1実施形態を説明した。本実施形態では、会議端末2のユーザが指定した当該ユーザの仮想空間における位置および向き対して前方に位置するユーザ各々の映像データを当該会議端末2に表示する。このため、ユーザ全員の映像データを会議端末2に表示する場合に比べて必要な帯域を小さくできる。また、会議端末2のユーザが、仮想空間において所望のユーザが自身の前方に位置するように自身の仮想空間における位置および向きを指定することにより、発話の有無に関わらずに、所望のユーザの様子を確認できる。したがって、本実施形態によれば、必要な帯域を低く抑えることができ、且つ、その会議のキーパーソン等の様子を容易に確認できる。
<<第2実施形態>>
図17は本発明の第2実施形態が適用されたビデオ会議システムの概略構成図である。図示するように、本実施形態のビデオ会議システムは、プレゼンスサーバ1´、映像サーバ4、音声サーバ5および複数の会議端末2´がIP網3を介して相互接続されて構成されている。
プレゼンスサーバ1´は、各会議端末2´からユーザの仮想位置情報を受信して管理する。また、映像サーバ4または音声サーバ5からの位置情報送信要求に応答して、各会議端末2´のユーザの仮想位置情報を映像サーバ4または音声サーバ5に送信する。なお、本実施形態のプレゼンスサーバ1´は、図2に示す第1実施形態のプレゼンスサーバ1からSIP処理部103を省略したものである。本実施形態のプレゼンスサーバ1´の処理フローは、図4に示す第1実施形態のプレゼンスサーバ1の処理フローからSIP処理(S1007〜S1009)を省略したものと同じになる。
映像サーバ4は、会議端末2´毎に、当該会議端末2´のユーザの映像データを受信する。また、会議端末2´毎に、当該会議端末2´のユーザ向けの会議画面データを生成し、当該会議端末2´に送信する。図18は映像サーバ4の概略図である。
図示するように、映像サーバ4は、IP網3に接続するためのIP網インターフェース部401と、RTP処理部402と、SIP処理部403と、プレゼンスプロバイダ404と、空間モデラ405と、前方ユーザ検出部406と、発話通知受信部407と、映像分配部408と、会議端末2´毎に設けられた会議画面生成部409と、を有する。
SIP制御部403は、IP網インターフェース部401を介して各会議端末2´との間に映像交信用コネクションを確立する。
RTP処理部402は、会議端末2´毎に、当該会議端末2´との間で確立されている映像交信用コネクションを介して当該会議端末2´からユーザの映像データを受信し、受信した映像データを、該映像データの送信元アドレスと共に、映像分配部408に出力する。また、RTP処理部402は、会議端末2´毎に、当該会議端末2´に対応付けられた会議画面生成部409から出力された会議画面データを、当該会議端末2´との間で確立されている映像交信用コネクションを介して当該会議端末2´に送信する。
プレゼンスプロバイダ404は、IP網インターフェース部401を介してプレゼンスサーバ1に位置情報送信要求を定期的に送信し、その応答としてプレゼンスサーバ1から各会議端末2´のユーザのレコード(仮想位置情報)1040を受信する。そして、受信した各ユーザのレコード1040を空間モデラ405に通知する。
空間モデラ405は、プレゼンスプロバイダ404から各会議端末2´のユーザのレコード1040を受け取って保持すると共に、前方ユーザ検出部406に出力する。
発話通知受信部407は、IP網インターフェース部404を介していずれかの会議端末2´から発話通知を受信すると、該発話通知を該発話通知の送信元アドレスと共に前方ユーザ検出部406に通知する。また、発話停止通知を受信すると、該発話停止通知を該発話停止通知の送信元アドレスと共に前方ユーザ検出部406に通知する。
前方ユーザ検出部406は、会議端末2´毎に、空間モデラ211から受信した各ユーザのレコード1040の仮想位置情報に基づいて、仮想空間において当該会議端末2´のユーザの前方に位置する他ユーザを前方ユーザとして検出する。また、検出した前方ユーザ各々の会議画面における配置位置を決定する。そして、検出した前方ユーザ毎に、当該前方ユーザのレコード1040に含まれているユーザIDおよび映像交信用IPアドレスと当該前方ユーザの会議画面における配置位置とを含む前方ユーザ情報を生成し、該前方ユーザ情報を対象となる会議端末2´のユーザIDに対応付けて映像分配部408に送信する。なお、前方ユーザの具体的な検出方法および配置位置決定方法は、第1実施形態の前方ユーザ検出部216と基本的に同様である(図6(A)参照)。
また、前方ユーザ検出部406は、発話通知受信部407から発話通知を該発話通知の送信元アドレスと共に受け取ると、会議端末2´毎に、当該送信元アドレスが、当該会議端末2´のユーザに対する前方ユーザとして検出した何れかのユーザの映像交信用IPアドレスと一致するか否かを調べる。そして、一致しない場合に、当該送信元アドレスを持つユーザを、当該会議端末2´のユーザに対する発話ユーザとして検出し、検出した発話ユーザの会議画面における配置位置を決定する。そして、検出した発話ユーザのレコード1040に含まれているユーザIDおよび映像交信用IPアドレス(発話通知の送信元アドレス)と当該発話ユーザの会議画面における配置位置とを含む発話ユーザ情報を生成し、該発話ユーザ情報を対象となる会議端末2´のユーザIDに対応付けて映像分配部408に送信する。なお、発話ユーザの具体的な配置位置決定方法は、第1実施形態の前方ユーザ検出部216と基本的に同様である(図6(B)参照)。
また、前方ユーザ検出部406は、発話通知受信部407から発話停止通知を該発話通知の送信元アドレスと共に受け取ると、映像分配部408に出力している前方ユーザ情報のうち、当該発話停止通知の送信元アドレスを映像交信用IPアドレスとする前方ユーザ情報の生成および出力を停止する。
映像分配部408は、会議端末2´毎に、RTP処理部402から受け取った各ユーザの映像データの中から、当該会議端末2´に送信する会議画面に利用する映像データを抽出する。具体的には、会議端末2´毎に次の処理を行う。すわわち、前方ユーザ検出部406から受信した前方ユーザ情報および発話ユーザ情報のうち、当該会議端末2´のユーザIDに対応付けられている前方ユーザ情報および発話ユーザ情報を、当該会議端末2´の前方ユーザ情報および発話ユーザ情報として検出する。また、RTP処理部402から受け取った各ユーザの映像データのうち、当該会議端末2´の前方ユーザ情報あるいは発話ユーザ情報の映像交信用IPアドレスを送信元アドレスとする映像データを検出する。そして、検出した映像データを、当該映像データの送信元アドレスを映像交信用IPアドレスとする当該会議端末2の前方ユーザ情報あるいは発話ユーザ情報と共に、当該会議端末2´に対応付けられた会議画面生成部409に出力する。
会議画面生成部409は、図7に示すような会議画面雛形データ2090を保持している。会議画面生成部409は、この会議画面雛形データ2090を用いて、映像分配部408から受け取った各映像データを、前方ユーザの映像データについては複数の組2093のいずれかに当該前方ユーザのユーザIDと共に表示し、前方ユーザ以外の発話ユーザの映像データについては少なくとも1つの組2094のいずれかに当該発話ユーザのユーザIDと共に表示する会議画面データを生成し、RTP処理部402に出力する。
なお、各会議画面生成部409の動作フローは、図8および図9に示す第1実施形態の会議画面生成部209の動作フローと基本的に同様である。但し、次の点で異なる。
すなわち、映像データは、前方ユーザ情報あるいは発話ユーザ情報に対応付けられて映像分配部408から送られてくる。したがって、図8のS2001、S2002において、会議画面生成部209は、映像分配部408から受信した前方ユーザ情報の中から会議画面の配置位置が画面中央である前方ユーザ情報を抽出し、映像分配部408から受信した映像データの中から前記抽出した前方ユーザ情報に対応付けられている映像データを検索する。また、図8のS2007、S2008において、会議画面生成部209は、映像分配部408から受信した前方ユーザ情報の中から、会議画面の配置位置が画面中央から設定値Hへn番目の位置である前方ユーザ情報を抽出し、映像分配部408から受信した映像データの中から前記抽出した前方ユーザ情報に対応付けられている映像データを検索する。また、図9のS2016において、会議画面生成部209は、映像分配部408から受信した発話ユーザ情報の中から、会議画面雛形データ2090中の設定値J側に位置する少なくとも1つの組2094のうち、画面中央側から設定値Jへm番目の組を配置位置とする発ユーザ情報を抽出する。また、映像分配部408から受信した映像データの中から前記抽出した発話ユーザ情報に対応付けられている映像データを検索する。そして、図9のS2021において、生成した会議画面データ(図10参照)をRTP処理部402に出力する。
音声サーバ5は、会議端末2´毎に、当該会議端末2´のユーザの音声データを受信する。また、音声サーバ5は、会議端末2´毎に、当該会議端末2´のユーザ向けの会議音声データ(3Dオーディオデータ)を生成し、当該会議端末2´に送信する。図19は音声サーバ5の概略図である。
図示するように、音声サーバ5は、IP網3に接続するためのIP網インターフェース部501と、RTP処理部502と、SIP処理部503と、プレゼンスプロバイダ504と、空間モデラ505と、ユーザ情報生成部506と、音声分配部508と、会議端末2´毎に設けられたオーディオレンダラ509と、を有する。
SIP制御部503は、IP網インターフェース部501を介して各会議端末2´との間に音声交信用コネクションを確立する。
RTP処理部502は、会議端末2´毎に、当該会議端末2´との間で確立されている音声交信用コネクションを介して当該会議端末2´からユーザの音声データを受信し、受信した音声データを、該音声データの送信元アドレスと共に、音声分配部508に出力する。また、RTP処理部502は、会議端末2´毎に、当該会議端末2´に対応付けられたオーディオレンダラ509から出力された会議音声データを、当該会議端末2´との間で確立されている音声交信用コネクションを介して当該会議端末2´に送信する。
プレゼンスプロバイダ504は、IP網インターフェース部501を介してプレゼンスサーバ1に位置情報送信要求を定期的に送信し、その応答としてプレゼンスサーバ1から各会議端末2´のユーザのレコード(仮想位置情報)1040を受信する。そして、受信した各ユーザのレコード1040を空間モデラ505に通知する。
空間モデラ505は、プレゼンスプロバイダ504から各会議端末2´のユーザのレコード1040を受け取って保持すると共に、ユーザ情報生成部506に出力する。
ユーザ情報生成部506は、会議端末2´毎に、空間モデラ211から受信した各ユーザのレコード1040の中から当該会議端末2´のユーザIDを含むレコード1040を特定する。そして、特定したレコード1040に含まれているユーザID、音声交信用IPアドレスおよび仮想位置情報を含む自ユーザ情報を生成し、音声分配部508に送信する。また、ユーザ情報生成部506は、前記特定したレコード1040以外のレコード1040毎に、当該レコード1040に含まれているユーザID、音声交信用IPアドレスおよび仮想位置情報を含む他ユーザ情報を生成し、前記特定したレコード1040に含まれている自ユーザのユーザIDに対応付けて音声分配部508に送信する。
音声分配部508は、会議端末2´毎に、RTP処理部502から受け取った各ユーザの音声データの中から、当該会議端末2´に送信する会議音声データに利用する音声データを抽出する。具体的には、会議端末2´毎に次の処理を行う。すわわち、ユーザ情報生成部506から受信した自ユーザ情報のうち、当該会議端末2´のユーザIDを含む自ユーザ情報を検出し、これを当該会議端末2´の自ユーザ情報として、当該会議端末2´に対応付けられたディオレンダラ509に出力する。また、ユーザ情報生成部506から受信した他ユーザ情報のうち、当該会議端末2´のユーザIDに対応付けられている他ユーザ情報を、当該会議端末2´の他ユーザ情報として検出する。また、RTP処理部502から受け取った各ユーザの音声データのうち、当該会議端末2´の他ユーザ情報の音声交信用IPアドレスを送信元アドレスとする音声データを検出する。そして、検出した音声データを、当該音声データの送信元アドレスを音声交信用IPアドレスとする当該会議端末2の他ユーザ情報と共に、当該会議端末2´に対応付けられたオーディオレンダラ509に出力する。
オーディオレンダラ509は、音声分配部508から各音声データを他ユーザ情報と共に受信する。また、音声分配部508から自ユーザ情報を受信する。そして、受信した各音声データをバッファリングすることによって、各音声データ間で同期させる(対応付ける)。また、オーディオレンダラ509は、同期させた各音声データを、各音声データに付与された他ユーザ情報の仮想位置情報と自ユーザ情報の仮想位置情報とにより特定される、仮想空間における各他ユーザと自ユーザとの相対位置に基づいて立体化する。そして、オーディオレンダラ509は、2チャンネル(左チャンネルと右チャンネル)の信号データ(信号列)を含む会議音声データをRTP処理部502に出力する。なお、音声データの立体化の方法は、第1実施形態のオーディオレンダラ208のそれと基本的に同様である(図12および図13参照)。
会議端末2´は、映像サーバ4との間に映像交信用コネクションを確立し、該コネクションを介して自ユーザの映像データを映像サーバ4に送信する。また、該コネクションを介して映像サーバ4より会議画面データを受信して表示する。図20は会議端末2´の概略構成図である。
図示するように、会議端末2´は、音声入力部201と、映像入力部202と、音声出力部203と、映像出力部204と、操作受付部205と、オーディオエンコーダ206と、ビデオエンコーダ207と、オーディオデコーダ238と、ビデオデコーダ239と、プレゼンスプロバイダ210と、空間モデラ211と、IP網インターフェース部212と、RTP処理部233と、SIP制御部234と、発話通知部235と、着席情報作成部217と、を有する。ここで、図5に示す第1実施形態の会議端末2と同じ機能を有するものには同じ符号を付している。
SIP制御部234は、IP網インターフェース部212を介して映像サーバ4との間に映像交信用コネクションを確立する。また、IP網インターフェース部212を介して音声サーバ5との間に音声交信用コネクションを確立する。
RTP処理部233は、映像サーバ4との間で確立されている映像交信用コネクションを介してビデオエンコーダ207から出力された映像データを映像サーバ4に送信すると共に、該映像交信用コネクションを介して映像サーバ4から会議画面データを受信し、受信した会議画面データをビデオデコーダ239に送信する。また、音声サーバ5の間で確立されている音声交信用コネクションを介してオーディオエンコーダ206から出力された音声データを音声サーバ5に送信すると共に、該音声交信用コネクションを介して音声サーバ5から会議音声データを受信し、受信した会議音声データをオーディオデコーダ238に送信する。
ビデオデコーダ239は、RTP処理部233から受け取った会議画面データをデコードして映像信号を映像出力部204に出力する。オーディオデコーダ238は、RTP処理部233から受け取った会議音声データをデコードして音声信号を音声出力部204に出力する。
発話検出部235は、音声入力部201に入力する音声信号からユーザの発話の有無をモニタする。そして、発話(有音状態)を検出した場合に、IP網インターフェース部212を介して映像サーバ4に発話通知を送信する。また、所定期間(例えば10秒)の無音状態を検出した場合に、発話停止通知を映像サーバ4に送信する。
上記構成のプレゼンスサーバ1´、映像サーバ4および音声サーバ5も、第1実施形態のプレゼンスサーバ1と同様に、図15に示すような、プログラムに従ってデータの加工・演算を行なうCPU301と、CPU301が直接読み書き可能なメモリ302と、ハードディスク等の外部記憶装置303と、IP網3を介して外部システムとデータ通信をするための通信装置304と、を有する一般的なコンピュータシステムを利用することができる。具体的には、サーバ、ホストコンピュータなどである。
また、上記構成の会議端末2´も、第1実施形態の会議端末2と同様に、図15に示すような、プログラムに従ってデータの加工・演算を行なうCPU301と、CPU301が直接読み書き可能なメモリ302と、ハードディスク等の外部記憶装置303と、IP網3を介して外部システムとデータ通信をするための通信装置304と、入力装置305と、出力装置306とを有する一般的なコンピュータシステムを利用することができる。例えば、PDA、PCなどのコンピュータシステムである。
次に、上記構成のビデオ会議システムの概略動作を説明する。
図21は図17に示すビデオ会議システムの概略動作を説明するための図である。ここで、ユーザE〜Gの会議端末2´各々は、音声サーバ5および映像サーバ4のそれぞれとの間に音声交信用コネクション、映像交信用コネクションを確立しているものとする。
さて、ユーザE〜Gの会議端末2´各々は、定期的に、自ユーザの仮想位置情報をプレゼンスサーバ1´に送信する(S6001)。これを受けて、プレゼンスサーバ1´はユーザE〜G各々の仮想位置情報を管理する。
また、音声サーバ5は、定期的に、位置情報送信要求をプレゼンスサーバ1´に送信し(S6002)、その応答として、プレゼンスサーバ1´から全てのユーザE〜Gの仮想位置情報を入手する(S6003)。
また、映像サーバ4は、定期的に、位置情報送信要求をプレゼンスサーバ1´に送信し(S6004)、その応答として、プレゼンスサーバ1´から全てのユーザE〜Gの仮想位置情報を入手する(S6005)。
また、ユーザE〜Gの会議端末2´各々は、音声サーバ5との間に確立されている音声交信用コネクションを介して自ユーザの音声データを音声サーバ5に送信する(S6006)。音声サーバ5は、ユーザE〜Gの会議端末2´から送られてきた音声データを用いて、会議端末2´毎に、当該会議端末2のユーザE〜G向けの会議音声データを生成し、当該会議端末2との間に確立されている音声交信用コネクションを用いて当該会議端末に生成した会議音声データを送信する(S6007)。
また、ユーザE〜Gの会議端末2´各々は、映像サーバ4との間に確立されている映像交信用コネクションを介して自ユーザの映像データを映像サーバ4に送信する(S6008)。映像サーバ4は、ユーザE〜Gの会議端末2´から送られてきた映像データを用いて、会議端末2´毎に、当該会議端末2のユーザE〜G向けの会議画面データを生成し、当該会議端末2との間に確立されている映像交信用コネクションを用いて当該会議端末に生成した会議画面データを送信する(S6009)。
また、ユーザE〜Gの会議端末2´各々は、自ユーザの発話を検出すると(S6010)、発話検出通知を映像サーバ4に送信する(S6011)。これを受けて、映像サーバ4は、発話検出通知の送信元の映像データを必要に応じて会議画面データに含める。
以上、本発明の第2実施形態を説明した。本実施形態では、各会議端末2´は映像サーバ4との間にのみ映像交信用コネクションを確立すればよいので、IP網3のネットワークトラフィックを低減できる。また、会議端末2´のユーザが、仮想空間において所望のユーザが自身の前方に位置するように自身の仮想空間における位置および向きを指定することにより、発話の有無に関わらずに、所望のユーザの様子を確認できる。したがって、本実施形態によれば、必要な帯域を低く抑えることができ、且つ、その会議のキーパーソン等の様子を容易に確認できる。
なお、本発明は、上記の各実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
例えば、上記の各実施形態では、コネクションの確立にSIPを利用する場合を例にとり説明した。しかし、本発明はこれに限定されない。例えばH.323等のSIP以外の呼制御プロトコルを利用してもよい。なお、上記の第2実施形態のように、会議端末2´と映像サーバ4、音声サーバ5との間で常時通信を行なうことを前提する場合は、呼制御プロトコルに従った呼制御シーケンスを省略できる。
また、上記の第1実施形態に上記の第2実施形態の音声サーバ5を導入し、各会議端末2と音声サーバ5との間に音声交信用コネクションを確立して、会議端末2のオーディオレンダラ208による会議音声データ生成処理を省略してもよい。あるいは、上記の第1実施形態に上記の第2実施形態の映像サーバ4を導入し、各会議端末2と映像サーバ4との間に映像交信用コネクションを確立して、会議端末2の会議画面生成部209による会議画面データ生成処理を省略してもよい。
図1は本発明の第1実施形態が適用されたビデオ会議システムの概略構成図である。 図2はプレゼンスサーバ1の概略構成図である。 図3は位置情報記憶部104の登録内容を模式的に示した図である。 図4はプレゼンスサーバ1の動作フローを説明する図である。 図5は会議端末3の概略構成図である。 図6(A)は前方ユーザ検出部216による前方ユーザの検出および配置位置決定を説明するための図であり、図6(B)は前方ユーザ検出部216による発話ユーザの配置位置決定を説明するための図である。 図7は会議画面雛形データ2090の表示例を示す図である。 図8は会議画面生成部209の動作フローを説明する図である。 図9は会議画面生成部209の動作フローを説明する図である。 図10は会議画面データの表示例を示す図である。 図11は着席情報表示データの表示例を示す図である。 図12はオーディオレンダ208の処理を説明する図である。 図13は天井と床を省略した2次元のimage source methodを模式的に表した図である。 図14はSIP制御部214の動作フローを説明する図である。 図15はビデオ会議システムを構成する各装置のハードウエア構成例を示す図である。 図16は図1に示すビデオ会議システムの概略動作を説明するための図である。 図17は本発明の第2実施形態が適用されたビデオ会議システムの概略構成図である。 図18は映像サーバ4の概略図である。 図19は音声サーバ5の概略図である。 図20は会議端末2´の概略構成図である。 図21は図17に示すビデオ会議システムの概略動作を説明するための図である。
符号の説明
1、1´…プレゼンスサーバ、2、2´…会議端末、3…IP網、4…映像サーバ、5…音声サーバ、101…IP網インターフェース部、102…位置情報管理部、103…SIPサーバ処理部、104…位置情報記憶部、201…音声入力部、202…映像入力部、203…音声出力部、204…映像出力部、205…操作受付部、206…オーディオエンコーダ、207…ビデオエンコーダ、208…オーディオレンダラ、209…会議画面生成部、210…プレゼンスプロバイダ、211…空間モデラ、212…IP網インターフェース部、213…RTP処理部、214…SIP制御部、215…発話検出部、216…前方ユーザ検出部、217…着席情報生成部、233…RTP処理部、234…SIP制御部、238…オーディオデコーダ、239…ビデオデコーダ、401…IP網インターフェース部、402…RTP処理部、403…SIP制御部、404…プレゼンスプロバイダ、405…空間モデラ、406…前方ユーザ検出部、408…映像分配部、409…会議画面生成部、501…IP網インターフェース部、502…RTP処理部、503…SIP制御部、504…プレゼンスプロバイダ、505…空間モデラ、506…ユーザ情報生成部、508…音声分配部、509…オーディオレンダラ

Claims (12)

  1. ビデオ会議システムであって、
    複数の会議端末と、前記複数の会議端末各々のユーザの仮想空間上における位置を管理するプレゼンスサーバと、を有し、
    前記複数の会議端末各々は、
    他の会議端末からの映像送信要求に従い、自会議端末のユーザである自ユーザの映像データを要求元の会議端末に送信する映像データ送信手段と、
    前記自ユーザの前記仮想空間上における位置および向きを受け付ける位置受付手段と、
    前記位置受付手段で受け付けた位置および向きを含む自ユーザの仮想位置情報を前記プレゼンスサーバに送信する端末側位置情報送信手段と、
    前記プレゼンスサーバから自会議端末以外の会議端末のユーザである他ユーザ各々の仮想位置情報を受信する端末側位置情報受信手段と、
    前記自ユーザの仮想位置情報および前記他ユーザ各々の仮想位置情報に基づいて、前記仮想空間において前記自ユーザの前方に位置する少なくともひとりの他ユーザを、前方ユーザとして検出する前方ユーザ検出手段と、
    前記前方ユーザ検出手段で検出した前方ユーザ各々の会議端末に映像送信要求を送信して、前記前方ユーザ各々の会議端末からの前方ユーザの映像データを受信する映像データ受信手段と、
    前記映像データ受信手段で受信した前方ユーザの映像データ各々を含む会議画面をディスプレイに表示する表示制御手段と、を有し、
    前記プレゼンスサーバは、
    前記複数の会議端末各々から送られてきたユーザの仮想位置情報を管理する管理手段と、
    前記複数の会議端末の各々に対して、前記管理手段で管理されている当該会議端末以外の各会議端末のユーザの位置情報を当該会議端末に送信するサーバ側位置情報送信手段と、を有すること
    を特徴とするビデオ会議システム。
  2. 請求項1に記載のビデオ会議システムであって、
    前記複数の会議端末各々の表示制御手段は、
    前記前方ユーザ各々の仮想位置情報および前記自ユーザの仮想位置情報により特定される、前記仮想空間上における前記前方ユーザ各々と前記自ユーザとの相対位置に従って、前記前方ユーザ各々の映像データを前記会議画面に複数設けられた表示枠に順番に配置すること
    を特徴とするビデオ会議システム。
  3. 請求項1又は2に記載のビデオ会議システムであって、
    前記複数の会議端末各々は、
    前記自ユーザの音声データを、自会議端末以外の会議端末各々に送信する音声データ送信手段と、
    自会議端末以外の会議端末各々から他ユーザの音声データを受信する音声データ受信手段と、
    前記音声データ受信手段で受信した他ユーザの音声データ各々に対して、前記他ユーザ各々の仮想位置情報および前記自ユーザの仮想位置情報により特定される、前記仮想空間における前記他ユーザ各々と前記自ユーザとの相対位置に応じた立体音響処理を施し、立体音響処理された他ユーザの音声データ各々を合成して、立体合成音声データを生成する音声合成手段と、
    前記音声合成手段により生成された立体合成音声データをスピーカから出力する音声制御手段と、
    前記自ユーザの発話を検出する発話検出手段と、をさらに有し、
    前記複数の会議端末各々の映像データ送信手段は、
    前記発話検出手段が前記自ユーザの発話を検出した場合に、自会議端末以外の会議端末各々に前記自ユーザの映像データを、発話ユーザの映像データとして送信し、
    前記複数の会議端末各々の映像データ受信手段は、
    前記発話ユーザの映像データを受信し、
    前記複数の会議端末各々の表示制御手段は、
    前記映像データ受信手段で受信した発話ユーザの映像データが前記前方ユーザ以外の他ユーザの映像データである場合に、当該発話ユーザの映像データを前記会議画面に含めてディスプレイに表示すること
    を特徴とするビデオ会議システム。
  4. 請求項3に記載のビデオ会議システムであって、
    前記複数の会議端末各々の表示制御手段は、
    前記映像データ受信手段で受信した発話ユーザの映像データが前記前方ユーザ以外の他ユーザの映像データである場合に、前記発話ユーザの映像データを、前記自ユーザの位置情報および前記発話ユーザの位置情報により特定される、前記仮想空間上における前記発話ユーザと前記自ユーザとの相対位置に従って、前記会議画面中の前記前方ユーザ各々の映像データが配置された表示枠の右側あるいは左側にある表示枠に配置すること
    を特徴とするビデオ会議システム。
  5. ビデオ会議システムであって、
    複数の会議端末と、前記複数の会議端末各々のユーザの仮想空間上における位置を管理するプレゼンスサーバと、前記複数の会議端末各々に映像データを送信する映像サーバと、を有し、
    前記複数の会議端末各々は、
    自会議端末のユーザである自ユーザの映像データを前記映像サーバに送信する端末側映像データ送信手段と、
    前記自ユーザの前記仮想空間上における位置および向きを受け付ける位置受付手段と、
    前記位置受付手段で受け付けた位置および向きを含む自ユーザの仮想位置情報を前記プレゼンスサーバに送信する端末側位置情報送信手段と、
    前記映像サーバから会議画面データを受信する端末側映像データ受信手段と、
    前記端末側映像データ受信手段で受信した会議画面データをディスプレイに表示する表示制御手段と、を有し、
    前記映像サーバは、
    前記複数の会議端末各々から当該会議端末のユーザの映像データを受信する映像サーバ側映像データ受信手段と、
    前記プレゼンスサーバから前記複数の会議端末各々の仮想位置情報を受信する映像サーバ側位置情報受信手段と、
    前記複数の会議端末の各々について、当該会議端末の自ユーザの仮想位置情報および他ユーザ各々の仮想位置情報に基づいて、前記仮想空間において当該自ユーザの前方に位置する少なくともひとりの他ユーザを、前方ユーザとして検出する前方ユーザ検出手段と、
    前記複数の会議端末の各々に対して、前記映像サーバ側映像データ受信手段で受信した前記複数の会議端末各々のユーザの映像データのうち、前記前方ユーザ検出手段で検出した当該会議端末の前方ユーザ各々の映像データを含む会議画面データを、当該会議端末へ送信する映像サーバ側映像データ送信手段と、を有し、
    前記プレゼンスサーバは、
    前記複数の会議端末各々から送られてきたユーザの仮想位置情報を受信するプレゼンスサーバ側位置情報受信手段と、
    前記複数の会議端末の各々について、当該会議端末から送られてきたユーザの仮想位置情報を管理する管理手段と、
    前記管理手段で管理されている前記複数の会議端末各々のユーザの仮想位置情報を前記映像サーバに送信するプレゼンスサーバ側位置情報送信手段と、を有すること
    を特徴とするビデオ会議システム。
  6. 請求項5に記載のビデオ会議システムであって、
    前記映像サーバの映像サーバ側映像データ送信手段は、
    前記複数の会議端末の各々に対して、前記前方ユーザ検出手段で検出した当該会議端末の前方ユーザ各々と当該会議端末の自ユーザとの前記仮想空間上における相対位置に従って、当該前方ユーザ各々の映像データの前記会議画面における配置位置を決定し、当該前方ユーザ各々の映像データ各々が、前記決定された配置位置に従って、前記会議画面に複数設けられた表示枠に順番に配置された会議画面データを、当該会議端末に送信すること
    を特徴とするビデオ会議システム。
  7. 請求項5又は6に記載のビデオ会議システムであって、
    前記複数の会議端末各々に音声データを送信する音声サーバをさらに有し、
    前記複数の会議端末各々は、
    自会議端末のユーザである自ユーザの音声データを前記音声サーバに送信する音声データ送信手段と、
    前記音声サーバから立体合成音声データを受信する立体合成音声データ受信手段と、
    前記立体合成音声データ受信手段で受信した立体合成音声データをスピーカから出力する音声制御手段と、
    前記自ユーザの発話を検出して、発話検出信号を前記映像サーバに送信する発話検出手段と、をさらに有し、
    前記音声サーバは、
    前記複数の会議端末各々から当該会議端末のユーザの音声データを受信する音声データ受信手段と、
    前記プレゼンスサーバから前記複数の会議端末各々の仮想位置情報を受信する音声サーバ側位置情報受信手段と、
    前記複数の会議端末の各々について、前記音声データ受信手段で受信した音声データのうち、当該会議端末以外の会議端末のユーザである他ユーザの音声データ各々に対して、前記他ユーザ各々の仮想位置情報および当該会議端末のユーザである自ユーザの仮想位置情報により特定される、前記仮想空間における前記他ユーザ各々と前記自ユーザとの相対位置に応じた立体音響処理を施し、立体音響処理された他ユーザの音声データ各々を合成して、立体合成音声データを生成する音声合成手段と、
    前記複数の会議端末各々に対して、前記音声合成手段により生成された当該会議端末に対する立体合成音声データを当該会議端末に送信する立体合成音声データ送信手段と、を有し、
    前記映像サーバは、
    前記会議端末から発話検出信号を受信する発話検出信号受信手段をさらに有し、
    前記映像サーバの映像サーバ側映像データ送信手段は、
    前記発話検出信号受信手段が発話検出信号を受信した場合に、前記複数の会議端末の各々について、当該発話検出信号の送信元のユーザが前記前方ユーザ検出手段で検出した当該会議端末の前方ユーザ以外のユーザである場合に、当該ユーザの映像データを、発話ユーザの映像データとして会議画面データに含めて、当該会議端末へ送信すること
    を特徴とするビデオ会議システム。
  8. 請求項7に記載のビデオ会議システムであって、
    前記映像サーバの映像サーバ側映像データ送信手段は、
    前記複数の会議端末の各々に対して、当該会議端末に送信する発話ユーザの映像データの前記会議画面中における配置位置を、前記仮想空間上における前記発話ユーザと当該会議端末の自ユーザとの相対位置に従って決定し、前記発話ユーザの映像データが、前記決定された配置位置に従って、前記会議画面中の前記前方ユーザ各々の映像データが配置された表示枠の右側あるいは左側にある表示枠に配置された会議画面データを、当該会議端末に送信すること
    を特徴とするビデオ会議システム。
  9. 会議端末であって、
    他の会議端末からの映像送信要求に従い、自会議端末のユーザである自ユーザの映像データを要求元の会議端末に送信する映像データ送信手段と、
    前記自ユーザの仮想空間上における位置および向きを受け付ける位置受付手段と、
    前記位置受付手段で受け付けた位置および向きを含む自ユーザの仮想位置情報を、ビデオ会議に参加する複数の会議端末各々のユーザの前記仮想空間上における位置を管理するプレゼンスサーバに送信する端末側位置情報送信手段と、
    前記プレゼンスサーバから自会議端末以外の会議端末のユーザである他ユーザ各々の仮想位置情報を受信する端末側位置情報受信手段と、
    前記自ユーザの仮想位置情報および前記他ユーザ各々の仮想位置情報に基づいて、前記仮想空間において前記自ユーザの前方に位置する少なくともひとりの他ユーザを、前方ユーザとして検出する前方ユーザ検出手段と、
    前記前方ユーザ検出手段で検出した前方ユーザ各々の会議端末に映像送信要求を送信して、前記前方ユーザ各々の会議端末からの前方ユーザの映像データを受信する映像データ受信手段と、
    前記映像データ受信手段で受信した前方ユーザの映像データ各々を含む会議画面をディスプレイに表示する表示制御手段と、を有すること
    を特徴とする会議端末。
  10. コンピュータ読み取り可能なプログラムであって、
    前記プログラムは、コンピュータを、
    他の会議端末からの映像送信要求に従い、自会議端末のユーザである自ユーザの映像データを要求元の会議端末に送信する映像データ送信手段と、
    前記自ユーザの仮想空間上における位置および向きを受け付ける位置受付手段、
    前記位置受付手段で受け付けた位置および向きを含む自ユーザの仮想位置情報を、複数の会議端末各々のユーザの前記仮想空間上における位置を管理するプレゼンスサーバに送信する端末側位置情報送信手段と、
    前記プレゼンスサーバから自会議端末以外の会議端末のユーザである他ユーザ各々の位置情報を受信する端末側位置情報受信手段と、
    前記自ユーザの仮想位置情報および前記他ユーザ各々の仮想位置情報に基づいて、前記仮想空間において前記自ユーザの前方に位置する少なくともひとりの他ユーザを、前方ユーザとして検出する前方ユーザ検出手段と、
    前記前方ユーザ検出手段で検出した前方ユーザ各々の会議端末に映像送信要求を送信して、前記前方ユーザ各々の会議端末からの前方ユーザの映像データを受信する映像データ受信手段と、
    前記映像データ受信手段で受信した前方ユーザの映像データ各々を含む会議画面をディスプレイに表示する表示制御手段と、を有する会議端末として、機能させること
    を特徴とするコンピュータ読み取り可能なプログラム。
  11. 複数の会議端末各々に映像データを送信する映像サーバであって、
    前記複数の会議端末各々から当該会議端末のユーザの映像データを受信する映像サーバ側映像データ受信手段と、
    前記複数の会議端末各々のユーザの仮想空間上における位置を管理するプレゼンスサーバから前記複数の会議端末各々の仮想位置情報を受信する映像サーバ側位置情報受信手段と、
    前記複数の会議端末の各々について、当該会議端末の自ユーザの仮想位置情報および他ユーザ各々の仮想位置情報に基づいて、前記仮想空間において当該自ユーザの前方に位置する少なくともひとりの他ユーザを、前方ユーザとして検出する前方ユーザ検出手段と、
    前記複数の会議端末の各々に対して、前記映像サーバ側映像データ受信手段で受信した前記複数の会議端末各々のユーザの映像データのうち、前記前方ユーザ検出手段で検出した当該会議端末の前方ユーザ各々の映像データを含む会議画面データを、当該会議端末へ送信する映像サーバ側映像データ送信手段と、を有すること
    を特徴とする映像サーバ。
  12. コンピュータ読み取り可能なプログラムであって、
    前記プログラムは、コンピュータを、
    前記複数の会議端末各々から当該会議端末のユーザの映像データを受信する映像サーバ側映像データ受信手段と、
    前記複数の会議端末各々のユーザの仮想空間上における位置を管理するプレゼンスサーバから前記複数の会議端末各々の仮想位置情報を受信する映像サーバ側位置情報受信手段と、
    前記複数の会議端末の各々について、当該会議端末の自ユーザの仮想位置情報および他ユーザ各々の仮想位置情報に基づいて、前記仮想空間において当該自ユーザの前方に位置する少なくともひとりの他ユーザを、前方ユーザとして検出する前方ユーザ検出手段と、
    前記複数の会議端末の各々に対して、前記映像サーバ側映像データ受信手段で受信した前記複数の会議端末各々のユーザの映像データのうち、前記前方ユーザ検出手段で検出した当該会議端末の前方ユーザ各々の映像データを含む会議画面データを、当該会議端末へ送信する映像サーバ側映像データ送信手段と、を有する映像サーバとして、機能させること
    を特徴とするコンピュータ読み取り可能なプログラム。
JP2005068917A 2005-03-11 2005-03-11 ビデオ会議システム、プログラムおよび会議端末 Expired - Fee Related JP4741261B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005068917A JP4741261B2 (ja) 2005-03-11 2005-03-11 ビデオ会議システム、プログラムおよび会議端末
US11/356,172 US7835764B2 (en) 2005-03-11 2006-02-17 Video conferencing system, conference terminal and image server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005068917A JP4741261B2 (ja) 2005-03-11 2005-03-11 ビデオ会議システム、プログラムおよび会議端末

Publications (2)

Publication Number Publication Date
JP2006254166A true JP2006254166A (ja) 2006-09-21
JP4741261B2 JP4741261B2 (ja) 2011-08-03

Family

ID=36972308

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005068917A Expired - Fee Related JP4741261B2 (ja) 2005-03-11 2005-03-11 ビデオ会議システム、プログラムおよび会議端末

Country Status (2)

Country Link
US (1) US7835764B2 (ja)
JP (1) JP4741261B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008227693A (ja) * 2007-03-09 2008-09-25 Oki Electric Ind Co Ltd 話者映像表示制御システム、話者映像表示制御方法、話者映像表示制御プログラム、通信端末及び多地点テレビ会議システム
WO2009081550A1 (ja) * 2007-12-20 2009-07-02 Panasonic Corporation 接続装置、その接続方法、及びプログラム
JP2010232860A (ja) * 2009-03-26 2010-10-14 Sony Corp 情報処理装置、コンテンツ処理方法及びプログラム
WO2013115541A1 (ko) * 2012-02-03 2013-08-08 삼성에스디에스 주식회사 단말기, 영상 통화 제어 서버, 및 이를 이용한 영상 통화 시스템 및 방법
JP2014207568A (ja) * 2013-04-12 2014-10-30 富士通株式会社 情報処理装置、音声処理方法、及び音声処理プログラム
WO2016031549A1 (ja) * 2014-08-26 2016-03-03 株式会社リコー セッション制御システム、通信端末、通信システム、セッション制御方法、及びプログラム
WO2017098772A1 (ja) * 2015-12-11 2017-06-15 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019165845A (ja) * 2018-03-22 2019-10-03 株式会社コーエーテクモゲームス プログラム、画像処理方法、及び情報処理装置
JPWO2023042671A1 (ja) * 2021-09-17 2023-03-23
JP2024160220A (ja) * 2010-04-07 2024-11-13 アップル インコーポレイテッド 通話中のテレビ会議の確立

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7603413B1 (en) 2005-04-07 2009-10-13 Aol Llc Using automated agents to facilitate chat communications
US20100165069A1 (en) * 2006-03-29 2010-07-01 Shinya Kadono Image codec apparatus
WO2007129943A1 (en) * 2006-05-05 2007-11-15 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for management of virtual meetings
US8773494B2 (en) * 2006-08-29 2014-07-08 Microsoft Corporation Techniques for managing visual compositions for a multimedia conference call
US8990305B2 (en) * 2006-10-18 2015-03-24 Microsoft Corporation Techniques for virtual conferencing servers
US20080100694A1 (en) * 2006-10-27 2008-05-01 Microsoft Corporation Distributed caching for multimedia conference calls
WO2008064450A1 (en) * 2006-11-30 2008-06-05 Bce Inc. Method, system and apparatus for logging into a communication client
US8392503B2 (en) * 2007-06-19 2013-03-05 Cisco Technology, Inc. Reporting participant attention level to presenter during a web-based rich-media conference
US8208005B2 (en) * 2007-07-31 2012-06-26 Hewlett-Packard Development Company, L.P. System and method of determining the identity of a caller in a videoconferencing system
US8281003B2 (en) 2008-01-03 2012-10-02 International Business Machines Corporation Remote active window sensing and reporting feature
US8345664B2 (en) * 2008-01-11 2013-01-01 Panasonic Corporation IP communication apparatus
WO2009091026A1 (ja) * 2008-01-18 2009-07-23 Nec Corporation 利用者情報提供装置、利用者情報提示システム、及び利用者情報提示方法
US20090210802A1 (en) * 2008-02-19 2009-08-20 Microsoft Corporation Location information in presence
KR101545873B1 (ko) * 2008-09-26 2015-08-21 삼성전자주식회사 프리젠스 서비스 제공 시스템 및 방법
US20110158340A1 (en) * 2009-12-28 2011-06-30 Qualcomm Incorporated Virtual antenna array for wireless devices
US8731152B2 (en) 2010-06-18 2014-05-20 Microsoft Corporation Reducing use of periodic key frames in video conferencing
JP4945675B2 (ja) * 2010-11-12 2012-06-06 株式会社東芝 音響信号処理装置、テレビジョン装置及びプログラム
US20130028443A1 (en) * 2011-07-28 2013-01-31 Apple Inc. Devices with enhanced audio
US8879761B2 (en) 2011-11-22 2014-11-04 Apple Inc. Orientation-based audio
US9191619B2 (en) * 2012-08-01 2015-11-17 Google Inc. Using an avatar in a videoconferencing system
TWI477108B (zh) * 2013-02-22 2015-03-11 Quanta Comp Inc 視訊會議建立方法
US10142755B2 (en) * 2016-02-18 2018-11-27 Google Llc Signal processing methods and systems for rendering audio on virtual loudspeaker arrays
JP6306765B1 (ja) * 2017-02-27 2018-04-04 株式会社コロプラ 仮想空間を移動するためにコンピュータで実行される方法、当該方法をコンピュータに実行させるプログラムおよび情報処理装置
US11765320B2 (en) 2021-08-11 2023-09-19 Google Llc Avatar animation in virtual conferencing

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07147673A (ja) * 1993-11-22 1995-06-06 Nippon Telegr & Teleph Corp <Ntt> 人物映像表示システム
JPH07184180A (ja) * 1993-12-24 1995-07-21 Nec Corp 会議環境制御装置
JPH07236128A (ja) * 1994-02-25 1995-09-05 Sharp Corp 多地点会議制御装置
JPH10164539A (ja) * 1996-11-29 1998-06-19 Nec Corp 多画面伝送式多地点テレビ会議システム
JP2004007284A (ja) * 2002-05-31 2004-01-08 Ricoh Co Ltd 映像記録システム、プログラム及び記録媒体

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4400724A (en) * 1981-06-08 1983-08-23 The United States Of America As Represented By The Secretary Of The Army Virtual space teleconference system
US6330022B1 (en) * 1998-11-05 2001-12-11 Lucent Technologies Inc. Digital processing apparatus and method to support video conferencing in variable contexts
JP2000165831A (ja) * 1998-11-30 2000-06-16 Nec Corp 多地点テレビ会議システム
US6327567B1 (en) * 1999-02-10 2001-12-04 Telefonaktiebolaget L M Ericsson (Publ) Method and system for providing spatialized audio in conference calls
US7590231B2 (en) * 2003-08-18 2009-09-15 Cisco Technology, Inc. Supporting enhanced media communications in communications conferences
US7596102B2 (en) * 2004-12-06 2009-09-29 Sony Ericsson Mobile Communications Ab Image exchange for image-based push-to-talk user interface

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07147673A (ja) * 1993-11-22 1995-06-06 Nippon Telegr & Teleph Corp <Ntt> 人物映像表示システム
JPH07184180A (ja) * 1993-12-24 1995-07-21 Nec Corp 会議環境制御装置
JPH07236128A (ja) * 1994-02-25 1995-09-05 Sharp Corp 多地点会議制御装置
JPH10164539A (ja) * 1996-11-29 1998-06-19 Nec Corp 多画面伝送式多地点テレビ会議システム
JP2004007284A (ja) * 2002-05-31 2004-01-08 Ricoh Co Ltd 映像記録システム、プログラム及び記録媒体

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008227693A (ja) * 2007-03-09 2008-09-25 Oki Electric Ind Co Ltd 話者映像表示制御システム、話者映像表示制御方法、話者映像表示制御プログラム、通信端末及び多地点テレビ会議システム
WO2009081550A1 (ja) * 2007-12-20 2009-07-02 Panasonic Corporation 接続装置、その接続方法、及びプログラム
JP2009152906A (ja) * 2007-12-20 2009-07-09 Panasonic Corp 接続装置、その接続方法、及びプログラム
US8676889B2 (en) 2007-12-20 2014-03-18 Panasonic Corporation Connection device, connection method for the same, and program
JP2010232860A (ja) * 2009-03-26 2010-10-14 Sony Corp 情報処理装置、コンテンツ処理方法及びプログラム
JP2024160220A (ja) * 2010-04-07 2024-11-13 アップル インコーポレイテッド 通話中のテレビ会議の確立
US9307194B2 (en) 2012-02-03 2016-04-05 Samsung Sds Co., Ltd. System and method for video call
WO2013115541A1 (ko) * 2012-02-03 2013-08-08 삼성에스디에스 주식회사 단말기, 영상 통화 제어 서버, 및 이를 이용한 영상 통화 시스템 및 방법
JP2014207568A (ja) * 2013-04-12 2014-10-30 富士通株式会社 情報処理装置、音声処理方法、及び音声処理プログラム
WO2016031549A1 (ja) * 2014-08-26 2016-03-03 株式会社リコー セッション制御システム、通信端末、通信システム、セッション制御方法、及びプログラム
JPWO2016031549A1 (ja) * 2014-08-26 2017-07-13 株式会社リコー セッション制御システム、通信端末、通信システム、セッション制御方法、及びプログラム
WO2017098772A1 (ja) * 2015-12-11 2017-06-15 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JPWO2017098772A1 (ja) * 2015-12-11 2018-09-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10511807B2 (en) 2015-12-11 2019-12-17 Sony Corporation Information processing apparatus, information processing method, and program
US10834359B2 (en) 2015-12-11 2020-11-10 Sony Corporation Information processing apparatus, information processing method, and program
JP2019165845A (ja) * 2018-03-22 2019-10-03 株式会社コーエーテクモゲームス プログラム、画像処理方法、及び情報処理装置
JP7157537B2 (ja) 2018-03-22 2022-10-20 株式会社コーエーテクモゲームス プログラム、画像処理方法、及び情報処理装置
JPWO2023042671A1 (ja) * 2021-09-17 2023-03-23
JP7845371B2 (ja) 2021-09-17 2026-04-14 ヤマハ株式会社 音信号処理方法、端末、音信号処理システム、管理装置

Also Published As

Publication number Publication date
JP4741261B2 (ja) 2011-08-03
US20060206560A1 (en) 2006-09-14
US7835764B2 (en) 2010-11-16

Similar Documents

Publication Publication Date Title
JP4741261B2 (ja) ビデオ会議システム、プログラムおよび会議端末
JP4426484B2 (ja) 音声会議システム、会議端末および音声サーバ
US11991315B2 (en) Audio conferencing using a distributed array of smartphones
US9049339B2 (en) Method for operating a conference system and device for a conference system
AU2003266592B2 (en) Video telephone interpretation system and video telephone interpretation method
US7533346B2 (en) Interactive spatalized audiovisual system
US9253572B2 (en) Methods and systems for synthetic audio placement
CA2304900C (en) Virtual meeting rooms with spatial audio
JP2975687B2 (ja) 第1局・第2局間に音声信号とビデオ信号とを送信する方法、局、テレビ会議システム、第1局・第2局間に音声信号を伝送する方法
US7899171B2 (en) Voice call system and method of providing contents during a voice call
US20060008117A1 (en) Information source selection system and method
EP2352290B1 (en) Method and apparatus for matching audio and video signals during a videoconference
WO2023042671A1 (ja) 音信号処理方法、端末、音信号処理システム、管理装置
JP7191146B2 (ja) 配信サーバ、配信方法、及びプログラム
US8411598B2 (en) Telephony user interface to specify spatial audio direction and gain levels
JP2023043497A (ja) リモート会議システム
JP2020036225A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN116057928A (zh) 信息处理装置、信息处理终端、信息处理方法和程序
JP2008118235A (ja) テレビ会議システム、及び、テレビ会議システムにおける制御方法
Kanada Multi-Context Voice Communication
Albrecht et al. Continuous Mobile Communication with Acoustic Co-Location Detection
JP2005122023A (ja) 高臨場感音響信号出力装置、高臨場感音響信号出力プログラムおよび高臨場感音響信号出力方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110406

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110426

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110506

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees