JP6897451B2

JP6897451B2 - 端末、プログラム、通信方法及び通信システム

Info

Publication number: JP6897451B2
Application number: JP2017182211A
Authority: JP
Inventors: 鳥越　真; 真鳥越; 大藤枝
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2021-06-30
Anticipated expiration: 2037-09-22
Also published as: JP2019057876A

Description

本発明は、端末、プログラム、通信方法及び通信システムに関する。

近年、ネットワーク及びマルチメディア伝送技術の発達により、遠隔地のサテライトオフィス同士、または地方のサテライトオフィスと本社を結ぶテレワークの導入が容易となっている。このため、経営改革の一環として、テレワークの導入を推進している企業が増加している。

同一空間で一緒に作業を行っているメンバー間の会話は、あるメンバーが他のメンバーに声をかけ、他のメンバーも自分への声かけを認知することにより開始される。テレワークにおいては、遠隔地のメンバー間の会話が電話で行われる。この電話での会話も、各メンバーが同一空間に存在する感覚で行われることが望ましい。

この点に関し、特許文献１には、発呼元ユーザが相手ユーザの名前を声に出すと、音声認識により相手ユーザを特定し、相手ユーザに発呼する電話機が開示されている。特許文献２には、呼びかけモードを有する電話機であって、呼びかけモードに設定された電話機に発呼元ユーザが例えば「おはよう」と呼びかけると、相手ユーザの電話機に「おはよう」という音声を送信する電話機が開示されている。相手ユーザの電話機に送信された音声は、相手ユーザの電話機から着信音として出力される。

特開２００２−３３８２０号公報特許第５９７８８２５号公報

しかし、特許文献１に記載の電話機では、相手ユーザが発呼元ユーザからの呼びかけを聞くことできない。また、特許文献２に記載の電話機では、発呼元ユーザが相手ユーザを電話帳から探して発呼操作を行う必要がある。このため、いずれの電話機でも、２人のユーザが同一空間で一緒に作業を行っているかのような感覚を得ることは難しい。

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、複数のユーザが同一空間に存在するかのような感覚でユーザ間の会話が開始されることを支援する、新規かつ改良された端末、プログラム、通信方法及び通信システムを提供することにある。

上記課題を解決するために、本発明のある観点によれば、入力音声を記憶する音声バッファと、入力音声から、対象の呼び名と前記対象への呼出確認とを含む接続コマンドを検出し、前記呼び名を検出する呼び名検出部、及び前記呼出確認を検出する呼出検出部を含む接続コマンド検出部と、前記呼出検出部により前記呼出確認が検出される前に、前記呼び名検出部により検出された呼び名の表示を制御する表示制御部と、接続コマンドに含まれる呼び名に対応する他の端末との接続を制御する接続制御部と、他の端末が接続された後に、音声バッファに記憶された前記接続コマンドを含む入力音声を他の端末に送信する送信部と、を備える、端末が提供される。

接続コマンド検出部は、タイマーを備え、前記表示制御部は、所定時間経過までに呼出確認が検出されない場合は、前記候補表示を消去してもよい。

送信部は、音声バッファに記憶された入力音声の末尾から遡った箇所を起点にして入力音声の送信を開始してもよい。

送信部は、音声バッファに記憶された入力音声の末尾から、接続コマンド検出部により検出された接続コマンドに応じた時間分遡った箇所を起点にして、入力音声の送信を開始してもよい。

端末は、入力音声から切断コマンドを検出する切断コマンド検出部をさらに備え、接続制御部は、切断コマンド検出部により切断コマンドが検出されたことに基づいて、他の端末との接続を切断してもよい。

切断コマンド検出部は、事前に設定された第１の切断コマンド辞書または第２の切断コマンド辞書に含まれるコマンドを切断コマンドとして検出し、他の端末との接続から所定時間が経過する以前は第１の切断コマンド辞書を用いて、他の端末との接続から所定時間が経過した後は第２の切断コマンド辞書を用いて切断コマンドを検出してもよい。

端末は撮像部をさらに備え、送信部は、他の端末が接続された後に、撮像部により得られた撮像画像を他の端末に送信してもよい。

また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、入力音声から、対象の呼び名と前記対象への呼出確認とを含む接続コマンドを検出し、前記呼び名を検出する呼び名検出部、及び前記呼出確認を検出する呼出検出部を含む接続コマンド検出部と、前記呼出検出部により前記呼出確認が検出される前に、前記呼び名検出部により検出された呼び名の表示を制御する表示制御部と、接続コマンドに含まれる呼び名に対応する他の端末との接続を制御する接続制御部と、他の端末が接続された後に、音声バッファに記憶された接続コマンドを含む入力音声を他の端末に送信する送信部と、として機能させるための、プログラムが提供される。

また、上記課題を解決するために、本発明の別の観点によれば、入力音声を記憶する音声バッファに記憶することと、入力音声から、対象の呼び名と前記対象への呼出確認とを含む接続コマンドを検出することと、前記呼出確認が検出される前に、検出された前記呼び名の表示を制御することと、接続コマンドに含まれる呼び名に対応する他の端末との接続を制御することと、他の端末が接続された後に、音声バッファに記憶された接続コマンドを含む入力音声を他の端末に送信することと、を含む、通信方法が提供される。

また、上記課題を解決するために、さらに本発明の別の観点によれば、複数の端末を有する通信システムであって、複数の端末のうちの第１の端末は、入力音声を記憶する音声バッファ、入力音声から、対象の呼び名と前記対象への呼出確認とを含む接続コマンドを検出し、前記呼び名を検出する呼び名検出部、及び前記呼出確認を検出する呼出検出部を含む接続コマンド検出部、前記呼出検出部により前記呼出確認が検出される前に、前記呼び名検出部により検出された呼び名の表示を制御する表示制御部、接続コマンドに含まれる呼び名に対応する第２の端末との接続を制御する接続制御部、及び第２の端末が接続された後に、音声バッファに記憶された接続コマンドを含む入力音声を第２の端末に送信する送信部、を有し、第２の端末は、第１の端末から送信される入力音声を出力する、通信システムが提供される。

以上説明したように本発明によれば、複数のユーザが同一空間に存在するかのような感覚でユーザ間の会話が開始されることを支援することが可能である。

本実施形態に係る遠隔コミュニケーションシステムの構成の一例を示す説明図である。同実施形態に係る端末２０の構成の一例を示す説明図である。同実施形態に係る撮像装置１０の構成の一例を示す説明図である。同実施形態に係る端末管理サーバ１１の構成の一例を示す説明図である。同実施形態に係る端末２０の構成の一例を示す説明図である。同実施形態に係る接続コマンドＣ１の検出に用いられる辞書の一例を示す説明図である。同実施形態に係る切断コマンドＣ２の検出に用いられる辞書の一例を示す説明図である。同実施形態に係る第１の端末２０により他の拠点のメンバーと通信を接続する様子の一例を示す説明図である。対話状態が確立された第２の端末２０の一例を示す説明図である。同実施形態に係る端末２０の動作の流れの一例を示すフローチャートである。同実施形態に係る動作の流れの一例を示すシーケンス図である。同実施形態に係る動作の流れの一例を示すシーケンス図である。同実施形態に係る音声バッファ長をフレーズごとに割り当てた一例を示す説明図である。端末２０のハードウェア構成を示したブロック図である。

以下に添付図面を参照しながら、本発明の実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成または論理的意義を有する複数の構成を、必要に応じて端末２０Ａ及び２０Ｂのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、複数の構成要素の各々に同一符号のみを付する。例えば、端末２０Ａ及び２０Ｂを特に区別する必要が無い場合には、各端末を単に端末２０と称する。

＜＜１．遠隔コミュニケーションシステムの構成＞＞
本発明の実施形態は、遠隔する拠点間でのコミュニケーションを実現する遠隔コミュニケーションシステムに関する。以下、図１及び図２を参照し、遠隔コミュニケーションシステムの概要を説明する。

図１は、本発明の実施形態による遠隔コミュニケーションシステムの構成の一例を示す説明図である。また、図２は、端末２０の構成の一例を示す説明図である。本発明の実施形態による遠隔コミュニケーションシステムは、撮像装置１０と、端末２０と、端末管理サーバ１１と、ネットワーク１２とを有する。図１は、２か所の拠点間でのコミュニケーションを例示しており、ネットワーク１２は、拠点Ａに設けられる撮像装置１０Ａ及び端末２０Ａと、拠点Ｂに設けられる撮像装置１０Ｂ及び端末２０Ｂと、端末２０の利用者に関する情報を管理する端末管理サーバ１１とを接続している。また、端末２０は、図２に示すように、映像を取得する撮像部２２０と、音声を取得する音声入力部２３０と、表示部２４０と、音声出力部２５０とを備えることができる。

＜撮像装置１０の構成＞
撮像装置１０は、拠点の俯瞰映像を撮像する機能と、拠点の環境音を収音する機能と、かかる俯瞰映像と環境音とを送信する機能を有する。図３は、撮像装置１０の構成の一例を示す説明図である。撮像装置１０は、俯瞰映像入力部１０２と、環境音入力部１０３と、通信部１０４を有することができる。俯瞰映像入力部１０２は、拠点の映像を撮影する機能を有する。環境音入力部１０３は、拠点の音声を収音する機能を有する。通信部１０４は、俯瞰映像入力部１０２により撮影された俯瞰映像と、環境音入力部１０３で集音された環境音とを、ネットワーク１２を介して他の拠点に送信する機能を有する。かかる撮像装置１０により、拠点Ａに設けられる撮像装置１０Ａは、拠点Ａの俯瞰映像及び環境音を、ネットワーク１２を介して拠点Ｂに送信し、同様に、拠点Ｂに設けられる撮像装置１０Ｂは、拠点Ｂの俯瞰映像及び環境音を、ネットワーク１２を介して拠点Ａに送信することができる。ここで、撮像装置１０は、俯瞰映像入力部１０２と環境音入力部１０３の双方を必ずしも備えなくてもよく、俯瞰映像入力部１０２を備えなくてもよいし、環境音入力部１０３を備えなくてもよい。また、一方の拠点で撮影した俯瞰映像と、集音した環境音とは、他方の拠点に必ずしも送信されなくてもよい。さらに、環境音入力部１０３は、オフィスの中央等に設置して必要な音声を収音できるように、俯瞰映像入力部１０２と分離されてもよい。

＜端末管理サーバ１１の構成＞
端末管理サーバ１１は、利用者の名称等の情報と端末情報とが紐づけられた情報を管理する機能を有する。端末情報は、端末２０の識別子および俯瞰映像内における端末２０の座標データを含む。また、端末２０が複数人による共同利用のために設置される場合、端末情報は、俯瞰映像内における利用者の座席の座標を含む。図４に示したように、端末管理サーバ１１は、端末情報記憶部１１２と、端末情報検索部１１３と、通信部１１４とを備えることができる。

端末情報記憶部１１２は、利用者の名称等の情報と端末情報とが紐づけられた情報を記憶する機能を有する。端末情報検索部１１３は、端末情報記憶部１１２に記憶された情報を検索する機能を有する。通信部１１４は、ネットワーク１２を介した通信を行う機能を有し、ネットワーク１２を介して受信した端末情報検索指示を端末情報検索部１１３へ送信する。また、通信部１１４は、検索された端末情報を、ネットワーク１２を介して、端末２０へ送信する機能を有する。

このような端末管理サーバ１１は、例えば、ＸＭＰＰ（ｅＸｔｅｎｓｉｂｌｅＭｅｓｓａｇｉｎｇａｎｄＰｒｅｓｅｎｃｅＰｒｏｔｏｃｏｌ）を用いて独立した管理サーバを構築してもよいし、複数備えられる端末２０のいずれか１つへ組み込んでもよいし、複数の端末２０へ分散して配置するように構成されてもよい。

＜ネットワーク１２＞
ネットワーク１２は、複数の拠点と、端末管理サーバ１１とを接続する。ネットワーク１２は、電話回線網、インターネット、衛星通信網などの公衆回線網や、ＬＡＮ（ＬｏｃａｌＡｅｒａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク１２は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

＜端末２０の構成＞
端末２０は、複数の拠点間でのコミュニケーションを支援するための装置であり、例えば、端末２０は、拠点Ａに居る対話要求送信側のメンバーが発する音声から、拠点Ｂに居る対話要求受信側のメンバーに関する名称等の音声情報を認識すると、対話要求送信側のメンバーと、対話要求受信側のメンバーとが対話できるような状態を確立する。

端末２０の構成について、図５を参照しながら詳細に説明する。図５は、端末２０の構成の一例を示す説明図である。端末２０は、音声バッファ２３１と、接続コマンド検出部２３４と、接続制御部２３６と、送信部としての機能を有する通信部２６０を備えており、また、撮像部２２０と、音声入力部２３０と、表示部２４０と、音声出力部２５０と、出力制御部２３７を備えることができる。

（撮像部２２０）
撮像部２２０は、端末２０を利用するメンバーを撮像する機能を有する。例えば、対話要求送信側メンバーの端末２０Ａの撮像部２２０は、当該メンバーの映像を撮像により取得する。拠点Ａの端末２０Ａと拠点Ｂの端末２０Ｂとの接続が確立された場合、端末２０Ａは、撮像部２２０により取得された映像を、ネットワーク１２を介して拠点Ｂの端末２０Ｂに送信することができる。同様に、拠点Ａの端末２０Ａと拠点Ｂの端末２０Ｂとの接続が確立された場合、端末２０Ｂは、撮像部２２０により取得された映像を、ネットワーク１２を介して拠点Ａの端末２０Ａに送信することができる。

（音声入力部２３０）
音声入力部２３０は、音声の入力機能を有し、利用者の発話等の音声が取得される。例えば、拠点Ａに居る対話要求送信側メンバーの端末２０Ａの音声入力部２３０は、当該メンバーの音声を収音する。音声入力部２３０により収音された音声は、ネットワーク１２を介して、対話要求受信側メンバーが利用する端末２０Ｂに送信される。同様に、拠点Ｂに居る対話要求受信側メンバーの端末２０Ｂの音声入力部２３０は、当該メンバーの音声を収音する。音声入力部２３０により収音された音声は、ネットワーク１２を介して、対話要求送信側端末２０Ａに送信されてもよい。

（表示部２４０）
表示部２４０は、映像を表示する機能を有する。例えば、対話要求送信側の拠点Ａに配置される端末２０Ａの表示部２４０Ａは、図２に示したように、対話要求受信側の拠点Ｂの撮像装置１０Ｂから送信された拠点Ｂの俯瞰映像を表示することができる。また、表示部２４０Ａは、対話要求受信側メンバーが利用する端末２０Ｂの撮像部２２０Ｂで撮影された映像を表示することができる。さらに、表示部２４０Ａは対話要求送信側の俯瞰映像を表示することもできるし、対話要求送信側端末２０Ａの撮像部２２０Ａで取得された映像を表示することもできる。

（音声出力部２５０）
音声出力部２５０は、音声を出力する機能を有し、スピーカーで構成され得る。例えば、拠点Ａに位置する端末２０Ａの音声出力部２５０は、拠点Ｂの撮像装置１０Ｂから送信された拠点Ｂの環境音を出力する。

なお、図２で示した、撮像部２２０、音声入力部２３０、表示部２４０、及び音声出力部２５０は、端末２０に一体的に実装される例を示したが、端末２０に実装されずに別途構成されてもよい。

ここで、対話要求送信側メンバーが利用する端末２０を第１の端末２０とし、対話要求受信側メンバーが利用する端末２０を第２の端末２０とする。第１の端末２０は上記のように、音声バッファ２３１と、接続コマンド検出部２３４と、接続制御部２３６と、送信部としての機能を有する通信部２６０を備えており、また、撮像部２２０と、音声入力部２３０と、表示部２４０と、音声出力部２５０と、出力制御部２３７と、端末情報保持部２３９を備えることができる。また、かかる第２の端末２０は、第１の端末２０から送信される入力音声を出力することができ、第１の端末２０と同様の構成を備えることもできる。

（音声バッファ２３１）
音声バッファ２３１は、音声入力部２３０で取得された入力音声を記憶する機能を有する。さらに音声バッファ２３１は、対話要求送信側の端末２０である第１の端末２０と、対話要求受信側の端末２０である第２の端末２０とが接続されたときに、記憶したデータを、通信部２６０を介して第２の端末２０に対して送信する。

（音声認識部２３２）
音声認識部２３２は、音声入力部２３０で取得された入力音声を受信し、認識する機能を有する。入力音声の認識は、単語及びまとまりを有するフレーズのような、後述するコマンド検出に使用する辞書に登録した言葉の単位ですることができる。また、音声認識部２３２は、認識した入力音声を接続コマンド検出部２３４、及び切断コマンド検出部２３５に送信する。

（接続コマンド検出部２３４）
接続コマンド検出部２３４は、接続コマンドＣ１を検出し接続判定する機能を有する。接続コマンド検出部２３４は、接続コマンドＣ１を検出するための辞書を備えることができる。ここで、図６を参照しながら接続コマンドＣ１の検出方法について説明する。図６は、接続コマンドＣ１の検出に用いられる辞書の一例を示す説明図である。具体的には、接続コマンド検出部２３４は、第１の端末２０が接続状態でない場合に、受信した入力音声の中から接続コマンドＣ１を検出し、検出結果に基づいて、他の端末２０から接続すべき第２の端末２０を判定する。かかる接続コマンドＣ１は、名称Ｃ１２と、敬称Ｃ１４と、呼出確認Ｃ１６とを含む。

詳細には、接続コマンド検出部２３４は、名称Ｃ１２及び敬称Ｃ１４等を検出する呼び名検出部２３４２と、呼出確認Ｃ１６を検出する呼出検出部２３４４とを備えることができる。接続コマンド検出部２３４で検出される呼び名は、単なる氏名だけでなく、あだ名及び通称等の対話したい相手を特定するために通常用いることができるようなものを含む。

接続コマンド辞書Ｊ１は、名称検出用辞書Ｊ１２と、敬称検出用辞書Ｊ１４と、呼出検出用辞書Ｊ１６とを有することができる。また、接続コマンド辞書Ｊ１は、対話要求送信側メンバーが呼びかける際に使用する文言、単語等のフレーズをコマンド候補として予め登録しておくことができる。例えば、名称検出用辞書Ｊ１２に含まれる名称には、「佐藤」、「鈴木」、「高橋」等が例示でき、敬称検出用辞書Ｊ１４に登録されるフレーズには、「さん」、「くん」、「ちゃん」、「部長」等が例示でき、呼出確認検出用辞書Ｊ１６に登録されるフレーズには、「ちょっといい？」、「ちょっといいですか？」、「いま時間ある？」等が例示できる。そして、接続コマンド検出部２３４は、入力音声と、接続コマンド辞書Ｊ１に予め登録されたコマンド候補とを比較して接続コマンドＣ１を検出する。このように、接続コマンド検出部２３４は、名称Ｃ１２、敬称Ｃ１４、に加えて呼出確認Ｃ１６のフレーズを接続コマンドＣ１として検出した場合に、接続動作を行う。これにより、端末２０付近で行われる会話の中に出てくる名称と敬称を検出し、意図しない接続がされるのを防止することができる。

また、接続コマンド検出部２３４は、呼出検出部２３４４により呼出確認が検出される前に、表示制御部２４０において呼出検出部２３４４により検出可能な候補を表示することができるように構成してもよい。これにより、対話要求送信側メンバーが呼びかける際に使用可能なフレーズの候補を事前に確認することができ、候補の中から適切なフレーズを選択して発話することにより、検出漏れを軽減することが可能となる。この場合、接続コマンド検出部２３４はタイマーを備え、所定時間経過までに呼出確認が検出されない場合は前記候補表示を消去するように構成するとよい。

（切断コマンド検出部２３５）
切断コマンド検出部２３５は、第１の端末２０と、第２の端末２０とが接続状態である場合に、切断判定を行う機能を有し、入力音声から切断コマンドを検出する機能を有する。具体的には、入力音声の中から切断コマンドが検出された場合は、第１の端末２０と第２の端末２０との間の接続が切断され、切断コマンドが検出されない場合は、上記接続は維持される。

ここで、図７を参照しながら、切断コマンドの検出方法について説明する。図７は、切断コマンドの検出に用いられる辞書の一例を示す説明図である。切断コマンド検出部２３５は、例えば、図７に示すような切断コマンド辞書Ｊ２を記憶することができる。切断コマンド辞書Ｊ２は、入力音声に含まれる切断コマンドＣ２の検出に用いられる。切断判定は、受信した入力音声と、切断コマンド辞書Ｊ２に予め登録されたコマンド候補とを比較し、切断コマンドＣ２が検出された場合は、接続を切断し、切断コマンドＣ２が検出されない場合は、接続を維持する。切断コマンド候補として、対話中に使用する文言、単語等のフレーズが、予め切断コマンド辞書Ｊ２に登録される。さらに、切断コマンド辞書Ｊ２は、拒否コマンド候補を含む辞書である第１の切断コマンド辞書Ｊ２２と、終了コマンド候補を含む辞書である第２の切断コマンド辞書Ｊ２４とに大別することができる。第１の切断コマンド辞書Ｊ２２と、第２の切断コマンド辞書Ｊ２４は、いずれも切断コマンド検出のために利用されるものであるが、第１の切断コマンド辞書Ｊ２２は、第１の端末２０と第２の端末２０とが接続された直後から所定の時間の間にのみ、切断コマンドＣ２の検出に利用される。一方、第２の切断コマンド辞書Ｊ２４は、上記所定の時間が経過した後から、第１の切断コマンド辞書Ｊ２２に替わって、切断コマンドＣ２の検出に利用される。このとき、切断コマンド検出部２３５は、タイマーを有する、拒否コマンド検出部もしくは終了コマンド検出部を実装することもでき、例えば、かかるタイマーを用いて、上記のような、利用する辞書の切り替えを行うタイミングを設定することができる。切り替え時間の設定をする方法は、特段制限されず、所定の時間経過した時に、切断コマンド検出に用いる辞書を、第１の切断コマンド辞書Ｊ２２から、第２の切断コマンド辞書Ｊ２４に切り替えられればよい。このように切断コマンド辞書Ｊ２を、第１の切断コマンド辞書Ｊ２２と、第１の切断コマンド辞書Ｊ２４に大別することで、対話中の誤認識、あるいは不意の認識による切断が軽減される。

（接続制御部２３６）
接続制御部２３６は、制御内容を通信部２６０に送信する機能を有する。具体的には、接続コマンド検出部２３４及び切断コマンド検出部２３５で判定された結果に基づき、制御内容を通信部２６０に送信する。

（端末情報保持部２３９）
端末情報保持部２３９は、端末２０の識別子や利用者の情報を保持する機能を有する。端末情報保持部２３９が保持する情報は、端末管理サーバ１１で管理されており、通信接続の際の接続すべき端末２０の検索に使用される。

（通信部２６０）
通信部２６０は、映像及び音声を通信する機能を有する。例えば、通信部２６０は、対話要求受信側の拠点に設けられた撮像装置１０により取得された俯瞰映像及び環境音を受信する受信部としての機能を有する。また、通信部２６０は、対話状態において、第２の端末２０の撮像部２２０により取得された映像と、音声入力部２３０により取得された音声とを受信することができる。また、通信部２６０は、対話状態において、第１の端末２０の撮像部２２０により取得された映像と、音声入力部２３０により取得された音声を、第２の端末２０に送信する送信部として機能を有する。さらに、通信部２６０は、接続制御部２３６から送信された制御内容に基づいて、第２の端末２０に対話要求を送信することも可能であるし、他の拠点の端末２０から対話要求を受信し、出力制御部２３７へ制御指示を送信する機能を有する。

（出力制御部２３７）
出力制御部２３７は、通信部２６０から送信された制御指示に基づき、表示部２４０及び音声出力部２５０を制御する機能を有する。例えば、出力制御部２３７は、対話要求受信側の拠点に設けられた撮像装置１０により取得された俯瞰映像、及び第２の端末２０の撮像部２２０により取得された映像を、表示部２４０で表示するように制御することができる。また、出力制御部２３７は、対話要求受信側の拠点に設けられた撮像装置１０により取得された環境音、もしくは第２の端末２０の音声入力部２３０により取得された音声を、音声出力部２５０で出力するように制御することができる。さらに、出力制御部２３７は、接続コマンド検出部２３４において検出された呼び名や接続コマンドＣ１のフレーズ候補を、表示部２４０で表示するように制御する表示制御部としての機能を備えることも可能である。

ここで、図８及び図９を参照しながら、端末２０を利用して他の拠点のメンバーと通信を接続する様子の一例について説明する。図８は、第１の端末２０として拠点Ａに設けられた端末２０Ａと、第２の端末２０として他の拠点である拠点Ｂに設けられた端末２０Ｂとの通信を接続する様子の一例を示す説明図である。図９は、接続が確立されたときの第２の端末２０（すなわち端末２０Ｂ）の様子の一例を示す説明図である。

図８において、端末２０Ａの表示部２４０Ａは、端末２０Ｂを利用する対話要求受信側の拠点Ｂの俯瞰映像を表示し、音声出力部２５０Ａは拠点Ｂの環境音を出力している。かかる状態で、対話要求送信側メンバーＭ１０が、表示部２４０Ａに表示された対話要求受信側の拠点の俯瞰映像を確認し、対話要求の呼びかけＶ１０を行う。図８における呼びかけＶ１０は、「佐藤さんちょっといいですか？」というフレーズである。この呼びかけＶ１０は、音声入力部２３０Ａで取得されるとともに、入力音声中の呼び名である「佐藤さん」が呼び名検出部２３４２で検出され、表示部２４０Ａに表示されている佐藤さんの座席付近に「佐藤さん」という呼び名が表示される。さらに呼出確認Ｃ１４が呼出検出部２３４４で検出され、端末２０Ａと端末２０Ｂとは、通信が接続される。

一方、端末２０Ｂでは、図９に示すように、対話要求送信側メンバーＭ１０の映像Ｍ１０´、すなわち撮像部２２０Ａで撮影された映像が、表示部２４０Ｂに表示される。さらに、対話要求送信側メンバーＭ１０による対話要求の呼びかけＶ１０´が音声出力部２５０Ｂから出力される。このとき、表示部２４０Ｂに俯瞰映像が表示されている場合は、表示部２４０Ｂは、接続のタイミングで、撮像部２２０Ａで出力された対話要求送信側メンバーＭ１０の映像Ｍ１０´を出力することができる。また、端末２０Ａは、撮像部２２０Ｂで取得された映像を表示部２４０Ａに表示することができ、音声入力部２３０Ｂで取得された音声を音声出力部２５０Ａで出力することができる。

以上のように、利用する第１の端末２０に向かって、対話したい相手の呼び名と、呼出確認のフレーズを発話するだけで、第２の端末２０と接続し、発話時のフレーズをそのまま対話要求受信側メンバーに伝えることが可能となる。

上記のような構成により、各拠点の俯瞰映像及び環境音が恒常的に交換され、各メンバーは、異なる拠点の雰囲気、状況を、あたかも同一空間に存在するかのように感じることが可能である。

ここまで、遠隔コミュニケーションシステムの構成について詳細に説明した。

＜＜２．端末２０の動作の流れ＞＞
続いて、図１０を参照し、端末２０の動作について説明する。図１０は、端末２０の動作の流れを示すフローチャートである。ここでは、動作の特徴を明確にするため、端末２０の動作を中心に説明し、接続コマンド検出部２３４における呼出フレーズ候補の表示、異常発生時及びエラー発生時の処理フローは省略する。

一連の処理は、端末２０が他の拠点の俯瞰映像と環境音を取得している場合は、俯瞰映像を表示部２４０で表示し、環境音を音声出力部２５０で出力した状態で、利用者が利用開始するところから始められる（ステップＳ１０１）。

端末２０の利用は、端末２０が音声入力待機状態の場合は、対話要求送信側メンバーが端末２０に向かって発話することで開始される。端末２０が音声入力待機状態でない場合は、映像をトリガーとして、端末２０の状態が音声入力待機状態にされる。かかるトリガーは、例えば、撮像部２２０による利用者の顔検出、近接センサー（図示せず）等の検出結果を起動トリガーとして利用することができる。また、端末２０が稼働している間、常に音声入力待機状態が維持されるようにしてもよい。

次に、入力音声が音声バッファ２３１に記憶されつつ（ステップＳ１０３）、音声認識部２３２で音声認識が行われる（ステップＳ１０５）。次に、第１の端末２０と、第２の端末２０とが接続状態であるか否かが判定される（ステップＳ１０７）。既に第１の端末２０と第２の端末２０とが接続状態であると判断された場合、後述する切断判定（ステップＳ１３３）が行われる。一方、第１の端末２０と第２の端末２０との接続が完了していないと判定された場合、接続コマンド検出部２３４にて、入力音声中の名称Ｃ１２の有無が判定される（ステップＳ１０９）。

ステップＳ１０９において、名称Ｃ１２が検出された場合、その名称Ｃ１２と、名称フラグが接続制御部２３６にセットされ（ステップＳ１１１）、表示部２４０に名称Ｃ１２、すなわち対話要求受信側メンバーの名称Ｃ１２が表示される（ステップＳ１１３）。表示部２４０が名称Ｃ１２を表示した後、再びステップＳ１０３から処理が繰り返される。

ステップＳ１０９において、名称Ｃ１２が検出されない場合、入力音声中の敬称Ｃ１４の有無が判定される（ステップＳ１１５）。

ステップＳ１１５において、入力音声から敬称Ｃ１４が検出された場合、表示部２４０に敬称Ｃ１４が、表示部２４０に出力された名称Ｃ１２の後部に続けて表示され（ステップＳ１１７）、その後再びステップＳ１０３から処理が繰り返される。

ステップＳ１１５において、敬称Ｃ１４が検出されない場合、接続制御部２３６に名称フラグがセットされているかどうかが判定される（ステップＳ１１９）。名称フラグがセットされていない場合は、ステップＳ１０３から一連の処理が繰り返される。名称フラグがセットされている場合は、接続コマンド検出部２３４にて、入力音声中の呼出確認Ｃ１６の有無が判定される（ステップＳ１２１）。

ステップＳ１２１において、呼出確認Ｃ１６が検出された場合、接続コマンド検出は完了する。なお、利用者が発生した音声に敬称Ｃ１４が付されない場合、ステップＳ１１５で敬称Ｃ１４は検出されない。このような場合、敬称Ｃ１４は省略され、名称Ｃ１２と呼出確認Ｃ１６の２つのみを検出することで、接続コマンド検出は完了する。

ステップＳ１２１において、呼出確認Ｃ１６が検出されない場合、ステップＳ１０３からの一連の処理が繰り返される。

ステップＳ１２１に次いで、呼び名に紐づけられた接続すべき第２の端末２０の端末情報が取得される（ステップＳ１２３）。端末情報の取得は、例えば、端末管理サーバ１１に問い合わせることで実行され、端末２０のＩＤやＩＰアドレス等の識別子等の端末情報が取得される。

続いて、接続すべき第２の端末２０が接続可能かどうかが判定される（ステップＳ１２５）。接続確認方法は、例えば、端末２０の接続状態を管理する端末管理サーバ１１に問い合わせてもよいし、第２の端末２０に直接問い合わせる方法でもよい。

ステップＳ１２５において、第２の端末２０が接続可能であると判定された場合は、対話要求送信側メンバーの第１の端末２０は、第２の端末２０と接続され（ステップＳ１２７）、音声バッファ２３１に記憶された入力音声が第２の端末２０に送信される（ステップＳ１２９）。第１の端末２０と第２の端末２０とが接続される際、既に説明したように、表示部２４０に表示されている俯瞰映像を、撮像部２２０で取得された映像に切り替えることができてもよい。そして、ステップＳ１２９の後、ステップＳ１０３へ戻り、一連の処理が繰り返される。

ステップＳ１２５において、接続不可と判定された場合は、第１の端末２０の表示部２４０に接続不可能である旨の表示を行い（ステップＳ１３１）、一連の処理が終了する。接続不可能であると判定される場合とは、例えば、既に接続対象の端末２０が他の端末２０と接続しているような場合（すなわち、ビジー状態）が挙げられる。

ところで、接続状態の切断には、ステップＳ１０７の接続判定において第２の端末２０と接続状態であると判定された場合に、切断コマンド検出部２３５にて切断判定（ステップＳ１３３）がなされる。詳細には、入力音声から、切断コマンドＣ２が検出された場合、第１の端末２０と第２の端末２０との接続を終了する（ステップＳ１３５）。一方で、切断コマンドＣ２が検出されない場合、上記接続は維持され、ステップＳ１０３から一連の処理が接続を切断するまで繰り返される。

ここまで、端末２０の動作の流れについて詳細に説明した。続いて、対話要求送信側メンバーの操作及びかかる操作に伴う端末２０の動作の流れについて、図１１及び図１２を参照しながら詳細に説明する。

＜＜３．対話要求送信側メンバーの操作及びかかる操作に伴う端末２０の動作の流れ＞＞
図１１は、対話要求送信側メンバーの操作と端末２０の動作の流れの一例を示すシーケンス図である。図１１は、対話要求送信側メンバーＭ１０（単に「メンバーＭ１０」と記載する）、音声バッファ２３１、音声認識部２３２、並びに接続制御部２３６、表示部２４０及び通信部２６０のオブジェクトから構成されており、図１１の上から下に延びる実線は各オブジェクトのライフラインを示している。

まず、メンバーＭ１０が第１の端末２０に向かって「佐藤さん」と発話すると（ステップＳ２０１）、音声バッファ２３１は、入力音声「佐藤さん」を記憶する（ステップＳ２０３）とともに、音声認識部２３２は、入力音声「佐藤さん」を認識する（ステップＳ２０５）。入力音声から、接続コマンド検出部２３４にて名称Ｃ１２が検出されると、表示部２４０は「佐藤さん」というフレーズを表示する（ステップＳ２０７）。

続いて、メンバーＭ１０は、表示部２４０に表示された認識結果が「佐藤さん」であることを目視確認（ステップＳ２０９）し、次いで「ちょっといいですか？」と発話する（ステップＳ２１１）。すると、音声バッファ２３１は入力音声「ちょっといいですか？」を記憶する（ステップＳ２１３）とともに、音声認識部２３２は、「ちょっといいですか？」という入力音声を認識する（ステップＳ２１５）。ここで、「ちょっといいですか？」というフレーズは、接続コマンド辞書Ｊ１に登録されているフレーズであるとする。

音声認識部２３２で認識された「ちょっといいですか？」という入力音声中の呼出確認Ｃ１６が接続コマンド検出部２３４で検出され、接続コマンドＣ１が成立したことにより（ステップＳ２１７）、接続制御部２３６は通信部２６０へ制御指示を送信し、第１の端末２０と、第２の端末２０とが接続される（ステップＳ２１９）。そして、第２の端末２０へ音声バッファ２３１に記憶された入力音声が送信される（ステップＳ２２１）。

ステップＳ２２１において、送信される入力音声は、音声バッファ２３１に記憶された入力音声の末尾から一定の長さまで遡った箇所を参照起点として、音声バッファ２３１を参照し、入力音声が送信開始される。その結果、第２の端末２０に対して「佐藤さんちょっといいですか？」という音声が出力され、対話相手である佐藤さんは、かかる音声を聞くことができる。

＜誤認識が発生した場合＞
次に、上記の例において、音声認識部２３２で入力音声が誤認識された場合の例について説明する。図１２は、対話要求送信側メンバーＭ１０の操作と端末２０の動作の流れの一例を示すシーケンス図であり、音声認識部２３２にて誤認識が発生した場合を例示する。図１２は、メンバーＭ１０、音声バッファ２３１、音声認識部２３２、並びに接続制御部２３６、表示部２４０及び通信部２６０のオブジェクトから構成されており、上から下に延びる実線は各オブジェクトのライフラインを示している。

まず、メンバーＭ１０が第１の端末２０に向かって「佐藤さん」と発話する（ステップＳ３０１）。すると、音声バッファ２３１は、「佐藤さん」という入力音声を記憶する（ステップＳ３０３）一方、音声認識部２３２は、入力音声を「佐竹さん」と誤って認識している（ステップＳ３０５）。上記のような誤認識により、表示部２４０は誤った認識結果である「佐竹さん」というフレーズを表示する（ステップＳ３０７）。

メンバーＭ１０は、表示部２４０に表示された認識結果が「佐竹さん」であることを目視確認（ステップＳ３０９）し、改めて「佐藤さん」と発話し直す（ステップＳ３１１）。そして、音声バッファ２３１は、このときの「佐藤さん」という入力音声を、既に記憶された「佐竹さん」という入力音声の後に記憶する（ステップＳ３１３）とともに、音声認識部２３２は、「佐藤さん」という正しい入力音声を認識する（ステップＳ３１５）。

このとき、表示部２４０に既に表示されている「佐竹さん」の表示は、「佐藤さん」というフレーズに上書きされて表示される（ステップＳ３１７）。メンバーＭ１０は、表示部２４０に正しく表示された内容を目視で確認（ステップＳ３１９）する。ステップＳ３１９以降は、図１１に示すシーケンス図と同様の処理が行われる。つまり、メンバーＭ１０は「ちょっといいですか？」と発話し（ステップＳ３２１）、音声バッファ２３１が入力音声を記憶する（ステップＳ３２３）とともに、音声認識部２３２は、「ちょっといいですか？」という入力音声を認識する（ステップＳ３２５）。次いで、接続コマンド検出部２３４にて接続コマンドＣ１が成立した後（ステップＳ３２７）、接続制御部２３６から通信部２６０へ制御指示が送信され、第１の端末２０と、第２の端末２０とが接続される（ステップＳ３２９）。そして、第２の端末２０へ音声バッファ２３１に記憶された入力音声が送信される（ステップＳ３３１）。

ステップＳ３３１において、送信される入力音声は、音声バッファ２３１に記憶された入力音声の末尾から一定の長さまで遡った箇所を参照起点として、音声バッファ２３１を参照し、入力音声が送信開始される。その結果、第２の端末２０に対して「佐藤さんちょっといいですか？」という音声が出力され、対話相手である佐藤さんは、かかる音声を聞くことができる。

上記のように、音声認識部２３２で入力音声の誤認識が発生した場合でも、対話要求送信側のメンバーが、表示部２４０に表示された呼び名を確認して、呼びかけ直すことができる。その結果、音声認識率が１００％でなくとも、誤接続が抑制したり、正しい接続先を選択するためのタッチ操作が不要になり、接続精度が向上する。

＜音声バッファ２３１の参照時間＞
ここで、第２の端末２０に入力音声を出力する際の、音声バッファ２３１の参照方法について説明する。音声バッファ２３１を参照する時間は、固定された長さでもよいし、図１３に示すように、名称Ｃ１２、敬称Ｃ１４、呼出確認Ｃ１６のそれぞれのフレーズに対して、必要な時間を割り当てておき、認識結果に基づいて、参照する時間を定めてもよい。図１３は、音声バッファ長をフレーズごとに割り当てた一例を示す説明図である。図１３では、例えば、「佐藤」、「鈴木」、「高橋」等の名称Ｃ１２にそれぞれ１．５秒の音声バッファ長が割り当てられている。「さん」、「くん」の敬称Ｃ１４に対しては音声バッファ長は０．５秒割り当てられ、「部長」、「課長」という敬称Ｃ１４に対しては０．７秒が割り当てられている。同様に、呼出確認Ｃ１６について、例えば、「ちょっといい？」というフレーズに対しては２秒の音声バッファ長が割り当てられ、「ちょっといいですか？」というフレーズに対しては３秒の音声バッファ長が割り当てられている。そして、これらの割り当てられた音声バッファ長を基に、音声バッファ２３１に記憶された入力音声のフレーズに対応する音声バッファ長の合計を、音声バッファ２３１を参照する時間として定めることができる。例えば、音声バッファ２３１に記憶された入力音声が「佐藤さんちょっといいですか？」である場合、音声バッファ２３１の参照時間は５秒となり、音声バッファ２３１に記憶された入力音声の末尾から５秒遡った箇所を参照起点として、音声バッファ２３１を参照する。その結果、第２の端末２０に「佐藤さんちょっといいですか？」という入力音声が出力される。かかるバッファ長の割り当て情報は、音声認識部２３２に記憶されていてもよい。なお、音声バッファ２３１のサイズは、入力音声を記憶するのに十分な長さを確保しておく必要がある。

また、かかる音声バッファ２３１は、通常リングバッファの形態をとることが多く、リングバッファの場合、記憶するデータが記憶可能な大きさを超えるときは、先頭からデータが上書きされながら記憶される。例えば、図１２に示す処理シーケンス図では、ステップＳ３１１で名称の呼び直しがされており、引き続くステップＳ３１３では、呼び直されて生じた入力音声が既に記憶された入力音声の後に記憶されている。さらに、ステップＳ３２１で生じた入力音声は、ステップＳ３２３で音声バッファ２３１に記憶されるが、合計の発話長がバッファサイズを超えるため、入力音声が音声バッファ２３１の先頭から上書きされる。そして、ステップＳ３３１における音声バッファ２３１内容の送信時は、記憶データを末尾からさかのぼることで、入力音声の先頭、すなわち名称から入力音声を参照して送信することができる。

以上説明したように、本実施形態によれば、対話したい相手に対して、その相手があたかも複数のユーザが同一空間に存在するかのような感覚でユーザ間の会話を開始することが可能となる。

＜＜４．変形例＞＞
以上、本発明の実施形態を説明した。以下では、本発明の実施形態の変形例を説明する。なお、以下に説明する変形例は、また、変形例は、本発明の実施形態で説明した構成に代えて適用されてもよいし、本発明の実施形態で説明した構成に対して追加的に適用されてもよい。

(第１の変形例)
本発明の実施形態では、２つの拠点間で、対話を開始できるような構成について説明したが、拠点数は２つに限られない。このとき、俯瞰映像及び環境音は、取得するデバイスを複数備えて切り替えられるようにすることで、相手の様子を伺うことができるようになる。また、俯瞰映像及び環境音は、いずれか一つのみ、あるいは両方がなくても構わない。

(第２の変形例)
本発明の実施形態では、対話要求送信側のメンバーと、対話要求受信側メンバーが、それぞれ一人のとき、つまり、第１の端末２０と第２の端末２０がそれぞれ１台の場合について説明した。しかし、接続する第１の端末２０及び第２の端末２０は、それぞれ一台だけでなく、複数の端末２０とすることができる。そのときの接続コマンド検出に利用される名称Ｃ１２は、必要なグループ名等を登録しておき、その名称Ｃ１２が認識された場合に、そのグループに属する端末情報が取得され、複数の端末２０が接続されるようにすることができる。

(第３の変形例)
本発明の実施形態では、対話相手に直接話しかけることができるような構成としたが、対話要求受信側のメンバーが目上の人等であり、直接話しかけることが適切でないような場合は、エージェントを介する構成にし、対話要求送信側メンバーと、対話要求受信側メンバーとを自動判別して動作するように構成することも可能である。

＜＜５．ハードウェア構成＞＞
以上、本発明の実施形態について説明した。上述した映像処理及び音声処理などの情報処理は、ソフトウェアと、以下に説明する端末２０のハードウェアとの協働により実現される。

図１４は、端末２０のハードウェア構成を示したブロック図である。端末２０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２７１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２７２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２７３と、ホストバス２７４と、を備える。また、端末２０は、ブリッジ２７５と、外部バス２７６と、インタフェース２７７と、入力装置２７８と、表示装置２７９と、音声出力装置２８０と、ストレージ装置（ＨＤＤ）２８１と、ドライブ２８２と、ネットワークインタフェース２８３とを備えることができる。

ＣＰＵ２７１は、演算処理装置及び制御装置として機能し、各種プログラムに従って端末２０内の動作全般を制御する。また、ＣＰＵ２７１は、マイクロプロセッサであってもよい。ＲＯＭ２７２は、ＣＰＵ２７１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ２７３は、ＣＰＵ２７１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバスなどから構成されるホストバス２７４により相互に接続されている。ＣＰＵ２７１、ＲＯＭ２７２及びＲＡＭ２７３とソフトウェアとの協働により、音声バッファ２３１、音声認識部２３２及び接続コマンド検出部２３４などの機能が実現され得る。

ホストバス２７４は、ブリッジ２７５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス２７６に接続されている。なお、必ずしもホストバス２７４、ブリッジ２７５及び外部バス２７６を分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置２７８は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、センサー、スイッチ及びレバーなどメンバーが情報を入力するための入力手段と、メンバーによる入力に基づいて入力信号を生成し、ＣＰＵ２７１に出力する入力制御回路などから構成され得る。端末２０の操作は、通常は、音声による操作を行うが、該入力装置２７８を操作することにより、端末２０に対して各種のデータを入力したり処理動作を指示することもできる。

表示装置２７９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、プロジェクター装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置及びランプなどの表示装置を含む。表示装置２７９は、例えば表示部２４０に対応する。また、音声出力装置２８０は、スピーカー及びヘッドホンなどの音声出力装置を含む。音声出力装置２８０は、例えば、音声出力部２５０に対応する。

ストレージ装置２８１は、本実施形態にかかる端末２０の記憶部の一例として構成されたデータ記憶用の装置である。ストレージ装置２８１は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置及び記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置２８１は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔｒａｇｅＤｒｉｖｅ）、あるいは同等の機能を有するメモリ等で構成される。このストレージ装置２８１は、ストレージを駆動し、ＣＰＵ２７１が実行するプログラムや各種データを記憶する。

ドライブ２８２は、記憶媒体用リーダライタであり、端末２０に内蔵、あるいは外付けされる。ドライブ２８２は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体２４に記録されている情報を読み出して、ＲＡＭ２７３またはストレージ装置２８１に出力する。また、ドライブ２８２は、リムーバブル記憶媒体２４に情報を書き込むこともできる。

ネットワークインタフェース２８３は、例えば、ネットワーク１２に接続するための通信デバイス等で構成された通信インタフェースである。また、ネットワークインタフェース２８３は、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）対応端末であっても、有線による通信を行うワイヤー端末であってもよい。

＜＜６．むすび＞＞
以上説明したように、本発明の実施形態によれば、複数のユーザが同一空間に存在するかのような感覚でユーザ間の会話が開始されることを支援することが可能である。

なお、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、本明細書の端末２０の処理における各ステップは、必ずしもシーケンス図またはフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、端末２０の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

また、本発明の実施形態は、オフィス間におけるテレワークシステムの端末２０として利用でき、さらに、オフィスとオフィス外の業務空間との間、及びオフィス外の業務空間どうしを結ぶシステムにおいても利用可能である。オフィス外の業務空間とは、例えば、在宅勤務者が業務を行う自宅の業務スペース等が挙げられる。

さらに、端末２０に内蔵されるＣＰＵ、ＲＯＭ及びＲＡＭなどのハードウェアに、上述した端末２０の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。

１０撮像装置
１１端末管理サーバ
１２ネットワーク
２０端末
２２０撮像部
２３０音声入力部
２３１音声バッファ
２３２音声認識部
２３４接続コマンド検出部
２３５切断コマンド検出部
２３６接続制御部
２３７出力制御部
２３９端末情報保持部
２４０表示部
２５０音声出力部
２６０通信部

Claims

入力音声を記憶する音声バッファと、
前記入力音声から、対象の呼び名と前記対象への呼出確認とを含む接続コマンドを検出し、前記呼び名を検出する呼び名検出部、及び前記呼出確認を検出する呼出検出部を含む接続コマンド検出部と、
前記呼出検出部により前記呼出確認が検出される前に、前記呼び名検出部により検出された呼び名の表示を制御する表示制御部と、
前記接続コマンドに含まれる呼び名に対応する他の端末との接続を制御する接続制御部と、
前記他の端末が接続された後に、前記音声バッファに記憶された前記接続コマンドを含む入力音声を前記他の端末に送信する送信部と、
を備える、端末。
前記接続コマンド検出部は、タイマーを含み、
前記表示制御部は、
前記呼出検出部により前記呼出確認が検出される前に、呼出確認が検出可能なフレーズの候補の表示を制御する、請求項１に記載の端末。
前記送信部は、前記音声バッファに記憶された入力音声の末尾から遡った箇所を起点にして前記入力音声の送信を開始する、請求項１又は２に記載の端末。
前記送信部は、前記音声バッファに記憶された入力音声の末尾から、前記接続コマンド検出部により検出された前記接続コマンドに応じた時間分遡った箇所を起点にして、前記入力音声の送信を開始する、請求項３に記載の端末。
前記端末は、前記入力音声から切断コマンドを検出する切断コマンド検出部をさらに備え、
前記接続制御部は、前記切断コマンド検出部により前記切断コマンドが検出されたことに基づいて、前記他の端末との接続を切断する、請求項１〜４のいずれか一項に記載の端末。
前記切断コマンド検出部は、事前に設定された第１の切断コマンド辞書または第２の切断コマンド辞書に含まれるコマンドを前記切断コマンドとして検出し、
前記他の端末との接続から所定時間が経過する以前は前記第１の切断コマンド辞書を用いて、前記他の端末との接続から前記所定時間が経過した後は前記第２の切断コマンド辞書を用いて前記切断コマンドを検出する、請求項５に記載の端末。
前記端末は撮像部をさらに備え、
前記送信部は、前記他の端末が接続された後に、前記撮像部により得られた撮像画像を前記他の端末に送信する、請求項１〜６のいずれか一項に記載の端末。
コンピュータを、
入力音声から、対象の呼び名と前記対象への呼出確認とを含む接続コマンドを検出し、前記呼び名を検出する呼び名検出部、及び前記呼出確認を検出する呼出検出部を含む接続コマンド検出部と、
前記呼出検出部により前記呼出確認が検出される前に、前記呼び名検出部により検出された呼び名の表示を制御する表示制御部と、
前記接続コマンドに含まれる呼び名に対応する他の端末との接続を制御する接続制御部と、
前記他の端末が接続された後に、音声バッファに記憶された前記接続コマンドを含む入力音声を前記他の端末に送信する送信部と、
として機能させるための、プログラム。
入力音声を記憶する音声バッファに記憶することと、
前記入力音声から、対象の呼び名と前記対象への呼出確認とを含む接続コマンドを検出することと、
前記呼出確認が検出される前に、検出された前記呼び名の表示を制御することと、
前記接続コマンドに含まれる呼び名に対応する他の端末との接続を制御することと、
前記他の端末が接続された後に、前記音声バッファに記憶された前記接続コマンドを含む入力音声を前記他の端末に送信することと、
を含む、通信方法。
複数の端末を有する通信システムであって、
前記複数の端末のうちの第１の端末は、
入力音声を記憶する音声バッファ、
前記入力音声から、対象の呼び名と前記対象への呼出確認とを含む接続コマンドを検出し、前記呼び名を検出する呼び名検出部、及び前記呼出確認を検出する呼出検出部を含む接続コマンド検出部、
前記呼出検出部により前記呼出確認が検出される前に、前記呼び名検出部により検出された呼び名の表示を制御する表示制御部、
前記接続コマンドに含まれる呼び名に対応する第２の端末との接続を制御する接続制御部、及び
前記第２の端末が接続された後に、前記音声バッファに記憶された前記接続コマンドを含む前記入力音声を前記第２の端末に送信する送信部、
を有し、
前記第２の端末は、前記第１の端末から送信される前記入力音声を出力する、通信システム。