(本開示にかかる実施の形態の概要)
本開示の実施形態の説明に先立って、本開示にかかる実施の形態の概要について説明する。図1は、本開示の実施の形態にかかる遠隔会議システム1を示す図である。遠隔会議システム1は、遠隔会議(Web会議)を実現する。遠隔会議は、複数の参加者の通信端末を用いて行われる。遠隔会議システム1は、例えば、コンピュータによって実現可能である。遠隔会議システム1は、遠隔会議の参加者の各通信端末で実現されてもよいし、遠隔会議を管理するサーバ等によって実現されてもよい。また、遠隔会議システム1は、サーバ及び通信端末といった、複数の装置で実現されてもよい。
遠隔会議システム1は、発話判定部2と、音声出力制御部4と、カウント部6と、回数表示制御部8とを有する。発話判定部2は、発話判定手段としての機能を有する。音声出力制御部4は、音声出力制御手段としての機能を有する。カウント部6は、カウント手段としての機能を有する。回数表示制御部8は、回数表示制御手段としての機能を有する。
図2は、本開示の実施の形態にかかる遠隔会議システム1によって実行される遠隔会議方法を示すフローチャートである。発話判定部2は、遠隔会議の複数の参加者それぞれの音声が発話を示しているか又は相槌を示しているかを判定する(ステップS12)。判定方法については以降の実施の形態で説明する。ここで、「発話」とは、意味のある内容の言葉(言語)に対応する音声(発声)である。一方、「相槌」とは、それ自体に意味のない言葉に対応する音声(発声)である。本明細書では、「発話」と「相槌」とを互いに対になる用語としている。
音声出力制御部4は、複数の参加者それぞれの音声が複数の参加者それぞれの通信端末で出力されるように制御を行う。音声出力制御部4は、複数の参加者のうちのある参加者が発話を行っている際に他の参加者が発話を行った場合に、他の参加者の発話の出力を抑制するように制御を行う(ステップS14)。つまり、音声出力制御部4は、発話衝突が発生したときに、他の参加者の発話(衝突発話)の出力を抑制する。なお、以後、後の発話(発話衝突を起こした発話)を、「衝突発話」と称することがある。したがって、衝突発話とは、出力が抑制された発話である。なお、衝突発話の出力を抑制するとは、例えば衝突発話が各参加者の通信端末で出力されないことであるが、これに限定されない。
なお、本実施の形態では、「発話衝突」とは、ある参加者が発話を行っている際に他の参加者が発話を行ってしまうことを意味するのであって、複数の参加者の発話が各通信端末で同時に出力されることを意味しているわけではない。本実施の形態では、複数の参加者の発話のうちの後の発話の出力が抑制され得ることに、留意されたい。したがって、本実施の形態では、「発話衝突」が発生したことは、衝突発話を発した参加者では認識することができるが、その他の参加者では認識しない可能性がある。つまり、衝突発話を行った参加者は、自身の通信端末で他の参加者の発話が出力されているときに発話を行ったのであるから、発話衝突が発生したことを把握できる。一方、衝突発話は各通信端末で出力が抑制されるので、衝突発話を発した参加者以外の参加者は、発話衝突が発生したことを認識しない可能性がある。
カウント部6は、出力が抑制された発話(衝突発話;第1の発話)の回数を、参加者ごとにカウントする(ステップS16)。回数表示制御部8は、回数に関する表示が複数の参加者の通信端末でなされるように制御を行う(ステップS18)。これにより、各参加者は、どの参加者の発話衝突の回数が多いかといったことを把握することができる。
ここで、衝突発話の回数の多い(発話衝突を発生させた回数が多い)参加者は、発話をしたい参加者であると言える。したがって、衝突発話の回数が多いことを遠隔会議の参加者の通信端末に表示させるようにすることで、他の参加者は、その参加者が発話を行いたいことを、認識することができる。これにより、他の参加者は、その参加者に対して発話を促したり、その参加者が発話を行うまで待機したりといった行動を行うことができる。したがって、その参加者の発話を行いたくてもできないといった不満を低減することができる。したがって、本実施の形態にかかる遠隔会議システム1は、遠隔会議をスムーズに進行することが可能となる。
(実施の形態1)
以下、実施形態について、図面を参照しながら説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。また、各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。
図3は、実施の形態1にかかる遠隔会議システム20を示す図である。遠隔会議システム20は、複数の通信端末30と、遠隔会議装置100とを有する。通信端末30は、遠隔会議の参加者ごとに設けられ得る。複数の通信端末30と、遠隔会議装置100とは、互いにネットワーク22を介して通信可能に接続されている。ネットワーク22は、有線であってもよく、無線であってもよく、有線と無線の組み合わせであってもよい。ネットワーク22は、インターネットであってもよいし、LAN(Local Area Network)であってもよい。
通信端末30は、例えば、参加者が所有しているコンピュータである。通信端末30は、例えば、パソコン(PC:Personal Computer)、及び、スマートフォン又はタブレット端末等の携帯端末である。通信端末30は、参加者が遠隔会議に参加する際に、参加者の発した音声(発話又は相槌)を示す音声データを、ネットワーク22を介して遠隔会議装置100に送信する。また、通信端末30は、他の参加者の音声(発話又は相槌)を示す音声データを、ネットワーク22を介して遠隔会議装置100から受信する。そして、通信端末30は、その音声データに対応する音声を、その通信端末30のユーザである参加者が聴取可能に出力する。
遠隔会議装置100は、例えば、サーバ等のコンピュータである。遠隔会議装置100は、遠隔会議を管理する。遠隔会議装置100は、各参加者の通信端末30から音声データを受信して、複数の通信端末30に送信する。なお、この場合、遠隔会議装置100は、音声データを送信した通信端末30には、その音声データを送信しなくてもよい(他の実施の形態でも同様)。なお、実施の形態1において、用語「音声」は、情報処理における処理対象としての、「音声を示す音声データ」も意味し得る。
図4は、実施の形態1にかかる通信端末30の構成を示す図である。通信端末30は、主要なハードウェア構成として、制御部32と、記憶部34と、通信部36と、インタフェース部38(IF:Interface)を有する。制御部32、記憶部34、通信部36及びインタフェース部38は、データバスなどを介して相互に接続されている。
制御部32は、例えばCPU(Central Processing Unit)等のプロセッサである。制御部32は、制御処理及び演算処理等を行う演算装置としての機能を有する。記憶部34は、例えばメモリ又はハードディスク等の記憶デバイスである。記憶部34は、例えばROM(Read Only Memory)又はRAM(Random Access Memory)等である。記憶部34は、制御部32によって実行される制御プログラム及び演算プログラム等を記憶するための機能を有する。また、記憶部34は、処理データ等を一時的に記憶するための機能を有する。記憶部34は、データベースを含み得る。
通信部36は、遠隔会議装置100等の遠隔会議システム20を構成する装置と通信を行うために必要な処理を行う。通信部36は、通信ポート、ルータ、ファイアウォール等を含み得る。インタフェース部108は、例えばユーザインタフェース(UI)である。インタフェース部108は、キーボード、タッチパネル又はマウス等の入力装置と、ディスプレイ又はスピーカ等の出力装置とを有する。インタフェース部108は、ユーザ(オペレータ)によるデータの入力の操作を受け付け、ユーザに対して情報を出力する。また、インタフェース部108は、入力装置として、マイクロフォン等の集音装置、及び、カメラ等の撮像装置を有し得る。また、インタフェース部108の少なくとも一部は、通信端末30と物理的に一体である必要はない。インタフェース部108の少なくとも一部は、通信端末30と、有線又は無線によって接続されていてもよい。
また、通信端末30は、構成要素として、音声取得部42、音声送信部44、音声受信部46、音声出力部48、表示情報受信部52、及び、画像表示部54を有する。音声取得部42、音声送信部44、音声受信部46、音声出力部48、表示情報受信部52、及び、画像表示部54は、上述したハードウェア構成によって実現されてもよいし、ソフトウェアによって実現されてもよい。
音声取得部42は、遠隔会議の参加者である通信端末30のユーザの発した音声を取得する。音声取得部42は、インタフェース部38である集音装置によって音声を取得してもよい。音声送信部44は、取得されたユーザの音声(音声データ)を、ネットワーク22を介して、遠隔会議装置100に送信する。音声送信部44は、通信部36によって音声(音声データ)を送信してもよい。
音声受信部46は、遠隔会議の複数の参加者の音声(音声データ)を、ネットワーク22を介して、遠隔会議装置100から受信する。音声受信部46は、通信部36によって音声(音声データ)を受信してもよい。音声出力部48は、複数の参加者の音声を、通信端末30のユーザが聴取可能に出力する。音声出力部48は、インタフェース部38であるスピーカによって音声を出力してもよい。
表示情報受信部52は、表示情報を、ネットワーク22を介して、遠隔会議装置100から受信する。ここで、表示情報とは、通信端末30のインタフェース部38によって表示される情報を示す情報である。表示情報については後述する。表示情報受信部52は、通信部36によって表示情報を受信してもよい。画像表示部54は、受信された表示情報に対応する画像を表示する。画像表示部54は、インタフェース部38であるディスプレイによって画像を表示してもよい。
図5は、実施の形態1にかかる遠隔会議装置100の構成を示す図である。遠隔会議装置100は、主要なハードウェア構成として、制御部102と、記憶部104と、通信部106と、インタフェース部108とを有する。制御部102、記憶部104、通信部106及びインタフェース部108は、データバスなどを介して相互に接続されている。
制御部102は、例えばCPU等のプロセッサである。制御部102は、解析処理、制御処理及び演算処理等を行う演算装置としての機能を有する。記憶部104は、例えばメモリ又はハードディスク等の記憶デバイスである。記憶部104は、例えばROM又はRAM等である。記憶部104は、制御部102によって実行される制御プログラム及び演算プログラム等を記憶するための機能を有する。また、記憶部104は、処理データ等を一時的に記憶するための機能を有する。記憶部104は、データベースを含み得る。
通信部106は、通信端末30等の他の装置とネットワーク22を介して通信を行うために必要な処理を行う。通信部106は、通信ポート、ルータ、ファイアウォール等を含み得る。インタフェース部108は、例えばユーザインタフェース(UI)である。インタフェース部108は、キーボード、タッチパネル又はマウス等の入力装置と、ディスプレイ又はスピーカ等の出力装置とを有する。インタフェース部108は、オペレータによるデータの入力の操作を受け付け、オペレータに対して情報を出力する。
実施の形態1にかかる遠隔会議装置100は、構成要素として、参加者情報格納部110と、音声受信部112と、発話判定部120と、音声出力制御部130と、回数カウント部140と、表示制御部150とを有する。音声出力制御部130は、発話衝突判定部132と、発話出力抑制部134とを有する。表示制御部150は、回数表示制御部152と、アイコン表示制御部154とを有する。なお、遠隔会議装置100は、物理的に1つの装置で構成されていなくてもよい。この場合、上述した各構成要素は、物理的に別個の複数の装置によって実現されてもよい。
参加者情報格納部110は、参加者情報格納手段としての機能を有する。音声受信部112は、音声受信手段としての機能を有する。発話判定部120は、図1に示した発話判定部2に対応する。発話判定部120は、発話判定手段としての機能を有する。音声出力制御部130は、図1に示した音声出力制御部4に対応する。音声出力制御部130は、音声出力制御手段としての機能を有する。回数カウント部140は、図1に示したカウント部6に対応する。回数カウント部140は、回数カウント手段としての機能を有する。表示制御部150は、表示制御手段としての機能を有する。
また、発話衝突判定部132は、発話衝突判定手段としての機能を有する。発話出力抑制部134は、発話出力抑制手段としての機能を有する。回数表示制御部152は、図1に示した回数表示制御部8に対応する。回数表示制御部152は、回数表示制御手段としての機能を有する。アイコン表示制御部154は、アイコン表示制御手段としての機能を有する。
なお、上述した各構成要素は、例えば、制御部102の制御によって、プログラムを実行させることによって実現できる。より具体的には、各構成要素は、記憶部104に格納されたプログラムを、制御部102が実行することによって実現され得る。また、必要なプログラムを任意の不揮発性記録媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。また、各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、各構成要素は、例えばFPGA(field-programmable gate array)又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。これらのことは、後述する他の実施の形態においても同様である。
参加者情報格納部110は、遠隔会議の参加者に関する情報である参加者情報を格納する。
図6は、実施の形態1にかかる参加者情報を例示する図である。図6は、参加者A~Dの4人が参加する遠隔会議に対応する参加者情報を例示している。参加者情報は、参加者それぞれの識別情報と、それぞれの参加者の参加状態と、それぞれの参加者の衝突回数とを含む。
ここで、「参加状態」とは、それぞれの参加者が遠隔会議に、現在どのように参加しているかを示す。参加状態は、後述する発話判定部120及び発話衝突判定部132によって判定される。図6の例では、参加者Bが発話を行っている最中に参加者Aが発話をしてしまっている。つまり、参加者Aは発話衝突を発生させてしまっている。したがって、参加者Aの参加状態は「発話衝突」であり、参加者Bの参加状態は「発話中」である。また、参加者Cが相槌を行っており、参加者Dは音声を発していない。したがって、参加者Cの参加状態は「相槌」であり、参加者Dの参加状態は「音声なし」である。
また、「衝突回数」とは、各参加者が発話衝突を発生させてしまった回数、つまり、各参加者の衝突発話の回数を示す。衝突回数は、後述する回数カウント部140によってカウントされる。図6の例では、参加者Aの衝突回数は1回である。上述したように、参加者Aは発話衝突を発生させてしまったので、衝突回数が、0回から1回に更新されている。また、参加者Bの衝突回数は2回であり、参加者Cの衝突回数は1回であり、参加者Dの衝突回数は0回である。
音声受信部112は、各通信端末30から、それぞれの通信端末30のユーザである参加者の音声(音声データ)を、ネットワーク22を介して受信する。音声受信部112は、通信部106によって、通信端末30の音声送信部44によって送信された参加者の音声を受信(音声データ)する。これにより、参加者A~Dの音声が受信される。
発話判定部120は、複数の参加者それぞれについて、音声受信部112によって受信された音声を解析して音声認識処理を行う。そして、発話判定部120は、各参加者の音声が発話を示しているか又は相槌を示しているかを判定する。つまり、発話判定部120は、各参加者が発話を行っているか否か(発話を行っているか相槌を行っているか)を判定する。
具体的には、発話判定部120は、音響分析及び自然言語処理等の処理を行って、音声に含まれる単語を分析する。そして、発話判定部120は、音声に意味のある単語(主語、述語、目的語等)が含まれているか否かを判定する。言い換えると、発話判定部120は、音声に意味のない単語(間投詞等)以外の単語が含まれているか否かを判定する。発話判定部120は、音声に意味のある単語が含まれている場合、その音声が「発話」であると判定する。一方、発話判定部120は、音声に意味のない単語(間投詞等)のみが含まれている場合、その音声が「相槌」であると判定する。なお、発話判定部120は、受信された音声に人間の声が含まれているか否かを判定してもよい。発話判定部120は、音声に人間の声が含まれていない場合、その音声が背景音であるとして、上述した発話か相槌かの判定を行わなくてもよい。
音声出力制御部130は、複数の参加者それぞれの音声が複数の参加者それぞれの通信端末30で出力されるように制御を行う。具体的には、音声出力制御部130は、受信された音声(音声データ)を、通信部106によって、ネットワーク22を介して、複数の参加者それぞれの通信端末30に送信する。これにより、各通信端末30の音声出力部48によって、音声が出力される。したがって、参加者A~Dは、他の参加者の音声を聴取することができる。また、音声出力制御部130は、ミキシング処理を行って、複数の参加者の音声が同時に発せられた場合にそれぞれの音声が途切れないように処理を行ってもよい。但し、本実施の形態では、後述するように、発話衝突が発生した場合は、発話衝突を発生された音声の出力が抑制される。一方、音声出力制御部130は、音声が相槌に対応する場合は、その音声を複数の参加者それぞれの通信端末30に送信する。これにより、各通信端末30の音声出力部48によって、参加者の相槌が出力される。
発話衝突判定部132は、複数の参加者それぞれについて、発話衝突が発生したか否かを判定する。具体的には、発話衝突判定部132は、発話判定部120によりある参加者が発話を行っていると判定された場合に、その参加者の発話が開始して発話が終了するまでの期間で、他の参加者が発話を開始したか否かを判定する。発話衝突判定部132は、ある参加者が発話を行っている期間で他の参加者が発話を開始した場合に、他の参加者(後で発話を行った参加者)が発話衝突を発生させたと判定する。この、発話衝突を発生させた他の参加者の発話を、衝突発話と称する。図6の例では、参加者Bが発話を行っている期間で参加者Aが発話を開始してしまったので、発話衝突判定部132は、参加者Aが発話衝突を発生させたと判定し、参加者Aの発話を衝突発話と判定する。
発話出力抑制部134は、衝突発話の出力を抑制するための制御を行う。具体的には、発話出力抑制部134は、衝突発話(音声データ)を複数の参加者の通信端末30に送信しないように制御を行う。これにより、各通信端末30は衝突発話(音声データ)を受信しないので、通信端末30で衝突発話が出力されない。したがって、図6の例では、各通信端末30において、参加者Aの発話(衝突発話)は、参加者Bの発話の聴取の妨げにならない。あるいは、発話出力抑制部134は、各通信端末30で、衝突発話が小さな音量で出力されるように制御を行ってもよい。例えば、発話出力抑制部134は、衝突発話の音量が発話衝突を被った先の発話(図6の例では参加者Bの発話)の聴取を妨げない程度まで小さくなるように、衝突発話の音声データを加工してもよい。そして、音声出力制御部130は、その加工された音声データを各通信端末30に送信してもよい。これにより、図6の例において、各通信端末30では、参加者Bの発話の聴取の妨げにならない程度の極めて小さい音量で、参加者Aの発話が出力される。
回数カウント部140は、複数の参加者それぞれについて、発話衝突の発生した回数をカウントする。言い換えると、回数カウント部140は、複数の参加者(通信端末30)ごとに、衝突発話の回数をカウントする。これにより、図6に例示した衝突回数がカウントされる。
表示制御部150は、複数の参加者それぞれについて、各通信端末30においてどのような画像が表示されるかを制御する。具体的には、表示制御部150は、各通信端末30に表示させる画像を示す表示情報を生成する。そして、表示制御部150は、生成された表示情報を、各通信端末30に送信する。また、表示制御部150は、参加者情報格納部110に格納された参加者情報に応じて、表示情報を生成してもよい。なお、表示制御部150は、発話衝突を発生させた参加者の通信端末30に、他の参加者が発話中である旨のメッセージを表示させるような表示情報を送信してもよい。また、表示制御部150は、参加者情報と、参加者情報に応じた表示を行うことを示す指示とを含む表示情報を生成してもよい。この場合、通信端末30は、表示情報に応じて、通信端末30のインタフェース部28で表示される画像を生成する。
回数表示制御部152は、複数の参加者ごとの衝突発話の回数が各通信端末30で表示されるように、制御を行う。具体的には、回数表示制御部152は、各参加者の衝突回数がどれだけであるかを示す表示情報を生成する。そして、表示制御部150がその表示情報を複数の通信端末30に送信することで、複数の通信端末30で、各参加者の衝突回数が表示される。図6の例では、参加者A~Dそれぞれの通信端末30で、参加者Aの衝突回数が1回であり、参加者Bの衝突回数が2回であり、参加者Cの衝突回数が1回であり、参加者Dの衝突回数が0回であることが、表示される。これにより、各参加者は、全員の参加者の衝突回数を把握することができる。したがって、各参加者は、どの参加者が発話をしたがっているかを把握することができる。
なお、回数表示制御部152は、予め定められた閾値よりも多い衝突回数をこの閾値以下の衝突回数の表示よりも目立つような表示形態で表示させてもよい。つまり、回数表示制御部152は、ある参加者の衝突回数が予め定められた閾値よりも多い場合に、その衝突回数を他の参加者の衝突回数の表示よりも目立つような表示形態で表示させるようにしてもよい。回数表示制御部152は、その表示形態で衝突回数が表示されるための指示を含む表示情報を生成する。例えば、回数表示制御部152は、閾値以下の衝突回数を黒字で表示させ、閾値を超える衝突回数を赤字で表示させるようにしてもよい。これにより、各参加者は、どの参加者が発話をしたがっているかを、より確実に把握することができる。
また、回数表示制御部152は、複数の参加者の衝突回数のうち最も多い衝突回数を、他の衝突回数の表示よりも目立つような表示形態で、各通信端末30に表示させるようにしてもよい。回数表示制御部152は、その表示形態で衝突回数が表示されるようにする指示を含む表示情報を生成する。例えば、回数表示制御部152は、最も多い衝突回数を赤字で表示させ、その他の衝突回数を黒字で表示させるようにしてもよい。これにより、各参加者は、どの参加者の衝突回数が他の参加者の衝突回数よりも多いかを、確実に把握することができる。これにより、相対的に、どの参加者がより発話をしたがっているかを、確実に把握することができる。
また、回数表示制御部152は、他の衝突回数よりも突出して多い衝突回数を、他の衝突回数の表示よりも目立つような表示形態で、各通信端末30に表示させるようにしてもよい。例えば、回数表示制御部152は、複数の参加者のうちの第1の参加者の衝突回数から他の参加者それぞれの衝突回数を減算する。そして、回数表示制御部152は、減算して得られた値が、全て、予め定められた閾値よりも大きい場合に、第1の参加者の衝突回数を他の参加者の衝突回数の表示よりも目立つような表示形態で表示させるようにしてもよい。回数表示制御部152は、その表示形態で衝突回数が表示されるようにする指示を含む表示情報を生成する。例えば、回数表示制御部152は、第1の参加者の衝突回数を赤字で表示させ、その他の参加者の衝突回数を黒字で表示させるようにしてもよい。これにより、各参加者は、どの参加者の衝突回数が他の参加者の衝突回数と比較して突出して多いかを、確実に把握することができる。これにより、相対的に、どの参加者がより発話をしたがっているかを、より確実に把握することができる。
アイコン表示制御部154は、複数の参加者それぞれに対応する顔アイコンが複数の参加者それぞれの通信端末30に表示されるように、制御を行う。アイコン表示制御部154は、顔アイコンを表示する旨の指示を含む表示情報を生成する。図6の例では、参加者A~Dに対応する4つの顔アイコンが、通信端末30に表示される。
ここで、アイコン表示制御部154は、各顔アイコンが、対応する参加者の参加状態に対応して動作するように、表示情報を生成してもよい。具体的には、アイコン表示制御部154は、衝突発話を行った参加者の顔アイコンを動作させないように、顔アイコンを表示させてもよい。一方、アイコン表示制御部154は、衝突発話以外の発話を行った参加者の顔アイコンを動作させるように、顔アイコンを表示させてもよい。また、アイコン表示制御部154は、相槌を行った参加者の顔アイコンを動作させるように、顔アイコンを表示させてもよい。
例えば、アイコン表示制御部154は、発声(発話又は相槌)を行っていない参加者(図6の例では参加者D)の顔アイコンの口が閉じているように、顔アイコンを表示させてもよい。また、アイコン表示制御部154は、衝突発話以外の発話を行った参加者(図6の例では参加者B)の顔アイコンの口を開けるように、顔アイコンを表示させてもよい。あるいは、アイコン表示制御部154は、衝突発話以外の発話を行った参加者の顔アイコンの口が開閉するように、顔アイコンを表示させてもよい。また、アイコン表示制御部154は、相槌を行った参加者(図6の例では参加者C)の顔アイコンの口を開けるように、顔アイコンを表示させてもよい。あるいは、アイコン表示制御部154は、相槌を行った参加者の顔アイコンの口が開閉するように、顔アイコンを表示させてもよい。一方、アイコン表示制御部154は、衝突発話を行った参加者(図6の例では参加者A)の顔アイコンの口が閉じたままとするように、顔アイコンを表示させてもよい。
これにより、各参加者は、各通信端末30に表示された顔アイコンを見て、どの参加者が発話中であるかを把握することができる。また、各参加者は、相槌を行った参加者の通信端末30がミュート設定である場合であっても、相槌を行った参加者が相槌を行ったことを把握することができる。また、発話衝突を発生させた参加者の顔アイコンが動作しないので、各参加者は、発話衝突による煩わしさを受けることが抑制される。
図7は、実施の形態1にかかる遠隔会議システム20によって実行される遠隔会議方法を示すフローチャートである。図7に示す処理は、主に、遠隔会議装置100によって実行される。遠隔会議装置100は、遠隔会議を開始する(ステップS102)。このとき、表示制御部150によって生成される表示情報は、全ての参加者について、顔アイコンの口は閉じた状態(顔アイコンが動作していない状態)である旨、及び、衝突回数が0回である旨を示している。
次に、音声受信部112は、参加者Xの音声を受信する(ステップS104)。ここで、図6のように参加者A~Dが遠隔会議に参加している場合、参加者X(及び後述する参加者Y)は、参加者A~Dのいずれかである。そして、発話判定部120は、上述したように、参加者Xの音声が発話を示しているか又は相槌を示しているかを判定する(ステップS106)。参加者Xの音声が発話を示していない(つまり相槌を示している)場合(ステップS108のNO)、音声出力制御部130は、参加者Xの相槌が各通信端末30で出力されるように制御を行う(ステップS112)。また、表示制御部150(アイコン表示制御部154)は、参加者Xの顔アイコンが動作するように各通信端末30で表示されるように、制御を行う(ステップS114)。
一方、参加者Xの音声が発話を示している場合(S108のYES)、発話衝突判定部132は、参加者Xとは別の参加者Yが既に発話中であるか否かを判定する(ステップS120)。参加者Yが発話中でない場合(S120のNO)、参加者Xが発話を行ったときに他の誰も発話を行っていないので、発話衝突が発生していない。したがって、音声出力制御部130は、参加者Xの発話が各通信端末30で出力されるように制御を行う(ステップS122)。また、表示制御部150(アイコン表示制御部154)は、参加者Xの顔アイコンが動作するように各通信端末30で表示されるように、制御を行う(ステップS124)。このとき、表示制御部150は、参加者Xが発話中であることを示すメッセージが各通信端末30で表示されるように、制御を行ってもよい。
一方、参加者Yが発話中である場合(S120のYES)、参加者Xの発話によって発話衝突が発生している。したがって、音声出力制御部130(発話出力抑制部134)は、参加者Xの発話の出力を抑制するように、制御を行う(ステップS132)。また、回数カウント部140は、参加者Xの衝突回数を1つインクリメントする(ステップS134)。これにより、参加者情報格納部110に格納された参加者情報の、参加者Xの衝突回数が更新される。また、表示制御部150(回数表示制御部152)は、参加者Xの衝突回数の表示が更新されるように、制御を行う(ステップS136)。また、表示制御部150は、参加者Xの通信端末30に、「他の参加者が発話中」である旨が表示されるように、制御を行う(ステップS138)。
(実施の形態2)
次に、実施の形態2について、図面を参照しながら説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。また、各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。実施の形態2では、実施の形態1にかかる遠隔会議装置100の機能が各通信端末において実現され得る点で、実施の形態1と異なる。
図8は、実施の形態2にかかる遠隔会議システム200を示す図である。遠隔会議システム200は、複数の通信端末201A~201Dと、会議サーバ220とを有する。通信端末201A~201Dは、インターネット等のネットワークに接続されている。通信端末201A~201Dと、会議サーバ220とは、互いにネットワークを介して通信可能に接続されている。なお、図8には、4つの通信端末201が示されているが、通信端末201の数は2以上の任意の数であり得る。
複数の通信端末201A~201Dは、それぞれ、会議実行システム202、カメラ203、マイク204、ディスプレイ205、及びスピーカ206を有する。会議実行システム202は、遠隔会議を実行するように機能する。カメラ203は、その通信端末201のユーザの姿(顔など)を撮影可能である。マイク204は、その通信端末201のユーザの音声を収集可能である。ディスプレイ205は、遠隔会議に関する画像を表示可能である。スピーカ206は、遠隔会議の参加者(通信端末201A~201Dのユーザ)の音声を出力可能である。
会議実行システム202は、構成要素として、発話状態検出部207、会議情報受信部208、会議制御部209、及び会議情報送信部210を有する。なお、各通信端末201は、上述した実施の形態1にかかる通信端末30のハードウェア構成を有し得る。通信端末201の各構成要素の説明は後述する。
通信端末201は、その通信端末201のユーザの音声を示す音声情報を、会議サーバ220に送信する。また、通信端末201は、ユーザの発話状態を検出して、検出された発話状態を示す発話状態情報を、会議サーバ220に送信する。ここで、「発話状態」とは、各参加者が発話を行っているか相槌を行っているかを示す。なお、発話状態は、参加者が無言であることを示してもよい。
会議サーバ220は、各通信端末201から音声情報及び発話状態情報を受信すると、各ユーザ(遠隔会議の参加者)の音声情報に対してミキシング処理を行う。そして、会議サーバ220は、複数の通信端末201に、ミキシング処理が施された音声情報と、発話状態情報とを送信する。ミキシング処理が施された音声情報を送信することにより、各通信端末201において、スピーカ206から、安定して音声が出力され得る。
図9は、実施の形態2にかかる遠隔会議システム200において発話状態情報が送受信される状態を例示する図である。通信端末201A(通信端末A)は、通信端末201AのユーザAの発話状態情報を、会議サーバ220に送信する。通信端末201B(通信端末B)は、通信端末201BのユーザBの発話状態情報を、会議サーバ220に送信する。通信端末201C(通信端末C)は、通信端末201CのユーザCの発話状態情報を、会議サーバ220に送信する。通信端末201D(通信端末D)は、通信端末201DのユーザDの発話状態情報を、会議サーバ220に送信する。
また、通信端末201Aは、全員(ユーザA~D)の発話状態情報を、会議サーバ220から受信する。同様に、通信端末201B~201Dは、全員(ユーザA~D)の発話状態情報を、会議サーバ220から受信する。なお、各通信端末201は、そのユーザ以外の全員の発話状態情報を、会議サーバ220から受信してもよい。例えば、通信端末201Aは、ユーザB~Dの発話状態情報を、会議サーバ220から受信してもよい。
図10は、実施の形態2にかかる発話状態検出部207の構成を示すブロック図である。発話状態検出部207は、図1に示した発話判定部2及び図5に示した発話判定部120に対応する。つまり、発話状態検出部207は、発話判定手段としての機能を有する。発話状態検出部207は、音声入力部222、音声検出部223、言語認識部224、及び発話有無判別部225を有する。
音声入力部222は、マイク204で収集された音声信号(通信端末201のユーザの音声信号)を受け付ける。音声検出部223は、音声信号から音声情報を検出する。言語認識部224は、音声認識処理、音響分析、及び自然言語処理等を行って、音声情報から意味のある言語(主語、述語、目的語等)を認識する。
発話有無判別部225は、音声情報が発話に対応するか相槌に対応するかを判定する。音声情報から言語(意味のある単語)が認識された場合、発話有無判別部225は、音声情報が発話に対応すると判定する。音声情報から言語が認識されなかった場合、発話有無判別部225は、音声情報が相槌に対応すると判定する。なお、音声情報から人間の声が認識されなかった場合、発話有無判別部225は、音声情報が「無言」(発話も相槌も行っていない状態)に対応すると判定してもよい。発話状態検出部207は、発話有無判別部225による判定結果に応じて、発話状態情報を生成する。なお、発話状態情報は、会議制御部209によって生成されてもよい。
会議情報受信部208及び会議情報送信部210は、ネットワークを介して会議サーバ220と接続されている。会議情報受信部208は、会議サーバ220から、通信端末201A~201Dのユーザの会議情報を受信する。会議情報送信部210は、会議サーバ220に、その通信端末201のユーザの会議情報を送信する。例えば、通信端末201Aは、ユーザAの会議情報を会議サーバ220に送信する。
図11は、実施の形態2にかかる会議情報を例示する図である。会議情報は、顔アイコン表示情報と、発話状態情報と、音声情報と、衝突回数情報とを含む。また、会議情報は、対応するユーザ(通信端末201)の識別情報を含み得る。顔アイコン表示情報は、対応するユーザの顔アイコンをどのように表示させるかを示す情報である。衝突回数情報は、対応するユーザの衝突回数を示す情報である。なお、会議情報送信部210によって送信される会議情報は、図11に示した情報の全てを含むとは限らない。また、会議情報受信部208によって受信される会議情報は、図11に示した情報の全てを含むとは限らない。
会議制御部209は、会議情報送信部210によって送信される会議情報を生成する。言い換えると、会議制御部209は、図11に例示した情報のうちのどの情報を会議情報として送信するかを決定する。ここで、会議制御部209は、会議情報受信部208によって受信された会議情報を用いて、会議情報送信部210によって送信される会議情報を生成する。また、会議制御部209は、会議情報受信部208によって受信された会議情報を用いて、ディスプレイ205に会議の画像を表示させる。また、会議制御部209は、会議情報受信部208によって受信された会議情報を用いて、スピーカ206に音声を出力させる。
図12は、実施の形態2にかかる会議制御部209の構成を示す図である。会議制御部209は、音声出力制御部211と、回数カウント部215と、表示制御部216とを有する。音声出力制御部211は、発話衝突判定部212と、発話出力抑制部214とを有する。表示制御部216は、回数表示制御部217と、アイコン表示制御部218とを有する。会議制御部209は、実施の形態1にかかる遠隔会議装置100が参加者ごとに行う処理を、対応する通信端末201のユーザについてのみ行うように、構成されていてもよい。
音声出力制御部211は、図1に示した音声出力制御部4及び図5に示した音声出力制御部130に対応する。音声出力制御部211は、音声出力制御手段としての機能を有する。発話衝突判定部212は、図5に示した発話衝突判定部132に対応する。発話衝突判定部212は、発話衝突判定手段としての機能を有する。発話出力抑制部214は、図5に示した発話出力抑制部134に対応する。発話出力抑制部214は、発話出力抑制手段としての機能を有する。回数カウント部215は、図1に示したカウント部6及び図5に示した回数カウント部140に対応する。回数カウント部215は、カウント手段としての機能を有する。表示制御部216は、図5に示した表示制御部150に対応する。表示制御部216は、表示制御手段としての機能を有する。回数表示制御部217は、図1に示した回数表示制御部8及び図5に示した回数表示制御部152に対応する。回数表示制御部217は、回数表示制御手段としての機能を有する。アイコン表示制御部218は、図5に示したアイコン表示制御部154に対応する。アイコン表示制御部218は、アイコン表示制御手段としての機能を有する。
音声出力制御部211は、遠隔会議の複数の参加者それぞれの音声が対応する通信端末201で出力されるように制御を行う。また、音声出力制御部211は、対応する通信端末201のユーザの音声が複数の参加者それぞれの通信端末201(第1の通信端末)で出力されるように制御を行う。例えば通信端末201Aでは、音声出力制御部211は、ユーザAの音声が複数の参加者それぞれの通信端末201で出力されるように制御を行う。音声出力制御部211は、音声出力制御部130の機能と実質的に同様の機能を有してもよい。
発話衝突判定部212は、対応する通信端末201のユーザについて、発話衝突が発生したか否かを判定する。例えば通信端末201Aでは、発話衝突判定部212は、ユーザAの発話により発話衝突が発生したか否かを判定する。発話衝突判定部212は、会議情報受信部208によって受信された他のユーザに関する会議情報を用いて、ユーザAの発話が他のユーザの発話の期間になされていないか否かを判定する。発話衝突判定部212は、発話衝突判定部132の機能と実質的に同様の機能を有してもよい。
発話出力抑制部214は、対応する通信端末201のユーザが衝突発話を発生させた場合に複数の参加者それぞれの通信端末201(第1の通信端末)における衝突発話の出力を抑制するための制御を行う。例えば通信端末201Aでは、発話出力抑制部214は、ユーザAが衝突発話を発生させた場合に複数の参加者それぞれの通信端末201(第1の通信端末)における衝突発話の出力を抑制するための制御を行う。発話出力抑制部214は、発話出力抑制部134の機能と実質的に同様の機能を有してもよい。
回数カウント部215は、対応する通信端末201のユーザについて、発話衝突の発生した回数をカウントする。例えば通信端末201Aでは、回数カウント部215は、ユーザAについて、発話衝突の発生した回数をカウントする。回数カウント部215は、回数カウント部140の機能と実質的に同様の機能を有してもよい。
表示制御部216は、対応する通信端末201のユーザについて、複数の参加者それぞれの通信端末201(第1の通信端末)においてどのような画像が表示されるかを制御する。例えば通信端末201Aでは、表示制御部216は、複数の参加者それぞれの通信端末201(第1の通信端末)において、ユーザAについてのどのような画像が表示されるかを制御する。表示制御部216は、表示制御部150の機能と実質的に同様の機能を有してもよい。
回数表示制御部217は、対応する通信端末201のユーザの衝突発話の回数が複数の参加者それぞれの通信端末201(第1の通信端末)で表示されるように、制御を行う。例えば通信端末201Aでは、回数表示制御部217は、ユーザAの衝突発話の回数が複数の参加者それぞれの通信端末201(第1の通信端末)で表示されるように、制御を行う。回数表示制御部217は、回数表示制御部152の機能と実質的に同様の機能を有してもよい。
アイコン表示制御部218は、対応する通信端末201のユーザに対応する顔アイコンが複数の参加者それぞれの通信端末201(第1の通信端末)に表示されるように、制御を行う。例えば通信端末201Aでは、アイコン表示制御部218は、ユーザAに対応する顔アイコンが複数の参加者それぞれの通信端末201(第1の通信端末)に表示されるように、制御を行う。アイコン表示制御部218は、アイコン表示制御部154の機能と実質的に同様の機能を有してもよい。
図13は、実施の形態2にかかる遠隔会議システム200で実行される遠隔会議方法を示すフローチャートである。図13にかかる遠隔会議方法は、主に、各通信端末201の会議実行システム202で実行される。以下の説明では、適宜、通信端末201Aの処理について説明するが、他の通信端末201においても同様である。
まず、会議実行システム202が起動される(ステップS201)。このとき、遠隔会議の全ての参加者の衝突回数は0回である。また、遠隔会議の全ての参加者の顔アイコンは、口が閉じた状態である。そして、発話状態検出部207(音声入力部222)は、通信端末201Aのマイク204から、音声信号の入力を行う(ステップS202)。音声検出部223は、ユーザAの音声があるか否かを判定する。(ステップS203)。
ユーザAの音声がないと判定された場合(S203のNO)、会議制御部209は、この判定に対応する、ユーザAの会議情報を生成して、会議サーバ220に送信する(ステップS204)。そして、処理フローはS202に戻る。具体的には、会議制御部209は、無言を示す発話状態情報、及び、口が開いていない顔アイコンを示す顔アイコン表示情報を含む会議情報を生成して、会議サーバ220に送信する。会議サーバ220は、この会議情報を通信端末201A~201Dに送信する。これにより、各通信端末201のディスプレイ205に、ユーザAの、口が開いていない顔アイコンが表示される。なお、会議情報に音声情報が含まれていないので、各通信端末201のスピーカ206では、ユーザAの音声は出力されない。なお、顔アイコンの例については後述する。
なお、S204の処理において、発話状態検出部207は、無言を示す発話状態情報を生成する。また、表示制御部216のアイコン表示制御部218は、口が開いていない顔アイコンを示す顔アイコン表示情報を生成する。また、音声出力制御部211は、音声情報を会議情報に含めないと決定する。なお、会議情報は、衝突回数が0回であることを示す衝突回数情報を含んでもよい。このとき、回数表示制御部217は、衝突回数が増加していないことを示す衝突回数情報を生成してもよい。
一方、ユーザAの音声があると判定された場合(S203のYES)、言語認識部224は、上述した言語認識を行う(ステップS205)。そして、発話有無判別部225は、音声情報に言語があるか否かを判定する(ステップS206)。つまり、発話有無判別部225は、音声情報から言語が認識されたか否かを判定する。言語がない場合(S206のNO)、発話有無判別部225は、ユーザAの音声情報が相槌に対応すると判定する。
そして、会議制御部209は、この判定に対応する、ユーザAの会議情報を生成して、会議サーバ220に送信する(ステップS207)。そして、処理フローはS202に戻る。具体的には、会議制御部209は、相槌を示す発話状態情報、口が開いている顔アイコンを示す顔アイコン表示情報、及び音声情報を含む会議情報を生成して、会議サーバ220に送信する。会議サーバ220は、この会議情報を通信端末201A~201Dに送信する。これにより、各通信端末201のディスプレイ205に、ユーザAの、口が開いている顔アイコンが表示される。また、各通信端末201のスピーカ206で、ユーザAの音声(相槌)が出力される。
なお、S207の処理において、発話状態検出部207は、相槌を示す発話状態情報を生成する。また、表示制御部216のアイコン表示制御部218は、口が開いている顔アイコンを示す顔アイコン表示情報を生成する。また、音声出力制御部211は、音声情報を会議情報に含めると決定する。なお、会議情報は、衝突回数が増加していないことを示す衝突回数情報を含んでもよい。このとき、回数表示制御部217は、衝突回数が増加していないことを示す衝突回数情報を生成してもよい。
一方、言語がある場合(S206のYES)、発話有無判別部225は、ユーザAの音声情報に発話があると判定する(ステップS208)。このとき、会議制御部209の発話衝突判定部212は、他のユーザからの発話がないか否かを判定する(ステップS209)。言い換えると、発話衝突判定部212は、受信された他のユーザの会議情報(音声情報及び発話状態情報)を用いて、ユーザAの発話の前に他のユーザが発話を行っていないかを判定する。さらに言い換えると、発話衝突判定部212は、ユーザAの発話によって発話衝突が発生していないか否かを判定する。
他のユーザからの発話がない場合(S209のYES)、会議制御部209は、ユーザAの発話は発話衝突を起こしていないと判定する。そして、会議制御部209は、この判定に対応する、ユーザAの会議情報を生成して、会議サーバ220に送信する(ステップS210)。そして、処理フローはS202に戻る。具体的には、会議制御部209は、発話を示す発話状態情報、口が開いている顔アイコンを示す顔アイコン表示情報、及び音声情報を含む会議情報を生成して、会議サーバ220に送信する。会議サーバ220は、この会議情報を通信端末201A~201Dに送信する。これにより、各通信端末201のディスプレイ205に、ユーザAの、口が開いている顔アイコンが表示される。また、各通信端末201のスピーカ206で、ユーザAの音声(発話)が出力される。このとき、会議情報は、ユーザAが話し中である旨を表示する表示情報を含んでもよい。この場合、各通信端末201のディスプレイ205に、ユーザAが話し中であることを示すメッセージが表示される。これにより、各ユーザは誰が発話を行っているのかを把握することができるので、議事録の作成を行いやすくなる。
なお、S210の処理において、発話状態検出部207は、発話を示す発話状態情報を生成する。また、表示制御部216のアイコン表示制御部218は、口が開いている顔アイコンを示す顔アイコン表示情報を生成する。また、音声出力制御部211は、音声情報を会議情報に含めると決定する。なお、会議情報は、衝突回数が増加していないことを示す衝突回数情報を含んでもよい。このとき、回数表示制御部217は、衝突回数が増加していないことを示す衝突回数情報を生成してもよい。
一方、他のユーザからの発話がある場合(S209のNO)、会議制御部209は、ユーザAの発話は発話衝突を起こしたと判定する。そして、会議制御部209は、通信端末201Aのディスプレイ205に、「他のユーザが話し中です」といったメッセージを表示させる(ステップS211)。そして、会議制御部209は、この判定に対応する、ユーザAの会議情報を生成して、会議サーバ220に送信する(ステップS212)。そして、処理フローはS202に戻る。具体的には、会議制御部209は、発話(衝突発話)を示す発話状態情報、口が開いていない顔アイコンを示す顔アイコン表示情報、及び、衝突回数を1つインクリメントした衝突回数情報を含む会議情報を生成して、会議サーバ220に送信する。会議サーバ220は、この会議情報を通信端末201A~201Dに送信する。これにより、各通信端末201のディスプレイ205に、ユーザAの、口が開いていない顔アイコンが表示される。また、各通信端末201のディスプレイ205に、1つ増加した、ユーザAの衝突回数が表示される。なお、会議情報に音声情報が含まれていないので、各通信端末201のスピーカ206では、ユーザAの音声は出力されない。
なお、S212の処理において、発話状態検出部207は、発話(衝突発話)を示す発話状態情報を生成する。また、表示制御部216のアイコン表示制御部218は、口が開いていない顔アイコンを示す顔アイコン表示情報を生成する。また、音声出力制御部211の発話出力抑制部214は、音声情報を会議情報に含めないと決定する。また、回数表示制御部217は、衝突回数が1つ増加したことを示す衝突回数情報を生成する。
図14及び図15は、実施の形態2にかかる遠隔会議において各通信端末201で表示される会議画像230を例示する図である。会議画像230において、各ユーザのユーザ名の近傍に、各ユーザに対応する顔アイコン231及び衝突回数232が表示される。したがって、ユーザAのユーザ名の近傍に、顔アイコン231A及び衝突回数232Aが表示される。同様に、ユーザBのユーザ名の近傍に、顔アイコン231B及び衝突回数232Bが表示される。ユーザCのユーザ名の近傍に、顔アイコン231C及び衝突回数232Cが表示される。ユーザDのユーザ名の近傍に、顔アイコン231D及び衝突回数232Dが表示される。図14の例では、衝突回数232Aは0回を示し、衝突回数232Bは2回を示し、衝突回数232Cは1回を示し、衝突回数232Dは0回を示している。なお、会議画像230は、ユーザA~Dごとに顔アイコン231及び衝突回数232を表示する、表示領域230a~230dを有していてもよい。
また、図14に例示された会議画像230では、ユーザBが発話を行っている。したがって、ユーザBの顔アイコン231Bの近傍に、ユーザBが発話を行っていることを示すメッセージ234が表示される。また、ユーザBの顔アイコン231Bの口は開いている。また、ユーザCは相槌を行っている。したがって、ユーザCの顔アイコン231Cの口は開いている。また、ユーザA及びユーザDは無言である。したがって、ユーザAの顔アイコン231Aの口及びユーザDの顔アイコン231Dの口は閉じている。また、ユーザBが発話を行っているので、各通信端末201は、ユーザBの発話を出力する。また、ユーザCが相槌を行っているので、各通信端末201は、ユーザCの相槌を出力する。
図15は、図14に例示された会議画像230の状態で、ユーザAの発話により発話衝突が発生した場合を例示している。ユーザBが発話を行っているときにユーザAがユーザBよりも遅れて発話を行った場合、ユーザAの発話は衝突発話と判定される。このとき、ユーザAの通信端末201Aには、他のユーザ(ユーザB)が発話中である旨を示すメッセージ236が示される。また、ユーザAの衝突回数232Aは、0回から1回に更新されることを示す。なお、ユーザAの発話は衝突発話であるので、ユーザAの顔アイコン231Aの口は閉じている。なお、メッセージ236はユーザAの通信端末201Aのみに表示されるが、メッセージ236以外の、各ユーザの通信端末201に表示される会議画像230は、互いに同じであり得る。
(本実施の形態にかかる効果)
以下、本実施の形態にかかる効果を説明する。
近年、参加者が自宅に滞在したまま遠隔会議を行うことが増加している。遠隔会議を開催するにあたり、自宅のインターネット環境を用いた遠隔会議を活用することが増えている。この場合、自宅のインターネット環境に起因した遅延が発生するため、複数の参加者の発話が被ること(発話衝突)や、お互いに発話を遠慮することが起こり易くなる可能性があり、遠隔会議がスムーズに進行しないおそれがある。また、自宅で遠隔会議に参加する場合、参加者は、プライバシーの問題やインターネット回線の輻輳を防ぐといった目的で、音声のみで遠隔会議に参加することが多い。その場合、会話時に相手の表情が読み取れないという問題がある。さらに、環境音が入るのを防ぐために自分が発言するとき以外はミュート設定することで、発言者に相槌も伝わりづらいという問題がある。また、音声情報がある人に発言中を示す表示をする仕組みを採用する技術では、相槌のみの場合でも発言中と見なされるため、会議参加者が多い場合は誰が発言しているのかがわかりづらいという問題もある。
本実施の形態にかかる遠隔会議システムは、ある参加者が発話しているときに遅れて他の参加者が発話を行った場合に、遅れて発話を行った他の参加者の発話が、各参加者の通信端末で出力されることが抑制されるように構成されている。これにより、各参加者は、通信端末で衝突発話(遅れて発話を行った他の参加者の発話)を聴くことが抑制されるので、遠隔会議の進行がスムーズとなる。
さらに、本実施の形態にかかる遠隔会議システムは、発話衝突を発生させた参加者ごとに、衝突回数をカウントして、各通信端末で衝突回数に関する表示がなされるように構成されている。したがって、各参加者は、どの参加者の発話衝突の回数が多いかといったことを把握することができる。これにより、各参加者は、どの参加者が話したがっているかの気づきを与えることができる。これにより、他の参加者は、その参加者に対して発話を促したり、その参加者が発話を行うまで待機したりといった行動を行うことができる。したがって、本実施の形態にかかる遠隔会議システムは、遠隔会議をスムーズに進行することが可能となる。
また、本実施の形態にかかる遠隔会議システムは、複数の参加者ごとに、衝突回数が各参加者の通信端末で表示されるように構成されている。これにより、各参加者は、各参加者の衝突回数を把握することができる。
また、本実施の形態にかかる遠隔会議システムは、遅れて発話を行った参加者の通信端末に、「他ユーザが話し中です」いったメッセージを表示させるように構成されている。したがって、衝突発話を行った参加者に発話衝突が発生したことの気づきを与えることができる。
また、本実施の形態にかかる遠隔会議システムは、ある参加者が発話を行っているときに他の参加者が相槌を行った場合であっても、相槌を各参加者の通信端末に出力させるように構成されている。これにより、発話行っている参加者(発言者)は、他の参加者に発言を聞いてもらっているという安心感を得ることができる。
また、本実施の形態にかかる遠隔会議システムは、ある参加者が相槌を行った場合、各参加者の通信端末に、相槌を行った参加者に対応する、口が開いた顔アイコンを表示させるように構成されている。これにより、相槌を行った参加者の通信端末がミュート設定である場合でも、発言者は、相槌を行っている参加者がいることを把握できるので、発言を聞いてもらっているという安心感を得ることができる。
また、実施の形態2にかかる遠隔会議システムは、発話衝突が発生した際に、衝突発話の音声情報が通信端末から会議サーバに送信されないように構成されている。これにより、ネットワークの負荷を低減することができる。
(変形例)
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述した複数の実施の形態は、相互に適用可能である。例えば、実施の形態1にかかる遠隔会議装置100の機能を、実施の形態2にかかる通信端末201で実現してもよい。また、実施の形態2にかかる通信端末201の機能を、実施の形態1にかかる遠隔会議装置100で実現してもよい。
また、上述したフローチャートにおいて、各処理(ステップ)の順序は、適宜、変更可能である。また、複数ある処理(ステップ)のうちの1つ以上は、省略されてもよい。例えば、図7において、S112の処理とS114の処理の順序は互いに逆であってもよい。同様に、図13において、S211の処理とS212の処理の順序は互いに逆であってもよい。また、図7において、S114,S124,S138の処理はなくてもよい。同様に、S211の処理はなくてもよい。
また、上述した実施の形態において、回数表示制御部は、各参加者(ユーザ)の衝突回数が複数の参加者の通信端末に表示されるように制御を行うとしたが、このような構成に限られない。回数表示制御部は、複数の通信端末に、衝突回数自体を表示させる必要はない。例えば、回数表示制御部は、衝突回数の数に応じたレベルを複数の通信端末に表示させるようにしてもよい。例えば、回数表示制御部は、衝突回数が2以下であればレベルC、衝突回数が3~4であればレベルB、衝突回数が5以上であればレベルAといったように、各通信端末に表示させてもよい。また、回数表示制御部は、ある参加者の衝突回数が閾値を超えた場合に、各通信端末に警告を表示させるようにしてもよい。また、例えば、回数表示制御部は、衝突回数が増加した参加者の顔アイコンを、発話を行いたいことが分かるような形態(顔アイコンの色が赤くなる等)に動作させるように、各通信端末に表示させてもよい。
また、衝突回数は、遠隔会議が実行されている間、発話衝突が発生するごとに増加し続けてもよいし、遠隔会議の途中でリセットされてもよい。例えば、衝突回数は、対応する参加者が衝突発話でない発話を予め定められた回数行った場合にリセットされてもよい。また、例えば、衝突回数は、対応する参加者が通信端末を操作することによりリセットされてもよい。
また、実施の形態2では、各通信端末201が対応するユーザの顔アイコン表示情報を生成するとしたが、このような構成に限られない。例えば、通信端末201Aから送信されたユーザAに関する発話状態情報を用いて、各通信端末201が、ユーザAの顔アイコンを生成してもよい。
また、上述した実施の形態では、遠隔会議の実施中に、複数の通信端末それぞれで各ユーザ(参加者)の顔アイコンが表示されるとしたが、このような構成に限られない。カメラ203等によって撮影された各ユーザの顔の映像が、複数の通信端末それぞれで表示されてもよい。しかしながら、ユーザの顔の映像が表示されると、映像では、相槌を行っているユーザの口も衝突発話を行っているユーザの口も動いている可能性がある。したがって、他のユーザは、相槌と衝突発話との区別を、視覚的にできない可能性がある。これに対し、本実施の形態では、各通信端末で顔アイコンが表示され、衝突発話を行っているユーザの顔アイコンの口が閉じるようにし、相槌を行っているユーザの顔アイコンの口が開くようにしている。したがって、本実施の形態では、相槌と衝突発話との区別を、視覚的に行うことが可能である。さらに、本実施の形態にかかる遠隔会議システムでは、各通信端末が映像情報の送信を行わないので、ネットワークの負荷を低減しつつ、ユーザの発話状態を把握することができる。
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
遠隔会議の複数の参加者それぞれの音声が発話を示しているか又は相槌を示しているかを判定する発話判定手段と、
前記複数の参加者それぞれの音声が前記複数の参加者それぞれの通信端末で出力されるように制御を行い、前記複数の参加者のうちのある参加者が発話を行っている際に他の参加者が発話を行った場合に、前記他の参加者の発話の出力を抑制するように制御を行う音声出力制御手段と、
出力が抑制された発話である第1の発話の回数を、前記複数の参加者ごとにカウントするカウント手段と、
前記回数に関する表示が前記複数の参加者それぞれの前記通信端末でなされるように制御を行う回数表示制御手段と、
を有する遠隔会議システム。
(付記2)
前記回数表示制御手段は、前記複数の参加者ごとの前記第1の発話の回数が前記複数の参加者それぞれの前記通信端末に表示されるように制御を行う、
付記1に記載の遠隔会議システム。
(付記3)
前記回数表示制御手段は、予め定められた閾値よりも多い前記回数を、前記閾値以下の前記回数の表示よりも目立つような表示形態で、前記通信端末に表示させる、
付記2に記載の遠隔会議システム。
(付記4)
前記回数表示制御手段は、前記複数の参加者の前記回数のうち最も多い前記回数を、他の前記回数の表示よりも目立つような表示形態で、前記通信端末に表示させる、
付記2に記載の遠隔会議システム。
(付記5)
前記音声出力制御手段は、前記参加者が相槌を行った場合には、当該相槌が前記複数の参加者それぞれの前記通信端末で出力されるように制御を行う、
付記1から4のいずれか1項に記載の遠隔会議システム。
(付記6)
前記複数の参加者それぞれに対応する顔アイコンが前記複数の参加者それぞれの前記通信端末に表示されるように制御を行うアイコン表示制御手段、
をさらに有し、
前記アイコン表示制御手段は、前記第1の発話を行った前記他の参加者に対応する前記顔アイコンを動作させないように前記顔アイコンを表示させ、前記第1の発話以外の発話を行った前記参加者に対応する前記顔アイコンを動作させるように前記顔アイコンを表示させる、
付記1から5のいずれか1項に記載の遠隔会議システム。
(付記7)
前記アイコン表示制御手段は、前記参加者が相槌を行った場合には、当該参加者に対応する前記顔アイコンを動作させるように、前記顔アイコンを表示させる、
付記6に記載の遠隔会議システム。
(付記8)
通信端末であって、
当該通信端末のユーザが参加する遠隔会議において当該ユーザの音声が発話を示しているか又は相槌を示しているかを判定する発話判定手段と、
前記遠隔会議の複数の参加者それぞれの音声が当該通信端末で出力され、前記ユーザの音声が複数の参加者それぞれの前記通信端末である第1の通信端末で出力されるように制御を行い、前記複数の参加者のうちのある参加者が発話を行っている際に前記ユーザが発話を行った場合に、前記ユーザの発話が前記第1の通信端末で出力されることを抑制するように制御を行う音声出力制御手段と、
当該通信端末のユーザについて、出力が抑制された発話である第1の発話の回数をカウントするカウント手段と、
前記回数に関する表示が前記第1の通信端末でなされるように制御を行う回数表示制御手段と、
を有する通信端末。
(付記9)
前記回数表示制御手段は、当該通信端末のユーザの前記第1の発話の回数が前記第1の通信端末に表示されるように制御を行う、
付記8に記載の通信端末。
(付記10)
前記音声出力制御手段は、当該通信端末のユーザが相槌を行った場合には、当該相槌が前記第1の通信端末で出力されるように制御を行う、
付記8又は9に記載の通信端末。
(付記11)
当該通信端末のユーザに対応する顔アイコンが前記第1の通信端末に表示されるように制御を行うアイコン表示制御手段、
をさらに有し、
前記アイコン表示制御手段は、当該通信端末のユーザが前記第1の発話を行った場合に前記顔アイコンを動作させないように前記顔アイコンを表示させ、当該通信端末のユーザが前記第1の発話以外の発話を行った場合に前記顔アイコンを動作させるように前記顔アイコンを表示させる、
付記8から10のいずれか1項に記載の通信端末。
(付記12)
前記アイコン表示制御手段は、当該通信端末のユーザが相槌を行った場合には、前記顔アイコンを動作させるように、前記顔アイコンを表示させる、
付記11に記載の通信端末。
(付記13)
遠隔会議の複数の参加者それぞれの音声が発話を示しているか又は相槌を示しているかを判定し、
前記複数の参加者それぞれの音声が前記複数の参加者それぞれの通信端末で出力されるように制御を行い、
前記複数の参加者のうちのある参加者が発話を行っている際に他の参加者が発話を行った場合に、前記他の参加者の発話の出力を抑制するように制御を行い、
出力が抑制された発話である第1の発話の回数を、前記参加者ごとにカウントし、
前記回数に関する表示が前記複数の参加者それぞれの前記通信端末でなされるように制御を行う、
遠隔会議方法。
(付記14)
前記複数の参加者ごとの前記第1の発話の回数が前記複数の参加者それぞれの前記通信端末に表示されるように制御を行う、
付記13に記載の遠隔会議方法。
(付記15)
予め定められた閾値よりも多い前記回数を、前記閾値以下の前記回数の表示よりも目立つような表示形態で、前記通信端末に表示させる、
付記14に記載の遠隔会議方法。
(付記16)
前記複数の参加者の前記回数のうち最も多い前記回数を、他の前記回数の表示よりも目立つような表示形態で、前記通信端末に表示させる、
付記14に記載の遠隔会議方法。
(付記17)
前記参加者が相槌を行った場合には、当該相槌が前記複数の参加者それぞれの前記通信端末で出力されるように制御を行う、
付記13から16のいずれか1項に記載の遠隔会議方法。
(付記18)
前記複数の参加者それぞれに対応する顔アイコンが前記複数の参加者それぞれの前記通信端末に表示されるように制御を行い、
前記第1の発話を行った前記他の参加者に対応する前記顔アイコンを動作させないように前記顔アイコンを表示させ、
前記第1の発話以外の発話を行った前記参加者に対応する前記顔アイコンを動作させるように前記顔アイコンを表示させる、
付記13から17のいずれか1項に記載の遠隔会議方法。
(付記19)
前記参加者が相槌を行った場合には、当該参加者に対応する前記顔アイコンを動作させるように、前記顔アイコンを表示させる、
付記18に記載の遠隔会議方法。
(付記20)
通信端末で実行される遠隔会議方法であって、
当該通信端末のユーザが参加する遠隔会議において当該ユーザの音声が発話を示しているか又は相槌を示しているかを判定し、
前記遠隔会議の複数の参加者それぞれの音声が当該通信端末で出力され、前記ユーザの音声が複数の参加者それぞれの前記通信端末である第1の通信端末で出力されるように制御を行い、
前記複数の参加者のうちのある参加者が発話を行っている際に前記ユーザが発話を行った場合に、前記ユーザの発話が前記第1の通信端末で出力されることを抑制するように制御を行い、
当該通信端末のユーザについて、出力が抑制された発話である第1の発話の回数をカウントし、
前記回数に関する表示が前記第1の通信端末でなされるように制御を行う、
遠隔会議方法。
(付記21)
当該通信端末のユーザの前記第1の発話の回数が前記第1の通信端末に表示されるように制御を行う、
付記20に記載の遠隔会議方法。
(付記22)
当該通信端末のユーザが相槌を行った場合には、当該相槌が前記第1の通信端末で出力されるように制御を行う、
付記20又は21に記載の遠隔会議方法。
(付記23)
当該通信端末のユーザに対応する顔アイコンが前記第1の通信端末に表示されるように制御を行い、
当該通信端末のユーザが前記第1の発話を行った場合に前記顔アイコンを動作させないように前記顔アイコンを表示させ、
当該通信端末のユーザが前記第1の発話以外の発話を行った場合に前記顔アイコンを動作させるように前記顔アイコンを表示させる、
付記20から22のいずれか1項に記載の遠隔会議方法。
(付記24)
当該通信端末のユーザが相槌を行った場合には、前記顔アイコンを動作させるように、前記顔アイコンを表示させる、
付記23に記載の遠隔会議方法。
(付記25)
遠隔会議の複数の参加者それぞれの音声が発話を示しているか又は相槌を示しているかを判定する機能と、
前記複数の参加者それぞれの音声が前記複数の参加者それぞれの通信端末で出力されるように制御を行い、前記複数の参加者のうちのある参加者が発話を行っている際に他の参加者が発話を行った場合に、前記他の参加者の発話の出力を抑制するように制御を行う機能と、
出力が抑制された発話である第1の発話の回数を、前記参加者ごとにカウントする機能と、
前記回数に関する表示が前記複数の参加者それぞれの前記通信端末でなされるように制御を行う機能と、
をコンピュータに実現させるプログラム。
(付記26)
通信端末で実行される遠隔会議方法を実行するためのプログラムであって、
当該通信端末のユーザが参加する遠隔会議において当該ユーザの音声が発話を示しているか又は相槌を示しているかを判定する機能と、
前記遠隔会議の複数の参加者それぞれの音声が当該通信端末で出力され、前記ユーザの音声が複数の参加者それぞれの前記通信端末である第1の通信端末で出力されるように制御を行い、前記複数の参加者のうちのある参加者が発話を行っている際に前記ユーザが発話を行った場合に、前記ユーザの発話が前記第1の通信端末で出力されることを抑制するように制御を行う機能と、
当該通信端末のユーザについて、出力が抑制された発話である第1の発話の回数をカウントする機能と、
前記回数に関する表示が前記第1の通信端末でなされるように制御を行う機能と、
をコンピュータに実現させるプログラム。