JP7290366B2

JP7290366B2 - 通信端末、遠隔会議方法及びプログラム

Info

Publication number: JP7290366B2
Application number: JP2022021740A
Authority: JP
Inventors: 麻由子寺田
Original assignee: NEC Platforms Ltd
Current assignee: NEC Platforms Ltd
Priority date: 2020-12-11
Filing date: 2022-02-16
Publication date: 2023-06-13
Anticipated expiration: 2040-12-11
Also published as: JP2022093326A

Description

本発明は、通信端末、遠隔会議方法及びプログラムに関する。

近年、ネットワークを介して互いに離れた地点に設けられた複数の通信端末の間で会議を開催することが可能となっている。このような遠隔会議を開催する遠隔会議システムでは、会議の参加者が１箇所の会議室に集まる必要はなく、各参加者は、各々の席又は自宅等にいながら、遠隔会議に参加することができる。

このような技術に関連し、特許文献１は、通信回線の負荷を考慮しつつ臨場感のある会議を提供する通信制御装置を開示する。また、特許文献２は、既存発話の再生中に新規発話を行っても既存発話の再生を損なうことなく、表現力が高く、発言しやすい、より対話性に富んだ会議システムを開示する。

特開２０１０－２３９３９３号公報特開２００１－２３０７７３号公報

遠隔会議では、通信の遅延等により、完全にリアルタイムなコミュニケーションを行うことが難しい場合がある。また、他の参加者の顔を視認することができないことがあるため、他の参加者の様子を理解することが難しい場合がある。このような場合、他の参加者が発話（発言）を行っている際に別の参加者が発話を行ってしまう、発話衝突が発生することがある。発話衝突が発生すると、遅れて発話を行った参加者が発話を遠慮ことがある。この場合、遅れて発話した（つまり発話衝突を発生させた）参加者の不満が増大するおそれがある。したがって、発話衝突が発生すると、遠隔会議がスムーズに進行することが阻害されてしまうおそれがある。

本開示の目的は、このような課題を解決するためになされたものであり、遠隔会議をスムーズに進行することが可能となる遠隔会議システム、通信端末、遠隔会議方法及びプログラムを提供することにある。

本開示にかかる遠隔会議システムは、遠隔会議の複数の参加者それぞれの音声が発話を示しているか又は相槌を示しているかを判定する発話判定手段と、前記複数の参加者それぞれの音声が前記複数の参加者それぞれの通信端末で出力されるように制御を行い、前記複数の参加者のうちのある参加者が発話を行っている際に他の参加者が発話を行った場合に、前記他の参加者の発話の出力を抑制するように制御を行う音声出力制御手段と、出力が抑制された発話である第１の発話の回数を、前記複数の参加者ごとにカウントするカウント手段と、前記回数に関する表示が前記複数の参加者それぞれの前記通信端末でなされるように制御を行う回数表示制御手段と、を有する。

また、本開示にかかる通信端末は、当該通信端末のユーザが参加する遠隔会議において当該ユーザの音声が発話を示しているか又は相槌を示しているかを判定する発話判定手段と、前記遠隔会議の複数の参加者それぞれの音声が当該通信端末で出力され、前記ユーザの音声が複数の参加者それぞれの前記通信端末である第１の通信端末で出力されるように制御を行い、前記複数の参加者のうちのある参加者が発話を行っている際に前記ユーザが発話を行った場合に、前記ユーザの発話が前記第１の通信端末で出力されることを抑制するように制御を行う音声出力制御手段と、当該通信端末のユーザについて、出力が抑制された発話である第１の発話の回数をカウントするカウント手段と、前記回数に関する表示が前記第１の通信端末でなされるように制御を行う回数表示制御手段と、を有する。

また、本開示にかかる遠隔会議方法は、遠隔会議の複数の参加者それぞれの音声が発話を示しているか又は相槌を示しているかを判定し、前記複数の参加者それぞれの音声が前記複数の参加者それぞれの通信端末で出力されるように制御を行い、前記複数の参加者のうちのある参加者が発話を行っている際に他の参加者が発話を行った場合に、前記他の参加者の発話の出力を抑制するように制御を行い、出力が抑制された発話である第１の発話の回数を、前記参加者ごとにカウントし、前記回数に関する表示が前記複数の参加者それぞれの前記通信端末でなされるように制御を行う。

また、本開示にかかるプログラムは、遠隔会議の複数の参加者それぞれの音声が発話を示しているか又は相槌を示しているかを判定する機能と、前記複数の参加者それぞれの音声が前記複数の参加者それぞれの通信端末で出力されるように制御を行い、前記複数の参加者のうちのある参加者が発話を行っている際に他の参加者が発話を行った場合に、前記他の参加者の発話の出力を抑制するように制御を行う機能と、出力が抑制された発話である第１の発話の回数を、前記参加者ごとにカウントする機能と、前記回数に関する表示が前記複数の参加者それぞれの前記通信端末でなされるように制御を行う機能と、をコンピュータに実現させる。

本開示によれば、遠隔会議をスムーズに進行することが可能となる遠隔会議システム、通信端末、遠隔会議方法及びプログラムを提供できる。

本開示の実施の形態にかかる遠隔会議システムを示す図である。本開示の実施の形態にかかる遠隔会議システムによって実行される遠隔会議方法を示すフローチャートである。実施の形態１にかかる遠隔会議システムを示す図である。実施の形態１にかかる通信端末の構成を示す図である。実施の形態１にかかる遠隔会議装置の構成を示す図である。実施の形態１にかかる参加者情報を例示する図である。実施の形態１にかかる遠隔会議システムによって実行される遠隔会議方法を示すフローチャートである。実施の形態２にかかる遠隔会議システムを示す図である。実施の形態２にかかる遠隔会議システムにおいて発話状態情報が送受信される状態を例示する図である。実施の形態２にかかる発話状態検出部の構成を示すブロック図である。実施の形態２にかかる会議情報を例示する図である。実施の形態２にかかる会議制御部の構成を示す図である。実施の形態２にかかる遠隔会議システムで実行される遠隔会議方法を示すフローチャートである。実施の形態２にかかる遠隔会議において各通信端末で表示される会議画像を例示する図である。実施の形態２にかかる遠隔会議において各通信端末で表示される会議画像を例示する図である。

（本開示にかかる実施の形態の概要）
本開示の実施形態の説明に先立って、本開示にかかる実施の形態の概要について説明する。図１は、本開示の実施の形態にかかる遠隔会議システム１を示す図である。遠隔会議システム１は、遠隔会議（Ｗｅｂ会議）を実現する。遠隔会議は、複数の参加者の通信端末を用いて行われる。遠隔会議システム１は、例えば、コンピュータによって実現可能である。遠隔会議システム１は、遠隔会議の参加者の各通信端末で実現されてもよいし、遠隔会議を管理するサーバ等によって実現されてもよい。また、遠隔会議システム１は、サーバ及び通信端末といった、複数の装置で実現されてもよい。

遠隔会議システム１は、発話判定部２と、音声出力制御部４と、カウント部６と、回数表示制御部８とを有する。発話判定部２は、発話判定手段としての機能を有する。音声出力制御部４は、音声出力制御手段としての機能を有する。カウント部６は、カウント手段としての機能を有する。回数表示制御部８は、回数表示制御手段としての機能を有する。

図２は、本開示の実施の形態にかかる遠隔会議システム１によって実行される遠隔会議方法を示すフローチャートである。発話判定部２は、遠隔会議の複数の参加者それぞれの音声が発話を示しているか又は相槌を示しているかを判定する（ステップＳ１２）。判定方法については以降の実施の形態で説明する。ここで、「発話」とは、意味のある内容の言葉（言語）に対応する音声（発声）である。一方、「相槌」とは、それ自体に意味のない言葉に対応する音声（発声）である。本明細書では、「発話」と「相槌」とを互いに対になる用語としている。

音声出力制御部４は、複数の参加者それぞれの音声が複数の参加者それぞれの通信端末で出力されるように制御を行う。音声出力制御部４は、複数の参加者のうちのある参加者が発話を行っている際に他の参加者が発話を行った場合に、他の参加者の発話の出力を抑制するように制御を行う（ステップＳ１４）。つまり、音声出力制御部４は、発話衝突が発生したときに、他の参加者の発話（衝突発話）の出力を抑制する。なお、以後、後の発話（発話衝突を起こした発話）を、「衝突発話」と称することがある。したがって、衝突発話とは、出力が抑制された発話である。なお、衝突発話の出力を抑制するとは、例えば衝突発話が各参加者の通信端末で出力されないことであるが、これに限定されない。

なお、本実施の形態では、「発話衝突」とは、ある参加者が発話を行っている際に他の参加者が発話を行ってしまうことを意味するのであって、複数の参加者の発話が各通信端末で同時に出力されることを意味しているわけではない。本実施の形態では、複数の参加者の発話のうちの後の発話の出力が抑制され得ることに、留意されたい。したがって、本実施の形態では、「発話衝突」が発生したことは、衝突発話を発した参加者では認識することができるが、その他の参加者では認識しない可能性がある。つまり、衝突発話を行った参加者は、自身の通信端末で他の参加者の発話が出力されているときに発話を行ったのであるから、発話衝突が発生したことを把握できる。一方、衝突発話は各通信端末で出力が抑制されるので、衝突発話を発した参加者以外の参加者は、発話衝突が発生したことを認識しない可能性がある。

カウント部６は、出力が抑制された発話（衝突発話；第１の発話）の回数を、参加者ごとにカウントする（ステップＳ１６）。回数表示制御部８は、回数に関する表示が複数の参加者の通信端末でなされるように制御を行う（ステップＳ１８）。これにより、各参加者は、どの参加者の発話衝突の回数が多いかといったことを把握することができる。

ここで、衝突発話の回数の多い（発話衝突を発生させた回数が多い）参加者は、発話をしたい参加者であると言える。したがって、衝突発話の回数が多いことを遠隔会議の参加者の通信端末に表示させるようにすることで、他の参加者は、その参加者が発話を行いたいことを、認識することができる。これにより、他の参加者は、その参加者に対して発話を促したり、その参加者が発話を行うまで待機したりといった行動を行うことができる。したがって、その参加者の発話を行いたくてもできないといった不満を低減することができる。したがって、本実施の形態にかかる遠隔会議システム１は、遠隔会議をスムーズに進行することが可能となる。

（実施の形態１）
以下、実施形態について、図面を参照しながら説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。また、各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。

図３は、実施の形態１にかかる遠隔会議システム２０を示す図である。遠隔会議システム２０は、複数の通信端末３０と、遠隔会議装置１００とを有する。通信端末３０は、遠隔会議の参加者ごとに設けられ得る。複数の通信端末３０と、遠隔会議装置１００とは、互いにネットワーク２２を介して通信可能に接続されている。ネットワーク２２は、有線であってもよく、無線であってもよく、有線と無線の組み合わせであってもよい。ネットワーク２２は、インターネットであってもよいし、ＬＡＮ（Local Area Network）であってもよい。

通信端末３０は、例えば、参加者が所有しているコンピュータである。通信端末３０は、例えば、パソコン（ＰＣ：Personal Computer）、及び、スマートフォン又はタブレット端末等の携帯端末である。通信端末３０は、参加者が遠隔会議に参加する際に、参加者の発した音声（発話又は相槌）を示す音声データを、ネットワーク２２を介して遠隔会議装置１００に送信する。また、通信端末３０は、他の参加者の音声（発話又は相槌）を示す音声データを、ネットワーク２２を介して遠隔会議装置１００から受信する。そして、通信端末３０は、その音声データに対応する音声を、その通信端末３０のユーザである参加者が聴取可能に出力する。

遠隔会議装置１００は、例えば、サーバ等のコンピュータである。遠隔会議装置１００は、遠隔会議を管理する。遠隔会議装置１００は、各参加者の通信端末３０から音声データを受信して、複数の通信端末３０に送信する。なお、この場合、遠隔会議装置１００は、音声データを送信した通信端末３０には、その音声データを送信しなくてもよい（他の実施の形態でも同様）。なお、実施の形態１において、用語「音声」は、情報処理における処理対象としての、「音声を示す音声データ」も意味し得る。

図４は、実施の形態１にかかる通信端末３０の構成を示す図である。通信端末３０は、主要なハードウェア構成として、制御部３２と、記憶部３４と、通信部３６と、インタフェース部３８（ＩＦ：Interface）を有する。制御部３２、記憶部３４、通信部３６及びインタフェース部３８は、データバスなどを介して相互に接続されている。

制御部３２は、例えばＣＰＵ（Central Processing Unit）等のプロセッサである。制御部３２は、制御処理及び演算処理等を行う演算装置としての機能を有する。記憶部３４は、例えばメモリ又はハードディスク等の記憶デバイスである。記憶部３４は、例えばＲＯＭ（Read Only Memory）又はＲＡＭ（Random Access Memory）等である。記憶部３４は、制御部３２によって実行される制御プログラム及び演算プログラム等を記憶するための機能を有する。また、記憶部３４は、処理データ等を一時的に記憶するための機能を有する。記憶部３４は、データベースを含み得る。

通信部３６は、遠隔会議装置１００等の遠隔会議システム２０を構成する装置と通信を行うために必要な処理を行う。通信部３６は、通信ポート、ルータ、ファイアウォール等を含み得る。インタフェース部１０８は、例えばユーザインタフェース（ＵＩ）である。インタフェース部１０８は、キーボード、タッチパネル又はマウス等の入力装置と、ディスプレイ又はスピーカ等の出力装置とを有する。インタフェース部１０８は、ユーザ（オペレータ）によるデータの入力の操作を受け付け、ユーザに対して情報を出力する。また、インタフェース部１０８は、入力装置として、マイクロフォン等の集音装置、及び、カメラ等の撮像装置を有し得る。また、インタフェース部１０８の少なくとも一部は、通信端末３０と物理的に一体である必要はない。インタフェース部１０８の少なくとも一部は、通信端末３０と、有線又は無線によって接続されていてもよい。

また、通信端末３０は、構成要素として、音声取得部４２、音声送信部４４、音声受信部４６、音声出力部４８、表示情報受信部５２、及び、画像表示部５４を有する。音声取得部４２、音声送信部４４、音声受信部４６、音声出力部４８、表示情報受信部５２、及び、画像表示部５４は、上述したハードウェア構成によって実現されてもよいし、ソフトウェアによって実現されてもよい。

音声取得部４２は、遠隔会議の参加者である通信端末３０のユーザの発した音声を取得する。音声取得部４２は、インタフェース部３８である集音装置によって音声を取得してもよい。音声送信部４４は、取得されたユーザの音声（音声データ）を、ネットワーク２２を介して、遠隔会議装置１００に送信する。音声送信部４４は、通信部３６によって音声（音声データ）を送信してもよい。

音声受信部４６は、遠隔会議の複数の参加者の音声（音声データ）を、ネットワーク２２を介して、遠隔会議装置１００から受信する。音声受信部４６は、通信部３６によって音声（音声データ）を受信してもよい。音声出力部４８は、複数の参加者の音声を、通信端末３０のユーザが聴取可能に出力する。音声出力部４８は、インタフェース部３８であるスピーカによって音声を出力してもよい。

表示情報受信部５２は、表示情報を、ネットワーク２２を介して、遠隔会議装置１００から受信する。ここで、表示情報とは、通信端末３０のインタフェース部３８によって表示される情報を示す情報である。表示情報については後述する。表示情報受信部５２は、通信部３６によって表示情報を受信してもよい。画像表示部５４は、受信された表示情報に対応する画像を表示する。画像表示部５４は、インタフェース部３８であるディスプレイによって画像を表示してもよい。

図５は、実施の形態１にかかる遠隔会議装置１００の構成を示す図である。遠隔会議装置１００は、主要なハードウェア構成として、制御部１０２と、記憶部１０４と、通信部１０６と、インタフェース部１０８とを有する。制御部１０２、記憶部１０４、通信部１０６及びインタフェース部１０８は、データバスなどを介して相互に接続されている。

制御部１０２は、例えばＣＰＵ等のプロセッサである。制御部１０２は、解析処理、制御処理及び演算処理等を行う演算装置としての機能を有する。記憶部１０４は、例えばメモリ又はハードディスク等の記憶デバイスである。記憶部１０４は、例えばＲＯＭ又はＲＡＭ等である。記憶部１０４は、制御部１０２によって実行される制御プログラム及び演算プログラム等を記憶するための機能を有する。また、記憶部１０４は、処理データ等を一時的に記憶するための機能を有する。記憶部１０４は、データベースを含み得る。

通信部１０６は、通信端末３０等の他の装置とネットワーク２２を介して通信を行うために必要な処理を行う。通信部１０６は、通信ポート、ルータ、ファイアウォール等を含み得る。インタフェース部１０８は、例えばユーザインタフェース（ＵＩ）である。インタフェース部１０８は、キーボード、タッチパネル又はマウス等の入力装置と、ディスプレイ又はスピーカ等の出力装置とを有する。インタフェース部１０８は、オペレータによるデータの入力の操作を受け付け、オペレータに対して情報を出力する。

実施の形態１にかかる遠隔会議装置１００は、構成要素として、参加者情報格納部１１０と、音声受信部１１２と、発話判定部１２０と、音声出力制御部１３０と、回数カウント部１４０と、表示制御部１５０とを有する。音声出力制御部１３０は、発話衝突判定部１３２と、発話出力抑制部１３４とを有する。表示制御部１５０は、回数表示制御部１５２と、アイコン表示制御部１５４とを有する。なお、遠隔会議装置１００は、物理的に１つの装置で構成されていなくてもよい。この場合、上述した各構成要素は、物理的に別個の複数の装置によって実現されてもよい。

参加者情報格納部１１０は、参加者情報格納手段としての機能を有する。音声受信部１１２は、音声受信手段としての機能を有する。発話判定部１２０は、図１に示した発話判定部２に対応する。発話判定部１２０は、発話判定手段としての機能を有する。音声出力制御部１３０は、図１に示した音声出力制御部４に対応する。音声出力制御部１３０は、音声出力制御手段としての機能を有する。回数カウント部１４０は、図１に示したカウント部６に対応する。回数カウント部１４０は、回数カウント手段としての機能を有する。表示制御部１５０は、表示制御手段としての機能を有する。

また、発話衝突判定部１３２は、発話衝突判定手段としての機能を有する。発話出力抑制部１３４は、発話出力抑制手段としての機能を有する。回数表示制御部１５２は、図１に示した回数表示制御部８に対応する。回数表示制御部１５２は、回数表示制御手段としての機能を有する。アイコン表示制御部１５４は、アイコン表示制御手段としての機能を有する。

なお、上述した各構成要素は、例えば、制御部１０２の制御によって、プログラムを実行させることによって実現できる。より具体的には、各構成要素は、記憶部１０４に格納されたプログラムを、制御部１０２が実行することによって実現され得る。また、必要なプログラムを任意の不揮発性記録媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。また、各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、各構成要素は、例えばＦＰＧＡ（field-programmable gate array）又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。これらのことは、後述する他の実施の形態においても同様である。

参加者情報格納部１１０は、遠隔会議の参加者に関する情報である参加者情報を格納する。
図６は、実施の形態１にかかる参加者情報を例示する図である。図６は、参加者Ａ～Ｄの４人が参加する遠隔会議に対応する参加者情報を例示している。参加者情報は、参加者それぞれの識別情報と、それぞれの参加者の参加状態と、それぞれの参加者の衝突回数とを含む。

ここで、「参加状態」とは、それぞれの参加者が遠隔会議に、現在どのように参加しているかを示す。参加状態は、後述する発話判定部１２０及び発話衝突判定部１３２によって判定される。図６の例では、参加者Ｂが発話を行っている最中に参加者Ａが発話をしてしまっている。つまり、参加者Ａは発話衝突を発生させてしまっている。したがって、参加者Ａの参加状態は「発話衝突」であり、参加者Ｂの参加状態は「発話中」である。また、参加者Ｃが相槌を行っており、参加者Ｄは音声を発していない。したがって、参加者Ｃの参加状態は「相槌」であり、参加者Ｄの参加状態は「音声なし」である。

また、「衝突回数」とは、各参加者が発話衝突を発生させてしまった回数、つまり、各参加者の衝突発話の回数を示す。衝突回数は、後述する回数カウント部１４０によってカウントされる。図６の例では、参加者Ａの衝突回数は１回である。上述したように、参加者Ａは発話衝突を発生させてしまったので、衝突回数が、０回から１回に更新されている。また、参加者Ｂの衝突回数は２回であり、参加者Ｃの衝突回数は１回であり、参加者Ｄの衝突回数は０回である。

音声受信部１１２は、各通信端末３０から、それぞれの通信端末３０のユーザである参加者の音声（音声データ）を、ネットワーク２２を介して受信する。音声受信部１１２は、通信部１０６によって、通信端末３０の音声送信部４４によって送信された参加者の音声を受信（音声データ）する。これにより、参加者Ａ～Ｄの音声が受信される。

発話判定部１２０は、複数の参加者それぞれについて、音声受信部１１２によって受信された音声を解析して音声認識処理を行う。そして、発話判定部１２０は、各参加者の音声が発話を示しているか又は相槌を示しているかを判定する。つまり、発話判定部１２０は、各参加者が発話を行っているか否か（発話を行っているか相槌を行っているか）を判定する。

具体的には、発話判定部１２０は、音響分析及び自然言語処理等の処理を行って、音声に含まれる単語を分析する。そして、発話判定部１２０は、音声に意味のある単語（主語、述語、目的語等）が含まれているか否かを判定する。言い換えると、発話判定部１２０は、音声に意味のない単語（間投詞等）以外の単語が含まれているか否かを判定する。発話判定部１２０は、音声に意味のある単語が含まれている場合、その音声が「発話」であると判定する。一方、発話判定部１２０は、音声に意味のない単語（間投詞等）のみが含まれている場合、その音声が「相槌」であると判定する。なお、発話判定部１２０は、受信された音声に人間の声が含まれているか否かを判定してもよい。発話判定部１２０は、音声に人間の声が含まれていない場合、その音声が背景音であるとして、上述した発話か相槌かの判定を行わなくてもよい。

音声出力制御部１３０は、複数の参加者それぞれの音声が複数の参加者それぞれの通信端末３０で出力されるように制御を行う。具体的には、音声出力制御部１３０は、受信された音声（音声データ）を、通信部１０６によって、ネットワーク２２を介して、複数の参加者それぞれの通信端末３０に送信する。これにより、各通信端末３０の音声出力部４８によって、音声が出力される。したがって、参加者Ａ～Ｄは、他の参加者の音声を聴取することができる。また、音声出力制御部１３０は、ミキシング処理を行って、複数の参加者の音声が同時に発せられた場合にそれぞれの音声が途切れないように処理を行ってもよい。但し、本実施の形態では、後述するように、発話衝突が発生した場合は、発話衝突を発生された音声の出力が抑制される。一方、音声出力制御部１３０は、音声が相槌に対応する場合は、その音声を複数の参加者それぞれの通信端末３０に送信する。これにより、各通信端末３０の音声出力部４８によって、参加者の相槌が出力される。

発話衝突判定部１３２は、複数の参加者それぞれについて、発話衝突が発生したか否かを判定する。具体的には、発話衝突判定部１３２は、発話判定部１２０によりある参加者が発話を行っていると判定された場合に、その参加者の発話が開始して発話が終了するまでの期間で、他の参加者が発話を開始したか否かを判定する。発話衝突判定部１３２は、ある参加者が発話を行っている期間で他の参加者が発話を開始した場合に、他の参加者（後で発話を行った参加者）が発話衝突を発生させたと判定する。この、発話衝突を発生させた他の参加者の発話を、衝突発話と称する。図６の例では、参加者Ｂが発話を行っている期間で参加者Ａが発話を開始してしまったので、発話衝突判定部１３２は、参加者Ａが発話衝突を発生させたと判定し、参加者Ａの発話を衝突発話と判定する。

発話出力抑制部１３４は、衝突発話の出力を抑制するための制御を行う。具体的には、発話出力抑制部１３４は、衝突発話（音声データ）を複数の参加者の通信端末３０に送信しないように制御を行う。これにより、各通信端末３０は衝突発話（音声データ）を受信しないので、通信端末３０で衝突発話が出力されない。したがって、図６の例では、各通信端末３０において、参加者Ａの発話（衝突発話）は、参加者Ｂの発話の聴取の妨げにならない。あるいは、発話出力抑制部１３４は、各通信端末３０で、衝突発話が小さな音量で出力されるように制御を行ってもよい。例えば、発話出力抑制部１３４は、衝突発話の音量が発話衝突を被った先の発話（図６の例では参加者Ｂの発話）の聴取を妨げない程度まで小さくなるように、衝突発話の音声データを加工してもよい。そして、音声出力制御部１３０は、その加工された音声データを各通信端末３０に送信してもよい。これにより、図６の例において、各通信端末３０では、参加者Ｂの発話の聴取の妨げにならない程度の極めて小さい音量で、参加者Ａの発話が出力される。

回数カウント部１４０は、複数の参加者それぞれについて、発話衝突の発生した回数をカウントする。言い換えると、回数カウント部１４０は、複数の参加者（通信端末３０）ごとに、衝突発話の回数をカウントする。これにより、図６に例示した衝突回数がカウントされる。

表示制御部１５０は、複数の参加者それぞれについて、各通信端末３０においてどのような画像が表示されるかを制御する。具体的には、表示制御部１５０は、各通信端末３０に表示させる画像を示す表示情報を生成する。そして、表示制御部１５０は、生成された表示情報を、各通信端末３０に送信する。また、表示制御部１５０は、参加者情報格納部１１０に格納された参加者情報に応じて、表示情報を生成してもよい。なお、表示制御部１５０は、発話衝突を発生させた参加者の通信端末３０に、他の参加者が発話中である旨のメッセージを表示させるような表示情報を送信してもよい。また、表示制御部１５０は、参加者情報と、参加者情報に応じた表示を行うことを示す指示とを含む表示情報を生成してもよい。この場合、通信端末３０は、表示情報に応じて、通信端末３０のインタフェース部２８で表示される画像を生成する。

回数表示制御部１５２は、複数の参加者ごとの衝突発話の回数が各通信端末３０で表示されるように、制御を行う。具体的には、回数表示制御部１５２は、各参加者の衝突回数がどれだけであるかを示す表示情報を生成する。そして、表示制御部１５０がその表示情報を複数の通信端末３０に送信することで、複数の通信端末３０で、各参加者の衝突回数が表示される。図６の例では、参加者Ａ～Ｄそれぞれの通信端末３０で、参加者Ａの衝突回数が１回であり、参加者Ｂの衝突回数が２回であり、参加者Ｃの衝突回数が１回であり、参加者Ｄの衝突回数が０回であることが、表示される。これにより、各参加者は、全員の参加者の衝突回数を把握することができる。したがって、各参加者は、どの参加者が発話をしたがっているかを把握することができる。

なお、回数表示制御部１５２は、予め定められた閾値よりも多い衝突回数をこの閾値以下の衝突回数の表示よりも目立つような表示形態で表示させてもよい。つまり、回数表示制御部１５２は、ある参加者の衝突回数が予め定められた閾値よりも多い場合に、その衝突回数を他の参加者の衝突回数の表示よりも目立つような表示形態で表示させるようにしてもよい。回数表示制御部１５２は、その表示形態で衝突回数が表示されるための指示を含む表示情報を生成する。例えば、回数表示制御部１５２は、閾値以下の衝突回数を黒字で表示させ、閾値を超える衝突回数を赤字で表示させるようにしてもよい。これにより、各参加者は、どの参加者が発話をしたがっているかを、より確実に把握することができる。

また、回数表示制御部１５２は、複数の参加者の衝突回数のうち最も多い衝突回数を、他の衝突回数の表示よりも目立つような表示形態で、各通信端末３０に表示させるようにしてもよい。回数表示制御部１５２は、その表示形態で衝突回数が表示されるようにする指示を含む表示情報を生成する。例えば、回数表示制御部１５２は、最も多い衝突回数を赤字で表示させ、その他の衝突回数を黒字で表示させるようにしてもよい。これにより、各参加者は、どの参加者の衝突回数が他の参加者の衝突回数よりも多いかを、確実に把握することができる。これにより、相対的に、どの参加者がより発話をしたがっているかを、確実に把握することができる。

また、回数表示制御部１５２は、他の衝突回数よりも突出して多い衝突回数を、他の衝突回数の表示よりも目立つような表示形態で、各通信端末３０に表示させるようにしてもよい。例えば、回数表示制御部１５２は、複数の参加者のうちの第１の参加者の衝突回数から他の参加者それぞれの衝突回数を減算する。そして、回数表示制御部１５２は、減算して得られた値が、全て、予め定められた閾値よりも大きい場合に、第１の参加者の衝突回数を他の参加者の衝突回数の表示よりも目立つような表示形態で表示させるようにしてもよい。回数表示制御部１５２は、その表示形態で衝突回数が表示されるようにする指示を含む表示情報を生成する。例えば、回数表示制御部１５２は、第１の参加者の衝突回数を赤字で表示させ、その他の参加者の衝突回数を黒字で表示させるようにしてもよい。これにより、各参加者は、どの参加者の衝突回数が他の参加者の衝突回数と比較して突出して多いかを、確実に把握することができる。これにより、相対的に、どの参加者がより発話をしたがっているかを、より確実に把握することができる。

アイコン表示制御部１５４は、複数の参加者それぞれに対応する顔アイコンが複数の参加者それぞれの通信端末３０に表示されるように、制御を行う。アイコン表示制御部１５４は、顔アイコンを表示する旨の指示を含む表示情報を生成する。図６の例では、参加者Ａ～Ｄに対応する４つの顔アイコンが、通信端末３０に表示される。

ここで、アイコン表示制御部１５４は、各顔アイコンが、対応する参加者の参加状態に対応して動作するように、表示情報を生成してもよい。具体的には、アイコン表示制御部１５４は、衝突発話を行った参加者の顔アイコンを動作させないように、顔アイコンを表示させてもよい。一方、アイコン表示制御部１５４は、衝突発話以外の発話を行った参加者の顔アイコンを動作させるように、顔アイコンを表示させてもよい。また、アイコン表示制御部１５４は、相槌を行った参加者の顔アイコンを動作させるように、顔アイコンを表示させてもよい。

例えば、アイコン表示制御部１５４は、発声（発話又は相槌）を行っていない参加者（図６の例では参加者Ｄ）の顔アイコンの口が閉じているように、顔アイコンを表示させてもよい。また、アイコン表示制御部１５４は、衝突発話以外の発話を行った参加者（図６の例では参加者Ｂ）の顔アイコンの口を開けるように、顔アイコンを表示させてもよい。あるいは、アイコン表示制御部１５４は、衝突発話以外の発話を行った参加者の顔アイコンの口が開閉するように、顔アイコンを表示させてもよい。また、アイコン表示制御部１５４は、相槌を行った参加者（図６の例では参加者Ｃ）の顔アイコンの口を開けるように、顔アイコンを表示させてもよい。あるいは、アイコン表示制御部１５４は、相槌を行った参加者の顔アイコンの口が開閉するように、顔アイコンを表示させてもよい。一方、アイコン表示制御部１５４は、衝突発話を行った参加者（図６の例では参加者Ａ）の顔アイコンの口が閉じたままとするように、顔アイコンを表示させてもよい。

これにより、各参加者は、各通信端末３０に表示された顔アイコンを見て、どの参加者が発話中であるかを把握することができる。また、各参加者は、相槌を行った参加者の通信端末３０がミュート設定である場合であっても、相槌を行った参加者が相槌を行ったことを把握することができる。また、発話衝突を発生させた参加者の顔アイコンが動作しないので、各参加者は、発話衝突による煩わしさを受けることが抑制される。

図７は、実施の形態１にかかる遠隔会議システム２０によって実行される遠隔会議方法を示すフローチャートである。図７に示す処理は、主に、遠隔会議装置１００によって実行される。遠隔会議装置１００は、遠隔会議を開始する（ステップＳ１０２）。このとき、表示制御部１５０によって生成される表示情報は、全ての参加者について、顔アイコンの口は閉じた状態（顔アイコンが動作していない状態）である旨、及び、衝突回数が０回である旨を示している。

次に、音声受信部１１２は、参加者Ｘの音声を受信する（ステップＳ１０４）。ここで、図６のように参加者Ａ～Ｄが遠隔会議に参加している場合、参加者Ｘ（及び後述する参加者Ｙ）は、参加者Ａ～Ｄのいずれかである。そして、発話判定部１２０は、上述したように、参加者Ｘの音声が発話を示しているか又は相槌を示しているかを判定する（ステップＳ１０６）。参加者Ｘの音声が発話を示していない（つまり相槌を示している）場合（ステップＳ１０８のＮＯ）、音声出力制御部１３０は、参加者Ｘの相槌が各通信端末３０で出力されるように制御を行う（ステップＳ１１２）。また、表示制御部１５０（アイコン表示制御部１５４）は、参加者Ｘの顔アイコンが動作するように各通信端末３０で表示されるように、制御を行う（ステップＳ１１４）。

一方、参加者Ｘの音声が発話を示している場合（Ｓ１０８のＹＥＳ）、発話衝突判定部１３２は、参加者Ｘとは別の参加者Ｙが既に発話中であるか否かを判定する（ステップＳ１２０）。参加者Ｙが発話中でない場合（Ｓ１２０のＮＯ）、参加者Ｘが発話を行ったときに他の誰も発話を行っていないので、発話衝突が発生していない。したがって、音声出力制御部１３０は、参加者Ｘの発話が各通信端末３０で出力されるように制御を行う（ステップＳ１２２）。また、表示制御部１５０（アイコン表示制御部１５４）は、参加者Ｘの顔アイコンが動作するように各通信端末３０で表示されるように、制御を行う（ステップＳ１２４）。このとき、表示制御部１５０は、参加者Ｘが発話中であることを示すメッセージが各通信端末３０で表示されるように、制御を行ってもよい。

一方、参加者Ｙが発話中である場合（Ｓ１２０のＹＥＳ）、参加者Ｘの発話によって発話衝突が発生している。したがって、音声出力制御部１３０（発話出力抑制部１３４）は、参加者Ｘの発話の出力を抑制するように、制御を行う（ステップＳ１３２）。また、回数カウント部１４０は、参加者Ｘの衝突回数を１つインクリメントする（ステップＳ１３４）。これにより、参加者情報格納部１１０に格納された参加者情報の、参加者Ｘの衝突回数が更新される。また、表示制御部１５０（回数表示制御部１５２）は、参加者Ｘの衝突回数の表示が更新されるように、制御を行う（ステップＳ１３６）。また、表示制御部１５０は、参加者Ｘの通信端末３０に、「他の参加者が発話中」である旨が表示されるように、制御を行う（ステップＳ１３８）。

（実施の形態２）
次に、実施の形態２について、図面を参照しながら説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。また、各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。実施の形態２では、実施の形態１にかかる遠隔会議装置１００の機能が各通信端末において実現され得る点で、実施の形態１と異なる。

図８は、実施の形態２にかかる遠隔会議システム２００を示す図である。遠隔会議システム２００は、複数の通信端末２０１Ａ～２０１Ｄと、会議サーバ２２０とを有する。通信端末２０１Ａ～２０１Ｄは、インターネット等のネットワークに接続されている。通信端末２０１Ａ～２０１Ｄと、会議サーバ２２０とは、互いにネットワークを介して通信可能に接続されている。なお、図８には、４つの通信端末２０１が示されているが、通信端末２０１の数は２以上の任意の数であり得る。

複数の通信端末２０１Ａ～２０１Ｄは、それぞれ、会議実行システム２０２、カメラ２０３、マイク２０４、ディスプレイ２０５、及びスピーカ２０６を有する。会議実行システム２０２は、遠隔会議を実行するように機能する。カメラ２０３は、その通信端末２０１のユーザの姿（顔など）を撮影可能である。マイク２０４は、その通信端末２０１のユーザの音声を収集可能である。ディスプレイ２０５は、遠隔会議に関する画像を表示可能である。スピーカ２０６は、遠隔会議の参加者（通信端末２０１Ａ～２０１Ｄのユーザ）の音声を出力可能である。

会議実行システム２０２は、構成要素として、発話状態検出部２０７、会議情報受信部２０８、会議制御部２０９、及び会議情報送信部２１０を有する。なお、各通信端末２０１は、上述した実施の形態１にかかる通信端末３０のハードウェア構成を有し得る。通信端末２０１の各構成要素の説明は後述する。

通信端末２０１は、その通信端末２０１のユーザの音声を示す音声情報を、会議サーバ２２０に送信する。また、通信端末２０１は、ユーザの発話状態を検出して、検出された発話状態を示す発話状態情報を、会議サーバ２２０に送信する。ここで、「発話状態」とは、各参加者が発話を行っているか相槌を行っているかを示す。なお、発話状態は、参加者が無言であることを示してもよい。

会議サーバ２２０は、各通信端末２０１から音声情報及び発話状態情報を受信すると、各ユーザ（遠隔会議の参加者）の音声情報に対してミキシング処理を行う。そして、会議サーバ２２０は、複数の通信端末２０１に、ミキシング処理が施された音声情報と、発話状態情報とを送信する。ミキシング処理が施された音声情報を送信することにより、各通信端末２０１において、スピーカ２０６から、安定して音声が出力され得る。

図９は、実施の形態２にかかる遠隔会議システム２００において発話状態情報が送受信される状態を例示する図である。通信端末２０１Ａ（通信端末Ａ）は、通信端末２０１ＡのユーザＡの発話状態情報を、会議サーバ２２０に送信する。通信端末２０１Ｂ（通信端末Ｂ）は、通信端末２０１ＢのユーザＢの発話状態情報を、会議サーバ２２０に送信する。通信端末２０１Ｃ（通信端末Ｃ）は、通信端末２０１ＣのユーザＣの発話状態情報を、会議サーバ２２０に送信する。通信端末２０１Ｄ（通信端末Ｄ）は、通信端末２０１ＤのユーザＤの発話状態情報を、会議サーバ２２０に送信する。

また、通信端末２０１Ａは、全員（ユーザＡ～Ｄ）の発話状態情報を、会議サーバ２２０から受信する。同様に、通信端末２０１Ｂ～２０１Ｄは、全員（ユーザＡ～Ｄ）の発話状態情報を、会議サーバ２２０から受信する。なお、各通信端末２０１は、そのユーザ以外の全員の発話状態情報を、会議サーバ２２０から受信してもよい。例えば、通信端末２０１Ａは、ユーザＢ～Ｄの発話状態情報を、会議サーバ２２０から受信してもよい。

図１０は、実施の形態２にかかる発話状態検出部２０７の構成を示すブロック図である。発話状態検出部２０７は、図１に示した発話判定部２及び図５に示した発話判定部１２０に対応する。つまり、発話状態検出部２０７は、発話判定手段としての機能を有する。発話状態検出部２０７は、音声入力部２２２、音声検出部２２３、言語認識部２２４、及び発話有無判別部２２５を有する。

音声入力部２２２は、マイク２０４で収集された音声信号（通信端末２０１のユーザの音声信号）を受け付ける。音声検出部２２３は、音声信号から音声情報を検出する。言語認識部２２４は、音声認識処理、音響分析、及び自然言語処理等を行って、音声情報から意味のある言語（主語、述語、目的語等）を認識する。

発話有無判別部２２５は、音声情報が発話に対応するか相槌に対応するかを判定する。音声情報から言語（意味のある単語）が認識された場合、発話有無判別部２２５は、音声情報が発話に対応すると判定する。音声情報から言語が認識されなかった場合、発話有無判別部２２５は、音声情報が相槌に対応すると判定する。なお、音声情報から人間の声が認識されなかった場合、発話有無判別部２２５は、音声情報が「無言」（発話も相槌も行っていない状態）に対応すると判定してもよい。発話状態検出部２０７は、発話有無判別部２２５による判定結果に応じて、発話状態情報を生成する。なお、発話状態情報は、会議制御部２０９によって生成されてもよい。

会議情報受信部２０８及び会議情報送信部２１０は、ネットワークを介して会議サーバ２２０と接続されている。会議情報受信部２０８は、会議サーバ２２０から、通信端末２０１Ａ～２０１Ｄのユーザの会議情報を受信する。会議情報送信部２１０は、会議サーバ２２０に、その通信端末２０１のユーザの会議情報を送信する。例えば、通信端末２０１Ａは、ユーザＡの会議情報を会議サーバ２２０に送信する。

図１１は、実施の形態２にかかる会議情報を例示する図である。会議情報は、顔アイコン表示情報と、発話状態情報と、音声情報と、衝突回数情報とを含む。また、会議情報は、対応するユーザ（通信端末２０１）の識別情報を含み得る。顔アイコン表示情報は、対応するユーザの顔アイコンをどのように表示させるかを示す情報である。衝突回数情報は、対応するユーザの衝突回数を示す情報である。なお、会議情報送信部２１０によって送信される会議情報は、図１１に示した情報の全てを含むとは限らない。また、会議情報受信部２０８によって受信される会議情報は、図１１に示した情報の全てを含むとは限らない。

会議制御部２０９は、会議情報送信部２１０によって送信される会議情報を生成する。言い換えると、会議制御部２０９は、図１１に例示した情報のうちのどの情報を会議情報として送信するかを決定する。ここで、会議制御部２０９は、会議情報受信部２０８によって受信された会議情報を用いて、会議情報送信部２１０によって送信される会議情報を生成する。また、会議制御部２０９は、会議情報受信部２０８によって受信された会議情報を用いて、ディスプレイ２０５に会議の画像を表示させる。また、会議制御部２０９は、会議情報受信部２０８によって受信された会議情報を用いて、スピーカ２０６に音声を出力させる。

図１２は、実施の形態２にかかる会議制御部２０９の構成を示す図である。会議制御部２０９は、音声出力制御部２１１と、回数カウント部２１５と、表示制御部２１６とを有する。音声出力制御部２１１は、発話衝突判定部２１２と、発話出力抑制部２１４とを有する。表示制御部２１６は、回数表示制御部２１７と、アイコン表示制御部２１８とを有する。会議制御部２０９は、実施の形態１にかかる遠隔会議装置１００が参加者ごとに行う処理を、対応する通信端末２０１のユーザについてのみ行うように、構成されていてもよい。

音声出力制御部２１１は、図１に示した音声出力制御部４及び図５に示した音声出力制御部１３０に対応する。音声出力制御部２１１は、音声出力制御手段としての機能を有する。発話衝突判定部２１２は、図５に示した発話衝突判定部１３２に対応する。発話衝突判定部２１２は、発話衝突判定手段としての機能を有する。発話出力抑制部２１４は、図５に示した発話出力抑制部１３４に対応する。発話出力抑制部２１４は、発話出力抑制手段としての機能を有する。回数カウント部２１５は、図１に示したカウント部６及び図５に示した回数カウント部１４０に対応する。回数カウント部２１５は、カウント手段としての機能を有する。表示制御部２１６は、図５に示した表示制御部１５０に対応する。表示制御部２１６は、表示制御手段としての機能を有する。回数表示制御部２１７は、図１に示した回数表示制御部８及び図５に示した回数表示制御部１５２に対応する。回数表示制御部２１７は、回数表示制御手段としての機能を有する。アイコン表示制御部２１８は、図５に示したアイコン表示制御部１５４に対応する。アイコン表示制御部２１８は、アイコン表示制御手段としての機能を有する。

音声出力制御部２１１は、遠隔会議の複数の参加者それぞれの音声が対応する通信端末２０１で出力されるように制御を行う。また、音声出力制御部２１１は、対応する通信端末２０１のユーザの音声が複数の参加者それぞれの通信端末２０１（第１の通信端末）で出力されるように制御を行う。例えば通信端末２０１Ａでは、音声出力制御部２１１は、ユーザＡの音声が複数の参加者それぞれの通信端末２０１で出力されるように制御を行う。音声出力制御部２１１は、音声出力制御部１３０の機能と実質的に同様の機能を有してもよい。

発話衝突判定部２１２は、対応する通信端末２０１のユーザについて、発話衝突が発生したか否かを判定する。例えば通信端末２０１Ａでは、発話衝突判定部２１２は、ユーザＡの発話により発話衝突が発生したか否かを判定する。発話衝突判定部２１２は、会議情報受信部２０８によって受信された他のユーザに関する会議情報を用いて、ユーザＡの発話が他のユーザの発話の期間になされていないか否かを判定する。発話衝突判定部２１２は、発話衝突判定部１３２の機能と実質的に同様の機能を有してもよい。

発話出力抑制部２１４は、対応する通信端末２０１のユーザが衝突発話を発生させた場合に複数の参加者それぞれの通信端末２０１（第１の通信端末）における衝突発話の出力を抑制するための制御を行う。例えば通信端末２０１Ａでは、発話出力抑制部２１４は、ユーザＡが衝突発話を発生させた場合に複数の参加者それぞれの通信端末２０１（第１の通信端末）における衝突発話の出力を抑制するための制御を行う。発話出力抑制部２１４は、発話出力抑制部１３４の機能と実質的に同様の機能を有してもよい。

回数カウント部２１５は、対応する通信端末２０１のユーザについて、発話衝突の発生した回数をカウントする。例えば通信端末２０１Ａでは、回数カウント部２１５は、ユーザＡについて、発話衝突の発生した回数をカウントする。回数カウント部２１５は、回数カウント部１４０の機能と実質的に同様の機能を有してもよい。

表示制御部２１６は、対応する通信端末２０１のユーザについて、複数の参加者それぞれの通信端末２０１（第１の通信端末）においてどのような画像が表示されるかを制御する。例えば通信端末２０１Ａでは、表示制御部２１６は、複数の参加者それぞれの通信端末２０１（第１の通信端末）において、ユーザＡについてのどのような画像が表示されるかを制御する。表示制御部２１６は、表示制御部１５０の機能と実質的に同様の機能を有してもよい。

回数表示制御部２１７は、対応する通信端末２０１のユーザの衝突発話の回数が複数の参加者それぞれの通信端末２０１（第１の通信端末）で表示されるように、制御を行う。例えば通信端末２０１Ａでは、回数表示制御部２１７は、ユーザＡの衝突発話の回数が複数の参加者それぞれの通信端末２０１（第１の通信端末）で表示されるように、制御を行う。回数表示制御部２１７は、回数表示制御部１５２の機能と実質的に同様の機能を有してもよい。

アイコン表示制御部２１８は、対応する通信端末２０１のユーザに対応する顔アイコンが複数の参加者それぞれの通信端末２０１（第１の通信端末）に表示されるように、制御を行う。例えば通信端末２０１Ａでは、アイコン表示制御部２１８は、ユーザＡに対応する顔アイコンが複数の参加者それぞれの通信端末２０１（第１の通信端末）に表示されるように、制御を行う。アイコン表示制御部２１８は、アイコン表示制御部１５４の機能と実質的に同様の機能を有してもよい。

図１３は、実施の形態２にかかる遠隔会議システム２００で実行される遠隔会議方法を示すフローチャートである。図１３にかかる遠隔会議方法は、主に、各通信端末２０１の会議実行システム２０２で実行される。以下の説明では、適宜、通信端末２０１Ａの処理について説明するが、他の通信端末２０１においても同様である。

まず、会議実行システム２０２が起動される（ステップＳ２０１）。このとき、遠隔会議の全ての参加者の衝突回数は０回である。また、遠隔会議の全ての参加者の顔アイコンは、口が閉じた状態である。そして、発話状態検出部２０７（音声入力部２２２）は、通信端末２０１Ａのマイク２０４から、音声信号の入力を行う（ステップＳ２０２）。音声検出部２２３は、ユーザＡの音声があるか否かを判定する。（ステップＳ２０３）。

ユーザＡの音声がないと判定された場合（Ｓ２０３のＮＯ）、会議制御部２０９は、この判定に対応する、ユーザＡの会議情報を生成して、会議サーバ２２０に送信する（ステップＳ２０４）。そして、処理フローはＳ２０２に戻る。具体的には、会議制御部２０９は、無言を示す発話状態情報、及び、口が開いていない顔アイコンを示す顔アイコン表示情報を含む会議情報を生成して、会議サーバ２２０に送信する。会議サーバ２２０は、この会議情報を通信端末２０１Ａ～２０１Ｄに送信する。これにより、各通信端末２０１のディスプレイ２０５に、ユーザＡの、口が開いていない顔アイコンが表示される。なお、会議情報に音声情報が含まれていないので、各通信端末２０１のスピーカ２０６では、ユーザＡの音声は出力されない。なお、顔アイコンの例については後述する。

なお、Ｓ２０４の処理において、発話状態検出部２０７は、無言を示す発話状態情報を生成する。また、表示制御部２１６のアイコン表示制御部２１８は、口が開いていない顔アイコンを示す顔アイコン表示情報を生成する。また、音声出力制御部２１１は、音声情報を会議情報に含めないと決定する。なお、会議情報は、衝突回数が０回であることを示す衝突回数情報を含んでもよい。このとき、回数表示制御部２１７は、衝突回数が増加していないことを示す衝突回数情報を生成してもよい。

一方、ユーザＡの音声があると判定された場合（Ｓ２０３のＹＥＳ）、言語認識部２２４は、上述した言語認識を行う（ステップＳ２０５）。そして、発話有無判別部２２５は、音声情報に言語があるか否かを判定する（ステップＳ２０６）。つまり、発話有無判別部２２５は、音声情報から言語が認識されたか否かを判定する。言語がない場合（Ｓ２０６のＮＯ）、発話有無判別部２２５は、ユーザＡの音声情報が相槌に対応すると判定する。

そして、会議制御部２０９は、この判定に対応する、ユーザＡの会議情報を生成して、会議サーバ２２０に送信する（ステップＳ２０７）。そして、処理フローはＳ２０２に戻る。具体的には、会議制御部２０９は、相槌を示す発話状態情報、口が開いている顔アイコンを示す顔アイコン表示情報、及び音声情報を含む会議情報を生成して、会議サーバ２２０に送信する。会議サーバ２２０は、この会議情報を通信端末２０１Ａ～２０１Ｄに送信する。これにより、各通信端末２０１のディスプレイ２０５に、ユーザＡの、口が開いている顔アイコンが表示される。また、各通信端末２０１のスピーカ２０６で、ユーザＡの音声（相槌）が出力される。

なお、Ｓ２０７の処理において、発話状態検出部２０７は、相槌を示す発話状態情報を生成する。また、表示制御部２１６のアイコン表示制御部２１８は、口が開いている顔アイコンを示す顔アイコン表示情報を生成する。また、音声出力制御部２１１は、音声情報を会議情報に含めると決定する。なお、会議情報は、衝突回数が増加していないことを示す衝突回数情報を含んでもよい。このとき、回数表示制御部２１７は、衝突回数が増加していないことを示す衝突回数情報を生成してもよい。

一方、言語がある場合（Ｓ２０６のＹＥＳ）、発話有無判別部２２５は、ユーザＡの音声情報に発話があると判定する（ステップＳ２０８）。このとき、会議制御部２０９の発話衝突判定部２１２は、他のユーザからの発話がないか否かを判定する（ステップＳ２０９）。言い換えると、発話衝突判定部２１２は、受信された他のユーザの会議情報（音声情報及び発話状態情報）を用いて、ユーザＡの発話の前に他のユーザが発話を行っていないかを判定する。さらに言い換えると、発話衝突判定部２１２は、ユーザＡの発話によって発話衝突が発生していないか否かを判定する。

他のユーザからの発話がない場合（Ｓ２０９のＹＥＳ）、会議制御部２０９は、ユーザＡの発話は発話衝突を起こしていないと判定する。そして、会議制御部２０９は、この判定に対応する、ユーザＡの会議情報を生成して、会議サーバ２２０に送信する（ステップＳ２１０）。そして、処理フローはＳ２０２に戻る。具体的には、会議制御部２０９は、発話を示す発話状態情報、口が開いている顔アイコンを示す顔アイコン表示情報、及び音声情報を含む会議情報を生成して、会議サーバ２２０に送信する。会議サーバ２２０は、この会議情報を通信端末２０１Ａ～２０１Ｄに送信する。これにより、各通信端末２０１のディスプレイ２０５に、ユーザＡの、口が開いている顔アイコンが表示される。また、各通信端末２０１のスピーカ２０６で、ユーザＡの音声（発話）が出力される。このとき、会議情報は、ユーザＡが話し中である旨を表示する表示情報を含んでもよい。この場合、各通信端末２０１のディスプレイ２０５に、ユーザＡが話し中であることを示すメッセージが表示される。これにより、各ユーザは誰が発話を行っているのかを把握することができるので、議事録の作成を行いやすくなる。

なお、Ｓ２１０の処理において、発話状態検出部２０７は、発話を示す発話状態情報を生成する。また、表示制御部２１６のアイコン表示制御部２１８は、口が開いている顔アイコンを示す顔アイコン表示情報を生成する。また、音声出力制御部２１１は、音声情報を会議情報に含めると決定する。なお、会議情報は、衝突回数が増加していないことを示す衝突回数情報を含んでもよい。このとき、回数表示制御部２１７は、衝突回数が増加していないことを示す衝突回数情報を生成してもよい。

一方、他のユーザからの発話がある場合（Ｓ２０９のＮＯ）、会議制御部２０９は、ユーザＡの発話は発話衝突を起こしたと判定する。そして、会議制御部２０９は、通信端末２０１Ａのディスプレイ２０５に、「他のユーザが話し中です」といったメッセージを表示させる（ステップＳ２１１）。そして、会議制御部２０９は、この判定に対応する、ユーザＡの会議情報を生成して、会議サーバ２２０に送信する（ステップＳ２１２）。そして、処理フローはＳ２０２に戻る。具体的には、会議制御部２０９は、発話（衝突発話）を示す発話状態情報、口が開いていない顔アイコンを示す顔アイコン表示情報、及び、衝突回数を１つインクリメントした衝突回数情報を含む会議情報を生成して、会議サーバ２２０に送信する。会議サーバ２２０は、この会議情報を通信端末２０１Ａ～２０１Ｄに送信する。これにより、各通信端末２０１のディスプレイ２０５に、ユーザＡの、口が開いていない顔アイコンが表示される。また、各通信端末２０１のディスプレイ２０５に、１つ増加した、ユーザＡの衝突回数が表示される。なお、会議情報に音声情報が含まれていないので、各通信端末２０１のスピーカ２０６では、ユーザＡの音声は出力されない。

なお、Ｓ２１２の処理において、発話状態検出部２０７は、発話（衝突発話）を示す発話状態情報を生成する。また、表示制御部２１６のアイコン表示制御部２１８は、口が開いていない顔アイコンを示す顔アイコン表示情報を生成する。また、音声出力制御部２１１の発話出力抑制部２１４は、音声情報を会議情報に含めないと決定する。また、回数表示制御部２１７は、衝突回数が１つ増加したことを示す衝突回数情報を生成する。

図１４及び図１５は、実施の形態２にかかる遠隔会議において各通信端末２０１で表示される会議画像２３０を例示する図である。会議画像２３０において、各ユーザのユーザ名の近傍に、各ユーザに対応する顔アイコン２３１及び衝突回数２３２が表示される。したがって、ユーザＡのユーザ名の近傍に、顔アイコン２３１Ａ及び衝突回数２３２Ａが表示される。同様に、ユーザＢのユーザ名の近傍に、顔アイコン２３１Ｂ及び衝突回数２３２Ｂが表示される。ユーザＣのユーザ名の近傍に、顔アイコン２３１Ｃ及び衝突回数２３２Ｃが表示される。ユーザＤのユーザ名の近傍に、顔アイコン２３１Ｄ及び衝突回数２３２Ｄが表示される。図１４の例では、衝突回数２３２Ａは０回を示し、衝突回数２３２Ｂは２回を示し、衝突回数２３２Ｃは１回を示し、衝突回数２３２Ｄは０回を示している。なお、会議画像２３０は、ユーザＡ～Ｄごとに顔アイコン２３１及び衝突回数２３２を表示する、表示領域２３０ａ～２３０ｄを有していてもよい。

また、図１４に例示された会議画像２３０では、ユーザＢが発話を行っている。したがって、ユーザＢの顔アイコン２３１Ｂの近傍に、ユーザＢが発話を行っていることを示すメッセージ２３４が表示される。また、ユーザＢの顔アイコン２３１Ｂの口は開いている。また、ユーザＣは相槌を行っている。したがって、ユーザＣの顔アイコン２３１Ｃの口は開いている。また、ユーザＡ及びユーザＤは無言である。したがって、ユーザＡの顔アイコン２３１Ａの口及びユーザＤの顔アイコン２３１Ｄの口は閉じている。また、ユーザＢが発話を行っているので、各通信端末２０１は、ユーザＢの発話を出力する。また、ユーザＣが相槌を行っているので、各通信端末２０１は、ユーザＣの相槌を出力する。

図１５は、図１４に例示された会議画像２３０の状態で、ユーザＡの発話により発話衝突が発生した場合を例示している。ユーザＢが発話を行っているときにユーザＡがユーザＢよりも遅れて発話を行った場合、ユーザＡの発話は衝突発話と判定される。このとき、ユーザＡの通信端末２０１Ａには、他のユーザ（ユーザＢ）が発話中である旨を示すメッセージ２３６が示される。また、ユーザＡの衝突回数２３２Ａは、０回から１回に更新されることを示す。なお、ユーザＡの発話は衝突発話であるので、ユーザＡの顔アイコン２３１Ａの口は閉じている。なお、メッセージ２３６はユーザＡの通信端末２０１Ａのみに表示されるが、メッセージ２３６以外の、各ユーザの通信端末２０１に表示される会議画像２３０は、互いに同じであり得る。

（本実施の形態にかかる効果）
以下、本実施の形態にかかる効果を説明する。
近年、参加者が自宅に滞在したまま遠隔会議を行うことが増加している。遠隔会議を開催するにあたり、自宅のインターネット環境を用いた遠隔会議を活用することが増えている。この場合、自宅のインターネット環境に起因した遅延が発生するため、複数の参加者の発話が被ること（発話衝突）や、お互いに発話を遠慮することが起こり易くなる可能性があり、遠隔会議がスムーズに進行しないおそれがある。また、自宅で遠隔会議に参加する場合、参加者は、プライバシーの問題やインターネット回線の輻輳を防ぐといった目的で、音声のみで遠隔会議に参加することが多い。その場合、会話時に相手の表情が読み取れないという問題がある。さらに、環境音が入るのを防ぐために自分が発言するとき以外はミュート設定することで、発言者に相槌も伝わりづらいという問題がある。また、音声情報がある人に発言中を示す表示をする仕組みを採用する技術では、相槌のみの場合でも発言中と見なされるため、会議参加者が多い場合は誰が発言しているのかがわかりづらいという問題もある。

本実施の形態にかかる遠隔会議システムは、ある参加者が発話しているときに遅れて他の参加者が発話を行った場合に、遅れて発話を行った他の参加者の発話が、各参加者の通信端末で出力されることが抑制されるように構成されている。これにより、各参加者は、通信端末で衝突発話（遅れて発話を行った他の参加者の発話）を聴くことが抑制されるので、遠隔会議の進行がスムーズとなる。

さらに、本実施の形態にかかる遠隔会議システムは、発話衝突を発生させた参加者ごとに、衝突回数をカウントして、各通信端末で衝突回数に関する表示がなされるように構成されている。したがって、各参加者は、どの参加者の発話衝突の回数が多いかといったことを把握することができる。これにより、各参加者は、どの参加者が話したがっているかの気づきを与えることができる。これにより、他の参加者は、その参加者に対して発話を促したり、その参加者が発話を行うまで待機したりといった行動を行うことができる。したがって、本実施の形態にかかる遠隔会議システムは、遠隔会議をスムーズに進行することが可能となる。

また、本実施の形態にかかる遠隔会議システムは、複数の参加者ごとに、衝突回数が各参加者の通信端末で表示されるように構成されている。これにより、各参加者は、各参加者の衝突回数を把握することができる。

また、本実施の形態にかかる遠隔会議システムは、遅れて発話を行った参加者の通信端末に、「他ユーザが話し中です」いったメッセージを表示させるように構成されている。したがって、衝突発話を行った参加者に発話衝突が発生したことの気づきを与えることができる。

また、本実施の形態にかかる遠隔会議システムは、ある参加者が発話を行っているときに他の参加者が相槌を行った場合であっても、相槌を各参加者の通信端末に出力させるように構成されている。これにより、発話行っている参加者（発言者）は、他の参加者に発言を聞いてもらっているという安心感を得ることができる。

また、本実施の形態にかかる遠隔会議システムは、ある参加者が相槌を行った場合、各参加者の通信端末に、相槌を行った参加者に対応する、口が開いた顔アイコンを表示させるように構成されている。これにより、相槌を行った参加者の通信端末がミュート設定である場合でも、発言者は、相槌を行っている参加者がいることを把握できるので、発言を聞いてもらっているという安心感を得ることができる。

また、実施の形態２にかかる遠隔会議システムは、発話衝突が発生した際に、衝突発話の音声情報が通信端末から会議サーバに送信されないように構成されている。これにより、ネットワークの負荷を低減することができる。

（変形例）
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述した複数の実施の形態は、相互に適用可能である。例えば、実施の形態１にかかる遠隔会議装置１００の機能を、実施の形態２にかかる通信端末２０１で実現してもよい。また、実施の形態２にかかる通信端末２０１の機能を、実施の形態１にかかる遠隔会議装置１００で実現してもよい。

また、上述したフローチャートにおいて、各処理（ステップ）の順序は、適宜、変更可能である。また、複数ある処理（ステップ）のうちの１つ以上は、省略されてもよい。例えば、図７において、Ｓ１１２の処理とＳ１１４の処理の順序は互いに逆であってもよい。同様に、図１３において、Ｓ２１１の処理とＳ２１２の処理の順序は互いに逆であってもよい。また、図７において、Ｓ１１４，Ｓ１２４，Ｓ１３８の処理はなくてもよい。同様に、Ｓ２１１の処理はなくてもよい。

また、上述した実施の形態において、回数表示制御部は、各参加者（ユーザ）の衝突回数が複数の参加者の通信端末に表示されるように制御を行うとしたが、このような構成に限られない。回数表示制御部は、複数の通信端末に、衝突回数自体を表示させる必要はない。例えば、回数表示制御部は、衝突回数の数に応じたレベルを複数の通信端末に表示させるようにしてもよい。例えば、回数表示制御部は、衝突回数が２以下であればレベルＣ、衝突回数が３～４であればレベルＢ、衝突回数が５以上であればレベルＡといったように、各通信端末に表示させてもよい。また、回数表示制御部は、ある参加者の衝突回数が閾値を超えた場合に、各通信端末に警告を表示させるようにしてもよい。また、例えば、回数表示制御部は、衝突回数が増加した参加者の顔アイコンを、発話を行いたいことが分かるような形態（顔アイコンの色が赤くなる等）に動作させるように、各通信端末に表示させてもよい。

また、衝突回数は、遠隔会議が実行されている間、発話衝突が発生するごとに増加し続けてもよいし、遠隔会議の途中でリセットされてもよい。例えば、衝突回数は、対応する参加者が衝突発話でない発話を予め定められた回数行った場合にリセットされてもよい。また、例えば、衝突回数は、対応する参加者が通信端末を操作することによりリセットされてもよい。

また、実施の形態２では、各通信端末２０１が対応するユーザの顔アイコン表示情報を生成するとしたが、このような構成に限られない。例えば、通信端末２０１Ａから送信されたユーザＡに関する発話状態情報を用いて、各通信端末２０１が、ユーザＡの顔アイコンを生成してもよい。

また、上述した実施の形態では、遠隔会議の実施中に、複数の通信端末それぞれで各ユーザ（参加者）の顔アイコンが表示されるとしたが、このような構成に限られない。カメラ２０３等によって撮影された各ユーザの顔の映像が、複数の通信端末それぞれで表示されてもよい。しかしながら、ユーザの顔の映像が表示されると、映像では、相槌を行っているユーザの口も衝突発話を行っているユーザの口も動いている可能性がある。したがって、他のユーザは、相槌と衝突発話との区別を、視覚的にできない可能性がある。これに対し、本実施の形態では、各通信端末で顔アイコンが表示され、衝突発話を行っているユーザの顔アイコンの口が閉じるようにし、相槌を行っているユーザの顔アイコンの口が開くようにしている。したがって、本実施の形態では、相槌と衝突発話との区別を、視覚的に行うことが可能である。さらに、本実施の形態にかかる遠隔会議システムでは、各通信端末が映像情報の送信を行わないので、ネットワークの負荷を低減しつつ、ユーザの発話状態を把握することができる。

上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
遠隔会議の複数の参加者それぞれの音声が発話を示しているか又は相槌を示しているかを判定する発話判定手段と、
前記複数の参加者それぞれの音声が前記複数の参加者それぞれの通信端末で出力されるように制御を行い、前記複数の参加者のうちのある参加者が発話を行っている際に他の参加者が発話を行った場合に、前記他の参加者の発話の出力を抑制するように制御を行う音声出力制御手段と、
出力が抑制された発話である第１の発話の回数を、前記複数の参加者ごとにカウントするカウント手段と、
前記回数に関する表示が前記複数の参加者それぞれの前記通信端末でなされるように制御を行う回数表示制御手段と、
を有する遠隔会議システム。
（付記２）
前記回数表示制御手段は、前記複数の参加者ごとの前記第１の発話の回数が前記複数の参加者それぞれの前記通信端末に表示されるように制御を行う、
付記１に記載の遠隔会議システム。
（付記３）
前記回数表示制御手段は、予め定められた閾値よりも多い前記回数を、前記閾値以下の前記回数の表示よりも目立つような表示形態で、前記通信端末に表示させる、
付記２に記載の遠隔会議システム。
（付記４）
前記回数表示制御手段は、前記複数の参加者の前記回数のうち最も多い前記回数を、他の前記回数の表示よりも目立つような表示形態で、前記通信端末に表示させる、
付記２に記載の遠隔会議システム。
（付記５）
前記音声出力制御手段は、前記参加者が相槌を行った場合には、当該相槌が前記複数の参加者それぞれの前記通信端末で出力されるように制御を行う、
付記１から４のいずれか１項に記載の遠隔会議システム。
（付記６）
前記複数の参加者それぞれに対応する顔アイコンが前記複数の参加者それぞれの前記通信端末に表示されるように制御を行うアイコン表示制御手段、
をさらに有し、
前記アイコン表示制御手段は、前記第１の発話を行った前記他の参加者に対応する前記顔アイコンを動作させないように前記顔アイコンを表示させ、前記第１の発話以外の発話を行った前記参加者に対応する前記顔アイコンを動作させるように前記顔アイコンを表示させる、
付記１から５のいずれか１項に記載の遠隔会議システム。
（付記７）
前記アイコン表示制御手段は、前記参加者が相槌を行った場合には、当該参加者に対応する前記顔アイコンを動作させるように、前記顔アイコンを表示させる、
付記６に記載の遠隔会議システム。
（付記８）
通信端末であって、
当該通信端末のユーザが参加する遠隔会議において当該ユーザの音声が発話を示しているか又は相槌を示しているかを判定する発話判定手段と、
前記遠隔会議の複数の参加者それぞれの音声が当該通信端末で出力され、前記ユーザの音声が複数の参加者それぞれの前記通信端末である第１の通信端末で出力されるように制御を行い、前記複数の参加者のうちのある参加者が発話を行っている際に前記ユーザが発話を行った場合に、前記ユーザの発話が前記第１の通信端末で出力されることを抑制するように制御を行う音声出力制御手段と、
当該通信端末のユーザについて、出力が抑制された発話である第１の発話の回数をカウントするカウント手段と、
前記回数に関する表示が前記第１の通信端末でなされるように制御を行う回数表示制御手段と、
を有する通信端末。
（付記９）
前記回数表示制御手段は、当該通信端末のユーザの前記第１の発話の回数が前記第１の通信端末に表示されるように制御を行う、
付記８に記載の通信端末。
（付記１０）
前記音声出力制御手段は、当該通信端末のユーザが相槌を行った場合には、当該相槌が前記第１の通信端末で出力されるように制御を行う、
付記８又は９に記載の通信端末。
（付記１１）
当該通信端末のユーザに対応する顔アイコンが前記第１の通信端末に表示されるように制御を行うアイコン表示制御手段、
をさらに有し、
前記アイコン表示制御手段は、当該通信端末のユーザが前記第１の発話を行った場合に前記顔アイコンを動作させないように前記顔アイコンを表示させ、当該通信端末のユーザが前記第１の発話以外の発話を行った場合に前記顔アイコンを動作させるように前記顔アイコンを表示させる、
付記８から１０のいずれか１項に記載の通信端末。
（付記１２）
前記アイコン表示制御手段は、当該通信端末のユーザが相槌を行った場合には、前記顔アイコンを動作させるように、前記顔アイコンを表示させる、
付記１１に記載の通信端末。
（付記１３）
遠隔会議の複数の参加者それぞれの音声が発話を示しているか又は相槌を示しているかを判定し、
前記複数の参加者それぞれの音声が前記複数の参加者それぞれの通信端末で出力されるように制御を行い、
前記複数の参加者のうちのある参加者が発話を行っている際に他の参加者が発話を行った場合に、前記他の参加者の発話の出力を抑制するように制御を行い、
出力が抑制された発話である第１の発話の回数を、前記参加者ごとにカウントし、
前記回数に関する表示が前記複数の参加者それぞれの前記通信端末でなされるように制御を行う、
遠隔会議方法。
（付記１４）
前記複数の参加者ごとの前記第１の発話の回数が前記複数の参加者それぞれの前記通信端末に表示されるように制御を行う、
付記１３に記載の遠隔会議方法。
（付記１５）
予め定められた閾値よりも多い前記回数を、前記閾値以下の前記回数の表示よりも目立つような表示形態で、前記通信端末に表示させる、
付記１４に記載の遠隔会議方法。
（付記１６）
前記複数の参加者の前記回数のうち最も多い前記回数を、他の前記回数の表示よりも目立つような表示形態で、前記通信端末に表示させる、
付記１４に記載の遠隔会議方法。
（付記１７）
前記参加者が相槌を行った場合には、当該相槌が前記複数の参加者それぞれの前記通信端末で出力されるように制御を行う、
付記１３から１６のいずれか１項に記載の遠隔会議方法。
（付記１８）
前記複数の参加者それぞれに対応する顔アイコンが前記複数の参加者それぞれの前記通信端末に表示されるように制御を行い、
前記第１の発話を行った前記他の参加者に対応する前記顔アイコンを動作させないように前記顔アイコンを表示させ、
前記第１の発話以外の発話を行った前記参加者に対応する前記顔アイコンを動作させるように前記顔アイコンを表示させる、
付記１３から１７のいずれか１項に記載の遠隔会議方法。
（付記１９）
前記参加者が相槌を行った場合には、当該参加者に対応する前記顔アイコンを動作させるように、前記顔アイコンを表示させる、
付記１８に記載の遠隔会議方法。
（付記２０）
通信端末で実行される遠隔会議方法であって、
当該通信端末のユーザが参加する遠隔会議において当該ユーザの音声が発話を示しているか又は相槌を示しているかを判定し、
前記遠隔会議の複数の参加者それぞれの音声が当該通信端末で出力され、前記ユーザの音声が複数の参加者それぞれの前記通信端末である第１の通信端末で出力されるように制御を行い、
前記複数の参加者のうちのある参加者が発話を行っている際に前記ユーザが発話を行った場合に、前記ユーザの発話が前記第１の通信端末で出力されることを抑制するように制御を行い、
当該通信端末のユーザについて、出力が抑制された発話である第１の発話の回数をカウントし、
前記回数に関する表示が前記第１の通信端末でなされるように制御を行う、
遠隔会議方法。
（付記２１）
当該通信端末のユーザの前記第１の発話の回数が前記第１の通信端末に表示されるように制御を行う、
付記２０に記載の遠隔会議方法。
（付記２２）
当該通信端末のユーザが相槌を行った場合には、当該相槌が前記第１の通信端末で出力されるように制御を行う、
付記２０又は２１に記載の遠隔会議方法。
（付記２３）
当該通信端末のユーザに対応する顔アイコンが前記第１の通信端末に表示されるように制御を行い、
当該通信端末のユーザが前記第１の発話を行った場合に前記顔アイコンを動作させないように前記顔アイコンを表示させ、
当該通信端末のユーザが前記第１の発話以外の発話を行った場合に前記顔アイコンを動作させるように前記顔アイコンを表示させる、
付記２０から２２のいずれか１項に記載の遠隔会議方法。
（付記２４）
当該通信端末のユーザが相槌を行った場合には、前記顔アイコンを動作させるように、前記顔アイコンを表示させる、
付記２３に記載の遠隔会議方法。
（付記２５）
遠隔会議の複数の参加者それぞれの音声が発話を示しているか又は相槌を示しているかを判定する機能と、
前記複数の参加者それぞれの音声が前記複数の参加者それぞれの通信端末で出力されるように制御を行い、前記複数の参加者のうちのある参加者が発話を行っている際に他の参加者が発話を行った場合に、前記他の参加者の発話の出力を抑制するように制御を行う機能と、
出力が抑制された発話である第１の発話の回数を、前記参加者ごとにカウントする機能と、
前記回数に関する表示が前記複数の参加者それぞれの前記通信端末でなされるように制御を行う機能と、
をコンピュータに実現させるプログラム。
（付記２６）
通信端末で実行される遠隔会議方法を実行するためのプログラムであって、
当該通信端末のユーザが参加する遠隔会議において当該ユーザの音声が発話を示しているか又は相槌を示しているかを判定する機能と、
前記遠隔会議の複数の参加者それぞれの音声が当該通信端末で出力され、前記ユーザの音声が複数の参加者それぞれの前記通信端末である第１の通信端末で出力されるように制御を行い、前記複数の参加者のうちのある参加者が発話を行っている際に前記ユーザが発話を行った場合に、前記ユーザの発話が前記第１の通信端末で出力されることを抑制するように制御を行う機能と、
当該通信端末のユーザについて、出力が抑制された発話である第１の発話の回数をカウントする機能と、
前記回数に関する表示が前記第１の通信端末でなされるように制御を行う機能と、
をコンピュータに実現させるプログラム。

１遠隔会議システム
２発話判定部
４音声出力制御部
６カウント部
８回数表示制御部
２０遠隔会議システム
２２ネットワーク
３０通信端末
４２音声取得部
４４音声送信部
４６音声受信部
４８音声出力部
５２表示情報受信部
５４画像表示部
１００遠隔会議装置
１１０参加者情報格納部
１１２音声受信部
１２０発話判定部
１３０音声出力制御部
１３２発話衝突判定部
１３４発話出力抑制部
１４０回数カウント部
１５０表示制御部
１５２回数表示制御部
１５４アイコン表示制御部
２００遠隔会議システム
２０１通信端末
２０２会議実行システム
２０７発話状態検出部
２０８会議情報受信部
２０９会議制御部
２１０会議情報送信部
２１１音声出力制御部
２１２発話衝突判定部
２１４発話出力抑制部
２１５回数カウント部
２１６表示制御部
２１７回数表示制御部
２１８アイコン表示制御部
２２０会議サーバ
２２２音声入力部
２２３音声検出部
２２４言語認識部
２２５発話有無判別部

Claims

通信端末であって、
当該通信端末のユーザが参加する遠隔会議において当該ユーザの音声が発話を示しているか又は相槌を示しているかを判定する発話判定手段と、
前記遠隔会議の複数の参加者それぞれの音声が当該通信端末で出力され、前記ユーザの音声が複数の参加者それぞれの前記通信端末である第１の通信端末で出力されるように制御を行い、前記複数の参加者のうちのある参加者が発話を行っている際に前記ユーザが発話を行った場合に、前記ユーザの発話が前記第１の通信端末で出力されることを抑制するように制御を行う音声出力制御手段と、
当該通信端末のユーザについて、出力が抑制された発話である第１の発話の回数をカウントするカウント手段と、
前記回数に関する表示が前記第１の通信端末でなされるように制御を行う回数表示制御手段と、
を有する通信端末において、
前記回数表示制御手段は、当該通信端末のユーザの前記第１の発話の回数が前記第１の通信端末に表示されるように制御を行い、
前記音声出力制御手段は、当該通信端末のユーザが相槌を行った場合には、当該相槌が前記第１の通信端末で出力されるように制御を行う、
通信端末。
当該通信端末のユーザに対応する顔アイコンが前記第１の通信端末に表示されるように制御を行うアイコン表示制御手段、
をさらに有し、
前記アイコン表示制御手段は、
当該通信端末のユーザが前記第１の発話を行った場合に前記顔アイコンを動作させないように前記顔アイコンを表示させ、
当該通信端末のユーザが前記第１の発話以外の発話を行った場合に前記顔アイコンを動作させるように前記顔アイコンを表示させる、
請求項１に記載の通信端末。
前記アイコン表示制御手段は、当該通信端末のユーザが相槌を行った場合には、前記顔アイコンを動作させるように、前記顔アイコンを表示させる、
請求項２に記載の通信端末。
通信端末で実行される遠隔会議方法であって、
当該通信端末のユーザが参加する遠隔会議において当該ユーザの音声が発話を示しているか又は相槌を示しているかを判定し、
前記遠隔会議の複数の参加者それぞれの音声が当該通信端末で出力され、前記ユーザの音声が複数の参加者それぞれの前記通信端末である第１の通信端末で出力されるように制御を行い、
前記複数の参加者のうちのある参加者が発話を行っている際に前記ユーザが発話を行った場合に、前記ユーザの発話が前記第１の通信端末で出力されることを抑制するように制御を行い、
当該通信端末のユーザについて、出力が抑制された発話である第１の発話の回数をカウントし、
前記回数に関する表示が前記第１の通信端末でなされるように制御を行い、
当該通信端末のユーザの前記第１の発話の回数が前記第１の通信端末に表示されるように制御を行う、
遠隔会議方法。
当該通信端末のユーザが相槌を行った場合には、当該相槌が前記第１の通信端末で出力されるように制御を行う、
請求項４に記載の遠隔会議方法。
当該通信端末のユーザに対応する顔アイコンが前記第１の通信端末に表示されるように制御を行い、
当該通信端末のユーザが前記第１の発話を行った場合に前記顔アイコンを動作させないように前記顔アイコンを表示させ、
当該通信端末のユーザが前記第１の発話以外の発話を行った場合に前記顔アイコンを動作させるように前記顔アイコンを表示させる、
請求項４又は５に記載の遠隔会議方法。
当該通信端末のユーザが相槌を行った場合には、前記顔アイコンを動作させるように、前記顔アイコンを表示させる、
請求項６に記載の遠隔会議方法。
通信端末に、請求項４～７のいずれか一項に記載の遠隔会議方法を実行させるプログラム。