JP2017009825A

JP2017009825A - 会話状況分析装置および会話状況分析方法

Info

Publication number: JP2017009825A
Application number: JP2015125631A
Authority: JP
Inventors: 純一伊藤; Junichi Ito; 池野　篤司; Tokuji Ikeno; 篤司池野; 健郎相原; Tateo Aihara; 河野　進; Susumu Kono; 進河野
Original assignee: Research Organization of Information and Systems; Toyota Motor Corp
Current assignee: Research Organization of Information and Systems; Toyota Motor Corp
Priority date: 2015-06-23
Filing date: 2015-06-23
Publication date: 2017-01-12

Abstract

【課題】複数の話者による発話の関係性を分析する。【解決手段】複数の話者による会話の状況を分析する会話状況分析装置であって、複数の話者による会話音声を取得する取得手段と、前記会話音声を、話者ごとおよび発話区間ごとの複数の発話に分離する分離手段と、前記複数の発話のそれぞれについて、音声認識処理を用いて発話内容の認識する認識手段と、発話内容に基づいて発話間や話者間の関係性を分析する分析手段であって、発話ごとの内容に基づいて、同一テーマの会話に属すると推定される発話を一連の発話群であると特定する分析手段と、を備える。【選択図】図９

Description

本発明は、複数の話者による会話の状況を分析する技術に関する。

近年、コンピュータから人間に対して提案や援助などの種々の介入を行う技術の研究・開発が進められている。複数の人間が会話している状況においてコンピュータが適切な介入を行うためには、複数話者による会話音声に基づいて現在の状況を把握する必要がある。

特許文献１は、複数の話者の音声特徴を分析・比較する技術を開示する。特許文献１では、第１および第２の人の音声の特徴から第１および第２の人の分類情報を求めて、２つの分類情報の組み合わせに基づいて第１および第２の人の相性を分析している。

特許文献２，３は、電話での会話から、話者が特定の感情（不満、満足、謝罪など）を表す区間を特定する技術を開示する。特許文献２，３では、各区間における話者の感情を個別に検出し、話者間の感情の変化パターンに応じて特定感情を表す区間を特定している。

特許第３２８０８２５号公報国際公開第２０１４／０６９０７６号国際公開第２０１４／０６９１２０号

特許文献１の手法は、複数の話者の音声特徴から話者の相性を分析しているが、会話の状況を分析しているわけではない。また、特許文献２，３の手法も、話者が特定の感情を示している区間を特定しているだけであり、会話におけるそれぞれの発話の関係性を特定しているわけではない。いずれの手法も、会話におけるそれぞれの発話の関係性や発話全体の分析を行うことはできない。

上記のような問題を考慮して、本発明は、複数の話者による発話の関係性を分析可能な技術を提供することを目的とする。

上記目的を達成するために、本発明の第一の態様は、複数の話者による会話の状況を分析する会話状況分析装置であって、複数の話者による会話音声を取得する取得手段と、前記会話音声を、話者ごとおよび発話区間ごとの複数の発話に分離する分離手段と、前記複数の発話のそれぞれについて、音声認識処理を用いて発話内容の認識する認識手段と、発話内容に基づいて発話間の関係性を分析する分析手段であって、発話ごとの内容に基づいて各発話の会話テーマを推定し、同一の会話テーマと推定される発話を一連の発話群であると特定する分析手段と、を備える。

このようにすれば、同一の会話テーマについて発話群を特定することができる。また、複数の話者が異なるグループに分かれて異なるテーマについて会話している場合でも、適切に一連の発話群を特定できる。

ここで、発話の内容は発話のテキストを意味する。したがって、分析手段は発話のテキストから各発話の会話テーマの同一性を推定する。なお、一連の発話群の特定は、発話の内容だけに基づいて行う必要はなく、発話のタイミングなどその他の情報にも基づいて行って構わない。例えば、発話の内容からだけでは会話テーマが推定できない場合には、当該発話の直前または直後の発話が属する会話のテーマあるいは当該発話の話者が直前に話した会話のテーマと同一としてもよい。

本発明において、前記認識手段は、音声認識処理により得られる発話のテキストを辞書と照合することにより前記発話内容を認識し、前記分析手段は、前記認識手段によって認識される発話内容のテキストと辞書を照合することにより、発話の意図と話題を求め、当該発話の意図および話題に基づいて当該発話の会話テーマを推定する、ことができる。発話意図の例として、話題の切り出し、提案、提案への賛成・反対、意見の集約などが挙げられる。発話の話題は、発話のジャンル、話題となっている場所やものが含まれる。発話のジャンルの例として、飲食、旅行、音楽、天候などが挙げられる。話題となっている場所やものの例として、地名、ランドマーク、店舗・施設名など挙げられる。このように発話内容（テキスト）に基づいて発話の意図や話題を考慮することで、より適切に会話テーマを推定することができる。

本発明における会話状況分析装置は、前記複数の発話のそれぞれについて、音声特徴量を算出する特徴量算出手段をさらに備え、前記分析手段は、各話者について音声特徴量の変化に基づいてそれぞれの発話時における話者の感情を推定し、当該感情も考慮して前記発話の意図を推定する、ことも好ましい。話者の感情も考慮することで、発話の意図をより正確にあるいはより詳細に推定することができる。例えば、発話の内容は提案への賛成であったとしても、感情が不満や苛立ちを表している場合には、当該発話の意図が不本意な賛成であると推定できる。

本発明において、前記分析手段は、発話の意図、発話の特徴量、発話時の話者の感情などに基づいて、前記一連の発話群における発話間の対応関係や話者間の関係を取得する、ことも好ましい。発話間の対応関係や話者間の関係は、例えば、ある話者のある発話がどの話者のどの発話に対する応答であるかや、ある話者がどの話者とどのように会話上でつながっているかを示すものである。上述のようにそれぞれの発話についてその意図を求めているので、発話間の対応関係や会話上での話者間の関係を精度良く求めることができる。なお、発話間の対応関係や話者間の対応関係は、発話の意図のみに基づいて決定する必要はなく、発話の話題や発話のタイミング、各発話の特徴量の変化などその他の情報に基づいて決定してもよい。例えば、発話の意図からは発話の対応関係が確実には分からない場合や、発話の意図が取得できない場合には、当該発話は同一会話内の直前または直後の発話と対応付けてもよい。また、例えば、ある話者の提案を意図する発話の直後に、意図が抽出できない別の話者の短い発話があった場合、発話の特徴量を分析して、当該発話をその直前の発話に対する相槌（同意）や嘆き（否定）を示す発話であると対応づけることができる。このようにして、発話間の対応関係（ある発話がどの発話とどのような関係でつながっているのかなど）や、会話上での話者間の関係（ある話者間でどのような発話がどの程度発生していて、その話者間の上下関係や親密性がどのように推定されるかなど）を求めることができる。

本発明における会話状況分析装置は、話者を撮影する撮像手段をさらに有し、前記分析手段は、前記撮像手段が撮影した画像における話者の体、顔、または視線の向きを考慮して、前記一連の発話群における発話間の対応関係を取得する、ことも好ましい。会話においては、話しかける相手の方に体や顔や視線を向けて発話するので、上述のように画像によって話者の体や顔や視線の向きを取得することによって、発話間の対応関係をより正確
に取得することができる。

また、本発明における会話状況分析装置は、話者を撮影する撮像手段をさらに有し、前記分析手段は、前記撮像手段が撮影した画像における話者の顔画像から算出される顔特徴量の変化に応じて話者の感情を推定し、当該感情も考慮して発話間の関係性を分析する、ことも好ましい。話者の感情は表情にも表れるので、話者の顔画像を撮影して感情を推定し、推定された感情を用いて発話の関係性を分析することで、より適確な分析が行える。

また、本発明において、前記分析手段は、発話間の関係性と、発話の内容、発話の特徴量、発話時の話者の感情の少なくともいずれかとに基づいて、話者間の関係を求めることも好ましい。話者間の関係は、例えば、話者間の親密性、上下関係、親子関係などが含まれる。分析手段は、話者間の発話（関係性のある発話）における、発話の内容（言葉づかいから求められる丁寧度や親密度など）、発話特徴量（発話の回数、時間、重なり）、話者の感情から、上記のような関係性を求めることができる。

また、本発明における会話状況分析装置は、前記一連の発話群に関するデータである会話状況データを出力する出力手段を、さらに備える、ことも好ましい。会話状況データは、例えば、各発話の話者、発話間の対応関係、各発話の意味と意図、各発話時の話者の感情、発話群における各話者の発話頻度、各発話における音声特徴量、話者間の関係の少なくともいずれかを含む、ことができる。

本発明の第二の態様は、複数の話者による会話に介入して支援を行う支援装置である。本態様に係る支援装置は、上述した会話状況分析装置と、前記会話状況分析装置から出力される会話状況データに基づいて、一連の発話群に参加している複数の話者からなるグループの状態を判定するグループ状態判定手段と、前記グループの状態に基づいて前記会話への介入の内容を決定し、前記会話へ介入を行う介入手段と、を備える。なお、グループの状態には、グループの種別、グループ内の話者間の関係性、グループの状態変化が含まれる。このように、複数話者による会話や話者間の関係を適確に分析した結果に基づいてグループ状態を判定し、判定したグループ状態に従った介入を行うことで、より適確な支援が行える。なお、会話への介入は、音声出力、文字出力、画像出力など任意の方法で行えば良く、その態様は特に限定されない。

なお、本発明は、上記手段の少なくとも一部を備える会話状況分析装置あるいは支援装置として捉えることができる。また、本発明は、上記手段が行う処理の少なくとも一部を実行する会話状況分析方法あるいは支援方法として捉えることもできる。また、本発明は、これらの方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

本発明によれば、複数の話者による発話の関係性を分析できる。

第１の実施形態に係る会話介入支援システムの構成例を示す図である。第１の実施形態に係る会話介入支援システムの機能ブロック例を示す図である。第１の実施形態に係る会話介入支援システムが行う会話介入支援方法の全体的な処理の流れの例を示すフローチャートである。会話介入支援方法における会話状況分析処理（Ｓ３０３）の流れの例を示すフローチャートである。話者ごとおよび発話区間ごとに分離された発話の例を示す図である。発話ごとに抽出されたジャンル・話題の場所・意図の例を示す図である。同一の会話テーマを有する一連の発話群の例を示す図である。会話状況データの例を示す図である。（Ａ）会話状況データに含まれる、発話間の対応関係、各発話の会話テーマ・発話の意図・話者の感情と（Ｂ）会話における話者間の発話発生状況と話者間の関係性の例を説明する図である。会話介入支援方法におけるグループ状態判定処理（Ｓ３０４）の流れの例を示すフローチャートである。（Ａ）グループ種別と（Ｂ）グループ種別の推定条件の例を示す図である。会話介入支援方法における介入内容決定処理（Ｓ３０５）の流れの例を示すフローチャートである。（Ａ）グループ種別に応じた介入ポリシーと（Ｂ）グループの状態変化に応じた介入方法の例を説明する図である。

（第１の実施形態）
＜システム構成＞
本実施形態は、車両内の複数人の会話に対して介入して情報提供や意思決定支援を行う会話介入支援システムである。本実施形態は、複数人特に３人以上の会話に対しても適切な介入を行えるように構成される。

図１は本実施形態に係る会話介入支援システムの構成の一例を示す図である。ナビゲーション装置１１１がマイクを介して取得した乗員の会話音声は、通信装置１１４を経由してサーバ装置１２０に送られる。サーバ装置１２０は、車両１１０から送信された会話音声を分析して、状況に応じて適切な情報提供や意思決定支援などの介入を行う。サーバ装置１２０は、会話音声を分析してどのような方針で介入を行うかを決定し、その方針に従った情報をレコメンドシステム１２１、店舗広告情報ＤＢ１２２、関連情報ＷＥＢサイト１３０から取得する。サーバ装置１２０は介入指示を車両１１０に送信し、車両１１０はナビゲーション装置１１１のスピーカーやディスプレイを通じて音声再生あるいはテキストや画像の表示を行う。また、車両１１０は、現在位置を取得するＧＰＳ装置１１２および乗員（話者）の顔や体を撮影するカメラ１１３も備える。

図２は本実施形態に係る会話介入支援システムの機能ブロック図である。会話介入支援システムは、マイク（音声入力部）２０１、雑音除去部２０２、音源分離部（話者分離部）２０３、会話状況分析部２０４、音声認識用コーパス・辞書２０５、語彙意図理解用コーパス・辞書２０６、グループ状態判定部２０７、グループモデル定義記憶部２０８、介入・調停部２０９、介入ポリシー定義記憶部２１０、関連情報ＤＢ２１１、出力制御部２１２、スピーカー（音声出力部）２１３、ディスプレイ（画像表示部）２１４を含む。これらの各機能部が行う処理の詳細は、以下でフローチャートともに説明する。

本実施形態では、図２で示す各機能のうち、マイク２０１による音声入力と、出力制御部２１２、スピーカー２１３、ディスプレイ２１４による介入内容の出力を車両１１０にて行う。その他の機能は、サーバ装置１２０で行うように構成する。しかしながら、これらの機能を車両１１０とサーバ装置１２０でどのように分担するかは特に限定されない。例えば、車両１１０で、雑音除去や音源分離などを行ってもよいし、さらに音声認識処理まで行ってもよい。また、サーバ装置１２０は介入ポリシーの決定までを行い、決定された介入ポリシーに従ってどのような情報を提示するかは車両１１０で決定してもよい。さ
らには、全ての機能を車両１１０内で実現しても構わない。

なお、ナビゲーション装置１１１およびサーバ装置１２０は、いずれも、ＣＰＵなどの演算装置、ＲＡＭやＲＯＭなどの記憶装置、入力装置、出力装置、通信インタフェースなどを備えるコンピュータであり、記憶装置に記憶されたプログラムを演算装置が実行することによって、上記の各機能を実現する。ただし、上記の機能の一部または全部を専用のハードウェアによって実現しても構わない。また、サーバ装置１２０は、１台の装置である必要はなく、通信回線を介して結合された複数の装置（コンピュータ）から構成されそれぞれの装置間で機能を分担しても構わない。

＜全体処理＞
図３は、本実施形態に係る会話介入支援システムが行う会話介入支援方法の全体的な流れを示すフローチャートである。図３を参照しながら、会話介入支援方法の全体について説明する。

ステップＳ３０１において、ナビゲーション装置１１１が、マイク２０１を介して車両１１０内の複数の乗員による会話音声を取得する。本実施形態では、取得された音声に対する以降の処理はサーバ装置１２０において行われるので、ナビゲーション装置１１１は取得した会話音声を、通信装置１１４を介してサーバ装置１２０へ送信する。なお、使用するマイクの数や配置は特に限定されないが、マイクあるいはマイクアレイを複数用いることが好ましい。

ステップＳ３０２において、サーバ装置１２０は、雑音除去部２０２と音源分離部２０３を用いて、会話音声から話者ごとのそれぞれの発話を抽出する。なお、「発話」とは言語を音声として発生すること、およびその結果として発生された音声を意味する。ここでの処理は、雑音除去部２０２による雑音除去と、音源分離部２０３による音源分離（話者分離）が含まれる。雑音除去部２０２は、例えば、雑音発生源近くに配置されたマイクから得られる音声と、その他のマイクから得られる音声との相違から、雑音を特定して除去する。雑音除去部２０２は、また、複数のマイクに入力される発話の相関を利用して、雑音を除去する。音源分離部２０３は、複数のマイクに音声が入力される時間差から各話者のマイクに対する方向および距離を検出して、話者を特定する。

ステップＳ３０３において、会話状況分析部２０４が、複数人による会話の状況を分析する。複数人、特に３人以上の会話の状況を分析するためには、それぞれの話者による発話に相関があるか、また、相関がある場合にはどのような関係があるか、などを認識する必要がある。そこで、会話状況分析部２０４は、同一の会話テーマに関する発話群を一連の発話群として抽出し、さらにその発話群の中での発話間の関係性を把握して、発話間の関係性を考慮して会話の状況や話者間の関係を分析する。会話状況分析部２０４による具体的な処理内容については、後述する。

ステップＳ３０４において、グループ状態判定部２０７は、会話状況分析部２０４による会話状況データをもとに、同一の会話に参加している話者グループがどのようなグループであるかあるいはこのグループがどのような状態にあるかを判定する。グループの例として、例えば、「フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループ」、「上下関係があるが、親密度が高く、特定のメンバーがグループの意思決定を主導しているようなグループ」、「上下関係があり、親密度が低く、特定のメンバーがグループの意思決定を主導しているようなグループ」などが挙げられる。また、グループの状態変化の例として、特定のメンバーの発話頻度が低下した、グループ全体の発話頻度が低下した、特定のメンバーの感情が変化した、グループの主導者が変化した、などが挙げられる。グループ状態判定部２０７による具体的な処理内容について
は後述する。

ステップＳ３０５において、介入・調停部２０９は、グループ状態判定部２０７によるグループ状態に応じて介入ポリシーを決定し、介入ポリシーと現在の会話の内容にしたがって具体的な介入のタイミングと内容を決定する。例えば、フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループであれば、全員に対してほぼ均等に詳しい参考情報を提示して活発な討議を促すという介入ポリシーを採用することが考えられる。また、例えば、特定の話者あるいはグループ全体の発話頻度が低下した場合には、会話を活発化させるような話題に誘導する介入ポリシーを採用することが考えられる。介入・調停部２０９は、介入ポリシーを決定したら、現在の話題にしたがって、レコメンドシステム１２１、店舗広告情報ＤＢ１２２、あるいは関連情報ＷＥＢサイト１３０から提示すべき情報を取得して、介入指示を行う。介入・調停部２０９による具体的な処理内容については後述する。

ステップＳ３０６では、出力制御部２１２が、介入・調停部２０９から出力される介入指示に従って、出力すべき合成音声あるいはテキストを生成して、スピーカー２１３やディスプレイ２１４において再生する。

以上のようにして、車両１１０内の複数の話者による会話に対する介入が行える。なお、図３のフローチャートに示す処理は繰り返し実行される。会話介入支援システムは、会話音声を随時取得して、会話状況や話者間の関係やグループ状態を監視し続け、介入が必要と判断した場合に介入を行う。

＜会話状況分析処理＞
次に、ステップＳ３０３における会話状況分析処理の詳細について説明する。図４は、会話状況分析処理の流れを示すフローチャートである。なお、図４に示すフローチャートの処理は図示されたとおりの順序で行う必要はなく、また一部の処理を省略しても構わない。

ステップＳ４０１において、会話状況分析部２０４は、音源分離された音声データから発話区間を検出し、発話区間ごとに区間ＩＤとタイムスタンプを付加する。なお、発話区間は音声が発話されている１連続の区間である。発話区間の終了は、例えば、１５００ミリ秒以上の無発話が生じる前までとする。この処理により、会話音声を、話者ごとおよび発話区間ごとに複数の音声データに分離できる。以下では、１つの発話区間における発話の音声のことを、単に発話とも称する。図５は、ステップＳ４０１において分離されたそれぞれの発話を示す。

ステップＳ４０２では、会話状況分析部２０４が、それぞれの発話について発話特徴量（音声特徴量）を算出する。発話特徴量として、発話音量、ピッチ、トーン、持続時間、発話速度（平均モーラ長）が挙げられる。発話音量は、発話の音圧レベルである。トーンは、音の高低や音そのものであり、音の高低は音波の１秒間あたりの振動回数（周波数）によって特定される。ピッチは、知覚される音の高さであり、音の物理的な高さ（基本周波数）によって特定される。平均モーラ長は、１モーラあたりの発話の長さ（時間）として算出される。なお、モーラは拍数である。ここで、発話音量、ピッチ、トーン、発話速度については、発話区間内の平均値、最大値、最小値、変動幅、標準偏差などを求めるとよい。本実施形態ではこれらの発話特徴量を算出するが、ここで例示した発話特徴量の全てを算出しなくてもよいし、ここで例示した以外の発話特徴量を算出してもよい。

ステップＳ４０３において、会話状況分析部２０４は、それぞれの発話についての話者の感情を、発話特徴量の変化から求める。求める感情の例として、満足、不満足、興奮、
怒り、悲しみ、期待、安心、不安などが挙げられる。感情は、例えば、発声の音量、ピッチ、トーンの平常時からの変化に基づいて求めることができる。各話者の平常時の発話特徴量は、これまでに得られた発話特徴量から求めてもよいし、あるいはユーザ情報・利用履歴ＤＢ１２３に格納されている情報を用いてもよい。なお、話者の感情は、発話（音声データ）のみに基づいて決定する必要はない。話者の感情は発話の内容（テキスト）からも求めることができる。また、話者の感情は、例えば、カメラ１１３から撮影される話者の顔画像から顔特徴量を算出し、顔特徴量の変化に基づいて求めることもできる。

ステップＳ４０４において、会話状況分析部２０４は、それぞれの発話について、音声認識用コーパス・辞書２０５を用いた音声認識処理を施して、発話内容をテキスト化する。音声認識処理には既存の技術を適用すればよい。図５に示す発話内容（テキスト）は、ステップＳ４０４の処理によって求められる。

ステップＳ４０５において、会話状況分析部２０４は、それぞれの発話の内容（テキスト）から、語彙意図理解用コーパス・辞書２０６を参照して、発話の意図および話題を推定する。発話の意図は、例えば、話題の切り出し、提案、提案への賛成・反対、意見の集約などを含む。発話の話題は、例えば、発話のジャンル、場所、ものなどを含む。発話のジャンルは、例えば、飲食、旅行、音楽、天候などを含む。話題となっている場所は、例えば、地名、ランドマーク、店舗名、施設名などが含まれる。語彙意図理解用コーパス・辞書２０６は、「話題を切り出す、提案する、質問する、賛成する、反対する、物事を集約する」といった場合にそれぞれ使われる語彙や、発話のジャンルを特定するための「飲食、旅行、音楽、天候など」に関する語彙や、話題となっている場所を特定するための「地名、ランドマーク、店舗名、施設名など」に関する語彙の辞書を含む。なお、発話意図の推定においては、テキストだけでなく話者の感情を考慮することも好ましい。例えば、発話内容（テキスト）は提案に対する同意を示している場合に、話者の感情を考慮することで、喜んで同意しているのか渋々同意しているのかなどをより詳細な発話意図を推定することができる。

ステップＳ４０５の処理の結果、各発話について、「何をどうしたいか」といった話者の意図と、話題となっているジャンルを推定することができる。例えば、図５における発話ＩＤ２の「北鎌倉のイタリアンはどぉー」というテキストについては、辞書との照合により、「イタリアン」という語からジャンルが「飲食」であること、「北鎌倉」という語から話題の場所が「鎌倉」であること、「どぉー」という語から発話の意図が「提案」であることが推定できる。

図６は、図５に示すそれぞれの発話に対する、話題となっているジャンル、話題となっている場所、および発話の意図の抽出結果を示す。本実施形態において、意図等を推定した「発話ｎ（Ｓ）」は、例えば、以下のような式で示される。

発話ｎ（Ｓ）＝（Ｇ_ｎ，Ｐ_ｎ，Ｉ_ｎ）

ここで、ｎは発話ＩＤ（１〜ｋ）であり、発話の発生順に発話ＩＤを付与するとする。Ｓは話者（Ａ、Ｂ、Ｃ．．．）であり、Ｇ_ｎ、Ｐ_ｎ、Ｉ_ｎは、それぞれ、推定された発話のジャンル、話題となっている場所、発話の意図を示す。

例えば、話者Ａの発話１を語彙意図理解用コーパス・辞書２０６と照合し、「Ｇ_１：飲食」、「Ｐ_１：鎌倉」、「Ｉ_１：話題の切り出し」とマッチした場合は、次のように示す。

発話１（Ａ）＝（"飲食"，"鎌倉"，"話題の切り出し"）

なお、それぞれの発話に対する、話題となっているジャンル、話題の場所、および発話の意図といった情報は、発話の内容（テキスト）以外の情報を考慮して求めることも好ましい。特に、発話の意図は、発話特徴量から求められる話者の感情を考慮して求めることも好ましい。発話内容が提案への賛成を表している場合であっても、発話特徴量から喜んで同意しているのか、渋々同意しているのかを判別できる。また、発話によっては、発話内容（テキスト）から上記の情報を抽出できない場合もある。このような場合には、会話状況分析部２０４は、時系列で発生している前後の発話意図の抽出結果あるいは発話内容（テキスト）を考慮して、当該発話の意図を推定するとよい。

ステップＳ４０６において、会話状況分析部２０４は、ステップＳ４０５にて得られた各発話のジャンルと発話の時系列的な結果を考慮して、同一テーマと推定される発話を抽出し、その結果得られた発話群を一連の会話に含まれる発話群であると特定する。この処理により、１つの会話の開始から終了までに含まれる発話を特定することができる。

会話テーマの同一性判定では、発話のジャンルや話題の場所の類似性が考慮される。例えば、発話ＩＤ５は抽出語「魚」からジャンルが「飲食」で、抽出語「海」から話題の場所が「海」であると判定されているが、いずれもジャンルが「飲食」であり、同一の会話テーマを有すると判定できる。また、発話には発話ＩＤ１のように「話題の切り出し」を判定する語（「決めよう」）や、発話ＩＤ９のように「集約」を判定する語（「決まり」）が含まれている場合があり、それぞれの発話を、同じテーマの会話の開始時あるいは終了時の発話と推定することもできる。また、発話の時間的関係も考慮して、発話のジャンルや話題の場所などが同一であったとしても、発話間の時間間隔が長すぎる場合には異なる会話テーマと判断してもよい。また、発話の中には、意図やジャンルなどを抽出できる語彙を含まない発話もある。このような場合は、時系列的な発話の流れを考慮し、同一の会話の開始と終了の間に発生している同じ話者の発話は同じ会話に含まれるとみなすとよい。

図７は、図６に示した各発話のジャンル、話題の場所、および発話意図から、一連の発話群を特定した結果を示す図である。ここでは、３つの会話が抽出されている。会話１は、「飲食（昼食）」「飲食（料理）」「鎌倉」に関する会話であり、発話ＩＤ１，２，３，５，７，９が含まれる。会話２は、「天候」「スポーツ（運動会）」に関する会話であり、発話ＩＤ４，６，８が含まれる。なお、「天候」と「スポーツ（運動会）」は異なるジャンルであるが、「天候」に関する発話の直後に「スポーツ（運動会）」に関する発話が連続して発生する場合、それらの発話は「天候」に関する会話に含まれると判断する。会話３は、「音楽」に関する会話であり、発話ＩＤ１０，１１が含まれる。

図５に示す発話は、話者Ａ〜Ｅの合計５人によって行われているが、全員が同じ会話に参加しているわけではない。ここでは、話者Ａ〜Ｃの３人が飲食に関する会話１を行っており、話者Ｄ，Ｅが天候に関する会話２を行っている。本実施形態における会話状況分析部２０４は、各発話のジャンルや、話題となっている場所（もの）や、発話の意図に着目しているので、複数の会話が同時に進行している場合であっても、適切に一連の会話に含まれる発話群を特定できる。

本実施形態において、このようにして特定された一連の「会話ｍ」は、例えば、以下のような式で示される。

会話ｍ（Ｓ_Ａ，Ｓ_Ｂ，Ｓ_Ｃ… ）
＝｛発話１（Ｓ_Ａ），発話２（Ｓ_Ｂ），発話３（Ｓ_Ｃ）… ｝
＝Ｔ_ｍ｛（Ｇ_Ａ，Ｐ_Ａ，Ｉ_Ａ），（Ｇ_Ｂ，Ｐ_Ｂ，Ｉ_Ｂ），（Ｇ_Ｃ，Ｐ_Ｃ，Ｉ_Ｃ）… ｝

ここで、ｍは会話ＩＤ（１〜ｋ）、であり、会話の発生順に会話ＩＤを付与するとする。Ｓ_A,B,C…は話者（Ａ、Ｂ、Ｃ．．．）であり、Ｔ_ｍ、Ｇ_ｎ、Ｐ_ｎ、Ｉ_ｎは、それぞれ
、推定された会話のテーマ、発話のジャンル、発話で話題となっている場所、発話の意図を示す。

例えば，話者Ａ、Ｂ、Ｃのテーマ「飲食」の発話群が会話１に特定された場合は、次のように示される。

会話１（Ａ，Ｂ，Ｃ）
＝Ｔ_"食事"｛（"飲食（昼食）"，"鎌倉"，"話題の切り出し"）,
（"飲食（料理）"，"鎌倉"，"提案"）,
（"飲食（料理）"，"ｎａ"，"否定／提案"）… ｝

ステップＳ４０７において、会話状況分析部２０４は、上記の分析結果を統合した会話状況データを生成して出力する。例えば、会話状況データは、直近の所定期間（例えば３分間）における同一会話内の発話について、図８に示すような情報を含む。発話が多い話者は、期間内における発話回数と発話時間の両方が所定値以上（例えば、１回と１０秒）の話者である。発話が少ない話者は、期間内における発話回数が発話時間の両方が所定値未満の話者である。話者間の平均発話間隔あるいは重なりは、話者ペアごとに発話区間の間の無音期間の時間または発話区間が重なっている時間である。発話音量、トーン、ピッチ、発話速度は、話者別と全話者について求められる。それぞれ、期間内の平均値、最大値、最小値、変動幅、標準偏差のいずれかまたは複数によって表し、特に変動が顕著に測定された場合には該当する発話内容などの情報と結び付けて示す。また、会話状況データは、期間内の各発話について、発話内容のテキスト、会話テーマ、推定話者名、発話の意図、発話の話題（ジャンル、場所、ものなど）、話者の感情も含む。また、会話状況データは、発話間の対応関係や話者間の関係も含む。

図９（Ａ）は、発話間の対応関係と、各発話の会話テーマ・発話の意図・話者の感情を表示した例である。図９（Ａ）では、話者Ａ〜Ｅについてそれぞれ発話区間が時系列に示されており、発話間の対応関係が矢印で示されている。また、発話ごとに、発話の意図と話者の感情が示されている（利用可能な場合）。例えば、話者Ａによる話題の切り出し（発話ＩＤ１）に対し、話者Ｂが提案（発話ＩＤ２）を行い、これら両方の発話を受けて話者Ｃが提案への反対と再提案（発話ＩＤ３）をしていることなどが分かる。なお、発話間の対応関係は、必ずしも発話（音声データ）のみに基づいて決定する必要はない。例えば、カメラ１１３から取得される話者の視線や顔や体の向きから、ある発話が特定のメンバーに対するものであるか否かを判定し、この判定結果を基に発話間の対応関係を求めてもよい。

図９（Ｂ）では、話者Ａ〜Ｅの会話において、どのような発話がどの程度発生していて、当該話者間の上下関係や親密性がどのように推定されるかなどを示している。任意の２人の話者間の発話において、発話の意図や、発話特徴量（発話回数、発話時間、発話の重なり、テンションレベル）、言葉づかい（丁寧度）から、２話者間の親密度や関係性（フラットであるか上下関係があるか）を求めることができる。なお、図９（Ｂ）には示していないが、話者間に上下関係などがある場合には、どちらが上位者でありどちらが下位者であるかも求めることができる。

会話状況分析部２０４は上述のような会話状況データをグループ状態判定部２０７へ出
力する。会話状況データを用いることで、会話の流れと各発話の特徴量変化を紐付けることが可能となり、会話を行っているグループの状態を適確に推定できる。

＜グループ状態判定処理＞
次に、図３のステップＳ３０４におけるグループ状態判定処理の詳細について説明する。図１０は、グループ状態判定処理の流れを示すフローチャートである。

ステップＳ１００１において、グループ状態判定部２０７は、会話状況分析部２０４が出力した会話状況データを取得する。グループ状態判定部２０７は、この会話状況データに基づく以下の処理によって、グループ種別、各メンバーの役割（関係性）、グループの状態変化などを含むグループ状態を分析する。

ステップＳ１００２において、グループ状態判定部２０７は、会話における話者間のつながりを判定する。会話状況データには、各発話の話者と、発話間のつながり、発話の意図（提案、賛成、反対など）が含まれる。したがって、会話状況データに基づいて、話者ペアの間の会話の頻度（例えば「話者Ａと話者Ｂは頻繁に直接会話している」、「話者Ａと話者Ｂの間では直接の会話がない」など）や、話者ペアの間でどの程度、提案・賛成・反対の発話がなされているか（「話者Ａは話者Ｂに対して提案をＸ回、賛成意見をＹ回、反対意見をＺ回述べている」など）を把握することができる。グループ状態判定部２０７は、グループ内のそれぞれの話者ペアについて、これらの情報を求める。

ステップＳ１００３において、グループ状態判定部２０７は、メンバー間の意見交換状況を判定する。意見交換状況には、グループ内における意見交換の活発さ、提案に対する賛成と反対の比率、意思決定における主導者の有無などの情報が含まれる。意見交換の活発さは、例えば、提案から最終的な意思決定までの間の発話回数または賛成意見あるいは反対意見の数などによって評価できる。また、意思決定における主導者の有無は、特定の話者の提案に対して反対意見が少なく同意や賛成意見のみが発生しているか否か、特定の話者の提案や意見が高い割合で最終的な意見として採用されるか否か、などによって評価できる。会話状況データには、各発話の話者と、発話間のつながり、発話の意図、発話の内容などが含まれるので、グループ状態判定部２０７は会話状況データに基づいてこれらの意見交換状況を判定できる。

ステップＳ１００４において、グループ状態判定部２０７は、会話状況データに含まれる発話特徴量および発話内容の言葉づかいと、ステップＳ１００２において求めた話者間のつながり、ステップＳ１００３において求めた話者間の意見交換状況に基づいて、グループ種別（グループモデル）を推定する。グループ種別はあらかじめ定義されており、例えば図１１（Ａ）に示すような、グループ種別Ａ：「フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループ」、グループ種別Ｂ：「上下関係があるが、親密度が高く、特定のメンバーがグループの意思決定を主導しているようなグループ」、グループ種別Ｃ：「上下関係があり、親密度が低く、特定のメンバーがグループの意思決定を主導しているようなグループ」などが例として挙げられる。グループ種別Ａは、親友同士のような全員がフラットに繋がっているグループを想定したものである。グループ種別Ａには、主導者（特に意思決定への影響力を持つメンバー）が含まれる場合も含まれない場合もある。グループ種別Ｂは、家族のような、メンバー間のつながりが強く上下関係を持つグループを想定したものである。グループ種別Ｂには、主導者（例えば親）がいる。グループ種別Ｃは、職場の上司と部下のような、比較的ドライなつながりで上下関係を持つグループを想定している。グループ種別Ｃには、主導者（最上位者）がいる。ここでは例として３つのみ挙げているが、グループ種別の数はいくつであってもよい。

グループモデル定義記憶部２０８には、それぞれのグループ種別の判定基準が格納される。グループモデル定義記憶部２０８には、発話特徴量、発話内容の言葉づかい、話者間のつながり、意見交換情報などに基づく、複数個の判定基準が格納される。図１１（Ｂ）は、発話特徴量に基づく判定基準の例を示す。グループ種別Ａは「フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループ」なので、例えば、「全話者が活発に発話している」、「発話が重なる傾向にある」、「各発話のトーンやピッチの変動が大きい」、「発話音量の変動が大きい」、「提案に対して反対意見がある程度発生する」という特徴を有することが多い。そこで、グループモデル定義記憶部２０８には、発話特徴量に基づくグループ種別Ａの判定基準として、例えば、「発話回数が３分間に３回以上または合計２０秒以上発話している話者が全体の６０％以上である」、「発話の重なりが３分間に３回以上または合計５秒以上」、「各話者のトーン、ピッチまたは音圧レベルの変動幅が所定の閾値以上」などの判定基準を含む。グループ状態判定部２０７は、現在のグループがこれらの判定基準をどの程度満たすかを評価し、現在のグループがグループ種別Ａである確からしさを示す評価値を求める。その他のグループ種別Ｂ，Ｃについても同様に評価値が求められる。

グループ状態判定部２０７は、ここで求めた評価値のみを用いて、すなわち発話特徴量のみに基づいてグループの種別を判定してもよいが、判定精度をより向上させるためにその他の要素も考慮してグループ種別を判定する。

グループ状態判定部２０７は、例えば、会話における発話内容（テキスト）を解析し、各話者の発話に含まれる命令語、敬語・丁寧語・謙譲語、くだけた語（親しい間柄で使う言葉）、子供が使う語、子供に対して使う語などをどの程度の頻度で現れるかを取得する。これにより、会話における各話者の言葉づかいが分かる。グループ状態判定部２０７は、言葉づかいも考慮してグループ種別を推定する。例えば、「グループ内に命令調で話す人がいて、それに対して敬語・丁寧語・謙譲語で返答する人がいる」場合は、グループ種別Ｃである可能性が高いと判断できる。また、「グループ内に命令調で話す人がいるが、それに対してくだけた言葉で返答する人がいる」場合は、グループ種別Ａの可能性が高いと判断できる。また、「グループ内のほとんど話者がくだけた言葉を多く使う」場合は、グループ種別ＡまたはＢの可能性が高いと判断できる。また、「グループ内に親（大人）が子供に対して使う言葉づかいで話す人と、子供が使う言葉づかいで話す人がいる」場合には、グループ種別Ｂの可能性が高いと判断できる。ここで挙げた例は一例であり、グループ種別と言葉づかいの関連性があらかじめ定義されていれば、グループ状態判定部２０７は、現在のグループがどのグループ種別に該当するか可能性が高いかを判定できる。

また、グループ状態判定部２０７は、会話における意見交換状況からもグループ種別を判断できる。例えば、グループ内において意見交換が活発な場合や、提案に対して拒否や反対意見が比較的多く発生している場合は、グループ種別ＡまたはＢの可能性が高いと判断できる。また、グループ内において意見交換が活発でない場合や、グループ内に主導者が存在する場合は、グループ種別Ｃの可能性が高いと判断できる。ここで挙げた例は一例であり、グループ種別と意見交換状況の関連性があらかじめ定義されていれば、グループ状態判定部２０７は、現在のグループがどのグループ種別に該当するか可能性が高いかを判定できる。

グループ状態判定部２０７は、上記のように、発話特徴量、言葉づかい、意見交換状況、話者間のつながりに基づいて推定されるグループ種別を統合して、最も良く合致するグループ種別を、現在のグループの種別として決定する。

ステップＳ１００５において、グループ状態判定部２０７は、ステップＳ１００２，Ｓ１００３などの解析結果やその他の会話状況データを用いて、グループにおける各メンバ
ーの役割を推定する。グループにおける役割として、意思決定における主導者、主導者に対する追従者が挙げられる。また、役割として、上位者、下位者、親、子、などを推定してもよい。メンバーの役割推定において、ステップＳ１００４において決定したグループ種別を考慮することも好ましい。

ステップＳ１００６において、グループ状態判定部２０７は、グループの状態変化を推定する。グループの状態には、発話の頻度、会話への参加者、会話における主導者が誰であるかなどが含まれる。ステップＳ１００６において推定される状態変化は、例えば、特定話者の発話頻度の低下、全体的な発話頻度の低下、会話グループの分離、主導者の変化などが挙げられる。

ステップＳ１００７において、グループ状態判定部２０７は、ステップＳ１００４において推定したグループ種別、ステップＳ１００５において推定した各メンバーの役割、およびステップＳ１００６に推定したグループの状態変化をまとめてグループ状態データとして、介入・調停部２０９へ出力する。介入・調停部２０９は、グループ状態データを参照することで、会話中のグループがどのような状態であるのかを把握でき、それにしたがった適切な介入が行える。

＜介入／調停処理＞
次に、図３のステップＳ３０５における介入内容決定処理の詳細について説明する。図１２は、介入内容決定処理の流れを示すフローチャートである。

ステップＳ１２０１において、介入・調停部２０９は、会話状況分析部２０４が出力した会話状況データとグループ状態判定部２０７が出力したグループ状態データを取得する。介入・調停部２０９は、これらのデータに基づく以下の処理によって、介入や調停を行う際に提示する情報の内容を決定する。

ステップＳ１２０２において、介入・調停部２０９は、グループ状態データに含まれるグループ種別やグループ状態変化に応じた介入ポリシーを、介入ポリシー定義記憶部２１０から取得する。介入ポリシーとは、グループ状態に応じて、グループ内のどのメンバーを優先的に支援するか、また、どのように支援するかを表す情報である。介入ポリシー定義記憶部２１０に定義される介入ポリシーの例を、図１３（Ａ）（Ｂ）に示す。

図１３（Ａ）は、グループ種別に応じた介入ポリシーの例である。例えば、フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループ種別Ａに対する介入ポリシーの一例として、メンバー間で討議して決められるように促すために、「メンバー全員に対して、選択要素（例えば、食事場所を決める場合は、その候補となる店舗など）に関する情報を提示する」というポリシーが定義される。また、上下関係があるが、親密度が高く、特定のメンバーがグループの意思決定を主導しているようなグループ種別Ｂに対する介入ポリシーの一例として、意見の表明ができないような弱い立場にあるメンバーの意見を引き出して採用されるように促すために、「ファシリティター的なメンバーに対して、いずれのメンバーの意見を引き出すのが好ましいかという情報と、選択要素に関する情報を提示し、該当メンバーから意見を引き出し、その意見が採用されるように支援する」というポリシーが定義される。また、上下関係があり、親密度が低く、特定のメンバーがグループの意思決定を主導しているようなグループ種別Ｃに対する介入ポリシーの一例として、特定のメンバーの意見ばかりが採用されないように支援するために、「１番目の意思決定事項では上位メンバーの意見を優先扱いするが、２番目以降では、ファシリティター的なメンバーに対して、いずれのメンバーの意見を引き出すのが好ましいかという情報と、選択要素に関する情報を提示し、順次、該当メンバーから意見を引き出し、その意見が採用されるように支援する」というポリシーが定義される。なお
、これらのポリシーにおけるファシリティター的なメンバーとは、特に意見の表明ができないような弱い立場にあるメンバーに寄り添って、該当メンバーの意見を引き出し、該当意見が採用されるように支援できるような人を意図する。また、図１３（Ａ）では、グループ種別ごとに１つの介入ポリシーが定義されるように記載しているが、グループ種別ごとに複数の介入ポリシーが定義されてもよい。

図１３（Ｂ）は、グループの状態変化に応じた介入ポリシーの例である。例えば、特定話者の発話停滞（発話頻度の低下）が発生している場合は、それが話題の変化に伴って発生していれば、停滞前の話題に関連する情報を提示する。また、全体的な発話の停滞が発生している場合には、停滞前の話題に関連する情報を提示する。また、グループが２つのサブグループに分離してそれぞれが異なる会話をしている場合には、いずれかのサブグループでの話題に関連する情報を、他のグループの人にも興味を持ってもらえるように提示する。また、主導者が変化した場合には、新しい主導者が話題を先導できるように情報提供を行う。なお、図１３（Ｂ）では、グループの状態変化ごとに１つの介入ポリシーが定義されているように記載しているが、状態変化ごとに複数の介入ポリシーが定義されてもよい。

上記のような介入ポリシーは、グループの種別やグループの状態変化に応じて、グループ内の各メンバーに対する介入の優先度と、どのような介入を行うかを定義した情報といえる。ここで、介入の優先度の設定は、メンバー個人に対して行われるというよりは、グループ内における役割（主導者など）を有するメンバーに対して設定されたり、特定の条件（発話頻度低下）を満たすメンバーに対して設定されたりする。ただし、全ての介入ポリシーが介入優先度を含んでいる必要はない。

ステップＳ１２０３において、介入・調停部２０９は、ステップＳ１２０２において取得された介入ポリシーに基づいて介入対象メンバーと介入方法を決定する。例えば、介入・調停部２０９は、主導者に対してその他のメンバーの嗜好にあった情報を提供するように決定したり、発話が停滞した話者が好む話題に関連する情報を提供するように決定したりする。なお、ステップＳ１２０３では、現時点では介入を行わないという決定がされることもある。ステップＳ１２０３の決定は、介入ポリシーのみに基づいて行う必要はなく、会話状況データなどその他の情報に基づいて行うことも好ましい。例えば、会話状況データに含まれる発話の意図などからグループ内で意思決定のための意見交換がされていると判断した場合に、意思決定を支援する介入ポリシーに基づいて介入対象と介入方法を決定するとよい。

ステップＳ１２０４において、介入・調停部２０９は、介入対象メンバーおよび介入方法に応じた提示情報を生成・取得する。例えば、主導者に対してその他のメンバーの嗜好にあった情報を提供する場合には、まず、他のメンバーの嗜好を、それまでの会話テーマおよび当該メンバーの感情（興奮度など）に基づいて取得したり、あるいはユーザ情報ＤＢ１２３から取得したりして決定する。昼食の場所についての会話をしているときに、当該メンバーがイタリアン料理を好む場合には、イタリアン料理店についての情報を関連情報ＷＥＢサイト１３０などから取得する。この際、車両１１０のＧＰＳ装置１１２から得られる位置情報も考慮して提示する店舗を絞り込むとよい。

ステップＳ１２０５において、介入・調停部２０９は、ステップＳ１２０４にて生成・取得した提示情報を含む介入指示データを生成して、出力する。本実施形態では、サーバ装置１２０から車両１１０のナビゲーション装置１１１に対して、介入指示データが送信される。ナビゲーション装置１１１の出力制御部２１２は、介入指示データに基づいて、合成音声や表示テキストを生成して、スピーカー２１３やディスプレイ２１４から情報の提示を行う（Ｓ３０６）。

上記で説明した一連の会話介入支援処理（図３）は繰り返し実行される。発話に対して適切なタイミングで介入が行えるように、繰り返し間隔は短いことが好ましい。ただし、繰り返し処理において全ての処理を毎回行う必要はない。例えば、会話状況分析Ｓ３０３やグループ状態判定Ｓ３０４はある程度の間隔（例えば３分）を空けて行うようにしてもよい。また、グループ状態の判定においても、グループ種別の判定とグループの状態変化の判定を異なる実行間隔で行ってもよい。

＜本実施形態の有利な効果＞
本実施形態においては、会話状況分析部２０４が、複数の話者によって行われる会話において、同一の会話テーマからなる発話群を特定し、さらに各発話間の関係があるかどうか、さらに関係がある場合にどのような関係があるかなどを把握できる。さらに、同一の会話における話者間の発話の間隔や重なり度合いから、会話状況が推定できる。本実施形態による会話状況の解析手法では、多数の話者が異なるグループに分かれて同時に会話を行っている場合であっても、それぞれの会話についての状況を把握することができる。

また、本実施形態では、グループ状態判定部２０７が、会話状況データなどに基づいて、会話を行っているグループの種別や状態変化、あるいはグループ内の各話者の役割や互いの関係性などを把握することができる。このような把握ができることによって、システムが会話に介入する際に、どの話者をより優先的に支援するかを決定したり、グループの状態に応じた適切な介入が行えたりする。

＜変形例＞
上記の説明では、会話介入支援システムを、車両とサーバ装置とが連携するテレマティクスサービスとして構成する例を示したが、具体的なシステムの形態はこれに限られない。例えば、会議室などの室内における会話を取得して、この会話に介入するシステムとして構成することができる。

２０１：マイク２０２：雑音除去部２０３：音源分離部２０４：会話状況分析部２０５：音声認識用コーパス・辞書２０６：語彙意図理解用コーパス・辞書
２０７：グループ状態判定部２０８グループモデル定義記憶部２０９：介入・調停部２１０：介入ポリシー定義記憶部２１１：関連情報データベース２１２：出力制御部２１３：スピーカー２１４：ディスプレイ

Claims

複数の話者による会話の状況を分析する会話状況分析装置であって、
複数の話者による会話音声を取得する取得手段と、
前記会話音声を、話者ごとおよび発話区間ごとの複数の発話に分離する分離手段と、
前記複数の発話のそれぞれについて、音声認識処理を用いて発話内容の認識する認識手段と、
発話内容に基づいて発話間の関係性を分析する分析手段であって、発話ごとの内容に基づいて、同一の会話テーマと推定される発話を一連の発話群であると特定する分析手段と、
を備える、会話状況分析装置。
前記認識手段は、音声認識処理により得られる発話のテキストを辞書と照合することにより前記発話内容を認識し、
前記分析手段は、前記認識手段によって認識される発話内容のテキストと辞書を照合することにより、発話の意図と話題を求め、当該発話の意図および話題に基づいて当該発話の会話テーマを推定する、
請求項１に記載の会話状況分析装置。
前記複数の発話のそれぞれについて、音声特徴量を算出する特徴量算出手段をさらに備え、
前記分析手段は、各話者について音声特徴量の変化に基づいてそれぞれの発話時における話者の感情を推定し、当該感情も考慮して前記発話の意図を推定する、
請求項２に記載の会話状況分析装置。
前記分析手段は、発話の意図に基づいて、前記一連の発話群における発話間の対応関係を取得する、
請求項２または３に記載の会話状況分析装置。
話者を撮影する撮像手段をさらに有し、
前記分析手段は、前記撮像手段が撮影した画像における話者の体、顔、または視線の向きを考慮して、前記一連の発話群における発話間の対応関係を取得する、
請求項４に記載の会話状況分析装置。
話者を撮影する撮像手段をさらに有し、
前記分析手段は、前記撮像手段が撮影した画像における話者の顔画像から算出される顔特徴量の変化に応じて話者の感情を推定し、当該感情も考慮して発話間の関係性を分析する、
請求項１から５のいずれか１項に記載の会話状況分析装置。
前記分析手段は、発話間の関係性と、発話の内容、発話の特徴量、発話時の話者の感情の少なくともいずれかに基づいて、話者間の関係を求める、
請求項１から６のいずれか１項に記載の会話状況分析装置。
前記一連の発話群に関するデータである会話状況データを出力する出力手段を、さらに備える、
請求項１から７のいずれか１項に記載の会話状況分析装置。
前記会話状況データは、各発話の話者、発話間の対応関係、各発話の意味と意図、各発話時の話者の感情、発話群における各話者の発話頻度、各発話における音声特徴量、話者
間の関係、の少なくともいずれかを含む、
請求項８に記載の会話状況分析装置。
複数の話者による会話に介入して支援を行う支援装置であって、
請求項８または９に記載の会話状況分析装置と、
前記会話状況分析装置から出力される会話状況データに基づいて、一連の発話群に参加している複数の話者からなるグループの状態を判定するグループ状態判定手段と、
前記グループの状態に基づいて前記会話への介入の内容を決定し、前記会話へ介入を行う介入手段と、
を備える、支援装置。
複数の話者による会話の状況を分析する会話状況分析方法であって、コンピュータが、
複数の話者による会話音声を取得する取得ステップと、
前記会話音声を、話者ごとおよび発話区間ごとの複数の発話に分離する分離ステップと、
前記複数の発話のそれぞれについて、音声認識処理を用いて発話内容の認識する認識ステップと、
発話内容に基づいて発話間の関係性を分析する分析ステップであって、発話ごとの内容に基づいて、同一の会話テーマと推定される発話を一連の発話群であると特定する分析ステップと、
を実行する、会話状況分析方法。