JP2017009825A - 会話状況分析装置および会話状況分析方法 - Google Patents
会話状況分析装置および会話状況分析方法 Download PDFInfo
- Publication number
- JP2017009825A JP2017009825A JP2015125631A JP2015125631A JP2017009825A JP 2017009825 A JP2017009825 A JP 2017009825A JP 2015125631 A JP2015125631 A JP 2015125631A JP 2015125631 A JP2015125631 A JP 2015125631A JP 2017009825 A JP2017009825 A JP 2017009825A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- conversation
- speaker
- utterances
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
【課題】複数の話者による発話の関係性を分析する。【解決手段】複数の話者による会話の状況を分析する会話状況分析装置であって、複数の話者による会話音声を取得する取得手段と、前記会話音声を、話者ごとおよび発話区間ごとの複数の発話に分離する分離手段と、前記複数の発話のそれぞれについて、音声認識処理を用いて発話内容の認識する認識手段と、発話内容に基づいて発話間や話者間の関係性を分析する分析手段であって、発話ごとの内容に基づいて、同一テーマの会話に属すると推定される発話を一連の発話群であると特定する分析手段と、を備える。【選択図】図9
Description
本発明は、複数の話者による会話の状況を分析する技術に関する。
近年、コンピュータから人間に対して提案や援助などの種々の介入を行う技術の研究・開発が進められている。複数の人間が会話している状況においてコンピュータが適切な介入を行うためには、複数話者による会話音声に基づいて現在の状況を把握する必要がある。
特許文献1は、複数の話者の音声特徴を分析・比較する技術を開示する。特許文献1では、第1および第2の人の音声の特徴から第1および第2の人の分類情報を求めて、2つの分類情報の組み合わせに基づいて第1および第2の人の相性を分析している。
特許文献2,3は、電話での会話から、話者が特定の感情(不満、満足、謝罪など)を表す区間を特定する技術を開示する。特許文献2,3では、各区間における話者の感情を個別に検出し、話者間の感情の変化パターンに応じて特定感情を表す区間を特定している。
特許文献1の手法は、複数の話者の音声特徴から話者の相性を分析しているが、会話の状況を分析しているわけではない。また、特許文献2,3の手法も、話者が特定の感情を示している区間を特定しているだけであり、会話におけるそれぞれの発話の関係性を特定しているわけではない。いずれの手法も、会話におけるそれぞれの発話の関係性や発話全体の分析を行うことはできない。
上記のような問題を考慮して、本発明は、複数の話者による発話の関係性を分析可能な技術を提供することを目的とする。
上記目的を達成するために、本発明の第一の態様は、複数の話者による会話の状況を分析する会話状況分析装置であって、複数の話者による会話音声を取得する取得手段と、前記会話音声を、話者ごとおよび発話区間ごとの複数の発話に分離する分離手段と、前記複数の発話のそれぞれについて、音声認識処理を用いて発話内容の認識する認識手段と、発話内容に基づいて発話間の関係性を分析する分析手段であって、発話ごとの内容に基づいて各発話の会話テーマを推定し、同一の会話テーマと推定される発話を一連の発話群であると特定する分析手段と、を備える。
このようにすれば、同一の会話テーマについて発話群を特定することができる。また、複数の話者が異なるグループに分かれて異なるテーマについて会話している場合でも、適切に一連の発話群を特定できる。
ここで、発話の内容は発話のテキストを意味する。したがって、分析手段は発話のテキストから各発話の会話テーマの同一性を推定する。なお、一連の発話群の特定は、発話の内容だけに基づいて行う必要はなく、発話のタイミングなどその他の情報にも基づいて行って構わない。例えば、発話の内容からだけでは会話テーマが推定できない場合には、当該発話の直前または直後の発話が属する会話のテーマあるいは当該発話の話者が直前に話した会話のテーマと同一としてもよい。
本発明において、前記認識手段は、音声認識処理により得られる発話のテキストを辞書と照合することにより前記発話内容を認識し、前記分析手段は、前記認識手段によって認識される発話内容のテキストと辞書を照合することにより、発話の意図と話題を求め、当該発話の意図および話題に基づいて当該発話の会話テーマを推定する、ことができる。発話意図の例として、話題の切り出し、提案、提案への賛成・反対、意見の集約などが挙げられる。発話の話題は、発話のジャンル、話題となっている場所やものが含まれる。発話のジャンルの例として、飲食、旅行、音楽、天候などが挙げられる。話題となっている場所やものの例として、地名、ランドマーク、店舗・施設名など挙げられる。このように発話内容(テキスト)に基づいて発話の意図や話題を考慮することで、より適切に会話テーマを推定することができる。
本発明における会話状況分析装置は、前記複数の発話のそれぞれについて、音声特徴量を算出する特徴量算出手段をさらに備え、前記分析手段は、各話者について音声特徴量の変化に基づいてそれぞれの発話時における話者の感情を推定し、当該感情も考慮して前記発話の意図を推定する、ことも好ましい。話者の感情も考慮することで、発話の意図をより正確にあるいはより詳細に推定することができる。例えば、発話の内容は提案への賛成であったとしても、感情が不満や苛立ちを表している場合には、当該発話の意図が不本意な賛成であると推定できる。
本発明において、前記分析手段は、発話の意図、発話の特徴量、発話時の話者の感情などに基づいて、前記一連の発話群における発話間の対応関係や話者間の関係を取得する、ことも好ましい。発話間の対応関係や話者間の関係は、例えば、ある話者のある発話がどの話者のどの発話に対する応答であるかや、ある話者がどの話者とどのように会話上でつながっているかを示すものである。上述のようにそれぞれの発話についてその意図を求めているので、発話間の対応関係や会話上での話者間の関係を精度良く求めることができる。なお、発話間の対応関係や話者間の対応関係は、発話の意図のみに基づいて決定する必要はなく、発話の話題や発話のタイミング、各発話の特徴量の変化などその他の情報に基づいて決定してもよい。例えば、発話の意図からは発話の対応関係が確実には分からない場合や、発話の意図が取得できない場合には、当該発話は同一会話内の直前または直後の発話と対応付けてもよい。また、例えば、ある話者の提案を意図する発話の直後に、意図が抽出できない別の話者の短い発話があった場合、発話の特徴量を分析して、当該発話をその直前の発話に対する相槌(同意)や嘆き(否定)を示す発話であると対応づけることができる。このようにして、発話間の対応関係(ある発話がどの発話とどのような関係でつながっているのかなど)や、会話上での話者間の関係(ある話者間でどのような発話がどの程度発生していて、その話者間の上下関係や親密性がどのように推定されるかなど)を求めることができる。
本発明における会話状況分析装置は、話者を撮影する撮像手段をさらに有し、前記分析手段は、前記撮像手段が撮影した画像における話者の体、顔、または視線の向きを考慮して、前記一連の発話群における発話間の対応関係を取得する、ことも好ましい。会話においては、話しかける相手の方に体や顔や視線を向けて発話するので、上述のように画像によって話者の体や顔や視線の向きを取得することによって、発話間の対応関係をより正確
に取得することができる。
に取得することができる。
また、本発明における会話状況分析装置は、話者を撮影する撮像手段をさらに有し、前記分析手段は、前記撮像手段が撮影した画像における話者の顔画像から算出される顔特徴量の変化に応じて話者の感情を推定し、当該感情も考慮して発話間の関係性を分析する、ことも好ましい。話者の感情は表情にも表れるので、話者の顔画像を撮影して感情を推定し、推定された感情を用いて発話の関係性を分析することで、より適確な分析が行える。
また、本発明において、前記分析手段は、発話間の関係性と、発話の内容、発話の特徴量、発話時の話者の感情の少なくともいずれかとに基づいて、話者間の関係を求めることも好ましい。話者間の関係は、例えば、話者間の親密性、上下関係、親子関係などが含まれる。分析手段は、話者間の発話(関係性のある発話)における、発話の内容(言葉づかいから求められる丁寧度や親密度など)、発話特徴量(発話の回数、時間、重なり)、話者の感情から、上記のような関係性を求めることができる。
また、本発明における会話状況分析装置は、前記一連の発話群に関するデータである会話状況データを出力する出力手段を、さらに備える、ことも好ましい。会話状況データは、例えば、各発話の話者、発話間の対応関係、各発話の意味と意図、各発話時の話者の感情、発話群における各話者の発話頻度、各発話における音声特徴量、話者間の関係の少なくともいずれかを含む、ことができる。
本発明の第二の態様は、複数の話者による会話に介入して支援を行う支援装置である。本態様に係る支援装置は、上述した会話状況分析装置と、前記会話状況分析装置から出力される会話状況データに基づいて、一連の発話群に参加している複数の話者からなるグループの状態を判定するグループ状態判定手段と、前記グループの状態に基づいて前記会話への介入の内容を決定し、前記会話へ介入を行う介入手段と、を備える。なお、グループの状態には、グループの種別、グループ内の話者間の関係性、グループの状態変化が含まれる。このように、複数話者による会話や話者間の関係を適確に分析した結果に基づいてグループ状態を判定し、判定したグループ状態に従った介入を行うことで、より適確な支援が行える。なお、会話への介入は、音声出力、文字出力、画像出力など任意の方法で行えば良く、その態様は特に限定されない。
なお、本発明は、上記手段の少なくとも一部を備える会話状況分析装置あるいは支援装置として捉えることができる。また、本発明は、上記手段が行う処理の少なくとも一部を実行する会話状況分析方法あるいは支援方法として捉えることもできる。また、本発明は、これらの方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
本発明によれば、複数の話者による発話の関係性を分析できる。
(第1の実施形態)
<システム構成>
本実施形態は、車両内の複数人の会話に対して介入して情報提供や意思決定支援を行う会話介入支援システムである。本実施形態は、複数人特に3人以上の会話に対しても適切な介入を行えるように構成される。
<システム構成>
本実施形態は、車両内の複数人の会話に対して介入して情報提供や意思決定支援を行う会話介入支援システムである。本実施形態は、複数人特に3人以上の会話に対しても適切な介入を行えるように構成される。
図1は本実施形態に係る会話介入支援システムの構成の一例を示す図である。ナビゲーション装置111がマイクを介して取得した乗員の会話音声は、通信装置114を経由してサーバ装置120に送られる。サーバ装置120は、車両110から送信された会話音声を分析して、状況に応じて適切な情報提供や意思決定支援などの介入を行う。サーバ装置120は、会話音声を分析してどのような方針で介入を行うかを決定し、その方針に従った情報をレコメンドシステム121、店舗広告情報DB122、関連情報WEBサイト130から取得する。サーバ装置120は介入指示を車両110に送信し、車両110はナビゲーション装置111のスピーカーやディスプレイを通じて音声再生あるいはテキストや画像の表示を行う。また、車両110は、現在位置を取得するGPS装置112および乗員(話者)の顔や体を撮影するカメラ113も備える。
図2は本実施形態に係る会話介入支援システムの機能ブロック図である。会話介入支援システムは、マイク(音声入力部)201、雑音除去部202、音源分離部(話者分離部)203、会話状況分析部204、音声認識用コーパス・辞書205、語彙意図理解用コーパス・辞書206、グループ状態判定部207、グループモデル定義記憶部208、介入・調停部209、介入ポリシー定義記憶部210、関連情報DB211、出力制御部212、スピーカー(音声出力部)213、ディスプレイ(画像表示部)214を含む。これらの各機能部が行う処理の詳細は、以下でフローチャートともに説明する。
本実施形態では、図2で示す各機能のうち、マイク201による音声入力と、出力制御部212、スピーカー213、ディスプレイ214による介入内容の出力を車両110にて行う。その他の機能は、サーバ装置120で行うように構成する。しかしながら、これらの機能を車両110とサーバ装置120でどのように分担するかは特に限定されない。例えば、車両110で、雑音除去や音源分離などを行ってもよいし、さらに音声認識処理まで行ってもよい。また、サーバ装置120は介入ポリシーの決定までを行い、決定された介入ポリシーに従ってどのような情報を提示するかは車両110で決定してもよい。さ
らには、全ての機能を車両110内で実現しても構わない。
らには、全ての機能を車両110内で実現しても構わない。
なお、ナビゲーション装置111およびサーバ装置120は、いずれも、CPUなどの演算装置、RAMやROMなどの記憶装置、入力装置、出力装置、通信インタフェースなどを備えるコンピュータであり、記憶装置に記憶されたプログラムを演算装置が実行することによって、上記の各機能を実現する。ただし、上記の機能の一部または全部を専用のハードウェアによって実現しても構わない。また、サーバ装置120は、1台の装置である必要はなく、通信回線を介して結合された複数の装置(コンピュータ)から構成されそれぞれの装置間で機能を分担しても構わない。
<全体処理>
図3は、本実施形態に係る会話介入支援システムが行う会話介入支援方法の全体的な流れを示すフローチャートである。図3を参照しながら、会話介入支援方法の全体について説明する。
図3は、本実施形態に係る会話介入支援システムが行う会話介入支援方法の全体的な流れを示すフローチャートである。図3を参照しながら、会話介入支援方法の全体について説明する。
ステップS301において、ナビゲーション装置111が、マイク201を介して車両110内の複数の乗員による会話音声を取得する。本実施形態では、取得された音声に対する以降の処理はサーバ装置120において行われるので、ナビゲーション装置111は取得した会話音声を、通信装置114を介してサーバ装置120へ送信する。なお、使用するマイクの数や配置は特に限定されないが、マイクあるいはマイクアレイを複数用いることが好ましい。
ステップS302において、サーバ装置120は、雑音除去部202と音源分離部203を用いて、会話音声から話者ごとのそれぞれの発話を抽出する。なお、「発話」とは言語を音声として発生すること、およびその結果として発生された音声を意味する。ここでの処理は、雑音除去部202による雑音除去と、音源分離部203による音源分離(話者分離)が含まれる。雑音除去部202は、例えば、雑音発生源近くに配置されたマイクから得られる音声と、その他のマイクから得られる音声との相違から、雑音を特定して除去する。雑音除去部202は、また、複数のマイクに入力される発話の相関を利用して、雑音を除去する。音源分離部203は、複数のマイクに音声が入力される時間差から各話者のマイクに対する方向および距離を検出して、話者を特定する。
ステップS303において、会話状況分析部204が、複数人による会話の状況を分析する。複数人、特に3人以上の会話の状況を分析するためには、それぞれの話者による発話に相関があるか、また、相関がある場合にはどのような関係があるか、などを認識する必要がある。そこで、会話状況分析部204は、同一の会話テーマに関する発話群を一連の発話群として抽出し、さらにその発話群の中での発話間の関係性を把握して、発話間の関係性を考慮して会話の状況や話者間の関係を分析する。会話状況分析部204による具体的な処理内容については、後述する。
ステップS304において、グループ状態判定部207は、会話状況分析部204による会話状況データをもとに、同一の会話に参加している話者グループがどのようなグループであるかあるいはこのグループがどのような状態にあるかを判定する。グループの例として、例えば、「フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループ」、「上下関係があるが、親密度が高く、特定のメンバーがグループの意思決定を主導しているようなグループ」、「上下関係があり、親密度が低く、特定のメンバーがグループの意思決定を主導しているようなグループ」などが挙げられる。また、グループの状態変化の例として、特定のメンバーの発話頻度が低下した、グループ全体の発話頻度が低下した、特定のメンバーの感情が変化した、グループの主導者が変化した、などが挙げられる。グループ状態判定部207による具体的な処理内容について
は後述する。
は後述する。
ステップS305において、介入・調停部209は、グループ状態判定部207によるグループ状態に応じて介入ポリシーを決定し、介入ポリシーと現在の会話の内容にしたがって具体的な介入のタイミングと内容を決定する。例えば、フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループであれば、全員に対してほぼ均等に詳しい参考情報を提示して活発な討議を促すという介入ポリシーを採用することが考えられる。また、例えば、特定の話者あるいはグループ全体の発話頻度が低下した場合には、会話を活発化させるような話題に誘導する介入ポリシーを採用することが考えられる。介入・調停部209は、介入ポリシーを決定したら、現在の話題にしたがって、レコメンドシステム121、店舗広告情報DB122、あるいは関連情報WEBサイト130から提示すべき情報を取得して、介入指示を行う。介入・調停部209による具体的な処理内容については後述する。
ステップS306では、出力制御部212が、介入・調停部209から出力される介入指示に従って、出力すべき合成音声あるいはテキストを生成して、スピーカー213やディスプレイ214において再生する。
以上のようにして、車両110内の複数の話者による会話に対する介入が行える。なお、図3のフローチャートに示す処理は繰り返し実行される。会話介入支援システムは、会話音声を随時取得して、会話状況や話者間の関係やグループ状態を監視し続け、介入が必要と判断した場合に介入を行う。
<会話状況分析処理>
次に、ステップS303における会話状況分析処理の詳細について説明する。図4は、会話状況分析処理の流れを示すフローチャートである。なお、図4に示すフローチャートの処理は図示されたとおりの順序で行う必要はなく、また一部の処理を省略しても構わない。
次に、ステップS303における会話状況分析処理の詳細について説明する。図4は、会話状況分析処理の流れを示すフローチャートである。なお、図4に示すフローチャートの処理は図示されたとおりの順序で行う必要はなく、また一部の処理を省略しても構わない。
ステップS401において、会話状況分析部204は、音源分離された音声データから発話区間を検出し、発話区間ごとに区間IDとタイムスタンプを付加する。なお、発話区間は音声が発話されている1連続の区間である。発話区間の終了は、例えば、1500ミリ秒以上の無発話が生じる前までとする。この処理により、会話音声を、話者ごとおよび発話区間ごとに複数の音声データに分離できる。以下では、1つの発話区間における発話の音声のことを、単に発話とも称する。図5は、ステップS401において分離されたそれぞれの発話を示す。
ステップS402では、会話状況分析部204が、それぞれの発話について発話特徴量(音声特徴量)を算出する。発話特徴量として、発話音量、ピッチ、トーン、持続時間、発話速度(平均モーラ長)が挙げられる。発話音量は、発話の音圧レベルである。トーンは、音の高低や音そのものであり、音の高低は音波の1秒間あたりの振動回数(周波数)によって特定される。ピッチは、知覚される音の高さであり、音の物理的な高さ(基本周波数)によって特定される。平均モーラ長は、1モーラあたりの発話の長さ(時間)として算出される。なお、モーラは拍数である。ここで、発話音量、ピッチ、トーン、発話速度については、発話区間内の平均値、最大値、最小値、変動幅、標準偏差などを求めるとよい。本実施形態ではこれらの発話特徴量を算出するが、ここで例示した発話特徴量の全てを算出しなくてもよいし、ここで例示した以外の発話特徴量を算出してもよい。
ステップS403において、会話状況分析部204は、それぞれの発話についての話者の感情を、発話特徴量の変化から求める。求める感情の例として、満足、不満足、興奮、
怒り、悲しみ、期待、安心、不安などが挙げられる。感情は、例えば、発声の音量、ピッチ、トーンの平常時からの変化に基づいて求めることができる。各話者の平常時の発話特徴量は、これまでに得られた発話特徴量から求めてもよいし、あるいはユーザ情報・利用履歴DB123に格納されている情報を用いてもよい。なお、話者の感情は、発話(音声データ)のみに基づいて決定する必要はない。話者の感情は発話の内容(テキスト)からも求めることができる。また、話者の感情は、例えば、カメラ113から撮影される話者の顔画像から顔特徴量を算出し、顔特徴量の変化に基づいて求めることもできる。
怒り、悲しみ、期待、安心、不安などが挙げられる。感情は、例えば、発声の音量、ピッチ、トーンの平常時からの変化に基づいて求めることができる。各話者の平常時の発話特徴量は、これまでに得られた発話特徴量から求めてもよいし、あるいはユーザ情報・利用履歴DB123に格納されている情報を用いてもよい。なお、話者の感情は、発話(音声データ)のみに基づいて決定する必要はない。話者の感情は発話の内容(テキスト)からも求めることができる。また、話者の感情は、例えば、カメラ113から撮影される話者の顔画像から顔特徴量を算出し、顔特徴量の変化に基づいて求めることもできる。
ステップS404において、会話状況分析部204は、それぞれの発話について、音声認識用コーパス・辞書205を用いた音声認識処理を施して、発話内容をテキスト化する。音声認識処理には既存の技術を適用すればよい。図5に示す発話内容(テキスト)は、ステップS404の処理によって求められる。
ステップS405において、会話状況分析部204は、それぞれの発話の内容(テキスト)から、語彙意図理解用コーパス・辞書206を参照して、発話の意図および話題を推定する。発話の意図は、例えば、話題の切り出し、提案、提案への賛成・反対、意見の集約などを含む。発話の話題は、例えば、発話のジャンル、場所、ものなどを含む。発話のジャンルは、例えば、飲食、旅行、音楽、天候などを含む。話題となっている場所は、例えば、地名、ランドマーク、店舗名、施設名などが含まれる。語彙意図理解用コーパス・辞書206は、「話題を切り出す、提案する、質問する、賛成する、反対する、物事を集約する」といった場合にそれぞれ使われる語彙や、発話のジャンルを特定するための「飲食、旅行、音楽、天候など」に関する語彙や、話題となっている場所を特定するための「地名、ランドマーク、店舗名、施設名など」に関する語彙の辞書を含む。なお、発話意図の推定においては、テキストだけでなく話者の感情を考慮することも好ましい。例えば、発話内容(テキスト)は提案に対する同意を示している場合に、話者の感情を考慮することで、喜んで同意しているのか渋々同意しているのかなどをより詳細な発話意図を推定することができる。
ステップS405の処理の結果、各発話について、「何をどうしたいか」といった話者の意図と、話題となっているジャンルを推定することができる。例えば、図5における発話ID2の「北鎌倉のイタリアンはどぉー」というテキストについては、辞書との照合により、「イタリアン」という語からジャンルが「飲食」であること、「北鎌倉」という語から話題の場所が「鎌倉」であること、「どぉー」という語から発話の意図が「提案」であることが推定できる。
図6は、図5に示すそれぞれの発話に対する、話題となっているジャンル、話題となっている場所、および発話の意図の抽出結果を示す。本実施形態において、意図等を推定した「発話n(S)」は、例えば、以下のような式で示される。
発話n(S)=(Gn,Pn,In)
ここで、nは発話ID(1〜k)であり、発話の発生順に発話IDを付与するとする。Sは話者(A、B、C...)であり、Gn、Pn、Inは、それぞれ、推定された発話のジャンル、話題となっている場所、発話の意図を示す。
発話n(S)=(Gn,Pn,In)
ここで、nは発話ID(1〜k)であり、発話の発生順に発話IDを付与するとする。Sは話者(A、B、C...)であり、Gn、Pn、Inは、それぞれ、推定された発話のジャンル、話題となっている場所、発話の意図を示す。
例えば、話者Aの発話1を語彙意図理解用コーパス・辞書206と照合し、「G1:飲食」、「P1:鎌倉」、「I1:話題の切り出し」とマッチした場合は、次のように示す。
発話1(A)=("飲食","鎌倉","話題の切り出し")
発話1(A)=("飲食","鎌倉","話題の切り出し")
なお、それぞれの発話に対する、話題となっているジャンル、話題の場所、および発話の意図といった情報は、発話の内容(テキスト)以外の情報を考慮して求めることも好ましい。特に、発話の意図は、発話特徴量から求められる話者の感情を考慮して求めることも好ましい。発話内容が提案への賛成を表している場合であっても、発話特徴量から喜んで同意しているのか、渋々同意しているのかを判別できる。また、発話によっては、発話内容(テキスト)から上記の情報を抽出できない場合もある。このような場合には、会話状況分析部204は、時系列で発生している前後の発話意図の抽出結果あるいは発話内容(テキスト)を考慮して、当該発話の意図を推定するとよい。
ステップS406において、会話状況分析部204は、ステップS405にて得られた各発話のジャンルと発話の時系列的な結果を考慮して、同一テーマと推定される発話を抽出し、その結果得られた発話群を一連の会話に含まれる発話群であると特定する。この処理により、1つの会話の開始から終了までに含まれる発話を特定することができる。
会話テーマの同一性判定では、発話のジャンルや話題の場所の類似性が考慮される。例えば、発話ID5は抽出語「魚」からジャンルが「飲食」で、抽出語「海」から話題の場所が「海」であると判定されているが、いずれもジャンルが「飲食」であり、同一の会話テーマを有すると判定できる。また、発話には発話ID1のように「話題の切り出し」を判定する語(「決めよう」)や、発話ID9のように「集約」を判定する語(「決まり」)が含まれている場合があり、それぞれの発話を、同じテーマの会話の開始時あるいは終了時の発話と推定することもできる。また、発話の時間的関係も考慮して、発話のジャンルや話題の場所などが同一であったとしても、発話間の時間間隔が長すぎる場合には異なる会話テーマと判断してもよい。また、発話の中には、意図やジャンルなどを抽出できる語彙を含まない発話もある。このような場合は、時系列的な発話の流れを考慮し、同一の会話の開始と終了の間に発生している同じ話者の発話は同じ会話に含まれるとみなすとよい。
図7は、図6に示した各発話のジャンル、話題の場所、および発話意図から、一連の発話群を特定した結果を示す図である。ここでは、3つの会話が抽出されている。会話1は、「飲食(昼食)」「飲食(料理)」「鎌倉」に関する会話であり、発話ID1,2,3,5,7,9が含まれる。会話2は、「天候」「スポーツ(運動会)」に関する会話であり、発話ID4,6,8が含まれる。なお、「天候」と「スポーツ(運動会)」は異なるジャンルであるが、「天候」に関する発話の直後に「スポーツ(運動会)」に関する発話が連続して発生する場合、それらの発話は「天候」に関する会話に含まれると判断する。会話3は、「音楽」に関する会話であり、発話ID10,11が含まれる。
図5に示す発話は、話者A〜Eの合計5人によって行われているが、全員が同じ会話に参加しているわけではない。ここでは、話者A〜Cの3人が飲食に関する会話1を行っており、話者D,Eが天候に関する会話2を行っている。本実施形態における会話状況分析部204は、各発話のジャンルや、話題となっている場所(もの)や、発話の意図に着目しているので、複数の会話が同時に進行している場合であっても、適切に一連の会話に含まれる発話群を特定できる。
本実施形態において、このようにして特定された一連の「会話m」は、例えば、以下のような式で示される。
会話m(SA,SB,SC… )
={発話1(SA),発話2(SB),発話3(SC)… }
=Tm{(GA,PA,IA),(GB,PB,IB),(GC,PC,IC)… }
ここで、mは会話ID(1〜k)、であり、会話の発生順に会話IDを付与するとする。SA,B,C…は話者(A、B、C...)であり、Tm、Gn、Pn、Inは、それぞれ
、推定された会話のテーマ、発話のジャンル、発話で話題となっている場所、発話の意図を示す。
会話m(SA,SB,SC… )
={発話1(SA),発話2(SB),発話3(SC)… }
=Tm{(GA,PA,IA),(GB,PB,IB),(GC,PC,IC)… }
ここで、mは会話ID(1〜k)、であり、会話の発生順に会話IDを付与するとする。SA,B,C…は話者(A、B、C...)であり、Tm、Gn、Pn、Inは、それぞれ
、推定された会話のテーマ、発話のジャンル、発話で話題となっている場所、発話の意図を示す。
例えば,話者A、B、Cのテーマ「飲食」の発話群が会話1に特定された場合は、次のように示される。
会話1(A,B,C)
=T"食事"{("飲食(昼食)","鎌倉","話題の切り出し"),
("飲食(料理)","鎌倉","提案"),
("飲食(料理)","na","否定/提案")… }
会話1(A,B,C)
=T"食事"{("飲食(昼食)","鎌倉","話題の切り出し"),
("飲食(料理)","鎌倉","提案"),
("飲食(料理)","na","否定/提案")… }
ステップS407において、会話状況分析部204は、上記の分析結果を統合した会話状況データを生成して出力する。例えば、会話状況データは、直近の所定期間(例えば3分間)における同一会話内の発話について、図8に示すような情報を含む。発話が多い話者は、期間内における発話回数と発話時間の両方が所定値以上(例えば、1回と10秒)の話者である。発話が少ない話者は、期間内における発話回数が発話時間の両方が所定値未満の話者である。話者間の平均発話間隔あるいは重なりは、話者ペアごとに発話区間の間の無音期間の時間または発話区間が重なっている時間である。発話音量、トーン、ピッチ、発話速度は、話者別と全話者について求められる。それぞれ、期間内の平均値、最大値、最小値、変動幅、標準偏差のいずれかまたは複数によって表し、特に変動が顕著に測定された場合には該当する発話内容などの情報と結び付けて示す。また、会話状況データは、期間内の各発話について、発話内容のテキスト、会話テーマ、推定話者名、発話の意図、発話の話題(ジャンル、場所、ものなど)、話者の感情も含む。また、会話状況データは、発話間の対応関係や話者間の関係も含む。
図9(A)は、発話間の対応関係と、各発話の会話テーマ・発話の意図・話者の感情を表示した例である。図9(A)では、話者A〜Eについてそれぞれ発話区間が時系列に示されており、発話間の対応関係が矢印で示されている。また、発話ごとに、発話の意図と話者の感情が示されている(利用可能な場合)。例えば、話者Aによる話題の切り出し(発話ID1)に対し、話者Bが提案(発話ID2)を行い、これら両方の発話を受けて話者Cが提案への反対と再提案(発話ID3)をしていることなどが分かる。なお、発話間の対応関係は、必ずしも発話(音声データ)のみに基づいて決定する必要はない。例えば、カメラ113から取得される話者の視線や顔や体の向きから、ある発話が特定のメンバーに対するものであるか否かを判定し、この判定結果を基に発話間の対応関係を求めてもよい。
図9(B)では、話者A〜Eの会話において、どのような発話がどの程度発生していて、当該話者間の上下関係や親密性がどのように推定されるかなどを示している。任意の2人の話者間の発話において、発話の意図や、発話特徴量(発話回数、発話時間、発話の重なり、テンションレベル)、言葉づかい(丁寧度)から、2話者間の親密度や関係性(フラットであるか上下関係があるか)を求めることができる。なお、図9(B)には示していないが、話者間に上下関係などがある場合には、どちらが上位者でありどちらが下位者であるかも求めることができる。
会話状況分析部204は上述のような会話状況データをグループ状態判定部207へ出
力する。会話状況データを用いることで、会話の流れと各発話の特徴量変化を紐付けることが可能となり、会話を行っているグループの状態を適確に推定できる。
力する。会話状況データを用いることで、会話の流れと各発話の特徴量変化を紐付けることが可能となり、会話を行っているグループの状態を適確に推定できる。
<グループ状態判定処理>
次に、図3のステップS304におけるグループ状態判定処理の詳細について説明する。図10は、グループ状態判定処理の流れを示すフローチャートである。
次に、図3のステップS304におけるグループ状態判定処理の詳細について説明する。図10は、グループ状態判定処理の流れを示すフローチャートである。
ステップS1001において、グループ状態判定部207は、会話状況分析部204が出力した会話状況データを取得する。グループ状態判定部207は、この会話状況データに基づく以下の処理によって、グループ種別、各メンバーの役割(関係性)、グループの状態変化などを含むグループ状態を分析する。
ステップS1002において、グループ状態判定部207は、会話における話者間のつながりを判定する。会話状況データには、各発話の話者と、発話間のつながり、発話の意図(提案、賛成、反対など)が含まれる。したがって、会話状況データに基づいて、話者ペアの間の会話の頻度(例えば「話者Aと話者Bは頻繁に直接会話している」、「話者Aと話者Bの間では直接の会話がない」など)や、話者ペアの間でどの程度、提案・賛成・反対の発話がなされているか(「話者Aは話者Bに対して提案をX回、賛成意見をY回、反対意見をZ回述べている」など)を把握することができる。グループ状態判定部207は、グループ内のそれぞれの話者ペアについて、これらの情報を求める。
ステップS1003において、グループ状態判定部207は、メンバー間の意見交換状況を判定する。意見交換状況には、グループ内における意見交換の活発さ、提案に対する賛成と反対の比率、意思決定における主導者の有無などの情報が含まれる。意見交換の活発さは、例えば、提案から最終的な意思決定までの間の発話回数または賛成意見あるいは反対意見の数などによって評価できる。また、意思決定における主導者の有無は、特定の話者の提案に対して反対意見が少なく同意や賛成意見のみが発生しているか否か、特定の話者の提案や意見が高い割合で最終的な意見として採用されるか否か、などによって評価できる。会話状況データには、各発話の話者と、発話間のつながり、発話の意図、発話の内容などが含まれるので、グループ状態判定部207は会話状況データに基づいてこれらの意見交換状況を判定できる。
ステップS1004において、グループ状態判定部207は、会話状況データに含まれる発話特徴量および発話内容の言葉づかいと、ステップS1002において求めた話者間のつながり、ステップS1003において求めた話者間の意見交換状況に基づいて、グループ種別(グループモデル)を推定する。グループ種別はあらかじめ定義されており、例えば図11(A)に示すような、グループ種別A:「フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループ」、グループ種別B:「上下関係があるが、親密度が高く、特定のメンバーがグループの意思決定を主導しているようなグループ」、グループ種別C:「上下関係があり、親密度が低く、特定のメンバーがグループの意思決定を主導しているようなグループ」などが例として挙げられる。グループ種別Aは、親友同士のような全員がフラットに繋がっているグループを想定したものである。グループ種別Aには、主導者(特に意思決定への影響力を持つメンバー)が含まれる場合も含まれない場合もある。グループ種別Bは、家族のような、メンバー間のつながりが強く上下関係を持つグループを想定したものである。グループ種別Bには、主導者(例えば親)がいる。グループ種別Cは、職場の上司と部下のような、比較的ドライなつながりで上下関係を持つグループを想定している。グループ種別Cには、主導者(最上位者)がいる。ここでは例として3つのみ挙げているが、グループ種別の数はいくつであってもよい。
グループモデル定義記憶部208には、それぞれのグループ種別の判定基準が格納される。グループモデル定義記憶部208には、発話特徴量、発話内容の言葉づかい、話者間のつながり、意見交換情報などに基づく、複数個の判定基準が格納される。図11(B)は、発話特徴量に基づく判定基準の例を示す。グループ種別Aは「フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループ」なので、例えば、「全話者が活発に発話している」、「発話が重なる傾向にある」、「各発話のトーンやピッチの変動が大きい」、「発話音量の変動が大きい」、「提案に対して反対意見がある程度発生する」という特徴を有することが多い。そこで、グループモデル定義記憶部208には、発話特徴量に基づくグループ種別Aの判定基準として、例えば、「発話回数が3分間に3回以上または合計20秒以上発話している話者が全体の60%以上である」、「発話の重なりが3分間に3回以上または合計5秒以上」、「各話者のトーン、ピッチまたは音圧レベルの変動幅が所定の閾値以上」などの判定基準を含む。グループ状態判定部207は、現在のグループがこれらの判定基準をどの程度満たすかを評価し、現在のグループがグループ種別Aである確からしさを示す評価値を求める。その他のグループ種別B,Cについても同様に評価値が求められる。
グループ状態判定部207は、ここで求めた評価値のみを用いて、すなわち発話特徴量のみに基づいてグループの種別を判定してもよいが、判定精度をより向上させるためにその他の要素も考慮してグループ種別を判定する。
グループ状態判定部207は、例えば、会話における発話内容(テキスト)を解析し、各話者の発話に含まれる命令語、敬語・丁寧語・謙譲語、くだけた語(親しい間柄で使う言葉)、子供が使う語、子供に対して使う語などをどの程度の頻度で現れるかを取得する。これにより、会話における各話者の言葉づかいが分かる。グループ状態判定部207は、言葉づかいも考慮してグループ種別を推定する。例えば、「グループ内に命令調で話す人がいて、それに対して敬語・丁寧語・謙譲語で返答する人がいる」場合は、グループ種別Cである可能性が高いと判断できる。また、「グループ内に命令調で話す人がいるが、それに対してくだけた言葉で返答する人がいる」場合は、グループ種別Aの可能性が高いと判断できる。また、「グループ内のほとんど話者がくだけた言葉を多く使う」場合は、グループ種別AまたはBの可能性が高いと判断できる。また、「グループ内に親(大人)が子供に対して使う言葉づかいで話す人と、子供が使う言葉づかいで話す人がいる」場合には、グループ種別Bの可能性が高いと判断できる。ここで挙げた例は一例であり、グループ種別と言葉づかいの関連性があらかじめ定義されていれば、グループ状態判定部207は、現在のグループがどのグループ種別に該当するか可能性が高いかを判定できる。
また、グループ状態判定部207は、会話における意見交換状況からもグループ種別を判断できる。例えば、グループ内において意見交換が活発な場合や、提案に対して拒否や反対意見が比較的多く発生している場合は、グループ種別AまたはBの可能性が高いと判断できる。また、グループ内において意見交換が活発でない場合や、グループ内に主導者が存在する場合は、グループ種別Cの可能性が高いと判断できる。ここで挙げた例は一例であり、グループ種別と意見交換状況の関連性があらかじめ定義されていれば、グループ状態判定部207は、現在のグループがどのグループ種別に該当するか可能性が高いかを判定できる。
グループ状態判定部207は、上記のように、発話特徴量、言葉づかい、意見交換状況、話者間のつながりに基づいて推定されるグループ種別を統合して、最も良く合致するグループ種別を、現在のグループの種別として決定する。
ステップS1005において、グループ状態判定部207は、ステップS1002,S1003などの解析結果やその他の会話状況データを用いて、グループにおける各メンバ
ーの役割を推定する。グループにおける役割として、意思決定における主導者、主導者に対する追従者が挙げられる。また、役割として、上位者、下位者、親、子、などを推定してもよい。メンバーの役割推定において、ステップS1004において決定したグループ種別を考慮することも好ましい。
ーの役割を推定する。グループにおける役割として、意思決定における主導者、主導者に対する追従者が挙げられる。また、役割として、上位者、下位者、親、子、などを推定してもよい。メンバーの役割推定において、ステップS1004において決定したグループ種別を考慮することも好ましい。
ステップS1006において、グループ状態判定部207は、グループの状態変化を推定する。グループの状態には、発話の頻度、会話への参加者、会話における主導者が誰であるかなどが含まれる。ステップS1006において推定される状態変化は、例えば、特定話者の発話頻度の低下、全体的な発話頻度の低下、会話グループの分離、主導者の変化などが挙げられる。
ステップS1007において、グループ状態判定部207は、ステップS1004において推定したグループ種別、ステップS1005において推定した各メンバーの役割、およびステップS1006に推定したグループの状態変化をまとめてグループ状態データとして、介入・調停部209へ出力する。介入・調停部209は、グループ状態データを参照することで、会話中のグループがどのような状態であるのかを把握でき、それにしたがった適切な介入が行える。
<介入/調停処理>
次に、図3のステップS305における介入内容決定処理の詳細について説明する。図12は、介入内容決定処理の流れを示すフローチャートである。
次に、図3のステップS305における介入内容決定処理の詳細について説明する。図12は、介入内容決定処理の流れを示すフローチャートである。
ステップS1201において、介入・調停部209は、会話状況分析部204が出力した会話状況データとグループ状態判定部207が出力したグループ状態データを取得する。介入・調停部209は、これらのデータに基づく以下の処理によって、介入や調停を行う際に提示する情報の内容を決定する。
ステップS1202において、介入・調停部209は、グループ状態データに含まれるグループ種別やグループ状態変化に応じた介入ポリシーを、介入ポリシー定義記憶部210から取得する。介入ポリシーとは、グループ状態に応じて、グループ内のどのメンバーを優先的に支援するか、また、どのように支援するかを表す情報である。介入ポリシー定義記憶部210に定義される介入ポリシーの例を、図13(A)(B)に示す。
図13(A)は、グループ種別に応じた介入ポリシーの例である。例えば、フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループ種別Aに対する介入ポリシーの一例として、メンバー間で討議して決められるように促すために、「メンバー全員に対して、選択要素(例えば、食事場所を決める場合は、その候補となる店舗など)に関する情報を提示する」というポリシーが定義される。また、上下関係があるが、親密度が高く、特定のメンバーがグループの意思決定を主導しているようなグループ種別Bに対する介入ポリシーの一例として、意見の表明ができないような弱い立場にあるメンバーの意見を引き出して採用されるように促すために、「ファシリティター的なメンバーに対して、いずれのメンバーの意見を引き出すのが好ましいかという情報と、選択要素に関する情報を提示し、該当メンバーから意見を引き出し、その意見が採用されるように支援する」というポリシーが定義される。また、上下関係があり、親密度が低く、特定のメンバーがグループの意思決定を主導しているようなグループ種別Cに対する介入ポリシーの一例として、特定のメンバーの意見ばかりが採用されないように支援するために、「1番目の意思決定事項では上位メンバーの意見を優先扱いするが、2番目以降では、ファシリティター的なメンバーに対して、いずれのメンバーの意見を引き出すのが好ましいかという情報と、選択要素に関する情報を提示し、順次、該当メンバーから意見を引き出し、その意見が採用されるように支援する」というポリシーが定義される。なお
、これらのポリシーにおけるファシリティター的なメンバーとは、特に意見の表明ができないような弱い立場にあるメンバーに寄り添って、該当メンバーの意見を引き出し、該当意見が採用されるように支援できるような人を意図する。また、図13(A)では、グループ種別ごとに1つの介入ポリシーが定義されるように記載しているが、グループ種別ごとに複数の介入ポリシーが定義されてもよい。
、これらのポリシーにおけるファシリティター的なメンバーとは、特に意見の表明ができないような弱い立場にあるメンバーに寄り添って、該当メンバーの意見を引き出し、該当意見が採用されるように支援できるような人を意図する。また、図13(A)では、グループ種別ごとに1つの介入ポリシーが定義されるように記載しているが、グループ種別ごとに複数の介入ポリシーが定義されてもよい。
図13(B)は、グループの状態変化に応じた介入ポリシーの例である。例えば、特定話者の発話停滞(発話頻度の低下)が発生している場合は、それが話題の変化に伴って発生していれば、停滞前の話題に関連する情報を提示する。また、全体的な発話の停滞が発生している場合には、停滞前の話題に関連する情報を提示する。また、グループが2つのサブグループに分離してそれぞれが異なる会話をしている場合には、いずれかのサブグループでの話題に関連する情報を、他のグループの人にも興味を持ってもらえるように提示する。また、主導者が変化した場合には、新しい主導者が話題を先導できるように情報提供を行う。なお、図13(B)では、グループの状態変化ごとに1つの介入ポリシーが定義されているように記載しているが、状態変化ごとに複数の介入ポリシーが定義されてもよい。
上記のような介入ポリシーは、グループの種別やグループの状態変化に応じて、グループ内の各メンバーに対する介入の優先度と、どのような介入を行うかを定義した情報といえる。ここで、介入の優先度の設定は、メンバー個人に対して行われるというよりは、グループ内における役割(主導者など)を有するメンバーに対して設定されたり、特定の条件(発話頻度低下)を満たすメンバーに対して設定されたりする。ただし、全ての介入ポリシーが介入優先度を含んでいる必要はない。
ステップS1203において、介入・調停部209は、ステップS1202において取得された介入ポリシーに基づいて介入対象メンバーと介入方法を決定する。例えば、介入・調停部209は、主導者に対してその他のメンバーの嗜好にあった情報を提供するように決定したり、発話が停滞した話者が好む話題に関連する情報を提供するように決定したりする。なお、ステップS1203では、現時点では介入を行わないという決定がされることもある。ステップS1203の決定は、介入ポリシーのみに基づいて行う必要はなく、会話状況データなどその他の情報に基づいて行うことも好ましい。例えば、会話状況データに含まれる発話の意図などからグループ内で意思決定のための意見交換がされていると判断した場合に、意思決定を支援する介入ポリシーに基づいて介入対象と介入方法を決定するとよい。
ステップS1204において、介入・調停部209は、介入対象メンバーおよび介入方法に応じた提示情報を生成・取得する。例えば、主導者に対してその他のメンバーの嗜好にあった情報を提供する場合には、まず、他のメンバーの嗜好を、それまでの会話テーマおよび当該メンバーの感情(興奮度など)に基づいて取得したり、あるいはユーザ情報DB123から取得したりして決定する。昼食の場所についての会話をしているときに、当該メンバーがイタリアン料理を好む場合には、イタリアン料理店についての情報を関連情報WEBサイト130などから取得する。この際、車両110のGPS装置112から得られる位置情報も考慮して提示する店舗を絞り込むとよい。
ステップS1205において、介入・調停部209は、ステップS1204にて生成・取得した提示情報を含む介入指示データを生成して、出力する。本実施形態では、サーバ装置120から車両110のナビゲーション装置111に対して、介入指示データが送信される。ナビゲーション装置111の出力制御部212は、介入指示データに基づいて、合成音声や表示テキストを生成して、スピーカー213やディスプレイ214から情報の提示を行う(S306)。
上記で説明した一連の会話介入支援処理(図3)は繰り返し実行される。発話に対して適切なタイミングで介入が行えるように、繰り返し間隔は短いことが好ましい。ただし、繰り返し処理において全ての処理を毎回行う必要はない。例えば、会話状況分析S303やグループ状態判定S304はある程度の間隔(例えば3分)を空けて行うようにしてもよい。また、グループ状態の判定においても、グループ種別の判定とグループの状態変化の判定を異なる実行間隔で行ってもよい。
<本実施形態の有利な効果>
本実施形態においては、会話状況分析部204が、複数の話者によって行われる会話において、同一の会話テーマからなる発話群を特定し、さらに各発話間の関係があるかどうか、さらに関係がある場合にどのような関係があるかなどを把握できる。さらに、同一の会話における話者間の発話の間隔や重なり度合いから、会話状況が推定できる。本実施形態による会話状況の解析手法では、多数の話者が異なるグループに分かれて同時に会話を行っている場合であっても、それぞれの会話についての状況を把握することができる。
本実施形態においては、会話状況分析部204が、複数の話者によって行われる会話において、同一の会話テーマからなる発話群を特定し、さらに各発話間の関係があるかどうか、さらに関係がある場合にどのような関係があるかなどを把握できる。さらに、同一の会話における話者間の発話の間隔や重なり度合いから、会話状況が推定できる。本実施形態による会話状況の解析手法では、多数の話者が異なるグループに分かれて同時に会話を行っている場合であっても、それぞれの会話についての状況を把握することができる。
また、本実施形態では、グループ状態判定部207が、会話状況データなどに基づいて、会話を行っているグループの種別や状態変化、あるいはグループ内の各話者の役割や互いの関係性などを把握することができる。このような把握ができることによって、システムが会話に介入する際に、どの話者をより優先的に支援するかを決定したり、グループの状態に応じた適切な介入が行えたりする。
<変形例>
上記の説明では、会話介入支援システムを、車両とサーバ装置とが連携するテレマティクスサービスとして構成する例を示したが、具体的なシステムの形態はこれに限られない。例えば、会議室などの室内における会話を取得して、この会話に介入するシステムとして構成することができる。
上記の説明では、会話介入支援システムを、車両とサーバ装置とが連携するテレマティクスサービスとして構成する例を示したが、具体的なシステムの形態はこれに限られない。例えば、会議室などの室内における会話を取得して、この会話に介入するシステムとして構成することができる。
201:マイク 202:雑音除去部 203:音源分離部 204:会話状況分析部 205:音声認識用コーパス・辞書 206:語彙意図理解用コーパス・辞書
207:グループ状態判定部 208グループモデル定義記憶部 209:介入・調停部 210:介入ポリシー定義記憶部 211:関連情報データベース 212:出力制御部 213:スピーカー 214:ディスプレイ
207:グループ状態判定部 208グループモデル定義記憶部 209:介入・調停部 210:介入ポリシー定義記憶部 211:関連情報データベース 212:出力制御部 213:スピーカー 214:ディスプレイ
Claims (11)
- 複数の話者による会話の状況を分析する会話状況分析装置であって、
複数の話者による会話音声を取得する取得手段と、
前記会話音声を、話者ごとおよび発話区間ごとの複数の発話に分離する分離手段と、
前記複数の発話のそれぞれについて、音声認識処理を用いて発話内容の認識する認識手段と、
発話内容に基づいて発話間の関係性を分析する分析手段であって、発話ごとの内容に基づいて、同一の会話テーマと推定される発話を一連の発話群であると特定する分析手段と、
を備える、会話状況分析装置。 - 前記認識手段は、音声認識処理により得られる発話のテキストを辞書と照合することにより前記発話内容を認識し、
前記分析手段は、前記認識手段によって認識される発話内容のテキストと辞書を照合することにより、発話の意図と話題を求め、当該発話の意図および話題に基づいて当該発話の会話テーマを推定する、
請求項1に記載の会話状況分析装置。 - 前記複数の発話のそれぞれについて、音声特徴量を算出する特徴量算出手段をさらに備え、
前記分析手段は、各話者について音声特徴量の変化に基づいてそれぞれの発話時における話者の感情を推定し、当該感情も考慮して前記発話の意図を推定する、
請求項2に記載の会話状況分析装置。 - 前記分析手段は、発話の意図に基づいて、前記一連の発話群における発話間の対応関係を取得する、
請求項2または3に記載の会話状況分析装置。 - 話者を撮影する撮像手段をさらに有し、
前記分析手段は、前記撮像手段が撮影した画像における話者の体、顔、または視線の向きを考慮して、前記一連の発話群における発話間の対応関係を取得する、
請求項4に記載の会話状況分析装置。 - 話者を撮影する撮像手段をさらに有し、
前記分析手段は、前記撮像手段が撮影した画像における話者の顔画像から算出される顔特徴量の変化に応じて話者の感情を推定し、当該感情も考慮して発話間の関係性を分析する、
請求項1から5のいずれか1項に記載の会話状況分析装置。 - 前記分析手段は、発話間の関係性と、発話の内容、発話の特徴量、発話時の話者の感情の少なくともいずれかに基づいて、話者間の関係を求める、
請求項1から6のいずれか1項に記載の会話状況分析装置。 - 前記一連の発話群に関するデータである会話状況データを出力する出力手段を、さらに備える、
請求項1から7のいずれか1項に記載の会話状況分析装置。 - 前記会話状況データは、各発話の話者、発話間の対応関係、各発話の意味と意図、各発話時の話者の感情、発話群における各話者の発話頻度、各発話における音声特徴量、話者
間の関係、の少なくともいずれかを含む、
請求項8に記載の会話状況分析装置。 - 複数の話者による会話に介入して支援を行う支援装置であって、
請求項8または9に記載の会話状況分析装置と、
前記会話状況分析装置から出力される会話状況データに基づいて、一連の発話群に参加している複数の話者からなるグループの状態を判定するグループ状態判定手段と、
前記グループの状態に基づいて前記会話への介入の内容を決定し、前記会話へ介入を行う介入手段と、
を備える、支援装置。 - 複数の話者による会話の状況を分析する会話状況分析方法であって、コンピュータが、
複数の話者による会話音声を取得する取得ステップと、
前記会話音声を、話者ごとおよび発話区間ごとの複数の発話に分離する分離ステップと、
前記複数の発話のそれぞれについて、音声認識処理を用いて発話内容の認識する認識ステップと、
発話内容に基づいて発話間の関係性を分析する分析ステップであって、発話ごとの内容に基づいて、同一の会話テーマと推定される発話を一連の発話群であると特定する分析ステップと、
を実行する、会話状況分析方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015125631A JP2017009825A (ja) | 2015-06-23 | 2015-06-23 | 会話状況分析装置および会話状況分析方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015125631A JP2017009825A (ja) | 2015-06-23 | 2015-06-23 | 会話状況分析装置および会話状況分析方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2017009825A true JP2017009825A (ja) | 2017-01-12 |
Family
ID=57763453
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2015125631A Pending JP2017009825A (ja) | 2015-06-23 | 2015-06-23 | 会話状況分析装置および会話状況分析方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2017009825A (ja) |
Cited By (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101984283B1 (ko) * | 2017-11-22 | 2019-05-30 | 주식회사 제네시스랩 | 기계학습모델을 이용한 자동화된 피평가자분석 시스템, 방법, 및 컴퓨터 판독가능매체 |
| KR20190074012A (ko) * | 2017-12-19 | 2019-06-27 | 삼성전자주식회사 | 복수 화자의 음성 신호 처리 방법 및 그에 따른 전자 장치 |
| KR20190079253A (ko) * | 2017-12-27 | 2019-07-05 | 한국항공대학교산학협력단 | 대화형 인공지능을 위한 다중 에이전트 시스템 |
| WO2019139101A1 (ja) * | 2018-01-12 | 2019-07-18 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
| WO2019202804A1 (ja) * | 2018-04-19 | 2019-10-24 | ソニー株式会社 | 音声処理装置および音声処理方法 |
| WO2019239813A1 (ja) * | 2018-06-14 | 2019-12-19 | パナソニックIpマネジメント株式会社 | 情報処理方法、情報処理プログラム及び情報処理システム |
| KR20190140805A (ko) * | 2018-05-29 | 2019-12-20 | 주식회사 제네시스랩 | 기계학습에 기초한 비언어적 평가 방법, 시스템 및 컴퓨터-판독가능 매체 |
| CN110660397A (zh) * | 2018-06-12 | 2020-01-07 | 现代自动车株式会社 | 对话系统、车辆和用于控制车辆的方法 |
| JP2020034750A (ja) * | 2018-08-30 | 2020-03-05 | 株式会社第一興商 | カラオケ装置 |
| KR20200057516A (ko) * | 2018-11-16 | 2020-05-26 | 현대자동차주식회사 | 음성명령 처리 시스템 및 방법 |
| CN112585674A (zh) * | 2018-08-31 | 2021-03-30 | 三菱电机株式会社 | 信息处理装置、信息处理方法和程序 |
| KR20220114378A (ko) * | 2021-02-08 | 2022-08-17 | 네이버 주식회사 | 텍스트 기반의 화자변경검출을 활용한 화자분할 보정 방법 및 시스템 |
| JP2023057804A (ja) * | 2021-10-12 | 2023-04-24 | パイオニア株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
| JPWO2023079602A1 (ja) * | 2021-11-02 | 2023-05-11 | ||
| JP2024006061A (ja) * | 2022-06-30 | 2024-01-17 | パナソニックIpマネジメント株式会社 | コミュニケーション測定システム、コミュニケーション測定方法及びプログラム |
| KR102768071B1 (ko) * | 2024-04-18 | 2025-02-19 | 주식회사 리턴제로 | 발화 텍스트에 대한 실제 발화자 표시 동작 수행을 위한 전자 장치 및 그의 처리 방법 |
-
2015
- 2015-06-23 JP JP2015125631A patent/JP2017009825A/ja active Pending
Cited By (34)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101984283B1 (ko) * | 2017-11-22 | 2019-05-30 | 주식회사 제네시스랩 | 기계학습모델을 이용한 자동화된 피평가자분석 시스템, 방법, 및 컴퓨터 판독가능매체 |
| US12118996B2 (en) | 2017-12-19 | 2024-10-15 | Samsung Electronics Co., Ltd. | Method for processing voice signals of multiple speakers, and electronic device according thereto |
| KR20190074012A (ko) * | 2017-12-19 | 2019-06-27 | 삼성전자주식회사 | 복수 화자의 음성 신호 처리 방법 및 그에 따른 전자 장치 |
| WO2019124742A1 (ko) * | 2017-12-19 | 2019-06-27 | 삼성전자 주식회사 | 복수 화자의 음성 신호 처리 방법 및 그에 따른 전자 장치 |
| US11495222B2 (en) | 2017-12-19 | 2022-11-08 | Samsung Electronics Co., Ltd. | Method for processing voice signals of multiple speakers, and electronic device according thereto |
| KR102528466B1 (ko) * | 2017-12-19 | 2023-05-03 | 삼성전자주식회사 | 복수 화자의 음성 신호 처리 방법 및 그에 따른 전자 장치 |
| KR102051384B1 (ko) * | 2017-12-27 | 2019-12-03 | 한국항공대학교산학협력단 | 대화형 인공지능을 위한 다중 에이전트 시스템 |
| KR20190079253A (ko) * | 2017-12-27 | 2019-07-05 | 한국항공대학교산학협력단 | 대화형 인공지능을 위한 다중 에이전트 시스템 |
| JPWO2019139101A1 (ja) * | 2018-01-12 | 2021-01-28 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
| US11837233B2 (en) | 2018-01-12 | 2023-12-05 | Sony Corporation | Information processing device to automatically detect a conversation |
| JP7276158B2 (ja) | 2018-01-12 | 2023-05-18 | ソニーグループ株式会社 | 情報処理装置、情報処理方法およびプログラム |
| WO2019139101A1 (ja) * | 2018-01-12 | 2019-07-18 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
| EP3739573A4 (en) * | 2018-01-12 | 2021-01-13 | Sony Corporation | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM |
| WO2019202804A1 (ja) * | 2018-04-19 | 2019-10-24 | ソニー株式会社 | 音声処理装置および音声処理方法 |
| KR20190140805A (ko) * | 2018-05-29 | 2019-12-20 | 주식회사 제네시스랩 | 기계학습에 기초한 비언어적 평가 방법, 시스템 및 컴퓨터-판독가능 매체 |
| KR102268496B1 (ko) * | 2018-05-29 | 2021-06-23 | 주식회사 제네시스랩 | 기계학습에 기초한 비언어적 평가 방법, 시스템 및 컴퓨터-판독가능 매체 |
| CN110660397A (zh) * | 2018-06-12 | 2020-01-07 | 现代自动车株式会社 | 对话系统、车辆和用于控制车辆的方法 |
| CN110660397B (zh) * | 2018-06-12 | 2024-05-07 | 现代自动车株式会社 | 对话系统、车辆和用于控制车辆的方法 |
| WO2019239813A1 (ja) * | 2018-06-14 | 2019-12-19 | パナソニックIpマネジメント株式会社 | 情報処理方法、情報処理プログラム及び情報処理システム |
| JPWO2019239813A1 (ja) * | 2018-06-14 | 2021-06-24 | パナソニックIpマネジメント株式会社 | 情報処理方法、情報処理プログラム及び情報処理システム |
| CN111742376B (zh) * | 2018-06-14 | 2024-06-25 | 松下知识产权经营株式会社 | 信息处理方法、信息处理程序以及信息处理系统 |
| CN111742376A (zh) * | 2018-06-14 | 2020-10-02 | 松下知识产权经营株式会社 | 信息处理方法、信息处理程序以及信息处理系统 |
| JP7296559B2 (ja) | 2018-06-14 | 2023-06-23 | パナソニックIpマネジメント株式会社 | 情報処理方法、情報処理プログラム及び情報処理システム |
| JP2020034750A (ja) * | 2018-08-30 | 2020-03-05 | 株式会社第一興商 | カラオケ装置 |
| JP7082549B2 (ja) | 2018-08-30 | 2022-06-08 | 株式会社第一興商 | カラオケ装置 |
| CN112585674A (zh) * | 2018-08-31 | 2021-03-30 | 三菱电机株式会社 | 信息处理装置、信息处理方法和程序 |
| KR20200057516A (ko) * | 2018-11-16 | 2020-05-26 | 현대자동차주식회사 | 음성명령 처리 시스템 및 방법 |
| KR102778245B1 (ko) * | 2018-11-16 | 2025-03-11 | 현대자동차주식회사 | 음성명령 처리 시스템 및 방법 |
| KR20220114378A (ko) * | 2021-02-08 | 2022-08-17 | 네이버 주식회사 | 텍스트 기반의 화자변경검출을 활용한 화자분할 보정 방법 및 시스템 |
| KR102577346B1 (ko) | 2021-02-08 | 2023-09-12 | 네이버 주식회사 | 텍스트 기반의 화자변경검출을 활용한 화자분할 보정 방법 및 시스템 |
| JP2023057804A (ja) * | 2021-10-12 | 2023-04-24 | パイオニア株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
| JPWO2023079602A1 (ja) * | 2021-11-02 | 2023-05-11 | ||
| JP2024006061A (ja) * | 2022-06-30 | 2024-01-17 | パナソニックIpマネジメント株式会社 | コミュニケーション測定システム、コミュニケーション測定方法及びプログラム |
| KR102768071B1 (ko) * | 2024-04-18 | 2025-02-19 | 주식회사 리턴제로 | 발화 텍스트에 대한 실제 발화자 표시 동작 수행을 위한 전자 장치 및 그의 처리 방법 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2017009826A (ja) | グループ状態判定装置およびグループ状態判定方法 | |
| JP2017009825A (ja) | 会話状況分析装置および会話状況分析方法 | |
| JP6755304B2 (ja) | 情報処理装置 | |
| US10706873B2 (en) | Real-time speaker state analytics platform | |
| US10592997B2 (en) | Decision making support device and decision making support method | |
| JP7192222B2 (ja) | 発話システム | |
| US20180342250A1 (en) | Automatic speaker identification in calls | |
| US20180342251A1 (en) | Automatic speaker identification in calls using multiple speaker-identification parameters | |
| TW201935272A (zh) | 基於多模態情緒與臉部屬性識別的人機交互方法、系統 | |
| JP2017215468A (ja) | 音声対話装置および音声対話方法 | |
| JP2018169506A (ja) | 会話満足度推定装置、音声処理装置および会話満足度推定方法 | |
| CN105704425A (zh) | 会议系统和用于控制会议系统的方法 | |
| JP6594577B1 (ja) | 評価システム、評価方法、及びコンピュータプログラム。 | |
| JP2018169494A (ja) | 発話意図推定装置および発話意図推定方法 | |
| CN115088033A (zh) | 代表对话中的人参与者生成的合成语音音频数据 | |
| JP7364348B2 (ja) | サービス提供装置、サービス提供システム、および、サービス提供方法 | |
| JP2018171683A (ja) | ロボットの制御プログラム、ロボット装置、及びロボットの制御方法 | |
| JP2018169843A (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
| JP2020160425A (ja) | 評価システム、評価方法、及びコンピュータプログラム。 | |
| US10872615B1 (en) | ASR-enhanced speech compression/archiving | |
| JP2021111239A (ja) | 提供システム、提供方法、提供装置、及びコンピュータプログラム | |
| Johar | Paralinguistic profiling using speech recognition | |
| US20220180871A1 (en) | Information processing device, information processing method, and program | |
| Chen et al. | Inference of conversation partners by cooperative acoustic sensing in smartphone networks | |
| JP7162783B2 (ja) | 情報処理装置、推定方法、及び推定プログラム |