JP6238246B2

JP6238246B2 - 会話処理装置、および会話処理方法

Info

Publication number: JP6238246B2
Application number: JP2015084130A
Authority: JP
Inventors: 武志水本; 一博中臺; 健太宇都宮
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2015-04-16
Filing date: 2015-04-16
Publication date: 2017-11-29
Anticipated expiration: 2035-04-16
Also published as: JP2016206261A; US10013982B2; US20160307570A1

Description

本発明は、会話処理装置、および会話処理方法に関する。

音声会議において、複数のマイクロフォンを用いて会議の複数の話者の音声を収音し、収音した音声に対して音源分離処理を行うことで、各話者の発話内容を記録する装置が提案されている（例えば、特許文献１参照）。

また、仕事、授業、または就職採用時の面接等に行われるグループディスカッションでは、会議を盛り上げ、議論を前に進めることが求められている。そして、グループディスカッションでは、会議を盛り上げた中心人物が誰であるかを特定することが求められている。

特開２００７−２９５１０４号公報

しかしながら、特許文献１に記載の技術では、会議の盛り上がり度合いを測定することができなかった。

本発明は上記の点に鑑みてなされたものであり、会議の盛り上がり度合いを測定することができる会話処理装置、および会話処理方法を提供することを目的とする。

（１）上記目的を達成するため、本発明の一態様に係る会話処理装置は、複数の話者の音声信号を収音する収音部と、前記収音部によって収音された各話者の音声信号を記録する会話記録部と、前記会話記録部に記録された音声信号から、任意の２人の話者間の会話を解析して前記２人の話者間の会話における盛り上がり度合いを算出し、前記任意の２人の話者間の会話における音声信号について、１回に発話された音声信号の長さに基づいて音量を正規化する会話分析部と、を備える。

（２）また、本発明の一態様に係る会話処理装置において、前記会話分析部は、次式を用いて前記音量を正規化する、

（ただし、ｆ _ｍ（ｔ）は会話盛り上がり度に他方の話者が与えた影響を示す関数であり、ｍは１または２であり、ｔは時刻を表し、ｖは正規化された音量の値であり、ｔ _ｉは発話開始時刻であり、αは発話開始時刻ｔｌからの経過時間に応じた発話ｌの寄与の低下を表す減衰定数である）ようにしてもよい。
（３）また、本発明の一態様に係る会話処理装置において、前記盛り上がり度合いは、前記任意の２人の話者それぞれが時系列で会話に与えた影響に基づくようにしてもよい。
（４）また、本発明の一態様に係る会話処理装置において、前記会話分析部は、前記任意の２人の話者の前記盛り上がり度合いを、熱方程式を用いて算出するようにしてもよい。

（５）また、本発明の一態様に係る会話処理装置において、前記会話分析部は、前記複数の話者に対して、前記任意の２人の話者の全てのペアを選択し、選択した前記ペア毎に前記盛り上がり度合いを算出し、算出した前記ペア毎の前記盛り上がり度合いをエッジに対する重みに用いて、ノートとエッジとで構成される重み付き完全グラフを生成し、生成した前記重み付き完全グラフに基づいて、会話の中心人物を推定するようにしてもよい。

（６）また、本発明の一態様に係る会話処理装置において、前記会話分析部は、前記任意の２人の話者の前記盛り上がり度合いを、所定の時刻毎に算出するようにしてもよい。
（７）また、本発明の一態様に係る会話処理装置において、前記会話分析部は、前記任意の２人の話者の前記盛り上がり度合いが、所定の閾値より大きい場合に前記会話が活性化されていたと判別するようにしてもよい。

（８）また、本発明の一態様に係る会話処理装置は、前記収音部によって収音された音声信号を用いて音源位置を定位する音源定位部と、前記音源定位部によって定位された結果に基づいて音源分離を行う音源分離部と、を備え、前記会話記録部は、前記音源分離部によって分離された各話者の音声信号を記録するようにしてもよい。

（９）上記目的を達成するため、本発明の一態様に係る会話処理方法は、収音部が、複数の話者の音声信号を収音する収音手順と、会話記録部が、前記収音手順によって収音された各話者の音声信号を記録する会話記録手順と、会話分析部が、前記会話記録手順によって記録された音声信号から、任意の２人の話者間の会話を解析して前記２人の話者間の会話における盛り上がり度合いを算出し、前記任意の２人の話者間の会話における音声信号について、１回に発話された音声信号の長さに基づいて音量を正規化する会話分析手順と、を含む。
（１０）また、本発明の一態様に係る会話処理方法は、前記会話分析部が、前記会話分析手順において次式を用いて前記音量を正規化する、

（ただし、ｆ _ｍ（ｔ）は会話盛り上がり度に他方の話者が与えた影響を示す関数であり、ｍは１または２であり、ｔは時刻を表し、ｖは正規化された音量の値であり、ｔ _ｉは発話開始時刻であり、αは発話開始時刻ｔｌからの経過時間に応じた発話ｌの寄与の低下を表す減衰定数である）ようにしてもよい。

上述した（１）、（２）、（９）、（１０）の構成によれば、任意の２人の音声信号を用いて、話者間の盛り上がり度を測定することができる。
上述した（３）、（４）の構成によれば、抽出された２人の話者が発話したとき、それぞれの発話が時系列で注入される熱伝搬モデルにおいて熱方程式を解くことで盛り上がり度を算出することができる。
上述した（５）の構成によれば、重み付き完全グラフを用いて、会話の中心人物を推定することができる。

上述した（１）、（９）の構成によれば、選択された２人の話者間の音量が異なっていた場合であっても、正規化することで、音量差の影響を低減することができる。また、（１）、（９）の構成によれば、１人の話者の発話時間を考慮して音量を正規化することで、１人の話者の発話が長くなった場合であっても、盛り上がり度を適切に算出することができる。
上述した（６）の構成によれば、所定の時刻毎に盛り上がり度を算出できるので、会議における盛り上がり度の時間変化を提供することができる。
上述した（７）の構成によれば、会議が盛り上がっていたか否かを判別することができる。
上述した（８）の構成によれば、例えばマイクロフォンアレイによって収音された音声信号を、音源分離部によって音源分離を行って、分離された音声信号のうちの任意の２人の音声信号を用いて、話者間の盛り上がり度を測定することができる。

実施形態に係る話者が２人の場合の盛り上がり度モデルを表す図である。実施形態に係る正規化で用いられるパレート分布の例を説明する図である。実施形態に係る話者ＡとＢとの会話における盛り上がり度ｈ_ＡＢの時間変化の例を表す図である。実施形態に係る話者が３人の場合の重み付き完全グラフを表す図である。実施形態に係る話者ＡとＢとＣの会話における盛り上がり度ｈ_ＡＢ、ｈ_ＢＣ、ｈ_ＡＣおよび３つの盛り上がり度の平均ｈ￣の時間変化の例を表す図である。実施形態に係る会話処理装置の構成を示すブロック図である。実施形態に係る会話記録部に記録されている情報の一例を示す図である。実施形態に係る会話処理装置が行う処理の一例を表すフローチャートである。実施形態に係る会話拡散率Ｄの値を変えた場合の盛り上がり度ｈ_ｘｙ（ｔ）の時間変化の一例を表す図である。実施形態に係る３人の話者の会話について寄与度算出部が推定した推定結果の一例を表す図である。

＜発明の概要＞
発明の概要について説明する。
複数の話者が参加している会議において、会話処理装置１（図６参照）は、各話者の発話を音源分離させて記録する。会話処理装置１は、記録された音声から、任意の２人の会話を逐次選択する。例えば、会議の参加者がＡとＢの２名の場合、選択されるペアの組み合わせは、ＡＢ（＝ＢＡ）の１通りである。参加者がＡとＢとＣの３名の場合、選択されるペアの組み合わせは、ＡＢ（＝ＢＡ）、ＡＣ（＝ＣＡ）、ＢＣ（＝ＣＢ）の３通りである。本実施形態では、会話を熱の供給とし、会話中の盛り上がりを空間における熱の伝搬として、熱伝搬モデルを用いて会話の盛り上がり度合いを示す盛り上がり度を算出する。会話処理装置１は、選択した２人の音声を用いて、時刻毎の会話の盛り上がり度を、熱方程式を用いて算出する。そして、会話処理装置１は、算出した盛り上がり度を用いて、重み付き完全グラフを生成する。会話処理装置１は、生成した重み付き完全グラフを用いて、会議における発話の所定の時刻毎の寄与度（以下、発話寄与度という）を算出することで、会議における所定の時刻毎の中心人物を推定する。なお、所定の時刻毎とは、例えば１秒毎である。

＜盛り上がり度の説明＞
まず、本実施形態で用いる盛り上がり度について説明する。
図１は、本実施形態に係る話者が２人の場合の盛り上がり度モデルを表す図である。図１において、横軸はｘ軸方向であり、話者が存在する位置を表している。また、縦軸は盛り上がり度を表している。
図１に示すように、話者Ａがｘ軸上の一方端（＝０）に存在し、話者Ｂが他方端（＝１）に存在している。本実施形態では、熱伝搬モデルを盛り上がり度モデルとして用いる。これにより、ｘ＝０から加えられる熱に相当するのは、話者Ａの発話であり、ｘ＝１から加えられる熱に相当するのは、話者Ｂの発話である。この盛り上がり度モデルにおいて、２人のうちの一方が発話した場合は、話者の存在するｘ＝０またはｘ＝１の片側から熱量が供給される。また、２人の話者が共に発話を行っていない場合は、両端から供給される熱量が減少する。
本実施形態では、図１に示すように、話者ＡとＢとがそれぞれ存在する中心（ｘ／２）の位置において、熱方程式における温度ｕを盛り上がり度ｈ_ＡＢとして定義する。なお、下付きＡＢは、話者ＡとＢを表している。

次に、盛り上がり度モデルに供給される音声信号について説明する。
まず、本実施形態で用いる用語の定義を行う。
会話の参加人数をＭで表し、個々の話者の通し番号をｍ（∈｛１、・・・、Ｍ｝）とする。１つの会議において、話者ｍが発話した総発話数をＩ_ｍとし、話者ｍの発話の通し番号をｉ_ｍ（∈｛１、・・・、Ｉ_ｍ｝）とする。
話者ｍによる発話ｉ_ｍの発話開始時刻をｔ_ｉｍとする。また、話者ｍの第ｉ_ｍ番目の発話の音量（以下、発話音量ともいう）をｖ_ｉｍとする。

ここで、話者が２（＝Ｍ）人の場合についての例を説明する。
時刻ｔ_ｉ１のとき話者１が発話を行ったことによって、盛り上がり度モデルの一方端から音量ｖ_ｉ１が供給される。
時刻ｔ_ｉ１より後の時刻ｔ_ｉ２のとき話者２が発話を行ったことによって、盛り上がり度モデルの他方端から音量ｖ_ｉ２が供給される。
以下、話者１または話者２が発話を行ったときに、盛り上がり度モデルの端部から音量ｖ_ｉｍが逐次供給される。

次に、盛り上がり度の算出について説明する。
数直線ｘ上に導体がある場合の熱方程式は、次式（１）のように表される。

式（１）において、ｃは導体の比熱、ρは導体の密度、ｕは導体における位置ｘの温度、Ｋは熱伝導度、ａは熱拡散率である。本実施形態では、温度ｕを話者ＡとＢとの会話盛り上がり度ｈ_ＡＢに置き換え、熱拡散率ａを会話拡散率Ｄに置き換える。会話拡散率Ｄは、値が大きいほど会話が伝搬される速度が速く、値が小さいほど会話が伝搬される速度が遅いことを表している。また、本実施形態では、与えられる熱量を、発話量に置き換える。この結果、式（１）は、式（２）に置き換えられる。

発話が供給される一方端の位置を０とし、他方端の位置を１とすると、式（２）における境界条件は次式（３）で表される。また、式（３）に示すように、時刻０における会話盛り上がり度ｈ_ＡＢが０であるとする。

式（３）において、ｆ_１（ｔ）は、会話盛り上がり度ｈ_ＡＢに話者Ａが与えた影響を示す関数であり、話者Ａによる発話の度合い、頻度に基づく関数である。また、ｆ_２（ｔ）は、会話盛り上がり度ｈ_ＡＢに話者Ｂが与えた影響を示す関数であり、話者Ｂによる発話の度合い、頻度に基づく関数である。すなわち、本実施形態では、両端から供給される熱量（＝発話量）ｆ_１（ｔ）およびｆ_２（ｔ）が時刻ｔと共に変化する。また、本実施形態では、話者間の音声信号の音量差を考慮し、話者の音声信号の音量が図２に示すようなパレート（Ｐａｒｅｔｏ）分布に従っているとして関数ｆ_１（ｔ）、ｆ_２（ｔ）を正規化する。また、本実施形態では、音量が０〜１に入っているとして正規化を行う。

図２は、本実施形態に係る正規化で用いられるパレート分布の例を説明する図である。図２において、横軸は音量を表し、縦軸は発話の頻度を表している。また、曲線ｇ１は、音量を正規化する際に用いるパレート分布の曲線を表している。
なお、図２に示した例は一例であり、正規化に用いる分布は、パレート分布に限られず、他の統計的な分布を用いてもよい。

さらに、話者のうち、１人のみが発話している時間が長くなればなるほど会議は盛り上がっていない、すなわち盛り上がり度ｈ_ＡＢが低くなっていると想定される。このため、１人の話者の発話が長くなるほど与える発話量が低くなることが望ましい。このため、本実施形態では、音量に比例して正規化し、会話の長さに応じて指数関数的に減少していくように関数ｆ_１（ｔ）、ｆ_２（ｔ）を定義する。この結果、関数ｆ_１（ｔ）、ｆ_２（ｔ）は、次式（４）のように表される。

式（４）において、ｍは１または２であり、ｔは、時刻を表す。また、ｖは、正規化された音量の値であり、ｔ_ｉは、発話開始時刻である。また、αは、発話開始時刻ｔ_ｌからの経過時間に応じた発話ｌの寄与の低下を表す減衰定数である。すなわち、減衰定数αは、話者の交代が行われず特定の話者による発話が継続されることによる活性の低下を表す係数である。このように、式（４）は、複数の「発話」のセットからなる「会話」毎の和を表している。
本実施形態では、このように算出された盛り上がり度ｈ_ＡＢをグラフにおけるエッジの重みとして用いる。話者がＡとＢの２人の場合、ノードはＡとＢであり、ノードＡとＢの間のエッジに対する重みが盛り上がり度ｈ_ＡＢである。

＜盛り上がり度の時間変化の例＞
次に、話者ＡとＢとの会話における盛り上がり度ｈ_ＡＢの時間変化の例を説明する。
図３は、本実施形態に係る話者ＡとＢの会話における盛り上がり度ｈ_ＡＢの時間変化の例を表す図である。図３において、横軸は時刻を表し、縦軸は盛り上がり度ｈ_ＡＢを表している。また、曲線ｇ２は、時刻に対する盛り上がり度ｈ_ＡＢ（ｔ）を表し、破線ｇ３は、会話が盛り上がっているか否かを判別する際に用いられる閾値を表している。
図３に示す例では、時刻ｔ０〜ｔ６の間に会議が行われ、閾値ｇ３以上の期間である時刻ｔ１〜ｔ３の期間と、時刻ｔ４〜ｔ５の期間が、会話が盛り上がっていたと判別される期間である。また、図３に示す例では、時刻ｔ２のときが、盛り上がり度ｈ_ＡＢ（ｔ）の値が最も大きな時刻である。

＜話者が３人の場合の説明＞
次に、話者がＡ、Ｂ、Ｃの３人の場合を説明する。
話者が３人の場合、会話処理装置１は、記録されている音声信号から話者ＡとＢの音声信号、話者ＡとＣの音声信号、話者ＢとＣの音声信号それぞれを逐次抽出する。会話処理装置１は、式（２）においてｈ_ＡＢをｈ_ＡＣまたはｈ_ＢＣに置き換えて、２人の話者間の盛り上がり度ｈ_ＡＢ、ｈ_ＡＣ、ｈ_ＢＣを算出する。会話処理装置１は、算出した盛り上がり度ｈ_ＡＢ、ｈ_ＡＣ、ｈ_ＢＣを用いて、図４に示すように重み付き完全グラフを生成する。なお、完全グラフとは、全てのノード間にエッジが存在するグラフである。重み付きグラフとは、エッジに重みが付与されているグラフである。図４は、本実施形態に係る話者が３人の場合の重み付き完全グラフを表す図である。

図４に示すように、話者がＡ、ＢおよびＣの３人の場合、ノードはＡとＢとＣであり、ノードＡとＢの間のエッジに対する重みが盛り上がり度ｈ_ＡＢであり、ノードＡとＣの間のエッジに対する重みが盛り上がり度ｈ_ＡＣであり、ノードＢとＣの間のエッジに対する重みが盛り上がり度ｈ_ＢＣである。
なお、話者が４人の場合には、４頂点（ノード）重み付き完全グラフを用い、話者がｍ人の場合には、ｍ頂点重み付き完全グラフを用いる。

次に、話者が３人の場合の盛り上がり度の例を説明する。
図５は、本実施形態に係る話者ＡとＢとＣの会話における盛り上がり度ｈ_ＡＢ、ｈ_ＢＣ、ｈ_ＡＣおよび３つの盛り上がり度の平均ｈ￣の時間変化の例を表す図である。
図５において、横軸は時刻を表し、縦軸は盛り上がり度を表している。破線ｇ３は、会話が盛り上がっているか否かを判別する際に用いられる閾値を表している。曲線ｇ１１は、話者ＡとＢとの会話における時刻に対する盛り上がり度ｈ_ＡＢ（ｔ）を表し、曲線ｇ１２は、話者ＢとＣとの会話における時刻に対する盛り上がり度ｈ_ＢＣ（ｔ）を表し、曲線ｇ１３は、話者ＡとＣとの会話における時刻に対する盛り上がり度ｈ_ＡＣ（ｔ）を表している。また、曲線ｇ１４は、盛り上がり度ｈ_ＡＢ（ｔ）、ｈ_ＢＣ（ｔ）、ｈ_ＡＣ（ｔ）の平均ｈ￣（ｔ）（＝１／３（ｈ_ＡＢ（ｔ）＋ｈ_ＢＣ（ｔ）＋ｈ_ＡＣ（ｔ）））を表している。

図５に示す例では、時刻ｔ０〜ｔ１４の間に会議が行われていたことを表している。話者ＡとＢについては、曲線ｇ１１に示すように、時刻ｔ１〜ｔ５の期間と、時刻ｔ９〜ｔ１０の期間とに会話が盛り上がっていたことを表している。話者ＢとＣについては、曲線ｇ１２に示すように、時刻ｔ６〜ｔ１１の期間に会話が盛り上がっていたことを表している。話者ＡとＣについては、曲線ｇ１３に示すように、時刻ｔ２〜ｔ４の期間と、時刻ｔ８〜ｔ１３の期間とに会話が盛り上がっていたことを表している。そして、話者ＡとＢとＣについては、曲線ｇ１４に示すように、時刻ｔ３〜ｔ６の期間と、時刻ｔ７〜ｔ１２の期間とに会話が盛り上がっていたことを表している。

図５に示すように、本実施形態によれば、会議全体における盛り上がった時刻のみならず、会議の参加者における任意の２人の組み合わせのよる盛り上がり度の時間変化も測定することができる。このような結果を用いて、例えば、会議のリーダーは、会議を行う場合に話者Ａが会議に参加する場合、話者Ａのパートナーとして話者Ｂが良いのか話者Ｃが良いのかを考慮する際の参考にすることができる。

＜会議の盛り上げに寄与した話者の推定＞
次に、会議の盛り上げに寄与した話者の推定について説明する。
例として、話者が３人の場合について説明する。話者がＡ、Ｂ、Ｃの３人の場合、上述したように、グラフにおけるノードはＡ、Ｂ、Ｃであり、エッジの重みは盛り上がり度ｈ_ＡＢ、ｈ_ＢＣ、ｈ_ＡＣである。このような３人の話者における重み付き完全グラフの隣接行列Ｎは、次式（５）のように表される。

なお、式（５）の第２項において、話者が自分自身の場合の盛り上がり度ｈ_ＡＡ、ｈ_ＢＢ、ｈ_ＣＣを０とする。また、盛り上がり度ｈ_ｘｙ＝ｈ_ｙｘ（但しｘ、ｙ∈｛Ａ、Ｂ、Ｃ｝）である。この結果、式（５）の第２項は、式（５）の第３項のように表される。
ここで、ペロン・フロベニウスの定理よりすべての成分が非負となる行列の最大固有値に対する固有ベクトル成分は、全ての符号が等しくなる。生成したグラフの隣接行列Ｎの各成分は、式（５）に示したように全て非負であるため最大固有値に対する固有ベクトル成分はすべての符号が等しい。本実施形態では、最大固有値に対する固有ベクトルＲを会話における発話寄与度と定義する。
会話処理装置１は、この隣接行列Ｎの固有ベクトルＲを、次式（６）によって算出する。

式（６）において、λは実数であり、固有値を表している。式（６）に示した固有ベクトルＲは、次式（７）のように表される。

式（７）において、Ｃ_Ａは話者Ａの発話寄与度、Ｃ_Ｂは話者Ｂの発話寄与度、Ｃ_Ｃは話者Ｃの発話寄与度である。なお、発話寄与度Ｃは、会議の盛り上げに寄与した度合いを表している。発話寄与度Ｃの値の最も大きな話者が会話の中心人物である（参考文献１参照）。そして、本実施形態では、所定の時間毎に発話寄与度Ｃを算出することで、会話の中心人物の時間的な遷移を分析することができる。
なお、上述した会話寄与度Ｃの算出手法は一例であり、これに限られない。会話処理装置１は、グラフ理論における中心を算出する他の手法を用いて、会話寄与度Ｃを算出するようにしてもよい。

［参考文献１］“The PageRank Citation Ranking: Bringing Order to the Web.”,Lawrence Page,Sergey Brin,Rajeev Motwani,Terry Winograd, Stanford InfoLab., Technical Report,1999

＜会話処理装置１の構成＞
次に、会話処理装置１の構成について説明する。
図６は、本実施形態に係る会話処理装置１の構成を示すブロック図である。
図６に示すように、会話処理装置１は、収音部１１、音声信号取得部１２、音源定位部１３、音源分離部１４、会話記録部１５、操作部１６、会話分析部１７、および分析結果出力部１８を備える。

収音部１１は、マイクロフォンであり、マイクロフォン１０１−１〜１０１−Ｎ（Ｎは２以上の整数）を備える。なお、収音部１１は、マイクロフォンアレイであってもよく、話者毎に装着されるタイピンマイク（ピンマイクとうもいう）であってもよい。なお、マイクロフォン１０１−１〜１０１−Ｎのうちいずれか１つを特定しない場合は、マイクロフォン１０１という。収音部１１は、収音した話者の音声を電気信号に変換して、変換した音声信号を音声信号取得部１２に出力する。なお、収音部１１は、収録したＮチャネルの音声信号を音声信号取得部１２に無線で送信してもよいし、有線で送信してもよい。送信の際にチャネル間で音声信号が同期していればよい。

音声信号取得部１２は、収音部１１のＮ個のマイクロフォン１０１によって収録されたＮ個の音声信号を取得する。音声信号取得部１２は、取得したＮ個の音声信号に対し、時間領域において、フレーム毎にフーリエ変換を行うことで周波数領域の入力信号を生成する。音声信号取得部１２は、フーリエ変換したＮ個の音声信号を音源定位部１３および音源分離部１４に出力する。

音源定位部１３は、音声信号取得部１２から入力されたＮ個の音声信号に基づいて、話者である音源の方位角の推定（音源定位を行うともいう）を行う。音源定位部１３は、推定した音源毎の方位角情報を音源分離部１４に出力する。音源定位部１３は、例えば、ＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法を用いて方位角を推定する。なお、方位角の推定には、ビームフォーミング（ＢｅａｍＦｏｒｍｉｎｇ）法、ＷＤＳ−ＢＦ（ＷｅｉｇｈｔｅｄＤｅｌａｙａｎｄＳｕｍＢｅａｍＦｏｒｍｉｎｇ；重み付き遅延和ビームフォーミング）法、一般化特異値展開を用いたＭＵＳＩＣ（ＧＳＶＤ−ＭＵＳＩＣ；ＧｅｎｅｒａｌｉｚｅｄＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ−ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法等の他の音源方向推定方式を用いてもよい。

音源分離部１４は、音声信号取得部１２が出力したＮ個の音声信号と、音源定位部１３が出力した音源毎の方位角情報を取得する。音源分離部１４は、取得したＮ個の音声信号を、例えばＧＨＤＳＳ（ＧｅｏｍｅｔｒｉｃＨｉｇｈ−ｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法を用いて話者毎の音声信号に分離する。または、音源分離部１４は、例えば独立成分分析（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ；ＩＣＡ）法を用いて、音源分離処理を行ってもよい。音源分離部１４は、話者を識別できる識別情報を分離した話者毎の音声信号に対応付けて会話記録部１５に記録させる。
なお、音源分離部１４は、例えば自部に記憶されている室内の伝達関数を用いて、雑音と話者の音声信号とを分離した後、話者毎の音声信号を分離するようにしてもよい。この場合、音源分離部１４は、例えばＮ個の音声信号毎に音響特徴量を算出し、算出した音響特徴量及び音源定位部１３から入力された方位角情報に基づいて、話者毎の音声信号に分離するようにしてもよい。

会話記録部１５には、図７に示すように、会議の音声信号が記録された日時（記録日時ともいう）と、話者毎に識別情報と分離された音声信号とが対応付けられて、会議毎に記録されている。図７は、本実施形態に係る会話記録部１５に記録されている情報の一例を示す図である。図７に示す例は、話者が３人の場合の例である。図７に示すように、識別情報ｍ（ｍはＡ、Ｂ、Ｃのいずれか１つ）と音声信号ｍとが対応付けられ、さらに記録日時が対応付けられて記録されている。会話記録部１５には、図７に示した情報が会議毎に記録されている。

図６に戻って、会話処理装置１の説明を続ける。
操作部１６は、利用者の操作を受け付け、受け付けた操作された操作情報を会話分析部１７に出力する。操作情報には、例えば、記録されている会議のうちのいずれの会議について分析を行うのかを示す会議選択情報、分析の開始を示す分析開始情報等が含まれている。

会話分析部１７は、音源選択部１７１、音量正規化部１７２、盛り上がり度算出部１７３、グラフ生成部１７４、および寄与度算出部１７５を備える。なお、会話分析部１７の各機能部は、所定の時間毎に各処理を行う。

音源選択部１７１は、操作部１６が出力した操作情報に含まれる分析開始情報に応じて、会議の分析を開始する。音源選択部１７１は、操作部１６が出力した操作情報に含まれる会議選択情報に応じて、会話記録部１５に記録されている中から指示された会議の音声信号と識別情報とを読み出す。音源選択部１７１は、読み出した音声信号の中から、２つの任意の音声信号を、識別情報の数に応じた全てのペアについて逐次選択する。具体的には、図７に示した例において、会話分析部１７は、識別情報ＡとＢそれぞれの音声信号ＡとＢ、識別情報ＢとＣそれぞれの音声信号ＢとＣ、識別情報ＡとＣそれぞれの音声信号ＡとＣを選択する。音源選択部１７１は、選択した２つの音声信号と識別情報を、音量正規化部１７２に逐次出力する。なお、音源選択部１７１は、所定の時間内に、例えば時分割で識別情報の数に応じたペアの音声信号を逐次音量正規化部１７２に出力する。

音量正規化部１７２は、音源選択部１７１が出力した２つの音声信号に対して、前述した式（４）を用いて話者毎に関数ｆ_１（ｔ）、ｆ_２（ｔ）を算出することで音量を正規化する。音量正規化部１７２は、算出したｆ_１（ｔ）、ｆ_２（ｔ）それぞれに識別情報を対応付けて盛り上がり度算出部１７３に出力する。なお、音量正規化部１７２は、所定の時間内に、例えば時分割で識別情報の数に応じた組み合わせの音声信号のペア毎に関数ｆ_１（ｔ）、ｆ_２（ｔ）を算出する。

盛り上がり度算出部１７３は、音量正規化部１７２が出力した関数ｆ_１（ｔ）、ｆ_２（ｔ）と、前述した式（３）の境界条件を用いて、式（２）の熱方程式を、例えば差分法によって解くことで、２つの音声信号、すなわち２人の話者間の盛り上がり度ｈ_ｘｙ（ｔ）を算出する。盛り上がり度算出部１７３は、算出した盛り上がり度ｈ_ｘｙ（ｔ）と識別情報とを対応付けて逐次グラフ生成部１７４に出力する。例えば、図７に示した例において、盛り上がり度算出部１７３は、算出した盛り上がり度ｈ_ＡＢと選択された識別情報ＡとＢとを対応付け、盛り上がり度ｈ_ＢＣと識別情報ＢとＣとを対応付け、盛り上がり度ｈ_ＡＣと識別情報ＡとＣとを対応付けてグラフ生成部１７４に出力する。なお、盛り上がり度算出部１７３は、所定の時間内に、例えば時分割で識別情報の数に応じた組み合わせの音声信号のペア毎に盛り上がり度ｈ_ｘｙ（ｔ）を算出する。
また、盛り上がり度算出部１７３は、全ての話者のペア毎の盛り上がり度の平均ｈ￣（ｔ）（図５参照）を算出する。盛り上がり度算出部１７３は、自部に記憶されている閾値を用いて、図５に示したようなペア毎の盛り上がり度ｈ_ｘｙ（ｔ）の時間変化を表す画像と、盛り上がり度の平均ｈ￣（ｔ）の時間変化を表す画像とを生成し、生成した画像を分析結果出力部１８に出力する。

グラフ生成部１７４は、盛り上がり度算出部１７３が出力した盛り上がり度ｈ_ｘｙ（ｔ）と識別情報とを用いて、重み付き完全グラフを周知の手法で生成する。グラフ生成部１７４は、生成したグラフの隣接行列Ｎを式（５）によって生成し、生成した隣接行列Ｎを寄与度算出部１７５に出力する。

寄与度算出部１７５は、グラフ生成部１７４が出力した隣接行列Ｎを用いて、所定の時刻毎の固有ベクトルＲを式（６）によって算出する。寄与度算出部１７５は、算出した固有ベクトルＲに基づいて、所定の時刻毎の会話の中心人物を推定し、推定した推定結果（例えば図１０）を分析結果出力部１８に出力する。なお、推定結果の例については後述する。

分析結果出力部１８は、盛り上がり度算出部１７３が出力した画像と寄与度算出部１７５が出力した推定結果のうち少なくとも１つを分析結果として、外部装置（不図示）、会話処理装置１に接続されている表示部（不図示）、会話処理装置１に接続されているプリンタ（不図示）等に出力する。

＜会話処理装置１が行う処理＞
次に、会話処理装置１が行う処理手順の例について説明する。
図８は、本実施形態に係る会話処理装置１が行う処理の一例を表すフローチャートである。なお、以下の処理では、すでに会議中の音声信号が取得され、音源分離された話者毎の音声信号と識別情報とが会話記録部１５に記録されている。そして、以下の処理は、利用者によって、会議の音声信号に対して解析指示が操作部１６によって指示された後に行われる。

（ステップＳ１）音源選択部１７１は、操作部１６が出力した操作情報に含まれる会議選択情報に応じて、会話記録部１５に記録されている中から指示された会議の音声信号と識別情報とを読み出す。続けて、音源選択部１７１は、読み出した音声信号の中から、２つの任意の音声信号（２人の話者の音声信号）を、識別情報の数に応じた全てのペアについて選択する。

（ステップＳ２）音量正規化部１７２は、音源選択部１７１によって選択された２つの音声信号に対して、前述した式（４）を用いて話者毎に関数ｆ_１（ｔ）、ｆ_２（ｔ）を算出することで音量を正規化する。

（ステップＳ３）盛り上がり度算出部１７３は、音量正規化部１７２によって算出された関数ｆ_１（ｔ）、ｆ_２（ｔ）と、前述した式（３）の境界条件を用いて、式（２）の熱方程式を解くことで、２人の話者間の盛り上がり度ｈ_ｘｙ（ｔ）を推定する。続けて、盛り上がり度算出部１７３は、全ての話者のペア毎の盛り上がり度の平均ｈ￣（ｔ）を算出し、自部に記憶されている閾値を用いて、ペア毎の盛り上がり度ｈ_ｘｙ（ｔ）の時間変化を表す画像と、盛り上がり度の平均ｈ￣（ｔ）の時間変化を表す画像とを生成する。

（ステップＳ４）音源選択部１７１は、ステップＳ１で全てのペアを選択完了しているか否かを判別する。音源選択部１７１は、全てのペアを選択完了していると判別した場合（ステップＳ４；ＹＥＳ）、ステップＳ５に処理を進め、全てのペアを選択完了していないと判別した場合（ステップＳ４；ＮＯ）、ステップＳ１に処理を戻す。

（ステップＳ５）グラフ生成部１７４は、盛り上がり度算出部１７３によって推定された盛り上がり度ｈ_ｘｙ（ｔ）と識別情報とを用いて、重み付き完全グラフを周知の手法で生成する。

（ステップＳ６）寄与度算出部１７５は、グラフ生成部１７４によって生成された２人の話者毎かつ所定の時刻毎の隣接行列Ｎを用いて、所定の時刻毎に固有ベクトルＲを式（６）によって算出する。続けて、寄与度算出部１７５は、算出した固有ベクトルＲに基づいて、所定の時刻毎の会話の中心人物を推定する。続けて、分析結果出力部１８は、寄与度算出部１７５によって推定された所定の時刻毎の会話の中心人物を示す情報、または盛り上がり度算出部１７３によって生成された画像のうち少なくとも１つを解析結果として、外部装置（不図示）等に出力する。
以上で、会話処理装置１が行う処理を終了する。

＜実験結果＞
次に、本実施形態の会話処理装置１を用いて行った実験結果の一例を説明する。
実験は、３人の話者が参加した会議を記録して行った。
まず、前述した式（２）における会話拡散率Ｄの値を変化させた結果の例を説明する。
図９は、本実施形態に係る会話拡散率Ｄの値を変えた場合の盛り上がり度ｈ_ｘｙ（ｔ）の時間変化の一例を表す図である。図９において、横軸は時刻であり、縦軸は盛り上がり度である。
図９に示す例において、曲線ｇ１６は、会話拡散率Ｄの値が１の例であり、曲線ｇ１７は、会話拡散率Ｄの値が２０の例である。図９に示すように、会話拡散率Ｄの値が小さいほど、盛り上がり度ｈ_ｘｙ（ｔ）の時間変化はなめらかな曲線となる。
会話拡散率Ｄの値、および会議が盛り上がっているか否かを判別する際に用いる閾値は、会話処理装置１の利用者によって、予め設定されていてもよい。または、図９に示したような盛り上がり度ｈ_ｘｙ（ｔ）の時間変化を、会話処理装置１に接続されている表示部（不図示）に表示させ、利用者が表示された画像を見ながら操作部１６を操作して会話拡散率Ｄを設定するようにしてもよい。この場合、例えば、会話拡散率Ｄの値と閾値値との対応は、寄与度算出部１７５に記憶されていてもよい。

次に、３人の話者の会話について寄与度算出部１７５が推定した推定結果の例を説明する。
図１０は、本実施形態に係る３人の話者の会話について寄与度算出部１７５が推定した推定結果の一例を表す図である。図１０において、横軸は時刻を表し、縦軸は発話寄与度Ｃを表す。
また、図１０において、曲線ｇ２１は、識別情報Ａの話者の発話寄与度Ｃ_Ａを表し、曲線ｇ２２は、識別情報Ｂの話者の発話寄与度Ｃ_Ｂを表し、曲線ｇ２３は、識別情報Ｃの話者の発話寄与度Ｃ_Ｃを表している。

図１０に示す例において、発話寄与度Ｃは、識別情報Ｂに対応する話者Ｂが最も高く、続いて識別情報Ａに対応する話者Ａが高く、識別情報Ｃに対応する話者Ｃが他の２人より低いことを表している。
また、図１０に示す例では、会議の始めの時間、話者Ａの発話寄与度Ｃ_Ａが高かったが、その後、話者Ｂの発話寄与度Ｃ_Ｂが発話寄与度Ｃ_Ａより高くなり、その後もの発話寄与度Ｃ_Ｂが高いことが分かる。
利用者は、会話処理装置１から出力された図１０のような推定結果を使用して、会議の中心人物の時刻毎の変化、会議全体における会議を盛り上げた中心人物を知ることができる。

なお、図１０に示した推定結果の例は一例であり、推定結果の表し方は、これに限られない。例えば、分析結果出力部１８は、推定結果を、横軸が時刻、縦軸が発話寄与度Ｃの話者毎の変化の画像を３次元画像で並べて表示するようにしてもよい。

以上のように、本実施形態の会話処理装置１は、複数の話者の音声信号を収音する収音部１１と、収音部によって収音された各話者の音声信号を記録する会話記録部１５と、会話記録部に記録された音声信号から、任意の２人の話者間の会話を解析して２人の話者間の会話における盛り上がり度合い（盛り上がり度）を算出する会話分析部１７と、を備える。
この構成によって、本実施形態によれば、任意の２人の音声信号を用いて、話者間の盛り上がり度を測定することができる。

また、本実施形態の会話処理装置１において、盛り上がり度合い（盛り上がり度）は、任意の２人の話者それぞれが時系列で会話に与えた影響に基づく。
また、本実施形態の会話処理装置１において、会話分析部１７は、任意の２人の話者の盛り上がり度合いを、熱方程式（例えば式（２））を用いて算出する。
この構成によって、本実施形態では、抽出された２人の話者が発話したとき、それぞれの発話が時系列で熱伝搬モデルに注入される。そして、本実施形態では、この熱伝搬モデルにおいて熱方程式を解くことで盛り上がり度を算出することができる。

また、本実施形態の会話処理装置１において、会話分析部１７は、複数の話者に対して、任意の２人の話者の全てのペアを選択し、選択したペア毎に盛り上がり度合い（盛り上がり度）を算出し、算出したペア毎の盛り上がり度合いをエッジに対する重みに用いて、ノートとエッジとで構成される重み付き完全グラフを生成し、生成した重み付き完全グラフに基づいて、会話の中心人物を推定する。
この構成によって、本実施形態によれば、重み付き完全グラフを用いて、会話の中心人物を推定することができる。

また、本実施形態の会話処理装置１において、会話分析部１７は、任意の２人の話者間の会話における音声信号について、音量を正規化する。
また、本実施形態の会話処理装置１において、会話分析部１７は、任意の２人の話者間の会話における音声信号について、１回に発話された音声信号の長さに基づいて音量を正規化する。
この構成によって、本実施形態によれば、選択された２人の話者間の音量が異なっていた場合であっても、正規化することで、音量差の影響を低減することができる。また、本実施形態によれば、１人の話者の発話時間を考慮して音量を正規化することで、１人の話者の発話が長くなった場合であっても、盛り上がり度を適切に算出することができる。

また、本実施形態の会話処理装置１において、会話分析部１７は、任意の２人の話者の盛り上がり度合い（盛り上がり度）を、所定の時刻毎に算出する。
この構成によって、本実施形態によれば、所定の時刻毎に盛り上がり度を算出できるので、会議における盛り上がり度の時間変化を提供することができる。

また、本実施形態の会話処理装置１において、会話分析部１７は、任意の２人の話者の盛り上がり度合いが、所定の閾値より大きい場合に会話が活性化されていたと判別する。
この構成によって、本実施形態によれば、会議が盛り上がっていたか否かを判別することができる。

また、本実施形態の会話処理装置１は、収音部１１によって収音された音声信号を用いて音源位置を定位する音源定位部１３と、音源定位部によって定位された結果に基づいて音源分離を行う音源分離部１４と、を備え、会話記録部１５は、音源分離部によって分離された各話者の音声信号を記録する。
この構成によって、例えばマイクロフォンアレイによって収音された音声信号を、音源分離部１４によって音源分離を行って、分離された音声信号のうち任意の２人の音声信号を用いて、話者間の盛り上がり度を測定することができる。

なお、本実施形態で説明した会話処理装置１は、例えばＩＣレコーダ、議事録生成装置に適用してもよい。また、会話処理装置１を実行させるアプリケーションをスマートフォン、タブレット端末等にインストールすることで、会話処理装置１を構成するようにしてもよい。

なお、本発明における会話処理装置１の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより盛り上がり度の算出、会話寄与度の算出、会話の中心人物の推定等を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１…会話処理装置、１１…収音部、１２…音声信号取得部、１３…音源定位部、１４…音源分離部、１５…会話記録部、１６…操作部、１７…会話分析部、１８…分析結果出力部、１７１…音源選択部、１７２…音量正規化部、１７３…盛り上がり度算出部、１７４…グラフ生成部、１７５…寄与度算出部、ｈ_ＡＢ、ｈ_ＡＣ、ｈ_ＢＣ、ｈ_ＸＹ…盛り上がり度、ｈ￣…盛り上がり度の平均、Ｃ、Ｃ_Ａ、Ｃ_Ｂ、Ｃ_Ｃ…会話寄与度

Claims

複数の話者の音声信号を収音する収音部と、
前記収音部によって収音された各話者の音声信号を記録する会話記録部と、
前記会話記録部に記録された音声信号から、任意の２人の話者間の会話を解析して前記２人の話者間の会話における盛り上がり度合いを算出し、前記任意の２人の話者間の会話における音声信号について、１回に発話された音声信号の長さに基づいて音量を正規化する会話分析部と、
を備える会話処理装置。
前記会話分析部は、
次式を用いて前記音量を正規化する、

（ただし、ｆ _ｍ（ｔ）は会話盛り上がり度に他方の話者が与えた影響を示す関数であり、ｍは１または２であり、ｔは時刻を表し、ｖは正規化された音量の値であり、ｔ _ｉは発話開始時刻であり、αは発話開始時刻ｔｌからの経過時間に応じた発話ｌの寄与の低下を表す減衰定数である）
請求項１に記載の会話処理装置。
前記盛り上がり度合いは、
前記任意の２人の話者それぞれが時系列で会話に与えた影響に基づく請求項１または請求項２に記載の会話処理装置。
前記会話分析部は、
前記任意の２人の話者の前記盛り上がり度合いを、熱方程式を用いて算出する請求項１から請求項３のいずれか１項に記載の会話処理装置。
前記会話分析部は、
前記複数の話者に対して、前記任意の２人の話者の全てのペアを選択し、選択した前記ペア毎に前記盛り上がり度合いを算出し、算出した前記ペア毎の前記盛り上がり度合いをエッジに対する重みに用いて、ノートとエッジとで構成される重み付き完全グラフを生成し、生成した前記重み付き完全グラフに基づいて、会話の中心人物を推定する請求項１から請求項４のいずれか１項に記載の会話処理装置。
前記会話分析部は、
前記任意の２人の話者の前記盛り上がり度合いを、所定の時刻毎に算出する請求項１から請求項５のいずれか１項に記載の会話処理装置。
前記会話分析部は、
前記任意の２人の話者の前記盛り上がり度合いが、所定の閾値より大きい場合に前記会話が活性化されていたと判別する請求項１から請求項６のいずれか１項に記載の会話処理装置。
前記収音部によって収音された音声信号を用いて音源位置を定位する音源定位部と、
前記音源定位部によって定位された結果に基づいて音源分離を行う音源分離部と、
を備え、
前記会話記録部は、
前記音源分離部によって分離された各話者の音声信号を記録する請求項１から請求項７のいずれか１項に記載の会話処理装置。
収音部が、複数の話者の音声信号を収音する収音手順と、
会話記録部が、前記収音手順によって収音された各話者の音声信号を記録する会話記録手順と、
会話分析部が、前記会話記録手順によって記録された音声信号から、任意の２人の話者間の会話を解析して前記２人の話者間の会話における盛り上がり度合いを算出し、前記任意の２人の話者間の会話における音声信号について、１回に発話された音声信号の長さに基づいて音量を正規化する会話分析手順と、
を含む会話処理方法。
前記会話分析部が、前記会話分析手順において次式を用いて前記音量を正規化する、

（ただし、ｆ _ｍ（ｔ）は会話盛り上がり度に他方の話者が与えた影響を示す関数であり、ｍは１または２であり、ｔは時刻を表し、ｖは正規化された音量の値であり、ｔ _ｉは発話開始時刻であり、αは発話開始時刻ｔｌからの経過時間に応じた発話ｌの寄与の低下を表す減衰定数である）
請求項９に記載の会話処理方法。