JP6238246B2 - 会話処理装置、および会話処理方法 - Google Patents

会話処理装置、および会話処理方法 Download PDF

Info

Publication number
JP6238246B2
JP6238246B2 JP2015084130A JP2015084130A JP6238246B2 JP 6238246 B2 JP6238246 B2 JP 6238246B2 JP 2015084130 A JP2015084130 A JP 2015084130A JP 2015084130 A JP2015084130 A JP 2015084130A JP 6238246 B2 JP6238246 B2 JP 6238246B2
Authority
JP
Japan
Prior art keywords
conversation
unit
speakers
degree
excitement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015084130A
Other languages
English (en)
Other versions
JP2016206261A (ja
Inventor
武志 水本
武志 水本
一博 中臺
一博 中臺
健太 宇都宮
健太 宇都宮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2015084130A priority Critical patent/JP6238246B2/ja
Priority to US15/091,886 priority patent/US10013982B2/en
Publication of JP2016206261A publication Critical patent/JP2016206261A/ja
Application granted granted Critical
Publication of JP6238246B2 publication Critical patent/JP6238246B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、会話処理装置、および会話処理方法に関する。
音声会議において、複数のマイクロフォンを用いて会議の複数の話者の音声を収音し、収音した音声に対して音源分離処理を行うことで、各話者の発話内容を記録する装置が提案されている(例えば、特許文献1参照)。
また、仕事、授業、または就職採用時の面接等に行われるグループディスカッションでは、会議を盛り上げ、議論を前に進めることが求められている。そして、グループディスカッションでは、会議を盛り上げた中心人物が誰であるかを特定することが求められている。
特開2007−295104号公報
しかしながら、特許文献1に記載の技術では、会議の盛り上がり度合いを測定することができなかった。
本発明は上記の点に鑑みてなされたものであり、会議の盛り上がり度合いを測定することができる会話処理装置、および会話処理方法を提供することを目的とする。
(1)上記目的を達成するため、本発明の一態様に係る会話処理装置は、複数の話者の音声信号を収音する収音部と、前記収音部によって収音された各話者の音声信号を記録する会話記録部と、前記会話記録部に記録された音声信号から、任意の2人の話者間の会話を解析して前記2人の話者間の会話における盛り上がり度合いを算出し、前記任意の2人の話者間の会話における音声信号について、1回に発話された音声信号の長さに基づいて音量を正規化する会話分析部と、を備える。
(2)また、本発明の一態様に係る会話処理装置において、前記会話分析部は、次式を用いて前記音量を正規化する、
Figure 0006238246
(ただし、f (t)は会話盛り上がり度に他方の話者が与えた影響を示す関数であり、mは1または2であり、tは時刻を表し、vは正規化された音量の値であり、t は発話開始時刻であり、αは発話開始時刻tlからの経過時間に応じた発話lの寄与の低下を表す減衰定数である)ようにしてもよい。
)また、本発明の一態様に係る会話処理装置において、前記盛り上がり度合いは、前記任意の2人の話者それぞれが時系列で会話に与えた影響に基づくようにしてもよい。
)また、本発明の一態様に係る会話処理装置において、前記会話分析部は、前記任意の2人の話者の前記盛り上がり度合いを、熱方程式を用いて算出するようにしてもよい。
)また、本発明の一態様に係る会話処理装置において、前記会話分析部は、前記複数の話者に対して、前記任意の2人の話者の全てのペアを選択し、選択した前記ペア毎に前記盛り上がり度合いを算出し、算出した前記ペア毎の前記盛り上がり度合いをエッジに対する重みに用いて、ノートとエッジとで構成される重み付き完全グラフを生成し、生成した前記重み付き完全グラフに基づいて、会話の中心人物を推定するようにしてもよい。
)また、本発明の一態様に係る会話処理装置において、前記会話分析部は、前記任意の2人の話者の前記盛り上がり度合いを、所定の時刻毎に算出するようにしてもよい。
)また、本発明の一態様に係る会話処理装置において、前記会話分析部は、前記任意の2人の話者の前記盛り上がり度合いが、所定の閾値より大きい場合に前記会話が活性化されていたと判別するようにしてもよい。
)また、本発明の一態様に係る会話処理装置は、前記収音部によって収音された音声信号を用いて音源位置を定位する音源定位部と、前記音源定位部によって定位された結果に基づいて音源分離を行う音源分離部と、を備え、前記会話記録部は、前記音源分離部によって分離された各話者の音声信号を記録するようにしてもよい。
)上記目的を達成するため、本発明の一態様に係る会話処理方法は、収音部が、複数の話者の音声信号を収音する収音手順と、会話記録部が、前記収音手順によって収音された各話者の音声信号を記録する会話記録手順と、会話分析部が、前記会話記録手順によって記録された音声信号から、任意の2人の話者間の会話を解析して前記2人の話者間の会話における盛り上がり度合いを算出し、前記任意の2人の話者間の会話における音声信号について、1回に発話された音声信号の長さに基づいて音量を正規化する会話分析手順と、を含む。
(10)また、本発明の一態様に係る会話処理方法は、前記会話分析部が、前記会話分析手順において次式を用いて前記音量を正規化する、
Figure 0006238246
(ただし、f (t)は会話盛り上がり度に他方の話者が与えた影響を示す関数であり、mは1または2であり、tは時刻を表し、vは正規化された音量の値であり、t は発話開始時刻であり、αは発話開始時刻tlからの経過時間に応じた発話lの寄与の低下を表す減衰定数である)ようにしてもよい。
上述した(1)、(2)、(9)、(10)の構成によれば、任意の2人の音声信号を用いて、話者間の盛り上がり度を測定することができる。
上述した()、()の構成によれば、抽出された2人の話者が発話したとき、それぞれの発話が時系列で注入される熱伝搬モデルにおいて熱方程式を解くことで盛り上がり度を算出することができる。
上述した()の構成によれば、重み付き完全グラフを用いて、会話の中心人物を推定することができる。
上述した()、()の構成によれば、選択された2人の話者間の音量が異なっていた場合であっても、正規化することで、音量差の影響を低減することができる。また、(1)、(9)の構成によれば、1人の話者の発話時間を考慮して音量を正規化することで、1人の話者の発話が長くなった場合であっても、盛り上がり度を適切に算出することができる。
上述した()の構成によれば、所定の時刻毎に盛り上がり度を算出できるので、会議における盛り上がり度の時間変化を提供することができる。
上述した()の構成によれば、会議が盛り上がっていたか否かを判別することができる。
上述した()の構成によれば、例えばマイクロフォンアレイによって収音された音声信号を、音源分離部によって音源分離を行って、分離された音声信号のうちの任意の2人の音声信号を用いて、話者間の盛り上がり度を測定することができる。
実施形態に係る話者が2人の場合の盛り上がり度モデルを表す図である。 実施形態に係る正規化で用いられるパレート分布の例を説明する図である。 実施形態に係る話者AとBとの会話における盛り上がり度hABの時間変化の例を表す図である。 実施形態に係る話者が3人の場合の重み付き完全グラフを表す図である。 実施形態に係る話者AとBとCの会話における盛り上がり度hAB、hBC、hACおよび3つの盛り上がり度の平均h ̄の時間変化の例を表す図である。 実施形態に係る会話処理装置の構成を示すブロック図である。 実施形態に係る会話記録部に記録されている情報の一例を示す図である。 実施形態に係る会話処理装置が行う処理の一例を表すフローチャートである。 実施形態に係る会話拡散率Dの値を変えた場合の盛り上がり度hxy(t)の時間変化の一例を表す図である。 実施形態に係る3人の話者の会話について寄与度算出部が推定した推定結果の一例を表す図である。
<発明の概要>
発明の概要について説明する。
複数の話者が参加している会議において、会話処理装置1(図6参照)は、各話者の発話を音源分離させて記録する。会話処理装置1は、記録された音声から、任意の2人の会話を逐次選択する。例えば、会議の参加者がAとBの2名の場合、選択されるペアの組み合わせは、AB(=BA)の1通りである。参加者がAとBとCの3名の場合、選択されるペアの組み合わせは、AB(=BA)、AC(=CA)、BC(=CB)の3通りである。本実施形態では、会話を熱の供給とし、会話中の盛り上がりを空間における熱の伝搬として、熱伝搬モデルを用いて会話の盛り上がり度合いを示す盛り上がり度を算出する。会話処理装置1は、選択した2人の音声を用いて、時刻毎の会話の盛り上がり度を、熱方程式を用いて算出する。そして、会話処理装置1は、算出した盛り上がり度を用いて、重み付き完全グラフを生成する。会話処理装置1は、生成した重み付き完全グラフを用いて、会議における発話の所定の時刻毎の寄与度(以下、発話寄与度という)を算出することで、会議における所定の時刻毎の中心人物を推定する。なお、所定の時刻毎とは、例えば1秒毎である。
<盛り上がり度の説明>
まず、本実施形態で用いる盛り上がり度について説明する。
図1は、本実施形態に係る話者が2人の場合の盛り上がり度モデルを表す図である。図1において、横軸はx軸方向であり、話者が存在する位置を表している。また、縦軸は盛り上がり度を表している。
図1に示すように、話者Aがx軸上の一方端(=0)に存在し、話者Bが他方端(=1)に存在している。本実施形態では、熱伝搬モデルを盛り上がり度モデルとして用いる。これにより、x=0から加えられる熱に相当するのは、話者Aの発話であり、x=1から加えられる熱に相当するのは、話者Bの発話である。この盛り上がり度モデルにおいて、2人のうちの一方が発話した場合は、話者の存在するx=0またはx=1の片側から熱量が供給される。また、2人の話者が共に発話を行っていない場合は、両端から供給される熱量が減少する。
本実施形態では、図1に示すように、話者AとBとがそれぞれ存在する中心(x/2)の位置において、熱方程式における温度uを盛り上がり度hABとして定義する。なお、下付きABは、話者AとBを表している。
次に、盛り上がり度モデルに供給される音声信号について説明する。
まず、本実施形態で用いる用語の定義を行う。
会話の参加人数をMで表し、個々の話者の通し番号をm(∈{1、・・・、M})とする。1つの会議において、話者mが発話した総発話数をIとし、話者mの発話の通し番号をi(∈{1、・・・、I})とする。
話者mによる発話iの発話開始時刻をtimとする。また、話者mの第i番目の発話の音量(以下、発話音量ともいう)をvimとする。
ここで、話者が2(=M)人の場合についての例を説明する。
時刻ti1のとき話者1が発話を行ったことによって、盛り上がり度モデルの一方端から音量vi1が供給される。
時刻ti1より後の時刻ti2のとき話者2が発話を行ったことによって、盛り上がり度モデルの他方端から音量vi2が供給される。
以下、話者1または話者2が発話を行ったときに、盛り上がり度モデルの端部から音量vimが逐次供給される。
次に、盛り上がり度の算出について説明する。
数直線x上に導体がある場合の熱方程式は、次式(1)のように表される。
Figure 0006238246
式(1)において、cは導体の比熱、ρは導体の密度、uは導体における位置xの温度、Kは熱伝導度、aは熱拡散率である。本実施形態では、温度uを話者AとBとの会話盛り上がり度hABに置き換え、熱拡散率aを会話拡散率Dに置き換える。会話拡散率Dは、値が大きいほど会話が伝搬される速度が速く、値が小さいほど会話が伝搬される速度が遅いことを表している。また、本実施形態では、与えられる熱量を、発話量に置き換える。この結果、式(1)は、式(2)に置き換えられる。
Figure 0006238246
発話が供給される一方端の位置を0とし、他方端の位置を1とすると、式(2)における境界条件は次式(3)で表される。また、式(3)に示すように、時刻0における会話盛り上がり度hABが0であるとする。
Figure 0006238246
式(3)において、f(t)は、会話盛り上がり度hABに話者Aが与えた影響を示す関数であり、話者Aによる発話の度合い、頻度に基づく関数である。また、f(t)は、会話盛り上がり度hABに話者Bが与えた影響を示す関数であり、話者Bによる発話の度合い、頻度に基づく関数である。すなわち、本実施形態では、両端から供給される熱量(=発話量)f(t)およびf(t)が時刻tと共に変化する。また、本実施形態では、話者間の音声信号の音量差を考慮し、話者の音声信号の音量が図2に示すようなパレート(Pareto)分布に従っているとして関数f(t)、f(t)を正規化する。また、本実施形態では、音量が0〜1に入っているとして正規化を行う。
図2は、本実施形態に係る正規化で用いられるパレート分布の例を説明する図である。図2において、横軸は音量を表し、縦軸は発話の頻度を表している。また、曲線g1は、音量を正規化する際に用いるパレート分布の曲線を表している。
なお、図2に示した例は一例であり、正規化に用いる分布は、パレート分布に限られず、他の統計的な分布を用いてもよい。
さらに、話者のうち、1人のみが発話している時間が長くなればなるほど会議は盛り上がっていない、すなわち盛り上がり度hABが低くなっていると想定される。このため、1人の話者の発話が長くなるほど与える発話量が低くなることが望ましい。このため、本実施形態では、音量に比例して正規化し、会話の長さに応じて指数関数的に減少していくように関数f(t)、f(t)を定義する。この結果、関数f(t)、f(t)は、次式(4)のように表される。
Figure 0006238246
式(4)において、mは1または2であり、tは、時刻を表す。また、vは、正規化された音量の値であり、tは、発話開始時刻である。また、αは、発話開始時刻tからの経過時間に応じた発話lの寄与の低下を表す減衰定数である。すなわち、減衰定数αは、話者の交代が行われず特定の話者による発話が継続されることによる活性の低下を表す係数である。このように、式(4)は、複数の「発話」のセットからなる「会話」毎の和を表している。
本実施形態では、このように算出された盛り上がり度hABをグラフにおけるエッジの重みとして用いる。話者がAとBの2人の場合、ノードはAとBであり、ノードAとBの間のエッジに対する重みが盛り上がり度hABである。
<盛り上がり度の時間変化の例>
次に、話者AとBとの会話における盛り上がり度hABの時間変化の例を説明する。
図3は、本実施形態に係る話者AとBの会話における盛り上がり度hABの時間変化の例を表す図である。図3において、横軸は時刻を表し、縦軸は盛り上がり度hABを表している。また、曲線g2は、時刻に対する盛り上がり度hAB(t)を表し、破線g3は、会話が盛り上がっているか否かを判別する際に用いられる閾値を表している。
図3に示す例では、時刻t0〜t6の間に会議が行われ、閾値g3以上の期間である時刻t1〜t3の期間と、時刻t4〜t5の期間が、会話が盛り上がっていたと判別される期間である。また、図3に示す例では、時刻t2のときが、盛り上がり度hAB(t)の値が最も大きな時刻である。
<話者が3人の場合の説明>
次に、話者がA、B、Cの3人の場合を説明する。
話者が3人の場合、会話処理装置1は、記録されている音声信号から話者AとBの音声信号、話者AとCの音声信号、話者BとCの音声信号それぞれを逐次抽出する。会話処理装置1は、式(2)においてhABをhACまたはhBCに置き換えて、2人の話者間の盛り上がり度hAB、hAC、hBCを算出する。会話処理装置1は、算出した盛り上がり度hAB、hAC、hBCを用いて、図4に示すように重み付き完全グラフを生成する。なお、完全グラフとは、全てのノード間にエッジが存在するグラフである。重み付きグラフとは、エッジに重みが付与されているグラフである。図4は、本実施形態に係る話者が3人の場合の重み付き完全グラフを表す図である。
図4に示すように、話者がA、BおよびCの3人の場合、ノードはAとBとCであり、ノードAとBの間のエッジに対する重みが盛り上がり度hABであり、ノードAとCの間のエッジに対する重みが盛り上がり度hACであり、ノードBとCの間のエッジに対する重みが盛り上がり度hBCである。
なお、話者が4人の場合には、4頂点(ノード)重み付き完全グラフを用い、話者がm人の場合には、m頂点重み付き完全グラフを用いる。
次に、話者が3人の場合の盛り上がり度の例を説明する。
図5は、本実施形態に係る話者AとBとCの会話における盛り上がり度hAB、hBC、hACおよび3つの盛り上がり度の平均h ̄の時間変化の例を表す図である。
図5において、横軸は時刻を表し、縦軸は盛り上がり度を表している。破線g3は、会話が盛り上がっているか否かを判別する際に用いられる閾値を表している。曲線g11は、話者AとBとの会話における時刻に対する盛り上がり度hAB(t)を表し、曲線g12は、話者BとCとの会話における時刻に対する盛り上がり度hBC(t)を表し、曲線g13は、話者AとCとの会話における時刻に対する盛り上がり度hAC(t)を表している。また、曲線g14は、盛り上がり度hAB(t)、hBC(t)、hAC(t)の平均h ̄(t)(=1/3(hAB(t)+hBC(t)+hAC(t)))を表している。
図5に示す例では、時刻t0〜t14の間に会議が行われていたことを表している。話者AとBについては、曲線g11に示すように、時刻t1〜t5の期間と、時刻t9〜t10の期間とに会話が盛り上がっていたことを表している。話者BとCについては、曲線g12に示すように、時刻t6〜t11の期間に会話が盛り上がっていたことを表している。話者AとCについては、曲線g13に示すように、時刻t2〜t4の期間と、時刻t8〜t13の期間とに会話が盛り上がっていたことを表している。そして、話者AとBとCについては、曲線g14に示すように、時刻t3〜t6の期間と、時刻t7〜t12の期間とに会話が盛り上がっていたことを表している。
図5に示すように、本実施形態によれば、会議全体における盛り上がった時刻のみならず、会議の参加者における任意の2人の組み合わせのよる盛り上がり度の時間変化も測定することができる。このような結果を用いて、例えば、会議のリーダーは、会議を行う場合に話者Aが会議に参加する場合、話者Aのパートナーとして話者Bが良いのか話者Cが良いのかを考慮する際の参考にすることができる。
<会議の盛り上げに寄与した話者の推定>
次に、会議の盛り上げに寄与した話者の推定について説明する。
例として、話者が3人の場合について説明する。話者がA、B、Cの3人の場合、上述したように、グラフにおけるノードはA、B、Cであり、エッジの重みは盛り上がり度hAB、hBC、hACである。このような3人の話者における重み付き完全グラフの隣接行列Nは、次式(5)のように表される。
Figure 0006238246
なお、式(5)の第2項において、話者が自分自身の場合の盛り上がり度hAA、hBB、hCCを0とする。また、盛り上がり度hxy=hyx(但しx、y∈{A、B、C})である。この結果、式(5)の第2項は、式(5)の第3項のように表される。
ここで、ペロン・フロベニウスの定理よりすべての成分が非負となる行列の最大固有値に対する固有ベクトル成分は、全ての符号が等しくなる。生成したグラフの隣接行列Nの各成分は、式(5)に示したように全て非負であるため最大固有値に対する固有ベクトル成分はすべての符号が等しい。本実施形態では、最大固有値に対する固有ベクトルRを会話における発話寄与度と定義する。
会話処理装置1は、この隣接行列Nの固有ベクトルRを、次式(6)によって算出する。
Figure 0006238246
式(6)において、λは実数であり、固有値を表している。式(6)に示した固有ベクトルRは、次式(7)のように表される。
Figure 0006238246
式(7)において、Cは話者Aの発話寄与度、Cは話者Bの発話寄与度、Cは話者Cの発話寄与度である。なお、発話寄与度Cは、会議の盛り上げに寄与した度合いを表している。発話寄与度Cの値の最も大きな話者が会話の中心人物である(参考文献1参照)。そして、本実施形態では、所定の時間毎に発話寄与度Cを算出することで、会話の中心人物の時間的な遷移を分析することができる。
なお、上述した会話寄与度Cの算出手法は一例であり、これに限られない。会話処理装置1は、グラフ理論における中心を算出する他の手法を用いて、会話寄与度Cを算出するようにしてもよい。
[参考文献1]“The PageRank Citation Ranking: Bringing Order to the Web.”,Lawrence Page,Sergey Brin,Rajeev Motwani,Terry Winograd, Stanford InfoLab., Technical Report,1999
<会話処理装置1の構成>
次に、会話処理装置1の構成について説明する。
図6は、本実施形態に係る会話処理装置1の構成を示すブロック図である。
図6に示すように、会話処理装置1は、収音部11、音声信号取得部12、音源定位部13、音源分離部14、会話記録部15、操作部16、会話分析部17、および分析結果出力部18を備える。
収音部11は、マイクロフォンであり、マイクロフォン101−1〜101−N(Nは2以上の整数)を備える。なお、収音部11は、マイクロフォンアレイであってもよく、話者毎に装着されるタイピンマイク(ピンマイクとうもいう)であってもよい。なお、マイクロフォン101−1〜101−Nのうちいずれか1つを特定しない場合は、マイクロフォン101という。収音部11は、収音した話者の音声を電気信号に変換して、変換した音声信号を音声信号取得部12に出力する。なお、収音部11は、収録したNチャネルの音声信号を音声信号取得部12に無線で送信してもよいし、有線で送信してもよい。送信の際にチャネル間で音声信号が同期していればよい。
音声信号取得部12は、収音部11のN個のマイクロフォン101によって収録されたN個の音声信号を取得する。音声信号取得部12は、取得したN個の音声信号に対し、時間領域において、フレーム毎にフーリエ変換を行うことで周波数領域の入力信号を生成する。音声信号取得部12は、フーリエ変換したN個の音声信号を音源定位部13および音源分離部14に出力する。
音源定位部13は、音声信号取得部12から入力されたN個の音声信号に基づいて、話者である音源の方位角の推定(音源定位を行うともいう)を行う。音源定位部13は、推定した音源毎の方位角情報を音源分離部14に出力する。音源定位部13は、例えば、MUSIC(Multiple Signal Classification)法を用いて方位角を推定する。なお、方位角の推定には、ビームフォーミング(Beam Forming)法、WDS−BF(Weighted Delay and Sum Beam Forming;重み付き遅延和ビームフォーミング)法、一般化特異値展開を用いたMUSIC(GSVD−MUSIC;Generalized Singular Value Decomposition−Multiple Signal Classification)法等の他の音源方向推定方式を用いてもよい。
音源分離部14は、音声信号取得部12が出力したN個の音声信号と、音源定位部13が出力した音源毎の方位角情報を取得する。音源分離部14は、取得したN個の音声信号を、例えばGHDSS(Geometric High−order Decorrelation−based Source Separation)法を用いて話者毎の音声信号に分離する。または、音源分離部14は、例えば独立成分分析(Independent Component Analysis;ICA)法を用いて、音源分離処理を行ってもよい。音源分離部14は、話者を識別できる識別情報を分離した話者毎の音声信号に対応付けて会話記録部15に記録させる。
なお、音源分離部14は、例えば自部に記憶されている室内の伝達関数を用いて、雑音と話者の音声信号とを分離した後、話者毎の音声信号を分離するようにしてもよい。この場合、音源分離部14は、例えばN個の音声信号毎に音響特徴量を算出し、算出した音響特徴量及び音源定位部13から入力された方位角情報に基づいて、話者毎の音声信号に分離するようにしてもよい。
会話記録部15には、図7に示すように、会議の音声信号が記録された日時(記録日時ともいう)と、話者毎に識別情報と分離された音声信号とが対応付けられて、会議毎に記録されている。図7は、本実施形態に係る会話記録部15に記録されている情報の一例を示す図である。図7に示す例は、話者が3人の場合の例である。図7に示すように、識別情報m(mはA、B、Cのいずれか1つ)と音声信号mとが対応付けられ、さらに記録日時が対応付けられて記録されている。会話記録部15には、図7に示した情報が会議毎に記録されている。
図6に戻って、会話処理装置1の説明を続ける。
操作部16は、利用者の操作を受け付け、受け付けた操作された操作情報を会話分析部17に出力する。操作情報には、例えば、記録されている会議のうちのいずれの会議について分析を行うのかを示す会議選択情報、分析の開始を示す分析開始情報等が含まれている。
会話分析部17は、音源選択部171、音量正規化部172、盛り上がり度算出部173、グラフ生成部174、および寄与度算出部175を備える。なお、会話分析部17の各機能部は、所定の時間毎に各処理を行う。
音源選択部171は、操作部16が出力した操作情報に含まれる分析開始情報に応じて、会議の分析を開始する。音源選択部171は、操作部16が出力した操作情報に含まれる会議選択情報に応じて、会話記録部15に記録されている中から指示された会議の音声信号と識別情報とを読み出す。音源選択部171は、読み出した音声信号の中から、2つの任意の音声信号を、識別情報の数に応じた全てのペアについて逐次選択する。具体的には、図7に示した例において、会話分析部17は、識別情報AとBそれぞれの音声信号AとB、識別情報BとCそれぞれの音声信号BとC、識別情報AとCそれぞれの音声信号AとCを選択する。音源選択部171は、選択した2つの音声信号と識別情報を、音量正規化部172に逐次出力する。なお、音源選択部171は、所定の時間内に、例えば時分割で識別情報の数に応じたペアの音声信号を逐次音量正規化部172に出力する。
音量正規化部172は、音源選択部171が出力した2つの音声信号に対して、前述した式(4)を用いて話者毎に関数f(t)、f(t)を算出することで音量を正規化する。音量正規化部172は、算出したf(t)、f(t)それぞれに識別情報を対応付けて盛り上がり度算出部173に出力する。なお、音量正規化部172は、所定の時間内に、例えば時分割で識別情報の数に応じた組み合わせの音声信号のペア毎に関数f(t)、f(t)を算出する。
盛り上がり度算出部173は、音量正規化部172が出力した関数f(t)、f(t)と、前述した式(3)の境界条件を用いて、式(2)の熱方程式を、例えば差分法によって解くことで、2つの音声信号、すなわち2人の話者間の盛り上がり度hxy(t)を算出する。盛り上がり度算出部173は、算出した盛り上がり度hxy(t)と識別情報とを対応付けて逐次グラフ生成部174に出力する。例えば、図7に示した例において、盛り上がり度算出部173は、算出した盛り上がり度hABと選択された識別情報AとBとを対応付け、盛り上がり度hBCと識別情報BとCとを対応付け、盛り上がり度hACと識別情報AとCとを対応付けてグラフ生成部174に出力する。なお、盛り上がり度算出部173は、所定の時間内に、例えば時分割で識別情報の数に応じた組み合わせの音声信号のペア毎に盛り上がり度hxy(t)を算出する。
また、盛り上がり度算出部173は、全ての話者のペア毎の盛り上がり度の平均h ̄(t)(図5参照)を算出する。盛り上がり度算出部173は、自部に記憶されている閾値を用いて、図5に示したようなペア毎の盛り上がり度hxy(t)の時間変化を表す画像と、盛り上がり度の平均h ̄(t)の時間変化を表す画像とを生成し、生成した画像を分析結果出力部18に出力する。
グラフ生成部174は、盛り上がり度算出部173が出力した盛り上がり度hxy(t)と識別情報とを用いて、重み付き完全グラフを周知の手法で生成する。グラフ生成部174は、生成したグラフの隣接行列Nを式(5)によって生成し、生成した隣接行列Nを寄与度算出部175に出力する。
寄与度算出部175は、グラフ生成部174が出力した隣接行列Nを用いて、所定の時刻毎の固有ベクトルRを式(6)によって算出する。寄与度算出部175は、算出した固有ベクトルRに基づいて、所定の時刻毎の会話の中心人物を推定し、推定した推定結果(例えば図10)を分析結果出力部18に出力する。なお、推定結果の例については後述する。
分析結果出力部18は、盛り上がり度算出部173が出力した画像と寄与度算出部175が出力した推定結果のうち少なくとも1つを分析結果として、外部装置(不図示)、会話処理装置1に接続されている表示部(不図示)、会話処理装置1に接続されているプリンタ(不図示)等に出力する。
<会話処理装置1が行う処理>
次に、会話処理装置1が行う処理手順の例について説明する。
図8は、本実施形態に係る会話処理装置1が行う処理の一例を表すフローチャートである。なお、以下の処理では、すでに会議中の音声信号が取得され、音源分離された話者毎の音声信号と識別情報とが会話記録部15に記録されている。そして、以下の処理は、利用者によって、会議の音声信号に対して解析指示が操作部16によって指示された後に行われる。
(ステップS1)音源選択部171は、操作部16が出力した操作情報に含まれる会議選択情報に応じて、会話記録部15に記録されている中から指示された会議の音声信号と識別情報とを読み出す。続けて、音源選択部171は、読み出した音声信号の中から、2つの任意の音声信号(2人の話者の音声信号)を、識別情報の数に応じた全てのペアについて選択する。
(ステップS2)音量正規化部172は、音源選択部171によって選択された2つの音声信号に対して、前述した式(4)を用いて話者毎に関数f(t)、f(t)を算出することで音量を正規化する。
(ステップS3)盛り上がり度算出部173は、音量正規化部172によって算出された関数f(t)、f(t)と、前述した式(3)の境界条件を用いて、式(2)の熱方程式を解くことで、2人の話者間の盛り上がり度hxy(t)を推定する。続けて、盛り上がり度算出部173は、全ての話者のペア毎の盛り上がり度の平均h ̄(t)を算出し、自部に記憶されている閾値を用いて、ペア毎の盛り上がり度hxy(t)の時間変化を表す画像と、盛り上がり度の平均h ̄(t)の時間変化を表す画像とを生成する。
(ステップS4)音源選択部171は、ステップS1で全てのペアを選択完了しているか否かを判別する。音源選択部171は、全てのペアを選択完了していると判別した場合(ステップS4;YES)、ステップS5に処理を進め、全てのペアを選択完了していないと判別した場合(ステップS4;NO)、ステップS1に処理を戻す。
(ステップS5)グラフ生成部174は、盛り上がり度算出部173によって推定された盛り上がり度hxy(t)と識別情報とを用いて、重み付き完全グラフを周知の手法で生成する。
(ステップS6)寄与度算出部175は、グラフ生成部174によって生成された2人の話者毎かつ所定の時刻毎の隣接行列Nを用いて、所定の時刻毎に固有ベクトルRを式(6)によって算出する。続けて、寄与度算出部175は、算出した固有ベクトルRに基づいて、所定の時刻毎の会話の中心人物を推定する。続けて、分析結果出力部18は、寄与度算出部175によって推定された所定の時刻毎の会話の中心人物を示す情報、または盛り上がり度算出部173によって生成された画像のうち少なくとも1つを解析結果として、外部装置(不図示)等に出力する。
以上で、会話処理装置1が行う処理を終了する。
<実験結果>
次に、本実施形態の会話処理装置1を用いて行った実験結果の一例を説明する。
実験は、3人の話者が参加した会議を記録して行った。
まず、前述した式(2)における会話拡散率Dの値を変化させた結果の例を説明する。
図9は、本実施形態に係る会話拡散率Dの値を変えた場合の盛り上がり度hxy(t)の時間変化の一例を表す図である。図9において、横軸は時刻であり、縦軸は盛り上がり度である。
図9に示す例において、曲線g16は、会話拡散率Dの値が1の例であり、曲線g17は、会話拡散率Dの値が20の例である。図9に示すように、会話拡散率Dの値が小さいほど、盛り上がり度hxy(t)の時間変化はなめらかな曲線となる。
会話拡散率Dの値、および会議が盛り上がっているか否かを判別する際に用いる閾値は、会話処理装置1の利用者によって、予め設定されていてもよい。または、図9に示したような盛り上がり度hxy(t)の時間変化を、会話処理装置1に接続されている表示部(不図示)に表示させ、利用者が表示された画像を見ながら操作部16を操作して会話拡散率Dを設定するようにしてもよい。この場合、例えば、会話拡散率Dの値と閾値値との対応は、寄与度算出部175に記憶されていてもよい。
次に、3人の話者の会話について寄与度算出部175が推定した推定結果の例を説明する。
図10は、本実施形態に係る3人の話者の会話について寄与度算出部175が推定した推定結果の一例を表す図である。図10において、横軸は時刻を表し、縦軸は発話寄与度Cを表す。
また、図10において、曲線g21は、識別情報Aの話者の発話寄与度Cを表し、曲線g22は、識別情報Bの話者の発話寄与度Cを表し、曲線g23は、識別情報Cの話者の発話寄与度Cを表している。
図10に示す例において、発話寄与度Cは、識別情報Bに対応する話者Bが最も高く、続いて識別情報Aに対応する話者Aが高く、識別情報Cに対応する話者Cが他の2人より低いことを表している。
また、図10に示す例では、会議の始めの時間、話者Aの発話寄与度Cが高かったが、その後、話者Bの発話寄与度Cが発話寄与度Cより高くなり、その後もの発話寄与度Cが高いことが分かる。
利用者は、会話処理装置1から出力された図10のような推定結果を使用して、会議の中心人物の時刻毎の変化、会議全体における会議を盛り上げた中心人物を知ることができる。
なお、図10に示した推定結果の例は一例であり、推定結果の表し方は、これに限られない。例えば、分析結果出力部18は、推定結果を、横軸が時刻、縦軸が発話寄与度Cの話者毎の変化の画像を3次元画像で並べて表示するようにしてもよい。
以上のように、本実施形態の会話処理装置1は、複数の話者の音声信号を収音する収音部11と、収音部によって収音された各話者の音声信号を記録する会話記録部15と、会話記録部に記録された音声信号から、任意の2人の話者間の会話を解析して2人の話者間の会話における盛り上がり度合い(盛り上がり度)を算出する会話分析部17と、を備える。
この構成によって、本実施形態によれば、任意の2人の音声信号を用いて、話者間の盛り上がり度を測定することができる。
また、本実施形態の会話処理装置1において、盛り上がり度合い(盛り上がり度)は、任意の2人の話者それぞれが時系列で会話に与えた影響に基づく。
また、本実施形態の会話処理装置1において、会話分析部17は、任意の2人の話者の盛り上がり度合いを、熱方程式(例えば式(2))を用いて算出する。
この構成によって、本実施形態では、抽出された2人の話者が発話したとき、それぞれの発話が時系列で熱伝搬モデルに注入される。そして、本実施形態では、この熱伝搬モデルにおいて熱方程式を解くことで盛り上がり度を算出することができる。
また、本実施形態の会話処理装置1において、会話分析部17は、複数の話者に対して、任意の2人の話者の全てのペアを選択し、選択したペア毎に盛り上がり度合い(盛り上がり度)を算出し、算出したペア毎の盛り上がり度合いをエッジに対する重みに用いて、ノートとエッジとで構成される重み付き完全グラフを生成し、生成した重み付き完全グラフに基づいて、会話の中心人物を推定する。
この構成によって、本実施形態によれば、重み付き完全グラフを用いて、会話の中心人物を推定することができる。
また、本実施形態の会話処理装置1において、会話分析部17は、任意の2人の話者間の会話における音声信号について、音量を正規化する。
また、本実施形態の会話処理装置1において、会話分析部17は、任意の2人の話者間の会話における音声信号について、1回に発話された音声信号の長さに基づいて音量を正規化する。
この構成によって、本実施形態によれば、選択された2人の話者間の音量が異なっていた場合であっても、正規化することで、音量差の影響を低減することができる。また、本実施形態によれば、1人の話者の発話時間を考慮して音量を正規化することで、1人の話者の発話が長くなった場合であっても、盛り上がり度を適切に算出することができる。
また、本実施形態の会話処理装置1において、会話分析部17は、任意の2人の話者の盛り上がり度合い(盛り上がり度)を、所定の時刻毎に算出する。
この構成によって、本実施形態によれば、所定の時刻毎に盛り上がり度を算出できるので、会議における盛り上がり度の時間変化を提供することができる。
また、本実施形態の会話処理装置1において、会話分析部17は、任意の2人の話者の盛り上がり度合いが、所定の閾値より大きい場合に会話が活性化されていたと判別する。
この構成によって、本実施形態によれば、会議が盛り上がっていたか否かを判別することができる。
また、本実施形態の会話処理装置1は、収音部11によって収音された音声信号を用いて音源位置を定位する音源定位部13と、音源定位部によって定位された結果に基づいて音源分離を行う音源分離部14と、を備え、会話記録部15は、音源分離部によって分離された各話者の音声信号を記録する。
この構成によって、例えばマイクロフォンアレイによって収音された音声信号を、音源分離部14によって音源分離を行って、分離された音声信号のうち任意の2人の音声信号を用いて、話者間の盛り上がり度を測定することができる。
なお、本実施形態で説明した会話処理装置1は、例えばICレコーダ、議事録生成装置に適用してもよい。また、会話処理装置1を実行させるアプリケーションをスマートフォン、タブレット端末等にインストールすることで、会話処理装置1を構成するようにしてもよい。
なお、本発明における会話処理装置1の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより盛り上がり度の算出、会話寄与度の算出、会話の中心人物の推定等を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
1…会話処理装置、11…収音部、12…音声信号取得部、13…音源定位部、14…音源分離部、15…会話記録部、16…操作部、17…会話分析部、18…分析結果出力部、171…音源選択部、172…音量正規化部、173…盛り上がり度算出部、174…グラフ生成部、175…寄与度算出部、hAB、hAC、hBC、hXY…盛り上がり度、h ̄…盛り上がり度の平均、C、C、C、C…会話寄与度

Claims (10)

  1. 複数の話者の音声信号を収音する収音部と、
    前記収音部によって収音された各話者の音声信号を記録する会話記録部と、
    前記会話記録部に記録された音声信号から、任意の2人の話者間の会話を解析して前記2人の話者間の会話における盛り上がり度合いを算出し、前記任意の2人の話者間の会話における音声信号について、1回に発話された音声信号の長さに基づいて音量を正規化する会話分析部と、
    を備える会話処理装置。
  2. 前記会話分析部は、
    次式を用いて前記音量を正規化する、
    Figure 0006238246
    (ただし、f (t)は会話盛り上がり度に他方の話者が与えた影響を示す関数であり、mは1または2であり、tは時刻を表し、vは正規化された音量の値であり、t は発話開始時刻であり、αは発話開始時刻tlからの経過時間に応じた発話lの寄与の低下を表す減衰定数である)
    請求項1に記載の会話処理装置。
  3. 前記盛り上がり度合いは、
    前記任意の2人の話者それぞれが時系列で会話に与えた影響に基づく請求項1または請求項2に記載の会話処理装置。
  4. 前記会話分析部は、
    前記任意の2人の話者の前記盛り上がり度合いを、熱方程式を用いて算出する請求項1から請求項3のいずれか1項に記載の会話処理装置。
  5. 前記会話分析部は、
    前記複数の話者に対して、前記任意の2人の話者の全てのペアを選択し、選択した前記ペア毎に前記盛り上がり度合いを算出し、算出した前記ペア毎の前記盛り上がり度合いをエッジに対する重みに用いて、ノートとエッジとで構成される重み付き完全グラフを生成し、生成した前記重み付き完全グラフに基づいて、会話の中心人物を推定する請求項1から請求項のいずれか1項に記載の会話処理装置。
  6. 前記会話分析部は、
    前記任意の2人の話者の前記盛り上がり度合いを、所定の時刻毎に算出する請求項1から請求項のいずれか1項に記載の会話処理装置。
  7. 前記会話分析部は、
    前記任意の2人の話者の前記盛り上がり度合いが、所定の閾値より大きい場合に前記会話が活性化されていたと判別する請求項1から請求項のいずれか1項に記載の会話処理装置。
  8. 前記収音部によって収音された音声信号を用いて音源位置を定位する音源定位部と、
    前記音源定位部によって定位された結果に基づいて音源分離を行う音源分離部と、
    を備え、
    前記会話記録部は、
    前記音源分離部によって分離された各話者の音声信号を記録する請求項1から請求項のいずれか1項に記載の会話処理装置。
  9. 収音部が、複数の話者の音声信号を収音する収音手順と、
    会話記録部が、前記収音手順によって収音された各話者の音声信号を記録する会話記録手順と、
    会話分析部が、前記会話記録手順によって記録された音声信号から、任意の2人の話者間の会話を解析して前記2人の話者間の会話における盛り上がり度合いを算出し、前記任意の2人の話者間の会話における音声信号について、1回に発話された音声信号の長さに基づいて音量を正規化する会話分析手順と、
    を含む会話処理方法。
  10. 前記会話分析部が、前記会話分析手順において次式を用いて前記音量を正規化する、
    Figure 0006238246
    (ただし、f (t)は会話盛り上がり度に他方の話者が与えた影響を示す関数であり、mは1または2であり、tは時刻を表し、vは正規化された音量の値であり、t は発話開始時刻であり、αは発話開始時刻tlからの経過時間に応じた発話lの寄与の低下を表す減衰定数である)
    請求項9に記載の会話処理方法。
JP2015084130A 2015-04-16 2015-04-16 会話処理装置、および会話処理方法 Active JP6238246B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015084130A JP6238246B2 (ja) 2015-04-16 2015-04-16 会話処理装置、および会話処理方法
US15/091,886 US10013982B2 (en) 2015-04-16 2016-04-06 Conversation processing apparatus and conversation processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015084130A JP6238246B2 (ja) 2015-04-16 2015-04-16 会話処理装置、および会話処理方法

Publications (2)

Publication Number Publication Date
JP2016206261A JP2016206261A (ja) 2016-12-08
JP6238246B2 true JP6238246B2 (ja) 2017-11-29

Family

ID=57128619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015084130A Active JP6238246B2 (ja) 2015-04-16 2015-04-16 会話処理装置、および会話処理方法

Country Status (2)

Country Link
US (1) US10013982B2 (ja)
JP (1) JP6238246B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7135295B2 (ja) * 2017-10-26 2022-09-13 富士フイルムビジネスイノベーション株式会社 装置
JP2019101385A (ja) * 2017-12-08 2019-06-24 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
US10827028B1 (en) 2019-09-05 2020-11-03 Spotify Ab Systems and methods for playing media content on a target device
US12038973B2 (en) * 2020-01-17 2024-07-16 Nippon Telegraph And Telephone Corporation Relation visualizing apparatus, relation visualizing method and program
US11328722B2 (en) 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
JP7668030B2 (ja) * 2021-02-02 2025-04-24 株式会社I’mbesideyou ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
US12293771B2 (en) * 2022-09-06 2025-05-06 Dell Products, L.P. Equalization of audio during a collaboration session in a heterogenous computing platform

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4931934A (en) * 1988-06-27 1990-06-05 Snyder Thomas E Method and system for measuring clarified intensity of emotion
US5025471A (en) * 1989-08-04 1991-06-18 Scott Instruments Corporation Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
US5862519A (en) * 1996-04-02 1999-01-19 T-Netix, Inc. Blind clustering of data with application to speech processing systems
US6011851A (en) * 1997-06-23 2000-01-04 Cisco Technology, Inc. Spatial audio processing method and apparatus for context switching between telephony applications
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
US6480826B2 (en) * 1999-08-31 2002-11-12 Accenture Llp System and method for a telephonic emotion detection that provides operator feedback
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US7475013B2 (en) * 2003-03-26 2009-01-06 Honda Motor Co., Ltd. Speaker recognition using local models
JP4804801B2 (ja) * 2005-06-03 2011-11-02 日本電信電話株式会社 会話構造推定方法、プログラム、および記録媒体
JP5055781B2 (ja) * 2006-02-14 2012-10-24 株式会社日立製作所 会話音声分析方法、及び、会話音声分析装置
JP4816221B2 (ja) 2006-04-21 2011-11-16 ヤマハ株式会社 収音装置および音声会議装置
US9646603B2 (en) * 2009-02-27 2017-05-09 Longsand Limited Various apparatus and methods for a speech recognition system
JP5433696B2 (ja) * 2009-07-31 2014-03-05 株式会社東芝 音声処理装置
US8666672B2 (en) * 2009-11-21 2014-03-04 Radial Comm Research L.L.C. System and method for interpreting a user's psychological state from sensed biometric information and communicating that state to a social networking site
US8825584B1 (en) * 2011-08-04 2014-09-02 Smart Information Flow Technologies LLC Systems and methods for determining social regard scores
WO2013056721A1 (de) * 2011-10-18 2013-04-25 Siemens Enterprise Communications Gmbh & Co.Kg Verfahren und vorrichtung zur bereitstellung von in einer konferenz erzeugten daten
JP5433760B2 (ja) * 2012-10-18 2014-03-05 株式会社日立製作所 会議分析システム
US11232466B2 (en) * 2015-01-29 2022-01-25 Affectomatics Ltd. Recommendation for experiences based on measurements of affective response that are backed by assurances

Also Published As

Publication number Publication date
JP2016206261A (ja) 2016-12-08
US10013982B2 (en) 2018-07-03
US20160307570A1 (en) 2016-10-20

Similar Documents

Publication Publication Date Title
JP6238246B2 (ja) 会話処理装置、および会話処理方法
CN110070882B (zh) 语音分离方法、语音识别方法及电子设备
US8731936B2 (en) Energy-efficient unobtrusive identification of a speaker
CN105405439B (zh) 语音播放方法及装置
EP2541543B1 (en) Signal processing apparatus and signal processing method
US9916843B2 (en) Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium to determine whether voice signals are in a conversation state
JP2023120294A5 (ja)
US20180286423A1 (en) Audio processing device, audio processing method, and program
WO2018223727A1 (zh) 识别声纹的方法、装置、设备及介质
JP6737398B2 (ja) 重要単語抽出装置、関連会議抽出システム、及び重要単語抽出方法
CN114127846B (zh) 语音跟踪收听设备
CN108417201A (zh) 单信道多说话人身份识别方法及系统
CN110169082A (zh) 组合音频信号输出
EP2806415B1 (en) Voice processing device and voice processing method
US20210335352A1 (en) Information processing apparatus
US10176818B2 (en) Sound processing using a product-of-filters model
CN111640451A (zh) 一种成熟度评估方法及装置、存储介质
CN107393549A (zh) 时延估计方法及装置
CN116895284B (zh) 自适应声掩蔽方法、装置、设备及可读存储介质
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
Williams et al. Privacy-preserving occupancy estimation
KR20210054174A (ko) 음성 데이터의 주기 성분을 이용하여 화자를 분류하는 장치, 방법 및 컴퓨터 프로그램
CN116612772B (zh) 音频数据生成方法、装置、设备及存储介质
JP2016111426A (ja) 推定装置、推定方法、およびプログラム
WO2019156079A1 (ja) 推定装置、推定方法、およびプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170207

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171024

R150 Certificate of patent or registration of utility model

Ref document number: 6238246

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150