WO2011105003A1

WO2011105003A1 - 信号処理装置及び信号処理方法

Info

Publication number: WO2011105003A1
Application number: PCT/JP2011/000358
Authority: WO
Inventors: 山田麻紀; 遠藤充; 水島考一郎
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 2010-02-25
Filing date: 2011-01-24
Publication date: 2011-09-01
Anticipated expiration: 2012-08-25
Also published as: US8644534B2; EP2541543A4; CN102388416A; EP2541543B1; JP5607627B2; US20130289982A1; US20140012576A1; CN102388416B; US8682012B2; US20120020505A1; JPWO2011105003A1; EP2541543A1; US8498435B2

Abstract

　日常的な環境においても、会話が成立していることを正しく検出することができる信号処理装置及び信号処理方法を提供する。信号処理装置（１００）において、音源分離部（１３０）は、複数の音源が入り混じった混合音信号を音源毎に分離する。音声検出部（１４０）は、分離された複数の音源信号のそれぞれについて音声検出を行い、複数の音源信号が音声か否か判定して、音源信号毎に音声／非音声情報を示す音声区間情報を生成する。識別パラメータ抽出部（１５０）は、複数の音源信号、又は、音声区間情報に基づいて、日常会話の特徴量を示す識別パラメータを抽出する。会話成立度計算部（１６０）は、抽出された前記識別パラメータに基づいて、会話成立度を計算し出力する。会話相手判定部（１７０）は、会話成立度を用いて、どの音源が会話相手であるかを判定する。

Description

信号処理装置及び信号処理方法

　本発明は、周囲に他人の声や騒音のある環境下で、会話している組を抽出する信号処理装置及び信号処理方法に関する。

　従来の会話している組を抽出する信号処理装置としては、有音／無音評価による音声信号の時系列データ間の相関関係に基づいて、会話の成立度合いを判断し有効音声を抽出する装置があった（特許文献１参照）。

　特許文献１に記載の信号処理装置では、成立している会話では２音源間で有音が交互に現れる現象を利用して、分離された音源信号の有音／無音評価を行ない、２音源間の有音／無音の組み合わせによって、会話成立度合いを算出する。図１は、特許文献１に記載された会話成立度合い算出方法の考え方を示すものである。対象音声信号及び受話信号のうち、一方が有音、もう一方が無音であれば、会話成立度合いを加点し、有音同士又は無音同士であれば減点する。そして、この会話成立度合いが大きい組み合わせの音源同士を会話が成立しているとしていた。

特開２００４－１３３４０３号公報特開２００２－６８７４号公報特開２００４－２４３０２３号公報特開平１－９３２９８号公報

「音声処理と顔画像処理を統合した対話映像からの笑いの認識（Smile and Laughter Recognition using Speech Processing and Face Recognition from Conversation Video）」伊藤彰規則他、東北大、2005-NL-167,2005-SLP-56,2005/5/26

　しかしながら、日常的なくだけた会話では、会話をしている話者の発話は、時間的にきれいに交互には現れない。ここでいう日常的なくだけた会話とは、会議のような形式に則った会話ではなく、参加者が自由に話す雑談のような会話を指す。そして、このような日常的な会話は、くだけた会話であればあるほど、発話の重なり（クロストーク）も多くなる傾向がある。したがって、日常会話では、有音の時間的重なりが多くなる。このため、有音／無音の組み合わせだけで会話成立度を求める従来技術では、正しく会話相手と非会話相手とを区別することが難しい。

　また、日常的なくだけた会話では、笑いを伴ってしゃべることも多い。笑いは有音であり、従来技術のようにパワーで有音判定し、有音／無音の組み合わせだけで会話成立度を求める方法では、笑いが同時に起こったときに会話成立度は低くなってしまい、正しく会話相手と非会話相手とを区別することが難しい。

　また、従来技術では、一方の話者が有音、もう一方の話者が無音であれば、会話成立度を加点するため、一方的に人の声がずっとするような場合においても、会話成立とみなされてしまっていた。会議など会話が行われている場面において、会話相手を見つける場合には従来の方法でもよい。しかし、補聴器のようにユーザがウェアラブルマイクを常時身に付けているような状況では、ユーザの独り言や、自分としゃべっているわけではない他人の声がマイクにずっと入力される場合も数多くあり、実用性に欠けていた。

　このように、実際の日常的な環境においては、前記従来の方法のように有音／無音の組み合わせだけで会話成立度を求める方法では、会話が成立していることを正しく検出することが難しいという課題を有し、実用性に欠けていた。

　本発明の目的は、日常的な環境においても、会話が成立していることを正しく検出することができる信号処理装置及び信号処理方法を提供することである。

　本発明の信号処理装置は、複数の音源が入り混じった混合音信号を音源毎に分離する分離部と、前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声／非音声情報を示す音声区間情報を生成する音声検出部と、前記音声区間情報を用いて、発話重なり継続長を計算し分析する発話重なり継続長抽出部と、前記沈黙継続長を計算し分析する沈黙継続長抽出部の少なくとも一方と、抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算する会話成立度計算部と、を具備する構成を採る。

　この構成によれば、日常的な環境においても、会話が成立していることを正しく検出することができる。例えば、相手の発話中に相槌を入れたり、相手が完全にしゃべり終わらないうちに発話を始めたり、短い沈黙が発生したりするなどの日常会話の特徴を利用することにより、くだけた日常会話においても、会話相手を正しく判定することができる。

　本発明の信号処理装置は、上記信号処理装置において、前記発話重なり継続長抽出部または前記沈黙継続長抽出部に代えて、前記分離された複数の音源信号のそれぞれについて笑い検出を行い、前記識別パラメータとして、笑い区間情報を抽出する笑い検出部、を具備し、前記会話成立度計算部は、前記複数の音源信号の組み合わせについて、前記音声区間情報及び前記笑い区間情報を用いて、前記会話成立度を計算する、構成を採る。

　この構成によれば、笑いを検出し、笑いの重なりに着目した会話成立度の評価をすることにより、くだけた日常会話においても、会話が成立していることを正しく検出することができる。

　本発明の信号処理装置は、上記信号処理装置において、前記発話重なり継続長抽出部または前記沈黙継続長抽出部に代えて、前記複数の音源信号の組み合わせについて、前記識別パラメータとして、発話比率情報を抽出する発話比率計算部、を具備し、前記会話成立度計算部は、前記音声区間情報及び前記発話比率情報を用いて、前記会話成立度を計算する、構成を採る。

　この構成によれば、自分と相手との発話区間比が極端に偏っていた場合は、会話成立度が低くなるようにすることにより、信号処理装置は、誤動作を回避することができる。例えば、補聴器のように日常的に身に付ける機器においても、自分の独り言や、自分が会話していないときの他人の声などにより、信号処理装置は、誤動作しないようになる。

　本発明の信号処理方法は、複数の音源が入り混じった混合音信号を音源毎に分離する分離ステップと、前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声／非音声情報を示す音声区間情報を生成する音声検出ステップと、前記複数の音源信号の組み合わせについて、前記音声区間情報を用いて、発話重なり継続長を計算し分析するステップ、及び、前記沈黙継続長を計算し分析するステップの少なくとも一方と、抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算する計算ステップと、を有するようにした。

　この方法によれば、日常的な環境においても、会話が成立していることを正しく検出することができる。

　本発明によれば、日常的な環境下においても、会話が成立していることを正しく検出することができるので、会話が成立している音声を聞きやすく調整したり、記録したりすることができる。

特許文献１に記載された会話成立度合い算出法の考え方を示す図日常会話データの発話重なり継続長の分布を表す図日常会話データの沈黙継続長の分布を表す図本発明の実施の形態１に係る信号処理装置の要部構成を示すブロック図本体とイヤホンとが分離した形態のリモコン型補聴器に本発明を適用した一例を表す図リモコン型補聴器を実際に使用するときの人の位置関係の例を表した図実施の形態１に係る補聴器の動作を表すフローチャート発話重なり分析値Ｐｃの求め方を説明するための図実施の形態１のシミュレーション実験による会話相手検出率を表す図会話相手に対する笑い／発話／無音の重なり継続長合計を示す図非会話相手に対する笑い／発話／無音の重なり継続長合計を示す図会話相手である割合を算出した結果を示す図本発明の実施の形態２に係る信号処理装置の要部構成を示すブロック図実施の形態２係る補聴器の動作を表すフローチャート発話／笑い／無音の組み合わせによる会話成立度の算出方法を説明するための図ある一組の会話の時間窓幅ごとの発話区間比Ｒｂの推移の例を表した図本発明の実施の形態３に係る信号処理装置の要部構成を示すブロック図実施の形態３係る補聴器の動作を表すフローチャート本発明の実施の形態４に係る信号処理装置の要部構成を示すブロック図実施の形態４係る補聴器の動作を表すフローチャート

　以下、本発明の実施の形態について、図面を参照して詳細に説明する。

　（実施の形態１）
　本実施の形態では、発話の重なり又は沈黙の継続長に着目して、会話成立度を算出する。本実施の形態の具体的な構成及び動作を説明する前に、先ず、本発明者らが、発話の重なり又は沈黙の継続長に着目した点について説明する。

　日常的なくだけた会話では、会話をしている話者の発話は、時間的にきれいに交互には現れない。くだけた会話であればあるほど、発話の重なり（クロストーク）も多くなる傾向がある。したがって、日常会話では、有音の時間的重なりが多くなるため、有音／無音の組み合わせだけで会話成立度を求める従来技術では、正しく会話相手と非会話相手とを区別することが難しいという課題を有していた。本実施の形態は、上記課題を解決する。

　日常会話では、一方の話者がしゃべり終わる前にもう一方の話者がしゃべりだしたり、一方の話者がしゃべっている途中にもう一方の話者が相槌を入れたりすることが頻繁に行われる。そこで、本発明者らは、このような発話の重なりの継続長に着目した。

　先ず、本発明者らは、実際に９組の日常会話それぞれ１０分程度を収音し、このデータについて、会話相手に対する発話重なりと、非会話相手に対する発話重なりの継続長について分析を行なった。

　図２は、発話重なりが一回に連続する区間の長さ（継続長）の分布を、会話相手、非会話相手のそれぞれについて表したグラフである。図２において、横軸は一回の発話重なりが連続する区間の長さを表し、縦軸は頻度を表している。

　その結果、会話をしている相手とは、一回の発話重なりが連続する区間の長さが短い場合が多く、非会話相手とは、一回の発話重なりが連続する区間の長さが長い場合が多いことがわかった。そこで、本実施の形態では、単に発話重なりが多いか少ないかではなく、発話重なりが一回に連続する区間の長さ（継続長）に着目したパラメータを導入する。

　また、本発明者らは、両方の話者が黙っている状態を沈黙と定義し、沈黙の継続長についても、同様に分析を行った。

　図３は、沈黙が一回に連続する区間の長さ（継続長）の分布を、会話相手、非会話相手のそれぞれについて表したグラフである。図３において、横軸は一回に沈黙が連続する区間の長さを表し、縦軸は頻度を表している。

　その結果、発話重なりと同様に、沈黙についても、会話相手に対しては、非会話相手に対してと比べ、沈黙の継続長が短い場合が多いということがわかった。そこで、本実施の形態では、発話重なりと同様に、沈黙一回に連続する区間の長さ（継続長）に着目したパラメータを導入する。

　以下、本実施の形態に係る信号処理装置の内部構成について説明する。

　図４は、本実施の形態に係る信号処理装置１００の要部構成を示すブロック図である。

　マイクロホンアレイ１１０は、複数のマイクを配置した収音装置である。

　Ａ／Ｄ（Analog to Digital）変換部１２０は、それぞれのマイクで収音された音信号をデジタル信号に変換する。

　音源分離部１３０は、各マイクに到来する音信号の到来時間の差を利用して信号処理することにより、複数の音源が入り混じった混合音信号を音源毎に分離する。

　音声検出部１４０は、音源分離部１３０により分離された音信号が、音声であるか否かを判定し、音源毎に音声／非音声の検出結果を示す音声区間情報を生成する。音声検出部１４０における音声検出方法については、後述する。

　識別パラメータ抽出部１５０は、会話相手を判定（識別）し、会話成立度を算出する際に用いる、識別パラメータを抽出する。識別パラメータの詳細については、後述する。本実施の形態では、識別パラメータ抽出部１５０は、発話重なり継続長分析部１５１及び沈黙継続長分析部１５２を有する。

　発話重なり継続長分析部１５１は、音声検出部１４０により判定された音源毎の音声／非音声の検出結果を示す音声区間情報を用いて、音源間の発話重なり区間の継続長（以下「発話重なり継続長分析値」という）を求め分析する。

　沈黙継続長分析部１５２は、音声検出部１４０により判定された音源毎の音声／非音声の検出結果を示す音声区間情報を用いて、音源間の沈黙区間の継続長（以下「沈黙継続長分析値」という）を求め分析する。

　このようにして、識別パラメータ抽出部１５０は、日常会話の特徴量を示す識別パラメータとして、発話重なり継続長分析値及び沈黙継続長分析値を抽出する。なお、識別パラメータ抽出部１５０における発話重なり分析値及び沈黙分析値の算出方法については、後述する。

　会話成立度計算部１６０は、発話重なり継続長分析部１５１により算出された発話重なり継続長分析値と、沈黙継続長分析部１５２により算出された沈黙継続長分析値とに基づいて、会話成立度を算出する。会話成立度計算部１６０における会話成立度の算出方法については、後述する。

　会話相手判定部１７０は、会話成立度計算部１６０において算出された会話成立度を用いて、どの音源が会話相手であるかを判定する。

　出力音制御部１８０は、会話相手判定部１７０において判定された会話相手の声が聞き取りやすくなるように、音源分離部１３０により分離された音信号に対して、出力音を制御して出力する。具体的には、出力音制御部１８０は、音源分離部１３０により分離された音信号に対して、非会話相手である音源方向を抑圧する指向性制御を行う。

　図５は、補聴器本体とイヤホンとが分離した形態のリモコン型補聴器（以下、「補聴器」と略記する）２００に、本実施の形態に係る信号処理装置１００を適用した例である。

　補聴器２００は、補聴器本体２１０及びイヤホン２６０を備える。

　補聴器本体２１０は、マイクロホンアレイ２２０、Ａ／Ｄ変換部２３０、ＣＰＵ２４０、及び、メモリ２５０から構成されている。マイクロホンアレイ２２０は、８個のマイクが円状に配置されている。Ａ／Ｄ変換部２３０は、マイクロホンアレイ２２０により収音された音信号をデジタル信号に変換する。ＣＰＵ２４０は、補聴器本体２１０の制御及び演算を行う。メモリ２５０は、演算に使用するデータを記憶する。

　音信号を出力するイヤホン２６０は、補聴器本体２１０と接続されている。ＣＰＵ２４０は、メモリ２５０を使用して、ユーザの聴覚に合わせた音信号の増幅など通常の補聴処理のほかに、上述の音源分離、音声検出、発話重なり継続長分析、沈黙継続長分析、会話成立度計算、会話相手判定、出力音制御を行なう。

　通常、補聴器本体２１０は、卓上に置かれ、補聴器本体２１０の内部のマイクロホンアレイ２２０が収音した音を加工して、イヤホン２６０を装着したユーザに聞かせる。本実施の形態では、補聴器本体２１０とイヤホン２６０との接続が有線の場合について説明するが、補聴器本体２１０とイヤホン２６０とを無線通信により接続してもよい。

　次に、以上のように構成された補聴器２００の動作を説明する。

　図６は、図５の補聴器２００を実際に使用するときの人の位置関係の例を表した図である。図６において、補聴器２００のユーザは、イヤホン２６０を装着する。補聴器本体２１０は、テーブル上に置かれ、ユーザは、正面にいる会話相手と会話をしている。なお、補聴器本体２１０は、本体前方（図５の▲の方向）に補聴器２００のユーザが来るようにテーブルに置かれるものとする。なお、図６の例では、補聴器２００のユーザから見て、右側には、無関係な話者による会話が行われており、妨害音となっている。

　図７は、本実施の形態に係る信号処理装置１００を搭載した補聴器２００の動作を示すフローチャートである。図７のフローチャートを用いて補聴器２００の動作を説明する。図中、Ｓはフローの各ステップを示す。なお、図７の各ステップにおける以下の処理は、ＣＰＵ２４０及びメモリ２５０を使用して行われる。ＣＰＵ２４０及びメモリ２５０では、短時間単位（フレーム、ここでは１０ｍｓｅｃとする）ごとに処理が進められる。

　まず、ステップＳ１１０において、Ａ／Ｄ変換部１２０は、補聴器本体２１０に内蔵されたマイクロホンアレイ１１０（２２０）から入力された音信号を、Ａ／Ｄ変換し、音源分離部１３０に出力する。

　次に、ステップＳ１２０において、音源分離部１３０は、各マイクに到来する音信号の到来時間の差を利用して、フレーム毎に方向別に音信号を分離する。ここで、音源分離部１３０は、前後左右斜め４５°ずつ８つの方向ｋ（ｋ＝１，２，…，８）に音信号を分離するものとする。

　ここで、この分離された音信号は、ユーザがいる補聴器２００の前方から反時計回りに順にＳ１，Ｓ２，Ｓ３，Ｓ４，Ｓ５，Ｓ６，Ｓ７，Ｓ８とする。この８方向のうち補聴器２００の前方は、補聴器２００のユーザがいる方向であるため、この方向から来る音信号Ｓ１はユーザの声であるとする。

　次に、分離された８方向の音信号Ｓｋ（ｋ：方向、ｋ＝１，２，…，８）それぞれについて、ステップＳ１３０の処理を行う。

　ステップＳ１３０において、音声検出部１４０は、音信号Ｓｋ（ｋ：方向、ｋ＝１，２，…，８）について音声／非音声検出を行う。音声検出の方法としては、例えば、ここでは音声帯域（例えば２００Ｈｚ～４０００Ｈｚ）におけるパワーをフレーム毎に計算し、時間方向に平滑化を行い、パワーが閾値を越えた場合に音声と判定する。より精度良く音声検出するために、後処理で、短時間の音声区間は無音扱いにしたり、音声が続いたときに短時間の無音がある場合には、音声扱いとしたりするなどの処理を行うことが望ましい。

　なお、音声検出の方法は、音声帯域のパワーによる方法に限るものではなく、調波構造を検出する方法、或いは、モデルと照合する方法等、他の方法を用いてもよい。

　以下では、音声検出部１４０により、音声と判定された区間を発話区間と定義する。

　次に、前方の音信号Ｓ１と、前方を除いた７方向の音信号Ｓ２からＳ８のそれぞれの組み合わせについて、ステップＳ１４０、Ｓ１５０の処理を行う。

　ステップＳ１４０において、発話重なり継続長分析部１５１及び沈黙継続長分析部１５２は、音信号Ｓ１と音信号Ｓｋ（ｋ：方向、ｋ＝２，３，…，８）との発話の重なり及び沈黙の区間の継続長を求める。そして、発話重なり継続長分析部１５１及び沈黙継続長分析部１５２は、フレームｔにおける発話重なり分析値Ｐｃ及び沈黙分析値Ｐｓをそれぞれ算出し、これらを会話成立度計算部１６０に出力する。

　以下、発話重なり分析値Ｐｃ及び沈黙分析値Ｐｓの算出方法について説明する。始めに、発話重なり分析値Ｐｃの算出方法について、図８を参照しながら説明する。

　図８Ａにおいて、四角で示された区間は、音声検出部１４０により生成される音声／非音声の検出結果を示す音声区間情報に基づいて、音信号Ｓ１が音声と判定された発話区間を示している。図８Ｂにおいて、四角で示された区間は、音信号Ｓｋが音声と判定された発話区間を示している。そして、発話重なり継続長分析部１５１は、これらの区間が重なる部分を発話重なりと定義する（図８Ｃ）。

　発話重なり継続長分析部１５１における具体的な動作は、次の通りである。フレームｔにおいて、発話重なりが開始する場合、発話重なり継続長分析部１５１は、当該フレームを始端フレームとして記憶しておく。そして、フレームｔにおいて発話重なりが終了した場合、発話重なり継続長分析部１５１は、これをひとつの発話重なりとみなし、始端フレームからの時間長を発話重なりの継続長とする。

　図８Ｃにおいて、楕円で囲んだ部分は、フレームｔ以前の発話重なりを表している。そして、フレームｔにおいて、発話重なりが終了した場合、発話重なり継続長分析部１５１は、フレームｔ以前の発話重なりの継続長に関する統計量を求め、記憶しておく。さらに、発話重なり継続長分析部１５１は、この統計量を用いて、フレームｔにおける発話重なり分析値Ｐｃを算出する。発話重なり分析値Ｐｃは、発話重なりの中で、その継続長が短い場合が多いのか長い場合が多いのかを表すパラメータであることが望ましい。

　次に、沈黙分析値Ｐｓの算出方法について説明する。

　まず、沈黙継続長分析部１５２は、音声検出部１４０により生成される音声区間情報に基づいて、音信号Ｓ１が非音声と判定された区間と、音信号Ｓｋが非音声と判定された区間とが重なる部分を沈黙と定義する。発話重なりの分析度と同様にして、沈黙継続長分析部１５２は、沈黙区間の継続長を求め、フレームｔ以前の沈黙区間の継続長に関する統計量を求め記憶しておく。さらに、沈黙継続長分析部１５２は、この統計量を用いて、フレームｔにおける沈黙分析値Ｐｓを算出する。沈黙分析値Ｐｓも、沈黙の中でその継続長が短い場合が多いのか長い場合が多いのかを表すパラメータであることが望ましい。

　以下に、具体的な発話重なり分析値Ｐｃ及び沈黙分析値Ｐｓの算出方法を説明する。

　沈黙継続長分析部１５２は、フレームｔにおいて、継続長に関する統計量を、それぞれ記憶・更新する。継続長に関する統計量は、フレームｔ以前の（１）発話重なりの継続長の和Ｗｃ、（２）発話重なりの個数Ｎｃ、（３）沈黙の継続長の和Ｗｓ、及び（４）沈黙の個数Ｎｓを含む。そして、発話重なり継続長分析部１５１及び沈黙継続長分析部１５２は、フレームｔ以前の発話重なりの平均継続長Ａｃ、及び、フレームｔ以前の沈黙区間の平均継続長Ａｓを式（1－１）、（1－２）により、それぞれ求める。

　Ａｃ、Ａｓは、値が小さいほどそれぞれ短い発話重なり、短い沈黙が多いことを表す。そこで、大小関係をあわせるためにＡｃ、Ａｓの符号を反転させて発話重なり分析値Ｐｃ及び沈黙分析値Ｐｓは、次の式（２－１）、（２－２）ように定義する。

　なお、発話重なり分析値Ｐｃ及び沈黙分析値Ｐｓの他にも、継続長が短い会話が多いか長い会話が多いかを表すパラメータとしては、次のようなパラメータも考えられる。

　パラメータの算出は、発話重なり及び沈黙の継続長が閾値Ｔ（例えばＴ＝１秒）より短い会話と、Ｔ以上の長い会話とに分けて、それぞれの出現個数又は継続長和を求める。次に、パラメータの算出は、フレームｔ以前に出現する継続長の短い会話の出現個数又は継続長和に対する割合を求める。すると、この割合は、値が大きいほど短い継続長の会話が多いことを表すパラメータとなる。

　なお、これらの統計量は、ひとつの会話のまとまりの性質を表すように、沈黙が一定時間続いた時点で初期化する。あるいは、統計量は、一定時間（例えば２０秒）ごとに初期化するようにしてもよい。また、統計量は、常に過去一定時間窓内の発話重なり、沈黙継続長の統計量を用いるようにしてもよい。

　また計算量削減のため、音声が一定時間検出されなかった音源方向には人がいないと判定し、次に音声が検出されるまで上記処理を行わないようにしてもよい。

　再度、図７に戻り、ステップＳ１５０において、会話成立度計算部１６０は、音信号Ｓ１と音信号Ｓｋとの会話成立度を計算し、会話成立度を会話相手判定部１７０に出力する。

　フレームｔにおける会話成立度Ｃ_1,k(t)は、例えば、式（３）のように定義される。

　なお、発話重なり分析値Ｐｃの重みｗ１及び沈黙分析値Ｐｓの重みｗ２は、実験によりあらかじめ最適値を求めておく。

　フレームｔは、全ての方向の音源に対して無音が一定時間続いた時点で初期化する。そして、会話成立度計算部１６０は、どれかの方向の音源にパワーがあったときにカウントを始める。なお、会話成立度は、遠い過去のデータを忘却させて最新の状況に適応させる時定数を用いて求めてもよい。

　７方向の会話成立度Ｃ_1,k(t)（ｋ：方向、ｋ＝２，３，…，８）が求まると、次にステップＳ１６０おいて、会話相手判定部１７０は、どの方向の音源がユーザの会話相手であるかを判定する。そして、会話相手判定部１７０は、判定結果を出力音制御部１８０に出力する。会話相手の判定方法としては、全ての方向のＣ_1,k(t)から、閾値θを超えかつ最も値が大きい一方向の音源を会話相手とする。

　また、会話相手の他の判定方法としては、例えば、以下のようなバリエーションが考えられる。
　・全ての方向のＣ_1,k(t)から、閾値θを超える方向の音源は、すべて会話相手とする。
　・全ての方向ではなく、前方（Ｓ３～Ｓ７など）のみを探索対象とする。
　・直前に会話相手が判定されている場合、その方向及び隣り合う方向のみを探索対象とする（話者移動は時間的に急速には行われないため）。

　最後に、ステップＳ１７０において、出力音制御部１８０は、会話相手と判定された方向に、指向性を制御することにより、入力された混合音を聞き取りやすく加工してイヤホン２６０から出力される。

　なお、以上の説明では、識別パラメータ抽出部１５０が、発話重なり継続長分析部１５１及び沈継続長分析部１５２を有する場合について説明した。なお、本実施の形態では、発話重なり継続長分析部１５１及び沈継続長分析部１５２のうち、いずれか一方のみを有するようにしてもよい。その場合には、式（３）において、発話重なり分析値Ｐｃの重みｗ１又は沈黙分析値Ｐｓの重みｗ２のいずれか一方が０に設定されていることと等価となる。

　以上のように、本実施の形態では、識別パラメータ抽出部１５０が、発話重なり継続長分析部１５１又は沈継続長分析部１５２の少なくとも一方を有する構成とした。発話重なり継続長分析部１５１は、音声区間情報を用いて、発話重なり継続長を計算し分析し、沈継続長分析部１５２は、沈黙継続長を計算し分析する。そして、会話成立度計算部１６０は、発話重なり継続長及び沈黙継続長のうち、少なくとも一方を用いて、会話成立度を計算するようにした。このようにして、本実施の形態では、相槌による発話重なりが短いこと、相手が完全にしゃべり終わらないうちに発話を始める場合の発話重なりが短いこと、会話中の沈黙が短いことなどの、日常会話の特徴を利用することができる。このため、本実施の形態では、くだけた日常会話においても、会話成立度を正しく求めることができるので、会話が成立していることを正しく検出でき、会話相手を正しく判定することができるようになる。

　なお、本発明者らは、実際に５組の日常会話を収録した音声データを用いて、会話相手検出のシミュレーション実験を行なった。

　シミュレーション実験は、マイクロホンアレイを用いて５組の２分間の日常会話を収音し、収音した音声データに、食堂で別途収音したがやがやとしたマルチトーカーノイズを、ＳＮ比が５，１０，１５，２０ｄＢとなるように重畳した。次に、シミュレーション実験は、それぞれのＳＮ比について、話者ごとに音声パワーによる音声検出を行った。そして、シミュレーション実験は、話者ごとの音声検出結果について、５組の会話相手の組み合わせ及び４０組の非会話相手の組み合わせを擬似的に作成し、従来方法及び本発明による方法に対して会話相手正解率を求めた。

　なお、ここで、従来方法は、特許文献１に開示されている方法であり、時定数を用いて会話成立度を更新している。従来方法では、フレームｔにおける会話成立度Ｃ_1,k(t)を、式（４）を用いて求めた。ここで、フレームｔにおいて、音信号Ｓｋは、音声のときにはＶ_ｋ(t)＝１，非音声のときにはＶ_ｋ(t)＝０とする。

ただし、時定数α＝β＝γ＝0.99999、δ＝0.99995、ε＝0.999

　また、本発明による方法には、発話重なり分析及び沈黙分析を用いる方法を用い、フレーム毎に発話重なり分析値及び沈黙分析値を求め、会話成立度を更新している。また、フレームｔにおける会話成立度Ｃ_1,k(t)は、式（３）を用いて算出した。

　ここで、評価方法としては、会話相手の組の場合には閾値θを超えていたら正解とし、非会話相手の組の場合には閾値θを下回っていたら正解とした。また、会話相手正解率は、会話相手を正しく検出する割合と非会話相手を正しく棄却する割合との平均値と定義した。図９は、従来方法及び本発明による方法による会話相手正解率を示す。

　図９から分かるように、従来方法に比べ、発話重なり及び沈黙の平均継続長の分析値を用いて会話成立度を求める本発明による方法は、どのＳＮ比レベルにおいても、大幅に高い会話相手検出性能が得られた。このことから、本発明は、有効であることが確認された。

　なお、以上の説明では、音源分離部１３０が、方向別に音信号を分離する場合について説明した。なお、音源分離部１３０は、独立成分分析（ＩＣＡ：Independent Component Analysis）など他の音源分離方法を用いて、音信号を分離してもかまわない。また、音源分離部１３０は、帯域ごとのパワーの大きさのみ方向別に求め、方向別のパワーから音声検出を行い、同様の動作を行うようにしてもよい。

　また、本実施の形態は、話者を識別する話者識別部を設け、同じ方向に複数の話者がいる場合に、話者ごとに分離できるようにしてもよい。

　（実施の形態２）
　本実施の形態では、笑いの重なりに着目して、会話成立度を算出する。本実施の形態の具体的な構成及び動作を説明する前に、先ず、本発明者らが、笑いの重なりに着目した点について説明する。

　日常的なくだけた会話では、笑いを伴ってしゃべることも多い。笑いは、有音である。そのため、従来技術のパワーにより有音判定し、有音／無音の組み合わせだけで会話成立度を求める方法では、笑いが同時に起こったときに会話成立度が低くなる。このために、従来の方法では、会話相手と非会話相手とを正しく区別することが難しいという課題を有していた。本実施の形態は、上記課題を解決する。

　本発明者らは、実際の日常会話での笑いの出現タイミングについて分析するために、日常会話を収録した９組の会話データから、笑い／発話／無音（発話でも笑いでもない黙っている区間）が時間的にどの程度重なっているかを調べた。この会話データは、話者ごとに収音し、試聴により笑い／発話／無音の発話区間のラベルを付与した。

　図１０は、会話相手に対する発話／笑い／無音の重なり継続長合計（ｍｓｅｃ）を示し、図１１は、非会話相手に対する発話／笑い／無音の重なり継続長合計（ｍｓｅｃ）を示している。これらを比較すると、会話相手に対しては、笑いの重なりが非会話相手よりも多いことが分かる。

　図１２は、これらのデータから、発話／笑い／無音の重なりの組み合わせに対して、それが会話相手である割合を算出した結果を示している。図１２から、笑いが重なっている場合は、それが会話相手である割合は９２．２８％と非常に高く、一方が発話でもう一方が無音であるときに会話相手である割合（６２．２３％、５７．４８％）に比べ、格段に高いことがわかった。したがって、笑いの重なりは、日常会話の特徴量を示し、会話相手であるか否かを判定する重要なパラメータであると言える。そこで、本実施の形態では、単に有音／無音の組み合わせに加えて、笑いの重なりに着目して会話成立度を算出するようにした。

　会話成立度の評価方法としては、例えば、笑いが重なった場合には、会話成立度を加点するなどの方法を用いる。加点の重みは、一方の話者が発話でもう一方の話者が無音である場合に比べ、同じ若しくは大きくする。

　また、図１２から、一方の話者が笑っているときにもう一方の話者が発話している場合は、それが会話相手である割合は４０％前後とやや低めであることが分かる。また、一方の話者が笑っているときにもう一方の話者が無音の場合、それが会話相手である割合は、５０％前後であって、会話成立度の識別に寄与しないことが分かる。これらのことから、一方の話者が笑っているとき、もう一方の話者が発話または無音の場合には、小さな減点か或いは加点も減点もしないようにする。このように、笑いの重なりに着目して評価することにより、会話成立度は、正しく求めることができる。

　以下、本実施の形態に係る信号処理装置の内部構成について説明する。本実施の形態は、実施の形態１と同様に、リモコン型補聴器に本発明を適用した例である。リモコン型補聴器の形状は、図５と同様のため説明を省略する。

　図１３は、本実施の形態に係る信号処理装置３００の要部構成を示すブロック図である。なお、図１３の信号処理装置３００において、図４の信号処理装置１００と共通する構成部分には、図４と同一の符号を付して説明を省略する。図１３の信号処理装置３００は、図４の信号処理装置１００に対して、識別パラメータ抽出部１５０及び会話成立度計算部１６０に代えて、識別パラメータ抽出部３１０及び会話成立度計算部３２０を具備する。

　識別パラメータ抽出部３１０は、笑い検出部３１１を有している。

　笑い検出部３１１は、音源分離部１３０で分離された音信号が笑い声であるか否かを判定する。なお、音信号から笑いを検出する方法は、公知の技術を用いる。公知の技術としては、例えば従来以下のような方法がある。

　例えば、特許文献２は、音声パワーが所定の閾値を超える区間を音声区間として判定し、フレーム毎にｒｍｓ振幅値を求める。次に、特許文献２は、その平均値が所定の閾値を超える区間を抽出し、音声認識で「はは」や「ははは」のように、同じ母音が断続的に続く区間を笑い声区間と判定する方法が開示されている。

　また、特許文献３には、母音の周波数帯信号の包絡線を求め、当該包絡線の振幅ピークが一定値以上のとき、当該振幅ピークの周期が一定範囲であるか否かを判断する方法が開示されている。

　また、非特許文献１には、ＧＭＭ（Gaussian Mixture Model）によって笑い声をモデル化し、フレーム毎に笑い声と非笑い声とを識別する方法が開示されている。

　なお、以下では、笑い検出方法として、非特許文献１と同様に、あらかじめ学習しておいた笑いＧＭＭと非笑いＧＭＭとの照合により行う方法を用いる場合について説明する。

　会話成立度計算部３２０は、笑い検出部３１１において得られた笑い区間情報、及び、音声検出部１４０において得られた音声区間情報を用いて、会話成立度を算出する。会話成立度計算部３２０における会話成立度の算出方法については、後述する。

　図１４は、本実施の形態に係る信号処理装置３００を搭載した補聴器２００の動作を表すフローチャートである。図１４のフローチャートを用いて、補聴器２００の動作を説明する。なお、図１４において、図７と共通するステップには、図７と同一の符号を付して説明を省略する。

　ステップＳ１１０、Ｓ１２０、Ｓ１３０では、実施の形態１と同様に、それぞれ、収音及びＡ／Ｄ変換、分離、音声検出が行われる。

　ステップＳ１３０の次に、ステップＳ２１０において、笑い検出部３１１は、音信号Ｓｋについて笑い／非笑い判定を行う。まず、笑い検出部３１１は、フレームｔにおいて、フレームｔの特徴パラメータベクトルをあらかじめ学習しておいた笑いＧＭＭ及び非笑いＧＭＭと照合し、笑い尤度及び非笑い尤度を求める。特徴パラメータベクトルとは、フレーム毎に音響分析をして得られるＭＦＣＣ１２次元（Ｃ１～Ｃ１２）、その一次回帰係数１２次元（ΔＣ１～ΔＣ１２）、対数パワーの一次回帰係数１次元（ΔＥ）の合計２５次元からなるベクトルとする。なお、ＭＦＣＣ（Mel Filter Cepstral Coefficient）とは、メルフィルタバンクケプストラム係数を示す。そして、笑い検出部３１１は、過去Ｎフレーム（例えば、Ｎ＝５０）分の笑い尤度及び非笑い尤度をそれぞれ累積し、蓄積結果が大きい方を判定結果とする。笑い検出部３１１は、Ｎフレーム分の尤度を累積して判定することにより識別性能が向上する。

　ステップＳ２２０において、会話成立度計算部３２０は、前方の音信号Ｓ１と、前方を除いた７方向の音信号Ｓｋ（ｋ：方向、ｋ＝２，３，…，８）のそれぞれの組み合わせについて、音信号Ｓ１と音信号Ｓｋとの会話成立度を算出する。

　図１５は、発話／笑い／無音の組み合わせによる会話成立度の算出方法の考え方を表した表である。Ｓ１は、ユーザの声がある方向１の音信号を表し、Ｓｋは方向ｋ（ｋ＝２，３，…，８）の音信号を表す。

　ここで、「発話」、「無音」及び「笑い」は、以下のように定義する。
　「発話」：音声検出結果が音声で、かつ、笑い検出結果が非笑いであるフレーム
　「無音」：音声検出結果が非音声で、かつ、笑い検出結果が非笑いであるフレーム
　「笑い」：音声検出結果に関わらず、笑い検出結果が笑いであるフレーム

　本実施の形態では、会話成立度計算部３２０は、フレームｔにおける会話成立度Ｃ_1,k(t)を、例えば、式（５）を用いて算出する。

　なお、フレームｔは、全ての方向の音源に対して無音が一定時間続いた時点で初期化する。また、会話成立度は、遠い過去のデータを忘却させて最新の状況に適応させる時定数を用いて求めてもよい。

　そして、会話成立度計算部３２０は、算出した会話成立度を会話相手判定部１７０に出力する。以降、実施の形態１と同様に、ステップＳ１６０において、会話相手判定部１７０は、会話相手が判定される。また、ステップＳ１７０において、出力制御部１８０は、出力音が制御される。

　以上のように、本実施の形態では、識別パラメータ抽出部３１０が、笑い検出部３１１を有する構成を採る。笑い検出部３１１は、笑いを検出し、会話成立判定部３２０は、笑いの重なりに着目した会話成立度の評価をする。これにより、本実施の形態は、会話成立度を正しく求めることができるので、会話が成立していることを正しく検出でき、会話相手を正しく判定することができるようになる。

　なお、以上の説明では、音声検出部１４０と笑い検出部３１１とを別構成として説明したが、入力信号を発話／笑い／無音の３つに分ける音声笑い検出部を設けるようにしてもよい。

　（実施の形態３）
　本実施の形態は、話者の発話比率に着目して、会話成立度を算出する。本実施の形態の具体的な構成及び動作を説明する前に、先ず、本発明者らが、話者の発話比率に着目した点について説明する。

　従来技術では、一方の話者が有音、もう一方の話者が無音であれば会話成立度が加点されるため、一方的にずっと人の声がするような場合においても、会話成立とみなされてしまっていた。会議など会話が行われている場面において、会話相手を見つける場合には、従来の方法でもよい。しかし、補聴器のようにユーザがウェアラブルマイクを常時身に付けているような状況では、ユーザの独り言、或いは、自分としゃべっているわけではない他人の声がマイクにずっと入力される場合も数多くあり、実用性に欠けていた。本実施の形態は、上記課題を解決する。

　本実施の形態では、自分又は相手のどちらかが一方的にしゃべっていることを検出し、「一方的なしゃべり」と検出された場合には会話成立度を低くする。そして、「一方的なしゃべり」を検出する方法として、本実施の形態では、自分と会話相手との発話区間比を求め、この発話区間比が極端に偏っている場合を「一方的なしゃべり」と判断する。

　ここで、音信号Ｓ１と音信号Ｓｋ（ｋ：方向、ｋ＝２，３，…，８）との発話区間比Ｒｂ_1,kは、以下の式（６）で定義する。

　本発明者らは、実際の日常会話において、一人の話者がしゃべり続ける一方的なしゃべりがどれくらい起きているのかを分析するために、日常会話を収録した９組の会話データから、時間窓の長さ（時間窓幅）を変えて上記発話区間比を求めた。

　図１６は、ある一組の会話の時間窓幅ごとの発話区間比Ｒｂの推移の例を表したグラフである。横軸は会話開始時からの経過時間、縦軸は発話区間比を表す。時間窓幅Ｎは、５秒、１０秒、２０秒、３０秒のそれぞれについて示している。その結果、本発明者らは、Ｎ＝１０秒程度の時間窓でみると、２話者間の発話区間比は、時間経過とともに変化はするものの、どの会話に対してもほぼ１０％～９０％の範囲に収まることに着目した。

　そこで、本実施の形態では、過去Ｎ秒間の発話区間比の値に応じて、会話成立度に１未満の重みを掛けることにより、一方的なしゃべりを抑圧する。

　図１７は、本実施の形態に係る信号処理装置４００の要部構成を示すブロック図である。なお、図１７の信号処理装置４００において、図４の信号処理装置１００と共通する構成部分には、図４と同一の符号を付して説明を省略する。図１７の信号処理装置４００は、図４の信号処理装置１００に対して、識別パラメータ抽出部１５０及び会話成立度計算部１６０に代えて、識別パラメータ抽出部４１０及び会話成立度計算部４２０を具備する。

　識別パラメータ抽出部４１０は、発話比率計算部４１１を有している。

　発話比率計算部４１１は、音声検出部１４０において算出された音声区間情報から、発話比率情報として、発話区間比率を計算する。

　会話成立度計算部４２０は、音声検出部１４０において算出された音声区間情報と、発話比率計算部４１１において算出された発話区間比率とから、会話成立度を求める。会話成立度計算部４２０における会話成立度の算出方法については、後述する。

　図１８は、本実施の形態に係る信号処理装置４００を搭載する補聴器２００の動作を表すフローチャートである。図１８のフローチャートを用いて補聴器２００の動作を説明する。なお、図１８において、図７と共通するステップには、図７と同一の符号を付して説明を省略する。

　本実施の形態では、実施の形態１と同様に、音声検出部１４０により、音声と判定された区間を発話区間と定義する。

　次に、前方の音信号Ｓ１と、前方を除いた７方向の音信号Ｓｋ（方向ｋ＝２，３，…，８）とのそれぞれの組み合わせについて、ステップＳ３１０及びステップＳ３２０の処理が行われる。

　ステップＳ３１０において、発話比率計算部４１１は、フレームｔから過去Ｎ秒（Ｎ＝１０）の区間における音信号Ｓ１と音信号Ｓｋとの発話区間比Ｒｂ_1,kを求め、会話成立度計算部４２０に出力する。

　次に、ステップＳ３２０において、会話成立度計算部４２０は、音信号Ｓ１と音信号Ｓｋとの会話成立度を算出する。本実施の形態では、会話成立度計算部４２０は、フレームｔにおける会話成立度Ｃ_1,k(t)を、例えば、式（７）のようにして求める。

　このようにして、本実施の形態では、発話区間比が１０％未満又は９０％以上に偏ったときに、１未満の重みをかけることにより、一方的なしゃべりを抑制することができるようになる。なお、今回は、Ｎ＝１０、重みｗ（Ｒｂ_1,k）を上式のように設計したが、これに限定するものではない。

　そして、会話成立度計算部４２０は、算出した会話成立度を会話相手判定部１７０に出力する。以降、実施の形態１と同様に、ステップＳ１６０において、会話相手判定部１７０は、会話相手が判定される。また、ステップＳ１７０において、出力制御部１８０は、出力音が制御される。

　以上のように、本実施の形態では、識別パラメータ抽出部４１０が、発話比率計算部４１１を有する構成を採る。発話比率計算部４１１は、音声区間情報から、発話比率情報として、発話区間比率を計算し、会話成立度計算部４２０は、音声区間情報及び発話比率情報を用いて、会話成立度を計算する。具体的には、発話比率計算部４１１は、自分と相手との発話区間比が極端に偏っていた場合に会話成立度が低くなるように、発話区間比Ｒｂ_1,kを設定する。次に、会話成立度計算部４２０は、当該発話区間比Ｒｂ_1,kを用いて会話成立度を算出する。これにより、補聴器のように日常的に身に付ける機器では、自分の独り言や、自分が会話していないときの他人の声などによる誤動作をしないようになり、会話が成立していることを正しく検出し、会話相手を正しく判定することができる。

　（実施の形態４）
　本実施の形態では、発話の重なり又は沈黙の継続長、笑いの重なり、及び、話者の発話比率に着目して、会話成立度を算出する。

　図１９は、本実施の形態に係る信号処理装置５００の要部構成を示すブロック図である。なお、図１９の信号処理装置５００において、図４、図１３及び図１７の信号処理装置１００、３００、４００と共通する構成部分には、これら図と同一の符号を付して説明を省略する。図１９の信号処理装置５００は、図４の信号処理装置１００に対して、識別パラメータ抽出部１５０及び会話成立度計算部１６０に代えて、識別パラメータ抽出部５１０及び会話成立度計算部５２０を具備する。

　識別パラメータ抽出部５１０は、発話重なり継続長分析部５１１、沈黙継続長分析部５１２、笑い検出部３１１及び発話比率計算部５１３を有している。

　なお、本実施の形態では、笑い検出部３１１により得られた笑い区間情報が、発話重なり継続長分析部５１１、沈黙継続長分析部５１２及び発話比率計算部５１３にも出力される。そして、発話重なり継続長分析部５１１、沈黙継続長分析部５１２及び発話比率計算部５１３において、笑い区間情報は、音声検出部１４０からの音声区間情報とともに、発話重なり継続長分析、沈黙継続長分析及び発話比率計算に利用される。本実施の形態は、この点が、実施の形態１及び実施の形態３の発話重なり継続長分析部１５１、沈黙継続長分析部１５２及び発話比率計算部４１１と異なる。

　図２０は、本実施の形態に係る信号処理装置５００を搭載する補聴器２００の動作を表すフローチャートである。図２０のフローチャートを用いて補聴器２００の動作を説明する。なお、図２０において、図１４と共通するステップには、図１４と同一の符号を付して説明を省略する。

　ステップＳ１１０、Ｓ１２０、Ｓ１３０、Ｓ２１０では、実施の形態２と同様に、それぞれ、収音及びＡ／Ｄ変換、分離、音声検出、笑い／非笑い判定が行われる。

　次に、前方の音信号Ｓ１と、前方を除いた７方向の音信号Ｓｋ（方向ｋ＝２，３，…，８）のそれぞれの組み合わせについて、ステップＳ４１０、Ｓ４２０及びＳ４３０の処理が行われる。

　ここで、本実施の形態では、実施の形態２と同様に、「発話」、「無音」及び「笑い」を以下のように定義する。
　「発話」：音声検出結果が音声で、かつ、笑い検出結果が非笑いであるフレーム
　「無音」：音声検出結果が非音声で、かつ、笑い検出結果が非笑いであるフレーム
　「笑い」：音声検出結果に関わらず、笑い検出結果が笑いであるフレーム

　この発話／笑い／無音の分類に基づいて、ステップＳ４１０において、発話重なり継続長分析部５１１は、音信号Ｓ１と音信号Ｓｋの笑いを含まない発話区間の重なりの継続長を求め分析を行う。また、沈黙継続長分析部５１２は、この発話／笑い／無音の分類に基づいて、笑いを含まない沈黙区間の継続長を求め分析を行う。

　次に、ステップＳ４２０において、発話比率計算部５１３は、音信号Ｓ１と音信号Ｓｋの笑いを含まない発話区間の比率を計算する。

　次に、ステップＳ４３０において、会話成立度計算部５２０は、音信号Ｓ１と音信号Ｓｋとの会話成立度を算出する。本実施の形態では、会話成立度計算部５２０は、フレームｔにおける会話成立度Ｃ_1,k(t)を、例えば式（８）のようにして求める。

　そして、会話成立度計算部５２０は、算出した会話成立度を会話相手判定部１７０に出力する。以降、実施の形態１と同様に、ステップＳ１６０において、会話相手判定部１７０は、会話相手が判定される。また、ステップＳ１７０において、出力制御部１８０は、出力音が制御される。

　以上のように、識別パラメータ抽出部５１０は、発話重なり継続長分析部５１１、沈黙継続長分析部５１２、及び、笑い検出部３１１を有する構成を採る。会話成立度計算部５２０は、発話重なり継続長、沈黙継続長、笑いの区間を示す笑い区間情報、又は、発話区間の長さの比率を示す発話比率情報を用いて、会話成立度を算出する。このために、本実施の形態は、日常会話に特有のクロストーク或いは笑いの出現の特徴を利用した会話成立度の評価を行うことができるようになり、くだけた日常会話でも正しく会話成立度を求めることができる。これにより、本実施の形態は、会話が成立していることを正しく検出することができ、会話相手を正しく判定することができるようになる。

　特に、本実施の形態では、発話重なり継続長分析部５１１及び沈黙継続長分析部５１２が、笑い区間情報を加味して、発話重なり継続長及び沈黙継続長を算出する。これにより、本実施の形態は、笑いを含まない発話区間を正確に抽出できるようになるため、発話重なり及び沈黙の区間の継続長を正しく求められるようになり、より正しく会話成立度を求めることができるようになる。

　また、本実施の形態は、識別パラメータ抽出部５１０に発話比率計算部５１３を設けることにより、一方的なしゃべりを抑制できるようになる。これにより、補聴器のように日常的に身に付ける機器では、自分の独り言や、自分が会話していないときの他人の声などによる誤動作をしないようになる。

　なお、実施の形態１から実施の形態４では、本発明をリモコン型補聴器に適用する場合を想定し説明したが、本発明を耳かけ型或いは耳穴型などのウェアラブルマイクを用いた補聴器に適用することも可能である。ウェアラブルマイクでは、リモコン型補聴器と異なり、マイクロホンアレイの規定方向をユーザのほうに向けることによってユーザの声を分離収音することが困難である。そのため、本発明は、特許文献４に開示されているような、補聴器に骨伝導マイクロホンを付加し自発声による頭蓋振動を検出することによりユーザの声を検出する方法に適用できる。或いは、本発明は、ヘッドセットマイクロホンを装着し口元の音声を検出する方法などに適用することにより、自発声を検出することが出来る。また、本実施の形態は、音源分離部を設けず、短時間ごとにユーザの自発声があるか及びそれ以外の音が音声かどうかのみを判定するようにして、ユーザとそれ以外の話者の会話成立度を求めるようにしてもよい。

　また、他のアプリケーションへの適用としては、本発明を音声レコーダ、デジタルスチルカメラ、ムービー、電話会議システムなどに適用することができる。音声レコーダ、デジタルスチルカメラ、ムービーなどのデジタル記録機器では、記録したい会話以外の他人の会話などの妨害音を抑圧して記録することが出来る。或いは、本発明は、マイクロホンアレイによる入力音を全て記録しておき、後から会話成立度が高くなる組み合わせの会話を抽出し、所望の会話を再生したりすることも可能である。

　また、電話会議システムでは、一方の拠点でのみすぐ近くで他の会議が行われているなど妨害音がある場合、もう一方の静かな拠点から送られてくる声の会話相手を抽出し、それ以外の声を抑圧することで、スムーズに会議を行うことができる。また、両拠点において、妨害音がある場合には、例えば、マイクに入る一番大きい声を検出し、その会話相手を見つけ、それ以外の声を抑圧することにより、同様の効果を得ることができる。

　２０１０年２月２５日出願の特願２０１０－０３９６９８に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。

　本発明に係る信号処理装置及び信号処理方法は、補聴器、或いは、音声レコーダ、デジタルスチルカメラ、ムービー、電話会議システムなどさまざまな分野における信号処理装置として有用である。

　１００，３００，４００，５００　信号処理装置
　１１０，２２０　マイクロホンアレイ
　１２０，２３０　Ａ／Ｄ変換部
　１３０　音源分離部
　１４０　音声検出部
　１５０，３１０，４１０，５１０　識別パラメータ抽出部
　１５１，５１１　発話重なり継続長分析部
　１５２，５１２　沈黙継続長分析部
　１６０，３２０，４２０，５２０　会話成立度計算部
　１７０　会話相手判定部
　１８０　出力音制御部
　２００　補聴器
　２１０　補聴器本体
　２４０　ＣＰＵ
　２５０　メモリ
　２６０　イヤホン
　３１１　笑い検出部
　４１１，５１３　発話比率計算部

Claims

　複数の音源が入り混じった混合音信号を音源毎に分離する分離部と、
　前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声／非音声情報を示す音声区間情報を生成する音声検出部と、
　前記音声区間情報を用いて、発話重なり継続長を計算し分析する発話重なり継続長抽出部と、前記沈黙継続長を計算し分析する沈黙継続長抽出部の少なくとも一方と、
　抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算する会話成立度計算部と、
　を具備する信号処理装置。
　請求項１記載の信号処理装置において、
　前記発話重なり継続長抽出部または前記沈黙継続長抽出部に代えて、
　前記分離された複数の音源信号のそれぞれについて笑い検出を行い、前記識別パラメータとして、笑い区間情報を抽出する笑い検出部、を具備し、
　前記会話成立度計算部は、
　前記複数の音源信号の組み合わせについて、前記音声区間情報及び前記笑い区間情報を用いて、前記会話成立度を計算する、
　信号処理装置。
　請求項１記載の信号処理装置において、
　前記発話重なり継続長抽出部または前記沈黙継続長抽出部に代えて、
　前記複数の音源信号の組み合わせについて、前記識別パラメータとして、発話比率情報を抽出する発話比率計算部、を具備し、
　前記会話成立度計算部は、
　前記音声区間情報及び前記発話比率情報を用いて、前記会話成立度を計算する、
　信号処理装置。
　前記抽出部は、
　前記発話重なり継続長分析部及び前記沈黙継続長分析部の少なくとも一方において、前記発話重なり継続長又は前記沈黙の継続長の長短の割合を、前記識別パラメータとして抽出する、
　請求項１記載の信号処理装置
　前記抽出部は、
　前記発話重なり継続長分析部及び前記沈黙継続長分析部の少なくとも一方において、前記発話重なり継続長又は前記沈黙の継続長の平均値を、前記識別パラメータとして抽出する、
　請求項１記載の信号処理装置。
　前記会話成立度計算部は、
　前記複数の音源信号で笑いが同時に検出された場合に、前記会話成立度を高くする、
　請求項２記載の信号処理装置。
　前記会話成立度計算部は、
　前記複数の音源信号のうち、第１の音源信号で笑いが検出され、第２の音源信号で笑いが検出されなかった場合には、前記第一の音源信号と前記第２の音源信号との前記会話成立度を変化させない、又は、前記会話成立度を低くする、
　請求項２記載の信号処理装置。
　前記発話比率計算部は、
　前記複数の音源信号のうち、過去一定時間窓内における第１の音源信号と第２の音源信号との発話区間比を、前記発話比率情報とする、
　請求項３記載の信号処理装置。
　複数の音源が入り混じった混合音信号を音源毎に分離する分離部と、
　前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声／非音声情報を示す音声区間情報を生成する音声検出部と、
　前記複数の音源信号、又は、前記音声区間情報に基づいて、日常会話の特徴量を示す識別パラメータを抽出する抽出部と、
　抽出された前記識別パラメータに基づいて、会話が成立している度合いを示す会話成立度を計算する会話成立度計算部と、を具備し、
　前記抽出部は、
　前記分離された複数の音源信号のそれぞれについて笑い検出を行って、笑い区間情報を抽出する笑い検出部と、
　前記複数の音源信号の組み合わせについて、前記音声区間情報及び前記笑い区間情報を用いて、発話重なりの連続する区間の長さを示す発話重なり継続長を計算し分析する発話重なり継続長分析部、及び、沈黙の連続する区間の長さを示す沈黙継続長を計算し分析する沈黙継続長分析部の少なくとも一方と、
　前記複数の音源信号の組み合わせについて、発話比率情報を抽出する発話比率計算部と、を具備し、
　前記発話重なり継続長、前記沈黙継続長、前記笑い区間情報、又は、前記発話比率情報を、前記識別パラメータとして抽出する、
　信号処理装置。
　複数のマイクロホンを配置したマイクロホンアレイと、
　前記マイクロホンアレイから入力されたアナログ領域の混合音信号をデジタル領域の信号に変換するＡ／Ｄ変換部と、
　デジタル領域の前記混合音信号を入力とする請求項１記載の信号処理装置と、
　前記会話成立度に応じて、デジタル領域の前記混合音信号を加工して出力する出力音制御部と、
　を具備する信号処理装置。
　前記出力音制御部は、
　指向性制御によりデジタル領域の前記混合音信号を加工して出力する、
　請求項１０記載の信号処理装置。
　複数のマイクロホンを配置したマイクロホンアレイと、
　前記マイクロホンアレイから入力されたアナログ領域の混合音信号をデジタル領域の信号に変換するＡ／Ｄ変換部と、
　前記変換されたデジタル領域の前記混合音信号を音源毎に分離する分離部と、
　前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声／非音声情報を示す音声区間情報を生成する音声検出部と、
　前記複数の音源信号の組み合わせについて、前記音声区間情報を用いて、発話重なり継続長を計算し分析する発話重なり継続長抽出部、及び、前記沈黙継続長を計算し分析する沈黙継続長抽出部の少なくとも一方と、
　抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算する会話成立度計算部と、
　前記会話成立度に応じて、デジタル領域の前記混合音信号を加工して出力する出力音制御部と、
　を具備する補聴器。
　複数の音源が入り混じった混合音信号を音源毎に分離するステップと、
　前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声／非音声情報を示す音声区間情報を生成するステップと、
　前記複数の音源信号の組み合わせについて、前記音声区間情報を用いて、発話重なり継続長を計算し分析するステップ、及び、前記沈黙継続長を計算し分析するステップの少なくとも一方と、
　抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算するステップと、
　を記録した記憶媒体。
　複数の音源が入り混じった混合音信号を音源毎に分離する分離ステップと、
　前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声／非音声情報を示す音声区間情報を生成する音声検出ステップと、
　前記複数の音源信号の組み合わせについて、前記音声区間情報を用いて、発話重なり継続長を計算し分析するステップ、及び、前記沈黙継続長を計算し分析するステップの少なくとも一方と、
　抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算する計算ステップと、
　を有する信号処理方法。
　前記抽出ステップは、
　前記分離された複数の音源信号のそれぞれについて笑い検出を行って、笑い区間情報を抽出する笑い検出ステップと、
　複数の音源信号の組み合わせについて、前記音声区間情報及び前記笑い区間情報を用いて、発話重なりの連続する区間の長さを示す発話重なり継続長を計算し分析する発話重なり継続長分析ステップ、及び、沈黙の連続する区間の長さを示す沈黙継続長を計算し分析する沈黙継続長分析ステップの少なくとも一方と、
　前記複数の音源信号の組み合わせについて、発話比率情報を抽出する発話比率計算ステップと、を有し、
　前記発話重なり継続長、前記沈黙継続長、前記笑い区間情報、又は、前記発話比率情報を、前記識別パラメータとして抽出する、
　請求項１４記載の信号処理方法。