WO2020208926A1

WO2020208926A1 - 信号処理装置、信号処理方法及びプログラム

Info

Publication number: WO2020208926A1
Application number: PCT/JP2020/005061
Authority: WO
Inventors: 厚夫廣江
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2019-04-08
Filing date: 2020-02-10
Publication date: 2020-10-15
Anticipated expiration: 2021-10-08
Also published as: US20220189498A1; JPWO2020208926A1; CN113661719A; EP3955589A1; EP3955589A4; KR20210150372A

Abstract

目的音と目的音以外の音とが混合された混合音を含むマイクロホン信号と、補助センサによって取得された、目的音と同期している１次元の時系列信号とが入力される入力部と、１次元の時系列信号に基づいて、マイクロホン信号から目的音に対応する目的音信号を抽出する音源抽出部とを有する信号処理装置である。

Description

信号処理装置、信号処理方法及びプログラム

　本開示は、信号処理装置、信号処理方法及びプログラムに関する。

　ユーザが発話した音声とそれ以外の音声（例えば、周囲の騒音）とが混じった混合音から、ユーザが発話した音声を抽出する技術が開発されている（例えば、非特許文献１及び非特許文献２の参照のこと）。

A. Ephrat、 I. Mosseri、 O. Lang、 T. Dekel、 K. Wilson、 A. Hassidim、 W. Freeman、 M. Rubinstein、"Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation"、[online]、２０１８年８月９日、［２０１９年４月５日検索］、インターネット＜ＵＲＬ：https://arxiv.org/abs/1804.03619＞

M. Delcroix, K. Zmolikova, K. Kinoshita, A. Ogawa, T. Nakatani, "Single Channel Target Speaker Extraction and Recognition with Speaker Beam", 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), p.5554-5558, 2018

　この分野では、抽出対象である音（以下、目的音と適宜、称する）を、目的音及び目的音以外の音が混合された混合音から適切に抽出できることが望まれている。

　本開示は、上述した点に鑑みてなされたものであり、目的音及び目的音以外の音が混合された混合音から目的音を適切に抽出することができる信号処理装置、信号処理方法及びプログラムに関する。

　本開示は、例えば、
　目的音と目的音以外の音とが混合された混合音を含むマイクロホン信号と、補助センサによって取得された、目的音と同期している１次元の時系列信号とが入力される入力部と、
　１次元の時系列信号に基づいて、マイクロホン信号から目的音に対応する目的音信号を抽出する音源抽出部と
　を有する信号処理装置である。

　また、本開示は、例えば、
　目的音と目的音以外の音とが混合された混合音を含むマイクロホン信号と、補助センサによって取得された、目的音と同期している１次元の時系列信号とが入力部に入力され、
　１次元の時系列信号に基づいて、マイクロホン信号から目的音に対応する目的音信号が音源抽出部により抽出される
　信号処理方法である。

　また、本開示は、例えば、
　目的音と目的音以外の音とが混合された混合音を含むマイクロホン信号と、補助センサによって取得された、目的音と同期している１次元の時系列信号とが入力部に入力され、
　１次元の時系列信号に基づいて、マイクロホン信号から目的音に対応する目的音信号が音源抽出部により抽出される
　信号処理方法をコンピュータに実行させるプログラムである。

図１は、実施の形態にかかる信号処理システムの構成例を説明するための図である。図２Ａ～図２Ｄは、実施の形態にかかる信号処理装置で行われる処理の概略を説明する際に参照される図である。図３は、実施の形態にかかる信号処理装置の構成例を説明するための図である。図４は、実施の形態にかかる信号処理装置の一態様を説明するための図である。図５は、実施の形態にかかる信号処理装置の他の態様を説明するための図である。図６は、実施の形態にかかる信号処理装置の他の態様を説明するための図である。図７は、実施の形態にかかる音源抽出部の詳細な構成例を説明するための図である。図８は、実施の形態にかかる特徴量生成部の詳細な構成例を説明するための図である。図９Ａ～図９Ｃは、実施の形態にかかる短時間フーリエ変換部で行われる処理を説明する際に参照される図である。図１０は、実施の形態にかかる抽出モデル部の詳細な構成例を説明するための図である。図１１は、実施の形態にかかる再構成部の詳細な構成例を説明するための図である。図１２は、実施の形態にかかる学習系を説明する際に参照される図である。図１３は、実施の形態にかかる学習データを示す図である。図１４は、実施の形態にかかる気導マイクロホン及び補助センサの具体例を説明する際に参照される図である。図１５は、実施の形態にかかる気導マイクロホン及び補助センサの他の具体例を説明する際に参照される図である。図１６は、実施の形態にかかる信号処理装置で行われる全体の処理の流れを示すフローチャートである。図１７は、実施の形態にかかる音源抽出部で行われる処理の流れを示すフローチャートである。図１８は、変形例を説明する際に参照される図である。図１９は、変形例を説明する際に参照される図である。図２０は、変形例を説明する際に参照される図である。図２１は、変形例を説明する際に参照される図である。図２２は、変形例を説明する際に参照される図である。

　以下、本開示の実施の形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜１．実施の形態＞
＜２．変形例＞
　以下に説明する実施の形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施の形態等に限定されるものではない。

＜１．実施の形態＞
［本開示の概要］
　始めに、本開示の概要について説明する。本開示は、教示つき音源抽出の一種であり、混合音を取得するためのマイクロホン（気導マイクロホン）に加え、教示情報を取得するためのセンサ（補助センサ）を備える。補助センサの例として、以下のどれかあるいは２つ以上の組み合わせが考えられる。（１）外耳道など、妨害音よりも目的音の方が優勢な状態で取得できる位置に設置（装着）されたもう一つの気導マイクロホン、（２）骨伝導マイクロホンや咽頭マイクロホンなど、大気中以外を伝播する音波を取得するマイクロホン、（３）音以外のモーダルであって、ユーザの発話と同期している信号を取得するセンサ。補助センサは、例えば、目的音の発生源に装着される。上記（３）の例においてはユーザの発話と同期した信号として、頬や喉付近の皮膚の振動や、顔付近の筋肉の動きなどが考えられる。それらを取得する補助センサの具体例については後述する。

　図１は、本開示の実施の形態にかかる信号処理システム（信号処理システム１）を示している。信号処理システム１は、信号処理装置１０を有している。信号処理装置１０は、概略的には、入力部１１及び音源抽出部１２を有している。また、信号処理システム１は、音を収音する気導マイクロホン２及び補助センサ３を有している。気導マイクロホン２及び補助センサ３は、信号処理装置１０の入力部１１に対して接続されている。気導マイクロホン２及び補助センサ３は、入力部１１に対して有線又は無線により接続されている。補助センサ３は、例えば、目的音の発生源に装着されるセンサである。本例における補助センサ３は、ユーザＵＡの近傍に配置されており、具体的には、ユーザＵＡの身体に装着されている。補助センサ３は、後述する目的音と同期した１次元の時系列信号を取得する。かかる時系列信号に基づいて教示情報が得られる。

　信号処理システム１において音源抽出部１２による抽出対象となる目的音とは、ユーザＵＡが発声した音声である。目的音は、必ず音声であり、且つ、指向性音源である。妨害音音源は、目的音以外の妨害音を発する音源である。これは音声の場合も非音声の場合もあり得、さらに同一の音源から両方の信号が発生する場合もあり得る。妨害音音源は指向性音源または無指向性音源である。妨害音音源の個数は０または１個以上の整数である。図１に示す例では、妨害音の一例として、ユーザＵＢが発声した音声が示されている。勿論、騒音（例えば、ドアの開閉の際の音や、上空を旋回するヘリコプターの音や、多くの人が存在する場所の雑踏の音など）も妨害音になり得る。気導マイクロホン２は、大気中を伝わる音を収録するマイクロホンであり、目的音と妨害音との混合音を取得する。以下の説明では、取得された混合音のことをマイクロホン観測信号と適宜、称する。

　次に、図２Ａ～図２Ｄを参照して、信号処理装置１０で行われる処理の概略について説明する。図２Ａ～図２Ｄでは、横軸が時間、縦軸が音量（またはパワー）をそれぞれ表わしている。

　図２Ａは、マイクロホン観測信号のイメージ図である。マイクロホン観測信号は、目的音に由来する成分４Ａと妨害音に由来する成分４Ｂとが混合した信号である。

　図２Ｂは、教示情報のイメージ図である。本例では、補助センサ３が気導マイクロホン２とは異なる位置に設置されたもう一つの気導マイクロホンである場合を想定している。従って、補助センサ３によって取得される１次元の時系列信号は、音信号である。かかる音信号が教示情報として使用される。図２Ｂは、目的音と妨害音とが混合しているという点は図１と同様だが、補助センサ３の装着位置がユーザの身体に装着されているため、妨害音に由来する成分４Ｂよりも目的音に由来する成分４Ａの方が優勢な状態で観測される。

　図２Ｃは、教示情報の他のイメージ図である。本例では、補助センサ３が気導マイクロホン以外のセンサである場合を想定している。気導マイクロホン以外のセンサで取得される信号の例として、骨伝導マイクロホンや咽頭マイクロホンなどによって取得される、ユーザの体内を伝播した音波や、マイクロホン以外のセンサで取得される、ユーザの頬や喉などの皮膚表面の振動や、口付近の筋肉の筋電位および加速度などがある。これらの信号は大気中を伝播しないため、妨害音の影響を受けにくいと考えられる。そのため、教示情報は主に目的音に由来する成分４Ａで構成される。すなわち、ユーザの発話開始と共に信号強度が立ち上がり、発話終了と共に立ち下がる。

　教示情報は目的音の発話と同期して取得されるため、目的音に由来する成分４Ａと目的音に由来する成分４Ｂとの立ち上がり・立ち下がりのタイミングは、目的音に由来する成分４Ａと同じである。

　図１に示すように、信号処理装置１０の音源抽出部１２は、気導マイクロホン２由来のマイクロホン観測信号と補助センサ３由来の教示情報とを入力し、マイクロホン観測信号から妨害音由来の成分を消して目的音由来の成分を残すことで、抽出結果を生成する。

　図２Ｄは、抽出結果のイメージである。理想的な抽出結果は、目的音に由来する成分４Ａのみから構成される。このような抽出結果を生成するため、音源抽出部１２はマイクロホン観測信号と教示情報とから抽出結果への対応付けを表わすモデルを有している。かかるモデルは大量のデータによって事前に学習されている。

［信号処理装置の構成例］
（全体の構成例）
　図３は、実施の形態にかかる信号処理装置１０の構成例を説明するための図である。上述したように、気導マイクロホン２は、大気中を伝わってくる目的音と目的音以外の音（妨害音）とが混合された混合音を観測する。補助センサ３はユーザの身体に装着されていて、目的音と同期した１次元の時系列信号を教示情報として取得する。気導マイクロホン２に収音されたマイクロホン観測信号及び補助センサ３により取得された１次元の時系列信号が信号処理装置１０の入力部１１を介して音源抽出部１２に入力される。また、信号処理装置１０は、信号処理装置１０を統括的に制御する制御部１３を有している。音源抽出部１２は、気導マイクロホン２により収音される混合音から目的音に対応する目的音信号を抽出し、出力する。具体的には、音源抽出部１２は、１次元の時系列信号に基づいて生成される教示情報を使用して目的音信号を抽出する。目的音信号は、後処理部１４に出力される。

　後処理部１４の構成は、信号処理装置１０が適用される機器に応じて異なる。図４は、後処理部１４が、音再生部１４Ａにより構成される例を示している。音再生部１４Ａは、音信号を再生するための構成（アンプやスピーカ等）を有している。図示された例の場合には、目的音信号が音再生部１４Ａにより再生される。

　図５は、後処理部１４が、通信部１４Ｂにより構成される例を示している。通信部１４Ｂは、インターネットや所定の通信網等のネットワークを介して、目的音信号を外部機器に送信するための構成を有している。図示された例の場合には、目的音信号が通信部１４Ｂにより送信される。また、外部機器から送信された音声信号が通信部１４Ｂにより受信される。本例の場合は、信号処理装置１０は、例えば、通信機器に適用される。

　図６は、後処理部１４が、発話区間推定部１４Ｃ、音声認識部１４Ｄ及びアプリケーション処理部１４Ｅにより構成される例を示している。発話区間推定部１４Ｃによって、気導マイクロホン２から音源抽出部１２までは途切れのないストリームとして扱われていた信号が、発話という単位に分割される。発話区間推定（あるいは音声区間検出）の方法としては、公知の方法を適用することができる。さらに、発話区間推定部１４Ｃの入力として、音源抽出部１２の出力であるクリーンな目的音に加え、補助センサ３で取得された信号を使用しても良い（この場合における補助センサ３で取得された信号の流れが、図６では点線により示されている。）。即ち、音信号だけでなく、補助センサ３で取得された信号も併せて使用することで発話区間推定（検出）が行われても良い。かかる方法としても公知の方法を適用することができる。

　発話区間推定部１４Ｃは、分割された音そのものを出力するという形態も可能だが、音の代わりに開始時刻や終了時刻といった区間を示す発話区間情報を出力し、分割自体は発話区間情報を用いて音声認識部１４Ｄで行うという形態も可能である。図６は、後者の形態を想定した例である。音声認識部１４Ｄは、音源抽出部１２の出力であるクリーンな目的音と発話区間推定部１４Ｃの出力である区間情報とを入力とし、その区間に対応した単語列を音声認識結果として出力する。アプリケーション処理部１４Ｅは、音声認識結果を利用する処理を担当するモジュールである。アプリケーション処理部１４Ｅは、信号処理装置１０が音声対話システムに適用される例であれば、応答生成や音声合成等を行うモジュールに対応する。また、信号処理装置１０が音声翻訳システムに適用される例であれば、アプリケーション処理部１４Ｅは、機械翻訳や音声合成等を行うモジュールに対応する。

（音源抽出部について）
　図７は、音源抽出部１２の詳細な構成例を説明するためのブロック図である。音源抽出部１２は、例えば、ＡＤ(Analog to Digital)変換部１２Ａと、特徴量生成部１２Ｂと、抽出モデル部１２Ｃと、再構成部１２Ｄとを有している。

　音源抽出部１２の入力は２種類ある。一方は気導マイクロホン２によって取得されたマイクロホン観測信号であり、他方は補助センサ３によって取得された教示情報である。マイクロホン観測信号は、ＡＤ変換部１２Ａによってデジタル信号に変換された後、特徴量生成部１２Ｂに送られる。教示情報は特徴量生成部１２Ｂに送られる。図７では省略されているが、補助センサ３で取得された信号がアナログ信号である場合は、当該アナログ信号が、ＡＤ変換部１２Ａとは別のＡＤ変換部によりデジタル信号に変換された後に、特徴量生成部１２Ｂに入力される。このようにデジタル信号に変換されたものも、補助センサ３で取得された１次元の時系列信号に基づいて生成される教示情報の一つである。

　特徴量生成部１２Ｂは、マイクロホン観測信号及び教示情報の両方を入力とし、抽出モデル部１２Ｃに入力するための特徴量を生成する。また、抽出モデル部１２Ｃの出力を波形に変換するために必要な情報の保持も行う。抽出モデル部１２Ｃのモデルは、目的音と妨害音との混合信号であるマイクロホン観測信号と抽出すべき目的音のヒントとなる教示情報とのセットからクリーンな目的音への対応関係が予め学習されているモデルである。以降では、抽出モデル部１２Ｃへの入力を入力特徴量、抽出モデル部１２Ｃからの出力を出力特徴量と適宜、称する。

　再構成部１２Ｄは、抽出モデル部１２Ｃからの出力特徴量を音波形またはそれに類する信号に変換する。その際に、特徴量生成部１２Ｂから波形生成のために必要な情報を受け取る。

（音源抽出部が有する各構成の詳細について）
「特徴量生成部の詳細について」
　次に、特徴量生成部１２Ｂの詳細について図８を参照して説明する。図８では、特徴量としてスペクトルまたはそれに類するものを想定しているが、それ以外の特徴量も使用可能である。特徴量生成部１２Ｂは、短時間フーリエ変換部１２１Ｂと、教示情報変換部１２２Ｂと、特徴量バッファー部１２３Ｂと、特徴量アライメント部１２４Ｂとを有している。

　特徴量生成部１２Ｂの入力としては、２種類の信号が存在する。一方の入力である、ＡＤ変換部１２Ａによりデジタル信号に変換されたマイクロホン観測信号が短時間フーリエ変換部１２１Ｂに入力される。そして、マイクロホン観測信号が、短時間フーリエ変換部１２１Ｂによって時間周波数領域の信号、即ち、スペクトルに変換される。

　他方の入力である補助センサ３からの教示情報に対しては、教示情報変換部１２２Ｂによって信号の種類に応じた変換が行われる。教示情報が音信号である場合は、マイクロホン観測信号と同様に短時間フーリエ変換が行われる。教示情報が音以外のモーダルである場合は、短時間フーリエ変換を行うことも無変換のまま使用することも可能である。

　短時間フーリエ変換部１２１Ｂ及び教示情報変換部１２２Ｂによって変換された信号は、所定の時間分だけ特徴量バッファー部１２３Ｂで保存される。ここでは、時間情報と変換結果とが対応付けられた状態で保存されており、後段のモジュールから過去の特徴量の取得というリクエストがあった場合にその特徴量を出力することができる。また、マイクロホン観測信号の変換結果については、その情報が後段での波形生成で使用されるため、複素スペクトルの集合として保存される。

　特徴量バッファー部１２３Ｂの出力は、２箇所、具体的には再構成部１２Ｄ及び特徴量アライメント部１２４Ｂのそれぞれで使用される。特徴量アライメント部１２４Ｂは、マイクロホン観測信号由来の特徴量と教示情報由来の特徴量とで時間の粒度が異なる場合に、両者の粒度を合わせる処理を行う。

　例えば、マイクロホン観測信号のサンプリング周波数が１６ｋＨｚであり、短時間フーリエ変換部１２１Ｂでのシフト幅が１６０サンプルとすると、マイクロホン観測信号由来の特徴量は１／１００秒に１回の頻度で生成される。一方、教示情報由来の特徴量が１／２００秒に１回の頻度で生成される場合は、マイクロホン観測信号由来の特徴量の１セット分と教示情報由来の特徴量の２セット分とを結合したデータを生成し、それを抽出モデル部１２Ｃへの１回分の入力データとする。

　逆に、教示情報由来の特徴量が１／５０秒に１回の頻度で生成される場合は、マイクロホン観測信号由来の特徴量の２セット分と教示情報由来の特徴量の１セット分とを結合したデータを生成する。更に、この段階において、複素スペクトルから振幅スペクトルへの変換等も必要に応じて行う。こうして生成された出力が抽出モデル部１２Ｃに送られる。

　ここで、図９を参照して、上述した短時間フーリエ変換部１２１Ｂで行われる処理について説明する。ＡＤ変換部１２Ａによって得られたマイクロホン観測信号の波形（図９Ａ参照）から一定長を切り出し、それらにハニング窓やハミング窓等の窓関数を適用する。この切り出した単位をフレームと呼ぶ。１フレーム分のデータに短時間フーリエ変換を適用することにより、時間周波数領域の観測信号として、例えば、Ｘ（１,ｔ）からＸ（Ｋ,ｔ）を得る（図９Ｂ参照）。ただし、ｔはフレーム番号、Ｋは周波数ビンの総数を表わす。切り出すフレームの間には重複があってもよく、そうすることで連続するフレーム間で時間周波数領域の信号の変化が滑らかになる。１フレーム分のデータであるＸ（１,ｔ）からＸ（Ｋ,ｔ）までのセットをスペクトルと呼び、複数のスペクトルを時間方向に並べたデータ構造をスペクトログラム（図９Ｃ参照）と呼ぶ。図９Ｃのスペクトログラムでは、横軸がフレーム番号を、縦軸が周波数ビン番号を表わし、図９Ａから３本のスペクトル（Ｘ（１,ｔ－１）からＸ（Ｋ,ｔ－１）まで、Ｘ（１,ｔ）からＸ（Ｋ,ｔ）まで、Ｘ（１,ｔ＋１）からＸ（Ｋ,ｔ＋１）まで）がそれぞれ生成されている。

「抽出モデル部の詳細について」
　次に、図１０を参照して、抽出モデル部１２Ｃの詳細について説明する。抽出モデル部１２Ｃは特徴量生成部１２Ｂの出力を入力とする。特徴量生成部１２Ｂの出力には２種類のデータが含まれる。一方はマイクロホン観測信号由来の特徴量であり、他方は教示情報由来の特徴量である。以降では、マイクロホン観測信号由来の特徴量を第１特徴量、教示情報由来の特徴量を第２特徴量と適宜、称する。

　抽出モデル部１２Ｃは、例えば、入力層１２１Ｃと、入力層１２２Ｃと、中間層１～中間層ｎを含む中間層１２３Ｃと、出力層１２４Ｃとを有している。図１０に示される抽出モデル部１２Ｃは、所謂ニューラルネットワークを表わしている。入力層が入力層１２１Ｃ及び入力層１２２Ｃの２つに分かれている理由は、２種類の特徴量をそれぞれに入力するためである。

　図１０に示した例において、入力層１２１Ｃは第１特徴量が入力される入力層であり、入力層１２２Ｃは第２特徴量が入力される入力層である。ニューラルネットワークの種類や構造（層の数）は任意に設定可能であり、後述する学習系により、第１特徴量と第２特徴量とのセットからクリーンな目的音への対応関係が予め学習されている。

　抽出モデル部１２Ｃは、第１特徴量を入力層１２１Ｃに、第２特徴量を入力層１２２Ｃにそれぞれ入力し、所定の順方向伝播処理（forward propagation）を行うことで、出力データであるクリーンな目的音の目的音信号に相当する出力特徴量を生成する。出力特徴量の種類として、クリーンな目的音に対応した振幅スペクトルや、マイクロホン観測信号のスペクトルからクリーンな目的音のスペクトルを生成するための時間周波数マスクなどが使用可能である。

　なお、図１０では、２種類の入力データは直後の中間層である（中間層１）で合流されているが、それよりも出力層１２４Ｃに近い側の中間層で合流させても良い。その場合、各入力層から合流地点までの層の個数はそれぞれ異なっていても良く、一つの例として、入力データの一方が中間層から入力されるようなネットワーク構造を用いても構わない。２種類のデータを中間層で合流させる方法は、以下のように複数通りが考えられる。一つは、直前の２つの層から出力されるベクトル形式のデータを連結（concatenate）する方法である。もう一つは、２つのベクトルの要素数が同じであれば、要素同士を乗じるという方法である。

「再構成部の詳細について」
　次に、図１１を参照して、再構成部１２Ｄの詳細について説明する。再構成部１２Ｄは、抽出モデル部１２Ｃの出力を音波形または音に類するデータに変換する。かかる処理を行うため、特徴量生成部１２Ｂの中の特徴量バッファー部１２３Ｂからも必要なデータを受け取る。

　再構成部１２Ｄは、複素スペクトログラム生成部１２１Ｄと、逆短時間フーリエ変換部１２２Ｄとを有している。複素スペクトログラム生成部１２１Ｄは、抽出モデル部１２Ｃの出力及び特徴量生成部１２Ｂからのデータを統合して目的音の複素スペクトログラムを生成する。生成の仕方は、抽出モデル部の出力が振幅スペクトルか時間周波数マスクかによって変わる。振幅スペクトルの場合は、位相情報が欠落しているため、波形に変換するためには位相情報を追加する（復元する）必要がある。位相の復元のためには公知の技術が適用可能であり、例えば、特徴量バッファー部１２３Ｂから同じタイミングのマイクロホン観測信号の複素スペクトルを取得し、そこから位相情報を取り出して振幅スペクトルと合成することで目的音の複素スペクトルを生成する。

　一方、時間周波数マスクの場合は、同じくマイクロホン観測信号の複素スペクトルを取得した後、複素スペクトルに時間周波数マスクを適用する（時間周波数ごとに乗算する）ことで目的音の複素スペクトルを生成する。時間周波数マスクの適用については、公知の方法（例えば、特開２０１５－５５８４３号公報に記載の方法）を使用することができる。

　逆短時間フーリエ変換部１２２Ｄは、複素スペクトルを波形に変換する。逆短時間フーリエ変換は、逆フーリエ変換およびオーバーラップ加算等からなる。これらの方法については公知の方法（例えば、特開２０１８－６４２１５号公報に記載の方法）を適用することができる。

　なお、後段のモジュールによっては、再構成部１２Ｄにおいて波形以外のデータに変換したり、或いは、再構成部１２Ｄ自体を省略したりすることも可能である。例えば、後段のモジュールが発話区間検出および音声認識であり、そこで使用される特徴量が振幅スペクトルあるいはそこから生成可能なデータである場合、再構成部１２Ｄは、抽出モデル部１２Ｃの出力を振幅スペクトルに変換するだけで良い。さらに、抽出モデル部１２Ｃが振幅スペクトルそのものを出力する場合は、再構成部１２Ｄ自体を省略しても良い。

（抽出モデル部の学習系について）
　次に、図１２及び図１３を参照して、抽出モデル部１２Ｃの学習系について説明する。かかる学習系は抽出モデル部１２Ｃに対して所定の学習を事前に行うために使用される。以下に説明する学習系は、抽出モデル部１２Ｃを除き、信号処理装置１０とは別システムであることを想定しているが、学習系にかかる構成が信号処理装置１０に組み込まれていても良い。

　学習系の基本的な動作は、例えば、以下の（１）から（３）の通りであり、（１）から（３）までのプロセスを繰り返し行うことを学習と呼ぶ。（１）目的音データセット２１及び妨害音データセット２２とから、入力特徴量及び教師データ（その入力特徴量に対する理想的な出力特徴量）が生成される。（２）入力特徴量が抽出モデル部１２Ｃに入力され、順方向伝播によって出力特徴量が生成される。（３）出力特徴量と教師データとが比較され、誤差が小さくなるよう、換言すれば、損失関数における損失値を最小とするように抽出モデル内のパラメータが更新される。

　入力特徴量と教師データとのペアを、以下では学習データと適宜、称する。学習データは図１３に示すような４通りを生成する。この図において、（ａ）は目的音と妨害音とが混合している場合に目的音を抽出することを学習するためのデータであり、（ｂ）は静かな環境での発話を劣化なく出力させるためのデータであり、（ｃ）はユーザが発話をしていない場合に無音を出力させるためのデータであり、（ｄ）は静かな環境においてユーザが何も発話していない場合に無音を出力させるためのデータである。なお、図１３の教示情報において「無し」とは、信号自体は存在するものの、その中には目的音に由来する成分が含まれていないことを意味する。

　これら４通りの学習データは、場合分けによってそれぞれを所定の割合で生成する。あるいは後述のように、静かな環境で収録された無音に近い音を目的音および妨害音のデータセットに含めておくことで、場合分けなしに全組み合わせが生成されるようにしても良い。

　以下、学習系を構成するモジュールとその動作について説明する。目的音データセット２１は、目的音波形とそれと同期した教示情報とのペアで構成される集合である。ただし、図１３における（ｃ）に対応する学習データや図１３における（ｄ）に対応する学習データを生成する目的で、静かな場所において人が発話していないときのマイクロホン観測信号およびそれに対応した補助センサの入力信号のペアも、このデータセットには含まれる。

　妨害音データセット２２は、妨害音になり得る音で構成される集合である。音声も妨害音になり得るため、妨害音データセット２２には音声も非音声も含まれる。さらに、図１３における（ｂ）に対応する学習データや図１３における（ｄ）に対応する学習データを生成するため、静かな場所で観測されたマイクロホン観測信号もこのデータセットには含まれる。学習時は、目的音波形と教示情報とからなるペアの一つが目的音データセット２１からランダムに取り出される。その内の教示情報については、それが気導マイクロホンによって取得された場合は混合部２４へ入力されるが、気導マイクロホン以外のセンサで取得された場合は特徴量生成部２５へ直接入力される。目的音波形については、混合部２３及び教師データ生成部２６にそれぞれに入力される。他方、妨害音データセット２２からはランダムに１個以上の音波形が取り出され、当該音波形が混合部２３に入力される。補助センサが気導マイクロホン以外である場合は、妨害音データセット２２から取り出された波形は混合部２４にも入力される。

　混合部２３は、目的音波形と１個以上の妨害音波形とを、所定の混合比（ＳＮ比(Signal Noise Ratio)）で混合する。混合結果はマイクロホン観測信号に相当し、特徴量生成部２５に送られる。混合部２４は、補助センサ３が気導マイクロホンである場合に適用されるモジュールであり、音信号である教示情報に対し、妨害音を所定の混合比で混合する。混合部２４において妨害音を混合する理由は、教示情報に妨害音がある程度まで混入しても良好な音源抽出が行えるようにするためである。

　特徴量生成部２５に対する入力は２種類あり、一方はマイクロホン観測信号であり、他方は教示情報あるいは混合部２４の出力である。これら２種類のデータから入力特徴量を生成する。抽出モデル部１２Ｃは、学習前および学習途中のニューラルネットワークであり、構成は図１０と同一である。教師データ生成部２６は、理想的な出力特徴量である教師データを生成する。教師データの形状は基本的に出力特徴量と同一であり、振幅スペクトルや時間周波数マスク等である。ただし後述の通り、抽出モデル部１２Ｃの出力特徴量が時間周波数マスクである一方で、教師データが振幅スペクトルという組み合わせも可能である。

　図１３に示したように、教師データは目的音及び妨害音の有無によって異なる。目的音が存在する場合は目的音に対応した出力特徴量、目的音が存在しない場合は無音に対応した出力特徴量である。比較部２７は、抽出モデル部１２Ｃの出力と教師データとを比較し、損失関数（loss function）における損失値が減少するように、抽出モデル部１２Ｃに含まれるパラメータについての更新値を計算する。比較で使用する損失関数としては、平均二乗誤差等が使用可能である。比較の方法及びパラメータの更新方法については、ニューラルネットワークの学習アルゴリズムとして公知の方法を適用することができる。

［気導マイクロホン及び補助センサの具体例］
（具体例１）
　次に、気導マイクロホン２及び補助センサ３の具体例について説明する。図１４は、オーバーイヤー型のヘッドホン３０における、気導マイクロホン２及び補助センサ３の具体例を示す図である。耳に被せる部品であるイヤーカップ３１の外側と内側とに、それぞれ、外側（耳介側とは反対側）マイクロホン３２と内側（耳介側）マイクロホン３３が設けられている。外側マイクロホン３２及び内側マイクロホン３３は、例えば、ノイズキャンセル用として設けられているマイクロホンを適用することができる。マイクロホンの種類としては外側も内側も気導マイクロホンであるが、使用目的が異なる。外側マイクロホン３２が上述した気導マイクロホン２に相当し、目的音と妨害音とが混合した音を取得するために用いられる。内側マイクロホン３３が補助センサ３に相当する。

　人の発声器官は耳と繋がっているため、ヘッドホン装着者すなわちユーザの発話（目的音）は、大気を通じて外側マイクロホン３２で観測される他に、内耳および外耳道を経由し、内側マイクロホン３３でも観測される。妨害音は、外側マイクロホン３２で観測される他に内側マイクロホン３３でも観測されるが、イヤーカップ３１によってある程度減衰するため、内側マイクロホン３３では妨害音よりも目的音が優勢な状態で音が観測される。しかしながら、内側マイクロホン３３で観測された目的音は、内耳を経由しているために周波数分布が外側マイクロホン３２由来のものとは異なり、また、体内で発生する発話以外の音（嚥下音など）が収音される場合もあるため、内側マイクロホン３３で観測された音を他の人間が聴取したり、そのまま音声認識に入力したりすることは必ずしも適切ではない。

　そこで本開示では、内側マイクロホン３３で観測された音信号を音源抽出の教示情報として使用することで問題を解決する。具体的には、以下の（１）から（３）の理由によって問題が解決される。（１）抽出結果は、気導マイクロホン２である外側マイクロホン３２の観測信号から生成され、更に、学習時に気導マイクロホン由来の教師データを用いるため、抽出結果における目的音の周波数分布は静かな環境で収録されたものに近い。（２）内側マイクロホン３３で観測される音すなわち教示情報には、目的音だけでなく妨害音も混入する場合はあるが、学習時にはそのような教示情報および外側マイクロホン観測信号とから目的音を出力するようなデータを用いて対応付けを学習させるため、抽出結果は比較的クリーンな音声である。（３）嚥下音等が内側マイクロホン３３で観測されても、その音は外側マイクロホン３２では観測されないため、抽出結果には出現しない。

（具体例２）
　図１５は、片耳挿入型のイヤホン４０における、気導マイクロホン２及び補助センサ３の具体例を示す図である。ハウジング４１の外側に外側マイクロホン４２が設けられている。外側マイクロホン４２が、気導マイクロホン２に相当する。外側マイクロホン４２により、空気中を伝わる目的音と妨害音とが混合した混合音が観測される。

　イヤーピース４３は、ユーザの外耳道に挿入される部分である。イヤーピース４３の一部に内側マイクロホン４４が設けられている。内側マイクロホン４４が、補助センサ３に相当する。内側マイクロホン４４では、内耳経由で伝わってきた目的音と、ハウジング部を通過して減衰した妨害音とが混合した音が観測される。音源抽出の方法については図１４に示したヘッドホンと同様であるため、重複した説明を省略する。

（他の具体例）
　なお、補助センサ３は、気導マイクロホンに限定されるものではなく、それ以外の種類のマイクロホンや、さらにはマイクロホン以外のセンサも使用可能である。
　例えば、補助センサ３として、骨伝導マイクロホンや咽頭マイクロホンといった、体内を直接伝播する音波を取得可能なマイクロホンを使用しても良い。体内を伝播する音波は大気中を伝わる妨害音の影響を受けにくいため、これらのマイクロホンで取得された音信号はユーザのクリーンな発話音声に近いと考えられる。しかし実際には、図１４のオーバーイヤー型ヘッドホン３０における内側マイクロホン３３を使用した場合と同様に、周波数分布の違いや嚥下音などの問題が発生する可能性がある。そこで、骨伝導マイクロホンや咽頭マイクロホンなどを補助センサ３として使用し、教示つき音源抽出を行うことで問題を解決する。
　補助センサ３としては他に、音波以外の信号を検出するセンサ、例えば、光センサを適用することも可能である。音を発する物体の表面（例えば、筋肉）は振動しており、人体であれば発声器官の近くにある喉や頬の皮膚は自身が発する音声に応じて振動している。そのため、その振動を光センサによって非接触な方法で検出することで、発話自体の有無を検出したり、音声そのものを推定したりすることができる。

　例えば、振動を検出する光センサを用いて発話区間の検出を行う技術が提案されている。また、レーザを皮膚に当てることで生じる斑点の明るさを高フレームレートのカメラで観測し、その明るさの変化から音の推定を行う技術も提案されている。本例でも光センサを用いるが、光センサによる検出結果は、発話区間検出や音の推定のためではなく、教示つき音源抽出のために使用される。

　光センサを使用した具体例について説明する。レーザーポインターやＬＥＤ等の光源から発する光を頬・喉・後頭部といった発声器官付近の皮膚に当てる。光を当てることで皮膚の上に光の斑点が生じる。斑点の明るさは光センサで観測される。この光センサが補助センサ３に相当し、ユーザの身体に装着されている。集光を容易にするため、光センサと光源とは一体化しても良い。

　携帯を容易にするため、気導マイクロホン２を光センサおよび光源と一体化しても良い。このモジュールに対して、気導マイクロホン２で取得された信号をマイクロホン観測信号として入力し、光センサで取得された信号を教示情報として入力する。

　上記の例は振動を検出する光センサを補助センサ３として使用するものであったが、ユーザの発話と同期した信号を取得するセンサであれば、他の種類のセンサも使用可能である。そのような例として、下顎や口唇付近の筋肉の筋電位を取得するための筋電センサや、下顎付近の動きを取得するための加速度センサ等が挙げられる。

［処理の流れ］
（全体の処理の流れ）
　次に、実施の形態にかかる信号処理装置１０で行われる処理の流れについて説明する。図１６は、実施の形態にかかる信号処理装置１０で行われる全体の処理の流れを示すフローチャートである。処理が開始されると、ステップＳＴ１では、気導マイクロホン２によりマイクロホン観測信号が取得される。そして、処理がステップＳＴ２に進む。

　ステップＳＴ２では、補助センサ３により１次元の時系列信号である教示情報が取得される。そして、処理がステップＳＴ３に進む。

　ステップＳＴ３では、音源抽出部１２により、マイクロホン観測信号と教示情報とを用いて抽出結果、即ち、目的音信号が生成される。そして、処理がステップＳＴ４に進む。

　ステップＳＴ４では、一連の処理が終了したか否かが判断される。かかる判断処理は、例えば、信号処理装置１０の制御部１３により行われる。一連の処理が終了していない場合は、処理がステップＳＴ１に戻り、上述した処理が繰り返される。

　なお、図１６では図示を省略しているが、ステップＳＴ３にかかる処理で目的音信号が生成された後、後処理部１４による処理が行われる。上述したように、後処理部１４による処理は、信号処理装置１０が適用される機器に応じた処理（通話、録音、音声認識等）である。

（音源抽出部による処理の流れ）
　次に、図１６のステップＳＴ３で行われる音源抽出部１２による処理の流れを、図１７のフローチャートを参照して説明する。

　処理が開始されると、ステップＳＴ１１では、ＡＤ変換部１２ＡによるＡＤ変換処理が行われる。具体的には、気導マイクロホン２により取得されたアナログ信号がデジタル信号であるマイクロホン観測信号に変換される。また、補助センサ３としてマイクロホンが適用されている場合には、補助センサ３で取得されたアナログ信号がデジタル信号である教示情報に変換される。そして、処理がステップＳＴ１２に進む。

　ステップＳＴ１２では、特徴量生成部１２Ｂによる特徴量生成処理が行われる。具体的には、マイクロホン観測信号と教示情報とが、特徴量生成部１２Ｂにより、それぞれ入力特徴量に変換される。そして処理がステップＳＴ１３に進む。

　ステップＳＴ１３では、抽出モデル部１２Ｃによる出力特徴量生成処理が行われる。具体的には、ステップＳＴ１２で生成された入力特徴量を抽出モデルであるニューラルネットワークに入力し、所定の順伝播処理（forward propagation）を行うことで出力特徴量を生成する。そして、処理がステップＳＴ１４に進む。

　ステップＳＴ１４では、再構成部１２Ｄによる再構成処理が行われる。具体的には、ステップＳＴ１３で生成された出力特徴量に対して複素スペクトルの生成や逆短時間フーリエ変換等を適用することで、音波形またはそれに類するデータである目的音信号が生成される。そして、処理が終了する。

　なお、音源抽出処理より後段の処理によっては、音波形以外のデータを生成したり再構成処理自体を省略したりしても良い。例えば、後段で音声認識を行う場合は、再構成処理において音声認識用の特徴量を生成しても良く、あるいは、再構成処理において振幅スペクトルを生成し、音声認識において振幅スペクトルから音声認識用の特徴量を生成しても良い。さらに、抽出モデルが振幅スペクトルを出力するように学習されている場合には、再構成処理自体をスキップしても良い。

　なお、上述したフローチャートで示される処理の一部の処理順序が入れ替わっても良いし、複数の処理が並行して行われても良い。

［実施の形態により得られる効果］
　本実施の形態によれば、例えば、以下の効果が得られる。
　実施の形態の信号処理装置１０は、目的音と妨害音とが混合した混合音（マイクロホン観測信号）を取得する気導マイクロホン２と、ユーザの発話と同期した１次元の時系列を取得する補助センサ３とを備えている。補助センサ３で取得された信号を教示情報とする教示つき音源抽出をマイクロホン観測信号に対して行うことで、妨害音が音声である場合はユーザの発話のみを選択的に抽出することができ、妨害音が非音声である場合は教示情報がない場合とくらべて入力データの情報量が増える分だけ高精度な抽出が可能となる。
　教示つき音源抽出においては、マイクロホン観測信号および教示情報という入力データからクリーンな目的音への対応関係が予め学習されているモデルを用いる。そのため、学習時に使用されたデータと同程度であれば教示情報には妨害音が含まれていても良い。更に、教示情報は音でも良いし音以外でも良い。即ち、教示情報が音であるという制限が不要となるため、発話に同期した任意の一次元の時系列信号を教示情報として使用することができる。
　また、本実施の形態によれば、最小のセンサ数は気導マイクロホン２と補助センサ３との２個である。そのため、多数の気導マイクロホンを用いたビームフォーミング処理によって音源抽出を実現する場合と比べ、システム自体を小型化することができる。また、補助センサ３を携帯できるので、様々な場面に実施の形態を適用することができる。
　例えば、教示情報として、１次元の時系列信号ではない信号、例えば、空間情報を含む画像情報を適用することも考えられる。しかしながら、発話しているユーザの顔画像（口元）を捉えるカメラをユーザ自身が装着し、移動しうるユーザの顔画像を常に取得することは困難である。これに対して実施の形態で使用される教示情報は、内耳経由で伝わってきたユーザの発話、発話者の皮膚の振動や発話者の口付近の筋肉の動き等であり、それらを観測するセンサをユーザが装着あるいは携帯することは容易である。そのため、ユーザが移動する状況であっても実施の形態を容易に適用することができる。
　本実施の形態では、ユーザの発話と同期した信号を教示情報として使用するため、ユーザのクリーンな音声が取得できない場合にも高精度の抽出を行うことができる。そのため、一つの信号処理装置１０を複数人で共有したり、不特定多数が短時間ずつ使用したりするといったことも容易に実現することができる。

＜２．変形例＞
　以上、本開示の実施の形態について具体的に説明したが、本開示の内容は上述した実施の形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。以下、変形例について説明する。なお、変形例の説明において、上述した実施の形態にかかる構成と同一又は同質の構成については同一の参照符号を付し、重複した説明を適宜、省略する。

［変形例１］
　変形例１は、教示つき音源抽出と発話区間推定とを同時に推定する例である。上述した実施の形態では、音源抽出部１２によって抽出結果を生成し、その抽出結果に基づいて発話区間推定部１４Ｃが発話区間情報を生成していたが、変形例１では、抽出結果が生成されると共に発話区間情報が生成される。

　このような同時推定を行う理由は、妨害音も音声である場合における発話区間推定の精度を向上させるためである。この点について図２を参照して説明する。目的音だけでなく妨害音も音声である場合は、妨害音が非音声である場合よりも認識精度が大きく低下することがあり、その原因の一つは発話区間推定の失敗である。入力音が音声らしいか否かで発話区間を推定する方式では、目的音も妨害音も共に音声である場合は両者を区別できないため、妨害音のみが存在する区間も発話区間として検出され、それが認識誤りに繋がる。例えば、目的音の前後の時間に存在する妨害音を含んだ長い区間が発話区間として検出された結果、本来の目的音に由来する単語列の前後に妨害音由来の余計な単語列が連結したものが認識結果として得られたり、妨害音のみが鳴っているときにその部分が発話区間として検出された結果、余計な認識結果が生成されたりする場合などがある。

　音源抽出部１２の抽出結果に対して発話区間推定を行う場合も、抽出結果に妨害音の消し残りが存在する限りは同じ問題が発生する可能性がある。すなわち、抽出結果は妨害音が完全に除去された理想的な信号（図２Ｄ参照）とは限らず、目的音の前後に妨害音に由来する小さな音量の音声が連結している場合がある。そのような信号に対して発話区間推定を行うと、本当の目的音よりも長い区間が発話区間として推定されたり、妨害音の消し残りが発話区間として検出されたりしてしまう可能性がある。

　発話区間推定部１４Ｃは、音源抽出部１２の出力である抽出結果に加えて補助センサ３に由来する教示情報も使用することで区間推定精度の向上を意図しているが、音声である妨害音が教示情報にも混入している場合（例えば図２Ｂにおいて妨害音４Ｂも音声である場合）には、本来の発話よりも長い区間が発話区間として推定される可能性が依然として残る。

　そこで、ニューラルネットワークの学習時に、マイクロホン観測信号と教示情報という両入力からクリーンな目的音への対応関係を学習するだけでなく、両入力から発話区間の内外どちらであるかの判別結果への対応関係も合わせて学習されるようにする。そして、信号処理装置の使用時には、抽出結果の生成と発話区間の判別とが同時に行われるようにする（２種類の情報を出力する）ことで、上述した問題を解決する。即ち、抽出結果内に音声である妨害音の消し残りが存在していても、そのタイミングにおけるもう一方の出力が「発話区間の外側である」という判別結果であれば、妨害音が単独で存在する部分が発話区間として推定されてしまう問題を回避することができる。

　図１８は、変形例１にかかる信号処理装置（信号処理装置１０Ａ）の構成例を示す図である。図１８に示す信号処理装置１０Ａと、図６に具体的に示した信号処理装置１０との相違は、信号処理装置１０にかかる音源抽出部１２と発話区間推定部１４Ｃとが統合されて、音源抽出・発話区間推定部５２というモジュールに置き換わっていることである。音源抽出・発話区間推定部５２の出力は２系統ある。一方は音源抽出結果であり、この音源抽出結果が音声認識部１４Ｄに送られる。他方は発話区間情報であり、この発話区間情報も音声認識部１４Ｄに送られる。

　音源抽出・発話区間推定部５２の詳細を図１９に示す。音源抽出・発話区間推定部５２と音源抽出部１２との違いは、抽出モデル部１２Ｃが抽出・検出モデル部１２Ｆに置き換わったことと区間トラッキング部１２Ｇが新たに設けられたことであり、それ以外のモジュールは音源抽出部１２のモジュールと同一である。

　抽出・検出モデル部１２Ｆの出力は２系統ある。一方の出力は再構成部１２Ｄに出力され、音源抽出結果である目的音信号が生成される。他方の出力は、区間トラッキング部１２Ｇに送られる。後者のデータは発話検出の判別結果であり、例えばフレームごとに二値化された判別結果である。即ち、そのフレームにおいてユーザの発話が存在する／しないを、「１」または「０」の値でそれぞれ表現する。発話の有無であって音声の有無ではないので、ユーザが発話していないタイミングにおいて音声である妨害音が発生した場合の理想値は「０」である。

　区間トラッキング部１２Ｇは、フレームごとの判別結果を時間方向にトラッキングすることで発話区間情報である発話開始時刻・終了時刻をそれぞれ求める。処理の例としては、１という判定結果が所定の時間長以上に渡って継続したら発話の始端と見なし、同様に０という判定結果が所定の時間長以上継続したら発話の終端と見なす。あるいは、そのような規則に基づく方法の代わりに、ニューラルネットワークを使用した学習に基づく公知の方法によってトラッキングを行っても良い。

　上述した例では抽出・検出モデル部１２Ｆから出力される判別結果が二値であると説明したが、代わりに連続値を出力し、区間トラッキング部１２Ｇにおいて所定の閾値によって二値化を行っても良い。こうして求まった音源抽出結果及び発話区間情報が音声認識部１４Ｄに送られる。

　次に、図２０を参照して、抽出・検出モデル部１２Ｆの詳細について説明する。抽出・検出モデル部１２Ｆが、抽出モデル部１２Ｃと相違する点は、出力層が２種類（出力層１２１Ｆ及び出力層１２２Ｆ）存在することである。出力層１２１Ｆは、抽出モデル部１２Ｃの出力層１２４Ｃと同様に動作することで、音源抽出結果に相当するデータを出力する。一方、出力層１２２Ｆは、発話検出の判別結果を出力する。具体的には、フレームごとに二値化された判別結果などである。

　図２０においては、出力側の分岐はその一つ前の層である中間層ｎで発生しているが、それよりも入力層に近い側の中間層において分岐を発生させても良い。その場合、分岐が発生した中間層から各出力層までの層の個数はそれぞれ異なっていても良く、一つの例として、出力データの一方が中間層から出力されるようなネットワーク構造を用いても構わない。

　次に、抽出・検出モデル部１２Ｆの学習系について、図２１を用いて説明する。抽出・検出モデル部１２Ｆは抽出モデル部１２Ｃと異なり２種類のデータを出力するため、抽出モデル部１２Ｃとは異なる学習を行う必要がある。複数種類のデータを出力するニューラルネットワークを学習することはマルチタスク学習と呼ばれており、図２１はマルチタスク学習機の一種である。マルチタスク学習については、公知の方法を適用できる。

　目的音データセット６１は、以下の（ａ）から（ｃ）の３つの信号の組で構成される集合である。それは、（ａ）目的音波形（目的音である音声発話およびその前後に連結された所定の長さの無音からなる音波形）、（ｂ）（ａ）と同期した教示情報、（ｃ）（ａ）と同期した発話判別フラグである。

　上記（ｃ）の例として、（ａ）を所定の時間間隔（例えば図９の短時間フーリエ変換のシフト幅と同じ時間間隔）に分割した上で、各時間間隔内に発話が存在すれば「１」の値を、しなければ「０」の値を付与することで生成されるビット列などが考えられる。

　学習時は、目的音データセット６１からランダムに１個の組が取り出され、その内の教示情報が混合部６４（教示情報が気導マイクロホンによって取得された場合）又は特徴量生成部６５（それ以外の場合）へ、目的音波形が混合部６３及び教師データ生成部６６へ、発話判別フラグが教師データ生成部６７へそれぞれ出力される。また、妨害音データセット６２からランダムに１個以上の音波形が取り出され、取り出された音波形が、混合部６３に送られる。教示情報が気導マイクロホンによって取得された場合には、妨害音の音波形は混合部６４にも送られる。

　抽出・検出モデル部１２Ｆは２種類のデータを出力するため、それぞれについての教師データを用意する。教師データ生成部６６は、音源抽出結果に対応した教師データを生成する。教師データ生成部６７は、発話検出結果に対応した教師データを生成する。発話判別フラグが前述のようなビット列である場合は、それをそのまま教師データとして使用することができる。以降では、教師データ生成部６６により生成された教師データを教師データ１Ｄ、教師データ生成部６７で生成された教師データを教師データ２Ｄとそれぞれ称する。

　抽出・検出モデル部１２Ｆの出力が２種類あるため、比較部も２つ必要である。２種類の出力の内、音源抽出結果に相当する出力は比較部７０に出力され、比較部７０により教師データ１Ｄと比較される。比較部７０の動作は、上述した図１２における比較部２７と同一である。一方、発話検出結果に相当する出力は比較部７１に出力され、比較部７１により教師データ２Ｄと比較される。比較部７１も比較部７０と同様に損失関数を使用するが、こちらは二値の分類器を学習するための損失関数である。

　パラメータ更新値計算部７２は、２つの比較部７０及び比較部７１で計算されたそれぞれの損失値から、損失値が減少するように抽出・検出モデル部１２Ｆのパラメータについての更新値を計算する。マルチタスク学習におけるパラメータ更新方法については公知の方法を利用できる。

［変形例２］
　上述した変形例１においては、音源抽出結果と発話区間情報とを個別に音声認識部１４Ｄ側に送り、音声認識部１４Ｄ側で発話区間ごとへの分割と認識結果である単語列の生成とを行うことを想定していた。これに対して、変形例２は、音源抽出結果と発話区間情報とを統合したデータを一旦生成し、生成したデータを出力するようにしても良い。以下、変形例２について説明する。

　図２２は、変形例２にかかる信号処理装置（信号処理装置１０Ｂ）の構成例を示す図である。信号処理装置１０Ｂが信号処理装置１０Ａと異なる点は、信号処理装置１０Ｂでは、音源抽出・発話区間推定部５２から出力される２種類のデータ（音源抽出結果及び発話区間情報）が区間外無音化部５５に入力される点、及び、区間外無音化部５５の出力が新たに設けられた発話分割部１４Ｈ又は音声認識部１４Ｄに入力される点である。その他の構成は、信号処理装置１０Ａの構成と同一である。

　区間外無音化部５５は、音信号である音源抽出結果に対して発話区間情報を適用することで新たな音信号を生成する。具体的には、区間外無音化部５５は、発話区間外の時間に対応した音信号について、その部分を無音あるいは無音に近い音に置き換える処理を行う。無音に近い音とは、音源抽出結果に対して０に近い正の定数を乗じた信号などである。また、音の再生を行わない場合は、無音に置き換える代わりに、後段の発話分割部１４Ｈや音声認識部１４Ｄに悪影響を与えない種類のノイズに置き換えても良い。

　区間外無音化部５５の出力は切れ目のないストリームであり、それを音声認識部１４Ｄに入力するために以下の（１）または（２）のどちらかの方法で対応する。（１）区間外無音化部５５と音声認識部１４Ｄとの間に、発話分割部１４Ｈを追加する。（２）逐次音声認識と呼ばれる、ストリーム入力に対応した音声認識を用いる。（２）の場合、発話分割部１４Ｈはなくても良い。発話分割部１４Ｈとしては、公知の方法（例えば、特許第４１８２４４４号に記載の方法）を適用することができる。

　逐次音声認識は、公知の方法（例えば、特開２０１２－２２６０６８号公報に記載の方法）を適用することができる。区間外無音化部５５が動作することにより、ユーザが発話している区間以外は無音（あるいは後段の動作に悪影響を与えない音）という音信号が入力されるため、それが入力される発話分割部１４Ｈ又は音声認識部１４Ｄは、音源抽出結果が直接入力される場合よりも正確な動作をすることが可能となる。また、音源・発話区間推定部５２の後段に区間外無音化部５５を設けることにより、逐次音声認識機を備えたシステムに対してだけでなく、発話分割部１４Ｈと音声認識部１４Ｄとが一体化されたシステムに対しても、本開示の教示つき音源抽出を適用することができる。

　音源抽出結果に対して発話区間推定を行うと、妨害音も音声である場合に発話区間推定が妨害音の消し残りにも反応してしまい、誤認識に繋がったり、余計な認識結果が生成されたりする場合がある。変形例では、音源抽出と発話区間推定という２つの推定処理を同時に行うことで、音源抽出結果に妨害音の消し残りが含まれていても、それとは独立に正確な発話区間推定が行われ、結果として音声認識精度を向上させることができる。

［その他の変形例］
　その他の変形例について説明する。
　上述した信号処理装置における全部又は一部の処理がクラウド上のサーバ等で行われても良い。また、目的音は人が発した音声以外（例えば、ロボットやペットの声）でも良い。また、補助センサは、人物以外のロボットやペットに装着されても良い。また、補助センサは、異なる種類の複数の補助センサでも良く、信号処理装置が使用される環境に応じて、使用される補助センサが切り替えられるようにしても良い。また、本開示は、オブジェクト毎の音源を生成する際にも適用することができる。
　なお、図１２の「混合部２４」および図２１の「混合部６４」は、補助センサの種類によっては省略可能であるので、図１２の「混合部２４」および図２１の「混合部６４」のそれぞれには括弧を付している。

　なお、本開示中に例示された効果により本開示の内容が限定して解釈されるものではない。

　本開示は、以下の構成も採ることができる。
（１）
　目的音と前記目的音以外の音とが混合された混合音を含むマイクロホン信号と、補助センサによって取得された、前記目的音と同期している１次元の時系列信号とが入力される入力部と、
　前記１次元の時系列信号に基づいて、前記マイクロホン信号から前記目的音に対応する目的音信号を抽出する音源抽出部と
　を有する信号処理装置。
（２）
　前記音源抽出部は、前記１次元の時系列信号に基づいて生成される教示情報を使用して、前記目的音信号を抽出する
　（１）に記載の信号処理装置。
（３）
　前記補助センサは、前記目的音の発生源に装着されるセンサである
　（１）又は（２）に記載の信号処理装置。
（４）
　前記マイクロホン信号は、第１のマイクロホンによって検出される信号であり、
　前記補助センサは、前記第１のマイクロホンと異なる第２のマイクロホンである
　（１）から（３）までの何れかに記載の信号処理装置。
（５）
　前記第１のマイクロホンは、ヘッドホンのハウジングの外側に設けられるマイクロホンであり、前記第２のマイクロホンは、前記ハウジングの内部に設けられるマイクロホンである
　（４）に記載の信号処理装置。
（６）
　前記補助センサは、体内を伝播した音波を検出するセンサである
　（１）から（４）に記載の信号処理装置。
（７）
　前記補助センサは、音波以外の信号を検出するセンサである
　（１）から（４）に記載の信号処理装置。
（８）
　前記補助センサは、筋肉の動きを検出するセンサである
　（７）に記載の信号処理装置。
（９）
　前記音源抽出部により抽出された前記目的音信号を再生する再生部を有する
　（１）から（８）までの何れかに記載の信号処理装置。
（１０）
　前記音源抽出部により抽出された前記目的音信号を外部機器に送信する通信部を有する
　（１）から（８）までの何れかに記載の信号処理装置。
（１１）
　前記音源抽出部による抽出結果に基づいて、発話の有無を示す発話区間を推定し、その結果である発話区間情報を生成する発話区間推定部と、
　前記発話区間における音声認識を行う音声認識部を有する
　（１）から（８）までの何れかに記載の信号処理装置。
（１２）
　前記音源抽出部は、更に、発話の有無を示す発話区間を推定し、その結果である発話区間情報を生成する音源抽出・発話区間推定部として構成されており、
　前記音源抽出・発話区間推定部は、前記目的音信号及び前記発話区間情報を出力する
　（１）から（８）までの何れかに記載の信号処理装置。
（１３）
　前記音源抽出・発話区間推定部から出力される発話区間情報に基づいて、前記目的音信号における発話区間外の時間に対応する音信号を判定し、判定した前記音信号を無音化する区間外無音化部を有する
　（１２）に記載の信号処理装置。
（１４）
　前記音源抽出部は、前記マイクロホン信号に基づく第１の特徴量と、前記１次元の時系列信号に基づく第２の特徴量を入力とし、当該入力に対して順方向伝播処理を行うことにより、出力特徴量を出力する抽出モデル部を有する
　（１）から（８）の何れか、（１１）又は（１２）に記載の信号処理装置。
（１５）
　前記音源抽出部は、前記マイクロホン信号に基づく第１の特徴量と、前記１次元の時系列信号に基づく第２の特徴量を入力とし、当該入力に対して順方向伝播処理を行うことにより、複数の出力特徴量を出力する抽出・検出モデル部を有する
　（１）から（８）の何れか、（１２）又は（１３）に記載の信号処理装置。
（１６）
　前記出力特徴量に基づいて少なくとも前記目的音信号を生成する再構成部を有する
　（１４）又は（１５）に記載の信号処理装置。
（１７）
　入力特徴量から前記出力特徴量への対応関係が予め学習されている
　（１４）又は（１５）に記載の信号処理装置。
（１８）
　目的音と前記目的音以外の音とが混合された混合音を含むマイクロホン信号と、補助センサによって取得された、前記目的音と同期している１次元の時系列信号とが入力部に入力され、
　前記１次元の時系列信号に基づいて、前記マイクロホン信号から前記目的音に対応する目的音信号が音源抽出部により抽出される
　信号処理方法。
（１９）
　目的音と前記目的音以外の音とが混合された混合音を含むマイクロホン信号と、補助センサによって取得された、前記目的音と同期している１次元の時系列信号とが入力部に入力され、
　前記１次元の時系列信号に基づいて、前記マイクロホン信号から前記目的音に対応する目的音信号が音源抽出部により抽出される
　信号処理方法をコンピュータに実行させるプログラム。

２・・・気導マイクロホン
３・・・補助センサ
１０，１０Ａ，１０Ｂ・・・信号処理装置
１１・・・入力部
１２・・・音源抽出部
１２Ｃ・・・抽出モデル部
１２Ｄ・・・再構成部
１４Ａ・・・音再生部
１４Ｂ・・・通信部
３２，３３，４２，４４・・・マイクロホン
５２・・・音源抽出・発話区間推定部
５５・・・区間外無音化部

Claims

　目的音と前記目的音以外の音とが混合された混合音を含むマイクロホン信号と、補助センサによって取得された、前記目的音と同期する１次元の時系列信号とが入力される入力部と、
　前記１次元の時系列信号に基づいて、前記マイクロホン信号から前記目的音に対応する目的音信号を抽出する音源抽出部と
　を有する信号処理装置。
　前記音源抽出部は、前記１次元の時系列信号に基づいて生成される教示情報を使用して、前記目的音信号を抽出する
　請求項１に記載の信号処理装置。
　前記補助センサは、前記目的音の発生源に装着されるセンサである
　請求項１に記載の信号処理装置。
　前記マイクロホン信号は、第１のマイクロホンによって検出される信号であり、
　前記補助センサは、前記第１のマイクロホンと異なる第２のマイクロホンである
　請求項１に記載の信号処理装置。
　前記第１のマイクロホンは、ヘッドホンのハウジングの外側に設けられるマイクロホンであり、前記第２のマイクロホンは、前記ハウジングの内部に設けられるマイクロホンである
　請求項４に記載の信号処理装置。
　前記補助センサは、体内を伝播した音波を検出するセンサである
請求項１に記載の信号処理装置。
　前記補助センサは、音波以外の信号を検出するセンサである
　請求項１に記載の信号処理装置。
　前記補助センサは、筋肉の動きを検出するセンサである
　請求項７に記載の信号処理装置。
　前記音源抽出部により抽出された前記目的音信号を再生する再生部を有する
　請求項１に記載の信号処理装置。
　前記音源抽出部により抽出された前記目的音信号を外部機器に送信する通信部を有する
　請求項１に記載の信号処理装置。
　前記音源抽出部による抽出結果に基づいて、発話の有無を示す発話区間を推定し、その結果である発話区間情報を生成する発話区間推定部と、
　前記発話区間における音声認識を行う音声認識部を有する
　請求項１に記載の信号処理装置。
　前記音源抽出部は、更に、発話の有無を示す発話区間を推定し、その結果である発話区間情報を生成する音源抽出・発話区間推定部として構成されており、
　前記音源抽出・発話区間推定部は、前記目的音信号及び前記発話区間情報を出力する
　請求項１に記載の信号処理装置。
　前記音源抽出・発話区間推定部から出力される発話区間情報に基づいて、前記目的音信号における発話区間外の時間に対応する音信号を判定し、判定した前記音信号を無音化する区間外無音化部を有する
　請求項１２に記載の信号処理装置。
　前記音源抽出部は、前記マイクロホン信号に基づく第１の特徴量と、前記１次元の時系列信号に基づく第２の特徴量を入力とし、当該入力に対して順方向伝播処理を行うことにより、出力特徴量を出力する抽出モデル部を有する
　請求項１に記載の信号処理装置。
　前記音源抽出部は、前記マイクロホン信号に基づく第１の特徴量と、前記１次元の時系列信号に基づく第２の特徴量を入力とし、当該入力に対して順方向伝播処理を行うことにより、複数の出力特徴量を出力する抽出・検出モデル部を有する
　請求項１に記載の信号処理装置。
　前記出力特徴量に基づいて少なくとも前記目的音信号を生成する再構成部を有する
　請求項１４に記載の信号処理装置。
　入力特徴量から前記出力特徴量への対応関係が予め学習されている
　請求項１４に記載の信号処理装置。
　目的音と前記目的音以外の音とが混合された混合音を含むマイクロホン信号と、補助センサによって取得された、前記目的音と同期している１次元の時系列信号とが入力部に入力され、
　前記１次元の時系列信号に基づいて、前記マイクロホン信号から前記目的音に対応する目的音信号が音源抽出部により抽出される
　信号処理方法。
　目的音と前記目的音以外の音とが混合された混合音を含むマイクロホン信号と、補助センサによって取得された、前記目的音と同期している１次元の時系列信号とが入力部に入力され、
　前記１次元の時系列信号に基づいて、前記マイクロホン信号から前記目的音に対応する目的音信号が音源抽出部により抽出される
　信号処理方法をコンピュータに実行させるプログラム。