JP6280068B2

JP6280068B2 - パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム

Info

Publication number: JP6280068B2
Application number: JP2015045675A
Authority: JP
Inventors: 隆伸大庭; 太一浅見; 阪内　澄宇; 澄宇阪内
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2015-03-09
Filing date: 2015-03-09
Publication date: 2018-02-14
Anticipated expiration: 2035-03-09
Also published as: JP2016166927A

Description

この発明は、音声による話者認識技術に関し、特に、不正な音声の入力を検出する技術に関する。

音声による話者認識（以下、単に話者認識と呼ぶ。）は照合と識別に大別される。話者の照合は本人確認に利用される。ユーザはまず話者認識システムに自分のユーザ名を申告する。次に話者認識システムに音声を入力する。話者認識システムは入力音声が本当に申告のあったユーザであるかを判定する。一方、話者の識別は入力音声が誰の声であるかを判定する。事前に登録された人物の中から入力音声に最も類似した声を持つ人物を結果として返す。照合と識別の両方を兼ね備える場合もある。つまり、非登録話者であるかどうかを判定し（照合）、さらに登録話者であれば具体的に誰かを判定する（識別）。これらを総じて話者認識と呼ぶ。

話者認識にはテキスト依存型とテキスト非依存型がある。テキスト依存型とは認識を行う際に所定のテキストをユーザが読み上げる形式である。一方、テキスト非依存型ではユーザは任意の言葉を発してよい。

話者認識では音声の事前登録が必要である。登録は１発話以上行う。利便性のため、登録発話は短い方がよく、登録回数が少ない場合でも適切に認識が行えることが望ましい。

話者認識では、入力された音声信号全体から１つの話者特徴ベクトルを算出する技術が利用されている。具体的な方法は、例えば、非特許文献１に開示されている。入力された音声信号（通常は１センテンスを発声した「発話」と呼ばれる区間の音声信号が入力される。）を数十ミリ秒の音響分析フレームに分割し、各音響分析フレームから抽出した音響特徴量ベクトルを時間順に並べた音響特徴量ベクトル系列を作成する。そして、音響特徴量ベクトル系列から式（１）により話者特徴ベクトルwを算出する。なお、式（１）は非特許文献１の式（13）において一部記号を変更したものである。

ここで、Iは単位行列、T'は行列Tの転置を表す。T, Σは事前に学習しておいた話者特徴抽出モデルのパラメータである。N_u, F_uは入力された音響特徴量ベクトル系列を用いて所定の混合正規分布に対して計算した０次統計量および１次統計量である。

話者特徴抽出モデルのパラメータT, Σの具体的な学習方法（算出過程）も非特許文献１に開示されている。詳細は割愛するが、非特許文献１の学習方法は、学習時に話者ラベルを必要としない点が１つの特徴として挙げられる。学習には多くの人の音声信号のみが必要で、個々の音声信号の話者を示すラベルは必要ない。これは、音声に含まれる情報のうち、話者性が支配的である点を利用している。学習は、個々の音声信号に共通に含まれる特徴を抽出・強調するように行われ、その結果、話者性を表す特徴が抽出・強調されるような話者特徴抽出モデルのパラメータT, Σが得られる。したがって、音声以外の情報も学習データ中に大量に加えておくことで、それらの特徴を抽出・強調するような話者特徴抽出モデルのパラメータを得ることが期待できる。

個々の入力音声から話者特徴ベクトルが算出できるようになれば、話者認識は既存の外れ値検知やクラス分類等の技術を用いることで実現される。話者の照合は、登録話者かそれ以外かの二値を判定すればよいため、例えば外れ値検知や二値のクラス分類アルゴリズムを用いることができる。話者の識別は、多値のクラス分類問題に他ならないため、多値のクラス分類を実現するためのアルゴリズムを適用すればよい。これらは任意の公知技術を適用すればよい。これらについては、例えば、非特許文献２および非特許文献３に詳しく記述されている。

最も単純な話者認識の方法は、話者特徴ベクトルの最近傍検索を行う方法である。話者の識別であれば、既に登録されている話者特徴ベクトルのそれぞれに対して、入力音声に対する話者特徴ベクトルとの間のコサイン類似度を算出し、最近傍に位置する話者特徴ベクトルのユーザ名を返す。話者の照合であれば、最近傍の話者特徴ベクトルとの類似度が閾値以上であれば照合したと判定する。話者の登録は、入力音声に対する話者特徴ベクトルとユーザ名とを関連付けて話者認識システムに登録するだけである。

小川哲司、塩田さやか、"i-vectorを用いた話者認識"、日本音響学会誌、vol. 70(6)、pp. 332-339、2014年6月藤巻遼平、"異常検出サポートベクトルマシン"、FIT2008、F-022、pp. 363-364 江口真透、"統計的識別の方法について. ―ロジスティック判別からアダブーストまで―"、[online]、統計数理研究所、［平成27年2月18日検索］、インターネット<URL: http://www.ism.ac.jp/~eguchi/pdf/applstat5_25manu.pdf>

話者認識は音声の適切な入力を前提とした技術である。そのため話者認識システムに対し、音声の適切な入力を判定する機能を具備することは有用である。特に登録時は重要である。登録音声が不適切であれば、正しく認識できないからである。

話者認識技術で前提としている音声は人間が言葉を発している音声であるが、これを厳密に定義することや、ユーザにその点を明確に示し、理解してもらうことは難しい。例えば、子音だけで構成される音声は言葉を発していると言えるかもしないが、子音のみから話者性を適切に抽出することは困難であり、現状の技術水準の話者認識システムとしては不正な入力とみなしたい。例えば、「スススー（母音『ウ』は発音されず子音『s』だけの発声）」といったものがこれに当たる。更には、喉を鳴らす音、舌を振動させる音や鳴らす音、息の吹きかけ音や吸込み音、口笛、リップ音、咳などの音が支配的な入力も想定される。これらは既存の音声区間検出技術で除去することは難しい。

テキスト依存型の話者認識であれば、音声認識などの技術を利用し、テキストと実際の発話内容を比較するといった方法で入力音声の適切さを判断できる。しかし、テキスト非依存型ではその方法は自明ではない。

この発明の目的は、このような点に鑑みて、話者認識に適さない不正な音声もしくは音の入力を検出することができる話者認識技術を提供することである。

上記の課題を解決するために、この発明の第一の態様のパラメータ学習装置は、話者認識に適する音声を収録した正常音声を記憶する正常音声記憶部と、話者認識に適さない音声を収録した不正音声を記憶する不正音声記憶部と、正常音声および不正音声を用いて話者特徴抽出モデルのパラメータを推定するパラメータ推定部と、話者特徴抽出モデルのパラメータを用いて不正音声から話者特徴ベクトルを抽出する話者特徴ベクトル抽出部と、不正音声の話者特徴ベクトルを不正音声情報に登録する不正音声登録部と、を含む。

第二の態様の話者認識装置は、パラメータ学習装置により生成された話者特徴抽出モデルのパラメータを記憶するパラメータ記憶部と、パラメータ学習装置により生成された不正音声情報を記憶する不正音声情報記憶部と、複数のユーザの発話から抽出した話者特徴ベクトルが登録されたユーザ情報を記憶するユーザ情報記憶部と、話者特徴抽出モデルのパラメータを用いて入力音声から話者特徴ベクトルを抽出する話者特徴ベクトル抽出部と、入力音声の話者特徴ベクトルを不正音声情報と比較して入力音声が話者認識に適さない不正音声であるか否かを判定する不正音声判定部と、入力音声が不正音声でないと判定された場合に、入力音声の話者特徴ベクトルをユーザ情報へ登録する話者登録部と、入力音声が不正音声でないと判定された場合に、入力音声の話者特徴ベクトルをユーザ情報の話者特徴ベクトルと比較して入力音声に対する話者認識の結果を出力する話者認識部と、を含む。

この発明の話者認識技術によれば、テキスト非依存型の話者認識において、話者認識に適さない不正な音声もしくは音の入力を検出することができる。これにより、話者登録や話者認識において正常な音声のみが対象となるため話者認識の精度が向上する。

図１は、従来の話者認識システムの機能構成を例示する図である。図２は、従来のパラメータ学習装置の機能構成を例示する図である。図３は、従来の話者認識装置の機能構成を例示する図である。図４は、従来のパラメータ学習方法の処理フローを例示する図である。図５は、従来の話者認識方法の処理フローを例示する図である。図６は、実施形態の話者認識システムの機能構成を例示する図である。図７は、実施形態のパラメータ学習装置の機能構成を例示する図である。図８は、実施形態の不正音声登録装置の機能構成を例示する図である。図９は、実施形態の話者認識装置の機能構成を例示する図である。図１０は、実施形態のパラメータ学習方法の処理フローを例示する図である。図１１は、実施形態の不正音声登録方法の処理フローを例示する図である。図１２は、実施形態の話者認識方法の処理フローを例示する図である。

以下、この発明の実施の形態について詳細に説明する。最初に、この発明のポイントを説明する。続いて、従来の話者認識技術の基本的な流れを説明し、その後、実施形態の話者認識技術を説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［発明のポイント］
この発明の話者認識技術は、以下の三点を特徴とする。
（Ａ）話者特徴抽出モデルのパラメータの学習時に不正な音声を学習データとして与え、その特徴を学習する。
（Ｂ）予め不正な音声をシステムに登録しておく。
（Ｃ）音声の入力時に不正な音声との照合もしくは識別を行う。

特徴（Ａ）についてより詳細に説明する。話者特徴抽出モデルのパラメータの学習において、通常の適正な音声データに加え、不正な音声データを与える。不正な音声データは話者性をあまり含まない（抽出できない）信号であるから、本来であれば話者特徴抽出モデルのパラメータの学習には用いるべきではない。

前述の通り、学習は個々の音声信号に共通に含まれる特徴を抽出・強調するように行われるに過ぎないため、不正な音声を含む音声データを用いて学習を行うと、結果的に話者性と同時に不正な音声の特徴を抽出・強調するような話者特徴抽出モデルのパラメータが得られることになる。したがって、このパラメータを用いて得られた話者特徴ベクトルは、話者の特徴を表すベクトルであると同時に、不正な音声の特徴を表すベクトルにもなっている。

通常の方法で（すなわち、適正な音声データだけを使って）学習を行ったパラメータを用いた場合でも、不正な音声の入力に対する話者特徴ベクトルは、適正な音声の入力に対する話者特徴ベクトルとは異なる特有の分布を持つ可能性もあるが、原理的には何も保証はない。特徴（Ａ）は、不正な音声の入力に対する話者特徴ベクトルが適正な音声の入力に対する話者特徴ベクトルとは異なる特有の分布を持つことを原理的に保証するための処理である。

特徴（Ｂ）および特徴（Ｃ）は、不正な音声のカテゴリを１つの話者と見なして話者認識を行うことを指している。話者認識システム内には、不正音声という架空のユーザ（以下、架空ユーザと呼ぶ。）が存在し、不正音声が登録されている（特徴（Ｂ））。実際に現実のユーザ（以下、実ユーザと呼ぶ。）が音声を入力した際に、架空ユーザとの照合もしくは識別を行い、架空ユーザと判定されれば不正な音声入力であると判定する（特徴（Ｃ））。

実ユーザが音声を登録する際には、入力音声と架空ユーザとを照合し、架空ユーザと判定されれば、不正な音声入力であると判定する。また、実ユーザが話者識別を行う際には、登録されているあらゆる実ユーザよりも架空ユーザである可能性が高いと判定されれば、不正な音声入力であると判定する。

［従来技術］
従来の話者認識システムは、図１に示すように、話者認識に適した正常音声から話者特徴抽出モデルのパラメータを学習するパラメータ学習装置１と、入力音声に対して話者特徴抽出モデルのパラメータを用いて話者認識を行い、その認識結果を出力する話者認識装置２とを含む。パラメータ学習装置１は、図２に示すように、ＵＢＭ記憶部１０、正常音声記憶部１２、パラメータ推定部１４、およびパラメータ記憶部１６を含む。話者認識装置２は、図３に示すように、ＵＢＭ記憶部１０、パラメータ記憶部１６、ユーザ情報記憶部２０、音声信号入力部２２、話者特徴ベクトル抽出部２４、話者認識部２６、および話者登録部２８を含む。

パラメータ学習装置１および話者認識装置２は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。パラメータ学習装置１および話者認識装置２は、例えば、中央演算処理装置の制御のもとで各処理を実行する。パラメータ学習装置１および話者認識装置２に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、パラメータ学習装置１および話者認識装置２の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

パラメータ学習装置１および話者認識装置２が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。パラメータ学習装置１および話者認識装置２が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

図４を参照して、従来のパラメータ学習方法の処理手続きを説明する。

パラメータ学習装置１のＵＢＭ記憶部１０には、ユニバーサルバックグラウンドモデル(UBM: Universal Background Model)が記憶されている。ユニバーサルバックグラウンドモデルは話者特徴抽出モデルのパラメータ学習に必要なモデルである。ユニバーサルバックグラウンドモデルは音声のモデルを表すガウス混合モデル（GMM: Gaussian Mixture Model）であり、既存の手法で予め求めておく。

パラメータ学習装置１の正常音声記憶部１２には、話者認識に適した音声データ（以下、正常音声と呼ぶ。）のデータベースが記憶されている。音声データは発話単位に分割されているのが一般的である。ここでは、各音声データ（発話）の話者を示すラベルは必要ない。

ステップＳ１０において、パラメータ学習装置１は、ＵＢＭ記憶部１０からユニバーサルバックグラウンドモデルを読み込む。読み込んだユニバーサルバックグラウンドモデルはパラメータ推定部１４へ入力される。

ステップＳ１２において、パラメータ学習装置１は、正常音声記憶部１２から正常音声を読み込む。読み込んだ正常音声はパラメータ推定部１４へ入力される。

ステップＳ１４において、パラメータ推定部１４は、ユニバーサルバックグラウンドモデルおよび正常音声を用いて、話者特徴抽出モデルのパラメータT, Σを求める。具体的なパラメータの求め方は非特許文献１に記述されたとおりである。学習した話者特徴抽出モデルのパラメータT, Σはパラメータ記憶部１６へ記憶される。

図５を参照して、従来の話者認識方法の処理手続きを説明する。

話者認識装置２のＵＢＭ記憶部１０には、ユニバーサルバックグラウンドモデルが記憶されている。このユニバーサルバックグラウンドモデルは、パラメータ学習装置１のＵＢＭ記憶部１０に記憶されているものと同じものである。

話者認識装置２のパラメータ記憶部１６には、パラメータ学習装置１により生成された話者特徴抽出モデルのパラメータT, Σが記憶されている。

話者認識装置２のユーザ情報記憶部２０には、ユーザ名などの各ユーザに紐づくユーザ情報のデータベースが記憶されている。ユーザ情報は話者認識を行うために必要な情報であり、具体的な項目は話者認識のアルゴリズムに依存する。例えば、クラス分類アルゴリズムを利用する話者認識システムであれば、クラス分類のモデルに関する情報などが含まれる。単に、登録時の各話者の音声ファイルや話者特徴ベクトルの場合もある。

ステップＳ１０において、話者認識装置２は、ＵＢＭ記憶部１０からユニバーサルバックグラウンドモデルを読み込む。読み込んだユニバーサルバックグラウンドモデルは話者特徴ベクトル抽出部２４へ入力される。

ステップＳ１６において、話者認識装置２は、パラメータ記憶部１６から話者特徴抽出モデルのパラメータT, Σを読み込む。読み込んだ話者特徴抽出モデルのパラメータT, Σは話者特徴ベクトル抽出部２４へ入力される。

ステップＳ２２において、音声信号入力部２２は、マイクロホンなどの収音手段によりユーザの発話を取得して入力音声データを生成する。話者登録を行う場合には、同時にユーザを一意に特定するユーザ名を取得して、入力音声データと関連付けておく。取得した入力音声データは話者特徴ベクトル抽出部２４へ入力される。

ステップＳ２４において、話者特徴抽出部２４は、ユニバーサルバックグラウンドモデルおよび話者特徴抽出モデルのパラメータT, Σを用いて、入力音声データから話者特徴ベクトルを抽出する。話者特徴ベクトルの抽出方法は上述の従来技術と同様であり、詳細は非特許文献１に記述されている。抽出した入力音声の話者特徴ベクトルは話者認識部２６および／または話者登録部２８へ入力される。

ステップＳ２５において、話者認識装置２は、所望の処理が話者認識であればステップＳ２６へ処理を進め、所望の処理が話者登録であればステップＳ２８へ処理を進める。

ステップＳ２６において、話者認識部２６は、入力音声データから抽出した話者特徴ベクトルを、ユーザ情報記憶部２０に記憶されているユーザ情報と比較して話者認識を行い、その認識結果を出力する。話者認識の具体的な方法は、利用している話者認識のアルゴリズムに依存するため、詳細な説明は省略する。

ステップＳ２８において、話者登録部２８は、入力音声データから抽出した話者特徴ベクトルと、入力音声データと同時に取得したユーザ名とを関連付けて、ユーザ情報記憶部２０に記憶されているユーザ情報へ登録する。登録するユーザ情報の具体的な項目は話者認識のアルゴリズムに依存するため、詳細な説明は省略する。

［実施形態］
実施形態の話者認識システムは、図６に示すように、パラメータ学習装置１と話者認識装置２とに加えて、話者特徴抽出モデルのパラメータを用いて話者認識に適さない不正音声から不正音声情報を生成する不正音声登録装置３を含む。実施形態のパラメータ学習装置１は、正常音声に加えて不正音声を用いて話者特徴抽出モデルのパラメータを学習する。実施形態の話者認識装置２は、不正音声情報を用いて入力音声が不正音声であるかどうかを判定し、入力音声が不正音声でなければ、話者特徴抽出モデルのパラメータを用いて入力音声に対して話者認識を行う。

以下では、話者認識システムがパラメータ学習装置１、話者認識装置２、および不正音声登録装置３から構成される場合を例に説明するが、各処理部が過不足なく備わるように構成されていれば装置構成は任意でよい。例えば、パラメータ学習装置１が不正音声登録装置３の各処理部を備えるようにし、パラメータ学習装置１と話者認識装置２とからなる話者認識システムとして構成してもよいし、各装置の各処理部を過不足なく含む１台の話者認識装置として構成してもよい。

実施形態のパラメータ学習装置１は、図７に示すように、ＵＢＭ記憶部１０、正常音声記憶部１２、パラメータ推定部１４、およびパラメータ記憶部１６を従来と同様に含み、不正音声記憶部１３をさらに含む。実施形態の不正音声登録装置３は、図８に示すように、ＵＢＭ記憶部１０、不正音声記憶部１３、パラメータ記憶部１６、話者特徴ベクトル抽出部２４、不正音声登録部３０、および不正音声情報記憶部３２を含む。実施形態の話者認識装置２は、図９に示すように、ＵＢＭ記憶部１０、パラメータ記憶部１６、ユーザ情報記憶部２０、音声信号入力部２２、話者特徴ベクトル抽出部２４、話者認識部２６、および話者登録部２８を従来と同様に含み、不正音声情報記憶部３２および不正音声判定部３４をさらに含む。

不正音声登録装置３は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。不正音声登録装置３は、例えば、中央演算処理装置の制御のもとで各処理を実行する。不正音声登録装置３に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、不正音声登録装置３の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

不正音声登録装置３が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。不正音声登録装置３が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

図１０を参照して、実施形態のパラメータ学習方法の処理手続きを説明する。以下では、上述の従来技術との相違点を中心に説明する。

パラメータ学習装置１の不正音声記憶部１３には、話者認識に適さない音声データ（以下、不正音声と呼ぶ。）のデータベースが記憶されている。不正音声は、例えば、子音だけの音声や喉を鳴らす音、舌を振動させる音や鳴らす音、息の吹きかけ音や吸込み音、口笛、リップ音、咳などであり、話者性を適切に抽出することが困難なために話者認識に適さない音声である。

ステップＳ１３において、パラメータ学習装置１は、不正音声記憶部１３から不正音声を読み込む。読み込んだ不正音声はパラメータ推定部１４へ入力される。

ステップＳ１４において、パラメータ推定部１４は、ユニバーサルバックグラウンドモデル、正常音声および不正音声を用いて、話者特徴抽出モデルのパラメータT, Σを求める。正常音声および不正音声は区別することなく、読み込んだすべての音声データを学習データとして話者特徴抽出モデルのパラメータT, Σを求める。具体的なパラメータの求め方は非特許文献１に記載の従来技術と同様に行えばよい。学習した話者特徴抽出モデルのパラメータT, Σはパラメータ記憶部１６へ記憶される。

図１１を参照して、実施形態の不正音声登録方法の処理手続きを説明する。

不正音声登録装置３のＵＢＭ記憶部１０には、ユニバーサルバックグラウンドモデルが記憶されている。このユニバーサルバックグラウンドモデルは、パラメータ学習装置１のＵＢＭ記憶部１０に記憶されているものと同じものである。

不正音声登録装置３のパラメータ記憶部１６には、実施形態のパラメータ学習装置１により生成された話者特徴抽出モデルのパラメータT, Σが記憶されている。

不正音声登録装置３の不正音声記憶部１３には、話者認識に適さない不正音声が記憶されている。この不正音声は、パラメータ学習装置１の不正音声記憶部１３に記憶された不正音声と同一であってもよいし、その一部であってもよい。また、まったく異なる不正音声であってもよい。

ステップＳ１０において、不正音声登録装置３は、ＵＢＭ記憶部１０からユニバーサルバックグラウンドモデルを読み込む。読み込んだユニバーサルバックグラウンドモデルは話者特徴ベクトル抽出部２４へ入力される。

ステップＳ１３において、不正音声登録装置３は、不正音声記憶部１３から不正音声を読み込む。読み込んだ不正音声は話者特徴ベクトル推定部２４へ入力される。

ステップＳ１６において、不正音声登録装置３は、パラメータ記憶部１６から話者特徴抽出モデルのパラメータT, Σを読み込む。読み込んだ話者特徴抽出モデルのパラメータT, Σは話者特徴ベクトル抽出部２４へ入力される。

ステップＳ２４において、話者特徴抽出部２４は、ユニバーサルバックグラウンドモデルおよび話者特徴抽出モデルのパラメータT, Σを用いて、不正音声から話者特徴ベクトルを抽出する。話者特徴ベクトルの抽出方法は上述の従来技術と同様であり、詳細は非特許文献１に記述されている。抽出した不正音声の話者特徴ベクトルは不正音声登録部３０へ入力される。

ステップＳ３０において、不正音声登録部３０は、不正音声から抽出した話者特徴ベクトルを不正音声情報記憶部３２へ登録する。不正音声情報は不正音声の判定に必要な情報を格納したデータベースであり、具体的な情報は不正音声を判定するアルゴリズムに依存する。例えば、外れ値検知のアルゴリズムを利用するのであれば、外れ値検知アルゴリズムに関する情報である。単に、抽出した不正音声データに対する話者特徴ベクトルの場合もある。

図１２を参照して、実施形態の話者認識方法の処理手続きを説明する。以下では、上述の従来技術との相違点を中心に説明する。

不正音声登録装置３の不正音声情報記憶部３２には、不正音声登録装置３により生成された不正音声情報が記憶されている。

ステップＳ３４において、不正音声判定部３４は、不正音声情報記憶部３２から不正音声情報を読み込み、話者特徴ベクトル抽出部２４が生成した入力音声の話者特徴ベクトルを不正音声情報と比較して入力音声が不正音声であるか否かを判定する。判定の方法は、話者認識のアルゴリズムに依存する。例えば、外れ値検知アルゴリズムにより判定を行う場合、入力音声の話者特徴ベクトルが外れ値であると判定されれば、正常な音声の入力と判定されたことを意味するから、当該話者特徴ベクトルを話者認識部２６および／または話者登録部２８に入力する。外れ値でないと判定されれば、不正な音声の入力と判定されたことを意味するから、不正な入力であったことをユーザに通知し、処理を終了する。

話者認識部２６および話者登録部２８は、従来と同様に、入力された話者特徴ベクトルに対して話者認識もしくは話者登録を行う。

上述のように構成することにより、実施形態の話者識別技術によれば、例えば、子音だけの音声や喉を鳴らす音、舌を振動させる音や鳴らす音、息の吹きかけ音や吸込み音、口笛、リップ音、咳など、話者性の抽出が困難であり話者認識に適さない不正な音声もしくは音の入力を検出することができる。これにより、話者登録や話者認識において正常な音声のみが対象となるため話者認識の精度が向上する。

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１パラメータ学習装置
２話者認識装置
３不正音声登録装置
１０ＵＢＭ記憶部
１２正常音声記憶部
１３不正音声記憶部
１４パラメータ推定部
１６パラメータ記憶部
２０ユーザ情報記憶部
２２音声信号入力部
２４話者特徴ベクトル抽出部
２６話者認識部
２８話者登録部
３０不正音声登録部
３２不正音声情報記憶部
３４不正音声判定部

Claims

話者認識に適する音声を収録した正常音声を記憶する正常音声記憶部と、
話者認識に適さない音声を収録した不正音声を記憶する不正音声記憶部と、
上記正常音声および上記不正音声を用いて話者特徴抽出モデルのパラメータを推定するパラメータ推定部と、
上記話者特徴抽出モデルのパラメータを用いて上記不正音声から話者特徴ベクトルを抽出する話者特徴ベクトル抽出部と、
上記不正音声の話者特徴ベクトルを不正音声情報に登録する不正音声登録部と、
を含むパラメータ学習装置。
請求項１に記載のパラメータ学習装置により生成された話者特徴抽出モデルのパラメータを記憶するパラメータ記憶部と、
請求項１に記載のパラメータ学習装置により生成された不正音声情報を記憶する不正音声情報記憶部と、
複数のユーザの発話から抽出した話者特徴ベクトルが登録されたユーザ情報を記憶するユーザ情報記憶部と、
上記話者特徴抽出モデルのパラメータを用いて入力音声から話者特徴ベクトルを抽出する話者特徴ベクトル抽出部と、
上記入力音声の話者特徴ベクトルを上記不正音声情報と比較して上記入力音声が話者認識に適さない不正音声であるか否かを判定する不正音声判定部と、
上記入力音声が不正音声でないと判定された場合に、上記入力音声の話者特徴ベクトルを上記ユーザ情報へ登録する話者登録部と、
上記入力音声が不正音声でないと判定された場合に、上記入力音声の話者特徴ベクトルを上記ユーザ情報の話者特徴ベクトルと比較して上記入力音声に対する話者認識の結果を出力する話者認識部と、
を含む話者認識装置。
正常音声記憶部に、話者認識に適する音声を収録した正常音声が記憶されており、
不正音声記憶部に、話者認識に適さない音声を収録した不正音声が記憶されており、
パラメータ推定部が、上記正常音声および上記不正音声を用いて話者特徴抽出モデルのパラメータを推定するパラメータ推定ステップと、
話者特徴ベクトル抽出部が、上記話者特徴抽出モデルのパラメータを用いて上記不正音声から話者特徴ベクトルを抽出する話者特徴ベクトル抽出ステップと、
不正音声登録部が、上記不正音声の話者特徴ベクトルを不正音声情報に登録する不正音声登録ステップと、
を含むパラメータ学習方法。
パラメータ記憶部に、請求項３に記載のパラメータ学習方法により生成された話者特徴抽出モデルのパラメータが記憶されており、
不正音声情報記憶部に、請求項３に記載のパラメータ学習方法により生成された不正音声情報が記憶されており、
ユーザ情報記憶部に、複数のユーザの発話から抽出した話者特徴ベクトルが登録されたユーザ情報が記憶されており、
話者特徴ベクトル抽出部が、上記話者特徴抽出モデルのパラメータを用いて入力音声から話者特徴ベクトルを抽出する話者特徴ベクトル抽出ステップと、
不正音声判定部が、上記入力音声の話者特徴ベクトルを上記不正音声情報と比較して上記入力音声が話者認識に適さない不正音声であるか否かを判定する不正音声判定ステップと、
話者登録部が、上記入力音声が不正音声でないと判定された場合に、上記入力音声の話者特徴ベクトルを上記ユーザ情報へ登録する話者登録ステップと、
話者認識部が、上記入力音声が不正音声でないと判定された場合に、上記入力音声の話者特徴ベクトルを上記ユーザ情報の話者特徴ベクトルと比較して上記入力音声に対する話者認識の結果を出力する話者認識ステップと、
を含む話者認識方法。
請求項１に記載のパラメータ学習装置もしくは請求項２に記載の話者認識装置としてコンピュータを機能させるためのプログラム。