JPH11507443A

JPH11507443A - 話者確認システム

Info

Publication number: JPH11507443A
Application number: JP9501618A
Authority: JP
Inventors: マモン，リチャード・ジェイ; ファーレル，ケヴィン; シャーマ，マニッシュ; デヴァング，ナイク; ジャング，シャオユー; アサレー，クヘイルド; リオー，ハン−シェン
Original assignee: ラットガーズ，ザ・ステート・ユニバーシティ・オブ・ニュージャージー
Priority date: 1995-06-07
Filing date: 1996-06-06
Publication date: 1999-06-29
Also published as: US5839103A; FI974339A0; RU2161336C2; WO1996041334A1; AU711496B2; EP0870300B1; DE69636057T2; DE69636057D1; AU6257696A; FI117954B; EP0870300A4; CN1197526A; FI974339L; CA2221415A1; NO975475L; NZ311289A; NO975475D0; IL122354A; IL122354A0; ATE323934T1

Abstract

(57)【要約】本発明は、データ融合を用いて、複数の抽出された特徴（６０，６１，６２）および複数の分類部（７０，７１，７２）からのデータを結合する、パターン認識システム（第１図）に関する。話者パターンは、判別を基本とする分類部および歪みを基本とする分類部の組み合わせによって、高精度の確認を可能とする。「単一抜き取り」データの訓練集合を用いる新規な手法を用いて、少ないデータ集合（第７Ａ図、第７Ｂ図、第７Ｃ図）でシステムの訓練が可能となる。抽出された特徴は、チャネル効果を減少させるポール・フィルタ処理方法（第１１Ｂ図）、および訓練データおよび検査データ間の相関を高める疑似変形によって改善することができる。

Description

【発明の詳細な説明】話者確認システム発明の分野１．発明の分野本発明は、パターン認識システムに関し、特に、データ融合(data fusion)を用いて複数の抽出された特徴および複数の分類部(classifier)からのデータを結合し、要求された同一性(identity)を精度高く確認するための話者（スピーカ）確認システムに関するものである。２．関連技術の説明パターン認識は、音声、話者、または画像のようなパターンの識別に関係している。識別された話者のパターンは、話者識別システムにおいて用いられ、どの話者からのものであるかを、発声から判定することが可能となる。話者識別システムの目的は、話者の要求された同一性を発声から確認することである。話者確認システムへの発音入力は、テキストに依存する(text dependen t)ものでも、テキストに独立する(text independent)ものでもよい。テキスト依存の話者確認システムは、所定の文またはパスワードの発声の後、話者を確認する。テキスト独立の話者確認システムは、発声には無関係に話者を確認する。従来のテキスト独立のシステムは、ユーザの観点からは、パスワードを必要としないので、利便性が高いものである。話者情報の特徴抽出は、本願と同一譲受人に譲渡された同時係属中の"Ｓpeake r Ｉdentification Ｖerification Ｓystem"と題する米国特許出願第０８／２０３，９８８号に記載されているように、音声の各フレーム毎の適応成分重み付けを用いた変調モデルを用いて実行される。尚、この出願の内容は、この言及により本願にも含まれているものとする。適応成分重み付け方法は、非母音系成分(n on-vocaltract components)を減衰させ、かつ、音声成分を正規化してある周波数帯における話者認識の改善を図っている。従来の特徴抽出方法の他のものとして、周波数スペクトルまたは線形予測によって得られるスペクトル符号化係数からのケプストラム係数(cepstral coeffici ent)を判定する方法が含まれる。判別(discriminant)を基本とする話者間パラメータ(interspeaker parameter)を判定するために、ニューラル・ツリー・ネットワーク（ＮＴＮ:neural tree network）が話者独立のデータと共に用いられている。ＮＴＮは、Ａ.Ｓankar およびＲ.Ｊ.Ｍammone,"Ｇrowing and Ｐruning Ｎe ural Ｔree Ｎetworks",ＩＥＥＥＴransactions on Ｃomputers,Ｃ-42:221-229 ,１９９３年３月に記載されているように、判断ツリーおよびニューラル・ネットワークの特性を結合した階層型分類である。話者認識では、ＮＴＮの訓練データは、所定の話者に対するデータおよび他の話者からのデータで構成されている。ＮＴＮは、特徴空間を、確率が割り当てられた領域に区分する。この確率は、ある話者が当該話者の領域に該当する特徴ベクトルを発生した可能性がどの程度であるかを反映している。テキスト独立のシステムには、話者の音響的特徴をモデル化し評価するために大量のデータを必要とする、という欠点がある。米国特許第４，９５７，９６１号は、容易に訓練し、連続ワード(connected w ords)を信頼性高く認識することが可能なニューラル・ネットワークについて記載している。動的なプログラミング技法を用いて、入力層の入力ニューロン・ユニットを、多層ニューラル・ネットワークに分類する。入力パターンの認識のために、各特徴ベクトルのベクトル成分を、３つの連続番号付けされた入力層フレームから選択された、入力層の１つの各入力ニューロン・ユニットに供給する。中間層が、少なくとも２つの入力層フレームの入力ニューロン・ユニットを接続する。中間層には、出力ニューロン・ユニットが接続されている。中間層には調節ユニットを接続し、入力−中間および中間−出力接続を調節し、出力ユニットに出力信号を生成させる。このニューラル・ネットワークは、調節ユニットが出力信号を最大化したときに、入力パターンを所定パターンとして認識する。各音声パターンに関して、約４０回の訓練を用い、動的ニューラル・ネットワークの訓練を行う。確認システムの訓練および検査を行うために必要なデータ量は、テキスト依存の話者発声を用いることによって減少可能であることがわかっている。ある従来のテキスト依存の話者確認システムには、動的時間ワープ(ＤＴＷ:dynamic time warping)を用いて、歪みに基づいて特徴の診断を時間的に整合するものがある。Ｓ.Ｆurui"Ｃepstral Ａnalysis Ｔechnique Ｆor Ａutomatic Ｓpeaker Ｖer ification",ＩＥＥＥＴransactions Ｏn Ａcoustics.Ｓpeeech.and Ｓignal Ｐ rocessing ,ＡＳＳＰ-29:254-272，１９８１年４月を参照されたい。検査の間、何回か発生されたパスワードの音声から、基準テンプレートを生成する。話者の要求された同一性を受認するかまたは拒絶するかについての決定は、話者の発声の歪みが所定のスレシホルド以下か否かによって行う。このシステムには、精度に欠けるという欠点がある。Ｊ.Ｊ.Ｎaik,Ｌ.Ｐ.Ｎetsch,およびＧ.Ｒ.Ｄoddington,"Ｓpeaker Ｖerificat ion Ｏver Ｌong Ｄistance Ｔelephone Ｌines",Ｐroceedings ＩＣＡＳＳＲ(1 989)に記載されているように、隠れマルコフ・モデル（ＨＭＭ：hidden Ｍarkov model）を用いた他の技法が、ＤＴＭシステムに対して処理性能改善を図ったものがある。テキスト依存の話者確認には、ＨＭＭのいくつかの形態が用いられている。例えば、Ａ.Ｅ.Ｒosenberg,Ｃ.Ｈ.ＬeeおよびＦ.Ｋ.Ｓoong,"Ｓubword Ｕ nit Ｔalker Ｖerification Ｕsing Ｈidden Ｍarkov Ｍodels",Ｐroceedings ＩＣＡＳＳＰ，第２６９〜２７２ページ(1990)に記載されているようなサブワード・モデル(subword model)、Ａ.Ｅ.Ｒosenberg,Ｃ.Ｈ.ＬeeおよびＳ.Ｇokeen," Ｃonnected Ｗord Ｔalker Ｒecognition Ｕsing Ｗhole Ｗord Ｈidden Ｍarko v Ｍodels",Ｐroceedings ＩＣＡＳＳＰ,第３８１〜３８４ページ(1991)のホール・ワード・モデル(whole word model)が、話者確認用に検討されている。ＨＭＭ技法は、モデルパラメータを適切に推定するには、通常大量のデータを必要とするという問題点がある。ＤＴＷおよびＨＭＭの一般的な欠点の１つとして、これらは話者をモデル化するのみであり、当該システムを用いて他の話者からのデータをモデル化することを考慮していない点があげられる。判別訓練が失敗すると、詐欺師がこれらのシステムに侵入することが一層容易となる。複数の抽出された特徴を複数の所定の分類部（クラシファイア）内で結合し、パターン認識の精度向上を可能にする、パターン認識システムを提供することが望まれている。発明の概要端的に述べると、本発明は、例えば、以下で述べる「単一抜き取り(leave one out)」技法により、異なる重複した基盤の訓練データを用いて訓練された分類部を含む複数の分類部において、複数の抽出された特徴を結合する、パターン認識システムから成る。好ましくは、このパターン認識システムは、話者確認に用いられ、話者が発音した音声から特徴を抽出する。複数の分類部を用いて抽出した特徴を分類する。分類された出力を融合し、話者によって発音された音声と、予めこの話者について記億しておいた音声との間の類似性を認識する。融合された分類出力から、その話者を受認するかあるは拒絶するかについて決定を下す。最も好ましくは、音声の分類には、発声されたパスワードの妥当性検査を行う動的時間ワープ分類部と、他の話者からの区別を行う改良ニューラル・ツリー・ネットワーク分類部との融合を用いる。判別によって訓練された分類部を話者確認システムにおいて用いることにより、ある話者を他の話者から精度よく識別できるという利点がある。本システムはまた、話者が発音したワード、即ち、話者のパスワードのワード認識を行うことに基づいて、話者を受認するかあるいは拒絶するかについて暫定的な判定を行うことを含ませることも可能である。話者のパスワードが受認された場合に、分類部はイネーブルされる。好ましくは、分類部は、複数の発声を分類部に供給し、これらの発声の内１つを抜き取ることにより訓練する。抜き取った発声を分類部に入力し、話者を識別するための０から１までの確率を判定することができる。この確率を分類スレシホルドと比較し、話者を受認するかあるいは拒絶するかについて判定を行うことができる。話者が発音した文は、話者に依存するものでも、話者に独立するものでも可能である。抽出された特徴は、サブワードに細分化することも可能である。好ましくは、サブワードは音素(phoneme)である。サブワードの各々は、少なくとも１つの分類部によってモデル化が可能である。サブワードを基本とする分類部からの出力を融合し、サブワードを基本とする確認システムを設けることが可能である。好ましくは、特徴の抽出には、音声に対するチャネル効果を減少させるポール（極）・フィルタ法(pole filtering method)を用いることができる。加えて、抽出された特徴は、疑似変換(affine transformation)によって調節し、訓練環境および検査環境間の不一致を減少させることができる。以下の図面を参照して、本発明について更に詳しく説明する。図面の簡単な説明図１は、本発明の教示による、話者確認システムの構成図である。図２Ａは、図１に示すワード認識モジュールのシステム訓練中の構成図である。図２Ｂは、図１に示すワード認識モジュールのシステムの検査中の構成図である。図３は、複数の抽出された特徴を複数の分類部と結合する話者確認モジュールの構成図である。図４は、図１に示した話者確認モジュールにおいて用いられる、改良ニューラル・ツリー・ネットワークおよび動的時間ワープ分類部の結合の構成図である。図５は、図１に示した話者確認モジュールにおいて用いられる、改良ニューラル・ツリー・ネットワーク（ＭＮＴＮ）分類部の構成図である。図６は、図１に示した話者確認モジュールにおいて用いられる動的時間ワープ（ＤＴＷ）分類部の構成図である。図７Ａは、話者確認モジュールの訓練において用いられる複数の発声の概略図である。図７Ｂは、話者確認モジュールに図７Ａに示した複数の発声を適用した構成図である。図８は、ある話者および他の話者のスコアのグラフである。図９は、サブワードを基本とする話者確認システムの構成図である。図１０Ａは、訓練中の、サブワードを基本とする分類システムの構成図である。図１０Ｂは、検査中の、サブワードを基本とする分類システムの構成図である。図１１Ａは、従来技術のチャネル正規化システムの構成図である。図１１Ｂは、本発明のチャネル正規化システムの構成図である。図１２は、ポール・フィルタ・チャネル正規化のグラフである。図１３Ａは、１フレームの音声スペクトルのグラフである。図１３Ｂは、従来技術の正規化システムからのフレームに対する、本発明の正規化システムの１フレームの音声スペクトルの関係を表すグラフである。図１４は、疑似変換システムの構成図である。好適実施例の詳細な説明この記載の中では、本発明を例示する異なる図における同様の要素を識別するために、同様の番号を用いることとする。図１は、本発明の教示による、話者確認システム１０の一実施例の構成図を示す。話者１１が音声１２を発声する。音声１２は、音声入力信号１３として、特徴抽出モジュール１４に供給される。特徴抽出モジュール１４は、音声入力信号１３の特性パラメータを表す音声特徴ベクトル１５を判定する。好ましくは、音声特徴ベクトル１５の判定には、線形予測(ＬＰ:linear prediction)分析を用い、ＬＰケプストラム係数を決定する。ＬＰケプストラム係数は、従来の技法によるかさ上げサイン・ウインドウ(raised sine window)を用いて帯域通過フィルタ処理を行い、ケプストラム係数の認識向上を図ることができる。ＬＰ分析の代わりに、またはＬＰ分析との組み合わせにより、特徴抽出モジュール１４は、複数の方法で特徴を抽出することが可能である。例えば、上述の米国特許出願第０８／２０３，９８８号に記載されているような適応成分重み付け方法を用いて、音声特徴ベクトル１５を抽出することが可能である。適応成分重み付け技法は、音声入力信号１３の所定の成分に重み付けを適用することにより抽出された特徴を誇張し、信号の母音系の特徴を改善しつつ非母音系の効果を低減する、正規化スペクトルを生成する。また、特徴抽出モデル１４は、対数領域比(log area ratios)、ライン・スペクトル対、および反射係数のような、従来の方法を用いて、線形予測（ＬＰ）係数から、他の線形予測によって導出される特徴を発生することも可能である。更に、特徴抽出モジュール１４は、線形周波数目盛り及び対数周波数目盛り上に、高速フリエ変換（ＦＦＴ：fast Fourier t ransform）で求めたスペクトル特徴を発生したり、基本周波数（ピッチ）、音量係数(loudness coefficient)、およびゼロ交差速度を発生することも可能である。文字認識モジュール２０は、音声特徴ベクトル１５を受け取り、音声特徴ベクトル１５を、この音声特徴ベクトル１５に関係するデータ１６と比較する。データ１６は、データベース５０に格納することができる。例えば、話者１１は、音声１２として、あるパスワードを発声することができる。音声特徴ベクトル１５は、話者１１のパスワードの発声を表す。１組のクローズ（限定）されたパスワードが、データ１６によって表現可能であり、データベース５０に格納可能である。この１組のクローズされたパスワードは、話者１１のパスワードを含む、１組の話者識別子（同一性）に対応する。ワード認識モジュール２０では、ワード認識モジュール２０で受け取った音声特徴ベクトル１５がデータベース５０内に記億されているデータ１６と一致した場合、例えば、識別要求に対するパスワードの一致が得られた場合、話者確認モジュール３０がイネーブルされる。受け取られた音声特徴ベクトル１５がデータベース５０に記憶されているデータ１６と一致しない場合、例えば、識別要求に対して、データベース５０にパスワードに一致するものがない場合、ユーザ１１はモジュール２１において再度発音するように催促される。話者確認モジュール３０は、データ融合を用いて、複数の分類部を音声特徴ベクトル１５と結合することが好ましい。この技法については、以下で詳細に説明する。音声確認モジュール３０の融合された分類部出力３５は、判断融合論理モジュール４０において受け取られる。判断融合論理モジュール４０は、話者１１の識別要求を受認するかまたは拒絶するかについての最終的な決定を行うことにより、話者の識別要求を確認する。図２Ａおよび２Ｂは、それぞれ、話者１１の登録および話者１１の検査の間のワード認識モジュール２０を示す。話者認識システム１０における話者１１の登録の期間中、訓練音声２２が話者１１によって発声される。例えば、訓練音声２２は、話者１１に対するパスワードの４回の反復からなるものとすることができる。反復の各々を、ワード一致認識モジュール２８で認識する。好ましくは、ＤＴＷを基本とするテンプレート一致アルゴリズムをワード一致認識モジュール２８において用い、認識済ワード２３を生成する。認識済ワード２３は、話者依存テンプレート２４にクラスタ化(cluster)される。また、話者確認システム１０を用いて、認識済ワード２３および他の話者２５によって発声された同一の訓練音声２２の反復のデータによって、話者独立テンプレート２６も生成可能である。ワード認識一致モジュール２８からの認識済ワード２３について多数決を用いて、話者１１に対するユーザのパスワード２７を識別することが可能である。話者１１の検査の期間中、音声１２がユーザ１１によって発声され、ワード認識一致モジュール２８において、話者依存テンプレート２４および話者独立テンプレート２６と比較される。音声１２が話者１１のパスワード２７を表し、かつ話者依存ワード・テンプレート２４または話者独立ワード・テンプレート２６のいずれかと一致する場合、「受認」応答をライン２９に出力する。音声１２が話者依存ワード・テンプレート２４または話者独立ワード・テンプレート２６のいずれにも一致しない場合、「拒絶」応答をライン２９に出力する。好ましくは、音声確認モジュール３０は、図３に示すように、データ融合を用いて複数の抽出された特徴６０，６１および６２を複数の分類部７０，７１および７２と結合する。特徴６０，６１および６２は、上述のように様々な所定の抽出方法によって抽出された音声特徴ベクトル１５を表すことができる。分類部７０，７１および７２は、例えば、ニューラル・ツリー・ネットワーク（ＮＴＮ）、多層認知(ＭＬＰ：multilayer perception)、隠れマルコフ・モデル（ＨＭＭ）、動的時間ワープ（ＤＴＷ）,ガウス混合モデル(ＧＭＭ:Ｇaussian mixtures model)およびベクトル量子化(ＶＱ：vector quantization)のような、様々な所定の分類方法を表すことができる。別の実施例では、特徴６０，６１および６２は、音声または画像のような別のパターンの抽出特徴を表すことができ、分類部７０，７１および７２は、かかる音声または画像パターンのための所定の分類方法を表すことができる。各分類部７０，７１および７２からの出力７３，７４および７５は、判断融合論理モジュール４０において結合され、話者１１を受認するかあるいは拒絶するかについての最終判断を行うことができる。判断融合モジュール４０は、線形オピニオン・プール(linear opinion pool)、対数オピニオン・プール、ベイズの結合ルール、投票法、または他の分類部のような従来の技法を用いて、分類部７０，７１および７２を結合することができる。あらゆる数の特徴または分類部でも結合可能であることは認められよう。また、分類部は、訓練データの異なる重複した基盤によって、例えば、以下で述べる単一抜き取り技法によって訓練された分類部を含むことも可能である。図４は、本発明の話者確認システムにおいて用いるための好適な話者確認モジュール３０を示す。音声特徴ベクトル１０２は、ニューラル・ツリー・ネットワーク（ＮＴＮ）分類部１０４，１０６，１０８および１１０、ならびに動的時間ワープ（ＤＴＷ）分類部１２０，１２２，１２４および１２６に入力される。分類の間、各ＮＴＮ分類部１０４，１０６，１０８および１１０ならびに１２６は、特徴ベクトル１０２が、データベース１３２内に記憶されているＮＴＮの所定の各スレシホルド「Ｔ_NTN」よりも大きいか否かについて判定を行う。各ＤＴＷ分類部１２０，１２２，１２４および１２６は、特徴ベクトル１０２が、データベース１３２内に記憶されているＤＴＷの所定の各スレシホルド「Ｔ_DTW」よりも大きいか否かについて判定を行う。特徴ベクトル１０２が各スレシホルドＴ_NT _N およびＴ_DTWよりも大きい場合、二進出力「１」がライン２４０およびライン２４１にそれぞれ出力される。特徴ベクトル１０２が所定の各スレシホルドＴ_NTN およびＴ_DTWよりも小さい場合、二進出力「０」がライン２４０およびライン２４１にそれぞれ出力される。話者確認システム１０による話者１１の検査の間、判断モジュール４０は、ライン２４０および２４１からの二進出力を受け取る。判断モジュール４０の好適実施例では、判断モジュール２４０における二進出力について多数決を取り、話者１１を受認するかあるいは拒絶するかについて判定を行う。この実施例では、二進出力の多数が「１」である場合、話者は受認され、二進出力の多数が「０」である場合、話者は拒絶される。改良ニューラル・ツリー・ネットワーク（ＭＮＴＮ）２００として指定される好適な分類部は、話者確認モジュール３０における判別を基本とする分類部として用いることができる。図５に示すように、ＭＮＴＮ２００は、複数の相互接続ノード２０２，２０４および２０６を有する。ノード２０４はリーフ・ノード２０８およびリーフ・ノード２１０に結合され、ノード２０６はリーフ・ノード２１２およびリーフ・ノード２１４に結合されている。所定のレベルを越えるＭＮＴＮ２００の成長を切り捨てることによる、ツリーの「前進的刈り込み(forward pruning)」のために、リーフ・ノード２０８，２１０，２１２および２１４の各々において、確率測定を用いる。ＭＮＴＮ２００は、話者識別システム１０を用いて、他の話者２５からのデータ２０１を印加することにより、話者１１についての訓練を受ける。"Ｓi"で識別される話者１１の抽出特徴ベクトル１５にはラベル"1"を割り当て、話者確認システム１０を用いて抽出された他の話者２５の特徴ベクトルにはラベル"0"を割り当てる。データ２２０，２３０，２４０および２５０は、それぞれ、抽出特徴ベクトルのリーフ・ノード２０８，２１０，２１２および２１４に印加される。リーフ・ノード２０８，２１０，２１２および２１４の各々において、投票を行う。リーフ・ノード２０８，２１０，２１２および２１４の各々には、投票の過半数のラベルが割り当てられる。全ラベル数に対する過半数のラベル数に対する比率として、「信頼度」を規定する。例えば、８個の"0"特徴から成るデータ２２０には"0"のラベルおよび信頼度"1.0"が割り当てられる。６個の"1"特徴および４個の"0"特徴から成るデータ２３０には、"1"のラベルおよび’"0.6"の信頼度が割り当てられる。訓練後のＭＮＴＮ２００を話者確認モジュール３０において用い、話者１２からの一連の特徴ベクトル"Ｘ"からの対応する話者スコアを判定することができる。対応する話者スコアＰ_MNTN（Ｘ／Ｓ_i）は、以下の式によって決定することができる。ここで、話者１１はＳ_iとして識別され、ｃ¹は話者１１に対する信頼度スコアであり、ｃ⁰は他の全話者に対する信頼度スコアである。ＭおよびＮは、それぞれ、"1"および"0"と分類されたベクトルの数に対応する。好適なＤＴＷ分類部は、歪みを基本とする手法(distortion based approach) を用いて、図６に示すように、２つの波形、即ち２つの特徴パターンを時間的に整合する。波形は、Ｘ軸上の音声特徴ベクトル１５の基準パターン、およびＹ軸上の音声特徴ベクトル１５の検査パターンによって表され、Ｎは基準パターンの数を表し、Ｍは検査パターンの数を表す。全体的な制約２７０，２７１，２７２および２７３は、動的時間ワープ路２７５に対する制限を表す。動的時間ワープ路２７５は、Ｈ.Ｓakoe およびＳ.Ｃhiba,"Ｄynamic programming algorithmopt imization for spoken word recognition",ＩＥＥＥＴrans.on Ａcoustics Ｓp eech and Ｓignal Ｐrocessing ,vol.ＡＳＳＰ-26,no.1,第４３〜４９ページ、１９７８年２月に記載されているような従来の方法によって決定することができる。話者確認システム１０を用いて、歪み法を基準とする分類部、即ち、話者に関係する情報を与える分類ＤＴＷ部と、判別法(discriminant method)に基づく分類部、即ち、他の話者に対する話者に関係する情報を与えるＮＴＮまたはＭＮＴＮ分類部とを組み合わせることが好ましい。ＤＴＷ分類部およびＭＮＴＮまたはＮＴＮ分類部の融合には、ＤＴＷ分類部が時間的情報も与えるという利点がある。通常、時間的情報は、ＮＴＮまたはＭＮＴＮ分類部の一部ではない。ＮＴＮ分類部１０４，１０６，１０８および１１０ならびにＤＴＷ分類部１２０，１２２，１２４および１２６は、図７Ａおよび図７Ｂに示す訓練モジュール３００によって訓練することができる。訓練モジュール３００は、ＭＮＴＮ分類部、ＤＴＷ分類部および話者確認モジュール３０において用いることができるその他の分類部の訓練にも用いることができる。「単一抜き取り」技法として識別される再サンプリング技法(resampling technique)を訓練モジュール３００において用いることが好ましい。話者１１から所定数の訓練音声の発声を受け取る。この実施例では、話者のパスワードのような、音声２２の３０２，３０４，３０６および３０８として定義された４回の発声を用いる。４回の発声の内の３つを組み合わせ、１つの発声は残して、ＮＴＮ分類部１０４，１０６，１０８および１１０ならびにＤＴＷ分類部１２０，１２２，１２４および１２６の対に供給する。３つの発声は、これらの分類部を訓練するために用いられ、残りの発声は独立した検査事例として用いられる。例えば、発声３０２，３０４および３０６はＮＴＮ分類部１０４およびＤＴＷ分類部１２０に供給することができ、発声３０４，３０６および３０８はＮＴＮ分類部１０６およびＤＴＷ分類部１２２に印加供給ことができ、発声３０２，３０６および３０８はＮＴＮ分類部１０８およびＤＴＷ分類部１２４に供給することができ、発声３０２，３０４および３０８はＮＴＮ分類部１１０およびＤＴＷ分類部１２６に供給することができる。各３ずつの発声を、ＮＴＮ分類部１０４，１０６，１０８および１１０ならびにＤＴＷ分類部１２０，１２２，１２４および1２６の各対に供給した後、図７Ｃに示すように、抜き取られた発声を、ＮＴＮ分類部１０４，１０６，１０８および１１０、ならびにＤＴＷ分類部１２０，１２２，１２４および1２６の各対に供給する。例えば、発声３０８をＮＴＮ分類部１０４およびＤＴＷ分類部１２０に印加し、発声３０２をＮＴＮ１０６およびＤＴＷ１２２に印加し、発声３０４をＮＴＮ１０８およびＤＴＷ１２４に印加し、発声３０６をＮＴＮ１１０およびＤＴＷ１２６に印加する。３１０，３１２，３１４および３１６で示す、０〜１の確率Ｐを計算する。判断融合論理モジュール４０の投票モジュール３２１において、確率３１０，３１２，３１２，３１４および３１６をスレシホルドＴ_DT _W と、更に確率３１７，３１８，３１９および３２０をＴ_NTNと比較する。図８は、話者確認システム１０において用いられる分類部のスレシホルド、例えば、スレシホルドＴ_DTWおよびＴ_NTNを決定するために用いることができる、他の話者２５からの話者内スコアおよび話者１１からの話者間スコアのグラフである。音声１２に対する話者１１の話者間スコアは、平均話者スコア３５１を有するグラフ３５０によって表されている。音声１２に対する他の話者２５の話者内スコアは、平均話者スコア３６１を有するグラフ３６０によって表されている。スレシホルドＴは、以下の式から決定することができる。Ｔ＝ｘ＊話者間＋ｙ＊話者間音声１２がスレシホルドＴよりも大きい量または小さい量によって、ソフト・スコア(soft score)Ｓを決定することができる。各分類部のスコアＣは、０〜１の間であり、０が最も信頼度の高い拒絶であり、１が最も信頼度の高い受認である。受認信頼度Ｃ_acceptはスレシホルドＴおよび１の間であり、以下の式から規定することができる。Ｃ_accept＝（Ｓ−Ｔ）／（１−Ｔ）拒絶信頼度Ｃ_rejectは０およびスレシホルドＴの間であり、以下の式から規定することができる。Ｃ_reject＝（Ｔ−Ｓ）／Ｔ図９は、サブワードを基本とする話者確認システム４００の構成図を示す。特徴抽出モジュール１４において音声特徴ベクトル１５を抽出した後、サブワード細分モジュール４０２において、音声特徴ベクトル１５をサブワード４０４に細分する。好ましくは、サブワード４０４は音素である。サブワード４０４は、訓練話者モジュール４０６および検査話者モジュール４０８に適用することができる。図１０Ａは、訓練話者モジュール４０６の適用の間のサブワードを基本とする話者確認４００システムの構成図である。話者１１の訓練発声を示す話者抽出特徴１５およびパスワードの転写（トランスクリプト）４１０を、サブワード音素レベルの細分モジュール４０２に印加する。パスワードの転写４１０は、話者１１が発音したり、コンピュータによって入力したり、またはカードから走査したり、等とすることができる。音声細分モジュール４０２は、話者抽出特徴１５をサブワード１〜Ｍに細分する。例えば、サブワード"１"はモジュール４２０に、サブワード"ｍ"はモジュール４２２に、そしてサブワード"Ｍ"はモジュール４２４に細分する。ここで、Ｍは細分化されたサブワードの数である。サブワード４２０，４２２および４２４は、サブワード・データベース４２５に格納することができる。管理学習ベクトル・ラベリング方式(supervised learning vector labeling scheme)４３０は、分類部４４０，４４２および４４４を訓練するために、訓練音声ベクトルのラベルを"０"または"１"と判定する。例えば、他の話者２５に対する全てのサブワードに"０"とラベル付けし、話者１５に対するサブワードに" １"とラベル付けすることができる。あるいは、最も近い音素をデータベース４２５内で検索することができる。サブワード分類部４４０，４４２および４４４を各サブワード４４０，４４２および４４４に適用し、サブワードの各々を分類する。好ましくは、サブワード分類部４４０，４４２および４４４は、ＮＴＮおよびＭＮＴＮ分類方法を用いる。図１０Ｂは、検査話者モジュール４０８の適用中の、サブワードを基本とする話者確認システム４００の概略構成である。話者１１の検査発声を示す話者抽出特徴１５を、パスワードの転写４１０と共に、サブワード音素レベル細分モジュール４０２に印加する。サブワード分類部４４０，４４２および４４４は、話者１１の検査発声を示す抽出話者特徴１５から判定した各サブワード４２０，４２２および４２４を分類する。分類部４４０，４４２および４４４からの出力４４５は、判断融合論理モジュール４０に印加され、上述のように計算された受認信頼度Ｃ_acceptに基づく、分類部４４０，４４２，４４４からの融合出力に基づいて、話者１１を受認するかあるいは拒絶するかについて判定を行う。「ポール（極）・フィルタ処理」と記述することができる好適な方法を特徴抽出モジュール１４において用い、チャネルの差に対してロバスト性のある音声特徴ベクトル１５を生成することができる。ポール・フィルタ処理は、全ポール線形予測（ＬＰ）フィルタのインテリジェント・フィルタ処理を用いて、チャネルの正規化を行う。インパルス応答ｈを用いて、明瞭な音声Ｃ_sをチャネルとコンボルブ(convolve )すると、通常のケプストラム平均のチャネル・ケプストラムは次のように表すことができる。ここで、は、基礎となる明瞭な音声のみによるケプストラム平均成分に対応する。明瞭な音声による成分は、チャネル・ケプストラム推定値Ｃ_sが、実際の基礎となるコンボリューション歪みのケプストラム予測ｈに対応するためには、ゼロ平均でなければならない。経験的に、明瞭な音声による平均ケプストラム成分は、短い発声に対しては決してゼロにはならず、話者確認システム１０の訓練および検査の場合にはそうなることを示すことができる。従来技術のチャネル正規化システム５００を図１１Ａに示す。ここでは、音声をフレーム内重み付けモジュール５０２に印加する。適応成分重み付け（ＡＣＷ）は、チャネル正規化のためのフレーム内重み付けの一例である。重み付けされた音声５０４は、フレーム間処理モジュール５０６において受け取られ、付加的なチャネル効果を除去する。チャネル効果を除去する従来のフレーム間方法の１つは、ケプストラム平均減算（ＣＭＳ：cepstral mean substraction）によるものである。チャネル・ケプストラムは、チャネルおよび音声による総スペクトル分布(grosss pectral distribution)を含むので、従来のような各音声フレームのケプストラムからチャネル・ケプストラムの歪んだ推定値を除去することは、チャネルの信頼性のない推定値を効果的にデコンボルブする(deconvolve)することに対応する。図１１Ｂは、本発明のチャネル正規化システム６００を示す。音声１２は、チャネル推定ポール・フィルタ・モジュール６０２に印加される。ポール・フィルタ処理は、音声ｓ_sによる不変成分の影響を抑圧させる(de-emphasize)。高精度化したチャネル推定値を用いて、チャネルの正規化を行う。好ましくは、チャネル・ケプストラムの高精度化は、繰り返しによって行うことができる。チャネル・ケプストラムＣ_sの推定値は、発声中で得ることができる音声フレーム数に依存する。得られる音声の発声が十分に長い場合、真のチャネル推定値ｈを近似するチャネル・ケプストラムの推定値を得ることが可能である。最も実用的な状況では、訓練または検査における発声の持続期間は、ｓ_s−０を考慮できる程十分に長くはない。ケプストラム平均推定値は、音声フレームにおけるポールの優位性(dominance)およびそれらのチャネル・ケプストラムの推定値に対する寄与を判定することによって改善することができる。ケプストラム平均における母音系の各モードの効果は、ケプストラム平均を線形予測係数に変換し、対応する複素共役ボール対の優位性を調べることによって判定する。音声のフレームに対するスペクトル成分は、単位円に最も近い複素共役ポール対に対応する場合（最小帯域）に最も優位性が高く、単位円から最も遠い複素共役ポール対に対応する場合（最大帯域）に最も優位性が低い。音声のポールを制限し、ケプストラム領域においてより滑らかな、したがって、より精度の高い逆チャネル推定値を獲得することは、音声による不変成分に関係するケプストラム・バイアスを減少させる、変形ケプストラム平均に対応する。高精度化したケプストラム平均の除去、即ち、音声による総スペクトル分布成分を無くすることにより、チャネル正規化方式の改善が得られる。チャネル・ポール・フィルタ・モジュール６０２から判定される最良のチャネル推定値は、時間領域におけるデコンボリューションのためのデコンボリューション・モジュール７３０において音声１２と結合され、正規化音声７３５が得られる。従来のフレーム間結合５０２および干渉処理５０６を正規化音声７３５に適用し、チャネル正規化音声特徴ベクトル７４０を得ることができる。音声特徴ベクトル７４０は、図１に示した音声特徴ベクトル１５と同様に適用することができる。チャネルの推定値を改善するための好適な方法の１つは、ポール・フィルタ処理したケプストラム係数ＰＦＣＣを用い、図１２に示すように、狭帯域ポールはそれらの帯域が膨張する一方、それらの周波数は不変のままである。ポール８０１，８０２，８０３，８０４，８０５，８０６は、変更されたポール８１１，８１２，８１３，８１４，８１５および８１６に移動する。その効果は、同じ半径に沿って狭帯域ポールを単位円内で移動させることと等価であり、こうして帯域を広げつつ周波数を一定に保持する。ポール・フィルタ処理したケプストラム係数ＰＦＣＣは、音声特徴ベクトル１５と同時に、音声のために決定される。ポール・フィルタ処理したケプストラム係数ＰＦＣＣは、フレーム１２内のポールが所定のスレシホルドｔよりも狭い帯域を有するか否かを分析することによって決定する。音声１２が所定のスレシホルドよりも小さく、そのポールの帯域がスレシホルドｔに固定(clip)されている場合、ポール・フィルタ処理したケプストラム係数を用いて、変形ケプストラム平均を評価することができる。逆フィルタ推定値の改善は、ポール・フィルタ処理したケプストラム係数ＰＦＣＣの平均を用いることによって得られ、真の逆チャネル・フィルタのよりよい近似が行われる。変形ケプストラム平均を音声のケプストラム・フレームから減算することにより、スペクトル情報を保存しながら、一層精度高くチャネルのスペクトル傾斜(spectral tilt)を補償する。図１３Ａは、音声のフレームのサンプル・スペクトル７００を示す。図１３Ｂは、スペクトル７００から減算された従来技術のケプストラム平均Ｃ_sのスペクトル７１０を示す。スペクトル７２０は、スペクトル７２０から減算された、ポール・フィルタ処理後の変形ケプストラム平均Ｃ_s ^Pfである。スペクトル７２０は、スペクトル７１０よりも改善されたスペクトル情報を示す。図１４は、話者確認システム１０の訓練および検査と共に用いることができる疑似変形システム(affine transformation system)９００を示す。訓練環境と検査環境との間の不一致は、特徴抽出モジュール１４によって抽出されたケプストラム係数に疑似変形を施すことによって減少させることができる。ベクトルｘの疑似変形ｙは、ｙ＝Ａｘ＋ｂと定義される。ここで、Ａは線形変換を表わすマトリクスであり、ｂは変換を表わす非ゼロ・ベクトルであり、ｙは検査データ、ｘは訓練データに対応する。音声処理領域において、マトリクスＡは、ノイズによる個々のケプストラム係数の収縮をモデル化し、ベクトルｂはチャネル効果によるケプストラム平均の偏差を考慮する。特異値分解(ＳＶＤ：singular value decompositlon)は、疑似変形の幾何学的形状を以下の式で記述する。ｙ＝ＵΣＶ^Tｘ＋ｂここで、ＵおよびＶ^Tはユニタリ行列(unitary matrix)であり、Σはダイアゴナル（対角線）である。幾何学的解釈では、ｘはＶ^Tによって回転され、Σによってリスケールされ(rescale)、再びＵによって回転される。また、ベクトルｂによって導入される変換もある。実際には、各ケプストラム係数は、異なる値によってスケールされ、ケプストラム係数のリスケールを伴うことは、角度の僅かな変化であることがわかっている。ノイズの多いケプストラム・ベクトルｃ_nsは、明確なケプストラム・ベクトルｃとあるマトリクスとの乗算として表すことができる。即ち、ｃ_ns ＝Ａｃとなる。チャネルおよびノイズが原因で発生した歪みを同時に表すために、疑似マッピング(affine mapping)を用いて、ｃ’＝Ａｃ＋ｂによって表すことができる。ｘの疑似変形パラメータは、疑似変形によって次のように定義される。疑似変形パラメータＡおよびｂは、最少二乗法を用いて訓練または相互確証データ集合(cross-validation data set)について、上述の式を解くことによって得ることができる。話者確認システム１０の訓練の間、音声特徴ベクトル１５は、疑似変形モジュール９０２と接続され、検査の間、分類部入力ライン９０１によって、分類部９０４に印加される。訓練の間、音声特徴ベクトル１５は、疑似変形モジュール９０２と接続され、分類部入力ライン９０３によって、分類部９０４に印加される。好ましくは、分類部８０４は、ベクトル量子化分類部である。分類部８０４は、例えば、第２図に示した分類部７０，７１，７２、または第４図に示したＮＴＮ分類部１０４，１０６，１０８，１１０ならびにＤＴＷ分類部１２０，１２２，１２４および１２６に対応する。話者確認システム１０では、話者の内の真の同一性を要求する者を、真の話者と呼ぶことができ、一方、偽りの同一性を要求する話者１１を詐欺師と呼ぶことができる。話者を評価する際、話者確認システム１０は、２つのタイプのエラー、不正拒絶(ＦＲ:false rejection)および不正受認（ＦＡ：false acceptance）を犯す可能性がある。不正拒絶（ＦＲ）のエラーは、真の同一性を要求する真の話者が、話者確認システム１０によって拒絶された場合に起こる。詐欺師が話者確認システム１０によって受認された場合、不正受認（ＦＡ）のエラーが発生したことになる。同一性を受認するまたは拒絶する判断は、上述のように、スレシホルドＴに依存する。各タイプのエラーのコストに応じて、一方のエラーについては、他方のエラーを犠牲にして、大目に見るようにシステムを設計することができる。あるいは、競合する技術を評価するために、システムの等エラー比(ＥＥＲ:Ｅqual Ｅrror Ｒate）を比較することができる。等エラー比は、双方のタイプのエラー（即ち、ＦＲおよびＦＡ）が等しい確率で発生する場合に得られる。本発明のサブワードを基本とする話者確認システムは、フィラデルフィアのＬ inguistic Ｄata Ｃonsortium(ＬＤＣ)を通じて入手可能な、ＹＯＨＯと呼ばれる従来の音声体(speech corpus)上で評価した。本発明のサブワードを基本とする話者確認システム１０は、同様の条件の下で、従来の隠れマルコフ・モデル（ＨＭＭ）に基づくシステムのＥＥＲが１．６６％であったのに比較して、０．３６％の等エラー比（ＥＥＲ）を得た。本発明は、異なる分類部からの複数の属性を結合し、精度高く所与のパターンを認識可能な強力な認識システムを提供するという利点がある。話者確認の実施例では、歪みに基づく分類部を、判別に基づく分類部と結合し、話者に関係する属性ならびに当該話者および他の話者に関係する属性を結合することができる。好ましくは、ニューラル・ツリー・ネットワークを用いて、話者およびその他の話者からのデータを分類し、処理の短縮を図る。ワード認識イネーブル・モジュールは、確認システムの精度を大幅に高めると共に、拒絶された話者に対する処理を減らすことができる。更に、分類部は、サブワードに基づき、テキスト依存のデータでも、テキスト独立のデータでも可能である。加えて、確認システムは、単一抜き取り方法を用いて訓練し、システムを訓練するために必要なデータを減らすことができる。ポール・フィルタ処理を用いて、システムにおけるチャネル歪みを軽減することができる。抽出された特徴の疑似変形によって、訓練データおよび検査データ間の相関を高めることができる。また、システムは、正の確認が行われた後に、話者モデルを更新し、経年変化現象を考慮することも可能である。以上好適実施例を参照しながら本発明について説明したが、この説明は限定を意図するものではない。本発明の精神および範囲から逸脱することなく、変更も可能であることは当業者には認められよう。

【手続補正書】特許法第１８４条の８第１項【提出日】１９９７年６月４日【補正内容】請求の範囲１．話者の確認方法において、前記話者が発音した第１音声から少なくとも１つの特徴と抽出するステップと、複数の分類出力を形成するための複数の分類部によって、前記少なくとも１つの特徴を分類するステップと、前記複数の分類出力を融合し、融合分類出力を形成するステップと、前記話者確認の前に、前記融合分類出力と前記話者が発音した第２音声との類似性を判定することによって、前記融合分類出力を認識するステップと、前記認識した融合分類出力から、前記話者を受認するかまたは拒絶するかについて判定を行うステップとから成ることを特徴とする方法。２．請求項１記載の方法において、該方法は更に、前記認識した融合分類出力から信頼度を判定するステップを備えていることを特徴とする方法。３．請求項２記載の方法において、前記少なくとも１つの特徴を分類するステップの前に、前記方法は更に、前記少なくとも１つの特徴を、前記話者確認の前に記憶されている前記話者に対するデータと比較することによって、前記話者が発音した前記第１音声に対してワード認識を行い、前記話者を暫定的に受認するかまたは暫定的に拒絶するかについて判定を行うステップと、前記話者を暫定的に受認すると判定した場合に、前記少なくとも１つの特徴を分類する前記ステップをイネーブルし、または前記話者を暫定的に拒絶すると判定した場合に、取り消しモジュールをイネーブルするステップとを備えていることを特徴とする方法。４．請求項３記載の方法において、前記第１音声は、前記話者に対するパスワードの少なくとも１つの発声から成ることを特徴とする方法。５．請求項４記載の方法において、前記データは、予め前記話者が発音した第１音声から形成された話者依存テンプレートと、予め少なくともひとりの第２話者が発音した第１音声によって形成された話者独立テンプレートとから成ることを特徴とする方法。６．請求項１記載の方法において、前記分類ステップは、ニューラル・ツリー・ネットワーク（ＮＴＮ）分類部および動的時間ワープ分類部によって実行することを特徴とする方法。７．請求項１記載の方法において、前記分類ステップは、改良ニューラル・ツリー・ネットワーク（ＭＮＴＮ）および動的時間ワープ分類部によって実行することを特徴とする方法。８．請求項１記載の方法において、前記認識ステップは、前記複数の分類部の内１対に、前記話者に対する音声の複数の第１発声を印加し、前記分類部を訓練するために、抜き取り発声と定義された前記発声の１つを抜き取り、前記抜き取った音声を前記分類部対に供給し、前記分類部を独立して検査し、前記分類部の対における前記分類部の第１のものについて第１確率を、前記分類部の対における前記分類部の第２のものについて第２確率を計算し、前記第１確率から前記分類部の対における前記分類部の前記第１のものに対する第１スレシホルド、および前記第２確率から前記分類部対における前記分類部の前記第２のものに対する第２スレシホルドを決定することから成り、前記複数の分類出力の前記類似性は、前記対における前記分類部の前記第１のものを前記第１スレシホルドと比較し、前記対における前記分類部の前記第２のものを前記第２スレシホルドと比較することによって判定することを特徴とする方法。９．請求項１記載の方法において、前記抽出ステップは、前記第１および第２音声のポール・フィルタのポールを変更し、前記少なくとも１つの特徴を抽出することによって実行することを特徴とする方法。１０．請求項１記載の方法において、該方法は更に、前記抽出ステップの後に、前記第１音声からの前記少なくとも１つの特徴を複数のサブワードに細分するステッブを含むことを特徴とする方法。１１．請求項１０記載の方法において、前記サブワードは音素であることを特徴とする方法。１２．請求項１記載の方法において、前記少なくとも１つの特徴は、疑似マップ変形を用いて補正され、該疑似マップ変形は、ｙがベクトルｘの前記疑似変形、Ａが線形変形を表すマトリクス、ベクトルｂが変換を表すとしたとき、ｙ＝Ａｘ＋ｂによって表されることを特徴とする方法。１３．話者の話者確認システムであって、前記話者が発音した第１音声から少なくとも１つの特徴と抽出する手段と、複数の分類出力を形成するための複数の分類部によって、前記少なくとも１つの特徴を分類する手段と、前記複数の分類出力を融合し、融合分類出力を形成する手段と、前記話者確認の前に、前記融合分類出力と前記話者が発音した第２音声との類似性を判定することによって、前記融合分類出力を認識する手段と、前記認識した融合分類出力から、前記話者を受認するかまたは拒絶するかについて判定を行う手段とから成ることを特徴とするシステム。１４．請求項１３記載のシステムにおいて、該システムは更に、前記少なくとも１つの特徴を、前記話者確認の以前に記憶されている前記話者に対するデータと比較することによって、前記話者が発音した前記第１音声に対してワード認識を行い、前記話者を暫定的に受認するか、または暫定的に拒絶するかについて判定を行う手段と、前記話者を暫定的に受認すると判定した場合に、前記少なくとも１つの特徴を分類する前記手段をイネーブルし、または前記話者を暫定的に拒絶すると判定した場合に、取り消しモジュールをイネーブルする手段とを備えていることを特徴とするシステム。１５．請求項１４記載のシステムにおいて、前記データは、予め前記話者が発音した第１音声から形成された話者依存テンプレートと、予め少なくともひとりの第２話者が発音した第１音声によって形成された話者独立テンプレートとから成ることを特徴とするシステム。１６．請求項１５記載のシステムにおいて、前記分類手段は、改良ニューラル・ツリー・ネットワーク（ＭＮＴＮ）および動的時間ワープ分類部から成ることを特徴とするシステム。１７．請求項１６記載のシステムにおいて、前記抽出手段は、全ポール・フィルタにおいてポールを制限することによって実行することを特徴とするシステム。１８．請求項１７記載のシステムにおいて、前記少なくとも１つの特徴はケプストラム係数であり、該ケプストラム係数は疑似変形を用いて補正されることを特徴とするシステム。１９．請求項１０記載の方法において、前記ポールの変更は、前記少なくとも１つの特徴のスペクトル成分を判定するステップと、狭帯域を制限し、チャネル推定値を得るステップとによって行われることを特徴とする方法。２０．請求項１９記載の方法において、該方法は更に、前記チャネル推定値を用いて前記第１音声および前記第２音声をデコンボリュートし、正規化音声を得るステップと、前記正規化音声のスペクトル上の特徴を計算し、正規化音声特徴ベクトルを得て、これらを前記分類ステップに適用するステップとを含むことを特徴とする方法。２１．請求項１９記載の方法において、該方法は更に、前記チャネル推定値をケプストラム係数に変換し、ケプストラム領域における変更チャネル推定値を得るステップと、前記第１音声音声および前記第２音声から、前記変更チャネル推定値を減算するステップとを含むことを特徴とする方法。２２．請求項１２記載の方法において、前記少なくとも１つの特徴は、ケプストラム係数であり、該ケプストラム係数は疑似マップ変形を用いて補正されることを特徴とする方法。２３．請求項７記載の方法において、該方法は更に、他の話者が発音した第２音声から少なくとも１つの特徴を抽出するステップと、前記話者が発音した第１音声からの前記少なくとも１つの特徴に第１レベルを割り当てるステップと、他の話者が発音した前記第２音声からの前記少なくとも１つの特徴に第２ラベルを割り当てるステップと、前記第１および第２ラベル上で前記分類部を訓練するステップとを含むことを特徴とする方法。２４．請求項１０記載の方法において、該方法は更に、他の話者が発音した第２音声から少なくとも１つの特徴を抽出するステップと、前記抽出ステップの後、前記第２音声からの前記少なくとも１つの特徴を、複数の第２サブワードに細分するステップと、前記第１複数のサブワードおよび前記第２複数のサブワードを、サブワード・データベースに格納するステップと、前記格納した第１サブワードから前記第１話者に対する第１ラベルを、および前記第２サブワードから他の話者に対する第２ラベルを決定するステップと、前記第１および第２ラベル上で前記分類部を訓練するステップとを含むことを特徴とする方法。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ)，ＵＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＨＵ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ (72)発明者ファーレル，ケヴィンアメリカ合衆国コネチカット州06460，ミルフォード，イースト・ブロードウェイ 712 (72)発明者シャーマ，マニッシュアメリカ合衆国ニュージャージー州08855, ピスカタウェイ，ピー・オー・ボックス 1119，ビーピーオー 23899 (72)発明者デヴァング，ナイクアメリカ合衆国カリフォルニア州94087, サニーヴェール，イースト・フレモント・アベニュー 815，ナンバー 46 (72)発明者ジャング，シャオユーアメリカ合衆国ニュージャージー州08854, ピスカタウェイ，ホーズ・レーン 371 (72)発明者アサレー，クヘイルドアメリカ合衆国アリゾナ州85252，スコッツデール，ピー・オー・ボックス 1417 (72)発明者リオー，ハン−シェンアメリカ合衆国マサチューセッツ州02154, ウォルサム，アシュ・ストリート 93−１

Claims

【特許請求の範囲】１．話者確認方法であって、前記話者が発音した第１音声から少なくとも１つの特徴と抽出するステップと、複数の分類出力を形成するための複数の分類部によって、前記少なくとも１つの特徴を分類する手段と、前記複数の分類出力および予め前記話者が発音した第２音声の類似性を判定することによって、前記複数の分類出力を認識する手段と、前記認識した複数の分類出力から、前記話者を受認するかまたは拒絶するかについて判定を行う手段とから成ることを特徴とする方法。２．請求項１記載の方法において、該方法は更に、前記認識した複数の分類出力から信頼度を判定するステップを備えていることを特徴とする方法。３．請求項２記載の方法において、前記少なくとも１つの特徴を分類するステップの前に、前記方法は更に、前記少なくとも１つの特徴を、予め記憶されている前記話者に対するデータと比較することによって、前記話者が発音した前記第１音声に対してワード認識を行い、前記話者を暫定的に受認するか、または暫定的に拒絶するかについて判定を行うステップと、前記話者を暫定的に受認すると判定した場合に、前記少なくとも１つの特徴を分類する前記ステップをイネーブルし、または前記話者を暫定的に拒絶すると判定した場合に、取り消しモジュールをイネーブルするステップとを備えていることを特徴とする方法。４．請求項３記載の方法において、前記第１音声は、前記話者に対するパスワードの少なくとも１つの発声から成ることを特徴とする方法。５．請求項４記載の方法において、前記データは、予め前記話者が発音した第１音声から形成された話者依存テンプレートと、予め少なくともひとりの第２話者が発音した第１音声によって形成された話者独立テンプレートとから成ることを特徴とする方法。６．請求項１記載の方法において、前記分類ステップは、ニューラル・ツリー・ネットワーク（ＮＴＮ）分類部および動的時間ワープ分類部によって実行することを特徴とする方法。７．請求項１記載の方法において、前記分類ステップは、改良ニューラル・ツリー・ネットワーク（ＭＮＴＮ）および動的時間ワープ分類部によって実行することを特徴とする方法。８．請求項７記載の方法において、前記ＭＮＴＮ分類部の話者スコアは、ｃ^lは話者Ｓ_iに対する信頼度スコア、ｃ⁰は他の全話者に対する信頼度スコア、ＭおよびＮはそれぞれ"1"および"0"と分類されたベクトルの数に対応するとしたとき、によって、定義されることを特徴とする方法。９．請求項１記載の方法において、前記認識ステップは、前記複数の分類部の内１対に、前記話者に対する音声の複数の第１発声を印加し、抜き取り発声と定義された、前記発声の１つを抜き取り、前記抜き取った音声を前記分類部対に印加し、前記分類部対において、前記分類部の各々について確率を計算し、前記確率から、前記分類部対内の前記分類部の各々についてスレシホルドを決定することによって訓練され、前記複数の分類出力の前記類似性は、前記分類部を前記スレシホルドと比較することによって判定されることを特徴とする方法。１０．請求項１記載の方法において、前記抽出ステップは、前記第１および第２音声のポール・フィルタ処理を行い、前記少なくとも１つの特徴を抽出することによって実行することを特徴とする方法。１１．請求項１記載の方法において、該方法はさらに、前記抽出ステップの後に、前記少なくとも１つの特徴をサブワードに細分するステップを含むことを特徴とする方法。１２．請求項１１記載の方法において、前記サブワードは音素であることを特徴とする方法。１３．請求項１２記載の方法において、前記サブワードは話者に依存することを特徴とする方法。１４．請求項１２記載の方法において、前記サブワードは話者に独立であることを特徴とする方法。１５．請求項１記載の方法において、前記少なくとも１つの特徴は、疑似マップ変形を用いて補正されることを特徴とする方法。１６．話者確認システムであって、前記話者が発音した第１音声から少なくとも１つの特徴と抽出する手段と、複数の分類出力を形成するための複数の分類部によって、前記少なくとも１つの特徴を分類する手段と、前記複数の分類出力および予め前記話者が発音した第２音声の類似性を判定することによって、前記複数の分類出力を認識する手段と、前記認識した複数の分類出力から、前記話者を受認するかまたは拒絶するかについて判定を行う手段とから成ることを特徴とするシステム。１７．請求項１６記載のシステムにおいて、該システムは更に、前記少なくとも１つの特徴を、予め記憶されている前記話者に対するデータと比較することによって、前記話者が発音した前記第１音声に対してワード認識を行い、前記話者を暫定的に受認するか、または暫定的に拒絶するかについて判定を行う手段と、前記話者を暫定的に受認すると判定した場合に、前記少なくとも１つの特徴を分類する前記手段をイネーブルし、または前記話者を暫定的に拒絶すると判定した場合に、取り消しモジュールをイネーブルする手段とを備えていることを特徴とするシステム。１８．請求項１７記載のシステムにおいて、前記データは、予め前記話者が発音した第１音声から形成された話者依存テンプレートと、予め少なくともひとりの第２話者が発音した第１音声によって形成された話者独立テンプレートとから成ることを特徴とするシステム。１９．請求項１８記載のシステムにおいて、前記分類手段は、改良ニューラル・ツリー・ネットワーク（ＭＮＴＮ）および動的時間ワープ分類部から成ることを特徴とするシステム。２０．請求項１９記載のシステムにおいて、前記抽出手段は、全ポール・フィルタと共に動作することを特徴とするシステム。２１．請求項２０記載のシステムにおいて、前記少なくとも１つの特徴は、疑似変形を用いて補正されることを特徴とするシステム。