JPH11507443A - 話者確認システム - Google Patents

話者確認システム

Info

Publication number
JPH11507443A
JPH11507443A JP9501618A JP50161897A JPH11507443A JP H11507443 A JPH11507443 A JP H11507443A JP 9501618 A JP9501618 A JP 9501618A JP 50161897 A JP50161897 A JP 50161897A JP H11507443 A JPH11507443 A JP H11507443A
Authority
JP
Japan
Prior art keywords
speaker
feature
voice
classifier
classifiers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP9501618A
Other languages
English (en)
Inventor
マモン,リチャード・ジェイ
ファーレル,ケヴィン
シャーマ,マニッシュ
デヴァング,ナイク
ジャング,シャオユー
アサレー,クヘイルド
リオー,ハン−シェン
Original Assignee
ラットガーズ,ザ・ステート・ユニバーシティ・オブ・ニュージャージー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ラットガーズ,ザ・ステート・ユニバーシティ・オブ・ニュージャージー filed Critical ラットガーズ,ザ・ステート・ユニバーシティ・オブ・ニュージャージー
Publication of JPH11507443A publication Critical patent/JPH11507443A/ja
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Selective Calling Equipment (AREA)
  • Traffic Control Systems (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)
  • Train Traffic Observation, Control, And Security (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Eye Examination Apparatus (AREA)

Abstract

(57)【要約】 本発明は、データ融合を用いて、複数の抽出された特徴(60,61,62)および複数の分類部(70,71,72)からのデータを結合する、パターン認識システム(第1図)に関する。話者パターンは、判別を基本とする分類部および歪みを基本とする分類部の組み合わせによって、高精度の確認を可能とする。「単一抜き取り」データの訓練集合を用いる新規な手法を用いて、少ないデータ集合(第7A図、第7B図、第7C図)でシステムの訓練が可能となる。抽出された特徴は、チャネル効果を減少させるポール・フィルタ処理方法(第11B図)、および訓練データおよび検査データ間の相関を高める疑似変形によって改善することができる。

Description

【発明の詳細な説明】 話者確認システム 発明の分野 1.発明の分野 本発明は、パターン認識システムに関し、特に、データ融合(data fusion)を 用いて複数の抽出された特徴および複数の分類部(classifier)からのデータを結 合し、要求された同一性(identity)を精度高く確認するための話者(スピーカ) 確認システムに関するものである。 2.関連技術の説明 パターン認識は、音声、話者、または画像のようなパターンの識別に関係して いる。識別された話者のパターンは、話者識別システムにおいて用いられ、どの 話者からのものであるかを、発声から判定することが可能となる。 話者識別システムの目的は、話者の要求された同一性を発声から確認すること である。話者確認システムへの発音入力は、テキストに依存する(text dependen t)ものでも、テキストに独立する(text independent)ものでもよい。テキスト依 存の話者確認システムは、所定の文またはパスワードの発声の後、話者を確認す る。テキスト独立の話者確認システムは、発声には無関係に話者を確認する。従 来のテキスト独立のシステムは、ユーザの観点からは、パスワードを必要としな いので、利便性が高いものである。 話者情報の特徴抽出は、本願と同一譲受人に譲渡された同時係属中の"Speake r Identification Verification System"と題する米国特許出願第08/20 3,988号に記載されているように、音声の各フレーム毎の適応成分重み付け を用いた変調モデルを用いて実行される。尚、この出願の内容は、この言及によ り本願にも含まれているものとする。適応成分重み付け方法は、非母音系成分(n on-vocaltract components)を減衰させ、かつ、音声成分を正規化してある周波 数帯における話者認識の改善を図っている。 従来の特徴抽出方法の他のものとして、周波数スペクトルまたは線形予測によ って得られるスペクトル符号化係数からのケプストラム係数(cepstral coeffici ent)を判定する方法が含まれる。判別(discriminant)を基本とする話者間パラメ ータ(interspeaker parameter)を判定するために、ニューラル・ツリー・ネット ワーク(NTN:neural tree network)が話者独立のデータと共に用いられてい る。NTNは、A.Sankar およびR.J.Mammone,"Growing and Pruning Ne ural Tree Networks",IEEE Transactions on Computers,C-42:221-229 ,1993年3月に記載されているように、判断ツリーおよびニューラル・ネッ トワークの特性を結合した階層型分類である。話者認識では、NTNの訓練デー タは、所定の話者に対するデータおよび他の話者からのデータで構成されている 。NTNは、特徴空間を、確率が割り当てられた領域に区分する。この確率は、 ある話者が当該話者の領域に該当する特徴ベクトルを発生した可能性がどの程度 であるかを反映している。テキスト独立のシステムには、話者の音響的特徴をモ デル化し評価するために大量のデータを必要とする、という欠点がある。 米国特許第4,957,961号は、容易に訓練し、連続ワード(connected w ords)を信頼性高く認識することが可能なニューラル・ネットワークについて記 載している。動的なプログラミング技法を用いて、入力層の入力ニューロン・ユ ニットを、多層ニューラル・ネットワークに分類する。入力パターンの認識のた めに、各特徴ベクトルのベクトル成分を、3つの連続番号付けされた入力層フレ ームから選択された、入力層の1つの各入力ニューロン・ユニットに供給する。 中間層が、少なくとも2つの入力層フレームの入力ニューロン・ユニットを接続 する。中間層には、出力ニューロン・ユニットが接続されている。中間層には調 節ユニットを接続し、入力−中間および中間−出力接続を調節し、出力ユニット に出力信号を生成させる。このニューラル・ネットワークは、調節ユニットが出 力信号を最大化したときに、入力パターンを所定パターンとして認識する。各音 声パターンに関して、約40回の訓練を用い、動的ニューラル・ネットワークの 訓練を行う。 確認システムの訓練および検査を行うために必要なデータ量は、テキスト依存 の話者発声を用いることによって減少可能であることがわかっている。ある従来 のテキスト依存の話者確認システムには、動的時間ワープ(DTW:dynamic time warping)を用いて、歪みに基づいて特徴の診断を時間的に整合するものがある 。S.Furui"Cepstral Analysis Technique For Automatic Speaker Ver ification",IEEE Transactions On Acoustics.Speeech.and Signal P rocessing ,ASSP-29:254-272,1981年4月を参照されたい。検査の間、 何回か発生されたパスワードの音声から、基準テンプレートを生成する。話者の 要求された同一性を受認するかまたは拒絶するかについての決定は、話者の発声 の歪みが所定のスレシホルド以下か否かによって行う。このシステムには、精度 に欠けるという欠点がある。 J.J.Naik,L.P.Netsch,およびG.R.Doddington,"Speaker Verificat ion Over Long Distance Telephone Lines",Proceedings ICASSR(1 989)に記載されているように、隠れマルコフ・モデル(HMM:hidden Markov model)を用いた他の技法が、DTMシステムに対して処理性能改善を図ったも のがある。テキスト依存の話者確認には、HMMのいくつかの形態が用いられて いる。例えば、A.E.Rosenberg,C.H.LeeおよびF.K.Soong,"Subword U nit Talker Verification Using Hidden Markov Models",Proceedings ICASSP ,第269〜272ページ(1990)に記載されているようなサブワー ド・モデル(subword model)、A.E.Rosenberg,C.H.LeeおよびS.Gokeen," Connected Word Talker Recognition Using Whole Word Hidden Marko v Models",Proceedings ICASSP,第381〜384ページ(1991)のホー ル・ワード・モデル(whole word model)が、話者確認用に検討されている。HM M技法は、モデルパラメータを適切に推定するには、通常大量のデータを必要と するという問題点がある。DTWおよびHMMの一般的な欠点の1つとして、こ れらは話者をモデル化するのみであり、当該システムを用いて他の話者からのデ ータをモデル化することを考慮していない点があげられる。判別訓練が失敗する と、詐欺師がこれらのシステムに侵入することが一層容易となる。 複数の抽出された特徴を複数の所定の分類部(クラシファイア)内で結合し、 パターン認識の精度向上を可能にする、パターン認識システムを提供することが 望まれている。 発明の概要 端的に述べると、本発明は、例えば、以下で述べる「単一抜き取り(leave one out)」技法により、異なる重複した基盤の訓練データを用いて訓練された分類部 を含む複数の分類部において、複数の抽出された特徴を結合する、パターン認識 システムから成る。好ましくは、このパターン認識システムは、話者確認に用い られ、話者が発音した音声から特徴を抽出する。複数の分類部を用いて抽出した 特徴を分類する。分類された出力を融合し、話者によって発音された音声と、予 めこの話者について記億しておいた音声との間の類似性を認識する。融合された 分類出力から、その話者を受認するかあるは拒絶するかについて決定を下す。最 も好ましくは、音声の分類には、発声されたパスワードの妥当性検査を行う動的 時間ワープ分類部と、他の話者からの区別を行う改良ニューラル・ツリー・ネッ トワーク分類部との融合を用いる。判別によって訓練された分類部を話者確認シ ステムにおいて用いることにより、ある話者を他の話者から精度よく識別できる という利点がある。 本システムはまた、話者が発音したワード、即ち、話者のパスワードのワード 認識を行うことに基づいて、話者を受認するかあるいは拒絶するかについて暫定 的な判定を行うことを含ませることも可能である。話者のパスワードが受認され た場合に、分類部はイネーブルされる。好ましくは、分類部は、複数の発声を分 類部に供給し、これらの発声の内1つを抜き取ることにより訓練する。抜き取っ た発声を分類部に入力し、話者を識別するための0から1までの確率を判定する ことができる。この確率を分類スレシホルドと比較し、話者を受認するかあるい は拒絶するかについて判定を行うことができる。 話者が発音した文は、話者に依存するものでも、話者に独立するものでも可能 である。抽出された特徴は、サブワードに細分化することも可能である。好まし くは、サブワードは音素(phoneme)である。サブワードの各々は、少なくとも1 つの分類部によってモデル化が可能である。サブワードを基本とする分類部から の出力を融合し、サブワードを基本とする確認システムを設けることが可能であ る。 好ましくは、特徴の抽出には、音声に対するチャネル効果を減少させるポール (極)・フィルタ法(pole filtering method)を用いることができる。加えて、 抽出された特徴は、疑似変換(affine transformation)によって調節し、訓練環 境および検査環境間の不一致を減少させることができる。 以下の図面を参照して、本発明について更に詳しく説明する。 図面の簡単な説明 図1は、本発明の教示による、話者確認システムの構成図である。 図2Aは、図1に示すワード認識モジュールのシステム訓練中の構成図である 。 図2Bは、図1に示すワード認識モジュールのシステムの検査中の構成図であ る。 図3は、複数の抽出された特徴を複数の分類部と結合する話者確認モジュール の構成図である。 図4は、図1に示した話者確認モジュールにおいて用いられる、改良ニューラ ル・ツリー・ネットワークおよび動的時間ワープ分類部の結合の構成図である。 図5は、図1に示した話者確認モジュールにおいて用いられる、改良ニューラ ル・ツリー・ネットワーク(MNTN)分類部の構成図である。 図6は、図1に示した話者確認モジュールにおいて用いられる動的時間ワープ (DTW)分類部の構成図である。 図7Aは、話者確認モジュールの訓練において用いられる複数の発声の概略図 である。 図7Bは、話者確認モジュールに図7Aに示した複数の発声を適用した構成図 である。 図8は、ある話者および他の話者のスコアのグラフである。 図9は、サブワードを基本とする話者確認システムの構成図である。 図10Aは、訓練中の、サブワードを基本とする分類システムの構成図である 。 図10Bは、検査中の、サブワードを基本とする分類システムの構成図である 。 図11Aは、従来技術のチャネル正規化システムの構成図である。 図11Bは、本発明のチャネル正規化システムの構成図である。 図12は、ポール・フィルタ・チャネル正規化のグラフである。 図13Aは、1フレームの音声スペクトルのグラフである。 図13Bは、従来技術の正規化システムからのフレームに対する、本発明の正 規化システムの1フレームの音声スペクトルの関係を表すグラフである。 図14は、疑似変換システムの構成図である。 好適実施例の詳細な説明 この記載の中では、本発明を例示する異なる図における同様の要素を識別する ために、同様の番号を用いることとする。 図1は、本発明の教示による、話者確認システム10の一実施例の構成図を示 す。話者11が音声12を発声する。音声12は、音声入力信号13として、特 徴抽出モジュール14に供給される。特徴抽出モジュール14は、音声入力信号 13の特性パラメータを表す音声特徴ベクトル15を判定する。好ましくは、音 声特徴ベクトル15の判定には、線形予測(LP:linear prediction)分析を用い 、LPケプストラム係数を決定する。LPケプストラム係数は、従来の技法によ るかさ上げサイン・ウインドウ(raised sine window)を用いて帯域通過フィルタ 処理を行い、ケプストラム係数の認識向上を図ることができる。 LP分析の代わりに、またはLP分析との組み合わせにより、特徴抽出モジュ ール14は、複数の方法で特徴を抽出することが可能である。例えば、上述の米 国特許出願第08/203,988号に記載されているような適応成分重み付け 方法を用いて、音声特徴ベクトル15を抽出することが可能である。適応成分重 み付け技法は、音声入力信号13の所定の成分に重み付けを適用することにより 抽出された特徴を誇張し、信号の母音系の特徴を改善しつつ非母音系の効果を低 減する、正規化スペクトルを生成する。また、特徴抽出モデル14は、対数領域 比(log area ratios)、ライン・スペクトル対、および反射係数のような、従来 の方法を用いて、線形予測(LP)係数から、他の線形予測によって導出される 特徴を発生することも可能である。更に、特徴抽出モジュール14は、線形周波 数目盛り及び対数周波数目盛り上に、高速フリエ変換(FFT:fast Fourier t ransform)で求めたスペクトル特徴を発生したり、基本周波数(ピッチ)、音量 係数(loudness coefficient)、およびゼロ交差速度を発生することも可能である 。 文字認識モジュール20は、音声特徴ベクトル15を受け取り、音声特徴ベク トル15を、この音声特徴ベクトル15に関係するデータ16と比較する。デー タ16は、データベース50に格納することができる。例えば、話者11は、音 声12として、あるパスワードを発声することができる。音声特徴ベクトル15 は、話者11のパスワードの発声を表す。1組のクローズ(限定)されたパスワ ードが、データ16によって表現可能であり、データベース50に格納可能であ る。この1組のクローズされたパスワードは、話者11のパスワードを含む、1 組の話者識別子(同一性)に対応する。ワード認識モジュール20では、ワード 認識モジュール20で受け取った音声特徴ベクトル15がデータベース50内に 記億されているデータ16と一致した場合、例えば、識別要求に対するパスワー ドの一致が得られた場合、話者確認モジュール30がイネーブルされる。受け取 られた音声特徴ベクトル15がデータベース50に記憶されているデータ16と 一致しない場合、例えば、識別要求に対して、データベース50にパスワードに 一致するものがない場合、ユーザ11はモジュール21において再度発音するよ うに催促される。 話者確認モジュール30は、データ融合を用いて、複数の分類部を音声特徴ベ クトル15と結合することが好ましい。この技法については、以下で詳細に説明 する。音声確認モジュール30の融合された分類部出力35は、判断融合論理モ ジュール40において受け取られる。判断融合論理モジュール40は、話者11 の識別要求を受認するかまたは拒絶するかについての最終的な決定を行うことに より、話者の識別要求を確認する。 図2Aおよび2Bは、それぞれ、話者11の登録および話者11の検査の間の ワード認識モジュール20を示す。話者認識システム10における話者11の登 録の期間中、訓練音声22が話者11によって発声される。例えば、訓練音声2 2は、話者11に対するパスワードの4回の反復からなるものとすることができ る。反復の各々を、ワード一致認識モジュール28で認識する。好ましくは、D TWを基本とするテンプレート一致アルゴリズムをワード一致認識モジュール2 8において用い、認識済ワード23を生成する。認識済ワード23は、話者依存 テンプレート24にクラスタ化(cluster)される。また、話者確認システム10 を用いて、認識済ワード23および他の話者25によって発声された同一の訓練 音声22の反復のデータによって、話者独立テンプレート26も生成可能である 。ワード認識一致モジュール28からの認識済ワード23について多数決を用い て、話者11に対するユーザのパスワード27を識別することが可能である。 話者11の検査の期間中、音声12がユーザ11によって発声され、ワード認 識一致モジュール28において、話者依存テンプレート24および話者独立テン プレート26と比較される。音声12が話者11のパスワード27を表し、かつ 話者依存ワード・テンプレート24または話者独立ワード・テンプレート26の いずれかと一致する場合、「受認」応答をライン29に出力する。音声12が話 者依存ワード・テンプレート24または話者独立ワード・テンプレート26のい ずれにも一致しない場合、「拒絶」応答をライン29に出力する。 好ましくは、音声確認モジュール30は、図3に示すように、データ融合を用 いて複数の抽出された特徴60,61および62を複数の分類部70,71およ び72と結合する。特徴60,61および62は、上述のように様々な所定の抽 出方法によって抽出された音声特徴ベクトル15を表すことができる。分類部7 0,71および72は、例えば、ニューラル・ツリー・ネットワーク(NTN) 、多層認知(MLP:multilayer perception)、隠れマルコフ・モデル(HMM )、動的時間ワープ(DTW),ガウス混合モデル(GMM:Gaussian mixtures model)およびベクトル量子化(VQ:vector quantization)のような、様々な所 定の分類方法を表すことができる。別の実施例では、特徴60,61および62 は、音声または画像のような別のパターンの抽出特徴を表すことができ、分類部 70, 71および72は、かかる音声または画像パターンのための所定の分類方法を表 すことができる。各分類部70,71および72からの出力73,74および7 5は、判断融合論理モジュール40において結合され、話者11を受認するかあ るいは拒絶するかについての最終判断を行うことができる。判断融合モジュール 40は、線形オピニオン・プール(linear opinion pool)、対数オピニオン・プ ール、ベイズの結合ルール、投票法、または他の分類部のような従来の技法を用 いて、分類部70,71および72を結合することができる。あらゆる数の特徴 または分類部でも結合可能であることは認められよう。また、分類部は、訓練デ ータの異なる重複した基盤によって、例えば、以下で述べる単一抜き取り技法に よって訓練された分類部を含むことも可能である。 図4は、本発明の話者確認システムにおいて用いるための好適な話者確認モジ ュール30を示す。音声特徴ベクトル102は、ニューラル・ツリー・ネットワ ーク(NTN)分類部104,106,108および110、ならびに動的時間 ワープ(DTW)分類部120,122,124および126に入力される。分 類の間、各NTN分類部104,106,108および110ならびに126は 、特徴ベクトル102が、データベース132内に記憶されているNTNの所定 の各スレシホルド「TNTN」よりも大きいか否かについて判定を行う。各DTW 分類部120,122,124および126は、特徴ベクトル102が、データ ベース132内に記憶されているDTWの所定の各スレシホルド「TDTW」より も大きいか否かについて判定を行う。特徴ベクトル102が各スレシホルドTNT N およびTDTWよりも大きい場合、二進出力「1」がライン240およびライン2 41にそれぞれ出力される。特徴ベクトル102が所定の各スレシホルドTNTN およびTDTWよりも小さい場合、二進出力「0」がライン240およびライン2 41にそれぞれ出力される。 話者確認システム10による話者11の検査の間、判断モジュール40は、ラ イン240および241からの二進出力を受け取る。判断モジュール40の好適 実施例では、判断モジュール240における二進出力について多数決を取り、話 者11を受認するかあるいは拒絶するかについて判定を行う。この実施例では、 二進出力の多数が「1」である場合、話者は受認され、二進出力の多数が「0」 である場合、話者は拒絶される。 改良ニューラル・ツリー・ネットワーク(MNTN)200として指定される 好適な分類部は、話者確認モジュール30における判別を基本とする分類部とし て用いることができる。図5に示すように、MNTN200は、複数の相互接続 ノード202,204および206を有する。ノード204はリーフ・ノード2 08およびリーフ・ノード210に結合され、ノード206はリーフ・ノード2 12およびリーフ・ノード214に結合されている。所定のレベルを越えるMN TN200の成長を切り捨てることによる、ツリーの「前進的刈り込み(forward pruning)」のために、リーフ・ノード208,210,212および214の各 々において、確率測定を用いる。 MNTN200は、話者識別システム10を用いて、他の話者25からのデー タ201を印加することにより、話者11についての訓練を受ける。"Si"で識 別される話者11の抽出特徴ベクトル15にはラベル"1"を割り当て、話者確認 システム10を用いて抽出された他の話者25の特徴ベクトルにはラベル"0"を 割り当てる。データ220,230,240および250は、それぞれ、抽出特 徴ベクトルのリーフ・ノード208,210,212および214に印加される 。リーフ・ノード208,210,212および214の各々において、投票を 行う。リーフ・ノード208,210,212および214の各々には、投票の 過半数のラベルが割り当てられる。全ラベル数に対する過半数のラベル数に対す る比率として、「信頼度」を規定する。例えば、8個の"0"特徴から成るデータ 220には"0"のラベルおよび信頼度"1.0"が割り当てられる。6個の"1"特徴お よび4個の"0"特徴から成るデータ230には、"1"のラベルおよび’"0.6"の信 頼度が割り当てられる。 訓練後のMNTN200を話者確認モジュール30において用い、話者12か らの一連の特徴ベクトル"X"からの対応する話者スコアを判定することができる 。対応する話者スコアPMNTN(X/Si)は、以下の式によって決定することが できる。 ここで、話者11はSiとして識別され、c1は話者11に対する信頼度スコアで あり、c0は他の全話者に対する信頼度スコアである。MおよびNは、それぞれ 、"1"および"0"と分類されたベクトルの数に対応する。 好適なDTW分類部は、歪みを基本とする手法(distortion based approach) を用いて、図6に示すように、2つの波形、即ち2つの特徴パターンを時間的に 整合する。波形は、X軸上の音声特徴ベクトル15の基準パターン、およびY軸 上の音声特徴ベクトル15の検査パターンによって表され、Nは基準パターンの 数を表し、Mは検査パターンの数を表す。全体的な制約270,271,272 および273は、動的時間ワープ路275に対する制限を表す。動的時間ワープ 路275は、H.Sakoe およびS.Chiba,"Dynamic programming algorithmopt imization for spoken word recognition",IEEE Trans.on Acoustics Sp eech and Signal Processing ,vol.ASSP-26,no.1,第43〜49ページ、1 978年2月に記載されているような従来の方法によって決定することができる 。 話者確認システム10を用いて、歪み法を基準とする分類部、即ち、話者に関 係する情報を与える分類DTW部と、判別法(discriminant method)に基づく分 類部、即ち、他の話者に対する話者に関係する情報を与えるNTNまたはMNT N分類部とを組み合わせることが好ましい。DTW分類部およびMNTNまたは NTN分類部の融合には、DTW分類部が時間的情報も与えるという利点がある 。通常、時間的情報は、NTNまたはMNTN分類部の一部ではない。 NTN分類部104,106,108および110ならびにDTW分類部12 0,122,124および126は、図7Aおよび図7Bに示す訓練モジュール 300によって訓練することができる。訓練モジュール300は、MNTN分類 部、DTW分類部および話者確認モジュール30において用いることができるそ の他の分類部の訓練にも用いることができる。「単一抜き取り」技法として識別 される再サンプリング技法(resampling technique)を訓練モジュール300にお いて用いることが好ましい。話者11から所定数の訓練音声の発声を受け取る。 この実施例では、話者のパスワードのような、音声22の302,304,30 6および308として定義された4回の発声を用いる。4回の発声の内の3つを 組み合わせ、1つの発声は残して、NTN分類部104,106,108および 110ならびにDTW分類部120,122,124および126の対に供給す る。3つの発声は、これらの分類部を訓練するために用いられ、残りの発声は独 立した検査事例として用いられる。例えば、発声302,304および306は NTN分類部104およびDTW分類部120に供給することができ、発声30 4,306および308はNTN分類部106およびDTW分類部122に印加 供給ことができ、発声302,306および308はNTN分類部108および DTW分類部124に供給することができ、発声302,304および308は NTN分類部110およびDTW分類部126に供給することができる。 各3ずつの発声を、NTN分類部104,106,108および110ならび にDTW分類部120,122,124および126の各対に供給した後、図7 Cに示すように、抜き取られた発声を、NTN分類部104,106,108お よび110、ならびにDTW分類部120,122,124および126の各対 に供給する。例えば、発声308をNTN分類部104およびDTW分類部12 0に印加し、発声302をNTN106およびDTW122に印加し、発声30 4をNTN108およびDTW124に印加し、発声306をNTN110およ びDTW126に印加する。310,312,314および316で示す、0〜 1の確率Pを計算する。判断融合論理モジュール40の投票モジュール321に おいて、確率310,312,312,314および316をスレシホルドTDT W と、更に確率317,318,319および320をTNTNと比較する。 図8は、話者確認システム10において用いられる分類部のスレシホルド、例 えば、スレシホルドTDTWおよびTNTNを決定するために用いることができる、他 の話者25からの話者内スコアおよび話者11からの話者間スコアのグラフであ る。音声12に対する話者11の話者間スコアは、平均話者スコア351を有 するグラフ350によって表されている。音声12に対する他の話者25の話者 内スコアは、平均話者スコア361を有するグラフ360によって表されている 。スレシホルドTは、以下の式から決定することができる。 T=x*話者間+y*話者間 音声12がスレシホルドTよりも大きい量または小さい量によって、ソフト・ スコア(soft score)Sを決定することができる。各分類部のスコアCは、0〜1 の間であり、0が最も信頼度の高い拒絶であり、1が最も信頼度の高い受認であ る。受認信頼度CacceptはスレシホルドTおよび1の間であり、以下の式から規 定することができる。 Caccept=(S−T)/(1−T) 拒絶信頼度Crejectは0およびスレシホルドTの間であり、以下の式から規定 することができる。 Creject=(T−S)/T 図9は、サブワードを基本とする話者確認システム400の構成図を示す。特 徴抽出モジュール14において音声特徴ベクトル15を抽出した後、サブワード 細分モジュール402において、音声特徴ベクトル15をサブワード404に細 分する。好ましくは、サブワード404は音素である。サブワード404は、訓 練話者モジュール406および検査話者モジュール408に適用することができ る。 図10Aは、訓練話者モジュール406の適用の間のサブワードを基本とする 話者確認400システムの構成図である。話者11の訓練発声を示す話者抽出特 徴15およびパスワードの転写(トランスクリプト)410を、サブワード音素 レベルの細分モジュール402に印加する。パスワードの転写410は、話者1 1が発音したり、コンピュータによって入力したり、またはカードから走査した り、等とすることができる。音声細分モジュール402は、話者抽出特徴15を サブワード1〜Mに細分する。例えば、サブワード"1"はモジュール420に、 サブワード"m"はモジュール422に、そしてサブワード"M"はモジュール42 4に細分する。ここで、Mは細分化されたサブワードの数である。サブワード4 20, 422および424は、サブワード・データベース425に格納することができ る。管理学習ベクトル・ラベリング方式(supervised learning vector labeling scheme)430は、分類部440,442および444を訓練するために、訓練 音声ベクトルのラベルを"0"または"1"と判定する。例えば、他の話者25に対 する全てのサブワードに"0"とラベル付けし、話者15に対するサブワードに" 1"とラベル付けすることができる。あるいは、最も近い音素をデータベース4 25内で検索することができる。サブワード分類部440,442および444 を各サブワード440,442および444に適用し、サブワードの各々を分類 する。好ましくは、サブワード分類部440,442および444は、NTNお よびMNTN分類方法を用いる。 図10Bは、検査話者モジュール408の適用中の、サブワードを基本とする 話者確認システム400の概略構成である。話者11の検査発声を示す話者抽出 特徴15を、パスワードの転写410と共に、サブワード音素レベル細分モジュ ール402に印加する。サブワード分類部440,442および444は、話者 11の検査発声を示す抽出話者特徴15から判定した各サブワード420,42 2および424を分類する。分類部440,442および444からの出力44 5は、判断融合論理モジュール40に印加され、上述のように計算された受認信 頼度Cacceptに基づく、分類部440,442,444からの融合出力に基づい て、話者11を受認するかあるいは拒絶するかについて判定を行う。 「ポール(極)・フィルタ処理」と記述することができる好適な方法を特徴抽 出モジュール14において用い、チャネルの差に対してロバスト性のある音声特 徴ベクトル15を生成することができる。ポール・フィルタ処理は、全ポール線 形予測(LP)フィルタのインテリジェント・フィルタ処理を用いて、チャネル の正規化を行う。 インパルス応答hを用いて、明瞭な音声Csをチャネルとコンボルブ(convolve )すると、通常のケプストラム平均のチャネル・ケプストラムは次のように表す ことができる。 ここで、 は、基礎となる明瞭な音声のみによるケプストラム平均成分に対応する。明瞭な 音声による成分は、チャネル・ケプストラム推定値Csが、実際の基礎となるコ ンボリューション歪みのケプストラム予測hに対応するためには、ゼロ平均でな ければならない。 経験的に、明瞭な音声による平均ケプストラム成分は、短い発声に対しては決 してゼロにはならず、話者確認システム10の訓練および検査の場合にはそうな ることを示すことができる。 従来技術のチャネル正規化システム500を図11Aに示す。ここでは、音声 をフレーム内重み付けモジュール502に印加する。適応成分重み付け(ACW )は、チャネル正規化のためのフレーム内重み付けの一例である。重み付けされ た音声504は、フレーム間処理モジュール506において受け取られ、付加的 なチャネル効果を除去する。チャネル効果を除去する従来のフレーム間方法の1 つは、ケプストラム平均減算(CMS:cepstral mean substraction)によるも のである。チャネル・ケプストラムは、チャネルおよび音声による総スペクトル 分布(grosss pectral distribution)を含むので、従来のような各音声フレーム のケプストラムからチャネル・ケプストラムの歪んだ推定値を除去することは、 チャネルの信頼性のない推定値を効果的にデコンボルブする(deconvolve)するこ とに対応する。 図11Bは、本発明のチャネル正規化システム600を示す。音声12は、チ ャネル推定ポール・フィルタ・モジュール602に印加される。ポール・フィル タ処理は、音声ssによる不変成分の影響を抑圧させる(de-emphasize)。高精度 化したチャネル推定値を用いて、チャネルの正規化を行う。好ましくは、チャネ ル・ケプストラムの高精度化は、繰り返しによって行うことができる。 チャネル・ケプストラムCsの推定値は、発声中で得ることができる音声フレ ーム数に依存する。得られる音声の発声が十分に長い場合、真のチャネル推定値 hを近似するチャネル・ケプストラムの推定値を得ることが可能である。最も実 用的な状況では、訓練または検査における発声の持続期間は、ss−0を考慮で きる程十分に長くはない。ケプストラム平均推定値は、音声フレームにおけるポ ールの優位性(dominance)およびそれらのチャネル・ケプストラムの推定値に対 する寄与を判定することによって改善することができる。 ケプストラム平均における母音系の各モードの効果は、ケプストラム平均を線 形予測係数に変換し、対応する複素共役ボール対の優位性を調べることによって 判定する。音声のフレームに対するスペクトル成分は、単位円に最も近い複素共 役ポール対に対応する場合(最小帯域)に最も優位性が高く、単位円から最も遠 い複素共役ポール対に対応する場合(最大帯域)に最も優位性が低い。 音声のポールを制限し、ケプストラム領域においてより滑らかな、したがって 、より精度の高い逆チャネル推定値を獲得することは、音声による不変成分に関 係するケプストラム・バイアスを減少させる、変形ケプストラム平均 に対応する。高精度化したケプストラム平均の除去、即ち、音声による総スペク トル分布成分を無くすることにより、チャネル正規化方式の改善が得られる。 チャネル・ポール・フィルタ・モジュール602から判定される最良のチャネ ル推定値は、時間領域におけるデコンボリューションのためのデコンボリューシ ョン・モジュール730において音声12と結合され、正規化音声735が得ら れる。従来のフレーム間結合502および干渉処理506を正規化音声735に 適用し、チャネル正規化音声特徴ベクトル740を得ることができる。音声特徴 ベクトル740は、図1に示した音声特徴ベクトル15と同様に適用することが できる。チャネルの推定値を改善するための好適な方法の1つは、ポール・フィ ルタ処理したケプストラム係数PFCCを用い、図12に示すように、狭帯域ポ ールはそれらの帯域が膨張する一方、それらの周波数は不変のままである。ポー ル801,802,803,804,805,806は、変更されたポール81 1,812,813,814,815および816に移動する。その効果は、同 じ半径に沿って狭帯域ポールを単位円内で移動させることと等価であり、こうし て帯域を広げつつ周波数を一定に保持する。 ポール・フィルタ処理したケプストラム係数PFCCは、音声特徴ベクトル1 5と同時に、音声のために決定される。ポール・フィルタ処理したケプストラム 係数PFCCは、フレーム12内のポールが所定のスレシホルドtよりも狭い帯 域を有するか否かを分析することによって決定する。音声12が所定のスレシホ ルドよりも小さく、そのポールの帯域がスレシホルドtに固定(clip)されている 場合、ポール・フィルタ処理したケプストラム係数を用いて、変形ケプストラム 平均を評価することができる。逆フィルタ推定値の改善は、ポール・フィルタ処 理したケプストラム係数PFCCの平均を用いることによって得られ、真の逆チ ャネル・フィルタのよりよい近似が行われる。変形ケプストラム平均を音声のケ プストラム・フレームから減算することにより、スペクトル情報を保存しながら 、一層精度高くチャネルのスペクトル傾斜(spectral tilt)を補償する。 図13Aは、音声のフレームのサンプル・スペクトル700を示す。図13B は、スペクトル700から減算された従来技術のケプストラム平均Csのスペク トル710を示す。スペクトル720は、スペクトル720から減算された、ポ ール・フィルタ処理後の変形ケプストラム平均Cs Pfである。スペクトル720 は、スペクトル710よりも改善されたスペクトル情報を示す。 図14は、話者確認システム10の訓練および検査と共に用いることができる 疑似変形システム(affine transformation system)900を示す。訓練環境と検 査環境との間の不一致は、特徴抽出モジュール14によって抽出されたケプスト ラム係数に疑似変形を施すことによって減少させることができる。ベクトルxの 疑似変形yは、 y=Ax+b と定義される。ここで、Aは線形変換を表わすマトリクスであり、bは変換を表 わす非ゼロ・ベクトルであり、yは検査データ、xは訓練データに対応する。音 声処理領域において、マトリクスAは、ノイズによる個々のケプストラム係数の 収縮をモデル化し、ベクトルbはチャネル効果によるケプストラム平均の偏差を 考慮する。 特異値分解(SVD:singular value decompositlon)は、疑似変形の幾何学的 形状を以下の式で記述する。 y=UΣVTx+b ここで、UおよびVTはユニタリ行列(unitary matrix)であり、Σはダイアゴナ ル(対角線)である。幾何学的解釈では、xはVTによって回転され、Σによっ てリスケールされ(rescale)、再びUによって回転される。また、ベクトルbに よって導入される変換もある。 実際には、各ケプストラム係数は、異なる値によってスケールされ、ケプスト ラム係数のリスケールを伴うことは、角度の僅かな変化であることがわかってい る。ノイズの多いケプストラム・ベクトルcnsは、明確なケプストラム・ベクト ルcとあるマトリクスとの乗算として表すことができる。即ち、 cns =Ac となる。 チャネルおよびノイズが原因で発生した歪みを同時に表すために、疑似マッピ ング(affine mapping)を用いて、 c’=Ac+b によって表すことができる。 xの疑似変形パラメータは、疑似変形によって次のように定義される。 疑似変形パラメータAおよびbは、最少二乗法を用いて訓練または相互確証デ ータ集合(cross-validation data set)について、上述の式を解くことによって 得ることができる。 話者確認システム10の訓練の間、音声特徴ベクトル15は、疑似変形モジュ ール902と接続され、検査の間、分類部入力ライン901によって、分類部9 04に印加される。訓練の間、音声特徴ベクトル15は、疑似変形モジュール9 02と接続され、分類部入力ライン903によって、分類部904に印加される 。 好ましくは、分類部804は、ベクトル量子化分類部である。分類部804は、 例えば、第2図に示した分類部70,71,72、または第4図に示したNTN 分類部104,106,108,110ならびにDTW分類部120,122, 124および126に対応する。 話者確認システム10では、話者の内の真の同一性を要求する者を、真の話者 と呼ぶことができ、一方、偽りの同一性を要求する話者11を詐欺師と呼ぶこと ができる。話者を評価する際、話者確認システム10は、2つのタイプのエラー 、不正拒絶(FR:false rejection)および不正受認(FA:false acceptance) を犯す可能性がある。不正拒絶(FR)のエラーは、真の同一性を要求する真の 話者が、話者確認システム10によって拒絶された場合に起こる。詐欺師が話者 確認システム10によって受認された場合、不正受認(FA)のエラーが発生し たことになる。同一性を受認するまたは拒絶する判断は、上述のように、スレシ ホルドTに依存する。各タイプのエラーのコストに応じて、一方のエラーについ ては、他方のエラーを犠牲にして、大目に見るようにシステムを設計することが できる。あるいは、競合する技術を評価するために、システムの等エラー比(E ER:Equal Error Rate)を比較することができる。等エラー比は、双方のタ イプのエラー(即ち、FRおよびFA)が等しい確率で発生する場合に得られる 。 本発明のサブワードを基本とする話者確認システムは、フィラデルフィアのL inguistic Data Consortium(LDC)を通じて入手可能な、YOHOと呼ばれ る従来の音声体(speech corpus)上で評価した。本発明のサブワードを基本とす る話者確認システム10は、同様の条件の下で、従来の隠れマルコフ・モデル( HMM)に基づくシステムのEERが1.66%であったのに比較して、0.3 6%の等エラー比(EER)を得た。 本発明は、異なる分類部からの複数の属性を結合し、精度高く所与のパターン を認識可能な強力な認識システムを提供するという利点がある。話者確認の実施 例では、歪みに基づく分類部を、判別に基づく分類部と結合し、話者に関係する 属性ならびに当該話者および他の話者に関係する属性を結合することができる。 好ましくは、ニューラル・ツリー・ネットワークを用いて、話者およびその他の 話者からのデータを分類し、処理の短縮を図る。ワード認識イネーブル・モジュ ールは、確認システムの精度を大幅に高めると共に、拒絶された話者に対する処 理を減らすことができる。更に、分類部は、サブワードに基づき、テキスト依存 のデータでも、テキスト独立のデータでも可能である。加えて、確認システムは 、単一抜き取り方法を用いて訓練し、システムを訓練するために必要なデータを 減らすことができる。ポール・フィルタ処理を用いて、システムにおけるチャネ ル歪みを軽減することができる。抽出された特徴の疑似変形によって、訓練デー タおよび検査データ間の相関を高めることができる。また、システムは、正の確 認が行われた後に、話者モデルを更新し、経年変化現象を考慮することも可能で ある。 以上好適実施例を参照しながら本発明について説明したが、この説明は限定を 意図するものではない。本発明の精神および範囲から逸脱することなく、変更も 可能であることは当業者には認められよう。
【手続補正書】特許法第184条の8第1項 【提出日】1997年6月4日 【補正内容】 請求の範囲 1.話者の確認方法において、 前記話者が発音した第1音声から少なくとも1つの特徴と抽出するステップと 、 複数の分類出力を形成するための複数の分類部によって、前記少なくとも1つ の特徴を分類するステップと、 前記複数の分類出力を融合し、融合分類出力を形成するステップと、 前記話者確認の前に、前記融合分類出力と前記話者が発音した第2音声との類 似性を判定することによって、前記融合分類出力を認識するステップと、 前記認識した融合分類出力から、前記話者を受認するかまたは拒絶するかにつ いて判定を行うステップと から成ることを特徴とする方法。 2.請求項1記載の方法において、該方法は更に、 前記認識した融合分類出力から信頼度を判定するステップ を備えていることを特徴とする方法。 3.請求項2記載の方法において、前記少なくとも1つの特徴を分類するステッ プの前に、前記方法は更に、 前記少なくとも1つの特徴を、前記話者確認の前に記憶されている前記話者に 対するデータと比較することによって、前記話者が発音した前記第1音声に対し てワード認識を行い、前記話者を暫定的に受認するかまたは暫定的に拒絶するか について判定を行うステップと、 前記話者を暫定的に受認すると判定した場合に、前記少なくとも1つの特徴を 分類する前記ステップをイネーブルし、または前記話者を暫定的に拒絶すると判 定した場合に、取り消しモジュールをイネーブルするステップと を備えていることを特徴とする方法。 4.請求項3記載の方法において、前記第1音声は、前記話者に対するパスワー ドの少なくとも1つの発声から成ることを特徴とする方法。 5.請求項4記載の方法において、前記データは、予め前記話者が発音した第1 音声から形成された話者依存テンプレートと、予め少なくともひとりの第2話者 が発音した第1音声によって形成された話者独立テンプレートとから成ることを 特徴とする方法。 6.請求項1記載の方法において、前記分類ステップは、ニューラル・ツリー・ ネットワーク(NTN)分類部および動的時間ワープ分類部によって実行するこ とを特徴とする方法。 7.請求項1記載の方法において、前記分類ステップは、改良ニューラル・ツリ ー・ネットワーク(MNTN)および動的時間ワープ分類部によって実行するこ とを特徴とする方法。 8.請求項1記載の方法において、前記認識ステップは、 前記複数の分類部の内1対に、前記話者に対する音声の複数の第1発声を印加 し、前記分類部を訓練するために、抜き取り発声と定義された前記発声の1つを 抜き取り、 前記抜き取った音声を前記分類部対に供給し、前記分類部を独立して検査し、 前記分類部の対における前記分類部の第1のものについて第1確率を、前記分 類部の対における前記分類部の第2のものについて第2確率を計算し、 前記第1確率から前記分類部の対における前記分類部の前記第1のものに対す る第1スレシホルド、および前記第2確率から前記分類部対における前記分類部 の前記第2のものに対する第2スレシホルドを決定すること から成り、 前記複数の分類出力の前記類似性は、前記対における前記分類部の前記第1の ものを前記第1スレシホルドと比較し、前記対における前記分類部の前記第2の ものを前記第2スレシホルドと比較することによって判定することを特徴とする 方法。 9.請求項1記載の方法において、前記抽出ステップは、前記第1および第2音 声のポール・フィルタのポールを変更し、前記少なくとも1つの特徴を抽出する ことによって実行することを特徴とする方法。 10.請求項1記載の方法において、該方法は更に、 前記抽出ステップの後に、前記第1音声からの前記少なくとも1つの特徴を複 数のサブワードに細分するステッブを含むことを特徴とする方法。 11.請求項10記載の方法において、前記サブワードは音素であることを特徴 とする方法。 12.請求項1記載の方法において、前記少なくとも1つの特徴は、疑似マップ 変形を用いて補正され、該疑似マップ変形は、yがベクトルxの前記疑似変形、 Aが線形変形を表すマトリクス、ベクトルbが変換を表すとしたとき、 y=Ax+b によって表されることを特徴とする方法。 13.話者の話者確認システムであって、 前記話者が発音した第1音声から少なくとも1つの特徴と抽出する手段と、 複数の分類出力を形成するための複数の分類部によって、前記少なくとも1つ の特徴を分類する手段と、 前記複数の分類出力を融合し、融合分類出力を形成する手段と、 前記話者確認の前に、前記融合分類出力と前記話者が発音した第2音声との類 似性を判定することによって、前記融合分類出力を認識する手段と、 前記認識した融合分類出力から、前記話者を受認するかまたは拒絶するかにつ いて判定を行う手段と から成ることを特徴とするシステム。 14.請求項13記載のシステムにおいて、該システムは更に、 前記少なくとも1つの特徴を、前記話者確認の以前に記憶されている前記話者 に対するデータと比較することによって、前記話者が発音した前記第1音声に対 してワード認識を行い、前記話者を暫定的に受認するか、または暫定的に拒絶す るかについて判定を行う手段と、 前記話者を暫定的に受認すると判定した場合に、前記少なくとも1つの特徴を 分類する前記手段をイネーブルし、または前記話者を暫定的に拒絶すると判定し た場合に、取り消しモジュールをイネーブルする手段と を備えていることを特徴とするシステム。 15.請求項14記載のシステムにおいて、前記データは、予め前記話者が発音 した第1音声から形成された話者依存テンプレートと、予め少なくともひとりの 第2話者が発音した第1音声によって形成された話者独立テンプレートとから成 ることを特徴とするシステム。 16.請求項15記載のシステムにおいて、前記分類手段は、改良ニューラル・ ツリー・ネットワーク(MNTN)および動的時間ワープ分類部から成ることを 特徴とするシステム。 17.請求項16記載のシステムにおいて、前記抽出手段は、全ポール・フィル タにおいてポールを制限することによって実行することを特徴とするシステム。 18.請求項17記載のシステムにおいて、前記少なくとも1つの特徴はケプス トラム係数であり、該ケプストラム係数は疑似変形を用いて補正されることを特 徴とするシステム。 19.請求項10記載の方法において、前記ポールの変更は、 前記少なくとも1つの特徴のスペクトル成分を判定するステップと、 狭帯域を制限し、チャネル推定値を得るステップと によって行われることを特徴とする方法。 20.請求項19記載の方法において、該方法は更に、 前記チャネル推定値を用いて前記第1音声および前記第2音声をデコンボリュ ートし、正規化音声を得るステップと、 前記正規化音声のスペクトル上の特徴を計算し、正規化音声特徴ベクトルを得 て、これらを前記分類ステップに適用するステップと を含むことを特徴とする方法。 21.請求項19記載の方法において、該方法は更に、 前記チャネル推定値をケプストラム係数に変換し、ケプストラム領域における 変更チャネル推定値を得るステップと、 前記第1音声音声および前記第2音声から、前記変更チャネル推定値を減算す るステップと を含むことを特徴とする方法。 22.請求項12記載の方法において、前記少なくとも1つの特徴は、ケプスト ラム係数であり、該ケプストラム係数は疑似マップ変形を用いて補正されること を特徴とする方法。 23.請求項7記載の方法において、該方法は更に、 他の話者が発音した第2音声から少なくとも1つの特徴を抽出するステップと 、 前記話者が発音した第1音声からの前記少なくとも1つの特徴に第1レベルを 割り当てるステップと、 他の話者が発音した前記第2音声からの前記少なくとも1つの特徴に第2ラベ ルを割り当てるステップと、 前記第1および第2ラベル上で前記分類部を訓練するステップと を含むことを特徴とする方法。 24.請求項10記載の方法において、該方法は更に、 他の話者が発音した第2音声から少なくとも1つの特徴を抽出するステップと 、 前記抽出ステップの後、前記第2音声からの前記少なくとも1つの特徴を、複 数の第2サブワードに細分するステップと、 前記第1複数のサブワードおよび前記第2複数のサブワードを、サブワード・ データベースに格納するステップと、 前記格納した第1サブワードから前記第1話者に対する第1ラベルを、および 前記第2サブワードから他の話者に対する第2ラベルを決定するステップと、 前記第1および第2ラベル上で前記分類部を訓練するステップと を含むことを特徴とする方法。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(KE,LS,MW,SD,S Z,UG),UA(AM,AZ,BY,KG,KZ,MD ,RU,TJ,TM),AL,AM,AT,AU,AZ ,BB,BG,BR,BY,CA,CH,CN,CZ, DE,DK,EE,ES,FI,GB,GE,HU,I L,IS,JP,KE,KG,KP,KR,KZ,LK ,LR,LS,LT,LU,LV,MD,MG,MK, MN,MW,MX,NO,NZ,PL,PT,RO,R U,SD,SE,SG,SI,SK,TJ,TM,TR ,TT,UA,UG,UZ,VN (72)発明者 ファーレル,ケヴィン アメリカ合衆国コネチカット州06460,ミ ルフォード,イースト・ブロードウェイ 712 (72)発明者 シャーマ,マニッシュ アメリカ合衆国ニュージャージー州08855, ピスカタウェイ,ピー・オー・ボックス 1119,ビーピーオー 23899 (72)発明者 デヴァング,ナイク アメリカ合衆国カリフォルニア州94087, サニーヴェール,イースト・フレモント・ アベニュー 815,ナンバー 46 (72)発明者 ジャング,シャオユー アメリカ合衆国ニュージャージー州08854, ピスカタウェイ,ホーズ・レーン 371 (72)発明者 アサレー,クヘイルド アメリカ合衆国アリゾナ州85252,スコッ ツデール,ピー・オー・ボックス 1417 (72)発明者 リオー,ハン−シェン アメリカ合衆国マサチューセッツ州02154, ウォルサム,アシュ・ストリート 93−1

Claims (1)

  1. 【特許請求の範囲】 1.話者確認方法であって、 前記話者が発音した第1音声から少なくとも1つの特徴と抽出するステップと 、 複数の分類出力を形成するための複数の分類部によって、前記少なくとも1つ の特徴を分類する手段と、 前記複数の分類出力および予め前記話者が発音した第2音声の類似性を判定す ることによって、前記複数の分類出力を認識する手段と、 前記認識した複数の分類出力から、前記話者を受認するかまたは拒絶するかに ついて判定を行う手段と から成ることを特徴とする方法。 2.請求項1記載の方法において、該方法は更に、 前記認識した複数の分類出力から信頼度を判定するステップ を備えていることを特徴とする方法。 3.請求項2記載の方法において、前記少なくとも1つの特徴を分類するステッ プの前に、前記方法は更に、 前記少なくとも1つの特徴を、予め記憶されている前記話者に対するデータと 比較することによって、前記話者が発音した前記第1音声に対してワード認識を 行い、前記話者を暫定的に受認するか、または暫定的に拒絶するかについて判定 を行うステップと、 前記話者を暫定的に受認すると判定した場合に、前記少なくとも1つの特徴を 分類する前記ステップをイネーブルし、または前記話者を暫定的に拒絶すると判 定した場合に、取り消しモジュールをイネーブルするステップと を備えていることを特徴とする方法。 4.請求項3記載の方法において、前記第1音声は、前記話者に対するパスワー ドの少なくとも1つの発声から成ることを特徴とする方法。 5.請求項4記載の方法において、前記データは、予め前記話者が発音した第1 音声から形成された話者依存テンプレートと、予め少なくともひとりの第2話者 が発音した第1音声によって形成された話者独立テンプレートとから成ることを 特徴とする方法。 6.請求項1記載の方法において、前記分類ステップは、ニューラル・ツリー・ ネットワーク(NTN)分類部および動的時間ワープ分類部によって実行するこ とを特徴とする方法。 7.請求項1記載の方法において、前記分類ステップは、改良ニューラル・ツリ ー・ネットワーク(MNTN)および動的時間ワープ分類部によって実行するこ とを特徴とする方法。 8.請求項7記載の方法において、前記MNTN分類部の話者スコアは、clは 話者Siに対する信頼度スコア、c0は他の全話者に対する信頼度スコア、Mおよ びNはそれぞれ"1"および"0"と分類されたベクトルの数に対応するとしたとき、 によって、定義されることを特徴とする方法。 9.請求項1記載の方法において、前記認識ステップは、 前記複数の分類部の内1対に、前記話者に対する音声の複数の第1発声を印加 し、抜き取り発声と定義された、前記発声の1つを抜き取り、 前記抜き取った音声を前記分類部対に印加し、 前記分類部対において、前記分類部の各々について確率を計算し、 前記確率から、前記分類部対内の前記分類部の各々についてスレシホルドを決 定すること によって訓練され、 前記複数の分類出力の前記類似性は、前記分類部を前記スレシホルドと比較す ることによって判定される ことを特徴とする方法。 10.請求項1記載の方法において、前記抽出ステップは、前記第1および第2 音声のポール・フィルタ処理を行い、前記少なくとも1つの特徴を抽出すること によって実行することを特徴とする方法。 11.請求項1記載の方法において、該方法はさらに、 前記抽出ステップの後に、前記少なくとも1つの特徴をサブワードに細分する ステップ を含むことを特徴とする方法。 12.請求項11記載の方法において、前記サブワードは音素であることを特徴 とする方法。 13.請求項12記載の方法において、前記サブワードは話者に依存することを 特徴とする方法。 14.請求項12記載の方法において、前記サブワードは話者に独立であること を特徴とする方法。 15.請求項1記載の方法において、前記少なくとも1つの特徴は、疑似マップ 変形を用いて補正されることを特徴とする方法。 16.話者確認システムであって、 前記話者が発音した第1音声から少なくとも1つの特徴と抽出する手段と、 複数の分類出力を形成するための複数の分類部によって、前記少なくとも1つ の特徴を分類する手段と、 前記複数の分類出力および予め前記話者が発音した第2音声の類似性を判定す ることによって、前記複数の分類出力を認識する手段と、 前記認識した複数の分類出力から、前記話者を受認するかまたは拒絶するかに ついて判定を行う手段と から成ることを特徴とするシステム。 17.請求項16記載のシステムにおいて、該システムは更に、 前記少なくとも1つの特徴を、予め記憶されている前記話者に対するデータと 比較することによって、前記話者が発音した前記第1音声に対してワード認識を 行い、前記話者を暫定的に受認するか、または暫定的に拒絶するかについて判定 を行う手段と、 前記話者を暫定的に受認すると判定した場合に、前記少なくとも1つの特徴を 分類する前記手段をイネーブルし、または前記話者を暫定的に拒絶すると判定し た場合に、取り消しモジュールをイネーブルする手段と を備えていることを特徴とするシステム。 18.請求項17記載のシステムにおいて、前記データは、予め前記話者が発音 した第1音声から形成された話者依存テンプレートと、予め少なくともひとりの 第2話者が発音した第1音声によって形成された話者独立テンプレートとから成 ることを特徴とするシステム。 19.請求項18記載のシステムにおいて、前記分類手段は、改良ニューラル・ ツリー・ネットワーク(MNTN)および動的時間ワープ分類部から成ることを 特徴とするシステム。 20.請求項19記載のシステムにおいて、前記抽出手段は、全ポール・フィル タと共に動作することを特徴とするシステム。 21.請求項20記載のシステムにおいて、前記少なくとも1つの特徴は、疑似 変形を用いて補正されることを特徴とするシステム。
JP9501618A 1995-06-07 1996-06-06 話者確認システム Ceased JPH11507443A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/479,012 US5839103A (en) 1995-06-07 1995-06-07 Speaker verification system using decision fusion logic
US08/479,012 1995-06-07
PCT/US1996/009260 WO1996041334A1 (en) 1995-06-07 1996-06-06 Speaker verification system

Publications (1)

Publication Number Publication Date
JPH11507443A true JPH11507443A (ja) 1999-06-29

Family

ID=23902297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9501618A Ceased JPH11507443A (ja) 1995-06-07 1996-06-06 話者確認システム

Country Status (16)

Country Link
US (1) US5839103A (ja)
EP (1) EP0870300B1 (ja)
JP (1) JPH11507443A (ja)
KR (1) KR19990022391A (ja)
CN (1) CN1197526A (ja)
AT (1) ATE323934T1 (ja)
AU (1) AU711496B2 (ja)
CA (1) CA2221415A1 (ja)
DE (1) DE69636057T2 (ja)
FI (1) FI117954B (ja)
IL (1) IL122354A (ja)
NO (1) NO321125B1 (ja)
NZ (1) NZ311289A (ja)
RU (1) RU2161336C2 (ja)
TR (1) TR199701555T1 (ja)
WO (1) WO1996041334A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008126627A1 (ja) * 2007-03-26 2008-10-23 Nec Corporation 音声分類装置、音声分類方法、および音声分類用プログラム

Families Citing this family (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5937381A (en) * 1996-04-10 1999-08-10 Itt Defense, Inc. System for voice verification of telephone transactions
US6038528A (en) * 1996-07-17 2000-03-14 T-Netix, Inc. Robust speech processing with affine transform replicated data
US6003002A (en) * 1997-01-02 1999-12-14 Texas Instruments Incorporated Method and system of adapting speech recognition models to speaker environment
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
CA2304747C (en) * 1997-10-15 2007-08-14 British Telecommunications Public Limited Company Pattern recognition using multiple reference models
US6519561B1 (en) * 1997-11-03 2003-02-11 T-Netix, Inc. Model adaptation of neural tree networks and other fused models for speaker verification
US6233555B1 (en) * 1997-11-25 2001-05-15 At&T Corporation Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
US6243695B1 (en) * 1998-03-18 2001-06-05 Motorola, Inc. Access control system and method therefor
EP1072035A1 (en) * 1998-04-20 2001-01-31 Koninklijke KPN N.V. Theshold setting and training of a speaker verification system
AU3889799A (en) * 1998-05-08 1999-11-29 T-Netix, Inc. Channel estimation system and method for use in automatic speaker verification systems
JP3090119B2 (ja) * 1998-05-15 2000-09-18 日本電気株式会社 話者照合装置、方法及び記憶媒体
DE19824353A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
DE19824354A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
US6178400B1 (en) * 1998-07-22 2001-01-23 At&T Corp. Method and apparatus for normalizing speech to facilitate a telephone call
TW418383B (en) * 1998-09-23 2001-01-11 Ind Tech Res Inst Telephone voice recognition system and method and the channel effect compensation device using the same
US6411930B1 (en) * 1998-11-18 2002-06-25 Lucent Technologies Inc. Discriminative gaussian mixture models for speaker verification
JP2000200098A (ja) * 1999-01-07 2000-07-18 Sony Corp 学習装置および学習方法、並びに認識装置および認識方法
JP2000259198A (ja) * 1999-03-04 2000-09-22 Sony Corp パターン認識装置および方法、並びに提供媒体
US20010044818A1 (en) * 2000-02-21 2001-11-22 Yufeng Liang System and method for identifying and blocking pornogarphic and other web content on the internet
US6735562B1 (en) * 2000-06-05 2004-05-11 Motorola, Inc. Method for estimating a confidence measure for a speech recognition system
US6735563B1 (en) * 2000-07-13 2004-05-11 Qualcomm, Inc. Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6728674B1 (en) * 2000-07-31 2004-04-27 Intel Corporation Method and system for training of a classifier
US20040190688A1 (en) * 2003-03-31 2004-09-30 Timmins Timothy A. Communications methods and systems using voiceprints
US20020147694A1 (en) * 2001-01-31 2002-10-10 Dempsey Derek M. Retraining trainable data classifiers
US6792434B2 (en) * 2001-04-20 2004-09-14 Mitsubishi Electric Research Laboratories, Inc. Content-based visualization and user-modeling for interactive browsing and retrieval in multimedia databases
GB0112749D0 (en) * 2001-05-25 2001-07-18 Rhetorical Systems Ltd Speech synthesis
EP1399915B1 (en) * 2001-06-19 2009-03-18 Speech Sentinel Limited Speaker verification
US20050055208A1 (en) * 2001-07-03 2005-03-10 Kibkalo Alexandr A. Method and apparatus for fast calculation of observation probabilities in speech recognition
US7493258B2 (en) * 2001-07-03 2009-02-17 Intel Corporation Method and apparatus for dynamic beam control in Viterbi search
RU2276810C2 (ru) * 2001-07-03 2006-05-20 Интел Зао Способ и устройство для динамической регулировки луча в поиске по витерби
US7844476B2 (en) 2001-12-31 2010-11-30 Genworth Financial, Inc. Process for case-based insurance underwriting suitable for use by an automated system
US7895062B2 (en) 2001-12-31 2011-02-22 Genworth Financial, Inc. System for optimization of insurance underwriting suitable for use by an automated system
US7899688B2 (en) 2001-12-31 2011-03-01 Genworth Financial, Inc. Process for optimization of insurance underwriting suitable for use by an automated system
US7818186B2 (en) 2001-12-31 2010-10-19 Genworth Financial, Inc. System for determining a confidence factor for insurance underwriting suitable for use by an automated system
US8793146B2 (en) * 2001-12-31 2014-07-29 Genworth Holdings, Inc. System for rule-based insurance underwriting suitable for use by an automated system
US8005693B2 (en) 2001-12-31 2011-08-23 Genworth Financial, Inc. Process for determining a confidence factor for insurance underwriting suitable for use by an automated system
US7630910B2 (en) 2001-12-31 2009-12-08 Genworth Financial, Inc. System for case-based insurance underwriting suitable for use by an automated system
US7844477B2 (en) 2001-12-31 2010-11-30 Genworth Financial, Inc. Process for rule-based insurance underwriting suitable for use by an automated system
US20030149881A1 (en) * 2002-01-31 2003-08-07 Digital Security Inc. Apparatus and method for securing information transmitted on computer networks
US6687672B2 (en) 2002-03-15 2004-02-03 Matsushita Electric Industrial Co., Ltd. Methods and apparatus for blind channel estimation based upon speech correlation structure
US7424425B2 (en) * 2002-05-19 2008-09-09 International Business Machines Corporation Optimization of detection systems using a detection error tradeoff analysis criterion
FR2848715B1 (fr) * 2002-12-11 2005-02-18 France Telecom Procede et systeme de correction multi-references des deformations spectrales de la voix introduites par un reseau de communication
US7734025B2 (en) * 2003-02-28 2010-06-08 Grape Technology Group, Inc. Methods and systems for providing on-line bills for use in communications services
US7567914B2 (en) 2003-04-30 2009-07-28 Genworth Financial, Inc. System and process for dominance classification for insurance underwriting suitable for use by an automated system
US7813945B2 (en) 2003-04-30 2010-10-12 Genworth Financial, Inc. System and process for multivariate adaptive regression splines classification for insurance underwriting suitable for use by an automated system
US7383239B2 (en) 2003-04-30 2008-06-03 Genworth Financial, Inc. System and process for a fusion classification for insurance underwriting suitable for use by an automated system
US7801748B2 (en) 2003-04-30 2010-09-21 Genworth Financial, Inc. System and process for detecting outliers for insurance underwriting suitable for use by an automated system
CN1308911C (zh) * 2003-07-10 2007-04-04 上海优浪信息科技有限公司 一种说话者身份识别方法和系统
US7698159B2 (en) 2004-02-13 2010-04-13 Genworth Financial Inc. Systems and methods for performing data collection
US20050288930A1 (en) * 2004-06-09 2005-12-29 Vaastek, Inc. Computer voice recognition apparatus and method
US7386448B1 (en) 2004-06-24 2008-06-10 T-Netix, Inc. Biometric voice authentication
KR100571574B1 (ko) * 2004-07-26 2006-04-17 한양대학교 산학협력단 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7853539B2 (en) * 2005-09-28 2010-12-14 Honda Motor Co., Ltd. Discriminating speech and non-speech with regularized least squares
US7539616B2 (en) * 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
CN101051463B (zh) * 2006-04-06 2012-07-11 株式会社东芝 说话人认证的验证方法及装置
CN101154380B (zh) * 2006-09-29 2011-01-26 株式会社东芝 说话人认证的注册及验证的方法和装置
US7822605B2 (en) * 2006-10-19 2010-10-26 Nice Systems Ltd. Method and apparatus for large population speaker identification in telephone interactions
RU2351023C2 (ru) * 2007-05-02 2009-03-27 Общество с ограниченной ответственностью "Тридакна" Способ верификации пользователя в системах санкционирования доступа
US8886663B2 (en) * 2008-09-20 2014-11-11 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US8145483B2 (en) * 2009-08-05 2012-03-27 Tze Fen Li Speech recognition method for all languages without using samples
RU2419890C1 (ru) * 2009-09-24 2011-05-27 Общество с ограниченной ответственностью "Центр речевых технологий" Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
RU2421699C1 (ru) * 2010-05-19 2011-06-20 ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "Интегрированные Биометрические Решения И Системы" (ООО "ИБРиС") Способ верификации личности по голосу на основе анатомических параметров человека
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
WO2012068705A1 (en) * 2010-11-25 2012-05-31 Telefonaktiebolaget L M Ericsson (Publ) Analysis system and method for audio data
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9390445B2 (en) 2012-03-05 2016-07-12 Visa International Service Association Authentication using biometric technology through a consumer device
CN102664011B (zh) * 2012-05-17 2014-03-12 吉林大学 一种快速说话人识别方法
EA023695B1 (ru) * 2012-07-16 2016-07-29 Ооо "Центр Речевых Технологий" Способ распознавания речевых сообщений и устройство для его осуществления
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
US9230550B2 (en) * 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US8694315B1 (en) 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9621713B1 (en) 2014-04-01 2017-04-11 Securus Technologies, Inc. Identical conversation detection method and apparatus
US10237399B1 (en) 2014-04-01 2019-03-19 Securus Technologies, Inc. Identical conversation detection method and apparatus
CN103986725A (zh) * 2014-05-29 2014-08-13 中国农业银行股份有限公司 一种客户端、服务器端以及身份认证系统和方法
US9922048B1 (en) 2014-12-01 2018-03-20 Securus Technologies, Inc. Automated background check via facial recognition
CN104410697A (zh) * 2014-12-02 2015-03-11 广东安居宝数码科技股份有限公司 考勤信息的处理方法和系统
JP6481939B2 (ja) * 2015-03-19 2019-03-13 株式会社レイトロン 音声認識装置および音声認識プログラム
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
CN109313902A (zh) 2016-06-06 2019-02-05 思睿逻辑国际半导体有限公司 语音用户接口
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
CN106228976B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
CN107886955B (zh) * 2016-09-29 2021-10-26 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
US10614813B2 (en) * 2016-11-04 2020-04-07 Intellisist, Inc. System and method for performing caller identity verification using multi-step voice analysis
KR102125549B1 (ko) * 2017-04-20 2020-06-22 한국전자통신연구원 심층신경망 기반 음성 인식 시스템을 위한 발화 검증 방법
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10957318B2 (en) * 2018-11-02 2021-03-23 Visa International Service Association Dynamic voice authentication
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream
US11114103B2 (en) 2018-12-28 2021-09-07 Alibaba Group Holding Limited Systems, methods, and computer-readable storage media for audio signal processing
US10891318B2 (en) * 2019-02-22 2021-01-12 United States Of America As Represented By The Secretary Of The Navy Temporal logic fusion of real time data
EP3982360A4 (en) * 2019-06-07 2022-06-08 NEC Corporation DEVICE AND METHOD FOR VOICE PROCESSING, AND NON-TRANSITORY COMPUTER READABLE MEDIA ON WHICH A PROGRAM IS STORED
JP7259981B2 (ja) * 2019-10-17 2023-04-18 日本電気株式会社 話者認証システム、方法およびプログラム
JP7395960B2 (ja) * 2019-10-30 2023-12-12 富士通株式会社 予測モデル説明方法、予測モデル説明プログラム、予測モデル説明装置
CN111081255B (zh) * 2019-12-31 2022-06-03 思必驰科技股份有限公司 说话人确认方法和装置
JP7548316B2 (ja) * 2020-08-11 2024-09-10 日本電気株式会社 音声処理装置、音声処理方法、プログラム、および音声認証システム
CN114004353B (zh) * 2021-09-30 2025-02-28 中国科学院计算技术研究所 减少光器件数量的光神经网络芯片构建方法及系统
CN116153336B (zh) * 2023-04-19 2023-07-21 北京中电慧声科技有限公司 一种基于多域信息融合的合成语音检测方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4053710A (en) * 1976-03-01 1977-10-11 Ncr Corporation Automatic speaker verification systems employing moment invariants
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4975961A (en) * 1987-10-28 1990-12-04 Nec Corporation Multi-layer neural network to which dynamic programming techniques are applicable
JPH0673080B2 (ja) * 1987-11-25 1994-09-14 日本電気株式会社 連続音声認識方式
SU1629917A1 (ru) * 1989-02-10 1991-02-23 Институт Систем Управления Ан Гсср Способ идентификации говор щего
DE3931638A1 (de) * 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache
DE69030561T2 (de) * 1989-12-28 1997-10-09 Sharp Kk Spracherkennungseinrichtung
US5220640A (en) * 1990-09-20 1993-06-15 Motorola, Inc. Neural net architecture for rate-varying inputs
US5271088A (en) * 1991-05-13 1993-12-14 Itt Corporation Automated sorting of voice messages through speaker spotting
US5430827A (en) * 1993-04-23 1995-07-04 At&T Corp. Password verification system
US5528728A (en) * 1993-07-12 1996-06-18 Kabushiki Kaisha Meidensha Speaker independent speech recognition system and method using neural network and DTW matching technique
DE4325404C2 (de) * 1993-07-29 2002-04-11 Tenovis Gmbh & Co Kg Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
WO1995005656A1 (en) * 1993-08-12 1995-02-23 The University Of Queensland A speaker verification system
US5457770A (en) * 1993-08-19 1995-10-10 Kabushiki Kaisha Meidensha Speaker independent speech recognition system and method using neural network and/or DP matching technique
US5522011A (en) * 1993-09-27 1996-05-28 International Business Machines Corporation Speech coding apparatus and method using classification rules
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008126627A1 (ja) * 2007-03-26 2008-10-23 Nec Corporation 音声分類装置、音声分類方法、および音声分類用プログラム
US8630853B2 (en) 2007-03-26 2014-01-14 Nec Corporation Speech classification apparatus, speech classification method, and speech classification program

Also Published As

Publication number Publication date
US5839103A (en) 1998-11-17
FI974339A0 (fi) 1997-11-26
RU2161336C2 (ru) 2000-12-27
WO1996041334A1 (en) 1996-12-19
AU711496B2 (en) 1999-10-14
EP0870300B1 (en) 2006-04-19
DE69636057T2 (de) 2007-04-12
DE69636057D1 (de) 2006-05-24
AU6257696A (en) 1996-12-30
FI117954B (fi) 2007-04-30
EP0870300A4 (en) 1999-04-21
CN1197526A (zh) 1998-10-28
FI974339L (fi) 1998-02-06
CA2221415A1 (en) 1996-12-19
NO975475L (no) 1998-01-21
NZ311289A (en) 1998-12-23
NO975475D0 (no) 1997-11-28
IL122354A (en) 2000-10-31
IL122354A0 (en) 1998-04-05
ATE323934T1 (de) 2006-05-15
EP0870300A1 (en) 1998-10-14
NO321125B1 (no) 2006-03-20
TR199701555T1 (xx) 1998-04-21
KR19990022391A (ko) 1999-03-25

Similar Documents

Publication Publication Date Title
JPH11507443A (ja) 話者確認システム
US6539352B1 (en) Subword-based speaker verification with multiple-classifier score fusion weight and threshold adaptation
EP1399915B1 (en) Speaker verification
US6519561B1 (en) Model adaptation of neural tree networks and other fused models for speaker verification
JP3532346B2 (ja) ミックスチャ分解識別による話者検証方法と装置
US7603275B2 (en) System, method and computer program product for verifying an identity using voiced to unvoiced classifiers
US20090171660A1 (en) Method and apparatus for verification of speaker authentification and system for speaker authentication
EP0892388B1 (en) Method and apparatus for providing speaker authentication by verbal information verification using forced decoding
AU2002311452A1 (en) Speaker recognition system
Ozaydin Design of a text independent speaker recognition system
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
Georgescu et al. GMM-UBM modeling for speaker recognition on a Romanian large speech corpora
KR100917419B1 (ko) 화자 인식 시스템
Ahmad et al. Client-wise cohort set selection by combining speaker-and phoneme-specific I-vectors for speaker verification
MXPA97009615A (en) High verification system
Fakotakis et al. High performance text-independent speaker recognition system based on voiced/unvoiced segmentation and multiple neural nets.
Morris et al. Discriminative Feature Projection for Noise Robust Speaker Identification
Suh et al. Filling acoustic holes through leveraged uncorellated GMMs for in-set/out-of-set speaker recognition.
Jianping et al. Speaker Recognition Using Radial Basis Function Neural Networks
HK1016727A (en) Speaker verification system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060228

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060530

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060714

A313 Final decision of rejection without a dissenting response from the applicant

Free format text: JAPANESE INTERMEDIATE CODE: A313

Effective date: 20061016

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061121