JPH10247092A

JPH10247092A - 話者認識方法及び装置

Info

Publication number: JPH10247092A
Application number: JP9048683A
Authority: JP
Inventors: Toshiaki Uchibe; 利明内部; Shingo Kuroiwa; 眞吾黒岩; Seiichi Yamamoto; 誠一山本
Original assignee: Kokusai Denshin Denwa KK
Current assignee: KDDI Corp
Priority date: 1997-03-04
Filing date: 1997-03-04
Publication date: 1998-09-14

Abstract

(57)【要約】【課題】ユークリッド距離と同等以上の認識性能が可
能な新たな話者類似尺度を導入して話者認識を行うこ
と。【解決手段】話者類似度計算部１７にて、音声を表現
する２つの特徴ベクトルがなす角（交角）を話者類似尺
度として用い、比較対象のテンプレート１６Ａと認識デ
ータ１２Ｂの音響ベクトル列との話者類似度を計算し、
話者認識部１９にて話者認識結果１９Ａを得る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声を用いた話者認
識方法及び装置に関するものである。

【０００２】

【従来の技術】従来の話者認識装置の一例を図４に示
す。図４において、音響分析部１１により音声信号の音
響分析を行い、音声を表現する特徴ベクトルとして、例
えばケプストラム係数等をパラメータとする音響ベクト
ル列１２を出力する。

【０００３】話者認識を行うために、予め必要な話者の
登録を行う登録過程と、実際の話者の認識を行う認識過
程があり、これら過程の切替をスイッチ１３により行
う。

【０００４】話者認識には、話者照合と話者識別の両方
が含まれる。話者照合とは、実際の話者が登録された話
者の中から申告した本人であるか他人であるかを判定す
ることであり、話者識別とは、実際の話者が登録された
話者のうちのどの話者であるかあるいは未登録者である
かを判定することである。

【０００５】登録過程の場合は、音響ベクトル列１２は
登録データ１２Ａとして、スイッチ１３により、テンプ
レート作成部１４及び閾値計算部１５へ送られると共
に、共分散行列計算部４０へ送られる。

【０００６】テンプレート作成部１４は登録データ１２
Ａから、音響ベクトル列のパラメータ値を用いて、登録
話者毎のテンプレートを作成する。閾値計算部１５は登
録データ１２Ａの音響ベクトル列から、話者照合のため
の大小判定や話者識別のための未登録者の排除を目的と
した閾値の設定を登録話者毎に行う。共分散行列計算部
４０は登録データ１２Ａから、音響ベクトル列の各パラ
メータ成分の変動性を考慮する補正ために共分散行列計
算を登録話者毎に行う。

【０００７】話者毎のテンプレートのこれらパラメータ
値、閾値及び共分散行列は音声特徴情報蓄積部４１へ送
られて、全登録話者のテンプレート（以下、話者テンプ
レートという）として蓄積される。

【０００８】認識過程の場合は、音響ベクトル列１２は
認識データ１２Ｂとして、スイッチ１３により、話者類
似度計算部４２へ送られる。また、スイッチ１８によ
り、音声特徴情報蓄積部４１に蓄積されている話者テン
プレートの中から、比較対象となるテンプレート４１Ａ
が選択される。この際、選択されたテンプレート４１Ａ
のパラメータ値、閾値及び共分散行列が話者類似度計算
部４２へ送られる。

【０００９】話者類似度計算部４２は通常、話者類似尺
度としてユークリッド距離あるいは各パラメータの重み
付き距離を用い、選択したテンプレート４１Ａと認識デ
ータ１２Ａの音響ベクトル列との間で、話者類似尺度に
対応した話者類似度を計算する。

【００１０】計算された話者類似度は話者認識部４３へ
送られ、ここで発声単位毎の話者類似度（以下、累積類
似度）を計算して話者認識が行われ、話者認識結果４３
Ａが出力される。

【００１１】話者識別の場合は、スイッチ１８は音声特
徴情報蓄積部４１中の全登録話者のテンプレート（丸を
付したＡ、Ｂ、Ｃ・・・）を比較対象として順次選択
し、話者類似度計算部４２へ送る。話者類似度計算部４
２は、選択されたテンプレート毎に順次、テンプレート
４１Ａのパラメータ値と認識データ１２Ｂの音響ベクト
ル列との間で話者類似度を計算する。話者認識部４３
は、全登録話者のテンプレートに対する各累積類似度の
うち、対応する閾値以上で且つ最大のものに対応する登
録話者が実際の話者であると判定し、最大のものが閾値
未満の場合は未登録者であると判定し、これらを話者認
識結果４３Ａとして出力する。

【００１２】話者照合の場合は、スイッチ１８は音声特
徴情報蓄積部４１中の全登録話者のテンプレートのうち
１つを比較対象として選択し、話者類似度計算部４２へ
送る。話者類似度計算部４２は、選択されたテンプレー
ト４１Ａのパラメータ値と認識データ１２Ｂの音響ベク
トル列との間で話者類似度を計算する。話者認識部４３
は、累積類似度が比較対象のテンプレート４１Ａの閾値
以上の場合は実際の話者が登録話者の中から申告した話
者本人であり、閾値未満の場合は本人でないと判定し、
これを話者認識結果４３Ａとして出力する。

【００１３】

【発明が解決しようとする課題】上述の如く従来は、話
者類似尺度としてケプストラム距離尺度などユークリッ
ド距離が用いられてきた。しかし、認識性能の改善を達
成するには、距離尺度に代わる新たな話者類似尺度の導
入、或いは、複数種類の話者類似尺度を使用する新たな
話者認識手法の開発が望まれる。

【００１４】そこで本発明の課題は、新たな話者類似尺
度を導入した話者認識方法及び装置、並びに、複数種類
の話者類似尺度を使用する話者認識方法及び装置を提供
することである。

【００１５】

【課題を解決するための手段】請求項１の発明は、新た
な話者類似尺度を導入した話者認識方法であり、予め登
録された話者の音声を表現する特徴ベクトルと認識時の
話者の音声を表現する特徴ベクトルから、音声を表現す
る２つの特徴ベクトル間の話者類似尺度を用いて話者類
似度を計算し、その値から話者認識を行う際に、話者類
似尺度として、音声を表現する２つの特徴ベクトルがな
す角（以下、交角という）を用いることを特徴とするも
のである。

【００１６】請求項２〜６の各発明は、複数種類の話者
類似尺度を使用する話者認識方法であり、（１）請求項
２の発明に係る話者認識方法では、話者類似尺度とし
て、音声を表現する２つの特徴ベクトル間の複数種類の
話者類似尺度を組み合わせて用いることを特徴とし、
（２）請求項３の発明に係る話者認識方法では、話者類
似尺度として、音声を表現する２つの特徴ベクトル間の
予め定めた複数種類の話者類似尺度のうち、１つを選択
し切り替えて用いることを特徴とし、（３）請求項４の
発明に係る話者認識方法では、話者類似尺度として、音
声を表現する２つの特徴ベクトル間の予め定めた複数種
類の話者類似尺度のうち、少なくとも２つを選択し、各
々の話者類似尺度で話者類似度を計算し、各々の話者類
似度の積和演算値を計算し、その値から話者認識を行う
ことを特徴とし、（４）請求項５の発明に係る話者認識
方法では、話者類似尺度として、音声を表現する２つの
特徴ベクトル間の予め定めた複数種類の話者類似尺度の
うち、少なくとも２つを選択し、各々の話者類似尺度で
話者類似度を計算し、各々の話者類似度から話者類似尺
度毎の話者認識結果を求め、各々の話者認識結果の論理
和あるいは論理積等の論理演算値を計算し、最終的な話
者認識を行うことを特徴とし、（５）請求項６の発明に
係る話者認識方法では、前記複数種類の話者類似尺度
に、交角を含むことを特徴とする。

【００１７】請求項７の発明は、新たな話者類似尺度を
導入した話者認識装置であり、予め登録された話者の音
声を表現する特徴ベクトルと認識時の話者の音声を表現
する特徴ベクトルから、音声を表現する２つの特徴ベク
トル間の話者類似尺度を用いて話者類似度を計算し、そ
の値から話者認識を行い話者認識結果を出力する話者認
識装置において、交角を前記話者類似尺度として、話者
類似度を計算する話者類似度計算部を有することを特徴
とするものである。この話者類似度計算部としては、例
えば、音声を表現する２つの特徴ベクトルの内積を計算
する内積計算部と、同２つの特徴ベクトルのノルムを計
算するノルム計算部と、前記２つの特徴ベクトルの内積
を両特徴ベクトルのノルムで除算する除算部と、除算結
果を逆余弦値に変換する逆余弦変換部から構成され得
る。

【００１８】請求項８〜１０の各発明は、複数種類の話
者類似尺度を使用する話者認識装置であり、（１）請求
項８の発明に係る話者認識装置は、音声を表現する２つ
の特徴ベクトル間の予め定めた複数種類の話者類似尺度
のうち少なくとも１つを選択し、話者類似尺度毎の話者
類似度を計算する話者類似度計算部と、この話者類似度
計算部の計算結果から話者類似度毎の積和演算値を計算
し、この計算結果から話者認識を行う積和演算部とを有
することを特徴とし、（２）請求項９の発明に係る話者
認識装置は、音声を表現する２つの特徴ベクトル間の予
め定めた複数種類の話者類似尺度のうち少なくとも１つ
を選択し、話者類似尺度毎の話者類似度を計算する話者
類似度計算部と、この話者類似度計算部の計算結果から
話者類似尺度毎の話者認識を行う個別話者認識部と、こ
の個別話者認識部の話者認識結果の論理和あるいは論理
積等の論理演算値を計算し、最終的な話者認識を行う論
理演算部とを有することを特徴とし、（３）請求項１０
の発明に係る話者認識装置は、前記複数種類の話者類似
尺度に、交角を含むことを特徴とする。

【００１９】ここで、（１）請求項８又は９の発明にお
いて、予め定めた複数種類の話者類似尺度の全てを選択
する場合は、音声を表現する２つの特徴ベクトル間の複
数種類の話者類似尺度毎に話者類似度を計算する話者類
似度計算部と、この話者類似度計算部の各計算結果から
話者認識を行う話者認識部とを有することを特徴とする
話者認識装置が得られ、（２）請求項８又は９の発明に
おいて、予め定めた複数種類の話者類似尺度の１つを選
択する場合は、音声を表現する２つの特徴ベクトル間の
予め定めた複数種類の話者類似尺度のうち１つを選択し
切り替えて、話者類似尺度毎の話者類似度を計算する話
者類似度計算部と、この話者類似度計算部の計算結果か
ら話者認識を行う話者認識部とを有することを特徴とす
る話者認識装置が得られ、（３）請求項８と９の両発明
を組み合わせ、予め定めた複数種類の話者類似尺度の少
なくとも２つを選択し、両発明の認識結果を選択的に出
力する場合は、音声を表現する２つの特徴ベクトル間の
予め定めた複数種類の話者類似尺度のうち少なくとも２
つを選択し、話者類似尺度毎の話者類似度を計算する話
者類似度計算部と、この話者類似度計算部の各計算結果
から各々の話者類似度の積和演算値を計算し、この計算
結果から話者認識を行う積和演算部と、前記話者類似度
計算部の各計算結果から話者類似尺度毎の話者認識を行
う個別話者認識部と、この個別話者認識部の各々の話者
認識結果の論理和あるいは論理積等の論理演算値を計算
し、話者認識を行う論理演算部と、この論理演算部の話
者認識結果及び前記積和演算部の話者認識結果を選択的
に切り替えて出力する出力切替部とを有することを特徴
とする話者認識装置が得られる。

【００２０】

【発明の実施の形態】以下、本発明の実施の形態を説明
する。

【００２１】音声を表現する２つの特徴ベクトルがなす
角即ち交角をθとし、例えば０≦θ≦πとすると、θが
０に近く小さいほど、音声を表現する２つの特徴ベクト
ル間の話者類似度は大きく、交角がπに近く大きいほ
ど、話者類似度は小さい。従って、交角を話者類似尺度
として用いることが可能である。そこで、交角について
説明する。

【００２２】まず、、２つの特徴ベクトルをＸ＝
（ｘ₁，ｘ₂，…，ｘ_N）、Ｙ＝（ｙ₁，ｙ₂，…，ｙ
_N）というＮ次元ベクトルで表現すると、２つの特徴ベ
クトル間の内積（Ｘ，Ｙ）は数１のように定義される。

【００２３】

【数１】（Ｘ，Ｙ）＝｜Ｘ｜｜Ｙ｜ｃｏｓθ （０≦θ≦π） …数１ここで、θは２つの特徴ベクトルの交角を表し、｜Ｘ｜
と｜Ｙ｜は各特徴ベクトルＸ、Ｙのノルムを表す。

【００２４】数１より、交角θは数２で表すことができ
る。

【００２５】

【数２】 θ＝ｃｏｓ^-1｛（Ｘ，Ｙ）／｜Ｘ｜｜Ｙ｜｝ …数２

【００２６】また、２つの特徴ベクトルＸ、Ｙの各次元
は互いに直交していると考えられるので、数３の内積の
公式と、数４及び数５のノルムの公式が成立する。な
お、Σは添字ｎを１からＮに変えた場合の（）内の値ｘ
_nｙ_n、ｘ_n ²、ｙ_n ²の各総和を表す。

【００２７】

【数３】（Ｘ，Ｙ）＝Σ（ｘ_nｙ_n）（ｎ＝１〜Ｎ） …数３

【数４】｜Ｘ｜＝｛Σ（ｘ_n ²）｝^-2 （ｎ＝１〜Ｎ） …数４

【数５】｜Ｙ｜＝｛Σ（ｙ_n ²）｝^-2 （ｎ＝１〜Ｎ） …数５

【００２８】従って、数３〜数５で求まる２つの特徴ベ
クトルの内積（Ｘ，Ｙ）と、各特徴ベクトルのノルム｜
Ｘ｜、｜Ｙ｜を計算して、数２より交角θを簡単に算出
できから、交角という簡便な話者類似尺度を用いること
ができる。

【００２９】交角を話者類似尺度として単独に用いても
よいが、更に、従来のユークリッド距離等の任意の距離
尺度と組み合わせることにより、認識性能の向上が可能
である。勿論、交角を含むか否かにかかわらず、任意の
複数種類の話者類似尺度を予め用意し、状況に応じて、
任意の１つを適宜選択して用いたり、或いは、任意の２
つ以上の話者類似尺度を適宜選択して組み合わせること
により、きめ細かい話者認識を行う等、認識性能の向上
が可能である。２つ以上の話者類似尺度を組み合わせる
手法としては、各々の話者類似尺度で計算される話者類
似度を重み付けして総和をとる積和演算手法や、各々の
話者類似尺度で計算される話者類似度より出力される各
話者認識結果の論理演算を行う手法等が効果的である。

【００３０】次に、図面を参照して、本発明の実施の形
態を説明する。図１は発明の実施の形態例に係る話者認
識装置の構成を示し、図２は交角を話者類似尺度とした
場合の話者類似度計算部の構成例を示し、図３は複数種
類の話者類似尺度を予め用意して用いる場合の話者類似
度計算部及び話者認識部の構成例を示す。

【００３１】図１において、本発明の実施の形態例に係
る話者認識装置は、音響分析部１１と、過程切替用スイ
ッチ１３と、テンプレート作成部１４と、閾値計算部１
５と、音声特徴情報蓄積部１６と、話者類似度計算部１
７と、テンプレート選択切替用スイッチ１８と、話者認
識部１９から構成される。各部は主としてコンピュータ
とそのプログラムにより実現される。なお、この例で
は、共分散行列の計算はしないものとしている。

【００３２】図１において、音響分析部１１は音声信号
の音響分析を行い、音声を表現する特徴ベクトルとし
て、従来同様、例えばケプストラム係数等をパラメータ
とする音響ベクトル列１２を出力する。話者認識を行う
ための話者の登録過程と、実際の話者に対する認識過程
を、スイッチ１３で切り替える。

【００３３】登録過程の場合は、スイッチ１３は音響ベ
クトル列１２を登録データ１２Ａとして、テンプレート
作成部１４及び閾値計算部１５へ送る。テンプレート作
成部１４は登録データ１２Ａから、音響ベクトル列のパ
ラメータ値を用いて、登録話者毎のテンプレートを作成
する。閾値計算部１５は登録データ１２Ａの音響ベクト
ル列から、話者照合のための大小判定や話者識別のため
の未登録者の排除を目的とした閾値の設定を登録話者毎
に行う。

【００３４】閾値計算には、例えばＤＴＷ（Dynamic Ti
me-Warping：動的計画法パターンマッチング）法等を使
用することができる。

【００３５】テンプレート作成部１４及び閾値計算部１
５は話者毎のテンプレートのパラメータ値及び閾値を音
声特徴情報蓄積部１６へ送り、音声特徴情報蓄積部１６
はこれらを話者テンプレート（全登録話者のテンプレー
ト）として蓄積する。

【００３６】認識過程の場合は、スイッチ１３は音響ベ
クトル列１２を認識データ１２Ｂとして、話者類似度計
算部１７へ送る。また、音声特徴情報蓄積部１６に蓄積
されている話者テンプレートの中から、スイッチ１８が
比較対象となるテンプレート１６Ａを選択し、選択した
テンプレート１６Ａのパラメータ値及び閾値を話者類似
度計算部１７へ送る。

【００３７】次に、話者類似度計算部１７と話者認識部
１９を、交角のみを話者類似尺度に用いる場合（図２）
と、複数種類の話者類似尺度を用いる場合（図３）とに
分けて、説明する。

【００３８】［交角のみを話者類似尺度に用いる場合］
交角のみを話者類似尺度に用いる場合、話者類似度計算
部１７は前出の数２により交角θを算出するため、図２
に例示するように、内積計算部２０と、ノルム計算部２
１と、除算部２２と、逆余弦変換部２３から構成され
る。

【００３９】内積計算部２０は前出の数３により、テン
プレート１６Ａのパラメータ値（特徴ベクトル）と認識
データ１２Ｂの音響ベクトル列との内積（Ｘ，Ｙ）を計
算し、除算部２２へ送る。ノルム計算部２１は前出の数
４及び数５により、テンプレート１６Ａのパラメータ値
（特徴ベクトル）のノルム｜Ｘ｜と、認識データ１２Ｂ
の音響ベクトル列のノルム｜Ｙ｜とを計算し、除算部２
２へ送る。除算部２２はベクトルの内積と、各ベクトル
列のノルムとを用いて、数２右辺の｛｝内を計算し、そ
の除算結果（（Ｘ，Ｙ）／｜Ｘ｜｜Ｙ｜）を逆余弦変換
部２３へ送る。逆余弦変換部２３はこの除算結果を逆余
弦変換（ｃｏｓ^-1）する。以上により、テンプレート１
６Ａのパラメータ値（特徴ベクトル）と認識データ１２
Ｂの音響ベクトル列（特徴ベクトル）の間の交角θが計
算される。

【００４０】計算された交角θは話者認識部１９へ送ら
れる。交角θは時々刻々の話者類似度であるから、話者
認識部１９は前述のＤＴＷ（Dynamic Time-Warping) 法
や、ベクトル量子化（ＶＱ）法等により交角θを発声単
位毎に累積して発声単位毎の話者類似度即ち累積類似度
を求め、この累積類似度を用いて話者認識を行い、話者
認識結果１９Ａを出力する。

【００４１】話者識別の場合は、スイッチ１８は音声特
徴情報蓄積部１６中の全登録話者のテンプレート（丸を
付したＡ、Ｂ、Ｃ・・・）を比較対象として順次選択
し、話者類似度計算部１７へ送る。話者類似度計算部１
７は、選択されたテンプレート毎に順次、テンプレート
１６Ａのパラメータ値と認識データ１２Ｂの音響ベクト
ル列との間で交角を計算する。話者認識部１９は全登録
話者のテンプレートに対する各累積類似度のうち、対応
する閾値以上で且つ最大のものに対応する登録話者が実
際の話者であると判定し、最大のものがその閾値未満の
場合は未登録者であると判定し、これをを話者認識結果
１９Ａとして出力する。

【００４２】話者照合の場合は、スイッチ１８は音声特
徴情報蓄積部１６中の全登録話者のテンプレート（丸を
付したＡ、Ｂ、Ｃ・・・）のうち１つを比較対象として
選択し、話者類似度計算部１７へ送る。話者類似度計算
部１７は、選択されたテンプレート１６Ａのパラメータ
値と認識データ１２Ｂの音響ベクトル列との間で交角を
計算する。話者認識部１９は、累積類似度が比較対象の
テンプレート１６Ａの閾値以上の場合は実際の話者が登
録話者本人であり、閾値未満の場合は登録話者本人でな
い（他人）であると判定し、これらを話者認識結果１９
Ａとして出力する。

【００４３】［複数種類の話者類似尺度を用いる場合］
複数種類の話者類似尺度を用いる場合は、話者類似度計
算部１７は図３に例示するように、話者類似尺度が互い
に異なる複数Ｎ（Ｎ≧２）個の話者類似度計算部１〜Ｎ
からなる。これらの内、一例を挙げると、或る話者類似
度計算部１は図２に示した構成であり交角を話者類似尺
度にして、選択されたテンプレート１６Ａと認識データ
１２Ｂの音響ベクトル列との間で話者類似度を計算す
る。別の或る話者類似度計算部２はユークリッド距離を
話者類似尺度にして、選択されたテンプレート１６Ａと
認識データ１２Ｂの音響ベクトル列との間で話者類似度
を計算する。

【００４４】図３の話者類似度計算部１７は、Ｎ種類の
話者類似尺度１〜Ｎのうち、指令２４により、任意の１
個の話者類似尺度を選択して切り替えたり、任意の２個
以上の話者類似尺度を選択して切り替えりたり、更に
は、Ｎ個全ての話者類似尺度を選択するという各種設定
が可能に構成してある。従って、話者認識の環境等、状
況に応じて適切な内容の指令２４を与えることにより、
話者類似度計算部１７は自動的に、指令された１または
２以上または全ての話者類似尺度に、選択されたテンプ
レート１６Ａと認識データ１２Ｂの音響ベクトル列との
間で話者類似度を計算し、その結果を話者認識部１９へ
出力する。

【００４５】一方、話者認識部１９は、図３の話者類似
度計算部１７に対応して、同図３に例示するように累積
類似度計算部３０と、積和演算部３１と、個別話者認識
部３２と、論理演算部３３から構成してある。更に、出
力切替用スイッチ３４を設けて、積和演算部３１の話者
認識結果３１Ａと、論理演算部３３の話者認識結果３３
Ａを選択し、最終的な話者認識結果１９Ａを出力できる
ようにしてある。

【００４６】累積類似度計算部３０は、話者類似度計算
部１７から送られる話者類似尺度毎の話者類似度に対し
て、発声単位毎の累積類似度を計算し、積和演算部３１
と、個別話者認識部３２に送る。累積類似度計算方法と
しては、前述のＤＴＷ（Dynamic Time-Warping) 法や、
ベクトル量子化（ＶＱ）法等が挙げられる。

【００４７】積和演算部３１は、話者類似度計算部１７
が計算した各々の話者類似尺度毎の累積類似度に或る所
定の重みを乗じた後の総和（積和演算値）を計算し、そ
の値により話者識別あるいは話者照合を行って、話者認
識結果３１Ａを出力する。

【００４８】積和演算部３１における話者識別では、全
登録話者のテンプレートに対する各積和演算値のうち、
対応する閾値以上で且つ最大のものに対応する登録話者
が実際の話者であると判定し、最大のものがそれの閾値
未満の場合は実際の話者が未登録者であると判定し、こ
れを話者認識結果３１Ａとして出力する。

【００４９】積和演算部３１における話者照合では、積
和演算値が比較対象のテンプレート１６Ａの閾値以上の
場合は実際の話者が登録話者本人であり、閾値未満の場
合は登録話者本人でない（他人）であると判定し、これ
を話者認識結果３１Ａとして出力する。

【００５０】一方、個別話者認識部３２は、話者類似度
計算部１７が計算した各々の話者類似尺度毎の話者類似
度により、話者類似尺度毎に話者識別あるいは話者照合
を行い、話者認識結果３２Ａを出力する。

【００５１】個別話者認識部３２における話者識別で
は、話者類似尺度毎に、全登録話者のテンプレートに対
する累積類似度のうち、対応する閾値以上で且つ最大の
ものに対応する登録話者が実際の話者であると判定し、
最大のものがその閾値未満の場合は実際の話者が未登録
者であると判定し、これを話者認識結果３２Ａとして出
力する。

【００５２】個別話者認識部３２における話者照合で
は、話者類似尺度毎に、累積類似度が比較対象のテンプ
レート１６Ａの閾値以上の場合は実際の話者が登録話者
本人であり、閾値未満の場合は登録話者本人でない（他
人）であると判定し、これを話者認識結果３２Ａとして
出力する。

【００５３】論理演算部３３は、各々の話者類似尺度で
計算した累積類似度より個別話者認識部３２から出力さ
れる各々の話者類似尺度毎の話者認識結果３２Ａに対
し、論理和、論理積、多数決等の論理演算を行い、新た
な話者認識結果３３Ａを出力する。

【００５４】論理演算部３３は、話者類似尺度毎の話者
認識結果３２Ａの全てに対して必ずしも同一の論理演算
を行う必要はなく、指令３５により、論理和、論理積、
多数決等の任意の論理演算のうち、どの話者類似尺度毎
の話者認識結果３２Ａに対しどの論理演算を行うかを自
由に設定できるように構成してある。従って、話者認識
の環境等、状況に応じて適切な内容の指令３５を与える
ことにより、論理演算部３３は自動的に指令された論理
演算を行う。

【００５５】スイッチ３４は、上述した積和演算部３１
の話者認識結果３１Ａと、論理演算部３３の話者認識結
果３３Ａのうち、一方を選択的に切り替え、最終的な話
者認識結果１９Ａとして出力する。この切替は指令３６
により設定可能としてある。従って、話者認識の環境
等、状況に応じて適切な内容の指令３６を与えることに
より、スイッチ３４は自動的に適切な話者認識結果１９
Ａを出力する。

【００５６】［実施例］認識性能の比較として、各話者
類似尺度を用いた場合のＤＴＷ法のアルゴリズムを用い
たテキスト依存型話者照合の実験を、２ヵ月、４ヵ月、
６ヵ月、８ヵ月、１０ヵ月と時期を変えて行った。その
実験結果を、表１と表２に示す。

【００５７】ここで、テキスト依存性を比較するため、
表１では詐称者が本人の登録時の発声と同一内容を発声
する場合の認識誤り率（パーセント）を示し、表２では
詐称者が本人の登録時の発声とは異なる内容を発声する
場合の認識誤り率（パーセント）を示す。この認識誤り
率とは、本人が棄却される率と他人が受理される率とが
等しくなるしきい値を事後的に設定した場合の、本人棄
却率あるいは他人の受理率のことである。

【００５８】また、表１及び表２いずれの場合も、１段
目は話者類似尺度としてユークリッド距離のみを用い、
２段目は話者類似尺度として交角のみを用い、３段目は
話者類似尺度としてユークリッド距離と交角を組み合わ
せて、それぞれ話者認識の実験を行った結果を示す。

【００５９】

【表１】

【００６０】

【表２】

【００６１】表１、表２から、交角を話者類似尺度に用
いることにより、単独でも、ユークリッド距離と組み合
わせても、ユークリッド距離のみを用いる場合よりも認
識性能が向上していることが判る。

【００６２】表１、表２から、このように交角単独でも
ユークリッド距離と組み合わせても、ユークリッド距離
のみを用いる場合よりも認識性能が向上しているため、
交角を話者類似尺度に用いることの有用性が良く判る。

【００６３】図３に例示した話者類似度計算部１７では
複数種類の話者類似尺度に交角を含む（話者類似度計算
部１参照）が、複数種類の話者類似尺度中に交角を含ま
ずに、複数種類の話者類似尺度１〜Ｎを全て組み合わせ
て話者認識を行ったり、あるいは、予め用意した複数種
類の話者類似尺度のうち任意の１つを状況に応じて選択
し切り替えて話者認識を行ったり、あるいは、予め用意
した複数種類の話者類似尺度のうち任意の２つ以上を状
況に応じて選択し組み合わせを切り替えて話者認識を行
うようにしても良い。

【００６４】また、図３に示した話者認識部１９のうち
個別話者認識部３２及び論理演算部３３を省くと共に、
スイッチ３４も省き、累積類似度計算部３０と積和演算
部３１で話者認識部を構成して積和演算部３１の話者認
識結果３１Ａを常に話者認識結果１９Ａとして出力する
ようにしても良い。この場合、図３に示した話者類似度
計算部１７が常に１つの話者類似尺度を選択して切り替
えるものであるならば、単に１つの話者類似尺度で計算
した話者類似度から話者認識が行えるので、積和演算を
省くことも可能になる。

【００６５】逆に、図３に示した話者認識部１９のうち
積和演算部３１を省くと共に、スイッチ３４も省き、累
積類似度計算部３０と個別話者認識部３２と論理演算部
３３で話者認識部を構成して論理演算部３３の話者認識
結果３３Ａを常に話者認識結果１９Ａとして出力するよ
うにしても良い。また、図３に示した話者類似度計算部
１７が常に１つの話者類似尺度を選択して切り替えるも
のであるならば、この場合は、個別話者認識部３２は単
に１つの話者類似尺度で計算した話者類似度から話者認
識を行うだけの構成でも良く、論理演算部３３の省略も
可能になる。

【００６６】

【発明の効果】以上より、本発明によれば、話者類似尺
度として従来用いられてきたユークリッド距離や、重み
付き距離等の統計的手法を用いることなく、交角という
簡便な話者類似尺度を用いて話者認識を行うことができ
る。また、交角を含むか否かにかかわらず、複数種類の
話者類似尺度を組み合わせて話者認識を行うことによ
り、あるいは、予め用意した複数種類の話者類似尺度の
うち任意の１つを用いて話者認識を行うことにより、あ
るいは、予め用意した複数種類の話者類似尺度のうち任
意の２つ以上を組み合わせて話者認識を行うことによ
り、状況に応じて高性能な話者認識が可能である。

【図面の簡単な説明】

【図１】本発明の実施の形態例に係る話者認識装置の構
成を示す図。

【図２】図１中の話者類似度計算部１７の一例として、
交角のみを話者類似尺度に用いる場合の構成例を示す
図。

【図３】複数種類の話者類似尺度を用いる場合の図１中
の話者類似度計算部１７及び話者認識部１９の構成例を
示す図。

【図４】話者認識装置の従来例の構成を示す図。

【符号の説明】

１〜Ｎ互いに話者類似尺度が異なる話者類似度計算部１交角を話者類似尺度に用いた話者類似度計算部２ユークリッド距離を話者類似尺度に用いた話者類似
度計算部１１音響分析部１２音響ベクトル列１２Ａ登録データ１２Ｂ認識データ１３登録過程と認識過程の切替用スイッチ１４テンプレート作成部１５閾値計算部１６音声特徴情報蓄積部１６Ａテンプレート１７話者類似度計算部１８テンプレート選択切替用スイッチ１９話者認識部１９Ａ話者認識結果２０内積計算部２１ノルム計算部２２除算部２３逆余弦変換部３０累積類似度計算部３１積和演算部３１Ａ積和演算部の話者認識結果３２個別話者認識部３２Ａ個別話者認識部の話者認識結果３３論理演算部３３Ａ論理演算部の話者認識結果３４話者認識結果選択用スイッチ

Claims

【特許請求の範囲】

【請求項１】予め登録された話者の音声を表現する特
徴ベクトルと認識時の話者の音声を表現する特徴ベクト
ルから、音声を表現する２つの特徴ベクトル間の話者類
似尺度を用いて話者類似度を計算し、その値から話者認
識を行う話者認識方法において、前記話者類似尺度として、音声を表現する２つの特徴ベ
クトルがなす角を用いることを特徴とする話者認識方
法。
【請求項２】予め登録された話者の音声を表現する特
徴ベクトルと認識時の話者の音声を表現する特徴ベクト
ルから、音声を表現する２つの特徴ベクトル間の話者類
似尺度を用いて話者類似度を計算し、その値から話者認
識を行う話者認識方法において、前記話者類似尺度として、音声を表現する２つの特徴ベ
クトル間の複数種類の話者類似尺度を組み合わせて用い
ることを特徴とする話者認識方法。
【請求項３】予め登録された話者の音声を表現する特
徴ベクトルと認識時の話者の音声を表現する特徴ベクト
ルから、２つの音声を表現する特徴ベクトル間の話者類
似尺度を用いて話者類似度を計算し、その値から話者認
識を行う話者認識方法において、前記話者類似尺度として、音声を表現する２つの特徴ベ
クトル間の予め定めた複数種類の話者類似尺度のうち、
１つを選択し切り替えて用いることを特徴とする話者認
識方法。
【請求項４】予め登録された話者の音声を表現する特
徴ベクトルと認識時の話者の音声を表現する特徴ベクト
ルから、２つの音声を表現する特徴ベクトル間の話者類
似尺度を用いて話者類似度を計算し、その値から話者認
識を行う話者認識方法において、前記話者類似尺度として、音声を表現する２つの特徴ベ
クトル間の予め定めた複数種類の話者類似尺度のうち、
少なくとも２つを選択し、各々の話者類似尺度で話者類
似度を計算し、各々の話者類似度の積和演算値を計算
し、その値から話者認識を行うことを特徴とする話者認
識方法。
【請求項５】予め登録された話者の音声を表現する特
徴ベクトルと認識時の話者の音声を表現する特徴ベクト
ルから、２つの音声を表現する特徴ベクトル間の話者類
似尺度を用いて話者類似度を計算し、その値から話者認
識を行う話者認識方法において、前記話者類似尺度として、音声を表現する２つの特徴ベ
クトル間の予め定めた複数種類の話者類似尺度のうち、
少なくとも２つを選択し、各々の話者類似尺度で話者類
似度を計算し、各々の話者類似度から話者類似尺度毎の
話者認識結果を求め、各々の話者認識結果の論理和ある
いは論理積等の論理演算値を計算し、最終的な話者認識
を行うことを特徴とする話者認識方法。
【請求項６】前記複数種類の話者類似尺度に、音声を
表現する２つの特徴ベクトルがなす角を含むことを特徴
とする請求項２から５いずれか記載の話者認識方法。
【請求項７】予め登録された話者の音声を表現する特
徴ベクトルと認識時の話者の音声を表現する特徴ベクト
ルから、音声を表現する２つの特徴ベクトル間の話者類
似尺度を用いて話者類似度を計算し、その値から話者認
識を行い話者認識結果を出力する話者認識装置におい
て、音声を表現する２つの特徴ベクトルがなす角を前記話者
類似尺度として、話者類似度を計算する話者類似度計算
部を有することを特徴とする話者認識装置。
【請求項８】予め登録された話者の音声を表現する特
徴ベクトルと認識時の話者の音声を表現する特徴ベクト
ルから、２つの音声を表現する特徴ベクトル間の話者類
似尺度を用いて話者類似度を計算し、その値から話者認
識を行い話者認識結果を出力する話者認識装置におい
て、音声を表現する２つの特徴ベクトル間の予め定めた複数
種類の話者類似尺度のうち少なくとも１つを選択し、話
者類似尺度毎の話者類似度を計算する話者類似度計算部
と、この話者類似度計算部の計算結果から話者類似度毎
の積和演算値を計算し、この計算結果から話者認識を行
う積和演算部とを有することを特徴とする話者認識装
置。
【請求項９】予め登録された話者の音声を表現する特
徴ベクトルと認識時の話者の音声を表現する特徴ベクト
ルから、２つの音声を表現する特徴ベクトル間の話者類
似尺度を用いて話者類似度を計算し、その値から話者認
識を行い話者認識結果を出力する話者認識装置におい
て、音声を表現する２つの特徴ベクトル間の予め定めた複数
種類の話者類似尺度のうち少なくとも１つを選択し、話
者類似尺度毎の話者類似度を計算する話者類似度計算部
と、この話者類似度計算部の計算結果から話者類似尺度
毎の話者認識を行う個別話者認識部と、この個別話者認
識部の話者認識結果の論理和あるいは論理積等の論理演
算値を計算し、最終的な話者認識を行う論理演算部とを
有することを特徴とする話者認識装置。
【請求項１０】前記複数種類の話者類似尺度に、音声
を表現する２つの特徴ベクトルがなす角を含むことを特
徴とする請求項８または９に記載の話者認識装置。