JPH10247092A - 話者認識方法及び装置 - Google Patents

話者認識方法及び装置

Info

Publication number
JPH10247092A
JPH10247092A JP9048683A JP4868397A JPH10247092A JP H10247092 A JPH10247092 A JP H10247092A JP 9048683 A JP9048683 A JP 9048683A JP 4868397 A JP4868397 A JP 4868397A JP H10247092 A JPH10247092 A JP H10247092A
Authority
JP
Japan
Prior art keywords
speaker
similarity
recognition
speech
feature vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9048683A
Other languages
English (en)
Inventor
Toshiaki Uchibe
利明 内部
Shingo Kuroiwa
眞吾 黒岩
Seiichi Yamamoto
誠一 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
Kokusai Denshin Denwa KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kokusai Denshin Denwa KK filed Critical Kokusai Denshin Denwa KK
Priority to JP9048683A priority Critical patent/JPH10247092A/ja
Publication of JPH10247092A publication Critical patent/JPH10247092A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 ユークリッド距離と同等以上の認識性能が可
能な新たな話者類似尺度を導入して話者認識を行うこ
と。 【解決手段】 話者類似度計算部17にて、音声を表現
する2つの特徴ベクトルがなす角(交角)を話者類似尺
度として用い、比較対象のテンプレート16Aと認識デ
ータ12Bの音響ベクトル列との話者類似度を計算し、
話者認識部19にて話者認識結果19Aを得る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声を用いた話者認
識方法及び装置に関するものである。
【0002】
【従来の技術】従来の話者認識装置の一例を図4に示
す。図4において、音響分析部11により音声信号の音
響分析を行い、音声を表現する特徴ベクトルとして、例
えばケプストラム係数等をパラメータとする音響ベクト
ル列12を出力する。
【0003】話者認識を行うために、予め必要な話者の
登録を行う登録過程と、実際の話者の認識を行う認識過
程があり、これら過程の切替をスイッチ13により行
う。
【0004】話者認識には、話者照合と話者識別の両方
が含まれる。話者照合とは、実際の話者が登録された話
者の中から申告した本人であるか他人であるかを判定す
ることであり、話者識別とは、実際の話者が登録された
話者のうちのどの話者であるかあるいは未登録者である
かを判定することである。
【0005】登録過程の場合は、音響ベクトル列12は
登録データ12Aとして、スイッチ13により、テンプ
レート作成部14及び閾値計算部15へ送られると共
に、共分散行列計算部40へ送られる。
【0006】テンプレート作成部14は登録データ12
Aから、音響ベクトル列のパラメータ値を用いて、登録
話者毎のテンプレートを作成する。閾値計算部15は登
録データ12Aの音響ベクトル列から、話者照合のため
の大小判定や話者識別のための未登録者の排除を目的と
した閾値の設定を登録話者毎に行う。共分散行列計算部
40は登録データ12Aから、音響ベクトル列の各パラ
メータ成分の変動性を考慮する補正ために共分散行列計
算を登録話者毎に行う。
【0007】話者毎のテンプレートのこれらパラメータ
値、閾値及び共分散行列は音声特徴情報蓄積部41へ送
られて、全登録話者のテンプレート(以下、話者テンプ
レートという)として蓄積される。
【0008】認識過程の場合は、音響ベクトル列12は
認識データ12Bとして、スイッチ13により、話者類
似度計算部42へ送られる。また、スイッチ18によ
り、音声特徴情報蓄積部41に蓄積されている話者テン
プレートの中から、比較対象となるテンプレート41A
が選択される。この際、選択されたテンプレート41A
のパラメータ値、閾値及び共分散行列が話者類似度計算
部42へ送られる。
【0009】話者類似度計算部42は通常、話者類似尺
度としてユークリッド距離あるいは各パラメータの重み
付き距離を用い、選択したテンプレート41Aと認識デ
ータ12Aの音響ベクトル列との間で、話者類似尺度に
対応した話者類似度を計算する。
【0010】計算された話者類似度は話者認識部43へ
送られ、ここで発声単位毎の話者類似度(以下、累積類
似度)を計算して話者認識が行われ、話者認識結果43
Aが出力される。
【0011】話者識別の場合は、スイッチ18は音声特
徴情報蓄積部41中の全登録話者のテンプレート(丸を
付したA、B、C・・・)を比較対象として順次選択
し、話者類似度計算部42へ送る。話者類似度計算部4
2は、選択されたテンプレート毎に順次、テンプレート
41Aのパラメータ値と認識データ12Bの音響ベクト
ル列との間で話者類似度を計算する。話者認識部43
は、全登録話者のテンプレートに対する各累積類似度の
うち、対応する閾値以上で且つ最大のものに対応する登
録話者が実際の話者であると判定し、最大のものが閾値
未満の場合は未登録者であると判定し、これらを話者認
識結果43Aとして出力する。
【0012】話者照合の場合は、スイッチ18は音声特
徴情報蓄積部41中の全登録話者のテンプレートのうち
1つを比較対象として選択し、話者類似度計算部42へ
送る。話者類似度計算部42は、選択されたテンプレー
ト41Aのパラメータ値と認識データ12Bの音響ベク
トル列との間で話者類似度を計算する。話者認識部43
は、累積類似度が比較対象のテンプレート41Aの閾値
以上の場合は実際の話者が登録話者の中から申告した話
者本人であり、閾値未満の場合は本人でないと判定し、
これを話者認識結果43Aとして出力する。
【0013】
【発明が解決しようとする課題】上述の如く従来は、話
者類似尺度としてケプストラム距離尺度などユークリッ
ド距離が用いられてきた。しかし、認識性能の改善を達
成するには、距離尺度に代わる新たな話者類似尺度の導
入、或いは、複数種類の話者類似尺度を使用する新たな
話者認識手法の開発が望まれる。
【0014】そこで本発明の課題は、新たな話者類似尺
度を導入した話者認識方法及び装置、並びに、複数種類
の話者類似尺度を使用する話者認識方法及び装置を提供
することである。
【0015】
【課題を解決するための手段】請求項1の発明は、新た
な話者類似尺度を導入した話者認識方法であり、予め登
録された話者の音声を表現する特徴ベクトルと認識時の
話者の音声を表現する特徴ベクトルから、音声を表現す
る2つの特徴ベクトル間の話者類似尺度を用いて話者類
似度を計算し、その値から話者認識を行う際に、話者類
似尺度として、音声を表現する2つの特徴ベクトルがな
す角(以下、交角という)を用いることを特徴とするも
のである。
【0016】請求項2〜6の各発明は、複数種類の話者
類似尺度を使用する話者認識方法であり、(1)請求項
2の発明に係る話者認識方法では、話者類似尺度とし
て、音声を表現する2つの特徴ベクトル間の複数種類の
話者類似尺度を組み合わせて用いることを特徴とし、
(2)請求項3の発明に係る話者認識方法では、話者類
似尺度として、音声を表現する2つの特徴ベクトル間の
予め定めた複数種類の話者類似尺度のうち、1つを選択
し切り替えて用いることを特徴とし、(3)請求項4の
発明に係る話者認識方法では、話者類似尺度として、音
声を表現する2つの特徴ベクトル間の予め定めた複数種
類の話者類似尺度のうち、少なくとも2つを選択し、各
々の話者類似尺度で話者類似度を計算し、各々の話者類
似度の積和演算値を計算し、その値から話者認識を行う
ことを特徴とし、(4)請求項5の発明に係る話者認識
方法では、話者類似尺度として、音声を表現する2つの
特徴ベクトル間の予め定めた複数種類の話者類似尺度の
うち、少なくとも2つを選択し、各々の話者類似尺度で
話者類似度を計算し、各々の話者類似度から話者類似尺
度毎の話者認識結果を求め、各々の話者認識結果の論理
和あるいは論理積等の論理演算値を計算し、最終的な話
者認識を行うことを特徴とし、(5)請求項6の発明に
係る話者認識方法では、前記複数種類の話者類似尺度
に、交角を含むことを特徴とする。
【0017】請求項7の発明は、新たな話者類似尺度を
導入した話者認識装置であり、予め登録された話者の音
声を表現する特徴ベクトルと認識時の話者の音声を表現
する特徴ベクトルから、音声を表現する2つの特徴ベク
トル間の話者類似尺度を用いて話者類似度を計算し、そ
の値から話者認識を行い話者認識結果を出力する話者認
識装置において、交角を前記話者類似尺度として、話者
類似度を計算する話者類似度計算部を有することを特徴
とするものである。この話者類似度計算部としては、例
えば、音声を表現する2つの特徴ベクトルの内積を計算
する内積計算部と、同2つの特徴ベクトルのノルムを計
算するノルム計算部と、前記2つの特徴ベクトルの内積
を両特徴ベクトルのノルムで除算する除算部と、除算結
果を逆余弦値に変換する逆余弦変換部から構成され得
る。
【0018】請求項8〜10の各発明は、複数種類の話
者類似尺度を使用する話者認識装置であり、(1)請求
項8の発明に係る話者認識装置は、音声を表現する2つ
の特徴ベクトル間の予め定めた複数種類の話者類似尺度
のうち少なくとも1つを選択し、話者類似尺度毎の話者
類似度を計算する話者類似度計算部と、この話者類似度
計算部の計算結果から話者類似度毎の積和演算値を計算
し、この計算結果から話者認識を行う積和演算部とを有
することを特徴とし、(2)請求項9の発明に係る話者
認識装置は、音声を表現する2つの特徴ベクトル間の予
め定めた複数種類の話者類似尺度のうち少なくとも1つ
を選択し、話者類似尺度毎の話者類似度を計算する話者
類似度計算部と、この話者類似度計算部の計算結果から
話者類似尺度毎の話者認識を行う個別話者認識部と、こ
の個別話者認識部の話者認識結果の論理和あるいは論理
積等の論理演算値を計算し、最終的な話者認識を行う論
理演算部とを有することを特徴とし、(3)請求項10
の発明に係る話者認識装置は、前記複数種類の話者類似
尺度に、交角を含むことを特徴とする。
【0019】ここで、(1)請求項8又は9の発明にお
いて、予め定めた複数種類の話者類似尺度の全てを選択
する場合は、音声を表現する2つの特徴ベクトル間の複
数種類の話者類似尺度毎に話者類似度を計算する話者類
似度計算部と、この話者類似度計算部の各計算結果から
話者認識を行う話者認識部とを有することを特徴とする
話者認識装置が得られ、(2)請求項8又は9の発明に
おいて、予め定めた複数種類の話者類似尺度の1つを選
択する場合は、音声を表現する2つの特徴ベクトル間の
予め定めた複数種類の話者類似尺度のうち1つを選択し
切り替えて、話者類似尺度毎の話者類似度を計算する話
者類似度計算部と、この話者類似度計算部の計算結果か
ら話者認識を行う話者認識部とを有することを特徴とす
る話者認識装置が得られ、(3)請求項8と9の両発明
を組み合わせ、予め定めた複数種類の話者類似尺度の少
なくとも2つを選択し、両発明の認識結果を選択的に出
力する場合は、音声を表現する2つの特徴ベクトル間の
予め定めた複数種類の話者類似尺度のうち少なくとも2
つを選択し、話者類似尺度毎の話者類似度を計算する話
者類似度計算部と、この話者類似度計算部の各計算結果
から各々の話者類似度の積和演算値を計算し、この計算
結果から話者認識を行う積和演算部と、前記話者類似度
計算部の各計算結果から話者類似尺度毎の話者認識を行
う個別話者認識部と、この個別話者認識部の各々の話者
認識結果の論理和あるいは論理積等の論理演算値を計算
し、話者認識を行う論理演算部と、この論理演算部の話
者認識結果及び前記積和演算部の話者認識結果を選択的
に切り替えて出力する出力切替部とを有することを特徴
とする話者認識装置が得られる。
【0020】
【発明の実施の形態】以下、本発明の実施の形態を説明
する。
【0021】音声を表現する2つの特徴ベクトルがなす
角即ち交角をθとし、例えば0≦θ≦πとすると、θが
0に近く小さいほど、音声を表現する2つの特徴ベクト
ル間の話者類似度は大きく、交角がπに近く大きいほ
ど、話者類似度は小さい。従って、交角を話者類似尺度
として用いることが可能である。そこで、交角について
説明する。
【0022】まず、、2つの特徴ベクトルをX=
(x1 ,x2 ,…,xN )、Y=(y1 ,y2 ,…,y
N )というN次元ベクトルで表現すると、2つの特徴ベ
クトル間の内積(X,Y)は数1のように定義される。
【0023】
【数1】 (X,Y)=|X||Y|cosθ (0≦θ≦π) …数1 ここで、θは2つの特徴ベクトルの交角を表し、|X|
と|Y|は各特徴ベクトルX、Yのノルムを表す。
【0024】数1より、交角θは数2で表すことができ
る。
【0025】
【数2】 θ=cos-1{(X,Y)/|X||Y|} …数2
【0026】また、2つの特徴ベクトルX、Yの各次元
は互いに直交していると考えられるので、数3の内積の
公式と、数4及び数5のノルムの公式が成立する。な
お、Σは添字nを1からNに変えた場合の()内の値x
nn、xn 2、yn 2の各総和を表す。
【0027】
【数3】 (X,Y)=Σ(xnn) (n=1〜N) …数3
【数4】 |X|={Σ(xn 2)}-2 (n=1〜N) …数4
【数5】 |Y|={Σ(yn 2)}-2 (n=1〜N) …数5
【0028】従って、数3〜数5で求まる2つの特徴ベ
クトルの内積(X,Y)と、各特徴ベクトルのノルム|
X|、|Y|を計算して、数2より交角θを簡単に算出
できから、交角という簡便な話者類似尺度を用いること
ができる。
【0029】交角を話者類似尺度として単独に用いても
よいが、更に、従来のユークリッド距離等の任意の距離
尺度と組み合わせることにより、認識性能の向上が可能
である。勿論、交角を含むか否かにかかわらず、任意の
複数種類の話者類似尺度を予め用意し、状況に応じて、
任意の1つを適宜選択して用いたり、或いは、任意の2
つ以上の話者類似尺度を適宜選択して組み合わせること
により、きめ細かい話者認識を行う等、認識性能の向上
が可能である。2つ以上の話者類似尺度を組み合わせる
手法としては、各々の話者類似尺度で計算される話者類
似度を重み付けして総和をとる積和演算手法や、各々の
話者類似尺度で計算される話者類似度より出力される各
話者認識結果の論理演算を行う手法等が効果的である。
【0030】次に、図面を参照して、本発明の実施の形
態を説明する。図1は発明の実施の形態例に係る話者認
識装置の構成を示し、図2は交角を話者類似尺度とした
場合の話者類似度計算部の構成例を示し、図3は複数種
類の話者類似尺度を予め用意して用いる場合の話者類似
度計算部及び話者認識部の構成例を示す。
【0031】図1において、本発明の実施の形態例に係
る話者認識装置は、音響分析部11と、過程切替用スイ
ッチ13と、テンプレート作成部14と、閾値計算部1
5と、音声特徴情報蓄積部16と、話者類似度計算部1
7と、テンプレート選択切替用スイッチ18と、話者認
識部19から構成される。各部は主としてコンピュータ
とそのプログラムにより実現される。なお、この例で
は、共分散行列の計算はしないものとしている。
【0032】図1において、音響分析部11は音声信号
の音響分析を行い、音声を表現する特徴ベクトルとし
て、従来同様、例えばケプストラム係数等をパラメータ
とする音響ベクトル列12を出力する。話者認識を行う
ための話者の登録過程と、実際の話者に対する認識過程
を、スイッチ13で切り替える。
【0033】登録過程の場合は、スイッチ13は音響ベ
クトル列12を登録データ12Aとして、テンプレート
作成部14及び閾値計算部15へ送る。テンプレート作
成部14は登録データ12Aから、音響ベクトル列のパ
ラメータ値を用いて、登録話者毎のテンプレートを作成
する。閾値計算部15は登録データ12Aの音響ベクト
ル列から、話者照合のための大小判定や話者識別のため
の未登録者の排除を目的とした閾値の設定を登録話者毎
に行う。
【0034】閾値計算には、例えばDTW(Dynamic Ti
me-Warping:動的計画法パターンマッチング)法等を使
用することができる。
【0035】テンプレート作成部14及び閾値計算部1
5は話者毎のテンプレートのパラメータ値及び閾値を音
声特徴情報蓄積部16へ送り、音声特徴情報蓄積部16
はこれらを話者テンプレート(全登録話者のテンプレー
ト)として蓄積する。
【0036】認識過程の場合は、スイッチ13は音響ベ
クトル列12を認識データ12Bとして、話者類似度計
算部17へ送る。また、音声特徴情報蓄積部16に蓄積
されている話者テンプレートの中から、スイッチ18が
比較対象となるテンプレート16Aを選択し、選択した
テンプレート16Aのパラメータ値及び閾値を話者類似
度計算部17へ送る。
【0037】次に、話者類似度計算部17と話者認識部
19を、交角のみを話者類似尺度に用いる場合(図2)
と、複数種類の話者類似尺度を用いる場合(図3)とに
分けて、説明する。
【0038】[交角のみを話者類似尺度に用いる場合]
交角のみを話者類似尺度に用いる場合、話者類似度計算
部17は前出の数2により交角θを算出するため、図2
に例示するように、内積計算部20と、ノルム計算部2
1と、除算部22と、逆余弦変換部23から構成され
る。
【0039】内積計算部20は前出の数3により、テン
プレート16Aのパラメータ値(特徴ベクトル)と認識
データ12Bの音響ベクトル列との内積(X,Y)を計
算し、除算部22へ送る。ノルム計算部21は前出の数
4及び数5により、テンプレート16Aのパラメータ値
(特徴ベクトル)のノルム|X|と、認識データ12B
の音響ベクトル列のノルム|Y|とを計算し、除算部2
2へ送る。除算部22はベクトルの内積と、各ベクトル
列のノルムとを用いて、数2右辺の{}内を計算し、そ
の除算結果((X,Y)/|X||Y|)を逆余弦変換
部23へ送る。逆余弦変換部23はこの除算結果を逆余
弦変換(cos-1)する。以上により、テンプレート1
6Aのパラメータ値(特徴ベクトル)と認識データ12
Bの音響ベクトル列(特徴ベクトル)の間の交角θが計
算される。
【0040】計算された交角θは話者認識部19へ送ら
れる。交角θは時々刻々の話者類似度であるから、話者
認識部19は前述のDTW(Dynamic Time-Warping) 法
や、ベクトル量子化(VQ)法等により交角θを発声単
位毎に累積して発声単位毎の話者類似度即ち累積類似度
を求め、この累積類似度を用いて話者認識を行い、話者
認識結果19Aを出力する。
【0041】話者識別の場合は、スイッチ18は音声特
徴情報蓄積部16中の全登録話者のテンプレート(丸を
付したA、B、C・・・)を比較対象として順次選択
し、話者類似度計算部17へ送る。話者類似度計算部1
7は、選択されたテンプレート毎に順次、テンプレート
16Aのパラメータ値と認識データ12Bの音響ベクト
ル列との間で交角を計算する。話者認識部19は全登録
話者のテンプレートに対する各累積類似度のうち、対応
する閾値以上で且つ最大のものに対応する登録話者が実
際の話者であると判定し、最大のものがその閾値未満の
場合は未登録者であると判定し、これをを話者認識結果
19Aとして出力する。
【0042】話者照合の場合は、スイッチ18は音声特
徴情報蓄積部16中の全登録話者のテンプレート(丸を
付したA、B、C・・・)のうち1つを比較対象として
選択し、話者類似度計算部17へ送る。話者類似度計算
部17は、選択されたテンプレート16Aのパラメータ
値と認識データ12Bの音響ベクトル列との間で交角を
計算する。話者認識部19は、累積類似度が比較対象の
テンプレート16Aの閾値以上の場合は実際の話者が登
録話者本人であり、閾値未満の場合は登録話者本人でな
い(他人)であると判定し、これらを話者認識結果19
Aとして出力する。
【0043】[複数種類の話者類似尺度を用いる場合]
複数種類の話者類似尺度を用いる場合は、話者類似度計
算部17は図3に例示するように、話者類似尺度が互い
に異なる複数N(N≧2)個の話者類似度計算部1〜N
からなる。これらの内、一例を挙げると、或る話者類似
度計算部1は図2に示した構成であり交角を話者類似尺
度にして、選択されたテンプレート16Aと認識データ
12Bの音響ベクトル列との間で話者類似度を計算す
る。別の或る話者類似度計算部2はユークリッド距離を
話者類似尺度にして、選択されたテンプレート16Aと
認識データ12Bの音響ベクトル列との間で話者類似度
を計算する。
【0044】図3の話者類似度計算部17は、N種類の
話者類似尺度1〜Nのうち、指令24により、任意の1
個の話者類似尺度を選択して切り替えたり、任意の2個
以上の話者類似尺度を選択して切り替えりたり、更に
は、N個全ての話者類似尺度を選択するという各種設定
が可能に構成してある。従って、話者認識の環境等、状
況に応じて適切な内容の指令24を与えることにより、
話者類似度計算部17は自動的に、指令された1または
2以上または全ての話者類似尺度に、選択されたテンプ
レート16Aと認識データ12Bの音響ベクトル列との
間で話者類似度を計算し、その結果を話者認識部19へ
出力する。
【0045】一方、話者認識部19は、図3の話者類似
度計算部17に対応して、同図3に例示するように累積
類似度計算部30と、積和演算部31と、個別話者認識
部32と、論理演算部33から構成してある。更に、出
力切替用スイッチ34を設けて、積和演算部31の話者
認識結果31Aと、論理演算部33の話者認識結果33
Aを選択し、最終的な話者認識結果19Aを出力できる
ようにしてある。
【0046】累積類似度計算部30は、話者類似度計算
部17から送られる話者類似尺度毎の話者類似度に対し
て、発声単位毎の累積類似度を計算し、積和演算部31
と、個別話者認識部32に送る。累積類似度計算方法と
しては、前述のDTW(Dynamic Time-Warping) 法や、
ベクトル量子化(VQ)法等が挙げられる。
【0047】積和演算部31は、話者類似度計算部17
が計算した各々の話者類似尺度毎の累積類似度に或る所
定の重みを乗じた後の総和(積和演算値)を計算し、そ
の値により話者識別あるいは話者照合を行って、話者認
識結果31Aを出力する。
【0048】積和演算部31における話者識別では、全
登録話者のテンプレートに対する各積和演算値のうち、
対応する閾値以上で且つ最大のものに対応する登録話者
が実際の話者であると判定し、最大のものがそれの閾値
未満の場合は実際の話者が未登録者であると判定し、こ
れを話者認識結果31Aとして出力する。
【0049】積和演算部31における話者照合では、積
和演算値が比較対象のテンプレート16Aの閾値以上の
場合は実際の話者が登録話者本人であり、閾値未満の場
合は登録話者本人でない(他人)であると判定し、これ
を話者認識結果31Aとして出力する。
【0050】一方、個別話者認識部32は、話者類似度
計算部17が計算した各々の話者類似尺度毎の話者類似
度により、話者類似尺度毎に話者識別あるいは話者照合
を行い、話者認識結果32Aを出力する。
【0051】個別話者認識部32における話者識別で
は、話者類似尺度毎に、全登録話者のテンプレートに対
する累積類似度のうち、対応する閾値以上で且つ最大の
ものに対応する登録話者が実際の話者であると判定し、
最大のものがその閾値未満の場合は実際の話者が未登録
者であると判定し、これを話者認識結果32Aとして出
力する。
【0052】個別話者認識部32における話者照合で
は、話者類似尺度毎に、累積類似度が比較対象のテンプ
レート16Aの閾値以上の場合は実際の話者が登録話者
本人であり、閾値未満の場合は登録話者本人でない(他
人)であると判定し、これを話者認識結果32Aとして
出力する。
【0053】論理演算部33は、各々の話者類似尺度で
計算した累積類似度より個別話者認識部32から出力さ
れる各々の話者類似尺度毎の話者認識結果32Aに対
し、論理和、論理積、多数決等の論理演算を行い、新た
な話者認識結果33Aを出力する。
【0054】論理演算部33は、話者類似尺度毎の話者
認識結果32Aの全てに対して必ずしも同一の論理演算
を行う必要はなく、指令35により、論理和、論理積、
多数決等の任意の論理演算のうち、どの話者類似尺度毎
の話者認識結果32Aに対しどの論理演算を行うかを自
由に設定できるように構成してある。従って、話者認識
の環境等、状況に応じて適切な内容の指令35を与える
ことにより、論理演算部33は自動的に指令された論理
演算を行う。
【0055】スイッチ34は、上述した積和演算部31
の話者認識結果31Aと、論理演算部33の話者認識結
果33Aのうち、一方を選択的に切り替え、最終的な話
者認識結果19Aとして出力する。この切替は指令36
により設定可能としてある。従って、話者認識の環境
等、状況に応じて適切な内容の指令36を与えることに
より、スイッチ34は自動的に適切な話者認識結果19
Aを出力する。
【0056】[実施例]認識性能の比較として、各話者
類似尺度を用いた場合のDTW法のアルゴリズムを用い
たテキスト依存型話者照合の実験を、2ヵ月、4ヵ月、
6ヵ月、8ヵ月、10ヵ月と時期を変えて行った。その
実験結果を、表1と表2に示す。
【0057】ここで、テキスト依存性を比較するため、
表1では詐称者が本人の登録時の発声と同一内容を発声
する場合の認識誤り率(パーセント)を示し、表2では
詐称者が本人の登録時の発声とは異なる内容を発声する
場合の認識誤り率(パーセント)を示す。この認識誤り
率とは、本人が棄却される率と他人が受理される率とが
等しくなるしきい値を事後的に設定した場合の、本人棄
却率あるいは他人の受理率のことである。
【0058】また、表1及び表2いずれの場合も、1段
目は話者類似尺度としてユークリッド距離のみを用い、
2段目は話者類似尺度として交角のみを用い、3段目は
話者類似尺度としてユークリッド距離と交角を組み合わ
せて、それぞれ話者認識の実験を行った結果を示す。
【0059】
【表1】
【0060】
【表2】
【0061】表1、表2から、交角を話者類似尺度に用
いることにより、単独でも、ユークリッド距離と組み合
わせても、ユークリッド距離のみを用いる場合よりも認
識性能が向上していることが判る。
【0062】表1、表2から、このように交角単独でも
ユークリッド距離と組み合わせても、ユークリッド距離
のみを用いる場合よりも認識性能が向上しているため、
交角を話者類似尺度に用いることの有用性が良く判る。
【0063】図3に例示した話者類似度計算部17では
複数種類の話者類似尺度に交角を含む(話者類似度計算
部1参照)が、複数種類の話者類似尺度中に交角を含ま
ずに、複数種類の話者類似尺度1〜Nを全て組み合わせ
て話者認識を行ったり、あるいは、予め用意した複数種
類の話者類似尺度のうち任意の1つを状況に応じて選択
し切り替えて話者認識を行ったり、あるいは、予め用意
した複数種類の話者類似尺度のうち任意の2つ以上を状
況に応じて選択し組み合わせを切り替えて話者認識を行
うようにしても良い。
【0064】また、図3に示した話者認識部19のうち
個別話者認識部32及び論理演算部33を省くと共に、
スイッチ34も省き、累積類似度計算部30と積和演算
部31で話者認識部を構成して積和演算部31の話者認
識結果31Aを常に話者認識結果19Aとして出力する
ようにしても良い。この場合、図3に示した話者類似度
計算部17が常に1つの話者類似尺度を選択して切り替
えるものであるならば、単に1つの話者類似尺度で計算
した話者類似度から話者認識が行えるので、積和演算を
省くことも可能になる。
【0065】逆に、図3に示した話者認識部19のうち
積和演算部31を省くと共に、スイッチ34も省き、累
積類似度計算部30と個別話者認識部32と論理演算部
33で話者認識部を構成して論理演算部33の話者認識
結果33Aを常に話者認識結果19Aとして出力するよ
うにしても良い。また、図3に示した話者類似度計算部
17が常に1つの話者類似尺度を選択して切り替えるも
のであるならば、この場合は、個別話者認識部32は単
に1つの話者類似尺度で計算した話者類似度から話者認
識を行うだけの構成でも良く、論理演算部33の省略も
可能になる。
【0066】
【発明の効果】以上より、本発明によれば、話者類似尺
度として従来用いられてきたユークリッド距離や、重み
付き距離等の統計的手法を用いることなく、交角という
簡便な話者類似尺度を用いて話者認識を行うことができ
る。また、交角を含むか否かにかかわらず、複数種類の
話者類似尺度を組み合わせて話者認識を行うことによ
り、あるいは、予め用意した複数種類の話者類似尺度の
うち任意の1つを用いて話者認識を行うことにより、あ
るいは、予め用意した複数種類の話者類似尺度のうち任
意の2つ以上を組み合わせて話者認識を行うことによ
り、状況に応じて高性能な話者認識が可能である。
【図面の簡単な説明】
【図1】本発明の実施の形態例に係る話者認識装置の構
成を示す図。
【図2】図1中の話者類似度計算部17の一例として、
交角のみを話者類似尺度に用いる場合の構成例を示す
図。
【図3】複数種類の話者類似尺度を用いる場合の図1中
の話者類似度計算部17及び話者認識部19の構成例を
示す図。
【図4】話者認識装置の従来例の構成を示す図。
【符号の説明】
1〜N 互いに話者類似尺度が異なる話者類似度計算部 1 交角を話者類似尺度に用いた話者類似度計算部 2 ユークリッド距離を話者類似尺度に用いた話者類似
度計算部 11 音響分析部 12 音響ベクトル列 12A 登録データ 12B 認識データ 13 登録過程と認識過程の切替用スイッチ 14 テンプレート作成部 15 閾値計算部 16 音声特徴情報蓄積部 16A テンプレート 17 話者類似度計算部 18 テンプレート選択切替用スイッチ 19 話者認識部 19A 話者認識結果 20 内積計算部 21 ノルム計算部 22 除算部 23 逆余弦変換部 30 累積類似度計算部 31 積和演算部 31A 積和演算部の話者認識結果 32 個別話者認識部 32A 個別話者認識部の話者認識結果 33 論理演算部 33A 論理演算部の話者認識結果 34 話者認識結果選択用スイッチ

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 予め登録された話者の音声を表現する特
    徴ベクトルと認識時の話者の音声を表現する特徴ベクト
    ルから、音声を表現する2つの特徴ベクトル間の話者類
    似尺度を用いて話者類似度を計算し、その値から話者認
    識を行う話者認識方法において、 前記話者類似尺度として、音声を表現する2つの特徴ベ
    クトルがなす角を用いることを特徴とする話者認識方
    法。
  2. 【請求項2】 予め登録された話者の音声を表現する特
    徴ベクトルと認識時の話者の音声を表現する特徴ベクト
    ルから、音声を表現する2つの特徴ベクトル間の話者類
    似尺度を用いて話者類似度を計算し、その値から話者認
    識を行う話者認識方法において、 前記話者類似尺度として、音声を表現する2つの特徴ベ
    クトル間の複数種類の話者類似尺度を組み合わせて用い
    ることを特徴とする話者認識方法。
  3. 【請求項3】 予め登録された話者の音声を表現する特
    徴ベクトルと認識時の話者の音声を表現する特徴ベクト
    ルから、2つの音声を表現する特徴ベクトル間の話者類
    似尺度を用いて話者類似度を計算し、その値から話者認
    識を行う話者認識方法において、 前記話者類似尺度として、音声を表現する2つの特徴ベ
    クトル間の予め定めた複数種類の話者類似尺度のうち、
    1つを選択し切り替えて用いることを特徴とする話者認
    識方法。
  4. 【請求項4】 予め登録された話者の音声を表現する特
    徴ベクトルと認識時の話者の音声を表現する特徴ベクト
    ルから、2つの音声を表現する特徴ベクトル間の話者類
    似尺度を用いて話者類似度を計算し、その値から話者認
    識を行う話者認識方法において、 前記話者類似尺度として、音声を表現する2つの特徴ベ
    クトル間の予め定めた複数種類の話者類似尺度のうち、
    少なくとも2つを選択し、各々の話者類似尺度で話者類
    似度を計算し、各々の話者類似度の積和演算値を計算
    し、その値から話者認識を行うことを特徴とする話者認
    識方法。
  5. 【請求項5】 予め登録された話者の音声を表現する特
    徴ベクトルと認識時の話者の音声を表現する特徴ベクト
    ルから、2つの音声を表現する特徴ベクトル間の話者類
    似尺度を用いて話者類似度を計算し、その値から話者認
    識を行う話者認識方法において、 前記話者類似尺度として、音声を表現する2つの特徴ベ
    クトル間の予め定めた複数種類の話者類似尺度のうち、
    少なくとも2つを選択し、各々の話者類似尺度で話者類
    似度を計算し、各々の話者類似度から話者類似尺度毎の
    話者認識結果を求め、各々の話者認識結果の論理和ある
    いは論理積等の論理演算値を計算し、最終的な話者認識
    を行うことを特徴とする話者認識方法。
  6. 【請求項6】 前記複数種類の話者類似尺度に、音声を
    表現する2つの特徴ベクトルがなす角を含むことを特徴
    とする請求項2から5いずれか記載の話者認識方法。
  7. 【請求項7】 予め登録された話者の音声を表現する特
    徴ベクトルと認識時の話者の音声を表現する特徴ベクト
    ルから、音声を表現する2つの特徴ベクトル間の話者類
    似尺度を用いて話者類似度を計算し、その値から話者認
    識を行い話者認識結果を出力する話者認識装置におい
    て、 音声を表現する2つの特徴ベクトルがなす角を前記話者
    類似尺度として、話者類似度を計算する話者類似度計算
    部を有することを特徴とする話者認識装置。
  8. 【請求項8】 予め登録された話者の音声を表現する特
    徴ベクトルと認識時の話者の音声を表現する特徴ベクト
    ルから、2つの音声を表現する特徴ベクトル間の話者類
    似尺度を用いて話者類似度を計算し、その値から話者認
    識を行い話者認識結果を出力する話者認識装置におい
    て、 音声を表現する2つの特徴ベクトル間の予め定めた複数
    種類の話者類似尺度のうち少なくとも1つを選択し、話
    者類似尺度毎の話者類似度を計算する話者類似度計算部
    と、この話者類似度計算部の計算結果から話者類似度毎
    の積和演算値を計算し、この計算結果から話者認識を行
    う積和演算部とを有することを特徴とする話者認識装
    置。
  9. 【請求項9】 予め登録された話者の音声を表現する特
    徴ベクトルと認識時の話者の音声を表現する特徴ベクト
    ルから、2つの音声を表現する特徴ベクトル間の話者類
    似尺度を用いて話者類似度を計算し、その値から話者認
    識を行い話者認識結果を出力する話者認識装置におい
    て、 音声を表現する2つの特徴ベクトル間の予め定めた複数
    種類の話者類似尺度のうち少なくとも1つを選択し、話
    者類似尺度毎の話者類似度を計算する話者類似度計算部
    と、この話者類似度計算部の計算結果から話者類似尺度
    毎の話者認識を行う個別話者認識部と、この個別話者認
    識部の話者認識結果の論理和あるいは論理積等の論理演
    算値を計算し、最終的な話者認識を行う論理演算部とを
    有することを特徴とする話者認識装置。
  10. 【請求項10】 前記複数種類の話者類似尺度に、音声
    を表現する2つの特徴ベクトルがなす角を含むことを特
    徴とする請求項8または9に記載の話者認識装置。
JP9048683A 1997-03-04 1997-03-04 話者認識方法及び装置 Withdrawn JPH10247092A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9048683A JPH10247092A (ja) 1997-03-04 1997-03-04 話者認識方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9048683A JPH10247092A (ja) 1997-03-04 1997-03-04 話者認識方法及び装置

Publications (1)

Publication Number Publication Date
JPH10247092A true JPH10247092A (ja) 1998-09-14

Family

ID=12810130

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9048683A Withdrawn JPH10247092A (ja) 1997-03-04 1997-03-04 話者認識方法及び装置

Country Status (1)

Country Link
JP (1) JPH10247092A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115104152A (zh) * 2020-02-25 2022-09-23 松下电器(美国)知识产权公司 讲话者识别装置、讲话者识别方法以及程序
JP2023184691A (ja) * 2014-07-18 2023-12-28 グーグル エルエルシー コロケーション情報を使用した話者照合

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023184691A (ja) * 2014-07-18 2023-12-28 グーグル エルエルシー コロケーション情報を使用した話者照合
CN115104152A (zh) * 2020-02-25 2022-09-23 松下电器(美国)知识产权公司 讲话者识别装置、讲话者识别方法以及程序
US12394421B2 (en) 2020-02-25 2025-08-19 Panasonic Intellectual Property Corporation Of America Speaker identification apparatus, speaker identification method, and recording medium
CN115104152B (zh) * 2020-02-25 2025-11-28 松下电器(美国)知识产权公司 讲话者识别装置、讲话者识别方法以及记录介质

Similar Documents

Publication Publication Date Title
US5167004A (en) Temporal decorrelation method for robust speaker verification
Lee et al. Xi-vector embedding for speaker recognition
Hassanat Visual passwords using automatic lip reading
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
JPH10247092A (ja) 話者認識方法及び装置
Shahin Text-independent Emirati-accented speaker identification in emotional talking environment
JP2011081324A (ja) ピッチ・クラスター・マップを用いた音声認識方法
Wang et al. I-vector based speaker gender recognition
CN114512135A (zh) 声纹聚类方法、声纹识别方法、装置及电子设备
JP2009020458A (ja) 音声処理装置およびプログラム
JP3090119B2 (ja) 話者照合装置、方法及び記憶媒体
JP2004279770A (ja) 話者認証装置及び判別関数設定方法
JP2989231B2 (ja) 音声認識装置
Raval et al. Feature and signal enhancement for robust speaker identification of G. 729 decoded speech
Campbell et al. A novel algorithm for training polynomial networks
JP3422702B2 (ja) 話者照合方法及び装置
JP2005091758A (ja) 話者認識システム及び方法
JPH07160287A (ja) 標準パターン作成装置
Hong et al. The Speaker Verification System Based on GMM Adaption Clustering and i-vector
Medellin-Garibay et al. Artificial Neural Networks for Speaker
JP2001034294A (ja) 話者照合装置
Zhang et al. Confidence measure (CM) estimation for large vocabulary speaker-independent continuous speech recognition system.
JP2000227800A (ja) 話者照合装置および話者照合装置における閾値設定方法
JPH1185182A (ja) 話者認識方法及び装置
Bodruzzaman et al. Parametric feature-based voice recognition system using artificial neural network

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040511