JP4714523B2 - 話者照合装置 - Google Patents

話者照合装置 Download PDF

Info

Publication number
JP4714523B2
JP4714523B2 JP2005217478A JP2005217478A JP4714523B2 JP 4714523 B2 JP4714523 B2 JP 4714523B2 JP 2005217478 A JP2005217478 A JP 2005217478A JP 2005217478 A JP2005217478 A JP 2005217478A JP 4714523 B2 JP4714523 B2 JP 4714523B2
Authority
JP
Japan
Prior art keywords
vector
feature
speaker
feature vector
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005217478A
Other languages
English (en)
Other versions
JP2007033898A (ja
JP2007033898A5 (ja
Inventor
千加志 杉浦
岳彦 井阪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Mobile Communications Ltd
Original Assignee
Fujitsu Toshiba Mobile Communication Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Toshiba Mobile Communication Ltd filed Critical Fujitsu Toshiba Mobile Communication Ltd
Priority to JP2005217478A priority Critical patent/JP4714523B2/ja
Publication of JP2007033898A publication Critical patent/JP2007033898A/ja
Publication of JP2007033898A5 publication Critical patent/JP2007033898A5/ja
Application granted granted Critical
Publication of JP4714523B2 publication Critical patent/JP4714523B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

この発明は、例えば利用者の音声の特徴を抽出して本人認証を行う話者照合装置に関する。
近年、例えばセキュアな状態が要求される建物への入室や機器の使用に際し、利用者の音声の特徴を抽出して本人認証を行う話者照合装置が種々提案されている。
例えば、話者ごとにその入力音声をサンプリングしてその特徴量から特徴ベクトルを求め、この特徴ベクトルをベクトル量子化してコードブックに登録する。そして、以後利用者の音声が入力されるごとに、この入力音声の特徴量をもとに特徴ベクトルを求め、この特徴ベクトルをベクトル量子化したのち上記コードブックに登録されたベクトルと照合することにより本人認証を行う装置が知られている(例えば、特許文献1を参照。)。
また、別の話者照合装置として、本人話者の特徴ベクトルと他人話者の特徴ベクトルとをもとに共分散行列を計算する。そして、この計算された共分散行列を用いて特徴ベクトルを変換することにより、統計的に識別性能を向上させる装置も提案されている(例えば、特許文献2を参照。)。
特開平7−248791号公報 特許第3080388号明細書
ところが、特許文献1に記載された装置では、予めコードブックに登録された利用者本人の音声の特徴ベクトルと、入力音声の特徴ベクトルとをただ単純に照合するようにしている。このため、音声が背景雑音の影響により歪んだり、また話者の発話内容が異なると、他人話者の特徴量分布がコードブックに登録された本人話者の特徴量分布に包含され、この結果他人話者を本人話者と誤認識したり、また本人話者を他人話者として誤認識する場合があり、照合精度が低かった。
一方、特許文献2に記載された装置では、共分散行列をもとに特徴ベクトルを変換するようにしている。このため、特許文献1に記載された装置に比べ照合精度を高めることが可能である。しかしながら、共分散行列を計算するためには他人話者の音声の特徴ベクトルを取得する必要があり、その処理のために余計な手間やコストが必要となる。
この発明は上記事情に着目してなされたもので、その目的とするところは、音声が背景雑音もしくはこの抑圧処理の影響により歪んだり、また話者の発話内容が異なる場合でも、他人話者の音声の特徴ベクトルを必要とすることなく照合精度を高めることを可能にした話者照合装置を提供することにある。
上記目的を達成するためにこの発明は、話者の入力音声を時分割した複数のフレームからそれぞれ特徴ベクトルを生成すると共に、この生成された複数の特徴ベクトルを代表する特徴代表ベクトルを生成する手段を備える。そして、登録対象の話者については、上記生成された特徴ベクトルをベクトル量子化することで生成されるコードベクトル及び特徴代表ベクトルをコードブックに記憶する。一方照合を行う際には、上記コードブックに記憶された第1の特徴ベクトルに対し、当該第1の特徴ベクトルと上記第1の特徴代表ベクトルとの間の距離を縮小する変換処理を行い、かつ照合対象の話者の入力音声から生成される第2の特徴ベクトルに対し、当該第2の特徴ベクトルと第2の特徴代表ベクトルとの間の距離を縮小する変換処理を行う。そして、上記変換処理後のコードベクトル及び第2の特徴ベクトル間のベクトル量子化歪みを算出し、この算出されたベクトル量子化歪みを予め設定されたしきい値と比較して、その比較結果を照合結果として出力するように構成したものである。そして、特徴代表ベクトルを生成する手段は、特徴ベクトルを生成する手段により生成された複数の特徴ベクトルをそれぞれベクトル量子化する手段と、ベクトル量子化された複数のコードベクトルの重心を算出し、この算出された重心を特徴代表ベクトルとする手段とを備える。
したがって、入力音声が背景雑音もしくはこれを抑圧処理した影響により歪んだり、また話者の発話内容が異なる場合でも、特徴ベクトルに対し上記変換処理を施すことにより、コードブックに記憶された登録対象のコードベクトルの分布と、照合対象話者の特徴ベクトルの分布がそれぞれ縮小される。このため、登録対象話者のコードベクトルに対する照合対象話者の特徴ベクトル集合の包含は低減される。したがって、登録対象話者のコードベクトルと照合対象話者の特徴ベクトルとの間のベクトル量子化歪みの差は顕著になり、これにより照合精度を高めることが可能となる。
要するにこの発明では、コードブックに記憶された第1の特徴ベクトル、及び照合対象話者の入力音声から生成される第2の特徴ベクトルに対し、それぞれ当該第1の特徴ベクトルとその特徴代表ベクトルとの間、及び第2の特徴ベクトルとその特徴代表ベクトルとの間の距離を縮小する変換処理を行う。そして、上記変換処理後のコードベクトル及び第2の特徴ベクトル間のベクトル量子化歪みを算出し、この算出されたベクトル量子化歪みを予め設定されたしきい値と比較して、その比較結果を話者の照合結果として出力するようにしている。
したがってこの発明によれば、音声が背景雑音もしくはこの抑圧処理の影響により歪んだり、また話者の発話内容が異なる場合でも、他人話者の音声の特徴ベクトルを必要とすることなく照合精度を高めることを可能にした照合装置を提供することができる。
以下、図面を参照してこの発明の実施形態を説明する。
先ず、この発明の原理について説明する。
ベクトル量子化(Vector Quantization;VQ)モデルを用いた話者照合において発生する他人受入エラーは、例えば図5に示すように他人話者の特徴ベクトルが本人コードブックに包含されて、VQ歪みが小さくなるために起こる。この問題を回避するには、本人コードブック及び他人話者の特徴ベクトルの分布をそれぞれ縮小する話者内分布補正が有効である。例えば図6に示すように、比較対象の本人コードブック及び他人話者の特徴ベクトルのそれぞれにおいて、コードベクトル及び特徴ベクトルの分布を各特徴代表ベクトル方向に近づければよい。
この話者内分布補正処理は、コードベクトル及び特徴ベクトルに対しそれぞれ、当該ベクトルと特徴代表ベクトルとの間の距離を縮小する変換処理を行うことにより実現される。例えば、変換処理前の特徴ベクトルをvi 、変換処理後の特徴ベクトルをvi ′、特徴代表ベクトルをvg 、変換行列をA、第1の重み行列をB、第2の重み行列をC、ベクトル数をNとすると、変換式は次の(1)式で表される。
Figure 0004714523
この(1)式において、変換行列Aは例えば対角成分diag{A}が0.0以上であるDxDの対角行列で表される。また、第1ならびに第2の重み行列B、Cは例えばDxDの単位行列である。なお、Dはベクトル次元数を示している。
特徴代表ベクトルは、例えばコードベクトル及び特徴ベクトル集合の重心として表すことができる。このようにコードベクトル及び特徴ベクトル集合の重心をそれぞれ特徴代表ベクトルとすることにより、背景雑音もしくはこの抑圧処理による影響や、発話内容の違いによるコードベクトルならびに特徴ベクトルの変動を吸収することができ、話者のみに依存させることが可能となる。
上述した対角行列Aの各対角成分をadとすると、特徴ベクトルの分布を小さくするためにはadの値の範囲は0.0〜1.0であり、ここで、adを縮小率と呼ぶことにする。縮小率aは、例えば、すべての次元に対しa=1.0を設定すると、無変換の状態となる。これに対しすべての次元に対しa=0.0を設定すると、特徴代表ベクトルのみを話者の特徴ベクトルとする状態となる。
図7及び図8は特徴代表ベクトルの話者依存性の一例を示すもので、図7は話者Xの特徴代表ベクトルを、また図8は話者Yの特徴代表ベクトルをそれぞれ示している。図9は上記話者Xと話者Yの特徴代表ベクトルを重ねて表したものである。
同図から明らかなように、話者間における特徴代表ベクトルのばらつきが大きい次元は、より話者間の特徴の差を顕著に表す次元である。これに対し特徴代表ベクトルのばらつきが小さい次元は、話者間の特徴の差が少ない次元である。そこで、ばらつきが大きい次元に対しては縮小率aを0.0に近い値に設定し、一方ばらつきが小さい次元については縮小率aを1.0に近い値に設定する。この縮小率aの算出式は例えば次の(2)式のように表される。
Figure 0004714523
ただし、σd は話者間の特徴代表ベクトルの次元ごとの標準偏差(d=1,2,,,D)であり、特徴代表ベクトルにおいてどの次元に話者性が現れやすいかを示す。値が大きいほど話者性が現れやすい次元である。pは縮小率aの次元平均をBにするための調整用パラメータであり、直接値を指定することはなく、次式によって表される。
Figure 0004714523
同式において、Bは縮小率adの次元平均値であり、話者特徴ベクトルの包含を低減するためのパラメータである。Bは値が大きいほど包含の低減効果が少なくなる。これに対し、値が小さいほど包含の低減効果が大きいが、値を小さくし過ぎると話者の特徴代表ベクトルの変動によるVQ歪みの増大が顕著になるため、本人許否エラーが発生しやすくなる。このパラメータBは、例えば0.5付近の値を設定するのが好ましく、値を小さくし過ぎることによる過剰な補正は避ける方が望ましい。
qは標準偏差σdの次元ごとの差をどの程度強調させるかを制御するパラメータであり、q=0.0のときに強調の程度が最大となる。これに対し、q=Bのときに次元ごとの差は無くなり、縮小率は次元一定の値=Bとなる(このときp=0.0)。
上記標準偏差σdは、予め複数話者の複数の環境下における特徴ベクトルを分析し算出しておくことで、適当な値を設定することが可能である。ここで、算出値は充分に多くの話者数、雑音環境下での音声を分析して得られるものであれば、音声信号から抽出される特徴ベクトルの普遍的な性質であると見なすことができる。つまり、この値は事前に算出すればよいものであり、使用環境に応じて値を事後的に算出しなくてもよい。また、特徴ベクトルにはLPCケプストラムなどのケプストラム係数を用いているので、分析用の環境と実環境でのマイクロホンなどを含む音声入力系の違いは特徴ベクトルの線形差分として現れる。このため上記音声入力系の違いは、話者間の特徴代表ベクトルの標準偏差σdを計算する際に吸収される。
次に、この発明に係わる話者照合装置の一実施形態を説明する。
図1はその機能構成を示すブロック図である。この話者照合装置は、音声特徴生成処理部1を備えている。音声特徴生成処理部1は、入力された話者の音声から特徴ベクトルを生成すると共に、この生成された特徴ベクトル集合の重心を求めてこの重心を特徴代表ベクトルとする。
図2はこの音声特徴生成処理部1の機能構成を示すブロック図である。音声特徴生成処理部1は、前処理部11と、LPC係数算出部12と、LPCC生成部13と、話者特徴代表ベクトル生成部14とを有している。
前処理部11は、入力された音声信号に対しアナログ−ディジタル(A/D)変換、ならびに雑音抑圧処理を行ったのち音声分析区間を設定し、この分析区間内の音声波形を一定の時間及び一定のシフト周期で分析窓により切り出し、音声フレームを生成して保持する。
LPC係数算出部12は、上記前処理部11により形成された各音声フレームから、線形予測符号化(Linear Prediction Coding;LPC)により音声信号に含まれている個人性情報に関する特徴量を抽出する。LPCC生成部13は、上記LPC係数算出部12により抽出された特徴量をもとに特徴ベクトル(LPCケプストラム、パワー項0次を含まない1次以上のパラメータ)を生成する。話者特徴代表ベクトル生成部14は、上記LPCC生成部13により生成された特徴ベクトル集合の重心を算出する。そして、この算出された重心を特徴代表ベクトルとする。
またこの話者照合装置は、話者登録処理のための機能として、ベクトル量子化部2と、話者別コードブックデータベース3とを備える。ベクトル量子化部2は、話者登録モードが選択されている状態で、上記音声特徴生成処理部1により生成された特徴ベクトル集合とその特徴代表ベクトルを取り込む。そして、特徴ベクトルに対しベクトル量子化を行い、コードベクトルを出力する。話者別コードブックデータベース3は、例えば図3に示すように、上記ベクトル量子化部2により生成されたコードベクトルと、上記音声特徴生成処理部1により生成された特徴代表ベクトルを、図示しない話者名入力手段により入力された話者別名称IDに対応付けて記憶する。
さらにこの話者照合装置は、話者照合処理のために必要な機能として、変換係数・しきい値制御部4と、変換係数・しきい値データベース5と、第1の話者特徴変換処理部6と、第2の話者特徴変換処理部7と、VQ歪み算出部8と、しきい値判定処理部9と、終了判定部10とを備えている。
変換係数・しきい値制御部4は、他人受入エラー率を低減するための話者特徴変換係数と、この値に対応したVQ歪み判定用のしきい値を変換係数・しきい値データベース5から読み込む。話者特徴変換係数は、縮小率aのことを指している。縮小率aは、先に示した(2)式に従い、話者間における特徴代表ベクトルの次元ごとのばらつきを考慮して、事前に用意された値である。しきい値は、本人受入率と他人拒否率が等しくなるように設定されている。変換係数・しきい値データベース5は、例えば図4に示すように、上記算出及び設定された話者特徴変換係数及び判定しきい値を、記憶する。
第1の話者特徴変換処理部6は、話者照合モードが選択されているときに、上記話者別コードブックデータベース3から話者ごとにコードベクトル及び特徴代表ベクトルを読み出す。そして、先に(1)式により示した変換式と、上記変換係数・しきい値制御部4から与えられる変換係数とを用いて、上記コードベクトルを特徴代表ベクトルに近づける変換処理を行う。
第2の話者特徴変換処理部7は、話者照合モードが選択されているときに、上記音声特徴生成処理部1により生成された話者の特徴ベクトル集合とその特徴代表ベクトルを取り込む。そして、先に(1)式により示した変換式と、上記変換係数・しきい値制御部4から与えられる変換係数とを用いて、上記話者の特徴ベクトル集合を特徴代表ベクトルに近づける変換処理を行う。
VQ歪み算出部8は、上記第1及び第2の話者特徴変換処理部6,7からそれぞれ変換されたコードベクトル及び変換された話者特徴ベクトルを取り込む。そして、これらの変換後のコードベクトルと話者特徴ベクトルとの間VQ歪みを算出する。
しきい値判定処理部9は、上記VQ歪み算出部8により算出されたVQ歪みを、上記変換係数・しきい値制御部4から与えられるしきい値と比較し、その比較結果を表すフラグ信号を出力する。
終了判定部10は、上記しきい値判定処理部9から出力されるフラグ信号により照合対象の話者が本人であるか否かを判定する。そして、本人と判定された場合に、変換係数・しきい値制御部4に対し変換係数変更制御信号を与えることにより変換係数及びしきい値を更新させ、これにより上記第1及び第2の話者特徴変換処理部6,7による変換処理、及びしきい値判定処理部9によるVQ歪みの判定処理を繰り返し実行させる。そして、上記繰り返し処理が予め設定された回数実行されると、その総合判定結果を照合判定情報として出力する。
次に、以上のように構成された装置の動作を説明する。
先ず、照合に先立ち照合対象となる話者、つまり本人話者の音声の特徴の登録が行われる。すなわち、本人話者が自身の音声をマイクロホンから入力すると、この入力音声は音声特徴生成処理部1において音声フレームに変換されたのち、このフレームごとにLPC分析され、これにより上記入力音声の特徴量が抽出される。そして、この特徴量をもとに特徴ベクトルの集合が生成される。また、この生成された特徴ベクトル集合はの重心ベクトルがこの特徴ベクトル集合の特徴代表ベクトルとなる。
上記生成された特徴ベクトル集合はベクトル量子化部2によりベクトル量子化されたのち、話者別名称IDと対応付けられて上記特徴代表ベクトルと共に話者別コードブックデータベース3に記憶される。他の照合対象話者についても、同様に音声の特徴ベクトル集合及びその特徴代表ベクトルが生成され、当該特徴ベクトル集合のコードベクトル及び特徴代表ベクトルが話者別コードブックデータベース3に記憶される。
また、変換係数・しきい値データベース5には、予め前実験を行うことによって得られる変換係数としきい値のセットが記憶される。
さて、以上のように各データベース3,5への登録処理が終了すると、続いて話者音声の照合処理が以下のように実行される。すなわち、照合対象話者の音声が入力されると、音声特徴生成処理部1により上記入力音声の特徴ベクトルの集合及びその特徴代表ベクトルが生成され、この特徴ベクトル集合及び特徴代表ベクトルは第2の話者特徴変換処理部7に入力される。第2の話者特徴変換処理部7では、先に(1)式により示した変換式と、上記変換係数・しきい値制御部4から与えられる変換係数とを用いて、上記話者の特徴ベクトル集合をその特徴代表ベクトルに近づける変換処理が行われる。
またそれと並行して第1の話者特徴変換処理部6では、話者別コードブックデータベース3から話者ごとにコードベクトルとその特徴代表ベクトルが読み出される。そして、先に(1)式により示した変換式と、上記変換係数・しきい値制御部4から与えられる変換係数とを用いて、上記コードベクトルをその特徴代表ベクトルに近づける変換処理が行われる。
VQ歪み算出部8では、上記変換された話者の特徴ベクトル集合と、話者別コードブックデータベース3に記憶されたコードベクトルとの間のVQ歪みが算出され、この算出されたVQ歪みはしきい値判定処理部9によりしきい値と比較される。そして、その判定結果がフラグ信号として終了判定部10に出力される。
終了判定部10では、上記フラグ信号をもとに照合対象の話者が本人であるか否かが判定される。そして、本人と判定されると、終了判定部10から変換係数・しきい値制御部4に対し変換係数変更制御信号が与えられる。この結果、変換係数・しきい値制御部4では変換係数及びしきい値が更新される。この更新は、他人受入エラー率を低減する方向に変換係数及びしきい値を一定量シフトすることにより行われる。第1及び第2の話者特徴変換処理部6,7ではそれぞれ、上記更新された変換係数を用いて上記コードベクトル及び話者の特徴ベクトル集合の変換処理が行われる。そして、この変換されたコードベクトル及び話者の特徴ベクトル集合間のVQ歪みがVQ歪み算出部8により算出され、この算出されたVQ歪みがしきい値判定処理部9においてしきい値と比較される。
終了判定部10では、この比較結果を表すフラグ信号をもとに照合対象の話者が本人であるか否かが判定され、本人であれば再び変換係数・しきい値制御部4に対し変換係数変更制御信号が与えられる。そして、第1及び第2の話者特徴変換処理部6,7では、さらに更新された変換係数をもとにコードベクトル及び話者の特徴ベクトル集合の変換処理が行われ、この変換処理後のベクトル間のVQ歪みがしきい値判定処理部9においてしきい値と比較される。
以後同様に、照合対象の話者が本人と判定されるごとに、変換係数及びしきい値が他人受入エラー率を低減する方向に順次更新され、この更新された変換係数及びしきい値をもとにコードベクトル及び話者の特徴ベクトル集合の変換処理から、VQ歪みの比較処理までの一連の照合処理が繰り返し行われる。そして、上記繰り返し回数が予め設定された1回以上の回数に達し、その時点での最終的な比較結果が本人であれば、話者は本人である旨の判定結果が出力される。これに対し、上記繰り返しの途中で他人と判定されると、話者は他人である旨の判定結果が出力される。またこの場合、照合不可と判断して、照合処理を始めからやり直すように利用者に促してもよい。
以上述べたようにこの実施形態では、音声特徴生成処理部1において入力音声から特徴量を抽出して特徴ベクトルを生成するとともに、この生成された特徴ベクトル集合の重心を求めることにより特徴代表ベクトルを生成するようにしている。そして、照合モードにおいて、第1及び第2の話者特徴変換処理部6,7により、変換係数・しきい値制御部4から与えられる変換係数をもとにコードベクトル及び話者の特徴ベクトル集合をそれぞれの特徴代表ベクトルに近づける変換処理を行い、この変換処理後のベクトル間のVQ歪みをしきい値判定処理部9によりしきい値と比較し、これにより話者の本人判定を行っている。
したがって、入力音声が背景雑音もしくはこの抑圧処理の影響により歪んだり、また話者の発話内容が異なる場合でも、話者別コードブックデータベース3に記憶されたコードベクトルの分散と、照合対象話者の特徴ベクトルの分布はそれぞれ縮小される。このため、登録話者のコードベクトルに対する照合対象話者の特徴ベクトル集合の包含は低減され、これにより登録話者のコードベクトルと照合対象話者の特徴ベクトルとの間のベクトル量子化歪みの差は顕著になり、これにより照合精度を高めることが可能となる。
すなわち、この実施形態の装置は雑音環境下において高い頑健性を備える。図11に示すように、雑音環境下における特徴ベクトルは、クリーン音声の特徴ベクトルと比較すると、雑音のみの特徴ベクトルの分布に近づく傾向にある。これは、雑音が大きくなるほど雑音に埋もれて雑音しか聞こえなくなることからも想像できる。この結果、雑音環境下では話者照合性能が低下するという問題を生じる。この問題を解決するために、一般には雑音付加音声に対して雑音抑圧処理を施す。しかし雑音抑圧処理を行うと、図11に例示するように過剰抑圧となって特徴ベクトルの分布が広がり、図5に示すような分布の包含を招くと云う副作用を生じる。
これに対しこの発明の実施形態では、特徴ベクトルに対し特徴ベクトルの分布を縮小する変換処理を行うので、雑音抑圧処理を施した場合でも上記したような副作用による特徴ベクトルの分布の包含関係の強調を軽減することができ、結果として背景雑音による性能劣化を低減できる。
さらにこの実施形態では、音声特徴生成処理部1において、入力音声の特徴ベクトル集合及び特徴代表ベクトルを生成する際に、有声音のみを対象としている。このため、背景雑音の影響を受けやすい無声音を予め特徴の抽出対象から排除することができ、これにより発話依存性を低減することができる。
またさらに、音声特徴生成処理部1において、特徴ベクトル集合の重心を算出し、この重心を特徴代表ベクトルとしている。このようにすると、発話偏りによる各特徴ベクトルのずれが平均をとることでキャンセルされ、結果として特徴代表ベクトルの変動を低減することができる。
それに加え前記実施形態では、VQ歪みとしきい値との比較の結果、話者が本人と判定された場合に、変換係数及びしきい値を他人受入エラー率が低減する方向に順次更新しながら、コードベクトル及び話者の特徴ベクトル集合の変換処理からVQ歪みの比較処理までの一連の照合処理を、複数回繰り返し実行するようにしている。このため、本人拒否率及び他人受入エラー率を共に低く保持することができる。
図10にこの実施形態に係わる装置による効果の一例を示す。この図10は、特徴量変換無しの場合、縮小率aをベクトルの次元ごとに一定にした場合、縮小率aを次元毎に異なる値とした場合の、平均誤認識率を折れ線グラフで表したものである。
この図10からも明らかなように、この実施形態による変換処理を使用することにより、本人コードブックに対する他人話者の特徴ベクトルの分布の包含関係が低減され、変換無しの場合に比べ平均誤認識率を改善することができる。
なお、この発明は上記実施形態に限定されるものではない。例えば、前記実施形態では入力音声の有声音のみを対象として特徴ベクトル及び代表ベクトルを生成するようにした。しかしこれに限らず、さらに母音のみを対象として特徴ベクトル及び代表ベクトルを生成するようにしてもよい。すなわち、通常の音声信号中には、母音が必ず含まれ、この母音は個人性を顕著に表す要素である。よって、母音の時間定常性を利用して特徴ベクトル中で母音に該当するものを抽出し、この母音ごとの特徴ベクトルを量子化したコードベクトルの平均を特徴代表ベクトルとする。このようにすると、発話偏りによる特徴代表ベクトルのずれを低減することができる。
また、特徴ベクトルはLPCケプストラムの他にMFCCやスペクトル分析から生成される特徴ベクトル、ならびに照合モデルもVQのみならずGMMなどの他の照合モデルにも適用して実施できる。
その他、コードベクトル及び話者の特徴ベクトル集合の変換処理からVQ歪みの比較処理までの一連の照合処理の繰り返し回数や、変換式の構成、パラメータの値等についても、この発明の要旨を逸脱しない範囲で種々変形して実施できる。
要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
この発明に係わる話者照合装置の一実施形態を示す機能ブロック図。 図1に示した話者照合装置の音声特徴生成処理部の構成を示す機能ブロック図。 図1に示した話者照合装置の話者コードブックデータベースに記憶される情報要素の一例を示す図。 図1に示した話者照合装置の変換係数・しきい値データベースに記憶される情報要素の一例を示す図。 変換補正前の特徴ベクトル空間の一例を示す図。 変換補正後の特徴ベクトル空間の一例を示す図。 話者Xのベクトル次元に対する特徴代表ベクトルの変化を示す図。 話者Yのベクトル次元に対する特徴代表ベクトルの変化を示す図。 ベクトル次元に対する特徴代表ベクトルの話者間のばらつきを示す図。 変換補正無し、ベクトル次元一定、ベクトル次元を3パターンに可変設定した場合の誤認識率の変化を示す図。 特徴ベクトル分布とノイズ分布との関係の一例を示す図。
符号の説明
1…音声特徴生成処理部、2…ベクトル量子化部、3…話者別コードブックデータベース、4…変換係数・しきい値制御部、5…変換係数・しきい値データベース、6,7…話者特徴変換処理部、8…VQ歪み算出部、9…しきい値判定処理部、10…終了判定部、11…前処理部、12…LPC係数算出部、13…LPCC生成部、14…話者特徴代表ベクトル生成部。

Claims (7)

  1. 話者の入力音声を複数のフレームに時分割し、この分割された複数のフレームからそれぞれ特徴ベクトルを生成する特徴ベクトル生成手段と、
    前記特徴ベクトル生成手段により生成された複数の特徴ベクトルを代表する特徴代表ベクトルを生成する特徴代表ベクトル生成手段と、
    登録対象の話者について、前記特徴ベクトル生成手段により生成された第1の特徴ベクトルをベクトル量子化することで得られるコードベクトル及び、前記特徴代表ベクトル生成手段により生成された第1の特徴代表ベクトルを記憶するコードブックと、
    照合対象の話者について、前記特徴ベクトル生成手段により生成された第2の特徴ベクトルに対し、当該第2の特徴ベクトルと前記特徴代表ベクトル生成手段により生成された第2の特徴代表ベクトルとの間の距離を縮小する変換処理を行う手段と、
    前記コードブックに記憶されたコードベクトルに対し、当該コードベクトルと前記第1の特徴代表ベクトルとの間の距離を縮小する変換処理を行う手段と、
    前記変換処理後のコードベクトルと前記変換処理後の第2の特徴ベクトルとの間のベクトル量子化歪みを算出する手段と、
    前記算出されたベクトル量子化歪みを予め設定されたしきい値と比較し、その比較結果を話者の照合結果として出力する判定手段と
    を具備し、
    前記特徴代表ベクトル生成手段は、
    前記特徴ベクトル生成手段により生成された複数の特徴ベクトルをそれぞれベクトル量子化する手段と、
    前記ベクトル量子化された複数のコードベクトルの重心を算出し、この算出された重心を特徴代表ベクトルとする手段と
    を備えることを特徴とする話者照合装置。
  2. 前記変換処理を行う手段は、特徴ベクトルの変換機能を有する変換行列に、特徴ベクトルと第1の重み行列を乗じた荷重特徴代表ベクトルとの差分を乗じた行列を求め、この行列に対して、第2の重み行列を乗じた荷重特徴代表ベクトルを加算することで変換演算を行うことを特徴とする請求項1記載の話者照合装置。
  3. 前記変換処理を行う手段は、前記変換行列が対角行列からなる場合に、当該対角行列の各対角成分を、当該対角成分の平均値、及び特徴代表ベクトルの次元ごとのばらつきから算出することを特徴とする請求項2記載の話者照合装置。
  4. 前記特徴ベクトル生成手段は、
    入力音声の複数のフレームのうち有声音フレームを抽出する手段と、
    前記抽出された有声音フレームから特徴ベクトルを生成する手段と
    を備えることを特徴とする請求項1記載の話者照合装置。
  5. 前記特徴代表ベクトル生成手段は、
    前記特徴ベクトル生成手段により生成された複数の特徴ベクトルのうち有声音フレームのみからなる特徴ベクトルを抽出する手段と、
    前記抽出された有声音のみからなる特徴ベクトルから特徴代表ベクトルを算出する手段と
    を備えることを特徴とする請求項1記載の話者照合装置。
  6. 前記特徴代表ベクトル生成手段は、
    前記特徴ベクトル生成手段により生成された複数の特徴ベクトルのうち入力音声の母音に該当する特徴ベクトルを抽出する手段と、
    前記抽出された母音に該当する特徴ベクトルから特徴代表ベクトルを算出する手段とを備えることを特徴とする請求項1記載の話者照合装置。
  7. 前記変換処理に使用する変換係数及び前記しきい値の両方を可変設定する手段と、
    前記変換係数及びしきい値の両方が可変設定されるごとに、前記コードベクトル及び第2の特徴ベクトルに対する変換処理、変換処理後のコードベクトル及び第2の特徴ベクトル間のベクトル量子化歪みの算出処理、及び算出されたベクトル量子化歪みをしきい値と比較する処理を繰り返す手段と、
    前記繰り返し処理によりえられる複数の判定結果をもとに照合結果を得る手段と
    を、さらに具備することを特徴とする請求項1記載の話者照合装置。
JP2005217478A 2005-07-27 2005-07-27 話者照合装置 Expired - Fee Related JP4714523B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005217478A JP4714523B2 (ja) 2005-07-27 2005-07-27 話者照合装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005217478A JP4714523B2 (ja) 2005-07-27 2005-07-27 話者照合装置

Publications (3)

Publication Number Publication Date
JP2007033898A JP2007033898A (ja) 2007-02-08
JP2007033898A5 JP2007033898A5 (ja) 2008-09-04
JP4714523B2 true JP4714523B2 (ja) 2011-06-29

Family

ID=37793233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005217478A Expired - Fee Related JP4714523B2 (ja) 2005-07-27 2005-07-27 話者照合装置

Country Status (1)

Country Link
JP (1) JP4714523B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11289098B2 (en) 2019-03-08 2022-03-29 Samsung Electronics Co., Ltd. Method and apparatus with speaker recognition registration

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6407634B2 (ja) * 2014-09-02 2018-10-17 株式会社Kddiテクノロジー 通話装置、声紋データの判定結果通知方法およびプログラム
JP6370172B2 (ja) * 2014-09-02 2018-08-08 株式会社Kddiテクノロジー 通話装置、声紋登録方法およびプログラム
JP6407633B2 (ja) * 2014-09-02 2018-10-17 株式会社Kddiテクノロジー 通話装置、声紋データの判定基準更新方法およびプログラム
JP6280068B2 (ja) * 2015-03-09 2018-02-14 日本電信電話株式会社 パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム
JP6430318B2 (ja) * 2015-04-06 2018-11-28 日本電信電話株式会社 不正音声入力判定装置、方法及びプログラム
DE102016203987A1 (de) * 2016-03-10 2017-09-14 Sivantos Pte. Ltd. Verfahren zum Betrieb eines Hörgeräts sowie Hörgerät

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63213899A (ja) * 1987-03-02 1988-09-06 株式会社リコー 話者照合方式
US5054083A (en) * 1989-05-09 1991-10-01 Texas Instruments Incorporated Voice verification circuit for validating the identity of an unknown person
JPH03274597A (ja) * 1990-03-26 1991-12-05 Nippon Telegr & Teleph Corp <Ntt> 話者認識方法
US5167004A (en) * 1991-02-28 1992-11-24 Texas Instruments Incorporated Temporal decorrelation method for robust speaker verification

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11289098B2 (en) 2019-03-08 2022-03-29 Samsung Electronics Co., Ltd. Method and apparatus with speaker recognition registration

Also Published As

Publication number Publication date
JP2007033898A (ja) 2007-02-08

Similar Documents

Publication Publication Date Title
Lu et al. An investigation of dependencies between frequency components and speaker characteristics for text-independent speaker identification
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
Kim et al. Regularized speaker adaptation of KL-HMM for dysarthric speech recognition
Nayana et al. Comparison of text independent speaker identification systems using GMM and i-vector methods
US8566093B2 (en) Intersession variability compensation for automatic extraction of information from voice
Yamagishi et al. A training method of average voice model for HMM-based speech synthesis
US9754602B2 (en) Obfuscated speech synthesis
US5943647A (en) Speech recognition based on HMMs
JP4714523B2 (ja) 話者照合装置
KR101041035B1 (ko) 고속 화자 인식 방법 및 장치, 고속 화자 인식을 위한 등록방법 및 장치
JPH0486899A (ja) 標準パターン適応化方式
Omer Joint MFCC-and-vector quantization based text-independent speaker recognition system
Singh et al. Features and techniques for speaker recognition
JPH07121197A (ja) 学習式音声認識方法
JP3090119B2 (ja) 話者照合装置、方法及び記憶媒体
Duxans et al. Residual conversion versus prediction on voice morphing systems
US20230317085A1 (en) Audio processing device, audio processing method, recording medium, and audio authentication system
Nair et al. A reliable speaker verification system based on LPCC and DTW
Ankita et al. Studying the effect of frame-level concatenation of GFCC and TS-MFCC features on zero-shot children’s ASR
JP2006078654A (ja) 音声認証装置及び方法並びにプログラム
JP2005091758A (ja) 話者認識システム及び方法
Zergat et al. Robust support vector machines for speaker verification task
Punchihewa et al. Voice command interpretation for robot control
KR100435441B1 (ko) 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법
JP2013003470A (ja) 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080716

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080716

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20101028

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110127

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110328

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140401

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

LAPS Cancellation because of no payment of annual fees