JP4714523B2

JP4714523B2 - 話者照合装置

Info

Publication number: JP4714523B2
Application number: JP2005217478A
Authority: JP
Inventors: 千加志杉浦; 岳彦井阪
Original assignee: Fujitsu Toshiba Mobile Communication Ltd
Current assignee: Fujitsu Mobile Communications Ltd
Priority date: 2005-07-27
Filing date: 2005-07-27
Publication date: 2011-06-29
Anticipated expiration: 2025-07-27
Also published as: JP2007033898A

Description

この発明は、例えば利用者の音声の特徴を抽出して本人認証を行う話者照合装置に関する。

近年、例えばセキュアな状態が要求される建物への入室や機器の使用に際し、利用者の音声の特徴を抽出して本人認証を行う話者照合装置が種々提案されている。
例えば、話者ごとにその入力音声をサンプリングしてその特徴量から特徴ベクトルを求め、この特徴ベクトルをベクトル量子化してコードブックに登録する。そして、以後利用者の音声が入力されるごとに、この入力音声の特徴量をもとに特徴ベクトルを求め、この特徴ベクトルをベクトル量子化したのち上記コードブックに登録されたベクトルと照合することにより本人認証を行う装置が知られている（例えば、特許文献１を参照。）。

また、別の話者照合装置として、本人話者の特徴ベクトルと他人話者の特徴ベクトルとをもとに共分散行列を計算する。そして、この計算された共分散行列を用いて特徴ベクトルを変換することにより、統計的に識別性能を向上させる装置も提案されている（例えば、特許文献２を参照。）。
特開平７−２４８７９１号公報特許第３０８０３８８号明細書

ところが、特許文献１に記載された装置では、予めコードブックに登録された利用者本人の音声の特徴ベクトルと、入力音声の特徴ベクトルとをただ単純に照合するようにしている。このため、音声が背景雑音の影響により歪んだり、また話者の発話内容が異なると、他人話者の特徴量分布がコードブックに登録された本人話者の特徴量分布に包含され、この結果他人話者を本人話者と誤認識したり、また本人話者を他人話者として誤認識する場合があり、照合精度が低かった。

一方、特許文献２に記載された装置では、共分散行列をもとに特徴ベクトルを変換するようにしている。このため、特許文献１に記載された装置に比べ照合精度を高めることが可能である。しかしながら、共分散行列を計算するためには他人話者の音声の特徴ベクトルを取得する必要があり、その処理のために余計な手間やコストが必要となる。

この発明は上記事情に着目してなされたもので、その目的とするところは、音声が背景雑音もしくはこの抑圧処理の影響により歪んだり、また話者の発話内容が異なる場合でも、他人話者の音声の特徴ベクトルを必要とすることなく照合精度を高めることを可能にした話者照合装置を提供することにある。

上記目的を達成するためにこの発明は、話者の入力音声を時分割した複数のフレームからそれぞれ特徴ベクトルを生成すると共に、この生成された複数の特徴ベクトルを代表する特徴代表ベクトルを生成する手段を備える。そして、登録対象の話者については、上記生成された特徴ベクトルをベクトル量子化することで生成されるコードベクトル及び特徴代表ベクトルをコードブックに記憶する。一方照合を行う際には、上記コードブックに記憶された第１の特徴ベクトルに対し、当該第１の特徴ベクトルと上記第１の特徴代表ベクトルとの間の距離を縮小する変換処理を行い、かつ照合対象の話者の入力音声から生成される第２の特徴ベクトルに対し、当該第２の特徴ベクトルと第２の特徴代表ベクトルとの間の距離を縮小する変換処理を行う。そして、上記変換処理後のコードベクトル及び第２の特徴ベクトル間のベクトル量子化歪みを算出し、この算出されたベクトル量子化歪みを予め設定されたしきい値と比較して、その比較結果を照合結果として出力するように構成したものである。そして、特徴代表ベクトルを生成する手段は、特徴ベクトルを生成する手段により生成された複数の特徴ベクトルをそれぞれベクトル量子化する手段と、ベクトル量子化された複数のコードベクトルの重心を算出し、この算出された重心を特徴代表ベクトルとする手段とを備える。

したがって、入力音声が背景雑音もしくはこれを抑圧処理した影響により歪んだり、また話者の発話内容が異なる場合でも、特徴ベクトルに対し上記変換処理を施すことにより、コードブックに記憶された登録対象のコードベクトルの分布と、照合対象話者の特徴ベクトルの分布がそれぞれ縮小される。このため、登録対象話者のコードベクトルに対する照合対象話者の特徴ベクトル集合の包含は低減される。したがって、登録対象話者のコードベクトルと照合対象話者の特徴ベクトルとの間のベクトル量子化歪みの差は顕著になり、これにより照合精度を高めることが可能となる。

要するにこの発明では、コードブックに記憶された第１の特徴ベクトル、及び照合対象話者の入力音声から生成される第２の特徴ベクトルに対し、それぞれ当該第１の特徴ベクトルとその特徴代表ベクトルとの間、及び第２の特徴ベクトルとその特徴代表ベクトルとの間の距離を縮小する変換処理を行う。そして、上記変換処理後のコードベクトル及び第２の特徴ベクトル間のベクトル量子化歪みを算出し、この算出されたベクトル量子化歪みを予め設定されたしきい値と比較して、その比較結果を話者の照合結果として出力するようにしている。

したがってこの発明によれば、音声が背景雑音もしくはこの抑圧処理の影響により歪んだり、また話者の発話内容が異なる場合でも、他人話者の音声の特徴ベクトルを必要とすることなく照合精度を高めることを可能にした照合装置を提供することができる。

以下、図面を参照してこの発明の実施形態を説明する。
先ず、この発明の原理について説明する。
ベクトル量子化（Vector Quantization；ＶＱ）モデルを用いた話者照合において発生する他人受入エラーは、例えば図５に示すように他人話者の特徴ベクトルが本人コードブックに包含されて、ＶＱ歪みが小さくなるために起こる。この問題を回避するには、本人コードブック及び他人話者の特徴ベクトルの分布をそれぞれ縮小する話者内分布補正が有効である。例えば図６に示すように、比較対象の本人コードブック及び他人話者の特徴ベクトルのそれぞれにおいて、コードベクトル及び特徴ベクトルの分布を各特徴代表ベクトル方向に近づければよい。

この話者内分布補正処理は、コードベクトル及び特徴ベクトルに対しそれぞれ、当該ベクトルと特徴代表ベクトルとの間の距離を縮小する変換処理を行うことにより実現される。例えば、変換処理前の特徴ベクトルをｖ_i 、変換処理後の特徴ベクトルをｖ_i ′、特徴代表ベクトルをｖ_g 、変換行列をＡ、第１の重み行列をＢ、第２の重み行列をＣ、ベクトル数をＮとすると、変換式は次の（１）式で表される。

この（１）式において、変換行列Ａは例えば対角成分diag{A}が０．０以上であるＤｘＤの対角行列で表される。また、第１ならびに第２の重み行列Ｂ、Ｃは例えばＤｘＤの単位行列である。なお、Ｄはベクトル次元数を示している。

特徴代表ベクトルは、例えばコードベクトル及び特徴ベクトル集合の重心として表すことができる。このようにコードベクトル及び特徴ベクトル集合の重心をそれぞれ特徴代表ベクトルとすることにより、背景雑音もしくはこの抑圧処理による影響や、発話内容の違いによるコードベクトルならびに特徴ベクトルの変動を吸収することができ、話者のみに依存させることが可能となる。

上述した対角行列Ａの各対角成分をａ_dとすると、特徴ベクトルの分布を小さくするためにはａ_dの値の範囲は０．０〜１．０であり、ここで、ａ_dを縮小率と呼ぶことにする。縮小率ａ_ｄは、例えば、すべての次元に対しａ_ｄ＝１．０を設定すると、無変換の状態となる。これに対しすべての次元に対しａ_ｄ＝０．０を設定すると、特徴代表ベクトルのみを話者の特徴ベクトルとする状態となる。
図７及び図８は特徴代表ベクトルの話者依存性の一例を示すもので、図７は話者Ｘの特徴代表ベクトルを、また図８は話者Ｙの特徴代表ベクトルをそれぞれ示している。図９は上記話者Ｘと話者Ｙの特徴代表ベクトルを重ねて表したものである。

同図から明らかなように、話者間における特徴代表ベクトルのばらつきが大きい次元は、より話者間の特徴の差を顕著に表す次元である。これに対し特徴代表ベクトルのばらつきが小さい次元は、話者間の特徴の差が少ない次元である。そこで、ばらつきが大きい次元に対しては縮小率ａ_ｄを０．０に近い値に設定し、一方ばらつきが小さい次元については縮小率ａ_ｄを１．０に近い値に設定する。この縮小率ａ_ｄの算出式は例えば次の（２）式のように表される。

ただし、σ_d は話者間の特徴代表ベクトルの次元ごとの標準偏差（d=1,2,,,D）であり、特徴代表ベクトルにおいてどの次元に話者性が現れやすいかを示す。値が大きいほど話者性が現れやすい次元である。ｐは縮小率ａ_ｄの次元平均をＢにするための調整用パラメータであり、直接値を指定することはなく、次式によって表される。

同式において、Ｂは縮小率ａ_dの次元平均値であり、話者特徴ベクトルの包含を低減するためのパラメータである。Ｂは値が大きいほど包含の低減効果が少なくなる。これに対し、値が小さいほど包含の低減効果が大きいが、値を小さくし過ぎると話者の特徴代表ベクトルの変動によるＶＱ歪みの増大が顕著になるため、本人許否エラーが発生しやすくなる。このパラメータＢは、例えば０．５付近の値を設定するのが好ましく、値を小さくし過ぎることによる過剰な補正は避ける方が望ましい。

ｑは標準偏差σ_dの次元ごとの差をどの程度強調させるかを制御するパラメータであり、ｑ＝０．０のときに強調の程度が最大となる。これに対し、ｑ＝Ｂのときに次元ごとの差は無くなり、縮小率は次元一定の値＝Ｂとなる（このときｐ＝０．０）。
上記標準偏差σ_dは、予め複数話者の複数の環境下における特徴ベクトルを分析し算出しておくことで、適当な値を設定することが可能である。ここで、算出値は充分に多くの話者数、雑音環境下での音声を分析して得られるものであれば、音声信号から抽出される特徴ベクトルの普遍的な性質であると見なすことができる。つまり、この値は事前に算出すればよいものであり、使用環境に応じて値を事後的に算出しなくてもよい。また、特徴ベクトルにはＬＰＣケプストラムなどのケプストラム係数を用いているので、分析用の環境と実環境でのマイクロホンなどを含む音声入力系の違いは特徴ベクトルの線形差分として現れる。このため上記音声入力系の違いは、話者間の特徴代表ベクトルの標準偏差σ_dを計算する際に吸収される。

次に、この発明に係わる話者照合装置の一実施形態を説明する。
図１はその機能構成を示すブロック図である。この話者照合装置は、音声特徴生成処理部１を備えている。音声特徴生成処理部１は、入力された話者の音声から特徴ベクトルを生成すると共に、この生成された特徴ベクトル集合の重心を求めてこの重心を特徴代表ベクトルとする。

図２はこの音声特徴生成処理部１の機能構成を示すブロック図である。音声特徴生成処理部１は、前処理部１１と、ＬＰＣ係数算出部１２と、ＬＰＣＣ生成部１３と、話者特徴代表ベクトル生成部１４とを有している。
前処理部１１は、入力された音声信号に対しアナログ−ディジタル（Ａ／Ｄ）変換、ならびに雑音抑圧処理を行ったのち音声分析区間を設定し、この分析区間内の音声波形を一定の時間及び一定のシフト周期で分析窓により切り出し、音声フレームを生成して保持する。

ＬＰＣ係数算出部１２は、上記前処理部１１により形成された各音声フレームから、線形予測符号化（Linear Prediction Coding；ＬＰＣ）により音声信号に含まれている個人性情報に関する特徴量を抽出する。ＬＰＣＣ生成部１３は、上記ＬＰＣ係数算出部１２により抽出された特徴量をもとに特徴ベクトル（ＬＰＣケプストラム、パワー項０次を含まない１次以上のパラメータ）を生成する。話者特徴代表ベクトル生成部１４は、上記ＬＰＣＣ生成部１３により生成された特徴ベクトル集合の重心を算出する。そして、この算出された重心を特徴代表ベクトルとする。

またこの話者照合装置は、話者登録処理のための機能として、ベクトル量子化部２と、話者別コードブックデータベース３とを備える。ベクトル量子化部２は、話者登録モードが選択されている状態で、上記音声特徴生成処理部１により生成された特徴ベクトル集合とその特徴代表ベクトルを取り込む。そして、特徴ベクトルに対しベクトル量子化を行い、コードベクトルを出力する。話者別コードブックデータベース３は、例えば図３に示すように、上記ベクトル量子化部２により生成されたコードベクトルと、上記音声特徴生成処理部１により生成された特徴代表ベクトルを、図示しない話者名入力手段により入力された話者別名称ＩＤに対応付けて記憶する。

さらにこの話者照合装置は、話者照合処理のために必要な機能として、変換係数・しきい値制御部４と、変換係数・しきい値データベース５と、第１の話者特徴変換処理部６と、第２の話者特徴変換処理部７と、ＶＱ歪み算出部８と、しきい値判定処理部９と、終了判定部１０とを備えている。

変換係数・しきい値制御部４は、他人受入エラー率を低減するための話者特徴変換係数と、この値に対応したＶＱ歪み判定用のしきい値を変換係数・しきい値データベース５から読み込む。話者特徴変換係数は、縮小率ａのことを指している。縮小率ａは、先に示した（２）式に従い、話者間における特徴代表ベクトルの次元ごとのばらつきを考慮して、事前に用意された値である。しきい値は、本人受入率と他人拒否率が等しくなるように設定されている。変換係数・しきい値データベース５は、例えば図４に示すように、上記算出及び設定された話者特徴変換係数及び判定しきい値を、記憶する。

第１の話者特徴変換処理部６は、話者照合モードが選択されているときに、上記話者別コードブックデータベース３から話者ごとにコードベクトル及び特徴代表ベクトルを読み出す。そして、先に（１）式により示した変換式と、上記変換係数・しきい値制御部４から与えられる変換係数とを用いて、上記コードベクトルを特徴代表ベクトルに近づける変換処理を行う。

第２の話者特徴変換処理部７は、話者照合モードが選択されているときに、上記音声特徴生成処理部１により生成された話者の特徴ベクトル集合とその特徴代表ベクトルを取り込む。そして、先に（１）式により示した変換式と、上記変換係数・しきい値制御部４から与えられる変換係数とを用いて、上記話者の特徴ベクトル集合を特徴代表ベクトルに近づける変換処理を行う。

ＶＱ歪み算出部８は、上記第１及び第２の話者特徴変換処理部６，７からそれぞれ変換されたコードベクトル及び変換された話者特徴ベクトルを取り込む。そして、これらの変換後のコードベクトルと話者特徴ベクトルとの間ＶＱ歪みを算出する。
しきい値判定処理部９は、上記ＶＱ歪み算出部８により算出されたＶＱ歪みを、上記変換係数・しきい値制御部４から与えられるしきい値と比較し、その比較結果を表すフラグ信号を出力する。

終了判定部１０は、上記しきい値判定処理部９から出力されるフラグ信号により照合対象の話者が本人であるか否かを判定する。そして、本人と判定された場合に、変換係数・しきい値制御部４に対し変換係数変更制御信号を与えることにより変換係数及びしきい値を更新させ、これにより上記第１及び第２の話者特徴変換処理部６，７による変換処理、及びしきい値判定処理部９によるＶＱ歪みの判定処理を繰り返し実行させる。そして、上記繰り返し処理が予め設定された回数実行されると、その総合判定結果を照合判定情報として出力する。

次に、以上のように構成された装置の動作を説明する。
先ず、照合に先立ち照合対象となる話者、つまり本人話者の音声の特徴の登録が行われる。すなわち、本人話者が自身の音声をマイクロホンから入力すると、この入力音声は音声特徴生成処理部１において音声フレームに変換されたのち、このフレームごとにＬＰＣ分析され、これにより上記入力音声の特徴量が抽出される。そして、この特徴量をもとに特徴ベクトルの集合が生成される。また、この生成された特徴ベクトル集合はの重心ベクトルがこの特徴ベクトル集合の特徴代表ベクトルとなる。

上記生成された特徴ベクトル集合はベクトル量子化部２によりベクトル量子化されたのち、話者別名称ＩＤと対応付けられて上記特徴代表ベクトルと共に話者別コードブックデータベース３に記憶される。他の照合対象話者についても、同様に音声の特徴ベクトル集合及びその特徴代表ベクトルが生成され、当該特徴ベクトル集合のコードベクトル及び特徴代表ベクトルが話者別コードブックデータベース３に記憶される。
また、変換係数・しきい値データベース５には、予め前実験を行うことによって得られる変換係数としきい値のセットが記憶される。

さて、以上のように各データベース３，５への登録処理が終了すると、続いて話者音声の照合処理が以下のように実行される。すなわち、照合対象話者の音声が入力されると、音声特徴生成処理部１により上記入力音声の特徴ベクトルの集合及びその特徴代表ベクトルが生成され、この特徴ベクトル集合及び特徴代表ベクトルは第２の話者特徴変換処理部７に入力される。第２の話者特徴変換処理部７では、先に（１）式により示した変換式と、上記変換係数・しきい値制御部４から与えられる変換係数とを用いて、上記話者の特徴ベクトル集合をその特徴代表ベクトルに近づける変換処理が行われる。

またそれと並行して第１の話者特徴変換処理部６では、話者別コードブックデータベース３から話者ごとにコードベクトルとその特徴代表ベクトルが読み出される。そして、先に（１）式により示した変換式と、上記変換係数・しきい値制御部４から与えられる変換係数とを用いて、上記コードベクトルをその特徴代表ベクトルに近づける変換処理が行われる。

ＶＱ歪み算出部８では、上記変換された話者の特徴ベクトル集合と、話者別コードブックデータベース３に記憶されたコードベクトルとの間のＶＱ歪みが算出され、この算出されたＶＱ歪みはしきい値判定処理部９によりしきい値と比較される。そして、その判定結果がフラグ信号として終了判定部１０に出力される。

終了判定部１０では、上記フラグ信号をもとに照合対象の話者が本人であるか否かが判定される。そして、本人と判定されると、終了判定部１０から変換係数・しきい値制御部４に対し変換係数変更制御信号が与えられる。この結果、変換係数・しきい値制御部４では変換係数及びしきい値が更新される。この更新は、他人受入エラー率を低減する方向に変換係数及びしきい値を一定量シフトすることにより行われる。第１及び第２の話者特徴変換処理部６，７ではそれぞれ、上記更新された変換係数を用いて上記コードベクトル及び話者の特徴ベクトル集合の変換処理が行われる。そして、この変換されたコードベクトル及び話者の特徴ベクトル集合間のＶＱ歪みがＶＱ歪み算出部８により算出され、この算出されたＶＱ歪みがしきい値判定処理部９においてしきい値と比較される。

終了判定部１０では、この比較結果を表すフラグ信号をもとに照合対象の話者が本人であるか否かが判定され、本人であれば再び変換係数・しきい値制御部４に対し変換係数変更制御信号が与えられる。そして、第１及び第２の話者特徴変換処理部６，７では、さらに更新された変換係数をもとにコードベクトル及び話者の特徴ベクトル集合の変換処理が行われ、この変換処理後のベクトル間のＶＱ歪みがしきい値判定処理部９においてしきい値と比較される。

以後同様に、照合対象の話者が本人と判定されるごとに、変換係数及びしきい値が他人受入エラー率を低減する方向に順次更新され、この更新された変換係数及びしきい値をもとにコードベクトル及び話者の特徴ベクトル集合の変換処理から、ＶＱ歪みの比較処理までの一連の照合処理が繰り返し行われる。そして、上記繰り返し回数が予め設定された１回以上の回数に達し、その時点での最終的な比較結果が本人であれば、話者は本人である旨の判定結果が出力される。これに対し、上記繰り返しの途中で他人と判定されると、話者は他人である旨の判定結果が出力される。またこの場合、照合不可と判断して、照合処理を始めからやり直すように利用者に促してもよい。

以上述べたようにこの実施形態では、音声特徴生成処理部１において入力音声から特徴量を抽出して特徴ベクトルを生成するとともに、この生成された特徴ベクトル集合の重心を求めることにより特徴代表ベクトルを生成するようにしている。そして、照合モードにおいて、第１及び第２の話者特徴変換処理部６，７により、変換係数・しきい値制御部４から与えられる変換係数をもとにコードベクトル及び話者の特徴ベクトル集合をそれぞれの特徴代表ベクトルに近づける変換処理を行い、この変換処理後のベクトル間のＶＱ歪みをしきい値判定処理部９によりしきい値と比較し、これにより話者の本人判定を行っている。

したがって、入力音声が背景雑音もしくはこの抑圧処理の影響により歪んだり、また話者の発話内容が異なる場合でも、話者別コードブックデータベース３に記憶されたコードベクトルの分散と、照合対象話者の特徴ベクトルの分布はそれぞれ縮小される。このため、登録話者のコードベクトルに対する照合対象話者の特徴ベクトル集合の包含は低減され、これにより登録話者のコードベクトルと照合対象話者の特徴ベクトルとの間のベクトル量子化歪みの差は顕著になり、これにより照合精度を高めることが可能となる。

すなわち、この実施形態の装置は雑音環境下において高い頑健性を備える。図１１に示すように、雑音環境下における特徴ベクトルは、クリーン音声の特徴ベクトルと比較すると、雑音のみの特徴ベクトルの分布に近づく傾向にある。これは、雑音が大きくなるほど雑音に埋もれて雑音しか聞こえなくなることからも想像できる。この結果、雑音環境下では話者照合性能が低下するという問題を生じる。この問題を解決するために、一般には雑音付加音声に対して雑音抑圧処理を施す。しかし雑音抑圧処理を行うと、図１１に例示するように過剰抑圧となって特徴ベクトルの分布が広がり、図５に示すような分布の包含を招くと云う副作用を生じる。

これに対しこの発明の実施形態では、特徴ベクトルに対し特徴ベクトルの分布を縮小する変換処理を行うので、雑音抑圧処理を施した場合でも上記したような副作用による特徴ベクトルの分布の包含関係の強調を軽減することができ、結果として背景雑音による性能劣化を低減できる。

さらにこの実施形態では、音声特徴生成処理部１において、入力音声の特徴ベクトル集合及び特徴代表ベクトルを生成する際に、有声音のみを対象としている。このため、背景雑音の影響を受けやすい無声音を予め特徴の抽出対象から排除することができ、これにより発話依存性を低減することができる。
またさらに、音声特徴生成処理部１において、特徴ベクトル集合の重心を算出し、この重心を特徴代表ベクトルとしている。このようにすると、発話偏りによる各特徴ベクトルのずれが平均をとることでキャンセルされ、結果として特徴代表ベクトルの変動を低減することができる。

それに加え前記実施形態では、ＶＱ歪みとしきい値との比較の結果、話者が本人と判定された場合に、変換係数及びしきい値を他人受入エラー率が低減する方向に順次更新しながら、コードベクトル及び話者の特徴ベクトル集合の変換処理からＶＱ歪みの比較処理までの一連の照合処理を、複数回繰り返し実行するようにしている。このため、本人拒否率及び他人受入エラー率を共に低く保持することができる。

図１０にこの実施形態に係わる装置による効果の一例を示す。この図１０は、特徴量変換無しの場合、縮小率ａをベクトルの次元ごとに一定にした場合、縮小率ａを次元毎に異なる値とした場合の、平均誤認識率を折れ線グラフで表したものである。
この図１０からも明らかなように、この実施形態による変換処理を使用することにより、本人コードブックに対する他人話者の特徴ベクトルの分布の包含関係が低減され、変換無しの場合に比べ平均誤認識率を改善することができる。

なお、この発明は上記実施形態に限定されるものではない。例えば、前記実施形態では入力音声の有声音のみを対象として特徴ベクトル及び代表ベクトルを生成するようにした。しかしこれに限らず、さらに母音のみを対象として特徴ベクトル及び代表ベクトルを生成するようにしてもよい。すなわち、通常の音声信号中には、母音が必ず含まれ、この母音は個人性を顕著に表す要素である。よって、母音の時間定常性を利用して特徴ベクトル中で母音に該当するものを抽出し、この母音ごとの特徴ベクトルを量子化したコードベクトルの平均を特徴代表ベクトルとする。このようにすると、発話偏りによる特徴代表ベクトルのずれを低減することができる。

また、特徴ベクトルはＬＰＣケプストラムの他にＭＦＣＣやスペクトル分析から生成される特徴ベクトル、ならびに照合モデルもＶＱのみならずＧＭＭなどの他の照合モデルにも適用して実施できる。
その他、コードベクトル及び話者の特徴ベクトル集合の変換処理からＶＱ歪みの比較処理までの一連の照合処理の繰り返し回数や、変換式の構成、パラメータの値等についても、この発明の要旨を逸脱しない範囲で種々変形して実施できる。

要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

この発明に係わる話者照合装置の一実施形態を示す機能ブロック図。図１に示した話者照合装置の音声特徴生成処理部の構成を示す機能ブロック図。図１に示した話者照合装置の話者コードブックデータベースに記憶される情報要素の一例を示す図。図１に示した話者照合装置の変換係数・しきい値データベースに記憶される情報要素の一例を示す図。変換補正前の特徴ベクトル空間の一例を示す図。変換補正後の特徴ベクトル空間の一例を示す図。話者Ｘのベクトル次元に対する特徴代表ベクトルの変化を示す図。話者Ｙのベクトル次元に対する特徴代表ベクトルの変化を示す図。ベクトル次元に対する特徴代表ベクトルの話者間のばらつきを示す図。変換補正無し、ベクトル次元一定、ベクトル次元を３パターンに可変設定した場合の誤認識率の変化を示す図。特徴ベクトル分布とノイズ分布との関係の一例を示す図。

符号の説明

１…音声特徴生成処理部、２…ベクトル量子化部、３…話者別コードブックデータベース、４…変換係数・しきい値制御部、５…変換係数・しきい値データベース、６，７…話者特徴変換処理部、８…ＶＱ歪み算出部、９…しきい値判定処理部、１０…終了判定部、１１…前処理部、１２…ＬＰＣ係数算出部、１３…ＬＰＣＣ生成部、１４…話者特徴代表ベクトル生成部。

Claims

話者の入力音声を複数のフレームに時分割し、この分割された複数のフレームからそれぞれ特徴ベクトルを生成する特徴ベクトル生成手段と、
前記特徴ベクトル生成手段により生成された複数の特徴ベクトルを代表する特徴代表ベクトルを生成する特徴代表ベクトル生成手段と、
登録対象の話者について、前記特徴ベクトル生成手段により生成された第１の特徴ベクトルをベクトル量子化することで得られるコードベクトル及び、前記特徴代表ベクトル生成手段により生成された第１の特徴代表ベクトルを記憶するコードブックと、
照合対象の話者について、前記特徴ベクトル生成手段により生成された第２の特徴ベクトルに対し、当該第２の特徴ベクトルと前記特徴代表ベクトル生成手段により生成された第２の特徴代表ベクトルとの間の距離を縮小する変換処理を行う手段と、
前記コードブックに記憶されたコードベクトルに対し、当該コードベクトルと前記第１の特徴代表ベクトルとの間の距離を縮小する変換処理を行う手段と、
前記変換処理後のコードベクトルと前記変換処理後の第２の特徴ベクトルとの間のベクトル量子化歪みを算出する手段と、
前記算出されたベクトル量子化歪みを予め設定されたしきい値と比較し、その比較結果を話者の照合結果として出力する判定手段と
を具備し、
前記特徴代表ベクトル生成手段は、
前記特徴ベクトル生成手段により生成された複数の特徴ベクトルをそれぞれベクトル量子化する手段と、
前記ベクトル量子化された複数のコードベクトルの重心を算出し、この算出された重心を特徴代表ベクトルとする手段と
を備えることを特徴とする話者照合装置。
前記変換処理を行う手段は、特徴ベクトルの変換機能を有する変換行列に、特徴ベクトルと第１の重み行列を乗じた荷重特徴代表ベクトルとの差分を乗じた行列を求め、この行列に対して、第２の重み行列を乗じた荷重特徴代表ベクトルを加算することで変換演算を行うことを特徴とする請求項１記載の話者照合装置。
前記変換処理を行う手段は、前記変換行列が対角行列からなる場合に、当該対角行列の各対角成分を、当該対角成分の平均値、及び特徴代表ベクトルの次元ごとのばらつきから算出することを特徴とする請求項２記載の話者照合装置。
前記特徴ベクトル生成手段は、
入力音声の複数のフレームのうち有声音フレームを抽出する手段と、
前記抽出された有声音フレームから特徴ベクトルを生成する手段と
を備えることを特徴とする請求項１記載の話者照合装置。
前記特徴代表ベクトル生成手段は、
前記特徴ベクトル生成手段により生成された複数の特徴ベクトルのうち有声音フレームのみからなる特徴ベクトルを抽出する手段と、
前記抽出された有声音のみからなる特徴ベクトルから特徴代表ベクトルを算出する手段と
を備えることを特徴とする請求項１記載の話者照合装置。
前記特徴代表ベクトル生成手段は、
前記特徴ベクトル生成手段により生成された複数の特徴ベクトルのうち入力音声の母音に該当する特徴ベクトルを抽出する手段と、
前記抽出された母音に該当する特徴ベクトルから特徴代表ベクトルを算出する手段とを備えることを特徴とする請求項１記載の話者照合装置。
前記変換処理に使用する変換係数及び前記しきい値の両方を可変設定する手段と、
前記変換係数及びしきい値の両方が可変設定されるごとに、前記コードベクトル及び第２の特徴ベクトルに対する変換処理、変換処理後のコードベクトル及び第２の特徴ベクトル間のベクトル量子化歪みの算出処理、及び算出されたベクトル量子化歪みをしきい値と比較する処理を繰り返す手段と、
前記繰り返し処理によりえられる複数の判定結果をもとに照合結果を得る手段と
を、さらに具備することを特徴とする請求項１記載の話者照合装置。