JP4714523B2 - 話者照合装置 - Google Patents
話者照合装置 Download PDFInfo
- Publication number
- JP4714523B2 JP4714523B2 JP2005217478A JP2005217478A JP4714523B2 JP 4714523 B2 JP4714523 B2 JP 4714523B2 JP 2005217478 A JP2005217478 A JP 2005217478A JP 2005217478 A JP2005217478 A JP 2005217478A JP 4714523 B2 JP4714523 B2 JP 4714523B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- feature
- speaker
- feature vector
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
例えば、話者ごとにその入力音声をサンプリングしてその特徴量から特徴ベクトルを求め、この特徴ベクトルをベクトル量子化してコードブックに登録する。そして、以後利用者の音声が入力されるごとに、この入力音声の特徴量をもとに特徴ベクトルを求め、この特徴ベクトルをベクトル量子化したのち上記コードブックに登録されたベクトルと照合することにより本人認証を行う装置が知られている(例えば、特許文献1を参照。)。
先ず、この発明の原理について説明する。
ベクトル量子化(Vector Quantization;VQ)モデルを用いた話者照合において発生する他人受入エラーは、例えば図5に示すように他人話者の特徴ベクトルが本人コードブックに包含されて、VQ歪みが小さくなるために起こる。この問題を回避するには、本人コードブック及び他人話者の特徴ベクトルの分布をそれぞれ縮小する話者内分布補正が有効である。例えば図6に示すように、比較対象の本人コードブック及び他人話者の特徴ベクトルのそれぞれにおいて、コードベクトル及び特徴ベクトルの分布を各特徴代表ベクトル方向に近づければよい。
図7及び図8は特徴代表ベクトルの話者依存性の一例を示すもので、図7は話者Xの特徴代表ベクトルを、また図8は話者Yの特徴代表ベクトルをそれぞれ示している。図9は上記話者Xと話者Yの特徴代表ベクトルを重ねて表したものである。
上記標準偏差σdは、予め複数話者の複数の環境下における特徴ベクトルを分析し算出しておくことで、適当な値を設定することが可能である。ここで、算出値は充分に多くの話者数、雑音環境下での音声を分析して得られるものであれば、音声信号から抽出される特徴ベクトルの普遍的な性質であると見なすことができる。つまり、この値は事前に算出すればよいものであり、使用環境に応じて値を事後的に算出しなくてもよい。また、特徴ベクトルにはLPCケプストラムなどのケプストラム係数を用いているので、分析用の環境と実環境でのマイクロホンなどを含む音声入力系の違いは特徴ベクトルの線形差分として現れる。このため上記音声入力系の違いは、話者間の特徴代表ベクトルの標準偏差σdを計算する際に吸収される。
図1はその機能構成を示すブロック図である。この話者照合装置は、音声特徴生成処理部1を備えている。音声特徴生成処理部1は、入力された話者の音声から特徴ベクトルを生成すると共に、この生成された特徴ベクトル集合の重心を求めてこの重心を特徴代表ベクトルとする。
前処理部11は、入力された音声信号に対しアナログ−ディジタル(A/D)変換、ならびに雑音抑圧処理を行ったのち音声分析区間を設定し、この分析区間内の音声波形を一定の時間及び一定のシフト周期で分析窓により切り出し、音声フレームを生成して保持する。
しきい値判定処理部9は、上記VQ歪み算出部8により算出されたVQ歪みを、上記変換係数・しきい値制御部4から与えられるしきい値と比較し、その比較結果を表すフラグ信号を出力する。
先ず、照合に先立ち照合対象となる話者、つまり本人話者の音声の特徴の登録が行われる。すなわち、本人話者が自身の音声をマイクロホンから入力すると、この入力音声は音声特徴生成処理部1において音声フレームに変換されたのち、このフレームごとにLPC分析され、これにより上記入力音声の特徴量が抽出される。そして、この特徴量をもとに特徴ベクトルの集合が生成される。また、この生成された特徴ベクトル集合はの重心ベクトルがこの特徴ベクトル集合の特徴代表ベクトルとなる。
また、変換係数・しきい値データベース5には、予め前実験を行うことによって得られる変換係数としきい値のセットが記憶される。
またさらに、音声特徴生成処理部1において、特徴ベクトル集合の重心を算出し、この重心を特徴代表ベクトルとしている。このようにすると、発話偏りによる各特徴ベクトルのずれが平均をとることでキャンセルされ、結果として特徴代表ベクトルの変動を低減することができる。
この図10からも明らかなように、この実施形態による変換処理を使用することにより、本人コードブックに対する他人話者の特徴ベクトルの分布の包含関係が低減され、変換無しの場合に比べ平均誤認識率を改善することができる。
その他、コードベクトル及び話者の特徴ベクトル集合の変換処理からVQ歪みの比較処理までの一連の照合処理の繰り返し回数や、変換式の構成、パラメータの値等についても、この発明の要旨を逸脱しない範囲で種々変形して実施できる。
Claims (7)
- 話者の入力音声を複数のフレームに時分割し、この分割された複数のフレームからそれぞれ特徴ベクトルを生成する特徴ベクトル生成手段と、
前記特徴ベクトル生成手段により生成された複数の特徴ベクトルを代表する特徴代表ベクトルを生成する特徴代表ベクトル生成手段と、
登録対象の話者について、前記特徴ベクトル生成手段により生成された第1の特徴ベクトルをベクトル量子化することで得られるコードベクトル及び、前記特徴代表ベクトル生成手段により生成された第1の特徴代表ベクトルを記憶するコードブックと、
照合対象の話者について、前記特徴ベクトル生成手段により生成された第2の特徴ベクトルに対し、当該第2の特徴ベクトルと前記特徴代表ベクトル生成手段により生成された第2の特徴代表ベクトルとの間の距離を縮小する変換処理を行う手段と、
前記コードブックに記憶されたコードベクトルに対し、当該コードベクトルと前記第1の特徴代表ベクトルとの間の距離を縮小する変換処理を行う手段と、
前記変換処理後のコードベクトルと前記変換処理後の第2の特徴ベクトルとの間のベクトル量子化歪みを算出する手段と、
前記算出されたベクトル量子化歪みを予め設定されたしきい値と比較し、その比較結果を話者の照合結果として出力する判定手段と
を具備し、
前記特徴代表ベクトル生成手段は、
前記特徴ベクトル生成手段により生成された複数の特徴ベクトルをそれぞれベクトル量子化する手段と、
前記ベクトル量子化された複数のコードベクトルの重心を算出し、この算出された重心を特徴代表ベクトルとする手段と
を備えることを特徴とする話者照合装置。 - 前記変換処理を行う手段は、特徴ベクトルの変換機能を有する変換行列に、特徴ベクトルと第1の重み行列を乗じた荷重特徴代表ベクトルとの差分を乗じた行列を求め、この行列に対して、第2の重み行列を乗じた荷重特徴代表ベクトルを加算することで変換演算を行うことを特徴とする請求項1記載の話者照合装置。
- 前記変換処理を行う手段は、前記変換行列が対角行列からなる場合に、当該対角行列の各対角成分を、当該対角成分の平均値、及び特徴代表ベクトルの次元ごとのばらつきから算出することを特徴とする請求項2記載の話者照合装置。
- 前記特徴ベクトル生成手段は、
入力音声の複数のフレームのうち有声音フレームを抽出する手段と、
前記抽出された有声音フレームから特徴ベクトルを生成する手段と
を備えることを特徴とする請求項1記載の話者照合装置。 - 前記特徴代表ベクトル生成手段は、
前記特徴ベクトル生成手段により生成された複数の特徴ベクトルのうち有声音フレームのみからなる特徴ベクトルを抽出する手段と、
前記抽出された有声音のみからなる特徴ベクトルから特徴代表ベクトルを算出する手段と
を備えることを特徴とする請求項1記載の話者照合装置。 - 前記特徴代表ベクトル生成手段は、
前記特徴ベクトル生成手段により生成された複数の特徴ベクトルのうち入力音声の母音に該当する特徴ベクトルを抽出する手段と、
前記抽出された母音に該当する特徴ベクトルから特徴代表ベクトルを算出する手段とを備えることを特徴とする請求項1記載の話者照合装置。 - 前記変換処理に使用する変換係数及び前記しきい値の両方を可変設定する手段と、
前記変換係数及びしきい値の両方が可変設定されるごとに、前記コードベクトル及び第2の特徴ベクトルに対する変換処理、変換処理後のコードベクトル及び第2の特徴ベクトル間のベクトル量子化歪みの算出処理、及び算出されたベクトル量子化歪みをしきい値と比較する処理を繰り返す手段と、
前記繰り返し処理によりえられる複数の判定結果をもとに照合結果を得る手段と
を、さらに具備することを特徴とする請求項1記載の話者照合装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005217478A JP4714523B2 (ja) | 2005-07-27 | 2005-07-27 | 話者照合装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005217478A JP4714523B2 (ja) | 2005-07-27 | 2005-07-27 | 話者照合装置 |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2007033898A JP2007033898A (ja) | 2007-02-08 |
| JP2007033898A5 JP2007033898A5 (ja) | 2008-09-04 |
| JP4714523B2 true JP4714523B2 (ja) | 2011-06-29 |
Family
ID=37793233
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005217478A Expired - Fee Related JP4714523B2 (ja) | 2005-07-27 | 2005-07-27 | 話者照合装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4714523B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11289098B2 (en) | 2019-03-08 | 2022-03-29 | Samsung Electronics Co., Ltd. | Method and apparatus with speaker recognition registration |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6407634B2 (ja) * | 2014-09-02 | 2018-10-17 | 株式会社Kddiテクノロジー | 通話装置、声紋データの判定結果通知方法およびプログラム |
| JP6370172B2 (ja) * | 2014-09-02 | 2018-08-08 | 株式会社Kddiテクノロジー | 通話装置、声紋登録方法およびプログラム |
| JP6407633B2 (ja) * | 2014-09-02 | 2018-10-17 | 株式会社Kddiテクノロジー | 通話装置、声紋データの判定基準更新方法およびプログラム |
| JP6280068B2 (ja) * | 2015-03-09 | 2018-02-14 | 日本電信電話株式会社 | パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム |
| JP6430318B2 (ja) * | 2015-04-06 | 2018-11-28 | 日本電信電話株式会社 | 不正音声入力判定装置、方法及びプログラム |
| DE102016203987A1 (de) * | 2016-03-10 | 2017-09-14 | Sivantos Pte. Ltd. | Verfahren zum Betrieb eines Hörgeräts sowie Hörgerät |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS63213899A (ja) * | 1987-03-02 | 1988-09-06 | 株式会社リコー | 話者照合方式 |
| US5054083A (en) * | 1989-05-09 | 1991-10-01 | Texas Instruments Incorporated | Voice verification circuit for validating the identity of an unknown person |
| JPH03274597A (ja) * | 1990-03-26 | 1991-12-05 | Nippon Telegr & Teleph Corp <Ntt> | 話者認識方法 |
| US5167004A (en) * | 1991-02-28 | 1992-11-24 | Texas Instruments Incorporated | Temporal decorrelation method for robust speaker verification |
-
2005
- 2005-07-27 JP JP2005217478A patent/JP4714523B2/ja not_active Expired - Fee Related
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11289098B2 (en) | 2019-03-08 | 2022-03-29 | Samsung Electronics Co., Ltd. | Method and apparatus with speaker recognition registration |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2007033898A (ja) | 2007-02-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Lu et al. | An investigation of dependencies between frequency components and speaker characteristics for text-independent speaker identification | |
| JP4802135B2 (ja) | 話者認証登録及び確認方法並びに装置 | |
| Kim et al. | Regularized speaker adaptation of KL-HMM for dysarthric speech recognition | |
| Nayana et al. | Comparison of text independent speaker identification systems using GMM and i-vector methods | |
| US8566093B2 (en) | Intersession variability compensation for automatic extraction of information from voice | |
| Yamagishi et al. | A training method of average voice model for HMM-based speech synthesis | |
| US9754602B2 (en) | Obfuscated speech synthesis | |
| US5943647A (en) | Speech recognition based on HMMs | |
| JP4714523B2 (ja) | 話者照合装置 | |
| KR101041035B1 (ko) | 고속 화자 인식 방법 및 장치, 고속 화자 인식을 위한 등록방법 및 장치 | |
| JPH0486899A (ja) | 標準パターン適応化方式 | |
| Omer | Joint MFCC-and-vector quantization based text-independent speaker recognition system | |
| Singh et al. | Features and techniques for speaker recognition | |
| JPH07121197A (ja) | 学習式音声認識方法 | |
| JP3090119B2 (ja) | 話者照合装置、方法及び記憶媒体 | |
| Duxans et al. | Residual conversion versus prediction on voice morphing systems | |
| US20230317085A1 (en) | Audio processing device, audio processing method, recording medium, and audio authentication system | |
| Nair et al. | A reliable speaker verification system based on LPCC and DTW | |
| Ankita et al. | Studying the effect of frame-level concatenation of GFCC and TS-MFCC features on zero-shot children’s ASR | |
| JP2006078654A (ja) | 音声認証装置及び方法並びにプログラム | |
| JP2005091758A (ja) | 話者認識システム及び方法 | |
| Zergat et al. | Robust support vector machines for speaker verification task | |
| Punchihewa et al. | Voice command interpretation for robot control | |
| KR100435441B1 (ko) | 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 | |
| JP2013003470A (ja) | 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080716 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080716 |
|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20101028 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101104 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101207 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110127 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110301 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110328 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140401 Year of fee payment: 3 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| LAPS | Cancellation because of no payment of annual fees |
