JPH0634191B2 - パターン特徴正規化方式 - Google Patents
パターン特徴正規化方式Info
- Publication number
- JPH0634191B2 JPH0634191B2 JP62240093A JP24009387A JPH0634191B2 JP H0634191 B2 JPH0634191 B2 JP H0634191B2 JP 62240093 A JP62240093 A JP 62240093A JP 24009387 A JP24009387 A JP 24009387A JP H0634191 B2 JPH0634191 B2 JP H0634191B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- variation
- normalization
- standard
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000010606 normalization Methods 0.000 title claims description 31
- 238000000034 method Methods 0.000 claims description 9
- 238000002945 steepest descent method Methods 0.000 claims description 5
- 238000003909 pattern recognition Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Description
【発明の詳細な説明】 (産業上の利用分野) 本発明は、パターン認識装置において、特に認識対象パ
ターンの変動に対処するパターン正規化方式の改良に関
する。
ターンの変動に対処するパターン正規化方式の改良に関
する。
(従来の技術) 標準パターンと入力パターンのパターンマッチング方式
による音声認識においては、伝送路特性や個人差、男女
差などによる認識対象パターンの変動が認識率を低下さ
せる原因になるので、入力パターンの変動を正規化する
ことが重要になる。
による音声認識においては、伝送路特性や個人差、男女
差などによる認識対象パターンの変動が認識率を低下さ
せる原因になるので、入力パターンの変動を正規化する
ことが重要になる。
従来用いられている正規化法としては、音声スペクトル
の最小二乗近似直線を求めて、元の音声スペクトルより
差し引く方法があり、この詳細は、電子通信学会の信学
技報PRL79-46「非線形スペクトルマッチングによる単語
音声認識の一方式」1979年10月に記載されている。
の最小二乗近似直線を求めて、元の音声スペクトルより
差し引く方法があり、この詳細は、電子通信学会の信学
技報PRL79-46「非線形スペクトルマッチングによる単語
音声認識の一方式」1979年10月に記載されている。
(発明が解決しようとする問題点) 上記の方法は、音声スペクトルの変動が傾斜のバラツキ
だけに現れる場合の正規化には有効であるが、電話機や
マイクの特性の違いによるパターンの変動や男女の性差
による変動などの正規化にはより複雑な、非線形なパタ
ーン変動にも対応できるような正規化法が必要となる。
だけに現れる場合の正規化には有効であるが、電話機や
マイクの特性の違いによるパターンの変動や男女の性差
による変動などの正規化にはより複雑な、非線形なパタ
ーン変動にも対応できるような正規化法が必要となる。
本発明の目的は、認識対象クラスに依存しないパターン
の非線形変動成分の正規化作用を持つ演算と、認識の際
に標準パターンとして用意すべき変動のタイプとを、学
習用の変動パターンから帰納的に決定することのできる
パターン特徴正規化方式を提供することにある。
の非線形変動成分の正規化作用を持つ演算と、認識の際
に標準パターンとして用意すべき変動のタイプとを、学
習用の変動パターンから帰納的に決定することのできる
パターン特徴正規化方式を提供することにある。
本発明による入力パターン正規化方式を認識装置の前処
理部として用いれば、ただ一つの変動タイプに対する標
準パターンを用意するだけで、複数の変動タイプを持つ
可能性のある入力パターンを精度良く認識することが可
能になる。
理部として用いれば、ただ一つの変動タイプに対する標
準パターンを用意するだけで、複数の変動タイプを持つ
可能性のある入力パターンを精度良く認識することが可
能になる。
(問題点を解決するための手段) 本発明によるパターン特徴正規化方式はパターン認識に
於て、入力パターンが複数の変動タイプ(例えば入力装
置の特性の違いや個人差、男女差など)を持つ場合の変
動の正規化に際して、小数の認識対象クラスに対する学
習パターンを用いて(但し、全ての変動タイプに属する
パターンを含む)、標準となる変動のタイプと、他の変
動タイプのパターンを前記標準変動タイプを基準にして
正規化するパラメトライズされた正規化演算群とを、最
急降下法を用いた最適化手段によって帰納的に決定する
ことを特徴とする。
於て、入力パターンが複数の変動タイプ(例えば入力装
置の特性の違いや個人差、男女差など)を持つ場合の変
動の正規化に際して、小数の認識対象クラスに対する学
習パターンを用いて(但し、全ての変動タイプに属する
パターンを含む)、標準となる変動のタイプと、他の変
動タイプのパターンを前記標準変動タイプを基準にして
正規化するパラメトライズされた正規化演算群とを、最
急降下法を用いた最適化手段によって帰納的に決定する
ことを特徴とする。
(作用) 本発明の基本的な原理は、入力パターンのパターンクラ
スに依存しない変動成分を正規化するために、少数のク
ラスに対する代表的な変動タイプパターンを用いて帰納
的に正規化演算を決定しようとするものである。
スに依存しない変動成分を正規化するために、少数のク
ラスに対する代表的な変動タイプパターンを用いて帰納
的に正規化演算を決定しようとするものである。
音声の代表的変動パターンのセットを {x(p)(a):p=1,...,Nv,a=1,...,
Nc} と表す。pは変動タイプを表す(例えば、男女差の場合
はp=1(男性)、p=2(女性)となる)。aはパタ
ーンクラスを表す。
Nc} と表す。pは変動タイプを表す(例えば、男女差の場合
はp=1(男性)、p=2(女性)となる)。aはパタ
ーンクラスを表す。
変動タイプpから標準タイプpφへの正規化演算Fを y(p,pφ)(a)=F(x(p)(a):
cm (p,pφ)) と表す。ここで{cm (p,pφ)}(m=
1,...,M,p=1,...Nv(≠pφ))は変
動タイプpから標準変動タイプpφへの正規化関数を特
徴づけるパラメータ、y(p,pφ)(a)は標準変動タ
イプpφを基準にして変動タイプpのパターンx(p)(a)
を正規化したパターンである。以下に標準変動タイプp
φと{cm (p,pφ)}を上記変動パターンセットか
ら帰納的に決定する方法を示す。
cm (p,pφ)) と表す。ここで{cm (p,pφ)}(m=
1,...,M,p=1,...Nv(≠pφ))は変
動タイプpから標準変動タイプpφへの正規化関数を特
徴づけるパラメータ、y(p,pφ)(a)は標準変動タ
イプpφを基準にして変動タイプpのパターンx(p)(a)
を正規化したパターンである。以下に標準変動タイプp
φと{cm (p,pφ)}を上記変動パターンセットか
ら帰納的に決定する方法を示す。
標準変動タイプpφと{cm (p,pφ)}が与えられ
た場合、その正規化の誤差を表す評価関数として次のよ
うな量Eを(cm (p,pφ))を定義する。
た場合、その正規化の誤差を表す評価関数として次のよ
うな量Eを(cm (p,pφ))を定義する。
ここでd〔,〕はパターン間の距離関数である。pφが
与えられると、この誤差量Eを極小にするような{cm
(p,pφ)}は最急降下法(岩波講座情報科学19「最
適化」p.46参照)を用いて求めることが出来る。そこ
で、全ての変動タイプを仮の標準タイプpφとしてEを
極小化し、最も誤差量を小さくする変動タイプを標準変
動タイプとして選択すれば、最適なpφと{cm
(p,pφ)}が得られる。
与えられると、この誤差量Eを極小にするような{cm
(p,pφ)}は最急降下法(岩波講座情報科学19「最
適化」p.46参照)を用いて求めることが出来る。そこ
で、全ての変動タイプを仮の標準タイプpφとしてEを
極小化し、最も誤差量を小さくする変動タイプを標準変
動タイプとして選択すれば、最適なpφと{cm
(p,pφ)}が得られる。
また、この方式を音声のように長さの異なる時系列ベク
トルで表されるパターンを対象に適用する場合には、上
記誤差量E(cm (p,pφ))の定義式を次のように
変更すればよい。
トルで表されるパターンを対象に適用する場合には、上
記誤差量E(cm (p,pφ))の定義式を次のように
変更すればよい。
ここで添え字iは時系列パターンの時間軸を表してい
る。xi (pφ)(a)はDPマッチング法等によって標
準変動タイプのパターンxi (pφ)(a)の時間軸との
対応づけを行ったパターンである。
る。xi (pφ)(a)はDPマッチング法等によって標
準変動タイプのパターンxi (pφ)(a)の時間軸との
対応づけを行ったパターンである。
正規化関数Fと距離関数dとして次のような関数を採用
した場合の具体例を以下に示す。
した場合の具体例を以下に示す。
(x,yの上付き添え字m,nはパターンベクトルの成
分を表す。) d[x,y]=Σm(xm−ym)2 この正規化関数は、xn i (p)(a)を音声の第iフレーム
の短時間スペクトルの第n成分であると考えると、男女
差などによる周波数軸上でのスペクトル・ピーク(ホル
マント周波数)の位置の違いを正規化するのに有効であ
る。この場合の最急降下法によるパラメータcm n
(p,pφ)の更新はεを微小な定数として cm n (p,pφ)←cm n (p,pφ)+Δcm n
(p,pφ) となり、処理の流れは次のようになる。
分を表す。) d[x,y]=Σm(xm−ym)2 この正規化関数は、xn i (p)(a)を音声の第iフレーム
の短時間スペクトルの第n成分であると考えると、男女
差などによる周波数軸上でのスペクトル・ピーク(ホル
マント周波数)の位置の違いを正規化するのに有効であ
る。この場合の最急降下法によるパラメータcm n
(p,pφ)の更新はεを微小な定数として cm n (p,pφ)←cm n (p,pφ)+Δcm n
(p,pφ) となり、処理の流れは次のようになる。
1)pφ,{cm n (p,pφ)}の初期値を設定する。
2)誤差量E(cm n (p,pφ))と修正量{Δcm n
(p,pφ)}を計算する。
(p,pφ)}を計算する。
3){cm n (p,pφ)}を更新する。
cm n (p,pφ)←cm n (p,pφ)+Δcm n
(p,pφ) 4)収束するまで(2)〜(3)を繰り返す。
(p,pφ) 4)収束するまで(2)〜(3)を繰り返す。
5)中心pφを更新して(1)へ戻る。
6)誤差量E(cm n (p,pφ))を最小にするpφを
変動の中心とする。
変動の中心とする。
(実施例) 第1図は本発明を実現した装置の一実施例を示したブロ
ック図である。学習用データ記憶部1には少数のクラス
に対する代表的な変動パターンデータが記憶される。パ
ラメータ初期化部2はpφ、{cm n (p,pφ)}、
E(cm n (p,pφ))を初期化してパーラメータ・
バッファ3に格納する。4は最急降下計算部で、パラメ
ータ・バッファ3から読み込んだ正規化関数のパラメー
タと学習用データ記憶部1のデータを用いて最急降下法
により誤差量E(cm n (p,pφ))の極小化を行
い、その結果として得られた誤差量E(cm n
(p,pφ))とパラメータ{cm n (p,pφ)}を
パラメータ・バッファ3に書き戻す。この動作がすべて
の変動を仮の中心pφとして繰り返されて、最終的に出
力部5がパラメータ・バッファ3から誤差量Eを最小に
するpφと{cm n (p,pφ)}を選択し、正規化関
数の学習結果として出力する。
ック図である。学習用データ記憶部1には少数のクラス
に対する代表的な変動パターンデータが記憶される。パ
ラメータ初期化部2はpφ、{cm n (p,pφ)}、
E(cm n (p,pφ))を初期化してパーラメータ・
バッファ3に格納する。4は最急降下計算部で、パラメ
ータ・バッファ3から読み込んだ正規化関数のパラメー
タと学習用データ記憶部1のデータを用いて最急降下法
により誤差量E(cm n (p,pφ))の極小化を行
い、その結果として得られた誤差量E(cm n
(p,pφ))とパラメータ{cm n (p,pφ)}を
パラメータ・バッファ3に書き戻す。この動作がすべて
の変動を仮の中心pφとして繰り返されて、最終的に出
力部5がパラメータ・バッファ3から誤差量Eを最小に
するpφと{cm n (p,pφ)}を選択し、正規化関
数の学習結果として出力する。
この様にして得られた正規化関数群{pφ,cm n
(p,pφ)}を音声認識に適用した場合の例を第2図
に示す。第2図において、標準パターン記憶部23には、
標準変動タイプのパターン{xi (pφ)(a)}だけを
格納しておく。正規化パラメータ記憶部22には前記方式
により決定された正規化関数のパラメータを格納してお
く。正規化演算部21は入力パターンが入力されると、前
記正規化パラメータ記憶部から読み込んだパラメータを
用いてパターンの正規化を行う。この場合、入力パター
ンの変動タイプは未知なので全ての変動タイプから標準
変動タイプへの正規化演算を入力パターンに対して並列
的に適用し、マッタング部24へ送る。マッチング部は標
準パターン記憶部に格納されている標準パターンと、正
規化部から送られてきた前記正規化された入力パターン
群とのマッチングを並列的に行い、最もよく適合したパ
ターンを認識結果として出力する。
(p,pφ)}を音声認識に適用した場合の例を第2図
に示す。第2図において、標準パターン記憶部23には、
標準変動タイプのパターン{xi (pφ)(a)}だけを
格納しておく。正規化パラメータ記憶部22には前記方式
により決定された正規化関数のパラメータを格納してお
く。正規化演算部21は入力パターンが入力されると、前
記正規化パラメータ記憶部から読み込んだパラメータを
用いてパターンの正規化を行う。この場合、入力パター
ンの変動タイプは未知なので全ての変動タイプから標準
変動タイプへの正規化演算を入力パターンに対して並列
的に適用し、マッタング部24へ送る。マッチング部は標
準パターン記憶部に格納されている標準パターンと、正
規化部から送られてきた前記正規化された入力パターン
群とのマッチングを並列的に行い、最もよく適合したパ
ターンを認識結果として出力する。
(発明の効果) 以上述べたように、本発明によれば、予測される入力パ
ターンの変動を精度良く正規化する変換関数群を少数の
認識対象クラスのデータから帰納的かつ適応的に決定す
ることができる。その結果得られる正規化関数群は認識
対象クラスに依存しないので学習に用いなかったクラス
のパターンの変動の正規化にも有効であり、認識対象ク
ラスが変わる毎に学習をやり直す必要がなくなる。即
ち、認識対象クラスを追加する場合などには、標準変動
タイプのパターンだけを収集して標準パターンに追加す
れば良く、正規化演算部は変更することなく使用するこ
とができる。
ターンの変動を精度良く正規化する変換関数群を少数の
認識対象クラスのデータから帰納的かつ適応的に決定す
ることができる。その結果得られる正規化関数群は認識
対象クラスに依存しないので学習に用いなかったクラス
のパターンの変動の正規化にも有効であり、認識対象ク
ラスが変わる毎に学習をやり直す必要がなくなる。即
ち、認識対象クラスを追加する場合などには、標準変動
タイプのパターンだけを収集して標準パターンに追加す
れば良く、正規化演算部は変更することなく使用するこ
とができる。
第1図は本発明の一実施例を示すブロック図であり、第
2図は本発明の音声認識装置への適用例を示すブロック
図である。 図において、1は学習用データ記憶部、2はパラメータ
初期化部、3はパラメータ・バッファ、4は最急降下計
算部、5は出力部、21は正規化演算部、22は正規化パラ
メータ記憶部、23は標準パターン記憶部、24はマッチン
グ部である。
2図は本発明の音声認識装置への適用例を示すブロック
図である。 図において、1は学習用データ記憶部、2はパラメータ
初期化部、3はパラメータ・バッファ、4は最急降下計
算部、5は出力部、21は正規化演算部、22は正規化パラ
メータ記憶部、23は標準パターン記憶部、24はマッチン
グ部である。
Claims (1)
- 【請求項1】パターン認識に於て、入力パターンが複数
の変動タイプを持つ場合の変動の正規化に際して、小数
の認識対象クラスに対する学習パターンを用いて、標準
となる変動のタイプと、他の変動タイプのパターンを前
記標準変動タイプを基準にして正規化するパラメータ化
された正規化演算群とを、最急降下法を用いた最適化手
段によって帰納的に決定することを特徴とするパターン
特徴正規化方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62240093A JPH0634191B2 (ja) | 1987-09-24 | 1987-09-24 | パターン特徴正規化方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62240093A JPH0634191B2 (ja) | 1987-09-24 | 1987-09-24 | パターン特徴正規化方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6482000A JPS6482000A (en) | 1989-03-28 |
| JPH0634191B2 true JPH0634191B2 (ja) | 1994-05-02 |
Family
ID=17054385
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP62240093A Expired - Lifetime JPH0634191B2 (ja) | 1987-09-24 | 1987-09-24 | パターン特徴正規化方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0634191B2 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2969862B2 (ja) * | 1989-10-04 | 1999-11-02 | 松下電器産業株式会社 | 音声認識装置 |
| JP2817429B2 (ja) * | 1991-03-27 | 1998-10-30 | 松下電器産業株式会社 | 音声認識装置 |
| KR102603149B1 (ko) | 2021-07-21 | 2023-11-15 | 와이케이케이 가부시끼가이샤 | 차량용 시트 조립장치 |
-
1987
- 1987-09-24 JP JP62240093A patent/JPH0634191B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6482000A (en) | 1989-03-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6804647B1 (en) | Method and system for on-line unsupervised adaptation in speaker verification | |
| US6421640B1 (en) | Speech recognition method using confidence measure evaluation | |
| EP0510632A2 (en) | Speech recognition by neural network adapted to reference pattern learning | |
| CN111694938A (zh) | 基于情绪识别的答复方法、装置、计算机设备及存储介质 | |
| JP5060006B2 (ja) | 音声認識システムの自動的再学習 | |
| US6278972B1 (en) | System and method for segmentation and recognition of speech signals | |
| CN118609574B (zh) | 一种基于人工智能的声纹采集分析方法及系统 | |
| US5181256A (en) | Pattern recognition device using a neural network | |
| US6502066B2 (en) | System for generating formant tracks by modifying formants synthesized from speech units | |
| US7072829B2 (en) | Speech recognition from concurrent visual and audible inputs | |
| US20200285957A1 (en) | Learning device and learning method, recognition device and recognition method, program, and storage medium | |
| CN113421584A (zh) | 音频降噪方法、装置、计算机设备及存储介质 | |
| US6718306B1 (en) | Speech collating apparatus and speech collating method | |
| JPH08227408A (ja) | ニューラルネットワーク | |
| US7529651B2 (en) | Accurate linear parameter estimation with noisy inputs | |
| US8214204B2 (en) | Method for generating a vector codebook, method and device for compressing data, and distributed speech recognition system | |
| JPH0540497A (ja) | 話者適応音声認識装置 | |
| JPH0634191B2 (ja) | パターン特徴正規化方式 | |
| CN114171043B (zh) | 回声的确定方法、装置、设备以及存储介质 | |
| US20050021337A1 (en) | HMM modification method | |
| US11308349B1 (en) | Method to modify adaptive filter weights in a decentralized wireless sensor network | |
| CN115424309B (zh) | 人脸关键点的生成方法、装置、终端设备及可读存储介质 | |
| JP2570448B2 (ja) | 標準パターン学習方法 | |
| JP2897220B2 (ja) | 信号処理装置 | |
| US6192336B1 (en) | Method and system for searching for an optimal codevector |