JPH0634191B2

JPH0634191B2 - パターン特徴正規化方式

Info

Publication number: JPH0634191B2
Application number: JP62240093A
Authority: JP
Inventors: 健一磯
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1987-09-24
Filing date: 1987-09-24
Publication date: 1994-05-02
Anticipated expiration: 2009-05-02
Also published as: JPS6482000A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、パターン認識装置において、特に認識対象パ
ターンの変動に対処するパターン正規化方式の改良に関
する。

（従来の技術）標準パターンと入力パターンのパターンマッチング方式
による音声認識においては、伝送路特性や個人差、男女
差などによる認識対象パターンの変動が認識率を低下さ
せる原因になるので、入力パターンの変動を正規化する
ことが重要になる。

従来用いられている正規化法としては、音声スペクトル
の最小二乗近似直線を求めて、元の音声スペクトルより
差し引く方法があり、この詳細は、電子通信学会の信学
技報PRL79-46「非線形スペクトルマッチングによる単語
音声認識の一方式」1979年10月に記載されている。

（発明が解決しようとする問題点）上記の方法は、音声スペクトルの変動が傾斜のバラツキ
だけに現れる場合の正規化には有効であるが、電話機や
マイクの特性の違いによるパターンの変動や男女の性差
による変動などの正規化にはより複雑な、非線形なパタ
ーン変動にも対応できるような正規化法が必要となる。

本発明の目的は、認識対象クラスに依存しないパターン
の非線形変動成分の正規化作用を持つ演算と、認識の際
に標準パターンとして用意すべき変動のタイプとを、学
習用の変動パターンから帰納的に決定することのできる
パターン特徴正規化方式を提供することにある。

本発明による入力パターン正規化方式を認識装置の前処
理部として用いれば、ただ一つの変動タイプに対する標
準パターンを用意するだけで、複数の変動タイプを持つ
可能性のある入力パターンを精度良く認識することが可
能になる。

（問題点を解決するための手段）本発明によるパターン特徴正規化方式はパターン認識に
於て、入力パターンが複数の変動タイプ（例えば入力装
置の特性の違いや個人差、男女差など）を持つ場合の変
動の正規化に際して、小数の認識対象クラスに対する学
習パターンを用いて（但し、全ての変動タイプに属する
パターンを含む）、標準となる変動のタイプと、他の変
動タイプのパターンを前記標準変動タイプを基準にして
正規化するパラメトライズされた正規化演算群とを、最
急降下法を用いた最適化手段によって帰納的に決定する
ことを特徴とする。

（作用）本発明の基本的な原理は、入力パターンのパターンクラ
スに依存しない変動成分を正規化するために、少数のク
ラスに対する代表的な変動タイプパターンを用いて帰納
的に正規化演算を決定しようとするものである。

音声の代表的変動パターンのセットを｛ｘ^(p)(a)：ｐ＝１，．．．，Ｎ_ｖ，ａ＝１，．．．，
Ｎ_ｃ｝と表す。ｐは変動タイプを表す（例えば、男女差の場合
はｐ＝１（男性）、ｐ＝２（女性）となる）。ａはパタ
ーンクラスを表す。

変動タイプｐから標準タイプｐφへの正規化演算Ｆをｙ^{（ｐ，ｐφ）}(a)＝Ｆ（ｘ^(p)(a)：
ｃ_ｍ ^{（ｐ，ｐφ）}）と表す。ここで｛ｃ_ｍ ^{（ｐ，ｐφ）}｝（ｍ＝
１，．．．，Ｍ，ｐ＝１，．．．Ｎ_ｖ（≠ｐφ））は変
動タイプｐから標準変動タイプｐφへの正規化関数を特
徴づけるパラメータ、ｙ^{（ｐ，ｐφ）}(a)は標準変動タ
イプｐφを基準にして変動タイプｐのパターンｘ^(p)(a)
を正規化したパターンである。以下に標準変動タイプｐ
φと｛ｃ_ｍ ^{（ｐ，ｐφ）}｝を上記変動パターンセットか
ら帰納的に決定する方法を示す。

標準変動タイプｐφと｛ｃ_ｍ ^{（ｐ，ｐφ）}｝が与えられ
た場合、その正規化の誤差を表す評価関数として次のよ
うな量Ｅを（ｃ_ｍ ^{（ｐ，ｐφ）}）を定義する。

ここでｄ〔，〕はパターン間の距離関数である。ｐφが
与えられると、この誤差量Ｅを極小にするような｛ｃ_ｍ
^{（ｐ，ｐφ）}｝は最急降下法（岩波講座情報科学19「最
適化」p.46参照）を用いて求めることが出来る。そこ
で、全ての変動タイプを仮の標準タイプｐφとしてＥを
極小化し、最も誤差量を小さくする変動タイプを標準変
動タイプとして選択すれば、最適なｐφと｛ｃ_ｍ
^{（ｐ，ｐφ）}｝が得られる。

また、この方式を音声のように長さの異なる時系列ベク
トルで表されるパターンを対象に適用する場合には、上
記誤差量Ｅ（ｃ_ｍ ^{（ｐ，ｐφ）}）の定義式を次のように
変更すればよい。

ここで添え字ｉは時系列パターンの時間軸を表してい
る。ｘ_ｉ ^（ｐφ）(a)はＤＰマッチング法等によって標
準変動タイプのパターンｘ_ｉ ^（ｐφ）(a)の時間軸との
対応づけを行ったパターンである。

正規化関数Ｆと距離関数ｄとして次のような関数を採用
した場合の具体例を以下に示す。

（ｘ，ｙの上付き添え字ｍ，ｎはパターンベクトルの成
分を表す。）ｄ［ｘ，ｙ］＝Σ_ｍ（ｘ^ｍ−ｙ^ｍ）^２この正規化関数は、ｘ^ｎ _ｉ ^(p)(a)を音声の第ｉフレーム
の短時間スペクトルの第ｎ成分であると考えると、男女
差などによる周波数軸上でのスペクトル・ピーク（ホル
マント周波数）の位置の違いを正規化するのに有効であ
る。この場合の最急降下法によるパラメータｃ^ｍ _ｎ
^{（ｐ，ｐφ）}の更新はεを微小な定数としてｃ^ｍ _ｎ ^{（ｐ，ｐφ）}←ｃ^ｍ _ｎ ^{（ｐ，ｐφ）}＋Δｃ^ｍ _ｎ
^{（ｐ，ｐφ）} となり、処理の流れは次のようになる。

1)ｐφ，｛ｃ^ｍ _ｎ ^{（ｐ，ｐφ）}｝の初期値を設定する。

2)誤差量Ｅ（ｃ^ｍ _ｎ ^{（ｐ，ｐφ）}）と修正量｛Δｃ^ｍ _ｎ
^{（ｐ，ｐφ）}｝を計算する。

3)｛ｃ^ｍ _ｎ ^{（ｐ，ｐφ）}｝を更新する。

ｃ^ｍ _ｎ ^{（ｐ，ｐφ）}←ｃ^ｍ _ｎ ^{（ｐ，ｐφ）}＋Δｃ^ｍ _ｎ
^{（ｐ，ｐφ）} 4)収束するまで(2)〜(3)を繰り返す。

5)中心ｐφを更新して(1)へ戻る。

6)誤差量Ｅ（ｃ^ｍ _ｎ ^{（ｐ，ｐφ）}）を最小にするｐφを
変動の中心とする。

（実施例）第１図は本発明を実現した装置の一実施例を示したブロ
ック図である。学習用データ記憶部１には少数のクラス
に対する代表的な変動パターンデータが記憶される。パ
ラメータ初期化部２はｐφ、｛ｃ^ｍ _ｎ ^{（ｐ，ｐφ）}｝、
Ｅ（ｃ^ｍ _ｎ ^{（ｐ，ｐφ）}）を初期化してパーラメータ・
バッファ３に格納する。４は最急降下計算部で、パラメ
ータ・バッファ３から読み込んだ正規化関数のパラメー
タと学習用データ記憶部１のデータを用いて最急降下法
により誤差量Ｅ（ｃ^ｍ _ｎ ^{（ｐ，ｐφ）}）の極小化を行
い、その結果として得られた誤差量Ｅ（ｃ^ｍ _ｎ
^{（ｐ，ｐφ）}）とパラメータ｛ｃ^ｍ _ｎ ^{（ｐ，ｐφ）}｝を
パラメータ・バッファ３に書き戻す。この動作がすべて
の変動を仮の中心ｐφとして繰り返されて、最終的に出
力部５がパラメータ・バッファ３から誤差量Ｅを最小に
するｐφと｛ｃ^ｍ _ｎ ^{（ｐ，ｐφ）}｝を選択し、正規化関
数の学習結果として出力する。

この様にして得られた正規化関数群｛ｐφ，ｃ^ｍ _ｎ
^{（ｐ，ｐφ）}｝を音声認識に適用した場合の例を第２図
に示す。第２図において、標準パターン記憶部23には、
標準変動タイプのパターン｛ｘ_ｉ ^（ｐφ）(a)｝だけを
格納しておく。正規化パラメータ記憶部22には前記方式
により決定された正規化関数のパラメータを格納してお
く。正規化演算部21は入力パターンが入力されると、前
記正規化パラメータ記憶部から読み込んだパラメータを
用いてパターンの正規化を行う。この場合、入力パター
ンの変動タイプは未知なので全ての変動タイプから標準
変動タイプへの正規化演算を入力パターンに対して並列
的に適用し、マッタング部24へ送る。マッチング部は標
準パターン記憶部に格納されている標準パターンと、正
規化部から送られてきた前記正規化された入力パターン
群とのマッチングを並列的に行い、最もよく適合したパ
ターンを認識結果として出力する。

（発明の効果）以上述べたように、本発明によれば、予測される入力パ
ターンの変動を精度良く正規化する変換関数群を少数の
認識対象クラスのデータから帰納的かつ適応的に決定す
ることができる。その結果得られる正規化関数群は認識
対象クラスに依存しないので学習に用いなかったクラス
のパターンの変動の正規化にも有効であり、認識対象ク
ラスが変わる毎に学習をやり直す必要がなくなる。即
ち、認識対象クラスを追加する場合などには、標準変動
タイプのパターンだけを収集して標準パターンに追加す
れば良く、正規化演算部は変更することなく使用するこ
とができる。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図であり、第
２図は本発明の音声認識装置への適用例を示すブロック
図である。図において、１は学習用データ記憶部、２はパラメータ
初期化部、３はパラメータ・バッファ、４は最急降下計
算部、５は出力部、21は正規化演算部、22は正規化パラ
メータ記憶部、23は標準パターン記憶部、24はマッチン
グ部である。

Claims

【特許請求の範囲】

【請求項１】パターン認識に於て、入力パターンが複数
の変動タイプを持つ場合の変動の正規化に際して、小数
の認識対象クラスに対する学習パターンを用いて、標準
となる変動のタイプと、他の変動タイプのパターンを前
記標準変動タイプを基準にして正規化するパラメータ化
された正規化演算群とを、最急降下法を用いた最適化手
段によって帰納的に決定することを特徴とするパターン
特徴正規化方式。