JPH03201079A

JPH03201079A - パターンマッチング装置

Info

Publication number: JPH03201079A
Application number: JP1339957A
Authority: JP
Inventors: Shin Kamiya; 伸神谷
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1989-12-28
Filing date: 1989-12-28
Publication date: 1991-09-02
Anticipated expiration: 2010-11-13
Also published as: US5181256A; JPH07104952B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〈産業上の利用分野〉この発明は、動的計画法を用いたパターン認識の改良に
関する。

〈従来の技術〉通常、同じ人が同じ単語を発声してもその長さはそのっ
ど変わり、しかも時間軸に非線形に伸縮する。すなわち
、時間軸に対する不規則な許容歪みを有するのである。

そのため、例えば音声認識の際において、標準パターン
と入力音声の特徴パターンとの同じ音素同士が対応する
ように時間軸を伸縮する必要がある。その具体的な手法
として動的計画法（ＤＰ）を用いることができる。ＤＰ
マツチングは、このＤＰを用いて特徴パターンと標準パ
ターンとの時間伸縮マツチングを行う手法であり、音声
認識においては重要な手法である。

近年、発明者等は、ＤＰマツチングを応用して個人差に
よる音声信号の特徴パターン変動に対処する話者適応化
方式を提案しく中用、神谷、坂井：「音声スペクトルの
時間軸・周波数軸・強度軸の同時非線形伸縮に基づく不
特定話者の単語音声の認識」電子通信学会論文誌’８１
／２　Ｖｏｌ、Ｊ６４−Ｄ　Ｎｏ。

２）、実験によってその有効性を認識した。

上記話者適応化方式は、個人差による特徴パターン変動
は主に周波数軸に対する不規ＩＩＩな許容歪みであるこ
とに注目して、ＤＰを周波数伸縮マツチングに用いた方
式である。すなわち、キーワードとして単母音／ａ／を
発声し、この母音／ａ／の定常部におけるスペクトルと
標準話者の同じ母音／ａ／の定常部におけるスペクトル
とを、周波数軸上におけるＤＰマッチングによって比較
する。そして、標準話者と人力話者との母音／ａ／のス
ペクトルの周波数軸上のずれの方向を検出し、この検出
された単母音／ａ／のスペクトルの周波数軸上のずれの
方向を単語認識の際の話者適応化に利用するものである
。

〈発明が解決しようとする課題〉しかしながら、上記話者適応化方式においては、単母音
／ａ／のスペクトルの周波数軸上のずれの方向のみなら
ず、そのずれの度合いもＤＰマツチングによって正規化
しようとすると、個人差のみならず音韻差まで正規化さ
れてしまい、個人差は除去できても単語が認識できない
場合が生じるという問題がある。

そこで、この発明の目的は、個人差等の許容歪みを有す
るパタ竺ンの許容歪みを必要な範囲で正規化することに
よって、許容歪みを有するパターンのカテゴリを正しく
認識できるパターン認識装置を提供することにある。

く課題を解決するための手段〉上記目的を達成するため、この発明のパターン認識装置
は、入力された情報の特徴を表す特徴パターンと上記情
報が属するカテゴリを含む複数のカテゴリの夫々を代表
する標準パターンとのＤＰマツチングを行って、最適経
路に沿った距離の総和を表すＤＰスコアと上記最適経路
を行列パターンで表現したＤＰパス・パターンとを生成
するＤＰマッチング部と、上記ＤＰマツチング部によっ
て生成された上記ＤＰパス・パターンを構成する要素の
値が人力されて、上記特徴パターンが属するカテゴリと
上記標準パターンが属するカテゴリとが同一であるかを
識別して識別の程度を表す識別結果を出力するカテゴリ
識別ニューラル・ネットワークと、上記ＤＰマッチング
部によって生成された上記ＤＰスコアに対して上記カテ
ゴリ識別ニューラル・ネットワークから出力された識別
結果による補正を行って、上記特徴パターンにおける許
容歪みを正規化した正規化ＤＰスコアを生成する正規化
ＤＰスコア生成手段を備えたことを特徴としている。

く作用〉ある情報の特徴を表す特徴パターンがＤＰマツチング部
に入力される。そうすると、このＤＰマツチング部にお
いて、上記情報が属するカテゴリを含む複数のカテゴリ
の夫々を代表する標準パターンと入力された上記特徴パ
ターンとのＤＰマツチングが行われる。そして、最適経
路に沿った距離の総和を表すＤＰスコアと上記最適経路
を行列パターンで表現したＤＰパス・パターンとが生成
される。こうして、上記ＤＰマツチング部によって生成
された上記ＤＰパス・パターンを構成する要素の値がカ
テゴリ識別ニューラル・ネットワークに入力される。そ
うすると、このカテゴリ識別ニューラル・ネットワーク
によって、上記特徴パターンが属するカテゴリと上記標
準パターンが属するカテゴリとが同一であるかが識別さ
れて、識別の程度を表す識別結果が出力される。

そして、上記ＤＰマツチング部によって生成された上記
ＤＰスコアおよび上記カテゴリ識別ニューラル・ネット
ワークからの識別結果が正規化ＤＰスコア生生成段に入
力される。そうすると、この正規化ＤＰスコア生成手段
によって上記ＤＰスコアに対して上記識別結果による補
正が行われ、上記特徴パターンにおける許容歪みが正規
化された正規化ＤＰスコアが生成される。

すなわち、上記カテゴリ識別ニューラル・ネットワーク
の識別能力に応じた度合で上記許容歪みが正規化された
正規化ＤＰスコアが得られるのである。したがって、正
規化したい許容歪みの内容に応じた種類のＤＰマツチン
グを行い、かつ、正規化したい許容歪みの内容と正規化
したい程度に応じて、学習によって上記カテゴリ識別ニ
ューラル・ネットワークの識別能力を設定することによ
って、特徴パターンにおける正規化したい許容歪みのみ
が必要な範囲で正規化された正規化ＤＰスコアが生成さ
れる。

〈実施例〉以下、この発明を図示の実施例により詳細に説明する。

第１図はこの発明のパターン認識装置の一実施例を示す
ブロック図である。ＤＰマツチング部ｌに音声波形ある
いは文字画像等の特徴を表す特徴パターンが入力される
。そうすると、後に詳述するようにして、標準パターン
格納部２に格納された標準パターンと人力された特徴パ
ターンとのＤＰマツチングが実施されてＤＰスコアとＤ
Ｐパス・パターンが求められて出力される。そして、Ｄ
Ｐババスパターンがカテゴリ識別ニューラル・ネットワ
ーク３に入力される一方、ＤＰスコアが除算器４に人力
される。

上記カテゴリ識別ニューラル・ネットワーク３において
は、ＤＰマツチング部ｌから人力されたＤＰパス・パタ
ーンに基づいて、特徴パターンのカテゴリが標準パター
ンのカテゴリに属しているかを識別する。そして、この
カテゴリ識別ニューラル・ネットワーク３からの識別結
果が除算器４に入力され、上記ＤＰスコアとに基づいて
個人差が正規化された正規化ＤＰスコアが算出される。

次に、上記ＤＰマツチング部ｌによって実施されるＤＰ
マツチングおよびカテゴリ識別ニューラル・ネットワー
ク３について、特徴パターンとして音声波形に基づく特
徴パターンを用いた場合を例に詳細に説明する。

上記ＤＰマツチング部ｌに人力される特徴パターンは次
のようにして生成される。すなわち、音声波形をＬチャ
ンネルのフィルタ・バンクで分析し、ｌｏｍｓ（フレー
ム）毎にサンプリングする。各フレームにおけるＬチャ
ンネルの出力値は、各出力値の二乗和によって正規化さ
れて特徴パターンが生成される。以下、こうして求めら
れた各チャンネルの正規化値からなるチャンネル系列を
パワー・スペクトルと言う。こうして求められた二つの
音声波形に係るパワー・スペクトルをパワー・スペクト
ルＡおよびパワー・スペクトルＢとし、両パワー・スペ
クトルにおける各チャンネルの正規化された出力値を出
力値ａｉおよび出力値ｂｊ（但し、ｌ≦ｌ、ｊ≦Ｌ）と
する。

いま、第２図に示すようなパワー・スペクトルＡ（例え
ば、標準パターン）とパワー・スペクトルＩ３（例えば
、人力された特徴パターン）に基づく平面を考える。両
パターンの周波数の対応付けは、この平面上の格子点ｃ
−（ｉ、ｊ）の系列（パス）で表現できる。そうすると
、両パターン間の最適パス（以下、ＤＰババス言う）に
沿った距離の総和Ｇ（以下、ＤＰスコアと言う）の値は
、ＤＰマツチングによって（１）式に示される部分和ｇ
（ｉ、Ｄの値を整合窓の範囲内でｉ、ｊを増加させなが
ら繰り返し計算することによって求められる。

Ｇ＝ｇ（Ｌ、Ｌ）／２Ｌ７こだし、ｄ（ｉ、ｊ）−１ａｉ−ｂｊ（１）式に基づ
いて算出されるＤＰスコアの値が小さいほど両パターン
間のＤＰパスに沿った距離の総和が小さく、両パターン
は整合窓の範囲内で周波数伸縮を行った場合によく似た
形状を有するパターンであると言える。つまり、ＤＰス
コアは両パターンが同じカテゴリに属している度合いを
表しているのである。

第３図は（１）式に基づいて求められたＤＰスコアを与
える格子点ｃ（ｉ、ｊ）の系列、すなわちＤＰパスを表
現するための行列パターン（以下、このようなりＰパス
を表現する行列パターンをＤＩ）バス・パターンと言う
）の−例を示す。このＤＰパス・パターンは、１つのａ
ｌに１つのｂｊが対応する（すなわち、ｇ（ｉ、ｊ）が
ただ一つ存在する）場合には、格子点ｃ（ｉｊ）に“２
”を与える。また、１つのａｉに２つのｂｊが対応する
（すなわち、ｇ（ｉ、ｊ）が二つ存在する：　ｇ（ｉ、
ｊ＋）−ｇ（＋、ｊｔ））場合には、格子点Ｃ（ｉ、ｊ
＋）とｃ（ｉ、ｊ、）とに“１”を与え、経路上にない
格子点Ｃ（ｉ　、　ｊ）には“０”（第３図においては
記載を省略）を与えたものである。こうして、ＤＰパス
・パターンは（ＬＸＬ）次元のベクトルとして表される
のである。

第３図のＤＰババスパターンにおいては、“２”が与え
られた格子点（ｉ、ｊ）がほぼ対角線上に数多くあるた
め、二つのパワー・スペクトルのパターンは周波数軸上
でよく対応付けられていると言える。

ところで、上述のように、同じ音素カテゴリに属する特
徴パターンであっても、話者によっては周波数軸上にお
ける許容歪みを有している。ところが、個人差による周
波数軸上の許容歪みを正規化するためにＤＰマツチング
における整合窓の範囲を必要以上大きくすると、上述の
ように音韻差までが正規化されてしまうのである。

そこで、この発明においては、ニューラル・ネットワー
クによって、入力された特徴パターンのカテゴリが標準
パターンのカテゴリに属しているかを上記ＤＰパス・パ
ターンに基づいて周波数軸上の歪みを加味して識別し、
その識別結果を用いて上記ＤＰスコアを補正することに
よって個人差を必要な範囲で正規化するのである。

次に、第１図において、入力された音声の特徴パターン
のカテゴリが標準パターンのカテゴリに属しているかを
識別するためのカテゴリ識別ニューラル・ネットワーク
３について詳細に説明する。

第４図はカテゴリ識別ニューラル・ネットワーク３の概
略構成図である。このカテゴリ識別ニューラル・ネット
ワーク３は入力層１１．中間層１２および出力層１３の
３層からなる多層パーセプトロン型ニューラル・ネット
ワークである。入力層１１には（ＬＸＬ）個のノードを
設ける一方、中間層１２には６個のノードを設ける。そ
して、中間層１２の各ノードと入力層ＩＩの全ノードと
を結合する。さらに、出力層１３には１個のノード１４
を設け、このノード１４を中間層１３の全ノードと結合
する。各ノード間の結合には結合の重みを付加し、この
結合の重みの値は学習によって決定する。

」二記入力層１１における（ＬＸＬ）個のノードには、
上記（ＬＸＬ）次元ベクトルであるＤＰパス・パターン
の各要素値を人力する。

上述のカテゴリ識別ニューラル・ネットワーク３におけ
る結合の重みの学習は誤差逆伝播法によって実施する。

まず、次のようにして学習用データを作成する。

各音韻カテゴリ毎に、その音韻カテゴリに属するｉ番目
の特徴パターン（パワー・スペクトル）と標準パターン
（その音韻カテゴリを代表するパワー・スペクトル）と
のＤＰマツチングを行い、上述のようなりＰパス・パタ
ーンＴＰＡＴＨｉを求める。さらに、各音韻カテゴリ毎
に、その音韻カテゴリに類似したカテゴリ属するｊ番目
の特徴パターンとその音韻カテゴリの標準パターンとの
ＤＰマツチングを行い、ＤＰパス・パターンＦＰＡＴＩ
ｌｊを求める。

そして、このＤＰパス・パターンＴＰＡＴＨｉおよびＤ
Ｐパス・パターンＦＰＡＴＨｊを学習データとするので
ある。

次に、上述のような学習データを用いて以下のように学
習を実施する。まず、同一カテゴリに属する２つのパタ
ーンから求めたＤＰパス・パターンＴＰＡＴ！Ｉｉの要
素値を入力層１１のノードに入力する。その際には、出
力層１３のノード１４には教師データ“ｌ”を入力する
。さらに、互いに類似したカテゴリに属する２つのパタ
ーンから求めたＤＰパス・パターンＦＰＡＴＨｊの各要
素値を入力層Ｉ＋のノードに入力する。その際には、出
力層１３のノード１４には教師データ“０″を入力する
。そうすると、カテゴリ識別ニューラル・ネットワーク
３は、入力されたＰＤパス・パターンに係る特徴パター
ンと標準パターンとが同一のカテゴリに属する場合には
出力層１３のノード１４から“ｌ”を出力する一方、同
一のカテゴリに属さない場合にはノードＩ４から“０”
を出力するように各結合の重みの値を自動的に決定する
のである。

その際に、年令、性別、言語環境０発声癖等を異にする
多くの話者におけるＤＰパス・ノくターンＴＰＡＴｌｉ
およびＤＰパス・パターンＰＰＡＴＨｊを学習データと
して用いることによって、話者によらず特徴７くターン
が属するカテゴリと標準パターンが属するカテゴリとが
同一であるかを識別できるのである。

上述のような学習によって結合の重みが決定されたカテ
ゴリ識別ニューラル・ネットワーク３は、次のようにし
て入力音声の特徴パターンの属するカテゴリと標準パタ
ーンの属するカテゴリとが同じであるかを識別するので
ある。すなわち、入力層１１の（Ｌ　Ｘ　Ｌ）個のノー
ドに、特徴ノくターンと標準パターンとのＤＰマツチン
グによって求められた（ＬＸＬ）次元ベクトルのＤＰＥ
＜ス・７＜ターンを人力する。そうすると、カテゴリ識
別ニューラル・ネットワーク３の各ノードは、学習によ
って決定された結合の重みを用いて所定の出力関数に従
って出力値の算出を行い、算出結果を上層の結合された
ノードに出力する。

その結果、出力層１３のノード１４からは、特徴パター
ンが属するカテゴリと標準パターンが属するカテゴリと
が全く同一であると識別した場合を“１”とする一方全
く異なると識別した場合を“０”として、識別の程度に
応じた０乃至１の値を識別結果として出力するのである
。

次に、第１図および第４図に従って、上記ＤＰマッチン
グ部１におけるＤＰマツチング結果とカテゴリ識別ニュ
ーラル・ネットワーク３における識別結果とに基づいて
実施される正規化ＤＰスコア算出の一連の動作について
述べる。

既に述べたように、上記ＤＰマツチング部ｌに人力音声
から求められたパワー・スペクトルが特徴パターンとし
て人力される。そうすると、ＤＰマッチング部１は、標
準パターン格納部２に格納されている標準パターンを読
み出し、上述のようにして、特徴パターンと標準パター
ンとにおける周波数伸縮ＤＰマツチングを行ってＤＰス
コアとＤＰパス・パターンを生成する。このＤＰスコア
は、上記ＤＰマツチングを実施する際に設定された整合
窓の制限内において両パターンが同じカテゴリに属して
いる度合いを表していると言える。

ところが、上記整合窓の範囲が必要以上に大きい場合に
（よ音韻差まで正規化されてしまい、ＤＰスコアによっ
て特徴パターンと標準パターンとのカテゴリの同一性を
論することができなくなる。そこで、カテゴリ識別ニュ
ーラル・ネットワーク３による識別結果を用いて、次の
ようにしてＤＰスコアを補正するのである。

上述のように、上記カテゴリ識別ニューラル・ネットワ
ーク３の入力層１１の（ＬＸＬ）個のノードに、ＤＰマ
ツチング部Ｉによって得られた（ＬＸＬ）次元ベクトル
のＤＰパス・パターンを入力する。そうすると、カテゴ
リ識別ニューラル・ネットワーク３は、結合の重みを用
いて上述のようにして特徴パターンの属するカテゴリが
標準パターンの属するカテゴリと同じであるかを識別し
、出力層１３のノードＩ４から識別の程度に応じた０乃
至ｌの出力値を出力する。

次に、このカテゴリ識別ニューラル・ネットワーク３か
らの出力値とＤＰマツチング部ｌからのＤＰスコアとが
除算器４に入力される。そして、ＤＰスコアの値をカテ
ゴリ識別ニューラル・ネットワーク３の出力値で除し、
その結果得られた値を正規化ＤＰスコアとして出力する
。

すなわち、カテゴリ識別ニューラル・ネットワーク３か
らの識別結果によって、特徴パターンの属するカテゴリ
と標準パターンの属するカテゴリとが同一でない度合い
に応じてＤＰスコアの値を大きくするのである。こうす
ることによって、整合窓の範囲が不必要に大きく設定さ
れたＤＰマツチング部ｌによって、異なるカテゴリに属
する特徴パターンと標準パターンが同じカテゴリに属す
ると誤認されることが回避できる。つまり、ＤＰマツチ
ングによる個人差（すなわち、周波数軸に対する許容歪
み）を正規化する際の度合を自動的に設定するのである
。こうすることによって、周波数伸縮範囲を大きくして
個人差を正規化しようとすると音韻差までも正規化され
てしまうというＤＰマツチングの短所が補正される。一
方、認識の信頼度やマツチング距離に用いることができ
るような中間的な値が出にくいというニューラル・ネッ
トワークの短所も補正されるのである。

換言すれば、正規化ＤＰスコアは、認識の信頼度やマツ
チング距離として使用でき、かつ、話者によらない認識
結果を得ることができる優れた評価値であると言える。

したがって、正規化ＤＰスコアを用いることによって話
者によらない正しい音声認識を容易に実行できるのであ
る。

上述のように、本実施例においては、ＤＰマツチング部
ｌによって、人力音声波形から得られた特徴パターン（
パワー・スペクトル）と標準パターンとの周波数伸縮Ｄ
Ｐマツチングを行ってＤＰスコアとＤＰパス・パターン
を求める。次に、カテゴリ識別ニューラル・ネットワー
ク３によって、ＤＰマツチング部ｌによって得られたＤ
Ｐパス・パターンを入力として特徴パターンの属するカ
テゴリと標準パターンの属するカテゴリとが同一である
かを識別し、識別の程度に応じた識別結果を得る。そし
て、除算器４において、ＤＰスコアに識別結果による補
正を行うことによって個人差が必要範囲で正規化された
ＤＰスコアすなわち正規化ＤＰスコアを得るのである。

したがって、本実施例を用いれば、認識の信頼度やマツ
チング距離として使用可能な中間値を有すると共に個人
差を正規化した正規化ＤＰスコアに基づいて、入力音声
の特徴パターンを正しく認識できる。

上記実施例におけるカテゴリ識別ニューラル・ネットワ
ーク３は３層のパーセプトロン型ニューラル・ネットワ
ークで構成しているが、この発明のカテゴリ識別ニュー
ラル・ネットワーク３はいかなる構造のニューラル・ネ
ットワークであっても構わない。また、学習方法も誤差
逆伝播法に限定されるものではなく、ニューラル・ネッ
トワークの構造に応じた学習方法であればよい。

上記実施例の説明においては、ＤＰマツチング部ｌにお
けるＤＰマツチングとして周波数伸縮マツチングを例と
して説明している。しかしながら、この発明はこれに限
定されるものではない。すなわち、特徴パターンが有す
る許容歪みの内容に応じて、例えば時間伸縮マツチング
あるいは空間位置を伸縮する空間位置伸縮マツチング等
を用いてもよい。また、例えば時間伸縮マツチングと周
波数伸縮マツチングとを併用してもよい。

」二足実施例においては、人力音声波形の特徴パターン
を認識する場合を例に上げて説明している。

しかしながら、この発明はこれに限定されるものではな
く、文字画像の特徴パターンを認識する際に用いても何
等差し支えない。その際には、ＤＰマツチング部ｌにお
けるＤＰマツチングとして上記空間伸縮マツチングを用
いればよい。

〈発明の効果〉以上より明らかなように、この発明のパターン認識装置
は、ＤＰマツチング部、カテゴリ識別ニューラル・ネッ
トワークおよび正規化ＤＰスコア生生成を有して、上記
ＤＰマツチング部で特徴パターンと標準パターンとに係
るＤＰスコアおよびＤＰパス・パターンを生成し、上記
カテゴリ識別ニューラル・ネットワークで上記特徴パタ
ーンの属するカテゴリが上記標準パターンの属するカテ
ゴリと同一であるかを上記ＤＰババスパターンに基づい
て識別し、上記正規化ＤＰスコア生生成で上記カテゴリ
識別ニューラル・ネットワークからの識別結果と上記Ｄ
Ｐスコアとに基づいて正規化ＤＰスコアを生成するよう
にしたので、上記カテゴリ識別ニューラル・ネットワー
クの識別結果に応じて上記特徴パターンの許容歪みが必
要な範囲で正規化された正規化ＤＰスコアが得られる。

したがって、正規化したい許容歪みの内容に応じてＤＰ
マッチングの種類を選択し、かつ、正規化したい許容歪
みの内容と正規化したい程度に応じて上記カテゴリ識別
ニューラル・ネットワークの識別能力を設定すれば、特
徴パターンにおける正規化したい許容歪みのみが正しく
正規化された正規化ＤＰスコアが生成される。

すなわち、この発明に係る上記正規化ＤＰスコアを用い
れば、個人差等の許容歪みを含むパターンの属するカテ
ゴリを正しく認識できる。

【図面の簡単な説明】

第１図はこの発明のパターン認識装置における一実施例
のブロック図、第２図はＤＰパス・パターンのひな型を
示す図、第３図はＤＰパス・パターンの一具体例を示す
図、第４図はカテゴリ識別ニューラル・ネットワークの
概略構造の一例を示す図である。 ■・・・ＤＰマツチング部、２・・標準パターン格納部、３・・・カテゴリ識別ニューラル・ネットワーク、４・
・除算器、　　　　　　　　１１・・・入力層、１２・
・・中間層、　　　　　　　１３・・・出力層、１４・
・・ノード。

Claims

【特許請求の範囲】

（１）入力された情報の特徴を表す特徴パターンと上記
情報が属するカテゴリを含む複数のカテゴリの夫々を代
表する標準パターンとのＤＰマッチングを行って、最適
経路に沿った距離の総和を表すＤＰスコアと上記最適経
路を行列パターンで表現したＤＰパス・パターンとを生
成するＤＰマッチング部と、上記ＤＰマッチング部によって生成された上記ＤＰパス
・パターンを構成する要素の値が入力されて、上記特徴
パターンが属するカテゴリと上記標準パターンが属する
カテゴリとが同一であるかを識別して識別の程度を表す
識別結果を出力するカテゴリ識別ニューラル・ネットワ
ークと、上記ＤＰマッチング部によって生成された上記
ＤＰスコアに対して上記カテゴリ識別ニューラル・ネッ
トワークから出力された識別結果による補正を行って、
上記特徴パターンにおける許容歪みを正規化した正規化
ＤＰスコアを生成する正規化ＤＰスコア生成手段を備え
たことを特徴とするパターン認識装置。