JPH0318983A

JPH0318983A - パターン照合方式

Info

Publication number: JPH0318983A
Application number: JP1153926A
Authority: JP
Inventors: Tetsuya Muroi; 室井　哲也
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1989-06-15
Filing date: 1989-06-15
Publication date: 1991-01-28

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】該１０Ｌ腎本発明は、音声認識や文字認識装置等のパターンマツチ
ング部におけるパターン照合方式に関する。

従」ｑ【４ベクトル量子化やカテゴリー分類問題では、カテゴリー
数と学習サンプル数の関係が常に問題となっている。つ
まり、カテゴリー数が大きい程、細かい分類ができるが
、逆に１カテゴリーあたりの学習サンプル数が小さくな
るため、カテゴリーらしさを表わす指標（代表ベクトル
、標準パターン等）が正確でなくなり、未知入力のカテ
ゴリーへの帰属度もしくは距離が正確に求まらなくなっ
てしまう、また、逆に、カテゴリー数を減らせば、カテ
ゴリーらしさを表わす指標は統計的に信頼できるものに
なるが、本来異質なものが同一カテゴリーに配属された
り、量子化歪が大きくなる等の欠点があった。

ファジーベクトル量子化（「ファジーベクトル量子化を
用いたスペクトログラムの正規化」音響学会論文誌４５
巻２号（１９８９）　）は、この欠点を改良したもので
、少ないカテゴリー数であっても量子化歪を小さくでき
る。

しかし、細かい分類が必要になったとき、依然として上
記の欠点は解析されていなかった。また、従来は学習サ
ンプル数のふぞろいに対応しにくいという欠点があった
０例えば、特定話者の音声認識装置に標準パターンとし
て音素を登録する場合について考えてみる。人間は、音
素単位で発声する事は不可能に近いので、例えば単語単
位で発声し、これを音素単位で切り出して標準パターン
にする。ここで問題となるのは音素の頻度分布の片寄り
である。例えば、／ａ／のデータは１００個そろったが
／ｐ／のデータは２つしか得られなかった、というよう
な事態が起こり得る。この結果／ａ／の標準パターンは
、統計的にも十分信頼できるものであるが、／ｐ／に関
しては、精度の良い標準パターンは期待できない。また
、／ｐ／に関しては、ＨＭＭやベイズ判定、マハラノビ
スの距離等での認識は不可能になってしまう。また、極
端な例では、用意されたカテゴリー（音素）に対する発
声がない場合も起こり得る。

以上のように、学習サンプルにふぞろいがある場合には
、同一の距離尺度ではカテゴリー分類が不可能な場合が
あった。

且−□拵本発明は、上述のごとき実情に鑑みてなされたもので、
学習サンプル数の違いによるカテゴリーの信頼性のふぞ
ろいがあった場合でも、同一の距離尺度、もしくは類似
尺度によってカテゴリー分類を可能にするパターン照合
方式を提供することを目的としてなされたものである。

盪−一双本発明は、上記目的を達成するために、人力された未知
ベクトルＸとカテゴリーを代表する特徴ベクトルとを照
合するパターン照合方式において、各カテゴリーはＭ個
の大カテゴリーに分類されており、大カテゴリーｉを代
表する特徴ベクトルをＹｉとし、大カテゴリーｉはさら
にＮ（１）個の小カテゴリーに分類されており、大カテ
ゴリーｉに属する小カテゴリーｊを代表する特徴ベクト
ルをＺｉｊとしたとき、前記未知ベクトルＸが、大カテ
ゴリーｉ内の小カテゴリーｊに帰属する度合、もしくは
Ｘが、大カテゴリーｉ内の小カテゴリーｊとの距離を算
出する際。

Ｃ＝（Ｉ　　Ｗｉｊ　）　　Ｙｉ十Ｗｉｊ　　Ｚｉｊ　
　Ｏ≦Ｗｉｊ≦１なる合成ベクトルＣを参照して、前記
帰属する度合、もしくは距離を算出することを特徴とし
たものである。以下、本発明の実施例に基づいて説明す
る。

第１図は、特定話者音声認識におけるパターン照合部に
本発明のパターン照合方式を適用した場合の一実施例を
説明するためのシステム構成図で、図中、１はマイク、
２は特徴系列変換部５３は音素認識部である。

マイク１から入力された音声波形は、特徴系列変換部２
で特徴ベクトルの時系列に変換される。

音声認識に有効な特徴ベクトル及びその変換手段は様々
なものが知られている。例えば、１２Ｋ）［ｚ。

１２ｂｉｔでＡ／Ｄ変換した後、窓長２５６　ｐａｉｎ
ｔ、シフト幅１２８ｐａｉｎｔで１４次の線形予測係数
を求めれば良い。

その後、音’−ｈ　Ｊ識部３では特徴ベクトルＸについ
て音素認識を行なう。ここでＸは１フレームのベクトル
でも良いし、数フレーム単位でまとまったベクトルでも
良い。

音素認識においては調音結合の影響を避けるため、前後
の音韻環境ごとに異なった標準パターンを用意しておく
ことが望ましい。例えば、／に／の音素標準パターンは
後続母音ごとに５種類用意するのがよい。ところが、全
ての音韻環境について標準パターンを用意する、即ち話
者が登録するのでは、発声数が膨大になってしまい、現
実的ではない。

第２図は、音素認識部の構成を示す図で、図中、４は参
照ベクトル合成部、５は距離計算部、６は信頼度Ｗｉｊ
、７は標準パターンＺｉｊ、８は標準パターンＹｉであ
る。標準パターンは、音素ごとに作成された標準パター
ンＹｉ　（１≦ｉ≦Ｍ、Ｍは音素数）と、前後の音韻環
境ごとに作成された標準パターンＺｉｊ（１≦ｊ≦Ｎ　
（ｉ）　、　Ｎ　（ｉ）は音素ｉの環境数）との２種類
を用意する。例えば、前述の／に／の例では、音韻環境
を考慮しないで作成されたＹｉ（複数個であっても良い
）と後続母音ごとに５種類用意されたＺｉｊである。（
Ｎ（ｉ）＝５）そして、入力された未知ベクトルＸと比
較参照されるべき参照ベクトルＣをＣ：（１−Ｗｉｊ　）　Ｙｉ＋Ｗｉｊ　Ｚｉｊ　　　　
（１）なる式で合成し、ＸとＣとの距離を算出する。式
（１）において、Ｗｉｊは０≦Ｗｉｊ≦１の範囲の定数
である。ＷｉｊはＺｉｊの信頼度を表わす指標であり。

Ｚｉｊが十分な数の学習データで作成されている時はど
大きな値をとるようにする。逆に、Ｚｉｊに信頼性が少
ない場合には、Ｙｉｊの方を信頼して、Ｃが合成される
ようになる。

例えば、前述の／に／の例で、／ｋｕ／の学習データが
少なかった時には／ｋａ／〜／ｋｏ／の全体で作成され
た／に／の［１４１！パターンＹｉｊを信頼して、Ｃ岬
Ｙｉｊとなるように式（１）は設定されている。

ＸとＣとの距離ｄは、例えばユークリッド距離を用いて
、ａ＝ｌｘ−ａｌｌ”　　　　　　　　　　（２）として
計算すれば良い。

羞−一末以上の説明から明らかなように、本発明によると、参照
ベクトル合成部ではＣ＝　（１−Ｗｉｊ　）　Ｙｉ＋Ｗｉｊ　Ｚｉｊなる方
法で、未知入力ベクトルＸが参照すべきベクトルＣを合
成している。このため、Ｚｉｊがごく少数の学習データ
から作成されており、Ｚｊｊの精度が悪い場合には１重
みＷｉｊを小さく設定する事により、大カテゴリーｉを
代表するＹｉによる概略的な近似によってＣを合成する
ことができる。

逆に大カテゴリーｉ内の小カテゴリーｊを代表するＺｉ
ｊが多くの学習データから作成されている場合にはＷｉ
ｊを大きく設定する事により、精密な参照ベクトルが合
成する事ができる。

また、各小カテゴリーごとの学習データ数のふぞろいに
起因する各Ｚｊｊの信頼性のバラツキがあった場合でも
、本発明によって同一の合成力法で参照ヴクトルを合成
することができる。

【図面の簡単な説明】

第１図は、特定話者音声認識におけるパターン照合部に
本発明のパターン照合方式を適用した一実施例を説明す
るためのシステム構成図、第２図は、音素認識部の構成
図である。１・・マイク、２・・・特徴系列変換部、３・・・音素
認識部、４・・参照ベクトル合成部、５・・・距離計算
部、６・・・信頼度、７，８・・・４ｉ１＄パターン。

Claims

【特許請求の範囲】１、入力された未知ベクトルＸとカテゴリーを代表する
特徴ベクトルとを照合するパターン照合方式において、
各カテゴリーはＭ個の大カテゴリーに分類されており、
大カテゴリーｉを代表する特徴ベクトルをＹｉとし、大
カテゴリーｉはさらにＮ（ｉ）個の小カテゴリーに分類
されており、大カテゴリーｉに属する小カテゴリーｊを
代表する特徴ベクトルをＺｉｊとしたとき、前記未知ベ
クトルＸが、大カテゴリーｉ内の小カテゴリーｊに帰属
する度合、もしくはＸが、大カテゴリーｉ内の小カテゴ
リーｊとの距離を算出する際、Ｃ＝（１−Ｗｉｊ）Ｙｉ＋ＷｉｊＺ１ｊ０≦Ｗｉｊ≦１
なる合成ベクトルＣを参照して、前記帰属する度合、も
しくは距離を算出することを特徴とするパターン照合方
式。