JPH0318983A - パターン照合方式 - Google Patents
パターン照合方式Info
- Publication number
- JPH0318983A JPH0318983A JP1153926A JP15392689A JPH0318983A JP H0318983 A JPH0318983 A JP H0318983A JP 1153926 A JP1153926 A JP 1153926A JP 15392689 A JP15392689 A JP 15392689A JP H0318983 A JPH0318983 A JP H0318983A
- Authority
- JP
- Japan
- Prior art keywords
- category
- vector
- wij
- zij
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
該10L腎
本発明は、音声認識や文字認識装置等のパターンマツチ
ング部におけるパターン照合方式に関する。
ング部におけるパターン照合方式に関する。
従」q【4
ベクトル量子化やカテゴリー分類問題では、カテゴリー
数と学習サンプル数の関係が常に問題となっている。つ
まり、カテゴリー数が大きい程、細かい分類ができるが
、逆に1カテゴリーあたりの学習サンプル数が小さくな
るため、カテゴリーらしさを表わす指標(代表ベクトル
、標準パターン等)が正確でなくなり、未知入力のカテ
ゴリーへの帰属度もしくは距離が正確に求まらなくなっ
てしまう、また、逆に、カテゴリー数を減らせば、カテ
ゴリーらしさを表わす指標は統計的に信頼できるものに
なるが、本来異質なものが同一カテゴリーに配属された
り、量子化歪が大きくなる等の欠点があった。
数と学習サンプル数の関係が常に問題となっている。つ
まり、カテゴリー数が大きい程、細かい分類ができるが
、逆に1カテゴリーあたりの学習サンプル数が小さくな
るため、カテゴリーらしさを表わす指標(代表ベクトル
、標準パターン等)が正確でなくなり、未知入力のカテ
ゴリーへの帰属度もしくは距離が正確に求まらなくなっ
てしまう、また、逆に、カテゴリー数を減らせば、カテ
ゴリーらしさを表わす指標は統計的に信頼できるものに
なるが、本来異質なものが同一カテゴリーに配属された
り、量子化歪が大きくなる等の欠点があった。
ファジーベクトル量子化(「ファジーベクトル量子化を
用いたスペクトログラムの正規化」音響学会論文誌45
巻2号(1989) )は、この欠点を改良したもので
、少ないカテゴリー数であっても量子化歪を小さくでき
る。
用いたスペクトログラムの正規化」音響学会論文誌45
巻2号(1989) )は、この欠点を改良したもので
、少ないカテゴリー数であっても量子化歪を小さくでき
る。
しかし、細かい分類が必要になったとき、依然として上
記の欠点は解析されていなかった。また、従来は学習サ
ンプル数のふぞろいに対応しにくいという欠点があった
0例えば、特定話者の音声認識装置に標準パターンとし
て音素を登録する場合について考えてみる。人間は、音
素単位で発声する事は不可能に近いので、例えば単語単
位で発声し、これを音素単位で切り出して標準パターン
にする。ここで問題となるのは音素の頻度分布の片寄り
である。例えば、/a/のデータは100個そろったが
/p/のデータは2つしか得られなかった、というよう
な事態が起こり得る。この結果/a/の標準パターンは
、統計的にも十分信頼できるものであるが、/p/に関
しては、精度の良い標準パターンは期待できない。また
、/p/に関しては、HMMやベイズ判定、マハラノビ
スの距離等での認識は不可能になってしまう。また、極
端な例では、用意されたカテゴリー(音素)に対する発
声がない場合も起こり得る。
記の欠点は解析されていなかった。また、従来は学習サ
ンプル数のふぞろいに対応しにくいという欠点があった
0例えば、特定話者の音声認識装置に標準パターンとし
て音素を登録する場合について考えてみる。人間は、音
素単位で発声する事は不可能に近いので、例えば単語単
位で発声し、これを音素単位で切り出して標準パターン
にする。ここで問題となるのは音素の頻度分布の片寄り
である。例えば、/a/のデータは100個そろったが
/p/のデータは2つしか得られなかった、というよう
な事態が起こり得る。この結果/a/の標準パターンは
、統計的にも十分信頼できるものであるが、/p/に関
しては、精度の良い標準パターンは期待できない。また
、/p/に関しては、HMMやベイズ判定、マハラノビ
スの距離等での認識は不可能になってしまう。また、極
端な例では、用意されたカテゴリー(音素)に対する発
声がない場合も起こり得る。
以上のように、学習サンプルにふぞろいがある場合には
、同一の距離尺度ではカテゴリー分類が不可能な場合が
あった。
、同一の距離尺度ではカテゴリー分類が不可能な場合が
あった。
且−□拵
本発明は、上述のごとき実情に鑑みてなされたもので、
学習サンプル数の違いによるカテゴリーの信頼性のふぞ
ろいがあった場合でも、同一の距離尺度、もしくは類似
尺度によってカテゴリー分類を可能にするパターン照合
方式を提供することを目的としてなされたものである。
学習サンプル数の違いによるカテゴリーの信頼性のふぞ
ろいがあった場合でも、同一の距離尺度、もしくは類似
尺度によってカテゴリー分類を可能にするパターン照合
方式を提供することを目的としてなされたものである。
盪−一双
本発明は、上記目的を達成するために、人力された未知
ベクトルXとカテゴリーを代表する特徴ベクトルとを照
合するパターン照合方式において、各カテゴリーはM個
の大カテゴリーに分類されており、大カテゴリーiを代
表する特徴ベクトルをYiとし、大カテゴリーiはさら
にN(1)個の小カテゴリーに分類されており、大カテ
ゴリーiに属する小カテゴリーjを代表する特徴ベクト
ルをZijとしたとき、前記未知ベクトルXが、大カテ
ゴリーi内の小カテゴリーjに帰属する度合、もしくは
Xが、大カテゴリーi内の小カテゴリーjとの距離を算
出する際。
ベクトルXとカテゴリーを代表する特徴ベクトルとを照
合するパターン照合方式において、各カテゴリーはM個
の大カテゴリーに分類されており、大カテゴリーiを代
表する特徴ベクトルをYiとし、大カテゴリーiはさら
にN(1)個の小カテゴリーに分類されており、大カテ
ゴリーiに属する小カテゴリーjを代表する特徴ベクト
ルをZijとしたとき、前記未知ベクトルXが、大カテ
ゴリーi内の小カテゴリーjに帰属する度合、もしくは
Xが、大カテゴリーi内の小カテゴリーjとの距離を算
出する際。
C=(I Wij ) Yi十Wij Zij
O≦Wij≦1なる合成ベクトルCを参照して、前記
帰属する度合、もしくは距離を算出することを特徴とし
たものである。以下、本発明の実施例に基づいて説明す
る。
O≦Wij≦1なる合成ベクトルCを参照して、前記
帰属する度合、もしくは距離を算出することを特徴とし
たものである。以下、本発明の実施例に基づいて説明す
る。
第1図は、特定話者音声認識におけるパターン照合部に
本発明のパターン照合方式を適用した場合の一実施例を
説明するためのシステム構成図で、図中、1はマイク、
2は特徴系列変換部53は音素認識部である。
本発明のパターン照合方式を適用した場合の一実施例を
説明するためのシステム構成図で、図中、1はマイク、
2は特徴系列変換部53は音素認識部である。
マイク1から入力された音声波形は、特徴系列変換部2
で特徴ベクトルの時系列に変換される。
で特徴ベクトルの時系列に変換される。
音声認識に有効な特徴ベクトル及びその変換手段は様々
なものが知られている。例えば、12K)[z。
なものが知られている。例えば、12K)[z。
12bitでA/D変換した後、窓長256 pain
t、シフト幅128paintで14次の線形予測係数
を求めれば良い。
t、シフト幅128paintで14次の線形予測係数
を求めれば良い。
その後、音’−h J識部3では特徴ベクトルXについ
て音素認識を行なう。ここでXは1フレームのベクトル
でも良いし、数フレーム単位でまとまったベクトルでも
良い。
て音素認識を行なう。ここでXは1フレームのベクトル
でも良いし、数フレーム単位でまとまったベクトルでも
良い。
音素認識においては調音結合の影響を避けるため、前後
の音韻環境ごとに異なった標準パターンを用意しておく
ことが望ましい。例えば、/に/の音素標準パターンは
後続母音ごとに5種類用意するのがよい。ところが、全
ての音韻環境について標準パターンを用意する、即ち話
者が登録するのでは、発声数が膨大になってしまい、現
実的ではない。
の音韻環境ごとに異なった標準パターンを用意しておく
ことが望ましい。例えば、/に/の音素標準パターンは
後続母音ごとに5種類用意するのがよい。ところが、全
ての音韻環境について標準パターンを用意する、即ち話
者が登録するのでは、発声数が膨大になってしまい、現
実的ではない。
第2図は、音素認識部の構成を示す図で、図中、4は参
照ベクトル合成部、5は距離計算部、6は信頼度Wij
、7は標準パターンZij、8は標準パターンYiであ
る。標準パターンは、音素ごとに作成された標準パター
ンYi (1≦i≦M、Mは音素数)と、前後の音韻環
境ごとに作成された標準パターンZij(1≦j≦N
(i) 、 N (i)は音素iの環境数)との2種類
を用意する。例えば、前述の/に/の例では、音韻環境
を考慮しないで作成されたYi(複数個であっても良い
)と後続母音ごとに5種類用意されたZijである。(
N(i)=5)そして、入力された未知ベクトルXと比
較参照されるべき参照ベクトルCを C:(1−Wij ) Yi+Wij Zij
(1)なる式で合成し、XとCとの距離を算出する。式
(1)において、Wijは0≦Wij≦1の範囲の定数
である。WijはZijの信頼度を表わす指標であり。
照ベクトル合成部、5は距離計算部、6は信頼度Wij
、7は標準パターンZij、8は標準パターンYiであ
る。標準パターンは、音素ごとに作成された標準パター
ンYi (1≦i≦M、Mは音素数)と、前後の音韻環
境ごとに作成された標準パターンZij(1≦j≦N
(i) 、 N (i)は音素iの環境数)との2種類
を用意する。例えば、前述の/に/の例では、音韻環境
を考慮しないで作成されたYi(複数個であっても良い
)と後続母音ごとに5種類用意されたZijである。(
N(i)=5)そして、入力された未知ベクトルXと比
較参照されるべき参照ベクトルCを C:(1−Wij ) Yi+Wij Zij
(1)なる式で合成し、XとCとの距離を算出する。式
(1)において、Wijは0≦Wij≦1の範囲の定数
である。WijはZijの信頼度を表わす指標であり。
Zijが十分な数の学習データで作成されている時はど
大きな値をとるようにする。逆に、Zijに信頼性が少
ない場合には、Yijの方を信頼して、Cが合成される
ようになる。
大きな値をとるようにする。逆に、Zijに信頼性が少
ない場合には、Yijの方を信頼して、Cが合成される
ようになる。
例えば、前述の/に/の例で、/ku/の学習データが
少なかった時には/ka/〜/ko/の全体で作成され
た/に/の[141!パターンYijを信頼して、C岬
Yijとなるように式(1)は設定されている。
少なかった時には/ka/〜/ko/の全体で作成され
た/に/の[141!パターンYijを信頼して、C岬
Yijとなるように式(1)は設定されている。
XとCとの距離dは、例えばユークリッド距離を用いて
、 a=lx−all” (2)として
計算すれば良い。
、 a=lx−all” (2)として
計算すれば良い。
羞−一末
以上の説明から明らかなように、本発明によると、参照
ベクトル合成部では C= (1−Wij ) Yi+Wij Zijなる方
法で、未知入力ベクトルXが参照すべきベクトルCを合
成している。このため、Zijがごく少数の学習データ
から作成されており、Zjjの精度が悪い場合には1重
みWijを小さく設定する事により、大カテゴリーiを
代表するYiによる概略的な近似によってCを合成する
ことができる。
ベクトル合成部では C= (1−Wij ) Yi+Wij Zijなる方
法で、未知入力ベクトルXが参照すべきベクトルCを合
成している。このため、Zijがごく少数の学習データ
から作成されており、Zjjの精度が悪い場合には1重
みWijを小さく設定する事により、大カテゴリーiを
代表するYiによる概略的な近似によってCを合成する
ことができる。
逆に大カテゴリーi内の小カテゴリーjを代表するZi
jが多くの学習データから作成されている場合にはWi
jを大きく設定する事により、精密な参照ベクトルが合
成する事ができる。
jが多くの学習データから作成されている場合にはWi
jを大きく設定する事により、精密な参照ベクトルが合
成する事ができる。
また、各小カテゴリーごとの学習データ数のふぞろいに
起因する各Zjjの信頼性のバラツキがあった場合でも
、本発明によって同一の合成力法で参照ヴクトルを合成
することができる。
起因する各Zjjの信頼性のバラツキがあった場合でも
、本発明によって同一の合成力法で参照ヴクトルを合成
することができる。
第1図は、特定話者音声認識におけるパターン照合部に
本発明のパターン照合方式を適用した一実施例を説明す
るためのシステム構成図、第2図は、音素認識部の構成
図である。 1・・マイク、2・・・特徴系列変換部、3・・・音素
認識部、4・・参照ベクトル合成部、5・・・距離計算
部、6・・・信頼度、7,8・・・4i1$パターン。
本発明のパターン照合方式を適用した一実施例を説明す
るためのシステム構成図、第2図は、音素認識部の構成
図である。 1・・マイク、2・・・特徴系列変換部、3・・・音素
認識部、4・・参照ベクトル合成部、5・・・距離計算
部、6・・・信頼度、7,8・・・4i1$パターン。
Claims (1)
- 【特許請求の範囲】 1、入力された未知ベクトルXとカテゴリーを代表する
特徴ベクトルとを照合するパターン照合方式において、
各カテゴリーはM個の大カテゴリーに分類されており、
大カテゴリーiを代表する特徴ベクトルをYiとし、大
カテゴリーiはさらにN(i)個の小カテゴリーに分類
されており、大カテゴリーiに属する小カテゴリーjを
代表する特徴ベクトルをZijとしたとき、前記未知ベ
クトルXが、大カテゴリーi内の小カテゴリーjに帰属
する度合、もしくはXが、大カテゴリーi内の小カテゴ
リーjとの距離を算出する際、 C=(1−Wij)Yi+WijZ1j0≦Wij≦1
なる合成ベクトルCを参照して、前記帰属する度合、も
しくは距離を算出することを特徴とするパターン照合方
式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1153926A JPH0318983A (ja) | 1989-06-15 | 1989-06-15 | パターン照合方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1153926A JPH0318983A (ja) | 1989-06-15 | 1989-06-15 | パターン照合方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0318983A true JPH0318983A (ja) | 1991-01-28 |
Family
ID=15573101
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1153926A Pending JPH0318983A (ja) | 1989-06-15 | 1989-06-15 | パターン照合方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0318983A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH03207540A (ja) * | 1989-10-20 | 1991-09-10 | Sanden Corp | ヘッダーパイプの製造方法並びにヘッダーパイプとチューブの接続方法及びヘッダーパイプとチューブの接続構造 |
-
1989
- 1989-06-15 JP JP1153926A patent/JPH0318983A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH03207540A (ja) * | 1989-10-20 | 1991-09-10 | Sanden Corp | ヘッダーパイプの製造方法並びにヘッダーパイプとチューブの接続方法及びヘッダーパイプとチューブの接続構造 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3452443B2 (ja) | 騒音下音声認識装置及び騒音下音声認識方法 | |
| US5903863A (en) | Method of partitioning a sequence of data frames | |
| US5651094A (en) | Acoustic category mean value calculating apparatus and adaptation apparatus | |
| US5734793A (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
| JPH0585916B2 (ja) | ||
| JPH0612089A (ja) | 音声認識方法 | |
| US5943647A (en) | Speech recognition based on HMMs | |
| US5832181A (en) | Speech-recognition system utilizing neural networks and method of using same | |
| JP2898568B2 (ja) | 声質変換音声合成装置 | |
| Devi et al. | Automatic speech emotion and speaker recognition based on hybrid gmm and ffbnn | |
| Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
| JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
| JPH06289891A (ja) | 音声認識装置 | |
| JPH0318983A (ja) | パターン照合方式 | |
| JP2815667B2 (ja) | 話者認識方法 | |
| Niyozmatova et al. | MFCC-GMM Method for Speaker Identification by Voice | |
| JP3256979B2 (ja) | 音響モデルの入力音声に対する尤度を求める方法 | |
| Nakano et al. | Fast NMF based approach and improved VQ based approach for speech recognition from mixed sound | |
| JP2862306B2 (ja) | 音声認識装置 | |
| JP3036706B2 (ja) | 音声認識方法 | |
| Zhou et al. | Multisegment multiple VQ codebooks-based speaker independent isolated-word recognition using unbiased mel cepstrum | |
| Hutter | Comparison of classic and hybrid HMM approaches to speech recognition over telephone lines | |
| Rose et al. | On the interaction between speaker normalization, environment compensation, and discriminant feature space transformations | |
| Gay et al. | Isolated digit recognition without time alignment | |
| Ikeda et al. | Effects of speaker normalization based on vocal tract length ratios on word recognition using compound parameters |