JPS62120590A - パタ−ン認識用辞書の作成方式 - Google Patents
パタ−ン認識用辞書の作成方式Info
- Publication number
- JPS62120590A JPS62120590A JP60259891A JP25989185A JPS62120590A JP S62120590 A JPS62120590 A JP S62120590A JP 60259891 A JP60259891 A JP 60259891A JP 25989185 A JP25989185 A JP 25989185A JP S62120590 A JPS62120590 A JP S62120590A
- Authority
- JP
- Japan
- Prior art keywords
- category
- pattern
- dictionary
- learning
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の利用分野〕
本発明は、文字認識、音声認識などに用いられる辞書の
作成方式に関する。
作成方式に関する。
従来、たとえば、電子通信学会技術研究報告、PRL8
0−16の内1IIili!一部等による論文「手書き
漢字データの統計的分析」や電子通信学会技術研究報告
、PRL80−25の赤松 茂等による論文「構造集積
特徴による手書き漢字の類別実験」などに説明されてい
るように、文字パターンなどの認識を行なう場合には、
入力パターンと、各カテゴリ (文字の場合には、たと
えば、「あ」。
0−16の内1IIili!一部等による論文「手書き
漢字データの統計的分析」や電子通信学会技術研究報告
、PRL80−25の赤松 茂等による論文「構造集積
特徴による手書き漢字の類別実験」などに説明されてい
るように、文字パターンなどの認識を行なう場合には、
入力パターンと、各カテゴリ (文字の場合には、たと
えば、「あ」。
「い」、「う」、「え」、「お」などの字種)を代表す
る標準パターンとの間で比較を行ない、この人カバター
ンに対する1個の答カテゴリあるいは2個以上の候補カ
テゴリを見つけ出すようにしている。
る標準パターンとの間で比較を行ない、この人カバター
ンに対する1個の答カテゴリあるいは2個以上の候補カ
テゴリを見つけ出すようにしている。
これをさらに具体的に説明する。いま、入力パターンを
Uとし、また、カテゴリがk(但し、k≧1)個あって
、夫々のカテゴリをCI 、Ct 。
Uとし、また、カテゴリがk(但し、k≧1)個あって
、夫々のカテゴリをCI 、Ct 。
・・・・・・、C5とし、夫々のカテゴリC3〜Ckの
標準パターンをr(CI)、 r(Ct)、・・・・・
・、t<cm)とすると、次の処理を行なって1個の答
カテゴリを決定あるいは複数個の候補カテゴリを選択す
る。
標準パターンをr(CI)、 r(Ct)、・・・・・
・、t<cm)とすると、次の処理を行なって1個の答
カテゴリを決定あるいは複数個の候補カテゴリを選択す
る。
(1) 人カバターンUと各カテゴリ01〜c11の
標準パターンf(CI)〜f(CIl)との間の距離d
(u。
標準パターンf(CI)〜f(CIl)との間の距離d
(u。
f(CI))、d(u、 f(Ct))、”””、 d
(u、 f(Cm))を求める。
(u、 f(Cm))を求める。
(2)各カテゴリCI−Cw毎に標準パターンf(C1
)〜f(C,)からの距離範囲、すなわち閾値θ(f(
CI)) 、θ(f(CI)) 、 ・・・・−・、
θ(r(cm))が定められており、全てのカテゴリ
c1〜C5の中から、 d (u、 f(CI))≦θ(f(Ct))となる全
てのカテゴリC!を得る。
)〜f(C,)からの距離範囲、すなわち閾値θ(f(
CI)) 、θ(f(CI)) 、 ・・・・−・、
θ(r(cm))が定められており、全てのカテゴリ
c1〜C5の中から、 d (u、 f(CI))≦θ(f(Ct))となる全
てのカテゴリC!を得る。
(3)カテゴリC!が1個であるならば、それを入力パ
ターンUの答カテゴリとし、2個以上ならば、それらを
入力パターンUの答の候補カテゴリとする。
ターンUの答カテゴリとし、2個以上ならば、それらを
入力パターンUの答の候補カテゴリとする。
これを第6図によって説明する。全カテゴリをCt 、
Ct 、Csとし、夫々の標準パターンを「(CI)、
f(Ct)、f(Cs)、夫々の閾値をθ(f(CI)
) 。
Ct 、Csとし、夫々の標準パターンを「(CI)、
f(Ct)、f(Cs)、夫々の閾値をθ(f(CI)
) 。
θ(f(C2))、 θ(f(Cs))とすると、図
示するように、各カテゴリC+ 、Ct 、Csは夫々
その標準パターンを中心として半径が閾値の円内の範囲
として表わされる。そこで、入力パターンUと各カテゴ
リC+ 、Cm 、Csの標準パターyr(CI)。
示するように、各カテゴリC+ 、Ct 、Csは夫々
その標準パターンを中心として半径が閾値の円内の範囲
として表わされる。そこで、入力パターンUと各カテゴ
リC+ 、Cm 、Csの標準パターyr(CI)。
r(ct)、 r(Cs)との距atct (u、 f
(CI)) 、 d (u。
(CI)) 、 d (u。
f(Ct))、 d(u、 f(Cs))を求め、次
いで各カテゴリC+、cl、Cs (D閾値θ(f(C
I)) 、 θ〔f(CI))、 θ(f(Cコ)
)とを比較したところ、d(u、f(CI)>θ(f(
CI))d(u、f(Cx)>θ(r(ct))d(u
、f(Cs)〈θ(r(cs))であったとすると、第
6図+a)に示すように、入力パターンUはカテゴリC
1の範囲内に含まれることになり、したがって、この場
合には、カテゴリC1は入力パターンUの答カテゴリと
なる。これに対して、第6図(blに示すように、カテ
ゴリc!。
いで各カテゴリC+、cl、Cs (D閾値θ(f(C
I)) 、 θ〔f(CI))、 θ(f(Cコ)
)とを比較したところ、d(u、f(CI)>θ(f(
CI))d(u、f(Cx)>θ(r(ct))d(u
、f(Cs)〈θ(r(cs))であったとすると、第
6図+a)に示すように、入力パターンUはカテゴリC
1の範囲内に含まれることになり、したがって、この場
合には、カテゴリC1は入力パターンUの答カテゴリと
なる。これに対して、第6図(blに示すように、カテ
ゴリc!。
C8が一部重なり、この重なり部分に入力パターンUが
存在していると、これらカテゴリCt、Csが候補カテ
ゴリとして選択される。
存在していると、これらカテゴリCt、Csが候補カテ
ゴリとして選択される。
かかる手順によって入力パターンの答カテゴリあるいは
候補カテゴリが得られるが、この場合、上記のように、
各カテゴリCrは、標準パターンj(Ct) と閾値θ
(f(Ct) )との組で表わされ、この組でもって
全カテゴリを集めたものが、パターン認識用辞書あるい
は略して辞書である。 。
候補カテゴリが得られるが、この場合、上記のように、
各カテゴリCrは、標準パターンj(Ct) と閾値θ
(f(Ct) )との組で表わされ、この組でもって
全カテゴリを集めたものが、パターン認識用辞書あるい
は略して辞書である。 。
そこで、この辞書を作成するためには、各カテゴリCt
毎に標準パターンf(Ct )と閾値θ 〔r(CI)
)とを作成する必要がある。標準パターンf(Ci)は
同一カテゴリCIに属するパターンを用いて作成する。
毎に標準パターンf(Ct )と閾値θ 〔r(CI)
)とを作成する必要がある。標準パターンf(Ci)は
同一カテゴリCIに属するパターンを用いて作成する。
たとえば、文字「あ」のカテゴリの場合、複数の人に文
字「あ」を書いてもらい、あるいは、同一人に複数回文
字「あ」を書いてもらい、これらから標準パターンf(
あ)を作成する。
字「あ」を書いてもらい、あるいは、同一人に複数回文
字「あ」を書いてもらい、これらから標準パターンf(
あ)を作成する。
この標準パターンf(Ci )を作成するために用いら
れる上記パターンは学習サンプルと呼ばれる。
れる上記パターンは学習サンプルと呼ばれる。
カテゴリCムの閾値θ(f(Ci)〕を求める方法とし
ては、次の2通りがある。
ては、次の2通りがある。
(1)′標準パターンf(Ci)の作成に用いた学習サ
ンプルに基づいて閾値θ(f(Ct ) )を作成す(
2)′閾値θ(f(Ci ) )を学習サンプルによら
ない固定値とする。
ンプルに基づいて閾値θ(f(Ct ) )を作成す(
2)′閾値θ(f(Ci ) )を学習サンプルによら
ない固定値とする。
これらの方法のうち(1)の方法は(2)の方法よりも
、Li!m精度および!!識速度の点で勝っていること
が知られている。しかし、上記illの方法でも、学習
サンプル数が少ない場合には、閾値θ(f(Ci))の
推定精度が低くなり、充分な!!認識精度得られないと
いう欠点があった。以下、この点を具体的に説明する。
、Li!m精度および!!識速度の点で勝っていること
が知られている。しかし、上記illの方法でも、学習
サンプル数が少ない場合には、閾値θ(f(Ci))の
推定精度が低くなり、充分な!!認識精度得られないと
いう欠点があった。以下、この点を具体的に説明する。
いま、あるカテゴリC4における学習サンプルをul+
・・・・・・+ua(但し、n=1)としたとき、辞
書作成方法の1つとして、次のように標準パターンf(
Ci)、と閾値θ(f(Ci)、l)とを求めることが
できる。なお、ここで、サフィックスrnJは、上記の
ように用いた学習サンプルの数を表わしている。
・・・・・・+ua(但し、n=1)としたとき、辞
書作成方法の1つとして、次のように標準パターンf(
Ci)、と閾値θ(f(Ci)、l)とを求めることが
できる。なお、ここで、サフィックスrnJは、上記の
ように用いた学習サンプルの数を表わしている。
式(1−2)は、式(1−1)で得られた標準パターン
f(Ci)−からの学習サンプルu1までの距離がd(
f(Ci)−、ut)であり、これら距離のうちの最大
のものがこのカテゴリC9の閾値θ(f(Ci)−)で
あることを表わしている。
f(Ci)−からの学習サンプルu1までの距離がd(
f(Ci)−、ut)であり、これら距離のうちの最大
のものがこのカテゴリC9の閾値θ(f(Ci)−)で
あることを表わしている。
このように、標準パターンから学習サンプルまでの距離
のうちの最大のものを閾値としている。
のうちの最大のものを閾値としている。
そこで、第7図に示すように、いま、カテゴリC2に対
し、学習サンプルをul + uI + ・・・・・
・。
し、学習サンプルをul + uI + ・・・・・
・。
U、とし、これらから式(1−1)で得られる標準パタ
ーンをf(Ci )tとすると、これがらの各学習サン
プルまでの距離が学習サンプルu4に対して最大である
場合、このカテゴリ範囲の範囲は標準パターンf(Ci
)、を中心とし、これより学習サンプルusまでの距1
1d(114、fccr )y)を閾値θ(f(Ci)
y)とし、これを半径とする円内となり、この範囲内に
全ての学習サンプルul””ulが含まれる。このため
に、用いられた学習サンプルu1〜U?を入力パターン
とし、上記処理手順fil〜(3)に従ってパターン認
識を行なった場合、入力パターンU、〜U、の全てに対
し、この入力パターンを学習サンプルとするカテゴリC
4が正しく答カテゴリあるいは候補カテゴリの1つとし
て選択されるという利点がある。このことは、たとえば
、文字認識の場合、辞書作成のために学習サンプルを提
供した人が書いた入力文字パターンの認識は、正しく行
なわれることを意味する。
ーンをf(Ci )tとすると、これがらの各学習サン
プルまでの距離が学習サンプルu4に対して最大である
場合、このカテゴリ範囲の範囲は標準パターンf(Ci
)、を中心とし、これより学習サンプルusまでの距1
1d(114、fccr )y)を閾値θ(f(Ci)
y)とし、これを半径とする円内となり、この範囲内に
全ての学習サンプルul””ulが含まれる。このため
に、用いられた学習サンプルu1〜U?を入力パターン
とし、上記処理手順fil〜(3)に従ってパターン認
識を行なった場合、入力パターンU、〜U、の全てに対
し、この入力パターンを学習サンプルとするカテゴリC
4が正しく答カテゴリあるいは候補カテゴリの1つとし
て選択されるという利点がある。このことは、たとえば
、文字認識の場合、辞書作成のために学習サンプルを提
供した人が書いた入力文字パターンの認識は、正しく行
なわれることを意味する。
学習サンプルが多くなる程、同一カテゴリでもいろいろ
なパターンが含まれるので、このカテゴリの閾値は大き
くなる。このために、学習サンプルとはならなかった入
力パターンに対しても、高い精度で答カテゴリや候補カ
テゴリを得ることができる。
なパターンが含まれるので、このカテゴリの閾値は大き
くなる。このために、学習サンプルとはならなかった入
力パターンに対しても、高い精度で答カテゴリや候補カ
テゴリを得ることができる。
これに対して、学習サンプルが少なくなる程、一般には
、カテゴリの閾値は小さくなる。第7図では、同一カテ
ゴリC1において、7個の学習サンプルu1〜U、にお
けるカテゴリ範囲S、と比較して、u I + u
Rの2個を学習サンプルとするカテゴリ範囲Sl′も示
している。同図から明らかなように、カテゴリ範囲s%
はカテゴリ範囲S+よりも狭くなり、同一カテゴリCt
に属する入力パターンU、〜U、に対し、このカテゴリ
C5はもはや答カテゴリあるいは候補カテゴリとして選
択されなくなる。特に、学習サンプルの数が1の場合(
n=1)、このカテゴリの閾値θ(f(Ct))は零と
なってしまう。
、カテゴリの閾値は小さくなる。第7図では、同一カテ
ゴリC1において、7個の学習サンプルu1〜U、にお
けるカテゴリ範囲S、と比較して、u I + u
Rの2個を学習サンプルとするカテゴリ範囲Sl′も示
している。同図から明らかなように、カテゴリ範囲s%
はカテゴリ範囲S+よりも狭くなり、同一カテゴリCt
に属する入力パターンU、〜U、に対し、このカテゴリ
C5はもはや答カテゴリあるいは候補カテゴリとして選
択されなくなる。特に、学習サンプルの数が1の場合(
n=1)、このカテゴリの閾値θ(f(Ct))は零と
なってしまう。
このように、従来の方法によって作成された辞書では、
学習サンプル数に応じてカテゴリの閾値の推定精度が異
なり、学習サンプル数が少ないと、閾値の推定精度が低
くなって充分な認識精度が得られないという問題があっ
た。
学習サンプル数に応じてカテゴリの閾値の推定精度が異
なり、学習サンプル数が少ないと、閾値の推定精度が低
くなって充分な認識精度が得られないという問題があっ
た。
本発明の目的は、上記従来技術の問題点を解消し、学習
サンプル数にかかわらず、高い認識精度を得ることがで
きるようにしたパターン認識用辞書の作成方式を提供す
るにある。
サンプル数にかかわらず、高い認識精度を得ることがで
きるようにしたパターン認識用辞書の作成方式を提供す
るにある。
この目的を達成するために、本発明は、学習サンプルか
ら得られたカテゴリの閾値を該学習サンプルの数に応じ
て補正し、辞書のカテゴリ範囲設定のために用いられる
学習サンプルの数にかかわらず、常に、数多くの学習サ
ンプルが用いられた場合と同程度のカテゴリ範囲を設定
可能とした点に特徴がある。
ら得られたカテゴリの閾値を該学習サンプルの数に応じ
て補正し、辞書のカテゴリ範囲設定のために用いられる
学習サンプルの数にかかわらず、常に、数多くの学習サ
ンプルが用いられた場合と同程度のカテゴリ範囲を設定
可能とした点に特徴がある。
以下、本発明の実施例を図面によって説明する。
第1図は本発明によるパターン認識用辞書の作成方式の
一実施例を示すブロック図であって、1はパターン観測
部、2は特徴抽出部、3は学習サンプルメモリ部、4は
辞書計算部、5は辞書メモリ部、6は辞書補正部、7は
辞書メモリ部、8は制御部である。
一実施例を示すブロック図であって、1はパターン観測
部、2は特徴抽出部、3は学習サンプルメモリ部、4は
辞書計算部、5は辞書メモリ部、6は辞書補正部、7は
辞書メモリ部、8は制御部である。
同図において、パターン観測部1は文字パターンや音声
パターンなどの入力パターンAを電気信号Bに変換する
ものであって、スキャナ、マイクロホンなどからなって
いる。この電気信号Bは特徴抽出部2に供給され、前処
理、正規化、特徴抽出などが行なわれて、入力パターン
Aに対する特徴パターンCが得られる。いま、カテゴリ
C,に対してn個の入力パターンAが順次パターン観測
部1で読み取られたとすると、特徴抽出部2からはこれ
ら入力パターン毎に特徴パターンCが得られ、学習サン
プルuI * ul + ・・・・・・+ ull
として学習サンプルメモリ部3に格納される。
パターンなどの入力パターンAを電気信号Bに変換する
ものであって、スキャナ、マイクロホンなどからなって
いる。この電気信号Bは特徴抽出部2に供給され、前処
理、正規化、特徴抽出などが行なわれて、入力パターン
Aに対する特徴パターンCが得られる。いま、カテゴリ
C,に対してn個の入力パターンAが順次パターン観測
部1で読み取られたとすると、特徴抽出部2からはこれ
ら入力パターン毎に特徴パターンCが得られ、学習サン
プルuI * ul + ・・・・・・+ ull
として学習サンプルメモリ部3に格納される。
1つのカテゴリC1に対する学習サンプルU。
〜u7全てが学コサンプルメモリ部3に格納されると、
次に、これらが読み出され、辞書計算部4において、こ
れら学習サンプルu1〜u9から、たとえば、先の式(
1−1) 、 (1−2)からこのカテゴ’JC!に対
する標準パターンf(CI)s、閾値θ(f(Ci)−
3が算出され、辞書メモリ部5に格納される。
次に、これらが読み出され、辞書計算部4において、こ
れら学習サンプルu1〜u9から、たとえば、先の式(
1−1) 、 (1−2)からこのカテゴ’JC!に対
する標準パターンf(CI)s、閾値θ(f(Ci)−
3が算出され、辞書メモリ部5に格納される。
以上の処理により、カテゴリC!の範囲が得られるが、
次に、辞書メモリ部5から標準パターンと閾値とが読み
出され、辞書補正部6で、後述するように、カテゴリC
tの範囲が用いられた前記学習サンプルU、〜u、lの
敗に応じて補正され、辞書メモリ部17に格納される。
次に、辞書メモリ部5から標準パターンと閾値とが読み
出され、辞書補正部6で、後述するように、カテゴリC
tの範囲が用いられた前記学習サンプルU、〜u、lの
敗に応じて補正され、辞書メモリ部17に格納される。
以上の処理は各カテゴリ毎に行なわれ、辞書メモリ部7
に所望の辞書が得られる。
に所望の辞書が得られる。
次に、この実施例の特徴をなす辞書補正部6について説
明する。
明する。
辞書メモリ部5に格納される辞書は、全カテゴリについ
ての標準パターン、閾値および学習サンプル数である。
ての標準パターン、閾値および学習サンプル数である。
辞書補正部6はかかる辞書を各カテゴリ毎に学習サンプ
ル数に応じて補正するものであるが、補正対象としては
、標準パターンと閾値とである。しかし、ここでは、説
明を簡単にするために、閾値のみを補正するものとして
説明する。そこで、辞書メモリ部5から辞書補正部6に
カテゴリ毎に標準パターン、閾値および学習サンプル数
が供給され、閾値は学習サンプル数に応じて補正されて
辞書メモリ部7に格納される。この場合、学習サンプル
数は不要となるので、辞書メモリ部7に供給されない。
ル数に応じて補正するものであるが、補正対象としては
、標準パターンと閾値とである。しかし、ここでは、説
明を簡単にするために、閾値のみを補正するものとして
説明する。そこで、辞書メモリ部5から辞書補正部6に
カテゴリ毎に標準パターン、閾値および学習サンプル数
が供給され、閾値は学習サンプル数に応じて補正されて
辞書メモリ部7に格納される。この場合、学習サンプル
数は不要となるので、辞書メモリ部7に供給されない。
閾値は次に示すような方法によって簡単かつ有効に補正
することができる。ここでは、2つの補正方法について
説明する。
することができる。ここでは、2つの補正方法について
説明する。
ta+ 補正方法l
いま、あるカテゴリCに対してn個の学習サンプルul
+ ・・・・・・、uつが与えられたとき、上記式(1
−1) 、 (1−2)によって得られたこのカテゴリ
Cの閾値をθとし、これを辞書補正部6で補正して得ら
れる閾値をθ′とすると、この閾値θ′は、学習サンプ
ル数nに応じて閾値θを補正したものとするものである
。この補正によると、閾値θ′は、学習サンプル数nが
小さいときには、閾値θよりも大きく、学習サンプル数
nが増加するとともに、広義の単11減少して閾値θに
近づくものである。
+ ・・・・・・、uつが与えられたとき、上記式(1
−1) 、 (1−2)によって得られたこのカテゴリ
Cの閾値をθとし、これを辞書補正部6で補正して得ら
れる閾値をθ′とすると、この閾値θ′は、学習サンプ
ル数nに応じて閾値θを補正したものとするものである
。この補正によると、閾値θ′は、学習サンプル数nが
小さいときには、閾値θよりも大きく、学習サンプル数
nが増加するとともに、広義の単11減少して閾値θに
近づくものである。
これは、閾値θ′は次の式を満足するように設定するこ
とである。
とである。
但し、h(Illは、第2図に示すように、次の条件を
満足する関数である。
満足する関数である。
(i)すべての正整数nに対し、h (nl≧1(if
)O<z<mを満足する全ての整数11mについて、 h(1)≧h− (iii)nが充分大きい正整数のとき、h (n)夕
1 この間数h(nlは、カテゴリ毎に異なるものであろう
が、学習サンプル数nが小さいときに、閾値θを大きく
補正することからみると、各カテゴリに共通としても左
程問題はない、関数h (nlの求め方としては種々考
えられるが、その−例としては、いくつかのカテゴリに
ついて学習サンプル数毎の閾値の変化傾向および安定し
た閾値を得、これらの結果から、全ての学習サンプル数
での閾値がこの安定した閾値となるような補正係数を各
カテゴリ毎に求め、これらのうちの学習サンプル数毎の
最適なもの(たとえば、学習サンプル数毎に、平均した
もの、学習サンプル数毎の最大のものなど)を選択して
関数h (n)とすることができる。
)O<z<mを満足する全ての整数11mについて、 h(1)≧h− (iii)nが充分大きい正整数のとき、h (n)夕
1 この間数h(nlは、カテゴリ毎に異なるものであろう
が、学習サンプル数nが小さいときに、閾値θを大きく
補正することからみると、各カテゴリに共通としても左
程問題はない、関数h (nlの求め方としては種々考
えられるが、その−例としては、いくつかのカテゴリに
ついて学習サンプル数毎の閾値の変化傾向および安定し
た閾値を得、これらの結果から、全ての学習サンプル数
での閾値がこの安定した閾値となるような補正係数を各
カテゴリ毎に求め、これらのうちの学習サンプル数毎の
最適なもの(たとえば、学習サンプル数毎に、平均した
もの、学習サンプル数毎の最大のものなど)を選択して
関数h (n)とすることができる。
世) 補正方法2
これは、
θ′謬a・θ+b
とするものである、ここで、a、bは学習サンプル数n
の関数であり、−例として、aは第3図+a)のような
傾向をもたせ、bは同図(blのような傾向をもたせる
。これらa、bも先の(a)補正方法1における関数h
(nlと同様の方法で得ることができる。
の関数であり、−例として、aは第3図+a)のような
傾向をもたせ、bは同図(blのような傾向をもたせる
。これらa、bも先の(a)補正方法1における関数h
(nlと同様の方法で得ることができる。
関数a、bを、第3図に示すように、連続的に変化させ
ることがメモリの容量の点から問題となる場合には、第
4図(a)、 (blに示すように、学習サンプル数n
を複数ずつ区分、関数a、bを区分毎に階段的に減少さ
せるようにしてもよい、このことは、+al補正方法1
の関数h Tnlについても同様である。
ることがメモリの容量の点から問題となる場合には、第
4図(a)、 (blに示すように、学習サンプル数n
を複数ずつ区分、関数a、bを区分毎に階段的に減少さ
せるようにしてもよい、このことは、+al補正方法1
の関数h Tnlについても同様である。
以上のような補正を行なうことにより、学習サンプル数
が少なくても、 ■ 入力パターンUは正解カテゴリの標準パターンから
距離θ′以内に存在する確率、つまり、正解カテゴリが
候補カテゴリに含まれる確率が高くなり、 ■ 入力パターンUの候補カテゴリに、正解カテゴリ以
外の異カテゴリが入る確率が低くなる。
が少なくても、 ■ 入力パターンUは正解カテゴリの標準パターンから
距離θ′以内に存在する確率、つまり、正解カテゴリが
候補カテゴリに含まれる確率が高くなり、 ■ 入力パターンUの候補カテゴリに、正解カテゴリ以
外の異カテゴリが入る確率が低くなる。
そして、学習サンプル数nが増加するにつれて、上記■
での確率が増々高(なり、上記■での確率は増々低くな
る。
での確率が増々高(なり、上記■での確率は増々低くな
る。
このようにして、従来技術の欠点が解消できる。
なお、上記実施例では、全カテゴリの辞書を一旦辞書メ
モリ部5に格納した後、辞書補正部6での辞書の補正を
行なう場合には、辞書メモリ5と7を同一とすることが
できる。また、各カテゴリ毎にパターン観測部1から辞
書補正部6までの一連の処理を行なうようにしてもよい
。
モリ部5に格納した後、辞書補正部6での辞書の補正を
行なう場合には、辞書メモリ5と7を同一とすることが
できる。また、各カテゴリ毎にパターン観測部1から辞
書補正部6までの一連の処理を行なうようにしてもよい
。
制御部8は以上の動作を制御するものであって、煩雑さ
を避けるために、@御線を省略している。
を避けるために、@御線を省略している。
また、特徴抽出部2での特徴抽出法としては、次のよう
な特徴をとらえるようにしたものが従来から知られてお
り、参考となる文献名も同時に示す。
な特徴をとらえるようにしたものが従来から知られてお
り、参考となる文献名も同時に示す。
(イ)第8図(alに示す周辺分布特徴。
中日、中野外、“Recognition of
ChineseCharactors 、 Proc+
of the Conference onmac
hine perception of patter
ns and picturesheld at th
e NPL ” Teddlngton 、 197
2.4(ロ)同図山)に示すストローク密度関数特徴。
ChineseCharactors 、 Proc+
of the Conference onmac
hine perception of patter
ns and picturesheld at th
e NPL ” Teddlngton 、 197
2.4(ロ)同図山)に示すストローク密度関数特徴。
信学論 Vol、 63−D、 No、12 1980
.12 pp、1096−1101 萩田他による
「3つの概形特徴を用いた手書き漢字の分類」 (ハ)同図(C1,(dlに示すペリフェラル特徴、上
記(ロ)で示した文献。
.12 pp、1096−1101 萩田他による
「3つの概形特徴を用いた手書き漢字の分類」 (ハ)同図(C1,(dlに示すペリフェラル特徴、上
記(ロ)で示した文献。
(ニ)第9図に示す方向性パターン特徴。
信学論 Vol、 62−D、 No、31979.3
pp、217−224安田他「文字認識のための相
関法の一改良」(ホ)その他 第5図は本発明によるパターン認識用辞書の作成方式の
他の実施例を示すブロック図であって、9は整合部、1
0は判定部、11は修正部であり、第1図に対応する部
分には同一符号をつけて重複する説明は省略する。
pp、217−224安田他「文字認識のための相
関法の一改良」(ホ)その他 第5図は本発明によるパターン認識用辞書の作成方式の
他の実施例を示すブロック図であって、9は整合部、1
0は判定部、11は修正部であり、第1図に対応する部
分には同一符号をつけて重複する説明は省略する。
第1図に示した実施例では、学習サンプルはそのカテゴ
リがわかっていた。これに対して、第5図に示すこの実
施例では、カテゴリが不明の入力パターンをも、そのカ
テゴリを判定し、既に形成されている辞書の対応するカ
テゴリの学習サンブルとし、辞書を補正できるようにし
たものである。
リがわかっていた。これに対して、第5図に示すこの実
施例では、カテゴリが不明の入力パターンをも、そのカ
テゴリを判定し、既に形成されている辞書の対応するカ
テゴリの学習サンブルとし、辞書を補正できるようにし
たものである。
したがって、この実施例においては、実際に使用してパ
ターン認識を行なうと同時に、辞書の修正をも行なうこ
とができる。
ターン認識を行なうと同時に、辞書の修正をも行なうこ
とができる。
次に、この実施例の動作を説明する。
第1図と同様にして得られた未知のカテゴリの入力パタ
ーンAに対する90パターンCは整合部9に送られる。
ーンAに対する90パターンCは整合部9に送られる。
これとともに、整合部9には、この入力パターンAが人
力される直前までに辞書メモリ部7に得られた補正され
た辞書Hも供給され、この特徴パターンCと辞!Hに属
する全ての#Jifsパターンとの間の距離が求められ
、得られた距離データ!が全て判定部10に送られる。
力される直前までに辞書メモリ部7に得られた補正され
た辞書Hも供給され、この特徴パターンCと辞!Hに属
する全ての#Jifsパターンとの間の距離が求められ
、得られた距離データ!が全て判定部10に送られる。
判定部lOでは、これら距離データ■から入力パターン
Aに対する答カテゴリや候補カテゴリが選択される。
Aに対する答カテゴリや候補カテゴリが選択される。
得られた答カテゴリや候補カテゴリJは特徴パターンC
とともに修正部11に供給され、この特徴パターンCに
対する答カテゴリが正解カテゴリか否か、候補カテゴリ
のうちいずれが1闘カテゴリかを確認するとともに、誤
りがあれば修正する。
とともに修正部11に供給され、この特徴パターンCに
対する答カテゴリが正解カテゴリか否か、候補カテゴリ
のうちいずれが1闘カテゴリかを確認するとともに、誤
りがあれば修正する。
すなわち、この修正部11において、入力パターンAの
カテゴリが確定する。
カテゴリが確定する。
この修正を行なうためには、判定部lOで人カバターン
Aと選択された答カテゴリや候補カテゴリをディスプレ
イ装置に表示し、ユーザが表示内容を参照しながらカテ
ゴリを修正して正解カテゴリを得る。
Aと選択された答カテゴリや候補カテゴリをディスプレ
イ装置に表示し、ユーザが表示内容を参照しながらカテ
ゴリを修正して正解カテゴリを得る。
一方、学習サンプルメモリ部3には、これまでに供給さ
れた全ての学習サンプルがカテゴリ毎に格納されており
、上記入力パターンAの特徴パターンCは、学習サンプ
ルメモリ部3に該当するカテゴリの学習サンプルとして
格納される。そして、このカテゴリについて、辞書計算
部4で全ての学習サンプルから標準パターンと閾値が算
出され、さらに、第1図の実施例と同様にして、辞書修
正部6で閾値が修正され、辞書メモリ部7に上記入力パ
ターンAが入力されたことによる新たに修正された辞書
が得られる。
れた全ての学習サンプルがカテゴリ毎に格納されており
、上記入力パターンAの特徴パターンCは、学習サンプ
ルメモリ部3に該当するカテゴリの学習サンプルとして
格納される。そして、このカテゴリについて、辞書計算
部4で全ての学習サンプルから標準パターンと閾値が算
出され、さらに、第1図の実施例と同様にして、辞書修
正部6で閾値が修正され、辞書メモリ部7に上記入力パ
ターンAが入力されたことによる新たに修正された辞書
が得られる。
辞書メモリ部7の辞書中にないカテゴリの入力パターン
Aが入力された場合には、判定部10では、この入力パ
ターンAのみが表示され、修正部11において、これに
対するカテゴリが設定される。学習サンプルが1つでも
あるカテゴリでは、第1図の実施例と同様に、標準パタ
ーンと零でない閾値が設定される。
Aが入力された場合には、判定部10では、この入力パ
ターンAのみが表示され、修正部11において、これに
対するカテゴリが設定される。学習サンプルが1つでも
あるカテゴリでは、第1図の実施例と同様に、標準パタ
ーンと零でない閾値が設定される。
このように、この実施例では、カテゴリが未知の入力パ
ターンを用いて辞書の作成が可能となり、したがって、
辞書メモリ部7の辞書を用いてパターン認識しながら、
この辞書の作成および逐次の修正ができることになる。
ターンを用いて辞書の作成が可能となり、したがって、
辞書メモリ部7の辞書を用いてパターン認識しながら、
この辞書の作成および逐次の修正ができることになる。
なお、この実施例では、全ての入力パターンを学習サン
プルとしたが、次のような特徴パターンを学習サンプル
としてもよい。
プルとしたが、次のような特徴パターンを学習サンプル
としてもよい。
■ ユーザが必要認めた特徴パターン
■ 入力パターンをパターン認識したときに、エラーあ
るいはりジェツトとなった特徴パターン ■ 上記■の特徴パターンのうち、ユーザが必要と認め
る特徴パターン 以上の学習サンプルの選択、判断処理は、修正部11で
行なうことができる。
るいはりジェツトとなった特徴パターン ■ 上記■の特徴パターンのうち、ユーザが必要と認め
る特徴パターン 以上の学習サンプルの選択、判断処理は、修正部11で
行なうことができる。
また、この実施例では、辞書メモリ部5から辞書を読み
だし、辞書修正部6でf1正して整合部に供給すること
もでき、この場合には、辞書メモリ部7を除くことがで
きる。
だし、辞書修正部6でf1正して整合部に供給すること
もでき、この場合には、辞書メモリ部7を除くことがで
きる。
以上、本発明の実施例について説明したが、本発明はこ
れら実施例のみに限定されるものではない、以下、本発
明に含まれるこれら実施例のいくつかの変形例を示す。
れら実施例のみに限定されるものではない、以下、本発
明に含まれるこれら実施例のいくつかの変形例を示す。
(1) 閾値を次のいずれかのように設定してもよい
。
。
+8) カテゴリ毎に設定する。
山) 全カテゴリにわたって等しくする。
tc> 各カテゴリの各特徴毎に設定する。
上記tag、 (clにおいては、カテゴリ毎にその学
習サンプル数に応じて閾値を補正する。(b)において
は、全カテゴリについての平均学習サンプル数。
習サンプル数に応じて閾値を補正する。(b)において
は、全カテゴリについての平均学習サンプル数。
最小学習サンプル数、最大学習サンプル数などに応じて
閾値を補正する。
閾値を補正する。
(2) 閾値を、標準パターンと各学習サンプルとの
間の平均距離に所定の定数係数を乗じたものとすること
ができる。
間の平均距離に所定の定数係数を乗じたものとすること
ができる。
(3)1カテゴリ当り標準パターンと閾値との複数組を
設定してもよい、これによると、パターン認識性能はよ
り向上する。
設定してもよい、これによると、パターン認識性能はよ
り向上する。
(4) パターン認識を行なう場合には、入力パター
ンと標準パターンとの間の距離の代りに、両者の類僚度
を用いてもよい。
ンと標準パターンとの間の距離の代りに、両者の類僚度
を用いてもよい。
(5) 上記夫々の実施例では、同−力テゴリの学習
サンプルが全て学習サンプルメモリ部3に格納されて後
、これらの学習サンプルから辞書を作成していたが、学
習サンプルが与える毎に逐次辞書を作り直してい(よう
にしてもよい、この場合には、新たに与えられた学習サ
ンプルとこれまでの辞書とから新たな辞書を作ることが
できる。
サンプルが全て学習サンプルメモリ部3に格納されて後
、これらの学習サンプルから辞書を作成していたが、学
習サンプルが与える毎に逐次辞書を作り直してい(よう
にしてもよい、この場合には、新たに与えられた学習サ
ンプルとこれまでの辞書とから新たな辞書を作ることが
できる。
(6)上記実施例では、入力パターンと標準パターンと
の間の距離が閾値以下となるカテゴリを答カテゴリある
いは候補カテゴリとしたが、各距離を評価し、これらが
予め設定された所定の関係にあるカテゴリを答カテゴリ
あるいは候補カテゴリとしでもよい、評価の基準として
は、たとえば、最小路2と次に短い距離との差が所定の
範囲外であるとき、この最小距離に対するカテゴリを答
カテゴリとする、標準パターンが最小距離に、ある正定
数を加えた距離内にある全てのカテゴリを候補カテゴリ
とするなどがある。
の間の距離が閾値以下となるカテゴリを答カテゴリある
いは候補カテゴリとしたが、各距離を評価し、これらが
予め設定された所定の関係にあるカテゴリを答カテゴリ
あるいは候補カテゴリとしでもよい、評価の基準として
は、たとえば、最小路2と次に短い距離との差が所定の
範囲外であるとき、この最小距離に対するカテゴリを答
カテゴリとする、標準パターンが最小距離に、ある正定
数を加えた距離内にある全てのカテゴリを候補カテゴリ
とするなどがある。
以上、上記実施例の変形例を示したが、これらの論理的
に妥当な組み合わせであってもよい。
に妥当な組み合わせであってもよい。
以上説明したように、本発明によれば、学習サンプル数
が少なくても、パターン認識に際し、入力パターンの正
解カテゴリが高い確率で候補カテゴリに含まれ、また、
入力パターンに対する正解カテゴリ以外の異カテゴリが
候補カテゴリとなる確率を非常に低くする辞書を形成す
ることができる。
が少なくても、パターン認識に際し、入力パターンの正
解カテゴリが高い確率で候補カテゴリに含まれ、また、
入力パターンに対する正解カテゴリ以外の異カテゴリが
候補カテゴリとなる確率を非常に低くする辞書を形成す
ることができる。
第1図は本発明によるパターン認識用辞書の形成方式の
一実施例を示すブロック図、第2図〜第4図は第1図に
おける辞書補正部の動作を説明するためのグラフ図、第
5図は本発明によるパターン認識用辞書の形成方式の他
の実施例を示すブロック図、第6図は入力パターンに対
する答カテゴリや候補カテゴリの選択方法を示す説明図
、第7図は従来技術における学習サンプル数とカテゴリ
の閾値との関係を示す説明図、第8図および第9図は夫
々従来の入力パターンの特徴抽出方法を示す説明図であ
る。 1・・・・パターン観測部、2・・・・特徴抽出部、3
・・・・学習サンプルメモリ部、4・・・・辞書計算部
、5・・・・辞書メモリ部、6・・・・辞書補正部、7
・・・・辞書メモリ部、9・・・・整合部、IO・・・
・判定部、11・・・・修正部。 代理人 弁理士 弐 顕次部(外1名)范1区 第2図 蓼習ザンプル数n 第3図 (G) (b) 第4図 (0) (b)地6図 (G) (b)嶌7図 (C) (d) 尾9図
一実施例を示すブロック図、第2図〜第4図は第1図に
おける辞書補正部の動作を説明するためのグラフ図、第
5図は本発明によるパターン認識用辞書の形成方式の他
の実施例を示すブロック図、第6図は入力パターンに対
する答カテゴリや候補カテゴリの選択方法を示す説明図
、第7図は従来技術における学習サンプル数とカテゴリ
の閾値との関係を示す説明図、第8図および第9図は夫
々従来の入力パターンの特徴抽出方法を示す説明図であ
る。 1・・・・パターン観測部、2・・・・特徴抽出部、3
・・・・学習サンプルメモリ部、4・・・・辞書計算部
、5・・・・辞書メモリ部、6・・・・辞書補正部、7
・・・・辞書メモリ部、9・・・・整合部、IO・・・
・判定部、11・・・・修正部。 代理人 弁理士 弐 顕次部(外1名)范1区 第2図 蓼習ザンプル数n 第3図 (G) (b) 第4図 (0) (b)地6図 (G) (b)嶌7図 (C) (d) 尾9図
Claims (5)
- (1)入力パターンの特徴を抽出して得られる特徴パタ
ーンを学習サンプルとし、該学習サンプルによつて形成
されたカテゴリ毎の標準パターンと閾値との組からなる
パターン認識用辞書の形成方式において、前記学習サン
プルによつて形成された前記標準パターンと閾値との組
からなるパターン認識用辞書を前記学習サンプル数に応
じて修正する手段を設け、該パターン認識用辞書におけ
る各カテゴリの範囲を、前記学習サンプルの数にかかわ
らず、前記学習サンプルの数を充分多くした場合と同程
度に設定することができるようにしたことを特徴とする
パターン認識用辞書の作成方式。 - (2)特許請求の範囲第(1)項において、前記手段は
、前記パターン認識用辞書における閾値のみを修正する
ことを特徴とするパターン認識用辞書の作成方式。 - (3)特許請求の範囲第(2)項において、前記閾値は
、学習サンプルの増加とともに広義の単調減少する関数
で修正されることを特徴とするパターン認識用辞書の作
成方式。 - (4)特許請求の範囲第(2)項において、前記閾値は
、学習サンプル数が区分され、該学習サンプルが増加す
るにつれて該区分毎に階段状に単調減少する関数で修正
されることを特徴とするパターン認識用辞書の作成方式
。 - (5)特許請求の範囲第(1)項、第(2)項、第(3
)項または第(4)項において、前記入力パターンに対
する前記特徴パターンは、該入力パターンが入力される
以前の前記パターン認識用辞書によつてカテゴリが判定
されて前記学習サンプルとなり、前記手段は前記入力パ
ターンの入力毎に該入力パターンに対する学習パターン
をも含めて修正することを特徴とするパターン認識用辞
書の作成方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP60259891A JPH0658695B2 (ja) | 1985-11-21 | 1985-11-21 | パタ−ン認識用辞書の作成方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP60259891A JPH0658695B2 (ja) | 1985-11-21 | 1985-11-21 | パタ−ン認識用辞書の作成方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS62120590A true JPS62120590A (ja) | 1987-06-01 |
| JPH0658695B2 JPH0658695B2 (ja) | 1994-08-03 |
Family
ID=17340371
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP60259891A Expired - Lifetime JPH0658695B2 (ja) | 1985-11-21 | 1985-11-21 | パタ−ン認識用辞書の作成方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0658695B2 (ja) |
-
1985
- 1985-11-21 JP JP60259891A patent/JPH0658695B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0658695B2 (ja) | 1994-08-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6327386B1 (en) | Key character extraction and lexicon reduction for cursive text recognition | |
| US7336827B2 (en) | System, process and software arrangement for recognizing handwritten characters | |
| US5005205A (en) | Handwriting recognition employing pairwise discriminant measures | |
| Zhao et al. | Two-stage segmentation of unconstrained handwritten Chinese characters | |
| JP2002216076A (ja) | 文字列認識装置 | |
| Agazzi et al. | Pseudo two-dimensional hidden Markov models for document recognition | |
| US10217020B1 (en) | Method and system for identifying multiple strings in an image based upon positions of model strings relative to one another | |
| Procter et al. | Cursive handwriting recognition using hidden Markov models and a lexicon-driven level building algorithm | |
| Zimmermann et al. | Lexicon reduction using key characters in cursive handwritten words | |
| JP4116688B2 (ja) | 辞書学習方法および文字認識装置 | |
| CN119337866A (zh) | 一种ocr病历文本的纠错方法 | |
| JPS62120590A (ja) | パタ−ン認識用辞書の作成方式 | |
| JP3419251B2 (ja) | 文字認識装置及び文字認識方法 | |
| JP3374762B2 (ja) | 文字認識方法及びその装置 | |
| JP2903779B2 (ja) | 文字列認識方法及びその装置 | |
| JPH0935006A (ja) | 文字認識装置 | |
| KR100292352B1 (ko) | 형태소 분석을 이용한 인식기의 편집방법 | |
| JP2902097B2 (ja) | 情報処理装置及び文字認識装置 | |
| Xia et al. | An efficient off-line handwritten Japanese address recognition system | |
| JPS646514B2 (ja) | ||
| JPS59197974A (ja) | 文字認識装置 | |
| Ahmadi et al. | Off-line persian handwritten recognition using hidden Markov models | |
| JP2851865B2 (ja) | 文字認識装置 | |
| CN112990252A (zh) | 信息处理装置、信息处理方法以及程序 | |
| JP3130392B2 (ja) | 文字認識装置 |