JPH0458073B2 - - Google Patents
Info
- Publication number
- JPH0458073B2 JPH0458073B2 JP57132620A JP13262082A JPH0458073B2 JP H0458073 B2 JPH0458073 B2 JP H0458073B2 JP 57132620 A JP57132620 A JP 57132620A JP 13262082 A JP13262082 A JP 13262082A JP H0458073 B2 JPH0458073 B2 JP H0458073B2
- Authority
- JP
- Japan
- Prior art keywords
- code value
- code
- feature
- dictionary
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Description
【発明の詳細な説明】
本発明は文字サンプル帳票の文字により辞書を
作り、帳票読取時には作られた辞書との照合によ
り文字を認識する文字認識方法に関する。
作り、帳票読取時には作られた辞書との照合によ
り文字を認識する文字認識方法に関する。
従来、この種の文字認識方法では乱雑な文字を
書く人でも各個人に限定すれば、字形は似たパタ
ーンになるというこで、帳票記入者が何回も書い
た同一形式の帳票を読ませ、各文字の特徴を抽出
し、文字カテゴリごとに得られる特徴量の範囲を
求め帳票記入者の辞書としている。
書く人でも各個人に限定すれば、字形は似たパタ
ーンになるというこで、帳票記入者が何回も書い
た同一形式の帳票を読ませ、各文字の特徴を抽出
し、文字カテゴリごとに得られる特徴量の範囲を
求め帳票記入者の辞書としている。
第1図は辞書作成のための手引き文字サンプル
帳票の一例を示す図であり、何というカテゴリ名
かはこの例の場合、帳票上の位置によつて決めら
れている。
帳票の一例を示す図であり、何というカテゴリ名
かはこの例の場合、帳票上の位置によつて決めら
れている。
ところで、この方法でも、他カテゴリの特徴量
を考慮しての辞書作成でないために似た形の異な
るカテゴリに対して抽出される特徴量は違わなけ
ればならず、マクロな特徴とミクロな特徴とを同
時に多数抽出し、辞書を作る必要があり、辞書作
成は困難である。また、他カテゴリ全部の特徴量
を考慮しての辞書作成では、時間がかかりすぎ
る。
を考慮しての辞書作成でないために似た形の異な
るカテゴリに対して抽出される特徴量は違わなけ
ればならず、マクロな特徴とミクロな特徴とを同
時に多数抽出し、辞書を作る必要があり、辞書作
成は困難である。また、他カテゴリ全部の特徴量
を考慮しての辞書作成では、時間がかかりすぎ
る。
本発明の目的は上記問題を解決する分割処理に
より辞書を作る文字認識方法を提供することにあ
る。
より辞書を作る文字認識方法を提供することにあ
る。
上記目的を達成するため、本発明の文字認識方
法は、まず、文字サンプル帳票を入力し、各文字
ごとに与えたカテゴリ名と予め定めた複数個の特
徴の特徴量を符号化したコード値の列とを記憶し
文字サンプル帳票上の文字に対する符号化が終了
すると、前記特徴の中の一つのマクロな特徴(以
下特徴Hとする)における各カテゴリごとのコー
ド値出現頻度分布から、コード値の範囲内にある
カテゴリ数が少なくなるようにコード値範囲を決
定し、各コード値範囲ごとに前記特徴Hに対応す
るコード値が範囲内にあるコード値の列を使用し
同一カテゴリ名のコード値の列を他カテゴリのコ
ード値の列を含まないようにして各特徴ごとにコ
ード値を組合せ下限値コードと上限値コードとを
求めてコード値の範囲とし、カテゴリ名と各特徴
ごとのコード値の範囲とで分割辞書の辞書要素を
作り、コード値範囲ごとに作られた分割辞書の集
合を辞書とする。
法は、まず、文字サンプル帳票を入力し、各文字
ごとに与えたカテゴリ名と予め定めた複数個の特
徴の特徴量を符号化したコード値の列とを記憶し
文字サンプル帳票上の文字に対する符号化が終了
すると、前記特徴の中の一つのマクロな特徴(以
下特徴Hとする)における各カテゴリごとのコー
ド値出現頻度分布から、コード値の範囲内にある
カテゴリ数が少なくなるようにコード値範囲を決
定し、各コード値範囲ごとに前記特徴Hに対応す
るコード値が範囲内にあるコード値の列を使用し
同一カテゴリ名のコード値の列を他カテゴリのコ
ード値の列を含まないようにして各特徴ごとにコ
ード値を組合せ下限値コードと上限値コードとを
求めてコード値の範囲とし、カテゴリ名と各特徴
ごとのコード値の範囲とで分割辞書の辞書要素を
作り、コード値範囲ごとに作られた分割辞書の集
合を辞書とする。
本方法は他カテゴリの特徴値を常に考慮して辞
書を作るために、本方法によると自動的に帳票記
入者の文字の認識に適した辞書を作れ、しかも辞
書作成の際同時に処理する必要のあるデータ数を
少なくできるので、作成時間を短縮出来る。
書を作るために、本方法によると自動的に帳票記
入者の文字の認識に適した辞書を作れ、しかも辞
書作成の際同時に処理する必要のあるデータ数を
少なくできるので、作成時間を短縮出来る。
第2図は従来の文字認識方法を説明するための
具体的な装置のブロツク図であり、帳票読取前に
辞書を補助記憶部7から辞書部5に記憶する。
具体的な装置のブロツク図であり、帳票読取前に
辞書を補助記憶部7から辞書部5に記憶する。
票帳上の一文字の文字パターンは走査部1で光
電変換され画像データとしてパターンメモリ部2
に記憶される。特徴抽出部3はパターンメモリ部
2内の二次元パターンから認識に必要な特徴の特
徴量を抽出し、照合部4は辞書部5に記憶されて
いる特徴量と抽出された特徴量とも照合し、読取
結果6を出力する。
電変換され画像データとしてパターンメモリ部2
に記憶される。特徴抽出部3はパターンメモリ部
2内の二次元パターンから認識に必要な特徴の特
徴量を抽出し、照合部4は辞書部5に記憶されて
いる特徴量と抽出された特徴量とも照合し、読取
結果6を出力する。
一方、第3図は本発明に係る文字認識方法を説
明するための具体的な装置の一実施例を示すブロ
ツク図であり、まず文字サンプル帳票を入力する
と、帳票上の一文字の文字パターンは走査部1で
光電変換され、画像データとしてパターンメモリ
部2に記憶され、特徴抽出部3はパターンメモリ
部2内の二次元パターンから定められた複数個の
特徴の特徴量を抽出、符号化し、コード値の列と
して与えられたカテゴリ名と共に、コード記憶部
8に記憶する。文字サンプル帳票上の文字に対す
る記憶が終了すると、次に辞書発生部9はコード
記憶部8のコード値列を用い、前記特徴Hに対す
る各カテゴリごとのコード値出現頻度分布を作
り、得られたコード値出現頻度分布からコード値
の範囲内にあるカテゴリ数が少なくなるように複
数のコード値範囲を決定、すなわち分割する。そ
の後前記特徴Hに対応するコード値が前述のコー
ド値範囲内にあるコート記憶部8のコード値列ご
とに次の分割辞書作成を行い、辞書部5に記憶す
る。同一カテゴリ名のコード値の列を他カテゴリ
のコード値の列を含まないようにして各特徴ごと
にコード値を組合せ、下限値コードと上限値コー
ドとを求めてコード値の範囲とし、カテゴリ名と
各特徴ごとのコード値の範囲とで、分割辞書の辞
書要素を表現する。
明するための具体的な装置の一実施例を示すブロ
ツク図であり、まず文字サンプル帳票を入力する
と、帳票上の一文字の文字パターンは走査部1で
光電変換され、画像データとしてパターンメモリ
部2に記憶され、特徴抽出部3はパターンメモリ
部2内の二次元パターンから定められた複数個の
特徴の特徴量を抽出、符号化し、コード値の列と
して与えられたカテゴリ名と共に、コード記憶部
8に記憶する。文字サンプル帳票上の文字に対す
る記憶が終了すると、次に辞書発生部9はコード
記憶部8のコード値列を用い、前記特徴Hに対す
る各カテゴリごとのコード値出現頻度分布を作
り、得られたコード値出現頻度分布からコード値
の範囲内にあるカテゴリ数が少なくなるように複
数のコード値範囲を決定、すなわち分割する。そ
の後前記特徴Hに対応するコード値が前述のコー
ド値範囲内にあるコート記憶部8のコード値列ご
とに次の分割辞書作成を行い、辞書部5に記憶す
る。同一カテゴリ名のコード値の列を他カテゴリ
のコード値の列を含まないようにして各特徴ごと
にコード値を組合せ、下限値コードと上限値コー
ドとを求めてコード値の範囲とし、カテゴリ名と
各特徴ごとのコード値の範囲とで、分割辞書の辞
書要素を表現する。
従つて、辞書はコード値を特徴ともとに並べた
コード値範囲列で構成される。
コード値範囲列で構成される。
また、文字サンプル票帳を使用しないときは、
帳票上の文字に対するカテゴリ名をカテゴリ名入
力部10で与える。
帳票上の文字に対するカテゴリ名をカテゴリ名入
力部10で与える。
第4図はコード値列の一例を示す図であり、カ
テゴリ名と各特徴に対する特徴値の符号化された
コード値を並べたものである。ただし、特徴数は
簡単のために2個とする。
テゴリ名と各特徴に対する特徴値の符号化された
コード値を並べたものである。ただし、特徴数は
簡単のために2個とする。
第5図は第4図のコード値列の一つの特徴に対
するコード値(前側のコード値)から得られるコ
ード値出現頻度分布の一例を示す図である。
するコード値(前側のコード値)から得られるコ
ード値出現頻度分布の一例を示す図である。
図において、1から8はコード値をCi(i−1
〜6)はカテゴリ名を、記号0は頻度のあること
を表わすとする。コード値範囲を決定する方法の
一つは、まず、カテゴリを最も多く含むコート値
を一つ選び、選ばれたコード値のカテゴリに含ま
れるカテゴリを持つコード値を求め、求められた
コード値の下限と上限とでコード値範囲とする方
法である。
〜6)はカテゴリ名を、記号0は頻度のあること
を表わすとする。コード値範囲を決定する方法の
一つは、まず、カテゴリを最も多く含むコート値
を一つ選び、選ばれたコード値のカテゴリに含ま
れるカテゴリを持つコード値を求め、求められた
コード値の下限と上限とでコード値範囲とする方
法である。
まず、最もカテゴリ数の多いコード値2を選び
コード値2のカテゴリC2,C3,C5,C6だ
けを含むコード値を次々に求めコード値範囲の作
成を行う。コード値2の隣のコード値1のカテゴ
リも含まれ、片方の隣のコード値3のカテゴリも
含まれる。次のコード値4のカテゴリC4はコー
ド値2のカテドゴリには含まれないので、コード
値範囲1から3が得られる。
コード値2のカテゴリC2,C3,C5,C6だ
けを含むコード値を次々に求めコード値範囲の作
成を行う。コード値2の隣のコード値1のカテゴ
リも含まれ、片方の隣のコード値3のカテゴリも
含まれる。次のコード値4のカテゴリC4はコー
ド値2のカテドゴリには含まれないので、コード
値範囲1から3が得られる。
次に残りのコード値に対して処理をくり返す。
次のカテゴリ数の多いコード値は同数のときはコ
ード値の小さい方を選ぶとすと、コード値5が選
択され、同様にコード値5のカテゴリが含まれる
片側のコード値は4が求まり、他方のコード値6
では、カテゴリC2が含まれないので、次のコー
ド値範囲は4から5となる。さらに、残りのコー
ド値に対して処理をくり返すと、まず、コード値
6が選ばれ、コード値6のカテゴリとの包含関係
よりコード値範囲6から8が得られる。
次のカテゴリ数の多いコード値は同数のときはコ
ード値の小さい方を選ぶとすと、コード値5が選
択され、同様にコード値5のカテゴリが含まれる
片側のコード値は4が求まり、他方のコード値6
では、カテゴリC2が含まれないので、次のコー
ド値範囲は4から5となる。さらに、残りのコー
ド値に対して処理をくり返すと、まず、コード値
6が選ばれ、コード値6のカテゴリとの包含関係
よりコード値範囲6から8が得られる。
帳票の読取りは、次のようにして行う。
帳票上の一文字の文字パターンは走査部1で光
電変換され、画像データとしてパターンメモリ部
2に記憶され、特徴抽出部3はパターンメモリ部
2内の二次元パターンから定められた特徴の特徴
量を抽出、符号化し、前記特徴Hの特徴コード値
に対応して読出された分割辞書のコード値範囲列
と前記特徴抽出部3で得られるコード値列とを照
合し、読取結果6を出力する。ここで特徴抽出部
3において抽出される特徴の種類は大別して2つ
に分けられ、1つは文字線追跡によつて得られる
もの、もう1つは背景解析によつて得られるもの
である。前者は文字を細線パターンに変換し、線
を追跡して検出される端点、分岐点交差点等の特
徴点の個数、位置関係、つながり、特徴点間の曲
り等であり、後者は文字の輪郭を追跡して凹部、
凸部に分割し、各部のわん曲度、各部の開方向、
全長に対する各部の追跡長比、各部の方向ヒスト
グラム等である。例えば、前記特徴Hとして凹部
の開方向の特徴を用いる。
電変換され、画像データとしてパターンメモリ部
2に記憶され、特徴抽出部3はパターンメモリ部
2内の二次元パターンから定められた特徴の特徴
量を抽出、符号化し、前記特徴Hの特徴コード値
に対応して読出された分割辞書のコード値範囲列
と前記特徴抽出部3で得られるコード値列とを照
合し、読取結果6を出力する。ここで特徴抽出部
3において抽出される特徴の種類は大別して2つ
に分けられ、1つは文字線追跡によつて得られる
もの、もう1つは背景解析によつて得られるもの
である。前者は文字を細線パターンに変換し、線
を追跡して検出される端点、分岐点交差点等の特
徴点の個数、位置関係、つながり、特徴点間の曲
り等であり、後者は文字の輪郭を追跡して凹部、
凸部に分割し、各部のわん曲度、各部の開方向、
全長に対する各部の追跡長比、各部の方向ヒスト
グラム等である。例えば、前記特徴Hとして凹部
の開方向の特徴を用いる。
第6図は第3図に対応する本発明の文字認識方
法をプロセツサとメモリを使つて構成する文字認
識装置の一実施例を示すブロツク図である。11
は所定のパターン領域を走査する走査回路、12
はパターンメモリ、13は照合に使う辞書を記憶
する辞書メモリ、14は辞書作成に使うカテゴリ
名と特徴量のコード値列を記憶するコードメモ
リ、15はプログラムメモリ、16は読取結果を
出力表示する出力装置、17は出力結果の修正を
行うためのキー入力回路、18はプログラムメモ
リ15にセツトする特徴抽出プログラム、照合プ
ログラム、辞書作成プログラム、コード値範囲作
成プログラムを記憶している補助記録装置、20
はプロセツサである。
法をプロセツサとメモリを使つて構成する文字認
識装置の一実施例を示すブロツク図である。11
は所定のパターン領域を走査する走査回路、12
はパターンメモリ、13は照合に使う辞書を記憶
する辞書メモリ、14は辞書作成に使うカテゴリ
名と特徴量のコード値列を記憶するコードメモ
リ、15はプログラムメモリ、16は読取結果を
出力表示する出力装置、17は出力結果の修正を
行うためのキー入力回路、18はプログラムメモ
リ15にセツトする特徴抽出プログラム、照合プ
ログラム、辞書作成プログラム、コード値範囲作
成プログラムを記憶している補助記録装置、20
はプロセツサである。
第3図における機能を第6図の文字認識装置で
行うには、次のような処理が必要である。
行うには、次のような処理が必要である。
まず、プロセツサ20は補助的記憶装置18に
ある特徴抽出プログラムをプログラムメモリ15
にセツトする。次に文字サンプル帳票を入力する
と帳票上の文字は走査回路11で走査、量子化さ
れ2値パターンとしてパターンメモリ12にセツ
トされる。プロセツサ20はプログラムメモリ1
5にセツトされた特徴抽出プログラムを実行し、
パターンメモリ12にある2値パターンから特徴
を抽出し、その特徴量を求め符号化し、帳票上の
位置によつて与えられるカテゴリ名と共に得られ
たコード値列をモードメモリ14に記憶する。文
字サンプル帳票上の文字を次々と処理してコード
メモリ14への記録が終了すると、コード値範囲
決定処理に入る。プロセツサ20が補助記録装置
18にあるコード範囲作成プログラムをプログラ
ムメモリ15にセツトすると、指定された特徴
(前記特徴H)に対応するコードメモリ14内の
コード値を使用し、コード値出現頻度分布を作成
し、前述の方法でコード値範囲を求める。次に各
コード値範囲ごとに分割辞書作成処理に入る。プ
ロセツサ20は補助記憶装置18の辞書作成プロ
グラムをプログラムメモリ15にセツトし、プロ
グラムを実行し、コードメモリ14のコード値列
をインタフエースバス19を介して取出し、前記
コード範囲作成プログラムで指定された特徴と同
じ特徴に対応するコード値が求まつたコード値範
囲内にあるコード値列だけで、分割辞書を発生し
辞書メモリ13にセツトする。各コード値範囲で
の上記処理終了後に、実際の帳票読取りを行う。
ある特徴抽出プログラムをプログラムメモリ15
にセツトする。次に文字サンプル帳票を入力する
と帳票上の文字は走査回路11で走査、量子化さ
れ2値パターンとしてパターンメモリ12にセツ
トされる。プロセツサ20はプログラムメモリ1
5にセツトされた特徴抽出プログラムを実行し、
パターンメモリ12にある2値パターンから特徴
を抽出し、その特徴量を求め符号化し、帳票上の
位置によつて与えられるカテゴリ名と共に得られ
たコード値列をモードメモリ14に記憶する。文
字サンプル帳票上の文字を次々と処理してコード
メモリ14への記録が終了すると、コード値範囲
決定処理に入る。プロセツサ20が補助記録装置
18にあるコード範囲作成プログラムをプログラ
ムメモリ15にセツトすると、指定された特徴
(前記特徴H)に対応するコードメモリ14内の
コード値を使用し、コード値出現頻度分布を作成
し、前述の方法でコード値範囲を求める。次に各
コード値範囲ごとに分割辞書作成処理に入る。プ
ロセツサ20は補助記憶装置18の辞書作成プロ
グラムをプログラムメモリ15にセツトし、プロ
グラムを実行し、コードメモリ14のコード値列
をインタフエースバス19を介して取出し、前記
コード範囲作成プログラムで指定された特徴と同
じ特徴に対応するコード値が求まつたコード値範
囲内にあるコード値列だけで、分割辞書を発生し
辞書メモリ13にセツトする。各コード値範囲で
の上記処理終了後に、実際の帳票読取りを行う。
帳票が入力されると、帳票上の文字は走査回路
11で走査量子化され、2値パターンとしてパタ
ーンメモリ12にセツトされる。プロセツサ20
はプログラムメモリ15にある特徴抽出プログラ
ムを実行し、パターンメモリ12にある2値パタ
ーンから特徴を抽出し、求まつた各特徴量を符号
化し、コード値列に変換すると同時に前述の特徴
Hのコード値で分割辞書を辞書メモリ13から読
出す。
11で走査量子化され、2値パターンとしてパタ
ーンメモリ12にセツトされる。プロセツサ20
はプログラムメモリ15にある特徴抽出プログラ
ムを実行し、パターンメモリ12にある2値パタ
ーンから特徴を抽出し、求まつた各特徴量を符号
化し、コード値列に変換すると同時に前述の特徴
Hのコード値で分割辞書を辞書メモリ13から読
出す。
次にプロセツサ20はプログラムメモリ15に
セツトされた照合プログラムを実行し、求まつた
特徴料のコード値列と読出された分割辞書のコー
ド値範囲列とで照合を行い、結果を出力装置16
に出力する。
セツトされた照合プログラムを実行し、求まつた
特徴料のコード値列と読出された分割辞書のコー
ド値範囲列とで照合を行い、結果を出力装置16
に出力する。
第7図はコード値範囲を決めるための第5図を
記号で一般的に表現したもので、第5図の○印は
“1”、それ以外は“0”で表示している。また、
一つのコード値iの“0”と“1”からなる列を
Vi、カテゴリ数をTiとすると、前述のコード値
範囲作成は、第8図のフローチヤートとなる。第
8図におては10で示す処理は、最大または残つた
コード値の中で最もカテゴリ数の多いコード値を
検出する処理でMIは検出されたコード値、MT
はMIのコード値に対応するカテゴリ数を表わす。
検出されたカテゴリ数が0であれば、コード値範
囲作成は終る。20で示す処理は前述のコード値
MIのカテゴリVと包含関係にあるMIより小さい
コード値検出を行い得られるコード値はLIであ
り、また30の処理は前述のコード値MIのカテゴ
リVと包含関係にあるMIより大きいコード値検
出を行いUIとする。前記処理からコード値範囲
LIからUIまでが求まり、処理をくり返すことに
より複数個のコード値範囲が得られる。
記号で一般的に表現したもので、第5図の○印は
“1”、それ以外は“0”で表示している。また、
一つのコード値iの“0”と“1”からなる列を
Vi、カテゴリ数をTiとすると、前述のコード値
範囲作成は、第8図のフローチヤートとなる。第
8図におては10で示す処理は、最大または残つた
コード値の中で最もカテゴリ数の多いコード値を
検出する処理でMIは検出されたコード値、MT
はMIのコード値に対応するカテゴリ数を表わす。
検出されたカテゴリ数が0であれば、コード値範
囲作成は終る。20で示す処理は前述のコード値
MIのカテゴリVと包含関係にあるMIより小さい
コード値検出を行い得られるコード値はLIであ
り、また30の処理は前述のコード値MIのカテゴ
リVと包含関係にあるMIより大きいコード値検
出を行いUIとする。前記処理からコード値範囲
LIからUIまでが求まり、処理をくり返すことに
より複数個のコード値範囲が得られる。
第9図は分割辞書を作るため、文字サンプルか
ら得られたカテゴリ名とあらかじめ決められた何
種類かの特徴の特徴量のコード値を記号で示した
コード値列の図であり、一列として(C1)548
……6、(C2)826……5のコード値列が示され
ている。
ら得られたカテゴリ名とあらかじめ決められた何
種類かの特徴の特徴量のコード値を記号で示した
コード値列の図であり、一列として(C1)548
……6、(C2)826……5のコード値列が示され
ている。
ここで、前述の特徴Hに対するコード値は全て
前述の一つのコード値範囲内にあるとする。
前述の一つのコード値範囲内にあるとする。
図において、cはカテゴリ名を符号化したカテ
ゴリパラメータを、kはサンプル数を、F(c,
k)は特徴量のコード値を表わすとすると、文字
サンプル数は、各カテゴリごとに同数のL個づ
つ、カテゴリ数はN個、特徴数はM個であること
を表わしている。
ゴリパラメータを、kはサンプル数を、F(c,
k)は特徴量のコード値を表わすとすると、文字
サンプル数は、各カテゴリごとに同数のL個づ
つ、カテゴリ数はN個、特徴数はM個であること
を表わしている。
第10図は第9図の記号を使つて分割辞書を作
るフローチヤート図である。
るフローチヤート図である。
110で示す処理は、カテゴリパラメータcと
サンプル数に対応するサンプル数パラメータkで
決まるメモリ上の位置P(c,k)を文字Aでク
リアする処理で、すでに辞書作に使われたかを示
すフラグとみなし、P(c,k)=Aであれば、未
処理を表わす。
サンプル数に対応するサンプル数パラメータkで
決まるメモリ上の位置P(c,k)を文字Aでク
リアする処理で、すでに辞書作に使われたかを示
すフラグとみなし、P(c,k)=Aであれば、未
処理を表わす。
120で示す処理は未処理、すなわちP(c,
k)=Aのとき、P(c,k)をもとに特徴Fjの特
徴値の下限値F1jと上限値F3jを作るを作り処
理であり、P(c,k)−Yであれな処理ずみを表
わす。
k)=Aのとき、P(c,k)をもとに特徴Fjの特
徴値の下限値F1jと上限値F3jを作るを作り処
理であり、P(c,k)−Yであれな処理ずみを表
わす。
130で示す処理は、120で指定されたカテ
ゴリパラメータ値cと同じパランメータ値cで、
サンプル数パラメータkを変えて未処理のP(c,
k)を求め、前記サンプル数パメタータkの特徴
Fjの特値をF2jとする処理である。
ゴリパラメータ値cと同じパランメータ値cで、
サンプル数パラメータkを変えて未処理のP(c,
k)を求め、前記サンプル数パメタータkの特徴
Fjの特値をF2jとする処理である。
140で示す処理は前記特徴値F1jとF2jの
うち170で示す処理は、前述の130,14
0,150および160処理を、サンプル数パラ
メータkを変えて全サンプル数L回くり返すため
の処理である。
うち170で示す処理は、前述の130,14
0,150および160処理を、サンプル数パラ
メータkを変えて全サンプル数L回くり返すため
の処理である。
180で示す処理はカテゴリパラメータcと特
徴Fjの下限値F1jと上限値F3jとで1つの辞書
を作る処理である。
徴Fjの下限値F1jと上限値F3jとで1つの辞書
を作る処理である。
190で示す処理はサンプル数パラメータhを
変えて上述の処理を、全サンプル数L回くり返す
ための処理である。
変えて上述の処理を、全サンプル数L回くり返す
ための処理である。
200で示す処理はカテゴリ数パラメータcを
変えて上述の各cごとの辞書作成処理を、全カテ
ゴリ数N回くり返すための処理である。
変えて上述の各cごとの辞書作成処理を、全カテ
ゴリ数N回くり返すための処理である。
従つて、作成される分割辞書は第11図に示す
ようにカテゴリ名のコード値cと各特徴ごとの特
徴量の下限値コードF1jと上限値コードF3jと
から構成される。
ようにカテゴリ名のコード値cと各特徴ごとの特
徴量の下限値コードF1jと上限値コードF3jと
から構成される。
前記処理がコード値範囲ごとくり返され、分割
辞書の集合が本認識方法の辞書である。
辞書の集合が本認識方法の辞書である。
本範囲作成方法はデータ数が2倍になると、く
り返し回数は約4倍になる。従つて、前述のよう
な分割を行うと同時に処理する必要なデータ数が
減り、辞書作成時間を短縮出来る。例えば4つに
分割すると全辞書作成時間は1/4に減少する。
り返し回数は約4倍になる。従つて、前述のよう
な分割を行うと同時に処理する必要なデータ数が
減り、辞書作成時間を短縮出来る。例えば4つに
分割すると全辞書作成時間は1/4に減少する。
最後の照合処理方法の一例を示す。
読取対象の文字パターンから特徴抽出プログラ
ムの実行によつて得られた特徴量のコード値列
を、FI1,FI2……FIMとすると、前記特徴Hのコ
ード値により選択されたコード値範囲での分割辞
書の小さい値の方をFjnに、前記特徴値F3jとF2
jのうち、大きい値の方をFjmにする処理であ
る。
ムの実行によつて得られた特徴量のコード値列
を、FI1,FI2……FIMとすると、前記特徴Hのコ
ード値により選択されたコード値範囲での分割辞
書の小さい値の方をFjnに、前記特徴値F3jとF2
jのうち、大きい値の方をFjmにする処理であ
る。
150で示す処理は前記c以外のカテゴリパラ
メータaとサンプル数パラメータlとで決まる位
置にある特徴値Fj(a,l)と前記Fjn,Fjmとで
相違量Dalを下記計算式で求め、カテゴリパラメ
ータaとサンプル数パラメータlとを変えて得ら
れる最小相違量をDとする処理である。
メータaとサンプル数パラメータlとで決まる位
置にある特徴値Fj(a,l)と前記Fjn,Fjmとで
相違量Dalを下記計算式で求め、カテゴリパラメ
ータaとサンプル数パラメータlとを変えて得ら
れる最小相違量をDとする処理である。
Dal=M
〓j=1
Wj〔Fjn−Fj(a,l)〕+M
〓j=1
Wj〔Fjn(a,l)−Fjm〕
ただし、〔θ〕=0(θ0),〔θ〕=θ(θ>0
) ここでWjは特徴Fjの重みで、統計処理であら
かじめ求まつているとする。
) ここでWjは特徴Fjの重みで、統計処理であら
かじめ求まつているとする。
160で示す処理は最小相違量Dが閾値T以上
であれば、Fjnを特徴Fjの下限値F1jにFjmを特
徴Fjの上限値F3jにし、フラグP(c,k)にY
を入れて処理ずみとする。
であれば、Fjnを特徴Fjの下限値F1jにFjmを特
徴Fjの上限値F3jにし、フラグP(c,k)にY
を入れて処理ずみとする。
上限値コードF1j(b)、上限値F3j(b)とで相違
量D(b)を計算する。
量D(b)を計算する。
D(b)=M
〓j=1
Wj〔F1j(b)−FIj〕+M
〓j=1
〔FIj−F3j(b)〕
ただし、〔θ〕=0(θ0),〔θ〕=θ(θ>
0),Wjは特徴Fjの重みである。
0),Wjは特徴Fjの重みである。
b=1からBまでで最小相違量となるbに対応
するカテゴリ各コード値cを読取対象文字の読取
結果とする。
するカテゴリ各コード値cを読取対象文字の読取
結果とする。
本発明の特長は、マクロ特徴の特徴値を符号化
して得られるコード値出現頻度分布からカテゴリ
数をもとに複数個のコード値範囲を求め、各コー
ド値範囲ごとに分割辞書を作るようにすることで
同時に考慮する必要のあるデータ数が少なくなり
辞書作成時間が短縮される。今までの説明では一
個の特徴を使つて分割辞書の作成を行つているが
複数個の特等の組を使つても同様に分割辞書を作
れる。
して得られるコード値出現頻度分布からカテゴリ
数をもとに複数個のコード値範囲を求め、各コー
ド値範囲ごとに分割辞書を作るようにすることで
同時に考慮する必要のあるデータ数が少なくなり
辞書作成時間が短縮される。今までの説明では一
個の特徴を使つて分割辞書の作成を行つているが
複数個の特等の組を使つても同様に分割辞書を作
れる。
以上説明したように、本発明によれば特徴量を
符号化しコード列をして記憶した後、文字読取装
置内で辞書が作成でき、読取対象帳票の文字に対
する辞書を発生できるので、性能の良い文字読取
装置を得ることが可能となり、その効果は大なる
ものがある。
符号化しコード列をして記憶した後、文字読取装
置内で辞書が作成でき、読取対象帳票の文字に対
する辞書を発生できるので、性能の良い文字読取
装置を得ることが可能となり、その効果は大なる
ものがある。
第1図は辞書作成のための文字サンプル帳票の
一例を示す図、第2図は従来の文字認識方法のブ
ロツク図、第3図は本発明に係る文字認識方式を
具体的に実現した一実施例を示すブロツク図、第
4図はコード値列の一例を示す図、第5図はコー
ド値出現頻度分布の一例を示す図、第6図は本発
明の文字認識方式をプロセツサとメモリと使つて
構成する文字認識装置の一実施例を示すブロツク
図、第7図は第5図のコード値出現頻度分布を記
号で示す図、第8図は第7図の記号を使つてコー
ド値範囲を作るフローチヤートの一例を示す図、
第9図は辞書を作るため、文字サンプルから得ら
れたカテゴリ名と、あらかじめ決められた何種類
かの特徴の特徴量のコード値を記号で例示した図
第10図は第9図の記号を使つて分割辞書を作る
フローチヤートの一例を示す図、第11図は辞書
の形式の一例を示す図である。 図において、1は走査部、2はパターンメモリ
部、3は特徴抽出部、4は照合部、5は辞書部、
6は出力結果、7は補助記憶部、8はコード記憶
部、9は辞書発生部、10はカテゴリ名入力部、
11は走査部、12はパターンメモリ部、13は
辞書メモリ、14はコードメモリ、15はプログ
ラムメモリ、16は出力装置、17はキー入力回
路、18は補助記憶装置、19はバスライン、2
0はプロセツサを、それぞれ示す。
一例を示す図、第2図は従来の文字認識方法のブ
ロツク図、第3図は本発明に係る文字認識方式を
具体的に実現した一実施例を示すブロツク図、第
4図はコード値列の一例を示す図、第5図はコー
ド値出現頻度分布の一例を示す図、第6図は本発
明の文字認識方式をプロセツサとメモリと使つて
構成する文字認識装置の一実施例を示すブロツク
図、第7図は第5図のコード値出現頻度分布を記
号で示す図、第8図は第7図の記号を使つてコー
ド値範囲を作るフローチヤートの一例を示す図、
第9図は辞書を作るため、文字サンプルから得ら
れたカテゴリ名と、あらかじめ決められた何種類
かの特徴の特徴量のコード値を記号で例示した図
第10図は第9図の記号を使つて分割辞書を作る
フローチヤートの一例を示す図、第11図は辞書
の形式の一例を示す図である。 図において、1は走査部、2はパターンメモリ
部、3は特徴抽出部、4は照合部、5は辞書部、
6は出力結果、7は補助記憶部、8はコード記憶
部、9は辞書発生部、10はカテゴリ名入力部、
11は走査部、12はパターンメモリ部、13は
辞書メモリ、14はコードメモリ、15はプログ
ラムメモリ、16は出力装置、17はキー入力回
路、18は補助記憶装置、19はバスライン、2
0はプロセツサを、それぞれ示す。
Claims (1)
- 1 文字読取装置に帳票上の文字から抽出された
特徴の特徴量によつて作られた辞書を、あらかじ
め記憶させ、帳票読取時には帳票上の文字から定
めた特徴の特徴量を抽出し、前記辞書と照合して
文字を認識する文字認識において、読取開始前に
文字サンプル帳票を入力し、各文字毎に与えたカ
テゴリ名と予め定めた複数個の特徴の特徴量を符
号化したコード値の列とを記憶し、文字サンプル
帳票上の文字に対する符号化が終了すると、ま
ず、前記特徴の中の一つの特徴(以下特徴Hとす
る)における各カテゴリ毎のコード値出現頻度分
布からカテゴリ数をもとに複数個のコード値範囲
を求め、次に前記特徴Hに対応するコード値が求
めた一つのコード値範囲内ある前記記憶されたカ
テゴリ名とコード値の列を使用し、同一カテゴリ
名のコード値の列を他カテゴリのコード値の列を
含まないようにして各特徴ごとにコード値を組合
せ下限値コードと上限値コードとを求め、コード
値の範囲とし、カテゴリ名と各特徴ごとのコード
値の範囲とで分割辞書の辞書要素を作り、前記コ
ード値範囲ごとに作られた分割辞書の集合で辞書
を表現することを特徴とする文字認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57132620A JPS5922179A (ja) | 1982-07-29 | 1982-07-29 | 文字認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57132620A JPS5922179A (ja) | 1982-07-29 | 1982-07-29 | 文字認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5922179A JPS5922179A (ja) | 1984-02-04 |
| JPH0458073B2 true JPH0458073B2 (ja) | 1992-09-16 |
Family
ID=15085580
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP57132620A Granted JPS5922179A (ja) | 1982-07-29 | 1982-07-29 | 文字認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5922179A (ja) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6194186A (ja) * | 1984-10-15 | 1986-05-13 | Nec Corp | パタ−ン認識方式 |
| JP2515732B2 (ja) * | 1986-01-20 | 1996-07-10 | 日本電信電話株式会社 | パタン照合装置 |
| JP2556477B2 (ja) * | 1986-07-07 | 1996-11-20 | 日本電信電話株式会社 | パタン照合装置 |
| JPH0786928B2 (ja) * | 1987-05-15 | 1995-09-20 | 富士通株式会社 | パタ−ン識別装置 |
| US5747988A (en) * | 1994-06-23 | 1998-05-05 | Sumitomo Metal Industires Limited | Method and apparatus for flaw detection by leakage fluxes and leakage flux sensor |
| US5739685A (en) * | 1994-06-23 | 1998-04-14 | Sumitomo Metal Industries Limited | Method and apparatus for flaw detection by leakage fluexes and leakage flux sensor |
-
1982
- 1982-07-29 JP JP57132620A patent/JPS5922179A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS5922179A (ja) | 1984-02-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN101510252B (zh) | 区域提取方法、字符识别方法以及字符识别装置 | |
| JPH0458073B2 (ja) | ||
| JPH1166238A (ja) | 手書き文字認識方法 | |
| CN117830074B (zh) | 一种基于字体轮廓信息的汉字字体生成方法 | |
| JP3730073B2 (ja) | テンプレート作成方法、装置、およびテンプレート作成プログラムを記録した記録媒体 | |
| JPH0461396B2 (ja) | ||
| JPH0614373B2 (ja) | 文字読取方法 | |
| JPH08287188A (ja) | 文字列認識装置 | |
| JP3083609B2 (ja) | 情報処理装置及びそれを用いた文字認識装置 | |
| JP3421200B2 (ja) | 文字認識方法および装置 | |
| JP3249654B2 (ja) | 活字文字認識用辞書の作成方法 | |
| JP2894111B2 (ja) | 光学式活字文字認識装置における認識結果の総合判定方式 | |
| JP2851865B2 (ja) | 文字認識装置 | |
| JP2660998B2 (ja) | 日本語処理装置 | |
| JP4215385B2 (ja) | パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| JPH0259504B2 (ja) | ||
| JPS5866178A (ja) | 文字認識方式 | |
| JP2792063B2 (ja) | 文字認識辞書作成方式 | |
| JP2578767B2 (ja) | 画像処理方法 | |
| JPH0652537B2 (ja) | パタ−ン認識方法 | |
| Arica et al. | One dimensional representation of two dimensional information for HMM based handwritten recognition | |
| JP2891211B2 (ja) | 光学式文字読取装置および方法 | |
| JPH08129615A (ja) | パタン認識用辞書作成方法およびパタン認識方法 | |
| JPS58207183A (ja) | 文字識別方式 | |
| JPS60142487A (ja) | 文字認識用辞書作成装置 |