JPH0746374B2 - 文字認識方法 - Google Patents
文字認識方法Info
- Publication number
- JPH0746374B2 JPH0746374B2 JP62324393A JP32439387A JPH0746374B2 JP H0746374 B2 JPH0746374 B2 JP H0746374B2 JP 62324393 A JP62324393 A JP 62324393A JP 32439387 A JP32439387 A JP 32439387A JP H0746374 B2 JPH0746374 B2 JP H0746374B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- character
- candidate
- matching target
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 29
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000003252 repetitive effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Description
【発明の詳細な説明】 (産業上の利用分野) この発明は、文字認識方法に関するもので、特に、認識
に用いる辞書の容量を低減することが出来、然も、認識
のための処理時間を短縮することが出来る文字認識方法
に関するものである。
に用いる辞書の容量を低減することが出来、然も、認識
のための処理時間を短縮することが出来る文字認識方法
に関するものである。
(従来の技術) 例えばコンピュータにデータを入力することを、人間に
代って機械が、然もパンチカード等を用いずに人間が読
める文字を認識しながら行なうことが出来れば、データ
入力を効率良くかつ正確に行なうことが出来るようにな
る。従って、このような目的を達成するため、従来から
種々の文字認識方法が提案されている。
代って機械が、然もパンチカード等を用いずに人間が読
める文字を認識しながら行なうことが出来れば、データ
入力を効率良くかつ正確に行なうことが出来るようにな
る。従って、このような目的を達成するため、従来から
種々の文字認識方法が提案されている。
このような文字認識を行なうための一般的方法について
は、例えば文献(電気学会発行「電子計算機入力のため
の文字図形の自動認識」(昭45−1−15))に開示され
ている。
は、例えば文献(電気学会発行「電子計算機入力のため
の文字図形の自動認識」(昭45−1−15))に開示され
ている。
この文献に開示されている方法は、文脈情報等の文字の
つながりやスペース等の周囲環境を用いて認識を行なう
ものであり、具体的には、入力文章を文字単位で認識
し、さらに認識結果のスペース、句読点等の周囲環境に
よってこの文章をいくつかの文字列に分離する。そし
て、上述の文字単位での認識を行なった結果、文字の候
補文字名が複数個得られてしまい、文字名を一意のもの
に決定出来ない文字が一つでもあった場合、この文字を
含む文字列を一定の形式に従って単語辞書と照合し、そ
の結果に基いてこの文字列の各文字名を決定する。
つながりやスペース等の周囲環境を用いて認識を行なう
ものであり、具体的には、入力文章を文字単位で認識
し、さらに認識結果のスペース、句読点等の周囲環境に
よってこの文章をいくつかの文字列に分離する。そし
て、上述の文字単位での認識を行なった結果、文字の候
補文字名が複数個得られてしまい、文字名を一意のもの
に決定出来ない文字が一つでもあった場合、この文字を
含む文字列を一定の形式に従って単語辞書と照合し、そ
の結果に基いてこの文字列の各文字名を決定する。
文字名決定のための照合形式は、種々のものが考えられ
ている。認識対象文字列が例えば人名、会社名等のよう
な特定用途のものであって、文章中におけるこの文字列
の位置や、この文字列の直前に認識した単語によってこ
の文字列が制限出来る場合は、その位置情報や認識した
単語情報で単語辞書を指定し、この単語辞書内の単語を
順次に読み出す。そして、読み出した単語(照合対象単
語)と、文字列中の各文字の候補文字の組み合せで構成
される文字列(以下、単語候補文字列と称する)との一
致をその都度とり、一致がとれたもの(候補単語)で各
文字を決定していた。
ている。認識対象文字列が例えば人名、会社名等のよう
な特定用途のものであって、文章中におけるこの文字列
の位置や、この文字列の直前に認識した単語によってこ
の文字列が制限出来る場合は、その位置情報や認識した
単語情報で単語辞書を指定し、この単語辞書内の単語を
順次に読み出す。そして、読み出した単語(照合対象単
語)と、文字列中の各文字の候補文字の組み合せで構成
される文字列(以下、単語候補文字列と称する)との一
致をその都度とり、一致がとれたもの(候補単語)で各
文字を決定していた。
(発明が解決しようとする問題点) しかしながら、日本語文字の中には、文字の繰返しを意
味する「々」、「ゝ」、「〃」、「ゞ」等といった繰返
し符号が存在し、この符号を用いての「人々」、「国
々」、「さゞ波」といった表記方法が広く一般に用いら
れている。又、一方では、「人人」、「国国」、「さざ
波」というように同じ文字を羅列した表記方法も当然に
用いられている。このことから、上記二種の表記方法が
混在する文章を認識するためには、単語辞書内に互いに
意味は等しいが二つの表記方法で表された二種類の単語
をそれぞれ登録しておく必要があるという問題点があっ
た。
味する「々」、「ゝ」、「〃」、「ゞ」等といった繰返
し符号が存在し、この符号を用いての「人々」、「国
々」、「さゞ波」といった表記方法が広く一般に用いら
れている。又、一方では、「人人」、「国国」、「さざ
波」というように同じ文字を羅列した表記方法も当然に
用いられている。このことから、上記二種の表記方法が
混在する文章を認識するためには、単語辞書内に互いに
意味は等しいが二つの表記方法で表された二種類の単語
をそれぞれ登録しておく必要があるという問題点があっ
た。
このような問題点は、単語辞書の容量を増大させること
になり、ひいては、単語照合時間を増大させるという弊
害を招くことになる。
になり、ひいては、単語照合時間を増大させるという弊
害を招くことになる。
この発明は、このような点に鑑みなされたものであり、
従ってこの発明の目的は、上述した問題点を解決し、文
字認識装置の規模を小さく出来然も文字認識処理の高速
化を図ることが出来る文字認識方法を提供することにあ
る。
従ってこの発明の目的は、上述した問題点を解決し、文
字認識装置の規模を小さく出来然も文字認識処理の高速
化を図ることが出来る文字認識方法を提供することにあ
る。
(問題点を解決するための手段) この目的を達成する図るため、この発明によれば、任意
の文字列を文字単位で認識し、かつ、前述の文字列中の
文字毎の前述の認識の結果得られた一又は二以上の候補
文字を組み合せて単語候補文分列を作成し、単語辞書よ
り照合対象単語を取り出し前述の単語候補文字列を照合
対象単語と照合してこの単語候補文字列の候補単語を
得、この候補単語に基いて前記文字列の各文字を決定す
る文字認識方法において、 前記単語辞書より取り出した照合対象単語が同一文字を
連続して含む場合には前述の同一文字の中の二番目以後
の文字を繰返し符号に置換して追加の照合対象単語を作
成し、 前記単語辞書より取り出した照合対象単語が繰返し符号
を含む場合にはこの繰返し符号をこの繰返し符号の直前
の文字に置換して追加の照合対象単語を作成し、 これら照合対象単語及び追加の照合対象単語を用いて前
記照合を行なうことを特徴とする。
の文字列を文字単位で認識し、かつ、前述の文字列中の
文字毎の前述の認識の結果得られた一又は二以上の候補
文字を組み合せて単語候補文分列を作成し、単語辞書よ
り照合対象単語を取り出し前述の単語候補文字列を照合
対象単語と照合してこの単語候補文字列の候補単語を
得、この候補単語に基いて前記文字列の各文字を決定す
る文字認識方法において、 前記単語辞書より取り出した照合対象単語が同一文字を
連続して含む場合には前述の同一文字の中の二番目以後
の文字を繰返し符号に置換して追加の照合対象単語を作
成し、 前記単語辞書より取り出した照合対象単語が繰返し符号
を含む場合にはこの繰返し符号をこの繰返し符号の直前
の文字に置換して追加の照合対象単語を作成し、 これら照合対象単語及び追加の照合対象単語を用いて前
記照合を行なうことを特徴とする。
尚、この発明の実施に当り、前述の二番目以後の文字の
変換される繰返し符号の決定は、予め定めた文字−繰返
し符号対応テーブルを参照することで行なうのが好適で
ある。
変換される繰返し符号の決定は、予め定めた文字−繰返
し符号対応テーブルを参照することで行なうのが好適で
ある。
さらに、この発明の実施に当り、前述の照合対象単語が
繰返し符号を含むか否かの判定は、この候補単語の各文
字を予め定めた繰返し符号テーブル内の文字と照合させ
て行なうのが好適である。
繰返し符号を含むか否かの判定は、この候補単語の各文
字を予め定めた繰返し符号テーブル内の文字と照合させ
て行なうのが好適である。
(作用) この発明の文字認識方法の作用につき具体例を挙げて説
明する。
明する。
認識対象文章中に例えば、「人人」なる文字列があり、
これの各文字を認識する場合を考える 「人人」なる文字列について文字毎の認識が行なわれた
結果、第一及び第二文字目の「人」に関し「人」及び
「入」の候補文字がそれぞれ挙がり、これら候補文字を
組み合せることによって「人人」、「人入」、「入人」
及び「入入」なる四個の単語候補文字列が得られる。
これの各文字を認識する場合を考える 「人人」なる文字列について文字毎の認識が行なわれた
結果、第一及び第二文字目の「人」に関し「人」及び
「入」の候補文字がそれぞれ挙がり、これら候補文字を
組み合せることによって「人人」、「人入」、「入人」
及び「入入」なる四個の単語候補文字列が得られる。
各単語候補文字列毎に、例えば先頭文字の「人」という
文字名、さらにこの文字列の文字数に着目してこれらの
基準に、これら単語候補文字列の照合対象単語を単語辞
書内から選び出す。
文字名、さらにこの文字列の文字数に着目してこれらの
基準に、これら単語候補文字列の照合対象単語を単語辞
書内から選び出す。
ここで、単語辞書内には、繰返し符号を用いた表記法に
従う「人々」は格納されているが、同一文字を羅列する
表記法に従う「人人」は格納されていないとする。この
結果、照合対象単語の中には、「人々」は含まれるが
「人人」は含まれないことになる。しかしながら、この
発明によれば、単語辞書から得た照合対象単語は、それ
が同一文字を連続して含むものであるか否か、それが繰
返し符号を含むものであるか否か判定される。そして、
照合対象単語が同一文字を連続して含む場合には、この
単語の他に繰返し符号を用いた表記法による追加の照合
対象単語を作成し、単語が繰返し符号を含む場合には、
この単語の他に同一文字を羅列する表記法による追加の
単語を作成する。従って、上述の例の場合は、「人々」
の単語から「人人」という新たな単語即ち追加の単語が
得られる。
従う「人々」は格納されているが、同一文字を羅列する
表記法に従う「人人」は格納されていないとする。この
結果、照合対象単語の中には、「人々」は含まれるが
「人人」は含まれないことになる。しかしながら、この
発明によれば、単語辞書から得た照合対象単語は、それ
が同一文字を連続して含むものであるか否か、それが繰
返し符号を含むものであるか否か判定される。そして、
照合対象単語が同一文字を連続して含む場合には、この
単語の他に繰返し符号を用いた表記法による追加の照合
対象単語を作成し、単語が繰返し符号を含む場合には、
この単語の他に同一文字を羅列する表記法による追加の
単語を作成する。従って、上述の例の場合は、「人々」
の単語から「人人」という新たな単語即ち追加の単語が
得られる。
このように、同一文字を羅列する表記法で書かれた文字
列が含まれる文章であっても、繰返し符号を用いた表記
法で書かれた文字列が含まれる文章であっても、さら
に、両表記法の文字列が混在する文章であっても、一方
の表記方法で書かれた単語辞書によって認識が行なわれ
る。
列が含まれる文章であっても、繰返し符号を用いた表記
法で書かれた文字列が含まれる文章であっても、さら
に、両表記法の文字列が混在する文章であっても、一方
の表記方法で書かれた単語辞書によって認識が行なわれ
る。
(実施例) 以下、図面を参照してこの発明の文字認識方法の実施例
につき説明する。尚、説明に用いる各図は、この発明が
理解出来る程度に概略的に示してあるにすぎないことは
理解されたい。
につき説明する。尚、説明に用いる各図は、この発明が
理解出来る程度に概略的に示してあるにすぎないことは
理解されたい。
第1図は、この発明の文字認識方法の実施に用いて好適
な装置の一構成例を示したブロック図である。
な装置の一構成例を示したブロック図である。
第1図中、10で示すものが実施例の文字認識装置であ
り、これは、11で示す文字認識部、12で示す照合対象単
語作成部、13で示す文字−繰返し符号対応テーブル、14
で示す繰返し符号テーブル、15で示す単語照合部、16で
示す単語辞書及び17で示す出力端子を具えたものとして
ある。出力端子17は、認識した文字名(コード)を出力
するものであり、この端子17は例えばコンピュータの入
力端子に接続することによって文字認識情報の活用がな
される。
り、これは、11で示す文字認識部、12で示す照合対象単
語作成部、13で示す文字−繰返し符号対応テーブル、14
で示す繰返し符号テーブル、15で示す単語照合部、16で
示す単語辞書及び17で示す出力端子を具えたものとして
ある。出力端子17は、認識した文字名(コード)を出力
するものであり、この端子17は例えばコンピュータの入
力端子に接続することによって文字認識情報の活用がな
される。
尚、これら各構成成分11,12,13,14,15,16及び7は制御
部(図示せず)からの制御信号によって制御される。
部(図示せず)からの制御信号によって制御される。
帳票上の文章の各文字からの光信号(図中、Sで示す)
は文字認識部11に入力される。尚、この実施例では、認
識対象文章は任意の文字列単位で分ち書きされており、
この文字列を単語としている。
は文字認識部11に入力される。尚、この実施例では、認
識対象文章は任意の文字列単位で分ち書きされており、
この文字列を単語としている。
文字認識部11は、光信号Sを光電変換し、これによって
得た情報を一文字単位に切り出し特徴抽出等のための前
処理を行なう。さらに、この文字認識部11に備わる辞書
(図示せず)内の標準文字特徴と、上述の抽出で得られ
た特徴とを比較し、一致度の高い順から大きな得点を与
え、ある得点以上のものを候補文字とし、これら候補文
字の文字名(コード)を単語照合部15に出力する。
得た情報を一文字単位に切り出し特徴抽出等のための前
処理を行なう。さらに、この文字認識部11に備わる辞書
(図示せず)内の標準文字特徴と、上述の抽出で得られ
た特徴とを比較し、一致度の高い順から大きな得点を与
え、ある得点以上のものを候補文字とし、これら候補文
字の文字名(コード)を単語照合部15に出力する。
第2図(A)は、単語照合部15の一構成例を示したブロ
ック図、第2図(B)は、単語照合部15の単語候補文字
列作成の動作を概略的に示した流れ図、第3図(A)は
照合対象単語作成部12の一構成例を示す図、第3図
(B)は、照合対象単語作成部12の動作を概略的に示す
流れ図である。
ック図、第2図(B)は、単語照合部15の単語候補文字
列作成の動作を概略的に示した流れ図、第3図(A)は
照合対象単語作成部12の一構成例を示す図、第3図
(B)は、照合対象単語作成部12の動作を概略的に示す
流れ図である。
文字認識部11から得られた候補文字名は、単語照合部15
のメモリ部15aに上述した単語単位に分けられ格納され
る(ステップ21)。単語照合部15の組み合せ回路15b
は、メモリ部15aの、ある単語を構成する各文字毎の候
補文字を組み合せて単語候補文字列を作成する(ステッ
プ22)。
のメモリ部15aに上述した単語単位に分けられ格納され
る(ステップ21)。単語照合部15の組み合せ回路15b
は、メモリ部15aの、ある単語を構成する各文字毎の候
補文字を組み合せて単語候補文字列を作成する(ステッ
プ22)。
又、作成された単語候補文字列を、文字列記憶部15cに
格納する(ステップ23)。
格納する(ステップ23)。
文字列記憶部15cは、格納された単語候補文字列を比較
回路15dに順次出力する。
回路15dに順次出力する。
比較回路15dにおいては、先ず、前記文字列記憶部15cよ
り入力された単語候補文字列の先頭文字名と文字数とを
照合対象単語作成部12に出力する。
り入力された単語候補文字列の先頭文字名と文字数とを
照合対象単語作成部12に出力する。
照合対象単語作成部12は、先頭文字名及び文字数からな
る情報が入力されると(ステップ31)、以下に説明する
ように動作する。
る情報が入力されると(ステップ31)、以下に説明する
ように動作する。
先ず、送られてきた頭文字名と、文字数とに基き単語辞
書16を検索し、この頭文字名及び文字数と同一の頭文字
名及び文字数を有するような単語をこの単語辞書16から
全て探し出し、照合対象単語作成部12のメモリ部12aに
照合対象単語群として格納する(ステップ32)。尚、こ
の検索は、比較回路12bを用い、単語照合部15より出力
された候補文字列の頭文字及び文字数と、単語辞書内の
単語の文字名及び文字数とをそれぞれ比較し一致したも
のを見出すことで行なうことが出来る。
書16を検索し、この頭文字名及び文字数と同一の頭文字
名及び文字数を有するような単語をこの単語辞書16から
全て探し出し、照合対象単語作成部12のメモリ部12aに
照合対象単語群として格納する(ステップ32)。尚、こ
の検索は、比較回路12bを用い、単語照合部15より出力
された候補文字列の頭文字及び文字数と、単語辞書内の
単語の文字名及び文字数とをそれぞれ比較し一致したも
のを見出すことで行なうことが出来る。
次に、照合対象単語作成部12は、得られた照合対象単語
について、それが同一文字を連続して含む照合対象単語
であるか否かを調査する(ステップ33)。この調査は、
照合対象単語中の隣合う文字のそれぞれのJISコード
を、比較回路12bを用いて比較し、この結果、互いのコ
ードが一致する場合は、同一文字が連続していると判定
する。
について、それが同一文字を連続して含む照合対象単語
であるか否かを調査する(ステップ33)。この調査は、
照合対象単語中の隣合う文字のそれぞれのJISコード
を、比較回路12bを用いて比較し、この結果、互いのコ
ードが一致する場合は、同一文字が連続していると判定
する。
照合対象単語が同一文字を連続して含む場合は、この同
一文字のJISコードを、文字−繰返し符号対応テーブル1
3を参照し、この文字に応じた適切な繰返し符号を選ぶ
(ステップ34)。この繰返し符号の決定を、この実施例
の場合は、以下に説明するように行なっている。
一文字のJISコードを、文字−繰返し符号対応テーブル1
3を参照し、この文字に応じた適切な繰返し符号を選ぶ
(ステップ34)。この繰返し符号の決定を、この実施例
の場合は、以下に説明するように行なっている。
別表1は、上述の文字−繰返し符号対応テーブル13の説
明に供する表である。この実施例の場合の文字−繰返し
符号対応テーブル13には、JISコードで表される文字を
文字種によって複数のブロックに分けることで得られ
る、各ブロック内での最大のJISコード、そのブロック
の文字種及びそのブロックに対応する繰返し符号がそれ
ぞれ格納されている。
明に供する表である。この実施例の場合の文字−繰返し
符号対応テーブル13には、JISコードで表される文字を
文字種によって複数のブロックに分けることで得られ
る、各ブロック内での最大のJISコード、そのブロック
の文字種及びそのブロックに対応する繰返し符号がそれ
ぞれ格納されている。
上述した同一文字の文字種に対応する繰返し符号をこの
テーブル13を用いて調べ、得られた繰返し符号を用い、
繰返されて出現した文字をこの繰返し符号に変換して、
その照合対象単語とは別に新たな照合対象単語、即ち追
加の照合対象単語を作成する。具体的には、先ず、比較
回路12bを用い、繰返される文字のJISコードを、文字−
繰返し符号対応テーブル13の各ブロックのJISコードと
順次比較してゆき、その文字が所属するブロックを決定
してそのブロックの繰返し符号を選ぶ(ステップ34)。
続いて、繰返されて出現した文字を、変換回路12cを用
い、選択した繰返し符号に変換して、追加の照合対象単
語を作成する(ステップ35)。
テーブル13を用いて調べ、得られた繰返し符号を用い、
繰返されて出現した文字をこの繰返し符号に変換して、
その照合対象単語とは別に新たな照合対象単語、即ち追
加の照合対象単語を作成する。具体的には、先ず、比較
回路12bを用い、繰返される文字のJISコードを、文字−
繰返し符号対応テーブル13の各ブロックのJISコードと
順次比較してゆき、その文字が所属するブロックを決定
してそのブロックの繰返し符号を選ぶ(ステップ34)。
続いて、繰返されて出現した文字を、変換回路12cを用
い、選択した繰返し符号に変換して、追加の照合対象単
語を作成する(ステップ35)。
次いで、この追加の照合対象単語をメモリ部12aに格納
する(ステップ36)。
する(ステップ36)。
又、ステップ33において、照合対象単語が同一文字を含
んでいない場合、照合対象単語作成部12は照合対象候補
単語が、繰返し符号テーブル14に登録されているいずれ
かの符号を含む照合対象単語か否かを調査する(ステッ
プ37)。この調査は、比較回路12bを用い、各照合対象
単語の文字のJISコードを、繰返し符号テーブル14中に
格納されている繰返し符号のJISコードとそれぞれ比較
し、同一のものがある場合に繰返し符号が用いられてい
ると判定することで行なう。別表2は、実施例の繰返し
符号テーブル14に格納させてある繰返し符号を示した図
である。
んでいない場合、照合対象単語作成部12は照合対象候補
単語が、繰返し符号テーブル14に登録されているいずれ
かの符号を含む照合対象単語か否かを調査する(ステッ
プ37)。この調査は、比較回路12bを用い、各照合対象
単語の文字のJISコードを、繰返し符号テーブル14中に
格納されている繰返し符号のJISコードとそれぞれ比較
し、同一のものがある場合に繰返し符号が用いられてい
ると判定することで行なう。別表2は、実施例の繰返し
符号テーブル14に格納させてある繰返し符号を示した図
である。
ステップ37において、繰返し符号が使用されていないと
判定された照合対象単語については、メモリ部12aにそ
のまま残す。次に、この単語候補文字列についての新た
な照合対象単語の有無を判定し、照合対象単語が有る場
合には次の照合対象単語に対しステップ33からの処理を
施し、又、無しの場合には次の単語候補文字列に対しス
テップ31からの処理を施す(ステップ38)。
判定された照合対象単語については、メモリ部12aにそ
のまま残す。次に、この単語候補文字列についての新た
な照合対象単語の有無を判定し、照合対象単語が有る場
合には次の照合対象単語に対しステップ33からの処理を
施し、又、無しの場合には次の単語候補文字列に対しス
テップ31からの処理を施す(ステップ38)。
又、ステップ37において繰返し符号が使用されていると
判定された照合対象単語についてはこれとは別に、変換
回路12cを用い、その繰返し符号をこの符号の直前の文
字に変換し、新たな照合対象単語即ち追加の照合対象単
語を作成する(ステップ39)。そして、この追加の照合
対象単語をメモリ部12aに格納する(ステップ36)。
判定された照合対象単語についてはこれとは別に、変換
回路12cを用い、その繰返し符号をこの符号の直前の文
字に変換し、新たな照合対象単語即ち追加の照合対象単
語を作成する(ステップ39)。そして、この追加の照合
対象単語をメモリ部12aに格納する(ステップ36)。
ある単語候補文字列の全ての照合対象単語について、上
述のステップ33〜39に示した処理を実行し、照合対象単
語及び追加の照合対象単語が得られたら、前記照合対象
単語及び追加の照合対象単語を単語照合部15に出力し、
単語照合処理のステップへ移る。(ステップ31,40,4
1)。
述のステップ33〜39に示した処理を実行し、照合対象単
語及び追加の照合対象単語が得られたら、前記照合対象
単語及び追加の照合対象単語を単語照合部15に出力し、
単語照合処理のステップへ移る。(ステップ31,40,4
1)。
尚、照合対象単語に対し、「同一文字の連続の有無」の
調査を先に行なうか、「繰返し符号の有無」の調査を先
に行なうかは、いずれの調査を先としても良いことは明
らかである。
調査を先に行なうか、「繰返し符号の有無」の調査を先
に行なうかは、いずれの調査を先としても良いことは明
らかである。
次に、単語照合部15の比較回路15dは、文字列記憶部15c
に格納してある単語候補文字列と、前記照合対象単語作
成部12のメモリ部12aより入力された照合対象単語及び
追加の照合対象単語との比較を行ない、この結果、単語
候補文字列に一致する照合対象単語を候補単語として選
択回路15eに出力する。単語照合部15はさらに、この一
致した候補単語を構成する各文字毎の文字認識部での得
点の例えば加算点をこの候補単語の得点として選択回路
15eに出力する。
に格納してある単語候補文字列と、前記照合対象単語作
成部12のメモリ部12aより入力された照合対象単語及び
追加の照合対象単語との比較を行ない、この結果、単語
候補文字列に一致する照合対象単語を候補単語として選
択回路15eに出力する。単語照合部15はさらに、この一
致した候補単語を構成する各文字毎の文字認識部での得
点の例えば加算点をこの候補単語の得点として選択回路
15eに出力する。
上述した処理を各単語候補文字列全てにつき行ない、得
られた候補単語について単語照合部15の選択回路15e
は、候補単語の中で最も高い得点を示した単語を選択
し、この単語の各文字名を、入力文字パターンの認識結
果として出力端子17から出力する。
られた候補単語について単語照合部15の選択回路15e
は、候補単語の中で最も高い得点を示した単語を選択
し、この単語の各文字名を、入力文字パターンの認識結
果として出力端子17から出力する。
以下、この発明の理解を深めるため、具体例を挙げ単語
照合部15及び照合対象単語作成部12の動作につき説明す
る。
照合部15及び照合対象単語作成部12の動作につき説明す
る。
別表3は、認識対象文字列(単語)が「名名」の場合
の、単語照合部15及び照合対象単語作成部12の動作を説
明するための表である。
の、単語照合部15及び照合対象単語作成部12の動作を説
明するための表である。
認識対象文字列(入力文字パタン)「名名」に対して、
文字認識部11より、第一文字目の「名」に関し「名」及
び「各」の二個の候補文字が、第二文字目の「名」に関
し「名」及び「各」の二個の候補文字がそれぞれ挙げら
れている。尚、候補文字「名」のほうが候補文字「各」
よりも得点が高い。ここで、単語照合部15においては、
これら候補文字を組み合せて、別表4にa〜dの符号を
付して示すような2×2=4個の単語候補文字列を作成
する。これら単語候補文字列は、メモリ部15aに格納さ
れる。
文字認識部11より、第一文字目の「名」に関し「名」及
び「各」の二個の候補文字が、第二文字目の「名」に関
し「名」及び「各」の二個の候補文字がそれぞれ挙げら
れている。尚、候補文字「名」のほうが候補文字「各」
よりも得点が高い。ここで、単語照合部15においては、
これら候補文字を組み合せて、別表4にa〜dの符号を
付して示すような2×2=4個の単語候補文字列を作成
する。これら単語候補文字列は、メモリ部15aに格納さ
れる。
さらに、上述の単語照合部15は、単語候補文字列の先頭
の文字名と、単語候補文字列の文字数とを単語候補文字
列毎に照合対象単語作成部12に対しそれぞれ出力する。
ここでは、別表3にaの符号を付してある単語候補文字
列「名名」の先頭文字名「名」と、文字列の2数とが、
出力される例を挙げてその後の動作を説明する。
の文字名と、単語候補文字列の文字数とを単語候補文字
列毎に照合対象単語作成部12に対しそれぞれ出力する。
ここでは、別表3にaの符号を付してある単語候補文字
列「名名」の先頭文字名「名」と、文字列の2数とが、
出力される例を挙げてその後の動作を説明する。
照合対象単語作成部12は、単語照合部15から送られてき
た「名」及び二文字という情報に基き、「名」の文字を
頭文字としかつ二文字で構成された単語を単語辞書16内
から全て探し出し、これら単語を照合対象単語群とす
る。ここで、単語辞書には、繰返し符号を用いた表記に
よる「名々」は格納してあるが同一文字を羅列する表記
による「名名」は格納されていない場合を考える。この
ような時、照合対象単語としては、別表5に示すような
もの挙げられ「名名」は挙がってこないことになる。
た「名」及び二文字という情報に基き、「名」の文字を
頭文字としかつ二文字で構成された単語を単語辞書16内
から全て探し出し、これら単語を照合対象単語群とす
る。ここで、単語辞書には、繰返し符号を用いた表記に
よる「名々」は格納してあるが同一文字を羅列する表記
による「名名」は格納されていない場合を考える。この
ような時、照合対象単語としては、別表5に示すような
もの挙げられ「名名」は挙がってこないことになる。
次に、これら照合対象単語群の各照合対象単語につい
て、これが同一文字を連続して含むものであるか否か、
又、これが繰返し符号を含むものであるか否かにつき既
に説明した方法をそれぞれ用いて調査する。
て、これが同一文字を連続して含むものであるか否か、
又、これが繰返し符号を含むものであるか否かにつき既
に説明した方法をそれぞれ用いて調査する。
別表5に示した例の場合、漢字に対する繰返し符号
「々」を含む「名々」が存在することから、この繰返し
符号をこの符号の直前の文字「名」に変換し、追加の照
合対象単語として「名名」を作成し照合対象単語群に加
える。
「々」を含む「名々」が存在することから、この繰返し
符号をこの符号の直前の文字「名」に変換し、追加の照
合対象単語として「名名」を作成し照合対象単語群に加
える。
単語照合部15においては、追加の照合対象単語を含めた
照合対象単語群の各照合対象単語と、「名名」なる単語
候補文字列との比較を行ない、この結果この場合は、
「名名」において一致を見るのでこれに対し得点を与え
る。この照合対象単語は選択回路15eに候補単語として
出力される。
照合対象単語群の各照合対象単語と、「名名」なる単語
候補文字列との比較を行ない、この結果この場合は、
「名名」において一致を見るのでこれに対し得点を与え
る。この照合対象単語は選択回路15eに候補単語として
出力される。
上述したと同様な操作を別表3にb,c及びdで示す各単
語候補文字列につきそれぞれ行なう。しかしながら、こ
の場合、「名名」の候補文字が唯一一致を見ることにな
り、又、例え他に候補単語があったとしても「名名」は
第一及び第二文字の候補文字の中の最も得点の高い候補
文字同志で構成されていることから選択回路15eはこの
単語を支持し、この文字名「名」及び「名」を認識結果
として出力する。
語候補文字列につきそれぞれ行なう。しかしながら、こ
の場合、「名名」の候補文字が唯一一致を見ることにな
り、又、例え他に候補単語があったとしても「名名」は
第一及び第二文字の候補文字の中の最も得点の高い候補
文字同志で構成されていることから選択回路15eはこの
単語を支持し、この文字名「名」及び「名」を認識結果
として出力する。
このように、「名名」という単語が単語辞書に格納され
ていない場合であっても、「名々」なる単語が格納され
ていれば、入力文字パタン「名名」を認識することが出
来る。
ていない場合であっても、「名々」なる単語が格納され
ていれば、入力文字パタン「名名」を認識することが出
来る。
又、別表4は、認識対象文字列(単語)が「個々」の場
合の、単語照合部15及び照合対象単語作成部12の動作を
説明するための表である。
合の、単語照合部15及び照合対象単語作成部12の動作を
説明するための表である。
認識対象文字列(入力文字パタン)「個々」に対して、
文字認識部11より、「個」に関し「個」及び「梱」の二
個の候補文字が、「々」に関し「々」及び「ク」の二個
の候補文字がそれぞれ挙げられている。尚、候補文字
「個」のほうが候補文字「梱」よりも得点が高く、候補
文字「々」のほうが候補文字「ク」よりも得点が高い。
ここで、単語照合部15においては、これら候補文字を組
み合せて、別表4にa〜dの符号を付して示すような2
×2=4個の単語候補文字列を作成する。これら単語候
補文字列は、メモリ部15aに格納される。
文字認識部11より、「個」に関し「個」及び「梱」の二
個の候補文字が、「々」に関し「々」及び「ク」の二個
の候補文字がそれぞれ挙げられている。尚、候補文字
「個」のほうが候補文字「梱」よりも得点が高く、候補
文字「々」のほうが候補文字「ク」よりも得点が高い。
ここで、単語照合部15においては、これら候補文字を組
み合せて、別表4にa〜dの符号を付して示すような2
×2=4個の単語候補文字列を作成する。これら単語候
補文字列は、メモリ部15aに格納される。
さらに、上述の単語照合部15は、単語候補文字列の先頭
の文字名と、単語候補文字列の文字数とを単語候補文字
列毎に照合対象単語作成部12に対しそれぞれ出力する。
ここでは、別表4にaの符号を付してある単語候補文字
列「個々」の先頭文字名「個」と、文字列の数2とが、
出力される例を挙げてその後の動作を説明する。
の文字名と、単語候補文字列の文字数とを単語候補文字
列毎に照合対象単語作成部12に対しそれぞれ出力する。
ここでは、別表4にaの符号を付してある単語候補文字
列「個々」の先頭文字名「個」と、文字列の数2とが、
出力される例を挙げてその後の動作を説明する。
照合対象単語作成部12は、単語照合部15から送られてき
た「個」及び二文字という情報に基き、「個」の文字を
頭文字としかつ二文字で構成された単語を単語辞書16内
から全て探し出しこれら単語を照合対象単語群とする。
ここで、単語辞書には、同一文字を羅列する表記法によ
る「個個」は格納してあるが繰返し符号を用いた表記に
よる「個々」格納されていないとする。このような時、
「個々」は照合対象単語として挙げられず、別表6に示
すようなものが照合対象単語として挙げられてくる。
た「個」及び二文字という情報に基き、「個」の文字を
頭文字としかつ二文字で構成された単語を単語辞書16内
から全て探し出しこれら単語を照合対象単語群とする。
ここで、単語辞書には、同一文字を羅列する表記法によ
る「個個」は格納してあるが繰返し符号を用いた表記に
よる「個々」格納されていないとする。このような時、
「個々」は照合対象単語として挙げられず、別表6に示
すようなものが照合対象単語として挙げられてくる。
次に、これら照合対象単語群の各照合対象単語につい
て、これが同一文字を連続して含むものであるか否か、
又、これが繰返し符号を含むものであるか否かにつき既
に説明した方法をそれぞれ用いて調査する。
て、これが同一文字を連続して含むものであるか否か、
又、これが繰返し符号を含むものであるか否かにつき既
に説明した方法をそれぞれ用いて調査する。
別表6に示した例の場合、「個」の文字が連続する「個
個」が存在することから、文字−繰返し符号対応テーブ
ルを参照し「個」に対応する適切な繰返し符号が存在す
るか否かを既に説明した方法で調べる。この結果、
[々」なる繰返し符号が選択され、繰返されている文字
の第二文字目以後の文字はこの符号に変換され、「個
々」という追加の照合対象単語が作成される。この追加
の照合対象単語を照合対象単語群に加える。
個」が存在することから、文字−繰返し符号対応テーブ
ルを参照し「個」に対応する適切な繰返し符号が存在す
るか否かを既に説明した方法で調べる。この結果、
[々」なる繰返し符号が選択され、繰返されている文字
の第二文字目以後の文字はこの符号に変換され、「個
々」という追加の照合対象単語が作成される。この追加
の照合対象単語を照合対象単語群に加える。
単語照合部15においては、追加の照合対象単語を含めた
照合対象単語群の各候補単語と、「個々」なる単語候補
文字列との比較が行なわれ、「個々」において一致を見
るのでこれに対し得点を与える。この照合対象単語は候
補単語として選択回路15eに出力される。
照合対象単語群の各候補単語と、「個々」なる単語候補
文字列との比較が行なわれ、「個々」において一致を見
るのでこれに対し得点を与える。この照合対象単語は候
補単語として選択回路15eに出力される。
上述したと同様な操作を別表4にb,c及びdで示す各単
語候補文字列につきそれぞれ行なう。しかしながら、こ
の場合も「個々」の候補文字が唯一一致を見ることにな
り、この文字名「個」及び「々」が認識結果として出力
端子17から出力される。
語候補文字列につきそれぞれ行なう。しかしながら、こ
の場合も「個々」の候補文字が唯一一致を見ることにな
り、この文字名「個」及び「々」が認識結果として出力
端子17から出力される。
このように、「個々」という単語が単語辞書に格納され
ていない場合であっても、「個個」なる単語が格納され
ていれば、入力文字パターン「個々」を認識することが
出来る。
ていない場合であっても、「個個」なる単語が格納され
ていれば、入力文字パターン「個々」を認識することが
出来る。
尚、この発明は上述した実施例のみに限定されるもので
はなく、以下に説明するような種々の変更を加えること
が出来る。
はなく、以下に説明するような種々の変更を加えること
が出来る。
例えば、照合対象単語作成部及び単語照合部の構成につ
いては、この発明の目的の範囲内で他の構成に変更する
ことが出来る。
いては、この発明の目的の範囲内で他の構成に変更する
ことが出来る。
又、単語辞書より照合対象単語を取り出す方法は、単語
候補文字列の先頭文字名及び文字数による上述の実施例
のものの他、例えば文字列中の任意の位置の文字、品
詞、又その文字列の文章中における位置情報等による多
様な取り出し方法が考えられ、どのような取り出し方法
を用いるかについては、単語辞書の構成に応じ任意に決
めることが出来る。
候補文字列の先頭文字名及び文字数による上述の実施例
のものの他、例えば文字列中の任意の位置の文字、品
詞、又その文字列の文章中における位置情報等による多
様な取り出し方法が考えられ、どのような取り出し方法
を用いるかについては、単語辞書の構成に応じ任意に決
めることが出来る。
又、文字−繰返し符号対応テーブル及び繰返し符号テー
ブルは、一つのテーブルとして統合しても勿論良い。
ブルは、一つのテーブルとして統合しても勿論良い。
又、各テーブルに格納させる内容は、認識対象文章等に
応じ任意なものとすることが出来るし、さらに、特殊な
テーブルを作成することで特定文字の認識を禁止したり
することも可能である。
応じ任意なものとすることが出来るし、さらに、特殊な
テーブルを作成することで特定文字の認識を禁止したり
することも可能である。
(発明の効果) 上述した説明からも明らかなように、この発明の文字認
識方法によれば、認識対象文章が、繰返し符号を用いた
表記がなされた文字列例えば「個々」及び同一文字羅列
による表記がなされた文字列例えば「個個」を共に有す
るものであっても、使用する単語辞書には、一方の表記
方法で表された単語のみを登録しておくだけで、いずれ
の文字列も正確に認識出来る。従って、単語辞書の容量
の低減が図れる。
識方法によれば、認識対象文章が、繰返し符号を用いた
表記がなされた文字列例えば「個々」及び同一文字羅列
による表記がなされた文字列例えば「個個」を共に有す
るものであっても、使用する単語辞書には、一方の表記
方法で表された単語のみを登録しておくだけで、いずれ
の文字列も正確に認識出来る。従って、単語辞書の容量
の低減が図れる。
又、単語辞書に登録される単語数が減ることから、単語
候補文字列と照合する単語数が減ることになり、照合処
理時間の短縮が図れる。
候補文字列と照合する単語数が減ることになり、照合処
理時間の短縮が図れる。
これがため、文字認識装置の規模を小さく出来然も文字
認識処理の高速化を図ることが出来る文字認識方法を提
供することが出来る。
認識処理の高速化を図ることが出来る文字認識方法を提
供することが出来る。
第1図は、この発明の文字認識方法の実施に好適な文字
認識装置の一構成例を概略的に示すブロック図、 第2図(A)は、第1図に示した文字認識装置に備わる
単語照合部の一構成例を示すブロック図、 第2図(B)は、第2図(A)に示した単語照合部の動
作を示す流れ図、 第3図(A)は、第1図に示した文字認識装置に備わる
照合対象単語作成部の一構成例を示すブロック図、 第3図(B)は、第3図(A)に示した照合対象単語作
成部の動作を示す流れ図である。 10……文字認識装置、11……文字認識部 12……照合対象単語作成部 12a……メモリ部、12b……比較回路 12c……変換回路 13……文字−繰返し符号対応テーブル 14……繰返し符号テーブル 15……単語照合部、15a……メモリ部 15b……組み合せ回路、15c……文字列記憶部 15d……比較回路、15e……選択回路 16……単語辞書、17……出力端子。
認識装置の一構成例を概略的に示すブロック図、 第2図(A)は、第1図に示した文字認識装置に備わる
単語照合部の一構成例を示すブロック図、 第2図(B)は、第2図(A)に示した単語照合部の動
作を示す流れ図、 第3図(A)は、第1図に示した文字認識装置に備わる
照合対象単語作成部の一構成例を示すブロック図、 第3図(B)は、第3図(A)に示した照合対象単語作
成部の動作を示す流れ図である。 10……文字認識装置、11……文字認識部 12……照合対象単語作成部 12a……メモリ部、12b……比較回路 12c……変換回路 13……文字−繰返し符号対応テーブル 14……繰返し符号テーブル 15……単語照合部、15a……メモリ部 15b……組み合せ回路、15c……文字列記憶部 15d……比較回路、15e……選択回路 16……単語辞書、17……出力端子。
Claims (3)
- 【請求項1】任意の文字列を文字単位で認識し、かつ、
前記文字列中の文字毎の前記認識の結果得られた一又は
二以上の候補文字を組み合せて単語候補文字列を作成
し、単語辞書より照合対象単語を取り出し前記単語候補
文字列を前記照合対象単語と照合して該単語候補文字列
の候補単語を得、該候補単語に基いて前記文字列の各文
字を決定する文字認識方法において、 前記単語辞書より取り出した照合対象単語が同一文字を
連続して含む場合には前記同一文字の中の二番目以後の
文字を繰返し符号に置換して追加の照合対象候補単語を
作成し、 前記単語辞書より取り出した照合対象単語が繰返し符号
を含む場合には該繰返し符号を該繰返し符号の直前の文
字に置換して追加の照合対象単語を作成し、 これら照合対象単語及び追加の照合対象単語を用いて前
記照合を行なうことを特徴とする文字認識方法。 - 【請求項2】前記二番目以後の文字の変換される繰返し
符号の決定は、予め定めた文字−繰返し符号対応テーブ
ルを参照することで行なうことを特徴とする特許請求の
範囲第1項記載の文字認識方法。 - 【請求項3】前記照合対象単語が繰返し符号を含むか否
かの判定は、該照合対象単語の各文字を予め定めた繰返
し符号テーブル内の文字と照合させて行なうことを特徴
とする特許請求の範囲第1項記載の文字認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62324393A JPH0746374B2 (ja) | 1987-12-22 | 1987-12-22 | 文字認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62324393A JPH0746374B2 (ja) | 1987-12-22 | 1987-12-22 | 文字認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH01166188A JPH01166188A (ja) | 1989-06-30 |
| JPH0746374B2 true JPH0746374B2 (ja) | 1995-05-17 |
Family
ID=18165290
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP62324393A Expired - Lifetime JPH0746374B2 (ja) | 1987-12-22 | 1987-12-22 | 文字認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0746374B2 (ja) |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH01166186A (ja) * | 1987-12-22 | 1989-06-30 | Oki Electric Ind Co Ltd | 文字認識方法 |
-
1987
- 1987-12-22 JP JP62324393A patent/JPH0746374B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPH01166188A (ja) | 1989-06-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2726568B2 (ja) | 文字認識方法及び装置 | |
| JP3427692B2 (ja) | 文字認識方法および文字認識装置 | |
| JP3425408B2 (ja) | 文書読取装置 | |
| JPH087033A (ja) | 情報処理方法及び装置 | |
| JPH0682403B2 (ja) | 光学式文字読取装置 | |
| JPH0746374B2 (ja) | 文字認識方法 | |
| JP3253657B2 (ja) | 文書検索方法 | |
| JP2681663B2 (ja) | 日本文訂正候補文字抽出方法 | |
| JPS62165267A (ja) | 音声ワ−ドプロセツサ装置 | |
| JP2745484B2 (ja) | 手書文字認識方法および装置 | |
| JPH08272813A (ja) | ファイリング装置 | |
| JP2917310B2 (ja) | 単語照合における単語辞書検索方式 | |
| JPH01166187A (ja) | 文字認識方法 | |
| JPH0583957B2 (ja) | ||
| JPH08180064A (ja) | 文書検索方法及び文書ファイリング装置 | |
| JPH0227423A (ja) | 日本語文字データの並び換え方法 | |
| JPH0256086A (ja) | 文字認識の後処理方法 | |
| JPS63282586A (ja) | 文字認識装置 | |
| JP2827066B2 (ja) | 数字列混在文書の文字認識の後処理方法 | |
| JP2874815B2 (ja) | 日本語文字読取装置 | |
| JPS60207983A (ja) | 文字認識用辞書作成方式 | |
| JP2570784B2 (ja) | 文書リーダ後処理装置 | |
| JPS60225273A (ja) | 単語検索方式 | |
| JPS63138479A (ja) | 文字認識装置 | |
| JPH0778155A (ja) | 文書認識装置 |