JPH01134585A - 分離文字処理機能を持つ文書リーダ装置 - Google Patents

分離文字処理機能を持つ文書リーダ装置

Info

Publication number
JPH01134585A
JPH01134585A JP62292895A JP29289587A JPH01134585A JP H01134585 A JPH01134585 A JP H01134585A JP 62292895 A JP62292895 A JP 62292895A JP 29289587 A JP29289587 A JP 29289587A JP H01134585 A JPH01134585 A JP H01134585A
Authority
JP
Japan
Prior art keywords
character
characters
word
candidate
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62292895A
Other languages
English (en)
Other versions
JPH07122890B2 (ja
Inventor
Noriyasu Takao
高尾 哲康
Fumito Nishino
文人 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62292895A priority Critical patent/JPH07122890B2/ja
Publication of JPH01134585A publication Critical patent/JPH01134585A/ja
Publication of JPH07122890B2 publication Critical patent/JPH07122890B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 文書リーダ装置において3文字切出し部が正確に切り出
すことができない場合がある分離文字に対処するために
1分離文字に対する処理機能を組み込んだ分離文字処理
機能を持つ文書リーダ装置に関し。
分離文字のために生じる誤認識、悪影客をなくし、精度
よく効率的に候補文字を確定する手段を提供することを
目的とし。
分離文字を含むことがある複数の候補文字群を出力する
文字認識手段と、上記複数の候補文字群の文字の組み合
わせについて単語辞書を検索する単語照合処理手段と、
単語照合結果に基づいて文法照合を行う文法照合処理手
段と、評価値を算出する評価値算出処理手段と、評価値
の高いものを優先して探索を進める最良優先探索を行う
探索制御手段とを備えるように構成する。
〔産業上の利用分野〕
本発明は、印刷文書または手書き文書を読み取り1文字
を切り出して認識する文書リーダ装置において2文字切
出し部が正確に切り出すことができない場合がある分離
文字に対処するために1分離文字に対する処理機能を組
み込んだ分離文字処理機能を持つ文書リーダ装置に関す
る。
印刷文字または手書き文字の文書を入力する文書リーダ
装置が用いられている。例えば1日本語では9片仮名の
「口」と漢字の「口」1片仮名の「り」と漢字の「夕」
など、類似文字が多くあるので1日本語文書リーダ装置
において5文字パターンの分析だけによる文字認識では
、その精度がいくら高くなっても、認識率に限界が生じ
る。そのため1文字構成による文字認識の後に、言語的
処理が必要であり、性能のよい文字認識の後処理方式が
必要とされている。特に2文字切出し位置の候補が複数
ある分離文字について、効率のよい後処理によって、誤
認識を少なくすることが望まれる。
〔従来の技術〕
第5図は従来方式の例を示す。
文書リーダ装置は、l枡1文字の読み取り装置から、一
般の印刷文字1手書き文字を読み取る装置へと改良が進
んでいる。第5図に示す装置は。
その従来の文書リーダ装置の例である。第5図において
、10は文書リーダ装置、12は文字認識部、13は後
処理部を表す。
文字認識部12では、スキャナで読み取った2値画像情
報を解析し、まず2文字ブロックの切出しを代う。次に
1行切出しを行い1文字車位の文字切出しを行う。そし
て、切出した各文字について特徴を抽出し、標準パター
ンの特徴との照合により3文字認識を行う。この文字認
識結果は、標準パターンとの距離に応じて、1位候補、
2位候補、・・・というように順位を付けて、後処理部
13に通知する。
後処理部13では1文字認識結果である一連の文字列を
1例えば文節で区切ることにより、i語辞書との照合範
囲を決定する。この文節を認定する場合3例えば平板名
から漢字または片仮名というような文字種の変化点およ
び句読点で1文節の区切りをつけるようにしている。そ
して、照合範囲を決定したうえで、単語辞書との照合を
行い。
さらに文法的な接続可否の照合を行うことによって、最
良の認識結果を選択する。
しかし、このような方式では9例えば「は虫類」、「ま
新しい」というように、“平板名士漢字”の単語等では
、R初の文節を認定するところでうまくいかない場合が
あった。
また1例えば「は」、「引」、「価」、「衛」。
「岩」等の分離文字、すなわち1文字の間に上下または
左右方向の切れ目を含んでいる文字が存在すると3文字
認識部12における文字切出しにおいて5文字の切出し
が一意に定まらなくなり、誤った文字切出しにより、後
処理部13においても。
誤った候補の選択を行うことがあった。
例えば横古き文章で、「は」を2文字とみて。
「(ま」というように、左括弧「(」と平板名「ま」の
2文字として切り出すこともある。さらに、もともと分
離文字ではなくても1手書きの際のかすれや印刷不良、
コピー不良のために1文字の線に切れ目が生じた場合に
も9文字切出し位置が複数になることがある。
このような文字の切出しを正しく行う方式として、村瀬
氏、新谷氏、若原氏、小高氏が、「電子通信学会論文誌
’86/9 Vol、J69− D N19 Jに発表
した論文「言語情報を利用した手書き文字列からの文字
切り出しと認識」に示される方式がある。ここでは、入
力文字列をセグメントに分割し、このセグメントの組み
合わせをブランチとする候補文字ラティスで文字列を記
述し、動的計画法を利用することにより1分離文字を正
しく認識する手法が提案されている。
〔発明が解決しようとする問題点〕
従来の一般的に用いられている方式によれば。
文字切出し位置が複数ある場合1文字のサイズなどを考
慮することにより、1つの位置に決めるようにされてい
た。従って9文字サイズが固定していない場合には、切
出しに誤りが生じることがあった。また、後処理部では
3文節の区切りなどにより照合範囲を決定したうえで、
言語的評価を行うようにしていた。従って、照合範囲の
決定に誤りがある場合には、正しい評価ができないとい
う問題があった。
本発明は上記問題点の解決を図り1分離文字のために生
じる誤認識、悪影響をなくシ2文字認識率を高める手段
を提供することを目的とし、特に。
人工知能等で用いられる最良優先探索手法を文字認識の
後処理に応用することにより3分離文字と通常文字に対
する処理を統一的に扱い、精度よく効率的に候補文字を
確定することを目的としている。
〔問題点を解決するための手段〕
第1図は本発明の原理説明図である。
第1図において、10は日本語文書等の文書リーダ装置
、11は文書のパターンを2値画像情報として読み取る
スキャナ、12はパターンの特徴を抽出して照合するこ
とにより文字認識を行う文字認識部、13は文字候補の
中から正しい文字を選出する後処理部、14は最良優先
探索による探索制御を行う探索制御部、15は単語検索
を行う単語照合処理部、16は接続検査等の文法照合を
行う文法照合処理部、17は候補についての評価値を計
算する評価値算出処理部、18は文字認識部12の出力
である複数の候補文字群を記憶する候補文字表、19は
各単語およびその品詞等の種別情叩が登録された単語辞
さ、20は隣接規則などの文法情報が登録された文法辞
書、Nl−N6は探索木におけるノードを表す。
文字認識部12は、パターンの解析のみでは。
例えば片仮名の「口」と漢字の「口」というように、1
つの候補に絞れない場合がある。このような場合2文字
認識部12は、複数の文字候補を。
それらの認識における各評価値と共に、後処理部13に
通知する。また1例えば「価」などの分離文字について
も、「価」および「イ+西」というように異なる文字の
切出し方に応じて、複数の文字候補を、候補文字表18
に設定して通知する。
文字認識部12による文字認識方式は1例えば多元圧縮
法など種々の方式が知られているが、どのような方式を
採用してもよい。
後処理部13は2文字認識部12から各文字に対する候
補文字と、それぞれの文字に対する評価値を入力として
受は取ると1人工知能の分野等で用いられている最良優
先探索手法を利用することにより、候補文字群の列から
言語的に正しい文字列の並びを決定する。
探索制御部14は、探索空間における初期状態のノード
を出発点として、各ノードの評価値の高いものを優先し
て探索を進める制御手段である。
初期状態は5次に処理すべき文字の位置が文頭であると
いうことを示す状態である。
単語照合処理部15は、候補文字表18における複数の
候補文字群に関する現在確定位置以降の文字を組み合わ
せてできる単語のうち、所定の単語辞書に登録されてい
る単語を選出する。
文法照合処理部16は、単語照合結果により。
現在まで確定した文字列の後に接続可能な単語を抽出し
、探索候補とする。すなわち、接続可能な単語を探索の
対象とする探索木のノードを生成する。評価値算出処理
部17は、生成されたノードについて文字候補の評価値
および言語的評価値から各ノードの評価値を計算する処
理を行うものである。
探索制御部14は、最良優先探索により、評価値算出処
理部17が行った評価値計算結果に蟇づいて、最も評価
値の高いノードに該当する単語を確定させ、探索を進め
る。
(作用〕 例えば第1図(ロ)図示のように、「働」というような
分離文字が入力文章中にあったとする。
この文字は9図に示すように、a、b、cの3個の部分
に分離される。
文字認識部12は2文字の切れ目によって、第1図(ハ
)に示すように、abcを1文字とした候補、abを1
文字とし、Cを1文字とした候補。
aを1文字とし、bcを1文字とした候補、a。
b、  cのそれぞれを1文字とした候補の情報を持つ
候補文字表18を作成する。なお、説明を簡単化するた
めに、第1位候補だけを扱う場合について説明する。
今、このabcの前までの文字列αが確定しており、第
1図(ニ)に示すノードN1の状態であったとする。単
語照合処理部15は1文字列αに続く候補文字表18の
候補文字の組み合わせの中で、単語辞書19に登録され
ているものを検索する。さらに9文法前合処理部16は
、検索された単語の中で1文法的に文字列αに接続可能
な単語。
例えばrabc+dJ、rab+cJ、ra+bc+d
jを選び、それぞれノードN2.N3.N4とする。
評価値算出処理部17は、これらの各ノードについて1
文字認識の評価値、単語の出現頻度等による個別の評価
値および隣接規則による評価値などに基づいて、総合的
な評価値■を算出する。ここでは、ノードN2の評価値
が40.ノードN3の評価値が55.ノードN4の評価
値が20と計算されている。
探索制御部14は、これらのノードの中で、最も評価値
が高いノードN3の単語rab+cJを一応確定させ2
句読点等による文の区切りまたは文章の終わりまで、同
様に探索を進める。
この最良優先探索(besL4irst 5earch
)を利用した探索のプロシジャは、以下のとおりである
計重9世μ」工探索 ■ 初期状態を候補リス) (openlist)に入
れる。
■ ハ叩 ■  if  openlist””空リスト the
n exit(fail)■   n’ ”pop(o
penlist)(openlistの先頭要素(最も
評価値の高いノード)をnに代入し、 openlis
tからは、その要素を取り除く)■   ■ 終了(n
) then  exit(success)■   
nを展開し、すべての子ノードを生成し。
その各々からnへ向かうポインタを付けて。
opdnlistに加え+ openlistを評価値
の高い順にソートする。
■ 勉止諌匹− 上記処理■は、それまでに生成したノードのリスト(o
penlist)のうちで最も有望そうなものを選ぶ処
理である。処理■で、もし取り出した要素が1文章の終
わりまたは句読点を認識したならば。
処理を終了する0句読点を認識しても、まだ文章の終了
位置まで達していないならば、その句読点の終了位置の
次の文字から、再び探索を始める。
すなわち5句読点の認識をもつて探索のカットを行う。
これは句読点の認識に関する精度の高さを仮定してのこ
とである。
処理■では、そのノードの次の文字候補を選び。
その文字候補で始まって候補となり得る単語(文字認識
結果の候補の組み合わせで作られ、前の単語に接続可能
なもの)を抽出し、新しいノードを作る。そして、評価
値を計算する。■から■へ戻るループにより、それまで
に生成されたノードのうち最も有望そうなノードを選び
出し、この過程を続行する。
以上のように最良優先探索により1分離文字と通常文字
とを統一的に扱い、その中で最も有望な意味のある文字
を認識結果として出力することができるようになる。候
補単語の抽出は1文頭から文末に向かって行われるため
、探索空間は木構造をなし、無限ループにおちいること
はない。
〔実施例〕
第2図は本発明の一実施例を説明するための候補文字群
の例、第3図は本発明の一実施例処理説明図、第4図は
本発明の一実施例による単語確定過程の例を示す。
例えば入力文章が「価格対性能比・・・」であったとす
る0文字認識部12では1文字の切出し位置を固定化す
ることなく、第2図(イ)図示のように、「価」を候補
とすると共に、riJ+r西」を候補に含むようにする
。そして、各候補文字ごとに、値が小さいほど正解に近
いと判断される距離値を付加して、後処理部13に通知
する。この通知では2例えば第2図(ロ)に示すように
、距離値の大小に応じて、1位候補から0位候補(nは
任意の数値)までを候補文字表18としたものを用いる
。なお、ここではnを4としている。
すなわち5文字認識部12が後処理部13に通知する情
報は。
(al  距離値つきの候補文字群。
世)文字切出し位置を示す番号(文字開始要素番号)。
tel  分離文字の場合に文字切出しのやり直しによ
°って統合された文字数(統合要素数)である。
探索ルートは、第1位候補をみると、「価」および分離
されたriJ+r西」の2系統あり。
「価」を含むルートでは、「価」の次に「格」が続く。
この後続文字の候補文字表18における位置は5文字開
始要素番号の“1”と統合要素数の“2”とを加えるこ
とにより求められ、この加算結果により、「価」の次に
は、“3”の文字開始要素番号を持つ「格」が続くこと
が求められる。
「i」を含むルートにおける後続文字の求め方も同様で
ある。
第2図(ハ)、(ニ)は、低品質文字の例を示している
6例えば入力文章が「使われていた」であり、ここで「
れ」の中央部がかすれていたために分離文字として処理
され、「れ」の左側が「オ」に、右側が「シ」に、いず
れも第1位候補として挙げられている。候補文字表18
は、第2図(ニ)図示のように作成される。探索ルート
は。
第2図(ロ)の場合と同様に決定される。
第3図は1本発明の一実施例に係る後処理部における処
理の例である。以下の説明における■〜■は、第3図に
示す処理Φ〜■に対応する。
■ 初期状態を候補リストに入れる。この初期状態は3
次に処理すべき文字位置が1で8文頭を示す記号だけを
確定単語リストとする状態であ■ 候補リスト中に状態
空間の要素があるかどうかを調べる。候補リスト中に要
素がない場合。
探索失敗とする。
■ 候補リストの先頭要素(一番評価の高い1つの状態
空間)を取り出す。
■ 取り出した要素が9句読点などの区切り記号である
かどうかを調べる。区切り記号である場合、探索成功と
して、それまでの確定単語リストの結果を、後処理によ
る候補選択結果とする。
■ 区切り記号でない場合、取り出した先頭要素で指定
される文字位置にある候補文字集合の各候補文字から始
まる単語を検索する。
■ 検索された単語と候補文字集合列とを突き合わせて
、候補文字集合列中の文字だけで構成される単語以外の
ものをふるい落とす、ここで。
候補文字表の中の文字を組み合わせて単語候補を作ると
きに、統合要素数が2以上(分離文字であることを示す
)のものについては、後続文字を決めるにあたって、統
合要素数の分だけスキップする。
■ 確定単語リストに言語的に接続不可能なものをふる
い落とす。
■ 残った単語のそれぞれに対して、状態空間(次に処
理すべき文字位置と確定単語リストの対)を作成し、評
価値を計算する。
■ 候補リストに新しい状態空間を追加し、候補リスト
が状態空間の評価の高いものから順になるようにソート
する。
以下、処理■へ制御を戻し、同様に処理を繰り返す。
以上の処理により1例えば第2図(ロ)に示す候補文字
表から作られる単語候補のうち、単語辞書にあるものだ
けで作られる探索木は9例えば第4図に示す探索木のよ
うになる。
第4図において、下線を付けた単語が正解として、後処
理部13によりP!熾された候補である。
候補文字表における「肪」、「栢」、「捲」。
「椅」、・・・の1文字単語は、単語辞書にないため。
除去されている。また、第4図において、×を付けた単
語は、隣接規則によって棄却された単語である。最終的
に「価格対性能比」の認識結果が得られている。
〔発明の効果〕
以上説明したように1本発明によれば8分離文字や低品
質文字のために1文字切出し位置が複数ある場合にも、
意味のあるものが後処理で選択され1分離文字等のため
に生じる誤認識、悪影響をなくシ8文字認識率を高める
ことができるようになる。特に、最良優先探索手法を用
いているので。
分離文字と通常文字に対する処理を統一的に扱い。
精度よく効率的に候補文字を確定することが可能になる
【図面の簡単な説明】
第1図は本発明の原理説明図。 第2図は本発明の一実施例を説明するための候補文字群
の例。 第3図は本発明の一実施例処理説明図。 第4図は本発明の一実施例による単語確定過程の例。 第5図は従来方式の例を示す。 図中、10は文δリーダ装置、11はスキャナ。 12は文字認識部、13は後処理部、14は探索制御部
、15は単語照合処理部、16は文法照合処理部、17
は評価値算出処理部、18は候補文字表、19は単語辞
書、20は文法辞書を表す。

Claims (1)

  1. 【特許請求の範囲】 印刷文書または手書き文書を読み取り、文字を切り出し
    て認識する文書リーダ装置において、文字形状の特徴に
    より、分離文字およびその部分の組み合わせを含むこと
    がある複数の候補文字群を出力する文字認識手段(12
    )と、 上記複数の候補文字群に関する現在確定位置以降の文字
    を組み合わせてできる単語のうち、所定の単語辞書に登
    録されている単語を選出する単語照合処理手段(15)
    と、 単語照合結果により、現在まで確定した文字列の後に接
    続可能な単語を抽出し、探索候補とする文法照合処理手
    段(16)と、 上記探索候補のそれぞれについて評価値を算出する評価
    値算出処理手段(17)と、 評価値の高いものを優先して探索を進める最良優先探索
    を行う探索制御手段(14)とを備えたことを特徴とす
    る分離文字処理機能を持つ文書リーダ装置。
JP62292895A 1987-11-19 1987-11-19 分離文字処理機能を持つ文書リーダ装置 Expired - Lifetime JPH07122890B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62292895A JPH07122890B2 (ja) 1987-11-19 1987-11-19 分離文字処理機能を持つ文書リーダ装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62292895A JPH07122890B2 (ja) 1987-11-19 1987-11-19 分離文字処理機能を持つ文書リーダ装置

Publications (2)

Publication Number Publication Date
JPH01134585A true JPH01134585A (ja) 1989-05-26
JPH07122890B2 JPH07122890B2 (ja) 1995-12-25

Family

ID=17787772

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62292895A Expired - Lifetime JPH07122890B2 (ja) 1987-11-19 1987-11-19 分離文字処理機能を持つ文書リーダ装置

Country Status (1)

Country Link
JP (1) JPH07122890B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04296989A (ja) * 1990-02-02 1992-10-21 Internatl Business Mach Corp <Ibm> 文字認識方法及び装置
JPH0896085A (ja) * 1994-09-22 1996-04-12 Ibm Japan Ltd 文字認識文字補完方法及びコンピュータ・システム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6195481A (ja) * 1984-10-17 1986-05-14 Hitachi Ltd パタ−ン切り出し及び認識方法
JPS62251986A (ja) * 1986-04-25 1987-11-02 Nippon Telegr & Teleph Corp <Ntt> 誤読文字訂正処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6195481A (ja) * 1984-10-17 1986-05-14 Hitachi Ltd パタ−ン切り出し及び認識方法
JPS62251986A (ja) * 1986-04-25 1987-11-02 Nippon Telegr & Teleph Corp <Ntt> 誤読文字訂正処理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04296989A (ja) * 1990-02-02 1992-10-21 Internatl Business Mach Corp <Ibm> 文字認識方法及び装置
JPH0896085A (ja) * 1994-09-22 1996-04-12 Ibm Japan Ltd 文字認識文字補完方法及びコンピュータ・システム
US5835635A (en) * 1994-09-22 1998-11-10 Interntional Business Machines Corporation Method for the recognition and completion of characters in handwriting, and computer system

Also Published As

Publication number Publication date
JPH07122890B2 (ja) 1995-12-25

Similar Documents

Publication Publication Date Title
CN113435186B (zh) 中文文本纠错系统、方法、装置及计算机可读存储介质
JP3427692B2 (ja) 文字認識方法および文字認識装置
Kissos et al. OCR error correction using character correction and feature-based word classification
JP2726568B2 (ja) 文字認識方法及び装置
CN106649597B (zh) 一种基于图书内容的图书书后索引自动构建方法
KR102149701B1 (ko) 텍스트 데이터에서 의미상 대응하는 자연어-sql의 매핑 방법
JPH02299068A (ja) 入力文字列からワードを分離する方法
JPH0684006A (ja) オンライン手書き文字認識方法
Volk et al. Strategies for reducing and correcting OCR errors
Wells et al. Fast dictionary look-up for contextual word recognition
US20110106814A1 (en) Search device, search index creating device, and search system
Li et al. Dimsim: An accurate chinese phonetic similarity algorithm based on learned high dimensional encoding
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
JP6186198B2 (ja) 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム
Lehal et al. A shape based post processor for Gurmukhi OCR
Nejja et al. The context in automatic spell correction
UzZaman et al. A comprehensive bangla spelling checker
JPH08106474A (ja) 類似例文検索結果表示方法及び装置
JPH01134585A (ja) 分離文字処理機能を持つ文書リーダ装置
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
Helmy et al. Towards building a standard dataset for arabic keyphrase extraction evaluation
CN113330430A (zh) 语句结构向量化装置、语句结构向量化方法及语句结构向量化程序
Ishraq et al. Towards developing uniform lexicon based sorting algorithm for three prominent indo-aryan languages
Mon Spell checker for Myanmar language