JPH0210472B2 - - Google Patents

Info

Publication number
JPH0210472B2
JPH0210472B2 JP57222489A JP22248982A JPH0210472B2 JP H0210472 B2 JPH0210472 B2 JP H0210472B2 JP 57222489 A JP57222489 A JP 57222489A JP 22248982 A JP22248982 A JP 22248982A JP H0210472 B2 JPH0210472 B2 JP H0210472B2
Authority
JP
Japan
Prior art keywords
character
pattern
patterns
black
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57222489A
Other languages
English (en)
Other versions
JPS59112367A (ja
Inventor
Sueji Myahara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP57222489A priority Critical patent/JPS59112367A/ja
Publication of JPS59112367A publication Critical patent/JPS59112367A/ja
Publication of JPH0210472B2 publication Critical patent/JPH0210472B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 本発明は文字読取方式、特に文字ピツチが一定
でない文書の文字を精度よくかつ高速に読取るこ
とのできる文字読取方式に関するものである。
従来の文字読取装置では第1図に示すように走
査・光電変換した帳票上の文字パターンを信号入
力端子1を介してパターンメモリ2に一旦格納
し、該パターンメモリ2上の文字行に対し文字切
出し部3により文字列の先頭から予め定められた
一定間隔で一文字ずつ切出し、その文字パターン
を識別部4へ転送してそれが何という文字である
かを判定し、更にその識別結果を出力端子5より
出力するようになしていた。このため帳票上の文
字ピツチが一定でないとまつたく読取れないとい
う欠点があつた。
また上記文字読取装置の文字切出し部3に補助
識別部6を設け、幅の狭いパターンのみを該補助
識別部6にて一文字であるかあるいは文字の一部
であるかを判定し、一文字のパターンと判定され
た場合には該幅の狭いパターンを一文字とみなし
て文字切出しを行ない、また文字の一部と判定さ
れれば次のパターンに加えて文字切出しを行なう
ようにして文字ピツチが一定でない帳票より文字
を読取れるようにしたものは既に提案されてい
る。
しかしながら上記装置では幅の狭いパターンが
他の文字パターンと同様なパターンを成す(例え
ば横書きの帳票において漢字「化」のようにその
偏「〓」がカタカナの「イ」と同じ字形を成すよ
うな)場合や、文字に切れが生じて一文字が多く
のパターンに分かれたり、連続して書かれた2以
上の文字が一文字として判定される場合等におい
て十分な切出し精度を得ることが困難であつた。
また補助識別部6が動作する場合は、その判定結
果が出されるまで文字切出し部3の動作が停止す
るため読取速度が遅くなるという欠点があつた。
また、この読取速度の低下は補助識別部6で対処
しなければならないパターンが増える程、顕著に
なる欠点があつた。
本発明は上記従来の欠点を除去するため、帳票
上の文字行において予め定められた一定区間内に
複数のパターンが存在する場合は該パターンを順
次組合せて文字切出しを行ない、それらをすべて
文字識別し、その結果から、より文字らしいもの
を選択するようになしたもので、その目的とする
ところは文字ピツチの一定でない帳票等の文書の
文字を精度をよくかつ高速に読取ることのできる
文字読取方式を提供することにある。以下図面に
ついて詳細に説明する。
第3図乃至第8図は本発明の一実施例を示すも
ので、図中、11は入力端子、12はパターンメ
モリ、13は文字切出し部、14は識別部、15
は文字決定部、16は出力端子である。
これを動作するには、まず帳票上の文字を光電
変換装置(図示せず)によりパターンデータに変
換し、これを入力端子11を介してパターンメモ
リ12に一旦蓄える。文字切出し部13は該パタ
ーンメモリ12より第4図に示すような一行分の
文字を含む行パターン20を切出し、これを行方
向(図中、矢印X方向)に走査していき列方向
(図中、矢印Y方向)にパターンの存在する部分
を黒(2進符号では「1」)、存在しない部分を白
(2進符号では「0」)で表示したデータ(以下、
これを黒列データと称す。)30を取り出す。更
に該文字切出し部12は黒列データ30に基づい
て後述する処理を実行し行パターン20より個別
パターン21を切出し、個々の個別パターン21
とその切出しに関する情報とを一対の個別データ
として識別部14に順次送出する。識別部14は
上記個別データのうち個別パターン21のみを順
次文字識別し、その識別結果(例えば文字コー
ド)と上記切出しに関する情報とを一対のデータ
として文字決定部15に順次送出する。文字決定
部15は該データに後述する処理を施こし正しい
文字の識別結果のみを出力端子16より順次出力
する。
文字切出し部13における個別パターン21の
切出しは、黒列データ30の先頭を開始点(以
下、基準位置と称す。)として予め設定された一
定区間α内に存在する黒の部分の集合(以下、こ
れを黒列の塊りと称す。)の個数を調べ、一個の
場合はその区間を一文字の個別パターンとみな
し、複数個存在する場合は連続する黒列の塊りを
順次一個ずつ増して組合わせた複数個のパターン
をそれぞれ一文字の個別パターンとみなすととも
に該複数個の黒列の塊りのうち先頭の塊りを除い
た位置を次の一定区間αの基準位置とする如くな
つている。次に第5図に示すフローチヤートに従
つて詳細に説明するが、図中DNOは一定区間α
内の黒列の塊り数Nを検出するための動作が何回
繰返し生じたかを表わす動作番号、またPNOは
黒列の塊りの組合わせによる個別パターン(以
下、これを組合わせパターンと称す。)を作成す
る際のパターンの順番を示すパターン番号であ
り、該動作番号DNOとパターン番号PNOは切出
しに関する情報を構成する。
まず、黒列データ30の先頭すなわち文字切出
しの開始位置から一定区間α内に存在する黒列の
塊りの数Nを計数し、N=0のときはその区間が
スペースであればDNO=1、PNO=1を付与し
てスペースパターンを識別部14へ送出し、区間
が全て黒列の塊りであれば次の黒列の塊りの終了
の位置を検出し、その区間を接触文字とみなして
強制分離を行ない、それぞれの個別パターンに
DNO=1、PNO=1を付与して識別部14へ送
出する。またN=1のときはその区間が一文字の
個別パターンであるとみなしてその個別パターン
にDNO=1、PNO=1を付与して識別部14へ
送出する。
更にN>1のときは黒列の塊りの出現順序を変
えることなく先頭から現われる黒列の塊りを順次
組合わせ、N個の組合せパターンを作成し動作番
号DNOと1からNまでのパターン番号PNOを付
与して識別部14へ送出する。例えばN=3のと
き、黒列の塊りをa,b,cとすると、最初の処
理ではDNO=1でPNO=1のパターン「a」、
DNO=1でPNO=2のパターン「ab」、DNO=
1でPNO=3のパターン「abc」の3個の切出し
に関する情報付きの組合わせパターンを識別部1
4へ送出する。次に先頭の黒列の塊り「a」を除
きDNO=2として処理を繰返し、DNO=2で
PNO=1のパターン「b」、DNO=2でPNO=
2のパターン「bc」を識別部14へ送出し、更
に先頭の黒列の塊り「b」を除きDNO=3とし
て処理を繰返し、DNO=3でPNO=1のパター
ン「c」を識別部14へ送出する如くなつてい
る。
文字決定部15では切出しに関する情報より一
定区間α内のパターンが一文字の個別パターンと
みなされている場合にはその識別結果をそのまま
出力し、複数個のパターンとみなされている場合
にはその複数個の組合わせパターンの各々の識別
結果の中からジエクトを除いて該組合わせパター
ンの内でパターン幅が最も長いものを正しい識別
結果として出力するとともに該区間内の黒列の塊
りをそのパターン内に含む後続の識別結果を排除
する如くなつている。第6図は文字決定部15で
の処理の詳細を示すフローチヤートで、切出しパ
ターンに関する情報すなわち動作番号DNOとパ
ターン番号PNOから読取結果として出力するた
めの対象区間の組合わせパターンであるか否かを
判定して識別結果をバツフアに格納し格納したバ
ツフアの中から最長の組合わせパターンで識別で
きたものを読取結果として出力する。
次に第4図の行パターン20を例にとつて文字
切出しと文字決定の過程を説明する。行パターン
20のうちのパターン「ベ」、「ク」、「ト」につい
てはその黒列データ30中の一定区間α内におけ
る黒列の塊り数が一個であるから、それぞれ一文
字毎の個別パターン21として切出され、その識
別結果がそのまま出力端子16に送出される。次
のパターン「ル」を含む一定区間α(ここでは対
象区間と称す。)には黒列の塊りが2個存在す
るため、文字切出し部13は該2個のパターンを
順次組合わせた個別パターン「ノ」及び「ル」と
その切出しに関する情報を識別部14に送出する
とともに、該対象区間における黒列の塊りのう
ちの先頭の塊り「ノ」を除いた位置を次の対象区
間の基準位置として設定する。ここでは該対象
区間においても2個の黒列の塊りが検出され上
記同様に組合わせパターンとその切出しに関する
情報が送出され、以下対象区間,においても
同様となる。識別部14では対象区間のパター
ン「ノ」に対して『ノ』や『1』などの文字を識
別結果として出力し、パターン「ル」に対して
『ル』の文字を出力する。文字決定部15ではパ
ターン幅が最も大きくて識別結果の確度が高いも
の、対象区間では『ル』を読取結果として出力
し、同時にパターン「レ」を含む対象区間の識
別結果を排除し、対象区間の識別結果から次の
文字決定を行なう。該対象区間の識別結果から
は『化』の文字が読取結果として出力され、次の
区間は排除される。以下のパターン「を」、
「進」等については上記同様に一文字として読取
られる。第7図は上記説明した第4図の行パター
ンの切出し、識別、文字決定処理の実行のようす
を示したもので、また第8図はその処理の流れを
示したものである。
このように上記実施例によれば、一定区間α内
の黒列の塊り数に基づいて一文字のパターンか、
そうでないかを区別するようになしたため、一文
字として切出す区間と複数の組合わせパターンを
構成すべき区間とを確実に区別することができ、
また複数個の黒列の塊りが一定区間α内に存在し
た場合は先頭の塊りを除いた位置を次の区間の基
準位置となしたため、考え得る全ての組合わせパ
ターンを取出すことができ、読取精度を上げるこ
とができる。また文字切出し部では黒列の塊り数
に従つて機械的にパターンを切出すのみでよいか
ら従来例の如く補助識別部の識別結果を待つ必要
がなく、この処理全体をパイプライン構成とする
こともでき、処理の高速化がはかれる。
以上説明したように本発明によれば、帳票上の
文章を走査光電変換し得られた文字行のパターン
から一文字ずつ切出して文字認識を行なう文字読
取方式において、文字行上の予め定められた一定
区間内に存在する黒列の塊りの個数を調べ、一個
の場合はその区間を一文字のパターンとみなして
切出し、複数個の場合は該黒列の塊りを順次適宜
に組合わせた複数の組合わせパターンをそれぞれ
一文字のパターンとみなして切出し、該切出した
パターンとその切出しに関する情報を出力する切
出し工程と、該切出したパターンの識別結果とそ
の切出しに関する情報とより一文字のパターンと
みなされている場合はその識別結果をそのまま出
力し、複数個のパターンとみなされている場合は
その複数の組合わせパターンの各々の識別結果の
中から最もパターン幅の長い組合わせパターンに
対応する識別結果を出力する文字決定工程とを有
するため、分離文字や切れが生じた文字を含み文
字ピツチが一定でない文書からの文字切出しを複
雑な識別や判定を必要とすることなく一義的に行
なうことができ処理の高速化がはかれるととも
に、文字の一部が他の文字と同様な場合であつて
も正しく読取ることができ、また複数個の黒列の
塊りが一定区間内に存在する場合に連続する黒列
の塊りを順次一個ずつ増して組合わせたパターン
をそれぞれ一文字のパターンとみなして切出しす
とともに該複数個の黒列の塊りのうち先頭の塊り
を除いた位置を次の一定区間の基準位置となした
ものでは考え得る全ての組合わせパターンを取出
すことができ読取精度を上げることができ、従つ
て読取対象を拡大できる等の利点がある。
【図面の簡単な説明】
図面は本発明の説明に供するもので、第1図は
従来の文字読取装置を示すブロツク図、第2図は
従来の他の文字読取装置を示すブロツク図、第3
図は本発明方式を適用した文字読取装置の一実施
例を示すブロツク図、第4図は行パターン及びそ
の黒列データの一例を示す説明図、第5図は文字
切出部13のフローチヤート、第6図は文字決定
部15のフローチヤート、第7図は第4図の行パ
ターンに対する切出し、識別、文字決定処理の実
行のようすを示す説明図、第8図は第7図の処理
の流れを示す説明図である。 11…入力端子、12…パターンメモリ、13
…文字切出し部、14…識別部、15…文字決定
部、16…出力端子。

Claims (1)

  1. 【特許請求の範囲】 1 帳票上の文章を走査光電変換し得られた文字
    行のパターンから一文字ずつ切出して文字認識を
    行なう文字読取方式において、文字行上の予め定
    められた一定区間内に存在する黒列の塊りの個数
    を調べ、一個の場合はその区間を一文字のパター
    ンとみなして切出し、複数個の場合は該黒列の塊
    りを順次適宜に組合わせた複数の組合わせパター
    ンをそれぞれ一文字のパターンとみなして切出
    し、該切出したパターンとその切出しに関する情
    報を出力する切出し工程と、該切出したパターン
    の識別結果とその切出しに関する情報とより一文
    字のパターンとみなされている場合はその識別結
    果をそのまま出力し、複数個のパターンとみなさ
    れている場合はその複数の組合わせパターンの
    各々の識別結果の中から最もパターン幅の長い組
    合わせパターンに対応する識別結果を出力する文
    字決定工程とを有することを特徴とする文字読取
    方式。 2 帳票上の文章を走査光電変換し得られた文字
    行のパターンから一文字ずつ切出して文字認識を
    行なう文字読取方式において、文字行上の予め定
    められた一定区間内に存在する黒列の塊りの個数
    を調べ、一個の場合はその区間を一文字のパター
    ンとみなして切出し、複数個の場合は連続する黒
    列の塊りを順次一個ずつ増して組合わせたパター
    ンをそれぞれ一文字のパターンとみなして切出す
    とともに該複数個の黒列の塊りのうち先頭の塊り
    を除いた位置を次の一定区間の基準位置とし、該
    切出したパターンとその切出しに関する情報を出
    力する切出し工程と、該切出したパターンの識別
    結果とその切出しに関する情報とより一文字のパ
    ターンとみなされている場合はその識別結果をそ
    のまま出力し、複数個のパターンとみなされてい
    る場合はその複数の組合わせパターンの各々の識
    別結果の中から最もパターン幅の長い組合わせパ
    ターンに対応する識別結果を出力する文字決定工
    程とを有することを特徴とする文字読取方式。
JP57222489A 1982-12-18 1982-12-18 文字読取方式 Granted JPS59112367A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57222489A JPS59112367A (ja) 1982-12-18 1982-12-18 文字読取方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57222489A JPS59112367A (ja) 1982-12-18 1982-12-18 文字読取方式

Publications (2)

Publication Number Publication Date
JPS59112367A JPS59112367A (ja) 1984-06-28
JPH0210472B2 true JPH0210472B2 (ja) 1990-03-08

Family

ID=16783225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57222489A Granted JPS59112367A (ja) 1982-12-18 1982-12-18 文字読取方式

Country Status (1)

Country Link
JP (1) JPS59112367A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2550012B2 (ja) * 1984-10-17 1996-10-30 株式会社日立製作所 パタ−ン切り出し及び認識方法
JPS63223890A (ja) * 1987-03-12 1988-09-19 Toshiba Corp 図面読取装置
JPH01303586A (ja) * 1988-05-31 1989-12-07 Ricoh Co Ltd 文字切り出し方法
JP5942361B2 (ja) * 2011-08-29 2016-06-29 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Also Published As

Publication number Publication date
JPS59112367A (ja) 1984-06-28

Similar Documents

Publication Publication Date Title
EP0621542B1 (en) Method and apparatus for automatic language determination of a script-type document
JPS5827551B2 (ja) オンライン手書き文字認識方式
EP0036150B1 (en) Pattern recognition system operating by the multiple similarity method
JPS63182793A (ja) 文字切り出し方式
JPS60153574A (ja) 文字読取方法
JPH0210472B2 (ja)
JPH0520794B2 (ja)
JPH0614373B2 (ja) 文字読取方法
JP2794042B2 (ja) 表形式文書の認識装置
KR930012142B1 (ko) 문서인식장치의 개별문자 절출방법
JP2895115B2 (ja) 文字切出し方法
JP2503259B2 (ja) 全角,半角文字の決定方法
KR950004219B1 (ko) 조합형 폰트의 저장 영역 개선방법 및 장치
JPS63316288A (ja) 文字認識装置
JPH0514952B2 (ja)
JP2578767B2 (ja) 画像処理方法
JP2982075B2 (ja) 文字切出し方法
JPH0259504B2 (ja)
JPS6343788B2 (ja)
JPH0658694B2 (ja) 文字認識装置
JP2570311B2 (ja) 文字列認識装置
KR19990052967A (ko) 윈도우 및 프로젝션 정보를 이용한 한글 인식방법
JPH0769938B2 (ja) 文字読取装置
JPH06162263A (ja) 文字認識装置及び方法
JPS6327991A (ja) 入力情報認識装置用ヒストグラム作成方法