JPH01241684A - 文書読取り装置 - Google Patents

文書読取り装置

Info

Publication number
JPH01241684A
JPH01241684A JP63068172A JP6817288A JPH01241684A JP H01241684 A JPH01241684 A JP H01241684A JP 63068172 A JP63068172 A JP 63068172A JP 6817288 A JP6817288 A JP 6817288A JP H01241684 A JPH01241684 A JP H01241684A
Authority
JP
Japan
Prior art keywords
character
character line
area
recognition
character raw
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63068172A
Other languages
English (en)
Other versions
JP2746904B2 (ja
Inventor
Shuichi Tsujimoto
辻本 修一
Shunji Ariyoshi
俊二 有吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP63068172A priority Critical patent/JP2746904B2/ja
Publication of JPH01241684A publication Critical patent/JPH01241684A/ja
Application granted granted Critical
Publication of JP2746904B2 publication Critical patent/JP2746904B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的コ (産業上の利用分野) 本発明は、入力文書に記載された文字行を抽出してこれ
を順次認識する文書読取り装置に関する。
(従来の技術) 近年、手書き文字、印刷文字等の認識技術の進歩に伴っ
て、各種の文書に記述された文字行を読取り、その意味
解析を行なう装置の開発が進められている。この種の装
置では、様々なフォーマットで記述された文書から意味
のある文字列の並びとしての文字行を正確に抽出し、こ
の抽出された文字行を順次認識処理していく。また、通
常、この種の文字行の認識処理では、単純な文字認識の
みならず前後の接続可能性の検討や単語としての成立性
等を加味した認識処理行なうことが多いため、認識処理
に比較的多くの時間を必要とし、文書1枚当りの認識結
果を得るまでのがなりの待ち時間がかかる。このため、
使用者は認識処理が!またして正常に進んでいるどぅが
を多くの時間を経た後でないと知ることができなかった
一方、認識処理の結果を逐次的に表示してぃく装置も提
案されているが、このような逐次的な表示によっても現
在の認識処理が入力文書のどの位置まで進んでいるかと
いうことは知ることができなかった。このため、何等か
のアクシデント(例えば暴走等)が生じた時の使用者の
対処が遅れ、作業効率を低下させるという問題があった
(発明が解決しようとする課題) このように、従来の文書読取り装置では、認識処理の経
過を使用者が逐次監視することができず、使用者の作業
効率を妨げるという問題があった。
本発明は、認識処理の経過が一目で分り、これにより作
業効率向上に寄与し得る文書読取り装置を提供すること
を目的とする。
[発明の構成] (課題を解決するための手段) 本発明は、入力文書を画像データとして入力する画像入
力手段と、この画像入力手段を介して入力された画像デ
ータを記憶する画像メモリと、この画像メモリに記憶さ
れた画像データを構造解析して前記入力文書における文
字行領域を抽出する文字行抽出手段と、この文字行抽出
手段によって抽出された文字行領域に記述された文字行
を順次読込んで認識する文字行認識手段と、この文字行
認識手段で認識処理中の文字行領域が他の文字行領域と
異なる形態となるように前記入力文書中の文字行若しく
は文字行領域を表示するとともに、前記文字列認識手段
の認識結果を表示する文書表示手段とを具備したことを
特徴としている。
(作用) 本発明よれば、画像メモリに記憶された画像データを構
造解析して文字行領域を抽出し、この抽出された文字行
領域のうち、現在認識処理を実行中の文字行領域を他の
文字行領域とは異なる形態で表示するので、現在処理中
の文字行が文書中のどの位置にある文字行であるかを明
確に識別することができる。そして、これと同時に認識
結果をも表示するので、使用者は、処理の進行状態を容
易に把握することができ、アクシデントに対しても速や
かに対処でき、作業効率が向上する。
(実施例) 以下、図面を参照しながら本発明の実施例について説明
する。
第1図は本発明の一実施例に係る文書読取り装置の構成
を示す図である。この文書読取り装置は、画像入力手段
11、画像メモリ12、文字行抽出手段13、表示手段
14、文字行領域メモリ15、文字行認識手段16及び
辞書17により構成されている。
画像入力手段11は、例えば8本/ll11程度の解像
度を有するラインイメージセンサからなり、入力文書1
8を上から順次走査して画像データとして取込む。この
画像入力手段11で取込まれた画像データは、−旦画像
メモリ12に格納される。
文字行抽出手段13は、画像メモリ12に格納された画
像データを構造解析して入力文書18における文字行領
域を抽出する。画像データをラン表現した時、文字行領
域は、例えば■白ランの長さが所定のしきい値R1hよ
りも短いときには、それを黒ランに置換える、又は■所
定のしきい値Rthよりも長い白ランを検出したら、そ
れが文字列領域以外の領域であると判定し、他の部分を
黒ランに置換える−等の方法によって求めることができ
る。これらの方法で変換された白ラン及び黒ランは、文
字行領域データとして文字行領域メモリ15に格納され
るとともに、表示手段14に与えられる。
一方、文字行認識手段16は、文字行領域メモリ15に
格納された文字行情報に基づいて、画像メモリ12から
文字行領域の文字行を抽出し、さらにその文字行から文
字の切出しを行ない、辞書17と照合して文字認識を行
なう。次にスペース、ハイフン、コンマ、ピリオド、疑
問符等の存在を調べ、文字を単語にまとめる。なお、ス
ペースは文字間スペースの大きさより求められ、またハ
イフン、コンマなどは文字認識結果より求められる。
また、文字を単語にまとめるのではなく、文字行からま
ず単語を切出し、次にそれより文字を切出しても良い。
文字認識或は文字検出切出しの段階で、何通りかの候補
がある場合には、それらの組合わせのうち、最も単語と
して意味をなすものが単語辞書との照合により決定され
る。また、文法チエツクの結果も踏まえて認識候補の最
終的な決定をしても良い。この認識処理の進行状況の情
報(例えば、処理中の文字行の座標データ、文字行領域
番号など)及び認識結果は、表示手段14に与えられて
いる。
表示手段14は、文字行抽出手段13で抽出された文字
行領域を示す黒ランと、その他の領域を示す白ランとに
基づいて、例えば第2図に示すように左側画面に文字列
領域のみを枠で示した文書画像を表示するとともに、文
字行認識手段16から与えられる認識結果を右側画面に
表示し、更に文字行認識手段16から与えられる処理状
況情報に基づいて左側画面の文字領域のうち現在処理中
の文字領域を他の文字領域とは区別できるように、例え
ば反転表示する。
このような構成であれば、使用者は現在認識処理がどの
程度進んでいるかを一目に把握することができ、問題発
生時の対処を速やかに行なうことができ、作業効率が向
上する。
なお、表示手段における表示の形態は、特にこの形態に
限定されるものではなく、例えば第3図に示すように文
字列部分を下線や中心線で示すようにしても良い。この
ように、文字列領域を単純な枠や線で置換えれば、高解
像度デイスプレィを必要とせず、しかも表示のための処
理時間も短くなるという利点がある。
しかし、本発明はこのような表示形態に限定されるもの
ではなく、例えば第4図に示すように、文字列そのもの
、つまり読取った原画そのものを表示するようにしても
良い。この場合、第4図に示すように抽出された文字列
領域を枠や下線で重ね書するようにすれば、文字行が正
しく抽出されたかどうかを一目で確認できるという効果
がある。
また、処理中の文字列を他の文字列とは区別する方法と
しては、処理中の文字列領域若しくは文字列そのものを
、反転、点滅、異なる色、異なる輝度等、他の文字列領
域若しくは文字列とは異なる表示形態を取れば良い。ま
た、文字列そのものを表示した場合には、処理中の文字
列に下線を付すなどの区別方法も考えられる。
また、上記の例において、認識結果が求まる度に原画情
報としての文字行を認識結果の文字行に置換えて行くよ
うにしても良い。更には、第5図に示すように、文字領
域に認識結果を順次埋めて行くようにしても良い。また
、文字列の認識結果として、まず各文字の認識結果を表
示し、続いて単語、文節或は文字列全体等の認識結果を
表示するようにしても良い。このようにすると、処理の
流れが良好に把握できる。この際、どの文字を処理して
いるかを前述した方法で区別し得るようにしておくと更
に処理の進行状況が良く分る。
[発明の効果] 以上のように本発明によれば、画像データの構造解析に
よって抽出された文字行領域のうち、現在認識処理を実
行中の文字行領域を他の文字行領域とは異なる形態で表
示し、これと同時に認識結果をも表示するので、使用者
は、処理の進行状態を容易に把握することができ、問題
が発生した場合でも、これを速やかに発見でき、作業効
率の向上が図れるという効果を奏する。
【図面の簡単な説明】
第1図は本発明の一実施例に係る文書読取り装置のブロ
ック図、第2図は同装置における表示手段の表示形態を
示す図、第3図乃至第5図は本発明の他の実施例に係る
表示手段の表示形態をそれぞれ示す図である。 11・・・画像入力手段、12・・・画像メモリ、13
・・・文字行抽出手段、14・・・表示手段、15・・
・文字行領域メモリ、16・・・文字行認識手段、17
・・・辞書、18・・・入力文書。 出願人代理人 弁理士 鈴江武彦 第1図 第2図 第3図 第4図 第5図

Claims (1)

    【特許請求の範囲】
  1. 入力文書を画像データとして入力する画像入力手段と、
    この画像入力手段を介して入力された画像データを記憶
    する画像メモリと、この画像メモリに記憶された画像デ
    ータを構造解析して前記入力文書における文字行領域を
    抽出する文字行抽出手段と、この文字行抽出手段によっ
    て抽出された文字行領域に記述された文字行を順次読込
    んで認識する文字行認識手段と、この文字行認識手段で
    認識処理中の文字行領域が他の文字行領域と異なる形態
    となるように前記入力文書中の文字行若しくは文字行領
    域を表示するとともに、前記文字列認識手段の認識結果
    を表示する文書表示手段とを具備したことを特徴とする
    文書読取り装置。
JP63068172A 1988-03-24 1988-03-24 文書読取り装置 Expired - Lifetime JP2746904B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63068172A JP2746904B2 (ja) 1988-03-24 1988-03-24 文書読取り装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63068172A JP2746904B2 (ja) 1988-03-24 1988-03-24 文書読取り装置

Publications (2)

Publication Number Publication Date
JPH01241684A true JPH01241684A (ja) 1989-09-26
JP2746904B2 JP2746904B2 (ja) 1998-05-06

Family

ID=13366085

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63068172A Expired - Lifetime JP2746904B2 (ja) 1988-03-24 1988-03-24 文書読取り装置

Country Status (1)

Country Link
JP (1) JP2746904B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018159978A (ja) * 2017-03-22 2018-10-11 株式会社東芝 情報処理装置、方法及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6292080A (ja) * 1985-10-18 1987-04-27 Hitachi Ltd 文字パターン認識修正装置
JPS6334681A (ja) * 1986-07-29 1988-02-15 Toshiba Corp 文字認識装置
JPS63115283A (ja) * 1986-10-31 1988-05-19 Nec Home Electronics Ltd 文字認識装置における認識結果修正画面の表示方法
JPS63204487A (ja) * 1987-02-20 1988-08-24 Nippon Telegr & Teleph Corp <Ntt> 文字読取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6292080A (ja) * 1985-10-18 1987-04-27 Hitachi Ltd 文字パターン認識修正装置
JPS6334681A (ja) * 1986-07-29 1988-02-15 Toshiba Corp 文字認識装置
JPS63115283A (ja) * 1986-10-31 1988-05-19 Nec Home Electronics Ltd 文字認識装置における認識結果修正画面の表示方法
JPS63204487A (ja) * 1987-02-20 1988-08-24 Nippon Telegr & Teleph Corp <Ntt> 文字読取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018159978A (ja) * 2017-03-22 2018-10-11 株式会社東芝 情報処理装置、方法及びプログラム
US10528852B2 (en) 2017-03-22 2020-01-07 Kabushiki Kaisha Toshiba Information processing apparatus, method and computer program product

Also Published As

Publication number Publication date
JP2746904B2 (ja) 1998-05-06

Similar Documents

Publication Publication Date Title
US5751851A (en) Method of splitting handwritten input
JP2008204226A (ja) 帳票認識装置およびそのプログラム
CN117649670A (zh) 文档版面分析模型训练方法、应用方法、计算机装置及计算机可读存储介质
JPH07105312A (ja) 光学式文字読取装置における文字イメージのごみ除去方法及び装置
JP4733577B2 (ja) 帳票認識装置及び帳票認識プログラム
JPH01241684A (ja) 文書読取り装置
WO2022139134A1 (ko) 디지털 변환 콘텐츠 검수방법 및 장치
JP2001101340A (ja) 文字読取装置および文字認識方法
JP2909132B2 (ja) 光学的文字読取装置
JPH07160810A (ja) 文字認識装置
JPH01201789A (ja) 文字読取装置
JPS63269267A (ja) 文字認識方法
JP2878327B2 (ja) 文字切り出し装置
JPH0368091A (ja) 文字認識装置
JP2006092207A (ja) 文書属性取得装置、文書属性取得方法および文書属性取得プログラム
JP2570311B2 (ja) 文字列認識装置
JPH0514952B2 (ja)
JPH02230484A (ja) 文字認識装置
JP4270767B2 (ja) 罫線情報処理方法と罫線情報処理プログラムと画像処理装置及び記憶媒体
JPH0498586A (ja) 画像生成装置
JPH08263591A (ja) 文字認識装置及び方法
JP2000020638A (ja) 文字列方向判別方法
JPH05282487A (ja) 文字認識装置
JP2001307020A (ja) 文字認識装置
JPH01241685A (ja) 文書読取り装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080213

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090213

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090213

Year of fee payment: 11