JPH10198763A - 文字認識装置およびコンピュータを文字認識装置として機能させるプログラムを格納したコンピュータが読取可能な記憶媒体 - Google Patents

文字認識装置およびコンピュータを文字認識装置として機能させるプログラムを格納したコンピュータが読取可能な記憶媒体

Info

Publication number
JPH10198763A
JPH10198763A JP9011917A JP1191797A JPH10198763A JP H10198763 A JPH10198763 A JP H10198763A JP 9011917 A JP9011917 A JP 9011917A JP 1191797 A JP1191797 A JP 1191797A JP H10198763 A JPH10198763 A JP H10198763A
Authority
JP
Japan
Prior art keywords
word
character
unit
dictionary
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9011917A
Other languages
English (en)
Inventor
Toshihiro Suzuki
俊博 鈴木
Shiori Ooaku
志緒理 大阿久
Shinobu Yamamoto
忍 山本
Toshio Miyazawa
利夫 宮澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP9011917A priority Critical patent/JPH10198763A/ja
Publication of JPH10198763A publication Critical patent/JPH10198763A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 検索対象の文書であることを判定し,該判定
された文書情報についてのみ文字認識処理を実行し,不
要な文字画像情報を読み飛ばすことにより,処理効率の
向上を図ること。 【解決手段】 画像情報を入力する入力部101と,該
画像情報の文字領域を切り出す文字切り出し部102
と,切り出された文字領域から予め定められた特徴を抽
出する特徴抽出部103と,読み取り対象文字種に応じ
たモデル/標準パターンが格納されたパターン辞書部1
04と,予め定められた単語情報が格納された第二辞書
部105と,上記抽出された特徴とパターン辞書部10
4のパターンとを整合する整合部106と,整合部10
6で得られた文字候補から単語候補を作成し,該単語候
補を第二辞書部105の単語情報と照合する照合部10
7と,上記照合して得られた認識結果を出力する出力部
108とを備えた。

Description

【発明の詳細な説明】
【0001】
【発明が属する技術分野】本発明はワードプロセッサや
複号機能型複写機などの文字認識機能に利用され,特に
入力された文字画像情報から文字認識を行う場合に,単
語情報から文章カテゴリーを推定し,該文章カテゴリー
が指定された文章カテゴリーでなければ,その時点でそ
の実行中の認識処理を打ち切り,認識対象とする認識処
理のみを効率的に実行する文字認識装置およびコンピュ
ータを文字認識装置として機能させるプログラムを格納
したコンピュータが読取可能な記憶媒体に関する。
【0002】
【従来の技術】近年,情報処理技術の発展はめざましい
ものがあり,広い範囲で普及しつつある。その中でも電
子化(コード化)されていない大量の紙に記載されてい
る文字情報を文字認識装置などを利用して電子化(コー
ド化)することが強く要求されている。これは電子化
(コード化)することにより,様々な情報機器間におけ
る伝送,その処理や蓄積,および検索の各処理を効率的
に実現させるために不可欠なものである。
【0003】たとえば,膨大な量の文書から必要とする
情報を検索する場合,すべての文書を文字認識装置で読
み取ってコード化し,次にコード化された情報を電子的
に検索し,所望の文書を抽出するという構成が一般的で
ある。
【0004】また,単語情報や熟語情報,言語情報を利
用して文字を認識する装置として,たとえば特開平7−
262321号公報に開示されている『手書き文字認識
方法及びその装置』が知られている。なお,これらの装
置は,単語情報や熟語情報,言語情報を利用する文字認
識装置は,一般に認識精度を高めることを目的とするも
のであって,その処理時間の短縮化を図るものではな
い。
【0005】
【発明が解決しようとする課題】しかしながら,上記に
示されるような従来の技術にあっては,その検索要求に
合致しない文章を含めてすべての文書を読み取る必要が
あるため,処理時間がかかり,処理効率の低下を招来さ
せてしまうという問題点があった。
【0006】すなわち,単語情報や熟語情報,言語情報
を利用する検索は,あくまでも既にコード化されたもの
を対象としているために,効率的な処理には不向きであ
る。
【0007】本発明は,上記に鑑みてなされたものであ
って,検索対象の文書であることを判定し,該判定され
た文書情報についてのみ文字認識処理を実行し,不要な
文字画像情報を読み飛ばすことにより,処理効率の向上
を図ることを目的とする。
【0008】
【課題を解決するための手段】上記の目的を達成するた
めに,請求項1に係る文字認識装置にあっては,画像情
報を入力する入力手段と,前記入力手段により入力され
た画像情報の文字領域を切り出す文字切り出し手段と,
前記文字切り出し手段で切り出された文字領域からあら
かじめ定められた特徴を抽出する特徴抽出手段と,読み
取り対象文字種に応じたモデルあるいは標準パターンが
格納された第一の辞書と,あらかじめ定められた単語情
報が格納された第二の辞書と,前記特徴抽出手段で抽出
された特徴と前記第一の辞書に格納されているパターン
とを整合する整合手段と,前記整合部手段により得られ
た文字候補から単語候補を作成し,該単語候補を前記第
二の辞書に格納されている単語情報を照合する単語照合
手段と,前記単語照合手段で照合して得られた認識結果
を出力する出力手段と,を備えたものである。
【0009】すなわち,あらかじめ定められた第二の辞
書に格納してある単語情報に基づいて認識処理を実行す
ることにより,上記単語情報で限定された文字認識処理
のみを実行することになるので,対象とする文字情報に
ついての処理速度が向上する。
【0010】また,請求項2に係る文字認識装置にあっ
ては,前記第二の辞書に格納されている単語情報が,単
語と該単語に対応する文章カテゴリーの組み合わせ情報
であって,前記単語照合手段が,前記第二の辞書に格納
されている単語と該単語に対応する文章カテゴリーの組
み合わせ情報に基づいて文章カテゴリー候補を求め,該
文章カテゴリー候補があらかじめ指定された文章カテゴ
リーと異なる場合に,実行中の認識処理を打ち切るもの
である。
【0011】すなわち,単語情報に基づいて文章カテゴ
リー候補を推定し,これがあらかじめ指定された文章カ
テゴリーと異なる場合には実行中の認識処理を打ち切る
ことにより,検索対象外となる不要な画像を読み飛ばす
ことができるので,文字認識における処理速度が向上す
る。
【0012】また,請求項3に係る記憶媒体にあって
は,コンピュータを,前記請求項1または2に記載の文
字認識装置の入力手段,文字切り出し手段,特徴抽出手
段,第一の辞書,第二の辞書,整合手段,単語照合手段
および出力手段として機能させるプログラムを格納した
ものである。
【0013】すなわち,請求項3に記載の記憶媒体から
プログラムを読み取ることにより,コンピュータ上で文
字認識処理を実行することができる。
【0014】
【発明の実施の形態】以下,本発明の文字認識装置およ
びコンピュータを文字認識装置として機能させるプログ
ラムを格納したコンピュータが読取可能な記憶媒体につ
いて添付図面を参照し,詳細に説明する。
【0015】(実施の形態の構成)図1は,実施の形態
に係る文字認識装置の構成を示すブロック図である。図
において,101は文字画像情報を入力する入力手段と
しての入力部,102は入力部101により入力された
画像情報の文字領域を切り出す文字切り出し手段として
の文字切り出し部,103は文字切り出し部102によ
り切り出された文字領域からあらかじめ定められた特徴
を抽出する特徴抽出手段としての特徴抽出部である。
【0016】また,104は読み取り対象文字種に応じ
たモデルあるいは標準パターンが格納されたパターン辞
書部,105はあらかじめ定められた単語情報が格納さ
れた第二辞書部である。
【0017】また,106は特徴抽出部103で抽出さ
れた特徴とパターン辞書部104に格納されているパタ
ーンとを整合する整合手段としての整合部,107は整
合部106により得られた文字候補から単語候補を作成
し,これを第二辞書部105に格納されている単語情報
と照合する単語照合手段としての照合部,108は照合
部107で照合されて得られた認識結果を出力する出力
手段としての出力部である。
【0018】(実施の形態の動作)次に,以上のように
構成された文字認識装置の動作を図2に示すフローチャ
ートを用いて説明する。まず,入力部101により文字
画像情報を入力し(S201),これを文字切り出し部
102により一文字単位の文字画像に切り出す(S20
2)。さらに,上記切り出された文字画像を対象として
特徴抽出部103により特徴抽出処理を実行する(S2
03)。
【0019】次いで,整合部106により上記抽出され
た特徴部分とパターン辞書部104に格納されている情
報との整合を行い(S204),文字候補を得る。こう
して文字候補が得られる度に,単語候補を作成し,この
単語候補をあらかじめ第二辞書部105に登録されてい
る単語情報と照合する(S205)。そして,この照合
処理が終了したか否かを判断し(S206),照合処理
が終了していないと判断した場合には上記ステップS2
02に戻って,上記文字切り出し処理を繰り返し実行す
る。
【0020】一方,照合処理が終了したと判断した場合
には,照合された単語情報に基づいて文章カテゴリーを
推定する(S207)。このとき,第二辞書部105に
は,たとえば図3に示すような単語と文章カテゴリーの
組み合わせ情報があり,この情報に基づいてカテゴリー
を推定する。なお,図3では,カテゴリー1とカテゴリ
ーNとにおいて,“横浜”という単語が重複している
が,このような重複があってもよい。
【0021】次いで,上記文章カテゴリーの推定処理を
終了した後,上記推定結果に基づいて,処理を継続する
か否か,すなわち非対象文章であるか否かを判断する
(S208)。ここで上記推定されたカテゴリーが現在
対象としている文章カテゴリーと異なるものであれば,
これを非対象文章であると判断し,その結果を出力部1
08から出力し(S210),残りの文章を読み取るこ
となくこれら一連の処理を終了する。
【0022】一方,上記ステップS208において,非
対象文章ではないと判断した場合には,さらにこれらの
処理が終了したか否を判断し(S209),終了してい
ないと判断した場合には上記ステップS202に戻っ
て,上記文字切り出し処理を繰り返し実行する。すなわ
ち,以上の処理はステップS208において非対象文章
と判断されるか,すべての文字を読み取るまで行なわれ
る。
【0023】ところで,上記文字認識処理は図1に示し
たような構成の文字認識装置により実行されることを前
提にして説明したが,この図2における各処理手順をプ
ログラム化して記憶媒体に記憶し,これを画像入力装置
と表示装置とを備えたコンピュータで読み取り,該コン
ピュータ上で実行してもよい。
【0024】(実施の形態の効果)したがって,以上説
明したように,単語情報に基づいて文章カテゴリー候補
を推定し,これがあらかじめ指定された文章カテゴリー
と異なる場合には実行中の認識処理を打ち切ることによ
り,検索対象外となる不要な画像情報を処理せずに読み
飛ばすことができるので,文字認識における処理速度の
向上を図ることができる。
【0025】
【発明の効果】以上説明したように,本発明に係る文字
認識装置(請求項1)によれば,あらかじめ定められた
第二の辞書に格納してある単語情報に基づいて認識処理
を実行することにより,上記単語情報で限定された文字
認識処理のみを実行することになるため,認識対象とす
る文字情報についての処理速度の向上を図ることができ
る。
【0026】また,本発明に係る文字認識装置(請求項
2)によれば,単語情報に基づいて文章カテゴリー候補
を推定し,これがあらかじめ指定された文章カテゴリー
と異なる場合には実行中の認識処理を打ち切ることによ
り,検索対象外となる不要な画像を読み飛ばすことがで
きるため,文字認識における処理速度の向上を図ること
ができる。
【0027】また,本発明に係る文字認識装置(請求項
3)によれば,コンピュータを,請求項1または2に記
載の文字認識装置の入力手段,文字切り出し手段,特徴
抽出手段,第一の辞書,第二の辞書,整合手段,単語照
合手段および出力手段として機能させるプログラムを格
納したため,コンピュータ上で文字認識処理を実行する
ことができ,文字認識における処理速度の向上を図るこ
とができる。
【図面の簡単な説明】
【図1】実施の形態に係る文字認識装置の構成を示すブ
ロック図である。
【図2】実施の形態に係る文字認識処理動作を示すフロ
ーチャートである。
【図3】実施の形態に係る単語と文章カテゴリーの組み
合わせの情報例を示す図表である。
【符号の説明】
101 入力部 102 文字切り出し部 103 特徴抽出部 104 パターン辞書部 105 第二辞書部 106 整合部 107 照合部 108 出力部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 宮澤 利夫 東京都大田区中馬込1丁目3番6号 株式 会社リコー内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 画像情報を入力する入力手段と,前記入
    力手段により入力された画像情報の文字領域を切り出す
    文字切り出し手段と,前記文字切り出し手段で切り出さ
    れた文字領域からあらかじめ定められた特徴を抽出する
    特徴抽出手段と,読み取り対象文字種に応じたモデルあ
    るいは標準パターンが格納された第一の辞書と,あらか
    じめ定められた単語情報が格納された第二の辞書と,前
    記特徴抽出手段で抽出された特徴と前記第一の辞書に格
    納されているパターンとを整合する整合手段と,前記整
    合部手段により得られた文字候補から単語候補を作成
    し,該単語候補を前記第二の辞書に格納されている単語
    情報と照合する単語照合手段と,前記単語照合手段で照
    合して得られた認識結果を出力する出力手段と,を備え
    たことを特徴とする文字認識装置。
  2. 【請求項2】 前記第二の辞書に格納されている単語情
    報が,単語と該単語に対応する文章カテゴリーの組み合
    わせ情報であって,前記単語照合手段が,前記第二の辞
    書に格納されている単語と該単語に対応する文章カテゴ
    リーの組み合わせ情報に基づいて文章カテゴリー候補を
    求め,該文章カテゴリー候補があらかじめ指定された文
    章カテゴリーと異なる場合に,実行中の認識処理を打ち
    切ることを特徴とする請求項1に記載の文字認識装置。
  3. 【請求項3】 コンピュータを,前記請求項1または2
    に記載の文字認識装置の入力手段,文字切り出し手段,
    特徴抽出手段,第一の辞書,第二の辞書,整合手段,単
    語照合手段および出力手段として機能させるプログラム
    を格納したコンピュータが読取可能な記憶媒体。
JP9011917A 1997-01-07 1997-01-07 文字認識装置およびコンピュータを文字認識装置として機能させるプログラムを格納したコンピュータが読取可能な記憶媒体 Pending JPH10198763A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9011917A JPH10198763A (ja) 1997-01-07 1997-01-07 文字認識装置およびコンピュータを文字認識装置として機能させるプログラムを格納したコンピュータが読取可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9011917A JPH10198763A (ja) 1997-01-07 1997-01-07 文字認識装置およびコンピュータを文字認識装置として機能させるプログラムを格納したコンピュータが読取可能な記憶媒体

Publications (1)

Publication Number Publication Date
JPH10198763A true JPH10198763A (ja) 1998-07-31

Family

ID=11791062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9011917A Pending JPH10198763A (ja) 1997-01-07 1997-01-07 文字認識装置およびコンピュータを文字認識装置として機能させるプログラムを格納したコンピュータが読取可能な記憶媒体

Country Status (1)

Country Link
JP (1) JPH10198763A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027325A (zh) * 2019-12-09 2020-04-17 北京知道创宇信息技术股份有限公司 一种模型生成方法、实体识别方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027325A (zh) * 2019-12-09 2020-04-17 北京知道创宇信息技术股份有限公司 一种模型生成方法、实体识别方法、装置及电子设备
CN111027325B (zh) * 2019-12-09 2023-11-28 北京知道创宇信息技术股份有限公司 一种模型生成方法、实体识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
JP3689455B2 (ja) 情報処理方法及び装置
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
JP2713622B2 (ja) 表形式文書読取装置
JPH087033A (ja) 情報処理方法及び装置
JPH08180068A (ja) 電子ファイリング装置
JPH0785080A (ja) 全文書検索システム
JP3727995B2 (ja) 文書処理方法及び装置
JPH10198763A (ja) 文字認識装置およびコンピュータを文字認識装置として機能させるプログラムを格納したコンピュータが読取可能な記憶媒体
JP2000137728A (ja) 文書解析装置及びプログラム記録媒体
JP2001005830A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ
JPH10198683A (ja) 文書画像分類方法
JPH06223121A (ja) 情報検索装置
JPH10124615A (ja) 文字認識方法
JPH0528324A (ja) 英文字認識装置
JPH0757040A (ja) Ocr付きファイリング装置
US7623714B2 (en) Form recognition system, method, program, and storage medium
JP2746345B2 (ja) 文字認識の後処理方法
JPH113401A (ja) 情報処理装置及びその方法
JP2001338263A (ja) 画像処理装置及び画像処理方法並びに記憶媒体
JP2891368B2 (ja) 文字認識結果の後処理方法
JP4209511B2 (ja) 文字認識方法、文字認識装置および文字認識方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3121401B2 (ja) 認識辞書及び文字認識装置
JPH10247237A (ja) 文書画像処理装置および文書画像処理方法および情報記録媒体
JP2917310B2 (ja) 単語照合における単語辞書検索方式
JPH04252390A (ja) 文字認識結果の後処理方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050616

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050823