JPH1063773A - 認識結果編集方法およびパターン認識システムおよび情報記録媒体 - Google Patents

認識結果編集方法およびパターン認識システムおよび情報記録媒体

Info

Publication number
JPH1063773A
JPH1063773A JP8231435A JP23143596A JPH1063773A JP H1063773 A JPH1063773 A JP H1063773A JP 8231435 A JP8231435 A JP 8231435A JP 23143596 A JP23143596 A JP 23143596A JP H1063773 A JPH1063773 A JP H1063773A
Authority
JP
Japan
Prior art keywords
editing
recognition result
recognition
result
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8231435A
Other languages
English (en)
Other versions
JP3619333B2 (ja
Inventor
Nahoko Kudou
奈保子 工藤
Kaoru Kaneko
かおる 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP23143596A priority Critical patent/JP3619333B2/ja
Publication of JPH1063773A publication Critical patent/JPH1063773A/ja
Application granted granted Critical
Publication of JP3619333B2 publication Critical patent/JP3619333B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 文書が大量のものである場合にも、認識結果
の確認,修正などの編集を、効率良く行なうことが可能
である。 【解決手段】 第1の編集処理部31の編集処理機能
が、例えば、認識結果とその元になった文書との全文に
わたる突き合わせチェックを行なうものである場合、第
2の編集処理部32は、全文にわたる認識結果(すなわ
ち、この場合、編集処理結果)をチェックするのではな
く、全文にわたる編集処理結果の中から、所定の抜き取
り率で、認識結果(編集処理結果)を抜き出し、抜き出し
た認識結果(編集処理結果)に対してのみ、確認,修正な
どの編集処理を行なうようになっている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、パターン認識処理
(例えば文字認識処理)を行なって得られる認識結果を編
集する認識結果編集方法およびパターン認識システムお
よび情報記録媒体に関する。
【0002】
【従来の技術】一般に、文字認識システムでは、原稿等
の文書をスキャナ等で読込み、文書画像とした後、この
文書画像から文字画像を切り出して文字認識処理を行な
い、認識結果を得るようになっている。このような文字
認識システムでは、文字認識処理自体には差程の時間を
要しないが、認識結果の確認,修正等の編集に相当の時
間を要する。すなわち、認識結果の確認,修正等の編集
は、元の文書(あるいは文書画像)とその認識結果とを全
文(全ページ,全行)にわたって突き合わせチェックする
ことによってなされ、また、通常は、正確さを期すため
に、このような全文の突き合わせチェックを2回繰り返
して行なっていた。
【0003】
【発明が解決しようとする課題】このように、従来で
は、認識結果の確認,修正等の編集を行なう場合、通
常、認識結果とその元となった文書(あるいは文書画像)
との全文にわたる突き合わせチェックを2回繰り返して
行なっていたので、認識結果の確認,修正等の編集に相
当の時間を要し、特に大量の文書の認識結果の確認,修
正等の編集を行なう場合に、作業効率が著しく低下して
しまうという問題があった。
【0004】本発明は、文書が大量のものである場合に
も、認識結果の確認,修正などの編集を、効率良く行な
うことの可能な認識結果編集方法およびパターン認識シ
ステムおよび情報記録媒体を提供することを目的として
いる。
【0005】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、所定の文書画像にパターン
認識処理を行なって得られる認識結果に対して編集処理
を施す認識結果編集方法において、認識結果に対して少
なくとも2回の編集処理を施し、その際、各編集処理に
おいて、認識結果の抜き取り率を互いに相違させ、各編
集処理において、所定の抜き取り率で認識結果の抜き取
りがなされたとき、抜き取られた認識結果に対しての
み、編集処理を施すことを特徴としている。
【0006】また、請求項2記載の発明は、請求項1記
載の認識結果編集方法において、パターン認識処理で認
識結果とともに認識結果の確信度が算出されるとき、1
回目の編集処理では、所定の閾値以上の確信度の認識結
果をスキップさせ、低確信度の認識結果のみを修正させ
ることを特徴としている。
【0007】また、請求項3記載の発明は、請求項1記
載の認識結果編集方法において、各編集処理では、編集
前後の修正履歴を管理し、該修正履歴により、修正頻度
の高い文字についての情報を出力することを特徴として
いる。
【0008】また、請求項4記載の発明は、請求項1記
載の認識結果編集方法において、2回目の編集処理で修
正がなされた割合いを修正率として出力することを特徴
としている。
【0009】また、請求項5記載の発明は、認識用の辞
書と、文書画像に対して辞書を用いてパターン認識処理
を施す認識処理手段と、該認識処理手段による認識結果
に対して編集処理を行なう編集処理手段とを備え、編集
処理手段は、認識結果に対して少なくとも2回の編集処
理を施し、その際、各編集処理において、認識結果の抜
き取り率を互いに相違させ、各編集処理において、所定
の抜き取り率で認識結果の抜き取りがなされたとき、抜
き取られた認識結果に対してのみ、編集処理を施すこと
を特徴としている。
【0010】また、請求項6記載の発明は、請求項5記
載のパターン認識システムにおいて、抜き取り率は、更
新可能に設定されることを特徴としている。
【0011】また、請求項7記載の発明は、請求項5記
載のパターン認識システムにおいて、認識処理手段で認
識結果とともに認識結果の確信度が算出されるとき、編
集処理手段は、1回目の編集処理では、所定の閾値以上
の確信度の認識結果をスキップさせ、低確信度の認識結
果のみを修正させるようになっていることを特徴として
いる。
【0012】また、請求項8記載の発明は、請求項7記
載のパターン認識システムにおいて、編集処理手段は、
さらに、2回目の編集処理で修正がなされた割合いを修
正率として出力する機能を有しており、確信度の閾値
は、編集処理手段から出力される修正率に応じて更新可
能になっていることを特徴としている。
【0013】また、請求項9記載の発明は、請求項5記
載のパターン認識システムにおいて、さらに、辞書を管
理する辞書管理手段が設けられており、辞書管理手段
は、編集処理手段において修正頻度の高い文字について
の情報が修正文字情報として出力されるとき、該修正文
字情報に基づいて辞書の更新を行なう機能を有している
ことを特徴としている。
【0014】また、請求項10記載の発明は、請求項9
記載のパターン認識システムにおいて、辞書の更新の都
度、抜き取り率を低下させることを特徴としている。
【0015】また、請求項11記載の発明は、所定の文
書画像にパターン認識処理を行なって得られる認識結果
に対して少なくとも2回の編集処理を施し、その際、各
編集処理において、認識結果の抜き取り率を互いに相違
させ、各編集処理において、所定の抜き取り率で認識結
果の抜き取りがなされたとき、抜き取られた認識結果に
対してのみ、編集処理を施すためのプログラムが記録さ
れていることを特徴としている。
【0016】また、請求項12記載の発明は、パターン
認識処理では認識結果とともに認識結果の確信度を算出
し、認識結果を編集する際には所定の閾値以上の確信度
の文字をスキップさせて修正させるためのプログラムが
記録されていることを特徴としている。
【0017】請求項1乃至請求項12記載の発明は、認
識結果の確認,修正などの編集において、編集の作業効
率を著しく向上させることができる。
【0018】特に、請求項1,請求項5,請求項6,請
求項11記載の発明は、認識結果に対して少なくとも2
回の編集処理を施し、その際、各編集処理において、認
識結果の抜き取り率を互いに相違させ、各編集処理にお
いて、所定の抜き取り率で認識結果の抜き取りがなされ
たとき、抜き取られた認識結果に対してのみ、編集処理
を施すので、認識結果の確認,修正などの編集を効率良
く行なうことができる。
【0019】また、請求項2,請求項7,請求項12記
載の発明は、パターン認識処理で認識結果とともに認識
結果の確信度が算出されるとき、1回目の編集処理で
は、所定の閾値以上の確信度の認識結果をスキップさ
せ、低確信度の認識結果のみを修正させる。これによ
り、認識結果の確認,修正等の際に、利用者は文書全体
に目を通す必要がなくなり、作業効率を高めることがで
きる。
【0020】また、請求項3,請求項9記載の発明は、
編集処理手段において修正頻度の高い文字についての情
報が修正文字情報として出力されるとき、該修正文字情
報に基づいて辞書の更新を行なうことで、認識率を向上
させることができる。
【0021】また、請求項4,請求項8記載の発明は、
2回目の編集処理で修正がなされた割合いを修正率とし
て出力し、該修正率に応じて確信度の閾値を更新するこ
とで、認識率を向上させることができる。
【0022】また、請求項10記載の発明は、辞書の更
新の都度、抜き取り率を低下させる。これにより、使用
する毎に、作業効率を徐々に高めることが可能となる。
【0023】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図1は本発明に係るパターン認識シ
ステムの構成例を示す図である。なお、図1の例では、
パターン認識システムは、文書中の文字を認識する文字
認識システムとして構成されている。
【0024】図1を参照すると、この文字認識システム
は、原稿などの文書を文書画像として入力する画像入力
部1と、画像入力部1で読込まれた文書画像を記憶する
文書画像記憶部2と、認識対象となる各文字について例
えばその標準パターンや標準的な特徴量が登録されてい
る認識用の辞書5と、画像入力部1から入力された文書
画像から認識対象となる文字画像を切り出して該文字画
像の特徴を抽出して辞書5と比較する文字認識処理を行
なう認識処理部4と、認識処理部4からの認識結果を記
憶する認識結果記憶部6と、認識結果についての確認,
修正などの編集を行なう編集処理部8と、編集処理部8
からの編集処理結果を記憶する編集処理結果記憶部9
と、辞書5の更新等の管理を行なう辞書管理部10と、
認識結果に対する編集処理などの条件を設定するための
条件設定部40とを有している。
【0025】図2は図1の文字認識システムのハードウ
ェア構成例を示す図である。図2を参照すると、この文
字認識システムは、例えばパーソナルコンピュータ等で
実現され、全体を制御するCPU11と、CPU11の
制御プログラム等が記憶されているROM12と、CP
U11のワークエリア等として使用されるRAM13
と、原稿等の文書を文書画像として読込むスキャナ14
と、スキャナ14で読込まれた文書画像(あるいは、文
書画像から認識用に切り出された文字画像)が例えばペ
ージ単位で例えば圧縮されて記憶される文書画像ファイ
ル15と、文字認識用の辞書が記憶される辞書ファイル
16と、文書画像(文字画像)に対して文字認識処理を行
なって得られた認識結果がテキスト(コード化された情
報)として記憶されるテキストファイル17と、認識結
果の編集処理結果が記憶される編集処理結果ファイル4
1と、編集処理時に一時的な記憶領域として用いられる
テンポラリファイル42と、認識結果に対する編集処理
の条件を設定したり、認識結果に対して確認,修正など
の編集を行なったりするのに用いられる表示装置18お
よび入力装置19とを有している。
【0026】ここで、スキャナ14,文書画像ファイル
15,辞書16,テキストファイル17,編集処理結果
ファイル41は、図1の画像入力部1,文書画像記憶部
2,辞書5,認識結果記憶部6,編集処理結果記憶部9
にそれぞれ対応している。また、CPU11は、図1の
認識処理部4,編集処理部8の機能を有している。さら
に、後述のように、CPU11は、図1の辞書管理部1
0の機能を有することもできる。
【0027】また、図2の表示装置18,入力装置1
9,CPU11,RAM13などは、図1の条件設定部
40としての機能も有している。すなわち、編集処理な
どの条件を、入力装置19等から入力させて、CPU1
1によりRAM13内に設定することができる。
【0028】なお、CPU11におけるこのような認識
処理部,編集処理部,辞書管理部,さらには条件設定部
等としての機能は、例えばソフトウェアパッケージ(具
体的には、CD−ROM等の情報記録媒体)の形で提供
することができ、このため、図2の例では、情報記録媒
体20がセットさせるとき、これを駆動する媒体駆動装
置21が設けられている。
【0029】また、入力装置19には、例えばキーボー
ド,マウス等を用いることができ、表示装置18には、
CRTやLCDなどのディスプレイを用いることができ
る。この場合、ディスプレイ18の画面に表示されてい
るアイコン等をマウスによってポイントすることで、処
理の選択や、所定処理の開始,終了指示などを行なった
り、キーボードやマウスにより、画面上で、カーソル移
動を行なったり、さらには、スクロールを行なったりす
ることができる。
【0030】換言すれば、本発明のパターン認識システ
ム(文字認識システム)は、イメージスキャナ,ディスプ
レイ等を備えた汎用の計算機システムにCD−ROM等
の情報記録媒体に記録されたプログラムコードを読み込
ませて、この汎用計算機システムのマイクロプロセッサ
にパターン認識処理(文字認識処理)を実行させる装置構
成においても実施することが可能である。この場合、本
発明のパターン認識処理プログラムや編集処理プログラ
ムや辞書管理プログラムなどを格納する情報記憶媒体と
しては、CD−ROMに限られるものではなく、RO
M,RAM,FD等が用いられても良い。また、文書画
像の入力は、スキャナを使用しないで、画像イメージフ
ァイルとして与えられても良い。
【0031】また、図1,図2の文字認識システムにお
いて、認識処理部4は、認識結果を求めるとともに、そ
の認識結果の確信度(確からしさ)をも求めるようになっ
ていても良い。この確信度の算出処理については、例え
ば特開平4−211883号に開示の仕方で行なうこと
ができる。
【0032】すなわち、確信度とは、最終認識結果の文
字がどの程度確からしいかを表わすもので、0%から1
00%の数値で表わされたり、あるいは、その数値を何
段階かに量子化して表わすことができる。例えば、次の
A,B,Cの3ランクで表わすことができる。 Aランク:認識結果は正しい。 Bランク:認識結果は怪しい(正しいか間違いか分から
ない)。 Cランク:認識結果は間違い。
【0033】この場合、認識処理部4では、最終の認識
結果を得るための複数段階の処理により得られる情報に
基づき、総合的に確信度を決定する。例えば、パターン
マッチング処理から第一候補の評価値あるいは第一候補
と第二候補との評価値の差,パス選択処理からパス決定
時の評価値,ルール処理から、どのようなルールが適用
され修正されたかを表わす情報,言語処理から言語修正
の結果を表わす情報を集め、これらの情報を証拠として
例えばデンプスター・シェーファー(Dempster& Shafer)
の確率理論を使って確信度を総合的に判断する。
【0034】このような確信度の決定は、最終の処理段
階で、それまでの処理段階で得られた情報を集めて一括
して行なうか、あるいは各処理段階で得られた情報に基
づき候補の確信度を求め、これによって前処理段階まで
に求められた確信度を更新する操作を最終処理段階まで
繰り返すことにより行なう。
【0035】このように、認識処理部4において、確信
度が求められる場合には、後述のように、編集処理部8
における認識結果の確認,修正等の編集処理において、
かかる確信度に応じて、認識結果の表示の際に色や輝度
などの視覚的条件を変化させ、あるいは認識結果に対応
させて文字または記号を表示すれば、装置利用者は、認
識結果の確信度を容易に認識し、修正が必要な文字を素
早く的確に見つけ、その修正作業を効率よく行なうこと
ができる。
【0036】また、編集処理部8は、認識処理部4から
の認識結果に対して、第1回目の編集処理を行ない(よ
り具体的には、認識結果記憶部6に記憶されている認識
結果に対して編集処理を行ない)、この編集処理結果を
編集処理結果記憶部9の第1の結果記憶部9a(図2の
第1の結果ファイル41a)に格納する第1の編集処理
部31と、認識処理部4からの認識結果に対して第2回
目以後の編集処理を行ない(より具体的には、第1の結
果記憶部9a(図2の第1の結果ファイル41a)に格納
されている第1回目の編集処理結果に対してさらに編集
処理を行ない)、編集処理結果記憶部9の第2の結果記
憶部9b(図2の第2の結果ファイル41b)に格納する
第2の編集処理部32とを備えている。
【0037】ここで、第1の編集処理部31および第2
の編集処理部32は、認識結果に対する編集処理を行な
う場合、例えば、表示装置18の画面上に、認識結果あ
るいは編集処理結果を表示する際の基準線を表示し、こ
の基準線の一方の側には、該基準線に沿って現在編集対
象となる認識結果あるいは編集処理結果を表示し、ま
た、該基準線の他方の側には、該基準線の一方の側に表
示される現在編集対象となる認識結果あるいは編集処理
結果に対応した文書画像(文字画像)を該基準線に沿って
表示することができる。
【0038】図3には、ある1ページ分の文書の例が示
されており、図4(a),(b)には、図3の文書の認識結
果あるいは編集処理結果を確認,修正等するための表示
装置18における表示例がそれぞれ示されている。
【0039】図4(a)の表示例では、画面上に縦の基準
線L1を表示し、この基準線L1に沿って、そのすぐ右側
には、現在編集対象となる認識結果列あるいは編集処理
結果列“本日は晴天なり、”を行方向(=縦)に表示し、
また、そのすぐ左側には、上記編集対象となる認識結果
列あるいは編集処理結果列に対応した文書画像(文字画
像)列“本日は晴天なり、”を縦の基準線L1に沿って行
方向(=縦)に表示している。
【0040】また図4(b)の表示例では、画面上の横の
基準線H1を表示し、この基準線H1に沿って、そのすぐ
上側には、現在編集対象となる認識結果列あるいは編集
処理結果列“本日は晴天なり、”を行方向(=横)に表示
し、また、そのすぐ下側には、上記編集対象となる認識
結果列あるいは編集処理結果列に対応した文書画像(文
字画像)列“本日は晴天なり、”を横の基準線H1に沿っ
て行方向(=横)に表示している。
【0041】なお、表示画面上において、図4(a)のよ
うに行方向を縦にするか、あるいは、図4(b)のように
行方向を横にするかは、例えば認識処理開始時などに、
例えば図1の条件設定部40(図2の入力装置19)など
において、行方向を「縦」または「横」と指定すること
で設定できる。
【0042】また、第1の編集処理部31および第2の
編集処理部32は、表示装置18の表示画面上で、基準
線の一方の側に表示される認識結果(テキスト)と基準線
の他方の側に表示される文書画像(文字画像)とを、常に
連動させて、スクロールあるいは移動させる機能を有し
ている。具体的に、例えば図4(a)の状態で、基準線L
1の右側に表示されている認識結果(テキスト)を例えば
右方向に1行分移動させると、図5に示すように、これ
と連動させて、基準線L1の左側に表示されている文書
画像(文字画像)も右方向に1行分移動させるような表示
制御を行なうことができる。また、例えば図4(a)の状
態で、基準線L1の右側に表示されている認識結果(テキ
スト)を例えば上方向に2文字分移動させると、図6に
示すように、これと連動させて、基準線L1の左側に表
示されている文書画像(文字画像)も上方向に2文字分移
動させるような表示制御を行なうことができる。
【0043】このように、表示装置18の表示画面上
で、基準線の一方の側に表示される認識結果あるいは編
集処理結果と基準線の他方の側に表示される文書画像
(文字画像)とを、常に対応させて表示する機能(基準線
に沿って、かつ、該基準線を挾んで互いに対向して(並
列に)表示する機能)を第1の編集処理部31および第2
の編集処理部32が有している場合には、認識結果ある
いは編集処理結果とこれに対応した文書画像(文字画像)
列との対比が容易になり、オペレータは、認識結果ある
いは編集処理結果の確認,修正を容易に行なうことがで
きる。
【0044】また、認識結果あるいは編集処理結果の確
認,修正を行なう際、表示装置18の画面上で、現在修
正中の文字については、これが現在修正中であることを
識別可能に表示することもできる。具体的に、図4(a)
の例において、例えば図7のように、“天”が“夫”と
誤認識されており、認識結果あるいは編集処理結果中で
現在修正中の文字が“夫”である場合、認識結果の表示
領域において“夫”の文字のところを例えば矩形で囲
み、また、文書画像の表示領域において、これに対応し
た“天”の文字画像のところを例えば赤色の矩形で囲む
こともできる。
【0045】また、図4(a),(b)などの表示例におい
て、文書画像(文字画像)を表示する場合、後述のよう
に、文書画像ファイル15に例えば圧縮されて格納され
ている文書画像(文字画像)を拡大して、例えばスキャナ
入力時の文書画像と等倍で表示することもできる。
【0046】また、図4(a),(b)などの表示例では、
画面には、認識結果(テキスト)と文書画像(文字画像)の
みしか表示されていないが、この画面において、さら
に、例えば編集対象ページのイメージ全体を表示し、ま
た、編集対象ページにおいて、修正した文字,低確信度
の文字数,総文字数等の情報などを表示する機能を第1
の編集処理部31,第2の編集処理部32にもたせるこ
とも可能である。
【0047】このように、第1の編集処理部31と第2
の編集処理部32とは、上記のような1つの表示画面内
での基本的な表示制御機能に関しては、これらを同じも
のにすることができる。
【0048】しかしながら、認識結果の確認,修正等の
編集を効率良く行なうため、本発明では、第1の編集処
理部31と第2の編集処理部32とで、編集処理機能を
互いに相違させている。
【0049】すなわち、第1の編集処理部31の編集処
理機能と第2の編集処理部32の編集処理機能とを同じ
ものにする場合には、編集処理を同じ仕方で2回以上繰
り返して行なうことと等価であり、この編集処理が、認
識結果とその元になった文書との全文にわたる突き合わ
せチェックを行なうものである場合、前述したように、
作業効率が著しく低下してしまう。
【0050】本発明では、従来におけるこのような問題
を解決するため、第1の編集処理部31の編集処理機能
が、例えば、認識結果とその元になった文書との全文に
わたる突き合わせチェックを行なうものである場合、第
2の編集処理部32は、全文にわたる認識結果(すなわ
ち、この場合、編集処理結果)をチェックするのではな
く、全文にわたる編集処理結果の中から、所定の抜き取
り率で、認識結果(編集処理結果)を抜き出し、抜き出し
た認識結果(編集処理結果)に対してのみ、確認,修正な
どの編集処理を行なうようになっている。
【0051】より具体的に、文書画像記憶部2に会議録
原稿等の文書の文書画像がページ単位に、例えばnペー
ジ分格納され、認識処理部4がnページ分の文書画像に
対してページ単位に認識処理を行ない、nページ分の認
識結果が認識結果記憶部6(テキストファイル17)に記
憶されるとき、第1の編集処理部31は、例えば、nペ
ージ分の認識結果を全ページ(nページ)、ページ単位に
編集処理(確認,修正)するよう機能する一方、第2の編
集処理部32は、全ページを対象に編集処理を行なうの
ではなく、例えば、全ページ(nページ)分の認識結果
(編集処理結果)から、所定の抜き取り率w(0<w<1)
でページ単位に、n×wページ分の認識結果(編集処理
結果)を抜き出し、抜き出したn×wページ分の認識結
果(編集処理結果)のみをページ単位に編集処理する機能
を有している。
【0052】ここで、nページ分の認識結果(編集処理
結果)から、所定の抜き取り率wでn×wページ分の認
識結果(編集処理結果)を抜き出す仕方として、例えば1
からnまでの範囲内で、n×w個の乱数値を発生させ、
この乱数によって、nページ分からn×wページ分をラ
ンダムに抽出する(抜き出す)ことができる。
【0053】なお、nページ分の認識結果(編集処理結
果)から、上記のような仕方で、n×wページ分の認識
結果(編集処理結果)を抜き出したときに、抜き出したn
×wページ分の認識結果(編集処理結果)は、編集処理が
なされるに先立って、テンポラリファイル42に一時格
納されるようになっている。また、編集処理において、
図4(a),(b)のような表示制御処理が行なわれる場
合、n×wページ分の認識結果(編集処理結果)に対応し
た元の文書画像もテンポラリファイル42に一時格納さ
れるようになっている。
【0054】また、抜き取り率wは、例えばユーザによ
って、条件設定部40(表示装置18,入力装置19)に
より、任意のものに設定可能となっており、また、抜き
取り率wは、これを更新(変更)可能になっている。ま
た、抜き取り率wは、これが一旦設定されると、更新
(変更)がなされるまで、例えばRAM13内に現在の抜
き取り率として保持されるようになっている。
【0055】具体的に、抜き取り率wの設定は、次のよ
うな仕方で行なうことができる。先ず、図8のような初
期画面が表示されている状態で、ユーザが「抜き取り率
設定」のアイコン(%)をポイントすると、図9のような
抜き取り率設定画面が表示される。ここで、抜き取り率
設定画面の抜き取り率設定窓には、現在の抜き取り率w
(%)が表示される。なお、このシステムの初期状態(セ
ットアップ直後)では、抜き取り率wとしてデフォルト
値“100”が設定されており、従って、この段階で
は、抜き取り表示窓には“100”が表示される。ユー
ザは、これを所望の抜き取り率に設定(変更)したい場合
には、例えば入力装置19から、所望の抜き取り率の数
値(%),すなわち1〜100の範囲の数値を入力する。
例えば、編集対象となる会議録原稿の総ページ数が10
0ページであり、このうちの20ページ分を抜き取りた
いときには、抜き取り率wは、20/100=20(%)
であるので、ユーザは“20”を入力する。
【0056】これにより、抜き取り率設定窓の数値は、
“100”から“20”に変わる。抜き取り率wが20
(%)で良い場合は、ユーザは、抜き取り率設定窓の数値
が“20”であることを確認して、抜き取り率設定画面
のアイコン(OK)をポイントする。これにより、抜き取
り率wは、20(%)に確定し、これが更新(変更)されな
い限り、例えばRAM13内にパラメータとして保持さ
れる。なお、この設定を取り消したいとき、例えば、こ
の数値“20”とは異なる数値にしたいときには、ユー
ザは、抜き取り率設定画面のアイコン(キャンセル)をポ
イントする。これにより、画面は初期画面に戻り、再び
上記の操作を行なって抜き取り率設定画面を表示させ、
所望の抜き取り率の数値を入力する。
【0057】このようにして、抜き取り率wの設定,更
新(変更)等を行なうことができる。
【0058】図10は第1の編集処理部31の処理動作
例,操作例を説明するためのフローチャートである。図
10を参照すると、第1の編集処理部31は、図4
(a),(b)に示したような画面を表示して、ユーザにペ
ージ単位での確認,修正などの編集処理を行なわせるこ
とができる。すなわち、第1の編集処理部31は、先
ず、終了ボタンあるいは次ページボタンあるいは確定ボ
タンが選択されたか否かを判断する(ステップS1,S
2,S3)。
【0059】この結果、次ページボタンが選択されたと
きには、認識結果記憶部6(テキストファイル17)およ
び文書画像記憶部2(文書画像ファイル15)に格納され
ているnページ分の認識結果および文書画像のうち、未
処理分の先頭ページを例えば図4(a),(b)に示したよ
うに画面表示する(ステップS4)。これにより、ユーザ
は、このページの認識結果を前述のようにして確認,修
正等することができる(ステップS5)。このようにし
て、1ページ分の編集処理が終了すると、再びステップ
S1に戻り、上述したと同様の処理が繰り返される。す
なわち、この繰り返し処理において、ユーザが順次に次
ページボタンを選択すると(ステップS2)、認識結果記
憶部6(テキストファイル17)および文書画像記憶部2
(文書画像ファイル15)に格納されているnページ分の
認識結果および文書画像がページ単位に順次に画面表示
され、ユーザは、nページ分の認識結果をページ単位
に、順次、確認,修正することができる。
【0060】このような一連の処理において、ユーザが
確定ボタンを選択すると(ステップS3)、第1の編集処
理部31は、nページ分の認識結果の編集(確認,修正
等)を全て行なったかをチェックする(ステップS6)。
この結果、nページ分の認識結果の編集(確認,修正等)
を全て行なったときには、認識結果に対する編集(nペ
ージ分の編集)を確定し、この編集処理結果を第2の結
果記憶部9b(第2の結果ファイル41b)に格納する
(ステップS7)。
【0061】また、上記一連の処理において、ユーザが
終了ボタンを選択すると(ステップS1)、第1の編集処
理部31における編集処理(プログラム)の実行を終了す
る。
【0062】なお、上述の処理例では、次ページボタン
によって次ページを順次に選択する処理しか示されてい
ないが、前ページボタンをさらに設け、前ページボタン
を選択すると前ページへ戻るなどの処理を追加すること
も可能である。
【0063】また、図11,図12は第2の編集処理部
32の処理動作例,操作例を説明するためのフローチャ
ートである。図11,図12を参照すると、例えば図8
に示したような初期画面が表示されている状態で(ステ
ップS11)、所望のページ数分のページの抜き出しが
すでになされてテンポラリファイル42に格納されてい
るか否かを判断する(ステップS12)。
【0064】所望のページ数分のページの抜き出しが未
だなされていないときには、総ページから所望のページ
数分のページの抜き出しを行ないこれらをテンポラリフ
ァイル42に格納するまでの処理(ステップS13乃至
S18)を行なう。
【0065】すなわち、抜き取り率wが所望の値に設定
されているか否かを判断し(ステップS13)、所望の値
に設定されていないときには、ユーザは、前述のよう
に、抜き取り率設定画面を表示して、所望の抜き取り率
wを設定する(ステップS14)。このようにして、例え
ば、RAM13内に所望の抜き取り率wが設定されたと
きには、第2の編集処理部32は、総ページ数nの値の
範囲内で、この抜き取り率wで、乱数値を発生させ(ス
テップS15)、発生させた乱数値によって、総ページ
数nからランダムにn×w(%)分のページ番号を抽出す
る(ステップS16)。次いで、抽出したn×w(%)ペー
ジ分の上記ページ番号に対応する各ページの認識結果
(編集処理結果)および文書画像を第1の結果記憶部9a
(第1の結果ファイル41a)および文書画像記憶部2
(文書画像ファイル15)からそれぞれ読み出し、これら
を、テンポラリファイル42に格納する(ステップS1
7)。
【0066】このようにして抜き出したn×w(%)ペー
ジ分の認識結果(編集処理結果)および文書画像がテンポ
ラリファイル42に格納された後、第2の編集処理部3
2は、抜き出したページに関する情報(例えばn×wペ
ージ分のページ番号)の一覧表を画面に表示する(ステッ
プS18)。
【0067】この段階で、第2の編集処理部32は、図
4(a),(b)に示したような画面を表示して、ユーザに
ページ単位での確認,修正などの編集処理を行なわせる
ことができる。すなわち、第2の編集処理部32は、終
了ボタンあるいは抽出ボタンあるいは確定ボタンが選択
されたか否かを判断する(ステップS19,S20,S
21)。
【0068】この結果、抽出ボタンが選択されたときに
は、抜き出されてテンポラリファイル42に格納されて
いるn×w(%)ページ分の認識結果(編集処理結果)およ
び文書画像のうち、未処理分の先頭ページを例えば図4
(a),(b)に示したように画面表示する(ステップS2
2)。これにより、ユーザは、このページの認識結果(編
集処理結果)を前述のようにして確認,修正等すること
ができる(ステップS23)。このようにして、1ページ
分の編集処理が終了すると、再びステップS12に戻
り、上述したと同様の処理が繰り返される。すなわち、
この繰り返し処理において、ユーザが順次に抽出ボタン
を選択すると(ステップS20)、抜き出されてテンポラ
リファイル42に格納されているn×w(%)ページ分の
認識結果(編集処理結果)および文書画像がページ単位に
順次に画面表示され、ユーザは、n×w(%)ページ分の
認識結果をページ単位に、順次、確認,修正することが
できる。
【0069】このような一連の処理において、ユーザが
確定ボタンを選択すると(ステップS21)、第2の編集
処理部32は、n×w(%)ページ分の認識結果(編集処
理結果)の編集(確認,修正等)を全て行なったかをチェ
ックする(ステップS24)。この結果、n×w(%)ペー
ジ分の認識結果(編集処理結果)の編集(確認,修正等)を
全て行なったときには、認識結果(編集処理結果)に対す
る抜き取り編集(n×w(%)ページ分の編集)を確定し、
この編集処理結果を第2の結果記憶部9b(第2の結果
ファイル41b)に格納する(ステップS25)。
【0070】また、上記一連の処理において、ユーザが
終了ボタンを選択すると(ステップS19)、第2の編集
処理部32における抜き取り編集処理(プログラム)の実
行を終了する。
【0071】また、認識処理部4において認識結果とと
もに確信度が求められる場合、第1の編集処理部31お
よび第2の編集処理部32は、認識結果あるいは編集処
理結果の確認,修正を行なう際、認識結果あるいは編集
処理結果中の低確信度文字については、これを他の文字
と識別可能に表示することもできる。例えば、認識結果
あるいは編集処理結果の表示領域において、認識結果あ
るいは編集処理結果中の低確信度文字を反転表示し、ま
た、文書画像(文字画像)の表示領域において、低確信度
文字を反転表示することもできる。
【0072】また、このように、認識結果とともに確信
度が算出されるとき、第1の編集処理部31および第2
の編集処理部32は、認識結果あるいは編集処理結果の
確認,修正などの編集を行なうような場合に、表示装置
18の画面上に表示される認識結果あるいは編集処理結
果中および/または文書画像(文字画像)中の確信度が所
定の閾値(例えば90%)以上の文字をスキップさせて、
低確信度の文字のみを順番に表示することもできる。す
なわち、認識結果あるいは編集処理結果中および/また
は文書画像(文字画像)中から、確信度が所定閾値(例え
ば90%)以下の文字を抽出して、この文字についての
み、認識結果(編集処理結果)および/または文字画像を
次々と表示させることもできる。
【0073】なお、この場合、上記確信度の閾値は、例
えば条件設定部40(あるいは図2の入力装置19)によ
り更新可能に設定される。
【0074】また、このような低確信度文字のスキップ
表示は、例えば図4(a),(b)のような、基準線の一方
の側には、該基準線に沿って現在編集対象となる認識結
果列あるいは編集処理結果列を表示し、また、該基準線
の他方の側には、該基準線の一方の側に表示される現在
編集対象となる認識結果列あるいは編集処理結果列に対
応した文書画像(文字画像)列を該基準線に沿って表示画
面において行なうこともできるし、あるいは、認識結果
あるいは編集処理結果のみの表示画面,あるいは文書画
像(文字画像)のみの表示画面において行なうこともでき
る。
【0075】このように、第1の編集処理部31および
第2の編集処理部32において、所定の閾値以上の確信
度の文字についてはこれをスキップさせて(飛ばして)、
低確信度の文字のみを表示する機能をもたせれば、認識
結果あるいは編集処理結果の確認,修正等の際に、利用
者は文書全体に目を通す必要がなくなり、作業効率を高
めることができる。
【0076】上述の例では、このような確信度に基づく
スキップ表示機能(スキップ修正機能)を、第1の編集処
理部31と第2の編集処理部32との両方にもたせると
したが、このようなスキップ修正機能を、全ページを編
集対象にする第1の編集処理部31にのみもたせ、全ペ
ージから抜き出した所定のページだけを編集対象にする
第2の編集処理部32には、スキップ修正機能をもたせ
ないようにすることも可能である。
【0077】すなわち、第1の編集処理部31にスキッ
プ修正機能をもたせることで、全ページを対象にする場
合にも、このスキップ修正機能により修正作業を効率良
く行なうことができる。一方、このスキップ修正機能を
第2の編集処理部32にもたせない場合にも、第2の編
集処理部32における編集対象は、第1の編集処理部3
1においてスキップ修正がなされた結果の編集処理結果
であり、また、第2の編集処理部32では、全ページの
うちの一部のページだけを編集対象とするので、スキッ
プ修正せずに1文字毎に逐次確認,修正を行なわせる場
合にも、修正作業効率は差程低下せず、また、スキップ
修正しないことにより確認精度,修正精度をより一層向
上させることができる。
【0078】なお、利用者の要望等により、上記とは逆
に、このようなスキップ修正機能を、全ページから抜き
出した所定のページだけを編集対象にする第2の編集処
理部32にのみもたせ、全ページを編集対象にする第1
の編集処理部31には、スキップ修正機能をもたせない
ようにすることも可能である。また、第1の編集処理部
31,第2の編集処理部32のいずれにも、スキップ修
正機能をもたせないようにすることも可能である。
【0079】さらに、本発明において、第1の編集処理
部31および第2の編集処理部32は、編集(確認,修
正等)前後の履歴(修正履歴)を作成管理するようになっ
ており、このような修正履歴により、修正頻度の高い文
字についての情報を修正文字情報として管理し、ユーザ
により図8の修正文字通知ボタンが操作されたとき、例
えば図13に示すように、修正文字情報画面を表示装置
18に表示し、ユーザに修正頻度の高い文字を通知する
機能をも有している。
【0080】具体的に、修正頻度の高い文字としては、
第1の編集処理部31および第2の編集処理部32にお
いて、例えば20回以上修正されている文字とすること
ができ、このような文字が存在することによって、修正
の頻度が高くなり、修正作業の効率を低下させている。
【0081】従って、上記のように修正頻度の高い文字
をユーザに通知することによって、ユーザは、辞書管理
部10を起動して、辞書5内のこの文字の標準パターン
や標準的な特徴量を修正し、この文字について認識処理
部4で正確な認識がなされるようにすることができる。
すなわち、修正文字情報(修正頻度の高い文字の情報)を
通知することで、辞書管理部10により認識用の辞書5
が更新(学習)され、この認識処理システムの認識精度を
逐次向上させることが可能となる。
【0082】また、上記の例では、辞書5内のこの文字
の標準パターンや標準的な特徴量の修正を、ユーザによ
り行なわせるとしたが、辞書管理部10において、自動
的に辞書5を更新(学習)するよう構成することも可能で
ある。すなわち、第1の編集処理部31および第2の編
集処理部32からの修正文字情報を辞書管理部10に与
え、辞書管理部10において、第1の編集処理部31お
よび第2の編集処理部32からの修正文字情報に基づい
て、修正頻度の高い文字についての標準パターンや標準
的な特徴量を修正頻度が少なくなる方向に自動更新し、
辞書5を自動更新(学習)することも可能である。
【0083】なお、このような辞書5の更新処理は、例
えばページ毎に行なわれても良いし、nページ分の文書
全体(例えばnページ分の会議録原稿)の編集処理が完了
した時点で行なわれても良い。
【0084】また、このような辞書5の更新(学習)がな
されることによって、認識処理部4の認識精度が向上
し、修正頻度が低下すると考えられるので、辞書5の更
新管理がなされる毎に、抜き取り率wを低くすることが
できる。
【0085】例えば、第2の編集処理部32における抜
き取り率wを、システムの稼働当初は、例えば、100
%に設定して処理を行なわせ、次いで、辞書5が更新さ
れると、抜き取り率wを100%から例えば80%に設
定変更し、次いで、辞書5が更新されると、抜き取り率
wを80%から例えば60%に設定変更するというよう
に、抜き取り率wを辞書5の更新の都度、下げることが
できる。これにより、使用する毎に、作業効率を徐々に
高めることが可能となる。
【0086】さらに、本発明において、上記第2の編集
処理部32は、抜き出したページについての認識結果
(編集処理結果)の確認,修正等の編集を行なったとき、
どの程度の割合いで修正がなされたかの情報,すなわち
修正率の情報を出力(例えばユーザに通知)する機能をも
有している。このような機能をも有している場合、ユー
ザは、この修正率の情報を見ることで、第1回目の編集
処理において確認修正もれの度合を知ることができる。
すなわち、第2の編集処理部32での編集処理におい
て、修正率が高いと、第1回目の編集処理において確認
修正もれが多いことがわかる。これにより、ユーザは、
第1回目の編集処理にスキップ修正が用いられる場合、
この修正率情報に基づき確信度の閾値の変更を行ない、
第1回目の編集処理における確認修正もれの度合いを少
なくすることができる。例えば、修正率が高い場合に
は、確信度の閾値をより高く設定し直す一方、修正率が
低い場合は、確信度の閾値をより低く設定し直すことが
できる。
【0087】なお、このような確信度の閾値の変更をユ
ーザによらずに自動的に行なうこともできる。すなわ
ち、修正率情報の出力に応じて、確信度の閾値を自動的
に更新することもできる。
【0088】上述の説明では、第1の編集処理部31で
は抜き取り処理を行なわず、第2の編集処理部32で抜
き取り処理を行なうとしたが、これとは逆に、第1の編
集処理部31で抜き取り処理を行ない、第2の編集処理
部32で抜き取り処理を行なわないようにすることもで
きる。また、この場合、例えば、第1の編集処理部31
ではスキップ修正処理を行なわず、第2の編集処理部3
2でスキップ修正処理を行なうようにすることもでき
る。なお、ここで、抜き取り処理を行なわないことは、
抜き取り率wを100%にすることを意味する。
【0089】また、上述の説明では、説明の便宜上、編
集処理部8が第1の編集処理部31と第2の編集処理部
32とからなるものとしたが、第1の編集処理部31,
第2の編集処理部32のそれぞれの機能を、1つの編集
処理部8にもたせることも可能である。
【0090】また、上述の説明では、抜き取り率wを、
ページ単位に設定したが(全ページに対する抜き取りペ
ージ数として設定したが)、ページ単位に限らず、任意
の単位(例えば行単位,あるいはブロック単位)に設定す
ることも可能である。
【0091】換言すれば、本発明は、認識結果に対して
少なくとも2回の編集処理を施し、その際、各編集処理
において、認識結果の抜き取り率を互いに相違させ、各
編集処理において、所定の抜き取り率で認識結果の抜き
取りがなされたとき、抜き取られた認識結果に対しての
み、編集処理を施すことを特徴としている。
【0092】次に、このような構成の文字認識システム
の処理動作の具体例について説明する。本発明の文字認
識システムがソフトウェアパッケージ(情報記録媒体)2
0の形で提供される場合、ユーザは、この情報記録媒体
20を媒体駆動装置21にセットし、文字認識システム
ソフトを例えばRAM13にロードする。この段階で、
CPU11は、例えばRAM13にロードされた文字認
識システムソフトに従って、処理を実行することができ
る。
【0093】スキャナ14が例えばADFである場合、
スキャナ14に例えば複数枚の原稿をセットすると、ス
キャナ14は、複数枚の原稿を順次に読取る。説明を簡
単にするため、各原稿が片面単票原稿であるとすると、
1枚の原稿が1ページに対応し、従って、例えばn(n
≧1)枚の原稿を読取ると、nページ分の文書画像がペ
ージ単位に得られ、これらが、文書画像ファイル15に
順次に格納される。
【0094】CPU11では、文書画像ファイル15に
格納されたnページ分の文書画像に対し、辞書ファイル
16中の辞書を用いてページ単位に文字認識処理を行な
い、ページ毎の認識結果をテキストとして、テキストフ
ァイル17に順次に格納する。
【0095】ユーザは、例えばこの段階で、テキストフ
ァイル17にページ単位に格納されたnページ分の認識
結果(テキスト)に対して、ページ単位に確認,修正等の
編集処理(第1回目の編集処理)を行なうことができる。
すなわち、ユーザはページ毎に誤認識文字等を修正する
ことができる。この編集処理は、前述の第1の編集処理
部31によって全ページnを対象に行なわれる。この場
合、この編集処理は、ユーザが修正の必要な箇所にマウ
ス等でカーソルを移動させて行なうこともできるが、前
述のようなスキップ修正機能が備わっている場合、低確
信度文字のところに、カーソルを自動的にスキップさ
せ、低確信度文字についての認識結果をユーザに確認さ
せ、また、修正させるようにすることもできる。すなわ
ち、例えば1ページ分の認識結果(テキスト)の先頭から
低確信度文字をサーチし、低確信度文字が検出されたと
きには、この文字のところにカーソルを自動設定して、
ユーザに確認,修正等を行なわせ、この文字について確
認,修正等が終了した旨のキー操作がなされると、次の
低確信度文字のところにカーソルを自動的にスキップ
し、ユーザにこの文字について確認,修正を行なわせる
ような表示制御を行なうこともできる。これにより、認
識結果の確認,修正等の際に、ユーザは文書全体に目を
通す必要がなくなり、作業効率を高めることができる。
【0096】このようにして、全ページn分の認識結果
に対する確認,修正等の編集が終了すると、この全ペー
ジn分の編集処理結果(認識結果)を第1の結果ファイル
41aに格納する。
【0097】この段階で、ユーザは、認識結果に対して
第2回目の編集処理を行なうことができる。すなわち、
第1の結果ファイル41aに格納された認識結果(編集
処理結果)に対し、さらに編集処理を行なうことができ
る。この編集処理は、前述の第2の編集処理部32によ
って、第1の結果ファイル41aに格納された全ページ
n分の認識結果(編集処理結果)の中から所定の抜き取り
率wで(予め設定された抜き取り率wで)任意のページを
ランダムに抜き出して行なわれる。すなわち、利用者
は、抜き出したページについて、誤認識文字等を修正す
ることができる。この場合、この編集処理は、例えばス
キップ修正機能を働かせることなく、行なわれる。この
ようにして抜き出したページの認識結果(編集処理結果)
に対する確認,修正等の編集が終了すると、この編集処
理結果を第2の結果ファイル41bに格納する。このよ
うにして、第1回目,第2回目の編集処理を行なうこと
ができる。また、必要に応じて、第3回目の編集処理を
行なうこともできる。
【0098】上記のように第1回目,第2回目の編集処
理がなされるとき、辞書管理部10では、第1回目の編
集前後の修正履歴、および第2回目の編集前後の修正履
歴を利用して、修正頻度の高い文字について、辞書5
(例えば、ユーザパターン辞書、あるいはユーザ言語辞
書など)のメンテナンス(更新など)を行なう。なお、こ
の辞書メンテナンスは、例えば、この処理の専門家によ
って行なうことができる。修正頻度の高い文字がどの程
度存在するかの情報は、上記修正履歴中の「修正文字情
報」により、容易に確認可能であり、例えば、ある文字
についての標準パターンなどを更新後、ある一定の期間
様子を見て、この文字について更新した標準パターンを
辞書5に登録しても大丈夫だと判断した場合には、この
文字について更新した標準パターンを辞書5に登録して
用いることができる。
【0099】また、ユーザは、第2回目の編集処理を行
なったとき、そのときの修正率の情報を得ることができ
る。すなわち、ユーザは、第2回目の編集処理で得られ
た修正率情報により、第1回目の編集処理において確認
修正漏れがどの程度発生しているかを任意のタイミング
で確認することができ、これによって、確信度の閾値を
適切なものに設定変更することができる。
【0100】また、上述の例では、nページ分の認識結
果(編集処理結果)から、所定の抜き取り率wでn×wペ
ージ分の認識結果(編集処理結果)を抜き出す仕方とし
て、例えば1からnまでの範囲内で、n×w個の乱数値
を発生させ、この乱数によって、nページ分からn×w
ページ分をランダムに抽出する(抜き出す)ようにしてい
るが、所定の抜き取り率wでn×wページ分の認識結果
(編集処理結果)を抜き出す仕方として、乱数を発生させ
てランダムに抽出する方法以外の任意の抜き出し法を用
いることもできる。例えば、第1ページ目(表紙部分)は
必ず抜き取って検査しなければならないような場合、上
述のようなランダムな抜き取り法では、第1ページ目
(表紙部分)が抜き取られないことがある。従って、この
ような場合には、必ず第1ページ目(表紙部分)が抜き取
られるような任意の演算法で、nページからn×wペー
ジを抽出し、抜き取ることもできる。
【0101】
【発明の効果】以上に説明したように、請求項1乃至請
求項12記載の発明によれば、認識結果の確認,修正な
どの編集において、編集の作業効率を著しく向上させる
ことができる。
【0102】特に、請求項1,請求項5,請求項6,請
求項11記載の発明によれば、認識結果に対して少なく
とも2回の編集処理を施し、その際、各編集処理におい
て、認識結果の抜き取り率を互いに相違させ、各編集処
理において、所定の抜き取り率で認識結果の抜き取りが
なされたとき、抜き取られた認識結果に対してのみ、編
集処理を施すので、認識結果の確認,修正などの編集を
効率良く行なうことができる。
【0103】また、請求項2,請求項7,請求項12記
載の発明によれば、パターン認識処理で認識結果ととも
に認識結果の確信度が算出されるとき、1回目の編集処
理では、所定の閾値以上の確信度の認識結果をスキップ
させ、低確信度の認識結果のみを修正させるので、認識
結果の確認,修正等の際に、利用者は文書全体に目を通
す必要がなくなり、作業効率を高めることができる。
【0104】また、請求項3,請求項9記載の発明によ
れば、編集処理手段において修正頻度の高い文字につい
ての情報が修正文字情報として出力されるとき、該修正
文字情報に基づいて辞書の更新を行なうことで、認識率
を向上させることができる。
【0105】また、請求項4,請求項8記載の発明によ
れば、2回目の編集処理で修正がなされた割合いを修正
率として出力し、該修正率に応じて確信度の閾値を更新
することで、認識率を向上させることができる。
【0106】また、請求項10記載の発明によれば、辞
書の更新の都度、抜き取り率を低下させるので、使用す
る毎に、作業効率を徐々に高めることが可能となる。
【図面の簡単な説明】
【図1】本発明に係る文字認識システムの構成例を示す
図である。
【図2】図1の文字認識システムのハードウェア構成例
を示す図である。
【図3】ある1ページ分の文書の例を示す図である。
【図4】図3の文書の認識結果あるいは編集処理結果を
確認,修正等するための表示例を示す図である。
【図5】表示画面上で、基準線の一方の側に表示される
認識結果あるいは編集処理結果と基準線の他方の側に表
示される文書画像(文字画像)とを、常に連動させて、ス
クロールあるいは移動させる機能を説明するための図で
ある。
【図6】表示画面上で、基準線の一方の側に表示される
認識結果あるいは編集処理結果と基準線の他方の側に表
示される文書画像(文字画像)とを、常に連動させて、ス
クロールあるいは移動させる機能を説明するための図で
ある。
【図7】図3の文書の認識結果を確認,修正等するため
の表示例を示す図である。
【図8】編集処理の初期画面の一例を示す図である。
【図9】抜き取り設定画面の一例を示す図である。
【図10】第1の編集処理部の処理例を示すフローチャ
ートである。
【図11】第2の編集処理部の処理例を示すフローチャ
ートである。
【図12】第2の編集処理部の処理例を示すフローチャ
ートである。
【図13】修正文字情報画面の表示例を示す図である。
【符号の説明】
1 画像入力部 2 文書画像記憶部 4 認識処理部 5 辞書 6 認識結果記憶部 8 編集処理部 9 編集処理結果記憶部 9a 第1の結果記憶部 9b 第2の結果記憶部 10 辞書管理部 11 CPU 12 ROM 13 RAM 14 スキャナ 15 文書画像ファイル 16 辞書ファイル 17 テキストファイル 18 表示装置 19 入力装置 20 情報記録媒体 21 媒体駆動装置 31 第1の結果記憶部 32 第2の結果記憶部 40 条件設定部 41 編集処理結果ファイル 41a 第1の結果ファイル 41b 第2の結果ファイル 42 テンポラリファイル

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 所定の文書画像にパターン認識処理を行
    なって得られる認識結果に対して編集処理を施す認識結
    果編集方法において、認識結果に対して少なくとも2回
    の編集処理を施し、その際、各編集処理において、認識
    結果の抜き取り率を互いに相違させ、各編集処理におい
    て、所定の抜き取り率で認識結果の抜き取りがなされた
    とき、抜き取られた認識結果に対してのみ、編集処理を
    施すことを特徴とする認識結果編集方法。
  2. 【請求項2】 請求項1記載の認識結果編集方法におい
    て、前記パターン認識処理で認識結果とともに認識結果
    の確信度が算出されるとき、前記1回目の編集処理で
    は、所定の閾値以上の確信度の認識結果をスキップさ
    せ、低確信度の認識結果のみを修正させることを特徴と
    する認識結果編集方法。
  3. 【請求項3】 請求項1記載の認識結果編集方法におい
    て、各編集処理では、編集前後の修正履歴を管理し、該
    修正履歴により、修正頻度の高い文字についての情報を
    出力することを特徴とする認識結果編集方法。
  4. 【請求項4】 請求項1記載の認識結果編集方法におい
    て、2回目の編集処理で修正がなされた割合いを修正率
    として出力することを特徴とする認識結果編集方法。
  5. 【請求項5】 認識用の辞書と、文書画像に対して前記
    辞書を用いてパターン認識処理を施す認識処理手段と、
    該認識処理手段による認識結果に対して編集処理を行な
    う編集処理手段とを備え、前記編集処理手段は、認識結
    果に対して少なくとも2回の編集処理を施し、その際、
    各編集処理において、認識結果の抜き取り率を互いに相
    違させ、各編集処理において、所定の抜き取り率で認識
    結果の抜き取りがなされたとき、抜き取られた認識結果
    に対してのみ、編集処理を施すことを特徴とするパター
    ン認識システム。
  6. 【請求項6】 請求項5記載のパターン認識システムに
    おいて、前記抜き取り率は、更新可能に設定されること
    を特徴とするパターン認識システム。
  7. 【請求項7】 請求項5記載のパターン認識システムに
    おいて、前記認識処理手段で認識結果とともに認識結果
    の確信度が算出されるとき、前記編集処理手段は、1回
    目の編集処理では、所定の閾値以上の確信度の認識結果
    をスキップさせ、低確信度の認識結果のみを修正させる
    ようになっていることを特徴とするパターン認識システ
    ム。
  8. 【請求項8】 請求項7記載のパターン認識システムに
    おいて、前記編集処理手段は、さらに、2回目の編集処
    理で修正がなされた割合いを修正率として出力する機能
    を有しており、前記確信度の閾値は、前記編集処理手段
    から出力される修正率に応じて更新可能になっているこ
    とを特徴とするパターン認識システム。
  9. 【請求項9】 請求項5記載のパターン認識システムに
    おいて、さらに、前記辞書を管理する辞書管理手段が設
    けられており、前記辞書管理手段は、前記編集処理手段
    において修正頻度の高い文字についての情報が修正文字
    情報として出力されるとき、該修正文字情報に基づいて
    辞書の更新を行なう機能を有していることを特徴とする
    パターン認識システム。
  10. 【請求項10】 請求項9記載のパターン認識システム
    において、辞書の更新の都度、抜き取り率を低下させる
    ことを特徴とするパターン認識システム。
  11. 【請求項11】 所定の文書画像にパターン認識処理を
    行なって得られる認識結果に対して少なくとも2回の編
    集処理を施し、その際、各編集処理において、認識結果
    の抜き取り率を互いに相違させ、各編集処理において、
    所定の抜き取り率で認識結果の抜き取りがなされたと
    き、抜き取られた認識結果に対してのみ、編集処理を施
    すためのプログラムが記録されていることを特徴とする
    情報記録媒体。
  12. 【請求項12】 パターン認識処理では認識結果ととも
    に認識結果の確信度を算出し、認識結果を編集する際に
    は所定の閾値以上の確信度の文字をスキップさせて修正
    させるためのプログラムが記録されていることを特徴と
    する情報記録媒体。
JP23143596A 1996-08-13 1996-08-13 パターン認識システム Expired - Fee Related JP3619333B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23143596A JP3619333B2 (ja) 1996-08-13 1996-08-13 パターン認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23143596A JP3619333B2 (ja) 1996-08-13 1996-08-13 パターン認識システム

Publications (2)

Publication Number Publication Date
JPH1063773A true JPH1063773A (ja) 1998-03-06
JP3619333B2 JP3619333B2 (ja) 2005-02-09

Family

ID=16923511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23143596A Expired - Fee Related JP3619333B2 (ja) 1996-08-13 1996-08-13 パターン認識システム

Country Status (1)

Country Link
JP (1) JP3619333B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008003740A (ja) * 2006-06-21 2008-01-10 Fuji Xerox Co Ltd 入力修正方法、追記情報処理方法、追記情報処理装置、およびプログラム
EP1973061A2 (en) 2007-03-15 2008-09-24 NEC Corporation Character recognition system, character recognition method and automated mail sorting system
JP2009230658A (ja) * 2008-03-25 2009-10-08 Mitsubishi Electric Corp 文字検索システム
JP2013130997A (ja) * 2011-12-21 2013-07-04 Kyocera Document Solutions Inc 画像形成装置
JP2019117527A (ja) * 2017-12-27 2019-07-18 株式会社日本デジタル研究所 会計処理装置、会計処理システム、会計処理方法及びプログラム
JP2021068292A (ja) * 2019-10-25 2021-04-30 株式会社 ゆうちょ銀行 情報処理装置、情報処理方法および情報処理プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57162081A (en) * 1981-03-31 1982-10-05 Toshiba Corp Optical character reader
JPH03185582A (ja) * 1989-12-14 1991-08-13 Fujitsu Ltd 文字認識装置の辞書修正方式
JPH05346970A (ja) * 1991-04-04 1993-12-27 Fuji Xerox Co Ltd 文書認識装置
JPH0728766A (ja) * 1993-06-24 1995-01-31 Toshiba Corp パターン認識システム及び監視システム
JPH0793485A (ja) * 1993-09-22 1995-04-07 Toshiba Corp 画像ファイリング装置
JPH08202485A (ja) * 1995-01-31 1996-08-09 Toshiba Corp タブレット劣化検出方法、タブレット劣化報知方法、文字認識方法及び文字認識装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57162081A (en) * 1981-03-31 1982-10-05 Toshiba Corp Optical character reader
JPH03185582A (ja) * 1989-12-14 1991-08-13 Fujitsu Ltd 文字認識装置の辞書修正方式
JPH05346970A (ja) * 1991-04-04 1993-12-27 Fuji Xerox Co Ltd 文書認識装置
JPH0728766A (ja) * 1993-06-24 1995-01-31 Toshiba Corp パターン認識システム及び監視システム
JPH0793485A (ja) * 1993-09-22 1995-04-07 Toshiba Corp 画像ファイリング装置
JPH08202485A (ja) * 1995-01-31 1996-08-09 Toshiba Corp タブレット劣化検出方法、タブレット劣化報知方法、文字認識方法及び文字認識装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008003740A (ja) * 2006-06-21 2008-01-10 Fuji Xerox Co Ltd 入力修正方法、追記情報処理方法、追記情報処理装置、およびプログラム
EP1973061A2 (en) 2007-03-15 2008-09-24 NEC Corporation Character recognition system, character recognition method and automated mail sorting system
JP2009230658A (ja) * 2008-03-25 2009-10-08 Mitsubishi Electric Corp 文字検索システム
JP2013130997A (ja) * 2011-12-21 2013-07-04 Kyocera Document Solutions Inc 画像形成装置
JP2019117527A (ja) * 2017-12-27 2019-07-18 株式会社日本デジタル研究所 会計処理装置、会計処理システム、会計処理方法及びプログラム
JP2021068292A (ja) * 2019-10-25 2021-04-30 株式会社 ゆうちょ銀行 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
JP3619333B2 (ja) 2005-02-09

Similar Documents

Publication Publication Date Title
RU2641225C2 (ru) Способ выявления необходимости обучения эталона при верификации распознанного текста
JPH1021326A (ja) 認識結果表示方法および文字認識システムおよび情報記録媒体
US10902278B2 (en) Image processing apparatus, image processing system, computer program product, and image processing method
JPH1063773A (ja) 認識結果編集方法およびパターン認識システムおよび情報記録媒体
JP2013229011A (ja) 帳票識別装置および帳票識別方法
US11042695B2 (en) Information processing apparatus and non-transitory computer readable medium for generating input screen information
JP2006277001A (ja) 入力イメージ表示方法および入力イメージ表示プログラム
WO2002003240A1 (en) Proofreading system of chinese characters by means of one-to-one comparison
JP4357226B2 (ja) 帳票定義装置、帳票定義方法及び帳票定義プログラム
JPH07271916A (ja) 学習パターン生成装置及びこれを用いた文字認識装置
JP4162195B2 (ja) 画像処理装置、及び画像処理プログラム
JPH0388086A (ja) 文書読取装置
JP4390723B2 (ja) 情報埋め込み装置、情報抽出装置、情報埋め込み方法、情報抽出方法、情報埋め込みプログラム、情報抽出プログラム及び記録媒体
JPH09185615A (ja) かな漢字変換方法
JP7076173B2 (ja) 文書管理装置および文書管理システム
JPH05128300A (ja) 文字認識方法及びその装置
JP2001282429A (ja) 文字データ入力装置
JPH06348889A (ja) 文字認識装置
JPH0520492A (ja) 文書認識修正装置
JPH06251187A (ja) 文字認識誤り修正方法及び装置
JP2000123116A (ja) 文字認識結果修正方法
JPH10283393A (ja) 設計支援システム
JPH0973515A (ja) 文字認識装置
JPH08335245A (ja) 文書読取装置
JP2007184842A (ja) 画像処理装置、画像処理方法、及び、画像処理プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041112

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071119

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081119

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081119

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091119

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101119

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111119

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111119

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121119

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131119

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees