JPH096923A - 文字認識装置 - Google Patents
文字認識装置Info
- Publication number
- JPH096923A JPH096923A JP7178120A JP17812095A JPH096923A JP H096923 A JPH096923 A JP H096923A JP 7178120 A JP7178120 A JP 7178120A JP 17812095 A JP17812095 A JP 17812095A JP H096923 A JPH096923 A JP H096923A
- Authority
- JP
- Japan
- Prior art keywords
- character
- word
- characters
- candidate
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims description 51
- 240000000220 Panda oleosa Species 0.000 claims description 11
- 238000012937 correction Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 abstract description 28
- 150000001875 compounds Chemical class 0.000 abstract description 17
- 235000016496 Panda oleosa Nutrition 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000007796 conventional method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- UNPLRYRWJLTVAE-UHFFFAOYSA-N Cloperastine hydrochloride Chemical compound Cl.C1=CC(Cl)=CC=C1C(C=1C=CC=CC=1)OCCN1CCCCC1 UNPLRYRWJLTVAE-UHFFFAOYSA-N 0.000 description 1
- 102100040160 Rabankyrin-5 Human genes 0.000 description 1
- 101710086049 Rabankyrin-5 Proteins 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
を低減させる。 【構成】 前段11では、複数の認識候補文字及び認識
精度を出力バッファ4に出力する。次に、2単語文字抽
出部5で1位候補文字を検索し、漢字の場合にその漢字
とそれに続く1文字のポインタをポインタ格納エリアに
格納する。単語照合部6は、格納されたポインタの連続
性を調べて連続する漢字を先頭とする2文字からなる2
文字単語を取り出すと共に、取り出された2文字単語の
1位候補文字の認識精度が2文字共に最高ランク以外の
場合に各文字の1位候補文字が漢字であれば、その各文
字の1位候補文字の類似文字を類似文字辞書8から候補
文字に付加し、漢字2文字又は漢字1文字と送りかな1
文字の組で構成された単語辞書7とポインタの連続性を
みて取り出した2文字単語の各候補文字との組合せを単
語照合し、照合結果を出力バッファ4に書込む。
Description
特に、文字認識処理において文字認識後に単語の自動修
正を行う文字認識装置および単語の自動修正方法に関す
る。
理、すなわち、光学的に読み取った原稿データを電気的
に変換して得たイメージデータ(画像データ)を認識辞
書を用いて文字認識し認識結果に対応する文字コードを
得る処理の段階では複数組の認識辞書を用いる方式や、
特開昭59−106083号(名称「単語読み取り装
置」)に開示のように外字(認識辞書に含まれない認識
対象文字以外の文字をいう)を含む単語(2文字以上の
文字からなる複合語をいう、以下同じ)を格納した単語
辞書と、外字と字形の類似した類似文字テーブルとを備
えて外字を含む単語を認識できるように構成したものが
ある。
の技術は認識処理において類似文字を単語照合時に認識
結果に追加して使用するものであり、認識辞書に登録さ
れていない認識対象文字と外字との組合せからなる類似
文字テーブルと外字からなる単語辞書を用いることによ
り認識辞書の容量を大きくすることなく認識できる文字
の数を増やすことができる。
ずつ認識された文字には原稿文字の曖昧さや、誤字、或
いは認識精度上の原因等を理由とする誤認識文字が潜在
的に発生し得る。このような誤認識文字に対しては従来
から文字認識結果(認識文字)とイメージデータを対応
させて表示し、使用者が目視により検査して誤認識文字
があった場合に入力装置から正しい文字を入力して修正
を施す作業が行われているが、文字認識内部での誤認識
の自動修正方式として、文字認識装置における認識処理
において、1文字毎に文字認識を行った後の後段処理と
して、2文字以上の複合語に対する修正処理がある。従
来の文字認識装置において、上述のような後段処理を行
うものは、先ず、認識された文字列を文字列の変わり目
等で複合語(以下、2つ以上の文字からなる語をいう)
に分割し、次に、分割された複合語を複合語単語辞書と
単語照合し、単語照合して得られた複合語同士を文法辞
書で接続検査を行いながら誤認識文字を自動修正してい
る。
たような後段処理を行う文字認識装置では認識文字を自
動修正するためには、単語照合を行う文字列の各文字の
候補文字まで使って多くの組合せで単語照合をしなけれ
ばならず、さらに、照合した文字列同士が接続可能か否
かを文法辞書を使って接続可能かを判定してから結果を
出力するという作業が行われているので、処理時間がか
かり、精度を向上させるためには辞書の内容を増やさざ
るを得ず、辞書の内容の増加に従って平均処理時間が増
大するという問題点があった。
しく文字読み取り装置の性能向上などにより認識精度が
向上してきたため、上述したような従来の後段処理技術
では処理時間の増分に対して認識精度の向上度は低く、
例えば、長い複合語の照合を行うためその間に更に誤修
正を重ねることがあるという問題点があった。
になされたものであり、文字認識処理において2文字以
上からなる複合語について、2文字単語辞書を用いて照
合を行うことにより処理速度を向上させると共に誤修正
率を従来方式より低減させ得る文字認識装置の提供を目
的とする。
めに第1の発明の文字認識装置は、画像データを文字コ
ードに変換し、得られた複数の認識候補文字の文字コー
ドを出力する認識処理の前段部と、(1) 前段部の出
力を格納する出力格納部と、(2) 記憶部に格納され
た1位候補文字の文字コードを検索して文字種別が漢字
の場合にその漢字の文字コードとそれに続く1文字の文
字コードのポインタを格納する2単語文字抽出部と、
(3) 漢字2文字分の文字コードまたは漢字1文字分
の文字コードと送りかな1文字分の文字コードの組を含
む2文字単語辞書と、(4) 格納されたポインタが連
続する場合に、単語辞書の文字コード該連続するポイン
タによって参照される各候補文字の文字コードとを単語
照合して修正用文字コードを得る単語照合部と、を有す
ることを特徴とする。
を文字コードに変換し、得られた複数の認識候補文字の
文字コードと認識精度を出力する認識処理の前段部と、
(1) 前段部の出力を格納する出力格納部と、(2)
記憶部に格納された1位候補文字の文字コードを検索
して文字種別を判定する文字種判定手段と、文字種別が
漢字の場合にその漢字の文字コードとそれに続く1文字
の文字コードのポインタを格納するポインタ格納手段
と、を有する2単語文字抽出部と、(3) 漢字2文字
分の文字コードまたは漢字1文字分の文字コードと送り
かな1文字分の文字コードの組を含む2文字単語辞書
と、(4) 格納されたポインタの連続性を調べて連続
する漢字を先頭とする2文字分の各候補文字の文字コー
ドおよび1位候補文字の認識精度を取り出す連続性判定
手段と、読み出された2文字分の1位候補文字の認識精
度のランクを判定する認識精度ランク判定手段と、認識
精度が2文字共に最高ランク以外の場合に、単語辞書と
読み出した各候補文字の文字コードとを単語照合する単
語辞書照合手段と、照合の結果得た文字コードで出力格
納部に格納された対応の文字コードを書換える単語修正
手段と、を含む単語照合部と、を有することを特徴とす
る。
を文字コードに変換し、得られた複数の認識候補文字の
文字コードと認識精度を出力する認識処理の前段部と、
(1) 前段部の出力を格納する出力格納部と、(2)
記憶部に格納された1位候補文字の文字コードを検索
して文字種別を判定する文字種判定手段と、文字種別が
漢字の場合にその漢字の文字コードとそれに続く1文字
の文字コードのポインタを格納するポインタ格納手段
と、を有する2単語文字抽出部と、(3) 漢字2文字
分の文字コードまたは漢字1文字分の文字コードと送り
かな1文字分の文字コードの組を含む2文字単語辞書
と、(4) 類似文字の文字コードから構成される類似
文字辞書と、(5) 格納されたポインタの連続性を調
べて連続する漢字を先頭とする2文字分の各候補文字の
文字コードおよび1位候補文字の認識精度を取り出す連
続性判定手段と、読み出された2文字分の1位候補文字
の認識精度のランクを判定する認識精度ランク判定手段
と、認識精度が2文字共に最高ランク以外の場合に、1
位候補文字について類似文字辞書を参照し、得られた類
似文字を候補文字として追加する候補文字追加手段と、
単語辞書と読み出した各候補文字の文字コードとを単語
照合する単語辞書照合手段と、照合の結果得た文字コー
ドで出力格納部に格納された対応の文字コードを書換え
る単語修正手段と、を含む単語照合部と、を有すること
を特徴とする。
の文字認識装置は、2文字単語辞書を備え、文字列を2
文字ずつに区切って漢字2文字か漢字1文字と送り仮名
1文字について2文字単語辞書との照合を行うので照合
時間が短い。従って、文字認識処理速度が従来技術に比
べ飛躍的に向上する。具体的には、従来の複合語単語辞
書は2文字単語、3文字単語、4文字単語、・・・とい
うように多くの単語が登録されており、単語の登録数と
しては2文字単語が約3万語、3文字単語が約1万語、
4文字単語が約5千語、・・・となっている。ここで、
例えば、2文字単語が3万語、3文字単語が1万語、4
文字単語が5千語、5文字単語が2千語で構成される単
語辞書のサイズは1文字あたり2バイトの容量が必要と
して、 (2×30000)+(3×10000)+(4×50
00)+5×2000=120,000 文字であり、 120,000×2=240,000バイト となる。一方、本発明の単語辞書は2文字単語だけで構
成されているので、 (2×30000)=60,000文字、 (60,000×2)=120,000バイト となり、単語辞書のサイズが従来の単語辞書の半分とな
り、照合時間も半分ですむことになる。
度の低い2文字について単語辞書との照合を行うよう構
成されているので、第1の発明の文字認識装置より処理
速度が早い。更に、第3の発明の文字認識装置は類似辞
書を備え、認識精度ランクの低い2文字の1位候補文字
について類似辞書を照合し、得られた結果を第n+1候
補文字として追加するように構成されているので、第1
〜第n候補文字に正解文字がない場合でも正解文字を得
ることができる。
置のブロック図であり、1は読み取り部、2は文字認識
部3用の認識部辞書、3は認識部、4は出力バッファ、
5は2単語文字抽出部、6は単語照合部、7は単語辞
書、8は類似文字辞書である。なお、認識部辞書2及び
認識部3は認識処理のうち文字認識を行う前段部11を
構成し、2単語文字抽出部5〜類似文字辞書8は認識処
理のうち単語の自動修正を行う後段部12を構成する。
的に読み取って電気信号に変換し、画像データを得る。
認識処理の前段部11で文字認識部3は認識部辞書2を
参照しながら画像データを文字コードに変換し、得られ
た複数の認識候補文字(候補文字コード)と認識精度を
ランクづけた精度ランクを出力バッファ4に出力する。
抽出部5は出力バッファ4から1位候補文字コードを検
索し漢字、平かな、片仮名、数字、記号等の文字種別を
判定し、漢字の場合にその漢字とそれに続く1文字(漢
字とは限らない)のポインタを格納し、ポインタ格納エ
リア(図示せず)に格納する。
されたポインタの連続性を調べて連続する漢字を先頭と
する2文字からなる2文字単語を取り出すと共に、取り
出された2文字単語の1位候補文字の認識精度が2文字
共に最高ランク以外の場合に各文字の1位候補文字が漢
字であれば、その各文字の1位候補文字の類似文字を類
似文字辞書8から候補文字に付加し、漢字2文字または
漢字1文字と送りかな1文字の組で構成された単語辞書
7とポインタの連続性をみて取り出した2文字単語の各
候補文字との組合せを単語照合し、照合結果を出力バッ
ファ4に書込む。
ローチャートであり、図3は漢字2文字または漢字1文
字と送りかな1文字で構成された2文字単語を格納した
単語辞書7の例を視覚的に示した説明図であり、図4は
類似文字辞書8の例を視覚的に示した説明図である。
字」のあとに付く文字数、すなわち、2文字単語を最初
の漢字とそれに続く1文字の漢字からなる意味のある2
文字、最初の漢字と1文字の送りかなからなる2文字と
定義すると、「個数」とは「先頭の文字」である漢字と
組になって意味を有する「後の文字」である漢字または
送りかなのうち単語辞書に登録されている漢字の個数を
いう。
である”玄”に対し意味のある漢字として登録されてい
る「後の文字」は”海”,”関”,”人”の3個であ
り、2文字単語としては”玄海”,”玄関”,”玄人”
が登録されていることを意味している。また、番号2で
は「先頭の文字」である”現”に対し、「後の文字」と
しては送りかなである”れ”及び漢字”員”,”下”,
・・・,”在”が単語として登録されている。
の数を示し、「1位候補文字」とは認識結果の1位候補
文字を表わし、「類似文字」とは「1位候補文字」の類
似文字を意味する。なお、「類似文字」は候補文字以外
で「1位候補文字」と(文字認識の上で)類似性が高い
もの、例えば、経験的に(或いは、傾向として)得られ
る文字、のうちからその傾向度の高い順に登録されてい
る。例えば、図4の番号2において、「1位候補文字」
が”誠”のときに認識部3が候補文字として出力した文
字以外に「類似文字」として”識”,”譲”が6位候補
文字,7位候補文字として追加されている。
識装置についての動向”を例とした場合の認識処理過程
における候補文字,類似文字,出力文字列およびポイン
タの説明図であり、図6は図5の入力文字列から2単語
文字抽出部5によってポインタ格納エリアに格納された
各文字のポインタと候補文字および類似文字の関係を示
す説明図である(なお、図5,図6で類似文字として文
字”識”の類似文字のみを示し他の文字列の類似文字は
表示を省略した)。
意味する。認識精度は精度の高いものからクラス分けさ
れ、本実施例では精度の高いものから「0,1,2」の
3段階にクラス分けされており、数字「3」の場合はリ
ジェクトを意味する。ここで、上記入力文字列のうち文
字”現”を例にとると文字認識部3による認識結果は1
位候補文字が”現”で精度が1、2位候補文字が”硯”
で精度が1、3位候補文字が”覗”で精度が「2」、4
位候補文字が”環”で精度が「2」、5位候補文字が”
明”で精度が「2」となっている。
の入力文字列”現代の日本語文字認識装置についての動
向”を例として本発明による認識処理の後段部12の動
作について説明する。認識処理の前段部11の認識部3
から出力された1位から第5位の候補文字及び精度が出
力バッファ4に書込まれる。後段部12では出力バッフ
ァ4の検索を開始する。ステップS1で2単語文字抽出
部5が出力バッファ4に格納されている候補文字のうち
1位候補文字だけを検索し、漢字であるか否かの判定を
行い、処理対象(すなわち、漢字)の場合にはステップ
S2に移行し、漢字以外の場合にはステップS4に移行
する(図5の文字”現”を例に取るとこの場合は漢字で
あるからステップS2に移行する。また、図5の文字”
の”の場合には漢字ではないからステップS4に移行す
る)。
字コードおよび認識精度の格納位置を示すポインタ)を
ポインタ格納エリアに格納してしてステップS3に移行
する(上述の例では”現”およびそれに続く文字”左”
のポインタ”0”,”1”をポインタ格納エリアに格納
してしてステップS3に移行する)。ステップS3で2
文字分スキップしステップS6に移行する(上述の例で
は次に参照するポインタを1位候補文字”の”のポイン
タ”2”として、ステップS5に移行する)。ステップ
S4ではステップS1で認識対象外の文字種として判定
された文字について1文字分スキップしてポインタを格
納することなくそのままステップS5に移行する(図5
の文字”の”の例では1文字分スキップして次に参照す
るポインタを1位候補文字”日”のポインタ”3”とし
てステップS5に移行する)。
いるか否かを判定し終了している場合にはステップS6
に移行し、終了していない場合には次の1位候補文字を
検索するためステップS1に戻る。
S5の処理を1位候補文字列の最後まで繰返し、2文字
単語のポインタの組”0,1”,”3,4”,”5,
6”,”7,8”,”9,A”,”B,C”,”11,
12”を得る(図6参照)。次に、ステップS6で単語
照合部6はポインタ格納エリアに格納されたポインタを
先頭から検索し次に格納されているポインタとの連続性
を調べることにより文字列の連続性を判定し、連続性の
ある場合はステップS7に移行し連続性のない場合はス
テップS12に移行する(図6の例ではポインタ”0”
と次のポインタ”1”の示す文字列”現在”については
ポインタ”0”,”1”が連続しているのでステップS
7に移行する。これに対し、ポインタ”1”とポイン
タ”3”の示す文字列”在日”の場合はポインタが連続
していないのでステップS12に移行する)。
精度を調べ精度が2文字とも最高ランクの精度である0
でない場合にはステップS8に移行し、2文字の精度が
共に0の場合にはステップS12に移行する(文字列”
現在”の場合は2文字の1位候補文字の精度が共に1で
あり0ではないのでステップS8に移行する)。ステッ
プS8では類似文字辞書8を参照してそれら2文字の1
位候補文字の類似文字が類似文字辞書8に登録されてい
る場合に候補文字として登録されている類似文字をそれ
ぞれ追加する(図6の漢字文字列”現”および”左”の
1位候補文字”現”および”左”について類似文字が類
似文字辞書8にある場合はそれを該当文字の6候補文
字,7候補文字,・・・として追加してステップS9に
移行する)。
補文字〜5位候補文字および追加された候補文字として
の類似文字)ごとに単語辞書8に対し単語照合を行い単
語辞書8に登録されているものと一致したらステップS
10に移行し、一致していなければステップS12に移
行する。
ード)で出力バッファ4の1位候補文字(文字コード)
を書換えるための書込みを行なってから、ステップS1
1に移行する。なお、書込む単語照合結果は候補順位の
高いものを選択する。ステップS11では2文字分のポ
インタをスキップして次に参照するポインタを得てステ
ップS13に移行する(文字列”現在”の単語参照後は
次の文字列”日本”の単語照合を行うために参照するポ
インタを”3”としてステップS13に移行する)。
して次に参照するポインタを得てステップS13に移行
し、ステップS13では単語照合部6は全てのポインタ
の検索を終了するまでステップS6からステップS12
の処理を繰り返す。ここで、図6で、参照ポインタが”
5”のときは処理対象が”語”,”文”となりステップ
S9で単語照合結果が一致しないのでステップS12に
移行する。ステップS12ではポインタを1文字文スキ
ップして次に参照するポインタ”6”を得るので次の処
理対象が”文”,”宇”になる。次に参照するポインタ
が”8”の場合には処理対象は”認”,”誠”となる
が、この場合は”誠”の候補文字の中に類似文字辞書8
によって追加された「識」があるので「認識」と正しく
修正される。
処理対象は”装”,”置”となるがこの場合には認識精
度がいずれも”0”同士であるためステップS7で判定
されてステップS12に移行する。参照するポインタ
が”C”の場合にはステップS7で次のポインタが”1
1”でありポインタが連続せず、従って文字列も連続し
たものでないと判定されてステップS12に移行する。
参照するポインタが”11”の場合には処理対象は”
勤”,”向”となるが、ステップS7〜S9で”動向”
が得られステップS10で出力バッファ4の1位候補文
字列の”勤向”を”動向”と修正(書換え)する。ここ
ですべてのポインタを参照したので最終結果としての
「現在の日本語文字認識装置について」を得ることがで
きる。
動作は本実施例では2単語文字抽出部に相当し、ステッ
プS1は文字種判定手段に、ステップS2はポインタ格
納手段に相当する。また、上記ステップS6からS13
の動作は本実施例では単語照合部の動作に相当し、ステ
ップS6は連続性判定手段に、ステップS7は認識精度
ランク判定手段に、ステップS8は候補文字追加手段
に、ステップS9は単語辞書照合手段に相当する。
段の単語修正処理を行う場合と本発明による後段の単語
修正処理とを比較すると、従来技術では前述したよう
に、先ず、認識された文字列を文字列の変わり目等で複
合語に分割し、次に、分割された複合語を複合語単語辞
書と単語照合し、単語照合して得られた複合語同士を文
法辞書で接続検査を行いながら誤認識文字を自動修正し
ている。
字単語、3文字単語、4文字単語、・・・というように
多くの単語が登録されており、その中には2文字単語を
組合せただけの4文字単語や、2文字単語に接頭語や接
尾語が付いただけの3文字単語(例えば、「国語」,
「事典」→「国語事典」、「誤」,「認識」→「誤認
識」)のように実際には同じ2文字単語が形を変えて重
複登録されているものがあり、また、単語の登録数も2
文字単語が約3万語、3文字単語が約1万語、4文字単
語が約5千語、・・・となっている。
文字単語が1万語、4文字単語が5千語、5文字単語が
2千語で構成される単語辞書のサイズは1文字あたり2
バイトの容量が必要として、 (2×30000)+(3×10000)+(4×50
00)+5×2000=120,000 文字であり、 120,000×2=240,000バイト となる。一方、本発明の単語辞書は2文字単語だけで構
成されているので、 (2×30000)=60,000文字、 (60,000×2)=120,000バイト となり、単語辞書のサイズが従来の単語辞書の半分とな
る。認識結果が第5位候補文字まで出力される構成の場
合に、全ての組合せで候補文字と2文字単語辞書を照合
すると25回照合することになるので、辞書サイズが半
分での場合には照合時間も半分ですむことになる(すな
わち、従来の方式での単語辞書の照合時間を1とすると
本方式では0.5となる)。
られた複合語同士の接続検査をするための文法辞書を用
いているが、本発明では文法辞書を必要としないのでさ
らに処理速度が従来の0.5以下になる。
文字単位に文字列を区切って単語照合を行い、その際、
認識精度の判定を行い2文字の認識精度が共に最高ラン
クの場合以外の2文字だけについて単語辞書を用いて単
語照合を行うので誤認識された文字を高精度に修正する
ことができる。
合以外の文字について1位候補文字の類似文字を候補文
字として追加するので、文字認識の結果に正解文字がな
い場合でも修正することができる。
語辞書を用いているので辞書サイズが従来に比べて1/
2と小さくでき、また、文法辞書での複合語同士の接続
検査を要しないので処理速度が更に向上する。
ック図である。
動作例を示すフローチャートである。
示した説明図である。
る。
における候補文字,類似文字,出力文字列およびポイン
タの説明図である。
に格納された各文字のポインタと候補文字および類似文
字の関係を示す説明図である。
Claims (3)
- 【請求項1】 画像データを文字コードに変換し、得ら
れた複数の認識候補文字の文字コードを出力する認識処
理の前段部と、(1) 前段部の出力を格納する出力格
納部と、(2) 記憶部に格納された1位候補文字の文
字コードを検索して文字種別が漢字の場合にその漢字の
文字コードとそれに続く1文字の文字コードのポインタ
を格納する2単語文字抽出部と、(3) 漢字2文字分
の文字コードまたは漢字1文字分の文字コードと送りか
な1文字分の文字コードの組を含む2文字単語辞書と、
(4) 前記格納されたポインタが連続する場合に、前
記単語辞書の文字コード該連続するポインタによって参
照される各候補文字の文字コードとを単語照合して修正
用文字コードを得る単語照合部と、を有することを特徴
とする文字認識装置。 - 【請求項2】 画像データを文字コードに変換し、得ら
れた複数の認識候補文字の文字コードと認識精度を出力
する認識処理の前段部と、(1) 前段部の出力を格納
する出力格納部と、(2) 記憶部に格納された1位候
補文字の文字コードを検索して文字種別を判定する文字
種判定手段と、文字種別が漢字の場合にその漢字の文字
コードとそれに続く1文字の文字コードのポインタを格
納するポインタ格納手段と、を有する2単語文字抽出部
と、(3) 漢字2文字分の文字コードまたは漢字1文
字分の文字コードと送りかな1文字分の文字コードの組
を含む2文字単語辞書と、(4) 前記格納されたポイ
ンタの連続性を調べて連続する漢字を先頭とする2文字
分の各候補文字の文字コードおよび1位候補文字の認識
精度を取り出す連続性判定手段と、読み出された2文字
分の1位候補文字の認識精度のランクを判定する認識精
度ランク判定手段と、認識精度が2文字共に最高ランク
以外の場合に、前記単語辞書と前記読み出した各候補文
字の文字コードとを単語照合する単語辞書照合手段と、
上記照合の結果得た文字コードで前記出力格納部に格納
された対応の文字コードを書換える単語修正手段と、を
含む単語照合部と、を有することを特徴とする文字認識
装置。 - 【請求項3】 画像データを文字コードに変換し、得ら
れた複数の認識候補文字の文字コードと認識精度を出力
する認識処理の前段部と、(1) 前段部の出力を格納
する出力格納部と、(2) 記憶部に格納された1位候
補文字の文字コードを検索して文字種別を判定する文字
種判定手段と、文字種別が漢字の場合にその漢字の文字
コードとそれに続く1文字の文字コードのポインタを格
納するポインタ格納手段と、を有する2単語文字抽出部
と、(3) 漢字2文字分の文字コードまたは漢字1文
字分の文字コードと送りかな1文字分の文字コードの組
を含む2文字単語辞書と、(4) 類似文字の文字コー
ドから構成される類似文字辞書と、(5) 前記格納さ
れたポインタの連続性を調べて連続する漢字を先頭とす
る2文字分の各候補文字の文字コードおよび1位候補文
字の認識精度を取り出す連続性判定手段と、読み出され
た2文字分の1位候補文字の認識精度のランクを判定す
る認識精度ランク判定手段と、認識精度が2文字共に最
高ランク以外の場合に、1位候補文字について前記類似
文字辞書を参照し、得られた類似文字を候補文字として
追加する候補文字追加手段と、前記単語辞書と前記読み
出した各候補文字の文字コードとを単語照合する単語辞
書照合手段と、上記照合の結果得た文字コードで前記出
力格納部に格納された対応の文字コードを書換える単語
修正手段と、を含む単語照合部と、を有することを特徴
とする文字認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP17812095A JP3725206B2 (ja) | 1995-06-21 | 1995-06-21 | 文字認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP17812095A JP3725206B2 (ja) | 1995-06-21 | 1995-06-21 | 文字認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH096923A true JPH096923A (ja) | 1997-01-10 |
| JP3725206B2 JP3725206B2 (ja) | 2005-12-07 |
Family
ID=16043010
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP17812095A Expired - Lifetime JP3725206B2 (ja) | 1995-06-21 | 1995-06-21 | 文字認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3725206B2 (ja) |
-
1995
- 1995-06-21 JP JP17812095A patent/JP3725206B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JP3725206B2 (ja) | 2005-12-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH0877173A (ja) | 文字列修正システムとその方法 | |
| JPH0211934B2 (ja) | ||
| JP3975825B2 (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
| JPS61156466A (ja) | 単語抽出方式 | |
| JP2595934B2 (ja) | 仮名漢字変換処理装置 | |
| JPH096923A (ja) | 文字認識装置 | |
| JP2000331023A (ja) | 情報検索装置及び情報検索処理プログラムを記憶した記憶媒体 | |
| JP2870375B2 (ja) | 文章訂正装置 | |
| EP0314503A2 (en) | Dictionary structure for document processing apparatus | |
| JPH0244459A (ja) | 日本文訂正候補文字抽出方法 | |
| JP2908460B2 (ja) | 誤認識修正方法及び装置 | |
| JP2939945B2 (ja) | ローマ字住所認識装置 | |
| JPS646499B2 (ja) | ||
| JPH0248938B2 (ja) | ||
| JP2918380B2 (ja) | 文字認識結果の後処理方法 | |
| JPH0546814A (ja) | 文字読み取り装置 | |
| JP2595047B2 (ja) | 日本文誤り自動検定・訂正装置 | |
| JPH08305698A (ja) | 自然語解析方法及び装置 | |
| JPS62145463A (ja) | 仮名漢字変換方式 | |
| JPS6029823A (ja) | 適応型記号列変換方式 | |
| JPS62285189A (ja) | 文字認識後処理方式 | |
| JPH0540853A (ja) | 文字認識結果の後処理方式 | |
| JPH01281561A (ja) | 日本文訂正候補文字抽出方法 | |
| JPH09161014A (ja) | 文字認識装置 | |
| JPS62212871A (ja) | 文章読み上げ校正装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20040608 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20040608 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050428 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050906 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050921 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110930 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140930 Year of fee payment: 9 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| EXPY | Cancellation because of completion of term |