JPH09138840A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH09138840A
JPH09138840A JP7321180A JP32118095A JPH09138840A JP H09138840 A JPH09138840 A JP H09138840A JP 7321180 A JP7321180 A JP 7321180A JP 32118095 A JP32118095 A JP 32118095A JP H09138840 A JPH09138840 A JP H09138840A
Authority
JP
Japan
Prior art keywords
character
index table
characters
node
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7321180A
Other languages
English (en)
Inventor
Sayori Shimohata
さより 下畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP7321180A priority Critical patent/JPH09138840A/ja
Publication of JPH09138840A publication Critical patent/JPH09138840A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【解決手段】 テキスト中に出現する単語や表現は、テ
キストの種類や内容が同じであれば似通っている場合が
多い。本発明は、この特徴を利用して、認識対象と同類
のテキストに出現する単語や表現の文字列の並び方の性
質を予め数値化し、候補文字の確からしさの順位付けに
利用する。これにより、誤切り出しや誤認識によって欠
落した正解文字を補完する。 【効果】 単語列の並び方の妥当性による判断だけでな
く、頻度や出現確率、文字列の連続性といった要素を考
慮に入れた候補文字の順位付けを行うため、単語の部分
文字列や未登録語への頑健性を高め、ユーザが操作しや
すい。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、形態素解析装置
や、文字認識装置や音声認識装置等の自然言語処理装置
において、誤切り出しや誤認識によって欠落した正解文
字を補完するための、知識処理等に適する文字認識装置
に関する。
【0002】
【従来の技術】自然言語により記述された文書等を情報
処理装置に入力してデータベース化するような場合に、
光学的に文字を読み取って認識処理をすることが行われ
る。この文字認識処理の際には、認識結果を評価して、
誤読を排除する必要がある。こうした後処理を自動的に
行うために次のような技術が開発されている(情報処理
学会研究報告Vol.95,No,68(95-NL-107) )。これは、O
CR(光学的文字読取り装置)による文字認識結果に対
して、誤読文字の検出・修正を行う方法について述べた
ものである。これは、認識対象文字列に出現し得る単語
のリストと、単語間の接続可否に関する情報から、文字
毎に、その文字が出現する単語のID(識別符号)とそ
の文字の出現位置と単語の長さの情報を記述した文字イ
ンデックスを作成し、複数の可能性(候補文字)を持つ
認識結果と文字インデックスとを照合し、単語候補を抽
出した上で、候補文字の単語の並びとしての妥当性を判
定して、第1候補を決定している。
【0003】
【発明が解決しようとする課題】ところで、上記のよう
な従来の文字認識装置には更に次のような解決すべき課
題があった。上記の方法では、単語単位の認識を行うた
め、住所文字列のように、限定された文字列しか出現し
ない文書の認識には非常に効果がある。しかし、単語の
境界が不明確な場合や、候補文字列が単語辞書に存在し
ない場合には、十分に適切な処理を期待できない。ま
た、認識に用いる単語辞書は予め用意されているが、新
たに候補語を追加したり、文書によって候補語の優先度
を変化させる等、ユーザが自由に辞書の適用条件を操作
することができるような機能を持たせることは容易でな
い。
【0004】
【課題を解決するための手段】本発明は以上の点を解決
するため次の構成を採用する。 〈構成1〉文字認識結果を入力する入力部と、予め選定
したある文字がある文字の次に出現する出現確率を含む
情報を格納したインデックステーブルと、1文字毎の文
字認識結果中にリストアップされた複数の候補文字につ
いて、インデックステーブルを参照して、出現確率を比
較して候補文字の確からしさに順位付けをする知識処理
部とを備える。
【0005】〈説明〉文字認識結果は、例えば光学的文
字認識装置等から入力する。文字認識処理の際には、可
能な限り、1文字に対して複数の候補文字を認識結果と
してリストアップしておく。ある文字がある文字の次に
出現する出現確率が明らかになっていると、候補文字毎
に、その直前の文字との関係により、確からしさの順位
付けができる。これにより、誤認識や誤切り出しによっ
て欠落した認識結果の一部を修正し、補完することがで
きる。そのテキストに出現する確率の高い文字の並びが
インデックステーブルにあれば、文字認識結果の自動的
な後処理に信頼性が増す。出現確率は、その確率を直接
表す数値でなくても、ある文字の次にその文字が出現す
る可能性を数値を用いて間接的に示すような情報ならば
なんでもよい。なお、文字の並びとしたのは、必ずしも
一連の文字が単語を構成するかどうかにかかわらず、一
律に出現確率を求めるようにするからである。
【0006】〈構成2〉インデックステーブルは、認識
対象とされるテキストと同類のテキスト中に含まれる文
字の並びを抽出し、そのテキスト中に含まれるある文字
がある文字の次に出現する出現確率を数値化して構成す
る。
【0007】〈説明〉認識対象のテキストと同類のテキ
ストには、似通った表現や単語が使用されている確率が
高い。従って、そのテキストの文字の並び方の性質を利
用したインデックステーブルを作成して知識処理を行え
ば、文字認識の精度を向上させられる。この方法は、文
字の並びに着目して処理されることから、単語の区切り
や、使用語が未知の語であるかどうかを意識することな
く利用できる。
【0008】〈構成3〉インデックステーブルは、テキ
スト中に含まれる文字の並びを、共通の文字は幹のノー
ドに併合し、その文字に続く異なる文字はそれぞれ枝の
ノードに配置した木構造のテーブルとし、ノードを辿る
ことで、ある文字に後続する可能性のある連続した文字
列を示すように構成する。
【0009】〈説明〉多種の文字の並びを他の文字と関
連付けて数値化して表現する場合に、これを木構造によ
り表現すれば、文字ごとの検索処理を高速に実施でき
る。幹には、テキストで使用される全ての文字が表示さ
れ、共通の文字を直前に持つ場合には、共通の幹を持
ち、後続する文字が異なれば、次第に枝分かれしてい
く。後続する文字がなければ、それ以上枝は延びない。
【0010】
【発明の実施の形態】以下、本発明の実施の形態を具体
例を用いて説明する。 〈具体例1〉図1は、本発明の文字認識装置の機能ブロ
ック図である。図の装置は、文字認識結果1を受け入れ
る入力部3と、知識処理部4と、記憶装置5とを備えて
いる。図示しないOCR(光学的文字読取り装置)等で
読み取られて処理された文字認識結果1が入力部3から
この装置に入力する。知識処理部4は、後で説明するよ
うにして、文字認識結果中の候補文字に順位付けを行
い、出力9を得る部分である。なお、この順位付け処理
にはインデックステーブル8が参照される。このインデ
ックステーブルは後で説明するようにして、認識対象の
テキストと同類のテキスト6により予め生成され、記憶
装置5に格納される。
【0011】図2は、この発明の具体的な装置構成を示
すブロック図である。図示のシステムは、入出力装置1
1と、処理装置14と、記憶装置5を有する。入出力装
置11は、テキストの入力、結果の表示等を行う機能を
有する。この入出力装置11は、入力部3と出力部13
を有する。ここで、入力部3は、インデックステーブル
を作成するためのテキストや、文字認識結果を入力する
機能を有する。この入力部3は、例えば、キーボードに
より構成されてもよいし、計算機の記憶装置に格納され
ているテキストファイルをアクセスする装置であっても
良い。出力部13は、処理結果の表示等を行う機能を有
する。この出力部13は、例えば、ディスプレイやプリ
ンタ等により構成されている。
【0012】記憶装置5は、テキストや各段階の処理結
果等を保存する機能を有する。記憶装置5は、入力され
たテキストを保存する入力ファイル18と、文字認識結
果を一時的に保存する認識結果ファイル19と、インデ
ックステーブル8と、知識処理の結果を保存する出力フ
ァイル21を備えている。処理装置14は、演算装置や
メモリ及び制御部等の一般的な構成を備えており、後述
する処理手順に従って、インデックステーブル8の作成
及び文字認識結果に対する知識処理を実行する機能を有
する。この処理装置14は、インデックステーブル作成
部15と知識処理部4を有する。インデックステーブル
作成部15は、入力されたテキストからインデックステ
ーブル8を作成する機能を有する。
【0013】知識処理部4は、インデックステーブル8
を参照し、文字認識結果である候補文字列の妥当性を判
定する機能を有する。インデックステーブル8は、ある
文字(列)に接続する可能性のある文字の種類を数値化
して表示するものである。後続する文字の他にその出現
数や出現確率を記述しても良い。インデックステーブル
作成部15は、テキストを読み込み、木構造のインデッ
クスを作成する。入力するテキストは、文、節、語句の
羅列、あるいは形態素解析の出力等、どのような形式で
記述されていても良い。文字列の単位も任意である。文
字数や特殊文字により区切っても良いし、テキスト全体
を1つの文字列と考えても良い。ただし内容について
は、文字認識結果に対して知識処理を行う場合には、処
理対象と同じ語句や表現が多く含まれているほどインデ
ックスの質が良くなるため、入力テキストは同じ分野の
文書や専門用語等であることが望ましい。
【0014】図3に、木構造インデックスの例説明図を
示す。インデックスは、任意の文字をトップノードと
し、共通の前部分を1つのノードに併合した形で作られ
る任意の深さの木構造で、各ノードには、後続する文字
が記述されている。従って、トップノードの直後のノー
ドには、入力テキスト中に出現した全ての種類の文字が
記述されており、トップノードからノードを辿った部分
がテキスト中の連続文字列を表すことになる。例えば、
「オンライン」というテキストが入力された場合のイン
デックスは図3のようになる。各ノードには、文字及び
その出現数の情報が並べて記述されている。トップノー
ドの「*」は任意の文字、即ちテキスト中の全ての文字
を示す。また、「*」の出現数は、テキストを構成する
文字の総数である。従って、この例では5とある。ま
た、「@」は、このノードが連続文字列パターンの終わ
りであることを示す。
【0015】任意の文字の後、即ち第1のノードには、
「オ」「ン」「ラ」「イ」の文字があり、「オ」「ラ」
「イ」の出現数はそれぞれ1回、「ン」の出現数は2回
となっている。これは、テキスト中に「オ」「ラ」
「イ」が1回ずつ、「ン」が2回出現したことを表して
いる。また、「オ」に続く第2のノードには、「ン」が
1つあり、出現数は1回となっている。これは、「オ」
の後に「ン」が1回出現したこと、即ち「オン」が連続
して出現したのが1回であることを表している。「オン
ラ」「オンライ」「オンライン」も、連続して出現する
のは1回となる。出現確率は、“後続文字の出現数÷先
行文字の出現数”で求めることができる。これは、子ノ
ードの出現数を親ノードの出現数で割れば良い。
【0016】任意の文字*の後に「ン」が出現する確率
は5分の2だから0.4であるが、「オ」「ライ」
「イ」の後に「ン」が出現する確率は、図の例では、そ
れぞれ親ノードも子ノードも1だから1となる。テキス
ト全体における「ン」の出現確率が0.4であるのに対
して、「オ」「ライ」「イ」の後では必ず「ン」が出現
しているからである。インデックステーブル8は、こう
した木構造インデックスの情報をテーブル形式に記述し
たものである。
【0017】図4は、「オンライン」が入力された場合
のインデックステーブルの内容の例説明である。ここで
は、各ノードのノードレベルD1と、文字毎の情報とし
て、それぞれノード番号D2、文字D6、出現数D4、
出現確率D5を記述している。例えば、ノードレベル1
の「オ」はノード番号が“1”、出現数が“1”、出現
確率は“0.2”である。このインデックステーブル
は、新たにテキストが入力された場合でも、テキストに
出現する文字を含むノード列の、各文字の出現数をカウ
ントアップし、出現確率を再計算するだけで、更新する
ことができる。
【0018】次に、インデックステーブルを用いた知識
処理について説明する。図5は、本発明における知識処
理の動作フローチャートである。知識処理では、最初に
入力部3から入力された認識結果ファイル19を読み込
む(ステップS1)。この文字認識結果は、各文字位置
i(i=1,2,…n)に対して、1個以上の候補文字
を持つものとする。例えば、5文字の認識結果があれば
各文字毎にそれぞれ1〜3文字程度の候補文字を含めて
おく。この文字位置iに対して、状態集合S[i]を対
応させる。S[i]は、i−1文字目の候補文字がマッ
チしたノードの位置を表すもので、初期状態は0であ
る。文字位置iの比較照合処理を行う場合、S[i]に
記述されたノードに続く子ノードが処理対象になる(ス
テップS2〜ステップS5)。各文字位置i(i=1,
2,…n)の候補文字j(j=1,2,…m)に対し
て、インデックステーブルの対象ノードの文字との比較
照合処理を行い(ステップS6)、マッチした候補文字
には、ポイント加算処理を行う(ステップS8)。各文
字位置iの候補文字のうち最もポイントの高い文字が、
認識結果としての確信度が高いことになる(ステップS
6〜S8)。最後に、各文字位置の比較照合結果をソー
トしてポイント順に並べ変え(ステップS9)、処理結
果を出力ファイルに書き込む(ステップS10)。
【0019】図6は、図5のステップS6に示した比較
照合処理の動作フローチャートである。ここでは、文字
位置iの全ての候補文字jに対して、インデックステー
ブルの比較対象ノードとの比較照合を行う(ステップS
1,S2)。比較対象ノードは、ノードの状態集合S
[i]で示される。i−1文字目の候補文字がどのノー
ドともマッチしなかった場合は、状態集合S[i]は0
なので、ノード番号0のノードの子ノード、即ちノード
レベル1のノードの文字を対象に比較照合処理を行う。
マッチした場合は、S[i]には0及び候補文字がマッ
チしたノードのノード番号が入っているので、ノードレ
ベル1のノード及びi−1文字目の候補文字がマッチし
たノードの子ノードに対して比較照合処理を行うことに
なる。文字位置iの候補文字jが、インデックステーブ
ルの対象ノードとマッチすれば、jに対してポイント加
算処理が実行され(ステップS4)、S[i+1]にそ
のノード位置情報が追加される(ステップS5)。jが
最後の候補文字であれば、処理を終了する。そうでなけ
れば、jを1つカウントアップして(ステップS7)、
次の候補文字に対して同様の処理を繰り返す(ステップ
S2〜ステップS7)。
【0020】ステップS4のポイント加算処理は、該当
する候補文字に一定の得点を加算する方式やマッチした
ノードの出現数やノードレベルの深さに応じたポイント
を計算して加算する方式等が考えられる。ここでは、出
現確率を得点とし、候補文字にマッチしたノードの出現
確率をポイントとして加算し、得点の多いものから順に
並べる方式を採る。得点が同じ場合には、もとの認識結
果で順位の高い候補文字が上位となる。
【0021】図7には、認識結果の例説明図を示す。更
に、具体的な知識処理の流れを、図4のインデックステ
ーブルと図7の例を用いて説明する。始めに、図5のス
テップS1で認識結果を読み込み、入力文字列の長さ
“5”をnにセットする(図5のステップS2)。次
に、iに“1”を、S[i]に0をセットする(図5の
ステップS3,S4)。また、i(=1)文字目の候補
文字の数“3”をmにセットして(図5のステップS
5)、比較照合処理に進む。図5のステップS6におけ
る比較照合処理では、まずj=1をセットする(図6の
ステップS1)。jは、i文字目の候補文字のうち照合
対象となっているものの位置を示す。まず、i(=1)
文字目の第j(=1)候補文字「才」をキーに、インデ
ックステーブルの検索を行う(図6のステップS2)。
このとき、状態集合S[i]は{0}であるから、イン
デックステーブルの“0”に続くノード、即ちノード番
号“1”〜“4”のノードを検索の対象とする。これら
のノードには「才」とマッチするノードはない(図6の
ステップS3)ので、j=1+1=2として(図6のス
テップS7)、第j(=2)候補文字「オ」をキーにイ
ンデックステーブルの“1”〜“4”のノードを検索す
る(図6のステップS2)。ここで、ノード番号“1”
の「オ」がマッチする(ステップS6のステップS
3)。候補文字「オ」に対して出現確率の“0.2”を
ポイントとして加算し(図6のステップS4)、状態集
合S[i+1]、即ちS[2]にマッチしたノード番号
{1}を加える(図6のステップS5)。次に、j=2
+1=3として(図6のステップS7)、第j(=3)
候補文字「千」をキーにインデックステーブルの“1”
〜“4”ノードを検索する。これらのノードには、
「千」とマッチするノードはない(図6のステップS
3)。ここで、j=mとなるため、処理を終了し、図5
のステップS7に戻る。
【0022】次に、i=1+1=2として(図5のステ
ップS8)、i(=2)文字目の候補文字の比較照合処
理を行う。このとき、S[2]は、{0,1}であるた
め、比較処理の対象となるノードは、“0”,“1”に
続く子ノード、即ちノード番号“1”〜“4”及び“1
1”のノードとなる。以下、5文字目の第3候補文字の
「ン」まで同様に処理を行う。
【0023】図8に、比較照合処理の結果を示す。この
ように、各候補文字毎に確からしさの順位付けが行われ
た。最後に、候補文字をポイントの多いものから順に並
べ変え(図5のステップS9)、結果を出力ファイルに
出力する(図5のステップS10)。図9に、知識処理
終了後の出力ファイルの内容を示す。この結果が文字認
識結果の後処理に利用される。
【0024】以上に述べたように、この発明によれば、
ユーザが指定したテキストから出現する文字列の並びの
性質を記述したインデックステーブルを作成し、そのテ
ーブルに基づいて文字認識処理を行うことができる。こ
のインデックステーブルは、任意の文字列を単位として
おり、ある文字とある文字が前後に出現するパターンか
ら、ある文字に後続する連続文字列のパターンまでを1
つの形式で記述している。また、入力するテキストを変
更したり、優先したい文字列をインデックステーブルに
追加することにより、条件に応じたインデックステーブ
ルを容易に作成することができる。このテーブルを利用
した知識処理では、連続して出現しやすい文字の並びと
マッチする候補文字を優先的に採用することにより、候
補文字の確からしさを順位付ける。このため、候補文字
列がそのままの形でインデックステーブルに存在しない
場合でも、インデックステーブルを部分的に利用するこ
とにより、文字認識処理を行うことができる。しかも、
内容によって適用するインデックステーブルを変更した
り、重要語の文字の並びの得点に重み付けをすることに
より、認識対象に合わせて適用条件を簡単に変更するこ
とができる。
【図面の簡単な説明】
【図1】本発明の文字認識装置の機能ブロック図であ
る。
【図2】具体的な装置構成を示すブロック図である。
【図3】木構造インデックスの例説明図である。
【図4】インデックステーブルの例説明図である。
【図5】知識処理の動作フローチャートである。
【図6】比較処理の動作フローチャートである。
【図7】認識結果の例説明図である。
【図8】比較照合処理のポイント説明図である。
【図9】知識処理終了後の出力ファイルの内容説明図で
ある。
【符号の説明】
1 文字認識結果 3 入力部 4 知識処理部 5 記憶装置 8 インデックステーブル

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 文字認識結果を入力する入力部と、 予め選定したある文字がある文字の次に出現する出現確
    率を含む情報を格納したインデックステーブルと、 1文字毎の文字認識結果中にリストアップされた複数の
    候補文字について、前記インデックステーブルを参照し
    て、前記出現確率を比較して候補文字の確からしさに順
    位付けをする知識処理部とを備えたことを特徴とする文
    字認識装置。
  2. 【請求項2】 インデックステーブルは、 認識対象とされるテキストと同類のテキスト中に含まれ
    る文字の並びを抽出し、そのテキスト中に含まれるある
    文字がある文字の次に出現する出現確率を数値化して構
    成することを特徴とする請求項1記載の文字認識装置。
  3. 【請求項3】 インデックステーブルは、テキスト中に
    含まれる文字の並びを、共通の文字は幹のノードに併合
    し、その文字に続く異なる文字はそれぞれ枝のノードに
    配置した木構造のテーブルとし、ノードを辿ることで、
    ある文字に後続する可能性のある連続した文字列を示す
    ように構成したことを特徴とする請求項1または2記載
    の文字認識装置。
JP7321180A 1995-11-15 1995-11-15 文字認識装置 Pending JPH09138840A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7321180A JPH09138840A (ja) 1995-11-15 1995-11-15 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7321180A JPH09138840A (ja) 1995-11-15 1995-11-15 文字認識装置

Publications (1)

Publication Number Publication Date
JPH09138840A true JPH09138840A (ja) 1997-05-27

Family

ID=18129691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7321180A Pending JPH09138840A (ja) 1995-11-15 1995-11-15 文字認識装置

Country Status (1)

Country Link
JP (1) JPH09138840A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032714A (ja) * 2000-05-12 2002-01-31 Xerox Corp 統合された確率的ランゲージ・モデルを用いたドキュメント画像復号化方法
JP2012042991A (ja) * 2010-08-12 2012-03-01 Fuji Xerox Co Ltd 文作成プログラム及び文作成装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032714A (ja) * 2000-05-12 2002-01-31 Xerox Corp 統合された確率的ランゲージ・モデルを用いたドキュメント画像復号化方法
JP2012042991A (ja) * 2010-08-12 2012-03-01 Fuji Xerox Co Ltd 文作成プログラム及び文作成装置

Similar Documents

Publication Publication Date Title
CN114036930B (zh) 文本纠错方法、装置、设备及计算机可读介质
US7937263B2 (en) System and method for tokenization of text using classifier models
JP3427692B2 (ja) 文字認識方法および文字認識装置
JP2726568B2 (ja) 文字認識方法及び装置
US7693853B2 (en) Method and apparatus for retrieving data representing a postal address from a plurality of postal addresses
JPH0736882A (ja) 辞書検索装置
JPH02299068A (ja) 入力文字列からワードを分離する方法
Takahashi et al. A spelling correction method and its application to an OCR system
US20250355863A1 (en) Method and system for address verification
CN113821605A (zh) 一种事件抽取方法
JPWO2010044123A1 (ja) 検索装置、検索用索引作成装置、および検索システム
CN111782892B (zh) 基于前缀树的相似字符识别方法、设备、装置和存储介质
WO2000036530A1 (en) Searching method, searching device, and recorded medium
Goonawardena et al. Automated spelling checker and grammatical error detection and correction model for sinhala language
Koka Automatic keyword detection for text summarization
JPH09138840A (ja) 文字認識装置
JP3531222B2 (ja) 類似文字列検索装置
Ananth et al. Handwritten Text Recognition using Deep Learning and Word Beam Search
CN117131189B (zh) 一种基于语义的开放域网页知识抽取方法及系统
Reyes-Barragán et al. INAOE at QAST 2009: Evaluating the Usefulness of a Phonetic Codification of Transcriptions.
JP3939264B2 (ja) 形態素解析装置
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP2996823B2 (ja) 文字認識装置
JP3139624B2 (ja) 形態素解析装置