JPH09138840A

JPH09138840A - 文字認識装置

Info

Publication number: JPH09138840A
Application number: JP7321180A
Authority: JP
Inventors: Sayori Shimohata; さより下畑
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1995-11-15
Filing date: 1995-11-15
Publication date: 1997-05-27

Abstract

(57)【要約】【解決手段】テキスト中に出現する単語や表現は、テ
キストの種類や内容が同じであれば似通っている場合が
多い。本発明は、この特徴を利用して、認識対象と同類
のテキストに出現する単語や表現の文字列の並び方の性
質を予め数値化し、候補文字の確からしさの順位付けに
利用する。これにより、誤切り出しや誤認識によって欠
落した正解文字を補完する。【効果】単語列の並び方の妥当性による判断だけでな
く、頻度や出現確率、文字列の連続性といった要素を考
慮に入れた候補文字の順位付けを行うため、単語の部分
文字列や未登録語への頑健性を高め、ユーザが操作しや
すい。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、形態素解析装置
や、文字認識装置や音声認識装置等の自然言語処理装置
において、誤切り出しや誤認識によって欠落した正解文
字を補完するための、知識処理等に適する文字認識装置
に関する。

【０００２】

【従来の技術】自然言語により記述された文書等を情報
処理装置に入力してデータベース化するような場合に、
光学的に文字を読み取って認識処理をすることが行われ
る。この文字認識処理の際には、認識結果を評価して、
誤読を排除する必要がある。こうした後処理を自動的に
行うために次のような技術が開発されている（情報処理
学会研究報告Vol.95,No,68(95-NL-107) ）。これは、Ｏ
ＣＲ（光学的文字読取り装置）による文字認識結果に対
して、誤読文字の検出・修正を行う方法について述べた
ものである。これは、認識対象文字列に出現し得る単語
のリストと、単語間の接続可否に関する情報から、文字
毎に、その文字が出現する単語のＩＤ（識別符号）とそ
の文字の出現位置と単語の長さの情報を記述した文字イ
ンデックスを作成し、複数の可能性（候補文字）を持つ
認識結果と文字インデックスとを照合し、単語候補を抽
出した上で、候補文字の単語の並びとしての妥当性を判
定して、第１候補を決定している。

【０００３】

【発明が解決しようとする課題】ところで、上記のよう
な従来の文字認識装置には更に次のような解決すべき課
題があった。上記の方法では、単語単位の認識を行うた
め、住所文字列のように、限定された文字列しか出現し
ない文書の認識には非常に効果がある。しかし、単語の
境界が不明確な場合や、候補文字列が単語辞書に存在し
ない場合には、十分に適切な処理を期待できない。ま
た、認識に用いる単語辞書は予め用意されているが、新
たに候補語を追加したり、文書によって候補語の優先度
を変化させる等、ユーザが自由に辞書の適用条件を操作
することができるような機能を持たせることは容易でな
い。

【０００４】

【課題を解決するための手段】本発明は以上の点を解決
するため次の構成を採用する。〈構成１〉文字認識結果を入力する入力部と、予め選定
したある文字がある文字の次に出現する出現確率を含む
情報を格納したインデックステーブルと、１文字毎の文
字認識結果中にリストアップされた複数の候補文字につ
いて、インデックステーブルを参照して、出現確率を比
較して候補文字の確からしさに順位付けをする知識処理
部とを備える。

【０００５】〈説明〉文字認識結果は、例えば光学的文
字認識装置等から入力する。文字認識処理の際には、可
能な限り、１文字に対して複数の候補文字を認識結果と
してリストアップしておく。ある文字がある文字の次に
出現する出現確率が明らかになっていると、候補文字毎
に、その直前の文字との関係により、確からしさの順位
付けができる。これにより、誤認識や誤切り出しによっ
て欠落した認識結果の一部を修正し、補完することがで
きる。そのテキストに出現する確率の高い文字の並びが
インデックステーブルにあれば、文字認識結果の自動的
な後処理に信頼性が増す。出現確率は、その確率を直接
表す数値でなくても、ある文字の次にその文字が出現す
る可能性を数値を用いて間接的に示すような情報ならば
なんでもよい。なお、文字の並びとしたのは、必ずしも
一連の文字が単語を構成するかどうかにかかわらず、一
律に出現確率を求めるようにするからである。

【０００６】〈構成２〉インデックステーブルは、認識
対象とされるテキストと同類のテキスト中に含まれる文
字の並びを抽出し、そのテキスト中に含まれるある文字
がある文字の次に出現する出現確率を数値化して構成す
る。

【０００７】〈説明〉認識対象のテキストと同類のテキ
ストには、似通った表現や単語が使用されている確率が
高い。従って、そのテキストの文字の並び方の性質を利
用したインデックステーブルを作成して知識処理を行え
ば、文字認識の精度を向上させられる。この方法は、文
字の並びに着目して処理されることから、単語の区切り
や、使用語が未知の語であるかどうかを意識することな
く利用できる。

【０００８】〈構成３〉インデックステーブルは、テキ
スト中に含まれる文字の並びを、共通の文字は幹のノー
ドに併合し、その文字に続く異なる文字はそれぞれ枝の
ノードに配置した木構造のテーブルとし、ノードを辿る
ことで、ある文字に後続する可能性のある連続した文字
列を示すように構成する。

【０００９】〈説明〉多種の文字の並びを他の文字と関
連付けて数値化して表現する場合に、これを木構造によ
り表現すれば、文字ごとの検索処理を高速に実施でき
る。幹には、テキストで使用される全ての文字が表示さ
れ、共通の文字を直前に持つ場合には、共通の幹を持
ち、後続する文字が異なれば、次第に枝分かれしてい
く。後続する文字がなければ、それ以上枝は延びない。

【００１０】

【発明の実施の形態】以下、本発明の実施の形態を具体
例を用いて説明する。〈具体例１〉図１は、本発明の文字認識装置の機能ブロ
ック図である。図の装置は、文字認識結果１を受け入れ
る入力部３と、知識処理部４と、記憶装置５とを備えて
いる。図示しないＯＣＲ（光学的文字読取り装置）等で
読み取られて処理された文字認識結果１が入力部３から
この装置に入力する。知識処理部４は、後で説明するよ
うにして、文字認識結果中の候補文字に順位付けを行
い、出力９を得る部分である。なお、この順位付け処理
にはインデックステーブル８が参照される。このインデ
ックステーブルは後で説明するようにして、認識対象の
テキストと同類のテキスト６により予め生成され、記憶
装置５に格納される。

【００１１】図２は、この発明の具体的な装置構成を示
すブロック図である。図示のシステムは、入出力装置１
１と、処理装置１４と、記憶装置５を有する。入出力装
置１１は、テキストの入力、結果の表示等を行う機能を
有する。この入出力装置１１は、入力部３と出力部１３
を有する。ここで、入力部３は、インデックステーブル
を作成するためのテキストや、文字認識結果を入力する
機能を有する。この入力部３は、例えば、キーボードに
より構成されてもよいし、計算機の記憶装置に格納され
ているテキストファイルをアクセスする装置であっても
良い。出力部１３は、処理結果の表示等を行う機能を有
する。この出力部１３は、例えば、ディスプレイやプリ
ンタ等により構成されている。

【００１２】記憶装置５は、テキストや各段階の処理結
果等を保存する機能を有する。記憶装置５は、入力され
たテキストを保存する入力ファイル１８と、文字認識結
果を一時的に保存する認識結果ファイル１９と、インデ
ックステーブル８と、知識処理の結果を保存する出力フ
ァイル２１を備えている。処理装置１４は、演算装置や
メモリ及び制御部等の一般的な構成を備えており、後述
する処理手順に従って、インデックステーブル８の作成
及び文字認識結果に対する知識処理を実行する機能を有
する。この処理装置１４は、インデックステーブル作成
部１５と知識処理部４を有する。インデックステーブル
作成部１５は、入力されたテキストからインデックステ
ーブル８を作成する機能を有する。

【００１３】知識処理部４は、インデックステーブル８
を参照し、文字認識結果である候補文字列の妥当性を判
定する機能を有する。インデックステーブル８は、ある
文字（列）に接続する可能性のある文字の種類を数値化
して表示するものである。後続する文字の他にその出現
数や出現確率を記述しても良い。インデックステーブル
作成部１５は、テキストを読み込み、木構造のインデッ
クスを作成する。入力するテキストは、文、節、語句の
羅列、あるいは形態素解析の出力等、どのような形式で
記述されていても良い。文字列の単位も任意である。文
字数や特殊文字により区切っても良いし、テキスト全体
を１つの文字列と考えても良い。ただし内容について
は、文字認識結果に対して知識処理を行う場合には、処
理対象と同じ語句や表現が多く含まれているほどインデ
ックスの質が良くなるため、入力テキストは同じ分野の
文書や専門用語等であることが望ましい。

【００１４】図３に、木構造インデックスの例説明図を
示す。インデックスは、任意の文字をトップノードと
し、共通の前部分を１つのノードに併合した形で作られ
る任意の深さの木構造で、各ノードには、後続する文字
が記述されている。従って、トップノードの直後のノー
ドには、入力テキスト中に出現した全ての種類の文字が
記述されており、トップノードからノードを辿った部分
がテキスト中の連続文字列を表すことになる。例えば、
「オンライン」というテキストが入力された場合のイン
デックスは図３のようになる。各ノードには、文字及び
その出現数の情報が並べて記述されている。トップノー
ドの「＊」は任意の文字、即ちテキスト中の全ての文字
を示す。また、「＊」の出現数は、テキストを構成する
文字の総数である。従って、この例では５とある。ま
た、「＠」は、このノードが連続文字列パターンの終わ
りであることを示す。

【００１５】任意の文字の後、即ち第１のノードには、
「オ」「ン」「ラ」「イ」の文字があり、「オ」「ラ」
「イ」の出現数はそれぞれ１回、「ン」の出現数は２回
となっている。これは、テキスト中に「オ」「ラ」
「イ」が１回ずつ、「ン」が２回出現したことを表して
いる。また、「オ」に続く第２のノードには、「ン」が
１つあり、出現数は１回となっている。これは、「オ」
の後に「ン」が１回出現したこと、即ち「オン」が連続
して出現したのが１回であることを表している。「オン
ラ」「オンライ」「オンライン」も、連続して出現する
のは１回となる。出現確率は、“後続文字の出現数÷先
行文字の出現数”で求めることができる。これは、子ノ
ードの出現数を親ノードの出現数で割れば良い。

【００１６】任意の文字＊の後に「ン」が出現する確率
は５分の２だから０．４であるが、「オ」「ライ」
「イ」の後に「ン」が出現する確率は、図の例では、そ
れぞれ親ノードも子ノードも１だから１となる。テキス
ト全体における「ン」の出現確率が０．４であるのに対
して、「オ」「ライ」「イ」の後では必ず「ン」が出現
しているからである。インデックステーブル８は、こう
した木構造インデックスの情報をテーブル形式に記述し
たものである。

【００１７】図４は、「オンライン」が入力された場合
のインデックステーブルの内容の例説明である。ここで
は、各ノードのノードレベルＤ１と、文字毎の情報とし
て、それぞれノード番号Ｄ２、文字Ｄ６、出現数Ｄ４、
出現確率Ｄ５を記述している。例えば、ノードレベル１
の「オ」はノード番号が“１”、出現数が“１”、出現
確率は“０．２”である。このインデックステーブル
は、新たにテキストが入力された場合でも、テキストに
出現する文字を含むノード列の、各文字の出現数をカウ
ントアップし、出現確率を再計算するだけで、更新する
ことができる。

【００１８】次に、インデックステーブルを用いた知識
処理について説明する。図５は、本発明における知識処
理の動作フローチャートである。知識処理では、最初に
入力部３から入力された認識結果ファイル１９を読み込
む（ステップＳ１）。この文字認識結果は、各文字位置
ｉ（ｉ＝１，２，…ｎ）に対して、１個以上の候補文字
を持つものとする。例えば、５文字の認識結果があれば
各文字毎にそれぞれ１〜３文字程度の候補文字を含めて
おく。この文字位置ｉに対して、状態集合Ｓ［ｉ］を対
応させる。Ｓ［ｉ］は、ｉ−１文字目の候補文字がマッ
チしたノードの位置を表すもので、初期状態は０であ
る。文字位置ｉの比較照合処理を行う場合、Ｓ［ｉ］に
記述されたノードに続く子ノードが処理対象になる（ス
テップＳ２〜ステップＳ５）。各文字位置ｉ（ｉ＝１，
２，…ｎ）の候補文字ｊ（ｊ＝１，２，…ｍ）に対し
て、インデックステーブルの対象ノードの文字との比較
照合処理を行い（ステップＳ６）、マッチした候補文字
には、ポイント加算処理を行う（ステップＳ８）。各文
字位置ｉの候補文字のうち最もポイントの高い文字が、
認識結果としての確信度が高いことになる（ステップＳ
６〜Ｓ８）。最後に、各文字位置の比較照合結果をソー
トしてポイント順に並べ変え（ステップＳ９）、処理結
果を出力ファイルに書き込む（ステップＳ１０）。

【００１９】図６は、図５のステップＳ６に示した比較
照合処理の動作フローチャートである。ここでは、文字
位置ｉの全ての候補文字ｊに対して、インデックステー
ブルの比較対象ノードとの比較照合を行う（ステップＳ
１，Ｓ２）。比較対象ノードは、ノードの状態集合Ｓ
［ｉ］で示される。ｉ−１文字目の候補文字がどのノー
ドともマッチしなかった場合は、状態集合Ｓ［ｉ］は０
なので、ノード番号０のノードの子ノード、即ちノード
レベル１のノードの文字を対象に比較照合処理を行う。
マッチした場合は、Ｓ［ｉ］には０及び候補文字がマッ
チしたノードのノード番号が入っているので、ノードレ
ベル１のノード及びｉ−１文字目の候補文字がマッチし
たノードの子ノードに対して比較照合処理を行うことに
なる。文字位置ｉの候補文字ｊが、インデックステーブ
ルの対象ノードとマッチすれば、ｊに対してポイント加
算処理が実行され（ステップＳ４）、Ｓ［ｉ＋１］にそ
のノード位置情報が追加される（ステップＳ５）。ｊが
最後の候補文字であれば、処理を終了する。そうでなけ
れば、ｊを１つカウントアップして（ステップＳ７）、
次の候補文字に対して同様の処理を繰り返す（ステップ
Ｓ２〜ステップＳ７）。

【００２０】ステップＳ４のポイント加算処理は、該当
する候補文字に一定の得点を加算する方式やマッチした
ノードの出現数やノードレベルの深さに応じたポイント
を計算して加算する方式等が考えられる。ここでは、出
現確率を得点とし、候補文字にマッチしたノードの出現
確率をポイントとして加算し、得点の多いものから順に
並べる方式を採る。得点が同じ場合には、もとの認識結
果で順位の高い候補文字が上位となる。

【００２１】図７には、認識結果の例説明図を示す。更
に、具体的な知識処理の流れを、図４のインデックステ
ーブルと図７の例を用いて説明する。始めに、図５のス
テップＳ１で認識結果を読み込み、入力文字列の長さ
“５”をｎにセットする（図５のステップＳ２）。次
に、ｉに“１”を、Ｓ［ｉ］に０をセットする（図５の
ステップＳ３，Ｓ４）。また、ｉ（＝１）文字目の候補
文字の数“３”をｍにセットして（図５のステップＳ
５）、比較照合処理に進む。図５のステップＳ６におけ
る比較照合処理では、まずｊ＝１をセットする（図６の
ステップＳ１）。ｊは、ｉ文字目の候補文字のうち照合
対象となっているものの位置を示す。まず、ｉ（＝１）
文字目の第ｊ（＝１）候補文字「才」をキーに、インデ
ックステーブルの検索を行う（図６のステップＳ２）。
このとき、状態集合Ｓ［ｉ］は｛０｝であるから、イン
デックステーブルの“０”に続くノード、即ちノード番
号“１”〜“４”のノードを検索の対象とする。これら
のノードには「才」とマッチするノードはない（図６の
ステップＳ３）ので、ｊ＝１＋１＝２として（図６のス
テップＳ７）、第ｊ（＝２）候補文字「オ」をキーにイ
ンデックステーブルの“１”〜“４”のノードを検索す
る（図６のステップＳ２）。ここで、ノード番号“１”
の「オ」がマッチする（ステップＳ６のステップＳ
３）。候補文字「オ」に対して出現確率の“０．２”を
ポイントとして加算し（図６のステップＳ４）、状態集
合Ｓ［ｉ＋１］、即ちＳ［２］にマッチしたノード番号
｛１｝を加える（図６のステップＳ５）。次に、ｊ＝２
＋１＝３として（図６のステップＳ７）、第ｊ（＝３）
候補文字「千」をキーにインデックステーブルの“１”
〜“４”ノードを検索する。これらのノードには、
「千」とマッチするノードはない（図６のステップＳ
３）。ここで、ｊ＝ｍとなるため、処理を終了し、図５
のステップＳ７に戻る。

【００２２】次に、ｉ＝１＋１＝２として（図５のステ
ップＳ８）、ｉ（＝２）文字目の候補文字の比較照合処
理を行う。このとき、Ｓ［２］は、｛０，１｝であるた
め、比較処理の対象となるノードは、“０”，“１”に
続く子ノード、即ちノード番号“１”〜“４”及び“１
１”のノードとなる。以下、５文字目の第３候補文字の
「ン」まで同様に処理を行う。

【００２３】図８に、比較照合処理の結果を示す。この
ように、各候補文字毎に確からしさの順位付けが行われ
た。最後に、候補文字をポイントの多いものから順に並
べ変え（図５のステップＳ９）、結果を出力ファイルに
出力する（図５のステップＳ１０）。図９に、知識処理
終了後の出力ファイルの内容を示す。この結果が文字認
識結果の後処理に利用される。

【００２４】以上に述べたように、この発明によれば、
ユーザが指定したテキストから出現する文字列の並びの
性質を記述したインデックステーブルを作成し、そのテ
ーブルに基づいて文字認識処理を行うことができる。こ
のインデックステーブルは、任意の文字列を単位として
おり、ある文字とある文字が前後に出現するパターンか
ら、ある文字に後続する連続文字列のパターンまでを１
つの形式で記述している。また、入力するテキストを変
更したり、優先したい文字列をインデックステーブルに
追加することにより、条件に応じたインデックステーブ
ルを容易に作成することができる。このテーブルを利用
した知識処理では、連続して出現しやすい文字の並びと
マッチする候補文字を優先的に採用することにより、候
補文字の確からしさを順位付ける。このため、候補文字
列がそのままの形でインデックステーブルに存在しない
場合でも、インデックステーブルを部分的に利用するこ
とにより、文字認識処理を行うことができる。しかも、
内容によって適用するインデックステーブルを変更した
り、重要語の文字の並びの得点に重み付けをすることに
より、認識対象に合わせて適用条件を簡単に変更するこ
とができる。

【図面の簡単な説明】

【図１】本発明の文字認識装置の機能ブロック図であ
る。

【図２】具体的な装置構成を示すブロック図である。

【図３】木構造インデックスの例説明図である。

【図４】インデックステーブルの例説明図である。

【図５】知識処理の動作フローチャートである。

【図６】比較処理の動作フローチャートである。

【図７】認識結果の例説明図である。

【図８】比較照合処理のポイント説明図である。

【図９】知識処理終了後の出力ファイルの内容説明図で
ある。

【符号の説明】

１文字認識結果３入力部４知識処理部５記憶装置８インデックステーブル

Claims

【特許請求の範囲】

【請求項１】文字認識結果を入力する入力部と、予め選定したある文字がある文字の次に出現する出現確
率を含む情報を格納したインデックステーブルと、１文字毎の文字認識結果中にリストアップされた複数の
候補文字について、前記インデックステーブルを参照し
て、前記出現確率を比較して候補文字の確からしさに順
位付けをする知識処理部とを備えたことを特徴とする文
字認識装置。
【請求項２】インデックステーブルは、認識対象とされるテキストと同類のテキスト中に含まれ
る文字の並びを抽出し、そのテキスト中に含まれるある
文字がある文字の次に出現する出現確率を数値化して構
成することを特徴とする請求項１記載の文字認識装置。
【請求項３】インデックステーブルは、テキスト中に
含まれる文字の並びを、共通の文字は幹のノードに併合
し、その文字に続く異なる文字はそれぞれ枝のノードに
配置した木構造のテーブルとし、ノードを辿ることで、
ある文字に後続する可能性のある連続した文字列を示す
ように構成したことを特徴とする請求項１または２記載
の文字認識装置。