JPH04335488A - 単語照合方法 - Google Patents
単語照合方法Info
- Publication number
- JPH04335488A JPH04335488A JP3133269A JP13326991A JPH04335488A JP H04335488 A JPH04335488 A JP H04335488A JP 3133269 A JP3133269 A JP 3133269A JP 13326991 A JP13326991 A JP 13326991A JP H04335488 A JPH04335488 A JP H04335488A
- Authority
- JP
- Japan
- Prior art keywords
- character
- word
- matching
- candidate
- collation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】この発明は、光学的文字認識装置
(OCR)による認識結果に対し、誤読の修正をする場
合に用いて好適な単語照合方法に関する。
(OCR)による認識結果に対し、誤読の修正をする場
合に用いて好適な単語照合方法に関する。
【0002】
【従来の技術】従来、この種の照合方法としては、通常
の文字並びをした単語辞書を用いた照合を文頭から逐次
的に行なうものが一般的である。
の文字並びをした単語辞書を用いた照合を文頭から逐次
的に行なうものが一般的である。
【0003】
【発明が解決しようとする課題】しかしながら、このよ
うな方法では、候補順位の低いところに正解である単語
の先頭文字がある場合、その単語を照合するにはその先
頭文字の上位にある文字まで辞書照合を行なう必要があ
る。また、正解文字が1位であるのに、下位順位にある
文字を前方からの照合によって検定し、誤った文字に修
正してしまうおそれがある。さらには、語頭の文字が候
補もれを起こしている場合は、従来は全く辞書引きが行
なえない、という問題もある。従って、この発明の課題
は不要な単語抽出と誤った修正(誤修正)を防止すると
ともに、候補もれにも対処し得るようにすることにある
。
うな方法では、候補順位の低いところに正解である単語
の先頭文字がある場合、その単語を照合するにはその先
頭文字の上位にある文字まで辞書照合を行なう必要があ
る。また、正解文字が1位であるのに、下位順位にある
文字を前方からの照合によって検定し、誤った文字に修
正してしまうおそれがある。さらには、語頭の文字が候
補もれを起こしている場合は、従来は全く辞書引きが行
なえない、という問題もある。従って、この発明の課題
は不要な単語抽出と誤った修正(誤修正)を防止すると
ともに、候補もれにも対処し得るようにすることにある
。
【0004】
【課題を解決するための手段】このような課題を解決す
るため、この発明では、文字認識装置が認識した認識結
果に対応する候補文字群を、その確からしさの程度に応
じて複数個の集合に分け、より確からしい候補文字集合
を起点として未照合文字列の照合を行ない、照合されず
に残った文字列に対して、次に確からしい候補文字列を
起点とする照合を順次繰り返すことにより、単語照合を
行なうことを特徴としている。また、前記照合に当たっ
ては、各文字の有向グラフの点、2つの文字間の連接を
有向グラフの枝、語を有向グラフの道として表現し、任
意の文字位置から文末方向へ所定の辞書を参照してその
文字から連接して行く枝を順に辿る照合と、文頭方向へ
所定の辞書を参照してその文字から連接して行く枝を順
に辿る照合とを行なうことを特徴としている。
るため、この発明では、文字認識装置が認識した認識結
果に対応する候補文字群を、その確からしさの程度に応
じて複数個の集合に分け、より確からしい候補文字集合
を起点として未照合文字列の照合を行ない、照合されず
に残った文字列に対して、次に確からしい候補文字列を
起点とする照合を順次繰り返すことにより、単語照合を
行なうことを特徴としている。また、前記照合に当たっ
ては、各文字の有向グラフの点、2つの文字間の連接を
有向グラフの枝、語を有向グラフの道として表現し、任
意の文字位置から文末方向へ所定の辞書を参照してその
文字から連接して行く枝を順に辿る照合と、文頭方向へ
所定の辞書を参照してその文字から連接して行く枝を順
に辿る照合とを行なうことを特徴としている。
【0005】
【作用】未知入力文字列に対して確からしい文字から波
及的に単語を照合することにより、不要な単語抽出と誤
修正を防止するとともに、候補もれがあっても照合でき
るようにする。
及的に単語を照合することにより、不要な単語抽出と誤
修正を防止するとともに、候補もれがあっても照合でき
るようにする。
【0006】
【実施例】従来の言語モデルでは、言語を記号の1次元
的な配列として捉えていたが(言語を単語レベルで捉え
た従来のモデルとして、例えばアルファベット集合S=
{a1 a2 …an }の閉包(Closure)が
ある。 これはアルファベットがk個並んだ集合Sk ={a1
a2 …an }の和集合S* =S0 +S1 …
+Sn のことであり、これを処理対象としている)、
この発明では言語シンボル、つまり文字を図2の如く有
向グラフの点(Vertex)1、文字同士の連接を有
向グラフの枝(Arc)2、単語を有向グラフの道(P
ath)としてそれぞれ表現することにより、従来では
できなかった任意の文字位置からの単語照合を可能とす
るものである。なお、このような言語モデルは一般に有
向グラフ言語モデル(DLM:Digraph La
nguage Model)と呼ばれる。このDLM
の定義は次のとおりである。
的な配列として捉えていたが(言語を単語レベルで捉え
た従来のモデルとして、例えばアルファベット集合S=
{a1 a2 …an }の閉包(Closure)が
ある。 これはアルファベットがk個並んだ集合Sk ={a1
a2 …an }の和集合S* =S0 +S1 …
+Sn のことであり、これを処理対象としている)、
この発明では言語シンボル、つまり文字を図2の如く有
向グラフの点(Vertex)1、文字同士の連接を有
向グラフの枝(Arc)2、単語を有向グラフの道(P
ath)としてそれぞれ表現することにより、従来では
できなかった任意の文字位置からの単語照合を可能とす
るものである。なお、このような言語モデルは一般に有
向グラフ言語モデル(DLM:Digraph La
nguage Model)と呼ばれる。このDLM
の定義は次のとおりである。
【0007】D=D(S,A)
Dは有向グラフ
Sは言語シンボルsi を要素とする点集合S={si
|1≦i≦u} Aは2つの文字si ,sj が隣接して語wを構成し
、si が語wのk番目の文字であることを示す枝集合
A={ai,j w,k |1≦i≦u,1≦j≦u,
1≦w≦v,1≦k≦(lmax −1)} Pは語をなす点と枝の交互列で表わされた道の集合P=
{pw |pw =(sh ,ah,i w,l ,s
i ,…,as,t w,l−1 ,st )、sh
,si ,…st ∈S、ah,i w,l ,…as
,t w,l ∈A、1≦w≦v,1≦l≦lmax
}
|1≦i≦u} Aは2つの文字si ,sj が隣接して語wを構成し
、si が語wのk番目の文字であることを示す枝集合
A={ai,j w,k |1≦i≦u,1≦j≦u,
1≦w≦v,1≦k≦(lmax −1)} Pは語をなす点と枝の交互列で表わされた道の集合P=
{pw |pw =(sh ,ah,i w,l ,s
i ,…,as,t w,l−1 ,st )、sh
,si ,…st ∈S、ah,i w,l ,…as
,t w,l ∈A、1≦w≦v,1≦l≦lmax
}
【0008】すなわち、語長lの語wを、有向グラフの
道pw =(sh ,ah,i w,l ,si ,…
,as,t w,l−1 ,st )で表わす。sh
とst は道の始点と終点であり、それぞれ語pw に
関する語頭シンボル,語尾シンボルと呼び、両者を合わ
せて語端シンボルともいう。l=1の場合はpw =(
sh )となり、道が「退化」している状態で1文字単
語を表わす。言語シンボル(文字)の総数は|S|=u
であり、語彙総数は|P|=vである。つまり、DLM
は各シンボルがどのように関連し合っているかを、有向
グラフを用いて体系的に記述したものであり、こうする
ことで任意の文字位置からの辞書引きを可能とするもの
である。いま、或る単語をs1 s2 …si …sn
(si は言語シンボル)とすると、従来は単語の先
頭の文字から順番にs1 s2 …と辞書引きを行なっ
ていたのに対し、DLMを利用すれば単語の途中の文字
si を起点としてsi から出て行く枝(後接シンボ
ルへの枝)を辿ることによって語尾方向に、またsi
に入って来る枝(前接シンボルからの枝)を辿ることに
よって語頭方向に、それぞれ単語の辞書引きを行なうこ
とができる。
道pw =(sh ,ah,i w,l ,si ,…
,as,t w,l−1 ,st )で表わす。sh
とst は道の始点と終点であり、それぞれ語pw に
関する語頭シンボル,語尾シンボルと呼び、両者を合わ
せて語端シンボルともいう。l=1の場合はpw =(
sh )となり、道が「退化」している状態で1文字単
語を表わす。言語シンボル(文字)の総数は|S|=u
であり、語彙総数は|P|=vである。つまり、DLM
は各シンボルがどのように関連し合っているかを、有向
グラフを用いて体系的に記述したものであり、こうする
ことで任意の文字位置からの辞書引きを可能とするもの
である。いま、或る単語をs1 s2 …si …sn
(si は言語シンボル)とすると、従来は単語の先
頭の文字から順番にs1 s2 …と辞書引きを行なっ
ていたのに対し、DLMを利用すれば単語の途中の文字
si を起点としてsi から出て行く枝(後接シンボ
ルへの枝)を辿ることによって語尾方向に、またsi
に入って来る枝(前接シンボルからの枝)を辿ることに
よって語頭方向に、それぞれ単語の辞書引きを行なうこ
とができる。
【0009】有向グラフの一般的なデータ構造としては
、隣接テーブルと接続テーブルとがある。これらは点同
士の隣接関係あるいは点と枝の接続関係をマトリックス
で示したものであり、この行列値を変えることで単語を
表現することができるが、語彙数が数十万程度になると
アドレス空間だけで数十MB〜1GBとなり、メモリ容
量の点から実用的とは言い難い。また、有向グラフの一
般的なリスト表現として頂点と枝を表わす2つの配列を
用い、或る頂点si から出る枝、またはsi へ入る
枝を順次ポインタで連結したものがあるが、これは単語
Pathの表現と検索には適していない。そこで、この
発明では単語をDLMの「道」として捉え、この「道」
の検索,照合に適したデータ構造として「前後接リスト
」を利用することとする。
、隣接テーブルと接続テーブルとがある。これらは点同
士の隣接関係あるいは点と枝の接続関係をマトリックス
で示したものであり、この行列値を変えることで単語を
表現することができるが、語彙数が数十万程度になると
アドレス空間だけで数十MB〜1GBとなり、メモリ容
量の点から実用的とは言い難い。また、有向グラフの一
般的なリスト表現として頂点と枝を表わす2つの配列を
用い、或る頂点si から出る枝、またはsi へ入る
枝を順次ポインタで連結したものがあるが、これは単語
Pathの表現と検索には適していない。そこで、この
発明では単語をDLMの「道」として捉え、この「道」
の検索,照合に適したデータ構造として「前後接リスト
」を利用することとする。
【0010】図3に前後接リストと前後接枝ポインタの
例を示す。同図(イ)が「日本語」の場合の前後接リス
トであり、同図(ロ)が前後接枝ポインタである。これ
は、語のPathが次々とシンボルへ入り、出て行く様
子を示したものであり、前接枝または後接枝を順次辿る
ことにより語頭方向と語尾方向に単語の検索を行なうこ
とができる。すなわち、前後接リスト10は辞書項目を
1つのシンボル群毎にまとめ、その先頭アドレスである
BaseAdrへは基本アドレステーブル20により、
そのシンボルをキーとしてアクセスする。辞書項目は1
つの単語の中でそのシンボルが、どのシンボルから連接
してきたかを示す前接枝ポインタ12、そしてどのシン
ボルへ連接して行くかを示す後接枝ポインタ11、その
シンボルを含む語のPathNo.13、およびそのシ
ンボルが単語内で何番目にあるかを示す文字順位14か
ら成っている。例えば、後接枝ポインタ11は図3(ロ
)の如く後接シンボルそれ自身と、単語内の後接シンボ
ルが後接して行くシンボル群の先頭アドレスから、どの
位置に記載されているかを示すOffsetアドレス(
OffsetAdr)から成っている。これは、前接枝
ポインタ12についても同様である。なお、語尾シンボ
ルの後接と語頭シンボルの前接には、それ以上何もない
のでφ(NULL)を記載しておく。
例を示す。同図(イ)が「日本語」の場合の前後接リス
トであり、同図(ロ)が前後接枝ポインタである。これ
は、語のPathが次々とシンボルへ入り、出て行く様
子を示したものであり、前接枝または後接枝を順次辿る
ことにより語頭方向と語尾方向に単語の検索を行なうこ
とができる。すなわち、前後接リスト10は辞書項目を
1つのシンボル群毎にまとめ、その先頭アドレスである
BaseAdrへは基本アドレステーブル20により、
そのシンボルをキーとしてアクセスする。辞書項目は1
つの単語の中でそのシンボルが、どのシンボルから連接
してきたかを示す前接枝ポインタ12、そしてどのシン
ボルへ連接して行くかを示す後接枝ポインタ11、その
シンボルを含む語のPathNo.13、およびそのシ
ンボルが単語内で何番目にあるかを示す文字順位14か
ら成っている。例えば、後接枝ポインタ11は図3(ロ
)の如く後接シンボルそれ自身と、単語内の後接シンボ
ルが後接して行くシンボル群の先頭アドレスから、どの
位置に記載されているかを示すOffsetアドレス(
OffsetAdr)から成っている。これは、前接枝
ポインタ12についても同様である。なお、語尾シンボ
ルの後接と語頭シンボルの前接には、それ以上何もない
のでφ(NULL)を記載しておく。
【0011】いま、1つの或るシンボルsi にsj
が後接している場合、si のその単語における辞書項
目から、次のsjの辞書項目へは以下のようにしてアク
セスする。 (a)シンボルsj に関する辞書項目が記載されてい
る先頭アドレス(BaseAdr)を、基本アドレステ
ーブル20で参照する。 (b)得られたベースアドレス(BaseAdr)とそ
の語が連接して行く辞書項目が、sj 群の先頭からど
の位置にあるかを示すオフセットアドレス(Offse
tAdr)から、後接シンボルが記載してある事項のア
ドレスへのポインタ(Pointer)を次式により求
める。 Pointer=BaseAdr+OffsetAdr
このポインタにより、着目シンボルに後接するシンボル
の辞書項目へアクセスすることができる。これを繰り返
すことにより、語尾方向への照合を行なうことができる
。なお、語頭方向へは、前接シンボルについて上記と同
様の操作をすることにより、辞書引きをすることができ
る。辞書の後接シンボルまたは前接シンボルがφの場合
は、そのシンボルが語尾または語頭シンボルであること
を示す。
が後接している場合、si のその単語における辞書項
目から、次のsjの辞書項目へは以下のようにしてアク
セスする。 (a)シンボルsj に関する辞書項目が記載されてい
る先頭アドレス(BaseAdr)を、基本アドレステ
ーブル20で参照する。 (b)得られたベースアドレス(BaseAdr)とそ
の語が連接して行く辞書項目が、sj 群の先頭からど
の位置にあるかを示すオフセットアドレス(Offse
tAdr)から、後接シンボルが記載してある事項のア
ドレスへのポインタ(Pointer)を次式により求
める。 Pointer=BaseAdr+OffsetAdr
このポインタにより、着目シンボルに後接するシンボル
の辞書項目へアクセスすることができる。これを繰り返
すことにより、語尾方向への照合を行なうことができる
。なお、語頭方向へは、前接シンボルについて上記と同
様の操作をすることにより、辞書引きをすることができ
る。辞書の後接シンボルまたは前接シンボルがφの場合
は、そのシンボルが語尾または語頭シンボルであること
を示す。
【0012】図1はこの発明の実施例を示すフローチャ
ートである。DLMは並列処理に適しているが、不要な
単語照合の抽出を抑制し、照合時間の短縮と誤修正の防
止を図る上からも、確からしい文字から単語照合を行な
う方が良いので、ここでもこの手法を採用することとす
る。なお、「確からしさ」の求め方には種々あるが、こ
こでは誤読確率から求めており、その確率は例えばサン
プルシートの誤読リストから作成している。今、入力文
を{si |1≦i≦n}、候補文字をC={ci j
|ci j をsi の第j位の候補文字とする。1
≦i≦n,1≦j≦m}とする。入力文と候補文字群と
の関係を図4に示す。符号31が入力文、32が候補文
字群である。 始めに、ステップS1において、第1位の候補文字C1
={ci 1 }を候補文字間の類似度や統計的デー
タ等から、その候補文字が正解である確率の高い順にΓ
1 ,Γ2 …ΓZ に分割する(Γ1 ∪Γ2 …∪
ΓZ =C1 、Γ1 ∩Γ2 …∩ΓZ =φ(空集
合))。
ートである。DLMは並列処理に適しているが、不要な
単語照合の抽出を抑制し、照合時間の短縮と誤修正の防
止を図る上からも、確からしい文字から単語照合を行な
う方が良いので、ここでもこの手法を採用することとす
る。なお、「確からしさ」の求め方には種々あるが、こ
こでは誤読確率から求めており、その確率は例えばサン
プルシートの誤読リストから作成している。今、入力文
を{si |1≦i≦n}、候補文字をC={ci j
|ci j をsi の第j位の候補文字とする。1
≦i≦n,1≦j≦m}とする。入力文と候補文字群と
の関係を図4に示す。符号31が入力文、32が候補文
字群である。 始めに、ステップS1において、第1位の候補文字C1
={ci 1 }を候補文字間の類似度や統計的デー
タ等から、その候補文字が正解である確率の高い順にΓ
1 ,Γ2 …ΓZ に分割する(Γ1 ∪Γ2 …∪
ΓZ =C1 、Γ1 ∩Γ2 …∩ΓZ =φ(空集
合))。
【0013】次に、ステップS2において、Γ1 に属
する候補文字を起点として、文末方向へa照合、文頭方
向へb照合を行なう(aはafter,bはbefor
eの意味)。 (1)a照合 ステップS3では、ci 1 の辞書後接{(ci 1
)a }と後方入力文字si+1 の候補文字{ci
+1 j |1≦j≦m}とのマッチングを行ない、照
合するもの(j=jb で一致するとする)があれば、
ci+1 jbのポインタによる辞書引きを行なって次
の照合へと進む。 (2)b照合 ステップS4では、ci 1 の辞書前接{(ci 1
)b }と後方入力文字si−1 の候補文字{ci
−1 j |1≦j≦m}とのマッチングを行ない、照
合するもの(j=ja で一致するとする)があれば、
ci−1 jaのポインタによる辞書引きを行なって次
の照合へと進む。
する候補文字を起点として、文末方向へa照合、文頭方
向へb照合を行なう(aはafter,bはbefor
eの意味)。 (1)a照合 ステップS3では、ci 1 の辞書後接{(ci 1
)a }と後方入力文字si+1 の候補文字{ci
+1 j |1≦j≦m}とのマッチングを行ない、照
合するもの(j=jb で一致するとする)があれば、
ci+1 jbのポインタによる辞書引きを行なって次
の照合へと進む。 (2)b照合 ステップS4では、ci 1 の辞書前接{(ci 1
)b }と後方入力文字si−1 の候補文字{ci
−1 j |1≦j≦m}とのマッチングを行ない、照
合するもの(j=ja で一致するとする)があれば、
ci−1 jaのポインタによる辞書引きを行なって次
の照合へと進む。
【0014】1回のa照合およびb照合の照合結果は、
次の3つの状態となる。 イ)照合継続状態 対象シンボルが検索方向へ連接する場合(ステップS5
,S6参照) ロ)照合完了状態 対象シンボルが語端シンボルの場合(ステップS7,S
8参照) ハ)照合停止状態 対象シンボルが非語端シンボルで検索方向に連接しない
場合(ステップS9,S10参照) そして、照合継続状態である限り照合を続け、同一Pa
thのa方向,b方向の照合結果がともに照合完了状態
のとき、その単語が照合されたことになる(ステップS
11参照)。或るPathのa方向,b方向のいずれか
で照合停止状態のときは、単語照合は失敗したことを意
味する。
次の3つの状態となる。 イ)照合継続状態 対象シンボルが検索方向へ連接する場合(ステップS5
,S6参照) ロ)照合完了状態 対象シンボルが語端シンボルの場合(ステップS7,S
8参照) ハ)照合停止状態 対象シンボルが非語端シンボルで検索方向に連接しない
場合(ステップS9,S10参照) そして、照合継続状態である限り照合を続け、同一Pa
thのa方向,b方向の照合結果がともに照合完了状態
のとき、その単語が照合されたことになる(ステップS
11参照)。或るPathのa方向,b方向のいずれか
で照合停止状態のときは、単語照合は失敗したことを意
味する。
【0015】Γ1 照合が終了すると、入力文字列の中
で最も確からしい文字集合に属する文字を、単語内に少
なくとも1つ含んだ単語の照合が行なわれたことになる
。 或るコラムでΓ照合が成功した場合の処理は次のように
行なう。今、ci 1 ∈Γk’とし、Γk 照合がc
i j (1≦j≦m)で成功したとする。 (1)k<k’ならば、新たにci 1 を起点とした
照合は行なわない。 (2)k=k’ならば、 (2−1)ci 1 が照合された場合ci 1 を起
点とした照合は行なわない。 (2−2)ci j (2≦j≦m)が照合された場合
ci j を起点とした照合を行なう。 また、Γ1 からΓZ の全Γ照合が終了しても未照合
の入力文字列がある場合、さらに2位以下の文字を起点
とした照合を行なう。
で最も確からしい文字集合に属する文字を、単語内に少
なくとも1つ含んだ単語の照合が行なわれたことになる
。 或るコラムでΓ照合が成功した場合の処理は次のように
行なう。今、ci 1 ∈Γk’とし、Γk 照合がc
i j (1≦j≦m)で成功したとする。 (1)k<k’ならば、新たにci 1 を起点とした
照合は行なわない。 (2)k=k’ならば、 (2−1)ci 1 が照合された場合ci 1 を起
点とした照合は行なわない。 (2−2)ci j (2≦j≦m)が照合された場合
ci j を起点とした照合を行なう。 また、Γ1 からΓZ の全Γ照合が終了しても未照合
の入力文字列がある場合、さらに2位以下の文字を起点
とした照合を行なう。
【0016】実験結果につき、説明する。
(1)正解入力文字が「年金」でOCR読取結果が次の
ような場合 「候補文字」1:任(Γ2 )金(Γ1 )2:年
命 従来の手法では語頭より照合を行ない、「任命」と検定
していた。つまり、「任」を修正せず、逆に正しい「金
」まで「命」に誤修正していた。これに対し、DLMを
利用するこの発明によれば、より確からしい文字集合で
あるΓ1 に属する「金」から照合を開始し、b照合に
より文頭方向への照合を行なうことで、正しく「年金」
と照合することができる。
ような場合 「候補文字」1:任(Γ2 )金(Γ1 )2:年
命 従来の手法では語頭より照合を行ない、「任命」と検定
していた。つまり、「任」を修正せず、逆に正しい「金
」まで「命」に誤修正していた。これに対し、DLMを
利用するこの発明によれば、より確からしい文字集合で
あるΓ1 に属する「金」から照合を開始し、b照合に
より文頭方向への照合を行なうことで、正しく「年金」
と照合することができる。
【0017】(2)正解入力文字が「観点」でOCR読
取結果が「歓点」となっている場合 「候補文字」1:歓(Γ2 )点(Γ1 )2:観(Γ
3 )黒(Γ3 ) 従来の手法では「歓」と「点」をそれぞれ1文字単語と
して照合していたが、この発明によれば「点」から照合
を行なうことにより、正しく「観点」と照合できる。
取結果が「歓点」となっている場合 「候補文字」1:歓(Γ2 )点(Γ1 )2:観(Γ
3 )黒(Γ3 ) 従来の手法では「歓」と「点」をそれぞれ1文字単語と
して照合していたが、この発明によれば「点」から照合
を行なうことにより、正しく「観点」と照合できる。
【0018】(3)正解が「政治資金規正法改正案」で
OCR読取結果が「政治衡金晩正法改正案」の場合従来
は「晩」も「正」も1文字単語として扱っていたが、こ
の発明によれば「資」が候補もれしているため、「衡金
」は「資金」と修正はできないが、「正」がΓ1 集合
に属するため、「晩正」は「規正」と修正できる。
OCR読取結果が「政治衡金晩正法改正案」の場合従来
は「晩」も「正」も1文字単語として扱っていたが、こ
の発明によれば「資」が候補もれしているため、「衡金
」は「資金」と修正はできないが、「正」がΓ1 集合
に属するため、「晩正」は「規正」と修正できる。
【0019】(4)正解が「首脳」で「首」が候補もれ
を起こしている場合、従来の辞書では全く照合できなか
ったが、この発明によれば「首脳」は勿論「頭脳」など
十数語の単語を照合することができる。
を起こしている場合、従来の辞書では全く照合できなか
ったが、この発明によれば「首脳」は勿論「頭脳」など
十数語の単語を照合することができる。
【0020】
【発明の効果】この発明によれば、未知入力文字列に対
し確からしい文字から波及的に単語を照合するようにし
たので、次のような利点が得られる。 (1)不要な単語抽出が抑制され、文節列の効果的な検
定と誤修正の防止を図ることができる。 (2)単語の語頭の文字が候補もれしていると、従来で
は全く辞書引きができなかったが、この発明によれば候
補単語の検索が可能である。 (3)候補もれによる照合失敗の悪影響が周囲に拡散す
るのを防ぐことができる。
し確からしい文字から波及的に単語を照合するようにし
たので、次のような利点が得られる。 (1)不要な単語抽出が抑制され、文節列の効果的な検
定と誤修正の防止を図ることができる。 (2)単語の語頭の文字が候補もれしていると、従来で
は全く辞書引きができなかったが、この発明によれば候
補単語の検索が可能である。 (3)候補もれによる照合失敗の悪影響が周囲に拡散す
るのを防ぐことができる。
【図1】この発明の実施例を示すフローチャートである
。
。
【図2】有向グラフの例を説明するための説明図である
。
。
【図3】前後接リストと前後接ポインタとを説明するた
めの説明図である。
めの説明図である。
【図4】入力文と候補文字との関係を説明するための説
明図である。
明図である。
1 点(Vertex)
2 枝(Arc)
10 前後接リスト
11 後接枝ポインタ
12 前接枝ポインタ
13 語PathNo.
14 文字順位
20 基本アドレステーブル
31 入力文
32 候補文字
Claims (2)
- 【請求項1】 文字認識装置が認識した認識結果に対
応する候補文字群を、その確からしさの程度に応じて複
数個の集合に分け、より確からしい候補文字集合を起点
として未照合文字列の照合を行ない、照合されずに残っ
た文字列に対して、次に確からしい候補文字列を起点と
する照合を順次繰り返すことにより、単語照合を行なう
ことを特徴とする単語照合方法。 - 【請求項2】 前記照合に当たっては、各文字の有向
グラフの点、2つの文字間の連接を有向グラフの枝、語
を有向グラフの道として表現し、任意の文字位置から文
末方向へ所定の辞書を参照してその文字から連接して行
く枝を順に辿る照合と、文頭方向へ所定の辞書を参照し
てその文字から連接して行く枝を順に辿る照合とを行な
うことを特徴とする請求項1に記載の単語照合方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3133269A JPH04335488A (ja) | 1991-05-10 | 1991-05-10 | 単語照合方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3133269A JPH04335488A (ja) | 1991-05-10 | 1991-05-10 | 単語照合方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH04335488A true JPH04335488A (ja) | 1992-11-24 |
Family
ID=15100675
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3133269A Pending JPH04335488A (ja) | 1991-05-10 | 1991-05-10 | 単語照合方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH04335488A (ja) |
-
1991
- 1991-05-10 JP JP3133269A patent/JPH04335488A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5161245A (en) | Pattern recognition system having inter-pattern spacing correction | |
| US6978044B2 (en) | Pattern string matching apparatus and pattern string matching method | |
| JPS60502175A (ja) | 索引項目の発見方法 | |
| US6360197B1 (en) | Method and apparatus for identifying erroneous characters in text | |
| US8725497B2 (en) | System and method for detecting and correcting mismatched Chinese character | |
| US7856598B2 (en) | Spelling correction with liaoalphagrams and inverted index | |
| US5329598A (en) | Method and apparatus for analyzing character strings | |
| Saluja et al. | Error detection and corrections in Indic OCR using LSTMs | |
| JPH04335488A (ja) | 単語照合方法 | |
| US12061869B2 (en) | Deep-learning based text correction method and apparatus | |
| JPS6262388B2 (ja) | ||
| CN116935414B (zh) | Ocr识别结果的修正方法及装置 | |
| JPH03257693A (ja) | 文字認識結果修正方式 | |
| JPS63268082A (ja) | パタ−ン認識装置 | |
| CN118839039A (zh) | 医学英语词根词缀学习自适应考试方法、系统及介质 | |
| JPS61161588A (ja) | 文字認識後処理方式 | |
| JPH11120294A (ja) | 文字認識装置および媒体 | |
| JPH04111186A (ja) | 住所文字列に対する文字認識結果修正方法 | |
| JP2839515B2 (ja) | 文字読取システム | |
| JP3725206B2 (ja) | 文字認識装置 | |
| CN116935414A (zh) | Ocr识别结果的修正方法及装置 | |
| JPH04278664A (ja) | 住所解析処理装置 | |
| JPS63138479A (ja) | 文字認識装置 | |
| JPH0258187A (ja) | 文字認識装置 | |
| JPH09138840A (ja) | 文字認識装置 |