JPH0632092B2 - 単語照合方式 - Google Patents

単語照合方式

Info

Publication number
JPH0632092B2
JPH0632092B2 JP63104635A JP10463588A JPH0632092B2 JP H0632092 B2 JPH0632092 B2 JP H0632092B2 JP 63104635 A JP63104635 A JP 63104635A JP 10463588 A JP10463588 A JP 10463588A JP H0632092 B2 JPH0632092 B2 JP H0632092B2
Authority
JP
Japan
Prior art keywords
word
character
code
recognition
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63104635A
Other languages
English (en)
Other versions
JPH01276285A (ja
Inventor
雅己 小黒
清 仲林
直孝 大光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63104635A priority Critical patent/JPH0632092B2/ja
Publication of JPH01276285A publication Critical patent/JPH01276285A/ja
Publication of JPH0632092B2 publication Critical patent/JPH0632092B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、単語照合方式に関し、特に入力文字列の文字
位置について候補文字が複数個存在する場合に、入力文
字に誤りがあっても、単語を能率よく認識するための単
語認識方式に関するものである。
〔従来の技術〕
従来の単語認識方式として、文字コードの並びで表わさ
れる入力文字列から単語を認識する際に、入力文字列の
各文字位置に対して候補文字が複数個あり、かつ入力文
字列中に誤字、脱字、余剰字を含んでいる場合を想定し
て、入力文字列の各位置の各候補文字と、任意の単語を
構成する1個以上の位置の文字とを照合する必要がある
場合がある。
第6図は、従来のこのような単語認識装置の一例を示す
構成図である。
第6図において、1は単語選択テーブルであり、2は選
択処理部であり、3は判定値テーブルであり、4は判定
値累積処理部であり、5はソート処理部であり、6は評
価値テーブルである。例えば、入力文字列として『デコ
タル』(この中のコはジを誤ってコと入力したものと想
定する)を入力すると、選択処理部2の単語選択テーブ
ル1を参照することにより、1文字目、2文字目、・・
・・の各々に対して単語コードと判定値を出力し、これ
らを次段の判定値累積処理部4に転送する。判定値累積
処理部4では、入力された各単語コードに対して判定値
テーブル3を参照することにより評価値を決定し、次段
のソート処理部5に転送する。ソート処理部5では評価
値テーブルにより候補単語に順位を付けて出力する。順
位の最高のものが、認識された文字である。
この単語認識装置では、各文字コードの並びを各単語に
対応させた単語辞書を用いて、入力文字列の文字コード
の並びと各単語の比較を行うために、入力文字列の各文
字位置ごとに入力文字列を構成する文字コードを入力す
る。すなわち、前述のように、『デコタル』を入力する
と、1文字目の『デ』に対してデジタルのW11、デー
タのW12、デコーダのW13が出力し、2文字目の
『コ』に対してデコーダのW13、レコードのW25を
出力する。以下、同じようにして、入力された各文字ご
とに、単語コードと判定値が出力される。このように、
選択処理部2では、単語選択テーブル1により、文字コ
ードの文字を各文字位置に含む単語コードを出力する。
この単語認識装置では、誤字、余剰字、脱字に対応する
ため、辞書内の単語コードにおける文字位置(以下、辞
書内位置と呼ぶ)と入力文字列内の文字位置(以下、認
識時位置と呼ぶ)が一致しない場合についても、1箇所
の認識時位置の候補文字につき、1箇所以上の辞書内位
置で単語選択テーブルの検索を行っている。
なお、従来の単語照合方式については、例えば、先に出
願された特願昭61−248415号明細書および図面
(発明の名称:単語認識装置)を参照されたい。
〔発明が解決しようとする課題〕
このような単語認識装置においては、1箇所の認識時位
置の候補文字が1個以上存在し、かつその候補文字に対
して1箇所以上の辞書内位置で単語選択テーブルを検索
しているため、次に説明するような誤った評価値が出力
されてしまう。従って、このような誤出力を修正すべき
課題が生じる。
第7図は、従来の単語認識装置による具体的な処理過程
を示す図である。
文字認識においては、第7図に示すように、1箇所の認
識時位置に1個以上の文字候補が出力される。すなわ
ち、単語辞書に、東京、京都、都心があり、入力文字列
として『京都』を入力した場合、認識時位置c1(キャ
ラクタ1字目)内の候補文字として、東、京、亨の3文
字、c2内の候補文字として、都、郡、群の3文字がそ
れぞれ出力される。つまり、同じ認識時位置内の候補文
字だけで、単語として成立する場合(『東京』)があ
る。この場合、前記手法を用いると、第7図の選択処理
部2において、認識時位置c1文字目を辞書内位置1文
字目とみたとき、に候補文字『東』から『東京』が取
り出され、c1を辞書内位置2文字目とみたとき、に
候補文字『京』から『東京』が取り出される。このと
き、1箇所の認識時位置では、1個の候補文字しか使用
できないにもかかわらず、『東京』の検索では、1箇所
の認識時位置で2個の候補文字が用いられ、誤った評価
値が与えられることになる。すなわち、判定値累積部で
は、『東京』が1.7、『京都』が1.6、『都心』が0.8の
評価となり、次のソート処理部では、『東京』が1.7、
『京都』が1.6、『都心』が0.8となる。従って、従来の
方法では、正確な処理が行われていないことになる。
これが原因となって、第7図の例では、本来第1位とし
て抽出されるべき『京都』が第2位となって出力されて
いる。
本発明の目的は、このような従来の課題を解決し、1つ
の認識位置について1つ以上の辞書内位置で文字の照合
を行う場合、誤って評価値を出力することなく、かつ入
力文字中に誤字、脱字、余剰字があっても、高精度に単
語を認識することができ、また並列処理を行う場合で
も、高精度に単語を認識することができる単語照合方式
を提供することにある。
〔課題を解決するための手段〕
上記目的を達成するため、本発明の単語照合方式は、文
字コードが配列された入力文字列が、予め設定された単
語の中のどの単語に相当するかを照合する単語照合方式
において、単語を構成する文字配列の各位置(以下、辞
書内位置と記す)ごとに、使用文字と単語とを対応させ
た単語選択テーブルを含み、入力文字列の任意の文字位
置(以下、認識時位置と記す)の候補文字の文字コード
と辞書内位置を入力として、対応する単語コードを出力
する選択処理手段と、上記単語コードごとに該単語コー
ドの選択に用いた文字コードの認識時位置を記録した位
置履歴テーブルを含み、単語コードおよび該単語コード
の選択に用いた文字コードの認識時位置を入力として、
該単語コードの認識時位置について、他の候補文字で検
索済みか否かの検索履歴を出力する位置検定手段と、該
位置検定手段から出力された各単語コードについて、確
実さを示す評価値を加算する判定値累積手段と、該判定
値累積手段の判定値の大小関係より候補単語を抽出する
ソート手段とを有し、上記選択処理手段により入力文字
列の各認識位置ごとの候補文字について、1箇所以上の
辞書内位置ごとに上記単語選択テーブルから文字コード
に対応する単語コードを選択し、上記位置検定手段によ
り、該単語コードと該認識時位置の検索履歴を上記位置
履歴テーブルから読み出し、未検索である場合にのみ該
位置履歴テーブルに検索済みの検索履歴を設定して、該
単語コードを上記判定値累積手段に送り、該判定値累積
手段では、上記位置検定手段から出力された単語コード
の評価値を累積加算して上記入力文字列に対する判定値
を得て、上記ソート手段により候補単語を抽出すること
に特徴がある。また、上記位置履歴テーブルの検索履歴
として、入力文字列の各文字の認識結果から得られた確
からしさの尺度を書き込むことにも特徴がある。
〔作 用〕
本発明においては、1箇所の認識時位置に対して、1度
の検索しか許さない方法を導入することにより、正解率
を向上している。すなわち、入力文字列の各認識時位置
に対する各候補文字ごとに、得点と認識時位置を保持
し、単語コードごとにその単語コードの選択に用いた文
字コードの認識時位置を記録する位置履歴テーブルを持
ち、単語コードとその単語コードの選択に用いた候補文
字の認識時位置を入力して、その単語コードについて、
その認識時位置が未検索である単語コードと、その単語
コードの評価値を出力する位置検定部により、選択処理
部で得られた単語コードと、その単語コードを選択した
候補文字の認識時位置とから、その認識時位置と同じ認
識時位置からの選択が既に行われていないか検定し、初
めて選択が行われる場合についてのみ、その単語コード
および評価値を判定値累積部に出力し、同時に位置検定
テーブルに検定済みを記録する。
これにより、入力文字列の各認識位置に1個以上の候補
文字認識が存在し、かつ入力文字列内に、誤字、脱字、
余剰字を含んでいても、1箇所の認識時位置の1個以上
の候補文字と、1箇所以上の辞書内位置の文字とを照合
する場合に生じる単語コードの誤評価を、位置履歴テー
ブルを用いて回避することにより、高精度な単語認識が
可能となる。
〔実施例〕
以下、本発明の実施例を、図面により詳細に説明する。
第1図は、本発明の一実施例を示す単語照合装置のブロ
ック構成図である。
本発明の単語照合装置は、単語選択テーブル1を含む選
択処理部2と、位置履歴テーブル8を含む位置検定部7
と、評価値テーブル3を含む判定値累積部4と、候補単
語テーブル(図示省略)を含むソート処理部5とから構
成される。
第2図は、本発明の単語照合方式の一実施例を示す処理
過程図である。
いま、第7図と同じ入力文字別に対して、同じ文字認識
結果が得られた場合について、本発明の動作原理を説明
する。
選択処理部2では、各認識時位置ごとに次の選択処理を
行う。先ず、認識時位置の各候補文字の文字コードで単
語選択テーブル1を検索し、前記文字コードに対応する
単語コードを読み出す。この単語選択テーブル1は、辞
書内位置ごとに文字コードと、この辞書内位置にその文
字コードが存在する単語コードの対応表を示している。
単語認識装置では、認識時位置c1については、辞書内
位置が1文字目の時、および2文字目の時につい
て、単語を選択する。では、候補文字‘東’から‘東
京’が、候補文字‘京’から‘京都’が、それぞれ読み
出され、‘東京’、評価値0.9、および認識時位置c
1、‘京都’、評価値0.8、およびc1を、それぞれ組
合わせて出力する。また、では、候補文字‘京’から
‘東京’が読み出され、‘東京’、0.8、および認識時
位置c1を組合わせて出力する。また、認識時位置c2
については、辞書内位置が1文字目、2文字目の単語選
択テーブル1により、‘都内’、0.8およびc2、また
‘京都’、0.8、およびc2を、それぞれ組合わせて出
力する。このようにして、順次処理することにより、選
択された単語コードと認識時位置、評価値を組にして、
次段の位置検定部7に転送する。
位置検定部7では、単語選択部2から送られてきた単語
コードにより、位置履歴テーブル8からその単語コード
の認識時位置に関する検索履歴を取り出し、単語選択テ
ーブル1から送られてきた認識時位置での検索が以前行
われたか否かを検定する。第2図に示す位置履歴テーブ
ル8は、認識時位置が2文字目までの例であって、各単
語コードごと、認識時位置c1、c2に、処理済み(1)
か、未処理である(0)かを記録できる欄を備えている。
この位置履歴テーブル8を利用する位置検定処理の例と
して、位置履歴テーブル8が第2図に示すようにを
位置検定して得た検索履歴が記録されている状態にあ
り、次ににおいて、単語コードが、‘東京’、評価値
が0.8、認識時位置がc1の結果が送られてきた場合に
ついて説明する。位置履歴テーブル8により、単語コー
ド‘東京’から東京という単語を重複していることを判
別して、認識時位置c1が処理済み(1)、認識時位置c
2が未処理(0)であることが得られる。このことから、
単語コード‘東京’においては、選択処理部2から送ら
れてきた認識時位置c1が処理済みであることが検出で
きるので、単語コード‘東京’は判定値累積部4に送ら
れない。また、を位置検定する例において、単語コー
ド‘京都’に対しては、選択処理部2から送られた認識
時位置c2が未処理であることが検出され、単語コード
‘京都’は評価値とともに判定値累積部4に送られる。
このとき、位置履歴テーブル8の‘京都’とc2で指定
される欄に、検索済み(1)を設定する。
判定値累積部4では、位置検定部7で出力された単語デ
ータの中で、同じ単語コードについて、評価値を累積加
算する。前述の例では、単語コード‘東京’は、第2図
のの場合にしか送られてこないため、評価値は0.9と
なり、認識候補文字から得られる単語の評価値として正
しい値が与えられたことになる。この後、ソート処理部
5において、評価値の大小比較が行われる。第2図の例
では、この単語認識装置は、‘京都’を第1位候補とし
て出力する。
第3図は、本発明における拡張時の位置履歴テーブルの
図である。
すなわち、第3図は、認識時位置をN文字目に拡張した
ときの位置履歴テーブルが示されている。位置履歴テー
ブル8は、単語コードWごと、および任意の各認識時位
置Cごとに、処理済み(1)か、未処理(0)かを記録する欄
で構成される。位置履歴テーブル8の検索時には、単語
コードと現在処理している認識時位置を用いて1/0を
得ることができる。このために、認識時位置Ciにある
候補文字の文字コードCDjを入力することにより、選
択処理部2で単語コードWkが選択された時、位置履歴
テーブル8のWk行Ci列の値を読み出して、その単語
コードを判定値累積部4に出力するか否を検定する。検
定の結果、未処理であった場合に、Wk行Ci列に検索
済み(1)を記録して、全ての認識時位置C1〜Cnで処
理済みとなったことを確認し、単語コードと評価値を判
定値累積部4に送る。また、入力された単語コードがそ
の表から既に処理済みであった場合には、その単語コー
ドについては判定値累積部4に出力しない。
第1図の構成について、さらに詳述する。
第1図の構成では、入力文字列の各認識時位置における
各候補文字、認識時位置、評価値の組を入力し、最も確
実らしい単語を出力する。各認識位置の候補文字コード
ごとに、探索回路11によりメモリ中の単語選択テーブ
ル1を用いて、1つ以上の辞書内位置につき文字コード
に対応する単語コードを検索し、検索された単語コード
を判定回路12に送出する。判定回路12では、メモリ
中の位置履歴テーブル8を参照し、その単語コードが重
複検索されていないか否かを検定する。重複検索されて
いない場合には、位置履歴テーブル8に検索済みを記録
し、加算回路13に単語コードと評価値を送る。加算回
路13では、メモリ中の評価値テーブル3からその単語
コードの現在までの判定値を検出し、その評価値の加算
によりその単語コード判定値を更新し、評価値テーブル
3にその値を戻す。全認識時位置の全辞書内位置による
処理が終了した後、ソート回路9により、判定値テーブ
ル6(図示省略)のソートを行い、その結果を出力す
る。すなわち、単語コードを判定値とを出力する。
第4図は、本発明の他の実施例を示す単語照合装置のブ
ロック構成図であり、第5図は第4図で用いられる位置
履歴テーブルの図である。
第4図では、並列に照合する場合の構成例が示されてい
る。
第4図においては、選択処理・位置検定部10a〜10
nの探索回路11a〜11nおよび判定回路12a〜1
2nを用いて、各辞書内位置ごとに並列に実行し、辞書
内位置ごとの位置履歴テーブル8a〜8nを作成する。
この後、加算回路13において判定値を計算し、ソート
回路9により判定値の大小比較を行い、その結果を出力
する。このとき、位置履歴テーブル8および8a〜8n
には、第5図(a)(b)(c)に示すように、単語コードの各
認識時位置の欄に1/0のフラグではなく、評価値を記
録する。
各辞書内位置ごとの処理が終了した後、比較回路14に
おいて各位置履歴テーブル8a〜8nを検査し、重視し
ている場合には評価値の比較を行い、高い評価値を優先
することにより、重複検索による誤評価を回避する。こ
れにより、認識時の得点が高い候補文字での照合が可能
となる。
第5図においては、辞書内位置1文字目の単語コードW
1の認識時位置1文字目と、辞書内位置M文字目の単語
コードW1の認識時位置1文字目が重複している。この
ため、双方を比較して、得点が高い0.8を辞書内位置1
文字目の得点をW1行1列目の得点とする。
なお、1箇所の認識時位置について1箇所以上の辞書内
位置との文字の照合は、任意ピッチの手書き文字や連続
音声のように、文字または音節の句切りが未知であるた
めに生じる認識時位置と辞書内位置のずれを補正する場
合にも必要となる。
このように、本発明においては、単語コードごとに認識
時位置の検索履歴を記録した位置履歴テーブルを設け
て、単語コードと単語コードを選択した文字コードの認
識時位置を入力することにより、その単語コードの認識
時位置についての未検索である単語コード、評価値を出
力する位置検定部を用いて重複検索がないか否かを検定
する。これにより、1つの認識時位置に複数の候補文字
があり、それらの候補文字の組合わせによりできる単語
があるために、1つの認識位置について1つ以上の辞書
内位置で文字の照合を行う際に、誤って評価値を出力す
る場合に対しても、位置検出部で単語コードと認識時位
置から位置履歴テーブルにより検索履歴を参照するの
で、誤評価を防止することができる。また、並列処理を
行う場合でも、各プロセッサごとに位置履歴テーブルを
持たせて、位置履歴テーブルに記録する値を各認識時位
置の文字候補の評価値とすることにより、並列化しても
高精度に単語を認識することができる。
〔発明の効果〕
以上説明したように、本発明によれば、入力文字列の各
文字位置に1コード以上の文字候補があり、かつ入力文
字列中に誤字、脱字、余剰字がある場合でも、高精度に
単語を認識することができる。また、並列処理を行う場
合においても、位置履歴テーブルに記録する値を文字候
補の評価値とすることにより、高精度に単語を認識する
ことができる。
【図面の簡単な説明】 第1図は本発明の一実施例を示す単語照合装置のブロッ
ク構成図、第2図は第1図を用いて認識処理を行う場合
の過程図、第3図は第1図における位置履歴テーブルの
内容を示す図、第4図は本発明の他の実施例を示す並列
処理の単語照合装置のブロック図、第5図は第4図の装
置に用いられる位置履歴テーブルの構成例を示す図、第
6図は従来の単語認識装置のブロック図、第7図は第6
図の装置の動作過程を示す図である。 1:単語選択テーブル、2:選択処理部、3:判定値テ
ーブル、4:判定値累積部、5:ソート処理部、6:位
置履歴テーブル、7:位置検定部、8,8a〜8n:位
置履歴テーブル、9:ソート回路、10a〜10m:選
択処理・位置検定部、11:探索回路、12:判定回
路、13:加算回路、14:比較回路。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】文字コードが配列された入力文字列が、予
    め設定された単語の中のどの単語に相当するかを照合す
    る単語照合方式において、単語を構成する文字配列の各
    位置(以下、辞書内位置と記す)ごとに、使用文字と単
    語とを対応させた単語選択テーブルを含み、入力文字列
    の任意の文字位置(以下、認識時位置と記す)の候補文
    字の文字コードと辞書内位置を入力として、対応する単
    語コードを出力する選択処理手段と、上記単語コードご
    とに該単語の選択に用いた文字コードの認識時位置を記
    録した位置履歴テーブルを含み、単語コードおよび該単
    語コードの選択に用いた文字コードの認識時位置を入力
    として、該単語コードの認識時位置について、他の候補
    文字で検索済みか否かの検索履歴を出力する位置検定手
    段と、該位置検定手段から出力された各単語コードにつ
    いて、確実さを示す評価値を加算する判定値累積手段
    と、該判定値累積手段の判定値の大小関係より候補単語
    を抽出するソート手段とを有し、上記選択処理手段によ
    り入力文字列の各認識位置ごとの候補文字について、1
    箇所以上の辞書内位置ごとに上記単語選択テーブルから
    文字コードに対応する単語コードを選択し、上記位置検
    定手段により、該単語コードと該認識時位置の検索履歴
    を上記位置履歴テーブルから読み出し、未検索である場
    合にのみ該位置履歴テーブルに検索済みの検索履歴を設
    定して、該単語コードを上記判定値累積手段に送り、該
    判定値累積手段では、上記位置検定手段から出力された
    単語コードの評価値を累積加算して上記入力文字列に対
    する判定値を得て、上記ソート手段により候補単語を抽
    出することを特徴とする単語照合方式。
  2. 【請求項2】上記位置履歴テーブルの検索履歴として、
    入力文字列の各文字の認識結果から得られた確からしさ
    の尺度を書き込むことを特徴とする特許請求の範囲第1
    項記載の単語照合方式。
JP63104635A 1988-04-27 1988-04-27 単語照合方式 Expired - Lifetime JPH0632092B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63104635A JPH0632092B2 (ja) 1988-04-27 1988-04-27 単語照合方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63104635A JPH0632092B2 (ja) 1988-04-27 1988-04-27 単語照合方式

Publications (2)

Publication Number Publication Date
JPH01276285A JPH01276285A (ja) 1989-11-06
JPH0632092B2 true JPH0632092B2 (ja) 1994-04-27

Family

ID=14385905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63104635A Expired - Lifetime JPH0632092B2 (ja) 1988-04-27 1988-04-27 単語照合方式

Country Status (1)

Country Link
JP (1) JPH0632092B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07309082A (ja) * 1994-05-16 1995-11-28 Kyowa Tokushu Insatsu Kk 偽造防止用被覆フィルム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07309082A (ja) * 1994-05-16 1995-11-28 Kyowa Tokushu Insatsu Kk 偽造防止用被覆フィルム

Also Published As

Publication number Publication date
JPH01276285A (ja) 1989-11-06

Similar Documents

Publication Publication Date Title
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
US6978044B2 (en) Pattern string matching apparatus and pattern string matching method
JPH01286019A (ja) 文字ストリング処理方法
JPH0632092B2 (ja) 単語照合方式
JPS6262388B2 (ja)
JP3071745B2 (ja) 文字認識結果の後処理方法
JP2908460B2 (ja) 誤認識修正方法及び装置
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPS629958B2 (ja)
JP2918380B2 (ja) 文字認識結果の後処理方法
JPH0540854A (ja) 文字認識結果の後処理方法
JPS62285189A (ja) 文字認識後処理方式
JP3245415B2 (ja) 文字認識方法
JPS63103393A (ja) 単語認識装置
JP2000076293A (ja) 省略名称抽出装置、方法および記録媒体
JPH04111186A (ja) 住所文字列に対する文字認識結果修正方法
JPH06243294A (ja) 文字認識後処理装置
JPS58213381A (ja) 文字認識装置
JPS63268082A (ja) パタ−ン認識装置
JPH0222400B2 (ja)
JPH10240736A (ja) 形態素解析装置
JPH01279324A (ja) 英単語検索装置
JPH02309448A (ja) 誤り検出装置
JPH05342415A (ja) 類似文字判定方式