JPH01276285A - 単語照合方式 - Google Patents

単語照合方式

Info

Publication number
JPH01276285A
JPH01276285A JP63104635A JP10463588A JPH01276285A JP H01276285 A JPH01276285 A JP H01276285A JP 63104635 A JP63104635 A JP 63104635A JP 10463588 A JP10463588 A JP 10463588A JP H01276285 A JPH01276285 A JP H01276285A
Authority
JP
Japan
Prior art keywords
word
character
recognition
code
word code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63104635A
Other languages
English (en)
Other versions
JPH0632092B2 (ja
Inventor
Masami Oguro
雅己 小黒
Kiyoshi Nakabayashi
仲林 清
Naotaka Oomiya
大光明 直孝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63104635A priority Critical patent/JPH0632092B2/ja
Publication of JPH01276285A publication Critical patent/JPH01276285A/ja
Publication of JPH0632092B2 publication Critical patent/JPH0632092B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、単語照合方式に関し、特に入力文字列の文字
位置について候補文字が複数個存在する場合に、入力文
字に誤りがあっても、単語を能率よく認識するための単
語認識方式に関するものである。
〔従来の技術〕
従来の単語認識方式として、文字コードの並びで表わさ
れる入力文字列から単語を認識する際に、入力文字列の
各文字位置に対して候補文字が複数個あり、かつ入力文
字列中に誤字、脱字、余剰字を含んでいる場合を想定し
て、入力文字列の各位置の各候補文字と、任意の単語を
構成する1個以上の位置の文字とを照合する必要がある
場合がある。
第6図は、従来のこのような単語認識装置の一例を示す
構成図である。
第6図において、1は単語選択テーブルであり。
2は選択処理部であり、3は判定値テーブルであり、4
は判定値累積処理部であり、5はソート処理部であり、
6は評価値テーブルである。例えば。
入力文字列として「デコタル」 (この中のコはジを誤
ってコと入力したものと想定する)を入力すると1選択
処理部2の単語選択テーブル1を参照することにより、
1文字目、2文字目、・・・・の各々に対して単語コー
ドと判定値を出力し、これらを次段の判定値累積処理部
4に転送する。判定値累積処理部4では、入力された各
単語コードに対して判定値テーブル3を参照することに
より評価値を決定し、次段のソート処理部5に転送する
。ソート処理部5では評価値テーブルにより候補単語に
順位を付けて出力する。順位の最高のものが、認識され
た文字である。
この単語認識装置では、各文字コートの並びを各単語に
対応させた単語辞書を用いて、入力文字列の文字コード
の並びと各単語の比較を行うために、入力文字列の各文
字位置ごとに入力文字列を構成する文字コードを入力す
る。すなわち、前述のように、「デコタル」を入力する
と、1文字目の「デ」に対してデジタルのWll、デー
タのW12、デコーダのW13が出力し、2文字目の「
コjに対してデコーダのW13、レコードのW2Bを出
力する。以下、同じようにして、入力された各文字ごと
に、単語コードと判定値が出力される。このように、選
択処理部2では、単語選択テーブル1により、文字コー
ドの文字を各文字位置に含む単語コードを出力する。こ
の単語認識装置では、誤字、余剰字、脱字に対応するた
め、辞書内の単語コードにおける文字位置(以下、辞書
内位置と呼ぶ)と入力文字列内の文字位置(以下、認識
時位置と呼ぶ)が一致しない場合についても、1箇所の
認識時位置の候補文字につき、1箇所以上の辞書内位置
で単語選択テーブルの検索を行っている。
なお、従来の単語照合方式については、例えば、先に出
願された特願昭61−248415号明細書および図面
(発明の名称:単語認識装置)を参照されたい。
〔発明が解決しようとする課題〕
このような単語認識装置においては、1箇所の認識時位
置の候補文字が1個以上存在し、かつその候補文字に対
して1箇所以上の辞書内位置で単語選択テーブルを検索
しているため1次に説明するような誤った評価値が出力
されてしまう。従って、このような誤出力を修正すべき
ii!題が生じる。
第7図は、従来の単語認識装置による具体的な処理過程
を示す図である。
文字認識においては、第7図に示すように、1箇所の認
識時位置に1個以上の文字候補が出力される。すなわち
、単語辞書に、東京、京都、都心があり、入力文字列と
して「京都」を入力した場合、認識時位置cl(ギヤラ
グ91字目)内の候補文字として、東、京、亨の3文字
、C2内の候補文字として、都、郡、群の3文字がそれ
ぞれ出力される。つまり、同じ認識時位置内の候補文字
だけで、単語として成立する場合([i’東京」)があ
る。
この場合、前記手法を用いると、第7図の選択処理部2
において、認識時位置c1文字目を辞書内位置1文字目
とみたとき、■に候補文字「東Jから「東京」が取り出
され、clを辞書内装置2文字目とみたとき、■に候補
文字「京Jから「東京」が取り出される。このとき、1
箇所の認識時位置では、1個の候補文字しか使用できな
いにもかかわらず、「東京」の検索では、1箇所の認識
時位置で2個の候補文字が用いられ、誤った評価値が与
えられることになる。すなわち、判定値累積部では、「
東京jが1.7、「京都」が1.6、「都心」が0.8
の評価となり、次のソート処理部では、「東京」が1.
7、「京都jが1.6、「都心」が0.8となる。従っ
て、従来の方法では、正確な処理が行われていないこと
になる。
これが原因となって、第7図の例では、本来第1位とし
て抽出されるべき「京都」が第2位となって出力されて
いる。
本発明の目的は、このような従来の課題を解決し、1つ
の認識位置について1つ以上の辞書内位・置で文字の照
合を行う場合、誤って評価値を出力することなく、かつ
入力文字中に誤字、脱字、余剰字があっても、高精度に
単語を認識することができ、また並列処理を行う場合で
も、高精度に単語を認識することができる単語照合方式
を提供することにある。
〔課題を解決するための手段〕
上記目的を達成するため、本発明の単語照合方式は1文
字コードが配列された入力文字列が、予め設定された単
語の中のどの単語に相当するかを照合する単語照合方式
において、単語を構成する文字配列の各位置(以下、辞
書自位置と記す)ごとに、使用文字と単語とを対応させ
た単語選択テーブルを含み、入力文字列の任意の文字位
置(以下、認識時位置と記す)の候補文字の文字コー1
−と辞書自位置を入力として、対応する単語コードを出
力する選択処理手段と、上記単語コードごとに該単語コ
ードの選択に用いた文字コードの認識時位置を記録した
位置履歴テーブルを含み、単語コードおよび該単語コー
ドの選択に用いた文字コードの認識時位置を入力として
、該単語コードの認識時位置について、他の候補文字で
検索済みか否かの検索履歴を出力する位置検定手段と、
該位置検定手段から出力された各単語コードについて、
確実さを示す評価値を加算する判定値累積手段と、該判
定値累積手段の判定値の大小関係より候補単語を抽出す
るソート手段とを有し、上記選択処理手段により入力文
字列の各認識位置ごとの候補文字について、1箇所以上
の辞書自位置ごとに上記単語選択テーブルから文字コー
ドに対応する単語コードを選択し、上記位置検定手段に
より、該単語コードと該認識時位置の検索履歴を上記位
置履歴テーブルから読み出し、未検索である場合にのみ
該位置履歴テーブルに検索済みの検索履歴を設定して、
該単語コードを上記判定値累積手段に送り、該判定値累
積手段では、上記位置検定手段から出力された単語コー
ドの評価値を累積加算して上記入力文字列に対する判定
値を得て、上記ソート手段により候補単語を抽出するこ
とに特徴がある。また、上記位置履歴テーブルの検索履
歴として、入力文字列の各文字の認識結果から得られた
確からしさの尺度を書き込むことにも特徴がある。
〔作  用〕
本発明においては、1箇所の認識時位置に対して、1度
の検索しか許さない方法を導入することにより、正解率
を向上している。すなわち、入力文字列の各認識時位置
に対する各候補文字ごとに、得点と認識時位置を保持し
、単語コードごとにその単語コードの選択に用いた文字
コードの認識時位置を記録する位置履歴テーブルを持ち
、単語コードとその単語コートの選択に用いた候補文字
の認識時位置を入力して、その単語コードについて、そ
の認識時位置が未検索である単語コードと、その単語コ
ードの評価値を出力する位置検定部により、選択処理部
で得られた単語コードと、その単語コードを選択した候
補文字の認識時位置とから、その認識時位置と同じ認識
時位置からの選択が既に行われていないか検定し、初め
て選択が行われる場合についてのみ、その単語コードお
よび評価値を判定値累積部に出力し、同時に位置検定テ
ーブルに検定済みを記録する。
これにより、入力文字列の各認識位置に1個以上の候補
文字認識が存在し、かつ入力文字列内に、誤字、脱字、
余剰字を含んでいても、1箇所の認識時位置の1個以上
の候補文字と、1箇所以上の辞書自位置の文字とを照合
する場合に生じる単語コードの誤評価を、位置履歴テー
ブルを用いて回避することにより、高精度な単語認識が
可能となる。
〔実施例〕
以下1本発明の実施例を、図面により詳細に説明する。
第1図は、本発明の一実施例を示す単語照合装置のブロ
ック構成図である。
本発明の単語照合装置は、単語選択テーブル1を含む選
択処理部2と、位置履歴テーブル8を含む位置検定部7
と、評価値テーブル3を含む判定値累積部4と、候補単
語テーブル(図示省略)を含むソート処理部5とから構
成される。
第2図は、本発明の単語照合方式の一実施例を示す処理
過程図である。
いま、第7図と同じ入力文字列に対して、同じ文字認識
結果が得られた場合について、本発明の動作原理を説明
する。
選択処理部2では、各認識時位置ごとに次の選択処理を
行う。先ず、認識時位置の各候補文字の文字コードで単
語選択テーブル1を検索し、前記文字コードに対応する
単語コードを読み出す。この単語選択テーブル1は、辞
書自位置ごとに文字コードと、この辞書自位置にその文
字コードが存在する単語コードの対応表を示している。
単語認識装置では、認識時位百01については、辞書自
位置が1文字目の時の、および2文字口の時■について
、単語を選択する。■では、候補文字′東′から′東京
′が、候補文字′京′から′京都′が、それぞれ読み出
され、′東京′、評価値0.9、および認識時位置c1
、′京都″、評価値0.8.およびclを、それぞれ組
合わせて出力する。また、■では、候補文字′京′から
′東京′が読み出され、′東京′、0.8、および認識
時位置c1を組合わせて出力する。また、認識時位置c
2については、辞書自位置が1文字目、2文字目の単語
選択テーブル1により、′部内′、0.8およびc2、
また′京都′、0.8.およびc2を、それぞれ組合わ
せて出力する。このようにして、順次処理することによ
り、選択された単語コードと認識時位置、評価値を組に
して、次段の位置検定部7に転送する。
位置検定部7では、単語選択部2から送られてきた単語
コードにより、位置履歴テーブル8からその単語コード
の認識時位置に関する検索履歴を取り出し、単語選択テ
ーブル1から送られてきた認識時位置での検索が以前行
われたか否かを検定する。第2図に示す位置履歴テーブ
ル8は、認識時位置が2文字目までの例であって、各単
語コードごと、認識時位1cl、c2に、処理済み(1
)か、未処理である(0)かを記録できる欄を備えてい
る。この位置履歴テーブル8を利用する位置検定処理の
例として、位置履歴テーブル8が第2図に示すように■
■を位置検定して得た検索履歴が記録されている状態に
あり、次に■において、単語コードが′東京′、評価値
が0.8、認識時位置がclの結果が送られてきた場合
について説明する。位置履歴テーブル8により、単語コ
ード゛東京′から東京という単語が重複していることを
判別して、認識時位置C1が処理済み(1)、認識時位
[c2が未処理(0)であることが得られる。このこと
から、単語コード′東京′においては、選択処理部2か
ら送られてきた認識時位置C1が処理済みであることが
検出できるので、単語コード1東京′は判定値累積部4
に送られない。また、■を位置検定する例において、単
語コード′京都′に対しては、選択処理部2から送られ
た認識時位置c2が未処理であることが検出され、単語
コード′京都′は評価値とともに判定値累積部4に送ら
れる。このとき、位置履歴テーブル8の1京都′とc2
で指定される欄に、検索済み(1)を設定する。
判定値累積部4では1位置検定部7で出力された単語コ
ードの中で、同じ単語コードについて。
評価値を累積加算する。前述の例では、単語コード′東
京′は、第2図の■の場合にしか送られてこないため、
評価値は0.9となり、認識候補文字から得られる単語
の評価値として正しい値が与えられたことになる。この
後、ソート処理部5において、評価値の大小比較が行わ
れる。第2図の例では、この単語認識装置は′京都′を
第1位候補として出力する。
第3図は1本発明における拡張時の位置履歴テーブルの
図である。
すなわち、第3図では、認識時位置をN文字目に拡張し
たときの位置履歴テーブルが示されている。位置履歴テ
ーブル8は、単語コードWごと、および任意の各認識時
位置Cごとに、処理済み(1)か、未処理(0)かを記
録する欄で構成される。
位置履歴テーブル8の検索時には、単語コードと現在処
理している認識時位置を用いて110を得ることができ
る。このために、認識時位[Ciにある候補文字の文字
コードCDjを入力することにより1選択処理部2で単
語コードWkが選択された時、位置履歴テーブル8のW
k行Ci列の値を読み出して、その単語コードを判定値
累積部4に出力するか否かを検定する。検定の結果、未
処理であった場合に、Wk行Ci列に検索済み(1)を
記録して、全ての認識時位置C1〜Cnで処理済みとな
ったことを確認し、単語コードと評価値を判定値・累積
部4に送る。また、入力された単語コードがその表から
既に処理済みであった場合には、その単語コードについ
ては判定値累積部4に出力しない。
第1図の構成について、さらに詳述する。
第1図の構成では、入力文字列の各認識時位置における
各候補文字、認識時位置、評価値の組を入力し、最も確
実らしい単語を出力する。各認識位置の候補文字コード
ごとに、探索回路11によりメモリ中の単語選択テーブ
ル1を用いて、1つ以上の辞書内位置につき文字コード
に対応する単語コードを検索し、検索された単語コード
を判定回路12に送出する。判定回路12では、メモリ
中の位置履歴テーブル8を参照し、その単語コードが重
複検索されていないか否かを検定する。重複検索されて
いない場合には、位置履歴テーブル8に検索済みを記録
し、加算回路13に単語コードと評価値を送る。加算回
路13では、メモリ中の評価値テーブル3からその単語
コードの現在までの判定値を検出し、その評価値の加算
によりその単語コード判定値を更新し、評価値テーブル
3にその値を戻す。全!!識時位置の全辞書自位置によ
る処理が終了した後、ソート回路9により、判定値テー
ブル6(図示省略)のソートを行い、その結果を出力す
る。すなわち、単語コードと判定値とを出力する。
第4図は、本発明の他の実施例を示す単語照合装置のブ
ロック構成図であり、第5図は第4図で用いられる位置
履歴テーブルの図である。
第4図では、並列に照合する場合の構成例が示されてい
る。
第4図においては1選択処理・位置検定部10a〜Io
nの探索回路11a〜llnおよび判定回路12a〜1
2nを用いて、各辞書内位置ごとに並列に実行し、辞書
内位置ごとの位置履歴テーブル8a〜8nを作成する。
この後、加算回路13において判定値を計算し、ソート
回路9により判定値の大小比較を行い、その結果を出力
する。このとき1位置履歴テーブル8および8a〜8n
には、第5図(a)(b)(c)に示すように、単語コ
ードの各認識時位置の欄に110のフラグではなく、評
価値を記録する。
各辞書内位置ごとの処理が終了した後、比較回路14に
おいて各位置履歴テーブル8a〜8nを検査し、重複し
ている場合には評価値の比較を行い、高い評価値を優先
することにより、重複検索による誤評価を回避する。こ
れにより、認識時の得点が高い候補文字での照合が可能
となる。
第5図においては、辞書内位置1文ラグの単語コードW
1の認識時位置1文字目と、辞書内装置M文字目の単語
コードW1の認識時位置1文字目が重複している。この
ため、双方を比較して、得点が高い0.8を辞書内位置
1文ラグの得点をw1行1列目の得点とする。
なお、1箇所の認識時位置について1箇所以上の辞書内
位置との文字の照合は、任意ピッチの手書き文字や連続
音声のように、文字または音節の句切りが未知であるた
めに生じる認識時位置と辞書自位置のずれを補正する場
合にも必要となる。
このように、本発明においては、単語コードごとに認識
時位置の検索履歴を記録した位置履歴テーブルを設けて
、単語コードと単語コードを選択した文字コードのH時
位置を入力することにより、その単語コートの認識時位
置についての未検索である単語コード、評価値を出力す
る位置検定部を用いて重複検索がないか否かを検定する
。これにより、1つの認識時位置に複数の候補文字があ
り、それらの候補文字の組合わせによりできる単語があ
るために、1つの認識位置について1つ以上の辞書自位
置で文字の照合を行う際に、誤って評価値を出力する場
合に対しても1位置検出部で単語コードと認識時位置か
ら位置履歴テーブルにより検索履歴を参照するので、誤
評価を防止することができる。また、並列処理を行う場
合でも、各プロセッサごとに位置履歴テーブルを持たせ
て、位置履歴テーブルに記録する値を各認識時位置の文
字候補の評価値とすることにより、並列化しても高精度
に単語を認識することができる。
〔発明の効果〕
以上説明したように、本発明によれば、入力文字列の各
文字位置に1コ一ド以上の文字候補があり、かつ入力文
字列中に誤字、脱字、余剰室がある場合でも、高精度に
単語を認識することができる。また、並列処理を行う場
合においても、位置履歴テーブルに記録する値を文字候
補の評価値とすることにより、高精度に単語を認識する
ことができる。
【図面の簡単な説明】
第1図は本発明の一実施例を示す単語照合装置のブロッ
ク構成図、第2図は第1図を用いて認識処理を行う場合
の過程図、第3図は第1図における位置履歴テーブルの
内容を示す図、第4図は本発明の他の実施例を示す並列
処理の単語照合装置のブロック図、第5図は第4図の装
置に用いられる位置履歴テーブルの構成例を示す図、第
6図は従来の単語認識装置のブロック図、第7図は第6
図の装置の動作過程を示す図である。 1:単語選択テーブル、2:選択処理部、3:判定値テ
ーブル、4:判定値累積部、5:ソート処理部、6:位
置履歴テーブル、7:位置検定部。 8.8a〜8n:位置履歴テーブル、9:ソート回路、
10a〜10m:選択処理・位置検定部、11:探索回
路、12:判定回路、13:加算回路、14:比較回路
。 特許出願人 日本電信電話株式会社 第   1   図 高力、単語コード、判定値 第   3   図 0:未処理、1:処理済み

Claims (2)

    【特許請求の範囲】
  1. (1)文字コードが配列された入力文字列が、予め設定
    された単語の中のどの単語に相当するかを照合する単語
    照合方式において、単語を構成する文字配列の各位置(
    以下、辞書内位置と記す)ごとに、使用文字と単語とを
    対応させた単語選択テーブルを含み、入力文字列の任意
    の文字位置(以下、認識時位置と記す)の候補文字の文
    字コードと辞書内位置を入力として、対応する単語コー
    ドを出力する選択処理手段と、上記単語コードごとに該
    単語コードの選択に用いた文字コードの認識時位置を記
    録した位置履歴テーブルを含み、単語コードおよび該単
    語コードの選択に用いた文字コードの認識時位置を入力
    として、該単語コードの認識時位置について、他の候補
    文字で検索済みか否かの検索履歴を出力する位置検定手
    段と、該位置検定手段から出力された各単語コードにつ
    いて、確実さを示す評価値を加算する判定値累積手段と
    、該判定値累積手段の判定値の大小関係より候補単語を
    抽出するソート手段とを有し、上記選択処理手段により
    入力文字列の各認識位置ごとの候補文字について、1箇
    所以上の辞書内位置ごとに上記単語選択テーブルから文
    字コードに対応する単語コードを選択し、上記位置検定
    手段により、該単語コードと該認識時位置の検索履歴を
    上記位置履歴テーブルから読み出し、未検索である場合
    にのみ該位置履歴テーブルに検索済みの検索履歴を設定
    して、該単語コードを上記判定値累積手段に送り、該判
    定値累積手段では、上記位置検定手段から出力された単
    語コードの評価値を累積加算して上記入力文字列に対す
    る判定値を得て、上記ソート手段により候補単語を抽出
    することを特徴とする単語照合方式。
  2. (2)上記位置履歴テーブルの検索履歴として、入力文
    字列の各文字の認識結果から得られた確からしさの尺度
    を書き込むことを特徴とする特許請求の範囲第1項記載
    の単語照合方式。
JP63104635A 1988-04-27 1988-04-27 単語照合方式 Expired - Lifetime JPH0632092B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63104635A JPH0632092B2 (ja) 1988-04-27 1988-04-27 単語照合方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63104635A JPH0632092B2 (ja) 1988-04-27 1988-04-27 単語照合方式

Publications (2)

Publication Number Publication Date
JPH01276285A true JPH01276285A (ja) 1989-11-06
JPH0632092B2 JPH0632092B2 (ja) 1994-04-27

Family

ID=14385905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63104635A Expired - Lifetime JPH0632092B2 (ja) 1988-04-27 1988-04-27 単語照合方式

Country Status (1)

Country Link
JP (1) JPH0632092B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07309082A (ja) * 1994-05-16 1995-11-28 Kyowa Tokushu Insatsu Kk 偽造防止用被覆フィルム

Also Published As

Publication number Publication date
JPH0632092B2 (ja) 1994-04-27

Similar Documents

Publication Publication Date Title
KR910007531B1 (ko) 음성인식장치
JPS6359660A (ja) 情報処理装置
JPS61156466A (ja) 単語抽出方式
JPH01276285A (ja) 単語照合方式
CN108564086A (zh) 一种字符串的识别校验方法及装置
JPH0713666A (ja) データ処理装置
JP2792147B2 (ja) 文字処理方法およびその装置
JP2000331023A (ja) 情報検索装置及び情報検索処理プログラムを記憶した記憶媒体
EP0148008B1 (en) Word spelling correlatively-storing method and its circuit
JP2774495B2 (ja) 自然言語処理装置
EP0178651B1 (en) Data retrieving apparatus
CN119807391B (zh) 一种基于大语言模型的中文实体链接方法及系统
JPS62285189A (ja) 文字認識後処理方式
JPH04111186A (ja) 住所文字列に対する文字認識結果修正方法
JP2595043B2 (ja) 日本文誤り自動検定装置
JP2595047B2 (ja) 日本文誤り自動検定・訂正装置
JPS60225273A (ja) 単語検索方式
JPS6394364A (ja) 日本文誤字自動修正装置
JPS63103393A (ja) 単語認識装置
JPH06149872A (ja) 文章入力装置
JPH05274482A (ja) 数字列混在文書の文字認識の後処理方法
JPH04278664A (ja) 住所解析処理装置
JPS63268082A (ja) パタ−ン認識装置
JPS61161588A (ja) 文字認識後処理方式
JPH10134150A (ja) 文字認識結果の後処理方法