JPH1011434A - 情報認識装置 - Google Patents

情報認識装置

Info

Publication number
JPH1011434A
JPH1011434A JP8181423A JP18142396A JPH1011434A JP H1011434 A JPH1011434 A JP H1011434A JP 8181423 A JP8181423 A JP 8181423A JP 18142396 A JP18142396 A JP 18142396A JP H1011434 A JPH1011434 A JP H1011434A
Authority
JP
Japan
Prior art keywords
record
recognition
word
likelihood
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8181423A
Other languages
English (en)
Inventor
Hideki Shimomura
秀樹 下村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP8181423A priority Critical patent/JPH1011434A/ja
Priority to DE19726592A priority patent/DE19726592C2/de
Priority to US08/880,769 priority patent/US5995664A/en
Publication of JPH1011434A publication Critical patent/JPH1011434A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 住所等を認識する情報認識装置に於いて、単
語区切り,要素指定のない形式で入力された認識対象情
報を、高速且つ精度良く認識する。 【解決手段】 要素単語認識手段1aが、認識対象情報
の各要素の要素単語候補及び各要素単語候補の尤度を求
める。次いで、レコード番号獲得手段1dが、レコード
格納部1eを検索し、要素単語認識手段1aで求められ
た各要素単語候補それぞれについてそれを含むレコード
のレコード番号を獲得する。その後、尤度計算手段1f
が、上記各レコードの尤度を上記各レコード対応の尤度
カウンタを用いて求める。結果判定手段1hは、尤度カ
ウンタのカウント値に基づいて認識対象情報の認識結果
とすべきレコードを判定し、結果取り出し手段は、結果
判定手段の判定結果に基づいてレコード格納部から認識
結果とすべきレコードを取り出す。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、住所や顧客取引デ
ータ等のように複数の要素から構成され、且つ要素とな
り得る単語が各要素毎に所定個数定まっている情報を、
文字認識技術、或いは音声認識技術を利用して認識する
情報認識装置に関する。
【0002】
【従来の技術】住所や顧客取引データ等は、複数の要素
から構成されている。例えば、住所は、都道府県名,市
区町村名,大字名,小字名,街区(丁目,番地,号),
建物名,部屋番号等の要素から構成され、顧客取引デー
タは、顧客番号,氏名,ふりがな等の要素から構成され
ている。また、住所や顧客取引データ等は、要素となり
得る要素単語が各要素毎に所定個数定まっている。例え
ば、都道府県名となり得る要素単語は、東京都,北海
道,大阪府,秋田県等の計47個の単語である。
【0003】ところで、住所や顧客取引データ等を文字
認識技術,或いは音声認識技術に基づいて認識する場
合、現在の認識技術では、全ての語を正しく、且つ一意
に認識することは不可能である。また、一部の要素単語
は入力時点で省略されている場合もあり得る。従って、
語の認識結果を並べて出力するだけでは、多くの認識誤
りや要素の不足が発生する。
【0004】そこで、認識結果と予め登録されているデ
ータとを照合することにより、認識精度を高めるという
ことが従来から行われている。例えば、特開平1−11
3865号公報に記載されている技術では、全ての顧客
について、顧客が取引時に伝票の所定の欄に記載する口
座番号,名前からなる顧客取引データを顧客情報記憶部
に予め格納しておき、顧客が伝票に記載した顧客取引デ
ータを認識する際には、先ず、手書き文字認識技術によ
って伝票に記載された口座番号,名前を認識し、次い
で、認識結果と顧客情報記憶部に格納されている全ての
顧客取引データとを照合することにより、全ての顧客取
引データ尤度を求める。その後、各顧客取引データの尤
度に基づいて認識結果とすべき顧客取引データを決定す
る。また、特開平4−328692号公報に記載されて
いる技術では、氏名とふりがなといった対となる要素を
単語辞書部に登録しておき、予め定められた枠内に記載
された氏名,ふりがなを認識する際、複数の候補文字と
単語辞書部に登録されている全ての対とを照合して単語
辞書部に登録されている対の尤度を求め、尤度の高いも
のから順に候補単語テーブルに登録するようにしてい
る。
【0005】上述したように、従来の技術は、何れも要
素単語の組み合わせで表すことができる、実際に存在す
る認識対象情報を全て記憶部に予め格納しておき、認識
対象情報の認識時、文字認識技術による認識結果と記憶
部に予め格納されている全ての認識対象情報とを照合し
て各認識対象情報の尤度を求めるようにしている。ま
た、上述した従来の技術は、何れも認識対象情報の各要
素が予め定められている欄或いは枠内に記載されている
ことを前提にしている。
【0006】
【発明が解決しようとする課題】上述した従来技術の問
題点は次の通りである。
【0007】先ず、第1に、従来技術では、欄や枠によ
って要素単語の種類が予め指定されていない場合、対処
できない。例えば、郵便物上の住所のように自由記載文
字列の認識,或いは音声認識技術に基づく住所等の認識
に於いては、要素単語の種類はもとより、文字区切り,
単語区切りさえも確定していない。従って、従来の技術
に基づくならば、全ての文字区切り,単語区切り,要素
の種類を仮定し、それらの全ての組み合わせについて、
記憶部に格納されている全ての情報と照合処理を行うよ
うにすれば良いが、処理量が膨大になり現実的でない。
【0008】第2に、従来の技術では、要素単語の認識
結果と記憶部中の要素単語とを直接比較しているので、
同一単語が何個も記憶部中に存在する場合、全く同じ尤
度算出処理を何度も繰り返し行ってしまい、効率が悪い
という問題がある。
【0009】また、第3の問題点としては、要素の別表
現がある。例えば、住所の場合、地名を文字で表示する
のに、「筑波市」,「つくば市」のような異表記、また
丁目,番地,号等の街区の表記には漢数字,アラビア数
字が使用される。従来技術に基づいて、これに対処する
ためには、異表記も全て記憶部に格納しておくしか方法
がなく、記憶容量的にも尤度計算処理量的にも著しく効
率が悪い。
【0010】そこで、本発明の目的は、単語区切り,要
素指定のない形式で入力された認識対象情報を、高速に
且つ精度良く認識することができ、更に、異表記が存在
するような場合であっても、記憶容量をあまり多くする
ことなく、認識対象情報を高速に且つ精度良く認識する
ことができる情報認識装置を提供することにある。
【0011】
【課題を解決するための手段】本発明は、単語区切り,
要素指定のない形式で入力された認識対象情報を、高速
且つ精度良く認識できるようにするため、複数の要素か
ら構成され、且つ要素となり得る要素単語が各要素毎に
所定個数定まっている情報を認識対象情報とする情報認
識装置に於いて、要素となり得る要素単語が全て格納さ
れた単語記憶部と、各要素の階層関係を示す規則が格納
された規則記憶部と、認識対象情報中の各語を認識し、
その認識結果と前記単語記憶部の内容と前記規則記憶部
の内容とに基づいて前記認識対象情報中の各要素それぞ
れについて要素単語候補を求めると共に、各要素単語候
補の尤度を求める要素単語認識手段と、要素単語の組み
合わせで表すことができる、実際に存在する各認識対象
情報が、認識対象情報の各要素をレコード項目とするレ
コードの形で格納されたレコード格納部と、前記要素単
語認識手段で求められた各要素単語候補それぞれをキー
にして前記レコード格納部を検索することにより前記各
要素単語候補それぞれについてそれを含むレコードのレ
コード番号を獲得するレコード番号獲得手段と、該レコ
ード番号獲得手段で獲得されたレコード番号それぞれに
対応付けて尤度カウンタを設けると共に、前記要素単語
認識手段で求められた要素単語候補の尤度を、その要素
単語候補を含んでいるレコードのレコード番号に対応す
る尤度カウンタに加算する尤度計算手段と、前記各尤度
カウンタのカウント値に基づいて、認識結果とすべきレ
コードを判定する結果判定手段と、該結果判定手段の判
定結果に基づいて前記レコード格納部から認識結果とす
べきレコードを取り出す結果取り出し手段とを備えてい
る。
【0012】上記した構成に於いては、要素単語認識手
段が、認識対象情報中の各語を認識し、更に、その認識
結果と単語記憶部の内容と規則記憶部の内容とに基づい
て認識対象情報中の各要素それぞれについて要素単語候
補を求めると共に、各要素単語候補の尤度を求める。次
いで、レコード番号獲得手段が、要素単語認識手段で求
められた各要素単語候補をキーにしてレコード格納部を
検索し、各要素単語候補それぞれについてそれを含むレ
コードのレコード番号を獲得する。その後、尤度計算手
段が、レコード番号獲得手段で獲得されたレコード番号
それぞれに対応付けて尤度カウンタを設けると共に、要
素単語認識手段で求めた各要素単語候補の尤度を、その
要素単語候補を含んでいるレコードのレコード番号に対
応する尤度カウンタに加算する。結果判定手段では、各
尤度カウンタのカウント値に基づいて認識対象情報の認
識結果とすべきレコードを判定し、結果取り出し手段
は、結果判定手段の判定結果に基づいてレコード格納部
から認識結果とすべきレコードを取り出す。
【0013】また、本発明は、処理速度を更に高速化す
るため、限定レコード格納部と、前記要素単語認識手段
で求められた要素単語候補の中に、尤度が高く、且つ同
一単語が多くは含まれることのないレコード項目に対応
する要素単語候補が存在する場合に限り、その要素単語
候補をキーにして前記レコード格納部を検索し、前記要
素単語候補を含むレコードを前記限定レコード格納部に
格納するレコード限定手段とを備え、前記レコード番号
獲得手段は、前記限定レコード格納部にレコードが格納
されている場合は、前記要素単語認識手段で求められた
各要素単語候補それぞれをキーにして前記限定レコード
格納部を検索することにより前記各要素単語候補それぞ
れについてそれを含むレコードのレコード番号を獲得
し、前記限定レコード格納部にレコードが格納されてい
ない場合は、前記要素単語認識手段で求められた各要素
単語候補それぞれをキーにして前記レコード格納部を検
索することにより前記各要素単語候補それぞれについて
それを含むレコードのレコード番号を獲得する構成を有
し、前記結果取り出し手段は、前記結果判定手段の判定
結果に基づいて前記レコード格納部或いは前記限定レコ
ード格納部から認識結果とすべきレコードを取り出す構
成を有する。
【0014】上記した構成に於いては、レコード限定手
段が、要素単語認識手段で求められた要素単語候補の中
に、尤度が高く、且つ同一単語が多くは含まれることの
ないレコード項目に対応する要素単語候補が存在する場
合に限り、その要素単語候補をキーにしてレコード格納
部を検索し、上記要素単語候補を含むレコードを限定レ
コード格納部に格納する。レコード番号獲得手段では、
限定レコード格納部にレコードが格納されている場合
は、要素単語認識手段で求められた各要素単語候補をキ
ーにして限定レコード格納部を検索し、各要素単語候補
それぞれについてそれを含むレコードのレコード番号を
獲得する。
【0015】更に、本発明は、異表記が存在するような
場合であっても、記憶容量をあまり多くすることなく、
認識対象情報を高速に且つ精度良く認識できるようにす
るため、要素単語の代表表現と変形表現とが対応して格
納された要素単一化テーブル部と、前記要素単語認識手
段で求められた各要素単語候補の内、代表表現のものは
そのまま出力し、変形表現のものは前記要素単一化テー
ブル部の内容に基づいて代表表現に変換してから出力す
る要素単語単一化手段とを備え、前記レコード番号獲得
手段は、前記要素単語単一化手段から出力された各要素
単語候補それぞれをキーにして前記レコード格納部を検
索することにより前記各要素単語候補それぞれについて
それを含むレコードのレコード番号を獲得する構成を有
する。
【0016】上記構成に於いては、要素単語単一化手段
が、要素単語認識手段で求められた各要素単語候補の
内、代表表現のものはそのまま出力し、変形表現のもの
は要素単一化テーブル部の内容に基づいて代表表現に変
換してから出力する。
【0017】また、本発明は、結果判定手段の処理量を
減らし、処理を更に高速化するため、上位候補格納領域
と、前記各尤度カウンタ毎の上位候補登録済みフラグと
を備え、前記尤度計算手段は、尤度カウンタに尤度を加
算した時、その尤度カウンタのカウント値が予め定めら
れている閾値以上であり、且つ対応する上位候補登録済
みフラグが未登録を示している場合、前記上位候補登録
済みフラグを登録済みを示すものに変更すると共に、前
記上位候補格納領域に前記カウント値が前記閾値以上と
なった尤度カウンタに対応するレコード番号を格納する
構成を有し、前記結果判定手段は、前記上位候補格納領
域に格納されているレコード番号に対応する尤度カウン
タのカウント値に基づいて前記認識対象情報の認識結果
とすべき情報が格納されているレコードを判定する構成
を有する。
【0018】上記構成に於いては、尤度計算手段は、尤
度カウンタに尤度を加算した時、その尤度カウンタのカ
ウント値が予め定められている閾値以上であり、且つ対
応する上位候補登録済みフラグが未登録を示している場
合、上位候補登録済みフラグを登録済みを示すものに変
更すると共に、上記した尤度カウンタに対応するレコー
ド番号を上位候補格納領域に格納する。その後、結果判
定手段が、上位候補格納領域に格納されているレコード
番号に対応する尤度カウンタのカウント値に基づいて認
識結果とすべき情報が格納されているレコードを判定す
る。
【0019】
【発明の実施の形態】次に本発明の実施の形態について
図1を参照して詳細に説明する。
【0020】要素単語認識手段1aは、帳票や住所を構
成する要素単語の各々を認識し、尤度付きで複数候補を
出力する。要素単語認識手段1aは、要素の種類に応じ
た複数個の認識手段から構成される。自由記載文字列に
対する文字認識や、音声認識による場合は、入力パター
ンから要素単語を切り出す処理もこの中に含まれる。規
則記憶部1b及び単語記憶部1cには、各要素の認識処
理に使用する単語情報及び規則が格納されている。レコ
ード番号獲得手段1dは、要素単語認識手段1aが出力
した要素単語候補を含むレコードを一意に識別するレコ
ード番号を、レコード格納部1eを検索することにより
獲得する。尤度計算手段1fは、レコード番号獲得手段
1dが獲得したレコード番号に対応する尤度カウンタ
に、要素単語認識手段1aによって求められた要素単語
候補の尤度を加算する。尤度カウンタは、尤度記憶部1
g内にある。結果判定手段1hは、尤度記憶部1g内の
尤度カウンタの値に従い、尤度の高いレコードの中から
認識結果とするレコードのレコード番号を求める。結果
取り出し手段1iは、結果判定手段1hの判定結果のレ
コード番号に該当するレコードを、レコード格納部1e
から取り出す。
【0021】
【実施例】次に、本発明の実施例について説明する。
【0022】図1は本発明の第1の実施例のブロック図
であり、要素単語認識手段1aと、規則記憶部1bと、
単語記憶部1cと、レコード番号獲得手段1dと、レコ
ード格納部1eと、尤度計算手段1fと、尤度記憶部1
gと、結果判定手段1hと、結果取り出し手段1iとか
ら構成されている。
【0023】単語記憶部1cには、認識対象情報の要素
となり得る要素単語が全て格納されている。例えば、或
る市区内の住所が認識対象情報である場合は、認識対象
情報の要素は、市区名,大字,小字,町名,丁目,番
地,号,建物名,部屋番号,個人名等であり、単語記憶
部1cには、上記した各要素となる得る要素単語が全て
格納されている。尚、当然のことではあるが、上記した
市区内に、同一建物名を有する建物が複数あったり、同
一個人名を有する個人が複数人存在しても、それらは、
1つだけ単語記憶部1cに格納される。
【0024】規則記憶部1bには、認識対象情報中の各
要素単語を認識するための規則が格納されている。例え
ば、認識対象情報を住所とする場合は、都道府県名の次
に市区名が現れ、その次に町名が現れる等の地名の階層
関係を示す接続情報や、丁目の次に区切り記号が現れ、
その次に番地が現れる等の街区を生成する規則が格納さ
れる。
【0025】要素単語認識手段1aは、入力された認識
対象情報中の各語を認識し、その認識結果,規則記憶部
1bの内容,及び単語記憶部1cの内容に基づいて認識
対象情報中の各要素それぞれについて要素単語候補を求
めると共に、各要素単語候補の尤度を求める機能を有す
る。
【0026】レコード格納部1eには、単語記憶部1c
に格納された要素単語の組み合わせで表すことができ
る、実際に存在する認識対象情報が、レコードの形式で
格納される。このレコードは、認識対象情報の各要素に
対応するレコード項目から構成される。
【0027】レコード番号獲得手段1dは、要素単語認
識手段1aで求められた各要素単語候補それぞれをキー
にしてレコード格納部1eを検索し、各要素単語候補そ
れぞれについてそれを含むレコードのレコード番号を獲
得する機能を有する。
【0028】尤度計算手段1fは、レコード番号獲得手
段1dで獲得されたレコード番号それぞれに対応付けて
尤度記憶部1g内に尤度カウンタを設けると共に、要素
単語認識手段1aで求めた要素単語候補の尤度を尤度カ
ウンタの内の、その要素単語候補を含んでいるレコード
のレコード番号に対応する尤度カウンタに加算する機能
を有する。
【0029】結果判定手段1hは、尤度記憶部1g内に
設けられた各尤度カウンタのカウント値に基づいて認識
対象情報の認識結果とすべきレコードのレコード番号を
判定する機能を有する。
【0030】結果取り出し手段1iは、結果判定手段1
hの判定結果であるレコード番号に基づいて、レコード
格納部1eから認識結果とすべきレコードを取り出す機
能を有する。
【0031】図2は要素単語認識手段1aの処理例を示
す流れ図、図3はレコード番号獲得手段1dの処理例を
示す流れ図、図4は尤度計算手段1fの処理例を示す流
れ図、図5は結果判定手段1hの処理例を示す流れ図、
図6は結果取り出し手段1iの処理例を示す流れ図であ
る。
【0032】以下に、「神奈川県川崎市宮前区」内の住
所を認識対象情報とした場合を例にとって本実施例の動
作を説明する。
【0033】今、例えば、用紙に記載された図7に示す
住所を認識する場合について考えてみる。要素単語認識
手段1aには、例えば、光学的パターン入力装置(図示
せず)から図7に示した住所(認識対象情報)に対応す
る入力パターンが入力される。
【0034】要素単語認識手段1aは、認識対象情報に
対応する入力パターンが入力されると、図2の流れ図に
示すように、語の切り出し処理を行い、更に、切り出し
た各語について認識処理を行う(S1,S2)。その
際、要素単語認識手段1aは、各語に対する認識結果の
尤度を求めておく。
【0035】その後、要素単語認識手段1aは、各語に
対する認識結果と、規則記憶部1bの内容と、単語記憶
部1cの内容とに基づいて、各要素それぞれに対する要
素単語候補を求め、求めた要素単語候補をレコード番号
獲得手段1dへ出力する(S3)。その際、要素単語認
識手段1aは、求めた要素単語候補と単語記憶部1cに
格納されている要素単語との適合度,規則記憶部1bに
格納されている規則との適合度、及び既に求めてある各
語に対する認識結果の尤度に基づいて、各要素単語候補
の尤度も求め、それもレコード番号獲得手段1dへ出力
する。尚、各住所要素を認識する技術としては、NEC
技報(第44巻3号,25〜30頁)「郵政省向け郵便
物あて名自動読み取り区分機」に記載された技術や、東
芝レビュー(第45巻2号149〜152頁)「郵便物
あて名自動読み取り区分機」等、既に実用的な技術があ
る。
【0036】図8は、図7に示した住所に対する要素単
語認識手段1aの出力例を示した図である。この例は、
地名に対しては尤度がそれぞれ「10」,「8」,
「4」の要素単語候補「宮崎」,「宮前平」,「有馬」
が、丁目に対しては尤度が「10」の要素単語候補
「4」が、番地に対しては尤度がそれぞれ「10」,
「7」の要素単語候補「7」,「17」が、号および建
物名に対しては要素単語候補がないことを示す「?」と
尤度「0」が、部屋番号に対しては尤度がそれぞれ「1
0」,「5」の要素単語候補「207」,「201」
が、氏名に対しては尤度が共に「10」の要素単語候補
「日電太郎」,「日雷次郎」が出力されたことを示して
いる。ここで、建物名は記載時に省略されているため
に、要素単語候補なしを示す「?」が出力され、号は記
載されているが認識不能であるために要素単語候補なし
を示す「?」が出力されたものである。また、図8の例
では、町名より下層の要素についてのみ要素単語候補を
出力するようにしているが、これは、認識対象を「川崎
市宮前区」内の住所としているためである。
【0037】要素単語認識手段1aから図8に示した情
報が出力されると、レコード番号獲得手段1dは、図3
の流れ図に示す処理を行う。
【0038】レコード番号獲得手段1dは、先ず、地
名,丁目,番地,号,建物名,部屋番号,氏名の各要素
の内、1つを処理対象とする(S11)。今、例えば、
地名を処理対象にしたとする。
【0039】次いで、レコード番号獲得手段1dは、地
名に対する要素候補単語「宮崎」,「宮前平」,「有
馬」の内の1つを処理対象とする(S13)。今、例え
ば、「宮崎」を処理対象にしたとする。
【0040】その後、レコード番号獲得手段1dは、処
理対象とした要素単語候補「宮崎」をキーにしてレコー
ド格納部1eを検索し、地名のレコード項目に「宮崎」
を含むレコードのレコード番号を全て獲得する(S1
5)。その結果、地名のレコード項目に「宮崎」を含む
レコードのレコード番号として、例えば、「2014〜
3500」が獲得されたとする。
【0041】図9はレコード格納部1eの内容例を示し
た図であり、レコード格納部1eに格納されたレコード
は、「レコード番号」,「地名」,「丁目」,「番
地」,「号」,「建物名」,「部屋番号」,「氏名」の
レコード項目から構成されている。尚、図9に於いて、
空欄となっているレコード項目は、該当要素がないこと
を示している。
【0042】その後、レコード番号獲得手段1dは、
「地名」に対する要素単語候補「宮前平」,「有馬」を
順次処理対象にして前述したと同様の処理を行う(S1
3〜S15)。
【0043】そして、「地名」に対する要素単語候補の
中に、未処理のものがなくなると(S14がYES)、
レコード番号獲得手段1dは、未処理の要素の内の1つ
を処理対象とし(S11)、その処理対象に対して前述
したと同様の処理を行う(S13〜S15)。
【0044】上述した処理を全ての要素に対して行うと
(S12がYES)、レコード番号獲得手段1dは、各
要素単語候補毎に、その尤度とS15で獲得したレコー
ド番号とを対にして尤度計算手段1fに渡す(S1
6)。
【0045】図10は、レコード番号獲得手段1dの出
力例を示した図である。同図に示すように、レコード番
号獲得手段1dからは、「地名」のレコード項目に「有
馬」を含むレコードのレコード番号「0001〜052
3」と尤度「4」との対,「地名」のレコード項目に
「宮崎」を含むレコードのレコード番号「2014〜3
500」と尤度「10」との対等が出力される。
【0046】尚、レコード番号獲得手段1dに於ける検
索処理を高速化するため、一般のデータベースで行われ
るように、検索のためのデータ構造、例えばハッシュ表
等を別に用意するようにしても良い。また、要素単語認
識手段1aから出力される可能性のある全ての要素単語
候補について、その要素を含むレコードのレコード番号
リストを用意しておくようにしても良い。このようにす
ると、レコード番号の獲得処理時間は非常に短くなる
が、要素単語とレコード番号の対応関係を格納しておく
記憶領域が必要になる。従って、レコード格納部1eに
格納されているレコード数,要素単語の種類の数,ハー
ドウェア的な制約を考慮して、全ての要素単語について
レコードリストを設けたり、一部の要素単語についての
みレコードリストを設けたりすることが望ましい。
【0047】レコード番号獲得手段1dから、図10に
示すように、レコード番号と尤度との対が複数出力され
ると、尤度計算手段1fは、図4の流れ図に示すよう
に、未処理の対の内の1つを処理対象とする(S2
1)。今、例えば、図10に示すレコード番号と尤度と
の対の内の、レコード番号「0001〜0523」と尤
度「4」とからなる対を処理対象にしたとする。
【0048】次いで、レコード番号獲得手段1dは、処
理対象とした対に含まれているレコード番号「0001
〜0523」の内の1つを処理対象にする(S23)。
今、例えば、レコード番号「0001」を処理対象にし
たとする。
【0049】その後、レコード番号獲得手段1dは、処
理対象としたレコード番号「0001」に対応する尤度
カウンタを既に尤度記憶部1g内に作成済みが否かを判
断する(S25)。
【0050】そして、作成済みでないと判断した場合
(S25がNO)は、図11に示すような尤度カウンタ
11aを尤度記憶部1g内に作成する(S26)。尤度
カウンタ11aは、レコード番号部11bと尤度部11
cとから構成される。レコード番号部11bには、現在
処理対象としているレコード番号「0001」が格納さ
れ、尤度部11cには初期値「0」が格納される。
【0051】レコード番号「0001」に対応する尤度
カウンタ11aを尤度記憶部1g内に作成すると、その
尤度部11cに現在処理対象にしている対に含まれてい
る尤度「4」を加算する(S27)。尚、S25で現在
処理対象としているレコード番号に対応する尤度カウン
タが作成済みであると判断した場合は、S26の処理は
行わずに、直ちにS27の処理を行う。
【0052】その後、尤度計算手段1fは、現在処理対
象としている対に含まれている未処理のレコード番号に
ついて前述したと同様の処理を順次行う(S23〜S2
7)。
【0053】そして、現在処理対象としている対に含ま
れているレコード番号の中に未処理のものがなくなると
(S24がYES)、未処理の対の内の1つを処理対象
にして前述したと同様の処理を行う(S21〜S2
7)。
【0054】上述した処理を、レコード番号獲得手段1
dから渡された全てのレコード番号と尤度の対に対して
行うと(S22がYES)、尤度計算手段1fは、図1
2に示すように、尤度記憶部1g内に存在する尤度カウ
ンタ11aを、尤度部11cに設定されている尤度が大
きいものから順番にソートし、その後、結果判定手段1
hに対して処理終了を通知する(S28,S29)。
尚、図12に於いては、尤度の加算内容も示したが、こ
れは理解を助けるためのものであり、尤度記憶部1g内
に実際に格納されているものではない。
【0055】尤度計算手段1fから処理終了が通知され
ると、結果判定手段1hは、図5の流れ図に示すよう
に、尤度記憶部1g内に存在する尤度カウンタ11aの
内、尤度部11cに格納されている尤度が最も大きな尤
度カウンタ11aを選択し(S31)、選択した尤度カ
ウンタ11aのレコード番号部11bに格納されている
レコード番号を認識結果とするレコードのレコード番号
として出力する(S32)。本実施例では、上記したよ
うに、尤度部11cに設定されている尤度が最も大きな
尤度カウンタ11aに対応するレコード番号を無条件に
出力するようにしたが、第1,第2の閾値Th1,Th
2を定めておき、尤度部11bに設定されている尤度が
最も大きな尤度カウンタ(第1候補尤度カウンタ)と尤
度部11bに設定されている尤度が2番目に大きい尤度
カウンタ(第2候補尤度カウンタ)の尤度部11bに設
定されている尤度の差が第1の閾値Th1より大きく、
且つ第1候補尤度カウンタの尤度部11bに設定されて
いる尤度が第2の閾値Th2よりも大きい場合のみ、第
1候補尤度カウンタのレコード番号部11bに設定され
ているレコード番号を結果判定手段1hに対して出力
し、それ以外の場合は認識不能を結果判定手段11hに
対して通知するようにしても良い。このようにすること
により、誤った認識結果が出力される危険性を少なくす
ることができる。
【0056】結果判定手段1hからレコード番号が出力
されると、結果取り出し手段1iは、図6の流れ図に示
すように、レコード格納部1eから上記レコード番号の
レコードを取り出し、取り出したレコードの内容を認識
結果として出力する(S41,S42)。
【0057】本実施例では、住所の認識範囲を川崎市宮
前区内に限定したが、地域を広げることも容易である。
即ち、本実施例では市区名より下層の住所要素だけを対
象にして、レコード番号獲得手段1dでレコード番号を
獲得し、尤度計算手段1fで尤度加算を行ったが、要素
単語認識手段1aで認識した県名,市区名も住所要素と
して処理を実施すれば良い。異なる市区内に同一町名が
あっても、処理に何の変更も必要ない。但し、単語記憶
部1c及びレコード格納部1eにも、認識対象の県名,
市区名等を追加する必要があることは当然である。
【0058】また、本実施例により、複数の要素単語候
補の組み合わせの中からもっともらしいレコードを効率
良く選び出すことは可能であるが、対象となる住所のレ
コード数が多いと、加算処理後の尤度比較処理の負荷が
大きくなるという問題がある。図12に示した例では、
尤度カウンタを尤度部に設定されている尤度に従ってソ
ートしたが、尤度カウンタは、最大でレコード格納部1
eのレコード数だけ必要であり、そのソートや尤度上位
候補抽出には時間がかかる。さて、通常、尤度部の値が
或る値よりも大きくなる尤度カウンタの数は少なく、ほ
とんどの尤度カウンタの尤度部の値は、「0」か小さな
値となる。その点に着目すると、尤度記憶部1gに、図
13に示すように、上位候補格納領域13aを設けると
共に、各尤度カウンタ11aに対応して上位候補登録済
みフラグ11dを設けることにより、処理を高速化でき
る。この場合、尤度計算手段1fは、或る尤度カウンタ
11aの尤度部11cに尤度を加算する毎に、加算後の
尤度部11cの値と登録閾値Thとを比較する。そし
て、もし、尤度部11cの値が登録閾値Th以上であ
り、且つ上位候補登録済みフラグ11dが未登録を示す
「0」であるなら、上記尤度カウンタ11aのレコード
番号部11bに格納されているレコード番号を上位候補
格納領域13aに登録すると共に、対応する上位候補登
録済みフラグ11dを、未登録を示す「0」から登録済
みを示す「1」に変更する。ここで、上位候補登録済み
フラグ11dを設けるのは、同一レコード番号の重複登
録を防ぐためである。以上の処理を行うことにより、尤
度部11cの値が登録閾値Th以上の尤度カウンタ11
aに対応するレコード番号のみが上位候補格納領域13
aに格納されることになるので、上位候補を取り出すた
めの処理が大幅に限定される。図13では、登録閾値T
hを「10」にした例を示したが、状況に応じた設定変
更で、処理速度と精度のトレードオフを容易にとること
ができる。尚、登録閾値を大きくすると、認識結果なし
の判定が増え、小さくすると処理時間が増大する。
【0059】以上のように、本実施例によれば、自由記
載の住所に対して、一部の要素単語が記載時に省略され
ている、認識不能が発生している、或いは要素単語の誤
読が起こっている等の条件下でも、効率良く、正しい認
識結果を出力することが可能となる。
【0060】図14は本発明の第2の実施例のブロック
図である。本実施例と図1に示した第1の実施例との相
違は、レコード限定手段14a及び限定レコード格納部
14cを備えた点、レコード番号獲得手段1dに代えて
レコード番号獲得手段14bを備えた点、及び結果取り
出し手段1iに代えて結果取り出し手段14dを備えた
点である。尚、他の第1図と同一符号は同一部分を表し
ている。
【0061】レコード限定手段14aは、要素単語認識
手段1aで求められた要素単語候補の中に、尤度が高
く、且つ同一単語が多くは含まれることのないレコード
項目に対応する要素単語候補が存在する場合は、その要
素単語候補をキーにしてレコード格納部1eを検索する
ことにより得られた上記要素単語候補を含むレコードを
限定レコード格納部14cに格納すると共にレコード番
号獲得手段14bに対して限定レコード格納部14cを
検索対象にすることを指示し、上記条件を満たす要素単
語候補が存在しない場合は、レコード番号獲得手段14
bに対してレコード格納部1eを検索対象にすることを
指示する機能を有する。
【0062】レコード番号獲得手段14bは、レコード
格納部1eを検索対象にすることが指示された場合に
は、要素単語認識手段1aで求められた各要素単語候補
をキーにしてレコード格納部1eを検索し、各要素単語
候補それぞれについてそれを含むレコードのレコード番
号を獲得し、限定レコード格納部14cを検索対象にす
ることが指示された場合には、要素単語認識手段1aで
求められた各要素単語候補をキーにして限定レコード格
納部14cを検索し、各要素単語候補それぞれについて
それを含むレコードのレコード番号を獲得する機能を有
する。
【0063】結果取り出し手段14dは、結果判定手段
1hの判定結果であるレコード番号に基づいて、限定レ
コード格納部14cから認識結果とすべきレコードを取
り出す機能を有する。
【0064】図15は、レコード限定手段14aの処理
例を示す流れ図であり、以下各図を参照して本実施例の
動作を説明する。
【0065】住所や取引データを構成する要素は、その
種類毎に該当するレコードを限定する能力が異なること
が多い。例えば、住所を例にとると、市区名,町名,街
区,部屋番号等ではあまりレコードを限定できないが、
氏名,建物名は、正しく認識されていれば、レコードを
限定する効果が大きい。従って、レコード限定能力の高
い要素が正しく認識できた場合、それによって処理する
レコードの範囲を限定し、その範囲に対して残りの要素
単語による処理を行うことにより、処理量を大幅に削減
することができる。本実施例は、この点に着目したもの
である。
【0066】レコード限定手段14aは、要素単語認識
手段1aから要素単語候補が出力されると、図15の流
れ図に示すように、その中に尤度が高く、且つレコード
限定能力の高い要素単語候補が存在するか否かを調べる
(S51)。
【0067】そして、上記条件を満たす要素単語候補が
存在しない場合(S52がNO)は、レコード限定手段
14aは、レコード番号獲得手段14bに対してレコー
ド格納部1eを検索対象にすることを指示する(S5
5)。レコード番号獲得手段14bは、レコード格納部
1eを検索対象にすることが指示されると、図1に示し
たレコード番号獲得手段1dと同様の処理を行う。
【0068】また、上記条件を満たす要素単語候補が存
在する場合(S52がYES)は、レコード限定手段1
4aは、レコード格納部1eから上記上位要素単語候補
を含むレコードを全て取り出し、取り出したレコードを
限定レコード格納部14cに格納する(S53)。その
後、レコード限定手段14aは、レコード番号獲得手段
14bに対して、検索対象を限定レコード格納部14c
とすることを指示する(S54)。これにより、レコー
ド番号獲得手段14bは、要素単語認識手段1aが求め
た各要素単語候補をそれぞれキーにして限定レコード格
納部14cを検索し、上記要素単語候補を含むレコード
のレコード番号を獲得する。
【0069】尤度計算手段1f,結果判定手段1hは、
前述したと同様の処理を行い、結果取り出し手段14d
は、結果判定手段1hから出力されたレコード番号に該
当するレコードを、限定レコード格納部14cから取り
出し、取り出したレコードを認識結果として出力する。
尚、結果判定手段1hから出力されたレコード番号に該
当するレコードを、レコード格納部1eから取り出すよ
うにしても良いが、限定レコード格納部14cの方がレ
コード格納部1eより格納レコード数が少ないので、限
定レコード格納部14cからレコードを取り出す方が処
理を高速化できる。
【0070】ところで、本実施例では、特定の要素単語
に依存して処理対象とするレコードを限定しているた
め、限定に使用した要素単語の認識精度が全体の認識精
度に大きく影響してしまうという問題を持つ。これを解
決するためには、結果判定手段1hに於ける第1,第2
の閾値Th1,Th2の値を大きくし、尤度が十分高
く、第1候補尤度カウンタに設定されている尤度と第2
候補尤度カウンタに設定されている尤度との差が十分に
大きくなければ、積極的にリジェクトの判定を下すとい
う対策をとることができる。更に、このように厳しい判
定によってリジェクトが起こった場合には、限定レコー
ド格納部14cを使用せずに、第1の実施例と同様に、
レコード格納部1eを使用して処理を行う等して、シス
テム全体の平均的な速度と精度のバランスをとることも
可能である。
【0071】図16は、本発明の第3の実施例のブロッ
ク図である。図1に示した第1の実施例と異なる点は、
要素単語単一化手段16a及び要素単一化テーブル部1
6bを設けた点である。尚、他の図1と同一符号は同一
部分を表している。
【0072】要素単一化テーブル部16bには、要素単
語の代表表現と変形表現とが対応して格納されている。
【0073】要素単語単一化手段16aは、要素単語認
識手段1aで求められた各要素単語候補それぞれについ
て、それが代表表現であるか、変形表現であるかを要素
単一化テーブル部16bの内容に基づいて判定し、代表
表現のものはそのまま、異表記等の変形表現のものは代
表表現に変換してから出力する機能を有する。
【0074】住所等に於いては、同一の意味を持つ要素
単語が異なる表現となる場合がある。例えば、「日の出
町」は、「日乃出町」,「日ノ出町」等の表現される場
合がある。また、住所氏名がカタカナで記載されること
もある。或いは、街区を文字列で表現した時、数字がア
ラビア数字である場合も、漢数字である場合もある。要
素単語単一化手段16aは、このような複数の表現をレ
コード格納部1eで使用されている代表表現に単一化す
る。これにより、異表記を含むレコードを別途レコード
格納部1eに格納する必要はなく、記憶容量及び処理時
間の節約が可能となる。尚、本実施例のその他の処理は
図1に示した第1の実施例と同じである。
【0075】図17は、要素単一化テーブル部16bの
内容例を示した図である。要素単一化テーブル部16b
の内容を同図に示すものとしておくことにより、要素単
語認識手段1aが、「日の出町」,「日ノ出町」,「日
乃出町」「ヒノデチョウ」の何れを出力しても、「日の
出町」に単一化されるので、レコード格納部1eには
「日の出町」を用いたレコードだけを登録しておけば良
い。更に、要素単語単一化手段16aは、必ずしも単語
記憶部1cに格納されている要素単語のどれかの文字列
に単一化する必要はなく、或る識別コードに単一化する
ようにしても良い。但し、この場合は、要素単語の代わ
りに上記識別コードをレコード格納部に格納しておくこ
とが必要となる。更に、識別コードを文字列データでな
く、数値データとしてレコード格納部1eに格納すれ
ば、レコード格納部1eの記憶量を削減することができ
る。
【0076】地名等の文字列を単一化する場合には、上
記したように、要素単一化テーブル部16bを用いる方
式が望ましいが、街区表示に於ける数字列の場合は、要
素単一化テーブル部16bを用いる方式よりも、要素単
語単一化手段16a内に、漢数字をアラビア数字に変換
する変換手段或いはアラビア数字を漢数字に変換する変
換手段を用意する形態の方が現実的である。
【0077】以上の処理により、要素単語が代表表現と
異なる表現で現れても、効率良く、且つ認識精度良く、
認識対象情報を認識することができる。
【0078】尚、上述した実施例に於いては、文字認識
技術を用いて、入力パターン中の各語を認識するように
したが、入力パターンを音声パターンとし、音声認識技
術を用いて入力パターン中の各語を認識するようにする
こともできる。
【0079】
【発明の効果】以上説明したように、本発明は、認識対
象情報を認識する際、要素単語認識手段で、認識対象情
報中の各語の認識結果と単語記憶部の内容と規則記憶部
の内容とに基づいて認識対象情報中の各要素それぞれの
要素単語候補及び各要素単語候補の尤度を求め、その
後、尤度計算手段で、要素単語認識手段が求めた要素単
語候補及び各要素単語候補の尤度に基づいて要素単語候
補を含む各レコードの尤度を求めるようにしたものであ
るので、単語区切り,要素指定のない形式で入力された
認識対象情報を、高速且つ精度良く認識できる。つま
り、要素単語認識手段に於いて各要素単語候補の尤度を
求める処理は、単語記憶部に格納されている要素単語の
数がレコード格納部に格納されているレコードの数に比
較してはるかに少ないものであるので、レコード格納部
に格納されている全てのレコードと各要素単語候補とを
直接照合して各レコードの尤度を求めるという従来行わ
れていた処理に比較してはるかに処理量が少なく、ま
た、要素単語候補を含む各レコードの尤度を求める処理
も尤度計算手段で尤度カウンタに要素単語候補の尤度を
加算するだけで良いので、従来の技術に比較してはるか
に処理量が少ない。従って、本発明によれば、処理を高
速化することができる。
【0080】更に、各尤度カウンタのカウント値に基づ
いて認識対象とする情報が格納されているレコードを判
定する結果判定手段と、結果判定手段の判定結果に基づ
いて認識結果とするレコードを取り出す結果取り出し手
段とを備えているので、一部の要素単語が省略されてい
る場合であっても、正しい認識結果を得ることができ
る。
【0081】また、本発明は、要素単語認識手段で求め
られた要素単語候補の中に、尤度が高く、且つレコード
限定能力の高い要素単語候補が存在する場合、その要素
単語候補を含むレコードを限定レコード格納部に格納す
るレコード限定手段を備えているので、認識処理を更に
高速化することができる。
【0082】また、本発明は、要素単語の代表表現とそ
の変形表現とが対応して格納された要素単一化テーブル
部と、この要素単一化テーブル部の内容に基づいて変形
表現を代表表現に変換する要素単語単一化手段を備えて
いるので、異表記が存在するような場合であっても、記
憶容量をあまり多くすることなく、認識対象情報を高速
に且つ精度良く認識することができる。
【0083】また、本発明は、尤度カウンタに尤度を加
算した際、カウント値が閾値以上になった尤度カウンタ
に対応するレコード番号を上位候補格納領域に格納する
ようにし、結果判定手段では、上位候補格納領域に格納
されているレコード番号のレコードの尤度のみを対象に
して処理を行うので、処理速度を更に高速化することが
できる。
【図面の簡単な説明】
【図1】本発明の第1の実施例のブロック図である。
【図2】要素単語認識手段1aの処理例を示す流れ図で
ある。
【図3】レコード番号獲得手段1dの処理例を示す流れ
図である。
【図4】尤度計算手段1fの処理例を示す流れ図であ
る。
【図5】結果判定手段1hの処理例を示す流れ図であ
る。
【図6】結果取り出し手段1iの処理例を示す流れ図で
ある。
【図7】認識対象情報の一例を示す図である。
【図8】要素単語認識手段1aの出力例を示す図であ
る。
【図9】レコード格納部1eの内容例を示す図である。
【図10】レコード番号獲得手段1dの出力例を示す図
である。
【図11】尤度カウンタ11aの構成例を示す図であ
る。
【図12】尤度計算手段1fの処理を説明するための図
である。
【図13】尤度計算手段1fの処理を説明するための図
である。
【図14】本発明の第2の実施例のブロック図である。
【図15】レコード限定手段14aの処理例を示す流れ
図である。
【図16】本発明の第3の実施例のブロック図である。
【図17】要素単一化テーブル部16bの内容例を示す
図である。
【符号の説明】
1a…要素単語認識手段 1b…規則記憶部 1c…単語記憶部 1d…レコード番号獲得手段 1e…レコード格納部 1f…尤度計算手段 1g…尤度記憶部 1h…結果判定手段 1i…結果取り出し手段 11a…尤度カウンタ 11b…レコード番号部 11c…尤度部 11d…上位候補登録済みフラグ 14a…レコード限定手段 14b…レコード番号獲得手段 14c…限定レコード格納部 14d…結果取り出し手段 16a…要素単語単一化手段 16b…要素単一化テーブル部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 複数の要素から構成され、且つ要素とな
    り得る要素単語が各要素毎に所定個数定まっている情報
    を認識対象情報とする情報認識装置に於いて、 要素となり得る要素単語が全て格納された単語記憶部
    と、 各要素の階層関係を示す規則が格納された規則記憶部
    と、 認識対象情報中の各語を認識し、その認識結果と前記単
    語記憶部の内容と前記規則記憶部の内容とに基づいて前
    記認識対象情報中の各要素それぞれについて要素単語候
    補を求めると共に、各要素単語候補の尤度を求める要素
    単語認識手段と、 要素単語の組み合わせで表すことができる、実際に存在
    する各認識対象情報が、認識対象情報の各要素をレコー
    ド項目とするレコードの形で格納されたレコード格納部
    と、 前記要素単語認識手段で求められた各要素単語候補それ
    ぞれをキーにして前記レコード格納部を検索することに
    より前記各要素単語候補それぞれについてそれを含むレ
    コードのレコード番号を獲得するレコード番号獲得手段
    と、 該レコード番号獲得手段で獲得されたレコード番号それ
    ぞれに対応付けて尤度カウンタを設けると共に、前記要
    素単語認識手段で求められた要素単語候補の尤度を、そ
    の要素単語候補を含んでいるレコードのレコード番号に
    対応する尤度カウンタに加算する尤度計算手段と、 前記各尤度カウンタのカウント値に基づいて、認識結果
    とすべきレコードを判定する結果判定手段と、 該結果判定手段の判定結果に基づいて前記レコード格納
    部から認識結果とすべきレコードを取り出す結果取り出
    し手段とを備えたことを特徴とする情報認識装置。
  2. 【請求項2】 限定レコード格納部と、 前記要素単語認識手段で求められた要素単語候補の中
    に、尤度が高く、且つ同一単語が多くは含まれることの
    ないレコード項目に対応する要素単語候補が存在する場
    合に限り、その要素単語候補をキーにして前記レコード
    格納部を検索し、前記要素単語候補を含むレコードを前
    記限定レコード格納部に格納するレコード限定手段とを
    備え、 前記レコード番号獲得手段は、前記限定レコード格納部
    にレコードが格納されている場合は、前記要素単語認識
    手段で求められた各要素単語候補それぞれをキーにして
    前記限定レコード格納部を検索することにより前記各要
    素単語候補それぞれについてそれを含むレコードのレコ
    ード番号を獲得し、前記限定レコード格納部にレコード
    が格納されていない場合は、前記要素単語認識手段で求
    められた各要素単語候補それぞれをキーにして前記レコ
    ード格納部を検索することにより前記各要素単語候補そ
    れぞれについてそれを含むレコードのレコード番号を獲
    得する構成を有し、 前記結果取り出し手段は、前記結果判定手段の判定結果
    に基づいて前記レコード格納部或いは前記限定レコード
    格納部から認識結果とすべきレコードを取り出す構成を
    有することを特徴とする請求項1記載の情報認識装置。
  3. 【請求項3】 要素単語の代表表現と変形表現とが対応
    して格納された要素単一化テーブル部と、 前記要素単語認識手段で求められた各要素単語候補の
    内、代表表現のものはそのまま出力し、変形表現のもの
    は前記要素単一化テーブル部の内容に基づいて代表表現
    に変換してから出力する要素単語単一化手段とを備え、 前記レコード番号獲得手段は、前記要素単語単一化手段
    から出力された各要素単語候補それぞれをキーにして前
    記レコード格納部を検索することにより前記各要素単語
    候補それぞれについてそれを含むレコードのレコード番
    号を獲得する構成を有することを特徴とする請求項1記
    載の情報認識装置。
  4. 【請求項4】 上位候補格納領域と、 前記各尤度カウンタ毎の上位候補登録済みフラグとを備
    え、 前記尤度計算手段は、尤度カウンタに尤度を加算した
    時、その尤度カウンタのカウント値が予め定められてい
    る閾値以上であり、且つ対応する上位候補登録済みフラ
    グが未登録を示している場合、前記上位候補登録済みフ
    ラグを登録済みを示すものに変更すると共に、前記上位
    候補格納領域に前記カウント値が前記閾値以上となった
    尤度カウンタに対応するレコード番号を格納する構成を
    有し、 前記結果判定手段は、前記上位候補格納領域に格納され
    ているレコード番号に対応する尤度カウンタのカウント
    値に基づいて前記認識対象情報の認識結果とすべきレコ
    ードを判定する構成を有することを特徴とする請求項
    1,2または3記載の情報認識装置。
  5. 【請求項5】 前記要素単語認識手段は、前記認識対象
    情報中の各語を文字認識により認識することを特徴とす
    る請求項1,2,3または4記載の情報認識装置。
  6. 【請求項6】 前記要素単語認識手段は、前記認識対象
    情報中の各語を音声認識により認識することを特徴とす
    る請求項1,2,3または4記載の情報認識装置。
  7. 【請求項7】 前記単語記憶部に格納された認識対象情
    報の要素となり得る要素単語は、郵便番号,地名,街
    区,組織名,建物名,個人であり、 前記レコード格納部に格納された認識対象情報は、前記
    要素単語の組み合わせとして表すことができる実際に存
    在する住所であることを特徴とする請求項1,2,3,
    4,5または6記載の情報認識装置。
  8. 【請求項8】 前記単語記憶部に格納された認識対象情
    報の要素となり得る要素単語は、顧客番号,氏名,ふり
    がなであり、 前記レコード格納部に格納された認識対象情報は、前記
    要素単語の組み合わせとして表すことができる実際に存
    在する顧客取引データであることを特徴とする請求項
    1,2,3,4,5または6記載の情報認識装置。
JP8181423A 1996-06-21 1996-06-21 情報認識装置 Pending JPH1011434A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP8181423A JPH1011434A (ja) 1996-06-21 1996-06-21 情報認識装置
DE19726592A DE19726592C2 (de) 1996-06-21 1997-06-23 Informationserkennungs-Vorrichtung
US08/880,769 US5995664A (en) 1996-06-21 1997-06-23 Information recognition apparatus for recognizing recognition object information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8181423A JPH1011434A (ja) 1996-06-21 1996-06-21 情報認識装置

Publications (1)

Publication Number Publication Date
JPH1011434A true JPH1011434A (ja) 1998-01-16

Family

ID=16100522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8181423A Pending JPH1011434A (ja) 1996-06-21 1996-06-21 情報認識装置

Country Status (3)

Country Link
US (1) US5995664A (ja)
JP (1) JPH1011434A (ja)
DE (1) DE19726592C2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2026046211A (ja) * 2024-09-02 2026-03-13 株式会社 日立産業制御ソリューションズ 帳票処理装置、及び、帳票処理方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6801660B1 (en) 2000-08-22 2004-10-05 Microsoft Corporation Method and system for maintaining alternates in association with recognized words
US6771817B1 (en) * 2000-08-22 2004-08-03 Microsoft Corporation Method and system for extending ink word data structures while maintaining version compatibility
US6754386B1 (en) 2000-08-22 2004-06-22 Microsft Corporation Method and system of matching ink processor and recognizer word breaks
US6785417B1 (en) 2000-08-22 2004-08-31 Microsoft Corp Method and system for searching for words in ink word documents
US6836759B1 (en) 2000-08-22 2004-12-28 Microsoft Corporation Method and system of handling the selection of alternates for recognized words
US7158935B1 (en) * 2000-11-15 2007-01-02 At&T Corp. Method and system for predicting problematic situations in a automated dialog
US20060253784A1 (en) * 2001-05-03 2006-11-09 Bower James M Multi-tiered safety control system and methods for online communities
US7095875B2 (en) * 2001-05-15 2006-08-22 Lockheed Martin Corporation Method and system for address result arbitration
CN104809325B (zh) 2014-01-26 2018-06-01 国际商业机器公司 用于检测事件日志和过程模型之间的区别的方法和装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0682403B2 (ja) * 1986-03-24 1994-10-19 沖電気工業株式会社 光学式文字読取装置
US5050218A (en) * 1986-08-26 1991-09-17 Nec Corporation Apparatus for recognizing address appearing on mail article
JPS647276A (en) * 1987-06-30 1989-01-11 Toshiba Corp Character recognition method
JPH01113865A (ja) * 1987-10-28 1989-05-02 Hitachi Ltd 伝票文字認識・検証方式
JPH02173886A (ja) * 1988-12-27 1990-07-05 Toshiba Corp 単語認識方式
JP2942375B2 (ja) * 1991-04-30 1999-08-30 株式会社日立製作所 文字読取装置
US5161245A (en) * 1991-05-01 1992-11-03 Apple Computer, Inc. Pattern recognition system having inter-pattern spacing correction
US5287415A (en) * 1991-10-24 1994-02-15 International Business Machines Corporation Elastic prototype averaging in online handwriting recognition
JP3289304B2 (ja) * 1992-03-10 2002-06-04 株式会社日立製作所 手話変換装置および方法
JPH0689302A (ja) * 1992-09-08 1994-03-29 Hitachi Ltd 辞書メモリ
US5392363A (en) * 1992-11-13 1995-02-21 International Business Machines Corporation On-line connected handwritten word recognition by a probabilistic method
JP2991594B2 (ja) * 1993-08-31 1999-12-20 株式会社東芝 郵便物の宛名読取装置
JPH0766423A (ja) * 1993-08-31 1995-03-10 Toshiba Corp 液晶表示装置用アレイ基板
JP3162552B2 (ja) * 1993-09-22 2001-05-08 株式会社東芝 郵便物あて名認識装置及びあて名認識方法
JPH07262320A (ja) * 1994-03-18 1995-10-13 Matsushita Electric Ind Co Ltd 住所認識装置
EP0694862A3 (en) * 1994-07-22 1996-07-24 At & T Corp Detection of degraded, grayscale documents using two-dimensional hidden pseudo-Markov models and N-best hypotheses
US5675665A (en) * 1994-09-30 1997-10-07 Apple Computer, Inc. System and method for word recognition using size and placement models
US5812698A (en) * 1995-05-12 1998-09-22 Synaptics, Inc. Handwriting recognition system and method
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2026046211A (ja) * 2024-09-02 2026-03-13 株式会社 日立産業制御ソリューションズ 帳票処理装置、及び、帳票処理方法

Also Published As

Publication number Publication date
DE19726592C2 (de) 2000-05-31
DE19726592A1 (de) 1998-01-02
US5995664A (en) 1999-11-30

Similar Documents

Publication Publication Date Title
CN114036930B (zh) 文本纠错方法、装置、设备及计算机可读介质
US7769778B2 (en) Systems and methods for validating an address
JP3041268B2 (ja) 中国語誤り検査(cec)システム
US8386264B2 (en) Speech data retrieval apparatus, speech data retrieval method, speech data retrieval program and computer usable medium having computer readable speech data retrieval program embodied therein
US8190538B2 (en) Methods and systems for matching records and normalizing names
KR100627195B1 (ko) 광학문자인식으로 생성된 전자문서 검색방법 및 그 시스템
JPH10207988A (ja) 文字認識方法および文字認識装置
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
US7415171B2 (en) Multigraph optical character reader enhancement systems and methods
JPH1011434A (ja) 情報認識装置
KR102670389B1 (ko) 텍스트의 데이터 구조화 방법 및 장치
CN109635125B (zh) 一种词汇图谱搭建方法及电子设备
JP3106994B2 (ja) 住所読み取り装置
JP2000231559A (ja) 情報処理装置
JP4266240B1 (ja) 項目判定システムおよび項目判定プログラム
WO2023162273A1 (ja) 生成方法、生成プログラムおよび情報処理装置
JP2655087B2 (ja) 文字認識後処理方式
CN108595584B (zh) 一种基于数字标记的汉字输出方法和系统
JPH0441388B2 (ja)
JPH05250416A (ja) データベースの登録・検索装置
JP2588261B2 (ja) Ocrによる住所データベース検索装置
Wei et al. Bibliographic attributes extraction with layer-upon-layer tagging
JP2008059389A (ja) 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
JPH08180064A (ja) 文書検索方法及び文書ファイリング装置
JP2570784B2 (ja) 文書リーダ後処理装置