JP2000251017A

JP2000251017A - 単語辞書作成装置および単語認識装置

Info

Publication number: JP2000251017A
Application number: JP11047990A
Authority: JP
Inventors: Keiko Yamagishi; 桂子山岸
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1999-02-25
Filing date: 1999-02-25
Publication date: 2000-09-14

Abstract

(57)【要約】【課題】精度の高い適正な単語認識が可能な照合用単
語辞書を作成する単語辞書作成装置を提供する。【解決手段】「顧客名称」文字列を記憶した顧客ＤＢ
１１１、姓名の姓を表わす「姓」文字列と名を表わす
「名」文字列を種別データと共に記憶した氏名ＤＢ１１
２、一般名称を表わす「一般名称」文字列を種別データ
と共に記憶した一般名称ＤＢ１１３、単語検索の照合に
用いる照合用単語辞書１１４を備え、顧客ＤＢ１１１内
の「顧客名称」文字列の構成要素が氏名ＤＢ１１２内の
文字列または一般名称ＤＢ１１３内の文字列と一致する
かどうか判定し、一致条件の成立した「顧客名称」文字
列を一致先の文字列に対応する種別データと共に照合用
単語辞書１１４に記憶せしめる辞書生成部１０１を備え
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、単語認識に用い
る照合用単語辞書を作成する単語辞書作成装置および単
語認識装置に関する。

【０００２】

【従来の技術】入力文字列と登録文字列とを照合し、入
力文字列に最も類似した登録文字列を出力する単語認識
装置の一つの例として、紙等に記載された手書き文字や
活字を光学的に読み取って文字認識を行い、予め単語辞
書に登録しておいた認識対象単語（登録単語）を検索し
て、入力文字列が認識対象単語のどれであるかを判定す
るものがある。

【０００３】このような単語認識装置では、たとえば出
願番号ＰＨ０９２５６８４２に示されるように、文字認
識した文字を含む登録単語を抽出し、さらに文字認識し
た文字の文字位置の反転等をチェックし、文字認識結果
との類似性が最も高い文字列を持つ登録単語を認識結果
として出力するようにしている。

【０００４】

【発明が解決しようとする課題】上記のような単語認識
装置では、入力文字列の表記の「ゆれ」や「誤り」があ
る場合、適正な認識ができないという問題があった。

【０００５】たとえば、「株式会社ＡＢＣ」という単語
が登録されていた場合、「（株）ＡＢＣ」「ＡＢＣＫ
Ｋ」「ＡＢＣ」などの入力文字列に対しては、認識がで
きない。

【０００６】また、「日本」、「東京」等の地名の文字
列が付く会社名が多く存在し、これらの文字列を「ＡＢ
Ｃ」等の固有名称と同等に評価すると誤認識する可能性
がある。

【０００７】さらに、登録単語を読む際に、住所やビル
名等、目的の領域とは異なる別の領域の文字認識結果と
登録単語との照合がなされて、誤認識することがある。
たとえば、「ＡＢＣビルＸＹＺ株式会社」と記載されて
いる場合、「ＸＹＺ株式会社」を単語認識したいのに、
「ＡＢＣ株式会社」と認識してしまうことがある。

【０００８】この発明は上記の事情を考慮したもので、
その目的とするところは、精度の高い適正な単語認識が
可能な照合用単語辞書を作成する単語辞書作成装置を提
供することにある。

【０００９】また、この発明は、精度の高い適正な単語
認識を行うことができる単語認識装置を提供することに
ある。

【００１０】

【課題を解決するための手段】請求項１に係る発明は、
団体または個人の名称を表わす「名称」文字列を記憶し
た第１記憶手段と、個人の姓名の姓を表わす「姓」文字
列および名を表わす「名」文字列を、その種別を表わす
種別データと共に記憶した第２記憶手段と、一般名称を
表わす「一般名称」文字列をその種別を表わす種別デー
タと共に記憶した第３記憶手段と、単語検索の照合に用
いる照合用単語辞書を記憶するための第４記憶手段と、
上記第１記憶手段内の「名称」文字列の構成要素が上記
第２記憶手段内の文字列または上記第３記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列を一致先の文字列に対応する種別データ
と共に照合用単語辞書として上記第４記憶手段に記憶せ
しめる辞書生成手段と、を備える。

【００１１】請求項５に係る発明は、団体または個人の
名称を表わす「名称」文字列を記憶した第１記憶手段
と、個人の姓名の姓を表わす「姓」文字列および名を表
わす「名」文字列を、その種別を表わす種別データと共
に記憶した第２記憶手段と、一般名称を表わす「一般名
称」文字列をその種別を表わす種別データと共に記憶し
た第３記憶手段と、単語検索の照合に用いる照合用単語
辞書を記憶するための第４記憶手段と、上記第１記憶手
段内の「名称」文字列の構成要素が上記第２記憶手段内
の文字列または上記第３記憶手段内の文字列と一致する
かどうか判定し、一致条件の成立した「名称」文字列か
ら一致先の文字列を除いて残る文字列についてその種別
を固有名称と判定し、一致条件の成立した「名称」文字
列を一致先の文字列に対応する種別データおよび上記固
有名称であることを表わす種別データと共に、かつ一致
条件の成立した「名称」文字列から一致先の文字列を除
いて残る文字列を上記固有名称であることを表わす種別
データと共に、照合用単語辞書として前記第４記憶手段
に記憶せしめる辞書生成手段と、を備える。

【００１２】請求項９に係る発明は、請求項１ないし請
求項８のいずれかに係る発明において、第３記憶手段が
記憶している、種別データが、「一般名称」文字列の種
別が会社名や建物名のいずれかであるかを表わす。

【００１３】請求項１０に係る発明は、請求項１ないし
請求項８のいずれかに係る発明において、第２記憶手段
および第３記憶手段が記憶している、文字列の表記ずれ
の可能性の有無を表わす指標が、文字列が略字、旧字、
俗字で形成される可能性の有無を表わす。さらに、第３
記憶手段が記憶している、文字列の記載位置ずれの可能
性の有無を表わす指標が、文字列が他の文字列の前位置
に付いたり後位置に付いたりして変化する可能性の有無
を表わす。

【００１４】請求項１１に係る発明は、請求項１ないし
請求項８のいずれかに係る発明において、辞書生成手段
が、一致条件の成立する「名称」文字列が第１記憶手段
内に出現する頻度を表わす頻度データを照合用単語辞書
に加える構成となっている。

【００１５】請求項１２に係る発明は、被読取媒体上の
画像を光学的に読取る読取手段と、この読取手段の読取
画像から文字を検出する検出手段と、この検出手段で検
出される文字を認識する認識手段と、単語の文字列を、
その種別を表わす種別データ、その表記ずれの可能性の
有無を表わす指標、その記載位置ずれの可能性の有無を
表わす指標、その発生の頻度を表わす頻度データと共に
照合用単語辞書として記憶した記憶手段と、上記認識手
段で認識した文字に類似する文字列およびその文字列に
対応する種別データ、指標、頻度データを上記記憶手段
から読出す読出手段と、この読出手段で読出した各文字
列のいずれかを同読出手段で読出される種別データ、指
標、頻度データに応じて選定し、それを単語候補として
確定する確定手段と、を備える。

【００１６】

【発明の実施の形態】［１］以下、この発明の第１実施
例について図面を参照して説明する。

【００１７】図１は、本発明における単語辞書作成装置
の構成を示すブロック図である。

【００１８】図１中、１１１は第１記憶手段であるとこ
ろの顧客データベース（以下、顧客ＤＢと略称する）
で、図２に示すように、検索対象として、団体名（会社
名等）や個人名など商売上の顧客を表わす「顧客名称」
文字列を、その顧客の住所を表わす「住所」文字列と共
に記憶している。

【００１９】１１２は第２記憶手段であるところの氏名
データベース（以下、氏名ＤＢと略称する）で、図３に
示すように、個人の姓名（個人名）の姓を表わす「姓」
文字列および名を表わす「名」文字列を、その種別を表
わす種別データ、表記ずれの可能性の有無を表わす指標
いわゆる表記ゆれ指標（有りが「１」、無しが
「０」）、表記ずれに係る他の文字列を指定するための
別名情報（記憶アドレス）と共に記憶している。

【００２０】１１３は第３記憶手段であるところの一般
名称データベース（以下、一般名称ＤＢと略称する）
で、図４に示すように、会社名や建物名等の個有名称に
付ける一般名称たとえば「株式会社」「株」「（株）」
「ＫＫ」「ビル」「センター」などを表わす「一般名
称」文字列を、その種別を表わす種別データ、記載位置
ずれの可能性の有無を表わす指標いわゆる位置ゆれ指標
（有りが「１」、無しが「０」）、表記ずれの可能性の
有無を表わす指標いわゆる表記ゆれ指標（有りが
「１」、無しが「０」）、記載位置ずれおよび表記ずれ
に係る他の文字列を指定するための別名情報（記憶アド
レス）と共に記憶している。

【００２１】位置ゆれ指標は、文字列が他の文字列の前
位置に付いたり後位置に付いたりして変化する可能性の
有無を表わす。例えば、「株式会社」という一般名称
は、他の「第一」という固有名称の前位置に付いて「第
一株式会社」となったり、後位置に付いて「株式会社第
一」となることがあり、この場合は可能性有りとなる。

【００２２】表記ゆれ指標は、文字種ゆれ指標とも称
し、文字列が略字、旧字、俗字で形成される可能性の有
無を表わす。例えば、「小沢」という姓名には同じ読み
の「小澤」という姓名があり、この場合は可能性有りと
なる。また、「株式会社」という一般名称には
「（株）」「株」「ＫＫ」などの別名や簡略名の表記が
あり、この場合は可能性有りとなる。

【００２３】１１４は第４記憶手段であるところの照合
用単語辞書で、図５に示すように、顧客の「顧客名称」
文字列および「住所」文字列を、種別データと共に、単
語検索の照合に用いる照合用単語辞書として記憶する。

【００２４】これら顧客ＤＢ１１１、氏名ＤＢ１１２、
一般名称ＤＢ１１３、照合用単語辞書１１４が単語辞書
生成部１０１に接続される。

【００２５】単語辞書生成部１０１は、顧客ＤＢ１１１
内の「顧客名称」文字列の構成要素が氏名ＤＢ１１２内
の文字列または一般名称ＤＢ１１３内の文字列と一致す
るかどうか判定し、一致条件の成立した「顧客名称」文
字列およびそれに対応する「住所」文字列を一致先の文
字列に対応する種別データと共に照合用単語辞書として
照合用単語辞書１１４に記憶せしめる機能手段を備え
る。

【００２６】この単語辞書生成部１０１の処理の様子を
図６のフローチャートに示す。

【００２７】まず、ステップ１２０１で、顧客ＤＢ１１
１より「顧客名称」文字列を１レコード毎に読み込む。
ステップ１２０２で、読み込んだ「顧客名称」文字列
と、一般名称ＤＢ１１２内の種別データが「会杜名」と
して登録されている文字列との照合を行ない、一致文字
列があれば、ステップ１２０３で照合用単語辞書に顧客
名の代表種別データとして「会杜」を設定する。

【００２８】ステップ１２０４で、読み込んだ「顧客名
称」文字列と、一般名称ＤＢ１１３内の種別データが
「ビル名」として登録されている文字列との照合を行な
い、一致文字列があれば、ステップ１２０５で照合用単
語辞書に顧客名の代表種別データ＝「ビル」を設定す
る。

【００２９】ステップ１２０６で、読み込んだ「顧客名
称」文字列と、氏名名称ＤＢ１１２内の種別データが
「姓」または「名」として登録されている文字列との照
合を行ない、一致文字列があれば、ステップ１２０７で
照合用単語辞書に顧客名の代表種別データ＝「氏名」を
設定する。

【００３０】ステップ１２０８で、一般名称ＤＢ１１３
および氏名ＤＢ１１２に登録されている全ての文字列と
の照合に失敗した場合は、代表種別データ＝「固有名
称」として照合用単語辞書に登録する。顧客ＤＢ１１１
内の全ての顧客名に対する読み出しが終了するまで（ス
テップ１２０９）、ステップ１２０１空の処理を繰り返
す。

【００３１】このようにして作成される照合用単語辞書
１１４を単語認識装置に搭載することにより、単語認識
装置において精度の高い適正な単語認識を行うことがで
きる。

【００３２】すなわち、照合用単語辞書１１４には、
「顧客名称」文字列および「住所」文字列が種類別に分
類されて登録され、しかも各文字列ごとに種別データが
付されるので、その種別データに応じて単語照合のアル
ゴリズムや照合閾値を変えることにより、効率的かつ迅
速な照合を行うことができる。

【００３３】たとえば、顧客名が会社名の場合は、名称
が簡略化されたり表記ゆれが多く存在するという特性に
着目し、照合の閾値を下げて認識を行う。

【００３４】郵便物の宛先から検出して切り出される複
数の文字列と顧客名を照合する際には、宛先にビル名、
会社名、個人名が同時に記載される場合がある。この場
合は、個人名より会社名が顧客名である可能性が高いの
で、個人名よりも会社名を優先した照合を行う。また、
ビル名として、そのビル内に存在する会社名が使われる
ことが多いが、この場合にはビル名よりも会社名を優先
した照合を行う。このような照合を行うことにより、照
合が効率的かつ迅速となって認識時間の短縮が図れる。

【００３５】また、登録単語が名前の場合には、名前部
分の文字認識結果が誤っていた場合、同じ姓の別の単語
に誤認識する可能性があるが、登録単語の文字列を姓、
名に分けて単語辞書に登録しておき、さらに同じ姓また
は名を持つ登録単語を予め調べて、その頻度を登録して
おくことで、出現頻度の高い固有名称では、評価時の判
定基準を厳しくすることで、誤認識を減らすことができ
る。

【００３６】［２］第２実施例について説明する。

【００３７】第２実施例では、照合用単語辞書１１４の
登録内容が第１実施例の場合と少し異なる。他の構成は
第１実施例と同じである。

【００３８】すなわち、照合用単語辞書１１４は、図７
に示すように、「名称」分割文字列および「住所」文字
列を、種別データと共に、単語検索の照合に用いる照合
用単語辞書として記憶する。

【００３９】「名称」分割文字列は、「顧客名称」文字
列を「一般名称」文字列と「固有名称」文字列とに分割
したもの、「姓」文字列と「名」文字列とに分割したも
のなどである。

【００４０】種別データは、「名称」分割文字列の各分
割要素に対応しており、「会社」、「固有」「姓」
「名」等が用意されている。また、「会社」、「氏名」
等の代表種別データも用意されている。

【００４１】単語辞書生成部１０１は、顧客ＤＢ１１１
内の「顧客名称」文字列の構成要素が氏名ＤＢ１１２内
の文字列または一般名称ＤＢ１１３内の文字列と一致す
るかどうか判定し、一致条件の成立した「顧客名称」文
字列から一致先の文字列を除いて残る文字列についてそ
の種別を固有名称と判定し、一致条件の成立した「顧客
名称」文字列を一致先の文字列に対応する種別データと
共に、かつ一致条件の成立した「顧客名称」文字列から
一致先の文字列を除いて残る文字列を上記固有名称であ
ることを表わす種別データと共に、照合用単語辞書とし
て照合用単語辞書１１４に記憶せしめる機能手段を備え
る。

【００４２】この単語辞書生成部１０１の処理の様子を
図８のフローチャートに示す。

【００４３】ステップ１３０１で、顧客ＤＢ１１１より
「顧客名称」文字列を１レコード毎に読み込み、バッフ
ァＳｔｒに格納する。ステップ１３０２で、バッファＳ
ｔｒ内に、一般名称ＤＢ１１３内の文字列が存在するか
照合する。一致文字列が存在する場合には、ステップ１
３０３で、一致文字列と種別を照合用単語辞書１１４に
登録する。さらに、バッファＳｔｒから一致した文字列
を削除する。

【００４４】ステップ１３０４で、バッファＳｔｒ内
に、氏名ＤＢ１１２内の文字列が存在するか照合する。
一致文字列が存在する場合には、ステップ１３０５で、
一致文字列と種別データを照合用単語辞書１１４に登録
する。さらに、バッファＳｔｒから一致した文字列を削
除する。

【００４５】ステップ１３０６で、一般名称ＤＢ１１３
および氏名ＤＢ１１２に登録されている全ての文字列と
の照合後に、バッファＳｔｒに残っている文字列は種別
データ＝「固有名称」として照合用単語辞書１１４に登
録する。顧客ＤＢ１１１内の全ての顧客名に対する読み
出しが終了するまで（ステップ１３０７）、ステップ１
３０１空の処理を繰り返す。

【００４６】このようにして作成される照合用単語辞書
１１４を単語認識装置に搭載することにより、単語認識
装置において精度の高い適正な単語認識を行うことがで
きる。

【００４７】すなわち、顧客名を氏名ＤＢ１１２および
一般名称ＤＢ１１３に存在する頻度の高い単語に分割す
ることで、文字列と顧客名との照合の際して単語単位の
照合を行うことにより、処理時間の短縮及び性能の向上
が期待できる。たとえば、種別データに「固有」「一
般」「会社」の順の優先度をつけることにより、優先度
の高い単語から順次に照合を行い、「固有」について照
合率の悪い単語についてはその照合処理を中断して次の
「一般」についての照合に移ることにより、処理時間の
短縮が可能となる。また、優先度の高い種別から照合を
行うことで、処理時間等の関係から途中で処理を中断す
る際にも正しい結果が得られる確率が高くなる。

【００４８】［３］第３実施例について説明する。

【００４９】第３実施例では、照合用単語辞書１１４の
登録内容が第１および第２実施例の場合と少し異なる。
他の構成は第１実施例と同じである。

【００５０】すなわち、照合用単語辞書１１４は、図９
に示すように、名称テーブルおよび顧客名称インデック
ステーブルからなる。

【００５１】名称テーブルには、「名称」文字列が種別
に登録されるとともに、その「名称」文字列ごとに、ア
ドレスデータ、種別データ、頻度データ、位置ゆれ指
標、表記ゆれ指標、別名ポインタデータ、インデックス
テーブルへのポインタデータが登録されている。

【００５２】アドレスデータは、当該照合用単語辞書１
１４における記憶アドレス。頻度データは、氏名ＤＢ１
１２内の文字列および一般名称ＤＢ１１３内の文字列に
対して一致条件の成立する「顧客名称」文字列が顧客Ｄ
Ｂ１１１内に出現する頻度を表わす。たとえば、１（出
現頻度低い）から１０（出現頻度高い）までの数値で表
わされる。

【００５３】別名ポインタデータは、表記ずれに係る他
の文字列、つまり変形する可能性のある文字列を指定す
るための記憶アドレス。インデックステーブルへのポイ
ンタデータは、顧客名称インデックステーブルに対する
アクセスを行うための記憶アドレスである。

【００５４】顧客名称インデックステーブルには、顧客
の「住所」文字列が登録されるとともに、その「住所」
文字列ごとに、アドレスデータ、ポインタ数、名称テー
ブルへのポインタデータが登録されている。

【００５５】アドレスデータは、当該照合用単語辞書１
１４における記憶アドレス。ポインタ数は、対応する
「顧客名称」文字列の個数を表わす。

【００５６】名称テーブルへのポインタデータは、名称
テーブルに対するアクセスを行うための記憶アドレスで
ある。

【００５７】単語辞書生成部１０１は、顧客ＤＢ１１１
内の「顧客名称」文字列の構成要素が氏名ＤＢ１１２内
の文字列または一般名称ＤＢ１１３内の文字列と一致す
るかどうか判定し、一致条件の成立した「顧客名称」文
字列から一致先の文字列を除いて残る文字列についてそ
の種別を固有名称と判定し、一致条件の成立した「顧客
名称」文字列を一致先の文字列に対応する種別データと
共に、かつ一致条件の成立した「顧客名称」文字列から
一致先の文字列を除いて残る文字列を上記固有名称であ
ることを表わす種別データと共に、さらに上記アドレス
データ、頻度データ、位置ゆれ指標、表記ゆれ指標、別
名ポインタデータ、インデックステーブルへのポインタ
データを付加しつつ、照合用単語辞書の名称テーブルと
して照合用単語辞書１１４に記憶せしめる機能手段を備
える。実際には、第２実施例で生成した図７の照合用単
語辞書を利用して名称テーブルを生成する。

【００５８】さらに、単語辞書生成部１０１は、一致条
件の成立した「名称」文字列に対応する「住所」文字列
を、上記アドレスデータ、ポインタ数、名称テーブルへ
のポインタデータを付加しつつ、照合用単語辞書の顧客
名称インデックステーブルとして照合用単語辞書１１４
に記憶せしめる機能手段を備える。実際には、第２実施
例で生成した図７の照合用単語辞書を利用して顧客名称
インデックステーブルを生成する。

【００５９】この単語辞書生成部１０１の処理の様子を
図１０のフローチャートに示す。

【００６０】ステップ１４０１では、図７の照合用単語
辞書から顧客名称インデックステーブルを作成する。ス
テップ１４０２で、図７の照合用単語辞書から、各文字
列および種別データを順次読み込む。ステップ１４０３
で各文字列について、名称テーブルへの登録が終ってい
るかどうかをフラグｆｌｇで判定する。

【００６１】文字列が登録済みでない場合は、ステップ
１４０４で名称テーブルに、抽出した文字列、種別デー
タ、対応する顧客名称インデックステーブルのアドレス
を登録する。さらに、一般名称ＤＢ１１３及び氏名ＤＢ
１１２から、該当する文字列の位置ゆれ指標、表記ゆれ
指標、別名情報を検索し、同時に名称テーブルに登録す
る。別名情報については、テーブル作成後、同じ値を持
つ文字列へのポインタとして置き換える。

【００６２】登録した顧客名を構成する抽出文字列につ
いては、フラグｆｌｇに登録済みを設定し、対応する顧
客名称インデックステーブルに、名称テーブルにおける
登録レコードのアドレスを登録する。

【００６３】次に、ステップ１４０５で、照合用単語辞
書内の顧客名を構成する複数の文字列で、フラグｆｌｇ
が未登録である文字列について抽出文字列と種別が等し
いか照合し、等しいものについてはステップ１４０６
で、その顧客名データのアドレスを名称テーブルに登録
するとともに、フラグｆｌｇを登録済みと設定し、対応
ずる顧客名称インデックステーブルに、名称テーブルに
おける登録レコードアドレスを登録する。

【００６４】また、ステップ１４０４で抽出した文字列
に対して、未登録データで一致した文字列の出現個数を
カウントし、そのカウント数を頻度データとして名称テ
ーブルに登録する。照合用単語辞書内の全ての顧客名に
対する読み出しが終了するまで（ステップ１４０６）、
ステップ１４０１空の処理を繰り返す。

【００６５】このようにして作成される照合用単語辞書
１１４を単語認識装置に搭載することにより、単語認識
装置において精度の高い適正な単語認識を行うことがで
きる。

【００６６】すなわち、照合用単語辞書１１４には、
「顧客名称」文字列および「住所」文字列が種類別に分
類されて登録され、しかも各文字列ごとに種別データ、
頻度データ、位置ゆれ指標、表記ゆれ指標、別名ポイン
タなどが付されるので、効率的かつ迅速な照合を行うこ
とができる。

【００６７】たとえば、出現頻度（頻度データに基づ
く）の高い文字列については照合の閾値を高く設定し、
また表記ゆれ指標に基づく別名有りの文字列については
別名についても照合を行い、別名が存在しない文字列に
ついては照合の閾値を下げ、位置ゆれ指標に基づく位置
ゆれ有りの文字列については照合の際に位置ゆれを考慮
した照合を行うことで、良好な照合結果が得られる。

【００６８】［４］第４実施例について説明する。

【００６９】入力文字列と登録文字列とを照合し、入力
文字列に最も類似した登録文字列を出力する単語認識装
置の一つの例として、図１１に示すように、紙等に記載
された手書き文字や活字を光学的に読取って文字認識を
行い、予め照合用単語辞書に登録しておいた認識対象単
語を検索して、入力文字列が認識対象単語のどれである
かを判定するものがある。

【００７０】画像パターン入力部（読取手段）８１１
は、被読取媒体上の画像を光学的に読取り、その読取画
像を予め設定した閾値で２値化する。この２値画像は画
像バッファ８２１に格納される。

【００７１】文字検出切出し部（検出手段）８１２は、
画像バッファ８２１内の２値画像から文字を１つずつ検
出して切出し、切出した各文字パターンの位置情報を作
成する。この位置情報は文字位置バッファ８２２に格納
される。

【００７２】文字認識部（認識手段）８１３は、画像バ
ッファ８２１内の２値画像と文字位置バッファ８２２内
の位置情報とに基づき、各文字パターンを文字として認
識する。この認識に基づく例えば上位１０個の文字候補
が文字候補バッファ８２３に格納される。

【００７３】単語認識部８１４は、文字候補バッファ８
２３内の各文字候補が照合用単語辞書８２６内のどの位
置に記憶されているかを検索用辞書８２５の内容から判
定する判定手段を備え、その判定結果を照合用単語辞書
８２６に対するアクセス用のポインタリストとして抽出
し、それを単語候補バッファ８２４に格納する。

【００７４】検索用辞書８２５は、照合用単語辞書８２
６内の各文字列の記憶位置を検索用データとして記憶し
ている。照合用単語辞書８２６は、上記第３実施例で生
成される照合用単語辞書１１４に相当する。

【００７５】単語出力部８１５は、単語候補バッファ８
２４内のポインタリストに応じて、かつ文字候補バッフ
ァ８２３内の各文字候補に基づき、照合用単語辞書８２
６から文字列およびその文字列に対応する種別データ、
頻度データ、位置ゆれ指標、表記ゆれ指標を読出す読出
手段と、この読出手段で読出した各文字列のいずれかを
同読出した種別データ、頻度データ、位置ゆれ指標、表
記ゆれ指標に応じて選定し、それを単語候補として確定
し出力する確定手段とを備える。

【００７６】図１２は、文字候補バッファ８２３、単語
候補バッファ８２４、検索用辞書８２５、照合用単語辞
書８２６の処理の関わりを示したものである。

【００７７】検索用辞書８２５は、文字ポインタテーブ
ル９０２および単語ポインタテーブル９０３を有する。
ここでは顧客名が「株式会社東芝」であることを簡略化
して記述している。

【００７８】単語ポインタテーブル９０３には、照合用
単語辞書８２６へのポインタ情報が単語内に含まれる文
字コードをキーに分類されて格納されている。たとえば
「株」を含む単語へのポインタ群、「東」を含む単語へ
のポインタ群のように分類されて格納されている。

【００７９】文字ポインタテーブル９０２は、単語ポイ
ンタテーブル９０３の文字ごとの先頭ポインタと個数が
格納されている。

【００８０】単語認識部８１４では、文字候補バッファ
８２３からたとえば「株」「東」の文字を選択し、文字
ポインタテーブル９０２でその文字を含む単語ポインタ
の先頭ポインタと個数を検索し、さらに単語ポインタテ
ーブル９０３内の照合用単語辞書８２６に対するポイン
タを指定個数分抽出し、単語候補バッファ８２４に格納
する。同じポインタが複数リストアップされた場合に
は、その個数が単語候補バッファ８２４に格納される。

【００８１】単語候補出力部８１５では、たとえば単語
候補バッファ８２４に「株式会社東芝」に関する照合用
単語辞書８２６へのポインタ値が格納されていた場合
に、図９の「顧客名称インデックステーブル」ではｚ１
が対応するアドレスである。この場合、名称テーブルへ
のポインタａ１，ｈ１から、「株式会社」「東芝」を得
ることができる。さらに、「株式会社」は表記ゆれが存
在し、「株」「（株）」「ＫＫ」等と別名表記されるこ
とがわかる。文字候補バッファ８２３内の各文字候補に
より、別名の候補とも照合を行うことで、「株東芝」と
記載された場合も、「株式会社東芝」と変形して照合す
ることで、「株東芝」を単語候補として決定し出力す
る。

【００８２】図１３に単語認識部８１４における処理フ
ローの例を示す。

【００８３】ステップ１００１で、文字候補バッファ８
２３から文字候補を選択し、ステップ１００２で、検索
用辞書８２５内の文字ポインタテーブル９０２から単語
ポインタテーブル９０３の先頭ポインタと個数を検索す
る。ステップ１００３で、単語ポインタテーブル９０３
の指定されたアドレスから指定個数分の照合用単語辞書
８２６へのポインタを抽出して単語候補バッファ９０５
に格納する。

【００８４】文字候補バッファ８２３から必要な個数の
文字候補が選択されたら次の処理へ進む（ステップ１０
０４）。たとえば、文字の第一候補の文字全てを選択す
る、第一候補の中から指定個数の文字を選択する等、必
要に応じて選択する文字候補を指定する。

【００８５】次に、ステップ１００５で、単語候補バッ
ファ９０５内の照合用単語辞書８２６へのポインタをポ
インタ値によりソートする。ステップ１００６で、同ポ
インタがあるかどうかチェックし、あった場合はその個
数をカウントしなかった場合は個数１と格納する。ステ
ップ１００７では、単語候補バッファ８２４内の個数の
多い数候補を残し、残りは削除する。個数の多い数候補
の選定方法は、たとえば最も大きい個数から予め定めた
範囲、たとえば−１個の範囲のデータを残す等の方法に
よる。

【００８６】たとえば「株東芝」と記載されたものを文
字認識し、さらに予め登録された顧客ＤＢ１１１内で、
その文字候補のうち指定文字を含む、単語候補を絞り込
むことが可能である。さらに、絞り込んだ複数の単語候
補の中から、さらに文字長や各文字の位置関係等から最
も類似する単語候補１つに絞り込んで最終的な単語候補
として出力する。

【００８７】最も類似する最終候補に絞り込む際には、
誤認識を防ぐため、文字の反転や連続性のチェックをす
る。しかし、特に会社名等では、登録文字列に対し、表
記ゆれが存在する場合が多くあるため、文字の連続性の
チェックでエラーとなって答として採用されない場合が
生じる。

【００８８】本実施例のように、顧客ＤＢ１１１を意味
のある最小文字列単位に分割し、さらに文字列に種別デ
ータを設定し、位置ゆれや表記ゆれを予め登録しておく
ことにより、登録単語と異なる表記ゆれを持つ文字列に
対しても認識結果として採用することが可能となり、単
語認識率が向上する。

【００８９】また、予め照合用単語辞書８２６内での文
字列の出現頻度及び、その文字列を含む顧客ＤＢへのポ
インタを登録しておくことで、出現頻度の高い文字列に
ついては、全文字一致等の厳しくチェックを行い、出現
頻度の低い文字列を含む単語については、一般名称を除
く固有名称が一致していれば採用する等の判定を行うこ
とで、良好な照合結果が得られる。

【００９０】図１４に単語候補出力部８１５の処理を示
す。

【００９１】ステップ１１０１で、抽出された照合用単
語辞書８２６へのポインタから単語候補を構成する複数
の文字列及び種別を抽出する。照合用単語辞書８２６は
図９に示すような構造である。

【００９２】ステップ１１０２で、文字認識結果の文字
候補から文字列を生成し、ステップ１１０３で文字候補
から生成した文字列と、単語候補を構成する複数の文字
列との文字の順序を考慮した類似度を算出し、類似度が
予め設定した閾値より大きい場合は、単語候補として採
用するための採用フラグを単語候補について設定する。
類似度はたとえば文字列長に対する一致文字数を用い
る。

【００９３】採用フラグを設定する際、単語候補を構成
する文字列の種別の組合せに応じて判定基準を変える。
たとえば固有名称や姓名に対しては、たとえば全文字一
致で採用する等、照合の一致度の判定を厳しく、一般名
称については、照合の一致度の判定を甘くする。その
際、文字列の位置ゆれ指標や表記ゆれ指標も考慮する。
表記ゆれが存在し、別名が登録されている文字列につい
ては、別名でも照合する。出現頻度が高い文字列につい
ては、その他の文字列での一致の判定を厳しくする。

【００９４】採用フラグが設定された場合は、次の単語
候補の照合を行う（ステップ１１０４）。

【００９５】採用フラグが設定されなかった場合は、文
字候補から新たな文字列を生成して同様に照合を行う
（ステップ１１０５）。全ての文字候補について照合が
終了した場合は、次の単語候補との照合を行う（ステッ
プ１１０６）。指定の全ての単語候補との照合が終了
し、採用フラグのある候補で最も一致文字数が高い候補
が一意に絞れた場合は（ステップ１１０７）、ステップ
１１１９でその候補を最終候補として採用し、一意に絞
れない場合はステップ１１１８で単語候補不採用とす
る。

【００９６】顧客名称とあわせて顧客の住所が記載され
る場合には、文字の出現頻度が高い文字列については、
住所情報の類似性についても同時に検証することによ
り、良好な認識結果を出力することが可能となる。

【００９７】ここで、ステップ１１０３の具体的な処理
例について図１５により説明する。

【００９８】照合用単語辞書８２６へのポインタが選択
され、対応する顧客名を構成する複数の文字列及び種別
が抽出されている。この複数の文字列を順番につなげる
と顧客名と等しくなるような順序で格納されているとす
る。一方、文字候補を組み合わせて文字候補列が生成さ
れている。この文字候補列と、顧客名を構成する複数の
文字列との照合方法について述べる。

【００９９】ステップ１５０１で、文字候補列の評価値
Ｖａｌと、最終一致文字ポインタＰｏｓ１をクリアにす
る。ステップ１５０２で、顧客名を構或する複数の文字
列から文字列を一つ抽出する。ステップ１５０３で、抽
出文字列と文字候補列との照合を行なう。

【０１００】抽出文字列が存在しない場合には、ステッ
プ１５０４で表記ゆれがあるかどうかを表記ゆれ指標か
ら判定し、表記ゆれ有り場合には、別名ポインタの指す
文字列と文字候補列との照合を行なう。

【０１０１】抽出文字列が文字候補列に存在する場合に
は、ステップ１５０６で一致した抽出文字列が文字候補
列の先頭から何文字目にあるかをポインタＰｏｓ２に設
定する。

【０１０２】ステップ１５０７で抽出文字列に位置ゆれ
が有るかどうかを位置ゆれ指標から判定し、位置ゆれ有
りの場合には、ステップ１５０８でポインタＰｏｓ２が
ポインタＰｏｓ１より大きいかどうかの判定を行ない、
条件を満たしていた場合には、文字候補列の評価値Ｖａ
ｌをインクリメントし、ポインタＰｏｓ２に抽出文字列
長を加えたものをポインタＰｏｓ１に設定することで、
ポインタＰｏｓ１は最終一致文字位置を示すことにな
る。

【０１０３】顧客名を構成する複数の文字列との照合が
終るまで、ステップ１５０２に戻って処理を繰り返す
（ステップ１５１０）。最終的に５ａｌにセットされた
数値が、抽出文字列数に対する一致文字列数となり、こ
の値により採用、不採用の判定を行なう。ステップ１５
１１では、抽出文字列数と５ａｌが等しい時のみ採用と
判定を行なっており、ステップ１５１２で採用フラグを
設定する。

【０１０４】以上要するに、予め作成しておいた、頻度
の高い姓および名の氏名ＤＢ、一般名称として使われる
一般名称ＤＢと顧客ＤＢに登録される個人名や会社名等
の文字列とを照合して、顧客名が個人名であるか、表記
ゆれの大きい会社名であるか等を判断してその種別を照
合用単語辞書に登録しておくことで、照合の際に表記の
ゆれを考慮したより精度の高い単語認識を行うことがで
きる。

【０１０５】顧客ＤＢの登録単語の文字列を、頻度の高
い姓および名の氏名ＤＢ、一般名称として使われる一般
名称ＤＢにある文字列により分割して、照合用単語辞書
に文字列および種別データを登録しておくことで、一般
名称よりも固有名称を重視した照合を行うことが可能と
なり、文字列の特性を生かした精度の高い単語認識を行
うことができる。

【０１０６】「株式会社」等のように記載位置が変化す
る可能性があるものについては位置ゆれ指標を、さらに
簡略化や変形の可能性があるものについては表記ゆれ指
標を、それぞれ文字列ごとに対応して登録しておくこと
で、簡略形で書かれる文字列や、新字、旧字、俗字等で
書かれる文字列については照合の閾値を低くして認識結
果として採用することが可能となり、認識率を向上させ
ることができる別の登録単語が名前の場合には、名前部
分の文字認識結果が誤っていた場合、同じ姓の別の単語
に誤認識する可能性があるが、登録単語の文字列を姓、
名に分けて単語辞書に登録しておき、さらに同じ姓また
は名を持つ登録単語を予め調べて、その頻度を登録して
おくことで、出現頻度の高い固有名称では、評価時の判
定基準を厳しくすることで、誤認識を減らすことができ
る。

【０１０７】なお、この発明は上記各実施例に限定され
るものではなく、要旨を変えない範囲で種々変形実施可
能である。

【０１０８】

【発明の効果】以上述べたようにこの発明によれば、団
体または個人の名称を表わす「名称」文字列を記憶した
第１記憶手段と、個人の姓名の姓を表わす「姓」文字列
および名を表わす「名」文字列を、その種別を表わす種
別データと共に記憶した第２記憶手段と、一般名称を表
わす「一般名称」文字列をその種別を表わす種別データ
と共に記憶した第３記憶手段と、単語検索の照合に用い
る照合用単語辞書を記憶するための第４記憶手段と、上
記第１記憶手段内の「名称」文字列の構成要素が上記第
２記憶手段内の文字列または上記第３記憶手段内の文字
列と一致するかどうか判定し、一致条件の成立した「名
称」文字列を一致先の文字列に対応する種別データと共
に照合用単語辞書として上記第４記憶手段に記憶せしめ
る辞書生成手段とを備えたので、精度の高い適正な単語
認識が可能な照合用単語辞書を作成する単語辞書作成装
置を提供できる。

【０１０９】また、この発明によれば、上記単語辞書作
成装置で作成した照合用単語辞書を搭載する構成とした
ので、精度の高い適正な単語認識を行うことができる単
語認識装置を提供できる。

【図面の簡単な説明】

【図１】第１、第２、第３実施例の構成を示すブロック
図。

【図２】各実施例における顧客データベースの記憶フォ
ーマットを示す図。

【図３】各実施例における氏名データベースの記憶フォ
ーマットを示す図。

【図４】各実施例における一般名称データベースの記憶
フォーマットを示す図。

【図５】各実施例における照合用単語辞書の記憶フォー
マットを示す図。

【図６】各実施例における単語辞書生成部の処理を説明
するためのフローチャート。

【図７】第２実施例における照合用単語辞書の記憶フォ
ーマットを示す図。

【図８】第２実施例における単語辞書生成部の処理を説
明するためのフローチャート。

【図９】第３実施例における照合用単語辞書の記憶フォ
ーマットを示す図。

【図１０】第３実施例における単語辞書生成部の処理を
説明するためのフローチャート。

【図１１】第４実施例の構成を示すブロック図。

【図１２】第４実施例における文字候補バッファ、単語
候補バッファ、検索用辞書、照合用単語辞書の処理の関
わりを示す図。

【図１３】第４実施例における単語認識部の処理を説明
するためのフローチャート。

【図１４】第４実施例における単語候補出力部の処理を
説明するためのフローチャート。

【図１５】図１４における部分的な処理を説明するため
のフローチャート。

【符号の説明】

１１１…顧客データベース（第１記憶手段）１１２…氏名データベース（第２記憶手段）１１３…一般名称データベース（第３記憶手段）１１４…照合用単語辞書（第４記憶手段）１０１…単語辞書生成部

Claims

【特許請求の範囲】

【請求項１】団体または個人の名称を表わす「名称」
文字列を記憶した第１記憶手段と、個人の姓名の姓を表わす「姓」文字列および名を表わす
「名」文字列を、その種別を表わす種別データと共に記
憶した第２記憶手段と、一般名称を表わす「一般名称」文字列をその種別を表わ
す種別データと共に記憶した第３記憶手段と、単語検索の照合に用いる照合用単語辞書を記憶するため
の第４記憶手段と、前記第１記憶手段内の「名称」文字列の構成要素が前記
第２記憶手段内の文字列または前記第３記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列を一致先の文字列に対応する種別データ
と共に照合用単語辞書として前記第４記憶手段に記憶せ
しめる辞書生成手段と、を具備したことを特徴とする単語辞書作成装置。
【請求項２】団体または個人の名称を表わす「名称」
文字列をその団体または個人の住所を表わす「住所」文
字列と共に記憶した第１記憶手段と、個人の姓名の姓を表わす「姓」文字列および名を表わす
「名」文字列を、その種別を表わす種別データと共に記
憶した第２記憶手段と、一般名称を表わす「一般名称」文字列がその種別を表わ
す種別データと共に記憶した第３記憶手段と、単語検索の照合に用いる照合用単語辞書を記憶するため
の第４記憶手段と、前記第１記憶手段内の「名称」文字列の構成要素が前記
第２記憶手段内の文字列または前記第３記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列およびそれに対応する「住所」文字列を
一致先の文字列に対応する種別データと共に照合用単語
辞書として前記第４記憶手段に記憶せしめる辞書生成手
段と、を具備したことを特徴とする単語辞書作成装置。
【請求項３】団体または個人の名称を表わす「名称」
文字列を記憶した第１記憶手段と、個人の姓名の姓を表わす「姓」文字列および名を表わす
「名」文字列を、その種別を表わす種別データおよび表
記ずれの可能性の有無を表わす指標と共に記憶した第２
記憶手段と、一般名称を表わす「一般名称」文字列を、その種別を表
わす種別データ、記載位置ずれの可能性の有無を表わす
指標、および表記ずれの可能性の有無を表わす指標と共
に記憶した第３記憶手段と、単語検索の照合に用いる照合用単語辞書を記憶するため
の第４記憶手段と、前記第１記憶手段内の「名称」文字列の構成要素が前記
第２記憶手段内の文字列または前記第３記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列を一致先の文字列に対応する種別データ
および指標と共に照合用単語辞書として前記第４記憶手
段に記憶せしめる辞書生成手段と、を具備したことを特徴とする単語辞書作成装置。
【請求項４】団体または個人の名称を表わす「名称」
文字列を、その団体または個人の住所を表わす「住所」
文字列と共に記憶した第１記憶手段と、個人の姓名の姓を表わす「姓」文字列および名を表わす
「名」文字列を、その種別を表わす種別データおよび表
記ずれの可能性の有無を表わす指標と共に記憶した第２
記憶手段と、一般名称を表わす「一般名称」文字列を、その種別を表
わす種別データ、記載位置ずれの可能性の有無を表わす
指標、および表記ずれの可能性の有無を表わす指標と共
に記憶した第３記憶手段と、単語検索の照合に用いる照合用単語辞書を記憶するため
の第４記憶手段と、前記第１記憶手段内の「名称」文字列の構成要素が前記
第２記憶手段内の文字列または前記第３記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列およびそれに対応する「住所」文字列を
一致先の文字列に対応する種別データおよび指標と共に
照合用単語辞書として前記第４記憶手段に記憶せしめる
辞書生成手段と、を具備したことを特徴とする単語辞書作成装置。
【請求項５】団体または個人の名称を表わす「名称」
文字列を記憶した第１記憶手段と、個人の姓名の姓を表わす「姓」文字列および名を表わす
「名」文字列を、その種別を表わす種別データと共に記
憶した第２記憶手段と、一般名称を表わす「一般名称」文字列をその種別を表わ
す種別データと共に記憶した第３記憶手段と、単語検索の照合に用いる照合用単語辞書を記憶するため
の第４記憶手段と、前記第１記憶手段内の「名称」文字列の構成要素が前記
第２記憶手段内の文字列または前記第３記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列から一致先の文字列を除いて残る文字列
についてその種別を固有名称と判定し、一致条件の成立
した「名称」文字列を一致先の文字列に対応する種別デ
ータおよび前記固有名称であることを表わす種別データ
と共に、かつ一致条件の成立した「名称」文字列から一
致先の文字列を除いて残る文字列を前記固有名称である
ことを表わす種別データと共に、照合用単語辞書として
前記第４記憶手段に記憶せしめる辞書生成手段と、を具備したことを特徴とする単語辞書作成装置。
【請求項６】団体または個人の名称を表わす「名称」
文字列を、その団体または個人の住所を表わす「住所」
文字列と共に記憶した第１記憶手段と、個人の姓名の姓を表わす「姓」文字列および名を表わす
「名」文字列を、その種別を表わす種別データと共に記
憶した第２記憶手段と、一般名称を表わす「一般名称」文字列をその種別を表わ
す種別データと共に記憶した第３記憶手段と、単語検索の照合に用いる照合用単語辞書を記憶するため
の第４記憶手段と、前記第１記憶手段内の「名称」文字列の構成要素が前記
第２記憶手段内の文字列または前記第３記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列から一致先の文字列を除いて残る文字列
についてその種別を固有名称と判定し、一致条件の成立
した「名称」文字列およびそれに対応する「住所」文字
列を一致先の文字列に対応する種別データと共に、かつ
一致条件の成立した「名称」文字列から一致先の文字列
を除いて残る文字列を前記固有名称であることを表わす
種別データと共に、照合用単語辞書として前記第４記憶
手段に記憶せしめる辞書生成手段と、を具備したことを特徴とする単語辞書作成装置。
【請求項７】団体または個人の名称を表わす「名称」
文字列を記憶した第１記憶手段と、個人の姓名の姓を表わす「姓」文字列および名を表わす
「名」文字列を、その種別を表わす種別データおよび表
記ずれの可能性の有無を表わす指標と共に記憶した第２
記憶手段と、一般名称を表わす「一般名称」文字列を、その種別を表
わす種別データ、記載位置ずれの可能性の有無を表わす
指標、および表記ずれの可能性の有無を表わす指標と共
に記憶した第３記憶手段と、単語検索の照合に用いる照合用単語辞書を記憶するため
の第４記憶手段と、前記第１記憶手段内の「名称」文字列の構成要素が前記
第２記憶手段内の文字列または前記第３記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列から一致先の文字列を除いて残る文字列
についてその種別を固有名称と判定し、一致条件の成立
した「名称」文字列を一致先の文字列に対応する種別デ
ータおよび指標と共に、かつ一致条件の成立した「名
称」文字列から一致先の文字列を除いて残る文字列を前
記固有名称であることを表わす種別データと共に、照合
用単語辞書として前記第４記憶手段に記憶せしめる辞書
生成手段と、を具備したことを特徴とする単語辞書作成装置。
【請求項８】団体または個人の名称を表わす「名称」
文字列を、その団体または個人の住所を表わす「住所」
文字列と共に記憶した第１記憶手段と、個人の姓名の姓を表わす「姓」文字列および名を表わす
「名」文字列を、その種別を表わす種別データおよび表
記ずれの可能性の有無を表わす指標と共に記憶した第２
記憶手段と、一般名称を表わす「一般名称」文字列を、その種別を表
わす種別データ、記載位置ずれの可能性の有無を表わす
指標、および表記ずれの可能性の有無を表わす指標と共
に記憶した第３記憶手段と、単語検索の照合に用いる照合用単語辞書を記憶するため
の第４記憶手段と、前記第１記憶手段内の「名称」文字列の構成要素が前記
第２記憶手段内の文字列または前記第３記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列から一致先の文字列を除いて残る文字列
についてその種別を固有名称と判定し、一致条件の成立
した「名称」文字列およびそれに対応する「住所」文字
列を一致先の文字列に対応する種別データおよび指標と
共に、かつ一致条件の成立した「名称」文字列から一致
先の文字列を除いて残る文字列を前記固有名称であるこ
とを表わす種別データと共に、照合用単語辞書として前
記第４記憶手段に記憶せしめる辞書生成手段と、を具備したことを特徴とする単語辞書作成装置。
【請求項９】請求項１ないし請求項８のいずれかに記
載の単語辞書作成装置において、前記第３記憶手段が記憶している、種別データは、「一
般名称」文字列の種別が会社名や建物名のいずれかであ
るかを表わすことを特徴とする単語辞書作成装置。
【請求項１０】請求項１ないし請求項８のいずれかに
記載の単語辞書作成装置において、前記第２記憶手段および第３記憶手段が記憶している、
文字列の表記ずれの可能性の有無を表わす指標は、文字
列が略字、旧字、俗字で形成される可能性の有無を表わ
す、前記第３記憶手段が記憶している、文字列の記載位置ず
れの可能性の有無を表わす指標は、文字列が他の文字列
の前位置に付いたり後位置に付いたりして変化する可能
性の有無を表わす、ことを特徴とする単語辞書作成装置。
【請求項１１】請求項１ないし請求項８のいずれかに
記載の単語辞書作成装置において、前記辞書生成手段は、一致条件の成立する「名称」文字
列が第１記憶手段内に出現する頻度を表わす頻度データ
を照合用単語辞書に加えることを特徴とする単語辞書作
成装置。
【請求項１２】被読取媒体上の画像を光学的に読取る
読取手段と、この読取手段の読取画像から文字を検出する検出手段
と、この検出手段で検出される文字を認識する認識手段と、単語の文字列を、その種別を表わす種別データ、その表
記ずれの可能性の有無を表わす指標、その記載位置ずれ
の可能性の有無を表わす指標、その発生の頻度を表わす
頻度データと共に照合用単語辞書として記憶した記憶手
段と、前記認識手段で認識した文字に類似する文字列およびそ
の文字列に対応する種別データ、指標、頻度データを前
記記憶手段から読出す読出手段と、この読出手段で読出した各文字列のいずれかを同読出手
段で読出される種別データ、指標、頻度データに応じて
選定し、それを単語候補として確定する確定手段と、を具備したことを特徴とする単語認識装置。
【請求項１３】被読取媒体上の画像を光学的に読取る
読取手段と、この読取手段の読取画像から文字を検出する検出手段
と、この検出手段で検出される文字を認識する認識手段と、単語の文字列を、その種別を表わす種別データ、その表
記ずれの可能性の有無を表わす指標、その記載位置ずれ
の可能性の有無を表わす指標、その発生の頻度を表わす
頻度データと共に照合用単語辞書として記憶した第１記
憶手段と、この第１記憶手段内の各文字列の記憶位置を記憶した第
２記憶手段と、前記認識手段で認識した文字が含まれる文字列が第１記
憶手段のどの位置に記憶されているかを前記第２記憶手
段の内容から判定する判定手段と、この判定手段の判定結果に応じて前記第１記憶手段から
文字列およびその文字列に対応する種別データ、指標、
頻度データを読出す読出手段と、この読出手段で読出した各文字列のいずれかを同読出手
段で読出される種別データ、指標、頻度データに応じて
選定し、それを単語候補として確定する確定手段と、を具備したことを特徴とする単語認識装置。