JP2000251017A - 単語辞書作成装置および単語認識装置 - Google Patents
単語辞書作成装置および単語認識装置Info
- Publication number
- JP2000251017A JP2000251017A JP11047990A JP4799099A JP2000251017A JP 2000251017 A JP2000251017 A JP 2000251017A JP 11047990 A JP11047990 A JP 11047990A JP 4799099 A JP4799099 A JP 4799099A JP 2000251017 A JP2000251017 A JP 2000251017A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- name
- word
- storage means
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【課題】 精度の高い適正な単語認識が可能な照合用単
語辞書を作成する単語辞書作成装置を提供する。 【解決手段】 「顧客名称」文字列を記憶した顧客DB
111、姓名の姓を表わす「姓」文字列と名を表わす
「名」文字列を種別データと共に記憶した氏名DB11
2、一般名称を表わす「一般名称」文字列を種別データ
と共に記憶した一般名称DB113、単語検索の照合に
用いる照合用単語辞書114を備え、顧客DB111内
の「顧客名称」文字列の構成要素が氏名DB112内の
文字列または一般名称DB113内の文字列と一致する
かどうか判定し、一致条件の成立した「顧客名称」文字
列を一致先の文字列に対応する種別データと共に照合用
単語辞書114に記憶せしめる辞書生成部101を備え
る。
語辞書を作成する単語辞書作成装置を提供する。 【解決手段】 「顧客名称」文字列を記憶した顧客DB
111、姓名の姓を表わす「姓」文字列と名を表わす
「名」文字列を種別データと共に記憶した氏名DB11
2、一般名称を表わす「一般名称」文字列を種別データ
と共に記憶した一般名称DB113、単語検索の照合に
用いる照合用単語辞書114を備え、顧客DB111内
の「顧客名称」文字列の構成要素が氏名DB112内の
文字列または一般名称DB113内の文字列と一致する
かどうか判定し、一致条件の成立した「顧客名称」文字
列を一致先の文字列に対応する種別データと共に照合用
単語辞書114に記憶せしめる辞書生成部101を備え
る。
Description
【0001】
【発明の属する技術分野】この発明は、単語認識に用い
る照合用単語辞書を作成する単語辞書作成装置および単
語認識装置に関する。
る照合用単語辞書を作成する単語辞書作成装置および単
語認識装置に関する。
【0002】
【従来の技術】入力文字列と登録文字列とを照合し、入
力文字列に最も類似した登録文字列を出力する単語認識
装置の一つの例として、紙等に記載された手書き文字や
活字を光学的に読み取って文字認識を行い、予め単語辞
書に登録しておいた認識対象単語(登録単語)を検索し
て、入力文字列が認識対象単語のどれであるかを判定す
るものがある。
力文字列に最も類似した登録文字列を出力する単語認識
装置の一つの例として、紙等に記載された手書き文字や
活字を光学的に読み取って文字認識を行い、予め単語辞
書に登録しておいた認識対象単語(登録単語)を検索し
て、入力文字列が認識対象単語のどれであるかを判定す
るものがある。
【0003】このような単語認識装置では、たとえば出
願番号PH09256842に示されるように、文字認
識した文字を含む登録単語を抽出し、さらに文字認識し
た文字の文字位置の反転等をチェックし、文字認識結果
との類似性が最も高い文字列を持つ登録単語を認識結果
として出力するようにしている。
願番号PH09256842に示されるように、文字認
識した文字を含む登録単語を抽出し、さらに文字認識し
た文字の文字位置の反転等をチェックし、文字認識結果
との類似性が最も高い文字列を持つ登録単語を認識結果
として出力するようにしている。
【0004】
【発明が解決しようとする課題】上記のような単語認識
装置では、入力文字列の表記の「ゆれ」や「誤り」があ
る場合、適正な認識ができないという問題があった。
装置では、入力文字列の表記の「ゆれ」や「誤り」があ
る場合、適正な認識ができないという問題があった。
【0005】たとえば、「株式会社ABC」という単語
が登録されていた場合、「(株)ABC」「ABC K
K」「ABC」などの入力文字列に対しては、認識がで
きない。
が登録されていた場合、「(株)ABC」「ABC K
K」「ABC」などの入力文字列に対しては、認識がで
きない。
【0006】また、「日本」、「東京」等の地名の文字
列が付く会社名が多く存在し、これらの文字列を「AB
C」等の固有名称と同等に評価すると誤認識する可能性
がある。
列が付く会社名が多く存在し、これらの文字列を「AB
C」等の固有名称と同等に評価すると誤認識する可能性
がある。
【0007】さらに、登録単語を読む際に、住所やビル
名等、目的の領域とは異なる別の領域の文字認識結果と
登録単語との照合がなされて、誤認識することがある。
たとえば、「ABCビルXYZ株式会社」と記載されて
いる場合、「XYZ株式会社」を単語認識したいのに、
「ABC株式会社」と認識してしまうことがある。
名等、目的の領域とは異なる別の領域の文字認識結果と
登録単語との照合がなされて、誤認識することがある。
たとえば、「ABCビルXYZ株式会社」と記載されて
いる場合、「XYZ株式会社」を単語認識したいのに、
「ABC株式会社」と認識してしまうことがある。
【0008】この発明は上記の事情を考慮したもので、
その目的とするところは、精度の高い適正な単語認識が
可能な照合用単語辞書を作成する単語辞書作成装置を提
供することにある。
その目的とするところは、精度の高い適正な単語認識が
可能な照合用単語辞書を作成する単語辞書作成装置を提
供することにある。
【0009】また、この発明は、精度の高い適正な単語
認識を行うことができる単語認識装置を提供することに
ある。
認識を行うことができる単語認識装置を提供することに
ある。
【0010】
【課題を解決するための手段】請求項1に係る発明は、
団体または個人の名称を表わす「名称」文字列を記憶し
た第1記憶手段と、個人の姓名の姓を表わす「姓」文字
列および名を表わす「名」文字列を、その種別を表わす
種別データと共に記憶した第2記憶手段と、一般名称を
表わす「一般名称」文字列をその種別を表わす種別デー
タと共に記憶した第3記憶手段と、単語検索の照合に用
いる照合用単語辞書を記憶するための第4記憶手段と、
上記第1記憶手段内の「名称」文字列の構成要素が上記
第2記憶手段内の文字列または上記第3記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列を一致先の文字列に対応する種別データ
と共に照合用単語辞書として上記第4記憶手段に記憶せ
しめる辞書生成手段と、を備える。
団体または個人の名称を表わす「名称」文字列を記憶し
た第1記憶手段と、個人の姓名の姓を表わす「姓」文字
列および名を表わす「名」文字列を、その種別を表わす
種別データと共に記憶した第2記憶手段と、一般名称を
表わす「一般名称」文字列をその種別を表わす種別デー
タと共に記憶した第3記憶手段と、単語検索の照合に用
いる照合用単語辞書を記憶するための第4記憶手段と、
上記第1記憶手段内の「名称」文字列の構成要素が上記
第2記憶手段内の文字列または上記第3記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列を一致先の文字列に対応する種別データ
と共に照合用単語辞書として上記第4記憶手段に記憶せ
しめる辞書生成手段と、を備える。
【0011】請求項5に係る発明は、団体または個人の
名称を表わす「名称」文字列を記憶した第1記憶手段
と、個人の姓名の姓を表わす「姓」文字列および名を表
わす「名」文字列を、その種別を表わす種別データと共
に記憶した第2記憶手段と、一般名称を表わす「一般名
称」文字列をその種別を表わす種別データと共に記憶し
た第3記憶手段と、単語検索の照合に用いる照合用単語
辞書を記憶するための第4記憶手段と、上記第1記憶手
段内の「名称」文字列の構成要素が上記第2記憶手段内
の文字列または上記第3記憶手段内の文字列と一致する
かどうか判定し、一致条件の成立した「名称」文字列か
ら一致先の文字列を除いて残る文字列についてその種別
を固有名称と判定し、一致条件の成立した「名称」文字
列を一致先の文字列に対応する種別データおよび上記固
有名称であることを表わす種別データと共に、かつ一致
条件の成立した「名称」文字列から一致先の文字列を除
いて残る文字列を上記固有名称であることを表わす種別
データと共に、照合用単語辞書として前記第4記憶手段
に記憶せしめる辞書生成手段と、を備える。
名称を表わす「名称」文字列を記憶した第1記憶手段
と、個人の姓名の姓を表わす「姓」文字列および名を表
わす「名」文字列を、その種別を表わす種別データと共
に記憶した第2記憶手段と、一般名称を表わす「一般名
称」文字列をその種別を表わす種別データと共に記憶し
た第3記憶手段と、単語検索の照合に用いる照合用単語
辞書を記憶するための第4記憶手段と、上記第1記憶手
段内の「名称」文字列の構成要素が上記第2記憶手段内
の文字列または上記第3記憶手段内の文字列と一致する
かどうか判定し、一致条件の成立した「名称」文字列か
ら一致先の文字列を除いて残る文字列についてその種別
を固有名称と判定し、一致条件の成立した「名称」文字
列を一致先の文字列に対応する種別データおよび上記固
有名称であることを表わす種別データと共に、かつ一致
条件の成立した「名称」文字列から一致先の文字列を除
いて残る文字列を上記固有名称であることを表わす種別
データと共に、照合用単語辞書として前記第4記憶手段
に記憶せしめる辞書生成手段と、を備える。
【0012】請求項9に係る発明は、請求項1ないし請
求項8のいずれかに係る発明において、第3記憶手段が
記憶している、種別データが、「一般名称」文字列の種
別が会社名や建物名のいずれかであるかを表わす。
求項8のいずれかに係る発明において、第3記憶手段が
記憶している、種別データが、「一般名称」文字列の種
別が会社名や建物名のいずれかであるかを表わす。
【0013】請求項10に係る発明は、請求項1ないし
請求項8のいずれかに係る発明において、第2記憶手段
および第3記憶手段が記憶している、文字列の表記ずれ
の可能性の有無を表わす指標が、文字列が略字、旧字、
俗字で形成される可能性の有無を表わす。さらに、第3
記憶手段が記憶している、文字列の記載位置ずれの可能
性の有無を表わす指標が、文字列が他の文字列の前位置
に付いたり後位置に付いたりして変化する可能性の有無
を表わす。
請求項8のいずれかに係る発明において、第2記憶手段
および第3記憶手段が記憶している、文字列の表記ずれ
の可能性の有無を表わす指標が、文字列が略字、旧字、
俗字で形成される可能性の有無を表わす。さらに、第3
記憶手段が記憶している、文字列の記載位置ずれの可能
性の有無を表わす指標が、文字列が他の文字列の前位置
に付いたり後位置に付いたりして変化する可能性の有無
を表わす。
【0014】請求項11に係る発明は、請求項1ないし
請求項8のいずれかに係る発明において、辞書生成手段
が、一致条件の成立する「名称」文字列が第1記憶手段
内に出現する頻度を表わす頻度データを照合用単語辞書
に加える構成となっている。
請求項8のいずれかに係る発明において、辞書生成手段
が、一致条件の成立する「名称」文字列が第1記憶手段
内に出現する頻度を表わす頻度データを照合用単語辞書
に加える構成となっている。
【0015】請求項12に係る発明は、被読取媒体上の
画像を光学的に読取る読取手段と、この読取手段の読取
画像から文字を検出する検出手段と、この検出手段で検
出される文字を認識する認識手段と、単語の文字列を、
その種別を表わす種別データ、その表記ずれの可能性の
有無を表わす指標、その記載位置ずれの可能性の有無を
表わす指標、その発生の頻度を表わす頻度データと共に
照合用単語辞書として記憶した記憶手段と、上記認識手
段で認識した文字に類似する文字列およびその文字列に
対応する種別データ、指標、頻度データを上記記憶手段
から読出す読出手段と、この読出手段で読出した各文字
列のいずれかを同読出手段で読出される種別データ、指
標、頻度データに応じて選定し、それを単語候補として
確定する確定手段と、を備える。
画像を光学的に読取る読取手段と、この読取手段の読取
画像から文字を検出する検出手段と、この検出手段で検
出される文字を認識する認識手段と、単語の文字列を、
その種別を表わす種別データ、その表記ずれの可能性の
有無を表わす指標、その記載位置ずれの可能性の有無を
表わす指標、その発生の頻度を表わす頻度データと共に
照合用単語辞書として記憶した記憶手段と、上記認識手
段で認識した文字に類似する文字列およびその文字列に
対応する種別データ、指標、頻度データを上記記憶手段
から読出す読出手段と、この読出手段で読出した各文字
列のいずれかを同読出手段で読出される種別データ、指
標、頻度データに応じて選定し、それを単語候補として
確定する確定手段と、を備える。
【0016】
【発明の実施の形態】[1]以下、この発明の第1実施
例について図面を参照して説明する。
例について図面を参照して説明する。
【0017】図1は、本発明における単語辞書作成装置
の構成を示すブロック図である。
の構成を示すブロック図である。
【0018】図1中、111は第1記憶手段であるとこ
ろの顧客データベース(以下、顧客DBと略称する)
で、図2に示すように、検索対象として、団体名(会社
名等)や個人名など商売上の顧客を表わす「顧客名称」
文字列を、その顧客の住所を表わす「住所」文字列と共
に記憶している。
ろの顧客データベース(以下、顧客DBと略称する)
で、図2に示すように、検索対象として、団体名(会社
名等)や個人名など商売上の顧客を表わす「顧客名称」
文字列を、その顧客の住所を表わす「住所」文字列と共
に記憶している。
【0019】112は第2記憶手段であるところの氏名
データベース(以下、氏名DBと略称する)で、図3に
示すように、個人の姓名(個人名)の姓を表わす「姓」
文字列および名を表わす「名」文字列を、その種別を表
わす種別データ、表記ずれの可能性の有無を表わす指標
いわゆる表記ゆれ指標(有りが「1」、無しが
「0」)、表記ずれに係る他の文字列を指定するための
別名情報(記憶アドレス)と共に記憶している。
データベース(以下、氏名DBと略称する)で、図3に
示すように、個人の姓名(個人名)の姓を表わす「姓」
文字列および名を表わす「名」文字列を、その種別を表
わす種別データ、表記ずれの可能性の有無を表わす指標
いわゆる表記ゆれ指標(有りが「1」、無しが
「0」)、表記ずれに係る他の文字列を指定するための
別名情報(記憶アドレス)と共に記憶している。
【0020】113は第3記憶手段であるところの一般
名称データベース(以下、一般名称DBと略称する)
で、図4に示すように、会社名や建物名等の個有名称に
付ける一般名称たとえば「株式会社」「株」「(株)」
「KK」「ビル」「センター」などを表わす「一般名
称」文字列を、その種別を表わす種別データ、記載位置
ずれの可能性の有無を表わす指標いわゆる位置ゆれ指標
(有りが「1」、無しが「0」)、表記ずれの可能性の
有無を表わす指標いわゆる表記ゆれ指標(有りが
「1」、無しが「0」)、記載位置ずれおよび表記ずれ
に係る他の文字列を指定するための別名情報(記憶アド
レス)と共に記憶している。
名称データベース(以下、一般名称DBと略称する)
で、図4に示すように、会社名や建物名等の個有名称に
付ける一般名称たとえば「株式会社」「株」「(株)」
「KK」「ビル」「センター」などを表わす「一般名
称」文字列を、その種別を表わす種別データ、記載位置
ずれの可能性の有無を表わす指標いわゆる位置ゆれ指標
(有りが「1」、無しが「0」)、表記ずれの可能性の
有無を表わす指標いわゆる表記ゆれ指標(有りが
「1」、無しが「0」)、記載位置ずれおよび表記ずれ
に係る他の文字列を指定するための別名情報(記憶アド
レス)と共に記憶している。
【0021】位置ゆれ指標は、文字列が他の文字列の前
位置に付いたり後位置に付いたりして変化する可能性の
有無を表わす。例えば、「株式会社」という一般名称
は、他の「第一」という固有名称の前位置に付いて「第
一株式会社」となったり、後位置に付いて「株式会社第
一」となることがあり、この場合は可能性有りとなる。
位置に付いたり後位置に付いたりして変化する可能性の
有無を表わす。例えば、「株式会社」という一般名称
は、他の「第一」という固有名称の前位置に付いて「第
一株式会社」となったり、後位置に付いて「株式会社第
一」となることがあり、この場合は可能性有りとなる。
【0022】表記ゆれ指標は、文字種ゆれ指標とも称
し、文字列が略字、旧字、俗字で形成される可能性の有
無を表わす。例えば、「小沢」という姓名には同じ読み
の「小澤」という姓名があり、この場合は可能性有りと
なる。また、「株式会社」という一般名称には
「(株)」「株」「KK」などの別名や簡略名の表記が
あり、この場合は可能性有りとなる。
し、文字列が略字、旧字、俗字で形成される可能性の有
無を表わす。例えば、「小沢」という姓名には同じ読み
の「小澤」という姓名があり、この場合は可能性有りと
なる。また、「株式会社」という一般名称には
「(株)」「株」「KK」などの別名や簡略名の表記が
あり、この場合は可能性有りとなる。
【0023】114は第4記憶手段であるところの照合
用単語辞書で、図5に示すように、顧客の「顧客名称」
文字列および「住所」文字列を、種別データと共に、単
語検索の照合に用いる照合用単語辞書として記憶する。
用単語辞書で、図5に示すように、顧客の「顧客名称」
文字列および「住所」文字列を、種別データと共に、単
語検索の照合に用いる照合用単語辞書として記憶する。
【0024】これら顧客DB111、氏名DB112、
一般名称DB113、照合用単語辞書114が単語辞書
生成部101に接続される。
一般名称DB113、照合用単語辞書114が単語辞書
生成部101に接続される。
【0025】単語辞書生成部101は、顧客DB111
内の「顧客名称」文字列の構成要素が氏名DB112内
の文字列または一般名称DB113内の文字列と一致す
るかどうか判定し、一致条件の成立した「顧客名称」文
字列およびそれに対応する「住所」文字列を一致先の文
字列に対応する種別データと共に照合用単語辞書として
照合用単語辞書114に記憶せしめる機能手段を備え
る。
内の「顧客名称」文字列の構成要素が氏名DB112内
の文字列または一般名称DB113内の文字列と一致す
るかどうか判定し、一致条件の成立した「顧客名称」文
字列およびそれに対応する「住所」文字列を一致先の文
字列に対応する種別データと共に照合用単語辞書として
照合用単語辞書114に記憶せしめる機能手段を備え
る。
【0026】この単語辞書生成部101の処理の様子を
図6のフローチャートに示す。
図6のフローチャートに示す。
【0027】まず、ステップ1201で、顧客DB11
1より「顧客名称」文字列を1レコード毎に読み込む。
ステップ1202で、読み込んだ「顧客名称」文字列
と、一般名称DB112内の種別データが「会杜名」と
して登録されている文字列との照合を行ない、一致文字
列があれば、ステップ1203で照合用単語辞書に顧客
名の代表種別データとして「会杜」を設定する。
1より「顧客名称」文字列を1レコード毎に読み込む。
ステップ1202で、読み込んだ「顧客名称」文字列
と、一般名称DB112内の種別データが「会杜名」と
して登録されている文字列との照合を行ない、一致文字
列があれば、ステップ1203で照合用単語辞書に顧客
名の代表種別データとして「会杜」を設定する。
【0028】ステップ1204で、読み込んだ「顧客名
称」文字列と、一般名称DB113内の種別データが
「ビル名」として登録されている文字列との照合を行な
い、一致文字列があれば、ステップ1205で照合用単
語辞書に顧客名の代表種別データ=「ビル」を設定す
る。
称」文字列と、一般名称DB113内の種別データが
「ビル名」として登録されている文字列との照合を行な
い、一致文字列があれば、ステップ1205で照合用単
語辞書に顧客名の代表種別データ=「ビル」を設定す
る。
【0029】ステップ1206で、読み込んだ「顧客名
称」文字列と、氏名名称DB112内の種別データが
「姓」または「名」として登録されている文字列との照
合を行ない、一致文字列があれば、ステップ1207で
照合用単語辞書に顧客名の代表種別データ=「氏名」を
設定する。
称」文字列と、氏名名称DB112内の種別データが
「姓」または「名」として登録されている文字列との照
合を行ない、一致文字列があれば、ステップ1207で
照合用単語辞書に顧客名の代表種別データ=「氏名」を
設定する。
【0030】ステップ1208で、一般名称DB113
および氏名DB112に登録されている全ての文字列と
の照合に失敗した場合は、代表種別データ=「固有名
称」として照合用単語辞書に登録する。顧客DB111
内の全ての顧客名に対する読み出しが終了するまで(ス
テップ1209)、ステップ1201空の処理を繰り返
す。
および氏名DB112に登録されている全ての文字列と
の照合に失敗した場合は、代表種別データ=「固有名
称」として照合用単語辞書に登録する。顧客DB111
内の全ての顧客名に対する読み出しが終了するまで(ス
テップ1209)、ステップ1201空の処理を繰り返
す。
【0031】このようにして作成される照合用単語辞書
114を単語認識装置に搭載することにより、単語認識
装置において精度の高い適正な単語認識を行うことがで
きる。
114を単語認識装置に搭載することにより、単語認識
装置において精度の高い適正な単語認識を行うことがで
きる。
【0032】すなわち、照合用単語辞書114には、
「顧客名称」文字列および「住所」文字列が種類別に分
類されて登録され、しかも各文字列ごとに種別データが
付されるので、その種別データに応じて単語照合のアル
ゴリズムや照合閾値を変えることにより、効率的かつ迅
速な照合を行うことができる。
「顧客名称」文字列および「住所」文字列が種類別に分
類されて登録され、しかも各文字列ごとに種別データが
付されるので、その種別データに応じて単語照合のアル
ゴリズムや照合閾値を変えることにより、効率的かつ迅
速な照合を行うことができる。
【0033】たとえば、顧客名が会社名の場合は、名称
が簡略化されたり表記ゆれが多く存在するという特性に
着目し、照合の閾値を下げて認識を行う。
が簡略化されたり表記ゆれが多く存在するという特性に
着目し、照合の閾値を下げて認識を行う。
【0034】郵便物の宛先から検出して切り出される複
数の文字列と顧客名を照合する際には、宛先にビル名、
会社名、個人名が同時に記載される場合がある。この場
合は、個人名より会社名が顧客名である可能性が高いの
で、個人名よりも会社名を優先した照合を行う。また、
ビル名として、そのビル内に存在する会社名が使われる
ことが多いが、この場合にはビル名よりも会社名を優先
した照合を行う。このような照合を行うことにより、照
合が効率的かつ迅速となって認識時間の短縮が図れる。
数の文字列と顧客名を照合する際には、宛先にビル名、
会社名、個人名が同時に記載される場合がある。この場
合は、個人名より会社名が顧客名である可能性が高いの
で、個人名よりも会社名を優先した照合を行う。また、
ビル名として、そのビル内に存在する会社名が使われる
ことが多いが、この場合にはビル名よりも会社名を優先
した照合を行う。このような照合を行うことにより、照
合が効率的かつ迅速となって認識時間の短縮が図れる。
【0035】また、登録単語が名前の場合には、名前部
分の文字認識結果が誤っていた場合、同じ姓の別の単語
に誤認識する可能性があるが、登録単語の文字列を姓、
名に分けて単語辞書に登録しておき、さらに同じ姓また
は名を持つ登録単語を予め調べて、その頻度を登録して
おくことで、出現頻度の高い固有名称では、評価時の判
定基準を厳しくすることで、誤認識を減らすことができ
る。
分の文字認識結果が誤っていた場合、同じ姓の別の単語
に誤認識する可能性があるが、登録単語の文字列を姓、
名に分けて単語辞書に登録しておき、さらに同じ姓また
は名を持つ登録単語を予め調べて、その頻度を登録して
おくことで、出現頻度の高い固有名称では、評価時の判
定基準を厳しくすることで、誤認識を減らすことができ
る。
【0036】[2]第2実施例について説明する。
【0037】第2実施例では、照合用単語辞書114の
登録内容が第1実施例の場合と少し異なる。他の構成は
第1実施例と同じである。
登録内容が第1実施例の場合と少し異なる。他の構成は
第1実施例と同じである。
【0038】すなわち、照合用単語辞書114は、図7
に示すように、「名称」分割文字列および「住所」文字
列を、種別データと共に、単語検索の照合に用いる照合
用単語辞書として記憶する。
に示すように、「名称」分割文字列および「住所」文字
列を、種別データと共に、単語検索の照合に用いる照合
用単語辞書として記憶する。
【0039】「名称」分割文字列は、「顧客名称」文字
列を「一般名称」文字列と「固有名称」文字列とに分割
したもの、「姓」文字列と「名」文字列とに分割したも
のなどである。
列を「一般名称」文字列と「固有名称」文字列とに分割
したもの、「姓」文字列と「名」文字列とに分割したも
のなどである。
【0040】種別データは、「名称」分割文字列の各分
割要素に対応しており、「会社」、「固有」「姓」
「名」等が用意されている。また、「会社」、「氏名」
等の代表種別データも用意されている。
割要素に対応しており、「会社」、「固有」「姓」
「名」等が用意されている。また、「会社」、「氏名」
等の代表種別データも用意されている。
【0041】単語辞書生成部101は、顧客DB111
内の「顧客名称」文字列の構成要素が氏名DB112内
の文字列または一般名称DB113内の文字列と一致す
るかどうか判定し、一致条件の成立した「顧客名称」文
字列から一致先の文字列を除いて残る文字列についてそ
の種別を固有名称と判定し、一致条件の成立した「顧客
名称」文字列を一致先の文字列に対応する種別データと
共に、かつ一致条件の成立した「顧客名称」文字列から
一致先の文字列を除いて残る文字列を上記固有名称であ
ることを表わす種別データと共に、照合用単語辞書とし
て照合用単語辞書114に記憶せしめる機能手段を備え
る。
内の「顧客名称」文字列の構成要素が氏名DB112内
の文字列または一般名称DB113内の文字列と一致す
るかどうか判定し、一致条件の成立した「顧客名称」文
字列から一致先の文字列を除いて残る文字列についてそ
の種別を固有名称と判定し、一致条件の成立した「顧客
名称」文字列を一致先の文字列に対応する種別データと
共に、かつ一致条件の成立した「顧客名称」文字列から
一致先の文字列を除いて残る文字列を上記固有名称であ
ることを表わす種別データと共に、照合用単語辞書とし
て照合用単語辞書114に記憶せしめる機能手段を備え
る。
【0042】この単語辞書生成部101の処理の様子を
図8のフローチャートに示す。
図8のフローチャートに示す。
【0043】ステップ1301で、顧客DB111より
「顧客名称」文字列を1レコード毎に読み込み、バッフ
ァStrに格納する。ステップ1302で、バッファS
tr内に、一般名称DB113内の文字列が存在するか
照合する。一致文字列が存在する場合には、ステップ1
303で、一致文字列と種別を照合用単語辞書114に
登録する。さらに、バッファStrから一致した文字列
を削除する。
「顧客名称」文字列を1レコード毎に読み込み、バッフ
ァStrに格納する。ステップ1302で、バッファS
tr内に、一般名称DB113内の文字列が存在するか
照合する。一致文字列が存在する場合には、ステップ1
303で、一致文字列と種別を照合用単語辞書114に
登録する。さらに、バッファStrから一致した文字列
を削除する。
【0044】ステップ1304で、バッファStr内
に、氏名DB112内の文字列が存在するか照合する。
一致文字列が存在する場合には、ステップ1305で、
一致文字列と種別データを照合用単語辞書114に登録
する。さらに、バッファStrから一致した文字列を削
除する。
に、氏名DB112内の文字列が存在するか照合する。
一致文字列が存在する場合には、ステップ1305で、
一致文字列と種別データを照合用単語辞書114に登録
する。さらに、バッファStrから一致した文字列を削
除する。
【0045】ステップ1306で、一般名称DB113
および氏名DB112に登録されている全ての文字列と
の照合後に、バッファStrに残っている文字列は種別
データ=「固有名称」として照合用単語辞書114に登
録する。顧客DB111内の全ての顧客名に対する読み
出しが終了するまで(ステップ1307)、ステップ1
301空の処理を繰り返す。
および氏名DB112に登録されている全ての文字列と
の照合後に、バッファStrに残っている文字列は種別
データ=「固有名称」として照合用単語辞書114に登
録する。顧客DB111内の全ての顧客名に対する読み
出しが終了するまで(ステップ1307)、ステップ1
301空の処理を繰り返す。
【0046】このようにして作成される照合用単語辞書
114を単語認識装置に搭載することにより、単語認識
装置において精度の高い適正な単語認識を行うことがで
きる。
114を単語認識装置に搭載することにより、単語認識
装置において精度の高い適正な単語認識を行うことがで
きる。
【0047】すなわち、顧客名を氏名DB112および
一般名称DB113に存在する頻度の高い単語に分割す
ることで、文字列と顧客名との照合の際して単語単位の
照合を行うことにより、処理時間の短縮及び性能の向上
が期待できる。たとえば、種別データに「固有」「一
般」「会社」の順の優先度をつけることにより、優先度
の高い単語から順次に照合を行い、「固有」について照
合率の悪い単語についてはその照合処理を中断して次の
「一般」についての照合に移ることにより、処理時間の
短縮が可能となる。また、優先度の高い種別から照合を
行うことで、処理時間等の関係から途中で処理を中断す
る際にも正しい結果が得られる確率が高くなる。
一般名称DB113に存在する頻度の高い単語に分割す
ることで、文字列と顧客名との照合の際して単語単位の
照合を行うことにより、処理時間の短縮及び性能の向上
が期待できる。たとえば、種別データに「固有」「一
般」「会社」の順の優先度をつけることにより、優先度
の高い単語から順次に照合を行い、「固有」について照
合率の悪い単語についてはその照合処理を中断して次の
「一般」についての照合に移ることにより、処理時間の
短縮が可能となる。また、優先度の高い種別から照合を
行うことで、処理時間等の関係から途中で処理を中断す
る際にも正しい結果が得られる確率が高くなる。
【0048】[3]第3実施例について説明する。
【0049】第3実施例では、照合用単語辞書114の
登録内容が第1および第2実施例の場合と少し異なる。
他の構成は第1実施例と同じである。
登録内容が第1および第2実施例の場合と少し異なる。
他の構成は第1実施例と同じである。
【0050】すなわち、照合用単語辞書114は、図9
に示すように、名称テーブルおよび顧客名称インデック
ステーブルからなる。
に示すように、名称テーブルおよび顧客名称インデック
ステーブルからなる。
【0051】名称テーブルには、「名称」文字列が種別
に登録されるとともに、その「名称」文字列ごとに、ア
ドレスデータ、種別データ、頻度データ、位置ゆれ指
標、表記ゆれ指標、別名ポインタデータ、インデックス
テーブルへのポインタデータが登録されている。
に登録されるとともに、その「名称」文字列ごとに、ア
ドレスデータ、種別データ、頻度データ、位置ゆれ指
標、表記ゆれ指標、別名ポインタデータ、インデックス
テーブルへのポインタデータが登録されている。
【0052】アドレスデータは、当該照合用単語辞書1
14における記憶アドレス。頻度データは、氏名DB1
12内の文字列および一般名称DB113内の文字列に
対して一致条件の成立する「顧客名称」文字列が顧客D
B111内に出現する頻度を表わす。たとえば、1(出
現頻度低い)から10(出現頻度高い)までの数値で表
わされる。
14における記憶アドレス。頻度データは、氏名DB1
12内の文字列および一般名称DB113内の文字列に
対して一致条件の成立する「顧客名称」文字列が顧客D
B111内に出現する頻度を表わす。たとえば、1(出
現頻度低い)から10(出現頻度高い)までの数値で表
わされる。
【0053】別名ポインタデータは、表記ずれに係る他
の文字列、つまり変形する可能性のある文字列を指定す
るための記憶アドレス。インデックステーブルへのポイ
ンタデータは、顧客名称インデックステーブルに対する
アクセスを行うための記憶アドレスである。
の文字列、つまり変形する可能性のある文字列を指定す
るための記憶アドレス。インデックステーブルへのポイ
ンタデータは、顧客名称インデックステーブルに対する
アクセスを行うための記憶アドレスである。
【0054】顧客名称インデックステーブルには、顧客
の「住所」文字列が登録されるとともに、その「住所」
文字列ごとに、アドレスデータ、ポインタ数、名称テー
ブルへのポインタデータが登録されている。
の「住所」文字列が登録されるとともに、その「住所」
文字列ごとに、アドレスデータ、ポインタ数、名称テー
ブルへのポインタデータが登録されている。
【0055】アドレスデータは、当該照合用単語辞書1
14における記憶アドレス。ポインタ数は、対応する
「顧客名称」文字列の個数を表わす。
14における記憶アドレス。ポインタ数は、対応する
「顧客名称」文字列の個数を表わす。
【0056】名称テーブルへのポインタデータは、名称
テーブルに対するアクセスを行うための記憶アドレスで
ある。
テーブルに対するアクセスを行うための記憶アドレスで
ある。
【0057】単語辞書生成部101は、顧客DB111
内の「顧客名称」文字列の構成要素が氏名DB112内
の文字列または一般名称DB113内の文字列と一致す
るかどうか判定し、一致条件の成立した「顧客名称」文
字列から一致先の文字列を除いて残る文字列についてそ
の種別を固有名称と判定し、一致条件の成立した「顧客
名称」文字列を一致先の文字列に対応する種別データと
共に、かつ一致条件の成立した「顧客名称」文字列から
一致先の文字列を除いて残る文字列を上記固有名称であ
ることを表わす種別データと共に、さらに上記アドレス
データ、頻度データ、位置ゆれ指標、表記ゆれ指標、別
名ポインタデータ、インデックステーブルへのポインタ
データを付加しつつ、照合用単語辞書の名称テーブルと
して照合用単語辞書114に記憶せしめる機能手段を備
える。実際には、第2実施例で生成した図7の照合用単
語辞書を利用して名称テーブルを生成する。
内の「顧客名称」文字列の構成要素が氏名DB112内
の文字列または一般名称DB113内の文字列と一致す
るかどうか判定し、一致条件の成立した「顧客名称」文
字列から一致先の文字列を除いて残る文字列についてそ
の種別を固有名称と判定し、一致条件の成立した「顧客
名称」文字列を一致先の文字列に対応する種別データと
共に、かつ一致条件の成立した「顧客名称」文字列から
一致先の文字列を除いて残る文字列を上記固有名称であ
ることを表わす種別データと共に、さらに上記アドレス
データ、頻度データ、位置ゆれ指標、表記ゆれ指標、別
名ポインタデータ、インデックステーブルへのポインタ
データを付加しつつ、照合用単語辞書の名称テーブルと
して照合用単語辞書114に記憶せしめる機能手段を備
える。実際には、第2実施例で生成した図7の照合用単
語辞書を利用して名称テーブルを生成する。
【0058】さらに、単語辞書生成部101は、一致条
件の成立した「名称」文字列に対応する「住所」文字列
を、上記アドレスデータ、ポインタ数、名称テーブルへ
のポインタデータを付加しつつ、照合用単語辞書の顧客
名称インデックステーブルとして照合用単語辞書114
に記憶せしめる機能手段を備える。実際には、第2実施
例で生成した図7の照合用単語辞書を利用して顧客名称
インデックステーブルを生成する。
件の成立した「名称」文字列に対応する「住所」文字列
を、上記アドレスデータ、ポインタ数、名称テーブルへ
のポインタデータを付加しつつ、照合用単語辞書の顧客
名称インデックステーブルとして照合用単語辞書114
に記憶せしめる機能手段を備える。実際には、第2実施
例で生成した図7の照合用単語辞書を利用して顧客名称
インデックステーブルを生成する。
【0059】この単語辞書生成部101の処理の様子を
図10のフローチャートに示す。
図10のフローチャートに示す。
【0060】ステップ1401では、図7の照合用単語
辞書から顧客名称インデックステーブルを作成する。ス
テップ1402で、図7の照合用単語辞書から、各文字
列および種別データを順次読み込む。ステップ1403
で各文字列について、名称テーブルへの登録が終ってい
るかどうかをフラグflgで判定する。
辞書から顧客名称インデックステーブルを作成する。ス
テップ1402で、図7の照合用単語辞書から、各文字
列および種別データを順次読み込む。ステップ1403
で各文字列について、名称テーブルへの登録が終ってい
るかどうかをフラグflgで判定する。
【0061】文字列が登録済みでない場合は、ステップ
1404で名称テーブルに、抽出した文字列、種別デー
タ、対応する顧客名称インデックステーブルのアドレス
を登録する。さらに、一般名称DB113及び氏名DB
112から、該当する文字列の位置ゆれ指標、表記ゆれ
指標、別名情報を検索し、同時に名称テーブルに登録す
る。別名情報については、テーブル作成後、同じ値を持
つ文字列へのポインタとして置き換える。
1404で名称テーブルに、抽出した文字列、種別デー
タ、対応する顧客名称インデックステーブルのアドレス
を登録する。さらに、一般名称DB113及び氏名DB
112から、該当する文字列の位置ゆれ指標、表記ゆれ
指標、別名情報を検索し、同時に名称テーブルに登録す
る。別名情報については、テーブル作成後、同じ値を持
つ文字列へのポインタとして置き換える。
【0062】登録した顧客名を構成する抽出文字列につ
いては、フラグflgに登録済みを設定し、対応する顧
客名称インデックステーブルに、名称テーブルにおける
登録レコードのアドレスを登録する。
いては、フラグflgに登録済みを設定し、対応する顧
客名称インデックステーブルに、名称テーブルにおける
登録レコードのアドレスを登録する。
【0063】次に、ステップ1405で、照合用単語辞
書内の顧客名を構成する複数の文字列で、フラグflg
が未登録である文字列について抽出文字列と種別が等し
いか照合し、等しいものについてはステップ1406
で、その顧客名データのアドレスを名称テーブルに登録
するとともに、フラグflgを登録済みと設定し、対応
ずる顧客名称インデックステーブルに、名称テーブルに
おける登録レコードアドレスを登録する。
書内の顧客名を構成する複数の文字列で、フラグflg
が未登録である文字列について抽出文字列と種別が等し
いか照合し、等しいものについてはステップ1406
で、その顧客名データのアドレスを名称テーブルに登録
するとともに、フラグflgを登録済みと設定し、対応
ずる顧客名称インデックステーブルに、名称テーブルに
おける登録レコードアドレスを登録する。
【0064】また、ステップ1404で抽出した文字列
に対して、未登録データで一致した文字列の出現個数を
カウントし、そのカウント数を頻度データとして名称テ
ーブルに登録する。照合用単語辞書内の全ての顧客名に
対する読み出しが終了するまで(ステップ1406)、
ステップ1401空の処理を繰り返す。
に対して、未登録データで一致した文字列の出現個数を
カウントし、そのカウント数を頻度データとして名称テ
ーブルに登録する。照合用単語辞書内の全ての顧客名に
対する読み出しが終了するまで(ステップ1406)、
ステップ1401空の処理を繰り返す。
【0065】このようにして作成される照合用単語辞書
114を単語認識装置に搭載することにより、単語認識
装置において精度の高い適正な単語認識を行うことがで
きる。
114を単語認識装置に搭載することにより、単語認識
装置において精度の高い適正な単語認識を行うことがで
きる。
【0066】すなわち、照合用単語辞書114には、
「顧客名称」文字列および「住所」文字列が種類別に分
類されて登録され、しかも各文字列ごとに種別データ、
頻度データ、位置ゆれ指標、表記ゆれ指標、別名ポイン
タなどが付されるので、効率的かつ迅速な照合を行うこ
とができる。
「顧客名称」文字列および「住所」文字列が種類別に分
類されて登録され、しかも各文字列ごとに種別データ、
頻度データ、位置ゆれ指標、表記ゆれ指標、別名ポイン
タなどが付されるので、効率的かつ迅速な照合を行うこ
とができる。
【0067】たとえば、出現頻度(頻度データに基づ
く)の高い文字列については照合の閾値を高く設定し、
また表記ゆれ指標に基づく別名有りの文字列については
別名についても照合を行い、別名が存在しない文字列に
ついては照合の閾値を下げ、位置ゆれ指標に基づく位置
ゆれ有りの文字列については照合の際に位置ゆれを考慮
した照合を行うことで、良好な照合結果が得られる。
く)の高い文字列については照合の閾値を高く設定し、
また表記ゆれ指標に基づく別名有りの文字列については
別名についても照合を行い、別名が存在しない文字列に
ついては照合の閾値を下げ、位置ゆれ指標に基づく位置
ゆれ有りの文字列については照合の際に位置ゆれを考慮
した照合を行うことで、良好な照合結果が得られる。
【0068】[4]第4実施例について説明する。
【0069】入力文字列と登録文字列とを照合し、入力
文字列に最も類似した登録文字列を出力する単語認識装
置の一つの例として、図11に示すように、紙等に記載
された手書き文字や活字を光学的に読取って文字認識を
行い、予め照合用単語辞書に登録しておいた認識対象単
語を検索して、入力文字列が認識対象単語のどれである
かを判定するものがある。
文字列に最も類似した登録文字列を出力する単語認識装
置の一つの例として、図11に示すように、紙等に記載
された手書き文字や活字を光学的に読取って文字認識を
行い、予め照合用単語辞書に登録しておいた認識対象単
語を検索して、入力文字列が認識対象単語のどれである
かを判定するものがある。
【0070】画像パターン入力部(読取手段)811
は、被読取媒体上の画像を光学的に読取り、その読取画
像を予め設定した閾値で2値化する。この2値画像は画
像バッファ821に格納される。
は、被読取媒体上の画像を光学的に読取り、その読取画
像を予め設定した閾値で2値化する。この2値画像は画
像バッファ821に格納される。
【0071】文字検出切出し部(検出手段)812は、
画像バッファ821内の2値画像から文字を1つずつ検
出して切出し、切出した各文字パターンの位置情報を作
成する。この位置情報は文字位置バッファ822に格納
される。
画像バッファ821内の2値画像から文字を1つずつ検
出して切出し、切出した各文字パターンの位置情報を作
成する。この位置情報は文字位置バッファ822に格納
される。
【0072】文字認識部(認識手段)813は、画像バ
ッファ821内の2値画像と文字位置バッファ822内
の位置情報とに基づき、各文字パターンを文字として認
識する。この認識に基づく例えば上位10個の文字候補
が文字候補バッファ823に格納される。
ッファ821内の2値画像と文字位置バッファ822内
の位置情報とに基づき、各文字パターンを文字として認
識する。この認識に基づく例えば上位10個の文字候補
が文字候補バッファ823に格納される。
【0073】単語認識部814は、文字候補バッファ8
23内の各文字候補が照合用単語辞書826内のどの位
置に記憶されているかを検索用辞書825の内容から判
定する判定手段を備え、その判定結果を照合用単語辞書
826に対するアクセス用のポインタリストとして抽出
し、それを単語候補バッファ824に格納する。
23内の各文字候補が照合用単語辞書826内のどの位
置に記憶されているかを検索用辞書825の内容から判
定する判定手段を備え、その判定結果を照合用単語辞書
826に対するアクセス用のポインタリストとして抽出
し、それを単語候補バッファ824に格納する。
【0074】検索用辞書825は、照合用単語辞書82
6内の各文字列の記憶位置を検索用データとして記憶し
ている。照合用単語辞書826は、上記第3実施例で生
成される照合用単語辞書114に相当する。
6内の各文字列の記憶位置を検索用データとして記憶し
ている。照合用単語辞書826は、上記第3実施例で生
成される照合用単語辞書114に相当する。
【0075】単語出力部815は、単語候補バッファ8
24内のポインタリストに応じて、かつ文字候補バッフ
ァ823内の各文字候補に基づき、照合用単語辞書82
6から文字列およびその文字列に対応する種別データ、
頻度データ、位置ゆれ指標、表記ゆれ指標を読出す読出
手段と、この読出手段で読出した各文字列のいずれかを
同読出した種別データ、頻度データ、位置ゆれ指標、表
記ゆれ指標に応じて選定し、それを単語候補として確定
し出力する確定手段とを備える。
24内のポインタリストに応じて、かつ文字候補バッフ
ァ823内の各文字候補に基づき、照合用単語辞書82
6から文字列およびその文字列に対応する種別データ、
頻度データ、位置ゆれ指標、表記ゆれ指標を読出す読出
手段と、この読出手段で読出した各文字列のいずれかを
同読出した種別データ、頻度データ、位置ゆれ指標、表
記ゆれ指標に応じて選定し、それを単語候補として確定
し出力する確定手段とを備える。
【0076】図12は、文字候補バッファ823、単語
候補バッファ824、検索用辞書825、照合用単語辞
書826の処理の関わりを示したものである。
候補バッファ824、検索用辞書825、照合用単語辞
書826の処理の関わりを示したものである。
【0077】検索用辞書825は、文字ポインタテーブ
ル902および単語ポインタテーブル903を有する。
ここでは顧客名が「株式会社東芝」であることを簡略化
して記述している。
ル902および単語ポインタテーブル903を有する。
ここでは顧客名が「株式会社東芝」であることを簡略化
して記述している。
【0078】単語ポインタテーブル903には、照合用
単語辞書826へのポインタ情報が単語内に含まれる文
字コードをキーに分類されて格納されている。たとえば
「株」を含む単語へのポインタ群、「東」を含む単語へ
のポインタ群のように分類されて格納されている。
単語辞書826へのポインタ情報が単語内に含まれる文
字コードをキーに分類されて格納されている。たとえば
「株」を含む単語へのポインタ群、「東」を含む単語へ
のポインタ群のように分類されて格納されている。
【0079】文字ポインタテーブル902は、単語ポイ
ンタテーブル903の文字ごとの先頭ポインタと個数が
格納されている。
ンタテーブル903の文字ごとの先頭ポインタと個数が
格納されている。
【0080】単語認識部814では、文字候補バッファ
823からたとえば「株」「東」の文字を選択し、文字
ポインタテーブル902でその文字を含む単語ポインタ
の先頭ポインタと個数を検索し、さらに単語ポインタテ
ーブル903内の照合用単語辞書826に対するポイン
タを指定個数分抽出し、単語候補バッファ824に格納
する。同じポインタが複数リストアップされた場合に
は、その個数が単語候補バッファ824に格納される。
823からたとえば「株」「東」の文字を選択し、文字
ポインタテーブル902でその文字を含む単語ポインタ
の先頭ポインタと個数を検索し、さらに単語ポインタテ
ーブル903内の照合用単語辞書826に対するポイン
タを指定個数分抽出し、単語候補バッファ824に格納
する。同じポインタが複数リストアップされた場合に
は、その個数が単語候補バッファ824に格納される。
【0081】単語候補出力部815では、たとえば単語
候補バッファ824に「株式会社東芝」に関する照合用
単語辞書826へのポインタ値が格納されていた場合
に、図9の「顧客名称インデックステーブル」ではz1
が対応するアドレスである。この場合、名称テーブルへ
のポインタa1,h1から、「株式会社」「東芝」を得
ることができる。さらに、「株式会社」は表記ゆれが存
在し、「株」「(株)」「KK」等と別名表記されるこ
とがわかる。文字候補バッファ823内の各文字候補に
より、別名の候補とも照合を行うことで、「株東芝」と
記載された場合も、「株式会社東芝」と変形して照合す
ることで、「株東芝」を単語候補として決定し出力す
る。
候補バッファ824に「株式会社東芝」に関する照合用
単語辞書826へのポインタ値が格納されていた場合
に、図9の「顧客名称インデックステーブル」ではz1
が対応するアドレスである。この場合、名称テーブルへ
のポインタa1,h1から、「株式会社」「東芝」を得
ることができる。さらに、「株式会社」は表記ゆれが存
在し、「株」「(株)」「KK」等と別名表記されるこ
とがわかる。文字候補バッファ823内の各文字候補に
より、別名の候補とも照合を行うことで、「株東芝」と
記載された場合も、「株式会社東芝」と変形して照合す
ることで、「株東芝」を単語候補として決定し出力す
る。
【0082】図13に単語認識部814における処理フ
ローの例を示す。
ローの例を示す。
【0083】ステップ1001で、文字候補バッファ8
23から文字候補を選択し、ステップ1002で、検索
用辞書825内の文字ポインタテーブル902から単語
ポインタテーブル903の先頭ポインタと個数を検索す
る。ステップ1003で、単語ポインタテーブル903
の指定されたアドレスから指定個数分の照合用単語辞書
826へのポインタを抽出して単語候補バッファ905
に格納する。
23から文字候補を選択し、ステップ1002で、検索
用辞書825内の文字ポインタテーブル902から単語
ポインタテーブル903の先頭ポインタと個数を検索す
る。ステップ1003で、単語ポインタテーブル903
の指定されたアドレスから指定個数分の照合用単語辞書
826へのポインタを抽出して単語候補バッファ905
に格納する。
【0084】文字候補バッファ823から必要な個数の
文字候補が選択されたら次の処理へ進む(ステップ10
04)。たとえば、文字の第一候補の文字全てを選択す
る、第一候補の中から指定個数の文字を選択する等、必
要に応じて選択する文字候補を指定する。
文字候補が選択されたら次の処理へ進む(ステップ10
04)。たとえば、文字の第一候補の文字全てを選択す
る、第一候補の中から指定個数の文字を選択する等、必
要に応じて選択する文字候補を指定する。
【0085】次に、ステップ1005で、単語候補バッ
ファ905内の照合用単語辞書826へのポインタをポ
インタ値によりソートする。ステップ1006で、同ポ
インタがあるかどうかチェックし、あった場合はその個
数をカウントしなかった場合は個数1と格納する。ステ
ップ1007では、単語候補バッファ824内の個数の
多い数候補を残し、残りは削除する。個数の多い数候補
の選定方法は、たとえば最も大きい個数から予め定めた
範囲、たとえば−1個の範囲のデータを残す等の方法に
よる。
ファ905内の照合用単語辞書826へのポインタをポ
インタ値によりソートする。ステップ1006で、同ポ
インタがあるかどうかチェックし、あった場合はその個
数をカウントしなかった場合は個数1と格納する。ステ
ップ1007では、単語候補バッファ824内の個数の
多い数候補を残し、残りは削除する。個数の多い数候補
の選定方法は、たとえば最も大きい個数から予め定めた
範囲、たとえば−1個の範囲のデータを残す等の方法に
よる。
【0086】たとえば「株東芝」と記載されたものを文
字認識し、さらに予め登録された顧客DB111内で、
その文字候補のうち指定文字を含む、単語候補を絞り込
むことが可能である。さらに、絞り込んだ複数の単語候
補の中から、さらに文字長や各文字の位置関係等から最
も類似する単語候補1つに絞り込んで最終的な単語候補
として出力する。
字認識し、さらに予め登録された顧客DB111内で、
その文字候補のうち指定文字を含む、単語候補を絞り込
むことが可能である。さらに、絞り込んだ複数の単語候
補の中から、さらに文字長や各文字の位置関係等から最
も類似する単語候補1つに絞り込んで最終的な単語候補
として出力する。
【0087】最も類似する最終候補に絞り込む際には、
誤認識を防ぐため、文字の反転や連続性のチェックをす
る。しかし、特に会社名等では、登録文字列に対し、表
記ゆれが存在する場合が多くあるため、文字の連続性の
チェックでエラーとなって答として採用されない場合が
生じる。
誤認識を防ぐため、文字の反転や連続性のチェックをす
る。しかし、特に会社名等では、登録文字列に対し、表
記ゆれが存在する場合が多くあるため、文字の連続性の
チェックでエラーとなって答として採用されない場合が
生じる。
【0088】本実施例のように、顧客DB111を意味
のある最小文字列単位に分割し、さらに文字列に種別デ
ータを設定し、位置ゆれや表記ゆれを予め登録しておく
ことにより、登録単語と異なる表記ゆれを持つ文字列に
対しても認識結果として採用することが可能となり、単
語認識率が向上する。
のある最小文字列単位に分割し、さらに文字列に種別デ
ータを設定し、位置ゆれや表記ゆれを予め登録しておく
ことにより、登録単語と異なる表記ゆれを持つ文字列に
対しても認識結果として採用することが可能となり、単
語認識率が向上する。
【0089】また、予め照合用単語辞書826内での文
字列の出現頻度及び、その文字列を含む顧客DBへのポ
インタを登録しておくことで、出現頻度の高い文字列に
ついては、全文字一致等の厳しくチェックを行い、出現
頻度の低い文字列を含む単語については、一般名称を除
く固有名称が一致していれば採用する等の判定を行うこ
とで、良好な照合結果が得られる。
字列の出現頻度及び、その文字列を含む顧客DBへのポ
インタを登録しておくことで、出現頻度の高い文字列に
ついては、全文字一致等の厳しくチェックを行い、出現
頻度の低い文字列を含む単語については、一般名称を除
く固有名称が一致していれば採用する等の判定を行うこ
とで、良好な照合結果が得られる。
【0090】図14に単語候補出力部815の処理を示
す。
す。
【0091】ステップ1101で、抽出された照合用単
語辞書826へのポインタから単語候補を構成する複数
の文字列及び種別を抽出する。照合用単語辞書826は
図9に示すような構造である。
語辞書826へのポインタから単語候補を構成する複数
の文字列及び種別を抽出する。照合用単語辞書826は
図9に示すような構造である。
【0092】ステップ1102で、文字認識結果の文字
候補から文字列を生成し、ステップ1103で文字候補
から生成した文字列と、単語候補を構成する複数の文字
列との文字の順序を考慮した類似度を算出し、類似度が
予め設定した閾値より大きい場合は、単語候補として採
用するための採用フラグを単語候補について設定する。
類似度はたとえば文字列長に対する一致文字数を用い
る。
候補から文字列を生成し、ステップ1103で文字候補
から生成した文字列と、単語候補を構成する複数の文字
列との文字の順序を考慮した類似度を算出し、類似度が
予め設定した閾値より大きい場合は、単語候補として採
用するための採用フラグを単語候補について設定する。
類似度はたとえば文字列長に対する一致文字数を用い
る。
【0093】採用フラグを設定する際、単語候補を構成
する文字列の種別の組合せに応じて判定基準を変える。
たとえば固有名称や姓名に対しては、たとえば全文字一
致で採用する等、照合の一致度の判定を厳しく、一般名
称については、照合の一致度の判定を甘くする。その
際、文字列の位置ゆれ指標や表記ゆれ指標も考慮する。
表記ゆれが存在し、別名が登録されている文字列につい
ては、別名でも照合する。出現頻度が高い文字列につい
ては、その他の文字列での一致の判定を厳しくする。
する文字列の種別の組合せに応じて判定基準を変える。
たとえば固有名称や姓名に対しては、たとえば全文字一
致で採用する等、照合の一致度の判定を厳しく、一般名
称については、照合の一致度の判定を甘くする。その
際、文字列の位置ゆれ指標や表記ゆれ指標も考慮する。
表記ゆれが存在し、別名が登録されている文字列につい
ては、別名でも照合する。出現頻度が高い文字列につい
ては、その他の文字列での一致の判定を厳しくする。
【0094】採用フラグが設定された場合は、次の単語
候補の照合を行う(ステップ1104)。
候補の照合を行う(ステップ1104)。
【0095】採用フラグが設定されなかった場合は、文
字候補から新たな文字列を生成して同様に照合を行う
(ステップ1105)。全ての文字候補について照合が
終了した場合は、次の単語候補との照合を行う(ステッ
プ1106)。指定の全ての単語候補との照合が終了
し、採用フラグのある候補で最も一致文字数が高い候補
が一意に絞れた場合は(ステップ1107)、ステップ
1119でその候補を最終候補として採用し、一意に絞
れない場合はステップ1118で単語候補不採用とす
る。
字候補から新たな文字列を生成して同様に照合を行う
(ステップ1105)。全ての文字候補について照合が
終了した場合は、次の単語候補との照合を行う(ステッ
プ1106)。指定の全ての単語候補との照合が終了
し、採用フラグのある候補で最も一致文字数が高い候補
が一意に絞れた場合は(ステップ1107)、ステップ
1119でその候補を最終候補として採用し、一意に絞
れない場合はステップ1118で単語候補不採用とす
る。
【0096】顧客名称とあわせて顧客の住所が記載され
る場合には、文字の出現頻度が高い文字列については、
住所情報の類似性についても同時に検証することによ
り、良好な認識結果を出力することが可能となる。
る場合には、文字の出現頻度が高い文字列については、
住所情報の類似性についても同時に検証することによ
り、良好な認識結果を出力することが可能となる。
【0097】ここで、ステップ1103の具体的な処理
例について図15により説明する。
例について図15により説明する。
【0098】照合用単語辞書826へのポインタが選択
され、対応する顧客名を構成する複数の文字列及び種別
が抽出されている。この複数の文字列を順番につなげる
と顧客名と等しくなるような順序で格納されているとす
る。一方、文字候補を組み合わせて文字候補列が生成さ
れている。この文字候補列と、顧客名を構成する複数の
文字列との照合方法について述べる。
され、対応する顧客名を構成する複数の文字列及び種別
が抽出されている。この複数の文字列を順番につなげる
と顧客名と等しくなるような順序で格納されているとす
る。一方、文字候補を組み合わせて文字候補列が生成さ
れている。この文字候補列と、顧客名を構成する複数の
文字列との照合方法について述べる。
【0099】ステップ1501で、文字候補列の評価値
Valと、最終一致文字ポインタPos1をクリアにす
る。ステップ1502で、顧客名を構或する複数の文字
列から文字列を一つ抽出する。ステップ1503で、抽
出文字列と文字候補列との照合を行なう。
Valと、最終一致文字ポインタPos1をクリアにす
る。ステップ1502で、顧客名を構或する複数の文字
列から文字列を一つ抽出する。ステップ1503で、抽
出文字列と文字候補列との照合を行なう。
【0100】抽出文字列が存在しない場合には、ステッ
プ1504で表記ゆれがあるかどうかを表記ゆれ指標か
ら判定し、表記ゆれ有り場合には、別名ポインタの指す
文字列と文字候補列との照合を行なう。
プ1504で表記ゆれがあるかどうかを表記ゆれ指標か
ら判定し、表記ゆれ有り場合には、別名ポインタの指す
文字列と文字候補列との照合を行なう。
【0101】抽出文字列が文字候補列に存在する場合に
は、ステップ1506で一致した抽出文字列が文字候補
列の先頭から何文字目にあるかをポインタPos2に設
定する。
は、ステップ1506で一致した抽出文字列が文字候補
列の先頭から何文字目にあるかをポインタPos2に設
定する。
【0102】ステップ1507で抽出文字列に位置ゆれ
が有るかどうかを位置ゆれ指標から判定し、位置ゆれ有
りの場合には、ステップ1508でポインタPos2が
ポインタPos1より大きいかどうかの判定を行ない、
条件を満たしていた場合には、文字候補列の評価値Va
lをインクリメントし、ポインタPos2に抽出文字列
長を加えたものをポインタPos1に設定することで、
ポインタPos1は最終一致文字位置を示すことにな
る。
が有るかどうかを位置ゆれ指標から判定し、位置ゆれ有
りの場合には、ステップ1508でポインタPos2が
ポインタPos1より大きいかどうかの判定を行ない、
条件を満たしていた場合には、文字候補列の評価値Va
lをインクリメントし、ポインタPos2に抽出文字列
長を加えたものをポインタPos1に設定することで、
ポインタPos1は最終一致文字位置を示すことにな
る。
【0103】顧客名を構成する複数の文字列との照合が
終るまで、ステップ1502に戻って処理を繰り返す
(ステップ1510)。最終的に5alにセットされた
数値が、抽出文字列数に対する一致文字列数となり、こ
の値により採用、不採用の判定を行なう。ステップ15
11では、抽出文字列数と5alが等しい時のみ採用と
判定を行なっており、ステップ1512で採用フラグを
設定する。
終るまで、ステップ1502に戻って処理を繰り返す
(ステップ1510)。最終的に5alにセットされた
数値が、抽出文字列数に対する一致文字列数となり、こ
の値により採用、不採用の判定を行なう。ステップ15
11では、抽出文字列数と5alが等しい時のみ採用と
判定を行なっており、ステップ1512で採用フラグを
設定する。
【0104】以上要するに、予め作成しておいた、頻度
の高い姓および名の氏名DB、一般名称として使われる
一般名称DBと顧客DBに登録される個人名や会社名等
の文字列とを照合して、顧客名が個人名であるか、表記
ゆれの大きい会社名であるか等を判断してその種別を照
合用単語辞書に登録しておくことで、照合の際に表記の
ゆれを考慮したより精度の高い単語認識を行うことがで
きる。
の高い姓および名の氏名DB、一般名称として使われる
一般名称DBと顧客DBに登録される個人名や会社名等
の文字列とを照合して、顧客名が個人名であるか、表記
ゆれの大きい会社名であるか等を判断してその種別を照
合用単語辞書に登録しておくことで、照合の際に表記の
ゆれを考慮したより精度の高い単語認識を行うことがで
きる。
【0105】顧客DBの登録単語の文字列を、頻度の高
い姓および名の氏名DB、一般名称として使われる一般
名称DBにある文字列により分割して、照合用単語辞書
に文字列および種別データを登録しておくことで、一般
名称よりも固有名称を重視した照合を行うことが可能と
なり、文字列の特性を生かした精度の高い単語認識を行
うことができる。
い姓および名の氏名DB、一般名称として使われる一般
名称DBにある文字列により分割して、照合用単語辞書
に文字列および種別データを登録しておくことで、一般
名称よりも固有名称を重視した照合を行うことが可能と
なり、文字列の特性を生かした精度の高い単語認識を行
うことができる。
【0106】「株式会社」等のように記載位置が変化す
る可能性があるものについては位置ゆれ指標を、さらに
簡略化や変形の可能性があるものについては表記ゆれ指
標を、それぞれ文字列ごとに対応して登録しておくこと
で、簡略形で書かれる文字列や、新字、旧字、俗字等で
書かれる文字列については照合の閾値を低くして認識結
果として採用することが可能となり、認識率を向上させ
ることができる別の登録単語が名前の場合には、名前部
分の文字認識結果が誤っていた場合、同じ姓の別の単語
に誤認識する可能性があるが、登録単語の文字列を姓、
名に分けて単語辞書に登録しておき、さらに同じ姓また
は名を持つ登録単語を予め調べて、その頻度を登録して
おくことで、出現頻度の高い固有名称では、評価時の判
定基準を厳しくすることで、誤認識を減らすことができ
る。
る可能性があるものについては位置ゆれ指標を、さらに
簡略化や変形の可能性があるものについては表記ゆれ指
標を、それぞれ文字列ごとに対応して登録しておくこと
で、簡略形で書かれる文字列や、新字、旧字、俗字等で
書かれる文字列については照合の閾値を低くして認識結
果として採用することが可能となり、認識率を向上させ
ることができる別の登録単語が名前の場合には、名前部
分の文字認識結果が誤っていた場合、同じ姓の別の単語
に誤認識する可能性があるが、登録単語の文字列を姓、
名に分けて単語辞書に登録しておき、さらに同じ姓また
は名を持つ登録単語を予め調べて、その頻度を登録して
おくことで、出現頻度の高い固有名称では、評価時の判
定基準を厳しくすることで、誤認識を減らすことができ
る。
【0107】なお、この発明は上記各実施例に限定され
るものではなく、要旨を変えない範囲で種々変形実施可
能である。
るものではなく、要旨を変えない範囲で種々変形実施可
能である。
【0108】
【発明の効果】以上述べたようにこの発明によれば、団
体または個人の名称を表わす「名称」文字列を記憶した
第1記憶手段と、個人の姓名の姓を表わす「姓」文字列
および名を表わす「名」文字列を、その種別を表わす種
別データと共に記憶した第2記憶手段と、一般名称を表
わす「一般名称」文字列をその種別を表わす種別データ
と共に記憶した第3記憶手段と、単語検索の照合に用い
る照合用単語辞書を記憶するための第4記憶手段と、上
記第1記憶手段内の「名称」文字列の構成要素が上記第
2記憶手段内の文字列または上記第3記憶手段内の文字
列と一致するかどうか判定し、一致条件の成立した「名
称」文字列を一致先の文字列に対応する種別データと共
に照合用単語辞書として上記第4記憶手段に記憶せしめ
る辞書生成手段とを備えたので、精度の高い適正な単語
認識が可能な照合用単語辞書を作成する単語辞書作成装
置を提供できる。
体または個人の名称を表わす「名称」文字列を記憶した
第1記憶手段と、個人の姓名の姓を表わす「姓」文字列
および名を表わす「名」文字列を、その種別を表わす種
別データと共に記憶した第2記憶手段と、一般名称を表
わす「一般名称」文字列をその種別を表わす種別データ
と共に記憶した第3記憶手段と、単語検索の照合に用い
る照合用単語辞書を記憶するための第4記憶手段と、上
記第1記憶手段内の「名称」文字列の構成要素が上記第
2記憶手段内の文字列または上記第3記憶手段内の文字
列と一致するかどうか判定し、一致条件の成立した「名
称」文字列を一致先の文字列に対応する種別データと共
に照合用単語辞書として上記第4記憶手段に記憶せしめ
る辞書生成手段とを備えたので、精度の高い適正な単語
認識が可能な照合用単語辞書を作成する単語辞書作成装
置を提供できる。
【0109】また、この発明によれば、上記単語辞書作
成装置で作成した照合用単語辞書を搭載する構成とした
ので、精度の高い適正な単語認識を行うことができる単
語認識装置を提供できる。
成装置で作成した照合用単語辞書を搭載する構成とした
ので、精度の高い適正な単語認識を行うことができる単
語認識装置を提供できる。
【図1】第1、第2、第3実施例の構成を示すブロック
図。
図。
【図2】各実施例における顧客データベースの記憶フォ
ーマットを示す図。
ーマットを示す図。
【図3】各実施例における氏名データベースの記憶フォ
ーマットを示す図。
ーマットを示す図。
【図4】各実施例における一般名称データベースの記憶
フォーマットを示す図。
フォーマットを示す図。
【図5】各実施例における照合用単語辞書の記憶フォー
マットを示す図。
マットを示す図。
【図6】各実施例における単語辞書生成部の処理を説明
するためのフローチャート。
するためのフローチャート。
【図7】第2実施例における照合用単語辞書の記憶フォ
ーマットを示す図。
ーマットを示す図。
【図8】第2実施例における単語辞書生成部の処理を説
明するためのフローチャート。
明するためのフローチャート。
【図9】第3実施例における照合用単語辞書の記憶フォ
ーマットを示す図。
ーマットを示す図。
【図10】第3実施例における単語辞書生成部の処理を
説明するためのフローチャート。
説明するためのフローチャート。
【図11】第4実施例の構成を示すブロック図。
【図12】第4実施例における文字候補バッファ、単語
候補バッファ、検索用辞書、照合用単語辞書の処理の関
わりを示す図。
候補バッファ、検索用辞書、照合用単語辞書の処理の関
わりを示す図。
【図13】第4実施例における単語認識部の処理を説明
するためのフローチャート。
するためのフローチャート。
【図14】第4実施例における単語候補出力部の処理を
説明するためのフローチャート。
説明するためのフローチャート。
【図15】図14における部分的な処理を説明するため
のフローチャート。
のフローチャート。
111…顧客データベース(第1記憶手段) 112…氏名データベース(第2記憶手段) 113…一般名称データベース(第3記憶手段) 114…照合用単語辞書(第4記憶手段) 101…単語辞書生成部
Claims (13)
- 【請求項1】 団体または個人の名称を表わす「名称」
文字列を記憶した第1記憶手段と、 個人の姓名の姓を表わす「姓」文字列および名を表わす
「名」文字列を、その種別を表わす種別データと共に記
憶した第2記憶手段と、 一般名称を表わす「一般名称」文字列をその種別を表わ
す種別データと共に記憶した第3記憶手段と、 単語検索の照合に用いる照合用単語辞書を記憶するため
の第4記憶手段と、 前記第1記憶手段内の「名称」文字列の構成要素が前記
第2記憶手段内の文字列または前記第3記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列を一致先の文字列に対応する種別データ
と共に照合用単語辞書として前記第4記憶手段に記憶せ
しめる辞書生成手段と、 を具備したことを特徴とする単語辞書作成装置。 - 【請求項2】 団体または個人の名称を表わす「名称」
文字列をその団体または個人の住所を表わす「住所」文
字列と共に記憶した第1記憶手段と、 個人の姓名の姓を表わす「姓」文字列および名を表わす
「名」文字列を、その種別を表わす種別データと共に記
憶した第2記憶手段と、 一般名称を表わす「一般名称」文字列がその種別を表わ
す種別データと共に記憶した第3記憶手段と、 単語検索の照合に用いる照合用単語辞書を記憶するため
の第4記憶手段と、 前記第1記憶手段内の「名称」文字列の構成要素が前記
第2記憶手段内の文字列または前記第3記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列およびそれに対応する「住所」文字列を
一致先の文字列に対応する種別データと共に照合用単語
辞書として前記第4記憶手段に記憶せしめる辞書生成手
段と、 を具備したことを特徴とする単語辞書作成装置。 - 【請求項3】 団体または個人の名称を表わす「名称」
文字列を記憶した第1記憶手段と、 個人の姓名の姓を表わす「姓」文字列および名を表わす
「名」文字列を、その種別を表わす種別データおよび表
記ずれの可能性の有無を表わす指標と共に記憶した第2
記憶手段と、 一般名称を表わす「一般名称」文字列を、その種別を表
わす種別データ、記載位置ずれの可能性の有無を表わす
指標、および表記ずれの可能性の有無を表わす指標と共
に記憶した第3記憶手段と、 単語検索の照合に用いる照合用単語辞書を記憶するため
の第4記憶手段と、 前記第1記憶手段内の「名称」文字列の構成要素が前記
第2記憶手段内の文字列または前記第3記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列を一致先の文字列に対応する種別データ
および指標と共に照合用単語辞書として前記第4記憶手
段に記憶せしめる辞書生成手段と、 を具備したことを特徴とする単語辞書作成装置。 - 【請求項4】 団体または個人の名称を表わす「名称」
文字列を、その団体または個人の住所を表わす「住所」
文字列と共に記憶した第1記憶手段と、 個人の姓名の姓を表わす「姓」文字列および名を表わす
「名」文字列を、その種別を表わす種別データおよび表
記ずれの可能性の有無を表わす指標と共に記憶した第2
記憶手段と、 一般名称を表わす「一般名称」文字列を、その種別を表
わす種別データ、記載位置ずれの可能性の有無を表わす
指標、および表記ずれの可能性の有無を表わす指標と共
に記憶した第3記憶手段と、 単語検索の照合に用いる照合用単語辞書を記憶するため
の第4記憶手段と、 前記第1記憶手段内の「名称」文字列の構成要素が前記
第2記憶手段内の文字列または前記第3記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列およびそれに対応する「住所」文字列を
一致先の文字列に対応する種別データおよび指標と共に
照合用単語辞書として前記第4記憶手段に記憶せしめる
辞書生成手段と、 を具備したことを特徴とする単語辞書作成装置。 - 【請求項5】 団体または個人の名称を表わす「名称」
文字列を記憶した第1記憶手段と、 個人の姓名の姓を表わす「姓」文字列および名を表わす
「名」文字列を、その種別を表わす種別データと共に記
憶した第2記憶手段と、 一般名称を表わす「一般名称」文字列をその種別を表わ
す種別データと共に記憶した第3記憶手段と、 単語検索の照合に用いる照合用単語辞書を記憶するため
の第4記憶手段と、 前記第1記憶手段内の「名称」文字列の構成要素が前記
第2記憶手段内の文字列または前記第3記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列から一致先の文字列を除いて残る文字列
についてその種別を固有名称と判定し、一致条件の成立
した「名称」文字列を一致先の文字列に対応する種別デ
ータおよび前記固有名称であることを表わす種別データ
と共に、かつ一致条件の成立した「名称」文字列から一
致先の文字列を除いて残る文字列を前記固有名称である
ことを表わす種別データと共に、照合用単語辞書として
前記第4記憶手段に記憶せしめる辞書生成手段と、 を具備したことを特徴とする単語辞書作成装置。 - 【請求項6】 団体または個人の名称を表わす「名称」
文字列を、その団体または個人の住所を表わす「住所」
文字列と共に記憶した第1記憶手段と、 個人の姓名の姓を表わす「姓」文字列および名を表わす
「名」文字列を、その種別を表わす種別データと共に記
憶した第2記憶手段と、 一般名称を表わす「一般名称」文字列をその種別を表わ
す種別データと共に記憶した第3記憶手段と、 単語検索の照合に用いる照合用単語辞書を記憶するため
の第4記憶手段と、 前記第1記憶手段内の「名称」文字列の構成要素が前記
第2記憶手段内の文字列または前記第3記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列から一致先の文字列を除いて残る文字列
についてその種別を固有名称と判定し、一致条件の成立
した「名称」文字列およびそれに対応する「住所」文字
列を一致先の文字列に対応する種別データと共に、かつ
一致条件の成立した「名称」文字列から一致先の文字列
を除いて残る文字列を前記固有名称であることを表わす
種別データと共に、照合用単語辞書として前記第4記憶
手段に記憶せしめる辞書生成手段と、 を具備したことを特徴とする単語辞書作成装置。 - 【請求項7】 団体または個人の名称を表わす「名称」
文字列を記憶した第1記憶手段と、 個人の姓名の姓を表わす「姓」文字列および名を表わす
「名」文字列を、その種別を表わす種別データおよび表
記ずれの可能性の有無を表わす指標と共に記憶した第2
記憶手段と、 一般名称を表わす「一般名称」文字列を、その種別を表
わす種別データ、記載位置ずれの可能性の有無を表わす
指標、および表記ずれの可能性の有無を表わす指標と共
に記憶した第3記憶手段と、 単語検索の照合に用いる照合用単語辞書を記憶するため
の第4記憶手段と、 前記第1記憶手段内の「名称」文字列の構成要素が前記
第2記憶手段内の文字列または前記第3記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列から一致先の文字列を除いて残る文字列
についてその種別を固有名称と判定し、一致条件の成立
した「名称」文字列を一致先の文字列に対応する種別デ
ータおよび指標と共に、かつ一致条件の成立した「名
称」文字列から一致先の文字列を除いて残る文字列を前
記固有名称であることを表わす種別データと共に、照合
用単語辞書として前記第4記憶手段に記憶せしめる辞書
生成手段と、 を具備したことを特徴とする単語辞書作成装置。 - 【請求項8】 団体または個人の名称を表わす「名称」
文字列を、その団体または個人の住所を表わす「住所」
文字列と共に記憶した第1記憶手段と、 個人の姓名の姓を表わす「姓」文字列および名を表わす
「名」文字列を、その種別を表わす種別データおよび表
記ずれの可能性の有無を表わす指標と共に記憶した第2
記憶手段と、 一般名称を表わす「一般名称」文字列を、その種別を表
わす種別データ、記載位置ずれの可能性の有無を表わす
指標、および表記ずれの可能性の有無を表わす指標と共
に記憶した第3記憶手段と、 単語検索の照合に用いる照合用単語辞書を記憶するため
の第4記憶手段と、 前記第1記憶手段内の「名称」文字列の構成要素が前記
第2記憶手段内の文字列または前記第3記憶手段内の文
字列と一致するかどうか判定し、一致条件の成立した
「名称」文字列から一致先の文字列を除いて残る文字列
についてその種別を固有名称と判定し、一致条件の成立
した「名称」文字列およびそれに対応する「住所」文字
列を一致先の文字列に対応する種別データおよび指標と
共に、かつ一致条件の成立した「名称」文字列から一致
先の文字列を除いて残る文字列を前記固有名称であるこ
とを表わす種別データと共に、照合用単語辞書として前
記第4記憶手段に記憶せしめる辞書生成手段と、 を具備したことを特徴とする単語辞書作成装置。 - 【請求項9】 請求項1ないし請求項8のいずれかに記
載の単語辞書作成装置において、 前記第3記憶手段が記憶している、種別データは、「一
般名称」文字列の種別が会社名や建物名のいずれかであ
るかを表わすことを特徴とする単語辞書作成装置。 - 【請求項10】 請求項1ないし請求項8のいずれかに
記載の単語辞書作成装置において、 前記第2記憶手段および第3記憶手段が記憶している、
文字列の表記ずれの可能性の有無を表わす指標は、文字
列が略字、旧字、俗字で形成される可能性の有無を表わ
す、 前記第3記憶手段が記憶している、文字列の記載位置ず
れの可能性の有無を表わす指標は、文字列が他の文字列
の前位置に付いたり後位置に付いたりして変化する可能
性の有無を表わす、 ことを特徴とする単語辞書作成装置。 - 【請求項11】 請求項1ないし請求項8のいずれかに
記載の単語辞書作成装置において、 前記辞書生成手段は、一致条件の成立する「名称」文字
列が第1記憶手段内に出現する頻度を表わす頻度データ
を照合用単語辞書に加えることを特徴とする単語辞書作
成装置。 - 【請求項12】 被読取媒体上の画像を光学的に読取る
読取手段と、 この読取手段の読取画像から文字を検出する検出手段
と、 この検出手段で検出される文字を認識する認識手段と、 単語の文字列を、その種別を表わす種別データ、その表
記ずれの可能性の有無を表わす指標、その記載位置ずれ
の可能性の有無を表わす指標、その発生の頻度を表わす
頻度データと共に照合用単語辞書として記憶した記憶手
段と、 前記認識手段で認識した文字に類似する文字列およびそ
の文字列に対応する種別データ、指標、頻度データを前
記記憶手段から読出す読出手段と、 この読出手段で読出した各文字列のいずれかを同読出手
段で読出される種別データ、指標、頻度データに応じて
選定し、それを単語候補として確定する確定手段と、 を具備したことを特徴とする単語認識装置。 - 【請求項13】 被読取媒体上の画像を光学的に読取る
読取手段と、 この読取手段の読取画像から文字を検出する検出手段
と、 この検出手段で検出される文字を認識する認識手段と、 単語の文字列を、その種別を表わす種別データ、その表
記ずれの可能性の有無を表わす指標、その記載位置ずれ
の可能性の有無を表わす指標、その発生の頻度を表わす
頻度データと共に照合用単語辞書として記憶した第1記
憶手段と、 この第1記憶手段内の各文字列の記憶位置を記憶した第
2記憶手段と、 前記認識手段で認識した文字が含まれる文字列が第1記
憶手段のどの位置に記憶されているかを前記第2記憶手
段の内容から判定する判定手段と、 この判定手段の判定結果に応じて前記第1記憶手段から
文字列およびその文字列に対応する種別データ、指標、
頻度データを読出す読出手段と、 この読出手段で読出した各文字列のいずれかを同読出手
段で読出される種別データ、指標、頻度データに応じて
選定し、それを単語候補として確定する確定手段と、 を具備したことを特徴とする単語認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11047990A JP2000251017A (ja) | 1999-02-25 | 1999-02-25 | 単語辞書作成装置および単語認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11047990A JP2000251017A (ja) | 1999-02-25 | 1999-02-25 | 単語辞書作成装置および単語認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2000251017A true JP2000251017A (ja) | 2000-09-14 |
Family
ID=12790770
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP11047990A Pending JP2000251017A (ja) | 1999-02-25 | 1999-02-25 | 単語辞書作成装置および単語認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2000251017A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007102264A (ja) * | 2005-09-30 | 2007-04-19 | Toshiba Corp | 文字認識装置および文字認識方法 |
| JP2009103921A (ja) * | 2007-10-23 | 2009-05-14 | Fujitsu Ltd | 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置 |
| JP2014099114A (ja) * | 2012-11-15 | 2014-05-29 | Fujitsu Ltd | 判定プログラム、判定方法及び判定装置 |
| JP2022077150A (ja) * | 2020-11-11 | 2022-05-23 | 株式会社Nttドコモ | 文字列比較システム |
-
1999
- 1999-02-25 JP JP11047990A patent/JP2000251017A/ja active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007102264A (ja) * | 2005-09-30 | 2007-04-19 | Toshiba Corp | 文字認識装置および文字認識方法 |
| JP2009103921A (ja) * | 2007-10-23 | 2009-05-14 | Fujitsu Ltd | 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置 |
| JP2014099114A (ja) * | 2012-11-15 | 2014-05-29 | Fujitsu Ltd | 判定プログラム、判定方法及び判定装置 |
| JP2022077150A (ja) * | 2020-11-11 | 2022-05-23 | 株式会社Nttドコモ | 文字列比較システム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2734386B2 (ja) | 文字列読み取り装置 | |
| US7769778B2 (en) | Systems and methods for validating an address | |
| JP3106994B2 (ja) | 住所読み取り装置 | |
| JP3812818B2 (ja) | データベース生成装置、データベース生成方法及びデータベース生成処理プログラム | |
| JP2000251017A (ja) | 単語辞書作成装置および単語認識装置 | |
| JP4054453B2 (ja) | 文字認識装置およびプログラム記録媒体 | |
| JP4584507B2 (ja) | 住所認識装置、記録媒体及びプログラム | |
| JP3727422B2 (ja) | 文字認識装置及びその方法 | |
| JPS6262388B2 (ja) | ||
| JPH0441388B2 (ja) | ||
| JP4263928B2 (ja) | 文字認識装置、文字認識方法、文字認識プログラム、及び記録媒体 | |
| JP2000090192A (ja) | 住所および郵便番号の文字列修正方法 | |
| JP2655087B2 (ja) | 文字認識後処理方式 | |
| JP2003108576A (ja) | データベース管理装置およびデータベース管理方法 | |
| JP3924899B2 (ja) | テキスト検索装置およびテキスト検索方法 | |
| JP2560959B2 (ja) | 文字認識後処理方式 | |
| JP2000011096A (ja) | 文字認識処理装置及び方法並びに記憶媒体 | |
| JP3788262B2 (ja) | 住所認識システム、及びその住所識別方法 | |
| JP2790064B2 (ja) | 記号列読み取り装置 | |
| JP2000276467A (ja) | 変換装置 | |
| JPH1115920A (ja) | 文字認識結果修正方法及び装置、記録媒体 | |
| JP2000288478A (ja) | 宛先特定装置 | |
| JPH09120436A (ja) | 単語照合方法 | |
| JPH0652367A (ja) | 文字認識結果の後処理方法 | |
| JPH0652366A (ja) | 文字認識結果の後処理方法 |