JPH04340686A - 文字認識後処理用氏名辞書 - Google Patents
文字認識後処理用氏名辞書Info
- Publication number
- JPH04340686A JPH04340686A JP3113235A JP11323591A JPH04340686A JP H04340686 A JPH04340686 A JP H04340686A JP 3113235 A JP3113235 A JP 3113235A JP 11323591 A JP11323591 A JP 11323591A JP H04340686 A JPH04340686 A JP H04340686A
- Authority
- JP
- Japan
- Prior art keywords
- kanji
- characters
- name
- reading
- surname
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012805 post-processing Methods 0.000 title claims description 12
- 235000016496 Panda oleosa Nutrition 0.000 description 5
- 240000000220 Panda oleosa Species 0.000 description 5
- 238000000034 method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 244000205754 Colocasia esculenta Species 0.000 description 2
- 235000006481 Colocasia esculenta Nutrition 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】本発明は、文字認識装置の後処理
に使用する文字認識後処理用氏名辞書に関する。
に使用する文字認識後処理用氏名辞書に関する。
【0002】
【従来の技術】従来から、帳票上の氏名を読み取って認
識する文字認識装置においては、認識された複数の候補
氏名をもとに、氏名辞書を索引して、最も好ましいと考
えられる氏名を最終結果として出力するようにしている
。
識する文字認識装置においては、認識された複数の候補
氏名をもとに、氏名辞書を索引して、最も好ましいと考
えられる氏名を最終結果として出力するようにしている
。
【0003】このような後処理に使用する氏名辞書は、
従来、姓に関する情報が格納される姓格納部と、名に関
する情報が格納される名格納部とをもつようにされる。
従来、姓に関する情報が格納される姓格納部と、名に関
する情報が格納される名格納部とをもつようにされる。
【0004】
【発明が解決しようとする課題】従来の場合には、姓な
らば姓に関しての文字数ごと、また名なら名に関しての
文字数ごとに区分して配列されて格納されるという状態
になかった。このために、読みなら読みが完全にマッチ
ングされる氏名が最終結果として得られることになるも
のであった。したがって、例えば読みに関して先頭文字
と文字長だけが合致する幾つかの氏名を抽出したりする
ことが困難であった。即ち、例えば読みに関して、1部
の文字のみが誤認識されている如き場合に、可能性のあ
る氏名を索引してみるというような処理ができなかった
。
らば姓に関しての文字数ごと、また名なら名に関しての
文字数ごとに区分して配列されて格納されるという状態
になかった。このために、読みなら読みが完全にマッチ
ングされる氏名が最終結果として得られることになるも
のであった。したがって、例えば読みに関して先頭文字
と文字長だけが合致する幾つかの氏名を抽出したりする
ことが困難であった。即ち、例えば読みに関して、1部
の文字のみが誤認識されている如き場合に、可能性のあ
る氏名を索引してみるというような処理ができなかった
。
【0005】本発明は、先頭文字と文字長とが合致する
幾つかの氏名を候補として索引してみるという如き処理
を可能にすることを目的としている。
幾つかの氏名を候補として索引してみるという如き処理
を可能にすることを目的としている。
【0006】
【課題を解決するための手段】図1は本発明の原理構成
図を示す。図中の符号1は氏名辞書、2は姓読み部、3
は名読み部、4は姓単語部、5は名単語部、6は一般読
み部、7は一般単語部を表している。
図を示す。図中の符号1は氏名辞書、2は姓読み部、3
は名読み部、4は姓単語部、5は名単語部、6は一般読
み部、7は一般単語部を表している。
【0007】姓読み部2内には、例えば「ナカムラ−中
村」のように、読み「ナカムラ」に対して姓を構成する
漢字「中村」が対応づけられて格納されている。そして
、読みを構成する仮名文字の文字数が「2」である場合
、「3」である場合、「4」である場合、「5」である
場合、「2ないし5」文字以外の場合とに区分されてお
り、更に例えば「2」である場合で言えば当該「2」で
ある場合内でアイウエオ順に配列されて格納されている
。
村」のように、読み「ナカムラ」に対して姓を構成する
漢字「中村」が対応づけられて格納されている。そして
、読みを構成する仮名文字の文字数が「2」である場合
、「3」である場合、「4」である場合、「5」である
場合、「2ないし5」文字以外の場合とに区分されてお
り、更に例えば「2」である場合で言えば当該「2」で
ある場合内でアイウエオ順に配列されて格納されている
。
【0008】名読み部3内には、例えば「タロウ−太郎
」のように、読み「タロウ」に対して名を構成する漢字
「太郎」が対応づけられて格納されている。そして、読
みを構成する仮名文字の文字数が「2」である場合、「
3」である場合、「4」である場合、「5」である場合
、「2なしい5」文字以外の場合とに区分されており、
更にアイウエオ順に格納されている。
」のように、読み「タロウ」に対して名を構成する漢字
「太郎」が対応づけられて格納されている。そして、読
みを構成する仮名文字の文字数が「2」である場合、「
3」である場合、「4」である場合、「5」である場合
、「2なしい5」文字以外の場合とに区分されており、
更にアイウエオ順に格納されている。
【0009】姓単語部4内には、例えば「中村−ナカム
ラ」のように、漢字「中村」に対して読みを構成する「
ナカムラ」が対応づけられて格納されている。そして、
漢字を構成する文字が「1」である場合、「2」である
場合、「3」である場合、「1ないし3」文字以外の場
合とに区分されており、更に例えば「1」である場合で
言えば当該「1」である場合内で字画数順に配列されて
格納されている。
ラ」のように、漢字「中村」に対して読みを構成する「
ナカムラ」が対応づけられて格納されている。そして、
漢字を構成する文字が「1」である場合、「2」である
場合、「3」である場合、「1ないし3」文字以外の場
合とに区分されており、更に例えば「1」である場合で
言えば当該「1」である場合内で字画数順に配列されて
格納されている。
【0010】名単語部5内には、例えば「太郎−タロウ
」のように、漢字「太郎」に対して読みを構成する「タ
ロウ」が対応づけられて格納されている。この場合も、
姓単語部4の場合と同様な配列の下に格納されている。 一般読み部6内には、例えば会社名などが「読み−漢字
」の形で格納されている。また一般単語部7内には、例
えば会社名などが「漢字−読み」の形で格納されている
。そして、文字数に対応して区画されていることは、上
記姓読み部2や上記姓単語部4などと同じと考えてよい
。
」のように、漢字「太郎」に対して読みを構成する「タ
ロウ」が対応づけられて格納されている。この場合も、
姓単語部4の場合と同様な配列の下に格納されている。 一般読み部6内には、例えば会社名などが「読み−漢字
」の形で格納されている。また一般単語部7内には、例
えば会社名などが「漢字−読み」の形で格納されている
。そして、文字数に対応して区画されていることは、上
記姓読み部2や上記姓単語部4などと同じと考えてよい
。
【0011】
【作用】文字認識装置において姓の読みとして例えば「
ナカムフ」という読みを1つの候補として認識したとす
る。この場合、姓読み部2内において、「4文字で構成
される読み」の部分が調べられ、「ナカムフ」という読
みをもつものは存在しないが「ナカムラ」が存在するこ
となどが判明される。また、読みとして「ナカムラ」が
見出され、当該「ナカムラ」に対応する漢字が「中村」
か「仲村」かなどを調べることもできる。また更に、漢
字の姓の文字をもとに読みを調べることも容易となる。
ナカムフ」という読みを1つの候補として認識したとす
る。この場合、姓読み部2内において、「4文字で構成
される読み」の部分が調べられ、「ナカムフ」という読
みをもつものは存在しないが「ナカムラ」が存在するこ
となどが判明される。また、読みとして「ナカムラ」が
見出され、当該「ナカムラ」に対応する漢字が「中村」
か「仲村」かなどを調べることもできる。また更に、漢
字の姓の文字をもとに読みを調べることも容易となる。
【0012】また、一般読み部や一般単語部をもうけて
いることによって、会社名などの読み取りに利用できる
。
いることによって、会社名などの読み取りに利用できる
。
【0013】
【実施例】図2と図3とは本発明による辞書利用の後処
理態様を表すフローチャートを示す。図2は主として「
読み」からの処理に対応し、図3は主として「漢字」か
らの処理に対応している。
理態様を表すフローチャートを示す。図2は主として「
読み」からの処理に対応し、図3は主として「漢字」か
らの処理に対応している。
【0014】(S1):ステップS1において、文字認
識装置が認識したデータ(カナ+漢字)を受け取る。 (S2):読みの先頭1文字と読みの文字数との組合わ
せ条件をもとに、辞書1をアクセスし、それに合致する
データを抽出する。
識装置が認識したデータ(カナ+漢字)を受け取る。 (S2):読みの先頭1文字と読みの文字数との組合わ
せ条件をもとに、辞書1をアクセスし、それに合致する
データを抽出する。
【0015】(S3):抽出されたデータと入力データ
とを照合して、類似度などの得点を計算する。 (S4):上記ステップS2と同じ条件を満足する辞書
データがなおも存在するか否かを調べ、存在すれば、ス
テップS2に戻る。
とを照合して、類似度などの得点を計算する。 (S4):上記ステップS2と同じ条件を満足する辞書
データがなおも存在するか否かを調べ、存在すれば、ス
テップS2に戻る。
【0016】(S5):抽出されたデータについての得
点が閾値よりも大であるか否かがチェックされる。 以上のようにして、「読み」からみた場合に、候補とな
り得るデータが幾つか決定される。
点が閾値よりも大であるか否かがチェックされる。 以上のようにして、「読み」からみた場合に、候補とな
り得るデータが幾つか決定される。
【0017】(S6):当該候補となったデータに対応
する漢字を、辞書1をアクセスして、抽出する。 (S7):入力データの漢字と辞書からの漢字とを照合
して、得点を計算する。
する漢字を、辞書1をアクセスして、抽出する。 (S7):入力データの漢字と辞書からの漢字とを照合
して、得点を計算する。
【0018】(S8):同音異義語がなおも存在するか
否かチェックされる。 (S9):得られている得点が閾値以上であるか否かが
チェックされる。 (S10):閾値以上であれば、出力データとして出力
される。 (S11):ステップS5やステップS9においてNO
となった場合には「漢字」からの処理に進む。
否かチェックされる。 (S9):得られている得点が閾値以上であるか否かが
チェックされる。 (S10):閾値以上であれば、出力データとして出力
される。 (S11):ステップS5やステップS9においてNO
となった場合には「漢字」からの処理に進む。
【0019】「漢字」からの処理においては、図3に示
すステップS12に入る。 (S12):入力データを組合わせた漢字に一致する漢
字とその読みとを辞書1から抽出する。例えば入力デー
タにおける漢字について、例えば「小本」、「山木」、
「川来」が夫々候補として挙がっている場合には、「小
本」、「小木」、「小来」、「山本」、「山木」、「山
来」、「川本」、「川木」、「川来」の夫々に一致する
漢字とその読みとを辞書1から抽出する。
すステップS12に入る。 (S12):入力データを組合わせた漢字に一致する漢
字とその読みとを辞書1から抽出する。例えば入力デー
タにおける漢字について、例えば「小本」、「山木」、
「川来」が夫々候補として挙がっている場合には、「小
本」、「小木」、「小来」、「山本」、「山木」、「山
来」、「川本」、「川木」、「川来」の夫々に一致する
漢字とその読みとを辞書1から抽出する。
【0020】(S13):入力データの(カナ+漢字)
と辞書データの(カナ+漢字)とを照合して得点を計算
する。例えばステップS12において示した入力データ
の漢字「小本」、「山木」、「川来」に対応する「読み
」の入力データが「カマモト」、「ヤヌホノ」、「アメ
タイ」を候補として挙がっている場合には、「カマモト
」、「カヌモト」、「カメモト」、「ヤマモト」、「ヤ
ヌモト」、「ヤメモト」、「アマモト」、「アヌモト」
、「アメモト」、「カマホト」、「カマタト」・・・・
・などが組合わせとして得られ、それらと上記漢字例の
候補と組合わせて夫々の得点が計算される。
と辞書データの(カナ+漢字)とを照合して得点を計算
する。例えばステップS12において示した入力データ
の漢字「小本」、「山木」、「川来」に対応する「読み
」の入力データが「カマモト」、「ヤヌホノ」、「アメ
タイ」を候補として挙がっている場合には、「カマモト
」、「カヌモト」、「カメモト」、「ヤマモト」、「ヤ
ヌモト」、「ヤメモト」、「アマモト」、「アヌモト」
、「アメモト」、「カマホト」、「カマタト」・・・・
・などが組合わせとして得られ、それらと上記漢字例の
候補と組合わせて夫々の得点が計算される。
【0021】(S14):辞書データ1になお調べるべ
きデータが存在するか否かがチェックされる。 (S15):調べるべき他の組合わせが存在するかがチ
ェックされる。 (S16):得点が閾値以上か否かがチェックされる。
きデータが存在するか否かがチェックされる。 (S15):調べるべき他の組合わせが存在するかがチ
ェックされる。 (S16):得点が閾値以上か否かがチェックされる。
【0022】(S17):YESであれば出力データと
して出力される。 (S18):NOであれば出力失敗となる。 以上の如く処理が行われるが、入力データが例えば、読
みに関して、 カマモト ヤヌホノ アメタイ が候補として得られており、漢字に関して、小本 山木 川来 が候補として得られている場合には、本発明の辞書を利
用した後処理によって、 ヤマモト−山本 を得ることができた。
して出力される。 (S18):NOであれば出力失敗となる。 以上の如く処理が行われるが、入力データが例えば、読
みに関して、 カマモト ヤヌホノ アメタイ が候補として得られており、漢字に関して、小本 山木 川来 が候補として得られている場合には、本発明の辞書を利
用した後処理によって、 ヤマモト−山本 を得ることができた。
【0023】
【発明の効果】以上説明した如く、本発明によれば、文
字認識装置における認識過程において得られている候補
文字(読みと漢字)から、後処理によって、適正な「読
みと漢字」とを得ることが容易になる。
字認識装置における認識過程において得られている候補
文字(読みと漢字)から、後処理によって、適正な「読
みと漢字」とを得ることが容易になる。
【図1】本発明の原理構成図を示す。
【図2】辞書利用の後処理態様を表すフローチャートで
ある。
ある。
【図3】辞書利用の後処理態様を表すフローチャートで
ある。
ある。
1 氏名辞書
2 姓読み部
3 名読み部
4 姓単語部
5 名単語部
6 一般読み部
7 一般単語部
Claims (2)
- 【請求項1】 帳票に記述されている少なくとも氏名
に対応する文字を読み取って認識する文字認識装置に使
用される文字認識後処理用氏名辞書において、姓に関し
て、読みに対して漢字を対応づけると共に、当該読みを
構成する文字数ごとに、同一文字数をもつ読みを予め定
めた順に配列して格納した姓読み部(2)と、名に関し
て、読みに対して漢字を対応づけると共に、当該読みを
構成する文字数ごとに、同一文字数をもつ読みを予め定
めた順に配列して格納した名読み部(3)と、姓に関し
て、漢字に対して読みを対応づけると共に、当該漢字を
構成する文字数ごとに、同一文字数をもつ漢字を予め定
めた順に配列して格納した姓単語部(4)と、名に関し
て、漢字に対して読みを対応づけると共に、当該漢字を
構成する文字数ごとに、同一文字数をもつ漢字を予め定
めた順に配列して格納した名単語部(5)と、を少なく
ともそなえ、上記文字認識装置において抽出された氏名
に対応する候補氏名群に関して、当該候補氏名群の1つ
1つについての読みおよび/または漢字を基準として、
対応する漢字および/または読みを抽出可能にしたこと
を特徴とする文字認識後処理用氏名辞書。 - 【請求項2】 上記姓読み部(2)と、上記名読み部
(3)と、上記姓単語部(4)と、上記名単語部(5)
とをそなえると共に、姓および/または名以外の一般単
語についての一般読み部(6)と、一般単語部(7)と
を有することを特徴とする請求項1記載の文字認識後処
理用氏名辞書。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3113235A JPH04340686A (ja) | 1991-05-17 | 1991-05-17 | 文字認識後処理用氏名辞書 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3113235A JPH04340686A (ja) | 1991-05-17 | 1991-05-17 | 文字認識後処理用氏名辞書 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH04340686A true JPH04340686A (ja) | 1992-11-27 |
Family
ID=14606995
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3113235A Pending JPH04340686A (ja) | 1991-05-17 | 1991-05-17 | 文字認識後処理用氏名辞書 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH04340686A (ja) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS63138479A (ja) * | 1986-11-29 | 1988-06-10 | Toshiba Corp | 文字認識装置 |
| JPS63268082A (ja) * | 1987-04-27 | 1988-11-04 | Toshiba Corp | パタ−ン認識装置 |
| JPS63268083A (ja) * | 1987-04-27 | 1988-11-04 | Fujitsu Ltd | 単語認識装置 |
| JPH01316889A (ja) * | 1988-06-17 | 1989-12-21 | Fujitsu Ltd | 手書き文字認識方式 |
-
1991
- 1991-05-17 JP JP3113235A patent/JPH04340686A/ja active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS63138479A (ja) * | 1986-11-29 | 1988-06-10 | Toshiba Corp | 文字認識装置 |
| JPS63268082A (ja) * | 1987-04-27 | 1988-11-04 | Toshiba Corp | パタ−ン認識装置 |
| JPS63268083A (ja) * | 1987-04-27 | 1988-11-04 | Fujitsu Ltd | 単語認識装置 |
| JPH01316889A (ja) * | 1988-06-17 | 1989-12-21 | Fujitsu Ltd | 手書き文字認識方式 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH04340686A (ja) | 文字認識後処理用氏名辞書 | |
| JPH03260869A (ja) | データ検索装置及びデータ検索方法 | |
| JPH0441388B2 (ja) | ||
| JPS59229683A (ja) | 認識処理装置 | |
| JPS63138479A (ja) | 文字認識装置 | |
| JPH0438026B2 (ja) | ||
| JP3187671B2 (ja) | 電子辞書表示装置 | |
| JP2839515B2 (ja) | 文字読取システム | |
| JPH0259513B2 (ja) | ||
| JPH06161995A (ja) | 氏名データ整形方法および装置 | |
| JPS60225273A (ja) | 単語検索方式 | |
| JP2982244B2 (ja) | 文字認識後処理方式 | |
| JPH0340434B2 (ja) | ||
| JP2746345B2 (ja) | 文字認識の後処理方法 | |
| JPS61161588A (ja) | 文字認識後処理方式 | |
| JPS61233882A (ja) | 単語列推定方式 | |
| JPS6174086A (ja) | 単語認識装置 | |
| JPH01199263A (ja) | キーワード抽出装置 | |
| JPH01194088A (ja) | 文字列と単語の照合装置 | |
| JPH067351B2 (ja) | 候補列作成装置 | |
| JPS62285189A (ja) | 文字認識後処理方式 | |
| JPH07160730A (ja) | 全文検索装置 | |
| JPS6049480A (ja) | データ検索装置 | |
| JPH06215198A (ja) | 文字認識後処理方式 | |
| JPH08249427A (ja) | 文字認識方法および装置 |