JPH04340686A

JPH04340686A - 文字認識後処理用氏名辞書

Info

Publication number: JPH04340686A
Application number: JP3113235A
Authority: JP
Inventors: Masaaki Nakanou; 中農　正明
Original assignee: PFU Ltd
Current assignee: PFU Ltd
Priority date: 1991-05-17
Filing date: 1991-05-17
Publication date: 1992-11-27

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文字認識装置の後処理
に使用する文字認識後処理用氏名辞書に関する。

【０００２】

【従来の技術】従来から、帳票上の氏名を読み取って認
識する文字認識装置においては、認識された複数の候補
氏名をもとに、氏名辞書を索引して、最も好ましいと考
えられる氏名を最終結果として出力するようにしている
。

【０００３】このような後処理に使用する氏名辞書は、
従来、姓に関する情報が格納される姓格納部と、名に関
する情報が格納される名格納部とをもつようにされる。

【０００４】

【発明が解決しようとする課題】従来の場合には、姓な
らば姓に関しての文字数ごと、また名なら名に関しての
文字数ごとに区分して配列されて格納されるという状態
になかった。このために、読みなら読みが完全にマッチ
ングされる氏名が最終結果として得られることになるも
のであった。したがって、例えば読みに関して先頭文字
と文字長だけが合致する幾つかの氏名を抽出したりする
ことが困難であった。即ち、例えば読みに関して、１部
の文字のみが誤認識されている如き場合に、可能性のあ
る氏名を索引してみるというような処理ができなかった
。

【０００５】本発明は、先頭文字と文字長とが合致する
幾つかの氏名を候補として索引してみるという如き処理
を可能にすることを目的としている。

【０００６】

【課題を解決するための手段】図１は本発明の原理構成
図を示す。図中の符号１は氏名辞書、２は姓読み部、３
は名読み部、４は姓単語部、５は名単語部、６は一般読
み部、７は一般単語部を表している。

【０００７】姓読み部２内には、例えば「ナカムラ−中
村」のように、読み「ナカムラ」に対して姓を構成する
漢字「中村」が対応づけられて格納されている。そして
、読みを構成する仮名文字の文字数が「２」である場合
、「３」である場合、「４」である場合、「５」である
場合、「２ないし５」文字以外の場合とに区分されてお
り、更に例えば「２」である場合で言えば当該「２」で
ある場合内でアイウエオ順に配列されて格納されている
。

【０００８】名読み部３内には、例えば「タロウ−太郎
」のように、読み「タロウ」に対して名を構成する漢字
「太郎」が対応づけられて格納されている。そして、読
みを構成する仮名文字の文字数が「２」である場合、「
３」である場合、「４」である場合、「５」である場合
、「２なしい５」文字以外の場合とに区分されており、
更にアイウエオ順に格納されている。

【０００９】姓単語部４内には、例えば「中村−ナカム
ラ」のように、漢字「中村」に対して読みを構成する「
ナカムラ」が対応づけられて格納されている。そして、
漢字を構成する文字が「１」である場合、「２」である
場合、「３」である場合、「１ないし３」文字以外の場
合とに区分されており、更に例えば「１」である場合で
言えば当該「１」である場合内で字画数順に配列されて
格納されている。

【００１０】名単語部５内には、例えば「太郎−タロウ
」のように、漢字「太郎」に対して読みを構成する「タ
ロウ」が対応づけられて格納されている。この場合も、
姓単語部４の場合と同様な配列の下に格納されている。一般読み部６内には、例えば会社名などが「読み−漢字
」の形で格納されている。また一般単語部７内には、例
えば会社名などが「漢字−読み」の形で格納されている
。そして、文字数に対応して区画されていることは、上
記姓読み部２や上記姓単語部４などと同じと考えてよい
。

【００１１】

【作用】文字認識装置において姓の読みとして例えば「
ナカムフ」という読みを１つの候補として認識したとす
る。この場合、姓読み部２内において、「４文字で構成
される読み」の部分が調べられ、「ナカムフ」という読
みをもつものは存在しないが「ナカムラ」が存在するこ
となどが判明される。また、読みとして「ナカムラ」が
見出され、当該「ナカムラ」に対応する漢字が「中村」
か「仲村」かなどを調べることもできる。また更に、漢
字の姓の文字をもとに読みを調べることも容易となる。

【００１２】また、一般読み部や一般単語部をもうけて
いることによって、会社名などの読み取りに利用できる
。

【００１３】

【実施例】図２と図３とは本発明による辞書利用の後処
理態様を表すフローチャートを示す。図２は主として「
読み」からの処理に対応し、図３は主として「漢字」か
らの処理に対応している。

【００１４】（Ｓ１）：ステップＳ１において、文字認
識装置が認識したデータ（カナ＋漢字）を受け取る。（Ｓ２）：読みの先頭１文字と読みの文字数との組合わ
せ条件をもとに、辞書１をアクセスし、それに合致する
データを抽出する。

【００１５】（Ｓ３）：抽出されたデータと入力データ
とを照合して、類似度などの得点を計算する。（Ｓ４）：上記ステップＳ２と同じ条件を満足する辞書
データがなおも存在するか否かを調べ、存在すれば、ス
テップＳ２に戻る。

【００１６】（Ｓ５）：抽出されたデータについての得
点が閾値よりも大であるか否かがチェックされる。以上のようにして、「読み」からみた場合に、候補とな
り得るデータが幾つか決定される。

【００１７】（Ｓ６）：当該候補となったデータに対応
する漢字を、辞書１をアクセスして、抽出する。（Ｓ７）：入力データの漢字と辞書からの漢字とを照合
して、得点を計算する。

【００１８】（Ｓ８）：同音異義語がなおも存在するか
否かチェックされる。（Ｓ９）：得られている得点が閾値以上であるか否かが
チェックされる。（Ｓ１０）：閾値以上であれば、出力データとして出力
される。（Ｓ１１）：ステップＳ５やステップＳ９においてＮＯ
となった場合には「漢字」からの処理に進む。

【００１９】「漢字」からの処理においては、図３に示
すステップＳ１２に入る。（Ｓ１２）：入力データを組合わせた漢字に一致する漢
字とその読みとを辞書１から抽出する。例えば入力デー
タにおける漢字について、例えば「小本」、「山木」、
「川来」が夫々候補として挙がっている場合には、「小
本」、「小木」、「小来」、「山本」、「山木」、「山
来」、「川本」、「川木」、「川来」の夫々に一致する
漢字とその読みとを辞書１から抽出する。

【００２０】（Ｓ１３）：入力データの（カナ＋漢字）
と辞書データの（カナ＋漢字）とを照合して得点を計算
する。例えばステップＳ１２において示した入力データ
の漢字「小本」、「山木」、「川来」に対応する「読み
」の入力データが「カマモト」、「ヤヌホノ」、「アメ
タイ」を候補として挙がっている場合には、「カマモト
」、「カヌモト」、「カメモト」、「ヤマモト」、「ヤ
ヌモト」、「ヤメモト」、「アマモト」、「アヌモト」
、「アメモト」、「カマホト」、「カマタト」・・・・
・などが組合わせとして得られ、それらと上記漢字例の
候補と組合わせて夫々の得点が計算される。

【００２１】（Ｓ１４）：辞書データ１になお調べるべ
きデータが存在するか否かがチェックされる。（Ｓ１５）：調べるべき他の組合わせが存在するかがチ
ェックされる。（Ｓ１６）：得点が閾値以上か否かがチェックされる。

【００２２】（Ｓ１７）：ＹＥＳであれば出力データと
して出力される。（Ｓ１８）：ＮＯであれば出力失敗となる。以上の如く処理が行われるが、入力データが例えば、読
みに関して、カマモトヤヌホノアメタイが候補として得られており、漢字に関して、小本山木川来が候補として得られている場合には、本発明の辞書を利
用した後処理によって、ヤマモト−山本を得ることができた。

【００２３】

【発明の効果】以上説明した如く、本発明によれば、文
字認識装置における認識過程において得られている候補
文字（読みと漢字）から、後処理によって、適正な「読
みと漢字」とを得ることが容易になる。

【図面の簡単な説明】

【図１】本発明の原理構成図を示す。

【図２】辞書利用の後処理態様を表すフローチャートで
ある。

【図３】辞書利用の後処理態様を表すフローチャートで
ある。

【符号の説明】

１　　氏名辞書２　　姓読み部３　　名読み部４　　姓単語部５　　名単語部６　　一般読み部７　　一般単語部

Claims

【特許請求の範囲】

【請求項１】　　帳票に記述されている少なくとも氏名
に対応する文字を読み取って認識する文字認識装置に使
用される文字認識後処理用氏名辞書において、姓に関し
て、読みに対して漢字を対応づけると共に、当該読みを
構成する文字数ごとに、同一文字数をもつ読みを予め定
めた順に配列して格納した姓読み部（２）と、名に関し
て、読みに対して漢字を対応づけると共に、当該読みを
構成する文字数ごとに、同一文字数をもつ読みを予め定
めた順に配列して格納した名読み部（３）と、姓に関し
て、漢字に対して読みを対応づけると共に、当該漢字を
構成する文字数ごとに、同一文字数をもつ漢字を予め定
めた順に配列して格納した姓単語部（４）と、名に関し
て、漢字に対して読みを対応づけると共に、当該漢字を
構成する文字数ごとに、同一文字数をもつ漢字を予め定
めた順に配列して格納した名単語部（５）と、を少なく
ともそなえ、上記文字認識装置において抽出された氏名
に対応する候補氏名群に関して、当該候補氏名群の１つ
１つについての読みおよび／または漢字を基準として、
対応する漢字および／または読みを抽出可能にしたこと
を特徴とする文字認識後処理用氏名辞書。
【請求項２】　　上記姓読み部（２）と、上記名読み部
（３）と、上記姓単語部（４）と、上記名単語部（５）
とをそなえると共に、姓および／または名以外の一般単
語についての一般読み部（６）と、一般単語部（７）と
を有することを特徴とする請求項１記載の文字認識後処
理用氏名辞書。