JPH04340686A - 文字認識後処理用氏名辞書 - Google Patents

文字認識後処理用氏名辞書

Info

Publication number
JPH04340686A
JPH04340686A JP3113235A JP11323591A JPH04340686A JP H04340686 A JPH04340686 A JP H04340686A JP 3113235 A JP3113235 A JP 3113235A JP 11323591 A JP11323591 A JP 11323591A JP H04340686 A JPH04340686 A JP H04340686A
Authority
JP
Japan
Prior art keywords
kanji
characters
name
reading
surname
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3113235A
Other languages
English (en)
Inventor
Masaaki Nakanou
中農 正明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Priority to JP3113235A priority Critical patent/JPH04340686A/ja
Publication of JPH04340686A publication Critical patent/JPH04340686A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識装置の後処理
に使用する文字認識後処理用氏名辞書に関する。
【0002】
【従来の技術】従来から、帳票上の氏名を読み取って認
識する文字認識装置においては、認識された複数の候補
氏名をもとに、氏名辞書を索引して、最も好ましいと考
えられる氏名を最終結果として出力するようにしている
【0003】このような後処理に使用する氏名辞書は、
従来、姓に関する情報が格納される姓格納部と、名に関
する情報が格納される名格納部とをもつようにされる。
【0004】
【発明が解決しようとする課題】従来の場合には、姓な
らば姓に関しての文字数ごと、また名なら名に関しての
文字数ごとに区分して配列されて格納されるという状態
になかった。このために、読みなら読みが完全にマッチ
ングされる氏名が最終結果として得られることになるも
のであった。したがって、例えば読みに関して先頭文字
と文字長だけが合致する幾つかの氏名を抽出したりする
ことが困難であった。即ち、例えば読みに関して、1部
の文字のみが誤認識されている如き場合に、可能性のあ
る氏名を索引してみるというような処理ができなかった
【0005】本発明は、先頭文字と文字長とが合致する
幾つかの氏名を候補として索引してみるという如き処理
を可能にすることを目的としている。
【0006】
【課題を解決するための手段】図1は本発明の原理構成
図を示す。図中の符号1は氏名辞書、2は姓読み部、3
は名読み部、4は姓単語部、5は名単語部、6は一般読
み部、7は一般単語部を表している。
【0007】姓読み部2内には、例えば「ナカムラ−中
村」のように、読み「ナカムラ」に対して姓を構成する
漢字「中村」が対応づけられて格納されている。そして
、読みを構成する仮名文字の文字数が「2」である場合
、「3」である場合、「4」である場合、「5」である
場合、「2ないし5」文字以外の場合とに区分されてお
り、更に例えば「2」である場合で言えば当該「2」で
ある場合内でアイウエオ順に配列されて格納されている
【0008】名読み部3内には、例えば「タロウ−太郎
」のように、読み「タロウ」に対して名を構成する漢字
「太郎」が対応づけられて格納されている。そして、読
みを構成する仮名文字の文字数が「2」である場合、「
3」である場合、「4」である場合、「5」である場合
、「2なしい5」文字以外の場合とに区分されており、
更にアイウエオ順に格納されている。
【0009】姓単語部4内には、例えば「中村−ナカム
ラ」のように、漢字「中村」に対して読みを構成する「
ナカムラ」が対応づけられて格納されている。そして、
漢字を構成する文字が「1」である場合、「2」である
場合、「3」である場合、「1ないし3」文字以外の場
合とに区分されており、更に例えば「1」である場合で
言えば当該「1」である場合内で字画数順に配列されて
格納されている。
【0010】名単語部5内には、例えば「太郎−タロウ
」のように、漢字「太郎」に対して読みを構成する「タ
ロウ」が対応づけられて格納されている。この場合も、
姓単語部4の場合と同様な配列の下に格納されている。 一般読み部6内には、例えば会社名などが「読み−漢字
」の形で格納されている。また一般単語部7内には、例
えば会社名などが「漢字−読み」の形で格納されている
。そして、文字数に対応して区画されていることは、上
記姓読み部2や上記姓単語部4などと同じと考えてよい
【0011】
【作用】文字認識装置において姓の読みとして例えば「
ナカムフ」という読みを1つの候補として認識したとす
る。この場合、姓読み部2内において、「4文字で構成
される読み」の部分が調べられ、「ナカムフ」という読
みをもつものは存在しないが「ナカムラ」が存在するこ
となどが判明される。また、読みとして「ナカムラ」が
見出され、当該「ナカムラ」に対応する漢字が「中村」
か「仲村」かなどを調べることもできる。また更に、漢
字の姓の文字をもとに読みを調べることも容易となる。
【0012】また、一般読み部や一般単語部をもうけて
いることによって、会社名などの読み取りに利用できる
【0013】
【実施例】図2と図3とは本発明による辞書利用の後処
理態様を表すフローチャートを示す。図2は主として「
読み」からの処理に対応し、図3は主として「漢字」か
らの処理に対応している。
【0014】(S1):ステップS1において、文字認
識装置が認識したデータ(カナ+漢字)を受け取る。 (S2):読みの先頭1文字と読みの文字数との組合わ
せ条件をもとに、辞書1をアクセスし、それに合致する
データを抽出する。
【0015】(S3):抽出されたデータと入力データ
とを照合して、類似度などの得点を計算する。 (S4):上記ステップS2と同じ条件を満足する辞書
データがなおも存在するか否かを調べ、存在すれば、ス
テップS2に戻る。
【0016】(S5):抽出されたデータについての得
点が閾値よりも大であるか否かがチェックされる。 以上のようにして、「読み」からみた場合に、候補とな
り得るデータが幾つか決定される。
【0017】(S6):当該候補となったデータに対応
する漢字を、辞書1をアクセスして、抽出する。 (S7):入力データの漢字と辞書からの漢字とを照合
して、得点を計算する。
【0018】(S8):同音異義語がなおも存在するか
否かチェックされる。 (S9):得られている得点が閾値以上であるか否かが
チェックされる。 (S10):閾値以上であれば、出力データとして出力
される。 (S11):ステップS5やステップS9においてNO
となった場合には「漢字」からの処理に進む。
【0019】「漢字」からの処理においては、図3に示
すステップS12に入る。 (S12):入力データを組合わせた漢字に一致する漢
字とその読みとを辞書1から抽出する。例えば入力デー
タにおける漢字について、例えば「小本」、「山木」、
「川来」が夫々候補として挙がっている場合には、「小
本」、「小木」、「小来」、「山本」、「山木」、「山
来」、「川本」、「川木」、「川来」の夫々に一致する
漢字とその読みとを辞書1から抽出する。
【0020】(S13):入力データの(カナ+漢字)
と辞書データの(カナ+漢字)とを照合して得点を計算
する。例えばステップS12において示した入力データ
の漢字「小本」、「山木」、「川来」に対応する「読み
」の入力データが「カマモト」、「ヤヌホノ」、「アメ
タイ」を候補として挙がっている場合には、「カマモト
」、「カヌモト」、「カメモト」、「ヤマモト」、「ヤ
ヌモト」、「ヤメモト」、「アマモト」、「アヌモト」
、「アメモト」、「カマホト」、「カマタト」・・・・
・などが組合わせとして得られ、それらと上記漢字例の
候補と組合わせて夫々の得点が計算される。
【0021】(S14):辞書データ1になお調べるべ
きデータが存在するか否かがチェックされる。 (S15):調べるべき他の組合わせが存在するかがチ
ェックされる。 (S16):得点が閾値以上か否かがチェックされる。
【0022】(S17):YESであれば出力データと
して出力される。 (S18):NOであれば出力失敗となる。 以上の如く処理が行われるが、入力データが例えば、読
みに関して、 カマモト ヤヌホノ アメタイ が候補として得られており、漢字に関して、小本 山木 川来 が候補として得られている場合には、本発明の辞書を利
用した後処理によって、 ヤマモト−山本 を得ることができた。
【0023】
【発明の効果】以上説明した如く、本発明によれば、文
字認識装置における認識過程において得られている候補
文字(読みと漢字)から、後処理によって、適正な「読
みと漢字」とを得ることが容易になる。
【図面の簡単な説明】
【図1】本発明の原理構成図を示す。
【図2】辞書利用の後処理態様を表すフローチャートで
ある。
【図3】辞書利用の後処理態様を表すフローチャートで
ある。
【符号の説明】
1  氏名辞書 2  姓読み部 3  名読み部 4  姓単語部 5  名単語部 6  一般読み部 7  一般単語部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】  帳票に記述されている少なくとも氏名
    に対応する文字を読み取って認識する文字認識装置に使
    用される文字認識後処理用氏名辞書において、姓に関し
    て、読みに対して漢字を対応づけると共に、当該読みを
    構成する文字数ごとに、同一文字数をもつ読みを予め定
    めた順に配列して格納した姓読み部(2)と、名に関し
    て、読みに対して漢字を対応づけると共に、当該読みを
    構成する文字数ごとに、同一文字数をもつ読みを予め定
    めた順に配列して格納した名読み部(3)と、姓に関し
    て、漢字に対して読みを対応づけると共に、当該漢字を
    構成する文字数ごとに、同一文字数をもつ漢字を予め定
    めた順に配列して格納した姓単語部(4)と、名に関し
    て、漢字に対して読みを対応づけると共に、当該漢字を
    構成する文字数ごとに、同一文字数をもつ漢字を予め定
    めた順に配列して格納した名単語部(5)と、を少なく
    ともそなえ、上記文字認識装置において抽出された氏名
    に対応する候補氏名群に関して、当該候補氏名群の1つ
    1つについての読みおよび/または漢字を基準として、
    対応する漢字および/または読みを抽出可能にしたこと
    を特徴とする文字認識後処理用氏名辞書。
  2. 【請求項2】  上記姓読み部(2)と、上記名読み部
    (3)と、上記姓単語部(4)と、上記名単語部(5)
    とをそなえると共に、姓および/または名以外の一般単
    語についての一般読み部(6)と、一般単語部(7)と
    を有することを特徴とする請求項1記載の文字認識後処
    理用氏名辞書。
JP3113235A 1991-05-17 1991-05-17 文字認識後処理用氏名辞書 Pending JPH04340686A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3113235A JPH04340686A (ja) 1991-05-17 1991-05-17 文字認識後処理用氏名辞書

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3113235A JPH04340686A (ja) 1991-05-17 1991-05-17 文字認識後処理用氏名辞書

Publications (1)

Publication Number Publication Date
JPH04340686A true JPH04340686A (ja) 1992-11-27

Family

ID=14606995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3113235A Pending JPH04340686A (ja) 1991-05-17 1991-05-17 文字認識後処理用氏名辞書

Country Status (1)

Country Link
JP (1) JPH04340686A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63138479A (ja) * 1986-11-29 1988-06-10 Toshiba Corp 文字認識装置
JPS63268082A (ja) * 1987-04-27 1988-11-04 Toshiba Corp パタ−ン認識装置
JPS63268083A (ja) * 1987-04-27 1988-11-04 Fujitsu Ltd 単語認識装置
JPH01316889A (ja) * 1988-06-17 1989-12-21 Fujitsu Ltd 手書き文字認識方式

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63138479A (ja) * 1986-11-29 1988-06-10 Toshiba Corp 文字認識装置
JPS63268082A (ja) * 1987-04-27 1988-11-04 Toshiba Corp パタ−ン認識装置
JPS63268083A (ja) * 1987-04-27 1988-11-04 Fujitsu Ltd 単語認識装置
JPH01316889A (ja) * 1988-06-17 1989-12-21 Fujitsu Ltd 手書き文字認識方式

Similar Documents

Publication Publication Date Title
JPH04340686A (ja) 文字認識後処理用氏名辞書
JPH03260869A (ja) データ検索装置及びデータ検索方法
JPH0441388B2 (ja)
JPS59229683A (ja) 認識処理装置
JPS63138479A (ja) 文字認識装置
JPH0438026B2 (ja)
JP3187671B2 (ja) 電子辞書表示装置
JP2839515B2 (ja) 文字読取システム
JPH0259513B2 (ja)
JPH06161995A (ja) 氏名データ整形方法および装置
JPS60225273A (ja) 単語検索方式
JP2982244B2 (ja) 文字認識後処理方式
JPH0340434B2 (ja)
JP2746345B2 (ja) 文字認識の後処理方法
JPS61161588A (ja) 文字認識後処理方式
JPS61233882A (ja) 単語列推定方式
JPS6174086A (ja) 単語認識装置
JPH01199263A (ja) キーワード抽出装置
JPH01194088A (ja) 文字列と単語の照合装置
JPH067351B2 (ja) 候補列作成装置
JPS62285189A (ja) 文字認識後処理方式
JPH07160730A (ja) 全文検索装置
JPS6049480A (ja) データ検索装置
JPH06215198A (ja) 文字認識後処理方式
JPH08249427A (ja) 文字認識方法および装置