JPH04283853A - カナ−漢字変換方法 - Google Patents
カナ−漢字変換方法Info
- Publication number
- JPH04283853A JPH04283853A JP3072278A JP7227891A JPH04283853A JP H04283853 A JPH04283853 A JP H04283853A JP 3072278 A JP3072278 A JP 3072278A JP 7227891 A JP7227891 A JP 7227891A JP H04283853 A JPH04283853 A JP H04283853A
- Authority
- JP
- Japan
- Prior art keywords
- kana
- data
- input
- kanji
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 12
- 235000016496 Panda oleosa Nutrition 0.000 claims abstract description 185
- 240000000220 Panda oleosa Species 0.000 claims abstract description 185
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】本発明は、住所等のカナを漢字に
変換する方法に関し、特に、住所(居所も含む)等の入
力カナデータに1部誤った文字があっても、入力カナデ
ータを正しいカナデータに修正し正しい漢字データに変
換するカナ−漢字変換方法に関する。
変換する方法に関し、特に、住所(居所も含む)等の入
力カナデータに1部誤った文字があっても、入力カナデ
ータを正しいカナデータに修正し正しい漢字データに変
換するカナ−漢字変換方法に関する。
【0002】
【従来の技術】従来、たとえば保険会社等では、帳票に
住所、氏名を記載する場合、住所を漢字で記載し、氏名
をカナで記載していた。この帳票をANK文字に加えて
手書きの漢字の認識が行なえる光学式文字読取装置(以
下、OCR装置という。)で読取る。その読取った住所
の漢字データをカナデータに変換する場合、変換装置で
その読取った漢字データと記憶装置に格納してある漢字
辞書(漢字とそのカナとが対となって登録されている。 )ファイルの登録漢字との単語照合を行なう。ここで、
単語照合とは、都道府県名のレベル(第1レベルという
。)と市、区等の地名レベル(第2レベルという。)と
町、村等の地名レベル(第3レベル、特にこれを字レベ
ルという。)に分けて、レベル毎の地名を1単語として
扱い、各単語毎に照合を行なうことをいう。
住所、氏名を記載する場合、住所を漢字で記載し、氏名
をカナで記載していた。この帳票をANK文字に加えて
手書きの漢字の認識が行なえる光学式文字読取装置(以
下、OCR装置という。)で読取る。その読取った住所
の漢字データをカナデータに変換する場合、変換装置で
その読取った漢字データと記憶装置に格納してある漢字
辞書(漢字とそのカナとが対となって登録されている。 )ファイルの登録漢字との単語照合を行なう。ここで、
単語照合とは、都道府県名のレベル(第1レベルという
。)と市、区等の地名レベル(第2レベルという。)と
町、村等の地名レベル(第3レベル、特にこれを字レベ
ルという。)に分けて、レベル毎の地名を1単語として
扱い、各単語毎に照合を行なうことをいう。
【0003】単語照合により一致したとき、その登録漢
字に対してのカナデータを漢字辞書ファイルより取出し
てカナデータを生成していた。しかし、このように、住
所の手書き漢字から正しいカナデータに変換することは
、正解率が悪く、かつ単語照合に時間がかかっていた。 一方、帳票に記載した氏名については、カナ書き或はカ
ナ付き漢字のため、手書き漢字OCR装置による氏名の
カナデータの認識率(正解率)が高く、しかも照合に時
間がかからないという利点があった。そこで、ユーザか
らの希望により、帳票の住所もカナ書きにさせることに
し、住所の単語照合によりカナデータから漢字データを
生成する機能(住所のカナ漢字変換)を変換装置に追加
することにした。この場合、カナは、漢字のように複雑
な字体でないため、手書き漢字OCR装置からのカナの
認識結果である読取データは漢字のときよりも正確であ
るため、変換装置よりカナ−漢字変換されて出力される
漢字データは、正常に変換されたものとして処理を行な
っていた。
字に対してのカナデータを漢字辞書ファイルより取出し
てカナデータを生成していた。しかし、このように、住
所の手書き漢字から正しいカナデータに変換することは
、正解率が悪く、かつ単語照合に時間がかかっていた。 一方、帳票に記載した氏名については、カナ書き或はカ
ナ付き漢字のため、手書き漢字OCR装置による氏名の
カナデータの認識率(正解率)が高く、しかも照合に時
間がかからないという利点があった。そこで、ユーザか
らの希望により、帳票の住所もカナ書きにさせることに
し、住所の単語照合によりカナデータから漢字データを
生成する機能(住所のカナ漢字変換)を変換装置に追加
することにした。この場合、カナは、漢字のように複雑
な字体でないため、手書き漢字OCR装置からのカナの
認識結果である読取データは漢字のときよりも正確であ
るため、変換装置よりカナ−漢字変換されて出力される
漢字データは、正常に変換されたものとして処理を行な
っていた。
【0004】
【発明が解決しようとする課題】しかしながら、上述し
た従来のカナ漢字変換方法では次のような問題があった
。住所データの場合には、手書き漢字OCR装置にて読
取られた入力カナデータが、記憶装置の辞書ファイルに
登録されているカナデータと全く同じ場合のみ、漢字デ
ータに変換することができ、入力カナデータに1文字で
も異なる文字が含まれている場合(この場合、入力カナ
データは辞書ファイルのカナデータとは一致しない。)
は、全てエラーとして扱い、漢字データに変換すること
ができなかった。本発明の目的は、このような従来の問
題点に鑑み、住所等の入力カナデータに異常文字(辞書
ファイルに登録されていない文字)が含まれている場合
でも入力カナデータを正しいカナデータに修正(書き換
え)して、正しい漢字データに変換することができるよ
うにしたカナ−漢字変換方法を提供することにある。
た従来のカナ漢字変換方法では次のような問題があった
。住所データの場合には、手書き漢字OCR装置にて読
取られた入力カナデータが、記憶装置の辞書ファイルに
登録されているカナデータと全く同じ場合のみ、漢字デ
ータに変換することができ、入力カナデータに1文字で
も異なる文字が含まれている場合(この場合、入力カナ
データは辞書ファイルのカナデータとは一致しない。)
は、全てエラーとして扱い、漢字データに変換すること
ができなかった。本発明の目的は、このような従来の問
題点に鑑み、住所等の入力カナデータに異常文字(辞書
ファイルに登録されていない文字)が含まれている場合
でも入力カナデータを正しいカナデータに修正(書き換
え)して、正しい漢字データに変換することができるよ
うにしたカナ−漢字変換方法を提供することにある。
【0005】
【課題を解決するための手段】本発明は、入力カナデー
タを記憶手段に設けた辞書ファイルのカナデータと単語
照合し、一致したときそのカナデータに対しての漢字デ
ータを前記辞書ファイルより取出すようにしたカナ−漢
字変換方法において、前記入力カナデータと同じカナデ
ータが前記辞書ファイルにないとき、前記入力カナデー
タと同じ文字数をもつカナデータを前記辞書ファイルか
ら検索し、その検索した各カナデータと前記入力カナデ
ータとの一致文字数を調べ、その一致文字数が前記入力
カナデータの文字数に対し所定の割合以上であれば、前
記検索した各カナデータのうち、前記一致文字数が最も
多いカナデータを選択し、前記入力カナをその選択した
カナデータに修正し、その修正したカナデータに対して
の漢字データを前記辞書ファイルより取出すようにした
ものである。
タを記憶手段に設けた辞書ファイルのカナデータと単語
照合し、一致したときそのカナデータに対しての漢字デ
ータを前記辞書ファイルより取出すようにしたカナ−漢
字変換方法において、前記入力カナデータと同じカナデ
ータが前記辞書ファイルにないとき、前記入力カナデー
タと同じ文字数をもつカナデータを前記辞書ファイルか
ら検索し、その検索した各カナデータと前記入力カナデ
ータとの一致文字数を調べ、その一致文字数が前記入力
カナデータの文字数に対し所定の割合以上であれば、前
記検索した各カナデータのうち、前記一致文字数が最も
多いカナデータを選択し、前記入力カナをその選択した
カナデータに修正し、その修正したカナデータに対して
の漢字データを前記辞書ファイルより取出すようにした
ものである。
【0006】
【作用】入力カナデータと同じカナデータが字辞書ファ
イルにないとき、入力カナデータと同じ文字数をもつカ
ナデータを辞書ファイルから検索し、その検索したカナ
データと入力カナデータとの一致文字数を調べ、その一
致文字数が入力カナデータの文字数に対し所定の割合以
上であれば、一致文字数が最も多いカナデータを選択し
、入力カナをその選択したカナデータに修正した上で、
正しい漢字データを辞書ファイルより取出す。従って、
入力カナデータに1部誤った文字があっても、正しいカ
ナデータに修正できるので、入力カナを正しい漢字デー
タに変換できる。
イルにないとき、入力カナデータと同じ文字数をもつカ
ナデータを辞書ファイルから検索し、その検索したカナ
データと入力カナデータとの一致文字数を調べ、その一
致文字数が入力カナデータの文字数に対し所定の割合以
上であれば、一致文字数が最も多いカナデータを選択し
、入力カナをその選択したカナデータに修正した上で、
正しい漢字データを辞書ファイルより取出す。従って、
入力カナデータに1部誤った文字があっても、正しいカ
ナデータに修正できるので、入力カナを正しい漢字デー
タに変換できる。
【0007】
【実施例】次に本発明の実施例について説明する。図3
は本発明に係るOCRシステムの一実施例を示すブロッ
ク図である。同図において、1はANKの文字認識に加
えて手書き漢字の文字認識の行なえるOCR装置(以下
、手書き漢字OCR装置という。)であって、この手書
き漢字OCR装置1は、読取媒体としての帳票の漢字及
びカナ等を読取って文字認識を行ない、その読取データ
(認識データ)を制御部2に渡す。2は、メモリ2−1
を内蔵する制御部であって、この制御部2に手書き漢字
OCR装置1、入力装置としてのキーボード(KBとい
う。)3、表示装置(CRTという。)4およびハード
ディスク(HDという。)5が接続されている。制御部
2は、これらの手書き漢字OCR装置1、CRT4およ
びハードディスク5等を統括制御するものである。
は本発明に係るOCRシステムの一実施例を示すブロッ
ク図である。同図において、1はANKの文字認識に加
えて手書き漢字の文字認識の行なえるOCR装置(以下
、手書き漢字OCR装置という。)であって、この手書
き漢字OCR装置1は、読取媒体としての帳票の漢字及
びカナ等を読取って文字認識を行ない、その読取データ
(認識データ)を制御部2に渡す。2は、メモリ2−1
を内蔵する制御部であって、この制御部2に手書き漢字
OCR装置1、入力装置としてのキーボード(KBとい
う。)3、表示装置(CRTという。)4およびハード
ディスク(HDという。)5が接続されている。制御部
2は、これらの手書き漢字OCR装置1、CRT4およ
びハードディスク5等を統括制御するものである。
【0008】ここで、CRT4は、入力データを表示し
たり、手書き漢字OCR装置1からの読取データを表示
したり等するものである。また、ハードディスク5には
、単語照合辞書ファイル、特に住所の地名の単語照合用
辞書ファイル(地名のカナとそのカナの漢字が登録され
ている。)等が格納されている。ここで、住所の地名の
単語照合辞書ファイルには、都道府県名レベルのファイ
ル(第1レベルファイルという。)と区、市、郡等の地
名レベルのファイル(第2レベルファイルという。)と
町、村等の地名レベルのファイル(第3レベルファイル
、又は字レベルファイルという。)がある。第2レベル
ファイルは、第1レベルの各都道府県別に分類されて設
けられている。第3レベルファイルは、更に第2レベル
の該当する各市、区、郡別に分類されて設けられている
。また、6は、変換装置であって、この変換装置6は、
入力カナデータを漢字データに変換したり、漢字データ
をカナデータに変換したり等するものである。変換装置
6は、制御部2とキーボード3とCRT4とハードディ
スク5等から構成される。
たり、手書き漢字OCR装置1からの読取データを表示
したり等するものである。また、ハードディスク5には
、単語照合辞書ファイル、特に住所の地名の単語照合用
辞書ファイル(地名のカナとそのカナの漢字が登録され
ている。)等が格納されている。ここで、住所の地名の
単語照合辞書ファイルには、都道府県名レベルのファイ
ル(第1レベルファイルという。)と区、市、郡等の地
名レベルのファイル(第2レベルファイルという。)と
町、村等の地名レベルのファイル(第3レベルファイル
、又は字レベルファイルという。)がある。第2レベル
ファイルは、第1レベルの各都道府県別に分類されて設
けられている。第3レベルファイルは、更に第2レベル
の該当する各市、区、郡別に分類されて設けられている
。また、6は、変換装置であって、この変換装置6は、
入力カナデータを漢字データに変換したり、漢字データ
をカナデータに変換したり等するものである。変換装置
6は、制御部2とキーボード3とCRT4とハードディ
スク5等から構成される。
【0009】また、7は読取媒体としてのたとえば帳票
を読取り、その読取った読取データ(認識データ)と辞
書ファイルのデータとの照合を行ない、たとえば読取デ
ータであるカナデータ(又は漢字データ)を漢字データ
(又はカナデータ)に変換したりするOCRシステムで
ある。このOCRシステム7は、キーボード3からの入
力データと辞書ファイルのデータとの照合を行ない、入
力データをカナデータ又は漢字データ等に変換すること
もできるものである。次に、本発明に係る単語照合の処
理概要を、図2を用いて説明する。なお、図2は本発明
に係る単語照合の処理概要を説明する説明図である。読
取媒体としての帳票11(カナ書きの住所地が図示の如
くカナで記載されている。)を手書き漢字OCR装置1
に入力する。又は、キーボード3にて図示の如く住所地
をカナ入力する。OCR装置1によるデータやキーボー
ド3による入力カナデータを、制御部2のメモリ2−1
に格納させる。次に制御部2は、単語照合(住所カナの
漢字変換)を行なう。この単語照合について、以下説明
する。
を読取り、その読取った読取データ(認識データ)と辞
書ファイルのデータとの照合を行ない、たとえば読取デ
ータであるカナデータ(又は漢字データ)を漢字データ
(又はカナデータ)に変換したりするOCRシステムで
ある。このOCRシステム7は、キーボード3からの入
力データと辞書ファイルのデータとの照合を行ない、入
力データをカナデータ又は漢字データ等に変換すること
もできるものである。次に、本発明に係る単語照合の処
理概要を、図2を用いて説明する。なお、図2は本発明
に係る単語照合の処理概要を説明する説明図である。読
取媒体としての帳票11(カナ書きの住所地が図示の如
くカナで記載されている。)を手書き漢字OCR装置1
に入力する。又は、キーボード3にて図示の如く住所地
をカナ入力する。OCR装置1によるデータやキーボー
ド3による入力カナデータを、制御部2のメモリ2−1
に格納させる。次に制御部2は、単語照合(住所カナの
漢字変換)を行なう。この単語照合について、以下説明
する。
【0010】カナデータは、スペースで区切られている
ので、制御部2は、スペースで区切られたカナを1つの
単語としてメモリ2−1より取出す。図示の例では、「
トウキョウト」、「ミナトク」、「シバウラ」がそれぞ
れ1つの単語を構成する。尚、実際には「ョ」は「ヨ」
として処理され、「バ」の濁点は1文字として扱われる
。しかし、本願においては、以下通常の表示を用いて説
明する。次に制御部2は、住所の地名の第1レベルから
第3レベルへと順に1単語ずつ取出して照合を行なう。 図示の例では、制御部2はまず、メモリ2−1より「ト
ウキョウト」を取出し、これとハードディスク5の単語
照合辞書ファイルの第1レベルファイルの都道府県名と
の照合を行ない、一致すればその「トウキョウト」の漢
字「東京都」を第1レベルファイルより取出し、メモリ
2−1に格納する。次に、制御部2は、メモリ2−1よ
り「ミナトク」を取出し、この「ミナトク」と、第2レ
ベルファイルの区名、市名等との照合を行ない、一致す
ればその「ミナトク」の漢字「港区」を第2レベルファ
イルより取出しメモリ2−1に格納する。更に制御部2
は、メモリ2−1より「シバウラ」を取出し、この「シ
バウラ」と、字辞書ファイルの町名、村名等との照合を
行ない、一致すれば、その「シバウラ」の漢字「芝浦」
を取出し、メモリ2−1に格納する。このようにして「
東京都港区芝浦」という住所地の漢字に変換される。
ので、制御部2は、スペースで区切られたカナを1つの
単語としてメモリ2−1より取出す。図示の例では、「
トウキョウト」、「ミナトク」、「シバウラ」がそれぞ
れ1つの単語を構成する。尚、実際には「ョ」は「ヨ」
として処理され、「バ」の濁点は1文字として扱われる
。しかし、本願においては、以下通常の表示を用いて説
明する。次に制御部2は、住所の地名の第1レベルから
第3レベルへと順に1単語ずつ取出して照合を行なう。 図示の例では、制御部2はまず、メモリ2−1より「ト
ウキョウト」を取出し、これとハードディスク5の単語
照合辞書ファイルの第1レベルファイルの都道府県名と
の照合を行ない、一致すればその「トウキョウト」の漢
字「東京都」を第1レベルファイルより取出し、メモリ
2−1に格納する。次に、制御部2は、メモリ2−1よ
り「ミナトク」を取出し、この「ミナトク」と、第2レ
ベルファイルの区名、市名等との照合を行ない、一致す
ればその「ミナトク」の漢字「港区」を第2レベルファ
イルより取出しメモリ2−1に格納する。更に制御部2
は、メモリ2−1より「シバウラ」を取出し、この「シ
バウラ」と、字辞書ファイルの町名、村名等との照合を
行ない、一致すれば、その「シバウラ」の漢字「芝浦」
を取出し、メモリ2−1に格納する。このようにして「
東京都港区芝浦」という住所地の漢字に変換される。
【0011】次に本発明の実施例を図1のフローチャー
トを用いて説明する。なお、図1は、本発明の一実施例
を示すフローチャートである。また具体例として、ここ
では住所カナの漢字変換を例にとり、図4、図5を参照
しながら図1を説明する。図4はカナデータの修正例を
示す説明図、図5はカナ単語選択画面例を示す説明図で
ある。まず、カナデータを入力する。帳票を使用する場
合は、帳票にカナデータを記述し、その帳票を手書き漢
字OCR装置1に入力する(ステップS1、S2)。帳
票入力でない場合はキーボード3にてオペレータが住所
地をカナ入力する(ステップS1、S3、S4)。ここ
で、ステップS3において、最初は、後述する警告色の
カナ単語がCRT4の画面には表示されていないので、
オペレータはキーボード3にて必要な住所地をカナ入力
すればよい。
トを用いて説明する。なお、図1は、本発明の一実施例
を示すフローチャートである。また具体例として、ここ
では住所カナの漢字変換を例にとり、図4、図5を参照
しながら図1を説明する。図4はカナデータの修正例を
示す説明図、図5はカナ単語選択画面例を示す説明図で
ある。まず、カナデータを入力する。帳票を使用する場
合は、帳票にカナデータを記述し、その帳票を手書き漢
字OCR装置1に入力する(ステップS1、S2)。帳
票入力でない場合はキーボード3にてオペレータが住所
地をカナ入力する(ステップS1、S3、S4)。ここ
で、ステップS3において、最初は、後述する警告色の
カナ単語がCRT4の画面には表示されていないので、
オペレータはキーボード3にて必要な住所地をカナ入力
すればよい。
【0012】手書き漢字OCR装置1で読取られたカナ
データ(認識データ)は、制御部2へ供給される。制御
部2は、このカナデータをメモリ2−1に格納する。ま
た、キーボード3からのカナ入力も制御部2のメモリ2
−1に格納される。ここで、メモリ2−1に格納された
カナデータは、図2で説明したように、第1レベルの地
名と第2レベルの地名の間、第2レベルの地名と第3レ
ベル(字レベル)の地名の間は、スペースで区切られて
おり、スペースで区切られたカナを1つの単語として扱
う。
データ(認識データ)は、制御部2へ供給される。制御
部2は、このカナデータをメモリ2−1に格納する。ま
た、キーボード3からのカナ入力も制御部2のメモリ2
−1に格納される。ここで、メモリ2−1に格納された
カナデータは、図2で説明したように、第1レベルの地
名と第2レベルの地名の間、第2レベルの地名と第3レ
ベル(字レベル)の地名の間は、スペースで区切られて
おり、スペースで区切られたカナを1つの単語として扱
う。
【0013】制御部2は、メモリ2−1に格納した住所
地のカナデータより、1単語のカナデータを取出す(ス
テップS5)。メモリ2−1より取出された1単語のカ
ナデータを入力カナという。ここで、メモリ2−1から
1単語のカナデータを取出す場合、第1レベルの方から
第3レベルの方に向って順番に取出すものとする。従っ
て、制御部2は、第1レベルの地名がなければ、最初か
ら第2レベルの地名をメモリ2−1より取出すことにな
る。なお、図4の例では、制御部2は、同図(a)に示
す如く第1レベルの地名「サイタマケケ」をメモリ2−
1より取出すことを示す。
地のカナデータより、1単語のカナデータを取出す(ス
テップS5)。メモリ2−1より取出された1単語のカ
ナデータを入力カナという。ここで、メモリ2−1から
1単語のカナデータを取出す場合、第1レベルの方から
第3レベルの方に向って順番に取出すものとする。従っ
て、制御部2は、第1レベルの地名がなければ、最初か
ら第2レベルの地名をメモリ2−1より取出すことにな
る。なお、図4の例では、制御部2は、同図(a)に示
す如く第1レベルの地名「サイタマケケ」をメモリ2−
1より取出すことを示す。
【0014】次に、制御部2は、入力カナとハードディ
スク5の単語照合辞書ファイルのカナデータとの単語照
合(マッチング)を行なう(ステップS6)。なお、図
4の例では、同図(b)に入力カナと第1レベルファイ
ルのカナとの単語照合を示す。この単語照合の結果、全
文字一致するカナが単語照合辞書ファイル内にある場合
、制御部2は、従来通り、単語照合辞書ファイルからそ
のカナに対しての漢字データを取出し、メモリ2−1内
の所定領域に格納する(ステップS7、S17)。もし
、単語照合の結果、全文字一致するカナが単語照合辞書
ファイル内にない場合、制御部2は、入力カナと、例え
ば同じ文字数をもつカナを単語照合辞書ファイルから探
す(ステップS7、S8)。尚、詳しくは、単語を辞書
により識別できる単位に区分してその区分ごとに辞書フ
ァイルと照合していくようにする。この最終単位の照合
で、制御部2は、入力カナと同じ文字数をもつカナが単
語照合辞書ファイルにない場合は、エラーとし、漢字デ
ータの生成は行なわない。制御部2は、入力カナと同じ
文字数をもつカナが単語照合辞書ファイル内にある場合
は、入力カナと、単語照合辞書ファイルにおける、その
カナの一致文字数を調べる(ステップS9、S10)。
スク5の単語照合辞書ファイルのカナデータとの単語照
合(マッチング)を行なう(ステップS6)。なお、図
4の例では、同図(b)に入力カナと第1レベルファイ
ルのカナとの単語照合を示す。この単語照合の結果、全
文字一致するカナが単語照合辞書ファイル内にある場合
、制御部2は、従来通り、単語照合辞書ファイルからそ
のカナに対しての漢字データを取出し、メモリ2−1内
の所定領域に格納する(ステップS7、S17)。もし
、単語照合の結果、全文字一致するカナが単語照合辞書
ファイル内にない場合、制御部2は、入力カナと、例え
ば同じ文字数をもつカナを単語照合辞書ファイルから探
す(ステップS7、S8)。尚、詳しくは、単語を辞書
により識別できる単位に区分してその区分ごとに辞書フ
ァイルと照合していくようにする。この最終単位の照合
で、制御部2は、入力カナと同じ文字数をもつカナが単
語照合辞書ファイルにない場合は、エラーとし、漢字デ
ータの生成は行なわない。制御部2は、入力カナと同じ
文字数をもつカナが単語照合辞書ファイル内にある場合
は、入力カナと、単語照合辞書ファイルにおける、その
カナの一致文字数を調べる(ステップS9、S10)。
【0015】なお、図4の例では、入力カナと単語照合
辞書ファイル(第1レベルファイル)のカナとの単語照
合(マッチング)の結果、一致するカナがない(図4(
b))。このため、入力カナと同じ文字数をもつカナ「
アオモリケン」と「サイタマケン」を単語照合辞書ファ
イル(第1レベルファイル)より探し出し、その探し出
したカナと入力カナとの一致文字数を調べる(図4(c
)、(d))。この結果、入力カナである「サイタマケ
ケ」は、「サイタマケン」と6文字中5文字一致するこ
とを示す(図4(d))。
辞書ファイル(第1レベルファイル)のカナとの単語照
合(マッチング)の結果、一致するカナがない(図4(
b))。このため、入力カナと同じ文字数をもつカナ「
アオモリケン」と「サイタマケン」を単語照合辞書ファ
イル(第1レベルファイル)より探し出し、その探し出
したカナと入力カナとの一致文字数を調べる(図4(c
)、(d))。この結果、入力カナである「サイタマケ
ケ」は、「サイタマケン」と6文字中5文字一致するこ
とを示す(図4(d))。
【0016】次に、制御部2は、一致した文字数が入力
カナの全文字数の半分以上、又はある値以上あるかどう
かを調べ、所定基準(一致した文字数が入力カナの全文
字数の半分以上又はある値以上)を満たしていなければ
、エラーとし、漢字データの生成を行なわない(ステッ
プS11、S12)。また、制御部2は、所定基準を満
たしていれば、所定基準を満たす、探し出した各カナの
うち、一致文字数が一番多いカナ(単語)を決定し選択
する(ステップS11、S12、S13)。この時、一
致文字数が一番多いカナ(単語)が複数個ある場合(複
数個ヒットされた場合)、制御部2は、入力カナを先に
探し出した(先にヒットした)カナに修正し、その修正
したカナを警告扱いとし、CRT4の画面表示は、警告
色として表示することにし(ステップS14、S15)
、ステップS18へ移行する。この警告色の表示の場合
については後述する。
カナの全文字数の半分以上、又はある値以上あるかどう
かを調べ、所定基準(一致した文字数が入力カナの全文
字数の半分以上又はある値以上)を満たしていなければ
、エラーとし、漢字データの生成を行なわない(ステッ
プS11、S12)。また、制御部2は、所定基準を満
たしていれば、所定基準を満たす、探し出した各カナの
うち、一致文字数が一番多いカナ(単語)を決定し選択
する(ステップS11、S12、S13)。この時、一
致文字数が一番多いカナ(単語)が複数個ある場合(複
数個ヒットされた場合)、制御部2は、入力カナを先に
探し出した(先にヒットした)カナに修正し、その修正
したカナを警告扱いとし、CRT4の画面表示は、警告
色として表示することにし(ステップS14、S15)
、ステップS18へ移行する。この警告色の表示の場合
については後述する。
【0017】次に、制御部2は、一致文字数が一番多い
カナ(単語)が1個である場合(ヒットされたカナ(単
語)が1個である場合)、入力カナをそのヒットされた
カナ(単語照合辞書ファイルに登録されている正しいカ
ナ)に修正する(ステップS14、S16)。そして、
制御部2は、その修正した正しいカナに対しての漢字デ
ータを単語照合ファイルより取出し、メモリ2−1の所
定領域に格納する(ステップS17)。なお、図4の例
では、入力カナ「サイタマケケ」を、一致文字数の一番
多いカナ「サイタマケン」に修正し、その修正した正し
いカナ「サイタマケン」に対しての漢字データ「埼玉県
」をハードディスク5の単語照合辞書ファイル(第1レ
ベルファイル)より取出すことを示す(図4(d)、(
e)、(f)参照)。以上の処理を入力されたカナデー
タ分(各単語分)行なう(ステップS18、S5〜S1
7)。
カナ(単語)が1個である場合(ヒットされたカナ(単
語)が1個である場合)、入力カナをそのヒットされた
カナ(単語照合辞書ファイルに登録されている正しいカ
ナ)に修正する(ステップS14、S16)。そして、
制御部2は、その修正した正しいカナに対しての漢字デ
ータを単語照合ファイルより取出し、メモリ2−1の所
定領域に格納する(ステップS17)。なお、図4の例
では、入力カナ「サイタマケケ」を、一致文字数の一番
多いカナ「サイタマケン」に修正し、その修正した正し
いカナ「サイタマケン」に対しての漢字データ「埼玉県
」をハードディスク5の単語照合辞書ファイル(第1レ
ベルファイル)より取出すことを示す(図4(d)、(
e)、(f)参照)。以上の処理を入力されたカナデー
タ分(各単語分)行なう(ステップS18、S5〜S1
7)。
【0018】次に、入力カナ単語の全てについて上記処
理(ステップS5〜S18)を終えた後、入力カナ単語
に警告色表示の扱い(ステップS15)を受けたものが
ある場合、正しいカナにすべくCRT4の画面4−1を
使ってキーボード3で入力する必要がある。これについ
て図5を用いて図1を説明する。警告色表示の取扱いを
受けると、CRT4の画面4−1のカナフィールドに警
告色の表示がなされる。この場合CRT4の画面を4−
1を使ってキーボード3で入力する必要があるので、ス
テップS1よりステップS3を経てステップS19へ移
行する。図5(a)では、CRT4の画面4−1に表示
された住所の第2レベルの地名箇所(斜線部分)が警告
色表示されている。オペレータはキーボード3を用いて
、警告色表示のカナ単語の先頭にカーソルを図5(a)
に示す如くセットした上で完了キーを押下げる。 制御部2は、これにもとづき警告色表示のカナ単語に対
しての候補カナ単語(この候補カナ単語は、前述した複
数個セットされた場合に入力カナを修正したカナ以外の
残りのカナ単語である。)を画面4−1に表示させる(
図5(b))。オペレータはCRT4の画面4−1に表
示された候補カナ単語に、選択すべき、候補カナ単語が
あれば該当する番号、たとえば“1”をキーボード3を
用いて選択し入力する(図5(b)、ステップS19、
S4)。制御部2はこれにもとづきオペレータが選択し
たカナ単語、たとえば「カワゴエシ」をCRT4の画面
4−1に表示させる(図5(c))。
理(ステップS5〜S18)を終えた後、入力カナ単語
に警告色表示の扱い(ステップS15)を受けたものが
ある場合、正しいカナにすべくCRT4の画面4−1を
使ってキーボード3で入力する必要がある。これについ
て図5を用いて図1を説明する。警告色表示の取扱いを
受けると、CRT4の画面4−1のカナフィールドに警
告色の表示がなされる。この場合CRT4の画面を4−
1を使ってキーボード3で入力する必要があるので、ス
テップS1よりステップS3を経てステップS19へ移
行する。図5(a)では、CRT4の画面4−1に表示
された住所の第2レベルの地名箇所(斜線部分)が警告
色表示されている。オペレータはキーボード3を用いて
、警告色表示のカナ単語の先頭にカーソルを図5(a)
に示す如くセットした上で完了キーを押下げる。 制御部2は、これにもとづき警告色表示のカナ単語に対
しての候補カナ単語(この候補カナ単語は、前述した複
数個セットされた場合に入力カナを修正したカナ以外の
残りのカナ単語である。)を画面4−1に表示させる(
図5(b))。オペレータはCRT4の画面4−1に表
示された候補カナ単語に、選択すべき、候補カナ単語が
あれば該当する番号、たとえば“1”をキーボード3を
用いて選択し入力する(図5(b)、ステップS19、
S4)。制御部2はこれにもとづきオペレータが選択し
たカナ単語、たとえば「カワゴエシ」をCRT4の画面
4−1に表示させる(図5(c))。
【0019】なお字レベルの地名に警告色表示があった
場合は、オペレータが上記の如くして字レベルの入力カ
ナを確定した上で、この確定したカナに対して再びステ
ップS5〜S18の処理を繰返す。これは字レベルの地
名の数は多いので、再確認のためである。このようにし
て、警告色表示の箇所のカナ単語を確定してやると、制
御部2は、確定したカナ単語に対する漢字データを単語
照合辞書ファイルより取出してメモリ2−1の所定領域
に格納する。これにより住所の入力カナの全ての漢字デ
ータがメモリ2−1の所定領域に取込まれたことになる
。これによりOCRシステム7は住所の入力カナに1部
誤りの文字があっても正しい漢字データを出力すること
ができる。
場合は、オペレータが上記の如くして字レベルの入力カ
ナを確定した上で、この確定したカナに対して再びステ
ップS5〜S18の処理を繰返す。これは字レベルの地
名の数は多いので、再確認のためである。このようにし
て、警告色表示の箇所のカナ単語を確定してやると、制
御部2は、確定したカナ単語に対する漢字データを単語
照合辞書ファイルより取出してメモリ2−1の所定領域
に格納する。これにより住所の入力カナの全ての漢字デ
ータがメモリ2−1の所定領域に取込まれたことになる
。これによりOCRシステム7は住所の入力カナに1部
誤りの文字があっても正しい漢字データを出力すること
ができる。
【0020】以上の説明から判るように、住所の入力カ
ナデータに1部誤った文字があっても、制御部2は入力
カナデータを正しいカナデータに修正し、その修正した
カナデータに対する漢字データをハードディスク5の単
語照合辞書ファイルより取出すことができる。従って、
OCRシステム7は住所の入力カナデータに一部誤りが
あっても、正しいカナデータに修正した上で、ハードデ
ィスク5の単語照合辞書ファイルに登録された正しい漢
字データに変換して出力することができる。本発明は本
実施例に限定されることなく本発明の要旨を逸脱しない
範囲で、種々の応用および変形が考えられる。たとえば
本実施例においては、住所カナの漢字変換について言及
したけれども、本発明はこれに限定されることなく、氏
名その他のカナ(単語)の漢字変換に適用することがで
きる。
ナデータに1部誤った文字があっても、制御部2は入力
カナデータを正しいカナデータに修正し、その修正した
カナデータに対する漢字データをハードディスク5の単
語照合辞書ファイルより取出すことができる。従って、
OCRシステム7は住所の入力カナデータに一部誤りが
あっても、正しいカナデータに修正した上で、ハードデ
ィスク5の単語照合辞書ファイルに登録された正しい漢
字データに変換して出力することができる。本発明は本
実施例に限定されることなく本発明の要旨を逸脱しない
範囲で、種々の応用および変形が考えられる。たとえば
本実施例においては、住所カナの漢字変換について言及
したけれども、本発明はこれに限定されることなく、氏
名その他のカナ(単語)の漢字変換に適用することがで
きる。
【0021】
【発明の効果】上述したように本発明によれば、入力さ
れたカナデータに1部誤った文字があっても、辞書ファ
イルに登録された正しいカナデータに修正できるので、
入力カナを正しい漢字データに変換することができる等
の効果を奏する。
れたカナデータに1部誤った文字があっても、辞書ファ
イルに登録された正しいカナデータに修正できるので、
入力カナを正しい漢字データに変換することができる等
の効果を奏する。
【図1】本発明の一実施例を示すフローチャートである
。
。
【図2】本発明に係る単語照合処理概要の説明図である
。
。
【図3】本発明に係るOCR装置の一実施例を示すブロ
ック図である。
ック図である。
【図4】カナデータ修正例を示す説明図である。
【図5】カナ単語選択画面例を示す説明図である。
1 手書き漢字OCR装置
2 制御部
2−1 メモリ
3 キーボード
4 CRT
5 ハードディスク
6 変換装置
7 OCRシステム
Claims (1)
- 【請求項1】 入力データを記憶手段に設けた辞書フ
ァイルのカナデータと単語照合し、一致したときそのカ
ナデータに対しての漢字データを前記辞書ファイルより
取出すようにしたカナ−漢字変換方法において、前記入
力カナデータと同じカナデータが前記辞書ファイルにな
いとき、前記入力カナデータと同じ文字数をもつカナデ
ータを前記辞書ファイルから検索し、その検索した各カ
ナデータと前記入力カナデータとの一致文字数を調べ、
その一致文字数が前記入力カナデータの文字数に対し所
定の割合以上であれば、前記検索した各カナデータのう
ち、前記一致文字数が最も多いカナデータを選択し、前
記入力カナをその選択したカナデータに修正し、その修
正したカナデータに対しての漢字データを前記辞書ファ
イルより取出すようにしたことを特徴とするカナ−漢字
変換方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3072278A JPH04283853A (ja) | 1991-03-12 | 1991-03-12 | カナ−漢字変換方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3072278A JPH04283853A (ja) | 1991-03-12 | 1991-03-12 | カナ−漢字変換方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH04283853A true JPH04283853A (ja) | 1992-10-08 |
Family
ID=13484663
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3072278A Pending JPH04283853A (ja) | 1991-03-12 | 1991-03-12 | カナ−漢字変換方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH04283853A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011210149A (ja) * | 2010-03-30 | 2011-10-20 | Baidu Japan Inc | 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム |
-
1991
- 1991-03-12 JP JP3072278A patent/JPH04283853A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011210149A (ja) * | 2010-03-30 | 2011-10-20 | Baidu Japan Inc | 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5161245A (en) | Pattern recognition system having inter-pattern spacing correction | |
| JPH11505052A (ja) | 語彙辞書の検索範囲を削減するシステム及び方法 | |
| JPH04283853A (ja) | カナ−漢字変換方法 | |
| JP2000331023A (ja) | 情報検索装置及び情報検索処理プログラムを記憶した記憶媒体 | |
| JP3058706B2 (ja) | 住所カナの漢字変換方法 | |
| AU612263B2 (en) | Method of data retrieval from a data base and a system therefor | |
| JPS60233782A (ja) | 住所読取装置 | |
| JPH0962700A (ja) | 辞書構築方法及び装置 | |
| JP4139805B2 (ja) | 字句をデータに変換する装置、方法及びプログラム | |
| JP2922365B2 (ja) | Ocr処理システムにおける漢字住所データ処理方法 | |
| JPS61133487A (ja) | 文字認識装置 | |
| JPH11120294A (ja) | 文字認識装置および媒体 | |
| JP2865443B2 (ja) | カナ氏名もしくはカナ法人名表記の漢字変換装置 | |
| JPH0267684A (ja) | 校正支援方法 | |
| JPH0498358A (ja) | カナ住所知識処理方式 | |
| JP2839515B2 (ja) | 文字読取システム | |
| JPH04256193A (ja) | 認識文字の単語登録処理方式 | |
| JPH0355874B2 (ja) | ||
| JPH0248938B2 (ja) | ||
| JPS62256070A (ja) | 文書処理装置 | |
| JPH0863487A (ja) | 文書検索方法及び文書検索装置 | |
| JPS6029823A (ja) | 適応型記号列変換方式 | |
| JPH02103690A (ja) | 文字読取り装置 | |
| JPH0394373A (ja) | 電子翻訳器 | |
| JPH0258187A (ja) | 文字認識装置 |