JPH04283853A

JPH04283853A - カナ−漢字変換方法

Info

Publication number: JPH04283853A
Application number: JP3072278A
Authority: JP
Inventors: Yukari Sato; ゆかり佐藤; Tsunefumi Shindo; 進藤　恒文
Original assignee: Oki Electric Industry Co Ltd; Oki Software Co Ltd
Current assignee: Oki Electric Industry Co Ltd; Oki Software Co Ltd
Priority date: 1991-03-12
Filing date: 1991-03-12
Publication date: 1992-10-08

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、住所等のカナを漢字に
変換する方法に関し、特に、住所（居所も含む）等の入
力カナデータに１部誤った文字があっても、入力カナデ
ータを正しいカナデータに修正し正しい漢字データに変
換するカナ−漢字変換方法に関する。

【０００２】

【従来の技術】従来、たとえば保険会社等では、帳票に
住所、氏名を記載する場合、住所を漢字で記載し、氏名
をカナで記載していた。この帳票をＡＮＫ文字に加えて
手書きの漢字の認識が行なえる光学式文字読取装置（以
下、ＯＣＲ装置という。）で読取る。その読取った住所
の漢字データをカナデータに変換する場合、変換装置で
その読取った漢字データと記憶装置に格納してある漢字
辞書（漢字とそのカナとが対となって登録されている。）ファイルの登録漢字との単語照合を行なう。ここで、
単語照合とは、都道府県名のレベル（第１レベルという
。）と市、区等の地名レベル（第２レベルという。）と
町、村等の地名レベル（第３レベル、特にこれを字レベ
ルという。）に分けて、レベル毎の地名を１単語として
扱い、各単語毎に照合を行なうことをいう。

【０００３】単語照合により一致したとき、その登録漢
字に対してのカナデータを漢字辞書ファイルより取出し
てカナデータを生成していた。しかし、このように、住
所の手書き漢字から正しいカナデータに変換することは
、正解率が悪く、かつ単語照合に時間がかかっていた。一方、帳票に記載した氏名については、カナ書き或はカ
ナ付き漢字のため、手書き漢字ＯＣＲ装置による氏名の
カナデータの認識率（正解率）が高く、しかも照合に時
間がかからないという利点があった。そこで、ユーザか
らの希望により、帳票の住所もカナ書きにさせることに
し、住所の単語照合によりカナデータから漢字データを
生成する機能（住所のカナ漢字変換）を変換装置に追加
することにした。この場合、カナは、漢字のように複雑
な字体でないため、手書き漢字ＯＣＲ装置からのカナの
認識結果である読取データは漢字のときよりも正確であ
るため、変換装置よりカナ−漢字変換されて出力される
漢字データは、正常に変換されたものとして処理を行な
っていた。

【０００４】

【発明が解決しようとする課題】しかしながら、上述し
た従来のカナ漢字変換方法では次のような問題があった
。住所データの場合には、手書き漢字ＯＣＲ装置にて読
取られた入力カナデータが、記憶装置の辞書ファイルに
登録されているカナデータと全く同じ場合のみ、漢字デ
ータに変換することができ、入力カナデータに１文字で
も異なる文字が含まれている場合（この場合、入力カナ
データは辞書ファイルのカナデータとは一致しない。）
は、全てエラーとして扱い、漢字データに変換すること
ができなかった。本発明の目的は、このような従来の問
題点に鑑み、住所等の入力カナデータに異常文字（辞書
ファイルに登録されていない文字）が含まれている場合
でも入力カナデータを正しいカナデータに修正（書き換
え）して、正しい漢字データに変換することができるよ
うにしたカナ−漢字変換方法を提供することにある。

【０００５】

【課題を解決するための手段】本発明は、入力カナデー
タを記憶手段に設けた辞書ファイルのカナデータと単語
照合し、一致したときそのカナデータに対しての漢字デ
ータを前記辞書ファイルより取出すようにしたカナ−漢
字変換方法において、前記入力カナデータと同じカナデ
ータが前記辞書ファイルにないとき、前記入力カナデー
タと同じ文字数をもつカナデータを前記辞書ファイルか
ら検索し、その検索した各カナデータと前記入力カナデ
ータとの一致文字数を調べ、その一致文字数が前記入力
カナデータの文字数に対し所定の割合以上であれば、前
記検索した各カナデータのうち、前記一致文字数が最も
多いカナデータを選択し、前記入力カナをその選択した
カナデータに修正し、その修正したカナデータに対して
の漢字データを前記辞書ファイルより取出すようにした
ものである。

【０００６】

【作用】入力カナデータと同じカナデータが字辞書ファ
イルにないとき、入力カナデータと同じ文字数をもつカ
ナデータを辞書ファイルから検索し、その検索したカナ
データと入力カナデータとの一致文字数を調べ、その一
致文字数が入力カナデータの文字数に対し所定の割合以
上であれば、一致文字数が最も多いカナデータを選択し
、入力カナをその選択したカナデータに修正した上で、
正しい漢字データを辞書ファイルより取出す。従って、
入力カナデータに１部誤った文字があっても、正しいカ
ナデータに修正できるので、入力カナを正しい漢字デー
タに変換できる。

【０００７】

【実施例】次に本発明の実施例について説明する。図３
は本発明に係るＯＣＲシステムの一実施例を示すブロッ
ク図である。同図において、１はＡＮＫの文字認識に加
えて手書き漢字の文字認識の行なえるＯＣＲ装置（以下
、手書き漢字ＯＣＲ装置という。）であって、この手書
き漢字ＯＣＲ装置１は、読取媒体としての帳票の漢字及
びカナ等を読取って文字認識を行ない、その読取データ
（認識データ）を制御部２に渡す。２は、メモリ２−１
を内蔵する制御部であって、この制御部２に手書き漢字
ＯＣＲ装置１、入力装置としてのキーボード（ＫＢとい
う。）３、表示装置（ＣＲＴという。）４およびハード
ディスク（ＨＤという。）５が接続されている。制御部
２は、これらの手書き漢字ＯＣＲ装置１、ＣＲＴ４およ
びハードディスク５等を統括制御するものである。

【０００８】ここで、ＣＲＴ４は、入力データを表示し
たり、手書き漢字ＯＣＲ装置１からの読取データを表示
したり等するものである。また、ハードディスク５には
、単語照合辞書ファイル、特に住所の地名の単語照合用
辞書ファイル（地名のカナとそのカナの漢字が登録され
ている。）等が格納されている。ここで、住所の地名の
単語照合辞書ファイルには、都道府県名レベルのファイ
ル（第１レベルファイルという。）と区、市、郡等の地
名レベルのファイル（第２レベルファイルという。）と
町、村等の地名レベルのファイル（第３レベルファイル
、又は字レベルファイルという。）がある。第２レベル
ファイルは、第１レベルの各都道府県別に分類されて設
けられている。第３レベルファイルは、更に第２レベル
の該当する各市、区、郡別に分類されて設けられている
。また、６は、変換装置であって、この変換装置６は、
入力カナデータを漢字データに変換したり、漢字データ
をカナデータに変換したり等するものである。変換装置
６は、制御部２とキーボード３とＣＲＴ４とハードディ
スク５等から構成される。

【０００９】また、７は読取媒体としてのたとえば帳票
を読取り、その読取った読取データ（認識データ）と辞
書ファイルのデータとの照合を行ない、たとえば読取デ
ータであるカナデータ（又は漢字データ）を漢字データ
（又はカナデータ）に変換したりするＯＣＲシステムで
ある。このＯＣＲシステム７は、キーボード３からの入
力データと辞書ファイルのデータとの照合を行ない、入
力データをカナデータ又は漢字データ等に変換すること
もできるものである。次に、本発明に係る単語照合の処
理概要を、図２を用いて説明する。なお、図２は本発明
に係る単語照合の処理概要を説明する説明図である。読
取媒体としての帳票１１（カナ書きの住所地が図示の如
くカナで記載されている。）を手書き漢字ＯＣＲ装置１
に入力する。又は、キーボード３にて図示の如く住所地
をカナ入力する。ＯＣＲ装置１によるデータやキーボー
ド３による入力カナデータを、制御部２のメモリ２−１
に格納させる。次に制御部２は、単語照合（住所カナの
漢字変換）を行なう。この単語照合について、以下説明
する。

【００１０】カナデータは、スペースで区切られている
ので、制御部２は、スペースで区切られたカナを１つの
単語としてメモリ２−１より取出す。図示の例では、「
トウキョウト」、「ミナトク」、「シバウラ」がそれぞ
れ１つの単語を構成する。尚、実際には「ョ」は「ヨ」
として処理され、「バ」の濁点は１文字として扱われる
。しかし、本願においては、以下通常の表示を用いて説
明する。次に制御部２は、住所の地名の第１レベルから
第３レベルへと順に１単語ずつ取出して照合を行なう。図示の例では、制御部２はまず、メモリ２−１より「ト
ウキョウト」を取出し、これとハードディスク５の単語
照合辞書ファイルの第１レベルファイルの都道府県名と
の照合を行ない、一致すればその「トウキョウト」の漢
字「東京都」を第１レベルファイルより取出し、メモリ
２−１に格納する。次に、制御部２は、メモリ２−１よ
り「ミナトク」を取出し、この「ミナトク」と、第２レ
ベルファイルの区名、市名等との照合を行ない、一致す
ればその「ミナトク」の漢字「港区」を第２レベルファ
イルより取出しメモリ２−１に格納する。更に制御部２
は、メモリ２−１より「シバウラ」を取出し、この「シ
バウラ」と、字辞書ファイルの町名、村名等との照合を
行ない、一致すれば、その「シバウラ」の漢字「芝浦」
を取出し、メモリ２−１に格納する。このようにして「
東京都港区芝浦」という住所地の漢字に変換される。

【００１１】次に本発明の実施例を図１のフローチャー
トを用いて説明する。なお、図１は、本発明の一実施例
を示すフローチャートである。また具体例として、ここ
では住所カナの漢字変換を例にとり、図４、図５を参照
しながら図１を説明する。図４はカナデータの修正例を
示す説明図、図５はカナ単語選択画面例を示す説明図で
ある。まず、カナデータを入力する。帳票を使用する場
合は、帳票にカナデータを記述し、その帳票を手書き漢
字ＯＣＲ装置１に入力する（ステップＳ１、Ｓ２）。帳
票入力でない場合はキーボード３にてオペレータが住所
地をカナ入力する（ステップＳ１、Ｓ３、Ｓ４）。ここ
で、ステップＳ３において、最初は、後述する警告色の
カナ単語がＣＲＴ４の画面には表示されていないので、
オペレータはキーボード３にて必要な住所地をカナ入力
すればよい。

【００１２】手書き漢字ＯＣＲ装置１で読取られたカナ
データ（認識データ）は、制御部２へ供給される。制御
部２は、このカナデータをメモリ２−１に格納する。ま
た、キーボード３からのカナ入力も制御部２のメモリ２
−１に格納される。ここで、メモリ２−１に格納された
カナデータは、図２で説明したように、第１レベルの地
名と第２レベルの地名の間、第２レベルの地名と第３レ
ベル（字レベル）の地名の間は、スペースで区切られて
おり、スペースで区切られたカナを１つの単語として扱
う。

【００１３】制御部２は、メモリ２−１に格納した住所
地のカナデータより、１単語のカナデータを取出す（ス
テップＳ５）。メモリ２−１より取出された１単語のカ
ナデータを入力カナという。ここで、メモリ２−１から
１単語のカナデータを取出す場合、第１レベルの方から
第３レベルの方に向って順番に取出すものとする。従っ
て、制御部２は、第１レベルの地名がなければ、最初か
ら第２レベルの地名をメモリ２−１より取出すことにな
る。なお、図４の例では、制御部２は、同図（ａ）に示
す如く第１レベルの地名「サイタマケケ」をメモリ２−
１より取出すことを示す。

【００１４】次に、制御部２は、入力カナとハードディ
スク５の単語照合辞書ファイルのカナデータとの単語照
合（マッチング）を行なう（ステップＳ６）。なお、図
４の例では、同図（ｂ）に入力カナと第１レベルファイ
ルのカナとの単語照合を示す。この単語照合の結果、全
文字一致するカナが単語照合辞書ファイル内にある場合
、制御部２は、従来通り、単語照合辞書ファイルからそ
のカナに対しての漢字データを取出し、メモリ２−１内
の所定領域に格納する（ステップＳ７、Ｓ１７）。もし
、単語照合の結果、全文字一致するカナが単語照合辞書
ファイル内にない場合、制御部２は、入力カナと、例え
ば同じ文字数をもつカナを単語照合辞書ファイルから探
す（ステップＳ７、Ｓ８）。尚、詳しくは、単語を辞書
により識別できる単位に区分してその区分ごとに辞書フ
ァイルと照合していくようにする。この最終単位の照合
で、制御部２は、入力カナと同じ文字数をもつカナが単
語照合辞書ファイルにない場合は、エラーとし、漢字デ
ータの生成は行なわない。制御部２は、入力カナと同じ
文字数をもつカナが単語照合辞書ファイル内にある場合
は、入力カナと、単語照合辞書ファイルにおける、その
カナの一致文字数を調べる（ステップＳ９、Ｓ１０）。

【００１５】なお、図４の例では、入力カナと単語照合
辞書ファイル（第１レベルファイル）のカナとの単語照
合（マッチング）の結果、一致するカナがない（図４（
ｂ））。このため、入力カナと同じ文字数をもつカナ「
アオモリケン」と「サイタマケン」を単語照合辞書ファ
イル（第１レベルファイル）より探し出し、その探し出
したカナと入力カナとの一致文字数を調べる（図４（ｃ
）、（ｄ））。この結果、入力カナである「サイタマケ
ケ」は、「サイタマケン」と６文字中５文字一致するこ
とを示す（図４（ｄ））。

【００１６】次に、制御部２は、一致した文字数が入力
カナの全文字数の半分以上、又はある値以上あるかどう
かを調べ、所定基準（一致した文字数が入力カナの全文
字数の半分以上又はある値以上）を満たしていなければ
、エラーとし、漢字データの生成を行なわない（ステッ
プＳ１１、Ｓ１２）。また、制御部２は、所定基準を満
たしていれば、所定基準を満たす、探し出した各カナの
うち、一致文字数が一番多いカナ（単語）を決定し選択
する（ステップＳ１１、Ｓ１２、Ｓ１３）。この時、一
致文字数が一番多いカナ（単語）が複数個ある場合（複
数個ヒットされた場合）、制御部２は、入力カナを先に
探し出した（先にヒットした）カナに修正し、その修正
したカナを警告扱いとし、ＣＲＴ４の画面表示は、警告
色として表示することにし（ステップＳ１４、Ｓ１５）
、ステップＳ１８へ移行する。この警告色の表示の場合
については後述する。

【００１７】次に、制御部２は、一致文字数が一番多い
カナ（単語）が１個である場合（ヒットされたカナ（単
語）が１個である場合）、入力カナをそのヒットされた
カナ（単語照合辞書ファイルに登録されている正しいカ
ナ）に修正する（ステップＳ１４、Ｓ１６）。そして、
制御部２は、その修正した正しいカナに対しての漢字デ
ータを単語照合ファイルより取出し、メモリ２−１の所
定領域に格納する（ステップＳ１７）。なお、図４の例
では、入力カナ「サイタマケケ」を、一致文字数の一番
多いカナ「サイタマケン」に修正し、その修正した正し
いカナ「サイタマケン」に対しての漢字データ「埼玉県
」をハードディスク５の単語照合辞書ファイル（第１レ
ベルファイル）より取出すことを示す（図４（ｄ）、（
ｅ）、（ｆ）参照）。以上の処理を入力されたカナデー
タ分（各単語分）行なう（ステップＳ１８、Ｓ５〜Ｓ１
７）。

【００１８】次に、入力カナ単語の全てについて上記処
理（ステップＳ５〜Ｓ１８）を終えた後、入力カナ単語
に警告色表示の扱い（ステップＳ１５）を受けたものが
ある場合、正しいカナにすべくＣＲＴ４の画面４−１を
使ってキーボード３で入力する必要がある。これについ
て図５を用いて図１を説明する。警告色表示の取扱いを
受けると、ＣＲＴ４の画面４−１のカナフィールドに警
告色の表示がなされる。この場合ＣＲＴ４の画面を４−
１を使ってキーボード３で入力する必要があるので、ス
テップＳ１よりステップＳ３を経てステップＳ１９へ移
行する。図５（ａ）では、ＣＲＴ４の画面４−１に表示
された住所の第２レベルの地名箇所（斜線部分）が警告
色表示されている。オペレータはキーボード３を用いて
、警告色表示のカナ単語の先頭にカーソルを図５（ａ）
に示す如くセットした上で完了キーを押下げる。制御部２は、これにもとづき警告色表示のカナ単語に対
しての候補カナ単語（この候補カナ単語は、前述した複
数個セットされた場合に入力カナを修正したカナ以外の
残りのカナ単語である。）を画面４−１に表示させる（
図５（ｂ））。オペレータはＣＲＴ４の画面４−１に表
示された候補カナ単語に、選択すべき、候補カナ単語が
あれば該当する番号、たとえば“１”をキーボード３を
用いて選択し入力する（図５（ｂ）、ステップＳ１９、
Ｓ４）。制御部２はこれにもとづきオペレータが選択し
たカナ単語、たとえば「カワゴエシ」をＣＲＴ４の画面
４−１に表示させる（図５（ｃ））。

【００１９】なお字レベルの地名に警告色表示があった
場合は、オペレータが上記の如くして字レベルの入力カ
ナを確定した上で、この確定したカナに対して再びステ
ップＳ５〜Ｓ１８の処理を繰返す。これは字レベルの地
名の数は多いので、再確認のためである。このようにし
て、警告色表示の箇所のカナ単語を確定してやると、制
御部２は、確定したカナ単語に対する漢字データを単語
照合辞書ファイルより取出してメモリ２−１の所定領域
に格納する。これにより住所の入力カナの全ての漢字デ
ータがメモリ２−１の所定領域に取込まれたことになる
。これによりＯＣＲシステム７は住所の入力カナに１部
誤りの文字があっても正しい漢字データを出力すること
ができる。

【００２０】以上の説明から判るように、住所の入力カ
ナデータに１部誤った文字があっても、制御部２は入力
カナデータを正しいカナデータに修正し、その修正した
カナデータに対する漢字データをハードディスク５の単
語照合辞書ファイルより取出すことができる。従って、
ＯＣＲシステム７は住所の入力カナデータに一部誤りが
あっても、正しいカナデータに修正した上で、ハードデ
ィスク５の単語照合辞書ファイルに登録された正しい漢
字データに変換して出力することができる。本発明は本
実施例に限定されることなく本発明の要旨を逸脱しない
範囲で、種々の応用および変形が考えられる。たとえば
本実施例においては、住所カナの漢字変換について言及
したけれども、本発明はこれに限定されることなく、氏
名その他のカナ（単語）の漢字変換に適用することがで
きる。

【００２１】

【発明の効果】上述したように本発明によれば、入力さ
れたカナデータに１部誤った文字があっても、辞書ファ
イルに登録された正しいカナデータに修正できるので、
入力カナを正しい漢字データに変換することができる等
の効果を奏する。

【図面の簡単な説明】

【図１】本発明の一実施例を示すフローチャートである
。

【図２】本発明に係る単語照合処理概要の説明図である
。

【図３】本発明に係るＯＣＲ装置の一実施例を示すブロ
ック図である。

【図４】カナデータ修正例を示す説明図である。

【図５】カナ単語選択画面例を示す説明図である。

【符号の説明】

１　　手書き漢字ＯＣＲ装置２　　制御部２−１　　メモリ３　　キーボード４　　ＣＲＴ５　　ハードディスク６　　変換装置７　　ＯＣＲシステム

Claims

【特許請求の範囲】

【請求項１】　　入力データを記憶手段に設けた辞書フ
ァイルのカナデータと単語照合し、一致したときそのカ
ナデータに対しての漢字データを前記辞書ファイルより
取出すようにしたカナ−漢字変換方法において、前記入
力カナデータと同じカナデータが前記辞書ファイルにな
いとき、前記入力カナデータと同じ文字数をもつカナデ
ータを前記辞書ファイルから検索し、その検索した各カ
ナデータと前記入力カナデータとの一致文字数を調べ、
その一致文字数が前記入力カナデータの文字数に対し所
定の割合以上であれば、前記検索した各カナデータのう
ち、前記一致文字数が最も多いカナデータを選択し、前
記入力カナをその選択したカナデータに修正し、その修
正したカナデータに対しての漢字データを前記辞書ファ
イルより取出すようにしたことを特徴とするカナ−漢字
変換方法。