JPH02166587A - 単語検索方式 - Google Patents
単語検索方式Info
- Publication number
- JPH02166587A JPH02166587A JP63320447A JP32044788A JPH02166587A JP H02166587 A JPH02166587 A JP H02166587A JP 63320447 A JP63320447 A JP 63320447A JP 32044788 A JP32044788 A JP 32044788A JP H02166587 A JPH02166587 A JP H02166587A
- Authority
- JP
- Japan
- Prior art keywords
- word
- code
- character
- information
- address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[発明の目的]
(産業上の利用分野)
本発明は、郵便物の住所等の読取り時に用いられる単語
検索方式に関する。
検索方式に関する。
(従来の技術)
例えば、郵便物に記入されている住所を読取る際に、単
語を検索する必要がある。このため、検索したい文字列
と辞書の中にある文字列とを文字単位で比較して一致し
ている文字列を発見し、単語IDを求めていた。
語を検索する必要がある。このため、検索したい文字列
と辞書の中にある文字列とを文字単位で比較して一致し
ている文字列を発見し、単語IDを求めていた。
しかしながら、このように、文字列を比較する方法だと
、辞書の容量が大きくなるにつれて、検索時間が非常に
長くなってしまった。
、辞書の容量が大きくなるにつれて、検索時間が非常に
長くなってしまった。
(発明が解決しようとする課題)
このように従来の技術では、単語の検索に際し、非常に
長時間となる恐れがあった。そこで、この発明は、この
ような欠点を除去し、より高速な単語検索方式を提供す
ることを目的とする。
長時間となる恐れがあった。そこで、この発明は、この
ような欠点を除去し、より高速な単語検索方式を提供す
ることを目的とする。
[発明の構成]
(課題を解決するための手段)
本発明は、上記課題を解決するために、文字列を一定の
規則に従ってコードに変換すると共に、このコードに対
応して実際の文字列の存在の有無をテーブル化しておき
、上記コードをもとにして、上記テーブルの内容を照合
するものである。
規則に従ってコードに変換すると共に、このコードに対
応して実際の文字列の存在の有無をテーブル化しておき
、上記コードをもとにして、上記テーブルの内容を照合
するものである。
(作用)
本発明では、上記テーブルには、コードに対応した文字
列が存在するか否かの情報が格納されているので、検索
対象の単語から該当コードを得、このコードをもとにテ
ーブルを引くだけで、単語検索処理が完了する。
列が存在するか否かの情報が格納されているので、検索
対象の単語から該当コードを得、このコードをもとにテ
ーブルを引くだけで、単語検索処理が完了する。
(実施例)
次に、本発明の一実施例について図面を用いて詳細に説
明する。
明する。
この実施例は、郵便物の住所認識装置に本発明を適用し
たものである。この装置は、第1図に示すように、郵便
物Pを読取る読取部11を含む。
たものである。この装置は、第1図に示すように、郵便
物Pを読取る読取部11を含む。
この読取部11は例えば、CCD等で構成される光電変
換装置を含む。よって、郵便物上の住所情報は、全て、
0.1の情報に変換される。
換装置を含む。よって、郵便物上の住所情報は、全て、
0.1の情報に変換される。
この変換された情報は、文字認識部13に供給される。
この文字認識部13では、供給された0゜1情報をから
、住所情報に該当する部分の情報を抜出す。これには、
多くの方法があるが、例えば、粗く画像を読取り、画像
情報の量が多い方を住所が書かれている面(以下、表と
いう)と推定する。
、住所情報に該当する部分の情報を抜出す。これには、
多くの方法があるが、例えば、粗く画像を読取り、画像
情報の量が多い方を住所が書かれている面(以下、表と
いう)と推定する。
続いて、表に書かれている画像をより精細に読取る。例
えば、前者を2本/ m m としたら、後者では8
本/mmで読む。
えば、前者を2本/ m m としたら、後者では8
本/mmで読む。
次に、光電変換装置のスキャンする方向、又は、これに
垂直な方向に射影を取り、画像情報の分布を取る。この
分布を取る際にも、最初は粗い画像で実行する。これに
より、画像の分離の態様が分り、画像がより多く分布す
る範囲を住所が書かれている領域と推定する。
垂直な方向に射影を取り、画像情報の分布を取る。この
分布を取る際にも、最初は粗い画像で実行する。これに
より、画像の分離の態様が分り、画像がより多く分布す
る範囲を住所が書かれている領域と推定する。
引続き、精細な読取画像を用いて、同様に分布を取ると
、行の分離が実行される。行が分離されたなら、行の延
びる方向に垂直な方向に対して射影を取ると、画像情報
の大小により文字の分離が実行される。
、行の分離が実行される。行が分離されたなら、行の延
びる方向に垂直な方向に対して射影を取ると、画像情報
の大小により文字の分離が実行される。
文字の分離が実行されたなら、当該分離された情報に対
して、文字認識の処理が実行され、1文字、1文字が、
数字、アルファベット、漢字等として認識されていく。
して、文字認識の処理が実行され、1文字、1文字が、
数字、アルファベット、漢字等として認識されていく。
この実施例では、説明の都合上、対象となる文字をアル
ファベットに限定する。しかし、このような限定により
、この発明が不当に狭く解釈されるものではないし、こ
こで、アルファベットに限定したのは、単語を構成する
文字として説明の容易なものとしただけである。
ファベットに限定する。しかし、このような限定により
、この発明が不当に狭く解釈されるものではないし、こ
こで、アルファベットに限定したのは、単語を構成する
文字として説明の容易なものとしただけである。
さて、このようにして、郵便物から住所記載欄を読取り
、この住所記載欄を構成する文字の個々を認識したら、
次に文字の上位概念である単語の認識を行う。この単語
の認識を単語検索部15で行う。
、この住所記載欄を構成する文字の個々を認識したら、
次に文字の上位概念である単語の認識を行う。この単語
の認識を単語検索部15で行う。
この単語検索部15では、文字認識部13から個々の文
字認識情報が供給される。ただし、複数の文字の連結は
示されている。すなわち、文字認識部13は単語検索部
15に対して、rAJ rABCJ rABDJ・
・・・・・というように文字情報が供給される。これに
対して、単語検索部15では、単語の検索を行い。この
検索結果を、住所認識部17に送る。 住所認識部17
では、単語検索の結果を用いて、最終的に住所を判断す
る。
字認識情報が供給される。ただし、複数の文字の連結は
示されている。すなわち、文字認識部13は単語検索部
15に対して、rAJ rABCJ rABDJ・
・・・・・というように文字情報が供給される。これに
対して、単語検索部15では、単語の検索を行い。この
検索結果を、住所認識部17に送る。 住所認識部17
では、単語検索の結果を用いて、最終的に住所を判断す
る。
この実施例では、単語検索部15での処理が重要なので
、この処理について、第2図を用いて更に詳細に説明す
る。
、この処理について、第2図を用いて更に詳細に説明す
る。
単語検索部15では、まず文字認識部13から供給され
た文字列の文字数を検出する。検出された文字数が3以
下でない場合、すなわち、4以上の場合、この実施例で
は従来と同様に、辞書を用いて単語検索を行う。これは
、4以上になると、後述する単語判定テーブルの容量が
膨大のものとなってしまうからである。
た文字列の文字数を検出する。検出された文字数が3以
下でない場合、すなわち、4以上の場合、この実施例で
は従来と同様に、辞書を用いて単語検索を行う。これは
、4以上になると、後述する単語判定テーブルの容量が
膨大のものとなってしまうからである。
3以下の場合、アルファベットに対して、コード化の処
理がなされる。ここでは、アルファベットが27文字か
らなることに着目して、27進法で表現するものとする
。
理がなされる。ここでは、アルファベットが27文字か
らなることに着目して、27進法で表現するものとする
。
第1表
上記第1表のように、上段のアルファベットに対して、
下段の数値を割当てる。尚、左欄の「−」は、ブランク
である。
下段の数値を割当てる。尚、左欄の「−」は、ブランク
である。
又、3文字の単語を、O口Δと表現すると、単語IDコ
ード−O*27 +ロ*271十Δ*270 と変換式を設定する。
ード−O*27 +ロ*271十Δ*270 と変換式を設定する。
よって、例えば、文字列rABCJに対してコード化を
施すと、r786Jとなる。
施すと、r786Jとなる。
一方、このコードは、単語判定テーブルを用いて、検索
が施される。この単語判定テーブルは、第3図に示され
るように、上記のコードをアドレスとして、フラッグが
格納でいる。このフラッグは、該当するコードの単語が
存在するか否かの情報であり、テーブル作成時に、存在
する単語に対して例えばフラグ「1」を立て、存在しな
い単語に対してフラグ「0」を立たせる。
が施される。この単語判定テーブルは、第3図に示され
るように、上記のコードをアドレスとして、フラッグが
格納でいる。このフラッグは、該当するコードの単語が
存在するか否かの情報であり、テーブル作成時に、存在
する単語に対して例えばフラグ「1」を立て、存在しな
い単語に対してフラグ「0」を立たせる。
ここでは、単語rABCJが存在し、rA B DJは
存在しないものとする。すると、単語判定テーブルは第
3図に示すようになる。
存在しないものとする。すると、単語判定テーブルは第
3図に示すようになる。
このような状況で、文字列rABcJ rABDJの
検索を行うものとする。すると、上述のように、対応す
るコード列が求められ、それぞれr786Jr787J
となる。次に、このコードを用いて単語判定テーブルを
検索する。まず、文字列rABC」の場合には、コード
r786Jをそのアドレスとして単語判定テーブルを検
索する。すると、そこには、フラグ「1」が立っており
、対応する単語が存在することになる。
検索を行うものとする。すると、上述のように、対応す
るコード列が求められ、それぞれr786Jr787J
となる。次に、このコードを用いて単語判定テーブルを
検索する。まず、文字列rABC」の場合には、コード
r786Jをそのアドレスとして単語判定テーブルを検
索する。すると、そこには、フラグ「1」が立っており
、対応する単語が存在することになる。
これに対して、文字列rABDJの場合には、コードr
787Jをそのアドレスとして単語判定テーブルを検索
する。すると、そこには、フラグ「0」が立っており、
対応する単語は存在しないことになる。なお、フラグ「
0」の場合、文字列に対するコードは「0」とする。
787Jをそのアドレスとして単語判定テーブルを検索
する。すると、そこには、フラグ「0」が立っており、
対応する単語は存在しないことになる。なお、フラグ「
0」の場合、文字列に対するコードは「0」とする。
こうして、単語検索部13では、文字認識の後単語検索
が実行され、その結果が、住所認識部17に送られ、所
定の処理の後、住所認識が達成される。
が実行され、その結果が、住所認識部17に送られ、所
定の処理の後、住所認識が達成される。
尚、上記の実施例の説明において、文字列の数により検
索方式を変化させたが、上述のような単語判定テーブル
を全単語に対して作成し、上記の検索方式を使用として
よいのは当然である。また、対象とする文字をアルファ
ベットに限定せず、ひらがな、漢字、ハングル文字等を
対象としてよいのは当然である。
索方式を変化させたが、上述のような単語判定テーブル
を全単語に対して作成し、上記の検索方式を使用として
よいのは当然である。また、対象とする文字をアルファ
ベットに限定せず、ひらがな、漢字、ハングル文字等を
対象としてよいのは当然である。
[発明の効果]
以上説明したように、本発明によれば、単語検索が高速
になされる。
になされる。
第1図乃至第3図は、発明の実施例に関する図面であり
、第1図は実施例装置の全体を示す図、第2図は第1図
の単語検索部15での処理を示すフローチャート、第3
図は第2図の処理に用いる単語判定テーブルを示す模式
図である。 11・・・読取部 13・・・文字認識部 15・・・単語検索部 17・・・住所認識部 第2図
、第1図は実施例装置の全体を示す図、第2図は第1図
の単語検索部15での処理を示すフローチャート、第3
図は第2図の処理に用いる単語判定テーブルを示す模式
図である。 11・・・読取部 13・・・文字認識部 15・・・単語検索部 17・・・住所認識部 第2図
Claims (1)
- (1)文字に対して単語検索をほどこす単語検索方式に
おいて、 対象となる1以上の文字をコードに変換す る変換手段と、この手段に得られるコードに対応した単
語の有無を示す情報が格納されたテーブルを備え、前記
変換手段により得られたコードを用いて前記テーブルの
前記情報を得ることにより単語検索を施すことを特徴と
する単語検索方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63320447A JPH02166587A (ja) | 1988-12-21 | 1988-12-21 | 単語検索方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63320447A JPH02166587A (ja) | 1988-12-21 | 1988-12-21 | 単語検索方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH02166587A true JPH02166587A (ja) | 1990-06-27 |
Family
ID=18121553
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63320447A Pending JPH02166587A (ja) | 1988-12-21 | 1988-12-21 | 単語検索方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH02166587A (ja) |
-
1988
- 1988-12-21 JP JP63320447A patent/JPH02166587A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2713622B2 (ja) | 表形式文書読取装置 | |
| JPS62221088A (ja) | 光学式文字読取装置 | |
| KR100571080B1 (ko) | 문서 인식 장치 및 우편 구분기 | |
| JPH02166587A (ja) | 単語検索方式 | |
| JP2588261B2 (ja) | Ocrによる住所データベース検索装置 | |
| JPH02181286A (ja) | 単語検索方式 | |
| JP2732593B2 (ja) | 文字読取システム | |
| JP2910630B2 (ja) | 住所認識方法,住所認識装置および紙葉類自動処理システム | |
| JPH0244459A (ja) | 日本文訂正候補文字抽出方法 | |
| JP2538543B2 (ja) | 文字情報認識装置 | |
| JPH08180064A (ja) | 文書検索方法及び文書ファイリング装置 | |
| JP2746345B2 (ja) | 文字認識の後処理方法 | |
| JPH0438026B2 (ja) | ||
| JP2685257B2 (ja) | 認識方法 | |
| JP2749425B2 (ja) | 記事抽出方式 | |
| JP2996823B2 (ja) | 文字認識装置 | |
| JP2827066B2 (ja) | 数字列混在文書の文字認識の後処理方法 | |
| JPH0514952B2 (ja) | ||
| JPH04123185A (ja) | 文書認識方式 | |
| JPH10174935A (ja) | 宛名読取装置および文字情報読取装置 | |
| JPH10328624A (ja) | 文書理解装置および郵便区分機 | |
| JPH0528323A (ja) | 文字認識装置 | |
| JPS60144886A (ja) | 文字認識装置における後処理方式 | |
| JPH0540854A (ja) | 文字認識結果の後処理方法 | |
| JPH0212370A (ja) | 郵便物処理装置 |