JPS6057476A - キ−ワ−ド検出方式 - Google Patents

キ−ワ−ド検出方式

Info

Publication number
JPS6057476A
JPS6057476A JP58164854A JP16485483A JPS6057476A JP S6057476 A JPS6057476 A JP S6057476A JP 58164854 A JP58164854 A JP 58164854A JP 16485483 A JP16485483 A JP 16485483A JP S6057476 A JPS6057476 A JP S6057476A
Authority
JP
Japan
Prior art keywords
similarity
histogram
character
key word
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58164854A
Other languages
English (en)
Other versions
JPH0731713B2 (ja
Inventor
Kenichi Maeda
賢一 前田
Toru Yoshimura
徹 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP58164854A priority Critical patent/JPH0731713B2/ja
Publication of JPS6057476A publication Critical patent/JPS6057476A/ja
Publication of JPH0731713B2 publication Critical patent/JPH0731713B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
〔発明の技術分野〕 本発明は例えば枠無しの紙面に記載された文字列中の特
定のキーワードの位置を効果的に検出することのできる
キーワード検出方式に関する。 〔発明の技術的背景とその問題点〕 文字認識処理は、一般に比較的広い観測領域(紙面)の
中から文字列を検出し、この文字列を構成する各文字を
それぞれ切出して、つまり検切シしたのち、その検切さ
れた文字の特徴パターンを抽出する等して行われる。具
体的には例えば書状郵便物に記載された宛名を示す文字
列を検出し、その宛名をモ゛り成する各文字をそれぞれ
検切して文字認識が行われる。 このような文字の検切処理をよ、文字認識に対リ、そこ
で従来では文字認識処理とは独立に、例えば文字列に対
するピッチ情報、白領域(背景部)の存在範囲、或いは
人工的検知マーク尋を手掛りとして検切処理が行われて
いる。 ところがこのようにしで検切処理を行う場合、文字列が
成る計度フォーマット指定されていることが必要であり
、この為従来では専ら文字記入枠を設ける等している。 然し乍ら、文字記入枠によって文字位置全規定すること
は自由度に欠け、また汎用性に欠りる。従って枠無しの
所謂白紙に記載された文字列の各文字を効果的に検切し
、それを認識することが強く望まれている。 〔発明の目的〕 本発明はこのような事1#を考慮しでなされたもので、
その目的とするところは、例えば枠無の紙面に記載され
た文字列に対する検切を効果的に可能ならしめるキーワ
ード検出方式を提供することにある。 〔発明の概要〕 本発明は枠無しの紙面に記載された文字列中の特定のキ
ーワードの位置、例えば宛名の中の「県」「市」「町」
等のキーワードの位H1’5c正確に検出し、これを手
掛りとして前記文字列の各文字の検切を可能ならしめる
もので、特に上記キーワードの検出を文字領域に対する
ウィンド位置を移動させ乍ら、上記ウィンドによって文
字領域から切出した/9ターンとキーワードの辞書パタ
ーンとの類似度をit算してそのキーワードに対する類
似度のヒストグラムをめ、このヒストグラムのピーク位
置から前記文字領域におけるキーワード位置を検出する
ようにしたものである@ 〔発明の効果〕 かくして本発明によれば、少しずつずらされるウィンド
によって切出されたノ臂ターンとキーワードの行準パタ
ーンとの類似度のヒストグラムのピークを示す位置とし
て、枠無の用紙に記載された文字列中のキーワードの位
置を精度良<、シかも簡易に検出することが用能となる
。 従って、このキーワード位置を手掛りとして各文字の検
切を容易ならしめることができ、その結果文字認識処理
の効率向上を図ることがuJ能となる。また、文字記入
枠に制限さj+ることなく、所謂白紙に自由に記載され
た文字列におりるキーワードを効果的に検出できるので
、例えは書状郵便物の宛名読取り等に1介助に応用する
ことができる等の実用上絶大fi:る効果が奏、ヒられ
る。 〔発明の実施例〕 以下、図面を参照して4N、発明の実h
【目列につき説
明する。 第1図は実施例方式を適用して構成される文字認識装置
のキーワード検出部を示・す概略114成図である。こ
の装置をよ、例えば書状郵便物に記載された宛名の中か
ら「町」なるキーワードの位置を検出するものである。 入力部1は、書状郵便物に1.【】載された情報をり、
打検切部2はし11えは上記文書画像の文字が書かれて
いる方向の濃度の射影をとり、その黒領域存在部分を検
出する等して文字列を示す行位置を検出している。この
ようにして検出された行の画像情報(文字列1#報)が
行単位で行メモリ3に格納される。尚、上記性は文字列
を示すものではなく、文字列を構成する画像の画素を示
している。 しかしてサンダル部4は、例えば第2図に示すように複
数のD/A変換器4轟および複数の演算増幅器4bKよ
って構成され、前記画素行の各データをD/A変換した
のち、隣接する複数行のデータ間の加算lit をめる
等して所謂カカシ処理を行い、r個の列の画素データに
変換している。この処理によって1行のii!+i素行
で示される文字列が、?カシ処理を施されたr列の文字
列データとして変換されることになる。 この−ようにして得られた文字列を示すr列の画像情報
に対して以下に説明するようにウィン自11 細+m 
ユ?4: 」−」−2−nl ^ 、 1ノ L中 I
ff +’ −イ allロ Jれた画像・9ターンと
、辞書メモリ5に予め登録されたキーワードの辞書パタ
ーンとの類似度が割算される。尚、−1,:記辞91・
?ターンに1、正規化部6を介して、前記性(へり部2
でめられた文字の大きさ、つまり文字を構成する画素の
行数の情報に従って正規化されたのち、前記類似度清算
に供せられる。しかも、類Q+i、度のit *、 j
l<とじて複合類似度法を用いる場合には、複合類似度
法による大きさや角度の変形に対する吸収作用が利用で
きるので、」二記正規化処即tよ必ずしも必9でない、
また前記正刈、化を% V/llえば前記サンプリング
処理後の文字画像の幅に辞It/”ターンのサイズを合
せるようにしてもよく、このようにすることが最もff
i慣であると考えられる。 またこの場合、正規化の情報として上記行の幅しか得ら
れないから、これによって辞書)やターンの横または縦
の一方のサイズしか規定できないが、その曲刃について
は同一の比率で正規化するようにすればよい。 しかして類似度言1算部1Fよ、」二記キーワードの辞
書パターンと、サンプリング部4よりケえられる文字列
の画像情報のウィンド処理して切出されるパターンとの
幇1似度をに記ウィンド位置を順に少しずつ移動さぜ乍
らiIn、するもので、例えif第3図に示す如く構成
される。この第3図に示される構成の計初1部7に、j
l メモリーコリレータと称されるSAW (5urf
ace Acou@tic Wave )デバイス7a
を用い、このデバイス7aを伝搬する(iff号によっ
てウィンド処理を行い乍ら1そこに介在する信号(ウィ
ンドに上って検切された〕ぐターン)ど辞書パターンど
の相関演算を行い、@デバイス7aによってめられた相
関演算結果を加算器7b12乗器7C等を介してまとめ
て、複合類似度値を前記ウィンド位置に対応して得るも
のである。このSAWデバイスを用いた相関演ηの手法
については、例えばη1.イ通信学会誌Vo1.65 
、Ifz ]、 2 pp 1267〜1273等に詳
しく述べられる通り、周知の技術をそのまま利用するこ
とができる。このような構成の類似度制算部7によれば
、文字列に対するウィンド位置を直kJI的に少しずつ
変え乍ら、同時にそのウィンド処理されたパターンと辞
書・臂ターンとの類似度が割算できるので、非常に々l
611合である。 ぞして、このようにして、ウィンド位1h”に対応して
められる類似度の1直がヒストグラムメモリ8に順に格
納され、このメモリ8に前記*i (H度のヒストグラ
ムが形成される。 ピーク検出部9は上記類似度のヒストグラムから、その
ピーク値を示すウィンド位置をめ、決定部10は上記ピ
ーク値をjet定の閾値で弁別し、所定値以上のピーク
lll′Iを示すウィンド位置を前記入力文字列に対す
るキーワードの位置として検出するようになっている。 第4図はヒストグラム中のピークffL検出のアルプリ
ズムを示すもので、ヒストグラムメモリのIIN、 ’
にウィンド位置に対応して順に読み出し、そのヒストグ
ラム変化が上向きの傾向か、■向きの傾向かを判定する
。そして、ヒストグラムが上向きから下向きに変った時
点の1つ前のウィンド位置をピーク位置として検出する
ようにしている。 以上、各部の一連の処理により、ウィンド制御された文
字パターンとキーワードの辞書ツクターンとの類1以度
のヒストグラムから、そのピークを示すウィンド位置と
してキーワード位置が検出されることになる。尚、図中
11は、」二記各部の一連の動作’f: fftll 
t’Jする制御部である。 このように本方式によれば、文字記入枠によって文字位
@を規定することなしに、自由にWかれた文字列中のキ
ーワード位置を非常に効果的に、しかも簡易に確実に検
出することができる。つまりウィンド処理してiτ1;
公的に桶川した文字列のパターンとキーワードの辞書t
eターンとの類似度を上記ウィンドを少しずつ変え乍ら
めて類似度のヒストグラムを作成し、このヒストグラム
のピーク値からキーワード位置をめるので、その検出精
度が非常に高い。従って、書状郵便物の宛名認識の為の
前処理等として多大な効果が奏せられる。 尚、本発明は上述した実施例に限定されるものではない
。例えば第5図に示すようにプングル部4における処理
’t’ RUM 4 a f:用いて行うようにしても
よく、また相関演舞を退席のディジタルLSI (例え
ばTRW tllllJ TDC−100RJ ) 7
 dを用いて行うようにしてもよい、!fたウィンドの
移動を文字列方向に宿って直線的に行うものKついて説
明したが、その移動速度をま」−記相関演算の処理速度
に応じて定めるようにすればよい。 更にはヒストグラムにおけるピーク1直が1回しか生じ
ない場合、つまり文字列中にキーワードが1個しか存在
しないことがIIN証されるならば、第6図に示す如き
簡易なピーク検出器だけを用いてピーク検出し、ヒスト
グラムメモリを省略して装置を構成することがCきる。 その他、本発明はその要旨を逸脱しない範囲でllRh
変形して実施することがでへる。
【図面の簡単な説明】
図は本発明の一実施例方式f、採用して構成されるキー
ワード検出装Kf、示すもので、第1図はその概略S成
因、第2171t;L ・リンゲル部の1++成例を示
す図、第3図は類似度計算部の構成f11を示す図、第
41閂はヒストグラムのピーク1今出のアルゴリズム例
を示す図、第5図はラングル・類似度計算部の別の構成
例を示す図、第6図しtビーク検出部の別の構成例を示
す図である。 2・・・打検切部、3・・・行メモリ、4・・・−リン
ノル部、5・・・辞書メモリ、6・・・正規化部、7・
・・類似度計算部、8・・・ヒストグラムメモリ、9・
・・ピーク検出部。 出願人代理人 弁理士 鈴 江 弐 が第3図 第4図

Claims (3)

    【特許請求の範囲】
  1. (1) 文字領域に対するウィンド位置を移動させ乍ら
    上記ウィンドにより前記文字領域から切出したパターン
    とキーワードの辞膚゛パターンとの類似度をそれぞれ!
    Inして」二記キーワードに対する類似度のヒストグラ
    ムをめ、このヒストグラムのピーク位置から前11シ文
    字領域における前記キーワードの位置を検出してなるこ
    とを特徴とするキーワード検出方式。
  2. (2) キーワードの〃・i′書パターンは、文字領域
    の文字幅から推定される文字の大きさに従って正規化さ
    れたのち類似度R1′R,に用いられるものである特許
    請求の範囲第1項6【′2載のキーワード検出方式。
  3. (3)類似度は、複合類似度fll19法に従って1算
    されるものである特許請求の範囲第1項Ne tliZ
    (4) ウィンド位置、の移動は、文字領域の文字列に
    漬って直線的に行われるものでちる特許請求の範囲第1
    項記載のキーワード検出方式。
JP58164854A 1983-09-07 1983-09-07 キ−ワ−ド検出方式 Expired - Lifetime JPH0731713B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58164854A JPH0731713B2 (ja) 1983-09-07 1983-09-07 キ−ワ−ド検出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58164854A JPH0731713B2 (ja) 1983-09-07 1983-09-07 キ−ワ−ド検出方式

Publications (2)

Publication Number Publication Date
JPS6057476A true JPS6057476A (ja) 1985-04-03
JPH0731713B2 JPH0731713B2 (ja) 1995-04-10

Family

ID=15801175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58164854A Expired - Lifetime JPH0731713B2 (ja) 1983-09-07 1983-09-07 キ−ワ−ド検出方式

Country Status (1)

Country Link
JP (1) JPH0731713B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0245891A (ja) * 1988-08-08 1990-02-15 Nippon Avionics Co Ltd 文字認識方法
JPH07105308A (ja) * 1990-03-12 1995-04-21 Internatl Business Mach Corp <Ibm> 書類上の金額フィールドの位置特定方法および識別方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57111677A (en) * 1980-12-27 1982-07-12 Fujitsu Ltd Character pattern separation system
JPS57137976A (en) * 1981-02-18 1982-08-25 Nec Corp Zip code discriminating device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57111677A (en) * 1980-12-27 1982-07-12 Fujitsu Ltd Character pattern separation system
JPS57137976A (en) * 1981-02-18 1982-08-25 Nec Corp Zip code discriminating device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0245891A (ja) * 1988-08-08 1990-02-15 Nippon Avionics Co Ltd 文字認識方法
JPH07105308A (ja) * 1990-03-12 1995-04-21 Internatl Business Mach Corp <Ibm> 書類上の金額フィールドの位置特定方法および識別方法

Also Published As

Publication number Publication date
JPH0731713B2 (ja) 1995-04-10

Similar Documents

Publication Publication Date Title
CN110569832B (zh) 基于深度学习注意力机制的文本实时定位识别方法
CN112861865B (zh) 一种基于ocr技术的辅助审计方法
CN111967286A (zh) 信息承载介质的识别方法、识别装置、计算机设备和介质
CN111754441B (zh) 一种图像复制粘贴伪造被动检测方法
CN112861794A (zh) 一种光学印刷文本和场景文本的通用检测算法
CN110674802B (zh) 一种改进的平行四边形候选框的文本检测方法
Khazaal et al. An overview on detecting digital image splicing
JPS6057476A (ja) キ−ワ−ド検出方式
CN114373178A (zh) 一种图片文字检测与识别方法及系统
JPH0430070B2 (ja)
CN117576488B (zh) 一种基于目标图像重建的红外弱小目标检测方法
CN114219952B (zh) 一种基于图像分割和模版匹配的架子鼓谱识别方法及系统
CN118643824A (zh) 基于图像处理技术的铭牌检验方法及系统
CN117632852A (zh) 一种转换pdf格式的方法、装置、设备和可读存储介质
JP3090070B2 (ja) 帳票識別方法及び装置
CN116402028A (zh) Pdf文件的精简方法
JP2751865B2 (ja) 文字列認識装置
JP2569103B2 (ja) 文字検出方法
Lakshmi et al. Robust algorithm for Telugu word image retrieval and recognition
JPH03225578A (ja) 文字の検切り方法
CN115953640B (zh) 一种洪水救援场景下深度学习数据集的制作方法及系统
JPS6254380A (ja) 文字認識装置
JPH028348B2 (ja)
JPH076203A (ja) 文字認識装置
JP2580976B2 (ja) 文字切出し装置