JPS6057476A

JPS6057476A - キ−ワ−ド検出方式

Info

Publication number: JPS6057476A
Application number: JP58164854A
Authority: JP
Inventors: Kenichi Maeda; 賢一前田; Toru Yoshimura; 徹吉村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1983-09-07
Filing date: 1983-09-07
Publication date: 1985-04-03
Anticipated expiration: 2010-04-10
Also published as: JPH0731713B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

〔発明の技術分野〕本発明は例えば枠無しの紙面に記載された文字列中の特
定のキーワードの位置を効果的に検出することのできる
キーワード検出方式に関する。〔発明の技術的背景とその問題点〕文字認識処理は、一般に比較的広い観測領域（紙面）の
中から文字列を検出し、この文字列を構成する各文字を
それぞれ切出して、つまり検切シしたのち、その検切さ
れた文字の特徴パターンを抽出する等して行われる。具
体的には例えば書状郵便物に記載された宛名を示す文字
列を検出し、その宛名をモ゛り成する各文字をそれぞれ
検切して文字認識が行われる。このような文字の検切処理をよ、文字認識に対リ、そこ
で従来では文字認識処理とは独立に、例えば文字列に対
するピッチ情報、白領域（背景部）の存在範囲、或いは
人工的検知マーク尋を手掛りとして検切処理が行われて
いる。ところがこのようにしで検切処理を行う場合、文字列が
成る計度フォーマット指定されていることが必要であり
、この為従来では専ら文字記入枠を設ける等している。然し乍ら、文字記入枠によって文字位置全規定すること
は自由度に欠け、また汎用性に欠りる。従って枠無しの
所謂白紙に記載された文字列の各文字を効果的に検切し
、それを認識することが強く望まれている。〔発明の目的〕本発明はこのような事１＃を考慮しでなされたもので、
その目的とするところは、例えば枠無の紙面に記載され
た文字列に対する検切を効果的に可能ならしめるキーワ
ード検出方式を提供することにある。〔発明の概要〕本発明は枠無しの紙面に記載された文字列中の特定のキ
ーワードの位置、例えば宛名の中の「県」「市」「町」
等のキーワードの位Ｈ１’５ｃ正確に検出し、これを手
掛りとして前記文字列の各文字の検切を可能ならしめる
もので、特に上記キーワードの検出を文字領域に対する
ウィンド位置を移動させ乍ら、上記ウィンドによって文
字領域から切出した／９ターンとキーワードの辞書パタ
ーンとの類似度をｉｔ算してそのキーワードに対する類
似度のヒストグラムをめ、このヒストグラムのピーク位
置から前記文字領域におけるキーワード位置を検出する
ようにしたものである＠〔発明の効果〕かくして本発明によれば、少しずつずらされるウィンド
によって切出されたノ臂ターンとキーワードの行準パタ
ーンとの類似度のヒストグラムのピークを示す位置とし
て、枠無の用紙に記載された文字列中のキーワードの位
置を精度良＜、シかも簡易に検出することが用能となる
。従って、このキーワード位置を手掛りとして各文字の検
切を容易ならしめることができ、その結果文字認識処理
の効率向上を図ることがｕＪ能となる。また、文字記入
枠に制限さｊ＋ることなく、所謂白紙に自由に記載され
た文字列におりるキーワードを効果的に検出できるので
、例えは書状郵便物の宛名読取り等に１介助に応用する
ことができる等の実用上絶大ｆｉ：る効果が奏、ヒられ
る。〔発明の実施例〕以下、図面を参照して４Ｎ、発明の実ｈ

【目列につき説
明する。第１図は実施例方式を適用して構成される文字認識装置
のキーワード検出部を示・す概略１１４成図である。こ
の装置をよ、例えば書状郵便物に記載された宛名の中か
ら「町」なるキーワードの位置を検出するものである。入力部１は、書状郵便物に１．【】載された情報をり、
打検切部２はし１１えは上記文書画像の文字が書かれて
いる方向の濃度の射影をとり、その黒領域存在部分を検
出する等して文字列を示す行位置を検出している。この
ようにして検出された行の画像情報（文字列１＃報）が
行単位で行メモリ３に格納される。尚、上記性は文字列
を示すものではなく、文字列を構成する画像の画素を示
している。しかしてサンダル部４は、例えば第２図に示すように複
数のＤ／Ａ変換器４轟および複数の演算増幅器４ｂＫよ
って構成され、前記画素行の各データをＤ／Ａ変換した
のち、隣接する複数行のデータ間の加算ｌｉｔ　をめる
等して所謂カカシ処理を行い、ｒ個の列の画素データに
変換している。この処理によって１行のｉｉ！＋ｉ素行
で示される文字列が、？カシ処理を施されたｒ列の文字
列データとして変換されることになる。この−ようにして得られた文字列を示すｒ列の画像情報
に対して以下に説明するようにウィン自１１　細＋ｍ　
ユ？４：　」−」−２−ｎｌ　＾　、　１ノ　Ｌ中　Ｉ
ｆｆ　＋’　−イ　ａｌｌロ　Ｊれた画像・９ターンと
、辞書メモリ５に予め登録されたキーワードの辞書パタ
ーンとの類似度が割算される。尚、−１，：記辞９１・
？ターンに１、正規化部６を介して、前記性（へり部２
でめられた文字の大きさ、つまり文字を構成する画素の
行数の情報に従って正規化されたのち、前記類似度清算
に供せられる。しかも、類Ｑ＋ｉ、度のｉｔ　＊、　ｊ
ｌ＜とじて複合類似度法を用いる場合には、複合類似度
法による大きさや角度の変形に対する吸収作用が利用で
きるので、」二記正規化処即ｔよ必ずしも必９でない、
また前記正刈、化を％　Ｖ／ｌｌえば前記サンプリング
処理後の文字画像の幅に辞Ｉｔ／”ターンのサイズを合
せるようにしてもよく、このようにすることが最もｆｆ
ｉ慣であると考えられる。またこの場合、正規化の情報として上記行の幅しか得ら
れないから、これによって辞書）やターンの横または縦
の一方のサイズしか規定できないが、その曲刃について
は同一の比率で正規化するようにすればよい。しかして類似度言１算部１Ｆよ、」二記キーワードの辞
書パターンと、サンプリング部４よりケえられる文字列
の画像情報のウィンド処理して切出されるパターンとの
幇１似度をに記ウィンド位置を順に少しずつ移動さぜ乍
らｉＩｎ、するもので、例えｉｆ第３図に示す如く構成
される。この第３図に示される構成の計初１部７に、ｊ
ｌ　メモリーコリレータと称されるＳＡＷ　（５ｕｒｆ
ａｃｅ　Ａｃｏｕ＠ｔｉｃ　Ｗａｖｅ　）デバイス７ａ
を用い、このデバイス７ａを伝搬する（ｉｆｆ号によっ
てウィンド処理を行い乍ら１そこに介在する信号（ウィ
ンドに上って検切された〕ぐターン）ど辞書パターンど
の相関演算を行い、＠デバイス７ａによってめられた相
関演算結果を加算器７ｂ１２乗器７Ｃ等を介してまとめ
て、複合類似度値を前記ウィンド位置に対応して得るも
のである。このＳＡＷデバイスを用いた相関演ηの手法
については、例えばη１．イ通信学会誌Ｖｏ１．６５　
、Ｉｆｚ　］、　２　ｐｐ　１２６７〜１２７３等に詳
しく述べられる通り、周知の技術をそのまま利用するこ
とができる。このような構成の類似度制算部７によれば
、文字列に対するウィンド位置を直ｋＪＩ的に少しずつ
変え乍ら、同時にそのウィンド処理されたパターンと辞
書・臂ターンとの類似度が割算できるので、非常に々ｌ
６１１合である。ぞして、このようにして、ウィンド位１ｈ”に対応して
められる類似度の１直がヒストグラムメモリ８に順に格
納され、このメモリ８に前記＊ｉ　（Ｈ度のヒストグラ
ムが形成される。ピーク検出部９は上記類似度のヒストグラムから、その
ピーク値を示すウィンド位置をめ、決定部１０は上記ピ
ーク値をｊｅｔ定の閾値で弁別し、所定値以上のピーク
ｌｌｌ′Ｉを示すウィンド位置を前記入力文字列に対す
るキーワードの位置として検出するようになっている。第４図はヒストグラム中のピークｆｆＬ検出のアルプリ
ズムを示すもので、ヒストグラムメモリのＩＩＮ、　’
にウィンド位置に対応して順に読み出し、そのヒストグ
ラム変化が上向きの傾向か、■向きの傾向かを判定する
。そして、ヒストグラムが上向きから下向きに変った時
点の１つ前のウィンド位置をピーク位置として検出する
ようにしている。以上、各部の一連の処理により、ウィンド制御された文
字パターンとキーワードの辞書ツクターンとの類１以度
のヒストグラムから、そのピークを示すウィンド位置と
してキーワード位置が検出されることになる。尚、図中
１１は、」二記各部の一連の動作’ｆ：　ｆｆｔｌｌ　
ｔ’Ｊする制御部である。このように本方式によれば、文字記入枠によって文字位
＠を規定することなしに、自由にＷかれた文字列中のキ
ーワード位置を非常に効果的に、しかも簡易に確実に検
出することができる。つまりウィンド処理してｉτ１；
公的に桶川した文字列のパターンとキーワードの辞書ｔ
ｅターンとの類似度を上記ウィンドを少しずつ変え乍ら
めて類似度のヒストグラムを作成し、このヒストグラム
のピーク値からキーワード位置をめるので、その検出精
度が非常に高い。従って、書状郵便物の宛名認識の為の
前処理等として多大な効果が奏せられる。尚、本発明は上述した実施例に限定されるものではない
。例えば第５図に示すようにプングル部４における処理
’ｔ’　ＲＵＭ　４　ａ　ｆ：用いて行うようにしても
よく、また相関演舞を退席のディジタルＬＳＩ　（例え
ばＴＲＷ　ｔｌｌｌｌＪ　ＴＤＣ−１００ＲＪ　）　７
　ｄを用いて行うようにしてもよい、！ｆたウィンドの
移動を文字列方向に宿って直線的に行うものＫついて説
明したが、その移動速度をま」−記相関演算の処理速度
に応じて定めるようにすればよい。更にはヒストグラムにおけるピーク１直が１回しか生じ
ない場合、つまり文字列中にキーワードが１個しか存在
しないことがＩＩＮ証されるならば、第６図に示す如き
簡易なピーク検出器だけを用いてピーク検出し、ヒスト
グラムメモリを省略して装置を構成することがＣきる。その他、本発明はその要旨を逸脱しない範囲でｌｌＲｈ
変形して実施することがでへる。

【図面の簡単な説明】

図は本発明の一実施例方式ｆ、採用して構成されるキー
ワード検出装Ｋｆ、示すもので、第１図はその概略Ｓ成
因、第２１７１ｔ；Ｌ　・リンゲル部の１＋＋成例を示
す図、第３図は類似度計算部の構成ｆ１１を示す図、第
４１閂はヒストグラムのピーク１今出のアルゴリズム例
を示す図、第５図はラングル・類似度計算部の別の構成
例を示す図、第６図しｔビーク検出部の別の構成例を示
す図である。２・・・打検切部、３・・・行メモリ、４・・・−リン
ノル部、５・・・辞書メモリ、６・・・正規化部、７・
・・類似度計算部、８・・・ヒストグラムメモリ、９・
・・ピーク検出部。出願人代理人　弁理士　鈴　江　弐　が第３図第４図

Claims

【特許請求の範囲】

（１）　文字領域に対するウィンド位置を移動させ乍ら
上記ウィンドにより前記文字領域から切出したパターン
とキーワードの辞膚゛パターンとの類似度をそれぞれ！
Ｉｎして」二記キーワードに対する類似度のヒストグラ
ムをめ、このヒストグラムのピーク位置から前１１シ文
字領域における前記キーワードの位置を検出してなるこ
とを特徴とするキーワード検出方式。
（２）　キーワードの〃・ｉ′書パターンは、文字領域
の文字幅から推定される文字の大きさに従って正規化さ
れたのち類似度Ｒ１′Ｒ，に用いられるものである特許
請求の範囲第１項６【′２載のキーワード検出方式。
（３）類似度は、複合類似度ｆｌｌ１９法に従って１算
されるものである特許請求の範囲第１項Ｎｅ　ｔｌｉＺ
（４）　ウィンド位置、の移動は、文字領域の文字列に
漬って直線的に行われるものでちる特許請求の範囲第１
項記載のキーワード検出方式。