JPH10134149A - フォント識別装置 - Google Patents

フォント識別装置

Info

Publication number
JPH10134149A
JPH10134149A JP8288831A JP28883196A JPH10134149A JP H10134149 A JPH10134149 A JP H10134149A JP 8288831 A JP8288831 A JP 8288831A JP 28883196 A JP28883196 A JP 28883196A JP H10134149 A JPH10134149 A JP H10134149A
Authority
JP
Japan
Prior art keywords
font
character
group
fonts
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8288831A
Other languages
English (en)
Inventor
Takashi Saito
高志 齋藤
Hideaki Yamagata
秀明 山形
Yoshihisa Oguro
慶久 大黒
Tei Abe
悌 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP8288831A priority Critical patent/JPH10134149A/ja
Publication of JPH10134149A publication Critical patent/JPH10134149A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 特定の文字についてのみフォント毎のパター
ン辞書を持たせることにより,辞書の小型化を実現す
る。 【解決手段】 入力された文書画像のうち文字情報を抽
出し,該文字情報の1文字を認識した後,その認識文字
のフォントを識別するフォント識別装置において,あら
かじめ定めた特定文字に対応するフォント毎のパターン
が格納されているフォント辞書108と,文字認識され
た文字が特定文字である場合に,フォント辞書108に
格納されているパターンを参照し,上記文字のフォント
を識別するフォント識別部105とを備えた。

Description

【発明の詳細な説明】
【0001】
【発明が属する技術分野】本発明は,入力文字情報のう
ち特定の文字を対象にフォント毎のパターン辞書を用い
てフォントを識別するフォント識別装置に関する。
【0002】
【従来の技術】従来よりフォント識別装置に関連する参
考技術文献として,以下のようなものが知られている。
たとえば特開昭60−138689号公報に開示されて
いる『文字認識方法』では,文字のフォントを識別する
のに,各文字に対してフォント毎の辞書を用意し,これ
を参照している。
【0003】また,特開昭63−244257号公報に
開示されている『文書作成システム』では,文字毎のフ
ォント別のマッチングを行い,そのマッチングがとれた
フォントを対象文字のフォントとして識別し,フォント
情報を出力している。
【0004】すなわち,上記において両者共に,各文字
に対してフォント毎の辞書を持ち,マッチングの状態
(距離など)から対象文字のフォントを決定している。
【0005】
【発明が解決しようとする課題】しかしながら,上記に
示されるような従来の技術にあっては,対象文字全て
(たとえば,JIS第1水準の場合,約3000)にお
いてフォント毎の辞書を持つ必要があるため,識別対象
のフォントの種類が増えた場合,辞書の規模が膨大とな
るといった問題点があった。
【0006】本発明は,上記に鑑みてなされたものであ
って,特定の文字についてのみフォント毎のパターン辞
書を持たせることにより,辞書の小型化を実現すること
を目的とする。
【0007】
【課題を解決するための手段】上記の目的を達成するた
めに,請求項1に係るフォント識別装置にあっては,入
力された文書画像のうち文字情報を抽出し,該文字情報
の1文字を認識した後,その認識文字のフォントを識別
するフォント識別装置において,あらかじめ定めた特定
文字に対応するフォント毎のパターンが格納されている
フォント情報格納手段と,文字認識された文字が特定文
字である場合に,前記フォント情報格納手段に格納され
ているパターンを参照し,前記文字のフォントを識別す
るフォント識別手段と,を備えたものである。
【0008】すなわち,特定文字に対応するフォントパ
ターンのみを用いて入力文字情報のフォント識別を行う
ことにより,小さなフォント辞書によるフォント識別が
実現する。
【0009】また,請求項2に係るフォント識別装置に
あっては,前記特定文字は,出現頻度の高い文字で設定
されるものである。
【0010】すなわち,出現頻度の高い文字を特定文字
に設定し,その特定文字に対応するものだけのフォント
辞書を用意することにより,用意すべきフォント辞書の
サイズを小さくすることができる。
【0011】また,請求項3に係るフォント識別装置に
あっては,前記特定文字は,フォント間におけるパター
ンの差異が大きい文字で設定されるものである。
【0012】すなわち,フォント間におけるパターンの
差異が大きい文字を特定文字に設定することにより,小
さなフォント辞書であっても高精度の識別が可能とな
る。
【0013】また,請求項4に係るフォント識別装置に
あっては,前記フォント識別手段は,前記フォント情報
格納手段に格納されているパターンを参照し,文字群の
フォントを識別するものである。
【0014】すなわち,フォント情報格納手段に格納さ
れている特定文字に対応するフォントパターンを参照し
て文字群のフォントを識別することにより,小さな辞書
で対象文字群のフォント識別が可能となる。
【0015】また,請求項5に係るフォント識別装置に
あっては,各フォント間の距離値を設定し,該距離値の
近いフォントでグループ群に分け,前記フォント識別手
段が,前記グループ群から識別対象の文字群に相当する
グループを決定し,該グループ内のフォントの中から前
記識別対象文字群のフォントを決定するものである。
【0016】すなわち,フォントのグループ化を行い,
文字群の相当するグループを決定した後にグループ内の
フォントの中から対象文字群の相当するフォントを決定
することにより,より確実に対象文字群のフォント識別
を行うことが可能となる。
【0017】また,請求項6に係るフォント識別装置に
あっては,前記フォント識別手段は,採用グループであ
ると選択されたグループ以外のグループに属するフォン
トであると判断された文字に対し,再度,採用グループ
内のフォント辞書を用いてマッチング処理を実行し,採
用グループ内のフォントのいずれかに識別した上で,採
用グループ内のフォントのいずれかを決定するものであ
る。
【0018】すなわち,採用グループであると選択され
たグループ以外のグループに属するフォントであると判
断された文字に対し,改めて採用グループ内のフォント
辞書を用いてマッチング処理を行って,採用グループ内
のフォントのいずれかに識別した上で,採用グループ内
のフォントのいずれかを決定することにより,さらに確
実に対象文字群のフォント識別を行うことが可能とな
る。
【0019】また,請求項7に係るフォント識別装置に
あっては,前記グループは階層別に分けられたものであ
って,前記フォント識別手段が,前記階層が上位の大き
なグループから該当グループ内のサブグループへ順次相
当するグループを決定し,最終的に対象文字群のフォン
トを決定するものである。
【0020】すなわち,フォントグループを階層化し,
その階層の上位の大きなグループから対象グループ内の
サブグループへと順次相当するグループを決定し,最終
的に対象文字群の相当するフォントを決定することによ
り,より確実に対象文字群のフォント識別を行うことが
可能となる。
【0021】
【発明の実施の形態】以下,本発明のフォント識別装置
について添付図面を参照し,詳細に説明する。
【0022】(実施の形態の構成)図1は,実施の形態
に係るフォント識別処理を適用したフォント識別装置の
全体構成を示すブロック図である。
【0023】図において,このフォント識別装置は,認
識対象のイメージ画像を入力する画像入力部101と,
イメージ画像を行単位で抽出する文字領域切り出し部1
02と,文字領域切り出し部102で抽出された行部分
の1文字を抽出する文字切り出し部103と,文字切り
出し部103で切り出された文字情報を認識する文字認
識処理部104と,後述するフォント識別処理を実行す
るフォント識別手段としてのフォント識別部105と,
入力された画像や処理中の各種情報を蓄積しておくため
のデータ記憶部106と,この装置全体の制御を実行す
る制御部107と,後述する特定文字のフォント毎のパ
ターンが保持されているフォント情報格納手段としての
フォント辞書108とがデータ通信路109により接続
され,構成されている。
【0024】(実施の形態の動作)次に,以上のように
構成された装置の動作を説明する。まず,図2に示すフ
ローチャートを参照し,全体の流れについて述べる。
【0025】まず,画像入力部101から文書画像を入
力する(S201)。なお,この画像入力部101はイ
メージスキャナやファクシミリ装置によるもの,あるい
はネットワーク経由で別の外部機器からの画像入力でよ
い。
【0026】次に,上記入力された文書画像の文字領域
を文字領域切り出し部102により抽出し,さらに文字
行を抽出する(S202)。なお,この場合の文字領域
の抽出方法として,たとえば特開平6−20092号公
報に記載の方法を用いればよい。また,行の抽出には周
辺分布による行間の検出や黒画素成分の行方向への統合
処理など,公知の方法を用いればよい。
【0027】上記文字行を抽出すると,さらに該文字行
に対し,文字切り出し部103により1文字の切り出し
を実行する(S203)。なお,この場合も上記と同様
に,黒画素の周辺分布によって文字間を検出する公知の
方法を用いればよい。
【0028】さらに,上記切り出された文字を文字認識
部104により認識し(S204),最後にフォント識
別部105により後述する本発明によるフォント識別処
理を実行し(S205),上記一連の処理動作を終了す
る。
【0029】次に,上記ステップS205のフォント識
別処理について説明する。図3は,実施の形態に係るフ
ォント識別処理を示すフローチャートである。
【0030】ここで処理対象となる範囲は,文書画像の
全ページ,あるいは上記ステップS202で切り出した
領域または上記ステップS203で切り出した文字行と
なる。本処理ではできる限り文字数が多い方が望まし
い。
【0031】図3において,処理対象となる文字群に対
し,1文字ずつ処理を実行し,未処理の文字があるか否
かを判断し(S301),処理対象の文字がある場合,
さらに該処理対象の文字が特定文字であるか否かを判断
する(S302)。
【0032】なお,上記における特定文字とは,文中に
おける出現頻度が高く,フォント間の差異が大きいもの
である。たとえば日本語における「て,に,を,は」と
いった文字,アルファベット文字における「e」といっ
た出現頻度が高い文字を特定文字とする。
【0033】そして,上記特定文字に対してはフォント
毎のパターン辞書を持ち,どのフォントが最もマッチン
グするかを調べる(S303)。この場合のフォント毎
の辞書は,全文字ではなく特定文字に限られるので,辞
書サイズが極めてコンパクト化される。なお,上記にお
いて,特定文字が存在しない場合にはフォントは未定と
して処理する。
【0034】このように,上記ステップS301〜S3
03の処理を繰り返し実行し,上記ステップS301に
おいて,処理対象となる文字群に対し,未処理の文字が
ないと判断し,その識別処理が終了した場合,次に,そ
の識別結果に基づいてフォントを決定する(S30
4)。
【0035】ところで,フォント毎の差異が小さい場合
には,入力文字パターンのつぶれやかすれなどにより,
上記フォント毎のマッチング処理において,正しくマッ
チングされない,いわゆるミスマッチが発生する可能性
がある。
【0036】そこで,上記ミスマッチの回避を図るた
め,全結果を総合的に判断し,最終的にフォントを決定
する。この場合,たとえば,単純な多数決であってもよ
いし,各フォント間の距離値を設定し,該値に近いフォ
ントをグループ化することにより,段階的に決定しても
よい。以下,この処理動作について詳述する。
【0037】図4は,グールプ化によるフォント識別の
処理動作を示すフローチャートである。図において,フ
ォントグループの判別処理を実行し(S401),文字
数の多いグループを調べる。さらに文字数の多いグルー
プに対し,フォントの判別処理を実行する(S40
2)。
【0038】これをさらに説明する。たとえばフォント
の識別結果としてフォントAが5文字,フォントBが3
文字,フォントCが6文字,フォントDが1文字,フォ
ントEが2文字であったとする。この結果からのみ多数
決でフォントを決定すると,フォントCが採用されるこ
とになる。
【0039】一方,上記ステップS401において,グ
ループ化をたとえばフォントAとBをグループ1,フォ
ントCがグループ2,フォントDとEがグループ3とし
た場合,グループそれぞれの文字数は,グループ1が
8,グループ2が6,グループ3が3となるので,この
ようなグループ化の場合,グループ1が採用される。そ
して,グループ1のフォントAであるかフォントBであ
るかを判別し,最終的にフォントを決定する。
【0040】また,上記グループ化において,グループ
の階層化を行い,該階層が上の大きなグループから当該
グループ内のサブグループへ順次相当するグループを決
定し,最終的に識別対象文字群のフォントを決定しても
よい。
【0041】さらに,上記ステップS402においてグ
ループ内の判別を行う場合,最初のフォント判定でグル
ープ内のフォント(この場合はフォントAとフォント
B)に識別された文字数の多少で判別してもよい。
【0042】また,上記選択されたグループ以外のフォ
ントグループに属するフォントであると判別された文字
(この場合はフォントC,フォントD,フォントEで判
別された9文字)について,改めて選択されたグループ
内のフォント辞書を用いてマッチング処理を行い,選択
されたグループ内のフォント(この場合はフォントAと
フォントB)のいずれかに識別した上で,グループ内の
フォントのいずれであるかを併せて決定してもよい。
【0043】なお,上記フォント識別処理をハードウェ
ア(図1参照)により実現したが,この他に上記フォン
ト識別処理をソフトウェア化し,プロセッサを用いて実
行させてもよい。
【0044】
【発明の効果】以上説明したように,本発明に係るフォ
ント識別装置(請求項1)によれば,特定文字に対応す
るフォントパターンのみを用いて入力文字情報のフォン
ト識別を行うことにより,小さなフォント辞書によるフ
ォント識別が実現する。
【0045】また,本発明に係るフォント識別装置(請
求項2)によれば,出現頻度の高い文字を特定文字に設
定し,その特定文字に対応するものだけのフォント辞書
を用意することにより,用意すべきフォント辞書のサイ
ズを小さくすることができる。
【0046】また,本発明に係るフォント識別装置(請
求項3)によれば,フォント間におけるパターンの差異
が大きい文字を特定文字に設定することにより,小さな
フォント辞書であっても高精度の識別が可能となる。
【0047】また,本発明に係るフォント識別装置(請
求項4)によれば,フォント情報格納手段に格納されて
いる特定文字に対応するフォントパターンを参照して文
字群のフォントを識別することにより,小さな辞書で対
象文字群のフォント識別が可能となる。
【0048】また,本発明に係るフォント識別装置(請
求項5)によれば,フォントのグループ化を行い,文字
群の相当するグループを決定した後にグループ内のフォ
ントの中から対象文字群の相当するフォントを決定する
ことにより,より確実に対象文字群のフォント識別を行
うことが可能となる。
【0049】また,本発明に係るフォント識別装置(請
求項6)によれば,採用グループであると選択されたグ
ループ以外のグループに属するフォントであると判断さ
れた文字に対し,改めて採用グループ内のフォント辞書
を用いてマッチング処理を行って,採用グループ内のフ
ォントのいずれかに識別した上で,採用グループ内のフ
ォントのいずれかを決定することにより,さらに確実に
対象文字群のフォント識別を行うことが可能となる。
【0050】また,本発明に係るフォント識別装置(請
求項7)によれば,フォントグループを階層化し,その
階層の上位の大きなグループから対象グループ内のサブ
グループへと順次相当するグループを決定し,最終的に
対象文字群の相当するフォントを決定することにより,
より確実に対象文字群のフォント識別を行うことが可能
となる。
【図面の簡単な説明】
【図1】実施の形態に係るフォント識別処理を適用した
フォント識別装置の全体構成を示すブロック図である。
【図2】図1におけるフォント識別装置の全体処理を示
すフローチャートである。
【図3】実施の形態に係るフォント識別処理を示すフロ
ーチャートである。
【図4】実施の形態に係るグールプ化によるフォント識
別の処理動作を示すフローチャートである。
【符号の説明】
101 画像入力部 102 文字領域切り出し部 103 文字切り出し部 104 文字認識部 105 フォント識別部 107 制御部 108 フォント辞書
───────────────────────────────────────────────────── フロントページの続き (72)発明者 阿部 悌 東京都大田区中馬込1丁目3番6号 株式 会社リコー内

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 入力された文書画像のうち文字情報を抽
    出し,該文字情報の1文字を認識した後,その認識文字
    のフォントを識別するフォント識別装置において,あら
    かじめ定めた特定文字に対応するフォント毎のパターン
    が格納されているフォント情報格納手段と,文字認識さ
    れた文字が特定文字である場合に,前記フォント情報格
    納手段に格納されているパターンを参照し,前記文字の
    フォントを識別するフォント識別手段と,を備えたこと
    を特徴とするフォント識別装置。
  2. 【請求項2】 前記特定文字は,出現頻度の高い文字で
    設定されることを特徴とする請求項1に記載のフォント
    識別装置。
  3. 【請求項3】 前記特定文字は,フォント間におけるパ
    ターンの差異が大きい文字で設定されることを特徴とす
    る請求項1に記載のフォント識別装置。
  4. 【請求項4】 前記フォント識別手段は,前記フォント
    情報格納手段に格納されているパターンを参照し,文字
    群のフォントを識別することを特徴とする請求項1に記
    載のフォント識別装置。
  5. 【請求項5】 各フォント間の距離値を設定し,該距離
    値の近いフォントでグループ群に分け,前記フォント識
    別手段が,前記グループ群から識別対象の文字群に相当
    するグループを決定し,該グループ内のフォントの中か
    ら前記識別対象文字群のフォントを決定することを特徴
    とする請求項4に記載のフォント識別装置。
  6. 【請求項6】 前記フォント識別手段は,採用グループ
    であると選択されたグループ以外のグループに属するフ
    ォントであると判断された文字に対し,再度,採用グル
    ープ内のフォント辞書を用いてマッチング処理を実行
    し,採用グループ内のフォントのいずれかに識別した上
    で,採用グループ内のフォントのいずれかを決定するこ
    とを特徴とする請求項5に記載のフォント識別装置。
  7. 【請求項7】 前記グループは階層別に分けられたもの
    であって,前記フォント識別手段が,前記階層が上位の
    大きなグループから該当グループ内のサブグループへ順
    次相当するグループを決定し,最終的に対象文字群のフ
    ォントを決定することを特徴とする請求項5または6に
    記載のフォント識別装置。
JP8288831A 1996-10-30 1996-10-30 フォント識別装置 Pending JPH10134149A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8288831A JPH10134149A (ja) 1996-10-30 1996-10-30 フォント識別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8288831A JPH10134149A (ja) 1996-10-30 1996-10-30 フォント識別装置

Publications (1)

Publication Number Publication Date
JPH10134149A true JPH10134149A (ja) 1998-05-22

Family

ID=17735318

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8288831A Pending JPH10134149A (ja) 1996-10-30 1996-10-30 フォント識別装置

Country Status (1)

Country Link
JP (1) JPH10134149A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100550040C (zh) 2005-12-09 2009-10-14 佳能株式会社 光学字符识别方法和设备及字体识别方法和设备
JP2019003504A (ja) * 2017-06-16 2019-01-10 株式会社 みずほ銀行 証明書検証装置、証明書検証方法及び証明書検証プログラム
JP2021135529A (ja) * 2020-02-21 2021-09-13 沖電気工業株式会社 情報処理装置、情報処理方法、情報処理プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100550040C (zh) 2005-12-09 2009-10-14 佳能株式会社 光学字符识别方法和设备及字体识别方法和设备
JP2019003504A (ja) * 2017-06-16 2019-01-10 株式会社 みずほ銀行 証明書検証装置、証明書検証方法及び証明書検証プログラム
JP2021135529A (ja) * 2020-02-21 2021-09-13 沖電気工業株式会社 情報処理装置、情報処理方法、情報処理プログラム

Similar Documents

Publication Publication Date Title
US12499423B2 (en) Mobile check deposit
US6788810B2 (en) Optical character recognition device and method and recording medium
US9239946B2 (en) Method and apparatus for detecting and processing specific pattern from image
JP4189506B2 (ja) 画像処理のための装置、方法及び記録媒体
EP2270746B1 (en) Method for detecting alterations in printed document using image comparison analyses
US7796817B2 (en) Character recognition method, character recognition device, and computer product
JPH07141463A (ja) 2値画像内の機械印刷された金額の検出方法
JPH0721319A (ja) 自動アジア言語決定装置
JPH0721320A (ja) 自動スクリプト決定装置
CN113343866A (zh) 表格信息的识别方法及装置、电子设备
WO2024179388A1 (zh) 一种复式神经网络架构的浮游生物目标检测与分类方法
CN110210467B (zh) 一种文本图像的公式定位方法、图像处理装置、存储介质
JP2000187705A (ja) 文書読取装置および方法および記憶媒体
JPH10134149A (ja) フォント識別装置
US7508986B2 (en) Document recognition device, document recognition method and program, and storage medium
US6885778B2 (en) Image processing method and apparatus and storage medium
EP3940628A1 (en) Image processing device, image reading device, image processing method, and program
JP2006072839A (ja) 画像処理方法、画像処理装置、画像処理プログラム及び記録媒体
JP4162195B2 (ja) 画像処理装置、及び画像処理プログラム
CN114943958B (zh) 字符识别方法、装置、计算机设备以及存储介质
JP3056950B2 (ja) 文字認識装置及び方法
JP3074691B2 (ja) 文字認識装置
JP4580520B2 (ja) 文字認識方法および文字認識装置
JPH08202887A (ja) 画像処理装置及びその方法
JP4209511B2 (ja) 文字認識方法、文字認識装置および文字認識方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体