JPH0496882A - 全角/半角判定方法 - Google Patents
全角/半角判定方法Info
- Publication number
- JPH0496882A JPH0496882A JP2214717A JP21471790A JPH0496882A JP H0496882 A JPH0496882 A JP H0496882A JP 2214717 A JP2214717 A JP 2214717A JP 21471790 A JP21471790 A JP 21471790A JP H0496882 A JPH0496882 A JP H0496882A
- Authority
- JP
- Japan
- Prior art keywords
- width
- character
- full
- characters
- determination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野]
本発明は、日本語文章を対象とする文字認識装置におい
て、日本語文章中の全角文字と半角文字を判別する方法
に関する。
て、日本語文章中の全角文字と半角文字を判別する方法
に関する。
〔従来の技術]
近年、データベースへの文書データ入力手段などとして
文字認識装置が用いられるようになっている。このよう
な用途においては、原稿の忠実な認識が必要であって、
単に文字コードとして正確に認識するだけでは十分では
ない場合が多い。
文字認識装置が用いられるようになっている。このよう
な用途においては、原稿の忠実な認識が必要であって、
単に文字コードとして正確に認識するだけでは十分では
ない場合が多い。
例えば日本語文章の場合、全角の文字に混じって半角の
文字が用いられることが少なくないが、半角文字は文字
コードとして正しく認識すると同時に、そのサイズつま
り半角文字であることをも認識する必要がある。
文字が用いられることが少なくないが、半角文字は文字
コードとして正しく認識すると同時に、そのサイズつま
り半角文字であることをも認識する必要がある。
従来、このような文字の全角、半角の別を考慮した文字
認識装置として、文字行の垂直射影より検出した文字幅
及び文字量空白幅に着目して全角、半角を判別し、全角
文字については漢字辞書及び非漢字辞書の両方を用いて
文字認識を行い、半角文字については非漢字辞書のみを
用いて文字認識を行うようにした文字認識装置が知られ
ている(特開昭63−83887号、特開昭63−83
888号)。
認識装置として、文字行の垂直射影より検出した文字幅
及び文字量空白幅に着目して全角、半角を判別し、全角
文字については漢字辞書及び非漢字辞書の両方を用いて
文字認識を行い、半角文字については非漢字辞書のみを
用いて文字認識を行うようにした文字認識装置が知られ
ている(特開昭63−83887号、特開昭63−83
888号)。
[発明が解決しようとする課題1
文字幅と文字量空白幅は、文字によって、また文字の並
び方によって違いがある。例えば■“とII MI+で
は文字幅が大きく相違し、また’TIT ”と続く場合
、” M I NI ”と続く場合、“’ Ni kl
M”と続く場合とでは、文字量空白幅が相違する。
び方によって違いがある。例えば■“とII MI+で
は文字幅が大きく相違し、また’TIT ”と続く場合
、” M I NI ”と続く場合、“’ Ni kl
M”と続く場合とでは、文字量空白幅が相違する。
したがって、上記従来技術のように文字幅や文字量空白
幅を一定の文字幅閾値と比較することによって全角、半
角を判別する方法は、文字によって、あるいは文字並び
によっては、判定精度か悪く、また左右分離文字(“〕
]ピや′い“なと)の誤判定も起こりやすい。
幅を一定の文字幅閾値と比較することによって全角、半
角を判別する方法は、文字によって、あるいは文字並び
によっては、判定精度か悪く、また左右分離文字(“〕
]ピや′い“なと)の誤判定も起こりやすい。
さらに上記従来技術では、左右分離の漢字を半角文字と
判定した場合、その文字、42に非漢字辞書のみを用い
る結果、致命的な(回復できない)認識エラーとなって
しまう。
判定した場合、その文字、42に非漢字辞書のみを用い
る結果、致命的な(回復できない)認識エラーとなって
しまう。
本発明の目的は、日本語文章を対象とする文字H,2装
置において、上に述べたような全角/半角判定の精度の
問題と、判定誤りによる回復不能な認識エラーの問題を
解決できる全角/半角判定方法を提供することにある。
置において、上に述べたような全角/半角判定の精度の
問題と、判定誤りによる回復不能な認識エラーの問題を
解決できる全角/半角判定方法を提供することにある。
[課題を解決するための手段]
本発明によれば、日本語文章を対象とする文字認識装置
において、入力画像より切出された文字画像に対し全角
、半角の区別をせずに文字認識を行い、認識結果として
得られた特定文字種の文字(例えば英数字文字)につい
て、その文字画像の切出しの際に得られた文字サイズに
関する値と、予め特定文字種の文字別に用意された全角
/半角判別用値とを用いて全角、半角の別を判定する。
において、入力画像より切出された文字画像に対し全角
、半角の区別をせずに文字認識を行い、認識結果として
得られた特定文字種の文字(例えば英数字文字)につい
て、その文字画像の切出しの際に得られた文字サイズに
関する値と、予め特定文字種の文字別に用意された全角
/半角判別用値とを用いて全角、半角の別を判定する。
全角/半角判別用値は、例えば全角文字標準幅に対する
文字幅の比の閾値あるいは文字高さと文字幅の比の閾値
であり、特定文字種の文字に対する全角、半角の別の判
定は、全角文字標準幅に対する文字幅の比、あるいはそ
の文字高さは文字幅の比と、該当の半角/全角判別用値
との比較によって行う。
文字幅の比の閾値あるいは文字高さと文字幅の比の閾値
であり、特定文字種の文字に対する全角、半角の別の判
定は、全角文字標準幅に対する文字幅の比、あるいはそ
の文字高さは文字幅の比と、該当の半角/全角判別用値
との比較によって行う。
また本発明によれば、上記の文字単位の全角/半角判定
処理の後(こ、認識結果として得られた特定文字種の文
字列の中の半角と判定された文字数と全角と判定された
文字数の割合に基づき全角、半角の別を最終判定し、そ
の結V!:(こ従って文字列中の全文字を全角または半
角に統一する。
処理の後(こ、認識結果として得られた特定文字種の文
字列の中の半角と判定された文字数と全角と判定された
文字数の割合に基づき全角、半角の別を最終判定し、そ
の結V!:(こ従って文字列中の全文字を全角または半
角に統一する。
[作 用]
一般に日本語文章中に出現する半角文字は文字種が限ら
れ、殆との場合、漢字やひながなは全角で、半角文字は
英数字(英字、数字)に限られる。
れ、殆との場合、漢字やひながなは全角で、半角文字は
英数字(英字、数字)に限られる。
本発明は、全角、半角を区別せずに文字lト識を行い、
その結果が英数字のような半角の可能性のある文字種の
文字であるとき(二■って全角/半角判定の対象とする
ため、分離漢字などを半角文字と判定する間違いを避け
ることができる。また、上記従来技術のような認識前に
全角/半角判定を行う方法と違い、全角文字を半角文字
と誤判定することにより認識漏れ(致命的計、識エラー
)も回避できる。
その結果が英数字のような半角の可能性のある文字種の
文字であるとき(二■って全角/半角判定の対象とする
ため、分離漢字などを半角文字と判定する間違いを避け
ることができる。また、上記従来技術のような認識前に
全角/半角判定を行う方法と違い、全角文字を半角文字
と誤判定することにより認識漏れ(致命的計、識エラー
)も回避できる。
また、英数字などの半角文字として用いられる可能性の
ある文字種の文字数は限られているため、文字別に、全
角であるか半角であるかの判別のための値、例えば文字
幅の全角文字標準幅に対する比の閾値や、縦横比(文字
高さと文字幅の比)の閾値を予め用意することは比較的
容易であり、その設定も文字別であるから細かく行うこ
とができる。また、このような比は、前後の文字の影響
を直接受けるものではない。
ある文字種の文字数は限られているため、文字別に、全
角であるか半角であるかの判別のための値、例えば文字
幅の全角文字標準幅に対する比の閾値や、縦横比(文字
高さと文字幅の比)の閾値を予め用意することは比較的
容易であり、その設定も文字別であるから細かく行うこ
とができる。また、このような比は、前後の文字の影響
を直接受けるものではない。
したがって、そのような文字別の判別用閾値などを用い
る本発明の方法によれば、日本語文章中に出現する英数
字などの半角文字を精度よく判別することが可能であり
、また文字間空白幅を用いるような方法と違い文字並び
の影響による判定間違いを回避できる。
る本発明の方法によれば、日本語文章中に出現する英数
字などの半角文字を精度よく判別することが可能であり
、また文字間空白幅を用いるような方法と違い文字並び
の影響による判定間違いを回避できる。
また、英数字のI+ 1. 111+−のような幅の狭
い文字は、全角のときの文字幅と半角のときの文字幅の
差が小さいため、文字単位の全角/半角判定処理では判
定間違いが起きることがある。
い文字は、全角のときの文字幅と半角のときの文字幅の
差が小さいため、文字単位の全角/半角判定処理では判
定間違いが起きることがある。
本発明によれば、文字単位の全角/半角判定処理の後に
、特定文字種の文字列中の半角と判定された文字数と全
角と判定された文字数の割合に基づき、文字列について
の全角/半角判定を行い、その結果によって文字列の全
文字の全角または半角に統一する。一般に日本語文章に
おいて、一つの英数字文字列(単語)の中に全角と半角
が混在することは希であるので、そのような文字列単位
の全角/半角判定処理により、 i I+や′1“の
ような幅の狭い文字の判定間違いを修正することができ
る。
、特定文字種の文字列中の半角と判定された文字数と全
角と判定された文字数の割合に基づき、文字列について
の全角/半角判定を行い、その結果によって文字列の全
文字の全角または半角に統一する。一般に日本語文章に
おいて、一つの英数字文字列(単語)の中に全角と半角
が混在することは希であるので、そのような文字列単位
の全角/半角判定処理により、 i I+や′1“の
ような幅の狭い文字の判定間違いを修正することができ
る。
[実施例]
第1図は本発明の一実施例に係る文字認識装置のブロッ
ク図である。
ク図である。
この文字認識装置において、画像入力部】Oはスキャナ
ーなどにより原稿の画像を読取り、その2値画像データ
を入力し、画像メモリ】1に格納する。行・文字切出し
部12は、画像メモリ11内の入力画像に対し文字行の
切出し文字画像の切出しを行い、切出した文字画像デー
タを文字画像メモリ13へ格納し、また文字切出し位置
、文字幅、文字高さ、行ごとの全角文字標準値なとの切
出し情報を切出し情報メモリ14に格納する。
ーなどにより原稿の画像を読取り、その2値画像データ
を入力し、画像メモリ】1に格納する。行・文字切出し
部12は、画像メモリ11内の入力画像に対し文字行の
切出し文字画像の切出しを行い、切出した文字画像デー
タを文字画像メモリ13へ格納し、また文字切出し位置
、文字幅、文字高さ、行ごとの全角文字標準値なとの切
出し情報を切出し情報メモリ14に格納する。
文字認識部15は、文字画像メモリ13より文字画像の
データを読込み、正規化処理を行ってから特徴量を抽出
し、抽出特徴量と文字辞書メモリ16より読出した辞書
の特徴量とを比較し、特徴量の距離が小さい認識結果候
補をN位まで求め、距離の小さい順にソー[・シて認識
結果メモリ17へ格納する。なお、この段階では文字が
半角であるか全角であるかを区別せず、文字認識には漢
字辞書及び非漢字辞書の両方を用い、認識結果として全
角文字コードを出力する。
データを読込み、正規化処理を行ってから特徴量を抽出
し、抽出特徴量と文字辞書メモリ16より読出した辞書
の特徴量とを比較し、特徴量の距離が小さい認識結果候
補をN位まで求め、距離の小さい順にソー[・シて認識
結果メモリ17へ格納する。なお、この段階では文字が
半角であるか全角であるかを区別せず、文字認識には漢
字辞書及び非漢字辞書の両方を用い、認識結果として全
角文字コードを出力する。
全角/半角判定部18は、認識結果メモリ17に得られ
た認識結果の第1候補と全角/半角判別テーブルメモリ
19の内容を参照し、特定文字種(ここでは英数字とす
る)の第1候補文字に関してのみ、全角/半角判定を行
い、半角文字と判定された候補の文字コードを半角文字
コードに書換える。
た認識結果の第1候補と全角/半角判別テーブルメモリ
19の内容を参照し、特定文字種(ここでは英数字とす
る)の第1候補文字に関してのみ、全角/半角判定を行
い、半角文字と判定された候補の文字コードを半角文字
コードに書換える。
全角/半角判別テーブルメモリ19には、特定文字種で
ある英数字について文字別の全角/半角判別用値を登録
した全角/半角判別テーブルが格納されている。本実施
例においては、全角/!4″、角判別用値とした全角文
字標準幅に対する文字幅の比の閾値が用いられる。
ある英数字について文字別の全角/半角判別用値を登録
した全角/半角判別テーブルが格納されている。本実施
例においては、全角/!4″、角判別用値とした全角文
字標準幅に対する文字幅の比の閾値が用いられる。
結果出力部20は、認識結果メモリ21の全角/半角判
定処理後の認識結果データをデイスプレィやプリンタな
との出力機器へ出力する。
定処理後の認識結果データをデイスプレィやプリンタな
との出力機器へ出力する。
第2図に、この文字認識装置の全体処理の流れを示す。
■は画像入力部10による画像入力の処理であり、■は
行・文字切出し部12による切出し処理、■は文字肥識
部15による全角/半角を区別しない文字認識処理であ
る。■と■が全角/半角判定部18による処理であり、
■が文字単位の判定処理、■が文字列量位の判定処理で
ある。
行・文字切出し部12による切出し処理、■は文字肥識
部15による全角/半角を区別しない文字認識処理であ
る。■と■が全角/半角判定部18による処理であり、
■が文字単位の判定処理、■が文字列量位の判定処理で
ある。
■は結果出力部20による認識結果の出力処理である。
文字単位の全角/半角判定処理■の内容は第3図に示
す通りである。また文字列単位の全角/側角判定処理■
の処理内容は第4図に示す通りである。
す通りである。また文字列単位の全角/側角判定処理■
の処理内容は第4図に示す通りである。
次に、横書きの文字列“新型 Rjfax 発売″(
漢字は全角、英字は半角で印刷されているものとする)
を例にして、全角/半角判定処理について詳細に説明す
る。ただし、説明を簡単にするため、この文字列が存在
する行に他の文字がないものとする。
漢字は全角、英字は半角で印刷されているものとする)
を例にして、全角/半角判定処理について詳細に説明す
る。ただし、説明を簡単にするため、この文字列が存在
する行に他の文字がないものとする。
上記文字列の行切出し1文字切出しが行われた結果、切
出し情報メモリ14に第5図に示す内容の切出し情報が
得られたとする。
出し情報メモリ14に第5図に示す内容の切出し情報が
得られたとする。
ここで、文字幅は文字外接矩形の横方向のサイズ、文字
高さは文字外接矩形の縦方向のサイズである。また、全
角文字標準幅は、対象となる行に対して一つ与えられる
パラメータで、行内文字の文字幅の最大値あるいは文字
高さの最大値、行の高さ等をもとにして算出される。
高さは文字外接矩形の縦方向のサイズである。また、全
角文字標準幅は、対象となる行に対して一つ与えられる
パラメータで、行内文字の文字幅の最大値あるいは文字
高さの最大値、行の高さ等をもとにして算出される。
上記文字列の各文字に対する文字認識の結果、第6図に
示すような第1候補が得られて認識結果メモリ19に格
納されたとする。なお、文字認識では全角、半角を区別
しないため、本実施例では前述のように候補の文字コー
トはすべて全角文字コードとなっている。
示すような第1候補が得られて認識結果メモリ19に格
納されたとする。なお、文字認識では全角、半角を区別
しないため、本実施例では前述のように候補の文字コー
トはすべて全角文字コードとなっている。
全角/半角判別テーブルメモリ19は第7図に示す内容
であるとして、全角/半角判定部】8の文字単位判定処
理■(第2図)について第3図に沿い説明する。
であるとして、全角/半角判定部】8の文字単位判定処
理■(第2図)について第3図に沿い説明する。
まず認識結果メモリ19内の認識結果第1候補を参照し
、英数字(英大文字、英小文字、数字)を探す(ステッ
プ100,101,102)。
、英数字(英大文字、英小文字、数字)を探す(ステッ
プ100,101,102)。
英数字を見つけると、その文字の文字幅と全角標準幅を
切出し情報メモリ14より読込み、文字幅の全角文字標
準幅に対する比Aを計算する(ステップ103)。次に
、対象文字の全角文字コードにより全角/半角判別テー
ブルメモリ19を検索し、その文字に対する全角/半角
判別用閾値Bを読込む。
切出し情報メモリ14より読込み、文字幅の全角文字標
準幅に対する比Aを計算する(ステップ103)。次に
、対象文字の全角文字コードにより全角/半角判別テー
ブルメモリ19を検索し、その文字に対する全角/半角
判別用閾値Bを読込む。
そしてAとBを比較し、A<Bであれば対象文字を半角
と判定し、Ag3であれば対象文字を全角と判定する(
ステップ105)。すなわち、半角文字は全角文字に比
べて横方向に漬れた形をしているので、半角文字の比A
の値は全角文字の比Aの値に比へて小さいので、この違
いを閾値Bによって判定しているわけである。そして、
閾値Bとして適切な値は文字によって当然に違いがある
ので、閾値Bを文字別に用意している。換言すれば、文
字別にすることによって、閾値Bを最適値に細かく設定
可能となる。
と判定し、Ag3であれば対象文字を全角と判定する(
ステップ105)。すなわち、半角文字は全角文字に比
べて横方向に漬れた形をしているので、半角文字の比A
の値は全角文字の比Aの値に比へて小さいので、この違
いを閾値Bによって判定しているわけである。そして、
閾値Bとして適切な値は文字によって当然に違いがある
ので、閾値Bを文字別に用意している。換言すれば、文
字別にすることによって、閾値Bを最適値に細かく設定
可能となる。
半角と判定した場合、対象文字の第1候補の全角文字コ
ードを半角文字コードに書き換える(ステップ1o6)
。
ードを半角文字コードに書き換える(ステップ1o6)
。
同様の処理をステップ1.07で最終文字と判定される
まで繰返す。
まで繰返す。
上記文字列の場合、3番目の文字” R”はA−0,5
0,8=0.76であるから半角と判定される。4番目
から7番目までの英数字もいずれもA〈Bであるので(
第5図、第7図参照)、すべて半角と判定される。
0,8=0.76であるから半角と判定される。4番目
から7番目までの英数字もいずれもA〈Bであるので(
第5図、第7図参照)、すべて半角と判定される。
このような文字単位の全角/半角判定処理によって、殆
どの半角文字に対する第1候補は半角文字コードに修正
されるので、この処理後の認識結果を最終結果として出
力することも可能である。
どの半角文字に対する第1候補は半角文字コードに修正
されるので、この処理後の認識結果を最終結果として出
力することも可能である。
すなわち、文字列単位の全角/半角判定処理σ(第2図
)を省くことも可能である。
)を省くことも可能である。
しかし、本実施例においては、より確実な全角/半角判
定を達成するため、さらに文字列単位の全角/半角判定
処理を行う。この処理内容について第4図に沿って説明
する。
定を達成するため、さらに文字列単位の全角/半角判定
処理を行う。この処理内容について第4図に沿って説明
する。
初期設定(ステップ201,202)の後、認識結果メ
モリ17内の対象行の第1候補を先頭文字より順に調べ
、英数字文字列を探し、見つかった英数字文字列中の半
角文字と全角文字の個数をカウントする(ステップ20
3〜210)。英数フラグは、英数字文字列の始まりと
終りを検出するためのフラグである。英数字文字列が最
終文字まで続いている場合はステップ209からステッ
プ213へ進み、その英数字文字列中の全角文字数と半
角文字数を比較し、全角文字数く半角文字数てあれば、
その英数字文字列の全文字の第1候補の文字コードを半
角文字コードに書き換える(ステップ214〕。すなわ
ち、本実施例では英数文字列中の全角文字と半角文字の
多数決によって、英数字文字列全体の全角、半角の最終
判定を行う。
モリ17内の対象行の第1候補を先頭文字より順に調べ
、英数字文字列を探し、見つかった英数字文字列中の半
角文字と全角文字の個数をカウントする(ステップ20
3〜210)。英数フラグは、英数字文字列の始まりと
終りを検出するためのフラグである。英数字文字列が最
終文字まで続いている場合はステップ209からステッ
プ213へ進み、その英数字文字列中の全角文字数と半
角文字数を比較し、全角文字数く半角文字数てあれば、
その英数字文字列の全文字の第1候補の文字コードを半
角文字コードに書き換える(ステップ214〕。すなわ
ち、本実施例では英数文字列中の全角文字と半角文字の
多数決によって、英数字文字列全体の全角、半角の最終
判定を行う。
また、英数字文字列の最終文字に続いて英数字以外の文
字が存在する場合、ステップ211,212を経てステ
ップ213に進み同様の処理を行う。
字が存在する場合、ステップ211,212を経てステ
ップ213に進み同様の処理を行う。
そして、ステップ215で最終文字と判定されると、処
理を終了する。
理を終了する。
文字単位の全角/半角判定処理の結果、例えば上記文字
列の’Rjfax’”の中の1”だけ全角と誤判定され
たとする。 1″や′1″のような幅の狭い文字は、
全角と半角で文字幅の差が小さいため、文字単位の判定
処理では誤果定が起きやすい。
列の’Rjfax’”の中の1”だけ全角と誤判定され
たとする。 1″や′1″のような幅の狭い文字は、
全角と半角で文字幅の差が小さいため、文字単位の判定
処理では誤果定が起きやすい。
しかし、全角文字数はl、半角文字数は4であるから、
文字列単位の判定処理で、この″】″は半角に修正され
る。
文字列単位の判定処理で、この″】″は半角に修正され
る。
一般に英数字の一つの文字列(単語)の中では、全角文
字と半角文字が混在することは希であるので、このよう
な文字列単位の判定処理を行えば、はとんど殆どの場合
に正解を得られる。
字と半角文字が混在することは希であるので、このよう
な文字列単位の判定処理を行えば、はとんど殆どの場合
に正解を得られる。
本発明の他の実施例によれば、文字高さは文字幅の比(
縦横比)の全角、半角の判定に用いられる。この縦横比
は、全角文字に比べ半角文字のほうが大きくなるので、
この違いを判定するための縦横比閾値が文字別に用意さ
れて全角/半角判別テーブルメモリ19に格納される。
縦横比)の全角、半角の判定に用いられる。この縦横比
は、全角文字に比べ半角文字のほうが大きくなるので、
この違いを判定するための縦横比閾値が文字別に用意さ
れて全角/半角判別テーブルメモリ19に格納される。
文字単位の全角/半角判定処理では、切出し情報として
得られた文字高さは文字幅より縦横比が計算され、その
値と全角/半角判別テーブルメモリ19から読出された
該当閾値との比較により、全角、半角の別が判定がなさ
れる。
得られた文字高さは文字幅より縦横比が計算され、その
値と全角/半角判別テーブルメモリ19から読出された
該当閾値との比較により、全角、半角の別が判定がなさ
れる。
[発明の効果]
以上説明した如く、請求項(1)あるいはその従属請求
項(3)または(4)記載の発明によれば、日本語文章
中に出現する英数字などの半角文字を高精度に判別可能
であり、分離漢字などの誤判定、全角文字を半角文字と
誤判定することによる致命的認識エラー、文字並びの影
響による判定間違いを回避でき、さらに請求項(2)あ
るいはその従属請求項(3)または(4)記載の発明に
よれば、英数字の″ ビ′のような幅が狭い文字の全角
、半角の判定間違いを修正することができる。
項(3)または(4)記載の発明によれば、日本語文章
中に出現する英数字などの半角文字を高精度に判別可能
であり、分離漢字などの誤判定、全角文字を半角文字と
誤判定することによる致命的認識エラー、文字並びの影
響による判定間違いを回避でき、さらに請求項(2)あ
るいはその従属請求項(3)または(4)記載の発明に
よれば、英数字の″ ビ′のような幅が狭い文字の全角
、半角の判定間違いを修正することができる。
第1図は本発明の一実施例に係る文字認識装置のブロッ
ク図、第2図は処理全体のフローチャート、第3図は文
字単位の全角/半角判定処理のフローチャート、第4図
は文字列単位の全角/半角判定処理のフローチャート、
第5図は切出し情報メモリの内容の説明図、第6図は認
識結果メモリの内容の説明図、第7図は全角/半角判別
テーブルメモリの内容の説明図である。 1 画像入力部、 11・・画像メモリ、12・・行
・文字切出し部、 13・−・文字画像メモリ、
14・・切出し情報メモリ、 15・・文字肥識部、
16・文字辞書メモリ、17・・認識結果メモリ、
18・全角/半角判定部、 19・・全角/半角
判別テーブルメモリ、20 結果出力部。 第3図
ク図、第2図は処理全体のフローチャート、第3図は文
字単位の全角/半角判定処理のフローチャート、第4図
は文字列単位の全角/半角判定処理のフローチャート、
第5図は切出し情報メモリの内容の説明図、第6図は認
識結果メモリの内容の説明図、第7図は全角/半角判別
テーブルメモリの内容の説明図である。 1 画像入力部、 11・・画像メモリ、12・・行
・文字切出し部、 13・−・文字画像メモリ、
14・・切出し情報メモリ、 15・・文字肥識部、
16・文字辞書メモリ、17・・認識結果メモリ、
18・全角/半角判定部、 19・・全角/半角
判別テーブルメモリ、20 結果出力部。 第3図
Claims (4)
- (1)日本語文章を対象とする文字認識装置において、
入力画像より切出された文字画像に対し、全角、半角の
区別をせずに文字認識を行い、認識結果として得られた
特定文字種の文字について、その文字画像の切出しの際
に得られた文字サイズに関する値と、予め特定文字種の
文字別に用意された全角/半角判別用値とを用いて全角
、半角の別を判定することを特徴とする全角/半角判定
方法。 - (2)日本語文章を対象とする文字認識装置においいて
、入力画像より切出された文字画像に対し全角、半角の
区別をせずに文字認識を行い、認識結果として得られた
特定文字種の文字について、その文字画像の切出しの際
に得られた文字サイズに関する値と、予め特定文字種の
文字別に用意された全角/半角判別用値とを用いて全角
/半角の別を判定した後、認識結果として得られた特定
文字種の文字列の中の全角と判定された文字数と半角と
判定された文字数の割合に基づき全角、半角の別を最終
判定し、その結果に従って文字列中の全文字を全角また
は半角に統一することを特徴とする全角/判角判定方法
。 - (3)全角/半角判別用値は全角文字標準幅に対する文
字幅の比の閾値であり、特定文字種の文字に対する全角
、半角の別の判定は、全角文字標準幅に対する文字幅の
比と、該当の全角/半角判別用値との比較によって行う
ことを特徴とする請求項(1)または(2)記載の全角
/半角判定方法。 - (4)全角/半角判別用値は文字高さと文字幅の閾値で
あり、特定文字種の文字に対する全角、半角の別の判定
は、その文字高さと文字幅の比と、該当の全角/半角判
別用値との比較によって行うことを特徴とする請求項(
1)または(2)記載の全角/半角判定方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2214717A JPH0496882A (ja) | 1990-08-14 | 1990-08-14 | 全角/半角判定方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2214717A JPH0496882A (ja) | 1990-08-14 | 1990-08-14 | 全角/半角判定方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0496882A true JPH0496882A (ja) | 1992-03-30 |
Family
ID=16660459
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2214717A Pending JPH0496882A (ja) | 1990-08-14 | 1990-08-14 | 全角/半角判定方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0496882A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009282986A (ja) * | 2008-05-23 | 2009-12-03 | Sharp Corp | デジタル画像内の数字を検知する方法 |
-
1990
- 1990-08-14 JP JP2214717A patent/JPH0496882A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009282986A (ja) * | 2008-05-23 | 2009-12-03 | Sharp Corp | デジタル画像内の数字を検知する方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5161245A (en) | Pattern recognition system having inter-pattern spacing correction | |
| US8340425B2 (en) | Optical character recognition with two-pass zoning | |
| JPH04195692A (ja) | 文書読取装置 | |
| JP4733577B2 (ja) | 帳票認識装置及び帳票認識プログラム | |
| US7133556B1 (en) | Character recognition device and method for detecting erroneously read characters, and computer readable medium to implement character recognition | |
| JPH06215184A (ja) | 抽出領域のラベリング装置 | |
| JPH0496882A (ja) | 全角/半角判定方法 | |
| JPS63146187A (ja) | 文字認識装置 | |
| JP3812719B2 (ja) | 文書検索装置 | |
| JPH0728935A (ja) | 文書画像処理装置 | |
| JP3151866B2 (ja) | 英文字認識方法 | |
| JP2000132635A (ja) | 認識データ確認方法 | |
| JP2963474B2 (ja) | 類似文字識別方法 | |
| JP2939945B2 (ja) | ローマ字住所認識装置 | |
| JPH03156589A (ja) | 誤読文字の検出,修正方法 | |
| JP2851102B2 (ja) | 文字切出し方法 | |
| JP2931485B2 (ja) | 文字切出し装置及び方法 | |
| JPH01171080A (ja) | 誤り自動訂正文字認識装置 | |
| JPH08297720A (ja) | 一般文書読み取り装置 | |
| JPH07296102A (ja) | データ入力方式 | |
| JPH0573713A (ja) | 文字読取装置 | |
| JPH0728957A (ja) | 英文字認識装置 | |
| JPH08221507A (ja) | 文書認識方法および装置 | |
| JPH0614376B2 (ja) | 日本文誤字自動検出装置 | |
| JPH0614375B2 (ja) | 文字入力装置 |