JPH0496882A

JPH0496882A - 全角／半角判定方法

Info

Publication number: JPH0496882A
Application number: JP2214717A
Authority: JP
Inventors: Takakuni Minewaki; 隆邦嶺脇
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1990-08-14
Filing date: 1990-08-14
Publication date: 1992-03-30

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野］本発明は、日本語文章を対象とする文字認識装置におい
て、日本語文章中の全角文字と半角文字を判別する方法
に関する。

〔従来の技術］近年、データベースへの文書データ入力手段などとして
文字認識装置が用いられるようになっている。このよう
な用途においては、原稿の忠実な認識が必要であって、
単に文字コードとして正確に認識するだけでは十分では
ない場合が多い。

例えば日本語文章の場合、全角の文字に混じって半角の
文字が用いられることが少なくないが、半角文字は文字
コードとして正しく認識すると同時に、そのサイズつま
り半角文字であることをも認識する必要がある。

従来、このような文字の全角、半角の別を考慮した文字
認識装置として、文字行の垂直射影より検出した文字幅
及び文字量空白幅に着目して全角、半角を判別し、全角
文字については漢字辞書及び非漢字辞書の両方を用いて
文字認識を行い、半角文字については非漢字辞書のみを
用いて文字認識を行うようにした文字認識装置が知られ
ている（特開昭６３−８３８８７号、特開昭６３−８３
８８８号）。

［発明が解決しようとする課題１文字幅と文字量空白幅は、文字によって、また文字の並
び方によって違いがある。例えば■“とＩＩ　ＭＩ＋で
は文字幅が大きく相違し、また’ＴＩＴ　”と続く場合
、”　Ｍ　Ｉ　ＮＩ　”と続く場合、“’　Ｎｉ　ｋｌ
Ｍ”と続く場合とでは、文字量空白幅が相違する。

したがって、上記従来技術のように文字幅や文字量空白
幅を一定の文字幅閾値と比較することによって全角、半
角を判別する方法は、文字によって、あるいは文字並び
によっては、判定精度か悪く、また左右分離文字（“〕
］ピや′い“なと）の誤判定も起こりやすい。

さらに上記従来技術では、左右分離の漢字を半角文字と
判定した場合、その文字、４２に非漢字辞書のみを用い
る結果、致命的な（回復できない）認識エラーとなって
しまう。

本発明の目的は、日本語文章を対象とする文字Ｈ，２装
置において、上に述べたような全角／半角判定の精度の
問題と、判定誤りによる回復不能な認識エラーの問題を
解決できる全角／半角判定方法を提供することにある。

［課題を解決するための手段］本発明によれば、日本語文章を対象とする文字認識装置
において、入力画像より切出された文字画像に対し全角
、半角の区別をせずに文字認識を行い、認識結果として
得られた特定文字種の文字（例えば英数字文字）につい
て、その文字画像の切出しの際に得られた文字サイズに
関する値と、予め特定文字種の文字別に用意された全角
／半角判別用値とを用いて全角、半角の別を判定する。

全角／半角判別用値は、例えば全角文字標準幅に対する
文字幅の比の閾値あるいは文字高さと文字幅の比の閾値
であり、特定文字種の文字に対する全角、半角の別の判
定は、全角文字標準幅に対する文字幅の比、あるいはそ
の文字高さは文字幅の比と、該当の半角／全角判別用値
との比較によって行う。

また本発明によれば、上記の文字単位の全角／半角判定
処理の後（こ、認識結果として得られた特定文字種の文
字列の中の半角と判定された文字数と全角と判定された
文字数の割合に基づき全角、半角の別を最終判定し、そ
の結Ｖ！：（こ従って文字列中の全文字を全角または半
角に統一する。

［作　用］一般に日本語文章中に出現する半角文字は文字種が限ら
れ、殆との場合、漢字やひながなは全角で、半角文字は
英数字（英字、数字）に限られる。

本発明は、全角、半角を区別せずに文字ｌト識を行い、
その結果が英数字のような半角の可能性のある文字種の
文字であるとき（二■って全角／半角判定の対象とする
ため、分離漢字などを半角文字と判定する間違いを避け
ることができる。また、上記従来技術のような認識前に
全角／半角判定を行う方法と違い、全角文字を半角文字
と誤判定することにより認識漏れ（致命的計、識エラー
）も回避できる。

また、英数字などの半角文字として用いられる可能性の
ある文字種の文字数は限られているため、文字別に、全
角であるか半角であるかの判別のための値、例えば文字
幅の全角文字標準幅に対する比の閾値や、縦横比（文字
高さと文字幅の比）の閾値を予め用意することは比較的
容易であり、その設定も文字別であるから細かく行うこ
とができる。また、このような比は、前後の文字の影響
を直接受けるものではない。

したがって、そのような文字別の判別用閾値などを用い
る本発明の方法によれば、日本語文章中に出現する英数
字などの半角文字を精度よく判別することが可能であり
、また文字間空白幅を用いるような方法と違い文字並び
の影響による判定間違いを回避できる。

また、英数字のＩ＋　１．　１１１＋−のような幅の狭
い文字は、全角のときの文字幅と半角のときの文字幅の
差が小さいため、文字単位の全角／半角判定処理では判
定間違いが起きることがある。

本発明によれば、文字単位の全角／半角判定処理の後に
、特定文字種の文字列中の半角と判定された文字数と全
角と判定された文字数の割合に基づき、文字列について
の全角／半角判定を行い、その結果によって文字列の全
文字の全角または半角に統一する。一般に日本語文章に
おいて、一つの英数字文字列（単語）の中に全角と半角
が混在することは希であるので、そのような文字列単位
の全角／半角判定処理により、　　ｉ　Ｉ＋や′１“の
ような幅の狭い文字の判定間違いを修正することができ
る。

［実施例］第１図は本発明の一実施例に係る文字認識装置のブロッ
ク図である。

この文字認識装置において、画像入力部】Ｏはスキャナ
ーなどにより原稿の画像を読取り、その２値画像データ
を入力し、画像メモリ】１に格納する。行・文字切出し
部１２は、画像メモリ１１内の入力画像に対し文字行の
切出し文字画像の切出しを行い、切出した文字画像デー
タを文字画像メモリ１３へ格納し、また文字切出し位置
、文字幅、文字高さ、行ごとの全角文字標準値なとの切
出し情報を切出し情報メモリ１４に格納する。

文字認識部１５は、文字画像メモリ１３より文字画像の
データを読込み、正規化処理を行ってから特徴量を抽出
し、抽出特徴量と文字辞書メモリ１６より読出した辞書
の特徴量とを比較し、特徴量の距離が小さい認識結果候
補をＮ位まで求め、距離の小さい順にソー［・シて認識
結果メモリ１７へ格納する。なお、この段階では文字が
半角であるか全角であるかを区別せず、文字認識には漢
字辞書及び非漢字辞書の両方を用い、認識結果として全
角文字コードを出力する。

全角／半角判定部１８は、認識結果メモリ１７に得られ
た認識結果の第１候補と全角／半角判別テーブルメモリ
１９の内容を参照し、特定文字種（ここでは英数字とす
る）の第１候補文字に関してのみ、全角／半角判定を行
い、半角文字と判定された候補の文字コードを半角文字
コードに書換える。

全角／半角判別テーブルメモリ１９には、特定文字種で
ある英数字について文字別の全角／半角判別用値を登録
した全角／半角判別テーブルが格納されている。本実施
例においては、全角／！４″、角判別用値とした全角文
字標準幅に対する文字幅の比の閾値が用いられる。

結果出力部２０は、認識結果メモリ２１の全角／半角判
定処理後の認識結果データをデイスプレィやプリンタな
との出力機器へ出力する。

第２図に、この文字認識装置の全体処理の流れを示す。

■は画像入力部１０による画像入力の処理であり、■は
行・文字切出し部１２による切出し処理、■は文字肥識
部１５による全角／半角を区別しない文字認識処理であ
る。■と■が全角／半角判定部１８による処理であり、
■が文字単位の判定処理、■が文字列量位の判定処理で
ある。

■は結果出力部２０による認識結果の出力処理である。

　文字単位の全角／半角判定処理■の内容は第３図に示
す通りである。また文字列単位の全角／側角判定処理■
の処理内容は第４図に示す通りである。

次に、横書きの文字列“新型　Ｒｊｆａｘ　　発売″（
漢字は全角、英字は半角で印刷されているものとする）
を例にして、全角／半角判定処理について詳細に説明す
る。ただし、説明を簡単にするため、この文字列が存在
する行に他の文字がないものとする。

上記文字列の行切出し１文字切出しが行われた結果、切
出し情報メモリ１４に第５図に示す内容の切出し情報が
得られたとする。

ここで、文字幅は文字外接矩形の横方向のサイズ、文字
高さは文字外接矩形の縦方向のサイズである。また、全
角文字標準幅は、対象となる行に対して一つ与えられる
パラメータで、行内文字の文字幅の最大値あるいは文字
高さの最大値、行の高さ等をもとにして算出される。

上記文字列の各文字に対する文字認識の結果、第６図に
示すような第１候補が得られて認識結果メモリ１９に格
納されたとする。なお、文字認識では全角、半角を区別
しないため、本実施例では前述のように候補の文字コー
トはすべて全角文字コードとなっている。

全角／半角判別テーブルメモリ１９は第７図に示す内容
であるとして、全角／半角判定部】８の文字単位判定処
理■（第２図）について第３図に沿い説明する。

まず認識結果メモリ１９内の認識結果第１候補を参照し
、英数字（英大文字、英小文字、数字）を探す（ステッ
プ１００，１０１，１０２）。

英数字を見つけると、その文字の文字幅と全角標準幅を
切出し情報メモリ１４より読込み、文字幅の全角文字標
準幅に対する比Ａを計算する（ステップ１０３）。次に
、対象文字の全角文字コードにより全角／半角判別テー
ブルメモリ１９を検索し、その文字に対する全角／半角
判別用閾値Ｂを読込む。

そしてＡとＢを比較し、Ａ＜Ｂであれば対象文字を半角
と判定し、Ａｇ３であれば対象文字を全角と判定する（
ステップ１０５）。すなわち、半角文字は全角文字に比
べて横方向に漬れた形をしているので、半角文字の比Ａ
の値は全角文字の比Ａの値に比へて小さいので、この違
いを閾値Ｂによって判定しているわけである。そして、
閾値Ｂとして適切な値は文字によって当然に違いがある
ので、閾値Ｂを文字別に用意している。換言すれば、文
字別にすることによって、閾値Ｂを最適値に細かく設定
可能となる。

半角と判定した場合、対象文字の第１候補の全角文字コ
ードを半角文字コードに書き換える（ステップ１ｏ６）
。

同様の処理をステップ１．０７で最終文字と判定される
まで繰返す。

上記文字列の場合、３番目の文字”　Ｒ”はＡ−０，５
０，８＝０．７６であるから半角と判定される。４番目
から７番目までの英数字もいずれもＡ〈Ｂであるので（
第５図、第７図参照）、すべて半角と判定される。

このような文字単位の全角／半角判定処理によって、殆
どの半角文字に対する第１候補は半角文字コードに修正
されるので、この処理後の認識結果を最終結果として出
力することも可能である。

すなわち、文字列単位の全角／半角判定処理σ（第２図
）を省くことも可能である。

しかし、本実施例においては、より確実な全角／半角判
定を達成するため、さらに文字列単位の全角／半角判定
処理を行う。この処理内容について第４図に沿って説明
する。

初期設定（ステップ２０１，２０２）の後、認識結果メ
モリ１７内の対象行の第１候補を先頭文字より順に調べ
、英数字文字列を探し、見つかった英数字文字列中の半
角文字と全角文字の個数をカウントする（ステップ２０
３〜２１０）。英数フラグは、英数字文字列の始まりと
終りを検出するためのフラグである。英数字文字列が最
終文字まで続いている場合はステップ２０９からステッ
プ２１３へ進み、その英数字文字列中の全角文字数と半
角文字数を比較し、全角文字数く半角文字数てあれば、
その英数字文字列の全文字の第１候補の文字コードを半
角文字コードに書き換える（ステップ２１４〕。すなわ
ち、本実施例では英数文字列中の全角文字と半角文字の
多数決によって、英数字文字列全体の全角、半角の最終
判定を行う。

また、英数字文字列の最終文字に続いて英数字以外の文
字が存在する場合、ステップ２１１，２１２を経てステ
ップ２１３に進み同様の処理を行う。

そして、ステップ２１５で最終文字と判定されると、処
理を終了する。

文字単位の全角／半角判定処理の結果、例えば上記文字
列の’Ｒｊｆａｘ’”の中の１”だけ全角と誤判定され
たとする。　　１″や′１″のような幅の狭い文字は、
全角と半角で文字幅の差が小さいため、文字単位の判定
処理では誤果定が起きやすい。

しかし、全角文字数はｌ、半角文字数は４であるから、
文字列単位の判定処理で、この″】″は半角に修正され
る。

一般に英数字の一つの文字列（単語）の中では、全角文
字と半角文字が混在することは希であるので、このよう
な文字列単位の判定処理を行えば、はとんど殆どの場合
に正解を得られる。

本発明の他の実施例によれば、文字高さは文字幅の比（
縦横比）の全角、半角の判定に用いられる。この縦横比
は、全角文字に比べ半角文字のほうが大きくなるので、
この違いを判定するための縦横比閾値が文字別に用意さ
れて全角／半角判別テーブルメモリ１９に格納される。

文字単位の全角／半角判定処理では、切出し情報として
得られた文字高さは文字幅より縦横比が計算され、その
値と全角／半角判別テーブルメモリ１９から読出された
該当閾値との比較により、全角、半角の別が判定がなさ
れる。

［発明の効果］以上説明した如く、請求項（１）あるいはその従属請求
項（３）または（４）記載の発明によれば、日本語文章
中に出現する英数字などの半角文字を高精度に判別可能
であり、分離漢字などの誤判定、全角文字を半角文字と
誤判定することによる致命的認識エラー、文字並びの影
響による判定間違いを回避でき、さらに請求項（２）あ
るいはその従属請求項（３）または（４）記載の発明に
よれば、英数字の″　ビ′のような幅が狭い文字の全角
、半角の判定間違いを修正することができる。

【図面の簡単な説明】

第１図は本発明の一実施例に係る文字認識装置のブロッ
ク図、第２図は処理全体のフローチャート、第３図は文
字単位の全角／半角判定処理のフローチャート、第４図
は文字列単位の全角／半角判定処理のフローチャート、
第５図は切出し情報メモリの内容の説明図、第６図は認
識結果メモリの内容の説明図、第７図は全角／半角判別
テーブルメモリの内容の説明図である。１　画像入力部、　　１１・・画像メモリ、１２・・行
・文字切出し部、　　１３・−・文字画像メモリ、　　
１４・・切出し情報メモリ、　　１５・・文字肥識部、
　　１６・文字辞書メモリ、１７・・認識結果メモリ、
　　１８・全角／半角判定部、　　１９・・全角／半角
判別テーブルメモリ、２０　結果出力部。第３図

Claims

【特許請求の範囲】

（１）日本語文章を対象とする文字認識装置において、
入力画像より切出された文字画像に対し、全角、半角の
区別をせずに文字認識を行い、認識結果として得られた
特定文字種の文字について、その文字画像の切出しの際
に得られた文字サイズに関する値と、予め特定文字種の
文字別に用意された全角／半角判別用値とを用いて全角
、半角の別を判定することを特徴とする全角／半角判定
方法。
（２）日本語文章を対象とする文字認識装置においいて
、入力画像より切出された文字画像に対し全角、半角の
区別をせずに文字認識を行い、認識結果として得られた
特定文字種の文字について、その文字画像の切出しの際
に得られた文字サイズに関する値と、予め特定文字種の
文字別に用意された全角／半角判別用値とを用いて全角
／半角の別を判定した後、認識結果として得られた特定
文字種の文字列の中の全角と判定された文字数と半角と
判定された文字数の割合に基づき全角、半角の別を最終
判定し、その結果に従って文字列中の全文字を全角また
は半角に統一することを特徴とする全角／判角判定方法
。
（３）全角／半角判別用値は全角文字標準幅に対する文
字幅の比の閾値であり、特定文字種の文字に対する全角
、半角の別の判定は、全角文字標準幅に対する文字幅の
比と、該当の全角／半角判別用値との比較によって行う
ことを特徴とする請求項（１）または（２）記載の全角
／半角判定方法。
（４）全角／半角判別用値は文字高さと文字幅の閾値で
あり、特定文字種の文字に対する全角、半角の別の判定
は、その文字高さと文字幅の比と、該当の全角／半角判
別用値との比較によって行うことを特徴とする請求項（
１）または（２）記載の全角／半角判定方法。