JPH10254993A

JPH10254993A - 文字抽出装置及び文字抽出方法

Info

Publication number: JPH10254993A
Application number: JP9074698A
Authority: JP
Inventors: Kazutoshi Shimada; 和俊島田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1997-03-12
Filing date: 1997-03-12
Publication date: 1998-09-25

Abstract

(57)【要約】【課題】文字の線分特性を反映でき文字の抽出を簡単
な演算で行うこと等を可能とした文字抽出装置及び文字
抽出方法を提供する。【解決手段】ビデオ或いはカメラから入力された画像
に対してＹＵＶ変換及びＤＣＴ変換を行う直交変換手段
１と、直交変換で得た係数をＤＣ値を中心として放射状
の領域に分割する放射状領域分割手段４と、前記各領域
内の係数の絶対値の和を演算する演算手段５と、演算結
果と予め設定した閾値とを比較して画像中に文字が存在
するか否かを判定する比較判定手段６とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字抽出装置及び
文字抽出方法に係り、更に詳しくは、ビデオやカメラ等
から入力した画像中から文字を抽出する場合に用いて好
適な文字抽出装置及び文字抽出方法に関する。

【０００２】

【従来の技術】近年、マルチメディア時代への突入に伴
い、カメラにより撮影した画像情報やビデオやテレビ等
の映像情報をパーソナルコンピュータに取り込むことも
普通に行われるようになってきている。また、情報のデ
ジタル化も進展しており、文字放送等と併用すれば画像
の検索等も容易になる可能性がある。しかし、ユーザ固
有の情報収集という立場に立てば、ビデオカメラ等の映
像情報の検索はまだまだ難しい状況にあると言ってよ
い。

【０００３】１つの側面として、画像対象の特徴（色
群、形状）を捉えるという方法は、研究レベルで多く行
われている。一方、限定されるが、画像の中に含まれる
文字を捉えて特徴とする方法もあり、例えば、車両のナ
ンバープレートの車番を文字認識する方法は、高速道路
の料金所に設置されている通行券自動発券機や、駐車場
に設置されている駐車券自動発券機等に実用化されてい
る。今後は、風景の中の看板や黒板に書かれている文字
を捉え、これを１つのキーワードにしていくという要望
は、ノート型パーソナルコンピュータなどの携帯情報機
器にカメラが内蔵された時に求められる機能である。そ
のためには、画像中から文字を抽出する機能は重要であ
る。

【０００４】さて、マルチメディア技術における画像の
圧縮手法としては、ＪＰＥＧ（Ｊoint Ｐhotographic
Ｅxpert Ｇroup：カラー静止画像の圧縮方式）、ＭＰＥ
Ｇ（Ｍotion Ｐicture Ｅxpert Ｇroup：カラー動画像
の圧縮方式）が注目を浴びている。これらの基本的なア
ルゴリズムの１つとして、画像を小領域に分解した後
に、画像情報座標を周波数座標に変換する直交変換（離
散コサイン変換：ＤＣＴ）が行われる。人間が画像を見
た時に、高周波成分は多少無くても画像として見ること
ができるようにするために、画像を圧縮する時には上記
高周波成分をカットする。そのために、画像の情報を周
波数の軸に変換するのである。

【０００５】図９は従来例に係る直交変換（ＤＣＴ変
換）を示す図である。図９に示すように、８×８画素の
画像情報が８×８の周波数情報に置き換わる。図中、８
×８の周波数成分における左上はＤＣ成分と呼ばれ、こ
の画素ブロックの平均濃度を表し、右は縦線成分の周波
数分布、下は横線成分の周波数分布、斜め右下は斜め線
成分が反映され、ＤＣ成分から離れるほど高い周波数係
数を表す。

【０００６】上記ＤＣＴ変換後に、高周波領域をカット
するように量子化が行われ、ジグザグスキャン、ハフマ
ン符号化で画像の圧縮が完了する。画像の伸長はその逆
であり、逆ＤＣＴ変換により、８×８の周波数情報が８
×８画素の画像情報に置き換わる。

【０００７】上記ＤＣＴ変換は、上述した圧縮だけでは
なく、ブロックの周波数を見て、当該ブロックの画像の
特徴を抽出するのに用いようとすることも考えられてい
る。例えば、文字情報が画像中に含まれている場合、文
字はコントラストが高くエッジも明確であり規則性のあ
る形状をしているので、ＤＣＴ変換を行うと比較的高い
ところまで周波数成分を持っている。一方、普通の画像
では、コントラストが低く雑多な部分や単調な部分がお
り混ざっているために、周波数成分は低周波側に片寄っ
ている場合が多い。

【０００８】これらの性質を利用して、８×８のブロッ
クを４×４の４つのブロックに分け、それぞれのブロッ
ク中の係数を比較、評価することにより、像域分離を行
う研究も行われている。

【０００９】

【発明が解決しようとする課題】しかしながら、上述し
た従来技術においては、下記のような問題があった。即
ち、上述した従来の画像分割法では、例えば書類の中の
文字と画像を分離するような像域分離においては、後処
理も含めて結果を出すことができているが、例えば画像
（風景）の中の文字等においては、文字の特徴を捉えき
ることができず、充分な抽出率を得ることができないと
いう問題があった。更には、文字としての特徴が出てい
れば、長い線分であっても区別することができないとい
う問題があった。

【００１０】本発明は、上述した点に鑑みなされたもの
であり、文字の線分特性を反映でき文字の抽出を簡単な
演算で行うこと等を可能とした文字抽出装置及び文字抽
出方法を提供することを目的とする。

【００１１】

【課題を解決するための手段】上記目的を達成するた
め、請求項１の発明は、画像に対してブロック毎に直交
変換を行い該直交変換で得た係数に基づき文字を抽出す
る文字抽出装置において、前記直交変換で得た係数を放
射状の領域に分割する分割手段と、前記各領域内の係数
を演算する演算手段と、該演算結果と予め設定した閾値
とを比較して画像中に文字が存在するか否かを判定する
判定手段とを具備することを特徴とする。

【００１２】上記目的を達成するため、請求項２の発明
は、画像に対してブロック毎に直交変換を行い該直交変
換で得た係数に基づき文字を抽出する文字抽出装置にお
いて、前記直交変換で得た係数を放射状の領域に分割す
る分割手段と、前記各領域内の係数を演算する演算手段
と、該演算結果と予め設定した閾値とを比較して画像中
に文字が存在するか否かを判定する判定手段と、隣接す
る複数のブロックが同じ放射方向の特徴を有するかを演
算する連続性演算手段と、前記特徴の連続性に応じて文
字判定の確度を変化させる連続性判定手段とを具備する
ことを特徴とする。

【００１３】上記目的を達成するため、請求項３の発明
は、前記分割手段は、前記直交変換で得た係数を、画素
ブロックの平均濃度を表すＤＣ値の位置を中心に放射状
の領域に分割することを特徴とする。

【００１４】上記目的を達成するため、請求項４の発明
は、前記演算手段は、前記各領域内の係数の絶対値の和
を演算することを特徴とする。

【００１５】上記目的を達成するため、請求項５の発明
は、前記連続性判定手段は、特徴の連続性が予め設定し
た閾値以下の場合は文字と判定し、閾値以上の場合は文
字でないと判定することを特徴とする。

【００１６】上記目的を達成するため、請求項６の発明
は、前記画像は、ビデオやカメラ等から入力される画像
であることを特徴とする。

【００１７】上記目的を達成するため、請求項７の発明
は、画像に対してブロック毎に直交変換を行い該直交変
換で得た係数に基づき文字を抽出する文字抽出方法にお
いて、前記直交変換で得た係数を放射状の領域に分割す
る分割ステップと、前記各領域内の係数を演算する演算
ステップと、該演算結果と予め設定した閾値とを比較し
て画像中に文字が存在するか否かを判定する判定ステッ
プとを有することを特徴とする。

【００１８】上記目的を達成するため、請求項８の発明
は、画像に対してブロック毎に直交変換を行い該直交変
換で得た係数に基づき文字を抽出する文字抽出方法にお
いて、前記直交変換で得た係数を放射状の領域に分割す
る分割ステップと、前記各領域内の係数を演算する演算
ステップと、該演算結果と予め設定した閾値とを比較し
て画像中に文字が存在するか否かを判定する判定ステッ
プと、隣接する複数のブロックが同じ放射方向の特徴を
有するかを演算する連続性演算ステップと、前記特徴の
連続性に応じて文字判定の確度を変化させる連続性判定
ステップとを有することを特徴とする。

【００１９】上記目的を達成するため、請求項９の発明
は、前記分割ステップでは、前記直交変換で得た係数
を、画素ブロックの平均濃度を表すＤＣ値の位置を中心
に放射状の領域に分割することを特徴とする。

【００２０】上記目的を達成するため、請求項１０の発
明は、前記演算ステップでは、前記各領域内の係数の絶
対値の和を演算することを特徴とする。

【００２１】上記目的を達成するため、請求項１１の発
明は、前記連続性判定ステップでは、特徴の連続性が予
め設定した閾値以下の場合は文字と判定し、閾値以上の
場合は文字でないと判定することを特徴とする。

【００２２】上記目的を達成するため、請求項１２の発
明は、前記画像は、ビデオやカメラ等から入力される画
像であることを特徴とする。

【００２３】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。

【００２４】［１］第１の実施の形態先ず、第１の実施の形態に係る文字抽出装置の構成を図
１のブロック図を参照して説明する。第１の実施の形態
に係る文字抽出装置は、ＹＵＶ変換部２及びＤＣＴ変換
部３を有する直交変換手段１と、放射状領域分割手段４
と、演算手段５と、比較判定手段６とを備える構成とな
っている。

【００２５】上記各部の構成を詳述すると、直交変換手
段１は、ビデオ或いはカメラから入力された画像情報を
ＹＵＶ変換及びＤＣＴ変換するものであり、直交変換手
段１のＹＵＶ変換部２は、ＲＧＢ信号から輝度、色差信
号（ＹＵＶ）への変換を行い、直交変換手段１のＤＣＴ
変換部３は、それぞれの信号毎に８×８画素ブロック単
位で画像座標系から空間周波数座標系への変換を行う。

【００２６】放射状領域分割手段４は、直交変換手段１
のＤＣＴ変換部３により空間周波数座標系に変換された
係数を、図２に示すような放射状の領域に分割する。図
２については後述する。演算手段５は、放射状領域分割
手段４により分割されたそれぞれのブロック内の係数
を、予め定められた方法によって演算する。最も簡単な
演算方法は、各領域内の係数の絶対値の和を求めるもの
である。その他、ブロック内の係数の絶対値の平均値、
エネルギ等を求めてもよい。

【００２７】比較判定手段６は、演算手段５により演算
された演算結果と予め定めた閾値とを比較し、上記図２
に示した放射状に分割された領域のうち何本の領域が閾
値を越えているかに基づき、上記ビデオやカメラから入
力された画像の中に文字が含まれているか、或いは上記
ビデオやカメラから入力された画像が一般の画像（例え
ば風景等の画像）であるかを判定する。

【００２８】図２はＤＣＴ変換後の８×８ブロックを示
す図である。８×８ブロックにおける各小ブロックには
２５６値の係数が含まれている。これを縦１番（Ｒ１）
から横５番（Ｒ５）までの領域に分けて考えるのが本発
明の特徴である。

【００２９】図３（ａ）〜（ｄ）は線分とＤＣＴ係数と
の関係を示す図であり、図３（ａ）は横線の場合のＤＣ
Ｔ係数の分布を示す図、図３（ｂ）は縦線の場合のＤＣ
Ｔ係数の分布を示す図、図３（ｃ）は斜め線の場合のＤ
ＣＴ係数の分布を示す図、図３（ｄ）は十字線の場合の
ＤＣＴ係数の分布を示す図である。

【００３０】図３（ａ）の横線の場合は、ＤＣＴ変換を
行うと左端の縦に主な係数が集まる。図３（ｂ）の縦線
の場合は、ＤＣＴ変換を行うと右上の横に主な係数が集
まる。これらの線分と元々の８×８のブロックとの位置
関係は係数の位相として現れる。即ち、例えば図３
（ａ）では横線はブロック内の中央に図示してあるが、
ブロック内の上部や下部でもＤＣＴ変換後は縦に係数が
集中することに変わりはなく、その係数の値は位置によ
ってまちまちである。

【００３１】しかし、上記図２に示した領域Ｒ１を調
べ、その係数が大きい場合は、横線成分が含まれること
が示唆できる。更に、図示していないが、横線分が複数
本存在している場合は、係数値は単独の線分で得られる
係数を加算したものになるので、やはり縦に高い係数が
集中する性質は変わらない。

【００３２】図３（ｃ）の斜め線の場合は、ＤＣＴ変換
を行うと係数分布は左上から右下にかけての斜めにな
る。逆の方向（９０度回転）の斜め線についても、係数
分布は同様に左上から右下に広がる。これらの線分が複
合してくると、上述のように各線分の性質は保存する。
例えば図３（ｄ）の十字線の場合は、ＤＣＴ変換を行う
と左端の縦・右上の横・右下に主な係数が集まる。即
ち、縦線が横係数に、横線が縦係数に反映されている。
線分が交差することで、空間周波数の高いところがでて
くるので、右下のところに少し係数が現れ出す。

【００３３】図４（ａ）〜（ｄ）は実際の文字とＤＣＴ
係数との関係を示す図であり、図４（ａ）は“大”とい
う文字の場合のＤＣＴ係数の分布を示す図、図４（ｂ）
は“Ａ”という文字の場合のＤＣＴ係数の分布を示す
図、図４（ｃ）は“あ”という文字の場合のＤＣＴ係数
の分布を示す図、図４（ｄ）は“馬”という文字の場合
のＤＣＴ係数の分布を示す図である。図示例では、分か
り易いように１ブロック１文字としているが、文字サイ
ズとブロックの関係から、文字の一部分や複数の文字が
入っていても構わない。

【００３４】例えば図４（ａ）の“大”という文字の場
合は、横線分、縦線分、斜め線分の組み合わせであるた
め、ＤＣＴ変換後では上記図２に示した領域Ｒ１、Ｒ
３、Ｒ５に係数が集中する。図４（ｂ）の“Ａ”という
文字の場合は、ＤＣＴ変換後では上記図２に示した領域
Ｒ１、Ｒ４に係数が集中する。図４（ｃ）の“あ”とい
う文字の場合は、ＤＣＴ変換後では上記図２に示した領
域Ｒ１、Ｒ３、Ｒ５に係数が集中する。図４（ｄ）の
“馬”という文字の場合は、ＤＣＴ変換後では上記図２
に示した領域Ｒ１、Ｒ３、Ｒ５に係数が集中する。

【００３５】このように、文字に応じて、ＤＣＴ変換後
の係数は、文字を構成する線分群の方向の性質を保存し
ている。この他に、文字の持つ性質は、文字線分の太さ
は略均等であり、線分の方向は比較的揃っている。文字
と背景のコントラストは高く、エッジは鋭い。また、多
くの文字の色は均一になっている。

【００３６】次に、第１の実施の形態に係る文字抽出装
置において、上述した文字の持つ性質を用いて文字と一
般画像とを区別するアルゴリズムについて図５のフロー
チャートを参照して説明する。

【００３７】先ず、文字抽出装置の直交変換手段１は、
カメラ或いはビデオから画像が入力されると（ステップ
Ｓ１）、ＹＵＶ変換部２によりＲＧＢ信号からＹＵＶ
（輝度、色差）信号への変換を行い（ステップＳ２）、
更に、ＤＣＴ変換部３により例えば２次元フーリエ変換
のような画像空間から空間周波数空間への変換を行う
（ステップＳ３）。放射状領域分割手段４は、直交変換
手段１による変換で得られた係数を、上記図２に示した
ような放射状の領域Ｒ１〜Ｒ５に分割する（ステップＳ
４）。

【００３８】演算手段５は、放射状領域分割手段４によ
り分割されたそれぞれのブロック内の係数を予め定めら
れた演算式に基づき演算を行う。即ち、上記図２に示し
た各小領域内の係数の絶対値の和を求める（ステップＳ
５）。比較判定手段６は、演算手段５による演算結果Ｓ
と予め定めた閾値Ｓｔｈとを比較し、演算結果Ｓが閾値
Ｓｔｈ以上であるか否かを判定する（ステップＳ６）。

【００３９】比較判定手段６は、上記ステップＳ６で演
算結果Ｓが閾値Ｓｔｈ以上でないと判定した場合、即
ち、５個の小さい領域Ｒ１〜Ｒ５で１つも閾値Ｓｔｈを
越えていないと判定した場合は、該当するブロックの画
像はコントラストが低くエッジの少ない画像となり、一
般の画像、即ち非文字領域であると判定する。

【００４０】他方、比較判定手段６は、上記ステップＳ
６で演算結果Ｓが閾値Ｓｔｈ以上であると判定した場
合、即ち、閾値Ｓｔｈ以上の小ブロックが存在すると判
定した場合は、閾値Ｓｔｈを越えた領域数Ｈをカウント
する（ステップＳ７）。

【００４１】更に、比較判定手段６は、閾値Ｓｔｈを越
えた領域数Ｈが予め定めた領域数閾値Ｈ１とＨ２との間
にあるか否かを判定する（ステップＳ８）。比較判定手
段６は、上記ステップＳ８で閾値Ｓｔｈを越えた領域数
Ｈが予め定めた領域数閾値Ｈ１とＨ２との間に無いと判
定した場合、即ち、全領域が閾値を越えたと判定した場
合は、あらゆる方向のコントラストの高い線分が存在す
る画像が想定でき、文字としての可能性は低い。経験的
な数字としては、Ｈ１＝０、Ｈ２＝４とする。即ち、閾
値Ｓを越える小領域が０または４、５個の場合は、非文
字領域と判定する。

【００４２】他方、比較判定手段６は、上記ステップＳ
８で閾値Ｓｔｈを越えた領域数Ｈが予め定めた領域数閾
値Ｈ１とＨ２との間にあると判定した場合は、文字領域
であると判定する。即ち、閾値Ｓを越える小領域が１か
ら３個の場合は、文字領域と判定する。

【００４３】上述したように、第１の実施の形態によれ
ば、文字抽出装置は、ビデオ或いはカメラから入力され
た画像に対してＹＵＶ変換及びＤＣＴ変換を行う直交変
換手段１と、直交変換で得た係数をＤＣ値を中心として
放射状の領域に分割する放射状領域分割手段４と、前記
各領域内の係数の絶対値の和を演算する演算手段５と、
演算結果と予め設定した閾値とを比較して画像中に文字
が存在するか否かを判定する比較判定手段６と具備する
ため、ＤＣＴ変換後のＤＣＴ係数について、文字として
構成される線分の方向を加味して作成した例えば５つの
放射状の小領域に含まれるＤＣＴ係数を演算等で評価す
ることで、線分の存在を示唆でき、更に文字に該当しな
い線分分布に関して取り除くことで、文字領域の存在を
簡単に判定することができる。従って、従来のごとく例
えば風景等の画像の中の文字の特徴を捉えきれず、充分
な抽出率を得ることができないといった不具合を解消す
ることができる。

【００４４】［２］第２の実施の形態先ず、第２の実施の形態に係る文字抽出装置の構成を図
６のブロック図を参照して説明する。第２の実施の形態
に係る文字抽出装置は、ＹＵＶ変換部６２及びＤＣＴ変
換部６３を有する直交変換手段６１と、放射状領域分割
手段６４と、演算手段６５と、比較判定手段６６と、特
徴方向記憶手段６７と、隣接ブロック連続性演算手段６
８と、連続性判定手段６９とを備える構成となってい
る。

【００４５】上記各部の構成を詳述すると、直交変換手
段６１は、ビデオ或いはカメラから入力された画像情報
をＹＵＶ変換及びＤＣＴ変換するものであり、直交変換
手段６１のＹＵＶ変換部６２は、ＲＧＢ信号から輝度、
色差信号（ＹＵＶ）への変換を行い、直交変換手段６１
のＤＣＴ変換部６３は、それぞれの信号毎に８×８画素
ブロック単位で画像座標系から空間周波数座標系への変
換を行う。

【００４６】放射状領域分割手段６４は、直交変換手段
６１のＤＣＴ変換部６３により空間周波数座標系に変換
された係数を、放射状の領域に分割する。演算手段６５
は、放射状領域分割手段６４により分割されたそれぞれ
のブロック内の係数を、予め定められた方法によって演
算する。最も簡単な演算方法は、各領域内の係数の絶対
値の和を求めるものである。その他、ブロック内の絶対
値の平均値、エネルギ等を求めてもよい。

【００４７】比較判定手段６６は、演算手段６５により
演算された演算結果と予め定めた閾値とを比較し、放射
状に分割された領域のうち何本の領域が閾値を越えてい
るかに基づき、上記ビデオやカメラから入力された画像
の中に文字が含まれているか、或いは上記ビデオやカメ
ラから入力された画像が一般の画像（例えば風景等の画
像）であるかを判定する。

【００４８】特徴方向記憶手段６７は、個々のブロック
で判定が終わると、ブロックの特徴である方向を記憶す
る。例えば上記図４（ａ）に示した“大”という文字な
らば、上記図２では領域Ｒ１、Ｒ３、Ｒ５である。隣接
ブロック連続性演算手段６８は、カメラやビデオの１画
面が終了したとき、または或る領域が終了した毎に、特
徴方向記憶手段６７に記憶してある特徴方向の上下左右
への連続性を演算する。連続性判定手段６９は、連続性
が予め定めた閾値以下ならば文字と判定し、連続性が長
ければ後述する図７のような繰り返しパターンとして文
字ではないと判定する。

【００４９】図７は繰り返しパターンとＤＣＴ係数との
関係を示す図である。これは画像中の窓枠を示してお
り、比較的コントラストも高く、上記第１の実施の形態
では文字ブロックと判定される可能性がある。しかし、
画像（例えば風景等の画像）中で文字として判定される
ものは、窓枠や屋根など比較的に連続した繰り返しパタ
ーンが多く、各ブロックの特徴方向を見れば連続して共
通の場合が多い。

【００５０】そこで、第２の実施の形態に係る文字抽出
装置では、上記図７に示したような文字ではない繰り返
しパターンを判定から除去するために、上記第１の実施
の形態に係る文字抽出装置の構成に、上記の特徴方向記
憶手段６７、隣接ブロック連続性演算手段６８、連続性
判定手段６９を追加した点が特徴となっている。

【００５１】次に、第２の実施の形態に係る文字抽出装
置において、文字と一般画像とを区別するアルゴリズム
及び文字ではない繰り返しパターンを判定から除去する
アルゴリズムについて、図８のフローチャートを参照し
て説明する。尚、ステップＳ１１〜ステップＳ１８まで
は上記第１の実施の形態と同じ処理である。

【００５２】先ず、文字抽出装置の直交変換手段６１
は、カメラ或いはビデオから画像が入力されると（ステ
ップＳ１１）、ＹＵＶ変換部６２によりＲＧＢ信号から
ＹＵＶ（輝度、色差）信号への変換を行い（ステップＳ
１２）、更に、ＤＣＴ変換部６３により例えば２次元フ
ーリエ変換のような画像空間から空間周波数空間への変
換を行う（ステップＳ１３）。放射状領域分割手段６４
は、直交変換手段６１による変換で得られた係数を、上
記図２に示したような放射状の領域Ｒ１〜Ｒ５に分割す
る（ステップＳ１４）。

【００５３】演算手段６５は、放射状領域分割手段６４
により分割されたそれぞれのブロック内の係数を予め定
められた演算式に基づき演算を行う。即ち、上記図２に
示した各小領域Ｒ１〜Ｒ５内の係数の絶対値の和を求め
る（ステップＳ１５）。比較判定手段６６は、演算手段
６５による演算結果Ｓと予め定めた閾値Ｓｔｈとを比較
し、演算結果Ｓが閾値Ｓｔｈ以上であるか否かを判定す
る（ステップＳ１６）。

【００５４】比較判定手段６６は、上記ステップＳ１６
で演算結果Ｓが閾値Ｓｔｈ以上でないと判定した場合、
即ち、５個の小領域Ｒ１〜Ｒ５で１つも閾値Ｓｔｈを越
えていないと判定した場合は、該当するブロックの画像
はコントラストが低く、エッジの少ない画像であるた
め、一般の画像、即ち非文字領域であると判定する。

【００５５】他方、比較判定手段６６は、上記ステップ
Ｓ１６で演算結果Ｓが閾値Ｓｔｈ以上であると判定した
場合、即ち、閾値Ｓｔｈ以上の小ブロックが存在すると
判定した場合は、閾値Ｓｔｈを越えた領域数Ｈをカウン
トする（ステップＳ１７）。更に、比較判定手段６は、
閾値Ｓｔｈを越えた領域数Ｈが予め定めた領域数閾値Ｈ
１とＨ２との間にあるか否かを判定する（ステップＳ１
８）。

【００５６】比較判定手段６６は、上記ステップＳ１８
で閾値Ｓｔｈを越えた領域数Ｈが予め定めた領域数閾値
Ｈ１とＨ２との間に無いと判定した場合は、非文字領域
であると判定する。

【００５７】他方、比較判定手段６６は、上記ステップ
Ｓ１８で閾値Ｓｔｈを越えた領域数Ｈが予め定めた領域
数閾値Ｈ１とＨ２との間にあると判定した場合は、特徴
方向記憶手段６７に各ブロックの特徴方向を記憶する
（ステップＳ１９）。そして、１画面分の判定終了後ま
たは或る領域毎に、後処理ルーチンへ移行して処理を行
う。

【００５８】後処理ルーチンでは、先ず、前後左右のつ
ながりの整理など一般的な後処理を行う（ステップＳ２
０）。即ち、文字列は一般的には縦や横で揃っているた
めに、文字と判定された孤立ブロックは消去し、歯抜け
になったブロックはその間も文字と判定する。

【００５９】隣接ブロック連続性演算手段６８は、上記
ステップＳ１９で特徴方向記憶手段６７に記憶された各
ブロックの特徴方向の連続性を演算で求める（ステップ
Ｓ２１）。上記図７に示した例では、同じ特徴方向を持
つブロックが４つ連続することになる。

【００６０】連続性判定手段６９は、同じ特徴方向を持
つブロックの連続数が予め定めた閾値Ｍ（上記図７の例
では４）以下であるか否かを判定する（ステップＳ２
２）。連続性判定手段６９は、上記ステップＳ２２で同
じ特徴方向を持つブロックの連続数が閾値Ｍ以下と判定
した場合は、文字領域であると判定する。

【００６１】他方、連続性判定手段６９は、上記ステッ
プＳ２２で同じ特徴方向を持つブロックの連続数が閾値
Ｍ以下でないと判定した場合は、繰り返しパターン、即
ち、非文字領域であると判定する。

【００６２】この場合、文字とブロックの大きさが問題
になると考えられるが、例えば文字の方がブロックより
も小さいときは、ブロック内に複数の文字が入り、連続
ブロックに渡って共通の特徴を持つことはない。他方、
例えば文字の方がブロックよりも大きいときは、１つの
文字の部分部分を各ブロックが受け持つために、また繰
り返しパターンが現れることはない。従って、Ｍ＝４と
いう数字は妥当である。

【００６３】上述したように、第２の実施の形態によれ
ば、文字抽出装置は、ビデオ或いはカメラから入力され
た画像に対してＹＵＶ変換及びＤＣＴ変換を行う直交変
換手段６１と、直交変換で得た係数をＤＣ値を中心とし
て放射状の領域に分割する放射状領域分割手段６４と、
前記各領域内の係数の絶対値の和を演算する演算手段６
５と、演算結果と予め設定した閾値とを比較して画像中
に文字が存在するか否かを判定する比較判定手段６６
と、ブロックの特徴である方向を記憶する特徴方向記憶
手段６７と、隣接する複数のブロックが同じ放射方向の
特徴を有するかを演算する隣接ブロック連続性演算手段
６８と、前記特徴の連続性に応じて文字判定の確度を変
化させる連続性判定手段６９とを具備するため、各ブロ
ックの特徴方向のブロック間で連続性を調べることで、
文字と間違えられやすい繰り返しパターンを除去するこ
とができ、これにより、文字抽出の効果を更に向上させ
ることが可能となる。従って、従来のごとく文字として
の特徴が出ていれば長い線分でも区別することができな
いといった不具合を解消することができる。

【００６４】尚、本発明は、複数の機器から構成される
システムに適用しても、１つの機器からなる装置に適用
してもよい。前述した実施形態の機能を実現するソフト
ウエアのプログラムコードを記憶した記憶媒体を、シス
テム或いは装置に供給し、そのシステム或いは装置のコ
ンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納
されたプログラムコードを読み出し実行することによっ
ても、達成されることは言うまでもない。

【００６５】この場合、記憶媒体から読み出されたプロ
グラムコード自体が前述した実施形態の機能を実現する
ことになり、そのプログラムコードを記憶した記憶媒体
は本発明を構成することになる。

【００６６】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク、ハードディス
ク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ
−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭな
どを用いることができる。

【００６７】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているＯＳなどが実
際の処理の一部または全部を行い、その処理によって前
述した実施形態の機能が実現される場合も含まれること
は言うまでもない。

【００６８】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書込まれた後、そのプログラムコードの指示に基
づき、その機能拡張ボードや機能拡張ユニットに備わる
ＣＰＵなどが実際の処理の一部または全部を行い、その
処理によって前述した実施形態の機能が実現される場合
も含まれることは言うまでもない。

【００６９】

【発明の効果】以上説明したように、請求項１の発明に
よれば、画像に対してブロック毎に直交変換を行い該直
交変換で得た係数に基づき文字を抽出する文字抽出装置
において、前記直交変換で得た係数を放射状の領域に分
割する分割手段と、前記各領域内の係数を演算する演算
手段と、該演算結果と予め設定した閾値とを比較して画
像中に文字が存在するか否かを判定する判定手段とを具
備するため、文字の線分特性を反映でき、文字の抽出を
簡単な演算で行うことができる。従って、従来のごとく
例えば風景等の画像の中の文字の特徴を捉えきれず、充
分な抽出率を得ることができないといった不具合を解消
することができる。

【００７０】請求項２の発明によれば、画像に対してブ
ロック毎に直交変換を行い該直交変換で得た係数に基づ
き文字を抽出する文字抽出装置において、前記直交変換
で得た係数を放射状の領域に分割する分割手段と、前記
各領域内の係数を演算する演算手段と、該演算結果と予
め設定した閾値とを比較して画像中に文字が存在するか
否かを判定する判定手段と、隣接する複数のブロックが
同じ放射方向の特徴を有するかを演算する連続性演算手
段と、前記特徴の連続性に応じて文字判定の確度を変化
させる連続性判定手段とを具備するため、請求項１の発
明と同様の効果を奏する他に、放射方向の特徴を求める
ことができ、従来の方法では判明しなかった長い線分の
存在を見つけることができる。即ち、文字と思われる以
上に線分が連続している場合は、文字以外（例えば風景
の中の長い線分）であると判断することができる。従っ
て、従来のごとく文字としての特徴が出ていれば長い線
分でも区別することができないといった不具合を解消す
ることができる。

【００７１】請求項３の発明によれば、前記分割手段
は、前記直交変換で得た係数を、画素ブロックの平均濃
度を表すＤＣ値の位置を中心に放射状の領域に分割する
ため、請求項１及び請求項２の発明と同様の効果を奏す
ることができる。

【００７２】請求項４の発明によれば、前記演算手段
は、前記各領域内の係数の絶対値の和を演算するため、
請求項１及び請求項２の発明と同様の効果を奏すること
ができる。

【００７３】請求項５の発明によれば、前記連続性判定
手段は、特徴の連続性が予め設定した閾値以下の場合は
文字と判定し、閾値以上の場合は文字でないと判定する
ため、請求項２の発明と同様の効果を奏することができ
る。

【００７４】請求項６の発明によれば、前記画像は、ビ
デオやカメラ等から入力される画像であるため、請求項
１及び請求項２の発明と同様の効果を奏することができ
る。

【００７５】請求項７の発明によれば、画像に対してブ
ロック毎に直交変換を行い該直交変換で得た係数に基づ
き文字を抽出する文字抽出方法において、前記直交変換
で得た係数を放射状の領域に分割する分割ステップと、
前記各領域内の係数を演算する演算ステップと、該演算
結果と予め設定した閾値とを比較して画像中に文字が存
在するか否かを判定する判定ステップとを有するため、
文字の線分特性を反映でき、文字の抽出を簡単な演算で
行うことができる。従って、従来のごとく例えば風景等
の画像の中の文字の特徴を捉えきれず、充分な抽出率を
得ることができないといった不具合を解消することがで
きる。

【００７６】請求項８の発明によれば、画像に対してブ
ロック毎に直交変換を行い該直交変換で得た係数に基づ
き文字を抽出する文字抽出方法において、前記直交変換
で得た係数を放射状の領域に分割する分割ステップと、
前記各領域内の係数を演算する演算ステップと、該演算
結果と予め設定した閾値とを比較して画像中に文字が存
在するか否かを判定する判定ステップと、隣接する複数
のブロックが同じ放射方向の特徴を有するかを演算する
連続性演算ステップと、前記特徴の連続性に応じて文字
判定の確度を変化させる連続性判定ステップとを有する
ため、請求項７の発明と同様の効果を奏する他に、放射
方向の特徴を求めることができ、従来の方法では判明し
なかった長い線分の存在を見つけることができる。即
ち、文字と思われる以上に線分が連続している場合は、
文字以外（例えば風景の中の長い線分）であると判断す
ることができる。従って、従来のごとく文字としての特
徴が出ていれば長い線分でも区別することができないと
いった不具合を解消することができる。

【００７７】請求項９の発明によれば、前記分割ステッ
プでは、前記直交変換で得た係数を、画素ブロックの平
均濃度を表すＤＣ値の位置を中心に放射状の領域に分割
するため、請求項７及び請求項８の発明と同様の効果を
奏することができる。

【００７８】請求項１０の発明によれば、前記演算ステ
ップでは、前記各領域内の係数の絶対値の和を演算する
ため、請求項７及び請求項８の発明と同様の効果を奏す
ることができる。

【００７９】請求項１１の発明によれば、前記連続性判
定ステップでは、特徴の連続性が予め設定した閾値以下
の場合は文字と判定し、閾値以上の場合は文字でないと
判定するため、請求項８の発明と同様の効果を奏するこ
とができる。

【００８０】請求項１２の発明によれば、前記画像は、
ビデオやカメラ等から入力される画像であるため、請求
項７及び請求項８の発明と同様の効果を奏することがで
きる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態に係る文字抽出装置
の構成を示すブロック図である。

【図２】本発明の第１の実施の形態に係る空間座標系に
変換された係数を放射状の領域に分割した状態を示す説
明図である。

【図３】本発明の第１の実施の形態に係る線分とＤＣＴ
係数との関係を示す説明図であり、（ａ）は横線の場合
のＤＣＴ係数の分布を示す説明図、（ｂ）は縦線の場合
のＤＣＴ係数の分布を示す説明図、（ｃ）は斜め線の場
合のＤＣＴ係数の分布を示す説明図、（ｄ）は十字線の
場合のＤＣＴ係数の分布を示す説明図である。である。

【図４】本発明の第１の実施の形態に係る実際の文字と
ＤＣＴ係数との関係を示す説明図であり、（ａ）は
“大”という文字の場合のＤＣＴ係数の分布を示す説明
図、（ｂ）は“Ａ”という文字の場合のＤＣＴ係数の分
布を示す説明図、（ｃ）は“あ”という文字の場合のＤ
ＣＴ係数の分布を示す説明図、（ｄ）は“馬”という文
字の場合のＤＣＴ係数の分布を示す説明図である。

【図５】本発明の第１の実施の形態に係る文字と一般画
像とを区別するアルゴリズムを示すフローチャートであ
る。

【図６】本発明の第２の実施の形態に係る文字抽出装置
の構成を示すブロック図である。

【図７】本発明の第２の実施の形態に係る繰り返しパタ
ーンとＤＣＴ係数との関係を示す説明図である。

【図８】本発明の第２の実施の形態に係る文字と一般画
像とを区別するアルゴリズム及び文字ではない繰り返し
パターンを判定から除去するアルゴリズムを示すフロー
チャートである。

【図９】従来例に係る画像の直交変換を示す説明図であ
る。

【符号の説明】

１、６１直交変換手段２、６２ＹＵＶ変換部３、６３ＤＣＴ変換部４、６４放射状領域分割手段５、６５演算手段６、６６比較判定手段６７特徴方向記憶手段６８隣接ブロック連続性演算手段６９連続性判定手段

Claims

【特許請求の範囲】

【請求項１】画像に対してブロック毎に直交変換を行
い該直交変換で得た係数に基づき文字を抽出する文字抽
出装置において、前記直交変換で得た係数を放射状の領域に分割する分割
手段と、前記各領域内の係数を演算する演算手段と、該
演算結果と予め設定した閾値とを比較して画像中に文字
が存在するか否かを判定する判定手段とを具備すること
を特徴とする文字抽出装置。
【請求項２】画像に対してブロック毎に直交変換を行
い該直交変換で得た係数に基づき文字を抽出する文字抽
出装置において、前記直交変換で得た係数を放射状の領域に分割する分割
手段と、前記各領域内の係数を演算する演算手段と、該
演算結果と予め設定した閾値とを比較して画像中に文字
が存在するか否かを判定する判定手段と、隣接する複数
のブロックが同じ放射方向の特徴を有するかを演算する
連続性演算手段と、前記特徴の連続性に応じて文字判定
の確度を変化させる連続性判定手段とを具備することを
特徴とする文字抽出装置。
【請求項３】前記分割手段は、前記直交変換で得た係
数を、画素ブロックの平均濃度を表すＤＣ値の位置を中
心に放射状の領域に分割することを特徴とする請求項１
又は２記載の文字抽出装置。
【請求項４】前記演算手段は、前記各領域内の係数の
絶対値の和を演算することを特徴とする請求項１、２又
は３記載の文字抽出装置。
【請求項５】前記連続性判定手段は、特徴の連続性が
予め設定した閾値以下の場合は文字と判定し、閾値以上
の場合は文字でないと判定することを特徴とする請求項
２、３又は４記載の文字抽出装置。
【請求項６】前記画像は、ビデオやカメラ等から入力
される画像であることを特徴とする請求項１、２、３、
４又は５記載の文字抽出装置。
【請求項７】画像に対してブロック毎に直交変換を行
い該直交変換で得た係数に基づき文字を抽出する文字抽
出方法において、前記直交変換で得た係数を放射状の領域に分割する分割
ステップと、前記各領域内の係数を演算する演算ステッ
プと、該演算結果と予め設定した閾値とを比較して画像
中に文字が存在するか否かを判定する判定ステップとを
有することを特徴とする文字抽出方法。
【請求項８】画像に対してブロック毎に直交変換を行
い該直交変換で得た係数に基づき文字を抽出する文字抽
出方法において、前記直交変換で得た係数を放射状の領域に分割する分割
ステップと、前記各領域内の係数を演算する演算ステッ
プと、該演算結果と予め設定した閾値とを比較して画像
中に文字が存在するか否かを判定する判定ステップと、
隣接する複数のブロックが同じ放射方向の特徴を有する
かを演算する連続性演算ステップと、前記特徴の連続性
に応じて文字判定の確度を変化させる連続性判定ステッ
プとを有することを特徴とする文字抽出方法。
【請求項９】前記分割ステップでは、前記直交変換で
得た係数を、画素ブロックの平均濃度を表すＤＣ値の位
置を中心に放射状の領域に分割することを特徴とする請
求項７又は８記載の文字抽出方法。
【請求項１０】前記演算ステップでは、前記各領域内
の係数の絶対値の和を演算することを特徴とする請求項
７、８又は９記載の文字抽出方法。
【請求項１１】前記連続性判定ステップでは、特徴の
連続性が予め設定した閾値以下の場合は文字と判定し、
閾値以上の場合は文字でないと判定することを特徴とす
る請求項８、９又は１０記載の文字抽出方法。
【請求項１２】前記画像は、ビデオやカメラ等から入
力される画像であることを特徴とする請求項７、８、
９、１０又は１１記載の文字抽出方法。