JPH10254993A - 文字抽出装置及び文字抽出方法 - Google Patents

文字抽出装置及び文字抽出方法

Info

Publication number
JPH10254993A
JPH10254993A JP9074698A JP7469897A JPH10254993A JP H10254993 A JPH10254993 A JP H10254993A JP 9074698 A JP9074698 A JP 9074698A JP 7469897 A JP7469897 A JP 7469897A JP H10254993 A JPH10254993 A JP H10254993A
Authority
JP
Japan
Prior art keywords
character
image
orthogonal transformation
continuity
coefficients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9074698A
Other languages
English (en)
Inventor
Kazutoshi Shimada
和俊 島田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP9074698A priority Critical patent/JPH10254993A/ja
Publication of JPH10254993A publication Critical patent/JPH10254993A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 文字の線分特性を反映でき文字の抽出を簡単
な演算で行うこと等を可能とした文字抽出装置及び文字
抽出方法を提供する。 【解決手段】 ビデオ或いはカメラから入力された画像
に対してYUV変換及びDCT変換を行う直交変換手段
1と、直交変換で得た係数をDC値を中心として放射状
の領域に分割する放射状領域分割手段4と、前記各領域
内の係数の絶対値の和を演算する演算手段5と、演算結
果と予め設定した閾値とを比較して画像中に文字が存在
するか否かを判定する比較判定手段6とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字抽出装置及び
文字抽出方法に係り、更に詳しくは、ビデオやカメラ等
から入力した画像中から文字を抽出する場合に用いて好
適な文字抽出装置及び文字抽出方法に関する。
【0002】
【従来の技術】近年、マルチメディア時代への突入に伴
い、カメラにより撮影した画像情報やビデオやテレビ等
の映像情報をパーソナルコンピュータに取り込むことも
普通に行われるようになってきている。また、情報のデ
ジタル化も進展しており、文字放送等と併用すれば画像
の検索等も容易になる可能性がある。しかし、ユーザ固
有の情報収集という立場に立てば、ビデオカメラ等の映
像情報の検索はまだまだ難しい状況にあると言ってよ
い。
【0003】1つの側面として、画像対象の特徴(色
群、形状)を捉えるという方法は、研究レベルで多く行
われている。一方、限定されるが、画像の中に含まれる
文字を捉えて特徴とする方法もあり、例えば、車両のナ
ンバープレートの車番を文字認識する方法は、高速道路
の料金所に設置されている通行券自動発券機や、駐車場
に設置されている駐車券自動発券機等に実用化されてい
る。今後は、風景の中の看板や黒板に書かれている文字
を捉え、これを1つのキーワードにしていくという要望
は、ノート型パーソナルコンピュータなどの携帯情報機
器にカメラが内蔵された時に求められる機能である。そ
のためには、画像中から文字を抽出する機能は重要であ
る。
【0004】さて、マルチメディア技術における画像の
圧縮手法としては、JPEG(Joint Photographic
Expert Group:カラー静止画像の圧縮方式)、MPE
G(Motion Picture Expert Group:カラー動画像
の圧縮方式)が注目を浴びている。これらの基本的なア
ルゴリズムの1つとして、画像を小領域に分解した後
に、画像情報座標を周波数座標に変換する直交変換(離
散コサイン変換:DCT)が行われる。人間が画像を見
た時に、高周波成分は多少無くても画像として見ること
ができるようにするために、画像を圧縮する時には上記
高周波成分をカットする。そのために、画像の情報を周
波数の軸に変換するのである。
【0005】図9は従来例に係る直交変換(DCT変
換)を示す図である。図9に示すように、8×8画素の
画像情報が8×8の周波数情報に置き換わる。図中、8
×8の周波数成分における左上はDC成分と呼ばれ、こ
の画素ブロックの平均濃度を表し、右は縦線成分の周波
数分布、下は横線成分の周波数分布、斜め右下は斜め線
成分が反映され、DC成分から離れるほど高い周波数係
数を表す。
【0006】上記DCT変換後に、高周波領域をカット
するように量子化が行われ、ジグザグスキャン、ハフマ
ン符号化で画像の圧縮が完了する。画像の伸長はその逆
であり、逆DCT変換により、8×8の周波数情報が8
×8画素の画像情報に置き換わる。
【0007】上記DCT変換は、上述した圧縮だけでは
なく、ブロックの周波数を見て、当該ブロックの画像の
特徴を抽出するのに用いようとすることも考えられてい
る。例えば、文字情報が画像中に含まれている場合、文
字はコントラストが高くエッジも明確であり規則性のあ
る形状をしているので、DCT変換を行うと比較的高い
ところまで周波数成分を持っている。一方、普通の画像
では、コントラストが低く雑多な部分や単調な部分がお
り混ざっているために、周波数成分は低周波側に片寄っ
ている場合が多い。
【0008】これらの性質を利用して、8×8のブロッ
クを4×4の4つのブロックに分け、それぞれのブロッ
ク中の係数を比較、評価することにより、像域分離を行
う研究も行われている。
【0009】
【発明が解決しようとする課題】しかしながら、上述し
た従来技術においては、下記のような問題があった。即
ち、上述した従来の画像分割法では、例えば書類の中の
文字と画像を分離するような像域分離においては、後処
理も含めて結果を出すことができているが、例えば画像
(風景)の中の文字等においては、文字の特徴を捉えき
ることができず、充分な抽出率を得ることができないと
いう問題があった。更には、文字としての特徴が出てい
れば、長い線分であっても区別することができないとい
う問題があった。
【0010】本発明は、上述した点に鑑みなされたもの
であり、文字の線分特性を反映でき文字の抽出を簡単な
演算で行うこと等を可能とした文字抽出装置及び文字抽
出方法を提供することを目的とする。
【0011】
【課題を解決するための手段】上記目的を達成するた
め、請求項1の発明は、画像に対してブロック毎に直交
変換を行い該直交変換で得た係数に基づき文字を抽出す
る文字抽出装置において、前記直交変換で得た係数を放
射状の領域に分割する分割手段と、前記各領域内の係数
を演算する演算手段と、該演算結果と予め設定した閾値
とを比較して画像中に文字が存在するか否かを判定する
判定手段とを具備することを特徴とする。
【0012】上記目的を達成するため、請求項2の発明
は、画像に対してブロック毎に直交変換を行い該直交変
換で得た係数に基づき文字を抽出する文字抽出装置にお
いて、前記直交変換で得た係数を放射状の領域に分割す
る分割手段と、前記各領域内の係数を演算する演算手段
と、該演算結果と予め設定した閾値とを比較して画像中
に文字が存在するか否かを判定する判定手段と、隣接す
る複数のブロックが同じ放射方向の特徴を有するかを演
算する連続性演算手段と、前記特徴の連続性に応じて文
字判定の確度を変化させる連続性判定手段とを具備する
ことを特徴とする。
【0013】上記目的を達成するため、請求項3の発明
は、前記分割手段は、前記直交変換で得た係数を、画素
ブロックの平均濃度を表すDC値の位置を中心に放射状
の領域に分割することを特徴とする。
【0014】上記目的を達成するため、請求項4の発明
は、前記演算手段は、前記各領域内の係数の絶対値の和
を演算することを特徴とする。
【0015】上記目的を達成するため、請求項5の発明
は、前記連続性判定手段は、特徴の連続性が予め設定し
た閾値以下の場合は文字と判定し、閾値以上の場合は文
字でないと判定することを特徴とする。
【0016】上記目的を達成するため、請求項6の発明
は、前記画像は、ビデオやカメラ等から入力される画像
であることを特徴とする。
【0017】上記目的を達成するため、請求項7の発明
は、画像に対してブロック毎に直交変換を行い該直交変
換で得た係数に基づき文字を抽出する文字抽出方法にお
いて、前記直交変換で得た係数を放射状の領域に分割す
る分割ステップと、前記各領域内の係数を演算する演算
ステップと、該演算結果と予め設定した閾値とを比較し
て画像中に文字が存在するか否かを判定する判定ステッ
プとを有することを特徴とする。
【0018】上記目的を達成するため、請求項8の発明
は、画像に対してブロック毎に直交変換を行い該直交変
換で得た係数に基づき文字を抽出する文字抽出方法にお
いて、前記直交変換で得た係数を放射状の領域に分割す
る分割ステップと、前記各領域内の係数を演算する演算
ステップと、該演算結果と予め設定した閾値とを比較し
て画像中に文字が存在するか否かを判定する判定ステッ
プと、隣接する複数のブロックが同じ放射方向の特徴を
有するかを演算する連続性演算ステップと、前記特徴の
連続性に応じて文字判定の確度を変化させる連続性判定
ステップとを有することを特徴とする。
【0019】上記目的を達成するため、請求項9の発明
は、前記分割ステップでは、前記直交変換で得た係数
を、画素ブロックの平均濃度を表すDC値の位置を中心
に放射状の領域に分割することを特徴とする。
【0020】上記目的を達成するため、請求項10の発
明は、前記演算ステップでは、前記各領域内の係数の絶
対値の和を演算することを特徴とする。
【0021】上記目的を達成するため、請求項11の発
明は、前記連続性判定ステップでは、特徴の連続性が予
め設定した閾値以下の場合は文字と判定し、閾値以上の
場合は文字でないと判定することを特徴とする。
【0022】上記目的を達成するため、請求項12の発
明は、前記画像は、ビデオやカメラ等から入力される画
像であることを特徴とする。
【0023】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。
【0024】[1]第1の実施の形態 先ず、第1の実施の形態に係る文字抽出装置の構成を図
1のブロック図を参照して説明する。第1の実施の形態
に係る文字抽出装置は、YUV変換部2及びDCT変換
部3を有する直交変換手段1と、放射状領域分割手段4
と、演算手段5と、比較判定手段6とを備える構成とな
っている。
【0025】上記各部の構成を詳述すると、直交変換手
段1は、ビデオ或いはカメラから入力された画像情報を
YUV変換及びDCT変換するものであり、直交変換手
段1のYUV変換部2は、RGB信号から輝度、色差信
号(YUV)への変換を行い、直交変換手段1のDCT
変換部3は、それぞれの信号毎に8×8画素ブロック単
位で画像座標系から空間周波数座標系への変換を行う。
【0026】放射状領域分割手段4は、直交変換手段1
のDCT変換部3により空間周波数座標系に変換された
係数を、図2に示すような放射状の領域に分割する。図
2については後述する。演算手段5は、放射状領域分割
手段4により分割されたそれぞれのブロック内の係数
を、予め定められた方法によって演算する。最も簡単な
演算方法は、各領域内の係数の絶対値の和を求めるもの
である。その他、ブロック内の係数の絶対値の平均値、
エネルギ等を求めてもよい。
【0027】比較判定手段6は、演算手段5により演算
された演算結果と予め定めた閾値とを比較し、上記図2
に示した放射状に分割された領域のうち何本の領域が閾
値を越えているかに基づき、上記ビデオやカメラから入
力された画像の中に文字が含まれているか、或いは上記
ビデオやカメラから入力された画像が一般の画像(例え
ば風景等の画像)であるかを判定する。
【0028】図2はDCT変換後の8×8ブロックを示
す図である。8×8ブロックにおける各小ブロックには
256値の係数が含まれている。これを縦1番(R1)
から横5番(R5)までの領域に分けて考えるのが本発
明の特徴である。
【0029】図3(a)〜(d)は線分とDCT係数と
の関係を示す図であり、図3(a)は横線の場合のDC
T係数の分布を示す図、図3(b)は縦線の場合のDC
T係数の分布を示す図、図3(c)は斜め線の場合のD
CT係数の分布を示す図、図3(d)は十字線の場合の
DCT係数の分布を示す図である。
【0030】図3(a)の横線の場合は、DCT変換を
行うと左端の縦に主な係数が集まる。図3(b)の縦線
の場合は、DCT変換を行うと右上の横に主な係数が集
まる。これらの線分と元々の8×8のブロックとの位置
関係は係数の位相として現れる。即ち、例えば図3
(a)では横線はブロック内の中央に図示してあるが、
ブロック内の上部や下部でもDCT変換後は縦に係数が
集中することに変わりはなく、その係数の値は位置によ
ってまちまちである。
【0031】しかし、上記図2に示した領域R1を調
べ、その係数が大きい場合は、横線成分が含まれること
が示唆できる。更に、図示していないが、横線分が複数
本存在している場合は、係数値は単独の線分で得られる
係数を加算したものになるので、やはり縦に高い係数が
集中する性質は変わらない。
【0032】図3(c)の斜め線の場合は、DCT変換
を行うと係数分布は左上から右下にかけての斜めにな
る。逆の方向(90度回転)の斜め線についても、係数
分布は同様に左上から右下に広がる。これらの線分が複
合してくると、上述のように各線分の性質は保存する。
例えば図3(d)の十字線の場合は、DCT変換を行う
と左端の縦・右上の横・右下に主な係数が集まる。即
ち、縦線が横係数に、横線が縦係数に反映されている。
線分が交差することで、空間周波数の高いところがでて
くるので、右下のところに少し係数が現れ出す。
【0033】図4(a)〜(d)は実際の文字とDCT
係数との関係を示す図であり、図4(a)は“大”とい
う文字の場合のDCT係数の分布を示す図、図4(b)
は“A”という文字の場合のDCT係数の分布を示す
図、図4(c)は“あ”という文字の場合のDCT係数
の分布を示す図、図4(d)は“馬”という文字の場合
のDCT係数の分布を示す図である。図示例では、分か
り易いように1ブロック1文字としているが、文字サイ
ズとブロックの関係から、文字の一部分や複数の文字が
入っていても構わない。
【0034】例えば図4(a)の“大”という文字の場
合は、横線分、縦線分、斜め線分の組み合わせであるた
め、DCT変換後では上記図2に示した領域R1、R
3、R5に係数が集中する。図4(b)の“A”という
文字の場合は、DCT変換後では上記図2に示した領域
R1、R4に係数が集中する。図4(c)の“あ”とい
う文字の場合は、DCT変換後では上記図2に示した領
域R1、R3、R5に係数が集中する。図4(d)の
“馬”という文字の場合は、DCT変換後では上記図2
に示した領域R1、R3、R5に係数が集中する。
【0035】このように、文字に応じて、DCT変換後
の係数は、文字を構成する線分群の方向の性質を保存し
ている。この他に、文字の持つ性質は、文字線分の太さ
は略均等であり、線分の方向は比較的揃っている。文字
と背景のコントラストは高く、エッジは鋭い。また、多
くの文字の色は均一になっている。
【0036】次に、第1の実施の形態に係る文字抽出装
置において、上述した文字の持つ性質を用いて文字と一
般画像とを区別するアルゴリズムについて図5のフロー
チャートを参照して説明する。
【0037】先ず、文字抽出装置の直交変換手段1は、
カメラ或いはビデオから画像が入力されると(ステップ
S1)、YUV変換部2によりRGB信号からYUV
(輝度、色差)信号への変換を行い(ステップS2)、
更に、DCT変換部3により例えば2次元フーリエ変換
のような画像空間から空間周波数空間への変換を行う
(ステップS3)。放射状領域分割手段4は、直交変換
手段1による変換で得られた係数を、上記図2に示した
ような放射状の領域R1〜R5に分割する(ステップS
4)。
【0038】演算手段5は、放射状領域分割手段4によ
り分割されたそれぞれのブロック内の係数を予め定めら
れた演算式に基づき演算を行う。即ち、上記図2に示し
た各小領域内の係数の絶対値の和を求める(ステップS
5)。比較判定手段6は、演算手段5による演算結果S
と予め定めた閾値Sthとを比較し、演算結果Sが閾値
Sth以上であるか否かを判定する(ステップS6)。
【0039】比較判定手段6は、上記ステップS6で演
算結果Sが閾値Sth以上でないと判定した場合、即
ち、5個の小さい領域R1〜R5で1つも閾値Sthを
越えていないと判定した場合は、該当するブロックの画
像はコントラストが低くエッジの少ない画像となり、一
般の画像、即ち非文字領域であると判定する。
【0040】他方、比較判定手段6は、上記ステップS
6で演算結果Sが閾値Sth以上であると判定した場
合、即ち、閾値Sth以上の小ブロックが存在すると判
定した場合は、閾値Sthを越えた領域数Hをカウント
する(ステップS7)。
【0041】更に、比較判定手段6は、閾値Sthを越
えた領域数Hが予め定めた領域数閾値H1とH2との間
にあるか否かを判定する(ステップS8)。比較判定手
段6は、上記ステップS8で閾値Sthを越えた領域数
Hが予め定めた領域数閾値H1とH2との間に無いと判
定した場合、即ち、全領域が閾値を越えたと判定した場
合は、あらゆる方向のコントラストの高い線分が存在す
る画像が想定でき、文字としての可能性は低い。経験的
な数字としては、H1=0、H2=4とする。即ち、閾
値Sを越える小領域が0または4、5個の場合は、非文
字領域と判定する。
【0042】他方、比較判定手段6は、上記ステップS
8で閾値Sthを越えた領域数Hが予め定めた領域数閾
値H1とH2との間にあると判定した場合は、文字領域
であると判定する。即ち、閾値Sを越える小領域が1か
ら3個の場合は、文字領域と判定する。
【0043】上述したように、第1の実施の形態によれ
ば、文字抽出装置は、ビデオ或いはカメラから入力され
た画像に対してYUV変換及びDCT変換を行う直交変
換手段1と、直交変換で得た係数をDC値を中心として
放射状の領域に分割する放射状領域分割手段4と、前記
各領域内の係数の絶対値の和を演算する演算手段5と、
演算結果と予め設定した閾値とを比較して画像中に文字
が存在するか否かを判定する比較判定手段6と具備する
ため、DCT変換後のDCT係数について、文字として
構成される線分の方向を加味して作成した例えば5つの
放射状の小領域に含まれるDCT係数を演算等で評価す
ることで、線分の存在を示唆でき、更に文字に該当しな
い線分分布に関して取り除くことで、文字領域の存在を
簡単に判定することができる。従って、従来のごとく例
えば風景等の画像の中の文字の特徴を捉えきれず、充分
な抽出率を得ることができないといった不具合を解消す
ることができる。
【0044】[2]第2の実施の形態 先ず、第2の実施の形態に係る文字抽出装置の構成を図
6のブロック図を参照して説明する。第2の実施の形態
に係る文字抽出装置は、YUV変換部62及びDCT変
換部63を有する直交変換手段61と、放射状領域分割
手段64と、演算手段65と、比較判定手段66と、特
徴方向記憶手段67と、隣接ブロック連続性演算手段6
8と、連続性判定手段69とを備える構成となってい
る。
【0045】上記各部の構成を詳述すると、直交変換手
段61は、ビデオ或いはカメラから入力された画像情報
をYUV変換及びDCT変換するものであり、直交変換
手段61のYUV変換部62は、RGB信号から輝度、
色差信号(YUV)への変換を行い、直交変換手段61
のDCT変換部63は、それぞれの信号毎に8×8画素
ブロック単位で画像座標系から空間周波数座標系への変
換を行う。
【0046】放射状領域分割手段64は、直交変換手段
61のDCT変換部63により空間周波数座標系に変換
された係数を、放射状の領域に分割する。演算手段65
は、放射状領域分割手段64により分割されたそれぞれ
のブロック内の係数を、予め定められた方法によって演
算する。最も簡単な演算方法は、各領域内の係数の絶対
値の和を求めるものである。その他、ブロック内の絶対
値の平均値、エネルギ等を求めてもよい。
【0047】比較判定手段66は、演算手段65により
演算された演算結果と予め定めた閾値とを比較し、放射
状に分割された領域のうち何本の領域が閾値を越えてい
るかに基づき、上記ビデオやカメラから入力された画像
の中に文字が含まれているか、或いは上記ビデオやカメ
ラから入力された画像が一般の画像(例えば風景等の画
像)であるかを判定する。
【0048】特徴方向記憶手段67は、個々のブロック
で判定が終わると、ブロックの特徴である方向を記憶す
る。例えば上記図4(a)に示した“大”という文字な
らば、上記図2では領域R1、R3、R5である。隣接
ブロック連続性演算手段68は、カメラやビデオの1画
面が終了したとき、または或る領域が終了した毎に、特
徴方向記憶手段67に記憶してある特徴方向の上下左右
への連続性を演算する。連続性判定手段69は、連続性
が予め定めた閾値以下ならば文字と判定し、連続性が長
ければ後述する図7のような繰り返しパターンとして文
字ではないと判定する。
【0049】図7は繰り返しパターンとDCT係数との
関係を示す図である。これは画像中の窓枠を示してお
り、比較的コントラストも高く、上記第1の実施の形態
では文字ブロックと判定される可能性がある。しかし、
画像(例えば風景等の画像)中で文字として判定される
ものは、窓枠や屋根など比較的に連続した繰り返しパタ
ーンが多く、各ブロックの特徴方向を見れば連続して共
通の場合が多い。
【0050】そこで、第2の実施の形態に係る文字抽出
装置では、上記図7に示したような文字ではない繰り返
しパターンを判定から除去するために、上記第1の実施
の形態に係る文字抽出装置の構成に、上記の特徴方向記
憶手段67、隣接ブロック連続性演算手段68、連続性
判定手段69を追加した点が特徴となっている。
【0051】次に、第2の実施の形態に係る文字抽出装
置において、文字と一般画像とを区別するアルゴリズム
及び文字ではない繰り返しパターンを判定から除去する
アルゴリズムについて、図8のフローチャートを参照し
て説明する。尚、ステップS11〜ステップS18まで
は上記第1の実施の形態と同じ処理である。
【0052】先ず、文字抽出装置の直交変換手段61
は、カメラ或いはビデオから画像が入力されると(ステ
ップS11)、YUV変換部62によりRGB信号から
YUV(輝度、色差)信号への変換を行い(ステップS
12)、更に、DCT変換部63により例えば2次元フ
ーリエ変換のような画像空間から空間周波数空間への変
換を行う(ステップS13)。放射状領域分割手段64
は、直交変換手段61による変換で得られた係数を、上
記図2に示したような放射状の領域R1〜R5に分割す
る(ステップS14)。
【0053】演算手段65は、放射状領域分割手段64
により分割されたそれぞれのブロック内の係数を予め定
められた演算式に基づき演算を行う。即ち、上記図2に
示した各小領域R1〜R5内の係数の絶対値の和を求め
る(ステップS15)。比較判定手段66は、演算手段
65による演算結果Sと予め定めた閾値Sthとを比較
し、演算結果Sが閾値Sth以上であるか否かを判定す
る(ステップS16)。
【0054】比較判定手段66は、上記ステップS16
で演算結果Sが閾値Sth以上でないと判定した場合、
即ち、5個の小領域R1〜R5で1つも閾値Sthを越
えていないと判定した場合は、該当するブロックの画像
はコントラストが低く、エッジの少ない画像であるた
め、一般の画像、即ち非文字領域であると判定する。
【0055】他方、比較判定手段66は、上記ステップ
S16で演算結果Sが閾値Sth以上であると判定した
場合、即ち、閾値Sth以上の小ブロックが存在すると
判定した場合は、閾値Sthを越えた領域数Hをカウン
トする(ステップS17)。更に、比較判定手段6は、
閾値Sthを越えた領域数Hが予め定めた領域数閾値H
1とH2との間にあるか否かを判定する(ステップS1
8)。
【0056】比較判定手段66は、上記ステップS18
で閾値Sthを越えた領域数Hが予め定めた領域数閾値
H1とH2との間に無いと判定した場合は、非文字領域
であると判定する。
【0057】他方、比較判定手段66は、上記ステップ
S18で閾値Sthを越えた領域数Hが予め定めた領域
数閾値H1とH2との間にあると判定した場合は、特徴
方向記憶手段67に各ブロックの特徴方向を記憶する
(ステップS19)。そして、1画面分の判定終了後ま
たは或る領域毎に、後処理ルーチンへ移行して処理を行
う。
【0058】後処理ルーチンでは、先ず、前後左右のつ
ながりの整理など一般的な後処理を行う(ステップS2
0)。即ち、文字列は一般的には縦や横で揃っているた
めに、文字と判定された孤立ブロックは消去し、歯抜け
になったブロックはその間も文字と判定する。
【0059】隣接ブロック連続性演算手段68は、上記
ステップS19で特徴方向記憶手段67に記憶された各
ブロックの特徴方向の連続性を演算で求める(ステップ
S21)。上記図7に示した例では、同じ特徴方向を持
つブロックが4つ連続することになる。
【0060】連続性判定手段69は、同じ特徴方向を持
つブロックの連続数が予め定めた閾値M(上記図7の例
では4)以下であるか否かを判定する(ステップS2
2)。連続性判定手段69は、上記ステップS22で同
じ特徴方向を持つブロックの連続数が閾値M以下と判定
した場合は、文字領域であると判定する。
【0061】他方、連続性判定手段69は、上記ステッ
プS22で同じ特徴方向を持つブロックの連続数が閾値
M以下でないと判定した場合は、繰り返しパターン、即
ち、非文字領域であると判定する。
【0062】この場合、文字とブロックの大きさが問題
になると考えられるが、例えば文字の方がブロックより
も小さいときは、ブロック内に複数の文字が入り、連続
ブロックに渡って共通の特徴を持つことはない。他方、
例えば文字の方がブロックよりも大きいときは、1つの
文字の部分部分を各ブロックが受け持つために、また繰
り返しパターンが現れることはない。従って、M=4と
いう数字は妥当である。
【0063】上述したように、第2の実施の形態によれ
ば、文字抽出装置は、ビデオ或いはカメラから入力され
た画像に対してYUV変換及びDCT変換を行う直交変
換手段61と、直交変換で得た係数をDC値を中心とし
て放射状の領域に分割する放射状領域分割手段64と、
前記各領域内の係数の絶対値の和を演算する演算手段6
5と、演算結果と予め設定した閾値とを比較して画像中
に文字が存在するか否かを判定する比較判定手段66
と、ブロックの特徴である方向を記憶する特徴方向記憶
手段67と、隣接する複数のブロックが同じ放射方向の
特徴を有するかを演算する隣接ブロック連続性演算手段
68と、前記特徴の連続性に応じて文字判定の確度を変
化させる連続性判定手段69とを具備するため、各ブロ
ックの特徴方向のブロック間で連続性を調べることで、
文字と間違えられやすい繰り返しパターンを除去するこ
とができ、これにより、文字抽出の効果を更に向上させ
ることが可能となる。従って、従来のごとく文字として
の特徴が出ていれば長い線分でも区別することができな
いといった不具合を解消することができる。
【0064】尚、本発明は、複数の機器から構成される
システムに適用しても、1つの機器からなる装置に適用
してもよい。前述した実施形態の機能を実現するソフト
ウエアのプログラムコードを記憶した記憶媒体を、シス
テム或いは装置に供給し、そのシステム或いは装置のコ
ンピュータ(またはCPUやMPU)が記憶媒体に格納
されたプログラムコードを読み出し実行することによっ
ても、達成されることは言うまでもない。
【0065】この場合、記憶媒体から読み出されたプロ
グラムコード自体が前述した実施形態の機能を実現する
ことになり、そのプログラムコードを記憶した記憶媒体
は本発明を構成することになる。
【0066】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク、ハードディス
ク、光ディスク、光磁気ディスク、CD−ROM、CD
−R、磁気テープ、不揮発性のメモリカード、ROMな
どを用いることができる。
【0067】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOSなどが実
際の処理の一部または全部を行い、その処理によって前
述した実施形態の機能が実現される場合も含まれること
は言うまでもない。
【0068】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書込まれた後、そのプログラムコードの指示に基
づき、その機能拡張ボードや機能拡張ユニットに備わる
CPUなどが実際の処理の一部または全部を行い、その
処理によって前述した実施形態の機能が実現される場合
も含まれることは言うまでもない。
【0069】
【発明の効果】以上説明したように、請求項1の発明に
よれば、画像に対してブロック毎に直交変換を行い該直
交変換で得た係数に基づき文字を抽出する文字抽出装置
において、前記直交変換で得た係数を放射状の領域に分
割する分割手段と、前記各領域内の係数を演算する演算
手段と、該演算結果と予め設定した閾値とを比較して画
像中に文字が存在するか否かを判定する判定手段とを具
備するため、文字の線分特性を反映でき、文字の抽出を
簡単な演算で行うことができる。従って、従来のごとく
例えば風景等の画像の中の文字の特徴を捉えきれず、充
分な抽出率を得ることができないといった不具合を解消
することができる。
【0070】請求項2の発明によれば、画像に対してブ
ロック毎に直交変換を行い該直交変換で得た係数に基づ
き文字を抽出する文字抽出装置において、前記直交変換
で得た係数を放射状の領域に分割する分割手段と、前記
各領域内の係数を演算する演算手段と、該演算結果と予
め設定した閾値とを比較して画像中に文字が存在するか
否かを判定する判定手段と、隣接する複数のブロックが
同じ放射方向の特徴を有するかを演算する連続性演算手
段と、前記特徴の連続性に応じて文字判定の確度を変化
させる連続性判定手段とを具備するため、請求項1の発
明と同様の効果を奏する他に、放射方向の特徴を求める
ことができ、従来の方法では判明しなかった長い線分の
存在を見つけることができる。即ち、文字と思われる以
上に線分が連続している場合は、文字以外(例えば風景
の中の長い線分)であると判断することができる。従っ
て、従来のごとく文字としての特徴が出ていれば長い線
分でも区別することができないといった不具合を解消す
ることができる。
【0071】請求項3の発明によれば、前記分割手段
は、前記直交変換で得た係数を、画素ブロックの平均濃
度を表すDC値の位置を中心に放射状の領域に分割する
ため、請求項1及び請求項2の発明と同様の効果を奏す
ることができる。
【0072】請求項4の発明によれば、前記演算手段
は、前記各領域内の係数の絶対値の和を演算するため、
請求項1及び請求項2の発明と同様の効果を奏すること
ができる。
【0073】請求項5の発明によれば、前記連続性判定
手段は、特徴の連続性が予め設定した閾値以下の場合は
文字と判定し、閾値以上の場合は文字でないと判定する
ため、請求項2の発明と同様の効果を奏することができ
る。
【0074】請求項6の発明によれば、前記画像は、ビ
デオやカメラ等から入力される画像であるため、請求項
1及び請求項2の発明と同様の効果を奏することができ
る。
【0075】請求項7の発明によれば、画像に対してブ
ロック毎に直交変換を行い該直交変換で得た係数に基づ
き文字を抽出する文字抽出方法において、前記直交変換
で得た係数を放射状の領域に分割する分割ステップと、
前記各領域内の係数を演算する演算ステップと、該演算
結果と予め設定した閾値とを比較して画像中に文字が存
在するか否かを判定する判定ステップとを有するため、
文字の線分特性を反映でき、文字の抽出を簡単な演算で
行うことができる。従って、従来のごとく例えば風景等
の画像の中の文字の特徴を捉えきれず、充分な抽出率を
得ることができないといった不具合を解消することがで
きる。
【0076】請求項8の発明によれば、画像に対してブ
ロック毎に直交変換を行い該直交変換で得た係数に基づ
き文字を抽出する文字抽出方法において、前記直交変換
で得た係数を放射状の領域に分割する分割ステップと、
前記各領域内の係数を演算する演算ステップと、該演算
結果と予め設定した閾値とを比較して画像中に文字が存
在するか否かを判定する判定ステップと、隣接する複数
のブロックが同じ放射方向の特徴を有するかを演算する
連続性演算ステップと、前記特徴の連続性に応じて文字
判定の確度を変化させる連続性判定ステップとを有する
ため、請求項7の発明と同様の効果を奏する他に、放射
方向の特徴を求めることができ、従来の方法では判明し
なかった長い線分の存在を見つけることができる。即
ち、文字と思われる以上に線分が連続している場合は、
文字以外(例えば風景の中の長い線分)であると判断す
ることができる。従って、従来のごとく文字としての特
徴が出ていれば長い線分でも区別することができないと
いった不具合を解消することができる。
【0077】請求項9の発明によれば、前記分割ステッ
プでは、前記直交変換で得た係数を、画素ブロックの平
均濃度を表すDC値の位置を中心に放射状の領域に分割
するため、請求項7及び請求項8の発明と同様の効果を
奏することができる。
【0078】請求項10の発明によれば、前記演算ステ
ップでは、前記各領域内の係数の絶対値の和を演算する
ため、請求項7及び請求項8の発明と同様の効果を奏す
ることができる。
【0079】請求項11の発明によれば、前記連続性判
定ステップでは、特徴の連続性が予め設定した閾値以下
の場合は文字と判定し、閾値以上の場合は文字でないと
判定するため、請求項8の発明と同様の効果を奏するこ
とができる。
【0080】請求項12の発明によれば、前記画像は、
ビデオやカメラ等から入力される画像であるため、請求
項7及び請求項8の発明と同様の効果を奏することがで
きる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る文字抽出装置
の構成を示すブロック図である。
【図2】本発明の第1の実施の形態に係る空間座標系に
変換された係数を放射状の領域に分割した状態を示す説
明図である。
【図3】本発明の第1の実施の形態に係る線分とDCT
係数との関係を示す説明図であり、(a)は横線の場合
のDCT係数の分布を示す説明図、(b)は縦線の場合
のDCT係数の分布を示す説明図、(c)は斜め線の場
合のDCT係数の分布を示す説明図、(d)は十字線の
場合のDCT係数の分布を示す説明図である。である。
【図4】本発明の第1の実施の形態に係る実際の文字と
DCT係数との関係を示す説明図であり、(a)は
“大”という文字の場合のDCT係数の分布を示す説明
図、(b)は“A”という文字の場合のDCT係数の分
布を示す説明図、(c)は“あ”という文字の場合のD
CT係数の分布を示す説明図、(d)は“馬”という文
字の場合のDCT係数の分布を示す説明図である。
【図5】本発明の第1の実施の形態に係る文字と一般画
像とを区別するアルゴリズムを示すフローチャートであ
る。
【図6】本発明の第2の実施の形態に係る文字抽出装置
の構成を示すブロック図である。
【図7】本発明の第2の実施の形態に係る繰り返しパタ
ーンとDCT係数との関係を示す説明図である。
【図8】本発明の第2の実施の形態に係る文字と一般画
像とを区別するアルゴリズム及び文字ではない繰り返し
パターンを判定から除去するアルゴリズムを示すフロー
チャートである。
【図9】従来例に係る画像の直交変換を示す説明図であ
る。
【符号の説明】
1、61 直交変換手段 2、62 YUV変換部 3、63 DCT変換部 4、64 放射状領域分割手段 5、65 演算手段 6、66 比較判定手段 67 特徴方向記憶手段 68 隣接ブロック連続性演算手段 69 連続性判定手段

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 画像に対してブロック毎に直交変換を行
    い該直交変換で得た係数に基づき文字を抽出する文字抽
    出装置において、 前記直交変換で得た係数を放射状の領域に分割する分割
    手段と、前記各領域内の係数を演算する演算手段と、該
    演算結果と予め設定した閾値とを比較して画像中に文字
    が存在するか否かを判定する判定手段とを具備すること
    を特徴とする文字抽出装置。
  2. 【請求項2】 画像に対してブロック毎に直交変換を行
    い該直交変換で得た係数に基づき文字を抽出する文字抽
    出装置において、 前記直交変換で得た係数を放射状の領域に分割する分割
    手段と、前記各領域内の係数を演算する演算手段と、該
    演算結果と予め設定した閾値とを比較して画像中に文字
    が存在するか否かを判定する判定手段と、隣接する複数
    のブロックが同じ放射方向の特徴を有するかを演算する
    連続性演算手段と、前記特徴の連続性に応じて文字判定
    の確度を変化させる連続性判定手段とを具備することを
    特徴とする文字抽出装置。
  3. 【請求項3】 前記分割手段は、前記直交変換で得た係
    数を、画素ブロックの平均濃度を表すDC値の位置を中
    心に放射状の領域に分割することを特徴とする請求項1
    又は2記載の文字抽出装置。
  4. 【請求項4】 前記演算手段は、前記各領域内の係数の
    絶対値の和を演算することを特徴とする請求項1、2又
    は3記載の文字抽出装置。
  5. 【請求項5】 前記連続性判定手段は、特徴の連続性が
    予め設定した閾値以下の場合は文字と判定し、閾値以上
    の場合は文字でないと判定することを特徴とする請求項
    2、3又は4記載の文字抽出装置。
  6. 【請求項6】 前記画像は、ビデオやカメラ等から入力
    される画像であることを特徴とする請求項1、2、3、
    4又は5記載の文字抽出装置。
  7. 【請求項7】 画像に対してブロック毎に直交変換を行
    い該直交変換で得た係数に基づき文字を抽出する文字抽
    出方法において、 前記直交変換で得た係数を放射状の領域に分割する分割
    ステップと、前記各領域内の係数を演算する演算ステッ
    プと、該演算結果と予め設定した閾値とを比較して画像
    中に文字が存在するか否かを判定する判定ステップとを
    有することを特徴とする文字抽出方法。
  8. 【請求項8】 画像に対してブロック毎に直交変換を行
    い該直交変換で得た係数に基づき文字を抽出する文字抽
    出方法において、 前記直交変換で得た係数を放射状の領域に分割する分割
    ステップと、前記各領域内の係数を演算する演算ステッ
    プと、該演算結果と予め設定した閾値とを比較して画像
    中に文字が存在するか否かを判定する判定ステップと、
    隣接する複数のブロックが同じ放射方向の特徴を有する
    かを演算する連続性演算ステップと、前記特徴の連続性
    に応じて文字判定の確度を変化させる連続性判定ステッ
    プとを有することを特徴とする文字抽出方法。
  9. 【請求項9】 前記分割ステップでは、前記直交変換で
    得た係数を、画素ブロックの平均濃度を表すDC値の位
    置を中心に放射状の領域に分割することを特徴とする請
    求項7又は8記載の文字抽出方法。
  10. 【請求項10】 前記演算ステップでは、前記各領域内
    の係数の絶対値の和を演算することを特徴とする請求項
    7、8又は9記載の文字抽出方法。
  11. 【請求項11】 前記連続性判定ステップでは、特徴の
    連続性が予め設定した閾値以下の場合は文字と判定し、
    閾値以上の場合は文字でないと判定することを特徴とす
    る請求項8、9又は10記載の文字抽出方法。
  12. 【請求項12】 前記画像は、ビデオやカメラ等から入
    力される画像であることを特徴とする請求項7、8、
    9、10又は11記載の文字抽出方法。
JP9074698A 1997-03-12 1997-03-12 文字抽出装置及び文字抽出方法 Pending JPH10254993A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9074698A JPH10254993A (ja) 1997-03-12 1997-03-12 文字抽出装置及び文字抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9074698A JPH10254993A (ja) 1997-03-12 1997-03-12 文字抽出装置及び文字抽出方法

Publications (1)

Publication Number Publication Date
JPH10254993A true JPH10254993A (ja) 1998-09-25

Family

ID=13554715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9074698A Pending JPH10254993A (ja) 1997-03-12 1997-03-12 文字抽出装置及び文字抽出方法

Country Status (1)

Country Link
JP (1) JPH10254993A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100464224B1 (ko) * 2000-10-20 2005-01-03 캐논 가부시끼가이샤 화상처리방법 및 그 장치, 기억매체
JP2008033604A (ja) * 2006-07-28 2008-02-14 Univ Of Tokyo 画像処理システム、文字認識システムおよび画像処理プログラム
JP2009009179A (ja) * 2007-06-26 2009-01-15 Univ Of Tokyo 画像処理装置及び画像処理プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100464224B1 (ko) * 2000-10-20 2005-01-03 캐논 가부시끼가이샤 화상처리방법 및 그 장치, 기억매체
JP2008033604A (ja) * 2006-07-28 2008-02-14 Univ Of Tokyo 画像処理システム、文字認識システムおよび画像処理プログラム
JP2009009179A (ja) * 2007-06-26 2009-01-15 Univ Of Tokyo 画像処理装置及び画像処理プログラム

Similar Documents

Publication Publication Date Title
US6185329B1 (en) Automatic caption text detection and processing for digital images
JP4725690B2 (ja) 映像識別子抽出装置
CN100365661C (zh) 信号处理方法及设备
Moghaddam et al. A new algorithm for image indexing and retrieval using wavelet correlogram
JP2003523587A (ja) ビジュアルアテンションシステム
JP3733161B2 (ja) 画像処理装置および方法
JP2011108262A (ja) 少なくとも1つの画像及び画像群を表現する方法、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体
US6798424B2 (en) Image processing method and apparatus and storage medium
CN113810654A (zh) 图像视频的上传方法、装置、存储介质以及电子设备
WO2013036086A2 (en) Apparatus and method for robust low-complexity video fingerprinting
JP2006092556A (ja) 領域検出方法および領域検出プログラム
KR100708130B1 (ko) 동영상 추출장치 및 방법
KR20090065099A (ko) 디지털 영상 특징 관리 시스템 및 그 방법
JPH10254993A (ja) 文字抽出装置及び文字抽出方法
US20130216097A1 (en) Image-feature detection
CN117974414B (zh) 基于融合新闻素材的数字水印签名校验方法、装置和设备
Dai et al. IMShare: Instantly sharing your mobile landmark images by search-based reconstruction
WO2005046213A1 (en) Document image encoding/decoding
Chang et al. Similar image retrieval based on wavelet transformation
KR100473944B1 (ko) 디지털 영상신호의 텍스트 추출방법
JP4083670B2 (ja) 画像符号化装置及び画像符号化方法
US7876832B2 (en) Method for the characterization of a digital image and the applications thereof
JPH09186858A (ja) 画像処理方法及び装置、及びコンピュータ制御装置
JP3499729B2 (ja) 複数映像の時空間統合、管理方法及びその装置並びにそのプログラムを記録した記録媒体
JP2005078233A (ja) 領域抽出法および領域抽出装置

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Effective date: 20041125

Free format text: JAPANESE INTERMEDIATE CODE: A712

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050225

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070913

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101005

Year of fee payment: 3

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101005

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees