JP5796107B2 - テキスト検出の方法及び装置 - Google Patents
テキスト検出の方法及び装置 Download PDFInfo
- Publication number
- JP5796107B2 JP5796107B2 JP2014103652A JP2014103652A JP5796107B2 JP 5796107 B2 JP5796107 B2 JP 5796107B2 JP 2014103652 A JP2014103652 A JP 2014103652A JP 2014103652 A JP2014103652 A JP 2014103652A JP 5796107 B2 JP5796107 B2 JP 5796107B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- connected component
- component
- filtering
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Image Analysis (AREA)
Description
CCは、それがTBRであるかを判定するため、その特徴に基づいてチェックされうる。CCの特徴は、例えば、CCの色又はグレースケールの均一性、CCのサイズ、CCの形状、CCの境界線の規則性、画像中のCCの位置、CCの平均グレースケール値及びCCのグレースケール値分布のうちの少なくとも1つを含みうる。
CCは、それがTBRであるかを判定するために、CC中のメンバCCの統計に基づいてチェックされうる。ここで、現在のCC中のメンバCCは、現在のCCの境界内に配置されたCCであり、現在のCCに対して高いコントラストを有する。メンバCCの領域は、完全に現在のCCの境界内にある。メンバCCは、現在のCCの反対側のチャネルから抽出されうる。例えば、暗いCCのメンバCCは暗いCCの領域内の明るいCCであってよく、明るいCCのメンバCCは明るいCCの領域内の暗いCCであってよい。
CCは、それがTBRであるかを判定するために、他のTBRとの関係に基づいてチェックされうる。一実施形態によると、少なくとも1つのCCと他のTBRとの関係に基づいてCCからTBRを選択することは、前に判定されたあらゆるTBRにおけるメンバCCではなく、且つ前に判定されたTBRと同一のメンバCCを有さないCCに応答して、CCをTBRとして判定することを含みうる。換言すると、TBRは、通常、互いに重複しないかあるいは互いを含まない。
P(A|B)=P(B|A)P(A)/P(B)
式中、P(A)は事前確率であり、P(B|A)は条件付き確率であり、P(A|B)は事後確率である。
Claims (23)
- 少なくとも1つの連結成分を含む画像においてテキスト領域を検出するテキスト検出方法であって、
前記画像からテキスト背景領域を検出する検出工程と、
前記少なくとも1つの連結成分をフィルタリングしてテキスト候補となる連結成分を残すフィルタリング工程と、
前記検出工程において検出された前記テキスト背景領域に基づいて、前記テキスト候補となる連結成分をグループ化して少なくとも1つの連結成分グループを形成し、且つ前記少なくとも1つの連結成分グループに基づいて少なくとも1つのテキスト領域を生成するグループ化工程と、
を備え、
前記フィルタリング工程において、前記テキスト背景領域の境界内にない連結成分に対するフィルタリングは、前記テキスト背景領域の境界内の連結成分に対するフィルタリングより厳しいことを特徴とするテキスト検出方法。 - 前記テキスト背景領域は前記画像中のテキストの周囲領域であって、規則的な境界線、及び、均一な色又はグレースケールを有することを特徴とする請求項1に記載の方法。
- 前記検出工程は、
前記少なくとも1つの連結成分の特徴、
前記少なくとも1つの連結成分の境界内に配置された連結成分であり、前記少なくとも1つの連結成分に対して高いコントラストを有する前記少なくとも1つの連結成分中のメンバ連結成分の統計、及び
前記少なくとも1つの連結成分と他のテキスト背景領域との間の関係、
のうちの少なくとも1つに基づいて前記少なくとも1つの連結成分から前記テキスト背景領域を選択する選択工程を含むことを特徴とする請求項1又は2記載の方法。 - 前記少なくとも1つの連結成分の前記特徴は、
前記連結成分の色又はグレースケールの均一性、
前記連結成分のサイズ、
前記連結成分の形状、
前記連結成分の境界線の規則性、
前記画像中の前記連結成分の位置、
前記連結成分の平均グレースケール値、及び
前記連結成分のグレースケール値分布
のうちの少なくとも1つを含むことを特徴とする請求項3に記載の方法。 - 前記メンバ連結成分の前記統計は、
前記連結成分中の前記メンバ連結成分の数、
第1の事前定義済みの閾値より高いテキスト信頼度を有する前記メンバ連結成分のシード連結成分の数、
前記連結成分中の前記メンバ連結成分の平均テキスト信頼度、及び
前記連結成分中の前記メンバ連結成分の総面積と前記連結成分の面積との比
のうちの少なくとも1つを含むことを特徴とする請求項3に記載の方法。 - 前記少なくとも1つの連結成分と他のテキスト背景領域との間の前記関係に基づいて前記少なくとも1つの連結成分から前記テキスト背景領域を選択する選択工程は、
前に判定されたあらゆるテキスト背景領域におけるメンバ連結成分ではなく、且つ前記前に判定されたテキスト背景領域と同一のメンバ連結成分を有さない前記連結成分に応答して連結成分をテキスト背景領域として判定する判定工程を含むことを特徴とする請求項3に記載の方法。 - 前記フィルタリング工程において、あらゆるテキスト背景領域の境界内の連結成分及びあらゆるテキスト背景領域の境界内にない連結成分は、
前記連結成分のサイズ、
前記連結成分の形状、
前記連結成分のバウンディングボックスのアスペクト比、
前記連結成分とそのバウンディングボックスの面積比、
周長と前記連結成分の面積との比、及び
前記連結成分のテクスチャ特徴、
のうちの少なくとも1つに基づいてフィルタリングされることを特徴とする請求項1に記載の方法。 - あらゆるテキスト背景領域内にない前記連結成分は、
ストローク幅の統計、及び
境界線画素数と連結成分画素数との比、
のうちの少なくとも1つに更に基づいてフィルタリングされることを特徴とする請求項7に記載の方法。 - 少なくとも1つの連結成分を含む画像においてテキスト領域を検出するテキスト検出方法であって、
前記画像からテキスト背景領域を検出する検出工程と、
前記少なくとも1つの連結成分をフィルタリングしてテキスト候補となる連結成分を残すフィルタリング工程と、
前記検出工程において検出された前記テキスト背景領域に基づいて、前記テキスト候補となる連結成分をグループ化して少なくとも1つの連結成分グループを形成し、且つ前記少なくとも1つの連結成分グループに基づいて少なくとも1つのテキスト領域を生成するグループ化工程と、
を備え、
前記グループ化工程は、
a)前記候補となるテキスト連結成分をそれぞれのテキスト背景領域に割り当てること、及びテキスト背景領域に割り当て不可能な前記候補となるテキスト連結成分を外側領域に割り当てる工程と、
b)各テキスト背景領域及び前記外側領域の連結成分をそれぞれグループ化して連結成分グループを形成する工程と、
c)各テキスト背景領域及び前記外側領域間の種々の領域からの連結成分グループを組み合わせて前記少なくとも1つのテキスト領域を生成する工程と
を更に含むことを特徴とするテキスト検出方法。 - 前記工程b)は、
b1)各テキスト背景領域及び前記外側領域の連結成分を暗い領域の明るい連結成分の集合及び明るい領域の暗い連結成分の集合に分割する工程と、
b2)それぞれ前記明るい連結成分の集合及び前記暗い連結成分の集合内に連結成分グループを生成する工程と、
b3)空間関係及び外観の類似性のうちの少なくとも1つに基づいて、前記明るい連結成分の集合と前記暗い連結成分の集合とを組み合わせる工程と
を更に含むことを特徴とする請求項9に記載の方法。 - 前記工程c)において、
行方向の整合性、
前記連結成分の平均サイズの類似性、
前記連結成分の平均ストローク幅の類似性、及び
前記連結成分の平均的な色又はグレースケールの類似性、
のうちの少なくとも1つに基づいて種々の領域からの連結成分グループを組み合わせることを特徴とする請求項9に記載の方法。 - 前記工程b2)において、前記連結成分グループは連結成分クラスタリングにより生成され、
当該連結成分クラスタリングは、以下の制約、
ある特定の方向に従う連結成分の中心の位置合わせ、
連結成分のサイズの類似性、
連結成分の形状の類似性、
連結成分の色又はグレースケールの類似性、
連結成分のストローク幅の類似性、及び
連結成分間の距離
のうちの少なくとも1つを使用することを特徴とする請求項10に記載の方法。 - 前記工程b2)は、
ハフ変換により連結成分グループを生成する工程と、
以下の制約の少なくとも1つを用いて、生成された連結成分グループに含まれる連結成分をフィルタリングする工程とを更に有する
前記制約は、
ある特定の方向に従う連結成分の中心の位置合わせ、
連結成分のサイズの類似性、
連結成分の形状の類似性、
連結成分の色又はグレースケールの類似性、
連結成分のストローク幅の類似性、及び
連結成分間の距離
である、
ことを特徴とする請求項10に記載の方法。 - 前記工程c)において前記組み合わせることに対する規則は、前記工程b)において前記グループ化することに対する規則より厳しいことを特徴とする請求項9に記載の方法。
- 前記フィルタリング工程は、
前記テキスト背景領域以外の前記少なくとも1つの連結成分の各々のテキスト信頼度を算出する工程と、
ここで前記計算において、あらゆるテキスト背景領域の前記境界内の連結成分は他の連結成分より重視される、
第2の事前定義済みの閾値より高いテキスト信頼度を有する連結成分を前記テキスト候補連結成分として判定する工程と
を含むことを特徴とする請求項1に記載の方法。 - 前記フィルタリング工程は、
前記テキスト背景領域以外の前記少なくとも1つの連結成分毎に、前記連結成分があらゆるテキスト背景領域の前記境界内に配置されることに応答して、前記連結成分を第1の連結成分として識別するか、あるいは前記連結成分を第2の連結成分として識別する工程と、
前記連結成分が前記テキスト候補連結成分であるかを判定するために、前記第1の連結成分及び前記第2の連結成分の各々に対して第1のフィルタリング工程を実行する工程と、
前記第2の連結成分が前記テキスト候補連結成分であるかを更に判定するために、前記第1のフィルタリング工程により前記テキスト候補連結成分として判定される前記第2の連結成分の各々に対して第2のフィルタリング工程を実行する工程と
を含むことを特徴とする請求項1に記載の方法。 - 前記第1の連結成分及び前記第2の連結成分の各々に対して前記第1のフィルタリング工程を実行する工程は、
前記連結成分が前記テキスト候補連結成分であるかを判定するために、前記連結成分の1つ以上の第1の特徴に基づいて前記第1のフィルタリング工程を実行する工程を含むことを特徴とする請求項16に記載の方法。 - 前記第1のフィルタリング工程により前記テキスト候補連結成分として判定される前記第2の連結成分の各々に対して前記第2のフィルタリング工程を実行する工程は、
前記第2の連結成分が前記テキスト候補連結成分であるかを更に判定するために、前記第2の連結成分の1つ以上の第2の特徴に基づいて前記第2のフィルタリング工程を実行する工程を含むことを特徴とする請求項16に記載の方法。 - 前記テクスチャ特徴は、
ローカルバイナリパターン、
エッジ方向ヒストグラム、及び
勾配のヒストグラム
のうちの少なくとも1つを含むことを特徴とする請求項7に記載の方法。 - 前記第1のフィルタリング工程において、前記第1の特徴は、カスケード規則として使用されるか、あるいは訓練分類器に入力される特徴ベクトルとして組み合わされることを特徴とする請求項17に記載の方法。
- 前記第2のフィルタリング工程において、前記第2の特徴は、カスケード規則として使用されるか、あるいは訓練分類器に入力される特徴ベクトルとして組み合わされることを特徴とする請求項18に記載の方法。
- 少なくとも1つの連結成分を含む画像においてテキスト領域を検出するテキスト検出装置であって、
前記画像からテキスト背景領域を検出する検出手段と、
前記少なくとも1つの連結成分をフィルタリングしてテキスト候補となる連結成分を残すフィルタリング手段と、
前記検出手段において検出された前記テキスト背景領域に基づいて、前記テキスト候補となる連結成分をグループ化して少なくとも1つの連結成分グループを形成し、且つ前記少なくとも1つの連結成分グループに基づいて少なくとも1つのテキスト領域を生成するグループ化手段と、
を備え、
前記フィルタリング手段において、前記テキスト背景領域の境界内にない連結成分に対するフィルタリングは、前記テキスト背景領域の境界内の連結成分に対するフィルタリングより厳しいことを特徴とするテキスト検出装置。 - 少なくとも1つの連結成分を含む画像においてテキスト領域を検出するテキスト検出装置であって、
前記画像からテキスト背景領域を検出する検出手段と、
前記少なくとも1つの連結成分をフィルタリングしてテキスト候補となる連結成分を残すフィルタリング手段と、
前記検出手段において検出された前記テキスト背景領域に基づいて、前記テキスト候補となる連結成分をグループ化して少なくとも1つの連結成分グループを形成し、且つ前記少なくとも1つの連結成分グループに基づいて少なくとも1つのテキスト領域を生成するグループ化手段と、
を備え、
前記グループ化手段は、
a)前記候補となるテキスト連結成分をそれぞれのテキスト背景領域に割り当てること、及びテキスト背景領域に割り当て不可能な前記候補となるテキスト連結成分を外側領域に割り当てる手段と、
b)各テキスト背景領域及び前記外側領域の連結成分をそれぞれグループ化して連結成分グループを形成する手段と、
c)各テキスト背景領域及び前記外側領域間の種々の領域からの連結成分グループを組み合わせて前記少なくとも1つのテキスト領域を生成する手段と
を更に含むことを特徴とするテキスト検出装置。
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201310196315.3A CN104182744B (zh) | 2013-05-24 | 2013-05-24 | 文本检测方法和装置以及文本信息提取方法和系统 |
| CN201310196300.7 | 2013-05-24 | ||
| CN201310196300.7A CN104182722B (zh) | 2013-05-24 | 2013-05-24 | 文本检测方法和装置以及文本信息提取方法和系统 |
| CN201310196315.3 | 2013-05-24 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2014229314A JP2014229314A (ja) | 2014-12-08 |
| JP5796107B2 true JP5796107B2 (ja) | 2015-10-21 |
Family
ID=52129031
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014103652A Active JP5796107B2 (ja) | 2013-05-24 | 2014-05-19 | テキスト検出の方法及び装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5796107B2 (ja) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9524430B1 (en) * | 2016-02-03 | 2016-12-20 | Stradvision Korea, Inc. | Method for detecting texts included in an image and apparatus using the same |
| CN107545261A (zh) * | 2016-06-23 | 2018-01-05 | 佳能株式会社 | 文本检测的方法及装置 |
| CN106874905B (zh) * | 2017-01-12 | 2019-06-11 | 中南大学 | 一种基于自学习色彩聚类的自然场景文本检测的方法 |
| CN109711406A (zh) * | 2018-12-25 | 2019-05-03 | 中南大学 | 一种基于多尺度旋转锚点机制的多方向图像文本检测方法 |
| CN110555839B (zh) * | 2019-09-06 | 2024-11-15 | 腾讯云计算(北京)有限责任公司 | 缺陷检测识别方法、装置、计算机设备及存储介质 |
-
2014
- 2014-05-19 JP JP2014103652A patent/JP5796107B2/ja active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2014229314A (ja) | 2014-12-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN102144236B (zh) | 用于图像和视频ocr的文本定位 | |
| Chen et al. | Robust text detection in natural images with edge-enhanced maximally stable extremal regions | |
| Shivakumara et al. | A laplacian approach to multi-oriented text detection in video | |
| CN105701519B (zh) | 基于超像素的图像的实际货架图景象分析 | |
| Ryan et al. | An examination of character recognition on ID card using template matching approach | |
| Anthimopoulos et al. | Detection of artificial and scene text in images and video frames | |
| US20150010233A1 (en) | Method Of Improving Contrast For Text Extraction And Recognition Applications | |
| Shivakumara et al. | Detection of curved text in video: Quad tree based method | |
| JP5796107B2 (ja) | テキスト検出の方法及び装置 | |
| CN104182722A (zh) | 文本检测方法和装置以及文本信息提取方法和系统 | |
| Shivakumara et al. | Gradient-angular-features for word-wise video script identification | |
| Faustina Joan et al. | A survey on text information extraction from born-digital and scene text images | |
| Shekar et al. | Discrete wavelet transform and gradient difference based approach for text localization in videos | |
| Akbani et al. | Character recognition in natural scene images | |
| Fraz et al. | Exploiting colour information for better scene text detection and recognition | |
| CN104182744A (zh) | 文本检测方法和装置以及文本信息提取方法和系统 | |
| Liu et al. | Detection and segmentation text from natural scene images based on graph model | |
| Qin et al. | Video scene text frames categorization for text detection and recognition | |
| Phan et al. | Text detection in natural scenes using gradient vector flow-guided symmetry | |
| CN111462035B (zh) | 一种图片检测方法及装置 | |
| Sanketi et al. | Localizing blurry and low-resolution text in natural images | |
| Hurtik et al. | Automatic license plate recognition in difficult conditions—Technical report | |
| Mukarambi et al. | Script identification from camera based Tri-Lingual document | |
| Vu et al. | Automatic extraction of text regions from document images by multilevel thresholding and k-means clustering | |
| Hesham et al. | A zone classification approach for arabic documents using hybrid features |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150423 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150508 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150622 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150717 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150817 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 5796107 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |