JP5796107B2 - テキスト検出の方法及び装置 - Google Patents

テキスト検出の方法及び装置 Download PDF

Info

Publication number
JP5796107B2
JP5796107B2 JP2014103652A JP2014103652A JP5796107B2 JP 5796107 B2 JP5796107 B2 JP 5796107B2 JP 2014103652 A JP2014103652 A JP 2014103652A JP 2014103652 A JP2014103652 A JP 2014103652A JP 5796107 B2 JP5796107 B2 JP 5796107B2
Authority
JP
Japan
Prior art keywords
text
connected component
component
filtering
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014103652A
Other languages
English (en)
Other versions
JP2014229314A (ja
Inventor
ウェンフォア マー
ウェンフォア マー
ルオ ツァオハイ
ルオ ツァオハイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201310196315.3A external-priority patent/CN104182744B/zh
Priority claimed from CN201310196300.7A external-priority patent/CN104182722B/zh
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2014229314A publication Critical patent/JP2014229314A/ja
Application granted granted Critical
Publication of JP5796107B2 publication Critical patent/JP5796107B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Description

本発明は、テキスト検出に関し、特に、テキスト検出の方法及び装置、並びにテキスト情報抽出の方法及びシステムに関する。
画像、特に自然画像においてテキストを検出することは、視覚障碍者及び外国人のためのコンピュータ化支援、画像及び映像の自動検索、並びに都市環境でのロボットナビゲーション等の多数の画像認識の適応例にとって極めて重要である。
それにもかかわらず、自然シーンでのテキスト検出は難しい問題である。印刷されたページ、ファックス及び名刺の走査とは対照的に、主な課題は、フォント、サイズ、スキュー角、斜体及び傾斜による歪み等のテキストの多様性にある。不均一な照明及び反射、劣悪な照明条件、並びに複雑な背景等の環境要因により、より複雑化している。
関連文献において、自然シーンにおいてテキスト領域を検出するテキスト検出方法は、通常、図1に示されたフローチャートに従う。図1の方法100はブロック110から開始し、画像から成分を生成する。ここで、成分は、同様の色又はグレースケール、あるいはストローク幅を有する画素グループである連結成分(CC)等であってもよい。
次にブロック120において、種々の特徴が各成分から抽出され、その特徴に基づいて非テキスト成分がフィルタリングされる結果、候補となるテキスト成分が確保される。
次にブロック130において、確保された候補となるテキスト成分は、テキスト行又は単語を定型化するために共にグループ化され、テキスト行又は単語のバウンディングボックス(テキストを含む矩形等の最小多角形)としてテキスト領域を出力する。
従来技術の一般的な問題は、従来技術が、エッジ、隅、ストローク、色及びテクスチャ等のテキスト領域の特徴のみによってテキストを検出しようとすることである。しかし、殆どの場合に有用となりうるテキスト周囲のコンテキスト情報は無視される。その結果、従来技術では、複雑な非テキスト領域による誤検出及び自然シーン中のテキストの広範囲の多様性による非検出が発生する。従って、テキスト領域の特徴によってのみ、直接テキストを検出しようとする際には厳しいトレードオフがある。
従って、テキスト領域の周囲の背景情報を利用する画像でのテキスト検出のために改善された方法が必要である。
Yasuhiro Kunishige、Feng Yaokai、Seiichi Uchida、International Conference on Document Analysis and Recognition (ICDAR)により出版された文献「Scenery character detection with environmental contex」、1049〜1053ページ、2011年において、コンテキスト情報の概念を使用するテキスト検出方法が提案される。特に、文献は、対象成分の周囲に10画素の余白を追加することで形成される対象成分の拡張領域からコンテキスト特徴を抽出する。更に方法は、6個のシーン成分カテゴリ、すなわち「空」、「緑」、「看板」、「地面」、「建物」及び「その他」のうちの1つに成分を分類する。この方法の1つの問題は、「空」、「緑」等の一般的なカテゴリがテキスト検出には不適切であり、且つ「看板」が例えばロゴ、タグ、スクロール、ポスター等の全ての種類のテキスト背景領域を範囲に含まないことである。この方法の別の問題は、コンテキスト情報が、シーンの変動に適応できない固定のサイズの余白領域から抽出されることである。更に別の問題は、情報がCCのグループ化において有益である一方で、この方法が空間におけるCCの関係、例えばどのCCがある看板に属しているかを取得できないことである。
従って、上述の問題の少なくとも1つに対処する必要がある。
本発明者は、自然シーン中の殆どのテキストは、容易に認識されるように、テキストに対して高いコントラストを有する相対的に同様の背景領域上に印刷されていることに着目した。これは、テキスト検出にとって有用だろう。
それにより、新規のテキスト検出の方法及び装置は、画像、特に自然シーン画像でのテキスト検出の性能を向上させるために本発明において提案される。テキストを取り囲むこの一般的な背景領域を規定するために、新しい概念であるテキスト背景領域(TBR)が本発明に導入される。自然シーン画像において、TBRは、通常、看板、ロゴ、タグ、スクロール及びポスター等として存在するが、これらの形態に限定されない。テキスト領域を直接見つけるのではなく、最初にTBRを見つけて、TBR内の成分及び全てのTBRの外、すなわち外側領域(OR)の成分として成分を分類することにより、テキストを探索する。テキストは、TBRの外よりTBR内に現れる可能性がより高いと仮定される。また、1つのテキスト行/単語は、2つの領域(2つのTBR又はTBR及びOR)を交差することはめったにない。その仮定に基づいて、TBR情報は、連結成分のフィルタリング及び/又は連結成分のグループ化において使用されうる。
本発明の第1の態様によると、少なくとも1つの連結成分(CC)を含む画像においてテキスト領域を検出する方法が提供される。方法は、画像から少なくとも1つのテキスト背景領域(TBR)を検出するTBR検出ステップと、少なくとも1つのCCをフィルタリングして少なくとも1つの候補となるテキストCCを確保するCCフィルタリングステップと、TBR検出ステップにおいて検出されたTBRに基づいて少なくとも1つの候補となるテキストCCをグループ化して少なくとも1つのCCグループを形成し、且つ少なくとも1つのCCグループに基づいて少なくとも1つのテキスト領域を生成するCCグループ化ステップとを備える。
本発明の第2の態様によると、少なくとも1つの連結成分(CC)を含む画像においてテキスト領域を検出するテキスト検出装置が提供される。装置は、画像からテキスト背景領域(TBR)を検出するように構成されたTBR検出ユニットと、少なくとも1つのCCをフィルタリングして少なくとも1つの候補となるテキストCCを確保するように構成されたCCフィルタリングユニットと、TBR検出ユニットにおいて検出されたTBRに基づいて少なくとも1つの候補となるテキストCCをグループ化して少なくとも1つのCCグループを形成し、且つ少なくとも1つのCCグループに基づいて少なくとも1つのテキスト領域を生成するように構成されたCCグループ化ユニットとを備える。
本発明の第3の態様によると、テキスト情報抽出方法が提供される。方法は、本発明の第1の態様に係るテキスト検出方法を使用して入力画像又は入力映像からテキスト領域を検出するステップと、検出されたテキスト領域からテキストを抽出するステップと、抽出されたテキストを認識してテキスト情報を取得するステップとを備える。
本発明の第4の態様によると、テキスト情報抽出システムが提供される。システムは、入力画像又は入力映像からテキスト領域を検出するように構成された本発明の第2の態様に係るテキスト検出装置と、検出されたテキスト領域からテキストを抽出するように構成された抽出装置と、抽出されたテキストを認識してテキスト情報を取得するように構成された認識装置とを備える。
これらの特徴を利用することにより、本発明に係る方法、装置及びシステムは、画像中のテキストの場所を迅速に且つ/あるいは高精度に示すことができ、その結果、テキスト検出の性能が向上する。
図面を参照して、以下の説明から本発明の更なる特徴及び利点が明らかになるだろう。
本明細書に組み込まれ且つその一部を構成する添付の図面は、本発明の実施形態を例示し、説明と共に本発明の原理を説明するのに役立つ。
図1は、画像においてテキスト領域を検出する従来技術の方法を示すフローチャートである。 図2は、本発明の実施形態を実現できるコンピュータシステムの例示的なハードウェア構成を示すブロック図である。 図3は、本発明の一実施形態に係る画像においてテキスト領域を検出するテキスト検出方法を示すフローチャートである。 図4は、本発明の一実施形態に係るCCと他のTBRとの関係に基づいてCCがTBRであるかを判定する例示的な処理を示す図である。 図5Aは、本発明の一実施形態に係る図3のCCフィルタリングステップを示すフローチャートである。 図5Bは、本発明の別の実施形態に係る図3のCCフィルタリングステップを示すフローチャートである。 図5Cは、本発明の一実施形態に係る訓練分類器を使用する図3のCCフィルタリングステップにおける例示的な処理を示す図である。 図6は、図3のCCグループ化ステップを実行することを示す例示的なフローチャートである。 図7は、図6のグループ化ステップを実行することを示す例示的なフローチャートである。 図8A〜図8Fは、本発明に係るテキスト検出方法を使用してそれぞれの処理結果を示す例示的な画像を示す図である。 図9は、本発明の一実施形態に係る画像においてテキスト領域を検出するテキスト検出装置を示すブロック図である。 図10Aは、本発明の一実施形態に係る図9のCCフィルタリングユニットを示すブロック図である。 図10Bは、本発明の別の実施形態に係る図9のCCフィルタリングユニットを示すブロック図である。 図11Aは、本発明の一実施形態に係る図9のCCグループ化ユニットを示すブロック図である。 図11Bは、本発明の一実施形態に係る図11Aのグループ化ユニットを示すブロック図である。 図12は、本発明の一実施形態に係るテキスト情報抽出方法を示すフローチャートである。 図13は、本発明の一実施形態に係るテキスト情報抽出システムを示すブロック図である。
以下、図面を参照して、本発明の実施形態を詳細に説明する。本明細書に組み込まれ且つその一部を構成する添付の図面は、本発明の実施形態を例示し、説明と共に本発明の原理を説明するのに役立つ。
尚、同様の図中符号及びアルファベットは図中同様の項目を示すため、項目は、1つの図面において規定されれば、後続の図面に対して説明されることを要しない。
また、本発明において、「第1の」及び「第2の」等の用語は、要素又はステップを区別するためだけに使用され、時間順序、存在又は重要性を示すことを意図しない。
図2は、本発明の実施形態を実現できるコンピュータシステム1000のハードウェア構成を示すブロック図である。
図2に示されるように、コンピュータシステムはコンピュータ1110を備える。例えばコンピュータ1110は、デジタルカメラ又はスマートフォンであってよい。コンピュータ1110は、処理ユニット1120と、システムメモリ1130と、取り外し不可能な不揮発性メモリインタフェース1140と、取り外し可能な不揮発性メモリインタフェース1150と、ユーザ入力インタフェース1160と、ネットワークインタフェース1170と、ビデオインタフェース1190と、出力周辺インタフェース1195とを備え、それらはシステムバス1121を介して接続される。
システムメモリ1130は、ROM(読み出し専用メモリ)1131及びRAM(ランダムアクセスメモリ)1132を備える。BIOS(基本入出力システム)1133はROM1131に常駐する。オペレーティングシステム1134、アプリケーションプログラム1135、他のプログラムモジュール1136及びいくつかのプログラムデータ1137は、RAM1132に常駐する。
ハードディスク等の取り外し不可の不揮発性メモリ1141は、取り外し不可の不揮発性メモリインタフェース1140に接続される。取り外し不可の不揮発性メモリ1141は、例えばオペレーティングシステム1144、アプリケーションプログラム1145、他のプログラムモジュール1146及びいくつかのプログラムデータ1147を格納できる。
フラッシュドライブ1151及びCD−ROMドライブ1155等の1つ以上の取り外し可能な不揮発性メモリドライブは、取り外し可能な不揮発性メモリインタフェース1150に接続される。例えば、SDカード等のフラッシュメモリ1152は、フラッシュドライブ1151に挿入可能であり、CD(コンパクトディスク)1156は、CD−ROMドライブ1155に挿入可能である。処理される画像は、不揮発性メモリに格納可能である。
マイク1161及びキーボード1162等の入力装置は、ユーザ入力インタフェース1160に接続される。
コンピュータ1110は、ネットワークインタフェース1170によりリモートコンピュータ1180に接続可能である。例えばネットワークインタフェース1170は、ローカルエリアネットワーク1171を介してリモートコンピュータ1180に接続可能である。あるいは、ネットワークインタフェース1170は、モデム(変調器−復調器)1172に接続可能であり、モデム1172は、ワイドエリアネットワーク1173を介してリモートコンピュータ1180に接続される。
リモートコンピュータ1180は、リモートアプリケーションプログラム1185を格納するハードディスク等のメモリ1181を含めることができる。
ビデオインタフェース1190は、本発明の実施形態に係る1つ以上の処理結果を表示するために使用されてもよいモニタ1191に接続される。
出力周辺インタフェース1195は、プリンタ1196及びスピーカ1197に接続される。
図2に示されたコンピュータシステムは、例示にすぎず、本発明、その適応例又は使用を限定することを全く意図しない。
図2に示されたコンピュータシステムは、スタンドアロンコンピュータ又は装置の処理システムとして、場合によっては1つ以上の不要な構成要素が除去された状態あるいは1つ以上の更なる構成要素が追加された状態で、実施形態のいずれかに対して実現されてもよい。
図3は、本発明の一実施形態に係る画像においてテキスト領域を検出するテキスト検出方法300を示すフローチャートである。本発明に係るテキスト検出方法を使用して処理結果を示す図8A〜図8Fを更に参照して説明する。
一実施形態によると、画像は少なくとも1つの連結成分(CC:Connected Component)を含む。CCは、同様の色又はグレースケール値を含む画素クラスタ(画素群)である。1つのクラスタにおける画素は、空間において4近傍又は8近傍で接続可能である。CCは、例えば色クラスタリング、適応2値化及び形態素処理等により、TBR検出ステップの前に画像から生成されうる。実施形態の1つにおいて、内容が参考として本明細書に取り入れられる「Robust wide baseline stereo from maximally stable extremal regions」、J. Matas、O. Chum、M. Urban及びT. Pajdla、Proc. of British Machine Vision Conference、384〜396ページ、2002年において説明されたMSER方法に基づいて、CCはグレースケール画像から生成されうる。一実施形態において、暗い背景上の明るいテキスト及び明るい背景上の暗いテキストの双方を検出するために、CCの生成は、一方は元の画像用であり且つ他方は倒像用である2つのチャネルに適用可能である。しかし、これは必ずしも要求されない。
一例として、図8A及び図8Bは、それぞれ、グレースケール画像及び画像中の生成されたCCを示す。図8Bにおいて、黒線のボックスの各々はCCを示す。すなわち、黒線のボックスは、CCのバウンディングボックス(CCを含む最小の四角形)である。
ブロック310において、テキスト背景領域(TBR:Text Background Region)検出ステップは、入力画像から少なくとも1つのTBRを検出するために実行される。
一実施形態によると、TBR検出ステップは、画像に含まれたCCに基づいて実行されうる。TBRは、特殊な特性を含むようなCCであってよい。一実施形態によると、TBRは、規則的な境界線及び均一な色又はグレースケールを有する画像中のテキストの周囲領域であってよい。自然シーン画像において、TBRは、通常、看板、ロゴ、タグ、スクロール、ポスター等として存在するが、これらの形態に限定されない。
一実施形態によると、TBRは、画像に含まれたCCから選択されうる。各CCは、それがTBRであるかを判定するためにチェックされうる。特性の3つの態様は、CCの特徴、CC中のメンバCCの統計的特徴、及びCCと他のTBRとの関係の判定において考慮されうる。これらの態様は、TBRの検出のために個々に又はあらゆる組合せで使用されうる。ここで、現在のCC中のメンバCCは、現在のCCの境界内に配置されたCCであり、現在のCCに対して高いコントラストを有する。メンバCCは、現在のCCの反対側のチャネルから抽出されうる。例えば、暗いCCのメンバCCは暗いCCの領域内の明るいCCであってよく、明るいCCのメンバCCは明るいCCの領域内の暗いCCであってよい。
図8Cは、白線のボックスで示される、2つのTBRが検出された画像を示す。
[CCの特徴]
CCは、それがTBRであるかを判定するため、その特徴に基づいてチェックされうる。CCの特徴は、例えば、CCの色又はグレースケールの均一性、CCのサイズ、CCの形状、CCの境界線の規則性、画像中のCCの位置、CCの平均グレースケール値及びCCのグレースケール値分布のうちの少なくとも1つを含みうる。
尚、TBRのサイズは、通常、相対的に大きい。従って、一実施形態によると、全てのCCはサイズによりソート可能であり、TBRは、上位n個の最も大きなCCから選択可能である。
尚、TBRは、通常、画像の余白領域ではなく、画像中の顕著な位置に配置される。従って、別の実施形態によると、余白領域に配置されたCCは、非TBR領域として除外されうる。例えば余白領域は、1/m像幅等の指定された幅又は1/m像高を有する画像の外側ループ領域として規定されうる。
更に別の実施形態によると、TBRが、通常、規則的な境界線を有するため、CCの境界線の規則性は、TBRの判定において考慮されうる。境界線の規則性は、CCの密度(バウンディングボックスにおけるCCの占有率)、境界線率(境界線画素とCC画素の量との比)及び境界線の対称性(4つの四分円における密度差により評価されうる4つの四分円における境界線の類似性)により測定されうる。
更に別の実施形態によると、TBRがフラッシュにより形成されるべきではないため、いくつかの特徴は、TBRをフラッシュから区別するために使用される。尚、フラッシュは、通常、中央において平均よりも非常により高いグレースケール値を含む高い平均グレースケール値を有する。従って、CCの平均グレースケール値及びグレースケール値分布は、TBRをフラッシュから区別するために使用されうる。
[CC中のメンバCCの統計]
CCは、それがTBRであるかを判定するために、CC中のメンバCCの統計に基づいてチェックされうる。ここで、現在のCC中のメンバCCは、現在のCCの境界内に配置されたCCであり、現在のCCに対して高いコントラストを有する。メンバCCの領域は、完全に現在のCCの境界内にある。メンバCCは、現在のCCの反対側のチャネルから抽出されうる。例えば、暗いCCのメンバCCは暗いCCの領域内の明るいCCであってよく、明るいCCのメンバCCは明るいCCの領域内の暗いCCであってよい。
メンバCCの統計は、例えば、CC中のメンバCCの数、メンバCCのシードCCの数、CC中のメンバCCの平均テキスト信頼度及びCC中のメンバCCの総面積とCCの面積との比のうちの少なくとも1つを含みうる。
説明のために、CC中のメンバCCの数は閾値より多いことが好ましい。
メンバCCの間のシードCCの数は、閾値より多いことが好ましい。ここで、シードCCは、テキスト成分である可能性が非常に高いCCを示す。例えばシードCCは、事前定義済みの閾値より高いテキスト信頼度を有するCCであってよい。シードCCを選択するために、特徴の集合は、CCのテキスト信頼度を算出するためにCCから抽出されうる。
一例として、図8Dは、白線のボックスにおけるいくつかのシードCCを示す。
シードCCを選択するために一般的に使用される特徴は、CCのサイズ、CCの幅/高さの比、CCの密度(すなわち、バウンディングボックス内のCC画素の占有率)、CCのストローク幅の統計的特徴及びCCの領域から抽出されたテクスチャ特徴を含みうる。一実施形態において、特徴は、テキスト信頼度を調整する際に規則として使用されうる。別の実施形態において、テキスト分類器は、テキストCC及び非テキストCCの双方を含む訓練集合に基づいて習得されうる。分類器は、CCの特徴を入力として使用し、CCのテキスト信頼度値を出力する。
[CCと他のTBRとの関係]
CCは、それがTBRであるかを判定するために、他のTBRとの関係に基づいてチェックされうる。一実施形態によると、少なくとも1つのCCと他のTBRとの関係に基づいてCCからTBRを選択することは、前に判定されたあらゆるTBRにおけるメンバCCではなく、且つ前に判定されたTBRと同一のメンバCCを有さないCCに応答して、CCをTBRとして判定することを含みうる。換言すると、TBRは、通常、互いに重複しないかあるいは互いを含まない。
一例として、図4は、CCと他のTBRとの関係に基づいてCCがTBRであるかを判定する処理400を示す。
ブロック410において、現在のCCが前に判定されたTBRのメンバCCであるかを判定する。現在のCCは、前に判定されたTBRのメンバCCである場合にはTBRではないものとして識別される。現在のCCが前に判定されたTBRのメンバCCでない場合、処理400はブロック420に進み、現在のCCが前に判定されたTBRと同一のメンバCCを有するかを判定する。現在のCCは、前に判定されたTBRと同一のメンバCCを全く有さない場合にがTBRとして識別される。現在のCCが前に判定されたTBRと同一のメンバCCを有する場合、処理400はブロック430に進み、現在のCC及び前に判定されたTBRのうちのどちらがよりTBRのようであるかを判定する。現在のCCがよりTBRのようである場合、前に判定されたTBRはTBRの集合から除去され(ブロック440)、現在のCCはTBRとして識別される。前に判定されたTBRがよりTBRのようである場合、現在のCCは、TBRではないものとして識別される。
ブロック430においてどちらがよりTBRのようであるかを判定する種々の方法があってよい。例えば、上述の基準、例えば境界線の規則性、CCの密度及びメンバCCの平均テキスト信頼度等のうちの1つ以上が使用されうる。
再度、図3を参照する。画像からTBRが検出されているため、処理300はブロック320に進む。ブロック320において、CCフィルタリングステップは、少なくとも1つのCCをフィルタリングして少なくとも1つの候補となるテキストCCを確保するために実行される。
特に及び好ましくは、CCからTBRを選択した後、残りのCCは、候補となるテキストCC及び非テキストCCを含む非TBR CCである。このステップの後、候補となるテキストCCが確保されるが、非テキストCCは除去される。
一実施形態によると、TBR情報は、CCをフィルタリングするために使用される。TBRの境界内のCC及びあらゆるTBRの境界内にないCCの双方は、同一の規則に基づいてフィルタリングされることが好ましい。例えば、TBRの境界内のCC及びあらゆるTBRの境界内にないCCは、CCのサイズ、CCの形状、CCのバウンディングボックスのアスペクト比、CCとそのバウンディングボックスとの面積比、周長とCCとの面積の比及びCCのテクスチャ特徴のうちの少なくとも1つに基づいてフィルタリングされる。
好ましくは、CCをフィルタリングする場合、CCのサイズは、経験値に基づいて所定の範囲にあるものとして選択されうる。テキストCCのアスペクト比が、通常、高すぎないため、CCのバウンディングボックスのアスペクト比は、所定の閾値より低いものとして選択されうる。CCとそのバウンディングボックスとの面積比は、低すぎるべきではなく、経験値に従って所定の閾値より高いものとして選択されうる。CCの面積比に対する周長は、所定の閾値より短くなりうる。ノイズCCの面積比に対する周長が、通常、相対的に長いため、これはノイズCCを除去するためである。CCから抽出されたウェーブレット、Gabor、LBP等のテクスチャ特徴は、テキスト信頼度を算出するために使用されうるため、CCをフィルタリングする際に組み込まれうる。
尚、テキストは、TBRの外よりTBR内に現れる可能性がより高い。従って、別の実施形態によると、TBR情報は、フィルタリングの効率及び精度を更に向上させるために、CCをフィルタリングする際に使用されうる。
特に、例えばCCフィルタリングステップにおいて、あらゆるTBRの境界内にないCCに対するフィルタリングは、TBRの境界内のCCに対するフィルタリングより厳しくてよい。別の例の場合、あらゆるTBRの境界内にないCCは、TBRの境界内のCCより多くの規則によりフィルタリングされうる。
これは、あらゆるTBRの境界内にないものとして判定されるCCが算出された相対的に低いテキスト信頼度を有する結果、ノイズを被りやすいためである。従って、微フィルタリングは、非テキストCCを除去するために実行されうる。
あらゆるTBRの境界内にないCCは、ストローク幅の統計及び/又はCCの境界線画素数とCCの画素数との比に更に基づいてフィルタリングされうることが好ましい。例えばストローク幅の統計は、ストローク幅の分散と平均ストローク幅との比を含みうる。
図8Dは、フィルタリングの結果を示す。確保されたテキスト候補CCは、黒線又は白線で描画されたバウンディングボックスにより示される。ここで、白線のバウンディングボックスはシードCCを示し、黒線のバウンディングボックスは非シードCCを示す。図8Bと比較して、CCの一部、特にTBRの外側に配置されたCCは除去される。
CCのフィルタリングを実行する例示的な方法を示すために、以下において2つの実施形態を説明する。
図5Aは、本発明の一実施形態に係る図3のCCフィルタリングステップを示すフローチャートである。
図5Aにおいて、非TBR CCの各々に対するテキスト信頼度は、CCがあらゆるTBRの境界内に配置されるかに基づいて算出される。
ブロック510において、各非TBR CCのテキスト信頼度は、TBR情報に基づいて算出される。計算において、CCIRはCCORより重視される。
ブロック520において、CCのテキスト信頼度が事前定義済みの閾値Tより高いかを判定する。テキスト信頼度が閾値より高い場合、CCはテキスト候補CCとして判定される。テキスト信頼度が閾値より低い場合、CCは非テキストCCとして判定される。
本実施形態の特定の一例は、以下の通り提供される。現在のCCのテキスト信頼度は、ベイズの定理により規定されうる。
P(A|B)=P(B|A)P(A)/P(B)
式中、P(A)は事前確率であり、P(B|A)は条件付き確率であり、P(A|B)は事後確率である。
CCのフィルタリングの特定の例を考慮すると、Aは、ある特定のCCのラベル(テキスト又は非テキスト)を示す確率変数である。P(A)は、現在のCCのテキスト存在の事前確率を表す。P(A)はTBRにより判定されうる。CCIRは、CCORより高いP(A)を与えられうる。
P(B|A)は、テキスト存在の条件付き確率である。P(B|A)は、テキスト領域が何に見えるかを説明する。従って、値は、テキスト領域自体から抽出されたテキスト特徴に基づいて算出される。P(B)は、現在のCCの存在確率である。CCが固定される場合、P(B)は一定値である。
P(A|B)は、現在のCCのテキスト信頼度である。P(A|B)は、CC自体のテキスト特徴及びCCに関連したTBR情報の双方による影響を受ける。事前定義済みの閾値より高いP(A|B)値を有するCCは、テキスト候補CCとして確保される。
この例において、CCIRに対するP(A)/P(B)は1として設定可能であり、CCORに対するP(A)/P(B)は、(0,1)の範囲の値として設定可能である。
図5Bは、本発明の別の実施形態に係るCCのフィルタリングを示すフローチャートである。
図5Bにおいて、フィルタリングは、TBR情報に基づいていくつかの段階、例えば2つの段階で非TBR CCに対して実行される。例えば2つの段階は、粗フィルタリング及び微細フィルタリングを含む。全ての非TBR CCは粗フィルタリングにかけられるが、あらゆるTBRの境界外のCCのみが微細フィルタリングにかけられてもよい。単純な特徴は粗フィルタリングの際に使用可能であり、より複雑な特徴は微細フィルタリングの際に使用可能である。従って、あらゆるTBRの境界内にないCCに対するフィルタリングは、TBRの境界内のCCに対するフィルタリングより厳しく行われる。従って、微細フィルタリングにかけられるCCの量は減少し、方法の効率は向上する。
ブロック530において、非TBR CCは、CCIR、すなわちあらゆるTBRの境界内のCCと、CCOR、すなわちあらゆるTBRの境界内にないCCとの2つのグループに分離される。
ブロック540において、粗フィルタリング等の第1のフィルタリングステップは、全ての非TBR CCに対して実行される。特に、非TBR CCの各々は、候補となるテキストCC又は非テキストCCとして判定される。
第1のフィルタリングステップは、CCが候補となるテキストCCであるかを判定するために、非TBR CCの各々の1つ以上の第1の特徴に基づいて実行されうる。第1の特徴は、CCから抽出され、CCのサイズ、CCの形状、CCのバウンディングボックスのアスペクト比、CCの密度(CCとそのバウンディングボックスの面積比)、CCの面積比に対する周長及びCCのテクスチャ特徴を含むがそれらに限定されない相対的に単純な特徴であってよい。一例として、テクスチャ特徴は、ローカルバイナリパターン、エッジ方向ヒストグラム及び勾配のヒストグラムを含みうるが、それらに限定されない。
第1の特徴は、カスケード規則として使用されうるか、あるいは訓練分類器に入力される特徴ベクトルとして組み合わされうる。カスケード規則の閾値又は分類器は、テキストサンプル及び非テキストサンプルの双方から習得されうる。カスケード規則がフィルタリングの際に使用される場合、各入力CCは事前定義済みの規則によりチェック可能であり、規則の少なくとも1つを満たさないCCは除去される。
ブロック550において、微細フィルタリング等の第2のフィルタリングステップは、候補となるテキストCCORが候補となるテキストCCであるかを更に判定するために、候補となるテキストCCOR、すなわち第1のフィルタリングステップにより候補となるテキストCCとして判定されるCCORの各々に対して実行される。CCORが、ブロック540において候補となるテキストCCとして判定されたとしてもノイズを被りやすいため、第2のフィルタリングは非テキストCCを更に除去してよい。
第2のフィルタリングステップにおいて、ブロック540において使用された特徴に対してより厳しい条件が採用されてよく、且つ/あるいはフィルタリングのためにいくつかの他の特徴が使用されてよい。他の特徴は、ストローク幅の統計(例えば、ストローク幅の分散と平均ストローク幅との比)及び/又は境界線画素数とCC画素数との比)を含みうる。
第1のフィルタリングステップと同様に、第2のフィルタリングに対する特徴は、カスケード規則として使用されうるか、あるいは訓練分類器に入力される特徴ベクトルとして組み合わされうる。カスケード規則の閾値又は分類器は、テキストサンプル及び非テキストサンプルの双方から習得されうる。カスケード規則がフィルタリングの際に使用される場合、各入力CCは事前定義済みの規則によりチェック可能であり、規則の少なくとも1つを満たさないCCは除去される。
図5Cは、訓練分類器を使用するCCのフィルタリングを示すフローチャートである。図5Cの方法は、第1のフィルタリングステップ及び第2のフィルタリングステップの双方に適用可能である。図5Cにおいて、テキストサンプル及び非テキストサンプルを含む訓練サンプルは、分類器を訓練するために使用される。CCは、テキスト候補CCを取得するために訓練分類器により分類される。訓練及び分類のために抽出された特徴は、第1のフィルタリング及び第2のフィルタリングに関連して上述した特徴である。本発明の主題を不必要に不明確にすることを回避するために、フローチャートに関する更なる詳細については説明しない。
再度、図3を参照する。候補となるテキストCCを取得した後、処理300はブロック330に進む。ブロック330において、CCグループ化ステップは、TBR検出ステップにおいて検出されたTBRに基づいて少なくとも1つの候補となるテキストCCをグループ化して少なくとも1つのCCグループを形成し、且つ少なくとも1つのCCグループに基づいて少なくとも1つのテキスト領域を生成するために実行される。
CCグループ化ステップ330を実行する例示的なフローチャートを図6に示す。図6に示されるように、CCグループ化ステップ330は、ステップ610〜630を含みうる。
CCグループ化ステップに対する入力は、候補となるテキストCCである。
ステップ610において、候補となるテキストCCは、それぞれのテキスト背景領域に割り当てられる。TBRに割り当て不可能な候補となるテキストCCは、外側領域に割り当てられる。
ステップ610は、図5Bのブロック530に示されるようなステップに類似する。従って、ステップ610についての説明は省略する。尚、ステップ310でTBRが検出されない場合、全てのCCは外側領域にある。候補となるテキストCCを割り当てた後、ステップ620に進む。
ステップ620において、各TBR及び外側領域のCCは、それぞれ、グループ化されてCCグループを形成する。
このステップにおいて、1つの領域のCCは、空間関係及び外観の類似性に基づいてグループ化される。図6のグループ化ステップ620を実行する例示的なフローチャートを図7に示す。
図7に示されるように、グループ化ステップ620は、ステップ6201〜6203を含みうる。
ステップ6201において、各TBR及び外側領域のCCは、暗い領域の明るいCCの集合及び明るい領域の暗いCCの集合に分割される。
ステップ6202において、CCグループは、それぞれ、明るいCCの集合及び暗いCCの集合内に生成される。
好ましい一実施形態によると、CCグループはCCクラスタリングにより生成されうる。CCクラスタリングは、ある特定の方向に従うCCの中心の位置合わせ、CCのサイズの類似性、CCの形状の類似性、CCの色又はグレースケールの類似性、CCのストローク幅の類似性及びCC間の距離の制約のうちの1つ以上を使用する。
別の実施形態によると、CCグループは、最初にハフ変換により生成される。ハフ変換の結果、1つの行上に中心があるCCは共にグループ化される。次に、生成されたCCグループに含まれたCCは、上記の制約を使用してフィルタリングされる。
ステップ6203において、明るいCC及び暗いCCが、それぞれ、ステップ6202でグループ化された後、明るいCCの集合及び暗いCCの集合は、空間関係及び/又は外観の類似性に基づいて組み合わされる。
ステップ6203でCCグループを組み合わせるために一般的に使用される特徴は、例えば、2つのある特定のグループのバウンディングボックスの重複率、サイズの類似性(サイズの差は、2つのグループの高さの最大値より低いことが好ましい)及び行方向の類似性(方向の差は、30度より小さいことが好ましい)を含む。上記の特徴の1つ又はあらゆる組合せが実際に使用されてもよい。
ステップ6203の完了後、各TBR及び外側領域のCCグループがそれぞれ形成されている。図6のステップ630に進む。
ステップ630において、各TBR及び外側領域間の種々の領域からのCCグループは、組み合わされてテキスト領域を生成する。
このステップにおいて、種々の領域からのCCグループは、行方向の整合性、CCの平均サイズの類似性、CCの平均ストローク幅の類似性及びCCの平均的な色又はグレースケールの類似性のうちの少なくとも1つに基づいて組み合わされる。
種々の領域からのCCグループを組み合わせる規則は、1つの領域からのCCグループをグループ化する規則より厳しくてよいことが好ましい。種々の領域からのCCグループが互いに重複しないため、バウンディングボックスの重複率は使用されなくてもよい。
CCグループ化ステップ330は、ステップ630が完了する時に完了する。
図8Eは、CCグループ化ステップ330の結果を示す。候補となるテキストCCは、同一の文字列に属するCCが白線を使用して接続されるテキスト行/単語にグループ化されていることが図8Eからわかるだろう。
テキスト検出方法300は、CCグループ化ステップ330が完了する時に終了する。
図8Fは、テキスト検出方法300の結果を示す。テキスト行/単語のバウンディングボックスに基づくテキスト領域は、入力画像から検出されていることが分かりうる。最後に検出されたテキスト領域は、白線のボックスで示される。
次に、本発明の一実施形態に係る画像においてテキスト領域を検出するテキスト検出装置900のブロック図を示す図9を参照する。装置900は、図3〜図7を参照して説明した方法を実現するために使用されうる。簡潔にするために、図3〜図7を参照して説明したものに類似するいくつかの詳細をここでは省略する。しかし、これらの詳細も装置900に適用可能であってもよいことが理解されるだろう。
図9に示されるような一実施形態によると、テキスト検出装置900は、テキスト背景領域(TBR)検出ユニット910と、CCフィルタリングユニット920と、CCグループ化ユニット930とを備える。
テキスト背景領域(TBR)検出ユニット910は、画像からTBRを検出するように構成されうる。
CCフィルタリングユニット920は、少なくとも1つのCCをフィルタリングして少なくとも1つの候補となるテキストCCを確保するように構成されうる。
CCグループ化ユニット930は、TBR検出ユニットにおいて検出されたTBRに基づいて少なくとも1つの候補となるテキストCCをグループ化して少なくとも1つのCCグループを形成し、且つ少なくとも1つのCCグループに基づいて少なくとも1つのテキスト領域を生成するように構成されうる。
本明細書において、TBRは、画像中のテキストの周囲領域として規定されてよく、規則的な境界線及び均一な色又はグレースケールを有する。
一実施形態によると、TBR検出ユニット910は、少なくとも1つのCCの特徴、少なくとも1つのCCの境界内に配置されたCCであり、少なくとも1つのCCに対して高いコントラストを有する少なくとも1つのCC中のメンバCCの統計、及び少なくとも1つのCCと他のTBRとの間の関係のうちの少なくとも1つに基づいて、少なくとも1つのCCからTBRを選択するように構成されうる。
例えば、少なくとも1つのCCの特徴は、CCの色又はグレースケールの均一性、CCのサイズ、CCの形状、CCの境界線の規則性、画像中のCCの位置、CCの平均グレースケール値及びCCのグレースケール値分布のうちの少なくとも1つを含みうる。
例えば、メンバCCの統計は、CC中のメンバCCの数、第1の事前定義済みの閾値より高いテキスト信頼度を有するメンバCCのシードCCの数、CC中のメンバCCの平均テキスト信頼度及びCC中のメンバCCの総面積とCCの面積との比のうちの少なくとも1つを含みうる。
例えば、少なくとも1つのCCと他のTBRとの間の関係に基づいて少なくとも1つのCCからTBRを選択することは、前に判定されたあらゆるTBRにおけるメンバCCではなく、且つ前に判定されたTBRと同一のメンバCCを有さないCCに応答して、CCをTBRとして判定することを含みうる。これは、TBR検出ユニット910により図4に示されたようなフローチャートを実行することで実現されうる。
一実施形態によると、CCフィルタリングユニット920において、あらゆるTBRの境界内にないCCに対するフィルタリングは、あらゆるTBRの境界内のCCに対するフィルタリングより厳しくてよい。
一実施形態によると、CCフィルタリングユニット920は、以下の条件、すなわちCCのサイズ、CCの形状、CCのバウンディングボックスのアスペクト比、CCとそのバウンディングボックスの面積比、周長とCCの面積との比及びCCのテクスチャ特徴のうちの少なくとも1つに基づいて、あらゆるTBRの境界内のCC及びあらゆるTBRの境界内にないCCをフィルタリングするように構成される。CCフィルタリングユニット920は、更に以下の条件、すなわちストローク幅の統計及びCCの境界線画素数とCCの画素数との比の少なくとも一方に基づいて、あらゆるTBR内にないCCをフィルタリングするように構成される。
図10Aは、本発明の一実施形態に係る図9のCCフィルタリングユニットを示すブロック図である。
図10Aに示されるように、一実施形態によると、CCフィルタリングユニット920は、TBR以外の少なくとも1つのCCの各々のテキスト信頼度を算出するように構成された算出ユニット1010であり、計算において、あらゆるTBRの境界内のCCが他のCCより重視される算出ユニット1010と、事前定義済みの閾値より高いテキスト信頼度を有するCCをテキスト候補CCとして判定するように構成された判定ユニット1020とを備える。
図10Bは、本発明の別の実施形態に係る図9のCCフィルタリングユニットを示すブロック図である。
図10Bに示されるように、別の一実施形態によると、CCフィルタリングユニット920は、TBR以外の少なくとも1つのCC毎に、CCがあらゆるTBRの境界内に配置されることに応答して、CCを第1のCCとして識別するか、あるいはCCを第2のCCとして識別するように構成された識別ユニット1102と、CCがテキスト候補CCであるかを判定するために、第1のCC及び第2のCCの各々に対して第1のフィルタリングステップを実行するように構成された第1のフィルタリングユニット1104と、CCがテキスト候補CCであるかを更に判定するために、第1のフィルタリングステップによりテキスト候補CCとして判定される第2のCCの各々に対して第2のフィルタリングステップを実行するように構成された第2のフィルタリングユニット1106とを備える。
一実施形態によると、第1のフィルタリングユニット1104は、CCがテキスト候補CCであるかを判定するように、CCの1つ以上の第1の特徴に基づいて第1のフィルタリングステップを実行するように更に構成されうる。
一実施形態によると、第2のフィルタリングユニット1106は、CCがテキスト候補CCであるかを更に判定するように、CCの1つ以上の第2の特徴に基づいて第2のフィルタリングステップを実行するように更に構成されうる。
図11Aは、本発明の一実施形態に係る図9のCCグループ化ユニット930を示すブロック図である。
一実施形態によると、CCグループ化ユニット930は、割り当てユニット9301と、グループ化ユニット9302と、第1の組み合わせユニット9303とを更に備えうる。
割り当てユニット9301は、候補となるテキストCCをそれぞれのテキスト背景領域に割り当て、且つTBRに割り当て不可能な候補となるテキストCCを外側領域に割り当てるように構成されうる。
グループ化ユニット9302は、各TBR及び外側領域のCCをそれぞれグループ化してCCグループを形成するように構成されうる。
第1の組み合わせユニット9303は、各TBR及び外側領域間の種々の領域からのCCグループを組み合わせて前記少なくとも1つのテキスト領域を生成するように構成されうる。
一実施形態によると、第1の組み合わせユニット9303は、以下の条件、すなわち行方向の整合性、CCグループのグループバウンディングボックスの重複率、CCの平均サイズの類似性、CCの平均ストローク幅の類似性及びCCの平均的な色又はグレースケールの類似性のうちの少なくとも1つに基づいて、種々の領域からのCCグループを組み合わせるように構成されうる。
図11Bは、本発明の一実施形態に係る図11Aのグループ化ユニット9302を示すブロック図である。
一実施形態によると、グループ化ユニット9302は、分割ユニット9302−1と、生成ユニット9302−2と、第2の組み合わせユニット9302−3とを更に備えうる。
分割ユニット9302−1は、各TBR及び外側領域のCCを暗い領域の明るいCCの集合及び明るい領域の暗いCCの集合に分割するように構成されうる。
生成ユニット9302−2は、それぞれ明るいCCの集合及び暗いCCの集合内にCCグループを生成するように構成されうる。
第2の組み合わせユニット9302−3は、空間関係及び外観の類似性のうちの少なくとも1つに基づいて、明るいCCの集合と暗いCCの集合とを組み合わせるように構成されうる。
一実施形態によると、生成ユニット9302−2において、CCグループはCCクラスタリングにより生成されうる。CCクラスタリングは、以下の制約、すなわちある特定の方向に従うCCの中心の位置合わせ、CCのサイズの類似性、CCの形状の類似性、CCの色又はグレースケールの類似性、CCのストローク幅の類似性及びCC間の距離のうちの少なくとも1つを使用してよい。
一実施形態によると、生成ユニット9302−2は、ハフ変換によりCCグループを生成し、且つ以下の制約、すなわちある特定の方向に従うCCの中心の位置合わせ、CCのサイズの類似性、CCの形状の類似性、CCの色又はグレースケールの類似性、CCのストローク幅の類似性及びCC間の距離のうちの少なくとも1つを使用して生成されたCCグループに含まれたCCをフィルタリングするように更に構成されうる。
一実施形態によると、第1の組み合わせユニット9303において組み合わせることに対する規則は、グループ化ユニット9302においてグループ化することに対する規則より厳しくてよい。
本発明に係るテキスト検出の方法及び装置は、種々の適応例を有する。例えばそれは、カメラが取り込んだ画像又は映像からテキスト情報を自動的に抽出する際に使用されうる。
図12は、本発明の一実施形態に係るテキスト情報抽出方法を示す。
図12に示されるように、ブロック1210において、入力画像又は入力映像からのテキスト領域は、図3〜図7を参照して説明したテキスト検出方法に係るテキスト検出方法を使用して検出される。
ブロック1220において、テキストは、検出されたテキスト領域から抽出されうる。選択的に、ブロック1240において示されるように、入力映像中のテキストは、入力映像からテキスト領域を検出する際に追跡されうる。
ブロック1230において、テキスト認識は、抽出されたテキストに対して実行されてテキスト情報を取得しうる。
次に、本発明の一実施形態に係るテキスト情報抽出システム1300のブロック図を示す図13を参照する。システム1300は、図12を参照して説明した方法を実現するために使用されうる。
図13に示されるように、システム1300は、テキスト検出装置1310と、抽出装置1320と、認識装置1330とを備える。
テキスト検出装置1310は、入力画像又は入力映像からテキスト領域を検出するように構成され、且つ図9に関連して説明した装置910と同一であってよい。
抽出装置1320は、検出されたテキスト領域からテキストを抽出するように構成されうる。
認識装置1330は、抽出されたテキストを認識してテキスト情報を取得するように構成されうる。
選択的に、システム1300は追跡装置1340を更に備えうる。追跡装置1340は、テキスト検出装置1310が入力映像からテキスト領域を検出するように構成される際に入力映像中のテキストを追跡するように構成されうる。
図9〜図11及び図13に関連して上述したユニット及び装置は、種々のステップを実現する例示的なモジュール及び/又は好ましいモジュールであることが理解されるだろう。モジュールは、ハードウェアユニット(例えば、プロセッサ又は特定用途向け集積回路等)及び/又はソフトウェアモジュール(例えば、コンピュータプログラム)であってよい。種々のステップを実現するモジュールは、完全に上述されていない。しかし、ある特定の処理を実行するステップがある場合、同一の処理を実現する対応する機能モジュール又は機能ユニット(ハードウェア及び/又はソフトウェアにより実現された)があってもよい。上述及び後述のステップとこれらのステップに対応するユニットとの全ての組合せが構成する技術的解決法が完全で且つ適用可能である限り、それらによる技術的解決方法は本発明の開示内容に含まれる。
また、種々のユニットにより構成された上述の装置及びシステムは、機能モジュールとしてコンピュータ等のハードウェアデバイスに組み込まれうる。当然、コンピュータは、これらの機能モジュールに加えて、他のハードウェアコンポーネント又はソフトウェアコンポーネントを有する。
本発明の方法、装置及びシステムは、多くの方法で実行可能である。例えば、本発明の方法及び装置は、ソフトウェア、ハードウェア、ファームウェア又はそれらのあらゆる組合せにより実行可能である。方法のステップの上述の順序は例示することのみを意図し、特に指示のない限り、本発明の方法のステップは特に上述された順序に限定されない。それに加えて、いくつかの実施形態において、本発明は、本発明に係る方法を実現する機械可読命令を含む記録媒体に記録されたプログラムとしても実施されてもよい。従って、本発明は、本発明に係る方法を実現するプログラムを格納する記録媒体も範囲に含む。
例を用いて本発明のいくつかの特定の実施形態を詳細に実証したが、上述の例は、本発明の範囲を限定することではなく、例示することのみを意図することが当業者により理解されるべきである。上述の実施形態は、本発明の範囲及び趣旨から逸脱することなく変更可能であることが当業者により理解されるべきである。本発明の範囲は、添付の特許請求の範囲により規定される。

Claims (23)

  1. 少なくとも1つの連結成分含む画像においてテキスト領域を検出するテキスト検出方法であって、
    前記画像からテキスト背景領域検出する工程と、
    前記少なくとも1つの連結成分をフィルタリングしてキスト候補となる連結成分残すフィルタリング工程と、
    前記工程において検出された前記テキスト背景領域に基づいて前記テキスト候補となる連結成分をグループ化して少なくとも1つの連結成分グループを形成し、且つ前記少なくとも1つの連結成分グループに基づいて少なくとも1つのテキスト領域を生成するループ化工程と、
    を備え
    前記フィルタリング工程において、前記テキスト背景領域の境界内にない連結成分に対するフィルタリングは、前記テキスト背景領域の境界内の連結成分に対するフィルタリングより厳しいことを特徴とするテキスト検出方法。
  2. 前記テキスト背景領域は前記画像中のテキストの周囲領域であって、規則的な境界線、及び、均一な色又はグレースケールを有することを特徴とする請求項1に記載の方法。
  3. 前記工程は、
    前記少なくとも1つの連結成分の特徴、
    前記少なくとも1つの連結成分の境界内に配置された連結成分であり、前記少なくとも1つの連結成分に対して高いコントラストを有する前記少なくとも1つの連結成分中のメンバ連結成分の統計、及び
    前記少なくとも1つの連結成分と他のテキスト背景領域との間の関係、
    のうちの少なくとも1つに基づいて前記少なくとも1つの連結成分から前記テキスト背景領域を選択する選択工程を含むことを特徴とする請求項1又は2記載の方法。
  4. 前記少なくとも1つの連結成分の前記特徴は、
    前記連結成分の色又はグレースケールの均一性、
    前記連結成分のサイズ、
    前記連結成分の形状、
    前記連結成分の境界線の規則性、
    前記画像中の前記連結成分の位置、
    前記連結成分の平均グレースケール値、及び
    前記連結成分のグレースケール値分布
    のうちの少なくとも1つを含むことを特徴とする請求項3に記載の方法。
  5. 前記メンバ連結成分の前記統計は、
    前記連結成分中の前記メンバ連結成分の数、
    第1の事前定義済みの閾値より高いテキスト信頼度を有する前記メンバ連結成分のシード連結成分の数、
    前記連結成分中の前記メンバ連結成分の平均テキスト信頼度、及び
    前記連結成分中の前記メンバ連結成分の総面積と前記連結成分の面積との比
    のうちの少なくとも1つを含むことを特徴とする請求項3に記載の方法。
  6. 前記少なくとも1つの連結成分と他のテキスト背景領域との間の前記関係に基づいて前記少なくとも1つの連結成分から前記テキスト背景領域を選択する選択工程は、
    前に判定されたあらゆるテキスト背景領域におけるメンバ連結成分ではなく、且つ前記前に判定されたテキスト背景領域と同一のメンバ連結成分を有さない前記連結成分に応答して連結成分テキスト背景領域として判定する判定工程を含むことを特徴とする請求項3に記載の方法。
  7. 前記ィルタリング工程において、あらゆるテキスト背景領域の境界内の連結成分及びあらゆるテキスト背景領域の境界内にない連結成分は、
    前記連結成分のサイズ、
    前記連結成分の形状、
    前記連結成分のバウンディングボックスのアスペクト比、
    前記連結成分とそのバウンディングボックスの面積比、
    周長と前記連結成分の面積との比、及び
    前記連結成分のテクスチャ特徴、
    のうちの少なくとも1つに基づいてフィルタリングされることを特徴とする請求項1に記載の方法。
  8. あらゆるテキスト背景領域内にない前記連結成分は、
    ストローク幅の統計、及び
    境界線画素数と連結成分画素数との比、
    のうちの少なくとも1つに更に基づいてフィルタリングされることを特徴とする請求項に記載の方法。
  9. 少なくとも1つの連結成分を含む画像においてテキスト領域を検出するテキスト検出方法であって、
    前記画像からテキスト背景領域を検出する検出工程と、
    前記少なくとも1つの連結成分をフィルタリングしてテキスト候補となる連結成分を残すフィルタリング工程と、
    前記検出工程において検出された前記テキスト背景領域に基づいて、前記テキスト候補となる連結成分をグループ化して少なくとも1つの連結成分グループを形成し、且つ前記少なくとも1つの連結成分グループに基づいて少なくとも1つのテキスト領域を生成するグループ化工程と、
    を備え、
    前記ループ化工程は、
    a)前記候補となるテキスト連結成分をそれぞれのテキスト背景領域に割り当てること、及びテキスト背景領域に割り当て不可能な前記候補となるテキスト連結成分を外側領域に割り当てる工程と、
    b)各テキスト背景領域及び前記外側領域の連結成分をそれぞれグループ化して連結成分グループを形成する工程と、
    c)各テキスト背景領域及び前記外側領域間の種々の領域からの連結成分グループを組み合わせて前記少なくとも1つのテキスト領域を生成する工程
    を更に含むことを特徴とするテキスト検出方法。
  10. 前記工程b)は、
    b1)各テキスト背景領域及び前記外側領域の連結成分を暗い領域の明るい連結成分の集合及び明るい領域の暗い連結成分の集合に分割する工程と、
    b2)それぞれ前記明るい連結成分の集合及び前記暗い連結成分の集合内に連結成分グループを生成する工程と、
    b3)空間関係及び外観の類似性のうちの少なくとも1つに基づいて、前記明るい連結成分の集合と前記暗い連結成分の集合とを組み合わせる工程
    を更に含むことを特徴とする請求項に記載の方法。
  11. 前記工程c)において、
    行方向の整合性、
    前記連結成分の平均サイズの類似性、
    前記連結成分の平均ストローク幅の類似性、及び
    前記連結成分の平均的な色又はグレースケールの類似性、
    のうちの少なくとも1つに基づいて種々の領域からの連結成分グループを組み合わせることを特徴とする請求項に記載の方法。
  12. 前記工程b2)において、前記連結成分グループは連結成分クラスタリングにより生成され、
    当該連結成分クラスタリングは、以下の制約、
    ある特定の方向に従う連結成分の中心の位置合わせ、
    連結成分のサイズの類似性、
    連結成分の形状の類似性、
    連結成分の色又はグレースケールの類似性、
    連結成分のストローク幅の類似性、及び
    連結成分間の距離
    のうちの少なくとも1つを使用することを特徴とする請求項10に記載の方法。
  13. 前記工程b2)は、
    ハフ変換により連結成分グループを生成する工程と、
    以下の制約の少なくとも1つを用いて、生成された連結成分グループに含まれる連結成分をフィルタリングする工程とを更に有する
    前記制約は、
    ある特定の方向に従う連結成分の中心の位置合わせ、
    連結成分のサイズの類似性、
    連結成分の形状の類似性、
    連結成分の色又はグレースケールの類似性、
    連結成分のストローク幅の類似性、及び
    連結成分間の距離
    である、
    ことを特徴とする請求項10に記載の方法。
  14. 前記工程c)において前記組み合わせることに対する規則は、前記工程b)において前記グループ化することに対する規則より厳しいことを特徴とする請求項に記載の方法。
  15. 前記ィルタリング工程は、
    前記テキスト背景領域以外の前記少なくとも1つの連結成分の各々のテキスト信頼度を算出する工程と、
    ここで前記計算において、あらゆるテキスト背景領域の前記境界内の連結成分は他の連結成分より重視される、
    第2の事前定義済みの閾値より高いテキスト信頼度を有する連結成分を前記テキスト候補連結成分として判定する工程
    を含むことを特徴とする請求項1に記載の方法。
  16. 前記ィルタリング工程は、
    前記テキスト背景領域以外の前記少なくとも1つの連結成分毎に、前記連結成分があらゆるテキスト背景領域の前記境界内に配置されることに応答して、前記連結成分を第1の連結成分として識別するか、あるいは前記連結成分を第2の連結成分として識別する工程と、
    前記連結成分が前記テキスト候補連結成分であるかを判定するために、前記第1の連結成分及び前記第2の連結成分の各々に対して第1のフィルタリング工程を実行する工程と、
    前記第2の連結成分が前記テキスト候補連結成分であるかを更に判定するために、前記第1のフィルタリング工程により前記テキスト候補連結成分として判定される前記第2の連結成分の各々に対して第2のフィルタリング工程を実行する工程
    を含むことを特徴とする請求項1に記載の方法。
  17. 前記第1の連結成分及び前記第2の連結成分の各々に対して前記第1のフィルタリング工程を実行する工程は、
    前記連結成分が前記テキスト候補連結成分であるかを判定するために、前記連結成分の1つ以上の第1の特徴に基づいて前記第1のフィルタリング工程を実行する工程を含むことを特徴とする請求項16に記載の方法。
  18. 前記第1のフィルタリング工程により前記テキスト候補連結成分として判定される前記第2の連結成分の各々に対して前記第2のフィルタリング工程を実行する工程は、
    前記第2の連結成分が前記テキスト候補連結成分であるかを更に判定するために、前記第2の連結成分の1つ以上の第2の特徴に基づいて前記第2のフィルタリング工程を実行する工程を含むことを特徴とする請求項16に記載の方法。
  19. 前記テクスチャ特徴は、
    ローカルバイナリパターン、
    エッジ方向ヒストグラム、及び
    勾配のヒストグラム
    のうちの少なくとも1つを含むことを特徴とする請求項に記載の方法。
  20. 前記第1のフィルタリング工程において、前記第1の特徴は、カスケード規則として使用されるか、あるいは訓練分類器に入力される特徴ベクトルとして組み合わされることを特徴とする請求項17に記載の方法。
  21. 前記第2のフィルタリング工程において、前記第2の特徴は、カスケード規則として使用されるか、あるいは訓練分類器に入力される特徴ベクトルとして組み合わされることを特徴とする請求項18に記載の方法。
  22. 少なくとも1つの連結成分含む画像においてテキスト領域を検出するテキスト検出装置であって、
    前記画像からテキスト背景領域検出する手段と、
    前記少なくとも1つの連結成分をフィルタリングしてキスト候補となる連結成分残すフィルタリング手段と、
    前記手段において検出された前記テキスト背景領域に基づいて前記テキスト候補となる連結成分をグループ化して少なくとも1つの連結成分グループを形成し、且つ前記少なくとも1つの連結成分グループに基づいて少なくとも1つのテキスト領域を生成するループ化手段と、
    を備え
    前記フィルタリング手段において、前記テキスト背景領域の境界内にない連結成分に対するフィルタリングは、前記テキスト背景領域の境界内の連結成分に対するフィルタリングより厳しいことを特徴とするテキスト検出装置。
  23. 少なくとも1つの連結成分を含む画像においてテキスト領域を検出するテキスト検出装置であって、
    前記画像からテキスト背景領域を検出する検出手段と、
    前記少なくとも1つの連結成分をフィルタリングしてテキスト候補となる連結成分を残すフィルタリング手段と、
    前記検出手段において検出された前記テキスト背景領域に基づいて、前記テキスト候補となる連結成分をグループ化して少なくとも1つの連結成分グループを形成し、且つ前記少なくとも1つの連結成分グループに基づいて少なくとも1つのテキスト領域を生成するグループ化手段と、
    を備え、
    前記グループ化手段は、
    a)前記候補となるテキスト連結成分をそれぞれのテキスト背景領域に割り当てること、及びテキスト背景領域に割り当て不可能な前記候補となるテキスト連結成分を外側領域に割り当てる手段と、
    b)各テキスト背景領域及び前記外側領域の連結成分をそれぞれグループ化して連結成分グループを形成する手段と、
    c)各テキスト背景領域及び前記外側領域間の種々の領域からの連結成分グループを組み合わせて前記少なくとも1つのテキスト領域を生成する手段と
    を更に含むことを特徴とするテキスト検出装置。
JP2014103652A 2013-05-24 2014-05-19 テキスト検出の方法及び装置 Active JP5796107B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201310196315.3A CN104182744B (zh) 2013-05-24 2013-05-24 文本检测方法和装置以及文本信息提取方法和系统
CN201310196300.7 2013-05-24
CN201310196300.7A CN104182722B (zh) 2013-05-24 2013-05-24 文本检测方法和装置以及文本信息提取方法和系统
CN201310196315.3 2013-05-24

Publications (2)

Publication Number Publication Date
JP2014229314A JP2014229314A (ja) 2014-12-08
JP5796107B2 true JP5796107B2 (ja) 2015-10-21

Family

ID=52129031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014103652A Active JP5796107B2 (ja) 2013-05-24 2014-05-19 テキスト検出の方法及び装置

Country Status (1)

Country Link
JP (1) JP5796107B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9524430B1 (en) * 2016-02-03 2016-12-20 Stradvision Korea, Inc. Method for detecting texts included in an image and apparatus using the same
CN107545261A (zh) * 2016-06-23 2018-01-05 佳能株式会社 文本检测的方法及装置
CN106874905B (zh) * 2017-01-12 2019-06-11 中南大学 一种基于自学习色彩聚类的自然场景文本检测的方法
CN109711406A (zh) * 2018-12-25 2019-05-03 中南大学 一种基于多尺度旋转锚点机制的多方向图像文本检测方法
CN110555839B (zh) * 2019-09-06 2024-11-15 腾讯云计算(北京)有限责任公司 缺陷检测识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
JP2014229314A (ja) 2014-12-08

Similar Documents

Publication Publication Date Title
CN102144236B (zh) 用于图像和视频ocr的文本定位
Chen et al. Robust text detection in natural images with edge-enhanced maximally stable extremal regions
Shivakumara et al. A laplacian approach to multi-oriented text detection in video
CN105701519B (zh) 基于超像素的图像的实际货架图景象分析
Ryan et al. An examination of character recognition on ID card using template matching approach
Anthimopoulos et al. Detection of artificial and scene text in images and video frames
US20150010233A1 (en) Method Of Improving Contrast For Text Extraction And Recognition Applications
Shivakumara et al. Detection of curved text in video: Quad tree based method
JP5796107B2 (ja) テキスト検出の方法及び装置
CN104182722A (zh) 文本检测方法和装置以及文本信息提取方法和系统
Shivakumara et al. Gradient-angular-features for word-wise video script identification
Faustina Joan et al. A survey on text information extraction from born-digital and scene text images
Shekar et al. Discrete wavelet transform and gradient difference based approach for text localization in videos
Akbani et al. Character recognition in natural scene images
Fraz et al. Exploiting colour information for better scene text detection and recognition
CN104182744A (zh) 文本检测方法和装置以及文本信息提取方法和系统
Liu et al. Detection and segmentation text from natural scene images based on graph model
Qin et al. Video scene text frames categorization for text detection and recognition
Phan et al. Text detection in natural scenes using gradient vector flow-guided symmetry
CN111462035B (zh) 一种图片检测方法及装置
Sanketi et al. Localizing blurry and low-resolution text in natural images
Hurtik et al. Automatic license plate recognition in difficult conditions—Technical report
Mukarambi et al. Script identification from camera based Tri-Lingual document
Vu et al. Automatic extraction of text regions from document images by multilevel thresholding and k-means clustering
Hesham et al. A zone classification approach for arabic documents using hybrid features

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150717

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150817

R151 Written notification of patent or utility model registration

Ref document number: 5796107

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151