JP5796107B2

JP5796107B2 - テキスト検出の方法及び装置

Info

Publication number: JP5796107B2
Application number: JP2014103652A
Authority: JP
Inventors: ウェンフォアマー; ルオツァオハイ
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-05-24
Filing date: 2014-05-19
Publication date: 2015-10-21
Anticipated expiration: 2034-05-19
Also published as: JP2014229314A

Description

本発明は、テキスト検出に関し、特に、テキスト検出の方法及び装置、並びにテキスト情報抽出の方法及びシステムに関する。

画像、特に自然画像においてテキストを検出することは、視覚障碍者及び外国人のためのコンピュータ化支援、画像及び映像の自動検索、並びに都市環境でのロボットナビゲーション等の多数の画像認識の適応例にとって極めて重要である。

それにもかかわらず、自然シーンでのテキスト検出は難しい問題である。印刷されたページ、ファックス及び名刺の走査とは対照的に、主な課題は、フォント、サイズ、スキュー角、斜体及び傾斜による歪み等のテキストの多様性にある。不均一な照明及び反射、劣悪な照明条件、並びに複雑な背景等の環境要因により、より複雑化している。

関連文献において、自然シーンにおいてテキスト領域を検出するテキスト検出方法は、通常、図１に示されたフローチャートに従う。図１の方法１００はブロック１１０から開始し、画像から成分を生成する。ここで、成分は、同様の色又はグレースケール、あるいはストローク幅を有する画素グループである連結成分（ＣＣ）等であってもよい。

次にブロック１２０において、種々の特徴が各成分から抽出され、その特徴に基づいて非テキスト成分がフィルタリングされる結果、候補となるテキスト成分が確保される。

次にブロック１３０において、確保された候補となるテキスト成分は、テキスト行又は単語を定型化するために共にグループ化され、テキスト行又は単語のバウンディングボックス（テキストを含む矩形等の最小多角形）としてテキスト領域を出力する。

従来技術の一般的な問題は、従来技術が、エッジ、隅、ストローク、色及びテクスチャ等のテキスト領域の特徴のみによってテキストを検出しようとすることである。しかし、殆どの場合に有用となりうるテキスト周囲のコンテキスト情報は無視される。その結果、従来技術では、複雑な非テキスト領域による誤検出及び自然シーン中のテキストの広範囲の多様性による非検出が発生する。従って、テキスト領域の特徴によってのみ、直接テキストを検出しようとする際には厳しいトレードオフがある。

従って、テキスト領域の周囲の背景情報を利用する画像でのテキスト検出のために改善された方法が必要である。

ＹａｓｕｈｉｒｏＫｕｎｉｓｈｉｇｅ、ＦｅｎｇＹａｏｋａｉ、ＳｅｉｉｃｈｉＵｃｈｉｄａ、ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｏｃｕｍｅｎｔＡｎａｌｙｓｉｓａｎｄＲｅｃｏｇｎｉｔｉｏｎ（ＩＣＤＡＲ）により出版された文献「Ｓｃｅｎｅｒｙｃｈａｒａｃｔｅｒｄｅｔｅｃｔｉｏｎｗｉｔｈｅｎｖｉｒｏｎｍｅｎｔａｌｃｏｎｔｅｘ」、１０４９〜１０５３ページ、２０１１年において、コンテキスト情報の概念を使用するテキスト検出方法が提案される。特に、文献は、対象成分の周囲に１０画素の余白を追加することで形成される対象成分の拡張領域からコンテキスト特徴を抽出する。更に方法は、６個のシーン成分カテゴリ、すなわち「空」、「緑」、「看板」、「地面」、「建物」及び「その他」のうちの１つに成分を分類する。この方法の１つの問題は、「空」、「緑」等の一般的なカテゴリがテキスト検出には不適切であり、且つ「看板」が例えばロゴ、タグ、スクロール、ポスター等の全ての種類のテキスト背景領域を範囲に含まないことである。この方法の別の問題は、コンテキスト情報が、シーンの変動に適応できない固定のサイズの余白領域から抽出されることである。更に別の問題は、情報がＣＣのグループ化において有益である一方で、この方法が空間におけるＣＣの関係、例えばどのＣＣがある看板に属しているかを取得できないことである。

従って、上述の問題の少なくとも１つに対処する必要がある。

本発明者は、自然シーン中の殆どのテキストは、容易に認識されるように、テキストに対して高いコントラストを有する相対的に同様の背景領域上に印刷されていることに着目した。これは、テキスト検出にとって有用だろう。

それにより、新規のテキスト検出の方法及び装置は、画像、特に自然シーン画像でのテキスト検出の性能を向上させるために本発明において提案される。テキストを取り囲むこの一般的な背景領域を規定するために、新しい概念であるテキスト背景領域（ＴＢＲ）が本発明に導入される。自然シーン画像において、ＴＢＲは、通常、看板、ロゴ、タグ、スクロール及びポスター等として存在するが、これらの形態に限定されない。テキスト領域を直接見つけるのではなく、最初にＴＢＲを見つけて、ＴＢＲ内の成分及び全てのＴＢＲの外、すなわち外側領域（ＯＲ）の成分として成分を分類することにより、テキストを探索する。テキストは、ＴＢＲの外よりＴＢＲ内に現れる可能性がより高いと仮定される。また、１つのテキスト行／単語は、２つの領域（２つのＴＢＲ又はＴＢＲ及びＯＲ）を交差することはめったにない。その仮定に基づいて、ＴＢＲ情報は、連結成分のフィルタリング及び／又は連結成分のグループ化において使用されうる。

本発明の第１の態様によると、少なくとも１つの連結成分（ＣＣ）を含む画像においてテキスト領域を検出する方法が提供される。方法は、画像から少なくとも１つのテキスト背景領域（ＴＢＲ）を検出するＴＢＲ検出ステップと、少なくとも１つのＣＣをフィルタリングして少なくとも１つの候補となるテキストＣＣを確保するＣＣフィルタリングステップと、ＴＢＲ検出ステップにおいて検出されたＴＢＲに基づいて少なくとも１つの候補となるテキストＣＣをグループ化して少なくとも１つのＣＣグループを形成し、且つ少なくとも１つのＣＣグループに基づいて少なくとも１つのテキスト領域を生成するＣＣグループ化ステップとを備える。

本発明の第２の態様によると、少なくとも１つの連結成分（ＣＣ）を含む画像においてテキスト領域を検出するテキスト検出装置が提供される。装置は、画像からテキスト背景領域（ＴＢＲ）を検出するように構成されたＴＢＲ検出ユニットと、少なくとも１つのＣＣをフィルタリングして少なくとも１つの候補となるテキストＣＣを確保するように構成されたＣＣフィルタリングユニットと、ＴＢＲ検出ユニットにおいて検出されたＴＢＲに基づいて少なくとも１つの候補となるテキストＣＣをグループ化して少なくとも１つのＣＣグループを形成し、且つ少なくとも１つのＣＣグループに基づいて少なくとも１つのテキスト領域を生成するように構成されたＣＣグループ化ユニットとを備える。

本発明の第３の態様によると、テキスト情報抽出方法が提供される。方法は、本発明の第１の態様に係るテキスト検出方法を使用して入力画像又は入力映像からテキスト領域を検出するステップと、検出されたテキスト領域からテキストを抽出するステップと、抽出されたテキストを認識してテキスト情報を取得するステップとを備える。

本発明の第４の態様によると、テキスト情報抽出システムが提供される。システムは、入力画像又は入力映像からテキスト領域を検出するように構成された本発明の第２の態様に係るテキスト検出装置と、検出されたテキスト領域からテキストを抽出するように構成された抽出装置と、抽出されたテキストを認識してテキスト情報を取得するように構成された認識装置とを備える。

これらの特徴を利用することにより、本発明に係る方法、装置及びシステムは、画像中のテキストの場所を迅速に且つ／あるいは高精度に示すことができ、その結果、テキスト検出の性能が向上する。

図面を参照して、以下の説明から本発明の更なる特徴及び利点が明らかになるだろう。

本明細書に組み込まれ且つその一部を構成する添付の図面は、本発明の実施形態を例示し、説明と共に本発明の原理を説明するのに役立つ。
図１は、画像においてテキスト領域を検出する従来技術の方法を示すフローチャートである。図２は、本発明の実施形態を実現できるコンピュータシステムの例示的なハードウェア構成を示すブロック図である。図３は、本発明の一実施形態に係る画像においてテキスト領域を検出するテキスト検出方法を示すフローチャートである。図４は、本発明の一実施形態に係るＣＣと他のＴＢＲとの関係に基づいてＣＣがＴＢＲであるかを判定する例示的な処理を示す図である。図５Ａは、本発明の一実施形態に係る図３のＣＣフィルタリングステップを示すフローチャートである。図５Ｂは、本発明の別の実施形態に係る図３のＣＣフィルタリングステップを示すフローチャートである。図５Ｃは、本発明の一実施形態に係る訓練分類器を使用する図３のＣＣフィルタリングステップにおける例示的な処理を示す図である。図６は、図３のＣＣグループ化ステップを実行することを示す例示的なフローチャートである。図７は、図６のグループ化ステップを実行することを示す例示的なフローチャートである。、、、、、図８Ａ〜図８Ｆは、本発明に係るテキスト検出方法を使用してそれぞれの処理結果を示す例示的な画像を示す図である。図９は、本発明の一実施形態に係る画像においてテキスト領域を検出するテキスト検出装置を示すブロック図である。図１０Ａは、本発明の一実施形態に係る図９のＣＣフィルタリングユニットを示すブロック図である。図１０Ｂは、本発明の別の実施形態に係る図９のＣＣフィルタリングユニットを示すブロック図である。図１１Ａは、本発明の一実施形態に係る図９のＣＣグループ化ユニットを示すブロック図である。図１１Ｂは、本発明の一実施形態に係る図１１Ａのグループ化ユニットを示すブロック図である。図１２は、本発明の一実施形態に係るテキスト情報抽出方法を示すフローチャートである。図１３は、本発明の一実施形態に係るテキスト情報抽出システムを示すブロック図である。

以下、図面を参照して、本発明の実施形態を詳細に説明する。本明細書に組み込まれ且つその一部を構成する添付の図面は、本発明の実施形態を例示し、説明と共に本発明の原理を説明するのに役立つ。

尚、同様の図中符号及びアルファベットは図中同様の項目を示すため、項目は、１つの図面において規定されれば、後続の図面に対して説明されることを要しない。

また、本発明において、「第１の」及び「第２の」等の用語は、要素又はステップを区別するためだけに使用され、時間順序、存在又は重要性を示すことを意図しない。

図２は、本発明の実施形態を実現できるコンピュータシステム１０００のハードウェア構成を示すブロック図である。

図２に示されるように、コンピュータシステムはコンピュータ１１１０を備える。例えばコンピュータ１１１０は、デジタルカメラ又はスマートフォンであってよい。コンピュータ１１１０は、処理ユニット１１２０と、システムメモリ１１３０と、取り外し不可能な不揮発性メモリインタフェース１１４０と、取り外し可能な不揮発性メモリインタフェース１１５０と、ユーザ入力インタフェース１１６０と、ネットワークインタフェース１１７０と、ビデオインタフェース１１９０と、出力周辺インタフェース１１９５とを備え、それらはシステムバス１１２１を介して接続される。

システムメモリ１１３０は、ＲＯＭ（読み出し専用メモリ）１１３１及びＲＡＭ（ランダムアクセスメモリ）１１３２を備える。ＢＩＯＳ（基本入出力システム）１１３３はＲＯＭ１１３１に常駐する。オペレーティングシステム１１３４、アプリケーションプログラム１１３５、他のプログラムモジュール１１３６及びいくつかのプログラムデータ１１３７は、ＲＡＭ１１３２に常駐する。

ハードディスク等の取り外し不可の不揮発性メモリ１１４１は、取り外し不可の不揮発性メモリインタフェース１１４０に接続される。取り外し不可の不揮発性メモリ１１４１は、例えばオペレーティングシステム１１４４、アプリケーションプログラム１１４５、他のプログラムモジュール１１４６及びいくつかのプログラムデータ１１４７を格納できる。

フラッシュドライブ１１５１及びＣＤ−ＲＯＭドライブ１１５５等の１つ以上の取り外し可能な不揮発性メモリドライブは、取り外し可能な不揮発性メモリインタフェース１１５０に接続される。例えば、ＳＤカード等のフラッシュメモリ１１５２は、フラッシュドライブ１１５１に挿入可能であり、ＣＤ（コンパクトディスク）１１５６は、ＣＤ−ＲＯＭドライブ１１５５に挿入可能である。処理される画像は、不揮発性メモリに格納可能である。

マイク１１６１及びキーボード１１６２等の入力装置は、ユーザ入力インタフェース１１６０に接続される。

コンピュータ１１１０は、ネットワークインタフェース１１７０によりリモートコンピュータ１１８０に接続可能である。例えばネットワークインタフェース１１７０は、ローカルエリアネットワーク１１７１を介してリモートコンピュータ１１８０に接続可能である。あるいは、ネットワークインタフェース１１７０は、モデム（変調器−復調器）１１７２に接続可能であり、モデム１１７２は、ワイドエリアネットワーク１１７３を介してリモートコンピュータ１１８０に接続される。

リモートコンピュータ１１８０は、リモートアプリケーションプログラム１１８５を格納するハードディスク等のメモリ１１８１を含めることができる。

ビデオインタフェース１１９０は、本発明の実施形態に係る１つ以上の処理結果を表示するために使用されてもよいモニタ１１９１に接続される。

出力周辺インタフェース１１９５は、プリンタ１１９６及びスピーカ１１９７に接続される。

図２に示されたコンピュータシステムは、例示にすぎず、本発明、その適応例又は使用を限定することを全く意図しない。

図２に示されたコンピュータシステムは、スタンドアロンコンピュータ又は装置の処理システムとして、場合によっては１つ以上の不要な構成要素が除去された状態あるいは１つ以上の更なる構成要素が追加された状態で、実施形態のいずれかに対して実現されてもよい。

図３は、本発明の一実施形態に係る画像においてテキスト領域を検出するテキスト検出方法３００を示すフローチャートである。本発明に係るテキスト検出方法を使用して処理結果を示す図８Ａ〜図８Ｆを更に参照して説明する。

一実施形態によると、画像は少なくとも１つの連結成分（ＣＣ：Connected Component）を含む。ＣＣは、同様の色又はグレースケール値を含む画素クラスタ（画素群）である。１つのクラスタにおける画素は、空間において４近傍又は８近傍で接続可能である。ＣＣは、例えば色クラスタリング、適応２値化及び形態素処理等により、ＴＢＲ検出ステップの前に画像から生成されうる。実施形態の１つにおいて、内容が参考として本明細書に取り入れられる「Ｒｏｂｕｓｔｗｉｄｅｂａｓｅｌｉｎｅｓｔｅｒｅｏｆｒｏｍｍａｘｉｍａｌｌｙｓｔａｂｌｅｅｘｔｒｅｍａｌｒｅｇｉｏｎｓ」、Ｊ．Ｍａｔａｓ、Ｏ．Ｃｈｕｍ、Ｍ．Ｕｒｂａｎ及びＴ．Ｐａｊｄｌａ、Ｐｒｏｃ．ｏｆＢｒｉｔｉｓｈＭａｃｈｉｎｅＶｉｓｉｏｎＣｏｎｆｅｒｅｎｃｅ、３８４〜３９６ページ、２００２年において説明されたＭＳＥＲ方法に基づいて、ＣＣはグレースケール画像から生成されうる。一実施形態において、暗い背景上の明るいテキスト及び明るい背景上の暗いテキストの双方を検出するために、ＣＣの生成は、一方は元の画像用であり且つ他方は倒像用である２つのチャネルに適用可能である。しかし、これは必ずしも要求されない。

一例として、図８Ａ及び図８Ｂは、それぞれ、グレースケール画像及び画像中の生成されたＣＣを示す。図８Ｂにおいて、黒線のボックスの各々はＣＣを示す。すなわち、黒線のボックスは、ＣＣのバウンディングボックス（ＣＣを含む最小の四角形）である。

ブロック３１０において、テキスト背景領域（ＴＢＲ:Text Background Region）検出ステップは、入力画像から少なくとも１つのＴＢＲを検出するために実行される。

一実施形態によると、ＴＢＲ検出ステップは、画像に含まれたＣＣに基づいて実行されうる。ＴＢＲは、特殊な特性を含むようなＣＣであってよい。一実施形態によると、ＴＢＲは、規則的な境界線及び均一な色又はグレースケールを有する画像中のテキストの周囲領域であってよい。自然シーン画像において、ＴＢＲは、通常、看板、ロゴ、タグ、スクロール、ポスター等として存在するが、これらの形態に限定されない。

一実施形態によると、ＴＢＲは、画像に含まれたＣＣから選択されうる。各ＣＣは、それがＴＢＲであるかを判定するためにチェックされうる。特性の３つの態様は、ＣＣの特徴、ＣＣ中のメンバＣＣの統計的特徴、及びＣＣと他のＴＢＲとの関係の判定において考慮されうる。これらの態様は、ＴＢＲの検出のために個々に又はあらゆる組合せで使用されうる。ここで、現在のＣＣ中のメンバＣＣは、現在のＣＣの境界内に配置されたＣＣであり、現在のＣＣに対して高いコントラストを有する。メンバＣＣは、現在のＣＣの反対側のチャネルから抽出されうる。例えば、暗いＣＣのメンバＣＣは暗いＣＣの領域内の明るいＣＣであってよく、明るいＣＣのメンバＣＣは明るいＣＣの領域内の暗いＣＣであってよい。

図８Ｃは、白線のボックスで示される、２つのＴＢＲが検出された画像を示す。

［ＣＣの特徴］
ＣＣは、それがＴＢＲであるかを判定するため、その特徴に基づいてチェックされうる。ＣＣの特徴は、例えば、ＣＣの色又はグレースケールの均一性、ＣＣのサイズ、ＣＣの形状、ＣＣの境界線の規則性、画像中のＣＣの位置、ＣＣの平均グレースケール値及びＣＣのグレースケール値分布のうちの少なくとも１つを含みうる。

尚、ＴＢＲのサイズは、通常、相対的に大きい。従って、一実施形態によると、全てのＣＣはサイズによりソート可能であり、ＴＢＲは、上位ｎ個の最も大きなＣＣから選択可能である。

尚、ＴＢＲは、通常、画像の余白領域ではなく、画像中の顕著な位置に配置される。従って、別の実施形態によると、余白領域に配置されたＣＣは、非ＴＢＲ領域として除外されうる。例えば余白領域は、１／ｍ像幅等の指定された幅又は１／ｍ像高を有する画像の外側ループ領域として規定されうる。

更に別の実施形態によると、ＴＢＲが、通常、規則的な境界線を有するため、ＣＣの境界線の規則性は、ＴＢＲの判定において考慮されうる。境界線の規則性は、ＣＣの密度（バウンディングボックスにおけるＣＣの占有率）、境界線率（境界線画素とＣＣ画素の量との比）及び境界線の対称性（４つの四分円における密度差により評価されうる４つの四分円における境界線の類似性）により測定されうる。

更に別の実施形態によると、ＴＢＲがフラッシュにより形成されるべきではないため、いくつかの特徴は、ＴＢＲをフラッシュから区別するために使用される。尚、フラッシュは、通常、中央において平均よりも非常により高いグレースケール値を含む高い平均グレースケール値を有する。従って、ＣＣの平均グレースケール値及びグレースケール値分布は、ＴＢＲをフラッシュから区別するために使用されうる。

［ＣＣ中のメンバＣＣの統計］
ＣＣは、それがＴＢＲであるかを判定するために、ＣＣ中のメンバＣＣの統計に基づいてチェックされうる。ここで、現在のＣＣ中のメンバＣＣは、現在のＣＣの境界内に配置されたＣＣであり、現在のＣＣに対して高いコントラストを有する。メンバＣＣの領域は、完全に現在のＣＣの境界内にある。メンバＣＣは、現在のＣＣの反対側のチャネルから抽出されうる。例えば、暗いＣＣのメンバＣＣは暗いＣＣの領域内の明るいＣＣであってよく、明るいＣＣのメンバＣＣは明るいＣＣの領域内の暗いＣＣであってよい。

メンバＣＣの統計は、例えば、ＣＣ中のメンバＣＣの数、メンバＣＣのシードＣＣの数、ＣＣ中のメンバＣＣの平均テキスト信頼度及びＣＣ中のメンバＣＣの総面積とＣＣの面積との比のうちの少なくとも１つを含みうる。

説明のために、ＣＣ中のメンバＣＣの数は閾値より多いことが好ましい。

メンバＣＣの間のシードＣＣの数は、閾値より多いことが好ましい。ここで、シードＣＣは、テキスト成分である可能性が非常に高いＣＣを示す。例えばシードＣＣは、事前定義済みの閾値より高いテキスト信頼度を有するＣＣであってよい。シードＣＣを選択するために、特徴の集合は、ＣＣのテキスト信頼度を算出するためにＣＣから抽出されうる。

一例として、図８Ｄは、白線のボックスにおけるいくつかのシードＣＣを示す。

シードＣＣを選択するために一般的に使用される特徴は、ＣＣのサイズ、ＣＣの幅／高さの比、ＣＣの密度（すなわち、バウンディングボックス内のＣＣ画素の占有率）、ＣＣのストローク幅の統計的特徴及びＣＣの領域から抽出されたテクスチャ特徴を含みうる。一実施形態において、特徴は、テキスト信頼度を調整する際に規則として使用されうる。別の実施形態において、テキスト分類器は、テキストＣＣ及び非テキストＣＣの双方を含む訓練集合に基づいて習得されうる。分類器は、ＣＣの特徴を入力として使用し、ＣＣのテキスト信頼度値を出力する。

［ＣＣと他のＴＢＲとの関係］
ＣＣは、それがＴＢＲであるかを判定するために、他のＴＢＲとの関係に基づいてチェックされうる。一実施形態によると、少なくとも１つのＣＣと他のＴＢＲとの関係に基づいてＣＣからＴＢＲを選択することは、前に判定されたあらゆるＴＢＲにおけるメンバＣＣではなく、且つ前に判定されたＴＢＲと同一のメンバＣＣを有さないＣＣに応答して、ＣＣをＴＢＲとして判定することを含みうる。換言すると、ＴＢＲは、通常、互いに重複しないかあるいは互いを含まない。

一例として、図４は、ＣＣと他のＴＢＲとの関係に基づいてＣＣがＴＢＲであるかを判定する処理４００を示す。

ブロック４１０において、現在のＣＣが前に判定されたＴＢＲのメンバＣＣであるかを判定する。現在のＣＣは、前に判定されたＴＢＲのメンバＣＣである場合にはＴＢＲではないものとして識別される。現在のＣＣが前に判定されたＴＢＲのメンバＣＣでない場合、処理４００はブロック４２０に進み、現在のＣＣが前に判定されたＴＢＲと同一のメンバＣＣを有するかを判定する。現在のＣＣは、前に判定されたＴＢＲと同一のメンバＣＣを全く有さない場合にがＴＢＲとして識別される。現在のＣＣが前に判定されたＴＢＲと同一のメンバＣＣを有する場合、処理４００はブロック４３０に進み、現在のＣＣ及び前に判定されたＴＢＲのうちのどちらがよりＴＢＲのようであるかを判定する。現在のＣＣがよりＴＢＲのようである場合、前に判定されたＴＢＲはＴＢＲの集合から除去され（ブロック４４０）、現在のＣＣはＴＢＲとして識別される。前に判定されたＴＢＲがよりＴＢＲのようである場合、現在のＣＣは、ＴＢＲではないものとして識別される。

ブロック４３０においてどちらがよりＴＢＲのようであるかを判定する種々の方法があってよい。例えば、上述の基準、例えば境界線の規則性、ＣＣの密度及びメンバＣＣの平均テキスト信頼度等のうちの１つ以上が使用されうる。

再度、図３を参照する。画像からＴＢＲが検出されているため、処理３００はブロック３２０に進む。ブロック３２０において、ＣＣフィルタリングステップは、少なくとも１つのＣＣをフィルタリングして少なくとも１つの候補となるテキストＣＣを確保するために実行される。

特に及び好ましくは、ＣＣからＴＢＲを選択した後、残りのＣＣは、候補となるテキストＣＣ及び非テキストＣＣを含む非ＴＢＲＣＣである。このステップの後、候補となるテキストＣＣが確保されるが、非テキストＣＣは除去される。

一実施形態によると、ＴＢＲ情報は、ＣＣをフィルタリングするために使用される。ＴＢＲの境界内のＣＣ及びあらゆるＴＢＲの境界内にないＣＣの双方は、同一の規則に基づいてフィルタリングされることが好ましい。例えば、ＴＢＲの境界内のＣＣ及びあらゆるＴＢＲの境界内にないＣＣは、ＣＣのサイズ、ＣＣの形状、ＣＣのバウンディングボックスのアスペクト比、ＣＣとそのバウンディングボックスとの面積比、周長とＣＣとの面積の比及びＣＣのテクスチャ特徴のうちの少なくとも１つに基づいてフィルタリングされる。

好ましくは、ＣＣをフィルタリングする場合、ＣＣのサイズは、経験値に基づいて所定の範囲にあるものとして選択されうる。テキストＣＣのアスペクト比が、通常、高すぎないため、ＣＣのバウンディングボックスのアスペクト比は、所定の閾値より低いものとして選択されうる。ＣＣとそのバウンディングボックスとの面積比は、低すぎるべきではなく、経験値に従って所定の閾値より高いものとして選択されうる。ＣＣの面積比に対する周長は、所定の閾値より短くなりうる。ノイズＣＣの面積比に対する周長が、通常、相対的に長いため、これはノイズＣＣを除去するためである。ＣＣから抽出されたウェーブレット、Ｇａｂｏｒ、ＬＢＰ等のテクスチャ特徴は、テキスト信頼度を算出するために使用されうるため、ＣＣをフィルタリングする際に組み込まれうる。

尚、テキストは、ＴＢＲの外よりＴＢＲ内に現れる可能性がより高い。従って、別の実施形態によると、ＴＢＲ情報は、フィルタリングの効率及び精度を更に向上させるために、ＣＣをフィルタリングする際に使用されうる。

特に、例えばＣＣフィルタリングステップにおいて、あらゆるＴＢＲの境界内にないＣＣに対するフィルタリングは、ＴＢＲの境界内のＣＣに対するフィルタリングより厳しくてよい。別の例の場合、あらゆるＴＢＲの境界内にないＣＣは、ＴＢＲの境界内のＣＣより多くの規則によりフィルタリングされうる。

これは、あらゆるＴＢＲの境界内にないものとして判定されるＣＣが算出された相対的に低いテキスト信頼度を有する結果、ノイズを被りやすいためである。従って、微フィルタリングは、非テキストＣＣを除去するために実行されうる。

あらゆるＴＢＲの境界内にないＣＣは、ストローク幅の統計及び／又はＣＣの境界線画素数とＣＣの画素数との比に更に基づいてフィルタリングされうることが好ましい。例えばストローク幅の統計は、ストローク幅の分散と平均ストローク幅との比を含みうる。

図８Ｄは、フィルタリングの結果を示す。確保されたテキスト候補ＣＣは、黒線又は白線で描画されたバウンディングボックスにより示される。ここで、白線のバウンディングボックスはシードＣＣを示し、黒線のバウンディングボックスは非シードＣＣを示す。図８Ｂと比較して、ＣＣの一部、特にＴＢＲの外側に配置されたＣＣは除去される。

ＣＣのフィルタリングを実行する例示的な方法を示すために、以下において２つの実施形態を説明する。

図５Ａは、本発明の一実施形態に係る図３のＣＣフィルタリングステップを示すフローチャートである。

図５Ａにおいて、非ＴＢＲＣＣの各々に対するテキスト信頼度は、ＣＣがあらゆるＴＢＲの境界内に配置されるかに基づいて算出される。

ブロック５１０において、各非ＴＢＲＣＣのテキスト信頼度は、ＴＢＲ情報に基づいて算出される。計算において、ＣＣＩＲはＣＣＯＲより重視される。

ブロック５２０において、ＣＣのテキスト信頼度が事前定義済みの閾値Ｔより高いかを判定する。テキスト信頼度が閾値より高い場合、ＣＣはテキスト候補ＣＣとして判定される。テキスト信頼度が閾値より低い場合、ＣＣは非テキストＣＣとして判定される。

本実施形態の特定の一例は、以下の通り提供される。現在のＣＣのテキスト信頼度は、ベイズの定理により規定されうる。
Ｐ（Ａ｜Ｂ）＝Ｐ（Ｂ｜Ａ）Ｐ（Ａ）／Ｐ（Ｂ）
式中、Ｐ（Ａ）は事前確率であり、Ｐ（Ｂ｜Ａ）は条件付き確率であり、Ｐ（Ａ｜Ｂ）は事後確率である。

ＣＣのフィルタリングの特定の例を考慮すると、Ａは、ある特定のＣＣのラベル（テキスト又は非テキスト）を示す確率変数である。Ｐ（Ａ）は、現在のＣＣのテキスト存在の事前確率を表す。Ｐ（Ａ）はＴＢＲにより判定されうる。ＣＣＩＲは、ＣＣＯＲより高いＰ（Ａ）を与えられうる。

Ｐ（Ｂ｜Ａ）は、テキスト存在の条件付き確率である。Ｐ（Ｂ｜Ａ）は、テキスト領域が何に見えるかを説明する。従って、値は、テキスト領域自体から抽出されたテキスト特徴に基づいて算出される。Ｐ（Ｂ）は、現在のＣＣの存在確率である。ＣＣが固定される場合、Ｐ（Ｂ）は一定値である。

Ｐ（Ａ｜Ｂ）は、現在のＣＣのテキスト信頼度である。Ｐ（Ａ｜Ｂ）は、ＣＣ自体のテキスト特徴及びＣＣに関連したＴＢＲ情報の双方による影響を受ける。事前定義済みの閾値より高いＰ（Ａ｜Ｂ）値を有するＣＣは、テキスト候補ＣＣとして確保される。

この例において、ＣＣＩＲに対するＰ（Ａ）／Ｐ（Ｂ）は１として設定可能であり、ＣＣＯＲに対するＰ（Ａ）／Ｐ（Ｂ）は、（０，１）の範囲の値として設定可能である。

図５Ｂは、本発明の別の実施形態に係るＣＣのフィルタリングを示すフローチャートである。

図５Ｂにおいて、フィルタリングは、ＴＢＲ情報に基づいていくつかの段階、例えば２つの段階で非ＴＢＲＣＣに対して実行される。例えば２つの段階は、粗フィルタリング及び微細フィルタリングを含む。全ての非ＴＢＲＣＣは粗フィルタリングにかけられるが、あらゆるＴＢＲの境界外のＣＣのみが微細フィルタリングにかけられてもよい。単純な特徴は粗フィルタリングの際に使用可能であり、より複雑な特徴は微細フィルタリングの際に使用可能である。従って、あらゆるＴＢＲの境界内にないＣＣに対するフィルタリングは、ＴＢＲの境界内のＣＣに対するフィルタリングより厳しく行われる。従って、微細フィルタリングにかけられるＣＣの量は減少し、方法の効率は向上する。

ブロック５３０において、非ＴＢＲＣＣは、ＣＣＩＲ、すなわちあらゆるＴＢＲの境界内のＣＣと、ＣＣＯＲ、すなわちあらゆるＴＢＲの境界内にないＣＣとの２つのグループに分離される。

ブロック５４０において、粗フィルタリング等の第１のフィルタリングステップは、全ての非ＴＢＲＣＣに対して実行される。特に、非ＴＢＲＣＣの各々は、候補となるテキストＣＣ又は非テキストＣＣとして判定される。

第１のフィルタリングステップは、ＣＣが候補となるテキストＣＣであるかを判定するために、非ＴＢＲＣＣの各々の１つ以上の第１の特徴に基づいて実行されうる。第１の特徴は、ＣＣから抽出され、ＣＣのサイズ、ＣＣの形状、ＣＣのバウンディングボックスのアスペクト比、ＣＣの密度（ＣＣとそのバウンディングボックスの面積比）、ＣＣの面積比に対する周長及びＣＣのテクスチャ特徴を含むがそれらに限定されない相対的に単純な特徴であってよい。一例として、テクスチャ特徴は、ローカルバイナリパターン、エッジ方向ヒストグラム及び勾配のヒストグラムを含みうるが、それらに限定されない。

第１の特徴は、カスケード規則として使用されうるか、あるいは訓練分類器に入力される特徴ベクトルとして組み合わされうる。カスケード規則の閾値又は分類器は、テキストサンプル及び非テキストサンプルの双方から習得されうる。カスケード規則がフィルタリングの際に使用される場合、各入力ＣＣは事前定義済みの規則によりチェック可能であり、規則の少なくとも１つを満たさないＣＣは除去される。

ブロック５５０において、微細フィルタリング等の第２のフィルタリングステップは、候補となるテキストＣＣＯＲが候補となるテキストＣＣであるかを更に判定するために、候補となるテキストＣＣＯＲ、すなわち第１のフィルタリングステップにより候補となるテキストＣＣとして判定されるＣＣＯＲの各々に対して実行される。ＣＣＯＲが、ブロック５４０において候補となるテキストＣＣとして判定されたとしてもノイズを被りやすいため、第２のフィルタリングは非テキストＣＣを更に除去してよい。

第２のフィルタリングステップにおいて、ブロック５４０において使用された特徴に対してより厳しい条件が採用されてよく、且つ／あるいはフィルタリングのためにいくつかの他の特徴が使用されてよい。他の特徴は、ストローク幅の統計（例えば、ストローク幅の分散と平均ストローク幅との比）及び／又は境界線画素数とＣＣ画素数との比）を含みうる。

第１のフィルタリングステップと同様に、第２のフィルタリングに対する特徴は、カスケード規則として使用されうるか、あるいは訓練分類器に入力される特徴ベクトルとして組み合わされうる。カスケード規則の閾値又は分類器は、テキストサンプル及び非テキストサンプルの双方から習得されうる。カスケード規則がフィルタリングの際に使用される場合、各入力ＣＣは事前定義済みの規則によりチェック可能であり、規則の少なくとも１つを満たさないＣＣは除去される。

図５Ｃは、訓練分類器を使用するＣＣのフィルタリングを示すフローチャートである。図５Ｃの方法は、第１のフィルタリングステップ及び第２のフィルタリングステップの双方に適用可能である。図５Ｃにおいて、テキストサンプル及び非テキストサンプルを含む訓練サンプルは、分類器を訓練するために使用される。ＣＣは、テキスト候補ＣＣを取得するために訓練分類器により分類される。訓練及び分類のために抽出された特徴は、第１のフィルタリング及び第２のフィルタリングに関連して上述した特徴である。本発明の主題を不必要に不明確にすることを回避するために、フローチャートに関する更なる詳細については説明しない。

再度、図３を参照する。候補となるテキストＣＣを取得した後、処理３００はブロック３３０に進む。ブロック３３０において、ＣＣグループ化ステップは、ＴＢＲ検出ステップにおいて検出されたＴＢＲに基づいて少なくとも１つの候補となるテキストＣＣをグループ化して少なくとも１つのＣＣグループを形成し、且つ少なくとも１つのＣＣグループに基づいて少なくとも１つのテキスト領域を生成するために実行される。

ＣＣグループ化ステップ３３０を実行する例示的なフローチャートを図６に示す。図６に示されるように、ＣＣグループ化ステップ３３０は、ステップ６１０〜６３０を含みうる。

ＣＣグループ化ステップに対する入力は、候補となるテキストＣＣである。

ステップ６１０において、候補となるテキストＣＣは、それぞれのテキスト背景領域に割り当てられる。ＴＢＲに割り当て不可能な候補となるテキストＣＣは、外側領域に割り当てられる。

ステップ６１０は、図５Ｂのブロック５３０に示されるようなステップに類似する。従って、ステップ６１０についての説明は省略する。尚、ステップ３１０でＴＢＲが検出されない場合、全てのＣＣは外側領域にある。候補となるテキストＣＣを割り当てた後、ステップ６２０に進む。

ステップ６２０において、各ＴＢＲ及び外側領域のＣＣは、それぞれ、グループ化されてＣＣグループを形成する。

このステップにおいて、１つの領域のＣＣは、空間関係及び外観の類似性に基づいてグループ化される。図６のグループ化ステップ６２０を実行する例示的なフローチャートを図７に示す。

図７に示されるように、グループ化ステップ６２０は、ステップ６２０１〜６２０３を含みうる。

ステップ６２０１において、各ＴＢＲ及び外側領域のＣＣは、暗い領域の明るいＣＣの集合及び明るい領域の暗いＣＣの集合に分割される。

ステップ６２０２において、ＣＣグループは、それぞれ、明るいＣＣの集合及び暗いＣＣの集合内に生成される。

好ましい一実施形態によると、ＣＣグループはＣＣクラスタリングにより生成されうる。ＣＣクラスタリングは、ある特定の方向に従うＣＣの中心の位置合わせ、ＣＣのサイズの類似性、ＣＣの形状の類似性、ＣＣの色又はグレースケールの類似性、ＣＣのストローク幅の類似性及びＣＣ間の距離の制約のうちの１つ以上を使用する。

別の実施形態によると、ＣＣグループは、最初にハフ変換により生成される。ハフ変換の結果、１つの行上に中心があるＣＣは共にグループ化される。次に、生成されたＣＣグループに含まれたＣＣは、上記の制約を使用してフィルタリングされる。

ステップ６２０３において、明るいＣＣ及び暗いＣＣが、それぞれ、ステップ６２０２でグループ化された後、明るいＣＣの集合及び暗いＣＣの集合は、空間関係及び／又は外観の類似性に基づいて組み合わされる。

ステップ６２０３でＣＣグループを組み合わせるために一般的に使用される特徴は、例えば、２つのある特定のグループのバウンディングボックスの重複率、サイズの類似性（サイズの差は、２つのグループの高さの最大値より低いことが好ましい）及び行方向の類似性（方向の差は、３０度より小さいことが好ましい）を含む。上記の特徴の１つ又はあらゆる組合せが実際に使用されてもよい。

ステップ６２０３の完了後、各ＴＢＲ及び外側領域のＣＣグループがそれぞれ形成されている。図６のステップ６３０に進む。

ステップ６３０において、各ＴＢＲ及び外側領域間の種々の領域からのＣＣグループは、組み合わされてテキスト領域を生成する。

このステップにおいて、種々の領域からのＣＣグループは、行方向の整合性、ＣＣの平均サイズの類似性、ＣＣの平均ストローク幅の類似性及びＣＣの平均的な色又はグレースケールの類似性のうちの少なくとも１つに基づいて組み合わされる。

種々の領域からのＣＣグループを組み合わせる規則は、１つの領域からのＣＣグループをグループ化する規則より厳しくてよいことが好ましい。種々の領域からのＣＣグループが互いに重複しないため、バウンディングボックスの重複率は使用されなくてもよい。

ＣＣグループ化ステップ３３０は、ステップ６３０が完了する時に完了する。

図８Ｅは、ＣＣグループ化ステップ３３０の結果を示す。候補となるテキストＣＣは、同一の文字列に属するＣＣが白線を使用して接続されるテキスト行／単語にグループ化されていることが図８Ｅからわかるだろう。

テキスト検出方法３００は、ＣＣグループ化ステップ３３０が完了する時に終了する。

図８Ｆは、テキスト検出方法３００の結果を示す。テキスト行／単語のバウンディングボックスに基づくテキスト領域は、入力画像から検出されていることが分かりうる。最後に検出されたテキスト領域は、白線のボックスで示される。

次に、本発明の一実施形態に係る画像においてテキスト領域を検出するテキスト検出装置９００のブロック図を示す図９を参照する。装置９００は、図３〜図７を参照して説明した方法を実現するために使用されうる。簡潔にするために、図３〜図７を参照して説明したものに類似するいくつかの詳細をここでは省略する。しかし、これらの詳細も装置９００に適用可能であってもよいことが理解されるだろう。

図９に示されるような一実施形態によると、テキスト検出装置９００は、テキスト背景領域（ＴＢＲ）検出ユニット９１０と、ＣＣフィルタリングユニット９２０と、ＣＣグループ化ユニット９３０とを備える。

テキスト背景領域（ＴＢＲ）検出ユニット９１０は、画像からＴＢＲを検出するように構成されうる。

ＣＣフィルタリングユニット９２０は、少なくとも１つのＣＣをフィルタリングして少なくとも１つの候補となるテキストＣＣを確保するように構成されうる。

ＣＣグループ化ユニット９３０は、ＴＢＲ検出ユニットにおいて検出されたＴＢＲに基づいて少なくとも１つの候補となるテキストＣＣをグループ化して少なくとも１つのＣＣグループを形成し、且つ少なくとも１つのＣＣグループに基づいて少なくとも１つのテキスト領域を生成するように構成されうる。

本明細書において、ＴＢＲは、画像中のテキストの周囲領域として規定されてよく、規則的な境界線及び均一な色又はグレースケールを有する。

一実施形態によると、ＴＢＲ検出ユニット９１０は、少なくとも１つのＣＣの特徴、少なくとも１つのＣＣの境界内に配置されたＣＣであり、少なくとも１つのＣＣに対して高いコントラストを有する少なくとも１つのＣＣ中のメンバＣＣの統計、及び少なくとも１つのＣＣと他のＴＢＲとの間の関係のうちの少なくとも１つに基づいて、少なくとも１つのＣＣからＴＢＲを選択するように構成されうる。

例えば、少なくとも１つのＣＣの特徴は、ＣＣの色又はグレースケールの均一性、ＣＣのサイズ、ＣＣの形状、ＣＣの境界線の規則性、画像中のＣＣの位置、ＣＣの平均グレースケール値及びＣＣのグレースケール値分布のうちの少なくとも１つを含みうる。

例えば、メンバＣＣの統計は、ＣＣ中のメンバＣＣの数、第１の事前定義済みの閾値より高いテキスト信頼度を有するメンバＣＣのシードＣＣの数、ＣＣ中のメンバＣＣの平均テキスト信頼度及びＣＣ中のメンバＣＣの総面積とＣＣの面積との比のうちの少なくとも１つを含みうる。

例えば、少なくとも１つのＣＣと他のＴＢＲとの間の関係に基づいて少なくとも１つのＣＣからＴＢＲを選択することは、前に判定されたあらゆるＴＢＲにおけるメンバＣＣではなく、且つ前に判定されたＴＢＲと同一のメンバＣＣを有さないＣＣに応答して、ＣＣをＴＢＲとして判定することを含みうる。これは、ＴＢＲ検出ユニット９１０により図４に示されたようなフローチャートを実行することで実現されうる。

一実施形態によると、ＣＣフィルタリングユニット９２０において、あらゆるＴＢＲの境界内にないＣＣに対するフィルタリングは、あらゆるＴＢＲの境界内のＣＣに対するフィルタリングより厳しくてよい。

一実施形態によると、ＣＣフィルタリングユニット９２０は、以下の条件、すなわちＣＣのサイズ、ＣＣの形状、ＣＣのバウンディングボックスのアスペクト比、ＣＣとそのバウンディングボックスの面積比、周長とＣＣの面積との比及びＣＣのテクスチャ特徴のうちの少なくとも１つに基づいて、あらゆるＴＢＲの境界内のＣＣ及びあらゆるＴＢＲの境界内にないＣＣをフィルタリングするように構成される。ＣＣフィルタリングユニット９２０は、更に以下の条件、すなわちストローク幅の統計及びＣＣの境界線画素数とＣＣの画素数との比の少なくとも一方に基づいて、あらゆるＴＢＲ内にないＣＣをフィルタリングするように構成される。

図１０Ａは、本発明の一実施形態に係る図９のＣＣフィルタリングユニットを示すブロック図である。

図１０Ａに示されるように、一実施形態によると、ＣＣフィルタリングユニット９２０は、ＴＢＲ以外の少なくとも１つのＣＣの各々のテキスト信頼度を算出するように構成された算出ユニット１０１０であり、計算において、あらゆるＴＢＲの境界内のＣＣが他のＣＣより重視される算出ユニット１０１０と、事前定義済みの閾値より高いテキスト信頼度を有するＣＣをテキスト候補ＣＣとして判定するように構成された判定ユニット１０２０とを備える。

図１０Ｂは、本発明の別の実施形態に係る図９のＣＣフィルタリングユニットを示すブロック図である。

図１０Ｂに示されるように、別の一実施形態によると、ＣＣフィルタリングユニット９２０は、ＴＢＲ以外の少なくとも１つのＣＣ毎に、ＣＣがあらゆるＴＢＲの境界内に配置されることに応答して、ＣＣを第１のＣＣとして識別するか、あるいはＣＣを第２のＣＣとして識別するように構成された識別ユニット１１０２と、ＣＣがテキスト候補ＣＣであるかを判定するために、第１のＣＣ及び第２のＣＣの各々に対して第１のフィルタリングステップを実行するように構成された第１のフィルタリングユニット１１０４と、ＣＣがテキスト候補ＣＣであるかを更に判定するために、第１のフィルタリングステップによりテキスト候補ＣＣとして判定される第２のＣＣの各々に対して第２のフィルタリングステップを実行するように構成された第２のフィルタリングユニット１１０６とを備える。

一実施形態によると、第１のフィルタリングユニット１１０４は、ＣＣがテキスト候補ＣＣであるかを判定するように、ＣＣの１つ以上の第１の特徴に基づいて第１のフィルタリングステップを実行するように更に構成されうる。

一実施形態によると、第２のフィルタリングユニット１１０６は、ＣＣがテキスト候補ＣＣであるかを更に判定するように、ＣＣの１つ以上の第２の特徴に基づいて第２のフィルタリングステップを実行するように更に構成されうる。

図１１Ａは、本発明の一実施形態に係る図９のＣＣグループ化ユニット９３０を示すブロック図である。

一実施形態によると、ＣＣグループ化ユニット９３０は、割り当てユニット９３０１と、グループ化ユニット９３０２と、第１の組み合わせユニット９３０３とを更に備えうる。

割り当てユニット９３０１は、候補となるテキストＣＣをそれぞれのテキスト背景領域に割り当て、且つＴＢＲに割り当て不可能な候補となるテキストＣＣを外側領域に割り当てるように構成されうる。

グループ化ユニット９３０２は、各ＴＢＲ及び外側領域のＣＣをそれぞれグループ化してＣＣグループを形成するように構成されうる。

第１の組み合わせユニット９３０３は、各ＴＢＲ及び外側領域間の種々の領域からのＣＣグループを組み合わせて前記少なくとも１つのテキスト領域を生成するように構成されうる。

一実施形態によると、第１の組み合わせユニット９３０３は、以下の条件、すなわち行方向の整合性、ＣＣグループのグループバウンディングボックスの重複率、ＣＣの平均サイズの類似性、ＣＣの平均ストローク幅の類似性及びＣＣの平均的な色又はグレースケールの類似性のうちの少なくとも１つに基づいて、種々の領域からのＣＣグループを組み合わせるように構成されうる。

図１１Ｂは、本発明の一実施形態に係る図１１Ａのグループ化ユニット９３０２を示すブロック図である。

一実施形態によると、グループ化ユニット９３０２は、分割ユニット９３０２−１と、生成ユニット９３０２−２と、第２の組み合わせユニット９３０２−３とを更に備えうる。

分割ユニット９３０２−１は、各ＴＢＲ及び外側領域のＣＣを暗い領域の明るいＣＣの集合及び明るい領域の暗いＣＣの集合に分割するように構成されうる。

生成ユニット９３０２−２は、それぞれ明るいＣＣの集合及び暗いＣＣの集合内にＣＣグループを生成するように構成されうる。

第２の組み合わせユニット９３０２−３は、空間関係及び外観の類似性のうちの少なくとも１つに基づいて、明るいＣＣの集合と暗いＣＣの集合とを組み合わせるように構成されうる。

一実施形態によると、生成ユニット９３０２−２において、ＣＣグループはＣＣクラスタリングにより生成されうる。ＣＣクラスタリングは、以下の制約、すなわちある特定の方向に従うＣＣの中心の位置合わせ、ＣＣのサイズの類似性、ＣＣの形状の類似性、ＣＣの色又はグレースケールの類似性、ＣＣのストローク幅の類似性及びＣＣ間の距離のうちの少なくとも１つを使用してよい。

一実施形態によると、生成ユニット９３０２−２は、ハフ変換によりＣＣグループを生成し、且つ以下の制約、すなわちある特定の方向に従うＣＣの中心の位置合わせ、ＣＣのサイズの類似性、ＣＣの形状の類似性、ＣＣの色又はグレースケールの類似性、ＣＣのストローク幅の類似性及びＣＣ間の距離のうちの少なくとも１つを使用して生成されたＣＣグループに含まれたＣＣをフィルタリングするように更に構成されうる。

一実施形態によると、第１の組み合わせユニット９３０３において組み合わせることに対する規則は、グループ化ユニット９３０２においてグループ化することに対する規則より厳しくてよい。

本発明に係るテキスト検出の方法及び装置は、種々の適応例を有する。例えばそれは、カメラが取り込んだ画像又は映像からテキスト情報を自動的に抽出する際に使用されうる。

図１２は、本発明の一実施形態に係るテキスト情報抽出方法を示す。

図１２に示されるように、ブロック１２１０において、入力画像又は入力映像からのテキスト領域は、図３〜図７を参照して説明したテキスト検出方法に係るテキスト検出方法を使用して検出される。

ブロック１２２０において、テキストは、検出されたテキスト領域から抽出されうる。選択的に、ブロック１２４０において示されるように、入力映像中のテキストは、入力映像からテキスト領域を検出する際に追跡されうる。

ブロック１２３０において、テキスト認識は、抽出されたテキストに対して実行されてテキスト情報を取得しうる。

次に、本発明の一実施形態に係るテキスト情報抽出システム１３００のブロック図を示す図１３を参照する。システム１３００は、図１２を参照して説明した方法を実現するために使用されうる。

図１３に示されるように、システム１３００は、テキスト検出装置１３１０と、抽出装置１３２０と、認識装置１３３０とを備える。

テキスト検出装置１３１０は、入力画像又は入力映像からテキスト領域を検出するように構成され、且つ図９に関連して説明した装置９１０と同一であってよい。

抽出装置１３２０は、検出されたテキスト領域からテキストを抽出するように構成されうる。

認識装置１３３０は、抽出されたテキストを認識してテキスト情報を取得するように構成されうる。

選択的に、システム１３００は追跡装置１３４０を更に備えうる。追跡装置１３４０は、テキスト検出装置１３１０が入力映像からテキスト領域を検出するように構成される際に入力映像中のテキストを追跡するように構成されうる。

図９〜図１１及び図１３に関連して上述したユニット及び装置は、種々のステップを実現する例示的なモジュール及び／又は好ましいモジュールであることが理解されるだろう。モジュールは、ハードウェアユニット（例えば、プロセッサ又は特定用途向け集積回路等）及び／又はソフトウェアモジュール（例えば、コンピュータプログラム）であってよい。種々のステップを実現するモジュールは、完全に上述されていない。しかし、ある特定の処理を実行するステップがある場合、同一の処理を実現する対応する機能モジュール又は機能ユニット（ハードウェア及び／又はソフトウェアにより実現された）があってもよい。上述及び後述のステップとこれらのステップに対応するユニットとの全ての組合せが構成する技術的解決法が完全で且つ適用可能である限り、それらによる技術的解決方法は本発明の開示内容に含まれる。

また、種々のユニットにより構成された上述の装置及びシステムは、機能モジュールとしてコンピュータ等のハードウェアデバイスに組み込まれうる。当然、コンピュータは、これらの機能モジュールに加えて、他のハードウェアコンポーネント又はソフトウェアコンポーネントを有する。

本発明の方法、装置及びシステムは、多くの方法で実行可能である。例えば、本発明の方法及び装置は、ソフトウェア、ハードウェア、ファームウェア又はそれらのあらゆる組合せにより実行可能である。方法のステップの上述の順序は例示することのみを意図し、特に指示のない限り、本発明の方法のステップは特に上述された順序に限定されない。それに加えて、いくつかの実施形態において、本発明は、本発明に係る方法を実現する機械可読命令を含む記録媒体に記録されたプログラムとしても実施されてもよい。従って、本発明は、本発明に係る方法を実現するプログラムを格納する記録媒体も範囲に含む。

例を用いて本発明のいくつかの特定の実施形態を詳細に実証したが、上述の例は、本発明の範囲を限定することではなく、例示することのみを意図することが当業者により理解されるべきである。上述の実施形態は、本発明の範囲及び趣旨から逸脱することなく変更可能であることが当業者により理解されるべきである。本発明の範囲は、添付の特許請求の範囲により規定される。

Claims

少なくとも１つの連結成分を含む画像においてテキスト領域を検出するテキスト検出方法であって、
前記画像からテキスト背景領域を検出する検出工程と、
前記少なくとも１つの連結成分をフィルタリングしてテキスト候補となる連結成分を残すフィルタリング工程と、
前記検出工程において検出された前記テキスト背景領域に基づいて、前記テキスト候補となる連結成分をグループ化して少なくとも１つの連結成分グループを形成し、且つ前記少なくとも１つの連結成分グループに基づいて少なくとも１つのテキスト領域を生成するグループ化工程と、
を備え、
前記フィルタリング工程において、前記テキスト背景領域の境界内にない連結成分に対するフィルタリングは、前記テキスト背景領域の境界内の連結成分に対するフィルタリングより厳しいことを特徴とするテキスト検出方法。
前記テキスト背景領域は前記画像中のテキストの周囲領域であって、規則的な境界線、及び、均一な色又はグレースケールを有することを特徴とする請求項１に記載の方法。
前記検出工程は、
前記少なくとも１つの連結成分の特徴、
前記少なくとも１つの連結成分の境界内に配置された連結成分であり、前記少なくとも１つの連結成分に対して高いコントラストを有する前記少なくとも１つの連結成分中のメンバ連結成分の統計、及び
前記少なくとも１つの連結成分と他のテキスト背景領域との間の関係、
のうちの少なくとも１つに基づいて前記少なくとも１つの連結成分から前記テキスト背景領域を選択する選択工程を含むことを特徴とする請求項１又は２記載の方法。
前記少なくとも１つの連結成分の前記特徴は、
前記連結成分の色又はグレースケールの均一性、
前記連結成分のサイズ、
前記連結成分の形状、
前記連結成分の境界線の規則性、
前記画像中の前記連結成分の位置、
前記連結成分の平均グレースケール値、及び
前記連結成分のグレースケール値分布
のうちの少なくとも１つを含むことを特徴とする請求項３に記載の方法。
前記メンバ連結成分の前記統計は、
前記連結成分中の前記メンバ連結成分の数、
第１の事前定義済みの閾値より高いテキスト信頼度を有する前記メンバ連結成分のシード連結成分の数、
前記連結成分中の前記メンバ連結成分の平均テキスト信頼度、及び
前記連結成分中の前記メンバ連結成分の総面積と前記連結成分の面積との比
のうちの少なくとも１つを含むことを特徴とする請求項３に記載の方法。
前記少なくとも１つの連結成分と他のテキスト背景領域との間の前記関係に基づいて前記少なくとも１つの連結成分から前記テキスト背景領域を選択する選択工程は、
前に判定されたあらゆるテキスト背景領域におけるメンバ連結成分ではなく、且つ前記前に判定されたテキスト背景領域と同一のメンバ連結成分を有さない前記連結成分に応答して連結成分をテキスト背景領域として判定する判定工程を含むことを特徴とする請求項３に記載の方法。
前記フィルタリング工程において、あらゆるテキスト背景領域の境界内の連結成分及びあらゆるテキスト背景領域の境界内にない連結成分は、
前記連結成分のサイズ、
前記連結成分の形状、
前記連結成分のバウンディングボックスのアスペクト比、
前記連結成分とそのバウンディングボックスの面積比、
周長と前記連結成分の面積との比、及び
前記連結成分のテクスチャ特徴、
のうちの少なくとも１つに基づいてフィルタリングされることを特徴とする請求項１に記載の方法。
あらゆるテキスト背景領域内にない前記連結成分は、
ストローク幅の統計、及び
境界線画素数と連結成分画素数との比、
のうちの少なくとも１つに更に基づいてフィルタリングされることを特徴とする請求項７に記載の方法。
少なくとも１つの連結成分を含む画像においてテキスト領域を検出するテキスト検出方法であって、
前記画像からテキスト背景領域を検出する検出工程と、
前記少なくとも１つの連結成分をフィルタリングしてテキスト候補となる連結成分を残すフィルタリング工程と、
前記検出工程において検出された前記テキスト背景領域に基づいて、前記テキスト候補となる連結成分をグループ化して少なくとも１つの連結成分グループを形成し、且つ前記少なくとも１つの連結成分グループに基づいて少なくとも１つのテキスト領域を生成するグループ化工程と、
を備え、
前記グループ化工程は、
ａ）前記候補となるテキスト連結成分をそれぞれのテキスト背景領域に割り当てること、及びテキスト背景領域に割り当て不可能な前記候補となるテキスト連結成分を外側領域に割り当てる工程と、
ｂ）各テキスト背景領域及び前記外側領域の連結成分をそれぞれグループ化して連結成分グループを形成する工程と、
ｃ）各テキスト背景領域及び前記外側領域間の種々の領域からの連結成分グループを組み合わせて前記少なくとも１つのテキスト領域を生成する工程と
を更に含むことを特徴とするテキスト検出方法。
前記工程ｂ）は、
ｂ１）各テキスト背景領域及び前記外側領域の連結成分を暗い領域の明るい連結成分の集合及び明るい領域の暗い連結成分の集合に分割する工程と、
ｂ２）それぞれ前記明るい連結成分の集合及び前記暗い連結成分の集合内に連結成分グループを生成する工程と、
ｂ３）空間関係及び外観の類似性のうちの少なくとも１つに基づいて、前記明るい連結成分の集合と前記暗い連結成分の集合とを組み合わせる工程と
を更に含むことを特徴とする請求項９に記載の方法。
前記工程ｃ）において、
行方向の整合性、
前記連結成分の平均サイズの類似性、
前記連結成分の平均ストローク幅の類似性、及び
前記連結成分の平均的な色又はグレースケールの類似性、
のうちの少なくとも１つに基づいて種々の領域からの連結成分グループを組み合わせることを特徴とする請求項９に記載の方法。
前記工程ｂ２）において、前記連結成分グループは連結成分クラスタリングにより生成され、
当該連結成分クラスタリングは、以下の制約、
ある特定の方向に従う連結成分の中心の位置合わせ、
連結成分のサイズの類似性、
連結成分の形状の類似性、
連結成分の色又はグレースケールの類似性、
連結成分のストローク幅の類似性、及び
連結成分間の距離
のうちの少なくとも１つを使用することを特徴とする請求項１０に記載の方法。
前記工程ｂ２）は、
ハフ変換により連結成分グループを生成する工程と、
以下の制約の少なくとも１つを用いて、生成された連結成分グループに含まれる連結成分をフィルタリングする工程とを更に有する
前記制約は、
ある特定の方向に従う連結成分の中心の位置合わせ、
連結成分のサイズの類似性、
連結成分の形状の類似性、
連結成分の色又はグレースケールの類似性、
連結成分のストローク幅の類似性、及び
連結成分間の距離
である、
ことを特徴とする請求項１０に記載の方法。
前記工程ｃ）において前記組み合わせることに対する規則は、前記工程ｂ）において前記グループ化することに対する規則より厳しいことを特徴とする請求項９に記載の方法。
前記フィルタリング工程は、
前記テキスト背景領域以外の前記少なくとも１つの連結成分の各々のテキスト信頼度を算出する工程と、
ここで前記計算において、あらゆるテキスト背景領域の前記境界内の連結成分は他の連結成分より重視される、
第２の事前定義済みの閾値より高いテキスト信頼度を有する連結成分を前記テキスト候補連結成分として判定する工程と
を含むことを特徴とする請求項１に記載の方法。
前記フィルタリング工程は、
前記テキスト背景領域以外の前記少なくとも１つの連結成分毎に、前記連結成分があらゆるテキスト背景領域の前記境界内に配置されることに応答して、前記連結成分を第１の連結成分として識別するか、あるいは前記連結成分を第２の連結成分として識別する工程と、
前記連結成分が前記テキスト候補連結成分であるかを判定するために、前記第１の連結成分及び前記第２の連結成分の各々に対して第１のフィルタリング工程を実行する工程と、
前記第２の連結成分が前記テキスト候補連結成分であるかを更に判定するために、前記第１のフィルタリング工程により前記テキスト候補連結成分として判定される前記第２の連結成分の各々に対して第２のフィルタリング工程を実行する工程と
を含むことを特徴とする請求項１に記載の方法。
前記第１の連結成分及び前記第２の連結成分の各々に対して前記第１のフィルタリング工程を実行する工程は、
前記連結成分が前記テキスト候補連結成分であるかを判定するために、前記連結成分の１つ以上の第１の特徴に基づいて前記第１のフィルタリング工程を実行する工程を含むことを特徴とする請求項１６に記載の方法。
前記第１のフィルタリング工程により前記テキスト候補連結成分として判定される前記第２の連結成分の各々に対して前記第２のフィルタリング工程を実行する工程は、
前記第２の連結成分が前記テキスト候補連結成分であるかを更に判定するために、前記第２の連結成分の１つ以上の第２の特徴に基づいて前記第２のフィルタリング工程を実行する工程を含むことを特徴とする請求項１６に記載の方法。
前記テクスチャ特徴は、
ローカルバイナリパターン、
エッジ方向ヒストグラム、及び
勾配のヒストグラム
のうちの少なくとも１つを含むことを特徴とする請求項７に記載の方法。
前記第１のフィルタリング工程において、前記第１の特徴は、カスケード規則として使用されるか、あるいは訓練分類器に入力される特徴ベクトルとして組み合わされることを特徴とする請求項１７に記載の方法。
前記第２のフィルタリング工程において、前記第２の特徴は、カスケード規則として使用されるか、あるいは訓練分類器に入力される特徴ベクトルとして組み合わされることを特徴とする請求項１８に記載の方法。
少なくとも１つの連結成分を含む画像においてテキスト領域を検出するテキスト検出装置であって、
前記画像からテキスト背景領域を検出する検出手段と、
前記少なくとも１つの連結成分をフィルタリングしてテキスト候補となる連結成分を残すフィルタリング手段と、
前記検出手段において検出された前記テキスト背景領域に基づいて、前記テキスト候補となる連結成分をグループ化して少なくとも１つの連結成分グループを形成し、且つ前記少なくとも１つの連結成分グループに基づいて少なくとも１つのテキスト領域を生成するグループ化手段と、
を備え、
前記フィルタリング手段において、前記テキスト背景領域の境界内にない連結成分に対するフィルタリングは、前記テキスト背景領域の境界内の連結成分に対するフィルタリングより厳しいことを特徴とするテキスト検出装置。
少なくとも１つの連結成分を含む画像においてテキスト領域を検出するテキスト検出装置であって、
前記画像からテキスト背景領域を検出する検出手段と、
前記少なくとも１つの連結成分をフィルタリングしてテキスト候補となる連結成分を残すフィルタリング手段と、
前記検出手段において検出された前記テキスト背景領域に基づいて、前記テキスト候補となる連結成分をグループ化して少なくとも１つの連結成分グループを形成し、且つ前記少なくとも１つの連結成分グループに基づいて少なくとも１つのテキスト領域を生成するグループ化手段と、
を備え、
前記グループ化手段は、
ａ）前記候補となるテキスト連結成分をそれぞれのテキスト背景領域に割り当てること、及びテキスト背景領域に割り当て不可能な前記候補となるテキスト連結成分を外側領域に割り当てる手段と、
ｂ）各テキスト背景領域及び前記外側領域の連結成分をそれぞれグループ化して連結成分グループを形成する手段と、
ｃ）各テキスト背景領域及び前記外側領域間の種々の領域からの連結成分グループを組み合わせて前記少なくとも１つのテキスト領域を生成する手段と
を更に含むことを特徴とするテキスト検出装置。