JP2009282986A

JP2009282986A - デジタル画像内の数字を検知する方法

Info

Publication number: JP2009282986A
Application number: JP2009123421A
Authority: JP
Inventors: Ahmet Mufit Ferman; マフィットファーマンアーメット; Richard J Campbell; ジョンキャンベルリチャード
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2008-05-23
Filing date: 2009-05-21
Publication date: 2009-12-03
Anticipated expiration: 2029-05-21
Also published as: JP5015195B2; US8406530B2; US20090290751A1; US20110299779A1; US8023741B2

Abstract

【課題】デジタル画像からアラビア数字を容易に抽出することが可能な方法を提供する。
【解決手段】画像データから、文字列を抽出し（３３２）、当該文字列に含まれる非背景画素の連結成分の各々について外接矩形枠を決定する（３３４）。そして、文字列に含まれる複数の連結成分について、外接矩形枠の各辺の座標の変動量として、平均値からの誤差量の平均を求める（３３６，３３８，３４０）。そして、当該誤差量の平均に基づいて、文字列がアラビア数字からなる数字列の候補であるか否かを判定する（３４４）。
【選択図】図２１

Description

本発明は、デジタル画像内の数字を検知する方法及びシステム、特に、連結成分を数字と非数字とに分類する方法及びシステムが含まれる。

数字などの文字種別を判定する方法としては、特許文献１・２などに開示されている。例えば、特許文献１には、文字媒体の行領域を行方向と垂直な方向に分割し、分割領域より特徴量（例えば、英文字列のアッセンダーが存在する領域、アッセンダーを除く残りの領域における文字線量）を抽出し、抽出された特徴量に基づいて、文字行の文字種（日本文字列、英文字列）の判別を行うことが記載されている。

また、特許文献２には、文書画像を縮小した後、黒画素連結成分を抽出し、それらを統合して文字領域を生成する。生成した文字領域について、連結成分の長さを基にその成分を分類し、分類結果の集計値を基に日本語領域であるか英語領域であるかを判別することが記載されている。

特開平３−２９０７７３号公報（１９９１年１２月２０日公開）特開２００６−１０７５２７号公報（２００６年４月２０日公開）

しかしながら、特許文献１・２に記載の技術では、日本語文字か英語文字かを判別するものであり、アラビア数字を抽出するものではない。

数字の検知は、光学式文字認識（ＯＣＲ）やその他の原稿処理分析システム及び方法に不可欠である。

本発明は、上記課題を解決するためになされたものであり、デジタル画像からアラビア数字を容易に抽出することが可能な方法を提供することを目的とする。

本発明に係る方法は、デジタル画像内の数字連結成分を検知する方法であって、ａ）デジタル画像内の文字列の候補である文字列要素を取得する工程と、ｂ）上記文字列要素に含まれる非背景画素の連結成分の各々について、所定の第１軸に平行な第１辺および第２辺と当該第１軸に垂直な第２軸に平行な第３辺および第４辺とを有する外接矩形枠を決定する工程と、ｃ）上記連結成分の各々について、上記第１辺の上記第２軸上の座標である第１辺座標と、上記第２辺の上記第２軸上の座標である第２辺座標と、上記第３辺の上記第１軸上の座標である第３辺座標と、上記第４辺の上記第１軸上の座標である第４辺座標とを求める工程と、ｄ）上記文字列要素に含まれる複数の上記連結成分について、上記第１辺座標の変動量を示す第１変動量と、上記第２辺座標の変動量を示す第２変動量と、上記第３辺座標の変動量を示す第３変動量と、上記第４辺座標の変動量を示す第４変動量とを求める変動量算出工程と、ｅ）上記第１変動量と上記第２変動量との和が上記第３変動量と上記第４変動量との和よりも小さい場合、上記第１変動量が所定の第１閾値よりも小さく、かつ、上記第２変動量が所定の第２閾値よりも小さいときに、上記文字列要素をアラビア数字からなる文字列の候補である数字列候補として分類し、上記第１変動量が上記第１閾値以上であるか、または、上記第２変動量が上記第２閾値以上であるときに、上記文字列要素をアルファベットの大文字と小文字との混合文字列として分類し、上記第１変動量と上記第２変動量との和が上記第３変動量と上記第４変動量との和よりも大きい場合、上記第３変動量が所定の第３閾値よりも小さく、かつ、上記第４変動量が所定の第４閾値よりも小さいときに、上記文字列要素をアラビア数字からなる文字列の候補である数字列候補として分類し、上記第３変動量が上記第３閾値以上であるか、または、上記第４変動量が上記第４閾値以上であるときに、上記文字列要素をアルファベットの大文字と小文字との混合文字列として分類する数字列候補分類工程と、を含む。

アルファベットの大文字と小文字とが混合する文字列の場合、当該文字列に含まれる文字の上部の位置または下部の位置は、大文字と小文字とで異なるし、小文字の中でも「ａ」「ｇ」「ｂ」で異なることとなる。そのため、アルファベットの大文字と小文字とが混在する場合、当該文字列に含まれる文字の上部の位置と下部の位置との変動量は大きくなる。一方、アラビア数字からなる数字列である場合、当該数字列に含まれる文字の上部の位置または下部の位置は一定である。本発明はこの点に着目したものである。

上記の構成によれば、文字列要素に含まれる非背景画素の連結成分の各々について、所定の第１軸に平行な第１辺および第２辺と当該第１軸に垂直な第２軸に平行な第３辺および第４辺とを有する外接矩形枠を決定する工程と、上記連結成分の各々について、上記第１辺の上記第２軸上の座標である第１辺座標と、上記第２辺の上記第２軸上の座標である第２辺座標と、上記第３辺の上記第１軸上の座標である第３辺座標と、上記第４辺の上記第１軸上の座標である第４辺座標とを求める工程と、上記文字列要素に含まれる複数の上記連結成分について、上記第１辺座標の変動量を示す第１変動量と、上記第２辺座標の変動量を示す第２変動量と、上記第３辺座標の変動量を示す第３変動量と、上記第４辺座標の変動量を示す第４変動量とを求める変動量算出工程と、を含む。

文字列要素は、文字が第１軸の方向に並んでいる場合と、文字が第２軸の方向に並んでいる場合とがある。ただし、文字が第１軸方向に並んでいる場合、文字列要素に含まれる連結成分の各々の第３辺座標および第４辺座標は、大きく変化することとなる。そのため、第３変動量および第４変動量は大きな値をとる。また、文字が第２軸方向に並んでいる場合、文字列要素に含まれる連結成分の各々の第１辺座標および第２辺座標は、大きく変化することとなる。そのため、第１変動量および第２変動量は大きな値をとる。よって、第１変動量と第２変動量との和が第３変動量と第４変動量との和よりも小さい場合、文字列要素に含まれる連結成分は、第１軸方向に並んでいるものとみなすことができる。また、そこで、第１変動量と第２変動量との和が第３変動量と第４変動量との和よりも大きい場合、文字列要素に含まれる連結成分は、第２軸方向に並んでいるものとみなすことができる。

そして、上記数字列候補分類工程に従って分類を行う。上述したように、アルファベットの大文字と小文字とが混合する文字列と、アラビア数字のみを含む文字列とでは、当該文字列に含まれる文字の上端部分と下端部分との変動量に差がある。そのため、アルファベットとアラビア数字からなる原稿画像を示すデジタル画像データが入力されたとき、上記の数字列候補分類工程によれば、アルファベットの大文字と小文字との混合文字列と、数字列からなる数字列の候補とを精度よく分類することができる。すなわち、デジタル画像からアラビア数字を容易に抽出することができる。

また、本発明の方法において、上記変動量算出工程は、上記文字列要素に含まれる複数の連結成分の第１辺座標の代表値である第１代表値と、当該複数の連結成分の第２辺座標の代表値である第２代表値と、当該複数の連結成分の第３辺座標の代表値である第３代表値と、当該複数の連結成分の第４辺座標の代表値である第４代表値とを求める工程と、上記第１変動量として、上記複数の連結成分の各々の第１辺座標と上記第１代表値との誤差量の平均値を算出し、上記第２変動量として、上記複数の連結成分の各々の第２辺座標と上記第２代表値との誤差量の平均値を算出し、上記第３変動量として、上記複数の連結成分の各々の第３辺座標と上記第３代表値との誤差量の平均値を算出し、上記第４変動量として、上記複数の連結成分の各々の第４辺座標と上記第４代表値との誤差量の平均値を算出する工程とを含むことが好ましい。これにより、変動量を容易に算出することができる。

なお、例えば、上記第１代表値は、上記複数の連結成分の第１辺座標の平均値であり、上記第２代表値は、上記複数の連結成分の第２辺座標の平均値であり、上記第３代表値は、上記複数の連結成分の第３辺座標の平均値であり、上記第４代表値は、上記複数の連結成分の第４辺座標の平均値である。

また、上記誤差量は、例えば、平均絶対誤差、二乗平均誤差、二乗平均平方根誤差から選ばれる誤差量である。

さらに、本発明の方法は、上記数字列候補分類工程にて分類された数字列候補に含まれる複数の連結成分の各々について、当該連結成分の上記外接矩形枠の縦横比を算出する工程と、上記複数の連結成分に対して算出された上記縦横比の平均値を算出する工程と、上記複数の連結成分に対して算出された上記縦横比の分散値または標準偏差を算出する工程と、上記縦横比の平均値が所定の第５閾値よりも大きく、かつ、上記縦横比の分散値または標準偏差が所定の第６閾値よりも小さい場合に、上記数字列候補を、アラビア数字からなる数字列として決定し、上記縦横比の平均値が上記第５閾値以下である、もしくは、上記縦横比の分散値または標準偏差が上記第６閾値以上である場合に、上記数字列候補を、非数字文字を含む文字列として決定する工程と、をさらに含むことが好ましい。

上記の数字列候補の中には、アラビア数字のみからなる数字列以外にも、アルファベットの大文字のみからなる大文字列も含まれる可能性がある。

しかしながら、上記の構成によれば、数字列候補に含まれる複数の連結成分の各々について、当該連結成分の外接矩形枠の縦横比を算出する。そして、縦横比の平均値が所定の第５閾値よりも大きく、かつ、上記縦横比の分散値または標準偏差が所定の第６閾値よりも小さい場合に、上記数字列候補を、アラビア数字からなる数字列として決定し、上記縦横比の平均値が上記第５閾値以下である、もしくは、上記縦横比の分散値または標準偏差が上記第６閾値以上である場合に、上記数字列候補を、非数字文字を含む文字列として決定する。

ここで、アルファベットの大文字の多くは、アラビア数字と比べて、縦横比が小さい。また、アルファベットの大文字には、縦横比の小さい文字が多数であるが、縦横比の大きな「Ｉ」なども含まれる。そのため、アルファベットの大文字からなる大文字列の場合、当該大文字列に含まれる文字の縦横比の分散値または標準偏差は相対的に大きくなる。一方、アラビア数字の０〜９は、縦横比がほぼ同じであり、数字列の場合、当該数字列に含まれる文字の縦横比の分散値または標準偏差は相対的に小さい。

そのため、上記の構成によれば、大文字からなる大文字列を非数字文字を含む文字列として決定することができ、アラビア数字からある数字列を精度よく検出することができる。

もしくは、本発明の方法は、上記数字列候補分類工程にて分類された数字列候補に含まれる複数の連結成分の各々について、当該連結成分の上記外接矩形枠の縦横比を算出する工程と、上記複数の連結成分の上記縦横比の平均値を算出する工程と、上記複数の連結成分の上記縦横比の分散値または標準偏差を算出する工程と、上記縦横比の平均値が所定の第５閾値よりも大きく、かつ、上記縦横比の分散値または標準偏差が所定の第６閾値よりも小さく、かつ、上記数字列候補に含まれる連結成分の個数が所定の第７閾値より小さい場合に、上記数字列候補を、アラビア数字からなる数字列として決定し、上記縦横比の平均値が上記第５閾値以下である、もしくは、上記縦横比の分散値または標準偏差が上記第６閾値以上である、もしくは、上記数字列候補に含まれる連結成分の個数が上記第７閾値以上である場合に、上記数字列候補を、非数字文字を含む文字列として決定する工程と、をさらに含んでもよい。

アラビア数字のみからなる数字列の多くは、当該数字列に含まれる数字の個数が少ない場合が多い。そのため、上記の構成によれば、より精度良く数字列を検出することができる。

もしくは、本発明の方法は、上記数字列候補分類工程にて分類された数字列候補に含まれる連結成分の個数が所定の第７閾値より小さい場合に、上記数字列候補をアラビア数字からなる数字列として決定し、上記数字列候補に含まれる連結成分の個数が上記第７閾値以上である場合に、上記数字列候補を非数字文字を含む文字列として決定する工程、をさらに含んでもよい。

上記の構成によれば、数字列を精度よく、かつ、簡単な処理で検出することができる。

また、本発明の方法は、デジタル画像内の数字連結成分を検知する方法であって、ａ）デジタル画像内の文字列の候補である文字列要素を取得する工程と、ｂ）上記文字列要素に含まれる非背景画素の連結成分の各々について、当該連結成分の上記外接矩形枠の縦横比を算出する工程と、ｃ）上記複数の連結成分の上記縦横比の平均値を算出する工程と、ｄ）上記縦横比の平均値が所定の第１閾値よりも大きい場合に、上記文字列要素を、アラビア数字からなる数字列として決定し、上記縦横比の平均値が上記第１閾値以下である場合に、上記文字列要素を、非数字文字を含む文字列として決定する工程と、を含むものであってもよい。

また、本発明の方法は、デジタル画像内の数字連結成分を検知する方法であって、ａ）デジタル画像内の文字列の候補である文字列要素を取得する工程と、ｂ）上記文字列要素に含まれる非背景画素の連結成分の各々について、当該連結成分の上記外接矩形枠の縦横比を算出する工程と、ｃ）上記複数の連結成分の上記縦横比の平均値を算出する工程と、ｄ）上記縦横比の平均値が所定の第１閾値よりも大きく、かつ、上記文字列要素に含まれる連結成分の個数が所定の第３閾値より小さい場合に、上記文字列要素を、アラビア数字からなる数字列として決定し、上記縦横比の平均値が上記第１閾値以下である、もしくは、上記文字列要素に含まれる連結成分の個数が上記第３閾値以上である場合に、上記文字列要素を、非数字文字を含む文字列として決定する工程と、を含むものであってもよい。

ここで、アルファベットの大文字および小文字の多くは、アラビア数字と比べて、縦横比が小さい。そのため、アルファベットの大文字からなる大文字列や大文字および小文字の混在文字列の場合、当該文字列に含まれる文字の縦横比の平均値は相対的に小さくなる。一方、アラビア数字の０〜９の全ては、縦横比が相対的に大きく、数字列の場合、当該数字列に含まれる文字の縦横比の平均値は相対的に大きくなる。よって上記の構成によれば、容易に数字列を検出することができる。

また、本発明の方法は、デジタル画像内の数字連結成分を検知する方法であって、ａ）デジタル画像内の文字列の候補である文字列要素を取得する工程と、ｂ）上記文字列要素に含まれる非背景画素の連結成分の各々について、当該連結成分の上記外接矩形枠の縦横比を算出する工程と、ｃ）上記複数の連結成分の上記縦横比の分散値または標準偏差を算出する工程と、ｄ）上記縦横比の分散値または標準偏差が所定の第２閾値よりも小さい場合に、上記文字列要素を、アラビア数字からなる数字列として決定し、上記縦横比の分散値または標準偏差が上記第２閾値以上である場合に、上記文字列要素を、非数字文字を含む文字列として決定する工程と、を含むものであってもよい。

また、本発明の方法は、デジタル画像内の数字連結成分を検知する方法であって、ａ）デジタル画像内の文字列の候補である文字列要素を取得する工程と、ｂ）上記文字列要素に含まれる非背景画素の連結成分の各々について、当該連結成分の上記外接矩形枠の縦横比を算出する工程と、ｃ）上記複数の連結成分の上記縦横比の分散値または標準偏差を算出する工程と、ｄ）上記縦横比の分散値または標準偏差が所定の第２閾値よりも小さく、かつ、上記文字列要素に含まれる連結成分の個数が所定の第３閾値より小さい場合に、上記文字列要素を、アラビア数字からなる数字列として決定し、上記縦横比の分散値または標準偏差が上記第２閾値以上である、もしくは、上記文字列要素に含まれる連結成分の個数が上記第３閾値以上である場合に、上記文字列要素を、非数字文字を含む文字列として決定する工程と、を含むものであってもよい。

ここで、アルファベットの大文字および小文字には、縦横比の小さい文字が多数であるが、縦横比の大きな「Ｉ」「ｂ」なども含まれる。そのため、アルファベットの大文字からなる大文字列や大文字および小文字の混在文字列の場合、当該文字列に含まれる文字の縦横比の分散値または標準偏差は相対的に大きくなる。一方、アラビア数字の０〜９は、縦横比がほぼ同じであり、数字列の場合、当該数字列に含まれる文字の縦横比の分散値または標準偏差は相対的に小さい。そのため上記の構成によれば、容易に数字列を検出することができる。

また、本発明の方法は、デジタル画像内の数字連結成分を検知する方法であって、ａ）デジタル画像内の文字列の候補である文字列要素を取得する工程と、ｂ）上記文字列要素に含まれる非背景画素の連結成分の各々について、当該連結成分の上記外接矩形枠の縦横比を算出する工程と、ｃ）上記複数の連結成分の上記縦横比の平均値を算出する工程と、ｄ）上記複数の連結成分の上記縦横比の分散値または標準偏差を算出する工程と、ｅ）上記縦横比の平均値が所定の第１閾値よりも大きく、かつ、上記縦横比の分散値または標準偏差が所定の第２閾値よりも小さい場合に、上記文字列要素を、アラビア数字からなる数字列として決定し、上記縦横比の平均値が上記第１閾値以下である、もしくは、上記縦横比の分散値または標準偏差が上記第２閾値以上である場合に、上記文字列要素を、非数字文字を含む文字列として決定する工程と、を含むものであってもよい。

また、本発明の方法は、デジタル画像内の数字連結成分を検知する方法であって、ａ）デジタル画像内の文字列の候補である文字列要素を取得する工程と、ｂ）上記文字列要素に含まれる非背景画素の連結成分の各々について、当該連結成分の上記外接矩形枠の縦横比を算出する工程と、ｃ）上記複数の連結成分の上記縦横比の平均値を算出する工程と、ｄ）上記複数の連結成分の上記縦横比の分散値または標準偏差を算出する工程と、ｅ）上記縦横比の平均値が所定の第１閾値よりも大きく、かつ、上記縦横比の分散値または標準偏差が所定の第２閾値よりも小さく、かつ、上記文字列要素に含まれる連結成分の個数が所定の第３閾値より小さい場合に、上記文字列要素を、アラビア数字からなる数字列として決定し、上記縦横比の平均値が上記第１閾値以下である、もしくは、上記縦横比の分散値または標準偏差が上記第２閾値以上である、もしくは、上記文字列要素に含まれる連結成分の個数が上記第３閾値以上である場合に、上記文字列要素を、非数字文字を含む文字列として決定する工程と、を含むものであってもよい。

上述したように、アルファベットの大文字からなる大文字列や大文字および小文字の混在文字列の場合、当該文字列に含まれる文字の縦横比の平均値は相対的に小さく、分散値または標準偏差は相対的に大きくなる。一方、アラビア数字の０〜９は、縦横比がほぼ同じであり、数字列の場合、当該数字列に含まれる文字の縦横比の平均値は相対的に大きく、分散値または標準偏差は相対的に小さい。そのため上記の構成によれば、容易に数字列を検出することができる。

また、本発明の方法は、デジタル画像内の数字連結成分を検知する方法であって、ａ）デジタル画像内の文字列の候補である文字列要素を取得する工程と、ｂ）上記文字列要素に含まれる非背景画素の連結成分の個数が所定の第１閾値より小さい場合に、上記文字列要素を、アラビア数字からなる数字列として決定し、上記文字列要素に含まれる連結成分の個数が上記第１閾値以上である場合に、上記文字列要素を、非数字文字を含む文字列として決定する工程と、を含むものであってもよい。

上述したように、数字列に含まれる文字数は相対的に小さい場合が多い。そのため上記の構成によれば、デジタル画像からアラビア数字を容易に抽出することができる。

本発明によれば、デジタル画像からアラビア数字を容易に抽出することができるという効果を奏する。

図１（Ａ）は、「読みやすい」向きにあるテキスト原稿の一例を示し、図１（Ｂ）は、「読みやすい」向きから時計回りに９０度回転した向きにあるテキスト原稿の一例を示し、図１（Ｃ）は、「読みやすい」向きから時計回りに１８０度回転した向きにあるテキスト原稿の一例を示し、図１（Ｄ）は、「読みやすい」向きから反時計回りに９０度回転した向きにあるテキスト原稿の一例を示す。図２は、連結成分の候補が数字テンプレートと照合される前に、２値化され、サイズが正規化され、距離算出処理が実行される原稿向き判定処理を含む、本発明の実施形態の例を示す図である。図３は、推定向きと関連する信頼度の値の判定を含む、本発明の実施形態の例を示す図である。図４は、サイズが正規化された２値連結成分を平均化することにより数字テンプレートを作り出す数字テンプレート作成工程を含む、本発明の実施形態の例である。図５は、４つの基本の向きにおける１０個のアラビア数字のための数字テンプレートの例を示す図である。図６は、連結成分の候補をある向きにおける数字テンプレートと比較し、当該向きにおける少なくとも一つの比較結果が充分な一致を示したら、当該向きと関連する一致カウンタのカウンタ数を増やす工程を含む、本発明の実施形態の例を示す図である。図７は、図６に示す本発明の実施形態に従って判定される推定向きと関連する信頼度の値を作り出す工程を含む、本発明の実施形態の例を示す図である。図８は、向きの組合せの一致カウントの率に基づいて信頼度が判定される、本発明の実施形態の例を示す図である。図９は、連結成分の候補を複数の向きにおける数字テンプレートと比較し、もっともよく一致した結果が一致の基準を満たしているときは、その一致が得られた向きと関連する一致カウンタのカウンタ数を増やす工程を含む、本発明の実施形態の一例を示す図である。図１０は、図９に示す本発明の実施形態に従って判定される推定向きと関連する信頼度の値を作り出す工程を含む、本発明の実施形態の例を示す図である。図１１は、２値連結成分のサイズを正規化し、距離算出処理を行い、平均化することによって数字テンプレートを作り出す数字テンプレート作成工程を含む、本発明の実施形態の例を示す図である。図１２は、連結成分の候補をある向きにおける数字テンプレートと比較し、当該向きにおける少なくとも一つの比較結果が充分な一致を示したら、当該向きと関連する一致カウンタのカウンタ数を増やす工程を含む、本発明の実施形態の例を示す図である。図１３は、図１２に示す本発明の実施形態に従って判定される推定向きと関連する信頼度の値を作り出す工程を含む、本発明の実施形態の例を示す図である。図１４は、連結成分の候補を複数の向きにおける数字テンプレートと比較し、もっともよく一致した結果が一致の基準を満たしているときは、その一致が得られた向きと関連する一致カウンタのカウンタ数を増やす工程を含む、本発明の実施形態の例を示す図である。図１５は、図１４に示す本発明の実施形態に従って判定される推定向きと関連する信頼度の値を作り出す工程を含む、本発明の実施形態の例を示す図である。図１６は、連結成分の候補が数字テンプレートと照合される前に２値化されサイズを正規化される原稿向き判定を含む、本発明の実施形態の例を示す図である。図１７は、推定向きと関連する信頼度の値の判定を含む、本発明の実施形態の例を示す図である。図１８Ａは、テキスト文字とテキスト文字境界枠の例を示す図である。図１８Ｂは、テキストオブジェクトとテキストオブジェクト境界枠の例を示す図である。図１９は、文字列と文字列境界枠の例を示す図である。図２０Ａは、大文字と小文字からなる文字列の一例を示す図である。図２０Ｂは、大文字のみからなる文字列の一例を示す図である。図２０Ｃは、数字のみからなる文字列の一例を示す図である。図２１は、文字の境界に関わる標本平均に関連する文字境界変動性に基づく数字列の識別を含む、本発明の実施形態を示す図である。図２２は、実施形態１または２における、類似度の求め方を示す図である。図２３は、実施形態３から４における、類似度の求め方を示す図である。図２４は、文字列の標本平均を示す図である。原稿方向判定システムの構成を示すブロック図である。

本発明のいくつかの実施形態は、デジタル画像内の数字を検知する方法及びシステムを含む。

本発明のいくつかの実施形態は、複数の連結成分を含む文字列成分の軸のうち一つの軸の方向に広がる連結成分の広さの変動性に基づいて、デジタル画像内の数字を検知する方法及びシステムを含む。本発明のこれらの実施形態のいくつかでは、上記変動性としては、上記広さの代表的な尺度に関連する誤差量がある。

本発明のいくつかの実施形態は、文字列成分内の連結成分の縦横比に基づいてデジタル画像内の数字を検知する方法及びシステムを含む。これらの実施形態のいくつかでは、縦横比の第一のモーメントが計算される。これらの実施形態のいくつかでは、縦横比の第二のモーメントが計算される。

本発明のいくつかの実施形態には、文字列成分内における連結成分の数に基づいて、デジタル画像内の数字を検知する方法及びシステムが含まれる。

本発明のいくつかの実施形態では、連結成分オブジェクトの候補を４つの主要な向きにおける数字テンプレートと照合し、原稿画像の向きを推定する。本発明のいくつかの実施形態では、トレーニングデータを用いて上記数字テンプレートを作成し、上記数字テンプレートは共通の、サイズとフォントが不変の数字の代表例である。

本発明のいくつかの実施形態では、原稿要素は、サイズが正規化され、距離算出処理が実行され、照合数字テンプレートと照合される。照合結果は累積され、累積された照合結果に基づいて推定向きが作り出される。これらの実施形態のいくつかでは、上記数字テンプレートは、サイズが正規化され平均化された数字の例と関連している。

本発明の他の実施形態では、原稿要素は、サイズが正規化され数字テンプレートと照合される。照合結果は蓄積され、蓄積された照合結果に基づいて推定向きが作り出される。これらの実施形態のいくつかでは、上記数字テンプレートは、サイズが正規化され、距離が算出され、平均化された数字の例と関連している。

本発明のいくつかの実施形態では、信頼度あるいは確実性度は、推定向きと関連して判定される。

本発明の上記および他の目的、特徴、利点は、添付の図面とともに以下に述べる説明を考慮することにより、よりよく理解できるであろう。

本発明の実施形態は、図面を参照することによってもっともよく理解されるであろう。すべての図面において、同じ部材は同じ番号を振ってある。上記の図面は本実施形態の一部に明確に含まれる。

本実施形態の図面において概略的に述べられ描かれた本発明の諸要素は、さまざまな異なった構成を取ることができることは容易に理解できるであろう。本発明の方法及びシステムの実施形態を以下により詳細に述べるが、それらは本発明の範囲を限定するものではなく、本発明の現在のところ好ましい実施形態の代表例にすぎない。

本発明の実施形態の構成要素はハードウェア、ファームウェア、及び／またはソフトウェアで具体化することができる。ここで述べられる実施形態の例ではこれらの形態のうち一つだけが述べられるけれども、当業者ならば、本発明の範囲内で、これらの形態のいずれにおいても実施形態の構成要素を達成できると考えられる。

電子原稿画像のページの向き（原稿画像の向きとも見なされる）は、スキャンする方向や、原稿戴置台上での元の原稿の向きなどの要因により、元の原稿のページの向きとは一致しない場合がある。元の原稿のページの向きは、名目上のページの向きあるいは読みやすい向きともいう。すなわち、名目上の向き（読みやすい向き）とは、原稿上の文字を読むのに適した向きのことである。電子原稿画像のページの向きと名目上のページの向きとのこうした食い違いは、当該電子原稿を処理する際に、望ましくない結果や、予想外の結果や、最適ではない結果や、その他の不満足な結果をもたらす場合がある。例えば、電子原稿を印刷したものに最終的な処理を行う際、原稿の向きが違っていると、望ましくない結果が生じる場合がある。最終的な処理の例としては、製本や綴じなどがある。また、ある種の画像処理、例えば光学式文字認識（OCR）を満足できる正確さで行うために、入力データの向きを具体的に指定する必要がある場合がある。さらに、名目上のページの向きに対する電子原稿のページの向きがわからないと、コンピュータのモニタや手持ちディスプレイなどのような表示装置に表示する際、適切な向きで表示することができない場合がある。

本発明のいくつかの実施形態は、電子原稿におけるテキストの最も有力な向きの自動的な検知に関するものである。テキストの向きは上記名目上のページの向きと関連している。

スキャンやコピーやその他のデジタル画像処理を行う際、原稿を画像装置の原稿戴置台や原稿フィーダーに普通とは違う置き方をし、その結果、電子的な再生（スキャンともいう）が通常の読む向きから反転したり回転したりする場合がある。

図１Ａないし１Ｄは、読みやすい向き（「上」向きともいう）に対する原稿のいくつかの向きを描くものである。図１Ａは、読みやすい向き（０度の向きともいう）にあるテキスト原稿２の一例を示す。図１Ｂは、２７０度回転した向き（時計回りに９０度回転した向き、反時計回りに２７０度回転した向き、右に９０度回転した向き、左に２７０度回転した向きともいう）にあるテキスト原稿４の一例を示す。図１Ｃは、１８０度回転した向き（反転した向きともいう）にあるテキスト原稿６の一例を示す。図１Ｄは、９０度回転した向き（時計回りに２７０度回転した向き、反時計回りに９０度回転した向き、右に２７０度回転した向き、左に９０度回転した向きともいう）にあるテキスト原稿８の一例を示す。

電子ページが回転していると、コピーの場合には元原稿を物理的に回転させることによって、スキャンの場合にはドキュメントヴューアーや他の画像／原稿処理アプリケーションにおけるページをデジタル的に反転または回転させることによって、ユーザーは手動で向きを修正しなければならない。

本発明のいくつかの実施形態では、電子原稿が読みやすい向きにあるか（以下、第１の向きという）、９０度回転しているか（以下、第２の向きという）、１８０度回転しているか（以下、第３の向きという）、それとも２７０度回転しているか（以下、第４の向きという）を判定する。これらの４つの向きは、４つの基本方向（または基本の向き）（cardinal direction）ともいう。

本発明のいくつかの実施形態では、原稿画像の向きは、連結成分オブジェクトと向きを特定した一組の数字テンプレートとを比較することにより判定される。ここで、連結成分オブジェクトとは、２値化画像において、非背景画素（例えば黒画素：画素値が１の画素）が連結したひとまとまりの領域の一つをいう。本発明のいくつかの実施形態では、距離を測定することによりかたちが似ているかどうかを判定する。テンプレートと一致した結果は、原稿画像全体にわたって累積してもよいし、原稿画像の一部において累積してもよい。一致した回数が一番多かった向きが、推定向きとして選ばれる。本発明のいくつかの実施形態では、推定向きの確実性を反映する信頼度（確実性度ともいう）が判定される。これらの実施形態のいくつかでは、信頼度があらかじめ定められた基準を満たしているときは、推定向きは拒絶される。

（実施形態１）
本発明に係る一実施形態について、図２を参照しながら説明する。本実施形態では、まず、原稿要素のサイズが正規化される（１０）。ここで、原稿要素とは、２値化された電子原稿画像データにおいて、非背景画素が連結したひとまとまりの連結成分である。なお、ここでは説明を省略するが、数字部分と推定される連結成分が選択され、当該連結成分に対してのみ、符号１０以降の処理が実行される。次に、サイズ正規化された原稿要素において、各画素の画素値を文字画素からの距離を示す値に変換する距離算出処理が実行される（１２）。その後、距離算出処理がされた原稿要素は、参照テンプレートに対して照合される（１４）。そして、照合結果が累積され（１６）、累積された照合結果に基づいて、推定向きが求められる（１８）。ここで、推定向きとは、照合結果から推定される電子原稿画像データの向きのことである。本実施形態において、参照テンプレートは向きを特定した数字テンプレートを含んでいる。この数字テンプレートの詳細については後述する。

（実施形態２）
また、本発明に係る別の実施形態について、図３を参照しながら説明する。本実施形態でも、原稿要素は、サイズが正規化され（２０）、距離算出処理が実行され（２２）、参照テンプレートに対して照合される（２４）。なお、本実施形態でも、原稿要素とは、２値化された電子原稿画像データにおいて、黒画素が連結したひとまとまりの連結成分である。また、ここでは説明を省略するが、数字部分と推定される連結成分が選択され、当該連結成分に対してのみ、符号１０以降の処理が実行される。そして、照合結果が累積され（２６）、累積された照合結果に基づいて、推定向きが求められる（２８）。また、この実施形態では、推定向きの信頼性を示す信頼度が求められる（３０）。本実施形態でも、参照テンプレートとしては、向きを特定した数字テンプレートがある。

（実施形態１・２における数字テンプレートの作成方法）
上記の実施形態１・２では、連結成分オブジェクトの候補を原稿要素として４つの基本方向の数字テンプレートと照合し、原稿画像の向きを推測する。数字テンプレートは、トレーニングデータ（training data）を用いて作り出してもよい。また、数字テンプレートは、共通の、サイズ及びフォント不変の数字の代表例（representation）であってもよい。

以下、数字テンプレートの作成方法の具体例について、図４を参照しながら説明する。まず、トレーニングデータを作成する。このトレーニングデータの作成方法は、以下のとおりである。すなわち、様々な種類のフォント、サイズのサンプル原稿を準備し、当該サンプル原稿をスキャンする。そして、当該スキャンにより得られたスキャンデータを２値化する。そして、２値化されたスキャンデータの中から、数字を含み、当該数字の外接矩形の部分画像を切り取ることでトレーニングデータを作成することができる。ここで、外接矩形は、原稿画像の縦方向および横方向に平行な辺を有し、連結成分に外接する矩形である。なお、このスキャンデータでは、読むのに適した向きになるように数字が配置されているようにしている。このように、様々な種類のフォント、サイズのサンプル原稿から得られた複数のトレーニングデータをまとめたものをトレーニングセットという。

次に、各数字に対応する複数のトレーニングデータの各々のサイズを正規化し（３２）、お互いのあいだで平均化（３４）する。これにより、当該数字の平均化されたテンプレートを作成することができる。

例えば、各数字について、トレーニングデータである２値化された数字要素サンプルの各々は、サイズ正規化処理（３２）として、３２画素×３２画素の格子状にする。そして、サイズ正規化された複数のトレーニングデータについて、画素ごとに平均値を求める。当該平均値を画素値とする数字テンプレートを作成する。なお、スキャンデータでは、読むのに適した向きになるように数字が配置されているため、このようにして作成された数字テンプレートは、第１の向きに向いたものとなる。すなわち、上記の処理フローでは、第１の向きに対応した数字テンプレートが作成される。

そして、回転されたテンプレート、つまり、第２〜第４の向きに向いた数字テンプレート（以下、第２〜第４の向きに対応する数字テンプレートともいう）は、上記第１の向きに対応した数字テンプレートを回転させることが容易に作成することができる。

なお、第１の向きに向いた数字を含む原稿、第２の向きに向いた数字を含む原稿、第３の向きに向いた数字を含む原稿、第４の向きに向いた数字を含む原稿の各々をスキャンして、第１〜第４の向きに対応するスキャンデータを作成してもよい。なお、各原稿は、様々な種類のフォント、サイズの数字を含むものとする。この場合、各数字について、第１〜第４の向きの各々に対応する複数のトレーニングデータを得ることができる。そして、第１〜第４の向きの各々について、トレーニングデータから上記のように直接数字テンプレートを作成してもよい。

また、上記の説明では、トレーニングデータを、２値化されたスキャンデータから切り出すことで作成されるものとした。しかしながら、テンプレートを作成するためのトレーニングデータは、さまざまな方法でコンパイルしてよい。例えば、ワードプロセシングプログラムを用いて、数字符号だけを含んでいる原稿データを作り出し、当該原稿データからトレーニングデータを作成してもよい。また、一つの数字に対して、異なるフォントとサイズの当該数字を含む割付原稿を作成してもよい。各原稿のページは画像フォーマットに変換してもよい。画像は２値化され、連結成分ラベリングアルゴリズムによって分析したりしてよい。連結成分の一組（２値マップともいう）が、数字に対応するトレーニングデータを形成してもよい。

以下、数字テンプレートの具体的な算出方法の一例を述べる。まず、一つの数字ｎに対応し、かつ、向きｋに対応するトレーニングセット[n,k]に含まれる複数のトレーニングデータの各々は、３２画素×３２画素のブロックサイズに正規化してフォントタイプやサイズの違いの影響を除外する。ここで、トレーニングセット[n,k]に含まれる複数のトレーニングデータは、様々な種類のフォント、サイズの数字ｎを向きｋで配置した原稿をスキャンすることで得られるスキャンデータを２値化し、数字部分を切り出すことで得られるものである。正規化されたトレーニングデータである２値化マップの各々の画素値は、画素ごとに累積される。そして、向きｋにおける数字ｎのための平均化されたテンプレート（ｔ^ｋ _ｎで表される）を作り出す。

上記式において、ｂｎ_ｌ（ｉ、ｊ）は、トレーニングセットに含まれるｌ番目のトレーニングデータをサイズ正規化し、座標（ｉ、ｊ）で示される画素の画素値（２値化要素）を表している。また、Ｎは、トレーニングセットに含まれるトレーニングデータの総数である。この具体例では、トレーニングセットとして、全ての数字０〜９について、４つの基本の向きである０°、９０°、１８０°、２７０°に対応するセットを準備しておき、各トレーニングセット[n,k]から、ｔ^ｋ _ｎが直接算出される。

ただし、読みやすい向きである０°の向きに配置された数字をスキャンすることで得られるトレーニングセット[n,0]から、テンプレートｔ^０ _ｎを算出し、他の向きに対応するテンプレートｔ^ｋ _ｎは、当該テンプレートｔ^０ _ｎを回転させることにより作成してもよい。なお、本具体例では、４つの基本の向き（０°、９０°、１８０°、２７０°）に対応するテンプレートｔ^ｋ _ｎが予め作成され、記憶するものとする。ただし、テンプレートとして、ただ一つの向きに対応するものだけを記憶してもよい。

図５に、４つの基本の向き０度（符号５０で示される）、９０度（符号５２で示される）、１８０度（符号５５で示される）、２７０度（符号５６で示される）における「０」から「９」までのアラビア数字に対応するテンプレート例４０〜４９を示す。

（実施形態１の具体的処理例１−１）
上述した実施形態１の具体的な処理例の一つを、図６を参照しつつ説明する。この具体例においては、原稿画像６０は、向き推定の処理を行う前に、前処理がされている。この前処理として、まず、原稿画像６０の２値化処理を行う（６２）。次に、２値化された原稿画像に連結成分ラベリング処理を行う（６４）。

本具体例においては、２値化処理（６２）では閾値処理を行う。閾値処理においては、原稿画像６０の各画素の画素値を予め定められた閾値と比較し、当該閾値より小さい画素値を２値「０」と「１」のうちどちらか一方に割り振り、閾値より大きいか閾値と等しい原稿画素値を当該２値のうち他方に割り振る。例えば、白い背景と黒い文字の原稿画像に閾値処理を施すと、すべての文字画素が「１」で表され、すべての非文字画素が「０」で表される２値マスク画像が作り出される。

また、連結成分ラベリング処理は、公知の技術であり、例えば、２値画像データにおいて、同じ画素値（例えば１）を有する画素が連結してひとまとまりになっている領域を連結成分として抽出し、各連結成分に対してラベリング処理（番号付け）を行う処理である。

すなわち、隣接する共通の画素を介して連結された画素一つ一つは、連結成分ラベリング処理（６４）で一つにまとめられる。連結成分は原稿画像における非背景内容に相当する。非背景内容としては、文字や、写真領域や、線画や、局所的な背景領域や、その他の非背景内容が挙げられる。本発明のいくつかの実施形態では、連結領域それぞれは、当該連結領域の非背景画素をすべて含む最小の境界枠によって表される。本発明のいくつかの実施形態においては、要素の性質を計算して非文字の連結成分を除外する。具体的には、（数字文字の検出について）にて後述するように、数字以外の連結成分を除外する。

次に、各連結成分を調査対象として、数字テンプレートとの比較処理を行う。まずは、調査していない連結成分が存在するか否か判断する（６６）。まだ調べられていない連結成分がある場合（６７）、次の連結成分を調査することになる。次の未調査の連結成分について、当該連結成分の外接矩形を決定し、当該外接矩形の部分画像を切り出す。ここで、外接矩形は、原稿画像の縦方向および横方向に平行な辺を有し、連結成分に外接する矩形である。そして、切り出した部分画像、つまり、連結成分を含む外接矩形領域の画像に対して、サイズ正規化を行う（６８）。そして、この正規化された、２値化の連結成分を含む矩形の部分画像に対して距離算出処理が行われる（７０）。

本具体例では、２値化された連結成分を含む部分画像は、サイズ正規化処理として、３２画素×３２画素のサイズに変換される。

そして、距離算出処理として以下のような処理を行う。すなわち、サイズ正規化処理がされた部分画像（連結成分を含む矩形の部分画像）の各画素について、非背景画素（例えば、白背景に黒文字が形成されている画像である場合、画素値「１」を有する画素）からの距離を示す値を画素値として割り振る。具体的には、非背景画素（ここでは、白背景に黒文字が形成されている画像である場合、画素値「１」を有する文字画素）に対して画素値「０」を割り振り、背景画素（ここでは、画素値「０」を有する画素）に対しては、最も近傍の非背景画素との距離を示す値を画素値として割り振る。距離測定の例としては、Ｌ_１距離、Ｌ_２距離、市街地距離測定、ユークリッド距離測定、重み付け市街地距離測定、及び当技術分野で周知のその他の距離測定が挙げられる。本具体例では、２値画像を文字画素からの距離に応じて、背景画素を距離（例えば、市街地距離）で置き換える変換処理（grassfire transform）を行う。図２２の左側は、距離算出処理後の部分画像の一例を示している。なお、この図では、６画素×７画素にサイズ正規化し、文字「４」の連結成分を含む部分画像が切り出された場合の例である。

なお、本具体例では、符号６６で示す処理の後に、サイズ正規化処理（６８）および距離算出処理（７０）を行うものとしたが、先に、全ての連結成分に対して、サイズ正規化処理（６８）および距離算出処理（７０）を行ってから、一つ一つの連結成分の候補が後述する数字テンプレートとの比較調査が行われたかを判定する一連の処理（７２，７６，８０，８２，８６）を実行してもよい。

距離算出処理が実行された部分画像は、４つの基本の向きのそれぞれにおける数字テンプレートと比較される。まず、すべての向きについて比較処理が実行されたかどうかが最初に判定される（７２）。もしすべての向きについて比較処理が実行された場合（７３）、未調査の連結成分が存在するかが判定される（６６）。もしまだ比較処理が実行されていない向きが残っていたら（７４）、まだ調べられていない数字テンプレートがあるかどうかが判定される（７６）。ある向きにおいて調べられていない数字テンプレートがなかったら（７７）、次の向きが調べられる（７２）。まだ調べられていない数字テンプレートがあったら（７８）、距離算出処理が実行された部分画像と、現在調べられている向きの数字テンプレートとのあいだで類似度測定が行われる（８０）。

本具体例では、調査対象である連結成分を含む矩形の部分画像ｃ_ｍとテンプレートｔ^ｋ _ｎ（下付き文字ｎは数字を表し、上付き文字ｋは向きを表す）とのあいだの類似度ｓ_ｋ（ｍ、ｎ）は、下記式に従って計算される（８０）。

上記式において、部分画像とテンプレートの正規化されたサイズはＩ画素×Ｊ画素である。本具体例では、Ｉ＝３２、Ｊ＝３２である。すなわち、同じサイズである部分画像および数字テンプレートに対して、同じ位置の画素について画素値同士を積算し、全ての画素の積算値を足し合わせた値を類似度とする。図２２は、類似度を求める方法を示す図である。

本具体例において、距離算定処理では、非背景画素（ここでは、白背景に黒文字が形成されている画像である場合、画素値「１」を有する文字画素）に対して画素値「０」を割り振り、背景画素（ここでは、画素値「０」を有する画素）に対しては、最も近傍の非背景画素との距離を示す値を画素値として割り振る。そのため、ｓ_ｋ（ｍ、ｎ）の値が低いことは、部分画像ｃ_ｍとテンプレートｔ^ｋ _ｎがよく一致していることを示している。

次に、測定した類似度を所定の基準と比較することで、部分画像ｃ_ｍとテンプレートｔ^ｋ _ｎとが一致しているか否かの判定が実行される（８２）。一致している場合（８４）、現在調べられている向きに対応する向き一致カウンタのカウント数を増やす（インクリメントする）（８６）。そして、次のまだ調べられていない向きが検討される（７２）。もし部分画像ｃ_ｍとテンプレートｔ^ｋ _ｎとが一致していないと見なされると（８３）、次のまだ調べられていない数字が検討される（７６）。

本具体例では、ｓ_ｋ（ｍ、ｎ）の値が小さいことは、部分画像ｃ_ｍとテンプレートｔ^ｋ _ｎとがよく一致していることを示している。そこで、ｓ_ｋ（ｍ、ｎ）≦Ｔ_{ｍａｔｃｈ}である場合に、部分画像ｃ_ｍとテンプレートｔ^ｋ _ｎとが一致していると見なされる。ここで、Ｔ_{ｍａｔｃｈ}は予め定められた閾値である。なお、ｓ_ｋ（ｍ、ｎ）＜Ｔ_{ｍａｔｃｈ}である場合に、部分画像ｃ_ｍとテンプレートｔ^ｋ _ｎとが一致していると見なされてもよい。

また、類似度ｓ_ｋ（ｍ、ｎ）として、値が大きくなるにつれ、部分画像ｃ_ｍとテンプレートｔ^ｋ _ｎとがよく一致していることを示すものを算出してもよい。例えば、距離算出処理として、文字画素の画素値を「１０」に変換し、背景画素の画素値を、文字画素からの距離を示す値を「１０」から差し引いた値に変換する処理を行うことが考えられる。そして、上記の数２と同様に、類似度ｓ_ｋ（ｍ、ｎ）を求める。この場合、ｓ_ｋ（ｍ、ｎ）が大きいほど、部分画像ｃ_ｍとテンプレートｔ^ｋ _ｎとがよく一致していることを示すことになる。このような場合では、ｓ_ｋ（ｍ、ｎ）≧Ｔ_{ｍａｔｃｈ}である場合に、部分画像ｃ_ｍとテンプレートｔ^ｋ _ｎとが一致していると見なされる。ここで、Ｔ_{ｍａｔｃｈ}は予め定められた閾値である。もしくは、ｓ_ｋ（ｍ、ｎ）＞Ｔ_{ｍａｔｃｈ}である場合に、部分画像ｃ_ｍとテンプレートｔ^ｋ _ｎとが一致していると見なされてもよい。

調べていない連結成分が残っていないとき（９０）、推定向きが決定される（９２）。本具体例では、最大のカウント値を持つ向き一致カウンタに対応する向きが、原稿画像６０の推定向きとして決定される。

（実施形態２の具体的処理例２−１）
次に、上述した実施形態２の具体的な処理例の一つを、図７を参照しつつ説明する。図７に示されるように、本具体例では、図６に示した具体例の処理に加えて、推定向きが決定されたあと（９２）、当該推定向きに関する信頼度（確実性度）を求める（９４）。

本具体例では、それぞれの向きに対応する向き一致カウンタを分析して、数字に基づいた推定向きの確実性度が判定される（９４）。この判定処理について図８を参照して述べる。まず、向き一致カウンタを分析して、向きの組合せ（９０度と２７０度の組合せ対０度と１８０度の組合せ）のうち、どちらの組合せが最大の値を持つかを判断する（１００）。この分析により、原稿が±９０度回転しているのか（１０２）、あるいはまっすぐな向き／反転した向きにあるか（１０１）が判定される。次に、選ばれた組合せにおける大きな値と小さな値との比率が計算される（１０３、１０４）。

もし０度と１８０度の向きの組合せが、９０度と２７０度の向きの組合せよりも大きな値を持っているならば（１０１）、上記比率（Ｒｃｎｔｒと表記される）は下記式に従って決定される（１０３）。

上記式において、ｃｎｔｒ０は０度の向きに対応する一致カウンタの値、ｃｎｔｒ１８０は１８０度の向きに対応する一致カウンタの値である。

もし９０度と２７０度の向きの組合せが、０度と１８０度の向きの組合せよりも大きな値を持っているならば（１０２）、上記比率（Ｒｃｎｔｒと表記される）は下記式に従って決定される（１０４）。

上記式において、ｃｎｔｒ９０は０度の向きに対応する一致カウンタの値、ｃｎｔｒ２７０は２７０度の向きに対応する一致カウンタの値である。

比率Ｒｃｎｔｒは、原稿画像における数値候補の数とテキスト要素の候補の総数との比率（Ｒｃｏｍｐと表される）と乗算される（１０５）。得られる尺度（Ｍ_{ｒｅｌｉａｂｉｌｉｔｙ}と表される）は、入力原稿の推定向きの信頼度を表す。そして、本具体例においては、信頼度は閾値（Ｔ_ｃｏｎｆと表される）と比較される。信頼度Ｍ_{ｒｅｌｉａｂｉｌｉｔｙ}が閾値Ｔ_ｃｏｎｆより大きいときは（１０７）、推定向きは信頼できると見なされる（１０８）。信頼度数Ｍ_{ｒｅｌｉａｂｉｌｉｔｙ}が閾値Ｔ_ｃｏｎｆ以下のときは（１０９）、推定向きは信頼できないと見なされ拒否される（１１０）。本具体例においては、Ｔ_ｃｏｎｆの値は０．６である。

なお、推定向きは信頼できると見なされると（１０８）、当該推定向きを出力する。そして、外部の画像処理部は、当該推定向きに従った処理を実行する。例えば、画像処理部は、表示部に原稿画像を表示する場合、当該推定向きに応じた角度だけ原稿画像を回転処理し、回転後の原稿画像を表示する。なお、推定向きが０度である場合は、回転処理を行わず、推定向きが９０度（反時計周りに９０度）である場合は、時計周りに９０度だけ回転させ、推定向きが１８０度である場合は、１８０度だけ回転させ、推定向きが２７０度（反時計周りに２７０度）である場合は、時計周りに２７０度だけ回転させる。この回転角度は、推定向きに対応付けて記憶部に格納されており、画像処理部は、当該記憶部から推定向きに対応する角度を読み出せばよい。

一方、推定向きは信頼できないと見なされ拒否される（１１０）、当該推定向きを出力しない。この場合、ユーザに対して向きの入力を促す画面を表示し、ユーザ入力に応じて向きを決定してもよい。もしくは、向きを判定できないことを示す情報を出力してもよい。

なお、信頼度の求め方は、上記に限定されない。例えば、推定向きの妥当性は各一致カウンタの最大値に基づいている。そのため、一致カウンタの最大値を信頼度として求め、当該最大値があらかじめ定められた閾値（Ｔ_{ＭａｘＶａｌ}と表される）を越える場合にのみ、推定向きが信頼できるものとみなされ、出力されてもよい。もしこの条件が満たされないならば、数字に基づいた推定向きは信頼できないと見なされ、用いられない。

その他、Ｔ_ｃｏｎｆとＴ_{ＭａｘＶａｌ}それぞれに関する条件双方が満たされて初めて、推定向きが信頼できると見なされてもよい。そして、これら信頼性の条件の一方が満たされないならば、推定向きは信頼できないと見なされてもよい。もしくは、これらの条件の一方だけが調べられてもよい。

なお、Ｔ_{ＭａｘＶａｌ}の値は例えば２５に設定される。

（実施形態１の具体的処理例１−２）
上記の（実施形態１の具体的処理例１−１）では、図６を参照して述べるように、ある向きに対応する一致カウンタは、当該向きに関連付けられた少なくとも一つのテンプレートが、連結成分を含む部分画像と一致しているに、カウンタ数が増やされる。しかしながら、本発明はこれに限定されず、部分画像ごとに、全ての数字および向きに対応する数字テンプレートとの一致度を求め、最も一致度が高かった向きに対応する向き一致カウンタのカウンタ数を増やすようにしてもよい。本具体例は、このような方式の例である。本具体例について、図９を参照しつつ述べる。

この具体例においては、原稿画像１１８は、向き推定の処理を行う前に、前処理がされている。この前処理として、まず、原稿画像１１８の２値化処理を行う（１２０）。次に、２値化された原稿画像に連結成分ラベリング処理を行う（１２２）。

本具体例においては、２値化処理１２０では閾値処理を行う。閾値処理においては、原稿画像１１８の各画素の画素値を予め定められた閾値と比較し、当該閾値より小さい画素値を２値「０」と「１」のうちどちらか一方に割り振り、閾値より大きいか閾値と等しい原稿画素値を当該２値のうち他方に割り振る。例えば、白い背景と黒い文字の原稿画像に閾値処理を施すと、すべての文字画素が「１」で表され、すべての非文字画素が「０」で表される２値マスク画像が作り出される。

すなわち、隣接する共通の画素を介して連結された画素一つ一つは、連結成分ラベリング処理（１２２）で一つにまとめられる。連結成分は原稿画像における非背景内容に相当する。非背景内容としては、文字や、写真領域や、線画や、局所的な背景領域や、その他の非背景内容が挙げられる。本発明のいくつかの実施形態では、連結領域それぞれは、当該連結領域の非背景画素をすべて含む最小の境界枠によって表される。本発明のいくつかの実施形態においては、要素の性質を計算して非文字の連結成分を除外する。具体的には、（数字文字の検出について）にて後述するように、数字以外の連結成分を除外する。

次に、各連結成分を調査対象として、数字テンプレートとの比較処理を行う。まずは、調査していない連結成分が存在するか否か判断する（１２４）。まだ調べられていない連結成分がある場合（１２３）、次の連結成分を調査することになる。次の未調査の連結成分について、当該連結成分の外接矩形を決定し、当該外接矩形の部分画像を切り出す。ここで、外接矩形は、原稿画像の縦方向および横方向に平行な辺を有し、連結成分に外接する矩形である。そして、切り出した部分画像、つまり、連結成分を含む外接矩形領域の画像に対して、サイズ正規化を行う（１２５）。そして、この正規化された、２値化の連結成分を含む矩形の部分画像に対して距離算出処理が行われる（１２６）。

そして、距離算出処理として以下のような処理を行う。すなわち、サイズ正規化処理がされた部分画像（連結成分を含む矩形の部分画像）の各画素について、非背景画素（例えば、白背景に黒文字が形成されている画像である場合、画素値「１」を有する画素）からの距離を示す値を画素値として割り振る。具体的には、非背景画素（ここでは、白背景に黒文字が形成されている画像である場合、画素値「１」を有する文字画素）に対して画素値「０」を割り振り、背景画素（ここでは、画素値「０」を有する画素）に対しては、最も近傍の非背景画素との距離を示す値を画素値として割り振る。距離測定の例としては、Ｌ_１距離、Ｌ_２距離、市街地距離測定、ユークリッド距離測定、重み付け市街地距離測定、及び当技術分野で周知のその他の距離測定が挙げられる。本具体例では、２値画像を文字画素からの距離に応じて、背景画素を距離（例えば、市街地距離）で置き換える変換処理（grassfire transform）を行う。

なお、本具体例では、符号１２４で示す処理の後に、サイズ正規化処理（１２５）および距離算出処理（１２６）を行うものとしたが、先に、全ての連結成分に対して、サイズ正規化処理（１２５）および距離算出処理（１２６）を行ってから、一つ一つの連結成分の候補が後述する数字テンプレートとの比較調査が行われたかを判定する一連の処理（１２８，１３２，１３６，１３８，１４２）を実行してもよい。

距離算出処理が実行された部分画像は、４つの基本の向きのそれぞれにおける数字テンプレートと比較される。まず、すべての向きについて比較処理が実行されたかどうかが最初に判定される（１２８）。もしすべての向きについて比較処理が実行された場合（１２９）、部分画像と数字テンプレートとのあいだで求めた類似度に基づいて、最もよく類似している数字テンプレートの向きに対応する向き一致カウンタのカウンタ値を増やす（１４４）。例えば、類似しているほど類似度が小さい値をとる場合、類似度が最小の数字テンプレートの向きに対応するカウンタ値を増やせばよい。続いて、次の連結成分が調べられる（１２４）。

もしまだ比較処理が実行されていない向きが残っていたら（１３０）、まだ調べられていない数字テンプレートがあるかどうかが判定される（１３２）。ある向きにおいて調べられていない数字テンプレートがなかったら（１３３）、次の向きが調べられる（１２８）。まだ調べられていない数字テンプレートがあったら（１３４）、距離算出処理が実行された部分画像と、現在調べられている向きの数字テンプレートとのあいだで類似度測定が行われる（１３６）。

本具体例では、調査対象である連結成分を含む矩形の部分画像ｃ_ｍとテンプレートｔ^ｋ _ｎ（下付き文字ｎは数字を表し、上付き文字ｋは向きを表す）とのあいだの類似度ｓ_ｋ（ｍ、ｎ）は、下記式に従って計算される（１３６）。

上記式において、部分画像とテンプレートの正規化されたサイズはＩ画素×Ｊ画素である。本具体例では、Ｉ＝３２、Ｊ＝３２である。すなわち、同じサイズである部分画像および数字テンプレートに対して、同じ位置の画素について画素値同士を積算し、全ての画素の積算値を足し合わせた値を類似度とする。

次に、測定した類似度を所定の基準と比較することで、部分画像ｃ_ｍとテンプレートｔ^ｋ _ｎとが一致しているか否かの判定が実行される（１３８）。一致している場合（１４０）、その類似度を一致度とし、当該一致度が前回記録された最もよい一致度（最良一致度）よりもより一致していることを示している場合、当該一致度により、最良一致インディケータが更新される（１４２）。すなわち、ここでの一致度は、各部分画像に対して算出された４方向の類似度の中で、最も類似していることを示す類似度を一致度とすることを意味している。そして、次のまだ調べられていない数字が検討される（１３２）。部分画像ｃ_ｍとテンプレートｔ^ｋ _ｎとが一致していないと見なされると（１３９）、次のまだ調べられていない数字が検討される（１３２）。

調べていない要素が残っていないときは（１４６）、推定向きが判定される（１４８）。本具体例では、最大のカウント値を持つ一致カウンタに対応する向きが、原稿画像１１８の推定向きとして決定される。

なお、上記の説明では、各連結成分について、全ての向きおよび数字に対応する数字テンプレートについて順番に当該連結成分を含む部分画像との類似度を求めていく。そして、符号１４２で示されるように、これまで求めた類似度よりも高い類似度が算出されるたびに、最良類似度を更新するようにした。しかしながら、これに限らず、各連結成分について、全ての向きおよび数字に対応する数字テンプレートの各々と当該連結成分を含む部分画像との類似度を求め、その中から最もよく類似していることを示す類似度のものを選択して、当該最良類似度を記憶部に記録してもよい。すなわち、各連結性分ごとに類似度を求めた後、カウントアップ処理および方向を算出してもよい。

（実施形態２の具体的処理例２−２）
次に、上述した実施形態２の具体的な別の処理例の一つを、図１０を参照しつつ説明する。図１０に示されるように、本具体例では、図９に示した具体例の処理に加えて、推定向きが決定されたあと（１４８）、当該推定向きに関する信頼度（確実性度）を求める（１５０）。

本具体例において、信頼度は、図８を参照して上述した説明に従い、求められる（１５０）。

（別の実施形態における数字テンプレートの作成方法）
以下、別の実施形態における数字テンプレートの作成方法について説明する。本実施形態においても、連結成分オブジェクトの候補は、４つの基本の向きの数字テンプレートと照合され、原稿画像の向きを推測する。数字テンプレートは、トレーニングデータ（training data）を用いて作り出してもよい。また、数字テンプレートは、共通の、サイズ及びフォント不変の数字の代表例（representation）であってもよい。

以下、本実施形態における数字テンプレートの作成方法の具体例について、図１１を参照しながら説明する。
まず、トレーニングデータを作成する。このトレーニングデータの作成方法は、以下のとおりである。すなわち、様々な種類のフォント、サイズのサンプル原稿を準備し、当該サンプル原稿をスキャンする。そして、当該スキャンにより得られたスキャンデータを２値化する。そして、２値化されたスキャンデータの中から、数字を含み、当該数字の外接矩形の部分画像を切り取ることでトレーニングデータを作成することができる。ここで、外接矩形は、原稿画像の縦方向および横方向に平行な辺を有し、連結成分に外接する矩形である。なお、このスキャンデータでは、読むのに適した向きになるように数字が配置されているようにしている。このように、様々な種類のフォント、サイズのサンプル原稿から得られた複数のトレーニングデータをまとめたものをトレーニングセットという。

次に、各数字に対応する複数のトレーニングデータの各々のサイズを正規化し（１６０）、正規化されたトレーニングデータの各々に対して、距離算出処理を実行する（１６２）。そして、距離算出処理が実行された複数のトレーニングデータのあいだで平均化（１６４）する。これにより、当該数字の平均化されたテンプレートを作成することができる。なお、スキャンデータでは、読むのに適した向きになるように数字が配置されているため、このようにして作成された数字テンプレートは、第１の向きに向いたものとなる。すなわち、上記の処理フローでは、第１の向きに対応した数字テンプレートが作成される。

そして、回転されたテンプレート、つまり、第２〜第４の向きに向いた数字テンプレート（以下、第２〜第４の向きに対応する数字テンプレートともいう）は、上記第１の向きに対応した数字テンプレートを回転させることが容易に作成することができる（１６６）。

本具体例では、一つの数字ｎに対応し、かつ、向き０°に対応するトレーニングセット[n,0]に含まれる複数のトレーニングデータの各々は、３２画素×３２画素のブロックサイズに正規化してフォントタイプやサイズの違いの影響を除外する。

そして、距離算出処理として以下のような処理を行う。すなわち、サイズ正規化処理がされたトレーニングデータ（数字を含む矩形の画像）の各画素について、文字画素（例えば、画素値「１」を有する画素）からの距離を示す値を画素値として割り振る。具体的には、文字画素に対して画素値「０」を割り振り、背景画素（ここでは、画素値「０」を有する画素）に対しては、最も近傍の文字画素との距離を示す値を画素値として割り振る。距離測定の例としては、Ｌ_１距離、Ｌ_２距離、市街地距離測定、ユークリッド距離測定、重み付け市街地距離測定、及び当技術分野で周知のその他の距離測定が挙げられる。本具体例では、２値画像を文字画素からの距離に応じて、背景画素を距離（例えば、市街地距離）で置き換える変換処理（grassfire transform）を行う。図２３の右側は、距離算出処理後の数字テンプレートの一例を示している。なお、この図では、６画素×７画素にサイズ正規化され、数字「４」に対応するテンプレートの例である。

（実施形態３）
上記（別の実施形態における数字テンプレートの作成方法）で記載された数字テンプレートを用いた一実施形態を、図１２を参照しつつ説明する。この実施形態においては、原稿画像１７０、向き推定の処理を行う前に、前処理がされている。この前処理として、まず、原稿画像１７０の２値化処理を行う（１７２）。次に、２値化された原稿画像に連結成分ラベリング処理を行う（１７４）。

本実施形態においては、２値化処理（１７２）では閾値処理を行う。閾値処理においては、原稿画像１７０の各画素の画素値を予め定められた閾値と比較し、当該閾値より小さい画素値を２値「０」と「１」のうちどちらか一方に割り振り、閾値より大きいか閾値と等しい原稿画素値を当該２値のうち他方に割り振る。例えば、白い背景と黒い文字の原稿画像に閾値処理を施すと、すべての文字画素が「１」で表され、すべての非文字画素が「０」で表される２値マスク画像が作り出される。

すなわち、隣接する共通の画素を介して連結された画素一つ一つは、連結成分ラベリング処理（１７４）で一つにまとめられる。連結成分は原稿画像における非背景内容に相当する。非背景内容としては、文字や、写真領域や、線画や、局所的な背景領域や、その他の非背景内容が挙げられる。本発明のいくつかの実施形態では、連結領域それぞれは、当該連結領域の非背景画素をすべて含む最小の境界枠によって表される。本発明のいくつかの実施形態においては、要素の性質を計算して非文字の連結成分を除外する。なお、ここでは説明を省略するが、数字部分と推定される連結成分が選択され、当該連結成分に対してのみ、符号１０以降の処理が実行される。

次に、各連結成分を調査対象として、数字テンプレートとの比較処理を行う。まずは、調査していない連結成分が存在するか否か判断する（１７６）。まだ調べられていない連結成分があったら（１７７）、次の連結成分を調査することになる。次の未調査の連結成分について、当該連結成分の外接矩形を決定し、当該外接矩形の部分画像を切り出す。ここで、外接矩形は、原稿画像の縦方向および横方向に平行な辺を有し、連結成分に外接する矩形である。そして、切り出した部分画像、つまり、連結成分を含む外接矩形領域の画像に対して、サイズ正規化を行う（１７８）。２値化された連結成分を含む部分画像は、サイズ正規化処理として、３２画素×３２画素のサイズに変換される。

なお、本実施形態では、符号１７６で示す処理の後に、サイズ正規化処理（１７８）を行うものとしたが、先に、全ての連結成分に対して、サイズ正規化処理（１７８）を行ってから、一つ一つの連結成分の候補が後述する数字テンプレートとの比較調査が行われたかを判定する一連の処理（１８０，１８４，１８８，１９０，１９４）を実行してもよい。

２値化され正規化された、連結成分を含む部分画像は、４つの基本の向きのそれぞれにおける数字テンプレートと比較される。まず、すべての向きについて比較処理が実行されたかどうかが最初に判定される（１８０）。もしすべての向きについて比較処理が実行された場合（１８１）、未調査の連結成分が存在するかが判定される（１７６）。もしまだ比較処理が実行されていない向きが残っていたら（１８２）、まだ調べられていない数字テンプレートがあるかどうかが判定される（１８４）。もしある向きにおいて調べられていない数字テンプレートが残っていなかったら（１８５）、次の向きが調べられる（１８０）。もしまだ調べられていない数字テンプレートが残っていたら（１８６）、正規化された部分画像と現在調べられている向きにおける数字テンプレートとのあいだで類似度が算出される（１８８）。

本実施形態では、調査対象である連結成分を含む矩形の部分画像ｃ_ｍとテンプレートｇ^ｋ _ｎ（下付き文字ｎは数字を表し、上付き文字ｋは向きを表す）とのあいだの類似度ｓ_ｋ（ｍ、ｎ）は、下記式に従って計算される（１８８）。

上記式において、部分画像とテンプレートの正規化されたサイズはＩ画素×Ｊ画素である。本具体例では、Ｉ＝３２、Ｊ＝３２である。すなわち、同じサイズである部分画像および数字テンプレートに対して、同じ位置の画素について画素値同士を積算し、全ての画素の積算値を足し合わせた値を類似度とする。図２３は、類似度を求める方法を示す図である。

本実施形態において、テンプレートは、距離算出処理が実行されたものであり、部分画像は正規化された２値の画素値を含んでおり、類似度は下記式に従って算出される。

本実施形態において、テンプレートに適用される距離算出処理では、文字画素に対して画素値「０」を割り振り、背景画素（ここでは、画素値「０」を有する画素）に対しては、最も近傍の文字画素との距離を示す値を画素値として割り振る。そのため、ｓ_ｋ（ｍ、ｎ）の値が低いことは、部分画像ｃ_ｍとテンプレートｇ^ｋ _ｎがよく一致していることを示している。

次に、測定した類似度を所定の基準と比較することで、部分画像ｃ_ｍとテンプレートｇ^ｋ _ｎとが一致しているか否かの判定が実行される（１９０）。一致している場合（１９２）、現在調べられている向きに対応する向き一致カウンタのカウント数を増やす（インクリメントする）（１９４）。そして、次のまだ調べられていない向きが検討される（１８０）。もし部分画像ｃ_ｍとテンプレートｇ^ｋ _ｎとが一致していないと見なされると（１９１）、次のまだ調べられていない数字が検討される（１８４）。

本発明のいくつかの実施形態では、ｓ_ｋ（ｍ、ｎ）の値が小さいことは、部分画像ｃ_ｍとテンプレートｇ^ｋ _ｎとがよく一致していることを示している。そこで、ｓ_ｋ（ｍ、ｎ）≦Ｔ_{ｍａｔｃｈ}である場合に、部分画像ｃ_ｍとテンプレートｇ^ｋ _ｎとが一致していると見なされる。ここで、Ｔ_{ｍａｔｃｈ}は予め定められた閾値である。なお、ｓ_ｋ（ｍ、ｎ）＜Ｔ_{ｍａｔｃｈ}である場合に、部分画像ｃ_ｍとテンプレートｇ^ｋ _ｎとが一致していると見なされてもよい。

また、類似度ｓ_ｋ（ｍ、ｎ）として、値が大きくなるにつれ、部分画像ｃ_ｍとテンプレートｇ^ｋ _ｎとがよく一致していることを示すものを算出してもよい。例えば、テンプレートを求める際に実行される距離算出処理として、文字画素の画素値を「１０」に変換し、背景画素の画素値を、文字画素からの距離を示す値を「１０」から差し引いた値に変換する処理を行うことが考えられる。そして、上記の数６と同様に、類似度ｓ_ｋ（ｍ、ｎ）を求める。この場合、ｓ_ｋ（ｍ、ｎ）が大きいほど、部分画像ｃ_ｍとテンプレートｇ^ｋ _ｎとがよく一致していることを示すことになる。このような場合では、ｓ_ｋ（ｍ、ｎ）≧Ｔ_{ｍａｔｃｈ}である場合に、部分画像ｃ_ｍとテンプレートｇ^ｋ _ｎとが一致していると見なされる。ここで、Ｔ_{ｍａｔｃｈ}は予め定められた閾値である。もしくは、ｓ_ｋ（ｍ、ｎ）＞Ｔ_{ｍａｔｃｈ}である場合に、部分画像ｃ_ｍとテンプレートｇ^ｋ _ｎとが一致していると見なされてもよい。

調べていない要素が残っていないときは（１９６）、推定向きが決定される（１９８）。本具体例では、最大のカウント値を持つ向き一致カウンタに対応する向きが、原稿画像１７０の推定向きとして決定される。

（実施形態４）
次に、上記（別の実施形態における数字テンプレートの作成方法）で記載された数字テンプレートを用いた別の実施形態の具体的な処理例の一つを、図１３を参照しつつ説明する。図１３に示されるように、本実施形態では、図１２に示した具体例の処理に加えて、推定向きが決定されたあと（１９８）、当該推定向きに関する信頼度（確実性度）を求める（２００）。

本実施形態において、信頼度は、図８を参照して上述した説明に従い、求められる（２００）。

（実施形態５）
上記の実施形態３では、図１２を参照して述べるように、ある向きに対応する一致カウンタは、当該向きに関連付けられた少なくとも一つのテンプレートが、連結成分を含む部分画像と一致しているに、カウンタ数が増やされる。しかしながら、本発明はこれに限定されず、部分画像ごとに、全ての数字および向きに対応する数字テンプレートとの一致度を求め、最も一致度が高かった向きに対応する向き一致カウンタのカウンタ数を増やすようにしてもよい。本実施形態は、このような方式の例である。本実施形態について、図１４を参照しつつ述べる。

この実施形態においては、原稿画像２１０、向き推定の処理を行う前に、前処理がされている。この前処理として、まず、原稿画像２１０の２値化処理を行う（２１２）。次に、２値化された原稿画像に連結成分ラベリング処理を行う（２１４）。

本実施形態においては、２値化処理（２１２）では閾値処理を行う。閾値処理においては、原稿画像２１０の各画素の画素値を予め定められた閾値と比較し、当該閾値より小さい画素値を２値「０」と「１」のうちどちらか一方に割り振り、閾値より大きいか閾値と等しい原稿画素値を当該２値のうち他方に割り振る。例えば、白い背景と黒い文字の原稿画像に閾値処理を施すと、すべての文字画素が「１」で表され、すべての非文字画素が「０」で表される２値マスク画像が作り出される。

すなわち、隣接する共通の画素を介して連結された画素一つ一つは、連結成分ラベリング処理（２１４）で一つにまとめられる。連結成分は原稿画像における非背景内容に相当する。非背景内容としては、文字や、写真領域や、線画や、局所的な背景領域や、その他の非背景内容が挙げられる。本発明のいくつかの実施形態では、連結領域それぞれは、当該連結領域の非背景画素をすべて含む最小の境界枠によって表される。本発明のいくつかの実施形態においては、要素の性質を計算して非文字の連結成分を除外する。

なお、ここでは説明を省略するが、数字部分と推定される連結成分が選択され、当該連結成分に対してのみ、符号１０以降の処理が実行される。

次に、各連結成分を調査対象として、数字テンプレートとの比較処理を行う。まずは、調査していない連結成分が存在するか否か判断する（２１６）。まだ調べられていない連結成分があったら（２１７）、次の連結成分を調査することになる。次の未調査の連結成分について、当該連結成分の外接矩形を決定し、当該外接矩形の部分画像を切り出す。ここで、外接矩形は、原稿画像の縦方向および横方向に平行な辺を有し、連結成分に外接する矩形である。そして、切り出した部分画像、つまり、連結成分を含む外接矩形領域の画像に対して、サイズ正規化を行う（２１８）。２値化された連結成分を含む部分画像は、サイズ正規化処理として、３２画素×３２画素のサイズに変換される。

なお、本実施形態では、符号２１６で示す処理の後に、サイズ正規化処理（２１８）を行うものとしたが、先に、全ての連結成分に対してサイズ正規化処理（２１８）を行ってから、その後に数字テンプレートとのマッチング調査を行なってもよい。

２値化され正規化された、連結成分を含む部分画像は、４つの基本の向きのそれぞれにおける数字テンプレートと比較される。まず、すべての向きについて比較処理が実行されたかどうかが最初に判定される（２２２）。もしすべての向きについて比較処理が実行された場合（２２３）、部分画像と数字テンプレートとのあいだで求めた類似度の中で、最もよく類似していることを示す類似度（最良類似度）を特定し、当該最良類似度となる数字テンプレートの向きに対応する向き一致カウンタのカウンタ値を増やす（２２０）。それから、次の要素が調べられる（２１６）。

もしまだ比較処理が実行されていない向きが残っていたら（２２４）、まだ調べられていない数字テンプレートがあるかどうかが判定される（２２６）。ある方向において調べられていない数字テンプレートがなかったら（２２７）、次の向きが調べられる（２２２）。まだ調べられていない数字テンプレートがあったら（２２８）、正規化された部分画像と現在調べられている向きにおける数字テンプレートとのあいだで類似度が算出される（２３０）。

本実施形態では、調査対象である連結成分を含む矩形の部分画像ｃ_ｍとテンプレートｇ^ｋ _ｎ（下付き文字ｎは数字を表し、上付き文字ｋは向きを表す）とのあいだの類似度ｓ_ｋ（ｍ、ｎ）は、下記式に従って計算される（２３０）。

次に、測定した類似度を所定の基準と比較することで、部分画像ｃ_ｍとテンプレートｇ^ｋ _ｎとが一致しているか否かの判定が実行される（２３２）。一致している場合（２３４）、その類似度を一致度とし、当該一致度が前回記録された最大の一致度より大きいならば、当該一致度により、最上一致インディケータが更新される（２３６）。そして、次のまだ調べられていない数字が検討される（２２６）。もし部分画像ｃ_ｍとテンプレートｇ^ｋ _ｎとが一致していないと見なされると（２３３）、次のまだ調べられていない数字が検討される（２２６）。

本実施形態では、ｓ_ｋ（ｍ、ｎ）の値が小さいことは、部分画像ｃ_ｍとテンプレートｇ^ｋ _ｎとがよく一致していることを示している。そこで、ｓ_ｋ（ｍ、ｎ）≦Ｔ_{ｍａｔｃｈ}である場合に、部分画像ｃ_ｍとテンプレートｔ^ｋ _ｎとが一致していると見なされる。ここで、Ｔ_{ｍａｔｃｈ}は予め定められた閾値である。なお、ｓ_ｋ（ｍ、ｎ）＜Ｔ_{ｍａｔｃｈ}である場合に、部分画像ｃ_ｍとテンプレートｇ^ｋ _ｎとが一致していると見なされてもよい。

調べていない要素が残っていないときは（２３８）、推定向きが決定される（２４０）。本実施形態では、最大のカウント値を持つ一致カウンタに対応する向きが、原稿画像２１０の推定向きとして決定される。

なお、上記の説明では、各連結成分について、全ての向きおよび数字に対応する数字テンプレートについて順番に当該連結成分を含む部分画像との類似度を求めていく。そして、符号２３６で示されるように、これまで求めた類似度よりも高い類似度が算出されるたびに、最良類似度を更新するようにした。しかしながら、これに限らず、各連結成分について、全ての向きおよび数字に対応する数字テンプレートの各々と当該連結成分を含む部分画像との類似度を求め、その中から最もよく類似していることを示す類似度（最良類似度）を選択して、当該最良類似度を記憶部に記録してもよい。すなわち、各連結性分ごとに類似度を求めた後、カウントアップ処理および方向を算出してもよい。

（実施形態６）
次に、上記（別の実施形態における数字テンプレートの作成方法）で記載された数字テンプレートを用いた別の実施形態の具体的な処理例の一つを、図１５を参照しつつ説明する。図１５に示されるように、本実施形態では、図１４に示した具体例の処理に加えて、
推定向きが決定されたあと（２４０）、当該推定向きに関する信頼度（確実性度）が判定される（２４２）。

本実施形態において、信頼度は、図８を参照して上述した説明に従い、求められる（２４２）。

（変形例）
上記の実施形態１−６は、これに限定されるものではなく、種々の変更が可能である。以下、この変形例について説明する。

上記の実施形態１−６の説明では、十個のアラビア数字に対応する数字テンプレートを用いるものとした。しかしながら、本発明はこれに限定されるものではない。すなわち、十個のアラビア数字の中から選択された１０個未満のアラビア数字の組合せのみを用いてもよい。この場合、高い向き特性を持つ数字を含むように、より少ない組合せのテンプレートが選ばれる。例えば、十個のアラビア数字のうち、２、３、４、５、７に対応する数字テンプレートのみを用いても良い。これにより、推定向きをより正確に決定できるとともに、処理時間の短縮化を図ることができる。

本発明のいくつかの実施形態では、複数のテスト原稿を分析して、部分集合を決定する。いくつかの実施形態では、上記分析は自動的である。他の実施形態では、上記分析は人間によって行われる。本発明の他の実施形態では、上記部分集合は専門家によって発見的（heuristically）に割り振られる。

なお、上記の実施形態では、４つの基本の向きに対応する数字テンプレートを記憶しており、連結成分を含む部分画像について、全ての向きに対応する数字テンプレートとの照合を行うものとした。しかしながら、本発明はこれに限定されず、向き０度の数字テンプレートのみを記憶していてもよい。この場合、部分画像を９０度ずつ回転させながら、向き０度の数字テンプレートとの照合を行えばよい。

また、上記の説明では、４つの基本の向きに対応する数字テンプレートと部分画像とを照合するものとして説明した。しかしながら、数字テンプレートとしては、４つに限られない。例えば、２つであってもよい。

具体的には、縦長の原稿に対して、横方向に文字が記載された画像データのみを判定対象とする場合には、当該画像データから得られた部分画像が９０度または２７０度の向きの数字テンプレートと一致することがない。そのため、このような画像データのみを判定対象とすることが予めわかっている場合には、０度と１８０度の向きに対応する数字テンプレートのみを記憶しておき、この２つの数字テンプレートと照合すればよい。

また、上記の実施形態では、各向きに対応する一致カウンタは、一ずつカウンタ値を増すものとした。しかしながら、必ずしも「１」ずつ増やさなくてもよい。例えば、数字ごとに予め登録された本発明の他の実施形態では、数字ごとに登録した加算値だけカウンタ値を増やすようにしてもよい。すなわち、数字テンプレートと加算値とを対応付けたテーブルを記憶しておき、部分画像と数字テンプレートとが一致するとみなされたときに、当該数字テンプレートに対応する加算値を上記テーブルから読みだし、当該加算値だけ一致カウンタのカウンタ値を増やす。これにより、数字により異なる加算値となる。すなわち、加算値は、向き特性によって重み付けされる。この変形例では、一致加算器に対する貢献は、一致が向き特有の明確な特性を持つ数字を伴うとき、より大きくなる。つまり、高い向き特性を持つ数字については、加算値を大きな値とし、それ以外の数字については加算値を小さな値とする。これにより、推定向きの決定の精度を高めることができる。なお、加算値の求め方（つまり、特性重み付け）は、一組のテスト原稿を分析して自動的なプロセスによって決められてもよいし、専門家によって開発された発見的方法に従って割り振られてもよい。各数字に対応する加算値は、対称性の小さい数字、つまり、向き特性の高い数字に対応する加算値が相対的に大きくなるように、予め定められている。

（数字文字の検出について）
以下、上記の実施形態１−６で説明を省略した数字文字の検出について説明する。すなわち、上記の実施形態１−６では、原稿画像から抽出した全ての連結成分の中から、数字部分と推定される連結成分を選択し、当該連結成分に対してのみ数字テンプレートとの比較処理を行う。

この数字文字の検出を用いた実施形態について、図１６を参照しつつ説明する。本形態では、全ての連結成分をフィルタリングして（２５０）、調査対象連結成分の候補を決定する。そして、連結成分の候補は、サイズ正規化処理が実行され（２５２）、距離算出処理が実行され（２５４）、参照テンプレート（数字テンプレート）に対して照合される（２５６）。本形態では、全ての連結成分は、２値の連結成分を含んでおり、フィルタリング（２５０）によって、数字と推定される連結成分のみが抽出される。その後、一致カウンタ値が累積され（２５８）、累積された一致カウンタ値に基づいて、推定向きが作られる（２６０）。

また、数字文字の検出を用いた実施形態の別の例について、図１７を参照しつつ説明する。本形態では、全ての連結成分をフィルタリングして（２５０）、調査対象連結成分の候補を決定する。そして、連結成分の候補は、サイズ正規化処理が実行され（２５２）、距離算出処理が実行され（２５４）、参照テンプレート（数字テンプレート）に対して照合される（２５６）。本形態では、全ての連結成分は、２値の連結成分を含んでおり、フィルタリング（２５０）によって、数字と推定される連結成分のみが抽出される。その後、一致カウンタ値が累積され（２５８）、累積された一致カウンタ値に基づいて、推定向きが作られる（２６０）。そして、本形態では、この後、推定向きの妥当性を示す信頼度が判定される（２６２）。本発明のこれらの実施形態では、参照テンプレートとしては向き特有数字テンプレートがある。

本形態は、原稿画像の中の数字文字の位置を特定する方法とシステムを含んでいる。これらの方法とシステムは、連結成分のフィルタリングを実施するために用いられる。この形態では、電子原稿の入力画像から、２値テキストマップが作られる。個々のテキスト文字は、上記２値テキストマップの連続した画素の組（連結成分）として表される。

本発明のいくつかの実施形態では、デジタル原稿画像の個々のテキスト文字は集められて文字列（テキスト行という場合もある）になる。ここで、文字列とは、当該文字列に含まれる文字を読むのに適した方向に並べられた列であり、図１（Ａ）または図１（Ｃ）に示される場合は、文字列は、横方向であり、図１（Ｂ）または図１（Ｄ）に示される場合は、文字列は、縦方向である。図１８Ａに示すように、個々のテキスト文字２７０は、関連境界枠２７１によって表現される。本形態では、テキスト文字境界枠２７１とは、関連テキスト文字２７０が実質的に囲まれる境界枠（外接矩形枠）のことである。もしくは、テキスト文字境界枠２７１とは、関連テキスト文字２７０が完全に含まれる境界枠（外接矩形枠）のことである。境界枠２７１は、２つの向かい合う角の座標、たとえば、境界枠２７１の、（ｘ_１、ｙ_１）と表記される左上の角２７２と（ｘ_２、ｙ_２）と表記される右下の角２７３によって特徴付けられるか、あるいは、第一の角たとえば（ｘ_１、ｙ_１）と表記される左上の角２７２と第一の角からお互いに直角な２つの方向に伸びる境界枠の延長ｄｘ、ｄｙとによって特徴付けられるか、あるいはデジタル原稿画像において境界枠２７１のサイズと位置を特定する他のいかなる方法によってでも特徴付けられる。

一つ以上のテキスト文字を含んでいるテキストオブジェクトは、テキストオブジェクト境界枠によって表される。図１８Ｂに、テキストオブジェクト２７４とテキストオブジェクト境界枠２７５の一例を示す。本発明のいくつかの実施形態では、テキストオブジェクト境界枠２７５は、関連するテキストオブジェクト２７４が実質的に囲まれる境界枠（外接矩形枠）である。もしくは、テキストオブジェクト境界枠２７５は、関連するテキストオブジェクト２７４が完全に含まれる境界枠（外接矩形枠）である。境界枠２７５は、２つの向かい合う角の座標、たとえば、境界枠２７５の、（ｘ_１、ｙ_１）と表記される左上の角２７６と（ｘ_２、ｙ_２）と表記される右下の角２７７によって特徴付けられるか、あるいは、第一の角たとえば（ｘ_１、ｙ_１）と表記される左上の角２７６と第一の角からお互いに直角な２つの方向に伸びる境界枠の延長ｄｘ、ｄｙとによって特徴付けられるか、あるいはデジタル原稿画像において境界枠２７５のサイズと位置を特定する他のいかなる方法によってでも特徴付けられる。

図１９に示すように、文字列２８０は、関連する文字列境界枠２８２によって表される。本発明のいくつかの実施形態では、文字列境界枠２８２は、関連する文字列２８０が実質的に囲まれる境界枠（外接矩形枠）である。もしくは、文字列境界枠２８２は、関連テキストオブジェクト２８０が完全に含まれる境界枠（外接矩形枠）である。文字列境界枠２８２は、左端２８４のｘ座標（ｘ_Ｌと表記）、右端２８５のｘ座標（ｘ_Ｒと表記）、下端２８６のｙ座標（ｙ_Ｂと表記）、上端２８７のｙ座標（ｙ_Ｔと表記）によって表されるか、あるいはデジタル原稿画像における文字列境界枠２８２のサイズと位置を表す他のいかなる方法によっても表される。

本発明のいくつかの実施形態では、文字列境界枠２８２は、文字列２８０の構成要素であるテキスト文字やテキストオブジェクトの個々の境界枠から、下記式に従って決定される。

上記式において、Ｎは文字列におけるテキスト文字やテキストオブジェクトの数、ｙ_１（ｉ）とｙ_２（ｉ）はｉ番目のテキスト文字やテキストオブジェクトや境界枠のｙ_１とｙ_２座標の値であり、ｘ_１（ｉ）とｘ_２（ｉ）はｉ番目のテキスト文字やテキストオブジェクトや境界枠のｘ_１とｘ_２座標の値である。

このような文字列は、例えば、特許文献１に記載のような公知技術を用いて抽出することができる。また、文字列の中の各テキストも、特許文献１に記載のような公知技術を用いて抽出することができる。

図２０Ａ、２０Ｂ、２０Ｃを参照しつつ以下に述べる本発明の実施形態では、印刷関連用語を用いる。この用語は、ラテン文字、ギリシャ文字、キリル文字、デーヴァナーガリー文字その他のアルファベットを用いる言語を含む（ただしこれらに限定されない）文字言語のテキスト文字（文字および符号ともいう）に関するものである。図２０Ａに、大文字と小文字の双方を含むラテンアルファベットの文字列を示す。図２０Ｂに、大文字のみを含むラテンアルファベットの文字列を示す。図２０Ｃに、アラビア数字のみの文字列を示す。

並び線という用語は、テキスト文字がその上に位置する線３００、３１０、３２０を指す。ラテンアルファベットのテキストにおいては、これはすべての大文字と大部分の小文字がその上に位置する線である。ディセンダーは、文字やテキスト文字のうち、並び線３００、３１０、３２０より下に延びる部分を指す。ラテンアルファベットでディセンダーを持つ小文字は、“ｇ”、“ｊ”、“ｐ”、“ｑ”、“ｙ”である。ディセンダー線とは、その線に向かってテキスト文字のディセンダーが伸びる線３０２、３１２、３２２を指す。文字のうち、当該文字の主要部分の上に伸びる部分をアセンダーという。ラテンアルファベットでアセンダーを持つ小文字は、“ｂ”、“ｄ”、“ｆ”、“ｈ”、“ｋ”、“ｌ”、“ｔ”である。ラテンアルファベットの大文字はアセンダーだと見なされる。アセンダー線とは、その線に向かってテキスト文字のアセンダーが伸びる線３０３、３１３、３２３を指す。ラテンアルファベットでアセンダーもディセンダーも持たない小文字の高さ３０４、３１４、３２４は、たとえば“ｘ”ならば、ｘ高さと呼ばれる。アセンダーもディセンダーも持たないこれらの文字の頂点を示す線３０５、３１５、３２５は、ｘ線と呼ばれる。大文字の高さ３０６、３１６、３２６は、上限高さと呼ばれる。

数字の列の持つ性質を利用して、連結成分の候補の数を減らしたり、数字の列を見つけたりできる。小文字と違って、数字列の連結成分の上端と下端にはほとんど変化がない。数字列およびすべての大文字列においては、列境界枠の上端と下端は並び線３００、３１０、３２０およびアセンダー線３０３、３１３、３２３のごく近くに並んでいる。このことは図２０Ｂと２０Ｃから見て取れる。大文字と小文字の双方を含む典型的な文字列では、標準サイズのテキストと大文字の符号にアセンダーやディセンダーが混じるために、文字の上端と下端や文字列の境界は変動する。

そこで、本形態では、再構築された符号列の上端と下端間の変動量を数量化して、大文字と小文字の双方の含む文字列を検出する。

デジタル原稿画像の中で水平の向きにある文字列（ｔと表す）の場合、上限値（ceil(t)と表す）と下限値（floor (t)と表す）は下記式に従って算出される。

上記式において、Ｎは文字列ｔにおけるテキスト文字の数、ｙ_１(i)とｙ_２(i)はｉ番目のテキスト文字境界枠のｙ_１座標値とｙ_２座標値である。上限値は文字境界枠のｙ_１座標値の標本平均だと見なされ、下限値は文字境界枠のｙ_２座標値の標本平均だと見なされる。

デジタル原稿画像の中で垂直の向きにある文字列（ｔと表す）の場合、上限値（ceil(t)と表す）と下限値（floor (t)と表す）は下記式に従って算出される。

上記式において、Ｎは文字列ｔにおけるテキスト文字の数、ｘ_１(i)とｘ_２(i)はｉ番目のテキスト文字境界枠のｘ_１座標値とｘ_２座標値である。上限値は文字境界枠のｘ_１座標値の標本平均だと見なされ、下限値は文字境界枠のｘ_２座標値の標本平均だと見なされる。

標本と、対応する標本平均とのあいだの誤差は、テキストの並び線がどこにあるかを示す指標である。上端及び下端の誤差量を計算し、上端及び下端配列特徴として用いる。

デジタル原稿画像において水平な向きに位置している文字列（ｔと表す）の場合は、誤差量の例として、
下記式に従って計算される平均絶対誤差（Mean Absolute Error (MAE)）

下記式に従って計算される２乗平均誤差（Mean-Square Error(MSE)）

下記式に従って計算される２乗平均平方根誤差(Root Mean-Square Error (RMSE))

およびその他の誤差量が挙げられる。

デジタル原稿画像において垂直な向きに位置している文字列（ｔと表す）の場合は、誤差量の例として、
下記式に従って計算される平均絶対誤差（Mean Absolute Error (MAE)）

およびその他の誤差量が挙げられる。

数字列の場合は、誤差量は小さいと予期される。図２１に示すように、本形態では、このことを用いて、大文字及び小文字が混ざったテキストの候補を除外している。まず、本形態では、文字の連結成分を含む文字列要素を取得する（３３２）。このような文字列要素は、原稿画像のデータについて、例えば、特許文献１に記載のような公知技術を用いることで抽出される。

次に、文字列要素において、各連結成分をラベリングし、当該連結成分の非背景画素すべてを含む最小の境界枠を特定する（３３４）。ここで、境界枠は、連結成分の外接矩形である。そして、外接矩形は、原稿画像の縦方向および横方向に平行な辺を有し、連結成分に外接する矩形である。

この時点では、連結成分として抽出された文字の向きが不明である。そのため、誤差量において境界枠のどの端の組合せを用いなければならないのかはわからない。そこで、本形態では、標本平均を、ｘ座標の組合せとｙ座標の組合せ双方のために、下記式に従って計算する。

上記式において、Ｎは文字列における要素の数である。図２４は、水平方向の文字列における上部ｙ座標の平均値（標本平均）と下部ｙ座標の平均値（標本平均）とを示す図である。

誤差は、各端ごとに、境界枠の端の座標と、対応する標本平均とを用いて算出される（３３８）。各軸ごとの累積誤差は、当該軸の２つの誤差値の合計として、下記式に従って算出される（３４０）。

平均絶対誤差のときの累積誤差は、以下のとおりである。

２乗平均誤差のときの累積誤差は、以下のとおりである。

２乗平均平方根誤差のときの累積誤差は、以下のとおりである。

なお、数２０，２２，２４において、ceil(t)は数１９に示したμ_ｙ ^（１）であり、floor(t)は数１９に示したμ_ｙ ^（２）である。一方、数２１，２３，２５において、ceil(t)は数１９に示したμ_ｘ ^（１）であり、floor(t)は数１９に示したμ_ｘ ^（２）である。

次に、水平軸に対応する誤差値と垂直軸に対応する誤差値とのうちの小さい方の誤差値を選択し、選択した誤差値に対応する軸の方向を文字列の方向として決定する（３４２）。そして、選択された誤差値が、列の種類の決定のために用いられる（３４４）。

列の種類は、最小の累積誤差に関連する誤差値に基づいて推測される（３４４）。本形態では、ｅ^ｔｏｐとｅ^{ｂｏｔｔｏｍ}がともに所定の閾値（Ｔ_ｖと表される）より小さいときは、列の種類が、数字列かすべて大文字の文字列だと見なされる。もしこの条件が満たされないときは、列の種類が、大文字と小文字が混ざり合ったものだと見なされる。

本形態では、平均絶対誤差量を用いて文字列における変動を測定する場合、例えば、閾値Ｔ_ｖ＝１．５が用いられる。

本形態では、文字列をさらに分析して、大文字のみからなる文字列を除外する。こうした実施形態のいくつかでは、文字列における個々の連結成分の縦横比に対する制限を用いて、大文字のみからなる文字列と数字からなる文字列とを区別する。

これらの実施形態では、文字列ｔにおける各連結成分ｉの縦横比ＡＲ_ｔ（ｉ）は、当該連結成分の境界枠の対角線上に位置する角の座標を用いて、下記式に従って算出される。

そして、文字列に含まれる全ての連結成分の縦横比の平均μ_ＡＲと平方偏差（分散）σ^２ _ＡＲが算出される。本形態では、μ_ＡＲ＞Ｔ_ＡＲμかつσ^２ _ＡＲ＜Ｔ_ＡＲσのときは、文字列は数字列としてラベリングされ、そうでないときはそれ以外の列としてラベリングされる。Ｔ_ＡＲμとＴ_ＡＲσはさまざまな方法で決定される閾値である。たとえば、トレーニングデータを分析することによって、専門家によって開発される発見的（heuristic）方法に従って、あるいは他の方法によって、予め決定される閾値である。これは、数字は、大文字に比べて、縦横比が相対的に大きく、かつ、その縦横比の数字の種類による変化が小さいことに基づいている。

また、本形態の一具体例では、文字列における連結成分の数の制限を用いて、ある文字列が数字文字列かどうかを判定してもよい。本実施形態では、文字列における連結成分素の数Ｎが閾値Ｔ_{ｌｅｎｇｔｈ}を上回るときは、その列はそれ以上考慮されない。本発明のいくつかの実施形態では、Ｔ_{ｌｅｎｇｔｈ}＝２４である。これは、数字列では、数字の個数が通常２４以下であり、２４を越える場合はアルファベットからなるテキストである確率が非常に高いことに基づいている。

本形態の一具体例では、文字列とその要素は、以下の条件１〜４のすべてが満たされた場合、数字列だと見なしてもよい。
条件１．ｅ^ｔｏｐ≦Ｔ_ｖかつｅ^{ｂｏｔｔｏｍ}≦Ｔ_ｖ
条件２．μ_ＡＲ＞Ｔ_ＡＲμ
条件３．σ^２ _ＡＲ＜Ｔ_ＡＲσ
条件４．Ｎ＜Ｔ_{ｌｅｎｇｔｈ}
あるいは、条件２および条件３のみが満たされた場合に、数字列だと見なしても良い。あるいは、条件２、条件３および条件４のみが満たされた場合に、数字列だと見なしても良い。あるいは、条件１、条件２および条件３のみが満たされた場合に、数字列だと見なしても良い。あるいは、条件１および条件４のみが見たされた場合に、数字列だと見なしても良い。あるいは、条件２、条件３および条件４のみが満たされた場合に、数字列だと見なしても良い。あるいは、条件２のみが満たされた場合に、数字列だと見なしても良い。あるいは、条件３のみが満たされた場合に、数字列だと見なしても良い。あるいは、条件１および条件２のみが満たされた場合に、数字列だと見なしても良い。あるいは、条件１および条件３のみが満たされた場合に、数字列だと見なしても良い。

一般に、アラビア数字の全ては、アルファベットの大文字および小文字に比べて、縦横比が大きい。アルファベットの小文字の中には、「ｂ」「ｊ」のように縦横比の大きなものも存在するが、「ａ」「ｃ」「ｓ」のように縦横比の小さいものも存在する。そのため、文字列の中の複数の連結成分の縦横比の平均値を取る場合、アルファベットの小文字からなる文字列のときの平均値は、アラビア数字からなる文字列のときの平均値よりも小さくなる。そのため、条件２のみであっても、アラビア数字の文字列を抽出できる。

また、アラビア数字の全ては、アルファベットの大文字および小文字に比べて、ほぼ同じ縦横比を有する。一方、アルファベットの小文字の中には、「ｂ」「ｊ」のように縦横比の大きなものも存在するが、「ａ」「ｃ」「ｓ」のように縦横比の小さいものも存在する。また、アルファベットの大文字の中には、「Ｊ」「Ｉ」のように縦横比の大きなものも存在するが、「Ｍ」「Ｃ」「Ｗ」のように縦横比の小さいものも存在する。そのため、文字列の中の複数の連結成分の縦横比の分散値を取る場合、アルファベットからなる文字列のときの分散値は、アラビア数字からなる文字列のときの分散値よりも大きくなる。そのため、条件３のみであっても、アラビア数字の文字列を抽出できる。

なお、分散値の代わりに標準偏差を用いても良い。

本発明のいくつかの実施形態では、ある文字列についてすべての条件が調べられる。本発明の他の実施形態では、上記条件は漸次調べられる、すなわち現在調べられている条件が満たされたときのみ、次の条件が調べられる。

なお、本処理例は、上記のようにアルファベットの大文字・小文字、数字の形状の特徴に着目したものである。そのため、本処理例により数字列抽出の対象となる原稿画像は、アルファベットおよび数字からなる原稿画像であることが好ましい。

（本発明の適用例）
次に本発明の適用例について説明する。図２５は、本発明に係る画像の向きの判定方法を適用した原稿方向判定装置５００および周辺装置を含む原稿方向判定システムの構成を示すブロック図である。

図２５に示されるように、原稿方向判定システムは、数字列抽出装置４００と、原稿方向判定装置５００と、画像表示装置（画像出力装置）６００と、画像形成装置（画像出力装置）７００と、画像処理装置（画像出力装置）８００とを備える。

数字列抽出装置４００は、アルファベットおよび数字からなるテキストを含む原稿画像の電子データから、数字列を抽出するものである。すなわち、数字列抽出装置４００は、原稿画像の電子データに基づいて、例えば特許文献１に記載された方法に従って文字列（なお列の方向は、原稿画像の縦方向または横方向である）を抽出する。そして、数字列抽出装置４００は、抽出した文字列に含まれる各連結成分を特定し、ラベリングする。また、数字列抽出装置４００は、各連結成分について、外接矩形である境界枠の位置を特定する。その後、数字列抽出装置４００は、数１９〜２５に示されるように、累積誤差を算出し、その誤差値に基づいて、大文字および小文字の双方を含む文字列であるか否かを判定する。次に、数字列抽出装置４００は、大文字および小文字の双方を含む文字列ではないと判定した文字列について、上述したように以下の条件１−４の全てを満たす文字列を数字列として抽出する。
条件１．ｅ^ｔｏｐ≦Ｔ_ｖかつｅ^{ｂｏｔｔｏｍ}≦Ｔ_ｖ
条件２．μ_ＡＲ＞Ｔ_ＡＲμ
条件３．σ^２ _ＡＲ＜Ｔ_ＡＲσ
条件４．Ｎ＜Ｔ_{ｌｅｎｇｔｈ}
そして、数字列抽出装置４００は、抽出した数字列の位置を特定する情報を、原稿方向判定装置５００に出力する。なお、数字列抽出装置４００の具体的な処理方法は、上記（数字文字の検出について）で述べたとおりである。

なお、数字列抽出装置４００は、上記の条件１−４の全てを満たす文字列を数字列として抽出する場合に限定されない。すなわち、数字列抽出装置４００は、上記の条件１３のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置４００は、上記の条件２および条件３のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置４００は、上記の条件２、条件３および条件４のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置４００は、上記の条件１、条件２および条件３のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置４００は、上記の条件１および条件４のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置４００は、上記の条件２、条件３および条件４のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置４００は、上記の条件２のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置４００は、上記の条件３のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置４００は、上記の条件１および条件２のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置４００は、上記の条件１および条件３のみを満たす文字列を数字列として抽出してもよい。

原稿方向判定装置５００は、入力された原稿画像の電子データについて、原稿の向きを判定するものである。原稿方向判定装置５００は、数字テンプレート作成部５０１、数字テンプレート記憶部５０２、連結成分抽出部５０３、サイズ正規化部５０４、距離算出部５０５、照合部５０６、推定部５０７、信頼度判定部５０８を備えている。

数字テンプレート作成部５０１は、上記（実施形態１・２における数字テンプレートの作成方法）に従って、数字テンプレートを作成し、数字テンプレート記憶部５０２に格納するものである。

連結成分抽出部５０３は、上記実施形態１〜６で説明したように、原稿画像の中から、連結成分の外接矩形で囲まれる部分画像を切り出す処理を行うものである。なお、数字列抽出装置４００から数字列の位置を特定する情報を受けた場合、当該情報で示される位置からのみ部分画像を切り出すものとする。

サイズ正規化部５０４は、上記実施形態１〜６で説明したように、連結成分抽出部５０３で切り出された部分画像について、数字テンプレート記憶部５０２に格納されている数字テンプレートと同じサイズにサイズ正規化を行うものである。

距離算出部５０５は、上記実施形態１・２で説明したように、サイズ正規化された部分画像について、距離算出処理を実行し、非背景画素からの距離を示す値を画素値として割り振るものである。

照合部５０６は、上記実施形態１・２で説明したように、距離算出処理が実行された部分画像と数字テンプレートとの照合を行い、類似度を求めるものである。そして、照合部５０６は、類似度に基づいて、各向きの一致カウンタのカウンタ値を増やす処理を行う。

推定部５０７は、上記実施形態１〜６で説明したように、照合部５０６により更新された各向きの一致カウンタのカウンタ値に基づいて、原稿画像の向きを推定するものである。

信頼度判定部５０８は、上記実施形態２・４・６で説明したように、信頼度を求め、推定部５０７で推定された向き（推定向き）を出力するか否かを判断するものである。

画像表示装置６００は、原稿方向判定装置５００から出力された推定向きに従って、入力された原稿画像の回転処理を実行し、表示部に表示させるものである。画像表示装置６００は、原稿画像の天地方向と、表示部の天地方向とが一致するように原稿画像を回転させる。具体的には、画像表示装置６００は、原稿画像の天地方向と表示部の天地方向とが一致するように、推定向きと回転角度とが予め対応付けられた情報を記憶している。そして、画像表示装置６００は、当該情報に基づいて、原稿方向判定装置５００から出力された推定向きに対応する回転角度だけ原稿画像を回転させ、表示させる。これにより、原稿画像の天地方向と、表示部の天地方向とが一致した状態で、原稿画像を表示させることができる。

画像形成装置７００は、原稿方向判定装置５００から出力された推定向きに従って、入力された原稿画像の回転処理を実行し、用紙に当該原稿画像を印刷するものである。画像形成装置７００は、用紙に対する原稿画像の天地方向が常に一定になるように原稿画像を回転させる。具体的には、画像形成装置７００は、用紙に対する原稿画像の天地方向が常に一定になるように、推定向きと回転角度とが予め対応付けられた情報を記憶している。そして、画像形成装置７００は、当該情報に基づいて、原稿方向判定装置５００から出力された推定向きに対応する回転角度だけ原稿画像を回転させ、印刷する。これにより、用紙に対する原稿画像の天地方向が常に一定になる。そのため、あるページだけが反転されていても、当該ページの画像だけが回転処理され、印刷物における原稿画像の天地方向は全てのページにおいて同じになる。そのため、ステープルやパンチングなどの後処理を行う機能を画像形成装置７００が有していたとしても、全ての用紙に印刷された原稿画像の向きが一致した状態で綴じることができる。

画像処理装置８００は、入力された原稿画像の電子データに対して、所定の画像処理を行い、処理結果を出力するものである。例えば、画像処理装置８００は、原稿画像の中からテキストデータを抽出するOCR処理を実行する。このとき、画像処理装置８００は、原稿方向判定装置５００から出力された推定向きに従ってOCR処理を実行する。これにより、画像処理装置８００は、適切な方向に従ったテキストデータを生成することができる。

なお、原稿方向判定システムは、数字列抽出装置４００を備えていなくてもよい。この場合、原稿方向判定装置５００の連結成分抽出部５０３は、原稿画像の中の連結成分を全て抽出すればよい。

また、原稿方向判定装置５００は、距離算出部５０５を備えていなくてもよい。この場合、数字テンプレート作成部５０１は、上記の（別の実施形態における数字テンプレートの作成方法）に従って数字テンプレートを作成すればよい。また、照合部５０６は、上記実施形態４〜６で説明したように、サイズ正規化された部分画像と数字テンプレートとの照合を行い、類似度を求めればよい。

また、原稿方向判定装置５００は、信頼度判定部５０８を備えていなくても良い。この場合、推定部５０７は、決定した推定向きを外部装置（画像表示装置６００、画像形成装置７００、画像処理装置８００など）に出力すればよい。

上記の明細書において用いられた用語と表現は本発明を記述するためのものであり、限定するためのものではなく、そうした用語と表現の使用には、提示され記述された諸特徴の同等物またはその一部を除外する意図はなく、本発明の範囲は以下に述べる特許請求の範囲によってのみ定義され限定される。

なお、本発明は、以下のようにも表現できる。

（１）本発明は、デジタル画像内の数字連結成分を検知する方法であって、ａ）デジタル画像内の複数の連結成分を含むテキスト行要素を受け取る工程と、ｂ）上記複数の連結成分のそれぞれに要素境界枠を決定する工程であって、当該要素境界枠のそれぞれは、第一辺座標、第二辺座標、第三辺座標、第四辺座標を含んでおり、当該第一辺座標と当該第二辺座標は当該境界枠の第一の軸と関連し、当該第三辺座標と当該第四辺座標は当該境界枠の第二の軸と関連する工程と、ｃ）上記第一辺座標と関連する第一の変動量を判定する工程と、ｄ）上記第二辺座標と関連する第二の変動量を判定する工程と、ｅ）上記第三辺座標と関連する第三の変動量を判定する工程と、ｆ）上記第四辺座標と関連する第四の変動量を判定する工程と、ｇ）上記第一の変動量と上記第二の変動量との第一の累積を判定する工程と、ｈ）上記第三の変動量と上記第四の変動量との第二の累積を判定する工程と、ｉ）上記第一の累積と上記第二の累積とが第一の基準を満たす場合、ｉ）上記第一の変動量が第一の閾値基準を満たし、かつ上記第二の変動量が第二の閾値基準を満たすならば、上記テキスト行要素を数字要素に分類し、ｉｉ）上記第一の変動量が上記第一の閾値基準を満たさないか、上記第二の変動量が上記第二の閾値基準を満たさないならば、上記テキスト行要素を非数字要素に分類する工程と、ｊ）上記第一の累積と上記第二の累積とが上記第一の基準を満たさない場合、ｉ）上記第三の変動量が第三の閾値基準を満たし、上記第四の変動量が第四の閾値基準を満たすならば、上記テキスト行要素を数字要素に分類し、ｉｉ）上記第三の変動量が上記第三の閾値基準を満たさないか、上記第四の変動量が上記第四の閾値基準を満たさないならば、上記テキスト行要素を非数字要素に分類する工程と、を含む。

（２）なお、ａ）上記第一辺座標と関連する第一の変動量を判定する上記工程は、上記第一辺座標の第一代表値を計算する工程を含み、ｂ) 上記第二辺座標と関連する第二の変動量を判定する上記工程は、上記第二辺座標の第二代表値を計算する工程を含み、ｃ）上記第三辺座標と関連する第三の変動量を判定する上記工程は、上記第三辺座標の第三代表値を計算する工程を含み、ｄ）上記第四辺座標と関連する第四の変動量を判定する上記工程は、上記第四辺座標の第四代表値を計算する工程を含むことが好ましい。

（３）また、ａ）上記第一代表値は上記第一辺座標の標本平均であり、ｂ）上記第二代表値は上記第二辺座標の標本平均であり、ｃ）上記第三代表値は上記第三辺座標の標本平均であり、ｄ）上記第四代表値は上記第四辺座標の標本平均であることが好ましい。

（４）また、ａ）第一の変動量を判定する上記工程は、上記第一の代表値と上記第一辺座標との第一誤差量を算出する工程を含み、ｂ）第二の変動量を判定する上記工程は、上記第二の代表値と上記第二辺座標との第二誤差量を算出する工程を含み、ｃ）第三の変動量を判定する上記工程は、上記第三の代表値と上記第三辺座標との第三誤差量を算出する工程を含み、ｄ）第四の変動量を判定する上記工程は、上記第四の代表値と上記第四辺座標との第四誤差量を算出する工程を含むことが好ましい。

（５）また、ａ）上記第一誤差量は、平均絶対誤差、二乗平均誤差、二乗平均平方根誤差から選ばれる誤差量であり、ｂ）上記第二誤差量は、平均絶対誤差、二乗平均誤差、二乗平均平方根誤差から選ばれる誤差量であり、ｃ）上記第三誤差量は、平均絶対誤差、二乗平均誤差、二乗平均平方根誤差から選ばれる誤差量であり、ｄ）上記第四誤差量は、平均絶対誤差、二乗平均誤差、二乗平均平方根誤差から選ばれる誤差量であることが好ましい。

（６）また、上記（１）において、上記テキスト行要素が数字要素に分類された場合、ｉ）上記複数の連結成分のそれぞれの縦横比を算出し、それによって複数の縦横比を作り出す工程と、ｉｉ）上記複数の縦横比の平均を算出する工程と、ｉｉｉ）上記複数の縦横比の平方偏差を算出する工程と、ｉｖ）上記平均と上記平方偏差に基づいて、上記テキスト行要素を再分類する工程と、をさらに含むことが好ましい。

（７）そして、上記（６）において、上記テキスト行要素を再分類する上記工程は、ａ）上記平均が第一の平均基準を満たし、かつ上記平方偏差が第一の平方偏差基準を満たすときは、上記テキスト行要素を数字に再分類し、ｂ）上記平均が上記第一の平均基準を満たさないか、上記平方偏差が上記第一の平方偏差基準を満たさないときは、上記テキスト行要素を非数字に再分類する工程を含むことが好ましい。

（８）そして、上記（７）において、上記テキスト行要素が数字要素に再分類されたとき、上記複数の連結成分における連結成分の数に基づいて、上記テキスト行要素を再分類する工程をさらに含むことが好ましい。

（９）または、上記（１）において、上記テキスト行要素が数字要素に分類されたとき、上記複数の連結成分における連結成分の数に基づいて、上記テキスト行要素を再分類する工程をさらに含むことが好ましい。

（１０）そして、上記（９）において、上記テキスト行要素を再分類する上記工程は、ａ）連結成分の上記数が第一の量基準を満たすときは、上記テキスト行要素を数字要素に再分類し、ｂ）連結成分の上記数が上記第一の量基準を満たさないときは、上記テキスト行要素を非数字要素に再分類することが好ましい。

（１１）また、本発明は、デジタル画像内の数字連結成分を検知する方法であって、ａ）デジタル画像内の複数の連結成分を含むテキスト行要素を受け取る工程と、ｂ）上記複数の連結成分における上記連結成分のそれぞれの縦横比を算出し、それにより複数の縦横比を作り出す工程と、ｃ）上記複数の縦横比の第一の特徴を算出する工程と、ｄ）上記第一の特徴が第一の基準を満たすときは、上記テキスト行要素を数字要素に分類する工程と、ｅ）上記第一の特徴が第一の基準を満たさないときは、上記テキスト行要素を非数字要素に分類する工程と、を含む。

（１２）上記（１１）において、上記第一の特徴は、上記複数の縦横比の平均である。

（１３）もしくは、上記（１１）において、上記第一の特徴は、上記複数の縦横比の標準偏差である。

（１４）もしくは、上記（１１）において、上記複数の縦横比の第二の特徴を算出する工程をさらに含み、上記第一の基準は、第二の基準を満たす上記第一の特徴と第三の基準を満たす上記第二の特徴とを含むことが好ましい。

（１５）そして、上記（１４）において、上記第二の特徴は、平均と平方偏差から選ばれることが好ましい。

（１６）また、上記（１１）において、上記複数の連結成分における連結成分の数を判定する工程と、上記複数の縦横比の第二の特徴を算出する工程と、をさらに含み、上記第一の基準は、第二の基準を満たす上記第一の特徴と、第三の基準を満たす上記第二の特徴と、量基準を満たす連結成分の上記数と、を含むことが好ましい。

（１７）そして、上記（１６）において、ａ）上記複数の連結成分のそれぞれに要素境界枠を決定する工程であって、当該要素境界枠のそれぞれは、第一辺座標、第二辺座標、第三辺座標、第四辺座標を含んでおり、当該第一辺座標と当該第二辺座標は当該境界枠の第一の軸と関連し、当該第三辺座標と当該第四辺座標は当該境界枠の第二の軸と関連する工程と、ｂ）上記第一辺座標と関連する第一の変動量を判定する工程と、ｃ）上記第二辺座標と関連する第二の変動量を判定する工程と、ｄ）上記第三辺座標と関連する第三の変動量を判定する工程と、ｅ）上記第四辺座標と関連する第四の変動量を判定する工程と、ｆ）上記第一の変動量と上記第二の変動量との第一の累積を判定する工程と、ｇ）上記第三の変動量と上記第四の変動量との第二の累積を判定する工程と、ｈ）上記第一の累積と上記第二の累積とが第一の累積基準を満たす場合、ｉ）上記第一の変動量と等しいように第一の変動特徴を設定し、ｉｉ）上記第二の変動量と等しいように第二の変動特徴を設定する工程と、ｉ）上記第一の累積と上記第二の累積とが第一の累積基準を満たさない場合、ｉ）上記第三の変動量と等しいように上記第一の変動特徴を設定し、ｉｉ）上記第四の変動量と等しいように上記第二の変動特徴を設定する工程と、をさらに含み、ｊ）上記第一の基準は、上記第二の基準を満たす上記第一の特徴と、上記第三の基準を満たす上記第二の基準と、上記量基準を満たす連結成分の上記数と、第四の基準を満たす上記第一の変動特徴と、第五の基準を満たす上記第二の変動特徴と、を含むことが好ましい。

（１８）そして、上記（１７）において、ａ）第一の変動量を判定する上記工程は、ｉ）上記第一辺座標の第一の代表値を算出する工程と、ｉｉ）上記第一の代表値と上記第一辺座標との第一の誤差量を算出する工程を含み、ｂ）第二の変動量を判定する上記工程は、ｉ）上記第二辺座標の第二の代表値を算出する工程と、ｉｉ）上記第二の代表値と上記第二辺座標との第二の誤差量を算出する工程を含み、ｃ）第三の変動量を判定する上記工程は、ｉ）上記第三辺座標の第三の代表値を算出する工程と、ｉｉ）上記第三の代表値と上記第三辺座標との第三の誤差量を算出する工程を含み、ｄ）第四の変動量を判定する上記工程は、ｉ）上記第四辺座標の第四の代表値を算出する工程と、ｉｉ）上記第四の代表値と上記第四辺座標との第四の誤差量を算出する工程と、を含むことが好ましい。

（１９）また、上記（１１）において、ａ）上記複数の連結成分のそれぞれに要素境界枠を決定する工程であって、当該要素境界枠のそれぞれは、第一辺座標、第二辺座標、第三辺座標、第四辺座標を含んでおり、当該第一辺座標と当該第二辺座標は当該境界枠の第一の軸と関連し、当該第三辺座標と当該第四辺座標は当該境界枠の第二の軸と関連する工程と、ｂ）上記第一辺座標と関連する第一の変動量を判定する工程と、ｃ）上記第二辺座標と関連する第二の変動量を判定する工程と、ｄ）上記第三辺座標と関連する第三の変動量を判定する工程と、ｅ）上記第四辺座標と関連する第四の変動量を判定する工程と、ｆ）上記第一の変動量と上記第二の変動量との第一の累積を判定する工程と、ｇ）上記第三の変動量と上記第四の変動量との第二の累積を判定する工程と、ｈ）上記第一の累積と上記第二の累積とが第一の累積基準を満たす場合、ｉ）上記第一の変動量と等しいように第一の変動特徴を設定し、ｉｉ）上記第二の変動量と等しいように第二の変動特徴を設定する工程と、ｉ）上記第一の累積と上記第二の累積とが上記第一の累積基準を満たさない場合、ｉ）上記第三の変動量と等しいように上記第一の変動特徴を設定し、ｉｉ）上記第四の変動量と等しいように上記第二の変動特徴を設定する工程と、をさらに含み、ｊ）上記第一の基準は、第二の基準を満たす上記第一の特徴と、第三の基準を満たす上記第二の特徴と、第四の基準を満たす上記第一の変動特徴と、第五の基準を満たす上記第二の変動特徴と、を含むことが好ましい。

（２０）そして、上記（１９）において、ａ）第一の変動量を判定する上記工程は、ｉ）上記第一辺座標の第一の代表値を算出する工程と、ｉｉ）上記第一の代表値と上記第一辺座標との第一の誤差量を算出する工程を含み、ｂ）第二の変動量を判定する上記工程は、ｉ）上記第二辺座標の第二の代表値を算出する工程と、ｉｉ）上記第二の代表値と上記第二辺座標との第二の誤差量を算出する工程を含み、ｃ）第三の変動量を判定する上記工程は、ｉ）上記第三辺座標の第三の代表値を算出する工程と、ｉｉ）上記第三の代表値と上記第三辺座標との第三の誤差量を算出する工程を含み、ｄ）第四の変動量を判定する上記工程は、ｉ）上記第四辺座標の第四の代表値を算出する工程と、ｉｉ）上記第四の代表値と上記第四辺座標との第四の誤差量を算出する工程と、を含むことが好ましい。

（２１）また、本発明は、デジタル画像内の数字連結成分を検知する方法であって、ａ）デジタル画像内の複数の連結成分を含むテキスト行要素を受け取る工程と、ｂ）上記複数の連結成分における連結成分の数を判定する工程と、ｃ）連結成分の上記数が量基準を満たすときは、上記テキスト行要素を数字要素に分類する工程と、ｄ）連結成分の上記数が上記量基準を満たさないときは、上記テキスト行要素を非数字要素に分類する工程と、を含む。

最後に、原稿方向判定装置５００の各ブロック、ハードウェアロジックによって構成してもよいし、次のようにＣＰＵを用いてソフトウェアによって実現してもよい。

すなわち、原稿方向判定装置５００は、各機能を実現する制御プログラムの命令を実行するＣＰＵ（central processing unit）、上記プログラムを格納したＲＯＭ（read only memory）、上記プログラムを展開するＲＡＭ（random access memory）、上記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである原稿方向判定装置５００の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、上記原稿方向判定装置５００に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。

また、原稿方向判定装置５００を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

２・４・６・８テキスト原稿
４００数字列抽出装置
５００原稿方向判定装置
５０１数字テンプレート作成部
５０２数字テンプレート記憶部
５０３連結成分抽出部
５０４サイズ正規化部
５０５距離算出部
５０６照合部
５０７推定部
５０８信頼度判定部
６００画像表示装置
７００画像形成装置
８００画像処理装置

Claims

デジタル画像内の数字連結成分を検知する方法であって、
ａ）デジタル画像内の文字列の候補である文字列要素を取得する工程と、
ｂ）上記文字列要素に含まれる非背景画素の連結成分の各々について、所定の第１軸に平行な第１辺および第２辺と当該第１軸に垂直な第２軸に平行な第３辺および第４辺とを有する外接矩形枠を決定する工程と、
ｃ）上記連結成分の各々について、上記第１辺の上記第２軸上の座標である第１辺座標と、上記第２辺の上記第２軸上の座標である第２辺座標と、上記第３辺の上記第１軸上の座標である第３辺座標と、上記第４辺の上記第１軸上の座標である第４辺座標とを求める工程と、
ｄ）上記文字列要素に含まれる複数の上記連結成分について、上記第１辺座標の変動量を示す第１変動量と、上記第２辺座標の変動量を示す第２変動量と、上記第３辺座標の変動量を示す第３変動量と、上記第４辺座標の変動量を示す第４変動量とを求める変動量算出工程と、
ｅ）上記第１変動量と上記第２変動量との和が上記第３変動量と上記第４変動量との和よりも小さい場合、上記第１変動量が所定の第１閾値よりも小さく、かつ、上記第２変動量が所定の第２閾値よりも小さいときに、上記文字列要素をアラビア数字からなる文字列の候補である数字列候補として分類し、上記第１変動量が上記第１閾値以上であるか、または、上記第２変動量が上記第２閾値以上であるときに、上記文字列要素をアルファベットの大文字と小文字との混合文字列として分類し、
上記第１変動量と上記第２変動量との和が上記第３変動量と上記第４変動量との和よりも大きい場合、上記第３変動量が所定の第３閾値よりも小さく、かつ、上記第４変動量が所定の第４閾値よりも小さいときに、上記文字列要素をアラビア数字からなる文字列の候補である数字列候補として分類し、上記第３変動量が上記第３閾値以上であるか、または、上記第４変動量が上記第４閾値以上であるときに、上記文字列要素をアルファベットの大文字と小文字との混合文字列として分類する数字列候補分類工程と、
を含む方法。
上記変動量算出工程は、
上記文字列要素に含まれる複数の連結成分の第１辺座標の代表値である第１代表値と、当該複数の連結成分の第２辺座標の代表値である第２代表値と、当該複数の連結成分の第３辺座標の代表値である第３代表値と、当該複数の連結成分の第４辺座標の代表値である第４代表値とを求める工程と、
上記第１変動量として、上記複数の連結成分の各々の第１辺座標と上記第１代表値との誤差量の平均値を算出し、上記第２変動量として、上記複数の連結成分の各々の第２辺座標と上記第２代表値との誤差量の平均値を算出し、上記第３変動量として、上記複数の連結成分の各々の第３辺座標と上記第３代表値との誤差量の平均値を算出し、上記第４変動量として、上記複数の連結成分の各々の第４辺座標と上記第４代表値との誤差量の平均値を算出する工程とを含む、
請求項１に記載のデジタル画像内の数字連結成分を検知する方法。
上記第１代表値は、上記複数の連結成分の第１辺座標の平均値であり、
上記第２代表値は、上記複数の連結成分の第２辺座標の平均値であり、
上記第３代表値は、上記複数の連結成分の第３辺座標の平均値であり、
上記第４代表値は、上記複数の連結成分の第４辺座標の平均値である、
請求項２に記載のデジタル画像内の数字連結成分を検知する方法。
上記誤差量は、平均絶対誤差、二乗平均誤差、二乗平均平方根誤差から選ばれる誤差量である、請求項２または３に記載のデジタル画像内の数字連結成分を検知する方法。
上記数字列候補分類工程にて分類された数字列候補に含まれる複数の連結成分の各々について、当該連結成分の上記外接矩形枠の縦横比を算出する工程と、
上記複数の連結成分の上記縦横比の平均値を算出する工程と、
上記複数の連結成分の上記縦横比の分散値または標準偏差を算出する工程と、
上記縦横比の平均値が所定の第５閾値よりも大きく、かつ、上記縦横比の分散値または標準偏差が所定の第６閾値よりも小さい場合に、上記数字列候補を、アラビア数字からなる数字列として決定し、上記縦横比の平均値が上記第５閾値以下である、もしくは、上記縦横比の分散値または標準偏差が上記第６閾値以上である場合に、上記数字列候補を、非数字文字を含む文字列として決定する工程と、をさらに含む、請求項１から４のいずれか１項に記載のデジタル画像内の数字連結成分を検知する方法。
上記数字列候補分類工程にて分類された数字列候補に含まれる複数の連結成分の各々について、当該連結成分の上記外接矩形枠の縦横比を算出する工程と、
上記複数の連結成分の上記縦横比の平均値を算出する工程と、
上記複数の連結成分の上記縦横比の分散値または標準偏差を算出する工程と、
上記縦横比の平均値が所定の第５閾値よりも大きく、かつ、上記縦横比の分散値または標準偏差が所定の第６閾値よりも小さく、かつ、上記数字列候補に含まれる連結成分の個数が所定の第７閾値より小さい場合に、上記数字列候補を、アラビア数字からなる数字列として決定し、上記縦横比の平均値が上記第５閾値以下である、もしくは、上記縦横比の分散値または標準偏差が上記第６閾値以上である、もしくは、上記数字列候補に含まれる連結成分の個数が上記第７閾値以上である場合に、上記数字列候補を、非数字文字を含む文字列として決定する工程と、をさらに含む、請求項１から４のいずれか１項に記載のデジタル画像内の数字連結成分を検知する方法。
上記数字列候補分類工程にて分類された数字列候補に含まれる連結成分の個数が所定の第７閾値より小さい場合に、上記数字列候補をアラビア数字からなる数字列として決定し、上記数字列候補に含まれる連結成分の個数が上記第７閾値以上である場合に、上記数字列候補を、非数字文字を含む文字列として決定する工程、をさらに含む、請求項１から４のいずれか１項に記載のデジタル画像内の数字連結成分を検知する方法。
デジタル画像内の数字連結成分を検知する方法であって、
ａ）デジタル画像内の文字列の候補である文字列要素を取得する工程と、
ｂ）上記文字列要素に含まれる非背景画素の連結成分の各々について、当該連結成分の上記外接矩形枠の縦横比を算出する工程と、
ｃ）上記複数の連結成分の上記縦横比の平均値を算出する工程と、
ｄ）上記縦横比の平均値が所定の第１閾値よりも大きい場合に、上記文字列要素を、アラビア数字からなる数字列として決定し、上記縦横比の平均値が上記第１閾値以下である場合に、上記文字列要素を、非数字文字を含む文字列として決定する工程と、
を含むデジタル画像内の数字連結成分を検知する方法。
デジタル画像内の数字連結成分を検知する方法であって、
ａ）デジタル画像内の文字列の候補である文字列要素を取得する工程と、
ｂ）上記文字列要素に含まれる非背景画素の連結成分の各々について、当該連結成分の上記外接矩形枠の縦横比を算出する工程と、
ｃ）上記複数の連結成分の上記縦横比の分散値または標準偏差を算出する工程と、
ｄ）上記縦横比の分散値または標準偏差が所定の第２閾値よりも小さい場合に、上記文字列要素を、アラビア数字からなる数字列として決定し、上記縦横比の分散値または標準偏差が上記第２閾値以上である場合に、上記文字列要素を、非数字文字を含む文字列として決定する工程と、
を含むデジタル画像内の数字連結成分を検知する方法。
デジタル画像内の数字連結成分を検知する方法であって、
ａ）デジタル画像内の文字列の候補である文字列要素を取得する工程と、
ｂ）上記文字列要素に含まれる非背景画素の連結成分の各々について、当該連結成分の上記外接矩形枠の縦横比を算出する工程と、
ｃ）上記複数の連結成分の上記縦横比の平均値を算出する工程と、
ｄ）上記複数の連結成分の上記縦横比の分散値または標準偏差を算出する工程と、
ｅ）上記縦横比の平均値が所定の第１閾値よりも大きく、かつ、上記縦横比の分散値または標準偏差が所定の第２閾値よりも小さい場合に、上記文字列要素を、アラビア数字からなる数字列として決定し、上記縦横比の平均値が上記第１閾値以下である、もしくは、上記縦横比の分散値または標準偏差が上記第２閾値以上である場合に、上記文字列要素を、非数字文字を含む文字列として決定する工程と、
を含むデジタル画像内の数字連結成分を検知する方法。
デジタル画像内の数字連結成分を検知する方法であって、
ａ）デジタル画像内の文字列の候補である文字列要素を取得する工程と、
ｂ）上記文字列要素に含まれる非背景画素の連結成分の各々について、当該連結成分の上記外接矩形枠の縦横比を算出する工程と、
ｃ）上記複数の連結成分の上記縦横比の平均値を算出する工程と、
ｄ）上記縦横比の平均値が所定の第１閾値よりも大きく、かつ、上記文字列要素に含まれる連結成分の個数が所定の第３閾値より小さい場合に、上記文字列要素を、アラビア数字からなる数字列として決定し、上記縦横比の平均値が上記第１閾値以下である、もしくは、上記文字列要素に含まれる連結成分の個数が上記第３閾値以上である場合に、上記文字列要素を、非数字文字を含む文字列として決定する工程と、
を含むデジタル画像内の数字連結成分を検知する方法。
デジタル画像内の数字連結成分を検知する方法であって、
ａ）デジタル画像内の文字列の候補である文字列要素を取得する工程と、
ｂ）上記文字列要素に含まれる非背景画素の連結成分の各々について、当該連結成分の上記外接矩形枠の縦横比を算出する工程と、
ｃ）上記複数の連結成分の上記縦横比の分散値または標準偏差を算出する工程と、
ｄ）上記縦横比の分散値または標準偏差が所定の第２閾値よりも小さく、かつ、上記文字列要素に含まれる連結成分の個数が所定の第３閾値より小さい場合に、上記文字列要素を、アラビア数字からなる数字列として決定し、上記縦横比の分散値または標準偏差が上記第２閾値以上である、もしくは、上記文字列要素に含まれる連結成分の個数が上記第３閾値以上である場合に、上記文字列要素を、非数字文字を含む文字列として決定する工程と、
を含むデジタル画像内の数字連結成分を検知する方法。
デジタル画像内の数字連結成分を検知する方法であって、
ａ）デジタル画像内の文字列の候補である文字列要素を取得する工程と、
ｂ）上記文字列要素に含まれる非背景画素の連結成分の各々について、当該連結成分の上記外接矩形枠の縦横比を算出する工程と、
ｃ）上記複数の連結成分の上記縦横比の平均値を算出する工程と、
ｄ）上記複数の連結成分の上記縦横比の分散値または標準偏差を算出する工程と、
ｅ）上記縦横比の平均値が所定の第１閾値よりも大きく、かつ、上記縦横比の分散値または標準偏差が所定の第２閾値よりも小さく、かつ、上記文字列要素に含まれる連結成分の個数が所定の第３閾値より小さい場合に、上記文字列要素を、アラビア数字からなる数字列として決定し、上記縦横比の平均値が上記第１閾値以下である、もしくは、上記縦横比の分散値または標準偏差が上記第２閾値以上である、もしくは、上記文字列要素に含まれる連結成分の個数が上記第３閾値以上である場合に、上記文字列要素を、非数字文字を含む文字列として決定する工程と、
を含むデジタル画像内の数字連結成分を検知する方法。
デジタル画像内の数字連結成分を検知する方法であって、
ａ）デジタル画像内の文字列の候補である文字列要素を取得する工程と、
ｂ）上記文字列要素に含まれる非背景画素の連結成分の個数が所定の第１閾値より小さい場合に、上記文字列要素を、アラビア数字からなる数字列として決定し、上記文字列要素に含まれる連結成分の個数が上記第１閾値以上である場合に、上記文字列要素を、非数字文字を含む文字列として決定する工程と、
を含むデジタル画像内の数字連結成分を検知する方法。