JP6057112B1

JP6057112B1 - 文字認識装置、方法およびプログラム

Info

Publication number: JP6057112B1
Application number: JP2016084081A
Authority: JP
Inventors: 択渡久地
Original assignee: Ai Inside; AI Inside Inc
Current assignee: Ai Inside; AI Inside Inc
Priority date: 2016-04-19
Filing date: 2016-04-19
Publication date: 2017-01-11
Anticipated expiration: 2036-04-19
Also published as: JP2017194806A

Abstract

【課題】様々な手書き文字が含まれている書類について、高精度に文字認識を行うことができる文字認識装置、方法およびプログラムを提供すること。【解決手段】多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する第１画像認識部１１と、多層のニューラルネットワークを用いて画像データから特徴点を抽出し、テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する第２画像認識部１２と、第２画像認識部１２により出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストに形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する自然言語処理部１３と、第１画像認識部１１の出力と自然言語処理部１３の出力とを対比する判断部１４とを備える。【選択図】図１

Description

本発明は、画像データの文字認識を行う文字認識装置、方法およびプログラムに関する。

手書きで文字が記入された書類をイメージスキャナなどで読み取り、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）処理を行うことにより、入力情報を所定の文字コードに変換したデジタルデータを生成する技術が普及している。

例えば、特許文献１によれば、機械学習により文字認識を行う文字識別システムが開示されている。文字認識システムは、見本文字画像の入力を受け付ける文字画像入力受付部と、見本文字画像に基づいて文字部品を抽出する文字部品抽出と、文字部品に基づいて擬似文字モデルを生成する擬似文字モデル生成部と、擬似文字モデルに基づいて文字識別パターンを生成して識別辞書を生成する識別辞書生成と、により構成されている。

また、特許文献２によれば、文字認識後に形態素解析をして、品詞尤度と文字類似度の両方が含まれる特徴量ベクトルを用いて、尤もらしさを判定する情報処理装置が開示されている。情報処理装置は、文字認識結果に対して形態素解析を行う形態素解析手段と、文字認識結果の文字について、形態素解析手段による形態素解析結果である対象の文字が属する単語の品詞らしさから作成するＰ種の品詞それぞれの品詞尤度と、該文字認識結果の各文字の文字類似度によって構成されるＰ＋１個の要素の特徴量ベクトルを作成する特徴量ベクトル作成手段と、特徴量ベクトル作成手段によって作成された特徴量ベクトルから、文字認識結果の各文字の確信度を算出する確信度算出手段とにより構成されている。

特開２０１５−０６９２５６号公報特開２０１４−１２００５９号公報

上述した特許文献１，２によっても、様々な手書き文字（例えば、達筆な手書き文字や薄くて雑な手書き文字など）の認識を高精度に行うことは困難であり、さらに高精度に文字認識を行いたい要望がある。

本発明では、様々な手書き文字が含まれている書類について、高精度に文字認識を行うことができる文字認識装置、方法およびプログラムを提供することを目的とする。

上記目的を達成するために、本発明の一態様における文字認識装置は、多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する第１画像認識部と、多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、前記テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する第２画像認識部と、前記第２画像認識部により出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストにそれぞれ形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する自然言語処理部と、前記第１画像認識部により出力されたテキスト候補と、前記自然言語処理部により出力されたテキスト候補とを対比する判断部とを備え、前記判断部は、所定以上の尤度のテキストを出力する。

また、本発明の一態様における文字認識装置では、前記第１画像認識部により出力された最も尤度の高いテキスト候補と、前記自然言語処理部により出力された最も尤度の高いテキスト候補とを対比し、所定以上の尤もらしさを得られなかった場合、所定以上の尤もらしさが得られるまで、尤度の高い順に他の候補同士の対比を行う構成でもよい。

また、本発明の一態様における文字認識装置では、前記判断部は、前記自然言語処理部により出力されたテキスト候補の中で尤度の高いテキスト候補を、前記第１画像認識部により出力されたテキスト候補よりも優先的に扱う構成でもよい。

また、本発明の一態様における文字認識装置では、前記判断部は、対比した結果、２つのテキスト候補の差分が所定の閾値を超えない場合に、所定以上の尤度のテキストであると判断して出力する構成でもよい。

また、本発明の一態様における文字認識装置では、処理にかかる時間を設定する設定部を備え、前記判断部は、前記第１画像認識部により出力された最も尤度の高いテキスト候補と、前記自然言語処理部により出力された最も尤度の高いテキスト候補とを対比し、所定以上の尤もらしさを得られなかった場合、前記設定部によって設定された時間以内において、所定以上の尤もらしさが得られるまで、尤度の高い順に他の候補同士の対比を行う構成でもよい。

また、本発明の一態様における文字認識装置では、前記判断部は、所定以上の尤もらしさが得られなかったテキストを伏字にして出力する構成でもよい。

また、本発明の一態様における文字認識装置では、前記第１画像認識部は、項目ごとに適した多層のニューラルネットワークを機械学習により有しており、前記画像データに含まれる項目を探索し、当該項目に適した多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力し、前記第２画像認識部は、項目ごとに適した多層のニューラルネットワークを機械学習により有しており、前記画像データに含まれる項目を探索し、当該項目に適した多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、前記テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する構成でもよい。

上記目的を達成するために、本発明の一態様における文字認識方法は、多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する第１画像認識工程と、多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、前記テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する第２画像認識工程と、前記第２画像認識工程により出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストにそれぞれ形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する自然言語処理工程と、前記第１画像認識工程により出力されたテキスト候補と、前記自然言語処理工程により出力されたテキスト候補とを対比する判断工程とを備え、前記判断工程は、所定以上の尤度のテキストを出力する。

上記目的を達成するために、本発明の一態様における文字認識プログラムは、多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する第１画像認識工程と、多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、前記テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する第２画像認識工程と、前記第２画像認識工程により出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストにそれぞれ形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する自然言語処理工程と、前記第１画像認識工程により出力されたテキスト候補と、前記自然言語処理工程により出力されたテキスト候補とを対比する判断工程と、をコンピュータによって実現するための文字認識プログラムであって、前記判断工程は、所定以上の尤度のテキストを出力する文字認識プログラムである。

本発明によれば、高精度に文字認識を行うことができる。

文字認識装置の構成を示すブロック図である。画像認識部による特徴抽出とベクトル変換の様子を模式的に示す図である。画像認識部による字種の判定の様子を模式的に示す図である。第１画像認識部と第２画像認識部による画像認識についての説明に供する図である。文字認識装置の動作の流れについての説明に供するフローチャートである。

以下、本発明の実施形態に係る文字認識装置、方法およびプログラムについて図面を参照しながら説明する。なお、実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。

以下では、一例として、手書き文字が含まれた帳票やアンケート用紙などの書類をスキャナ等で画像化し、画像化した画像データの文字を認識する文字認識装置の構成と動作について説明する。なお、手書き文字が含まれていない書類、いわゆる、書体データを利用してプリンタによって文字が印刷された書類であっても、印刷されている文字が掠れていたり、または、滲んでいたりすると、文字の認識率が低下する。本実施形態にかかる文字認識装置はこのような書類をスキャナ等で画像化し、画像化した画像データの文字の認識に適用されてもよい。

文字認識装置１は、概念的には、バックプロパゲーション（誤差逆伝播法）によって、入力層、一または複数の中間層、および出力層から構成される多層のニューラルネットワークを学習させるアルゴリズムを利用して、文字認識を行う。

具体的には、文字認識装置１は、図１に示すように、画像データを入力する入力部１０と、画像データを認識してテキストを生成する画像認識部１１と、画像認識部１１により生成されたテキストを自然言語処理する自然言語処理部１２と、画像認識部１１により生成されたテキストと自然言語処理部１２により自然言語処理されたテキストを対比する判断部１３とを備える。また、文字認識装置１は、判断部１３から出力されるテキストを出力する出力部１６を備える。出力部１６は、テキストを項目に分けてｃｓｖデータとして出力してもよい。また、文字認識装置１は、画像認識部１１、自然言語処理部１２および判断部１３とを独立に機能させ、それぞれの出力結果が相互に出力結果に影響を与えることにより、所定以上の尤度のテキストを出力する。

入力部１０は、例えば、スキャナ装置によって構成されており、書類を画像化して画像データを生成し、生成した画像データを記憶部１４に入力する。

ここで、画像認識部１１の動作について説明する。画像認識部１１は、画像データに基づいて、例えば、罫線抽出、枠構造解析、読取対象枠の位置推定などの文書構造解析を行う。次に、画像認識部１１は、文書構造解析の結果を受けて、読取対象である文字行を抽出する。次に、画像認識部１１は、文字行画像から文字パターン候補の切出しと、各文字パターンの文字識別を行う。

つぎに、文字識別の手順について説明する。画像認識部１１は、図２に示すように、切出した１個の文字パターンの画像データに対して特徴抽出を行う。そして、画像認識部１１は、文字のストロークの方向成分などを抽出して、画像データを１つのベクトルに変換する。図２に示す例では、画像データＸが多層のニューラルネットワークに入力され、方向や位置等の特徴を捉えて特徴抽出をされている様子を模式的に示している。また、図２に示す例では、ベクトルＸ_１と、ベクトルＸ_２と、ベクトルＸ_３とに変換された様子を模式的に示している。

画像認識部１１は、図３に示すように、変換されたベクトルに基づいて、字種が何であるかを判定する。画像認識部１１は、当該判定において、事前に大量のパターンを使った分布の様子から、どの字種が特徴空間上のどの辺に分布しているかを保持している辞書データを参照し、未知の入力パターンでる画像データの候補を決定する。図３に示す例では、辞書データにおいて、字種「中」、字種「申」および字種「十」の情報が記憶されている様子を概念的に示している。

画像認識部１１は、以上のプロセスにより、複数のテキスト候補（例えば、中、申、十）と、各テキスト候補の尤度を取得する。なお、各テキスト候補の尤度は、特徴空間内における各候補の中心と、未知の入力パターンである画像データとの距離で算出することができる。

画像認識部１１は、図１に示すように、第１画像認識部１１ａと、第２画像認識部１１ｂとから構成されている。

第１画像認識部１１ａは、記憶部１５から画像データを読み出し、多層のニューラルネットワークを用いて当該画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する。

第２画像認識部１１ｂは、記憶部１５から画像データを読み出し、多層のニューラルネットワークを用いて当該画像データから特徴点を抽出し、テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する。

第１画像認識部１１ａと第２画像認識部１１ｂとの主な違いは、画像認識の機械学習を行う際に利用する学習データの違いである。第１画像認識部１１ａは１文字を１文字として出力するように学習データが用意されているのに対し、第２画像認識部１１ｂは１文字をより小さい因子である素因子テキストに分離して出力するように学習データが用意されている。

ここで、第１画像認識部１１ａによる画像認識と第２画像認識部１１ｂによる画像認識の具体例について説明する。以下では、第１画像認識部１１ａおよび第２画像認識部１１ｂ、例えば、図４（ａ）に示すように、画像データＡ１について画像認識を行う場合について説明する。

第１画像認識部１１ａは、画像データＡ１を分割する処理を行う。本実施例では、分割する処理により、画像データＡ１は、図４（ｂ）に示すように、４つの画像データａ１，ａ２，ａ３，ａ４に分割できたものとする。

第１画像認識部１１ａは、多層のニューラルネットワークを用いて画像データａ１から特徴点を抽出し、複数の候補（例えば、「高」，「喬」，「富」，「畜」等）を生成し、各候補の尤度を計算する。

第１画像認識部１１ａは、多層のニューラルネットワークを用いて画像データａ２から特徴点を抽出し、複数の候補（例えば、「校」，「核」，「梓」，「検」等）を生成し、各候補の尤度を計算する。

第１画像認識部１１ａは、多層のニューラルネットワークを用いて画像データａ３から特徴点を抽出し、複数の候補（例えば、「時」，「暁」，「待」，「晤」等）を生成し、各候補の尤度を計算する。

第１画像認識部１１ａは、多層のニューラルネットワークを用いて画像データａ４から特徴点を抽出し、複数の候補（例えば、「代」，「付」，「何」，「仕」等）を生成し、各候補の尤度を計算する。

第１画像認識部１１ａは、各候補の尤度に基づいて、例えば、「高校時代」、「喬核暁付」等をテキスト候補として判断部１３に出力する。

第２画像認識部１１ｂは、第１画像認識部１１ａよりも小さい単位である素因子テキストを生成するように画像データＡ１を分割する処理を行う。素因子テキストとは、１文字をより小さい因子で表したテキストである。例えば、「校」という画像データから小さい因子で表した「木」と「交」が素因子テキストである。本実施例では、分割する処理により、画像データＡ１は、図４（ｃ）に示すように、６つの画像データｂ１，ｂ２，ｂ３，ｂ４，ｂ５，ｂ６に分割できたものとする。

第２画像認識部１１ｂは、多層のニューラルネットワークを用いて画像データｂ１から特徴点を抽出し、複数の素因子テキストの候補（例えば、「高」，「喬」，「富」，「畜」等）を生成し、各候補の尤度を計算する。

第２画像認識部１１ｂは、多層のニューラルネットワークを用いて画像データｂ２から特徴点を抽出し、複数の素因子テキストの候補（例えば、「木」，「不」，「六」，「禾」等）を生成し、各候補の尤度を計算する。

第２画像認識部１１ｂは、多層のニューラルネットワークを用いて画像データｂ３から特徴点を抽出し、複数の素因子テキストの候補（例えば、「交」，「定」，「気」，「充」等）を生成し、各候補の尤度を計算する。

第２画像認識部１１ｂは、多層のニューラルネットワークを用いて画像データｂ４から特徴点を抽出し、複数の素因子テキストの候補（例えば、「日」，「曰」，「月」等）を生成し、各候補の尤度を計算する。

第２画像認識部１１ｂは、多層のニューラルネットワークを用いて画像データｂ５から特徴点を抽出し、複数の素因子テキストの候補（例えば、「寺」，「圭」，「茉」，「苦」等）を生成し、各候補の尤度を計算する。

第２画像認識部１１ｂは、多層のニューラルネットワークを用いて画像データｂ６から特徴点を抽出し、複数の素因子テキストの候補（例えば、「代」，「付」，「何」，「仕」等）を生成し、各候補の尤度を計算する。

第２画像認識部１１ｂは、各素因子テキストの尤度に基づいて、例えば、「高木交日寺代」、「喬不定曰圭付」等をテキスト候補として判断部１３に出力する。

自然言語処理部１３は、第２画像認識部１１ｂにより出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストに形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する。

具体的には、自然言語処理部１３は、「高木交日寺代」について、「高木」「交日寺代」に分離したり、「高」「木交」「日寺代」に分離したりして、それぞれに対して形態素解析を行って、それぞれの尤度を計算する。

また、自然言語処理部１３は、「高木」「交日寺代」について、「日」と「寺」を接合して「時」にし、「高木」「交時代」にして、形態素解析を行って、尤度を計算する。

また、自然言語処理部１３は、「高」「木交」「日寺代」について、「木」と「交」を接合して「校」にし、前のテキスト「高」と組み合わせて「高校」にし、「高校」「日寺代」にして、形態素解析を行って、尤度を計算する。

また、自然言語処理部１３は、「高校」「日寺代」について、「日」と「寺」を接合して「時」にし、「高校」「時代」にして、形態素解析を行って、尤度を計算する。

このようにして、自然言語処理部１３は、第２画像認識部１１ｂから出力されたテキスト候補を、全てのパターンで接合、切り離しの処理を行う。例えば、「私の高木交日寺代は」というテキストについて形態素解析を行うと、「主語」「格助詞」「名詞（苗字）」「名詞」「名詞」「係助詞」となり、自然言語的な観点から不当な並びとなるため、当該テキストに対しては、尤度が低いという評価を行う。一方、「私の高校時代は」というテキストについて形態素解析を行うと、「主語」「格助詞」「名詞」「係助詞」となり、自然言語的な観点から適当な並びとなるため、当該テキストに対しては、尤度が高いという評価行う。素因子テキストに分離し、全てのパターンで組み合わせたテキスト候補に対して形態素解析による評価を行うことで、画像認識のエラーによる誤りを減らすことができる。

判断部１４は、第１画像認識部１１ａにより出力されたテキスト候補（例えば、「高校時代」）と、自然言語処理部１３により出力されたテキスト候補（例えば、「高木交日寺代」）とを対比する。

判断部１４は、対比した結果に基づいて、所定以上の尤度のテキスト（例えば、「高校時代」）を出力する。

画像認識を重視した第１画像認識部１１ａと、自然言語を重視した第２画像認識部１１ｂという二つの異なる観点のテキストを対比することで、文字認識装置１は、より高精度に文字認識を行うことができる。

また、判断部１４は、第１画像認識部１１ａにより出力された最も尤度の高いテキスト候補と、自然言語処理部１３により出力された最も尤度の高いテキスト候補とを対比し、所定以上の尤もらしさ（例えば、一致率が９８パーセント以上）を得られなかった場合、所定以上の尤もらしさが得られるまで、尤度の高い順に他の候補同士の対比を行う構成でもよい。

判断部１４は、第１画像認識部１１ａと自然言語処理部１３で得られたすべての出力パターンの中から、どの回答が尤もらしいかの重みを画像認識部１１にフィードバックする。また、判断部１４は、出力パターンには存在しない「Ｘという文字である可能性」をフィードバックする。画像認識部１１は、当該フィードバックを受けて、再度重み付けに基づく画像認識を行う。

例えば、判断部１４は、第１画像認識部１１ａにより出力された最も尤度の高いテキスト候補である「喬校時付」と、自然言語処理部１３により出力された最も尤度の高いテキスト候補である「高木交時代」とを対比し、差分が大きく、所定以上の尤もらしさを得られなかった場合、第１画像認識部１１ａにより出力された次に尤度の高いテキスト候補である「高校時代」と、自然言語処理部１３により出力された最も尤度の高いテキスト候補である「高校時代」とを対比し、所定以上の尤もらしさが得られた場合、「高校時代」を出力する。

よって、文字認識装置１は、様々な手書き文字が含まれている書類について、所定以上の尤もらしさが得られるまで処理を繰り返すので、信頼性の高い高精度な文字認識を行うことができる。

また、判断部１４は、自然言語処理部１３により出力されたテキスト候補の中で、尤度の高いテキスト候補を第１画像認識部１１ａにより出力されたテキスト候補よりも優先的に扱う構成でもよい。

当該構成の場合には、文字認識装置１は、より自然言語処理部１３による処理を優先するので、自然言語処理に適しているといえ、文章の文字認識に対して強みを発揮する。

また、判断部１４は、対比した結果、２つのテキスト候補の差分が所定の閾値を超えない場合に、所定以上の尤度のテキストであると判断して出力する構成でもよい。つまり、判断部１４は、自然言語処理部１３により出力されたテキスト候補と、第１画像認識部１１ａにより出力されたテキスト候補とがほぼ一致している場合に、所定以上の尤度のテキストであると判断する。

当該構成の場合には、文字認識装置１は、自然言語処理部１３と第１画像認識部１１ａの二つの処理の結果を利用して文字認識を行っているので、高精度に文字認識を行うことができる。

文字認識装置１は、図１に示すように、処理にかかる時間を設定する設定部１５を備える構成でもよい。設定部１５は、例えば、ユーザの指示にしたがって、処理時間を１０分などに設定する。

判断部１４は、第１画像認識部１１ａにより出力された最も尤度の高いテキスト候補と、自然言語処理部１３により出力された最も尤度の高いテキスト候補とを対比し、所定以上の尤もらしさを得られなかった場合、設定部１５によって設定された時間以内において、所定以上の尤もらしさが得られるまで、尤度の高い順に他の候補同士の対比を行う。

よって、文字認識装置１は、設定された時間内において、所定以上の尤もらしさが得られるまで処理を繰り返すので、認識処理を何回行っても所定以上の尤もらしさが得られないような認識困難な画像データに対して何度も試行を繰り返すことがないメリットがある。

また、判断部１４は、所定以上の尤もらしさが得られなかったテキストを伏字にして出力する構成でもよい。

伏字とは、文字認識ができなかった箇所を示すものであり、例えば、「○」や「△」などである。具体的には、「高校時代」の「時」の箇所に対して所定以上の尤もらしさが得られなかった場合には、判断部１４は、「高校○代」を出力する。

よって、文字認識装置１は、文字識別できた箇所と文字識別ができなかった箇所を明示して出力することができる。なお、伏字にした箇所について、正しい文字（本実施例では、「○」の箇所は「時」である）を文字認識装置１にフィードバックしてもよい。当該フィードバックにより、文字認識装置１は、次回の文字認識において、前回「○」となった画像データを正しいテキスト「校」として出力することができる。

また、第２画像認識部１１ｂは、項目ごとに適した多層のニューラルネットワークを機械学習により有しており、画像データに含まれる項目を探索し、当該項目に適した多層のニューラルネットワークを用いて画像データから特徴点を抽出し、テキストよりも小さい因子である素因子テキストに分離されたテキスト候補を出力する構成でもよい。

例えば、「申込日」のような項目には、「２０１５年５月１日」等の申込日に関する情報が入力されることが予想できる。つまり、「申込日」のような項目は、数字「０〜９」と、漢字「年」，「月」，「日」が入力され、他の文字は入力されない。よって、第２画像認識部１１ｂは、認識する項目が「申込日」のような場合には、数字「０〜９」と、漢字「年」，「月」，「日」とを出力するようなニューラルネットワークを用いて画像データから特徴点を抽出し、テキストよりも小さい因子である素因子テキストに分離されたテキスト候補を出力する。

また、「氏名＿フリガナ」のような項目には、「トッキョタロウ」等の氏名のカタカナに関する情報が入力されることが予想できる。つまり、「氏名＿フリガナ」のような項目は、カタカナ「ア〜ン」等が入力され、他の文字（漢字、数字等）は入力されない。よって、第２画像認識部１１ｂは、認識する項目が「氏名＿フリガナ」のような場合には、カタカナを出力するようなニューラルネットワークを用いて画像データから特徴点を抽出し、テキストよりも小さい因子である素因子テキストに分離されたテキスト候補を出力する。

また、「電話番号（ＴＥＬ）」のような項目には、「０３−３５８１−１１１１」等の電話番号に関する情報が入力されることが予想できる。つまり、「電話番号（ＴＥＬ）」のような項目は、数字「０〜９」とハイフン「−」が入力され、他の文字（漢字、ひらがな等）は入力されない。よって、第２画像認識部１１ｂは、認識する項目が「電話番号（ＴＥＬ）」のような場合には、数字「０〜９」とハイフン「−」を出力するようなニューラルネットワークを用いて画像データから特徴点を抽出し、テキストよりも小さい因子である素因子テキストに分離されたテキスト候補を出力する。

よって、文字認識装置１は、項目ごとに適した多層のニューラルネットワークを利用して画像データからテキスト候補を出力するので、効率的に高精度に文字認識を行うことができる。

ここで、文字認識装置１の動作の流れについて、図５に示すフローチャートを参照しながら説明する。

ステップＳ１において、第１画像認識部１１ａは、多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する。

ステップＳ２において、第２画像認識１１ｂは、多層のニューラルネットワークを用いて画像データから特徴点を抽出し、テキストよりも小さい因子である素因子テキストに分離されたテキスト候補を出力する。

ステップＳ３において、自然言語処理部１２は、ステップＳ２の工程により出力されたテキスト候補に対して、隣接する素因子テキストを接合および切り離しを行って、組み合わせられる複数のパターンのテキストに形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する。

ステップＳ４において、判断部１３は、ステップＳ１の工程により出力されたテキスト候補と、ステップＳ３の工程により出力されたテキスト候補とを対比する。本工程において、判断部１３は、所定以上の尤度（例えば、一致率が９８パーセント以上）のテキストを出力する。

よって、文字認識装置１は、様々な手書き文字が含まれている書類について、高精度に文字認識を行うことができる。

また、本実施例では、主に、様々な手書き文字が含まれている書類について、高精度に文字認識を行うことができる文字認識装置１の構成と動作について説明したが、これに限られず、各構成要素を備え、様々な手書き文字が含まれている書類について、高精度に文字認識を行うための方法、およびプログラムとして構成されてもよい。

さらに、文字認識装置１を構成する各機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、指示することによって実現してもよい。

具体的には、当該プログラムは、多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する第１画像認識工程と、多層のニューラルネットワークを用いて画像データから特徴点を抽出し、テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する第２画像認識工程と、第２画像認識工程により出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストに形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する自然言語処理工程と、第１画像認識工程により出力されたテキスト候補と、自然言語処理工程により出力されたテキスト候補とを対比する判断工程と、をコンピュータによって実現するためのプログラムである。また、判断工程は、所定以上の尤度のテキストを出力する。

さらに、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータで読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

１文字認識装置、１０入力部、１１画像認識部、１１ａ第１画像認識部、１１ｂ第２画像認識部、１２自然言語処理部、１３判断部、１４記憶部、１５設定部、１６出力部。

Claims

多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する第１画像認識部と、
多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、前記テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する第２画像認識部と、
前記第２画像認識部により出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストにそれぞれ形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する自然言語処理部と、
前記第１画像認識部により出力されたテキスト候補と、前記自然言語処理部により出力されたテキスト候補とを対比する判断部とを備え、
前記判断部は、所定以上の尤度のテキストを出力する文字認識装置。
前記判断部は、前記第１画像認識部により出力された最も尤度の高いテキスト候補と、前記自然言語処理部により出力された最も尤度の高いテキスト候補とを対比し、所定以上の尤もらしさを得られなかった場合、所定以上の尤もらしさが得られるまで、尤度の高い順に他の候補同士の対比を行う請求項１記載の文字認識装置。
前記判断部は、前記自然言語処理部により出力されたテキスト候補の中で尤度の高いテキスト候補を、前記第１画像認識部により出力されたテキスト候補よりも優先的に扱う請求項１または２記載の文字認識装置。
前記判断部は、対比した結果、２つのテキスト候補の差分が所定の閾値を超えない場合に、所定以上の尤度のテキストであると判断して出力する請求項１から３のいずれか一項に記載の文字認識装置。
処理にかかる時間を設定する設定部を備え、
前記判断部は、前記第１画像認識部により出力された最も尤度の高いテキスト候補と、前記自然言語処理部により出力された最も尤度の高いテキスト候補とを対比し、所定以上の尤もらしさを得られなかった場合、前記設定部によって設定された時間以内において、所定以上の尤もらしさが得られるまで、尤度の高い順に他の候補同士の対比を行う請求項１から４のいずれか一項に記載の文字認識装置。
前記判断部は、所定以上の尤もらしさが得られなかったテキストを伏字にして出力する請求項１から５のいずれか一項に記載の文字認識装置。
前記第１画像認識部は、
項目ごとに適した多層のニューラルネットワークを機械学習により有しており、
前記画像データに含まれる項目を探索し、当該項目に適した多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力し、
前記第２画像認識部は、
項目ごとに適した多層のニューラルネットワークを機械学習により有しており、
前記画像データに含まれる項目を探索し、当該項目に適した多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、前記テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する請求項１記載の文字認識装置。
多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する第１画像認識工程と、
多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、前記テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する第２画像認識工程と、
前記第２画像認識工程により出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストにそれぞれ形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する自然言語処理工程と、
前記第１画像認識工程により出力されたテキスト候補と、前記自然言語処理工程により出力されたテキスト候補とを対比する判断工程とを備え、
前記判断工程は、所定以上の尤度のテキストを出力する文字認識方法。
多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する第１画像認識工程と、
多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、前記テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する第２画像認識工程と、
前記第２画像認識工程により出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストにそれぞれ形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する自然言語処理工程と、
前記第１画像認識工程により出力されたテキスト候補と、前記自然言語処理工程により出力されたテキスト候補とを対比する判断工程と、をコンピュータによって実現するための文字認識プログラムであって、
前記判断工程は、所定以上の尤度のテキストを出力する文字認識プログラム。