JP6057112B1 - 文字認識装置、方法およびプログラム - Google Patents

文字認識装置、方法およびプログラム Download PDF

Info

Publication number
JP6057112B1
JP6057112B1 JP2016084081A JP2016084081A JP6057112B1 JP 6057112 B1 JP6057112 B1 JP 6057112B1 JP 2016084081 A JP2016084081 A JP 2016084081A JP 2016084081 A JP2016084081 A JP 2016084081A JP 6057112 B1 JP6057112 B1 JP 6057112B1
Authority
JP
Japan
Prior art keywords
text
likelihood
output
image recognition
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016084081A
Other languages
English (en)
Other versions
JP2017194806A (ja
Inventor
択 渡久地
択 渡久地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ai Inside
AI Inside Inc
Original Assignee
Ai Inside
AI Inside Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ai Inside, AI Inside Inc filed Critical Ai Inside
Priority to JP2016084081A priority Critical patent/JP6057112B1/ja
Application granted granted Critical
Publication of JP6057112B1 publication Critical patent/JP6057112B1/ja
Publication of JP2017194806A publication Critical patent/JP2017194806A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】様々な手書き文字が含まれている書類について、高精度に文字認識を行うことができる文字認識装置、方法およびプログラムを提供すること。【解決手段】多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する第1画像認識部11と、多層のニューラルネットワークを用いて画像データから特徴点を抽出し、テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する第2画像認識部12と、第2画像認識部12により出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストに形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する自然言語処理部13と、第1画像認識部11の出力と自然言語処理部13の出力とを対比する判断部14とを備える。【選択図】図1

Description

本発明は、画像データの文字認識を行う文字認識装置、方法およびプログラムに関する。
手書きで文字が記入された書類をイメージスキャナなどで読み取り、OCR(Optical Character Recognition)処理を行うことにより、入力情報を所定の文字コードに変換したデジタルデータを生成する技術が普及している。
例えば、特許文献1によれば、機械学習により文字認識を行う文字識別システムが開示されている。文字認識システムは、見本文字画像の入力を受け付ける文字画像入力受付部と、見本文字画像に基づいて文字部品を抽出する文字部品抽出と、文字部品に基づいて擬似文字モデルを生成する擬似文字モデル生成部と、擬似文字モデルに基づいて文字識別パターンを生成して識別辞書を生成する識別辞書生成と、により構成されている。
また、特許文献2によれば、文字認識後に形態素解析をして、品詞尤度と文字類似度の両方が含まれる特徴量ベクトルを用いて、尤もらしさを判定する情報処理装置が開示されている。情報処理装置は、文字認識結果に対して形態素解析を行う形態素解析手段と、文字認識結果の文字について、形態素解析手段による形態素解析結果である対象の文字が属する単語の品詞らしさから作成するP種の品詞それぞれの品詞尤度と、該文字認識結果の各文字の文字類似度によって構成されるP+1個の要素の特徴量ベクトルを作成する特徴量ベクトル作成手段と、特徴量ベクトル作成手段によって作成された特徴量ベクトルから、文字認識結果の各文字の確信度を算出する確信度算出手段とにより構成されている。
特開2015−069256号公報 特開2014−120059号公報
上述した特許文献1,2によっても、様々な手書き文字(例えば、達筆な手書き文字や薄くて雑な手書き文字など)の認識を高精度に行うことは困難であり、さらに高精度に文字認識を行いたい要望がある。
本発明では、様々な手書き文字が含まれている書類について、高精度に文字認識を行うことができる文字認識装置、方法およびプログラムを提供することを目的とする。
上記目的を達成するために、本発明の一態様における文字認識装置は、多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する第1画像認識部と、多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、前記テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する第2画像認識部と、前記第2画像認識部により出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストにそれぞれ形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する自然言語処理部と、前記第1画像認識部により出力されたテキスト候補と、前記自然言語処理部により出力されたテキスト候補とを対比する判断部とを備え、前記判断部は、所定以上の尤度のテキストを出力する。
また、本発明の一態様における文字認識装置では、前記第1画像認識部により出力された最も尤度の高いテキスト候補と、前記自然言語処理部により出力された最も尤度の高いテキスト候補とを対比し、所定以上の尤もらしさを得られなかった場合、所定以上の尤もらしさが得られるまで、尤度の高い順に他の候補同士の対比を行う構成でもよい。
また、本発明の一態様における文字認識装置では、前記判断部は、前記自然言語処理部により出力されたテキスト候補の中で尤度の高いテキスト候補を、前記第1画像認識部により出力されたテキスト候補よりも優先的に扱う構成でもよい。
また、本発明の一態様における文字認識装置では、前記判断部は、対比した結果、2つのテキスト候補の差分が所定の閾値を超えない場合に、所定以上の尤度のテキストであると判断して出力する構成でもよい。
また、本発明の一態様における文字認識装置では、処理にかかる時間を設定する設定部を備え、前記判断部は、前記第1画像認識部により出力された最も尤度の高いテキスト候補と、前記自然言語処理部により出力された最も尤度の高いテキスト候補とを対比し、所定以上の尤もらしさを得られなかった場合、前記設定部によって設定された時間以内において、所定以上の尤もらしさが得られるまで、尤度の高い順に他の候補同士の対比を行う構成でもよい。
また、本発明の一態様における文字認識装置では、前記判断部は、所定以上の尤もらしさが得られなかったテキストを伏字にして出力する構成でもよい。
また、本発明の一態様における文字認識装置では、前記第1画像認識部は、項目ごとに適した多層のニューラルネットワークを機械学習により有しており、前記画像データに含まれる項目を探索し、当該項目に適した多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力し、前記第2画像認識部は、項目ごとに適した多層のニューラルネットワークを機械学習により有しており、前記画像データに含まれる項目を探索し、当該項目に適した多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、前記テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する構成でもよい。
上記目的を達成するために、本発明の一態様における文字認識方法は、多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する第1画像認識工程と、多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、前記テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する第2画像認識工程と、前記第2画像認識工程により出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストにそれぞれ形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する自然言語処理工程と、前記第1画像認識工程により出力されたテキスト候補と、前記自然言語処理工程により出力されたテキスト候補とを対比する判断工程とを備え、前記判断工程は、所定以上の尤度のテキストを出力する。
上記目的を達成するために、本発明の一態様における文字認識プログラムは、多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する第1画像認識工程と、多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、前記テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する第2画像認識工程と、前記第2画像認識工程により出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストにそれぞれ形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する自然言語処理工程と、前記第1画像認識工程により出力されたテキスト候補と、前記自然言語処理工程により出力されたテキスト候補とを対比する判断工程と、をコンピュータによって実現するための文字認識プログラムであって、前記判断工程は、所定以上の尤度のテキストを出力する文字認識プログラムである。
本発明によれば、高精度に文字認識を行うことができる。
文字認識装置の構成を示すブロック図である。 画像認識部による特徴抽出とベクトル変換の様子を模式的に示す図である。 画像認識部による字種の判定の様子を模式的に示す図である。 第1画像認識部と第2画像認識部による画像認識についての説明に供する図である。 文字認識装置の動作の流れについての説明に供するフローチャートである。
以下、本発明の実施形態に係る文字認識装置、方法およびプログラムについて図面を参照しながら説明する。なお、実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。
以下では、一例として、手書き文字が含まれた帳票やアンケート用紙などの書類をスキャナ等で画像化し、画像化した画像データの文字を認識する文字認識装置の構成と動作について説明する。なお、手書き文字が含まれていない書類、いわゆる、書体データを利用してプリンタによって文字が印刷された書類であっても、印刷されている文字が掠れていたり、または、滲んでいたりすると、文字の認識率が低下する。本実施形態にかかる文字認識装置はこのような書類をスキャナ等で画像化し、画像化した画像データの文字の認識に適用されてもよい。
文字認識装置1は、概念的には、バックプロパゲーション(誤差逆伝播法)によって、入力層、一または複数の中間層、および出力層から構成される多層のニューラルネットワークを学習させるアルゴリズムを利用して、文字認識を行う。
具体的には、文字認識装置1は、図1に示すように、画像データを入力する入力部10と、画像データを認識してテキストを生成する画像認識部11と、画像認識部11により生成されたテキストを自然言語処理する自然言語処理部12と、画像認識部11により生成されたテキストと自然言語処理部12により自然言語処理されたテキストを対比する判断部13とを備える。また、文字認識装置1は、判断部13から出力されるテキストを出力する出力部16を備える。出力部16は、テキストを項目に分けてcsvデータとして出力してもよい。また、文字認識装置1は、画像認識部11、自然言語処理部12および判断部13とを独立に機能させ、それぞれの出力結果が相互に出力結果に影響を与えることにより、所定以上の尤度のテキストを出力する。
入力部10は、例えば、スキャナ装置によって構成されており、書類を画像化して画像データを生成し、生成した画像データを記憶部14に入力する。
ここで、画像認識部11の動作について説明する。画像認識部11は、画像データに基づいて、例えば、罫線抽出、枠構造解析、読取対象枠の位置推定などの文書構造解析を行う。次に、画像認識部11は、文書構造解析の結果を受けて、読取対象である文字行を抽出する。次に、画像認識部11は、文字行画像から文字パターン候補の切出しと、各文字パターンの文字識別を行う。
つぎに、文字識別の手順について説明する。画像認識部11は、図2に示すように、切出した1個の文字パターンの画像データに対して特徴抽出を行う。そして、画像認識部11は、文字のストロークの方向成分などを抽出して、画像データを1つのベクトルに変換する。図2に示す例では、画像データXが多層のニューラルネットワークに入力され、方向や位置等の特徴を捉えて特徴抽出をされている様子を模式的に示している。また、図2に示す例では、ベクトルXと、ベクトルXと、ベクトルXとに変換された様子を模式的に示している。
画像認識部11は、図3に示すように、変換されたベクトルに基づいて、字種が何であるかを判定する。画像認識部11は、当該判定において、事前に大量のパターンを使った分布の様子から、どの字種が特徴空間上のどの辺に分布しているかを保持している辞書データを参照し、未知の入力パターンでる画像データの候補を決定する。図3に示す例では、辞書データにおいて、字種「中」、字種「申」および字種「十」の情報が記憶されている様子を概念的に示している。
画像認識部11は、以上のプロセスにより、複数のテキスト候補(例えば、中、申、十)と、各テキスト候補の尤度を取得する。なお、各テキスト候補の尤度は、特徴空間内における各候補の中心と、未知の入力パターンである画像データとの距離で算出することができる。
画像認識部11は、図1に示すように、第1画像認識部11aと、第2画像認識部11bとから構成されている。
第1画像認識部11aは、記憶部15から画像データを読み出し、多層のニューラルネットワークを用いて当該画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する。
第2画像認識部11bは、記憶部15から画像データを読み出し、多層のニューラルネットワークを用いて当該画像データから特徴点を抽出し、テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する。
第1画像認識部11aと第2画像認識部11bとの主な違いは、画像認識の機械学習を行う際に利用する学習データの違いである。第1画像認識部11aは1文字を1文字として出力するように学習データが用意されているのに対し、第2画像認識部11bは1文字をより小さい因子である素因子テキストに分離して出力するように学習データが用意されている。
ここで、第1画像認識部11aによる画像認識と第2画像認識部11bによる画像認識の具体例について説明する。以下では、第1画像認識部11aおよび第2画像認識部11b、例えば、図4(a)に示すように、画像データA1について画像認識を行う場合について説明する。
第1画像認識部11aは、画像データA1を分割する処理を行う。本実施例では、分割する処理により、画像データA1は、図4(b)に示すように、4つの画像データa1,a2,a3,a4に分割できたものとする。
第1画像認識部11aは、多層のニューラルネットワークを用いて画像データa1から特徴点を抽出し、複数の候補(例えば、「高」,「喬」,「富」,「畜」等)を生成し、各候補の尤度を計算する。
第1画像認識部11aは、多層のニューラルネットワークを用いて画像データa2から特徴点を抽出し、複数の候補(例えば、「校」,「核」,「梓」,「検」等)を生成し、各候補の尤度を計算する。
第1画像認識部11aは、多層のニューラルネットワークを用いて画像データa3から特徴点を抽出し、複数の候補(例えば、「時」,「暁」,「待」,「晤」等)を生成し、各候補の尤度を計算する。
第1画像認識部11aは、多層のニューラルネットワークを用いて画像データa4から特徴点を抽出し、複数の候補(例えば、「代」,「付」,「何」,「仕」等)を生成し、各候補の尤度を計算する。
第1画像認識部11aは、各候補の尤度に基づいて、例えば、「高校時代」、「喬核暁付」等をテキスト候補として判断部13に出力する。
第2画像認識部11bは、第1画像認識部11aよりも小さい単位である素因子テキストを生成するように画像データA1を分割する処理を行う。素因子テキストとは、1文字をより小さい因子で表したテキストである。例えば、「校」という画像データから小さい因子で表した「木」と「交」が素因子テキストである。本実施例では、分割する処理により、画像データA1は、図4(c)に示すように、6つの画像データb1,b2,b3,b4,b5,b6に分割できたものとする。
第2画像認識部11bは、多層のニューラルネットワークを用いて画像データb1から特徴点を抽出し、複数の素因子テキストの候補(例えば、「高」,「喬」,「富」,「畜」等)を生成し、各候補の尤度を計算する。
第2画像認識部11bは、多層のニューラルネットワークを用いて画像データb2から特徴点を抽出し、複数の素因子テキストの候補(例えば、「木」,「不」,「六」,「禾」等)を生成し、各候補の尤度を計算する。
第2画像認識部11bは、多層のニューラルネットワークを用いて画像データb3から特徴点を抽出し、複数の素因子テキストの候補(例えば、「交」,「定」,「気」,「充」等)を生成し、各候補の尤度を計算する。
第2画像認識部11bは、多層のニューラルネットワークを用いて画像データb4から特徴点を抽出し、複数の素因子テキストの候補(例えば、「日」,「曰」,「月」等)を生成し、各候補の尤度を計算する。
第2画像認識部11bは、多層のニューラルネットワークを用いて画像データb5から特徴点を抽出し、複数の素因子テキストの候補(例えば、「寺」,「圭」,「茉」,「苦」等)を生成し、各候補の尤度を計算する。
第2画像認識部11bは、多層のニューラルネットワークを用いて画像データb6から特徴点を抽出し、複数の素因子テキストの候補(例えば、「代」,「付」,「何」,「仕」等)を生成し、各候補の尤度を計算する。
第2画像認識部11bは、各素因子テキストの尤度に基づいて、例えば、「高木交日寺代」、「喬不定曰圭付」等をテキスト候補として判断部13に出力する。
自然言語処理部13は、第2画像認識部11bにより出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストに形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する。
具体的には、自然言語処理部13は、「高木交日寺代」について、「高木」「交日寺代」に分離したり、「高」「木交」「日寺代」に分離したりして、それぞれに対して形態素解析を行って、それぞれの尤度を計算する。
また、自然言語処理部13は、「高木」「交日寺代」について、「日」と「寺」を接合して「時」にし、「高木」「交時代」にして、形態素解析を行って、尤度を計算する。
また、自然言語処理部13は、「高」「木交」「日寺代」について、「木」と「交」を接合して「校」にし、前のテキスト「高」と組み合わせて「高校」にし、「高校」「日寺代」にして、形態素解析を行って、尤度を計算する。
また、自然言語処理部13は、「高校」「日寺代」について、「日」と「寺」を接合して「時」にし、「高校」「時代」にして、形態素解析を行って、尤度を計算する。
このようにして、自然言語処理部13は、第2画像認識部11bから出力されたテキスト候補を、全てのパターンで接合、切り離しの処理を行う。例えば、「私の高木交日寺代は」というテキストについて形態素解析を行うと、「主語」「格助詞」「名詞(苗字)」「名詞」「名詞」「係助詞」となり、自然言語的な観点から不当な並びとなるため、当該テキストに対しては、尤度が低いという評価を行う。一方、「私の高校時代は」というテキストについて形態素解析を行うと、「主語」「格助詞」「名詞」「係助詞」となり、自然言語的な観点から適当な並びとなるため、当該テキストに対しては、尤度が高いという評価行う。素因子テキストに分離し、全てのパターンで組み合わせたテキスト候補に対して形態素解析による評価を行うことで、画像認識のエラーによる誤りを減らすことができる。
判断部14は、第1画像認識部11aにより出力されたテキスト候補(例えば、「高校時代」)と、自然言語処理部13により出力されたテキスト候補(例えば、「高木交日寺代」)とを対比する。
判断部14は、対比した結果に基づいて、所定以上の尤度のテキスト(例えば、「高校時代」)を出力する。
画像認識を重視した第1画像認識部11aと、自然言語を重視した第2画像認識部11bという二つの異なる観点のテキストを対比することで、文字認識装置1は、より高精度に文字認識を行うことができる。
また、判断部14は、第1画像認識部11aにより出力された最も尤度の高いテキスト候補と、自然言語処理部13により出力された最も尤度の高いテキスト候補とを対比し、所定以上の尤もらしさ(例えば、一致率が98パーセント以上)を得られなかった場合、所定以上の尤もらしさが得られるまで、尤度の高い順に他の候補同士の対比を行う構成でもよい。
判断部14は、第1画像認識部11aと自然言語処理部13で得られたすべての出力パターンの中から、どの回答が尤もらしいかの重みを画像認識部11にフィードバックする。また、判断部14は、出力パターンには存在しない「Xという文字である可能性」をフィードバックする。画像認識部11は、当該フィードバックを受けて、再度重み付けに基づく画像認識を行う。
例えば、判断部14は、第1画像認識部11aにより出力された最も尤度の高いテキスト候補である「喬校時付」と、自然言語処理部13により出力された最も尤度の高いテキスト候補である「高木交時代」とを対比し、差分が大きく、所定以上の尤もらしさを得られなかった場合、第1画像認識部11aにより出力された次に尤度の高いテキスト候補である「高校時代」と、自然言語処理部13により出力された最も尤度の高いテキスト候補である「高校時代」とを対比し、所定以上の尤もらしさが得られた場合、「高校時代」を出力する。
よって、文字認識装置1は、様々な手書き文字が含まれている書類について、所定以上の尤もらしさが得られるまで処理を繰り返すので、信頼性の高い高精度な文字認識を行うことができる。
また、判断部14は、自然言語処理部13により出力されたテキスト候補の中で、尤度の高いテキスト候補を第1画像認識部11aにより出力されたテキスト候補よりも優先的に扱う構成でもよい。
当該構成の場合には、文字認識装置1は、より自然言語処理部13による処理を優先するので、自然言語処理に適しているといえ、文章の文字認識に対して強みを発揮する。
また、判断部14は、対比した結果、2つのテキスト候補の差分が所定の閾値を超えない場合に、所定以上の尤度のテキストであると判断して出力する構成でもよい。つまり、判断部14は、自然言語処理部13により出力されたテキスト候補と、第1画像認識部11aにより出力されたテキスト候補とがほぼ一致している場合に、所定以上の尤度のテキストであると判断する。
当該構成の場合には、文字認識装置1は、自然言語処理部13と第1画像認識部11aの二つの処理の結果を利用して文字認識を行っているので、高精度に文字認識を行うことができる。
文字認識装置1は、図1に示すように、処理にかかる時間を設定する設定部15を備える構成でもよい。設定部15は、例えば、ユーザの指示にしたがって、処理時間を10分などに設定する。
判断部14は、第1画像認識部11aにより出力された最も尤度の高いテキスト候補と、自然言語処理部13により出力された最も尤度の高いテキスト候補とを対比し、所定以上の尤もらしさを得られなかった場合、設定部15によって設定された時間以内において、所定以上の尤もらしさが得られるまで、尤度の高い順に他の候補同士の対比を行う。
よって、文字認識装置1は、設定された時間内において、所定以上の尤もらしさが得られるまで処理を繰り返すので、認識処理を何回行っても所定以上の尤もらしさが得られないような認識困難な画像データに対して何度も試行を繰り返すことがないメリットがある。
また、判断部14は、所定以上の尤もらしさが得られなかったテキストを伏字にして出力する構成でもよい。
伏字とは、文字認識ができなかった箇所を示すものであり、例えば、「○」や「△」などである。具体的には、「高校時代」の「時」の箇所に対して所定以上の尤もらしさが得られなかった場合には、判断部14は、「高校○代」を出力する。
よって、文字認識装置1は、文字識別できた箇所と文字識別ができなかった箇所を明示して出力することができる。なお、伏字にした箇所について、正しい文字(本実施例では、「○」の箇所は「時」である)を文字認識装置1にフィードバックしてもよい。当該フィードバックにより、文字認識装置1は、次回の文字認識において、前回「○」となった画像データを正しいテキスト「校」として出力することができる。
また、第2画像認識部11bは、項目ごとに適した多層のニューラルネットワークを機械学習により有しており、画像データに含まれる項目を探索し、当該項目に適した多層のニューラルネットワークを用いて画像データから特徴点を抽出し、テキストよりも小さい因子である素因子テキストに分離されたテキスト候補を出力する構成でもよい。
例えば、「申込日」のような項目には、「2015年5月1日」等の申込日に関する情報が入力されることが予想できる。つまり、「申込日」のような項目は、数字「0〜9」と、漢字「年」,「月」,「日」が入力され、他の文字は入力されない。よって、第2画像認識部11bは、認識する項目が「申込日」のような場合には、数字「0〜9」と、漢字「年」,「月」,「日」とを出力するようなニューラルネットワークを用いて画像データから特徴点を抽出し、テキストよりも小さい因子である素因子テキストに分離されたテキスト候補を出力する。
また、「氏名_フリガナ」のような項目には、「トッキョタロウ」等の氏名のカタカナに関する情報が入力されることが予想できる。つまり、「氏名_フリガナ」のような項目は、カタカナ「ア〜ン」等が入力され、他の文字(漢字、数字等)は入力されない。よって、第2画像認識部11bは、認識する項目が「氏名_フリガナ」のような場合には、カタカナを出力するようなニューラルネットワークを用いて画像データから特徴点を抽出し、テキストよりも小さい因子である素因子テキストに分離されたテキスト候補を出力する。
また、「電話番号(TEL)」のような項目には、「03−3581−1111」等の電話番号に関する情報が入力されることが予想できる。つまり、「電話番号(TEL)」のような項目は、数字「0〜9」とハイフン「−」が入力され、他の文字(漢字、ひらがな等)は入力されない。よって、第2画像認識部11bは、認識する項目が「電話番号(TEL)」のような場合には、数字「0〜9」とハイフン「−」を出力するようなニューラルネットワークを用いて画像データから特徴点を抽出し、テキストよりも小さい因子である素因子テキストに分離されたテキスト候補を出力する。
よって、文字認識装置1は、項目ごとに適した多層のニューラルネットワークを利用して画像データからテキスト候補を出力するので、効率的に高精度に文字認識を行うことができる。
ここで、文字認識装置1の動作の流れについて、図5に示すフローチャートを参照しながら説明する。
ステップS1において、第1画像認識部11aは、多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する。
ステップS2において、第2画像認識11bは、多層のニューラルネットワークを用いて画像データから特徴点を抽出し、テキストよりも小さい因子である素因子テキストに分離されたテキスト候補を出力する。
ステップS3において、自然言語処理部12は、ステップS2の工程により出力されたテキスト候補に対して、隣接する素因子テキストを接合および切り離しを行って、組み合わせられる複数のパターンのテキストに形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する。
ステップS4において、判断部13は、ステップS1の工程により出力されたテキスト候補と、ステップS3の工程により出力されたテキスト候補とを対比する。本工程において、判断部13は、所定以上の尤度(例えば、一致率が98パーセント以上)のテキストを出力する。
よって、文字認識装置1は、様々な手書き文字が含まれている書類について、高精度に文字認識を行うことができる。
また、本実施例では、主に、様々な手書き文字が含まれている書類について、高精度に文字認識を行うことができる文字認識装置1の構成と動作について説明したが、これに限られず、各構成要素を備え、様々な手書き文字が含まれている書類について、高精度に文字認識を行うための方法、およびプログラムとして構成されてもよい。
さらに、文字認識装置1を構成する各機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、指示することによって実現してもよい。
具体的には、当該プログラムは、多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する第1画像認識工程と、多層のニューラルネットワークを用いて画像データから特徴点を抽出し、テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する第2画像認識工程と、第2画像認識工程により出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストに形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する自然言語処理工程と、第1画像認識工程により出力されたテキスト候補と、自然言語処理工程により出力されたテキスト候補とを対比する判断工程と、をコンピュータによって実現するためのプログラムである。また、判断工程は、所定以上の尤度のテキストを出力する。
さらに、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータで読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
1 文字認識装置、10 入力部、11 画像認識部、11a 第1画像認識部、11b 第2画像認識部、12 自然言語処理部、13 判断部、14 記憶部、15 設定部、16 出力部。

Claims (9)

  1. 多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する第1画像認識部と、
    多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、前記テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する第2画像認識部と、
    前記第2画像認識部により出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストにそれぞれ形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する自然言語処理部と、
    前記第1画像認識部により出力されたテキスト候補と、前記自然言語処理部により出力されたテキスト候補とを対比する判断部とを備え、
    前記判断部は、所定以上の尤度のテキストを出力する文字認識装置。
  2. 前記判断部は、前記第1画像認識部により出力された最も尤度の高いテキスト候補と、前記自然言語処理部により出力された最も尤度の高いテキスト候補とを対比し、所定以上の尤もらしさを得られなかった場合、所定以上の尤もらしさが得られるまで、尤度の高い順に他の候補同士の対比を行う請求項1記載の文字認識装置。
  3. 前記判断部は、前記自然言語処理部により出力されたテキスト候補の中で尤度の高いテキスト候補を、前記第1画像認識部により出力されたテキスト候補よりも優先的に扱う請求項1または2記載の文字認識装置。
  4. 前記判断部は、対比した結果、2つのテキスト候補の差分が所定の閾値を超えない場合に、所定以上の尤度のテキストであると判断して出力する請求項1から3のいずれか一項に記載の文字認識装置。
  5. 処理にかかる時間を設定する設定部を備え、
    前記判断部は、前記第1画像認識部により出力された最も尤度の高いテキスト候補と、前記自然言語処理部により出力された最も尤度の高いテキスト候補とを対比し、所定以上の尤もらしさを得られなかった場合、前記設定部によって設定された時間以内において、所定以上の尤もらしさが得られるまで、尤度の高い順に他の候補同士の対比を行う請求項1から4のいずれか一項に記載の文字認識装置。
  6. 前記判断部は、所定以上の尤もらしさが得られなかったテキストを伏字にして出力する請求項1から5のいずれか一項に記載の文字認識装置。
  7. 前記第1画像認識部は、
    項目ごとに適した多層のニューラルネットワークを機械学習により有しており、
    前記画像データに含まれる項目を探索し、当該項目に適した多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力し、
    前記第2画像認識部は、
    項目ごとに適した多層のニューラルネットワークを機械学習により有しており、
    前記画像データに含まれる項目を探索し、当該項目に適した多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、前記テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する請求項1記載の文字認識装置。
  8. 多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する第1画像認識工程と、
    多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、前記テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する第2画像認識工程と、
    前記第2画像認識工程により出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストにそれぞれ形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する自然言語処理工程と、
    前記第1画像認識工程により出力されたテキスト候補と、前記自然言語処理工程により出力されたテキスト候補とを対比する判断工程とを備え、
    前記判断工程は、所定以上の尤度のテキストを出力する文字認識方法。
  9. 多層のニューラルネットワークを用いて画像データから特徴点を抽出し、複数のテキスト候補と尤度を出力する第1画像認識工程と、
    多層のニューラルネットワークを用いて前記画像データから特徴点を抽出し、前記テキストよりも小さい因子である素因子テキストに分離されたテキスト候補と尤度を出力する第2画像認識工程と、
    前記第2画像認識工程により出力されたテキスト候補に対して、隣接する素因子テキストの接合および切り離しを行って、組み合わせられる複数のパターンのテキストにそれぞれ形態素解析を行い、自然言語的な観点から尤もらしい複数のテキスト候補と尤度を出力する自然言語処理工程と、
    前記第1画像認識工程により出力されたテキスト候補と、前記自然言語処理工程により出力されたテキスト候補とを対比する判断工程と、をコンピュータによって実現するための文字認識プログラムであって、
    前記判断工程は、所定以上の尤度のテキストを出力する文字認識プログラム。
JP2016084081A 2016-04-19 2016-04-19 文字認識装置、方法およびプログラム Active JP6057112B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016084081A JP6057112B1 (ja) 2016-04-19 2016-04-19 文字認識装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016084081A JP6057112B1 (ja) 2016-04-19 2016-04-19 文字認識装置、方法およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016223844A Division JP2017194945A (ja) 2016-11-17 2016-11-17 文字認識装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP6057112B1 true JP6057112B1 (ja) 2017-01-11
JP2017194806A JP2017194806A (ja) 2017-10-26

Family

ID=57756118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016084081A Active JP6057112B1 (ja) 2016-04-19 2016-04-19 文字認識装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6057112B1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753822A (zh) * 2019-03-29 2020-10-09 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
JP6820578B1 (ja) * 2019-03-29 2021-01-27 Arithmer株式会社 活字文字列認識装置、プログラム、及び方法。
WO2021157422A1 (ja) * 2020-02-06 2021-08-12 Arithmer株式会社 文字列認識装置及び文字列認識プログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020012539A1 (ja) * 2018-07-09 2020-01-16 ファーストアカウンティング株式会社 仕訳要素解析装置、会計処理システム、仕訳要素解析方法、仕訳要素解析プログラム
JP7243333B2 (ja) * 2019-03-15 2023-03-22 富士通株式会社 情報処理方法、情報処理プログラム、および情報処理装置
CN114519858B (zh) * 2022-02-16 2023-09-05 北京百度网讯科技有限公司 文档图像的识别方法、装置、存储介质以及电子设备
US12380720B2 (en) 2022-12-30 2025-08-05 Konica Minolta Business Solutions U.S.A., Inc. Method, apparatus, and system for character recognition using context

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0447486A (ja) * 1990-06-14 1992-02-17 Nec Corp 文字認識方法
JPH06251204A (ja) * 1993-02-26 1994-09-09 Nec Corp 文字認識装置
JPH07262307A (ja) * 1994-03-22 1995-10-13 N T T Data Tsushin Kk 認識結果表示方法及び表示制御装置
JPH0991386A (ja) * 1995-09-28 1997-04-04 Toshiba Corp 文書解析装置及び形態素解析方法
JPH09274645A (ja) * 1996-04-05 1997-10-21 Ricoh Co Ltd 文字認識方法および装置
JPH1185912A (ja) * 1997-09-08 1999-03-30 Canon Inc 文字認識装置及びその方法
JP2002366893A (ja) * 2001-06-08 2002-12-20 Hitachi Ltd 帳票認識方法
JP2004133565A (ja) * 2002-10-09 2004-04-30 Fujitsu Ltd インターネットを利用した文字認識の後処理装置
JP2008117037A (ja) * 2006-11-01 2008-05-22 Fujitsu Ltd 文字認識辞書作成プログラム及び文字認識辞書作成方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0447486A (ja) * 1990-06-14 1992-02-17 Nec Corp 文字認識方法
JPH06251204A (ja) * 1993-02-26 1994-09-09 Nec Corp 文字認識装置
JPH07262307A (ja) * 1994-03-22 1995-10-13 N T T Data Tsushin Kk 認識結果表示方法及び表示制御装置
JPH0991386A (ja) * 1995-09-28 1997-04-04 Toshiba Corp 文書解析装置及び形態素解析方法
JPH09274645A (ja) * 1996-04-05 1997-10-21 Ricoh Co Ltd 文字認識方法および装置
JPH1185912A (ja) * 1997-09-08 1999-03-30 Canon Inc 文字認識装置及びその方法
JP2002366893A (ja) * 2001-06-08 2002-12-20 Hitachi Ltd 帳票認識方法
JP2004133565A (ja) * 2002-10-09 2004-04-30 Fujitsu Ltd インターネットを利用した文字認識の後処理装置
JP2008117037A (ja) * 2006-11-01 2008-05-22 Fujitsu Ltd 文字認識辞書作成プログラム及び文字認識辞書作成方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753822A (zh) * 2019-03-29 2020-10-09 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
JP6820578B1 (ja) * 2019-03-29 2021-01-27 Arithmer株式会社 活字文字列認識装置、プログラム、及び方法。
CN111753822B (zh) * 2019-03-29 2024-05-24 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
US12014275B2 (en) 2019-03-29 2024-06-18 Beijing Sensetime Technology Development Co., Ltd. Method for text recognition, electronic device and storage medium
WO2021157422A1 (ja) * 2020-02-06 2021-08-12 Arithmer株式会社 文字列認識装置及び文字列認識プログラム
JPWO2021157422A1 (ja) * 2020-02-06 2021-08-12

Also Published As

Publication number Publication date
JP2017194806A (ja) 2017-10-26

Similar Documents

Publication Publication Date Title
JP6057112B1 (ja) 文字認識装置、方法およびプログラム
US11106714B2 (en) Summary generating apparatus, summary generating method and computer program
Grosicki et al. ICDAR 2009 handwriting recognition competition
CN110178139B (zh) 使用具有注意力机制的全卷积神经网络的字符识别的系统和方法
US9892342B2 (en) Automatic image product creation for user accounts comprising large number of images
KR20200055760A (ko) 이미지 컨텐츠 인식 방법 및 장치
CN106021410A (zh) 一种基于机器学习的源代码注释质量评估方法
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质
Nugraha et al. Generating image description on Indonesian language using convolutional neural network and gated recurrent unit
US11379534B2 (en) Document feature repository management
CN107148624A (zh) 预处理文本的方法以及用于执行该方法的预处理系统
US12456033B2 (en) Multi-stream recurrent neural network transducer(s)
CN115039144A (zh) 手写中的数学检测
Ma et al. Tagging the web: Building a robust web tagger with neural network
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
Kayal et al. ICDAR 2021 competition on scientific table image recognition to LaTeX
CN114387653A (zh) 视频数据处理方法、装置、设备及存储介质
Engin et al. Multimodal deep neural networks for banking document classification
Hossain et al. Developing a Bangla handwritten text recognition framework using deep learning
JP2006252333A (ja) データ処理方法、データ処理装置およびそのプログラム
CN113934833B (zh) 训练数据的获取方法、装置、系统及存储介质
Wang et al. Listen, decipher and sign: Toward unsupervised speech-to-sign language recognition
KR20230062251A (ko) 텍스트 기반의 문서분류 방법 및 문서분류 장치
CN112686060A (zh) 文本翻译方法、装置、电子设备和存储介质
JP2023021946A (ja) データ検索方法及びシステム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161122

R150 Certificate of patent or registration of utility model

Ref document number: 6057112

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350