JP7601982B2 - Character recognition device and image preprocessing method - Google Patents
Character recognition device and image preprocessing method Download PDFInfo
- Publication number
- JP7601982B2 JP7601982B2 JP2023169752A JP2023169752A JP7601982B2 JP 7601982 B2 JP7601982 B2 JP 7601982B2 JP 2023169752 A JP2023169752 A JP 2023169752A JP 2023169752 A JP2023169752 A JP 2023169752A JP 7601982 B2 JP7601982 B2 JP 7601982B2
- Authority
- JP
- Japan
- Prior art keywords
- feature points
- character recognition
- outlier
- distortion correction
- input image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Input (AREA)
- Image Processing (AREA)
Description
本発明は、文字認識装置及び画像前処理方法に関する。 The present invention relates to a character recognition device and an image preprocessing method.
手書き文字や印刷文字を光学的に読み取った画像を、コンピュータが利用可能なデジタルデータ(例えば、文字コード)に変換する光学文字認識(Optical Character Recognition,OCR)技術が活用されている。光学的な読取りは、イメージスキャナやデジタルカメラ等の光学デバイスによって実現される。読み取られた画像は、パターン認識等の画像処理によってデジタルデータに変換される。 Optical character recognition (OCR) technology is used to convert images of handwritten or printed characters optically read into digital data (e.g., character codes) that can be used by a computer. Optical reading is achieved by optical devices such as image scanners and digital cameras. The read image is then converted into digital data through image processing such as pattern recognition.
また、いわゆる人工知能(Artificial Intelligence,AI)技術が目覚ましく発展している。近年のAI技術の重要なマイルストーンとして、入力層と出力層との間に多数の中間層を有する深層ニューラルネットワークを用いた深層学習(Deep Learning)、注意(Attention)機構を用いて構成されるエンコーダ/デコーダ型のモデルであるトランスフォーマ(Transformer)等が挙げられる。 Also, so-called artificial intelligence (AI) technology has been developing remarkably. Important milestones in AI technology in recent years include deep learning, which uses a deep neural network with multiple intermediate layers between the input layer and the output layer, and the Transformer, an encoder/decoder type model that uses an attention mechanism.
AI技術の主要な適用分野の1つとして画像処理技術が挙げられる。上述したように、OCR技術においては画像処理が用いられることから、現在、AI技術をOCR技術に適用したAI-OCR技術が発展の端緒にある(例えば、特許文献1)。 One of the main application areas of AI technology is image processing technology. As mentioned above, image processing is used in OCR technology, and AI-OCR technology, which applies AI technology to OCR technology, is currently at the beginning of development (for example, Patent Document 1).
OCR処理におけるAI技術を利用した歪み補正は未だ発展中の分野であって、今後の様々な技術開発が待望されている。OCR処理に対して入力される画像(以下、実入力画像と称する)の歪みが小さいほど、適切な文字認識が実現される。AI-OCRのデファクトスタンダードとなるような突出した技術又は技術の組合せは、未だ見出されていない。 Distortion correction using AI technology in OCR processing is still a developing field, and various technological developments are expected in the future. The smaller the distortion of the image input to OCR processing (hereinafter referred to as the actual input image), the more appropriate character recognition will be achieved. A standout technology or combination of technologies that can become the de facto standard for AI-OCR has yet to be found.
以上の事情に鑑み、本発明は、実入力画像に記載されている認識されるべき文字を適切に処理することを目的とする。 In view of the above, the present invention aims to appropriately process characters to be recognized that are written in an actual input image.
上記目的を達成するために、本発明に係る文字認識装置は、複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出する特徴点検出部と、前記特徴点検出部が検出した前記複数の特徴点から外れ点を除去する外れ点除去部と、前記外れ点除去部が前記外れ点を除去した後の除去済み特徴点を用いて前記実入力画像の歪みを補正する歪み補正部と、前記歪み補正部が補正した後の補正済み実入力画像における前記認識エリアに相当するエリアに含まれる補正済み文字に対して文字認識を行う文字認識部と、を含む。 To achieve the above object, the character recognition device according to the present invention includes a feature point detection unit that detects a plurality of corresponding feature points between a template image including a plurality of recognition areas and an actual input image in which characters to be recognized are written in a format corresponding to the template image, an outlier point removal unit that removes outliers from the plurality of feature points detected by the feature point detection unit, a distortion correction unit that corrects distortion of the actual input image using the removed feature points after the outlier point removal unit has removed the outliers, and a character recognition unit that performs character recognition on corrected characters included in areas corresponding to the recognition areas in the corrected actual input image after correction by the distortion correction unit.
また、本発明に係る画像前処理方法は、コンピュータのプロセッサにより、複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出することと、検出された前記複数の特徴点から外れ点を除去することと、前記外れ点が除去された後の除去済み特徴点を用いて前記実入力画像の歪みを補正することと、を有する。 The image preprocessing method according to the present invention includes detecting, by a computer processor, a plurality of corresponding feature points between a template image including a plurality of recognition areas and an actual input image in which characters to be recognized are written in a format corresponding to the template image, removing outliers from the detected plurality of feature points, and correcting distortion of the actual input image using the removed feature points after the outliers have been removed.
以上の構成によれば、実入力画像に記載されている認識されるべき文字を適切に処理することが可能である。なお、以上の構成により、当該効果の代わりに、又は当該効果とともに、他の効果が奏されてもよい。 The above configuration makes it possible to appropriately process characters to be recognized that are written in an actual input image. Note that the above configuration may provide other effects instead of or in addition to the above effect.
以下、添付の図面を参照して本発明の実施形態を詳細に説明する。なお、本明細書及び図面において、同様に説明されることが可能な要素については、同一の符号を付することにより重複した説明が省略され得る。 Hereinafter, an embodiment of the present invention will be described in detail with reference to the attached drawings. In this specification and drawings, elements that can be described in the same way may be designated by the same reference numerals to avoid redundant description.
以下に説明される各実施形態は、本発明を実現可能な構成の一例に過ぎない。以下の各実施形態は、本発明が適用される装置の構成や各種の条件に応じて適宜に修正又は変更することが可能である。以下の各実施形態に含まれる要素の組合せの全てが本発明を実現するのに必須であるとは限られず、要素の一部を適宜に省略することが可能である。したがって、本発明の範囲は、以下の各実施形態に記載される構成によって限定されるものではない。相互に矛盾のない限りにおいて、以下の実施形態内に記載された複数の構成を組み合わせた構成も採用可能である。 Each of the embodiments described below is merely one example of a configuration that can realize the present invention. Each of the following embodiments can be modified or changed as appropriate depending on the configuration of the device to which the present invention is applied and various conditions. Not all of the combinations of elements included in each of the following embodiments are necessarily essential to realize the present invention, and some of the elements can be omitted as appropriate. Therefore, the scope of the present invention is not limited by the configurations described in each of the following embodiments. As long as there are no mutual contradictions, a configuration that combines multiple configurations described in the following embodiments can also be adopted.
1. 第1実施形態
図1は、第1実施形態に係る文字認識装置20を含む文字認識システムSを概略的に示す図である。文字認識システムSは、ユーザ端末10と、文字認識装置20と、を含む。文字認識システムSが、他の構成要素を含んでもよい。他の構成要素とは、例えば、ユーザ端末10と文字認識装置20との間に配置され、種々のデータ処理を実行するフロントエンドサーバである。
1. First embodiment Fig. 1 is a diagram illustrating a character recognition system S including a
ユーザ端末10は、ユーザが使用するスマートフォンやPC等の端末装置である。ユーザは、ユーザ端末10を用いて文字認識装置20が提供するアプリケーションやサービスを使用する。ユーザ端末10は、例えば、無線通信ネットワーク及びインターネットを介して文字認識装置20に接続する。
The
文字認識装置20は、ユーザ端末10から送信される画像(実入力画像)に対してOCR処理を実行するサーバ装置である。文字認識装置20は、例えば、保険金申請のための診断書画像や、銀行口座開設のための申込書画像などの様々な定形帳票に対応した実入力画像に対して、OCR処理を実行する。
The
なお、文字認識装置20は、OCR処理による文字認識結果を、他のサーバ装置に送信してよい。また、文字認識装置20は、OCR処理を含む種々のアプリケーション処理を実行するサーバ装置であってもよい。すなわち、文字認識装置20は、本実施形態で説明される機能のみを提供してもよいし、他の機能を併せて提供してもよい。文字認識装置20は、オンプレミス環境に配置されてもよく、他の企業によって提供されるクラウド環境に配置されてもよい。また、文字認識装置20は文字認識部28による通常のOCR処理のみを実行し、特徴点検出部22、外れ点除去部24並びに歪み補正部26を含むコンピュータである前処理装置を別に配置し、ユーザ端末から受領した画像をこの前処理装置で処理された画像を文字認識装置20の文字認識部28でOCR処理して文字認識結果を得る構成であってもよい。さらには、文字認識装置20の各部全て又はその一部を一つのアプリケーションとして構成し、ユーザ端末にインストールして実行する形態であってもよい。
The
文字認識装置20は、OCR処理を実現するための機能部として、特徴点検出部22と外れ点除去部24と歪み補正部26と文字認識部28とを含む。各部の詳細については後述される。
The
図2は、第1実施形態に係るユーザ端末10のハードウェア構成図である。図2に示すように、ユーザ端末10は、プロセッサ101とメモリ102と入出力インタフェース103と通信インタフェース104とを有する。ユーザ端末10に設けられる以上の要素は内部バスによって相互に接続される。なお、ユーザ端末10は、図2に示された要素以外のハードウェア要素を有してもよい。
Figure 2 is a hardware configuration diagram of the
プロセッサ101は、ユーザ端末10の種々の機能を実現する演算素子である。プロセッサ101は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、メモリコントローラ等の要素を含むSoC(System-on-a-Chip)であってよい。
The
メモリ102は、RAM(Random Access Memory)、eMMC(embedded Multi Media Card)等の記憶媒体によって構成される。メモリ102は、ユーザ端末10における種々の処理を実行するのに用いられるプログラム及びデータを一時的又は恒久的に格納する要素である。上記プログラムは、ユーザ端末10の動作のための1つ以上の命令を含む。プロセッサ101は、メモリ102に記憶されたプログラムをメモリ102及び/又は不図示のシステムメモリに展開し実行することによって、ユーザ端末10の機能を実現する。
The
入出力インタフェース103は、ユーザ端末10への操作を受け付けてプロセッサ101に供給すると共に、種々の情報をユーザに提示するインタフェースであって、例えば、タッチパネル、又はキーボード及びディスプレイである。
The input/
通信インタフェース104は、インターネット通信を実現するための種々の信号処理を実行する回路であって、例えば、ネットワークインタフェースカード(NIC)である。
The
図3は、第1実施形態に係る文字認識装置20のハードウェア構成図である。図3に示すように、文字認識装置20は、プロセッサ201とメモリ202と入出力インタフェース203と通信インタフェース204とを有する。文字認識装置20に設けられる以上の要素は内部バスによって相互に接続される。なお、文字認識装置20は、図3に示された要素以外のハードウェア要素を有してもよい。
Fig. 3 is a hardware configuration diagram of the
プロセッサ201は、文字認識装置20の種々の機能を実現する演算素子である。プロセッサ201は、CPUであってよく、さらにGPU等の他のプロセッサを含んでもよい。
The
メモリ202は、RAM、ROM(Read Only Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の記憶媒体によって構成される。メモリ202は、文字認識装置20における種々の処理を実行するのに用いられるプログラム及びデータを一時的又は恒久的に格納する要素である。上記プログラムは、文字認識装置20の動作のための1つ以上の命令を含む。プロセッサ201は、メモリ202に記憶されたプログラムをメモリ202及び/又は不図示のシステムメモリに展開し実行することによって、文字認識装置20の機能を実現する。
The
入出力インタフェース203は、文字認識装置20への操作を受け付けてプロセッサ201に供給すると共に、種々の情報をユーザに提示するインタフェースであって、例えば、キーボード及びディスプレイである。なお、文字認識装置20が入出力インタフェース203を有さず、遠隔操作されてもよい。
The input/
通信インタフェース204は、インターネット通信を実現するための種々の信号処理を実行する回路であって、例えば、ネットワークインタフェースカード(NIC)である。
The
図4は、第1実施形態に係る文字認識装置20のソフトウェア構成図である。図4に示すように、文字認識装置20は、制御部210と記憶部220と通信部230とを有する。
Figure 4 is a software configuration diagram of the
制御部210は、特徴点検出部22と外れ点除去部24と歪み補正部26と文字認識部28とを含む種々の機能を実現するソフトウェア要素であって、前述されたプロセッサ201によって実現される。以下、制御部210の動作を概略的に説明する。
The
特徴点検出部22は、複数の認識エリアRAを含むテンプレート画像ITと、テンプレート画像ITに対応するフォーマットFに認識されるべき文字が記載されている実入力画像IRと、の間で互いに対応する複数の特徴点PFを検出する。
The feature
外れ点除去部24は、特徴点検出部22が検出した複数の特徴点PFから外れ点POを除去する。
The
歪み補正部26は、外れ点除去部24が外れ点を除去した後の除去済み特徴点PFEを用いて実入力画像IRの歪みを補正する。
The
文字認識部28は、歪み補正部26が補正した後の補正済み実入力画像IRAにおける認識エリアRAに相当するエリアCAに含まれる補正済み文字C’に対して文字認識を行う。
The
記憶部220は、制御部210によって使用される種々のデータ及びプログラムを記憶する要素であって、プロセッサ201と協働するメモリ202によって実現される。
The
通信部230は、制御部210による制御の下で他の装置と通信する要素であって、プロセッサ201と協働する通信インタフェース204によって実現される。
The
図5から図10を参照して、第1実施形態に係る文字認識の詳細処理を説明する。図5は、第1実施形態に係る文字認識の詳細処理を示すフローチャートである。 Details of the character recognition process according to the first embodiment will be described with reference to Figures 5 to 10. Figure 5 is a flowchart showing the details of the character recognition process according to the first embodiment.
ステップS510において、まず、特徴点検出部22は、ユーザ端末10から送信された実入力画像IRを受信すると共に、記憶部220に記憶されているテンプレート画像ITを読み出す。
In step S510, first, the feature
図6は、第1実施形態に係るテンプレート画像ITの例を示す図である。テンプレート画像ITは、ユーザが文字を記入するための紙媒体(フォーマットF)をプリントするのに用いられる画像データである。フォーマットFは、プリント済みの紙媒体としてユーザに提供されてもよいし、ユーザ自身によってプリントされてもよい。 6 is a diagram showing an example of a template image IT according to the first embodiment. The template image IT is image data used to print a paper medium (format F) on which a user writes characters. The format F may be provided to the user as a printed paper medium, or may be printed by the user himself.
図6に示すように、テンプレート画像ITは、複数の認識エリアRAを含む。認識エリアRAは、例えば、漢字や数字が記入されるエリアと、チェック印によってチェックされるエリアとを含む。図6においては、作図の簡単のために、一部の認識エリアRAのみに符号が付されている。認識エリアRAは、テンプレート画像ITを示す画像データにおいて、画像内の座標によって特定される所定の領域(例えば、矩形領域)を占めると共に、プリントされたフォーマットFにおいて所定の物理的領域を占める。 As shown in Fig. 6, the template image IT includes a plurality of recognition areas RA. The recognition areas RA include, for example, an area in which Chinese characters or numbers are written, and an area to be checked with a check mark. In Fig. 6, for the sake of simplicity, only some of the recognition areas RA are labeled with symbols. The recognition areas RA occupy a predetermined area (e.g., a rectangular area) specified by coordinates in the image in the image data representing the template image IT , and also occupy a predetermined physical area in the printed format F.
図7は、第1実施形態に係る実入力画像IRの例を示す図である。図7に示すように、実入力画像IRは、テンプレート画像ITに対応するフォーマットFを撮影した画像であって、ユーザがフォーマットFに記載した文字が含まれる。実入力画像IRは、現実の紙媒体であるフォーマットFを撮影することによって取得される画像データである。したがって、図7のように、実入力画像IRは、紙の折り目や撮影角度等の複数の要因に基づいて生じた歪みを有する場合が多い。 Fig. 7 is a diagram showing an example of a real input image I R according to the first embodiment. As shown in Fig. 7, the real input image I R is an image obtained by photographing a format F corresponding to the template image I T , and includes characters written by a user in the format F. The real input image I R is image data acquired by photographing the format F, which is an actual paper medium. Therefore, as shown in Fig. 7, the real input image I R often has distortions caused by multiple factors such as folds in the paper and the photographing angle.
特徴点検出部22は、ステップS510において、歪み補正部26による実入力画像IRの歪み補正(ステップS530)の前処理として、以下のような特徴点検出を実行する。
In step S510, the feature
図8は、第1実施形態に係る特徴点検出の説明図である。特徴点検出部22は、例えば、LoFTR(Local Feature Matching with Transformers)アルゴリズムに基づいて、テンプレート画像ITと実入力画像IRとの間で互いに対応する複数の特徴点PFを検出する。
8 is an explanatory diagram of feature point detection according to the first embodiment. The feature
特徴点PFは、例えばエリアの境界や矩形枠のコーナー等の画像上の特徴的な点であって、本実施形態においてはテンプレート画像ITと実入力画像IRとの間で互いに対応している。互いに対応するテンプレート画像IT上の特徴点PF及び実入力画像IR上の特徴点PFは、類似する特徴量を有する。 The feature points P F are characteristic points on an image, such as the boundaries of an area or the corners of a rectangular frame, and in this embodiment correspond to each other between the template image I T and the actual input image I R. The corresponding feature points P F on the template image I T and the corresponding feature points P F on the actual input image I R have similar feature amounts.
特徴点検出部22は、テンプレート画像ITに含まれる点と実入力画像IRに含まれる点とが対応していることの程度を示す確信度(Confidence)が所定の閾値(例えば、98%又は99%)を上回る点を、複数の特徴点PFとして抽出すると好適である。上記した特徴点PFの抽出は、例えば、LoFTRアルゴリズムに従って実行される。LoFTRアルゴリズムは、教師データを用いた教師あり学習によって学習された学習済みモデルによって実現される。LoFTRアルゴリズムにおいては、テンプレート画像ITと実入力画像IRとの間で互いに対応する複数の特徴点PFを探索し、探索された特徴点PFが確信度に従って足切りされる。
The feature
LoFTRアルゴリズムでは、まず、畳み込みニューラルネットワーク及びトランスフォーマによって各画像IT,IRに関する特徴量FT,FRが算定される。その後、画像IT,IR間の粗な対応付けを輸送最適アルゴリズムによって算定し、小パッチにおける詳細な対応付けの計算を行う。結果として、画像IT,IR間におけるピクセルレベルのマッチングが行われ、対応する複数の特徴点PFが抽出される。以上から理解されるように、LoFTRアルゴリズムは、各画像IT,IRの全体に対して適用される手法である。 In the LoFTR algorithm, first, feature quantities F T and F R for each image I T and I R are calculated using a convolutional neural network and a transformer. Then, a rough correspondence between the images I T and I R is calculated using a transport optimal algorithm, and a detailed correspondence is calculated for small patches. As a result, pixel-level matching is performed between the images I T and I R , and multiple corresponding feature points P F are extracted. As can be seen from the above, the LoFTR algorithm is a method that is applied to the entirety of each image I T and I R.
図8は、LoFTRアルゴリズムによって検出された複数の特徴点PFの説明図である。図8では、テンプレート画像ITと実入力画像IRとの間で互いに対応する特徴点PFが線分によって示されている。 8 is an explanatory diagram of a plurality of feature points P F detected by the LoFTR algorithm. In FIG. 8, corresponding feature points P F between the template image I T and the real input image I R are indicated by line segments.
なお、特徴点検出部22は、SuperPointやPatch2Pix等、LoFTR以外のアルゴリズムに基づいて複数の特徴点PFを検出してもよい。すなわち、特徴点検出部22は、任意の検出アルゴリズムを用いて、テンプレート画像IT及び実入力画像IRに対するステップS510の処理を実行してよい。
The feature
ステップS520において、歪み補正部26による実入力画像IRの歪み補正(ステップS530)の前処理として、外れ点除去部24は、特徴点検出部22が検出した複数の特徴点PFから外れ点POを除去する。
In step S520, as preprocessing for the distortion correction of the actual input image I R by the distortion correction unit 26 (step S530), the
より詳細には、外れ点除去部24は、CONSAC(Conditional Sample Consensus)アルゴリズムに基づいて、複数の特徴点PFに対応する座標値から外れ値を特定し、特定された外れ値に対応する特徴点PFである外れ点POを、歪み補正部26によるステップS530の歪み補正に用いるべき特徴点PFから除去する。外れ点除去部24は、例えば、対応する特徴点PFの座標値間の距離が所定の閾値を上回る場合に、その座標値(特徴点PFの組)を外れ値として認識してよい。上記所定の閾値は、全ての対応する特徴点PF間の距離の統計的値(平均値、中央値、分散、標準偏差等)に基づいて設定されてもよく、ランダムに選択された部分的な特徴点PF間の距離の統計的値に基づいて設定されてもよい。
More specifically, the
CONSACアルゴリズムは、教師あり学習及び自己教師あり学習によって学習された学習済みモデルによって実現される。CONSACアルゴリズムにおいては、データセットからサンプルを選択する際に用いた情報に基づいてサンプルが更新される。CONSACアルゴリズムは、LoFTRアルゴリズムと同様に、各画像IT,IRの全体に対して適用される手法である。 The CONSAC algorithm is realized by a trained model trained by supervised learning and self-supervised learning. In the CONSAC algorithm, samples are updated based on information used when selecting samples from a dataset. Like the LoFTR algorithm, the CONSAC algorithm is a method applied to the entirety of each image I T and I R.
ステップS530において、歪み補正部26は、外れ点除去部24が外れ点POを除去した後の除去済み特徴点PFEを用いて実入力画像IRの歪みを補正する。
In step S530, the
より詳細には、歪み補正部26は、薄板スプライン(Thin Plate Spline)アルゴリズムに基づいて、実入力画像IRにおける除去済み特徴点PFEの座標を、テンプレート画像ITにおける対応する特徴点PFの座標に近付けるように実入力画像IRを補正し、補正済み実入力画像IRAを出力する。
More specifically, the
薄板スプラインアルゴリズムは、2次元平面における点の集合を用いて、集合に含まれる点を通る曲面を求めるアルゴリズムである。本実施形態においては、薄板スプラインアルゴリズムが実入力画像IRの全体に対して適用される。他に、後述されるように、薄板スプラインアルゴリズムが実入力画像IRを分割した部分画像に対して適用されてもよい。 The thin plate spline algorithm is an algorithm that uses a set of points in a two-dimensional plane to find a curved surface that passes through the points included in the set. In this embodiment, the thin plate spline algorithm is applied to the entire real input image I R. Alternatively, as described later, the thin plate spline algorithm may be applied to partial images obtained by dividing the real input image I R.
図9は、第1実施形態に係る補正済み実入力画像IRAの例を示す図である。一方、図10は、図5に示すフローチャートにおいてステップS520の外れ点除去を実行しない場合に歪み補正部26から出力される補正済み実入力画像I’RAの例(すなわち、図9の対比例)を示す図である。
Fig. 9 is a diagram showing an example of a corrected actual input image IRA according to the first embodiment, while Fig. 10 is a diagram showing an example of a corrected actual input image I'RA (i.e., a comparison example of Fig. 9) output from the
図9に示すように、上述したステップS510からS530を実入力画像IRに対して実行した場合には、フォーマットFにおける歪みが適切に補正された補正済み実入力画像IRAが取得されている。 As shown in FIG. 9, when the above-described steps S510 to S530 are executed on the actual input image I 1 R , a corrected actual input image I 1 RA in which the distortion in the format F has been appropriately corrected is acquired.
一方、図10に示すように、ステップS520の外れ点除去が実行されない場合には、歪み補正が不完全な補正済み実入力画像I’RAが取得されてしまう。結果として、後段の文字認識の精度が低下する。 10, if the outlier removal in step S520 is not performed, a corrected actual input image I'RA with incomplete distortion correction will be acquired, resulting in a decrease in the accuracy of the subsequent character recognition.
ステップS540において、文字認識部28は、歪み補正部26が補正した後の補正済み実入力画像IRAにおける認識エリアRAに相当するエリアCAに含まれる補正済み文字C’に対して文字認識を行う。
In step S540, the
以上の構成によれば、特徴点検出及び外れ値除去に基づく歪み補正がなされた実入力画像IRに対して文字認識が実行されるので、そうでない構成と比較して、実入力画像IRに記載された文字をより適切に認識することが可能である。 According to the above configuration, character recognition is performed on the real input image I R that has been subjected to distortion correction based on feature point detection and outlier removal, so it is possible to more appropriately recognize characters written in the real input image I R compared to a configuration that does not do so.
2. 第2実施形態
図11は、第2実施形態に係る文字認識装置20のソフトウェア構成図である。図11に示すように、文字認識装置20は、第1実施形態と同様に、制御部210と記憶部220と通信部230とを有する。第1実施形態と比較して、第2実施形態の制御部210は、テンプレート選択部30と補正要否判定部32とを、ソフトウェア要素としてさらに含む。
2. Second embodiment Fig. 11 is a software configuration diagram of a
テンプレート選択部30は、LoFTRアルゴリズム及び/又はCONSACアルゴリズムを用いて、特徴点検出部22が用いるべきテンプレート画像ITを複数のテンプレート画像ITから選択する。
The
より詳細には、例えば、テンプレート選択部30は、実入力画像IRと複数のテンプレート画像ITの各々との間で特徴点検出部22による特徴点検出を行って、最も多くの特徴点PFが検出されたテンプレート画像ITを選択する。その後、選択されたテンプレート画像ITを用いて、第1実施形態のステップS510からS540が実行される。
More specifically, for example, the
また、テンプレート選択部30は、上記のように検出された特徴点PFに対して、さらに外れ点除去部24による外れ点除去を行った後に、最も多くの特徴点PFが残っているテンプレート画像ITを選択してもよい。
Furthermore, the
以上の構成によれば、ユーザ端末10のユーザがテンプレート画像ITを選択しなくても、使用すべきテンプレート画像ITを文字認識装置20が自動的に選択可能である。
According to the above configuration, even if the user of the
補正要否判定部32は、LoFTRアルゴリズム及び/又はCONSACアルゴリズムを用いて、歪み補正部26による歪み補正を実行すべきか否かを判定する。
The correction
より詳細には、例えば、補正要否判定部32は、実入力画像IRと複数のテンプレート画像ITの各々との間で特徴点検出部22による特徴点検出を行う。対応する特徴点PFの間で座標値の差分が大きい場合(例えば、座標値の差分の合計が所定の閾値を上回る場合)、実入力画像IRの歪みが相対的に大きいと考えられるので、補正要否判定部32は歪み補正部26による歪み補正を実行すると判定する。
More specifically, for example, the correction
又は、対応する特徴点PFの間で座標値の差分の分散が大きい場合(例えば、座標値の差分の分散が所定の閾値を上回る場合)、実入力画像IRの歪みが相対的に大きいと考えられるので、補正要否判定部32は歪み補正部26による歪み補正を実行すると判定する。
Alternatively, if the variance of the differences in coordinate values between corresponding feature points P F is large (for example, if the variance of the differences in coordinate values exceeds a predetermined threshold value), the distortion of the actual input image I R is considered to be relatively large, and the correction
また、補正要否判定部32は、上記のように検出された特徴点PFに対して、さらに外れ点除去部24による外れ点除去を行った後に、上記した補正要否判定を実行してもよい。
Furthermore, the correction
歪み補正部26による歪み補正を実行しないと判定された場合、制御部210は、実入力画像IRに対して一般的な台形補正を実行してよい。
If it is determined that distortion correction by the
以上の構成によれば、歪みが相対的に大きい画像、すなわち歪み補正の必要性が相対的に高い画像に対して、選択的に歪み補正が実行される。したがって、文字認識装置20の全体的な処理負荷を低減することが可能である。
According to the above configuration, distortion correction is selectively performed on images with relatively large distortion, i.e., images for which the need for distortion correction is relatively high. Therefore, it is possible to reduce the overall processing load of the
また、補正要否判定部32は、上記要否判定に代えて、実入力画像IRに所定の相対長さ(例えば、フォーマットFの縦辺又は横辺の全長の70%又は80%)以上の直線部分が含まれるか否かに基づいて、歪み補正部26による歪み補正を実行すべきか否かを判定してもよい。
In addition, instead of the above-mentioned correction necessity determination, the correction
第1実施形態においては、ステップS530において、歪み補正部26が、実入力画像IRの全体に対して歪み補正を実行する。対照的に、第2実施形態において、歪み補正部26は、実入力画像IRを複数の部分画像IPに分割した後に、各部分画像IPに含まれる除去済み特徴点PFEを用いて当該部分画像IPの歪みを補正する。歪み補正部26は、実入力画像IRを6つの部分画像IPに分割にしてもよく、8つの部分画像IPに分割にしてもよく、さらに多くの部分画像IPに分割にしてもよい。
In the first embodiment, in step S530, the
薄板スプラインアルゴリズムは、処理対象の画像のサイズが増大するに従って顕著に処理負荷が高まり、メモリリーク等の問題が生じる可能性も高まる。以上の構成によれば、歪み補正部26による歪み補正の処理負荷を低減することが可能である。
The thin plate spline algorithm imposes a significant processing load as the size of the image to be processed increases, and the possibility of problems such as memory leaks also increases. With the above configuration, it is possible to reduce the processing load of distortion correction by the
なお、第2実施形態においても、ステップS510の特徴点検出及びステップS520の外れ点除去は、実入力画像IRの全体に対して実行される。 In the second embodiment, too, the feature point detection in step S510 and the outlier point removal in step S520 are performed on the entire real input image I R.
また、歪み補正部26は、各部分画像IPに含まれる除去済み特徴点PFEのうち、所定数以下の除去済み特徴点PFEを用いて当該部分画像IPの歪みを補正してよい。さらに、歪み補正部26は、除去済み特徴点PFEを選択する際に、除去済み特徴点PFE間の距離が所定以上に保たれるように(例えば、選択後の除去済み特徴点PFE間の距離の合計が所定の閾値を上回るように)選択を行ってよい。
Furthermore, the
以上の構成によれば、歪み補正部26による歪み補正の処理負荷をさらに低減することが可能である。
The above configuration makes it possible to further reduce the processing load of distortion correction by the
上記した本実施形態におけるテンプレート選択部30によるテンプレート選択、補正要否判定部32による補正要否判定、及び歪み補正部26による部分画像の歪み補正は、独立して実行可能である。上記3つの独立した動作のうち、いずれか1つ又は2つの動作のみが実行されてもよいことは、当業者に当然に理解される。
In the present embodiment described above, the template selection by the
3. その他の実施形態
3.1. 変形例
以上、本発明を実施するための形態を説明したが、本発明は上記実施形態に限定されるものではない。上記実施形態は例示に過ぎず、種々の変形が可能であることは当然に理解される。上記実施形態において使用される単語、連語等の表現は例示に過ぎず、実質的に同一の又は類似する表現に置換され得る。
3. Other embodiments 3.1. Modifications Although the embodiments for carrying out the present invention have been described above, the present invention is not limited to the above-mentioned embodiments. It is naturally understood that the above-mentioned embodiments are merely examples and that various modifications are possible. Words, phrases, and other expressions used in the above-mentioned embodiments are merely examples and may be replaced with substantially the same or similar expressions.
歪み補正部26は、上記実施形態にて説明された歪み補正を行った後に、LoFTRアルゴリズム及び/又はCONSACアルゴリズムを用いて、補正済み実入力画像IRAにおける歪み補正が適切であるか否かを判定してよい。
After performing the distortion correction described in the above embodiment, the
上記実施形態に記載された装置が提供する手段および/または機能は、実体的なメモリ装置に記録されたソフトウェアおよびそれを実行するコンピュータ、ソフトウェアのみ、ハードウェアのみ、あるいはそれらの組合せによって提供することができる。例えば、いずれかの上記装置がハードウェアである電子回路によって提供される場合、それは多数の論理回路を含むデジタル回路、またはアナログ回路によって提供することができる。 The means and/or functions provided by the devices described in the above embodiments can be provided by software recorded in a physical memory device and a computer that executes the software, by software alone, by hardware alone, or by a combination of these. For example, if any of the above devices is provided by electronic circuits that are hardware, it can be provided by digital circuits including a large number of logic circuits, or by analog circuits.
上記実施形態に記載された装置は、非遷移的実体的記録媒体(non-transitory tangible storage medium)に格納されたプログラムを実行する。このプログラムが実行されることで、プログラムに対応する方法が実行される。 The device described in the above embodiment executes a program stored in a non-transitory tangible storage medium. Execution of this program results in the execution of a method corresponding to the program.
3.2. 付記
上記実施形態及び変形例の一部又は全部は、以下の付記のようにも記載され得るが、以下の付記の内容には限定されない。以下では、複数の付記に従属する付記に対して、複数の付記に従属する付記が従属するという関係性が表現される。以下に表現される付記の従属関係の全てが上記実施形態に含まれる。
3.2. Supplementary Note A part or all of the above embodiment and modified examples may be described as the following supplementary note, but are not limited to the contents of the following supplementary note. In the following, a relationship is expressed in which a supplementary note that is dependent on multiple supplementary notes is dependent on the supplementary note that is dependent on multiple supplementary notes. All of the dependent relationships of the supplementary notes expressed below are included in the above embodiment.
(付記1)
複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出する特徴点検出部と、
前記特徴点検出部が検出した前記複数の特徴点から外れ点を除去する外れ点除去部と、
前記外れ点除去部が前記外れ点を除去した後の除去済み特徴点を用いて前記実入力画像の歪みを補正する歪み補正部と、
前記歪み補正部が補正した後の補正済み実入力画像における前記認識エリアに相当するエリアに含まれる補正済み文字に対して文字認識を行う文字認識部と、を備える
文字認識装置。
(Appendix 1)
a feature point detection unit that detects a plurality of corresponding feature points between a template image including a plurality of recognition areas and an actual input image in which characters to be recognized are written in a format corresponding to the template image;
an outlier removal unit that removes outliers from the plurality of feature points detected by the feature point detection unit;
a distortion correction unit that corrects distortion of the actual input image by using removed feature points obtained after the outlier point removal unit has removed the outlier points;
a character recognition unit that performs character recognition on a corrected character included in an area corresponding to the recognition area in the corrected actual input image after correction by the distortion correction unit.
(付記2)
前記外れ点除去部は、CONSAC(Conditional Sample Consensus)アルゴリズムに基づいて、前記複数の特徴点に対応する座標値から外れ値を特定し、特定された前記外れ値に対応する特徴点である前記外れ点を、前記歪み補正部による歪み補正に用いるべき特徴点から除去する
付記1に記載の文字認識装置。
(Appendix 2)
The outlier removal unit identifies an outlier from coordinate values corresponding to the plurality of feature points based on a Conditional Sample Consensus (CONSAC) algorithm, and removes the outlier that is a feature point corresponding to the identified outlier from feature points to be used for distortion correction by the distortion correction unit.
(付記3)
前記歪み補正部は、薄板スプライン(Thin Plate Spline)アルゴリズムに基づいて、前記実入力画像における除去済み特徴点の座標を、前記テンプレート画像における対応する特徴点の座標に近付けるように前記実入力画像を補正する
付記2に記載の文字認識装置。
(Appendix 3)
The character recognition device according to claim 2, wherein the distortion correction unit corrects the actual input image based on a Thin Plate Spline algorithm so as to bring coordinates of removed feature points in the actual input image closer to coordinates of corresponding feature points in the template image.
(付記4)
前記特徴点検出部は、前記テンプレート画像に含まれる点と前記実入力画像に含まれる点とが対応していることの程度を示す確信度が所定の閾値を上回る点を、前記複数の特徴点として抽出する
付記2又は付記3に記載の文字認識装置。
(Appendix 4)
The character recognition device according to claim 2 or 3, wherein the feature point detection unit extracts points whose confidence level, which indicates the degree to which points included in the template image correspond to points included in the actual input image, exceeds a predetermined threshold value as the plurality of feature points.
(付記5)
前記特徴点検出部は、LoFTR(Local Feature Matching with Transformers)アルゴリズムに基づいて前記複数の特徴点を検出する
付記2から付記4のいずれかに記載の文字認識装置。
(Appendix 5)
The character recognition device according to any one of Supplementary Note 2 to Supplementary Note 4, wherein the feature point detection unit detects the plurality of feature points based on a Local Feature Matching with Transformers (LoFTR) algorithm.
(付記6)
前記LoFTRアルゴリズム及び/又は前記CONSACアルゴリズムを用いて、前記特徴点検出部が用いるべき前記テンプレート画像を複数のテンプレート画像から選択するテンプレート選択部を更に備える
付記2から付記5のいずれかに記載の文字認識装置。
(Appendix 6)
The character recognition device according to any one of Supplementary Note 2 to Supplementary Note 5, further comprising a template selection unit that uses the LoFTR algorithm and/or the CONSAC algorithm to select the template image to be used by the feature point detection unit from a plurality of template images.
(付記7)
前記LoFTRアルゴリズム及び/又は前記CONSACアルゴリズムを用いて、前記歪み補正部による前記歪み補正を実行すべきか否かを判定する補正要否判定部を更に備える
付記2から付記5のいずれかに記載の文字認識装置。
(Appendix 7)
The character recognition device according to any one of Supplementary Note 2 to Supplementary Note 5, further comprising a correction necessity determination unit that determines whether or not the distortion correction should be performed by the distortion correction unit using the LoFTR algorithm and/or the CONSAC algorithm.
(付記8)
前記実入力画像に所定の相対長さ以上の直線部分が含まれるか否かに基づいて、前記歪み補正部による前記歪み補正を実行すべきか否かを判定する補正要否判定部を更に備える
付記1から付記5のいずれかに記載の文字認識装置。
(Appendix 8)
The character recognition device according to any one of Supplementary Note 1 to Supplementary Note 5, further comprising a correction necessity determination unit that determines whether or not the distortion correction should be performed by the distortion correction unit, based on whether or not the actual input image includes a straight line portion having a predetermined relative length or more.
(付記9)
前記歪み補正部は、前記実入力画像を複数の部分画像に分割した後に、各部分画像に含まれる除去済み特徴点を用いて当該部分画像の歪みを補正する
付記1から付記8のいずれかに記載の文字認識装置。
(Appendix 9)
9. The character recognition device according to claim 1, wherein the distortion correction unit divides the actual input image into a plurality of partial images, and then corrects distortion of each partial image by using the removed feature points included in each partial image.
(付記10)
前記歪み補正部は、各部分画像に含まれる前記除去済み特徴点のうち、所定数以下の除去済み特徴点を用いて当該部分画像の歪みを補正する
付記9に記載の文字認識装置。
(Appendix 10)
The character recognition device according to claim 9, wherein the distortion correction unit corrects distortion of each partial image by using a predetermined number or less of the removed feature points included in each partial image.
(付記11)
前記歪み補正部は、前記所定数以下の除去済み特徴点を選択する際に、除去済み特徴点P間の距離が所定以上に保たれるように選択を行う
付記10に記載の文字認識装置。
(Appendix 11)
The character recognition device according to
(付記12)
複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出する特徴点検出部と、
前記特徴点検出部が検出した前記複数の特徴点から外れ点を除去する外れ点除去部と、
前記外れ点除去部が前記外れ点を除去した後の除去済み特徴点を用いて前記実入力画像の歪みを補正する歪み補正部と、を備える
画像前処理装置。
(Appendix 12)
a feature point detection unit that detects a plurality of corresponding feature points between a template image including a plurality of recognition areas and an actual input image in which characters to be recognized are written in a format corresponding to the template image;
an outlier removal unit that removes outliers from the plurality of feature points detected by the feature point detection unit;
a distortion correction unit that corrects distortion of the actual input image by using removed feature points obtained after the outlier point removal unit has removed the outlier points.
(付記13)
コンピュータのプロセッサにより、
複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出することと、
検出された前記複数の特徴点から外れ点を除去することと、
前記外れ点が除去された後の除去済み特徴点を用いて前記実入力画像の歪みを補正することと、を備える
画像前処理方法。
(Appendix 13)
The computer's processor
Detecting a plurality of corresponding feature points between a template image including a plurality of recognition areas and an actual input image in which characters to be recognized are written in a format corresponding to the template image;
removing outliers from the detected feature points;
and correcting distortion of the real input image using the removed feature points after the outlier points have been removed.
(付記14)
文字認識装置のプロセッサにより、
複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出することと、
前記複数の特徴点から外れ点を除去することと、
前記外れ点が除去された後の除去済み特徴点を用いて前記実入力画像の歪みを補正することと、
補正された後の補正済み実入力画像における前記認識エリアに相当するエリアに含まれる補正済み文字に対して文字認識を行うことと、を備える
方法。
(Appendix 14)
The processor of the character recognition device
Detecting a plurality of corresponding feature points between a template image including a plurality of recognition areas and an actual input image in which characters to be recognized are written in a format corresponding to the template image;
removing outliers from the plurality of feature points;
correcting distortion of the real input image using the removed feature points after the outlier points have been removed;
performing character recognition on a corrected character included in an area corresponding to the recognition area in a corrected actual input image after the correction.
(付記15)
文字認識装置のプロセッサに、
複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出することと、
前記複数の特徴点から外れ点を除去することと、
前記外れ点が除去された後の除去済み特徴点を用いて前記実入力画像の歪みを補正することと、
補正された後の補正済み実入力画像における前記認識エリアに相当するエリアに含まれる補正済み文字に対して文字認識を行うことと、を実行させる
プログラム。
(Appendix 15)
The processor of the character recognition device
Detecting a plurality of corresponding feature points between a template image including a plurality of recognition areas and an actual input image in which characters to be recognized are written in a format corresponding to the template image;
removing outliers from the plurality of feature points;
correcting distortion of the real input image using the removed feature points after the outlier points have been removed;
performing character recognition on a corrected character included in an area corresponding to the recognition area in a corrected actual input image after the correction;
(付記16)
文字認識装置のプロセッサに、
複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出することと、
前記複数の特徴点から外れ点を除去することと、
前記外れ点が除去された後の除去済み特徴点を用いて前記実入力画像の歪みを補正することと、
補正された後の補正済み実入力画像における前記認識エリアに相当するエリアに含まれる補正済み文字に対して文字認識を行うことと、を実行させる
プログラムを記録した非遷移的実体的記録媒体。
(Appendix 16)
The processor of the character recognition device
Detecting a plurality of corresponding feature points between a template image including a plurality of recognition areas and an actual input image in which characters to be recognized are written in a format corresponding to the template image;
removing outliers from the plurality of feature points;
correcting distortion of the real input image using the removed feature points after the outlier points have been removed;
and performing character recognition on the corrected characters included in an area corresponding to the recognition area in the corrected actual input image after the correction.
10 ユーザ端末
20 文字認識装置
22 特徴点検出部
24 外れ点除去部
26 歪み補正部
28 文字認識部
30 テンプレート選択部
32 補正要否判定部
REFERENCE SIGNS
Claims (12)
前記特徴点検出部が検出した前記複数の特徴点に対応する座標値から外れ値を特定し、特定された前記外れ値に対応する特徴点である外れ点を、歪み補正に用いるべき特徴点から除去する外れ点除去部と、
前記外れ点除去部が前記外れ点を除去した後の除去済み特徴点を用いて前記実入力画像の歪みを補正する歪み補正部と、
前記歪み補正部が補正した後の補正済み実入力画像における前記認識エリアに相当するエリアに含まれる補正済み文字に対して文字認識を行う文字認識部と、を備え、
前記特徴点検出部は、前記実入力画像の歪み補正に関連する処理を事前に行うことなく、前記複数の特徴点を検出し、
前記外れ点除去部は、CONSAC(Conditional Sample Consensus)アルゴリズムに基づいて前記外れ点を除去する、
文字認識装置。 a feature point detection unit that detects a plurality of corresponding feature points between a template image including a plurality of recognition areas and an actual input image in which characters to be recognized are written in a format corresponding to the template image;
an outlier removal unit that identifies an outlier from coordinate values corresponding to the plurality of feature points detected by the feature point detection unit, and removes the outlier that is the feature point corresponding to the identified outlier from feature points to be used for distortion correction;
a distortion correction unit that corrects distortion of the actual input image by using removed feature points obtained after the outlier point removal unit has removed the outlier points;
a character recognition unit that performs character recognition on a corrected character included in an area corresponding to the recognition area in the corrected actual input image after the distortion correction unit has corrected the image,
the feature point detection unit detects the plurality of feature points without performing a process related to distortion correction of the actual input image in advance;
The outlier removal unit removes the outliers based on a CONSAC (Conditional Sample Consensus) algorithm.
Character recognition device.
請求項1に記載の文字認識装置。 2. The character recognition device according to claim 1, wherein the outlier removal unit identifies an outlier from a coordinate value of each feature point of the template image detected by the feature point detection unit and a coordinate value of each feature point of the actual input image corresponding to each feature point of the template image, and removes an outlier that is a feature point corresponding to the identified outlier from feature points to be used for distortion correction by the distortion correction unit.
請求項2に記載の文字認識装置。 3. The character recognition device according to claim 2, wherein the outlier removal unit recognizes a coordinate value as the outlier when a distance between coordinate values of a pair of corresponding feature points exceeds a threshold value that is set based on a statistical value of distances between all or a part of the corresponding multiple feature points.
請求項3に記載の文字認識装置。 4. The character recognition device according to claim 3, wherein the distortion correction unit corrects the actual input image based on a Thin Plate Spline algorithm so as to bring coordinates of removed feature points in the actual input image closer to coordinates of corresponding feature points in the template image.
請求項4に記載の文字認識装置。 5. The character recognition device according to claim 4, wherein the feature point detection unit extracts, as the plurality of feature points, points whose degree of certainty, which indicates the degree to which points included in the template image correspond to points included in the actual input image, exceeds a predetermined threshold value.
請求項5に記載の文字認識装置。 The character recognition device according to claim 5 , wherein the feature point detection unit detects the plurality of feature points based on a Local Feature Matching with Transformers (LoFTR) algorithm.
請求項6に記載の文字認識装置。 The character recognition device according to claim 6 , further comprising a template selection unit that selects the template image to be used by the feature point detection unit from a plurality of template images by using the LoFTR algorithm and/or the CONSAC algorithm.
請求項6に記載の文字認識装置。 The character recognition device according to claim 6 , further comprising a correction necessity determination unit that determines whether or not the distortion correction should be performed by the distortion correction unit, using the LoFTR algorithm and/or the CONSAC algorithm.
請求項1から請求項6のいずれかに記載の文字認識装置。 7. The character recognition device according to claim 1, further comprising a correction necessity determination unit that determines whether or not the distortion correction should be performed by the distortion correction unit, based on whether or not the actual input image includes a straight line portion having a predetermined relative length or more.
請求項1から請求項8のいずれかに記載の文字認識装置。 The character recognition device according to claim 1 , wherein the distortion correction unit divides the actual input image into a plurality of partial images, and then corrects the distortion of each partial image by using the removed feature points included in each partial image.
前記所定数以下の除去済み特徴点を選択する際に、除去済み特徴点間の距離が所定以上に保たれるように選択を行う
請求項10に記載の文字認識装置。 the distortion correction unit corrects distortion of each partial image by using a predetermined number or less of the removed feature points included in each partial image;
The character recognition device according to claim 10 , wherein when the predetermined number or less of removed feature points are selected, the selection is performed such that a distance between the removed feature points is maintained at a predetermined value or more.
複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出することと、
検出された前記複数の特徴点に対応する座標値から外れ値を特定し、特定された前記外れ値に対応する特徴点である外れ点を、歪み補正に用いるべき特徴点から除去することと、
前記外れ点が除去された後の除去済み特徴点を用いて前記実入力画像の歪みを補正することと、を備え、
前記複数の特徴点を検出することは、前記実入力画像の歪み補正に関連する処理を事前に行うことなく、前記複数の特徴点を検出することであり、
前記外れ点を除去することは、CONSAC(Conditional Sample Consensus)アルゴリズムに基づいて前記外れ点を除去することである、
画像前処理方法。
The computer's processor
Detecting a plurality of corresponding feature points between a template image including a plurality of recognition areas and an actual input image in which characters to be recognized are written in a format corresponding to the template image;
identifying an outlier from coordinate values corresponding to the detected plurality of feature points, and removing the outlier that is the feature point corresponding to the identified outlier from feature points to be used for distortion correction;
and correcting the distortion of the real input image using the removed feature points after the outlier points have been removed;
detecting the plurality of feature points includes detecting the plurality of feature points without performing a process related to distortion correction of the actual input image in advance;
removing the outlier points based on a Conditional Sample Consensus (CONSAC) algorithm;
Image pre-processing methods.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2023169752A JP7601982B2 (en) | 2023-03-02 | 2023-09-29 | Character recognition device and image preprocessing method |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2023031779 | 2023-03-02 | ||
| JP2023169752A JP7601982B2 (en) | 2023-03-02 | 2023-09-29 | Character recognition device and image preprocessing method |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023031779 Division | 2023-03-02 | 2023-03-02 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2024124307A JP2024124307A (en) | 2024-09-12 |
| JP7601982B2 true JP7601982B2 (en) | 2024-12-17 |
Family
ID=92709260
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023169752A Active JP7601982B2 (en) | 2023-03-02 | 2023-09-29 | Character recognition device and image preprocessing method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7601982B2 (en) |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015169978A (en) | 2014-03-05 | 2015-09-28 | 富士ゼロックス株式会社 | Image processor and image processing program |
| JP2016533782A (en) | 2013-10-11 | 2016-11-04 | マウナ ケア テクノロジーズ | Method and system for characterizing images acquired by medical imaging equipment |
| JP2020523107A (en) | 2017-06-16 | 2020-08-06 | パーキンエルマー セルラー テクノロジーズ ジャーマニー ゲーエムベーハー | System and method for automatic distortion correction and/or simultaneous registration of three-dimensional images using artificial landmarks along bone |
| JP2020204887A (en) | 2019-06-17 | 2020-12-24 | キヤノン株式会社 | Image processing device, control method therefor, and program |
| JP2022167183A (en) | 2021-04-22 | 2022-11-04 | 株式会社日立製作所 | Form processing device and form processing method |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5468332B2 (en) * | 2009-08-20 | 2014-04-09 | Juki株式会社 | Image feature point extraction method |
| JP7380073B2 (en) * | 2019-10-21 | 2023-11-15 | 株式会社アイシン | parking assist device |
-
2023
- 2023-09-29 JP JP2023169752A patent/JP7601982B2/en active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2016533782A (en) | 2013-10-11 | 2016-11-04 | マウナ ケア テクノロジーズ | Method and system for characterizing images acquired by medical imaging equipment |
| JP2015169978A (en) | 2014-03-05 | 2015-09-28 | 富士ゼロックス株式会社 | Image processor and image processing program |
| JP2020523107A (en) | 2017-06-16 | 2020-08-06 | パーキンエルマー セルラー テクノロジーズ ジャーマニー ゲーエムベーハー | System and method for automatic distortion correction and/or simultaneous registration of three-dimensional images using artificial landmarks along bone |
| JP2020204887A (en) | 2019-06-17 | 2020-12-24 | キヤノン株式会社 | Image processing device, control method therefor, and program |
| JP2022167183A (en) | 2021-04-22 | 2022-11-04 | 株式会社日立製作所 | Form processing device and form processing method |
Non-Patent Citations (1)
| Title |
|---|
| 星 秀平,外2名,機械学習を用いた画像対応付けによる3次元復元と性能評価,映像情報メディア学会技術報告 Vol.45 No.23,日本,映像情報メディア学会,2021年,第45巻 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2024124307A (en) | 2024-09-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10853638B2 (en) | System and method for extracting structured information from image documents | |
| US10977523B2 (en) | Methods and apparatuses for identifying object category, and electronic devices | |
| JP6366024B2 (en) | Method and apparatus for extracting text from an imaged document | |
| CN114120305B (en) | Text classification model training method, text content recognition method and device | |
| US20120099792A1 (en) | Adaptive optical character recognition on a document with distorted characters | |
| JP4694613B2 (en) | Document orientation determination apparatus, document orientation determination method, program, and recording medium therefor | |
| CN107729865A (en) | A kind of handwritten form mathematical formulae identified off-line method and system | |
| WO2018010657A1 (en) | Structured text detection method and system, and computing device | |
| JP2014225932A (en) | Method of detecting document alteration by comparing characters using shape features of characters | |
| CN111209865A (en) | File content extraction method and device, electronic equipment and storage medium | |
| CN114140803A (en) | Document single word coordinate detection and correction method and system based on deep learning | |
| CN118135584A (en) | A method and system for automatic recognition of handwritten forms based on deep learning | |
| CN117727056A (en) | A check box identification method, device, equipment and medium | |
| JP7601982B2 (en) | Character recognition device and image preprocessing method | |
| JP7600762B2 (en) | Posture estimation device, learning device, posture estimation method and program | |
| KR101498546B1 (en) | System and method for restoring digital documents | |
| JP7621851B2 (en) | Learning device, processing system, learning method, processing method, program, and storage medium | |
| US11611678B2 (en) | Image processing apparatus and non-transitory computer readable medium | |
| JP4565396B2 (en) | Image processing apparatus and image processing program | |
| CN107330470B (en) | Method and device for identifying picture | |
| CN116740746A (en) | Text recognition method, text recognition device, computer equipment and storage medium | |
| US20240362938A1 (en) | Image processing system, image processing method, and program | |
| US11972208B2 (en) | Information processing device and information processing method | |
| CN116030472A (en) | Method and device for determining text coordinates | |
| CN114187445A (en) | Method and device for recognizing text in image, electronic equipment and storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230929 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241119 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241205 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7601982 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |