JP7335907B2 - 文字構造化抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム - Google Patents
文字構造化抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム Download PDFInfo
- Publication number
- JP7335907B2 JP7335907B2 JP2021038794A JP2021038794A JP7335907B2 JP 7335907 B2 JP7335907 B2 JP 7335907B2 JP 2021038794 A JP2021038794 A JP 2021038794A JP 2021038794 A JP2021038794 A JP 2021038794A JP 7335907 B2 JP7335907 B2 JP 7335907B2
- Authority
- JP
- Japan
- Prior art keywords
- string
- character
- strings
- features
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/247—Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(1)人手による入力:この方法は人員による手動入力である。
(2)テンプレートマッチングに基づく方法:この方法は一般に構造が簡単な証明書を対象とする。その識別されるべき領域は、一般に特定の幾何学的レイアウトを有する。標準テンプレートファイルを作成することにより、指定された位置で対応するテキストコンテンツを抽出し、OCR技術を用いて文字の認識を実現する。
(3)キーシンボル位置に基づく戦略検索:この方法では、キーシンボルを位置付けることにより、周辺で領域情報検索を行う。例えば、キーシンボル「日付」の周辺では、戦略に基づいて「2020年12月12日」というテキストを検索し、「日付」フィールドの属性値とする。
ここで、Rは、フィールド対応関係の集合を表し、フィールドの属性と値で表される。Mは、テーブルの対応関係の集合を表し、テーブルのヘッダとユニットで表される。Tは、すべての4種類のカテゴリの要素集合を表す。K、V、H、Cはそれぞれフィールドの属性、フィールドの値、テーブルのヘッダ、テーブルのセルの4種類のカテゴリを表す。
ここで、dijは文字列viと文字列vjの四角点座標の2次元座標における差分であり、rijは文字列viと文字列vjの中心点の角度差を表し、r∈[-π,π]、eijは文字列viと文字列vjの中心点のユークリッド距離を表す。
Claims (25)
- 実体テキスト画像に対して文字検出を行い、前記実体テキスト画像の文字列の位置およびコンテンツを取得するステップと、
前記文字列の位置およびコンテンツに基づいて、前記文字列の多変量情報を抽出するステップと、
前記文字列の多変量情報を特徴融合し、前記文字列のマルチモーダル融合特徴を取得するステップと、
前記文字列のマルチモーダル融合特徴に基づいてカテゴリおよび関係の推定を行い、前記文字列のカテゴリおよび関係確率行列を取得するステップと、
前記文字列のカテゴリおよび関係確率行列に基づいて、前記実体テキスト画像の構造化情報を構築するステップと、を含み、
前記文字列のカテゴリおよび関係確率行列に基づいて、前記実体テキスト画像の構造化情報を構築するステップは、
前記文字列をトラバースし、i(ただし、iは正の整数である)番目の文字列のカテゴリを確定するステップと、
前記文字列の関係確率行列のi行目から予め設定された閾値よりも大きい要素集合を抽出し、要素添字に基づいて候補文字列関係集合を検索するステップと、
前記候補文字列関係集合からフィールド関係またはテーブル関係に属する関係集合をスクリーニングするステップと、
i番目の文字列に1組を超える関係が存在する場合、文字列のカテゴリに基づいて新たな関係集合を抽出するステップと、
前記新たな関係集合におけるフィールド関係とテーブル関係のマッピングにより、i番目の文字列の位置およびコンテンツと結び付けて、i番目の文字列のフィールドとテーブルの構造化情報を出力するステップと、を含む、文字構造化抽出方法。 - 実体テキスト画像に対して文字検出を行い、前記実体テキスト画像の文字列の位置およびコンテンツを取得するステップは、
前記実体テキスト画像をシーン文字検出モデルに入力し、前記文字列の四角点座標を出力するステップと、
前記文字列の四角点座標をアフィン変換し、前記文字列の正矩形四角点座標を生成するステップと、
前記文字列の正矩形四角点座標に基づいて、前記実体テキスト画像において前記文字列の画像スライスを切り出すステップと、
前記文字列の画像スライスを回帰型畳み込みニューラルネットワークに入力し、前記文字列のコンテンツを出力するステップと、を含む、請求項1に記載の文字構造化抽出方法。 - 前記文字列の位置およびコンテンツに基づいて、前記文字列の多変量情報を抽出するステップは、
前記文字列の位置およびコンテンツに基づいて前記文字列の入力トリプルと文字列同士の関係の入力トリプルとを確定するステップであって、前記文字列の入力トリプルは、前記文字列の四角点座標、コンテンツおよび画像スライスを含み、前記文字列同士の関係の入力トリプルは、文字列同士の四角点座標の差分値、文字列同士の中心点の角度差および文字列同士の中心点のユークリッド距離を含む、ステップと、
前記文字列の入力トリプルおよび前記文字列同士の関係の入力トリプルをマルチモーダル特徴抽出アルゴリズムの入力として、前記文字列の多変量情報を抽出するステップと、を含む、請求項2に記載の文字構造化抽出方法。 - 前記文字列の入力トリプルおよび前記文字列同士の関係の入力トリプルをマルチモーダル特徴抽出アルゴリズムの入力として、前記文字列の多変量情報を抽出するステップは、
前記文字列の四角点座標を前記文字列の幾何学的特徴として確定するステップと、
前記実体テキスト画像を畳み込みニューラルネットワークに入力し、視覚的2次元特徴マップを出力するステップと、
前記文字列の四角点座標に基づいて、前記視覚的2次元特徴マップにおける前記文字列の領域を算出し、関心領域座標変換操作により前記文字列の視覚的特徴を切り出すステップと、
前記文字列のコンテンツを事前訓練モデルに入力してセマンティック情報抽出を行い、前記文字列のセマンティック特徴を取得するステップと、を含む、請求項3に記載の文字構造化抽出方法。 - 前記文字列の多変量情報を特徴融合し、前記文字列のマルチモーダル融合特徴を取得するステップは、
前記文字列の幾何学的特徴、視覚的特徴、およびセマンティック特徴をマルチモーダルスティッチング融合して、前記文字列のマルチモーダル特徴を生成するステップと、
文字列同士の組み合わせに対して、対応する文字列のマルチモーダル特徴と前記文字列同士の関係の入力トリプルをスティッチングして、文字列同士の関係特徴を生成するステップと、を含む、請求項4に記載の文字構造化抽出方法。 - 前記文字列のマルチモーダル融合特徴に基づいてカテゴリおよび関係の推定を行い、前記文字列のカテゴリおよび関係確率行列を取得するステップは、
前記文字列のマルチモーダル特徴と前記文字列同士の関係特徴をグラフニューラルネットワークに入力し、前記文字列のカテゴリおよび関係確率行列を出力するステップを含む、請求項5に記載の文字構造化抽出方法。 - 前記グラフニューラルネットワークは、N個のグラフニューラルネットワーク層を含み、Nは正の整数であり、
前記文字列のマルチモーダル特徴と前記文字列同士の関係特徴とをグラフニューラルネットワークに入力し、前記文字列のカテゴリおよび関係確率行列を出力するステップは、
前記グラフニューラルネットワークのl層目に対して、l-1層目から出力された文字列のマルチモーダル特徴と文字列同士の関係特徴をl層目に入力し、l層目から出力される文字列のマルチモーダル特徴と文字列同士の関係特徴を取得するステップを含み、ただし、1≦l<N、lは正の整数である、請求項6に記載の文字構造化抽出方法。 - l-1層目から出力された文字列のマルチモーダル特徴と文字列同士の関係特徴をl層目に入力し、l層目から出力される文字列のマルチモーダル特徴と文字列同士の関係特徴を取得するステップは、
l-1層目から出力された文字列同士の関係特徴を多層パーセプトロンモデルに入力し、l層目から出力される関係確率行列を取得するステップと、
l-1層目から出力された文字列のマルチモーダル特徴と、l層目から出力された関係確率行列とを乗算し、l層目から出力された関係確率行列の確率分布に基づいて前記文字列とそれに関連付けられた文字列を特徴集約し、l層目に埋め込まれた文字列のマルチモーダル特徴を取得するステップと、
l層目に埋め込まれた文字列のマルチモーダル特徴と、l-1層目から出力された文字列同士の関係特徴と、l層目に埋め込まれた文字列のマルチモーダル特徴の転置とを乗算し、前記多層パーセプトロンモデルにより、l層目から出力される文字列同士の関係特徴を取得するステップと、
単一層ゲート付き回帰型ユニットを用いてl層目に埋め込まれた文字列のマルチモーダル特徴を前記l-1層目から出力された文字列のマルチモーダル特徴に更新し、l層目から出力される文字列のマルチモーダル特徴を取得するステップと、を含む、請求項7に記載の文字構造化抽出方法。 - l=Nの場合、前記文字列のカテゴリおよび関係確率行列はl層目から出力される、請求項8に記載の文字構造化抽出方法。
- 前記関係集合に基づいて新たな関係集合を取得するステップは、
i番目の文字列がフィールドの属性、フィールドの値およびテーブルのセルの三者からなる和集合に属する場合、前記文字列の関係確率行列のi行目のうち確率値が最大となる要素に対応する文字列を選択して、i番目の文字列との対応関係を表すステップと、
i番目の文字列がテーブルのヘッダに属する場合、関係集合のすべての要素に対応する文字列を保持して、i番目の文字列との対応関係を表すステップと、
前記対応関係に基づいて、前記新たな関係集合を生成するステップと、を含む、請求項1に記載の文字構造化抽出方法。 - 文字列のカテゴリはフィールドの属性、フィールドの値、テーブルのヘッダ、テーブルのセルのうちの少なくとも1つを含み、フィールドの属性および値はフィールド対応関係を表し、テーブルのヘッダおよびセルはテーブル対応関係を表し、文字列は無向グラフの頂点を表し、フィールド対応関係およびテーブル対応関係は無向グラフの辺を表し、関係確率行列は無向グラフの辺構造に基づいて対応する頂点間に関係があるか否かを表す、請求項1~10のいずれか1項に記載の文字構造化抽出方法。
- 実体テキスト画像に対して文字検出を行い、前記実体テキスト画像の文字列の位置およびコンテンツを取得するように構成される検出モジュールと、
前記文字列の位置およびコンテンツに基づいて、前記文字列の多変量情報を抽出するように構成される抽出モジュールと、
前記文字列の多変量情報を特徴融合し、前記文字列のマルチモーダル融合特徴を取得するように構成される融合モジュールと、
前記文字列のマルチモーダル融合特徴に基づいてカテゴリおよび関係の推定を行い、前記文字列のカテゴリおよび関係確率行列を取得するように構成される推定モジュールと、
前記文字列のカテゴリおよび関係確率行列に基づいて、前記実体テキスト画像の構造化情報を構築するように構成される構築モジュールと、を含み、
前記構築モジュールは、
前記文字列をトラバースし、i(ただし、iは正の整数である)番目の文字列のカテゴリを確定するように構成されるトラバースサブモジュールと、
前記文字列の関係確率行列のi行目から予め設定された閾値よりも大きい要素集合を抽出し、要素添字に基づいて候補文字列関係集合を検索するように構成される検索サブモジュールと、
前記候補文字列関係集合からフィールド関係またはテーブル関係に属する関係集合をスクリーニングするように構成されるスクリーニングサブモジュールと、
i番目の文字列に1組を超える関係が存在する場合、文字列のカテゴリに基づいて新たな関係集合を抽出するように構成される取得サブモジュールと、
前記新たな関係集合におけるフィールド関係とテーブル関係のマッピングにより、i番目の文字列の位置およびコンテンツと結び付けて、i番目の文字列のフィールドとテーブルの構造化情報を出力するように構成されるマッピングサブモジュールと、を含む、文字構造化抽出装置。 - 前記検出モジュールはさらに、
前記実体テキスト画像をシーン文字検出モデルに入力し、前記文字列の四角点座標を出力し、
前記文字列の四角点座標をアフィン変換し、前記文字列の正矩形四角点座標を生成し、
前記文字列の正矩形四角点座標に基づいて、前記実体テキスト画像において前記文字列の画像スライスを切り出し、
前記文字列の画像スライスを回帰型畳み込みニューラルネットワークに入力し、前記文字列のコンテンツを出力するように構成される、請求項12に記載の文字構造化抽出装置。 - 前記抽出モジュールは、
前記文字列の位置およびコンテンツに基づいて前記文字列の入力トリプルと文字列同士の関係の入力トリプルとを確定するように構成される確定サブモジュールであって、前記文字列の入力トリプルは、前記文字列の四角点座標、コンテンツおよび画像スライスを含み、前記文字列同士の関係の入力トリプルは、文字列同士の四角点座標の差分値、文字列同士の中心点の角度差および文字列同士の中心点のユークリッド距離を含む、確定サブモジュールと、
前記文字列の入力トリプルおよび前記文字列同士の関係の入力トリプルをマルチモーダル特徴抽出アルゴリズムの入力として、前記文字列の多変量情報を抽出するように構成される抽出サブモジュールと、を含む、請求項13に記載の文字構造化抽出装置。 - 前記抽出サブモジュールはさらに、
前記文字列の四角点座標を前記文字列の幾何学的特徴として確定し、
前記実体テキスト画像を畳み込みニューラルネットワークに入力して、視覚的2次元特徴マップを出力し、
前記文字列の四角点座標に基づいて、前記視覚的2次元特徴マップにおける前記文字列の領域を算出し、関心領域座標変換操作により前記文字列の視覚的特徴を切り出し、
前記文字列のコンテンツを事前訓練モデルに入力してセマンティック情報抽出を行い、前記文字列のセマンティック特徴を取得するように構成される、請求項14に記載の文字構造化抽出装置。 - 前記融合モジュールはさらに、
前記文字列の幾何学的特徴、視覚的特徴、およびセマンティック特徴をマルチモーダルスティッチング融合して、前記文字列のマルチモーダル特徴を生成し、
文字列同士の組み合わせに対して、対応する文字列のマルチモーダル特徴と前記文字列同士の関係の入力トリプルをスティッチングして、文字列同士の関係特徴を生成するように構成される、請求項15に記載の文字構造化抽出装置。 - 前記推定モジュールは、
前記文字列のマルチモーダル特徴と前記文字列同士の関係特徴をグラフニューラルネットワークに入力し、前記文字列のカテゴリおよび関係確率行列を出力するように構成される出力サブモジュールを含む、請求項16に記載の文字構造化抽出装置。 - 前記グラフニューラルネットワークは、N個のグラフニューラルネットワーク層を含み、Nは正の整数であり、
前記出力サブモジュールは、
前記グラフニューラルネットワークのl層目に対して、l-1層目から出力された文字列のマルチモーダル特徴と文字列同士の関係特徴をl層目に入力し、l層目から出力される文字列のマルチモーダル特徴と文字列同士の関係特徴を取得するように構成される出力ユニットを含み、
ただし、1≦l<N、lは正の整数である、請求項17に記載の文字構造化抽出装置。 - 前記出力ユニットはさらに、
l-1層目から出力された文字列同士の関係特徴を多層パーセプトロンモデルに入力し、l層目から出力される関係確率行列を取得し、
l-1層目から出力された文字列のマルチモーダル特徴と、l層目から出力された関係確率行列とを乗算し、l層目から出力された関係確率行列の確率分布に基づいて前記文字列とそれに関連付けられた文字列を特徴集約し、l層目に埋め込まれた文字列のマルチモーダル特徴を取得し、
l層目に埋め込まれた文字列のマルチモーダル特徴と、l-1層目から出力された文字列同士の関係特徴と、l層目に埋め込まれた文字列のマルチモーダル特徴の転置とを乗算し、前記多層パーセプトロンモデルにより、l層目から出力される文字列同士の関係特徴を取得し、
単一層ゲート付き回帰型ユニットを用いてl層目に埋め込まれた文字列のマルチモーダル特徴を前記l-1層目から出力された文字列のマルチモーダル特徴に更新し、l層目から出力される文字列のマルチモーダル特徴を取得するように構成される、請求項18に記載の文字構造化抽出装置。 - l=Nの場合、前記文字列のカテゴリおよび関係確率行列はl層目から出力される、請求項19に記載の文字構造化抽出装置。
- 前記取得サブモジュールはさらに、
i番目の文字列がフィールドの属性、フィールドの値およびテーブルのセルの三者からなる和集合に属する場合、前記文字列の関係確率行列のi行目のうち確率値が最大となる要素に対応する文字列を選択して、i番目の文字列との対応関係を表し、
i番目の文字列がテーブルのヘッダに属する場合、関係集合のすべての要素に対応する文字列を保持して、i番目の文字列との対応関係を表し、
前記対応関係に基づいて、前記新たな関係集合を生成するように構成される、請求項12に記載の文字構造化抽出装置。 - 文字列のカテゴリはフィールドの属性、フィールドの値、テーブルのヘッダ、テーブルのセルのうちの少なくとも1つを含み、フィールドの属性および値はフィールド対応関係を表し、テーブルのヘッダおよびセルはテーブル対応関係を表し、文字列は無向グラフの頂点を表し、フィールド対応関係およびテーブル対応関係は無向グラフの辺を表し、関係確率行列は無向グラフの辺構造に基づいて対応する頂点間に関係があるか否かを表す、請求項12~21のいずれか1項に記載の文字構造化抽出装置。
- 少なくとも1つのプロセッサと前記少なくとも1つのプロセッサと通信可能に接続された記憶装置とを含む電子機器であって、
前記記憶装置に前記少なくとも1つのプロセッサによって実行可能な指令が記憶されており、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが請求項1~11のいずれか1項に記載の文字構造化抽出方法が実現される電子機器。 - コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項1~11のいずれか1項に記載の文字構造化抽出方法を実施させるためのものである、非一時的コンピュータ可読記憶媒体。 - プロセッサにより実行されると、請求項1~11のいずれか1項に記載の文字構造化抽出方法が実現される、コンピュータプログラム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202011049097.7A CN112001368A (zh) | 2020-09-29 | 2020-09-29 | 文字结构化提取方法、装置、设备以及存储介质 |
| CN202011049097.7 | 2020-09-29 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022056316A JP2022056316A (ja) | 2022-04-08 |
| JP7335907B2 true JP7335907B2 (ja) | 2023-08-30 |
Family
ID=73475005
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021038794A Active JP7335907B2 (ja) | 2020-09-29 | 2021-03-10 | 文字構造化抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US12211304B2 (ja) |
| EP (1) | EP3839818A3 (ja) |
| JP (1) | JP7335907B2 (ja) |
| KR (1) | KR102610518B1 (ja) |
| CN (1) | CN112001368A (ja) |
Families Citing this family (64)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2021142765A1 (en) * | 2020-01-17 | 2021-07-22 | Microsoft Technology Licensing, Llc | Text line detection |
| US11403488B2 (en) * | 2020-03-19 | 2022-08-02 | Hong Kong Applied Science and Technology Research Institute Company Limited | Apparatus and method for recognizing image-based content presented in a structured layout |
| CN112699234A (zh) * | 2020-12-08 | 2021-04-23 | 上海深杳智能科技有限公司 | 一种通用文档识别方法、系统、终端及存储介质 |
| CN114648769B (zh) * | 2020-12-17 | 2025-11-07 | 阿里巴巴集团控股有限公司 | 结构化信息的检测方法、装置及设备 |
| CN113553892A (zh) * | 2020-12-31 | 2021-10-26 | 内蒙古卫数数据科技有限公司 | 一种基于深度学习和ocr的检验、体检报告单结果提取方法 |
| CN113536875B (zh) * | 2021-01-07 | 2025-09-26 | 腾讯科技(深圳)有限公司 | 证件图像识别方法、装置、计算机设备和存储介质 |
| CN112949415B (zh) * | 2021-02-04 | 2023-03-24 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备和介质 |
| CN112966522B (zh) * | 2021-03-03 | 2022-10-14 | 北京百度网讯科技有限公司 | 一种图像分类方法、装置、电子设备及存储介质 |
| CN113033534B (zh) * | 2021-03-10 | 2023-07-25 | 北京百度网讯科技有限公司 | 建立票据类型识别模型与识别票据类型的方法、装置 |
| CN113205041B (zh) * | 2021-04-29 | 2023-07-28 | 百度在线网络技术(北京)有限公司 | 结构化信息提取方法、装置、设备和存储介质 |
| CN113297975B (zh) * | 2021-05-25 | 2024-03-26 | 新东方教育科技集团有限公司 | 表格结构识别的方法、装置、存储介质及电子设备 |
| CN113326766B (zh) * | 2021-05-27 | 2023-09-29 | 北京百度网讯科技有限公司 | 文本检测模型的训练方法及装置、文本检测方法及装置 |
| CN113343982B (zh) * | 2021-06-16 | 2023-07-25 | 北京百度网讯科技有限公司 | 多模态特征融合的实体关系提取方法、装置和设备 |
| CN113435331B (zh) * | 2021-06-28 | 2023-06-09 | 平安科技(深圳)有限公司 | 图像文字识别方法、系统、电子设备及存储介质 |
| CN113822283B (zh) * | 2021-06-30 | 2026-04-03 | 腾讯科技(深圳)有限公司 | 文本内容处理方法、装置、计算机设备及存储介质 |
| CN113568965A (zh) * | 2021-07-29 | 2021-10-29 | 上海浦东发展银行股份有限公司 | 一种结构化信息的提取方法、装置、电子设备及存储介质 |
| CN113779934B (zh) * | 2021-08-13 | 2024-04-26 | 远光软件股份有限公司 | 多模态信息提取方法、装置、设备及计算机可读存储介质 |
| CN113657274B (zh) * | 2021-08-17 | 2022-09-20 | 北京百度网讯科技有限公司 | 表格生成方法、装置、电子设备及存储介质 |
| CN114282013A (zh) * | 2021-08-20 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及存储介质 |
| CN113641746B (zh) * | 2021-08-20 | 2024-02-20 | 科大讯飞股份有限公司 | 文档结构化方法、装置、电子设备和存储介质 |
| CN113849577A (zh) * | 2021-09-27 | 2021-12-28 | 联想(北京)有限公司 | 数据增强方法及装置 |
| CN113920293B (zh) * | 2021-10-18 | 2025-06-10 | 北京达佳互联信息技术有限公司 | 信息识别方法、装置、电子设备及存储介质 |
| CN113971750B (zh) * | 2021-10-19 | 2025-03-18 | 浙江诺诺网络科技有限公司 | 银行回单的关键信息提取方法、装置、设备及存储介质 |
| CN114328679B (zh) * | 2021-10-22 | 2025-08-08 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备以及存储介质 |
| CN113822599A (zh) * | 2021-10-27 | 2021-12-21 | 国网江苏省电力有限公司营销服务中心 | 一种基于分类树融合技术的电力行业政策管理方法 |
| CN114092949B (zh) * | 2021-11-23 | 2025-01-03 | 支付宝(杭州)信息技术有限公司 | 类别预测模型的训练、界面元素类别的识别方法及装置 |
| CN114239598B (zh) * | 2021-12-17 | 2024-12-03 | 上海高德威智能交通系统有限公司 | 文本元素阅读顺序确定方法、装置、电子设备及存储介质 |
| US20230206665A1 (en) * | 2021-12-28 | 2023-06-29 | Samsung Electronics Co., Ltd. | Method and electronic device for recognizing text in image |
| WO2023128348A1 (ko) * | 2021-12-28 | 2023-07-06 | 삼성전자 주식회사 | 이미지 내의 텍스트를 인식하는 전자 장치 및 그 동작 방법 |
| CN114299522B (zh) * | 2022-01-10 | 2023-08-29 | 北京百度网讯科技有限公司 | 图像识别方法装置、设备和存储介质 |
| CN114419409B (zh) * | 2022-01-12 | 2024-11-26 | 大连海事大学 | 基于人脸识别和分层融合策略的多模态恶意迷因图检测方法 |
| CN114419304B (zh) * | 2022-01-18 | 2024-11-08 | 深圳前海环融联易信息科技服务有限公司 | 一种基于图神经网络的多模态文档信息抽取方法 |
| CN114417875B (zh) * | 2022-01-25 | 2024-09-13 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、可读存储介质及程序产品 |
| CN114443916B (zh) * | 2022-01-25 | 2024-02-06 | 中国人民解放军国防科技大学 | 一种面向试验数据的供需匹配方法及系统 |
| CN114511857B (zh) * | 2022-01-25 | 2025-08-01 | 上海微问家信息技术有限公司 | 一种ocr识别结果处理方法、装置、设备及存储介质 |
| CN114491074A (zh) * | 2022-01-28 | 2022-05-13 | 复旦大学 | 基于图网络的文本关系提取方法 |
| CN114463768A (zh) * | 2022-02-11 | 2022-05-10 | 北京有竹居网络技术有限公司 | 表格识别方法、装置、可读介质和电子设备 |
| CN114581714B (zh) * | 2022-03-08 | 2025-11-21 | 北京有竹居网络技术有限公司 | 基于图像的主体识别方法、装置、存储介质及电子设备 |
| CN114821622B (zh) * | 2022-03-10 | 2023-07-21 | 北京百度网讯科技有限公司 | 文本抽取方法、文本抽取模型训练方法、装置及设备 |
| CN114332872B (zh) * | 2022-03-14 | 2022-05-24 | 四川国路安数据技术有限公司 | 一种基于图注意力网络的合同文档容错信息提取方法 |
| CN114694158A (zh) * | 2022-03-30 | 2022-07-01 | 上海弘玑信息技术有限公司 | 票据的结构化信息的提取方法及电子设备 |
| CN114820211B (zh) * | 2022-04-26 | 2024-06-14 | 中国平安人寿保险股份有限公司 | 理赔资料质检核验方法、装置、计算机设备及存储介质 |
| CN116266259A (zh) * | 2022-06-22 | 2023-06-20 | 中移(苏州)软件技术有限公司 | 图像文字结构化输出方法、装置、电子设备和存储介质 |
| CN115223182A (zh) * | 2022-07-14 | 2022-10-21 | 河南中原消费金融股份有限公司 | 一种文档版面识别方法及相关装置 |
| CN115270718B (zh) * | 2022-07-26 | 2023-10-10 | 中国医学科学院阜外医院 | 一种疾病编码的自动编目方法及系统 |
| WO2024043602A1 (ko) * | 2022-08-26 | 2024-02-29 | 삼성전자 주식회사 | 이미지로부터 텍스트를 획득하는 방법 및 서버 |
| CN115270645B (zh) * | 2022-09-30 | 2022-12-27 | 南昌工程学院 | 一种基于ernie-dpcnn模型的设计方法及系统 |
| CN115545671B (zh) * | 2022-11-02 | 2023-10-03 | 广州明动软件股份有限公司 | 一种法律法规结构化处理的方法、系统 |
| CN115797947A (zh) * | 2022-12-06 | 2023-03-14 | 阿里巴巴(中国)有限公司 | 基于图像的字体识别方法、装置、电子设备及存储介质 |
| CN116071740B (zh) * | 2023-03-06 | 2023-07-04 | 深圳前海环融联易信息科技服务有限公司 | 发票识别方法、计算机设备及存储介质 |
| CN116453149A (zh) * | 2023-04-18 | 2023-07-18 | 平安科技(深圳)有限公司 | 检验单中图像文本的识别方法、装置、设备及存储介质 |
| CN116343246B (zh) * | 2023-04-19 | 2026-03-31 | 科大讯飞股份有限公司 | 一种表格结构识别方法、装置、设备及存储介质 |
| US12536713B2 (en) * | 2023-05-16 | 2026-01-27 | Salesforce, Inc. | Systems and methods for controllable image generation |
| CN116740743B (zh) * | 2023-06-01 | 2025-08-19 | 汕头大学 | 一种基于图神经网络的ocr表格语义识别方法及装置 |
| CN116844182A (zh) * | 2023-06-27 | 2023-10-03 | 浪潮软件股份有限公司 | 一种版式自动识别的卡证文字识别方法 |
| CN117540802A (zh) * | 2023-09-18 | 2024-02-09 | 杭州阿里云飞天信息技术有限公司 | 文档的信息抽取方法、系统、电子设备和存储介质 |
| CN117351324B (zh) * | 2023-12-04 | 2024-03-01 | 支付宝(杭州)信息技术有限公司 | 通过神经网络模型进行文档图像处理的方法及装置 |
| CN117831056B (zh) * | 2023-12-29 | 2024-11-08 | 广电运通集团股份有限公司 | 票据信息提取方法、装置及票据信息提取系统 |
| US12555400B2 (en) * | 2024-01-05 | 2026-02-17 | Sunia Pte. Ltd. | Online handwriting document layout analysis system |
| CN119540979A (zh) * | 2024-05-20 | 2025-02-28 | 山东浪潮科学研究院有限公司 | 基于图文模态融合的文档信息抽取方法、装置及存储介质 |
| CN118568671B (zh) * | 2024-08-01 | 2025-03-21 | 青岛海尔电冰箱有限公司 | 多模态大模型构建方法、系统、制冷设备、存储介质 |
| CN118657139B (zh) * | 2024-08-20 | 2024-10-29 | 合肥大智慧财汇数据科技有限公司 | 基于位置信息及版式匹配的表格信息抽取方法及系统 |
| CN120849649B (zh) * | 2025-09-23 | 2026-02-06 | 杭州浩联智能科技有限公司 | 文件结构化信息的提取方法、装置、设备、介质和产品 |
| CN121616662B (zh) * | 2026-01-30 | 2026-04-21 | 成都煜恒科技有限公司 | 一种基准座的智能定位方法及系统 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014153846A (ja) | 2013-02-07 | 2014-08-25 | Mitsubishi Electric Corp | パターン認識装置 |
| CN110321918A (zh) | 2019-04-28 | 2019-10-11 | 厦门大学 | 基于微博的舆论机器人系统情感分析和图像标注的方法 |
| JP2019215647A (ja) | 2018-06-12 | 2019-12-19 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、その制御方法及びプログラム。 |
| CN111626049A (zh) | 2020-05-27 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 多媒体信息的标题修正方法、装置、电子设备及存储介质 |
| CN111709339A (zh) | 2020-06-09 | 2020-09-25 | 北京百度网讯科技有限公司 | 一种票据图像识别方法、装置、设备及存储介质 |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101504781B (zh) | 2009-03-10 | 2011-02-09 | 广州广电运通金融电子股份有限公司 | 有价文件识别方法及装置 |
| US10740603B2 (en) | 2017-03-22 | 2020-08-11 | Drilling Info, Inc. | Extracting data from electronic documents |
| US10430455B2 (en) * | 2017-06-09 | 2019-10-01 | Adobe Inc. | Sketch and style based image retrieval |
| CN108614898B (zh) * | 2018-05-10 | 2021-06-25 | 爱因互动科技发展(北京)有限公司 | 文档解析方法与装置 |
| CN109711464B (zh) * | 2018-12-25 | 2022-09-27 | 中山大学 | 基于层次化特征关系图构建的图像描述方法 |
| CN110046355B (zh) * | 2019-04-25 | 2023-02-24 | 讯飞智元信息科技有限公司 | 一种标题段落检测方法及装置 |
| CN110209721A (zh) * | 2019-06-04 | 2019-09-06 | 南方科技大学 | 判决文书调取方法、装置、服务器及存储介质 |
| CN110609891B (zh) * | 2019-09-18 | 2021-06-08 | 合肥工业大学 | 一种基于上下文感知图神经网络的视觉对话生成方法 |
| US11403488B2 (en) * | 2020-03-19 | 2022-08-02 | Hong Kong Applied Science and Technology Research Institute Company Limited | Apparatus and method for recognizing image-based content presented in a structured layout |
| CN111598093B (zh) * | 2020-05-25 | 2024-05-14 | 深圳前海微众银行股份有限公司 | 图片中文字的结构化信息生成方法、装置、设备及介质 |
-
2020
- 2020-09-29 CN CN202011049097.7A patent/CN112001368A/zh active Pending
-
2021
- 2021-03-05 KR KR1020210029549A patent/KR102610518B1/ko active Active
- 2021-03-10 JP JP2021038794A patent/JP7335907B2/ja active Active
- 2021-03-11 EP EP21162002.6A patent/EP3839818A3/en not_active Ceased
- 2021-03-12 US US17/200,448 patent/US12211304B2/en active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014153846A (ja) | 2013-02-07 | 2014-08-25 | Mitsubishi Electric Corp | パターン認識装置 |
| JP2019215647A (ja) | 2018-06-12 | 2019-12-19 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、その制御方法及びプログラム。 |
| CN110321918A (zh) | 2019-04-28 | 2019-10-11 | 厦门大学 | 基于微博的舆论机器人系统情感分析和图像标注的方法 |
| CN111626049A (zh) | 2020-05-27 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 多媒体信息的标题修正方法、装置、电子设备及存储介质 |
| CN111709339A (zh) | 2020-06-09 | 2020-09-25 | 北京百度网讯科技有限公司 | 一种票据图像识别方法、装置、设备及存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| KR20220043824A (ko) | 2022-04-05 |
| US20210201182A1 (en) | 2021-07-01 |
| CN112001368A (zh) | 2020-11-27 |
| EP3839818A3 (en) | 2021-10-06 |
| JP2022056316A (ja) | 2022-04-08 |
| EP3839818A2 (en) | 2021-06-23 |
| US12211304B2 (en) | 2025-01-28 |
| KR102610518B1 (ko) | 2023-12-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7335907B2 (ja) | 文字構造化抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
| CN111709339B (zh) | 一种票据图像识别方法、装置、设备及存储介质 | |
| JP7561138B2 (ja) | Hmiを生成するためのエンジニアリングデータソースからの資産データの自動抽出 | |
| US11847164B2 (en) | Method, electronic device and storage medium for generating information | |
| US20200380366A1 (en) | Enhanced generative adversarial network and target sample recognition method | |
| CN111783760B (zh) | 文字识别的方法、装置、电子设备及计算机可读存储介质 | |
| Xu et al. | Remote sensing image scene classification based on generative adversarial networks | |
| KR20210152371A (ko) | 이미지 생성 방법, 장치, 기기 및 매체 | |
| CN111598131B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
| Lee et al. | Visual question answering over scene graph | |
| JP7273087B2 (ja) | 情報抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
| Wang et al. | Semantic-guided information alignment network for fine-grained image recognition | |
| JP7242994B2 (ja) | ビデオイベント識別方法、装置、電子デバイス及び記憶媒体 | |
| US20220101642A1 (en) | Method for character recognition, electronic device, and storage medium | |
| WO2025067085A1 (zh) | 用于生成图像的方法、装置、设备和存储介质 | |
| US8392842B1 (en) | Quick search for replacement of portion of image | |
| CN116246064B (zh) | 一种多尺度空间特征增强方法及装置 | |
| EP4664311A1 (en) | Producing and using a graph neural network that represents relationships among screenshots | |
| CN116244447A (zh) | 多模态图谱构建、信息处理方法、装置、电子设备及介质 | |
| US20250225804A1 (en) | Method of extracting information from an image of a document | |
| US20240344832A1 (en) | Training method for map-generation large model and map generation method | |
| Wang et al. | Change Detection in Bitemporal Remote Sensing Images by using Feature Fusion and Fuzzy C-Means. | |
| US12106228B2 (en) | Article processing method, electronic device, and program product | |
| Nisa et al. | A decade of research in small object detection: a comprehensive bibliometric analysis | |
| Tang et al. | Oceanic biometric recognition algorithm based on generalized zero shot learning |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211220 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230207 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230501 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230808 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230818 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7335907 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |


