JP2022013643A - 画像質問応答方法、装置、コンピュータ装置、媒体及びプログラム - Google Patents

画像質問応答方法、装置、コンピュータ装置、媒体及びプログラム Download PDF

Info

Publication number
JP2022013643A
JP2022013643A JP2021035338A JP2021035338A JP2022013643A JP 2022013643 A JP2022013643 A JP 2022013643A JP 2021035338 A JP2021035338 A JP 2021035338A JP 2021035338 A JP2021035338 A JP 2021035338A JP 2022013643 A JP2022013643 A JP 2022013643A
Authority
JP
Japan
Prior art keywords
feature
question
text area
information
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021035338A
Other languages
English (en)
Other versions
JP7206309B2 (ja
Inventor
鵬原 呂
Peng Yuan Lu
曉強 張
Xiaoqiang Zhang
珊珊 劉
Shanshan Liu
成全 章
Chengquan Zhang
啓明 彭
qi ming Peng
思瑾 呉
si jin Wu
華 路
Hana Michi
永鋒 陳
yong feng Chen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022013643A publication Critical patent/JP2022013643A/ja
Application granted granted Critical
Publication of JP7206309B2 publication Critical patent/JP7206309B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】画像と当該画像に関連する質問に対する解答を予測する画像質問応答方法、装置、コンピュータ装置及び媒体を提供する。【解決手段】方法は、入力画像及び入力質問を取得することと、入力画像における少なくとも1つのテキスト領域のそれぞれの視覚情報及び位置情報を検出することと、上記視覚情報及び位置情報に基づいて、上記少なくとも1つのテキスト領域のそれぞれの語義情報及び属性情報を決定することと、視覚情報、位置情報、語義情報及び属性情報に基づいて、入力画像の全局的な特徴を決定することと、入力質問に基づいて質問特徴を決定することと、全局的な特徴および質問特徴に基づいて、入力画像および入力質問に対する予測解答を生成することと、を含む。【選択図】図2

Description

(相互参照)
本開示は、2020年6月30日に出願された出願番号が202010616417.6である中国特許出願に基づく優先権を主張し、その内容をここで参照とする。
本開示は、コンピュータ視覚、自然言語処理の分野に関し、より具体的には、画像質問応答方法、装置、コンピュータ装置および媒体に関する。
画像質問応答(Visual Question Answering、VQA )は、コンピュータ視覚と自然言語処理を関連付けることを目的とした非常に困難なタスクである。画像質問応答タスクでは、例えば、画像および関連質問が与えられ、機械が画像の内容に基づいて幾つかの常識と組み合わせて質問に対する解答を推論することが要求される。この画像質問応答タスクを完成するために、機械は、視覚及び言語という2つの異なるモダリティ(Modality)でのデータを総合的に理解するように、クロスモーダル(Cross-Modal)の理解能力を有していなければならない。画像質問応答タスクは他の単一モダリティでのタスク(例えば画像識別、ドキュメント分類等)よりも高い要求を有する。
本発明は、上記課題に鑑みてなされたものであり、画像質問応答方法、装置、コンピュータ装置、媒体及びプログラムを提供している。
本開示の一面は、画像質問応答方法を提供しており、入力画像及び入力質問を取得することと、入力画像における少なくとも1つのテキスト領域のそれぞれの視覚情報及び位置情報を検出することと、上記視覚情報及び位置情報に基づいて、上記少なくとも1つのテキスト領域のそれぞれの語義情報及び属性情報を決定することと、上記視覚情報、位置情報、語義情報、及び属性情報に基づいて、入力画像の全局的な特徴を決定することと、入力質問に基づいて質問特徴を決定することと、全局的な特徴および質問特徴に基づいて、入力画像および入力質問に対する予測解答を生成することと、を含む。
本開示の実施例によれば、入力画像における少なくとも1つのテキスト領域のそれぞれの視覚情報及び位置情報を検出することは、文字検出モデルによって、入力画像を検出し、入力画像に少なくとも1つのテキスト領域のそれぞれの検出枠を生成することを含む。ただし、少なくとも1つのテキスト領域における各テキスト領域の検出枠における画像情報は、各テキスト領域の視覚情報を表し、各テキスト領域の検出枠の位置情報は、各テキスト領域の位置情報を表す。
本開示の実施例によれば、視覚情報及び位置情報に基づいて、少なくとも1つのテキスト領域のそれぞれの語義情報及び属性情報を決定することは、少なくとも1つのテキスト領域の各テキスト領域について、文字識別モデルによって、各テキスト領域の視覚情報を識別し、各テキスト領域の語義情報を取得することを含む。
本開示の実施例によれば、属性情報は、テーブル属性情報を含む。視覚情報及び位置情報に基づいて、少なくとも1つのテキスト領域のそれぞれの語義情報及び属性情報を決定することは、テーブル検出ツールによって、入力画像における少なくとも1つのテーブル領域の位置情報を検出することと、各テキスト領域の位置情報と、少なくとも1つのテーブル領域の位置情報に基づいて、各テキスト領域の、各テキスト領域が少なくとも1つのテーブル領域内に位置するか否かを示すテーブル属性情報を決定することと、をさらに含む。
本開示の実施例によれば、各テキスト領域の位置情報と、少なくとも1つのテーブル領域の位置情報に基づいて、各テキスト領域のテーブル属性情報を決定することは、各テキスト領域の位置情報と少なくとも一つのテーブル領域における各テーブル領域の位置情報とに基づいて、各テキスト領域と各テーブル領域との間の共通集合および併合集合を算出することと、共通集合と併合集合との比率を計算することと、比率が予定の閾値より大きい場合、各テキスト領域の各テーブル領域に関するテーブル属性情報を1と決定することと、比率が予定の閾値以下である場合、各テキスト領域の各テーブル領域に関するテーブル属性情報を0と決定することと、を含む。
本開示の実施例によれば、属性情報は、文字属性情報を含む。視覚情報及び位置情報に基づいて、少なくとも1つのテキスト領域のそれぞれの語義情報及び属性情報を決定することは、手書き文字識別モデルによって各テキスト領域の視覚情報を識別して、各テキスト領域の、テキスト領域が手書き文字を含むか否かを表す文字属性情報を決定することをさらに含む。
本開示の実施例によれば、視覚情報、位置情報、語義情報及び属性情報に基づいて入力画像の全局的な特徴を決定することは、少なくとも1つのテキスト領域における各テキスト領域について、各テキスト領域の視覚情報、位置情報、語義情報及び属性情報を、それぞれ第1の特徴、第2の特徴、第3の特徴及び第4の特徴に変換し、第1の特徴、第2の特徴、第3の特徴及び第4の特徴を、各テキスト領域の特徴に併合することと、少なくとも1つのテキスト領域のそれぞれの位置情報に基づいて、少なくとも1つのテキスト領域の配列順序を決定することと、配列順序に従って、予定符号化モデルによって、少なくとも1つのテキスト領域の特徴を順次に符号化処理して、入力画像の全局的な特徴を取得することと、を含む。
本開示の実施例によれば、第1の特徴、第2の特徴、第3の特徴及び第4の特徴を、各テキスト領域の特徴に併合することは、第1の特徴、第2の特徴、第3の特徴、および第4の特徴を連結して併合し、各テキスト領域の特徴を取得すること、または第1の特徴、第2の特徴、第3の特徴及び第4の特徴をベクトル加算し、各テキスト領域の特徴を取得すること、を含む。
本開示の実施例によれば、入力質問に基づいて質問特徴を決定することは、単語符号化アルゴリズム及び特徴符号化アルゴリズムによって入力質問を順次に符号化処理して質問特徴を取得することを含む。
本開示の実施例によれば、全局的な特徴および質問特徴に基づいて入力画像および入力質問に対する予測解答を生成することは、全局的な特徴と質問特徴とを併合して融合特徴を取得することと、サンプル画像と、サンプル質問と、サンプル画像及びサンプル質問に対する答案を表す第1のラベルとに基づいて訓練して得られた第1の予測モデルによって、融合特徴を処理して融合特徴に対する予測解答を取得することと、を含む。
本開示の実施例によれば、全局的な特徴および質問特徴に基づいて入力画像および入力質問に対する予測解答を生成することは、全局的な特徴と質問特徴とを併合して融合特徴を取得することと、第2の予測モデルによって、融合特徴を処理して融合特徴に対する解答開始位置情報を取得することと、を含む。第2の予測モデルは、サンプル画像、サンプル質問と、サンプル画像における、サンプル画像及びサンプル質問に対する答案の開始位置情報を表す第2のラベルとに基づいて得られたものである。第3の予測モデルによって、融合特徴を処理して融合特徴に対する解答終了位置情報を取得する。第3の予測モデルは、サンプル画像と、サンプル質問と、サンプル画像における、サンプル画像及びサンプル質問に対する答案の終了位置情報を表す第3のラベルとに基づいて得られたものである。解答開始位置情報、解答終了位置情報および入力画像に基づいて、入力画像と入力質問に対する予測解答を決定する。
本開示の実施例によれば、入力画像及び入力質問に対する、2より大きい整数であるM個の予測解答を生成する場合、M個の予測解答の各予測解答と、M個の予測解答のうち各予測解答以外の他のM-1個の予測解答との間の編集距離を計算することと、編集距離を合計して、各予測解答の評価を取得することと、M個の予測解答のうち最も評価の高い予測解答を好ましい予測解答とすることと、をさらに含む。
本開示の他面は、画像質問応答装置を提供しており、入力画像及び入力質問を取得する取得モジュールと、入力画像における少なくとも1つのテキスト領域のそれぞれの視覚情報及び位置情報を検出する検出モジュールと、視覚情報及び位置情報に基づいて、少なくとも1つのテキスト領域のそれぞれの語義情報及び属性情報を決定する決定モジュールと、視覚情報、位置情報、語義情報、及び属性情報に基づいて、入力画像の全局的な特徴を決定する符号化モジュールと、入力質問に基づいて質問特徴を決定する質問特徴抽出モジュールと、全局的な特徴および質問特徴に基づいて、入力画像および入力質問に対する予測解答を生成する予測モジュールと、を含む。
本開示の実施例によれば、検出モジュールは、文字検出モデルによって、入力画像を検出し、入力画像に少なくとも1つのテキスト領域のそれぞれの検出枠を生成する。ただし、少なくとも1つのテキスト領域における各テキスト領域の検出枠における画像情報は、各テキスト領域の視覚情報を表し、各テキスト領域の検出枠の位置情報は、テキスト領域の位置情報を表す。
本開示の実施例によれば、決定モジュールは、少なくとも1つのテキスト領域の各テキスト領域について、文字識別モデルによって、各テキスト領域の視覚情報を識別し、各テキスト領域の語義情報を取得する第1の決定サブモジュールを含む。
本開示の実施例によれば、属性情報は、テーブル属性情報を含む。決定モジュールは、テーブル検出ツールによって、入力画像における少なくとも1つのテーブル領域の位置情報を検出し、各テキスト領域の位置情報と、少なくとも1つのテーブル領域の位置情報に基づいて、各テキスト領域の、各テキスト領域が少なくとも1つのテーブル領域内に位置するか否かを示すテーブル属性情報を決定する第2の決定サブモジュール、をさらに含む。
本開示の実施例によれば、第2の決定サブモジュールは、各テキスト領域の位置情報と少なくとも一つのテーブル領域における各テーブル領域の位置情報とに基づいて、各テキスト領域と各テーブル領域との間の共通集合および併合集合を算出し、共通集合と併合集合との比率を計算し、比率が予定の閾値より大きい場合、各テキスト領域の各テーブル領域に関するテーブル属性情報を1と決定し、比率が予定の閾値以下である場合、各テキスト領域の各テーブル領域に関するテーブル属性情報を0と決定する。
本開示の実施例によれば、属性情報は、文字属性情報を含む。決定モジュールは、手書き文字識別モデルによって各テキスト領域の視覚情報を識別して、各テキスト領域の、テキスト領域が手書き文字を含むか否かを表す文字属性情報を決定する第3の決定サブモジュールをさらに含む。
本開示の実施例によれば、符号化モジュールは、少なくとも1つのテキスト領域における各テキスト領域について、各テキスト領域の視覚情報、位置情報、語義情報及び属性情報を、それぞれ第1の特徴、第2の特徴、第3の特徴及び第4の特徴に変換し、第1の特徴、第2の特徴、第3の特徴及び第4の特徴を、各テキスト領域の特徴に併合し、少なくとも1つのテキスト領域のそれぞれの位置情報に基づいて、少なくとも1つのテキスト領域の配列順序を決定し、配列順序に従って、予定符号化モデルによって、少なくとも1つのテキスト領域の特徴を順次に符号化処理して、入力画像の全局的な特徴を取得する。
本開示の実施例によれば、符号化モジュールが第1の特徴、第2の特徴、第3の特徴及び第4の特徴を、各テキスト領域の特徴に併合することは、符号化モジュールが第1の特徴、第2の特徴、第3の特徴、および第4の特徴を連結して併合し、各テキスト領域の特徴を取得すること、または第1の特徴、第2の特徴、第3の特徴及び第4の特徴をベクトル加算し、各テキスト領域の特徴を取得すること、を含む。
本開示の実施例によれば、質問特徴抽出モジュールは、単語符号化アルゴリズム及び特徴符号化アルゴリズムによって入力質問を順次に符号化処理して質問特徴を取得する。
本開示の実施例によれば、予測モジュールは、第1の予測サブモジュールを含み、全局的な特徴と質問特徴とを併合して融合特徴を取得し、第1の予測サブモジュールによって、融合特徴を処理して融合特徴に対する予測解答を取得する。第1の予測サブモジュールは、サンプル画像と、サンプル質問と、サンプル画像及びサンプル質問に対する答案を表す第1のラベルとに基づいて訓練して得られたものである。
本開示の実施例によれば、予測モジュールは、第2の予測サブモジュールを含み、全局的な特徴と質問特徴とを併合して融合特徴を取得し、第2の予測モデルによって、融合特徴を処理して融合特徴に対する解答開始位置情報を取得する。第2の予測モデルは、サンプル画像と、サンプル質問と、及び、サンプル画像における、サンプル画像及びサンプル質問に対する答案の開始位置情報を表す第2のラベルとに基づいて得られたものである。第3の予測モデルによって、融合特徴を処理して融合特徴に対する解答終了位置情報を取得する。第3の予測モデルは、サンプル画像と、サンプル質問と、サンプル画像における、サンプル画像及びサンプル質問に対する答案の終了位置情報を表す第3のラベルとに基づいて得られたものである。解答開始位置情報、解答終了位置情報および入力画像に基づいて、入力画像と入力質問に対する予測解答を決定する。
本開示の実施例によれば、上記装置は、入力画像及び入力質問に対する、2より大きい整数であるM個の予測解答を生成する場合、M個の予測解答の各予測解答と、M個の予測解答のうち各予測解答以外の他のM-1個の予測解答との間の編集距離を計算し、編集距離を合計して、各予測解答の評価を取得し、M個の予測解答のうち最も評価の高い予測解答を好ましい予測解答とする複数解答融合モジュールをさらに含む。
本開示の別の態様は、メモリと、プロセッサと、プロセッサに実行するコンピュータプログラムを含み、プロセッサは、前記プログラムを実行する場合、上記方法を実現するコンピュータ装置を提供している。
本開示の別の態様は、プロセッサによって実行される際に、上記方法を実現するコンピュータ命令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体を提供している。
本開示の別の態様は、実行される際に、上記方法を実現するコンピュータ実行可能な命令を含むコンピュータプログラムを提供している。
本発明の実施例による画像質問応答方法は、入力画像及び入力質問を取得した後、入力画像における各テキスト領域の視覚情報及び位置情報を検出するとともに、視覚情報及び位置情報に基づいて、各テキスト領域の語義情報及び属性情報を決定する。上記視覚情報、位置情報、語義情報、および属性情報に基づいて入力画像を符号化することにより、入力画像の全局的な特徴を得て、入力画像の特徴情報をより一層全面的に着目して学習することができる。その上で、入力画像の全局的な特徴と入力質問の質問特徴に基づいて最終解答の予測を行うことができる。入力画像の特徴表現に対する事前の豊富化及び最適化の結果として、複雑なドキュメントを含む入力画像に対する画像質問応答過程の推論能力が効果的に高められ、本開示の実施例による画像質問応答過程は、解釈性がより向上し、より広いドキュメント分析処理シーンに適用することができる。
以下、図面を参照して本開示の実施例を説明することにより、本開示の上記および他の目的、特徴や利点は、より明らかになる。
図1は、本開示の実施例による画像質問応答方法及び装置を適用する例示的なシステムアーキテクチャを概略的に示している。 図2は、本開示の実施例による画像質問応答方法のフローチャートを概略的に示している。 図3Aは、本開示の実施例による入力画像の例示的な概略図を概略的に示している。 図3Bは、本開示の実施例による入力画像の例示的な概略図を概略的に示している。 図4Aは、本開示の実施例による画像質問応答過程の例示的な概略図を概略的に示している。 図4Bは、本開示の実施例による符号化過程の例示的な概略図を概略的に示している。 図5Aは、本開示の別の実施例による画像質問応答方法のフローチャートを概略的に示している。 図5Bは、本開示の別の実施例による画像質問応答方法のフローチャートを概略的に示している。 図6は、本開示の実施例による画像質問応答装置のブロック図を概略的に示している。 図7は、本開示の実施例によるコンピュータ装置のブロック図を概略的に示している。
以下、本開示の実施例について、図面を参照しながら説明する。しかしながら、これらの説明が例示的なものであり、本開示の範囲を限定するものではないことを理解されたい。以下の詳細な説明では、説明を容易にするために、本開示の実施例に対する全面的な理解を提供するように、多数の具体的な詳細が記載される。しかしながら、これらの具体的な詳細なしに1つ以上の実施例が実施されてもよいことは明らかである。また、以下の説明において、本開示の概念を不必要に混乱させることを避けるように、周知の構造及び技術に対する説明は省略する。
ここで使用される用語は、具体的な実施例を説明するためのものに過ぎず、本開示を限定することを意図しない。「備える」、「含む」などのここで使用される用語は、前記特徴、ステップ、操作、および/または部品の存在を示すが、1つまたは複数の他の特徴、ステップ、操作または部品の存在または追加を除外しない。
ここで使用される全ての用語(技術的及び科学的用語を含む)は、別途定義されない限り、当業者によって一般的に理解される意味を有する。ここで使用される用語は、本明細書の文脈と一致する意味を有すると解釈されるべきであり、理想的または過度に形式的に解釈されるべきではないことに留意されたい。
「A、B及びCなどのうちの少なくとも1つ」に類似する表現を使用する場合、その表現の意味が当業者によって一般的に理解されるように解釈されるべきである(例えば、「A、B及びCのうちの少なくとも1つを有するシステム」は、Aを単独で有するシステム、Bを単独で有するシステム、Cを単独で有するシステム、A及びBを有するシステム、A及びCを有するシステム、B及びCを有するシステム、及び/又はA、B、Cを有するシステムなどを含むが、これらに限定されない)。「A、B又はCなどのうちの少なくとも1つ」に類似する表現を使用する場合、その表現の意味が当業者によって一般的に理解されるように解釈されるべきである(例えば、「A、B及びCのうちの少なくとも1つを有するシステム」は、Aを単独で有するシステム、Bを単独で有するシステム、Cを単独で有するシステム、A及びBを有するシステム、A及びCを有するシステム、B及びCを有するシステム、及び/又はA、B、Cを有するシステムなどを含むが、これらに限定されない)。
本開示の実施例は、画像質問応答方法、装置、コンピュータ装置、媒体及びプログラムを提供している。画像質問応答方法は、取得過程、検出過程、決定過程、符号化過程、問題特徴抽出過程及び予測過程を含み得る。取得過程では、入力画像と入力質問を取得する。検出過程、入力画像における少なくとも1つのテキスト領域のぞれぞれの視覚情報及び位置情報を検出する。そして、決定過程を行い、上記視覚情報と位置情報に基づいて、上記少なくとも1つのテキスト領域のそれぞれの語義情報と属性情報を決定する。次に、上記視覚情報、位置情報、語義情報および属性情報に基づいて符号化過程を行い、入力画像の全局的な特徴を決定する。質問特徴抽出過程では、入力質問に基づいて質問特徴を決定する。全局的な特徴および質問特徴に基づいて予測過程が行われ、入力画像および入力質問に対する予測解答を生成することができる。
画像質問応答は、コンピュータ視覚と自然言語処理との関連付けを目標とする挑戦的なタスクである。画像質問応答タスクでは、例えば、画像および関連質問が与えられ、機械は、画像の内容に基づいて、幾つかの常識と組み合わせて、質問に対する解答を推論することが要求される。この画像の問答タスクを完成するために、機械は、視覚および言語という2つの異なるモダリティでのデータに対して総合的な理解を実現するように、クロスモーダルな理解能力を有していなければならない。画像質問応答タスクは、他の単一モダリティでのタスク(例えば画像識別、ドキュメント分類等)よりも高い要求を有する。
図1は、本開示の実施例による画像質問応答方法および装置を適用できる例示的なシステムアーキテクチャ100を概略的に示している。図1は、当業者が本開示の技術内容を理解させるように、本開示の実施例を適用できるシステムアーキテクチャの例示に過ぎず、本開示の実施例が他の装置、システム、環境又はシナリオで使用できないことを意味するものではないことに留意されたい。
図1に示すように、本実施例によるシステムアーキテクチャ100は、複数の端末装置110、ネットワーク120、及びサーバ130を含むことができる。ここで、端末装置110は、例えば、デスクトップ型コンピュータ、携帯型コンピュータ、スマートフォン、タブレット型コンピュータなどの各種端末装置であってもよいが、ここでは限定されない。サーバ130は、様々な計算能力を有する電子デバイスであってもよく、例えば、サーバまたはサーバクラスタであってもよく、ここでは限定されない。端末装置110は、様々な機能のソフトウェアクライアントをロードして、ソフトウェアクライアントを介してサーバ130と対話することができる。
一実施例において、本開示の実施例による画像質問応答方法が、端末装置110によって実施されることができ、相応的に、画像質問応答装置が、端末装置110に設けられることができることが理解される。別の実施例において、本開示の実施例による画像質問応答方法は、サーバ130によって実施されることができ、相応的には、画像質問応答装置は、サーバ130に設けられることができる。さらに別の実施例において、本発明の実施例による画像質問応答方法は、端末装置110及び/又はサーバ130と相互通信可能な他の装置によって実施されることができ、相応的には、画像質問応答装置は、他の装置に設けられることができる。
現在、画像質問応答システムは、学術界及び産業界の両方で広く研究されており、画像質問応答システムは、任意の自然言語で記述された質問及び所与の画像に対して、十分な理解及び推論を行った後、自然言語で正確に回答するように、適切なモデルを設計することを目標とする。しかし、現在の画像質問応答システムは、幾つかの課題がまだ解決されていない。例えば、ドキュメント画像(Document Image)に基づくドキュメント画像質問応答(Document Visual Question Answering,DocVQA)シーンでは、ほとんどの方式は入力画像における文字語義のみに依存してモデリングを行い、画像におけるドキュメントの構造化情報を考慮しない。そのため、比較的簡単なドキュメント画像しか処理できず、複雑なドキュメント画像、例えば、テーブル、図形、コラム等の構造を含むドキュメント画像に対しては、処理効果が比較的悪く、解答予測の正確性が悪い。
本開示の実施例によれば、DocVQAシーンに適応される画像質問応答方法が提供される。この方法を、図面を用いて例示的に説明する。なお、以下の方法における各操作の番号は、説明の便宜上、その操作を示したものであり、各操作の実行順序を示すものと解釈してはならない。特に明記しない限り、この方法は、示された順序で完全に実行される必要はない。
図2は、本開示の実施例による画像質問応答方法のフローチャートを概略的に示している。
図2に示すように、この方法は、操作S201~操作S206を含む。
操作S201において、入力画像及び入力質問を取得する。
例示的には、この操作S201で取得される入力画像は、ドキュメント画像である。例えば、処理待ちのドキュメントをスキャン、撮影等したドキュメント画像であることができる。図3A~図3Bは、本開示の実施例による入力画像の例示的な概略図を概略的に示している。図3Aおよび図3Bでは、2つの例示における入力画像301をそれぞれに示している。ドキュメント画像におけるテキスト言語は、実際な需要に応じて設定されてもよく、例えば他の言語であってもよいが、ここでは制限しない。
操作S202において、入力画像における少なくとも1つのテキスト領域のそれぞれの視覚情報(Visual Information)及び位置情報を検出する。
例示的には、入力画像における各テキスト領域は、例えば、入力画像における一行または複数行のテキストが占める領域に対応することができる。同じ行のテキストに大きな隙間が存在する場合、例えば、同じ行のテキストがテーブルの異なるセルに存在する場合には、各セルのテキストが占める領域を、入力画像におけるテキスト領域としてもよい。テキスト領域の検出範囲は、実際な需要に応じて調整することができ、原則として、各テキスト領域は、比較的コンパクトに分布した複数の文字を含む。図3Bに示す例示では、入力画像における1つのテキスト領域302を例に挙げて示しており、破線枠内の画像情報を当該テキスト領域302の視覚情報として、入力画像に対する破線枠の位置を当該テキスト領域302の位置情報としてもよい。
操作S203において、上記視覚情報及び位置情報に基づいて、上記少なくとも1つのテキスト領域のそれぞれの語義情報(Semantic Information)及び属性情報を決定する。
例示的には、各テキスト領域の語義情報は、当該テキスト領域に対する浅い語義理解および深い語義理解を示すことができる。各テキスト領域の属性情報は、入力画像における当該テキスト領域の1つ以上の属性特徴を1つ以上の次元から説明することができ、例えば段落情報、テーブル情報、手書き情報などのドキュメントの様々な構造化属性情報を含むことができる。
操作S204において、上記視覚情報、位置情報、語義情報及び属性情報に基づいて、入力画像の全局的な特徴を決定する。
例示的には、この操作S204では、入力画像を特徴符号化する過程において、入力画像における各テキスト領域の視覚情報、位置情報、語義情報、及び属性情報を総合的に考慮する。上記の情報は、入力画像におけるテキスト領域の特徴を異なる観点から説明し、入力画像を符号化する受感野(Receptive Field)が増加するため、入力画像の全局的な特徴を取得することができる。
操作S205において、入力質問に基づいて質問特徴を決定する。
操作S206において、全局的な特徴及び質問特徴に基づいて、入力画像及び入力質問に対する予測解答を生成する。
本開示の実施例による画像質問応答方法が、入力画像及び入力質問を取得した後、入力画像における各テキスト領域の視覚情報及び位置情報を検出するとともに、視覚情報及び位置情報に基づいて各テキスト領域の語義情報及び属性情報を決定することが当業者に理解されるであろう。上記視覚情報、位置情報、語義情報、および属性情報に基づいて入力画像を符号化することにより、入力画像の全局的な特徴を取得し、入力画像の特徴情報をより全面的に着目して学習することができる。その上で、入力画像の全局的な特徴と入力質問の質問特徴に基づいて最終解答の予測を行うことができる。入力画像の特徴表現に対する事前の豊富化及び最適化により、複雑なドキュメントを含む入力画像に対する画像質問応答過程の推論能力が効果的に高められ、本開示の実施例による画像質問応答処理は、解釈性が高くなり、より広いドキュメント分析処理シーンに適用することができる。
図4Aは、本開示の実施例による画像質問応答過程の例示的な概略図を概略的に示している。
図4Aに示すように、文字検出識別モジュール410、ドキュメント構造分析モジュール420、符号化モジュール430、および復号モジュール440を含めるネットワークモデル400を事前に構築することができる。本開示の実施例によれば、ネットワークモデル400が図2に示すような画像質問応答タスクを実行する能力を有するように、上記ネットワークモデル400における各モジュールを訓練する必要がある。訓練過程において、一実施例では、ネットワークモデル400を全体として訓練し、サンプル画像とサンプル質問を上記ネットワークモデル400に入力し、ネットワークモデル400の目標関数が収束を実現するまで、ネットワークモデル400の出力とサンプルラベルとの間の差に基づいてネットワークモデル400のパラメータを最適化することができる。ここで、サンプルラベルは、サンプル画像及びサンプル質問に対する答案である。別の実施例では、各モジュールが本開示の実施例に望ましい処理能力を備えるように、ネットワークモデル400の各モジュールに対して別々に訓練を行うことができる。本開示の実施例による画像質問応答方法は、訓練済みのネットワークモデル400を用いて実施することができる。以下、実施過程を例示的に説明する。
本発明の実施例によれば、図4Aに示したように、文字検出識別モジュール410は文字検出モデル411を含む。上記操作S202では、入力画像における少なくとも1つのテキスト領域のそれぞれの視覚情報及び位置情報を検出する過程は、以下のようにして実施することができる。文字検出モデル411により入力画像401を検出する。文字検出モデル411は、入力画像401におけるテキスト領域を目標対象として検出し、入力画像401中に少なくとも1つのテキスト領域のそれぞれの検出枠(Bounding Box)を生成し、図4Aに示すような破線枠を1つのテキスト領域の検出枠として見なせる。ここで、上記少なくとも1つのテキスト領域の各テキスト領域の検出枠における画像情報402(例えば、検出枠におけるピクチャー)は、当該テキスト領域の視覚情報を示し、各テキスト領域の検出枠の位置情報403(例えば、検出枠の高さ値、幅値、及び中心点の座標値)は、当該テキスト領域の位置情報を示す。本実施例で使用される文字検知モデル411は、直接取得した予め訓練した文字検知モデルであってもよく、或いは、目標検知モデル(例えば、Faster RCNN(Faster Region Convolutional Neural Network、より速い領域畳み込みニューラルネットワーク)等)を構築してサンプルドキュメント画像と予定のラベルに基づいて訓練することで得られてもよい。
さらに、入力画像における各テキスト領域の語義情報を得るために、本発明の実施例によれば、図4Aに示すように、文字検出識別モジュール410は、文字識別モデル412をさらに含むことができる。上述操作S203では、視覚情報及び位置情報に基づいて少なくとも1つのテキスト領域のそれぞれの語義情報を決定する過程は、以下のように実施することができる。少なくとも1つのテキスト領域の各テキスト領域について、テキスト識別モデル412を使用して各テキスト領域の視覚情報402を識別し、各テキスト領域の語義情報404を取得する。各テキスト領域の語義情報は、例えば、そのテキスト領域に含まれるテキスト内容として表すことができる。本実施例で用いられる文字識別モデル412は、直接取得される予め訓練された文字識別モデルであってもよいし、識別モデルを構築してサンプルドキュメント画像と予定のラベルに基づいて訓練して得られるものであってもよい。文字識別モデル412は、例えば、OCR(Optical Character Recognition、光学文字認識)技術を用いて上記の識別過程を行うことができる。
例示的には、文字検出識別モジュール410は、例えば、EAST(Efficient and Accurate Scene Text)検出アーキテクチャに基づいて訓練して取得してもよい。
文字検出識別モジュール410は、各テキスト領域の視覚情報と位置情報をドキュメント構造分析モジュール420に出力し、ドキュメント構造分析モジュール420によって、入力画像に含まれるドキュメントの1つまたは複数の属性情報を分析する。
本開示の一実施例においては、入力画像における各テキスト領域の属性情報が、テキスト領域が少なくとも1つのテーブル領域内にあるか否かを示すテーブル属性情報を含むことができる。上述操作S203では、視覚情報及び位置情報に基づいて、少なくとも1つのテキスト領域のそれぞれの属性情報を決定する過程は、以下のように実施することができる。図4Aに示すように、ドキュメント構造分析モジュール420は、テーブル検出ツール421を含み、テーブル検出ツール421によって、入力画像401における少なくとも一つのテーブル領域の位置情報を検出する。テーブル検出モデル411は、入力画像401におけるテーブル領域を目標対象として検出し、入力画像401に少なくとも1つのテーブル領域のそれぞれのテーブル検出枠を生成する。テーブル検出枠の位置情報に基づいて、相応的なテーブル領域の位置情報を決定することができる。次に、ドキュメント構造分析モジュール420は、各テキスト領域の位置情報と少なくとも1つのテーブル領域の位置情報に基づいて、各テキスト領域のテーブル属性情報405を決定する。
例示的には、検出された各テキスト領域Aについて、当該テキスト領域Aと検出されたいずれかのテーブル領域Tとの位置関係に基づいて、当該テキスト領域Aが当該テーブル領域T内に位置するか否かを決定することで、当該テキスト領域Aのテーブル領域Tに関するテーブル属性情報を決定することができる。例えば、当該テキスト領域がテーブル領域内にある場合、テキスト領域Aのテーブル領域Tに関するテーブル属性情報を「is_Table=1」として示し,逆には、テキスト領域Aのテーブル領域Tに関するテーブル属性情報を「is_Table=0」として示すことができる。
例えば、当該テキスト領域Aとテーブル領域Tの位置領域間の重なり度合い(Intersection-over-Union,IoU )によって、両者の位置関係を決定することができる。以下のように実施することができる。テキスト領域Aの検出枠とテーブル領域Tのテーブル検出枠との間の共通面積をX、テキスト領域Aの検出枠とテーブル領域Tのテーブル検出枠との間の併合面積をXとして算出する。X/Xが第1の予定閾値より大きい場合、テキスト領域Aがテーブル領域Tと重なっていること、すなわち、テキスト領域Aがテーブル領域Tにあることを示す。逆に、テキスト領域Aがテーブル領域Tに位置していないことを示す。
また、例えば、以下のようにして両者間の位置関係を決定してもよい。テキスト領域Aの検出枠とテーブル領域Tのテーブル検出枠との共通面積をX、テキスト領域Aの検出枠の面積をXとして算出する。X/Xが第2の予定閾値より大きい場合、テキスト領域Aがテーブル領域Tと重なっていること、すなわち、テキスト領域Aがテーブル領域Tにあることを示す。逆に、テキスト領域Aがテーブル領域Tに位置していないことを示す。
本開示の一実施例において、入力画像における各テキスト領域の属性情報は、テキスト領域が手書き文字を含むか否かを示す文字属性情報を含むことができる。上述操作S203では、視覚情報及び位置情報に基づいて、少なくとも1つのテキスト領域のそれぞれの属性情報を決定する過程は、以下のように実施することができる。図4Aに示すように、ドキュメント構造分析モジュール420は、手書き文字識別モデル422を更に含み、手書き文字識別モデル422を用いて各テキスト領域の視覚情報を識別して、各テキスト領域の文字属性情報406を決定し、各テキスト領域に含まれるテキストが手書きであるか否かを示す分類結果を出力する。本例において、手書き文字識別モデル422は、テキストが手書き体であるか否かを分類識別する予め構築された二分類モデルであってもよい。
例えば、検出された各テキスト領域Aについて、手書き文字識別モデル422が当該テキスト領域Aに含まれる文字が手書き体であることを示す分類結果1を出力する場合、テキスト領域Aの文字属性情報を「is_handwriting=1」として表し、逆にテキスト領域Aの文字属性情報を「is_handwriting=0」として表してもよい。
図4Aに示す例では、一つのテキスト領域(例えば、入力画像401における破線枠で示すテキスト領域)の位置情報403を「[x1,y1,x0,y0]」として示し、当該テキスト領域の検出枠の高さx1、幅y1、及び中心点の座標値(x0,y0)を表す。当該テキスト領域の語義情報404は、「名前 張三……」と表されている。当該テキスト領域のテーブル属性情報405は「is_table=1」と表されている。当該テキスト領域の文字属性情報406は、「is_handwriting=1」と表されている。
本開示の実施例によれば、入力画像における各テキスト領域の視覚情報、位置情報、語義情報および属性情報を取得した後、少なくとも1つのテキスト領域の各テキスト領域について、当該テキスト領域の視覚情報を視覚符号化(Visual Embedding、視覚埋め込み)して、当該視覚情報を表す第1の特徴を得る。当該テキスト領域の位置情報を位置符号化(Position Embedding、位置埋め込み)して、当該位置情報を表す第2の特徴を得る。当該テキスト領域の語義情報を単語符号化(Token Embedding、トークン埋め込み)し、当該語義情報を表す第3の特徴を得る。当該テキスト領域の属性情報を属性符号化(Attribute Embedding、属性埋め込み)し、この属性情報を表す第4の特徴を得る。上記第1の特徴、第2の特徴、第3の特徴及び第4の特徴は、ベクトル形式で表現されてもよい。属性情報がテーブル属性情報と文字属性情報とを含む場合、第4の特徴は、2つの特徴ベクトルを含んでもよい。
入力画像における各テキスト領域について、当該テキスト領域の第1の特徴、第2の特徴、第3の特徴及び第4の特徴を当該テキスト領域の特徴として併合することができる。例えば、上記第1の特徴、第2の特徴、第3の特徴、第4の特徴を連結(Concatenate)して併合することで、当該テキスト領域の特徴を取得してもよい。あるいは、第1の特徴、第2の特徴、第3の特徴及び第4の特徴をベクトル加算することにより、当該テキスト領域の特徴を取得してもよい。
引き続き図4Aを参照すると、入力画像における各テキスト領域の特徴を符号化モジュール430に入力して符号化処理を行い、入力画像の全局的な特徴を取得することができる。例えば、各テキスト領域の特徴の入力形態は、図4Bに示すようにしてもよい。
図4Bは、本開示の実施例による符号化過程の例示的な概略図を概略的に示している。
図4Bに示すように、当該符号化モジュール430は、予定符号化モデル431を含んでもよく、当該予定符号化モデル431は、例えば、長短期記憶(Long Short-Term Memory、LSTM)モデル、画像畳み込みネットワーク(Graph Convolutional Network、GCN)、Transformerエンコーダ(Transformer Encoder)などであってもよい。入力画像における少なくとも1つのテキスト領域のそれぞれの位置情報に基づいて、少なくとも1つのテキスト領域の配列順序を決定することができる。例えば、入力画像に4つのテキスト領域が含まれる場合、ユーザの読み順に合わせて、入力画像における各行のテキストの左から右へ、行間の上から下への順に当該4つのテキスト領域の配列順序を{A,A,A,A}に決定することができる。この配列順序を入力順序として、テキスト領域Aの特徴4071、テキスト領域Aの特徴4073、テキスト領域Aの特徴4072、テキスト領域Aの特徴4074を予定符号化モデル431に順次入力する。予定符号化モデル431を用いて上記4つのテキスト領域の特徴を順次に符号化処理し、入力画像の全局的な特徴を取得する。ここで、各テキスト領域の特徴は、いずれも相応的な第1の特徴、第2の特徴、第3の特徴及び第4の特徴を組み合わせて形成されるものである。
引き続き図4Aを参照すると、復号モジュール440は、一方では入力画像の全局的な特徴を取得し、他方では入力質問408の質問特徴を取得する。本開示の実施例は、単語符号化(Word Embedding、単語埋め込み)アルゴリズム及び特徴符号化アルゴリズムを用いて、入力質問408を順次に符号化処理し、質問特徴qを取得してもよい。本例では、Glove単語符号化アルゴリズムとBi-GRU特徴符号化アルゴリズムを用いて質問全体の特徴表現qを取得する。復号モジュール440は、全局的な特徴および質問特徴に基づいて、入力画像および入力質問に対する予測解答409を生成する。以下、図5A及び図5Bを参照して、予測解答を生成する過程を例示的に説明する。
図5Aは、本開示の別の実施例による画像質問応答方法のフローチャートを概略的に示しており、上記操作S206が全局的な特徴及び質問特徴に基づいて入力画像及び入力質問に対する予測解答を生成する一実施形態を例示的に説明する。
図5Aに示したように、当該方法は、操作S2061~操作S2062を含むことができる。
操作S2061では、全局的な特徴と質問特徴とを併合して融合特徴を取得する。
例示的には、本操作S2061では、連結併合またはベクトル加算併合の方式によって全局的な特徴と質問特徴を併合することができる。
操作S2062では、第1の予測モデルによって融合特徴を処理し、融合特徴に対する予測解答を取得する。
例示的には、第1の予測モデルは、サンプル画像、サンプル質問、及び第1のラベルに基づいて訓練して得られ、第1のラベルは、サンプル画像及びサンプル質問に対する答案を示す。
図5Aに示される解答予測過程が、解答を生成する方式と呼ばれることが理解される。この方式は、上記で得られた全局的な特徴ベクトルと質問特徴ベクトルを、例えば訓練済みの循環ニューラルネットワーク(Recurrent Neural Network、RNN )に入力し、RNNから相応の解答を出力する。当該RNNは、複数の予定解答カテゴリに対する1つの多分類器に相当する。当該方式によって生成する解答は、比較的柔軟であり、生成される予測解答は入力画像に含まれない文字であってもよい。
図5Bは、本開示の別の実施例による画像質問応答方法のフローチャートを概略的に示しており、上記操作S206が全局的な特徴及び質問特徴に基づいて入力画像及び入力質問に対する予測解答を生成する別の実施形態を例示的に説明する。
図5Bに示すように、当該方法は、操作S2061'~操作S2064'を含み得る。
操作S2061'では、全局的な特徴と質問特徴とを併合して融合特徴を取得する。本操作過程は、上記操作S2061と同じであるため、ここでは贅言しない。
操作S2062'では、第2の予測モデルによって融合特徴を処理し、融合特徴に対する解答開始位置情報を取得する。
例示的には、第2の予測モデルは、サンプル画像、サンプル質問、及び第2のラベルに基づいて訓練して得られ、第2のラベルは、サンプル画像における、サンプル画像及びサンプル質問に対する答案の開始位置情報を示す。
操作S2063'では、第3の予測モデルによって融合特徴を処理し、融合特徴に対する解答終了位置情報を取得する。
例示的には、第3の予測モデルは、サンプル画像、サンプル質問、及び第3のラベルに基づいて訓練して得られ、第3のラベルは、サンプル画像における、サンプル画像及びサンプル質問に対する答案の終了位置情報を示す。
操作S2064 'では、解答開始位置情報、解答終了位置情報および入力画像に基づいて入力画像と入力質問に対する予測解答を決定する。
例示的には、この操作S2064'では、入力画像内の解答開始位置と解答終了位置との間に位置するテキスト内容を予測解答とする。
通常に、入力画像と入力質問との関連関係により、入力質問に対する予測解答が、入力画像中のテキスト内容であることが理解される。この特性に基づいて、図5Bに示す解答予測過程は、入力画像における解答の位置を予測する方法と呼ぶことができる。入力画像に含まれる各単語が解答の開始位置に対応するか否かを判定するための第2の予測モデル、及び入力画像に含まれる各単語が解答の終了位置に対応するか否かを判定するための第3の予測モデルを訓練してもよい。この2つのモデルは分類モデルであり得る。上記で得られた全局的な特徴符号化と質問特徴ベクトルを第2の予測モデルに入力し、第2の予測モデルによって解答の開始位置情報を出力する。上記で得られた全局的な特徴符号化と質問特徴ベクトルを第3の予測モデルに入力し、第3の予測モデルによって解答の終了位置情報を出力する。入力画像における解答開始位置と解答終了位置の間に位置するテキスト内容を解答とする。
さらに、上記各実施例に基づき、上記に用いた複数のモデルのうち、一つまたは複数のモデルの構造やパラメータが変化したりして、訓練サンプルが変化すれば、異なる画像質問応答システムが得られる。異なる問答システムは、同一の画像及び質問に対して異なる予測解答を出力する可能性がある。この場合、本開示の実施例による画像質問応答方法は、入力画像及び入力質問に対するM個(Mは2より大きい整数)の予測解答を生成する場合、M個の予測解答における各予測解答とM個の予測解答のうちの当該予測解答以外の他のM-1個の予測解答との編集距離を算出し、編集距離を合算して各予測解答の評価を取得することさらに含むことができる。M個の予測解答のうち最も評価の高い予測解答を好ましい予測解答として選択する。
図6に示すように、画像質問応答装置600は、取得モジュール610、検出モジュール620、決定モジュール630、符号化モジュール640、質問特徴抽出モジュール650、及び予測モジュール660を含むことができる。
取得モジュール610は、入力画像及び入力質問を取得する。
検出モジュール620は、入力画像における少なくとも1つのテキスト領域のそれぞれの視覚情報及び位置情報を検出する。
決定モジュール630は、視覚情報および位置情報に基づいて、少なくとも1つのテキスト領域のそれぞれの語義情報および属性情報を決定する。
符号化モジュール640は、視覚情報、位置情報、語義情報及び属性情報に基づいて、入力画像の全局的な特徴を決定する。
質問特徴抽出モジュール650は、入力質問に基づいて質問特徴を決定する。
予測モジュール660は、全局的な特徴及び質問特徴に基づいて入力画像及び入力質問に対する予測解答を生成する。
なお、装置部分の実施例における各モジュール/ユニット/サブユニット等の実施形態、解決された技術的課題、実現された機能、及び達成された技術効果は、それぞれ方法部分の実施例における各対応するステップの実施例、解決された技術的課題、実現された機能、及び達成された技術的効果と同一又は類似であり、ここでは贅言しない。
本発明の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちのいずれか複数、またはこれらのうちの少なくとも一部の機能は、1つのモジュールで実現されることができる。本発明の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちのいずれか1つ以上は、複数のモジュールに分割して実現することができる。本開示の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちの任意の1つ以上は、少なくとも部分的に、例えばフィールドプログラマブルゲートアレイ(FPGA)、プログラマブル論理アレイ(PLA)、システムオンチップ、基板上システム、パッケージ上システム、特定用途向け集積回路(ASIC)などのハードウェア回路として実装されてもよく、または回路を集積またはパッケージ化する他の合理的な方式のハードウェアもしくはファームウェアによって、またはソフトウェア、ハードウェア、およびファームウェアの3つの実装形態のうちの任意の1つもしくはそれらのうちの任意のいくつかの適切な組み合わせによって実装されてもよい。あるいは、本開示の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちの1つ以上は、少なくとも部分的に、実行されたときに相応的な機能を実行可能なコンピュータプログラムモジュールとして実現されてもよい。
例えば、取得モジュール610、検出モジュール620、決定モジュール630、符号化モジュール640、質問特徴抽出モジュール650および予測モジュール660のうちのいずれか複数を1つのモジュールに統合してもよいし、いずれか1つのモジュールを複数のモジュールに分割してもよい。あるいは、これらのモジュールのうちの1つ以上のモジュールの機能の少なくとも一部は、他のモジュールの機能の少なくとも一部と組み合わされて、1つのモジュールに実現され得る。本開示の実施例によれば、取得モジュール610、検出モジュール620、決定モジュール630、符号化モジュール640、質問特徴抽出モジュール650および予測モジュール660のうちの少なくとも1つは、フィールドプログラマブルゲートアレイ(FPGA)、プログラマブル論理アレイ(PLA)、システムオンチップ、基板上システム、パッケージ上システム、特定用途向け集積回路(ASIC)などのハードウェア回路として少なくとも部分的に実現されてもよく、又は、回路を集積又はパッケージ化する任意の他の合理的な方法などのハードウェア若しくはファームウェア、又は、ソフトウェア、ハードウェア、及びファームウェアの3つの実現形態のうちの任意の1つ、又は、これらのうちの任意のいくつかの適切な組み合わせで実現されてもよい。あるいは、取得モジュール610、検出モジュール620、決定モジュール630、符号化モジュール640、質問特徴抽出モジュール650および予測モジュール660のうちの少なくとも1つは、少なくとも部分的に、実行されたときに相応的な機能を実行可能なコンピュータプログラムモジュールとして実装されてもよい。
図7は、本開示の実施例による、上記の方法を実施するように適合されたコンピュータ装置のブロック図を概略的に示している。図7に示すコンピュータ装置は一例に過ぎず、本開示の実施例の機能及び使用範囲に何ら制限を課すものではない。
図7に示すように、本開示の実施例によるコンピュータ装置700は、リードオンリーメモリ(ROM)702に記憶されたプログラム、又は記憶部分708からランダムアクセスメモリ(RAM)703にロードされたプログラムに従って様々な適切な操作及び処理を実行することができるプロセッサ701を含む。プロセッサ701は、例えば、汎用マイクロプロセッサ(例えば、CPU )、命令セットプロセッサ、および/または関連チップセット、および/または特定用途向けマイクロプロセッサ(例えば、特定用途向け集積回路(ASIC))などを含み得る。プロセッサ701は、キャッシュ用途のためのオンボードメモリも含み得る。プロセッサ701は、本開示の実施例による方法フローの異なる操作を実行するための単一の処理ユニット又は複数の処理ユニットを含んでもよい。
RAM703には、装置700の操作に必要な各種プログラムやデータが記憶される。プロセッサ701、ROM702、およびRAM703は、バス704を介して互いに接続されている。プロセッサ701は、ROM702及び/又はRAM703のプログラムを実行することにより、本発明の実施例による方法の流れによる様々な操作を実行する。なお、前記プログラムは、ROM702およびRAM703以外のメモリに格納されていてもよい。プロセッサ701は、前記1つ以上のメモリに記憶されたプログラムを実行することにより、本開示の実施例による方法フローの様々な操作を実行することもできる。
本開示の実施例によれば、装置700は、バス704に接続された入出力(I/O)インタフェース705をさらに含むことができる。また、装置700は、I/Oインタフェース705に接続された、キーボード、マウスなどを含む入力部分706、例えばカソード線管(CRT)、液晶ディスプレイ(LCD)などおよびスピーカなどを含む出力部分707、ハードディスクなどを含む記憶部分708、例えばLANカード、モデムなどのネットワークインタフェースカードを含む通信部分709のうちの1つ以上を含んでもよい。通信部分709は、インターネットなどのネットワークを介して通信処理を行う。ドライバ710は、必要に応じて、I/Oインタフェース705に接続される。読み出されたコンピュータプログラムが、必要に応じて記憶部分708にインストールされるように、例えば磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア711は、需要に応じてドライブ710に実装される。
本開示の実施例によれば、本開示の実施例による方法のフローは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本開示の実施例は、コンピュータ読み取り可能な記憶媒体にインストールされたコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例で、このコンピュータプログラムは、通信部分709によってネットワークからダウンロードしてインストールされてもよいし、取り外し可能な媒体711からインストールされてもよい。このコンピュータプログラムがプロセッサ701によって実行されると、本開示の実施例のシステムにおいて限定した上記機能が実行される。本開示の実施例によれば、前述したシステム、デバイス、装置、モジュール、ユニット等は、コンピュータプログラムモジュールにより実現することができる。
本開示は、さらに、非一時的なコンピュータ読み取り可能な記憶媒体を提供しており、当該非一時的なコンピュータ読み取り可能な記憶媒体は、上記実施例に記載のデバイス/装置/システムに含まれてもよく、デバイス/装置/システムに組み込まれずに単独で存在してもよい。上記コンピュータ読み取り可能な記憶媒体には、一つ又は複数のプログラムが記録されており、上記一つ又は複数のプログラムが実行されると、本開示の実施例による方法を実現する。
本開示の実施例によれば、非一時的なコンピュータ読み取り可能な記憶媒体は、不揮発性のコンピュータ読み取り可能な記憶媒体であってもよく、例えば、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、携帯型コンパクトディスクROM(CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含み得るが、これらに限定されない。本開示において、非一時的なコンピュータ読み取り可能な記憶媒体は、プログラムを含む又は記憶する、任意の有形媒体であってもよく、このプログラムは、命令実行システム、装置又はデバイスによって又はそれらと関連して使用される。例えば、本開示の実施例によれば、非一時的なコンピュータ読み取り可能な記憶媒体は、前記したROM702および/またはRAM703およびRAM703以外の1つ以上のメモリを含むことができる。
図面におけるフローチャート及びブロック図は、本開示の様々な実施例によるシステム、方法、及びコンピュータプログラム製品の実現可能な構造、機能及び操作を示している。この点に関して、フローチャート又はブロック図における各ブロックは、モジュール、セグメント、又はコードの一部を表すことができ、モジュール、セグメント、又はコードの一部は、特定な論理機能を実現するための1つ又は複数の実行可能命令を含む。これに代えて、別の実現では、ブロックに表記された機能は、図面に示す順序とは異なる順序で生じ得ることにも留意すべきである。例えば、連続して示される2つのブロックは、実際には、機能に応じて、実質的に並列に実行されてもよく、逆順に実行されてもよい。ブロック図又はフローチャートの各ブロック、及びブロック図又はフローチャートのブロックの組合せは、特定な機能又は操作を実行する専用ハードウェアベースのシステムで実現されてもよく、又は専用ハードウェアとコンピュータ命令との組合せにより実現されてもよいことにも留意すべきである。
当業者は、本開示に明示的に記載されていなくても、本開示の様々な実施例及び/又は特許請求の範囲に記載された特徴について様々な組合せ及び/又は結合で実施してもよいことを理解するだろう。特に、本開示の様々な実施例及び/又は特許請求の範囲に記載された特徴は、本開示の精神及び教示から逸脱することなく、様々な組合せ及び/又は結合を行うことができる。これらの組合せ及び/又は結合はいずれも本開示の範囲に含まれる。
以上、本開示の実施例を説明した。しかしながら、これらの実施例は、説明のためのものであり、本開示の範囲を限定するものではない。以上、各実施例を個別に説明したが、各実施例における各手段を適宜組み合わせて用いることができないことを意味するわけではない。本開示の範囲は、添付の特許請求の範囲及びその均等物によって限定される。当業者は、本開示の範囲から逸脱することなく、様々な変更及び修正を行うことができ、これらの変更及び修正も本開示の範囲に属する。

Claims (16)

  1. 入力画像及び入力質問を取得することと、
    前記入力画像における少なくとも1つのテキスト領域のそれぞれの視覚情報及び位置情報を検出することと、
    前記視覚情報及び前記位置情報に基づいて、前記少なくとも1つのテキスト領域のそれぞれの語義情報及び属性情報を決定することと、
    前記視覚情報、前記位置情報、前記語義情報、及び前記属性情報に基づいて、前記入力画像の全局的な特徴を決定することと、
    前記入力質問に基づいて質問特徴を決定することと、
    前記全局的な特徴および前記質問特徴に基づいて、前記入力画像および前記入力質問に対する予測解答を生成することと、を含む
    画像質問応答方法。
  2. 前記入力画像における少なくとも1つのテキスト領域のそれぞれの視覚情報及び位置情報を検出することは、
    文字検出モデルによって、前記入力画像を検出し、前記入力画像に前記少なくとも1つのテキスト領域のそれぞれの検出枠を生成することを含み、
    前記少なくとも1つのテキスト領域における各テキスト領域の検出枠における画像情報は、前記各テキスト領域の視覚情報を表し、前記各テキスト領域の検出枠の位置情報は、前記各テキスト領域の位置情報を表す
    請求項1に記載の画像質問応答方法。
  3. 前記視覚情報及び前記位置情報に基づいて、前記少なくとも1つのテキスト領域のそれぞれの語義情報及び属性情報を決定することは、
    前記少なくとも1つのテキスト領域の各テキスト領域について、文字識別モデルによって、前記各テキスト領域の視覚情報を識別し、前記各テキスト領域の語義情報を取得することを含む
    請求項1に記載の画像質問応答方法。
  4. 前記属性情報は、テーブル属性情報を含み、
    前記視覚情報及び前記位置情報に基づいて、前記少なくとも1つのテキスト領域のそれぞれの語義情報及び属性情報を決定することは、
    テーブル検出ツールによって、前記入力画像における少なくとも1つのテーブル領域の位置情報を検出することと、
    前記各テキスト領域の位置情報と、少なくとも1つのテーブル領域の位置情報に基づいて、前記各テキスト領域の、前記各テキスト領域が前記少なくとも1つのテーブル領域内に位置するか否かを示すテーブル属性情報を決定することと、をさらに含む
    請求項3に記載の画像質問応答方法。
  5. 前記各テキスト領域の位置情報と、少なくとも1つのテーブル領域の位置情報に基づいて、前記各テキスト領域のテーブル属性情報を決定することは、
    前記各テキスト領域の位置情報と少なくとも一つのテーブル領域における各テーブル領域の位置情報とに基づいて、前記各テキスト領域と前記各テーブル領域との間の共通集合および併合集合を算出することと、
    前記共通集合と前記併合集合との比率を計算することと、
    前記比率が予定の閾値より大きい場合、前記各テキスト領域の前記各テーブル領域に関するテーブル属性情報を1と決定することと、
    前記比率が予定の閾値以下である場合、前記各テキスト領域の前記各テーブル領域に関するテーブル属性情報を0と決定することと、を含む
    請求項4に記載の画像質問応答方法。
  6. 前記属性情報は、文字属性情報を含み、
    前記視覚情報及び前記位置情報に基づいて、前記少なくとも1つのテキスト領域のそれぞれの語義情報及び属性情報を決定することは、
    手書き文字識別モデルによって前記各テキスト領域の視覚情報を識別して、前記各テキスト領域の、前記テキスト領域が手書き文字を含むか否かを表す文字属性情報を決定することをさらに含む
    請求項3に記載の画像質問応答方法。
  7. 前記視覚情報、前記位置情報、前記語義情報及び前記属性情報に基づいて前記入力画像の全局的な特徴を決定することは、
    前記少なくとも1つのテキスト領域における各テキスト領域について、前記各テキスト領域の前記視覚情報、前記位置情報、前記語義情報及び前記属性情報を、それぞれに第1の特徴、第2の特徴、第3の特徴及び第4の特徴に変換し、前記第1の特徴、前記第2の特徴、前記第3の特徴及び前記第4の特徴を、前記各テキスト領域の特徴に併合することと、
    前記少なくとも1つのテキスト領域のそれぞれの位置情報に基づいて、前記少なくとも1つのテキスト領域の配列順序を決定することと、
    前記配列順序に従って、予定符号化モデルによって、前記少なくとも1つのテキスト領域の特徴を順次に符号化処理して、前記入力画像の全局的な特徴を取得することと、を含む
    請求項1に記載の画像質問応答方法。
  8. 前記第1の特徴、前記第2の特徴、前記第3の特徴及び前記第4の特徴を、前記各テキスト領域の特徴に併合することは、
    前記第1の特徴、前記第2の特徴、前記第3の特徴、および前記第4の特徴を連結して併合し、前記各テキスト領域の特徴を取得することと、
    前記第1の特徴、前記第2の特徴、前記第3の特徴及び前記第4の特徴をベクトル加算し、前記各テキスト領域の特徴を取得することと、を含む
    請求項7に記載の画像質問応答方法。
  9. 前記入力質問に基づいて質問特徴を決定することは、
    単語符号化アルゴリズム及び特徴符号化アルゴリズムによって前記入力質問を順次に符号化処理して前記質問特徴を取得することを含む
    請求項1に記載の画像質問応答方法。
  10. 前記全局的な特徴および前記質問特徴に基づいて前記入力画像および前記入力質問に対する予測解答を生成することは、
    前記全局的な特徴と前記質問特徴とを併合して融合特徴を取得することと、
    サンプル画像と、サンプル質問と、前記サンプル画像及び前記サンプル質問に対する答案を表す第1のラベルとに基づいて訓練して得られた第1の予測モデルによって、前記融合特徴を処理して前記融合特徴に対する予測解答を取得することと、を含む
    請求項1に記載の画像質問応答方法。
  11. 前記全局的な特徴および前記質問特徴に基づいて前記入力画像および前記入力質問に対する予測解答を生成することは、
    前記全局的な特徴と前記質問特徴とを併合して融合特徴を取得することと、
    サンプル画像と、サンプル質問と、前記サンプル画像における、前記サンプル画像及び前記サンプル質問に対する答案の開始位置情報を表す第2のラベルとに基づいて得られた第2の予測モデルによって、前記融合特徴を処理して前記融合特徴に対する解答開始位置情報を取得することと、
    前記サンプル画像と、前記サンプル質問と、前記サンプル画像における、前記サンプル画像及び前記サンプル質問に対する答案の終了位置情報を表す第3のラベルとに基づいて得られた第3の予測モデルによって、前記融合特徴を処理して前記融合特徴に対する解答終了位置情報を取得することと、
    前記解答開始位置情報、前記解答終了位置情報および前記入力画像に基づいて、前記入力画像と前記入力質問に対する予測解答を決定することと、を含む
    請求項1に記載の画像質問応答方法。
  12. 前記入力画像及び前記入力質問に対する、2より大きい整数であるM個の予測解答を生成する場合に、
    前記M個の予測解答の各予測解答と、前記M個の予測解答のうち前記各予測解答以外の他のM-1個の予測解答との間の編集距離を計算することと、
    前記編集距離を合計して、前記各予測解答の評価を取得することと、
    前記M個の予測解答のうち最も評価の高い予測解答を好ましい予測解答とすることと、をさらに含む
    請求項1に記載の画像質問応答方法。
  13. 入力画像及び入力質問を取得する取得モジュールと、
    前記入力画像における少なくとも1つのテキスト領域のそれぞれの視覚情報及び位置情報を検出する検出モジュールと、
    前記視覚情報及び前記位置情報に基づいて、前記少なくとも1つのテキスト領域のそれぞれの語義情報及び属性情報を決定する決定モジュールと、
    前記視覚情報、前記位置情報、前記語義情報、及び前記属性情報に基づいて、前記入力画像の全局的な特徴を決定する符号化モジュールと、
    前記入力質問に基づいて質問特徴を決定する質問特徴抽出モジュールと、
    前記全局的な特徴および前記質問特徴に基づいて、前記入力画像および前記入力質問に対する予測解答を生成する予測モジュールと、を含む
    画像質問応答装置。
  14. コンピュータ命令が記憶されたメモリと、
    少なくとも1つのプロセッサと、を含み、
    前記プロセッサは、前記コンピュータ命令を実行する場合、請求項1~12のいずれか一項による方法を実現する
    コンピュータ装置。
  15. プロセッサによって実行される際に、請求項1~12のいずれか一項による方法を実現するコンピュータ命令が記憶された
    非一時的なコンピュータ読み取り可能な記憶媒体。
  16. 実行される際に、請求項1~12のいずれか一項による方法を実現するコンピュータ命令を含むコンピュータプログラム。
JP2021035338A 2020-06-30 2021-03-05 画像質問応答方法、装置、コンピュータ装置、媒体及びプログラム Active JP7206309B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010616417.6 2020-06-30
CN202010616417.6A CN111782839B (zh) 2020-06-30 2020-06-30 图像问答方法、装置、计算机设备和介质

Publications (2)

Publication Number Publication Date
JP2022013643A true JP2022013643A (ja) 2022-01-18
JP7206309B2 JP7206309B2 (ja) 2023-01-17

Family

ID=72761471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021035338A Active JP7206309B2 (ja) 2020-06-30 2021-03-05 画像質問応答方法、装置、コンピュータ装置、媒体及びプログラム

Country Status (5)

Country Link
US (1) US11854283B2 (ja)
EP (1) EP3816818A3 (ja)
JP (1) JP7206309B2 (ja)
KR (1) KR20220002066A (ja)
CN (1) CN111782839B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024036781A (ja) * 2022-09-06 2024-03-18 日本電信電話株式会社 回答生成装置、機械学習方法、及びプログラム
JP2024120045A (ja) * 2024-03-15 2024-09-03 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 画像ベースのヒューマンマシンインタラクション方法、装置、機器及び記憶媒体

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256891B (zh) * 2020-10-26 2024-11-22 北京达佳互联信息技术有限公司 多媒体资源的推荐方法、装置、电子设备及存储介质
CN112800191B (zh) * 2020-12-31 2023-01-17 科大讯飞股份有限公司 一种基于图片的问答方法、设备及计算机可读存储介质
CN115080708A (zh) * 2021-03-12 2022-09-20 上海乐言科技股份有限公司 问答方法及装置、计算机可读存储介质、终端
CN113177929B (zh) * 2021-05-18 2022-08-09 中国石油大学(华东) 一种基于全卷积网络的海面溢油检测方法及其系统和应用
JP7619158B2 (ja) * 2021-05-18 2025-01-22 株式会社リコー マニュアル解析装置、マニュアル提供装置、マニュアル読解システム、方法、およびプログラム
CN113392253B (zh) * 2021-06-28 2023-09-29 北京百度网讯科技有限公司 视觉问答模型训练及视觉问答方法、装置、设备及介质
CA3228096A1 (en) * 2021-07-09 2023-01-12 Ancestry.Com Operations Inc. Handwriting recognition pipelines for genealogical records
CN113869349B (zh) * 2021-08-04 2022-10-14 西南交通大学 基于层次多任务学习的示意图问答方法
CN113657274B (zh) * 2021-08-17 2022-09-20 北京百度网讯科技有限公司 表格生成方法、装置、电子设备及存储介质
CN113780370B (zh) * 2021-08-23 2024-05-07 咪咕文化科技有限公司 视觉问答方法、装置、设备及存储介质
CN113569840B (zh) * 2021-08-31 2025-03-14 深圳平安医疗健康科技服务有限公司 基于自注意力机制的表单识别方法、装置及存储介质
CN114283316B (zh) * 2021-09-16 2025-07-18 腾讯科技(深圳)有限公司 一种图像识别方法、装置、电子设备和存储介质
US12210835B2 (en) * 2021-10-05 2025-01-28 Samsung Electronics Co., Ltd. Multi-granularity alignment for visual question answering
CN114118408B (zh) * 2021-11-11 2024-11-26 北京达佳互联信息技术有限公司 图像处理模型的训练方法、图像处理方法、装置及设备
CN113780486B (zh) * 2021-11-15 2022-02-11 湖南师范大学 一种视觉问答的方法、装置及介质
CN114092707B (zh) * 2021-11-18 2025-05-27 华中师范大学 一种图像文本视觉问答方法、系统及存储介质
CN114092949B (zh) * 2021-11-23 2025-01-03 支付宝(杭州)信息技术有限公司 类别预测模型的训练、界面元素类别的识别方法及装置
CN114283292B (zh) * 2021-12-07 2025-05-06 厦门崛鼎科技股份有限公司 一种基于分工决策的视觉问答模型的视觉问答方法及系统
CN114495130B (zh) * 2021-12-27 2023-03-24 北京百度网讯科技有限公司 基于跨模态信息的文档阅读理解模型训练方法及装置
CN114461777B (zh) * 2022-02-14 2024-07-19 平安科技(深圳)有限公司 智能问答方法、装置、设备及存储介质
US12293577B2 (en) * 2022-02-18 2025-05-06 Adobe Inc. Systems and methods for image processing using natural language
CN114780645B (zh) * 2022-03-29 2022-10-25 广东科能工程管理有限公司 基于人工智能的数据分类处理方法、系统及云平台
CN114743204B (zh) * 2022-04-11 2024-10-15 平安科技(深圳)有限公司 针对表格的自动问答方法、系统、设备及存储介质
CN114817564B (zh) * 2022-04-15 2024-08-23 苏州大学 一种属性抽取方法、装置及存储介质
CN114707017B (zh) * 2022-04-20 2023-05-23 北京百度网讯科技有限公司 视觉问答方法、装置、电子设备和存储介质
CN114842368B (zh) * 2022-05-07 2023-10-03 中国电信股份有限公司 基于场景的视觉辅助信息确定方法、系统、设备及存储介质
CN114840656B (zh) * 2022-05-18 2024-03-01 北京百度网讯科技有限公司 一种视觉问答方法、装置、设备及存储介质
CN115512340B (zh) * 2022-07-06 2025-12-23 支付宝(杭州)数字服务技术有限公司 基于图片的意图检测方法及装置
CN115346067B (zh) * 2022-07-25 2025-11-07 浙江理工大学 一种基于图像全局特征注入的视觉问答方法
CN115270987B (zh) * 2022-08-08 2023-11-07 中国电信股份有限公司 视觉问答网络模型的训练方法、装置、设备以及存储介质
CN115331228B (zh) * 2022-08-24 2026-01-02 抖音视界有限公司 图像文本处理方法、装置、可读介质和电子设备
CN115129848B (zh) * 2022-09-02 2023-02-28 苏州浪潮智能科技有限公司 一种视觉问答任务的处理方法、装置、设备和介质
CN115587160B (zh) * 2022-09-14 2023-05-12 山东财经大学 一种基于自注意力机制的短语级文本图像生成方法及系统
CN115497113B (zh) * 2022-09-30 2023-11-14 北京百度网讯科技有限公司 信息生成方法、装置、电子设备以及存储介质
TR2023014122A2 (tr) * 2023-10-31 2023-12-21 Cognizen Arge Muehendislik Ve Yazilim Anonim Sirketi Soru çözümleri̇ni̇ yazili vegörsel bi̇çi̇mde cevaplayanbi̇r yapay zekasi̇stemi̇
US12561522B2 (en) * 2022-11-09 2026-02-24 Samsung Electronics Co., Ltd. Confidence-based interactable neural-symbolic visual question answering
CN115984575B (zh) * 2022-12-01 2026-01-06 齐鲁工业大学(山东省科学院) 一种基于多层次视觉特征增强网络的视觉问答方法及系统
CN115878772A (zh) * 2022-12-16 2023-03-31 广东亿迅科技有限公司 一种视觉问答方法、系统、设备及存储介质
US20240202551A1 (en) * 2022-12-16 2024-06-20 Intuit Inc. Visual Question Answering for Discrete Document Field Extraction
CN115952266B (zh) * 2022-12-22 2026-03-17 中国工商银行股份有限公司 问题生成方法、装置、计算机设备和存储介质
CN115688083B (zh) * 2022-12-29 2023-03-28 广东工业大学 图文型验证码的识别方法、装置、设备及存储介质
CN116204624A (zh) * 2023-02-28 2023-06-02 北京百度网讯科技有限公司 应答方法、装置、电子设备及存储介质
CN116563873B (zh) * 2023-05-31 2025-12-19 网易有道(杭州)智能科技有限公司 由计算机实施的自动答疑的方法及相关产品
CN116894996B (zh) * 2023-07-07 2026-03-10 中国电信股份有限公司技术创新中心 视觉问答模型的训练、视觉问答任务处理方法及装置
US12443790B2 (en) * 2023-08-09 2025-10-14 Adobe Inc. Reflowing infographics for cross-device display
CN116758402B (zh) * 2023-08-16 2023-11-28 中国科学技术大学 图像人物关系识别方法、系统、设备及存储介质
CN117173638A (zh) * 2023-10-12 2023-12-05 数字广东网络建设有限公司 一种图像监控方法、装置、电子设备及存储介质
WO2026005387A1 (ko) * 2024-06-28 2026-01-02 삼성전자 주식회사 모달리티 결정에 기반한 응답 제공 방법 및 이를 위한 전자 장치
CN118410877B (zh) * 2024-07-04 2024-10-01 杭州海康威视数字技术股份有限公司 一种答案确定方法、装置、电子设备及存储介质
CN119380240B (zh) * 2024-10-23 2025-12-02 上海人工智能创新中心 一种长视频理解方法、装置、设备及存储介质
CN119311842B (zh) * 2024-12-12 2025-03-25 合肥工业大学 一种基于多模态异构图的视听视频问答方法和系统
CN120412978A (zh) * 2025-04-18 2025-08-01 东莞理工学院 一种基于医学属性驱动的少样本消化道疾病诊断方法及装置
CN120146205B (zh) * 2025-05-14 2025-08-12 中国科学院自动化研究所 视觉问答方法、装置、电子设备、存储介质和计算机程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018036794A (ja) * 2016-08-30 2018-03-08 コニカミノルタ株式会社 画像処理装置及びプログラム
JP2018085093A (ja) * 2016-11-17 2018-05-31 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム
JP2018180986A (ja) * 2017-04-14 2018-11-15 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US20190370587A1 (en) * 2018-05-29 2019-12-05 Sri International Attention-based explanations for artificial intelligence behavior

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095272B (zh) * 2014-05-12 2019-03-29 阿里巴巴集团控股有限公司 基于图像识别的问答处理方法、装置及系统
US9430557B2 (en) * 2014-09-17 2016-08-30 International Business Machines Corporation Automatic data interpretation and answering analytical questions with tables and charts
CN107609056B (zh) * 2017-08-25 2021-08-03 百度在线网络技术(北京)有限公司 一种基于图片识别的问答处理方法与设备
US10754851B2 (en) * 2017-12-22 2020-08-25 Adobe Inc. Question answering for data visualizations
CN108416279B (zh) * 2018-02-26 2022-04-19 北京阿博茨科技有限公司 文档图像中的表格解析方法及装置
CN108345692B (zh) * 2018-03-16 2020-07-31 北京京东尚科信息技术有限公司 一种自动问答方法和系统
CN109670065A (zh) * 2018-09-25 2019-04-23 平安科技(深圳)有限公司 基于图像识别的问答处理方法、装置、设备和存储介质
CN110390269B (zh) * 2019-06-26 2023-08-01 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110569846B (zh) * 2019-09-16 2025-08-29 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
CN110796031B (zh) * 2019-10-11 2024-08-02 腾讯科技(深圳)有限公司 基于人工智能的表格识别方法、装置及电子设备
CN111062259B (zh) * 2019-11-25 2023-08-25 泰康保险集团股份有限公司 表格识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018036794A (ja) * 2016-08-30 2018-03-08 コニカミノルタ株式会社 画像処理装置及びプログラム
JP2018085093A (ja) * 2016-11-17 2018-05-31 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム
JP2018180986A (ja) * 2017-04-14 2018-11-15 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US20190370587A1 (en) * 2018-05-29 2019-12-05 Sri International Attention-based explanations for artificial intelligence behavior

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANAND MISHARA、外3名: ""OCR-VQA: Visual Question Answering by Reading Text in Images"", 2019 INTERNATIONAL CONFERECE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR), JPN7022002210, 20 September 2019 (2019-09-20), pages 947 - 952, ISSN: 0004774355 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024036781A (ja) * 2022-09-06 2024-03-18 日本電信電話株式会社 回答生成装置、機械学習方法、及びプログラム
JP7729291B2 (ja) 2022-09-06 2025-08-26 Ntt株式会社 回答生成装置、機械学習方法、及びプログラム
JP2024120045A (ja) * 2024-03-15 2024-09-03 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 画像ベースのヒューマンマシンインタラクション方法、装置、機器及び記憶媒体
JP7789847B2 (ja) 2024-03-15 2025-12-22 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 画像ベースのヒューマンマシンインタラクション方法、装置、機器及び記憶媒体

Also Published As

Publication number Publication date
EP3816818A3 (en) 2021-09-01
CN111782839B (zh) 2023-08-22
US20210406619A1 (en) 2021-12-30
EP3816818A2 (en) 2021-05-05
KR20220002066A (ko) 2022-01-06
JP7206309B2 (ja) 2023-01-17
US11854283B2 (en) 2023-12-26
CN111782839A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
JP2022013643A (ja) 画像質問応答方法、装置、コンピュータ装置、媒体及びプログラム
JP7196218B2 (ja) 画像質問応答方法、装置、コンピュータ装置、媒体及びプログラム
JP7167216B2 (ja) 画像質問応答方法、装置、コンピュータ装置、媒体およびプログラム
US10685462B2 (en) Automatic data extraction from a digital image
CN114155543B (zh) 神经网络训练方法、文档图像理解方法、装置和设备
US20220392243A1 (en) Method for training text classification model, electronic device and storage medium
JP7512416B2 (ja) 少数ショット類似性決定および分類のためのクロストランスフォーマニューラルネットワークシステム
US20250022301A1 (en) Joint text spotting and layout analysis
US20250061735A1 (en) Image processing method and related device
CN118967698A (zh) 一种点云分割方法、系统、介质、设备及信息数据处理终端
US11837000B1 (en) OCR using 3-dimensional interpolation
CN116503761A (zh) 高压线路异物检测方法、模型训练方法和装置
CN114299311B (zh) 训练用于图像处理的神经网络的方法和电子装置
CN115082598A (zh) 文本图像生成、训练、文本图像处理方法以及电子设备
Liu et al. MVG-Net: LiDAR point cloud semantic segmentation network integrating multi-view images
US20240378858A1 (en) Training generative models for generating stylized content
CN113283248B (zh) 散点图描述的自然语言自动生成方法及装置
CN115984838A (zh) Poi名称的生成方法、装置、电子设备和存储介质
CN116052196A (zh) 文本识别方法、装置、电子设备及存储介质
Acuña et al. Table detection for improving accessibility of digital documents using a deep learning approach
KR20220120222A (ko) 테이블 생성 방법 및 시스템
CN119272726B (zh) 流程图描述文本的生成方法、终端设备及存储介质
WO2025043617A1 (zh) 手写体识别方法及装置、计算机可读存储介质
CN117058491B (zh) 基于递归神经网络的结构化网格布局生成方法及设备
US20260127779A1 (en) Compositional text-to-video generation with dense blob video representations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230104

R150 Certificate of patent or registration of utility model

Ref document number: 7206309

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250