JP2022013643A

JP2022013643A - 画像質問応答方法、装置、コンピュータ装置、媒体及びプログラム

Info

Publication number: JP2022013643A
Application number: JP2021035338A
Authority: JP
Inventors: 鵬原呂; Peng Yuan Lu; 曉強張; Xiaoqiang Zhang; 珊珊劉; Shanshan Liu; 成全章; Chengquan Zhang; 啓明彭; qi ming Peng; 思瑾呉; si jin Wu; 華路; Hana Michi; 永鋒陳; yong feng Chen
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2021-03-05
Publication date: 2022-01-18
Anticipated expiration: 2041-03-05
Also published as: EP3816818A3; CN111782839B; US20210406619A1; EP3816818A2; KR20220002066A; JP7206309B2; US11854283B2; CN111782839A

Abstract

【課題】画像と当該画像に関連する質問に対する解答を予測する画像質問応答方法、装置、コンピュータ装置及び媒体を提供する。【解決手段】方法は、入力画像及び入力質問を取得することと、入力画像における少なくとも１つのテキスト領域のそれぞれの視覚情報及び位置情報を検出することと、上記視覚情報及び位置情報に基づいて、上記少なくとも１つのテキスト領域のそれぞれの語義情報及び属性情報を決定することと、視覚情報、位置情報、語義情報及び属性情報に基づいて、入力画像の全局的な特徴を決定することと、入力質問に基づいて質問特徴を決定することと、全局的な特徴および質問特徴に基づいて、入力画像および入力質問に対する予測解答を生成することと、を含む。【選択図】図２

Description

（相互参照）
本開示は、２０２０年６月３０日に出願された出願番号が２０２０１０６１６４１７．６である中国特許出願に基づく優先権を主張し、その内容をここで参照とする。

本開示は、コンピュータ視覚、自然言語処理の分野に関し、より具体的には、画像質問応答方法、装置、コンピュータ装置および媒体に関する。

画像質問応答（ＶｉｓｕａｌＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ、ＶＱＡ）は、コンピュータ視覚と自然言語処理を関連付けることを目的とした非常に困難なタスクである。画像質問応答タスクでは、例えば、画像および関連質問が与えられ、機械が画像の内容に基づいて幾つかの常識と組み合わせて質問に対する解答を推論することが要求される。この画像質問応答タスクを完成するために、機械は、視覚及び言語という２つの異なるモダリティ（Ｍｏｄａｌｉｔｙ）でのデータを総合的に理解するように、クロスモーダル（Ｃｒｏｓｓ－Ｍｏｄａｌ）の理解能力を有していなければならない。画像質問応答タスクは他の単一モダリティでのタスク（例えば画像識別、ドキュメント分類等）よりも高い要求を有する。

本発明は、上記課題に鑑みてなされたものであり、画像質問応答方法、装置、コンピュータ装置、媒体及びプログラムを提供している。

本開示の一面は、画像質問応答方法を提供しており、入力画像及び入力質問を取得することと、入力画像における少なくとも１つのテキスト領域のそれぞれの視覚情報及び位置情報を検出することと、上記視覚情報及び位置情報に基づいて、上記少なくとも１つのテキスト領域のそれぞれの語義情報及び属性情報を決定することと、上記視覚情報、位置情報、語義情報、及び属性情報に基づいて、入力画像の全局的な特徴を決定することと、入力質問に基づいて質問特徴を決定することと、全局的な特徴および質問特徴に基づいて、入力画像および入力質問に対する予測解答を生成することと、を含む。

本開示の実施例によれば、入力画像における少なくとも１つのテキスト領域のそれぞれの視覚情報及び位置情報を検出することは、文字検出モデルによって、入力画像を検出し、入力画像に少なくとも１つのテキスト領域のそれぞれの検出枠を生成することを含む。ただし、少なくとも１つのテキスト領域における各テキスト領域の検出枠における画像情報は、各テキスト領域の視覚情報を表し、各テキスト領域の検出枠の位置情報は、各テキスト領域の位置情報を表す。

本開示の実施例によれば、視覚情報及び位置情報に基づいて、少なくとも１つのテキスト領域のそれぞれの語義情報及び属性情報を決定することは、少なくとも１つのテキスト領域の各テキスト領域について、文字識別モデルによって、各テキスト領域の視覚情報を識別し、各テキスト領域の語義情報を取得することを含む。

本開示の実施例によれば、属性情報は、テーブル属性情報を含む。視覚情報及び位置情報に基づいて、少なくとも１つのテキスト領域のそれぞれの語義情報及び属性情報を決定することは、テーブル検出ツールによって、入力画像における少なくとも１つのテーブル領域の位置情報を検出することと、各テキスト領域の位置情報と、少なくとも１つのテーブル領域の位置情報に基づいて、各テキスト領域の、各テキスト領域が少なくとも１つのテーブル領域内に位置するか否かを示すテーブル属性情報を決定することと、をさらに含む。

本開示の実施例によれば、各テキスト領域の位置情報と、少なくとも１つのテーブル領域の位置情報に基づいて、各テキスト領域のテーブル属性情報を決定することは、各テキスト領域の位置情報と少なくとも一つのテーブル領域における各テーブル領域の位置情報とに基づいて、各テキスト領域と各テーブル領域との間の共通集合および併合集合を算出することと、共通集合と併合集合との比率を計算することと、比率が予定の閾値より大きい場合、各テキスト領域の各テーブル領域に関するテーブル属性情報を１と決定することと、比率が予定の閾値以下である場合、各テキスト領域の各テーブル領域に関するテーブル属性情報を０と決定することと、を含む。

本開示の実施例によれば、属性情報は、文字属性情報を含む。視覚情報及び位置情報に基づいて、少なくとも１つのテキスト領域のそれぞれの語義情報及び属性情報を決定することは、手書き文字識別モデルによって各テキスト領域の視覚情報を識別して、各テキスト領域の、テキスト領域が手書き文字を含むか否かを表す文字属性情報を決定することをさらに含む。

本開示の実施例によれば、視覚情報、位置情報、語義情報及び属性情報に基づいて入力画像の全局的な特徴を決定することは、少なくとも１つのテキスト領域における各テキスト領域について、各テキスト領域の視覚情報、位置情報、語義情報及び属性情報を、それぞれ第１の特徴、第２の特徴、第３の特徴及び第４の特徴に変換し、第１の特徴、第２の特徴、第３の特徴及び第４の特徴を、各テキスト領域の特徴に併合することと、少なくとも１つのテキスト領域のそれぞれの位置情報に基づいて、少なくとも１つのテキスト領域の配列順序を決定することと、配列順序に従って、予定符号化モデルによって、少なくとも１つのテキスト領域の特徴を順次に符号化処理して、入力画像の全局的な特徴を取得することと、を含む。

本開示の実施例によれば、第１の特徴、第２の特徴、第３の特徴及び第４の特徴を、各テキスト領域の特徴に併合することは、第１の特徴、第２の特徴、第３の特徴、および第４の特徴を連結して併合し、各テキスト領域の特徴を取得すること、または第１の特徴、第２の特徴、第３の特徴及び第４の特徴をベクトル加算し、各テキスト領域の特徴を取得すること、を含む。

本開示の実施例によれば、入力質問に基づいて質問特徴を決定することは、単語符号化アルゴリズム及び特徴符号化アルゴリズムによって入力質問を順次に符号化処理して質問特徴を取得することを含む。

本開示の実施例によれば、全局的な特徴および質問特徴に基づいて入力画像および入力質問に対する予測解答を生成することは、全局的な特徴と質問特徴とを併合して融合特徴を取得することと、サンプル画像と、サンプル質問と、サンプル画像及びサンプル質問に対する答案を表す第１のラベルとに基づいて訓練して得られた第１の予測モデルによって、融合特徴を処理して融合特徴に対する予測解答を取得することと、を含む。

本開示の実施例によれば、全局的な特徴および質問特徴に基づいて入力画像および入力質問に対する予測解答を生成することは、全局的な特徴と質問特徴とを併合して融合特徴を取得することと、第２の予測モデルによって、融合特徴を処理して融合特徴に対する解答開始位置情報を取得することと、を含む。第２の予測モデルは、サンプル画像、サンプル質問と、サンプル画像における、サンプル画像及びサンプル質問に対する答案の開始位置情報を表す第２のラベルとに基づいて得られたものである。第３の予測モデルによって、融合特徴を処理して融合特徴に対する解答終了位置情報を取得する。第３の予測モデルは、サンプル画像と、サンプル質問と、サンプル画像における、サンプル画像及びサンプル質問に対する答案の終了位置情報を表す第３のラベルとに基づいて得られたものである。解答開始位置情報、解答終了位置情報および入力画像に基づいて、入力画像と入力質問に対する予測解答を決定する。

本開示の実施例によれば、入力画像及び入力質問に対する、２より大きい整数であるＭ個の予測解答を生成する場合、Ｍ個の予測解答の各予測解答と、Ｍ個の予測解答のうち各予測解答以外の他のＭ－１個の予測解答との間の編集距離を計算することと、編集距離を合計して、各予測解答の評価を取得することと、Ｍ個の予測解答のうち最も評価の高い予測解答を好ましい予測解答とすることと、をさらに含む。

本開示の他面は、画像質問応答装置を提供しており、入力画像及び入力質問を取得する取得モジュールと、入力画像における少なくとも１つのテキスト領域のそれぞれの視覚情報及び位置情報を検出する検出モジュールと、視覚情報及び位置情報に基づいて、少なくとも１つのテキスト領域のそれぞれの語義情報及び属性情報を決定する決定モジュールと、視覚情報、位置情報、語義情報、及び属性情報に基づいて、入力画像の全局的な特徴を決定する符号化モジュールと、入力質問に基づいて質問特徴を決定する質問特徴抽出モジュールと、全局的な特徴および質問特徴に基づいて、入力画像および入力質問に対する予測解答を生成する予測モジュールと、を含む。

本開示の実施例によれば、検出モジュールは、文字検出モデルによって、入力画像を検出し、入力画像に少なくとも１つのテキスト領域のそれぞれの検出枠を生成する。ただし、少なくとも１つのテキスト領域における各テキスト領域の検出枠における画像情報は、各テキスト領域の視覚情報を表し、各テキスト領域の検出枠の位置情報は、テキスト領域の位置情報を表す。

本開示の実施例によれば、決定モジュールは、少なくとも１つのテキスト領域の各テキスト領域について、文字識別モデルによって、各テキスト領域の視覚情報を識別し、各テキスト領域の語義情報を取得する第１の決定サブモジュールを含む。

本開示の実施例によれば、属性情報は、テーブル属性情報を含む。決定モジュールは、テーブル検出ツールによって、入力画像における少なくとも１つのテーブル領域の位置情報を検出し、各テキスト領域の位置情報と、少なくとも１つのテーブル領域の位置情報に基づいて、各テキスト領域の、各テキスト領域が少なくとも１つのテーブル領域内に位置するか否かを示すテーブル属性情報を決定する第２の決定サブモジュール、をさらに含む。

本開示の実施例によれば、第２の決定サブモジュールは、各テキスト領域の位置情報と少なくとも一つのテーブル領域における各テーブル領域の位置情報とに基づいて、各テキスト領域と各テーブル領域との間の共通集合および併合集合を算出し、共通集合と併合集合との比率を計算し、比率が予定の閾値より大きい場合、各テキスト領域の各テーブル領域に関するテーブル属性情報を１と決定し、比率が予定の閾値以下である場合、各テキスト領域の各テーブル領域に関するテーブル属性情報を０と決定する。

本開示の実施例によれば、属性情報は、文字属性情報を含む。決定モジュールは、手書き文字識別モデルによって各テキスト領域の視覚情報を識別して、各テキスト領域の、テキスト領域が手書き文字を含むか否かを表す文字属性情報を決定する第３の決定サブモジュールをさらに含む。

本開示の実施例によれば、符号化モジュールは、少なくとも１つのテキスト領域における各テキスト領域について、各テキスト領域の視覚情報、位置情報、語義情報及び属性情報を、それぞれ第１の特徴、第２の特徴、第３の特徴及び第４の特徴に変換し、第１の特徴、第２の特徴、第３の特徴及び第４の特徴を、各テキスト領域の特徴に併合し、少なくとも１つのテキスト領域のそれぞれの位置情報に基づいて、少なくとも１つのテキスト領域の配列順序を決定し、配列順序に従って、予定符号化モデルによって、少なくとも１つのテキスト領域の特徴を順次に符号化処理して、入力画像の全局的な特徴を取得する。

本開示の実施例によれば、符号化モジュールが第１の特徴、第２の特徴、第３の特徴及び第４の特徴を、各テキスト領域の特徴に併合することは、符号化モジュールが第１の特徴、第２の特徴、第３の特徴、および第４の特徴を連結して併合し、各テキスト領域の特徴を取得すること、または第１の特徴、第２の特徴、第３の特徴及び第４の特徴をベクトル加算し、各テキスト領域の特徴を取得すること、を含む。

本開示の実施例によれば、質問特徴抽出モジュールは、単語符号化アルゴリズム及び特徴符号化アルゴリズムによって入力質問を順次に符号化処理して質問特徴を取得する。

本開示の実施例によれば、予測モジュールは、第１の予測サブモジュールを含み、全局的な特徴と質問特徴とを併合して融合特徴を取得し、第１の予測サブモジュールによって、融合特徴を処理して融合特徴に対する予測解答を取得する。第１の予測サブモジュールは、サンプル画像と、サンプル質問と、サンプル画像及びサンプル質問に対する答案を表す第１のラベルとに基づいて訓練して得られたものである。

本開示の実施例によれば、予測モジュールは、第２の予測サブモジュールを含み、全局的な特徴と質問特徴とを併合して融合特徴を取得し、第２の予測モデルによって、融合特徴を処理して融合特徴に対する解答開始位置情報を取得する。第２の予測モデルは、サンプル画像と、サンプル質問と、及び、サンプル画像における、サンプル画像及びサンプル質問に対する答案の開始位置情報を表す第２のラベルとに基づいて得られたものである。第３の予測モデルによって、融合特徴を処理して融合特徴に対する解答終了位置情報を取得する。第３の予測モデルは、サンプル画像と、サンプル質問と、サンプル画像における、サンプル画像及びサンプル質問に対する答案の終了位置情報を表す第３のラベルとに基づいて得られたものである。解答開始位置情報、解答終了位置情報および入力画像に基づいて、入力画像と入力質問に対する予測解答を決定する。

本開示の実施例によれば、上記装置は、入力画像及び入力質問に対する、２より大きい整数であるＭ個の予測解答を生成する場合、Ｍ個の予測解答の各予測解答と、Ｍ個の予測解答のうち各予測解答以外の他のＭ－１個の予測解答との間の編集距離を計算し、編集距離を合計して、各予測解答の評価を取得し、Ｍ個の予測解答のうち最も評価の高い予測解答を好ましい予測解答とする複数解答融合モジュールをさらに含む。

本開示の別の態様は、メモリと、プロセッサと、プロセッサに実行するコンピュータプログラムを含み、プロセッサは、前記プログラムを実行する場合、上記方法を実現するコンピュータ装置を提供している。

本開示の別の態様は、プロセッサによって実行される際に、上記方法を実現するコンピュータ命令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体を提供している。

本開示の別の態様は、実行される際に、上記方法を実現するコンピュータ実行可能な命令を含むコンピュータプログラムを提供している。

本発明の実施例による画像質問応答方法は、入力画像及び入力質問を取得した後、入力画像における各テキスト領域の視覚情報及び位置情報を検出するとともに、視覚情報及び位置情報に基づいて、各テキスト領域の語義情報及び属性情報を決定する。上記視覚情報、位置情報、語義情報、および属性情報に基づいて入力画像を符号化することにより、入力画像の全局的な特徴を得て、入力画像の特徴情報をより一層全面的に着目して学習することができる。その上で、入力画像の全局的な特徴と入力質問の質問特徴に基づいて最終解答の予測を行うことができる。入力画像の特徴表現に対する事前の豊富化及び最適化の結果として、複雑なドキュメントを含む入力画像に対する画像質問応答過程の推論能力が効果的に高められ、本開示の実施例による画像質問応答過程は、解釈性がより向上し、より広いドキュメント分析処理シーンに適用することができる。

以下、図面を参照して本開示の実施例を説明することにより、本開示の上記および他の目的、特徴や利点は、より明らかになる。

図１は、本開示の実施例による画像質問応答方法及び装置を適用する例示的なシステムアーキテクチャを概略的に示している。図２は、本開示の実施例による画像質問応答方法のフローチャートを概略的に示している。図３Ａは、本開示の実施例による入力画像の例示的な概略図を概略的に示している。図３Ｂは、本開示の実施例による入力画像の例示的な概略図を概略的に示している。図４Ａは、本開示の実施例による画像質問応答過程の例示的な概略図を概略的に示している。図４Ｂは、本開示の実施例による符号化過程の例示的な概略図を概略的に示している。図５Ａは、本開示の別の実施例による画像質問応答方法のフローチャートを概略的に示している。図５Ｂは、本開示の別の実施例による画像質問応答方法のフローチャートを概略的に示している。図６は、本開示の実施例による画像質問応答装置のブロック図を概略的に示している。図７は、本開示の実施例によるコンピュータ装置のブロック図を概略的に示している。

以下、本開示の実施例について、図面を参照しながら説明する。しかしながら、これらの説明が例示的なものであり、本開示の範囲を限定するものではないことを理解されたい。以下の詳細な説明では、説明を容易にするために、本開示の実施例に対する全面的な理解を提供するように、多数の具体的な詳細が記載される。しかしながら、これらの具体的な詳細なしに１つ以上の実施例が実施されてもよいことは明らかである。また、以下の説明において、本開示の概念を不必要に混乱させることを避けるように、周知の構造及び技術に対する説明は省略する。

ここで使用される用語は、具体的な実施例を説明するためのものに過ぎず、本開示を限定することを意図しない。「備える」、「含む」などのここで使用される用語は、前記特徴、ステップ、操作、および／または部品の存在を示すが、１つまたは複数の他の特徴、ステップ、操作または部品の存在または追加を除外しない。

ここで使用される全ての用語（技術的及び科学的用語を含む）は、別途定義されない限り、当業者によって一般的に理解される意味を有する。ここで使用される用語は、本明細書の文脈と一致する意味を有すると解釈されるべきであり、理想的または過度に形式的に解釈されるべきではないことに留意されたい。

「Ａ、Ｂ及びＣなどのうちの少なくとも１つ」に類似する表現を使用する場合、その表現の意味が当業者によって一般的に理解されるように解釈されるべきである（例えば、「Ａ、Ｂ及びＣのうちの少なくとも１つを有するシステム」は、Ａを単独で有するシステム、Ｂを単独で有するシステム、Ｃを単独で有するシステム、Ａ及びＢを有するシステム、Ａ及びＣを有するシステム、Ｂ及びＣを有するシステム、及び／又はＡ、Ｂ、Ｃを有するシステムなどを含むが、これらに限定されない）。「Ａ、Ｂ又はＣなどのうちの少なくとも１つ」に類似する表現を使用する場合、その表現の意味が当業者によって一般的に理解されるように解釈されるべきである（例えば、「Ａ、Ｂ及びＣのうちの少なくとも１つを有するシステム」は、Ａを単独で有するシステム、Ｂを単独で有するシステム、Ｃを単独で有するシステム、Ａ及びＢを有するシステム、Ａ及びＣを有するシステム、Ｂ及びＣを有するシステム、及び／又はＡ、Ｂ、Ｃを有するシステムなどを含むが、これらに限定されない）。

本開示の実施例は、画像質問応答方法、装置、コンピュータ装置、媒体及びプログラムを提供している。画像質問応答方法は、取得過程、検出過程、決定過程、符号化過程、問題特徴抽出過程及び予測過程を含み得る。取得過程では、入力画像と入力質問を取得する。検出過程、入力画像における少なくとも１つのテキスト領域のぞれぞれの視覚情報及び位置情報を検出する。そして、決定過程を行い、上記視覚情報と位置情報に基づいて、上記少なくとも１つのテキスト領域のそれぞれの語義情報と属性情報を決定する。次に、上記視覚情報、位置情報、語義情報および属性情報に基づいて符号化過程を行い、入力画像の全局的な特徴を決定する。質問特徴抽出過程では、入力質問に基づいて質問特徴を決定する。全局的な特徴および質問特徴に基づいて予測過程が行われ、入力画像および入力質問に対する予測解答を生成することができる。

画像質問応答は、コンピュータ視覚と自然言語処理との関連付けを目標とする挑戦的なタスクである。画像質問応答タスクでは、例えば、画像および関連質問が与えられ、機械は、画像の内容に基づいて、幾つかの常識と組み合わせて、質問に対する解答を推論することが要求される。この画像の問答タスクを完成するために、機械は、視覚および言語という２つの異なるモダリティでのデータに対して総合的な理解を実現するように、クロスモーダルな理解能力を有していなければならない。画像質問応答タスクは、他の単一モダリティでのタスク（例えば画像識別、ドキュメント分類等）よりも高い要求を有する。

図１は、本開示の実施例による画像質問応答方法および装置を適用できる例示的なシステムアーキテクチャ１００を概略的に示している。図１は、当業者が本開示の技術内容を理解させるように、本開示の実施例を適用できるシステムアーキテクチャの例示に過ぎず、本開示の実施例が他の装置、システム、環境又はシナリオで使用できないことを意味するものではないことに留意されたい。

図１に示すように、本実施例によるシステムアーキテクチャ１００は、複数の端末装置１１０、ネットワーク１２０、及びサーバ１３０を含むことができる。ここで、端末装置１１０は、例えば、デスクトップ型コンピュータ、携帯型コンピュータ、スマートフォン、タブレット型コンピュータなどの各種端末装置であってもよいが、ここでは限定されない。サーバ１３０は、様々な計算能力を有する電子デバイスであってもよく、例えば、サーバまたはサーバクラスタであってもよく、ここでは限定されない。端末装置１１０は、様々な機能のソフトウェアクライアントをロードして、ソフトウェアクライアントを介してサーバ１３０と対話することができる。

一実施例において、本開示の実施例による画像質問応答方法が、端末装置１１０によって実施されることができ、相応的に、画像質問応答装置が、端末装置１１０に設けられることができることが理解される。別の実施例において、本開示の実施例による画像質問応答方法は、サーバ１３０によって実施されることができ、相応的には、画像質問応答装置は、サーバ１３０に設けられることができる。さらに別の実施例において、本発明の実施例による画像質問応答方法は、端末装置１１０及び/又はサーバ１３０と相互通信可能な他の装置によって実施されることができ、相応的には、画像質問応答装置は、他の装置に設けられることができる。

現在、画像質問応答システムは、学術界及び産業界の両方で広く研究されており、画像質問応答システムは、任意の自然言語で記述された質問及び所与の画像に対して、十分な理解及び推論を行った後、自然言語で正確に回答するように、適切なモデルを設計することを目標とする。しかし、現在の画像質問応答システムは、幾つかの課題がまだ解決されていない。例えば、ドキュメント画像（ＤｏｃｕｍｅｎｔＩｍａｇｅ）に基づくドキュメント画像質問応答（ＤｏｃｕｍｅｎｔＶｉｓｕａｌＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ，ＤｏｃＶＱＡ）シーンでは、ほとんどの方式は入力画像における文字語義のみに依存してモデリングを行い、画像におけるドキュメントの構造化情報を考慮しない。そのため、比較的簡単なドキュメント画像しか処理できず、複雑なドキュメント画像、例えば、テーブル、図形、コラム等の構造を含むドキュメント画像に対しては、処理効果が比較的悪く、解答予測の正確性が悪い。

本開示の実施例によれば、ＤｏｃＶＱＡシーンに適応される画像質問応答方法が提供される。この方法を、図面を用いて例示的に説明する。なお、以下の方法における各操作の番号は、説明の便宜上、その操作を示したものであり、各操作の実行順序を示すものと解釈してはならない。特に明記しない限り、この方法は、示された順序で完全に実行される必要はない。

図２は、本開示の実施例による画像質問応答方法のフローチャートを概略的に示している。

図２に示すように、この方法は、操作Ｓ２０１～操作Ｓ２０６を含む。

操作Ｓ２０１において、入力画像及び入力質問を取得する。

例示的には、この操作Ｓ２０１で取得される入力画像は、ドキュメント画像である。例えば、処理待ちのドキュメントをスキャン、撮影等したドキュメント画像であることができる。図３Ａ～図３Ｂは、本開示の実施例による入力画像の例示的な概略図を概略的に示している。図３Ａおよび図３Ｂでは、２つの例示における入力画像３０１をそれぞれに示している。ドキュメント画像におけるテキスト言語は、実際な需要に応じて設定されてもよく、例えば他の言語であってもよいが、ここでは制限しない。

操作Ｓ２０２において、入力画像における少なくとも１つのテキスト領域のそれぞれの視覚情報（ＶｉｓｕａｌＩｎｆｏｒｍａｔｉｏｎ）及び位置情報を検出する。

例示的には、入力画像における各テキスト領域は、例えば、入力画像における一行または複数行のテキストが占める領域に対応することができる。同じ行のテキストに大きな隙間が存在する場合、例えば、同じ行のテキストがテーブルの異なるセルに存在する場合には、各セルのテキストが占める領域を、入力画像におけるテキスト領域としてもよい。テキスト領域の検出範囲は、実際な需要に応じて調整することができ、原則として、各テキスト領域は、比較的コンパクトに分布した複数の文字を含む。図３Ｂに示す例示では、入力画像における１つのテキスト領域３０２を例に挙げて示しており、破線枠内の画像情報を当該テキスト領域３０２の視覚情報として、入力画像に対する破線枠の位置を当該テキスト領域３０２の位置情報としてもよい。

操作Ｓ２０３において、上記視覚情報及び位置情報に基づいて、上記少なくとも１つのテキスト領域のそれぞれの語義情報（ＳｅｍａｎｔｉｃＩｎｆｏｒｍａｔｉｏｎ）及び属性情報を決定する。

例示的には、各テキスト領域の語義情報は、当該テキスト領域に対する浅い語義理解および深い語義理解を示すことができる。各テキスト領域の属性情報は、入力画像における当該テキスト領域の１つ以上の属性特徴を１つ以上の次元から説明することができ、例えば段落情報、テーブル情報、手書き情報などのドキュメントの様々な構造化属性情報を含むことができる。

操作Ｓ２０４において、上記視覚情報、位置情報、語義情報及び属性情報に基づいて、入力画像の全局的な特徴を決定する。

例示的には、この操作Ｓ２０４では、入力画像を特徴符号化する過程において、入力画像における各テキスト領域の視覚情報、位置情報、語義情報、及び属性情報を総合的に考慮する。上記の情報は、入力画像におけるテキスト領域の特徴を異なる観点から説明し、入力画像を符号化する受感野（ＲｅｃｅｐｔｉｖｅＦｉｅｌｄ）が増加するため、入力画像の全局的な特徴を取得することができる。

操作Ｓ２０５において、入力質問に基づいて質問特徴を決定する。

操作Ｓ２０６において、全局的な特徴及び質問特徴に基づいて、入力画像及び入力質問に対する予測解答を生成する。

本開示の実施例による画像質問応答方法が、入力画像及び入力質問を取得した後、入力画像における各テキスト領域の視覚情報及び位置情報を検出するとともに、視覚情報及び位置情報に基づいて各テキスト領域の語義情報及び属性情報を決定することが当業者に理解されるであろう。上記視覚情報、位置情報、語義情報、および属性情報に基づいて入力画像を符号化することにより、入力画像の全局的な特徴を取得し、入力画像の特徴情報をより全面的に着目して学習することができる。その上で、入力画像の全局的な特徴と入力質問の質問特徴に基づいて最終解答の予測を行うことができる。入力画像の特徴表現に対する事前の豊富化及び最適化により、複雑なドキュメントを含む入力画像に対する画像質問応答過程の推論能力が効果的に高められ、本開示の実施例による画像質問応答処理は、解釈性が高くなり、より広いドキュメント分析処理シーンに適用することができる。

図４Ａは、本開示の実施例による画像質問応答過程の例示的な概略図を概略的に示している。

図４Ａに示すように、文字検出識別モジュール４１０、ドキュメント構造分析モジュール４２０、符号化モジュール４３０、および復号モジュール４４０を含めるネットワークモデル４００を事前に構築することができる。本開示の実施例によれば、ネットワークモデル４００が図２に示すような画像質問応答タスクを実行する能力を有するように、上記ネットワークモデル４００における各モジュールを訓練する必要がある。訓練過程において、一実施例では、ネットワークモデル４００を全体として訓練し、サンプル画像とサンプル質問を上記ネットワークモデル４００に入力し、ネットワークモデル４００の目標関数が収束を実現するまで、ネットワークモデル４００の出力とサンプルラベルとの間の差に基づいてネットワークモデル４００のパラメータを最適化することができる。ここで、サンプルラベルは、サンプル画像及びサンプル質問に対する答案である。別の実施例では、各モジュールが本開示の実施例に望ましい処理能力を備えるように、ネットワークモデル４００の各モジュールに対して別々に訓練を行うことができる。本開示の実施例による画像質問応答方法は、訓練済みのネットワークモデル４００を用いて実施することができる。以下、実施過程を例示的に説明する。

本発明の実施例によれば、図４Ａに示したように、文字検出識別モジュール４１０は文字検出モデル４１１を含む。上記操作Ｓ２０２では、入力画像における少なくとも１つのテキスト領域のそれぞれの視覚情報及び位置情報を検出する過程は、以下のようにして実施することができる。文字検出モデル４１１により入力画像４０１を検出する。文字検出モデル４１１は、入力画像４０１におけるテキスト領域を目標対象として検出し、入力画像４０１中に少なくとも１つのテキスト領域のそれぞれの検出枠（ＢｏｕｎｄｉｎｇＢｏｘ）を生成し、図４Ａに示すような破線枠を１つのテキスト領域の検出枠として見なせる。ここで、上記少なくとも１つのテキスト領域の各テキスト領域の検出枠における画像情報４０２（例えば、検出枠におけるピクチャー）は、当該テキスト領域の視覚情報を示し、各テキスト領域の検出枠の位置情報４０３（例えば、検出枠の高さ値、幅値、及び中心点の座標値）は、当該テキスト領域の位置情報を示す。本実施例で使用される文字検知モデル４１１は、直接取得した予め訓練した文字検知モデルであってもよく、或いは、目標検知モデル（例えば、ＦａｓｔｅｒＲＣＮＮ（ＦａｓｔｅｒＲｅｇｉｏｎＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、より速い領域畳み込みニューラルネットワーク）等）を構築してサンプルドキュメント画像と予定のラベルに基づいて訓練することで得られてもよい。

さらに、入力画像における各テキスト領域の語義情報を得るために、本発明の実施例によれば、図４Ａに示すように、文字検出識別モジュール４１０は、文字識別モデル４１２をさらに含むことができる。上述操作Ｓ２０３では、視覚情報及び位置情報に基づいて少なくとも１つのテキスト領域のそれぞれの語義情報を決定する過程は、以下のように実施することができる。少なくとも１つのテキスト領域の各テキスト領域について、テキスト識別モデル４１２を使用して各テキスト領域の視覚情報４０２を識別し、各テキスト領域の語義情報４０４を取得する。各テキスト領域の語義情報は、例えば、そのテキスト領域に含まれるテキスト内容として表すことができる。本実施例で用いられる文字識別モデル４１２は、直接取得される予め訓練された文字識別モデルであってもよいし、識別モデルを構築してサンプルドキュメント画像と予定のラベルに基づいて訓練して得られるものであってもよい。文字識別モデル４１２は、例えば、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、光学文字認識）技術を用いて上記の識別過程を行うことができる。

例示的には、文字検出識別モジュール４１０は、例えば、ＥＡＳＴ（ＥｆｆｉｃｉｅｎｔａｎｄＡｃｃｕｒａｔｅＳｃｅｎｅＴｅｘｔ）検出アーキテクチャに基づいて訓練して取得してもよい。

文字検出識別モジュール４１０は、各テキスト領域の視覚情報と位置情報をドキュメント構造分析モジュール４２０に出力し、ドキュメント構造分析モジュール４２０によって、入力画像に含まれるドキュメントの１つまたは複数の属性情報を分析する。

本開示の一実施例においては、入力画像における各テキスト領域の属性情報が、テキスト領域が少なくとも１つのテーブル領域内にあるか否かを示すテーブル属性情報を含むことができる。上述操作Ｓ２０３では、視覚情報及び位置情報に基づいて、少なくとも１つのテキスト領域のそれぞれの属性情報を決定する過程は、以下のように実施することができる。図４Ａに示すように、ドキュメント構造分析モジュール４２０は、テーブル検出ツール４２１を含み、テーブル検出ツール４２１によって、入力画像４０１における少なくとも一つのテーブル領域の位置情報を検出する。テーブル検出モデル４１１は、入力画像４０１におけるテーブル領域を目標対象として検出し、入力画像４０１に少なくとも１つのテーブル領域のそれぞれのテーブル検出枠を生成する。テーブル検出枠の位置情報に基づいて、相応的なテーブル領域の位置情報を決定することができる。次に、ドキュメント構造分析モジュール４２０は、各テキスト領域の位置情報と少なくとも１つのテーブル領域の位置情報に基づいて、各テキスト領域のテーブル属性情報４０５を決定する。

例示的には、検出された各テキスト領域Ａについて、当該テキスト領域Ａと検出されたいずれかのテーブル領域Ｔとの位置関係に基づいて、当該テキスト領域Ａが当該テーブル領域Ｔ内に位置するか否かを決定することで、当該テキスト領域Ａのテーブル領域Ｔに関するテーブル属性情報を決定することができる。例えば、当該テキスト領域がテーブル領域内にある場合、テキスト領域Ａのテーブル領域Ｔに関するテーブル属性情報を「ｉｓ_Ｔａｂｌｅ＝１」として示し，逆には、テキスト領域Ａのテーブル領域Ｔに関するテーブル属性情報を「ｉｓ_Ｔａｂｌｅ＝０」として示すことができる。

例えば、当該テキスト領域Ａとテーブル領域Ｔの位置領域間の重なり度合い（Ｉｎｔｅｒｓｅｃｔｉｏｎ－ｏｖｅｒ－Ｕｎｉｏｎ，ＩｏＵ）によって、両者の位置関係を決定することができる。以下のように実施することができる。テキスト領域Ａの検出枠とテーブル領域Ｔのテーブル検出枠との間の共通面積をＸ_１、テキスト領域Ａの検出枠とテーブル領域Ｔのテーブル検出枠との間の併合面積をＸ_２として算出する。Ｘ_１／Ｘ_２が第１の予定閾値より大きい場合、テキスト領域Ａがテーブル領域Ｔと重なっていること、すなわち、テキスト領域Ａがテーブル領域Ｔにあることを示す。逆に、テキスト領域Ａがテーブル領域Ｔに位置していないことを示す。

また、例えば、以下のようにして両者間の位置関係を決定してもよい。テキスト領域Ａの検出枠とテーブル領域Ｔのテーブル検出枠との共通面積をＸ_１、テキスト領域Ａの検出枠の面積をＸ_３として算出する。Ｘ_１／Ｘ_３が第２の予定閾値より大きい場合、テキスト領域Ａがテーブル領域Ｔと重なっていること、すなわち、テキスト領域Ａがテーブル領域Ｔにあることを示す。逆に、テキスト領域Ａがテーブル領域Ｔに位置していないことを示す。

本開示の一実施例において、入力画像における各テキスト領域の属性情報は、テキスト領域が手書き文字を含むか否かを示す文字属性情報を含むことができる。上述操作Ｓ２０３では、視覚情報及び位置情報に基づいて、少なくとも１つのテキスト領域のそれぞれの属性情報を決定する過程は、以下のように実施することができる。図４Ａに示すように、ドキュメント構造分析モジュール４２０は、手書き文字識別モデル４２２を更に含み、手書き文字識別モデル４２２を用いて各テキスト領域の視覚情報を識別して、各テキスト領域の文字属性情報４０６を決定し、各テキスト領域に含まれるテキストが手書きであるか否かを示す分類結果を出力する。本例において、手書き文字識別モデル４２２は、テキストが手書き体であるか否かを分類識別する予め構築された二分類モデルであってもよい。

例えば、検出された各テキスト領域Ａについて、手書き文字識別モデル４２２が当該テキスト領域Ａに含まれる文字が手書き体であることを示す分類結果１を出力する場合、テキスト領域Ａの文字属性情報を「ｉｓ_ｈａｎｄｗｒｉｔｉｎｇ＝１」として表し、逆にテキスト領域Ａの文字属性情報を「ｉｓ_ｈａｎｄｗｒｉｔｉｎｇ＝０」として表してもよい。

図４Ａに示す例では、一つのテキスト領域（例えば、入力画像４０１における破線枠で示すテキスト領域）の位置情報４０３を「[ｘ１，ｙ１，ｘ０，ｙ０]」として示し、当該テキスト領域の検出枠の高さｘ１、幅ｙ１、及び中心点の座標値（ｘ０，ｙ０）を表す。当該テキスト領域の語義情報４０４は、「名前張三……」と表されている。当該テキスト領域のテーブル属性情報４０５は「ｉｓ_ｔａｂｌｅ＝１」と表されている。当該テキスト領域の文字属性情報４０６は、「ｉｓ_ｈａｎｄｗｒｉｔｉｎｇ＝１」と表されている。

本開示の実施例によれば、入力画像における各テキスト領域の視覚情報、位置情報、語義情報および属性情報を取得した後、少なくとも１つのテキスト領域の各テキスト領域について、当該テキスト領域の視覚情報を視覚符号化（ＶｉｓｕａｌＥｍｂｅｄｄｉｎｇ、視覚埋め込み）して、当該視覚情報を表す第１の特徴を得る。当該テキスト領域の位置情報を位置符号化（ＰｏｓｉｔｉｏｎＥｍｂｅｄｄｉｎｇ、位置埋め込み）して、当該位置情報を表す第２の特徴を得る。当該テキスト領域の語義情報を単語符号化（ＴｏｋｅｎＥｍｂｅｄｄｉｎｇ、トークン埋め込み）し、当該語義情報を表す第３の特徴を得る。当該テキスト領域の属性情報を属性符号化（ＡｔｔｒｉｂｕｔｅＥｍｂｅｄｄｉｎｇ、属性埋め込み）し、この属性情報を表す第４の特徴を得る。上記第１の特徴、第２の特徴、第３の特徴及び第４の特徴は、ベクトル形式で表現されてもよい。属性情報がテーブル属性情報と文字属性情報とを含む場合、第４の特徴は、２つの特徴ベクトルを含んでもよい。

入力画像における各テキスト領域について、当該テキスト領域の第１の特徴、第２の特徴、第３の特徴及び第４の特徴を当該テキスト領域の特徴として併合することができる。例えば、上記第１の特徴、第２の特徴、第３の特徴、第４の特徴を連結（Ｃｏｎｃａｔｅｎａｔｅ）して併合することで、当該テキスト領域の特徴を取得してもよい。あるいは、第１の特徴、第２の特徴、第３の特徴及び第４の特徴をベクトル加算することにより、当該テキスト領域の特徴を取得してもよい。

引き続き図４Ａを参照すると、入力画像における各テキスト領域の特徴を符号化モジュール４３０に入力して符号化処理を行い、入力画像の全局的な特徴を取得することができる。例えば、各テキスト領域の特徴の入力形態は、図４Ｂに示すようにしてもよい。

図４Ｂは、本開示の実施例による符号化過程の例示的な概略図を概略的に示している。

図４Ｂに示すように、当該符号化モジュール４３０は、予定符号化モデル４３１を含んでもよく、当該予定符号化モデル４３１は、例えば、長短期記憶（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、ＬＳＴＭ）モデル、画像畳み込みネットワーク（ＧｒａｐｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ、ＧＣＮ）、Ｔｒａｎｓｆｏｒｍｅｒエンコーダ（ＴｒａｎｓｆｏｒｍｅｒＥｎｃｏｄｅｒ）などであってもよい。入力画像における少なくとも１つのテキスト領域のそれぞれの位置情報に基づいて、少なくとも１つのテキスト領域の配列順序を決定することができる。例えば、入力画像に４つのテキスト領域が含まれる場合、ユーザの読み順に合わせて、入力画像における各行のテキストの左から右へ、行間の上から下への順に当該４つのテキスト領域の配列順序を{Ａ_１，Ａ_３，Ａ_２，Ａ_４}に決定することができる。この配列順序を入力順序として、テキスト領域Ａ_１の特徴４０７１、テキスト領域Ａ_３の特徴４０７３、テキスト領域Ａ_２の特徴４０７２、テキスト領域Ａ_４の特徴４０７４を予定符号化モデル４３１に順次入力する。予定符号化モデル４３１を用いて上記４つのテキスト領域の特徴を順次に符号化処理し、入力画像の全局的な特徴を取得する。ここで、各テキスト領域の特徴は、いずれも相応的な第１の特徴、第２の特徴、第３の特徴及び第４の特徴を組み合わせて形成されるものである。

引き続き図４Ａを参照すると、復号モジュール４４０は、一方では入力画像の全局的な特徴を取得し、他方では入力質問４０８の質問特徴を取得する。本開示の実施例は、単語符号化（ＷｏｒｄＥｍｂｅｄｄｉｎｇ、単語埋め込み）アルゴリズム及び特徴符号化アルゴリズムを用いて、入力質問４０８を順次に符号化処理し、質問特徴ｑを取得してもよい。本例では、Ｇｌｏｖｅ単語符号化アルゴリズムとＢｉ－ＧＲＵ特徴符号化アルゴリズムを用いて質問全体の特徴表現ｑを取得する。復号モジュール４４０は、全局的な特徴および質問特徴に基づいて、入力画像および入力質問に対する予測解答４０９を生成する。以下、図５Ａ及び図５Ｂを参照して、予測解答を生成する過程を例示的に説明する。

図５Ａは、本開示の別の実施例による画像質問応答方法のフローチャートを概略的に示しており、上記操作Ｓ２０６が全局的な特徴及び質問特徴に基づいて入力画像及び入力質問に対する予測解答を生成する一実施形態を例示的に説明する。

図５Ａに示したように、当該方法は、操作Ｓ２０６１～操作Ｓ２０６２を含むことができる。

操作Ｓ２０６１では、全局的な特徴と質問特徴とを併合して融合特徴を取得する。

例示的には、本操作Ｓ２０６１では、連結併合またはベクトル加算併合の方式によって全局的な特徴と質問特徴を併合することができる。

操作Ｓ２０６２では、第１の予測モデルによって融合特徴を処理し、融合特徴に対する予測解答を取得する。

例示的には、第１の予測モデルは、サンプル画像、サンプル質問、及び第１のラベルに基づいて訓練して得られ、第１のラベルは、サンプル画像及びサンプル質問に対する答案を示す。

図５Ａに示される解答予測過程が、解答を生成する方式と呼ばれることが理解される。この方式は、上記で得られた全局的な特徴ベクトルと質問特徴ベクトルを、例えば訓練済みの循環ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）に入力し、ＲＮＮから相応の解答を出力する。当該ＲＮＮは、複数の予定解答カテゴリに対する１つの多分類器に相当する。当該方式によって生成する解答は、比較的柔軟であり、生成される予測解答は入力画像に含まれない文字であってもよい。

図５Ｂは、本開示の別の実施例による画像質問応答方法のフローチャートを概略的に示しており、上記操作Ｓ２０６が全局的な特徴及び質問特徴に基づいて入力画像及び入力質問に対する予測解答を生成する別の実施形態を例示的に説明する。

図５Ｂに示すように、当該方法は、操作Ｓ２０６１'～操作Ｓ２０６４'を含み得る。

操作Ｓ２０６１'では、全局的な特徴と質問特徴とを併合して融合特徴を取得する。本操作過程は、上記操作Ｓ２０６１と同じであるため、ここでは贅言しない。

操作Ｓ２０６２'では、第２の予測モデルによって融合特徴を処理し、融合特徴に対する解答開始位置情報を取得する。

例示的には、第２の予測モデルは、サンプル画像、サンプル質問、及び第２のラベルに基づいて訓練して得られ、第２のラベルは、サンプル画像における、サンプル画像及びサンプル質問に対する答案の開始位置情報を示す。

操作Ｓ２０６３'では、第３の予測モデルによって融合特徴を処理し、融合特徴に対する解答終了位置情報を取得する。

例示的には、第３の予測モデルは、サンプル画像、サンプル質問、及び第３のラベルに基づいて訓練して得られ、第３のラベルは、サンプル画像における、サンプル画像及びサンプル質問に対する答案の終了位置情報を示す。

操作Ｓ２０６４ 'では、解答開始位置情報、解答終了位置情報および入力画像に基づいて入力画像と入力質問に対する予測解答を決定する。

例示的には、この操作Ｓ２０６４'では、入力画像内の解答開始位置と解答終了位置との間に位置するテキスト内容を予測解答とする。

通常に、入力画像と入力質問との関連関係により、入力質問に対する予測解答が、入力画像中のテキスト内容であることが理解される。この特性に基づいて、図５Ｂに示す解答予測過程は、入力画像における解答の位置を予測する方法と呼ぶことができる。入力画像に含まれる各単語が解答の開始位置に対応するか否かを判定するための第２の予測モデル、及び入力画像に含まれる各単語が解答の終了位置に対応するか否かを判定するための第３の予測モデルを訓練してもよい。この２つのモデルは分類モデルであり得る。上記で得られた全局的な特徴符号化と質問特徴ベクトルを第２の予測モデルに入力し、第２の予測モデルによって解答の開始位置情報を出力する。上記で得られた全局的な特徴符号化と質問特徴ベクトルを第３の予測モデルに入力し、第３の予測モデルによって解答の終了位置情報を出力する。入力画像における解答開始位置と解答終了位置の間に位置するテキスト内容を解答とする。

さらに、上記各実施例に基づき、上記に用いた複数のモデルのうち、一つまたは複数のモデルの構造やパラメータが変化したりして、訓練サンプルが変化すれば、異なる画像質問応答システムが得られる。異なる問答システムは、同一の画像及び質問に対して異なる予測解答を出力する可能性がある。この場合、本開示の実施例による画像質問応答方法は、入力画像及び入力質問に対するＭ個（Ｍは２より大きい整数）の予測解答を生成する場合、Ｍ個の予測解答における各予測解答とＭ個の予測解答のうちの当該予測解答以外の他のＭ－１個の予測解答との編集距離を算出し、編集距離を合算して各予測解答の評価を取得することさらに含むことができる。Ｍ個の予測解答のうち最も評価の高い予測解答を好ましい予測解答として選択する。

図６に示すように、画像質問応答装置６００は、取得モジュール６１０、検出モジュール６２０、決定モジュール６３０、符号化モジュール６４０、質問特徴抽出モジュール６５０、及び予測モジュール６６０を含むことができる。

取得モジュール６１０は、入力画像及び入力質問を取得する。

検出モジュール６２０は、入力画像における少なくとも１つのテキスト領域のそれぞれの視覚情報及び位置情報を検出する。

決定モジュール６３０は、視覚情報および位置情報に基づいて、少なくとも１つのテキスト領域のそれぞれの語義情報および属性情報を決定する。

符号化モジュール６４０は、視覚情報、位置情報、語義情報及び属性情報に基づいて、入力画像の全局的な特徴を決定する。

質問特徴抽出モジュール６５０は、入力質問に基づいて質問特徴を決定する。

予測モジュール６６０は、全局的な特徴及び質問特徴に基づいて入力画像及び入力質問に対する予測解答を生成する。

なお、装置部分の実施例における各モジュール/ユニット/サブユニット等の実施形態、解決された技術的課題、実現された機能、及び達成された技術効果は、それぞれ方法部分の実施例における各対応するステップの実施例、解決された技術的課題、実現された機能、及び達成された技術的効果と同一又は類似であり、ここでは贅言しない。

本発明の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちのいずれか複数、またはこれらのうちの少なくとも一部の機能は、１つのモジュールで実現されることができる。本発明の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちのいずれか１つ以上は、複数のモジュールに分割して実現することができる。本開示の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちの任意の１つ以上は、少なくとも部分的に、例えばフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブル論理アレイ（ＰＬＡ）、システムオンチップ、基板上システム、パッケージ上システム、特定用途向け集積回路（ＡＳＩＣ）などのハードウェア回路として実装されてもよく、または回路を集積またはパッケージ化する他の合理的な方式のハードウェアもしくはファームウェアによって、またはソフトウェア、ハードウェア、およびファームウェアの３つの実装形態のうちの任意の１つもしくはそれらのうちの任意のいくつかの適切な組み合わせによって実装されてもよい。あるいは、本開示の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちの１つ以上は、少なくとも部分的に、実行されたときに相応的な機能を実行可能なコンピュータプログラムモジュールとして実現されてもよい。

例えば、取得モジュール６１０、検出モジュール６２０、決定モジュール６３０、符号化モジュール６４０、質問特徴抽出モジュール６５０および予測モジュール６６０のうちのいずれか複数を１つのモジュールに統合してもよいし、いずれか１つのモジュールを複数のモジュールに分割してもよい。あるいは、これらのモジュールのうちの１つ以上のモジュールの機能の少なくとも一部は、他のモジュールの機能の少なくとも一部と組み合わされて、１つのモジュールに実現され得る。本開示の実施例によれば、取得モジュール６１０、検出モジュール６２０、決定モジュール６３０、符号化モジュール６４０、質問特徴抽出モジュール６５０および予測モジュール６６０のうちの少なくとも１つは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブル論理アレイ（ＰＬＡ）、システムオンチップ、基板上システム、パッケージ上システム、特定用途向け集積回路（ＡＳＩＣ）などのハードウェア回路として少なくとも部分的に実現されてもよく、又は、回路を集積又はパッケージ化する任意の他の合理的な方法などのハードウェア若しくはファームウェア、又は、ソフトウェア、ハードウェア、及びファームウェアの３つの実現形態のうちの任意の１つ、又は、これらのうちの任意のいくつかの適切な組み合わせで実現されてもよい。あるいは、取得モジュール６１０、検出モジュール６２０、決定モジュール６３０、符号化モジュール６４０、質問特徴抽出モジュール６５０および予測モジュール６６０のうちの少なくとも１つは、少なくとも部分的に、実行されたときに相応的な機能を実行可能なコンピュータプログラムモジュールとして実装されてもよい。

図７は、本開示の実施例による、上記の方法を実施するように適合されたコンピュータ装置のブロック図を概略的に示している。図７に示すコンピュータ装置は一例に過ぎず、本開示の実施例の機能及び使用範囲に何ら制限を課すものではない。

図７に示すように、本開示の実施例によるコンピュータ装置７００は、リードオンリーメモリ（ＲＯＭ）７０２に記憶されたプログラム、又は記憶部分７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたプログラムに従って様々な適切な操作及び処理を実行することができるプロセッサ７０１を含む。プロセッサ７０１は、例えば、汎用マイクロプロセッサ（例えば、ＣＰＵ）、命令セットプロセッサ、および/または関連チップセット、および/または特定用途向けマイクロプロセッサ（例えば、特定用途向け集積回路（ＡＳＩＣ））などを含み得る。プロセッサ７０１は、キャッシュ用途のためのオンボードメモリも含み得る。プロセッサ７０１は、本開示の実施例による方法フローの異なる操作を実行するための単一の処理ユニット又は複数の処理ユニットを含んでもよい。

ＲＡＭ７０３には、装置７００の操作に必要な各種プログラムやデータが記憶される。プロセッサ７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４を介して互いに接続されている。プロセッサ７０１は、ＲＯＭ７０２及び/又はＲＡＭ７０３のプログラムを実行することにより、本発明の実施例による方法の流れによる様々な操作を実行する。なお、前記プログラムは、ＲＯＭ７０２およびＲＡＭ７０３以外のメモリに格納されていてもよい。プロセッサ７０１は、前記１つ以上のメモリに記憶されたプログラムを実行することにより、本開示の実施例による方法フローの様々な操作を実行することもできる。

本開示の実施例によれば、装置７００は、バス７０４に接続された入出力（Ｉ／Ｏ）インタフェース７０５をさらに含むことができる。また、装置７００は、Ｉ／Ｏインタフェース７０５に接続された、キーボード、マウスなどを含む入力部分７０６、例えばカソード線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）などおよびスピーカなどを含む出力部分７０７、ハードディスクなどを含む記憶部分７０８、例えばＬＡＮカード、モデムなどのネットワークインタフェースカードを含む通信部分７０９のうちの１つ以上を含んでもよい。通信部分７０９は、インターネットなどのネットワークを介して通信処理を行う。ドライバ７１０は、必要に応じて、Ｉ／Ｏインタフェース７０５に接続される。読み出されたコンピュータプログラムが、必要に応じて記憶部分７０８にインストールされるように、例えば磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア７１１は、需要に応じてドライブ７１０に実装される。

本開示の実施例によれば、本開示の実施例による方法のフローは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本開示の実施例は、コンピュータ読み取り可能な記憶媒体にインストールされたコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例で、このコンピュータプログラムは、通信部分７０９によってネットワークからダウンロードしてインストールされてもよいし、取り外し可能な媒体７１１からインストールされてもよい。このコンピュータプログラムがプロセッサ７０１によって実行されると、本開示の実施例のシステムにおいて限定した上記機能が実行される。本開示の実施例によれば、前述したシステム、デバイス、装置、モジュール、ユニット等は、コンピュータプログラムモジュールにより実現することができる。

本開示は、さらに、非一時的なコンピュータ読み取り可能な記憶媒体を提供しており、当該非一時的なコンピュータ読み取り可能な記憶媒体は、上記実施例に記載のデバイス／装置／システムに含まれてもよく、デバイス／装置／システムに組み込まれずに単独で存在してもよい。上記コンピュータ読み取り可能な記憶媒体には、一つ又は複数のプログラムが記録されており、上記一つ又は複数のプログラムが実行されると、本開示の実施例による方法を実現する。

本開示の実施例によれば、非一時的なコンピュータ読み取り可能な記憶媒体は、不揮発性のコンピュータ読み取り可能な記憶媒体であってもよく、例えば、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、携帯型コンパクトディスクＲＯＭ（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含み得るが、これらに限定されない。本開示において、非一時的なコンピュータ読み取り可能な記憶媒体は、プログラムを含む又は記憶する、任意の有形媒体であってもよく、このプログラムは、命令実行システム、装置又はデバイスによって又はそれらと関連して使用される。例えば、本開示の実施例によれば、非一時的なコンピュータ読み取り可能な記憶媒体は、前記したＲＯＭ７０２および／またはＲＡＭ７０３およびＲＡＭ７０３以外の１つ以上のメモリを含むことができる。

図面におけるフローチャート及びブロック図は、本開示の様々な実施例によるシステム、方法、及びコンピュータプログラム製品の実現可能な構造、機能及び操作を示している。この点に関して、フローチャート又はブロック図における各ブロックは、モジュール、セグメント、又はコードの一部を表すことができ、モジュール、セグメント、又はコードの一部は、特定な論理機能を実現するための１つ又は複数の実行可能命令を含む。これに代えて、別の実現では、ブロックに表記された機能は、図面に示す順序とは異なる順序で生じ得ることにも留意すべきである。例えば、連続して示される２つのブロックは、実際には、機能に応じて、実質的に並列に実行されてもよく、逆順に実行されてもよい。ブロック図又はフローチャートの各ブロック、及びブロック図又はフローチャートのブロックの組合せは、特定な機能又は操作を実行する専用ハードウェアベースのシステムで実現されてもよく、又は専用ハードウェアとコンピュータ命令との組合せにより実現されてもよいことにも留意すべきである。

当業者は、本開示に明示的に記載されていなくても、本開示の様々な実施例及び／又は特許請求の範囲に記載された特徴について様々な組合せ及び／又は結合で実施してもよいことを理解するだろう。特に、本開示の様々な実施例及び／又は特許請求の範囲に記載された特徴は、本開示の精神及び教示から逸脱することなく、様々な組合せ及び／又は結合を行うことができる。これらの組合せ及び／又は結合はいずれも本開示の範囲に含まれる。

以上、本開示の実施例を説明した。しかしながら、これらの実施例は、説明のためのものであり、本開示の範囲を限定するものではない。以上、各実施例を個別に説明したが、各実施例における各手段を適宜組み合わせて用いることができないことを意味するわけではない。本開示の範囲は、添付の特許請求の範囲及びその均等物によって限定される。当業者は、本開示の範囲から逸脱することなく、様々な変更及び修正を行うことができ、これらの変更及び修正も本開示の範囲に属する。

Claims

入力画像及び入力質問を取得することと、
前記入力画像における少なくとも１つのテキスト領域のそれぞれの視覚情報及び位置情報を検出することと、
前記視覚情報及び前記位置情報に基づいて、前記少なくとも１つのテキスト領域のそれぞれの語義情報及び属性情報を決定することと、
前記視覚情報、前記位置情報、前記語義情報、及び前記属性情報に基づいて、前記入力画像の全局的な特徴を決定することと、
前記入力質問に基づいて質問特徴を決定することと、
前記全局的な特徴および前記質問特徴に基づいて、前記入力画像および前記入力質問に対する予測解答を生成することと、を含む
画像質問応答方法。
前記入力画像における少なくとも１つのテキスト領域のそれぞれの視覚情報及び位置情報を検出することは、
文字検出モデルによって、前記入力画像を検出し、前記入力画像に前記少なくとも１つのテキスト領域のそれぞれの検出枠を生成することを含み、
前記少なくとも１つのテキスト領域における各テキスト領域の検出枠における画像情報は、前記各テキスト領域の視覚情報を表し、前記各テキスト領域の検出枠の位置情報は、前記各テキスト領域の位置情報を表す
請求項１に記載の画像質問応答方法。
前記視覚情報及び前記位置情報に基づいて、前記少なくとも１つのテキスト領域のそれぞれの語義情報及び属性情報を決定することは、
前記少なくとも１つのテキスト領域の各テキスト領域について、文字識別モデルによって、前記各テキスト領域の視覚情報を識別し、前記各テキスト領域の語義情報を取得することを含む
請求項１に記載の画像質問応答方法。
前記属性情報は、テーブル属性情報を含み、
前記視覚情報及び前記位置情報に基づいて、前記少なくとも１つのテキスト領域のそれぞれの語義情報及び属性情報を決定することは、
テーブル検出ツールによって、前記入力画像における少なくとも１つのテーブル領域の位置情報を検出することと、
前記各テキスト領域の位置情報と、少なくとも１つのテーブル領域の位置情報に基づいて、前記各テキスト領域の、前記各テキスト領域が前記少なくとも１つのテーブル領域内に位置するか否かを示すテーブル属性情報を決定することと、をさらに含む
請求項３に記載の画像質問応答方法。
前記各テキスト領域の位置情報と、少なくとも１つのテーブル領域の位置情報に基づいて、前記各テキスト領域のテーブル属性情報を決定することは、
前記各テキスト領域の位置情報と少なくとも一つのテーブル領域における各テーブル領域の位置情報とに基づいて、前記各テキスト領域と前記各テーブル領域との間の共通集合および併合集合を算出することと、
前記共通集合と前記併合集合との比率を計算することと、
前記比率が予定の閾値より大きい場合、前記各テキスト領域の前記各テーブル領域に関するテーブル属性情報を１と決定することと、
前記比率が予定の閾値以下である場合、前記各テキスト領域の前記各テーブル領域に関するテーブル属性情報を０と決定することと、を含む
請求項４に記載の画像質問応答方法。
前記属性情報は、文字属性情報を含み、
前記視覚情報及び前記位置情報に基づいて、前記少なくとも１つのテキスト領域のそれぞれの語義情報及び属性情報を決定することは、
手書き文字識別モデルによって前記各テキスト領域の視覚情報を識別して、前記各テキスト領域の、前記テキスト領域が手書き文字を含むか否かを表す文字属性情報を決定することをさらに含む
請求項３に記載の画像質問応答方法。
前記視覚情報、前記位置情報、前記語義情報及び前記属性情報に基づいて前記入力画像の全局的な特徴を決定することは、
前記少なくとも１つのテキスト領域における各テキスト領域について、前記各テキスト領域の前記視覚情報、前記位置情報、前記語義情報及び前記属性情報を、それぞれに第１の特徴、第２の特徴、第３の特徴及び第４の特徴に変換し、前記第１の特徴、前記第２の特徴、前記第３の特徴及び前記第４の特徴を、前記各テキスト領域の特徴に併合することと、
前記少なくとも１つのテキスト領域のそれぞれの位置情報に基づいて、前記少なくとも１つのテキスト領域の配列順序を決定することと、
前記配列順序に従って、予定符号化モデルによって、前記少なくとも１つのテキスト領域の特徴を順次に符号化処理して、前記入力画像の全局的な特徴を取得することと、を含む
請求項１に記載の画像質問応答方法。
前記第１の特徴、前記第２の特徴、前記第３の特徴及び前記第４の特徴を、前記各テキスト領域の特徴に併合することは、
前記第１の特徴、前記第２の特徴、前記第３の特徴、および前記第４の特徴を連結して併合し、前記各テキスト領域の特徴を取得することと、
前記第１の特徴、前記第２の特徴、前記第３の特徴及び前記第４の特徴をベクトル加算し、前記各テキスト領域の特徴を取得することと、を含む
請求項７に記載の画像質問応答方法。
前記入力質問に基づいて質問特徴を決定することは、
単語符号化アルゴリズム及び特徴符号化アルゴリズムによって前記入力質問を順次に符号化処理して前記質問特徴を取得することを含む
請求項１に記載の画像質問応答方法。
前記全局的な特徴および前記質問特徴に基づいて前記入力画像および前記入力質問に対する予測解答を生成することは、
前記全局的な特徴と前記質問特徴とを併合して融合特徴を取得することと、
サンプル画像と、サンプル質問と、前記サンプル画像及び前記サンプル質問に対する答案を表す第１のラベルとに基づいて訓練して得られた第１の予測モデルによって、前記融合特徴を処理して前記融合特徴に対する予測解答を取得することと、を含む
請求項１に記載の画像質問応答方法。
前記全局的な特徴および前記質問特徴に基づいて前記入力画像および前記入力質問に対する予測解答を生成することは、
前記全局的な特徴と前記質問特徴とを併合して融合特徴を取得することと、
サンプル画像と、サンプル質問と、前記サンプル画像における、前記サンプル画像及び前記サンプル質問に対する答案の開始位置情報を表す第２のラベルとに基づいて得られた第２の予測モデルによって、前記融合特徴を処理して前記融合特徴に対する解答開始位置情報を取得することと、
前記サンプル画像と、前記サンプル質問と、前記サンプル画像における、前記サンプル画像及び前記サンプル質問に対する答案の終了位置情報を表す第３のラベルとに基づいて得られた第３の予測モデルによって、前記融合特徴を処理して前記融合特徴に対する解答終了位置情報を取得することと、
前記解答開始位置情報、前記解答終了位置情報および前記入力画像に基づいて、前記入力画像と前記入力質問に対する予測解答を決定することと、を含む
請求項１に記載の画像質問応答方法。
前記入力画像及び前記入力質問に対する、２より大きい整数であるＭ個の予測解答を生成する場合に、
前記Ｍ個の予測解答の各予測解答と、前記Ｍ個の予測解答のうち前記各予測解答以外の他のＭ－１個の予測解答との間の編集距離を計算することと、
前記編集距離を合計して、前記各予測解答の評価を取得することと、
前記Ｍ個の予測解答のうち最も評価の高い予測解答を好ましい予測解答とすることと、をさらに含む
請求項１に記載の画像質問応答方法。
入力画像及び入力質問を取得する取得モジュールと、
前記入力画像における少なくとも１つのテキスト領域のそれぞれの視覚情報及び位置情報を検出する検出モジュールと、
前記視覚情報及び前記位置情報に基づいて、前記少なくとも１つのテキスト領域のそれぞれの語義情報及び属性情報を決定する決定モジュールと、
前記視覚情報、前記位置情報、前記語義情報、及び前記属性情報に基づいて、前記入力画像の全局的な特徴を決定する符号化モジュールと、
前記入力質問に基づいて質問特徴を決定する質問特徴抽出モジュールと、
前記全局的な特徴および前記質問特徴に基づいて、前記入力画像および前記入力質問に対する予測解答を生成する予測モジュールと、を含む
画像質問応答装置。
コンピュータ命令が記憶されたメモリと、
少なくとも１つのプロセッサと、を含み、
前記プロセッサは、前記コンピュータ命令を実行する場合、請求項１～１２のいずれか一項による方法を実現する
コンピュータ装置。
プロセッサによって実行される際に、請求項１～１２のいずれか一項による方法を実現するコンピュータ命令が記憶された
非一時的なコンピュータ読み取り可能な記憶媒体。
実行される際に、請求項１～１２のいずれか一項による方法を実現するコンピュータ命令を含むコンピュータプログラム。