JP2020190930A - 対象物検索システム、対象物検索方法および学習済モデル - Google Patents

対象物検索システム、対象物検索方法および学習済モデル Download PDF

Info

Publication number
JP2020190930A
JP2020190930A JP2019095922A JP2019095922A JP2020190930A JP 2020190930 A JP2020190930 A JP 2020190930A JP 2019095922 A JP2019095922 A JP 2019095922A JP 2019095922 A JP2019095922 A JP 2019095922A JP 2020190930 A JP2020190930 A JP 2020190930A
Authority
JP
Japan
Prior art keywords
image
statement
input
partial
command statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019095922A
Other languages
English (en)
Inventor
アリー マガスーバ
Aly Magassouba
アリー マガスーバ
孔明 杉浦
Komei Sugiura
孔明 杉浦
恒 河井
Hisashi Kawai
恒 河井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2019095922A priority Critical patent/JP2020190930A/ja
Publication of JP2020190930A publication Critical patent/JP2020190930A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

【課題】対象となる物体の候補が複数存在するような状況であっても、対象となる物体を特定できる技術を提供する。【解決手段】対象物検索システムは、特定の対象物に関する命令文を取得する命令文取得部と、命令文に関連付けられた入力画像から、当該入力画像に含まれる個々の物体を示す1または複数の第1の部分画像を抽出する画像抽出部と、命令文と、第1の部分画像の各々と、当該第1の部分画像の画像内環境を示す情報との入力を受けて、第1の部分画像の各々が命令文により特定される対象物である確率を出力する学習済モデルとを含む。学習済モデルは、画像に含まれるいずれかの物体を特定する命令文と、当該命令文により特定される物体を示す部分画像とを含むトレーニングデータセットにより学習されている。【選択図】図1

Description

本技術は、命令文の言語理解および言語理解に基づく物体探索に関する。
お年寄りや体の不自由な人の日常生活を支援するためのニーズに対して、労働力不足などの背景もあり、生活支援ロボットなどが有効な解決手段として提案されている。例えば、家庭向けサービスロボット(DSR:domestic service robot)を標準化するような取り組みも始まっている。
一方で、現時点においては、生活支援ロボットは、言語での対話能力を十分に有しておらず、生活支援ロボットに命令を与えるための手段は極めて限定されている。例えば、対象物検索タスク(object retrieval task)に関して、ユーザがさまざまな言語表現を用いることは難しく、生活支援ロボットは、ある限られた言語表現の範囲内でのみ命令を理解することができるといった程度である。
画像および言語理解を用いて対象物を推論する技術が提案されている(非特許文献1〜3)。これらの技術においては、言語情報と画像情報との間の類似性に基づいて、画像知識および言語知識を関連付けるというアプローチが採用されている。特に、非特許文献1および2は、対象物を把持するタスクに向けられており、非特許文献3は、画像内に含まれる対象物を理解するタスクに向けられている。
J. Hatori et al., "Interactively Picking Real-World Objects with Unconstrained Spoken Lnguage Instructions," in IEEE ICRA, 2018, pp. 3774-3781. M. Shridhar and D. Hsu, "Interactive visual grounding of referring expressions for human-robot interaction," in RSS, 2018. Yu L., Tan H., Bansal M. and Berg, T. L., "A joint speaker-listener-reinforcer model for referring expressions," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2017, pp. 7282-7290. J. Devlin, M. W. Chang, K. Lee, and K. Toutanova, "BERT: Pretraining of deep bidirectional transformers for language understanding," arXiv preprint arXiv:1810.04805, 2018. Y. Wu, M. Schuster, Z. Chen, Q. V. Le, M. Norouzi, W. Macherey, M. Krikun, Y. Cao, Q. Gao, K. Macherey, et al., "Google’s neural machine translation system: Bridging the gap between human and machine translation," arXiv preprint arXiv:1609.08144, 2016. K. Simonyan and A. Zisserman, "Very deep convolutional networks for large-scale image recognition," arXiv preprint arXiv:1409.1556, 2014. A. Magassouba, K. Sugiura, and H. Kawai, "A Multimodal Classifier Generative Adversarial Network for Carry and Place Tasks From Ambiguous Language Instructions," IEEE RA-L, vol. 3, no. 4, pp. 3113-3120, Oct 2018. K. Sugiura and H. Kawai, "Grounded Language Understanding for Manipulation Instructions Using GAN-Based Classification," IEEE ASRU, 2017. T. Inamura, J. T. C. Tan, K. Sugiura, T. Nagai, and H. Okada, "Development of robocup@ home simulation towards long-term large scale hri," in Robot Soccer World Cup. Springer, 2013, pp. 672-680.
現実のアプリケーションにおいては、人間が発する言語による命令だけでは、認識対象の物体を一意に特定することはできず、不確実性が残ったものとなり得る。そのため、そのような不確実性にも対応できるシステムが要望されている。
本技術は、対象となる物体の候補が複数存在するような状況であっても、対象となる物体を特定できる技術を提供することを目的とする。
本発明のある局面に従う対象物検索システムは、特定の対象物に関する命令文を取得する命令文取得部と、命令文に関連付けられた入力画像から、当該入力画像に含まれる個々の物体を示す1または複数の第1の部分画像を抽出する画像抽出部と、命令文と、第1の部分画像の各々と、当該第1の部分画像の画像内環境を示す情報との入力を受けて、第1の部分画像の各々が命令文により特定される対象物である確率を出力する学習済モデルとを含む。学習済モデルは、画像に含まれるいずれかの物体を特定する命令文と、当該命令文により特定される物体を示す部分画像とを含むトレーニングデータセットにより学習されている。
画像抽出部は、命令文に関連付けられた入力画像から、いずれかの物体が存在する区域を示す1または複数の第2の部分画像をさらに抽出するように構成されていてもよい。学習済モデルは、第1の部分画像と第2の部分画像との組み合わせの各々が命令文により特定される対象物である確率を出力してもよい。
学習済モデルを規定するパラメータは、第1の部分画像についてのクロスエントロピー損失関数と、第2の部分画像についてのクロスエントロピー損失関数とを含むコスト関数に基づいて最適化されてもよい。
学習済モデルは、命令文から第1の特徴量を抽出する第1のネットワークと、第1の部分画像および当該第1の部分画像の画像内環境を示す情報から第2の特徴量を抽出する第2のネットワークと、第1の特徴量および第2の特徴量に基づいて、命令文により特定される対象物である確率を算出する第3のネットワークとを含んでいてもよい。
第3のネットワークは、第1の特徴量および第2の特徴量の入力に対する類似性を評価する識別器と、第1の特徴量と第2の特徴量との連結結果が入力される多層パーセプトロンとを含んでいてもよい。
第3のネットワークは、第1の特徴量および第2の特徴量が入力される、敵対的生成ネットワークを含んでいてもよい。
敵対的生成ネットワークは、第2の特徴量についての条件を付して学習されてもよい。
第1のネットワークは、命令文に対してサブワード埋め込み処理を行うレイヤと、サブワード埋め込み処理が行われた結果が入力されるリカレントニューラルネットワークとを含んでいてもよい。
対象物検索システムは、命令文により特定される対象物である確率が相対的に高い複数の第1の部分画像を出力する手段と、出力された複数の第1の部分画像に対するユーザ選択に応答して、選択された第1の部分画像に対応する物体に対して物理的な作用を与えるための動作指令を生成する手段とをさらに含む。
本発明の別の局面に従う対象物検索方法は、特定の対象物に関する命令文を取得するステップと、命令文に関連付けられた入力画像から、当該入力画像に含まれる個々の物体を示す1または複数の第1の部分画像を抽出するステップと、命令文と、第1の部分画像の各々と、当該第1の部分画像の画像内環境を示す情報と学習済モデルに入力して、第1の部分画像の各々が命令文により特定される対象物である確率を出力するステップとを含む。学習済モデルは、画像に含まれるいずれかの物体を特定する命令文と、当該命令文により特定される物体を示す部分画像とを含むトレーニングデータセットにより学習されている。
本発明のさらに別の局面に従えば、対象物検索システムを構成する学習済モデルが提供される。学習済モデルは、特定の対象物に関する命令文と、命令文に関連付けられた入力画像に含まれる個々の物体を示す1または複数の第1の部分画像の各々と、当該第1の部分画像の画像内環境を示す情報との入力を受けて、第1の部分画像の各々が命令文により特定される対象物である確率を出力するものであり、画像に含まれるいずれかの物体を特定する命令文と、当該命令文により特定される物体を示す部分画像とを含むトレーニングデータセットにより学習されている。
本技術によれば、対象となる物体の候補が複数存在するような状況であっても、対象となる物体を特定できる。
本実施の形態に従う対象物検索システムのシステム概要を示す模式図である。 本実施の形態に従う対象物検索システムの処理内容の概略を説明するための図である。 本実施の形態に従う情報処理装置のハードウェア構成例を示す模式図である。 本実施の形態に従う対象物検索システムにおいて採用される推論モデルの処理内容を説明するための図である。 本実施の形態に従う対象物検索システムにおいて採用される推論モデルの改良された処理内容を説明するための図である。 本実施の形態に従う対象物検索システムが提供する推論結果の一例を示す模式図である。 本実施の形態に従う対象物検索システムにおいて利用されるトレーニングデータセットの生成手順を示すフローチャートである。 本実施の形態に従う対象物検索システムにおいて利用される物体認識技術の結果例を示す図である。 本実施の形態に従う対象物検索システムにおけるトレーニングの処理手順を示すフローチャートである。 本実施の形態に従う対象物検索システムにおける推論処理の処理手順を示すフローチャートである。
本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。
[A.システム概要]
まず、本実施の形態に従う対象物検索システム1の概要について説明する。図1は、本実施の形態に従う対象物検索システム1のシステム概要を示す模式図である。図1を参照して、対象物検索システム1は、典型的には、ロボット2と、情報処理装置100と、端末装置200とを含む。情報処理装置100は、機能モジュールとして、推論モデル40および動作指令生成部50を含む。
情報処理装置100には、ロボット2に設けられたカメラ12からの映像信号が入力される。ロボット2のカメラ12の視野は、ユーザの視野と少なくとも一部は重複しているものとする。この状況に応じて、ユーザが端末装置200に向けて任意の言語命令(発話による命令文)を与えると、端末装置200を介して情報処理装置100へ音声信号が入力される。
情報処理装置100の推論モデル40は、学習済モデルであり、端末装置200からの音声信号と、ロボット2のカメラ12からの映像信号との入力を受けて、推論結果を算出する。推論結果は、カメラ12により撮像された画像内に含まれる1または複数の対象物について、ユーザからの言語命令により指定された対象物である確率を含む。
情報処理装置100の動作指令生成部50は、推論モデル40からの推論結果を受けて、端末装置200に操作対象の対象物の候補を表示するとともに、対象物の候補のうち、ユーザにより選択された対象物を示す選択指令を端末装置200から受付ける。動作指令生成部50は、選択指令に従って、対象の対象物を決定するとともに、対応する動作指令を生成して、ロボット2へ出力する。ロボット2は、動作指令に従って対象物に対する物理的な作用を与える作用部14を駆動する。
このように、本実施の形態に従う対象物検索システム1においては、ユーザによる言語命令に応じて、画像内に存在する各対象物が言語命令によって指定された対象物である確率を推論する。対象物検索システム1は、このような推論結果を用いることで、ロボット2に対して、適切な動作指令を与えることができる。
次に、本実施の形態に従う対象物検索システム1における処理内容の概略を説明する。図2は、本実施の形態に従う対象物検索システム1の処理内容の概略を説明するための図である。図2を参照して、対象物検索システム1においては、ユーザが発した音声信号20およびロボット2に設けられたカメラ12などにより撮像された入力画像30が取得される。
推論モデル40には、音声信号20に対応する命令文22が入力される。命令文22は、音声信号20を公知の音声認識することでテキスト化することで生成できる。なお、音声信号20に代えて、ユーザがキーボードといった任意の入力デバイスを用いて、命令文22の内容を示すテキストを入力するようにしてもよい。情報処理装置100は、命令文22を取得する命令文取得機能として、音声認識の機能あるいはテキストベースの命令文22を受付ける機能を有している。
図2には、一例として、「Bring me the toy on the wagon」(そのワゴン上のそのおもちゃを取って)といった命令文22を示す。このように、命令文22は、特定の対象物に関するものであるとする。
入力画像30は、命令文22が発せられたシーンを示すものである。入力画像30からは、命令文22により操作の対象となり得る物体を示す部分画像(以下、「ターゲット画像」あるいは「ターゲット」とも称す。)と、操作の対象となり得る物体が存在し得る区域を示す部分画像(以下、「ソース画像」あるいは「ソース」とも称す。)とが抽出される。
本明細書において、「命令文」は、任意の対象物に対する任意の操作を命令するものを意味する。「操作」の内容としては、例えば、対象物を「把持する」、「取る」、「しまう」、「置く」、「移動する」といった動作が想定される。但し、これら列挙した動作に限らず、任意の操作を対象とし得る。
図2には、入力画像30から複数のターゲット32および複数のソース34が抽出されている例を示す。推論モデル40には、入力画像30から抽出された1または複数のターゲット32からなるターゲット候補36と、入力画像30から抽出された1または複数のソース34からなるソース候補38とが入力される。
推論モデル40は、命令文22、ターゲット候補36およびソース候補38の入力を受けて、命令文22による操作の対象物である「たしからしさ」(likelihood)を、ターゲット32とソース34との各組み合わせ52について算出する。図2に示す例では、算出される「たしからしさ」は、「そのワゴン上のそのおもちゃ」と指定されている対象物である確率を意味する。
このように、学習済モデルである推論モデル40は、ターゲット32とソース34との組み合わせの各々が命令文22により特定される対象物である確率を出力する。但し、ソース候補38として1つのソース34のみが含まれる場合には、情報処理装置100は、ターゲット32の各々が命令文22により特定される対象物である確率を出力することになる。
さらに、ターゲット32とソース34との組み合わせ52のうち、たしからしさが上位のものだけが推論結果54として出力されてもよい。推論結果54の内容は、端末装置200に表示され、ユーザから最終的な選択を受付けるようにしてもよい。
[B.情報処理装置100のハードウェア構成]
次に、本実施の形態に従う情報処理装置100のハードウェア構成の一例について説明する。図3は、本実施の形態に従う情報処理装置100のハードウェア構成例を示す模式図である。情報処理装置100は、典型的には、汎用コンピュータを用いて実現される。
図3を参照して、情報処理装置100は、主要なコンポーネントとして、プロセッサ102と、主メモリ104と、ディスプレイ106と、入力デバイス108と、ネットワークインターフェイス(I/F:interface)110と、光学ドライブ112と、入力インターフェイス(I/F)114と、出力インターフェイス(I/F)116と、二次記憶装置120とを含む。これらのコンポーネントは、内部バス118を介して互いに接続される。
プロセッサ102は、後述するような各種プログラムを実行することで、後述するような処理および機能を実現する演算主体であり、例えば、1または複数のCPU(Central Processing Unit)やGPU(Graphics Processing Unit)などで構成される。複数のコアを有するようなCPUまたはGPUを用いてもよい。
主メモリ104は、プロセッサ102がプログラムを実行するにあたって、プログラムコードやワークメモリなどを一時的に格納する記憶領域であり、例えば、DRAM(Dynamic Random Access Memory)やSRAM(Static Random Access Memory)などの揮発性メモリデバイスなどで構成される。
ディスプレイ106は、処理に係るユーザインターフェイスや処理結果などを出力する表示部であり、例えば、LCD(Liquid Crystal Display)や有機EL(Electroluminescence)ディスプレイなどで構成される。
入力デバイス108は、ユーザからの命令や操作などを受付けるデバイスであり、例えば、キーボード、マウス、タッチパネル、ペンなどで構成される。また、入力デバイス108としては、機械学習に必要な音声を収集するためのマイクロフォンを含んでいてもよいし、機械学習に必要な音声を収集した集音デバイスと接続するためのインターフェイスを含んでいてもよい。
ネットワークインターフェイス110は、インターネット上またはイントラネット上の任意の情報処理装置などとの間でデータを遣り取りする。ネットワークインターフェイス110としては、例えば、イーサネット(登録商標)、無線LAN(Local Area Network)、Bluetooth(登録商標)などの任意の通信方式を採用できる。
光学ドライブ112は、CD−ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)などの光学ディスク112Mに格納されている情報を読出して、内部バス118を介して他のコンポーネントへ出力する。光学ディスク112Mは、非一過的(non-transitory)な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ112が光学ディスク112Mからプログラムを読み出して、二次記憶装置120などにインストールすることで、コンピュータにより対象物検索システム1の機能を提供できるようになる。したがって、本発明の主題は、二次記憶装置120などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク112Mなどの記録媒体でもあり得る。
図3には、非一過的な記録媒体の一例として、光学ディスク112Mなどの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、MO(Magneto-Optical disk)などの光磁気記録媒体を用いてもよい。
入力インターフェイス114は、カメラなどの外部デバイスと接続され、カメラにより撮像された映像信号を取込む。出力インターフェイス116は、ロボット2などの外部デバイスと接続され、操作可能性の推論結果およびユーザからの命令などに基づいて、必要な動作指令をロボット2へ出力する。入力インターフェイス114および出力インターフェイス116は、USB(Universal Serial Bus)などの汎用的な通信インターフェイスを用いることができる。
二次記憶装置120は、プロセッサ102にて実行されるプログラム、後述するようなモデル(ニューラルネットワーク)をトレーンニングするためのトレーニングデータセット、および、モデルを規定するパラメータなどを格納するコンポーネントであり、例えば、ハードディスク、SSD(Solid State Drive)などの不揮発性記憶装置で構成される。
より具体的には、二次記憶装置120は、図示しないOS(Operating System)の他、音声認識プログラム121と、画像抽出プログラム122と、トレーニングプログラム123と、動作指令生成プログラム124と、モデルパラメータ125とを格納している。また、二次記憶装置120には、トレーニングデータセット126が格納されていてもよい。
音声認識プログラム121は、後述するように、音声信号20に対応する命令文22を生成する。画像抽出プログラム122は、入力画像に含まれる部分画像を抽出する(図4画像抽出部403に対応)。トレーニングプログラム123は、126を用いて、推論モデル40を規定するパラメータを最適化する。動作指令生成プログラム124は、動作指令生成部50(図1)を実現する。モデルパラメータ125は、学習済モデルである推論モデルを規定する1または複数のパラメータを含む。トレーニングデータセット126は、推論モデルを最適化するための教師データであり、後述するようなデータの組からなる。
これらのプログラムをプロセッサ102で実行する際に必要となるライブラリや機能モジュールの一部を、OSが標準で提供するライブラリまたは機能モジュールを用いて代替するようにしてもよい。この場合には、各プログラム単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、OSの実行環境下にインストールされることで、必要な機能を実現できる。このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。
また、これらのプログラムは、上述したようないずれかの記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。
図3には、単一のコンピュータが情報処理装置100を構成する例を示すが、これに限らず、コンピュータネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して、情報処理装置100を含む対象物検索システム1を実現するようにしてもよい。複数のコンピュータが連携する場合、一部のコンピュータがいわゆるクラウドコンピュータと称される、ネットワーク上にある不特定のコンピュータであってもよい。
コンピュータ(プロセッサ102)がプログラムを実行することで実現される機能の全部または一部を、集積回路などのハードワイヤード回路(hard-wired circuit)を用いて実現してもよい。例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などを用いて実現してもよい。
当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、適切なハードウェア構成を採用するであろう。
[C.推論モデル40(MTCM)]
(c1:概要)
次に、本実施の形態に従う対象物検索システム1において採用される推論モデル40の概要について説明する。
本実施の形態においては、推論モデル40として、MTCM(Multimodal Target-source Classifier Model)と略称するモデルを採用した場合を示す。MTCMは、上述した非特許文献1〜3に開示されるような、マルチモーダル類似性ベースの統合アプローチ(multimodal similarity-based integration approach)の改良である。
図4は、本実施の形態に従う対象物検索システム1において採用される推論モデル40の処理内容を説明するための図である。図4を参照して、命令文22を処理するネットワークである命令文処理部401には、マルチレイヤ双方向LSTM(Long short-term memory)を採用する。併せて、推論精度を高める目的で、BERTモデル(非特許文献4などを参照)を用いて、サブワード埋め込み処理を付加している。
画像情報を処理するネットワークには、CNN(Convolutional Neural Network)モデル404を採用している。
より具体的には、画像抽出部403が入力画像30を処理することで、ターゲット候補36に含まれるi番目(i∈{1,...,N})のターゲット32、および、ソース候補38に含まれるi’番目(i’∈{1,...,M})のソース34の各々について、部分画像および画像内の位置が取得される。入力画像30は、命令文22に関連付けられたものである。そして、画像抽出部403は、入力画像30に含まれる個々の物体を示す1または複数のターゲット32(部分画像)を抽出するとともに、いずれかの物体が存在する区域を示す1または複数のソース34(部分画像)を抽出する。
任意のターゲット32について、入力データセットx(i)を以下の(1)式のように示すことができる。
x(i)={xins(i),x(i),xrel(i)} ・・・(1)
但し、xinsは言語特徴量を示し、xは画像特徴量を示し、xrelは関連性特徴量を示す。以下の説明においては、添え字iを省略して、「入力データセットx」とも記載する。
画像特徴量xは、ターゲット32として抽出された部分画像に対応する。画像特徴量xは、CNNモデル404によって処理される。関連性特徴量xrelは、各ターゲット32の画像内環境(例えば、他のターゲットとの相対関係、入力画像内の位置、ソースに対する位置など)を示す情報である。
画像特徴量xの処理と並列的に、言語特徴量xinsは、埋め込み処理がされた上で、マルチレイヤ双方向LSTMによりエンコーディングされる。
言語特徴量xinsおよび画像特徴量xを処理することで得られるそれぞれの潜在表現(latent representation)同士を比較するために、3つのMLP(多層パーセプトロン:multilayer perceptron)が配置されている。
最終的に、推論モデル40からは、ターゲット32毎の「たしからしさ」を示す推論結果が出力される。このように、推論モデル40には、命令文22と、ターゲット32の各々と、ターゲット32の画像内環境を示す情報(関連性特徴量xrel)との入力を受けて、ターゲット32の各々が命令文22により特定される対象物である確率を出力する。
(c2:命令文22を処理するネットワーク)
次に、推論モデル40の命令文22を処理するネットワークについて説明する。図4を参照して、命令文処理部401には、音声信号20に対応する命令文22が入力され、入力された命令文22は、リカレントニューラルネットワークの一例としてのマルチレイヤ双方向LSTMにより処理されて、抽出された非音声特徴量oIがMLP402に入力される。
推論モデル40においては、マルチレイヤ双方向LSTMの前段に、サブワード埋め込みモデルであるBERTモデルが配置されている。サブワードモデルを用いて、マルチレイヤ双方向LSTMに入力する埋め込みベクタを初期化する。すなわち、命令文22を処理するネットワークは、命令文22に対してサブワード埋め込み処理を行うレイヤ(典型例として、BERTモデル)と、記サブワード埋め込み処理が行われた結果が入力されるリカレントニューラルネットワーク(典型例として、マルチレイヤ双方向LSTM)とを含む。
BERTモデルは、双方向トランスフォーマに基づく言語エンコーディングモデルである。BERTモデルを用いることで、フレキシブル性およびロバスト性を高めることができる。現在利用できるBERTモデルは、35億個のワードを用いてトレーニングされているため、頻出頻度の少ないワードであってもデータのスパース性は問題にはならない。
また、BERTモデルは、ワードベースのトークナイゼーション(ワードトークン)ではなく、サブワードのトークナイゼーション(サブワードトークン)を用いる。サブワードのトークナイゼーションは、ワードの一部分を用いたトークナイゼーションを意味する。例えば、以下のTable1に示すように、頻出頻度の少ないワードやミススペルされたワードに対しても、頻出頻度の高いワードを用いたトークンを生成できる。
なお、Table1において、<UNK>は、トークンを生成できないことを意味する。なお、埋め込みモデル(BERTモデル)は、推論モデル40がトレーニングされるに伴って、微調整されることになる。
BERTモデルから出力されるトークンがマルチレイヤ双方向LSTMに入力される。マルチレイヤ双方向LSTMは、公知技術であるので、ここでは詳細な説明は行わない。
さらに、マルチレイヤ双方向LSTMからの出力は、MLP402に入力される。MLP402からは、入力された命令文22の非音声特徴量oIが出力される。
このように、推論モデル40の命令文22を処理するネットワークは、命令文処理部401およびMLP402を含み、命令文22から非音声特徴量oIを抽出する。
(c3:画像情報を処理するネットワーク)
次に、推論モデル40の画像情報を処理するネットワークについて説明する。
CNNモデル404としては、例えば、非特許文献6に示されるような16層ネットワーク(VGG16)を用いて、画像特徴量をエンコーディングできる。CNNモデル404からの出力は、連結部405において関連性特徴量xrelと連結される。
ターゲット候補36に含まれるN個のターゲット32の各々と、対応する関連性特徴量xrelとについて、連結部405による連結結果が出力される。そして、すべてのターゲット32についての連結結果がMLP406に入力される。MLP406からは、ターゲット候補36に含まれる複数のターゲット32についての画像特徴量oVが出力される。
このように、推論モデル40の画像情報を処理するネットワークは、ターゲット32およびターゲット32の画像内環境を示す情報である関連性特徴量xrelから画像特徴量oVを抽出する。
(c4:推論モデル40の推論結果を生成する出力部410)
推論モデル40の推論結果Yは、以下の(2)式のように示すことができる。
Y={ytarg,ysrc} ・・・(2)
但し、ytargはターゲットについての推論結果を示し、ysrcはソースについての推論結果を示す。推論結果ytargおよびysrcは、いずれもN×M次元のベクトルとして規定される。
ターゲットについての推論結果ytargは、入力された命令文22の非音声特徴量oIと、ターゲット候補36に含まれる複数のターゲット32についての画像特徴量oVとが類似性識別器407に入力されることで算出される。
ソースについての推論結果ysrcは、入力された命令文22の非音声特徴量oIと、ターゲット候補36に含まれる複数のターゲット32についての画像特徴量oVとが連結部408において連結された結果がMLP409に入力されることで算出される。
このように、出力部410は、非音声特徴量oIおよび画像特徴量oVに基づいて、各ターゲット32が命令文22により特定される対象物である確率を算出するネットワークである。より具体的には、このネットワークは、非音声特徴量oIおよび画像特徴量oVの入力に対する類似性を評価する類似性識別器407と、非音声特徴量oIと画像特徴量oVとの連結結果が入力されるMLP408とを含む。
(c5:推論モデル40のトレーニング)
推論モデル40のコスト関数JMTCMは、以下の(3)式のように定義できる。
JMTCM=λ1Jtarg+λ2Jsrc ・・・(3)
但し、λ1およびλ2は重みパラメータであり、Jtargは、ターゲット32についてのクロスエントロピー損失関数であり、Jsrcは、ソース34についてのクロスエントロピー損失関数である。クロスエントロピー損失関数JtargおよびJsrcは、以下の(4−1)および(4−2)式のように定義できる。
但し、y* targ_nmおよびy* src_nmは、n番目のサンプルのm番目の次元についてのラベル(正解)を示し、ytarg_nmおよびysrc_nmは、n番目のサンプルのm番目の次元についての推論結果を示す。
図4に示される推論モデル40は、予め用意されたトレーニングデータセット126に対して、上述した(3)式で定義されるコスト関数JMTCMが最小になるようにパラメータを最適化することで構成される。このように、推論モデル40を規定するパラメータは、ターゲット32についてのクロスエントロピー損失関数Jtargと、ソース34についてのクロスエントロピー損失関数Jsrcとを含むコスト関数に基づいて最適化されることになる。
[D.推論モデル40(MTCM−GAN)]
(d1:概略)
上述したMTCMからなる推論モデル40に対して、敵対的生成ネットワーク(GAN:generative adversarial nets)を付加することで、トレーニングデータを増大させて、識別性能を高めることもできる。以下、MTCMおよびGANからなる推論モデル40(以下、「MTCM−GAN」とも記載する。)について説明する。
先に、GANについて概略する。GANフレームワークは、生成器(generator)Gおよび識別器(discriminator)Dの2つの敵対的ネットワークで構成される。生成器Gは、所与の分布データを模倣することで疑似データを生成する。並行して、識別器Dは、入力データが真(real)であるか偽(fake)であるかを識別(推論)する。これらのネットワークの目的として、生成器Gはより真に近いデータを生成するようになり、一方で、識別器Dはその識別能力(推論能力)を向上させる。
生成器Gは、正規分布からランダムにサンプルされた複数次元の入力z(ノイズ)を用いて、疑似サンプルxfakeを生成する。真正サンプルxrealと疑似サンプルxfakeとを識別するために、ソースフラグS∈{real,fake}に応じて、入力x=xrealまたはx=xfakeが識別器Dには選択的に入力される。識別器Dの出力は、推論確率pD(S=real|x)=D(x)となる。生成器Gの損失関数JGおよび識別器Dの損失関数JDは、以下の(5−1)式で定義される損失関数JSを用いて、(5−2)および(5−3)式のように定義できる。これらの損失関数を用いて、GANのパラメータが最適化される。
(d2:MTCM−GAN)
GANのデータ増大特性を利用して、推論モデル40にデータ増大および識別を同時に行う機能を付加した改良例について説明する(非特許文献7および非特許文献8など参照)。
図5は、本実施の形態に従う対象物検索システム1において採用される推論モデル40の改良された処理内容を説明するための図である。図5を参照して、MTCM−GANは、図4に示す推論モデル40の推論結果を生成する出力部410に代えて、出力部420を有している。推論モデル40の出力部420以外の部分は、図4と同様であるので、詳細な説明は繰り返さない。
出力部420は、連結部421,422と、生成器423と、選択部424と、識別器425とを含む。生成器423および識別器425が敵対的ネットワークを構成する。出力部420においては、生成器423により生成される疑似データは識別器425の識別能力を向上させる。識別器425は、真正サンプルxrealと疑似サンプルxfakeとを識別するだけではなく、候補となるターゲットの「たしからしさ」を推論することで識別タスクも実行することになる。
そのため、出力部420の識別器425は、推論確率pD(S)に加えて、第2の出力として、各ターゲットが命令文22による操作の対象物である確率を示す推論確率pD(ytarg)を出力する。
また、識別器425のコスト関数JDは、以下の(6)式のように定義できる。
JD=JS+λJ ・・・(6)
但し、λは重みパラメータであり、Jは上述した(5−1)式において定義したクロスエントロピー損失関数である。
MTCMの推論モデル40の初期状態を考慮すると、図5に示される出力部420の識別器425へ入力されるデータセットは、以下の(7)式のように設定できる。
xGAN={xreal=(oV,oI),xfake=(z,oV)} ・・・(7)
このように、出力部420は、非音声特徴量oIおよび画像特徴量oVが入力される、敵対的生成ネットワークを含む。敵対的生成ネットワークを用いることで、識別性能を高めることもできる。
(d3:条件付きMTCM−GAN)
図5に示すMTCM−GANにおいて、生成器423に対して画像特徴量oVについての条件を付してもよい。これは、生成器423および識別器425が全結合ネットワークであるとともに、画像特徴量oVが、生成器423(真正サンプルxrealを通じて)および識別器425の両方に入力されるからである。すなわち、敵対的生成ネットワーク(出力部420)は、画像特徴量oVについての条件を付して学習されてもよい。
より具体的には、識別器425は、入力ソースがいずれであるかを推論するのに加えて、組み合わせ(oI,oV)が正しいものであるか否かを推論する。一方、生成器423は、正解/不正解の組み合わせ(oI,oV)を疑似データとして生成する。そこで、同一のシーンのランダムに選択された不正解のターゲットjを考慮しつつ、各ターゲットiについて、正解の特徴量の組み合わせ(oI(i),oV(i))および不正解の特徴量の組み合わせ(oI(i),oV(j))を用意し、これを用いてトレーニングを行うようにしてもよい。
[E.推論結果の出力例]
次に、本実施の形態に従う対象物検索システム1による推論結果の出力例について説明する。本実施の形態に従う対象物検索システム1は、ターゲット32とソース34との組み合わせの各々について、命令文22による操作の対象物である「たしからしさ」(すなわち、確率)を算出できる。
ターゲット32とソース34との組み合わせについての確率、あるいは、ターゲット32についての確率をユーザに提示するようにしてもよい。
図6は、本実施の形態に従う対象物検索システム1が提供する推論結果の一例を示す模式図である。図6を参照して、対象物検索システム1は、端末装置200のスクリーン上などに推論結果を含む結果表示300を提供することができる。結果表示300は、シーン(入力画像30)から抽出されたターゲット32の各々について、命令文22による操作の対象物である確率60が表示されている。
図6に示すように、結果表示300にはターゲット32毎の確率60が表示されているので、ユーザは、意図したターゲット32をより容易に選択できる。また、算出される確率を定量的に評価できるので、しきい値などの条件に基づいて、対象となるターゲット32を自動的に選択することができる。
[F.処理手順]
次に、本実施の形態に従う対象物検索システム1における処理手順について説明する。
(f1:トレーニングデータセット126の生成)
図7は、本実施の形態に従う対象物検索システム1において利用されるトレーニングデータセット126の生成手順を示すフローチャートである。図7に示す各ステップは、コンピュータにより実行されてもよいし、一部をユーザ自身が実行してもよい。
図7を参照して、ユーザは、シーンを示す1または複数の入力画像を取得する(ステップS100)。入力画像は、現実の室内を撮像することで取得してもよいし、画像共有サイトなどから任意にダウンロードすることで取得してもよい。
続いて、取得された1または複数の入力画像のうち1つを選択し(ステップS102)、選択された入力画像から物体を示す1または複数の領域(ターゲット32)を抽出する(ステップS104)。抽出された1または複数のターゲット32のうち1つを選択し(ステップS106)、選択されたターゲット32が存在する区域を示す部分画像(ソース34)を抽出する(ステップS108)。さらに、選択されたターゲット32に対して、対応する物体の名称をラベルとして付与する(ステップS110)。併せて、選択されたターゲット32とシーンとの関連性を示す情報(関連性特徴量xrel)を設定する(ステップS112)。
ステップS104およびS110に関して、入力画像に対して公知の物体認識技術を用いて自動的にターゲット32となり得る領域を抽出するようにしてもよい。
図8は、本実施の形態に従う対象物検索システム1において利用される物体認識技術の結果例を示す図である。図8に示すように、入力された画像に対して、物体が存在する領域が特定および抽出されるとともに、特定された物体を示すラベル(例えば、物品名)が自動的に抽出される。このような抽出結果を用いて、ターゲット32および対応するラベルのデータセットを自動的に生成できる。
このような物体認識技術としては、SSD(Single Shot MultiBox Detector)やYOLO(You Only Look Once)などのアルゴリズムを用いることができる。
あるいは、領域抽出およびラベル付与を手動で行うようにしてもよい。さらにあるいは、公知のアルゴリズムを用いて自動的に領域を抽出した上で、手動でラベルを付与するようにしてもよい。
また、ソース34については、ターゲット32を囲むような領域を抽出するようにしてもよい。
ステップS112に関して、抽出したターゲット32とシーンとの関連性を示す情報としては、例えば、「右下」や「左上」といった自然言語表現であってもよいし、位置の情報を示す符号であってもよい。
さらに、選択されたターゲット32に関する1または複数の命令文22を取得する(ステップS114)。1または複数の命令文22は、ユーザが任意に考えて設定してもよい。例えば、いわゆるクラウドワーカに対して入力画像を提供するとともに、対応する1または複数の命令文22を応答してもらうような形態が想定できる。
ステップS106〜S114の処理によって、1つの入力画像に含まれる1つのターゲット32に対応付けられる、ラベル、ソース34、関連性特徴量xrel、命令文22からなるデータセットを取得できる。
選択された入力画像に含まれるターゲット32のすべてについて処理が完了したか否かが判断される(ステップS116)。選択された入力画像に含まれるターゲット32のうち処理が完了していないものがあれば(ステップS116においてNO)、新たなターゲット32が選択され(ステップS118)、ステップS108以下の処理が繰り返される。
選択された入力画像に含まれるすべてのターゲット32について処理が完了していれば(ステップS116においてYES)、取得された入力画像のすべてについて処理が完了したか否かが判断される(ステップS120)。取得された入力画像のうち処理が完了していないものがあれば(ステップS120においてNO)、新たな入力画像が選択され(ステップS122)、ステップS104以下の処理が繰り返される。
取得されたすべての入力画像について処理が完了していれば(ステップS120においてYES)、ステップS106〜S114の処理によって得られるデータセットがトレーニングデータセット126として出力される(ステップS124)。そして、処理は終了する。
図7に示すトレーニングデータセット126の生成手順によれば、各入力画像に含まれる各ターゲット32に対応付けられる、ラベル、ソース34、関連性特徴量xrel、命令文22からなるデータセットを取得できる。各トレーニングデータセット126には、ターゲット32およびソース34の位置および大きさの情報を含めるようにしてもよい。
(f2:推論モデル40のトレーニング)
図9は、本実施の形態に従う対象物検索システム1におけるトレーニングの処理手順を示すフローチャートである。図9に示す各ステップは、情報処理装置100のプロセッサ102がトレーニングプログラム123を実行することで実現されてもよい。
図9を参照して、情報処理装置100は、予め用意されたトレーニングデータセット126のうち1つのデータセットを選択し(ステップS200)、選択されたデータセットから入力データセットxおよび対応する正解ラベル(y* targおよびy* srcなど)を生成する(ステップS202)。なお、MTCM−GANからなる推論モデル40を採用する場合には、正解ラベルとして、非音声特徴量oIおよび画像特徴量xを用いて、推論確率pD(S)および推論確率pD(ytarg)を算出してもよい。
情報処理装置100は、予め用意されたトレーニングデータセット126のすべてについての処理が完了したか否かを判断する(ステップS204)。予め用意されたトレーニングデータセット126のうち処理が完了していないものがあれば(ステップS204においてNO)、新たなデータセットが選択され(ステップS206)、ステップS202以下の処理が繰り返される。
予め用意されたトレーニングデータセット126に含まれるすべてのデータセットについて処理が完了していれば(ステップS204においてYES)、情報処理装置100は、生成された入力データセットxを推論モデル40に入力するとともに、算出される推論結果と対応する正解ラベルとの誤差に基づいて、推論モデル40のモデルパラメータを最適化する(ステップS208)。すなわち、学習済モデルである推論モデル40は、入力画像に含まれるいずれかの物体を特定する命令文22と、命令文22により特定されるターゲット32(物体を示す部分画像)とを含むトレーニングデータセット126により学習されることで、生成される。
より具体的には、推論モデル40のモデルパラメータの最適化には、上述したようなクロスエントロピー損失関数が用いられる。
なお、バッチノーマリゼーションやドロップアウトなどの公知の加速化手法を採用できる。
(f3:推論モデル40を用いた推論処理)
図10は、本実施の形態に従う対象物検索システム1における推論処理の処理手順を示すフローチャートである。図10に示す各ステップは、情報処理装置100のプロセッサ102が各種プログラムを実行することで実現されてもよい。
図10を参照して、情報処理装置100は、端末装置200から音声信号20が入力されると(ステップS300)、入力された音声信号20を音声認識してテキストベースの命令文22を取得する(ステップS302)。このように、情報処理装置100は、特定の対象物に関する命令文22を取得する。
並行して、情報処理装置100は、命令文22に関連付けられた入力画像30から、入力画像30に含まれる個々の物体を示す1または複数のターゲット32(部分画像)を抽出するとともに、いずれかの物体が存在する区域を示す1または複数のソース34(部分画像)を抽出する。より具体的には、情報処理装置100は、入力画像30を取得し(ステップS304)、取得した入力画像30から1または複数のターゲット32および1または複数のソース34を抽出する(ステップS306)。
情報処理装置100は、ステップS306において抽出したいずれかのターゲット32といずれかのソース34との組み合わせを選択する(ステップS308)とともに、選択した組み合わせにおける関連性特徴量xrelを決定する(ステップS310)。
そして、情報処理装置100は、命令文22と、ターゲット32の各々と、ターゲット32の画像内環境を示す情報とを学習済モデルである推論モデル40に入力して、ターゲット32の各々が命令文22により特定される対象物である確率を出力する。すなわち、情報処理装置100は、情報処理装置100は、命令文22(ステップS302)、選択した組み合わせを構成するターゲット32(ステップS308)および選択した組み合わせにおける関連性特徴量xrel(ステップS310)を推論モデル40に入力し、選択した組み合わせについての推論結果を算出する(ステップS312)。
情報処理装置100は、ステップS306において抽出したターゲット32とソース34とのすべての組み合わせについて推論結果の算出が完了したか否かを判断する(ステップS314)。推論結果の算出が完了していない組み合わせが存在していれば(ステップS314においてNO)、情報処理装置100は、ターゲット32とソース34との新たな組み合わせを選択し(ステップS316)、ステップS310以下の処理を実行する。
すべての組み合わせについて推論結果の算出が完了していれば(ステップS314においてYES)、情報処理装置100は、推論結果のスコアが上位の1または複数の組み合わせを選択して、選択された組み合わせを含む画面を端末装置200に表示する(ステップS318)。このように、情報処理装置100は、命令文22により特定される対象物である確率が相対的に高い複数のターゲット32(および、対応するソース34)を出力する。
情報処理装置100は、端末装置200からユーザの選択指令を受けると(ステップS320)、選択指令により指定されたターゲット32を対象として動作指令を生成する(ステップS322)。このように、情報処理装置100は、出力された複数のターゲット32(および、対応するソース34)に対するユーザ選択に応答して、選択されたターゲット32に対応する物体に対して物理的な作用を与えるための動作指令を生成する。なお、生成された動作指令は、ロボット2などへ出力されてもよい。
[G.評価結果]
次に、本実施の形態に従う対象物検索システム1の性能を評価した結果例を示す。
(g1:PFN−PIC)
まず、PFN−PICデータセット(非特許文献1)を用いて、本実施の形態に従う対象物検索システム1の性能を評価した。上述したように、推論モデル40としては、MTCM、MTCMに敵対的生成ネットワーク(GAN)を付加したMTCM−GAN、および、MTCM−GANに対して条件を付したモデルの3種類を採用可能である。それぞれのモデルについて、非特許文献1に開示される手法との比較を含めて評価を行った。
より具体的には、PFN−PICデータセットのうち89861組のデータセットを用いて推論モデル40をトレーニングするとともに、別の898組のデータセットを用いて評価を行った。
なお、PFN−PICデータセットは、ピックアンドプレイスのタスクに向けられたものであり、上から見て4つのボックスのいずれかに配置された対象物を見つけることが想定されている。各ボックスをソース34と見なし、対象物をターゲット32と見なして評価を行った。
命令文22としては、例えば、"Grab the black mug and put it in the lower right box."(黒いマグをつかんで右下のボックスに入れなさい。)といった、対象となるターゲット32およびソース34を含むものを用いた。
本実施の形態に従う対象物検索システム1においては、ターゲット32とソース34との組み合わせ毎、あるいは、ターゲット32毎に、命令文22による操作の対象物である「たしからしさ」(確率)を算出できる。そのため、複数の物体が命令文22による操作の対象物になり得る(すなわち、命令文22が不確実性を含んでいる)場合であっても、算出される確率に基づいて処理が可能である。
これに対して、非特許文献1に開示される手法は、命令文22による操作の対象物は1つであることが前提となっており、複数の物体が対象物になり得ることは何ら想定されていない。
非特許文献1は、マルチモーダル類似性ベースの手法であり、類似性の正確性(類似性についての正答率)を評価した。この類似性の正確性は、推論モデル40としてMTCMを採用した場合に、類似性識別器407から出力されるターゲットについての推論結果ytarg(図4参照)に相当する。Table1においては、類似性の正確性に関しては、非特許文献1の手法とMTCMとを比較している。
本実施の形態に従う対象物検索システム1においては、与えられた命令文22の対象となるターゲット32以外に1または複数の不正解のターゲット32を用意した場合の正確性を評価した(領域毎の正確性)。パラメータγは、不正解のターゲット32の数を示す。
Table2に示すように、推論モデル40としてMTCMを採用した場合であっても、非特許文献1に開示される手法に比較して改善効果を見ることができる。さらに、条件付きMTCM−GANを推論モデル40として採用することで、最も高い識別性能が発揮されていることが分かる。
(g2:WRS−VS)
次に、World Robot Summit 2018 Virtual Space(以下、「WRS−VS」とも称す。)challengeで利用されたデータセットを用いても、本実施の形態に従う対象物検索システム1の性能を評価した。WRS−VSで用いられたデータセットは、SIGVerseに基づくものである(非特許文献9など参照)。
より具体的には、WRS−VSデータセットのうち1010組のデータセットを用いて推論モデル40をトレーニングするとともに、別の37組のデータセットを用いて評価を行った結果をTable3に示す。なお、パラメータγは、不正解のターゲット32の数を示す。
Table3に示すように、推論モデル40として、条件付きMTCM−GANを推論モデル40として採用することで、最も高い識別性能が発揮されていることが分かる。
[H.変形例]
本実施の形態に従う対象物検索システム1(推論モデル40)を十分に大きいトレーニングデータセットを用いてトレーニングすることで、汎化性能を高めることができる。この場合、トレーニングによって得られたモデルパラメータのみを配布するようにしてもよい。
上述の説明においては、タスクが実行される場所にシステムを配置する、いわゆるオンプレミス環境に適した処理例を示すが、これに限らず、コンピュータネットワーク上に配置された1または複数のサーバを用いて、タスクを処理する、いわゆるクラウドサービス環境を採用してもよい。
本実施の形態に従う推論モデル40は、要求されるタスクの内容や実行環境などに応じて適宜適切な実装が可能である。例えば、推論モデル40を別のモデルの一部として組み込む、あるいは、推論モデル40と別のモデルとを組み合わせるといった実装形態が可能である。
[I.まとめ]
人間が発する言語による命令だけでは、認識対象の物体を一意に特定することはできず、不確実性が残ったものとなり得えるが、本実施の形態に従えば、対象となる物体の候補が複数存在するような状況であっても、対象となる物体である確率を評価しつつ、対象となる物体を容易に特定できる。
今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 対象物検索システム、2 ロボット、12 カメラ、14 作用部、20 音声信号、22 命令文、30 入力画像、32 ターゲット、34 ソース、36 ターゲット候補、38 ソース候補、40 推論モデル、50 動作指令生成部、52 組み合わせ、54 推論結果、60 確率、100 情報処理装置、102 プロセッサ、104 主メモリ、106 ディスプレイ、108 入力デバイス、110 ネットワークインターフェイス、112 光学ドライブ、112M 光学ディスク、114 入力インターフェイス、116 出力インターフェイス、118 内部バス、120 二次記憶装置、121 音声認識プログラム、122 画像抽出プログラム、123 トレーニングプログラム、124 動作指令生成プログラム、125 モデルパラメータ、126 トレーニングデータセット、200 端末装置、300 結果表示、401 命令文処理部、402,406,409 MLP、403 画像抽出部、404 モデル、405,408,421,422 連結部、407 類似性識別器、410,420 出力部、423 生成器、424 選択部、425 識別器。

Claims (6)

  1. 特定の対象物に関する命令文を取得する命令文取得部と、
    前記命令文に関連付けられた入力画像から、当該入力画像に含まれる個々の物体を示す1または複数の第1の部分画像を抽出する画像抽出部と、
    前記命令文と、前記第1の部分画像の各々と、当該第1の部分画像の画像内環境を示す情報との入力を受けて、前記第1の部分画像の各々が前記命令文により特定される対象物である確率を出力する学習済モデルとを備え、
    前記学習済モデルは、画像に含まれるいずれかの物体を特定する命令文と、当該命令文により特定される物体を示す部分画像とを含むトレーニングデータセットにより学習されている、対象物検索システム。
  2. 前記画像抽出部は、前記命令文に関連付けられた前記入力画像から、いずれかの物体が存在する区域を示す1または複数の第2の部分画像をさらに抽出するように構成されており、
    前記学習済モデルは、前記第1の部分画像と前記第2の部分画像との組み合わせの各々が前記命令文により特定される対象物である確率を出力する、請求項1に記載の対象物検索システム。
  3. 前記学習済モデルを規定するパラメータは、前記第1の部分画像についてのクロスエントロピー損失関数と、前記第2の部分画像についてのクロスエントロピー損失関数とを含むコスト関数に基づいて最適化される、請求項2に記載の対象物検索システム。
  4. 前記学習済モデルは、
    前記命令文から第1の特徴量を抽出する第1のネットワークと、
    前記第1の部分画像および当該第1の部分画像の画像内環境を示す情報から第2の特徴量を抽出する第2のネットワークと、
    前記第1の特徴量および前記第2の特徴量に基づいて、前記命令文により特定される対象物である確率を算出する第3のネットワークとを含む、請求項1〜3のいずれか1項に記載の対象物検索システム。
  5. 特定の対象物に関する命令文を取得するステップと、
    前記命令文に関連付けられた入力画像から、当該入力画像に含まれる個々の物体を示す1または複数の第1の部分画像を抽出するステップと、
    前記命令文と、前記第1の部分画像の各々と、当該第1の部分画像の画像内環境を示す情報とを学習済モデルに入力して、前記第1の部分画像の各々が前記命令文により特定される対象物である確率を出力するステップとを備え、
    前記学習済モデルは、画像に含まれるいずれかの物体を特定する命令文と、当該命令文により特定される物体を示す部分画像とを含むトレーニングデータセットにより学習されている、対象物検索方法。
  6. 対象物検索システムを構成する学習済モデルであって、
    前記学習済モデルは、
    特定の対象物に関する命令文と、前記命令文に関連付けられた入力画像に含まれる個々の物体を示す1または複数の第1の部分画像の各々と、当該第1の部分画像の画像内環境を示す情報との入力を受けて、前記第1の部分画像の各々が前記命令文により特定される対象物である確率を出力するものであり、
    画像に含まれるいずれかの物体を特定する命令文と、当該命令文により特定される物体を示す部分画像とを含むトレーニングデータセットにより学習されている、学習済モデル。
JP2019095922A 2019-05-22 2019-05-22 対象物検索システム、対象物検索方法および学習済モデル Pending JP2020190930A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019095922A JP2020190930A (ja) 2019-05-22 2019-05-22 対象物検索システム、対象物検索方法および学習済モデル

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019095922A JP2020190930A (ja) 2019-05-22 2019-05-22 対象物検索システム、対象物検索方法および学習済モデル

Publications (1)

Publication Number Publication Date
JP2020190930A true JP2020190930A (ja) 2020-11-26

Family

ID=73453737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019095922A Pending JP2020190930A (ja) 2019-05-22 2019-05-22 対象物検索システム、対象物検索方法および学習済モデル

Country Status (1)

Country Link
JP (1) JP2020190930A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022089806A (ja) * 2020-12-04 2022-06-16 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング 車両の動作プロファイルのモデリング
JP2024506452A (ja) * 2021-01-12 2024-02-14 インターディジタル・シーイー・パテント・ホールディングス・ソシエテ・パ・アクシオンス・シンプリフィエ 実世界デバイスを制御するためのコマンドを有効にする拡張現実方法及びシステム
JP2024513884A (ja) * 2021-04-05 2024-03-27 エヌイーシー ラボラトリーズ アメリカ インク 訓練データのための少数クラス例の生成
WO2024237323A1 (ja) * 2023-05-17 2024-11-21 本田技研工業株式会社 発話に対する画像内の領域を予測する情報処理装置、情報処理方法、学習方法、及び移動体
US12361717B2 (en) 2022-08-25 2025-07-15 Honda Motor Co., Ltd. Mobile object control device, mobile object control method, training device, training method, generation device, and storage medium

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022089806A (ja) * 2020-12-04 2022-06-16 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング 車両の動作プロファイルのモデリング
JP7836482B2 (ja) 2020-12-04 2026-03-27 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング 車両の動作プロファイルのモデリング
JP2024506452A (ja) * 2021-01-12 2024-02-14 インターディジタル・シーイー・パテント・ホールディングス・ソシエテ・パ・アクシオンス・シンプリフィエ 実世界デバイスを制御するためのコマンドを有効にする拡張現実方法及びシステム
JP7844482B2 (ja) 2021-01-12 2026-04-13 インターディジタル・シーイー・パテント・ホールディングス・ソシエテ・パ・アクシオンス・シンプリフィエ 実世界デバイスを制御するためのコマンドを有効にする拡張現実方法及びシステム
JP2024513884A (ja) * 2021-04-05 2024-03-27 エヌイーシー ラボラトリーズ アメリカ インク 訓練データのための少数クラス例の生成
JP7625096B2 (ja) 2021-04-05 2025-01-31 エヌイーシー ラボラトリーズ アメリカ インク 訓練データのための少数クラス例の生成
US12361717B2 (en) 2022-08-25 2025-07-15 Honda Motor Co., Ltd. Mobile object control device, mobile object control method, training device, training method, generation device, and storage medium
WO2024237323A1 (ja) * 2023-05-17 2024-11-21 本田技研工業株式会社 発話に対する画像内の領域を予測する情報処理装置、情報処理方法、学習方法、及び移動体

Similar Documents

Publication Publication Date Title
US10796098B2 (en) Instruction understanding system and instruction understanding method
US12518512B2 (en) Training vision models with unified contrastive learning
US10691899B2 (en) Captioning a region of an image
US11409791B2 (en) Joint heterogeneous language-vision embeddings for video tagging and search
JP2020190930A (ja) 対象物検索システム、対象物検索方法および学習済モデル
CN112487217B (zh) 跨模态检索方法、装置、设备及计算机可读存储介质
JP7257585B2 (ja) 深層cca及び能動ペアワイズクエリを用いるマルチモーダル検索及びクラスタリングのための方法
Magassouba et al. Understanding natural language instructions for fetching daily objects using gan-based multimodal target–source classification
CN115221369A (zh) 视觉问答的实现方法和基于视觉问答检验模型的方法
CN110263218B (zh) 视频描述文本生成方法、装置、设备和介质
WO2023091227A1 (en) Pre-training of computer vision foundational models
Xian et al. Generalized few-shot video classification with video retrieval and feature generation
WO2022030714A1 (en) User classification based on user content viewed
KR20230062430A (ko) 스토리 기반 이미지 시퀀스 결정 방법, 장치 및 시스템
CN117009560A (zh) 图像处理方法、装置、设备及计算机存储介质
Madureira et al. Instruction clarification requests in multimodal collaborative dialogue games: Tasks, and an analysis of the CoDraw dataset
CN115130677A (zh) 一种训练分类模型的方法、装置、计算机设备及存储介质
Dey et al. Recognition of Wh-question sign gestures in video streams using an attention driven C3D-BiLSTM network
CN112434629B (zh) 一种在线时序动作检测方法及设备
CN116306612A (zh) 一种词句生成方法及相关设备
WO2024066927A1 (zh) 图像分类模型的训练方法、装置及设备
CN120671011A (zh) 使用多模态大型语言模型进行分类
US11403556B2 (en) Automated determination of expressions for an interactive social agent
CN113426139A (zh) 一种信息推荐方法、装置、计算机设备及存储介质
CN116868203A (zh) 利用自适应梯度裁剪的神经网络