WO2023007544A1

WO2023007544A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2023007544A1
Application number: PCT/JP2021/027527
Authority: WO
Inventors: サラ，アギレス
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2023-02-02
Anticipated expiration: 2024-01-26
Also published as: JP7087220B1; US20240202532A1; EP4152235A4; EP4152235A1; JPWO2023007544A1

Abstract

分類装置（１）は、オブジェクトに関連する複数のモダリティと前記オブジェクトを識別する情報とを取得する取得手段（１１）と、前記複数のモダリティそれぞれの特徴値を生成する特徴生成手段（１２）と、前記複数のモダリティそれぞれの特徴値と前記オブジェクトを識別する情報に基づいて、前記複数のモダリティそれぞれに対応する重みを導出する導出手段（１３）と、前記複数のモダリティそれぞれの特徴値を、前記対応する重みで重みづけして連結した連結値から、前記オブジェクトの属性を予測する予測手段（１４）と、を有する。

Description

情報処理装置、情報処理方法、およびプログラム

　本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、所与のオブジェクトに関連する複数の情報から、当該オブジェクトの属性を予測する技術に関する。

　深層学習をはじめとする機械学習は、複雑な識別や推定を高精度に実現する手法として知られている。また、機械学習の分野において、画像、テキスト、音声、およびセンサ値等である、複数のモダリティを組み合わせて、任意の事象／属性を識別するマルチモーダル深層学習の利用が注目されている。

　一方、近年、インターネットを使って商品の販売を行う電子商取引（Ｅ－ｃｏｍｍｅｒｃｅ／ｅコマース）が盛んに実施されており、そのような電子商取引の実施のためのＥＣ（Ｅｌｅｃｔｒｏｎｉｃ　Ｃｏｍｍｅｒｃｅ）サイトがウェブ上に多く構築されている。ＥＣサイトは、世界中の各国の言語を用いて構築されることも多く、多くの国に在住するユーザ（消費者）が商品を購入することを可能にしている。ユーザは、ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）や、スマートフォンといった携帯端末からＥＣサイトにアクセスすることで、実際の店舗に赴くことなく、また時間に関係なく、所望の商品の選択や購入を行うことが可能となっている。
　ＥＣサイトでは、ユーザによる購買意欲を増進させることを目的に、過去にユーザが購入した商品の属性（商品に特有な情報）と同様の属性を有する商品を、レコメンデーションする商品として、ユーザが閲覧している画面において合わせて表示することがある。また、ユーザも、所望の商品を購入する場合に、購入しようとする商品の属性から検索する場合がある。このようなことから、電子商取引では、商品の属性を識別することが、サイト運営側や商品提供側にとって共通の課題となっている。

　マルチモーダル深層学習を用いて、商品に関連する情報をモダリティとして扱い、複数のモダリティから商品の属性を予測・識別する手法が、非特許文献１に開示されている。当該文献では、商品に関連する情報として、商品の画像と商品を説明するテキストである２つのモダリティを入力して、両モダリティを組み合わせて連結した結果から、商品の属性として、商品の色や部分的な形状を識別している。

Ｔｉａｎｇａｎｇ　Ｚｈｕ，　ｅｔ．ａｔ．，　"Ｍｕｌｔｉｍｏｄａｌ　Ｊｏｉｎｔ　Ａｔｔｒｉｂｕｔｅ　Ｐｒｅｄｉｃｔｉｏｎ　ａｎｄ　Ｖａｌｕｅ　Ｅｘｔｒａｃｔｉｏｎ　ｆｏｒ　Ｅ－ｃｏｍｍｅｒｃｅ　Ｐｒｏｄｕｃｔ"，　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２０２０　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｅｍｐｉｒｉｃａｌ　Ｍｅｔｈｏｄｓ　ｉｎ　Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ　（ＥＭＮＬＰ），　ｐｐ．２１２９－２１３９，　Ｎｏｖｅｍｂｅｒ，　２０２０．

　非特許文献１に開示される手法によれば、商品の画像と商品を説明するテキストである２つのモダリティを組み合わせることにより、商品を説明するテキストのみを用いる場合と比較して、商品の属性の予測精度が高くなるという効果が得られている。
　しかしながら、ＥＣサイトで販売される商品は多岐にわたり、各商品について、商品に関連する情報（モダリティ）も異なることから、すべての商品について同様な方法で単に複数のモダリティを連結するのでは、各商品の属性を精度よく識別できない可能性がある。

　本発明は上記課題を解決するためになされたものであり、その目的は、商品といったオブジェクトに関連する複数の情報から当該オブジェクトの属性を適切に識別することが可能な、情報処理装置、情報処理方法、およびプログラムを提供することにある。

　上記課題を解決するために、本発明による情報処理装置の一態様は、オブジェクトに関連する複数のモダリティと前記オブジェクトを識別する情報とを取得する取得手段と、前記複数のモダリティそれぞれの特徴値を生成する特徴生成手段と、前記複数のモダリティそれぞれの特徴値と前記オブジェクトを識別する情報に基づいて、前記複数のモダリティそれぞれに対応する重みを導出する導出手段と、前記複数のモダリティそれぞれの特徴値を、前記対応する重みで重みづけして連結した連結値から、前記オブジェクトの属性を予測する予測手段と、を有する。

　前記導出手段は、前記複数の特徴値と前記オブジェクトを識別する情報から、前記複数のモダリティそれぞれの、前記属性の予測に対する重要度を示すアテンション重みを、前記複数の特徴値それぞれに対応する重みとして導出してよい。

　前記複数のモダリティのアテンション重みは、合計で１でありうる。

　本発明による情報処理装置の一態様は、オブジェクトに関連する複数のモダリティと前記オブジェクトを識別する情報とを取得する取得手段と、前記複数のモダリティを第１学習モデルに適用することにより、前記複数のモダリティに対する複数の特徴値を生成する特徴生成手段と、前記複数のモダリティそれぞれの特徴値と前記オブジェクトを識別する情報とを第２学習モデルに適用することにより、前記複数の特徴値それぞれに対応する重みを導出する導出手段と、前記複数のモダリティそれぞれの特徴値を、前記対応する重みで重みづけして連結した連結値を第３学習モデルに適用することにより、前記オブジェクトの属性を予測する予測手段と、を有し、前記第２学習モデルは前記オブジェクト毎に異なる重みを出力する学習モデルである。

　前記第２学習モデルは、前記複数の特徴値と前記オブジェクトを識別する情報を入力として、前記複数のモダリティそれぞれの、前記属性の予測に対する重要度を示すアテンション重みを、前記複数の特徴値それぞれに対応する重みとして出力する学習モデルでありうる。

　前記第１学習モデルは、前記複数のモダリティを入力として、前記複数のモダリティを前記複数のモダリティ共通の潜在空間にマッピングすることにより当該複数のモダリティの特徴値を出力する学習モデルでありうる。

　前記第３学習モデルは、前記連結値を入力として、前記属性の予測結果を出力する学習モデルでありうる。

　前記取得手段は、前記複数のモダリティを、前記オブジェクトが掲載されているウェブサイトから取得しうる。

　前記オブジェクトは商品であり、前記複数のモダリティは、前記商品を表す画像のデータ、前記商品を説明するテキストのデータ、前記商品を説明する音声のデータ、のうちの２つ以上を含みうる。

　前記オブジェクトの属性は、前記商品の色情報を含みうる。

　本発明による情報処理方法の一態様は、オブジェクトに関連する複数のモダリティと前記オブジェクトを識別する情報とを取得する取得工程と、前記複数のモダリティそれぞれの特徴値を生成する特徴生成工程と、前記複数のモダリティそれぞれの特徴値と前記オブジェクトを識別する情報に基づいて、前記複数のモダリティそれぞれに対応する重みを導出する導出工程と、前記複数のモダリティそれぞれの特徴値を、前記対応する重みで重みづけして連結した連結値から、前記オブジェクトの属性を予測する予測工程と、を有する。

　本発明による情報処理方法の一態様は、オブジェクトに関連する複数のモダリティと前記オブジェクトを識別する情報とを取得する取得工程と、前記複数のモダリティを第１学習モデルに適用することにより、前記複数のモダリティに対する複数の特徴値を生成する特徴生成工程と、前記複数のモダリティそれぞれの特徴値と前記オブジェクトを識別する情報を第２学習モデルに適用することにより、前記複数の特徴値それぞれに対応する重みを導出する導出工程と、前記複数のモダリティそれぞれの特徴値を、前記対応する重みで重みづけして連結した連結値を第３学習モデルに適用することにより、前記オブジェクトの属性を予測する予測工程と、を有し、前記第２学習モデルは前記オブジェクト毎に異なる重みを出力する学習モデルである。

　本発明による情報処理プログラムの一態様は、情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、オブジェクトに関連する複数のモダリティと前記オブジェクトを識別する情報とを取得する取得処理と、前記複数のモダリティそれぞれの特徴値を生成する特徴生成処理と、前記複数のモダリティそれぞれの特徴値と前記オブジェクトを識別する情報に基づいて、前記複数のモダリティそれぞれに対応する重みを導出する導出処理と、前記複数のモダリティそれぞれの特徴値を、前記対応する重みで重みづけして連結した連結値から、前記オブジェクトの属性を予測する予測処理と、を含む処理を実行させるためのものである。

　本発明による情報処理プログラムの一態様は、情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、オブジェクトに関連する複数のモダリティと前記オブジェクトを識別する情報とを取得する取得処理と、前記複数のモダリティを第１学習モデルに適用することにより、前記複数のモダリティに対する複数の特徴値を生成する特徴生成処理と、前記複数のモダリティそれぞれの特徴値と前記オブジェクトを識別する情報を第２学習モデルに適用することにより、前記複数の特徴値それぞれに対応する重みを導出する導出処理と、前記複数のモダリティそれぞれの特徴値を、前記対応する重みで重みづけして連結した連結値を第３学習モデルに適用することにより、前記オブジェクトの属性を予測する予測処理と、を含む処理を実行させるためのものであり、前記第２学習モデルは前記オブジェクト毎に異なる重みを出力する学習モデルである。

　本発明によれば、オブジェクトに関連する複数の情報から当該オブジェクトの属性を適切に識別することが可能となる。
　上記した本発明の目的、態様及び効果並びに上記されなかった本発明の目的、態様及び効果は、当業者であれば添付図面及び請求の範囲の記載を参照することにより下記の発明を実施するための形態から理解できるであろう。

図１は、本発明の実施形態による分類装置の機能構成の一例を示すブロック図である。図２は、本発明の実施形態による分類装置のハードウェア構成の一例を示すブロック図３は、本発明の実施形態による特徴生成部、アテンション部、分類部による処理を説明する概念図である。図４Ａは、アテンション重み分布の一例を示す。図４Ｂは、アテンション重み分布の別の例を示す。図５は、画像データとテキストデータに対するアテンション重み分布の例を示す。図６は、本発明の実施形態による分類装置により実行される分類処理の処理手順の一例を示すフローチャートである。図７は、ＥＣサイトにおけるウェブページ画面の一例を示す。図８は、ＥＣサイトにおけるウェブページ画面の別の例を示す。図９は、従来技術と本発明の実施形態による属性予測の性能比較を示す。

　以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。以下に開示される構成要素のうち、同一機能を有するものには同一の符号を付し、その説明を省略する。なお、以下に開示される実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。

　本実施形態による分類装置は、所与のオブジェクトに関連する複数のモダリティと、当該オブジェクトを識別する情報を取得し、該複数のモダリティそれぞれの特徴値を生成し、該特徴値と該オブジェクトを識別する情報に基づいて、該複数のモダリティそれぞれに対応する重みを導出し、該特徴値を該対応する重みで重みづけして連結した連結値から、該オブジェクトの属性を予測するように構成される。ここで、モダリティは、オブジェクトに関連する情報を示し、モダリティ情報、モダリティアイテム、モダリティ値と同義であり、そのように称されてもよい。
　オブジェクトの一例は、電子商取引で流通される商品である。また、オブジェクトに関連する情報である複数のモダリティの一例は、商品の画像を示す画像データ（以下、単に画像データと称する）と、商品を説明するテキストデータ（以下、単にテキストデータと称する）である。また、オブジェクトの属性の一例は、オブジェクトが商品である場合は、当該商品の色情報である。
　なお、以下では、分類装置の非限定的な例を説明するにすぎず、オブジェクトは商品に限定されず、ユーザに提供可能な任意のサービスであってもよい。また、オブジェクトに関する複数の情報として、画像とテキストデータに限らず、音声データ等、オブジェクトに関連するあらゆる情報を用いてもよい。また、オブジェクトの属性は、色情報だけでなく、オブジェクトに特有なあらゆる情報でありうる。

　＜分類装置の機能構成＞
　図１は、本実施形態による分類装置１の機能構成の一例を示す。
　図１に示す分類装置１は、取得部１１、特徴生成部１２、アテンション部１３、分類部１４、学習部１５、学習モデル記憶部１６を有して構成される。学習モデル記憶部１６は、あらかじめ学習された学習済みモデルである、第１学習モデル１７、第２学習モデル１８、および第３学習モデル１９を保存している。

　取得部１１は、複数のモダリティ（モダリティ１０－ｉ～１０－ｎ（ｎは２以上の整数））を取得する。取得部１１は、複数のモダリティを、分類装置１を操作するユーザ（オペレータ）による入力部２５（図２）を介した入力操作によって取得してもよいし、ユーザの操作により記憶部（図２のＲＯＭ２２やＲＡＭ２３）から取得してもよい。また、取得部１１は、通信Ｉ／Ｆ２７（図２）を介して外部装置から受信した複数のモダリティを取得してもよい。

　取得部１１は、直接的に複数のモダリティを取得してもよいし、データに対する抽出処理を行ってから当該複数のモダリティを取得してもよい。例えば、入力部２５を介して入力されたデータが、複数のモダリティを混合的に含むデータである場合、取得部１１は、当該データから、複数のモダリティを抽出して取得してもよい。具体例として、オブジェクトが商品であり、複数のモダリティが画像データとテキストデータであり、入力されたデータがＥＣサイトにおいて当該商品を掲載するウェブページである場合、取得部１１は、当該ウェブページから、画像データとテキストデータとを抽出して取得することができる。

　複数のモダリティには、当該モダリティが関連するオブジェクトを識別する情報が関連付けられていてもよく、取得部１１は、複数のモダリティを取得することで、オブジェクトを識別する情報を取得するように構成されてもよい。あるいは、取得部１１は、複数のモダリティと別に、当該モダリティに関連するオブジェクトを識別する情報を取得してもよい。
　取得部１１は、取得した複数のモダリティを特徴生成部１２へ出力する。取得部１１は、複数のモダリティと別にオブジェクトを識別する情報を取得した場合は当該情報をアテンション部１３に出力してもよい。
　また、取得部１１は、取得した複数のモダリティそれぞれを符号化して、符号化された複数のモダリティをアテンション部１３に出力してもよい。

　特徴生成部１２は、取得部１１から出力された複数のモダリティ（符号化された複数のモダリティでありうる。以下同様。）を取得し、各モダリティの特徴値を生成する。本実施形態では、特徴生成部１２は、当該複数のモダリティを、学習モデル記憶部１６に保存されている第１学習モデル１７に適用して、各モダリティの特徴値（特徴的表現）を生成する。例えば、特徴生成部１２は、複数のモダリティを、第１学習モデル１７を用いて、当該複数のモダリティの全モダリティ共通の潜在空間に投影（マッピング）することにより、特徴を示す情報に凝縮して特徴値を得ることができる。
　潜在空間とは、異なるモダリティ、すなわち、次元の異なるモダリティが、次元を圧縮して投影される空間を示し、この共通の空間において、当該異なるモダリティの特徴量／特徴値が表される。特徴生成部１２は、入力される複数のモダリティのデータの次元を圧縮することで、各モダリティの情報量を削減した、すなわち、圧縮後の低次元空間である潜在空間表現（特徴値）を生成することができる。

　第１学習モデル１７は、例えば、ＦＣＮ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＮｅｔｗｏｒｋ）のニューラルネットワークにより構築されるモデルである。ＦＣＮは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌ　Ｎｅｔｗｏｒｋ）の一種であり、ＣＮＮの全結合層をアップサンプリングした畳み込み層に置き換えたネットワークである。また、ニューラルネットワークのモデルとして、ＳｅｇＮｅｔ等を用いることもできる。
　特徴生成部１２は、生成した各モダリティの特徴値をアテンション部１３と分類部１４に出力する。

　アテンション部１３は、特徴生成部１２から各モダリティの特徴値を取得し、当該特徴値およびオブジェクトを識別する情報から、各モダリティに対するアテンション重みを生成する。本実施形態では、アテンション部１３は、各モダリティの特徴値およびオブジェクトを識別する情報を、学習モデル記憶部１６に保存されている第２学習モデル１８に適用することにより、各モダリティに対するアテンション重みを生成する。アテンション重みは、複数のモダリティそれぞれの、オブジェクトの属性の予測に対する重要度を示す。

　第２学習モデル１８は、例えば、アテンション情報を取得するニューラルネットワーク（アテンションネットワーク）により構築されるモデルである。各モダリティに対するアテンション重みは、取得部１１により取得された複数のモダリティに関連付けられたオブジェクトに応じて生成される。例えば、オブジェクトが商品Aである場合と商品B（商品Bは商品Aと異なる）である場合で、各モダリティに対して生成されるアテンション重みは変化しうる。取得部１１により取得された複数のモダリティに対するアテンション重みは、例えば合計で１である。アテンション部１３により生成されるアテンション重みについては、図３～図５を参照して後述する。
　アテンション部１３は、生成した各モダリティに対するアテンション重みを分類部１４に出力する。

　分類部１４は、特徴生成部１２から各モダリティの特徴値を取得し、また、アテンション部１３から各モダリティに対するアテンション重みを取得し、これらの情報から、オブジェクトの属性を予測する。本実施形態では、分類部１４は、学習モデル記憶部１６に保存されている第３学習モデル１９を用いて、オブジェクトの属性を予測する。
　具体的には、分類部１４はまず、各特徴値（各モダリティの特徴値）を、各特徴値に対するアテンション重みに適用して（例えば乗算して）、重みづけ特徴値を生成し、すべての重みづけ特徴値を連結（統合）して連結値を得る。

　続いて、分類部１４は、当該連結値を、第３学習モデル１９に適用することにより、属性のクラスラベル（正解データ）を予測して分類する。分類部１４は、当該分類にしたがって分類結果の情報を生成し、出力する。属性が商品（オブジェクト）の色情報である場合、分類部１４は、連結値から、第３学習モデル１９を適用して得られたオブジェクトの色情報を、分類結果（予測結果）として出力する。
　分類結果は、色情報そのものであってもよいし、正解データとの適合率（Ｐｒｅｃｉｓｉｏｎ）が９５％であることの再現率（Ｒｅｃａｌｌ）を示す指標（Ｒ＠Ｐ９５）等であってもよい。
　分類部１４は、不図示の外部装置に例えば通信Ｉ／Ｆ２７（図２）を介して分類結果を出力してもよいし、表示部２６（図２）に分類結果を表示してもよい。

　第３学習モデル１９は、例えば、複数のノードからなる入力層、中間層（隠れ層）、および出力層を有する多層のニューラルネットワークにより構築されるモデルである。多層のニューラルネットワークは、例えば、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＣＮＮ、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）でありうる。

　学習部１５は、第１学習モデル１７、第２学習モデル１８、第３学習モデル１９をそれぞれ学習し、学習済みのモデルで第１学習モデル１７、第２学習モデル１８、第３学習モデル１９についての各種パラメータをそれぞれ更新する。当該各種パラメータの更新処理は、あらかじめ学習部１５に入力されている、十分な数のサンプル数の、複数のモダリティに対する正解データ（すなわち、当該複数のモダリティが関連するオブジェクトの属性を示す情報）を用いて行うことができる。学習部１５は、取得部１１により取得される複数のモダリティに対する分類部１４による分類結果と、正解データとの比較から、例えば勾配降下最適化手順に従って、ニューラルネットワークに対する各種パラメータを更新することができる。
　学習部１５により学習してパラメータ更新された第１学習モデル１７、第２学習モデル１８、第３学習モデル１９は、学習モデル記憶部１６に保存される。

　なお、図１に示す構成は、分類装置１の機能的な構成を例示的に示すものであり、本実施形態による分類装置１が単一の装置に実装されることを意味するものではない。図１に示す機能構成は、例えば、ネットワークで相互接続される複数のサーバ等の装置に実装されてもよく、図１に示す分類装置１の各部、記憶部が同一の装置に実装されても、互いに異なる装置に実装されてもよい。例えば、分類装置１の特徴生成部１２とアテンション部１３とが、互いに異なる装置に実装されてもよい。また、学習モデル記憶部１６が分類装置１の外部に構成されてもよい。

＜分類装置のハードウェア構成＞
　図２は、本実施形態による分類装置１のハードウェア構成の一例を示すブロック図である。
　本実施形態による分類装置１は、単一または複数の、あらゆるコンピュータ、モバイルデバイス、または他のいかなる処理プラットフォーム上にも実装することができる。
図２を参照して、分類装置１は、単一のコンピュータに実装される例が示されているが、本実施形態による分類装置１は、複数のコンピュータを含むコンピュータシステムに実装されてよい。複数のコンピュータは、有線または無線のネットワークにより相互通信可能に接続されてよい。

　図２に示すように、分類装置１は、ＣＰＵ２１と、ＲＯＭ２２と、ＲＡＭ２３と、ＨＤＤ２４と、入力部２５と、表示部２６と、通信Ｉ／Ｆ２７と、システムバス２８とを備えてよい。分類装置１はまた、外部メモリを備えてよい。
ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）２１は、分類装置１における動作を統括的に制御するものであり、データ伝送路であるシステムバス２８を介して、各構成部（２２～２７）を制御する。

ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）２２は、ＣＰＵ２１が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）２４、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の不揮発性メモリや着脱可能な記憶媒体（不図示）等の外部メモリに記憶されていてもよい。
ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）２３は、揮発性メモリであり、ＣＰＵ８１の主メモリ、ワークエリア等として機能する。すなわち、ＣＰＵ２１は、処理の実行に際してＲＯＭ２２から必要なプログラム等をＲＡＭ２３にロードし、当該プログラム等を実行することで各種の機能動作を実現する。

　ＨＤＤ２４は、例えば、ＣＰＵ２１がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶している。また、ＨＤＤ２４には、例えば、ＣＰＵ２１がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。
入力部２５は、キーボードやマウス等のポインティングデバイスにより構成される。
表示部２６は、液晶ディスプレイ（ＬＣＤ）等のモニターにより構成される。表示部２６は、キーワード特定処理で使用される各種パラメータや、他の装置との通信で使用される通信パラメータ等を分類装置１へ指示入力するためのユーザインタフェースであるＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）を提供してよい。

通信Ｉ／Ｆ２７は、分類装置１と外部装置との通信を制御するインタフェースである。
通信Ｉ／Ｆ２７は、ネットワークとのインタフェースを提供し、ネットワークを介して、外部装置との通信を実行する。通信Ｉ／Ｆ２７を介して、外部装置との間で各種データや各種パラメータ等が送受信される。本実施形態では、通信Ｉ／Ｆ２７は、イーサネット（登録商標）等の通信規格に準拠する有線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）や専用線を介した通信を実行してよい。ただし、本実施形態で利用可能なネットワークはこれに限定されず、無線ネットワークで構成されてもよい。この無線ネットワークは、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＺｉｇＢｅｅ（登録商標）、ＵＷＢ（Ｕｌｔｒａ　Ｗｉｄｅ　Ｂａｎｄ）等の無線ＰＡＮ（Ｐｅｒｓｏｎａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）を含む。また、Ｗｉ－Ｆｉ（Ｗｉｒｅｌｅｓｓ　Ｆｉｄｅｌｉｔｙ）（登録商標）等の無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）や、ＷｉＭＡＸ（登録商標）等の無線ＭＡＮ（Ｍｅｔｒｏｐｏｌｉｔａｎ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）を含む。さらに、ＬＴＥ／３Ｇ、４Ｇ、５Ｇ等の無線ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）を含む。なお、ネットワークは、各機器を相互に通信可能に接続し、通信が可能であればよく、通信の規格、規模、構成は上記に限定されない。

　図１に示す分類装置１の各要素のうち少なくとも一部の機能は、ＣＰＵ２１がプログラムを実行することで実現することができる。ただし、図１に示す分類装置１の各要素のうち少なくとも一部の機能が専用のハードウェアとして動作するようにしてもよい。この場合、専用のハードウェアは、ＣＰＵ２１の制御に基づいて動作する。

　＜特徴生成部１２、アテンション部１３、分類部１４による処理の具体例＞
　図３は、分類装置１の特徴生成部１２、アテンション部１３、および分類部１４による処理を説明する概念図である。本例では、特徴生成部１２はＦＣＮのニューラルネットワークにより構築された第１学習モデル１７を使用し、アテンション部１２はアテンションネットワークにより構築された第２学習モデル１８を使用するものとする。また、分類部１４はＤＮＮのニューラルネットワークにより構築された第３学習モデル１９を使用するものとする。

　図３では、取得部１１により取得される複数のモダリティが、オブジェクトである商品に関連する、画像データとテキストデータであるとして説明する。ここで、画像データ（Ｉｍａｇｅ　ｄａｔａ）をｍ_i ^(j)と表し、テキストデータ（Ｔｅｘｔ　ｄａｔａ）をｍ_t ^(j)と表し、ここで、ｊは商品を識別するパラメータ（情報）とする。
　取得部１１はさらに、画像データｍ_i ^(j)を符号化して符号化した画像データｈ_i ^(j)（＝Ｉ（ｍ_i ^(j)））、および、テキストデータｍ_t ^(j)を符号化して符号化したテキストデータｈ_t ^(j)（＝Ｔ（ｍ_t ^(j)））を得る。ここで、Ｉ（.）とＴ（.）はそれぞれ、画像データとテキストデータを符号化するための符号化関数を示す。
　特徴生成部１２は、画像データｈ_i ^(j)とテキストデータｈ_t ^(j)それぞれに対してＦＣＮのニューラルネットワークを適用し、出力層から、潜在空間表現（特徴値）として、画像データｈ_i ^(j)の特徴値ｆ_θ(ｈ_i ^(j))と、テキストデータｈ_t ^(j)の特徴値ｆ_θ(ｈ_t ^(j))とを得る。ここで、ｆ_θ(.)は、θでパラメータ化されたＦＣＮのニューラルネットワークである。

　アテンション部１２は、画像データｈ_i ^(j)の特徴値ｆ_θ(ｈ_i ^(j))と、テキストデータｈ_t ^(j)の特徴値ｆ_θ(ｈ_t ^(j))とをアテンションネットワークに適用し、出力層のベクトルをシグモイド関数（σ）に入力することで、画像データｈ_i ^(j)とテキストデータｈ_t ^(j)に対するアテンション重み（アテンションウェイト）を導出する。本例では、両アテンション重みの合計が１であり、画像データｈ_i ^(j) に対するアテンション重みａ^(j)を導出するものとする。なお、テキストデータｈ_t ^(j)に対する重みを導出するように構成されてもよい。
　また、図３ではシグモイド関数（σ）を用いているが、ｓｏｆｔｍａｘ関数などの他の活性化関数を用いてもよい。

　商品ｊについての、画像データｈ_i ^(j)に対するアテンション重みａ^(j)は、式（１）のように表される。

　ここで、Ｗ[ｆ_θ(ｈ_i ^(j)), ｆ_θ(ｈ_t ^(j))]は、重み係数を、画像データｈ_i ^(j)の特徴値ｆ_θ(ｈ_i ^(j))と、テキストデータｈ_t ^(j)の特徴値ｆ_θ(ｈ_t ^(j))に適用して連結した値を表す。また、b（０以上の値）はバイアスを表す。当該重み係数およびバイアスの値は、任意の初期値が与えられ、複数のモダリティ（画像データとテキストデータ）と当該モダリティに対する正解データ（商品の属性情報）の多数のセットを用いて、学習部１５による学習過程によって可変に決定される値である。画像データｈ_i ^(j) に対するアテンション重みａ^(j)は商品ｊごとに異なる値になる。
　テキストデータｈ_t ^(j) に対するアテンション重みは、（１－ａ^(j)）として導出される。
　商品ｊについての、画像データｈ_i ^(j) のに対するアテンション重みａ^(j)とテキストデータｈ_t ^(j)に対するアテンション重み（１－ａ^(j)）の学習後の分布については、図４Ａと図４Ｂを参照して後述する。

　画像データｈ_i ^(j) に対するアテンション重みａ^(j)とテキストデータｈ_t ^(j)に対するアテンション重み（１－ａ^(j)）が導出されると、分類部１４により、画像データｈ_i ^(j)の特徴値ｆ_θ(ｍ_i ^(j))と、テキストデータｈ_t ^(j)の特徴値ｆ_θ(ｈ_t ^(j))に対する重みづけおよび連結処理が行われる。
　重みづけおよび連結後の値は式（２）のように表される。

　分類部１４は、式（２）のように表される連結値に対してＤＮＮを適用し、画像データｈ_i ^(j)とテキストデータｈ_t ^(j)に関連する商品ｊに対する属性のクラスラベル（商品ｊの色情報）ｃ (ｈ_i ^(j),ｈ_t ^(j))を予測して分類する。ＤＮＮにおける出力層の各ノードは、商品ｊが取りうる属性のクラス（属性が色情報の場合は商品ｊが取りうる色のタイプ）に相当する。なお、ノードの数は、商品ｊが取りうる属性のクラスの種類の数（商品ｊが取りうる色のタイプの数）となる。ＤＮＮを用いることにより、全クラスの分類（識別）が行われる。

　次に、商品ｊに対する画像データに対するアテンション重みａ^(j)とテキストデータに対するアテンション重み（１－ａ^(j)）の学習後の分布について、図４Ａと図４Ｂを参照して説明する。当該学習は、複数のモダリティ（画像データとテキストデータ、または当該データそれぞれの符号化データ）と、当該モダリティに対する正解データとしての商品の属性情報（色情報）との多数のセットを用いて、学習部１５により行われる。

　図４Ａは、オブジェクトである商品が属するジャンルごとの、画像データに対するアテンション重みａ^(j)とテキストデータに対するアテンション重み（１－ａ^(j)）の学習後の分布を示す図である。一般に、総合ＥＣサイトでは、膨大な数の商品が扱われ、同一のジャンルに属する複数の商品は、同様の重み分布の特徴を有する傾向があることから、図４Ａでは、複数の商品が属するジャンルごとの分布を示している。

　図４Ａでは、３つのジャンルについての、画像データに対するアテンション重みとテキストデータに対するアテンション重みの分布が表されている。ジャンル４１は「バック／アクセサリ」を示し、ジャンル４２は「スマートフォン／タブレットＰＣ」を示し、ジャンル４３は「メンズファッション」を示す。画像データに対するアテンション重みとテキストデータに対するアテンション重みの分布のそれぞれにおいて、最大値と最小値の範囲が線で表され、各データに対して平均値に近い分布がボックスで表されている。斜線ありのボックスは画像データに対するアテンション重みの分布を示し、斜線なしのボックスはテキストデータに対するアテンション重みの分布を示す。

　ジャンル４１（バック／アクセサリ）の分布では、テキストデータに対するアテンション重みが、画像データに対するアテンション重みより高い値で分布していることがわかる。これは例えば、テキストデータ、すなわち、バック／アクセサリのジャンルに含まれる商品を説明する説明文が、当該商品の色情報を直接的に含む傾向が高いことを意味する。バック／アクセサリは、形、色、ブランドで好みが分かれる傾向の強いジャンルの商品である。色については、画像データよりもテキストデータの方が曖昧さなく、情報として信頼度が高いため、テキストデータのアテンション重みが高くなったと考えられる。

　ジャンル４２（スマートフォン／タブレットＰＣ）の分布では、画像データとテキストデータに関して、ジャンル４１（バック／アクセサリ）の分布と逆の特性が表れていることがわかる。すなわち、画像データに対するアテンション重みが、テキストデータに対するアテンション重みより高い値で分布していることがわかる。これは例えば、スマートフォン／タブレットＰＣのジャンルに含まれる商品を説明する説明文（テキストデータ）が、スマートフォン／タブレットＰＣの機能に関する記載が多く、画像データが色情報そのものを表す傾向が高いことを意味する。

　ジャンル４３（メンズファッション）の分布では、ジャンル４１（バック／アクセサリ）の分布と同様の特性が表れていることがわかる。これは、ジャンル４１（バック／アクセサリ）と同様に、メンズファッション商品のジャンルに含まれる商品を説明する説明文（テキストデータ）が、当該商品の色情報を直接的に含む傾向が高いことを意味する。

　図４Ａでは３つのジャンルについて示したが、複数のジャンル４１～４９について同様の学習を行ったアテンション重みの分布を図４Ｂに示す。ジャンル４１～４３については図４Ａと同様である。ジャンル４４は「レディースファッション」、ジャンル４５は「靴」、ジャンル４６は「ヘルスケア／医療用品」、ジャンル４７は「キッズ／ベビー／マタニティ」、ジャンル４８は「時計」、ジャンル４９は「車／バイク用品」を示す。

　図４Ｂでは、ジャンル４２（スマートフォン／タブレットＰＣ）とジャンル４９（車／バイク用品）において、画像データに対するアテンション重みが、テキストデータに対するアテンション重みより高い値で分布しているが、他のジャンル４１、４３～４８では、テキストデータに対するアテンション重みが、画像データに対するアテンション重みより高い値に分布していることがわかる。
　図４Ｂに示す結果から、商品についての説明文（テキストデータ）により、色情報が直接的に表されることが多く、テキストデータに対するアテンション重みが、画像データに対するアテンション重みより高い値に分布する傾向があることがわかる。

　図５に、図４Ａ～図４Ｂの結果を画像データとテキストデータごとにまとめた結果を表す。図４Ａ～図４Ｂと同様に、最大値と最小値の範囲が線で表され、各データに対して平均値に近い分布がボックスで表されている。斜線ありのボックスは画像データに対するアテンション重みの分布を示し、斜線なしのボックスはテキストデータに対するアテンション重みの分布を示す。
　図５から、テキストデータに対するアテンション重みの分布が、画像データに対するアテンション重みの分布より値が低くなっていることがわかる。これは、一般的に、上記のように、テキストデータは、商品に関する色情報を直接的に含むことが多いことを示している。

　＜処理の流れ＞
　図６に、本実施形態による分類装置１により実行される分類処理の処理手順の一例を示すフローチャートである。
　なお、図６の各ステップは、分類装置１の記憶部に記憶されたプログラムをＣＰＵが読み出し、実行することで実現される。また、図６に示すフローチャートの少なくとも一部をハードウェアにより実現してもよい。ハードウェアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）上に自動的に専用回路を生成すればよい。また、ＦＰＧＡと同様にしてＧａｔｅ　Ａｒｒａｙ回路を形成し、ハードウェアとして実現するようにしてもよい。また、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）により実現するようにしてもよい。
　図６の説明に関し、図７と図８を参照する。

　Ｓ６１で、取得部１１は、複数のモダリティを取得する。なお、上述のように、当該複数のモダリティは、符号化された複数のモダリティでありうる。本実施形態では、取得部１１は、複数のモダリティとして、入力部２５を介して画像データとテキストデータ（当該データそれぞれの符号化データでありうる）を取得する。ここで、入力部２５に入力されたデータが、ＥＣサイトにおけるウェブページの画面データである場合は、取得部１１は、画像データとして画像部分を抽出して取得し、商品の説明部分をテキストデータとして抽出してもよい。

　図７に、ＥＣサイトにおける、商品が掲載されたウェブページ画面の一例を示す。ここでは、メンズファッションのジャンルに含まれる１つ以上の商品（服）が記載されたウェブページの画面７０を示す。
　図７の画面７０において、領域７１は、各商品に対する複数の属性（Ａｔｔｒｉｂｕｔｅ）を示している。図７の例では、各商品に対する属性は、サイズ７１ａ、カラー７１ｂ、シーズン７１ｃ、テイスト７１ｄ、スタイル（首もと）７１ｅ、柄７１ｆ、素材７１ｇ、長さ（袖）７１ｈ、ブランド７１ｉを含むものとなっている。

　一例として、各商品に対する属性は以下の意味を有する。
　サイズ７１ａは、規格化された服のサイズを表し、ＳＳ～３Ｌまでを含むものとなっている。カラー７１ｂは、服の色を表し、ここでは５色が識別されている。シーズン７１ｃは、服の装着にふさわしい季節タイプを表す。テイスト７１ｄは、服の雰囲気や持ち味のタイプを表す。スタイル（首もと）７１eは、服の襟部分のデザインのタイプを表す。柄７１ｆは、服の生地の柄のタイプを表す。素材７１ｇは、服の生地のタイプを表す。長さ（袖）７１ｈは、服の袖の長さのタイプを表す。ブランド７１ｉは、服の製造元／デザイン制作側を示す会社／サービスの名前を表す。
　一例として、図７の領域７１に表される各属性において、サイズ７１ａとカラー７１ｂでは、それぞれのタイプが表示されている。シーズン７１ｃ、テイスト７１ｄ、スタイル（首もと）７１ｅ、柄７１ｆ、素材７１ｇ、長さ（袖）７１ｈ、ブランド７１ｉでは、プルダウンでそれぞれのタイプが表示されるようになっている（不図示）。なお、表示（提示）形態は、これに限定されない。

　領域７２は、各商品についての情報を示している。
　図７の例では、各商品についての情報は、商品の少なくとも一部を表す画像と、商品に関する説明と、値段を含むものとなっており、すべての商品について同様のレイアウトとなっている。なお、これは一例であり、各商品についての情報のレイアウトは任意なものでありうる。
　ここで、領域７３がユーザ（オペレータ）選択されたとする。当該選択は、例えばマウスといったポインティングデバイスで行われる。ユーザが領域７３を選択した場合に移行するウェブページの画面例を、図８に示す。

　図８は、図７の領域７２に示される商品に対するウェブページ画面の一例を示す。
　図８の画面８０において、画像データ８１は商品８２の画像データを表し、テキストデータ８３は、商品８２を説明するテキストデータを表す。また、領域８４は、ユーザの操作により画面８０が表示されるまでの、ＥＣサイトが商品として扱う商品の全ジャンル（左）から細分化したジャンル（右）の関係を示す。

　取得部１１は、画像データ８１とテキストデータ８３とを取得し、特徴生成部１２へ出力する。ここで、取得部１１は、画像データ８１とテキストデータ８３のレイアウト位置が入力（設定）されている場合は、当該レイアウト位置に従って、画像データ８１とテキストデータ８２を取得することができる。また、取得部１１は、画像データ８１とテキストデータ８２を識別可能な画像処理技術を用いて、画像データ８１とテキストデータ８２をそれぞれ取得してもよい。
　また、画像データ８１とテキストデータ８３には、あらかじめ商品８２の情報が関連付けられ、取得部１１が、画像データ８１とテキストデータ８２を取得することで、商品８２の情報を取得することができる。あるいは、取得部１１は、領域８４に示されるジャンルの最も細分化されたジャンル（図８の例では、「Tシャツ」）を、商品８２の情報として取得してもよい。

　図６の説明に戻り、Ｓ６２において、特徴生成部１２は、取得部１１により取得された複数のモダリティの各モダリティの特徴値を生成する。図７と図８を参照すると、特徴生成部１２は、取得部１１から画像データ８１とテキストデータ８３を取得し、画像データ８１とテキストデータ８３の特徴値（特徴的表現）を生成する。例えば、特徴生成部１２は、画像データ８１とテキストデータ８３に第１学習モデル１７を適用して、当該複数のモダリティの全モダリティ共通の潜在空間に投影することにより、画像データ８１とテキストデータ８３の特徴値を生成する。

　Ｓ６３において、アテンション部１３は、各モダリティの特徴値に対するアテンション重みを導出する。図７と図８を参照すると、アテンション部１３は、特徴生成部１２により生成された画像データ８１とテキストデータ８３の特徴値を取得し、それぞれに対するアテンション重みを導出し、アテンション分布（アテンションマップ）を生成する。アテンション重みについては、図３を参照して説明した通りである。

　Ｓ６４において、分類部１４は、各モダリティの特徴値を、対応するアテンション重みに適用し、複数の重みづけ特徴値を生成する。図７と図８を参照すると、分類部１４は、特徴生成部１２により生成された画像データ８１とテキストデータ８３の特徴値を、アテンション部１３により導出された対応するアテンション重みに適用し、複数の重みづけ特徴値を生成する。

　Ｓ６５において、分類部１４は、Ｓ６４で生成された複数の重みづけ特徴値を連結する。図７と図８を参照すると、分類部１４は、画像データ８１とテキストデータ８３の、重みづけ特徴値を連結して、連結値を生成する。続くＳ６６において、分類部１４は生成した連結値に第３学習モデルを適用して、オブジェクトの属性を予測する。図７と図８の画面例を用いると、分類部１４は、商品８２の属性のクラスラベルを予測する。属性が色情報の場合、分類部１４は、商品８２の色情報を予測する。
　例えば、分類部１４は、図８の画面８０における商品８２が、図７の画面７０におけるカラー７１ｂのいずれかのタイプに該当するかを予測する。図７と図８に示す例では、属性は、領域７１にふくまれるいずれの属性であってもよく、例えば、分類部１４を、商品８２の属性としてサイズ７１ａ～７１ｉのいずれかの属性の中のタイプを予測するように構成することも可能である。

　次に、図９を参照して、本実施形態による属性予測手法による効果について説明する。図９に、従来の属性予測手法と本実施形態による属性予測手法と性能比較を示す。比較結果を表す。ここではオブジェクトは商品とする。
　グラフ９ａは、単一のモダリティとして、画像データを用いて、オブジェクトの属性予測を行った結果を表す。グラフ９ｂは、単一のモダリティとして、テキストデータを用いてオブジェクトの属性予測を行った結果を表す。グラフ９ｃは、複数のモダリティとして、画像データとテキストデータを、アテンション重みなく連結して、属性予測を行った結果を表す。　グラフ９ｄは、本実施形態のように、複数のモダリティとして、画像データとテキストデータを、オブジェクトに従ったアテンション重みを用いて連結して、属性予測を行った結果を表す。
　縦軸（Ｒ＠Ｐ９５）は、性能評価の指標として、正解データとの適合率（Ｐｒｅｃｉｓｉｏｎ）が９５％であることの再現率（Ｒｅｃａｌｌ）を示す。

　図９のグラフから、まず、単一のモダリティを用いるより、複数のモダリティ（マルチモーダル）を用いる方が、商品（オブジェクト）の属性の予測性能が高いことがわかる。また、本実施形態のように、商品ごとに、画像データとテキストデータの間でアテンション重みを変えることにより、より精度高く商品（オブジェクト）の属性を識別できることがわかる。

　以上説明したように、本実施形態によれば、分類装置は、オブジェクトに関連する複数のモダリティを入力として取得し、当該複数のモダリティに特徴値を生成してから、当該オブジェクトに従うアテンション重みで重みづけして連結し、連結した値から、当該オブジェクトの属性を識別する。このような処理により、単一のモダリティを用いる場合や、複数のモダリティを用いる場合であってもオブジェクトに従う重みづけを行わない場合と比較して、精度高くオブジェクトの属性を予測・識別することが可能となる。
　これにより、オブジェクトの属性が定義されていない場合であっても、オブジェクトに関連する複数のモダリティから、当該属性を予測することができる。また、当該実施形態と、ＥＣサイトにおける商品（オブジェクト）、画像データとテキストデータ（複数のモダリティ）に適用した場合に、ユーザによるショッピング体験の向上が期待でき、売り上げの向上につながりうる。また、ユーザ側／商品提供側にとって、商品アイテムのフィルタリングが容易になり、ユーザによる利便性の向上やマーケティング分析の向上に資する。

　なお、上記において特定の実施形態が説明されているが、当該実施形態は単なる例示であり、本発明の範囲を限定する意図はない。本明細書に記載された装置及び方法は上記した以外の形態において具現化することができる。また、本発明の範囲から離れることなく、上記した実施形態に対して適宜、省略、置換及び変更をなすこともできる。かかる省略、置換及び変更をなした形態は、請求の範囲に記載されたもの及びこれらの均等物の範疇に含まれ、本発明の技術的範囲に属する。

１：分類装置、１０－ｉ～ｎ：モダリティ、１１：取得部、１２：特徴生成部、１３：アテンション部、１４：分類部、１５：学習部、１６：学習モデル記憶部、１７：第１学習モデル、１８：第２学習モデル、１９：第３学習モデル

Claims

　オブジェクトに関連する複数のモダリティと前記オブジェクトを識別する情報とを取得する取得手段と、
　前記複数のモダリティそれぞれの特徴値を生成する特徴生成手段と、
　前記複数のモダリティそれぞれの特徴値と前記オブジェクトを識別する情報に基づいて、前記複数のモダリティそれぞれに対応する重みを導出する導出手段と、
　前記複数のモダリティそれぞれの特徴値を、前記対応する重みで重みづけして連結した連結値から、前記オブジェクトの属性を予測する予測手段と、
を有することを特徴とする情報処理装置。
　前記導出手段は、前記複数の特徴値と前記オブジェクトを識別する情報から、前記複数のモダリティそれぞれの、前記属性の予測に対する重要度を示すアテンション重みを、前記複数の特徴値それぞれに対応する重みとして導出することを特徴とする請求項１に記載の情報処理装置。
　前記複数のモダリティのアテンション重みは、合計で１であることを特徴とする請求項２に記載の情報処理装置。
　オブジェクトに関連する複数のモダリティと前記オブジェクトを識別する情報とを取得する取得手段と、
　前記複数のモダリティを第１学習モデルに適用することにより、前記複数のモダリティに対する複数の特徴値を生成する特徴生成手段と、
　前記複数のモダリティそれぞれの特徴値と前記オブジェクトを識別する情報とを第２学習モデルに適用することにより、前記複数の特徴値それぞれに対応する重みを導出する導出手段と、
　前記複数のモダリティそれぞれの特徴値を、前記対応する重みで重みづけして連結した連結値を第３学習モデルに適用することにより、前記オブジェクトの属性を予測する予測手段と、
を有し、
　前記第２学習モデルは前記オブジェクト毎に異なる重みを出力する学習モデルであることを特徴とする情報処理装置。
　前記第２学習モデルは、前記複数の特徴値と前記オブジェクトを識別する情報を入力として、前記複数のモダリティそれぞれの、前記属性の予測に対する重要度を示すアテンション重みを、前記複数の特徴値それぞれに対応する重みとして出力する学習モデルであることを特徴とする請求項４に記載の情報処理装置。
　前記複数のモダリティのアテンション重みは、合計で１であることを特徴とする請求項５に記載の情報処理装置。
　前記第１学習モデルは、前記複数のモダリティを入力として、前記複数のモダリティを前記複数のモダリティ共通の潜在空間にマッピングすることにより当該複数のモダリティの特徴値を出力する学習モデルであることを特徴とする請求項４から６のいずれか１項に記載の情報処理装置。
　前記第３学習モデルは、前記連結値を入力として、前記属性の予測結果を出力する学習モデルであることを特徴とする請求項４から７のいずれか１項に記載の情報処理装置。
　前記取得手段は、前記複数のモダリティを符号化して、複数の符号化されたモダリティを取得し、
　前記特徴生成手段は、前記複数の符号化されたモダリティそれぞれの特徴値を、前記複数のモダリティそれぞれの特徴値として生成することを特徴とする請求項１から８のいずれか１項に記載の情報処理装置。
　前記オブジェクトは商品であり、前記複数のモダリティは、前記商品を表す画像のデータ、前記商品を説明するテキストのデータ、前記商品を説明する音声のデータ、のうちの２つ以上を含むことを特徴とする請求項１から９のいずれか１項に記載の情報処理装置。
　前記オブジェクトの属性は、前記商品の色情報を含むことを特徴とする請求項１から１０のいずれか１項に記載の情報処理装置。
　オブジェクトに関連する複数のモダリティと前記オブジェクトを識別する情報とを取得する取得工程と、
　前記複数のモダリティそれぞれの特徴値を生成する特徴生成工程と、
　前記複数のモダリティそれぞれの特徴値と前記オブジェクトを識別する情報に基づいて、前記複数のモダリティそれぞれに対応する重みを導出する導出工程と、
　前記複数のモダリティそれぞれの特徴値を、前記対応する重みで重みづけして連結した連結値から、前記オブジェクトの属性を予測する予測工程と、
を有することを特徴とする情報処理方法。
　オブジェクトに関連する複数のモダリティと前記オブジェクトを識別する情報とを取得する取得工程と、
　前記複数のモダリティを第１学習モデルに適用することにより、前記複数のモダリティに対する複数の特徴値を生成する特徴生成工程と、
　前記複数のモダリティそれぞれの特徴値と前記オブジェクトを識別する情報を第２学習モデルに適用することにより、前記複数の特徴値それぞれに対応する重みを導出する導出工程と、
　前記複数のモダリティそれぞれの特徴値を、前記対応する重みで重みづけして連結した連結値を第３学習モデルに適用することにより、前記オブジェクトの属性を予測する予測工程と、
を有し、
　前記第２学習モデルは前記オブジェクト毎に異なる重みを出力する学習モデルであることを特徴とする情報処理方法。
　情報処理をコンピュータに実行させるための情報処理プログラムであって、
　該プログラムは、前記コンピュータに、
　オブジェクトに関連する複数のモダリティと前記オブジェクトを識別する情報とを取得する取得処理と、
　前記複数のモダリティそれぞれの特徴値を生成する特徴生成処理と、
　前記複数のモダリティそれぞれの特徴値と前記オブジェクトを識別する情報に基づいて、前記複数のモダリティそれぞれに対応する重みを導出する導出処理と、
　前記複数のモダリティそれぞれの特徴値を、前記対応する重みで重みづけして連結した連結値から、前記オブジェクトの属性を予測する予測処理と、
を含む処理を実行させるためのものである
ことを特徴とする情報処理プログラム。
　情報処理をコンピュータに実行させるための情報処理プログラムであって、
　該プログラムは、前記コンピュータに、
　オブジェクトに関連する複数のモダリティと前記オブジェクトを識別する情報とを取得する取得処理と、
　前記複数のモダリティを第１学習モデルに適用することにより、前記複数のモダリティに対する複数の特徴値を生成する特徴生成処理と、
　前記複数のモダリティそれぞれの特徴値と前記オブジェクトを識別する情報を第２学習モデルに適用することにより、前記複数の特徴値それぞれに対応する重みを導出する導出処理と、
　前記複数のモダリティそれぞれの特徴値を、前記対応する重みで重みづけして連結した連結値を第３学習モデルに適用することにより、前記オブジェクトの属性を予測する予測処理と、
を含む処理を実行させるためのものであり、
　前記第２学習モデルは前記オブジェクト毎に異なる重みを出力する学習モデルであることを特徴とする情報処理プログラム。