JP2026032995A

JP2026032995A - システム

Info

Publication number: JP2026032995A
Application number: JP2024136036A
Authority: JP
Inventors: 明渡邊
Original assignee: SoftBank Group Corp
Current assignee: SoftBank Group Corp
Priority date: 2024-08-16
Filing date: 2024-08-16
Publication date: 2026-02-27

Abstract

【課題】実施形態に係るシステムは、ターゲットユーザに最適な広告を効率的に生成することを目的とする。
【解決手段】実施形態に係るシステムは、画像認識部と、動画生成部と、ナレーション生成部と、音楽生成部とを備える。画像認識部は、周囲の環境や人々の特徴を認識する。動画生成部は、画像認識部によって認識された情報に基づいて広告映像を生成する。ナレーション生成部は、動画生成部によって生成された広告映像に合わせてナレーションを生成する。音楽生成部は、動画生成部によって生成された広告映像に合わせて音楽を生成する。
【選択図】図１

Description

本開示の技術は、システムに関する。

特許文献１には、少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法であって、ユーザ発話を受信するステップと、前記ユーザ発話を、チャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップと前記プロンプトをエンコードするステップと、前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成するステップ、を含む、方法が開示されている。

特開２０２２－１８０２８２号公報

従来の技術では、ターゲットユーザに最適な広告を生成するためのプロセスが複雑であり、効率的に行うことが困難であるという課題があった。

実施形態に係るシステムは、ターゲットユーザに最適な広告を効率的に生成することを目的とする。

実施形態に係るシステムは、画像認識部と、動画生成部と、ナレーション生成部と、音楽生成部とを備える。画像認識部は、周囲の環境や人々の特徴を認識する。動画生成部は、画像認識部によって認識された情報に基づいて広告映像を生成する。ナレーション生成部は、動画生成部によって生成された広告映像に合わせてナレーションを生成する。音楽生成部は、動画生成部によって生成された広告映像に合わせて音楽を生成する。

実施形態に係るシステムは、ターゲットユーザに最適な広告を効率的に生成することができる。

第１実施形態に係るデータ処理システムの構成の一例を示す概念図である。第１実施形態に係るデータ処理装置およびスマートデバイスの要部機能の一例を示す概念図である。第２実施形態に係るデータ処理システムの構成の一例を示す概念図である。第２実施形態に係るデータ処理装置およびスマート眼鏡の要部機能の一例を示す概念図である。第３実施形態に係るデータ処理システムの構成の一例を示す概念図である。第３実施形態に係るデータ処理装置およびヘッドセット型端末の要部機能の一例を示す概念図である。第４実施形態に係るデータ処理システムの構成の一例を示す概念図である。第４実施形態に係るデータ処理装置およびロボットの要部機能の一例を示す概念図である。複数の感情がマッピングされる感情マップを示す。複数の感情がマッピングされる感情マップを示す。

以下、添付図面に従って本開示の技術に係るシステムの実施形態の一例について説明する。

先ず、以下の説明で使用される文言について説明する。

以下の実施形態において、符号付きのプロセッサ（以下、単に「プロセッサ」と称する）は、１つの演算装置であってもよいし、複数の演算装置の組み合わせであってもよい。また、プロセッサは、１種類の演算装置であってもよいし、複数種類の演算装置の組み合わせであってもよい。演算装置の一例としては、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）、ＡＰＵ（Accelerated Processing Unit）、またはＴＰＵ（Tensor Processing Unit）などが挙げられる。

以下の実施形態において、符号付きのＲＡＭ（Random Access Memory）は、一時的に情報が格納されるメモリであり、プロセッサによってワークメモリとして用いられる。

以下の実施形態において、符号付きのストレージは、各種プログラムおよび各種パラメータなどを記憶する１つまたは複数の不揮発性の記憶装置である。不揮発性の記憶装置の一例としては、フラッシュメモリ（ＳＳＤ（Solid State Drive））、磁気ディスク（例えば、ハードディスク）、または磁気テープなどが挙げられる。

以下の実施形態において、符号付きの通信Ｉ／Ｆ（Interface）は、通信プロセッサおよびアンテナなどを含むインタフェースである。通信Ｉ／Ｆは、複数のコンピュータ間での通信を司る。通信Ｉ／Ｆに対して適用される通信規格の一例としては、５Ｇ（5th Generation Mobile Communication System）、Ｗｉ－Ｆｉ（登録商標）、またはＢｌｕｅｔｏｏｔｈ（登録商標）などを含む無線通信規格が挙げられる。

以下の実施形態において、「Ａおよび／またはＢ」は、「ＡおよびＢのうちの少なくとも１つ」と同義である。つまり、「Ａおよび／またはＢ」は、Ａだけであってもよいし、Ｂだけであってもよいし、ＡおよびＢの組み合わせであってもよい、という意味である。また、本明細書において、３つ以上の事柄を「および／または」で結び付けて表現する場合も、「Ａおよび／またはＢ」と同様の考え方が適用される。

［第１実施形態］
図１には、第１実施形態に係るデータ処理システム１０の構成の一例が示されている。

図１に示すように、データ処理システム１０は、データ処理装置１２およびスマートデバイス１４を備えている。データ処理装置１２の一例としては、サーバが挙げられる。

データ処理装置１２は、コンピュータ２２、データベース２４、および通信Ｉ／Ｆ２６を備えている。コンピュータ２２は、プロセッサ２８、ＲＡＭ３０、およびストレージ３２を備えている。プロセッサ２８、ＲＡＭ３０、およびストレージ３２は、バス３４に接続されている。また、データベース２４および通信Ｉ／Ｆ２６も、バス３４に接続されている。通信Ｉ／Ｆ２６は、ネットワーク５４に接続されている。ネットワーク５４の一例としては、ＷＡＮ（Wide Area Network）および／またはＬＡＮ（Local Area Network）などが挙げられる。

スマートデバイス１４は、コンピュータ３６、受付装置３８、出力装置４０、カメラ４２、および通信Ｉ／Ｆ４４を備えている。コンピュータ３６は、プロセッサ４６、ＲＡＭ４８、およびストレージ５０を備えている。プロセッサ４６、ＲＡＭ４８、およびストレージ５０は、バス５２に接続されている。また、受付装置３８、出力装置４０、およびカメラ４２も、バス５２に接続されている。

受付装置３８は、タッチパネル３８Ａおよびマイクロフォン３８Ｂなどを備えており、ユーザ入力を受け付ける。タッチパネル３８Ａは、指示体（例えば、ペンまたは指など）の接触を検出することにより、指示体の接触によるユーザ入力を受け付ける。マイクロフォン３８Ｂは、ユーザの音声を検出することにより、音声によるユーザ入力を受け付ける。制御部４６Ａは、タッチパネル３８Ａおよびマイクロフォン３８Ｂによって受け付けたユーザ入力を示すデータをデータ処理装置１２に送信する。データ処理装置１２では、特定処理部２９０（図２参照）が、ユーザ入力を示すデータを取得する。

出力装置４０は、ディスプレイ４０Ａおよびスピーカ４０Ｂなどを備えており、データをユーザが知覚可能な表現形（例えば、音声および／またはテキスト）で出力することでデータをユーザに対して提示する。ディスプレイ４０Ａは、プロセッサ４６からの指示に従ってテキストおよび画像などの可視情報を表示する。スピーカ４０Ｂは、プロセッサ４６からの指示に従って音声を出力する。カメラ４２は、レンズ、絞り、およびシャッタなどの光学系と、ＣＭＯＳ（Complementary Metal-Oxide-Semiconductor）イメージセンサまたはＣＣＤ（Charge Coupled Device）イメージセンサなどの撮像素子とが搭載された小型デジタルカメラである。

通信Ｉ／Ｆ４４は、ネットワーク５４に接続されている。通信Ｉ／Ｆ４４および２６は、ネットワーク５４を介してプロセッサ４６とプロセッサ２８との間の各種情報の授受を司る。

図２には、データ処理装置１２およびスマートデバイス１４の要部機能の一例が示されている。

図２に示すように、データ処理装置１２では、プロセッサ２８によって特定処理が行われる。ストレージ３２には、特定処理プログラム５６が格納されている。特定処理プログラム５６は、本開示の技術に係る「プログラム」の一例である。プロセッサ２８は、ストレージ３２から特定処理プログラム５６を読み出し、読み出した特定処理プログラム５６をＲＡＭ３０上で実行する。特定処理は、プロセッサ２８がＲＡＭ３０上で実行する特定処理プログラム５６に従って特定処理部２９０として動作することによって実現される。

ストレージ３２には、データ生成モデル５８および感情特定モデル５９が格納されている。データ生成モデル５８および感情特定モデル５９は、特定処理部２９０によって用いられる。特定処理部２９０は、感情特定モデル５９を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うことができる。感情特定モデル５９を用いた感情推定機能（感情特定機能）では、ユーザの感情の推定や予測などを含め、ユーザの感情に関する種々の推定や予測などが行われるが、かかる例に限定されない。また、感情の推定や予測には、例えば、感情の分析（解析）なども含まれる。

スマートデバイス１４では、プロセッサ４６によって特定処理が行われる。ストレージ５０には、特定処理プログラム６０が格納されている。特定処理プログラム６０は、データ処理システム１０によって特定処理プログラム５６と併用される。プロセッサ４６は、ストレージ５０から特定処理プログラム６０を読み出し、読み出した特定処理プログラム６０をＲＡＭ４８上で実行する。特定処理は、プロセッサ４６がＲＡＭ４８上で実行する特定処理プログラム６０に従って、制御部４６Ａとして動作することによって実現される。なお、スマートデバイス１４には、データ生成モデル５８および感情特定モデル５９と同様のデータ生成モデルおよび感情特定モデルを有し、これらモデルを用いて特定処理部２９０と同様の処理を行うこともできる。

なお、データ処理装置１２以外の他の装置がデータ生成モデル５８を有してもよい。例えば、サーバ装置（例えば、生成サーバ）がデータ生成モデル５８を有してもよい。この場合、データ処理装置１２は、データ生成モデル５８を有するサーバ装置と通信を行うことで、データ生成モデル５８が用いられた処理結果（予測結果など）を得る。また、データ処理装置１２は、サーバ装置であってもよいし、ユーザが保有する端末装置（例えば、携帯電話、ロボット、家電など）であってもよい。次に、第１実施形態に係るデータ処理システム１０による処理の一例について説明する。

（形態例１）
本発明の実施形態に係る広告生成システムは、周囲の環境や人々の特徴を認識し、生成AIが広告を生成するシステムである。これにより、広告生成システムは、ターゲットユーザ向けの広告を効果的に提供することができる。

実施形態に係る広告生成システムは、画像認識部と、動画生成部と、ナレーション生成部と、音楽生成部とを備える。画像認識部は、周囲の環境や人々の特徴を認識する。例えば、画像認識部は、カメラを用いて通行人の年齢、性別、服装などを認識し、その情報を収集する。また、画像認識部は、店舗内のカメラを用いて棚に並んだ商品を認識し、その情報を収集することもできる。動画生成部は、画像認識部によって認識された情報に基づいて広告映像を生成する。例えば、動画生成部は、通行人の年齢や性別に応じて、適切な商品やサービスを紹介する映像を生成する。また、動画生成部は、通行人の特徴に応じてリアルタイムで変化する広告映像を生成することもできる。ナレーション生成部は、動画生成部によって生成された広告映像に合わせてナレーションを生成する。例えば、ナレーション生成部は、商品の特徴やメリットを説明する音声を生成する。また、ナレーション生成部は、ユーザの名前や個人情報を反映させ、パーソナライズされたメッセージを伝えることもできる。音楽生成部は、動画生成部によって生成された広告映像に合わせて音楽を生成する。例えば、音楽生成部は、商品のイメージに合ったBGMを生成する。また、音楽生成部は、ユーザの感情に応じた音楽ジャンルやスタイルを選定することもできる。これにより、広告生成システムは、ターゲットユーザ向けの広告を効果的に提供することができる。

画像認識部は、カメラを用いて通行人の年齢、性別、服装などを認識し、その情報を収集する情報収集部を備えることができる。画像認識部は、例えば、カメラを用いて通行人の年齢、性別、服装などを認識し、その情報を収集する。例えば、画像認識AIが通行人の動きをリアルタイムで追跡し、次に向かう可能性の高い場所を予測する。例えば、ショッピングモール内で特定の店舗に向かうと予測された場合、その店舗の商品広告を事前に準備する。また、画像認識AIが通行人の過去の行動パターンを学習し、次に訪れる可能性の高いエリアを予測する。例えば、過去にカフェを訪れたことがある通行人に対して、近くのカフェの広告を表示する。また、画像認識AIが通行人の現在の行動を解析し、次に取る行動を予測する。例えば、通行人がスマートフォンを見ている場合、近くの電子機器店の広告を表示する。これにより、通行人の特徴に基づいて広告を生成することができる。

画像認識部は、店舗内のカメラを用いて棚に並んだ商品を認識し、その情報を収集する情報収集部を備えることができる。画像認識部は、例えば、店舗内のカメラを用いて棚に並んだ商品を認識し、その情報を収集する。例えば、画像認識AIが通行人の顔色や姿勢を解析し、疲労やストレスの兆候を検出する。例えば、疲れていると判断された場合、リラクゼーションマッサージの広告を表示する。また、画像認識AIが通行人の表情を解析し、気分を推定する。例えば、笑顔が少ない場合、リフレッシュできるカフェの広告を表示する。また、画像認識AIが通行人の動作を解析し、健康状態を推定する。例えば、歩行が不安定な場合、健康サポート商品の広告を表示する。これにより、店舗内の商品情報に基づいて広告を生成することができる。

動画生成部は、通行人の年齢や性別に応じて、適切な商品やサービスを紹介する映像を生成する映像生成部を備えることができる。動画生成部は、例えば、通行人の年齢や性別に応じて、適切な商品やサービスを紹介する映像を生成する。例えば、画像認識AIが通行人の表情をリアルタイムで解析し、感情を推定する。例えば、笑顔が少ない場合、ユーモアのある広告を表示して笑顔を引き出す。また、画像認識AIが通行人の感情を解析し、ポジティブな感情を引き出すための広告を生成する。例えば、ストレスを感じている場合、リラクゼーション商品の広告を表示する。また、画像認識AIが通行人の感情をリアルタイムで分析し、ポジティブな感情を引き出すための映像や音楽を組み合わせた広告を生成する。例えば、感動的な映像と心地よい音楽を組み合わせた広告を表示する。これにより、通行人の特徴に基づいて適切な広告映像を生成することができる。

ナレーション生成部は、商品の特徴やメリットを説明する音声を生成する音声生成部を備えることができる。ナレーション生成部は、例えば、商品の特徴やメリットを説明する音声を生成する。例えば、画像認識AIが通行人の服装や持ち物を解析し、趣味や嗜好を推定する。例えば、スポーツウェアを着ている場合、スポーツイベントの広告を表示する。また、画像認識AIが通行人の行動パターンを解析し、趣味や嗜好を推定する。例えば、頻繁にカフェを訪れる通行人に対して、新しいカフェのオープン情報を広告する。また、画像認識AIが通行人の外見や行動を解析し、趣味や嗜好を推定する。例えば、カメラを持っている通行人に対して、写真展の広告を表示する。これにより、商品の特徴やメリットを効果的に伝えることができる。

音楽生成部は、商品のイメージに合ったBGMを生成するBGM生成部を備えることができる。音楽生成部は、例えば、商品のイメージに合ったBGMを生成する。例えば、画像認識AIが通行人の行動を解析し、友人や家族と一緒にいるかを推定する。例えば、複数人で行動している場合、グループ向けのレストラン広告を表示する。また、画像認識AIが通行人の特徴を解析し、社会的関係を推定する。例えば、親子で行動している場合、ファミリー向けのイベント広告を表示する。また、画像認識AIが通行人の行動パターンを解析し、社会的関係を推定する。例えば、友人同士でショッピングをしている場合、グループ割引の広告を表示する。これにより、商品のイメージに合った音楽を提供することで、広告の効果を高めることができる。

動画生成部は、通行人の特徴に応じてリアルタイムで変化する広告映像を生成する広告映像生成部を備えることができる。動画生成部は、例えば、通行人の特徴に応じてリアルタイムで変化する広告映像を生成する。例えば、画像認識AIが通行人の感情をリアルタイムで解析し、その感情に応じた音楽を提案する広告を生成する。例えば、リラックスしたいと感じている場合、リラクゼーション音楽の広告を表示する。また、画像認識AIが通行人の感情を解析し、その感情に応じた映像コンテンツを提案する広告を生成する。例えば、元気を出したいと感じている場合、エネルギッシュな映像の広告を表示する。また、画像認識AIが通行人の感情をリアルタイムで分析し、その感情に応じた音楽や映像コンテンツを組み合わせた広告を生成する。例えば、感動的な映像と心地よい音楽を組み合わせた広告を表示する。これにより、通行人の特徴に応じてリアルタイムで変化する広告を提供することができる。

動画生成部は、ユーザの過去の行動データを反映させ、パーソナライズされたストーリーを作成するストーリー生成部を備えることができる。動画生成部は、例えば、ユーザの過去の行動データを反映させ、パーソナライズされたストーリーを作成する。例えば、動画生成AIがユーザの過去の購買履歴を解析し、そのデータを基にパーソナライズされた広告映像を生成する。例えば、過去に購入した商品に関連するストーリーを作成する。また、動画生成AIがユーザの過去の閲覧履歴を解析し、そのデータを基にパーソナライズされた広告映像を生成する。例えば、過去に閲覧した商品やサービスに関連するストーリーを作成する。また、動画生成AIがユーザの過去の行動データを解析し、そのデータを基にパーソナライズされた広告映像を生成する。例えば、過去に訪れた場所や参加したイベントに関連するストーリーを作成する。これにより、ユーザの過去の行動データに基づいてパーソナライズされた広告映像を生成することができる。

動画生成部は、ユーザの現在の位置情報を反映させ、近隣の店舗やサービスを紹介する紹介部を備えることができる。動画生成部は、例えば、ユーザの現在の位置情報を反映させ、近隣の店舗やサービスを紹介する。例えば、動画生成AIがユーザの現在の位置情報を取得し、そのデータを基に近隣の店舗やサービスを紹介する広告映像を生成する。例えば、現在地から最も近いカフェやレストランの広告を表示する。また、動画生成AIがユーザの現在の位置情報を取得し、そのデータを基に近隣のイベントやアクティビティを紹介する広告映像を生成する。例えば、現在地から最も近いコンサートや展覧会の広告を表示する。また、動画生成AIがユーザの現在の位置情報を取得し、そのデータを基に近隣の特売情報やキャンペーンを紹介する広告映像を生成する。例えば、現在地から最も近い店舗の特売情報を表示する。これにより、ユーザの現在の位置情報に基づいて近隣の店舗やサービスを紹介する広告映像を生成することができる。

ナレーション生成部は、ユーザの名前や個人情報を反映させ、パーソナライズされたメッセージを伝えるメッセージ生成部を備えることができる。ナレーション生成部は、例えば、ユーザの名前や個人情報を反映させ、パーソナライズされたメッセージを伝える。例えば、ナレーションAIがユーザの名前を音声に組み込み、パーソナライズされたメッセージを生成する。例えば、「こんにちは、山田さん。今日は特別なオファーがあります。」といったメッセージを生成する。また、ナレーションAIがユーザの過去の購入履歴を音声に組み込み、パーソナライズされたメッセージを生成する。例えば、「前回ご購入いただいた商品に関連する新商品をご紹介します。」といったメッセージを生成する。また、ナレーションAIがユーザの個人情報を音声に組み込み、パーソナライズされたメッセージを生成する。例えば、「お誕生日おめでとうございます。特別なプレゼントをご用意しました。」といったメッセージを生成する。これにより、ユーザの名前や個人情報に基づいてパーソナライズされたメッセージを伝えることができる。

ナレーション生成部は、ユーザの過去の購入履歴を反映させ、リピート購入を促すメッセージを伝えるメッセージ生成部を備えることができる。ナレーション生成部は、例えば、ユーザの過去の購入履歴を反映させ、リピート購入を促すメッセージを伝える。例えば、ナレーションAIがユーザの過去の購入履歴を音声に組み込み、リピート購入を促すメッセージを生成する。例えば、「前回ご購入いただいたシャンプーのリピート購入はいかがですか？」といったメッセージを生成する。また、ナレーションAIがユーザの過去の購入履歴を音声に組み込み、リピート購入を促すメッセージを生成する。例えば、「前回ご利用いただいたスパサービスのリピート利用をお勧めします。」といったメッセージを生成する。また、ナレーションAIがユーザの過去の購入履歴を音声に組み込み、リピート購入を促すメッセージを生成する。例えば、「前回ご購入いただいたワインのリピート購入はいかがですか？」といったメッセージを生成する。これにより、ユーザの過去の購入履歴に基づいてリピート購入を促すメッセージを伝えることができる。

音楽生成部は、ユーザの過去の音楽嗜好を反映させ、好みのBGMを提供するBGM生成部を備えることができる。音楽生成部は、例えば、ユーザの過去の音楽嗜好を反映させ、好みのBGMを提供する。例えば、音楽生成AIがユーザの過去の音楽嗜好を解析し、そのデータを基に好みのBGMを生成する。例えば、過去に聴いたことのあるアーティストの曲調を反映させたBGMを提供する。また、音楽生成AIがユーザの過去の音楽嗜好を解析し、そのデータを基に好みのBGMを生成する。例えば、過去に好んで聴いたジャンルの音楽を反映させたBGMを提供する。また、音楽生成AIがユーザの過去の音楽嗜好を解析し、そのデータを基に好みのBGMを生成する。例えば、過去にプレイリストに追加した曲の特徴を反映させたBGMを提供する。これにより、ユーザの過去の音楽嗜好に基づいて好みのBGMを提供することができる。

広告映像生成部は、デジタルサイネージやオンラインプラットフォームを通じて配信・表示される配信部および表示部を備えることができる。広告映像生成部は、例えば、デジタルサイネージやオンラインプラットフォームを通じて配信・表示される。例えば、デジタルサイネージに表示される広告映像は、通行人の特徴に応じてリアルタイムで変化する。例えば、年齢や性別に応じた広告を表示する。また、オンラインプラットフォームでは、ユーザの閲覧履歴や興味に基づいてパーソナライズされた広告が表示される。例えば、過去に閲覧した商品に関連する広告を表示する。また、広告映像は、ユーザの行動データを基に最適なタイミングで配信される。例えば、特定の時間帯に特定の広告を表示する。これにより、広告映像をデジタルサイネージやオンラインプラットフォームを通じて配信・表示することができる。

広告映像生成部は、ユーザのデバイスに応じて最適なフォーマットで配信される配信部を備えることができる。広告映像生成部は、例えば、ユーザのデバイスに応じて最適なフォーマットで配信される。例えば、広告映像は、スマートフォン、タブレット、PCなど、ユーザのデバイスに応じて最適なフォーマットで配信される。例えば、スマートフォン向けに縦型の広告映像を生成する。また、広告映像は、ユーザのデバイスの画面サイズに応じて最適な解像度で配信される。例えば、高解像度のディスプレイに対して高画質の広告映像を配信する。また、広告映像は、ユーザのデバイスの接続速度に応じて最適なビットレートで配信される。例えば、低速な接続環境に対して低ビットレートの広告映像を配信する。これにより、ユーザのデバイスに応じて最適なフォーマットで広告映像を配信することができる。

広告映像生成部は、ユーザの行動データを基に最適なタイミングで配信される配信部を備えることができる。広告映像生成部は、例えば、ユーザの行動データを基に最適なタイミングで配信される。例えば、広告映像は、ユーザの過去の行動データを解析し、最適なタイミングで配信される。例えば、特定の時間帯に特定の広告を表示する。また、広告映像は、ユーザの現在の行動をリアルタイムで解析し、最適なタイミングで配信される。例えば、ユーザが特定のアクションを取った直後に関連する広告を表示する。また、広告映像は、ユーザの行動パターンを学習し、最適なタイミングで配信される。例えば、ユーザが特定の場所にいる時に関連する広告を表示する。これにより、ユーザの行動データに基づいて最適なタイミングで広告映像を配信することができる。

広告映像生成部は、ユーザの興味や関心に基づいてパーソナライズされる生成部を備えることができる。広告映像生成部は、例えば、ユーザの興味や関心に基づいてパーソナライズされる。例えば、広告映像は、ユーザの過去の閲覧履歴を解析し、そのデータを基にパーソナライズされる。例えば、過去に閲覧した商品に関連する広告を表示する。また、広告映像は、ユーザの過去の購買履歴を解析し、そのデータを基にパーソナライズされる。例えば、過去に購入した商品に関連する広告を表示する。また、広告映像は、ユーザの興味や関心を解析し、そのデータを基にパーソナライズされる。例えば、特定の趣味や関心事に関連する広告を表示する。これにより、ユーザの興味や関心に基づいてパーソナライズされた広告映像を生成することができる。

実施形態に係るシステムは、上述した例に限定されず、例えば、以下のように、種々の変更が可能である。

広告生成システムは、さらにユーザの健康状態をモニタリングする健康モニタリング部を備えることができる。例えば、健康モニタリング部は、ユーザの心拍数や歩数をリアルタイムで計測し、そのデータを基に健康状態を評価する。例えば、心拍数が高い場合、リラクゼーション商品の広告を表示する。また、歩数が少ない場合、フィットネス関連商品の広告を表示することもできる。さらに、健康モニタリング部は、ユーザの睡眠パターンを解析し、睡眠の質を評価する。例えば、睡眠不足と判断された場合、快眠グッズの広告を表示することもできる。これにより、ユーザの健康状態に基づいて適切な広告を提供することができる。

広告生成システムは、さらにユーザの趣味や嗜好を学習する趣味嗜好学習部を備えることができる。例えば、趣味嗜好学習部は、ユーザの過去の行動データを解析し、趣味や嗜好を学習する。例えば、過去に閲覧したコンテンツや参加したイベントに基づいて、ユーザの趣味を推定する。また、趣味嗜好学習部は、ユーザのソーシャルメディアの投稿を解析し、趣味や嗜好を学習する。例えば、特定のジャンルの音楽や映画に関する投稿が多い場合、そのジャンルに関連する広告を表示することもできる。さらに、趣味嗜好学習部は、ユーザの購買履歴を解析し、趣味や嗜好を学習する。例えば、特定のブランドの商品を頻繁に購入している場合、そのブランドに関連する広告を表示することもできる。これにより、ユーザの趣味や嗜好に基づいてパーソナライズされた広告を提供することができる。

広告生成システムは、さらにユーザの位置情報を利用して広告を最適化する位置情報最適化部を備えることができる。例えば、位置情報最適化部は、ユーザの現在の位置情報を取得し、そのデータを基に近隣の店舗やサービスを紹介する広告を生成する。例えば、現在地から最も近いカフェやレストランの広告を表示する。また、位置情報最適化部は、ユーザの過去の位置情報を解析し、行動パターンを学習する。例えば、特定のエリアを頻繁に訪れるユーザに対して、そのエリアに関連する広告を表示することもできる。さらに、位置情報最適化部は、ユーザの位置情報に基づいて広告のタイミングを調整する。例えば、特定の場所に到着した直後に関連する広告を表示することもできる。これにより、ユーザの位置情報に基づいて効果的な広告を提供することができる。

広告生成システムは、さらにユーザの購買履歴を基にリコメンデーションを行うリコメンデーション部を備えることができる。例えば、リコメンデーション部は、ユーザの過去の購買履歴を解析し、関連する商品の広告を表示する。例えば、過去に購入した商品に関連する新商品の広告を表示する。また、リコメンデーション部は、ユーザの購買履歴を基にパーソナライズされた広告を生成する。例えば、特定のブランドの商品を頻繁に購入している場合、そのブランドの新商品の広告を表示することもできる。さらに、リコメンデーション部は、ユーザの購買履歴を基に関連するサービスの広告を表示する。例えば、過去に利用したサービスに関連する新しいサービスの広告を表示することもできる。これにより、ユーザの購買履歴に基づいて効果的な広告を提供することができる。

広告生成システムは、さらにユーザのデバイスの使用状況を解析するデバイス解析部を備えることができる。例えば、デバイス解析部は、ユーザのデバイスの使用状況をリアルタイムで解析し、そのデータを基に広告を生成する。例えば、スマートフォンを頻繁に使用している場合、モバイル向けの広告を表示する。また、デバイス解析部は、ユーザのデバイスの設定やアプリの使用状況を解析し、関連する広告を表示する。例えば、特定のアプリを頻繁に使用している場合、そのアプリに関連する広告を表示することもできる。さらに、デバイス解析部は、ユーザのデバイスのバッテリー残量や接続状況を解析し、広告の内容を調整する。例えば、バッテリーが少ない場合、短時間で効果的な広告を表示することもできる。これにより、ユーザのデバイスの使用状況に基づいて効果的な広告を提供することができる。

以下に、形態例１の処理の流れについて簡単に説明する。

ステップ１：画像認識部は、周囲の環境や人々の特徴を認識する。例えば、カメラを用いて通行人の年齢、性別、服装などを認識し、その情報を収集する。また、店舗内のカメラを用いて棚に並んだ商品を認識し、その情報を収集することもできる。
ステップ２：動画生成部は、画像認識部によって認識された情報に基づいて広告映像を生成する。例えば、通行人の年齢や性別に応じて、適切な商品やサービスを紹介する映像を生成する。また、通行人の特徴に応じてリアルタイムで変化する広告映像を生成することもできる。
ステップ３：ナレーション生成部は、動画生成部によって生成された広告映像に合わせてナレーションを生成する。例えば、商品の特徴やメリットを説明する音声を生成する。また、ユーザの名前や個人情報を反映させ、パーソナライズされたメッセージを伝えることもできる。
ステップ４：音楽生成部は、動画生成部によって生成された広告映像に合わせて音楽を生成する。例えば、商品のイメージに合ったBGMを生成する。また、ユーザの感情に応じた音楽ジャンルやスタイルを選定することもできる。

（形態例２）
本発明の実施形態に係る広告生成システムは、周囲の環境や人々の特徴を認識し、生成AIが広告を生成するシステムである。これにより、広告生成システムは、ターゲットユーザ向けの広告を効果的に提供することができる。

動画生成部は、ユーザの感情に応じた映像効果をリアルタイムで調整する調整部を備えることができる。動画生成部は、例えば、ユーザの感情に応じた映像効果をリアルタイムで調整する。例えば、動画生成AIがユーザの感情をリアルタイムで解析し、その感情に応じた映像効果を調整する。例えば、ポジティブな感情を持っているユーザに対して、明るい色調とアップテンポの音楽を使用する。また、動画生成AIがユーザの感情をリアルタイムで解析し、その感情に応じた映像効果を調整する。例えば、リラックスしたいと感じているユーザに対して、落ち着いた色調とリラクゼーション音楽を使用する。また、動画生成AIがユーザの感情をリアルタイムで解析し、その感情に応じた映像効果を調整する。例えば、エネルギッシュな気分のユーザに対して、鮮やかな色調とエネルギッシュな音楽を使用する。これにより、ユーザの感情に応じて映像効果をリアルタイムで調整することができる。

ナレーション生成部は、ユーザの感情に応じたトーンやテンポでナレーションを生成するナレーション生成部を備えることができる。ナレーション生成部は、例えば、ユーザの感情に応じたトーンやテンポでナレーションを生成する。例えば、ナレーションAIがユーザの感情をリアルタイムで解析し、その感情に応じたトーンやテンポでナレーションを生成する。例えば、リラックスしたいと感じているユーザに対して、落ち着いたトーンとゆっくりしたテンポのナレーションを生成する。また、ナレーションAIがユーザの感情をリアルタイムで解析し、その感情に応じたトーンやテンポでナレーションを生成する。例えば、エネルギッシュな気分のユーザに対して、明るいトーンと速いテンポのナレーションを生成する。また、ナレーションAIがユーザの感情をリアルタイムで解析し、その感情に応じたトーンやテンポでナレーションを生成する。例えば、感動的な気分のユーザに対して、感情豊かなトーンと適度なテンポのナレーションを生成する。これにより、ユーザの感情に応じたトーンやテンポでナレーションを生成することができる。

音楽生成部は、ユーザの感情に応じた音楽ジャンルやスタイルを選定する選定部を備えることができる。音楽生成部は、例えば、ユーザの感情に応じた音楽ジャンルやスタイルを選定する。例えば、音楽生成AIがユーザの感情をリアルタイムで解析し、その感情に応じた音楽ジャンルやスタイルを選定する。例えば、リラックスしたいと感じているユーザに対して、クラシック音楽を提供する。また、音楽生成AIがユーザの感情をリアルタイムで解析し、その感情に応じた音楽ジャンルやスタイルを選定する。例えば、エネルギッシュな気分のユーザに対して、ロック音楽を提供する。また、音楽生成AIがユーザの感情をリアルタイムで解析し、その感情に応じた音楽ジャンルやスタイルを選定する。例えば、感動的な気分のユーザに対して、バラード音楽を提供する。これにより、ユーザの感情に応じた音楽ジャンルやスタイルを選定することで、広告の効果を高めることができる。

広告映像生成部は、ユーザの感情に応じてリアルタイムで調整される調整部を備えることができる。広告映像生成部は、例えば、ユーザの感情に応じてリアルタイムで調整される。例えば、広告映像は、ユーザの感情をリアルタイムで解析し、その感情に応じて調整される。例えば、ポジティブな感情を持っているユーザに対して、明るい色調とアップテンポの音楽を使用する。また、広告映像は、ユーザの感情をリアルタイムで解析し、その感情に応じて調整される。例えば、リラックスしたいと感じているユーザに対して、落ち着いた色調とリラクゼーション音楽を使用する。また、広告映像は、ユーザの感情をリアルタイムで解析し、その感情に応じて調整される。例えば、エネルギッシュな気分のユーザに対して、鮮やかな色調とエネルギッシュな音楽を使用する。これにより、ユーザの感情に応じてリアルタイムで広告映像を調整することができる。

広告生成システムは、さらにユーザの購買意欲を推定する購買意欲推定部を備えることができる。例えば、購買意欲推定部は、ユーザの過去の購買履歴や閲覧履歴を解析し、現在の購買意欲を評価する。例えば、過去に頻繁に購入している商品に関連する広告を表示する。また、購買意欲推定部は、ユーザの現在の行動をリアルタイムで解析し、購買意欲を推定する。例えば、特定の商品を長時間見ている場合、その商品の広告を表示することもできる。さらに、購買意欲推定部は、ユーザの感情を解析し、購買意欲を推定する。例えば、ポジティブな感情を持っている場合、購買意欲が高いと判断し、関連する商品の広告を表示することもできる。これにより、ユーザの購買意欲に基づいて効果的な広告を提供することができる。

広告生成システムは、さらにユーザの感情を推定し、推定した感情に基づいて広告の内容を調整する感情調整部を備えることができる。例えば、感情調整部は、ユーザの表情や音声を解析し、感情を推定する。例えば、ユーザが笑顔である場合、ポジティブな感情を引き出す広告を表示する。また、ユーザが疲れていると判断された場合、リラクゼーション商品の広告を表示することもできる。さらに、感情調整部は、ユーザの感情に応じて広告のトーンやスタイルを調整する。例えば、リラックスしたいと感じているユーザに対して、落ち着いたトーンの広告を表示することもできる。これにより、ユーザの感情に基づいて広告の内容をリアルタイムで調整することができる。

広告生成システムは、さらにユーザのソーシャルメディアの活動を解析するソーシャルメディア解析部を備えることができる。例えば、ソーシャルメディア解析部は、ユーザの投稿やコメントを解析し、興味や関心を推定する。例えば、特定のブランドや商品に関する投稿が多い場合、そのブランドや商品に関連する広告を表示する。また、ソーシャルメディア解析部は、ユーザのフォロワーや友人の活動を解析し、興味や関心を推定する。例えば、友人が頻繁に訪れる場所に関連する広告を表示することもできる。さらに、ソーシャルメディア解析部は、ユーザの感情を解析し、広告の内容を調整する。例えば、ポジティブな感情を持っているユーザに対して、明るいトーンの広告を表示することもできる。これにより、ユーザのソーシャルメディアの活動に基づいてパーソナライズされた広告を提供することができる。

広告生成システムは、さらにユーザの音声コマンドを解析する音声解析部を備えることができる。例えば、音声解析部は、ユーザの音声コマンドをリアルタイムで解析し、その内容に基づいて広告を生成する。例えば、ユーザが「近くのレストランを探している」と言った場合、そのリクエストに応じたレストランの広告を表示する。また、音声解析部は、ユーザの音声トーンやテンポを解析し、感情を推定する。例えば、興奮したトーンで話している場合、エネルギッシュな広告を表示することもできる。さらに、音声解析部は、ユーザの音声コマンドに基づいて広告の内容をカスタマイズする。例えば、特定の商品やサービスに関する質問に対して、その商品やサービスの広告を表示することもできる。これにより、ユーザの音声コマンドに基づいて効果的な広告を提供することができる。

広告生成システムは、さらにユーザのフィードバックを収集し、広告の効果を評価するフィードバック収集部を備えることができる。例えば、フィードバック収集部は、ユーザの広告に対する反応をリアルタイムで収集し、そのデータを基に広告の効果を評価する。例えば、広告を見た後のユーザの行動を追跡し、購買に至ったかどうかを評価する。また、フィードバック収集部は、ユーザの感情を解析し、広告の効果を評価する。例えば、広告を見た後のユーザの表情や音声を解析し、ポジティブな反応があったかどうかを評価することもできる。さらに、フィードバック収集部は、ユーザからの直接的なフィードバックを収集し、広告の改善に役立てる。例えば、アンケートやレビューを通じて、ユーザの意見や感想を収集することもできる。これにより、ユーザのフィードバックに基づいて広告の効果を評価し、改善することができる。

以下に、形態例２の処理の流れについて簡単に説明する。

特定処理部２９０は、特定処理の結果をスマートデバイス１４に送信する。スマートデバイス１４では、制御部４６Ａが、出力装置４０に対して特定処理の結果を出力させる。マイクロフォン３８Ｂは、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部４６Ａは、マイクロフォン３８Ｂによって取得されたユーザ入力を示す音声データをデータ処理装置１２に送信する。データ処理装置１２では、特定処理部２９０が音声データを取得する。

データ生成モデル５８は、いわゆる生成ＡＩ（Artificial Intelligence）である。データ生成モデル５８の一例としては、ＣｈａｔＧＰＴ（登録商標）（インターネット検索＜URL: https://openai.com/blog/chatgpt＞）などの生成ＡＩが挙げられる。データ生成モデル５８は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル５８には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、および画像を示す画像データなどの推論用データが入力される。データ生成モデル５８は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データおよびテキストデータなどのデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、および／または要約などを指す。特定処理部２９０は、データ生成モデル５８を用いながら、上述した特定処理を行う。データ生成モデル５８は、指示を含まないプロンプトから推論結果を出力するように、ファインチューニングされたモデルであってもよく、この場合、データ生成モデル５８は、指示を含まないプロンプトから推論結果を出力することができる。データ処理装置１２などにおいて、データ生成モデル５８は複数種類含まれており、データ生成モデル５８は、生成ＡＩ以外のＡＩを含む。生成ＡＩ以外のＡＩは、例えば、線形回帰、ロジスティック回帰、決定木、ランダムフォレスト、サポートベクターマシン（ＳＶＭ）、ｋ－ｍｅａｎｓクラスタリング、畳み込みニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、生成的敵対的ネットワーク（ＧＡＮ）、またはナイーブベイズなどであり、種々の処理を行うことができるが、かかる例に限定されない。また、ＡＩは、ＡＩエージェントであってもよい。また、上述した各部の処理がＡＩで行われる場合、その処理は、ＡＩで一部または全部が行われるが、かかる例に限定されない。また、生成ＡＩを含むＡＩで実施される処理は、ルールベースでの処理に置き換えてもよい。

また、上述したデータ処理システム１０による処理は、データ処理装置１２の特定処理部２９０またはスマートデバイス１４の制御部４６Ａによって実行されるが、データ処理装置１２の特定処理部２９０とスマートデバイス１４の制御部４６Ａとによって実行されてもよい。また、データ処理装置１２の特定処理部２９０は、処理に必要な情報をスマートデバイス１４または外部の装置などから取得したり収集したりし、スマートデバイス１４は、処理に必要な情報をデータ処理装置１２または外部の装置などから取得したり収集したりする。

［第２実施形態］
図３には、第２実施形態に係るデータ処理システム２１０の構成の一例が示されている。

図３に示すように、データ処理システム２１０は、データ処理装置１２およびスマート眼鏡２１４を備えている。データ処理装置１２の一例としては、サーバが挙げられる。

データ処理装置１２は、コンピュータ２２、データベース２４、および通信Ｉ／Ｆ２６を備えている。コンピュータ２２は、プロセッサ２８、ＲＡＭ３０、およびストレージ３２を備えている。プロセッサ２８、ＲＡＭ３０、およびストレージ３２は、バス３４に接続されている。また、データベース２４および通信Ｉ／Ｆ２６も、バス３４に接続されている。通信Ｉ／Ｆ２６は、ネットワーク５４に接続されている。ネットワーク５４の一例としては、ＷＡＮおよび／またはＬＡＮなどが挙げられる。

スマート眼鏡２１４は、コンピュータ３６、マイクロフォン２３８、スピーカ２４０、カメラ４２、および通信Ｉ／Ｆ４４を備えている。コンピュータ３６は、プロセッサ４６、ＲＡＭ４８、およびストレージ５０を備えている。プロセッサ４６、ＲＡＭ４８、およびストレージ５０は、バス５２に接続されている。また、マイクロフォン２３８、スピーカ２４０、およびカメラ４２も、バス５２に接続されている。

マイクロフォン２３８は、ユーザが発する音声を受け付けることで、ユーザから指示などを受け付ける。マイクロフォン２３８は、ユーザが発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ４６に出力する。スピーカ２４０は、プロセッサ４６からの指示に従って音声を出力する。

カメラ４２は、レンズ、絞り、およびシャッタなどの光学系と、ＣＭＯＳ（Complementary Metal-Oxide-Semiconductor）イメージセンサまたはＣＣＤ（Charge Coupled Device）イメージセンサなどの撮像素子とが搭載された小型デジタルカメラであり、ユーザの周囲（例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲）を撮像する。

通信Ｉ／Ｆ４４は、ネットワーク５４に接続されている。通信Ｉ／Ｆ４４および２６は、ネットワーク５４を介してプロセッサ４６とプロセッサ２８との間の各種情報の授受を司る。通信Ｉ／Ｆ４４および２６を用いたプロセッサ４６とプロセッサ２８との間の各種情報の授受はセキュアな状態で行われる。

図４には、データ処理装置１２およびスマート眼鏡２１４の要部機能の一例が示されている。図４に示すように、データ処理装置１２では、プロセッサ２８によって特定処理が行われる。ストレージ３２には、特定処理プログラム５６が格納されている。

プロセッサ２８は、ストレージ３２から特定処理プログラム５６を読み出し、読み出した特定処理プログラム５６をＲＡＭ３０上で実行する。特定処理は、プロセッサ２８がＲＡＭ３０上で実行する特定処理プログラム５６に従って、特定処理部２９０として動作することによって実現される。

スマート眼鏡２１４では、プロセッサ４６によって特定処理が行われる。ストレージ５０には、特定処理プログラム６０が格納されている。プロセッサ４６は、ストレージ５０から特定処理プログラム６０を読み出し、読み出した特定処理プログラム６０をＲＡＭ４８上で実行する。特定処理は、プロセッサ４６がＲＡＭ４８上で実行する特定処理プログラム６０に従って、制御部４６Ａとして動作することによって実現される。なお、スマート眼鏡２１４には、データ生成モデル５８および感情特定モデル５９と同様のデータ生成モデルおよび感情特定モデルを有し、これらモデルを用いて特定処理部２９０と同様の処理を行うこともできる。

なお、データ処理装置１２以外の他の装置がデータ生成モデル５８を有してもよい。例えば、サーバ装置がデータ生成モデル５８を有してもよい。この場合、データ処理装置１２は、データ生成モデル５８を有するサーバ装置と通信を行うことで、データ生成モデル５８が用いられた処理結果（予測結果など）を得る。また、データ処理装置１２は、サーバ装置であってもよいし、ユーザが保有する端末装置（例えば、携帯電話、ロボット、家電など）であってもよい。

特定処理部２９０は、特定処理の結果をスマート眼鏡２１４に送信する。スマート眼鏡２１４では、制御部４６Ａが、スピーカ２４０に対して特定処理の結果を出力させる。マイクロフォン２３８は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部４６Ａは、マイクロフォン２３８によって取得されたユーザ入力を示す音声データをデータ処理装置１２に送信する。データ処理装置１２では、特定処理部２９０が音声データを取得する。

データ生成モデル５８は、いわゆる生成ＡＩである。データ生成モデル５８の一例としては、ＣｈａｔＧＰＴなどの生成ＡＩが挙げられる。データ生成モデル５８は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル５８には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、および画像を示す画像データなどの推論用データが入力される。データ生成モデル５８は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データおよびテキストデータなどのデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、および／または要約などを指す。特定処理部２９０は、データ生成モデル５８を用いながら、上述した特定処理を行う。データ生成モデル５８は、指示を含まないプロンプトから推論結果を出力するように、ファインチューニングされたモデルであってもよく、この場合、データ生成モデル５８は、指示を含まないプロンプトから推論結果を出力することができる。データ処理装置１２などにおいて、データ生成モデル５８は複数種類含まれており、データ生成モデル５８は、生成ＡＩ以外のＡＩを含む。生成ＡＩ以外のＡＩは、例えば、線形回帰、ロジスティック回帰、決定木、ランダムフォレスト、サポートベクターマシン（ＳＶＭ）、ｋ－ｍｅａｎｓクラスタリング、畳み込みニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、生成的敵対的ネットワーク（ＧＡＮ）、またはナイーブベイズなどであり、種々の処理を行うことができるが、かかる例に限定されない。また、ＡＩは、ＡＩエージェントであってもよい。また、上述した各部の処理がＡＩで行われる場合、その処理は、ＡＩで一部または全部が行われるが、かかる例に限定されない。また、生成ＡＩを含むＡＩで実施される処理は、ルールベースでの処理に置き換えてもよい。

第２実施形態に係るデータ処理システム２１０は、第１実施形態に係るデータ処理システム１０と同様の処理を行う。データ処理システム２１０による処理は、データ処理装置１２の特定処理部２９０またはスマート眼鏡２１４の制御部４６Ａによって実行されるが、データ処理装置１２の特定処理部２９０とスマート眼鏡２１４の制御部４６Ａとによって実行されてもよい。また、データ処理装置１２の特定処理部２９０は、処理に必要な情報をスマート眼鏡２１４または外部の装置などから取得したり収集したりし、スマート眼鏡２１４は、処理に必要な情報をデータ処理装置１２または外部の装置などから取得したり収集したりする。

［第３実施形態］
図５には、第３実施形態に係るデータ処理システム３１０の構成の一例が示されている。

図５に示すように、データ処理システム３１０は、データ処理装置１２およびヘッドセット型端末３１４を備えている。データ処理装置１２の一例としては、サーバが挙げられる。

ヘッドセット型端末３１４は、コンピュータ３６、マイクロフォン２３８、スピーカ２４０、カメラ４２、通信Ｉ／Ｆ４４、およびディスプレイ３４３を備えている。コンピュータ３６は、プロセッサ４６、ＲＡＭ４８、およびストレージ５０を備えている。プロセッサ４６、ＲＡＭ４８、およびストレージ５０は、バス５２に接続されている。また、マイクロフォン２３８、スピーカ２４０、カメラ４２、およびディスプレイ３４３も、バス５２に接続されている。

図６には、データ処理装置１２およびヘッドセット型端末３１４の要部機能の一例が示されている。図６に示すように、データ処理装置１２では、プロセッサ２８によって特定処理が行われる。ストレージ３２には、特定処理プログラム５６が格納されている。

ヘッドセット型端末３１４では、プロセッサ４６によって特定処理が行われる。ストレージ５０には、特定処理プログラム６０が格納されている。プロセッサ４６は、ストレージ５０から特定処理プログラム６０を読み出し、読み出した特定処理プログラム６０をＲＡＭ４８上で実行する。特定処理は、プロセッサ４６がＲＡＭ４８上で実行する特定処理プログラム６０に従って、制御部４６Ａとして動作することによって実現される。なお、ヘッドセット型端末３１４には、データ生成モデル５８および感情特定モデル５９と同様のデータ生成モデルおよび感情特定モデルを有し、これらモデルを用いて特定処理部２９０と同様の処理を行うこともできる。

特定処理部２９０は、特定処理の結果をヘッドセット型端末３１４に送信する。ヘッドセット型端末３１４では、制御部４６Ａが、スピーカ２４０およびディスプレイ３４３に対して特定処理の結果を出力させる。マイクロフォン２３８は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部４６Ａは、マイクロフォン２３８によって取得されたユーザ入力を示す音声データをデータ処理装置１２に送信する。データ処理装置１２では、特定処理部２９０が音声データを取得する。

第３実施形態に係るデータ処理システム３１０は、第１実施形態に係るデータ処理システム１０と同様の処理を行う。データ処理システム３１０による処理は、データ処理装置１２の特定処理部２９０またはヘッドセット型端末３１４の制御部４６Ａによって実行されるが、データ処理装置１２の特定処理部２９０とヘッドセット型端末３１４の制御部４６Ａとによって実行されてもよい。また、データ処理装置１２の特定処理部２９０は、処理に必要な情報をヘッドセット型端末３１４または外部の装置などから取得したり収集したりし、ヘッドセット型端末３１４は、処理に必要な情報をデータ処理装置１２または外部の装置などから取得したり収集したりする。

［第４実施形態］
図７には、第４実施形態に係るデータ処理システム４１０の構成の一例が示されている。

図７に示すように、データ処理システム４１０は、データ処理装置１２およびロボット４１４を備えている。データ処理装置１２の一例としては、サーバが挙げられる。

ロボット４１４は、コンピュータ３６、マイクロフォン２３８、スピーカ２４０、カメラ４２、通信Ｉ／Ｆ４４、および制御対象４４３を備えている。コンピュータ３６は、プロセッサ４６、ＲＡＭ４８、およびストレージ５０を備えている。プロセッサ４６、ＲＡＭ４８、およびストレージ５０は、バス５２に接続されている。また、マイクロフォン２３８、スピーカ２４０、カメラ４２、および制御対象４４３も、バス５２に接続されている。

カメラ４２は、レンズ、絞り、およびシャッタなどの光学系と、ＣＭＯＳイメージセンサまたはＣＣＤイメージセンサなどの撮像素子とが搭載された小型デジタルカメラであり、ユーザの周囲（例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲）を撮像する。

制御対象４４３は、表示装置、目部のＬＥＤ、並びに、腕、手および足などを駆動するモータなどを含む。ロボット４１４の姿勢や仕草は、腕、手および足などのモータを制御することにより制御される。ロボット４１４の感情の一部は、これらのモータを制御することにより表現できる。また、ロボット４１４の目部のＬＥＤの発光状態を制御することによっても、ロボット４１４の表情を表現できる。

図８には、データ処理装置１２およびロボット４１４の要部機能の一例が示されている。図８に示すように、データ処理装置１２では、プロセッサ２８によって特定処理が行われる。ストレージ３２には、特定処理プログラム５６が格納されている。

ロボット４１４では、プロセッサ４６によって特定処理が行われる。ストレージ５０には、特定処理プログラム６０が格納されている。プロセッサ４６は、ストレージ５０から特定処理プログラム６０を読み出し、読み出した特定処理プログラム６０をＲＡＭ４８上で実行する。特定処理は、プロセッサ４６がＲＡＭ４８上で実行する特定処理プログラム６０に従って、制御部４６Ａとして動作することによって実現される。なお、ロボット４１４には、データ生成モデル５８および感情特定モデル５９と同様のデータ生成モデルおよび感情特定モデルを有し、これらモデルを用いて特定処理部２９０と同様の処理を行うこともできる。

特定処理部２９０は、特定処理の結果をロボット４１４に送信する。ロボット４１４では、制御部４６Ａが、スピーカ２４０および制御対象４４３に対して特定処理の結果を出力させる。マイクロフォン２３８は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部４６Ａは、マイクロフォン２３８によって取得されたユーザ入力を示す音声データをデータ処理装置１２に送信する。データ処理装置１２では、特定処理部２９０が音声データを取得する。

第４実施形態に係るデータ処理システム４１０は、第１実施形態に係るデータ処理システム１０と同様の処理を行う。データ処理システム４１０による処理は、データ処理装置１２の特定処理部２９０またはロボット４１４の制御部４６Ａによって実行されるが、データ処理装置１２の特定処理部２９０とロボット４１４の制御部４６Ａとによって実行されてもよい。また、データ処理装置１２の特定処理部２９０は、処理に必要な情報をロボット４１４または外部の装置などから取得したり収集したりし、ロボット４１４は、処理に必要な情報をデータ処理装置１２または外部の装置などから取得したり収集したりする。

なお、感情エンジンとしての感情特定モデル５９は、特定のマッピングに従い、ユーザの感情を決定してよい。具体的には、感情特定モデル５９は、特定のマッピングである感情マップ（図９参照）に従い、ユーザの感情を決定してよい。また、感情特定モデル５９は、同様に、ロボットの感情を決定し、特定処理部２９０は、ロボットの感情を用いた特定処理を行うようにしてもよい。

図９は、複数の感情がマッピングされる感情マップ４００を示す図である。感情マップ４００において、感情は、中心から放射状に同心円に配置されている。同心円の中心に近いほど、原始的状態の感情が配置されている。同心円のより外側には、心境から生まれる状態や行動を表す感情が配置されている。感情とは、情動や心的状態も含む概念である。同心円の左側には、概して脳内で起きる反応から生成される感情が配置されている。同心円の右側には概して、状況判断で誘導される感情が配置されている。同心円の上方向および下方向には、概して脳内で起きる反応から生成され、かつ、状況判断で誘導される感情が配置されている。また、同心円の上側には、「快」の感情が配置され、下側には、「不快」の感情が配置されている。このように、感情マップ４００では、感情が生まれる構造に基づいて複数の感情がマッピングされており、同時に生じやすい感情が、近くにマッピングされている。

これらの感情は、感情マップ４００の３時の方向に分布しており、普段は安心と不安のあたりを行き来する。感情マップ４００の右半分では、内部的な感覚よりも状況認識の方が優位に立つため、落ち着いた印象になる。

感情マップ４００の内側は心の中、感情マップ４００の外側は行動を表すため、感情マップ４００の外側に行くほど、感情が目に見える（行動に表れる）ようになる。

ここで、人の感情は、姿勢や血糖値のような様々なバランスを基礎としており、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示す。ロボットや自動車やバイクなどにおいても、姿勢やバッテリー残量のような様々なバランスを基礎として、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示すように感情を作ることができる。感情マップは、例えば、光吉博士の感情地図（音声感情認識および情動の脳生理信号分析システムに関する研究、徳島大学、博士論文：https://ci.nii.ac.jp/naid/500000375379）に基づいて生成されてよい。感情地図の左半分には、感覚が優位にたつ「反応」と呼ばれる領域に属する感情が並ぶ。また、感情地図の右半分には、状況認識が優位にたつ「状況」と呼ばれる領域に属する感情が並ぶ。

感情マップでは学習を促す感情が２つ定義される。１つは、状況側にあるネガティブな「懺悔」や「反省」の真ん中周辺の感情である。つまり、「もう２度とこんな想いはしたくない」「もう叱られたくない」というネガティブな感情がロボットに生じたときである。もう１つは、反応側にあるポジティブな「欲」のあたりの感情である。つまり、「もっと欲しい」「もっと知りたい」というポジティブな気持ちのときである。

感情特定モデル５９は、ユーザ入力を、予め学習されたニューラルネットワークに入力し、感情マップ４００に示す各感情を示す感情値を取得し、ユーザの感情を決定する。このニューラルネットワークは、ユーザ入力と、感情マップ４００に示す各感情を示す感情値との組み合わせである複数の学習データに基づいて予め学習されたものである。また、このニューラルネットワークは、図１０に示す感情マップ９００のように、近くに配置されている感情同士は、近い値を持つように学習される。図１０では、「安心」、「安穏」、「心強い」という複数の感情が、近い感情値となる例を示している。

上記実施形態では、１台のコンピュータ２２によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、コンピュータ２２を含めた複数のコンピュータによる特定処理に対する分散処理が行われるようにしてもよい。

上記実施形態では、ストレージ３２に特定処理プログラム５６が格納されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、特定処理プログラム５６がＵＳＢ（Universal Serial Bus）メモリなどの可搬型のコンピュータ読み取り可能な非一時的格納媒体に格納されていてもよい。非一時的格納媒体に格納されている特定処理プログラム５６は、データ処理装置１２のコンピュータ２２にインストールされる。プロセッサ２８は、特定処理プログラム５６に従って特定処理を実行する。

また、ネットワーク５４を介してデータ処理装置１２に接続されるサーバなどの格納装置に特定処理プログラム５６を格納させておき、データ処理装置１２の要求に応じて特定処理プログラム５６がダウンロードされ、コンピュータ２２にインストールされるようにしてもよい。

なお、ネットワーク５４を介してデータ処理装置１２に接続されるサーバなどの格納装置に特定処理プログラム５６の全てを格納させておいたり、ストレージ３２に特定処理プログラム５６の全てを記憶させたりしておく必要はなく、特定処理プログラム５６の一部を格納させておいてもよい。

特定処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、特定処理を実行するハードウェア資源として機能する汎用的なプロセッサであるＣＰＵが挙げられる。また、プロセッサとしては、例えば、ＦＰＧＡ（Field-Programmable Gate Array）、ＰＬＤ（Programmable Logic Device）、またはＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵または接続されており、何れのプロセッサもメモリを使用することで特定処理を実行する。

特定処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの１つで構成されてもよいし、同種または異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡの組み合わせ、またはＣＰＵとＦＰＧＡとの組み合わせ）で構成されてもよい。また、特定処理を実行するハードウェア資源は１つのプロセッサであってもよい。

１つのプロセッサで構成する例としては、第１に、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが、特定処理を実行するハードウェア資源として機能する形態がある。第２に、ＳｏＣ（System-on-a-chip）などに代表されるように、特定処理を実行する複数のハードウェア資源を含むシステム全体の機能を１つのＩＣチップで実現するプロセッサを使用する形態がある。このように、特定処理は、ハードウェア資源として、上記各種のプロセッサの１つ以上を用いて実現される。

更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記の特定処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。

また、上述した例では、第１実施形態から第４実施形態に分けて説明したが、これらの実施形態の一部または全部は組み合わされてもよい。また、スマートデバイス１４、スマート眼鏡２１４、ヘッドセット型端末３１４、およびロボット４１４は一例であって、それぞれを組み合わせてもよく、それ以外の装置であってもよい。また、上述した例では、形態例１と形態例２に分けて説明したが、これらは組み合わせてもよい。

以上に示した記載内容および図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、および効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、および効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容および図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容および図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。

本明細書に記載された全ての文献、特許出願および技術規格は、個々の文献、特許出願および技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

１０、２１０、３１０、４１０データ処理システム
１２データ処理装置
１４スマートデバイス
２１４スマート眼鏡
３１４ヘッドセット型端末
４１４ロボット

Claims

周囲の環境や人々の特徴を認識する画像認識部と、
前記画像認識部によって認識された情報に基づいて広告映像を生成する動画生成部と、
前記動画生成部によって生成された広告映像に合わせてナレーションを生成するナレーション生成部と、
前記動画生成部によって生成された広告映像に合わせて音楽を生成する音楽生成部と、を備える
ことを特徴とするシステム。
前記画像認識部は、
カメラを用いて通行人の年齢、性別、服装などを認識し、その情報を収集する情報収集部を備える
ことを特徴とする請求項１に記載のシステム。
前記画像認識部は、
店舗内のカメラを用いて棚に並んだ商品を認識し、その情報を収集する情報収集部を備える
ことを特徴とする請求項１に記載のシステム。
前記動画生成部は、
通行人の年齢や性別に応じて、適切な商品やサービスを紹介する映像を生成する映像生成部を備える
ことを特徴とする請求項１に記載のシステム。
前記ナレーション生成部は、
商品の特徴やメリットを説明する音声を生成する音声生成部を備える
ことを特徴とする請求項１に記載のシステム。
前記音楽生成部は、
商品のイメージに合ったBGMを生成するBGM生成部を備える
ことを特徴とする請求項１に記載のシステム。
前記動画生成部は、
通行人の特徴に応じてリアルタイムで変化する広告映像を生成する広告映像生成部を備える
ことを特徴とする請求項１に記載のシステム。
前記動画生成部は、
ユーザの過去の行動データを反映させ、パーソナライズされたストーリーを作成するストーリー生成部を備える
ことを特徴とする請求項１に記載のシステム。