JP2026031405A

JP2026031405A - 情報処理装置、表示装置、テレビジョン受像機、情報処理システム、及び情報処理方法

Info

Publication number: JP2026031405A
Application number: JP2025102527A
Authority: JP
Inventors: 昌志中田; 賢司渡辺; 言熊田; 啓一小林; 達彦佐野; 青柴田; 海雲大村; 雅人大垣; 智幸山本
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2024-08-09
Filing date: 2025-06-18
Publication date: 2026-02-24
Also published as: WO2026034584A1

Abstract

【課題】コンテンツと共にユーザに対して好適な情報を提示することのできる技術を実現する。
【解決手段】表示制御装置（１００）は、コンテンツに関するコンテンツデータを取得する第１の取得部（１１）と、コンテンツとともに表示するオブジェクトを介した発話を、コンテンツまたはコンテンツデータに基づいて制御する制御部（２２）とを備えている。
【選択図】図４

Description

本発明は情報処理装置、表示装置、テレビジョン受像機、情報処理システム、及び情報処理方法に関する。

従来、カメラによって検出されたユーザの識別情報に基づいて、個人のメディア嗜好を自動的に提供するテレビ装置が提案されている。例えば、特許文献１に記載の技術では、テレビ装置は、あらかじめ登録されたユーザ情報と、カメラによって検出された顔画像とに基づいてユーザを識別し、識別されたユーザに関連するメディアコンテンツを表示したり、設定を自動的に変更したりする。

特表２０１１－５０４７１０

テレビの視聴においてユーザの満足度を向上させるためには、コンテンツと共に、ユーザに対してどのような情報を提供するかが重要となるが、特許文献１に記載の技術ではこの点に関し課題を有していた。

本発明の一態様は、コンテンツと共にユーザに対して好適な情報を提示することのできる技術を実現することを目的とする。

上記の課題を解決するために、本発明の一態様に係る情報処理装置は、コンテンツに関するコンテンツデータを取得する第１の取得部と、前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部とを備えている。

また、本発明の他の態様に係る表示装置は、上記情報処理装置と、前記コンテンツと前記オブジェクトとを共に表示する表示部とを備え、前記情報処理装置は、前記コンテンツの表示を制御するコンテンツ表示制御部をさらに備えている。

また、本発明の他の態様に係るテレビジョン受像機は、上記表示装置を備えている。

また、本発明の他の態様に係る情報処理システムは、コンテンツに関するコンテンツデータを取得する第１の取得部と、前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部とを備えている。

また、本発明の他の態様に係る情報処理方法は、コンテンツに関するコンテンツデータを取得する第１の取得ステップと、前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御ステップとを備えている。

本発明の一態様によれば、コンテンツと共にユーザに対して好適な情報を提示することができる。

本発明の実施形態１に係る表示装置の構成を示すブロック図である。本発明の実施形態１に係る表示装置を説明するための図である。本発明の実施形態１に係る表示装置による表示例を示す図である。本発明の実施形態１に係る表示制御装置の構成を示すブロック図である。本発明の実施形態１に係る表示制御装置による処理の流れを示すフロー図である。本発明の実施形態１に係る表示制御装置による処理の流れを示すフロー図である。本発明の実施形態１に係る表示装置による表示例を示す図である。本発明の実施形態１に係る表示装置による表示例を示す図である。本発明の実施形態１に係る表示装置による表示例を示す図である。本発明の実施形態１に係る表示装置による表示例を示す図である。本発明の実施形態１に係る表示制御装置による処理の流れを示すフロー図である。本発明の実施形態１に係る表示制御装置による処理の流れを示すフロー図である。本発明の実施形態１に係る表示装置による表示例を示す図である。本発明の実施形態２に係る表示制御装置の構成の他の例を示すブロック図である。

〔実施形態１〕
以下、本発明の一実施形態について、詳細に説明する。

＜表示装置１＞
図１は本実施形態に係る表示装置１の構成を示すブロック図である。図１に示すように、表示装置１は、受信部１０、センシング部２０、表示制御装置１００、表示部３０、及びスピーカ４０を備えている。なお、図１に示した各部は、あくまで表示装置１の構成の一例であり、当該構成に限定されるものではない。例えば、表示装置１は、ユーザが操作するリモコン装置、上記リモコン装置からの操作信号を受信する操作信号受信部、又は映像データを記憶するための記憶部等の各種の構成を備えていてもよい。また、表示装置１が備える各部は、一例として、ネットワークを介して、複数の装置に分散的に配置されてもよい。そのような場合、表示装置１を表示システムと表現したり、表示制御装置１００を表示制御システムと表現したりすることもある。なお、図１に示す例では、表示装置１が表示制御装置１００を備えているが、本実施形態はこれに限定されず、表示制御装置１００を、表示装置１に接続されたセットトップボックスとして実現してもよい。

（受信部１０）
受信部１０は、コンテンツデータを受信し、受信したコンテンツデータを、表示制御装置１００に供給する。受信部１０が受信するコンテンツデータには、一例として、符号化された映像データ、符号化された音声データ、及び上記映像データに付随する関連情報が含まれるがこれは本実施形態を限定するものではない。また、上記符号化された映像データの例としては、ＭＰＥＧ２、ＭＰＥＧ４、Ｈ．２６４、Ｈ．２６５等の各種の映像符号化技術によって符号化されたデータ（例えばＴＳ（Transport Steam））を挙げることができるが、これも本実施形態を限定するものではない。

また、上記関連情報には、一例として、上記コンテンツに関する番組情報、上記番組情報を含む番組表データ、上記コンテンツに関連して提供されるデータ放送の情報、及び上記コンテンツに関する説明情報等の少なくとも何れかが含まれ得るが、これらの例も本実施形態を限定するものではない。また上記関連情報は、一例として、上述したＭＰＥＧ２等の映像符号化技術による復号処理を行うことなく上記コンテンツデータから抽出することができるものであってもよい。ただし当該例も本実施形態を限定するものではない。

また、受信部１０は、無線又は有線通信を介してインターネットから上記コンテンツデータを取得する構成としてもよい。また、受信部１０は、放送波から上記コンテンツデータを取得する構成とし、当該放送波に含まれる複数のチャンネルの何れかを選局するためのチューナを備える構成としてもよい。受信部１０がチューナを備える場合、表示装置１のことをテレビジョン受像機（又は単にテレビ）とも呼称する。

（センシング部２０）
センシング部２０は、表示装置１を利用する１又は複数のユーザをセンシングする。一例として、センシング部２０は、１又は複数のカメラを備え、当該カメラによって上記１又は複数のユーザを撮像する。そして、センシング部２０は、上記カメラによる撮像データを含むセンシングデータを表示制御装置１００に供給する。また、センシング部２０は、レーザ光の反射によってユーザを検知するレーザスキャナ（LiDAR装置）を備え、当該レーザスキャナによって取得したスキャンデータを上記センシングデータに含めて表示制御装置１００に供給する構成としてもよい。また、センシング部２０は、上記１又は複数のユーザの発話を集音する１又は複数のマイクを備え、当該マイクによって集音した音声を示す音声データを、上記センシングデータに含めて表示制御装置１００に供給する構成としてもよい。

（表示部３０）
表示部３０は、表示制御装置１００によって生成された表示用画像を表示する。当該表示用画像には、静止画像及び動画像（映像）の少なくとも何れかが含まれる。当該表示用画像には、後述するように、一例として、上記コンテンツデータが示すコンテンツの映像（コンテンツ映像とも呼ぶ）、及び上記ユーザへの報知情報の少なくとも何れかが含まれる。また、表示部３０は、上記コンテンツデータが示すコンテンツの映像（コンテンツ映像）、及び上記ユーザへの報知情報の少なくとも何れかを表示する構成としてもよい。

表示部３０は、一例として、表示パネルと、当該表示パネルを上記表示用画像の画像データに基づき駆動するドライバとを備える構成とすることができるが、これは本実施形態を限定するものではない。また、上記表示パネルとして、液晶パネル又は有機ＥＬパネルを用いることができるが、これも本実施形態を限定するものではない。なお、表示部３０による表示例については後述する。

（スピーカ４０）
スピーカ４０は、上記コンテンツデータが示すコンテンツの音声をユーザに対して出力する。また、上記報知情報が音声（報知音声とも呼ぶ）を含む場合、当該報知音声を、ユーザに対して出力する。なお、本実施形態において「音声」との文言は、人の声を含み得るが、これに限定されるものではなく、空気等の媒体を伝搬する音一般のことを指す。

（表示装置１の使用例）
図２は、表示装置１の使用例を示す図である。図２に示す例では、表示装置１は、脚部を備える据え置き型の表示装置として実現されている。また、図２に示すように、表示装置１は、ユーザＵをセンシングするセンシング部２０、表示用画像を表示する表示部３０、及びコンテンツの音声及び報知情報の音声を出力するスピーカ４０（図２の例では２つ）を備えて構成される。なお、表示装置１は、壁掛け型の表示装置として実現されてもよい。

＜表示制御装置１００＞
図１に戻り、表示装置１が備える表示制御装置１００の各部の構成について説明する。図１に示すように、表示制御装置１００は、第１の取得部１１、第１の制御部１２、合成部１３、第２の取得部２１、及び第２の制御部２２を備えている。なお、「第１」「第２」等の呼称は本実施形態を限定するものではない。例えば、「第１の取得部１１」及び「第２の取得部２１」の何れか一方又は双方を単に「取得部」と表現することもあるし、「第１の制御部１２」及び「第２の制御部２２」の何れか一方又は双方を単に「制御部」と表現することもある。また、表示制御装置１００のことを情報処理装置と呼称することもある。また、第１の制御部１２のことをコンテンツ表示制御部と表現することもある。

（第１の取得部１１）
第１の取得部１１は、コンテンツに関するコンテンツデータを取得する。一例として、第１の取得部１１は、上述した受信部１０が受信したコンテンツデータを取得する。第１の取得部１１は、取得したコンテンツデータを第１の制御部１２に供給する。

（第１の制御部１２）
第１の制御部１２は、第１の取得部１１から供給されたコンテンツデータが示すコンテンツの表示（換言すればコンテンツ映像の表示）を制御する。一例として、第１の制御部１２は、上記コンテンツデータに含まれる映像データを復号し、当該復号処理によって得られたコンテンツ映像を、合成部１３に供給する。当該コンテンツ映像は、表示部３０が表示する表示用画像の一部を構成する。また、第１の制御部１２は、上記コンテンツデータに含まれる音声データを復号し、当該復号処理によって得られたコンテンツ音声を、合成部１３に供給する。当該コンテンツ音声は、スピーカ４０が出力する音声の一部を構成する。また、第１の制御部１２は、上記コンテンツデータから、上述した関連情報を抽出し、抽出した関連情報を、一例として第２の制御部２２に供給する。

（第２の取得部２１）
第２の取得部２１は、表示装置１を利用する１又は複数のユーザのセンシングデータを、センシング部２０から取得する。ここで、当該センシングデータには、上述したように、上記ユーザを画角に含む撮像データ、及び上記ユーザによる発話を含む音声データの少なくとも何れかが含まれる。第２の取得部２１は、上記センシングデータを第２の制御部２２に供給する。

なお、上記センシングデータは、表示装置１のユーザに関するユーザ情報の一例である。したがって、第２の取得部２１は、表示装置１のユーザに関するユーザ情報を取得するものであると表現してもよい。また、本実施形態において、ユーザ情報には、センシング部２０又は他の装置によって取得された撮像データ及び音声データが含まれ得る。

また、上記センシングデータは、表示装置１のユーザを識別するためのユーザ識別情報の一例である。したがって、第２の取得部２１は、表示装置１のユーザを識別するユーザ識別情報を取得するものであると表現してもよい。

また、第２の取得部２１は、上記ユーザ識別情報と対応する嗜好情報を取得する構成としてもよい。一例として、第２の取得部２１は、複数のユーザの嗜好情報を蓄積する嗜好情報蓄積部（嗜好情報ＤＢ）から、ユーザ識別情報と対応する嗜好情報を取得する嗜好情報取得部として機能する構成としてもよい。

（第２の制御部２２）
第２の制御部２２は、上記コンテンツデータ、上記コンテンツ映像、上記コンテンツ音声、上記関連情報、及び上記センシングデータの少なくとも何れかを解析する解析処理を実行し、当該解析結果を参照した各種の処理を行う。一例として、第２の制御部２２は、コンテンツ映像又は関連情報を解析することによって当該コンテンツの内容を特定する処理、及びセンシングデータを解析することによって、上記１又は複数のユーザによる発話や、上記１又は複数のユーザの状態を特定する処理の少なくとも何れかを実行し、これらの処理の結果を参照した各種の処理を実行する。

一例として、第２の制御部２２は、ユーザに報知する報知情報の報知態様を、センシングデータを参照して決定（生成）する。換言すれば、第２の制御部２２は、ユーザに報知する報知情報の報知態様を、ユーザ情報に応じて変更する。ここで、報知情報には、所定の画像及び画像を介した発話の少なくとも何れかが含まれる。例えば、報知情報には、コンテンツデータ及びセンシングデータの少なくとも何れかに応じて表示態様及び発話態様の少なくとも何れかが変化するオブジェクトが含まれる。ここで、当該オブジェクトは、所定の画像の一例である。また、当該オブジェクトは、一例として、後述するキャラクター生成部２０４において生成されるキャラクター、又は、外部から取得された画像などをＣＧ処理したもの、又は発話に関するテキストデータから画像生成ＡＩにより作成された画像などであってもよい。したがって、報知情報の報知態様には、ユーザ情報に応じた所定の画像の表示態様、及びユーザ情報に応じた発話の発話態様の少なくとも何れかが含まれると表現してもよい。

また、第２の制御部２２は、一例として、ユーザ情報に基づいて特定された個人情報に適した発話態様を決定するという処理を行ってもよい。例えば、第２の制御部２２は、ユーザ情報に基づいて特定された個人の年齢層又は性別等（例えば、高齢の男性／子供など）に応じた発話態様（高齢の男性向けの発話態様／子供向けの発話態様など）を決定する処理を行ってもよい。

また、第２の制御部２２は、一例として、撮像データを参照して、ユーザの相対位置を特定し、特定した相対位置に応じて、報知情報の表示態様及び発話態様の少なくとも何れかを変更するという処理を行ってもよい。ここで、上記相対位置とは、表示装置１を起点とした上記ユーザの位置のことを示しており、一例として、当該表示装置１からの方角及び表示装置１からの距離を含む。

また、上記発話態様には発話の内容である発話内容が含まれる構成とし、第２の制御部２２は、ユーザへの発話内容を、コンテンツ及びユーザ情報の少なくとも何れかを参照して決定してもよい。また、第２の制御部２２は、コンテンツデータ及びユーザ情報の少なくとも何れかに基づいてユーザに対する発話のタイミングを制御する構成としてもよい。

一例として、第２の制御部２２は、センシングデータを参照して、１又は複数ユーザの人数を特定する処理、及び１又は複数ユーザの少なくとも何れかが、登録済ユーザであるか否かを判定する処理の少なくとも何れかの処理を実行し、実行した処理の結果に応じて、所定の画像を介した（一例としてキャラクターからの）ユーザへの発話内容を決定するという処理を行ってもよい。

また、第２の制御部２２は、キャラクターによる発話の制御として、発話するかしないかの決定、発話タイミング、及び発話内容の少なくとも何れかの決定を行ってもよい。また、第２の制御部２２は、キャラクターからの発話の制御に対応させて、キャラクターの表示態様を制御する構成としてもよい。

また、第２の制御部２２は、オブジェクトを介した発話（一例としてキャラクターからの発話）を、コンテンツ又はコンテンツデータに基づいて制御する構成としてもよい。ここで「コンテンツ又はコンテンツデータに基づいて制御する」には、一例として、コンテンツデータから得られるコンテンツ映像、コンテンツ音声、及び関連情報の少なくとも何れかに基づいて制御することが含まれる。また、一例として、第２の制御部２２は、コンテンツ又はコンテンツデータを分析して得られるコンテンツに関する分析結果に応じて、発話を制御する構成としてもよい。ここで、「コンテンツを分析」とは、コンテンツ映像及びコンテンツ音声を分析することを指すが、これに限定されず、関連情報を分析することも含まれ得る。なお、上記分析結果は、表示制御装置１００又は表示装置１で分析したものでもよいし、クラウドから取得したものでもよい。

また、第２の制御部２２は、ユーザに報知する報知情報の報知態様を嗜好情報に基づいて決定する構成としてもよい。換言すれば、第２の制御部２２は、報知情報の報知態様を、センシングデータを参照して特定されたユーザの嗜好情報に応じて決定する構成としてもよい。一例として、第２の制御部２２は、報知情報に含まれるキャラクターの表示態様及び発話態様の少なくとも何れかを、嗜好情報を参照して決定する構成としてもよい。

また、第２の制御部２２は、嗜好情報に基づいて、画像の表示態様を決定する処理、及び複数の声色候補から、嗜好情報に基づいて、発話を生成する処理の少なくとも何れかを実行する構成としてもよい。一例として、第２の制御部２２は、複数のキャラクター候補から、嗜好情報を参照して、コンテンツと共に表示するキャラクターを決定する処理、及び複数の声色候補から、嗜好情報を参照して、キャラクターの発話の声色を選択する処理の少なくとも何れかを実行する構成としてもよい。

（合成部１３）
合成部１３は、第２の制御部２２によって決定（生成）された報知情報と、第１の制御部１２から供給されたコンテンツ映像とを合成する。より具体的には、合成部１３は、第２の制御部２２によって決定（生成）された報知情報に含まれる報知映像と、第１の制御部１２から供給されたコンテンツ映像とを合成することによって、コンテンツ映像と報知映像とを含む表示用画像を生成し、生成した表示用画像を表示部３０に供給する。

また、合成部１３は、上記報知情報に含まれる報知音声と、第１の制御部１２から供給されたコンテンツ音声とを統合することによって、報知音声とコンテンツ音声とを含む出力用音声を生成し、生成した出力用音声をスピーカ４０に供給する。

図３は合成部１３によって生成された表示用画像の表示例を示している。図３に示すように、合成部１３によって生成され、表示部３０によって表示される表示用画像は、コンテンツ映像を表示する第１の領域Ｒ１、及び報知情報を表示する第２の領域Ｒ２を含んでいる。また、第２の領域Ｒ２には、上記報知情報に含まれるキャラクターＣＲ、上記キャラクターＣＲによる発話内容を示すテキストデータＵＣ、及びユーザ（図３における「あなた」に対応）による発話を示すテキストデータＵＵが含まれている。ここで、当該キャラクターの表示態様及び発話態様の少なくとも何れかは、コンテンツデータ及びセンシングデータの少なくとも何れかに応じて変化する。

キャラクターＣＲの具体例は本実施形態を限定するものではないが、一例としてユーザを模擬したキャラクター、動物等の生体を模擬したキャラクター、ロボット等の非生体を模擬したキャラクター、の何れであってもよいし、上記以外のキャラクターであってもよい。なお、キャラクターＣＲのことをアバターと表現することもある。

なお、第１の領域Ｒ１には、コンテンツ映像とともに、又はこれに代えて所定のウェブサイト画面が表示されてもよい。ここにいう所定のウェブサイト画面は、例えば、電子商取引が可能なＥＣ（e-commerce）サイトである。ＥＣサイトは、商品だけでなく旅行手配などの役務の提供に関するウェブサイトであってもよい。

（表示制御装置１００の具体的構成例）
続いて、図４を参照して、本実施形態に係る表示制御装置１００の具体的構成例について説明する。図４は、表示制御装置１００の具体的構成例を示すブロック図である。なお、以下の説明では、表示制御装置１００についてすでに説明した事項については重複する説明を省略することがある。

（第１の制御部１２）
図４に示すように、第１の制御部１２は、一例として、コンテンツ再生部１２１を備えている。コンテンツ再生部１２１は、コンテンツデータに含まれる映像データを復号し、復号されたコンテンツ映像を合成部１３及び第２の制御部２２に供給する。コンテンツ再生部１２１は、一例として、ＭＰＥＧ２、ＭＰＥＧ４、Ｈ．２６４、Ｈ．２６５等の各種の映像符号化技術に準拠した復号処理を用いて、復号後のコンテンツ映像を生成する。また、コンテンツ再生部１２１は、コンテンツデータに含まれる関連情報をコンテンツデータから抽出し、抽出した関連情報を合成部１３及び第２の制御部２２に供給する。また、コンテンツ再生部１２１は、コンテンツデータに含まれる音声データを復号し、復号されたコンテンツ音声をスピーカ４０に供給する。なお、図１において説明したように、表示制御装置１００が合成部１３を備える構成とし、第１の制御部１２は、上記コンテンツ映像及び上記コンテンツ音声を合成部１３に供給する構成としてもよい。

（第２の制御部２２）
第２の制御部２２は、図４に示すように、解析部２２１及び報知情報生成部２２２を備えている。解析部２２１は、第２の取得部２１から供給されるセンシングデータ、コンテンツ再生部１２１から供給される復号後のコンテンツ映像、コンテンツ再生部１２１から供給される関連情報を解析する。解析部２２１による解析処理には、一例として、センシングデータに含まれる撮像データを解析することによって、１又は複数のユーザの各々の相対位置を特定する処理、センシングデータに含まれる撮像データを解析することによって、１又は複数のユーザの各々の状態（姿勢、表情、感情等）を特定する処理、センシングデータに含まれる音声データを解析することによって、１又は複数のユーザの各々の発話内容を特定する処理、センシングデータに含まれる音声データを解析することによって、１又は複数のユーザの各々の相対位置を特定する処理、コンテンツ映像を解析することによって、当該コンテンツの各時点における内容（シーン、登場人物、登場人物の動作、登場人物の発話等）を特定する処理、関連情報を解析することによって、コンテンツ映像が示すコンテンツのタイトル、登場人物、あらすじ等を特定する処理が含まれ得るが、これらの例は本実施形態を限定するものではない。

なお、解析部２２１による各種の解析処理は、一例として、物体検出アルゴリズムや発話抽出アルゴリズム等の各種のアルゴリズムを実行する機械学習済みの推論モデル（予測モデル）を用いることができるが、これは本実施形態を限定するものではない。また、当該推論モデルは、一例として、後述する学習済モデルＬＭの一部として構成されていてもよいし、後述する学習済モデルＬＭとは別のモデルとして実現されたものであってもよい。また、当該推論モデルは、後述するサーバ装置２００が備える構成としてもよいし、表示制御装置１００が備える構成としてもよい。解析部２２１による上記解析処理の結果は、報知情報生成部２２２に供給される。

報知情報生成部２２２は、解析部２２１による解析結果を参照し、当該解析結果に応じた報知情報を生成する。生成された報知情報に含まれる報知映像は、合成部１３に供給されて、コンテンツ映像と合成される。また、生成された報知情報に含まれる音声は、スピーカ４０から出力される。なお、報知情報生成部２２２は、音声を含む報知情報を生成してそれをスピーカ４０から出力させる際、コンテンツ再生部１２１を介して、コンテンツの音声の音量を抑えるよう制御する構成としてもよい。

図４に示すように、報知情報生成部２２２は、一例として、プロンプト生成部２０１、発話内容取得部２０２、音声生成部２０３、キャラクター生成部２０４、発話制御部２０５、及び会話履歴管理部２０６を備えている。

（プロンプト生成部２０１）
プロンプト生成部２０１は、解析部２２１による解析結果を参照して、学習済モデルＬＭに入力するための入力データ（プロンプト）を生成し、生成した入力データを学習済モデルＬＭに入力する。ここで当該学習済モデルＬＭは、一例として、図４に示すように、表示制御装置１００に対して、ネットワークＮを介して接続されたサーバ装置２００が備える構成としてもよいし、表示制御装置１００が備える構成としてもよい。また、当該学習済モデルＬＭは一例として、大規模言語モデルであってもよいがこれに限定されない。当該学習済モデルＬＭとして任意の機械学習済み生成モデルを用いることができる。学習済モデルＬＭは、複数のモデルを組み合わせたモデルであってもよいし、１つのマルチモーダルモデルであってもよい。また、プロンプト生成部２０１は、生成したプロンプトを履歴として保存する構成としてもよい。

プロンプト生成部２０１が生成する具体的なプロンプトは本実施形態を限定するものではないが、一例として、現時点までのユーザとキャラクターとの対話の内容、現時点でのコンテンツの内容、現時点でのユーザの状態（センシングデータ）等を含む参照情報と、上記参照情報に基づき、ユーザへの発話内容を生成する旨の指示情報と、を含む構成とすることができる。

（発話内容取得部２０２）
発話内容取得部２０２は、プロンプト生成部２０１によって生成されたプロンプトに基づき学習済モデルＬＭが生成した発話内容を取得する。発話内容取得部２０２は、一例として上記発話内容を、テキストデータの形式で取得するがこれは本実施形態を限定するものではない。なお、発話内容取得部２０２は、生成した発話内容に、当該発話内容の発話先を示す発話先情報を紐づける構成としてもよい。発話先情報の紐づけは、学習済モデルＬＭが発話内容を生成する際に行ってもよい。発話先には、例えばコンテンツを視聴するユーザ、キャラクター（自身）、キャラクターとともに表示される第２のキャラクター、のいずれかが含まれる。

また、発話内容取得部２０２は、発話内容の候補を、コンテンツデータ及びユーザ情報の少なくとも何れかを参照して取得する構成としてもよい。具体的には、発話内容取得部２０２は、キャラクターからの発話内容の候補を、コンテンツ及びセンシングデータの少なくとも何れかを参照して取得する構成としてもよい。この場合、発話内容取得部２０２は、例えばコンテンツの内容がシリアスで、キャラクターとの会話になじまない場合、発話内容の候補の長さ（読み上げるのに要する時間）が、ユーザの状態（落ち着かない、陽気な気分でいる）に対して長すぎる場合等に、発話内容の候補を取得しないようにする。

プロンプト生成部２０１及び発話内容取得部２０２による処理は、解析部２２１による解析処理の結果に応じた入力データ（プロンプト）を生成し、生成した入力データ（プロンプト）を学習済のモデルに入力することによって、キャラクターからユーザへの発話内容を決定する、処理であると表現することもできる。

（発話制御部２０５）
発話制御部２０５は、キャラクター（オブジェクト）の発話態様を、当該キャラクターの発話先に応じて変更する。発話制御部２０５は、発話内容に紐づけられた発話先情報を参照して、発話先を特定する。ここで、キャラクター、又は第２のキャラクターが発話先として特定されている場合、発話制御部２０５は、発話内容を音声生成部２０３へ供給する。

ユーザが発話先として特定されている場合、発話制御部２０５は、センシングデータを参照してユーザの発話タイミングを特定する。すなわち、発話制御部２０５は、ユーザが発話しようとしているか否かを判断する。そして、発話制御部２０５は、ユーザの発話タイミングでは、キャラクターから発話させないよう制御する。すなわち、発話内容取得部２０２が取得した発話内容を音声生成部２０３へ供給しない。一方、発話制御部２０５は、ユーザの発話タイミングでない（ユーザが話しかけられるのを待っている）ときには、発話内容取得部２０２が取得した発話内容を音声生成部２０３へ供給する。

また、発話制御部２０５は、センシングデータを参照してユーザの状態を特定する構成としてもよい。具体的には、発話制御部２０５は、解析部２２１によるセンシングデータの解析結果を参照し、ユーザの状態が所定の状態であるか否かを判定してもよい。所定の状態には、例えばユーザがコンテンツに集中している（真剣な表情でコンテンツを視聴している）状態、ユーザがコンテンツの視聴以外の動作（読書など）をしている状態等が含まれる。

そして、発話制御部２０５は、ユーザの状態が所定の状態であると判定した場合に、例えばキャラクターから発話させない（発話内容を音声生成部２０３へ供給しない）、又はユーザ以外に向けて発話させるようにキャラクターを制御する構成としてもよい。

また、発話制御部２０５は、表示中のコンテンツが、特定のカテゴリ、又は特定のシーンに該当するか否かを判定する構成としてもよい。表示中のコンテンツが特定のカテゴリや特定のシーンに該当するとは、例えば、表示中のコンテンツに、キャラクターを交えて視聴することが好ましくない（真剣に視聴すべき）内容が含まれていることを指す。そして、発話制御部２０５は、コンテンツが、特定のカテゴリ、又は特定のシーンに該当すると判断した場合には、キャラクターから発話させないよう制御する構成としてもよい。

また、発話制御部２０５は、会話履歴において発話されなかった旨が記録されている発話内容の候補を、発話内容として決定する構成としてもよい。すなわち、発話内容が生成・取得されたが、キャラクターが実際には発話しなかった発話内容を、後から発話してもよい。この場合、発話制御部２０５は、決定した発話内容を発話すべきタイミングとなったか否かを逐次的に判定する処理を行う。そして、発話制御部２０５は、発話すべきタイミングとなった場合に、キャラクターから発話内容を発話させる。

また、発話制御部２０５は、取得した候補の内容を、当該候補の内容、コンテンツ及びセンシングデータの少なくとも何れかを参照して変更する構成としてもよい。例えば、発話制御部２０５は、ユーザの状況やコンテンツのシーンに対して発話内容が長すぎる場合に発話内容を短文化する等の処理を行うことにより、候補の内容を変更する。

（会話履歴管理部２０６）
会話履歴管理部２０６は、発話内容の候補を発話しないと決定した場合に、当該候補が発話されなかった旨の履歴を、ユーザとキャラクターとの会話履歴の一部として保存する。ここで、会話履歴管理部２０６は、履歴を、表示制御装置１００が備える会話履歴データベース２３に蓄積させる。なお、会話履歴管理部２０６は、キャラクターが発話した発話内容、及びユーザの発話内容の少なくとも一方も会話履歴データベース２３に蓄積させる構成としてもよい。

（音声生成部２０３）
音声生成部２０３は、発話制御部２０５から供給された発話内容を示す音声データを生成する。ここで、音声生成部２０３は、当該音声データの発話の声色やアクセントを、解析部２２１による解析結果を参照して決定してもよい。また、上述したプロンプト生成部２０１が生成するプロンプトに、声色を指定する旨の指示情報を含めておき、音声生成部２０３は当該指示に対する学習済モデルＬＭによる応答を参照して、上記音声データの発話の声色やアクセントを決定する構成としてもよい。音声生成部２０３が生成した音声は、合成部１３に供給される。そして、音声は、合成部１３から、コンテンツの音声と共にスピーカ４０に供給される。

（キャラクター生成部２０４）
キャラクター生成部２０４は、解析部２２１による解析結果を参照して、報知情報を生成する。一例として、キャラクター生成部２０４は、解析部２２１による解析結果を参照して、報知情報に含めるキャラクターの映像データ（キャラクター映像データ）を生成（決定）する。キャラクターは感情移入できる姿形をしているものであればよく、人に限られない。キャラクター生成部２０４は、一例として、解析部２２１による解析結果を参照して、キャラクターの容姿などを含む外見、キャラクターの衣装、キャラクターの動作等を決定し、決定した内容を表現するキャラクター映像を、合成部１３に供給する。なお、キャラクター生成部２０４は、キャラクター映像と共に、当該キャラクターの発話内容を文字表示する吹き出しの画像を生成する構成としてもよい。また、キャラクター生成部２０４は、キャラクターの少なくとも一部の映像を生成ＡＩで作成する構成としてもよい。キャラクターの少なくとも一部は、例えば、センシング部２０により外部から取得された画像などにＣＧ処理を施した画像、又は発話に関するテキストデータから画像生成ＡＩにより作成された画像などであってもよい。

また、キャラクター生成部２０４は、複数のキャラクター映像を生成する構成としてもよい。この場合、複数のキャラクター映像の供給を受けた合成部１３は、複数のキャラクターをコンテンツと共に表示することになる。

また、キャラクター生成部２０４は、キャラクター（オブジェクト）の表示態様を、当該キャラクターの発話先に応じて変更する構成としてもよい。キャラクター生成部２０４は、発話内容に紐づけられた発話先情報を参照して発話先を特定してもよいし、発話制御部２０５が特定した発話先を参照してもよい。ここで、ユーザが発話先として特定されている場合、キャラクター生成部２０４は、ユーザが存在する方向、例えば正面を向くキャラクター映像を生成する。その際、キャラクター生成部２０４は、キャラクター映像と共に、当該キャラクターがユーザに対して話しかけている旨の表示データ（例えば「呼びかけ中」の文字表示データ）を生成する構成としてもよい。また、その際、キャラクター生成部２０４は、発話先がキャラクター又は第２のキャラクターである場合とは異なる表示態様（例えば、色、文字の大きさ）の吹き出しの画像を生成する構成としてもよい。

また、第２のキャラクターが発話先として特定されている場合、キャラクター生成部２０４は、例えば第２のキャラクターの映る方向（例えば横）を向くキャラクター映像を生成する。また、キャラクター自身が発話先として特定されている場合、キャラクター生成部２０４は、第１の領域Ｒ１（コンテンツを表示する領域）の存在する方向を向くキャラクターの映像を生成する。

また、キャラクター生成部２０４は、発話制御部２０５がキャラクターから発話しないと決定した場合に、キャラクターに所定の動作を行わせる構成としてもよい。所定の動作には、例えば、うなずき、驚きのリアクション等が含まれる。

（表示制御装置１００による処理の流れ）
図５は、表示制御装置１００による処理の流れの一部を示すフロー図である。

（ステップＳ１１）
図５に示す例では、まずステップＳ１１において、第１の取得部１１が、コンテンツデータを取得する。コンテンツデータの具体例については上述したためここでは説明を省略する。

（ステップＳ２２１Ａ）
続いて、ステップＳ２２１Ａにおいて、解析部２２１が、ステップＳ１１において取得したコンテンツデータを解析する。解析部２２１による解析処理の具体例については上述したためここでは説明を省略する。

（ステップＳ２１）
続いて、ステップＳ２１において、第２の取得部２１は、センシング部２０からセンシングデータを取得する。センシングデータの具体例については上述したためここでは説明を省略する。

（ステップＳ２２１）
続いて、ステップＳ２２１において、解析部２２１は、ステップＳ２１において取得したセンシングデータを解析する。解析部２２１による解析処理の具体例については上述したためここでは説明を省略する。

（ステップＳ２２２）
続いて、ステップＳ２２２において、報知情報生成部２２２は、ステップＳ２２１における解析結果を参照して、報知情報を生成する。

（具体的処理例１）
図６は、表示制御装置１００による具体的な処理例１を示すフロー図である。本処理の開始条件はこれに限られないが、例えば、コンテンツが再生される、ユーザによるテレビの操作や発話によりキャラクターを呼び出す操作がなされるか、又はセンシング部２０がユーザを検知する等を契機として開始される。

（ステップＳ２２１Ａ）
まず、ステップＳ２２１Ａにおいて、解析部２２１は、コンテンツ映像を解析することによって、当該コンテンツの各時点における内容を特定する。

（ステップＳ２２２Ａ）
続いて、ステップＳ２２２Ａにおいて、プロンプト生成部２０１が、解析部２２１による解析結果を参照してプロンプトを生成し、生成したプロンプトを学習済モデルＬＭに入力する。そして、学習済モデルＬＭがキャラクターの発話内容を生成する。

（ステップＳ２２２Ｂ）
続いて、ステップＳ２２２Ｂにおいて、学習済みモデルＬＭ、又は発話内容取得部２０２が、生成された発話内容に、発話先情報を紐づける。

（ステップＳ２２２Ｃ）
続いて、ステップＳ２２２Ｃにおいて、発話制御部２０５が、発話内容に紐づけられた発話先情報を参照して、発話先を特定する。そして、第２のキャラクターが発話先として特定されている場合にはステップＳ２２２Ｄに進み、コンテンツが発話先として特定されている場合にはステップＳ２２２Ｅに進み、ユーザが発話先として特定されている場合には、ステップＳ２２２Ｆに進む。

（ステップＳ２２２Ｄ）
第２のキャラクターが発話先として特定されている場合、ステップＳ２２２Ｄにおいて、報知情報生成部２２２が、キャラクターが第２のキャラクターに話しかけるよう制御する。具体的には、発話制御部２０５がキャラクターを発話先として示す発話先情報が紐づけられた発話内容を音声生成部２０３へ供給し、キャラクター生成部２０４が第２のキャラクターへ話しかけるときのキャラクターの映像を生成する。これにより、表示部３０の第２の領域Ｒ２には、図７に示したように、例えば第２のキャラクターＣＲ２と当該第２のキャラクターＣＲ２の存在する方向を向くキャラクターＣＲ１、及び第２のキャラクターＣＲ２へ話しかける内容（例えば「アバター２さん、この映画面白いね」）のテキストデータＵＣが表示される。そして、スピーカ４０からは第２のキャラクターへ話しかける声が聞こえてくる。

（ステップＳ２２２Ｅ）
コンテンツが発話先として特定されている場合、ステップＳ２２２Ｅにおいて、報知情報生成部２２２が、キャラクターがコンテンツに関するコメントを発話するよう制御する。具体的には、発話制御部２０５がコンテンツを発話先として示す発話先情報が紐づけられた発話内容を音声生成部２０３へ供給し、キャラクター生成部２０４が独り言を言うようなキャラクターの映像を生成する。これにより、表示部３０の第２の領域Ｒ２には、図８に示したように、例えば第１の領域Ｒ１の存在する方向を向くキャラクター、及びコンテンツに関するコメント（例えば「この映画、面白いなぁ」）のテキストデータＵＣが表示される。そして、スピーカ４０からはコメントが聞こえてくる。

（ステップＳ２２２Ｆ）
ユーザが発話先として特定されている場合、ステップＳ２２２Ｆにおいて、発話制御部２０５が、センシングデータを参照してユーザの発話タイミングを特定する。そして、ユーザの発話タイミングではない場合にはステップＳ２２２Ｇに進み、ユーザの発話タイミングである場合には、ステップＳ２２２Ｈに進む。

（ステップＳ２２２Ｇ）
ユーザの発話タイミングでない（ユーザが話しかけられるのを待っている）場合、ステップＳ２２２Ｇにおいて、報知情報生成部２２２が、キャラクターがユーザに話しかけるよう制御する。具体的には、発話制御部２０５がユーザを発話先として示す発話先情報が紐づけられた発話内容を音声生成部２０３へ供給し、キャラクター生成部２０４がユーザへ話しかけるときのキャラクターの映像を生成する。これにより、表示部３０の第２の領域Ｒ２には、図９に示したように、例えばユーザの存在する方向を向くキャラクターＣＲ、ユーザへ話しかける内容（例えば「この映画面白いね」）のテキストデータＵＣ、及びキャラクターがユーザに話しかけている旨の表示データＣＡＬＬが表示される。そして、スピーカ４０からはユーザへ話しかける声が聞こえてくる。

（ステップＳ２２２Ｈ）
ユーザの発話タイミングである場合、ステップＳ２２２Ｈにおいて、報知情報生成部２２２が、キャラクターが発話しないよう制御する。具体的には、発話制御部２０５が発話内容を音声生成部２０３へ供給せず、キャラクター生成部２０４が沈黙している状態のキャラクターの映像を生成する。これにより、表示部３０の第２の領域Ｒ２には、図１０に示したように、例えばユーザの存在する方向を向くキャラクターＣＲ、及び無言（例えば「・・・」）を示すテキストデータＵＣが表示される。そして、スピーカ４０からはキャラクターの声は聞こえてこない（コンテンツの音声だけが聞こえてくる）。

（ステップＳ２２２Ｊ）
続いて、ステップＳ２２２Ｊにおいて、コンテンツが再生中であるか否かを判断する。そして、コンテンツが再生中であると判断した場合は、ステップＳ２２１Ａに戻り、コンテンツが再生中ではないと判断した場合は、処理を終了する。

（具体的処理例２）
図１１は、表示制御装置１００による具体的な処理例２を示すフロー図である。処理例２は、ステップＳ２２１ＡからステップＳ２２２Ｃまでの流れが、処理例１と共通している。

（ステップＳ２２２Ｋ）
ステップＳ２２２Ｃにおいてユーザが発話先として特定されている場合、ステップＳ２２２Ｋにおいて、発話制御部２０５が、センシング部２０によるセンシングデータ（又はその解析結果）を参照してユーザの状態を特定する。そして、ユーザの状態が所定の状態であることを特定した場合には、ステップＳ２２２Ｅ又はステップＳ２２２Ｈに進み、ユーザの状態が所定の状態ではないことを特定した場合には、ステップＳ２２２Ｇに進む。

（具体的処理例３）
図１２は、表示制御装置１００による具体的な処理例３を示すフロー図である。処理例３は、ステップＳ２２１ＡからステップＳ２２２Ｂまでの流れが、処理例１と共通している。

（ステップＳ２２２Ｌ）
ステップＳ２２２Ｂの後は、ステップＳ２２２Ｌにおいて、発話制御部２０５が、表示中のコンテンツが、特定のカテゴリ、又は特定のシーンに該当するか否かを判定する。そして、コンテンツが、特定のカテゴリ、又は特定のシーンに該当すると判断した場合にはステップＳ２２２Ｈに進み、該当しないと判断した場合にはステップＳ２２２Ｃに進む。

（具体的処理例１～３の変形例）
なお、表示制御装置１００の第２の制御部２２は、上記具体的処理例１～３に示した処理の中で、または上記処理とは別に、コンテンツの表示がされているとき（開始又は再開された場合を含む）に、オブジェクト（キャラクター）がコンテンツの表示領域側を向くように、オブジェクトの表示態様を制御する処理を実行するよう構成されていてもよい。

具体的には、コンテンツの表示が開始又は再開された場合に、キャラクター生成部２０４が、例えば図１３に示したような、第１の領域Ｒ１の存在する方向を向くキャラクターＣＲの映像を生成する。コンテンツの表示が開始又は再開される前からキャラクターＣＲが表示されていた場合、キャラクター生成部２０４は、それまで表示されていたキャラクターＣＲよりも、第１の領域Ｒ１の存在する方向を向いているキャラクターＣＲの映像を生成する。なお、キャラクター生成部２０４は、第１の領域Ｒ１の存在する方向を向くキャラクターＣＲの映像として、一部（例えば、図１３に示したように、首から上のみ）が当該方向を向く映像を生成してもよいし、全体が当該方向を向く映像を生成してもよい。これにより、表示部３０全体に映る映像は、図１３に示したように、視覚的にキャラクターＣＲが第１の領域Ｒ１に映っているコンテンツをユーザと一緒に視聴しているように見えるものとなる。これにより、アバターとともにコンテンツを鑑賞する一体感が向上する。

なお、キャラクターＣＲが第１の領域Ｒ１の存在する方向を向いている間（コンテンツを視聴している間）、第２の制御部２２は、表示されているコンテンツの内容を、図示しない記憶部に記憶させるよう構成されていてもよい。このようにすれば、例えばコンテンツの表示が終了した後、記憶しておいたコンテンツの内容に基づく発話内容を生成し、キャラクターＣＲに発話させる（ユーザとコンテンツについて会話する）といったことが可能となる。コンテンツを視聴している間としては、キャラクターＣＲが第１の領域Ｒ１の存在する方向を向いていなくても、音声のみは聞いている状態を含んでも良い。

また、コンテンツの表示が終了又は中断すると、キャラクター生成部２０４が、第１の領域Ｒ１の存在する方向とは異なる方向（例えば、ユーザの存在する側）を向くキャラクターＣＲの映像を生成する。

なお、キャラクター生成部２０４は、コンテンツのうち、ユーザが関心を持つコンテンツが表示または再開された場合に、第１の領域Ｒ１の存在する方向を向くキャラクターＣＲの映像を生成するよう構成されていてもよい。ユーザが関心を持つコンテンツであるか否かの判断は、例えば、図示しない記憶部に予め記憶されている（ユーザが登録した）コンテンツ名またはジャンル、ユーザの嗜好に関する情報等に基づいて行うことができる。また、ユーザが関心を持つコンテンツであるか否かの判断は、センシングデータ（センシング部２０又は他の装置によって取得された撮像データ及び音声データ）に基づいて、解析部２２１が解析した結果（例えば、ユーザがコンテンツに関心を示す表情をしている、コンテンツに関心を持っている旨の発話がなされた等）に基づいて行うこともできる。

（表示装置１の効果）
以上のように、本実施形態に係る表示装置１では、コンテンツに関するコンテンツデータを取得する第１の取得部と、コンテンツとともに表示するオブジェクトを介した発話を、コンテンツまたはコンテンツデータに基づいて制御する制御部と、を備えているという構成が採用されている。上記のように構成された表示装置１によれば、コンテンツと共に表示する報知情報の報知態様を、センシングデータを参照して決定するため、コンテンツと共にユーザに対して好適な情報を提示することができる。

また、本実施形態に係る表示装置１によれば、キャラクターが、ユーザに話しかけてもよいタイミングを見計らって話しかけるので、例えば、キャラクターが話しかける必要が無いとき（例えば、ユーザがコンテンツを視聴していないとき）、あるいはキャラクターに邪魔されたくないとき（例えば、ユーザが真剣にコンテンツを視聴しているとき）等に、キャラクターがユーザに誤って話しかけてしまうことが無くなる。その結果、ユーザとキャラクターがスムーズにコミュニケーションをとることができるようになる。

〔実施形態２〕
以下、本発明の他の実施形態について説明する。図１４は、本実施形態に係る表示制御装置１００Ａの具体的構成例を示すブロック図である。図１４に示す表示制御装置１００Ａは、図４に示した表示制御装置１００と同様の構成を備えている。更に、表示制御装置１００Ａは、生成部２００Ａを備え、当該生成部２００Ａは、言語モデルＬＭを有している。それ以外の構成は、図４に示した表示制御装置１００と同様の構成であるため重複する説明は省略する。

〔ソフトウェアによる実現例〕
表示装置１（以下、「装置」と呼ぶ）の機能は、当該装置としてコンピュータを機能させるための表示制御プログラムであって、当該装置の各制御ブロック（特に第１の制御部１２及び第２の制御部２２に含まれる各部）としてコンピュータを機能させるための表示制御プログラムにより実現することができる。

この場合、上記装置は、上記表示制御プログラムを実行するためのハードウェアとして、少なくとも１つの制御装置（例えばプロセッサ）と少なくとも１つの記憶装置（例えばメモリ）を有するコンピュータを備えている。この制御装置と記憶装置により上記表示制御プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。

上記表示制御プログラムは、一時的ではなく、コンピュータ読み取り可能な、１または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記表示制御プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。

また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。

また、上記各実施形態で説明した各処理は、ＡＩ（Artificial Intelligence：人工知能）に実行させてもよい。この場合、ＡＩは上記制御装置で動作するものであってもよいし、他の装置（例えばエッジコンピュータまたはクラウドサーバ等）で動作するものであってもよい。

〔まとめ〕
本明細書には少なくとも以下の態様が記載されている。

（態様１－１）
コンテンツに関するコンテンツデータを取得する第１の取得部と、
ユーザに関するユーザ情報を取得する第２の取得部と、
前記ユーザに報知する報知情報の報知態様を、前記ユーザ情報に応じて変更する制御部と
を備えている情報処理装置。

上記の構成によれば、ユーザに報知する報知情報の報知態様を、前記ユーザ情報に応じて変更するので、ユーザに対して好適な情報を提示することができる。

（態様１－２）
コンテンツに関するコンテンツデータを取得する第１の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備えている情報処理装置。

（態様１－３）
前記制御部は、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御する
態様１－２に記載の情報処理装置。

（態様１－４）
前記制御部は、
前記コンテンツの表示がされているとき（開始又は再開された場合を含む）に、前記オブジェクトが前記コンテンツの表示領域側を向くように、前記オブジェクトの表示態様を制御する
態様１－３に記載の情報処理装置。

（態様１－５）
前記制御部は、
複数の前記オブジェクトを前記コンテンツと共に表示し、
前記オブジェクトの表示態様又は発話態様を、当該オブジェクトの発話先に応じて変更する
態様１－３に記載の情報処理装置。

（態様１－６）
前記発話先には、
前記コンテンツを視聴するユーザ、及び
前記オブジェクトとともに表示される第２のオブジェクト
の何れかが含まれる
態様１－５記載の情報処理装置。

（態様１－７）
態様１－２から１－６の何れか１項に記載の情報処理装置と、
前記コンテンツと前記オブジェクトとを共に表示する表示部と
を備え、
前記情報処理装置は、前記コンテンツの表示を制御するコンテンツ表示制御部をさらに備えている表示装置

（態様１－８）
態様１－７に記載の表示装置を備えているテレビジョン受像機。

（態様１－９）
コンテンツに関するコンテンツデータを取得する第１の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備えている情報処理システム。

（態様１－１０）
コンテンツに関するコンテンツデータを取得する第１の取得ステップと、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御ステップと
を備えている情報処理御方法。

（態様２－１）
コンテンツに関するコンテンツデータを取得する第１の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
前記オブジェクトを介した発話の発話先に応じて、ユーザの発話の有無を特定可能であって、
前記発話先がユーザ以外の場合には、前記ユーザの発話の有無にかかわらず、前記オブジェクトが、前記コンテンツに応じて発話するように、当該オブジェクトを制御する情報処理装置。

（態様２－２）
前記制御部は、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御する
態様２－１に記載の情報処理装置。

（態様２－３）
コンテンツに関するコンテンツデータを取得する第１の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
ユーザの発話の有無を特定可能であって、
前記ユーザの発話が無くても、前記オブジェクトが、前記コンテンツに応じて発話するように、当該オブジェクトを制御し、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御し、
前記コンテンツが表示されているときに、前記オブジェクトが前記コンテンツの表示領域側を向くように、前記オブジェクトの表示態様を制御する
情報処理装置。

（態様２－４）
コンテンツに関するコンテンツデータを取得する第１の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
ユーザの発話の有無を特定可能であって、
前記ユーザの発話が無くても、前記オブジェクトが、前記コンテンツに応じて発話するように、当該オブジェクトを制御し、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御し、
複数の前記オブジェクトを前記コンテンツと共に表示し、
前記オブジェクトの表示態様又は発話態様を、当該オブジェクトの発話先に応じて変更する
情報処理装置。

（態様２－５）
前記発話先には、
前記ユーザ、及び
前記オブジェクトとともに表示される第２のオブジェクト
の何れかが含まれる
態様２－４に記載の情報処理装置。

（態様２－６）
態様２－１から２－５の何れか１項に記載の情報処理装置と、
前記コンテンツと前記オブジェクトとを共に表示する表示部と
を備え、
前記情報処理装置は、前記コンテンツの表示を制御するコンテンツ表示制御部をさらに備えている表示装置。

（態様２－７）
態様２－６に記載の表示装置を備えているテレビジョン受像機。

（態様２－８）
コンテンツに関するコンテンツデータを取得する第１の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
前記オブジェクトを介した発話の発話先に応じて、ユーザの発話の有無を特定可能であって、
前記発話先がユーザ以外の場合には、前記ユーザの発話の有無にかかわらず、前記オブジェクトが、前記コンテンツに応じて発話するように、当該オブジェクトを制御する情報処理システム。

（態様２－９）
コンテンツに関するコンテンツデータを取得する第１の取得ステップと、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御ステップと
を備え、
前記制御ステップにおいて、
前記オブジェクトを介した発話の発話先に応じて、ユーザの発話の有無を特定可能であって、
前記発話先がユーザ以外の場合には、前記ユーザの発話の有無にかかわらず、前記オブジェクトが、前記コンテンツに応じて発話するように、当該オブジェクトを制御する情報処理御方法。

（態様２－１０）
コンテンツに関するコンテンツデータを取得する第１の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御し、
前記コンテンツが表示されているときに、前記オブジェクトが前記コンテンツの表示領域側を向くように、前記オブジェクトの表示態様を制御する情報処理装置。

（態様２－１１）
コンテンツに関するコンテンツデータを取得する第１の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御し、
複数の前記オブジェクトを前記コンテンツと共に表示し、
前記オブジェクトの表示態様又は発話態様を、当該オブジェクトの発話先に応じて変更する情報処理装置。

本発明の各態様に係る表示制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記表示制御装置が備える各部（ソフトウェア要素）として動作させることにより上記表示制御装置をコンピュータにて実現させる表示制御装置のプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

例えば、上述の実施形態における、テキストデータの表示の有無はユーザによって選択可能であってもよい。同様に、アバターの発話音声の有無はユーザによって選択可能であってもよい。さらに、表示制御装置１００は、スタンドアロンの装置として、セットトップボックスを一例に含む電子機器として実現されてもよい。この場合、当該電子機器は、図１、図４又は図１４に示されるすべての機能のうち少なくとも一部の機能を有するとともに、その他の機能が当該電子機器以外に備えられる構成としてもよい。あるいは、当該電子機器がこれらすべての機能を有してもよい。特に、図示されたサーバ装置２００の学習済みモデルＬＭは複数あってもよい。この場合、複数の学習済みモデルＬＭのすべてが当該電子機器に備えられてもよく、又は少なくとも一部が当該電子機器に備えられ、他の学習済みモデルＬＭが当該電子機器以外に備えられてもよい。なお、上述の実施形態における「アバター」とは、キャラクターに基づいて表されるオブジェクトであって、主に、ユーザが選択したり、作成したりすることができるものである。アバターは、一般的な用語としてのユーザ自身の分身でなくてもよく、所定の画像に対応すればよい。

１・・・表示装置
１００・・・表示制御装置
１１・・・第１の取得部
１２・・・第１の制御部
２１・・・第２の取得部
２２・・・第２の制御部
１３・・・合成部
１０・・・受信部
２０・・・センシング部
３０・・・表示部
４０・・・スピーカ

Claims

コンテンツに関するコンテンツデータを取得する第１の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備えている情報処理装置。
前記制御部は、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御する
請求項１に記載の情報処理装置。
前記制御部は、
前記コンテンツが表示されているときに、前記オブジェクトが前記コンテンツの表示領域側を向くように、前記オブジェクトの表示態様を制御する
請求項２に記載の情報処理装置。
前記制御部は、
複数の前記オブジェクトを前記コンテンツと共に表示し、
前記オブジェクトの表示態様又は発話態様を、当該オブジェクトの発話先に応じて変更する
請求項２に記載の情報処理装置。
前記発話先には、
前記コンテンツを視聴するユーザ、及び
前記オブジェクトとともに表示される第２のオブジェクト
の何れかが含まれる
請求項４に記載の情報処理装置。
請求項１から５の何れか１項に記載の情報処理装置と、
前記コンテンツと前記オブジェクトとを共に表示する表示部と
を備え、
前記情報処理装置は、前記コンテンツの表示を制御するコンテンツ表示制御部をさらに備えている表示装置。
請求項６に記載の表示装置を備えているテレビジョン受像機。
コンテンツに関するコンテンツデータを取得する第１の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備えている情報処理システム。
コンテンツに関するコンテンツデータを取得する第１の取得ステップと、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御ステップと
を備えている情報処理御方法。