JP2026031405A - 情報処理装置、表示装置、テレビジョン受像機、情報処理システム、及び情報処理方法 - Google Patents
情報処理装置、表示装置、テレビジョン受像機、情報処理システム、及び情報処理方法Info
- Publication number
- JP2026031405A JP2026031405A JP2025102527A JP2025102527A JP2026031405A JP 2026031405 A JP2026031405 A JP 2026031405A JP 2025102527 A JP2025102527 A JP 2025102527A JP 2025102527 A JP2025102527 A JP 2025102527A JP 2026031405 A JP2026031405 A JP 2026031405A
- Authority
- JP
- Japan
- Prior art keywords
- content
- speech
- unit
- display
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/04—Real-time or near real-time messaging, e.g. instant messaging [IM]
- H04L51/046—Interoperability with other network applications or services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】コンテンツと共にユーザに対して好適な情報を提示することのできる技術を実現する。
【解決手段】表示制御装置(100)は、コンテンツに関するコンテンツデータを取得する第1の取得部(11)と、コンテンツとともに表示するオブジェクトを介した発話を、コンテンツまたはコンテンツデータに基づいて制御する制御部(22)とを備えている。
【選択図】図4
【解決手段】表示制御装置(100)は、コンテンツに関するコンテンツデータを取得する第1の取得部(11)と、コンテンツとともに表示するオブジェクトを介した発話を、コンテンツまたはコンテンツデータに基づいて制御する制御部(22)とを備えている。
【選択図】図4
Description
本発明は情報処理装置、表示装置、テレビジョン受像機、情報処理システム、及び情報処理方法に関する。
従来、カメラによって検出されたユーザの識別情報に基づいて、個人のメディア嗜好を自動的に提供するテレビ装置が提案されている。例えば、特許文献1に記載の技術では、テレビ装置は、あらかじめ登録されたユーザ情報と、カメラによって検出された顔画像とに基づいてユーザを識別し、識別されたユーザに関連するメディアコンテンツを表示したり、設定を自動的に変更したりする。
テレビの視聴においてユーザの満足度を向上させるためには、コンテンツと共に、ユーザに対してどのような情報を提供するかが重要となるが、特許文献1に記載の技術ではこの点に関し課題を有していた。
本発明の一態様は、コンテンツと共にユーザに対して好適な情報を提示することのできる技術を実現することを目的とする。
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、コンテンツに関するコンテンツデータを取得する第1の取得部と、前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部とを備えている。
また、本発明の他の態様に係る表示装置は、上記情報処理装置と、前記コンテンツと前記オブジェクトとを共に表示する表示部とを備え、前記情報処理装置は、前記コンテンツの表示を制御するコンテンツ表示制御部をさらに備えている。
また、本発明の他の態様に係るテレビジョン受像機は、上記表示装置を備えている。
また、本発明の他の態様に係る情報処理システムは、コンテンツに関するコンテンツデータを取得する第1の取得部と、前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部とを備えている。
また、本発明の他の態様に係る情報処理方法は、コンテンツに関するコンテンツデータを取得する第1の取得ステップと、前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御ステップとを備えている。
本発明の一態様によれば、コンテンツと共にユーザに対して好適な情報を提示することができる。
〔実施形態1〕
以下、本発明の一実施形態について、詳細に説明する。
以下、本発明の一実施形態について、詳細に説明する。
<表示装置1>
図1は本実施形態に係る表示装置1の構成を示すブロック図である。図1に示すように、表示装置1は、受信部10、センシング部20、表示制御装置100、表示部30、及びスピーカ40を備えている。なお、図1に示した各部は、あくまで表示装置1の構成の一例であり、当該構成に限定されるものではない。例えば、表示装置1は、ユーザが操作するリモコン装置、上記リモコン装置からの操作信号を受信する操作信号受信部、又は映像データを記憶するための記憶部等の各種の構成を備えていてもよい。また、表示装置1が備える各部は、一例として、ネットワークを介して、複数の装置に分散的に配置されてもよい。そのような場合、表示装置1を表示システムと表現したり、表示制御装置100を表示制御システムと表現したりすることもある。なお、図1に示す例では、表示装置1が表示制御装置100を備えているが、本実施形態はこれに限定されず、表示制御装置100を、表示装置1に接続されたセットトップボックスとして実現してもよい。
図1は本実施形態に係る表示装置1の構成を示すブロック図である。図1に示すように、表示装置1は、受信部10、センシング部20、表示制御装置100、表示部30、及びスピーカ40を備えている。なお、図1に示した各部は、あくまで表示装置1の構成の一例であり、当該構成に限定されるものではない。例えば、表示装置1は、ユーザが操作するリモコン装置、上記リモコン装置からの操作信号を受信する操作信号受信部、又は映像データを記憶するための記憶部等の各種の構成を備えていてもよい。また、表示装置1が備える各部は、一例として、ネットワークを介して、複数の装置に分散的に配置されてもよい。そのような場合、表示装置1を表示システムと表現したり、表示制御装置100を表示制御システムと表現したりすることもある。なお、図1に示す例では、表示装置1が表示制御装置100を備えているが、本実施形態はこれに限定されず、表示制御装置100を、表示装置1に接続されたセットトップボックスとして実現してもよい。
(受信部10)
受信部10は、コンテンツデータを受信し、受信したコンテンツデータを、表示制御装置100に供給する。受信部10が受信するコンテンツデータには、一例として、符号化された映像データ、符号化された音声データ、及び上記映像データに付随する関連情報が含まれるがこれは本実施形態を限定するものではない。また、上記符号化された映像データの例としては、MPEG2、MPEG4、H.264、H.265等の各種の映像符号化技術によって符号化されたデータ(例えばTS(Transport Steam))を挙げることができるが、これも本実施形態を限定するものではない。
受信部10は、コンテンツデータを受信し、受信したコンテンツデータを、表示制御装置100に供給する。受信部10が受信するコンテンツデータには、一例として、符号化された映像データ、符号化された音声データ、及び上記映像データに付随する関連情報が含まれるがこれは本実施形態を限定するものではない。また、上記符号化された映像データの例としては、MPEG2、MPEG4、H.264、H.265等の各種の映像符号化技術によって符号化されたデータ(例えばTS(Transport Steam))を挙げることができるが、これも本実施形態を限定するものではない。
また、上記関連情報には、一例として、上記コンテンツに関する番組情報、上記番組情報を含む番組表データ、上記コンテンツに関連して提供されるデータ放送の情報、及び上記コンテンツに関する説明情報等の少なくとも何れかが含まれ得るが、これらの例も本実施形態を限定するものではない。また上記関連情報は、一例として、上述したMPEG2等の映像符号化技術による復号処理を行うことなく上記コンテンツデータから抽出することができるものであってもよい。ただし当該例も本実施形態を限定するものではない。
また、受信部10は、無線又は有線通信を介してインターネットから上記コンテンツデータを取得する構成としてもよい。また、受信部10は、放送波から上記コンテンツデータを取得する構成とし、当該放送波に含まれる複数のチャンネルの何れかを選局するためのチューナを備える構成としてもよい。受信部10がチューナを備える場合、表示装置1のことをテレビジョン受像機(又は単にテレビ)とも呼称する。
(センシング部20)
センシング部20は、表示装置1を利用する1又は複数のユーザをセンシングする。一例として、センシング部20は、1又は複数のカメラを備え、当該カメラによって上記1又は複数のユーザを撮像する。そして、センシング部20は、上記カメラによる撮像データを含むセンシングデータを表示制御装置100に供給する。また、センシング部20は、レーザ光の反射によってユーザを検知するレーザスキャナ(LiDAR装置)を備え、当該レーザスキャナによって取得したスキャンデータを上記センシングデータに含めて表示制御装置100に供給する構成としてもよい。また、センシング部20は、上記1又は複数のユーザの発話を集音する1又は複数のマイクを備え、当該マイクによって集音した音声を示す音声データを、上記センシングデータに含めて表示制御装置100に供給する構成としてもよい。
センシング部20は、表示装置1を利用する1又は複数のユーザをセンシングする。一例として、センシング部20は、1又は複数のカメラを備え、当該カメラによって上記1又は複数のユーザを撮像する。そして、センシング部20は、上記カメラによる撮像データを含むセンシングデータを表示制御装置100に供給する。また、センシング部20は、レーザ光の反射によってユーザを検知するレーザスキャナ(LiDAR装置)を備え、当該レーザスキャナによって取得したスキャンデータを上記センシングデータに含めて表示制御装置100に供給する構成としてもよい。また、センシング部20は、上記1又は複数のユーザの発話を集音する1又は複数のマイクを備え、当該マイクによって集音した音声を示す音声データを、上記センシングデータに含めて表示制御装置100に供給する構成としてもよい。
(表示部30)
表示部30は、表示制御装置100によって生成された表示用画像を表示する。当該表示用画像には、静止画像及び動画像(映像)の少なくとも何れかが含まれる。当該表示用画像には、後述するように、一例として、上記コンテンツデータが示すコンテンツの映像(コンテンツ映像とも呼ぶ)、及び上記ユーザへの報知情報の少なくとも何れかが含まれる。また、表示部30は、上記コンテンツデータが示すコンテンツの映像(コンテンツ映像)、及び上記ユーザへの報知情報の少なくとも何れかを表示する構成としてもよい。
表示部30は、表示制御装置100によって生成された表示用画像を表示する。当該表示用画像には、静止画像及び動画像(映像)の少なくとも何れかが含まれる。当該表示用画像には、後述するように、一例として、上記コンテンツデータが示すコンテンツの映像(コンテンツ映像とも呼ぶ)、及び上記ユーザへの報知情報の少なくとも何れかが含まれる。また、表示部30は、上記コンテンツデータが示すコンテンツの映像(コンテンツ映像)、及び上記ユーザへの報知情報の少なくとも何れかを表示する構成としてもよい。
表示部30は、一例として、表示パネルと、当該表示パネルを上記表示用画像の画像データに基づき駆動するドライバとを備える構成とすることができるが、これは本実施形態を限定するものではない。また、上記表示パネルとして、液晶パネル又は有機ELパネルを用いることができるが、これも本実施形態を限定するものではない。なお、表示部30による表示例については後述する。
(スピーカ40)
スピーカ40は、上記コンテンツデータが示すコンテンツの音声をユーザに対して出力する。また、上記報知情報が音声(報知音声とも呼ぶ)を含む場合、当該報知音声を、ユーザに対して出力する。なお、本実施形態において「音声」との文言は、人の声を含み得るが、これに限定されるものではなく、空気等の媒体を伝搬する音一般のことを指す。
スピーカ40は、上記コンテンツデータが示すコンテンツの音声をユーザに対して出力する。また、上記報知情報が音声(報知音声とも呼ぶ)を含む場合、当該報知音声を、ユーザに対して出力する。なお、本実施形態において「音声」との文言は、人の声を含み得るが、これに限定されるものではなく、空気等の媒体を伝搬する音一般のことを指す。
(表示装置1の使用例)
図2は、表示装置1の使用例を示す図である。図2に示す例では、表示装置1は、脚部を備える据え置き型の表示装置として実現されている。また、図2に示すように、表示装置1は、ユーザUをセンシングするセンシング部20、表示用画像を表示する表示部30、及びコンテンツの音声及び報知情報の音声を出力するスピーカ40(図2の例では2つ)を備えて構成される。なお、表示装置1は、壁掛け型の表示装置として実現されてもよい。
図2は、表示装置1の使用例を示す図である。図2に示す例では、表示装置1は、脚部を備える据え置き型の表示装置として実現されている。また、図2に示すように、表示装置1は、ユーザUをセンシングするセンシング部20、表示用画像を表示する表示部30、及びコンテンツの音声及び報知情報の音声を出力するスピーカ40(図2の例では2つ)を備えて構成される。なお、表示装置1は、壁掛け型の表示装置として実現されてもよい。
<表示制御装置100>
図1に戻り、表示装置1が備える表示制御装置100の各部の構成について説明する。図1に示すように、表示制御装置100は、第1の取得部11、第1の制御部12、合成部13、第2の取得部21、及び第2の制御部22を備えている。なお、「第1」「第2」等の呼称は本実施形態を限定するものではない。例えば、「第1の取得部11」及び「第2の取得部21」の何れか一方又は双方を単に「取得部」と表現することもあるし、「第1の制御部12」及び「第2の制御部22」の何れか一方又は双方を単に「制御部」と表現することもある。また、表示制御装置100のことを情報処理装置と呼称することもある。また、第1の制御部12のことをコンテンツ表示制御部と表現することもある。
図1に戻り、表示装置1が備える表示制御装置100の各部の構成について説明する。図1に示すように、表示制御装置100は、第1の取得部11、第1の制御部12、合成部13、第2の取得部21、及び第2の制御部22を備えている。なお、「第1」「第2」等の呼称は本実施形態を限定するものではない。例えば、「第1の取得部11」及び「第2の取得部21」の何れか一方又は双方を単に「取得部」と表現することもあるし、「第1の制御部12」及び「第2の制御部22」の何れか一方又は双方を単に「制御部」と表現することもある。また、表示制御装置100のことを情報処理装置と呼称することもある。また、第1の制御部12のことをコンテンツ表示制御部と表現することもある。
(第1の取得部11)
第1の取得部11は、コンテンツに関するコンテンツデータを取得する。一例として、第1の取得部11は、上述した受信部10が受信したコンテンツデータを取得する。第1の取得部11は、取得したコンテンツデータを第1の制御部12に供給する。
第1の取得部11は、コンテンツに関するコンテンツデータを取得する。一例として、第1の取得部11は、上述した受信部10が受信したコンテンツデータを取得する。第1の取得部11は、取得したコンテンツデータを第1の制御部12に供給する。
(第1の制御部12)
第1の制御部12は、第1の取得部11から供給されたコンテンツデータが示すコンテンツの表示(換言すればコンテンツ映像の表示)を制御する。一例として、第1の制御部12は、上記コンテンツデータに含まれる映像データを復号し、当該復号処理によって得られたコンテンツ映像を、合成部13に供給する。当該コンテンツ映像は、表示部30が表示する表示用画像の一部を構成する。また、第1の制御部12は、上記コンテンツデータに含まれる音声データを復号し、当該復号処理によって得られたコンテンツ音声を、合成部13に供給する。当該コンテンツ音声は、スピーカ40が出力する音声の一部を構成する。また、第1の制御部12は、上記コンテンツデータから、上述した関連情報を抽出し、抽出した関連情報を、一例として第2の制御部22に供給する。
第1の制御部12は、第1の取得部11から供給されたコンテンツデータが示すコンテンツの表示(換言すればコンテンツ映像の表示)を制御する。一例として、第1の制御部12は、上記コンテンツデータに含まれる映像データを復号し、当該復号処理によって得られたコンテンツ映像を、合成部13に供給する。当該コンテンツ映像は、表示部30が表示する表示用画像の一部を構成する。また、第1の制御部12は、上記コンテンツデータに含まれる音声データを復号し、当該復号処理によって得られたコンテンツ音声を、合成部13に供給する。当該コンテンツ音声は、スピーカ40が出力する音声の一部を構成する。また、第1の制御部12は、上記コンテンツデータから、上述した関連情報を抽出し、抽出した関連情報を、一例として第2の制御部22に供給する。
(第2の取得部21)
第2の取得部21は、表示装置1を利用する1又は複数のユーザのセンシングデータを、センシング部20から取得する。ここで、当該センシングデータには、上述したように、上記ユーザを画角に含む撮像データ、及び上記ユーザによる発話を含む音声データの少なくとも何れかが含まれる。第2の取得部21は、上記センシングデータを第2の制御部22に供給する。
第2の取得部21は、表示装置1を利用する1又は複数のユーザのセンシングデータを、センシング部20から取得する。ここで、当該センシングデータには、上述したように、上記ユーザを画角に含む撮像データ、及び上記ユーザによる発話を含む音声データの少なくとも何れかが含まれる。第2の取得部21は、上記センシングデータを第2の制御部22に供給する。
なお、上記センシングデータは、表示装置1のユーザに関するユーザ情報の一例である。したがって、第2の取得部21は、表示装置1のユーザに関するユーザ情報を取得するものであると表現してもよい。また、本実施形態において、ユーザ情報には、センシング部20又は他の装置によって取得された撮像データ及び音声データが含まれ得る。
また、上記センシングデータは、表示装置1のユーザを識別するためのユーザ識別情報の一例である。したがって、第2の取得部21は、表示装置1のユーザを識別するユーザ識別情報を取得するものであると表現してもよい。
また、第2の取得部21は、上記ユーザ識別情報と対応する嗜好情報を取得する構成としてもよい。一例として、第2の取得部21は、複数のユーザの嗜好情報を蓄積する嗜好情報蓄積部(嗜好情報DB)から、ユーザ識別情報と対応する嗜好情報を取得する嗜好情報取得部として機能する構成としてもよい。
(第2の制御部22)
第2の制御部22は、上記コンテンツデータ、上記コンテンツ映像、上記コンテンツ音声、上記関連情報、及び上記センシングデータの少なくとも何れかを解析する解析処理を実行し、当該解析結果を参照した各種の処理を行う。一例として、第2の制御部22は、コンテンツ映像又は関連情報を解析することによって当該コンテンツの内容を特定する処理、及びセンシングデータを解析することによって、上記1又は複数のユーザによる発話や、上記1又は複数のユーザの状態を特定する処理の少なくとも何れかを実行し、これらの処理の結果を参照した各種の処理を実行する。
第2の制御部22は、上記コンテンツデータ、上記コンテンツ映像、上記コンテンツ音声、上記関連情報、及び上記センシングデータの少なくとも何れかを解析する解析処理を実行し、当該解析結果を参照した各種の処理を行う。一例として、第2の制御部22は、コンテンツ映像又は関連情報を解析することによって当該コンテンツの内容を特定する処理、及びセンシングデータを解析することによって、上記1又は複数のユーザによる発話や、上記1又は複数のユーザの状態を特定する処理の少なくとも何れかを実行し、これらの処理の結果を参照した各種の処理を実行する。
一例として、第2の制御部22は、ユーザに報知する報知情報の報知態様を、センシングデータを参照して決定(生成)する。換言すれば、第2の制御部22は、ユーザに報知する報知情報の報知態様を、ユーザ情報に応じて変更する。ここで、報知情報には、所定の画像及び画像を介した発話の少なくとも何れかが含まれる。例えば、報知情報には、コンテンツデータ及びセンシングデータの少なくとも何れかに応じて表示態様及び発話態様の少なくとも何れかが変化するオブジェクトが含まれる。ここで、当該オブジェクトは、所定の画像の一例である。また、当該オブジェクトは、一例として、後述するキャラクター生成部204において生成されるキャラクター、又は、外部から取得された画像などをCG処理したもの、又は発話に関するテキストデータから画像生成AIにより作成された画像などであってもよい。したがって、報知情報の報知態様には、ユーザ情報に応じた所定の画像の表示態様、及びユーザ情報に応じた発話の発話態様の少なくとも何れかが含まれると表現してもよい。
また、第2の制御部22は、一例として、ユーザ情報に基づいて特定された個人情報に適した発話態様を決定するという処理を行ってもよい。例えば、第2の制御部22は、ユーザ情報に基づいて特定された個人の年齢層又は性別等(例えば、高齢の男性/子供など)に応じた発話態様(高齢の男性向けの発話態様/子供向けの発話態様など)を決定する処理を行ってもよい。
また、第2の制御部22は、一例として、撮像データを参照して、ユーザの相対位置を特定し、特定した相対位置に応じて、報知情報の表示態様及び発話態様の少なくとも何れかを変更するという処理を行ってもよい。ここで、上記相対位置とは、表示装置1を起点とした上記ユーザの位置のことを示しており、一例として、当該表示装置1からの方角及び表示装置1からの距離を含む。
また、上記発話態様には発話の内容である発話内容が含まれる構成とし、第2の制御部22は、ユーザへの発話内容を、コンテンツ及びユーザ情報の少なくとも何れかを参照して決定してもよい。また、第2の制御部22は、コンテンツデータ及びユーザ情報の少なくとも何れかに基づいてユーザに対する発話のタイミングを制御する構成としてもよい。
一例として、第2の制御部22は、センシングデータを参照して、1又は複数ユーザの人数を特定する処理、及び1又は複数ユーザの少なくとも何れかが、登録済ユーザであるか否かを判定する処理の少なくとも何れかの処理を実行し、実行した処理の結果に応じて、所定の画像を介した(一例としてキャラクターからの)ユーザへの発話内容を決定するという処理を行ってもよい。
また、第2の制御部22は、キャラクターによる発話の制御として、発話するかしないかの決定、発話タイミング、及び発話内容の少なくとも何れかの決定を行ってもよい。また、第2の制御部22は、キャラクターからの発話の制御に対応させて、キャラクターの表示態様を制御する構成としてもよい。
また、第2の制御部22は、オブジェクトを介した発話(一例としてキャラクターからの発話)を、コンテンツ又はコンテンツデータに基づいて制御する構成としてもよい。ここで「コンテンツ又はコンテンツデータに基づいて制御する」には、一例として、コンテンツデータから得られるコンテンツ映像、コンテンツ音声、及び関連情報の少なくとも何れかに基づいて制御することが含まれる。また、一例として、第2の制御部22は、コンテンツ又はコンテンツデータを分析して得られるコンテンツに関する分析結果に応じて、発話を制御する構成としてもよい。ここで、「コンテンツを分析」とは、コンテンツ映像及びコンテンツ音声を分析することを指すが、これに限定されず、関連情報を分析することも含まれ得る。なお、上記分析結果は、表示制御装置100又は表示装置1で分析したものでもよいし、クラウドから取得したものでもよい。
また、第2の制御部22は、ユーザに報知する報知情報の報知態様を嗜好情報に基づいて決定する構成としてもよい。換言すれば、第2の制御部22は、報知情報の報知態様を、センシングデータを参照して特定されたユーザの嗜好情報に応じて決定する構成としてもよい。一例として、第2の制御部22は、報知情報に含まれるキャラクターの表示態様及び発話態様の少なくとも何れかを、嗜好情報を参照して決定する構成としてもよい。
また、第2の制御部22は、嗜好情報に基づいて、画像の表示態様を決定する処理、及び複数の声色候補から、嗜好情報に基づいて、発話を生成する処理の少なくとも何れかを実行する構成としてもよい。一例として、第2の制御部22は、複数のキャラクター候補から、嗜好情報を参照して、コンテンツと共に表示するキャラクターを決定する処理、及び複数の声色候補から、嗜好情報を参照して、キャラクターの発話の声色を選択する処理の少なくとも何れかを実行する構成としてもよい。
(合成部13)
合成部13は、第2の制御部22によって決定(生成)された報知情報と、第1の制御部12から供給されたコンテンツ映像とを合成する。より具体的には、合成部13は、第2の制御部22によって決定(生成)された報知情報に含まれる報知映像と、第1の制御部12から供給されたコンテンツ映像とを合成することによって、コンテンツ映像と報知映像とを含む表示用画像を生成し、生成した表示用画像を表示部30に供給する。
合成部13は、第2の制御部22によって決定(生成)された報知情報と、第1の制御部12から供給されたコンテンツ映像とを合成する。より具体的には、合成部13は、第2の制御部22によって決定(生成)された報知情報に含まれる報知映像と、第1の制御部12から供給されたコンテンツ映像とを合成することによって、コンテンツ映像と報知映像とを含む表示用画像を生成し、生成した表示用画像を表示部30に供給する。
また、合成部13は、上記報知情報に含まれる報知音声と、第1の制御部12から供給されたコンテンツ音声とを統合することによって、報知音声とコンテンツ音声とを含む出力用音声を生成し、生成した出力用音声をスピーカ40に供給する。
図3は合成部13によって生成された表示用画像の表示例を示している。図3に示すように、合成部13によって生成され、表示部30によって表示される表示用画像は、コンテンツ映像を表示する第1の領域R1、及び報知情報を表示する第2の領域R2を含んでいる。また、第2の領域R2には、上記報知情報に含まれるキャラクターCR、上記キャラクターCRによる発話内容を示すテキストデータUC、及びユーザ(図3における「あなた」に対応)による発話を示すテキストデータUUが含まれている。ここで、当該キャラクターの表示態様及び発話態様の少なくとも何れかは、コンテンツデータ及びセンシングデータの少なくとも何れかに応じて変化する。
キャラクターCRの具体例は本実施形態を限定するものではないが、一例としてユーザを模擬したキャラクター、動物等の生体を模擬したキャラクター、ロボット等の非生体を模擬したキャラクター、の何れであってもよいし、上記以外のキャラクターであってもよい。なお、キャラクターCRのことをアバターと表現することもある。
なお、第1の領域R1には、コンテンツ映像とともに、又はこれに代えて所定のウェブサイト画面が表示されてもよい。ここにいう所定のウェブサイト画面は、例えば、電子商取引が可能なEC(e-commerce)サイトである。ECサイトは、商品だけでなく旅行手配などの役務の提供に関するウェブサイトであってもよい。
(表示制御装置100の具体的構成例)
続いて、図4を参照して、本実施形態に係る表示制御装置100の具体的構成例について説明する。図4は、表示制御装置100の具体的構成例を示すブロック図である。なお、以下の説明では、表示制御装置100についてすでに説明した事項については重複する説明を省略することがある。
続いて、図4を参照して、本実施形態に係る表示制御装置100の具体的構成例について説明する。図4は、表示制御装置100の具体的構成例を示すブロック図である。なお、以下の説明では、表示制御装置100についてすでに説明した事項については重複する説明を省略することがある。
(第1の制御部12)
図4に示すように、第1の制御部12は、一例として、コンテンツ再生部121を備えている。コンテンツ再生部121は、コンテンツデータに含まれる映像データを復号し、復号されたコンテンツ映像を合成部13及び第2の制御部22に供給する。コンテンツ再生部121は、一例として、MPEG2、MPEG4、H.264、H.265等の各種の映像符号化技術に準拠した復号処理を用いて、復号後のコンテンツ映像を生成する。また、コンテンツ再生部121は、コンテンツデータに含まれる関連情報をコンテンツデータから抽出し、抽出した関連情報を合成部13及び第2の制御部22に供給する。また、コンテンツ再生部121は、コンテンツデータに含まれる音声データを復号し、復号されたコンテンツ音声をスピーカ40に供給する。なお、図1において説明したように、表示制御装置100が合成部13を備える構成とし、第1の制御部12は、上記コンテンツ映像及び上記コンテンツ音声を合成部13に供給する構成としてもよい。
図4に示すように、第1の制御部12は、一例として、コンテンツ再生部121を備えている。コンテンツ再生部121は、コンテンツデータに含まれる映像データを復号し、復号されたコンテンツ映像を合成部13及び第2の制御部22に供給する。コンテンツ再生部121は、一例として、MPEG2、MPEG4、H.264、H.265等の各種の映像符号化技術に準拠した復号処理を用いて、復号後のコンテンツ映像を生成する。また、コンテンツ再生部121は、コンテンツデータに含まれる関連情報をコンテンツデータから抽出し、抽出した関連情報を合成部13及び第2の制御部22に供給する。また、コンテンツ再生部121は、コンテンツデータに含まれる音声データを復号し、復号されたコンテンツ音声をスピーカ40に供給する。なお、図1において説明したように、表示制御装置100が合成部13を備える構成とし、第1の制御部12は、上記コンテンツ映像及び上記コンテンツ音声を合成部13に供給する構成としてもよい。
(第2の制御部22)
第2の制御部22は、図4に示すように、解析部221及び報知情報生成部222を備えている。解析部221は、第2の取得部21から供給されるセンシングデータ、コンテンツ再生部121から供給される復号後のコンテンツ映像、コンテンツ再生部121から供給される関連情報を解析する。解析部221による解析処理には、一例として、センシングデータに含まれる撮像データを解析することによって、1又は複数のユーザの各々の相対位置を特定する処理、センシングデータに含まれる撮像データを解析することによって、1又は複数のユーザの各々の状態(姿勢、表情、感情等)を特定する処理、センシングデータに含まれる音声データを解析することによって、1又は複数のユーザの各々の発話内容を特定する処理、センシングデータに含まれる音声データを解析することによって、1又は複数のユーザの各々の相対位置を特定する処理、コンテンツ映像を解析することによって、当該コンテンツの各時点における内容(シーン、登場人物、登場人物の動作、登場人物の発話等)を特定する処理、関連情報を解析することによって、コンテンツ映像が示すコンテンツのタイトル、登場人物、あらすじ等を特定する処理が含まれ得るが、これらの例は本実施形態を限定するものではない。
第2の制御部22は、図4に示すように、解析部221及び報知情報生成部222を備えている。解析部221は、第2の取得部21から供給されるセンシングデータ、コンテンツ再生部121から供給される復号後のコンテンツ映像、コンテンツ再生部121から供給される関連情報を解析する。解析部221による解析処理には、一例として、センシングデータに含まれる撮像データを解析することによって、1又は複数のユーザの各々の相対位置を特定する処理、センシングデータに含まれる撮像データを解析することによって、1又は複数のユーザの各々の状態(姿勢、表情、感情等)を特定する処理、センシングデータに含まれる音声データを解析することによって、1又は複数のユーザの各々の発話内容を特定する処理、センシングデータに含まれる音声データを解析することによって、1又は複数のユーザの各々の相対位置を特定する処理、コンテンツ映像を解析することによって、当該コンテンツの各時点における内容(シーン、登場人物、登場人物の動作、登場人物の発話等)を特定する処理、関連情報を解析することによって、コンテンツ映像が示すコンテンツのタイトル、登場人物、あらすじ等を特定する処理が含まれ得るが、これらの例は本実施形態を限定するものではない。
なお、解析部221による各種の解析処理は、一例として、物体検出アルゴリズムや発話抽出アルゴリズム等の各種のアルゴリズムを実行する機械学習済みの推論モデル(予測モデル)を用いることができるが、これは本実施形態を限定するものではない。また、当該推論モデルは、一例として、後述する学習済モデルLMの一部として構成されていてもよいし、後述する学習済モデルLMとは別のモデルとして実現されたものであってもよい。また、当該推論モデルは、後述するサーバ装置200が備える構成としてもよいし、表示制御装置100が備える構成としてもよい。解析部221による上記解析処理の結果は、報知情報生成部222に供給される。
報知情報生成部222は、解析部221による解析結果を参照し、当該解析結果に応じた報知情報を生成する。生成された報知情報に含まれる報知映像は、合成部13に供給されて、コンテンツ映像と合成される。また、生成された報知情報に含まれる音声は、スピーカ40から出力される。なお、報知情報生成部222は、音声を含む報知情報を生成してそれをスピーカ40から出力させる際、コンテンツ再生部121を介して、コンテンツの音声の音量を抑えるよう制御する構成としてもよい。
図4に示すように、報知情報生成部222は、一例として、プロンプト生成部201、発話内容取得部202、音声生成部203、キャラクター生成部204、発話制御部205、及び会話履歴管理部206を備えている。
(プロンプト生成部201)
プロンプト生成部201は、解析部221による解析結果を参照して、学習済モデルLMに入力するための入力データ(プロンプト)を生成し、生成した入力データを学習済モデルLMに入力する。ここで当該学習済モデルLMは、一例として、図4に示すように、表示制御装置100に対して、ネットワークNを介して接続されたサーバ装置200が備える構成としてもよいし、表示制御装置100が備える構成としてもよい。また、当該学習済モデルLMは一例として、大規模言語モデルであってもよいがこれに限定されない。当該学習済モデルLMとして任意の機械学習済み生成モデルを用いることができる。学習済モデルLMは、複数のモデルを組み合わせたモデルであってもよいし、1つのマルチモーダルモデルであってもよい。また、プロンプト生成部201は、生成したプロンプトを履歴として保存する構成としてもよい。
プロンプト生成部201は、解析部221による解析結果を参照して、学習済モデルLMに入力するための入力データ(プロンプト)を生成し、生成した入力データを学習済モデルLMに入力する。ここで当該学習済モデルLMは、一例として、図4に示すように、表示制御装置100に対して、ネットワークNを介して接続されたサーバ装置200が備える構成としてもよいし、表示制御装置100が備える構成としてもよい。また、当該学習済モデルLMは一例として、大規模言語モデルであってもよいがこれに限定されない。当該学習済モデルLMとして任意の機械学習済み生成モデルを用いることができる。学習済モデルLMは、複数のモデルを組み合わせたモデルであってもよいし、1つのマルチモーダルモデルであってもよい。また、プロンプト生成部201は、生成したプロンプトを履歴として保存する構成としてもよい。
プロンプト生成部201が生成する具体的なプロンプトは本実施形態を限定するものではないが、一例として、現時点までのユーザとキャラクターとの対話の内容、現時点でのコンテンツの内容、現時点でのユーザの状態(センシングデータ)等を含む参照情報と、上記参照情報に基づき、ユーザへの発話内容を生成する旨の指示情報と、を含む構成とすることができる。
(発話内容取得部202)
発話内容取得部202は、プロンプト生成部201によって生成されたプロンプトに基づき学習済モデルLMが生成した発話内容を取得する。発話内容取得部202は、一例として上記発話内容を、テキストデータの形式で取得するがこれは本実施形態を限定するものではない。なお、発話内容取得部202は、生成した発話内容に、当該発話内容の発話先を示す発話先情報を紐づける構成としてもよい。発話先情報の紐づけは、学習済モデルLMが発話内容を生成する際に行ってもよい。発話先には、例えばコンテンツを視聴するユーザ、キャラクター(自身)、キャラクターとともに表示される第2のキャラクター、のいずれかが含まれる。
発話内容取得部202は、プロンプト生成部201によって生成されたプロンプトに基づき学習済モデルLMが生成した発話内容を取得する。発話内容取得部202は、一例として上記発話内容を、テキストデータの形式で取得するがこれは本実施形態を限定するものではない。なお、発話内容取得部202は、生成した発話内容に、当該発話内容の発話先を示す発話先情報を紐づける構成としてもよい。発話先情報の紐づけは、学習済モデルLMが発話内容を生成する際に行ってもよい。発話先には、例えばコンテンツを視聴するユーザ、キャラクター(自身)、キャラクターとともに表示される第2のキャラクター、のいずれかが含まれる。
また、発話内容取得部202は、発話内容の候補を、コンテンツデータ及びユーザ情報の少なくとも何れかを参照して取得する構成としてもよい。具体的には、発話内容取得部202は、キャラクターからの発話内容の候補を、コンテンツ及びセンシングデータの少なくとも何れかを参照して取得する構成としてもよい。この場合、発話内容取得部202は、例えばコンテンツの内容がシリアスで、キャラクターとの会話になじまない場合、発話内容の候補の長さ(読み上げるのに要する時間)が、ユーザの状態(落ち着かない、陽気な気分でいる)に対して長すぎる場合等に、発話内容の候補を取得しないようにする。
プロンプト生成部201及び発話内容取得部202による処理は、解析部221による解析処理の結果に応じた入力データ(プロンプト)を生成し、生成した入力データ(プロンプト)を学習済のモデルに入力することによって、キャラクターからユーザへの発話内容を決定する、処理であると表現することもできる。
(発話制御部205)
発話制御部205は、キャラクター(オブジェクト)の発話態様を、当該キャラクターの発話先に応じて変更する。発話制御部205は、発話内容に紐づけられた発話先情報を参照して、発話先を特定する。ここで、キャラクター、又は第2のキャラクターが発話先として特定されている場合、発話制御部205は、発話内容を音声生成部203へ供給する。
発話制御部205は、キャラクター(オブジェクト)の発話態様を、当該キャラクターの発話先に応じて変更する。発話制御部205は、発話内容に紐づけられた発話先情報を参照して、発話先を特定する。ここで、キャラクター、又は第2のキャラクターが発話先として特定されている場合、発話制御部205は、発話内容を音声生成部203へ供給する。
ユーザが発話先として特定されている場合、発話制御部205は、センシングデータを参照してユーザの発話タイミングを特定する。すなわち、発話制御部205は、ユーザが発話しようとしているか否かを判断する。そして、発話制御部205は、ユーザの発話タイミングでは、キャラクターから発話させないよう制御する。すなわち、発話内容取得部202が取得した発話内容を音声生成部203へ供給しない。一方、発話制御部205は、ユーザの発話タイミングでない(ユーザが話しかけられるのを待っている)ときには、発話内容取得部202が取得した発話内容を音声生成部203へ供給する。
また、発話制御部205は、センシングデータを参照してユーザの状態を特定する構成としてもよい。具体的には、発話制御部205は、解析部221によるセンシングデータの解析結果を参照し、ユーザの状態が所定の状態であるか否かを判定してもよい。所定の状態には、例えばユーザがコンテンツに集中している(真剣な表情でコンテンツを視聴している)状態、ユーザがコンテンツの視聴以外の動作(読書など)をしている状態等が含まれる。
そして、発話制御部205は、ユーザの状態が所定の状態であると判定した場合に、例えばキャラクターから発話させない(発話内容を音声生成部203へ供給しない)、又はユーザ以外に向けて発話させるようにキャラクターを制御する構成としてもよい。
また、発話制御部205は、表示中のコンテンツが、特定のカテゴリ、又は特定のシーンに該当するか否かを判定する構成としてもよい。表示中のコンテンツが特定のカテゴリや特定のシーンに該当するとは、例えば、表示中のコンテンツに、キャラクターを交えて視聴することが好ましくない(真剣に視聴すべき)内容が含まれていることを指す。そして、発話制御部205は、コンテンツが、特定のカテゴリ、又は特定のシーンに該当すると判断した場合には、キャラクターから発話させないよう制御する構成としてもよい。
また、発話制御部205は、会話履歴において発話されなかった旨が記録されている発話内容の候補を、発話内容として決定する構成としてもよい。すなわち、発話内容が生成・取得されたが、キャラクターが実際には発話しなかった発話内容を、後から発話してもよい。この場合、発話制御部205は、決定した発話内容を発話すべきタイミングとなったか否かを逐次的に判定する処理を行う。そして、発話制御部205は、発話すべきタイミングとなった場合に、キャラクターから発話内容を発話させる。
また、発話制御部205は、取得した候補の内容を、当該候補の内容、コンテンツ及びセンシングデータの少なくとも何れかを参照して変更する構成としてもよい。例えば、発話制御部205は、ユーザの状況やコンテンツのシーンに対して発話内容が長すぎる場合に発話内容を短文化する等の処理を行うことにより、候補の内容を変更する。
(会話履歴管理部206)
会話履歴管理部206は、発話内容の候補を発話しないと決定した場合に、当該候補が発話されなかった旨の履歴を、ユーザとキャラクターとの会話履歴の一部として保存する。ここで、会話履歴管理部206は、履歴を、表示制御装置100が備える会話履歴データベース23に蓄積させる。なお、会話履歴管理部206は、キャラクターが発話した発話内容、及びユーザの発話内容の少なくとも一方も会話履歴データベース23に蓄積させる構成としてもよい。
会話履歴管理部206は、発話内容の候補を発話しないと決定した場合に、当該候補が発話されなかった旨の履歴を、ユーザとキャラクターとの会話履歴の一部として保存する。ここで、会話履歴管理部206は、履歴を、表示制御装置100が備える会話履歴データベース23に蓄積させる。なお、会話履歴管理部206は、キャラクターが発話した発話内容、及びユーザの発話内容の少なくとも一方も会話履歴データベース23に蓄積させる構成としてもよい。
(音声生成部203)
音声生成部203は、発話制御部205から供給された発話内容を示す音声データを生成する。ここで、音声生成部203は、当該音声データの発話の声色やアクセントを、解析部221による解析結果を参照して決定してもよい。また、上述したプロンプト生成部201が生成するプロンプトに、声色を指定する旨の指示情報を含めておき、音声生成部203は当該指示に対する学習済モデルLMによる応答を参照して、上記音声データの発話の声色やアクセントを決定する構成としてもよい。音声生成部203が生成した音声は、合成部13に供給される。そして、音声は、合成部13から、コンテンツの音声と共にスピーカ40に供給される。
音声生成部203は、発話制御部205から供給された発話内容を示す音声データを生成する。ここで、音声生成部203は、当該音声データの発話の声色やアクセントを、解析部221による解析結果を参照して決定してもよい。また、上述したプロンプト生成部201が生成するプロンプトに、声色を指定する旨の指示情報を含めておき、音声生成部203は当該指示に対する学習済モデルLMによる応答を参照して、上記音声データの発話の声色やアクセントを決定する構成としてもよい。音声生成部203が生成した音声は、合成部13に供給される。そして、音声は、合成部13から、コンテンツの音声と共にスピーカ40に供給される。
(キャラクター生成部204)
キャラクター生成部204は、解析部221による解析結果を参照して、報知情報を生成する。一例として、キャラクター生成部204は、解析部221による解析結果を参照して、報知情報に含めるキャラクターの映像データ(キャラクター映像データ)を生成(決定)する。キャラクターは感情移入できる姿形をしているものであればよく、人に限られない。キャラクター生成部204は、一例として、解析部221による解析結果を参照して、キャラクターの容姿などを含む外見、キャラクターの衣装、キャラクターの動作等を決定し、決定した内容を表現するキャラクター映像を、合成部13に供給する。なお、キャラクター生成部204は、キャラクター映像と共に、当該キャラクターの発話内容を文字表示する吹き出しの画像を生成する構成としてもよい。また、キャラクター生成部204は、キャラクターの少なくとも一部の映像を生成AIで作成する構成としてもよい。キャラクターの少なくとも一部は、例えば、センシング部20により外部から取得された画像などにCG処理を施した画像、又は発話に関するテキストデータから画像生成AIにより作成された画像などであってもよい。
キャラクター生成部204は、解析部221による解析結果を参照して、報知情報を生成する。一例として、キャラクター生成部204は、解析部221による解析結果を参照して、報知情報に含めるキャラクターの映像データ(キャラクター映像データ)を生成(決定)する。キャラクターは感情移入できる姿形をしているものであればよく、人に限られない。キャラクター生成部204は、一例として、解析部221による解析結果を参照して、キャラクターの容姿などを含む外見、キャラクターの衣装、キャラクターの動作等を決定し、決定した内容を表現するキャラクター映像を、合成部13に供給する。なお、キャラクター生成部204は、キャラクター映像と共に、当該キャラクターの発話内容を文字表示する吹き出しの画像を生成する構成としてもよい。また、キャラクター生成部204は、キャラクターの少なくとも一部の映像を生成AIで作成する構成としてもよい。キャラクターの少なくとも一部は、例えば、センシング部20により外部から取得された画像などにCG処理を施した画像、又は発話に関するテキストデータから画像生成AIにより作成された画像などであってもよい。
また、キャラクター生成部204は、複数のキャラクター映像を生成する構成としてもよい。この場合、複数のキャラクター映像の供給を受けた合成部13は、複数のキャラクターをコンテンツと共に表示することになる。
また、キャラクター生成部204は、キャラクター(オブジェクト)の表示態様を、当該キャラクターの発話先に応じて変更する構成としてもよい。キャラクター生成部204は、発話内容に紐づけられた発話先情報を参照して発話先を特定してもよいし、発話制御部205が特定した発話先を参照してもよい。ここで、ユーザが発話先として特定されている場合、キャラクター生成部204は、ユーザが存在する方向、例えば正面を向くキャラクター映像を生成する。その際、キャラクター生成部204は、キャラクター映像と共に、当該キャラクターがユーザに対して話しかけている旨の表示データ(例えば「呼びかけ中」の文字表示データ)を生成する構成としてもよい。また、その際、キャラクター生成部204は、発話先がキャラクター又は第2のキャラクターである場合とは異なる表示態様(例えば、色、文字の大きさ)の吹き出しの画像を生成する構成としてもよい。
また、第2のキャラクターが発話先として特定されている場合、キャラクター生成部204は、例えば第2のキャラクターの映る方向(例えば横)を向くキャラクター映像を生成する。また、キャラクター自身が発話先として特定されている場合、キャラクター生成部204は、第1の領域R1(コンテンツを表示する領域)の存在する方向を向くキャラクターの映像を生成する。
また、キャラクター生成部204は、発話制御部205がキャラクターから発話しないと決定した場合に、キャラクターに所定の動作を行わせる構成としてもよい。所定の動作には、例えば、うなずき、驚きのリアクション等が含まれる。
(表示制御装置100による処理の流れ)
図5は、表示制御装置100による処理の流れの一部を示すフロー図である。
図5は、表示制御装置100による処理の流れの一部を示すフロー図である。
(ステップS11)
図5に示す例では、まずステップS11において、第1の取得部11が、コンテンツデータを取得する。コンテンツデータの具体例については上述したためここでは説明を省略する。
図5に示す例では、まずステップS11において、第1の取得部11が、コンテンツデータを取得する。コンテンツデータの具体例については上述したためここでは説明を省略する。
(ステップS221A)
続いて、ステップS221Aにおいて、解析部221が、ステップS11において取得したコンテンツデータを解析する。解析部221による解析処理の具体例については上述したためここでは説明を省略する。
続いて、ステップS221Aにおいて、解析部221が、ステップS11において取得したコンテンツデータを解析する。解析部221による解析処理の具体例については上述したためここでは説明を省略する。
(ステップS21)
続いて、ステップS21において、第2の取得部21は、センシング部20からセンシングデータを取得する。センシングデータの具体例については上述したためここでは説明を省略する。
続いて、ステップS21において、第2の取得部21は、センシング部20からセンシングデータを取得する。センシングデータの具体例については上述したためここでは説明を省略する。
(ステップS221)
続いて、ステップS221において、解析部221は、ステップS21において取得したセンシングデータを解析する。解析部221による解析処理の具体例については上述したためここでは説明を省略する。
続いて、ステップS221において、解析部221は、ステップS21において取得したセンシングデータを解析する。解析部221による解析処理の具体例については上述したためここでは説明を省略する。
(ステップS222)
続いて、ステップS222において、報知情報生成部222は、ステップS221における解析結果を参照して、報知情報を生成する。
続いて、ステップS222において、報知情報生成部222は、ステップS221における解析結果を参照して、報知情報を生成する。
(具体的処理例1)
図6は、表示制御装置100による具体的な処理例1を示すフロー図である。本処理の開始条件はこれに限られないが、例えば、コンテンツが再生される、ユーザによるテレビの操作や発話によりキャラクターを呼び出す操作がなされるか、又はセンシング部20がユーザを検知する等を契機として開始される。
図6は、表示制御装置100による具体的な処理例1を示すフロー図である。本処理の開始条件はこれに限られないが、例えば、コンテンツが再生される、ユーザによるテレビの操作や発話によりキャラクターを呼び出す操作がなされるか、又はセンシング部20がユーザを検知する等を契機として開始される。
(ステップS221A)
まず、ステップS221Aにおいて、解析部221は、コンテンツ映像を解析することによって、当該コンテンツの各時点における内容を特定する。
まず、ステップS221Aにおいて、解析部221は、コンテンツ映像を解析することによって、当該コンテンツの各時点における内容を特定する。
(ステップS222A)
続いて、ステップS222Aにおいて、プロンプト生成部201が、解析部221による解析結果を参照してプロンプトを生成し、生成したプロンプトを学習済モデルLMに入力する。そして、学習済モデルLMがキャラクターの発話内容を生成する。
続いて、ステップS222Aにおいて、プロンプト生成部201が、解析部221による解析結果を参照してプロンプトを生成し、生成したプロンプトを学習済モデルLMに入力する。そして、学習済モデルLMがキャラクターの発話内容を生成する。
(ステップS222B)
続いて、ステップS222Bにおいて、学習済みモデルLM、又は発話内容取得部202が、生成された発話内容に、発話先情報を紐づける。
続いて、ステップS222Bにおいて、学習済みモデルLM、又は発話内容取得部202が、生成された発話内容に、発話先情報を紐づける。
(ステップS222C)
続いて、ステップS222Cにおいて、発話制御部205が、発話内容に紐づけられた発話先情報を参照して、発話先を特定する。そして、第2のキャラクターが発話先として特定されている場合にはステップS222Dに進み、コンテンツが発話先として特定されている場合にはステップS222Eに進み、ユーザが発話先として特定されている場合には、ステップS222Fに進む。
続いて、ステップS222Cにおいて、発話制御部205が、発話内容に紐づけられた発話先情報を参照して、発話先を特定する。そして、第2のキャラクターが発話先として特定されている場合にはステップS222Dに進み、コンテンツが発話先として特定されている場合にはステップS222Eに進み、ユーザが発話先として特定されている場合には、ステップS222Fに進む。
(ステップS222D)
第2のキャラクターが発話先として特定されている場合、ステップS222Dにおいて、報知情報生成部222が、キャラクターが第2のキャラクターに話しかけるよう制御する。具体的には、発話制御部205がキャラクターを発話先として示す発話先情報が紐づけられた発話内容を音声生成部203へ供給し、キャラクター生成部204が第2のキャラクターへ話しかけるときのキャラクターの映像を生成する。これにより、表示部30の第2の領域R2には、図7に示したように、例えば第2のキャラクターCR2と当該第2のキャラクターCR2の存在する方向を向くキャラクターCR1、及び第2のキャラクターCR2へ話しかける内容(例えば「アバター2さん、この映画面白いね」)のテキストデータUCが表示される。そして、スピーカ40からは第2のキャラクターへ話しかける声が聞こえてくる。
第2のキャラクターが発話先として特定されている場合、ステップS222Dにおいて、報知情報生成部222が、キャラクターが第2のキャラクターに話しかけるよう制御する。具体的には、発話制御部205がキャラクターを発話先として示す発話先情報が紐づけられた発話内容を音声生成部203へ供給し、キャラクター生成部204が第2のキャラクターへ話しかけるときのキャラクターの映像を生成する。これにより、表示部30の第2の領域R2には、図7に示したように、例えば第2のキャラクターCR2と当該第2のキャラクターCR2の存在する方向を向くキャラクターCR1、及び第2のキャラクターCR2へ話しかける内容(例えば「アバター2さん、この映画面白いね」)のテキストデータUCが表示される。そして、スピーカ40からは第2のキャラクターへ話しかける声が聞こえてくる。
(ステップS222E)
コンテンツが発話先として特定されている場合、ステップS222Eにおいて、報知情報生成部222が、キャラクターがコンテンツに関するコメントを発話するよう制御する。具体的には、発話制御部205がコンテンツを発話先として示す発話先情報が紐づけられた発話内容を音声生成部203へ供給し、キャラクター生成部204が独り言を言うようなキャラクターの映像を生成する。これにより、表示部30の第2の領域R2には、図8に示したように、例えば第1の領域R1の存在する方向を向くキャラクター、及びコンテンツに関するコメント(例えば「この映画、面白いなぁ」)のテキストデータUCが表示される。そして、スピーカ40からはコメントが聞こえてくる。
コンテンツが発話先として特定されている場合、ステップS222Eにおいて、報知情報生成部222が、キャラクターがコンテンツに関するコメントを発話するよう制御する。具体的には、発話制御部205がコンテンツを発話先として示す発話先情報が紐づけられた発話内容を音声生成部203へ供給し、キャラクター生成部204が独り言を言うようなキャラクターの映像を生成する。これにより、表示部30の第2の領域R2には、図8に示したように、例えば第1の領域R1の存在する方向を向くキャラクター、及びコンテンツに関するコメント(例えば「この映画、面白いなぁ」)のテキストデータUCが表示される。そして、スピーカ40からはコメントが聞こえてくる。
(ステップS222F)
ユーザが発話先として特定されている場合、ステップS222Fにおいて、発話制御部205が、センシングデータを参照してユーザの発話タイミングを特定する。そして、ユーザの発話タイミングではない場合にはステップS222Gに進み、ユーザの発話タイミングである場合には、ステップS222Hに進む。
ユーザが発話先として特定されている場合、ステップS222Fにおいて、発話制御部205が、センシングデータを参照してユーザの発話タイミングを特定する。そして、ユーザの発話タイミングではない場合にはステップS222Gに進み、ユーザの発話タイミングである場合には、ステップS222Hに進む。
(ステップS222G)
ユーザの発話タイミングでない(ユーザが話しかけられるのを待っている)場合、ステップS222Gにおいて、報知情報生成部222が、キャラクターがユーザに話しかけるよう制御する。具体的には、発話制御部205がユーザを発話先として示す発話先情報が紐づけられた発話内容を音声生成部203へ供給し、キャラクター生成部204がユーザへ話しかけるときのキャラクターの映像を生成する。これにより、表示部30の第2の領域R2には、図9に示したように、例えばユーザの存在する方向を向くキャラクターCR、ユーザへ話しかける内容(例えば「この映画面白いね」)のテキストデータUC、及びキャラクターがユーザに話しかけている旨の表示データCALLが表示される。そして、スピーカ40からはユーザへ話しかける声が聞こえてくる。
ユーザの発話タイミングでない(ユーザが話しかけられるのを待っている)場合、ステップS222Gにおいて、報知情報生成部222が、キャラクターがユーザに話しかけるよう制御する。具体的には、発話制御部205がユーザを発話先として示す発話先情報が紐づけられた発話内容を音声生成部203へ供給し、キャラクター生成部204がユーザへ話しかけるときのキャラクターの映像を生成する。これにより、表示部30の第2の領域R2には、図9に示したように、例えばユーザの存在する方向を向くキャラクターCR、ユーザへ話しかける内容(例えば「この映画面白いね」)のテキストデータUC、及びキャラクターがユーザに話しかけている旨の表示データCALLが表示される。そして、スピーカ40からはユーザへ話しかける声が聞こえてくる。
(ステップS222H)
ユーザの発話タイミングである場合、ステップS222Hにおいて、報知情報生成部222が、キャラクターが発話しないよう制御する。具体的には、発話制御部205が発話内容を音声生成部203へ供給せず、キャラクター生成部204が沈黙している状態のキャラクターの映像を生成する。これにより、表示部30の第2の領域R2には、図10に示したように、例えばユーザの存在する方向を向くキャラクターCR、及び無言(例えば「・・・」)を示すテキストデータUCが表示される。そして、スピーカ40からはキャラクターの声は聞こえてこない(コンテンツの音声だけが聞こえてくる)。
ユーザの発話タイミングである場合、ステップS222Hにおいて、報知情報生成部222が、キャラクターが発話しないよう制御する。具体的には、発話制御部205が発話内容を音声生成部203へ供給せず、キャラクター生成部204が沈黙している状態のキャラクターの映像を生成する。これにより、表示部30の第2の領域R2には、図10に示したように、例えばユーザの存在する方向を向くキャラクターCR、及び無言(例えば「・・・」)を示すテキストデータUCが表示される。そして、スピーカ40からはキャラクターの声は聞こえてこない(コンテンツの音声だけが聞こえてくる)。
(ステップS222J)
続いて、ステップS222Jにおいて、コンテンツが再生中であるか否かを判断する。そして、コンテンツが再生中であると判断した場合は、ステップS221Aに戻り、コンテンツが再生中ではないと判断した場合は、処理を終了する。
続いて、ステップS222Jにおいて、コンテンツが再生中であるか否かを判断する。そして、コンテンツが再生中であると判断した場合は、ステップS221Aに戻り、コンテンツが再生中ではないと判断した場合は、処理を終了する。
(具体的処理例2)
図11は、表示制御装置100による具体的な処理例2を示すフロー図である。処理例2は、ステップS221AからステップS222Cまでの流れが、処理例1と共通している。
図11は、表示制御装置100による具体的な処理例2を示すフロー図である。処理例2は、ステップS221AからステップS222Cまでの流れが、処理例1と共通している。
(ステップS222K)
ステップS222Cにおいてユーザが発話先として特定されている場合、ステップS222Kにおいて、発話制御部205が、センシング部20によるセンシングデータ(又はその解析結果)を参照してユーザの状態を特定する。そして、ユーザの状態が所定の状態であることを特定した場合には、ステップS222E又はステップS222Hに進み、ユーザの状態が所定の状態ではないことを特定した場合には、ステップS222Gに進む。
ステップS222Cにおいてユーザが発話先として特定されている場合、ステップS222Kにおいて、発話制御部205が、センシング部20によるセンシングデータ(又はその解析結果)を参照してユーザの状態を特定する。そして、ユーザの状態が所定の状態であることを特定した場合には、ステップS222E又はステップS222Hに進み、ユーザの状態が所定の状態ではないことを特定した場合には、ステップS222Gに進む。
(具体的処理例3)
図12は、表示制御装置100による具体的な処理例3を示すフロー図である。処理例3は、ステップS221AからステップS222Bまでの流れが、処理例1と共通している。
図12は、表示制御装置100による具体的な処理例3を示すフロー図である。処理例3は、ステップS221AからステップS222Bまでの流れが、処理例1と共通している。
(ステップS222L)
ステップS222Bの後は、ステップS222Lにおいて、発話制御部205が、表示中のコンテンツが、特定のカテゴリ、又は特定のシーンに該当するか否かを判定する。そして、コンテンツが、特定のカテゴリ、又は特定のシーンに該当すると判断した場合にはステップS222Hに進み、該当しないと判断した場合にはステップS222Cに進む。
ステップS222Bの後は、ステップS222Lにおいて、発話制御部205が、表示中のコンテンツが、特定のカテゴリ、又は特定のシーンに該当するか否かを判定する。そして、コンテンツが、特定のカテゴリ、又は特定のシーンに該当すると判断した場合にはステップS222Hに進み、該当しないと判断した場合にはステップS222Cに進む。
(具体的処理例1~3の変形例)
なお、表示制御装置100の第2の制御部22は、上記具体的処理例1~3に示した処理の中で、または上記処理とは別に、コンテンツの表示がされているとき(開始又は再開された場合を含む)に、オブジェクト(キャラクター)がコンテンツの表示領域側を向くように、オブジェクトの表示態様を制御する処理を実行するよう構成されていてもよい。
なお、表示制御装置100の第2の制御部22は、上記具体的処理例1~3に示した処理の中で、または上記処理とは別に、コンテンツの表示がされているとき(開始又は再開された場合を含む)に、オブジェクト(キャラクター)がコンテンツの表示領域側を向くように、オブジェクトの表示態様を制御する処理を実行するよう構成されていてもよい。
具体的には、コンテンツの表示が開始又は再開された場合に、キャラクター生成部204が、例えば図13に示したような、第1の領域R1の存在する方向を向くキャラクターCRの映像を生成する。コンテンツの表示が開始又は再開される前からキャラクターCRが表示されていた場合、キャラクター生成部204は、それまで表示されていたキャラクターCRよりも、第1の領域R1の存在する方向を向いているキャラクターCRの映像を生成する。なお、キャラクター生成部204は、第1の領域R1の存在する方向を向くキャラクターCRの映像として、一部(例えば、図13に示したように、首から上のみ)が当該方向を向く映像を生成してもよいし、全体が当該方向を向く映像を生成してもよい。これにより、表示部30全体に映る映像は、図13に示したように、視覚的にキャラクターCRが第1の領域R1に映っているコンテンツをユーザと一緒に視聴しているように見えるものとなる。これにより、アバターとともにコンテンツを鑑賞する一体感が向上する。
なお、キャラクターCRが第1の領域R1の存在する方向を向いている間(コンテンツを視聴している間)、第2の制御部22は、表示されているコンテンツの内容を、図示しない記憶部に記憶させるよう構成されていてもよい。このようにすれば、例えばコンテンツの表示が終了した後、記憶しておいたコンテンツの内容に基づく発話内容を生成し、キャラクターCRに発話させる(ユーザとコンテンツについて会話する)といったことが可能となる。コンテンツを視聴している間としては、キャラクターCRが第1の領域R1の存在する方向を向いていなくても、音声のみは聞いている状態を含んでも良い。
また、コンテンツの表示が終了又は中断すると、キャラクター生成部204が、第1の領域R1の存在する方向とは異なる方向(例えば、ユーザの存在する側)を向くキャラクターCRの映像を生成する。
なお、キャラクター生成部204は、コンテンツのうち、ユーザが関心を持つコンテンツが表示または再開された場合に、第1の領域R1の存在する方向を向くキャラクターCRの映像を生成するよう構成されていてもよい。ユーザが関心を持つコンテンツであるか否かの判断は、例えば、図示しない記憶部に予め記憶されている(ユーザが登録した)コンテンツ名またはジャンル、ユーザの嗜好に関する情報等に基づいて行うことができる。また、ユーザが関心を持つコンテンツであるか否かの判断は、センシングデータ(センシング部20又は他の装置によって取得された撮像データ及び音声データ)に基づいて、解析部221が解析した結果(例えば、ユーザがコンテンツに関心を示す表情をしている、コンテンツに関心を持っている旨の発話がなされた等)に基づいて行うこともできる。
(表示装置1の効果)
以上のように、本実施形態に係る表示装置1では、コンテンツに関するコンテンツデータを取得する第1の取得部と、コンテンツとともに表示するオブジェクトを介した発話を、コンテンツまたはコンテンツデータに基づいて制御する制御部と、を備えているという構成が採用されている。上記のように構成された表示装置1によれば、コンテンツと共に表示する報知情報の報知態様を、センシングデータを参照して決定するため、コンテンツと共にユーザに対して好適な情報を提示することができる。
以上のように、本実施形態に係る表示装置1では、コンテンツに関するコンテンツデータを取得する第1の取得部と、コンテンツとともに表示するオブジェクトを介した発話を、コンテンツまたはコンテンツデータに基づいて制御する制御部と、を備えているという構成が採用されている。上記のように構成された表示装置1によれば、コンテンツと共に表示する報知情報の報知態様を、センシングデータを参照して決定するため、コンテンツと共にユーザに対して好適な情報を提示することができる。
また、本実施形態に係る表示装置1によれば、キャラクターが、ユーザに話しかけてもよいタイミングを見計らって話しかけるので、例えば、キャラクターが話しかける必要が無いとき(例えば、ユーザがコンテンツを視聴していないとき)、あるいはキャラクターに邪魔されたくないとき(例えば、ユーザが真剣にコンテンツを視聴しているとき)等に、キャラクターがユーザに誤って話しかけてしまうことが無くなる。その結果、ユーザとキャラクターがスムーズにコミュニケーションをとることができるようになる。
〔実施形態2〕
以下、本発明の他の実施形態について説明する。図14は、本実施形態に係る表示制御装置100Aの具体的構成例を示すブロック図である。図14に示す表示制御装置100Aは、図4に示した表示制御装置100と同様の構成を備えている。更に、表示制御装置100Aは、生成部200Aを備え、当該生成部200Aは、言語モデルLMを有している。それ以外の構成は、図4に示した表示制御装置100と同様の構成であるため重複する説明は省略する。
以下、本発明の他の実施形態について説明する。図14は、本実施形態に係る表示制御装置100Aの具体的構成例を示すブロック図である。図14に示す表示制御装置100Aは、図4に示した表示制御装置100と同様の構成を備えている。更に、表示制御装置100Aは、生成部200Aを備え、当該生成部200Aは、言語モデルLMを有している。それ以外の構成は、図4に示した表示制御装置100と同様の構成であるため重複する説明は省略する。
〔ソフトウェアによる実現例〕
表示装置1(以下、「装置」と呼ぶ)の機能は、当該装置としてコンピュータを機能させるための表示制御プログラムであって、当該装置の各制御ブロック(特に第1の制御部12及び第2の制御部22に含まれる各部)としてコンピュータを機能させるための表示制御プログラムにより実現することができる。
表示装置1(以下、「装置」と呼ぶ)の機能は、当該装置としてコンピュータを機能させるための表示制御プログラムであって、当該装置の各制御ブロック(特に第1の制御部12及び第2の制御部22に含まれる各部)としてコンピュータを機能させるための表示制御プログラムにより実現することができる。
この場合、上記装置は、上記表示制御プログラムを実行するためのハードウェアとして、少なくとも1つの制御装置(例えばプロセッサ)と少なくとも1つの記憶装置(例えばメモリ)を有するコンピュータを備えている。この制御装置と記憶装置により上記表示制御プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。
上記表示制御プログラムは、一時的ではなく、コンピュータ読み取り可能な、1または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記表示制御プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。
また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。
また、上記各実施形態で説明した各処理は、AI(Artificial Intelligence:人工知能)に実行させてもよい。この場合、AIは上記制御装置で動作するものであってもよいし、他の装置(例えばエッジコンピュータまたはクラウドサーバ等)で動作するものであってもよい。
〔まとめ〕
本明細書には少なくとも以下の態様が記載されている。
本明細書には少なくとも以下の態様が記載されている。
(態様1-1)
コンテンツに関するコンテンツデータを取得する第1の取得部と、
ユーザに関するユーザ情報を取得する第2の取得部と、
前記ユーザに報知する報知情報の報知態様を、前記ユーザ情報に応じて変更する制御部と
を備えている情報処理装置。
コンテンツに関するコンテンツデータを取得する第1の取得部と、
ユーザに関するユーザ情報を取得する第2の取得部と、
前記ユーザに報知する報知情報の報知態様を、前記ユーザ情報に応じて変更する制御部と
を備えている情報処理装置。
上記の構成によれば、ユーザに報知する報知情報の報知態様を、前記ユーザ情報に応じて変更するので、ユーザに対して好適な情報を提示することができる。
(態様1-2)
コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備えている情報処理装置。
コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備えている情報処理装置。
(態様1-3)
前記制御部は、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御する
態様1-2に記載の情報処理装置。
前記制御部は、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御する
態様1-2に記載の情報処理装置。
(態様1-4)
前記制御部は、
前記コンテンツの表示がされているとき(開始又は再開された場合を含む)に、前記オブジェクトが前記コンテンツの表示領域側を向くように、前記オブジェクトの表示態様を制御する
態様1-3に記載の情報処理装置。
前記制御部は、
前記コンテンツの表示がされているとき(開始又は再開された場合を含む)に、前記オブジェクトが前記コンテンツの表示領域側を向くように、前記オブジェクトの表示態様を制御する
態様1-3に記載の情報処理装置。
(態様1-5)
前記制御部は、
複数の前記オブジェクトを前記コンテンツと共に表示し、
前記オブジェクトの表示態様又は発話態様を、当該オブジェクトの発話先に応じて変更する
態様1-3に記載の情報処理装置。
前記制御部は、
複数の前記オブジェクトを前記コンテンツと共に表示し、
前記オブジェクトの表示態様又は発話態様を、当該オブジェクトの発話先に応じて変更する
態様1-3に記載の情報処理装置。
(態様1-6)
前記発話先には、
前記コンテンツを視聴するユーザ、及び
前記オブジェクトとともに表示される第2のオブジェクト
の何れかが含まれる
態様1-5記載の情報処理装置。
前記発話先には、
前記コンテンツを視聴するユーザ、及び
前記オブジェクトとともに表示される第2のオブジェクト
の何れかが含まれる
態様1-5記載の情報処理装置。
(態様1-7)
態様1-2から1-6の何れか1項に記載の情報処理装置と、
前記コンテンツと前記オブジェクトとを共に表示する表示部と
を備え、
前記情報処理装置は、前記コンテンツの表示を制御するコンテンツ表示制御部をさらに備えている表示装置
態様1-2から1-6の何れか1項に記載の情報処理装置と、
前記コンテンツと前記オブジェクトとを共に表示する表示部と
を備え、
前記情報処理装置は、前記コンテンツの表示を制御するコンテンツ表示制御部をさらに備えている表示装置
(態様1-8)
態様1-7に記載の表示装置を備えているテレビジョン受像機。
態様1-7に記載の表示装置を備えているテレビジョン受像機。
(態様1-9)
コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備えている情報処理システム。
コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備えている情報処理システム。
(態様1-10)
コンテンツに関するコンテンツデータを取得する第1の取得ステップと、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御ステップと
を備えている情報処理御方法。
コンテンツに関するコンテンツデータを取得する第1の取得ステップと、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御ステップと
を備えている情報処理御方法。
(態様2-1)
コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
前記オブジェクトを介した発話の発話先に応じて、ユーザの発話の有無を特定可能であって、
前記発話先がユーザ以外の場合には、前記ユーザの発話の有無にかかわらず、前記オブジェクトが、前記コンテンツに応じて発話するように、当該オブジェクトを制御する情報処理装置。
コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
前記オブジェクトを介した発話の発話先に応じて、ユーザの発話の有無を特定可能であって、
前記発話先がユーザ以外の場合には、前記ユーザの発話の有無にかかわらず、前記オブジェクトが、前記コンテンツに応じて発話するように、当該オブジェクトを制御する情報処理装置。
(態様2-2)
前記制御部は、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御する
態様2-1に記載の情報処理装置。
前記制御部は、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御する
態様2-1に記載の情報処理装置。
(態様2-3)
コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
ユーザの発話の有無を特定可能であって、
前記ユーザの発話が無くても、前記オブジェクトが、前記コンテンツに応じて発話するように、当該オブジェクトを制御し、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御し、
前記コンテンツが表示されているときに、前記オブジェクトが前記コンテンツの表示領域側を向くように、前記オブジェクトの表示態様を制御する
情報処理装置。
コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
ユーザの発話の有無を特定可能であって、
前記ユーザの発話が無くても、前記オブジェクトが、前記コンテンツに応じて発話するように、当該オブジェクトを制御し、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御し、
前記コンテンツが表示されているときに、前記オブジェクトが前記コンテンツの表示領域側を向くように、前記オブジェクトの表示態様を制御する
情報処理装置。
(態様2-4)
コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
ユーザの発話の有無を特定可能であって、
前記ユーザの発話が無くても、前記オブジェクトが、前記コンテンツに応じて発話するように、当該オブジェクトを制御し、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御し、
複数の前記オブジェクトを前記コンテンツと共に表示し、
前記オブジェクトの表示態様又は発話態様を、当該オブジェクトの発話先に応じて変更する
情報処理装置。
コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
ユーザの発話の有無を特定可能であって、
前記ユーザの発話が無くても、前記オブジェクトが、前記コンテンツに応じて発話するように、当該オブジェクトを制御し、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御し、
複数の前記オブジェクトを前記コンテンツと共に表示し、
前記オブジェクトの表示態様又は発話態様を、当該オブジェクトの発話先に応じて変更する
情報処理装置。
(態様2-5)
前記発話先には、
前記ユーザ、及び
前記オブジェクトとともに表示される第2のオブジェクト
の何れかが含まれる
態様2-4に記載の情報処理装置。
前記発話先には、
前記ユーザ、及び
前記オブジェクトとともに表示される第2のオブジェクト
の何れかが含まれる
態様2-4に記載の情報処理装置。
(態様2-6)
態様2-1から2-5の何れか1項に記載の情報処理装置と、
前記コンテンツと前記オブジェクトとを共に表示する表示部と
を備え、
前記情報処理装置は、前記コンテンツの表示を制御するコンテンツ表示制御部をさらに備えている表示装置。
態様2-1から2-5の何れか1項に記載の情報処理装置と、
前記コンテンツと前記オブジェクトとを共に表示する表示部と
を備え、
前記情報処理装置は、前記コンテンツの表示を制御するコンテンツ表示制御部をさらに備えている表示装置。
(態様2-7)
態様2-6に記載の表示装置を備えているテレビジョン受像機。
態様2-6に記載の表示装置を備えているテレビジョン受像機。
(態様2-8)
コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
前記オブジェクトを介した発話の発話先に応じて、ユーザの発話の有無を特定可能であって、
前記発話先がユーザ以外の場合には、前記ユーザの発話の有無にかかわらず、前記オブジェクトが、前記コンテンツに応じて発話するように、当該オブジェクトを制御する情報処理システム。
コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
前記オブジェクトを介した発話の発話先に応じて、ユーザの発話の有無を特定可能であって、
前記発話先がユーザ以外の場合には、前記ユーザの発話の有無にかかわらず、前記オブジェクトが、前記コンテンツに応じて発話するように、当該オブジェクトを制御する情報処理システム。
(態様2-9)
コンテンツに関するコンテンツデータを取得する第1の取得ステップと、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御ステップと
を備え、
前記制御ステップにおいて、
前記オブジェクトを介した発話の発話先に応じて、ユーザの発話の有無を特定可能であって、
前記発話先がユーザ以外の場合には、前記ユーザの発話の有無にかかわらず、前記オブジェクトが、前記コンテンツに応じて発話するように、当該オブジェクトを制御する情報処理御方法。
コンテンツに関するコンテンツデータを取得する第1の取得ステップと、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御ステップと
を備え、
前記制御ステップにおいて、
前記オブジェクトを介した発話の発話先に応じて、ユーザの発話の有無を特定可能であって、
前記発話先がユーザ以外の場合には、前記ユーザの発話の有無にかかわらず、前記オブジェクトが、前記コンテンツに応じて発話するように、当該オブジェクトを制御する情報処理御方法。
(態様2-10)
コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御し、
前記コンテンツが表示されているときに、前記オブジェクトが前記コンテンツの表示領域側を向くように、前記オブジェクトの表示態様を制御する情報処理装置。
コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御し、
前記コンテンツが表示されているときに、前記オブジェクトが前記コンテンツの表示領域側を向くように、前記オブジェクトの表示態様を制御する情報処理装置。
(態様2-11)
コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御し、
複数の前記オブジェクトを前記コンテンツと共に表示し、
前記オブジェクトの表示態様又は発話態様を、当該オブジェクトの発話先に応じて変更する情報処理装置。
コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備え、
前記制御部は、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御し、
複数の前記オブジェクトを前記コンテンツと共に表示し、
前記オブジェクトの表示態様又は発話態様を、当該オブジェクトの発話先に応じて変更する情報処理装置。
本発明の各態様に係る表示制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記表示制御装置が備える各部(ソフトウェア要素)として動作させることにより上記表示制御装置をコンピュータにて実現させる表示制御装置のプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
例えば、上述の実施形態における、テキストデータの表示の有無はユーザによって選択可能であってもよい。同様に、アバターの発話音声の有無はユーザによって選択可能であってもよい。さらに、表示制御装置100は、スタンドアロンの装置として、セットトップボックスを一例に含む電子機器として実現されてもよい。この場合、当該電子機器は、図1、図4又は図14に示されるすべての機能のうち少なくとも一部の機能を有するとともに、その他の機能が当該電子機器以外に備えられる構成としてもよい。あるいは、当該電子機器がこれらすべての機能を有してもよい。特に、図示されたサーバ装置200の学習済みモデルLMは複数あってもよい。この場合、複数の学習済みモデルLMのすべてが当該電子機器に備えられてもよく、又は少なくとも一部が当該電子機器に備えられ、他の学習済みモデルLMが当該電子機器以外に備えられてもよい。なお、上述の実施形態における「アバター」とは、キャラクターに基づいて表されるオブジェクトであって、主に、ユーザが選択したり、作成したりすることができるものである。アバターは、一般的な用語としてのユーザ自身の分身でなくてもよく、所定の画像に対応すればよい。
1 ・・・表示装置
100 ・・・表示制御装置
11 ・・・第1の取得部
12 ・・・第1の制御部
21 ・・・第2の取得部
22 ・・・第2の制御部
13 ・・・合成部
10 ・・・受信部
20 ・・・センシング部
30 ・・・表示部
40 ・・・スピーカ
100 ・・・表示制御装置
11 ・・・第1の取得部
12 ・・・第1の制御部
21 ・・・第2の取得部
22 ・・・第2の制御部
13 ・・・合成部
10 ・・・受信部
20 ・・・センシング部
30 ・・・表示部
40 ・・・スピーカ
Claims (9)
- コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備えている情報処理装置。 - 前記制御部は、
前記コンテンツまたは前記コンテンツデータを分析して得られる前記コンテンツに関する分析結果に応じて、前記発話を制御する
請求項1に記載の情報処理装置。 - 前記制御部は、
前記コンテンツが表示されているときに、前記オブジェクトが前記コンテンツの表示領域側を向くように、前記オブジェクトの表示態様を制御する
請求項2に記載の情報処理装置。 - 前記制御部は、
複数の前記オブジェクトを前記コンテンツと共に表示し、
前記オブジェクトの表示態様又は発話態様を、当該オブジェクトの発話先に応じて変更する
請求項2に記載の情報処理装置。 - 前記発話先には、
前記コンテンツを視聴するユーザ、及び
前記オブジェクトとともに表示される第2のオブジェクト
の何れかが含まれる
請求項4に記載の情報処理装置。 - 請求項1から5の何れか1項に記載の情報処理装置と、
前記コンテンツと前記オブジェクトとを共に表示する表示部と
を備え、
前記情報処理装置は、前記コンテンツの表示を制御するコンテンツ表示制御部をさらに備えている表示装置。 - 請求項6に記載の表示装置を備えているテレビジョン受像機。
- コンテンツに関するコンテンツデータを取得する第1の取得部と、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御部と
を備えている情報処理システム。 - コンテンツに関するコンテンツデータを取得する第1の取得ステップと、
前記コンテンツとともに表示するオブジェクトを介した発話を、前記コンテンツまたは前記コンテンツデータに基づいて制御する制御ステップと
を備えている情報処理御方法。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2025102527A JP2026031405A (ja) | 2024-08-09 | 2025-06-18 | 情報処理装置、表示装置、テレビジョン受像機、情報処理システム、及び情報処理方法 |
| PCT/JP2025/028067 WO2026034584A1 (ja) | 2024-08-09 | 2025-08-07 | 情報処理装置、表示装置、テレビジョン受像機、情報処理システム、及び情報処理方法 |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024134407A JP7716547B1 (ja) | 2024-08-09 | 2024-08-09 | 情報処理装置、表示装置、テレビジョン受像機、情報処理システム、及び情報処理方法 |
| JP2025102527A JP2026031405A (ja) | 2024-08-09 | 2025-06-18 | 情報処理装置、表示装置、テレビジョン受像機、情報処理システム、及び情報処理方法 |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024134407A Division JP7716547B1 (ja) | 2024-08-09 | 2024-08-09 | 情報処理装置、表示装置、テレビジョン受像機、情報処理システム、及び情報処理方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2026031405A true JP2026031405A (ja) | 2026-02-24 |
Family
ID=98735433
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2025102527A Pending JP2026031405A (ja) | 2024-08-09 | 2025-06-18 | 情報処理装置、表示装置、テレビジョン受像機、情報処理システム、及び情報処理方法 |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP2026031405A (ja) |
| WO (1) | WO2026034584A1 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12565134B2 (en) | 2021-08-17 | 2026-03-03 | United Parcel Service Of America, Inc. | Systems, methods, and apparatuses for loading, shifting, and staging objects in automated or semi-automated fashion |
| US12576770B2 (en) | 2021-08-17 | 2026-03-17 | United Parcel Service Of America, Inc. | Systems, methods, and apparatuses for loading, shifting, and staging objects in automated or semi-automated fashion |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002041276A (ja) * | 2000-07-24 | 2002-02-08 | Sony Corp | 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体 |
| JP3545370B2 (ja) * | 2001-08-17 | 2004-07-21 | 株式会社ジャパンヴィステック | テレビジョンでのキャラクタ制御システム |
| JP6227459B2 (ja) * | 2014-03-31 | 2017-11-08 | Kddi株式会社 | 遠隔操作方法ならびにシステムならびにそのユーザ端末および視聴端末 |
| JP6889597B2 (ja) * | 2017-04-21 | 2021-06-18 | 日本放送協会 | ロボット |
| JP6814089B2 (ja) * | 2017-05-02 | 2021-01-13 | 株式会社ソニー・インタラクティブエンタテインメント | オブジェクト制御システムおよびオブジェクト制御方法 |
| JP7294337B2 (ja) * | 2018-06-25 | 2023-06-20 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、並びに情報処理システム |
-
2025
- 2025-06-18 JP JP2025102527A patent/JP2026031405A/ja active Pending
- 2025-08-07 WO PCT/JP2025/028067 patent/WO2026034584A1/ja active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12565134B2 (en) | 2021-08-17 | 2026-03-03 | United Parcel Service Of America, Inc. | Systems, methods, and apparatuses for loading, shifting, and staging objects in automated or semi-automated fashion |
| US12576770B2 (en) | 2021-08-17 | 2026-03-17 | United Parcel Service Of America, Inc. | Systems, methods, and apparatuses for loading, shifting, and staging objects in automated or semi-automated fashion |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2026034584A1 (ja) | 2026-02-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11948594B2 (en) | Automated conversation content items from natural language | |
| JP2026031405A (ja) | 情報処理装置、表示装置、テレビジョン受像機、情報処理システム、及び情報処理方法 | |
| US8442389B2 (en) | Electronic apparatus, reproduction control system, reproduction control method, and program therefor | |
| CN116484318B (zh) | 一种演讲训练反馈方法、装置及存储介质 | |
| TWI436808B (zh) | Input support device, input support method and recording medium | |
| US20100085363A1 (en) | Photo Realistic Talking Head Creation, Content Creation, and Distribution System and Method | |
| US20230215068A1 (en) | Method for outputting blend shape value, storage medium, and electronic device | |
| JP6122792B2 (ja) | ロボット制御装置、ロボット制御方法及びロボット制御プログラム | |
| JP7697027B2 (ja) | ビデオ処理方法、装置、媒体、及びコンピュータプログラム | |
| WO2025001722A1 (zh) | 一种服务器、显示设备及数字人处理方法 | |
| WO2019026360A1 (ja) | 情報処理装置および情報処理方法 | |
| JP2017064853A (ja) | ロボット、コンテンツ決定装置、コンテンツ決定方法、及びプログラム | |
| CN113301352B (zh) | 在视频播放期间进行自动聊天 | |
| CN114911346B (zh) | 一种终端设备的交互方法和装置 | |
| JP7313518B1 (ja) | 評価方法、評価装置、および、評価プログラム | |
| JP7716547B1 (ja) | 情報処理装置、表示装置、テレビジョン受像機、情報処理システム、及び情報処理方法 | |
| CA2717555A1 (en) | Photo realistic talking head creation, content creation, and distribution system and method | |
| JP2007101945A (ja) | 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム | |
| JP7719922B1 (ja) | 情報処理装置、表示装置、テレビジョン受像機、情報処理システム、及び情報処理方法 | |
| JP2018055232A (ja) | コンテンツ提供装置、コンテンツ提供方法、及びプログラム | |
| JP7685660B1 (ja) | 情報処理装置、表示装置、テレビジョン受像機、及び情報処理システム | |
| JP2024164644A (ja) | 対話システム、プログラムおよび対話方法 | |
| JP2026031404A (ja) | 表示制御装置、表示装置、テレビジョン受像機、表示制御システム、及びプログラム | |
| JP2022053669A (ja) | 情報処理装置、情報処理方法及びプログラム | |
| CN119673014B (zh) | 一种穿戴式技能教示系统 |