JP2017016296A - 画像表示装置 - Google Patents

画像表示装置 Download PDF

Info

Publication number
JP2017016296A
JP2017016296A JP2015130836A JP2015130836A JP2017016296A JP 2017016296 A JP2017016296 A JP 2017016296A JP 2015130836 A JP2015130836 A JP 2015130836A JP 2015130836 A JP2015130836 A JP 2015130836A JP 2017016296 A JP2017016296 A JP 2017016296A
Authority
JP
Japan
Prior art keywords
image
voice
image display
display device
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015130836A
Other languages
English (en)
Inventor
佑一 加耒
Yuichi Kaku
佑一 加耒
将明 相田
Masaaki Aida
将明 相田
三樹也 岡田
Mikiya Okada
三樹也 岡田
慎平 浜口
Shimpei Hamaguchi
慎平 浜口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2015130836A priority Critical patent/JP2017016296A/ja
Publication of JP2017016296A publication Critical patent/JP2017016296A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】会話の内容に関連する画像を表示することによってユーザに新たな情報を提供する画像表示装置を提供する。【解決手段】ユーザが会話音声を発すると、その会話音声が画像表示装置に入力される(ステップS1000においてYES)。画像表示装置は、入力された会話音声を認識して文字データに変換し(ステップS1020及びステップS1030)、変換された文字データから所定の条件を満たすキーワードを抽出する(ステップS1050)。画像表示装置はさらに、予め定められた複数の画像の中から、抽出されたキーワードに応じた画像を検索し(ステップS1060)、検索された画像を表示部に表示する(ステップS1070)。【選択図】図4

Description

本発明は、画像表示装置に関し、特に、入力される音声に応じて表示を制御する技術に関する。
近年、画像表示装置の1つである、会議等で用いられる電子黒板として、様々な構成のものが実用化されている。特に、大型の表示画面を有する表示パネルと、2次元における位置座標を検知するタッチパネルとを組合せ、コンピュータシステムとして構成された電子黒板装置が利用されている。
さらに、画像表示装置の他の1つである端末装置を用いた会議システムも知られている。会議システムは会議への参加者によって使用される複数の端末装置を含む。複数の端末装置はネットワークを介して互いに接続されており、会議で使用される資料が端末装置間で共有される。後掲の特許文献1及び2には、このような会議システムが記載されている。
特許文献1の会議システムは、複数の端末装置と、会議で使用する資料(共有するドキュメントデータ)を各端末装置に提供する会議サーバ装置とを含む。複数の端末装置及び会議サーバ装置は、ネットワークを介して相互に接続されている。各端末装置は音声を入力する機能、及び入力された音声を認識する機能を持つ。会議中にある参加者が発言すると、その参加者が使用する端末装置に当該参加者が発した音声が入力される。端末装置は音声認識処理を行なうとともに、認識された文字列から所定の条件を満たす文字列を抽出する。端末装置はさらに、抽出した文字列を他の端末装置に送信する。他の端末装置は文字列を受信すると、受信した文字列を会議資料に重ねて表示する。他の端末装置には、入力される音声に応じた文字列が表示されるため、会議参加者の手書き作業の負担が軽減される。
特許文献2の会議システムは、特許文献1と同様、複数の端末装置と、会議で使用する資料を各端末装置に提供する会議サーバとを含む。各端末装置は音声を入力するためのマイクロホンを含む。端末装置は、参加者が発した音声を、マイクロホンを介して入力し、その音声情報を会議サーバに送信する。会議サーバは、端末装置からの音声情報を受信すると、受信した音声情報を認識してテキスト情報に変換する。会議サーバはさらに、変換したテキスト情報を単語に分解する。分解された単語が会議資料に含まれる場合、会議サーバは、各端末装置に表示されている会議資料中の対応箇所を強調表示させる。各端末装置には、参加者の発言内容に対応する箇所が強調されて会議資料が表示される。すなわち、入力される音声に応じて各端末装置の表示が制御される。これにより、発言者以外の各参加者に発言者が意図する内容を容易に通知できるので、会議の円滑化が図られる。
こうした会議システムには上記した電子黒板装置を用いることも可能である。
特開2011−43716号公報 特開2011−65467号公報
会議等においては種々の議題について話合いが行なわれる。話合いの内容に関連する新たな情報が提供されることによって、新たな発想が得られることがある。こうした場合、会議の円滑な進行が期待できる。
しかし、特許文献1及び2の会議システムは、いずれも、新たな情報を提供するものではないため、会議参加者にとって会議中に新たな発想を得ることは容易でない。
本発明は、上記のような課題を解決するためになされたものであり、本発明の1つの目的は、会話の内容に関連する画像を表示することによってユーザに新たな情報を提供する画像表示装置を提供することである。
上記目的を達成するために、本発明の一の局面に係る画像表示装置は、画像を表示するための表示手段と、会話音声を入力するための音声入力手段と、音声入力手段により入力された会話音声を認識して文字データに変換するための音声認識手段と、音声認識手段により変換された文字データから所定の条件を満たすキーワードを抽出するための抽出手段と、予め定められた複数の画像の中から、抽出手段により抽出されたキーワードに応じた画像を検索するための検索手段と、検索手段により検索された画像を表示手段に表示させるための表示制御手段とを含む。
音声入力手段によって会話音声が入力されると、音声認識手段が入力された会話音声を認識して文字データに変換する。変換された文字データから所定の条件を満たすキーワードが抽出手段によって抽出される。キーワードが抽出されると、検索手段が、予め定められた複数の画像の中から、抽出されたキーワードに応じた画像を検索する。表示制御手段は、検索された画像を表示するよう表示手段を制御する。
表示手段には会話の内容に関連する画像が表示される。画像表示装置は、こうした画像を表示することによって、ユーザに新たな情報を提供できる。例えば、会議等においては、話合いの内容に関連する画像を表示できる。ユーザは、表示された画像からインスピレーションを受けて、新たな発想を得ることが容易となる。このように、例えば、会議等で使用する電子黒板装置に本画像表示装置を適用することによって、会議参加者の発想を支援できる。さらに、例えば、公共の場所に設置されるデジタルサイネージ(電子看板)に本画像表示装置を適用することによって、周囲に居るユーザが求めている情報を当該ユーザに提供できる。
好ましくは、検索手段は、インターネット上に公開されている複数の画像の中から、抽出手段により抽出されたキーワードを用いて画像を検索するための画像検索手段を含む。
より好ましくは、画像表示装置はさらに、複数の画像データを記憶するための画像記憶手段を含み、検索手段は、画像記憶手段に記憶されている複数の画像の中から、抽出手段により抽出されたキーワードを用いて画像を検索するための画像検索手段を含む。
さらに好ましくは、画像表示装置はさらに、音声入力手段により入力された会話音声が、第1の話者による会話音声から第2の話者による会話音声に切替わったことを検出するための検出手段と、検出手段が会話音声の切替わりを検出したことに応答して、会話音声が切替わる前の第1の話者による会話音声と会話音声が切替わった後の第2の話者による会話音声との間に区切り入れるための音声区切手段とを含む。
さらに好ましくは、検出手段は、音声入力手段により入力された会話音声の音声情報に基づいて、第1の話者による会話音声から第2の話者による会話音声に切替わったことを検出する。
さらに好ましくは、画像表示装置はさらに、話者の顔を撮像することによって当該話者の顔の映像情報を取得するための撮像手段を含み、検出手段は、撮像手段が取得した映像情報に基づいて、第1の話者による会話音声から第2の話者による会話音声に切替わったことを検出する。
さらに好ましくは、抽出手段は、音声認識手段により変換された文字データから品詞が名詞、代名詞、及び連体詞である単語をキーワードとして抽出するためのキーワード抽出手段を含む。
さらに好ましくは、画像表示装置はさらに、キーワードになり得る単語と当該単語がキーワードとして抽出されたときの検索方法とを関連付けて記憶するための記憶手段と、抽出手段により抽出されたキーワードが記憶手段に記憶されている単語と一致するか否かを判定するための判定手段とを含み、検索手段は、判定手段の判定結果が肯定であることに応答して、予め定められた複数の画像の中から、一致する単語に関連付けられた検索方法で画像を検索する。
さらに好ましくは、画像表示装置はさらに、音声入力手段により所定の音声が入力されたことを検出するための音声検出手段と、音声検出手段により所定の音声の入力が検出されたことに応答して、直前に検索された複数の画像の中から、所定の音声の検出後に入力された会話音声から抽出されたキーワードを用いて絞込検索を行なうための絞込検索手段を含む。
さらに好ましくは、表示手段は、複数の画像を表示するために区分けされる複数の表示領域を含み、表示制御手段は、検索手段により検索された複数の画像を複数の表示領域にそれぞれ表示させる。
以上より、本発明によれば、会話の内容に関連する画像を表示することによってユーザに新たな情報を提供する画像表示装置を得ることができる。
本発明の第1の実施の形態に係る画像表示装置の外観を示す図である。 図1に示す画像表示装置のハードウェア構成を示す制御ブロック図である。 図1に示す画像表示装置の機能的構成を示すブロック図である。 図1に示す画像表示装置で実行されるプログラムの制御構造を示すフローチャートである。 図1に示す画像表示装置の動作を説明するための図である。 図1に示す画像表示装置の動作を説明するための図である。 本発明の第2の実施の形態に係る画像表示装置の記憶部に記憶されているテーブルの例を示す図である。 本発明の第2の実施の形態に係る画像表示装置で実行されるプログラムの制御構造を示すフローチャートである。 図8のステップS1110の詳細なフローである。 本発明の第3の実施の形態に係る画像表示装置の記憶部に記憶されているテーブルの例を示す図である。 本発明の第4の実施の形態に係る画像表示装置で実行されるプログラムの制御構造を示すフローチャートである。 図11のステップS1210の詳細なフローである。 本発明の第6の実施の形態に係る画像表示装置のハードウェア構成を示す制御ブロック図である。 図13に示す画像表示装置の動作を説明するための図である。 図13に示す画像表示装置の動作を説明するための図である。 本発明の第7の実施の形態に係る画像表示装置を示す図である。 本発明の第7の実施の形態に係る画像表示装置を示す図である。 画像表示装置を含むシステムの例を示す図である。
以下の実施の形態では、同一の部品には同一の参照番号を付してある。それらの機能及び名称も同一である。したがって、それらについての詳細な説明は繰返さない。
(第1の実施の形態)
[全体構成]
図1を参照して、本実施の形態に係る画像表示装置100は、会議等で使用される電子黒板装置である。この画像表示装置100は、大型の表示画面を有するタッチパネルディスプレイ130を含む。画像表示装置100はまた、種々のアプリケーションソフトを起動することによって、起動したアプリケーションソフトに対応する機能を実現する。アプリケーションソフトは、電子黒板の主要な機能である、ペン(図示せず。)等による描画(手書き入力)を実現するペンソフト、及びウェブページ等を閲覧するためのウェブブラウザを含む。
ペンソフトは、電子黒板機能を実現するためのアプリケーションソフトである。このペンソフトが起動されると、画像表示装置100は、タッチパネルディスプレイ130に背景が白地の画面を表示し、ユーザによるタッチパネルディスプレイ130への入力(タッチ)を受付ける。ユーザはペン等を用いてタッチパネルディスプレイ130にタッチすることによりタッチパネルディスプレイ130上の任意の位置を指定できる。ユーザはさらに、タッチパネルディスプレイ130に表示された画面内にペン等をタッチさせたままドラッグすることにより、描画を行なうことができる。
画像表示装置100はネットワークに接続する機能を持ち、ネットワークを介して提供される種々の画像を表示する。画像表示装置100が接続されるネットワークは、インターネットを含む。画像表示装置100はさらに、周囲に居るユーザ(話者)の会話音声を認識する機能を持つ。画像表示装置100の筐体にはマイクロホン170が設けられており、このマイクロホン170を介して会話音声が入力される。画像表示装置100は、ユーザの会話音声をリアルタイムで認識して、インターネット上に公開されている複数の画像、又は所定のデータベースに保存されている複数の画像の中から、会話の内容に関連する画像を検索して表示する。
[ハードウェア構成]
図2を参照して、画像表示装置100は、制御部110、記憶部120、タッチパネルディスプレイ130、表示制御部140、ビデオRAM(VRAM)150、音声処理部160、マイクロホン170、及び通信インターフェイス(以下「通信IF」と記す。)180を含む。
制御部110は、所定のプログラムを実行することにより、画像表示装置100の全体の制御を実現するためのCPU112、画像表示装置100の電源がオンされたときにCPU112が読出すプログラムを記憶する読出専用メモリ(Read Only Memory(ROM))114、及び、CPU112が作業用メモリとして使用するランダム・アクセス・メモリ(Random Access Memory(RAM))116を含む。CPU112には、バス190が接続されており、このバス190には、ROM114、RAM116及び記憶部120が電気的に接続される。
ROM114は、画像表示装置100の電源投入時にCPU112が実行し、画像表示装置100が所定の動作をするように画像表示装置100の全体を設定するためのプログラム及びデータを記憶している。画像表示装置100の動作を実現するためのプログラムもROM114に記憶されている。記憶部120は、通電が遮断された場合にもデータを保持する不揮発性記憶装置であり、例えば、ハードディスクドライブ又はフラッシュメモリ等である。記憶部120は画像表示装置100に対して着脱可能でもよい。記憶部120は、CPU112が実行するプログラムの一部を記憶することもできる。CPU112は、通常動作時には、バス190を介してROM114又は記憶部120からプログラムをRAM116上にロードし、図示しないプログラムカウンタにより指定されるアドレスから命令を順次読出して実行する。CPU112は、ROM114及び記憶部120に格納されているプログラムにしたがって画像表示装置100を構成する各部の制御を行なう。
バス190には、さらに、タッチパネルディスプレイ130、表示制御部140、VRAM150、音声処理部160、及び通信IF180が電気的に接続される。
タッチパネルディスプレイ130は、所定の表示面上に画像を表示する表示部132と、ユーザによるタッチ操作を検出するタッチ検出部134とを含む。表示部132はフルカラー表示が可能な液晶表示パネル等の表示パネルであり、表示制御部140の制御に応じて、VRAM150に記憶された画像を表示する。表示制御部140は、CPU112の制御にしたがって画像表示装置100による画像の表示を制御する。表示制御部140はまた、表示部132を駆動するための駆動部を備え、VRAM150に記憶された画像データを所定のタイミングで読出し、表示部132に画像を表示させるための信号を表示部132に出力する。表示される画像データは、CPU112がRAM116上の情報及び記憶部120に記録された情報から生成し、VRAM150上の各表示画素に対応するアドレスに伝送する。タッチ検出部134は、ユーザによるタッチ操作を検出する例えばタッチパネルである。このタッチ検出部134は、表示部132の表示画面に重畳して配置される。
音声処理部160にはマイクロホン170が接続されている。この音声処理部160は、A/D変換機能を持ち、マイクロホン170が集音したアナログの音声信号をデジタルの音声信号に変換して制御部110に出力する。
通信IF180は、CPU112の制御の下で、画像表示装置100に対してネットワーク50との接続を提供する。画像表示装置100は、通信IF180を介して、ネットワーク50上の外部機器等とデータ通信を行なうことができる。
[機能的構成]
図3を参照して、画像表示装置100の制御部110は、機能部としての、音声認識部200、形態素解析部202、キーワード抽出部204、画像検索部206、及び表示処理部208を含む。記憶部120は、音声認識用データベース(以下「データベース」を「DB」と記す。)122、言語解析用DB124、及び画像DB126を含む。
音声認識用DB122は、例えば、音声認識処理の認識結果となる認識単語のそれぞれについて、読み及び音素列を対応付けて登録されている単語辞書、又は認証単語のそれぞれについて音声データ(音声信号)を対応付けて登録されている単語辞書等である。各認識単語の音素列は、各認識単語に含まれる音素について、各音素の特徴を示す音響モデルの並びを示している。音声認識用DB122はさらに、日本語の音素毎に各音素の特徴を表わす音響モデル(音響パラメータ)を格納している。言語解析用DB124は、例えば、各単語のそれぞれについて表記、読み、品詞情報等を対応付けて登録された、形態素解析に用いられる単語辞書である。画像DB126は、多数の画像データが登録されたデータベースである。登録されている各画像(画像データ)には、検索キーワードがタグ付けされている。画像DB126に登録されている画像は、写真、イラスト等の静止画像であってもよいし、ビデオ等の動画像であってもよい。
音声認識部200は、マイクロホン170及び音声処理部160を介して入力された会話音声(音声信号)に対して、音声認識用DB122を用いた音声認識処理を行ない、音声信号を文字データ(テキストデータ)に変換する。より詳細には、音声認識部200は、入力された会話音声を音響分析して音響パラメータを抽出し、音声認識用DB122に格納されている音響モデルと照合することによって、最も類似する音響モデルに対応する単語を認識結果とする。音声認識部200は、音声認識処理によって得られた文字データを形態素解析部202に出力する。
形態素解析部202は、音声認識部200によって生成された文字データに対して、言語解析用DB124を用いた形態素解析等の言語解析処理を行なう。より詳細には、形態素解析部202は、与えられた文字データに対して形態素解析を行なうことにより、文字データが示す文字列を形態素に分別して、キーワード抽出部204に出力する。その際、形態素解析部202は、いくつの形態素からなるのか、各形態素の品詞は何かを示す情報等を、分別した形態素とともにキーワード抽出部204に出力する。
キーワード抽出部204は、形態素解析の結果に基づいて、音声認識部200によって変換された文字データから所定の条件を満たすキーワードを抽出する。本実施の形態では、キーワード抽出部204は、品詞が名詞、代名詞、及び連体詞である単語をキーワードとして抽出する。
画像検索部206は、キーワード抽出部204が抽出したキーワードを用いて画像(画像ファイル)を検索する。具体的には、画像検索部206は、インターネット上に公開されている画像(例えばウェブサイトの画像等)、又は画像DB126に登録されている画像の中から、抽出されたキーワードに応じた画像を検索する。インターネット上に公開されている画像を検索する場合、画像検索部206は、インターネット上の検索エンジンにキーワードを渡して検索する。インターネット上の画像を検索するか、画像DB126に登録されている画像を検索するかは、画像表示装置100において、予め設定されている。インターネット上の画像、及び画像DB126の画像の両方を検索するよう設定することも可能である。この場合、画像DB126を先に検索して、画像が検索されなかった場合にインターネット上の画像を検索するよう設定することもできる。画像検索部206はさらに、キーワード抽出部204によって重複を排除して複数のキーワードが抽出された場合、キーワード毎に順番に画像を検索する。すなわち、画像検索部206は、1つのキーワードで画像を検索し、続けて、次のキーワードで画像を検索する。
表示処理部208は、画像検索部206で検索された画像を表示部132に表示する処理を実行する。検索結果が複数の場合、表示処理部208は、最も上位にヒットした画像を表示対象の画像として選択する。表示処理部208はさらに、表示する画像の数に応じて、表示部132の表示画面を複数の表示領域に区分けする。区分けされた各表示領域には、検索された画像が表示される。
[ソフトウェア構成]
図4を参照して、入力された会話音声の内容に関連する画像を表示するために、画像表示装置100で実行されるコンピュータプログラムの制御構造について説明する。このプログラムは、ユーザの操作に応じて開始する。
このプログラムは、マイクロホン170及び音声処理部160を介して音声(会話音声)が入力されたか否かを判定し、音声が入力されるまで待機するステップS1000と、ステップS1000において、会話音声が入力されたと判定された場合に実行され、入力された会話音声が一定時間以下の長さとなるように区切りを入れるステップS1010と、ステップS1010の後に実行され、入力された会話音声に対して、音声認識用DB122を用いた音声認識処理を行なうステップS1020と、ステップS1020の後に実行され、認識された会話音声を文字データに変換(テキスト変換)するステップS1030と、ステップS1030の後に実行され、変換された文字データに対して、言語解析用DB124を用いた形態素解析等の言語解析(テキスト解析)処理を行なうステップS1040と、ステップS1040の後に実行され、文字データから所定の条件を満たす単語をキーワードとして抽出するステップS1050とを含む。ステップS1050では、文字データが示す文字列から品詞が名詞、代名詞、及び連体詞の単語がキーワードとして抽出される。
このプログラムはさらに、ステップS1050の後に実行され、インターネット上に公開されている画像、又は画像DB126に登録されている画像の中から、抽出されたキーワードを用いて画像を検索するステップS1060と、ステップS1060の後に実行され、表示制御部140を介して、検索された画像を表示部132に表示するステップS1070と、ステップS1070の後に実行され、未検索のキーワードがあるか否かを判定し、判定結果に応じて制御の流れを分岐させるステップS1080と、ステップS1080において、未検索のキーワードがないと判定された場合に実行され、未解析の文字データ(テキストデータ)があるか否かを判定し、判定結果に応じて制御の流れを分岐させるステップS1090とを含む。ステップS1080において、未検索のキーワードがあると判定された場合は、制御はステップS1060に戻る。ステップS1090において、未解析の文字データがないと判定された場合は、制御はステップS1000に戻り、未解析の文字データがあると判定された場合は、制御はステップS1040に戻る。
[動作]
本実施の形態に係る画像表示装置100は以下のように動作する。以下の説明では、画像表示装置100の動作の内、本発明に関連する部分のみを説明する。他の動作は従来の画像表示装置の動作と同様である。
図1を参照して、画像表示装置100は例えば会議室に設置されており、その会議室で会議が行なわれているものとする。会議の参加者が発言すると、画像表示装置100は、参加者(話者)が発した音声(会話音声)をマイクロホン170で集音する。マイクロホン170で集音されたアナログの音声信号は音声処理部160でデジタルの音声信号に変換されて入力される。
会話音声が入力されると(図4のステップS1000においてYES)、制御部110(CPU112)は、入力された会話音声が一定の時間以下となるように区切りを入れる(ステップS1010)。例えば、会話音声(発言)が一定の時間より長い場合、制御部110は、一定の時間の位置で区切りを入れる。さらに、音声の入力が終了してから所定の時間の経過後に次ぎの音声が入力された場合、すなわち、音声が検出されない状態で所定の時間が経過した場合、制御部110は、音声の入力が終了してから次の音声が入力されるまでの間の位置で区切りを入れる。これにより、入力された会話音声が一定の時間以下の会話音声に区切られる。
制御部110は、一定の時間以下に区切られた会話音声毎に音声認識処理を実行し(ステップS1020)、認識した会話音声を文字データに変換する(ステップS1030)。こうして文字データが生成されると、制御部110は、生成された文字データに対して、言語解析用DB124を用いた形態素解析を行ない(ステップS1030)、形態素解析の結果に基づいて、文字データから所定の条件を満たす単語を抽出する(ステップS1040)。具体的には、制御部110は、文字データが示す文字列から品詞が名詞、代名詞、及び連体詞の単語をキーワードとして抽出する。制御部110はさらに、インターネット上に公開されている画像、又は画像DB126に登録されている画像の中から、抽出されたキーワードを用いて画像を検索する(ステップS1060)。画像が検索されると、制御部110は、表示制御部140を介して、検索された画像を表示部132に表示する(ステップS1070)。複数の画像が検索された場合、制御部110は、最も上位にヒットした画像を表示対象の画像として選択し、選択した画像を表示部132に表示する。
制御部110は、検索されていないキーワード(未検索のキーワード)がある場合は(ステップS1080においてYES)、未検索のキーワードで画像の検索を行ない、検索された画像を表示部132に表示する。すなわち、文字データから複数のキーワードが抽出された場合、制御部110は、キーワード毎に画像の検索を行ない、検索された画像を順に表示部132に表示する。こうした処理は、未検索のキーワードがなくなるまで繰返される。
抽出されたキーワードを用いた検索が全て終了すると(ステップS1080においてNO)、言語解析処理が行なわれていない文字データ(未解析の文字データ)があるか否かが判定される。未解析の文字データがある場合(ステップS1090においてYES)、制御部110は、上記と同様にして、その文字データに対してキーワードの抽出処理を行なう。制御部110は、抽出されたキーワードを用いて画像を検索し、検索された画像を表示制御部140を介して表示部132に表示する。
検索された画像が表示部132に表示されている状態で次のキーワードによって画像が検索されると、表示部132の表示画面が複数の表示領域に区分けされる。区分けされた複数の表示領域に検索された画像が表示される。例えば、次のキーワードによって画像が検索された場合、表示画面が2つの表示領域に区分けされる(表示画面が2分割される)。一方の表示領域には既に表示されていた画像が表示され、他方の表示領域には、新たに検索された画像が表示される。さらに次のキーワードによって画像が検索されると、表示画面が例えば4分割され、新たに検索された画像がいずれかの表示領域に表示される。最大で何分割するかが予め設定されており、最大分割数に達するとそれ以上は表示画面が分割されない。その場合、最先に表示された画像(最も古い画像)が削除され、その表示領域に新たに検索された画像が表示される。
図5を参照して、例えば、会議中にある会議参加者(「参加者A」とする。)が「新しいオフィスをテーマに何か提案ありますか?」と発言し、別の会議参加者(「参加者B」とする。)がそれに応答して「ビジネス用の照明ってどうでしょうか?」と発言したとする。画像表示装置100は、マイクロホン170及び音声処理部160を介して、こうした会話音声を取得して入力する。画像表示装置100は、入力した会話音声を文字データに変換し、得られた文字データに対して、形態素解析等の言語解析処理を行なう。画像表示装置100は、形態素解析等の結果に基づいて、文字データから品詞が名詞、代名詞、及び連体詞である単語をキーワードとして抽出する。例えば、参加者Bの発した会話音声(「ビジネス用の照明ってどうでしょうか?」)からは、キーワードとして「ビジネス」及び「照明」が抽出される。
画像表示装置100は、まず「ビジネス」をキーワードとして、インターネット上に公開されている画像、又は画像DB126に登録されている画像を検索する。図6(A)を参照して、画像が検索されると、検索された画像(「ビジネス」に関連する画像250)が表示部132に表示される。再び図5を参照して、画像表示装置100はさらに、「照明」をキーワードとして、インターネット上に公開されている画像、又は画像DB126に登録されている画像を検索する。図6(B)を参照して、画像表示装置100は、表示部132の表示画面を2つの表示領域(表示領域260及び表示領域262)に区分けして、一方の表示領域260には画像250を表示し、他方の表示領域262には新たに検索された画像(「照明」に関連する画像270)を表示する。
[作用・効果]
以上の説明から明らかなように、本実施の形態に係る画像表示装置100を利用することにより、以下に述べる効果を奏する。
表示部132の表示画面には会話の内容に関連する画像が表示される。画像表示装置100は、こうした画像を表示することによって、ユーザに新たな情報を提供できる。会議においては、話合いの内容に関連する画像を表示できる。会議参加者(ユーザ)は、表示された画像からインスピレーションを受けて、新たな発想を得ることが容易となる。このように、画像表示装置100は、会話の内容に関連する画像を検索して表示することにより、会議参加者の発想を支援できる。
(第2の実施の形態)
本実施の形態に係る画像表示装置は、抽出されるキーワードに応じた検索方法が予め指定されており、検索方法が指定される場合にその検索方法で検索された画像が追加で表示される点において、第1の実施の形態に係る画像表示装置100とは異なる。その他の点では、各画像表示装置は同一の構成である。
本実施の形態では、図7に示すテーブル300が画像表示装置の記憶部に記憶されている。このテーブル300は、キーワードになり得る単語と当該単語がキーワードとして抽出されたときの検索方法とを関連付けて記憶している。すなわち、テーブル300には、キーワードに応じた検索方法が指定(登録)されている。
図7を参照して、テーブル300は、キーワードとなり得る単語を登録するフィールド302、304及び306、画像DB126(図3参照)に登録されている登録画像の中のどの画像を表示させるかを指定するためのフィールド308、並びに、登録されている単語がキーワードとして抽出されたときの検索方法を指定するフィールド310を含む。フィールド302〜306に登録される単語は、品詞が名詞、代名詞、又は連体詞の単語である。キーワードとなり得る単語を登録するフィールドの数は特に制限されず、例えば4つ以上であってもよい。
本実施の形態では、品詞が代名詞、又は連体詞の単語が単独でキーワードとして画像検索されることはなく、これらの単語は、抽出されたキーワードがテーブル300に登録されている単語と一致するか否かの判定時に用いられる。画像表示装置には、当該画像表示装置が設置されている場所を特定するための位置情報が予め登録されている。指定される検索方法によっては、この位置情報が検索に用いられることがある。
[ソフトウェア構成]
本実施の形態に係る画像表示装置では、図4に示されるプログラムに代えて、図8に示されるプログラムが実行される。図8のプログラムは、図4のプログラムのステップS1050及びステップS1060に代えて、それぞれ、ステップS1100及びステップS1110を含む。図8のステップS1000〜ステップS1040、及びステップS1070〜ステップS1090における処理は、図4に示される各ステップにおける処理と同じである。以下、異なる部分について説明する。
図8を参照して、このプログラムは、ステップS1040の後に実行され、文字データから所定の条件を満たす単語をキーワードとして抽出するステップS1100と、ステップS1100の後に実行され、インターネット上に公開されている画像(例えばウェブサイトの画像等)、又は画像DB126に登録されている画像の中から、抽出されたキーワードに応じて画像を検索するステップS1110とを含む。ステップS1100では、文字データが示す文字列から品詞が名詞、代名詞、及び連体詞の単語がキーワードとして抽出される。
図9は、図8のステップS1110の詳細なフローである。図9を参照して、このルーチンは、抽出されたキーワードを用いて画像を検索するステップS2000と、ステップS2000の後に実行され、抽出されたキーワードがテーブル300に登録されている単語と一致するか否かを判定するためのステップS2010と、ステップS2010において、抽出されたキーワードがテーブル300に登録されている単語と一致すると判定された場合に実行され、一致する単語に関連付けられた検索方法で画像が検索されているか否かを判定し、判定結果に応じて制御の流れを分岐させるステップS2020と、ステップS2020において、一致する単語に関連付けられた検索方法で画像が検索されていないと判定された場合に実行され、インターネット上に公開されている画像、又は画像DB126に登録されている画像の中から、関連付けられた検索方法(指定の検索方法)で画像を検索するステップS2030とを含む。ステップS2010において、抽出されたキーワードがテーブル300に登録されている単語と一致しないと判定された場合、ステップS2020において、一致する単語に関連付けられた検索方法で画像が検索されていると判定された場合、又はステップS2030の処理が終了した場合は、このルーチンは終了する。
再び図7を参照して、例えば、抽出されたキーワードが「日本」、「最古」、「寺院」の場合、抽出されたキーワードはテーブル300のNO.1の行に登録されている各単語と一致する。この場合、画像表示装置は、指定の検索方法に基づいて、「飛鳥寺」で画像を再検索する。さらに例えば、抽出されたキーワードが「トイレ」、「どこ」の場合、抽出されたキーワードはテーブル300のNO.2の行に登録されている各単語と一致する。この場合、画像表示装置は、指定の検索方法に基づいて、登録画像(構内トイレ.jpg)を表示部に表示する。さらに例えば、抽出されたキーワードが「天気」のみの場合、抽出されたキーワードはテーブル300のNO.3の行に登録されている単語と一致する。この場合、画像表示装置は、指定の検索方法に基づいて、登録されている位置情報と合わせて、キーワード「天気」で画像を再検索する。さらに例えば、抽出されたキーワードが「明日」、「天気」の場合、抽出されたキーワードはテーブル300のNO.4の行に登録されている各単語と一致する。この場合、画像表示装置は、指定の検索方法に基づいて、キーワード「明日,天気」で画像を再検索する。
(第3の実施の形態)
本実施の形態に係る画像表示装置は、図7のテーブル300に代えて、図10に示されるテーブル400が記憶部に記憶されている点において、第2の実施の形態に係る画像表示装置とは異なる。その他の点では、各画像表示装置は同一の構成である。
図10を参照して、テーブル400にはキーワードとなり得る単語がカテゴリ分けされて登録されており、カテゴリ毎に検索方法が指定されている。このテーブル400は、カテゴリ(カテゴリ名)を登録するフィールド402、キーワードとなり得る単語を一覧形式で登録するフィールド404、及び、カテゴリ毎の検索方法を指定するフィールド406を含む。
本実施の形態では、画像の検索時に、図7のテーブル300に代えて、図10のテーブル400が参照される。例えば、抽出されたキーワードが「天気」の場合、画像表示装置は、指定の検索方法に基づいて、カテゴリ「地域」に登録されている単語と合わせて画像を検索する。この場合、例えば、「関西」、「大阪」、「なんば」、「梅田」、及び「東京」の各地の天気の画像が検索される。なお、指定の検索方法が「なし」又は「検索しない」等の場合は、画像の検索は行なわれない。
本実施の形態ではさらに、検索されて表示された画像は、カテゴリ分けされて画像表示装置の記憶部又は外部の記憶装置に保存される。この場合、マインドマップ(登録商標)の作成等の属性分類を行なった上で画像が保存されるよう構成されていてもよい。これにより、表示された画像間に相関関係が付与される。このように、カテゴリ分け、又はマインドマップ等の形式で検索した画像を保存することによって、その後に、保存された画像を再表示することで、ユーザは会議等で話した内容の関連性を思い出すことが容易となる。
(第4の実施の形態)
本実施の形態に係る画像表示装置は、所定の音声の入力を検出した後に会話音声が入力されると、当該会話音声から抽出された単語(キーワード)で絞込検索を行なう点において、第1の実施の形態に係る画像表示装置100とは異なる。その他の点では、各画像表示装置は同一の構成である。
画像表示装置は、絞込検索のトリガとなる所定の音声を検出する機能を持つ。画像表示装置には、絞込検索のトリガとなる所定の音声が、当該音声を文字データに変換した文字情報(文字列)として予め登録されている。例えば、トリガとなる音声の文字情報として、「さらに絞込むと」が画像表示装置に登録されている。なお、トリガとなる音声の文字情報は、これ以外であってもよい。
画像表示装置は、第1の実施の形態と同様、会話音声が入力されることによって当該会話音声(会話内容)に関連する画像を検索して表示する。画像が表示されている状態でそのユーザが「さらに絞込むと」と発すると、画像表示装置にはその音声が入力される。画像表示装置は、トリガとなる所定の音声が入力されたことを検出する。トリガとなる音声の入力を検出した後に会話音声が入力されると、画像表示装置は、入力された会話音声を文字データに変換して、当該文字データが示す文字列からキーワードを抽出する。画像表示装置は、直前に検索された複数の画像の中から、抽出されたキーワードを用いて画像の絞込検索を行なう。
[ソフトウェア構成]
本実施の形態に係る画像表示装置では、図4に示されるプログラムに代えて、図11に示されるプログラムが実行される。図11のプログラムは、図4のプログラムにおいて、ステップS1200及びステップS1210をさらに含む。図11のステップS1000〜ステップS1090における処理は、図4に示される各ステップにおける処理と同じである。以下、異なる部分について説明する。
図11を参照して、このプログラムは、ステップS1040の後に実行され、所定の音声を検出したか否かを判定し、判定結果に応じて制御の流れを分岐させるステップS1200と、ステップS1200において、所定の音声を検出したと判定された場合に実行され、絞込検索処理を実行するステップS1210とを含む。ステップS1200において、所定の音声を検出していないと判定された場合は、制御はステップS1050に進む。ステップS1210の処理が終了すると、制御はステップS1000に戻る。
図12は、図11のステップS1210の詳細なフローである。図12を参照して、このルーチンは、マイクロホン及び音声処理部を介して会話音声が入力されたか否かを判定し、会話音声が入力されるまで待機するステップS3000と、ステップS3000において、会話音声が入力されたと判定された場合に実行され、入力された会話音声が一定時間以下の長さとなるように区切りを入れるステップS3010と、ステップS3010の後に実行され、入力された会話音声に対して、音声認識用DB122(図3参照)を用いた音声認識処理を行なうステップS3020と、ステップS3020の後に実行され、認識された会話音声を文字データに変換(テキスト変換)するステップS3030と、ステップS3030の後に実行され、変換された文字データに対して、言語解析用DB124(図3参照)を用いた形態素解析等の言語解析(テキスト解析)処理を行なうステップS3040と、ステップS3040の後に実行され、文字データから所定の条件を満たす単語をキーワードとして抽出するステップS3050とを含む。ステップS3050では、文字データが示す文字列から品詞が名詞、代名詞、及び連体詞の単語がキーワードとして抽出される。
このルーチンはさらに、ステップS3050の後に実行され、直前に検索された複数の画像の中から、抽出されたキーワードを用いて画像を絞込検索するステップS3060と、ステップS3060の後に実行され、表示制御部を介して、絞込検索された画像を表示部に表示するステップS3070とを含む。ステップS3070では、例えば、最も上位にヒットした画像が表示対象の画像として選択されて表示される。ステップS3070の処理が終了すると、このルーチンは終了する。
[作用・効果]
画像表示装置は、所定の音声が入力されたことを検出すると、当該音声の検出後に入力された会話音声に含まれるキーワードで絞込検索を実行する。これにより、検索された画像に対して関連性の高い画像を表示できるので、ユーザが求める画像を効果的に提供できる。
(第5の実施の形態)
本実施の形態に係る画像表示装置は、入力された会話音声の音声情報に基づいて、話者の変更を検出する点において、第1の実施の形態に係る画像表示装置100とは異なる。その他の点では、各画像表示装置は同一の構成である。
画像表示装置は、入力された会話音声が、あるユーザ(第1の話者)の会話音声から他のユーザ(第2の話者)の会話音声に切替わったことを検出する機能を持つ。具体的には、画像表示装置は、一連の会話(会話音声)が入力されると、声の大きさ、周波数、声紋等の音声情報に基づいて、音声を発しているユーザ(話者)が変更したことを検出する。画像表示装置は、会話音声の切替わりを検出すると、会話音声が切替わる前の会話音声と会話音声が切替わった後の会話音声との間に区切りを入れる。入力された一連の会話音声がユーザ毎に区切られるため、ユーザ毎に、会話内容に関連する画像が検索されて表示される。
画像表示装置はさらに、各ユーザの音声情報が予め登録された音声DB(図示せず。)を含む。画像表示装置は、会話音声が入力されると、入力された音声を発したユーザ(発言者)を、音声DBを用いて特定する。ユーザを特定できない場合は、当該ユーザは新たなユーザとして音声DBに登録される。
表示部の表示画面は、特定されたユーザ毎に割当てられた複数の表示領域に区分けされる。各ユーザの検索画像は割当てられた表示領域に表示される。本実施の形態ではさらに、表示領域(表示画面)に表示された画像は、ユーザ情報(例えばユーザ名等)と関連付けられて、画像表示装置の記憶部又は外部の記憶装置に保存される。
(第6の実施の形態)
本実施の形態に係る画像表示装置は、カメラを用いて取得した映像情報に基づいて、話者の変更を検出する点において、第5の実施の形態に係る画像表示装置とは異なる。その他の点では、各画像表示装置は同一の構成である。
図13を参照して、画像表示装置500は、周囲の画像(映像)を撮像するカメラ520、及び当該カメラ520に接続された映像処理部510をさらに含む。映像処理部510は、カメラ520の動作を制御するとともに、カメラ520によって撮像された映像のデータ(映像情報)を取得する。この映像処理部510は、取得した映像情報に基づいて、ユーザの顔を認識する機能を持つ。
本実施の形態では、発言等の会話音声を発する際にはカメラ520の方を向くように各ユーザに予め通知されている。画像表示装置500は、カメラ520の方を向いている一人のユーザの顔を当該カメラ520で撮像することによって当該ユーザの顔の映像情報を取得する。発言が終了したユーザはカメラ520とは異なる方向を向き、続いて発言するユーザはカメラ520の方を向く。発言するユーザが変更すると、カメラ520で撮像されるユーザの顔も変わる。画像表示装置500は、取得した映像情報に基づいて、ユーザの顔認識の切替わりを検出する。画像表示装置500は、ユーザの顔認識の切替わりを検出することによって、音声を発しているユーザ(話者)が変更したことを検出する。すなわち、あるユーザ(第1の話者)の会話音声から他のユーザ(第2の話者)の会話音声に切替わったことを検出する。画像表示装置500は、会話音声の切替わり(話者の変更)を検出すると、会話音声が切替わる前(話者が変更する前)の会話音声と会話音声が切替わった後(話者が変更した後)の会話音声との間に区切りを入れる。入力された一連の会話音声がユーザ毎に区切られるため、ユーザ毎に、会話内容に関連する画像が検索されて表示される。
図14を参照して、例えば、ユーザAとユーザBとが机40を囲んで会議をしているものとする。ユーザA及びユーザBの近傍には画像表示装置500が設置されている。画像表示装置500の筐体にはマイクロホン170とともにカメラ520が設けられており、カメラ520の周囲には、所定の色(例えば緑色)で発光する環状のライト522が配置されている。ユーザの顔が認識されていない状態では、画像表示装置500は待機状態となっている。
図15を参照して、ユーザAが発言するためにカメラ520の方を向いたとする。画像表示装置500は、カメラ520を介して取得した映像情報に基づいて、ユーザAの顔を認識する。画像表示装置500は、環状のライト522を発光させて、顔認識中であることをユーザAに知らせる。ユーザAが発言すると、ユーザAが発した会話音声が画像表示装置500に入力される。
ユーザAがカメラ520とは異なる方向を向き、ユーザBがカメラ520の方を向いて発言をしたとする。画像表示装置500は、カメラ520を介して取得した映像情報に基づいて、ユーザBの顔を認識する。ユーザBが発言すると、ユーザBが発した会話音声が画像表示装置500に入力される。画像表示装置500は、取得した映像情報に基づいて、ユーザの顔認識の切替わりを検出することにより、入力された一連の会話(会話音声)において話者が切替わった(変更した)位置を特定する。画像表示装置500は、入力された一連の会話音声に対して、特定した位置に区切りを入れる。これにより、ユーザAの会話音声とユーザBの会話音声とが区別される。
(第7の実施の形態)
図16を参照して、本実施の形態に係る画像表示装置600は、公共の場所に設置されるデジタルサイネージである。画像表示装置600は、第1の実施の形態に係る画像表示装置100と同様、入力された会話音声と関連する画像を検索して表示する機能を持つ。そのため、画像表示装置600は、第1の実施の形態と同様のマイクロホン170が筐体に設けられている。画像表示装置600はさらに、タッチパネルディスプレイ130(図1参照)に代えて、液晶表示パネル等の表示パネル610を含む。
本実施の形態では、第2の実施の形態で示したように、検索方法を指定するためテーブル(図示せず。)を参照して、入力された会話音声に関連する画像の検索方法を決定する。例えば、「明日大阪に行くんだけど、天気不安だなー。」といった会話音声が入力されたとする。入力された会話音声は文字データに変換されてキーワードが抽出される。キーワードとして、品詞が名詞である単語(「明日」、「大阪」、「天気」、及び「不安」)が抽出される。
テーブルには、キーワードとなり得る単語として、例えば、「明日」、「大阪」、「天気」が登録されており、その場合の検索方法として、例えば、検索キーワード「明日,大阪,天気」で検索するよう指定されているとする。画像表示装置600は、指定の検索方法に基づいて、例えばインターネット上に公開されている画像(例えばウェブサイトの画像等)の中から、検索キーワード「明日,大阪,天気」で画像を検索する。
図17を参照して、デジタルサイネージである画像表示装置600の表示画面には、通常、広告画像が表示されている。画像表示装置600は、画像検索が終了すると、表示画面の所定の位置に所定の大きさの表示領域620を表示して、その表示領域620内に検索した画像を表示する。表示領域620には、検索された画像が所定の時間表示される。所定の時間が経過すると、表示領域620とともに、当該表示領域620内に表示されている画像が消去される。所定の時間が経過する前に新たに画像が検索された場合は、所定の時間の経過後に、表示されていた画像に代えて、新たに検索された画像が表示領域620に表示される。
このように、公共の場所に設置されるデジタルサイネージとして画像表示装置600を用いることによって、周囲に居るユーザが求めている情報を当該ユーザに提供できる。検索された画像は、広告画像が表示される表示画面の一部の領域(表示領域620)に表示されるため、ユーザが求める情報の提供時に、当該ユーザに広告画像を見せることができる。より多くのユーザ(例えば通行人)に広告を視聴させることができるので、広告による宣伝効果を向上させることもできる。
(変形例)
上記実施の形態では、画像検索によって最も上位にヒットした1つの画像を表示部に表示する例について示したが、本発明はそのような実施の形態には限定されない。例えば、検索された画像のうち、上位から順に複数の画像を表示部に表示するようにしてもよい。さらに、検索された画像から任意の画像を表示部に表示するようにしてもよい。
上記実施の形態では、変換された文字データが示す文字列から重複を排除してキーワードを抽出する例について示したが、本発明はそのような実施の形態には限定されない。文字データが示す文字列から重複を排除しないでキーワードを抽出するようにしてもよい。重複するキーワードが抽出された場合、同じキーワードで画像が検索される。その場合、検索キーワードが同じであっても、異なる画像が表示されるように構成されていると好ましい。
上記実施の形態では、変換された文字データが示す文字列から品詞が名詞、代名詞、及び連体詞の単語をキーワードとして抽出する例について示したが、本発明はそのような実施の形態には限定されない。例えば、入力された会話音声の内容を解析して、会話内容に関連する画像の検索に適したキーワードを抽出するようにしてもよい。
上記実施の形態では、音声認識処理に用いる音声認識用DB、言語解析処理に用いる言語解析用DB、及び複数の画像を登録した画像DBを含む画像表示装置の例について示したが、本発明はそのような実施の形態には限定されない。音声認識用DB、言語解析用DB、及び画像DBの少なくとも1つは、外部のサーバ装置等に設けられる構成であってもよい。こうした構成の例として、図18に示す画像表示システムが考えられる。図18を参照して、画像表示システムは、画像表示装置700とサーバ装置800とを含む。画像表示装置700とサーバ装置800とはネットワーク50を介して通信可能に接続されている。サーバ装置800には、例えば音声認識用DB、言語解析用DB、及び画像DBが設けられている。画像表示装置700は、音声認識処理時、言語解析処理時、及び画像検索時にサーバ装置800と通信してこれらの処理を実行する。なお、音声認識処理及び言語解析処理等をサーバ装置側で実行する構成であってもよい。
上記実施の形態において、入力された会話音声の音声データを、表示された画像(画像データ)と関連付けて画像表示装置の記憶部又は外部の記憶装置に保存するようにしてもよい。さらに、会話内容に関連する画像の検索処理及び表示処理を一旦リセットするリセットキーを画像表示装置に設けるようにしてもよい。
上記第6の実施の形態では、カメラで取得した映像情報に基づいてユーザの顔を認識する例について示したが、例えば、ユーザの顔を認識することによってユーザを特定するよう構成されていてもよい。具体的には、各ユーザの顔の特徴情報が予め登録された顔認識DBを用いて、カメラで撮像されたユーザを特定する。ユーザが特定されない場合は、当該ユーザは新たなユーザとして顔認識DBに登録される。さらに、表示された画像は、特定されたユーザの情報と関連付けて、画像表示装置の記憶部又は外部の記憶装置に保存されるよう構成されていると好ましい。
上記第6の実施の形態では、ユーザの顔認識の切替わりを検出することによって、会話音声の切替わり(話者の変更)を検出する例について示したが、本発明はそのような実施の形態には限定されない。例えば、複数のユーザの顔をカメラで撮像し、ユーザの口の動き等によって会話音声の切替わり(話者の変更)を検出するようにしてもよい。
上記第6の実施の形態では、カメラの周囲に環状のライトを配置した例について示したが、こうした環状のライトに代えて、例えばインジケータランプをカメラの近傍に設けるようにしてもよい。
上記第7の実施の形態では、広告画像が常に表示されるよう、検索された画像は表示画面の一部の領域(表示領域)に表示される例について示したが、本発明はそのような実施の形態には限定されない。例えば、広告画像の表示に代えて、検索された画像を表示画面に表示するようにしてもよい。
上記で開示された技術を適宜組合せて得られる実施の形態についても、本発明の技術的範囲に含まれる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに限定されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
100、500、600 画像表示装置
110 制御部
120 記憶部
130 タッチパネルディスプレイ
140 表示制御部
160 音声処理部
170 マイクロホン
180 通信IF
200 音声認識部
202 形態素解析部
204 キーワード抽出部
206 画像検索部
208 表示処理部
510 映像処理部
520 カメラ

Claims (10)

  1. 画像を表示するための表示手段と、
    会話音声を入力するための音声入力手段と、
    前記音声入力手段により入力された会話音声を認識して文字データに変換するための音声認識手段と、
    前記音声認識手段により変換された文字データから所定の条件を満たすキーワードを抽出するための抽出手段と、
    予め定められた複数の画像の中から、前記抽出手段により抽出されたキーワードに応じた画像を検索するための検索手段と、
    前記検索手段により検索された画像を前記表示手段に表示させるための表示制御手段とを含む、画像表示装置。
  2. 前記検索手段は、インターネット上に公開されている複数の画像の中から、前記抽出手段により抽出されたキーワードを用いて画像を検索するための画像検索手段を含む、請求項1に記載の画像表示装置。
  3. 前記画像表示装置はさらに、複数の画像データを記憶するための画像記憶手段を含み、
    前記検索手段は、前記画像記憶手段に記憶されている複数の画像の中から、前記抽出手段により抽出されたキーワードを用いて画像を検索するための画像検索手段を含む、請求項1に記載の画像表示装置。
  4. 前記画像表示装置はさらに、
    前記音声入力手段により入力された会話音声が、第1の話者による会話音声から第2の話者による会話音声に切替わったことを検出するための検出手段と、
    前記検出手段が会話音声の切替わりを検出したことに応答して、会話音声が切替わる前の前記第1の話者による会話音声と会話音声が切替わった後の前記第2の話者による会話音声との間に区切り入れるための音声区切手段とを含む、請求項1〜請求項3のいずれかに記載の画像表示装置。
  5. 前記検出手段は、前記音声入力手段により入力された会話音声の音声情報に基づいて、前記第1の話者による会話音声から前記第2の話者による会話音声に切替わったことを検出する、請求項4に記載の画像表示装置。
  6. 前記画像表示装置はさらに、話者の顔を撮像することによって当該話者の顔の映像情報を取得するための撮像手段を含み、
    前記検出手段は、前記撮像手段が取得した映像情報に基づいて、前記第1の話者による会話音声から前記第2の話者による会話音声に切替わったことを検出する、請求項4に記載の画像表示装置。
  7. 前記抽出手段は、前記音声認識手段により変換された文字データから品詞が名詞、代名詞、及び連体詞である単語を前記キーワードとして抽出するためのキーワード抽出手段を含む、請求項1〜請求項6のいずれかに記載の画像表示装置。
  8. 前記画像表示装置はさらに、
    キーワードになり得る単語と当該単語がキーワードとして抽出されたときの検索方法とを関連付けて記憶するための記憶手段と、
    前記抽出手段により抽出されたキーワードが前記記憶手段に記憶されている単語と一致するか否かを判定するための判定手段とを含み、
    前記検索手段は、前記判定手段の判定結果が肯定であることに応答して、予め定められた複数の画像の中から、一致する単語に関連付けられた検索方法で画像を検索する、請求項7に記載の画像表示装置。
  9. 前記画像表示装置はさらに、
    前記音声入力手段により所定の音声が入力されたことを検出するための音声検出手段と、
    前記音声検出手段により所定の音声の入力が検出されたことに応答して、直前に検索された複数の画像の中から、前記所定の音声の検出後に入力された会話音声から抽出されたキーワードを用いて絞込検索を行なうための絞込検索手段を含む、請求項1〜請求項8のいずれかに記載の画像表示装置。
  10. 前記表示手段は、複数の画像を表示するために区分けされる複数の表示領域を含み、
    前記表示制御手段は、前記検索手段により検索された複数の画像を前記複数の表示領域にそれぞれ表示させる、請求項1に記載の画像表示装置。
JP2015130836A 2015-06-30 2015-06-30 画像表示装置 Pending JP2017016296A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015130836A JP2017016296A (ja) 2015-06-30 2015-06-30 画像表示装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015130836A JP2017016296A (ja) 2015-06-30 2015-06-30 画像表示装置

Publications (1)

Publication Number Publication Date
JP2017016296A true JP2017016296A (ja) 2017-01-19

Family

ID=57828148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015130836A Pending JP2017016296A (ja) 2015-06-30 2015-06-30 画像表示装置

Country Status (1)

Country Link
JP (1) JP2017016296A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190053725A (ko) * 2017-11-10 2019-05-20 삼성전자주식회사 디스플레이장치 및 그 제어방법
CN109917994A (zh) * 2017-12-13 2019-06-21 富士施乐株式会社 信息处理装置、信息处理方法及计算机可读介质
JP2019102060A (ja) * 2017-12-04 2019-06-24 株式会社リコー 情報提示システム、情報提示方法、プログラム、及び記録媒体
JP2019179485A (ja) * 2018-03-30 2019-10-17 本田技研工業株式会社 情報提供装置、情報提供方法、およびプログラム
WO2020213115A1 (ja) * 2019-04-18 2020-10-22 日本電信電話株式会社 発話画像化装置、発話画像化方法及びプログラム
WO2021234777A1 (ja) * 2020-05-18 2021-11-25 日本電信電話株式会社 発想支援装置、発想支援方法、およびプログラム
WO2022201315A1 (ja) * 2021-03-23 2022-09-29 シャープNecディスプレイソリューションズ株式会社 情報処理装置、コンテンツ表示システム、コンテンツ表示方法
JP2023162709A (ja) * 2022-04-27 2023-11-09 キヤノン株式会社 撮像装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007199866A (ja) * 2006-01-24 2007-08-09 Ricoh Co Ltd 会議記録システム
JP2009026108A (ja) * 2007-07-20 2009-02-05 Uchida Yoko Co Ltd 発想支援装置、発想支援システム、発想支援プログラム及び発想支援方法
WO2013035670A1 (ja) * 2011-09-09 2013-03-14 株式会社日立製作所 物体検索システムおよび物体検索方法
JP2013089109A (ja) * 2011-10-20 2013-05-13 Nippon Telegr & Teleph Corp <Ntt> 質問項目推薦装置、質問項目推薦方法及び質問項目推薦プログラム
WO2014050526A1 (ja) * 2012-09-28 2014-04-03 オムロン株式会社 画像検索装置、画像検索方法、制御プログラムおよび記録媒体
JP2014115729A (ja) * 2012-12-06 2014-06-26 Kddi Corp スライドショー作成サーバおよびスライドショー作成方法
JP2014149571A (ja) * 2013-01-31 2014-08-21 Nikon Corp コンテンツ検索装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007199866A (ja) * 2006-01-24 2007-08-09 Ricoh Co Ltd 会議記録システム
JP2009026108A (ja) * 2007-07-20 2009-02-05 Uchida Yoko Co Ltd 発想支援装置、発想支援システム、発想支援プログラム及び発想支援方法
WO2013035670A1 (ja) * 2011-09-09 2013-03-14 株式会社日立製作所 物体検索システムおよび物体検索方法
JP2013089109A (ja) * 2011-10-20 2013-05-13 Nippon Telegr & Teleph Corp <Ntt> 質問項目推薦装置、質問項目推薦方法及び質問項目推薦プログラム
WO2014050526A1 (ja) * 2012-09-28 2014-04-03 オムロン株式会社 画像検索装置、画像検索方法、制御プログラムおよび記録媒体
JP2014115729A (ja) * 2012-12-06 2014-06-26 Kddi Corp スライドショー作成サーバおよびスライドショー作成方法
JP2014149571A (ja) * 2013-01-31 2014-08-21 Nikon Corp コンテンツ検索装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102480570B1 (ko) 2017-11-10 2022-12-23 삼성전자주식회사 디스플레이장치 및 그 제어방법
KR20190053725A (ko) * 2017-11-10 2019-05-20 삼성전자주식회사 디스플레이장치 및 그 제어방법
JP2019102060A (ja) * 2017-12-04 2019-06-24 株式会社リコー 情報提示システム、情報提示方法、プログラム、及び記録媒体
CN109917994A (zh) * 2017-12-13 2019-06-21 富士施乐株式会社 信息处理装置、信息处理方法及计算机可读介质
JP2019179485A (ja) * 2018-03-30 2019-10-17 本田技研工業株式会社 情報提供装置、情報提供方法、およびプログラム
US11442981B2 (en) 2018-03-30 2022-09-13 Honda Motor Co., Ltd. Information providing device, information providing method, and recording medium with combined images corresponding to selected genre
JPWO2020213115A1 (ja) * 2019-04-18 2020-10-22
WO2020213115A1 (ja) * 2019-04-18 2020-10-22 日本電信電話株式会社 発話画像化装置、発話画像化方法及びプログラム
JP7287459B2 (ja) 2019-04-18 2023-06-06 日本電信電話株式会社 発話画像化装置、発話画像化方法及びプログラム
US12205610B2 (en) 2019-04-18 2025-01-21 Nippon Telegraph And Telephone Corporation Speech imaging apparatus, speech imaging method and program
WO2021234777A1 (ja) * 2020-05-18 2021-11-25 日本電信電話株式会社 発想支援装置、発想支援方法、およびプログラム
WO2022201315A1 (ja) * 2021-03-23 2022-09-29 シャープNecディスプレイソリューションズ株式会社 情報処理装置、コンテンツ表示システム、コンテンツ表示方法
JP2023162709A (ja) * 2022-04-27 2023-11-09 キヤノン株式会社 撮像装置

Similar Documents

Publication Publication Date Title
JP2017016296A (ja) 画像表示装置
CN112955911B (zh) 数字图像分类和注释
KR101878488B1 (ko) 대화 연관 컨텐츠 제공 방법 및 장치
JP5123591B2 (ja) 発想支援装置、発想支援システム、発想支援プログラム及び発想支援方法
CN111291210B (zh) 图像素材库生成方法、图像素材推荐方法及相关装置
JP6392374B2 (ja) ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法
JP2013521567A (ja) クライアント・コンピューティング・デバイスを含むシステム、メディア・オブジェクトにタグ付けする方法、および音声タグ付きメディア・オブジェクトを含むデジタル・データベースをサーチする方法
US10360455B2 (en) Grouping captured images based on features of the images
CN111524206A (zh) 一种生成思维导图的方法和装置
CN109583401A (zh) 一种自动生成答案的搜题方法及用户设备
KR102320851B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법
KR20150116929A (ko) 텍스트에 기반한 동영상 생성장치 및 그 생성방법
CN108710653B (zh) 一种绘本朗读点播方法、装置及系统
CN109766412A (zh) 一种基于图像识别的学习内容获取方法及电子设备
JP2014085998A (ja) 電子ノート作成支援装置および電子ノート作成支援装置用プログラム
CN115605840B (zh) 具有音频呈现交互的自动化助理
CN108121987A (zh) 一种信息处理方法和电子设备
CN111768773B (zh) 一种智能决策会议机器人
CN111223487A (zh) 一种信息处理方法及电子设备
KR102148021B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치
CN115240681A (zh) 生成会议纪要的方法及其设备
CN111026786B (zh) 一种听写列表生成方法及家教设备
US20130179165A1 (en) Dynamic presentation aid
CN109871128B (zh) 一种题型识别方法及装置
CN109710735B (zh) 基于多社交渠道的朗读内容推荐方法及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190320

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190326

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191008