JP2017016296A

JP2017016296A - 画像表示装置

Info

Publication number: JP2017016296A
Application number: JP2015130836A
Authority: JP
Inventors: 佑一加耒; Yuichi Kaku; 将明相田; Masaaki Aida; 三樹也岡田; Mikiya Okada; 慎平浜口; Shimpei Hamaguchi
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2015-06-30
Filing date: 2015-06-30
Publication date: 2017-01-19

Abstract

【課題】会話の内容に関連する画像を表示することによってユーザに新たな情報を提供する画像表示装置を提供する。【解決手段】ユーザが会話音声を発すると、その会話音声が画像表示装置に入力される（ステップＳ１０００においてＹＥＳ）。画像表示装置は、入力された会話音声を認識して文字データに変換し（ステップＳ１０２０及びステップＳ１０３０）、変換された文字データから所定の条件を満たすキーワードを抽出する（ステップＳ１０５０）。画像表示装置はさらに、予め定められた複数の画像の中から、抽出されたキーワードに応じた画像を検索し（ステップＳ１０６０）、検索された画像を表示部に表示する（ステップＳ１０７０）。【選択図】図４

Description

本発明は、画像表示装置に関し、特に、入力される音声に応じて表示を制御する技術に関する。

近年、画像表示装置の１つである、会議等で用いられる電子黒板として、様々な構成のものが実用化されている。特に、大型の表示画面を有する表示パネルと、２次元における位置座標を検知するタッチパネルとを組合せ、コンピュータシステムとして構成された電子黒板装置が利用されている。

さらに、画像表示装置の他の１つである端末装置を用いた会議システムも知られている。会議システムは会議への参加者によって使用される複数の端末装置を含む。複数の端末装置はネットワークを介して互いに接続されており、会議で使用される資料が端末装置間で共有される。後掲の特許文献１及び２には、このような会議システムが記載されている。

特許文献１の会議システムは、複数の端末装置と、会議で使用する資料（共有するドキュメントデータ）を各端末装置に提供する会議サーバ装置とを含む。複数の端末装置及び会議サーバ装置は、ネットワークを介して相互に接続されている。各端末装置は音声を入力する機能、及び入力された音声を認識する機能を持つ。会議中にある参加者が発言すると、その参加者が使用する端末装置に当該参加者が発した音声が入力される。端末装置は音声認識処理を行なうとともに、認識された文字列から所定の条件を満たす文字列を抽出する。端末装置はさらに、抽出した文字列を他の端末装置に送信する。他の端末装置は文字列を受信すると、受信した文字列を会議資料に重ねて表示する。他の端末装置には、入力される音声に応じた文字列が表示されるため、会議参加者の手書き作業の負担が軽減される。

特許文献２の会議システムは、特許文献１と同様、複数の端末装置と、会議で使用する資料を各端末装置に提供する会議サーバとを含む。各端末装置は音声を入力するためのマイクロホンを含む。端末装置は、参加者が発した音声を、マイクロホンを介して入力し、その音声情報を会議サーバに送信する。会議サーバは、端末装置からの音声情報を受信すると、受信した音声情報を認識してテキスト情報に変換する。会議サーバはさらに、変換したテキスト情報を単語に分解する。分解された単語が会議資料に含まれる場合、会議サーバは、各端末装置に表示されている会議資料中の対応箇所を強調表示させる。各端末装置には、参加者の発言内容に対応する箇所が強調されて会議資料が表示される。すなわち、入力される音声に応じて各端末装置の表示が制御される。これにより、発言者以外の各参加者に発言者が意図する内容を容易に通知できるので、会議の円滑化が図られる。

こうした会議システムには上記した電子黒板装置を用いることも可能である。

特開２０１１−４３７１６号公報特開２０１１−６５４６７号公報

会議等においては種々の議題について話合いが行なわれる。話合いの内容に関連する新たな情報が提供されることによって、新たな発想が得られることがある。こうした場合、会議の円滑な進行が期待できる。

しかし、特許文献１及び２の会議システムは、いずれも、新たな情報を提供するものではないため、会議参加者にとって会議中に新たな発想を得ることは容易でない。

本発明は、上記のような課題を解決するためになされたものであり、本発明の１つの目的は、会話の内容に関連する画像を表示することによってユーザに新たな情報を提供する画像表示装置を提供することである。

上記目的を達成するために、本発明の一の局面に係る画像表示装置は、画像を表示するための表示手段と、会話音声を入力するための音声入力手段と、音声入力手段により入力された会話音声を認識して文字データに変換するための音声認識手段と、音声認識手段により変換された文字データから所定の条件を満たすキーワードを抽出するための抽出手段と、予め定められた複数の画像の中から、抽出手段により抽出されたキーワードに応じた画像を検索するための検索手段と、検索手段により検索された画像を表示手段に表示させるための表示制御手段とを含む。

音声入力手段によって会話音声が入力されると、音声認識手段が入力された会話音声を認識して文字データに変換する。変換された文字データから所定の条件を満たすキーワードが抽出手段によって抽出される。キーワードが抽出されると、検索手段が、予め定められた複数の画像の中から、抽出されたキーワードに応じた画像を検索する。表示制御手段は、検索された画像を表示するよう表示手段を制御する。

表示手段には会話の内容に関連する画像が表示される。画像表示装置は、こうした画像を表示することによって、ユーザに新たな情報を提供できる。例えば、会議等においては、話合いの内容に関連する画像を表示できる。ユーザは、表示された画像からインスピレーションを受けて、新たな発想を得ることが容易となる。このように、例えば、会議等で使用する電子黒板装置に本画像表示装置を適用することによって、会議参加者の発想を支援できる。さらに、例えば、公共の場所に設置されるデジタルサイネージ（電子看板）に本画像表示装置を適用することによって、周囲に居るユーザが求めている情報を当該ユーザに提供できる。

好ましくは、検索手段は、インターネット上に公開されている複数の画像の中から、抽出手段により抽出されたキーワードを用いて画像を検索するための画像検索手段を含む。

より好ましくは、画像表示装置はさらに、複数の画像データを記憶するための画像記憶手段を含み、検索手段は、画像記憶手段に記憶されている複数の画像の中から、抽出手段により抽出されたキーワードを用いて画像を検索するための画像検索手段を含む。

さらに好ましくは、画像表示装置はさらに、音声入力手段により入力された会話音声が、第１の話者による会話音声から第２の話者による会話音声に切替わったことを検出するための検出手段と、検出手段が会話音声の切替わりを検出したことに応答して、会話音声が切替わる前の第１の話者による会話音声と会話音声が切替わった後の第２の話者による会話音声との間に区切り入れるための音声区切手段とを含む。

さらに好ましくは、検出手段は、音声入力手段により入力された会話音声の音声情報に基づいて、第１の話者による会話音声から第２の話者による会話音声に切替わったことを検出する。

さらに好ましくは、画像表示装置はさらに、話者の顔を撮像することによって当該話者の顔の映像情報を取得するための撮像手段を含み、検出手段は、撮像手段が取得した映像情報に基づいて、第１の話者による会話音声から第２の話者による会話音声に切替わったことを検出する。

さらに好ましくは、抽出手段は、音声認識手段により変換された文字データから品詞が名詞、代名詞、及び連体詞である単語をキーワードとして抽出するためのキーワード抽出手段を含む。

さらに好ましくは、画像表示装置はさらに、キーワードになり得る単語と当該単語がキーワードとして抽出されたときの検索方法とを関連付けて記憶するための記憶手段と、抽出手段により抽出されたキーワードが記憶手段に記憶されている単語と一致するか否かを判定するための判定手段とを含み、検索手段は、判定手段の判定結果が肯定であることに応答して、予め定められた複数の画像の中から、一致する単語に関連付けられた検索方法で画像を検索する。

さらに好ましくは、画像表示装置はさらに、音声入力手段により所定の音声が入力されたことを検出するための音声検出手段と、音声検出手段により所定の音声の入力が検出されたことに応答して、直前に検索された複数の画像の中から、所定の音声の検出後に入力された会話音声から抽出されたキーワードを用いて絞込検索を行なうための絞込検索手段を含む。

さらに好ましくは、表示手段は、複数の画像を表示するために区分けされる複数の表示領域を含み、表示制御手段は、検索手段により検索された複数の画像を複数の表示領域にそれぞれ表示させる。

以上より、本発明によれば、会話の内容に関連する画像を表示することによってユーザに新たな情報を提供する画像表示装置を得ることができる。

本発明の第１の実施の形態に係る画像表示装置の外観を示す図である。図１に示す画像表示装置のハードウェア構成を示す制御ブロック図である。図１に示す画像表示装置の機能的構成を示すブロック図である。図１に示す画像表示装置で実行されるプログラムの制御構造を示すフローチャートである。図１に示す画像表示装置の動作を説明するための図である。図１に示す画像表示装置の動作を説明するための図である。本発明の第２の実施の形態に係る画像表示装置の記憶部に記憶されているテーブルの例を示す図である。本発明の第２の実施の形態に係る画像表示装置で実行されるプログラムの制御構造を示すフローチャートである。図８のステップＳ１１１０の詳細なフローである。本発明の第３の実施の形態に係る画像表示装置の記憶部に記憶されているテーブルの例を示す図である。本発明の第４の実施の形態に係る画像表示装置で実行されるプログラムの制御構造を示すフローチャートである。図１１のステップＳ１２１０の詳細なフローである。本発明の第６の実施の形態に係る画像表示装置のハードウェア構成を示す制御ブロック図である。図１３に示す画像表示装置の動作を説明するための図である。図１３に示す画像表示装置の動作を説明するための図である。本発明の第７の実施の形態に係る画像表示装置を示す図である。本発明の第７の実施の形態に係る画像表示装置を示す図である。画像表示装置を含むシステムの例を示す図である。

以下の実施の形態では、同一の部品には同一の参照番号を付してある。それらの機能及び名称も同一である。したがって、それらについての詳細な説明は繰返さない。

（第１の実施の形態）
［全体構成］
図１を参照して、本実施の形態に係る画像表示装置１００は、会議等で使用される電子黒板装置である。この画像表示装置１００は、大型の表示画面を有するタッチパネルディスプレイ１３０を含む。画像表示装置１００はまた、種々のアプリケーションソフトを起動することによって、起動したアプリケーションソフトに対応する機能を実現する。アプリケーションソフトは、電子黒板の主要な機能である、ペン（図示せず。）等による描画（手書き入力）を実現するペンソフト、及びウェブページ等を閲覧するためのウェブブラウザを含む。

ペンソフトは、電子黒板機能を実現するためのアプリケーションソフトである。このペンソフトが起動されると、画像表示装置１００は、タッチパネルディスプレイ１３０に背景が白地の画面を表示し、ユーザによるタッチパネルディスプレイ１３０への入力（タッチ）を受付ける。ユーザはペン等を用いてタッチパネルディスプレイ１３０にタッチすることによりタッチパネルディスプレイ１３０上の任意の位置を指定できる。ユーザはさらに、タッチパネルディスプレイ１３０に表示された画面内にペン等をタッチさせたままドラッグすることにより、描画を行なうことができる。

画像表示装置１００はネットワークに接続する機能を持ち、ネットワークを介して提供される種々の画像を表示する。画像表示装置１００が接続されるネットワークは、インターネットを含む。画像表示装置１００はさらに、周囲に居るユーザ（話者）の会話音声を認識する機能を持つ。画像表示装置１００の筐体にはマイクロホン１７０が設けられており、このマイクロホン１７０を介して会話音声が入力される。画像表示装置１００は、ユーザの会話音声をリアルタイムで認識して、インターネット上に公開されている複数の画像、又は所定のデータベースに保存されている複数の画像の中から、会話の内容に関連する画像を検索して表示する。

［ハードウェア構成］
図２を参照して、画像表示装置１００は、制御部１１０、記憶部１２０、タッチパネルディスプレイ１３０、表示制御部１４０、ビデオＲＡＭ（ＶＲＡＭ）１５０、音声処理部１６０、マイクロホン１７０、及び通信インターフェイス（以下「通信ＩＦ」と記す。）１８０を含む。

制御部１１０は、所定のプログラムを実行することにより、画像表示装置１００の全体の制御を実現するためのＣＰＵ１１２、画像表示装置１００の電源がオンされたときにＣＰＵ１１２が読出すプログラムを記憶する読出専用メモリ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ））１１４、及び、ＣＰＵ１１２が作業用メモリとして使用するランダム・アクセス・メモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ））１１６を含む。ＣＰＵ１１２には、バス１９０が接続されており、このバス１９０には、ＲＯＭ１１４、ＲＡＭ１１６及び記憶部１２０が電気的に接続される。

ＲＯＭ１１４は、画像表示装置１００の電源投入時にＣＰＵ１１２が実行し、画像表示装置１００が所定の動作をするように画像表示装置１００の全体を設定するためのプログラム及びデータを記憶している。画像表示装置１００の動作を実現するためのプログラムもＲＯＭ１１４に記憶されている。記憶部１２０は、通電が遮断された場合にもデータを保持する不揮発性記憶装置であり、例えば、ハードディスクドライブ又はフラッシュメモリ等である。記憶部１２０は画像表示装置１００に対して着脱可能でもよい。記憶部１２０は、ＣＰＵ１１２が実行するプログラムの一部を記憶することもできる。ＣＰＵ１１２は、通常動作時には、バス１９０を介してＲＯＭ１１４又は記憶部１２０からプログラムをＲＡＭ１１６上にロードし、図示しないプログラムカウンタにより指定されるアドレスから命令を順次読出して実行する。ＣＰＵ１１２は、ＲＯＭ１１４及び記憶部１２０に格納されているプログラムにしたがって画像表示装置１００を構成する各部の制御を行なう。

バス１９０には、さらに、タッチパネルディスプレイ１３０、表示制御部１４０、ＶＲＡＭ１５０、音声処理部１６０、及び通信ＩＦ１８０が電気的に接続される。

タッチパネルディスプレイ１３０は、所定の表示面上に画像を表示する表示部１３２と、ユーザによるタッチ操作を検出するタッチ検出部１３４とを含む。表示部１３２はフルカラー表示が可能な液晶表示パネル等の表示パネルであり、表示制御部１４０の制御に応じて、ＶＲＡＭ１５０に記憶された画像を表示する。表示制御部１４０は、ＣＰＵ１１２の制御にしたがって画像表示装置１００による画像の表示を制御する。表示制御部１４０はまた、表示部１３２を駆動するための駆動部を備え、ＶＲＡＭ１５０に記憶された画像データを所定のタイミングで読出し、表示部１３２に画像を表示させるための信号を表示部１３２に出力する。表示される画像データは、ＣＰＵ１１２がＲＡＭ１１６上の情報及び記憶部１２０に記録された情報から生成し、ＶＲＡＭ１５０上の各表示画素に対応するアドレスに伝送する。タッチ検出部１３４は、ユーザによるタッチ操作を検出する例えばタッチパネルである。このタッチ検出部１３４は、表示部１３２の表示画面に重畳して配置される。

音声処理部１６０にはマイクロホン１７０が接続されている。この音声処理部１６０は、Ａ／Ｄ変換機能を持ち、マイクロホン１７０が集音したアナログの音声信号をデジタルの音声信号に変換して制御部１１０に出力する。

通信ＩＦ１８０は、ＣＰＵ１１２の制御の下で、画像表示装置１００に対してネットワーク５０との接続を提供する。画像表示装置１００は、通信ＩＦ１８０を介して、ネットワーク５０上の外部機器等とデータ通信を行なうことができる。

［機能的構成］
図３を参照して、画像表示装置１００の制御部１１０は、機能部としての、音声認識部２００、形態素解析部２０２、キーワード抽出部２０４、画像検索部２０６、及び表示処理部２０８を含む。記憶部１２０は、音声認識用データベース（以下「データベース」を「ＤＢ」と記す。）１２２、言語解析用ＤＢ１２４、及び画像ＤＢ１２６を含む。

音声認識用ＤＢ１２２は、例えば、音声認識処理の認識結果となる認識単語のそれぞれについて、読み及び音素列を対応付けて登録されている単語辞書、又は認証単語のそれぞれについて音声データ（音声信号）を対応付けて登録されている単語辞書等である。各認識単語の音素列は、各認識単語に含まれる音素について、各音素の特徴を示す音響モデルの並びを示している。音声認識用ＤＢ１２２はさらに、日本語の音素毎に各音素の特徴を表わす音響モデル（音響パラメータ）を格納している。言語解析用ＤＢ１２４は、例えば、各単語のそれぞれについて表記、読み、品詞情報等を対応付けて登録された、形態素解析に用いられる単語辞書である。画像ＤＢ１２６は、多数の画像データが登録されたデータベースである。登録されている各画像（画像データ）には、検索キーワードがタグ付けされている。画像ＤＢ１２６に登録されている画像は、写真、イラスト等の静止画像であってもよいし、ビデオ等の動画像であってもよい。

音声認識部２００は、マイクロホン１７０及び音声処理部１６０を介して入力された会話音声（音声信号）に対して、音声認識用ＤＢ１２２を用いた音声認識処理を行ない、音声信号を文字データ（テキストデータ）に変換する。より詳細には、音声認識部２００は、入力された会話音声を音響分析して音響パラメータを抽出し、音声認識用ＤＢ１２２に格納されている音響モデルと照合することによって、最も類似する音響モデルに対応する単語を認識結果とする。音声認識部２００は、音声認識処理によって得られた文字データを形態素解析部２０２に出力する。

形態素解析部２０２は、音声認識部２００によって生成された文字データに対して、言語解析用ＤＢ１２４を用いた形態素解析等の言語解析処理を行なう。より詳細には、形態素解析部２０２は、与えられた文字データに対して形態素解析を行なうことにより、文字データが示す文字列を形態素に分別して、キーワード抽出部２０４に出力する。その際、形態素解析部２０２は、いくつの形態素からなるのか、各形態素の品詞は何かを示す情報等を、分別した形態素とともにキーワード抽出部２０４に出力する。

キーワード抽出部２０４は、形態素解析の結果に基づいて、音声認識部２００によって変換された文字データから所定の条件を満たすキーワードを抽出する。本実施の形態では、キーワード抽出部２０４は、品詞が名詞、代名詞、及び連体詞である単語をキーワードとして抽出する。

画像検索部２０６は、キーワード抽出部２０４が抽出したキーワードを用いて画像（画像ファイル）を検索する。具体的には、画像検索部２０６は、インターネット上に公開されている画像（例えばウェブサイトの画像等）、又は画像ＤＢ１２６に登録されている画像の中から、抽出されたキーワードに応じた画像を検索する。インターネット上に公開されている画像を検索する場合、画像検索部２０６は、インターネット上の検索エンジンにキーワードを渡して検索する。インターネット上の画像を検索するか、画像ＤＢ１２６に登録されている画像を検索するかは、画像表示装置１００において、予め設定されている。インターネット上の画像、及び画像ＤＢ１２６の画像の両方を検索するよう設定することも可能である。この場合、画像ＤＢ１２６を先に検索して、画像が検索されなかった場合にインターネット上の画像を検索するよう設定することもできる。画像検索部２０６はさらに、キーワード抽出部２０４によって重複を排除して複数のキーワードが抽出された場合、キーワード毎に順番に画像を検索する。すなわち、画像検索部２０６は、１つのキーワードで画像を検索し、続けて、次のキーワードで画像を検索する。

表示処理部２０８は、画像検索部２０６で検索された画像を表示部１３２に表示する処理を実行する。検索結果が複数の場合、表示処理部２０８は、最も上位にヒットした画像を表示対象の画像として選択する。表示処理部２０８はさらに、表示する画像の数に応じて、表示部１３２の表示画面を複数の表示領域に区分けする。区分けされた各表示領域には、検索された画像が表示される。

［ソフトウェア構成］
図４を参照して、入力された会話音声の内容に関連する画像を表示するために、画像表示装置１００で実行されるコンピュータプログラムの制御構造について説明する。このプログラムは、ユーザの操作に応じて開始する。

このプログラムは、マイクロホン１７０及び音声処理部１６０を介して音声（会話音声）が入力されたか否かを判定し、音声が入力されるまで待機するステップＳ１０００と、ステップＳ１０００において、会話音声が入力されたと判定された場合に実行され、入力された会話音声が一定時間以下の長さとなるように区切りを入れるステップＳ１０１０と、ステップＳ１０１０の後に実行され、入力された会話音声に対して、音声認識用ＤＢ１２２を用いた音声認識処理を行なうステップＳ１０２０と、ステップＳ１０２０の後に実行され、認識された会話音声を文字データに変換（テキスト変換）するステップＳ１０３０と、ステップＳ１０３０の後に実行され、変換された文字データに対して、言語解析用ＤＢ１２４を用いた形態素解析等の言語解析（テキスト解析）処理を行なうステップＳ１０４０と、ステップＳ１０４０の後に実行され、文字データから所定の条件を満たす単語をキーワードとして抽出するステップＳ１０５０とを含む。ステップＳ１０５０では、文字データが示す文字列から品詞が名詞、代名詞、及び連体詞の単語がキーワードとして抽出される。

このプログラムはさらに、ステップＳ１０５０の後に実行され、インターネット上に公開されている画像、又は画像ＤＢ１２６に登録されている画像の中から、抽出されたキーワードを用いて画像を検索するステップＳ１０６０と、ステップＳ１０６０の後に実行され、表示制御部１４０を介して、検索された画像を表示部１３２に表示するステップＳ１０７０と、ステップＳ１０７０の後に実行され、未検索のキーワードがあるか否かを判定し、判定結果に応じて制御の流れを分岐させるステップＳ１０８０と、ステップＳ１０８０において、未検索のキーワードがないと判定された場合に実行され、未解析の文字データ（テキストデータ）があるか否かを判定し、判定結果に応じて制御の流れを分岐させるステップＳ１０９０とを含む。ステップＳ１０８０において、未検索のキーワードがあると判定された場合は、制御はステップＳ１０６０に戻る。ステップＳ１０９０において、未解析の文字データがないと判定された場合は、制御はステップＳ１０００に戻り、未解析の文字データがあると判定された場合は、制御はステップＳ１０４０に戻る。

［動作］
本実施の形態に係る画像表示装置１００は以下のように動作する。以下の説明では、画像表示装置１００の動作の内、本発明に関連する部分のみを説明する。他の動作は従来の画像表示装置の動作と同様である。

図１を参照して、画像表示装置１００は例えば会議室に設置されており、その会議室で会議が行なわれているものとする。会議の参加者が発言すると、画像表示装置１００は、参加者（話者）が発した音声（会話音声）をマイクロホン１７０で集音する。マイクロホン１７０で集音されたアナログの音声信号は音声処理部１６０でデジタルの音声信号に変換されて入力される。

会話音声が入力されると（図４のステップＳ１０００においてＹＥＳ）、制御部１１０（ＣＰＵ１１２）は、入力された会話音声が一定の時間以下となるように区切りを入れる（ステップＳ１０１０）。例えば、会話音声（発言）が一定の時間より長い場合、制御部１１０は、一定の時間の位置で区切りを入れる。さらに、音声の入力が終了してから所定の時間の経過後に次ぎの音声が入力された場合、すなわち、音声が検出されない状態で所定の時間が経過した場合、制御部１１０は、音声の入力が終了してから次の音声が入力されるまでの間の位置で区切りを入れる。これにより、入力された会話音声が一定の時間以下の会話音声に区切られる。

制御部１１０は、一定の時間以下に区切られた会話音声毎に音声認識処理を実行し（ステップＳ１０２０）、認識した会話音声を文字データに変換する（ステップＳ１０３０）。こうして文字データが生成されると、制御部１１０は、生成された文字データに対して、言語解析用ＤＢ１２４を用いた形態素解析を行ない（ステップＳ１０３０）、形態素解析の結果に基づいて、文字データから所定の条件を満たす単語を抽出する（ステップＳ１０４０）。具体的には、制御部１１０は、文字データが示す文字列から品詞が名詞、代名詞、及び連体詞の単語をキーワードとして抽出する。制御部１１０はさらに、インターネット上に公開されている画像、又は画像ＤＢ１２６に登録されている画像の中から、抽出されたキーワードを用いて画像を検索する（ステップＳ１０６０）。画像が検索されると、制御部１１０は、表示制御部１４０を介して、検索された画像を表示部１３２に表示する（ステップＳ１０７０）。複数の画像が検索された場合、制御部１１０は、最も上位にヒットした画像を表示対象の画像として選択し、選択した画像を表示部１３２に表示する。

制御部１１０は、検索されていないキーワード（未検索のキーワード）がある場合は（ステップＳ１０８０においてＹＥＳ）、未検索のキーワードで画像の検索を行ない、検索された画像を表示部１３２に表示する。すなわち、文字データから複数のキーワードが抽出された場合、制御部１１０は、キーワード毎に画像の検索を行ない、検索された画像を順に表示部１３２に表示する。こうした処理は、未検索のキーワードがなくなるまで繰返される。

抽出されたキーワードを用いた検索が全て終了すると（ステップＳ１０８０においてＮＯ）、言語解析処理が行なわれていない文字データ（未解析の文字データ）があるか否かが判定される。未解析の文字データがある場合（ステップＳ１０９０においてＹＥＳ）、制御部１１０は、上記と同様にして、その文字データに対してキーワードの抽出処理を行なう。制御部１１０は、抽出されたキーワードを用いて画像を検索し、検索された画像を表示制御部１４０を介して表示部１３２に表示する。

検索された画像が表示部１３２に表示されている状態で次のキーワードによって画像が検索されると、表示部１３２の表示画面が複数の表示領域に区分けされる。区分けされた複数の表示領域に検索された画像が表示される。例えば、次のキーワードによって画像が検索された場合、表示画面が２つの表示領域に区分けされる（表示画面が２分割される）。一方の表示領域には既に表示されていた画像が表示され、他方の表示領域には、新たに検索された画像が表示される。さらに次のキーワードによって画像が検索されると、表示画面が例えば４分割され、新たに検索された画像がいずれかの表示領域に表示される。最大で何分割するかが予め設定されており、最大分割数に達するとそれ以上は表示画面が分割されない。その場合、最先に表示された画像（最も古い画像）が削除され、その表示領域に新たに検索された画像が表示される。

図５を参照して、例えば、会議中にある会議参加者（「参加者Ａ」とする。）が「新しいオフィスをテーマに何か提案ありますか？」と発言し、別の会議参加者（「参加者Ｂ」とする。）がそれに応答して「ビジネス用の照明ってどうでしょうか？」と発言したとする。画像表示装置１００は、マイクロホン１７０及び音声処理部１６０を介して、こうした会話音声を取得して入力する。画像表示装置１００は、入力した会話音声を文字データに変換し、得られた文字データに対して、形態素解析等の言語解析処理を行なう。画像表示装置１００は、形態素解析等の結果に基づいて、文字データから品詞が名詞、代名詞、及び連体詞である単語をキーワードとして抽出する。例えば、参加者Ｂの発した会話音声（「ビジネス用の照明ってどうでしょうか？」）からは、キーワードとして「ビジネス」及び「照明」が抽出される。

画像表示装置１００は、まず「ビジネス」をキーワードとして、インターネット上に公開されている画像、又は画像ＤＢ１２６に登録されている画像を検索する。図６（Ａ）を参照して、画像が検索されると、検索された画像（「ビジネス」に関連する画像２５０）が表示部１３２に表示される。再び図５を参照して、画像表示装置１００はさらに、「照明」をキーワードとして、インターネット上に公開されている画像、又は画像ＤＢ１２６に登録されている画像を検索する。図６（Ｂ）を参照して、画像表示装置１００は、表示部１３２の表示画面を２つの表示領域（表示領域２６０及び表示領域２６２）に区分けして、一方の表示領域２６０には画像２５０を表示し、他方の表示領域２６２には新たに検索された画像（「照明」に関連する画像２７０）を表示する。

［作用・効果］
以上の説明から明らかなように、本実施の形態に係る画像表示装置１００を利用することにより、以下に述べる効果を奏する。

表示部１３２の表示画面には会話の内容に関連する画像が表示される。画像表示装置１００は、こうした画像を表示することによって、ユーザに新たな情報を提供できる。会議においては、話合いの内容に関連する画像を表示できる。会議参加者（ユーザ）は、表示された画像からインスピレーションを受けて、新たな発想を得ることが容易となる。このように、画像表示装置１００は、会話の内容に関連する画像を検索して表示することにより、会議参加者の発想を支援できる。

（第２の実施の形態）
本実施の形態に係る画像表示装置は、抽出されるキーワードに応じた検索方法が予め指定されており、検索方法が指定される場合にその検索方法で検索された画像が追加で表示される点において、第１の実施の形態に係る画像表示装置１００とは異なる。その他の点では、各画像表示装置は同一の構成である。

本実施の形態では、図７に示すテーブル３００が画像表示装置の記憶部に記憶されている。このテーブル３００は、キーワードになり得る単語と当該単語がキーワードとして抽出されたときの検索方法とを関連付けて記憶している。すなわち、テーブル３００には、キーワードに応じた検索方法が指定（登録）されている。

図７を参照して、テーブル３００は、キーワードとなり得る単語を登録するフィールド３０２、３０４及び３０６、画像ＤＢ１２６（図３参照）に登録されている登録画像の中のどの画像を表示させるかを指定するためのフィールド３０８、並びに、登録されている単語がキーワードとして抽出されたときの検索方法を指定するフィールド３１０を含む。フィールド３０２〜３０６に登録される単語は、品詞が名詞、代名詞、又は連体詞の単語である。キーワードとなり得る単語を登録するフィールドの数は特に制限されず、例えば４つ以上であってもよい。

本実施の形態では、品詞が代名詞、又は連体詞の単語が単独でキーワードとして画像検索されることはなく、これらの単語は、抽出されたキーワードがテーブル３００に登録されている単語と一致するか否かの判定時に用いられる。画像表示装置には、当該画像表示装置が設置されている場所を特定するための位置情報が予め登録されている。指定される検索方法によっては、この位置情報が検索に用いられることがある。

［ソフトウェア構成］
本実施の形態に係る画像表示装置では、図４に示されるプログラムに代えて、図８に示されるプログラムが実行される。図８のプログラムは、図４のプログラムのステップＳ１０５０及びステップＳ１０６０に代えて、それぞれ、ステップＳ１１００及びステップＳ１１１０を含む。図８のステップＳ１０００〜ステップＳ１０４０、及びステップＳ１０７０〜ステップＳ１０９０における処理は、図４に示される各ステップにおける処理と同じである。以下、異なる部分について説明する。

図８を参照して、このプログラムは、ステップＳ１０４０の後に実行され、文字データから所定の条件を満たす単語をキーワードとして抽出するステップＳ１１００と、ステップＳ１１００の後に実行され、インターネット上に公開されている画像（例えばウェブサイトの画像等）、又は画像ＤＢ１２６に登録されている画像の中から、抽出されたキーワードに応じて画像を検索するステップＳ１１１０とを含む。ステップＳ１１００では、文字データが示す文字列から品詞が名詞、代名詞、及び連体詞の単語がキーワードとして抽出される。

図９は、図８のステップＳ１１１０の詳細なフローである。図９を参照して、このルーチンは、抽出されたキーワードを用いて画像を検索するステップＳ２０００と、ステップＳ２０００の後に実行され、抽出されたキーワードがテーブル３００に登録されている単語と一致するか否かを判定するためのステップＳ２０１０と、ステップＳ２０１０において、抽出されたキーワードがテーブル３００に登録されている単語と一致すると判定された場合に実行され、一致する単語に関連付けられた検索方法で画像が検索されているか否かを判定し、判定結果に応じて制御の流れを分岐させるステップＳ２０２０と、ステップＳ２０２０において、一致する単語に関連付けられた検索方法で画像が検索されていないと判定された場合に実行され、インターネット上に公開されている画像、又は画像ＤＢ１２６に登録されている画像の中から、関連付けられた検索方法（指定の検索方法）で画像を検索するステップＳ２０３０とを含む。ステップＳ２０１０において、抽出されたキーワードがテーブル３００に登録されている単語と一致しないと判定された場合、ステップＳ２０２０において、一致する単語に関連付けられた検索方法で画像が検索されていると判定された場合、又はステップＳ２０３０の処理が終了した場合は、このルーチンは終了する。

再び図７を参照して、例えば、抽出されたキーワードが「日本」、「最古」、「寺院」の場合、抽出されたキーワードはテーブル３００のＮＯ．１の行に登録されている各単語と一致する。この場合、画像表示装置は、指定の検索方法に基づいて、「飛鳥寺」で画像を再検索する。さらに例えば、抽出されたキーワードが「トイレ」、「どこ」の場合、抽出されたキーワードはテーブル３００のＮＯ．２の行に登録されている各単語と一致する。この場合、画像表示装置は、指定の検索方法に基づいて、登録画像（構内トイレ．ｊｐｇ）を表示部に表示する。さらに例えば、抽出されたキーワードが「天気」のみの場合、抽出されたキーワードはテーブル３００のＮＯ．３の行に登録されている単語と一致する。この場合、画像表示装置は、指定の検索方法に基づいて、登録されている位置情報と合わせて、キーワード「天気」で画像を再検索する。さらに例えば、抽出されたキーワードが「明日」、「天気」の場合、抽出されたキーワードはテーブル３００のＮＯ．４の行に登録されている各単語と一致する。この場合、画像表示装置は、指定の検索方法に基づいて、キーワード「明日，天気」で画像を再検索する。

（第３の実施の形態）
本実施の形態に係る画像表示装置は、図７のテーブル３００に代えて、図１０に示されるテーブル４００が記憶部に記憶されている点において、第２の実施の形態に係る画像表示装置とは異なる。その他の点では、各画像表示装置は同一の構成である。

図１０を参照して、テーブル４００にはキーワードとなり得る単語がカテゴリ分けされて登録されており、カテゴリ毎に検索方法が指定されている。このテーブル４００は、カテゴリ（カテゴリ名）を登録するフィールド４０２、キーワードとなり得る単語を一覧形式で登録するフィールド４０４、及び、カテゴリ毎の検索方法を指定するフィールド４０６を含む。

本実施の形態では、画像の検索時に、図７のテーブル３００に代えて、図１０のテーブル４００が参照される。例えば、抽出されたキーワードが「天気」の場合、画像表示装置は、指定の検索方法に基づいて、カテゴリ「地域」に登録されている単語と合わせて画像を検索する。この場合、例えば、「関西」、「大阪」、「なんば」、「梅田」、及び「東京」の各地の天気の画像が検索される。なお、指定の検索方法が「なし」又は「検索しない」等の場合は、画像の検索は行なわれない。

本実施の形態ではさらに、検索されて表示された画像は、カテゴリ分けされて画像表示装置の記憶部又は外部の記憶装置に保存される。この場合、マインドマップ（登録商標）の作成等の属性分類を行なった上で画像が保存されるよう構成されていてもよい。これにより、表示された画像間に相関関係が付与される。このように、カテゴリ分け、又はマインドマップ等の形式で検索した画像を保存することによって、その後に、保存された画像を再表示することで、ユーザは会議等で話した内容の関連性を思い出すことが容易となる。

（第４の実施の形態）
本実施の形態に係る画像表示装置は、所定の音声の入力を検出した後に会話音声が入力されると、当該会話音声から抽出された単語（キーワード）で絞込検索を行なう点において、第１の実施の形態に係る画像表示装置１００とは異なる。その他の点では、各画像表示装置は同一の構成である。

画像表示装置は、絞込検索のトリガとなる所定の音声を検出する機能を持つ。画像表示装置には、絞込検索のトリガとなる所定の音声が、当該音声を文字データに変換した文字情報（文字列）として予め登録されている。例えば、トリガとなる音声の文字情報として、「さらに絞込むと」が画像表示装置に登録されている。なお、トリガとなる音声の文字情報は、これ以外であってもよい。

画像表示装置は、第１の実施の形態と同様、会話音声が入力されることによって当該会話音声（会話内容）に関連する画像を検索して表示する。画像が表示されている状態でそのユーザが「さらに絞込むと」と発すると、画像表示装置にはその音声が入力される。画像表示装置は、トリガとなる所定の音声が入力されたことを検出する。トリガとなる音声の入力を検出した後に会話音声が入力されると、画像表示装置は、入力された会話音声を文字データに変換して、当該文字データが示す文字列からキーワードを抽出する。画像表示装置は、直前に検索された複数の画像の中から、抽出されたキーワードを用いて画像の絞込検索を行なう。

［ソフトウェア構成］
本実施の形態に係る画像表示装置では、図４に示されるプログラムに代えて、図１１に示されるプログラムが実行される。図１１のプログラムは、図４のプログラムにおいて、ステップＳ１２００及びステップＳ１２１０をさらに含む。図１１のステップＳ１０００〜ステップＳ１０９０における処理は、図４に示される各ステップにおける処理と同じである。以下、異なる部分について説明する。

図１１を参照して、このプログラムは、ステップＳ１０４０の後に実行され、所定の音声を検出したか否かを判定し、判定結果に応じて制御の流れを分岐させるステップＳ１２００と、ステップＳ１２００において、所定の音声を検出したと判定された場合に実行され、絞込検索処理を実行するステップＳ１２１０とを含む。ステップＳ１２００において、所定の音声を検出していないと判定された場合は、制御はステップＳ１０５０に進む。ステップＳ１２１０の処理が終了すると、制御はステップＳ１０００に戻る。

図１２は、図１１のステップＳ１２１０の詳細なフローである。図１２を参照して、このルーチンは、マイクロホン及び音声処理部を介して会話音声が入力されたか否かを判定し、会話音声が入力されるまで待機するステップＳ３０００と、ステップＳ３０００において、会話音声が入力されたと判定された場合に実行され、入力された会話音声が一定時間以下の長さとなるように区切りを入れるステップＳ３０１０と、ステップＳ３０１０の後に実行され、入力された会話音声に対して、音声認識用ＤＢ１２２（図３参照）を用いた音声認識処理を行なうステップＳ３０２０と、ステップＳ３０２０の後に実行され、認識された会話音声を文字データに変換（テキスト変換）するステップＳ３０３０と、ステップＳ３０３０の後に実行され、変換された文字データに対して、言語解析用ＤＢ１２４（図３参照）を用いた形態素解析等の言語解析（テキスト解析）処理を行なうステップＳ３０４０と、ステップＳ３０４０の後に実行され、文字データから所定の条件を満たす単語をキーワードとして抽出するステップＳ３０５０とを含む。ステップＳ３０５０では、文字データが示す文字列から品詞が名詞、代名詞、及び連体詞の単語がキーワードとして抽出される。

このルーチンはさらに、ステップＳ３０５０の後に実行され、直前に検索された複数の画像の中から、抽出されたキーワードを用いて画像を絞込検索するステップＳ３０６０と、ステップＳ３０６０の後に実行され、表示制御部を介して、絞込検索された画像を表示部に表示するステップＳ３０７０とを含む。ステップＳ３０７０では、例えば、最も上位にヒットした画像が表示対象の画像として選択されて表示される。ステップＳ３０７０の処理が終了すると、このルーチンは終了する。

［作用・効果］
画像表示装置は、所定の音声が入力されたことを検出すると、当該音声の検出後に入力された会話音声に含まれるキーワードで絞込検索を実行する。これにより、検索された画像に対して関連性の高い画像を表示できるので、ユーザが求める画像を効果的に提供できる。

（第５の実施の形態）
本実施の形態に係る画像表示装置は、入力された会話音声の音声情報に基づいて、話者の変更を検出する点において、第１の実施の形態に係る画像表示装置１００とは異なる。その他の点では、各画像表示装置は同一の構成である。

画像表示装置は、入力された会話音声が、あるユーザ（第１の話者）の会話音声から他のユーザ（第２の話者）の会話音声に切替わったことを検出する機能を持つ。具体的には、画像表示装置は、一連の会話（会話音声）が入力されると、声の大きさ、周波数、声紋等の音声情報に基づいて、音声を発しているユーザ（話者）が変更したことを検出する。画像表示装置は、会話音声の切替わりを検出すると、会話音声が切替わる前の会話音声と会話音声が切替わった後の会話音声との間に区切りを入れる。入力された一連の会話音声がユーザ毎に区切られるため、ユーザ毎に、会話内容に関連する画像が検索されて表示される。

画像表示装置はさらに、各ユーザの音声情報が予め登録された音声ＤＢ（図示せず。）を含む。画像表示装置は、会話音声が入力されると、入力された音声を発したユーザ（発言者）を、音声ＤＢを用いて特定する。ユーザを特定できない場合は、当該ユーザは新たなユーザとして音声ＤＢに登録される。

表示部の表示画面は、特定されたユーザ毎に割当てられた複数の表示領域に区分けされる。各ユーザの検索画像は割当てられた表示領域に表示される。本実施の形態ではさらに、表示領域（表示画面）に表示された画像は、ユーザ情報（例えばユーザ名等）と関連付けられて、画像表示装置の記憶部又は外部の記憶装置に保存される。

（第６の実施の形態）
本実施の形態に係る画像表示装置は、カメラを用いて取得した映像情報に基づいて、話者の変更を検出する点において、第５の実施の形態に係る画像表示装置とは異なる。その他の点では、各画像表示装置は同一の構成である。

図１３を参照して、画像表示装置５００は、周囲の画像（映像）を撮像するカメラ５２０、及び当該カメラ５２０に接続された映像処理部５１０をさらに含む。映像処理部５１０は、カメラ５２０の動作を制御するとともに、カメラ５２０によって撮像された映像のデータ（映像情報）を取得する。この映像処理部５１０は、取得した映像情報に基づいて、ユーザの顔を認識する機能を持つ。

本実施の形態では、発言等の会話音声を発する際にはカメラ５２０の方を向くように各ユーザに予め通知されている。画像表示装置５００は、カメラ５２０の方を向いている一人のユーザの顔を当該カメラ５２０で撮像することによって当該ユーザの顔の映像情報を取得する。発言が終了したユーザはカメラ５２０とは異なる方向を向き、続いて発言するユーザはカメラ５２０の方を向く。発言するユーザが変更すると、カメラ５２０で撮像されるユーザの顔も変わる。画像表示装置５００は、取得した映像情報に基づいて、ユーザの顔認識の切替わりを検出する。画像表示装置５００は、ユーザの顔認識の切替わりを検出することによって、音声を発しているユーザ（話者）が変更したことを検出する。すなわち、あるユーザ（第１の話者）の会話音声から他のユーザ（第２の話者）の会話音声に切替わったことを検出する。画像表示装置５００は、会話音声の切替わり（話者の変更）を検出すると、会話音声が切替わる前（話者が変更する前）の会話音声と会話音声が切替わった後（話者が変更した後）の会話音声との間に区切りを入れる。入力された一連の会話音声がユーザ毎に区切られるため、ユーザ毎に、会話内容に関連する画像が検索されて表示される。

図１４を参照して、例えば、ユーザＡとユーザＢとが机４０を囲んで会議をしているものとする。ユーザＡ及びユーザＢの近傍には画像表示装置５００が設置されている。画像表示装置５００の筐体にはマイクロホン１７０とともにカメラ５２０が設けられており、カメラ５２０の周囲には、所定の色（例えば緑色）で発光する環状のライト５２２が配置されている。ユーザの顔が認識されていない状態では、画像表示装置５００は待機状態となっている。

図１５を参照して、ユーザＡが発言するためにカメラ５２０の方を向いたとする。画像表示装置５００は、カメラ５２０を介して取得した映像情報に基づいて、ユーザＡの顔を認識する。画像表示装置５００は、環状のライト５２２を発光させて、顔認識中であることをユーザＡに知らせる。ユーザＡが発言すると、ユーザＡが発した会話音声が画像表示装置５００に入力される。

ユーザＡがカメラ５２０とは異なる方向を向き、ユーザＢがカメラ５２０の方を向いて発言をしたとする。画像表示装置５００は、カメラ５２０を介して取得した映像情報に基づいて、ユーザＢの顔を認識する。ユーザＢが発言すると、ユーザＢが発した会話音声が画像表示装置５００に入力される。画像表示装置５００は、取得した映像情報に基づいて、ユーザの顔認識の切替わりを検出することにより、入力された一連の会話（会話音声）において話者が切替わった（変更した）位置を特定する。画像表示装置５００は、入力された一連の会話音声に対して、特定した位置に区切りを入れる。これにより、ユーザＡの会話音声とユーザＢの会話音声とが区別される。

（第７の実施の形態）
図１６を参照して、本実施の形態に係る画像表示装置６００は、公共の場所に設置されるデジタルサイネージである。画像表示装置６００は、第１の実施の形態に係る画像表示装置１００と同様、入力された会話音声と関連する画像を検索して表示する機能を持つ。そのため、画像表示装置６００は、第１の実施の形態と同様のマイクロホン１７０が筐体に設けられている。画像表示装置６００はさらに、タッチパネルディスプレイ１３０（図１参照）に代えて、液晶表示パネル等の表示パネル６１０を含む。

本実施の形態では、第２の実施の形態で示したように、検索方法を指定するためテーブル（図示せず。）を参照して、入力された会話音声に関連する画像の検索方法を決定する。例えば、「明日大阪に行くんだけど、天気不安だなー。」といった会話音声が入力されたとする。入力された会話音声は文字データに変換されてキーワードが抽出される。キーワードとして、品詞が名詞である単語（「明日」、「大阪」、「天気」、及び「不安」）が抽出される。

テーブルには、キーワードとなり得る単語として、例えば、「明日」、「大阪」、「天気」が登録されており、その場合の検索方法として、例えば、検索キーワード「明日，大阪，天気」で検索するよう指定されているとする。画像表示装置６００は、指定の検索方法に基づいて、例えばインターネット上に公開されている画像（例えばウェブサイトの画像等）の中から、検索キーワード「明日，大阪，天気」で画像を検索する。

図１７を参照して、デジタルサイネージである画像表示装置６００の表示画面には、通常、広告画像が表示されている。画像表示装置６００は、画像検索が終了すると、表示画面の所定の位置に所定の大きさの表示領域６２０を表示して、その表示領域６２０内に検索した画像を表示する。表示領域６２０には、検索された画像が所定の時間表示される。所定の時間が経過すると、表示領域６２０とともに、当該表示領域６２０内に表示されている画像が消去される。所定の時間が経過する前に新たに画像が検索された場合は、所定の時間の経過後に、表示されていた画像に代えて、新たに検索された画像が表示領域６２０に表示される。

このように、公共の場所に設置されるデジタルサイネージとして画像表示装置６００を用いることによって、周囲に居るユーザが求めている情報を当該ユーザに提供できる。検索された画像は、広告画像が表示される表示画面の一部の領域（表示領域６２０）に表示されるため、ユーザが求める情報の提供時に、当該ユーザに広告画像を見せることができる。より多くのユーザ（例えば通行人）に広告を視聴させることができるので、広告による宣伝効果を向上させることもできる。

（変形例）
上記実施の形態では、画像検索によって最も上位にヒットした１つの画像を表示部に表示する例について示したが、本発明はそのような実施の形態には限定されない。例えば、検索された画像のうち、上位から順に複数の画像を表示部に表示するようにしてもよい。さらに、検索された画像から任意の画像を表示部に表示するようにしてもよい。

上記実施の形態では、変換された文字データが示す文字列から重複を排除してキーワードを抽出する例について示したが、本発明はそのような実施の形態には限定されない。文字データが示す文字列から重複を排除しないでキーワードを抽出するようにしてもよい。重複するキーワードが抽出された場合、同じキーワードで画像が検索される。その場合、検索キーワードが同じであっても、異なる画像が表示されるように構成されていると好ましい。

上記実施の形態では、変換された文字データが示す文字列から品詞が名詞、代名詞、及び連体詞の単語をキーワードとして抽出する例について示したが、本発明はそのような実施の形態には限定されない。例えば、入力された会話音声の内容を解析して、会話内容に関連する画像の検索に適したキーワードを抽出するようにしてもよい。

上記実施の形態では、音声認識処理に用いる音声認識用ＤＢ、言語解析処理に用いる言語解析用ＤＢ、及び複数の画像を登録した画像ＤＢを含む画像表示装置の例について示したが、本発明はそのような実施の形態には限定されない。音声認識用ＤＢ、言語解析用ＤＢ、及び画像ＤＢの少なくとも１つは、外部のサーバ装置等に設けられる構成であってもよい。こうした構成の例として、図１８に示す画像表示システムが考えられる。図１８を参照して、画像表示システムは、画像表示装置７００とサーバ装置８００とを含む。画像表示装置７００とサーバ装置８００とはネットワーク５０を介して通信可能に接続されている。サーバ装置８００には、例えば音声認識用ＤＢ、言語解析用ＤＢ、及び画像ＤＢが設けられている。画像表示装置７００は、音声認識処理時、言語解析処理時、及び画像検索時にサーバ装置８００と通信してこれらの処理を実行する。なお、音声認識処理及び言語解析処理等をサーバ装置側で実行する構成であってもよい。

上記実施の形態において、入力された会話音声の音声データを、表示された画像（画像データ）と関連付けて画像表示装置の記憶部又は外部の記憶装置に保存するようにしてもよい。さらに、会話内容に関連する画像の検索処理及び表示処理を一旦リセットするリセットキーを画像表示装置に設けるようにしてもよい。

上記第６の実施の形態では、カメラで取得した映像情報に基づいてユーザの顔を認識する例について示したが、例えば、ユーザの顔を認識することによってユーザを特定するよう構成されていてもよい。具体的には、各ユーザの顔の特徴情報が予め登録された顔認識ＤＢを用いて、カメラで撮像されたユーザを特定する。ユーザが特定されない場合は、当該ユーザは新たなユーザとして顔認識ＤＢに登録される。さらに、表示された画像は、特定されたユーザの情報と関連付けて、画像表示装置の記憶部又は外部の記憶装置に保存されるよう構成されていると好ましい。

上記第６の実施の形態では、ユーザの顔認識の切替わりを検出することによって、会話音声の切替わり（話者の変更）を検出する例について示したが、本発明はそのような実施の形態には限定されない。例えば、複数のユーザの顔をカメラで撮像し、ユーザの口の動き等によって会話音声の切替わり（話者の変更）を検出するようにしてもよい。

上記第６の実施の形態では、カメラの周囲に環状のライトを配置した例について示したが、こうした環状のライトに代えて、例えばインジケータランプをカメラの近傍に設けるようにしてもよい。

上記第７の実施の形態では、広告画像が常に表示されるよう、検索された画像は表示画面の一部の領域（表示領域）に表示される例について示したが、本発明はそのような実施の形態には限定されない。例えば、広告画像の表示に代えて、検索された画像を表示画面に表示するようにしてもよい。

上記で開示された技術を適宜組合せて得られる実施の形態についても、本発明の技術的範囲に含まれる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに限定されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

１００、５００、６００画像表示装置
１１０制御部
１２０記憶部
１３０タッチパネルディスプレイ
１４０表示制御部
１６０音声処理部
１７０マイクロホン
１８０通信ＩＦ
２００音声認識部
２０２形態素解析部
２０４キーワード抽出部
２０６画像検索部
２０８表示処理部
５１０映像処理部
５２０カメラ

Claims

画像を表示するための表示手段と、
会話音声を入力するための音声入力手段と、
前記音声入力手段により入力された会話音声を認識して文字データに変換するための音声認識手段と、
前記音声認識手段により変換された文字データから所定の条件を満たすキーワードを抽出するための抽出手段と、
予め定められた複数の画像の中から、前記抽出手段により抽出されたキーワードに応じた画像を検索するための検索手段と、
前記検索手段により検索された画像を前記表示手段に表示させるための表示制御手段とを含む、画像表示装置。
前記検索手段は、インターネット上に公開されている複数の画像の中から、前記抽出手段により抽出されたキーワードを用いて画像を検索するための画像検索手段を含む、請求項１に記載の画像表示装置。
前記画像表示装置はさらに、複数の画像データを記憶するための画像記憶手段を含み、
前記検索手段は、前記画像記憶手段に記憶されている複数の画像の中から、前記抽出手段により抽出されたキーワードを用いて画像を検索するための画像検索手段を含む、請求項１に記載の画像表示装置。
前記画像表示装置はさらに、
前記音声入力手段により入力された会話音声が、第１の話者による会話音声から第２の話者による会話音声に切替わったことを検出するための検出手段と、
前記検出手段が会話音声の切替わりを検出したことに応答して、会話音声が切替わる前の前記第１の話者による会話音声と会話音声が切替わった後の前記第２の話者による会話音声との間に区切り入れるための音声区切手段とを含む、請求項１〜請求項３のいずれかに記載の画像表示装置。
前記検出手段は、前記音声入力手段により入力された会話音声の音声情報に基づいて、前記第１の話者による会話音声から前記第２の話者による会話音声に切替わったことを検出する、請求項４に記載の画像表示装置。
前記画像表示装置はさらに、話者の顔を撮像することによって当該話者の顔の映像情報を取得するための撮像手段を含み、
前記検出手段は、前記撮像手段が取得した映像情報に基づいて、前記第１の話者による会話音声から前記第２の話者による会話音声に切替わったことを検出する、請求項４に記載の画像表示装置。
前記抽出手段は、前記音声認識手段により変換された文字データから品詞が名詞、代名詞、及び連体詞である単語を前記キーワードとして抽出するためのキーワード抽出手段を含む、請求項１〜請求項６のいずれかに記載の画像表示装置。
前記画像表示装置はさらに、
キーワードになり得る単語と当該単語がキーワードとして抽出されたときの検索方法とを関連付けて記憶するための記憶手段と、
前記抽出手段により抽出されたキーワードが前記記憶手段に記憶されている単語と一致するか否かを判定するための判定手段とを含み、
前記検索手段は、前記判定手段の判定結果が肯定であることに応答して、予め定められた複数の画像の中から、一致する単語に関連付けられた検索方法で画像を検索する、請求項７に記載の画像表示装置。
前記画像表示装置はさらに、
前記音声入力手段により所定の音声が入力されたことを検出するための音声検出手段と、
前記音声検出手段により所定の音声の入力が検出されたことに応答して、直前に検索された複数の画像の中から、前記所定の音声の検出後に入力された会話音声から抽出されたキーワードを用いて絞込検索を行なうための絞込検索手段を含む、請求項１〜請求項８のいずれかに記載の画像表示装置。
前記表示手段は、複数の画像を表示するために区分けされる複数の表示領域を含み、
前記表示制御手段は、前記検索手段により検索された複数の画像を前記複数の表示領域にそれぞれ表示させる、請求項１に記載の画像表示装置。