JP2017173530A

JP2017173530A - 音声入力支援プログラム、ヘッドマウントディスプレイ、音声入力支援方法および音声入力支援装置

Info

Publication number: JP2017173530A
Application number: JP2016058958A
Authority: JP
Inventors: 奨古賀; Sho Koga
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-03-23
Filing date: 2016-03-23
Publication date: 2017-09-28
Also published as: US20170277513A1

Abstract

【課題】音声の認識精度を高めることができる音声入力支援プログラム、ヘッドマウントディスプレイ、音声入力支援方法および音声入力支援装置を提供する。【解決手段】音声入力支援プログラムは、マイクにより収音された音情報を取得すると、複数の音声パターンを画像情報に対応付けて記憶する記憶部を参照して、端末の画面に表示された画像情報に対応付けられた音声パターンを取得する処理をコンピュータに実行させる。また、音声入力支援プログラムは、取得した音情報と、取得した音声パターンとを比較する処理をコンピュータに実行させる。また、音声入力支援プログラムは、比較結果を出力する処理をコンピュータに実行させる。【選択図】図１

Description

本発明は、音声入力支援プログラム、ヘッドマウントディスプレイ、音声入力支援方法および音声入力支援装置に関する。

近年、ヘッドマウントディスプレイ等の表示装置を用いて、撮像された画像上にオブジェクトを重畳表示させるＡＲ（Augmented Reality）技術が提案されている。ヘッドマウントディスプレイを用いる場合には、入力手段として音声認識によるコマンド入力が提案されている。また、動画像データを管理するために、動画像の代表画像データと、音声認識されたキーワードと、動画像データとを対応付けて記憶してインデックスを管理することが提案されている。

特開平８−２１２３２８号公報特開２０１０−０３４８９３号公報特開２００６−３０１７５７号公報

しかしながら、ヘッドマウントディスプレイで音声認識を行うためには、音声認識エンジンを常に稼働させているため、意図しない音声を認識してしまう場合がある。このため、使用中のアプリケーションにおいて、意図しないコマンド入力が行われたり、対応するコマンドがないのに音声認識が行われたりといった、誤認識が多発する場合がある。

一つの側面では、本発明は、音声の認識精度を高めることができる音声入力支援プログラム、ヘッドマウントディスプレイ、音声入力支援方法および音声入力支援装置を提供することにある。

一つの態様では、音声入力支援プログラムは、マイクにより収音された音情報を取得すると、複数の音声パターンを画像情報に対応付けて記憶する記憶部を参照して、端末の画面に表示された画像情報に対応付けられた音声パターンを取得する処理をコンピュータに実行させる。また、音声入力支援プログラムは、取得した前記音情報と、取得した前記音声パターンとを比較する処理をコンピュータに実行させる。また、音声入力支援プログラムは、比較結果を出力する処理をコンピュータに実行させる。

音声の認識精度を高めることができる。

図１は、実施例の音声入力支援システムの構成の一例を示すブロック図である。図２は、フィルタリング情報の通知の一例を示す図である。図３は、フィルタリング情報記憶部の一例を示す図である。図４は、対応する音声コマンドがある場合の一例を示す図である。図５は、対応する音声コマンドがない場合の一例を示す図である。図６は、音声コマンド記憶部の一例を示す図である。図７は、実施例の音声入力処理の一例を示すシーケンス図である。図８は、実施例の音声入力処理の一例を示すシーケンス図である。図９は、音声入力支援プログラムを実行するコンピュータの一例を示す図である。

以下、図面に基づいて、本願の開示する音声入力支援プログラム、ヘッドマウントディスプレイ、音声入力支援方法および音声入力支援装置の実施例を詳細に説明する。なお、本実施例により、開示技術が限定されるものではない。また、以下の実施例は、矛盾しない範囲で適宜組みあわせてもよい。

図１は、実施例の音声入力支援システムの構成の一例を示すブロック図である。図１に示す音声入力支援システム１は、ヘッドマウントディスプレイ（以下、ＨＭＤ（Head Mounted Display）ともいう。）１０と、端末装置１００と、サーバ２００とを有する。ＨＭＤ１０と端末装置１００とは、１対１で無線または有線により接続される。すなわち、ＨＭＤ１０は、端末装置１００の表示部の一例として機能する。なお、ＨＭＤ１０と端末装置１００とは、１対１での接続に限定されず、１対多、多対１または多対多での接続であってもよい。また、図１では、ＨＭＤ１０と端末装置１００との組について、１組を一例として示したが、ＨＭＤ１０と端末装置１００との組の数は限定されず、任意の数のＨＭＤ１０と端末装置１００との組を有してもよい。また、ＨＭＤ１０および端末装置１００は、音声入力支援装置の一例である。

ＨＭＤ１０と端末装置１００との間は、例えば、Ｗｉ−ＦｉＤｉｒｅｃｔ（登録商標）等の無線ＬＡＮ（Local Area Network）により相互に通信可能に接続される。また、端末装置１００とサーバ２００との間は、ネットワークＮを介して相互に通信可能に接続される。かかるネットワークＮには、有線または無線を問わず、インターネットを始め、ＬＡＮやＶＰＮ（Virtual Private Network）などの任意の種類の通信網を採用できる。

ＨＭＤ１０は、ユーザが端末装置１００とともに装着し、端末装置１００から送信される表示画面を表示する。ＨＭＤ１０は、例えば、単眼の透過型のＨＭＤを用いることができる。なお、ＨＭＤ１０は、例えば、両眼用や没入型等の各種のＨＭＤを用いるようにしてもよい。また、ＨＭＤ１０は、ユーザによる音声入力を受け付けるために、入力部の一例としてマイクを有する。

ＨＭＤ１０は、マイクにより収音された音情報を取得すると、複数の音声パターンを画像情報に対応付けて記憶する記憶部を参照して、端末の画面に表示された画像情報に対応付けられた音声パターンを取得する。ＨＭＤ１０は、取得した音情報と、取得した音声パターンとを比較し、比較結果を出力する。ＨＭＤ１０は、出力された比較結果が、音情報と音声パターンとが一致する場合に、音声コマンドＩＤ（Identifier）を端末装置１００に送信する。これにより、ＨＭＤ１０は、音声の認識精度を高めることができる。

端末装置１００は、ユーザが装着して操作する情報処理装置であり、例えば、タブレット端末やスマートフォン等の移動体通信端末等を用いることができる。端末装置１００は、例えば、ＨＭＤ１０と連携して動作するＡＲミドルウェア（以下、ＡＲミドルともいう。）と、Ｗｅｂアプリケーション（以下、Ｗｅｂアプリともいう。）とを実行する。ＡＲミドルは、Ｗｅｂアプリに対してＡＲコンテンツの表示、表示画面における画面遷移、操作メニュー等の基本的な機能を提供する。Ｗｅｂアプリは、例えば、ユーザに対して設備の点検等に関連する操作画面等を提供する。なお、以下の説明では、ＡＲミドルとＷｅｂアプリとを合わせてＡＲアプリともいう。また、ＡＲミドルとＷｅｂアプリとを区別する場合には、ＡＲミドル１００ａおよびＷｅｂアプリ１００ｂと表現する。

サーバ２００は、例えば、ある工場における設備点検用のＡＲコンテンツを管理するデータベースや、Ｗｅｂアプリの各画面におけるフィルタリング情報を記憶するデータベースを有する。なお、フィルタリング情報は、音声コマンドＩＤを画面に対応付けた情報、つまり、複数の音声パターンを画像情報に対応付けた情報である。サーバ２００は、端末装置１００の求めに応じて、ネットワークＮを介して、ＡＲコンテンツを端末装置１００に送信する。また、サーバ２００は、端末装置１００の求めに応じて、フィルタリング情報を端末装置１００に送信する。

ここで、本願の音声認識による音声コマンドの入力と、従来の音声認識による音声コマンドの入力とを比較する。従来の音声認識による音声コマンドの入力では、音声認識の結果に処理が対応付けられていない場合であっても音声認識を行い、例えば認識音を鳴らすことでユーザに音声認識を行ったことを通知している。ところが、実際には、認識結果に対応する音声コマンドがないため、何も処理が行われず、ユーザは、音声認識結果や音声認識後の処理結果を把握できないこととなる。これに対し、本願の音声認識による音声コマンドの入力では、フィルタリング情報を用いて、音声認識の結果に処理が対応付けられていない場合には、フィルタリングによって、例えば認識音を鳴らさない。このため、本願の音声認識による音声コマンドの入力では、ユーザは音声入力した音声コマンドが、現在の画面において使用できないことがわかる。

本願におけるフィルタリング情報の通知について説明する。図２は、フィルタリング情報の通知の一例を示す図である。なお、図２では、ＨＭＤ１０に表示される表示画面のイメージをＷｅｂアプリ１００ｂに模式的に表示しているが、実際にはＨＭＤ１０の表示素子に表示される。図２の例では、Ｗｅｂアプリ１００ｂからＡＲミドル１００ａに対して、Ｗｅｂアプリ１００ｂで使用する音声コマンドのリスト、つまりフィルタリング情報を通知する（ステップＳ１）。次に、ＡＲミドル１００ａは、ＨＭＤ１０に対してＡＲミドル１００ａおよびＷｅｂアプリ１００ｂで使用するフィルタリング情報を送信する（ステップＳ２）。また、ＡＲミドル１００ａは、ＨＭＤ１０に対して表示中の画面の画面ＩＤを送信する。ＨＭＤ１０は、画面ＩＤに対応するフィルタリング情報に基づいて、音声認識におけるフィルタリングを開始する。

ＨＭＤ１０は、ユーザから入力された音情報に対して音声コマンドの認識を行って、フィルタリング情報に含まれる音声パターンと比較する。ＨＭＤ１０は、比較の結果、フィルタリング情報に含まれる音声パターンと一致する場合に、一致した音声コマンドＩＤをＡＲミドル１００ａに送信する（ステップＳ３）。

ＡＲミドル１００ａは、受信した音声コマンドＩＤに対応する音声コマンドの処理を実行する（ステップＳ４）。また、ＡＲミドル１００ａは、受信した音声コマンドＩＤが、Ｗｅｂアプリ１００ｂで処理を実行する音声コマンドの音声コマンドＩＤである場合には、当該音声コマンドＩＤまたは対応する音声コマンドをＷｅｂアプリ１００ｂに出力する（ステップＳ５）。また、ＡＲミドル１００ａは、Ｗｅｂアプリ１００ｂにおいて画面遷移が発生すると、遷移した画面の画面ＩＤをＨＭＤ１０に送信する（ステップＳ６）。ＨＭＤ１０は、画面ＩＤを受信すると、画面ＩＤに対応するフィルタリング情報に基づいて、音声認識におけるフィルタリングを開始する。

次に、ＨＭＤ１０の構成について説明する。図１に示すように、ＨＭＤ１０は、通信部１１と、入力部１２と、表示部１３と、記憶部１４と、制御部１６とを有する。なお、ＨＭＤ１０は、図１に示す機能部以外にも、例えば各種の入力デバイスや音声出力デバイス等の機能部を有することとしてもかまわない。

通信部１１は、例えば、無線ＬＡＮ等の通信モジュール等によって実現される。通信部１１は、例えば、Ｗｉ−ＦｉＤｉｒｅｃｔ（登録商標）により端末装置１００と無線で接続され、端末装置１００との間で情報の通信を司る通信インタフェースである。通信部１１は、端末装置１００から、フィルタリング情報、終了情報、表示画面および画面ＩＤを受信する。通信部１１は、受信したフィルタリング情報、終了情報、表示画面および画面ＩＤを制御部１６に出力する。また、通信部１１は、制御部１６から入力された音声コマンドＩＤを端末装置１００に送信する。

入力部１２は、例えば、マイクロフォン（以下、マイクともいう。）であり、ユーザが発声する音声を収音する。入力部１２は、マイクとして、例えば、エレクトレットコンデンサマイク等の各種のマイクを用いることができる。入力部１２は、収音した音声である音情報を制御部１６に出力する。

表示部１３は、各種情報を表示するための表示デバイスである。表示部１３は、例えば、ハーフミラーに映像が投影され、ユーザが映像とともに外部の風景を透過して見ることができる透過型のＨＭＤの表示素子に相当する。なお、表示部１３は、没入型、ビデオ透過型、網膜投影型等のＨＭＤに対応する表示素子でもよい。

記憶部１４は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子等の記憶装置によって実現される。記憶部１４は、フィルタリング情報記憶部１５を有する。また、記憶部１４は、制御部１６での処理に用いる情報を記憶する。

フィルタリング情報記憶部１５は、端末装置１００から受信したフィルタリング情報を記憶する。なお、フィルタリング情報記憶部１５は、音声コマンドの辞書の一例である。図３は、フィルタリング情報記憶部の一例を示す図である。図３に示すように、フィルタリング情報記憶部１５は、画面ＩＤ管理テーブル１５ａと、音声コマンドＩＤ管理テーブル１５ｂとを有する。画面ＩＤ管理テーブル１５ａは、画面ＩＤとフィルタリングＩＤとを対応付けて記憶する。つまり、画面ＩＤ管理テーブル１５ａは、「画面ＩＤ」、「フィルタリングＩＤ」といった項目を有する。

「画面ＩＤ」は、ＨＭＤ１０に表示する画面を識別する識別子である。「フィルタリングＩＤ」は、表示される画面における音声コマンドのセットを識別する識別子である。なお、画面ＩＤ管理テーブル１５ａは、例えば、「画面ＩＤ」に代えてＷｅｂアプリ１００ｂの種別を識別する「アプリＩＤ」を用いてもよい。この場合、「フィルタリングＩＤ」は、Ｗｅｂアプリ１００ｂにおける音声コマンドのセットを識別する識別子である。

音声コマンドＩＤ管理テーブル１５ｂは、フィルタリングＩＤと音声コマンドＩＤとを対応付けて記憶する。つまり、音声コマンドＩＤ管理テーブル１５ｂは、「フィルタリングＩＤ」、「音声コマンドＩＤ」といった項目を有する。

「フィルタリングＩＤ」は、表示される画面における音声コマンドのセットを識別する識別子である。「音声コマンドＩＤ」は、音声コマンドを識別する識別子である。また、「音声コマンドＩＤ」には、図示しない音声パターンが対応付けて記憶されている。

図１の説明に戻って、制御部１６は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、内部の記憶装置に記憶されているプログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１６は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されるようにしてもよい。制御部１６は、表示制御部１７と、取得部１８と、比較部１９とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１６の内部構成は、図１に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

表示制御部１７は、例えば、ユーザによって電源が投入され、表示画面の受信を開始すると、音声認識エンジンを起動する起動指示を取得部１８に出力する。また、表示制御部１７は、通信部１１を介して端末装置１００からフィルタリング情報、表示画面および画面ＩＤを受信する。表示制御部１７は、受信したフィルタリング情報をフィルタリング情報記憶部１５に記憶する。また、表示制御部１７は、通信部１１を介して端末装置１００から画面ＩＤが対応付けられた表示画面を受信すると、画面ＩＤを取得部１８に出力するとともに、表示画面を表示部１３に表示させる。

さらに、表示制御部１７は、画面ＩＤが対応付けられた表示画面について、画面遷移が発生すると、遷移後の表示画面および画面ＩＤも同様に、画面ＩＤを取得部１８に出力するとともに、表示画面を表示部１３に表示させる。なお、表示制御部１７は、例えば、Ｗｅｂアプリ１００ｂが起動されていない状態の表示画面等の画面ＩＤが対応付けられていない表示画面を受信すると、受信した表示画面を表示部１３に表示させる。

表示制御部１７は、画面ＩＤが対応付けられた表示画面の表示中に、表示画面中に認識した音声コマンドが含まれる表示画面に更新されると、更新された表示画面を表示部１３に表示させる。すなわち、表示制御部１７は、複数の音声コマンドのうち、取得した音声パターンに対応付けられた音声コマンドを表示画面に表示する。また、表示制御部１７は、通信部１１を介して端末装置１００から終了情報を受信したか否かを判定する。表示制御部１７は、終了情報を受信していない場合には、音情報の取得を待機する。表示制御部１７は、終了情報を受信した場合には、取得部１８に対して終了指示を出力する。

取得部１８は、表示制御部１７から起動指示が入力されると、音声認識エンジンを起動して、入力部１２により収音された音情報の取得を開始する。取得部１８は、音声認識エンジンを用いて、取得した音情報をフィルタリング情報記憶部１５に記憶された音声パターンと比較可能な音情報に変換する。すなわち、取得部１８は、音声コマンドを認識する。取得部１８は、表示制御部１７から画面ＩＤが入力されると、フィルタリング情報記憶部１５を参照して、画面ＩＤに対応付けられた、１つ以上の音声コマンドＩＤおよび音声パターンを取得する。取得部１８は、変換後の音情報、音声コマンドＩＤおよび音声パターンを比較部１９に出力する。すなわち、取得部１８は、フィルタリング情報を用いて取得された音情報のフィルタリングを開始する。また、取得部１８は、表示制御部１７から終了指示が入力されると、音声認識エンジンを停止する。

比較部１９は、取得部１８から変換後の音情報、音声コマンドＩＤおよび音声パターンが入力されると、変換後の音情報と、音声パターンとを比較する。比較部１９は、変換後の音情報が、１つ以上の音声パターンのうちいずれかと一致する場合には、一致した音声パターンに対応する音声コマンドＩＤを含む、一致した旨の比較結果を生成する。比較部１９は、変換後の音情報が、１つ以上の音声パターンのうちいずれとも一致しない場合には、一致しない旨の比較結果を生成する。比較部１９は、生成した比較結果を出力する。すなわち、比較部１９は、出力制御部でもあり、通信部１１を介して、端末装置１００に生成した比較結果を送信する。

言い換えると、比較部１９は、変換後の音情報がフィルタリング情報と一致するか否かを判定する。比較部１９は、変換後の音情報がフィルタリング情報と一致する場合には、一致した音声パターンに対応する音声コマンドＩＤを含む、一致した旨の比較結果を生成し、生成した比較結果を端末装置１００に送信する。比較部１９は、変換後の音情報がフィルタリング情報と一致しない場合には、一致しない旨の比較結果を生成し、生成した比較結果を端末装置１００に送信する。

また、比較部１９は、生成した比較結果が一致した旨の比較結果である場合には、例えば、図示しないイヤホン等に対して認識音を出力する。さらに、比較部１９は、生成した比較結果が一致しない旨の比較結果である場合に、例えば、図示しないイヤホン等に対して「認識できません」といった音声を出力する。なお、比較部１９は、生成した比較結果が一致しない旨の比較結果である場合に、認識音や音声を出力しないようにしてもよい。

ここで、図４および図５を用いてフィルタリング情報の音声パターンに対応する音声コマンドの有無における表示画面例について説明する。図４は、対応する音声コマンドがある場合の一例を示す図である。なお、図４および図５では、説明のために、ＨＭＤ１０の表示素子に表示される表示画面を模式的に端末装置１００内に記載している。

図４に示すように、ユーザ５が「メニュー」と発声すると、ＨＭＤ１０は、「メニュー」の音情報がフィルタリング情報と一致するか否かを判定する。図４の例では、「メニュー」の音情報がフィルタリング情報と一致するので、ＨＭＤ１０は、認識結果、つまり一致した旨の比較結果を端末装置１００に送信する。端末装置１００は、比較結果に含まれる音声コマンドＩＤに基づいて、メニュー画面２１をＨＭＤ１０に送信して表示させる。

図５は、対応する音声コマンドがない場合の一例を示す図である。図５に示すように、ユーザ５が「番号１」と発声すると、ＨＭＤ１０は、「番号１」の音情報がフィルタリング情報と一致するか否かを判定する。図５の例では、「番号１」の音情報がフィルタリング情報と一致しないので、ＨＭＤ１０は、認識結果、つまり一致しない旨の比較結果を端末装置１００に送信する。端末装置１００は、一致しない旨の比較結果に基づいて、エラー画面２２をＨＭＤ１０に送信して表示させる。

続いて、端末装置１００の構成について説明する。図１に示すように、端末装置１００は、第１通信部１１０と、第２通信部１１１と、表示操作部１１２と、記憶部１２０と、制御部１３０とを有する。なお、端末装置１００は、図１に示す機能部以外にも既知のコンピュータが有する各種の機能部、例えば各種の入力デバイスや音声出力デバイス等の機能部を有することとしてもかまわない。

第１通信部１１０は、例えば、無線ＬＡＮ等の通信モジュール等によって実現される。第１通信部１１０は、例えば、Ｗｉ−ＦｉＤｉｒｅｃｔ（登録商標）によりＨＭＤ１０と無線で接続され、ＨＭＤ１０との間で情報の通信を司る通信インタフェースである。第１通信部１１０は、ＨＭＤ１０から比較結果を受信する。第１通信部１１０は、受信した比較結果を制御部１３０に出力する。また、第１通信部１１０は、制御部１３０から入力されたフィルタリング情報、終了情報、表示画面および画面ＩＤをＨＭＤ１０に送信する。

第２通信部１１１は、例えば、第３世代移動通信システム、ＬＴＥ（Long Term Evolution）等の携帯電話回線および無線ＬＡＮ等の通信モジュール等によって実現される。第２通信部１１１は、ネットワークＮを介してサーバ２００と無線で接続され、サーバ２００との間で情報の通信を司る通信インタフェースである。第２通信部１１１は、制御部１３０から入力されたデータ取得指示およびフィルタリング情報取得指示を、ネットワークＮを介して、サーバ２００に送信する。また、第２通信部１１１は、データ取得指示に応じたＡＲコンテンツ、および、フィルタリング情報取得指示に応じたフィルタリング情報を、ネットワークＮを介して、サーバ２００から受信する。第２通信部１１１は、受信したＡＲコンテンツおよびフィルタリング情報を制御部１３０に出力する。

表示操作部１１２は、各種情報を表示するための表示デバイス、および、ユーザから各種操作を受け付ける入力デバイスである。例えば、表示操作部１１２は、表示デバイスとして液晶ディスプレイ等によって実現される。また、例えば、表示操作部１１２は、入力デバイスとして、タッチパネル等によって実現される。つまり、表示操作部１１２は、表示デバイスと入力デバイスとが一体化される。表示操作部１１２は、ユーザによって入力された操作を操作情報として制御部１３０に出力する。なお、表示操作部１１２は、ＨＭＤ１０と同様の画面を表示してもよいし、ＨＭＤ１０と異なる画面を表示してもよい。

記憶部１２０は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、ハードディスクや光ディスク等の記憶装置によって実現される。記憶部１２０は、フィルタリング情報記憶部１２１と、音声コマンド記憶部１２２とを有する。また、記憶部１２０は、制御部１３０での処理に用いる情報を記憶する。

フィルタリング情報記憶部１２１は、サーバ２００から取得したフィルタリング情報を記憶する。なお、フィルタリング情報記憶部１２１の構成については、ＨＭＤ１０のフィルタリング情報記憶部１５と同様であるので、その説明を省略する。

音声コマンド記憶部１２２は、音声コマンドＩＤと音声コマンドとを対応付けて記憶する。図６は、音声コマンド記憶部の一例を示す図である。図６に示すように、音声コマンド記憶部１２２は、「音声コマンドＩＤ」、「音声コマンド」といった項目を有する。音声コマンド記憶部１２２は、例えば音声コマンドＩＤごとに１レコードとして記憶する。

「音声コマンドＩＤ」は、音声コマンドを識別する識別子である。「音声コマンド」は、例えば「メニュー表示」、「番号１選択」といったコマンドを示す情報である。

図１の説明に戻って、制御部１３０は、例えば、ＣＰＵやＭＰＵ等によって、内部の記憶装置に記憶されているプログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されるようにしてもよい。制御部１３０は、実行部１３１を有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図１に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

実行部１３１は、ＡＲアプリ、すなわちＡＲミドル１００ａおよびＷｅｂアプリ１００ｂを実行する。実行部１３１は、例えば、端末装置１００の電源が投入されると、ＨＭＤ１０に対する表示画面の送信を開始する。ＡＲミドル１００ａは、例えば、ユーザによって表示操作部１１２から入力された操作情報に基づいて、Ｗｅｂアプリ１００ｂの起動を指示する。ＡＲミドル１００ａは、Ｗｅｂアプリ１００ｂからフィルタリング情報が入力されると、入力されたフィルタリング情報を、第１通信部１１０を介してＨＭＤ１０に送信する。また、ＡＲミドル１００ａは、表示画面および画面ＩＤを、第１通信部１１０を介してＨＭＤ１０に送信する。

ＡＲミドル１００ａは、第１通信部１１０を介して、ＨＭＤ１０から比較結果を受信すると、比較結果に応じた処理を実行する。ＡＲミドル１００ａは、音声コマンドＩＤを含む一致する旨の比較結果を受信した場合には、音声コマンド記憶部１２２を参照し、当該音声コマンドＩＤに対応する音声コマンドをＡＲミドル１００ａで処理するか否かを判定する。ＡＲミドル１００ａは、ＡＲミドル１００ａで処理する場合には、音声コマンドに対応する処理を実行する。

ＡＲミドル１００ａは、ＡＲミドル１００ａで処理しない場合には、音声コマンドをＷｅｂアプリ１００ｂに出力する。なお、ＡＲミドル１００ａは、一致しない旨の比較結果を受信した場合には、音声認識できない旨のメッセージを表示画面に表示させてもよいし、特になにも処理をしなくてもよい。

ＡＲミドル１００ａは、音声コマンドに対応する処理について画面遷移があるか否かを判定する。ＡＲミドル１００ａは、画面遷移がある場合には、遷移後の表示画面の画面ＩＤを、第１通信部１１０を介してＨＭＤ１０に送信する。ＡＲミドル１００ａは、画面遷移がない場合には、Ｗｅｂアプリ１００ｂが終了したか否かを判定する。

ＡＲミドル１００ａは、Ｗｅｂアプリ１００ｂが終了していない場合には、ＨＭＤ１０から比較結果を受信できるように待機する。ＡＲミドル１００ａは、Ｗｅｂアプリ１００ｂが終了した場合には、第１通信部１１０を介して、終了情報をＨＭＤ１０に送信する。

Ｗｅｂアプリ１００ｂは、ＡＲミドル１００ａからの起動指示により起動する。Ｗｅｂアプリ１００ｂは、起動すると、第２通信部１１１およびネットワークＮを介して、データ取得指示およびフィルタリング情報取得指示をサーバ２００に送信する。Ｗｅｂアプリ１００ｂは、第２通信部１１１およびネットワークＮを介して、サーバ２００からデータ取得指示に応じたＡＲコンテンツ、および、フィルタリング情報取得指示に応じたフィルタリング情報を取得する。

Ｗｅｂアプリ１００ｂは、ＡＲミドル１００ａと協働してＡＲコンテンツを含む表示画面を生成し、生成した表示画面を、第１通信部１１０を介してＨＭＤ１０に送信して表示させる。また、Ｗｅｂアプリ１００ｂは、取得したフィルタリング情報をＡＲミドル１００ａに出力する。Ｗｅｂアプリ１００ｂは、ＡＲミドル１００ａから音声コマンドが入力されると、音声コマンドに対応する処理を実行する。

次に、実施例の音声入力支援システム１の動作について説明する。図７および図８は、実施例の音声入力処理の一例を示すシーケンス図である。

ＨＭＤ１０の表示制御部１７は、例えば、ユーザによって電源が投入され、表示画面の受信を開始すると、音声認識エンジンを起動する起動指示を取得部１８に出力する。取得部１８は、表示制御部１７から起動指示が入力されると、音声認識エンジンを起動して、入力部１２により収音された音情報の取得を開始する（ステップＳ１１）。

端末装置１００の実行部１３１は、例えば、端末装置１００の電源が投入されると、ＨＭＤ１０に対する表示画面の送信を開始する。実行部１３１で実行されるＡＲミドル１００ａは、例えば、ユーザによって表示操作部１１２から入力された操作情報に基づいて、Ｗｅｂアプリ１００ｂの起動を指示する（ステップＳ１２）。Ｗｅｂアプリ１００ｂは、ＡＲミドル１００ａからの起動指示により起動する（ステップＳ１３）。Ｗｅｂアプリ１００ｂは、起動すると、データ取得指示およびフィルタリング情報取得指示をサーバ２００に送信する。Ｗｅｂアプリ１００ｂは、サーバ２００からデータ取得指示に応じたＡＲコンテンツ、および、フィルタリング情報取得指示に応じたフィルタリング情報を取得する（ステップＳ１４）。

ＡＲミドル１００ａは、Ｗｅｂアプリ１００ｂからフィルタリング情報が入力されると、入力されたフィルタリング情報をＨＭＤ１０に送信する（ステップＳ１５）。ＨＭＤ１０の表示制御部１７は、フィルタリング情報を受信すると、受信したフィルタリング情報をフィルタリング情報記憶部１５に記憶する（ステップＳ１６）。

また、端末装置１００のＡＲミドル１００ａは、表示画面および画面ＩＤをＨＭＤ１０に送信する（ステップＳ１７）。ＨＭＤ１０の表示制御部１７は、端末装置１００から表示画面および画面ＩＤを受信する（ステップＳ１８）。表示制御部１７は、表示画面および画面ＩＤを受信すると、画面ＩＤを取得部１８に出力するとともに、表示画面を表示部１３に表示させる。取得部１８は、フィルタリング情報記憶部１５を参照し、フィルタリング情報を用いて取得された音情報のフィルタリングを開始する（ステップＳ１９）。取得部１８は、音情報を取得したか否かを判定する（ステップＳ２０）。取得部１８は、音情報を取得した場合には（ステップＳ２０：肯定）、音声認識エンジンを用いて、取得した音情報をフィルタリング情報記憶部１５に記憶された音声パターンと比較可能な音情報に変換する。すなわち、取得部１８は、音声コマンドを認識する（ステップＳ２１）。取得部１８は、音情報を取得しない場合には（ステップＳ２０：否定）、ステップＳ３２に進む。

取得部１８は、表示制御部１７から画面ＩＤが入力されると、フィルタリング情報記憶部１５を参照して、画面ＩＤに対応付けられた、１つ以上の音声コマンドＩＤおよび音声パターンを取得する。取得部１８は、変換後の音情報、音声コマンドＩＤおよび音声パターンを比較部１９に出力する。比較部１９は、取得部１８から変換後の音情報、音声コマンドＩＤおよび音声パターンが入力されると、変換後の音情報が音声パターン、つまりフィルタリング情報と一致するか否かを判定する（ステップＳ２２）。

比較部１９は、変換後の音情報がフィルタリング情報と一致する場合には（ステップＳ２２：肯定）、一致した音声パターンに対応する音声コマンドＩＤを含む一致した旨の比較結果を端末装置１００に送信する（ステップＳ２３）。比較部１９は、変換後の音情報がフィルタリング情報と一致しない場合には（ステップＳ２２：否定）、一致しない旨の比較結果を端末装置１００に送信してステップＳ３２に進む。

端末装置１００のＡＲミドル１００ａは、音声コマンドＩＤを含む一致する旨の比較結果をＨＭＤ１０から受信する（ステップＳ２４）。ＡＲミドル１００ａは、音声コマンドＩＤを含む一致する旨の比較結果を受信すると、音声コマンド記憶部１２２を参照し、当該音声コマンドＩＤに対応する音声コマンドをＡＲミドル１００ａで処理するか否かを判定する（ステップＳ２５）。ＡＲミドル１００ａは、ＡＲミドル１００ａで処理する場合には（ステップＳ２５：肯定）、音声コマンドに対応する処理を実行する（ステップＳ２６）。

ＡＲミドル１００ａは、ＡＲミドルで処理しない場合には（ステップＳ２５：否定）、音声コマンドをＷｅｂアプリ１００ｂに出力する（ステップＳ２７）。Ｗｅｂアプリ１００ｂは、ＡＲミドル１００ａから音声コマンドが入力されると、音声コマンドに対応する処理を実行する（ステップＳ２８）。

ＡＲミドル１００ａは、音声コマンドに対応する処理について画面遷移があるか否かを判定する（ステップＳ２９）。ＡＲミドル１００ａは、画面遷移がある場合には（ステップＳ２９：肯定）、ステップＳ１７に戻り、遷移後の表示画面の画面ＩＤをＨＭＤ１０に送信する。ＡＲミドル１００ａは、画面遷移がない場合には（ステップＳ２９：否定）、Ｗｅｂアプリ１００ｂが終了したか否かを判定する（ステップＳ３０）。

ＡＲミドル１００ａは、Ｗｅｂアプリ１００ｂが終了していない場合には（ステップＳ３０：否定）、ステップＳ２４に戻り、ＨＭＤ１０から比較結果を受信できるように待機する。ＡＲミドル１００ａは、Ｗｅｂアプリ１００ｂが終了した場合には（ステップＳ３０：肯定）、終了情報をＨＭＤ１０に送信する（ステップＳ３１）。

ＨＭＤ１０の表示制御部１７は、端末装置１００から終了情報を受信したか否かを判定する（ステップＳ３２）。表示制御部１７は、終了情報を受信していない場合には（ステップＳ３２：否定）、ステップＳ２０に戻る。表示制御部１７は、終了情報を受信した場合には（ステップＳ３２：肯定）、取得部１８に対して終了指示を出力する。取得部１８は、表示制御部１７から終了指示が入力されると、音声認識エンジンを停止し、音声入力処理を終了する。これにより、ＨＭＤ１０および端末装置１００は、音声の認識精度を高めることができる。

なお、上記実施例では、フィルタリング情報記憶部１５において、画面ＩＤとフィルタリングＩＤとを対応付けた画面ＩＤ管理テーブル１５ａを用いたが、これに限定されない。例えば、「画面ＩＤ」に代えてＷｅｂアプリ１００ｂの種別を識別する「アプリＩＤ」を用いるアプリＩＤ管理テーブルを用いてもよい。

このように、ＨＭＤ１０は、マイクにより収音された音情報を取得すると、複数の音声パターンを画像情報に対応付けて記憶する記憶部１４を参照して、端末の画面に表示された画像情報に対応付けられた音声パターンを取得する。また、ＨＭＤ１０は、取得した音情報と、取得した音声パターンとを比較し、比較結果を出力する。その結果、音声の認識精度を高めることができる。

また、ＨＭＤ１０は、マイクにより収音された音情報を取得すると、複数の音声パターンをアプリの種別に対応付けて記憶する記憶部１４を参照して、端末の画面に表示されたアプリの種別に対応付けられた音声パターンを取得する。また、ＨＭＤ１０は、取得した音情報と、取得した音声パターンとを比較し、比較結果を出力する。その結果、音声の認識精度を高めることができる。

また、ＨＭＤ１０および端末装置１００は、さらに、複数の音声コマンドを音声パターンに対応付けて記憶する記憶部１２０を参照して、複数の音声コマンドのうち、取得した音声パターンに対応付けられた音声コマンドを端末の画面に表示する。その結果、ユーザが入力された音声コマンドを確認できる。

また、ＨＭＤ１０は、複数の音声パターンおよび画像情報、または、複数の音声パターンおよびアプリの種別は、端末装置１００から取得して記憶部１４に記憶する。その結果、画像情報またはアプリの種別に応じて音声認識の結果をフィルタリングできる。

また、ＨＭＤ１０は、マイクと、ディスプレイと、ディスプレイに表示される画像情報それぞれに対応付けて音声パターンを記憶する記憶部１４とを備える。また、ＨＭＤ１０は、マイクにより収音された音情報を取得すると、記憶部１４を参照して、ディスプレイに表示された画像情報に対応付けられた音声パターンを取得し、取得した音情報と、取得した音声パターンとの比較結果を出力する制御部を備える。その結果、音声の認識精度を高めることができる。

なお、上記実施例では、端末装置１００とＨＭＤ１０とをユーザが装着する形態として説明したが、これに限定されない。例えば、ＨＭＤ１０を用いずに、例えばスマートフォンである端末装置１００で音声認識を行うようにしてもよい。

また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、取得部１８と比較部１９とを統合してもよい。また、図示した各処理は、上記の順番に限定されるものではなく、処理内容を矛盾させない範囲において、同時に実施してもよく、順序を入れ替えて実施してもよい。

さらに、各装置で行われる各種処理機能は、ＣＰＵ（又はＭＰＵ、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウェア上で、その全部又は任意の一部を実行するようにしてもよいことは言うまでもない。

ところで、上記の実施例で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図９は、音声入力支援プログラムを実行するコンピュータの一例を示す図である。

図９に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、データ入力を受け付ける入力装置３０２と、モニタ３０３とを有する。また、コンピュータ３００は、記憶媒体からプログラム等を読み取る媒体読取装置３０４と、各種装置と接続するためのインタフェース装置３０５と、他の情報処理装置等と有線または無線により接続するための通信装置３０６とを有する。また、コンピュータ３００は、各種情報を一時記憶するＲＡＭ３０７と、フラッシュメモリ３０８とを有する。また、各装置３０１〜３０８は、バス３０９に接続される。

フラッシュメモリ３０８には、図１に示した表示制御部１７、取得部１８および比較部１９の各処理部と同様の機能を有する音声入力支援プログラムが記憶される。また、フラッシュメモリ３０８には、フィルタリング情報記憶部１５、および、音声入力支援プログラムを実現するための各種データが記憶される。入力装置３０２は、例えば、コンピュータ３００のユーザから音声等の音情報の入力を受け付ける。モニタ３０３は、例えば、コンピュータ３００のユーザに対して表示画面等の各種画面を表示する。インタフェース装置３０５は、例えばヘッドホン等が接続される。通信装置３０６は、例えば、図１に示した通信部１１と同様の機能を有し端末装置１００と接続され、端末装置１００と各種情報をやりとりする。

ＣＰＵ３０１は、フラッシュメモリ３０８に記憶された各プログラムを読み出して、ＲＡＭ３０７に展開して実行することで、各種の処理を行う。また、これらのプログラムは、コンピュータ３００を図１に示した表示制御部１７、取得部１８および比較部１９として機能させることができる。

なお、上記の音声入力支援プログラムは、必ずしもフラッシュメモリ３０８に記憶されている必要はない。例えば、コンピュータ３００が読み取り可能な記憶媒体に記憶されたプログラムを、コンピュータ３００が読み出して実行するようにしてもよい。コンピュータ３００が読み取り可能な記憶媒体は、例えば、ＣＤ−ＲＯＭやＤＶＤディスク、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にこの音声入力支援プログラムを記憶させておき、コンピュータ３００がこれらから音声入力支援プログラムを読み出して実行するようにしてもよい。

以上、本実施例を含む実施の形態に関し、さらに以下の付記を開示する。

（付記１）マイクにより収音された音情報を取得すると、複数の音声パターンを画像情報に対応付けて記憶する記憶部を参照して、端末の画面に表示された画像情報に対応付けられた音声パターンを取得し、
取得した前記音情報と、取得した前記音声パターンとを比較し、
比較結果を出力する、
処理をコンピュータに実行させることを特徴とする音声入力支援プログラム。

（付記２）マイクにより収音された音情報を取得すると、複数の音声パターンをアプリの種別に対応付けて記憶する記憶部を参照して、端末の画面に表示されたアプリの種別に対応付けられた音声パターンを取得し、
取得した前記音情報と、取得した前記音声パターンとを比較し、
比較結果を出力する、
処理をコンピュータに実行させることを特徴とする音声入力支援プログラム。

（付記３）さらに、複数の音声コマンドを音声パターンに対応付けて記憶する記憶部を参照して、前記複数の音声コマンドのうち、取得した前記音声パターンに対応付けられた音声コマンドを前記端末の画面に表示する、
ことを特徴とする付記１または２に記載の音声入力支援プログラム。

（付記４）前記複数の音声パターンおよび画像情報、または、前記複数の音声パターンおよびアプリの種別は、前記端末から取得して前記記憶部に記憶する、
ことを特徴とする付記１または２に記載の音声入力支援プログラム。

（付記５）マイクと、
ディスプレイと、
前記ディスプレイに表示される画像情報それぞれに対応付けて音声パターンを記憶する記憶部と、
前記マイクにより収音された音情報を取得すると、前記記憶部を参照して、前記ディスプレイに表示された画像情報に対応付けられた音声パターンを取得し、取得した前記音情報と、取得した前記音声パターンとの比較結果を出力する制御部と、
を備えるヘッドマウントディスプレイ。

（付記６）マイクにより収音された音情報を取得すると、複数の音声パターンを画像情報に対応付けて記憶する記憶部を参照して、端末の画面に表示された画像情報に対応付けられた音声パターンを取得し、
取得した前記音情報と、取得した前記音声パターンとを比較し、
比較結果を出力する、
処理をコンピュータが実行することを特徴とする音声入力支援方法。

（付記７）マイクにより収音された音情報を取得すると、複数の音声パターンをアプリの種別に対応付けて記憶する記憶部を参照して、端末の画面に表示されたアプリの種別に対応付けられた音声パターンを取得し、
取得した前記音情報と、取得した前記音声パターンとを比較し、
比較結果を出力する、
処理をコンピュータが実行することを特徴とする音声入力支援方法。

（付記８）さらに、複数の音声コマンドを音声パターンに対応付けて記憶する記憶部を参照して、前記複数の音声コマンドのうち、取得した前記音声パターンに対応付けられた音声コマンドを前記端末の画面に表示する、
ことを特徴とする付記６または７に記載の音声入力支援方法。

（付記９）前記複数の音声パターンおよび画像情報、または、前記複数の音声パターンおよびアプリの種別は、前記端末から取得して前記記憶部に記憶する、
ことを特徴とする付記６または７に記載の音声入力支援方法。

（付記１０）マイクにより収音された音情報を取得すると、複数の音声パターンを画像情報に対応付けて記憶する記憶部を参照して、端末の画面に表示された画像情報に対応付けられた音声パターンを取得する取得部と、
取得された前記音情報と、取得された前記音声パターンとを比較する比較部と、
比較結果を出力する出力制御部と、
を有することを特徴とする音声入力支援装置。

（付記１１）マイクにより収音された音情報を取得すると、複数の音声パターンをアプリの種別に対応付けて記憶する記憶部を参照して、端末の画面に表示されたアプリの種別に対応付けられた音声パターンを取得する取得部と、
取得された前記音情報と、取得された前記音声パターンとを比較する比較部と、
比較結果を出力する出力制御部と、
を有することを特徴とする音声入力支援装置。

（付記１２）さらに、複数の音声コマンドを音声パターンに対応付けて記憶する記憶部を参照して、前記複数の音声コマンドのうち、取得した前記音声パターンに対応付けられた音声コマンドを前記端末の画面に表示する表示制御部、
を有することを特徴とする付記１０または１１に記載の音声入力支援装置。

（付記１３）前記複数の音声パターンおよび画像情報、または、前記複数の音声パターンおよびアプリの種別は、前記端末から取得して前記記憶部に記憶する、
ことを特徴とする付記１０または１１に記載の音声入力支援装置。

１音声入力支援システム
１０ヘッドマウントディスプレイ
１１通信部
１２入力部
１３表示部
１４記憶部
１５フィルタリング情報記憶部
１６制御部
１７表示制御部
１８取得部
１９比較部
１００端末装置
１１０第１通信部
１１１第２通信部
１１２表示操作部
１２０記憶部
１２１フィルタリング情報記憶部
１２２音声コマンド記憶部
１３０制御部
１３１実行部
２００サーバ
Ｎネットワーク

Claims

マイクにより収音された音情報を取得すると、複数の音声パターンを画像情報に対応付けて記憶する記憶部を参照して、端末の画面に表示された画像情報に対応付けられた音声パターンを取得し、
取得した前記音情報と、取得した前記音声パターンとを比較し、
比較結果を出力する、
処理をコンピュータに実行させることを特徴とする音声入力支援プログラム。
マイクにより収音された音情報を取得すると、複数の音声パターンをアプリの種別に対応付けて記憶する記憶部を参照して、端末の画面に表示されたアプリの種別に対応付けられた音声パターンを取得し、
取得した前記音情報と、取得した前記音声パターンとを比較し、
比較結果を出力する、
処理をコンピュータに実行させることを特徴とする音声入力支援プログラム。
さらに、複数の音声コマンドを音声パターンに対応付けて記憶する記憶部を参照して、前記複数の音声コマンドのうち、取得した前記音声パターンに対応付けられた音声コマンドを前記端末の画面に表示する、
ことを特徴とする請求項１または２に記載の音声入力支援プログラム。
前記複数の音声パターンおよび画像情報、または、前記複数の音声パターンおよびアプリの種別は、前記端末から取得して前記記憶部に記憶する、
ことを特徴とする請求項１または２に記載の音声入力支援プログラム。
マイクと、
ディスプレイと、
前記ディスプレイに表示される画像情報それぞれに対応付けて音声パターンを記憶する記憶部と、
前記マイクにより収音された音情報を取得すると、前記記憶部を参照して、前記ディスプレイに表示された画像情報に対応付けられた音声パターンを取得し、取得した前記音情報と、取得した前記音声パターンとの比較結果を出力する制御部と、
を備えるヘッドマウントディスプレイ。
マイクにより収音された音情報を取得すると、複数の音声パターンを画像情報に対応付けて記憶する記憶部を参照して、端末の画面に表示された画像情報に対応付けられた音声パターンを取得し、
取得した前記音情報と、取得した前記音声パターンとを比較し、
比較結果を出力する、
処理をコンピュータが実行することを特徴とする音声入力支援方法。
マイクにより収音された音情報を取得すると、複数の音声パターンをアプリの種別に対応付けて記憶する記憶部を参照して、端末の画面に表示されたアプリの種別に対応付けられた音声パターンを取得し、
取得した前記音情報と、取得した前記音声パターンとを比較し、
比較結果を出力する、
処理をコンピュータが実行することを特徴とする音声入力支援方法。
マイクにより収音された音情報を取得すると、複数の音声パターンを画像情報に対応付けて記憶する記憶部を参照して、端末の画面に表示された画像情報に対応付けられた音声パターンを取得する取得部と、
取得された前記音情報と、取得された前記音声パターンとを比較する比較部と、
比較結果を出力する出力制御部と、
を有することを特徴とする音声入力支援装置。
マイクにより収音された音情報を取得すると、複数の音声パターンをアプリの種別に対応付けて記憶する記憶部を参照して、端末の画面に表示されたアプリの種別に対応付けられた音声パターンを取得する取得部と、
取得された前記音情報と、取得された前記音声パターンとを比較する比較部と、
比較結果を出力する出力制御部と、
を有することを特徴とする音声入力支援装置。