しかし、上述の特許文献1に開示された技術では、音声操作の対象となる電子機器に設けられた可動部や接続機器の状態情報が変更されると、音声認識の精度が低下するおそれがある。
以下、図面に基づいて各実施形態である音声認識装置と音声認識方法と音声認識プログラムと撮像装置が適用される撮像装置(対象機器、例えばデジタルカメラ)について説明する。なお、以下において、可動部は複数の部材(構成要素)から構成されるものであり、単体の部材(一つの構成要素)が可動部材とする。
(第1実施形態)
図1~図7を参照して、撮像装置1Aについて説明する。
撮像装置1Aの装置本体10A(本体、筐体)は、図1~図4に示すように、撮像光学系11(結像光学系)と、ファインダ12と、アイセンサ13と、マイクロフォン14(入力部、内蔵マイクロフォン)と、ディスプレイ15(表示部)と、を有する。装置本体10Aは、マイクロフォン14として、第1マイクロフォン14a(入力部)と、第2マイクロフォン14b(入力部)と、第3マイクロフォン14c(入力部)と、第4マイクロフォン14d(入力部)と、を有する。装置本体10Aの右側にはグリップ部100が一体に構成されている。更に、装置本体10Aは、操作部16として、電源スイッチ16aと、撮影モードダイヤル16bと、静止画/動画切り換えレバー16cと、シャッタボタン16dと、動画撮影ボタン16eと、等を有する。更にまた、装置本体10Aは、制御ユニット20を有する。更に、装置本体10Aは、図略の各種のアクチュエータ等を有する。なお、以下において、第1マイクロフォン14a~第4マイクロフォン14dを特に区別しない場合には「マイクロフォン14」とも記載する。
撮像光学系11は、レンズ11a等から構成されており、装置本体10Aの前面、かつ、グリップ部100の左側に配置されている。レンズ11aは、可動部であり、交換可能な交換式(交換レンズ)である。撮像光学系11は、レンズ11aとして、例えば、単焦点レンズ、電動ズームレンズ(ズームレンズ)、または、沈胴式レンズ等を含む。「沈胴式レンズ」とは、レンズの前後方向の長さを短く収納できるものであり、主にレンズの鏡筒部分を伸縮させることにより前後方向の長さを調整するものである。沈胴式レンズは、レンズが収納された収納状態では、撮影できない、または、撮影できるがピントを合わせることはできない。レンズ11aは、沈胴式レンズであり、かつ、電動ズームレンズの場合もある。レンズ11aは、図略のレンズ制御ユニットを有する。レンズ11aは、交換されると、レンズ制御ユニットと制御ユニット20との通信により、装置本体10Aに取り付けられたレンズ11aの状態情報(情報)を状態情報信号として装置本体10Aへ送信する。レンズ11aの状態情報とは、型番、種類、F値(絞り値)、ズームレンズの場合の焦点距離(ミリ)、沈胴式か否か等の製品情報である。なお、レンズ11aは、装置本体10Aに一体に設けられた可動部として、交換できないものであっても良い。撮像光学系11は、図略の撮像素子(例えばCMOSイメージセンサ)に被写体像を結像する。「CMOS」は「Complementary Metal Oxide Semiconductor」の略である。
ファインダ12は、例えば、装置本体10Aの後側、かつ、撮像光学系11とディスプレイ15よりも上側に配置されている。ファインダ12は、例えば公知の電子ビューファインダ(EVF)であり、ファインダ12内に設けられたファインダ用ディスプレイに表示される画像により被写体を確認するものである。なお、「EVF」は「Electronic View Finder」の略である。
アイセンサ13は、ユーザがファインダ12を覗いているか否かを検出するセンサである。アイセンサ13は、ファインダ12をユーザが覗く部分の周囲に配置されている。例えば、本実施形態ではアイセンサ13はファインダ12の上側に配置されている。ユーザがファインダ12を覗くと、アイセンサ13はユーザの眼がファインダ12に接している接眼状態を検出する。ユーザがファインダ12を覗いていないと、アイセンサ13はユーザの眼がファインダ12から離れている離眼状態を検出する。
マイクロフォン14は、撮像装置1Aの全方位(三次元)の音を再現するために、第1マイクロフォン14a~第4マイクロフォン14dを用いる。音響技術は、三次元サウンドフォーマットとしてAmbisonics(アンビソニックス)を適用する。三次元サウンドは、近年、VR(Virtual Reality)動画にて用いるような音の方向を自由に変えて再生する技術の総称であり、立体音響技術の一部である。Ambisonicsには、FOA(First Order Ambisonics)やHOA(High Order Ambisonics)等に分類されるフォーマットがある。FOAには、AmbiXやFuMa等がある。例えば、「AmbiX」とは、全方位の空間の音(詳細には音波の存在する空間(音場))を記録することにより、音の再生時に音源が存在する特定の方向の音を再現することができる技術である。また、全方位における特定の方向の音を強調または低減することができる。
第1マイクロフォン14a~第4マイクロフォン14dのそれぞれには、ユーザが発声する音声とユーザ周囲の環境音との両方の音が入力される。第1マイクロフォン14a~第4マイクロフォン14dのそれぞれは、音をアナログ信号の音アナログ信号へ変換する。マイクロフォン14の指向性は、例えば、全ての方向から同じ感度で音が入力される無指向性(全指向性)である。第1マイクロフォン14a~第4マイクロフォン14dのそれぞれのマイクロフォン感度は同一である。なお、第1マイクロフォン14a~第4マイクロフォン14dのそれぞれのマイクロフォン感度は異ならせても良く、感度の違いによる調整は、後述する音処理部23aや音声抽出部23b等により行えば良い。マイクロフォン感度は、ユーザが発声する音声の入力が可能な感度に設定される共に、撮像装置1Aを中心とした所定範囲の環境音の入力が可能な感度に設定される。
ここで、「環境音」とは、街の喧騒や自然の音等の日常的な音に加え、街で流れる音楽等も含む音である。環境音には、被写体が生き物である場合には、その生き物が発する音(例えば人間の音声や動物の鳴き声や虫の羽音等)も含む。
第1マイクロフォン14aは、装置本体10Aの後面、かつ、撮像光学系11とディスプレイ15よりも下側位置であって、ディスプレイ15よりも右側位置に配置されている。
第2マイクロフォン14bと第3マイクロフォン14cは同一平面上に配置されている。第2マイクロフォン14bと第3マイクロフォン14cは、装置本体10Aの上面、かつ、撮像光学系11の左右位置に一つずつ配置されている。
第4マイクロフォン14dは、装置本体10Aの後面かつ右端(グリップ部100側)に配置されている。第4マイクロフォン14dは、第1マイクロフォン14aと同一平面上に配置されている。
第1マイクロフォン14a~第4マイクロフォン14dの位置関係について説明する。第1マイクロフォン14a~第4マイクロフォン14dをそれぞれ点と仮定したときに、当該四つの点を線分で結ぶと三角錐を形成可能な位置に第1マイクロフォン14a~第4マイクロフォン14dは配置されている。
ディスプレイ15は、制御ユニット20から供給される画像を表示する。ディスプレイ15は、例えば液晶ディスプレイであり、タッチパネル機能を有している。ディスプレイ15は、装置本体10Aの後面に設けられている。ディスプレイ15には、撮影中の画像と、撮像装置1Aの機能メニュー画像と、撮像装置1Aの設定情報画像と、撮影された画像と、等を表示することができる。ディスプレイ15のタッチ操作により撮像装置1Aの各種機能の設定等を行うことができる。
操作部16は、撮影等に関するボタンやスイッチ等で構成されている。操作部16は、ディスプレイ15のタッチ操作により可能なものも含んでいる。電源スイッチ16aは、撮像装置1Aの電源のONとOFFを切り替える。撮影モードダイヤル16bは、撮影モードを変更する。なお、撮影モードには、各種設定を撮像装置1Aが自動で設定するオートモードと、ユーザが頻繁に使用する機能を事前に登録するユーザセッティングモードと、等が有る。静止画/動画切り換えレバー16cは、静止画撮影または動画撮影を切り替える。シャッタボタン16dは、半押しによりピントを合わせることができ、全押しにより静止画を撮影することができる。動画撮影ボタン16eは、動画の撮影前に押すと動画の撮影を開始し、動画の撮影中に押すと動画の撮影を終了する。
以下、図4を参照して、制御ユニット20のブロック構成について説明する。
制御ユニット20(コンピュータ)は、記憶部21と、状態取得部22(取得部)と、認識制御モジュール23(認識制御部)と、コマンド出力部24と、撮像部25と、通信部26と、ジャイロセンサ27(傾きセンサ)と、を有する。
制御ユニット20は、CPU等の演算素子を有し、記憶部21に格納されている図略の制御用プログラムが起動時に読み出されて制御ユニット20において実行される。これにより、制御ユニット20は、レンズ11aと、ファインダ12と、マイクロフォン14と、ディスプレイ15と、操作部16と、状態取得部22と、認識制御モジュール23と、コマンド出力部24と、撮像部25と、通信部26と、を含む撮像装置1A全体の制御を行う。制御ユニット20は、可動部と接続機器のうち少なくとも一方が設けられた撮像装置1Aを、ユーザが発声する音声の認識により操作する。言い換えると、制御ユニット20は、可動部と接続機器のうち少なくとも一方が設けられた撮像装置1Aを、入力された音声によって操作する。制御ユニット20には、レンズ11aの状態情報信号と、アイセンサ13の検出信号(検出結果)と、マイクロフォン14の音アナログ信号と、ジャイロセンサ27の角度信号(傾き情報)と、等の各種信号が入力される。制御ユニット20には、図略の入力インタフェースを介して、ディスプレイ15のタッチ操作による撮像装置1Aの各種機能の設定信号等と、操作部16からの各操作信号と、等の各種信号が入力される。制御ユニット20は、入力された各種信号に基づいて、撮像装置1A全体の制御を行う。なお、「CPU」は「Central Processing Unit」の略である。
例えば、制御ユニット20は、アイセンサ13の検出信号が接眼状態のとき、図略のディスプレイコントローラを介して、ディスプレイ15の電源を自動的に消すと共に、ファインダ用ディスプレイの電源を自動的に入れる。制御ユニット20は、アイセンサ13の検出信号が離眼状態のとき、図略のディスプレイコントローラを介して、ディスプレイ15の電源を自動的に入れると共に、ファインダ用ディスプレイの電源を自動的に消す。
記憶部21は、大容量記憶媒体(例えばフラッシュメモリやハードディスクドライブ等)およびROM、RAM等の半導体記憶媒体を備える。記憶部21には上述の制御用プログラムが格納されていると共に、制御ユニット20の制御動作時に必要とされる各種信号(各種センサ信号、状態情報信号等)や各種データが一時的に格納される。記憶部21のRAMには、マイクロフォン14より入力された未圧縮のRAW音声データ(生音声データ)が一時的に格納される。記憶部21には、撮像部25から出力される画像データや映像データ等の各種データも格納される。なお、「ROM」は「Read Only Memory」の略であり、「RAM」は「Random Access Memory」の略である。
状態取得部22は、各種信号を取得し、記憶部21と認識制御モジュール23へ出力する。本実施形態では、状態情報信号は、レンズ11aに関する状態情報の信号である。
認識制御モジュール23は、マイクロフォン14より入力された音アナログ信号の変換や、ユーザが発声する音声の認識や、認識されたテキスト信号(認識結果)の出力等の処理を行う。認識制御モジュール23は、テキスト信号をコマンド出力部24へ出力する。認識制御モジュール23の詳細は後述する。
コマンド出力部24は、認識制御モジュール23からのテキスト信号に従って動作信号(コマンド信号)の出力の処理を行う。コマンド出力部24の詳細は後述する。
撮像部25において、図略の撮像素子は撮像光学系11により結像する被写体像を撮像して画像信号を生成する。生成された画像信号に対して各種の画像処理(例えばノイズ除去処理や圧縮処理等)を施し、画像データ(静止画)を生成する。生成された画像データは記憶部21に格納される。動画撮影の場合には、連続した複数の画像データから映像データを生成し、生成された映像データは記憶部21に格納される。
通信部26は、有線または無線により外部機器と通信する。
ジャイロセンサ27は、装置本体10Aの傾きすなわち装置本体10Aの角度(姿勢)や角速度や角加速度を検出する公知のセンサである。
以下、図5を参照して、制御ユニット20と認識制御モジュール23のブロック構成について説明する。コマンド出力部24についても説明する。
認識制御モジュール23は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する(認識制御処理)。認識制御モジュール23は、音処理部23aと、音声抽出部23bと、音声認識部23c(認識部)と、を有する。音声認識部23cは、音響モデル設定部23dと、単語辞書設定部23eと、を有する。なお、図5に示す例では、本実施形態の撮像装置1Aは、レンズ11aと、マイクロフォン14と、制御ユニット20と、認識制御モジュール23と、を備える。制御ユニット20は、音声認識装置として機能する。制御用プログラムとして、各部22,23a~23e,24の処理を実行するためのプログラムが記憶部21に格納されている。制御ユニット20は、プログラムを読み出して、RAMにて実行することにより、各部22,23a~23e,24の処理を行う。
状態取得部22は、各種信号を取得し、記憶部21と認識制御モジュール23へ出力する。
音処理部23aは、マイクロフォン14より入力された音アナログ信号を、音デジタル信号(音デジタルデータ、音)への変換や音デジタル信号の公知のノイズ除去等の音処理を行う。音処理部23aは、音デジタル信号を音声抽出部23bへ出力する。音処理部23aは、以下の音処理を、マイクロフォン14に音(複数の音、複数の音声)が入力される間に繰り返し行う。なお、音処理は、第1マイクロフォン14a~第4マイクロフォン14dのそれぞれに入力された音について別々に行う。また、音デジタル信号は、第1マイクロフォン14a~第4マイクロフォン14dのそれぞれに入力された音が、音処理された信号を特に区別しない場合のことである。
まず、音処理部23aは、音アナログ信号を増幅する。音処理部23aは、プリアンプを用いて、音アナログ信号を増幅する。音処理部23aは、増幅した音アナログ信号をアナログ・デジタル・コンバータへ出力する。ここで、音アナログ信号を増幅する理由は、音アナログ信号が微弱だからである。増幅は、次のアナログ・デジタル・コンバータの受けられる電圧の幅に合わせることにより、SNRやダイナミックレンジを確保することができる。なお、「SNR」は、「S/N比(信号対雑音比)」のことである。
次いで、音処理部23aは、音デジタル信号に変換する。音処理部23aは、アナログ・デジタル・コンバータを用いて、音アナログ信号を音デジタル信号へ変換する。そして、音処理部23aは、音処理した音デジタル信号を音声抽出部23bへ出力する。なお、以下において、第1マイクロフォン14aに入力された音が、音処理された信号を「第1マイク音デジタル信号(第1マイク音デジタルデータ)」と記載する。第2マイクロフォン14bに入力された音が、音処理された信号を「第2マイク音デジタル信号(第2マイク音デジタルデータ)」と記載する。第3マイクロフォン14cに入力された音が、音処理された信号を「第3マイク音デジタル信号(第3マイク音デジタルデータ)」と記載する。第4マイクロフォン14dに入力された音が、音処理された信号を「第4マイク音デジタル信号(第4マイク音デジタルデータ)」と記載する。第1マイク音デジタル信号~第4マイク音デジタル信号を特に区別しない場合には「音デジタル信号」と記載する。
音声抽出部23bは、各種信号に基づいて、指向性を設定する。例えば、音声抽出部23bは、アイセンサ13から入力された信号が、接眼状態の場合、角度信号に基づいて、指向性を切り替える。具体的には、角度信号が横位置か縦位置かにより、指向性を切り替える。「横位置」とは、ファインダ12が撮像光学系11よりも上側にある状態位置である。「縦位置」とは、グリップ部100が撮像光学系11よりも上側または下側にある状態位置である。音声抽出部23bは、音処理部23aより入力された音デジタル信号から、音声デジタル信号(音声デジタルデータ、音声)を抽出する。音声抽出部23bは、抽出した音声デジタル信号を音声認識部23cへ出力する。音声抽出部23bは、以下の音声抽出処理を、音処理部23aから音デジタル信号が入力される間に繰り返し行う。
音声抽出部23bは、第1マイク音デジタル信号~第4マイク音デジタル信号により音声の位置(ユーザの口の位置)を推定して、その音声の位置に基づいて音デジタル信号から音声デジタル信号を抽出する(指向性制御による抽出)。これにより、音声認識が可能な音声デジタル信号を抽出することができる。
次いで、音声抽出部23bは、抽出した音声デジタル信号について、以下に説明する、DC成分のカット、周波数特性の調整、ボリュームの調整および風切り音の低減のノイズ除去の処理を行う。
次いで、音声抽出部23bは、音デジタル信号のDC成分(直流成分)をカットする。例えば、音声抽出部23bは、ハイ・パス・フィルタ(周波数帯域制限フィルタ)を用いて、DC成分をカットする。ここで、DC成分をカットしないと、音デジタル信号のバイアスにより、信号の振幅幅に制限ができてしまい、音割れやダイナミックレンジの悪化を伴うおそれがある。
次いで、音声抽出部23bは、音デジタル信号の周波数特性を調整する。例えば、音声抽出部23bは、バンド・パス・フィルタを用いて、音デジタル信号の周波数特性を調整する。周波数特性を調整する理由は、電気的なピークノイズの除去や音質調整のためである。なお、バンド・パス・フィルタを、イコライザやノッチフィルタ(バンド・ストップ・フィルタ)としても良い。
次いで、音声抽出部23bは、音デジタル信号のボリュームを調整する。例えば、音声抽出部23bは、ダイナミック・レンジ・コントロールやオート・ゲイン・コントロールを用いて、ボリュームが大きい音が入ったときには感度を下げ、小さい音が入ったときには感度を上げる、というボリューム処理を行う。なお、ボリュームの大小の判定は、予め実験やシミュレーション等に基づいて設定される。音声抽出部23bは、ノイズゲートを更に用いて、ノイズレベルの小さな音しか入っていないときにはさらに感度を下げ、ベースノイズを抑制しても良い。なお、ベースノイズは、暗騒音のことであり、例えば撮像装置1Aの駆動音等である。
次いで、音声抽出部23bは、音デジタル信号から風切り音を低減する。例えば、音声抽出部23bは、音デジタル信号を解析し、風の入力を識別判断して、音デジタル信号につき風切り音を低減する処理を行う。なお、DC成分のカット、周波数特性の調整、ボリュームの調整および風切り音の低減の順番は上述した順番に限られない。
そして、音声抽出部23bは、ノイズ除去した音声デジタル信号を音声認識部23cへ出力する。
音声認識部23cは、状態情報信号に基づいて、音声抽出部23bより入力された音声デジタル信号を認識するための制御内容を設定し、音声デジタル信号を認識する。音声認識部23cは、テキスト信号をコマンド出力部24へ出力する。音声認識部23cは、以下の音声認識処理(認識処理)を、状態情報信号と、音声抽出部23bから音声デジタル信号と、が入力される間に繰り返し行う。以下、音響モデル設定部23dと単語辞書設定部23eを説明する。
まず、音声認識部23cが有する音響モデル設定部23dは、各種信号に基づいて、記憶部21に格納されている複数の音響モデルから、音声認識に適した音響モデルを選択する。そして、音響モデル設定部23dは、選択した音響モデルを記憶部21から読み込み、音声認識のための音響モデルとして設定する。例えば、アイセンサ13の検出信号が接眼状態の場合、装置本体10Aに接してユーザが発声するため(マイクロフォン14とユーザの口の距離が数cm以内)、ユーザが発声する音声は囁き声になることが想定される。アイセンサ13の検出信号が離眼状態の場合、装置本体10Aから離れてユーザが発声するため(マイクロフォン14とユーザの口の距離が10cm以上)、ユーザが発声する音声は通常発声になることが想定される。このため、囁き声や通常発声等により発声された音声デジタル信号に合った音響モデルを設定する必要がある。また、音声が入力されたマイクロフォン14の特性に合った音響モデルを設定する必要がある。
ここで、「音響モデル」について説明する。音響モデルは、物理的な「音」を文字の最小単位の「音素」に変換するためのモデルである。音響モデルは、多数の話者から取得した不特定音声の教師データの特徴を学習したことにより作成される。教師データは、多数の話者から取得した不特定音声の音声データとラベルデータ(何の言葉が発声されたか)のセットである。音響モデルは、不特定音声の音声周波数特性に基づいて作成される。音声の周波数特性は、例えば囁き声や通常発声等の音声によって周波数特性が変化するため、複数の音響モデルが必要になる。同様の理由により、複数の教師データも必要になる。複数の音響モデルと複数の教師データは記憶部21に格納されている。なお、囁き声の周波数特性は、通常発声の周波数特性よりも低周波数(成分)が少ないという特徴がある。
また、通常発声と囁き声について説明する。「通常発声」とは、母音が有声音の音声のことである。「有声音」とは、ユーザが発声する音声のうち、ユーザの声帯の振動を伴う音である。「囁き声」とは、上記の通常発声の音声の少なくとも一部を無声化した音声である。「無声化」とは、母音または子音が無声音になることを指す。「無声音」とは、ユーザが発声する音声のうち、ユーザの声帯の振動を伴わない音である。ここで、「通常発声」と「囁き声」について一例を示す。なお、英語の大文字を有声音と仮定し、英語の小文字を無声音と仮定する。例えば、「動画」というワードを発声する場合について説明する。通常発声では「DOUGA」となる。囁き声では、「DouGa」や「tOUkA」のように有声音と無声音の混合の場合や、「touka」のように完全に無声化される場合がある。また、通常発声でも無声音を含む場合がある。例えば、「撮影」は、通常発声では「sAtUEI」となり、囁き声では「satuei」となる。このように、囁き声による「撮影」では、通常発声の音声の少なくとも一部を無声化した音声となる。
次いで、音声認識部23cは、音声デジタル信号を、音声認識エンジンにて「音素」に変換する。具体的には、音声認識部23cは、音響モデルを用いて、音声デジタル信号を音素に変換する。なお、音声認識エンジンは、入力された音声デジタル信号をテキスト化する。
次いで、音声認識部23cは、音素の並び順を、予め格納した単語辞書(発音辞書)と紐づけて、単語の候補を列挙する。単語辞書は、音響モデルにて変換された音素から単語へ紐づけるための辞書である。また、単語辞書は、予め記憶部21に格納されている。音声認識部23cが有する単語辞書設定部23eは、各種信号に基づいて、記憶部21に格納されている単語辞書の単語から、音声認識に適した単語を選択する。そして、単語辞書設定部23eは、選択した単語を記憶部21から読み込み、音声認識のための単語辞書の単語として設定する。ここで、単語辞書の「単語」とは、例えば、図6Aの「F値」で説明すると、一つの「F値」が一つの単語に相当する。具体例として、「F1.0」が一つの単語に相当する。
ここで、単語辞書設定部23eは、状態情報信号に基づいて、音声抽出部23bより入力された音声デジタル信号を認識するための制御内容を設定する。本実施形態では、状態情報信号は、レンズ11aの状態情報の信号である。レンズ11aの状態情報は、レンズ11aの交換により変更される。例えば、レンズ11aが電動ズームレンズから単焦点レンズに交換されると、レンズ11aの状態情報が変更される。そうすると、交換前後において、設定可能なF値、焦点距離の変更の有無の状態が変更される。つまり、レンズ11aの状態情報の変更は、マイクロフォン14に入力された音声の認識に対して影響を与える。このため、レンズ11aの状態情報の変更により、音声を認識するための制御内容を設定する必要がある。上記のように、レンズ11aの変更により、交換前後では設定可能なF値等の状態情報が変更される。本実施形態では、制御内容は、単語辞書の単語の設定である。そして、単語辞書設定部23eは、状態情報信号に基づいて、制御内容である単語辞書の単語を、レンズ11aの状態情報に対応する単語に設定する。言い換えると、単語辞書設定部23eは、状態情報信号に基づいて、レンズ11aが設定可能な範囲に単語辞書の単語を制限する。なお、レンズ11aの交換後において、撮像装置1Aの全体としても装置状態が変更されることになる。
例えば、レンズ11aが単焦点レンズの場合と電動ズームレンズとの場合では、設定可能なF値や焦点距離が異なる。単焦点レンズの場合にはF値は変更できるので、単語辞書設定部23eは、図6A,図6Bに示すように、単語辞書の単語を、装置本体10Aに取り付けられた単焦点レンズの状態情報に対応する単語に設定する。なお、図6A,図6Bの丸印の部分が、各レンズの設定可能な範囲である。なお、単焦点レンズの場合には焦点距離は変更できないので、単語辞書設定部23eは、焦点距離に関する単語が何も無い単語辞書に設定する。電動ズームレンズの場合にはF値も焦点距離も変更できるので、単語辞書設定部23eは、単語辞書の単語を、装置本体10Aに取り付けられた電動ズームレンズの状態情報に対応する単語に設定する。図6A,図6Bには一例として、電動ズームレンズAと電動ズームレンズBの設定可能な範囲を示している。また、沈胴式レンズの場合には収納状態では撮影ができないので、単語辞書設定部23eは、「撮影」の単語が無い単語辞書に設定する。なお、沈胴式レンズの種類によっては収納状態でも撮影できるがピントを合わせることはできないものもあるが、上記と同様に、単語辞書設定部23eは、「撮影」の単語が無い単語辞書に設定する。
次いで、音声認識部23cは、単語の候補を、言語モデルを用いて、単語の候補から正しい文章になる文章の候補を列挙する。なお、言語モデルは、単語の並びの確立情報モデルであり、言葉の並びを制限することにより単語の候補から正しい文章になる文章の候補の精度と速度を向上することができる。一例として、「わたし」「は」「げんき」「です」等である。また、言語モデルは、予め記憶部21に格納されている。
次いで、音声認識部23cは、文章の候補のうち、最も統計的評価値が高い文章を選択する。そして、音声認識部23cは、選択された文章(認識結果)をテキスト信号(テキストデータ)としてコマンド出力部24へ出力する。「統計的評価値」は、音声の認識時に認識結果の精度を示す評価値である。
なお、撮像装置1Aにおいて、音素から一つの単語が出力される場合には、文章の候補列挙と文章の選択を省略して、音素から出力された単語(認識結果)をテキスト信号(テキストデータ)としてコマンド出力部24へ出力しても良い。また、そもそも音処理された音デジタル信号に、環境音は含まれているが音声が含まれていない場合もある。音声認識部23cは、この場合、音声が認識されていない非該当認識結果を、文章や単語を含まない非テキスト信号(テキスト信号の一種)としてコマンド出力部24へ出力する。
コマンド出力部24は、音声認識部23cより入力されたテキスト信号に従って、動作信号(コマンド信号)を出力する。具体的には、コマンド出力部24は、以下のコマンド出力処理(出力処理)を、音声認識部23cからテキスト信号が入力される間に繰り返し行う。
まず、コマンド出力部24は、記憶部21に格納されている図7のコマンドリストを読み込む。次いで、コマンド出力部24は、テキスト信号が、読み込んだコマンドリストのワード欄に記載のワードと一致するか否かを判定(識別)する。コマンド出力部24は、ワードと一致する場合、コマンドリストの動作欄に記載の撮像装置1Aの動作を動作信号として撮像装置1A(例えば図略の各種のアクチュエータ等)へ出力して、処理を終了する。そして、図略の各種のアクチュエータ等は、入力された動作信号により動作する。一方、コマンド出力部24は、ワードと一致しない場合、何の動作信号も出力しないで、処理を終了する。ここで、アクチュエータ等の具体例を示す。例えば、オートフォーカス調整用のモータ、シャッタ操作用のモータ、レンズズームモータ等がある。アクチュエータの他には、撮像装置1Aの設定、メニュー検索による表示の変更、または、写真へのタグ等の情報付加等がある。写真へのタグとは、具体的に、撮った写真に音声でタグ(写真の表題や名前)を付けることである。
次に、既存の音声認識装置について説明する。
音声認識装置は、音声操作の対象となる電子機器(デジタルカメラ)の状態を示す情報を取得し、該情報に対応付けられた語句を候補語句として決定し、音声データから特定語句を検出する。特定語句が候補語句のいずれかの語句であることを特定し、該語句を認識語句と決定する。デジタルカメラの状態とは、撮影モード、表示モード、各種パラメータが設定されている状態、すなわち制御状態を示す。しかし、上記音声認識装置は、デジタルカメラに設けられた可動部の動作や接続機器により変更される状態情報に着目したものではない。このため、上記音声認識装置では、可動部の動作や接続機器により状態情報が変更されると、音声認識の精度が低下するおそれがある。
ここで、デジタルカメラにおいては、レンズ11a、ディスプレイ15、空冷ファン(17)等の可動部が比較的多く存在する。更に、デジタルカメラにおいては、外部マイクロフォン(19)、自撮り用グリップ、バッテリグリップ(バッテリパック)等の接続機器が比較的多く存在する。
そこで、出願人は、上記に示すように、状態情報の変更は、マイクロフォン14に入力された音声の認識に対して影響を与えることに着目し、ユーザが音声認識機能を利用する場合、状態情報に基づいて、音声認識の精度を向上する。
次に、第1実施形態の作用効果について説明する。
まず、撮像装置1Aの音声認識制御の作用効果を説明する。状態取得部22において、各種信号が入力されると、状態取得部22により各種信号が取得される(取得処理)。取得処理部と同時または取得処理部の前後に、音処理部23aにおいて、マイクロフォン14に音が入力されると、音処理部23aにより音アナログ信号が音デジタル信号へ変換される(音処理)。次いで、音声抽出部23bにおいて、各種信号と音デジタル信号が入力されると、音声抽出部23bにより、各種信号に基づいて指向性が設定され、音デジタル信号から音声デジタル信号が抽出される(音声抽出処理)。次いで、音声抽出部23bにより、抽出された音声デジタル信号についてノイズ除去の処理を行う(音声抽出処理)。
次いで、音声認識部23cにおいて、各種信号と音声デジタル信号が入力されると、音響モデル設定部23dにより、音響モデルが設定される(音声認識処理、音響モデル設定処理)。その後、単語辞書設定部23eにより、状態情報信号に基づいて、制御内容である単語辞書の単語が、状態情報信号に対応する単語に設定される(音声認識処理、単語設定処理)。続いて、音声認識部23cにより、文章または単語が認識される(音声認識処理)。次いで、コマンド出力部24において、認識結果であるテキスト信号が入力されると、コマンド出力部24によりテキスト信号に従って動作信号が出力される(コマンド出力処理)。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、ユーザが発声する音声を認識することができ、認識結果に従って動作信号を出力することができる。上記のように、認識制御モジュール23は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する処理を行う(認識制御処理)。
続いて、撮像装置1Aの作用効果を説明する。
本実施形態では、状態取得部22と、認識制御モジュール23と、コマンド出力部24と、を備えている。状態取得部22は、入力された音声によって操作される撮像装置1Aに設けられた可動部、及び、接続機器のうち少なくとも一方に関する状態情報信号を取得する。認識制御モジュール23は、状態取得部22により取得された状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する。コマンド出力部24は、認識制御モジュール23によるテキスト信号に従って撮像装置1Aを操作するための動作信号を撮像装置1Aに出力する。従って、状態情報信号に基づいて、音声認識の精度を向上することができる(認識精度向上作用)。言い換えると、状態情報信号を反映して、音声認識の精度を向上することができる。
本実施形態では、認識制御モジュール23(音声認識部23c、単語辞書設定部23e)は、状態取得部22により取得された状態情報信号に基づいて、制御内容である単語辞書の単語を、可動部および接続機器の少なくとも一方の状態情報信号に対応する単語に設定する。即ち、単語辞書の単語の設定により、音素から単語への紐づけ精度が向上する。このため、状態情報信号に対応する単語の設定により音声認識時に誤認識が抑制される。従って、単語の設定により、音声認識の精度を向上することができる(単語設定作用)。
本実施形態では、撮像装置1Aは、音声認識装置を備える。撮像装置1Aは撮像光学系11を備える。即ち、撮像装置1Aに音声を認識可能な機能を持たせることができる。従って、撮像装置1Aを音声により操作することができる(撮像装置操作作用)。
本実施形態では、撮像光学系11は、レンズ11aとして、単焦点レンズ、ズームレンズ、または、沈胴式レンズを含む。認識制御モジュール23(音声認識部23c、単語辞書設定部23e)は、状態取得部22により取得された状態情報信号に基づいて、制御内容である単語辞書の単語を、レンズ11aの状態情報信号に対応する単語に設定する。従って、音声認識時にレンズ11aの設定の誤認識を抑制することができるので、音声認識の精度を向上することができる(レンズ11aの単語設定作用)。
(第2実施形態)
次に、図8~図11を参照して、第2実施形態の撮像装置1Bについて説明する。なお、第1実施形態と同様の構成はその説明を省略または簡略化する。
撮像装置1Bの装置本体10B(本体、筐体)は、第1実施形態と同様に、撮像光学系11(結像光学系)と、ファインダ12と、アイセンサ13と、マイクロフォン14(入力部、内蔵マイクロフォン)と、ディスプレイ15(表示部、可動部)と、を有する(図1~図3,図8参照)。装置本体10Bの右側にはグリップ部100が一体に構成されている。更に、装置本体10Bは、制御ユニット20と、図略の各種のアクチュエータ等を有する。
ディスプレイ15は、図9A,図9Bに示すように、第1実施形態と異なり、画面角度を変更することが可能なバリアングル式である。ディスプレイ15は、図9Aに示すように、装置本体10Bの左側に開くことができる。そして、開いた状態で、図9Bのように回転させることが可能である。例えば、上下方向においてユーザの眼の位置よりも低い位置にある被写体を撮影するときには、図10Aに示すようにディスプレイ15の画面を上向きにする。これにより、ユーザは、ファインダ12を覗かずディスプレイ15を装置本体10Bの上方から見ればローアングル撮影を行うことができる。更に、上下方向においてユーザの眼の位置よりも高い位置にある被写体または人越しに被写体を撮影するときには、図10Bに示すようにディスプレイ15の画面を下向きにする。これにより、ユーザは、ファインダ12を覗かずディスプレイ15を装置本体10Bの下方から見ればハイアングル撮影を行うことができる。更にまた、自分の写真を撮影する(自撮り)ときには、図10Cに示すようにディスプレイ15の画面を装置本体10Bの前向きにする。これにより、ユーザは、ファインダ12を覗かずディスプレイ15に表示されるユーザ自身の位置を確認しながら、自撮りを行うことができる。
ディスプレイ15は、図8に示すように、画面角度センサ15aを有している。画面角度センサ15aは、ディスプレイ15の画面角度を検出するセンサである。画面角度センサ15aは、画面角度を検出すると、制御ユニット20との通信により、ディスプレイ15の状態情報を状態情報信号として制御ユニット20へ送信する。ディスプレイ15の状態情報とは、画面角度センサ15aにより検出された画面角度である。例えば、撮影時における装置本体10Bが図9A,図9Bと図10A~図10Cに示すように横位置の場合、ディスプレイ15の角度は以下のようにする。収納状態(図1参照)と、図9Aに示すようにディスプレイ15を左側に開いた状態と、はディスプレイ15の角度を「ゼロ」度とする。収納状態とは、ディスプレイ15を左側に開かず、ディスプレイ15が装置本体10Bに収納され、ユーザが画面を見られる状態である。ディスプレイ15が図10Cの状態は、ディスプレイ15の角度を180度とする。ディスプレイ15の角度が「ゼロ」度の状態で、図10Aに示すように画面が上向きになる状態をプラスの角度とし、図10Bに示すように画面が下向きになる状態をマイナスの角度とする。ディスプレイ15の他の構成は、第1実施形態のディスプレイ15と同様である。
以下、図8を参照して、制御ユニット20のブロック構成について説明する。
制御ユニット20には、第1実施形態と異なり、アイセンサ13の検出信号(検出結果)と、マイクロフォン14の音アナログ信号と、ディスプレイ15の状態情報信号(画面角度信号)と、ジャイロセンサ27の角度信号(傾き情報)と、等の各種信号が入力される。
状態取得部22は、各種信号を取得し、記憶部21と認識制御モジュール23へ出力する。本実施形態では、状態情報信号は、ディスプレイ15に関する状態情報の信号である。
以下、図11を参照して、制御ユニット20と認識制御モジュール23のブロック構成について説明する。
認識制御モジュール23は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する(認識制御処理)。認識制御モジュール23は、音処理部23aと、音声抽出部23bと、音声認識部23c(認識部)と、を有する。音声認識部23cは、音響モデル設定部23dと、単語辞書設定部23eと、を有する。なお、図11に示す例では、本実施形態の撮像装置1Bは、マイクロフォン14と、ディスプレイ15と、画面角度センサ15aと、制御ユニット20と、認識制御モジュール23と、を備える。制御ユニット20は、音声認識装置として機能する。なお、第2実施形態では、音声抽出部23bと、音声認識部23cと、について説明する。また、状態取得部22と、音処理部23aと、コマンド出力部24と、は第1実施形態と同様である。
音声抽出部23bは、各種信号に基づいて、指向性を設定する。音声抽出部23bは、音処理部23aより入力された音デジタル信号から、音声デジタル信号(音声デジタルデータ、音声)を抽出する。音声抽出部23bは、抽出した音声デジタル信号を音声認識部23cへ出力する。音声抽出部23bは、以下の音声抽出処理を、音処理部23aから音デジタル信号が入力される間に繰り返し行う。
ここで、音声抽出部23bは、状態情報信号に基づいて、音声デジタル信号を認識するための制御内容を設定する。本実施形態では、状態情報信号は、ディスプレイ15の状態情報の信号すなわち画面角度信号である。ディスプレイ15の状態情報は、ディスプレイ15の画面角度により変更される。例えば、図10A~図10Cに示すように、ディスプレイ15の画面が向いている方向にユーザの口があると推定される。例えば、図10Aの場合は、ユーザの口はディスプレイ15の画面に対して上側である。図10Bの場合は、ユーザの口はディスプレイ15の画面に対して下側である。図10Cの場合は、ユーザの口はディスプレイ15の画面に対して前側である。このように、ディスプレイ15の画面角度が変更されると、音声を発声するユーザの口の位置が変更されることになる。つまり、ディスプレイ15の状態情報の変更は、マイクロフォン14に入力された音声の認識に対して影響を与える。このため、ディスプレイ15の状態情報の変更により、音声を認識するための制御内容を設定する必要がある。上記のように、画面角度の変更により、ユーザの口の位置が変更される。これにより、音声が特定方向からマイクロフォン14に入力されるので、特定方向の音声の抽出が変更される。本実施形態では、制御内容は、音声のうち特定方向音声の抽出の設定(指向性制御の設定)である。そして、音声抽出部23bは、状態情報信号に基づいて、第1マイクロフォン14a~第4マイクロフォン14dのそれぞれに入力された音声から特定方向音声の抽出を設定する。「特定方向音声」は、特定方向の音声である。音声抽出部23bは、状態情報信号に基づいて、第1マイク音デジタル信号~第4マイク音デジタル信号の音声のうち特定方向音声の音声デジタル信号を抽出する。具体的には、音声抽出部23bは、第1マイクロフォン14a~第4マイクロフォン14dのそれぞれに入力された音声に対し、Ambixを適用し、全方位の空間の音声から特定方向音声を抽出する。
例えば、画面角度1度ごとに予め特定方向が設定されている。このため、音声抽出部23bは、状態情報信号に基づいて、特定方向音声の抽出を設定する。画面角度1度ごとの特定方向は、予め実験やシミュレーション等に基づいて、画面角度に対するユーザの口の位置が設定される。なお、画面角度に対するユーザの口の位置は推定位置である。これにより、音声認識が可能な音声デジタル信号を抽出することができる。図10A,図10Bを例として、特定方向音声の範囲について説明する。なお、図10A,図10Bでは、第3マイクロフォン14cと第4マイクロフォン14dを図示していないが、第3マイクロフォン14cと第4マイクロフォン14dに入力されたそれぞれの音についても音声デジタル信号の抽出に用いるものとする。音声抽出部23bは、図10Aの場合、ディスプレイ15の画面に対して上側を特定方向とし、空間221のように該特定方向の特定方向音声を全方位の空間の音声デジタル信号として抽出する。音声抽出部23bは、図10Bの場合、ディスプレイ15の画面に対して下側を特定方向とし、空間222のように該特定方向の特定方向音声を全方位の空間の音声デジタル信号として抽出する。
なお、音声抽出部23bは、抽出した特定方向音声の音声デジタル信号について、第1実施形態と同様に、ノイズ除去の処理を行う。
音声認識部23cは、状態情報信号に基づいて、音声抽出部23bより入力された音声デジタル信号を認識するための制御内容を設定し、音声デジタル信号を認識する。音声認識部23cは、テキスト信号をコマンド出力部24へ出力する。音声認識部23cは、以下の音声認識処理(認識処理)を、状態情報信号と、音声抽出部23bから音声デジタル信号と、が入力される間に繰り返し行う。以下、音響モデル設定部23dと単語辞書設定部23eを説明する。
まず、音響モデル設定部23dは、状態情報信号に基づいて、音声抽出部23bより入力された音声デジタル信号を認識するための制御内容を設定する。本実施形態では、状態情報信号は、画面角度信号である。上記の画面角度を例にすると、画面角度の変更により、音声が特定方向からマイクロフォン14に入力されるので、音声がディスプレイ15にぶつかることがある。そうすると、回折現象によって音声の周波数特性等が変化するので、音響モデルを変更する必要がある。また、画面角度によって音声が入力されにくいマイクロフォン14があるので、音響モデルを変更する必要がある。なお、画面角度に加え、ディスプレイ15の位置も変更されるので、画面角度とディスプレイ15の位置が、音声の周波数特性等に影響を与える。このため、ディスプレイ15の画面角度の変更により、音声を認識するための制御内容を設定する必要がある。本実施形態では、制御内容は、音響モデルの設定である。そして、音響モデル設定部23dは、状態情報信号に基づいて、音響モデルを設定する。
例えば、画面角度1度ごとに予め音響モデルが格納されている。このため、音響モデル設定部23dは、状態情報信号に基づいて、記憶部21に格納されている複数の音響モデルから、音声認識に適した音響モデルを選択する。そして、音響モデル設定部23dは、選択した音響モデルを記憶部21から読み込み、音声認識のための音響モデルとして設定する。画面角度1度ごとの音響モデルは、予め実験やシミュレーション等に基づいて、多数の話者から取得した不特定音声の教師データの特徴を学習したことにより作成される。図10A,図10Bを例として、音響モデルの設定を説明する。図10Aの場合、第1マイクロフォン14aに入力される音声は、ディスプレイ15により回折現象が起きた音声であると共に、ディスプレイ15により一部の音声が遮られた音声が入力される。ディスプレイ15により一部の音声が遮られた音声とは、音声が入力されにくいということである。このため、図10Aの場合、ディスプレイ15が収納状態(図1参照)の場合と比較して、音響モデルを変更する必要がある。図10Bの場合、第2マイクロフォン14bと第3マイクロフォン14cに入力される音声は、図10Aの場合と同様に、回折現象が起きた音声であると共に音声が入力されにくい。このため、図10Bの場合も、ディスプレイ15が収納状態(図1参照)の場合と比較して、音響モデルを変更する必要がある。なお、図10Aの場合と図10Bの場合では、上記の通りマイクロフォン14によって入力される音声の状態が異なるため、異なる音響モデルである。
次いで、音声認識部23cは、音声デジタル信号を、音声認識エンジンにて「音素」に変換する。音声認識部23cは、音素の並び順を、予め格納した単語辞書(発音辞書)と紐づけて、単語の候補を列挙する。単語辞書設定部23eは、各種信号に基づいて、記憶部21に格納されている単語辞書の単語から、音声認識に適した単語を選択する。そして、単語辞書設定部23eは、選択した単語を記憶部21から読み込み、音声認識のための単語辞書の単語として設定する。次いで、音声認識部23cは、単語の候補を、言語モデルを用いて、単語の候補から正しい文章になる文章の候補を列挙する。
次に、第2実施形態の作用効果について説明する。
まず、撮像装置1Bの音声認識制御の作用効果を説明する。状態取得部22において、各種信号が入力されると、状態取得部22により各種信号が取得される(取得処理)。取得処理部と同時または取得処理部の前後に、音処理部23aにおいて、マイクロフォン14に音が入力されると、音処理部23aにより音アナログ信号が音デジタル信号へ変換される(音処理)。次いで、音声抽出部23bにおいて、各種信号と音デジタル信号と状態情報信号が入力されると、音声抽出部23bにより、各種信号に基づいて指向性が設定される(音声抽出処理)。その後、音声抽出部23bにより、状態情報信号に基づいて特定方向音声の抽出が設定される(音声抽出処理、特定方向音声抽出設定処理)。続いて、音声抽出部23bにより、特定方向音声の音声デジタル信号が抽出される(音声抽出処理)。次いで、音声抽出部23bにより、抽出された音声デジタル信号についてノイズ除去の処理を行う(音声抽出処理)。
次いで、音声認識部23cにおいて、各種信号と音声デジタル信号が入力されると、音響モデル設定部23dにより、状態情報信号に基づいて音響モデルが設定される(音声認識処理、音響モデル設定処理)。その後、単語辞書設定部23eにより、単語辞書の単語が設定される(音声認識処理、単語設定処理)。続いて、音声認識部23cにより、文章または単語が認識される(音声認識処理)。次いで、コマンド出力部24において、認識結果であるテキスト信号が入力されると、コマンド出力部24によりテキスト信号に従って動作信号が出力される(コマンド出力処理)。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、ユーザが発声する音声を認識することができ、認識結果に従って動作信号を出力することができる。上記のように、認識制御モジュール23は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する処理を行う(認識制御処理)。
続いて、撮像装置1Bの作用効果を説明する。
本実施形態では、音声は、撮像装置1Bに設けられたマイクロフォン14から入力される。マイクロフォン14は、撮像装置1Bに四つ(第1マイクロフォン14a~第4マイクロフォン14d)以上複数設けられている。可動部は、画面角度を変更することが可能なディスプレイ15である。状態取得部22は、状態情報信号として、画面角度信号を取得する。認識制御モジュール23(音声抽出部23b)は、状態情報信号(画面角度信号)に基づいて、第1マイクロフォン14a~第4マイクロフォン14dにそれぞれ入力された音声から特定方向音声の抽出を設定する。認識制御モジュール23(音声認識部23c)は、特定方向音声を認識する。即ち、画面角度を考慮せずに単に抽出された音声よりも、特定方向音声は鮮明な音声である。また、全方位の空間の音から音声デジタル信号が抽出される。従って、特定方向音声の抽出の設定により、音声認識の精度を向上することができる(特定方向音声の抽出設定作用)。
本実施形態では、認識制御モジュール23(音声認識部23c、音響モデル設定部23d)は、状態取得部22により取得された状態情報信号(画面角度信号)に基づいて、音声を音素に変換する音響モデルを設定する。即ち、音響モデルの設定により、音声を音素に変換する精度が向上する。このため、音響モデルの設定により音声認識時に誤認識が抑制される。従って、音響モデルの設定により、音声認識の精度を向上することができる(音響モデル設定作用)。
なお、本実施形態では、第1実施形態と同様に、認識精度向上作用、撮像装置操作作用を奏する。
(第3実施形態)
次に、図12~図14を参照して、第3実施形態の撮像装置1Cについて説明する。なお、第1実施形態と同様の構成はその説明を省略または簡略化する。
撮像装置1Cの装置本体10C(本体、筐体)は、第1実施形態と同様に、撮像光学系11(結像光学系)と、ファインダ12と、アイセンサ13と、マイクロフォン14(入力部、内蔵マイクロフォン)と、ディスプレイ15(表示部)と、を有する(図1~図3,図12,図13参照)。更に、装置本体10Cは、空冷ファン17(可動部)を有する。装置本体10Cの右側にはグリップ部100が一体に構成されている。更に、装置本体10Cは、制御ユニット20と、図略の各種のアクチュエータ等を有する。
空冷ファン17は、撮像装置1Cを冷却するファンである。空冷ファン17は、図12に示すように、例えば、装置本体10Cの左側に配置され、装置本体10Cに一体に設けられている。空冷ファン17の図略の吸気口は左側面かつ下側である。空冷ファン17の図略の排気口は左側面かつ吸気口の上側である。なお、空冷ファン17は、接続機器として装置本体10Cに別体に設けられ、撮像装置1Cに接続されても良い。
以下、図13を参照して、制御ユニット20のブロック構成について説明する。
制御ユニット20は、第1実施形態の構成に加え、空冷ファン17の制御を行う。制御ユニット20は、例えば図略の装置温度センサの装置温度に基づいて、空冷ファン17のファン駆動量すなわちファン回転数を制御する。なお、装置温度に対する空冷ファン17の回転数は、予め実験やシミュレーション等に基づいて設定される。
記憶部21には、空冷ファン17の吸気口と排気口のそれぞれと、第1マイクロフォン14a~第4マイクロフォン14dのそれぞれと、のファン距離が格納されている。四つのマイクロフォン14のうち第2マイクロフォン14bは、吸気口と排気口の両方(空冷ファン17)から最も近い位置である。四つのマイクロフォン14のうち第4マイクロフォン14dは、吸気口と排気口の両方(空冷ファン17)から最も遠い位置である。記憶部21には、装置温度に対する空冷ファン17の回転数が格納されている。
記憶部21には、第1マイクロフォン14a~第4マイクロフォン14dのそれぞれの状態情報が格納されている。マイクロフォン14の状態情報とは、型番、種類、周波数特性、応答特性等の製品情報である。
状態取得部22は、各種信号を取得し、記憶部21と認識制御モジュール23へ出力する。本実施形態では、状態情報信号は、空冷ファン17に関する状態情報の信号とマイクロフォン14に関する状態情報の信号である。空冷ファン17の状態情報は、空冷ファン17の駆動の有無(例えばファン回転数や空冷ファン17の駆動情報)とファン距離である。空冷ファン17の駆動の有無は、制御ユニット20から取得する。
以下、図14を参照して、制御ユニット20と認識制御モジュール23のブロック構成について説明する。
認識制御モジュール23は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する(認識制御処理)。認識制御モジュール23は、音処理部23aと、音声抽出部23bと、音声認識部23c(認識部)と、マイク設定部23fと、を有する。音声認識部23cは、音響モデル設定部23dと、単語辞書設定部23eと、を有する。なお、図14に示す例では、本実施形態の撮像装置1Cは、マイクロフォン14と、空冷ファン17と、制御ユニット20と、認識制御モジュール23と、を備える。制御ユニット20は、音声認識装置として機能する。制御用プログラムとして、各部22,23a~23f,24の処理を実行するためのプログラムが記憶部21に格納されている。制御ユニット20は、プログラムを読み出して、RAMにて実行することにより、各部22,23a~23f,24の処理を行う。なお、第3実施形態では、マイク設定部23fと、音声抽出部23bと、音声認識部23cと、について説明する。また、状態取得部22と、音処理部23aと、コマンド出力部24と、は第1実施形態と同様である。
マイク設定部23fは、各種信号に基づいて、第1マイクロフォン14a~第4マイクロフォン14dのうち音声認識用に使用する一つのマイクロフォンを設定する。マイク設定部23fは、以下のマイク設定処理を各種信号が入力される間に繰り返し行う。
ここで、マイク設定部23fは、状態情報信号に基づいて、音声デジタル信号を認識するための制御内容を設定する。本実施形態では、状態情報信号は、空冷ファン17の状態情報の信号である。空冷ファン17が駆動しているとき、マイクロフォン14にはファン回転によるノイズが混入する。ノイズの源である空冷ファン17に距離が近いほど、マイクロフォン14に混入するノイズ量が多くなるので、第1実施形態と同様に音声デジタル信号を抽出すると、ノイズ量の混入が比較的多くなることがある。このため、空冷ファン17が駆動しているとき、第1マイクロフォン14a~第4マイクロフォン14dのうち音声認識用に使用する一つのマイクロフォンを設定する。つまり、空冷ファン17の状態情報の変更は、マイクロフォン14に入力された音声の認識に対して影響を与える。このため、空冷ファン17の状態情報の変更により、音声を認識するための制御内容を設定する必要がある。上記のように、空冷ファン17が駆動しているとき、第1マイクロフォン14a~第4マイクロフォン14dのうち音声認識用に使用する一つのマイクロフォンを設定する。
本実施形態では、制御内容は、マイクロフォン14の設定である。そして、マイク設定部23fは、状態情報信号に基づいて、空冷ファン17から最も遠い位置に配置された一つのマイクロフォンを音声認識用に設定する。例えば、本実施形態では、マイク設定部23fは、空冷ファン17が駆動しているとき、第4マイクロフォン14dが空冷ファン17から最も遠い位置に配置されているため、音声認識用に設定する。マイク設定部23fは、音声認識用に設定した一つのマイクロフォンの情報を、マイクロフォン情報信号(状態情報信号)として音声抽出部23bと音声認識部23cへ出力する。空冷ファン17が駆動していないときは、マイク設定部23fは、第1マイクロフォン14a~第4マイクロフォン14dのうち一つのマイクロフォンを音声認識用に設定しない。マイク設定部23fは、音声認識用に設定しない場合でも、設定していない情報を、マイクロフォン情報信号として音声抽出部23bと音声認識部23cへ出力する。
音声抽出部23bは、各種信号に基づいて、指向性を設定する。音声抽出部23bは、音処理部23aより入力された音デジタル信号とマイク設定部23fから入力されたマイクロフォン情報信号に基づいて、音声デジタル信号(音声デジタルデータ、音声)を抽出する。音声抽出部23bは、抽出した音声デジタル信号を音声認識部23cへ出力する。音声抽出部23bは、以下の音声抽出処理を、音デジタル信号とマイクロフォン情報信号が入力される間に繰り返し行う。
音声抽出部23bは、マイクロフォン情報信号が「設定していない情報」の場合、第1実施形態と同様に、音デジタル信号から音声デジタル信号を抽出する。音声抽出部23bは、マイクロフォン情報信号が「音声認識用に設定した一つのマイクロフォンの情報」の場合、第4マイク音デジタル信号を音声デジタル信号として抽出する。なお、音声抽出部23bは、抽出した音声デジタル信号について、第1実施形態と同様に、ノイズ除去の処理を行う。
音声認識部23cは、状態情報信号に基づいて、音声抽出部23bより入力された音声デジタル信号を認識するための制御内容を設定し、音声デジタル信号を認識する。音声認識部23cは、マイク設定部23fから入力されたマイクロフォン情報信号に基づいて、音声抽出部23bより入力された音声デジタル信号を認識する。音声認識部23cは、テキスト信号をコマンド出力部24へ出力する。音声認識部23cは、以下の音声認識処理(認識処理)を、状態情報信号とマイクロフォン情報信号と音声デジタル信号が入力される間に繰り返し行う。以下、音響モデル設定部23dと単語辞書設定部23eを説明する。
まず、音響モデル設定部23dは、状態情報信号に基づいて、音声抽出部23bより入力された音声デジタル信号を認識するための制御内容を設定する。本実施形態では、状態情報信号は、マイクロフォン情報信号とマイクロフォン14の状態情報信号である。音響モデル設定部23dは、マイクロフォン情報信号が「設定していない情報」の場合、第1実施形態と同様に、音響モデルを設定する。音響モデル設定部23dは、マイクロフォン情報信号が「音声認識用に設定した一つのマイクロフォンの情報」の場合、第4マイクロフォン14dの状態情報信号に基づいて、第4マイクロフォン14dの特性に合った音響モデルを、記憶部21に格納されている複数の音響モデルから選択する。そして、音響モデル設定部23dは、選択した音響モデルを記憶部21から読み込み、音声認識のための音響モデルとして設定する。
ここで、マイクロフォン14から一つのマイクロフォンを音声認識用に設定することにより、その音声認識用のマイクロフォンの周波数特性や応答特性により、入力される音声の周波数特性が変化する。つまり、マイクロフォン14の状態情報の変更(音声認識用のマイクロフォン14の変更)は、マイクロフォン14に入力された音声の認識に対して影響を与える。このため、マイクロフォン14の状態情報の変更により、音声を認識するための制御内容を設定する必要がある。本実施形態では、制御内容は、音響モデルの設定である。そして、上記の通り、音響モデル設定部23dは、マイクロフォン情報信号とマイクロフォン14の状態情報信号に基づいて、第4マイクロフォン14dの特性に合った音響モデルを、記憶部21に格納されている複数の音響モデルから選択する。
なお、音響モデルの設定は、以下を加味しても良い。空冷ファン17のファン回転によるノイズは、空冷ファン17の位置と音声認識用のマイクロフォンの位置との位置関係により、空気の伝搬経路が変化する。具体的には、空冷ファン17の位置と音声認識用のマイクロフォンの位置とのファン距離により、ファン回転によるノイズの特性(回転数による音圧や周波数特性)が異なる。つまり、空冷ファン17の位置と音声認識用のマイクロフォンの位置とのファン距離は、マイクロフォン14に入力された音声の認識に対して影響を与える。このため、マイクロフォン14の状態情報と空冷ファン17の状態情報との変更により、音声を認識するための制御内容を設定する必要がある。そして、音響モデル設定部23dは、マイクロフォン情報信号とマイクロフォン14の状態情報信号と空冷ファン17の状態情報とノイズの特性に基づいて、第4マイクロフォン14dの特性に合った音響モデルを、記憶部21に格納されている複数の音響モデルから選択する。ノイズの特性を加味した音響モデルは、予め実験やシミュレーション等に基づいて、多数の話者から取得した不特定音声の教師データの特徴を学習したことにより作成される。
次いで、音声認識部23cは、音声デジタル信号を、音声認識エンジンにて「音素」に変換する。音声認識部23cは、音素の並び順を、予め格納した単語辞書(発音辞書)と紐づけて、単語の候補を列挙する。単語辞書設定部23eは、各種信号に基づいて、記憶部21に格納されている単語辞書の単語から、音声認識に適した単語を選択する。そして、単語辞書設定部23eは、選択した単語を記憶部21から読み込み、音声認識のための単語辞書の単語として設定する。次いで、音声認識部23cは、単語の候補を、言語モデルを用いて、単語の候補から正しい文章になる文章の候補を列挙する。
次に、音声認識と空冷ファンについて説明する。
近年、撮像素子の大型化による電圧の上昇や、デジタルカメラ内にて人工知能(Artificial Intelligence)処理の実行等により、以前よりもデジタルカメラ内における温度が上昇傾向にある。このため、デジタルカメラに空冷ファンが一体に設けられることがある。また、以前より、デジタルカメラに空冷ファンが一体に設けられる場合であっても、以前よりも大型の空冷ファンに変更されることもある。更に、以前より、デジタルカメラの長時間露光によってデジタルカメラ内の温度が上昇することが知られている。このため、デジタルカメラに空冷ファンが接続機器として別体に設けられることもある。このように、以前に比べて、デジタルカメラに空冷ファンが設けられるシーンが多くなってきているし、空冷ファンが大型化することもある。
そこで、出願人は、音声認識時における空冷ファンの影響に着目する。
次に、第3実施形態の作用効果について説明する。
まず、撮像装置1Cの音声認識制御の作用効果を説明する。状態取得部22において、各種信号が入力されると、状態取得部22により各種信号が取得される(取得処理)。取得処理部と同時または取得処理部の前後に、音処理部23aにおいて、マイクロフォン14に音が入力されると、音処理部23aにより音アナログ信号が音デジタル信号へ変換される(音処理)。次いで、マイク設定部23fにおいて、各種信号が入力されると、マイク設定部23fにより、状態情報信号に基づいて音声認識用のマイクロフォン14が設定される(マイク設定処理)。次いで、音声抽出部23bにおいて、各種信号と音デジタル信号とマイクロフォン情報信号が入力されると、音声抽出部23bにより、各種信号に基づいて指向性が設定される(音声抽出処理)。その後、音声抽出部23bにより、マイクロフォン情報信号に基づいて、第1実施形態と同様に、音デジタル信号から音声デジタル信号が抽出される(音声抽出処理)。または、音声抽出部23bにより、マイクロフォン情報信号に基づいて第4マイク音デジタル信号が音声デジタル信号として抽出される(音声抽出処理)。次いで、音声抽出部23bにより、抽出された音声デジタル信号についてノイズ除去の処理を行う(音声抽出処理)。
次いで、音声認識部23cにおいて、各種信号が入力されると、音響モデル設定部23dにより、マイクロフォン情報信号と状態情報信号に基づいて音響モデルが設定される(音声認識処理、音響モデル設定処理)。その後、単語辞書設定部23eにより、単語辞書の単語が設定される(音声認識処理、単語設定処理)。続いて、音声認識部23cにより、文章または単語が認識される(音声認識処理)。次いで、コマンド出力部24において、認識結果であるテキスト信号が入力されると、コマンド出力部24によりテキスト信号に従って動作信号が出力される(コマンド出力処理)。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、ユーザが発声する音声を認識することができ、認識結果に従って動作信号を出力することができる。上記のように、認識制御モジュール23は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する処理を行う(認識制御処理)。
続いて、撮像装置1Cの作用効果を説明する。
本実施形態では、音声は、撮像装置1Cに設けられたマイクロフォン14から入力される。マイクロフォン14は、撮像装置1Cに複数(第1マイクロフォン14a~第4マイクロフォン14d)設けられている。可動部または接続機器は、撮像装置1Cを冷却する空冷ファン17である。状態取得部22は、空冷ファン17の状態情報信号を取得する。認識制御モジュール23(マイク設定部23f)は、状態取得部22により取得された空冷ファン17の状態情報信号に基づいて、第1マイクロフォン14a~第4マイクロフォン14dのうち音声認識用に使用する一つのマイクロフォンを設定する。本実施形態では、認識制御モジュール23(マイク設定部23f)は、状態取得部22により取得された空冷ファン17の状態情報信号に基づいて、空冷ファン17から最も遠い位置に配置された第4マイクロフォン14dを音声認識用に設定する。即ち、空冷ファン17が駆動しているとき、ノイズ量の混入が比較的多くなることがあるので、マイク設定部23fにより、空冷ファン17から最も遠い位置に配置された第4マイクロフォン14dが音声認識用に設定される。そして、第1実施形態のように指向性制御による音声デジタル信号よりも、音声デジタル信号として抽出した第4マイク音デジタル信号はノイズ量の混入が少ない鮮明な音声である。従って、マイクロフォン14の設定により、音声認識の精度を向上することができる(空冷ファンによる音声認識用マイク設定作用)。
本実施形態では、認識制御モジュール23(音声認識部23c、音響モデル設定部23d)は、状態取得部22により取得された状態情報信号(マイクロフォン情報信号、マイクロフォン14の状態情報信号)に基づいて、音声を音素に変換する音響モデルを設定する。即ち、音響モデルの設定により、音声を音素に変換する精度が向上する。このため、音響モデルの設定により音声認識時に誤認識が抑制される。従って、音響モデルの設定により、音声認識の精度を向上することができる(音響モデル設定作用)。
なお、本実施形態では、第1実施形態と同様に、認識精度向上作用、撮像装置操作作用を奏する。
次に、図15を参照して、第3実施形態の別の形態(変形例3-1)を示す。なお、第3実施形態と同様の構成はその説明を省略または簡略化する。なお、本変形例では、マイク設定部23fは有さない。
以下、図15を参照して、制御ユニット20と認識制御モジュール23のブロック構成について説明する。
認識制御モジュール23は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する(認識制御処理)。認識制御モジュール23は、音処理部23aと、音声抽出部23bと、音声認識部23c(認識部)と、プルーニング閾値設定部23gと、を有する。音声認識部23cは、音響モデル設定部23dと、単語辞書設定部23eと、を有する。なお、図15に示す例では、本実施形態の撮像装置1Cは、マイクロフォン14と、空冷ファン17と、制御ユニット20と、認識制御モジュール23と、を備える。制御ユニット20は、音声認識装置として機能する。制御用プログラムとして、各部22,23a~23e、23g,24の処理を実行するためのプログラムが記憶部21に格納されている。制御ユニット20は、プログラムを読み出して、RAMにて実行することにより、各部22,23a~23e、23g,24の処理を行う。なお、本変形例では、状態取得部22と、音処理部23aと、音声抽出部23bと、音声認識部23cと、について説明する。また、コマンド出力部24は第3実施形態と同様である。
状態取得部22は、各種信号を取得し、記憶部21と認識制御モジュール23へ出力する。本変形例では、状態情報信号は、空冷ファン17に関する状態情報の信号である。空冷ファン17の状態情報は、空冷ファン17のファン回転数である。ファン回転数は、制御ユニット20から取得する。言い換えると、ファン回転数を制御する制御ユニット20から直接取得する。
音処理部23aは、音デジタル信号を、音声抽出部23bとプルーニング閾値設定部23gへ出力する点で第3実施形態と相違するが、その他は第3実施形態と同様である。
音声抽出部23bは、第1実施形態と同様に、第1マイク音デジタル信号~第4マイク音デジタル信号により音声の位置(ユーザの口の位置)を推定して、その音声の位置に基づいて音デジタル信号から音声デジタル信号を抽出する(指向性制御による抽出)。これにより、音声認識が可能な音声デジタル信号を抽出することができる。
プルーニング閾値設定部23gは、各種信号に基づいて、自動的にプルーニング閾値を設定する。プルーニング閾値設定部23gは、以下のプルーニング閾値設定処理を、音処理部23aから音デジタル信号と各種信号が入力される間に繰り返し行う。
ここで、プルーニング閾値について説明する。前提として、音声認識処理では、音声を音素に変換する過程にて仮説の演算が行われる。当該仮説の演算の際に、処理を高速化するために、仮説処理を間引くプルーニング(剪定、枝刈り:pruning)の処理が行われる。つまり、プルーニング閾値とは、音声認識部23cにおける音声認識時の仮説処理を間引く閾値である。プルーニングが厳しい(プルーニング閾値が小さい)と処理は高速になり、プルーニングが緩い(プルーニング閾値が大きい)と処理は低速になる。また、プルーニングが厳しすぎると、正解の仮説処理まで間引いてしまい、音声認識性能が低下する。ファン回転数が比較的小さい場合に、プルーニングが緩いと、不要な仮説の演算が行われることになる。このため、プルーニング閾値は、ファン回転数の大小に基づいて適切に設定する。
プルーニング閾値設定部23gは、状態情報信号に基づいて、音声デジタル信号を認識するための制御内容を設定する。本実施形態では、状態情報信号は、ファン回転数信号である。空冷ファン17のファン回転数が大きくなるほど、マイクロフォン14に混入するファン回転数によるノイズ量が多くなる。このため、第1実施形態と同様に音声デジタル信号を抽出すると、ノイズ量の混入が比較的多くなることがある。このため、ファン回転数が変化すると、プルーニング閾値を変更する。言い換えると、プルーニング閾値設定部23gは、ファン回転数に基づいて、プルーニング閾値を設定する。つまり、空冷ファン17の状態情報の変更は、マイクロフォン14に入力された音声の認識に対して影響を与える。このため、空冷ファン17の状態情報の変更により、音声を認識するための制御内容を設定する必要がある。上記のように、ファン回転数に基づいて、プルーニング閾値を設定する。本実施形態では、制御内容は、プルーニング閾値の設定である。そして、プルーニング閾値設定部23gは、状態情報信号に基づいて、プルーニング閾値を設定する。
例えば、プルーニング閾値設定部23gは、ファン回転数に基づいて、プルーニング閾値を設定する。即ち、プルーニング閾値設定部23gは、ファン回転数の数値が大きいほどプルーニング閾値を大きく設定する。一方、プルーニング閾値設定部23gはファン回転数が小さいほど、プルーニング閾値を小さく設定する。そして、プルーニング閾値設定部23gは、設定したプルーニング閾値をプルーニング閾値信号として音声認識部23cへ出力する。ファン回転数ごとのプルーニング閾値は、予め実験やシミュレーション等に基づいて設定される。
なお、プルーニング閾値は、以下を加味しても良い。空冷ファン17のファン回転によるノイズは、空冷ファン17の位置と音声認識用のマイクロフォンの位置との位置関係により、空気の伝搬経路が変化する。具体的には、空冷ファン17の位置と音声認識用のマイクロフォンの位置とのファン距離により、ファン回転によるノイズの特性(回転数による音圧や周波数特性)が異なる。つまり、空冷ファン17の位置と音声認識用のマイクロフォンの位置とのファン距離は、マイクロフォン14に入力された音声の認識に対して影響を与える。このため、マイクロフォン14の状態情報と空冷ファン17の状態情報との変更により、音声を認識するための制御内容を設定する必要があるので、プルーニング閾値を変更する。ここでは、状態情報に、ファン距離を含む。そして、プルーニング閾値設定部23gは、マイクロフォン14の状態情報信号と空冷ファン17の状態情報とノイズの特性に基づいて、プルーニング閾値を設定する。ファン回転数ごとのプルーニング閾値に、ノイズの特性を加味したプルーニング閾値は、予め実験やシミュレーション等に基づいて設定される。
音声認識部23cは、状態情報信号に基づいて、音声抽出部23bより入力された音声デジタル信号を認識するための制御内容を設定し、音声デジタル信号を認識する。音声認識部23cは、プルーニング閾値設定部23gから入力されたプルーニング閾値信号に基づいて、音声認識の際のプルーニング閾値を設定する。音声認識部23cは、設定したプルーニング閾値によって、音声抽出部23bより入力された音声デジタル信号を認識する。音声認識部23cは、テキスト信号をコマンド出力部24へ出力する。音声認識部23cは、以下の音声認識処理(認識処理)を、状態情報信号とプルーニング閾値信号と音声デジタル信号が入力される間に繰り返し行う。以下、音響モデル設定部23dと単語辞書設定部23eを説明する。
まず、音響モデル設定部23dは、状態情報信号に基づいて、音声抽出部23bより入力された音声デジタル信号を認識するための制御内容を設定する。本変形例では、状態情報信号は、ファン回転数信号である。上記のファン回転数を例にすると、ファン回転数により、SNRや雑音レベルが異なる。このため、SNRが変化すると、音響モデルを変更する必要がある。つまり、SNRの変化により、音声を認識するための制御内容を設定する必要がある。本実施形態では、制御内容は、音響モデルの設定である。そして、音響モデル設定部23dは、状態情報信号に基づいて、音響モデルを設定する。
例えば、ファン回転数によるSNRに基づいて、予め音響モデルが設定されている。このため、音響モデル設定部23dは、状態情報信号に基づいて、記憶部21に格納されている複数の音響モデルから、音声認識に適した音響モデルを選択する。そして、音響モデル設定部23dは、選択した音響モデルを記憶部21から読み込み、音声認識のための音響モデルとして設定する。SNRの異なる複数の音響モデルは、予め実験やシミュレーション等に基づいて、SNRの異なる状態にて多数の話者から取得した不特定音声の教師データの特徴を学習したことにより作成される。
次いで、音声認識部23cは、音声デジタル信号を、音声認識エンジンにて「音素」に変換する。音声認識部23cは、音素の並び順を、予め格納した単語辞書(発音辞書)と紐づけて、単語の候補を列挙する。単語辞書設定部23eは、各種信号に基づいて、記憶部21に格納されている単語辞書の単語から、音声認識に適した単語を選択する。そして、単語辞書設定部23eは、選択した単語を記憶部21から読み込み、音声認識のための単語辞書の単語として設定する。次いで、音声認識部23cは、プルーニング閾値信号に基づいて、音声認識の際のプルーニング閾値を設定する。次いで、音声認識部23cは、単語の候補を、言語モデルを用いて、単語の候補から正しい文章になる文章の候補を列挙する。
次に、変形例(3-1)の作用効果について説明する。
まず、本変形例の撮像装置1Cの音声認識制御の作用効果を説明する。状態取得部22において、各種信号が入力されると、状態取得部22により各種信号が取得される(取得処理)。取得処理部と同時または取得処理部の前後に、音処理部23aにおいて、マイクロフォン14に音が入力されると、音処理部23aにより音アナログ信号が音デジタル信号へ変換される(音処理)。次いで、音声抽出部23bにおいて、各種信号と音デジタル信号が入力されると、音声抽出部23bにより、各種信号に基づいて指向性が設定され、音デジタル信号から音声デジタル信号が抽出される(音声抽出処理)。次いで、音声抽出部23bにより、抽出された音声デジタル信号についてノイズ除去の処理を行う(音声抽出処理)。
次いで、プルーニング閾値設定部23gにおいて、各種信号が入力されると、プルーニング閾値設定部23gにより、状態情報信号に基づいてプルーニング閾値が設定される(プルーニング閾値設定処理)。次いで、音声認識部23cにおいて、各種信号と音声デジタル信号とプルーニング閾値信号が入力されると、音響モデル設定部23dにより、状態情報信号に基づいて音響モデルが設定される(音声認識処理、音響モデル設定処理)。その後、単語辞書設定部23eにより、単語辞書の単語が設定される(音声認識処理、単語設定処理)。次いで、音声認識部23cにより、プルーニング閾値信号に基づいて、音声認識の際のプルーニング閾値が設定される。続いて、音声認識部23cにより、文章または単語が認識される(音声認識処理)。次いで、コマンド出力部24において、認識結果であるテキスト信号が入力されると、コマンド出力部24によりテキスト信号に従って動作信号が出力される(コマンド出力処理)。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、ユーザが発声する音声を認識することができ、認識結果に従って動作信号を出力することができる。上記のように、認識制御モジュール23は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する処理を行う(認識制御処理)。
続いて、本変形例の撮像装置1Cの作用効果を説明する。
本変形例では、可動部または接続機器は、撮像装置1Cを冷却する空冷ファン17である。状態取得部22は、空冷ファン17の状態情報信号を取得する。認識制御モジュール23(プルーニング閾値設定部23g)は、状態取得部22により取得された空冷ファン17の状態情報信号に基づいて、音声の認識時の仮説処理を間引くプルーニング閾値を設定する。即ち、ファン回転数が大きいほど、ノイズである外乱が大きいということになる。このため、ファン回転数が大きいほど、プルーニング閾値を大きく設定すれば、音声認識時には正解の仮説を立てやすくなる。ファン回転数が小さいほど、外乱が小さいということになる。このため、ファン回転数が小さいほど、プルーニング閾値を小さく設定すれば、音声認識時には正解の仮説を立てやすくなるので、音声認識性能への影響は小さく、音声認識処理も高速になる。このように、プルーニング閾値は、ファン回転数の大小に基づいて適切に変更される。従って、プルーニング閾値の設定により、音声認識の精度を向上することができる(プルーニング閾値設定作用)。
本変形例では、認識制御モジュール23(音声認識部23c、音響モデル設定部23d)は、状態取得部22により取得された状態情報信号(ファン回転数信号)に基づいて、音声を音素に変換する音響モデルを設定する。即ち、音響モデルの変更により、音声を音素に変換する精度が向上する。このため、音響モデルの設定により音声認識時に誤認識が抑制される。従って、音響モデルの設定により、音声認識の精度を向上することができる(音響モデル設定作用)。
なお、本変形例では、第1実施形態と同様に、認識精度向上作用、撮像装置操作作用を奏する。
(第4実施形態)
次に、図16~図18を参照して、第4実施形態の撮像装置1Dについて説明する。なお、第1実施形態と同様の構成はその説明を省略または簡略化する。
撮像装置1Dの装置本体10D(本体、筐体)は、第1実施形態と同様に、撮像光学系11(結像光学系)と、ファインダ12と、アイセンサ13と、マイクロフォン14(入力部、内蔵マイクロフォン)と、ディスプレイ15(表示部)と、を有する(図1~図3,図17参照)。更に、装置本体10Dは、図17と図18に示すように、装置側コネクタ18を有する。更にまた、装置本体10Dの右側にはグリップ部100が一体に構成されている。更に、装置本体10Dは、制御ユニット20と、図略の各種のアクチュエータ等を有する。更にまた、装置本体10Dには、外部マイクロフォン19(接続機器)が別体に設けられる。なお、マイクロフォン14は、装置本体10Dに内蔵されているものである。外部マイクロフォン19は、装置本体10Dに対し外部から接続機器として設けられた(取り付けられた)ものであり、装置本体10Dに接続されている。
装置側コネクタ18は、図略の、デジタル通信の装置側デジタルコネクタと、アナログ通信の装置側アナログコネクタと、を有する。装置側デジタルコネクタは、例えば、USB(Universal Serial Bus)接続が可能なデジタルインターフェースである。装置側アナログコネクタは、マイクジャック端子による接続が可能なものである。
外部マイクロフォン19は、複数の種類のうち一種類が装置本体10Dに接続される。例えば、外部マイクロフォン19としては、2chステレオマイクロフォン、ガンマイクロフォン、ピンマイクロフォン、ワイヤレスマイクロフォン19等の四種類がある。なお、外部マイクロフォン19の一例として、図16にワイヤレスマイクロフォン19を図示する。2chステレオマイクロフォンは、2chとは左と右であり、左右のそれぞれの方向からの音が入力される。2chステレオマイクロフォンは、主に環境音を収音するものである。ガンマイクロフォンは、極狭い方向に指向性をもっており、ガンマイクロフォン部分が向いている方向からの音が入力される。ピンマイクロフォンは、人間の胸元等に取り付けられ、主に音声が入力される。
ワイヤレスマイクロフォン19は、マイクロフォン本体19aとレシーバ19bの二つから構成され、主に音声が入力される(図16参照)。ワイヤレスマイクロフォン19は、マイクロフォン本体19aに入力された音を無線によりレシーバ19bへ伝送するものである。マイクロフォン本体19aは、入力された音を外部音アナログ信号から外部音デジタル信号に変換して、無線によりレシーバ19bへ伝送する。レシーバ19bは、マイクロフォン本体19aの外部音デジタル信号を受信する。このため、マイクロフォン本体19aとレシーバ19bは、図16に示すように、離れた位置に配置される。例えば、マイクロフォン本体19aは人間の胸元等に取り付けられる。レシーバ19bは、装置本体10Dに接続される。なお、レシーバ19bは、入力された外部音デジタル信号から外部音アナログ信号に変換する場合もある。
外部マイクロフォン19のレシーバ19bは、外部側コネクタ19cを有する。外部側コネクタ19cは、デジタル通信またはアナログ通信が可能である。このため、外部側コネクタ19cは、装置側コネクタ18の装置側デジタルコネクタまたは装置側アナログコネクタに接続される。外部マイクロフォン19の識別、マイクロフォン14と外部マイクロフォン19の設定については後述する。
外部マイクロフォン19には、人間が発声する音声と人間周囲の環境音との両方の音が入力される。外部マイクロフォン19の指向性やマイクロフォン感度は、種類により異なる。例えば、ピンマイクロフォンやワイヤレスマイクロフォン19は、主に音声を収音するものである。このため、そのマイクロフォン感度は、ピンマイクロフォンまたはマイクロフォン本体19aを取り付けた人間が発声する音声の入力が可能な感度に設定される。感度の違いによる調整は、後述する音処理部23aや音声抽出部23b等により行えば良い。なお、以下において、装置側コネクタ18と外部側コネクタ19cは接続されているものとする。
以下、図17を参照して、制御ユニット20のブロック構成について説明する。
制御ユニット20には、第1実施形態と同様に、アイセンサ13の検出信号(検出結果)と、ジャイロセンサ27の角度信号(傾き情報)と、等の各種信号が入力される。制御ユニット20には、マイクロフォン14の内蔵音アナログ信号が入力される。制御ユニット20には、装置側コネクタ18と外部側コネクタ19cを通じて、外部マイクロフォン19の状態情報信号が入力される。外部マイクロフォン19の状態情報信号は、外部マイクロフォン19の状態情報の信号である。外部マイクロフォン19の状態情報とは、型番、種類、周波数特性、応答特性、モノラルマイクロフォンとステレオマイクロフォンとマイクジャック端子にあっては極数、音声認識機能の有無、音声認識機能のバージョン情報等の製品情報である。なお、本実施形態では、外部マイクロフォン19は音声認識機能を有しないものとする。更に、外部マイクロフォン19の状態情報とは、アナログ通信かデジタル通信の通信状態である。更に、制御ユニット20には、レシーバ19bから外部音アナログ信号、または、レシーバ19bに入力された外部音デジタル信号が入力される(図18参照)。なお、外部マイクロフォン19は、制御ユニット20が有する図略のマイクドライバにより駆動される。
状態取得部22は、各種信号を取得し、記憶部21と認識制御モジュール23へ出力する。本実施形態では、状態情報信号は、外部マイクロフォン19に関する状態情報の信号である。
認識制御モジュール23は、マイクロフォン14より入力された内蔵音アナログ信号の変換や、外部マイクロフォン19より入力された外部音アナログ信号の変換や、ユーザが発声する音声の認識や、認識されたテキスト信号(認識結果)の出力等の処理を行う。認識制御モジュール23は、テキスト信号をコマンド出力部24へ出力する。認識制御モジュール23の詳細は後述する。
以下、図18を参照して、制御ユニット20と認識制御モジュール23のブロック構成について説明する。
認識制御モジュール23は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する(認識制御処理)。認識制御モジュール23は、音処理部23aと、音声抽出部23bと、音声認識部23c(認識部)と、マイク設定部23fと、マイク識別部23hと、を有する。音声認識部23cは、音響モデル設定部23dと、単語辞書設定部23eと、を有する。更に、認識制御モジュール23は、環境音抽出部231(動画用音抽出部)と、エンコード部232と、を有する。なお、図18に示す例では、本実施形態の撮像装置1Dは、マイクロフォン14と、外部マイクロフォン19と、制御ユニット20と、認識制御モジュール23と、を備える。制御ユニット20は、音声認識装置として機能する。制御用プログラムとして、各部22,23a~23f,23h,24,231,232の処理を実行するためのプログラムが記憶部21に格納されている。制御ユニット20は、プログラムを読み出して、RAMにて実行することにより、各部22,23a~23f,23h,24,231,232の処理を行う。なお、第4実施形態では、音処理部23aと、音声抽出部23bと、音声認識部23cと、環境音抽出部231と、エンコード部232と、について説明する。また、状態取得部22と、コマンド出力部24と、は第1実施形態と同様である。
音処理部23aは、第1実施形態と同様に、マイクロフォン14より入力された内蔵音アナログ信号を、内蔵音デジタル信号への変換や内蔵音デジタル信号の公知のノイズ除去等の音処理を行う。音処理部23aは、内蔵音デジタル信号を音声抽出部23bと環境音抽出部231へ出力する。
音処理部23aは、外部マイクロフォン19より外部音アナログ信号が入力されると、上記の内蔵音アナログ信号と同様に、外部音アナログ信号を、外部音デジタル信号への変換や外部音デジタル信号の公知のノイズ除去等の音処理を行う。音処理部23aは、外部マイクロフォン19より外部音デジタル信号が入力されると、公知のノイズ除去等の音処理を行う。音処理部23aは、外部音デジタル信号を音声抽出部23bと環境音抽出部231へ出力する。なお、内蔵音デジタル信号と外部音デジタル信号を特に区別しない場合には「音デジタル信号」と記載する。
音処理部23aは、音処理を、マイクロフォン14と外部マイクロフォン19のうち少なくとも一方に音が入力される間に繰り返し行う。なお、音処理は、第1マイクロフォン14a~第4マイクロフォン14dのそれぞれに入力された音と、外部マイクロフォン19に入力された音と、について別々に行う。なお、以下において、第1マイク音デジタル信号~第4マイク音デジタル信号を特に区別しない場合には「内蔵音デジタル信号」と記載する。
マイク識別部23hは、外部マイクロフォン19の状態情報信号に基づいて、自動で外部マイクロフォン19を識別する。ここで、後述するマイク設定部23fでは、外部マイクロフォン19がモノラルマイクロフォンかステレオマイクロフォンのどちらであるかの識別結果が必要である。このため、マイク識別部23hは、モノラル信号またはステレオ信号を外部マイクロフォン19の識別結果信号(識別結果、状態情報信号)として、マイク設定部23fへ出力する。後述する音響モデル設定部23dでは、外部マイクロフォン19の種類の識別結果が必要である。このため、マイク識別部23hは、外部マイクロフォン19の識別結果として、外部マイクロフォン種類識別信号(状態情報信号)を音声認識部23cへ出力する。マイク識別部23hは、以下のマイク識別処理を、状態取得部22から状態情報信号が入力される間に繰り返し行う。
ここで、外部マイクロフォン19の状態情報により、入力される音は変更される。例えば、外部マイクロフォン19がモノラルマイクロフォンである場合には、マイクロフォン14よりも音声認識用に適している。外部マイクロフォン19がステレオマイクロフォンである場合には、マイクロフォン14の方が音声認識用に適している。このように、外部マイクロフォン19の状態情報により、音声認識用に適したマイクロフォンが変化する。なお、外部マイクロフォン19がモノラルマイクロフォンである場合には、マイクロフォン14の方が動画用に適している。外部マイクロフォン19がステレオマイクロフォンである場合には、外部マイクロフォン19の方が動画用に適している。つまり、外部マイクロフォン19の状態情報により、音声の認識と環境音の抽出に対して影響を与える。このため、外部マイクロフォン19の状態情報により、音声を認識するためおよび環境音の抽出するための制御内容を設定する必要がある。上記のように、外部マイクロフォン19の状態情報により、音声認識用と動画用のマイクロフォンが設定される。本実施形態では、制御内容は、マイクロフォン14と外部マイクロフォン19の音声認識用と動画用の設定である。マイク識別部23hは、外部マイクロフォン19の状態情報に基づいて、自動で外部マイクロフォン19を識別する。後述するマイク設定部23fは、外部マイクロフォン19の識別結果信号に基づいてマイクロフォン14と外部マイクロフォン19のうち一方を音声認識用に自動で設定する。また、音響モデル設定部23dは、外部マイクロフォン種類識別信号に基づいて音響モデルを設定する。
例えば、外部マイクロフォン19が2chステレオマイクロフォンである場合には、マイクロフォン14を音声認識用に設定し、外部マイクロフォン19を動画用に設定する。外部マイクロフォン19が、ピンマイクロフォンやワイヤレスマイクロフォン19である場合には、外部マイクロフォン19を音声認識用に設定し、マイクロフォン14を動画用に設定する。このように、音声認識用と動画用の設定は、外部マイクロフォン19の状態情報により変更される。
マイク識別部23hは、外部マイクロフォン19がモノラルマイクロフォンかステレオマイクロフォンのどちらであるかの識別を行う。以下の方法により、ユーザの操作が無くてもマイク識別部23hは自動で識別を行うことができる(自動識別)。外部マイクロフォン19が装置側デジタルコネクタと接続されている場合、状態情報信号に含まれるモノラルマイクロフォンまたはステレオマイクロフォンにより、外部マイクロフォン19をマイク識別部23hは自動で識別できる。外部マイクロフォン19が装置側アナログコネクタと接続されている場合、状態情報信号に含まれるマイクジャック端子の極数により、外部マイクロフォン19をマイク識別部23hは自動で識別できる。極数が二極の場合はモノラルマイクロフォンであり、極数が三極以上の場合はステレオマイクロフォンである。
マイク識別部23hは、外部マイクロフォン19の種類の識別を行う。以下の方法によりマイク識別部23hは種類の識別を行うことができる。外部マイクロフォン19が装置側デジタルコネクタと接続されている場合、状態情報信号に含まれる型番や種類により、ユーザの操作が無くても、上記に例として挙げた四種類の外部マイクロフォン19のうち一種類をマイク識別部23hは自動で識別することができる(自動識別)。
外部マイクロフォン19が装置側アナログコネクタと接続されている場合、マイク識別部23hは、種類の識別の過程にてユーザの操作等が一部必要になる(半自動)。以下の三つの方法のうち一つの方法により、マイク識別部23hは外部マイクロフォン19の種類の識別を行うことができる。なお、いずれも、外部側コネクタ19cが装置側アナログコネクタと接続された状態とする。
一つの識別方法として、上記に例として挙げた四種類の外部マイクロフォン19のそれぞれは暗騒音の特徴が異なることを利用して、四種類のうち一種類をマイク識別部23hは識別する。このため、外部マイクロフォン19が装置側アナログコネクタに接続されたとき、外部マイクロフォン19を、所定時間、静かな環境に載置する旨を、ディスプレイ15等の報知部によりユーザへ報知する。ユーザは、報知の内容を実行する。そして、静かな環境に載置された場合、無音状態の暗騒音レベルや暗騒音の周波数特性により、四種類の外部マイクロフォン19のうち一種類をマイク識別部23hは自動で識別することができる。
一つの識別方法として、上記に例として挙げた四種類の外部マイクロフォン19のそれぞれにおける応答特性(感度や周波数特性)が違うことを利用して、四種類のうち一種類をマイク識別部23hは識別する。応答特性は、装置本体10Dに設けられた図略のスピーカより音を発したときの応答特性である。このため、外部マイクロフォン19が装置側アナログコネクタに接続されたとき、外部マイクロフォン19と撮像装置1Dの相対位置を同じにする旨を、ディスプレイ15等の報知部によりユーザへ報知する。ユーザは、報知の内容を実行する。そして、相対位置が同じになったことを確認することができた場合、装置本体10Dの図略のスピーカより自動で音を発する。これにより、応答特性の違いよって、四種類の外部マイクロフォン19のうち一種類をマイク識別部23hは自動で識別することができる。
一つの識別方法として、上記に例として挙げた四種類の外部マイクロフォン19のそれぞれの応答特性が違うことを利用して、四種類のうち一種類をマイク識別部23hは識別する。応答特性は、所定の環境音や同一話者の声における時間平均特性である。このため、外部マイクロフォン19が装置側アナログコネクタに接続されたとき、以下の内容を、ディスプレイ15等の報知部によりユーザへ報知する。例えば、内容は、所定の環境音の環境下に載置することである。または、内容は、ユーザに所定語句を発声することである。そして、ユーザは、報知の内容を実行する。所定の環境音に載置された場合またはユーザが発声した音声が入力されたことを確認することができた場合、応答特性の違いより、四種類の外部マイクロフォン19のうち一種類をマイク識別部23hは自動で識別することができる。
マイク設定部23fは、マイク識別部23hが識別した識別結果信号に基づいて、マイクロフォン14と外部マイクロフォン19のうち一方を音声認識用に自動で設定する。更に、マイク設定部23fは、マイクロフォン14と外部マイクロフォン19のうち他方を動画用に自動で設定する。または、マイク設定部23fは、マイク識別部23hが識別した識別結果信号に基づいて、マイクロフォン14からの入力を無効とし、外部マイクロフォン19を音声認識用かつ動画用に自動で設定する。マイク設定部23fは、以下のマイク設定処理を識別結果信号が入力される間に繰り返し行う。
マイク設定部23fは、識別結果信号がモノラル信号である場合、外部マイクロフォン19を音声認識用に自動で設定し、マイクロフォン14を動画用に自動で設定する。マイク設定部23fは、この場合、外部マイクロフォン19を音声認識用に設定した情報を、音声認識用情報信号(状態情報信号)として音声抽出部23bと音声認識部23cへ出力する。マイク設定部23fは、この場合、マイクロフォン14を動画用に設定した情報を、動画用情報信号として環境音抽出部231へ出力する。
逆に、マイク設定部23fは、識別結果信号がステレオ信号である場合、マイクロフォン14を音声認識用に自動で設定し、外部マイクロフォン19を動画用に自動で設定する。マイク設定部23fは、この場合、マイクロフォン14を音声認識用に設定した情報を、音声認識用情報信号として音声抽出部23bと音声認識部23cへ出力する。マイク設定部23fは、この場合、外部マイクロフォン19を動画用に設定した情報を、動画用情報信号として環境音抽出部231へ出力する。
なお、マイク設定部23fは、識別結果信号がモノラル信号またはステレオ信号である場合、マイクロフォン14からの入力を無効とし、外部マイクロフォン19を音声認識用かつ動画用に自動で設定しても良い。マイク設定部23fは、以下の情報信号(状態情報信号)を、音声抽出部23bと音声認識部23cと環境音抽出部231へ出力する。情報信号は、外部マイクロフォン19を音声認識用かつ動画用に設定した情報とする、兼用情報信号である。
音声抽出部23bは、各種信号に基づいて、指向性を設定する。音声抽出部23bは、音処理部23aより入力された音デジタル信号と、マイク設定部23fより入力された音声認識用情報信号または兼用情報信号と、に基づいて、音声デジタル信号(音声デジタルデータ、音声)を抽出する。音声抽出部23bは、抽出した音声デジタル信号を音声認識部23cと環境音抽出部231へ出力する。音声抽出部23bは、以下の音声抽出処理を、音デジタル信号と、音声認識用情報信号または兼用情報信号と、が入力される間に繰り返し行う。
音声抽出部23bは、音声認識用情報信号がマイクロフォン14の場合、第1実施形態と同様に、内蔵音デジタル信号から音声デジタル信号を抽出する。音声抽出部23bは、音声認識用情報信号が外部マイクロフォン19の場合、または、兼用情報信号の場合、外部音デジタル信号を音声デジタル信号として抽出する。なお、音声抽出部23bは、音声デジタル信号を抽出するとき、音声デジタル信号を抽出した部分の時間情報を、時間信号として抽出する。また、音声抽出部23bは、抽出した音声デジタル信号について、第1実施形態と同様に、ノイズ除去の処理を行う。音声抽出部23bは、時間信号を音声デジタル信号と共に環境音抽出部231へ出力する。
音声認識部23cは、状態情報信号に基づいて、音声抽出部23bより入力された音声デジタル信号を認識するための制御内容を設定し、音声デジタル信号を認識する。音声認識部23cは、状態情報信号と、マイク識別部23hから入力された外部マイクロフォン種類識別信号と、マイク設定部23fから入力された音声認識用情報信号または兼用情報信号と、に基づいて、音声抽出部23bより入力された音声デジタル信号を認識する。音声認識部23cは、テキスト信号をコマンド出力部24へ出力する。音声認識部23cは、以下の音声認識処理(認識処理)を、外部マイクロフォン種類識別信号と、音声認識用情報信号または兼用情報信号と、音声デジタル信号と、が入力される間に繰り返し行う。以下、音響モデル設定部23dと単語辞書設定部23eを説明する。
まず、音響モデル設定部23dは、状態情報信号に基づいて、音声抽出部23bより入力された音声デジタル信号を認識するための制御内容を設定する。本実施形態では、状態情報信号は、外部マイクロフォン種類識別信号と音声認識用情報信号または兼用情報信号である。音響モデル設定部23dは、音声認識用情報信号がマイクロフォン14の場合、第1実施形態と同様に、音響モデルを設定する。音響モデル設定部23dは、音声認識用情報信号が外部マイクロフォン19の場合、または、兼用情報信号の場合には、外部マイクロフォン種類識別信号に基づいて、外部マイクロフォン19の特性に合った音響モデルを、記憶部21に格納されている複数の音響モデルから選択する。そして、音響モデル設定部23dは、選択した音響モデルを記憶部21から読み込み、音声認識のための音響モデルとして設定する。
ここで、第3実施形態と同様に、外部マイクロフォン19を音声認識用に設定することにより、その音声認識用の外部マイクロフォン19の周波数特性や応答特性により、入力される音声の周波数特性が変化する。つまり、外部マイクロフォン19の状態情報の変更は、外部マイクロフォン19に入力された音声の認識に対して影響を与える。このため、外部マイクロフォン19の状態情報の変更により、音声を認識するための制御内容を設定する必要がある。本実施形態では、制御内容は、音響モデルの設定である。そして、上記の通り、音響モデル設定部23dは、外部マイクロフォン種類識別信号等に基づいて、外部マイクロフォン19の特性に合った音響モデルを、複数の音響モデルから選択する。
次いで、音声認識部23cは、音声デジタル信号に合った音響モデルにより、音声デジタル信号を、音声認識エンジンにて「音素」に変換する。音声認識部23cは、音素の並び順を、予め格納した単語辞書(発音辞書)と紐づけて、単語の候補を列挙する。単語辞書設定部23eは、各種信号に基づいて、記憶部21に格納されている単語辞書の単語から、音声認識に適した単語を選択する。そして、単語辞書設定部23eは、選択した単語を記憶部21から読み込み、音声認識のための単語辞書の単語として設定する。次いで、音声認識部23cは、単語の候補を、言語モデルを用いて、単語の候補から正しい文章になる文章の候補を列挙する。
続いて、動画用音制御について説明する。なお、静止画/動画切り換えレバー16cが動画撮影であり、動画撮影ボタン16eが操作されて動画の撮影が開始されると、動画用音制御が開始される。そして、動画撮影ボタン16eが操作されて動画の撮影が終了されると、動画用音制御が終了される。なお、動画撮影ボタン16eに限らず、ユーザが音声認識機能を利用して、動画を撮影しても良い。また、動画用音制御は、音声認識制御とは別のRAMにて実行しても良い。
環境音抽出部231には、各種信号が入力される。環境音抽出部231は、音処理部23aより入力された音デジタル信号と時間信号と、マイク設定部23fから入力された動画用情報信号または兼用情報信号と、に基づいて、音声デジタル信号を抑制して、環境音デジタル信号(環境音デジタルデータ、環境音、動画用の動画用音)を抽出する。環境音抽出部231は、抽出した環境音デジタル信号をエンコード部232へ出力する。ここで、動画用の動画用音は、マイクロフォン14に入力された音のうち、音声を抑制した環境音である。環境音抽出部231は、環境音デジタル信号を抽出する際、音声抽出部23bより入力された音声デジタル信号と時間信号から、音デジタル信号に含まれる音声デジタル信号を抑制する。そして、環境音抽出部231は、抽出した環境音デジタル信号をエンコード部232へ出力する。環境音抽出部231は、以下の環境音抽出処理を、音デジタル信号と、音声デジタル信号と、時間信号と、動画用情報信号または兼用情報信号と、が入力される間に繰り返し行う。
まず、環境音抽出部231は、動画用情報信号がマイクロフォン14の場合、内蔵音デジタル信号から音声デジタル信号を抑制する。環境音抽出部231は、動画用情報信号が外部マイクロフォン19の場合、または、兼用情報信号の場合、外部音デジタル信号から音声デジタル信号を抑制する。
次いで、環境音抽出部231は、音デジタル信号から音声デジタル信号を抑制した残りの音デジタル信号を、アンビソニックス化する処理を行う(アンビソニックスに変換する)。次いで、環境音抽出部231は、角度信号に基づいて、アンビソニックス化された音デジタル信号における音の再現方向を設定する。そして、環境音抽出部231は、アンビソニックス化され音の再現方向が設定された音デジタル信号から、環境音デジタル信号を抽出する。このように、環境音抽出部231は、音デジタル信号から環境音デジタル信号を抽出する。なお、環境音抽出部231は、アンビソニックス化する処理を行った後に、音声デジタル信号を抑制する処理を行っても良い。
次いで、環境音抽出部231は、抽出した環境音デジタル信号について、上述した音声抽出部23bと同様にノイズ除去の処理を行う。そして、環境音抽出部231は、ノイズ除去した環境音デジタル信号としてエンコード部232へ出力する。
エンコード部232は、環境音抽出部231より入力された環境音デジタル信号をエンコードして記憶部21へ記録する。具体的には、エンコード部232は、以下のエンコード処理を、環境音抽出部231から環境音デジタル信号が入力される間に繰り返し行う。
まず、エンコード部232は、環境音デジタル信号を、非圧縮のWAVフォーマットや圧縮形式のAAC等に変換する。環境音デジタル信号からファイルへの変換は、予め設定されたフォーマットや形式に基づいて変換される。次いで、エンコード部232は、変換された環境音デジタル信号を映像データと同期して動画ファイルとしてエンコードする。そして、エンコード部232は、動画ファイルを記憶部21へ記録する。
次に、第4実施形態の作用効果について説明する。
まず、撮像装置1Dの音声認識制御の作用効果を説明する。状態取得部22において、各種信号が入力されると、状態取得部22により各種信号が取得される(取得処理)。取得処理部と同時または取得処理部の前後に、音処理部23aにおいて、マイクロフォン14に音が入力されると、音処理部23aにより内蔵音アナログ信号が内蔵音デジタル信号へ変換される(音処理)。外部マイクロフォン19に音が入力されると、音処理部23aにより外部音アナログ信号が外部音デジタル信号へ変換される(音処理)。次いで、マイク識別部23hにおいて、状態情報信号が入力されると、マイク識別部23hにより、状態情報信号に基づいて、外部マイクロフォン19がモノラルマイクロフォンかステレオマイクロフォンのどちらであるかが自動で識別される(マイク識別処理)。加えて、マイク識別部23hにより、状態情報信号に基づいて、外部マイクロフォン19の種類が識別される(マイク識別処理)。
次いで、マイク設定部23fにおいて、識別結果信号が入力されると、マイク設定部23fにより、識別結果信号に基づいて、マイクロフォン14と外部マイクロフォン19のうち一方を音声認識用に、他方を動画用に、自動で設定する(マイク設定処理)。または、マイク設定部23fにより、識別結果信号に基づいて、外部マイクロフォン19を音声認識用かつ動画用に自動で設定する(マイク設定処理)。次いで、音声抽出部23bにおいて、各種信号が入力されると、音声抽出部23bにより、各種信号に基づいて指向性が設定される(音声抽出処理)。その後、音声抽出部23bにより、音声認識用情報信号に基づいて、第1実施形態と同様に、内蔵音デジタル信号から音声デジタル信号が抽出される(音声抽出処理)。または、音声抽出部23bにより、音声認識用情報信号または兼用情報信号に基づいて、外部音デジタル信号が音声デジタル信号として抽出される(音声抽出処理)。次いで、音声抽出部23bにより、抽出された音声デジタル信号についてノイズ除去の処理を行う(音声抽出処理)。
次いで、音声認識部23cにおいて、各種信号が入力されると、音響モデル設定部23dにより、状態情報信号と外部マイクロフォン種類識別信号と音声認識用情報信号または兼用情報信号に基づいて、音響モデルが設定される(音声認識処理、音響モデル設定処理)。その後、単語辞書設定部23eにより、単語辞書の単語が設定される(音声認識処理、単語設定処理)。続いて、音声認識部23cにより、文章または単語が認識される(音声認識処理)。次いで、コマンド出力部24において、認識結果であるテキスト信号が入力されると、コマンド出力部24によりテキスト信号に従って動作信号が出力される(コマンド出力処理)。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、ユーザが発声する音声を認識することができ、認識結果に従って動作信号を出力することができる。上記のように、認識制御モジュール23は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する処理を行う(認識制御処理)。
次いで、撮像装置1Dの動画用音制御の作用効果を説明する。上記の取得処理、音処理、マイク識別処理、マイク設定処理、音声抽出処理が行われる。次いで、環境音抽出部231において、各種信号が入力されると、環境音抽出部231により、動画用情報信号に基づいて、内蔵音デジタル信号から時間信号に対応する音声デジタル信号が抑制される(環境音抽出処理)。または、環境音抽出部231により、動画用情報信号または兼用情報信号に基づいて、外部音デジタル信号から時間信号に対応するが音声デジタル信号が抑制される(環境音抽出処理)。次いで、環境音抽出部231により、音デジタル信号から音声デジタル信号を抑制した残りの音デジタル信号が、アンビソニックス化される(環境音抽出処理)。次いで、環境音抽出部231により、角度信号に基づいて、アンビソニックス化された音デジタル信号における音の再現方向が設定される(環境音抽出処理)。そして、環境音抽出部231により、アンビソニックス化され音の再現方向が設定された音デジタル信号から、環境音デジタル信号が抽出される(環境音抽出処理)。次いで、環境音抽出部231により、抽出された環境音デジタル信号についてノイズ除去の処理を行う(環境音抽出処理)。
次いで、エンコード部232において、環境音デジタル信号が入力されると、エンコード部232により環境音デジタル信号からファイルへ変換され、映像データと同期して動画ファイルとしてエンコードされる(エンコード処理)。そして、エンコード部232により動画ファイルが記憶部21へ記録される(エンコード処理)。
続いて、撮像装置1Dの作用効果を説明する。
本実施形態では、音声は、撮像装置1Dに設けられたマイクロフォン14から入力される。接続機器は、音声と環境音のうち少なくとも一方が入力される外部マイクロフォン19である。状態取得部22は、外部マイクロフォン19の状態情報信号を取得する。認識制御モジュール23(マイク設定部23f)は、状態取得部22により取得された外部マイクロフォン19の状態情報信号に基づいて、マイクロフォン14と外部マイクロフォン19のうち一方を音声認識用に設定する。従って、外部マイクロフォン19を追加した場合、音声が入力されやすい一方のマイクロフォンを選択することができる(外部マイクロフォンによる音声認識用マイク設定作用)。
本実施形態では、認識制御モジュール23(マイク識別部23h)は、状態取得部22により取得された外部マイクロフォン19の状態情報信号に基づいて自動で外部マイクロフォン19を識別する。認識制御モジュール23(マイク設定部23f)は、識別した識別結果信号に基づいてマイクロフォン14と外部マイクロフォン19のうち一方を音声認識用に自動で設定する。即ち、外部マイクロフォン19を追加した場合、一方が音声認識用のマイクロフォンとして自動で設定されるので、ユーザが音声認識用のマイクロフォンを設定しなくて良い。従って、外部マイクロフォン19を追加した場合、ユーザの手間を低減することができる(自動音声認識用マイク設定作用)。
本実施形態では、認識制御モジュール23(マイク設定部23f)は、マイクロフォン14と外部マイクロフォン19のうち他方を動画用(動画用)に設定する。即ち、外部マイクロフォン19を追加した場合でも、一方を音声認識用に、他方を動画用に設定される。このため、外部マイクロフォン19を追加した場合、マイクロフォン14と外部マイクロフォン19を音声認識用と動画用に切り分けることができる。従って、外部マイクロフォン19を追加した場合、音声が入力されやすい一方のマイクロフォンを選択することができ、環境音が入力されやすい他方のマイクロフォンを選択することができる(音声認識用・動画用マイク設定作用)。
本実施形態では、認識制御モジュール23(マイク設定部23f)は、状態取得部22により取得された外部マイクロフォン19の状態情報信号に基づいて、マイクロフォン14からの入力を無効とし、外部マイクロフォン19を音声認識用かつ動画用に設定する。従って、音声も環境音も入力されやすい外部マイクロフォン19を選択することができる(外部マイクロフォンによるマイク設定作用)。
本実施形態では、認識制御モジュール23(音声認識部23c、音響モデル設定部23d)は、状態取得部22により取得された状態情報信号(外部マイクロフォン19の状態情報の信号)に基づいて、音声を音素に変換する音響モデルを設定する。即ち、音響モデルの設定により、音声を音素に変換する精度が向上する。このため、音響モデルの設定により音声認識時に誤認識が抑制される。従って、音響モデルの設定により、音声認識の精度を向上することができる(音響モデル設定作用)。
なお、本実施形態では、第1実施形態と同様に、認識精度向上作用、撮像装置操作作用を奏する。
(第5実施形態)
次に、図17、図19~図22を参照して、第5実施形態の撮像装置1Eについて説明する。なお、第1実施形態等と同様の構成はその説明を省略または簡略化する。
撮像装置1Eの装置本体10E(本体、筐体)は、第4実施形態と同様に、マイクロフォン14(入力部、内蔵マイクロフォン)等を有する(図1~図3,図17参照)。更に、装置本体10Eは、図19と図20に示すように、装置側コネクタ18を有する。更にまた、装置本体10Eの右側にはグリップ部100が一体に構成されている。更に、装置本体10Eは、制御ユニット20と、図略の各種のアクチュエータ等を有する。更にまた、装置本体10Eには、外部マイクロフォン19(接続機器)が別体に設けられる。なお、マイクロフォン14は、装置本体10Eに内蔵されているものである。外部マイクロフォン19は、装置本体10Eに対し外部から接続機器として設けられた(取り付けられた)ものであり、装置本体10Dに接続されている。また、制御ユニット20、制御ユニット20が有する各部等21~26は、装置本体10Eに内蔵されているものである。後述する外部制御ユニット200、外部制御ユニット200が有する各部等201~203は、装置本体10Eに対し外部から設けられ、外部マイクロフォン19が有するものである。
なお、装置側コネクタ18は、第4実施形態と同様である。外部マイクロフォン19は、第4実施形態と同様に、複数の種類のうち一種類が装置本体10Eに接続される(図16参照)。以下において、装置側コネクタ18と外部側コネクタ19cは接続されているものとする。
以下、第4実施形態の図17を参照して、制御ユニット20のブロック構成について説明する。
制御ユニット20には、第4実施形態と同様に、アイセンサ13の検出信号(検出結果)と、ジャイロセンサ27の角度信号(傾き情報)と、マイクロフォン14の内蔵音アナログ信号と、等の各種信号が入力される。制御ユニット20には、装置側コネクタ18と外部側コネクタ19cを通じて、外部マイクロフォン19の状態情報信号が入力される。外部マイクロフォン19の状態情報信号は、外部マイクロフォン19の状態情報の信号である。外部マイクロフォン19の状態情報とは、型番、種類、周波数特性、応答特性、モノラルマイクロフォンとステレオマイクロフォンとマイクジャック端子にあっては極数、音声認識機能の有無、音声認識機能のバージョン情報等の製品情報である。なお、本実施形態では、外部マイクロフォン19は音声認識機能を有するものとする。更に、外部マイクロフォン19の状態情報とは、アナログ通信かデジタル通信の通信状態である。更にまた、制御ユニット20には、レシーバ19bから外部音アナログ信号、または、レシーバ19bに入力された外部音デジタル信号が入力される(図20参照)。更に、制御ユニット20には、外部認識制御モジュール202からテキスト信号と、外部コマンド出力部203から動作信号が入力される(図20参照)。なお、外部マイクロフォン19は、制御ユニット20が有する図略のマイクドライバにより駆動される。
装置本体10Eと外部マイクロフォン19のそれぞれの各種信号や各種データの入出力は、装置側コネクタ18と外部側コネクタ19cを通じて行われるものとする。つまり、装置本体10Eと外部マイクロフォン19は、装置側コネクタ18と外部側コネクタ19cを通じて、それぞれの各種信号(情報)や各種データ(情報)を交換する。
状態取得部22は、第4実施形態と同様に、各種信号を取得し、記憶部21と認識制御モジュール23へ出力する。本実施形態では、状態情報信号は、外部マイクロフォン19に関する状態情報の信号である。
認識制御モジュール23は、第4実施形態と同様に、マイクロフォン14より入力された内蔵音アナログ信号の変換や、外部マイクロフォン19より入力された音アナログ信号の変換や、ユーザが発声する音声の認識や、認識されたテキスト信号(認識結果)の出力等の処理を行う。認識制御モジュール23は、テキスト信号をコマンド出力部24へ出力する。認識制御モジュール23の詳細は後述する。
以下、図19を参照して、外部制御ユニット200のブロック構成について説明する。
外部制御ユニット200(コンピュータ)は、外部記憶部201と、外部認識制御モジュール202(外部認識制御部)と、外部コマンド出力部203(外部出力部)と、を有する。
外部制御ユニット200は、制御ユニット20と同様に、CPU等の演算素子を有し、外部記憶部201に格納されている図略の外部制御用プログラムが起動時に読み出されて外部制御ユニット200において実行される。これにより、外部制御ユニット200は、外部認識制御モジュール202と、外部コマンド出力部203と、を含む外部マイクロフォン19全体の制御を行う。外部制御ユニット200には、レシーバ19bから外部音アナログ信号、または、レシーバ19bに入力された外部音デジタル信号が入力される。また、外部側コネクタ19cが、装置側コネクタ18の装置側デジタルコネクタまたは装置側アナログコネクタに接続されている場合、外部制御ユニット200には以下の各種信号が入力される。入力される各種信号は、アイセンサ13の検出信号(検出結果)と、マイクロフォン14の内蔵音アナログ信号や内蔵音デジタル信号や内蔵音声デジタル信号等の信号である。外部制御ユニット200は、入力された各種信号に基づいて、外部マイクロフォン19全体の制御を行う。なお、「CPU」は「Central Processing Unit」の略である。
外部記憶部201は、大容量記憶媒体(例えばフラッシュメモリやハードディスクドライブ等)およびROM、RAM等の半導体記憶媒体を備える。外部記憶部201には上述の外部制御用プログラムが格納されていると共に、外部制御ユニット200の制御動作時に必要とされる各種信号(各種センサ信号、外部マイクロフォン19の状態情報信号等)や各種データが一時的に格納される。外部記憶部201には、後述する外部音響モデル設定部202dのための音響モデルと教師データ、後述する外部単語辞書設定部202eのための単語辞書の単語と、言語モデルと、が予め格納されているものとする。外部記憶部201のRAMには、外部マイクロフォン19より入力された未圧縮のRAW音声データ(生音声データ)が一時的に格納される。なお、「ROM」は「Read Only Memory」の略であり、「RAM」は「Random Access Memory」の略である。
外部認識制御モジュール202は、外部マイクロフォン19より入力された音アナログ信号の変換や、ユーザが発声する音声の認識や、認識されたテキスト信号(認識結果)の出力等の処理を行う。外部認識制御モジュール202は、テキスト信号を外部コマンド出力部203へ出力する。外部認識制御モジュール202の詳細は後述する。
外部コマンド出力部203は、外部認識制御モジュール202からのテキスト信号に従って動作信号(コマンド信号)の出力の処理を行う。なお、外部コマンド出力部203の詳細は後述する。
以下、図20を参照して、制御ユニット20と認識制御モジュール23と外部制御ユニット200と外部認識制御モジュール202のブロック構成について説明する。
認識制御モジュール23は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する(認識制御処理)。認識制御モジュール23は、音処理部23aと、音声抽出部23bと、音声認識部23c(認識部)と、調停制御部23iと、を有する。音声認識部23cは、音響モデル設定部23dと、単語辞書設定部23eと、を有する。調停制御部23iは、マイク調停部23i1と、認識調停部23i2と、結果調停部23i3と、を有する。
外部認識制御モジュール202は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する。外部認識制御モジュール202は、外部音処理部202aと、外部音声抽出部202bと、外部音声認識部202cと、を有する。外部音声認識部202cは、外部音響モデル設定部202dと、外部単語辞書設定部202eと、を有する。外部認識制御モジュール202は、装置側コネクタ18と外部側コネクタ19cを通じて、認識制御モジュール23と接続されている。
なお、図20に示す例では、本実施形態の撮像装置1Eは、マイクロフォン14と、外部マイクロフォン19と、制御ユニット20と、認識制御モジュール23と、外部制御ユニット200と、外部認識制御モジュール202と、を備える。制御ユニット20と外部制御ユニット200は、音声認識装置として機能する。制御ユニット20の制御用プログラムとして、各部22,23a~23e,23i(23i1~23i3を含む),24の処理を実行するためのプログラムが記憶部21に格納されている。制御ユニット20は、プログラムを読み出して、RAMにて実行することにより、各部22,23a~23e,23i(23i1~23i3を含む),24の処理を行う。外部制御ユニット200の制御用プログラムとして、各部202a~202eの処理を実行するためのプログラムが外部記憶部201に格納されている。外部制御ユニット200は、プログラムを読み出して、RAMにて実行することにより、各部202a~202eの処理を行う。なお、以下において、状態取得部22、認識制御モジュール23、外部認識制御モジュール202、コマンド出力部24と外部コマンド出力部203の順で説明する。また、結果調停部23i3は、外部認識制御モジュール202の後に説明する。以下において、内蔵音デジタル信号と外部音デジタル信号を特に区別しない場合には「音デジタル信号」と記載する。内蔵音声デジタル信号と後述する外部音声デジタル信号を特に区別しない場合には「音声デジタル信号」と記載する。
状態取得部22は、各種信号を取得し、認識制御モジュール23と外部認識制御モジュール202へ出力する。
次いで、認識制御モジュール23について説明する。
音処理部23aは、第1実施形態と同様に、マイクロフォン14より入力された内蔵音アナログ信号を、内蔵音デジタル信号への変換や内蔵音デジタル信号の公知のノイズ除去等の音処理を行う。音処理部23aは、内蔵音デジタル信号を音声抽出部23bへ出力する。
調停制御部23iは、音声認識のための調停制御を行う。マイク調停部23i1は、外部マイクロフォン19の状態情報信号に基づいて、マイクロフォン14と外部マイクロフォン19のうち少なくとも一方を音声認識用に設定する。マイク調停部23i1は、以下のマイク調停処理を、状態取得部22から状態情報信号が入力される間に繰り返し行う。まず、マイク調停部23i1は、第4実施形態のマイク識別処理と同様の処理を自動で行う。つまり、マイク調停部23i1は、外部マイクロフォン19がモノラルマイクロフォンかステレオマイクロフォンのどちらであるかの識別を行う。更に、マイク調停部23i1は、外部マイクロフォン19の種類の識別を行う。
次いで、マイク調停部23i1は、識別結果信号(状態情報信号)に基づいて、マイクロフォン14と外部マイクロフォン19のうち少なくとも一方を音声認識用に自動で設定する。マイク調停部23i1は、識別結果信号がモノラル信号である場合、外部マイクロフォン19を音声認識用に自動で設定する。なお、マイク調停部23i1は、識別結果信号がモノラル信号である場合、マイクロフォン14と外部マイクロフォン19の両方を音声認識用に自動で設定しても良い。マイク調停部23i1は、識別結果信号がステレオ信号である場合、マイクロフォン14を音声認識用に自動で設定する。そして、マイク調停部23i1は、マイクロフォン14と外部マイクロフォン19の一方または両方を音声認識用に設定した情報を、音声認識用情報信号(状態情報信号)として出力先へ出力する。出力先は、音声抽出部23bと音声認識部23cと外部音声抽出部202bと外部音声認識部202cと結果調停部23i3である。更に、マイク調停部23i1は、外部マイクロフォン19の識別結果として、外部マイクロフォン種類識別信号(状態情報信号)を音声認識部23cと外部音声認識部202cへ出力する。
認識調停部23i2は、状態情報信号に基づいて、音声認識部23cと外部音声認識部202cのうち少なくとも一方を認識特定部(音声認識用)に自動で設定する。認識特定部は、音声デジタル信号を認識するものとして特定されたものである。言い換えると、音声認識部23cと外部音声認識部202cのうち、認識特定部に設定されない方は音声デジタル信号を認識しない。認識調停部23i2は、以下の認識調停処理を、状態取得部22から状態情報信号が入力される間に繰り返し行う。
ここで、装置本体10Eと外部マイクロフォン19のそれぞれが音声認識機能を有する場合、どちらで音声デジタル信号を認識するのか設定する必要がある。このため、外部マイクロフォン19の状態情報信号に基づいて、二つの音声認識機能のうち少なくとも一方を認識特定部に設定する必要がある。つまり、外部マイクロフォン19の状態情報により、音声の認識に対して影響を与える。このため、外部マイクロフォン19の状態情報により、音声を認識するための制御内容を設定する必要がある。上記のように、外部マイクロフォン19の状態情報により、認識特定部が設定される。本実施形態では、制御内容は、認識特定部の設定である。認識調停部23i2は、外部マイクロフォン19の状態情報信号のうち音声認識機能のバージョン情報等に基づいて、音声認識部23cと外部音声認識部202cのうち少なくとも一方を認識特定部に設定する。
例えば、音声認識部23cと外部音声認識部202cのそれぞれの音声認識機能のバージョン情報により、バージョンが最新の方を認識特定部に設定する。「音声認識機能のバージョン情報」とは、音声認識に用いられる音響モデル、単語辞書の単語、言語モデルの三つのデータベースの情報である。そして、「バージョン」が最新のものは古いものよりも、三つのデータベースにつき、音声や言語データ等を学習させたものであって、より精度の高い音声認識を可能とするものである。音声認識部23cの音声認識機能のバージョン情報は、予め記憶部21に格納されている。このため、音声認識部23cと外部音声認識部202cのそれぞれの音声認識機能のバージョン情報を比較すれば、認識調停部23i2はバージョンが最新の方を認識特定部に設定することができる。
具体的なバージョン情報の比較としては、記憶部21と外部記憶部201のうち単語辞書の単語数が多い方すなわち音声認識部23cと外部音声認識部202cのうち少なくとも一方を、認識調停部23i2は認識特定部に設定する。例えば、記憶部21に格納されている単語辞書の単語が、「撮影、ストップ、ハイチーズ」であり、外部記憶部201に格納されている単語辞書の単語が、「撮影、ストップ」である場合、認識調停部23i2は音声認識部23cを認識特定部に設定する。
また、単語辞書の単語数が違っても、記憶部21と外部記憶部201のそれぞれの単語辞書に登録されている単語が異なる場合がある。この場合には、音声認識部23cと外部音声認識部202cの音声認識性能(音声認識機能の性能)に優劣が付けられないため、認識調停部23i2は両方を認識特定部に設定する。例えば、記憶部21に格納されている単語辞書の単語が、「撮影、ストップ、ハイチーズ」であり、外部記憶部201に格納されている単語辞書の単語が、「撮影、ストップ、風切り音低減」である場合、認識調停部23i2は音声認識性能に優劣が付けられない。このため、認識調停部23i2は両方を認識特定部に設定する。
音声認識部23cと外部音声認識部202cのそれぞれの単語辞書の単語数が完全一致の場合すなわち両方の音声認識性能が同一の場合には、認識調停部23i2は両方を認識特定部に設定する。
バージョン情報の比較としては音声認識部23cと外部音声認識部202cのうち単にバージョンの数字が最新の方を、認識調停部23i2は認識特定部に設定しても良い。ただし、バージョンの数字が最新の場合でも、例えば単語辞書の単語数を減らしたシンプルなものになっている可能性もあるので、数字が最新であっても古いものより音声認識機能が優れていない可能性もある。認識調停部23i2は、認識特定部を設定した情報を、認識特定部信号(状態情報信号)として音声抽出部23bと音声認識部23cと外部音声抽出部202bと外部音声認識部202cと結果調停部23i3へ出力する。認識特定部を設定した情報は、音声認識部23cと外部音声認識部202cの一方または両方である。両方である場合、認識特定部を設定した情報は、音声認識性能が同一(性能同一)、または、音声認識性能に優劣なしである(性能優劣無し)。
音声抽出部23bは、マイク調停部23i1より入力された音声認識用情報信号と、認識調停部23i2より入力された認識特定部信号と、に基づいて、内蔵音声デジタル信号(音声デジタルデータ、音声)を抽出する。音声抽出部23bは、以下の音声抽出処理を、内蔵音デジタル信号と音声認識用情報信号と認識特定部信号が入力される間に繰り返し行う。音声抽出部23bは、マイク調停部23i1より入力された音声認識用情報信号に基づいて、内蔵音声デジタル信号を抽出するか否かを決定する。音声抽出部23bは、音声認識用情報信号がマイクロフォン14の場合または両方の場合、各種信号に基づいて、指向性を設定する。そして、音声抽出部23bは、音処理部23aより入力された内蔵音デジタル信号より、内蔵音声デジタル信号を抽出する。なお、音声抽出部23bは、音声認識用情報信号が外部マイクロフォン19の場合、内蔵音デジタル信号より内蔵音声デジタル信号を抽出しない。また、音声抽出部23bは、抽出した内蔵音声デジタル信号について、第1実施形態と同様に、ノイズ除去の処理を行う。
音声抽出部23bは、認識調停部23i2より入力された認識特定部信号に基づいて、抽出した内蔵音声デジタル信号の出力先を設定する。音声抽出部23bは、認識特定部信号が音声認識部23cまたは性能同一の場合には、抽出した内蔵音声デジタル信号を音声認識部23cへ出力する。音声抽出部23bは、認識特定部信号が性能優劣無しの場合、抽出した内蔵音声デジタル信号を音声認識部23cと外部音声認識部202cの両方に出力する。音声抽出部23bは、認識特定部信号が外部音声認識部202cの場合、抽出した内蔵音声デジタル信号を外部音声認識部202cへ出力する。なお、音声抽出部23bは、認識特定部信号に関係なく、抽出した内蔵音声デジタル信号を音声認識部23cと外部音声認識部202cの両方に出力しても良い。
音声認識部23cは、状態情報信号に基づいて、音声抽出部23bと外部音声抽出部202bのうち少なくとも一方より入力された音声デジタル信号を認識するための制御内容を設定し、音声デジタル信号を認識する。
音声認識部23cには、状態情報信号と、マイク調停部23i1より入力された音声認識用情報信号と外部マイクロフォン種類識別信号と、認識調停部23i2より入力された認識特定部信号と、音声抽出部23bと外部音声抽出部202bのうち少なくとも一方より入力された音声デジタル信号と、が入力される。音声認識部23cは、これらの信号に基づいて、内蔵音声デジタル信号と外部音声デジタル信号のうち少なくとも一方を認識する。音声認識部23cは、テキスト信号を結果調停部23i3へ出力する。音声認識部23cは、以下の音声認識処理(認識処理)を、状態情報信号と音声認識用情報信号と外部マイクロフォン種類識別信号と音声デジタル信号が入力される間に繰り返し行う。
まず、音声認識部23cでは、以下の音声デジタル信号を認識することになる。音声認識部23cは、内蔵音声デジタル信号が入力され、認識特定部信号が音声認識部23cまたは性能優劣無しの場合、内蔵音声デジタル信号を認識する。音声認識部23cは、外部音声デジタル信号が入力され、認識特定部信号が音声認識部23cまたは性能優劣無しの場合、外部音声デジタル信号を認識する。音声認識部23cは、内蔵音声デジタル信号が入力され、認識特定部信号が性能同一の場合、内蔵音声デジタル信号のみを認識する。なお、音声認識部23cは、認識特定部信号が外部音声認識部202cの場合、音声デジタル信号を認識しない。以下、音響モデル設定部23dと単語辞書設定部23eを説明する。
まず、音響モデル設定部23dは、状態情報信号に基づいて、入力された音声デジタル信号を認識するための制御内容を設定する。本実施形態では、状態情報信号は、外部マイクロフォン種類識別信号と音声認識用情報信号である。音響モデル設定部23dは、音声認識用情報信号がマイクロフォン14の場合、第1実施形態と同様に、音響モデルを設定する。音響モデル設定部23dは、音声認識用情報信号が外部マイクロフォン19の場合、外部マイクロフォン種類識別信号に基づいて、外部マイクロフォン19の特性に合った音響モデルを、記憶部21に格納されている複数の音響モデルから選択する。そして、音響モデル設定部23dは、選択した音響モデルを記憶部21から読み込み、音声認識のための音響モデルとして設定する。音響モデル設定部23dは、音声認識用情報信号が両方の場合、上記に沿って、それぞれの特性に合った音響モデルを設定する。
次いで、音声認識部23cは、音声デジタル信号に合った音響モデルにより、音声デジタル信号を、音声認識エンジンにて「音素」に変換する。音声認識部23cは、音素の並び順を、予め格納した単語辞書(発音辞書)と紐づけて、単語の候補を列挙する。単語辞書設定部23eは、各種信号に基づいて、記憶部21に格納されている単語辞書の単語から、音声認識に適した単語を選択する。そして、単語辞書設定部23eは、選択した単語を記憶部21から読み込み、音声認識のための単語辞書の単語として設定する。また、単語の候補には、文章の候補と同様に統計的評価値が付されている。
次いで、音声認識部23cは、単語の候補を、言語モデルを用いて、単語の候補から正しい文章になる文章の候補を列挙する。
次いで、音声認識部23cは、文章の候補のうち、最も統計的評価値(以下、評価値とも記載する。)が高い文章を選択する。そして、音声認識部23cは、選択された文章(認識結果)をテキスト信号(テキストデータ)として結果調停部23i3へ出力する。なお、「統計的評価値」は、第1実施形態と同様に、音声の認識時に認識結果の精度を示す評価値である。また、音素から一つの単語が出力される場合には、文章の候補列挙と文章の選択を省略して、音素から出力された単語(認識結果)をテキスト信号(テキストデータ)として、音声認識部23cは結果調停部23i3へ出力する。そもそも、音処理された音デジタル信号に環境音は含まれているが音声が含まれていない場合、または、音声が認識されていない場合は、非テキスト信号(テキスト信号の一種)として、音声認識部23cは結果調停部23i3へ出力する。なお、非テキスト信号は、音声が認識されていない非該当認識結果である。
次いで、外部認識制御モジュール202について説明する。
外部音処理部202aは、外部マイクロフォン19より外部音アナログ信号が入力されると、音処理部23aと同様に、外部音アナログ信号を、外部音デジタル信号への変換や外部音デジタル信号の公知のノイズ除去等の音処理を行う。外部音処理部202aは、外部マイクロフォン19より外部音デジタル信号が入力されると、公知のノイズ除去等の音処理を行う。外部音処理部202aは、外部音デジタル信号を外部音声抽出部202bへ出力する。外部音処理部202aは、外部音処理を、外部マイクロフォン19に音が入力される間に繰り返し行う。
外部音声抽出部202bは、マイク調停部23i1より入力された音声認識用情報信号と、認識調停部23i2より入力された認識特定部信号と、に基づいて、外部音声デジタル信号(音声デジタルデータ、音声)を抽出する。外部音声抽出部202bは、以下の外部音声抽出処理を、外部音デジタル信号と音声認識用情報信号と認識特定部信号が入力される間に繰り返し行う。外部音声抽出部202bは、マイク調停部23i1より入力された音声認識用情報信号に基づいて、外部音声デジタル信号を抽出するか否かを決定する。外部音声抽出部202bは、音声認識用情報信号が外部マイクロフォン19の場合または両方の場合、外部音処理部202aより入力された外部音デジタル信号を外部音声デジタル信号として抽出する。なお、外部音声抽出部202bは、音声認識用情報信号がマイクロフォン14の場合、外部音デジタル信号を外部音声デジタル信号として抽出しない。また、外部音声抽出部202bは、抽出した外部音声デジタル信号について、上記の音声抽出部23bと同様に、ノイズ除去の処理を行う。
外部音声抽出部202bは、認識調停部23i2より入力された認識特定部信号に基づいて、抽出した外部音声デジタル信号の出力先を設定する。外部音声抽出部202bは、認識特定部信号が外部音声認識部202cまたは性能同一の場合には、抽出した外部音声デジタル信号を外部音声認識部202cへ出力する。外部音声抽出部202bは、認識特定部信号が性能優劣無しの場合、抽出した外部音声デジタル信号を音声認識部23cと外部音声認識部202cの両方に出力する。外部音声抽出部202bは、認識特定部信号が音声認識部23cの場合、抽出した外部音声デジタル信号を音声認識部23cへ出力する。なお、外部音声抽出部202bは、認識特定部信号に関係なく、抽出した外部音声デジタル信号を音声認識部23cと外部音声認識部202cの両方に出力しても良い。
外部音声認識部202cは、状態情報信号に基づいて、音声抽出部23bと外部音声抽出部202bの少なくとも一方より入力された音声デジタル信号を認識するための制御内容を設定し、音声デジタル信号を認識する。
外部音声認識部202cには、状態情報信号と、マイク調停部23i1より入力された音声認識用情報信号と外部マイクロフォン種類識別信号と、認識調停部23i2より入力された認識特定部信号と、音声抽出部23bと外部音声抽出部202bの少なくとも一方より入力された音声デジタル信号と、が入力される。外部音声認識部202cは、これらの信号に基づいて、内蔵音声デジタル信号と外部音声デジタル信号のうち少なくとも一方を認識する。外部音声認識部202cは、テキスト信号を結果調停部23i3へ出力する。外部音声認識部202cは、以下の外部音声認識処理(認識処理)を、状態情報信号と音声認識用情報信号と外部マイクロフォン種類識別信号と音声デジタル信号が入力される間に繰り返し行う。
まず、外部音声認識部202cでは、以下の音声デジタル信号を認識することになる。外部音声認識部202cは、外部音声デジタル信号が入力され、認識特定部信号が外部音声認識部202cまたは性能優劣無しの場合、外部音声デジタル信号を認識する。外部音声認識部202cは、内蔵音声デジタル信号が入力され、認識特定部信号が外部音声認識部202cまたは性能優劣無しの場合、内蔵音声デジタル信号を認識する。外部音声認識部202cは、外部音声デジタル信号が入力され、認識特定部信号が性能同一の場合、外部音声デジタル信号のみを認識する。なお、外部音声認識部202cは、認識特定部信号が音声認識部23cの場合、音声デジタル信号を認識しない。以下、外部音響モデル設定部202dと外部単語辞書設定部202eを説明する。
まず、外部音響モデル設定部202dは、上記の音響モデル設定部23dの記載のうち、音響モデル設定部23dを外部音響モデル設定部202dとし、記憶部21を外部記憶部201とすれば同様である。
次いで、外部音声認識部202cは、音声デジタル信号に合った音響モデルにより、音声デジタル信号を音声認識エンジンにて「音素」に変換する。外部音声認識部202cは、音素の並び順を、予め格納した単語辞書(発音辞書)と紐づけて、単語の候補を列挙する。その他の外部単語辞書設定部202eについては、単語辞書設定部23eの記載のうち、単語辞書設定部23eを外部単語辞書設定部202eとし、記憶部21を外部記憶部201とすれば同様である。また、単語の候補には、文章の候補と同様に統計的評価値が付されている。
次いで、外部音声認識部202cは、音声認識部23cと同様に、単語の候補を、言語モデルを用いて、単語の候補から正しい文章になる文章の候補を列挙する。
次いで、外部音声認識部202cは、文章の候補のうち、最も統計的評価値が高い文章を選択する。そして、外部音声認識部202cは、選択された文章(認識結果)をテキスト信号(テキストデータ)として結果調停部23i3へ出力する。なお、「統計的評価値」は、音声認識部23cと同様に、音声の認識時に認識結果の精度を示す評価値である。また、音素から一つの単語が出力される場合には、文章の候補列挙と文章の選択を省略して、音素から出力された単語(認識結果)をテキスト信号(テキストデータ)として、外部音声認識部202cは結果調停部23i3へ出力する。そもそも、音処理された音デジタル信号に環境音は含まれているが音声が含まれていない場合、または、音声が認識されていない場合は、非テキスト信号(テキスト信号の一種)として、外部音声認識部202cは結果調停部23i3へ出力する。
次いで、結果調停部23i3について説明する。
結果調停部23i3は、音声認識部23cと外部音声認識部202cのうち少なくとも一方の認識特定部より入力されたテキスト信号のうち、コマンド出力部24へ出力するテキスト信号(出力認識結果)を決定する。結果調停部23i3には、マイク調停部23i1より入力された音声認識用情報信号と、認識調停部23i2より入力された認識特定部信号と、音声認識部23cと外部音声認識部202cのうち少なくとも一方より入力される一つ以上のテキスト信号と、が入力される。具体的には、結果調停部23i3は、以下の結果調停処理を、各種信号が入力される間に繰り返し行う。
図21~図22を参照して、出力認識結果の決定制御の処理構成を説明する。図21の処理は、音声認識用情報信号と認識特定部信号が結果調停部23i3へ入力されたと判断するとスタートする。以下、図21の各ステップについて説明する。
ステップS11では、スタートに続き、結果調停部23i3は、音声認識用情報信号と認識特定部信号に基づいて、入力されるテキスト信号の数を判定して、ステップS13へ進む。入力されるテキスト信号とは、図22に示すように、音声認識用情報信号と認識特定部信号に基づいて判定される。
ここで、「音声認識用情報信号」とは、マイクロフォン14と外部マイクロフォン19のうち少なくとも一方が音声認識用に設定された情報である。つまり、音声認識用情報信号は、テキスト信号の生成に用いられる、音声認識用に設定されたマイクロフォン14と外部マイクロフォン19のうち少なくとも一方から入力される音声(音声認識用の音声)を設定したものであるともいえる。「認識特定部信号」とは、音声認識部23cと外部音声認識部202cのうち少なくとも一方が認識特定部に設定された情報である。言い換えると、認識特定部信号は、音声認識用の音声からテキスト信号を生成する、音声認識機能を有するものとして特定されたものである。「入力されるテキスト信号の数」とは、音声認識用情報信号と認識特定部信号の組み合わせにて決定される数である。この組み合わせとテキスト信号の数は、本実施形態に限定されず、予め設定される。利用される撮像装置と、接続機器と、の組み合わせ等により適切に設定される。
なお、図22のうち、音声認識用情報信号が両方で、認識特定部信号が両方(性能同一)の場合、音声認識部23cは内蔵音声デジタル信号のみを認識し、外部音声認識部202cは外部音声デジタル信号のみを認識する。つまり、音声認識部23cと外部音声認識部202cの音声認識性能が同一のため、別々に認識処理を行うことができる。つまり、並行して認識処理を行うことができる。このため、一方のみで音声デジタル信号の認識処理を行う場合よりも、別々に認識処理を行う場合の方が、全てのテキスト信号が結果調停部23i3に入力される時間が短縮される。
ステップS13では、ステップS11でのテキスト信号の数の判定、或いは、ステップS13での入力無しとの判断に続き、結果調停部23i3は、一つ以上のテキスト信号が入力されたか否かの判断を行う。YES(入力有り)の場合はステップS15へ進み、NO(入力無し)の場合はステップS13を繰り返す。
ステップS15では、ステップS13での入力有りとの判断に続き、結果調停部23i3は、ステップS11でのテキスト信号の数が複数か否かの判断を行う。YES(複数のテキスト信号)の場合はステップS17へ進み、NO(一つのテキスト信号のみ)の場合はステップS47へ進む。
ステップS17では、ステップS15での複数のテキスト信号との判断、或いは、ステップS21でのタイマーカウントに続き、結果調停部23i3は、ステップS11で判定されたテキスト信号の数は全て入力されたか否かの判断を行う。YES(全て入力済み)の場合はステップS23へ進み、NO(未入力有り)の場合はステップS19へ進む。
ステップS19では、ステップS17での未入力有りとの判断に続き、結果調停部23i3は、同時に発声したと考えられるテキスト信号の入力時間を示すタイマーが、所定時間以上であるか否かの判断を行う。YES(タイマー≧所定時間、所定時間経過済み)の場合はステップS43へ進み、NO(タイマー<所定時間、所定時間経過前)の場合はステップS21へ進む。ここで、同時に発声したと考えられるテキスト信号が、複数の場合、全てのテキスト信号が結果調停部23i3へ入力されるまでには時間差が生じる。このため、タイマーを設け、所定時間の間、先に入力されたテキスト信号を保留し、同時に発声したと考えられるテキスト信号の入力を所定時間だけ待機して、複数のテキスト信号が入力されるのを待つ。所定時間は、音声認識の応答速度を維持しつつ、予め実験やシミュレーション等により設定される。音声認識の応答速度とは、同時に発声したと考えられる音声がテキスト信号としてコマンド出力部24へ出力されるまでの速度である。例えば、所定時間は「数ms」に設定される。
ステップS21では、ステップS19での所定時間経過前との判断に続き、結果調停部23i3は、タイマーをカウントして、ステップS17へ戻る。
ステップS23では、ステップS17での全て入力済みとの判断、或いは、ステップS45での複数のテキスト信号の入力との判断に続き、結果調停部23i3は、入力された複数のテキスト信号が一致するか否かの判断を行う。YES(テキスト信号一致)の場合はステップS25へ進み、NO(テキスト信号不一致)の場合は、ステップS27へ進む。例えば、テキスト信号一致の場合とは、複数のテキスト信号の全てが「撮影」の場合である。要するに、複数のテキスト信号が完全に一致する場合である。例えば、テキスト信号が不一致の場合とは、二つのテキスト信号において、一方のテキスト信号が「撮影」であり、他方のテキスト信号が「再生」または非テキスト信号である場合である。要するに、複数のテキスト信号が完全に一致しない場合である。
ステップS25では、ステップS23でのテキスト信号一致との判断に続き、結果調停部23i3は、一致したテキスト信号を出力認識結果信号と決定して、エンドへ進む。
ステップS27では、ステップS23でのテキスト信号不一致との判断に続き、結果調停部23i3は、入力された複数のテキスト信号に非テキスト信号が含まれるか否かの判断を行う。YES(非テキスト信号有り)の場合はステップS29へ進み、NO(非テキスト信号無し)の場合はステップS33へ進む。
ステップS29では、ステップS27での非テキスト信号有りとの判断に続き、結果調停部23i3は、非テキスト信号を排除した残りのテキスト信号が一致するか否かの判断を行う。YES(残りのテキスト信号一致)の場合はステップS31へ進み、NO(残りのテキスト信号不一致)の場合はステップS33へ進む。例えば、残りのテキスト信号が一つの場合、結果調停部23i3は残りのテキスト信号一致と判断する。例えば、残りのテキスト信号が複数の場合であって、残りのテキスト信号の全てが「撮影」の場合、結果調停部23i3は残りのテキスト信号一致と判断する。要するに、複数の残りのテキスト信号が完全に一致する場合である。
ステップS31では、ステップS29での残りのテキスト信号一致との判断に続き、結果調停部23i3は、非テキスト信号を排除して、残りのテキスト信号を出力認識結果信号と決定して、エンドへ進む。
ステップS33では、ステップS27での非テキスト信号無しとの判断、或いは、ステップS29での残りのテキスト信号不一致との判断に続き、結果調停部23i3は、ステップS27のテキスト信号またはステップS29の残りのテキスト信号の評価値に差異があるか否かの判断を行う。YES(差異有り)の場合はステップS35へ進み、NO(差異無し)の場合はステップS41へ進む。例えば、二つのテキスト信号において、一方のテキスト信号の評価値が90点であり、他方のテキスト信号の評価値が80点である場合、結果調停部23i3は差異有りと判断する。例えば、二つのテキスト信号において、一方と他方のテキスト信号の評価値が同じ場合、結果調停部23i3は差異無しと判断する。
ステップS35では、ステップS33での差異有りとの判断に続き、結果調停部23i3は、評価値が最も高いテキスト信号が一つか否かの判断を行う。YES(最高評価値のテキスト信号は一つ)の場合はステップS37へ進み、NO(最高評価値のテキスト信号は複数)の場合はステップS39へ進む。例えば、二つのテキスト信号において、一方のテキスト信号が「撮影」で評価値が90点であり、他方のテキスト信号が「再生」で評価値が80点である場合、「撮影」が最高評価値のテキスト信号である。このため、結果調停部23i3は最高評価値のテキスト信号は一つと判断する。例えば、四つのテキスト信号において、一つのテキスト信号が「撮影」で評価値が80点であり、一つのテキスト信号が「再生」で評価値が80点であり、一つのテキスト信号が「ハイチーズ」で評価値が70点であり、一つのテキスト信号が「撮影」で評価値が60点である場合、結果調停部23i3は最高評価値のテキスト信号は複数と判断する。
ステップS37では、ステップS35での最高評価値のテキスト信号は一つとの判断、或いは、ステップS39での同じ信号との判断に続き、結果調停部23i3は、最高評価値のテキスト信号を出力認識結果信号と決定して、エンドへ進む。
ステップS39では、ステップS35での最高評価値のテキスト信号は複数との判断に続き、結果調停部23i3は、複数のテキスト信号は同じ信号か否かの判断を行う。YES(同じ信号)の場合はステップS37へ進み、NO(異なる信号)の場合はステップS41へ進む。例えば、四つのテキスト信号において、一つのテキスト信号が「撮影」で評価値が80点であり、一つのテキスト信号が「撮影」で評価値が80点であり、一つのテキスト信号が「ハイチーズ」で評価値が70点であり、一つのテキスト信号が「撮影」で評価値が60点である場合、結果調停部23i3は最高評価値のテキスト信号は複数であるが同じ信号であると判断する。例えば、四つのテキスト信号において、一つのテキスト信号が「撮影」で評価値が80点であり、一つのテキスト信号が「再生」で評価値が80点であり、一つのテキスト信号が「ハイチーズ」で評価値が70点であり、一つのテキスト信号が「撮影」で評価値が60点である場合、結果調停部23i3は最高評価値のテキスト信号は複数であり異なる信号であると判断する。
ステップS41では、ステップS33での差異無しとの判断、或いは、ステップS39での異なる信号との判断に続き、結果調停部23i3は、テキスト信号を出力認識結果信号と決定せず、エンドへ進む。
ステップS43では、ステップS19の所定時間経過済みとの判断に続き、結果調停部23i3は、それまでカウントされていたタイマーをリセットして、ステップS45へ進む。
ステップS45では、ステップS43でのカウンタリセットに続き、結果調停部23i3は、入力されたテキスト信号の数が複数か否かの判断を行う。YES(複数のテキスト信号の入力)の場合はステップS23へ進み、NO(一つのテキスト信号の入力)の場合はステップS47へ進む。
ステップS47では、ステップS15での一つのテキスト信号のみとの判断、或いは、ステップS45での一つのテキスト信号の入力との判断に続き、結果調停部23i3は、その一つのテキスト信号を出力認識結果信号と決定して、エンドへ進む。
結果調停部23i3は、上記のフローチャートより決定された出力認識結果信号をコマンド出力部24へ出力する。結果調停部23i3は、テキスト信号を出力認識結果信号と決定しない場合は、出力認識結果信号をコマンド出力部24へ出力しない。
次いで、コマンド出力部24と外部コマンド出力部203について説明する。
コマンド出力部24は、第1実施形態等とは異なり、出力認識結果信号より入力されたテキスト信号に従って、動作信号(コマンド信号)を出力する。具体的には、コマンド出力部24は、以下のコマンド出力処理(出力処理)を、出力認識結果信号からテキスト信号が入力される間に繰り返し行う。
まず、コマンド出力部24は、記憶部21に格納されている図7のコマンドリストを読み込む。次いで、コマンド出力部24は、テキスト信号が、読み込んだコマンドリストのワード欄に記載のワードと一致するか否かを判定(識別)する。コマンド出力部24は、ワードと一致する場合、コマンドリストの動作欄に記載の撮像装置1Eの動作を動作信号として撮像装置1E(例えば図略の各種のアクチュエータ等)へ出力して、処理を終了する。そして、図略の各種のアクチュエータ等は、入力された動作信号により動作する。一方、コマンド出力部24は、ワードと一致しない場合、何の動作信号も出力しないで、処理を終了する。アクチュエータ等の具体例については、第1実施形態のコマンド出力部24に記載のものと同様である。
外部コマンド出力部203は、本実施形態では、装置本体10Eがコマンド出力部24を有するので使用しない。
次に、第5実施形態の作用効果について説明する。まず、撮像装置1Eの音声認識制御の作用効果を説明する。
状態取得部22において、各種信号が入力されると、状態取得部22により各種信号が取得される(取得処理)。
取得処理部と同時または取得処理部の前後に、音処理部23aにおいて、マイクロフォン14に音が入力されると、音処理部23aにより内蔵音アナログ信号が内蔵音デジタル信号へ変換される(音処理)。取得処理部と同時または取得処理部の前後に、外部音処理部202aにおいて、外部マイクロフォン19に音が入力されると、外部音処理部202aにより外部音アナログ信号が外部デジタル信号へ変換される(外部音処理)。
取得処理部の後に、マイク調停部23i1において、状態情報信号が入力されると、マイク調停部23i1により、状態情報信号に基づいて、外部マイクロフォン19がモノラルマイクロフォンかステレオマイクロフォンのどちらであるかが自動で識別される(マイク調停処理)。加えて、マイク調停部23i1により、状態情報信号に基づいて、外部マイクロフォン19の種類が識別される(マイク調停処理)。更に、マイク調停部23i1により、状態情報信号に基づいて、マイクロフォン14と外部マイクロフォン19のうち一方を音声認識用に自動で設定する(マイク調停処理)。
取得処理部の後に、認識調停部23i2において、状態情報信号が入力されると、認識調停部23i2により、状態情報信号に基づいて、音声認識部23cと外部音声認識部202cのうち少なくとも一方を認識特定部に設定する(認識調停処理)。
次いで、音声抽出部23bにおいて、各種信号が入力されると、音声抽出部23bにより、音声認識用情報信号がマイクロフォン14の場合または両方の場合、各種信号に基づいて指向性が設定される(音声抽出処理)。その後、音声抽出部23bにより、第1実施形態と同様に、内蔵音デジタル信号から内蔵音声デジタル信号が抽出される(音声抽出処理)。次いで、音声抽出部23bにより、抽出された内蔵音声デジタル信号についてノイズ除去の処理を行う(音声抽出処理)。次いで、音声抽出部23bにより、認識特定部信号に基づいて、抽出した内蔵音声デジタル信号が出力される。
マイク調停処理と認識調停処理の後に、外部音声抽出部202bにおいて、各種信号が入力されると、外部音声抽出部202bにより、音声認識用情報信号が外部マイクロフォン19の場合または両方の場合、外部音デジタル信号が外部音声デジタル信号として抽出される(外部音声抽出処理)。次いで、外部音声抽出部202bにより、抽出された外部音声デジタル信号についてノイズ除去の処理を行う(外部音声抽出処理)。次いで、外部音声抽出部202bにより、認識特定部信号に基づいて、抽出した外部音声デジタル信号が出力される。
次いで、音声認識部23cにおいて、各種信号が入力されると、音響モデル設定部23dにより、外部マイクロフォン種類識別信号と音声認識用情報信号に基づいて、音響モデルが設定される(音声認識処理、音響モデル設定処理)。その後、単語辞書設定部23eにより、単語辞書の単語が設定される(音声認識処理、単語設定処理)。続いて、音声認識部23cにより、認識特定部信号に基づいて、内蔵音声デジタル信号と外部音声デジタル信号のうち少なくとも一方が認識される。具体的には、音声認識部23cにより、文章または単語が認識される(音声認識処理)。なお、音声認識部23cにより、認識特定部信号に基づいて、音声デジタル信号が認識されないこともある。
音声抽出処理と外部音声抽出処理の後に、外部音声認識部202cにおいて、各種信号が入力されると、外部音響モデル設定部202dにより、外部マイクロフォン種類識別信号と音声認識用情報信号に基づいて、音響モデルが設定される(外部音声認識処理、外部音響モデル設定処理)。その後、外部単語辞書設定部202eにより、単語辞書の単語が設定される(外部音声認識処理、外部単語設定処理)。続いて、外部音声認識部202cにより、認識特定部信号に基づいて、内蔵音声デジタル信号と外部音声デジタル信号のうち少なくとも一方が認識される。具体的には、外部音声認識部202cにより、文章または単語が認識される(外部音声認識処理)。なお、外部音声認識部202cにより、認識特定部信号に基づいて、音声デジタル信号が認識されないこともある。
次いで、結果調停部23i3において、音声認識用情報信号と認識特定部信号が入力されると、結果調停部23i3により、図21のフローチャートに沿って、入力されたテキスト信号のうち、コマンド出力部24へ出力する出力認識結果信号(テキスト信号)が決定される(結果調停処理)。
結果調停部23i3により、ステップS15にてテキスト信号の数が一つのテキスト信号のみと判断されると、ステップS47の処理が実行される(結果調停処理)。結果調停部23i3により、ステップS15にてテキスト信号の数が複数のテキスト信号と判断されると、以下の処理が実行される(結果調停処理)。ステップS19の所定時間内に二つ以上のテキスト信号が入力されると、結果調停部23i3により、ステップS25、ステップS31、ステップS37またはステップS41の処理が実行される(結果調停処理)。ステップS19の所定時間内に一つのテキスト信号しか入力されないと、結果調停部23i3により、ステップS47の処理が実行される(結果調停処理)。
次いで、コマンド出力部24において、出力認識結果信号であるテキスト信号が入力されると、コマンド出力部24によりテキスト信号に従って動作信号が出力される(コマンド出力処理)。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、ユーザが発声する音声を認識することができ、出力認識結果信号に従って動作信号を出力することができる。上記のように、認識制御モジュール23は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する処理を行う(認識制御処理)。
次いで、撮像装置1Eの作用効果を説明する。
本実施形態では、音声は、撮像装置1Eに設けられたマイクロフォン14から入力される。接続機器は、音声と環境音のうち少なくとも一方が入力される外部マイクロフォン19である。外部マイクロフォン19は、認識制御モジュール23と接続し、音声を認識する外部認識制御モジュール202を備える。状態取得部22は、外部マイクロフォン19の状態情報信号を取得する。認識制御モジュール23(マイク調停部23i1)は、状態取得部22により取得された外部マイクロフォン19の状態情報信号に基づいて、マイクロフォン14と外部マイクロフォン19のうち少なくとも一方を音声認識用に設定する。認識制御モジュール23(認識調停部23i2)は、認識制御モジュール23(音声認識部23c)と外部認識制御モジュール202(外部音声認識部202c)のうち少なくとも一方を認識特定部(音声認識用)に設定する。従って、外部マイクロフォン19を追加した場合、音声が入力されやすい一方のマイクロフォンを設定することができる(外部マイクロフォンによる音声認識用マイク設定作用)。加えて、外部マイクロフォン19を追加した場合、音声を認識しやすい認識特定部を設定することができる(外部マイクロフォンによる認識特定部設定作用、外部マイクロフォンによる音声認識用設定作用)。
本実施形態では、認識制御モジュール23(認識調停部23i2)は、状態取得部22により取得された外部マイクロフォン19の状態情報信号に基づいて、以下のように、認識特定部(音声認識用)を設定する。認識制御モジュール23(認識調停部23i2)は、認識制御モジュール23(音声認識部23c)と外部認識制御モジュール202(外部音声認識部202c)のうち音声を認識する音声認識性能が高性能な方を、認識特定部(音声認識用)に自動で設定する。即ち、外部マイクロフォン19を追加した場合、少なくとも一方が認識特定部として自動で設定されるので、ユーザが認識特定部を設定しなくて良い。従って、外部マイクロフォン19を追加した場合、ユーザの手間を低減することができる(自動認識特定部設定作用、自動音声認識用設定作用)。
本実施形態では、認識制御モジュール23(認識調停部23i2)は、認識制御モジュール23(音声認識部23c)と外部認識制御モジュール202(外部音声認識部202c)のうち音声認識性能が高性能な方を特定できない場合、以下のように、認識特定部(音声認識用)を設定する。認識制御モジュール23(認識調停部23i2)は、認識制御モジュール23(音声認識部23c)と外部認識制御モジュール202(外部音声認識部202c)の両方を認識特定部(音声認識用)に自動で設定する。即ち、外部マイクロフォン19を追加し、音声認識性能に優劣が無い場合、両方の音声認識性能を使用できるので、音声認識時の誤認識が抑制される。従って、両方の音声認識性能の使用により、音声認識の精度を向上することができる(複数音声認識機能使用作用)。加えて、外部マイクロフォン19を追加し、音声認識性能に優劣が無い場合、両方が認識特定部として自動で設定されるので、ユーザが認識特定部を設定しなくて良い。従って、外部マイクロフォン19を追加し、音声認識性能に優劣が無い場合、ユーザの手間を低減することができる(優劣無し自動認識特定部設定作用、優劣無し自動音声認識用設定作用)。
本実施形態では、認識特定部(音声認識用に設定した音声認識部23cと外部音声認識部202cのうち少なくとも一方)は、複数のテキスト信号を認識制御モジュール23(結果調停部23i3)へ出力する。認識制御モジュール23(結果調停部23i3)は、認識特定部(音声認識用に設定した音声認識部23cと外部音声認識部202cのうち少なくとも一方)により出力された複数のテキスト信号のうち、コマンド出力部24へ出力する出力認識結果信号を決定する。従って、複数のテキスト信号から出力認識結果信号を決定することで、より正しいテキスト信号を選択することができる(出力認識結果決定作用)。
本実施形態では、認識制御モジュール23(結果調停部23i3)は、複数のテキスト信号に、音声が認識されていない非テキスト信号が含まれる場合、非テキスト信号を排除して、出力認識結果信号を決定する。即ち、音声が認識されたテキスト信号から、出力認識結果信号を決定することができる。従って、音声が認識されたテキスト信号を確実に出力認識結果信号として決定することができる(テキスト信号による出力認識結果決定作用)。
本実施形態では、認識特定部(音声認識用に設定した音声認識部23cと外部音声認識部202cのうち少なくとも一方)は、複数のテキスト信号を認識制御モジュール23(結果調停部23i3)へ出力する場合、評価値を、複数のテキスト信号のそれぞれに付す。評価値は、音声の認識時にテキスト信号の精度を示す値である。認識制御モジュール23(結果調停部23i3)は、認識特定部(音声認識用に設定した音声認識部23cと外部音声認識部202cのうち少なくとも一方)により出力された複数のテキスト信号が異なる場合、評価値が最も高いテキスト信号を出力認識結果信号として決定する。即ち、評価値により、音声認識の精度が最も高い出力認識結果信号を決定することができる。従って、評価値により、音声認識の精度を向上することができる(評価値による出力認識結果決定作用)。
本実施形態では、認識制御モジュール23(結果調停部23i3)は、認識特定部(音声認識用に設定した音声認識部23cと外部音声認識部202cのうち少なくとも一方)により出力された複数のテキスト信号が異なる場合、出力認識結果信号を決定せずに何もコマンド出力部24へ出力しない。即ち、複数のテキスト信号が異なる場合、テキスト信号の確かさが比較的低いおそれがあるので、出力認識結果信号を決定せずに何もコマンド出力部24へ出力しない。従って、複数のテキスト信号が異なる場合、出力認識結果信号を決定せずに何もコマンド出力部24へ出力しないことにより、音声認識の精度を低下させないことができる(音声認識精度維持作用)。
本実施形態では、認識制御モジュール23(結果調停部23i3)は、認識特定部(音声認識用に設定した音声認識部23cと外部音声認識部202cのうち少なくとも一方)による複数のテキスト信号の出力に時間差が生じる場合、所定時間が経過するまでは出力認識結果信号を決定しない。即ち、同時に発声したと考えられるテキスト信号が、複数の場合、処理速度によって、全てのテキスト信号が結果調停部23i3へ入力されるまでには時間差が生じることがある。従って、所定時間の間、出力認識結果信号を決定するために、テキスト信号の数を増やすことができる(所定時間によるテキスト信号数増加作用)。
本実施形態では、認識制御モジュール23(結果調停部23i3)は、所定時間が経過した後に、認識特定部(音声認識用に設定した音声認識部23cと外部音声認識部202cのうち少なくとも一方)により出力された一つ以上のテキスト信号から出力認識結果信号を決定する。即ち、所定時間の間に、認識特定部から結果調停部23i3へ入力されないテキスト信号を排除しつつ、認識特定部から結果調停部23i3へ入力されたテキスト信号より出力認識結果信号を決定することができる。従って、所定時間の間に、結果調停部23i3へ入力された一つ以上のテキスト信号から出力認識結果信号を決定することができる(所定時間による出力認識結果決定作用)。
なお、本実施形態では、第4実施形態と同様に、音響モデル設定作用を奏する。また、本実施形態では、第1実施形態と同様に、認識精度向上作用、撮像装置操作作用を奏する。
上述した第1実施形態では、単語辞書設定部23eは、レンズ11aの状態情報信号に基づいて、制御内容である単語辞書の単語を、レンズ11aの状態情報に対応する単語に設定する例を示したが、これに限られない。以下、その他の例として具体例を記載する。
まず、可動部の具体例を記載する。装置本体がスリープ状態では、単語辞書設定部23eは、その状態の状態情報に基づいて、単語辞書の単語を状態情報(電源スイッチの起動)に対応する単語に設定する。ポップアップEVFが有効な状態では、単語辞書設定部23eは、その状態の状態情報に基づいて、単語辞書の単語を状態情報(EVFの明るさ等)に対応する単語に設定する。ポップアップフラッシュが有効な状態では、単語辞書設定部23eは、その状態の状態情報に基づいて、単語辞書の単語を状態情報(強制発光等の発光)に対応する単語に設定する。また、単語辞書設定部23eは、シャッタ機構の状態の状態情報に基づいて、単語辞書の単語を状態情報(シャッタの開閉)に対応する単語に設定する。
次いで、接続機器の具体例を記載する。なお、いずれも撮像装置の装置本体に接続されるものとする。オーディオインターフェス機器(例えばXLRアダプタ)が接続されている状態では、単語辞書設定部23eは、その状態の状態情報に基づいて、単語辞書の単語を状態情報(XLRアダプタに接続されているマイクロフォンを利用するか否か等)に対応する単語に設定する。XLRアダプタは外部マイクロフォンを装置本体に接続可能なアダプタである。「XLR」は、音声用コネクタの規格名称である。三脚や一脚や自撮りミニグリップの脚が折りたたまれている状態にて装置本体がスリープ状態になる場合には、単語辞書設定部23eは、その状態の状態情報に基づいて、単語辞書の単語を状態情報(電源スイッチの起動)に対応する単語に設定する。ジンバルが接続されている状態では、単語辞書設定部23eは、その状態の状態情報に基づいて、単語辞書の単語を状態情報(動画等)に対応する単語に設定する。ジンバルは撮像装置を取り付け、ジンバルそのものが傾いたり揺れたりしていても、撮像装置の傾きや揺れを軽減するものである。外部レコーダが接続されている状態では、単語辞書設定部23eは、その状態の状態情報に基づいて、単語辞書の単語を状態情報(動画等)に対応する単語に設定する。TVや外部モニタが接続されている状態では、単語辞書設定部23eは、その状態の状態情報に基づいて、単語辞書の単語を状態情報(動画(動画再生音量等)等)に対応する単語に設定する。パーソナルコンピュータまたはスマートフォンが接続されている状態では、単語辞書設定部23eは、その状態の状態情報に基づいて、単語辞書の単語を状態情報(webカメラ(撮像装置)の機能(マイクミュート等)等)に対応する単語に設定する。スピードライト(いわゆるストロボ)が接続されている状態では、単語辞書設定部23eは、その状態の状態情報に基づいて、単語辞書の単語を状態情報(発光(テスト発光や発光周期等))に対応する単語に設定する。外付けEVFまたは外付けOVF(光学ファインダ)が接続されている状態では、単語辞書設定部23eは、その状態の状態情報に基づいて、単語辞書の単語を状態情報(EVFの明るさ等)に対応する単語に設定する。OVFは、撮影する像を光学的にファインダへ導くものである。「OVF」は「Optical View Finder」の略である。
なお、以下の具体例の状態では、音声認識機能を無効(OFF)としても良い。レンズ11aが沈胴式レンズであり、沈胴状態のときである。ディスプレイ15がバリアングル式であり、ユーザが画面を見られない状態でディスプレイ15が収納されているときである。詳細には、ディスプレイ15を左側に開かず、ディスプレイ15が装置本体10Bに収納され、ユーザが画面を見られない状態である。撮像装置の装置本体に接続されている、三脚や一脚や自撮りミニグリップの脚が折りたたまれている状態のときである。
上述した第2実施形態では、ディスプレイ15は、バリアングル式である例を示したが、チルト式でも良い。チルト式であっても、ディスプレイの画面が装置本体の前側を向くので自撮りが可能である。
上述した第3実施形態では、マイク設定部23fは、空冷ファン17が駆動しているとき、第4マイクロフォン14dが空冷ファン17から最も遠い位置に配置されているため、音声認識用に設定する例を示したが、これに限られない。例えば、空冷ファン17が駆動しているときであって、自撮りのシーンでは、第4マイクロフォン14dは前後方向においてユーザの位置とは反対になるので、ユーザが発声する音声が入力されにくい。このため、マイク設定部23fは、空冷ファン17が駆動しているときであって、自撮りのシーンでは、以下の条件にて一つのマイクロフォンを音声認識用に設定する。マイク設定部23fは、前側からの音声が入力されやすい位置に配置されたマイクロフォン14のうち、空冷ファン17から最も遠い位置に配置されている一つのマイクロフォンを音声認識用に設定する。例えば、第3実施形態のマイクロフォン14の配置では、マイク設定部23fは、第3マイクロフォン14cを音声認識用に設定する。要するに、マイク設定部23fは、空冷ファン17が駆動しているとき、撮影シーンに合わせて、空冷ファン17から最も遠い位置に配置されているマイクロフォン14を音声認識用に設定すれば良い。
上述した第3実施形態では、マイク設定部23fは、空冷ファン17が駆動しているとき、第1マイクロフォン14a~第4マイクロフォン14dのうち一つを音声認識用に設定する例を示したが、これに限られない。例えば、撮像装置には音声メモ用のマイクロフォンが設けられていることがある。この際、マイク設定部23fは、空冷ファン17が駆動しているとき、マイクロフォン14と音声メモ用のマイクロフォンのうち一つを音声認識用に設定しても良い。
上述した第3実施形態では、マイク設定部23fは、状態情報信号に基づいて、空冷ファン17から最も遠い位置に配置された一つのマイクロフォン(第4マイクロフォン14d)を音声認識用に設定する例を示したが、これに限られない。例えば、マイク設定部23fは、状態情報信号に基づいて、空冷ファン17から最も近い位置に配置された一つのマイクロフォンを除いた、残りの三つのマイクロフォンを音声認識用に設定しても良い。具体的には、図1と図12等を参照すると、マイク設定部23fは、状態情報信号に基づいて、最も近い位置に配置された第2マイクロフォン14bを除いた、残りの第1マイクロフォン14aと第3マイクロフォン14cと第4マイクロフォン14dを音声認識用に設定する。要するに、空冷ファン17の状態情報信号に基づいて、複数のマイクロフォン14のうち音声認識用に使用するマイクロフォンを設定すれば良い。
上述した変形例(3-1)では、空冷ファン17のファン回転数を制御ユニット20から取得する例を示したが、これに限られない。例えば、以下の方法により、ファン回転数を取得することもできる。前提として、ファン回転数は、IC(電子回路の素子)から出力される電圧変化またはPWM信号により制御されるものとする。そして、ファン回転数は、電圧やPWM信号のDutyと比例関係であるので、電圧等の値から算出することができる。このように、ファン回転数は、算出により取得しても良い。更に、プルーニング閾値設定部23gは、算出されたファン回転数に基づいて、プルーニング閾値を設定しても良い。更にまた、音響モデル設定部23dは、算出されたファン回転数に基づいて、音響モデルを設定しても良い。なお、「IC」は「Integrated Circuit」の略である。PWM信号は、パルスの幅を設定することができる信号であり、「PWM」は「Pulse Width Modulation」の略である。
上述した変形例(3-1)では、プルーニング閾値設定部23gは、ファン回転数に基づいて、プルーニング閾値を設定する例を示したが、これに限られない。上述したように、プルーニング閾値とは、音声認識部23cにおける音声認識時の仮説処理を間引く閾値である。このため、プルーニング閾値の設定は、ファン回転数に限らず、音声が入力されるマイクロフォンの種類によっても、そのマイクロフォンの周波数特性や応答特性により、入力される音声の周波数特性が変化する。このため、例えば、プルーニング閾値設定部23gは、音声認識用に設定されるマイクロフォンの種類(状態情報)に基づいて、プルーニング閾値を設定しても良い。これにより、音声認識の精度を向上することができる。
上述した第3実施形態と変形例(3-1)では、マイクロフォン14に混入する空冷ファン17のノイズに対して、マイクロフォン14の設定またはプルーニング閾値の設定により音声認識の精度を向上する例を示した。しかし、これに限られない。例えば、以下の設定により、音声認識の精度を向上することができる。空冷ファン17が駆動しているとき、入力された音声によって撮像装置1Cを操作する制御を制御ユニット20が開始するには、特定のトリガ―ワードを設定する。そして、空冷ファン17が駆動しているときに、特定のトリガ―ワードが検出されると、制御ユニット20は、一時的に空冷ファン17を停止し、入力された音声によって撮像装置1Cを操作する。「特定のトリガーワード」は、意図しない音声認識の制御を防止するための事前登録ワードである。言い換えると、特定のトリガーワードは、入力された音声によって撮像装置1Cを操作する制御を制御ユニット20が開始するためのスイッチともいえる。以下、具体的に説明する。なお、制御ユニット20が、空冷ファン17を制御しているものとする。
まず、上述したように、空冷ファン17の状態情報の変更は、マイクロフォン14に入力された音声の認識に対して影響を与える。このため、空冷ファン17の状態情報の変更により、音声を認識するための制御内容を設定する必要がある。ここでは、制御内容は、特定のトリガーワードの設定である。そして、認識制御モジュール23は、空冷ファン17の状態情報信号に基づいて、特定のトリガーワードを設定する。状態情報は、空冷ファン17が駆動していることがわかる駆動情報であれば良いので、例えばファン回転数や空冷ファン17の駆動情報である。認識制御モジュール23は、ファン回転数に基づいて、特定のトリガーワードを設定する。言い換えると、認識制御モジュール23は、空冷ファン17が駆動していれば特定のトリガーワードを設定する。認識制御モジュール23は、空冷ファン17が駆動していなければ特定のトリガーワードを設定せず、入力された音声を認識する。
次いで、特定のトリガーワードの設定後、認識制御モジュール23が特定のトリガーワードの音声を認識すると、例えば制御ユニット20が一時的に空冷ファン17を停止する。ここで、特定のトリガーワードの音声が入力されるときに、空冷ファン17が駆動していたとしても、認識制御モジュール23が特定のトリガーワードのみを待機している。このため、空冷ファン17のノイズ量の混入が比較的多くても、特定のトリガーワードの音声の認識率は比較的高い状態である。これにより、ノイズ環境でも、特定のトリガーワードの音声の認識が可能である。次いで、認識制御モジュール23は、空冷ファン17が停止されると、入力された音声を認識する。制御ユニット20は、認識制御モジュール23による音声認識が終了し、所定時間の経過後、空冷ファン17を再駆動させる。ここでの所定時間は、ユーザが連続して音声認識機能を利用する場合等を想定した時間であり、予め実験やシミュレーション等に基づいて設定される。
このように、認識制御モジュール23が特定のトリガーワードの音声を認識すると、制御ユニット20が一時的に空冷ファン17を停止する。即ち、一時的に空冷ファン17が停止されることにより、マイクロフォン14に混入する空冷ファン17のノイズが無くなる。このため、音声認識性能への影響が防止されるので、空冷ファン17が駆動しているときよりも、鮮明な音声がマイクロフォン14に入力される。従って、特定のトリガーワードを設定し、空冷ファン17を停止することにより、音声認識の精度を向上することができる。また、認識制御モジュール23は、空冷ファン17の状態情報信号以外の情報に基づいて、特定のトリガーワードを設定しても良い。つまり、入力された音声によって撮像装置1A~1Eを操作する制御を制御ユニット20が開始するために、特定のトリガ―ワードを設定しても良い。そして、特定のトリガ―ワードが検出されると、制御ユニット20は入力された音声によって撮像装置1A~1Eを操作する。
上述した例では、一時的に空冷ファン17が停止される例を示したが、これに限られない。例えば、一時的に空冷ファン17のファン回転数を低下させても良い。これにより、マイクロフォン14に混入する空冷ファン17のノイズ量も低下する。このため、音声認識性能への影響が抑制されるので、ファン回転数を低下しないときよりも、鮮明な音声がマイクロフォン14に入力される。従って、特定のトリガーワードを設定し、ファン回転数を低下することにより、音声認識の精度を向上することができる。なお、ファン回転数の低下量は、音声認識性能への影響を抑制することができる量であり、予め実験やシミュレーション等に基づいて設定される。
上述した空冷ファン17の一時的な、停止またはファン回転数の低下の制御は、特定のトリガーワードの音圧により設定しても良い。そして、制御ユニット20は、特定のトリガーワードの音圧に基づいて、空冷ファン17の一時的な、停止またはファン回転数の低下を制御する。これにより、音声認識の精度を向上することができる。なお、停止またはファン回転数の低下の制御は、特定のトリガーワードの音圧に基づいて、予め実験やシミュレーション等に基づいて設定される。この一例では、認識制御モジュール23は、特定のトリガーワードの音圧に基づいて、空冷ファン17を制御する例を示したが、これに限られない。これに代えて、特定のトリガーワードを設定せずに、制御ユニット20は、特定のトリガーワード以外の音声の音圧に基づいて、空冷ファン17の一時的な、停止またはファン回転数の低下を制御しても良い。また、制御ユニット20は、トリガーワード以外の音声を認識することにより空冷ファン17の一時的な、停止またはファン回転数の低下を制御しても良い。
上述した第4実施形態では、マイク識別部23hは、自動で外部マイクロフォン19を識別し、マイク設定部23fは、識別した識別結果信号に基づいてマイクロフォン14と外部マイクロフォン19のうち一方を音声認識用に他方を動画用に自動で設定する例を示した。また、マイク設定部23fは、識別結果信号に基づいて外部マイクロフォン19を音声認識用かつ動画用に設定する例を示した。しかし、これに限られない。例えば、外部マイクロフォン19がモノラルマイクロフォンかステレオマイクロフォンのどちらであるかの識別と、外部マイクロフォン19の種類の識別と、を自動ではなくユーザ自身が手動で行っても良い。更に、例えば、手動で、マイクロフォン14と外部マイクロフォン19のうち一方を音声認識用に他方を動画用に設定しても良い。更にまた、手動で、外部マイクロフォン19を音声認識用かつ動画用に設定しても良い。これにより、ユーザ自身で音声認識用と動画用を設定することができるので、マイクロフォンの設定自由度を得ることができる。その他の例として、ユーザが、予め外部マイクロフォン19が接続された場合に音声認識用または動画用のどちらに設定するのかを決定しても良い。この設定に基づき、マイク設定部23fは、マイクロフォン14と外部マイクロフォン19のうち一方を音声認識用に他方を動画用に自動で設定すれば良い。これにより、自動音声認識用マイク設定作用を奏する。
上述した第5実施形態では、マイク調停部23i1は、自動で外部マイクロフォン19を識別し、識別した識別結果信号に基づいてマイクロフォン14と外部マイクロフォン19のうち一方を音声認識用に自動で設定する例を示した。しかし、これに限られない。例えば、外部マイクロフォン19の識別は、上記と同様に、ユーザ自身が手動で行っても良い。また、例えば、上記と同様に、手動で、マイクロフォン14と外部マイクロフォン19のうち一方を音声認識用に設定しても良い。これにより、ユーザ自身で音声認識用を設定することができるので、マイクロフォンの設定自由度を得ることができる。その他の例として、上記と同様に、ユーザが予め外部マイクロフォン19が接続された場合に音声認識用または動画用のどちらに設定するのかを決定しても良い。これにより、自動音声認識用マイク設定作用を奏する。
上述した第5実施形態では、マイク調停部23i1は、識別結果信号に基づいて、マイクロフォン14と外部マイクロフォン19のうち少なくとも一方を音声認識用に自動で設定する例を示したが、これに限られない。以下に、具体例を示す。
一例としては、マイク調停部23i1は、音処理部23aの内蔵音デジタル信号と外部音処理部202aの外部音デジタル信号を用いて、マイクロフォン14と外部マイクロフォン19のうち少なくとも一方を音声認識用に自動で設定しても良い。具体的には、マイク調停部23i1は、音デジタル信号の音圧の高さ(音圧レベル)により、マイクロフォン14と外部マイクロフォン19のうち少なくとも一方を音声認識用に自動で設定する。音声認識用の音声以外の音の成分を減らすために、例えば音声帯域200Hz~8kHzに絞った音圧の高さにより、内蔵音デジタル信号と外部音デジタル信号の音圧の高さを比較する。そして、マイク調停部23i1は、内蔵音デジタル信号と外部音デジタル信号のうち音圧が高い方のマイクロフォンを音声認識用に自動で設定する。これにより、自動音声認識用マイク設定作用を奏する。ただし、音割れを含む場合(ゼロ(0)dBFS以上でクリップが生じている場合)は、音声が正しくデジタル化されていないため、音声認識用に設定しない。
別の一例として、マイク調停部23i1は、装置本体10Eに外部マイクロフォン19が接続されたとき、実際の使用状態にて、音声認識用の音声(ワード、所定語句)をユーザに発声する旨をディスプレイ15等の報知部によりユーザへ報知する。ユーザにより発声された音声が入力されたことを確認することができた場合、以下の処理を行う。まず、音処理と音抽出処理により内蔵音声デジタル信号を抽出し、外部音処理と外部音声抽出処理により外部音声デジタル信号を抽出する。次いで、音声デジタル信号について音声認識処理または外部音声認識処理を行う。そして、内蔵音声デジタル信号と外部音声デジタル信号のうちテキスト信号が出力された方のマイクロフォンを音声認識用に自動で設定する。これにより、自動音声認識用マイク設定作用を奏する。
上述した第5実施形態では、認識調停部23i2は、音声認識部23cと外部音声認識部202cのうち少なくとも一方を認識特定部に自動で設定する例を示した。しかし、これに限られない。自動ではなく、ユーザ自身が手動で、音声認識部23cと外部音声認識部202cのうち一方または両方を認識特定部に設定しても良い。これにより、ユーザ自身で認識特定部を設定することができるので、認識特定部の設定自由度を得ることができる。
上述した第5実施形態では、認識制御モジュール23と外部認識制御モジュール202の両方を示したが、これに限られない。どちらか一方のみでも良い。この際、認識特定部の設定の余地が無いため認識調停部23i2は不要である。
上述した第5実施形態では、認識特定部信号が性能優劣無しの場合、音声認識部23cと外部音声認識部202cの両方が順序に関係なく認識処理を行う例を示したが、これに限られない。例えば、認識特定部信号が性能優劣無しの場合、まず、音声認識部23cと外部音声認識部202cの一方が認識処理を行う。次いで、音声が認識できた場合には他方が認識処理を行わず、テキスト信号を結果調停部23i3へ出力する。音声が認識できない場合には他方が認識処理を行う。このように、音声認識部23cと外部音声認識部202cが順番に認識処理を行っても良い。
上述した第5実施形態では、結果調停部23i3は、ステップS31にて残りのテキスト信号を出力認識結果信号と決定する例を示した。結果調停部23i3は、ステップS37にて最高評価値のテキスト信号を出力認識結果信号と決定する例を示した。しかし、これに限られない。ステップS31もステップS37も、ステップS23にて複数のテキスト信号が不一致である(テキスト信号不一致)と結果調停部23i3は判断している。このため、ステップS23にてテキスト信号不一致との判断の後は、結果調停部23i3は、ステップS41と同様にテキスト信号を出力認識結果信号と決定しなくても良い。これにより、音声認識精度維持作用を奏する。
上述した第5実施形態では、結果調停部23i3は、ステップS41にてテキスト信号を出力認識結果信号と決定しない例を示した。上記の例でも、結果調停部23i3は、ステップS23にてテキスト信号不一致との判断の後はステップS41と同様にテキスト信号を出力認識結果信号と決定しない例を示した。しかし、これに限られない。結果調停部23i3は、「テキスト信号を出力認識結果信号と決定しない」ではなく、「非テキスト信号を出力認識結果信号として決定する」としても良い。この際、結果調停部23i3が非テキスト信号を出力認識結果信号としてコマンド出力部24へ出力する。このように処理を行っても、コマンド出力部24により何の動作信号も出力されないので、結果として出力認識結果信号と決定しない例と同様になる。つまり、コマンド出力部24は、非テキスト信号がワードと一致しないと判定し、何の動作信号も出力しないで、処理を終了する。これにより、音声認識精度維持作用を奏する。
上述した第5実施形態では、結果調停部23i3は、出力認識結果信号をコマンド出力部24へ出力する例を示したが、これに限られない。結果調停部23i3は、出力認識結果信号を外部コマンド出力部203へ出力しても良い。外部コマンド出力部203は、第5実施形態のコマンド出力部24と同様に、結果調停部23i3より入力された出力認識結果信号に従って、動作信号(コマンド信号)を出力する。具体的には、外部コマンド出力部203は、以下のコマンド出力処理(出力処理)を、結果調停部23i3から出力認識結果信号が入力される間に繰り返し行う。
まず、外部コマンド出力部203は、外部記憶部201にも格納されている記憶部21と同様の図7のコマンドリストを読み込む。次いで、外部コマンド出力部203は、テキスト信号が、読み込んだコマンドリストのワード欄に記載のワードと一致するか否かを判定(識別)する。外部コマンド出力部203は、ワードと一致する場合、コマンドリストの動作欄に記載の撮像装置1Eの動作を動作信号として撮像装置1E(例えば図略の各種のアクチュエータ等)へ出力して、処理を終了する。なお、外部コマンド出力部203は、制御ユニット20等を介して、動作信号を撮像装置1E(例えば図略の各種のアクチュエータ等)へ出力する。そして、図略の各種のアクチュエータ等は、入力された動作信号により動作する。一方、外部コマンド出力部203は、ワードと一致しない場合、何の動作信号も出力しないで、処理を終了する。アクチュエータ等の具体例については、コマンド出力部24に記載のものと同様である。
上述した第4実施形態と第5実施形態では、装置本体10D,10Eは外部マイクロフォン19を別体に有する例を示した。すなわち、外部マイクロフォン19単体を装置本体10D,10Eに接続する例を示したが、これに限られない。外部マイクロフォン19は、装置本体10D,10Eに接続される接続機器の一部であっても良い。つまり、外部マイクロフォン19は、自撮りミニグリップやバッテリグリップまたはバッテリパックに設けられている(搭載されている)ものでも良い。例えば、外部マイクロフォン19は、自撮りミニグリップに設けられている音声メモ用のマイクロフォンでも良い。また、第5実施形態では、外部マイクロフォン19そのものが外部制御ユニット200を有する例を示したが、上記の自撮りミニグリップやバッテリグリップまたはバッテリパックが同様に外部制御ユニットを有しても良い。
上述した第4実施形態と第5実施形態では、ワイヤレスマイクロフォン19は、マイクロフォン本体19aとレシーバ19bの二つから構成される例を示したが、これに限られない。例えば、第4実施形態のレシーバ19bは、撮像装置1Dに内蔵されていても良い。このため、ワイヤレスマイクロフォン19は、マイクロフォン本体19aに入力された音を無線により、撮像装置1Dに内蔵されたレシーバへ伝送するものとなる。これにより、装置側コネクタ18と外部側コネクタ19cの接続は不要になる。第5実施形態のレシーバ19bは、外部制御ユニット200とは別ではなく、外部制御ユニット200に内蔵されていても良い。
上述した実施形態や一例では、音アナログ信号を音デジタル信号に変換した後に、各処理を行う例を示したが、これに限られない。例えば、同様の各処理を行うことが可能なアナログ電気電子回路によって実現しても良い。
上述した実施形態や一例では、マイクロフォン14は音をアナログ信号の音アナログ信号(音アナログデータ)へ変換する例を示したが、これに限られない。例えば、マイクロフォン14は音をデジタル信号の音デジタル信号(音デジタルデータ)へ変換しても良い。これにより、音処理部23aにおける音アナログ信号から音デジタル信号に変換する処理が不要となる。
上述した第4実施形態では、環境音抽出部231とエンコード部232により動画用音制御の処理を行う例を示した。この例を上述した実施形態や一例に適用しても良い。第1~3実施形態や変形例(3-1)では、時間信号を用いて、音デジタル信号から音声デジタル信号を抑制すれば環境音デジタル信号が抽出される。なお、アンビソニックス化する処理やノイズ除去の処理やエンコード処理は第4実施形態と同様である。第5実施形態では、第4実施形態のマイク設定部23fと同様に、マイク調停部23i1により識別結果信号に基づいてマイクロフォン14と外部マイクロフォン19のうち一方を動画用のマイクロフォンに自動で設定すれば良い。後の環境音デジタル信号の抽出等は、第4実施形態と同様に行えば良い。
上述した実施形態や一例では、音処理や音声抽出処理や環境音抽出処理において、ノイズ除去の処理を行う例を示したが、これに限られない。要するに、ノイズ除去の処理は、音アナログ信号を音デジタル信号へ変換した後のタイミングであればいつでも良い。
上述した第4実施形態や一例では、音処理の後であってエンコード処理の前のリアルタイムに環境音抽出処理を行う例を示したが、これに限られない。例えば、音デジタル信号から環境音デジタル信号を抽出する必要が無ければ、リアルタイムにて環境音抽出処理を行わず後処理しても良い。後処理の場合、音処理の後に、音デジタル信号のままファイルへ変換し映像データと同期して動画ファイルとしてエンコードする。そして、動画ファイルを記憶部21や外部記憶部201へ記録する。また、音声デジタル信号をデータとして記憶部21や外部記憶部201へ記録する。ただし、音デジタル信号と音声デジタル信号の時間をタグ付けしておく。これにより、後処理を容易に行うことができる。
上述した第1、3~5実施形態や変形例(3-1)では、マイクロフォン14の数を四つとする例を示したが、これに限られない。例えば、指向性を設定することができれば良いので、マイクロフォン14の数は三つとしても良い。三つのマイクロフォンは同一平面上に配置され、一つのマイクロフォンは残り二つのマイクロフォンを結ぶ一直線上に配置されないものとする。そして、三つのマイクロフォンの配置関係は、三つのマイクロフォンを点と仮定したときに、当該三つの点を線分で結ぶと三角形を形成可能な位置に三つのマイクロフォンは配置される。これにより、マイクロフォンアレイを構成する。なお、第2実施形態においてディスプレイ15が装置本体10Bの前方向と後方向しか可動しない場合、マイクロフォン14の数を上記の通り三つとしても良い。
ここで、「マイクロフォンアレイ」とは、複数のマイクロフォンを平面上に配置して、各マイクロフォンに入力される音(詳細には音波の存在する平面の空間(音場))を処理することにより、水平方向(平面)における特定方向の音を得ることができる装置である。そして、マイクロフォンアレイを用いて指向性を制御する公知のビームフォーミングにより特定方向の音を強調または低減することができる。基本的には、複数のマイクロフォン同士の間に距離があるため、音源から各マイクロフォンへの音波には位相差が生じる。この音波の位相差の分だけ、音源に近いマイクロフォンに入力された一方の音波を遅延させる。そして、一方と他方の音波を加算または減算することにより、波の重ね合わせの原理により音の周波数によって特定方向の音を強め合ったり打ち消しあったりすることができる。これにより、指向性を形成することができる。なお、指向性は周波数に依存する。この際、音声抽出部23bにより、(内蔵)音デジタル信号から、上述した指向性制御(公知のビームフォーミング)により(内蔵)音声デジタル信号が抽出される。
上述した実施形態や一例では、マイクロフォン14の数を三つ以上とする例を示したが、これに限られない。要するに、マイクロフォン14の数は増やしても良い。マイクロフォンの数を増やせば増やすほど、ユーザの音声の認識精度や動画用音の抽出精度を向上することができる。更に、マイクロフォンを増やせば増やすほど空間的に周波数のサンプリング精度が上がり、音の方向の検出精度向上および指向性が強く形成できる。
上述した第1,4~5実施形態や変形例(3-1)では、マイクロフォン14の数を三つ~四つとする例を示したが、これに限られない。要するに、マイクロフォン14の数は一つでも良い。この際、音声抽出部23bにより、マイクロフォン14に入力された音デジタル信号がそのまま音声デジタル信号として抽出される。
上述した第3実施形態や一例では、マイクロフォン14の数を三つ以上とする例を示したが、これに限られない。要するに、マイクロフォン14の数は複数(二つ以上)あれば良い。この際、音声抽出部23bにより、マイクロフォン14に入力された音デジタル信号がそのまま音声デジタル信号として抽出される。マイクロフォン情報信号が「音声認識用に設定した一つのマイクロフォンの情報」の場合、音声抽出部23bにより、第3実施形態と同様に音声デジタル信号が抽出される。
上述した実施形態や一例では、マイクロフォン14を各箇所に配置する例を示したが、これに限られない。例えば、自撮りのシーンを考慮すれば、全てのマイクロフォンを装置本体10A~10Eの前面に配置(例えば撮像光学系11の周囲の位置)することが好ましい。なお、四つのマイクロフォンを有する場合、上述した実施形態等と同様に三角錐(一例)を形成可能な位置に配置されていれば、アンビソニックスを適用することができる。なお、四つのマイクロフォンを有する場合、これらのマイクロフォンの配置は、アンビソニックスを適用することができる位置であれば良い。ここで、マイクロフォン14を各箇所に配置して、上記の各作用を奏するためには、各作用を奏する位置にマイクロフォン14を配置すればマイクロフォン14の位置はどこに配置されていても良い。
上述した実施形態や一例では、マイクロフォン14の指向性を無指向性とする例を示したが、これに限られない。例えば、マイクロフォン14の指向性は、特定方向の音を捉える単一指向性(例えば角度180度)としても良い。要するに、マイクロフォン14の指向性は、取付位置や入力される音や抽出する音に基づいて決定されれば良い。
上述した実施形態や一例では、制御用プログラムは記憶部21に格納されている例を示した。上述した第5実施形態や一例では、外部制御用プログラムは外部記憶部201に格納されている例を示した。しかし、これに限られない。例えば、制御用プログラムと外部制御用プログラムは外部の記憶媒体に格納されていても良い。記憶媒体は、DVD(Digital Versatile Disc)、USB(Universal Serial Bus)外部記憶装置、メモリーカード等である。DVD等は、光学ディスクドライブ等を用いて制御ユニット20や外部制御ユニット200に接続する。そして、制御用プログラムと外部制御用プログラムが格納されているDVD等から、制御用プログラムを制御ユニット20に、外部制御用プログラムを外部制御ユニット200に、それぞれ読み込んで、各RAMにて実行しても良い。また、記憶媒体は、インターネット上のサーバ装置としても良い。そして、制御用プログラムと外部制御用プログラムが格納されているサーバ装置内から、通信部26を通じて、制御用プログラムを制御ユニット20に、外部制御用プログラムを外部制御ユニット200に、それぞれ読み込んで、各RAMにて実行しても良い。なお、サーバ装置内から外部制御用プログラムを外部制御ユニット200に読み込む場合、外部制御ユニット200は外部通信部を有するものとする。
上述した実施形態や一例では、教師データと音響モデルは記憶部21や外部記憶部201に格納されている例を示した。しかし、これに限られない。なお、以下において、教師データと音響モデルをまとめて「音響モデル等」と記載する。例えば、音響モデル等は外部の記憶媒体に格納されていても良い。記憶媒体は、DVD(Digital Versatile Disc)、USB(Universal Serial Bus)外部記憶装置、メモリーカード等である。DVD等は、光学ディスクドライブ等を用いて例えば制御ユニット20や外部制御ユニット200に接続する。そして、音響モデル等が格納されているDVD等から、音響モデル等を制御ユニット20や外部制御ユニット200に、それぞれ読み込んでも良い。また、記憶媒体は、インターネット上のサーバ装置としても良い。そして、音響モデル等が格納されているサーバ装置内から、通信部26を通じて、音響モデル等を制御ユニット20や外部制御ユニット200に、それぞれ読み込んでも良い。なお、サーバ装置内から音響モデル等を外部制御ユニット200に読み込む場合、外部制御ユニット200は外部通信部を有するものとする。
上述した実施形態や一例では、制御内容は、単語辞書の単語、特定方向音声の抽出、マイクロフォン14、プルーニング閾値、マイクロフォン14と外部マイクロフォン19の音声認識用と動画用、認識特定部、音響モデルの設定である例を示した。上述した実施形態や一例では、認識制御モジュール23は、各状態情報に基づいて各制御内容を設定する例を示した。しかし、これに限られない。例えば、制御内容は単語辞書の単語と特定方向音声の抽出と音響モデルの設定であり、認識制御モジュール23は、複数の状態情報に基づいてそれらの制御内容を設定しても良い。要するに、制御内容は、音声を認識するためのものであれば、一つでも複数でも良い。このため、状態取得部22により取得された状態情報も、一つに限らず複数でも良い。そして、認識制御モジュール23は、状態情報に基づいて、音声を認識するための制御内容を設定すれば良い。ここで、撮像装置1A~1Eでは、制御内容の項目が他の製品よりも比較的多いばかりでなく、一つの被写体を撮影する際、一回の撮影ごとに複数の制御内容が頻繁に設定される。動画撮影中でも、例えばディスプレイ15の画面角度が変更されることがあるので、特定方向音声の抽出が変更される。このため、特に、撮像装置1A~1Eにおいて、認識制御モジュール23は、複数の状態情報に基づいてそれらの制御内容を設定することが比較的多くなる。
上述した第5実施形態では、認識制御モジュール23が調停制御部23iを有する例を示したが、装置本体10Eに接続される接続機器が調停制御部23iを有していても良い。例えば、外部認識制御モジュール202が調停制御部23iを有していても良い。
上述した実施形態や一例では、本案件の音声認識装置、音声認識方法、音声認識プログラム、および、撮像装置を、撮像装置1A~1Eに適用する例を示したが、これに限られない。例えば、本案件の音声認識装置と音声認識方法と音声認識プログラムを、電子計算機(例えばスマートフォン、対象機器)等に適用することができる。電子計算機等は、少なくとも状態取得部22と認識制御モジュール23とコマンド出力部24を備える。また、電子計算機等は、撮像光学系11やファインダ12を備えていれば、本案件の撮像装置を適用しても良い。なお、上述した実施形態や一例では、装置本体10A~10Eの上面よりも上側にファインダ12を有する撮像装置1A~1Eに、本実施形態の音声認識装置、音声認識方法、音声認識プログラム、および、撮像装置を適用する例を示したが、これに限られない。例えば、装置本体10A~10Eの上面にファインダ12を有しないレンジファインダ型等の撮像装置に、本実施形態の音声認識装置、音声認識方法、音声認識プログラム、および、撮像装置を適用しても良い。レンジファインダ型の場合、例えば三つの第2マイクロフォン14b~第4マイクロフォン14dを装置本体10A~10Eの上面に配置することが可能である。なお、アイセンサ13は有さなくても良い。
本案件の音声認識装置と音声認識方法と音声認識プログラムを、外部機器(例えば外部サーバや電子計算機等、対象機器)に適用することができる。外部機器は、少なくとも状態取得部22と認識制御モジュール23とコマンド出力部24を備える。例えば、撮像装置1A~1Eは、マイクロフォン14や外部マイクロフォン19を有し、通信部26により音アナログ信号や音デジタル信号を外部機器(例えば、外部サーバ)へ送信する。次いで、外部機器では、状態取得部22の取得処理や認識制御モジュール23の音声認識処理(認識処理)やコマンド出力部24のコマンド出力処理(出力処理)等の各処理が行われる。次いで、外部機器は、動作信号を一台以上の撮像装置1A~1Eへ送信する。次いで、撮像装置1A~1Eの例えば各種アクチュエータ等は、通信部26により受信した動作信号により動作する。このように、本実施形態の音声認識装置、音声認識方法、および、音声認識プログラムを、外部機器(例えば外部サーバや電子計算機等、対象機器)に適用しても、少なくとも認識精度向上作用を奏する。なお、一部の音声認識処理やコマンド出力処理を装置本体10A~10Eの認識制御モジュール23で行い、残りの一部の音声認識処理やコマンド出力処理を外部機器の認識制御モジュールで行っても良い。
本出願は、2021年7月13日に、日本国特許庁に出願された特願2021-116000に基づいて優先権を主張し、その全ての開示は、完全に本明細書で参照により組み込まれる。