JP7743868B2

JP7743868B2 - 撮像装置、音声認識方法、音声認識プログラム

Info

Publication number: JP7743868B2
Application number: JP2023534819A
Authority: JP
Inventors: 安軌伊藤; 静二 ▲高▼野; 裕輔詫摩
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2021-07-13
Filing date: 2022-07-12
Publication date: 2025-09-25
Anticipated expiration: 2042-07-12
Also published as: WO2023286775A1; JPWO2023286775A1; US20240331693A1

Description

本案件は、撮像装置、音声認識方法、音声認識プログラムに関するものである。

音声操作の対象となる電子機器（デジタルカメラ）の状態を示す情報を取得し、該情報に対応付けられた語句を候補語句として決定し、音声データから特定語句を検出する。特定語句が候補語句のいずれかの語句であることを特定し、該語句を認識語句と決定する。デジタルカメラの状態とは、撮影モード、表示モード、各種パラメータが設定されている状態、すなわち制御状態を示す（特許文献１参照）。

特開2014-149457号公報

しかし、上述の特許文献１に開示された技術では、音声操作の対象となる電子機器に設けられた可動部や接続機器の状態情報が変更されると、音声認識の精度が低下するおそれがある。

第１の態様によれば、音声認識装置は、取得部と、認識制御部と、出力部と、を備える。取得部は、入力された音声によって操作される対象機器に設けられた可動部、及び、対象機器に接続される接続機器の少なくとも一方に関する情報を取得する。認識制御部は、取得部により取得された情報に基づいて、音声を認識するための制御内容を設定し、音声を認識する。出力部は、認識制御部による認識結果に従って対象機器を操作するためのコマンド信号を対象機器に出力する。認識制御部は、取得部により取得された状態情報に基づいて、制御内容である単語辞書の単語を、可動部および接続機器の少なくとも一方の状態情報に対応する単語に制限する。上記音声認識装置は、対象機器に備えられる。対象機器は、複数種類の交換可能な撮像光学系を取付けて可動部にする撮像装置本体である。このような撮像装置では、認識制御部は、取得部により取得された撮像光学系の状態情報に基づいて、制御内容である単語辞書の単語を、取付けた撮像光学系の状態情報に対応する単語に制限する。第２の態様によれば、音声認識方法は、取得処理と、認識制御処理と、出力処理と、を含む。取得処理は、入力された音声によって操作される対象機器に設けられた可動部、及び、対象機器に接続される接続機器の少なくとも一方に関する情報を取得する。認識制御処理は、音声が入力されると、取得処理により取得された情報に基づいて、音声を認識するための制御内容を設定し、音声を認識する。出力処理は、認識制御処理による認識結果に従って対象機器を操作するためのコマンド信号を対象機器に出力する。認識制御処理は、取得処理により取得された状態情報に基づいて、制御内容である単語辞書の単語を、可動部および接続機器の少なくとも一方の状態情報に対応する単語に制限する。対象機器が、複数種類の交換可能な撮像光学系を取付けて可動部にする撮像装置本体とされる。認識制御処理は、取得処理により取得された撮像光学系の状態情報に基づいて、制御内容である単語辞書の単語を、取付けた撮像光学系の状態情報に対応する単語に制限する。第３の態様によれば、音声認識プログラムは、取得処理と、認識制御処理と、出力処理と、をコンピュータに実行させる。取得処理は、入力された音声によって操作される対象機器に設けられた可動部、及び、対象機器に接続される接続機器の少なくとも一方に関する情報を取得する。認識制御処理は、音声が入力されると、取得処理により取得された情報に基づいて、音声を認識するための制御内容を設定し、音声を認識する。出力処理は、認識制御処理による認識結果に従って対象機器を操作するためのコマンド信号を対象機器に出力する。認識制御処理は、取得処理により取得された状態情報に基づいて、制御内容である単語辞書の単語を、可動部および接続機器の少なくとも一方の状態情報に対応する単語に制限する。対象機器が、複数種類の交換可能な撮像光学系を取付けて可動部にする撮像装置本体とされる。認識制御処理は、取得処理により取得された撮像光学系の状態情報に基づいて、制御内容である単語辞書の単語を、取付けた撮像光学系の状態情報に対応する単語に制限する。

第１実施形態を示す音声認識装置を備える撮像装置の後方斜視図である。第１実施形態を示す音声認識装置を備える撮像装置の平面図である。第１実施形態を示す音声認識装置を備える撮像装置の背面図である。第１実施形態を示す撮像装置の制御ユニットのブロック構成図である。第１実施形態を示す撮像装置の制御ユニットと認識制御モジュールのブロック構成図である。第１実施形態を示す撮像装置の記憶部に格納されているレンズの単語辞書の「Ｆ値」を示す図である。第１実施形態を示す撮像装置の記憶部に格納されているレンズの単語辞書の「焦点距離」を示す図である。第１実施形態を示す撮像装置の記憶部に格納されているコマンドリストを示す図である。第２実施形態を示す撮像装置の制御ユニットのブロック構成図である。第２実施形態を示す撮像装置のディスプレイの可動状態（左側に開いた状態）を示す図である。第２実施形態を示す撮像装置のディスプレイの可動状態（回転させた状態）を示す図である。第２実施形態を示す撮像装置の音声抽出部における特定方向音声（上側）の空間の一例を説明する説明図である。第２実施形態を示す撮像装置の音声抽出部における特定方向音声（下側）の空間の一例を説明する説明図である。第２実施形態を示す撮像装置の音声抽出部における自撮りを説明する説明図である。第２実施形態を示す撮像装置の制御ユニットと認識制御モジュールのブロック構成図である。第３実施形態を示す音声認識装置を備える撮像装置の背面図である。第３実施形態を示す撮像装置の制御ユニットのブロック構成図である。第３実施形態を示す撮像装置の制御ユニットと認識制御モジュールのブロック構成図である。第３実施形態の変形例３－１を示す撮像装置の制御ユニットと認識制御モジュールのブロック構成図である。第４実施形態を示す撮像装置にワイヤレスマイクロフォンを設けた一例を示す図である。第４実施形態を示す撮像装置の制御ユニットのブロック構成図である。第４実施形態を示す撮像装置の制御ユニットと認識制御モジュールと外部マイクロフォンのブロック構成図である。第５実施形態を示す外部マイクロフォンの外部制御ユニットのブロック構成図である。第５実施形態を示す撮像装置の制御ユニットと認識制御モジュールと外部制御ユニットと外部認識制御モジュールのブロック構成図である。第５実施形態の結果調停部における出力認識結果の決定制御の処理構成を示すフローチャートである。第５実施形態の結果調停部におけるテキスト信号の数のリストを示す図である。

以下、図面に基づいて各実施形態である音声認識装置と音声認識方法と音声認識プログラムと撮像装置が適用される撮像装置（対象機器、例えばデジタルカメラ）について説明する。なお、以下において、可動部は複数の部材（構成要素）から構成されるものであり、単体の部材（一つの構成要素）が可動部材とする。
（第１実施形態）

図１～図７を参照して、撮像装置１Ａについて説明する。

撮像装置１Ａの装置本体１０Ａ（本体、筐体）は、図１～図４に示すように、撮像光学系１１（結像光学系）と、ファインダ１２と、アイセンサ１３と、マイクロフォン１４（入力部、内蔵マイクロフォン）と、ディスプレイ１５（表示部）と、を有する。装置本体１０Ａは、マイクロフォン１４として、第１マイクロフォン１４ａ（入力部）と、第２マイクロフォン１４ｂ（入力部）と、第３マイクロフォン１４ｃ（入力部）と、第４マイクロフォン１４ｄ（入力部）と、を有する。装置本体１０Ａの右側にはグリップ部１００が一体に構成されている。更に、装置本体１０Ａは、操作部１６として、電源スイッチ１６ａと、撮影モードダイヤル１６ｂと、静止画／動画切り換えレバー１６ｃと、シャッタボタン１６ｄと、動画撮影ボタン１６ｅと、等を有する。更にまた、装置本体１０Ａは、制御ユニット２０を有する。更に、装置本体１０Ａは、図略の各種のアクチュエータ等を有する。なお、以下において、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄを特に区別しない場合には「マイクロフォン１４」とも記載する。

撮像光学系１１は、レンズ１１ａ等から構成されており、装置本体１０Ａの前面、かつ、グリップ部１００の左側に配置されている。レンズ１１ａは、可動部であり、交換可能な交換式（交換レンズ）である。撮像光学系１１は、レンズ１１ａとして、例えば、単焦点レンズ、電動ズームレンズ（ズームレンズ）、または、沈胴式レンズ等を含む。「沈胴式レンズ」とは、レンズの前後方向の長さを短く収納できるものであり、主にレンズの鏡筒部分を伸縮させることにより前後方向の長さを調整するものである。沈胴式レンズは、レンズが収納された収納状態では、撮影できない、または、撮影できるがピントを合わせることはできない。レンズ１１ａは、沈胴式レンズであり、かつ、電動ズームレンズの場合もある。レンズ１１ａは、図略のレンズ制御ユニットを有する。レンズ１１ａは、交換されると、レンズ制御ユニットと制御ユニット２０との通信により、装置本体１０Ａに取り付けられたレンズ１１ａの状態情報（情報）を状態情報信号として装置本体１０Ａへ送信する。レンズ１１ａの状態情報とは、型番、種類、Ｆ値（絞り値）、ズームレンズの場合の焦点距離（ミリ）、沈胴式か否か等の製品情報である。なお、レンズ１１ａは、装置本体１０Ａに一体に設けられた可動部として、交換できないものであっても良い。撮像光学系１１は、図略の撮像素子（例えばＣＭＯＳイメージセンサ）に被写体像を結像する。「ＣＭＯＳ」は「ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ」の略である。

ファインダ１２は、例えば、装置本体１０Ａの後側、かつ、撮像光学系１１とディスプレイ１５よりも上側に配置されている。ファインダ１２は、例えば公知の電子ビューファインダ（ＥＶＦ）であり、ファインダ１２内に設けられたファインダ用ディスプレイに表示される画像により被写体を確認するものである。なお、「ＥＶＦ」は「ＥｌｅｃｔｒｏｎｉｃＶｉｅｗＦｉｎｄｅｒ」の略である。

アイセンサ１３は、ユーザがファインダ１２を覗いているか否かを検出するセンサである。アイセンサ１３は、ファインダ１２をユーザが覗く部分の周囲に配置されている。例えば、本実施形態ではアイセンサ１３はファインダ１２の上側に配置されている。ユーザがファインダ１２を覗くと、アイセンサ１３はユーザの眼がファインダ１２に接している接眼状態を検出する。ユーザがファインダ１２を覗いていないと、アイセンサ１３はユーザの眼がファインダ１２から離れている離眼状態を検出する。

マイクロフォン１４は、撮像装置１Ａの全方位（三次元）の音を再現するために、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄを用いる。音響技術は、三次元サウンドフォーマットとしてＡｍｂｉｓｏｎｉｃｓ（アンビソニックス）を適用する。三次元サウンドは、近年、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）動画にて用いるような音の方向を自由に変えて再生する技術の総称であり、立体音響技術の一部である。Ａｍｂｉｓｏｎｉｃｓには、ＦＯＡ（ＦｉｒｓｔＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓ）やＨＯＡ（ＨｉｇｈＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓ）等に分類されるフォーマットがある。ＦＯＡには、ＡｍｂｉＸやＦｕＭａ等がある。例えば、「ＡｍｂｉＸ」とは、全方位の空間の音（詳細には音波の存在する空間（音場））を記録することにより、音の再生時に音源が存在する特定の方向の音を再現することができる技術である。また、全方位における特定の方向の音を強調または低減することができる。

第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれには、ユーザが発声する音声とユーザ周囲の環境音との両方の音が入力される。第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれは、音をアナログ信号の音アナログ信号へ変換する。マイクロフォン１４の指向性は、例えば、全ての方向から同じ感度で音が入力される無指向性（全指向性）である。第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれのマイクロフォン感度は同一である。なお、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれのマイクロフォン感度は異ならせても良く、感度の違いによる調整は、後述する音処理部２３ａや音声抽出部２３ｂ等により行えば良い。マイクロフォン感度は、ユーザが発声する音声の入力が可能な感度に設定される共に、撮像装置１Ａを中心とした所定範囲の環境音の入力が可能な感度に設定される。

ここで、「環境音」とは、街の喧騒や自然の音等の日常的な音に加え、街で流れる音楽等も含む音である。環境音には、被写体が生き物である場合には、その生き物が発する音（例えば人間の音声や動物の鳴き声や虫の羽音等）も含む。

第１マイクロフォン１４ａは、装置本体１０Ａの後面、かつ、撮像光学系１１とディスプレイ１５よりも下側位置であって、ディスプレイ１５よりも右側位置に配置されている。

第２マイクロフォン１４ｂと第３マイクロフォン１４ｃは同一平面上に配置されている。第２マイクロフォン１４ｂと第３マイクロフォン１４ｃは、装置本体１０Ａの上面、かつ、撮像光学系１１の左右位置に一つずつ配置されている。

第４マイクロフォン１４ｄは、装置本体１０Ａの後面かつ右端（グリップ部１００側）に配置されている。第４マイクロフォン１４ｄは、第１マイクロフォン１４ａと同一平面上に配置されている。

第１マイクロフォン１４ａ～第４マイクロフォン１４ｄの位置関係について説明する。第１マイクロフォン１４ａ～第４マイクロフォン１４ｄをそれぞれ点と仮定したときに、当該四つの点を線分で結ぶと三角錐を形成可能な位置に第１マイクロフォン１４ａ～第４マイクロフォン１４ｄは配置されている。

ディスプレイ１５は、制御ユニット２０から供給される画像を表示する。ディスプレイ１５は、例えば液晶ディスプレイであり、タッチパネル機能を有している。ディスプレイ１５は、装置本体１０Ａの後面に設けられている。ディスプレイ１５には、撮影中の画像と、撮像装置１Ａの機能メニュー画像と、撮像装置１Ａの設定情報画像と、撮影された画像と、等を表示することができる。ディスプレイ１５のタッチ操作により撮像装置１Ａの各種機能の設定等を行うことができる。

操作部１６は、撮影等に関するボタンやスイッチ等で構成されている。操作部１６は、ディスプレイ１５のタッチ操作により可能なものも含んでいる。電源スイッチ１６ａは、撮像装置１Ａの電源のＯＮとＯＦＦを切り替える。撮影モードダイヤル１６ｂは、撮影モードを変更する。なお、撮影モードには、各種設定を撮像装置１Ａが自動で設定するオートモードと、ユーザが頻繁に使用する機能を事前に登録するユーザセッティングモードと、等が有る。静止画／動画切り換えレバー１６ｃは、静止画撮影または動画撮影を切り替える。シャッタボタン１６ｄは、半押しによりピントを合わせることができ、全押しにより静止画を撮影することができる。動画撮影ボタン１６ｅは、動画の撮影前に押すと動画の撮影を開始し、動画の撮影中に押すと動画の撮影を終了する。

以下、図４を参照して、制御ユニット２０のブロック構成について説明する。

制御ユニット２０（コンピュータ）は、記憶部２１と、状態取得部２２（取得部）と、認識制御モジュール２３（認識制御部）と、コマンド出力部２４と、撮像部２５と、通信部２６と、ジャイロセンサ２７（傾きセンサ）と、を有する。

制御ユニット２０は、ＣＰＵ等の演算素子を有し、記憶部２１に格納されている図略の制御用プログラムが起動時に読み出されて制御ユニット２０において実行される。これにより、制御ユニット２０は、レンズ１１ａと、ファインダ１２と、マイクロフォン１４と、ディスプレイ１５と、操作部１６と、状態取得部２２と、認識制御モジュール２３と、コマンド出力部２４と、撮像部２５と、通信部２６と、を含む撮像装置１Ａ全体の制御を行う。制御ユニット２０は、可動部と接続機器のうち少なくとも一方が設けられた撮像装置１Ａを、ユーザが発声する音声の認識により操作する。言い換えると、制御ユニット２０は、可動部と接続機器のうち少なくとも一方が設けられた撮像装置１Ａを、入力された音声によって操作する。制御ユニット２０には、レンズ１１ａの状態情報信号と、アイセンサ１３の検出信号（検出結果）と、マイクロフォン１４の音アナログ信号と、ジャイロセンサ２７の角度信号（傾き情報）と、等の各種信号が入力される。制御ユニット２０には、図略の入力インタフェースを介して、ディスプレイ１５のタッチ操作による撮像装置１Ａの各種機能の設定信号等と、操作部１６からの各操作信号と、等の各種信号が入力される。制御ユニット２０は、入力された各種信号に基づいて、撮像装置１Ａ全体の制御を行う。なお、「ＣＰＵ」は「ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ」の略である。

例えば、制御ユニット２０は、アイセンサ１３の検出信号が接眼状態のとき、図略のディスプレイコントローラを介して、ディスプレイ１５の電源を自動的に消すと共に、ファインダ用ディスプレイの電源を自動的に入れる。制御ユニット２０は、アイセンサ１３の検出信号が離眼状態のとき、図略のディスプレイコントローラを介して、ディスプレイ１５の電源を自動的に入れると共に、ファインダ用ディスプレイの電源を自動的に消す。

記憶部２１は、大容量記憶媒体（例えばフラッシュメモリやハードディスクドライブ等）およびＲＯＭ、ＲＡＭ等の半導体記憶媒体を備える。記憶部２１には上述の制御用プログラムが格納されていると共に、制御ユニット２０の制御動作時に必要とされる各種信号（各種センサ信号、状態情報信号等）や各種データが一時的に格納される。記憶部２１のＲＡＭには、マイクロフォン１４より入力された未圧縮のＲＡＷ音声データ（生音声データ）が一時的に格納される。記憶部２１には、撮像部２５から出力される画像データや映像データ等の各種データも格納される。なお、「ＲＯＭ」は「ＲｅａｄＯｎｌｙＭｅｍｏｒｙ」の略であり、「ＲＡＭ」は「ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ」の略である。

状態取得部２２は、各種信号を取得し、記憶部２１と認識制御モジュール２３へ出力する。本実施形態では、状態情報信号は、レンズ１１ａに関する状態情報の信号である。

認識制御モジュール２３は、マイクロフォン１４より入力された音アナログ信号の変換や、ユーザが発声する音声の認識や、認識されたテキスト信号（認識結果）の出力等の処理を行う。認識制御モジュール２３は、テキスト信号をコマンド出力部２４へ出力する。認識制御モジュール２３の詳細は後述する。

コマンド出力部２４は、認識制御モジュール２３からのテキスト信号に従って動作信号（コマンド信号）の出力の処理を行う。コマンド出力部２４の詳細は後述する。

撮像部２５において、図略の撮像素子は撮像光学系１１により結像する被写体像を撮像して画像信号を生成する。生成された画像信号に対して各種の画像処理（例えばノイズ除去処理や圧縮処理等）を施し、画像データ（静止画）を生成する。生成された画像データは記憶部２１に格納される。動画撮影の場合には、連続した複数の画像データから映像データを生成し、生成された映像データは記憶部２１に格納される。

通信部２６は、有線または無線により外部機器と通信する。

ジャイロセンサ２７は、装置本体１０Ａの傾きすなわち装置本体１０Ａの角度（姿勢）や角速度や角加速度を検出する公知のセンサである。

以下、図５を参照して、制御ユニット２０と認識制御モジュール２３のブロック構成について説明する。コマンド出力部２４についても説明する。

認識制御モジュール２３は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する（認識制御処理）。認識制御モジュール２３は、音処理部２３ａと、音声抽出部２３ｂと、音声認識部２３ｃ（認識部）と、を有する。音声認識部２３ｃは、音響モデル設定部２３ｄと、単語辞書設定部２３ｅと、を有する。なお、図５に示す例では、本実施形態の撮像装置１Ａは、レンズ１１ａと、マイクロフォン１４と、制御ユニット２０と、認識制御モジュール２３と、を備える。制御ユニット２０は、音声認識装置として機能する。制御用プログラムとして、各部２２，２３ａ～２３ｅ，２４の処理を実行するためのプログラムが記憶部２１に格納されている。制御ユニット２０は、プログラムを読み出して、ＲＡＭにて実行することにより、各部２２，２３ａ～２３ｅ，２４の処理を行う。

状態取得部２２は、各種信号を取得し、記憶部２１と認識制御モジュール２３へ出力する。

音処理部２３ａは、マイクロフォン１４より入力された音アナログ信号を、音デジタル信号（音デジタルデータ、音）への変換や音デジタル信号の公知のノイズ除去等の音処理を行う。音処理部２３ａは、音デジタル信号を音声抽出部２３ｂへ出力する。音処理部２３ａは、以下の音処理を、マイクロフォン１４に音（複数の音、複数の音声）が入力される間に繰り返し行う。なお、音処理は、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれに入力された音について別々に行う。また、音デジタル信号は、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれに入力された音が、音処理された信号を特に区別しない場合のことである。

まず、音処理部２３ａは、音アナログ信号を増幅する。音処理部２３ａは、プリアンプを用いて、音アナログ信号を増幅する。音処理部２３ａは、増幅した音アナログ信号をアナログ・デジタル・コンバータへ出力する。ここで、音アナログ信号を増幅する理由は、音アナログ信号が微弱だからである。増幅は、次のアナログ・デジタル・コンバータの受けられる電圧の幅に合わせることにより、ＳＮＲやダイナミックレンジを確保することができる。なお、「ＳＮＲ」は、「Ｓ／Ｎ比（信号対雑音比）」のことである。

次いで、音処理部２３ａは、音デジタル信号に変換する。音処理部２３ａは、アナログ・デジタル・コンバータを用いて、音アナログ信号を音デジタル信号へ変換する。そして、音処理部２３ａは、音処理した音デジタル信号を音声抽出部２３ｂへ出力する。なお、以下において、第１マイクロフォン１４ａに入力された音が、音処理された信号を「第１マイク音デジタル信号（第１マイク音デジタルデータ）」と記載する。第２マイクロフォン１４ｂに入力された音が、音処理された信号を「第２マイク音デジタル信号（第２マイク音デジタルデータ）」と記載する。第３マイクロフォン１４ｃに入力された音が、音処理された信号を「第３マイク音デジタル信号（第３マイク音デジタルデータ）」と記載する。第４マイクロフォン１４ｄに入力された音が、音処理された信号を「第４マイク音デジタル信号（第４マイク音デジタルデータ）」と記載する。第１マイク音デジタル信号～第４マイク音デジタル信号を特に区別しない場合には「音デジタル信号」と記載する。

音声抽出部２３ｂは、各種信号に基づいて、指向性を設定する。例えば、音声抽出部２３ｂは、アイセンサ１３から入力された信号が、接眼状態の場合、角度信号に基づいて、指向性を切り替える。具体的には、角度信号が横位置か縦位置かにより、指向性を切り替える。「横位置」とは、ファインダ１２が撮像光学系１１よりも上側にある状態位置である。「縦位置」とは、グリップ部１００が撮像光学系１１よりも上側または下側にある状態位置である。音声抽出部２３ｂは、音処理部２３ａより入力された音デジタル信号から、音声デジタル信号（音声デジタルデータ、音声）を抽出する。音声抽出部２３ｂは、抽出した音声デジタル信号を音声認識部２３ｃへ出力する。音声抽出部２３ｂは、以下の音声抽出処理を、音処理部２３ａから音デジタル信号が入力される間に繰り返し行う。

音声抽出部２３ｂは、第１マイク音デジタル信号～第４マイク音デジタル信号により音声の位置（ユーザの口の位置）を推定して、その音声の位置に基づいて音デジタル信号から音声デジタル信号を抽出する（指向性制御による抽出）。これにより、音声認識が可能な音声デジタル信号を抽出することができる。

次いで、音声抽出部２３ｂは、抽出した音声デジタル信号について、以下に説明する、ＤＣ成分のカット、周波数特性の調整、ボリュームの調整および風切り音の低減のノイズ除去の処理を行う。

次いで、音声抽出部２３ｂは、音デジタル信号のＤＣ成分（直流成分）をカットする。例えば、音声抽出部２３ｂは、ハイ・パス・フィルタ（周波数帯域制限フィルタ）を用いて、ＤＣ成分をカットする。ここで、ＤＣ成分をカットしないと、音デジタル信号のバイアスにより、信号の振幅幅に制限ができてしまい、音割れやダイナミックレンジの悪化を伴うおそれがある。

次いで、音声抽出部２３ｂは、音デジタル信号の周波数特性を調整する。例えば、音声抽出部２３ｂは、バンド・パス・フィルタを用いて、音デジタル信号の周波数特性を調整する。周波数特性を調整する理由は、電気的なピークノイズの除去や音質調整のためである。なお、バンド・パス・フィルタを、イコライザやノッチフィルタ（バンド・ストップ・フィルタ）としても良い。

次いで、音声抽出部２３ｂは、音デジタル信号のボリュームを調整する。例えば、音声抽出部２３ｂは、ダイナミック・レンジ・コントロールやオート・ゲイン・コントロールを用いて、ボリュームが大きい音が入ったときには感度を下げ、小さい音が入ったときには感度を上げる、というボリューム処理を行う。なお、ボリュームの大小の判定は、予め実験やシミュレーション等に基づいて設定される。音声抽出部２３ｂは、ノイズゲートを更に用いて、ノイズレベルの小さな音しか入っていないときにはさらに感度を下げ、ベースノイズを抑制しても良い。なお、ベースノイズは、暗騒音のことであり、例えば撮像装置１Ａの駆動音等である。

次いで、音声抽出部２３ｂは、音デジタル信号から風切り音を低減する。例えば、音声抽出部２３ｂは、音デジタル信号を解析し、風の入力を識別判断して、音デジタル信号につき風切り音を低減する処理を行う。なお、ＤＣ成分のカット、周波数特性の調整、ボリュームの調整および風切り音の低減の順番は上述した順番に限られない。

そして、音声抽出部２３ｂは、ノイズ除去した音声デジタル信号を音声認識部２３ｃへ出力する。

音声認識部２３ｃは、状態情報信号に基づいて、音声抽出部２３ｂより入力された音声デジタル信号を認識するための制御内容を設定し、音声デジタル信号を認識する。音声認識部２３ｃは、テキスト信号をコマンド出力部２４へ出力する。音声認識部２３ｃは、以下の音声認識処理（認識処理）を、状態情報信号と、音声抽出部２３ｂから音声デジタル信号と、が入力される間に繰り返し行う。以下、音響モデル設定部２３ｄと単語辞書設定部２３ｅを説明する。

まず、音声認識部２３ｃが有する音響モデル設定部２３ｄは、各種信号に基づいて、記憶部２１に格納されている複数の音響モデルから、音声認識に適した音響モデルを選択する。そして、音響モデル設定部２３ｄは、選択した音響モデルを記憶部２１から読み込み、音声認識のための音響モデルとして設定する。例えば、アイセンサ１３の検出信号が接眼状態の場合、装置本体１０Ａに接してユーザが発声するため（マイクロフォン１４とユーザの口の距離が数ｃｍ以内）、ユーザが発声する音声は囁き声になることが想定される。アイセンサ１３の検出信号が離眼状態の場合、装置本体１０Ａから離れてユーザが発声するため（マイクロフォン１４とユーザの口の距離が１０ｃｍ以上）、ユーザが発声する音声は通常発声になることが想定される。このため、囁き声や通常発声等により発声された音声デジタル信号に合った音響モデルを設定する必要がある。また、音声が入力されたマイクロフォン１４の特性に合った音響モデルを設定する必要がある。

ここで、「音響モデル」について説明する。音響モデルは、物理的な「音」を文字の最小単位の「音素」に変換するためのモデルである。音響モデルは、多数の話者から取得した不特定音声の教師データの特徴を学習したことにより作成される。教師データは、多数の話者から取得した不特定音声の音声データとラベルデータ(何の言葉が発声されたか)のセットである。音響モデルは、不特定音声の音声周波数特性に基づいて作成される。音声の周波数特性は、例えば囁き声や通常発声等の音声によって周波数特性が変化するため、複数の音響モデルが必要になる。同様の理由により、複数の教師データも必要になる。複数の音響モデルと複数の教師データは記憶部２１に格納されている。なお、囁き声の周波数特性は、通常発声の周波数特性よりも低周波数（成分）が少ないという特徴がある。

また、通常発声と囁き声について説明する。「通常発声」とは、母音が有声音の音声のことである。「有声音」とは、ユーザが発声する音声のうち、ユーザの声帯の振動を伴う音である。「囁き声」とは、上記の通常発声の音声の少なくとも一部を無声化した音声である。「無声化」とは、母音または子音が無声音になることを指す。「無声音」とは、ユーザが発声する音声のうち、ユーザの声帯の振動を伴わない音である。ここで、「通常発声」と「囁き声」について一例を示す。なお、英語の大文字を有声音と仮定し、英語の小文字を無声音と仮定する。例えば、「動画」というワードを発声する場合について説明する。通常発声では「ＤＯＵＧＡ」となる。囁き声では、「ＤｏｕＧａ」や「ｔＯＵｋＡ」のように有声音と無声音の混合の場合や、「ｔｏｕｋａ」のように完全に無声化される場合がある。また、通常発声でも無声音を含む場合がある。例えば、「撮影」は、通常発声では「ｓＡｔＵＥＩ」となり、囁き声では「ｓａｔｕｅｉ」となる。このように、囁き声による「撮影」では、通常発声の音声の少なくとも一部を無声化した音声となる。

次いで、音声認識部２３ｃは、音声デジタル信号を、音声認識エンジンにて「音素」に変換する。具体的には、音声認識部２３ｃは、音響モデルを用いて、音声デジタル信号を音素に変換する。なお、音声認識エンジンは、入力された音声デジタル信号をテキスト化する。

次いで、音声認識部２３ｃは、音素の並び順を、予め格納した単語辞書（発音辞書）と紐づけて、単語の候補を列挙する。単語辞書は、音響モデルにて変換された音素から単語へ紐づけるための辞書である。また、単語辞書は、予め記憶部２１に格納されている。音声認識部２３ｃが有する単語辞書設定部２３ｅは、各種信号に基づいて、記憶部２１に格納されている単語辞書の単語から、音声認識に適した単語を選択する。そして、単語辞書設定部２３ｅは、選択した単語を記憶部２１から読み込み、音声認識のための単語辞書の単語として設定する。ここで、単語辞書の「単語」とは、例えば、図６Ａの「Ｆ値」で説明すると、一つの「Ｆ値」が一つの単語に相当する。具体例として、「Ｆ１．０」が一つの単語に相当する。

ここで、単語辞書設定部２３ｅは、状態情報信号に基づいて、音声抽出部２３ｂより入力された音声デジタル信号を認識するための制御内容を設定する。本実施形態では、状態情報信号は、レンズ１１ａの状態情報の信号である。レンズ１１ａの状態情報は、レンズ１１ａの交換により変更される。例えば、レンズ１１ａが電動ズームレンズから単焦点レンズに交換されると、レンズ１１ａの状態情報が変更される。そうすると、交換前後において、設定可能なＦ値、焦点距離の変更の有無の状態が変更される。つまり、レンズ１１ａの状態情報の変更は、マイクロフォン１４に入力された音声の認識に対して影響を与える。このため、レンズ１１ａの状態情報の変更により、音声を認識するための制御内容を設定する必要がある。上記のように、レンズ１１ａの変更により、交換前後では設定可能なＦ値等の状態情報が変更される。本実施形態では、制御内容は、単語辞書の単語の設定である。そして、単語辞書設定部２３ｅは、状態情報信号に基づいて、制御内容である単語辞書の単語を、レンズ１１ａの状態情報に対応する単語に設定する。言い換えると、単語辞書設定部２３ｅは、状態情報信号に基づいて、レンズ１１ａが設定可能な範囲に単語辞書の単語を制限する。なお、レンズ１１ａの交換後において、撮像装置１Ａの全体としても装置状態が変更されることになる。

例えば、レンズ１１ａが単焦点レンズの場合と電動ズームレンズとの場合では、設定可能なＦ値や焦点距離が異なる。単焦点レンズの場合にはＦ値は変更できるので、単語辞書設定部２３ｅは、図６Ａ，図６Ｂに示すように、単語辞書の単語を、装置本体１０Ａに取り付けられた単焦点レンズの状態情報に対応する単語に設定する。なお、図６Ａ，図６Ｂの丸印の部分が、各レンズの設定可能な範囲である。なお、単焦点レンズの場合には焦点距離は変更できないので、単語辞書設定部２３ｅは、焦点距離に関する単語が何も無い単語辞書に設定する。電動ズームレンズの場合にはＦ値も焦点距離も変更できるので、単語辞書設定部２３ｅは、単語辞書の単語を、装置本体１０Ａに取り付けられた電動ズームレンズの状態情報に対応する単語に設定する。図６Ａ，図６Ｂには一例として、電動ズームレンズＡと電動ズームレンズＢの設定可能な範囲を示している。また、沈胴式レンズの場合には収納状態では撮影ができないので、単語辞書設定部２３ｅは、「撮影」の単語が無い単語辞書に設定する。なお、沈胴式レンズの種類によっては収納状態でも撮影できるがピントを合わせることはできないものもあるが、上記と同様に、単語辞書設定部２３ｅは、「撮影」の単語が無い単語辞書に設定する。

次いで、音声認識部２３ｃは、単語の候補を、言語モデルを用いて、単語の候補から正しい文章になる文章の候補を列挙する。なお、言語モデルは、単語の並びの確立情報モデルであり、言葉の並びを制限することにより単語の候補から正しい文章になる文章の候補の精度と速度を向上することができる。一例として、「わたし」「は」「げんき」「です」等である。また、言語モデルは、予め記憶部２１に格納されている。

次いで、音声認識部２３ｃは、文章の候補のうち、最も統計的評価値が高い文章を選択する。そして、音声認識部２３ｃは、選択された文章（認識結果）をテキスト信号（テキストデータ）としてコマンド出力部２４へ出力する。「統計的評価値」は、音声の認識時に認識結果の精度を示す評価値である。

なお、撮像装置１Ａにおいて、音素から一つの単語が出力される場合には、文章の候補列挙と文章の選択を省略して、音素から出力された単語（認識結果）をテキスト信号（テキストデータ）としてコマンド出力部２４へ出力しても良い。また、そもそも音処理された音デジタル信号に、環境音は含まれているが音声が含まれていない場合もある。音声認識部２３ｃは、この場合、音声が認識されていない非該当認識結果を、文章や単語を含まない非テキスト信号（テキスト信号の一種）としてコマンド出力部２４へ出力する。

コマンド出力部２４は、音声認識部２３ｃより入力されたテキスト信号に従って、動作信号（コマンド信号）を出力する。具体的には、コマンド出力部２４は、以下のコマンド出力処理（出力処理）を、音声認識部２３ｃからテキスト信号が入力される間に繰り返し行う。

まず、コマンド出力部２４は、記憶部２１に格納されている図７のコマンドリストを読み込む。次いで、コマンド出力部２４は、テキスト信号が、読み込んだコマンドリストのワード欄に記載のワードと一致するか否かを判定（識別）する。コマンド出力部２４は、ワードと一致する場合、コマンドリストの動作欄に記載の撮像装置１Ａの動作を動作信号として撮像装置１Ａ（例えば図略の各種のアクチュエータ等）へ出力して、処理を終了する。そして、図略の各種のアクチュエータ等は、入力された動作信号により動作する。一方、コマンド出力部２４は、ワードと一致しない場合、何の動作信号も出力しないで、処理を終了する。ここで、アクチュエータ等の具体例を示す。例えば、オートフォーカス調整用のモータ、シャッタ操作用のモータ、レンズズームモータ等がある。アクチュエータの他には、撮像装置１Ａの設定、メニュー検索による表示の変更、または、写真へのタグ等の情報付加等がある。写真へのタグとは、具体的に、撮った写真に音声でタグ（写真の表題や名前）を付けることである。

次に、既存の音声認識装置について説明する。

音声認識装置は、音声操作の対象となる電子機器（デジタルカメラ）の状態を示す情報を取得し、該情報に対応付けられた語句を候補語句として決定し、音声データから特定語句を検出する。特定語句が候補語句のいずれかの語句であることを特定し、該語句を認識語句と決定する。デジタルカメラの状態とは、撮影モード、表示モード、各種パラメータが設定されている状態、すなわち制御状態を示す。しかし、上記音声認識装置は、デジタルカメラに設けられた可動部の動作や接続機器により変更される状態情報に着目したものではない。このため、上記音声認識装置では、可動部の動作や接続機器により状態情報が変更されると、音声認識の精度が低下するおそれがある。

ここで、デジタルカメラにおいては、レンズ１１ａ、ディスプレイ１５、空冷ファン（１７）等の可動部が比較的多く存在する。更に、デジタルカメラにおいては、外部マイクロフォン（１９）、自撮り用グリップ、バッテリグリップ（バッテリパック）等の接続機器が比較的多く存在する。

そこで、出願人は、上記に示すように、状態情報の変更は、マイクロフォン１４に入力された音声の認識に対して影響を与えることに着目し、ユーザが音声認識機能を利用する場合、状態情報に基づいて、音声認識の精度を向上する。

次に、第１実施形態の作用効果について説明する。

まず、撮像装置１Ａの音声認識制御の作用効果を説明する。状態取得部２２において、各種信号が入力されると、状態取得部２２により各種信号が取得される（取得処理）。取得処理部と同時または取得処理部の前後に、音処理部２３ａにおいて、マイクロフォン１４に音が入力されると、音処理部２３ａにより音アナログ信号が音デジタル信号へ変換される（音処理）。次いで、音声抽出部２３ｂにおいて、各種信号と音デジタル信号が入力されると、音声抽出部２３ｂにより、各種信号に基づいて指向性が設定され、音デジタル信号から音声デジタル信号が抽出される（音声抽出処理）。次いで、音声抽出部２３ｂにより、抽出された音声デジタル信号についてノイズ除去の処理を行う（音声抽出処理）。

次いで、音声認識部２３ｃにおいて、各種信号と音声デジタル信号が入力されると、音響モデル設定部２３ｄにより、音響モデルが設定される（音声認識処理、音響モデル設定処理）。その後、単語辞書設定部２３ｅにより、状態情報信号に基づいて、制御内容である単語辞書の単語が、状態情報信号に対応する単語に設定される（音声認識処理、単語設定処理）。続いて、音声認識部２３ｃにより、文章または単語が認識される（音声認識処理）。次いで、コマンド出力部２４において、認識結果であるテキスト信号が入力されると、コマンド出力部２４によりテキスト信号に従って動作信号が出力される（コマンド出力処理）。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、ユーザが発声する音声を認識することができ、認識結果に従って動作信号を出力することができる。上記のように、認識制御モジュール２３は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する処理を行う（認識制御処理）。

続いて、撮像装置１Ａの作用効果を説明する。

本実施形態では、状態取得部２２と、認識制御モジュール２３と、コマンド出力部２４と、を備えている。状態取得部２２は、入力された音声によって操作される撮像装置１Ａに設けられた可動部、及び、接続機器のうち少なくとも一方に関する状態情報信号を取得する。認識制御モジュール２３は、状態取得部２２により取得された状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する。コマンド出力部２４は、認識制御モジュール２３によるテキスト信号に従って撮像装置１Ａを操作するための動作信号を撮像装置１Ａに出力する。従って、状態情報信号に基づいて、音声認識の精度を向上することができる（認識精度向上作用）。言い換えると、状態情報信号を反映して、音声認識の精度を向上することができる。

本実施形態では、認識制御モジュール２３（音声認識部２３ｃ、単語辞書設定部２３ｅ）は、状態取得部２２により取得された状態情報信号に基づいて、制御内容である単語辞書の単語を、可動部および接続機器の少なくとも一方の状態情報信号に対応する単語に設定する。即ち、単語辞書の単語の設定により、音素から単語への紐づけ精度が向上する。このため、状態情報信号に対応する単語の設定により音声認識時に誤認識が抑制される。従って、単語の設定により、音声認識の精度を向上することができる（単語設定作用）。

本実施形態では、撮像装置１Ａは、音声認識装置を備える。撮像装置１Ａは撮像光学系１１を備える。即ち、撮像装置１Ａに音声を認識可能な機能を持たせることができる。従って、撮像装置１Ａを音声により操作することができる（撮像装置操作作用）。

本実施形態では、撮像光学系１１は、レンズ１１ａとして、単焦点レンズ、ズームレンズ、または、沈胴式レンズを含む。認識制御モジュール２３（音声認識部２３ｃ、単語辞書設定部２３ｅ）は、状態取得部２２により取得された状態情報信号に基づいて、制御内容である単語辞書の単語を、レンズ１１ａの状態情報信号に対応する単語に設定する。従って、音声認識時にレンズ１１ａの設定の誤認識を抑制することができるので、音声認識の精度を向上することができる（レンズ１１ａの単語設定作用）。
（第２実施形態）

次に、図８～図１１を参照して、第２実施形態の撮像装置１Ｂについて説明する。なお、第１実施形態と同様の構成はその説明を省略または簡略化する。

撮像装置１Ｂの装置本体１０Ｂ（本体、筐体）は、第１実施形態と同様に、撮像光学系１１（結像光学系）と、ファインダ１２と、アイセンサ１３と、マイクロフォン１４（入力部、内蔵マイクロフォン）と、ディスプレイ１５（表示部、可動部）と、を有する（図１～図３，図８参照）。装置本体１０Ｂの右側にはグリップ部１００が一体に構成されている。更に、装置本体１０Ｂは、制御ユニット２０と、図略の各種のアクチュエータ等を有する。

ディスプレイ１５は、図９Ａ，図９Ｂに示すように、第１実施形態と異なり、画面角度を変更することが可能なバリアングル式である。ディスプレイ１５は、図９Ａに示すように、装置本体１０Ｂの左側に開くことができる。そして、開いた状態で、図９Ｂのように回転させることが可能である。例えば、上下方向においてユーザの眼の位置よりも低い位置にある被写体を撮影するときには、図１０Ａに示すようにディスプレイ１５の画面を上向きにする。これにより、ユーザは、ファインダ１２を覗かずディスプレイ１５を装置本体１０Ｂの上方から見ればローアングル撮影を行うことができる。更に、上下方向においてユーザの眼の位置よりも高い位置にある被写体または人越しに被写体を撮影するときには、図１０Ｂに示すようにディスプレイ１５の画面を下向きにする。これにより、ユーザは、ファインダ１２を覗かずディスプレイ１５を装置本体１０Ｂの下方から見ればハイアングル撮影を行うことができる。更にまた、自分の写真を撮影する（自撮り）ときには、図１０Ｃに示すようにディスプレイ１５の画面を装置本体１０Ｂの前向きにする。これにより、ユーザは、ファインダ１２を覗かずディスプレイ１５に表示されるユーザ自身の位置を確認しながら、自撮りを行うことができる。

ディスプレイ１５は、図８に示すように、画面角度センサ１５ａを有している。画面角度センサ１５ａは、ディスプレイ１５の画面角度を検出するセンサである。画面角度センサ１５ａは、画面角度を検出すると、制御ユニット２０との通信により、ディスプレイ１５の状態情報を状態情報信号として制御ユニット２０へ送信する。ディスプレイ１５の状態情報とは、画面角度センサ１５ａにより検出された画面角度である。例えば、撮影時における装置本体１０Ｂが図９Ａ，図９Ｂと図１０Ａ～図１０Ｃに示すように横位置の場合、ディスプレイ１５の角度は以下のようにする。収納状態（図１参照）と、図９Ａに示すようにディスプレイ１５を左側に開いた状態と、はディスプレイ１５の角度を「ゼロ」度とする。収納状態とは、ディスプレイ１５を左側に開かず、ディスプレイ１５が装置本体１０Ｂに収納され、ユーザが画面を見られる状態である。ディスプレイ１５が図１０Ｃの状態は、ディスプレイ１５の角度を１８０度とする。ディスプレイ１５の角度が「ゼロ」度の状態で、図１０Ａに示すように画面が上向きになる状態をプラスの角度とし、図１０Ｂに示すように画面が下向きになる状態をマイナスの角度とする。ディスプレイ１５の他の構成は、第１実施形態のディスプレイ１５と同様である。

以下、図８を参照して、制御ユニット２０のブロック構成について説明する。

制御ユニット２０には、第１実施形態と異なり、アイセンサ１３の検出信号（検出結果）と、マイクロフォン１４の音アナログ信号と、ディスプレイ１５の状態情報信号（画面角度信号）と、ジャイロセンサ２７の角度信号（傾き情報）と、等の各種信号が入力される。

状態取得部２２は、各種信号を取得し、記憶部２１と認識制御モジュール２３へ出力する。本実施形態では、状態情報信号は、ディスプレイ１５に関する状態情報の信号である。

以下、図１１を参照して、制御ユニット２０と認識制御モジュール２３のブロック構成について説明する。

認識制御モジュール２３は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する（認識制御処理）。認識制御モジュール２３は、音処理部２３ａと、音声抽出部２３ｂと、音声認識部２３ｃ（認識部）と、を有する。音声認識部２３ｃは、音響モデル設定部２３ｄと、単語辞書設定部２３ｅと、を有する。なお、図１１に示す例では、本実施形態の撮像装置１Ｂは、マイクロフォン１４と、ディスプレイ１５と、画面角度センサ１５ａと、制御ユニット２０と、認識制御モジュール２３と、を備える。制御ユニット２０は、音声認識装置として機能する。なお、第２実施形態では、音声抽出部２３ｂと、音声認識部２３ｃと、について説明する。また、状態取得部２２と、音処理部２３ａと、コマンド出力部２４と、は第１実施形態と同様である。

音声抽出部２３ｂは、各種信号に基づいて、指向性を設定する。音声抽出部２３ｂは、音処理部２３ａより入力された音デジタル信号から、音声デジタル信号（音声デジタルデータ、音声）を抽出する。音声抽出部２３ｂは、抽出した音声デジタル信号を音声認識部２３ｃへ出力する。音声抽出部２３ｂは、以下の音声抽出処理を、音処理部２３ａから音デジタル信号が入力される間に繰り返し行う。

ここで、音声抽出部２３ｂは、状態情報信号に基づいて、音声デジタル信号を認識するための制御内容を設定する。本実施形態では、状態情報信号は、ディスプレイ１５の状態情報の信号すなわち画面角度信号である。ディスプレイ１５の状態情報は、ディスプレイ１５の画面角度により変更される。例えば、図１０Ａ～図１０Ｃに示すように、ディスプレイ１５の画面が向いている方向にユーザの口があると推定される。例えば、図１０Ａの場合は、ユーザの口はディスプレイ１５の画面に対して上側である。図１０Ｂの場合は、ユーザの口はディスプレイ１５の画面に対して下側である。図１０Ｃの場合は、ユーザの口はディスプレイ１５の画面に対して前側である。このように、ディスプレイ１５の画面角度が変更されると、音声を発声するユーザの口の位置が変更されることになる。つまり、ディスプレイ１５の状態情報の変更は、マイクロフォン１４に入力された音声の認識に対して影響を与える。このため、ディスプレイ１５の状態情報の変更により、音声を認識するための制御内容を設定する必要がある。上記のように、画面角度の変更により、ユーザの口の位置が変更される。これにより、音声が特定方向からマイクロフォン１４に入力されるので、特定方向の音声の抽出が変更される。本実施形態では、制御内容は、音声のうち特定方向音声の抽出の設定（指向性制御の設定）である。そして、音声抽出部２３ｂは、状態情報信号に基づいて、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれに入力された音声から特定方向音声の抽出を設定する。「特定方向音声」は、特定方向の音声である。音声抽出部２３ｂは、状態情報信号に基づいて、第１マイク音デジタル信号～第４マイク音デジタル信号の音声のうち特定方向音声の音声デジタル信号を抽出する。具体的には、音声抽出部２３ｂは、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれに入力された音声に対し、Ａｍｂｉｘを適用し、全方位の空間の音声から特定方向音声を抽出する。

例えば、画面角度１度ごとに予め特定方向が設定されている。このため、音声抽出部２３ｂは、状態情報信号に基づいて、特定方向音声の抽出を設定する。画面角度１度ごとの特定方向は、予め実験やシミュレーション等に基づいて、画面角度に対するユーザの口の位置が設定される。なお、画面角度に対するユーザの口の位置は推定位置である。これにより、音声認識が可能な音声デジタル信号を抽出することができる。図１０Ａ，図１０Ｂを例として、特定方向音声の範囲について説明する。なお、図１０Ａ，図１０Ｂでは、第３マイクロフォン１４ｃと第４マイクロフォン１４ｄを図示していないが、第３マイクロフォン１４ｃと第４マイクロフォン１４ｄに入力されたそれぞれの音についても音声デジタル信号の抽出に用いるものとする。音声抽出部２３ｂは、図１０Ａの場合、ディスプレイ１５の画面に対して上側を特定方向とし、空間２２１のように該特定方向の特定方向音声を全方位の空間の音声デジタル信号として抽出する。音声抽出部２３ｂは、図１０Ｂの場合、ディスプレイ１５の画面に対して下側を特定方向とし、空間２２２のように該特定方向の特定方向音声を全方位の空間の音声デジタル信号として抽出する。

なお、音声抽出部２３ｂは、抽出した特定方向音声の音声デジタル信号について、第１実施形態と同様に、ノイズ除去の処理を行う。

まず、音響モデル設定部２３ｄは、状態情報信号に基づいて、音声抽出部２３ｂより入力された音声デジタル信号を認識するための制御内容を設定する。本実施形態では、状態情報信号は、画面角度信号である。上記の画面角度を例にすると、画面角度の変更により、音声が特定方向からマイクロフォン１４に入力されるので、音声がディスプレイ１５にぶつかることがある。そうすると、回折現象によって音声の周波数特性等が変化するので、音響モデルを変更する必要がある。また、画面角度によって音声が入力されにくいマイクロフォン１４があるので、音響モデルを変更する必要がある。なお、画面角度に加え、ディスプレイ１５の位置も変更されるので、画面角度とディスプレイ１５の位置が、音声の周波数特性等に影響を与える。このため、ディスプレイ１５の画面角度の変更により、音声を認識するための制御内容を設定する必要がある。本実施形態では、制御内容は、音響モデルの設定である。そして、音響モデル設定部２３ｄは、状態情報信号に基づいて、音響モデルを設定する。

例えば、画面角度１度ごとに予め音響モデルが格納されている。このため、音響モデル設定部２３ｄは、状態情報信号に基づいて、記憶部２１に格納されている複数の音響モデルから、音声認識に適した音響モデルを選択する。そして、音響モデル設定部２３ｄは、選択した音響モデルを記憶部２１から読み込み、音声認識のための音響モデルとして設定する。画面角度１度ごとの音響モデルは、予め実験やシミュレーション等に基づいて、多数の話者から取得した不特定音声の教師データの特徴を学習したことにより作成される。図１０Ａ，図１０Ｂを例として、音響モデルの設定を説明する。図１０Ａの場合、第１マイクロフォン１４ａに入力される音声は、ディスプレイ１５により回折現象が起きた音声であると共に、ディスプレイ１５により一部の音声が遮られた音声が入力される。ディスプレイ１５により一部の音声が遮られた音声とは、音声が入力されにくいということである。このため、図１０Ａの場合、ディスプレイ１５が収納状態（図１参照）の場合と比較して、音響モデルを変更する必要がある。図１０Ｂの場合、第２マイクロフォン１４ｂと第３マイクロフォン１４ｃに入力される音声は、図１０Ａの場合と同様に、回折現象が起きた音声であると共に音声が入力されにくい。このため、図１０Ｂの場合も、ディスプレイ１５が収納状態（図１参照）の場合と比較して、音響モデルを変更する必要がある。なお、図１０Ａの場合と図１０Ｂの場合では、上記の通りマイクロフォン１４によって入力される音声の状態が異なるため、異なる音響モデルである。

次いで、音声認識部２３ｃは、音声デジタル信号を、音声認識エンジンにて「音素」に変換する。音声認識部２３ｃは、音素の並び順を、予め格納した単語辞書（発音辞書）と紐づけて、単語の候補を列挙する。単語辞書設定部２３ｅは、各種信号に基づいて、記憶部２１に格納されている単語辞書の単語から、音声認識に適した単語を選択する。そして、単語辞書設定部２３ｅは、選択した単語を記憶部２１から読み込み、音声認識のための単語辞書の単語として設定する。次いで、音声認識部２３ｃは、単語の候補を、言語モデルを用いて、単語の候補から正しい文章になる文章の候補を列挙する。

次に、第２実施形態の作用効果について説明する。

まず、撮像装置１Ｂの音声認識制御の作用効果を説明する。状態取得部２２において、各種信号が入力されると、状態取得部２２により各種信号が取得される（取得処理）。取得処理部と同時または取得処理部の前後に、音処理部２３ａにおいて、マイクロフォン１４に音が入力されると、音処理部２３ａにより音アナログ信号が音デジタル信号へ変換される（音処理）。次いで、音声抽出部２３ｂにおいて、各種信号と音デジタル信号と状態情報信号が入力されると、音声抽出部２３ｂにより、各種信号に基づいて指向性が設定される（音声抽出処理）。その後、音声抽出部２３ｂにより、状態情報信号に基づいて特定方向音声の抽出が設定される（音声抽出処理、特定方向音声抽出設定処理）。続いて、音声抽出部２３ｂにより、特定方向音声の音声デジタル信号が抽出される（音声抽出処理）。次いで、音声抽出部２３ｂにより、抽出された音声デジタル信号についてノイズ除去の処理を行う（音声抽出処理）。

次いで、音声認識部２３ｃにおいて、各種信号と音声デジタル信号が入力されると、音響モデル設定部２３ｄにより、状態情報信号に基づいて音響モデルが設定される（音声認識処理、音響モデル設定処理）。その後、単語辞書設定部２３ｅにより、単語辞書の単語が設定される（音声認識処理、単語設定処理）。続いて、音声認識部２３ｃにより、文章または単語が認識される（音声認識処理）。次いで、コマンド出力部２４において、認識結果であるテキスト信号が入力されると、コマンド出力部２４によりテキスト信号に従って動作信号が出力される（コマンド出力処理）。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、ユーザが発声する音声を認識することができ、認識結果に従って動作信号を出力することができる。上記のように、認識制御モジュール２３は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する処理を行う（認識制御処理）。

続いて、撮像装置１Ｂの作用効果を説明する。

本実施形態では、音声は、撮像装置１Ｂに設けられたマイクロフォン１４から入力される。マイクロフォン１４は、撮像装置１Ｂに四つ（第１マイクロフォン１４ａ～第４マイクロフォン１４ｄ）以上複数設けられている。可動部は、画面角度を変更することが可能なディスプレイ１５である。状態取得部２２は、状態情報信号として、画面角度信号を取得する。認識制御モジュール２３（音声抽出部２３ｂ）は、状態情報信号（画面角度信号）に基づいて、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄにそれぞれ入力された音声から特定方向音声の抽出を設定する。認識制御モジュール２３（音声認識部２３ｃ）は、特定方向音声を認識する。即ち、画面角度を考慮せずに単に抽出された音声よりも、特定方向音声は鮮明な音声である。また、全方位の空間の音から音声デジタル信号が抽出される。従って、特定方向音声の抽出の設定により、音声認識の精度を向上することができる（特定方向音声の抽出設定作用）。

本実施形態では、認識制御モジュール２３（音声認識部２３ｃ、音響モデル設定部２３ｄ）は、状態取得部２２により取得された状態情報信号（画面角度信号）に基づいて、音声を音素に変換する音響モデルを設定する。即ち、音響モデルの設定により、音声を音素に変換する精度が向上する。このため、音響モデルの設定により音声認識時に誤認識が抑制される。従って、音響モデルの設定により、音声認識の精度を向上することができる（音響モデル設定作用）。

なお、本実施形態では、第１実施形態と同様に、認識精度向上作用、撮像装置操作作用を奏する。
（第３実施形態）

次に、図１２～図１４を参照して、第３実施形態の撮像装置１Ｃについて説明する。なお、第１実施形態と同様の構成はその説明を省略または簡略化する。

撮像装置１Ｃの装置本体１０Ｃ（本体、筐体）は、第１実施形態と同様に、撮像光学系１１（結像光学系）と、ファインダ１２と、アイセンサ１３と、マイクロフォン１４（入力部、内蔵マイクロフォン）と、ディスプレイ１５（表示部）と、を有する（図１～図３，図１２，図１３参照）。更に、装置本体１０Ｃは、空冷ファン１７（可動部）を有する。装置本体１０Ｃの右側にはグリップ部１００が一体に構成されている。更に、装置本体１０Ｃは、制御ユニット２０と、図略の各種のアクチュエータ等を有する。

空冷ファン１７は、撮像装置１Ｃを冷却するファンである。空冷ファン１７は、図１２に示すように、例えば、装置本体１０Ｃの左側に配置され、装置本体１０Ｃに一体に設けられている。空冷ファン１７の図略の吸気口は左側面かつ下側である。空冷ファン１７の図略の排気口は左側面かつ吸気口の上側である。なお、空冷ファン１７は、接続機器として装置本体１０Ｃに別体に設けられ、撮像装置１Ｃに接続されても良い。

以下、図１３を参照して、制御ユニット２０のブロック構成について説明する。

制御ユニット２０は、第１実施形態の構成に加え、空冷ファン１７の制御を行う。制御ユニット２０は、例えば図略の装置温度センサの装置温度に基づいて、空冷ファン１７のファン駆動量すなわちファン回転数を制御する。なお、装置温度に対する空冷ファン１７の回転数は、予め実験やシミュレーション等に基づいて設定される。

記憶部２１には、空冷ファン１７の吸気口と排気口のそれぞれと、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれと、のファン距離が格納されている。四つのマイクロフォン１４のうち第２マイクロフォン１４ｂは、吸気口と排気口の両方（空冷ファン１７）から最も近い位置である。四つのマイクロフォン１４のうち第４マイクロフォン１４ｄは、吸気口と排気口の両方（空冷ファン１７）から最も遠い位置である。記憶部２１には、装置温度に対する空冷ファン１７の回転数が格納されている。

記憶部２１には、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれの状態情報が格納されている。マイクロフォン１４の状態情報とは、型番、種類、周波数特性、応答特性等の製品情報である。

状態取得部２２は、各種信号を取得し、記憶部２１と認識制御モジュール２３へ出力する。本実施形態では、状態情報信号は、空冷ファン１７に関する状態情報の信号とマイクロフォン１４に関する状態情報の信号である。空冷ファン１７の状態情報は、空冷ファン１７の駆動の有無（例えばファン回転数や空冷ファン１７の駆動情報）とファン距離である。空冷ファン１７の駆動の有無は、制御ユニット２０から取得する。

以下、図１４を参照して、制御ユニット２０と認識制御モジュール２３のブロック構成について説明する。

認識制御モジュール２３は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する（認識制御処理）。認識制御モジュール２３は、音処理部２３ａと、音声抽出部２３ｂと、音声認識部２３ｃ（認識部）と、マイク設定部２３ｆと、を有する。音声認識部２３ｃは、音響モデル設定部２３ｄと、単語辞書設定部２３ｅと、を有する。なお、図１４に示す例では、本実施形態の撮像装置１Ｃは、マイクロフォン１４と、空冷ファン１７と、制御ユニット２０と、認識制御モジュール２３と、を備える。制御ユニット２０は、音声認識装置として機能する。制御用プログラムとして、各部２２，２３ａ～２３ｆ，２４の処理を実行するためのプログラムが記憶部２１に格納されている。制御ユニット２０は、プログラムを読み出して、ＲＡＭにて実行することにより、各部２２，２３ａ～２３ｆ，２４の処理を行う。なお、第３実施形態では、マイク設定部２３ｆと、音声抽出部２３ｂと、音声認識部２３ｃと、について説明する。また、状態取得部２２と、音処理部２３ａと、コマンド出力部２４と、は第１実施形態と同様である。

マイク設定部２３ｆは、各種信号に基づいて、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのうち音声認識用に使用する一つのマイクロフォンを設定する。マイク設定部２３ｆは、以下のマイク設定処理を各種信号が入力される間に繰り返し行う。

ここで、マイク設定部２３ｆは、状態情報信号に基づいて、音声デジタル信号を認識するための制御内容を設定する。本実施形態では、状態情報信号は、空冷ファン１７の状態情報の信号である。空冷ファン１７が駆動しているとき、マイクロフォン１４にはファン回転によるノイズが混入する。ノイズの源である空冷ファン１７に距離が近いほど、マイクロフォン１４に混入するノイズ量が多くなるので、第１実施形態と同様に音声デジタル信号を抽出すると、ノイズ量の混入が比較的多くなることがある。このため、空冷ファン１７が駆動しているとき、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのうち音声認識用に使用する一つのマイクロフォンを設定する。つまり、空冷ファン１７の状態情報の変更は、マイクロフォン１４に入力された音声の認識に対して影響を与える。このため、空冷ファン１７の状態情報の変更により、音声を認識するための制御内容を設定する必要がある。上記のように、空冷ファン１７が駆動しているとき、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのうち音声認識用に使用する一つのマイクロフォンを設定する。

本実施形態では、制御内容は、マイクロフォン１４の設定である。そして、マイク設定部２３ｆは、状態情報信号に基づいて、空冷ファン１７から最も遠い位置に配置された一つのマイクロフォンを音声認識用に設定する。例えば、本実施形態では、マイク設定部２３ｆは、空冷ファン１７が駆動しているとき、第４マイクロフォン１４ｄが空冷ファン１７から最も遠い位置に配置されているため、音声認識用に設定する。マイク設定部２３ｆは、音声認識用に設定した一つのマイクロフォンの情報を、マイクロフォン情報信号（状態情報信号）として音声抽出部２３ｂと音声認識部２３ｃへ出力する。空冷ファン１７が駆動していないときは、マイク設定部２３ｆは、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのうち一つのマイクロフォンを音声認識用に設定しない。マイク設定部２３ｆは、音声認識用に設定しない場合でも、設定していない情報を、マイクロフォン情報信号として音声抽出部２３ｂと音声認識部２３ｃへ出力する。

音声抽出部２３ｂは、各種信号に基づいて、指向性を設定する。音声抽出部２３ｂは、音処理部２３ａより入力された音デジタル信号とマイク設定部２３ｆから入力されたマイクロフォン情報信号に基づいて、音声デジタル信号（音声デジタルデータ、音声）を抽出する。音声抽出部２３ｂは、抽出した音声デジタル信号を音声認識部２３ｃへ出力する。音声抽出部２３ｂは、以下の音声抽出処理を、音デジタル信号とマイクロフォン情報信号が入力される間に繰り返し行う。

音声抽出部２３ｂは、マイクロフォン情報信号が「設定していない情報」の場合、第１実施形態と同様に、音デジタル信号から音声デジタル信号を抽出する。音声抽出部２３ｂは、マイクロフォン情報信号が「音声認識用に設定した一つのマイクロフォンの情報」の場合、第４マイク音デジタル信号を音声デジタル信号として抽出する。なお、音声抽出部２３ｂは、抽出した音声デジタル信号について、第１実施形態と同様に、ノイズ除去の処理を行う。

音声認識部２３ｃは、状態情報信号に基づいて、音声抽出部２３ｂより入力された音声デジタル信号を認識するための制御内容を設定し、音声デジタル信号を認識する。音声認識部２３ｃは、マイク設定部２３ｆから入力されたマイクロフォン情報信号に基づいて、音声抽出部２３ｂより入力された音声デジタル信号を認識する。音声認識部２３ｃは、テキスト信号をコマンド出力部２４へ出力する。音声認識部２３ｃは、以下の音声認識処理（認識処理）を、状態情報信号とマイクロフォン情報信号と音声デジタル信号が入力される間に繰り返し行う。以下、音響モデル設定部２３ｄと単語辞書設定部２３ｅを説明する。

まず、音響モデル設定部２３ｄは、状態情報信号に基づいて、音声抽出部２３ｂより入力された音声デジタル信号を認識するための制御内容を設定する。本実施形態では、状態情報信号は、マイクロフォン情報信号とマイクロフォン１４の状態情報信号である。音響モデル設定部２３ｄは、マイクロフォン情報信号が「設定していない情報」の場合、第１実施形態と同様に、音響モデルを設定する。音響モデル設定部２３ｄは、マイクロフォン情報信号が「音声認識用に設定した一つのマイクロフォンの情報」の場合、第４マイクロフォン１４ｄの状態情報信号に基づいて、第４マイクロフォン１４ｄの特性に合った音響モデルを、記憶部２１に格納されている複数の音響モデルから選択する。そして、音響モデル設定部２３ｄは、選択した音響モデルを記憶部２１から読み込み、音声認識のための音響モデルとして設定する。

ここで、マイクロフォン１４から一つのマイクロフォンを音声認識用に設定することにより、その音声認識用のマイクロフォンの周波数特性や応答特性により、入力される音声の周波数特性が変化する。つまり、マイクロフォン１４の状態情報の変更（音声認識用のマイクロフォン１４の変更）は、マイクロフォン１４に入力された音声の認識に対して影響を与える。このため、マイクロフォン１４の状態情報の変更により、音声を認識するための制御内容を設定する必要がある。本実施形態では、制御内容は、音響モデルの設定である。そして、上記の通り、音響モデル設定部２３ｄは、マイクロフォン情報信号とマイクロフォン１４の状態情報信号に基づいて、第４マイクロフォン１４ｄの特性に合った音響モデルを、記憶部２１に格納されている複数の音響モデルから選択する。

なお、音響モデルの設定は、以下を加味しても良い。空冷ファン１７のファン回転によるノイズは、空冷ファン１７の位置と音声認識用のマイクロフォンの位置との位置関係により、空気の伝搬経路が変化する。具体的には、空冷ファン１７の位置と音声認識用のマイクロフォンの位置とのファン距離により、ファン回転によるノイズの特性(回転数による音圧や周波数特性)が異なる。つまり、空冷ファン１７の位置と音声認識用のマイクロフォンの位置とのファン距離は、マイクロフォン１４に入力された音声の認識に対して影響を与える。このため、マイクロフォン１４の状態情報と空冷ファン１７の状態情報との変更により、音声を認識するための制御内容を設定する必要がある。そして、音響モデル設定部２３ｄは、マイクロフォン情報信号とマイクロフォン１４の状態情報信号と空冷ファン１７の状態情報とノイズの特性に基づいて、第４マイクロフォン１４ｄの特性に合った音響モデルを、記憶部２１に格納されている複数の音響モデルから選択する。ノイズの特性を加味した音響モデルは、予め実験やシミュレーション等に基づいて、多数の話者から取得した不特定音声の教師データの特徴を学習したことにより作成される。

次に、音声認識と空冷ファンについて説明する。

近年、撮像素子の大型化による電圧の上昇や、デジタルカメラ内にて人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）処理の実行等により、以前よりもデジタルカメラ内における温度が上昇傾向にある。このため、デジタルカメラに空冷ファンが一体に設けられることがある。また、以前より、デジタルカメラに空冷ファンが一体に設けられる場合であっても、以前よりも大型の空冷ファンに変更されることもある。更に、以前より、デジタルカメラの長時間露光によってデジタルカメラ内の温度が上昇することが知られている。このため、デジタルカメラに空冷ファンが接続機器として別体に設けられることもある。このように、以前に比べて、デジタルカメラに空冷ファンが設けられるシーンが多くなってきているし、空冷ファンが大型化することもある。

そこで、出願人は、音声認識時における空冷ファンの影響に着目する。

次に、第３実施形態の作用効果について説明する。

まず、撮像装置１Ｃの音声認識制御の作用効果を説明する。状態取得部２２において、各種信号が入力されると、状態取得部２２により各種信号が取得される（取得処理）。取得処理部と同時または取得処理部の前後に、音処理部２３ａにおいて、マイクロフォン１４に音が入力されると、音処理部２３ａにより音アナログ信号が音デジタル信号へ変換される（音処理）。次いで、マイク設定部２３ｆにおいて、各種信号が入力されると、マイク設定部２３ｆにより、状態情報信号に基づいて音声認識用のマイクロフォン１４が設定される（マイク設定処理）。次いで、音声抽出部２３ｂにおいて、各種信号と音デジタル信号とマイクロフォン情報信号が入力されると、音声抽出部２３ｂにより、各種信号に基づいて指向性が設定される（音声抽出処理）。その後、音声抽出部２３ｂにより、マイクロフォン情報信号に基づいて、第１実施形態と同様に、音デジタル信号から音声デジタル信号が抽出される（音声抽出処理）。または、音声抽出部２３ｂにより、マイクロフォン情報信号に基づいて第４マイク音デジタル信号が音声デジタル信号として抽出される（音声抽出処理）。次いで、音声抽出部２３ｂにより、抽出された音声デジタル信号についてノイズ除去の処理を行う（音声抽出処理）。

次いで、音声認識部２３ｃにおいて、各種信号が入力されると、音響モデル設定部２３ｄにより、マイクロフォン情報信号と状態情報信号に基づいて音響モデルが設定される（音声認識処理、音響モデル設定処理）。その後、単語辞書設定部２３ｅにより、単語辞書の単語が設定される（音声認識処理、単語設定処理）。続いて、音声認識部２３ｃにより、文章または単語が認識される（音声認識処理）。次いで、コマンド出力部２４において、認識結果であるテキスト信号が入力されると、コマンド出力部２４によりテキスト信号に従って動作信号が出力される（コマンド出力処理）。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、ユーザが発声する音声を認識することができ、認識結果に従って動作信号を出力することができる。上記のように、認識制御モジュール２３は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する処理を行う（認識制御処理）。

続いて、撮像装置１Ｃの作用効果を説明する。

本実施形態では、音声は、撮像装置１Ｃに設けられたマイクロフォン１４から入力される。マイクロフォン１４は、撮像装置１Ｃに複数（第１マイクロフォン１４ａ～第４マイクロフォン１４ｄ）設けられている。可動部または接続機器は、撮像装置１Ｃを冷却する空冷ファン１７である。状態取得部２２は、空冷ファン１７の状態情報信号を取得する。認識制御モジュール２３（マイク設定部２３ｆ）は、状態取得部２２により取得された空冷ファン１７の状態情報信号に基づいて、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのうち音声認識用に使用する一つのマイクロフォンを設定する。本実施形態では、認識制御モジュール２３（マイク設定部２３ｆ）は、状態取得部２２により取得された空冷ファン１７の状態情報信号に基づいて、空冷ファン１７から最も遠い位置に配置された第４マイクロフォン１４ｄを音声認識用に設定する。即ち、空冷ファン１７が駆動しているとき、ノイズ量の混入が比較的多くなることがあるので、マイク設定部２３ｆにより、空冷ファン１７から最も遠い位置に配置された第４マイクロフォン１４ｄが音声認識用に設定される。そして、第１実施形態のように指向性制御による音声デジタル信号よりも、音声デジタル信号として抽出した第４マイク音デジタル信号はノイズ量の混入が少ない鮮明な音声である。従って、マイクロフォン１４の設定により、音声認識の精度を向上することができる（空冷ファンによる音声認識用マイク設定作用）。

本実施形態では、認識制御モジュール２３（音声認識部２３ｃ、音響モデル設定部２３ｄ）は、状態取得部２２により取得された状態情報信号（マイクロフォン情報信号、マイクロフォン１４の状態情報信号）に基づいて、音声を音素に変換する音響モデルを設定する。即ち、音響モデルの設定により、音声を音素に変換する精度が向上する。このため、音響モデルの設定により音声認識時に誤認識が抑制される。従って、音響モデルの設定により、音声認識の精度を向上することができる（音響モデル設定作用）。

なお、本実施形態では、第１実施形態と同様に、認識精度向上作用、撮像装置操作作用を奏する。

次に、図１５を参照して、第３実施形態の別の形態（変形例３－１）を示す。なお、第３実施形態と同様の構成はその説明を省略または簡略化する。なお、本変形例では、マイク設定部２３ｆは有さない。

以下、図１５を参照して、制御ユニット２０と認識制御モジュール２３のブロック構成について説明する。

認識制御モジュール２３は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する（認識制御処理）。認識制御モジュール２３は、音処理部２３ａと、音声抽出部２３ｂと、音声認識部２３ｃ（認識部）と、プルーニング閾値設定部２３ｇと、を有する。音声認識部２３ｃは、音響モデル設定部２３ｄと、単語辞書設定部２３ｅと、を有する。なお、図１５に示す例では、本実施形態の撮像装置１Ｃは、マイクロフォン１４と、空冷ファン１７と、制御ユニット２０と、認識制御モジュール２３と、を備える。制御ユニット２０は、音声認識装置として機能する。制御用プログラムとして、各部２２，２３ａ～２３ｅ、２３ｇ，２４の処理を実行するためのプログラムが記憶部２１に格納されている。制御ユニット２０は、プログラムを読み出して、ＲＡＭにて実行することにより、各部２２，２３ａ～２３ｅ、２３ｇ，２４の処理を行う。なお、本変形例では、状態取得部２２と、音処理部２３ａと、音声抽出部２３ｂと、音声認識部２３ｃと、について説明する。また、コマンド出力部２４は第３実施形態と同様である。

状態取得部２２は、各種信号を取得し、記憶部２１と認識制御モジュール２３へ出力する。本変形例では、状態情報信号は、空冷ファン１７に関する状態情報の信号である。空冷ファン１７の状態情報は、空冷ファン１７のファン回転数である。ファン回転数は、制御ユニット２０から取得する。言い換えると、ファン回転数を制御する制御ユニット２０から直接取得する。

音処理部２３ａは、音デジタル信号を、音声抽出部２３ｂとプルーニング閾値設定部２３ｇへ出力する点で第３実施形態と相違するが、その他は第３実施形態と同様である。

音声抽出部２３ｂは、第１実施形態と同様に、第１マイク音デジタル信号～第４マイク音デジタル信号により音声の位置（ユーザの口の位置）を推定して、その音声の位置に基づいて音デジタル信号から音声デジタル信号を抽出する（指向性制御による抽出）。これにより、音声認識が可能な音声デジタル信号を抽出することができる。

プルーニング閾値設定部２３ｇは、各種信号に基づいて、自動的にプルーニング閾値を設定する。プルーニング閾値設定部２３ｇは、以下のプルーニング閾値設定処理を、音処理部２３ａから音デジタル信号と各種信号が入力される間に繰り返し行う。

ここで、プルーニング閾値について説明する。前提として、音声認識処理では、音声を音素に変換する過程にて仮説の演算が行われる。当該仮説の演算の際に、処理を高速化するために、仮説処理を間引くプルーニング（剪定、枝刈り：ｐｒｕｎｉｎｇ）の処理が行われる。つまり、プルーニング閾値とは、音声認識部２３ｃにおける音声認識時の仮説処理を間引く閾値である。プルーニングが厳しい（プルーニング閾値が小さい）と処理は高速になり、プルーニングが緩い（プルーニング閾値が大きい）と処理は低速になる。また、プルーニングが厳しすぎると、正解の仮説処理まで間引いてしまい、音声認識性能が低下する。ファン回転数が比較的小さい場合に、プルーニングが緩いと、不要な仮説の演算が行われることになる。このため、プルーニング閾値は、ファン回転数の大小に基づいて適切に設定する。

プルーニング閾値設定部２３ｇは、状態情報信号に基づいて、音声デジタル信号を認識するための制御内容を設定する。本実施形態では、状態情報信号は、ファン回転数信号である。空冷ファン１７のファン回転数が大きくなるほど、マイクロフォン１４に混入するファン回転数によるノイズ量が多くなる。このため、第１実施形態と同様に音声デジタル信号を抽出すると、ノイズ量の混入が比較的多くなることがある。このため、ファン回転数が変化すると、プルーニング閾値を変更する。言い換えると、プルーニング閾値設定部２３ｇは、ファン回転数に基づいて、プルーニング閾値を設定する。つまり、空冷ファン１７の状態情報の変更は、マイクロフォン１４に入力された音声の認識に対して影響を与える。このため、空冷ファン１７の状態情報の変更により、音声を認識するための制御内容を設定する必要がある。上記のように、ファン回転数に基づいて、プルーニング閾値を設定する。本実施形態では、制御内容は、プルーニング閾値の設定である。そして、プルーニング閾値設定部２３ｇは、状態情報信号に基づいて、プルーニング閾値を設定する。

例えば、プルーニング閾値設定部２３ｇは、ファン回転数に基づいて、プルーニング閾値を設定する。即ち、プルーニング閾値設定部２３ｇは、ファン回転数の数値が大きいほどプルーニング閾値を大きく設定する。一方、プルーニング閾値設定部２３ｇはファン回転数が小さいほど、プルーニング閾値を小さく設定する。そして、プルーニング閾値設定部２３ｇは、設定したプルーニング閾値をプルーニング閾値信号として音声認識部２３ｃへ出力する。ファン回転数ごとのプルーニング閾値は、予め実験やシミュレーション等に基づいて設定される。

なお、プルーニング閾値は、以下を加味しても良い。空冷ファン１７のファン回転によるノイズは、空冷ファン１７の位置と音声認識用のマイクロフォンの位置との位置関係により、空気の伝搬経路が変化する。具体的には、空冷ファン１７の位置と音声認識用のマイクロフォンの位置とのファン距離により、ファン回転によるノイズの特性(回転数による音圧や周波数特性)が異なる。つまり、空冷ファン１７の位置と音声認識用のマイクロフォンの位置とのファン距離は、マイクロフォン１４に入力された音声の認識に対して影響を与える。このため、マイクロフォン１４の状態情報と空冷ファン１７の状態情報との変更により、音声を認識するための制御内容を設定する必要があるので、プルーニング閾値を変更する。ここでは、状態情報に、ファン距離を含む。そして、プルーニング閾値設定部２３ｇは、マイクロフォン１４の状態情報信号と空冷ファン１７の状態情報とノイズの特性に基づいて、プルーニング閾値を設定する。ファン回転数ごとのプルーニング閾値に、ノイズの特性を加味したプルーニング閾値は、予め実験やシミュレーション等に基づいて設定される。

音声認識部２３ｃは、状態情報信号に基づいて、音声抽出部２３ｂより入力された音声デジタル信号を認識するための制御内容を設定し、音声デジタル信号を認識する。音声認識部２３ｃは、プルーニング閾値設定部２３ｇから入力されたプルーニング閾値信号に基づいて、音声認識の際のプルーニング閾値を設定する。音声認識部２３ｃは、設定したプルーニング閾値によって、音声抽出部２３ｂより入力された音声デジタル信号を認識する。音声認識部２３ｃは、テキスト信号をコマンド出力部２４へ出力する。音声認識部２３ｃは、以下の音声認識処理（認識処理）を、状態情報信号とプルーニング閾値信号と音声デジタル信号が入力される間に繰り返し行う。以下、音響モデル設定部２３ｄと単語辞書設定部２３ｅを説明する。

まず、音響モデル設定部２３ｄは、状態情報信号に基づいて、音声抽出部２３ｂより入力された音声デジタル信号を認識するための制御内容を設定する。本変形例では、状態情報信号は、ファン回転数信号である。上記のファン回転数を例にすると、ファン回転数により、ＳＮＲや雑音レベルが異なる。このため、ＳＮＲが変化すると、音響モデルを変更する必要がある。つまり、ＳＮＲの変化により、音声を認識するための制御内容を設定する必要がある。本実施形態では、制御内容は、音響モデルの設定である。そして、音響モデル設定部２３ｄは、状態情報信号に基づいて、音響モデルを設定する。

例えば、ファン回転数によるＳＮＲに基づいて、予め音響モデルが設定されている。このため、音響モデル設定部２３ｄは、状態情報信号に基づいて、記憶部２１に格納されている複数の音響モデルから、音声認識に適した音響モデルを選択する。そして、音響モデル設定部２３ｄは、選択した音響モデルを記憶部２１から読み込み、音声認識のための音響モデルとして設定する。ＳＮＲの異なる複数の音響モデルは、予め実験やシミュレーション等に基づいて、ＳＮＲの異なる状態にて多数の話者から取得した不特定音声の教師データの特徴を学習したことにより作成される。

次いで、音声認識部２３ｃは、音声デジタル信号を、音声認識エンジンにて「音素」に変換する。音声認識部２３ｃは、音素の並び順を、予め格納した単語辞書（発音辞書）と紐づけて、単語の候補を列挙する。単語辞書設定部２３ｅは、各種信号に基づいて、記憶部２１に格納されている単語辞書の単語から、音声認識に適した単語を選択する。そして、単語辞書設定部２３ｅは、選択した単語を記憶部２１から読み込み、音声認識のための単語辞書の単語として設定する。次いで、音声認識部２３ｃは、プルーニング閾値信号に基づいて、音声認識の際のプルーニング閾値を設定する。次いで、音声認識部２３ｃは、単語の候補を、言語モデルを用いて、単語の候補から正しい文章になる文章の候補を列挙する。

次に、変形例（３－１）の作用効果について説明する。

まず、本変形例の撮像装置１Ｃの音声認識制御の作用効果を説明する。状態取得部２２において、各種信号が入力されると、状態取得部２２により各種信号が取得される（取得処理）。取得処理部と同時または取得処理部の前後に、音処理部２３ａにおいて、マイクロフォン１４に音が入力されると、音処理部２３ａにより音アナログ信号が音デジタル信号へ変換される（音処理）。次いで、音声抽出部２３ｂにおいて、各種信号と音デジタル信号が入力されると、音声抽出部２３ｂにより、各種信号に基づいて指向性が設定され、音デジタル信号から音声デジタル信号が抽出される（音声抽出処理）。次いで、音声抽出部２３ｂにより、抽出された音声デジタル信号についてノイズ除去の処理を行う（音声抽出処理）。

次いで、プルーニング閾値設定部２３ｇにおいて、各種信号が入力されると、プルーニング閾値設定部２３ｇにより、状態情報信号に基づいてプルーニング閾値が設定される（プルーニング閾値設定処理）。次いで、音声認識部２３ｃにおいて、各種信号と音声デジタル信号とプルーニング閾値信号が入力されると、音響モデル設定部２３ｄにより、状態情報信号に基づいて音響モデルが設定される（音声認識処理、音響モデル設定処理）。その後、単語辞書設定部２３ｅにより、単語辞書の単語が設定される（音声認識処理、単語設定処理）。次いで、音声認識部２３ｃにより、プルーニング閾値信号に基づいて、音声認識の際のプルーニング閾値が設定される。続いて、音声認識部２３ｃにより、文章または単語が認識される（音声認識処理）。次いで、コマンド出力部２４において、認識結果であるテキスト信号が入力されると、コマンド出力部２４によりテキスト信号に従って動作信号が出力される（コマンド出力処理）。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、ユーザが発声する音声を認識することができ、認識結果に従って動作信号を出力することができる。上記のように、認識制御モジュール２３は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する処理を行う（認識制御処理）。

続いて、本変形例の撮像装置１Ｃの作用効果を説明する。

本変形例では、可動部または接続機器は、撮像装置１Ｃを冷却する空冷ファン１７である。状態取得部２２は、空冷ファン１７の状態情報信号を取得する。認識制御モジュール２３（プルーニング閾値設定部２３ｇ）は、状態取得部２２により取得された空冷ファン１７の状態情報信号に基づいて、音声の認識時の仮説処理を間引くプルーニング閾値を設定する。即ち、ファン回転数が大きいほど、ノイズである外乱が大きいということになる。このため、ファン回転数が大きいほど、プルーニング閾値を大きく設定すれば、音声認識時には正解の仮説を立てやすくなる。ファン回転数が小さいほど、外乱が小さいということになる。このため、ファン回転数が小さいほど、プルーニング閾値を小さく設定すれば、音声認識時には正解の仮説を立てやすくなるので、音声認識性能への影響は小さく、音声認識処理も高速になる。このように、プルーニング閾値は、ファン回転数の大小に基づいて適切に変更される。従って、プルーニング閾値の設定により、音声認識の精度を向上することができる（プルーニング閾値設定作用）。

本変形例では、認識制御モジュール２３（音声認識部２３ｃ、音響モデル設定部２３ｄ）は、状態取得部２２により取得された状態情報信号（ファン回転数信号）に基づいて、音声を音素に変換する音響モデルを設定する。即ち、音響モデルの変更により、音声を音素に変換する精度が向上する。このため、音響モデルの設定により音声認識時に誤認識が抑制される。従って、音響モデルの設定により、音声認識の精度を向上することができる（音響モデル設定作用）。

なお、本変形例では、第１実施形態と同様に、認識精度向上作用、撮像装置操作作用を奏する。
（第４実施形態）

次に、図１６～図１８を参照して、第４実施形態の撮像装置１Ｄについて説明する。なお、第１実施形態と同様の構成はその説明を省略または簡略化する。

撮像装置１Ｄの装置本体１０Ｄ（本体、筐体）は、第１実施形態と同様に、撮像光学系１１（結像光学系）と、ファインダ１２と、アイセンサ１３と、マイクロフォン１４（入力部、内蔵マイクロフォン）と、ディスプレイ１５（表示部）と、を有する（図１～図３，図１７参照）。更に、装置本体１０Ｄは、図１７と図１８に示すように、装置側コネクタ１８を有する。更にまた、装置本体１０Ｄの右側にはグリップ部１００が一体に構成されている。更に、装置本体１０Ｄは、制御ユニット２０と、図略の各種のアクチュエータ等を有する。更にまた、装置本体１０Ｄには、外部マイクロフォン１９（接続機器）が別体に設けられる。なお、マイクロフォン１４は、装置本体１０Ｄに内蔵されているものである。外部マイクロフォン１９は、装置本体１０Ｄに対し外部から接続機器として設けられた（取り付けられた）ものであり、装置本体１０Ｄに接続されている。

装置側コネクタ１８は、図略の、デジタル通信の装置側デジタルコネクタと、アナログ通信の装置側アナログコネクタと、を有する。装置側デジタルコネクタは、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）接続が可能なデジタルインターフェースである。装置側アナログコネクタは、マイクジャック端子による接続が可能なものである。

外部マイクロフォン１９は、複数の種類のうち一種類が装置本体１０Ｄに接続される。例えば、外部マイクロフォン１９としては、２ｃｈステレオマイクロフォン、ガンマイクロフォン、ピンマイクロフォン、ワイヤレスマイクロフォン１９等の四種類がある。なお、外部マイクロフォン１９の一例として、図１６にワイヤレスマイクロフォン１９を図示する。２ｃｈステレオマイクロフォンは、２ｃｈとは左と右であり、左右のそれぞれの方向からの音が入力される。２ｃｈステレオマイクロフォンは、主に環境音を収音するものである。ガンマイクロフォンは、極狭い方向に指向性をもっており、ガンマイクロフォン部分が向いている方向からの音が入力される。ピンマイクロフォンは、人間の胸元等に取り付けられ、主に音声が入力される。

ワイヤレスマイクロフォン１９は、マイクロフォン本体１９ａとレシーバ１９ｂの二つから構成され、主に音声が入力される（図１６参照）。ワイヤレスマイクロフォン１９は、マイクロフォン本体１９ａに入力された音を無線によりレシーバ１９ｂへ伝送するものである。マイクロフォン本体１９ａは、入力された音を外部音アナログ信号から外部音デジタル信号に変換して、無線によりレシーバ１９ｂへ伝送する。レシーバ１９ｂは、マイクロフォン本体１９ａの外部音デジタル信号を受信する。このため、マイクロフォン本体１９ａとレシーバ１９ｂは、図１６に示すように、離れた位置に配置される。例えば、マイクロフォン本体１９ａは人間の胸元等に取り付けられる。レシーバ１９ｂは、装置本体１０Ｄに接続される。なお、レシーバ１９ｂは、入力された外部音デジタル信号から外部音アナログ信号に変換する場合もある。

外部マイクロフォン１９のレシーバ１９ｂは、外部側コネクタ１９ｃを有する。外部側コネクタ１９ｃは、デジタル通信またはアナログ通信が可能である。このため、外部側コネクタ１９ｃは、装置側コネクタ１８の装置側デジタルコネクタまたは装置側アナログコネクタに接続される。外部マイクロフォン１９の識別、マイクロフォン１４と外部マイクロフォン１９の設定については後述する。

外部マイクロフォン１９には、人間が発声する音声と人間周囲の環境音との両方の音が入力される。外部マイクロフォン１９の指向性やマイクロフォン感度は、種類により異なる。例えば、ピンマイクロフォンやワイヤレスマイクロフォン１９は、主に音声を収音するものである。このため、そのマイクロフォン感度は、ピンマイクロフォンまたはマイクロフォン本体１９ａを取り付けた人間が発声する音声の入力が可能な感度に設定される。感度の違いによる調整は、後述する音処理部２３ａや音声抽出部２３ｂ等により行えば良い。なお、以下において、装置側コネクタ１８と外部側コネクタ１９ｃは接続されているものとする。

以下、図１７を参照して、制御ユニット２０のブロック構成について説明する。

制御ユニット２０には、第１実施形態と同様に、アイセンサ１３の検出信号（検出結果）と、ジャイロセンサ２７の角度信号（傾き情報）と、等の各種信号が入力される。制御ユニット２０には、マイクロフォン１４の内蔵音アナログ信号が入力される。制御ユニット２０には、装置側コネクタ１８と外部側コネクタ１９ｃを通じて、外部マイクロフォン１９の状態情報信号が入力される。外部マイクロフォン１９の状態情報信号は、外部マイクロフォン１９の状態情報の信号である。外部マイクロフォン１９の状態情報とは、型番、種類、周波数特性、応答特性、モノラルマイクロフォンとステレオマイクロフォンとマイクジャック端子にあっては極数、音声認識機能の有無、音声認識機能のバージョン情報等の製品情報である。なお、本実施形態では、外部マイクロフォン１９は音声認識機能を有しないものとする。更に、外部マイクロフォン１９の状態情報とは、アナログ通信かデジタル通信の通信状態である。更に、制御ユニット２０には、レシーバ１９ｂから外部音アナログ信号、または、レシーバ１９ｂに入力された外部音デジタル信号が入力される（図１８参照）。なお、外部マイクロフォン１９は、制御ユニット２０が有する図略のマイクドライバにより駆動される。

状態取得部２２は、各種信号を取得し、記憶部２１と認識制御モジュール２３へ出力する。本実施形態では、状態情報信号は、外部マイクロフォン１９に関する状態情報の信号である。

認識制御モジュール２３は、マイクロフォン１４より入力された内蔵音アナログ信号の変換や、外部マイクロフォン１９より入力された外部音アナログ信号の変換や、ユーザが発声する音声の認識や、認識されたテキスト信号（認識結果）の出力等の処理を行う。認識制御モジュール２３は、テキスト信号をコマンド出力部２４へ出力する。認識制御モジュール２３の詳細は後述する。

以下、図１８を参照して、制御ユニット２０と認識制御モジュール２３のブロック構成について説明する。

認識制御モジュール２３は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する（認識制御処理）。認識制御モジュール２３は、音処理部２３ａと、音声抽出部２３ｂと、音声認識部２３ｃ（認識部）と、マイク設定部２３ｆと、マイク識別部２３ｈと、を有する。音声認識部２３ｃは、音響モデル設定部２３ｄと、単語辞書設定部２３ｅと、を有する。更に、認識制御モジュール２３は、環境音抽出部２３１（動画用音抽出部）と、エンコード部２３２と、を有する。なお、図１８に示す例では、本実施形態の撮像装置１Ｄは、マイクロフォン１４と、外部マイクロフォン１９と、制御ユニット２０と、認識制御モジュール２３と、を備える。制御ユニット２０は、音声認識装置として機能する。制御用プログラムとして、各部２２，２３ａ～２３ｆ，２３ｈ，２４，２３１，２３２の処理を実行するためのプログラムが記憶部２１に格納されている。制御ユニット２０は、プログラムを読み出して、ＲＡＭにて実行することにより、各部２２，２３ａ～２３ｆ，２３ｈ，２４，２３１，２３２の処理を行う。なお、第４実施形態では、音処理部２３ａと、音声抽出部２３ｂと、音声認識部２３ｃと、環境音抽出部２３１と、エンコード部２３２と、について説明する。また、状態取得部２２と、コマンド出力部２４と、は第１実施形態と同様である。

音処理部２３ａは、第１実施形態と同様に、マイクロフォン１４より入力された内蔵音アナログ信号を、内蔵音デジタル信号への変換や内蔵音デジタル信号の公知のノイズ除去等の音処理を行う。音処理部２３ａは、内蔵音デジタル信号を音声抽出部２３ｂと環境音抽出部２３１へ出力する。

音処理部２３ａは、外部マイクロフォン１９より外部音アナログ信号が入力されると、上記の内蔵音アナログ信号と同様に、外部音アナログ信号を、外部音デジタル信号への変換や外部音デジタル信号の公知のノイズ除去等の音処理を行う。音処理部２３ａは、外部マイクロフォン１９より外部音デジタル信号が入力されると、公知のノイズ除去等の音処理を行う。音処理部２３ａは、外部音デジタル信号を音声抽出部２３ｂと環境音抽出部２３１へ出力する。なお、内蔵音デジタル信号と外部音デジタル信号を特に区別しない場合には「音デジタル信号」と記載する。

音処理部２３ａは、音処理を、マイクロフォン１４と外部マイクロフォン１９のうち少なくとも一方に音が入力される間に繰り返し行う。なお、音処理は、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれに入力された音と、外部マイクロフォン１９に入力された音と、について別々に行う。なお、以下において、第１マイク音デジタル信号～第４マイク音デジタル信号を特に区別しない場合には「内蔵音デジタル信号」と記載する。

マイク識別部２３ｈは、外部マイクロフォン１９の状態情報信号に基づいて、自動で外部マイクロフォン１９を識別する。ここで、後述するマイク設定部２３ｆでは、外部マイクロフォン１９がモノラルマイクロフォンかステレオマイクロフォンのどちらであるかの識別結果が必要である。このため、マイク識別部２３ｈは、モノラル信号またはステレオ信号を外部マイクロフォン１９の識別結果信号（識別結果、状態情報信号）として、マイク設定部２３ｆへ出力する。後述する音響モデル設定部２３ｄでは、外部マイクロフォン１９の種類の識別結果が必要である。このため、マイク識別部２３ｈは、外部マイクロフォン１９の識別結果として、外部マイクロフォン種類識別信号（状態情報信号）を音声認識部２３ｃへ出力する。マイク識別部２３ｈは、以下のマイク識別処理を、状態取得部２２から状態情報信号が入力される間に繰り返し行う。

ここで、外部マイクロフォン１９の状態情報により、入力される音は変更される。例えば、外部マイクロフォン１９がモノラルマイクロフォンである場合には、マイクロフォン１４よりも音声認識用に適している。外部マイクロフォン１９がステレオマイクロフォンである場合には、マイクロフォン１４の方が音声認識用に適している。このように、外部マイクロフォン１９の状態情報により、音声認識用に適したマイクロフォンが変化する。なお、外部マイクロフォン１９がモノラルマイクロフォンである場合には、マイクロフォン１４の方が動画用に適している。外部マイクロフォン１９がステレオマイクロフォンである場合には、外部マイクロフォン１９の方が動画用に適している。つまり、外部マイクロフォン１９の状態情報により、音声の認識と環境音の抽出に対して影響を与える。このため、外部マイクロフォン１９の状態情報により、音声を認識するためおよび環境音の抽出するための制御内容を設定する必要がある。上記のように、外部マイクロフォン１９の状態情報により、音声認識用と動画用のマイクロフォンが設定される。本実施形態では、制御内容は、マイクロフォン１４と外部マイクロフォン１９の音声認識用と動画用の設定である。マイク識別部２３ｈは、外部マイクロフォン１９の状態情報に基づいて、自動で外部マイクロフォン１９を識別する。後述するマイク設定部２３ｆは、外部マイクロフォン１９の識別結果信号に基づいてマイクロフォン１４と外部マイクロフォン１９のうち一方を音声認識用に自動で設定する。また、音響モデル設定部２３ｄは、外部マイクロフォン種類識別信号に基づいて音響モデルを設定する。

例えば、外部マイクロフォン１９が２ｃｈステレオマイクロフォンである場合には、マイクロフォン１４を音声認識用に設定し、外部マイクロフォン１９を動画用に設定する。外部マイクロフォン１９が、ピンマイクロフォンやワイヤレスマイクロフォン１９である場合には、外部マイクロフォン１９を音声認識用に設定し、マイクロフォン１４を動画用に設定する。このように、音声認識用と動画用の設定は、外部マイクロフォン１９の状態情報により変更される。

マイク識別部２３ｈは、外部マイクロフォン１９がモノラルマイクロフォンかステレオマイクロフォンのどちらであるかの識別を行う。以下の方法により、ユーザの操作が無くてもマイク識別部２３ｈは自動で識別を行うことができる（自動識別）。外部マイクロフォン１９が装置側デジタルコネクタと接続されている場合、状態情報信号に含まれるモノラルマイクロフォンまたはステレオマイクロフォンにより、外部マイクロフォン１９をマイク識別部２３ｈは自動で識別できる。外部マイクロフォン１９が装置側アナログコネクタと接続されている場合、状態情報信号に含まれるマイクジャック端子の極数により、外部マイクロフォン１９をマイク識別部２３ｈは自動で識別できる。極数が二極の場合はモノラルマイクロフォンであり、極数が三極以上の場合はステレオマイクロフォンである。

マイク識別部２３ｈは、外部マイクロフォン１９の種類の識別を行う。以下の方法によりマイク識別部２３ｈは種類の識別を行うことができる。外部マイクロフォン１９が装置側デジタルコネクタと接続されている場合、状態情報信号に含まれる型番や種類により、ユーザの操作が無くても、上記に例として挙げた四種類の外部マイクロフォン１９のうち一種類をマイク識別部２３ｈは自動で識別することができる（自動識別）。

外部マイクロフォン１９が装置側アナログコネクタと接続されている場合、マイク識別部２３ｈは、種類の識別の過程にてユーザの操作等が一部必要になる（半自動）。以下の三つの方法のうち一つの方法により、マイク識別部２３ｈは外部マイクロフォン１９の種類の識別を行うことができる。なお、いずれも、外部側コネクタ１９ｃが装置側アナログコネクタと接続された状態とする。

一つの識別方法として、上記に例として挙げた四種類の外部マイクロフォン１９のそれぞれは暗騒音の特徴が異なることを利用して、四種類のうち一種類をマイク識別部２３ｈは識別する。このため、外部マイクロフォン１９が装置側アナログコネクタに接続されたとき、外部マイクロフォン１９を、所定時間、静かな環境に載置する旨を、ディスプレイ１５等の報知部によりユーザへ報知する。ユーザは、報知の内容を実行する。そして、静かな環境に載置された場合、無音状態の暗騒音レベルや暗騒音の周波数特性により、四種類の外部マイクロフォン１９のうち一種類をマイク識別部２３ｈは自動で識別することができる。

一つの識別方法として、上記に例として挙げた四種類の外部マイクロフォン１９のそれぞれにおける応答特性（感度や周波数特性）が違うことを利用して、四種類のうち一種類をマイク識別部２３ｈは識別する。応答特性は、装置本体１０Ｄに設けられた図略のスピーカより音を発したときの応答特性である。このため、外部マイクロフォン１９が装置側アナログコネクタに接続されたとき、外部マイクロフォン１９と撮像装置１Ｄの相対位置を同じにする旨を、ディスプレイ１５等の報知部によりユーザへ報知する。ユーザは、報知の内容を実行する。そして、相対位置が同じになったことを確認することができた場合、装置本体１０Ｄの図略のスピーカより自動で音を発する。これにより、応答特性の違いよって、四種類の外部マイクロフォン１９のうち一種類をマイク識別部２３ｈは自動で識別することができる。

一つの識別方法として、上記に例として挙げた四種類の外部マイクロフォン１９のそれぞれの応答特性が違うことを利用して、四種類のうち一種類をマイク識別部２３ｈは識別する。応答特性は、所定の環境音や同一話者の声における時間平均特性である。このため、外部マイクロフォン１９が装置側アナログコネクタに接続されたとき、以下の内容を、ディスプレイ１５等の報知部によりユーザへ報知する。例えば、内容は、所定の環境音の環境下に載置することである。または、内容は、ユーザに所定語句を発声することである。そして、ユーザは、報知の内容を実行する。所定の環境音に載置された場合またはユーザが発声した音声が入力されたことを確認することができた場合、応答特性の違いより、四種類の外部マイクロフォン１９のうち一種類をマイク識別部２３ｈは自動で識別することができる。

マイク設定部２３ｆは、マイク識別部２３ｈが識別した識別結果信号に基づいて、マイクロフォン１４と外部マイクロフォン１９のうち一方を音声認識用に自動で設定する。更に、マイク設定部２３ｆは、マイクロフォン１４と外部マイクロフォン１９のうち他方を動画用に自動で設定する。または、マイク設定部２３ｆは、マイク識別部２３ｈが識別した識別結果信号に基づいて、マイクロフォン１４からの入力を無効とし、外部マイクロフォン１９を音声認識用かつ動画用に自動で設定する。マイク設定部２３ｆは、以下のマイク設定処理を識別結果信号が入力される間に繰り返し行う。

マイク設定部２３ｆは、識別結果信号がモノラル信号である場合、外部マイクロフォン１９を音声認識用に自動で設定し、マイクロフォン１４を動画用に自動で設定する。マイク設定部２３ｆは、この場合、外部マイクロフォン１９を音声認識用に設定した情報を、音声認識用情報信号（状態情報信号）として音声抽出部２３ｂと音声認識部２３ｃへ出力する。マイク設定部２３ｆは、この場合、マイクロフォン１４を動画用に設定した情報を、動画用情報信号として環境音抽出部２３１へ出力する。

逆に、マイク設定部２３ｆは、識別結果信号がステレオ信号である場合、マイクロフォン１４を音声認識用に自動で設定し、外部マイクロフォン１９を動画用に自動で設定する。マイク設定部２３ｆは、この場合、マイクロフォン１４を音声認識用に設定した情報を、音声認識用情報信号として音声抽出部２３ｂと音声認識部２３ｃへ出力する。マイク設定部２３ｆは、この場合、外部マイクロフォン１９を動画用に設定した情報を、動画用情報信号として環境音抽出部２３１へ出力する。

なお、マイク設定部２３ｆは、識別結果信号がモノラル信号またはステレオ信号である場合、マイクロフォン１４からの入力を無効とし、外部マイクロフォン１９を音声認識用かつ動画用に自動で設定しても良い。マイク設定部２３ｆは、以下の情報信号（状態情報信号）を、音声抽出部２３ｂと音声認識部２３ｃと環境音抽出部２３１へ出力する。情報信号は、外部マイクロフォン１９を音声認識用かつ動画用に設定した情報とする、兼用情報信号である。

音声抽出部２３ｂは、各種信号に基づいて、指向性を設定する。音声抽出部２３ｂは、音処理部２３ａより入力された音デジタル信号と、マイク設定部２３ｆより入力された音声認識用情報信号または兼用情報信号と、に基づいて、音声デジタル信号（音声デジタルデータ、音声）を抽出する。音声抽出部２３ｂは、抽出した音声デジタル信号を音声認識部２３ｃと環境音抽出部２３１へ出力する。音声抽出部２３ｂは、以下の音声抽出処理を、音デジタル信号と、音声認識用情報信号または兼用情報信号と、が入力される間に繰り返し行う。

音声抽出部２３ｂは、音声認識用情報信号がマイクロフォン１４の場合、第１実施形態と同様に、内蔵音デジタル信号から音声デジタル信号を抽出する。音声抽出部２３ｂは、音声認識用情報信号が外部マイクロフォン１９の場合、または、兼用情報信号の場合、外部音デジタル信号を音声デジタル信号として抽出する。なお、音声抽出部２３ｂは、音声デジタル信号を抽出するとき、音声デジタル信号を抽出した部分の時間情報を、時間信号として抽出する。また、音声抽出部２３ｂは、抽出した音声デジタル信号について、第１実施形態と同様に、ノイズ除去の処理を行う。音声抽出部２３ｂは、時間信号を音声デジタル信号と共に環境音抽出部２３１へ出力する。

音声認識部２３ｃは、状態情報信号に基づいて、音声抽出部２３ｂより入力された音声デジタル信号を認識するための制御内容を設定し、音声デジタル信号を認識する。音声認識部２３ｃは、状態情報信号と、マイク識別部２３ｈから入力された外部マイクロフォン種類識別信号と、マイク設定部２３ｆから入力された音声認識用情報信号または兼用情報信号と、に基づいて、音声抽出部２３ｂより入力された音声デジタル信号を認識する。音声認識部２３ｃは、テキスト信号をコマンド出力部２４へ出力する。音声認識部２３ｃは、以下の音声認識処理（認識処理）を、外部マイクロフォン種類識別信号と、音声認識用情報信号または兼用情報信号と、音声デジタル信号と、が入力される間に繰り返し行う。以下、音響モデル設定部２３ｄと単語辞書設定部２３ｅを説明する。

まず、音響モデル設定部２３ｄは、状態情報信号に基づいて、音声抽出部２３ｂより入力された音声デジタル信号を認識するための制御内容を設定する。本実施形態では、状態情報信号は、外部マイクロフォン種類識別信号と音声認識用情報信号または兼用情報信号である。音響モデル設定部２３ｄは、音声認識用情報信号がマイクロフォン１４の場合、第１実施形態と同様に、音響モデルを設定する。音響モデル設定部２３ｄは、音声認識用情報信号が外部マイクロフォン１９の場合、または、兼用情報信号の場合には、外部マイクロフォン種類識別信号に基づいて、外部マイクロフォン１９の特性に合った音響モデルを、記憶部２１に格納されている複数の音響モデルから選択する。そして、音響モデル設定部２３ｄは、選択した音響モデルを記憶部２１から読み込み、音声認識のための音響モデルとして設定する。

ここで、第３実施形態と同様に、外部マイクロフォン１９を音声認識用に設定することにより、その音声認識用の外部マイクロフォン１９の周波数特性や応答特性により、入力される音声の周波数特性が変化する。つまり、外部マイクロフォン１９の状態情報の変更は、外部マイクロフォン１９に入力された音声の認識に対して影響を与える。このため、外部マイクロフォン１９の状態情報の変更により、音声を認識するための制御内容を設定する必要がある。本実施形態では、制御内容は、音響モデルの設定である。そして、上記の通り、音響モデル設定部２３ｄは、外部マイクロフォン種類識別信号等に基づいて、外部マイクロフォン１９の特性に合った音響モデルを、複数の音響モデルから選択する。

次いで、音声認識部２３ｃは、音声デジタル信号に合った音響モデルにより、音声デジタル信号を、音声認識エンジンにて「音素」に変換する。音声認識部２３ｃは、音素の並び順を、予め格納した単語辞書（発音辞書）と紐づけて、単語の候補を列挙する。単語辞書設定部２３ｅは、各種信号に基づいて、記憶部２１に格納されている単語辞書の単語から、音声認識に適した単語を選択する。そして、単語辞書設定部２３ｅは、選択した単語を記憶部２１から読み込み、音声認識のための単語辞書の単語として設定する。次いで、音声認識部２３ｃは、単語の候補を、言語モデルを用いて、単語の候補から正しい文章になる文章の候補を列挙する。

続いて、動画用音制御について説明する。なお、静止画／動画切り換えレバー１６ｃが動画撮影であり、動画撮影ボタン１６ｅが操作されて動画の撮影が開始されると、動画用音制御が開始される。そして、動画撮影ボタン１６ｅが操作されて動画の撮影が終了されると、動画用音制御が終了される。なお、動画撮影ボタン１６ｅに限らず、ユーザが音声認識機能を利用して、動画を撮影しても良い。また、動画用音制御は、音声認識制御とは別のＲＡＭにて実行しても良い。

環境音抽出部２３１には、各種信号が入力される。環境音抽出部２３１は、音処理部２３ａより入力された音デジタル信号と時間信号と、マイク設定部２３ｆから入力された動画用情報信号または兼用情報信号と、に基づいて、音声デジタル信号を抑制して、環境音デジタル信号（環境音デジタルデータ、環境音、動画用の動画用音）を抽出する。環境音抽出部２３１は、抽出した環境音デジタル信号をエンコード部２３２へ出力する。ここで、動画用の動画用音は、マイクロフォン１４に入力された音のうち、音声を抑制した環境音である。環境音抽出部２３１は、環境音デジタル信号を抽出する際、音声抽出部２３ｂより入力された音声デジタル信号と時間信号から、音デジタル信号に含まれる音声デジタル信号を抑制する。そして、環境音抽出部２３１は、抽出した環境音デジタル信号をエンコード部２３２へ出力する。環境音抽出部２３１は、以下の環境音抽出処理を、音デジタル信号と、音声デジタル信号と、時間信号と、動画用情報信号または兼用情報信号と、が入力される間に繰り返し行う。

まず、環境音抽出部２３１は、動画用情報信号がマイクロフォン１４の場合、内蔵音デジタル信号から音声デジタル信号を抑制する。環境音抽出部２３１は、動画用情報信号が外部マイクロフォン１９の場合、または、兼用情報信号の場合、外部音デジタル信号から音声デジタル信号を抑制する。

次いで、環境音抽出部２３１は、音デジタル信号から音声デジタル信号を抑制した残りの音デジタル信号を、アンビソニックス化する処理を行う（アンビソニックスに変換する）。次いで、環境音抽出部２３１は、角度信号に基づいて、アンビソニックス化された音デジタル信号における音の再現方向を設定する。そして、環境音抽出部２３１は、アンビソニックス化され音の再現方向が設定された音デジタル信号から、環境音デジタル信号を抽出する。このように、環境音抽出部２３１は、音デジタル信号から環境音デジタル信号を抽出する。なお、環境音抽出部２３１は、アンビソニックス化する処理を行った後に、音声デジタル信号を抑制する処理を行っても良い。

次いで、環境音抽出部２３１は、抽出した環境音デジタル信号について、上述した音声抽出部２３ｂと同様にノイズ除去の処理を行う。そして、環境音抽出部２３１は、ノイズ除去した環境音デジタル信号としてエンコード部２３２へ出力する。

エンコード部２３２は、環境音抽出部２３１より入力された環境音デジタル信号をエンコードして記憶部２１へ記録する。具体的には、エンコード部２３２は、以下のエンコード処理を、環境音抽出部２３１から環境音デジタル信号が入力される間に繰り返し行う。

まず、エンコード部２３２は、環境音デジタル信号を、非圧縮のＷＡＶフォーマットや圧縮形式のＡＡＣ等に変換する。環境音デジタル信号からファイルへの変換は、予め設定されたフォーマットや形式に基づいて変換される。次いで、エンコード部２３２は、変換された環境音デジタル信号を映像データと同期して動画ファイルとしてエンコードする。そして、エンコード部２３２は、動画ファイルを記憶部２１へ記録する。

次に、第４実施形態の作用効果について説明する。

まず、撮像装置１Ｄの音声認識制御の作用効果を説明する。状態取得部２２において、各種信号が入力されると、状態取得部２２により各種信号が取得される（取得処理）。取得処理部と同時または取得処理部の前後に、音処理部２３ａにおいて、マイクロフォン１４に音が入力されると、音処理部２３ａにより内蔵音アナログ信号が内蔵音デジタル信号へ変換される（音処理）。外部マイクロフォン１９に音が入力されると、音処理部２３ａにより外部音アナログ信号が外部音デジタル信号へ変換される（音処理）。次いで、マイク識別部２３ｈにおいて、状態情報信号が入力されると、マイク識別部２３ｈにより、状態情報信号に基づいて、外部マイクロフォン１９がモノラルマイクロフォンかステレオマイクロフォンのどちらであるかが自動で識別される（マイク識別処理）。加えて、マイク識別部２３ｈにより、状態情報信号に基づいて、外部マイクロフォン１９の種類が識別される（マイク識別処理）。

次いで、マイク設定部２３ｆにおいて、識別結果信号が入力されると、マイク設定部２３ｆにより、識別結果信号に基づいて、マイクロフォン１４と外部マイクロフォン１９のうち一方を音声認識用に、他方を動画用に、自動で設定する（マイク設定処理）。または、マイク設定部２３ｆにより、識別結果信号に基づいて、外部マイクロフォン１９を音声認識用かつ動画用に自動で設定する（マイク設定処理）。次いで、音声抽出部２３ｂにおいて、各種信号が入力されると、音声抽出部２３ｂにより、各種信号に基づいて指向性が設定される（音声抽出処理）。その後、音声抽出部２３ｂにより、音声認識用情報信号に基づいて、第１実施形態と同様に、内蔵音デジタル信号から音声デジタル信号が抽出される（音声抽出処理）。または、音声抽出部２３ｂにより、音声認識用情報信号または兼用情報信号に基づいて、外部音デジタル信号が音声デジタル信号として抽出される（音声抽出処理）。次いで、音声抽出部２３ｂにより、抽出された音声デジタル信号についてノイズ除去の処理を行う（音声抽出処理）。

次いで、音声認識部２３ｃにおいて、各種信号が入力されると、音響モデル設定部２３ｄにより、状態情報信号と外部マイクロフォン種類識別信号と音声認識用情報信号または兼用情報信号に基づいて、音響モデルが設定される（音声認識処理、音響モデル設定処理）。その後、単語辞書設定部２３ｅにより、単語辞書の単語が設定される（音声認識処理、単語設定処理）。続いて、音声認識部２３ｃにより、文章または単語が認識される（音声認識処理）。次いで、コマンド出力部２４において、認識結果であるテキスト信号が入力されると、コマンド出力部２４によりテキスト信号に従って動作信号が出力される（コマンド出力処理）。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、ユーザが発声する音声を認識することができ、認識結果に従って動作信号を出力することができる。上記のように、認識制御モジュール２３は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する処理を行う（認識制御処理）。

次いで、撮像装置１Ｄの動画用音制御の作用効果を説明する。上記の取得処理、音処理、マイク識別処理、マイク設定処理、音声抽出処理が行われる。次いで、環境音抽出部２３１において、各種信号が入力されると、環境音抽出部２３１により、動画用情報信号に基づいて、内蔵音デジタル信号から時間信号に対応する音声デジタル信号が抑制される（環境音抽出処理）。または、環境音抽出部２３１により、動画用情報信号または兼用情報信号に基づいて、外部音デジタル信号から時間信号に対応するが音声デジタル信号が抑制される（環境音抽出処理）。次いで、環境音抽出部２３１により、音デジタル信号から音声デジタル信号を抑制した残りの音デジタル信号が、アンビソニックス化される（環境音抽出処理）。次いで、環境音抽出部２３１により、角度信号に基づいて、アンビソニックス化された音デジタル信号における音の再現方向が設定される（環境音抽出処理）。そして、環境音抽出部２３１により、アンビソニックス化され音の再現方向が設定された音デジタル信号から、環境音デジタル信号が抽出される（環境音抽出処理）。次いで、環境音抽出部２３１により、抽出された環境音デジタル信号についてノイズ除去の処理を行う（環境音抽出処理）。

次いで、エンコード部２３２において、環境音デジタル信号が入力されると、エンコード部２３２により環境音デジタル信号からファイルへ変換され、映像データと同期して動画ファイルとしてエンコードされる（エンコード処理）。そして、エンコード部２３２により動画ファイルが記憶部２１へ記録される（エンコード処理）。

続いて、撮像装置１Ｄの作用効果を説明する。

本実施形態では、音声は、撮像装置１Ｄに設けられたマイクロフォン１４から入力される。接続機器は、音声と環境音のうち少なくとも一方が入力される外部マイクロフォン１９である。状態取得部２２は、外部マイクロフォン１９の状態情報信号を取得する。認識制御モジュール２３（マイク設定部２３ｆ）は、状態取得部２２により取得された外部マイクロフォン１９の状態情報信号に基づいて、マイクロフォン１４と外部マイクロフォン１９のうち一方を音声認識用に設定する。従って、外部マイクロフォン１９を追加した場合、音声が入力されやすい一方のマイクロフォンを選択することができる（外部マイクロフォンによる音声認識用マイク設定作用）。

本実施形態では、認識制御モジュール２３（マイク識別部２３ｈ）は、状態取得部２２により取得された外部マイクロフォン１９の状態情報信号に基づいて自動で外部マイクロフォン１９を識別する。認識制御モジュール２３（マイク設定部２３ｆ）は、識別した識別結果信号に基づいてマイクロフォン１４と外部マイクロフォン１９のうち一方を音声認識用に自動で設定する。即ち、外部マイクロフォン１９を追加した場合、一方が音声認識用のマイクロフォンとして自動で設定されるので、ユーザが音声認識用のマイクロフォンを設定しなくて良い。従って、外部マイクロフォン１９を追加した場合、ユーザの手間を低減することができる（自動音声認識用マイク設定作用）。

本実施形態では、認識制御モジュール２３（マイク設定部２３ｆ）は、マイクロフォン１４と外部マイクロフォン１９のうち他方を動画用（動画用）に設定する。即ち、外部マイクロフォン１９を追加した場合でも、一方を音声認識用に、他方を動画用に設定される。このため、外部マイクロフォン１９を追加した場合、マイクロフォン１４と外部マイクロフォン１９を音声認識用と動画用に切り分けることができる。従って、外部マイクロフォン１９を追加した場合、音声が入力されやすい一方のマイクロフォンを選択することができ、環境音が入力されやすい他方のマイクロフォンを選択することができる（音声認識用・動画用マイク設定作用）。

本実施形態では、認識制御モジュール２３（マイク設定部２３ｆ）は、状態取得部２２により取得された外部マイクロフォン１９の状態情報信号に基づいて、マイクロフォン１４からの入力を無効とし、外部マイクロフォン１９を音声認識用かつ動画用に設定する。従って、音声も環境音も入力されやすい外部マイクロフォン１９を選択することができる（外部マイクロフォンによるマイク設定作用）。

本実施形態では、認識制御モジュール２３（音声認識部２３ｃ、音響モデル設定部２３ｄ）は、状態取得部２２により取得された状態情報信号（外部マイクロフォン１９の状態情報の信号）に基づいて、音声を音素に変換する音響モデルを設定する。即ち、音響モデルの設定により、音声を音素に変換する精度が向上する。このため、音響モデルの設定により音声認識時に誤認識が抑制される。従って、音響モデルの設定により、音声認識の精度を向上することができる（音響モデル設定作用）。

なお、本実施形態では、第１実施形態と同様に、認識精度向上作用、撮像装置操作作用を奏する。
（第５実施形態）

次に、図１７、図１９～図２２を参照して、第５実施形態の撮像装置１Ｅについて説明する。なお、第１実施形態等と同様の構成はその説明を省略または簡略化する。

撮像装置１Ｅの装置本体１０Ｅ（本体、筐体）は、第４実施形態と同様に、マイクロフォン１４（入力部、内蔵マイクロフォン）等を有する（図１～図３，図１７参照）。更に、装置本体１０Ｅは、図１９と図２０に示すように、装置側コネクタ１８を有する。更にまた、装置本体１０Ｅの右側にはグリップ部１００が一体に構成されている。更に、装置本体１０Ｅは、制御ユニット２０と、図略の各種のアクチュエータ等を有する。更にまた、装置本体１０Ｅには、外部マイクロフォン１９（接続機器）が別体に設けられる。なお、マイクロフォン１４は、装置本体１０Ｅに内蔵されているものである。外部マイクロフォン１９は、装置本体１０Ｅに対し外部から接続機器として設けられた（取り付けられた）ものであり、装置本体１０Ｄに接続されている。また、制御ユニット２０、制御ユニット２０が有する各部等２１～２６は、装置本体１０Ｅに内蔵されているものである。後述する外部制御ユニット２００、外部制御ユニット２００が有する各部等２０１～２０３は、装置本体１０Ｅに対し外部から設けられ、外部マイクロフォン１９が有するものである。

なお、装置側コネクタ１８は、第４実施形態と同様である。外部マイクロフォン１９は、第４実施形態と同様に、複数の種類のうち一種類が装置本体１０Ｅに接続される（図１６参照）。以下において、装置側コネクタ１８と外部側コネクタ１９ｃは接続されているものとする。

以下、第４実施形態の図１７を参照して、制御ユニット２０のブロック構成について説明する。

制御ユニット２０には、第４実施形態と同様に、アイセンサ１３の検出信号（検出結果）と、ジャイロセンサ２７の角度信号（傾き情報）と、マイクロフォン１４の内蔵音アナログ信号と、等の各種信号が入力される。制御ユニット２０には、装置側コネクタ１８と外部側コネクタ１９ｃを通じて、外部マイクロフォン１９の状態情報信号が入力される。外部マイクロフォン１９の状態情報信号は、外部マイクロフォン１９の状態情報の信号である。外部マイクロフォン１９の状態情報とは、型番、種類、周波数特性、応答特性、モノラルマイクロフォンとステレオマイクロフォンとマイクジャック端子にあっては極数、音声認識機能の有無、音声認識機能のバージョン情報等の製品情報である。なお、本実施形態では、外部マイクロフォン１９は音声認識機能を有するものとする。更に、外部マイクロフォン１９の状態情報とは、アナログ通信かデジタル通信の通信状態である。更にまた、制御ユニット２０には、レシーバ１９ｂから外部音アナログ信号、または、レシーバ１９ｂに入力された外部音デジタル信号が入力される（図２０参照）。更に、制御ユニット２０には、外部認識制御モジュール２０２からテキスト信号と、外部コマンド出力部２０３から動作信号が入力される（図２０参照）。なお、外部マイクロフォン１９は、制御ユニット２０が有する図略のマイクドライバにより駆動される。

装置本体１０Ｅと外部マイクロフォン１９のそれぞれの各種信号や各種データの入出力は、装置側コネクタ１８と外部側コネクタ１９ｃを通じて行われるものとする。つまり、装置本体１０Ｅと外部マイクロフォン１９は、装置側コネクタ１８と外部側コネクタ１９ｃを通じて、それぞれの各種信号（情報）や各種データ（情報）を交換する。

状態取得部２２は、第４実施形態と同様に、各種信号を取得し、記憶部２１と認識制御モジュール２３へ出力する。本実施形態では、状態情報信号は、外部マイクロフォン１９に関する状態情報の信号である。

認識制御モジュール２３は、第４実施形態と同様に、マイクロフォン１４より入力された内蔵音アナログ信号の変換や、外部マイクロフォン１９より入力された音アナログ信号の変換や、ユーザが発声する音声の認識や、認識されたテキスト信号（認識結果）の出力等の処理を行う。認識制御モジュール２３は、テキスト信号をコマンド出力部２４へ出力する。認識制御モジュール２３の詳細は後述する。

以下、図１９を参照して、外部制御ユニット２００のブロック構成について説明する。

外部制御ユニット２００（コンピュータ）は、外部記憶部２０１と、外部認識制御モジュール２０２（外部認識制御部）と、外部コマンド出力部２０３（外部出力部）と、を有する。

外部制御ユニット２００は、制御ユニット２０と同様に、ＣＰＵ等の演算素子を有し、外部記憶部２０１に格納されている図略の外部制御用プログラムが起動時に読み出されて外部制御ユニット２００において実行される。これにより、外部制御ユニット２００は、外部認識制御モジュール２０２と、外部コマンド出力部２０３と、を含む外部マイクロフォン１９全体の制御を行う。外部制御ユニット２００には、レシーバ１９ｂから外部音アナログ信号、または、レシーバ１９ｂに入力された外部音デジタル信号が入力される。また、外部側コネクタ１９ｃが、装置側コネクタ１８の装置側デジタルコネクタまたは装置側アナログコネクタに接続されている場合、外部制御ユニット２００には以下の各種信号が入力される。入力される各種信号は、アイセンサ１３の検出信号（検出結果）と、マイクロフォン１４の内蔵音アナログ信号や内蔵音デジタル信号や内蔵音声デジタル信号等の信号である。外部制御ユニット２００は、入力された各種信号に基づいて、外部マイクロフォン１９全体の制御を行う。なお、「ＣＰＵ」は「ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ」の略である。

外部記憶部２０１は、大容量記憶媒体（例えばフラッシュメモリやハードディスクドライブ等）およびＲＯＭ、ＲＡＭ等の半導体記憶媒体を備える。外部記憶部２０１には上述の外部制御用プログラムが格納されていると共に、外部制御ユニット２００の制御動作時に必要とされる各種信号（各種センサ信号、外部マイクロフォン１９の状態情報信号等）や各種データが一時的に格納される。外部記憶部２０１には、後述する外部音響モデル設定部２０２ｄのための音響モデルと教師データ、後述する外部単語辞書設定部２０２ｅのための単語辞書の単語と、言語モデルと、が予め格納されているものとする。外部記憶部２０１のＲＡＭには、外部マイクロフォン１９より入力された未圧縮のＲＡＷ音声データ（生音声データ）が一時的に格納される。なお、「ＲＯＭ」は「ＲｅａｄＯｎｌｙＭｅｍｏｒｙ」の略であり、「ＲＡＭ」は「ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ」の略である。

外部認識制御モジュール２０２は、外部マイクロフォン１９より入力された音アナログ信号の変換や、ユーザが発声する音声の認識や、認識されたテキスト信号（認識結果）の出力等の処理を行う。外部認識制御モジュール２０２は、テキスト信号を外部コマンド出力部２０３へ出力する。外部認識制御モジュール２０２の詳細は後述する。

外部コマンド出力部２０３は、外部認識制御モジュール２０２からのテキスト信号に従って動作信号（コマンド信号）の出力の処理を行う。なお、外部コマンド出力部２０３の詳細は後述する。

以下、図２０を参照して、制御ユニット２０と認識制御モジュール２３と外部制御ユニット２００と外部認識制御モジュール２０２のブロック構成について説明する。

認識制御モジュール２３は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する（認識制御処理）。認識制御モジュール２３は、音処理部２３ａと、音声抽出部２３ｂと、音声認識部２３ｃ（認識部）と、調停制御部２３ｉと、を有する。音声認識部２３ｃは、音響モデル設定部２３ｄと、単語辞書設定部２３ｅと、を有する。調停制御部２３ｉは、マイク調停部２３ｉ１と、認識調停部２３ｉ２と、結果調停部２３ｉ３と、を有する。

外部認識制御モジュール２０２は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する。外部認識制御モジュール２０２は、外部音処理部２０２ａと、外部音声抽出部２０２ｂと、外部音声認識部２０２ｃと、を有する。外部音声認識部２０２ｃは、外部音響モデル設定部２０２ｄと、外部単語辞書設定部２０２ｅと、を有する。外部認識制御モジュール２０２は、装置側コネクタ１８と外部側コネクタ１９ｃを通じて、認識制御モジュール２３と接続されている。

なお、図２０に示す例では、本実施形態の撮像装置１Ｅは、マイクロフォン１４と、外部マイクロフォン１９と、制御ユニット２０と、認識制御モジュール２３と、外部制御ユニット２００と、外部認識制御モジュール２０２と、を備える。制御ユニット２０と外部制御ユニット２００は、音声認識装置として機能する。制御ユニット２０の制御用プログラムとして、各部２２，２３ａ～２３ｅ，２３ｉ（２３ｉ１～２３ｉ３を含む），２４の処理を実行するためのプログラムが記憶部２１に格納されている。制御ユニット２０は、プログラムを読み出して、ＲＡＭにて実行することにより、各部２２，２３ａ～２３ｅ，２３ｉ（２３ｉ１～２３ｉ３を含む），２４の処理を行う。外部制御ユニット２００の制御用プログラムとして、各部２０２ａ～２０２ｅの処理を実行するためのプログラムが外部記憶部２０１に格納されている。外部制御ユニット２００は、プログラムを読み出して、ＲＡＭにて実行することにより、各部２０２ａ～２０２ｅの処理を行う。なお、以下において、状態取得部２２、認識制御モジュール２３、外部認識制御モジュール２０２、コマンド出力部２４と外部コマンド出力部２０３の順で説明する。また、結果調停部２３ｉ３は、外部認識制御モジュール２０２の後に説明する。以下において、内蔵音デジタル信号と外部音デジタル信号を特に区別しない場合には「音デジタル信号」と記載する。内蔵音声デジタル信号と後述する外部音声デジタル信号を特に区別しない場合には「音声デジタル信号」と記載する。

状態取得部２２は、各種信号を取得し、認識制御モジュール２３と外部認識制御モジュール２０２へ出力する。

次いで、認識制御モジュール２３について説明する。

音処理部２３ａは、第１実施形態と同様に、マイクロフォン１４より入力された内蔵音アナログ信号を、内蔵音デジタル信号への変換や内蔵音デジタル信号の公知のノイズ除去等の音処理を行う。音処理部２３ａは、内蔵音デジタル信号を音声抽出部２３ｂへ出力する。

調停制御部２３ｉは、音声認識のための調停制御を行う。マイク調停部２３ｉ１は、外部マイクロフォン１９の状態情報信号に基づいて、マイクロフォン１４と外部マイクロフォン１９のうち少なくとも一方を音声認識用に設定する。マイク調停部２３ｉ１は、以下のマイク調停処理を、状態取得部２２から状態情報信号が入力される間に繰り返し行う。まず、マイク調停部２３ｉ１は、第４実施形態のマイク識別処理と同様の処理を自動で行う。つまり、マイク調停部２３ｉ１は、外部マイクロフォン１９がモノラルマイクロフォンかステレオマイクロフォンのどちらであるかの識別を行う。更に、マイク調停部２３ｉ１は、外部マイクロフォン１９の種類の識別を行う。

次いで、マイク調停部２３ｉ１は、識別結果信号（状態情報信号）に基づいて、マイクロフォン１４と外部マイクロフォン１９のうち少なくとも一方を音声認識用に自動で設定する。マイク調停部２３ｉ１は、識別結果信号がモノラル信号である場合、外部マイクロフォン１９を音声認識用に自動で設定する。なお、マイク調停部２３ｉ１は、識別結果信号がモノラル信号である場合、マイクロフォン１４と外部マイクロフォン１９の両方を音声認識用に自動で設定しても良い。マイク調停部２３ｉ１は、識別結果信号がステレオ信号である場合、マイクロフォン１４を音声認識用に自動で設定する。そして、マイク調停部２３ｉ１は、マイクロフォン１４と外部マイクロフォン１９の一方または両方を音声認識用に設定した情報を、音声認識用情報信号（状態情報信号）として出力先へ出力する。出力先は、音声抽出部２３ｂと音声認識部２３ｃと外部音声抽出部２０２ｂと外部音声認識部２０２ｃと結果調停部２３ｉ３である。更に、マイク調停部２３ｉ１は、外部マイクロフォン１９の識別結果として、外部マイクロフォン種類識別信号（状態情報信号）を音声認識部２３ｃと外部音声認識部２０２ｃへ出力する。

認識調停部２３ｉ２は、状態情報信号に基づいて、音声認識部２３ｃと外部音声認識部２０２ｃのうち少なくとも一方を認識特定部（音声認識用）に自動で設定する。認識特定部は、音声デジタル信号を認識するものとして特定されたものである。言い換えると、音声認識部２３ｃと外部音声認識部２０２ｃのうち、認識特定部に設定されない方は音声デジタル信号を認識しない。認識調停部２３ｉ２は、以下の認識調停処理を、状態取得部２２から状態情報信号が入力される間に繰り返し行う。

ここで、装置本体１０Ｅと外部マイクロフォン１９のそれぞれが音声認識機能を有する場合、どちらで音声デジタル信号を認識するのか設定する必要がある。このため、外部マイクロフォン１９の状態情報信号に基づいて、二つの音声認識機能のうち少なくとも一方を認識特定部に設定する必要がある。つまり、外部マイクロフォン１９の状態情報により、音声の認識に対して影響を与える。このため、外部マイクロフォン１９の状態情報により、音声を認識するための制御内容を設定する必要がある。上記のように、外部マイクロフォン１９の状態情報により、認識特定部が設定される。本実施形態では、制御内容は、認識特定部の設定である。認識調停部２３ｉ２は、外部マイクロフォン１９の状態情報信号のうち音声認識機能のバージョン情報等に基づいて、音声認識部２３ｃと外部音声認識部２０２ｃのうち少なくとも一方を認識特定部に設定する。

例えば、音声認識部２３ｃと外部音声認識部２０２ｃのそれぞれの音声認識機能のバージョン情報により、バージョンが最新の方を認識特定部に設定する。「音声認識機能のバージョン情報」とは、音声認識に用いられる音響モデル、単語辞書の単語、言語モデルの三つのデータベースの情報である。そして、「バージョン」が最新のものは古いものよりも、三つのデータベースにつき、音声や言語データ等を学習させたものであって、より精度の高い音声認識を可能とするものである。音声認識部２３ｃの音声認識機能のバージョン情報は、予め記憶部２１に格納されている。このため、音声認識部２３ｃと外部音声認識部２０２ｃのそれぞれの音声認識機能のバージョン情報を比較すれば、認識調停部２３ｉ２はバージョンが最新の方を認識特定部に設定することができる。

具体的なバージョン情報の比較としては、記憶部２１と外部記憶部２０１のうち単語辞書の単語数が多い方すなわち音声認識部２３ｃと外部音声認識部２０２ｃのうち少なくとも一方を、認識調停部２３ｉ２は認識特定部に設定する。例えば、記憶部２１に格納されている単語辞書の単語が、「撮影、ストップ、ハイチーズ」であり、外部記憶部２０１に格納されている単語辞書の単語が、「撮影、ストップ」である場合、認識調停部２３ｉ２は音声認識部２３ｃを認識特定部に設定する。

また、単語辞書の単語数が違っても、記憶部２１と外部記憶部２０１のそれぞれの単語辞書に登録されている単語が異なる場合がある。この場合には、音声認識部２３ｃと外部音声認識部２０２ｃの音声認識性能（音声認識機能の性能）に優劣が付けられないため、認識調停部２３ｉ２は両方を認識特定部に設定する。例えば、記憶部２１に格納されている単語辞書の単語が、「撮影、ストップ、ハイチーズ」であり、外部記憶部２０１に格納されている単語辞書の単語が、「撮影、ストップ、風切り音低減」である場合、認識調停部２３ｉ２は音声認識性能に優劣が付けられない。このため、認識調停部２３ｉ２は両方を認識特定部に設定する。

音声認識部２３ｃと外部音声認識部２０２ｃのそれぞれの単語辞書の単語数が完全一致の場合すなわち両方の音声認識性能が同一の場合には、認識調停部２３ｉ２は両方を認識特定部に設定する。

バージョン情報の比較としては音声認識部２３ｃと外部音声認識部２０２ｃのうち単にバージョンの数字が最新の方を、認識調停部２３ｉ２は認識特定部に設定しても良い。ただし、バージョンの数字が最新の場合でも、例えば単語辞書の単語数を減らしたシンプルなものになっている可能性もあるので、数字が最新であっても古いものより音声認識機能が優れていない可能性もある。認識調停部２３ｉ２は、認識特定部を設定した情報を、認識特定部信号（状態情報信号）として音声抽出部２３ｂと音声認識部２３ｃと外部音声抽出部２０２ｂと外部音声認識部２０２ｃと結果調停部２３ｉ３へ出力する。認識特定部を設定した情報は、音声認識部２３ｃと外部音声認識部２０２ｃの一方または両方である。両方である場合、認識特定部を設定した情報は、音声認識性能が同一（性能同一）、または、音声認識性能に優劣なしである（性能優劣無し）。

音声抽出部２３ｂは、マイク調停部２３ｉ１より入力された音声認識用情報信号と、認識調停部２３ｉ２より入力された認識特定部信号と、に基づいて、内蔵音声デジタル信号（音声デジタルデータ、音声）を抽出する。音声抽出部２３ｂは、以下の音声抽出処理を、内蔵音デジタル信号と音声認識用情報信号と認識特定部信号が入力される間に繰り返し行う。音声抽出部２３ｂは、マイク調停部２３ｉ１より入力された音声認識用情報信号に基づいて、内蔵音声デジタル信号を抽出するか否かを決定する。音声抽出部２３ｂは、音声認識用情報信号がマイクロフォン１４の場合または両方の場合、各種信号に基づいて、指向性を設定する。そして、音声抽出部２３ｂは、音処理部２３ａより入力された内蔵音デジタル信号より、内蔵音声デジタル信号を抽出する。なお、音声抽出部２３ｂは、音声認識用情報信号が外部マイクロフォン１９の場合、内蔵音デジタル信号より内蔵音声デジタル信号を抽出しない。また、音声抽出部２３ｂは、抽出した内蔵音声デジタル信号について、第１実施形態と同様に、ノイズ除去の処理を行う。

音声抽出部２３ｂは、認識調停部２３ｉ２より入力された認識特定部信号に基づいて、抽出した内蔵音声デジタル信号の出力先を設定する。音声抽出部２３ｂは、認識特定部信号が音声認識部２３ｃまたは性能同一の場合には、抽出した内蔵音声デジタル信号を音声認識部２３ｃへ出力する。音声抽出部２３ｂは、認識特定部信号が性能優劣無しの場合、抽出した内蔵音声デジタル信号を音声認識部２３ｃと外部音声認識部２０２ｃの両方に出力する。音声抽出部２３ｂは、認識特定部信号が外部音声認識部２０２ｃの場合、抽出した内蔵音声デジタル信号を外部音声認識部２０２ｃへ出力する。なお、音声抽出部２３ｂは、認識特定部信号に関係なく、抽出した内蔵音声デジタル信号を音声認識部２３ｃと外部音声認識部２０２ｃの両方に出力しても良い。

音声認識部２３ｃは、状態情報信号に基づいて、音声抽出部２３ｂと外部音声抽出部２０２ｂのうち少なくとも一方より入力された音声デジタル信号を認識するための制御内容を設定し、音声デジタル信号を認識する。

音声認識部２３ｃには、状態情報信号と、マイク調停部２３ｉ１より入力された音声認識用情報信号と外部マイクロフォン種類識別信号と、認識調停部２３ｉ２より入力された認識特定部信号と、音声抽出部２３ｂと外部音声抽出部２０２ｂのうち少なくとも一方より入力された音声デジタル信号と、が入力される。音声認識部２３ｃは、これらの信号に基づいて、内蔵音声デジタル信号と外部音声デジタル信号のうち少なくとも一方を認識する。音声認識部２３ｃは、テキスト信号を結果調停部２３ｉ３へ出力する。音声認識部２３ｃは、以下の音声認識処理（認識処理）を、状態情報信号と音声認識用情報信号と外部マイクロフォン種類識別信号と音声デジタル信号が入力される間に繰り返し行う。

まず、音声認識部２３ｃでは、以下の音声デジタル信号を認識することになる。音声認識部２３ｃは、内蔵音声デジタル信号が入力され、認識特定部信号が音声認識部２３ｃまたは性能優劣無しの場合、内蔵音声デジタル信号を認識する。音声認識部２３ｃは、外部音声デジタル信号が入力され、認識特定部信号が音声認識部２３ｃまたは性能優劣無しの場合、外部音声デジタル信号を認識する。音声認識部２３ｃは、内蔵音声デジタル信号が入力され、認識特定部信号が性能同一の場合、内蔵音声デジタル信号のみを認識する。なお、音声認識部２３ｃは、認識特定部信号が外部音声認識部２０２ｃの場合、音声デジタル信号を認識しない。以下、音響モデル設定部２３ｄと単語辞書設定部２３ｅを説明する。

まず、音響モデル設定部２３ｄは、状態情報信号に基づいて、入力された音声デジタル信号を認識するための制御内容を設定する。本実施形態では、状態情報信号は、外部マイクロフォン種類識別信号と音声認識用情報信号である。音響モデル設定部２３ｄは、音声認識用情報信号がマイクロフォン１４の場合、第１実施形態と同様に、音響モデルを設定する。音響モデル設定部２３ｄは、音声認識用情報信号が外部マイクロフォン１９の場合、外部マイクロフォン種類識別信号に基づいて、外部マイクロフォン１９の特性に合った音響モデルを、記憶部２１に格納されている複数の音響モデルから選択する。そして、音響モデル設定部２３ｄは、選択した音響モデルを記憶部２１から読み込み、音声認識のための音響モデルとして設定する。音響モデル設定部２３ｄは、音声認識用情報信号が両方の場合、上記に沿って、それぞれの特性に合った音響モデルを設定する。

次いで、音声認識部２３ｃは、音声デジタル信号に合った音響モデルにより、音声デジタル信号を、音声認識エンジンにて「音素」に変換する。音声認識部２３ｃは、音素の並び順を、予め格納した単語辞書（発音辞書）と紐づけて、単語の候補を列挙する。単語辞書設定部２３ｅは、各種信号に基づいて、記憶部２１に格納されている単語辞書の単語から、音声認識に適した単語を選択する。そして、単語辞書設定部２３ｅは、選択した単語を記憶部２１から読み込み、音声認識のための単語辞書の単語として設定する。また、単語の候補には、文章の候補と同様に統計的評価値が付されている。

次いで、音声認識部２３ｃは、単語の候補を、言語モデルを用いて、単語の候補から正しい文章になる文章の候補を列挙する。

次いで、音声認識部２３ｃは、文章の候補のうち、最も統計的評価値（以下、評価値とも記載する。）が高い文章を選択する。そして、音声認識部２３ｃは、選択された文章（認識結果）をテキスト信号（テキストデータ）として結果調停部２３ｉ３へ出力する。なお、「統計的評価値」は、第１実施形態と同様に、音声の認識時に認識結果の精度を示す評価値である。また、音素から一つの単語が出力される場合には、文章の候補列挙と文章の選択を省略して、音素から出力された単語（認識結果）をテキスト信号（テキストデータ）として、音声認識部２３ｃは結果調停部２３ｉ３へ出力する。そもそも、音処理された音デジタル信号に環境音は含まれているが音声が含まれていない場合、または、音声が認識されていない場合は、非テキスト信号（テキスト信号の一種）として、音声認識部２３ｃは結果調停部２３ｉ３へ出力する。なお、非テキスト信号は、音声が認識されていない非該当認識結果である。

次いで、外部認識制御モジュール２０２について説明する。

外部音処理部２０２ａは、外部マイクロフォン１９より外部音アナログ信号が入力されると、音処理部２３ａと同様に、外部音アナログ信号を、外部音デジタル信号への変換や外部音デジタル信号の公知のノイズ除去等の音処理を行う。外部音処理部２０２ａは、外部マイクロフォン１９より外部音デジタル信号が入力されると、公知のノイズ除去等の音処理を行う。外部音処理部２０２ａは、外部音デジタル信号を外部音声抽出部２０２ｂへ出力する。外部音処理部２０２ａは、外部音処理を、外部マイクロフォン１９に音が入力される間に繰り返し行う。

外部音声抽出部２０２ｂは、マイク調停部２３ｉ１より入力された音声認識用情報信号と、認識調停部２３ｉ２より入力された認識特定部信号と、に基づいて、外部音声デジタル信号（音声デジタルデータ、音声）を抽出する。外部音声抽出部２０２ｂは、以下の外部音声抽出処理を、外部音デジタル信号と音声認識用情報信号と認識特定部信号が入力される間に繰り返し行う。外部音声抽出部２０２ｂは、マイク調停部２３ｉ１より入力された音声認識用情報信号に基づいて、外部音声デジタル信号を抽出するか否かを決定する。外部音声抽出部２０２ｂは、音声認識用情報信号が外部マイクロフォン１９の場合または両方の場合、外部音処理部２０２ａより入力された外部音デジタル信号を外部音声デジタル信号として抽出する。なお、外部音声抽出部２０２ｂは、音声認識用情報信号がマイクロフォン１４の場合、外部音デジタル信号を外部音声デジタル信号として抽出しない。また、外部音声抽出部２０２ｂは、抽出した外部音声デジタル信号について、上記の音声抽出部２３ｂと同様に、ノイズ除去の処理を行う。

外部音声抽出部２０２ｂは、認識調停部２３ｉ２より入力された認識特定部信号に基づいて、抽出した外部音声デジタル信号の出力先を設定する。外部音声抽出部２０２ｂは、認識特定部信号が外部音声認識部２０２ｃまたは性能同一の場合には、抽出した外部音声デジタル信号を外部音声認識部２０２ｃへ出力する。外部音声抽出部２０２ｂは、認識特定部信号が性能優劣無しの場合、抽出した外部音声デジタル信号を音声認識部２３ｃと外部音声認識部２０２ｃの両方に出力する。外部音声抽出部２０２ｂは、認識特定部信号が音声認識部２３ｃの場合、抽出した外部音声デジタル信号を音声認識部２３ｃへ出力する。なお、外部音声抽出部２０２ｂは、認識特定部信号に関係なく、抽出した外部音声デジタル信号を音声認識部２３ｃと外部音声認識部２０２ｃの両方に出力しても良い。

外部音声認識部２０２ｃは、状態情報信号に基づいて、音声抽出部２３ｂと外部音声抽出部２０２ｂの少なくとも一方より入力された音声デジタル信号を認識するための制御内容を設定し、音声デジタル信号を認識する。

外部音声認識部２０２ｃには、状態情報信号と、マイク調停部２３ｉ１より入力された音声認識用情報信号と外部マイクロフォン種類識別信号と、認識調停部２３ｉ２より入力された認識特定部信号と、音声抽出部２３ｂと外部音声抽出部２０２ｂの少なくとも一方より入力された音声デジタル信号と、が入力される。外部音声認識部２０２ｃは、これらの信号に基づいて、内蔵音声デジタル信号と外部音声デジタル信号のうち少なくとも一方を認識する。外部音声認識部２０２ｃは、テキスト信号を結果調停部２３ｉ３へ出力する。外部音声認識部２０２ｃは、以下の外部音声認識処理（認識処理）を、状態情報信号と音声認識用情報信号と外部マイクロフォン種類識別信号と音声デジタル信号が入力される間に繰り返し行う。

まず、外部音声認識部２０２ｃでは、以下の音声デジタル信号を認識することになる。外部音声認識部２０２ｃは、外部音声デジタル信号が入力され、認識特定部信号が外部音声認識部２０２ｃまたは性能優劣無しの場合、外部音声デジタル信号を認識する。外部音声認識部２０２ｃは、内蔵音声デジタル信号が入力され、認識特定部信号が外部音声認識部２０２ｃまたは性能優劣無しの場合、内蔵音声デジタル信号を認識する。外部音声認識部２０２ｃは、外部音声デジタル信号が入力され、認識特定部信号が性能同一の場合、外部音声デジタル信号のみを認識する。なお、外部音声認識部２０２ｃは、認識特定部信号が音声認識部２３ｃの場合、音声デジタル信号を認識しない。以下、外部音響モデル設定部２０２ｄと外部単語辞書設定部２０２ｅを説明する。

まず、外部音響モデル設定部２０２ｄは、上記の音響モデル設定部２３ｄの記載のうち、音響モデル設定部２３ｄを外部音響モデル設定部２０２ｄとし、記憶部２１を外部記憶部２０１とすれば同様である。

次いで、外部音声認識部２０２ｃは、音声デジタル信号に合った音響モデルにより、音声デジタル信号を音声認識エンジンにて「音素」に変換する。外部音声認識部２０２ｃは、音素の並び順を、予め格納した単語辞書（発音辞書）と紐づけて、単語の候補を列挙する。その他の外部単語辞書設定部２０２ｅについては、単語辞書設定部２３ｅの記載のうち、単語辞書設定部２３ｅを外部単語辞書設定部２０２ｅとし、記憶部２１を外部記憶部２０１とすれば同様である。また、単語の候補には、文章の候補と同様に統計的評価値が付されている。

次いで、外部音声認識部２０２ｃは、音声認識部２３ｃと同様に、単語の候補を、言語モデルを用いて、単語の候補から正しい文章になる文章の候補を列挙する。

次いで、外部音声認識部２０２ｃは、文章の候補のうち、最も統計的評価値が高い文章を選択する。そして、外部音声認識部２０２ｃは、選択された文章（認識結果）をテキスト信号（テキストデータ）として結果調停部２３ｉ３へ出力する。なお、「統計的評価値」は、音声認識部２３ｃと同様に、音声の認識時に認識結果の精度を示す評価値である。また、音素から一つの単語が出力される場合には、文章の候補列挙と文章の選択を省略して、音素から出力された単語（認識結果）をテキスト信号（テキストデータ）として、外部音声認識部２０２ｃは結果調停部２３ｉ３へ出力する。そもそも、音処理された音デジタル信号に環境音は含まれているが音声が含まれていない場合、または、音声が認識されていない場合は、非テキスト信号（テキスト信号の一種）として、外部音声認識部２０２ｃは結果調停部２３ｉ３へ出力する。

次いで、結果調停部２３ｉ３について説明する。

結果調停部２３ｉ３は、音声認識部２３ｃと外部音声認識部２０２ｃのうち少なくとも一方の認識特定部より入力されたテキスト信号のうち、コマンド出力部２４へ出力するテキスト信号（出力認識結果）を決定する。結果調停部２３ｉ３には、マイク調停部２３ｉ１より入力された音声認識用情報信号と、認識調停部２３ｉ２より入力された認識特定部信号と、音声認識部２３ｃと外部音声認識部２０２ｃのうち少なくとも一方より入力される一つ以上のテキスト信号と、が入力される。具体的には、結果調停部２３ｉ３は、以下の結果調停処理を、各種信号が入力される間に繰り返し行う。

図２１～図２２を参照して、出力認識結果の決定制御の処理構成を説明する。図２１の処理は、音声認識用情報信号と認識特定部信号が結果調停部２３ｉ３へ入力されたと判断するとスタートする。以下、図２１の各ステップについて説明する。

ステップＳ１１では、スタートに続き、結果調停部２３ｉ３は、音声認識用情報信号と認識特定部信号に基づいて、入力されるテキスト信号の数を判定して、ステップＳ１３へ進む。入力されるテキスト信号とは、図２２に示すように、音声認識用情報信号と認識特定部信号に基づいて判定される。

ここで、「音声認識用情報信号」とは、マイクロフォン１４と外部マイクロフォン１９のうち少なくとも一方が音声認識用に設定された情報である。つまり、音声認識用情報信号は、テキスト信号の生成に用いられる、音声認識用に設定されたマイクロフォン１４と外部マイクロフォン１９のうち少なくとも一方から入力される音声（音声認識用の音声）を設定したものであるともいえる。「認識特定部信号」とは、音声認識部２３ｃと外部音声認識部２０２ｃのうち少なくとも一方が認識特定部に設定された情報である。言い換えると、認識特定部信号は、音声認識用の音声からテキスト信号を生成する、音声認識機能を有するものとして特定されたものである。「入力されるテキスト信号の数」とは、音声認識用情報信号と認識特定部信号の組み合わせにて決定される数である。この組み合わせとテキスト信号の数は、本実施形態に限定されず、予め設定される。利用される撮像装置と、接続機器と、の組み合わせ等により適切に設定される。

なお、図２２のうち、音声認識用情報信号が両方で、認識特定部信号が両方（性能同一）の場合、音声認識部２３ｃは内蔵音声デジタル信号のみを認識し、外部音声認識部２０２ｃは外部音声デジタル信号のみを認識する。つまり、音声認識部２３ｃと外部音声認識部２０２ｃの音声認識性能が同一のため、別々に認識処理を行うことができる。つまり、並行して認識処理を行うことができる。このため、一方のみで音声デジタル信号の認識処理を行う場合よりも、別々に認識処理を行う場合の方が、全てのテキスト信号が結果調停部２３ｉ３に入力される時間が短縮される。

ステップＳ１３では、ステップＳ１１でのテキスト信号の数の判定、或いは、ステップＳ１３での入力無しとの判断に続き、結果調停部２３ｉ３は、一つ以上のテキスト信号が入力されたか否かの判断を行う。ＹＥＳ（入力有り）の場合はステップＳ１５へ進み、ＮＯ（入力無し）の場合はステップＳ１３を繰り返す。

ステップＳ１５では、ステップＳ１３での入力有りとの判断に続き、結果調停部２３ｉ３は、ステップＳ１１でのテキスト信号の数が複数か否かの判断を行う。ＹＥＳ（複数のテキスト信号）の場合はステップＳ１７へ進み、ＮＯ（一つのテキスト信号のみ）の場合はステップＳ４７へ進む。

ステップＳ１７では、ステップＳ１５での複数のテキスト信号との判断、或いは、ステップＳ２１でのタイマーカウントに続き、結果調停部２３ｉ３は、ステップＳ１１で判定されたテキスト信号の数は全て入力されたか否かの判断を行う。ＹＥＳ（全て入力済み）の場合はステップＳ２３へ進み、ＮＯ（未入力有り）の場合はステップＳ１９へ進む。

ステップＳ１９では、ステップＳ１７での未入力有りとの判断に続き、結果調停部２３ｉ３は、同時に発声したと考えられるテキスト信号の入力時間を示すタイマーが、所定時間以上であるか否かの判断を行う。ＹＥＳ（タイマー≧所定時間、所定時間経過済み）の場合はステップＳ４３へ進み、ＮＯ（タイマー＜所定時間、所定時間経過前）の場合はステップＳ２１へ進む。ここで、同時に発声したと考えられるテキスト信号が、複数の場合、全てのテキスト信号が結果調停部２３ｉ３へ入力されるまでには時間差が生じる。このため、タイマーを設け、所定時間の間、先に入力されたテキスト信号を保留し、同時に発声したと考えられるテキスト信号の入力を所定時間だけ待機して、複数のテキスト信号が入力されるのを待つ。所定時間は、音声認識の応答速度を維持しつつ、予め実験やシミュレーション等により設定される。音声認識の応答速度とは、同時に発声したと考えられる音声がテキスト信号としてコマンド出力部２４へ出力されるまでの速度である。例えば、所定時間は「数ｍｓ」に設定される。

ステップＳ２１では、ステップＳ１９での所定時間経過前との判断に続き、結果調停部２３ｉ３は、タイマーをカウントして、ステップＳ１７へ戻る。

ステップＳ２３では、ステップＳ１７での全て入力済みとの判断、或いは、ステップＳ４５での複数のテキスト信号の入力との判断に続き、結果調停部２３ｉ３は、入力された複数のテキスト信号が一致するか否かの判断を行う。ＹＥＳ（テキスト信号一致）の場合はステップＳ２５へ進み、ＮＯ（テキスト信号不一致）の場合は、ステップＳ２７へ進む。例えば、テキスト信号一致の場合とは、複数のテキスト信号の全てが「撮影」の場合である。要するに、複数のテキスト信号が完全に一致する場合である。例えば、テキスト信号が不一致の場合とは、二つのテキスト信号において、一方のテキスト信号が「撮影」であり、他方のテキスト信号が「再生」または非テキスト信号である場合である。要するに、複数のテキスト信号が完全に一致しない場合である。

ステップＳ２５では、ステップＳ２３でのテキスト信号一致との判断に続き、結果調停部２３ｉ３は、一致したテキスト信号を出力認識結果信号と決定して、エンドへ進む。

ステップＳ２７では、ステップＳ２３でのテキスト信号不一致との判断に続き、結果調停部２３ｉ３は、入力された複数のテキスト信号に非テキスト信号が含まれるか否かの判断を行う。ＹＥＳ（非テキスト信号有り）の場合はステップＳ２９へ進み、ＮＯ（非テキスト信号無し）の場合はステップＳ３３へ進む。

ステップＳ２９では、ステップＳ２７での非テキスト信号有りとの判断に続き、結果調停部２３ｉ３は、非テキスト信号を排除した残りのテキスト信号が一致するか否かの判断を行う。ＹＥＳ（残りのテキスト信号一致）の場合はステップＳ３１へ進み、ＮＯ（残りのテキスト信号不一致）の場合はステップＳ３３へ進む。例えば、残りのテキスト信号が一つの場合、結果調停部２３ｉ３は残りのテキスト信号一致と判断する。例えば、残りのテキスト信号が複数の場合であって、残りのテキスト信号の全てが「撮影」の場合、結果調停部２３ｉ３は残りのテキスト信号一致と判断する。要するに、複数の残りのテキスト信号が完全に一致する場合である。

ステップＳ３１では、ステップＳ２９での残りのテキスト信号一致との判断に続き、結果調停部２３ｉ３は、非テキスト信号を排除して、残りのテキスト信号を出力認識結果信号と決定して、エンドへ進む。

ステップＳ３３では、ステップＳ２７での非テキスト信号無しとの判断、或いは、ステップＳ２９での残りのテキスト信号不一致との判断に続き、結果調停部２３ｉ３は、ステップＳ２７のテキスト信号またはステップＳ２９の残りのテキスト信号の評価値に差異があるか否かの判断を行う。ＹＥＳ（差異有り）の場合はステップＳ３５へ進み、ＮＯ（差異無し）の場合はステップＳ４１へ進む。例えば、二つのテキスト信号において、一方のテキスト信号の評価値が９０点であり、他方のテキスト信号の評価値が８０点である場合、結果調停部２３ｉ３は差異有りと判断する。例えば、二つのテキスト信号において、一方と他方のテキスト信号の評価値が同じ場合、結果調停部２３ｉ３は差異無しと判断する。

ステップＳ３５では、ステップＳ３３での差異有りとの判断に続き、結果調停部２３ｉ３は、評価値が最も高いテキスト信号が一つか否かの判断を行う。ＹＥＳ（最高評価値のテキスト信号は一つ）の場合はステップＳ３７へ進み、ＮＯ（最高評価値のテキスト信号は複数）の場合はステップＳ３９へ進む。例えば、二つのテキスト信号において、一方のテキスト信号が「撮影」で評価値が９０点であり、他方のテキスト信号が「再生」で評価値が８０点である場合、「撮影」が最高評価値のテキスト信号である。このため、結果調停部２３ｉ３は最高評価値のテキスト信号は一つと判断する。例えば、四つのテキスト信号において、一つのテキスト信号が「撮影」で評価値が８０点であり、一つのテキスト信号が「再生」で評価値が８０点であり、一つのテキスト信号が「ハイチーズ」で評価値が７０点であり、一つのテキスト信号が「撮影」で評価値が６０点である場合、結果調停部２３ｉ３は最高評価値のテキスト信号は複数と判断する。

ステップＳ３７では、ステップＳ３５での最高評価値のテキスト信号は一つとの判断、或いは、ステップＳ３９での同じ信号との判断に続き、結果調停部２３ｉ３は、最高評価値のテキスト信号を出力認識結果信号と決定して、エンドへ進む。

ステップＳ３９では、ステップＳ３５での最高評価値のテキスト信号は複数との判断に続き、結果調停部２３ｉ３は、複数のテキスト信号は同じ信号か否かの判断を行う。ＹＥＳ（同じ信号）の場合はステップＳ３７へ進み、ＮＯ（異なる信号）の場合はステップＳ４１へ進む。例えば、四つのテキスト信号において、一つのテキスト信号が「撮影」で評価値が８０点であり、一つのテキスト信号が「撮影」で評価値が８０点であり、一つのテキスト信号が「ハイチーズ」で評価値が７０点であり、一つのテキスト信号が「撮影」で評価値が６０点である場合、結果調停部２３ｉ３は最高評価値のテキスト信号は複数であるが同じ信号であると判断する。例えば、四つのテキスト信号において、一つのテキスト信号が「撮影」で評価値が８０点であり、一つのテキスト信号が「再生」で評価値が８０点であり、一つのテキスト信号が「ハイチーズ」で評価値が７０点であり、一つのテキスト信号が「撮影」で評価値が６０点である場合、結果調停部２３ｉ３は最高評価値のテキスト信号は複数であり異なる信号であると判断する。

ステップＳ４１では、ステップＳ３３での差異無しとの判断、或いは、ステップＳ３９での異なる信号との判断に続き、結果調停部２３ｉ３は、テキスト信号を出力認識結果信号と決定せず、エンドへ進む。

ステップＳ４３では、ステップＳ１９の所定時間経過済みとの判断に続き、結果調停部２３ｉ３は、それまでカウントされていたタイマーをリセットして、ステップＳ４５へ進む。

ステップＳ４５では、ステップＳ４３でのカウンタリセットに続き、結果調停部２３ｉ３は、入力されたテキスト信号の数が複数か否かの判断を行う。ＹＥＳ（複数のテキスト信号の入力）の場合はステップＳ２３へ進み、ＮＯ（一つのテキスト信号の入力）の場合はステップＳ４７へ進む。

ステップＳ４７では、ステップＳ１５での一つのテキスト信号のみとの判断、或いは、ステップＳ４５での一つのテキスト信号の入力との判断に続き、結果調停部２３ｉ３は、その一つのテキスト信号を出力認識結果信号と決定して、エンドへ進む。

結果調停部２３ｉ３は、上記のフローチャートより決定された出力認識結果信号をコマンド出力部２４へ出力する。結果調停部２３ｉ３は、テキスト信号を出力認識結果信号と決定しない場合は、出力認識結果信号をコマンド出力部２４へ出力しない。

次いで、コマンド出力部２４と外部コマンド出力部２０３について説明する。

コマンド出力部２４は、第１実施形態等とは異なり、出力認識結果信号より入力されたテキスト信号に従って、動作信号（コマンド信号）を出力する。具体的には、コマンド出力部２４は、以下のコマンド出力処理（出力処理）を、出力認識結果信号からテキスト信号が入力される間に繰り返し行う。

まず、コマンド出力部２４は、記憶部２１に格納されている図７のコマンドリストを読み込む。次いで、コマンド出力部２４は、テキスト信号が、読み込んだコマンドリストのワード欄に記載のワードと一致するか否かを判定（識別）する。コマンド出力部２４は、ワードと一致する場合、コマンドリストの動作欄に記載の撮像装置１Ｅの動作を動作信号として撮像装置１Ｅ（例えば図略の各種のアクチュエータ等）へ出力して、処理を終了する。そして、図略の各種のアクチュエータ等は、入力された動作信号により動作する。一方、コマンド出力部２４は、ワードと一致しない場合、何の動作信号も出力しないで、処理を終了する。アクチュエータ等の具体例については、第１実施形態のコマンド出力部２４に記載のものと同様である。

外部コマンド出力部２０３は、本実施形態では、装置本体１０Ｅがコマンド出力部２４を有するので使用しない。

次に、第５実施形態の作用効果について説明する。まず、撮像装置１Ｅの音声認識制御の作用効果を説明する。

状態取得部２２において、各種信号が入力されると、状態取得部２２により各種信号が取得される（取得処理）。

取得処理部と同時または取得処理部の前後に、音処理部２３ａにおいて、マイクロフォン１４に音が入力されると、音処理部２３ａにより内蔵音アナログ信号が内蔵音デジタル信号へ変換される（音処理）。取得処理部と同時または取得処理部の前後に、外部音処理部２０２ａにおいて、外部マイクロフォン１９に音が入力されると、外部音処理部２０２ａにより外部音アナログ信号が外部デジタル信号へ変換される（外部音処理）。

取得処理部の後に、マイク調停部２３ｉ１において、状態情報信号が入力されると、マイク調停部２３ｉ１により、状態情報信号に基づいて、外部マイクロフォン１９がモノラルマイクロフォンかステレオマイクロフォンのどちらであるかが自動で識別される（マイク調停処理）。加えて、マイク調停部２３ｉ１により、状態情報信号に基づいて、外部マイクロフォン１９の種類が識別される（マイク調停処理）。更に、マイク調停部２３ｉ１により、状態情報信号に基づいて、マイクロフォン１４と外部マイクロフォン１９のうち一方を音声認識用に自動で設定する（マイク調停処理）。

取得処理部の後に、認識調停部２３ｉ２において、状態情報信号が入力されると、認識調停部２３ｉ２により、状態情報信号に基づいて、音声認識部２３ｃと外部音声認識部２０２ｃのうち少なくとも一方を認識特定部に設定する（認識調停処理）。

次いで、音声抽出部２３ｂにおいて、各種信号が入力されると、音声抽出部２３ｂにより、音声認識用情報信号がマイクロフォン１４の場合または両方の場合、各種信号に基づいて指向性が設定される（音声抽出処理）。その後、音声抽出部２３ｂにより、第１実施形態と同様に、内蔵音デジタル信号から内蔵音声デジタル信号が抽出される（音声抽出処理）。次いで、音声抽出部２３ｂにより、抽出された内蔵音声デジタル信号についてノイズ除去の処理を行う（音声抽出処理）。次いで、音声抽出部２３ｂにより、認識特定部信号に基づいて、抽出した内蔵音声デジタル信号が出力される。

マイク調停処理と認識調停処理の後に、外部音声抽出部２０２ｂにおいて、各種信号が入力されると、外部音声抽出部２０２ｂにより、音声認識用情報信号が外部マイクロフォン１９の場合または両方の場合、外部音デジタル信号が外部音声デジタル信号として抽出される（外部音声抽出処理）。次いで、外部音声抽出部２０２ｂにより、抽出された外部音声デジタル信号についてノイズ除去の処理を行う（外部音声抽出処理）。次いで、外部音声抽出部２０２ｂにより、認識特定部信号に基づいて、抽出した外部音声デジタル信号が出力される。

次いで、音声認識部２３ｃにおいて、各種信号が入力されると、音響モデル設定部２３ｄにより、外部マイクロフォン種類識別信号と音声認識用情報信号に基づいて、音響モデルが設定される（音声認識処理、音響モデル設定処理）。その後、単語辞書設定部２３ｅにより、単語辞書の単語が設定される（音声認識処理、単語設定処理）。続いて、音声認識部２３ｃにより、認識特定部信号に基づいて、内蔵音声デジタル信号と外部音声デジタル信号のうち少なくとも一方が認識される。具体的には、音声認識部２３ｃにより、文章または単語が認識される（音声認識処理）。なお、音声認識部２３ｃにより、認識特定部信号に基づいて、音声デジタル信号が認識されないこともある。

音声抽出処理と外部音声抽出処理の後に、外部音声認識部２０２ｃにおいて、各種信号が入力されると、外部音響モデル設定部２０２ｄにより、外部マイクロフォン種類識別信号と音声認識用情報信号に基づいて、音響モデルが設定される（外部音声認識処理、外部音響モデル設定処理）。その後、外部単語辞書設定部２０２ｅにより、単語辞書の単語が設定される（外部音声認識処理、外部単語設定処理）。続いて、外部音声認識部２０２ｃにより、認識特定部信号に基づいて、内蔵音声デジタル信号と外部音声デジタル信号のうち少なくとも一方が認識される。具体的には、外部音声認識部２０２ｃにより、文章または単語が認識される（外部音声認識処理）。なお、外部音声認識部２０２ｃにより、認識特定部信号に基づいて、音声デジタル信号が認識されないこともある。

次いで、結果調停部２３ｉ３において、音声認識用情報信号と認識特定部信号が入力されると、結果調停部２３ｉ３により、図２１のフローチャートに沿って、入力されたテキスト信号のうち、コマンド出力部２４へ出力する出力認識結果信号（テキスト信号）が決定される（結果調停処理）。

結果調停部２３ｉ３により、ステップＳ１５にてテキスト信号の数が一つのテキスト信号のみと判断されると、ステップＳ４７の処理が実行される（結果調停処理）。結果調停部２３ｉ３により、ステップＳ１５にてテキスト信号の数が複数のテキスト信号と判断されると、以下の処理が実行される（結果調停処理）。ステップＳ１９の所定時間内に二つ以上のテキスト信号が入力されると、結果調停部２３ｉ３により、ステップＳ２５、ステップＳ３１、ステップＳ３７またはステップＳ４１の処理が実行される（結果調停処理）。ステップＳ１９の所定時間内に一つのテキスト信号しか入力されないと、結果調停部２３ｉ３により、ステップＳ４７の処理が実行される（結果調停処理）。

次いで、コマンド出力部２４において、出力認識結果信号であるテキスト信号が入力されると、コマンド出力部２４によりテキスト信号に従って動作信号が出力される（コマンド出力処理）。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、ユーザが発声する音声を認識することができ、出力認識結果信号に従って動作信号を出力することができる。上記のように、認識制御モジュール２３は、状態情報信号に基づいて、音声を認識するための制御内容を設定し、音声を認識する処理を行う（認識制御処理）。

次いで、撮像装置１Ｅの作用効果を説明する。

本実施形態では、音声は、撮像装置１Ｅに設けられたマイクロフォン１４から入力される。接続機器は、音声と環境音のうち少なくとも一方が入力される外部マイクロフォン１９である。外部マイクロフォン１９は、認識制御モジュール２３と接続し、音声を認識する外部認識制御モジュール２０２を備える。状態取得部２２は、外部マイクロフォン１９の状態情報信号を取得する。認識制御モジュール２３（マイク調停部２３ｉ１）は、状態取得部２２により取得された外部マイクロフォン１９の状態情報信号に基づいて、マイクロフォン１４と外部マイクロフォン１９のうち少なくとも一方を音声認識用に設定する。認識制御モジュール２３（認識調停部２３ｉ２）は、認識制御モジュール２３（音声認識部２３ｃ）と外部認識制御モジュール２０２（外部音声認識部２０２ｃ）のうち少なくとも一方を認識特定部（音声認識用）に設定する。従って、外部マイクロフォン１９を追加した場合、音声が入力されやすい一方のマイクロフォンを設定することができる（外部マイクロフォンによる音声認識用マイク設定作用）。加えて、外部マイクロフォン１９を追加した場合、音声を認識しやすい認識特定部を設定することができる（外部マイクロフォンによる認識特定部設定作用、外部マイクロフォンによる音声認識用設定作用）。

本実施形態では、認識制御モジュール２３（認識調停部２３ｉ２）は、状態取得部２２により取得された外部マイクロフォン１９の状態情報信号に基づいて、以下のように、認識特定部（音声認識用）を設定する。認識制御モジュール２３（認識調停部２３ｉ２）は、認識制御モジュール２３（音声認識部２３ｃ）と外部認識制御モジュール２０２（外部音声認識部２０２ｃ）のうち音声を認識する音声認識性能が高性能な方を、認識特定部（音声認識用）に自動で設定する。即ち、外部マイクロフォン１９を追加した場合、少なくとも一方が認識特定部として自動で設定されるので、ユーザが認識特定部を設定しなくて良い。従って、外部マイクロフォン１９を追加した場合、ユーザの手間を低減することができる（自動認識特定部設定作用、自動音声認識用設定作用）。

本実施形態では、認識制御モジュール２３（認識調停部２３ｉ２）は、認識制御モジュール２３（音声認識部２３ｃ）と外部認識制御モジュール２０２（外部音声認識部２０２ｃ）のうち音声認識性能が高性能な方を特定できない場合、以下のように、認識特定部（音声認識用）を設定する。認識制御モジュール２３（認識調停部２３ｉ２）は、認識制御モジュール２３（音声認識部２３ｃ）と外部認識制御モジュール２０２（外部音声認識部２０２ｃ）の両方を認識特定部（音声認識用）に自動で設定する。即ち、外部マイクロフォン１９を追加し、音声認識性能に優劣が無い場合、両方の音声認識性能を使用できるので、音声認識時の誤認識が抑制される。従って、両方の音声認識性能の使用により、音声認識の精度を向上することができる（複数音声認識機能使用作用）。加えて、外部マイクロフォン１９を追加し、音声認識性能に優劣が無い場合、両方が認識特定部として自動で設定されるので、ユーザが認識特定部を設定しなくて良い。従って、外部マイクロフォン１９を追加し、音声認識性能に優劣が無い場合、ユーザの手間を低減することができる（優劣無し自動認識特定部設定作用、優劣無し自動音声認識用設定作用）。

本実施形態では、認識特定部（音声認識用に設定した音声認識部２３ｃと外部音声認識部２０２ｃのうち少なくとも一方）は、複数のテキスト信号を認識制御モジュール２３（結果調停部２３ｉ３）へ出力する。認識制御モジュール２３（結果調停部２３ｉ３）は、認識特定部（音声認識用に設定した音声認識部２３ｃと外部音声認識部２０２ｃのうち少なくとも一方）により出力された複数のテキスト信号のうち、コマンド出力部２４へ出力する出力認識結果信号を決定する。従って、複数のテキスト信号から出力認識結果信号を決定することで、より正しいテキスト信号を選択することができる（出力認識結果決定作用）。

本実施形態では、認識制御モジュール２３（結果調停部２３ｉ３）は、複数のテキスト信号に、音声が認識されていない非テキスト信号が含まれる場合、非テキスト信号を排除して、出力認識結果信号を決定する。即ち、音声が認識されたテキスト信号から、出力認識結果信号を決定することができる。従って、音声が認識されたテキスト信号を確実に出力認識結果信号として決定することができる（テキスト信号による出力認識結果決定作用）。

本実施形態では、認識特定部（音声認識用に設定した音声認識部２３ｃと外部音声認識部２０２ｃのうち少なくとも一方）は、複数のテキスト信号を認識制御モジュール２３（結果調停部２３ｉ３）へ出力する場合、評価値を、複数のテキスト信号のそれぞれに付す。評価値は、音声の認識時にテキスト信号の精度を示す値である。認識制御モジュール２３（結果調停部２３ｉ３）は、認識特定部（音声認識用に設定した音声認識部２３ｃと外部音声認識部２０２ｃのうち少なくとも一方）により出力された複数のテキスト信号が異なる場合、評価値が最も高いテキスト信号を出力認識結果信号として決定する。即ち、評価値により、音声認識の精度が最も高い出力認識結果信号を決定することができる。従って、評価値により、音声認識の精度を向上することができる（評価値による出力認識結果決定作用）。

本実施形態では、認識制御モジュール２３（結果調停部２３ｉ３）は、認識特定部（音声認識用に設定した音声認識部２３ｃと外部音声認識部２０２ｃのうち少なくとも一方）により出力された複数のテキスト信号が異なる場合、出力認識結果信号を決定せずに何もコマンド出力部２４へ出力しない。即ち、複数のテキスト信号が異なる場合、テキスト信号の確かさが比較的低いおそれがあるので、出力認識結果信号を決定せずに何もコマンド出力部２４へ出力しない。従って、複数のテキスト信号が異なる場合、出力認識結果信号を決定せずに何もコマンド出力部２４へ出力しないことにより、音声認識の精度を低下させないことができる（音声認識精度維持作用）。

本実施形態では、認識制御モジュール２３（結果調停部２３ｉ３）は、認識特定部（音声認識用に設定した音声認識部２３ｃと外部音声認識部２０２ｃのうち少なくとも一方）による複数のテキスト信号の出力に時間差が生じる場合、所定時間が経過するまでは出力認識結果信号を決定しない。即ち、同時に発声したと考えられるテキスト信号が、複数の場合、処理速度によって、全てのテキスト信号が結果調停部２３ｉ３へ入力されるまでには時間差が生じることがある。従って、所定時間の間、出力認識結果信号を決定するために、テキスト信号の数を増やすことができる（所定時間によるテキスト信号数増加作用）。

本実施形態では、認識制御モジュール２３（結果調停部２３ｉ３）は、所定時間が経過した後に、認識特定部（音声認識用に設定した音声認識部２３ｃと外部音声認識部２０２ｃのうち少なくとも一方）により出力された一つ以上のテキスト信号から出力認識結果信号を決定する。即ち、所定時間の間に、認識特定部から結果調停部２３ｉ３へ入力されないテキスト信号を排除しつつ、認識特定部から結果調停部２３ｉ３へ入力されたテキスト信号より出力認識結果信号を決定することができる。従って、所定時間の間に、結果調停部２３ｉ３へ入力された一つ以上のテキスト信号から出力認識結果信号を決定することができる（所定時間による出力認識結果決定作用）。

なお、本実施形態では、第４実施形態と同様に、音響モデル設定作用を奏する。また、本実施形態では、第１実施形態と同様に、認識精度向上作用、撮像装置操作作用を奏する。

上述した第１実施形態では、単語辞書設定部２３ｅは、レンズ１１ａの状態情報信号に基づいて、制御内容である単語辞書の単語を、レンズ１１ａの状態情報に対応する単語に設定する例を示したが、これに限られない。以下、その他の例として具体例を記載する。

まず、可動部の具体例を記載する。装置本体がスリープ状態では、単語辞書設定部２３ｅは、その状態の状態情報に基づいて、単語辞書の単語を状態情報（電源スイッチの起動）に対応する単語に設定する。ポップアップＥＶＦが有効な状態では、単語辞書設定部２３ｅは、その状態の状態情報に基づいて、単語辞書の単語を状態情報（ＥＶＦの明るさ等）に対応する単語に設定する。ポップアップフラッシュが有効な状態では、単語辞書設定部２３ｅは、その状態の状態情報に基づいて、単語辞書の単語を状態情報（強制発光等の発光）に対応する単語に設定する。また、単語辞書設定部２３ｅは、シャッタ機構の状態の状態情報に基づいて、単語辞書の単語を状態情報（シャッタの開閉）に対応する単語に設定する。

次いで、接続機器の具体例を記載する。なお、いずれも撮像装置の装置本体に接続されるものとする。オーディオインターフェス機器（例えばＸＬＲアダプタ）が接続されている状態では、単語辞書設定部２３ｅは、その状態の状態情報に基づいて、単語辞書の単語を状態情報（ＸＬＲアダプタに接続されているマイクロフォンを利用するか否か等）に対応する単語に設定する。ＸＬＲアダプタは外部マイクロフォンを装置本体に接続可能なアダプタである。「ＸＬＲ」は、音声用コネクタの規格名称である。三脚や一脚や自撮りミニグリップの脚が折りたたまれている状態にて装置本体がスリープ状態になる場合には、単語辞書設定部２３ｅは、その状態の状態情報に基づいて、単語辞書の単語を状態情報（電源スイッチの起動）に対応する単語に設定する。ジンバルが接続されている状態では、単語辞書設定部２３ｅは、その状態の状態情報に基づいて、単語辞書の単語を状態情報（動画等）に対応する単語に設定する。ジンバルは撮像装置を取り付け、ジンバルそのものが傾いたり揺れたりしていても、撮像装置の傾きや揺れを軽減するものである。外部レコーダが接続されている状態では、単語辞書設定部２３ｅは、その状態の状態情報に基づいて、単語辞書の単語を状態情報（動画等）に対応する単語に設定する。ＴＶや外部モニタが接続されている状態では、単語辞書設定部２３ｅは、その状態の状態情報に基づいて、単語辞書の単語を状態情報（動画（動画再生音量等）等）に対応する単語に設定する。パーソナルコンピュータまたはスマートフォンが接続されている状態では、単語辞書設定部２３ｅは、その状態の状態情報に基づいて、単語辞書の単語を状態情報（ｗｅｂカメラ（撮像装置）の機能（マイクミュート等）等）に対応する単語に設定する。スピードライト（いわゆるストロボ）が接続されている状態では、単語辞書設定部２３ｅは、その状態の状態情報に基づいて、単語辞書の単語を状態情報（発光（テスト発光や発光周期等））に対応する単語に設定する。外付けＥＶＦまたは外付けＯＶＦ（光学ファインダ）が接続されている状態では、単語辞書設定部２３ｅは、その状態の状態情報に基づいて、単語辞書の単語を状態情報（ＥＶＦの明るさ等）に対応する単語に設定する。ＯＶＦは、撮影する像を光学的にファインダへ導くものである。「ＯＶＦ」は「ＯｐｔｉｃａｌＶｉｅｗＦｉｎｄｅｒ」の略である。

なお、以下の具体例の状態では、音声認識機能を無効（ＯＦＦ）としても良い。レンズ１１ａが沈胴式レンズであり、沈胴状態のときである。ディスプレイ１５がバリアングル式であり、ユーザが画面を見られない状態でディスプレイ１５が収納されているときである。詳細には、ディスプレイ１５を左側に開かず、ディスプレイ１５が装置本体１０Ｂに収納され、ユーザが画面を見られない状態である。撮像装置の装置本体に接続されている、三脚や一脚や自撮りミニグリップの脚が折りたたまれている状態のときである。

上述した第２実施形態では、ディスプレイ１５は、バリアングル式である例を示したが、チルト式でも良い。チルト式であっても、ディスプレイの画面が装置本体の前側を向くので自撮りが可能である。

上述した第３実施形態では、マイク設定部２３ｆは、空冷ファン１７が駆動しているとき、第４マイクロフォン１４ｄが空冷ファン１７から最も遠い位置に配置されているため、音声認識用に設定する例を示したが、これに限られない。例えば、空冷ファン１７が駆動しているときであって、自撮りのシーンでは、第４マイクロフォン１４ｄは前後方向においてユーザの位置とは反対になるので、ユーザが発声する音声が入力されにくい。このため、マイク設定部２３ｆは、空冷ファン１７が駆動しているときであって、自撮りのシーンでは、以下の条件にて一つのマイクロフォンを音声認識用に設定する。マイク設定部２３ｆは、前側からの音声が入力されやすい位置に配置されたマイクロフォン１４のうち、空冷ファン１７から最も遠い位置に配置されている一つのマイクロフォンを音声認識用に設定する。例えば、第３実施形態のマイクロフォン１４の配置では、マイク設定部２３ｆは、第３マイクロフォン１４ｃを音声認識用に設定する。要するに、マイク設定部２３ｆは、空冷ファン１７が駆動しているとき、撮影シーンに合わせて、空冷ファン１７から最も遠い位置に配置されているマイクロフォン１４を音声認識用に設定すれば良い。

上述した第３実施形態では、マイク設定部２３ｆは、空冷ファン１７が駆動しているとき、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのうち一つを音声認識用に設定する例を示したが、これに限られない。例えば、撮像装置には音声メモ用のマイクロフォンが設けられていることがある。この際、マイク設定部２３ｆは、空冷ファン１７が駆動しているとき、マイクロフォン１４と音声メモ用のマイクロフォンのうち一つを音声認識用に設定しても良い。

上述した第３実施形態では、マイク設定部２３ｆは、状態情報信号に基づいて、空冷ファン１７から最も遠い位置に配置された一つのマイクロフォン（第４マイクロフォン１４ｄ）を音声認識用に設定する例を示したが、これに限られない。例えば、マイク設定部２３ｆは、状態情報信号に基づいて、空冷ファン１７から最も近い位置に配置された一つのマイクロフォンを除いた、残りの三つのマイクロフォンを音声認識用に設定しても良い。具体的には、図１と図１２等を参照すると、マイク設定部２３ｆは、状態情報信号に基づいて、最も近い位置に配置された第２マイクロフォン１４ｂを除いた、残りの第１マイクロフォン１４ａと第３マイクロフォン１４ｃと第４マイクロフォン１４ｄを音声認識用に設定する。要するに、空冷ファン１７の状態情報信号に基づいて、複数のマイクロフォン１４のうち音声認識用に使用するマイクロフォンを設定すれば良い。

上述した変形例（３-１）では、空冷ファン１７のファン回転数を制御ユニット２０から取得する例を示したが、これに限られない。例えば、以下の方法により、ファン回転数を取得することもできる。前提として、ファン回転数は、ＩＣ（電子回路の素子）から出力される電圧変化またはＰＷＭ信号により制御されるものとする。そして、ファン回転数は、電圧やＰＷＭ信号のＤｕｔｙと比例関係であるので、電圧等の値から算出することができる。このように、ファン回転数は、算出により取得しても良い。更に、プルーニング閾値設定部２３ｇは、算出されたファン回転数に基づいて、プルーニング閾値を設定しても良い。更にまた、音響モデル設定部２３ｄは、算出されたファン回転数に基づいて、音響モデルを設定しても良い。なお、「ＩＣ」は「ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ」の略である。ＰＷＭ信号は、パルスの幅を設定することができる信号であり、「ＰＷＭ」は「ＰｕｌｓｅＷｉｄｔｈＭｏｄｕｌａｔｉｏｎ」の略である。

上述した変形例（３-１）では、プルーニング閾値設定部２３ｇは、ファン回転数に基づいて、プルーニング閾値を設定する例を示したが、これに限られない。上述したように、プルーニング閾値とは、音声認識部２３ｃにおける音声認識時の仮説処理を間引く閾値である。このため、プルーニング閾値の設定は、ファン回転数に限らず、音声が入力されるマイクロフォンの種類によっても、そのマイクロフォンの周波数特性や応答特性により、入力される音声の周波数特性が変化する。このため、例えば、プルーニング閾値設定部２３ｇは、音声認識用に設定されるマイクロフォンの種類（状態情報）に基づいて、プルーニング閾値を設定しても良い。これにより、音声認識の精度を向上することができる。

上述した第３実施形態と変形例（３-１）では、マイクロフォン１４に混入する空冷ファン１７のノイズに対して、マイクロフォン１４の設定またはプルーニング閾値の設定により音声認識の精度を向上する例を示した。しかし、これに限られない。例えば、以下の設定により、音声認識の精度を向上することができる。空冷ファン１７が駆動しているとき、入力された音声によって撮像装置１Ｃを操作する制御を制御ユニット２０が開始するには、特定のトリガ―ワードを設定する。そして、空冷ファン１７が駆動しているときに、特定のトリガ―ワードが検出されると、制御ユニット２０は、一時的に空冷ファン１７を停止し、入力された音声によって撮像装置１Ｃを操作する。「特定のトリガーワード」は、意図しない音声認識の制御を防止するための事前登録ワードである。言い換えると、特定のトリガーワードは、入力された音声によって撮像装置１Ｃを操作する制御を制御ユニット２０が開始するためのスイッチともいえる。以下、具体的に説明する。なお、制御ユニット２０が、空冷ファン１７を制御しているものとする。

まず、上述したように、空冷ファン１７の状態情報の変更は、マイクロフォン１４に入力された音声の認識に対して影響を与える。このため、空冷ファン１７の状態情報の変更により、音声を認識するための制御内容を設定する必要がある。ここでは、制御内容は、特定のトリガーワードの設定である。そして、認識制御モジュール２３は、空冷ファン１７の状態情報信号に基づいて、特定のトリガーワードを設定する。状態情報は、空冷ファン１７が駆動していることがわかる駆動情報であれば良いので、例えばファン回転数や空冷ファン１７の駆動情報である。認識制御モジュール２３は、ファン回転数に基づいて、特定のトリガーワードを設定する。言い換えると、認識制御モジュール２３は、空冷ファン１７が駆動していれば特定のトリガーワードを設定する。認識制御モジュール２３は、空冷ファン１７が駆動していなければ特定のトリガーワードを設定せず、入力された音声を認識する。

次いで、特定のトリガーワードの設定後、認識制御モジュール２３が特定のトリガーワードの音声を認識すると、例えば制御ユニット２０が一時的に空冷ファン１７を停止する。ここで、特定のトリガーワードの音声が入力されるときに、空冷ファン１７が駆動していたとしても、認識制御モジュール２３が特定のトリガーワードのみを待機している。このため、空冷ファン１７のノイズ量の混入が比較的多くても、特定のトリガーワードの音声の認識率は比較的高い状態である。これにより、ノイズ環境でも、特定のトリガーワードの音声の認識が可能である。次いで、認識制御モジュール２３は、空冷ファン１７が停止されると、入力された音声を認識する。制御ユニット２０は、認識制御モジュール２３による音声認識が終了し、所定時間の経過後、空冷ファン１７を再駆動させる。ここでの所定時間は、ユーザが連続して音声認識機能を利用する場合等を想定した時間であり、予め実験やシミュレーション等に基づいて設定される。

このように、認識制御モジュール２３が特定のトリガーワードの音声を認識すると、制御ユニット２０が一時的に空冷ファン１７を停止する。即ち、一時的に空冷ファン１７が停止されることにより、マイクロフォン１４に混入する空冷ファン１７のノイズが無くなる。このため、音声認識性能への影響が防止されるので、空冷ファン１７が駆動しているときよりも、鮮明な音声がマイクロフォン１４に入力される。従って、特定のトリガーワードを設定し、空冷ファン１７を停止することにより、音声認識の精度を向上することができる。また、認識制御モジュール２３は、空冷ファン１７の状態情報信号以外の情報に基づいて、特定のトリガーワードを設定しても良い。つまり、入力された音声によって撮像装置１Ａ～１Ｅを操作する制御を制御ユニット２０が開始するために、特定のトリガ―ワードを設定しても良い。そして、特定のトリガ―ワードが検出されると、制御ユニット２０は入力された音声によって撮像装置１Ａ～１Ｅを操作する。

上述した例では、一時的に空冷ファン１７が停止される例を示したが、これに限られない。例えば、一時的に空冷ファン１７のファン回転数を低下させても良い。これにより、マイクロフォン１４に混入する空冷ファン１７のノイズ量も低下する。このため、音声認識性能への影響が抑制されるので、ファン回転数を低下しないときよりも、鮮明な音声がマイクロフォン１４に入力される。従って、特定のトリガーワードを設定し、ファン回転数を低下することにより、音声認識の精度を向上することができる。なお、ファン回転数の低下量は、音声認識性能への影響を抑制することができる量であり、予め実験やシミュレーション等に基づいて設定される。

上述した空冷ファン１７の一時的な、停止またはファン回転数の低下の制御は、特定のトリガーワードの音圧により設定しても良い。そして、制御ユニット２０は、特定のトリガーワードの音圧に基づいて、空冷ファン１７の一時的な、停止またはファン回転数の低下を制御する。これにより、音声認識の精度を向上することができる。なお、停止またはファン回転数の低下の制御は、特定のトリガーワードの音圧に基づいて、予め実験やシミュレーション等に基づいて設定される。この一例では、認識制御モジュール２３は、特定のトリガーワードの音圧に基づいて、空冷ファン１７を制御する例を示したが、これに限られない。これに代えて、特定のトリガーワードを設定せずに、制御ユニット２０は、特定のトリガーワード以外の音声の音圧に基づいて、空冷ファン１７の一時的な、停止またはファン回転数の低下を制御しても良い。また、制御ユニット２０は、トリガーワード以外の音声を認識することにより空冷ファン１７の一時的な、停止またはファン回転数の低下を制御しても良い。

上述した第４実施形態では、マイク識別部２３ｈは、自動で外部マイクロフォン１９を識別し、マイク設定部２３ｆは、識別した識別結果信号に基づいてマイクロフォン１４と外部マイクロフォン１９のうち一方を音声認識用に他方を動画用に自動で設定する例を示した。また、マイク設定部２３ｆは、識別結果信号に基づいて外部マイクロフォン１９を音声認識用かつ動画用に設定する例を示した。しかし、これに限られない。例えば、外部マイクロフォン１９がモノラルマイクロフォンかステレオマイクロフォンのどちらであるかの識別と、外部マイクロフォン１９の種類の識別と、を自動ではなくユーザ自身が手動で行っても良い。更に、例えば、手動で、マイクロフォン１４と外部マイクロフォン１９のうち一方を音声認識用に他方を動画用に設定しても良い。更にまた、手動で、外部マイクロフォン１９を音声認識用かつ動画用に設定しても良い。これにより、ユーザ自身で音声認識用と動画用を設定することができるので、マイクロフォンの設定自由度を得ることができる。その他の例として、ユーザが、予め外部マイクロフォン１９が接続された場合に音声認識用または動画用のどちらに設定するのかを決定しても良い。この設定に基づき、マイク設定部２３ｆは、マイクロフォン１４と外部マイクロフォン１９のうち一方を音声認識用に他方を動画用に自動で設定すれば良い。これにより、自動音声認識用マイク設定作用を奏する。

上述した第５実施形態では、マイク調停部２３ｉ１は、自動で外部マイクロフォン１９を識別し、識別した識別結果信号に基づいてマイクロフォン１４と外部マイクロフォン１９のうち一方を音声認識用に自動で設定する例を示した。しかし、これに限られない。例えば、外部マイクロフォン１９の識別は、上記と同様に、ユーザ自身が手動で行っても良い。また、例えば、上記と同様に、手動で、マイクロフォン１４と外部マイクロフォン１９のうち一方を音声認識用に設定しても良い。これにより、ユーザ自身で音声認識用を設定することができるので、マイクロフォンの設定自由度を得ることができる。その他の例として、上記と同様に、ユーザが予め外部マイクロフォン１９が接続された場合に音声認識用または動画用のどちらに設定するのかを決定しても良い。これにより、自動音声認識用マイク設定作用を奏する。

上述した第５実施形態では、マイク調停部２３ｉ１は、識別結果信号に基づいて、マイクロフォン１４と外部マイクロフォン１９のうち少なくとも一方を音声認識用に自動で設定する例を示したが、これに限られない。以下に、具体例を示す。

一例としては、マイク調停部２３ｉ１は、音処理部２３ａの内蔵音デジタル信号と外部音処理部２０２ａの外部音デジタル信号を用いて、マイクロフォン１４と外部マイクロフォン１９のうち少なくとも一方を音声認識用に自動で設定しても良い。具体的には、マイク調停部２３ｉ１は、音デジタル信号の音圧の高さ（音圧レベル）により、マイクロフォン１４と外部マイクロフォン１９のうち少なくとも一方を音声認識用に自動で設定する。音声認識用の音声以外の音の成分を減らすために、例えば音声帯域２００Ｈｚ～８ｋＨｚに絞った音圧の高さにより、内蔵音デジタル信号と外部音デジタル信号の音圧の高さを比較する。そして、マイク調停部２３ｉ１は、内蔵音デジタル信号と外部音デジタル信号のうち音圧が高い方のマイクロフォンを音声認識用に自動で設定する。これにより、自動音声認識用マイク設定作用を奏する。ただし、音割れを含む場合(ゼロ（０）dBFS以上でクリップが生じている場合)は、音声が正しくデジタル化されていないため、音声認識用に設定しない。

別の一例として、マイク調停部２３ｉ１は、装置本体１０Ｅに外部マイクロフォン１９が接続されたとき、実際の使用状態にて、音声認識用の音声（ワード、所定語句）をユーザに発声する旨をディスプレイ１５等の報知部によりユーザへ報知する。ユーザにより発声された音声が入力されたことを確認することができた場合、以下の処理を行う。まず、音処理と音抽出処理により内蔵音声デジタル信号を抽出し、外部音処理と外部音声抽出処理により外部音声デジタル信号を抽出する。次いで、音声デジタル信号について音声認識処理または外部音声認識処理を行う。そして、内蔵音声デジタル信号と外部音声デジタル信号のうちテキスト信号が出力された方のマイクロフォンを音声認識用に自動で設定する。これにより、自動音声認識用マイク設定作用を奏する。

上述した第５実施形態では、認識調停部２３ｉ２は、音声認識部２３ｃと外部音声認識部２０２ｃのうち少なくとも一方を認識特定部に自動で設定する例を示した。しかし、これに限られない。自動ではなく、ユーザ自身が手動で、音声認識部２３ｃと外部音声認識部２０２ｃのうち一方または両方を認識特定部に設定しても良い。これにより、ユーザ自身で認識特定部を設定することができるので、認識特定部の設定自由度を得ることができる。

上述した第５実施形態では、認識制御モジュール２３と外部認識制御モジュール２０２の両方を示したが、これに限られない。どちらか一方のみでも良い。この際、認識特定部の設定の余地が無いため認識調停部２３ｉ２は不要である。

上述した第５実施形態では、認識特定部信号が性能優劣無しの場合、音声認識部２３ｃと外部音声認識部２０２ｃの両方が順序に関係なく認識処理を行う例を示したが、これに限られない。例えば、認識特定部信号が性能優劣無しの場合、まず、音声認識部２３ｃと外部音声認識部２０２ｃの一方が認識処理を行う。次いで、音声が認識できた場合には他方が認識処理を行わず、テキスト信号を結果調停部２３ｉ３へ出力する。音声が認識できない場合には他方が認識処理を行う。このように、音声認識部２３ｃと外部音声認識部２０２ｃが順番に認識処理を行っても良い。

上述した第５実施形態では、結果調停部２３ｉ３は、ステップＳ３１にて残りのテキスト信号を出力認識結果信号と決定する例を示した。結果調停部２３ｉ３は、ステップＳ３７にて最高評価値のテキスト信号を出力認識結果信号と決定する例を示した。しかし、これに限られない。ステップＳ３１もステップＳ３７も、ステップＳ２３にて複数のテキスト信号が不一致である（テキスト信号不一致）と結果調停部２３ｉ３は判断している。このため、ステップＳ２３にてテキスト信号不一致との判断の後は、結果調停部２３ｉ３は、ステップＳ４１と同様にテキスト信号を出力認識結果信号と決定しなくても良い。これにより、音声認識精度維持作用を奏する。

上述した第５実施形態では、結果調停部２３ｉ３は、ステップＳ４１にてテキスト信号を出力認識結果信号と決定しない例を示した。上記の例でも、結果調停部２３ｉ３は、ステップＳ２３にてテキスト信号不一致との判断の後はステップＳ４１と同様にテキスト信号を出力認識結果信号と決定しない例を示した。しかし、これに限られない。結果調停部２３ｉ３は、「テキスト信号を出力認識結果信号と決定しない」ではなく、「非テキスト信号を出力認識結果信号として決定する」としても良い。この際、結果調停部２３ｉ３が非テキスト信号を出力認識結果信号としてコマンド出力部２４へ出力する。このように処理を行っても、コマンド出力部２４により何の動作信号も出力されないので、結果として出力認識結果信号と決定しない例と同様になる。つまり、コマンド出力部２４は、非テキスト信号がワードと一致しないと判定し、何の動作信号も出力しないで、処理を終了する。これにより、音声認識精度維持作用を奏する。

上述した第５実施形態では、結果調停部２３ｉ３は、出力認識結果信号をコマンド出力部２４へ出力する例を示したが、これに限られない。結果調停部２３ｉ３は、出力認識結果信号を外部コマンド出力部２０３へ出力しても良い。外部コマンド出力部２０３は、第５実施形態のコマンド出力部２４と同様に、結果調停部２３ｉ３より入力された出力認識結果信号に従って、動作信号（コマンド信号）を出力する。具体的には、外部コマンド出力部２０３は、以下のコマンド出力処理（出力処理）を、結果調停部２３ｉ３から出力認識結果信号が入力される間に繰り返し行う。

まず、外部コマンド出力部２０３は、外部記憶部２０１にも格納されている記憶部２１と同様の図７のコマンドリストを読み込む。次いで、外部コマンド出力部２０３は、テキスト信号が、読み込んだコマンドリストのワード欄に記載のワードと一致するか否かを判定（識別）する。外部コマンド出力部２０３は、ワードと一致する場合、コマンドリストの動作欄に記載の撮像装置１Ｅの動作を動作信号として撮像装置１Ｅ（例えば図略の各種のアクチュエータ等）へ出力して、処理を終了する。なお、外部コマンド出力部２０３は、制御ユニット２０等を介して、動作信号を撮像装置１Ｅ（例えば図略の各種のアクチュエータ等）へ出力する。そして、図略の各種のアクチュエータ等は、入力された動作信号により動作する。一方、外部コマンド出力部２０３は、ワードと一致しない場合、何の動作信号も出力しないで、処理を終了する。アクチュエータ等の具体例については、コマンド出力部２４に記載のものと同様である。

上述した第４実施形態と第５実施形態では、装置本体１０Ｄ，１０Ｅは外部マイクロフォン１９を別体に有する例を示した。すなわち、外部マイクロフォン１９単体を装置本体１０Ｄ，１０Ｅに接続する例を示したが、これに限られない。外部マイクロフォン１９は、装置本体１０Ｄ，１０Ｅに接続される接続機器の一部であっても良い。つまり、外部マイクロフォン１９は、自撮りミニグリップやバッテリグリップまたはバッテリパックに設けられている（搭載されている）ものでも良い。例えば、外部マイクロフォン１９は、自撮りミニグリップに設けられている音声メモ用のマイクロフォンでも良い。また、第５実施形態では、外部マイクロフォン１９そのものが外部制御ユニット２００を有する例を示したが、上記の自撮りミニグリップやバッテリグリップまたはバッテリパックが同様に外部制御ユニットを有しても良い。

上述した第４実施形態と第５実施形態では、ワイヤレスマイクロフォン１９は、マイクロフォン本体１９ａとレシーバ１９ｂの二つから構成される例を示したが、これに限られない。例えば、第４実施形態のレシーバ１９ｂは、撮像装置１Ｄに内蔵されていても良い。このため、ワイヤレスマイクロフォン１９は、マイクロフォン本体１９ａに入力された音を無線により、撮像装置１Ｄに内蔵されたレシーバへ伝送するものとなる。これにより、装置側コネクタ１８と外部側コネクタ１９ｃの接続は不要になる。第５実施形態のレシーバ１９ｂは、外部制御ユニット２００とは別ではなく、外部制御ユニット２００に内蔵されていても良い。

上述した実施形態や一例では、音アナログ信号を音デジタル信号に変換した後に、各処理を行う例を示したが、これに限られない。例えば、同様の各処理を行うことが可能なアナログ電気電子回路によって実現しても良い。

上述した実施形態や一例では、マイクロフォン１４は音をアナログ信号の音アナログ信号（音アナログデータ）へ変換する例を示したが、これに限られない。例えば、マイクロフォン１４は音をデジタル信号の音デジタル信号（音デジタルデータ）へ変換しても良い。これにより、音処理部２３ａにおける音アナログ信号から音デジタル信号に変換する処理が不要となる。

上述した第４実施形態では、環境音抽出部２３１とエンコード部２３２により動画用音制御の処理を行う例を示した。この例を上述した実施形態や一例に適用しても良い。第１～３実施形態や変形例（３－１）では、時間信号を用いて、音デジタル信号から音声デジタル信号を抑制すれば環境音デジタル信号が抽出される。なお、アンビソニックス化する処理やノイズ除去の処理やエンコード処理は第４実施形態と同様である。第５実施形態では、第４実施形態のマイク設定部２３ｆと同様に、マイク調停部２３ｉ１により識別結果信号に基づいてマイクロフォン１４と外部マイクロフォン１９のうち一方を動画用のマイクロフォンに自動で設定すれば良い。後の環境音デジタル信号の抽出等は、第４実施形態と同様に行えば良い。

上述した実施形態や一例では、音処理や音声抽出処理や環境音抽出処理において、ノイズ除去の処理を行う例を示したが、これに限られない。要するに、ノイズ除去の処理は、音アナログ信号を音デジタル信号へ変換した後のタイミングであればいつでも良い。

上述した第４実施形態や一例では、音処理の後であってエンコード処理の前のリアルタイムに環境音抽出処理を行う例を示したが、これに限られない。例えば、音デジタル信号から環境音デジタル信号を抽出する必要が無ければ、リアルタイムにて環境音抽出処理を行わず後処理しても良い。後処理の場合、音処理の後に、音デジタル信号のままファイルへ変換し映像データと同期して動画ファイルとしてエンコードする。そして、動画ファイルを記憶部２１や外部記憶部２０１へ記録する。また、音声デジタル信号をデータとして記憶部２１や外部記憶部２０１へ記録する。ただし、音デジタル信号と音声デジタル信号の時間をタグ付けしておく。これにより、後処理を容易に行うことができる。

上述した第１、３～５実施形態や変形例（３－１）では、マイクロフォン１４の数を四つとする例を示したが、これに限られない。例えば、指向性を設定することができれば良いので、マイクロフォン１４の数は三つとしても良い。三つのマイクロフォンは同一平面上に配置され、一つのマイクロフォンは残り二つのマイクロフォンを結ぶ一直線上に配置されないものとする。そして、三つのマイクロフォンの配置関係は、三つのマイクロフォンを点と仮定したときに、当該三つの点を線分で結ぶと三角形を形成可能な位置に三つのマイクロフォンは配置される。これにより、マイクロフォンアレイを構成する。なお、第２実施形態においてディスプレイ１５が装置本体１０Ｂの前方向と後方向しか可動しない場合、マイクロフォン１４の数を上記の通り三つとしても良い。

ここで、「マイクロフォンアレイ」とは、複数のマイクロフォンを平面上に配置して、各マイクロフォンに入力される音（詳細には音波の存在する平面の空間（音場））を処理することにより、水平方向（平面）における特定方向の音を得ることができる装置である。そして、マイクロフォンアレイを用いて指向性を制御する公知のビームフォーミングにより特定方向の音を強調または低減することができる。基本的には、複数のマイクロフォン同士の間に距離があるため、音源から各マイクロフォンへの音波には位相差が生じる。この音波の位相差の分だけ、音源に近いマイクロフォンに入力された一方の音波を遅延させる。そして、一方と他方の音波を加算または減算することにより、波の重ね合わせの原理により音の周波数によって特定方向の音を強め合ったり打ち消しあったりすることができる。これにより、指向性を形成することができる。なお、指向性は周波数に依存する。この際、音声抽出部２３ｂにより、（内蔵）音デジタル信号から、上述した指向性制御（公知のビームフォーミング）により（内蔵）音声デジタル信号が抽出される。

上述した実施形態や一例では、マイクロフォン１４の数を三つ以上とする例を示したが、これに限られない。要するに、マイクロフォン１４の数は増やしても良い。マイクロフォンの数を増やせば増やすほど、ユーザの音声の認識精度や動画用音の抽出精度を向上することができる。更に、マイクロフォンを増やせば増やすほど空間的に周波数のサンプリング精度が上がり、音の方向の検出精度向上および指向性が強く形成できる。

上述した第１，４～５実施形態や変形例（３-１）では、マイクロフォン１４の数を三つ～四つとする例を示したが、これに限られない。要するに、マイクロフォン１４の数は一つでも良い。この際、音声抽出部２３ｂにより、マイクロフォン１４に入力された音デジタル信号がそのまま音声デジタル信号として抽出される。

上述した第３実施形態や一例では、マイクロフォン１４の数を三つ以上とする例を示したが、これに限られない。要するに、マイクロフォン１４の数は複数（二つ以上）あれば良い。この際、音声抽出部２３ｂにより、マイクロフォン１４に入力された音デジタル信号がそのまま音声デジタル信号として抽出される。マイクロフォン情報信号が「音声認識用に設定した一つのマイクロフォンの情報」の場合、音声抽出部２３ｂにより、第３実施形態と同様に音声デジタル信号が抽出される。

上述した実施形態や一例では、マイクロフォン１４を各箇所に配置する例を示したが、これに限られない。例えば、自撮りのシーンを考慮すれば、全てのマイクロフォンを装置本体１０Ａ～１０Ｅの前面に配置（例えば撮像光学系１１の周囲の位置）することが好ましい。なお、四つのマイクロフォンを有する場合、上述した実施形態等と同様に三角錐（一例）を形成可能な位置に配置されていれば、アンビソニックスを適用することができる。なお、四つのマイクロフォンを有する場合、これらのマイクロフォンの配置は、アンビソニックスを適用することができる位置であれば良い。ここで、マイクロフォン１４を各箇所に配置して、上記の各作用を奏するためには、各作用を奏する位置にマイクロフォン１４を配置すればマイクロフォン１４の位置はどこに配置されていても良い。

上述した実施形態や一例では、マイクロフォン１４の指向性を無指向性とする例を示したが、これに限られない。例えば、マイクロフォン１４の指向性は、特定方向の音を捉える単一指向性（例えば角度１８０度）としても良い。要するに、マイクロフォン１４の指向性は、取付位置や入力される音や抽出する音に基づいて決定されれば良い。

上述した実施形態や一例では、制御用プログラムは記憶部２１に格納されている例を示した。上述した第５実施形態や一例では、外部制御用プログラムは外部記憶部２０１に格納されている例を示した。しかし、これに限られない。例えば、制御用プログラムと外部制御用プログラムは外部の記憶媒体に格納されていても良い。記憶媒体は、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）外部記憶装置、メモリーカード等である。ＤＶＤ等は、光学ディスクドライブ等を用いて制御ユニット２０や外部制御ユニット２００に接続する。そして、制御用プログラムと外部制御用プログラムが格納されているＤＶＤ等から、制御用プログラムを制御ユニット２０に、外部制御用プログラムを外部制御ユニット２００に、それぞれ読み込んで、各ＲＡＭにて実行しても良い。また、記憶媒体は、インターネット上のサーバ装置としても良い。そして、制御用プログラムと外部制御用プログラムが格納されているサーバ装置内から、通信部２６を通じて、制御用プログラムを制御ユニット２０に、外部制御用プログラムを外部制御ユニット２００に、それぞれ読み込んで、各ＲＡＭにて実行しても良い。なお、サーバ装置内から外部制御用プログラムを外部制御ユニット２００に読み込む場合、外部制御ユニット２００は外部通信部を有するものとする。

上述した実施形態や一例では、教師データと音響モデルは記憶部２１や外部記憶部２０１に格納されている例を示した。しかし、これに限られない。なお、以下において、教師データと音響モデルをまとめて「音響モデル等」と記載する。例えば、音響モデル等は外部の記憶媒体に格納されていても良い。記憶媒体は、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）外部記憶装置、メモリーカード等である。ＤＶＤ等は、光学ディスクドライブ等を用いて例えば制御ユニット２０や外部制御ユニット２００に接続する。そして、音響モデル等が格納されているＤＶＤ等から、音響モデル等を制御ユニット２０や外部制御ユニット２００に、それぞれ読み込んでも良い。また、記憶媒体は、インターネット上のサーバ装置としても良い。そして、音響モデル等が格納されているサーバ装置内から、通信部２６を通じて、音響モデル等を制御ユニット２０や外部制御ユニット２００に、それぞれ読み込んでも良い。なお、サーバ装置内から音響モデル等を外部制御ユニット２００に読み込む場合、外部制御ユニット２００は外部通信部を有するものとする。

上述した実施形態や一例では、制御内容は、単語辞書の単語、特定方向音声の抽出、マイクロフォン１４、プルーニング閾値、マイクロフォン１４と外部マイクロフォン１９の音声認識用と動画用、認識特定部、音響モデルの設定である例を示した。上述した実施形態や一例では、認識制御モジュール２３は、各状態情報に基づいて各制御内容を設定する例を示した。しかし、これに限られない。例えば、制御内容は単語辞書の単語と特定方向音声の抽出と音響モデルの設定であり、認識制御モジュール２３は、複数の状態情報に基づいてそれらの制御内容を設定しても良い。要するに、制御内容は、音声を認識するためのものであれば、一つでも複数でも良い。このため、状態取得部２２により取得された状態情報も、一つに限らず複数でも良い。そして、認識制御モジュール２３は、状態情報に基づいて、音声を認識するための制御内容を設定すれば良い。ここで、撮像装置１Ａ～１Ｅでは、制御内容の項目が他の製品よりも比較的多いばかりでなく、一つの被写体を撮影する際、一回の撮影ごとに複数の制御内容が頻繁に設定される。動画撮影中でも、例えばディスプレイ１５の画面角度が変更されることがあるので、特定方向音声の抽出が変更される。このため、特に、撮像装置１Ａ～１Ｅにおいて、認識制御モジュール２３は、複数の状態情報に基づいてそれらの制御内容を設定することが比較的多くなる。

上述した第５実施形態では、認識制御モジュール２３が調停制御部２３ｉを有する例を示したが、装置本体１０Ｅに接続される接続機器が調停制御部２３ｉを有していても良い。例えば、外部認識制御モジュール２０２が調停制御部２３ｉを有していても良い。

上述した実施形態や一例では、本案件の音声認識装置、音声認識方法、音声認識プログラム、および、撮像装置を、撮像装置１Ａ～１Ｅに適用する例を示したが、これに限られない。例えば、本案件の音声認識装置と音声認識方法と音声認識プログラムを、電子計算機（例えばスマートフォン、対象機器）等に適用することができる。電子計算機等は、少なくとも状態取得部２２と認識制御モジュール２３とコマンド出力部２４を備える。また、電子計算機等は、撮像光学系１１やファインダ１２を備えていれば、本案件の撮像装置を適用しても良い。なお、上述した実施形態や一例では、装置本体１０Ａ～１０Ｅの上面よりも上側にファインダ１２を有する撮像装置１Ａ～１Ｅに、本実施形態の音声認識装置、音声認識方法、音声認識プログラム、および、撮像装置を適用する例を示したが、これに限られない。例えば、装置本体１０Ａ～１０Ｅの上面にファインダ１２を有しないレンジファインダ型等の撮像装置に、本実施形態の音声認識装置、音声認識方法、音声認識プログラム、および、撮像装置を適用しても良い。レンジファインダ型の場合、例えば三つの第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄを装置本体１０Ａ～１０Ｅの上面に配置することが可能である。なお、アイセンサ１３は有さなくても良い。

本案件の音声認識装置と音声認識方法と音声認識プログラムを、外部機器（例えば外部サーバや電子計算機等、対象機器）に適用することができる。外部機器は、少なくとも状態取得部２２と認識制御モジュール２３とコマンド出力部２４を備える。例えば、撮像装置１Ａ～１Ｅは、マイクロフォン１４や外部マイクロフォン１９を有し、通信部２６により音アナログ信号や音デジタル信号を外部機器（例えば、外部サーバ）へ送信する。次いで、外部機器では、状態取得部２２の取得処理や認識制御モジュール２３の音声認識処理（認識処理）やコマンド出力部２４のコマンド出力処理（出力処理）等の各処理が行われる。次いで、外部機器は、動作信号を一台以上の撮像装置１Ａ～１Ｅへ送信する。次いで、撮像装置１Ａ～１Ｅの例えば各種アクチュエータ等は、通信部２６により受信した動作信号により動作する。このように、本実施形態の音声認識装置、音声認識方法、および、音声認識プログラムを、外部機器（例えば外部サーバや電子計算機等、対象機器）に適用しても、少なくとも認識精度向上作用を奏する。なお、一部の音声認識処理やコマンド出力処理を装置本体１０Ａ～１０Ｅの認識制御モジュール２３で行い、残りの一部の音声認識処理やコマンド出力処理を外部機器の認識制御モジュールで行っても良い。

１Ａ，１Ｂ，１Ｃ，１Ｄ，１Ｅ撮像装置（対象機器）
１０Ａ，１０Ｂ，１０Ｃ，１０Ｄ，１０Ｅ装置本体（本体）
１１撮像光学系
１１ａレンズ（可動部、単焦点レンズ、ズームレンズ、電動ズームレンズ、沈胴式レンズ）
１４マイクロフォン（入力部、音入力部、内蔵マイクロフォン）
１４ａ第１マイクロフォン（入力部、音入力部、内蔵マイクロフォン）
１４ｂ第２マイクロフォン（入力部、音入力部、内蔵マイクロフォン）
１４ｃ第３マイクロフォン（入力部、音入力部、内蔵マイクロフォン）
１４ｄ第４マイクロフォン（入力部、音入力部、内蔵マイクロフォン）
１５ディスプレイ（可動部、表示部）
１５ａ画面角度センサ（センサ）
１７空冷ファン（可動部、接続機器）
１９外部マイクロフォン（接続機器、ワイヤレスマイクロフォン）
１９ａマイクロフォン本体
１９ｂレシーバ
２０制御ユニット（音声認識装置）
２１記憶部
２２状態取得部（取得部）
２３認識制御モジュール（認識制御部）
２３ａ音処理部（認識制御部）
２３ｂ音声抽出部（認識制御部）
２３ｃ音声認識部（認識制御部、認識特定部）
２３ｄ音響モデル設定部（認識制御部）
２３ｅ単語辞書設定部（認識制御部）
２３ｆマイク設定部（認識制御部）
２３ｇプルーニング閾値設定部（認識制御部）
２３ｈマイク識別部（認識制御部）
２３ｉ調停制御部（認識制御部）
２３ｉ１マイク調停部（認識制御部）
２３ｉ２認識調停部（認識制御部）
２３ｉ３結果調停部（認識制御部）
２４コマンド出力部（出力部）
２７ジャイロセンサ（傾きセンサ）
２００外部制御ユニット
２０１外部記憶部
２０２外部認識制御モジュール（外部認識制御部）
２０２ａ外部音処理部（外部認識制御部）
２０２ｂ外部音声抽出部（外部認識制御部）
２０２ｃ外部音声認識部（外部認識制御部、認識特定部）
２０２ｄ外部音響モデル設定部（外部認識制御部）
２０２ｅ外部単語辞書設定部（外部認識制御部）
２０３外部コマンド出力部（出力部）

Claims

入力された音声によって操作される対象機器に設けられた可動部、及び、前記対象機器に接続される接続機器の少なくとも一方に関する状態情報を取得する取得部と、
前記取得部により取得された前記状態情報に基づいて、前記音声を認識するための制御内容を設定し、前記音声を認識する認識制御部と、
前記認識制御部による認識結果に従って前記対象機器を操作するためのコマンド信号を前記対象機器に出力する出力部と、
を有し、
前記認識制御部が、前記取得部により取得された前記状態情報に基づいて、前記制御内容である単語辞書の単語を、前記可動部および前記接続機器の少なくとも一方の前記状態情報に対応する単語に制限するようにした音声認識装置が、前記対象機器に備えられ、
前記対象機器は、複数種類の交換可能な撮像光学系を取付けて前記可動部にする撮像装置本体であり、
前記認識制御部は、前記取得部により取得された前記撮像光学系の前記状態情報に基づいて、前記制御内容である前記単語辞書の単語を、取付けた前記撮像光学系の前記状態情報に対応する単語に制限することを特徴とする撮像装置。
請求項１に記載された撮像装置において、
前記撮像光学系は、前記可動部のレンズとして、単焦点レンズ、または、ズームレンズを含むことを特徴とする撮像装置。
請求項１に記載された撮像装置において、
前記撮像光学系は、前記可動部のレンズとして、単焦点レンズ、ズームレンズ、または、沈胴式レンズを含むことを特徴とする撮像装置。
請求項１ないし請求項３のいずれか１項に記載された撮像装置において、
前記状態情報は、前記撮像光学系の型番、種類、絞り値、ズームレンズの場合の焦点距離、レンズの製品情報、の少なくとも１つが含まれることを特徴とする撮像装置。
請求項１に記載された撮像装置において、
前記音声は、前記対象機器に設けられた内蔵マイクロフォンから入力され、
前記接続機器は、前記音声とユーザ周囲の環境音のうち少なくとも一方が入力される外部マイクロフォンであり、
前記取得部は、前記外部マイクロフォンの前記状態情報を取得し、
前記認識制御部は、前記取得部により取得された前記外部マイクロフォンの前記状態情報に基づいて、前記内蔵マイクロフォンと前記外部マイクロフォンのうち一方を音声認識用に設定し、前記単語辞書の単語を前記内蔵マイクロフォンと前記外部マイクロフォンのうち一方の前記状態情報に対応する単語に設定することを特徴とする撮像装置。
請求項５に記載された撮像装置において、
前記認識制御部は、前記取得部により取得された前記外部マイクロフォンの前記状態情報に基づいて自動で前記外部マイクロフォンを識別し、識別した識別結果に基づいて前記内蔵マイクロフォンと前記外部マイクロフォンのうち一方を音声認識用に自動で設定することを特徴とする撮像装置。
請求項５又は請求項６に記載された撮像装置において、
前記内蔵マイクロフォンと前記外部マイクロフォンには、前記音声とユーザ周囲の環境音が入力され、
前記認識制御部は、前記内蔵マイクロフォンと前記外部マイクロフォンのうち他方を動画用に設定することを特徴とする撮像装置。
請求項５又は請求項６に記載された撮像装置において、
前記外部マイクロフォンには、前記音声とユーザ周囲の環境音が入力され、
前記認識制御部は、前記取得部により取得された前記外部マイクロフォンの前記状態情報に基づいて、前記内蔵マイクロフォンからの入力を無効とし、前記外部マイクロフォンを音声認識用かつ動画用に設定することを特徴とする撮像装置。
請求項１に記載された撮像装置において、
前記音声は、前記対象機器に設けられた内蔵マイクロフォンから入力され、
前記接続機器は、前記音声とユーザ周囲の環境音のうち少なくとも一方が入力される外部マイクロフォンであり、
前記外部マイクロフォンは、前記認識制御部と接続し、前記音声を認識する外部認識制御部を備え、
前記取得部は、前記外部マイクロフォンの前記状態情報を取得し、
前記認識制御部は、前記取得部により取得された前記外部マイクロフォンの前記状態情報に基づいて、前記内蔵マイクロフォンと前記外部マイクロフォンのうち少なくとも一方を音声認識用に設定し、かつ、前記認識制御部と前記外部認識制御部のうち少なくとも一方を音声認識用に設定し、前記単語辞書の単語を前記内蔵マイクロフォンと前記外部マイクロフォンのうち少なくとも一方の前記状態情報に対応する単語に設定することを特徴とする撮像装置。
請求項９に記載された撮像装置において、
前記認識制御部は、前記内蔵マイクロフォンと前記外部マイクロフォンのうち、入力された前記音声の音圧が高い方を音声認識用に自動で設定することを特徴とする撮像装置。
請求項９又は請求項１０に記載された撮像装置において、
前記認識制御部は、前記取得部により取得された前記外部マイクロフォンの前記状態情報に基づいて、前記認識制御部と前記外部認識制御部のうち前記音声を認識する音声認識性能が高性能な方を、音声認識用に自動で設定することを特徴とする撮像装置。
請求項１１に記載された撮像装置において、
前記認識制御部は、前記認識制御部と前記外部認識制御部のうち前記音声認識性能が高性能な方を特定できない場合、前記認識制御部と前記外部認識制御部の両方を音声認識用に自動で設定することを特徴とする撮像装置。
請求項９に記載された撮像装置において、
音声認識用に設定した前記認識制御部と前記外部認識制御部のうち少なくとも一方は、前記複数の認識結果を前記認識制御部へ出力し、
前記認識制御部は、前記複数の認識結果のうち、前記出力部へ出力する出力認識結果を決定することを特徴とする撮像装置。
請求項１３に記載された撮像装置において、
前記認識制御部は、前記複数の認識結果に、前記音声が認識されていない非該当認識結果が含まれる場合、前記非該当認識結果を排除して、前記出力認識結果を決定することを特徴とする撮像装置。
請求項１３又は請求項１４に記載された撮像装置において、
音声認識用に設定した前記認識制御部と前記外部認識制御部のうち少なくとも一方は、前記複数の認識結果を前記認識制御部へ出力する場合、前記音声の認識時に前記認識結果の精度を示す評価値を、前記複数の認識結果のそれぞれに付し、
前記認識制御部は、前記複数の認識結果が異なる場合、前記評価値が最も高い前記認識結果を前記出力認識結果として決定することを特徴とする撮像装置。
請求項１３に記載された撮像装置において、
前記認識制御部は、前記複数の認識結果が異なる場合、前記出力認識結果を決定せずに何も前記出力部へ出力しない、または、前記音声が認識されていない非該当認識結果を前記出力認識結果として決定することを特徴とする撮像装置。
請求項１３に記載された撮像装置において、
前記認識制御部は、前記複数の認識結果の出力に時間差が生じる場合、所定時間が経過するまでは前記出力認識結果を決定しないことを特徴とする撮像装置。
請求項１７に記載された撮像装置において、
前記認識制御部は、前記所定時間が経過した後に、一つ以上の前記認識結果から前記出力認識結果を決定することを特徴とする撮像装置。
請求項１に記載された撮像装置において、
前記認識制御部は、前記取得部により取得された前記状態情報に基づいて、前記音声を音素に変換する音響モデルを設定し、前記単語辞書の単語を前記状態情報に対応する単語に設定することを特徴とする撮像装置。
入力された音声によって操作される対象機器に設けられた可動部、及び、前記対象機器に接続される接続機器の少なくとも一方に関する状態情報を取得する取得処理と、
前記音声が入力されると、前記取得処理により取得された前記状態情報に基づいて、前記音声を認識するための制御内容を設定し、前記音声を認識する認識制御処理と、
前記認識制御処理による認識結果に従って前記対象機器を操作するためのコマンド信号を前記対象機器に出力する出力処理と、
を含み、
前記認識制御処理は、前記取得処理により取得された前記状態情報に基づいて、前記制御内容である単語辞書の単語を、前記可動部および前記接続機器の少なくとも一方の前記状態情報に対応する単語に制限する処理とされると共に、
前記対象機器が、複数種類の交換可能な撮像光学系を取付けて前記可動部にする撮像装置本体であり、
前記認識制御処理は、前記取得処理により取得された前記撮像光学系の前記状態情報に基づいて、前記制御内容である前記単語辞書の単語を、取付けた前記撮像光学系の前記状態情報に対応する単語に制限する処理とされることを特徴とする音声認識方法。
入力された音声によって操作される対象機器に設けられた可動部、及び、前記対象機器に接続される接続機器の少なくとも一方に関する状態情報を取得する取得処理と、
前記音声が入力されると、前記取得処理により取得された前記状態情報に基づいて、前記音声を認識するための制御内容を設定し、前記音声を認識する認識制御処理と、
前記認識制御処理による認識結果に従って前記対象機器を操作するためのコマンド信号を前記対象機器に出力する出力処理と、
をコンピュータに実行させるようになっており、
前記コンピュータは、前記認識制御処理で、前記取得処理により取得された前記状態情報に基づいて、前記制御内容である単語辞書の単語を、前記可動部および前記接続機器の少なくとも一方の前記状態情報に対応する単語に制限すると共に、
前記対象機器が、複数種類の交換可能な撮像光学系を取付けて前記可動部にする撮像装置本体であり、
前記コンピュータは、前記認識制御処理で、前記取得処理により取得された前記撮像光学系の前記状態情報に基づいて、前記制御内容である前記単語辞書の単語を、取付けた前記撮像光学系の前記状態情報に対応する単語に制限することを特徴とする音声認識プログラム。