JP5247384B2

JP5247384B2 - 撮像装置、情報処理方法、プログラムおよび記憶媒体

Info

Publication number: JP5247384B2
Application number: JP2008304598A
Authority: JP
Inventors: 寛樹山本; 泰夫奥谷
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-11-28
Filing date: 2008-11-28
Publication date: 2013-07-24
Anticipated expiration: 2028-11-28
Also published as: US8848082B2; US20100134677A1; JP2010130487A

Description

本発明は、音源の位置を推定して、音声入力に関する設定を切替える技術に関する。

従来、右目又は左目の一方で覗くようにして使用するファインダと、目から所定の距離だけ離間させ、かつ正対させて使用するディスプレイとを備えるデジタルカメラが知られている。

従って、上記のデジタルカメラを利用して被写体を撮像する場合、ユーザはファインダを覗きながら、撮像するための操作をすることもでき、ディスプレイを見ながら、撮像するための操作をすることもできる。

一方、マイクロフォンを備えるデジタルカメラが存在する。
そして、上記のマイクロフォンに入力された音を、撮像された画像に対応付けて記録する技術が知られている。

また、上記マイクロフォンに入力された音をトリガーとして、デジタルカメラを操作する技術が知られている。
以下、マイクロフォンを備えるデジタルカメラを用いて、音声を入力しながら撮像する場面について説明する。

この場面において、ユーザはファインダを覗きながら音声入力を行う場合と、ディスプレイを見ながら音声入力を行う場合とが考えられる。
つまり、音源となるユーザの口とマイクロフォンとの距離は一定ではない。
従って、マイクロフォンに入力される音の音量等は不安定となる。

このような従来技術に鑑みて、マイクロフォンの感度を切替えるスイッチを備え、音源の位置にあわせて、ユーザがマイクロフォンの感度を切替えることができる技術が知られている（例えば、特許文献１）。
特開昭５８−１３７８２８号公報

しかしながら、手動でマイクロフォンの感度を切替えるのは非効率である。
また、特許文献１では、ユーザがマイクロフォンの感度を切替えずに、ある場面では、ファインダを覗きながら音声入力を行い、別の場面では、ディスプレイを見ながら音声入力を行うことが考える。

このとき、ファインダを覗きながら音声入力を行った場合と、ディスプレイを見ながら音声入力を行った場合のどちらか一方の場合しか好適な音声入力がなされない。

好適な音声入力がなされない（例えば、入力される音の音量が不安定となる）と、入力された音声を録音し、当該音声を再生する場合には、出力音量を調整する必要がある。

また、入力された音声に対して音声認識の処理を行う場合には、認識精度を低下させる一因となる。

また、音声入力をしながら撮像する際に、マイクロフォンの感度を切替えるスイッチを操作すると、一瞬のシャッターチャンスを逃す場合がある。

本発明は、上述した課題に鑑みてなされたものであり、ユーザがデジタルカメラを操作する際の口（音源）の位置を推定し、推定された音源から発せられる音を好適に取得する技術を提供することを目的とする。

また、録音または音声認識の処理を実行する際に、安定した音量の音（例えば、十分な音量の音、適切な音量の音等）を入力させることを目的とする。

上記の課題を解決するために、本発明に係る撮像装置は、ファインダとディスプレイとを備え、前記ファインダに画像を表示する表示モードと、前記ディスプレイに画像を表示する表示モードとを切替える切替え手段と、前記ファインダに画像を表示している場合、音声入力の処理を接話用のモードに設定し、前記ディスプレイに画像を表示している場合、音声入力の処理を非接話用のモードに設定する設定手段と、設定された音声入力のモードに従って、予め設定された制御コマンドを音声入力する入力手段とを備える。

本発明によれば、ユーザがデジタルカメラを操作する際の口（音源）の位置を推定し、推定された音源から発せられる音を好適に取得することが可能となる。

また、録音または音声認識の処理を実行する際に、安定した音量の音を入力させることが可能となる。

以下、本発明に好適な実施形態について、図面を参照しながら説明していく。

（第１の実施形態）
図１は第１の実施形態に係る撮像装置の一例であるデジタルカメラを示す機能ブロック図である。

図１において、デジタルカメラ１００は、制御部１０１、撮像部１０２、記録再生部１０３、操作部１０４、表示部１０５、音声入力部１０６、音声処理部１０７を備える。

（各部の説明）
制御部１０１は、撮像部１０２、記録再生部１０３、操作部１０４、表示部１０５、音声入力部１０６、音声処理部１０７の動作を制御する。
尚、制御部１０１における制御は後述する。

尚、制御部１０１は、ＣＰＵ（中央演算装置）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成される。

撮像部１０２は、レンズによって結像した像の画像信号を生成し、生成した画像信号にアナログ／デジタル（Ａ／Ｄ）変換等の処理を施し、記録媒体にデジタルの画像信号（以下、画像データとする）を出力する。
尚、撮像部１０２は、レンズ、ＣＣＤやＣＭＯＳ等の撮像素子、Ａ／Ｄ変換回路等で構成される。
記録再生部１０３は、記録媒体に画像データを記録させる。
また、記録再生部１０３は、記録媒体に記録された画像データを読み出す。

尚、記録再生部１０３は、ハードディスクドライブ（ＨＤＤ）やフラッシュメモリ等の記録媒体、記憶媒体に画像データを記録する記録制御部、記録媒体から画像データを読み出す再生制御部等で構成される。

操作部１０４はユーザ（使用者）がデジタルカメラ１００を手動で操作する際に使用する。
尚、操作部１０４は、ボタン、スイッチ等で構成される。

以下、操作部１０４を構成するボタンの例を説明する。
操作部１０４は、音声処理操作ボタン１４１、表示切替ボタン１４２を有する。
音量処理操作ボタン１４１が操作された場合、音声入力部１０６は音の取得を開始し、音声処理部１０７は録音、音声認識等の処理を実行する。
表示切替ボタン１４２が操作された場合、画像を表示する表示モードが切替わる。
尚、表示モードの詳細は後述する。

表示部１０５は、ファインダ１５０、ＬＣＤ、ＴＦＴ、有機ＥＬディスプレイ等の表示ディスプレイ１５１等で構成され、ファインダ１５０と表示ディスプレイ１５１は以下の３種類の表示モードをとる。

尚、ファインダ１５０は、周知の電子ビューファインダ（ＥＶＦ）であり、ユーザが接眼して（片目で覗くようにして）画像や撮像条件等を確認する場合に好適である。

また、表示ディスプレイ１５１は、ユーザが所定の距離（例えば、１５ｃｍから５０ｃｍ程度）離間させて、画像や撮像条件等を確認する場合に好適である。

次に、上述した表示モードについて説明する。
第１の表示モードとは、ファインダ１５０に画像や撮像条件等を表示し（ＯＮ）、表示ディスプレイ１５１には何も表示しない（ＯＦＦ）モードである。

第２の表示モードとは、ファインダ１５０に何も表示せず（ＯＦＦ）、表示ディスプレイ１５１に画像や撮像条件等を表示する（ＯＮ）モードである。

第３の表示モードとは、ファインダ１５０、表示ディスプレイ１５１の双方に画像や撮像条件等を表示する（ＯＮ）モードである。

尚、上述の３つの表示モードは、例えば、ユーザが表示切替ボタン１４２を操作する度に、第１の表示モード、第２の表示モード、第３の表示モード、第１の表示モード、・・・というように順に切替わる。

音声入力部１０６は、マイクロフォン１６０等で構成され、音を取得する処理を実行する。

音声処理部１０７は、音声入力部１０６が取得した音に対して、録音、音声認識等の処理を行う。
音声処理部１０７が録音を行う場合、取得した音は記録媒体に記録される。
音声処理部１０７が音声認識を行う場合は、認識結果に基づいて、その後の処理が実行される。

また、録音と音声認識のいずれの処理を実行するかは、例えば、以下のように決定する。

即ち、音声処理操作ボタン１４１を長押し（例えば、押下した時間が１秒間以上）した場合には録音を、音声処理操作ボタン１４１を短押し（例えば、押下した時間が１秒間未満）した場合には音声認識を実行する。

尚、本実施形態に係るデジタルカメラは１つの音声処理操作ボタン１４１備えるが、当該音声処理操作ボタン１４１に替えて、録音を実行するための録音ボタンと、音声認識を実行するための音声認識ボタンとを備えてもよい。

以下、表示部１０６の表示モードに基づいて、音声入力部１０６、音声処理部１０７等の設定を切替える処理について説明する。

（音声入力部１０６の設定を切替える処理を示すフローチャートの説明）
図２は、本実施形態に係るデジタルカメラにおいて、表示モードに基づいて音声入力の処理を切替える情報処理の流れを説明するフローチャートである。

ステップＳ２０１において、制御部１０１は、音声処理操作ボタン１４１が押下されたか否か判断し、音声処理操作ボタン１４１が押下された場合、ステップＳ２０２の処理を実行する。

一方、音声処理操作ボタン１４１が押下されなかった場合、音声処理操作ボタン１４１が押下されるまで待機する。

ステップＳ２０２において、制御部１０１は、表示ディスプレイ１５１に画像や撮像条件が表示されているか否か判断し、表示ディスプレイ１５１に画像や撮像条件が表示されている場合、ステップＳ２０３の処理を実行する。

即ち、表示部１０５の表示モードが第２の表示モードまたは第３の表示モードである場合、ステップＳ２０３の処理を実行する。

ステップＳ２０３において、制御部１０１は、音声入力部１０６の動作を非接話用に設定する。

何故なら、表示ディスプレイ１５１に画像が表示されている場合は、ユーザはカメラの表示ディスプレイ１５１を見ながら操作できる姿勢になると推定されるからである。

つまり、図３（ａ）のように、ユーザの顔は表示ディスプレイ１５１から少し離れた位置（例えば、表示ディスプレイ１５１とユーザの顔（口）との間隔が１５ｃｍから５０ｃｍとなるような位置）にあると推定される。

そこで、音声入力部１０６のから少し離れた位置（例えば、表示ディスプレイ１５１とユーザの顔（口）との間隔が１５ｃｍから５０ｃｍとなるような位置）にある音源から発せられる音を好適に取得するような設定をする。

尚、音声入力部１０６における非接話用（入力モード）の設定については後述する。

一方、表示ディスプレイ１５１に画像や撮像条件が表示されていない場合、ステップＳ２０４の処理を実行する。

即ち、表示部１０５の表示モードが第１の表示モードである場合、ステップＳ２０４の処理を実行する。

ステップＳ２０４において、制御部１０１は、音声入力部１０６の動作を接話用に設定する。

何故なら、ファインダ１５０に画像が表示されている場合は、ユーザはカメラのファインダ１５０を見ながら操作する姿勢になると推定されるからである。

つまり、図３（ｂ）のように、ユーザの顔はファインダ１５０と近接した位置（例えば、ファインダ１５０とユーザの顔（口）との間隔が５ｃｍ以下となるような位置）にあると推定される。

そこで、音声入力部１０６と近接した位置（例えば、ファインダ１５０とユーザの顔（口）との間隔が５ｃｍ以下となるような位置）の音源から発せられる音を好適に取得するような設定をする。
尚、音声入力部１０６における接話用（入力モード）の設定については後述する。

次にステップＳ２０５において、音声入力部１０６は音を取得する処理を開始する。
以下に、音声入力部１０６における接話用の設定と非接話用の設定について設定項目毎に説明する。
まず、マイクロフォン１６０の入力レベルを調整する場合について説明する。
入力レベルとは、例えば、音量、音圧等である。

本実施形態においては、接話用の音量として音量Ｖ１、非接話用の音量として音量Ｖ２を用いる。
ここで、非接話用の音量Ｖ２は、接話用の音量Ｖ１よりも、音を大きく増幅するように設定されている。

例えば、音量を０〜１５の１６段階で調整可能で、数字が大きくなるほど入力音量が大きくなるような音声入力装置を用いる場合、音量Ｖ１を５に、音量Ｖ２を１２に設定する。

このようにすると、ユーザが手動で入力音量を切替えることなく、ユーザがカメラを操作する姿勢を反映した入力音量の切替えが実現される。

すなわち、表示ディスプレイ１５１がＯＮの時は、図３（ａ）のように、ユーザはカメラを少し離して構える姿勢になると推定して、非接話用の音量に設定することにより、離れたところから発せられた音声が安定した音量で入力される。

また、表示ディスプレイ１５１がＯＦＦの時は、ユーザはファインダ１５０を覗くためにカメラを顔の近くに構える姿勢になると推定して、入力音量を接話用に設定することにより、マイクロフォンの近くで発せられた音声が安定した音量で入力される。
したがって、ユーザが手動操作をすることなく、安定した音量で集音することが可能となる。

次に、マイクロフォン１６０の指向性を設定する場合について説明する。
ユーザは、図３（ａ）に示すように、表示ディスプレイ１５１を見る姿勢をとる場合と、図３（ｂ）に示すように、ファインダ１５０を覗く姿勢をとる場合がある。

そして、それぞれの場合において、ユーザの口元であると推定される位置は異なる。

従って、ユーザが表示ディスプレイ１５１を見ている場合、図４（ａ）に示すように、マイクロフォンの指向性が狭指向性であるとユーザの発した音声を好適に取得することができる。

また、マイクロフォンの指向性を狭指向性とすると、周囲の雑音などユーザが発した音声以外の音を集音しにくくなるという利点もある。

一方、ユーザがファインダ１５０を覗いている場合、図４（ｂ）に示すように、マイクロフォンの指向性は広指向性であるとユーザの発した音声を好適に取得することができる。

このようにすると、ユーザが手動でマイクロフォンの指向性を切替えることなく、ユーザがカメラを操作する姿勢を反映してマイクロフォンの指向性の切替えることが可能となる。
即ち、ユーザが手動操作をすることなく、ノイズ等の少ない音を取得することが可能となる。

また、接話用の指向性の設定は超指向性、鋭指向性とし、非接話用の指向性の設定は単一指向性、無指向性としても同等の効果を得ることができる。

（音声処理部１０７の設定を切替える処理を示すフローチャートの説明）
図５は、本実施形態に係るデジタルカメラにおいて、表示モードに基づいて、音声処理に関する種々のパラメータを設定する処理を説明するフローチャートである。

ステップＳ５０１において、制御部１０１は、音声処理操作ボタン１４１が押下されたか否か判断し、音声処理操作ボタン１４１が押下された場合、ステップＳ５０２の処理を実行する。

ステップＳ５０２において、制御部１０１は、表示ディスプレイ１５１に画像や撮像条件が表示されているか否か判断し、表示ディスプレイ１５１に画像や撮像条件が表示されている場合、ステップＳ５０３の処理を実行する。

ステップＳ５０３において、制御部１０１は、音声処理部１０７の動作を非接話用に設定する。

即ち、表示部１０５の表示モードが第２の表示モードまたは第３の表示モードである場合、ステップＳ５０３の処理を実行する。

一方、表示ディスプレイ１５１に画像や撮像条件が表示されていない場合、ステップＳ５０４の処理を実行する。
ステップＳ５０４において、制御部１０１は、音声処理部１０７の動作を接話用に設定する。

即ち、表示部１０５の表示モードが第１の表示モードである場合、ステップＳ５０４の処理を実行する。
音声処理部１０７における接話用の設定と非接話用の設定については後述する。
次にステップＳ５０５において、音声処理部１０７は音声入力部１０６によって取得された音に対して予め設定された音声処理を実行する。

以下に、音声処理部１０７における接話用の設定と非接話用の設定について、音声処理部１０７が音声認識処理を行う場合について設定項目毎に説明する。
まず、音声認識の動作パラメータを調整する場合について説明する。
音声認識の動作パラメータとは、例えば、音声区間検出の閾値である。
このとき、接話用の設定として接話用閾値ＴＨ１、非接話用の設定として非接話用閾値ＴＨ２を用いる。

本実施形態においては、非接話用閾値ＴＨ２は接話用閾値ＴＨ１よりも小さな音声を検出できる値とする。
例えば、音量を基準に音声区間検出を行う場合、ＴＨ１を６０ｄＢＡ、ＴＨ２を５０ｄＢＡとする。

このようにすると、ユーザが手動で音声区間検出の閾値を切替えることなく、ユーザがカメラを操作する姿勢を反映した音声区間検出の閾値が設定される。
また、音声区間の検出の閾値を切替えると、一般に音声認識の認識性能が向上するという効果が得られる。

次に、接話用と非接話用とで使用する音響モデルを替える場合について説明する。
このとき、接話用の音響モデルとして音響モデルＡＭ１を用い、非接話用の音響モデルとして音響モデルＡＭ２を用いる。

尚、音響モデルＡＭ１はＳ／Ｎ比（信号対雑音比）が大きい（例えば、１５〜３０ｄＢとする）学習データで学習させたモデルであり、音響モデルＡＭ２はＳ／Ｎ比が小さい（例えば、０〜１５ｄＢとする）学習データで学習されたモデルである。
このようにすると、一般に音声認識の認識性能が向上するという効果が得られる。

次に、音声認識の探索条件を変更する場合について説明する。
音声認識の処理においては、探索処理を高速化するため、処理の過程で不要と判断した仮説を間引く周知の枝刈り（プルーニング）の処理が行われる。

代表的な処理手法は、最もスコアの大きい仮説のスコアから一定値を引いた値を閾値として、閾値未満の仮説については以降の演算を行わない方法である。
つまり、最大スコアからの差が閾値以内のスコアになる仮説のみ演算を行う。

しかしながら、このような枝刈りの閾値は、音声入力時の雑音環境によって最適値が変わることがよく知られている。
入力された音声に含まれる雑音が多いと探索の過程で本来正解である仮説のスコアが小さくなる。

このため、枝刈りの条件が厳しい（上記の例では閾値が小さい）と探索の過程で本来正解の仮説まで間引いてしまい、認識性能が低下する。
一方、雑音が多い環境に合わせて枝刈りの条件を緩く（上記の例では閾値を大きく）すると、雑音が少ない環境では不要な仮説の演算が発生する。
したがって、周囲の雑音を反映して枝刈りの閾値を適切に設定することが望ましい。

以上踏まえ、本実施形態においては、マイクロフォン近くで発声するためＳ／Ｎ比が高くなる接話用の探索条件として条件Ｃ１を用い、Ｓ／Ｎ比が低くなる非接話用の探索条件として条件Ｃ１よりも緩い条件Ｃ２を用いる。

例えば、音声認識の探索処理に、探索の過程でスコアの高い方から上位Ｎ個以外の仮説を枝刈りするヒストグラム・プルーニングを適用する場合に、条件Ｃ１にはＮ＝５００、条件Ｃ２にはＮ＝１０００を用いる。

枝刈りによって残す仮説数が多い条件Ｃ２の方が条件Ｃ１よりも探索条件が緩くなっている。
このようにすると、音声認識の認識性能が向上するという効果が得られる。

（第１の実施形態の変形例）
図６は、本実施形態に係るデジタルカメラにおける音声入力部１０６の動作を切替える処理の変形例を説明するフローチャートである。

ステップＳ６０１において、制御部１０１は、表示ディスプレイ１５１に画像や撮像条件が表示されているか否か判断し、表示ディスプレイ１５１に画像や撮像条件が表示されている場合、ステップＳ６０２の処理を実行する。

ステップＳ６０２において、制御部１０１は、音声処理部１０６の動作を非接話用に設定する。

一方、表示ディスプレイ１５１に画像や撮像条件が表示されていない場合、ステップＳ６０３の処理を実行する。

ステップＳ６０３において、制御部１０１は、音声処理部１０６の動作を接話用に設定する。

ステップＳ６０４において、制御部１０１は、音声処理操作ボタン１４１が押下されたか否か判断し、音声処理操作ボタン１４１が押下された場合、ステップＳ６０５の処理を実行する。

一方、音声処理操作ボタン１４１が押下されなかった場合、制御部１０１は、音声処理操作ボタン１４１が押下されるまで待機する。

制御部１０１がこのような処理を実行すると、表示部１５０の表示モードが変化した時に、音声処理に先立って音声処理部１０６の動作を設定するため、音声処理ボタン１４１が押下と同時に、ユーザがカメラを操作する姿勢を反映した適切な音声処理が開始される。

尚、図６の処理は、図５のステップＳ５０１と、ステップＳ５０２からステップＳ５０４までの処理の順序を入れ替えたものである。

図２に示した音声処理部１０７における処理も、同様に、処理の順序を入れ替えても良い。

（第２の実施形態）
本実施形態においては、操作部１０４として、更に、撮像モードと再生モードとを切替えるモード切替ボタン１４３を備えるデジタルカメラについて説明する。

本実施形態に係るデジタルカメラにおいてモード切替ボタン１４３が操作された場合、周知の撮像モード（画像を撮像するモード）、再生モード（カメラ内に記憶している画像を再生するモード）等に切替わる。

本実施形態においては、撮像モードである場合、音声入力部１０６、音声処理部１０７を接話用に設定し、再生モードである場合、音声入力部１０６、音声処理部１０７を非接話用に設定する。

即ち、図５のステップＳ５０１の処理、図６のステップＳ６０１の処理に替えてデジタルカメラのモードが撮像モードであるか判断する処理を実行することに相当する。

例えば、デジタル一眼レフカメラの一部の機種では、ファインダを覗いて、被写体を確認しながら撮像する場合がある。

一方、当該デジタル一眼レフカメラを用いて画像の再生を行う場合、ユーザは表示ディスプレイを見ながら画像を確認する。

即ち、撮像モードにおいてユーザが音声入力をする場合、音源はデジタル一眼レフカメラ本体と近接している（数センチメートル程度とする）。

一方、再生モードにおいてユーザが音声入力をする場合、その音源は、デジタル一眼レフカメラ本体に対して一定の間隔（数十センチメートル程度とする）がある。

従って、ユーザの撮像姿勢から推定される音源の位置に対して好適な音声入力、音声処理が可能となる。

（第３の実施形態）
本実施形態に係るデジタルカメラにおいては、モード切替ボタン１４３が操作された場合、撮像モードか再生モードのいずれかに切替わる（第１の切替え）。

更に、撮像モードにおいて、表示切替ボタン１４２が操作された場合、更に表示ディスプレイのＯＮ／ＯＦＦが切替わる（第２の切替え）。

本実施形態に係るデジタルカメラは、ユーザがデジタルカメラを操作する際の口（音源）の位置を推定し、推定された音源から発せられる音を好適に取得する技術を提供することを目的とする。

また、音声認識の処理を実行する際に、安定した音量の音を入力させることを目的とする。

更に、撮像、再生等の状況に応じて音声入力される制御コマンドを効率良く判定することを目的とする。

本実施形態に係るデジタルカメラは、ファインダを覗きながら撮像する場合に入力された音声を好適に入力し、認識する第１のモードと、表示ディスプレイを見ながら撮像する場合に入力された音声を好適に入力し、認識する第２のモードとを有する。

また、表示ディスプレイに画像を表示して再生する場合に入力された音声を好適に入力し、認識する第３のモードを有する。

図７は、本実施形態に係るデジタルカメラにおいて、各々の入力及び認識モードを切替える処理を説明するフローチャートである。

ステップＳ７０１において、制御部１０１は、撮像モードであるか否か判断し、撮像モードである場合、ステップＳ７０２の処理を実行する。

一方、撮像モードでない（再生モードである）場合、ステップＳ７０３においては、入力及び認識モードを非接話再生用とする。非接話再生用の認識モードの詳細は後述する。

また、ステップＳ７０２において、制御部１０１は、表示ディスプレイ１５１がＯＦＦであるか否か判断し、ＯＦＦである場合、ステップＳ７０４の処理を実行し、ＯＮである場合、ステップＳ７０５の処理を実行する。

ステップＳ７０４においては、入力及び認識モードを接話撮像用とする。接話撮像用の入力及び認識モードの詳細は後述する。

また、ステップＳ７０５においては、入力及び認識モードを非接話撮像用とする。非接話撮像用の入力及び認識モードの詳細は後述する。

次にステップＳ７０６において、音声入力部１０６は音を取得する処理を開始する。

次にステップＳ７０７において、音声処理部１０７は音声入力部１０６によって取得された音に対して予め設定された音声認識の処理を実行する。

以下、接話撮像用、非接話撮像用、非接話再生用の入力及び認識モードについて説明する。

３つの入力及び認識モードは、接話用と非接話用に分類することができる。

そして、この分類に基づいて、第１の実施形態と同様に、音量、指向性、音声区間検出の閾値、
音響モデル、探索条件等を設定する。

更に、本実施形態に係るデジタルカメラにおいては、３つの入力及び認識モードのそれぞれについて、音声入力された制御コマンドに応じて実行する処理を変更することを特徴とする。

図８は、音声入力された制御コマンドに応じて実行する処理を示すデータテーブルを表す図である。

本実施形態においては、接話撮像用の場合、制御コマンドを音声入力することによって撮像や機器の設定に関する多様な制御を実行できるようにする。

また、非接話撮像用の場合、制御コマンドを音声入力することによって撮像や機器の設定に関する限られた制御を実行できるようにする。

これは、音声入力ではなく、手動による操作入力によっても撮像や機器の設定に関する制御を実行できるからである。

非接話撮像用の場合、周囲雑音の影響を受け易いことから、認識可能な制御コマンドを制限すると音声認識の精度が向上する。

また、非接話再生用の場合、制御コマンドを音声入力することによって再生や機器の設定に関する限られた制御を実行できるようにする。

このようにすると、非接話再生用の場合も非接話撮像用の場合と同様に、音声認識の精度が向上する。

また、再生モードにおいては、デジタルカメラから音声出力がなされる場合がある。

従って、非接話再生用の場合は、非接話撮像用の場合よりも、制御コマンドを特異的に音声認識可能な設定にしておくとよい。

（第４の実施形態）
第１の実施形態、第２の実施形態においては、操作部１０４が操作された場合に、音声入力部１０６、音声処理部１０７の設定を切替えるデジタルカメラについて説明した。

一方、本実施形態においては、ファインダ１５０に、ユーザの視線を検出する周知のセンサを備える。

本実施形態に係るデジタルカメラにおいて、センサが視線を検知した場合、音声入力部１０６、音声処理部１０７を接話用に設定し、視線を検知しなかった場合、音声入力部１０６、音声処理部１０７を非接話用に設定する。

即ち、図２のステップＳ２０２の処理、図５のステップＳ５０２の処理、図６のステップ６０１の処理に替えてセンサが視線を検知したか否か判断する処理を実行することに相当する。

このようにすることよって、ユーザの口（音源）とマイクロフォン１６０との位置関係に基づいて、音声入力部１０６、音声処理部１０７の設定を切替えることが可能となる。

図９は第４の実施形態に係る撮像装置の一例であるデジタルカメラを示す機能ブロック図である。図１と共通の要素には同一の符号を付し、その説明を省略する。

図９において、デジタルカメラ９００は、制御部１０１、撮像部１０２、記録再生部１０３、操作部１０４、表示部１０５、音声入力部７０６、音声処理部１０７を備える。

（各部の説明）
音声入力部９０６は、接話用マイクロフォン９６１、非接話用マイクロフォン９６２等で構成される。

接話用マイクロフォン９６１は、当該マイクロフォンからの距離が近い（例えば、１０ｃｍ以内）音源から発生する音を取得する場合に好適なマイクロフォンである。

これは、ユーザがファインダ１５０を覗きながら発声する場合等、ユーザの口（音源）とデジタルカメラ９００との距離が数センチメートルになるからである。

また、接話用マイクロフォン９６１はユーザがファインダ１５０を覗いたとき、ユーザの口が位置するところの周辺に設けてもよい。

このような構成にすることで、ユーザが意図的に発声したときの音を効率良く取得することが可能となる。

また、接話用マイクロフォン９６１はユーザがファインダ１５０を覗いたとき、ユーザの口が位置するところに指向性を有するものでもよい。

このような構成にすることで、ユーザがファインダ１５０の覗き方を変えた場合であっても、接話用マイクロフォン９６１を設ける位置を変えることなく、ユーザが意図的に発声したときの音を効率良く取得することが可能となる。

また、非接話用マイクロフォン９６２は、ユーザが手でデジタルカメラ９００を持ち、表示ディスプレイ１５１を見ながら発声する場合等、接話をしていない状態において好適に音を取得することが可能なマイクロフォンである。

これは、ユーザが手でデジタルカメラ９００を持ち、表示ディスプレイ１５１を見ながら発声する場合、腕の長さ程度の距離だけ離間した音源から出力された音を好適に取得できるマイクロフォンが適しているからである。

また、デジタルカメラとユーザはほぼ正対するので、カメラ背面方向の指向性に優れたマイクロフォンを使用するのが望ましい。

（外観の説明）
図１０は、本実施形態に係るデジタルカメラ９００の外観を示す図である。

尚、図１０（Ａ）はデジタルカメラ９００の前面の外観、図９（Ｂ）はデジタルカメラ９００の背面の外観である。

図９と共通の要素には同一の符号を付し、その説明を省略する。

（接話用マイクロフォン９６１と非接話用マイクロフォン９６２を切替える処理を示すフローチャートの説明）
図１１は、本実施形態に係るデジタルカメラにおいて、表示モードに基づいて、音声入力の処理を設定する流れを説明するフローチャートである。

ステップＳ１１０１において、制御部１０１は、音声処理操作ボタン１４１が押下されたか否か判断し、音声処理操作ボタン１４１が押下された場合、ステップＳ１１０２の処理を実行する。

ステップＳ１１０２において、制御部１０１は、表示ディスプレイ１５１に画像や撮像条件が表示されているか否か判断し、表示ディスプレイ１５１に画像や撮像条件が表示されている場合、ステップＳ１１０３の処理を実行する。

即ち、表示部１０５の表示モードが第２の表示モードまたは第３の表示モードである場合、ステップＳ１１０３の処理を実行する。

ステップＳ１１０３において、制御部１０１は、非接話用マイクロフォン９６２を用いて集音するように設定する。

一方、表示ディスプレイ１５１に画像や撮像条件が表示されていない場合、ステップＳ１１０４の処理を実行する。

即ち、表示部１０５の表示モードが第１の表示モードである場合、ステップＳ１１０４の処理を実行する。

ステップＳ１１０４において、制御部１０１は、接話用マイクロフォン９６１を用いて集音するように設定する。

次にステップＳ１１０５において、音声入力部１０６は音を取得する処理を開始する。

（第５の実施形態）
本実施形態は、カメラ上に複数のマイクロフォンを配置し、マイクロフォンアレイを構成し、音声処理部１０６で音源推定や雑音抑圧処理を行って入力された音声の音質を向上させることを特徴とする。

また、実施形態４において、接話用マイクロフォン、非接話用マイクロフォンにマイクロフォンアレイを用いても良い。

しかしながら、一般にマイクロフォンアレイによる各種処理は、処理量が増加するため、撮像装置の処理能力が乏しい場合は、入力音質が劣化する非接話用の音声入力時のみにマイクロフォンアレイを適用するよう構成してもよい。

即ち、表示部１５０の表示モードが第３の表示モードの場合、即ちユーザがファインダを覗きながら操作する姿勢になる場合は、ユーザとカメラのマイクロフォンが接近することから比較的良好な音声入力環境になる。

そこで、接話用の単一のマイクロフォンによる音声入力に設定する。

一方、表示部１５０の表示モードが第１の表示モードまたは第２の表示モードになる場合は、非接話用の設定、すなわちマイクロフォンアレイを適用した音声入力に設定する。

このように構成すると、良好な音声入力環境を保ちながら、撮像装置における処理の負荷を軽減することができるという効果がある。

（その他の実施形態）
また、本発明の目的は、以下の処理を実行することによって達成される。

即ち、上述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）が記憶媒体に格納されたプログラムコードを読み出す処理である。

この場合、記憶媒体から読み出されたプログラムコード自体が上述した実施の形態の機能を実現することになり、そのプログラムコード及び該プログラムコードを記憶した記憶媒体は本発明を構成することになる。

また、プログラムコードを供給するための記憶媒体としては、次のものを用いることができる。

例えば、フレキシブルディスク、ハードディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＤＶＤ−ＲＷ、ＤＶＤ＋ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ等である。

または、ネットワークを介してプログラムコードをダウンロードしてもよい。

また、コンピュータが読み出したプログラムコードを実行することにより、上記実施の形態の機能が実現される場合も本発明に含まれる。

加えて、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。

更に、前述した実施形態の機能が以下の処理によって実現される場合も本発明に含まれる。

即ち、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。

その後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行う場合である。

第１の実施形態に係る撮像装置の一例であるデジタルカメラを示す機能ブロック図である。第１の実施形態に係るデジタルカメラにおいて、音声入力の設定をする流れを説明するフローチャートである。ユーザデジタルカメラを操作する際にとる姿勢を示す図である。ユーザデジタルカメラを操作する際の音源の位置を示す図である。第１の実施形態に係るデジタルカメラにおいて、音声処理の設定をする流れを説明するフローチャートである。音声入力の設定をする流れの変形例を説明するフローチャートである。第３の実施形態に係るデジタルカメラにおいて、認識モードを切替える処理を説明するフローチャート。音声入力された制御コマンドに応じて実行する処理を示すデータテーブルを表す図である。第４の実施形態に係る撮像装置の一例であるデジタルカメラを示す機能ブロック図である。第４の実施形態に係るデジタルカメラの外観を示す図である。第４の実施形態に係るデジタルカメラにおいて、音声入力を行うマイクロフォンを決定する流れを説明するフローチャートである。

符号の説明

１０１制御部
１０２撮像部
１０３記録再生部
１０４操作部
１０５表示部
１０６音声入力部
１０７音声処理部

Claims

ファインダとディスプレイとを備える撮像装置であって、
前記ファインダに画像を表示する表示モードと、前記ディスプレイに画像を表示する表示モードとを切替える切替え手段と、
前記ファインダに画像を表示している場合、音声入力の処理を接話用のモードに設定し、前記ディスプレイに画像を表示している場合、音声入力の処理を非接話用のモードに設定する設定手段と、
設定された音声入力のモードに従って、予め設定された制御コマンドを音声入力する入力手段とを備える撮像装置。
前記接話用の入力モードは、前記非接話用の入力モードよりも入力音量が小さくなるように設定することを特徴とする請求項１に記載の撮像装置。
更に、前記ファインダに画像を表示している場合、音声認識の処理を接話用のモードに決定し、前記ディスプレイに画像を表示している場合、音声認識の処理を非接話用のモードに決定する決定手段と、
決定された音声認識のモードに従って、音声入力された制御コマンドを音声認識する音声認識手段とを備える請求項１または請求項２に記載の撮像装置。
前記非接話用の認識モードは、前記接話用の認識モードよりも雑音が多い環境に適した設定であることを特徴とする請求項３に記載の撮像装置。
更に、前記ファインダに画像を表示している場合に、撮像モードであるか再生モードであるか判断する判断手段と、
入力された制御コマンドに応じて、予め設定された撮像または再生に関する制御を実行する制御手段とを備え、
前記決定手段は、前記撮像モードである場合、非接話用のモードを非接話撮像用のモードに決定し、前記再生モードである場合、非接話用のモードを非接話再生用のモードに決定することを特徴とする請求項３または請求項４に記載の撮像装置。
非接話撮像用のモードでは、再生に関する制御コマンドが音声認識された場合には予め設定された制御を実行せず、非接話再生用のモードでは、撮像に関する制御コマンドが音声認識された場合には予め設定された制御を実行しないことを特徴とする請求項５に記載の撮像装置。
ファインダとディスプレイとを備える撮像装置に実行させる情報処理方法であって、
切替え手段が、前記ファインダに画像を表示する表示モードと、前記ディスプレイに画像を表示する表示モードとを切替える切替え工程と、
設定手段が、前記ファインダに画像を表示している場合、音声入力の処理を接話用のモードに設定し、前記ディスプレイに画像を表示している場合、音声入力の処理を非接話用のモードに設定する設定工程と、
入力手段が、設定された音声入力のモードに従って、予め設定された制御コマンドを音声入力する入力工程とを有する情報処理方法。
請求項７に記載の情報処理方法をコンピュータに実行されるためのプログラム。
請求項８に記載のプログラムを記憶した記憶媒体。
ファインダとディスプレイとを備える撮像装置であって、
前記ディスプレイに画像を表示しないモードと、前記ディスプレイに画像を表示するモードを切替える切替え手段と、
前記ディスプレイに画像が表示されていない場合、音声入力の処理を接話用のモードに設定し、前記ディスプレイに画像が表示されている場合、音声入力の処理を非接話用のモードに設定する設定手段と、
設定された音声入力のモードに従って、予め設定された制御コマンドを音声入力する入力手段とを備える撮像装置。
前記接話用の入力モードは、前記非接話用の入力モードよりも入力音量が小さくなるように設定することを特徴とする請求項１０に記載の撮像装置。
更に、前記ディスプレイに画像を表示していない場合、音声認識の処理を接話用のモードに決定し、前記ディスプレイに画像を表示している場合、音声認識の処理を非接話用のモードに決定する決定手段と、
決定された音声認識のモードに従って、音声入力された制御コマンドを音声認識する音声認識手段とを備える請求項１０または請求項１１に記載の撮像装置。
前記非接話用の認識モードは、前記接話用の認識モードよりも雑音が多い環境に適した設定であることを特徴とする請求項１２に記載の撮像装置。
ファインダとディスプレイとを備える撮像装置に実行させる情報処理方法であって、
切替え手段が、前記ディスプレイに画像を表示しないモードと、前記ディスプレイに画像を表示するモードを切替える切替え工程と、
設定手段が、前記ディスプレイに画像が表示されていない場合、音声入力の処理を接話用のモードに設定し、前記ディスプレイに画像が表示されている場合、音声入力の処理を非接話用のモードに設定する設定工程と、
入力手段が、設定された音声入力のモードに従って、予め設定された制御コマンドを音声入力する入力工程とを有する情報処理方法。
請求項１４に記載の情報処理方法をコンピュータに実行されるためのプログラム。
請求項１５に記載のプログラムを記憶した記憶媒体。