JP5247384B2 - 撮像装置、情報処理方法、プログラムおよび記憶媒体 - Google Patents
撮像装置、情報処理方法、プログラムおよび記憶媒体 Download PDFInfo
- Publication number
- JP5247384B2 JP5247384B2 JP2008304598A JP2008304598A JP5247384B2 JP 5247384 B2 JP5247384 B2 JP 5247384B2 JP 2008304598 A JP2008304598 A JP 2008304598A JP 2008304598 A JP2008304598 A JP 2008304598A JP 5247384 B2 JP5247384 B2 JP 5247384B2
- Authority
- JP
- Japan
- Prior art keywords
- mode
- display
- close
- voice
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/667—Camera operation mode switching, e.g. between still and video, sport and normal or high- and low-resolution modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Studio Devices (AREA)
Description
そして、上記のマイクロフォンに入力された音を、撮像された画像に対応付けて記録する技術が知られている。
以下、マイクロフォンを備えるデジタルカメラを用いて、音声を入力しながら撮像する場面について説明する。
つまり、音源となるユーザの口とマイクロフォンとの距離は一定ではない。
従って、マイクロフォンに入力される音の音量等は不安定となる。
また、特許文献1では、ユーザがマイクロフォンの感度を切替えずに、ある場面では、ファインダを覗きながら音声入力を行い、別の場面では、ディスプレイを見ながら音声入力を行うことが考える。
図1は第1の実施形態に係る撮像装置の一例であるデジタルカメラを示す機能ブロック図である。
制御部101は、撮像部102、記録再生部103、操作部104、表示部105、音声入力部106、音声処理部107の動作を制御する。
尚、制御部101における制御は後述する。
尚、撮像部102は、レンズ、CCDやCMOS等の撮像素子、A/D変換回路等で構成される。
記録再生部103は、記録媒体に画像データを記録させる。
また、記録再生部103は、記録媒体に記録された画像データを読み出す。
尚、操作部104は、ボタン、スイッチ等で構成される。
操作部104は、音声処理操作ボタン141、表示切替ボタン142を有する。
音量処理操作ボタン141が操作された場合、音声入力部106は音の取得を開始し、音声処理部107は録音、音声認識等の処理を実行する。
表示切替ボタン142が操作された場合、画像を表示する表示モードが切替わる。
尚、表示モードの詳細は後述する。
第1の表示モードとは、ファインダ150に画像や撮像条件等を表示し(ON)、表示ディスプレイ151には何も表示しない(OFF)モードである。
音声処理部107が録音を行う場合、取得した音は記録媒体に記録される。
音声処理部107が音声認識を行う場合は、認識結果に基づいて、その後の処理が実行される。
図2は、本実施形態に係るデジタルカメラにおいて、表示モードに基づいて音声入力の処理を切替える情報処理の流れを説明するフローチャートである。
尚、音声入力部106における接話用(入力モード)の設定については後述する。
以下に、音声入力部106における接話用の設定と非接話用の設定について設定項目毎に説明する。
まず、マイクロフォン160の入力レベルを調整する場合について説明する。
入力レベルとは、例えば、音量、音圧等である。
ここで、非接話用の音量V2は、接話用の音量V1よりも、音を大きく増幅するように設定されている。
したがって、ユーザが手動操作をすることなく、安定した音量で集音することが可能となる。
ユーザは、図3(a)に示すように、表示ディスプレイ151を見る姿勢をとる場合と、図3(b)に示すように、ファインダ150を覗く姿勢をとる場合がある。
即ち、ユーザが手動操作をすることなく、ノイズ等の少ない音を取得することが可能となる。
図5は、本実施形態に係るデジタルカメラにおいて、表示モードに基づいて、音声処理に関する種々のパラメータを設定する処理を説明するフローチャートである。
ステップS504において、制御部101は、音声処理部107の動作を接話用に設定する。
音声処理部107における接話用の設定と非接話用の設定については後述する。
次にステップS505において、音声処理部107は音声入力部106によって取得された音に対して予め設定された音声処理を実行する。
まず、音声認識の動作パラメータを調整する場合について説明する。
音声認識の動作パラメータとは、例えば、音声区間検出の閾値である。
このとき、接話用の設定として接話用閾値TH1、非接話用の設定として非接話用閾値TH2を用いる。
例えば、音量を基準に音声区間検出を行う場合、TH1を60dBA、TH2を50dBAとする。
また、音声区間の検出の閾値を切替えると、一般に音声認識の認識性能が向上するという効果が得られる。
このとき、接話用の音響モデルとして音響モデルAM1を用い、非接話用の音響モデルとして音響モデルAM2を用いる。
このようにすると、一般に音声認識の認識性能が向上するという効果が得られる。
音声認識の処理においては、探索処理を高速化するため、処理の過程で不要と判断した仮説を間引く周知の枝刈り(プルーニング)の処理が行われる。
つまり、最大スコアからの差が閾値以内のスコアになる仮説のみ演算を行う。
入力された音声に含まれる雑音が多いと探索の過程で本来正解である仮説のスコアが小さくなる。
一方、雑音が多い環境に合わせて枝刈りの条件を緩く(上記の例では閾値を大きく)すると、雑音が少ない環境では不要な仮説の演算が発生する。
したがって、周囲の雑音を反映して枝刈りの閾値を適切に設定することが望ましい。
このようにすると、音声認識の認識性能が向上するという効果が得られる。
図6は、本実施形態に係るデジタルカメラにおける音声入力部106の動作を切替える処理の変形例を説明するフローチャートである。
本実施形態においては、操作部104として、更に、撮像モードと再生モードとを切替えるモード切替ボタン143を備えるデジタルカメラについて説明する。
本実施形態に係るデジタルカメラにおいては、モード切替ボタン143が操作された場合、撮像モードか再生モードのいずれかに切替わる(第1の切替え)。
音響モデル、探索条件等を設定する。
第1の実施形態、第2の実施形態においては、操作部104が操作された場合に、音声入力部106、音声処理部107の設定を切替えるデジタルカメラについて説明した。
音声入力部906は、接話用マイクロフォン961、非接話用マイクロフォン962等で構成される。
図10は、本実施形態に係るデジタルカメラ900の外観を示す図である。
図11は、本実施形態に係るデジタルカメラにおいて、表示モードに基づいて、音声入力の処理を設定する流れを説明するフローチャートである。
本実施形態は、カメラ上に複数のマイクロフォンを配置し、マイクロフォンアレイを構成し、音声処理部106で音源推定や雑音抑圧処理を行って入力された音声の音質を向上させることを特徴とする。
また、本発明の目的は、以下の処理を実行することによって達成される。
102 撮像部
103 記録再生部
104 操作部
105 表示部
106 音声入力部
107 音声処理部
Claims (16)
- ファインダとディスプレイとを備える撮像装置であって、
前記ファインダに画像を表示する表示モードと、前記ディスプレイに画像を表示する表示モードとを切替える切替え手段と、
前記ファインダに画像を表示している場合、音声入力の処理を接話用のモードに設定し、前記ディスプレイに画像を表示している場合、音声入力の処理を非接話用のモードに設定する設定手段と、
設定された音声入力のモードに従って、予め設定された制御コマンドを音声入力する入力手段とを備える撮像装置。 - 前記接話用の入力モードは、前記非接話用の入力モードよりも入力音量が小さくなるように設定することを特徴とする請求項1に記載の撮像装置。
- 更に、前記ファインダに画像を表示している場合、音声認識の処理を接話用のモードに決定し、前記ディスプレイに画像を表示している場合、音声認識の処理を非接話用のモードに決定する決定手段と、
決定された音声認識のモードに従って、音声入力された制御コマンドを音声認識する音声認識手段とを備える請求項1または請求項2に記載の撮像装置。 - 前記非接話用の認識モードは、前記接話用の認識モードよりも雑音が多い環境に適した設定であることを特徴とする請求項3に記載の撮像装置。
- 更に、前記ファインダに画像を表示している場合に、撮像モードであるか再生モードであるか判断する判断手段と、
入力された制御コマンドに応じて、予め設定された撮像または再生に関する制御を実行する制御手段とを備え、
前記決定手段は、前記撮像モードである場合、非接話用のモードを非接話撮像用のモードに決定し、前記再生モードである場合、非接話用のモードを非接話再生用のモードに決定することを特徴とする請求項3または請求項4に記載の撮像装置。 - 非接話撮像用のモードでは、再生に関する制御コマンドが音声認識された場合には予め設定された制御を実行せず、非接話再生用のモードでは、撮像に関する制御コマンドが音声認識された場合には予め設定された制御を実行しないことを特徴とする請求項5に記載の撮像装置。
- ファインダとディスプレイとを備える撮像装置に実行させる情報処理方法であって、
切替え手段が、前記ファインダに画像を表示する表示モードと、前記ディスプレイに画像を表示する表示モードとを切替える切替え工程と、
設定手段が、前記ファインダに画像を表示している場合、音声入力の処理を接話用のモードに設定し、前記ディスプレイに画像を表示している場合、音声入力の処理を非接話用のモードに設定する設定工程と、
入力手段が、設定された音声入力のモードに従って、予め設定された制御コマンドを音声入力する入力工程とを有する情報処理方法。 - 請求項7に記載の情報処理方法をコンピュータに実行されるためのプログラム。
- 請求項8に記載のプログラムを記憶した記憶媒体。
- ファインダとディスプレイとを備える撮像装置であって、
前記ディスプレイに画像を表示しないモードと、前記ディスプレイに画像を表示するモードを切替える切替え手段と、
前記ディスプレイに画像が表示されていない場合、音声入力の処理を接話用のモードに設定し、前記ディスプレイに画像が表示されている場合、音声入力の処理を非接話用のモードに設定する設定手段と、
設定された音声入力のモードに従って、予め設定された制御コマンドを音声入力する入力手段とを備える撮像装置。 - 前記接話用の入力モードは、前記非接話用の入力モードよりも入力音量が小さくなるように設定することを特徴とする請求項10に記載の撮像装置。
- 更に、前記ディスプレイに画像を表示していない場合、音声認識の処理を接話用のモードに決定し、前記ディスプレイに画像を表示している場合、音声認識の処理を非接話用のモードに決定する決定手段と、
決定された音声認識のモードに従って、音声入力された制御コマンドを音声認識する音声認識手段とを備える請求項10または請求項11に記載の撮像装置。 - 前記非接話用の認識モードは、前記接話用の認識モードよりも雑音が多い環境に適した設定であることを特徴とする請求項12に記載の撮像装置。
- ファインダとディスプレイとを備える撮像装置に実行させる情報処理方法であって、
切替え手段が、前記ディスプレイに画像を表示しないモードと、前記ディスプレイに画像を表示するモードを切替える切替え工程と、
設定手段が、前記ディスプレイに画像が表示されていない場合、音声入力の処理を接話用のモードに設定し、前記ディスプレイに画像が表示されている場合、音声入力の処理を非接話用のモードに設定する設定工程と、
入力手段が、設定された音声入力のモードに従って、予め設定された制御コマンドを音声入力する入力工程とを有する情報処理方法。 - 請求項14に記載の情報処理方法をコンピュータに実行されるためのプログラム。
- 請求項15に記載のプログラムを記憶した記憶媒体。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008304598A JP5247384B2 (ja) | 2008-11-28 | 2008-11-28 | 撮像装置、情報処理方法、プログラムおよび記憶媒体 |
| US12/625,441 US8848082B2 (en) | 2008-11-28 | 2009-11-24 | Image capturing apparatus, information processing method and storage medium for estimating a position of a sound source |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008304598A JP5247384B2 (ja) | 2008-11-28 | 2008-11-28 | 撮像装置、情報処理方法、プログラムおよび記憶媒体 |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2010130487A JP2010130487A (ja) | 2010-06-10 |
| JP2010130487A5 JP2010130487A5 (ja) | 2012-01-12 |
| JP5247384B2 true JP5247384B2 (ja) | 2013-07-24 |
Family
ID=42222493
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008304598A Active JP5247384B2 (ja) | 2008-11-28 | 2008-11-28 | 撮像装置、情報処理方法、プログラムおよび記憶媒体 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US8848082B2 (ja) |
| JP (1) | JP5247384B2 (ja) |
Families Citing this family (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4878471B2 (ja) * | 2005-11-02 | 2012-02-15 | キヤノン株式会社 | 情報処理装置およびその制御方法 |
| US8676581B2 (en) * | 2010-01-22 | 2014-03-18 | Microsoft Corporation | Speech recognition analysis via identification information |
| JP5457217B2 (ja) * | 2010-02-02 | 2014-04-02 | オリンパスイメージング株式会社 | カメラ |
| US9031847B2 (en) * | 2011-11-15 | 2015-05-12 | Microsoft Technology Licensing, Llc | Voice-controlled camera operations |
| KR101990037B1 (ko) * | 2012-11-13 | 2019-06-18 | 엘지전자 주식회사 | 이동 단말기 및 그것의 제어 방법 |
| KR20140075997A (ko) * | 2012-12-12 | 2014-06-20 | 엘지전자 주식회사 | 이동 단말기 및 이동 단말기의 제어 방법 |
| JP2014122978A (ja) * | 2012-12-20 | 2014-07-03 | Casio Comput Co Ltd | 撮像装置、音声認識方法、及びプログラム |
| JP2014149457A (ja) * | 2013-02-01 | 2014-08-21 | Sharp Corp | 音声認識装置、電子機器、および音声認識装置の制御プログラム |
| US20140247368A1 (en) * | 2013-03-04 | 2014-09-04 | Colby Labs, Llc | Ready click camera control |
| US20140278415A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Voice Recognition Configuration Selector and Method of Operation Therefor |
| JP6504808B2 (ja) | 2014-12-22 | 2019-04-24 | キヤノン株式会社 | 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体 |
| US20160284349A1 (en) * | 2015-03-26 | 2016-09-29 | Binuraj Ravindran | Method and system of environment sensitive automatic speech recognition |
| JP7206881B2 (ja) * | 2018-12-17 | 2023-01-18 | コニカミノルタ株式会社 | 情報処理装置及びプログラム |
| JP7442331B2 (ja) * | 2020-02-05 | 2024-03-04 | キヤノン株式会社 | 音声入力装置およびその制御方法ならびにプログラム |
| JP2022172840A (ja) * | 2021-05-07 | 2022-11-17 | キヤノン株式会社 | 電子機器、電子機器の制御方法、プログラム、及び記憶媒体 |
Family Cites Families (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS58137828A (ja) | 1982-02-12 | 1983-08-16 | Hiroo Kawashima | 音声作動式シヤツタ−と撮影情報音声通報器 |
| JPH03174132A (ja) * | 1989-09-29 | 1991-07-29 | Konica Corp | カメラ |
| JP3530679B2 (ja) * | 1996-06-14 | 2004-05-24 | キヤノン株式会社 | 接眼検知機能付撮像装置 |
| US6021278A (en) * | 1998-07-30 | 2000-02-01 | Eastman Kodak Company | Speech recognition camera utilizing a flippable graphics display |
| DE19854373B4 (de) * | 1998-11-25 | 2005-02-24 | Robert Bosch Gmbh | Verfahren zur Steuerung der Empfindlichkeit eines Mikrofons |
| JP2001119797A (ja) * | 1999-10-15 | 2001-04-27 | Phone Or Ltd | 携帯電話装置 |
| JP2002111801A (ja) * | 2000-09-28 | 2002-04-12 | Casio Comput Co Ltd | 携帯電話装置 |
| JP2003309746A (ja) * | 2002-04-17 | 2003-10-31 | Minolta Co Ltd | デジタルカメラおよび接眼表示装置 |
| JP2005024792A (ja) * | 2003-06-30 | 2005-01-27 | Nec Saitama Ltd | カメラ付き携帯通信端末 |
| DE10339973A1 (de) * | 2003-08-29 | 2005-03-17 | Daimlerchrysler Ag | Intelligentes akustisches Mikrofon-Frontend mit Spracherkenner-Feedback |
| KR100565309B1 (ko) * | 2003-11-25 | 2006-03-30 | 엘지전자 주식회사 | 캠코더 기능을 가진 이동통신 단말기의 마이크 전환 장치및 방법 |
| JP3904086B2 (ja) * | 2004-02-17 | 2007-04-11 | 日本電気株式会社 | 携帯通信端末 |
| KR100630162B1 (ko) * | 2004-05-28 | 2006-09-29 | 삼성전자주식회사 | 듀얼 엘씨디를 구비한 슬라이딩 타입 휴대용 통신 장치 |
| US7697827B2 (en) * | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
| US8155364B2 (en) * | 2007-11-06 | 2012-04-10 | Fortemedia, Inc. | Electronic device with microphone array capable of suppressing noise |
| US8958848B2 (en) * | 2008-04-08 | 2015-02-17 | Lg Electronics Inc. | Mobile terminal and menu control method thereof |
-
2008
- 2008-11-28 JP JP2008304598A patent/JP5247384B2/ja active Active
-
2009
- 2009-11-24 US US12/625,441 patent/US8848082B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| US8848082B2 (en) | 2014-09-30 |
| US20100134677A1 (en) | 2010-06-03 |
| JP2010130487A (ja) | 2010-06-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5247384B2 (ja) | 撮像装置、情報処理方法、プログラムおよび記憶媒体 | |
| JP6504808B2 (ja) | 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体 | |
| US8411160B2 (en) | Apparatus including function to specify image region of main subject from obtained image, method to specify image region of main subject from obtained image and computer readable storage medium storing program to specify image region of main subject from obtained image | |
| US8384794B2 (en) | Image sensing device and camera | |
| JP5219761B2 (ja) | 撮像装置 | |
| CN114333831A (zh) | 信号处理的方法和电子设备 | |
| JP2009164838A (ja) | 画像処理装置及び方法、及び撮像装置 | |
| CN111988704A (zh) | 声音信号处理方法、装置以及存储介质 | |
| CN111966321A (zh) | 音量调节方法、ar设备及存储介质 | |
| JP7743868B2 (ja) | 撮像装置、音声認識方法、音声認識プログラム | |
| JP2014122978A (ja) | 撮像装置、音声認識方法、及びプログラム | |
| JP2022106109A (ja) | 音声認識装置、音声処理装置および方法、音声処理プログラム、撮像装置 | |
| JP2004301893A (ja) | 音声認識装置の制御方法 | |
| JP5762168B2 (ja) | 撮像装置及び再生装置 | |
| CN104079822B (zh) | 摄像装置、信号处理装置及方法 | |
| JP2011095378A (ja) | 録音装置、撮像装置、および、プログラム | |
| US12581186B2 (en) | Image pickup apparatus, control method for image pickup apparatus, and storage medium capable of easily retrieving desired-state image and sound portions from image and sound after specific sound is generated through attribute information added to image and sound | |
| US12395789B2 (en) | Image pickup apparatus capable of efficiently retrieving subject generating specific sound from image, control method for image pickup apparatus, and storage medium | |
| JP7820782B1 (ja) | 情報処理装置、情報処理プログラム、及び情報処理方法 | |
| JP5736839B2 (ja) | 信号処理装置、撮像装置、及びプログラム | |
| JP2013201642A (ja) | 電子機器 | |
| JP2012155184A (ja) | カメラ、プログラム、記録媒体、およびノイズ除去方法 | |
| JP2003298916A (ja) | 撮影装置、データ処理装置及び方法、プログラム | |
| JP2011124850A (ja) | 撮像装置並びにその制御方法及びプログラム | |
| JP2007096440A (ja) | 撮像装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20100630 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111122 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111122 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121031 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121113 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130111 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130205 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130218 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130312 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130409 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160419 Year of fee payment: 3 |