JP2000222000A

JP2000222000A - 音声認識装置

Info

Publication number: JP2000222000A
Application number: JP11021805A
Authority: JP
Inventors: Akira Yamada; 山田　　晃
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1999-01-29
Filing date: 1999-01-29
Publication date: 2000-08-11

Abstract

(57)【要約】【課題】適切なタイミングで環境ノイズを採取して、
正確な環境ノイズを得ることができる音声認識装置を提
供する。【解決手段】マイクロフォンと、前記マイクロフォン
を作動させるための操作部材と、前記操作部材の第１ス
トロークでオンする第１のスイッチ手段と、前記操作部
材の第１ストロークに続く第２ストロークでオンする第
２のスイッチ手段と、前記第２のスイッチ手段がオンさ
れたときに前記マイクロフォンに入力される信号成分か
ら前記第１のスイッチ手段がオンされたときに前記マイ
クロフォンに入力される信号成分を差し引く演算手段
と、前記演算手段の出力を用いて音声認識動作を実行す
る音声認識手段を有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声を認識する音声
認識装置に関するものである。

【０００２】

【従来の技術】最近のカメラをはじめとする携帯用小型
精密機器や通信機器は高度に電子化され、小型なボディ
サイズにも関わらず非常に多くの機能を備えることが可
能となってきている。しかしながらそれに伴いこれらの
機能を操作するために電子ダイヤル、押し釦、スライド
スイッチ等の操作部材が数多く用いられ、操作方法が判
りづらくなるとともに、限られたカ機器のサイズでは配
置できる操作部材の数には限りがあるため、時には複数
の操作部材を同時に押したり、順次階層的に操作すると
いった複雑で、面倒な操作となってしまっていた。たと
えば小型精密機器の代表であるカメラにおいては従来の
操作方式では複雑で面倒なだけではなく、迅速性が要求
される撮影条件下においてカメラを構えながら操作を行
なうことは困難であるという操作性と速写性との両面で
問題があった。

【０００３】以上のような問題点を解決するために特開
昭64-56428号公報ではカメラの機能を制御する制御機構
において、音声を入力する音声入力手段と、入力された
音声を認識する音声認識手段と、認識結果に対応する制
御内容に基づいてカメラの機能を制御する制御手段を有
する音声入力カメラが提案されている。これによって音
声によって絞り、シャッター速度、動作モード等のカメ
ラの機能を自由に設定できる操作性、連写性の優れたカ
メラを提供しようというものである。

【０００４】

【発明が解決しようとする課題】しかしなから、特開昭
64-56428号公報に開示される音声入力機能を備えた携帯
用小型精密機器や通信機器（以下音声入力機器と略す）
は操作が簡便になる反面、その認識度が正確であること
を要求されるため、機器の操作においていかに精度よく
音声を取り込み、正確に認識を行わせることが出来るか
が音声入力機器を実現する上での課題となっていた。特
にこれらの音声入力機器は室内屋外を問わずいろいろな
環境下で使用されるため、それぞれの騒音環境下でも正
確に操作者の音声を認識することがもっとも重要な課題
となっていた。

【０００５】また、従来においても騒音環境下でも認識
率を高めたいくつかの認識方法が提案されたりしてい
る。たとえば操作者が発生する音声のある領域とない領
域とをある音声レベルのしきい値で分離し、ない領域を
ノイズ成分とし、操作者が発声した音声成分からこのノ
イズ成分を差し引き、それから音声の特徴量を求め、あ
らかじめ登録してあるパターンとと間でマッチング処理
を行う音声認識方法が取られている。しかしながら、正
確にはノイズ成分だけを分離することはできず結果的に
音声認識が不正確になり、操作者に意識させず正確に雑
音だけを取り出すことが必要となっていた。

【０００６】さらに、音声入力用のマイクロホン以外に
環境音を採集するためのマイクロホンを別に持つ音声入
力システムも提案されているが、携帯用小型精密機器や
通信機器においては形状が大きくなり現実的ではない。

【０００７】本発明は上記の問題点に鑑みなされたもの
で、第１の目的は適切なタイミングで環境ノイズを採取
することで、環境ノイズを正確に採取することができる
音声認識装置を提供することにある。

【０００８】第２の目的は音声認識装置自体が環境ノイ
ズの採取が必要かどうかを判断し、必要である場合に
は、自動的に環境ノイズを採取する音声認識装置を提供
することにある。

【０００９】

【課題を解決するための手段】請求項１に記載した発明
は、マイクロフォンと、前記マイクロフォンを作動させ
るための操作部材と、前記操作部材の第１ストロークで
オンする第１のスイッチ手段と、前記操作部材の第１ス
トロークに続く第２ストロークでオンする第２のスイッ
チ手段と、前記第２のスイッチ手段がオンされたときに
前記マイクロフォンに入力される信号成分から前記第１
のスイッチ手段がオンされたときに前記マイクロフォン
に入力される信号成分を差し引く演算手段と、前記演算
手段の出力を用いて音声認識動作を実行する音声認識手
段を有することを特徴としている。

【００１０】請求項２に記載した発明は、マイクロフォ
ンと、使用者の眼が所定の位置にある場合に、前記マイ
クロフォンを作動させる第１のスイッチ手段と、前記使
用者が所定の操作部材を操作した場合に、前記マイクロ
フォンを作動させる第２のスイッチ手段と、前記第２の
スイッチ手段がオンされたときに前記マイクロフォンに
入力される信号成分から前記第１のスイッチ手段がオン
されたときに前記マイクロフォンに入力される信号成分
を差し引く演算手段と、前記演算手段の出力を用いて音
声認識動作を実行する音声認識手段を有することを特徴
としている。

【００１１】請求項３に記載した発明は、マイクロフォ
ンと、使用者の体の部位が所定の位置にある場合に、前
記マイクロフォンを作動させる第１のスイッチ手段と、
前記使用者が所定の操作部材を操作した場合に、前記マ
イクロフォンを作動させる第２のスイッチ手段と、前記
第２のスイッチ手段がオンされたときに前記マイクロフ
ォンに入力される信号成分から前記第１のスイッチ手段
がオンされたときに前記マイクロフォンに入力される信
号成分を差し引く演算手段と、前記演算手段の出力を用
いて音声認識動作を実行する音声認識手段を有すること
を特徴としている。

【００１２】請求項４に記載した発明は、マイクロフォ
ンと、前記マイクロフォンを作動させる第１のスイッチ
手段と、前記マイクロフォンを作動させる第２のスイッ
チ手段と、前記第２のスイッチ手段がオンされたときに
前記マイクロフォンに入力される信号成分から前記第１
のスイッチ手段がオンされたときに前記マイクロフォン
に入力される信号成分を差し引く演算手段と、前記演算
手段の出力を用いて音声認識動作を実行する音声認識手
段を有することを特徴としている。

【００１３】請求項５に記載した発明は、環境ノイズ信
号を検出し、入力される音声信号から前記環境ノイズ信
号を差し引いた信号を用いて音声認識動作を行う音声認
識装置において、前記音声認識装置を使用する空間を撮
像する撮像手段と、前記撮像手段により撮像された画像
が変化したときに、環境ノイズ信号を検出する環境ノイ
ズ検出手段とを有することを特徴としている。

【００１４】請求項６に記載した発明は、環境ノイズ信
号を検出し、入力される音声信号から前記環境ノイズ信
号を差し引いた信号を用いて音声認識動作を行う音声認
識装置において、前記音声認識装置を使用する空間を撮
像する撮像手段と、前記撮像手段により撮像された画像
の輝度が所定値以上変化したときに、環境ノイズ信号を
検出する環境ノイズ検出手段とを有することを特徴とし
ている。

【００１５】請求項７に記載した発明は、環境ノイズ信
号を検出し、入力される音声信号から前記環境ノイズ信
号を差し引いた信号を用いて音声認識動作を行う音声認
識装置において、前記音声認識装置を使用する空間を撮
像する撮像手段と、前記撮像手段により撮像された画像
のデフォーカス量が所定値以上変化したときに、環境ノ
イズ信号を検出する環境ノイズ検出手段とを有すること
を特徴としている。

【００１６】請求項８に記載した発明は、環境ノイズ信
号を検出し、入力される音声信号から前記環境ノイズ信
号を差し引いた信号を参照音声パターンと比較すること
で音声認識動作を行う音声認識装置において、前記信号
と前記参照パターンとの差に基づいて音声認識度の信頼
性を判断する信頼性判断手段と、前記信頼性判断手段に
より音声認識度の信頼性が低いと判断される場合には、
環境ノイズ信号を検出する環境ノイズ検出手段とを有す
ることを特徴としている。

【００１７】

【発明の実施の形態】（第１の実施形態）以下、本発明
の実施の形態を詳細に説明する。

【００１８】図１（A）、（B）、（C）は本発明を携帯
用小型精密機械の一つである一眼レフカメラに適用した
際の実施形態を示す音声入力機能を備えた一眼レフカメ
ラの上面と背面と側面の概要図である。

【００１９】図１において1はカメラ本体、2はレリーズ
釦、3は公知のプログラムAE,シャッター優先AE,絞り優
先AE,被写界深度優先AE,等のAEモードを設定するAEモー
ド設定釦、4は公知のワンショットAF,サーボAF等のAF動
作モードを設定するAFモード設定釦、5は公知の評価測
光,平均測光,部分測光,スポット測光等の測光方式を設
定する測光モード設定釦、6は一般的に電子ダイヤルと
いわれる入力スイッチで、回転するとタイミングの異な
る二つのクリックパルスを発生させることによって前記
3から5で示される設定釦を押してモード設定状態にした
際に、各モードを後述するモニター用LCDに順次表示し
て選択させるものである。

【００２０】9は外部モニター表示装置としてのモニタ
ー用LCDであり、予め決められたパターンを表示する固
定セグメント表示部9ａと可変数値表示用の7セグメント
表示部9ｂからなっている。10はカメラの背蓋で本実施
形態の構成の中心である音声認識部を備えている。

【００２１】11は撮影者が発声する音声を入力する際の
トリガースイッチとなる音声入力釦で、電子ダイヤル6
と同じような構成で背蓋10にも設けられたＡＥ撮影時に
は露出補正段数の設定に用いられるサブ電子ダイヤル12
の回転中心部に設けられている。

【００２２】図２は音声入力釦11のスイッチ部の構成を
示す局部断面図である。このスイッチは押下方向におい
て2段のストロークを持ち2回路をON・OFFする公知の2段
スイッチになっている。キートップ11aを押すとその第
１ストロークでまずその下にあるお椀状の接点バネ21の
外周部22bがまず凹み、スイッチ基板22に設けたGNDパタ
ーン22ｃと後述するSW-NOISEのパターン22bを導通さ
せ、SW-NOISEがONする。

【００２３】さらにキートップ11aを押し下げると、そ
の第２ストロークで接点バネ21の中央部22aが凹み、ス
イッチ基板22に設けたGNDパターン22ｃと後述するSW-VO
ICEのパターン2aを導通させ、SW-VOICEがONする。なお
第１ストロークのばね圧は第２ストロークに対して5〜7
倍程度に後者を重くしておき、かつ第１ストロークは軽
く指を乗せただけでオンする数10ｇ程度に設定するのが
適当である。つまりSW-NOISEは無意識のうちにオンし、
SW-VOICEはかなり意識して押さないとオンしないように
なっている。

【００２４】図１に戻り、13は音声入力機能をＯＦＦす
るポジション、音声認識動作を行う音声認識モード及び
撮影者の音声を予め登録しておくための音声登録モード
の3ポジションを選択する音声モードスイッチ、14は背
蓋10に開けた穴から音声を発生するように構成された小
型のマイクロスピーカー、15は撮影者の音声を取り込む
エレクトレットタイプの小型コンデンサーマイクロフォ
ンである。

【００２５】図３は上記構成の一眼レフカメラに内蔵さ
れた電気的構成を示すブロック図で、図１と同一のもの
は同じ符号を付している。なお図中、二点鎖（Ａ）で囲
まれるブロック図はカメラ本体1に内蔵されているカメ
ラ機能部を、二点鎖線（Ｂ）で囲まれるブロック図は背
蓋10に内蔵されている音声認識部を示している。まず2
点鎖線で囲まれる、カメラ本体1に内蔵されているカメ
ラ機能部を示すブロック図内の構成について説明する。

【００２６】カメラ本体1に内蔵されたマイクロコンピ
ューターである中央処理装置（以下メインＣＰUと記
す）101には自動焦点検出回路102、焦点調節回路103、
測光回路104、シャッター制御回路105、絞り制御回路10
6、モーター制御回路107が接続されている。このメイン
CPU101はまずレリーズ釦2の第１ストロークが押される
と図示しない撮影レンズの焦点状態を検出し、その状態
に基づいて撮影レンズの焦点調整機構を駆動するいわゆ
るAF動作を行わせることから始めて、撮影される被写体
の輝度を測光し、その測光値に基づいて露出値を決定す
る。

【００２７】次にレリーズボタン2のさらなる第２スト
ロークへの押下によって所定のシャッター秒時と絞り値
でシャッターと撮影レンズの絞りを制御し、フィルムに
前記露出値に相当する露光量で露光させ、露光終了後に
フィルムを一駒巻き上げ、シャッターをチャージすると
いう一連のカメラのレリーズシーケンスを実行させるも
のである。

【００２８】SW−1はレリーズ釦2の第１ストロークでオ
ンし、AFと測光を開始させるスイッチ、SW-2はレリーズ
釦2の第２ストロークでオンするレリーズスイッチであ
る。SW-AEMDはAEモード設定釦3に連動するスイッチ、SW
-AFMDはAFモード設定釦4に連動するスイッチ、SW-MEMD
は測光モード設定釦5に連動するスイッチに連動するス
イッチである。

【００２９】SW-DIAL1とSW-DIAL2は電子ダイヤル8内に
設けられたダイヤルスイッチであり、信号入力回路107
のアップダウンカウンタに入力され、電子ダイヤル8の
回転クリック量をカウントする。以上のスイッチの状態
が信号入力回路107に入力され、データバスによってメ
インCPU101に送信される。108はLCDを表示駆動させる公
知の構成からなるLCD駆動回路で、メインCPU101からの
信号に従い、絞り値、シャッター秒時、撮影モード、フ
ィルム枚数等をモニター用LCD9に表示するとともに、絞
り値とシャッター秒時はファインダー内LCD109にも表示
させる。

【００３０】110は主に音声認識処理をつかさどるマイ
クロプロセッサーで、マイクロフォン15から出力された
音声信号はプリアンプ111に入力され、所定ゲインで増
幅されA/D変換器113に送られ、デジタル音声信号に変換
されてマイクロプロセッサー110に送られ、音声認識処
理が行われる。そして音声認識された結果や音声認識動
作状況はデータバスによってメインCPU101に送信され
る。なおマイクロプロセッサー110は音声認識に適した
音量が入力されるようにゲインコントロール112にフィ
ードバック制御がかかる、いわゆるオートゲインコント
ロール（AGC）を行わせる。

【００３１】114は予め撮影者の音声や環境ノイズの音
響的特徴パラメータをメモリーするため、及び音声認識
処理を行うワーキングメモリーとして設けられたRAM、1
15はカメラから発声させる音声データを予め記憶させて
おくROMであり、両者ともメモリーコントローラー116を
介してマイクロプロセッサー110に接続されている。117
はD/A変換器で、ROM115に記憶された音声データをマイ
クロプロセッサー110がメモリーコントローラ116を介し
て呼び出し、この音声データをアナログ音声信号に変換
する。さらにパワーアンプ118で適当な音量になるよう
に増幅され、スピーカー14から記憶された音声が発声さ
れる。SW-VMDは音声モードスイッチ13と連動する3ポジ
ションスイッチ。SW-NOISEは音声入力釦11の第１ストロ
ークでＯＮするノイズ入力スイッチ、SW-VOICEは音声入
力釦11の第２ストロークでＯＮする音声入力スイッチで
ある。

【００３２】一般的に音声認識装置は話者を限定する特
定話者用と話者を限定しない、誰の声でも認識する不特
定話者用とに分類される。特定話者用は使用する特定の
話者に認識系を設定することが出来るため、システムの
負荷が軽くなるとともに高い認識率が期待でき、また言
語にも依存されにくい特性を持っている。

【００３３】しかし認識する語彙を予め発声させ、登録
しておくという操作を使用者に強いるという絶対的な不
便さは避けられない。一方不特定話者用は話者を選ば
ず、すぐに音声認識を動作させることが出来る簡便性は
あるが、認識精度を上げるためには演算装置、メモリー
とも大規模なシステムが必要となってくる。

【００３４】ところでカメラの様な携帯用小型精密機器
というアプリケーションから見ると音声入力を行ないた
い機能はそれほど多くはなく（せいぜい100語彙に収ま
る程度）、また使用者はほとんどの場合一個人に限定さ
れるという特性と小型で低コストであることが絶対条件
であることを考慮すると特定話者でかつ特定語彙を対象
とする音声認識装置が適しているといえる。このような
背景から本発明における音声入力機能を備えた装置の特
徴も特定話者仕様に適したものである。

【００３５】図４はマイクロプロセッサー110を中心と
した音声認識装置で行われる音声認識処理のブロック図
である。マイクロプロセッサー110にディジタル化され
た音声信号が入力されるとスペクトル分析部201は音声
の特徴量を検出するために時系列に一定区間を切り出す
フレーム処理を行い、フーリエ変換によるスペクトル分
析して、その入力スペクトルを求める。雑音除去部202
はRAM114内のノイズパターン記録部203にあらかじめ記
憶されていたノイズスペクトルを読み出し、入力スペク
トルに対してノイズスペクトルを差し引くことによって
認識すべき音声スペクトルを求める、いわゆるスペクト
ルサブトラクション処理を行う。

【００３６】スペクトルサブトラクション方式について
はBoll,IEEE Trans.Vol.Assp-27, No2, April 1979をは
じめとしてそのアルゴリズムについては多くの研究発表
がなされている。

【００３７】特徴量抽出部204は入力された音声スペク
トルの特徴量をフレーム単位で算出する。これには所定
の帯域ごとの音声のパワーや線形予測係数（LPC）、ケ
プストラム係数などの音声の特徴ベクトルを抽出するよ
うに構成されている。

【００３８】RAM114内の参照音声パターン記憶部206は
あらかじめ同じ音声分析系で特徴ベクトルを抽出して登
録されていた参照音声パターン（特徴ベクトル系列）を
格納しており、認識（照合）部205はこの参照音声パタ
ーンと認識すべき音声の特徴ベクトルとのマッチング処
理行う。マッチング計算は参照音声パターンベクトルと
認識すべき音声パターンベクトルとの距離計算として行
われる。

【００３９】この計算アルゴリズムは特徴抽出部の特徴
量に基づきたとえばDP（ダイナミックプログラミング）
マッチング法やHMM（隠れマルコフ）法などの所定の音
声認識アルゴリズムにしたがって照合処理を行う。次の
判定部207にて登録された各参照音声パターンとの距離
の中で最小なものが認識された単語として判定され、認
識結果として出力される。

【００４０】次に本発明の特徴である環境ノイズを考慮
した音声認識装置の具体的な動作について説明する。図
５は音声モードスイッチ13が登録のポジションに有り、
予め撮影者の音声を登録する「登録モード」での動作を
説明するフローチャートである。

【００４１】音声モードスイッチ13が登録のポジション
にあり、VMD-SWが登録側にONしていると301にて「登録
モード」に入る。すると302にての各モード設定釦の何
れかが押されているか、すなわちAEMD-SW,AFMD-SW ,MEM
D-SWがONしているかを検知する。いずれのスイッチもOF
FしていればONするまでこの検出を繰り返す。いずれか
がONしていれば303に進み、モードタイマーがスタート
する。次に304にてモード設定状態の表示をモニター用L
CD9に表示させるとともに撮影者が電子ダイヤル8を回転
することによって所望のモードを選択可能とする（30
5）。

【００４２】この状態の一例を図６で説明する。図６は
測光モード設定釦5が押されたときの固定表示部9ａでの
表示状態を示すもので電子ダイヤル8の右回転、左回転
で図示するように評価測光、部分測光、スポット測光、
平均測光を順次選択し、測光モードを設定できる。ＡＥ
モード設定、ＡＦモード設定においても同様に設定でき
る。

【００４３】このように何れかの撮影モードが選択され
ると次に306にて音声入力釦11の第１ストロークが押さ
れてSW-NOISEがONしているかをマイクロプロセッサー11
0が検出する。OFFしていれば307に進み、モードタイマー
が所定時間経過しているかを調べ経過していれば302に
戻る。経過していなければ304に戻りモード設定表示を
続ける。

【００４４】306にてSW-NOISEがONしていればマイクロ
プロセッサー110は308に進み、ノイズ検出処理をスター
トする。つまりこれ以降の音響を環境ノイズとしてマイ
クロフォン15から取り込む。次にノイズ分析309に進
み、マイクロプロセッサー101のスペクトル分析部201で
取り込まれたデジタル音声信号に対して一定区間を切り
出すフレーム処理を行い、フーリエ変換によるスペクト
ル分析して、所定時間ノイズスペクトルを求める。

【００４５】次に310に進み、マイクロプロセッサー110
は求めたノイズスペクトルから記憶すべきノイズスペク
トルを推定する。これは例えば数フレーム分のスペクト
ルの平均スペクトルを計算するなどして推定する。次に
311に進み、推定されたノイズスペクトルをメモリーコ
ントローラ116を介してノイズパターン記録部203である
RAM114に記憶する。

【００４６】次に312にて音声入力釦11の第２ストロー
クが押されてSW-VOICEがONしているかを検出する。OFF
していれば306に戻り、ONしていれば313にてマイクロプ
ロセッサー110はノイズ検出処理を終了させる。従って3
06〜313までの間で環境ノイズが取得できたことにな
る。なおノイズパターンは所定時間経過で繰り返し検出
されるが、常に最新のノイズパターンに更新されて記憶
している。ノイズ検出終了とともにマイクロプロセッサ
ー110はメインCPU101からカメラのモードの設定内容を
読み込み、314にて撮影者の入力音声の検出をスタート
する。つまりこれ以降の音響を撮影者の音声としてマイ
クロフォン15から取り込む。

【００４７】ここで撮影者は表示されている選択モード
と認識させる入力音声を対応させて登録させるべく、モ
ード名を発声させる。例えば評価測光モード図６（a）
を選択していれば「ひょうか」、図６（ｂ）部分測光モ
ードを選択していれば「ぶぶん」という具合に発声す
る。するとマイクロプロセッサー110は入力された音声
の音声スペクトル分析315に進み、スペクトル分析部201
で取り込まれたデジタル音声信号に対して一定区間を切
り出すフレーム処理を行い、フーリエ変換によるスペク
トル分析して、入力スペクトルを求める。

【００４８】次に316に進み、マイクロプロセッサー110
は雑音除去部202にてこの入力スペクトルに対してノイ
ズパターン記録部203のRAM114から記憶されていたノイ
ズスペクトルを読み出し、入力スペクトルに対してノイ
ズスペクトルを差し引くことによって認識すべき音声ス
ペクトルを求めるノイズ除去を行う。

【００４９】このノイズ除去演算の一例を図７を用いて
説明する。図７(1)〜(3)はいずれもある時間での周波数
とスペクトルの関係をそれぞれマイクから入力された音
声、あらかじめ記憶されているノイズ、およびノイズ除
去演算後の音声すなわち音声認識処理を行うべき音声に
ついてあらわしたものである。

【００５０】ある時間での入力音声のスペクトルパター
ンS1：S11,S12,…S1nは各周波数における周波数スペク
トルを示し、またノイズパターンのスペクトルパターン
N：N1,N2…Nnも入力音声のスペクトルパターンと同様に
示すものである。S1p、S2p、S3p…はそれぞれの時間軸
における入力音声の各周波数帯域でのパワースペクトル
を示し、Npもノイズの各周波数帯域でのパワースペクト
ルを示している。ここで時間軸S1におけるノイズ除去演
算後の結果をS1i'、入力音声のスペクトルパターンをS1
i、ノイズのスペクトルパターンをNiとするとノイズ除
去演算は次式のようにあらわされる。

【００５１】S1i' ＝S1iー（S1p／Np）＊Ni・・…（1）すなわち演算結果は入力音声に含まれるノイズをパワー
スペクトルの比でを乗じたもので推定し、入力音声に対
して引き算をしたものである。

【００５２】次に317に進み、マイクロプロセッサー110
は算出された音声スペクトルパターンにおける特徴量を
フレーム毎に特徴量抽出部204にて算出する。これには
所定の帯域ごとの音声のパワーや線形予測係数（LP
C）、ケプストラム係数などの音声の特徴ベクトルを抽
出するようになされている。例えば線形予測分析処理を
施すことによって線形予測係数を求め、さらにその線形
予測係数からケプストラム係数（LPCケプストラム）を
計算するようになされているものである。これによって
登録すべき音声パターンが生成される。

【００５３】次に318に進み、音声パターンの信頼性判
定が行なわれる。つまり生成された音声パターンが参照
パターンとして登録するのに値するレベルに達している
かを判定する。信頼性が不十分であると判定されると31
9に進み、登録を不可でとし、再度登録動作を行なわせ
るために再入力を勧告する表示を行なう。これはモニタ
ー用LCD9に表示されている設定すべきモード表示部を点
滅させるとともにスピーカー14より「登録できません。
もう一度」と発声させ、撮影者に知らせるものである。

【００５４】そしてこの勧告表示を所定時間行なわせ、
モードタイマーをリセットした後、306に戻り、再度音声
入力SW1が押されるのを待つ。信頼性がOKと判断される
と320に進み、今までに出来ている音声パターンの数が
所定数ｎに達しているかを調べ、達していなければ321
に進み、319と同じくスピーカー14より「もう一度」と
音声で勧告する。勧告後モードタイマーをリセットし30
6へ戻る。所定数ｎに達していれば322に進み登録すべき
参照音声パターンを作成する。これはｎ個の音声パター
ンの平均値や中間値または信頼性が最大の音声パターン
等のいずれかから作成するものである。次に323へ進
み、RAM14の参照音声パターン記録部206に参照音声パタ
ーンとして記憶させ、登録動作が完了する。

【００５５】次に音声入力を実際にカメラに行わせる
「音声認識モード」について説明する。図８はその動作
を説明するフローチャートである。マイクロプロッセッ
サー110は音声モードスイッチ13の状態を検知し、音声
モードスイッチ13が認識のポジションにあり、VMD-SWが
認識側にONしていると401「認識モード」であることを
メインCPU101に通信する。次に402にてカメラの他のス
イッチがONされているかの状態をメインCPU101、マイク
ロプロセッサー110ともに検知し、さらに403にて音声入
力釦11が押されてSW-NOISEがONしているかを検出する。

【００５６】OFFしていれば402に戻り、ONされていれば4
04に進み、ノイズ検出処理をスタートさせる。この404
以降413までのフローチャートの内容は408にてSW-VOICE
がOFFしていた場合は402に戻るシーケンスとなる点が異
なる以外は登録モードの308〜317と全く同じあり、ノイ
ズスペクトル分析処理、ノイズ除去処理、音声特徴量抽
出処理といった一連の音声認識処理を実行するため説明
を省略する。ただ、音声認識装置の動作は同じである
が、撮影者は408にて音声入力釦11の第２ストロークを
押した後には、登録したいモード名を発声するのではな
く、撮影者が予め登録されている語彙の何れか（選択し
たいモード名）を発声することになる。

【００５７】次の414では除去された音声スペクトルパ
ターンの特徴量を抽出して得られた認識すべき音声パタ
ーンと参照音声パターン記憶部206のRAM114に収納され
ている参照音声パターンとのマッチング処理を行う。マ
ッチング計算は前述のように特徴抽出部の特徴量に基づ
きDP（ダイナミックプログラミング）マッチング法やHM
M（隠れマルコフ）法などの所定の音声認識アルゴリズ
ムにしたがって参照音声パターンベクトルと音声パター
ンベクトルとの距離計算として行われる。次に415に進
み判定部207にて登録された各参照音声パターンとの距
離の中で最小なものが認識された単語として判定され、
認識結果として出力される。

【００５８】次に416に進み、音声認識度の信頼性判定
が行なわれる。つまり入力された音声パターンと認識さ
れた参照音声パターンとの距離が所定の基準値よりも小
さいかを判断する。大きければ認識信頼性がないと判断
し、417に進み、再度入力動作を行うように「もう一
度」と音声でスピーカー14から勧告表示を行う。

【００５９】また、あまりにも参照音声パターンとの距
離がかけ離れている場合、何回やっても信頼性が得られ
ない場合などは「登録をやり直して下さい」と音声で勧
告するようにしても良い。距離が小さければ認識信頼性
が充分と判断され、418に進み、マイクロプロセッサー1
10はメインCPU101に認識結果を送信すると、メインCPU1
01は認識結果に対応する撮影モードにカメラの設定を切
り換え、認識結果に対応するモード表示をモニターLCD1
09に表示する。それとともに419に進み、マイクロプロ
セッサー110はROM115に予め撮影モードに対応させて記
憶させておいた標準的な判りやすい音声を発生させ、撮
影者に撮影モードを知らせる。

【００６０】以上で一連の音声入力動作が終了し、撮影
者は音声にて変更した撮影モードでの撮影が可能とな
る。

【００６１】なお、本実施形態においては、音声入力ス
イッチ11を2段クリック式のタクトスイッチで構成した
が、これに限らず時間的にずれてＯＮすることができる
2接点スイッチであればよく、例えば、SW-NOISEをキー
トップ上に適当な間隙を設けた電極を配置し、これに手
が触れると静電容量の変化によって接点をＯＮさせるい
わゆる静電スイッチを用いてもよい。この場合は構成が
タクトスイッチに比べて複雑になるが、撮影者により意
識させることなく、環境ノイズを取得できるメリットが
ある。

【００６２】以上本発明の第１の実施形態によれば、音
声入力スイッチが押される第１ストロークと第２ストロ
ークとの間の時間差を利用して環境ノイズを取得するの
で、撮影者の音声が混じらない雑音成分だけを正確に採
取することができる。

【００６３】また、環境ノイズの採取が実際の操作者の
音声入力の直前であるため、精度よく発生した音声時の
環境ノイズを採取することができる。

【００６４】また、撮影者から見ると音声入力スイッチ
を押すという一連の操作の中で環境ノイズの採取が行わ
れるので、撮影者は特別な操作や設定をすることなく、
無意識のうちに正確に環境ノイズを採取できるといった
効果がある。

【００６５】（第２の実施形態）図９〜11は本発明の第
２の実施形態を示したもので、図９は第１の実施形態の
図１に相当する一眼レフカメラの概要図、図１０は第１
の実施形態の図２に相当する電気的構成を示すブロック
図、図１１は第１の実施形態の認識モードでの動作を示
すフローチャートである。

【００６６】図９において図１との違いは撮影者の目が
ファインダー部にあることを検知する公知の接眼検知機
構を備え、その構成要素である赤外光をファインダー周
辺から発光する赤外発光ダイオード部6とその赤外光の
撮影者からの反射光を受光するフォトトランジスター部
7が追加されていることである。

【００６７】また図１０において図２との違いはSW-NOI
SEが不要となった代わりに接眼検知回路121と前述のIRE
D122及びフォトトランジスタ123からなる接眼検知手段1
20が追加されていることである。

【００６８】このような構成において第２実施形態の音
声認識装置の動作を説明すると、図１１において図８と
の違いはステップ403における「ノイズ入力スイッチ＝
ＯＮ」の判定の代わりにステップ503「接眼検知」の判
定が入ったものである。この503においてメインＣＰＵ1
01は赤外光をファインダー周辺の赤外発光ダイオード部
6から赤外光を発光させ、その赤外光の撮影者からの反
射光をフォトトランジスター部7で受光させる。そして
所定の強度以上の反射光が検出されたら、撮影者がファ
インダーに接眼していると検知し、所定の強度以下の場
合は離眼しているものと判断するとともに接眼した場合
はその旨マイクロプロセッサー110に送信する。

【００６９】マイクロプロセッサー110はこの通信を受
けてOFFしていれば502に戻り、ONされていれば504に進
み、ノイズ検出処理をスタートさせる。

【００７０】以下、504以外のシーケンス、すなわち501
〜502、504〜519は第１の実施形態の401〜402、404〜41
9と同じであるので省略する。

【００７１】なお、本実施形態においては認識モードの
おいての場合を説明したが、登録モードに置いてもモー
ドに置いても全く同じように適用される。

【００７２】以上、本発明の第２の実施形態によれば、
撮影者の接眼動作によって環境ノイズを取得するので撮
影者にはまったく環境ノイズを取得していることを意識
させないですむことができる。

【００７３】また、実際の音声入力までの間に十分な時
間が取れるので、ノイズ処理時間に十分な時間をかけら
れるとともに第１の実施形態の場合に撮影者が音声入力
ボタンを押す前にすでに発声してしまう場合でも環境ノ
イズを正確に処理できるといった効果がある。

【００７４】（第３の実施形態）図１２は本発明の第三
の実施形態のカメラにおけるカメラ動作シーケンスを示
したもので、カメラシーケンス上でのノイズ検出動作を
示したフローチャートである。

【００７５】カメラの電源を入れる（601）と次の602に
てレリーズ釦2が半押しされてSW1がＯＮしているかを検
知し、OFFしていればこの検出を繰り返す、ONした時点
で603に進み、自動焦点検出回路102が撮影される被写体
に対する撮影レンズのピントを検出し、AF動作を行わせ
るとともに測光回路104が撮影される被写体の輝度を測
光し、その測光値に基づいて露出値を決定する。

【００７６】次に604にてレリーズ釦2がさらに押されSW
2がONしているかを検知し、ONしていれば605に進み、シ
ャッター制御回路105、絞り制御回路106、モーター制御
回路107によって公知のカメラのレリーズシーケンスを
実行し、次の操作に備えてリターンする。OFFしていれ
ば606に進み、測光値が所定値以上変化しているかどう
かを検出する。

【００７７】これは所定値以上測光値が変化している
（例えば測光値が3〜4段以上違うような場合）と撮影者
のおかれた環境が変化している可能性があり、それによ
って環境ノイズも変化している可能性があると判断する
ものである。変化していなければ607に進み、変化して
いれば608に進みノイズ検出をスタートさせる。

【００７８】607では撮影レンズのピントのずれ量が所
定値以上変化しているかどうかを検出する。これは所定
値以上ピントのずれ量が所定値以上変化している（例え
ば数メートルの位置でのピントが急に至近や無限遠にな
った場合）と撮影者のおかれた環境が606の場合と同じ
く変化している可能性があり、それによって環境のいず
も変化している可能性があると判断するものである。変
化していれば608に進み、ノイズ検出をスタートさせ、
変化していなければ602に戻る。つまり自動焦点検出回
路102と測光回路104で被写体輝度の変化やピントの変化
のいずれかが大きい時には再度ノイズ検出を行うシーケ
ンスとなっている。

【００７９】ここで608以降のノイズ検出の動作は第１
の実施形態の図５の説明でなされた動作と同じである。
従って608〜611は308〜311と同じであるため、説明を省
略する。611でノイズスペクトルがノイズパターンとし
て記憶されると612へ進み、所定回のノイズ検出された
のを確認した後ノイズ検出を終了させる。次に音声入力
釦11が押されて音SW-VOICEがONしているかを検出し、OF
Fしていれば602に戻り、ＯＮしていれば614に進み、音
声検出をスタートさせ、撮影者が発声した音声を認識処
理する。すでにこの認識処理については説明をしている
ので省略する。

【００８０】以上、本発明の第３の実施形態によれば、
撮影する被写体の輝度の変化やピントのずれ量がかなり
大きいと検知された場合に環境が変化した可能性が高い
と判断し、環境ノイズを取得するので撮影者にはまった
く環境ノイズを取得していることを意識させないですむ
ことができ、また検出するための新たなコストを発生さ
せることがない。

【００８１】また、実際の音声入力までの間に十分な時
間が取れるので、ノイズ処理時間に十分な時間をかけら
れ環境ノイズを正確に処理できるといった効果がある。

【００８２】しかしながら、必ずしも環境ノイズが変わ
った時に再度環境ノイズを採取するわけではないため、
第２の実施形態との併用が適当である。

【００８３】（第４の実施形態）図１３は本発明の第４
の実施形態のカメラにおける認識モードでの動作を示す
フローチャートで第１の実施形態の認識モードとおなじ
動作であるものはそのほとんどを省略している。

【００８４】具体的には第４の実施形態は図８の第１の
実施形態の音声認識モードでのフローチャートにおける
信頼性判定416でＮＧとなった場合以降の動作について
さらに改良をしたものである。なお同じ動作をするもの
はそのままのステップ番号を適用している。

【００８５】図８で第１の実施形態の説明と同じように
音声認識動作が進み、415にて単語判定がなされると次
に420に進み、音声認識度の信頼性判定が行なわれ、入
力された音声パターンと認識された参照音声パターンと
の距離が所定の基準値よりも小さいかを判断する。

【００８６】大きければ認識信頼性がないと判断し、42
1に進み、距離が小さければ認識信頼性が充分と判断さ
れ、418に進み、認識結果に対応する撮影モードにカメ
ラの設定を切り換え、それとともに419に進み、予め撮
影モードに対応させて記憶させておいた標準的な判りや
すい音声を発生させる。

【００８７】421で認識結果が信頼性がない＝ＮＧとさ
れた回数が所定回数Nを満たしていれば417に進み、第１
の実施形態と同じく再入力勧告表示を行い、408に戻
る。所定回数Nを満たしていなければ422に進み、再度環
境ノイズを採取する動作にかかり、ノイズ分析を行い、
更に423に進み、ノイズスペクトル推定を行う。これら
は第１の実施形態の405と406と同じである。次に424に
進み、新しく推定されたノイズスペクトルに更新する
か、または今まで用いていたノイズスペクトルとで新し
いノイズスペクトルを作成する。

【００８８】ここでは単純に平均化したり、もっとも新
しいノイズスペクトルの重みづけを高くし、古いノイズ
スペクトルは順次重みづけを低くするというような重み
づけや、それまでのノイズスペクトルに対して変化の大
きいものは重みづけを高くすると言った重みづけをおこ
なう、いわゆる加重平均で新しいノイズスペクトルを作
成するといったノイズスペクトルの学習がなされる。つ
まり単純に新しいノイズパターンに置き換えるのではな
く前回までの環境ノイズも考慮して新しいノイズパター
ンを作成することになる。

【００８９】次に425に進み、新たに作られたノイズス
ペクトルを記憶すると、410に戻り、再度新しいノイズ
パターンを用い音声認識を行わせる。つまり音声認識結
果後に再度ノイズを採取し、撮影者に再度音声を発生さ
せることなく、音声認識を行わせるものである。

【００９０】以上、本発明の第４の実施形態によれば、
入力された音声認識の結果が所定の信頼性より低ければ
再度環境ノイズだけを取り込み、再度音声認識動作を行
わせるので認識率が向上するとともに認識結果がＮＧ
でも撮影者に再度音声の発声をさせるようなことを減ら
すことができるとともに環境ノイズを学習することでよ
り撮影者が置かれた環境に即したノイズパターンを作成
することができる。

【００９１】なお、本実施形態においては認識結果の信
頼性が低い場合の動作を示したが、認識結果が不定とな
る場合も同じである。

【００９２】また、本発明の実施形態は、一眼レフカメ
ラに適用した例を述べているが、ビデオカメラや電子ス
ティルカメラなどの種々の形態の撮像装置、さらにはカ
メラ以外の携帯用小型精密機器やその他の装置に対して
も適用できるものである。

【００９３】

【発明の効果】以上、説明したように本発明によれば、
適切なタイミングで環境ノイズを採取することで、環境
ノイズを正確に採取することができ、音声認識装置の認
識率を向上させることができる。また、音声認識装置自
体が環境ノイズの採取が必要かどうかを判断し、必要で
ある場合には、自動的に環境ノイズを採取するので、使
用者は環境ノイズ採取のための特別な操作を行う必要が
なく、音声認識装置の操作を簡便化することができると
ともに、音声認識装置の認識率を向上させることができ
る。

【図面の簡単な説明】

【図１】本発明の実施形態における一眼レフカメラの上
面、背面、および側面図。

【図２】図１の音声入力釦のスイッチ部の構成を示す要
部断面図。

【図３】図１のカメラの電気的構成を示すブロック図。

【図４】図１のカメラの音声認識処理のブロック図。

【図５】図１のカメラの登録モードの動作を示すフロー
チャート。

【図６】図１のカメラの測光モード設定での表示状態を
示すフローチャート。

【図７】図１の音声認識装置が行なうノイズ除去演算を
説明する図。

【図８】図１のカメラの認識モードでの動作を示すフロ
ーチャート。

【図９】本発明の第２の実施形態における一眼レフカメ
ラの上面、背面、および側面図。

【図１０】図９のカメラの電気的構成を示すブロック
図。

【図１１】図９のカメラの認識モードでの動作を示すフ
ローチャート。

【図１２】本発明の第３の実施形態における一眼レフカ
メラにおけるカメラ動作シーケンス上でのノイズ除去動
作を示すフローチャート。

【図１３】本発明の第４の実施形態のカメラにおける認
識モードでの動作を示すフローチャート。

【符号の説明】

５測光モード設定釦１１音声入力釦１３音声モードスイッチ１４スピーカー１５マイクロフォン１０１メインＣＰＵ１０２自動焦点検出回路１０４測光回路１１０マイクロプロセッサー１２０接眼検知手段２０１スペクトル分析部２０２雑音除去部２０４特徴量抽出部２０５認識（照合）部２０６判定部

Claims

【特許請求の範囲】

【請求項１】マイクロフォンと、前記マイクロフォンを作動させるための操作部材と、前記操作部材の第１ストロークでオンする第１のスイッ
チ手段と、前記操作部材の第１ストロークに続く第２ストロークで
オンする第２のスイッチ手段と、前記第２のスイッチ手段がオンされたときに前記マイク
ロフォンに入力される信号成分から前記第１のスイッチ
手段がオンされたときに前記マイクロフォンに入力され
る信号成分を差し引く演算手段と、前記演算手段の出力を用いて音声認識動作を実行する音
声認識手段を有することを特徴とする音声認識装置。
【請求項２】マイクロフォンと、使用者の眼が所定の位置にある場合に、前記マイクロフ
ォンを作動させる第１のスイッチ手段と、前記使用者が所定の操作部材を操作した場合に、前記マ
イクロフォンを作動させる第２のスイッチ手段と、前記第２のスイッチ手段がオンされたときに前記マイク
ロフォンに入力される信号成分から前記第１のスイッチ
手段がオンされたときに前記マイクロフォンに入力され
る信号成分を差し引く演算手段と、前記演算手段の出力を用いて音声認識動作を実行する音
声認識手段を有することを特徴とする音声認識装置。
【請求項３】マイクロフォンと、使用者の体の部位が所定の位置にある場合に、前記マイ
クロフォンを作動させる第１のスイッチ手段と、前記使用者が所定の操作部材を操作した場合に、前記マ
イクロフォンを作動させる第２のスイッチ手段と、前記第２のスイッチ手段がオンされたときに前記マイク
ロフォンに入力される信号成分から前記第１のスイッチ
手段がオンされたときに前記マイクロフォンに入力され
る信号成分を差し引く演算手段と、前記演算手段の出力を用いて音声認識動作を実行する音
声認識手段を有することを特徴とする音声認識装置。
【請求項４】マイクロフォンと、前記マイクロフォンを作動させる第１のスイッチ手段
と、前記マイクロフォンを作動させる第２のスイッチ手段
と、前記第２のスイッチ手段がオンされたときに前記マイク
ロフォンに入力される信号成分から前記第１のスイッチ
手段がオンされたときに前記マイクロフォンに入力され
る信号成分を差し引く演算手段と、前記演算手段の出力を用いて音声認識動作を実行する音
声認識手段を有することを特徴とする音声認識装置。
【請求項５】環境ノイズ信号を検出し、入力される音
声信号から前記環境ノイズ信号を差し引いた信号を用い
て音声認識動作を行う音声認識装置において、前記音声認識装置を使用する空間を撮像する撮像手段
と、前記撮像手段により撮像された画像が変化したときに、
環境ノイズ信号を検出する環境ノイズ検出手段とを有す
ることを特徴とする音声認識装置。
【請求項６】環境ノイズ信号を検出し、入力される音
声信号から前記環境ノイズ信号を差し引いた信号を用い
て音声認識動作を行う音声認識装置において、前記音声認識装置を使用する空間を撮像する撮像手段
と、前記撮像手段により撮像された画像の輝度が所定値以上
変化したときに、環境ノイズ信号を検出する環境ノイズ
検出手段とを有することを特徴とする音声認識装置。
【請求項７】環境ノイズ信号を検出し、入力される音
声信号から前記環境ノイズ信号を差し引いた信号を用い
て音声認識動作を行う音声認識装置において、前記音声認識装置を使用する空間を撮像する撮像手段
と、前記撮像手段により撮像された画像のデフォーカス量が
所定値以上変化したときに、環境ノイズ信号を検出する
環境ノイズ検出手段とを有することを特徴とする音声認
識装置。
【請求項８】環境ノイズ信号を検出し、入力される音
声信号から前記環境ノイズ信号を差し引いた信号を参照
音声パターンと比較することで音声認識動作を行う音声
認識装置において、前記信号と前記参照パターンとの差に基づいて音声認識
度の信頼性を判断する信頼性判断手段と、前記信頼性判断手段により音声認識度の信頼性が低いと
判断される場合には、環境ノイズ信号を検出する環境ノ
イズ検出手段とを有することを特徴とする音声認識装
置。