JPH096383A

JPH096383A - 音声認識装置および方法

Info

Publication number: JPH096383A
Application number: JP7157456A
Authority: JP
Inventors: Hiroki Ikuta; 弘樹生田
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 1995-06-23
Filing date: 1995-06-23
Publication date: 1997-01-10

Abstract

(57)【要約】【目的】容易かつ確実に音声識別を行なうことが可能
な音声識別送装置の提供を目的とする。【構成】予め定められた音声群の中から選ばれた音声
を入力手段３０に入力すると、特徴抽出手段３１は入力
された音声の特徴を抽出する。抽出された音声の特徴
は、処理手段４０を介して特徴記憶手段３５に記憶され
る。入力手段３０に音声が入力された後、所定の時間内
に次の音声が入力された場合、処理手段４０は登録モー
ドとして動作し、そうでない場合には動作モードとして
動作する。処理手段４０は、登録モード時に入力された
音声に基づいて特徴記憶手段３５に入力音声の特徴を登
録し、動作モード時には、入力された音声を特徴記憶手
段３５に記憶された各音声の特徴と比較し、合致する音
声に対応する処理を行なう。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置および音
声認識方法に関し、特に認識の容易化、確実化に関す
る。

【０００２】

【従来の技術】人間の音声を認識する音声認識装置に
は、特定の言葉であれば誰の音声でも認識する不特定話
者型と、予め学習を行なって記憶した人の特定の音声だ
けを認識する特定話者型がある。

【０００３】これらは、いずれも入力された音声を分析
し、分析した音声の特徴を抽出する。音声の特徴を抽出
した後、今度は抽出した音声の特徴を予め記憶させた標
準（特定）パターンと比較し、入力された音声の特徴と
標準（特定）パターンが合致しているか否かで音声を認
識する。

【０００４】したがって、不特定話者型の音声認識装置
においては、予め特定の人の音声を学習することなく音
声を認識することができ、特定話者型の音声認識装置に
おいては、特定の人の音声だけを認識することにより、
正確に音声を認識することができる。

【０００５】

【発明が解決しようとする課題】しかしながら、従来の
音声認識装置には、次のような問題があった。不特定話
者型の音声認識装置においては、不特定の人の音声を認
識することから、個人間で差異のある発音等が原因とな
り正確な音声認識をすることができない場合があった。
したがって、話者の望む処理を行なうことが出来ない場
合や望んでいない処理がなされるという問題があった。

【０００６】他方、特定話者型の音声認識装置におい
て、特定話者を変更したい場合がある。この場合には、
音声認識とは別に特定話者の音声を学習（登録）させな
ければならず、これには音声登録専用の装置が必要であ
る。このように、音声の登録だけのために専用の装置が
必要となるため、特定話者を変更するのは現実的に不可
能に近いという問題があった。例えば、一旦特定話者の
音声を登録しても、特定話者が風邪等、学習時の声と異
なる場合に、専用装置を有していないために改めて特定
話者の音声を登録できず、正確な音声認識できないとい
う問題もあった。

【０００７】そこで、本発明は、容易かつ確実に音声認
識を行なうことが可能な音声認識送装置および音声認識
方法の提供を目的とする。

【０００８】

【課題を解決するための手段】

【０００９】

【課題を解決するために案出した技術思想】容易かつ確
実に音声認識を行なうことが可能な音声認識装置および
音声認識方法を提供するために、所定時間内に所定の音
声が複数回入力された場合には登録モードとして入力さ
れた複数の音声に基づき新たな音声を登録し、そうでな
い場合に動作モードとして入力音声を、記憶された各音
声の特徴と比較して合致する音声に対応する処理を行な
う。

【００１０】すなわち、請求項に記載した発明の構成を
示す第１図に記載しているように、請求項１の音声認識
装置は、予め定められた音声群の中から選ばれた音声を
入力するための入力手段３０、入力された音声の特徴を
抽出する特徴抽出手段３１、処理の種類ごとに少なくと
も一の音声の特徴を記憶する特徴記憶手段３５、入力手
段に音声が入力され、当該音声に続いて所定の時間内に
１以上の音声が入力された場合は、登録モードとして動
作し、そうでない場合には動作モードとして動作する処
理手段４０を備えた音声認識装置であって、前記処理手
段４０は、登録モード時には、前記音声および次の音声
に基づき前記特徴記憶手段３５に当該音声の特徴を登録
し、動作モード時には、入力された音声を前記特徴記憶
手段３５に記憶された各音声の特徴と比較し、合致する
音声に対応する処理を行なうことを特徴とする。

【００１１】請求項２の音声認識装置は、請求項１の音
声認識装置において、前記特徴記憶手段３５には、処理
の種類ごとに少なくとも一の音声の特徴が記憶されてお
り、前記処理手段４０は、登録モード時に前記特徴記憶
手段３５に入力された音声に対応する処理を行なう音声
のうち入力音声に対応する処理の行なわれた日が最も古
い音声の特徴に代えて入力された音声の特徴を登録する
ことを特徴とする。

【００１２】請求項３の音声認識方法は、予め定められ
た音声群の中から選ばれた音声を入力し、入力された音
声の特徴を抽出し、処理の種類ごとに少なくとも一の音
声の特徴を記憶しておき、音声が入力され、当該音声に
続いて所定の時間内に１以上の次の音声が入力された場
合は、登録モードとして動作し、そうでない場合には動
作モードとして動作する音声認識方法であって、登録モ
ード時には、前記音声および次の音声に基づき当該音声
の特徴を登録し、動作モード時には、入力された音声を
記憶された各音声の特徴と比較し、合致する音声に対応
する処理を行なうことを特徴とする。

【００１３】請求項４の音声認識方法は、請求項３の音
声認識方法において、処理の種類ごとに二以上の音声の
特徴を記憶しておき、登録モード時には、入力された音
声に対応する処理を行なう音声のうち入力音声に対応す
る処理の行なわれた日が最も古い音声の特徴に代えて入
力された音声の特徴を登録することを特徴とする。

【００１４】

【用語の定義】課題を解決するために案出した技術思想
を表現する請求項での用語の概念を、次の通り定義する
とともに、その用語と実施例との関係を説明する。

【００１５】「特徴抽出部」：入力された音声信号の特
徴量を抽出する手段をいう。特徴量としては、音声認識
に用いるケプストラム、スペクトル等がある。本実施例
においては、デジタル音声信号を、所定フレームに区切
り、ウインドウ処理を行なった後、ＦＦＴを行なうこと
により、図６Ｂに示すようなパワー（振幅）と周波数成
分に変換する。ＦＦＴ変換後のデジタル音声信号をケプ
ストラム軸に変換する為、逆ＦＦＴ（ＦＦＴと逆の処
理）を行ない、さらにケプストラムの低次のワードを音
声の特徴量として抽出する。

【００１６】

【作用】請求項１に係る音声識別装置および請求項３の
音声識別方法は、所定の音声が複数回入力された場合
は、登録モードとして動作し、そうでない場合には動作
モードとして動作する。登録モード時には、複数回入力
された音声に基づき当該音声の特徴を登録し、動作モー
ド時には、入力された音声を記憶された各音声の特徴と
比較し、合致する音声に対応する処理を行なう。したが
って、所定時間内に所定の音声を複数回入力するだけ
で、発声者の音声の特徴が登録され、そうでない場合に
は、入力された音声の特徴を、記憶された各音声の特徴
と比較し、合致する音声に対応する処理を行なう。

【００１７】請求項２及び請求項４に係る音声識別装置
および音声識別方法は、処理の種類ごとに少なくとも一
の音声の特徴が記憶されており、登録モード時に入力さ
れた音声に対応する処理を行なう音声のうち入力音声に
対応する処理の行なわれた日が最も古い音声の特徴に代
えて入力された音声の特徴を登録する。したがって、入
力音声に対応する処理が最近行なわれた発声者の音声の
特徴のみが記憶される。

【００１８】

【実施例】本発明に係る音声認識装置の一実施例につい
て以下に説明する。図２に、本実施例の音声認識装置の
構成を示す。この音声認識装置１００は、音声入力手段
である音声入力部３０、特徴抽出手段としての特徴抽出
部３１、特徴記憶手段である特徴量記憶部３２、不特定
話者用標準パターン記憶部３３および特定話者用学習パ
ターン記憶部３４、処理手段としての照合部３８、連続
単語検出部３７および発話ー発話時間測定部３６を備え
ている。

【００１９】図３に、図２に示す音声識別装置１００を
ＣＰＵを用いて実現したハードウェア構成を示す。ここ
でのハードウェアは、マイクロフォン２８、Ａ／Ｄ変換
器２９、ＲＡＭ３４、ＲＯＭ３３、ＣＰＵ４０およびタ
イマー３６を備えており、各部はバスライン３９により
接続されている。

【００２０】なお、図３のハードウェアは、図２に示す
音声識別装置１００と、以下のように対応する。マイク
ロフォン２８およびＡ／Ｄ変換器２９は、音声入力部３
０に対応し、ＲＡＭ３４が特徴量記憶部３２に対応す
る。また、ＲＯＭ３３は、不特定話者用標準パターン記
憶部３４に、特徴量抽出部３１、照合部３８および連続
単語検出部３７は、ＣＰＵ４０に、発話ー発話時間測定
部３６は、タイマーにそれぞれ対応する。

【００２１】次に、このような音声識別装置１００の動
作について説明する。図４および図５に、ＲＯＭ３３内
に記憶された音声識別装置１００の動作プログラムを示
すフローチャートを示す。なお、ＣＰＵ４０は、この動
作プログラムに基づき各部の動作を制御する。

【００２２】操作者は、操作に必要な予め定められた音
声の中から、所望の操作を行なうために、所定の音声を
入力する（図４、ステップＳ１０）。なお、本実施例に
おいては、音声識別装置１００を用いて電気製品の操作
（制御）を行なうため、操作者が“オン”を入力する場
合を考える。操作者が、所定音声中の“オン”を発声す
ると、この音声は、マイクロフォン２８を介して入力さ
れ、Ａ／Ｄ変換器２９によりデジタル音声信号に変換さ
れる。変換されたデジタル音声信号は、バスライン３９
を通じてＣＰＵ４０に入力される（図３）。

【００２３】ＣＰＵ４０は、入力されたデジタル音声信
号の特徴量を抽出する（図４、ステップＳ１２）。以下
に、ＣＰＵ４０におけるデジタル音声信号の特徴量の抽
出について簡単に説明する。ＣＰＵ４０に入力されたデ
ジタル音声信号は、図６Ａに示すように、所定間隔でフ
レームＦＲ１、ＦＲ２…ＦＲｎの複数フレームに区切ら
れる。ちなみに、本実施例に於ける１つのフレーム間隔
は、約２５．６ｍ秒である。

【００２４】フレームに区切られたデジタル音声信号
は、ウインドウ処理された後、ＦＦＴ（Ｆast Fourier
Transformation)が行なわれる。デジタル音声信号は、
ＦＦＴにより、図６Ｂに示すように周波数ごとのパワー
（振幅）に変換される。なお、図６Ｂは、フレームＦＲ
１のＦＦＴ変換後の信号を示し、このような変換はフレ
ームＦＲｎまでの全てのフレームについて行なわれる。

【００２５】なお、上述のウィンドウ処理とは、フレー
ム毎に区切られ処理されるデジタル音声信号の各フレー
ム両端での重みづけを軽くすることにより、ＦＦＴ変換
におけるフレーム両端部でのディジタル信号の乱れを小
さくする処理をいう。また、ＦＦＴとは、フーリエ変換
の一つで、音声認識の前処理として行なわれるディジタ
ル音声信号のスペクトルを直接的に計算する方法をい
う。

【００２６】次に、ＦＦＴ変換後のデジタル音声信号を
ケプストラム成分に変換する為、対数スペクトルの逆Ｆ
ＦＴ（ＦＦＴと逆の処理）を行なう。さらに、逆ＦＦＴ
変換後のケプストラム成分から低次の１６ワードを音声
の特徴量として抽出する。図６Ｃに、こうして抽出され
た入力音声の特徴量としてのケプストラム列の一部を示
す。

【００２７】ここで、ケプストラムとは、ＦＦＴによっ
て計算されたスペクトル（図６Ｂ）を、平滑化するため
の方法であって、対数スペクトルの逆フーリエ変換をい
う。

【００２８】こうして抽出した入力音声の特徴量と特定
話者用学習パターンを照合する（図４、ステップＳ１
４）。図７に、本実施例の特定話者用学習パターン３６
Ｔの一部を示す。特定話者用学習パターン３６Ｔには、
各操作音声の特徴量が処理の種類ごとに（オン、オフ
等）一列に記憶されている。なお、これらの操作音声
は、各列ごとに、入力音声に対応する処理が最近行なわ
れた音声の特徴量を最も下方に記憶し、該処理の行なわ
れた日が最も古い音声を上方（１行目）に記憶するよう
にしている。

【００２９】ステップＳ１４においては、上記のように
抽出された入力音声の特徴量と、特定話者用学習パター
ン３６Ｔに記憶された各操作音声の特徴量を照合する。
ここでは、入力音声の特徴量と特定話者用学習パターン
３６Ｔの各操作音声の特徴量との距離（ユーグリッド距
離）をＤＰマッチング法により照合する。

【００３０】ここで、ユーグリッド距離とは、ケプスト
ラムの各列を空間軸とする多次元空間における距離であ
る。また、ＤＰマッチング法とは、入力音声と比較する
音声との間で生じる間隔の違いを考慮しつつ、入力音声
と比較する音声の識別を行なうためのアルゴリズムをい
い、ここでは、入力音声と比較する音声が最もよく一致
するように時間軸を変換した後のユーグリッド距離を求
める方法を言う。

【００３１】以下に、ＤＰマッチング法による入力音声
と特定話者用学習パターンの照合について説明する。図
８に、入力音声“オン”のケプトラム列、特定話者用学
習パターン内の“オン”４行目のケプトラム列および両
者をＤＰマッチングした際のユーグリッド距離を示す。
なお、入力音声のケプストラム列のフレーム数は、“オ
ン”の４行目のケプトラム列のフレーム数よりも多いの
で、入力音声のケプストラム列を基準としてＤＰマッチ
ングを行なう。

【００３２】入力音声と特定話者用学習パターンのＤＰ
マッチングを行なう場合、まず両者の最初のケプストラ
ム列（フレームＦＲ１）同士を比較し、両ケプストラム
間のユーグリッド距離を算出する。ここでのフレームＦ
Ｒ１間のユーグリッド距離は、１．５である。次に、入
力音声のケプストラム列のフレームＦＲ２と特定話者用
学習パターンのフレームＦＲ１及びフレームＦＲ２との
比較を行ない、最も小さいユーグリッド距離のパス（経
路）を算出する。ここでの、最小ユーグリッド距離は、
入力音声のフレームＦＲ２と特定話者用学習パターンの
フレームＦＲ２間の１．８であるとする。

【００３３】次に、入力音声のフレームＦＲ３と特定話
者用学習パターンのフレームＦＲ１、フレームＦＲ２及
びフレームＦＲ３との比較を行ない、最も小さいユーグ
リッド距離の経路を算出する。ここでの最小ユーグリッ
ド距離は、入力音声のフレームＦＲ３と特定話者用学習
パターンのフレームＦＲ３間の２．０であるとする。

【００３４】このように、入力音声のケプストラム列の
フレームＦＲ３からＦＲ１３までは、入力音声のケプス
トラム列のフレームを一つずつずらして行き、該フレー
ムに対向する特定話者用学習パターンのフレーム及びそ
の二つ前までの特定話者用学習パターンのフレームとの
比較を行なう。また、入力音声のケプストラム列のフレ
ームＦＲ１４は、特定話者用学習パターンのフレームＦ
Ｒ１１及びＦＲ１２との比較を行ない、入力音声の最後
のフレームＦＲ１５は、特定話者用学習パターンの最後
のフレームＦＲ１３のみと比較を行なってユーグリッド
距離を算出する。

【００３５】こうして、算出（図示）した最小ユーグリ
ッド距離を合計し、平均値を求める。ここでの、ユーグ
リッド距離の合計は、２９．４となり、これをユーグリ
ッド距離を求めた経路の数である１５で除算すると、
１．９６となる。すなわち、入力音声のケプストラム列
と特定話者用学習パターンの“オン”のケプストラム列
のユーグリッド距離の平均値は、１．９６である。

【００３６】上記と同様のＤＰマッチングが、入力音声
と特定話者用学習パターン３６Ｔ内に記憶されている全
ての操作音声との間で、行なわれる。なお、入力音声の
ケプストラム列のフレーム数が、特定話者用学習パター
ンのケプストラム列のフレーム数よりも短い場合は、ケ
プストラム列のフレーム数が長い特定話者用学習パター
ンのフレームを一つずつずらして上記のマッチングを行
なう。

【００３７】ＤＰマッチングの終了後、入力音声の特徴
量が特定話者用学習パターンの何れかに合致するか否か
を判断する（図４、ステップＳ１６）。ここで、入力音
声と特定話者用学習パターンのいずれかの操作音声との
ユーグリッド距離の平均値が、所定の基準値（例えば、
１．５）内であれば、入力音声は、該操作音声と判断さ
れ、その入力音声に対応する処理（操作）を行なう処理
信号を出力する（図４、ステップＳ１７）。なお、ここ
では、いずれの入力音声と操作音声のユーグリッド距離
の平均値も所定の基準値内にないと仮定する。

【００３８】ステップＳ１６において、特定話者用学習
パターン３６Ｔ内に入力音声の特徴量と合致する特徴量
を有する操作音声が記憶されていなかった場合は、入力
音声の特徴量と不特定話者用標準パターンを照合する
（図４、ステップＳ１８）。図９に、本実施例の不特定
話者用標準パターン３４Ｈの一部を示す。不特定話者用
標準パターン３４Ｈには、一般の人が“オン”“オフ”
等の操作音声を発声した場合の標準的な音声の特徴量
が、各音声の種類と関連づけられ記憶されている。

【００３９】入力音声の特徴量と不特定話者用標準パタ
ーン３４Ｈの照合は、ステップＳ１４と同様に、ＤＰマ
ッチング法で行なわれる。すなわち、最初の入力音声と
不特定話者用標準パターン３４Ｈに記憶された全ての標
準パターンのＤＰマッチングを行なう（図８参照）。な
お、本実施例においては、ＤＰマッチングによって算出
されたユーグリッド距離の平均値のうち、平均値が所定
の基準値（例えば２．０）以下の標準パターンを候補パ
ターンとして用いる。ここでは、入力音声と標準パター
ン“オン”のユーグリッド距離の平均値だけが前記基準
値以下（例えば１．９５）であったと仮定する。

【００４０】最初の入力音声と不特定話者用標準パター
ン３４Ｈの各標準パターンのＤＰマッチング後、入力音
声の特徴量および入力音声と不特定話者用標準パターン
との適合度を記憶する（図５、ステップＳ２０）。な
お、ここで記憶される適合度は、上記で候補パターンと
された入力音声と標準パターン“オン”とのユーグリッ
ド距離の平均値１．９５である。こうして、入力音声の
特徴量（ケプストラム列）及び上記適合度１．９５がＲ
ＡＭ３４に記憶される（図３参照）。

【００４１】入力音声の特徴量および適合度の記憶後、
所定時間内に次の音声が入力されたか否かを判断する
（図５、ステップＳ２２）。すなわち、最初の入力音声
が終了した時点で、ＣＰＵ４０は、タイマー３６を作動
させ、所定時間（例えば３秒）以内に次の音声が入力さ
れたかを検出する。なお、ステップＳ２２において、所
定時間内に次の音声が入力されなければ、直ちに処理を
終了する（図５参照）。

【００４２】一方、所定時間内に、次の音声が入力され
ると、その入力音声の特徴量を抽出する（図５、ステッ
プＳ２４）。所定時間内に次の音声が入力されると、音
声認識装置１００は、登録モードとして動作する。な
お、入力された次の音声も“オン”であると仮定する。
ここでの入力音声の特徴量の抽出も、ステップＳ１２で
行なわれた方法と同様の方法で行なわれる（図６参
照）。

【００４３】次の入力音声の特徴量を抽出した後、入力
音声の特徴量と不特定話者用標準パターンを照合する
（図５、ステップＳ２６）。ここでの照合も、ステップ
Ｓ１４及びＳ１８で行なわれたＤＰマッチング法によっ
て行なわれる。なお、ここでも、ＤＰマッチングによっ
て算出されたユーグリッド距離の平均値が、上記所定の
基準値２．０以下の標準パターンを候補パターンとして
用いる。例えば、ここでも次の入力音声と標準パターン
“オン”のユーグリッド距離の平均値だけが前記基準値
以下（例えば１．９８）であったと仮定する。

【００４４】入力音声の特徴量と不特定話者用標準パタ
ーンの照合後、入力音声の特徴量および入力音声と不特
定話者用標準パターンとの適合度を記憶する（ステップ
Ｓ２７）。ここでの記憶も、ステップＳ２０で行なわれ
た方法と同様の方法で行なわれる。すなわち、次の入力
音声の特徴量（ケプストラム列）および１．９８がＲＡ
Ｍ３４に記憶される（図３参照）。

【００４５】次の入力音声の特徴量および適合度を記憶
した後、今度は、最初の入力音声および次の入力音声の
いずれもが不特定話者用標準パターンと合致するか否か
を判断する（図５、ステップＳ２８）。本実施例におい
ては、ＲＡＭ３４内に記憶された最初および次の入力音
声に対する適合度を用いて合致の判断を行なう。

【００４６】上述のように、最初および次の入力音声と
不特定話者用標準パターン“オン”のユーグリッド距離
の平均値は、共に基準値２．０以下である。したがっ
て、最初の入力音声および次の入力音声のいずれもが、
不特定話者用標準パターン“オン”に合致していると判
断される。なお、このステップにおいて、入力音声のい
ずれかの特徴量座標が標準パターンに合致しない場合、
直ちに処理を終了する（図５参照）。

【００４７】最初の入力音声および次の入力音声のいず
れもが不特定話者用標準パターンと合致したと判断され
ると、最初の入力音声および次の入力音声の特徴量の平
均値を特定話者用学習パターンに登録する（図５、ステ
ップＳ３０）。すなわち、両入力音声の特徴量の平均値
が特定話者の該操作音声（“オン”）の特徴量として、
特定話者用学習パターン３６Ｔに登録される（図７参
照）。なお、新たに登録される操作音声は、特定話者用
学習パターン３６Ｔの最も下方に記憶される。

【００４８】こうして登録された両入力音声の特徴量の
平均値は、それ以降、特定話者の操作音声の特徴量とな
る。したがって、該操作音声を入力した操作者が、登録
した操作音声に対応する音声を入力すると、ステップＳ
１７の処理を行なう。

【００４９】このように、本発明に係る音声認識装置１
００を用いると、予め定められた操作に関する音声の中
から、所望の音声を所定時間内に２回入力するだけで、
特定話者の音声として登録される。したがって、登録専
用の装置を用いることなく、容易に特定話者の変更を行
なうことが可能となる。

【００５０】また、一旦登録した特定話者の音声が、風
邪等により登録時の声と異なる場合であっても、所望の
音声を所定時間内に２回入力するだけで改めて特定話者
としての登録を行なうことができる。したがって、容易
に正確な音声認識を行なう事が可能となる。

【００５１】なお、上記実施例に係る音声認識装置１０
０においては、図１、図２に示した構成をＣＰＵ４０を
用いて実現した場合について説明した。しかし、確実な
音声認識を行なえるのであれば、当該各図の構成の一部
または全部をハードウェアロジックを用いて実現するよ
うにしてもよい。

【００５２】また、図３に示す音声認識装置１００にお
いて、特定話者用学習パターンが記憶されたＲＡＭ３４
は、停電時等における記憶内容保護のためにバックアッ
プ電源付きのものを用いることが好ましい。

【００５３】上記実施例においては、ステップＳ２２に
示すように、最初の音声が入力されてから所定時間内に
次の音声の入力が１回あった場合に、登録モードとして
動作するようにしている。しかし、最初の音声の入力が
終了した後、所定時間内に複数回（例えば２回以上）の
音声の入力があった場合に登録モードとして動作するよ
うにしてもよく、また所定時間も３秒より長くしても短
くするようにしてもよい。

【００５４】さらに、上記実施例においては、入力音声
の特徴量と不特定話者用標準パターンとの照合の際（ス
テップＳ１８およびステップＳ２６）において、最初お
よび次の入力音声に対する候補パターンが、不特定話者
用標準パターン“オン”１つである場合について説明し
た。

【００５５】しかし、照合の際、最初の入力音声または
次の入力音声に対して複数の不特定話者用標準パターン
が候補パターンとなる場合がある。すなわち、複数の不
特定話者用標準パターンが入力音声に対して所定の基準
値（２．０）以下のユーグリッド距離の平均値を有する
場合がある。

【００５６】以下に、このような場合の処理について説
明する。例えば、ステップＳ１８における照合で、最初
の入力音声と不特定話者用標準パターンのユーグリッド
距離の平均値が、順に“オン”１．１、“オフ”１．８
５、アップ”１．９７、“ダウン”１．９８であり、ス
テップＳ２６における照合で次の入力音声に対する不特
定話者用標準パターンの適合度が、順に“オン”１．０
５、“オフ”１．９０、“アップ”１．９８、“ダウ
ン”１．９９であったと仮定する。したがって、候補パ
ターンは、各ステップごとに４つずつとなる。

【００５７】この場合は、各ステップにおいて、ユーグ
リッド距離の平均値の小さい順上位のいくつか（例えば
３つ）を選択する。すなわち、両ステップともに“候補
パターンを“オン”、“オフ”、アップ”の３つに絞り
込む。次に、その３つの候補パターンの内で同じ標準パ
ターン同士のユーグリッド距離の平均値を加算する。な
お、加算結果は“オン”が２．１５、“オフ”が３．７
５であり“アップ”が３．９５となる。

【００５８】ステップＳ２８において、両入力音声は、
加算結果の値が最も小さい標準パターンと合致すると判
断される。すなわち、この場合、両入力音声は、不特定
話者用標準パターンの“オン”に合致すると判断され
る。このような処理を行なうことにより、入力音声が、
複数の不定話者用標準パターンに合致する場合であって
も、確実な音声認識を行なう事が可能となる。

【００５９】上記の例では、ステップＳ１８およびステ
ップＳ２６での候補パターンが、“オン”、“オフ”、
アップ”のように３つとも同じである場合について説明
した。しかし、入力音声によっては、ステップＳ１８に
おける候補パターンとステップＳ２６での候補パターン
の一部が異なる場合がある。この場合、両ステップで候
補パターンとなっている標準パターンだけをユーグリッ
ド距離の平均値の加算対象とする。すなわち、両ステッ
プにおいて共に候補パターンとなった不特定話者用標準
パターンだけがＳ２８において入力音声との合致の判断
に用いられる。

【００６０】なお、上記の例で候補パターンの絞り込み
を行なう際、ユーグリッド距離の平均値の小さい順の上
位３つを採るようにしたが、必ずしも３つでなくともよ
く、候補パターンの増減に応じて２つでも４つ以上とし
てもよい。

【００６１】また、上記実施例においては、ステップＳ
３０において、両入力音声の特徴量の平均値を特定話者
用学習パターンに特定話者の音声として記憶して処理を
終了している。しかし、ステップＳ３０において両入力
音声の特徴量の平均値を特定話者の音声として登録する
とともに、該両入力音声の特徴量に対応する処理を行な
う処理信号を出力するようにしてもよい。

【００６２】上記実施例では、ステップＳ３０で、特定
話者用学習パターンに対して最初の入力音声および次の
入力音声の特徴量の平均値を登録するようにしている。
しかし、入力音声を正確に登録できるのであれば、例え
ば特定話者用学習パターンの特徴量に対して適合度が高
い方の入力音声の特徴量を登録するようにしてもよい。
また、最初および次の入力音声の特徴量の二乗平均値、
最初の入力音声または次の入力音声のいずれか一方を任
意に登録するようにしてもよい。

【００６３】また、ステップＳ３０において、特定話者
用学習パターン３６Ｔに新たに特定話者の操作音声を登
録しようとする際、特定話者用学習パターンの記憶容量
を超える場合がある。このような場合、記憶しようとす
る操作音声と同じ操作音声の列の内で、入力音声に対応
する処理の行なわれた日が最も古い（１行目に記憶され
ている）操作音声の特徴量を消去し、その代りに新たに
登録しようとする操作音声の特徴量を特定話者用学習パ
ターンに登録するようにしてもよい。図１０に、操作音
声“オン”の列の１行目に新たな“オン”の特徴量を記
憶した場合の特定話者用学習パターン３６Ｔを示す。

【００６４】なお、入力音声に対応する処理の行なわれ
た日が最も古い操作音声の特徴量を１行目から順に記憶
させずに、各特徴量に入力音声に対応する処理の行なわ
れた日を付しておき、処理が行なわれた日が最も古い操
作音声の特徴量に代えて、新たに登録しようとする操作
音声の特徴量を記憶するようにしてもよい。また、各操
作音声の使用頻度を記憶しておき、使用頻度の最も低い
操作音声に代えて、新たに登録しようとする操作音声の
特徴量を記憶するようにしてもよい。

【００６５】さらに、上記実施例にかかる音声認識装置
おいては、特徴量の抽出を行なうため、ＦＦＴを行なっ
ている。しかし、他の方法を用いてもよく、例えば、Ｌ
ＰＣ分析による方法を用いて特徴量を抽出するようにし
てもよい。

【００６６】また、上記実施例にかかる音声認識装置お
いては、音声の特徴量としてケプストラムを用いたが、
正確な音声認識を行なえるのであれば、他の特徴量を用
いてもよく、例えば音声波形のピッチを用いるようにし
てもよい。

【００６７】さらに、上記実施例においては、ＦＦＴを
行なった後、ケプストラム列を求めることにより、特徴
量を抽出している。しかし、ケプストラム列をさらにＦ
ＦＴして特徴量を抽出してもよい。

【００６８】

【発明の効果】請求項１に係る音声識別装置および請求
項３の音声識別方法においては、所定の音声が複数回入
力された場合は、登録モードとして入力された音声に基
づき当該音声の特徴を登録し、そうでない場合には動作
モードとして入力音声を記憶音声の特徴と比較し、合致
する音声に対応する処理を行なう。すなわち、所定時間
内に所定の音声を複数回入力するだけで、発声者の音声
の特徴が登録され、そうでない場合には、入力された音
声の特徴を、記憶された各音声の特徴と比較し、合致す
る音声に対応する処理を行なう。したがって、装置使用
時において音声を容易に登録することができ、しかも確
実な処理を行なうことが可能となる。

【００６９】請求項２及び請求項４に係る音声識別装置
および音声識別方法においては、処理の種類ごとに少な
くとも一の音声の特徴が記憶され、登録モード時に入力
された音声に対応する処理を行なう音声のうち入力音声
に対応する処理の行なわれた日が最も古い音声の特徴に
代えて入力された音声の特徴を登録する。すなわち、入
力音声に対応する処理が最近行なわれた発声者の音声の
特徴のみが記憶される。したがって、改めて登録をする
ことなく、確実な処理を行なうことが可能となる。

【図面の簡単な説明】

【図１】本発明に係る音声認識装置の一実施例を示すブ
ロック図である。

【図２】図１の音声認識装置を各部の機能に基づき表わ
したブロック図である。

【図３】図２に示した音声認識装置をＣＰＵを用いて実
現した場合のブロック図である。

【図４】本実施例における音声認識装置の動作を示すフ
ローチャートである。

【図５】本実施例における音声認識装置の動作を示すフ
ローチャートである。

【図６】本実施例における入力音声の特徴量抽出のため
の処理を示す図である。

【図７】本実施例の特定話者用学習パターンの一部の記
憶状態を示す図である。

【図８】入力音声と特定話者用学習パターンの操作音声
とのＤＰマッチング方法を示す図である。

【図９】本実施例の不特定話者用標準パターンの一部の
記憶状態を示す図である。

【図１０】最近使用されていない操作音声の代りに、新
たな操作音声の特徴量を特定話者として登録した場合の
特定話者用学習パターンの状態を示す図である。

【符号の説明】３０・・・・・入力手段３１・・・・・特徴量抽出手段３５・・・・・特徴量記憶手段４０・・・・・処理手段

Claims

【特許請求の範囲】

【請求項１】予め定められた音声群の中から選ばれた音
声を入力するための入力手段、入力された音声の特徴を抽出する特徴抽出手段、処理の種類ごとに少なくとも一の音声の特徴を記憶する
特徴記憶手段、入力手段に音声が入力され、当該音声に続いて所定の時
間内に１以上の音声が入力された場合は、登録モードと
して動作し、そうでない場合には動作モードとして動作
する処理手段、を備えた音声認識装置であって、前記処理手段は、登録モード時には、前記音声および次
の音声に基づき前記特徴記憶手段に当該音声の特徴を登
録し、動作モード時には、入力された音声を前記特徴記
憶手段に記憶された各音声の特徴と比較し、合致する音
声に対応する処理を行なうこと、を特徴とする音声認識装置。
【請求項２】請求項１の音声認識装置において、前記特徴記憶手段には、処理の種類ごとに二以上の音声
の特徴が記憶されており、前記処理手段は、登録モード
時に前記特徴記憶手段に対して入力された音声に対応す
る処理を行なう音声のうち入力音声に対応する処理の行
なわれた日が最も古い音声の特徴に代えて入力された音
声の特徴を登録すること、を特徴する音声認識装置。
【請求項３】予め定められた音声群の中から選ばれた音
声を入力し、入力された音声の特徴を抽出し、処理の種類ごとに少なくとも一の音声の特徴を記憶して
おき、音声が入力され、当該音声に続いて所定の時間内に１以
上の次の音声が入力された場合は、登録モードとして動
作し、そうでない場合には動作モードとして動作する音
声認識方法であって、登録モード時には、前記音声および次の音声に基づき当
該音声の特徴を登録し、動作モード時には、入力された
音声を記憶された各音声の特徴と比較し、合致する音声
に対応する処理を行なうこと、を特徴とする音声認識方法。
【請求項４】請求項３の音声認識方法において、処理の種類ごとに二以上の音声の特徴を記憶しておき、
登録モード時には、入力された音声に対応する処理を行
なう音声のうち入力音声に対応する処理の行なわれた日
が最も古い音声の特徴に代えて入力された音声の特徴を
登録すること、を特徴する音声認識方法。