JPH096383A - 音声認識装置および方法 - Google Patents
音声認識装置および方法Info
- Publication number
- JPH096383A JPH096383A JP7157456A JP15745695A JPH096383A JP H096383 A JPH096383 A JP H096383A JP 7157456 A JP7157456 A JP 7157456A JP 15745695 A JP15745695 A JP 15745695A JP H096383 A JPH096383 A JP H096383A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- input
- feature
- stored
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 容易かつ確実に音声識別を行なうことが可能
な音声識別送装置の提供を目的とする。 【構成】 予め定められた音声群の中から選ばれた音声
を入力手段30に入力すると、特徴抽出手段31は入力
された音声の特徴を抽出する。抽出された音声の特徴
は、処理手段40を介して特徴記憶手段35に記憶され
る。入力手段30に音声が入力された後、所定の時間内
に次の音声が入力された場合、処理手段40は登録モー
ドとして動作し、そうでない場合には動作モードとして
動作する。処理手段40は、登録モード時に入力された
音声に基づいて特徴記憶手段35に入力音声の特徴を登
録し、動作モード時には、入力された音声を特徴記憶手
段35に記憶された各音声の特徴と比較し、合致する音
声に対応する処理を行なう。
な音声識別送装置の提供を目的とする。 【構成】 予め定められた音声群の中から選ばれた音声
を入力手段30に入力すると、特徴抽出手段31は入力
された音声の特徴を抽出する。抽出された音声の特徴
は、処理手段40を介して特徴記憶手段35に記憶され
る。入力手段30に音声が入力された後、所定の時間内
に次の音声が入力された場合、処理手段40は登録モー
ドとして動作し、そうでない場合には動作モードとして
動作する。処理手段40は、登録モード時に入力された
音声に基づいて特徴記憶手段35に入力音声の特徴を登
録し、動作モード時には、入力された音声を特徴記憶手
段35に記憶された各音声の特徴と比較し、合致する音
声に対応する処理を行なう。
Description
【0001】
【産業上の利用分野】本発明は、音声認識装置および音
声認識方法に関し、特に認識の容易化、確実化に関す
る。
声認識方法に関し、特に認識の容易化、確実化に関す
る。
【0002】
【従来の技術】人間の音声を認識する音声認識装置に
は、特定の言葉であれば誰の音声でも認識する不特定話
者型と、予め学習を行なって記憶した人の特定の音声だ
けを認識する特定話者型がある。
は、特定の言葉であれば誰の音声でも認識する不特定話
者型と、予め学習を行なって記憶した人の特定の音声だ
けを認識する特定話者型がある。
【0003】これらは、いずれも入力された音声を分析
し、分析した音声の特徴を抽出する。音声の特徴を抽出
した後、今度は抽出した音声の特徴を予め記憶させた標
準(特定)パターンと比較し、入力された音声の特徴と
標準(特定)パターンが合致しているか否かで音声を認
識する。
し、分析した音声の特徴を抽出する。音声の特徴を抽出
した後、今度は抽出した音声の特徴を予め記憶させた標
準(特定)パターンと比較し、入力された音声の特徴と
標準(特定)パターンが合致しているか否かで音声を認
識する。
【0004】したがって、不特定話者型の音声認識装置
においては、予め特定の人の音声を学習することなく音
声を認識することができ、特定話者型の音声認識装置に
おいては、特定の人の音声だけを認識することにより、
正確に音声を認識することができる。
においては、予め特定の人の音声を学習することなく音
声を認識することができ、特定話者型の音声認識装置に
おいては、特定の人の音声だけを認識することにより、
正確に音声を認識することができる。
【0005】
【発明が解決しようとする課題】しかしながら、従来の
音声認識装置には、次のような問題があった。不特定話
者型の音声認識装置においては、不特定の人の音声を認
識することから、個人間で差異のある発音等が原因とな
り正確な音声認識をすることができない場合があった。
したがって、話者の望む処理を行なうことが出来ない場
合や望んでいない処理がなされるという問題があった。
音声認識装置には、次のような問題があった。不特定話
者型の音声認識装置においては、不特定の人の音声を認
識することから、個人間で差異のある発音等が原因とな
り正確な音声認識をすることができない場合があった。
したがって、話者の望む処理を行なうことが出来ない場
合や望んでいない処理がなされるという問題があった。
【0006】他方、特定話者型の音声認識装置におい
て、特定話者を変更したい場合がある。この場合には、
音声認識とは別に特定話者の音声を学習(登録)させな
ければならず、これには音声登録専用の装置が必要であ
る。このように、音声の登録だけのために専用の装置が
必要となるため、特定話者を変更するのは現実的に不可
能に近いという問題があった。例えば、一旦特定話者の
音声を登録しても、特定話者が風邪等、学習時の声と異
なる場合に、専用装置を有していないために改めて特定
話者の音声を登録できず、正確な音声認識できないとい
う問題もあった。
て、特定話者を変更したい場合がある。この場合には、
音声認識とは別に特定話者の音声を学習(登録)させな
ければならず、これには音声登録専用の装置が必要であ
る。このように、音声の登録だけのために専用の装置が
必要となるため、特定話者を変更するのは現実的に不可
能に近いという問題があった。例えば、一旦特定話者の
音声を登録しても、特定話者が風邪等、学習時の声と異
なる場合に、専用装置を有していないために改めて特定
話者の音声を登録できず、正確な音声認識できないとい
う問題もあった。
【0007】そこで、本発明は、容易かつ確実に音声認
識を行なうことが可能な音声認識送装置および音声認識
方法の提供を目的とする。
識を行なうことが可能な音声認識送装置および音声認識
方法の提供を目的とする。
【0008】
【0009】
【課題を解決するために案出した技術思想】容易かつ確
実に音声認識を行なうことが可能な音声認識装置および
音声認識方法を提供するために、所定時間内に所定の音
声が複数回入力された場合には登録モードとして入力さ
れた複数の音声に基づき新たな音声を登録し、そうでな
い場合に動作モードとして入力音声を、記憶された各音
声の特徴と比較して合致する音声に対応する処理を行な
う。
実に音声認識を行なうことが可能な音声認識装置および
音声認識方法を提供するために、所定時間内に所定の音
声が複数回入力された場合には登録モードとして入力さ
れた複数の音声に基づき新たな音声を登録し、そうでな
い場合に動作モードとして入力音声を、記憶された各音
声の特徴と比較して合致する音声に対応する処理を行な
う。
【0010】すなわち、請求項に記載した発明の構成を
示す第1図に記載しているように、請求項1の音声認識
装置は、予め定められた音声群の中から選ばれた音声を
入力するための入力手段30、入力された音声の特徴を
抽出する特徴抽出手段31、処理の種類ごとに少なくと
も一の音声の特徴を記憶する特徴記憶手段35、入力手
段に音声が入力され、当該音声に続いて所定の時間内に
1以上の音声が入力された場合は、登録モードとして動
作し、そうでない場合には動作モードとして動作する処
理手段40を備えた音声認識装置であって、前記処理手
段40は、登録モード時には、前記音声および次の音声
に基づき前記特徴記憶手段35に当該音声の特徴を登録
し、動作モード時には、入力された音声を前記特徴記憶
手段35に記憶された各音声の特徴と比較し、合致する
音声に対応する処理を行なうことを特徴とする。
示す第1図に記載しているように、請求項1の音声認識
装置は、予め定められた音声群の中から選ばれた音声を
入力するための入力手段30、入力された音声の特徴を
抽出する特徴抽出手段31、処理の種類ごとに少なくと
も一の音声の特徴を記憶する特徴記憶手段35、入力手
段に音声が入力され、当該音声に続いて所定の時間内に
1以上の音声が入力された場合は、登録モードとして動
作し、そうでない場合には動作モードとして動作する処
理手段40を備えた音声認識装置であって、前記処理手
段40は、登録モード時には、前記音声および次の音声
に基づき前記特徴記憶手段35に当該音声の特徴を登録
し、動作モード時には、入力された音声を前記特徴記憶
手段35に記憶された各音声の特徴と比較し、合致する
音声に対応する処理を行なうことを特徴とする。
【0011】請求項2の音声認識装置は、請求項1の音
声認識装置において、前記特徴記憶手段35には、処理
の種類ごとに少なくとも一の音声の特徴が記憶されてお
り、前記処理手段40は、登録モード時に前記特徴記憶
手段35に入力された音声に対応する処理を行なう音声
のうち入力音声に対応する処理の行なわれた日が最も古
い音声の特徴に代えて入力された音声の特徴を登録する
ことを特徴とする。
声認識装置において、前記特徴記憶手段35には、処理
の種類ごとに少なくとも一の音声の特徴が記憶されてお
り、前記処理手段40は、登録モード時に前記特徴記憶
手段35に入力された音声に対応する処理を行なう音声
のうち入力音声に対応する処理の行なわれた日が最も古
い音声の特徴に代えて入力された音声の特徴を登録する
ことを特徴とする。
【0012】請求項3の音声認識方法は、予め定められ
た音声群の中から選ばれた音声を入力し、入力された音
声の特徴を抽出し、処理の種類ごとに少なくとも一の音
声の特徴を記憶しておき、音声が入力され、当該音声に
続いて所定の時間内に1以上の次の音声が入力された場
合は、登録モードとして動作し、そうでない場合には動
作モードとして動作する音声認識方法であって、登録モ
ード時には、前記音声および次の音声に基づき当該音声
の特徴を登録し、動作モード時には、入力された音声を
記憶された各音声の特徴と比較し、合致する音声に対応
する処理を行なうことを特徴とする。
た音声群の中から選ばれた音声を入力し、入力された音
声の特徴を抽出し、処理の種類ごとに少なくとも一の音
声の特徴を記憶しておき、音声が入力され、当該音声に
続いて所定の時間内に1以上の次の音声が入力された場
合は、登録モードとして動作し、そうでない場合には動
作モードとして動作する音声認識方法であって、登録モ
ード時には、前記音声および次の音声に基づき当該音声
の特徴を登録し、動作モード時には、入力された音声を
記憶された各音声の特徴と比較し、合致する音声に対応
する処理を行なうことを特徴とする。
【0013】請求項4の音声認識方法は、請求項3の音
声認識方法において、処理の種類ごとに二以上の音声の
特徴を記憶しておき、登録モード時には、入力された音
声に対応する処理を行なう音声のうち入力音声に対応す
る処理の行なわれた日が最も古い音声の特徴に代えて入
力された音声の特徴を登録することを特徴とする。
声認識方法において、処理の種類ごとに二以上の音声の
特徴を記憶しておき、登録モード時には、入力された音
声に対応する処理を行なう音声のうち入力音声に対応す
る処理の行なわれた日が最も古い音声の特徴に代えて入
力された音声の特徴を登録することを特徴とする。
【0014】
【用語の定義】課題を解決するために案出した技術思想
を表現する請求項での用語の概念を、次の通り定義する
とともに、その用語と実施例との関係を説明する。
を表現する請求項での用語の概念を、次の通り定義する
とともに、その用語と実施例との関係を説明する。
【0015】「特徴抽出部」:入力された音声信号の特
徴量を抽出する手段をいう。特徴量としては、音声認識
に用いるケプストラム、スペクトル等がある。本実施例
においては、デジタル音声信号を、所定フレームに区切
り、ウインドウ処理を行なった後、FFTを行なうこと
により、図6Bに示すようなパワー(振幅)と周波数成
分に変換する。FFT変換後のデジタル音声信号をケプ
ストラム軸に変換する為、逆FFT(FFTと逆の処
理)を行ない、さらにケプストラムの低次のワードを音
声の特徴量として抽出する。
徴量を抽出する手段をいう。特徴量としては、音声認識
に用いるケプストラム、スペクトル等がある。本実施例
においては、デジタル音声信号を、所定フレームに区切
り、ウインドウ処理を行なった後、FFTを行なうこと
により、図6Bに示すようなパワー(振幅)と周波数成
分に変換する。FFT変換後のデジタル音声信号をケプ
ストラム軸に変換する為、逆FFT(FFTと逆の処
理)を行ない、さらにケプストラムの低次のワードを音
声の特徴量として抽出する。
【0016】
【作用】請求項1に係る音声識別装置および請求項3の
音声識別方法は、所定の音声が複数回入力された場合
は、登録モードとして動作し、そうでない場合には動作
モードとして動作する。登録モード時には、複数回入力
された音声に基づき当該音声の特徴を登録し、動作モー
ド時には、入力された音声を記憶された各音声の特徴と
比較し、合致する音声に対応する処理を行なう。したが
って、所定時間内に所定の音声を複数回入力するだけ
で、発声者の音声の特徴が登録され、そうでない場合に
は、入力された音声の特徴を、記憶された各音声の特徴
と比較し、合致する音声に対応する処理を行なう。
音声識別方法は、所定の音声が複数回入力された場合
は、登録モードとして動作し、そうでない場合には動作
モードとして動作する。登録モード時には、複数回入力
された音声に基づき当該音声の特徴を登録し、動作モー
ド時には、入力された音声を記憶された各音声の特徴と
比較し、合致する音声に対応する処理を行なう。したが
って、所定時間内に所定の音声を複数回入力するだけ
で、発声者の音声の特徴が登録され、そうでない場合に
は、入力された音声の特徴を、記憶された各音声の特徴
と比較し、合致する音声に対応する処理を行なう。
【0017】請求項2及び請求項4に係る音声識別装置
および音声識別方法は、処理の種類ごとに少なくとも一
の音声の特徴が記憶されており、登録モード時に入力さ
れた音声に対応する処理を行なう音声のうち入力音声に
対応する処理の行なわれた日が最も古い音声の特徴に代
えて入力された音声の特徴を登録する。したがって、入
力音声に対応する処理が最近行なわれた発声者の音声の
特徴のみが記憶される。
および音声識別方法は、処理の種類ごとに少なくとも一
の音声の特徴が記憶されており、登録モード時に入力さ
れた音声に対応する処理を行なう音声のうち入力音声に
対応する処理の行なわれた日が最も古い音声の特徴に代
えて入力された音声の特徴を登録する。したがって、入
力音声に対応する処理が最近行なわれた発声者の音声の
特徴のみが記憶される。
【0018】
【実施例】本発明に係る音声認識装置の一実施例につい
て以下に説明する。図2に、本実施例の音声認識装置の
構成を示す。この音声認識装置100は、音声入力手段
である音声入力部30、特徴抽出手段としての特徴抽出
部31、特徴記憶手段である特徴量記憶部32、不特定
話者用標準パターン記憶部33および特定話者用学習パ
ターン記憶部34、処理手段としての照合部38、連続
単語検出部37および発話ー発話時間測定部36を備え
ている。
て以下に説明する。図2に、本実施例の音声認識装置の
構成を示す。この音声認識装置100は、音声入力手段
である音声入力部30、特徴抽出手段としての特徴抽出
部31、特徴記憶手段である特徴量記憶部32、不特定
話者用標準パターン記憶部33および特定話者用学習パ
ターン記憶部34、処理手段としての照合部38、連続
単語検出部37および発話ー発話時間測定部36を備え
ている。
【0019】図3に、図2に示す音声識別装置100を
CPUを用いて実現したハードウェア構成を示す。ここ
でのハードウェアは、マイクロフォン28、A/D変換
器29、RAM34、ROM33、CPU40およびタ
イマー36を備えており、各部はバスライン39により
接続されている。
CPUを用いて実現したハードウェア構成を示す。ここ
でのハードウェアは、マイクロフォン28、A/D変換
器29、RAM34、ROM33、CPU40およびタ
イマー36を備えており、各部はバスライン39により
接続されている。
【0020】なお、図3のハードウェアは、図2に示す
音声識別装置100と、以下のように対応する。マイク
ロフォン28およびA/D変換器29は、音声入力部3
0に対応し、RAM34が特徴量記憶部32に対応す
る。また、ROM33は、不特定話者用標準パターン記
憶部34に、特徴量抽出部31、照合部38および連続
単語検出部37は、CPU40に、発話ー発話時間測定
部36は、タイマーにそれぞれ対応する。
音声識別装置100と、以下のように対応する。マイク
ロフォン28およびA/D変換器29は、音声入力部3
0に対応し、RAM34が特徴量記憶部32に対応す
る。また、ROM33は、不特定話者用標準パターン記
憶部34に、特徴量抽出部31、照合部38および連続
単語検出部37は、CPU40に、発話ー発話時間測定
部36は、タイマーにそれぞれ対応する。
【0021】次に、このような音声識別装置100の動
作について説明する。図4および図5に、ROM33内
に記憶された音声識別装置100の動作プログラムを示
すフローチャートを示す。なお、CPU40は、この動
作プログラムに基づき各部の動作を制御する。
作について説明する。図4および図5に、ROM33内
に記憶された音声識別装置100の動作プログラムを示
すフローチャートを示す。なお、CPU40は、この動
作プログラムに基づき各部の動作を制御する。
【0022】操作者は、操作に必要な予め定められた音
声の中から、所望の操作を行なうために、所定の音声を
入力する(図4、ステップS10)。なお、本実施例に
おいては、音声識別装置100を用いて電気製品の操作
(制御)を行なうため、操作者が“オン”を入力する場
合を考える。操作者が、所定音声中の“オン”を発声す
ると、この音声は、マイクロフォン28を介して入力さ
れ、A/D変換器29によりデジタル音声信号に変換さ
れる。変換されたデジタル音声信号は、バスライン39
を通じてCPU40に入力される(図3)。
声の中から、所望の操作を行なうために、所定の音声を
入力する(図4、ステップS10)。なお、本実施例に
おいては、音声識別装置100を用いて電気製品の操作
(制御)を行なうため、操作者が“オン”を入力する場
合を考える。操作者が、所定音声中の“オン”を発声す
ると、この音声は、マイクロフォン28を介して入力さ
れ、A/D変換器29によりデジタル音声信号に変換さ
れる。変換されたデジタル音声信号は、バスライン39
を通じてCPU40に入力される(図3)。
【0023】CPU40は、入力されたデジタル音声信
号の特徴量を抽出する(図4、ステップS12)。以下
に、CPU40におけるデジタル音声信号の特徴量の抽
出について簡単に説明する。CPU40に入力されたデ
ジタル音声信号は、図6Aに示すように、所定間隔でフ
レームFR1、FR2…FRnの複数フレームに区切ら
れる。ちなみに、本実施例に於ける1つのフレーム間隔
は、約25.6m秒である。
号の特徴量を抽出する(図4、ステップS12)。以下
に、CPU40におけるデジタル音声信号の特徴量の抽
出について簡単に説明する。CPU40に入力されたデ
ジタル音声信号は、図6Aに示すように、所定間隔でフ
レームFR1、FR2…FRnの複数フレームに区切ら
れる。ちなみに、本実施例に於ける1つのフレーム間隔
は、約25.6m秒である。
【0024】フレームに区切られたデジタル音声信号
は、ウインドウ処理された後、FFT(Fast Fourier
Transformation)が行なわれる。デジタル音声信号は、
FFTにより、図6Bに示すように周波数ごとのパワー
(振幅)に変換される。なお、図6Bは、フレームFR
1のFFT変換後の信号を示し、このような変換はフレ
ームFRnまでの全てのフレームについて行なわれる。
は、ウインドウ処理された後、FFT(Fast Fourier
Transformation)が行なわれる。デジタル音声信号は、
FFTにより、図6Bに示すように周波数ごとのパワー
(振幅)に変換される。なお、図6Bは、フレームFR
1のFFT変換後の信号を示し、このような変換はフレ
ームFRnまでの全てのフレームについて行なわれる。
【0025】なお、上述のウィンドウ処理とは、フレー
ム毎に区切られ処理されるデジタル音声信号の各フレー
ム両端での重みづけを軽くすることにより、FFT変換
におけるフレーム両端部でのディジタル信号の乱れを小
さくする処理をいう。また、FFTとは、フーリエ変換
の一つで、音声認識の前処理として行なわれるディジタ
ル音声信号のスペクトルを直接的に計算する方法をい
う。
ム毎に区切られ処理されるデジタル音声信号の各フレー
ム両端での重みづけを軽くすることにより、FFT変換
におけるフレーム両端部でのディジタル信号の乱れを小
さくする処理をいう。また、FFTとは、フーリエ変換
の一つで、音声認識の前処理として行なわれるディジタ
ル音声信号のスペクトルを直接的に計算する方法をい
う。
【0026】次に、FFT変換後のデジタル音声信号を
ケプストラム成分に変換する為、対数スペクトルの逆F
FT(FFTと逆の処理)を行なう。さらに、逆FFT
変換後のケプストラム成分から低次の16ワードを音声
の特徴量として抽出する。図6Cに、こうして抽出され
た入力音声の特徴量としてのケプストラム列の一部を示
す。
ケプストラム成分に変換する為、対数スペクトルの逆F
FT(FFTと逆の処理)を行なう。さらに、逆FFT
変換後のケプストラム成分から低次の16ワードを音声
の特徴量として抽出する。図6Cに、こうして抽出され
た入力音声の特徴量としてのケプストラム列の一部を示
す。
【0027】ここで、ケプストラムとは、FFTによっ
て計算されたスペクトル(図6B)を、平滑化するため
の方法であって、対数スペクトルの逆フーリエ変換をい
う。
て計算されたスペクトル(図6B)を、平滑化するため
の方法であって、対数スペクトルの逆フーリエ変換をい
う。
【0028】こうして抽出した入力音声の特徴量と特定
話者用学習パターンを照合する(図4、ステップS1
4)。図7に、本実施例の特定話者用学習パターン36
Tの一部を示す。特定話者用学習パターン36Tには、
各操作音声の特徴量が処理の種類ごとに(オン、オフ
等)一列に記憶されている。なお、これらの操作音声
は、各列ごとに、入力音声に対応する処理が最近行なわ
れた音声の特徴量を最も下方に記憶し、該処理の行なわ
れた日が最も古い音声を上方(1行目)に記憶するよう
にしている。
話者用学習パターンを照合する(図4、ステップS1
4)。図7に、本実施例の特定話者用学習パターン36
Tの一部を示す。特定話者用学習パターン36Tには、
各操作音声の特徴量が処理の種類ごとに(オン、オフ
等)一列に記憶されている。なお、これらの操作音声
は、各列ごとに、入力音声に対応する処理が最近行なわ
れた音声の特徴量を最も下方に記憶し、該処理の行なわ
れた日が最も古い音声を上方(1行目)に記憶するよう
にしている。
【0029】ステップS14においては、上記のように
抽出された入力音声の特徴量と、特定話者用学習パター
ン36Tに記憶された各操作音声の特徴量を照合する。
ここでは、入力音声の特徴量と特定話者用学習パターン
36Tの各操作音声の特徴量との距離(ユーグリッド距
離)をDPマッチング法により照合する。
抽出された入力音声の特徴量と、特定話者用学習パター
ン36Tに記憶された各操作音声の特徴量を照合する。
ここでは、入力音声の特徴量と特定話者用学習パターン
36Tの各操作音声の特徴量との距離(ユーグリッド距
離)をDPマッチング法により照合する。
【0030】ここで、ユーグリッド距離とは、ケプスト
ラムの各列を空間軸とする多次元空間における距離であ
る。また、DPマッチング法とは、入力音声と比較する
音声との間で生じる間隔の違いを考慮しつつ、入力音声
と比較する音声の識別を行なうためのアルゴリズムをい
い、ここでは、入力音声と比較する音声が最もよく一致
するように時間軸を変換した後のユーグリッド距離を求
める方法を言う。
ラムの各列を空間軸とする多次元空間における距離であ
る。また、DPマッチング法とは、入力音声と比較する
音声との間で生じる間隔の違いを考慮しつつ、入力音声
と比較する音声の識別を行なうためのアルゴリズムをい
い、ここでは、入力音声と比較する音声が最もよく一致
するように時間軸を変換した後のユーグリッド距離を求
める方法を言う。
【0031】以下に、DPマッチング法による入力音声
と特定話者用学習パターンの照合について説明する。図
8に、入力音声“オン”のケプトラム列、特定話者用学
習パターン内の“オン”4行目のケプトラム列および両
者をDPマッチングした際のユーグリッド距離を示す。
なお、入力音声のケプストラム列のフレーム数は、“オ
ン”の4行目のケプトラム列のフレーム数よりも多いの
で、入力音声のケプストラム列を基準としてDPマッチ
ングを行なう。
と特定話者用学習パターンの照合について説明する。図
8に、入力音声“オン”のケプトラム列、特定話者用学
習パターン内の“オン”4行目のケプトラム列および両
者をDPマッチングした際のユーグリッド距離を示す。
なお、入力音声のケプストラム列のフレーム数は、“オ
ン”の4行目のケプトラム列のフレーム数よりも多いの
で、入力音声のケプストラム列を基準としてDPマッチ
ングを行なう。
【0032】入力音声と特定話者用学習パターンのDP
マッチングを行なう場合、まず両者の最初のケプストラ
ム列(フレームFR1)同士を比較し、両ケプストラム
間のユーグリッド距離を算出する。ここでのフレームF
R1間のユーグリッド距離は、1.5である。次に、入
力音声のケプストラム列のフレームFR2と特定話者用
学習パターンのフレームFR1及びフレームFR2との
比較を行ない、最も小さいユーグリッド距離のパス(経
路)を算出する。ここでの、最小ユーグリッド距離は、
入力音声のフレームFR2と特定話者用学習パターンの
フレームFR2間の1.8であるとする。
マッチングを行なう場合、まず両者の最初のケプストラ
ム列(フレームFR1)同士を比較し、両ケプストラム
間のユーグリッド距離を算出する。ここでのフレームF
R1間のユーグリッド距離は、1.5である。次に、入
力音声のケプストラム列のフレームFR2と特定話者用
学習パターンのフレームFR1及びフレームFR2との
比較を行ない、最も小さいユーグリッド距離のパス(経
路)を算出する。ここでの、最小ユーグリッド距離は、
入力音声のフレームFR2と特定話者用学習パターンの
フレームFR2間の1.8であるとする。
【0033】次に、入力音声のフレームFR3と特定話
者用学習パターンのフレームFR1、フレームFR2及
びフレームFR3との比較を行ない、最も小さいユーグ
リッド距離の経路を算出する。ここでの最小ユーグリッ
ド距離は、入力音声のフレームFR3と特定話者用学習
パターンのフレームFR3間の2.0であるとする。
者用学習パターンのフレームFR1、フレームFR2及
びフレームFR3との比較を行ない、最も小さいユーグ
リッド距離の経路を算出する。ここでの最小ユーグリッ
ド距離は、入力音声のフレームFR3と特定話者用学習
パターンのフレームFR3間の2.0であるとする。
【0034】このように、入力音声のケプストラム列の
フレームFR3からFR13までは、入力音声のケプス
トラム列のフレームを一つずつずらして行き、該フレー
ムに対向する特定話者用学習パターンのフレーム及びそ
の二つ前までの特定話者用学習パターンのフレームとの
比較を行なう。また、入力音声のケプストラム列のフレ
ームFR14は、特定話者用学習パターンのフレームF
R11及びFR12との比較を行ない、入力音声の最後
のフレームFR15は、特定話者用学習パターンの最後
のフレームFR13のみと比較を行なってユーグリッド
距離を算出する。
フレームFR3からFR13までは、入力音声のケプス
トラム列のフレームを一つずつずらして行き、該フレー
ムに対向する特定話者用学習パターンのフレーム及びそ
の二つ前までの特定話者用学習パターンのフレームとの
比較を行なう。また、入力音声のケプストラム列のフレ
ームFR14は、特定話者用学習パターンのフレームF
R11及びFR12との比較を行ない、入力音声の最後
のフレームFR15は、特定話者用学習パターンの最後
のフレームFR13のみと比較を行なってユーグリッド
距離を算出する。
【0035】こうして、算出(図示)した最小ユーグリ
ッド距離を合計し、平均値を求める。ここでの、ユーグ
リッド距離の合計は、29.4となり、これをユーグリ
ッド距離を求めた経路の数である15で除算すると、
1.96となる。すなわち、入力音声のケプストラム列
と特定話者用学習パターンの“オン”のケプストラム列
のユーグリッド距離の平均値は、1.96である。
ッド距離を合計し、平均値を求める。ここでの、ユーグ
リッド距離の合計は、29.4となり、これをユーグリ
ッド距離を求めた経路の数である15で除算すると、
1.96となる。すなわち、入力音声のケプストラム列
と特定話者用学習パターンの“オン”のケプストラム列
のユーグリッド距離の平均値は、1.96である。
【0036】上記と同様のDPマッチングが、入力音声
と特定話者用学習パターン36T内に記憶されている全
ての操作音声との間で、行なわれる。なお、入力音声の
ケプストラム列のフレーム数が、特定話者用学習パター
ンのケプストラム列のフレーム数よりも短い場合は、ケ
プストラム列のフレーム数が長い特定話者用学習パター
ンのフレームを一つずつずらして上記のマッチングを行
なう。
と特定話者用学習パターン36T内に記憶されている全
ての操作音声との間で、行なわれる。なお、入力音声の
ケプストラム列のフレーム数が、特定話者用学習パター
ンのケプストラム列のフレーム数よりも短い場合は、ケ
プストラム列のフレーム数が長い特定話者用学習パター
ンのフレームを一つずつずらして上記のマッチングを行
なう。
【0037】DPマッチングの終了後、入力音声の特徴
量が特定話者用学習パターンの何れかに合致するか否か
を判断する(図4、ステップS16)。ここで、入力音
声と特定話者用学習パターンのいずれかの操作音声との
ユーグリッド距離の平均値が、所定の基準値(例えば、
1.5)内であれば、入力音声は、該操作音声と判断さ
れ、その入力音声に対応する処理(操作)を行なう処理
信号を出力する(図4、ステップS17)。なお、ここ
では、いずれの入力音声と操作音声のユーグリッド距離
の平均値も所定の基準値内にないと仮定する。
量が特定話者用学習パターンの何れかに合致するか否か
を判断する(図4、ステップS16)。ここで、入力音
声と特定話者用学習パターンのいずれかの操作音声との
ユーグリッド距離の平均値が、所定の基準値(例えば、
1.5)内であれば、入力音声は、該操作音声と判断さ
れ、その入力音声に対応する処理(操作)を行なう処理
信号を出力する(図4、ステップS17)。なお、ここ
では、いずれの入力音声と操作音声のユーグリッド距離
の平均値も所定の基準値内にないと仮定する。
【0038】ステップS16において、特定話者用学習
パターン36T内に入力音声の特徴量と合致する特徴量
を有する操作音声が記憶されていなかった場合は、入力
音声の特徴量と不特定話者用標準パターンを照合する
(図4、ステップS18)。図9に、本実施例の不特定
話者用標準パターン34Hの一部を示す。不特定話者用
標準パターン34Hには、一般の人が“オン”“オフ”
等の操作音声を発声した場合の標準的な音声の特徴量
が、各音声の種類と関連づけられ記憶されている。
パターン36T内に入力音声の特徴量と合致する特徴量
を有する操作音声が記憶されていなかった場合は、入力
音声の特徴量と不特定話者用標準パターンを照合する
(図4、ステップS18)。図9に、本実施例の不特定
話者用標準パターン34Hの一部を示す。不特定話者用
標準パターン34Hには、一般の人が“オン”“オフ”
等の操作音声を発声した場合の標準的な音声の特徴量
が、各音声の種類と関連づけられ記憶されている。
【0039】入力音声の特徴量と不特定話者用標準パタ
ーン34Hの照合は、ステップS14と同様に、DPマ
ッチング法で行なわれる。すなわち、最初の入力音声と
不特定話者用標準パターン34Hに記憶された全ての標
準パターンのDPマッチングを行なう(図8参照)。な
お、本実施例においては、DPマッチングによって算出
されたユーグリッド距離の平均値のうち、平均値が所定
の基準値(例えば2.0)以下の標準パターンを候補パ
ターンとして用いる。ここでは、入力音声と標準パター
ン“オン”のユーグリッド距離の平均値だけが前記基準
値以下(例えば1.95)であったと仮定する。
ーン34Hの照合は、ステップS14と同様に、DPマ
ッチング法で行なわれる。すなわち、最初の入力音声と
不特定話者用標準パターン34Hに記憶された全ての標
準パターンのDPマッチングを行なう(図8参照)。な
お、本実施例においては、DPマッチングによって算出
されたユーグリッド距離の平均値のうち、平均値が所定
の基準値(例えば2.0)以下の標準パターンを候補パ
ターンとして用いる。ここでは、入力音声と標準パター
ン“オン”のユーグリッド距離の平均値だけが前記基準
値以下(例えば1.95)であったと仮定する。
【0040】最初の入力音声と不特定話者用標準パター
ン34Hの各標準パターンのDPマッチング後、入力音
声の特徴量および入力音声と不特定話者用標準パターン
との適合度を記憶する(図5、ステップS20)。な
お、ここで記憶される適合度は、上記で候補パターンと
された入力音声と標準パターン“オン”とのユーグリッ
ド距離の平均値1.95である。こうして、入力音声の
特徴量(ケプストラム列)及び上記適合度1.95がR
AM34に記憶される(図3参照)。
ン34Hの各標準パターンのDPマッチング後、入力音
声の特徴量および入力音声と不特定話者用標準パターン
との適合度を記憶する(図5、ステップS20)。な
お、ここで記憶される適合度は、上記で候補パターンと
された入力音声と標準パターン“オン”とのユーグリッ
ド距離の平均値1.95である。こうして、入力音声の
特徴量(ケプストラム列)及び上記適合度1.95がR
AM34に記憶される(図3参照)。
【0041】入力音声の特徴量および適合度の記憶後、
所定時間内に次の音声が入力されたか否かを判断する
(図5、ステップS22)。すなわち、最初の入力音声
が終了した時点で、CPU40は、タイマー36を作動
させ、所定時間(例えば3秒)以内に次の音声が入力さ
れたかを検出する。なお、ステップS22において、所
定時間内に次の音声が入力されなければ、直ちに処理を
終了する(図5参照)。
所定時間内に次の音声が入力されたか否かを判断する
(図5、ステップS22)。すなわち、最初の入力音声
が終了した時点で、CPU40は、タイマー36を作動
させ、所定時間(例えば3秒)以内に次の音声が入力さ
れたかを検出する。なお、ステップS22において、所
定時間内に次の音声が入力されなければ、直ちに処理を
終了する(図5参照)。
【0042】一方、所定時間内に、次の音声が入力され
ると、その入力音声の特徴量を抽出する(図5、ステッ
プS24)。所定時間内に次の音声が入力されると、音
声認識装置100は、登録モードとして動作する。な
お、入力された次の音声も“オン”であると仮定する。
ここでの入力音声の特徴量の抽出も、ステップS12で
行なわれた方法と同様の方法で行なわれる(図6参
照)。
ると、その入力音声の特徴量を抽出する(図5、ステッ
プS24)。所定時間内に次の音声が入力されると、音
声認識装置100は、登録モードとして動作する。な
お、入力された次の音声も“オン”であると仮定する。
ここでの入力音声の特徴量の抽出も、ステップS12で
行なわれた方法と同様の方法で行なわれる(図6参
照)。
【0043】次の入力音声の特徴量を抽出した後、入力
音声の特徴量と不特定話者用標準パターンを照合する
(図5、ステップS26)。ここでの照合も、ステップ
S14及びS18で行なわれたDPマッチング法によっ
て行なわれる。なお、ここでも、DPマッチングによっ
て算出されたユーグリッド距離の平均値が、上記所定の
基準値2.0以下の標準パターンを候補パターンとして
用いる。例えば、ここでも次の入力音声と標準パターン
“オン”のユーグリッド距離の平均値だけが前記基準値
以下(例えば1.98)であったと仮定する。
音声の特徴量と不特定話者用標準パターンを照合する
(図5、ステップS26)。ここでの照合も、ステップ
S14及びS18で行なわれたDPマッチング法によっ
て行なわれる。なお、ここでも、DPマッチングによっ
て算出されたユーグリッド距離の平均値が、上記所定の
基準値2.0以下の標準パターンを候補パターンとして
用いる。例えば、ここでも次の入力音声と標準パターン
“オン”のユーグリッド距離の平均値だけが前記基準値
以下(例えば1.98)であったと仮定する。
【0044】入力音声の特徴量と不特定話者用標準パタ
ーンの照合後、入力音声の特徴量および入力音声と不特
定話者用標準パターンとの適合度を記憶する(ステップ
S27)。ここでの記憶も、ステップS20で行なわれ
た方法と同様の方法で行なわれる。すなわち、次の入力
音声の特徴量(ケプストラム列)および1.98がRA
M34に記憶される(図3参照)。
ーンの照合後、入力音声の特徴量および入力音声と不特
定話者用標準パターンとの適合度を記憶する(ステップ
S27)。ここでの記憶も、ステップS20で行なわれ
た方法と同様の方法で行なわれる。すなわち、次の入力
音声の特徴量(ケプストラム列)および1.98がRA
M34に記憶される(図3参照)。
【0045】次の入力音声の特徴量および適合度を記憶
した後、今度は、最初の入力音声および次の入力音声の
いずれもが不特定話者用標準パターンと合致するか否か
を判断する(図5、ステップS28)。本実施例におい
ては、RAM34内に記憶された最初および次の入力音
声に対する適合度を用いて合致の判断を行なう。
した後、今度は、最初の入力音声および次の入力音声の
いずれもが不特定話者用標準パターンと合致するか否か
を判断する(図5、ステップS28)。本実施例におい
ては、RAM34内に記憶された最初および次の入力音
声に対する適合度を用いて合致の判断を行なう。
【0046】上述のように、最初および次の入力音声と
不特定話者用標準パターン“オン”のユーグリッド距離
の平均値は、共に基準値2.0以下である。したがっ
て、最初の入力音声および次の入力音声のいずれもが、
不特定話者用標準パターン“オン”に合致していると判
断される。なお、このステップにおいて、入力音声のい
ずれかの特徴量座標が標準パターンに合致しない場合、
直ちに処理を終了する(図5参照)。
不特定話者用標準パターン“オン”のユーグリッド距離
の平均値は、共に基準値2.0以下である。したがっ
て、最初の入力音声および次の入力音声のいずれもが、
不特定話者用標準パターン“オン”に合致していると判
断される。なお、このステップにおいて、入力音声のい
ずれかの特徴量座標が標準パターンに合致しない場合、
直ちに処理を終了する(図5参照)。
【0047】最初の入力音声および次の入力音声のいず
れもが不特定話者用標準パターンと合致したと判断され
ると、最初の入力音声および次の入力音声の特徴量の平
均値を特定話者用学習パターンに登録する(図5、ステ
ップS30)。すなわち、両入力音声の特徴量の平均値
が特定話者の該操作音声(“オン”)の特徴量として、
特定話者用学習パターン36Tに登録される(図7参
照)。なお、新たに登録される操作音声は、特定話者用
学習パターン36Tの最も下方に記憶される。
れもが不特定話者用標準パターンと合致したと判断され
ると、最初の入力音声および次の入力音声の特徴量の平
均値を特定話者用学習パターンに登録する(図5、ステ
ップS30)。すなわち、両入力音声の特徴量の平均値
が特定話者の該操作音声(“オン”)の特徴量として、
特定話者用学習パターン36Tに登録される(図7参
照)。なお、新たに登録される操作音声は、特定話者用
学習パターン36Tの最も下方に記憶される。
【0048】こうして登録された両入力音声の特徴量の
平均値は、それ以降、特定話者の操作音声の特徴量とな
る。したがって、該操作音声を入力した操作者が、登録
した操作音声に対応する音声を入力すると、ステップS
17の処理を行なう。
平均値は、それ以降、特定話者の操作音声の特徴量とな
る。したがって、該操作音声を入力した操作者が、登録
した操作音声に対応する音声を入力すると、ステップS
17の処理を行なう。
【0049】このように、本発明に係る音声認識装置1
00を用いると、予め定められた操作に関する音声の中
から、所望の音声を所定時間内に2回入力するだけで、
特定話者の音声として登録される。したがって、登録専
用の装置を用いることなく、容易に特定話者の変更を行
なうことが可能となる。
00を用いると、予め定められた操作に関する音声の中
から、所望の音声を所定時間内に2回入力するだけで、
特定話者の音声として登録される。したがって、登録専
用の装置を用いることなく、容易に特定話者の変更を行
なうことが可能となる。
【0050】また、一旦登録した特定話者の音声が、風
邪等により登録時の声と異なる場合であっても、所望の
音声を所定時間内に2回入力するだけで改めて特定話者
としての登録を行なうことができる。したがって、容易
に正確な音声認識を行なう事が可能となる。
邪等により登録時の声と異なる場合であっても、所望の
音声を所定時間内に2回入力するだけで改めて特定話者
としての登録を行なうことができる。したがって、容易
に正確な音声認識を行なう事が可能となる。
【0051】なお、上記実施例に係る音声認識装置10
0においては、図1、図2に示した構成をCPU40を
用いて実現した場合について説明した。しかし、確実な
音声認識を行なえるのであれば、当該各図の構成の一部
または全部をハードウェアロジックを用いて実現するよ
うにしてもよい。
0においては、図1、図2に示した構成をCPU40を
用いて実現した場合について説明した。しかし、確実な
音声認識を行なえるのであれば、当該各図の構成の一部
または全部をハードウェアロジックを用いて実現するよ
うにしてもよい。
【0052】また、図3に示す音声認識装置100にお
いて、特定話者用学習パターンが記憶されたRAM34
は、停電時等における記憶内容保護のためにバックアッ
プ電源付きのものを用いることが好ましい。
いて、特定話者用学習パターンが記憶されたRAM34
は、停電時等における記憶内容保護のためにバックアッ
プ電源付きのものを用いることが好ましい。
【0053】上記実施例においては、ステップS22に
示すように、最初の音声が入力されてから所定時間内に
次の音声の入力が1回あった場合に、登録モードとして
動作するようにしている。しかし、最初の音声の入力が
終了した後、所定時間内に複数回(例えば2回以上)の
音声の入力があった場合に登録モードとして動作するよ
うにしてもよく、また所定時間も3秒より長くしても短
くするようにしてもよい。
示すように、最初の音声が入力されてから所定時間内に
次の音声の入力が1回あった場合に、登録モードとして
動作するようにしている。しかし、最初の音声の入力が
終了した後、所定時間内に複数回(例えば2回以上)の
音声の入力があった場合に登録モードとして動作するよ
うにしてもよく、また所定時間も3秒より長くしても短
くするようにしてもよい。
【0054】さらに、上記実施例においては、入力音声
の特徴量と不特定話者用標準パターンとの照合の際(ス
テップS18およびステップS26)において、最初お
よび次の入力音声に対する候補パターンが、不特定話者
用標準パターン“オン”1つである場合について説明し
た。
の特徴量と不特定話者用標準パターンとの照合の際(ス
テップS18およびステップS26)において、最初お
よび次の入力音声に対する候補パターンが、不特定話者
用標準パターン“オン”1つである場合について説明し
た。
【0055】しかし、照合の際、最初の入力音声または
次の入力音声に対して複数の不特定話者用標準パターン
が候補パターンとなる場合がある。すなわち、複数の不
特定話者用標準パターンが入力音声に対して所定の基準
値(2.0)以下のユーグリッド距離の平均値を有する
場合がある。
次の入力音声に対して複数の不特定話者用標準パターン
が候補パターンとなる場合がある。すなわち、複数の不
特定話者用標準パターンが入力音声に対して所定の基準
値(2.0)以下のユーグリッド距離の平均値を有する
場合がある。
【0056】以下に、このような場合の処理について説
明する。例えば、ステップS18における照合で、最初
の入力音声と不特定話者用標準パターンのユーグリッド
距離の平均値が、順に“オン”1.1、“オフ”1.8
5、アップ”1.97、“ダウン”1.98であり、ス
テップS26における照合で次の入力音声に対する不特
定話者用標準パターンの適合度が、順に“オン”1.0
5、“オフ”1.90、“アップ”1.98、“ダウ
ン”1.99であったと仮定する。したがって、候補パ
ターンは、各ステップごとに4つずつとなる。
明する。例えば、ステップS18における照合で、最初
の入力音声と不特定話者用標準パターンのユーグリッド
距離の平均値が、順に“オン”1.1、“オフ”1.8
5、アップ”1.97、“ダウン”1.98であり、ス
テップS26における照合で次の入力音声に対する不特
定話者用標準パターンの適合度が、順に“オン”1.0
5、“オフ”1.90、“アップ”1.98、“ダウ
ン”1.99であったと仮定する。したがって、候補パ
ターンは、各ステップごとに4つずつとなる。
【0057】この場合は、各ステップにおいて、ユーグ
リッド距離の平均値の小さい順上位のいくつか(例えば
3つ)を選択する。すなわち、両ステップともに“候補
パターンを“オン”、“オフ”、アップ”の3つに絞り
込む。次に、その3つの候補パターンの内で同じ標準パ
ターン同士のユーグリッド距離の平均値を加算する。な
お、加算結果は“オン”が2.15、“オフ”が3.7
5であり“アップ”が3.95となる。
リッド距離の平均値の小さい順上位のいくつか(例えば
3つ)を選択する。すなわち、両ステップともに“候補
パターンを“オン”、“オフ”、アップ”の3つに絞り
込む。次に、その3つの候補パターンの内で同じ標準パ
ターン同士のユーグリッド距離の平均値を加算する。な
お、加算結果は“オン”が2.15、“オフ”が3.7
5であり“アップ”が3.95となる。
【0058】ステップS28において、両入力音声は、
加算結果の値が最も小さい標準パターンと合致すると判
断される。すなわち、この場合、両入力音声は、不特定
話者用標準パターンの“オン”に合致すると判断され
る。このような処理を行なうことにより、入力音声が、
複数の不定話者用標準パターンに合致する場合であって
も、確実な音声認識を行なう事が可能となる。
加算結果の値が最も小さい標準パターンと合致すると判
断される。すなわち、この場合、両入力音声は、不特定
話者用標準パターンの“オン”に合致すると判断され
る。このような処理を行なうことにより、入力音声が、
複数の不定話者用標準パターンに合致する場合であって
も、確実な音声認識を行なう事が可能となる。
【0059】上記の例では、ステップS18およびステ
ップS26での候補パターンが、“オン”、“オフ”、
アップ”のように3つとも同じである場合について説明
した。しかし、入力音声によっては、ステップS18に
おける候補パターンとステップS26での候補パターン
の一部が異なる場合がある。この場合、両ステップで候
補パターンとなっている標準パターンだけをユーグリッ
ド距離の平均値の加算対象とする。すなわち、両ステッ
プにおいて共に候補パターンとなった不特定話者用標準
パターンだけがS28において入力音声との合致の判断
に用いられる。
ップS26での候補パターンが、“オン”、“オフ”、
アップ”のように3つとも同じである場合について説明
した。しかし、入力音声によっては、ステップS18に
おける候補パターンとステップS26での候補パターン
の一部が異なる場合がある。この場合、両ステップで候
補パターンとなっている標準パターンだけをユーグリッ
ド距離の平均値の加算対象とする。すなわち、両ステッ
プにおいて共に候補パターンとなった不特定話者用標準
パターンだけがS28において入力音声との合致の判断
に用いられる。
【0060】なお、上記の例で候補パターンの絞り込み
を行なう際、ユーグリッド距離の平均値の小さい順の上
位3つを採るようにしたが、必ずしも3つでなくともよ
く、候補パターンの増減に応じて2つでも4つ以上とし
てもよい。
を行なう際、ユーグリッド距離の平均値の小さい順の上
位3つを採るようにしたが、必ずしも3つでなくともよ
く、候補パターンの増減に応じて2つでも4つ以上とし
てもよい。
【0061】また、上記実施例においては、ステップS
30において、両入力音声の特徴量の平均値を特定話者
用学習パターンに特定話者の音声として記憶して処理を
終了している。しかし、ステップS30において両入力
音声の特徴量の平均値を特定話者の音声として登録する
とともに、該両入力音声の特徴量に対応する処理を行な
う処理信号を出力するようにしてもよい。
30において、両入力音声の特徴量の平均値を特定話者
用学習パターンに特定話者の音声として記憶して処理を
終了している。しかし、ステップS30において両入力
音声の特徴量の平均値を特定話者の音声として登録する
とともに、該両入力音声の特徴量に対応する処理を行な
う処理信号を出力するようにしてもよい。
【0062】上記実施例では、ステップS30で、特定
話者用学習パターンに対して最初の入力音声および次の
入力音声の特徴量の平均値を登録するようにしている。
しかし、入力音声を正確に登録できるのであれば、例え
ば特定話者用学習パターンの特徴量に対して適合度が高
い方の入力音声の特徴量を登録するようにしてもよい。
また、最初および次の入力音声の特徴量の二乗平均値、
最初の入力音声または次の入力音声のいずれか一方を任
意に登録するようにしてもよい。
話者用学習パターンに対して最初の入力音声および次の
入力音声の特徴量の平均値を登録するようにしている。
しかし、入力音声を正確に登録できるのであれば、例え
ば特定話者用学習パターンの特徴量に対して適合度が高
い方の入力音声の特徴量を登録するようにしてもよい。
また、最初および次の入力音声の特徴量の二乗平均値、
最初の入力音声または次の入力音声のいずれか一方を任
意に登録するようにしてもよい。
【0063】また、ステップS30において、特定話者
用学習パターン36Tに新たに特定話者の操作音声を登
録しようとする際、特定話者用学習パターンの記憶容量
を超える場合がある。このような場合、記憶しようとす
る操作音声と同じ操作音声の列の内で、入力音声に対応
する処理の行なわれた日が最も古い(1行目に記憶され
ている)操作音声の特徴量を消去し、その代りに新たに
登録しようとする操作音声の特徴量を特定話者用学習パ
ターンに登録するようにしてもよい。図10に、操作音
声“オン”の列の1行目に新たな“オン”の特徴量を記
憶した場合の特定話者用学習パターン36Tを示す。
用学習パターン36Tに新たに特定話者の操作音声を登
録しようとする際、特定話者用学習パターンの記憶容量
を超える場合がある。このような場合、記憶しようとす
る操作音声と同じ操作音声の列の内で、入力音声に対応
する処理の行なわれた日が最も古い(1行目に記憶され
ている)操作音声の特徴量を消去し、その代りに新たに
登録しようとする操作音声の特徴量を特定話者用学習パ
ターンに登録するようにしてもよい。図10に、操作音
声“オン”の列の1行目に新たな“オン”の特徴量を記
憶した場合の特定話者用学習パターン36Tを示す。
【0064】なお、入力音声に対応する処理の行なわれ
た日が最も古い操作音声の特徴量を1行目から順に記憶
させずに、各特徴量に入力音声に対応する処理の行なわ
れた日を付しておき、処理が行なわれた日が最も古い操
作音声の特徴量に代えて、新たに登録しようとする操作
音声の特徴量を記憶するようにしてもよい。また、各操
作音声の使用頻度を記憶しておき、使用頻度の最も低い
操作音声に代えて、新たに登録しようとする操作音声の
特徴量を記憶するようにしてもよい。
た日が最も古い操作音声の特徴量を1行目から順に記憶
させずに、各特徴量に入力音声に対応する処理の行なわ
れた日を付しておき、処理が行なわれた日が最も古い操
作音声の特徴量に代えて、新たに登録しようとする操作
音声の特徴量を記憶するようにしてもよい。また、各操
作音声の使用頻度を記憶しておき、使用頻度の最も低い
操作音声に代えて、新たに登録しようとする操作音声の
特徴量を記憶するようにしてもよい。
【0065】さらに、上記実施例にかかる音声認識装置
おいては、特徴量の抽出を行なうため、FFTを行なっ
ている。しかし、他の方法を用いてもよく、例えば、L
PC分析による方法を用いて特徴量を抽出するようにし
てもよい。
おいては、特徴量の抽出を行なうため、FFTを行なっ
ている。しかし、他の方法を用いてもよく、例えば、L
PC分析による方法を用いて特徴量を抽出するようにし
てもよい。
【0066】また、上記実施例にかかる音声認識装置お
いては、音声の特徴量としてケプストラムを用いたが、
正確な音声認識を行なえるのであれば、他の特徴量を用
いてもよく、例えば音声波形のピッチを用いるようにし
てもよい。
いては、音声の特徴量としてケプストラムを用いたが、
正確な音声認識を行なえるのであれば、他の特徴量を用
いてもよく、例えば音声波形のピッチを用いるようにし
てもよい。
【0067】さらに、上記実施例においては、FFTを
行なった後、ケプストラム列を求めることにより、特徴
量を抽出している。しかし、ケプストラム列をさらにF
FTして特徴量を抽出してもよい。
行なった後、ケプストラム列を求めることにより、特徴
量を抽出している。しかし、ケプストラム列をさらにF
FTして特徴量を抽出してもよい。
【0068】
【発明の効果】請求項1に係る音声識別装置および請求
項3の音声識別方法においては、所定の音声が複数回入
力された場合は、登録モードとして入力された音声に基
づき当該音声の特徴を登録し、そうでない場合には動作
モードとして入力音声を記憶音声の特徴と比較し、合致
する音声に対応する処理を行なう。すなわち、所定時間
内に所定の音声を複数回入力するだけで、発声者の音声
の特徴が登録され、そうでない場合には、入力された音
声の特徴を、記憶された各音声の特徴と比較し、合致す
る音声に対応する処理を行なう。したがって、装置使用
時において音声を容易に登録することができ、しかも確
実な処理を行なうことが可能となる。
項3の音声識別方法においては、所定の音声が複数回入
力された場合は、登録モードとして入力された音声に基
づき当該音声の特徴を登録し、そうでない場合には動作
モードとして入力音声を記憶音声の特徴と比較し、合致
する音声に対応する処理を行なう。すなわち、所定時間
内に所定の音声を複数回入力するだけで、発声者の音声
の特徴が登録され、そうでない場合には、入力された音
声の特徴を、記憶された各音声の特徴と比較し、合致す
る音声に対応する処理を行なう。したがって、装置使用
時において音声を容易に登録することができ、しかも確
実な処理を行なうことが可能となる。
【0069】請求項2及び請求項4に係る音声識別装置
および音声識別方法においては、処理の種類ごとに少な
くとも一の音声の特徴が記憶され、登録モード時に入力
された音声に対応する処理を行なう音声のうち入力音声
に対応する処理の行なわれた日が最も古い音声の特徴に
代えて入力された音声の特徴を登録する。すなわち、入
力音声に対応する処理が最近行なわれた発声者の音声の
特徴のみが記憶される。したがって、改めて登録をする
ことなく、確実な処理を行なうことが可能となる。
および音声識別方法においては、処理の種類ごとに少な
くとも一の音声の特徴が記憶され、登録モード時に入力
された音声に対応する処理を行なう音声のうち入力音声
に対応する処理の行なわれた日が最も古い音声の特徴に
代えて入力された音声の特徴を登録する。すなわち、入
力音声に対応する処理が最近行なわれた発声者の音声の
特徴のみが記憶される。したがって、改めて登録をする
ことなく、確実な処理を行なうことが可能となる。
【図1】本発明に係る音声認識装置の一実施例を示すブ
ロック図である。
ロック図である。
【図2】図1の音声認識装置を各部の機能に基づき表わ
したブロック図である。
したブロック図である。
【図3】図2に示した音声認識装置をCPUを用いて実
現した場合のブロック図である。
現した場合のブロック図である。
【図4】本実施例における音声認識装置の動作を示すフ
ローチャートである。
ローチャートである。
【図5】本実施例における音声認識装置の動作を示すフ
ローチャートである。
ローチャートである。
【図6】本実施例における入力音声の特徴量抽出のため
の処理を示す図である。
の処理を示す図である。
【図7】本実施例の特定話者用学習パターンの一部の記
憶状態を示す図である。
憶状態を示す図である。
【図8】入力音声と特定話者用学習パターンの操作音声
とのDPマッチング方法を示す図である。
とのDPマッチング方法を示す図である。
【図9】本実施例の不特定話者用標準パターンの一部の
記憶状態を示す図である。
記憶状態を示す図である。
【図10】最近使用されていない操作音声の代りに、新
たな操作音声の特徴量を特定話者として登録した場合の
特定話者用学習パターンの状態を示す図である。
たな操作音声の特徴量を特定話者として登録した場合の
特定話者用学習パターンの状態を示す図である。
【符号の説明】 30・・・・・入力手段 31・・・・・特徴量抽出手段 35・・・・・特徴量記憶手段 40・・・・・処理手段
Claims (4)
- 【請求項1】予め定められた音声群の中から選ばれた音
声を入力するための入力手段、 入力された音声の特徴を抽出する特徴抽出手段、 処理の種類ごとに少なくとも一の音声の特徴を記憶する
特徴記憶手段、 入力手段に音声が入力され、当該音声に続いて所定の時
間内に1以上の音声が入力された場合は、登録モードと
して動作し、そうでない場合には動作モードとして動作
する処理手段、 を備えた音声認識装置であって、 前記処理手段は、登録モード時には、前記音声および次
の音声に基づき前記特徴記憶手段に当該音声の特徴を登
録し、動作モード時には、入力された音声を前記特徴記
憶手段に記憶された各音声の特徴と比較し、合致する音
声に対応する処理を行なうこと、 を特徴とする音声認識装置。 - 【請求項2】請求項1の音声認識装置において、 前記特徴記憶手段には、処理の種類ごとに二以上の音声
の特徴が記憶されており、前記処理手段は、登録モード
時に前記特徴記憶手段に対して入力された音声に対応す
る処理を行なう音声のうち入力音声に対応する処理の行
なわれた日が最も古い音声の特徴に代えて入力された音
声の特徴を登録すること、 を特徴する音声認識装置。 - 【請求項3】予め定められた音声群の中から選ばれた音
声を入力し、 入力された音声の特徴を抽出し、 処理の種類ごとに少なくとも一の音声の特徴を記憶して
おき、 音声が入力され、当該音声に続いて所定の時間内に1以
上の次の音声が入力された場合は、登録モードとして動
作し、そうでない場合には動作モードとして動作する音
声認識方法であって、 登録モード時には、前記音声および次の音声に基づき当
該音声の特徴を登録し、動作モード時には、入力された
音声を記憶された各音声の特徴と比較し、合致する音声
に対応する処理を行なうこと、 を特徴とする音声認識方法。 - 【請求項4】請求項3の音声認識方法において、 処理の種類ごとに二以上の音声の特徴を記憶しておき、
登録モード時には、入力された音声に対応する処理を行
なう音声のうち入力音声に対応する処理の行なわれた日
が最も古い音声の特徴に代えて入力された音声の特徴を
登録すること、 を特徴する音声認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7157456A JPH096383A (ja) | 1995-06-23 | 1995-06-23 | 音声認識装置および方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7157456A JPH096383A (ja) | 1995-06-23 | 1995-06-23 | 音声認識装置および方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH096383A true JPH096383A (ja) | 1997-01-10 |
Family
ID=15650064
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7157456A Pending JPH096383A (ja) | 1995-06-23 | 1995-06-23 | 音声認識装置および方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH096383A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4985774B2 (ja) * | 2007-08-13 | 2012-07-25 | 富士通株式会社 | 検査方法 |
-
1995
- 1995-06-23 JP JP7157456A patent/JPH096383A/ja active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4985774B2 (ja) * | 2007-08-13 | 2012-07-25 | 富士通株式会社 | 検査方法 |
| US8488473B2 (en) | 2007-08-13 | 2013-07-16 | Fujitsu Limited | Voice communication quality assessing system |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6671669B1 (en) | combined engine system and method for voice recognition | |
| US4802231A (en) | Pattern recognition error reduction system | |
| JPH08314491A (ja) | ミックスチャ分解識別による話者検証方法と装置 | |
| JPH0352640B2 (ja) | ||
| US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
| WO2003015078A1 (en) | Voice registration method and system, and voice recognition method and system based on voice registration method and system | |
| US6230129B1 (en) | Segment-based similarity method for low complexity speech recognizer | |
| US4882755A (en) | Speech recognition system which avoids ambiguity when matching frequency spectra by employing an additional verbal feature | |
| CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
| US20030023434A1 (en) | Linear discriminant based sound class similarities with unit value normalization | |
| JPH03167600A (ja) | 音声認識装置 | |
| US6393397B1 (en) | Cohort model selection apparatus and method | |
| CN110875034B (zh) | 用于语音识别的模板训练方法、语音识别方法及其系统 | |
| JPH0643895A (ja) | 音声認識装置 | |
| JPH096383A (ja) | 音声認識装置および方法 | |
| JP3477751B2 (ja) | 連続単語音声認識装置 | |
| JP2001350494A (ja) | 照合装置及び照合方法 | |
| JP2506730B2 (ja) | 音声認識方法 | |
| Nath et al. | Feature Selection Method for Speaker Recognition using Neural Network | |
| KR100304665B1 (ko) | 피치 웨이브 특성을 이용한 음성 인식 장치 및 그 방법 | |
| Liu et al. | Frequency domain correspondence for speaker normalization | |
| CN110610695B (zh) | 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机 | |
| JPH0997095A (ja) | 音声認識装置 | |
| KR100488121B1 (ko) | 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법 | |
| WO2005038774A1 (en) | Adaptive sound and image learning system and method |