JPH0754434B2

JPH0754434B2 - 音声認識装置

Info

Publication number: JPH0754434B2
Application number: JP1114733A
Authority: JP
Inventors: 由実滝沢
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1989-05-08
Filing date: 1989-05-08
Publication date: 1995-06-07
Anticipated expiration: 2010-06-07
Also published as: JPH02293797A

Description

【発明の詳細な説明】産業上の利用分野本発明は、音声認識装置に関するものである。

従来の技術近年、音声認識技術の発達と共に、音声認識装置が様々
の分野で実用化されようとしているが、実用化するため
には、認識装置を実際に使用する上での様々の問題点を
解消する必要がある。この実用上の問題点の１つに、音
声入力時のSN比が低い場合に、雑音を音声区間として誤
検出してしまい、その結果、誤認識してしまうという点
がある。

従来の音声認識装置では、上記問題点を解決するため
に、あらかじめ音声を入力する直前に背景雑音を入力し
てそのパワーを調べ、音声区間を検出するための閾値を
上記パワー以上に設定しておき、設定された閾値を用い
て音声区間を検出する。この方法により、SN比が低い環
境でも雑音を音声区間として誤検出することなく、誤認
識率が少なくなる。

以下，図面を参照しながら、上述したような従来の音声
認識装置について説明を行う。第３図は、従来の登録型
単語音声認識装置のブロック図である。同図において、
１は音声入力端子,2は分析部、16は閾値設定部、17は区
間検出部、18は照合部、19は認識結果出力端子、20は登
録音声用バッファ、21は入力音声用バッファ、22、23は
スイッチである。以上のように構成された音声認識装置
について以下その動作について説明する。

まず登録時には、音声入力時直前に、音声入力端子１よ
り所定時間分の背景雑音信号が入力され、分析部２で単
位時間ごとの信号のパワーが算出され、算出結果は閾値
設定部16に入力される。閾値設定部16では上記で算出さ
れたパワーの平均値を求め、左記平均値に所定値（たと
えば6dBとする）を加えた値を区間検出閾値と設定す
る。

登録単語音声入力時には、音声入力端子１より入力され
た信号にもとづき、分析部２では単位時間毎の信号のパ
ワーと特徴パラメータが算出され、パワー算出結果は区
間検出部17に、特徴パラメータは入力音声用バッファ21
に入力される。分析方法としてたとえばLPCケプストラ
ム法を用いれば所定の個数のケプストラム係数が特徴パ
ラメータとして算出される。次に区間検出部17では単位
時間毎の信号のパワーと先に設定した区間検出閾値とを
比較し、信号のパワーが60msec以上連続して区間検出閾
値以上となる部分を音声区間と決定する。但し、信号パ
ワーが区間検出閾値以下となっても閾値以下の区間が60
msec以上連続しなければ音声区間とする。次に決定され
た音声区間分の特徴パラメータを入力音声用バッファ21
より入力し、登録音声用バッファ20に保管する。以上の
音声入力以降の処理を全認識単語分繰り返す。

次に認識時には、登録時と同様に背景雑音から区間検出
閾値を設定した後、入力音声を分析し、音声区間を検出
する。分析方法、区間検出方法共に登録時と同じであ
る。音声区間検出後、照合部18で登録音声と入力音声と
の照合を行い、最短距離を示す単語を認識結果として認
識結果出力端子19より出力する。なおスイッチ22は、音
声入力直前に雑音を入力する場合には閾値設定部16に、
音声入力時には区間検出部17と入力音声用バッファ21と
に算出結果を入力するように動作する。スイッチ23は、
登録時には登録用バッファ20に、認識時には照合部18に
特徴パラメータを入力するように動作する。

発明が解決しようとする課題しかしながら、上記のような構成では、雑音パワーの変
化に無関係に雑音を除去することは可能であるが、雑音
または発声パワーの変化に伴い音声区間の始端及び終端
位置がずれるため、登録音声または標準音声発声時と入
力音声発声時との状況が違うと異なる音声区間で照合さ
れるため、誤認識を起こしやすいという問題点を有して
いた。

本発明は、上記問題点に鑑み、登録音声または標準音声
と入力音声との音声区間のずれを防ぎ、状況の違いによ
る誤認識を軽減することができる音声認識装置を提供す
るものである。

課題を解決するための手段上記目的を達成するために請求項１記載の音声認識装置
は、入力信号の単位時間毎のパワーを検出する分析部
と、SN比を算出するSN比算出部と、SN比を考慮して区間
検出閾値を決定する閾値設定部と、決定された閾値によ
り上記入力信号の音声区間を検出する区間検出部と、登
録音声または標準音声区間を修正する区間修正部と、登
録音声または標準音声と入力音声とを照合して認識結果
を出力する照合部とから構成されている。

また請求項２記載の音声認識装置は、入力信号の単位時
間毎のパワーを検出する分析部と、信号パワーのピーク
値と雑音パワー値とを考慮して区間検出閾値を設定する
閾値設定部と、設定された閾値により上記入力信号の音
声区間の検出する区間検出部と、登録音声または標準音
声の区間を修正する区間修正部と、登録音声または標準
音声と入力音声とを照合して認識結果を出力する照合部
とから構成されている。

作用請求項１記載の音声認識装置によれば、SN比算出部でSN
比を算出し、閾値決定部でSN比が低い環境では雑音パワ
ー以上の値を、SN比が高い環境ではピーク値から所定値
を引いた値を閾値と決定した後、区間検出部で上記閾値
を用いて入力音声の区間検出を行い、さらに区間修正部
で上記閾値にて登録音声または標準音声と入力音声との
照合を行う。

また請求項２記載の音声認識装置によれば、閾値設定部
で雑音パワー値に所定値を加えた値と、ピーク値より所
定値を引いた値とを比較して大きい方の値を閾値と設定
した後、区間検出部で上記閾値を用いて入力音声の区間
検出を行い、さらに区間修正部で上記閾値にて登録音声
または標準音声区間を修正し、照合部で上記登録音声ま
たは標準音声と入力音声との照合を行う。

実施例第１図は、本発明の第１の実施例（請求項１記載の発明
に対応）における登録型単語音声認識装置のブロック図
である。

同図において、１は音声入力端子、２は分析部、３は仮
閾値設定部、４はSN比算出部、５は閾値設定部、６は区
間検出部、７は区間修正部、８は照合部、９は登録音声
用バッファ、10は入力音声用バッファ、11は認識結果出
力端子、12、13はスイッチであり、従来例（第３図参
照）と同じものは同一の番号を付与している。

以上のように構成された音声認識装置について以下その
動作について説明する。

まず登録時には、音声入力時直前に、音声入力端子１よ
り所定時間分の背景雑音信号が入力され、分析部２で単
位時間ごとの信号のパワーが算出される。算出結果は仮
閾値設定部３に入力される。仮閾値設定部３で上記パワ
ーの平均値を求め、左記平均値に所定値（本実施例では
6dBとする）加えた値を仮区間検出閾値とする。

登録単語音声入力時には、音声入力端子１より入力され
た信号にもとづき、分析部２では単位時間毎の信号のパ
ワーと特徴パラメータが算出される。パワー算出結果は
SN比算出部４に、特徴パラメータは入力音声用バッファ
10に入力される。なお分析方法は従来例と同じである。
SN比算出部４では、先に設定された仮区間検出閾値以上
の信号部を仮の音声区間として、仮音声区間内のピーク
値と先に算出された雑音パワーとの平均値の比をSN比と
して算出し、SN比が所定値（本例では24dBとする）以下
であれば登録を再度やり直すよう話者に指示し、以上の
登録処理を初めからやり直す。

SN値が24dB以上であれば閾値設定部５で、ピーク値より
所定値（本実施例では18dBとする）を引いた値を検出閾
値として決定する。区間検出部６で単位時間毎の信号パ
ワーと検出閾値とを比較し、音声区間を検出する。区間
検出方法は、従来例と同じである。次に、音声区間分の
特徴パラメータを入力音声用バッファ10より入力し、登
録音声用バッファ９に登録する。以上の登録音声入力以
降の処理を全認識単語分繰り返す。

次に認識時には、登録時と同様に背景雑音から仮区間検
出閾値を設定した後、入力音声を分析し、結果をSN比算
出部４と入力音声用バッファ10とに入力する。SN比算出
部４で登録時同様にSN比を算出し、結果を閾値設定部５
に入力する。閾値設定部５で、SN比が24dB以上であれば
ピーク値から18dBを引いた値を閾値とし、SN比が24dB以
下であれば先の仮区間検出閾値を閾値と設定した後、区
間検出部６で、左記閾値を用いて音声区間を検出する。
なお区間検出方法は登録時と同様である。

次に区間修正部７では、上記SN比が24dB以上の際には登
録された登録音声区間の修正は行なわず、SN比が24dB以
下の場合のみ、上記閾値にて登録音声の区間検出を再度
やり直す。次に照合部８で登録音声と入力音声との照合
を行い、最短距離を示す単語を認識結果として出力端子
11より出力する。なおスイッチ12は、音声入力直前に雑
音を入力する際には仮閾値設定部３に、音声入力時には
SN比算出部４と入力音声用バッファ10とに算出結果を入
力するように動作する。スイッチ13は、登録時には登録
用バッファ９に、認識時には区間修正部７に特徴パラメ
ータを入力するように動作する。

以上のように、本実施例によれば、SN比算出部４で信号
のピーク値と雑音の平均パワー値との比を算出し、閾値
設定部５で上記SN比が一定値以下の場合は雑音パワー値
に所定値を加えた値を、SN比が一定値以上の場合にはピ
ーク値より所定値を引いた値を閾値と決定し、区間検出
部６で上記閾値を用いて入力音声の区間検出を行い、区
間修正部７で上記閾値にて登録音声を修正し、照合部８
で上記登録音声と入力音声との照合を行うことにより、
登録音声と入力音声との音声区間のずれを防ぎ、状況の
違いによる誤認識を軽減することができる。

第２図は、本発明の第２の実施例（請求項２記載の発明
に対応）における登録型単語音声認識装置のブロック図
である。

同図において、１は音声入力端子、２は分析部、３は仮
閾値設定部、14は閾値設定部、６は区間検出部、７は区
間修正部、８は照合部、９は登録音声用バッファ、10は
入力音声用バッファ、11は認識結果出力端子、12、15は
スイッチであり、前記実施例と同じものは，同一の番号
を付与している。

まず登録時には、音声入力時直前に、音声入力端子１よ
り所定時間分の背景雑音信号が入力され、分析部２で単
位時間ごとの信号のパワーが算出される。算出結果は仮
閾値設定部３に入力される。仮閾値設定部３で上記パワ
ーの平均値を求め、左記平均値に一定値（本実施例では
6dBとする）加えた値を仮区間検出閾値とする。

登録単語音声入力時には、音声入力端子１より入力され
た信号にもとづき、分析部２では単位時間毎の信号のパ
ワーと特徴パラメータが算出される。パワー算出結果は
閾値設定部14に、特徴パラメータは入力音声用バッファ
10に入力される。なお分析方法は前記実施例と同じであ
る。閾値設定部14では、先に設定された仮区間検出閾値
以上の信号部を仮音声区間とし、仮音声区間内のピーク
値から所定値（本実施例では18dBとする）を加えた値と
先に算出された仮区間検出閾値とを比較し、後者の値が
大きければ登録を再度やり直すよう話者に指示し、以上
の登録処理を初めからやり直す。

前者の値が大きければ、この前者の値（ピーク値−18d
B）を検出閾値として設定し、区間検出部６で単位時間
毎の信号パワーと検出閾値とを比較し、音声区間を検出
する。区間検出方法は、従来例と同じである。次に、音
声区間分の特徴パラメータを入力音声用バッファ10より
入力し、登録音声用バッファ９に登録する。以上の登録
音声以降の処理を全認識単語分繰り返す。

次に認識時には、登録時と同様に背景雑音から仮区間検
出閾値を設定した後、入力音声を分析し、結果を閾値設
定部14と入力音声用バッファ10とに入力する。閾値設定
部14で、区間検出閾値以上の信号部を仮音声区間とし、
仮音声区間内のピーク値から18dBを引いた値と先に算出
された仮区間検出閾値とを比較し、両値の大きい方を閾
値と設定した後、区間検出部６で、左記閾値を用いて音
声区間を検出する。なお区間検出方法は登録時と同様で
ある。

次に区間修正部７では、上記閾値がピーク値から18dBを
引いた値で設定された場合には登録された登録音声区間
の修正は行なわず、閾値が仮区間検出閾値で設定された
場合のみ、上記閾値にて登録音声の区間検出を再度やり
直す。次に照合部８で登録音声と入力音声との照合を行
い、最短距離を示す単語を認識結果として出力端子11よ
り出力する。なおスイッチ15は、音声入力直前に雑音を
入力する際には仮閾値設定部３に、音声入力時には閾値
設定部14と入力音声用バッファ10とに算出結果を入力す
るように動作する。スイッチ13は、登録時には登録用バ
ッファ９に、認識時には区間修正部７に特徴パラメータ
を入力するように動作する。

以上のように，本実施例によれば、閾値設定部14で雑音
パワー値に6dBを加えた値と、ピーク値より18dBを引い
た値とを比較して大きい方を閾値と決定した後、区間検
出部６で上記閾値を用いて入力音声の区間検出を行い、
区間修正部で上記閾値にて登録音声区間を修正し、照合
部で上記登録音声と入力音声との照合を行うことによ
り、登録音声と入力音声との音声区間のずれを防ぎ、状
況の違いによる誤認識を少なくすることができる。また
本実施例は、第１の実施例に比べ、SN比を算出する手間
をかけずに同じ効果を期待できる。

発明の効果請求項１記載の音声認識装置は、SN比算出部でSN比を算
出し、閾値決定部でSN比が低い環境では雑音パワー以上
の値を、SN比が高い環境ではピーク値より所定値を引い
た値を閾値と設定した後、区間検出部で上記閾値を用い
て入力音声の区間検出を行い、さらに区間修正部で上記
閾値にて登録音声または標準音声区間を修正し、照合部
で上記登録音声または標準音声と入力音声との照合を行
うことにより、登録音声と入力音声との音声区間のずれ
を防ぎ、状況の違いによる誤認識を少なくすることがで
きる。

また請求項２記載の音声認識装置は、閾値設定部で雑音
パワー値に所定値を加えた値と、ピーク値より所定値を
引いた値とを比較して大きい方を閾値と決定した後、区
間検出部で上記閾値を用いて入力音声の区間検出を行
い、さらに区間修正部で上記閾値にて登録音声または標
準音声区間を修正し、照合部で上記登録音声または標準
音声と入力音声との照合を行うことにより、登録音声ま
たは標準音声と入力音声との音声区間のずれを防ぎ、状
況の違いによる誤認識を少なくすることができる。また
上記発明に比べ、SN比を算出する手間をかけずに同じ効
果を期待できる。

【図面の簡単な説明】

第１図は本発明の第１の実施例における音声認識装置の
ブロック図、第２図は本発明の第２の実施例における音
声認識装置のブロック図、第３図は従来例における音声
認識装置のブロック図である。２……分析部、４……SN比算出部、５、14……閾値設定
部、６……区間検出部、７……区間修正部、８……照合
部。

Claims

【特許請求の範囲】

【請求項１】入力信号の単位時間毎のパワーを検出する
分析部と、音声パワーと雑音パワーの比（以後SN比とい
う）を算出するSN比算出部と、SN比を考慮して区間検出
閾値を決定する閾値決定部と、決定された閾値により上
記入力信号の音声区間を検出する区間検出部と、登録音
声または標準音声の区間を修正する区間修正部と、登録
音声または標準音声と入力音声とを照合して認識結果を
出力する照合部とを具備し、SN比算出部でSN比を算出
し、閾値決定部でSN比が低い環境では雑音パワー以上の
値を、SN比が高い環境では信号の最大パワー値（以後ピ
ーク値という）より所定値を引いた値を閾値と設定し、
区間検出部で上記閾値を用いて入力音声の区間検出を行
い、区間修正部で上記閾値を使って登録音声または標準
音声区間を修正し、照合部で上記登録音声または標準音
声と入力音声との照合を行うように構成したことを特徴
とする音声認識装置。
【請求項２】入力信号の単位時間毎のパワーを検出する
分析部と、信号パワーのピーク値と雑音パワー値とを考
慮して区間検出閾値を設定する閾値設定部と、設定され
た閾値により上記入力信号の音声区間を検出する区間検
出部と、登録音声または標準音声の区間を修正する区間
修正部と、登録音声または標準音声と入力音声とを照合
して認識結果を出力する照合部とを具備し、閾値設定部
で雑音パワーに所定の値を加えた値と、信号のピーク値
より所定値を引いた値を比較して大きい方の値を閾値と
設定し、区間検出部で上記閾値を用いて入力音声の区間
検出を行い、区間修正部で上記閾値にて登録音声または
標準音声区間を修正し、照合部で上記登録音声または標
準音声と入力音声との照合を行うように構成したことを
特徴とする音声認識装置。