JPH05289695A - 雑音下音声認識システム - Google Patents

雑音下音声認識システム

Info

Publication number
JPH05289695A
JPH05289695A JP4085839A JP8583992A JPH05289695A JP H05289695 A JPH05289695 A JP H05289695A JP 4085839 A JP4085839 A JP 4085839A JP 8583992 A JP8583992 A JP 8583992A JP H05289695 A JPH05289695 A JP H05289695A
Authority
JP
Japan
Prior art keywords
noise
vector
speech
input
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4085839A
Other languages
English (en)
Inventor
Toshihiro Kasuya
敏宏 糟谷
Noriya Murakami
憲也 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Group Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP4085839A priority Critical patent/JPH05289695A/ja
Publication of JPH05289695A publication Critical patent/JPH05289695A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 背景雑音パワーの微小変動を考慮した背景雑
音の除去を効率良く行なうと共に、雑音下で発声された
音声に対する認識率を向上させる。 【構成】 入力音声の背景雑音のスペクトル情報を用い
て算出した雑音パワーの微小変動に伴う入力音声ベクト
ルの変化方向と、予め一意に設定した変化量とを用いて
入力音声ベクトルを変形し、入力音声を識別する雑音下
音声認識システムにおいて、音声区間に先行する雑音区
間を分析し、この雑音区間における雑音パワーの分散に
基づき、入力音声ベクトルの変形に用いる変化量を算出
するベクトル移動量算出部を設け、雑音区間の分析に基
づき変化量を決定し、雑音パワーの時間的変動量を正確
に反映した音声認識を行なう。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、雑音下で利用される音
声認識システムに係わり、特に、雑音下で発声された音
声に対する認識率を向上させるのに好適な雑音下音声認
識システムに関するものである。
【0002】
【従来の技術】背景雑音の混入した音声、すなわち、雑
音下音声は、雑音のない環境で発声された音声と比較し
て、そこから抽出されるスペクトルなどの特徴パラメタ
が異なる。従って、雑音下音声の認識を行なう際には、
高い識別率を維持するために、なんらかの雑音除去処理
を行なうか、または、パラメタの変形を考慮した識別を
行なう必要がある。
【0003】このような雑音下音声の認識率を向上させ
るための従来技術の一つに、例えば、スペクトルサブト
ラクション法(以下、SS法と記載)がある。このSS
法では、まず、以下に述べるスペクトル分析などの前処
理を行なう。この場合、音声に混入した雑音成分を除去
するため、音声区間に先行する音声のない雑音のみの区
間から、雑音のスペクトルを推定し、雑音の混入した音
声から得られるスペクトルから差し引くことにより、音
声スペクトルを得る。この後、入力された音声の特徴量
を求め、予め設定登録してある標準パタンとの間で識別
処理を行ない、それらの類似度が、所定のしきい値以内
か否かによって入力音声を識別する。
【0004】また、雑音の重畳による特徴パラメタの変
化に対応する技術の一つとして、音声認識装置を用いる
場所での背景雑音下で発声された音声を用いて、標準パ
タンを作成するものも一般に知られている。例えば、マ
ルチテンプレート法では、信号対雑音比(SN比)を、
数段設定し、設定したレベルで音声に雑音を重畳し、そ
れらの雑音重畳信号から、複数の標準パタンを作成し、
入力音声から抽出される特徴ベクトルを、入力音声のS
N比に近い、いずれかのテンプレートで識別させること
により、雑音下の音声を識別している。
【0005】さらに、雑音下音声の認識率を向上させる
ための従来技術として、例えば、S.F.Bollによ
る「IEEE Trans. ASSP−27,,No
2(1979)」や、本発明の提案者である糟谷らによ
る「音響学会講演論文集、1−5−5(平3−10)」
などに記載されている本発明の基礎となるものがある。
すなわち、入力音声ベクトルに背景雑音の微小変動を考
慮した変形を与えて識別を行なうことにより、雑音パワ
ーの変動に起因する識別率低下の軽減を図るものであ
る。この技術は、背景雑音のスペクトルがある程度一定
とみなせて、そのパワーのみが微小変動するモデルに基
づいており、音声から抽出される特徴ベクトルに、雑音
のパワー変動が与える影響を考慮して、入力音声ベクト
ルの変形を行なうことにより、入力を、パワー変化に追
従させるものである。図5を用いて、このような本発明
の基礎となる従来の雑音下音声認識技術の説明を行な
う。
【0006】図5は、従来の雑音下音声認識システムの
構成を示すブロック図である。本図において、1は、音
声や背景雑音などを入力する入力装置、52は、入力さ
れた音声の認識処理を行なう音声認識処理装置、3は、
音声認識処理装置52の認識結果を出力する出力装置、
4は、音声認識処理装置52の認識処理に用いる標準パ
タンを登録する標準パタン格納装置である。音声認識処
理装置52は、入力装置1から入力された音声に対し、
LPCスペクトル分析などの前処理を行なう前処理部5
と、この前処理部5で前処理した入力音声から特徴ベク
トルを抽出する特徴抽出部6と、本雑音下音声認識シス
テムの特徴であり、この特徴抽出部6で抽出した特徴ベ
クトルに対して、背景雑音の時間的変化により生じる雑
音パワーの変化に基づき、変形を行なう特徴ベクトル変
形部7と、この特徴ベクトル変形部7で変形した入力音
声ベクトルと、標準パタン格納装置4に登録してある標
準パタンの特徴ベクトルとの距離により、入力音声を識
別する識別部8と、特徴ベクトル変形部7の特徴ベクト
ルに対する変形処理に用いるベクトルの変化方向を算出
するベクトル変化方向算出部9とにより構成されてい
る。尚、標準パタン格納部4に登録している標準パタン
の特徴ベクトルは、予め、雑音のない音声を分析して抽
出したものである。このような構成により、雑音下音声
認識システムは、音声認識処理装置52において、ベク
トル変化方向算出部9により、その入力音声に微小な雑
音パワー(背景雑音パワー)が加わった場合の移動方向
を算出し、そして、一意に決定した入力音声ベクトルの
変化方向に対する変化量を示す分散比(σ)により、そ
の移動方向に対する冗長さを特徴ベクトルに持たせてか
ら、マッチング処理を行なう。
【0007】以下、音声認識処理装置52における動作
を説明する。尚、この音声認識処理装置52では、音声
認識のための特徴量として、線形予測分析(LPC:L
inear Predictive Coding)ケ
プストラム、あるいは、ケプストラムを用いることとす
る。この場合、ケプストラムは、次の数1の式で定義さ
れる。
【数1】 ただし、ここで、sは、音声信号を表しており、数1の
式のケプストラムは、音声信号sのケプストラムという
意味で、Csと記述している。また、このケプストラム
Csは、入力音声ベクトルとして用いられる特徴量であ
り、SS法などでは、前処理により、予め、雑音成分が
差し引かれたケプストラムの推定値である。この時、音
声信号sは、ケプストラムCsから、逆に推定されるも
のである。
【0008】ここで、音声信号sに、新たに、微小雑音
△nが混入すると仮定する。これは、音声に加わる雑音
パワーが変動するか、もしくは、雑音パワーの推定誤差
によるパワー変動を示すものである。雑音のパワー変動
により、数1の式のsは、「s+△n」に置き換わり、
次の数2の式のように展開される。
【数2】 ここで、微小雑音△nによるケプストラム変化を△Cと
し、さらに、
【数3】 と仮定すれば、
【数4】 が得られ、この数4の式から算出される△Cベクトル
を、雑音が付加されたときのケプストラムの変化方向と
して、次の図6に示すようにして、入力音声ベクトルの
変形に利用する。
【0009】図6は、図5における雑音下音声認識シス
テムの入力音声ベクトルの変形に係わる処理動作を示す
説明図である。本図は、上述のケプストラムの変化方向
△Cを考慮した入力音声ベクトルを新たに用いることに
よる、入力音声ベクトルの変形を示すものである。すな
わち、基準ベクトル(参照ベクトル)61から見た入力
音声ベクトル62を、雑音により、入力音声ベクトルが
変動を受ける方向64へ、予め決められた変化量を示す
値(分散比)σに基づいて変化させ、その結果で生じる
ベクトル63を、新たな入力音声ベクトルとみなし、雑
音パワーが変動する方向に対しては、大きな類似度を示
し、それと垂直な方向に対しては、小さな値に評価さ
れ、見かけ上の標準パタンが、図中の楕円で示すように
変化させるものである。このような距離尺度を用いるこ
とにより、入力音声ベクトルに、雑音のパワー変動を考
慮した変形を加えた効果が得られる。
【0010】このような雑音パワーの微小変動を考慮し
た識別尺度を用いる技術は、雑音パワーの時間的な微小
変動において、入力音声に混入する雑音のスペクトル情
報を用い、入力音声ベクトルが雑音パワーの微小変動に
より変化する方向を算出して、その変化方向の類似度
が、その変化方向と垂直な方向より大きく評価されるた
めに、入力音声ベクトルを変化させることにより、雑音
パワー変動を考慮した識別を行なう技術である。しか
し、この技術では、入力音声ベクトルの変化方向に対す
る変化量を一意に決定していた。そのため、雑音パワー
の時間的変動量を正確に反映することができない。
【0011】
【発明が解決しようとする課題】解決しようとする問題
点は、従来の技術では、入力音声ベクトルの変化方向に
対する変化量を一意に決定しているために、雑音パワー
の時間的変動量を正確に反映することができない点であ
る。本発明の目的は、これら従来技術の課題を解決し、
背景雑音パワーの微小変動を考慮した背景雑音の除去を
効率良く行なうと共に、雑音下で発声された音声に対す
る認識率を向上させることを可能とする雑音下音声認識
システムを提供することである。
【0012】
【課題を解決するための手段】上記目的を達成するた
め、本発明の雑音下音声認識システムは、(1)入力音
声に混入する背景雑音のスペクトル情報を用いて、背景
雑音による雑音パワーの微小変動に伴う入力音声ベクト
ルの変化方向を算出し、この算出した変化方向と、予め
一意に設定した変化量とを用いて、入力音声ベクトルを
変形し、この変形後の入力音声ベクトルを用いて、標準
パタンの特徴ベクトルとのマッチングを行ない、入力音
声を識別する雑音下音声認識システムにおいて、音声区
間に先行する雑音区間を分析し、この雑音区間における
雑音パワーの分散に基づき、入力音声ベクトルの変形に
用いる変化量を算出するベクトル移動量算出部を設ける
ことを特徴とする。
【0013】
【作用】本発明においては、ベクトル移動量算出部によ
り、音声区間に先行する雑音区間を分析し、パワーの時
系列を得て、その分散値を算出する。そして、雑音パワ
ーの変動が、音声区間においても継続すると仮定し、算
出した分散値(σ)を、その推定値として、重み付け係
数を決定する。このように、音声区間に先行する雑音区
間のパワー分散値を用いて、入力音声ベクトルに対する
冗長性に適度な値を設定することで、より雑音の特徴を
考慮した音声認識を行なうことができ、雑音が混入した
音声の識別性能を、従来より向上させることができる。
また、SS法を用いる場合、雑音除去量の過不足による
悪影響を、より軽減することができる。
【0014】
【実施例】以下、本発明の実施例を、図面により詳細に
説明する。図1は、本発明の雑音下音声認識システムの
本発明に係わる構成の一実施例を示すブロック図であ
る。本図において、1は、音声を入力するための入力装
置、2は、本発明に係わり、入力された音声の識別処理
を行なう音声認識処理装置、3は、音声認識処理装置2
による音声の識別結果を出力するための出力装置、4
は、音声認識処理装置2による音声の識別処理に用いる
標準パタンを格納する標準パタン格納装置である。尚、
この標準パタン格納装置4に登録している標準パタンの
特徴ベクトルは、予め、雑音のない音声を分析して抽出
したものである。音声認識処理装置2は、入力された音
声に対して、LPCスペクトル分析などの前処理を行な
う前処理部5と、前処理された入力音声から特徴ベクト
ルを抽出する特徴抽出部6と、特徴抽出部6で抽出した
特徴ベクトルを、背景雑音の時間的変化により生じる雑
音パワーの変化に基づき変形させる特徴ベクトル変形部
7と、この特徴ベクトル変形部7で変形した入力音声ベ
クトルと、標準パタン格納装置4に登録してある標準パ
タンの特徴ベクトルとの距離により、入力音声を識別す
る識別部8と、特徴ベクトル変形部7の特徴ベクトルに
対する変形処理に用いるベクトルの変化方向を算出する
ベクトル変化方向算出部9と、本発明に係わり、特徴ベ
クトル変形部7の特徴ベクトルに対する変形処理に用い
るベクトルの変化量を算出するベクトル移動量算出部1
0とにより構成されている。また、このベクトル移動量
算出部10は、音声区間に先行する雑音区間を検出する
雑音区間検出部11と、雑音区間検出部11で検出した
雑音区間における雑音パワーの分散を算出するパワー分
散算出部12と、パワー分散算出部12で算出した雑音
パワーの分散に基づき、入力音声ベクトルの変形に用い
る変化量を示す分散比(σ)を算出する分散比決定部1
3とにより構成されている。
【0015】後述の図2と図3で示すように、雑音パワ
ーの分散値(σn)と、特徴量の広がりの間には、相関
があるため、本実施例の雑音下音声認識システムでは、
雑音パワーの分散を、スペクトル分散の推定に利用し、
入力音声に微小な雑音パワー(背景雑音パワー)が加わ
った場合の移動方向と移動量を算出し、その移動方向と
移動量に対する冗長さを入力音声ベクトルに持たせてか
ら、マッチング処理を行なう。すなわち、前処理部5
で、入力装置1から入力された音声(音声+雑音)に対
して、LPCスペクトル分析を行ない、また、SS法な
どの処理を行ない、ある程度の雑音除去を行なう。その
後、特徴抽出部6により、特徴ベクトルを抽出する。一
方、ベクトル移動量算出部10は、背景雑音パワーの分
散値(σn)を計算し、雑音の種類に見合う入力音声ベ
クトル変化量(分散比σ)を算出する。また、ベクトル
変化方向算出部9では、入力された音声に微小な背景雑
音が加わった場合のケプストラムの変化方向(△C)を
求める。そして、特徴ベクトル変形部7は、ベクトル変
化方向算出部9で算出した変化方向(△C)と、ベクト
ル移動量算出部10で算出した変化量(分散比σ)とに
より、入力音声ベクトルの変形を行なう。その結果得ら
れる入力音声ベクトルを元に、識別部8は、標準パタン
格納装置4に登録してある標準パタンの特徴ベクトルと
の類似度計算(マッチング処理)を行ない、その識別結
果を、出力装置3に出力する。このように、雑音パワー
の分散をスペクトル分散の推定に利用することにより、
入力音声ベクトルに対する冗長性に適度な値を設定する
ことができ、雑音が混入した音声の識別性能を、従来よ
り向上させることができる。また、SS法を用いる場
合、雑音除去量の過不足による悪影響を、より軽減する
ことができる。
【0016】図2は、図1における音声認識処理装置に
入力される背景雑音の時間的なパワー変化の一例を示す
説明図である。図2(a)においては、駅コンコースの
雑音パワー21の変化を、また、図2(b)において
は、電話ボックス内の雑音パワー22の変化の例を示し
ている。そして、図2(a)において、23は、雑音パ
ワー21から算出されるパワー分散値(σn)を、ま
た、図2(b)において、24は、雑音パワー22から
算出されるパワー分散値(σn)を表しており、雑音の
種類により異なる。
【0017】図3は、図2におけるそれぞれの雑音を含
む音声の特徴量の成分分布を示す説明図である。図3
(a)、および、図3(b)は、それぞれ、図2
(a)、(b)で示した雑音を、数千サンプルの音声/
a/に重畳した音声データから、特徴量を抽出して、主
成分分析したものを、その主成分と、第二成分に関して
表示したものである。図3(a)において、特徴量の広
がり31は、図2(a)における雑音パワー21で示す
データに対応しており、また、図3(b)において、特
徴量の広がり32は、図2(b)における雑音パワー2
2で示すデータに対応している。このように、図2、お
よび、図3で示すように、雑音パワーの分散値(σn)
と、特徴量の広がりの間には、相関があるため、雑音パ
ワーの分散を、スペクトル分散の推定に利用すること
は、有効であるといえる。
【0018】図4は、図1におけるベクトル移動量算出
部の本発明に係わる処理動作の一実施例示すフローチャ
ートである。本実施例は、雑音を含む音声入力波形か
ら、入力音声ベクトル変化量を決定する処理の流れを示
したものである。まず、入力音声波形から、雑音区間を
検出し(ステップ401)、音声区間と同様に、フレー
ム分割し、かつ、同条件で、それぞれのフレームで、雑
音スペクトルとパワーを求める。その情報から、雑音パ
ワーのバラツキの程度の指標値となる雑音パワーの分散
値(σn)を求める(ステップ402)。入力音声ベク
トルの変形は、雑音パワーの変動を仮定しているため、
どの程度の変動があるかを、雑音区間を分析することに
より反映させる。実際には、得られた分散値(σn)に
比例する値を、次の数5の式に従い、分散比(σ)に設
定する(ステップ403)。
【数5】 尚、ここで、λは、実験的に決定される定数である。こ
のように、本処理を行なうベクトル移動量算出部を、図
5に示す従来の雑音下音声認識システムに、新たに追加
することにより、図1に示す雑音下音声認識システム
は、従来は一意に決定していた分散比(σ)を、音声区
間に先行する雑音区間の分析に基づき決定し、入力雑音
の種類の変化に対して、より正確に、入力音声ベクトル
変化量を決定できる。このことにより、識別率の向上を
図ることができる。
【0019】以上、図1〜図4を用いて説明したよう
に、本実施例の雑音下音声認識システムでは、従来は一
意に決定していた分散比(σ)を、音声区間に先行する
雑音区間の分析に基づき決定し、入力雑音の種類の変化
に対して、より正確に、入力音声ベクトル変化量を決定
できる。このことにより、識別率の向上を図ることがで
きる。尚、本発明は、図1〜図4を用いて説明した実施
例に限定されるものではない。
【0020】
【発明の効果】本発明によれば、入力音声ベクトルの変
化方向に対する変化量を、音声区間に先行する雑音区間
の分析に基づき決定し、雑音パワーの時間的変動量を正
確に反映した音声認識を行なうことができ、背景雑音パ
ワーの微小変動を考慮した背景雑音の除去を効率良く行
なうと共に、雑音下で発声された音声に対する認識率を
向上させることが可能である。
【0021】
【図面の簡単な説明】
【図1】本発明の雑音下音声認識システムの本発明に係
わる構成の一実施例を示すブロック図である。
【図2】図1における音声認識処理装置に入力される背
景雑音の時間的なパワー変化の一例を示す説明図であ
る。
【図3】図2におけるそれぞれの雑音を含む音声の特徴
量の成分分布を示す説明図である。
【図4】図1におけるベクトル移動量算出部の本発明に
係わる処理動作の一実施例示すフローチャートである。
【図5】従来の雑音下音声認識システムの構成を示すブ
ロック図である。
【図6】図5における雑音下音声認識システムの入力音
声ベクトルの変形に係わる処理動作を示す説明図であ
る。
【符号の説明】
1 入力装置 2 音声認識処理装置 3 出力装置 4 標準パタン格納装置 5 前処理部 6 特徴抽出部 7 特徴ベクトル変形部 8 識別部 9 ベクトル変化方向算出部 10 ベクトル移動量算出部 11 雑音区間検出部 12 パワー分散算出部 13 分散比決定部 21、22 雑音パワー 23、24 パワー分散値(σn) 31、32 特徴量の広がり 52 音声認識処理装置 61 基準ベクトル(参照ベクトル) 62 入力音声ベクトル 63 ベクトル 64 雑音により入力音声ベクトルが変動を受ける方向

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 入力音声に混入する背景雑音のスペクト
    ル情報を用いて、上記背景雑音の雑音パワーの微小変動
    時の入力音声ベクトルの変化方向を算出し、該算出した
    変化方向と、予め一意に設定した変化量とを用いて、上
    記入力音声ベクトルを変形し、該変形後の入力音声ベク
    トルを用いて、標準パタンの特徴ベクトルとのマッチン
    グを行ない、上記入力音声を識別する雑音下音声認識シ
    ステムにおいて、音声区間に先行する雑音区間を分析
    し、該雑音区間における雑音パワーの分散に基づき、上
    記入力音声ベクトルの変形に用いる変化量を算出するベ
    クトル移動量算出手段を設けることを特徴とする雑音下
    音声認識システム。
JP4085839A 1992-04-08 1992-04-08 雑音下音声認識システム Pending JPH05289695A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4085839A JPH05289695A (ja) 1992-04-08 1992-04-08 雑音下音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4085839A JPH05289695A (ja) 1992-04-08 1992-04-08 雑音下音声認識システム

Publications (1)

Publication Number Publication Date
JPH05289695A true JPH05289695A (ja) 1993-11-05

Family

ID=13870032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4085839A Pending JPH05289695A (ja) 1992-04-08 1992-04-08 雑音下音声認識システム

Country Status (1)

Country Link
JP (1) JPH05289695A (ja)

Similar Documents

Publication Publication Date Title
JP3154487B2 (ja) 音声認識の際の雑音のロバストネスを改善するためにスペクトル的推定を行う方法
US7181390B2 (en) Noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
JP3584458B2 (ja) パターン認識装置およびパターン認識方法
US20070129941A1 (en) Preprocessing system and method for reducing FRR in speaking recognition
CN110909613A (zh) 视频人物识别方法、装置、存储介质与电子设备
EP2431972A1 (en) Method and apparatus for multi-sensory speech enhancement
CN101465122A (zh) 语音的频谱波峰的检测以及语音识别方法和系统
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
Zhu et al. A robust and lightweight voice activity detection algorithm for speech enhancement at low signal-to-noise ratio
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
CN117116290B (zh) 基于多维特征的数控机床部件缺陷定位方法和相关设备
CN120048268B (zh) 一种基于声纹识别的自适应vad参数调节方法及系统
CN110689885A (zh) 机器合成语音识别方法、装置、存储介质及电子设备
CN119517012A (zh) 一种智能语音机器人的语音识别方法及系统
CN111710332A (zh) 语音处理方法、装置、电子设备及存储介质
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden Markov models
EP1199712B1 (en) Noise reduction method
US5295190A (en) Method and apparatus for speech recognition using both low-order and high-order parameter analyzation
CN112489625A (zh) 语音情绪识别方法、系统、移动终端及存储介质
LU507134B1 (en) Intelligent voice recognition method and system for ar helmets
Singh et al. Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition
KR101671305B1 (ko) 입력 신호의 특징 파라미터 추출 장치 및 그를 이용한 화자 인식 장치
CN116364107B (zh) 一种语音信号检测方法、装置、设备及存储介质
CN119169997A (zh) 语音识别数据预处理平台
CN115359800B (zh) 发动机型号检测方法和装置、电子设备、存储介质