JPH05289695A

JPH05289695A - 雑音下音声認識システム

Info

Publication number: JPH05289695A
Application number: JP4085839A
Authority: JP
Inventors: Toshihiro Kasuya; 敏宏糟谷; Noriya Murakami; 憲也村上
Original assignee: N T T DATA TSUSHIN KK; NTT Data Communications Systems Corp
Current assignee: N T T DATA TSUSHIN KK; NTT Data Group Corp
Priority date: 1992-04-08
Filing date: 1992-04-08
Publication date: 1993-11-05

Abstract

(57)【要約】【目的】背景雑音パワーの微小変動を考慮した背景雑
音の除去を効率良く行なうと共に、雑音下で発声された
音声に対する認識率を向上させる。【構成】入力音声の背景雑音のスペクトル情報を用い
て算出した雑音パワーの微小変動に伴う入力音声ベクト
ルの変化方向と、予め一意に設定した変化量とを用いて
入力音声ベクトルを変形し、入力音声を識別する雑音下
音声認識システムにおいて、音声区間に先行する雑音区
間を分析し、この雑音区間における雑音パワーの分散に
基づき、入力音声ベクトルの変形に用いる変化量を算出
するベクトル移動量算出部を設け、雑音区間の分析に基
づき変化量を決定し、雑音パワーの時間的変動量を正確
に反映した音声認識を行なう。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、雑音下で利用される音
声認識システムに係わり、特に、雑音下で発声された音
声に対する認識率を向上させるのに好適な雑音下音声認
識システムに関するものである。

【０００２】

【従来の技術】背景雑音の混入した音声、すなわち、雑
音下音声は、雑音のない環境で発声された音声と比較し
て、そこから抽出されるスペクトルなどの特徴パラメタ
が異なる。従って、雑音下音声の認識を行なう際には、
高い識別率を維持するために、なんらかの雑音除去処理
を行なうか、または、パラメタの変形を考慮した識別を
行なう必要がある。

【０００３】このような雑音下音声の認識率を向上させ
るための従来技術の一つに、例えば、スペクトルサブト
ラクション法（以下、ＳＳ法と記載）がある。このＳＳ
法では、まず、以下に述べるスペクトル分析などの前処
理を行なう。この場合、音声に混入した雑音成分を除去
するため、音声区間に先行する音声のない雑音のみの区
間から、雑音のスペクトルを推定し、雑音の混入した音
声から得られるスペクトルから差し引くことにより、音
声スペクトルを得る。この後、入力された音声の特徴量
を求め、予め設定登録してある標準パタンとの間で識別
処理を行ない、それらの類似度が、所定のしきい値以内
か否かによって入力音声を識別する。

【０００４】また、雑音の重畳による特徴パラメタの変
化に対応する技術の一つとして、音声認識装置を用いる
場所での背景雑音下で発声された音声を用いて、標準パ
タンを作成するものも一般に知られている。例えば、マ
ルチテンプレート法では、信号対雑音比（ＳＮ比）を、
数段設定し、設定したレベルで音声に雑音を重畳し、そ
れらの雑音重畳信号から、複数の標準パタンを作成し、
入力音声から抽出される特徴ベクトルを、入力音声のＳ
Ｎ比に近い、いずれかのテンプレートで識別させること
により、雑音下の音声を識別している。

【０００５】さらに、雑音下音声の認識率を向上させる
ための従来技術として、例えば、Ｓ．Ｆ．Ｂｏｌｌによ
る「ＩＥＥＥＴｒａｎｓ．ＡＳＳＰ−２７，，Ｎｏ
２（１９７９）」や、本発明の提案者である糟谷らによ
る「音響学会講演論文集、１−５−５（平３−１０）」
などに記載されている本発明の基礎となるものがある。
すなわち、入力音声ベクトルに背景雑音の微小変動を考
慮した変形を与えて識別を行なうことにより、雑音パワ
ーの変動に起因する識別率低下の軽減を図るものであ
る。この技術は、背景雑音のスペクトルがある程度一定
とみなせて、そのパワーのみが微小変動するモデルに基
づいており、音声から抽出される特徴ベクトルに、雑音
のパワー変動が与える影響を考慮して、入力音声ベクト
ルの変形を行なうことにより、入力を、パワー変化に追
従させるものである。図５を用いて、このような本発明
の基礎となる従来の雑音下音声認識技術の説明を行な
う。

【０００６】図５は、従来の雑音下音声認識システムの
構成を示すブロック図である。本図において、１は、音
声や背景雑音などを入力する入力装置、５２は、入力さ
れた音声の認識処理を行なう音声認識処理装置、３は、
音声認識処理装置５２の認識結果を出力する出力装置、
４は、音声認識処理装置５２の認識処理に用いる標準パ
タンを登録する標準パタン格納装置である。音声認識処
理装置５２は、入力装置１から入力された音声に対し、
ＬＰＣスペクトル分析などの前処理を行なう前処理部５
と、この前処理部５で前処理した入力音声から特徴ベク
トルを抽出する特徴抽出部６と、本雑音下音声認識シス
テムの特徴であり、この特徴抽出部６で抽出した特徴ベ
クトルに対して、背景雑音の時間的変化により生じる雑
音パワーの変化に基づき、変形を行なう特徴ベクトル変
形部７と、この特徴ベクトル変形部７で変形した入力音
声ベクトルと、標準パタン格納装置４に登録してある標
準パタンの特徴ベクトルとの距離により、入力音声を識
別する識別部８と、特徴ベクトル変形部７の特徴ベクト
ルに対する変形処理に用いるベクトルの変化方向を算出
するベクトル変化方向算出部９とにより構成されてい
る。尚、標準パタン格納部４に登録している標準パタン
の特徴ベクトルは、予め、雑音のない音声を分析して抽
出したものである。このような構成により、雑音下音声
認識システムは、音声認識処理装置５２において、ベク
トル変化方向算出部９により、その入力音声に微小な雑
音パワー（背景雑音パワー）が加わった場合の移動方向
を算出し、そして、一意に決定した入力音声ベクトルの
変化方向に対する変化量を示す分散比（σ）により、そ
の移動方向に対する冗長さを特徴ベクトルに持たせてか
ら、マッチング処理を行なう。

【０００７】以下、音声認識処理装置５２における動作
を説明する。尚、この音声認識処理装置５２では、音声
認識のための特徴量として、線形予測分析（ＬＰＣ：Ｌ
ｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）ケ
プストラム、あるいは、ケプストラムを用いることとす
る。この場合、ケプストラムは、次の数１の式で定義さ
れる。

【数１】ただし、ここで、ｓは、音声信号を表しており、数１の
式のケプストラムは、音声信号ｓのケプストラムという
意味で、Ｃｓと記述している。また、このケプストラム
Ｃｓは、入力音声ベクトルとして用いられる特徴量であ
り、ＳＳ法などでは、前処理により、予め、雑音成分が
差し引かれたケプストラムの推定値である。この時、音
声信号ｓは、ケプストラムＣｓから、逆に推定されるも
のである。

【０００８】ここで、音声信号ｓに、新たに、微小雑音
△ｎが混入すると仮定する。これは、音声に加わる雑音
パワーが変動するか、もしくは、雑音パワーの推定誤差
によるパワー変動を示すものである。雑音のパワー変動
により、数１の式のｓは、「ｓ＋△ｎ」に置き換わり、
次の数２の式のように展開される。

【数２】ここで、微小雑音△ｎによるケプストラム変化を△Ｃと
し、さらに、

【数３】と仮定すれば、

【数４】が得られ、この数４の式から算出される△Ｃベクトル
を、雑音が付加されたときのケプストラムの変化方向と
して、次の図６に示すようにして、入力音声ベクトルの
変形に利用する。

【０００９】図６は、図５における雑音下音声認識シス
テムの入力音声ベクトルの変形に係わる処理動作を示す
説明図である。本図は、上述のケプストラムの変化方向
△Ｃを考慮した入力音声ベクトルを新たに用いることに
よる、入力音声ベクトルの変形を示すものである。すな
わち、基準ベクトル（参照ベクトル）６１から見た入力
音声ベクトル６２を、雑音により、入力音声ベクトルが
変動を受ける方向６４へ、予め決められた変化量を示す
値（分散比）σに基づいて変化させ、その結果で生じる
ベクトル６３を、新たな入力音声ベクトルとみなし、雑
音パワーが変動する方向に対しては、大きな類似度を示
し、それと垂直な方向に対しては、小さな値に評価さ
れ、見かけ上の標準パタンが、図中の楕円で示すように
変化させるものである。このような距離尺度を用いるこ
とにより、入力音声ベクトルに、雑音のパワー変動を考
慮した変形を加えた効果が得られる。

【００１０】このような雑音パワーの微小変動を考慮し
た識別尺度を用いる技術は、雑音パワーの時間的な微小
変動において、入力音声に混入する雑音のスペクトル情
報を用い、入力音声ベクトルが雑音パワーの微小変動に
より変化する方向を算出して、その変化方向の類似度
が、その変化方向と垂直な方向より大きく評価されるた
めに、入力音声ベクトルを変化させることにより、雑音
パワー変動を考慮した識別を行なう技術である。しか
し、この技術では、入力音声ベクトルの変化方向に対す
る変化量を一意に決定していた。そのため、雑音パワー
の時間的変動量を正確に反映することができない。

【００１１】

【発明が解決しようとする課題】解決しようとする問題
点は、従来の技術では、入力音声ベクトルの変化方向に
対する変化量を一意に決定しているために、雑音パワー
の時間的変動量を正確に反映することができない点であ
る。本発明の目的は、これら従来技術の課題を解決し、
背景雑音パワーの微小変動を考慮した背景雑音の除去を
効率良く行なうと共に、雑音下で発声された音声に対す
る認識率を向上させることを可能とする雑音下音声認識
システムを提供することである。

【００１２】

【課題を解決するための手段】上記目的を達成するた
め、本発明の雑音下音声認識システムは、（１）入力音
声に混入する背景雑音のスペクトル情報を用いて、背景
雑音による雑音パワーの微小変動に伴う入力音声ベクト
ルの変化方向を算出し、この算出した変化方向と、予め
一意に設定した変化量とを用いて、入力音声ベクトルを
変形し、この変形後の入力音声ベクトルを用いて、標準
パタンの特徴ベクトルとのマッチングを行ない、入力音
声を識別する雑音下音声認識システムにおいて、音声区
間に先行する雑音区間を分析し、この雑音区間における
雑音パワーの分散に基づき、入力音声ベクトルの変形に
用いる変化量を算出するベクトル移動量算出部を設ける
ことを特徴とする。

【００１３】

【作用】本発明においては、ベクトル移動量算出部によ
り、音声区間に先行する雑音区間を分析し、パワーの時
系列を得て、その分散値を算出する。そして、雑音パワ
ーの変動が、音声区間においても継続すると仮定し、算
出した分散値（σ）を、その推定値として、重み付け係
数を決定する。このように、音声区間に先行する雑音区
間のパワー分散値を用いて、入力音声ベクトルに対する
冗長性に適度な値を設定することで、より雑音の特徴を
考慮した音声認識を行なうことができ、雑音が混入した
音声の識別性能を、従来より向上させることができる。
また、ＳＳ法を用いる場合、雑音除去量の過不足による
悪影響を、より軽減することができる。

【００１４】

【実施例】以下、本発明の実施例を、図面により詳細に
説明する。図１は、本発明の雑音下音声認識システムの
本発明に係わる構成の一実施例を示すブロック図であ
る。本図において、１は、音声を入力するための入力装
置、２は、本発明に係わり、入力された音声の識別処理
を行なう音声認識処理装置、３は、音声認識処理装置２
による音声の識別結果を出力するための出力装置、４
は、音声認識処理装置２による音声の識別処理に用いる
標準パタンを格納する標準パタン格納装置である。尚、
この標準パタン格納装置４に登録している標準パタンの
特徴ベクトルは、予め、雑音のない音声を分析して抽出
したものである。音声認識処理装置２は、入力された音
声に対して、ＬＰＣスペクトル分析などの前処理を行な
う前処理部５と、前処理された入力音声から特徴ベクト
ルを抽出する特徴抽出部６と、特徴抽出部６で抽出した
特徴ベクトルを、背景雑音の時間的変化により生じる雑
音パワーの変化に基づき変形させる特徴ベクトル変形部
７と、この特徴ベクトル変形部７で変形した入力音声ベ
クトルと、標準パタン格納装置４に登録してある標準パ
タンの特徴ベクトルとの距離により、入力音声を識別す
る識別部８と、特徴ベクトル変形部７の特徴ベクトルに
対する変形処理に用いるベクトルの変化方向を算出する
ベクトル変化方向算出部９と、本発明に係わり、特徴ベ
クトル変形部７の特徴ベクトルに対する変形処理に用い
るベクトルの変化量を算出するベクトル移動量算出部１
０とにより構成されている。また、このベクトル移動量
算出部１０は、音声区間に先行する雑音区間を検出する
雑音区間検出部１１と、雑音区間検出部１１で検出した
雑音区間における雑音パワーの分散を算出するパワー分
散算出部１２と、パワー分散算出部１２で算出した雑音
パワーの分散に基づき、入力音声ベクトルの変形に用い
る変化量を示す分散比（σ）を算出する分散比決定部１
３とにより構成されている。

【００１５】後述の図２と図３で示すように、雑音パワ
ーの分散値（σｎ）と、特徴量の広がりの間には、相関
があるため、本実施例の雑音下音声認識システムでは、
雑音パワーの分散を、スペクトル分散の推定に利用し、
入力音声に微小な雑音パワー（背景雑音パワー）が加わ
った場合の移動方向と移動量を算出し、その移動方向と
移動量に対する冗長さを入力音声ベクトルに持たせてか
ら、マッチング処理を行なう。すなわち、前処理部５
で、入力装置１から入力された音声（音声＋雑音）に対
して、ＬＰＣスペクトル分析を行ない、また、ＳＳ法な
どの処理を行ない、ある程度の雑音除去を行なう。その
後、特徴抽出部６により、特徴ベクトルを抽出する。一
方、ベクトル移動量算出部１０は、背景雑音パワーの分
散値（σｎ）を計算し、雑音の種類に見合う入力音声ベ
クトル変化量（分散比σ）を算出する。また、ベクトル
変化方向算出部９では、入力された音声に微小な背景雑
音が加わった場合のケプストラムの変化方向（△Ｃ）を
求める。そして、特徴ベクトル変形部７は、ベクトル変
化方向算出部９で算出した変化方向（△Ｃ）と、ベクト
ル移動量算出部１０で算出した変化量（分散比σ）とに
より、入力音声ベクトルの変形を行なう。その結果得ら
れる入力音声ベクトルを元に、識別部８は、標準パタン
格納装置４に登録してある標準パタンの特徴ベクトルと
の類似度計算（マッチング処理）を行ない、その識別結
果を、出力装置３に出力する。このように、雑音パワー
の分散をスペクトル分散の推定に利用することにより、
入力音声ベクトルに対する冗長性に適度な値を設定する
ことができ、雑音が混入した音声の識別性能を、従来よ
り向上させることができる。また、ＳＳ法を用いる場
合、雑音除去量の過不足による悪影響を、より軽減する
ことができる。

【００１６】図２は、図１における音声認識処理装置に
入力される背景雑音の時間的なパワー変化の一例を示す
説明図である。図２（ａ）においては、駅コンコースの
雑音パワー２１の変化を、また、図２（ｂ）において
は、電話ボックス内の雑音パワー２２の変化の例を示し
ている。そして、図２（ａ）において、２３は、雑音パ
ワー２１から算出されるパワー分散値（σｎ）を、ま
た、図２（ｂ）において、２４は、雑音パワー２２から
算出されるパワー分散値（σｎ）を表しており、雑音の
種類により異なる。

【００１７】図３は、図２におけるそれぞれの雑音を含
む音声の特徴量の成分分布を示す説明図である。図３
（ａ）、および、図３（ｂ）は、それぞれ、図２
（ａ）、（ｂ）で示した雑音を、数千サンプルの音声／
ａ／に重畳した音声データから、特徴量を抽出して、主
成分分析したものを、その主成分と、第二成分に関して
表示したものである。図３（ａ）において、特徴量の広
がり３１は、図２（ａ）における雑音パワー２１で示す
データに対応しており、また、図３（ｂ）において、特
徴量の広がり３２は、図２（ｂ）における雑音パワー２
２で示すデータに対応している。このように、図２、お
よび、図３で示すように、雑音パワーの分散値（σｎ）
と、特徴量の広がりの間には、相関があるため、雑音パ
ワーの分散を、スペクトル分散の推定に利用すること
は、有効であるといえる。

【００１８】図４は、図１におけるベクトル移動量算出
部の本発明に係わる処理動作の一実施例示すフローチャ
ートである。本実施例は、雑音を含む音声入力波形か
ら、入力音声ベクトル変化量を決定する処理の流れを示
したものである。まず、入力音声波形から、雑音区間を
検出し（ステップ４０１）、音声区間と同様に、フレー
ム分割し、かつ、同条件で、それぞれのフレームで、雑
音スペクトルとパワーを求める。その情報から、雑音パ
ワーのバラツキの程度の指標値となる雑音パワーの分散
値（σｎ）を求める（ステップ４０２）。入力音声ベク
トルの変形は、雑音パワーの変動を仮定しているため、
どの程度の変動があるかを、雑音区間を分析することに
より反映させる。実際には、得られた分散値（σｎ）に
比例する値を、次の数５の式に従い、分散比（σ）に設
定する（ステップ４０３）。

【数５】尚、ここで、λは、実験的に決定される定数である。こ
のように、本処理を行なうベクトル移動量算出部を、図
５に示す従来の雑音下音声認識システムに、新たに追加
することにより、図１に示す雑音下音声認識システム
は、従来は一意に決定していた分散比（σ）を、音声区
間に先行する雑音区間の分析に基づき決定し、入力雑音
の種類の変化に対して、より正確に、入力音声ベクトル
変化量を決定できる。このことにより、識別率の向上を
図ることができる。

【００１９】以上、図１〜図４を用いて説明したよう
に、本実施例の雑音下音声認識システムでは、従来は一
意に決定していた分散比（σ）を、音声区間に先行する
雑音区間の分析に基づき決定し、入力雑音の種類の変化
に対して、より正確に、入力音声ベクトル変化量を決定
できる。このことにより、識別率の向上を図ることがで
きる。尚、本発明は、図１〜図４を用いて説明した実施
例に限定されるものではない。

【００２０】

【発明の効果】本発明によれば、入力音声ベクトルの変
化方向に対する変化量を、音声区間に先行する雑音区間
の分析に基づき決定し、雑音パワーの時間的変動量を正
確に反映した音声認識を行なうことができ、背景雑音パ
ワーの微小変動を考慮した背景雑音の除去を効率良く行
なうと共に、雑音下で発声された音声に対する認識率を
向上させることが可能である。

【００２１】

【図面の簡単な説明】

【図１】本発明の雑音下音声認識システムの本発明に係
わる構成の一実施例を示すブロック図である。

【図２】図１における音声認識処理装置に入力される背
景雑音の時間的なパワー変化の一例を示す説明図であ
る。

【図３】図２におけるそれぞれの雑音を含む音声の特徴
量の成分分布を示す説明図である。

【図４】図１におけるベクトル移動量算出部の本発明に
係わる処理動作の一実施例示すフローチャートである。

【図５】従来の雑音下音声認識システムの構成を示すブ
ロック図である。

【図６】図５における雑音下音声認識システムの入力音
声ベクトルの変形に係わる処理動作を示す説明図であ
る。

【符号の説明】

１入力装置２音声認識処理装置３出力装置４標準パタン格納装置５前処理部６特徴抽出部７特徴ベクトル変形部８識別部９ベクトル変化方向算出部１０ベクトル移動量算出部１１雑音区間検出部１２パワー分散算出部１３分散比決定部２１、２２雑音パワー２３、２４パワー分散値（σｎ）３１、３２特徴量の広がり５２音声認識処理装置６１基準ベクトル（参照ベクトル）６２入力音声ベクトル６３ベクトル６４雑音により入力音声ベクトルが変動を受ける方向

Claims

【特許請求の範囲】

【請求項１】入力音声に混入する背景雑音のスペクト
ル情報を用いて、上記背景雑音の雑音パワーの微小変動
時の入力音声ベクトルの変化方向を算出し、該算出した
変化方向と、予め一意に設定した変化量とを用いて、上
記入力音声ベクトルを変形し、該変形後の入力音声ベク
トルを用いて、標準パタンの特徴ベクトルとのマッチン
グを行ない、上記入力音声を識別する雑音下音声認識シ
ステムにおいて、音声区間に先行する雑音区間を分析
し、該雑音区間における雑音パワーの分散に基づき、上
記入力音声ベクトルの変形に用いる変化量を算出するベ
クトル移動量算出手段を設けることを特徴とする雑音下
音声認識システム。