JPH032793A

JPH032793A - 音声認識用前処理装置

Info

Publication number: JPH032793A
Application number: JP1136873A
Authority: JP
Inventors: Hiroaki Hattori; 浩明服部
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1989-05-30
Filing date: 1989-05-30
Publication date: 1991-01-09
Anticipated expiration: 2014-03-08
Also published as: JP2867425B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は音声認識用前処理装置に関し、特に雑音下で発
声された音声を認識する音声認識装置の性能を向上させ
るための音声認識用前処理装置に関する。

（従来の技術）従来から音声認識のために、ＤＰマツチングに基づく方
法をはじめとして、さまざまなアルゴリズムが提案され
ている。それらの方法については、古井貞煕、「デジタ
ル信号処理」、東海大学出版会（以下、文献１）に詳し
い。

しかし、それらの方法を用いて雑音下で発声された音声
を認識する場合には、認識率が低下するという問題点が
あった。雑音下で発声された音声の認識が困難であるの
は、音声がこの付加雑音によりマスクされるだけでなく
、発声自身のスペクトルが変形するためである。

同一男性話者が静かな環境と高雑音下において発声した
母音／ａ／のスペクトルの例を第５図に示す、第５図に
おいて実線は静かな環境において発声された音声のスペ
クトルであり、点線は高雑音下において発声された音声
のスペクトルである。

第６図に示すように高雑音下において発声された場合は
全体のエネルギーの上昇だけでなく、そのスペクトルの
概形やホルマントの位置および帯域幅も変化している。

このような変形は例に示した母音以外でも一般に生じる
。このように、背景雑音レベルが異なる場合の発声は、
同じ母音であってもスペクトル形状が大きく異なったも
のとなるため、母音パターン間距離が大きくなり認識誤
りの原因となっている。

雑音下の音声の認識方法として既にいくつかの方法が提
案されている０例えば、雑音下音声を認識する場合、認
識時と登録時の環境が近いほど認識率はよいことがＣ，
Ｈ，Ｌｅｅ、　Ｋ、　Ｇａｎｅｓａｎによって５ｐｅｅ
ｃｈ　　ＲｅＣ０ｇｎ１ｔｉＯｎ　　Ｕｎｄｅｒ　　Ａ
ｄｄｉｔｉｖｅＮｏｉｓｅ　　　、ＩＣＡＳＳＰ　　１
９８４．３５．７゜（１９８４，３）（以下、文献２）
に開示されている。そこで、あらかじめ、多数の環境下
で発声した標準パターンを登録する方法（以下、方法１
）が考えられる。

また、梅崎、板書、「重みつきＦＦＴゲプストラム係数
と平滑化群遅延スペクトル係数による距離尺度の比較と
評価」、日本音響学会講演論文集１−５−１１、昭和６
２年１０月（以下、文献３）に、重みつきケプストラム
距離を距離尺度とする方法（以下、方法２）が雑音下音
声の認識に有効であることが報告されている。

（発明が解決しようとする課題）雑音下で発声した音声のスペクトル変形に方法１で対処
する場合には、登録時の手間や記憶量、処理量が膨大に
なるという問題点がある。また、方法２の重みつきケプ
ストラム距離はホルマントピークへの比重が高い距離尺
度であって、加法性の白色雑音等に対しては効果がある
。しかし、この方法はホルマントの位置、帯域幅の変動
の影響を受は易いため、上記のようなスペクトル変形に
は対処できない。

本発明の目的は、登録時と認識時の環境の違いを、発声
者へ音声あるいは雑音をフィードバックし補正すること
により、登録時と認識時の環境が異なる場合であっても
音声も高精度で認識する音声認識用前処理装置を提供す
ることにある。

（課題を解決するための手段）上述課題を解決するため本発明の第１の構成は、周囲雑
音を入力する雑音入力部と、周囲雑音のレベルを測定する雑音レベル測定部と、音声を入力する音声入力部と、前記雑音レベルより発声者に前記入力音声をフィードバ
ックする際の再生レベルを決定する制御部と、前記入力された音声を前記再生レベルに従って増幅する
音声増幅部と、前記増幅された音声を発声者にフィードバックするため
の音声再生部と、を備えて構成される。

また、本発明の第２の構成は、周囲雑音を入力する雑音入力部と、周囲雑音のレベルを測定する雑音レベル測定部と、音声標準パターン登録時の雑音レベルを記憶する登録時
雑音レベル記憶部と、前記雑音レベルを登録時雑音レベルと比較し発声者に提
示する雑音のレベルを決定する雑音制御部と、前記決定されたレベルの雑音を発生する雑音発生部と、前記発生された雑音を発声者に提示するための雑音再生
部と、を備えて構成される。

更に本発明の第３の構成は、周囲雑音を入力する雑音入力部と、周囲雑音のレベルを測定する雑音レベル測定部と、音声を入力する音声入力部と、前記雑音レベルから、発声者にフィードバックする音声
の再生レベルおよび提示する雑音レベルを決定する＃脚
部と、雑音を発生する雑音発生部と、入力された音声および発生した雑音を前記再生レベルお
よび雑音レベルに従って増幅、混合する増幅部と、前記増幅部の出力信号を発声者に提示するための音声再
生部と、を備えて構成される。

（作用）本発明は発声者に増幅した音声をフィードバックし、ス
ペクトル変形を防ぐことにより、高精度の音声認識装置
を実現するものである。

雑音下で生じる音声の変形（スペクトル変形を含む）は
ロンバード効果として知られている。このロンバード効
果は雑音により自分への音声のフィードバックが妨げら
れるために生じる（し。

Ｈａｒｌａｎ、　　”Ｔｈｅ　　Ｌｏｎ＋ｂａｒｄ　　
Ｓｉｇｎ　　ａｎｄ　　Ｔｈｅ　　Ｒｏｌｅｏｆ　　Ｈ
ｅａｒｉｎｇｉｎ　　５ｐｅｅｃｈ″、　Ｊｏｕｒｎａ
ｌ　　ｏｆＳｐｅｅｃｈ　　ａｎｄ　　Ｈｅａｒｉｎｇ
　　Ｒｅ５ｅａｒｃｈ、　　１　９７１　。

ｖｏｌ、１４．　　ｐｐ６７７−７０９）、そこで、発
声者に音声を増幅してフィードバックしてやれば、この
ような変形を未然に防ぐことができる。

第３図に示すのは男性話者５名が雑音レベルの異なる環
境下（０〜８０ｄＢ　（Ａ））で発声した日本語５を音
の平均パワーである０図において横軸が周囲雑音レベル
、縦軸が母音パワーである。どの話者についても約１０
ｄＢ程度の上昇が見られる。このパワーの上昇は発声者
が周囲雑音により自分の声が聞き取り辛くなったのを補
正するために生じたものである。したがって、この上昇
に見合う分だけ増幅した音声を、発声者にフィードバッ
クしてやれば、発声レベルは雑音のない状態のレベルと
なり、スペクトルの変形を抑さえることができる。　ま
た、登録時に雑音があった場合には標準パターン自身に
既にスペクトル変形が含まれている。そのような場合に
は登録時の雑音レベルを記憶しておき、認識時にその雑
音レベルに等しい雑音を発声者に提示してやることによ
り登録時と同じスペクトル変形を起こしてやることがで
きる。

〈実施例）次に本発明の実施例について図面を参照しながら説明す
る。

第１図は本発明の一実ｔ＊例を示す構成図である。

音声入力部１０１には音声信号が、雑音入力部１０２に
は周囲雑音が入力されるものとする。この際、音声入力
部には信号に周囲雑音が重畳しないように説話形マイク
を、雑音入力部には無指向性マイクを用いる。雑音レベ
ル測定部１０４は、信号線１１２から入力音声を受は取
り、雑音レベルを測定し、あらかじめ定められた時間の
平均雑音レベルを計算する。

制御部１０５は、信号線１１３より平均雑音レベルを受
は取り、再生ゲインを決定する。再生ゲインは例えば第
２図に示すような関数で決定される。この関数としては
雑音レベルの増加とともに増加するような関数であれば
よい、また、簡単には雑音レベルと再生ゲインのテーブ
ルを作成して使用してもよい。

音声増幅部１０６は、信号線１１４から再生ゲインを受
は取り、信号線１１５から受は取った音声信号を、指定
された再生ゲインで増幅し、信号線１１６を介して音声
再生部１０３へ出力する。

音声増幅部としてはゲインが措定可能で、音声帯域の増
幅のできるものが利用可能である。音声出力部としては
例えばヘッドフオンを用いる。

信号線１１１が接続された音声出力端子１０７は認識部
へ接続される。認識部としては例えば文献１の方法を用
いることができる。

また、第３図は本発明の他の実施例を示す構成図である
。

雑音入力部３０１には周囲雑音が入力される。

雑音入力部としては無指向性のマイクを用いる。

雑音レベル測定部３０２は信号線３１１から入力音声を
受は取り、雑音レベルを測定し、あらかじめ定められた
時間の平均雑音レベルを計算する。

登録時雑音レベル記憶部３０３は標準パターンが登録さ
れた時の雑音レベルを記憶しているものとする。

雑音制御部３０４は、信号線３１２より平均雑音レベル
を、信号線３１３より登録時雑音レベルを受は取り、発
声者に提示する雑音のレベルを決定する。

雑音発生部３０５は信号線３１４から提示雑音レベルを
受は取り、指定されたレベルの雑音を発生し、信号線３
１５を介して雑音再生部３０６へ出力する。雑音発生部
３０５としては例えば白色雑音発生器を用いることがで
きる。雑音再生部３０６としては例えばヘッドフォンを
用いる。

また、第４図は本発明の更に他の実施例を示す構成図で
ある。

音声入力部４０１には音声信号が、雑音入力部４０２に
は周囲雑音が入力されるものとする。この際、音声入力
部には信号に周囲雑音が重畳しないように説話形マイク
を、雑音入力部には無指向性マイクを用いる。

雑音レベル測定部４０３は、信号線４１２から入力雑音
を受は取り、雑音レベルを計算する。

制御部４０５は信号線４１３より平均雑音レベルを、あ
らかじめ定められた関数に従って音声信号および雑音の
再生ゲインを決定する。増幅部４０６は、信号線４１５
から音声および雑音の再生ゲインを受は取り、信号線４
１６から受は取った音声信号および信号４！４１７から
受は取った雑音発生部４０９からの雑音信号を、指定さ
れた再生ゲインで増幅、混合し、音声再生部４０７へ出
力する。

音声増幅部としては２系統の入力を持ち、ゲインがそれ
ぞれの入力に対し指定可能で、音声帯域の増幅のできる
ものが利用可能である。音声出力部としては例えばヘッ
ドフオンを用いる。音声出力端子４０８は認識部へ出力
される。認識部としては例えば文献１の方法を用いるこ
とができる。

（発明の効果）以上説明したように本発明による音声認識装置では雑音
下で生じるスペクトル変形を抑えることができるので、
雑音下でも高精度の認識装置を実現できる。

【図面の簡単な説明】

第１図は本発明の一実施例を示す構成図、第２図は本実
施例を説明するための説明図、第３図と第４図はそれぞ
れ本発明の他の実施例を示す構成図、第５図と第６図は
従来技術を説明するための図である。１０１・・・音声入力部、１０２・・・雑音入力部、１
０３・・・音声再生部、１０４・・・雑音レベル測定部
、１０５・・・制御部、１０６・・・音声増幅部、１０
７・・・音声出力端子、３０１・・・雑音入力部、３０
２・・・雑音レベル測定部、３０３・・・登録時雑音記
憶部、３０４・・・雑音制御部、３０５・・・雑音発生
部、３０６・・・雑音再生部、４０１・・・音声入力部
、４０２・・・雑音入力部、４０３・・・音声レベル測
定部、４０４・・・雑音レベル測定部、４０５・・・制
御部、４０６・・・増幅部、４０７・・・音声再生部、
４０８・・・音声出力端子、４０９・・・雑音発生部。

Claims

【特許請求の範囲】

（１）周囲雑音を入力する雑音入力部と、周囲雑音のレベルを測定する雑音レベル測定部と、音声を入力する音声入力部と、前記雑音レベルより発声者に前記入力音声をフィードバ
ックする際の再生レベルを決定する制御部と、前記入力された音声を前記再生レベルに従って増幅する
音声増幅部と、前記増幅された音声を発声者にフィードバックするため
の音声再生部と、を備えて構成されることを特徴とする
音声認識用前処理装置。
（２）周囲雑音を入力する雑音入力部と、周囲雑音のレベルを測定する雑音レベル測定部と、音声標準パターン登録時の雑音レベルを記憶する登録時
雑音レベル記憶部と、前記雑音レベルを登録時雑音レベルと比較し発声者に提
示する雑音のレベルを決定する雑音制御部と、前記決定されたレベルの雑音を発生する雑音発生部と、前記発生された雑音を発声者に提示するための雑音再生
部と、を備えて構成されることを特徴とする音声認識用
前処理装置。
（３）周囲雑音を入力する雑音入力部と、周囲雑音のレベルを測定する雑音レベル測定部と、音声を入力する音声入力部と、前記雑音レベルから、発声者にフィードバックする音声
の再生レベルおよび提示する雑音レベルを決定する制御
部と、雑音を発生する雑音発生部と、入力された音声および発生した雑音を前記再生レベルお
よび雑音レベルに従って増幅、混合する増幅部と、前記増幅部の出力信号を発声者に提示するための音声再
生部と、を備えて構成されることを特徴とする音声認識
用前処理装置。