JPH10288996A

JPH10288996A - 音声認識方法及び音声信号処理装置

Info

Publication number: JPH10288996A
Application number: JP10097547A
Authority: JP
Inventors: Kari Laurila; ローリラカリ; Olli Viikki; ビッキーオリ
Original assignee: Nokia Mobile Phones Ltd
Current assignee: Nokia Oyj
Priority date: 1997-04-11
Filing date: 1998-04-09
Publication date: 1998-10-27
Also published as: EP0871157A2; EP0871157B1; EP0871157A3; FI114247B; DE69830017D1; FI971521L; DE69830017T2; FI971521A0; US6772117B1

Abstract

(57)【要約】【課題】改良された音声認識方法及び音声信号処理装
置を提供する。【解決手段】音声認識装置の分析ユニットで作られた
特徴ベクトルが雑音の影響を補償するために修正され
る。本発明では、スライディング正規化バッファー（３
１）を使って特徴ベクトルを正規化する。本発明の方法
により、音声認識装置のトレーニング段階が実際の音声
認識段階での騒音環境とは異なる騒音環境で実行された
場合に、音声認識装置の性能が向上する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識に関し、特
に音声認識において決定されるべき各特徴ベクトル（fe
ature vector）を修正する方法に関する。本発明は、音
声認識を改良するために本発明のこの方法を使用する装
置にも関する。

【０００２】

【従来の技術】本発明は自動的音声認識に関し、特に、
ヒドゥン・マルコフモデル（Hidden Markov Models (HM
M)）に基づく音声認識に関する。ＨＭＭに基づく音声認
識は、認識可能な単語の統計的モデルに基づいている。
認識段階においては、発音された単語についてマルコフ
チェーンに基づいて観測結果及び状態遷移が計算され
て、音声認識装置のトレーニング段階で記憶された、そ
の発音された単語に対応するモデルが確率に基づいて決
定される。例えば、ヒドゥン・マルコフモデルに基づく
音声認識方法は下記の参考文献において解説されてい
る：”１９８９年２月のＩＥＥＥ会報第７７巻第２号の
中のＬ．ラビナーの”音声認識におけるヒドゥン・マル
コフモデルと選択されたアプリケーションについての指
導”（"L. Rabiner, "A tutorial on Hidden Markov Mo
dels and selected applications in speech recogniti
on", Proceedings of the IEEE, Vol. 77, No.2, Febru
ary 1989.

【０００３】

【発明が解決しようとする課題】現在の音声認識装置の
問題は、騒々しい環境の中では認識精度が著しく低下す
ることである。また、特に音声認識装置が動作するとき
の騒音条件が該音声認識装置のトレーニング段階での騒
音条件と異なる場合には該音声認識装置の性能は低下す
る。音声認識装置が使用されることのある全ての騒音環
境の影響を考慮に入れることは不可能であるので、この
ことは実際問題としては音声信号認識システムにおいて
最も解決しにくい問題の１つである。音声認識装置を利
用する装置のユーザにとっての正規の立場は、音声認識
装置のトレーニングは通常は殆ど騒音のない環境で行わ
れるけれども、その音声認識装置が例えば車内などの動
作環境で使われるときには周囲の交通やその車自体から
生じる暗騒音はトレーニング段階での殆ど静穏な暗騒音
レベルとは著しく違っているということである。

【０００４】音声認識装置の性能が使用されるマイクロ
ホンに左右されることも現在の音声認識装置の問題であ
る。特に音声認識装置のトレーニング段階で使われるマ
イクロホンが実際の音声認識段階で使われるマイクロホ
ンとは違っている場合には、その音声認識装置の性能は
著しく低下する。

【０００５】特徴ベクトルを計算する際の雑音の影響を
消去するために幾つかの方法が開発されている。しか
し、それらの方法を利用する音声認識装置は決まったコ
ンピュータ／ワークステーションのアプリケーションで
のみ利用可能であり、それらの音声認識装置では音声は
オフラインで認識される。それらの方法では、認識され
るべき音声はコンピュータのメモリーに記憶されるのが
普通である。通常、記憶される音声信号の長さは数秒で
ある。その後、特徴ベクトルは、計算時に、ファイル全
体の内容から確定される各パラメータを使って修正され
る。記憶される音声信号の長さの故に、その種の方法を
実時間音声認識に適用することはできない。

【０００６】また、正規化方法も設けられており、その
方法では音声及び雑音の両方が自分の正規化係数を持っ
ていて、それらは音声活性検出器（ＶＡＤ）を用いて適
応的に更新される。適応的更新（ａｄａｐｔｉｖｅｕ
ｐｄａｔｉｎｇ）であるために、各正規化係数の更新に
は遅延が伴うので、正規化プロセスは実用上充分な速さ
では実行されない。また、この方法もＶＡＤを必要とす
るけれども、その動作は、信号対雑音比（ＳＮＲ）の値
が低い音声認識アプリケーションではしばしば余りに不
正確である。この方法も、前記の遅延の故に実時間要件
を満たさない。

【０００７】

【課題を解決するための手段】上記の問題を解決する音
声認識方法及び装置が発明されており、その方法及び装
置により音声認識時に決定される特徴ベクトルは雑音の
影響を補償するために修正される。特徴ベクトルの修正
は、特徴ベクトルの平均値と標準偏差とを定義し、それ
らのパラメータを使って特徴ベクトルを正規化すること
によって実行される。本発明の好ましい実施例では、ス
ライディング正規化バッファー（ｓｌｉｄｉｎｇｎｏ
ｒｍａｌｉｓａｔｉｏｎｂｕｆｆｅｒ）を使って特徴
ベクトルを正規化する。本発明では、特徴ベクトルの正
規化パラメータの更新は殆ど遅延無しで実行され、実際
の正規化プロセスにおける遅延は充分に小さいので実時
間音声認識アプリケーションを実現することができる。

【０００８】また、本発明の方法によれば、音声認識装
置の性能を、使用するマイクロホンに左右されにくくす
ることができる。本発明によれば、音声認識装置の実験
段階と認識段階とで異なるマイクロホンが使われる場合
にも、同じマイクロホンがトレーニング段階及び認識段
階で使われる場合と殆ど同じ程度に、音声認識装置の高
い性能が達成される。

【０００９】本発明は、請求項１及び４の特徴付け部分
に記載されている事項を特徴とする。

【００１０】

【発明の実施の形態】図１は、本発明に適用できる公知
の音声認識装置の構造を示すブロック図である。通常、
音声認識装置の動作は、図１に示されているように、主
要な２種類の活動、即ち実際の音声認識段階１０−１
２，１４−１５と音声トレーニング段階１３とに分けら
れる。音声認識装置はマイクロホンから入力として音声
信号ｓ（ｎ）を受け取り、この信号は、例えば８ｋＨｚ
のサンプリング周波数及び１サンプルあたり１２ビット
の分解能を使用するＡ／Ｄ変換器１０によってデジタル
形に変換される。通常、音声認識装置はいわゆるフロン
ト・エンド１１を有し、ここで音声信号が分析されて特
徴ベクトル１２がモデル化される。特徴ベクトルは特定
の期間中の該音声信号を描写するものである。特徴ベク
トルは、例えば１０ｍｓ間隔で確定される。特徴ベクト
ルを、数種類の手法でモデル化することができる。例え
ば、特徴ベクトルをモデル化するための数種類の手法が
下記の参考文献で解説されている：１９９３年９月のＩ
ＥＥＥ会報第８１巻、第９号、ｐｐ．１２１５−１２４
７，に掲載されているＪ．パイコーンの”音声認識にお
ける信号モデル化手法（J. Picone, "Signal modelling
techniques in speech recognition", IEEE Proceedin
gs, Vol. 81, No. 9, pp. 1215-1247, September 1993.
本発明において使用される特徴ベクトルは、いわゆるメ
ル−周波数セプストラル係数（Mel-Frequency Cepstral
Coefficients (MFCC)）を確定することによりモデル化
される。トレーニング段階で、音声認識装置により使用
される単語について音声認識装置のトレーニング・ブロ
ック１３において、特徴ベクトルによってモデルが作成
される。モデル・トレーニング１３ａにおいて、認識可
能な単語についてモデルが決定される。トレーニング段
階において、モデル化されるべき単語の復唱（ｒｅｐｅ
ｔｉｔｉｏｎ）を利用することができる。モデルはメモ
リー１３ｂに記憶される。音声認識時に、特徴ベクトル
は現実の認識装置１４に送られ、この装置は、ブロック
１５ａにおいて、トレーニング段階時に構成されたモデ
ルと認識可能な音声から構成されるべき特徴ベクトルと
を比較して、認識結果についての判定をブロック１５ｂ
で行う。認識結果１５は、音声認識装置を使用する人に
より発音された単語に最もよく対応する、音声認識装置
のメモリーに記憶されている単語を表示する。

【００１１】図２は、本発明に適用できるフロント・エ
ンド１１の公知の分析ブロックの構造を示している。通
常、フロント・エンド１１は、音声認識に関連する周波
数を強調するためのプリエンファシス・フィルター２０
を有する。通常、プリエンファシス・フィルター２０
は、例えば、Ｈ（ｚ）＝１−０．９５Ｚ^-1のレスポンス
を有する１次ＦＩＲフィルターなどの高域通過フィルタ
ーである。次に、ブロック２１において、フィルタリン
グされた信号からＮサンプルの長さの各フレームが形成
される。例えば、Ｎ＝２４０のサンプル長を使って、８
ｋＨｚのサンプリング周波数で３０ｍｓのフレーム構造
が作られる。通常、連続するフレーム同士がＳ個の連続
するサンプル（例えば１０ｍｓ）の程度に重なり合うい
わゆるオーバーラップ手法を使って各音声フレームを形
成することもできる。ブロック２３において音声信号に
ついて高速フーリエ変換（ＦＦＴ）周波数表示をモデル
化する前に、例えば、ブロック２２においてハミングウ
ィンドウ（Ｈａｍｍｉｎｇｗｉｎｄｏｗ）などを使って
スペクトル推定値の精度を向上させるためにいわゆるウ
ィンドウイング（ｗｉｎｄｏｗｉｎｇ）を実行すること
もできる。次に、信号のＦＦＴ表示をメル・ウィンドウ
イング・ブロック（Ｍｅｌｗｉｎｄｏｗｉｎｇｂｌ
ｏｃｋ）２４においてメル周波数表示に変換する。メル
周波数表示への変換は、それ自体としては当業者に知ら
れている。メル周波数表示への変換は参考原典”ＩＥＥ
Ｅ会報第８１巻、第９号に掲載されているＪ．パイコー
ンの”音声認識における信号モデル化手法（J. Picone,
"Signal modelling techniques in speech recognitio
n"）”で解説されている。この周波数変換で、いろいろ
な周波数に対する耳の非線形の感度を考慮に入れる。通
常、使用される周波数帯域の数（ｋ）はｋ＝２４であっ
てよい。実際の特徴ベクトル１２，即ちいわゆるセプス
トラル係数ｃ（ｉ）は、ブロック２５で形成された２６
個の対数メル値に対していわゆる離散余弦変換（ｄｉｓ
ｃｒｅｔｅｃｏｓｉｎｅｔｒａｎｓｆｏｒｍａｔｉ
ｏｎ）（ＤＣＴ）を実行することによって得られる。こ
の離散余弦変換に例えば次数Ｊ＝２４を使用することが
できる。通常、ＤＣＴ係数ｃ（ｉ）（ｉは余弦項のイン
デックスである）のうちの半分だけが使われる。通常、
実際の特徴ベクトルは、いわゆる第１段及び第２段の差
信号ｄｃ（ｉ）及びｄｄｃ（ｉ）を計算することによっ
て音声の変動過程（ダイナミックス）に関する情報も包
含する。ブロック２７においてｄｃ（ｉ）＝ｃ（ｉ）−
ｃ（ｉ−１）及びｄｄｃ（ｉ）＝ｄｃ（ｉ）−ｄｃ（ｉ
−１）を推定することにより、離散余弦変換ブロックの
連続する出力ベクトルからこれらの差信号を決定するこ
とができる。これらの２６個の追加のパラメータが考慮
される場合には、特徴ベクトルの長さは例えば１３＋２
６＝３９パラメータとなる。

【００１２】図３（Ａ）及び（Ｂ）は本発明の第１実施
例の音声認識装置の構造を示す。フロント・エンド３０
は１０ｍｓ間隔で出力信号として特徴ベクトルＸ_i，ｉ
＝１・・・Ｍ（例えばＭ＝３９）を作成する。特徴ベク
トルは正規化バッファー３１に記憶され、これにより各
特徴ベクトル成分Ｘ_i，ｉ＝１・・・Ｍ、についての平
均値μ_i及び標準偏差σ_iが次のように計算される：

【数１】

【数２】式（１）及び（２）において、Ｎは正規化バッファー
（ｎｏｒｍａｌｉｓａｔｉｏｎｂｕｆｆｅｒ）の長さ
であり、Ｍは特徴ベクトル（ｆｅａｔｕｒｅｖｅｃｔ
ｏｒ）の長さである。この後、ブロック３１において、
計算された正規化係数μ_i，σ_iを使って、認識される
べき特徴ベクトルの成分Ｘ_iが正規化される。正規化さ
れ認識されるべき特徴ベクトルＸは、図４に示されてい
るように正規化バッファー３１の中央に置かれる。

【数３】

【００１３】段落番号〔００１３〕から〔００１４〕ま
でに現れる（イ）は、下記表１に示す記号を表す。

【表１】正規化された特徴ベクトル（イ）はそれが音声認識装置
のトレーニング段階であるのか実際の音声認識段階であ
るのかにより、音声認識ユニット１４又はトレーニング
・ブロック１３に入力信号として送られる。本発明の第
１実施例の方法では、長さ（Ｎ）が固定されている正規
化バッファーが使われ、このバッファーは特徴ベクトル
上をスライドさせられる。このスライディング正規化バ
ッファーがあるので、この方法を実時間音声認識システ
ムで実行することもできる。正規化バッファー３１はＮ
＊Ｍサンプルのサイズのバッファーであり、通常は、デ
ジタル信号処理装置（ＤＳＰ）の内部メモリー構造又は
外付けメモリーを使って該ＤＳＰをプログラミングする
ことによって音声認識ユニットと関連させてこのバッフ
ァーを実現することができる。本発明の実施例の解決法
においては、正規化バッファーは１００の特徴ベクトル
の長さを持っている。一度に正規化され認識されるべき
特徴ベクトルは正規化バッファー３１の中央に置かれ
る。正規化されるべき特徴ベクトルは正規化バッファー
の中央に置かれるので、音声認識には正規化バッファー
の長さであるＮの遅延が生じる。本例の各パラメータを
使うときには、遅延は１００＊１０ｍｓ＝１秒である。
しかし、次に説明するように音声認識の始めに該バッフ
ァーの長さの一部分だけを使うことによって、この遅延
を半分にすることができる。

【００１４】図５及び図６は、フローチャートの形で、
本発明の方法の作用を示している。音声認識の始めに、
正規化バッファーの全長の半分Ｎ／２が使用されるまで
該正規化バッファーは充填される（ブロック１００−１
０２）。その後、平均値及び標準偏差の各ベクトル
μ_i，σ_iが計算され（ブロック１０３）、はじめのＮ
／２個の特徴ベクトルを使って第１特徴ベクトルが正規
化される。ブロック１５ｂ（図１）で公知の手法に従っ
てビタビ復号（Viterbi decoding）によりこの正規化さ
れた特徴ベクトル（イ）に対して実際の音声認識プロセ
スが実行される。次に、新しい特徴ベクトルが緩衝記憶
され（ブロック１０４）、記憶されている（Ｎ／２＋
１）個の特徴ベクトルを使って新しい正規化係数が計算
され、第２の特徴ベクトルが正規化されて、それに対し
て認識が実行される（ブロック１０３）。これに対応す
るプロセスが正規化バッファーが満杯になるまで続けら
れる。このときフローチャートにおいてブロック１０５
からブロック１０６への移行が行われる。このことは、
始めのＮ／２個の特徴ベクトルが認識され終わってい
て、正規化されるべき特徴ベクトルが正規化バッファー
の中央に位置していることを意味する。このとき該バッ
ファーはＦＩＦＯ原理（先入れ先出し）に従ってスライ
ドされて、新しい特徴ベクトルが計算され認識され終わ
ったならば（ブロック１０７）、最も古い特徴ベクトル
が正規化バッファーから除去される（ブロック１０
６）。認識段階の終わりに（ブロック１０７）、正規化
バッファーに記憶されている値を使って正規化係数が計
算される。これらの正規化係数が最後のＮ／２個の特徴
ベクトルの認識と関連して使用される。平均値及び標準
偏差は、正規化されていない特徴ベクトルを使って計算
される。Ｎ個の特徴ベクトルの全てに対して音声認識が
実行され終わると（ブロック１０８）、音声認識装置は
認識可能な単語の結果をモデル化する（ブロック１０
９）。

【００１５】本発明の第２の実施例では、正規化バッフ
ァーの長さは音声認識中に変化することがある。音声認
識開始時には長さが比較的に短い（例えばＮ＝４５）バ
ッファーを使うことができ、例えば各フレーム（３０ｍ
ｓ）について音声認識が進むに連れて、緩衝記憶される
べき信号の長さを大きくしてゆくことができる。この様
に、本発明の第１実施例に対する例外として、正規化さ
れるべき特徴ベクトルはバッファーの中央の特徴ベクト
ルではなくてバッファーに最初にロードされた特徴ベク
トルであってもよく、そのときのバッファーの内容の全
部を正規化係数の計算に利用することができる。この応
用例では、遅延の長さはＮであり、Ｎは音声認識の始め
でのセグメントの長さである（例えば、Ｎ＝４５）。

【００１６】本発明の１実施例では、特徴ベクトルの成
分の全てが正規化されるのではなくて、特徴ベクトルの
成分のうちの一部分に対してだけ正規化が実行される。
例えば、人の聴覚作用／音声認識に関して最も重要な成
分だけに対して正規化を実行してもよい。また、本発明
の変形例では、平均値又は標準偏差と関連させて特徴ベ
クトルに対して正規化を実行するだけでもよい。より一
般的に、特徴ベクトルの修正を如何なる統計量に関連さ
せて実行してもよい。

【００１７】図７は移動局の構造を示しており、この移
動局には、本発明を利用する音声認識装置６６が設けら
れている。この移動局は、該装置に特有の例えばマイク
ロホン６１，キーボード６２，ディスプレイ６３，スピ
ーカー６４及び制御ブロック６５などの部分からなって
おり、この制御ブロックは該移動局の動作を制御する。
また、この図は、移動局に特有の送信ブロック６７及び
受信ブロック６８も示している。制御ブロック６５は、
該移動局と関連している音声認識装置６６の動作も制御
する。この音声認識装置がそのトレーニング段階又は実
際の音声認識プロセス時に活性化されているとき、ユー
ザーが与えるオーディオコマンドが制御ブロックによっ
て制御されてマイクロホン６１から音声認識装置６６に
送られる。オーディオコマンドは別のＨＦ（hands free
（ハンドフリー））マイクロホンを通して送られてもよ
い。通常、音声認識装置はＤＳＰによって実現され、そ
の動作に必要なＲＯＭ／ＲＡＭメモリー回路を有する。

【００１８】表２は本発明の方法での音声認識装置の性
能を他の騒音補償方法と比べて示している。本発明は、
正規化されていないメル周波数セプストラル係数又はＰ
ＭＣ（Parallel Model Combination（並列モデル結
合））法の使用と比較されている。試験は、騒音の少な
い環境でモデル化されたヒドゥン・マルコフ・モデルを
使って実行された。音声認識時には、必要な信号対雑音
比を達成するために、認識されるべき単語に雑音信号が
加えられた。”クリーン”モードは、音声認識装置のト
レーニングと実際の音声認識プロセスとがともに騒音の
少ない環境で行われた事態に相当する。試験結果は、本
発明の音声認識装置が特に騒々しい環境で認識装置の信
頼性を向上させることを証明している。また、本発明の
音声認識装置は、計算に関しては本発明の方法よりはる
かに複雑なＰＭＣ法より良好に機能することが分かる。

【表２】

【００１９】本明細書では本発明を具体例により説明し
ている。例えば、上の解説では、ＨＭＭに基づく音声認
識装置で本発明を解説している。しかし、本発明は他の
手法に基づく音声認識装置に用いるのにも適している。
例えば、ニューラル・ネットワークを利用する音声認識
装置に本発明を適用することができる。本発明は上記の
実施例の詳細に限定されるものではなく、本発明の特徴
から逸脱せずに本発明を他の形でも実施し得ることは当
業者にとっては明らかなことである。上記実施例は、限
定をするものではなくて実例であると解されるべきもの
である。従って、本発明を実施し使用する可能性は特許
請求の範囲の各請求項のみによって限定される。従っ
て、各請求項により確定される、均等実施態様を含む、
本発明のいろいろな実施態様も本発明の範囲内に属す
る。

【図面の簡単な説明】

【図１】従来技術の音声認識装置の構造を示すブロック
図である。

【図２】従来技術による分析ブロックの構造を示すブロ
ック図である。

【図３】（Ａ）及び（Ｂ）は、本発明の音声認識装置の
構造を示す図である。

【図４】本発明による正規化バッファーの使用を示す図
である。

【図５】本発明による方法の作用を示すフローチャート
（その１）である。

【図６】本発明による方法の作用を示すフローチャート
（その２）である。

【図７】本発明の移動局の構造を示す図である。

【符号の説明】

１１，３０…フロント・エンド１３…音声認識装置のトレーニングブロック１４…現実の音声認識装置２０…プリエンファシス・フィルター２１…フレーム形成ブロック３１…正規化バッファー

Claims

【特許請求の範囲】

【請求項１】認識可能な音声信号を時間上で特定の長
さの連続するフレームに分割し、フレームあたりに少な
くとも１つの、該音声信号を説明するパラメータを作る
ために各音声フレームを分析し、特定のフレームに関連
する前記パラメータを記憶し、前記パラメータを修正
し、その修正されたパラメータを使って音声認識を実行
する音声認識方法であって、連続するパラメータのうち
の一部だけを定期的に記憶し、前記の修正されたパラメ
ータを作るために定期的に記憶されるパラメータに基づ
いて少なくとも１つのパラメータを修正するようになっ
ていることを特徴とする音声認識方法。
【請求項２】Ｎ個の連続するパラメータに基づいて、
次の各量すなわち平均値及び標準偏差のうちの１つを前
記修正のために確定するようになっており、Ｎは整数で
あることを特徴とする請求項１に記載の方法。
【請求項３】パラメータの前記修正は、前記各量の１
つに関連する正規化から成ることを特徴とする請求項２
に記載の方法。
【請求項４】音声信号を時間上で分割して連続するフ
レームとするための手段（２１）と、音声フレームを分
析して該音声信号を説明する少なくとも１つのパラメー
タを作るための手段（１１，３０）と、該パラメータを
記憶するための記憶手段（３１）と、前記パラメータを
修正して修正済みパラメータを作るための手段（３１）
と、その修正済みパラメータを使って音声を認識するた
めの手段（１４）とから成る音声信号処理装置であっ
て、前記記憶手段（３１）は前記の連続するパラメータ
のうちの一部だけを定期的に記憶するようになってお
り、該パラメータを修正するための前記手段（３１）
は、前記修正済みパラメータを作るために該記憶手段
（３１）に定期的に記憶されたパラメータに基づいて該
音声信号を説明する該パラメータを修正するようになっ
ていることを特徴とする音声信号処理装置。
【請求項５】前記記憶手段（３１）は一定の長さのバ
ッファー（３１）から成ることを特徴とする請求項４に
記載の装置。
【請求項６】前記記憶手段（３１）は長さが変化し得
るバッファー（３１）から成ることを特徴とする請求項
４に記載の装置。