JPH08234788A

JPH08234788A - 音声認識のバイアス等化方法および装置

Info

Publication number: JPH08234788A
Application number: JP7338417A
Authority: JP
Inventors: Biing-Hwang Juang; ジュアンビーイング−フワン; David Mansour; マンソアディヴィット; Jay Gordon Wilpon; ゴードンウィルポンジェイ
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1994-12-30
Filing date: 1995-12-26
Publication date: 1996-09-13
Also published as: CA2165873A1; EP0720149A1; US5812972A; MX9505296A

Abstract

(57)【要約】【課題】本発明は入力の音声が認識装置に対して提供
される時に等化ベクトルを生成して更新する音声認識装
置を提供する。【解決手段】本発明は入力の音声信号を一連の特徴ベ
クトルまたは観察シーケンスに変換する音声分析装置を
含む。各特徴ベクトルは音声認識装置に接続され、音声
認識装置は以前に求められた等化ベクトルを特徴ベクト
ルから差し引くことによって修正する。次に、認識装置
はセグメンテーションを実行してその修正された特徴ベ
クトルをセグメンテーション・ベクトルとして定義され
ている記憶されたモデル・ベクトルにマッチさせる。次
に、認識装置は時々刻々、新しい等化ベクトルを求め
る。その新しい等化ベクトルは１つまたはそれ以上の入
力特徴ベクトルとそれぞれに対応するセグメンテーショ
ン・ベクトルとの間の差に基づいて定義されている。新
しい等化ベクトルはその後、同じ観察シーケンスにおい
て別のセグメンテーションの繰返しを実行するか、ある
いはそれ以降の特徴ベクトルについてセグメンテーショ
ンを実行するためのいずれかに使うことができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識、そして特
に、音声認識システムにおいてバイアス・ノイズを減ら
す方法に関する。

【０００２】

【従来の技術】音声認識は未知の音声の発声を識別する
プロセスである。一般に音声認識は未知の発声のスペク
トル的特徴を既知の語または語の列のスペクトル的特徴
に対して比較することによって行なわれる。

【０００３】既知の語または語の列のスペクトル的特徴
（または単に特徴）はトレーニング（訓練）として知ら
れているプロセスによって決定される。トレーニングに
よって、既知の語または語の列の１つまたはそれ以上の
サンプルが調べられ、それらの特徴が基準パターンとし
て、あるいは認識単位モデルとして、音声認識装置のデ
ータベースの中に記録される。通常、各認識単位モデル
は単独の既知の語を表す。

【０００４】

【発明が解決しようとする課題】しかし、認識単位モデ
ルは言語学に基づいて音素の音響的表現である単音など
の部分語のような他の長さの音声を表す場合がある。隠
れマルコフ・モデル（ＨＭＭ）認識装置として知られて
いる１つのタイプの音声認識装置において、各認識単位
モデルは各ステートが普通は部分語の単位を含んでいる
Ｎステートのシーケンスとして表される。未知の発声を
認識するために、そのような音声認識装置はその発声か
ら特徴を抽出してそれを特性付ける。その未知の発声の
特徴は特徴ベクトルまたは観察ベクトルと呼ばれる多次
元のベクトル量として定量化される。観察シーケンスは
一連の特徴ベクトルから構成される。次に、ＨＭＭ認識
装置は未知の音声の特徴ベクトルを複数の候補ＨＭＭの
中のステートに関連付けられた既知のスペクトル的特徴
に対して比較する。各ＨＭＭまたはステートのシーケン
スがどの程度良く未知の特徴ベクトルのシーケンスにマ
ッチしているかという相対的測度を提供するために、得
点の技法が使われる。観察シーケンスに対して最ももっ
ともらしいＨＭＭまたはステート・シーケンスがその発
声を識別する。最ももっともらしいステート・シーケン
スを決定することはセグメンテーションとして知られて
いる。

【０００５】そのような音声認識システムに対して提供
される音声信号はそのようなシステム、特に、ＨＭＭベ
ースの音声認識システムの性能を大幅に劣化させる変動
する条件に出会うことが多い。チャネル干渉、周囲ノイ
ズ、音声ピックアップ装置および話者のアクセントにお
ける変化などによる望ましくない信号成分のために、そ
の認識装置が実世界での応用には適さないもになってし
まう可能性がある。上記の信号の劣化は信号バイアスと
呼ばれることがある。この信号バイアスによって観察シ
ーケンスの特徴が汚染され、パターンマッチングが不可
能になる。

【０００６】信号バイアスの１つの原因であるチャネル
干渉は、電話回線上に存在する可能性のあるような回線
ノイズから構成される。チャネル干渉が時々刻々わずか
に違っても、分析された音声信号のスペクトルが大きく
変化する可能性がある。音声のピックアップ装置におけ
る変化についても同じことが言える。マイクロホンが異
なると、入力の音声信号も変わり、スペクトルに変化が
生じる。そのようなノイズ源に対処するために、音声認
識デバイスへの入力源を１つだけに限定することが考え
られるが、それは多くの応用にとって非実用的であり、
話者のアクセントまたは周囲ノイズに対する十分な対処
法とはならない。

【０００７】そのような原因によって生じるノイズまた
は信号バイアスは音声信号に対して加算的であると考え
る。言い換えれば、音声信号は中立の音声信号に信号バ
イアスが加算されたもので表すことができる。音声認識
の入力信号におけるバイアスを減らすか、あるいはそれ
に対抗するために各種の方法が確立されてきた。或るタ
イプのノイズ削減方法では推定の信号バイアスを音声信
号から取り除くことが必要となる。バイアスの除去を採
用しているシステムはノイズを１つのベクトルとして表
すことができると仮定しており、そのベクトルのことを
等化ベクトルと呼ぶことがある。与えられた観察シーケ
ンスの中の各入力特徴ベクトルから等化ベクトルが差し
引かれる。等化ベクトルを計算する従来技術による方法
としては、入力の音声が存在しない場合のチャネルの信
号の測定値を採取する方法などがある。そのような測定
によってチャネル・ノイズのスペクトル的表現が得ら
れ、それから等化ベクトルが作られる。代わりに、各ユ
ーザに既知の語彙を入力してもらい、その既知の語彙と
発声との差の測定値が等化ベクトルとして使われる。た
とえば、Ｓ．Ｊ．コックスその他による「確率的スペク
トル・フィッティングによるスーパーバイズされない話
者の適応（ＵｎｓｕｐｅｒｖｉｓｅｄＳｐｅａｋｅｒ
ＡｄａｐｔａｔｉｏｎｂｙＰｒｏｂａｌｉａｌｓ
ｉｔｉｃＳｐｅｃｔｒｕｍＦｉｔｔｉｎｇ）」Ｐｕ
ｂ．ＣＨ２６７３−２／８９／００００−０２９４
（ＩＥＥＥ１９８９）を参照されたい。

【０００８】後者の方法は最も適応性のある形式の等化
ベクトルを提供する。というのは、信号バイアスを使用
するたびに推定することができるからである。しかし、
その方法には、話者がそのシステムを訓練する必要性が
あること、あるいは言い換えれば、使用するたびに既知
の語彙をしゃべらなければならないということなどの欠
点がある。さらに、その方法は特定の使用のコース全体
にわたっての周囲ノイズまたはチャネル・ノイズの変動
を考慮していない。

【０００９】

【課題を解決するための手段】本発明は入力の音声が認
識装置に提供される時に等化ベクトルを生成し、更新す
る音声認識装置を提供する。認識装置そのものは入力音
声のセグメンテーション時に進行中に等化ベクトルを決
定する。

【００１０】特に、１つの実施例において、本発明は入
力の音声信号を一連の特徴ベクトルまたは観察シーケン
スに変換する音声分析装置を含む。次に、各特徴ベクト
ルが音声認識装置に対して提供され、音声認識装置は以
前に求めた等化ベクトルをその特徴ベクトルから差し引
くことによって修正する。次に認識装置は最ももっとも
らしいステート・シーケンス、すなわち、入力音声をモ
デル化する隠れマルコフ・モデル（ＨＭＭ）を求める。
さらに、認識装置はその修正された特徴ベクトルをセグ
メンテーション・ベクトルと呼ばれる記憶された符号一
覧表のベクトルに対してマッチさせる。次に、認識装置
は絶えずまたは周期的に、１つまたはそれ以上の入力特
徴ベクトルとそれぞれにマッチしたセグメンテーション
・ベクトルとの差に基づいた新しい等化ベクトルを求め
る。この新しい等化ベクトルを使ってそれ以降のセグメ
ンテーション動作において特徴ベクトルを修正すること
ができる。

【００１１】連続的なミクスチャＨＭＭ認識装置で使う
ための本発明の一実施例において、等化ベクトルは各観
察シーケンスのセグメンテーションが完了した後に再計
算される。最初に、観察シーケンスに対する最ももっと
もらしいステート・シーケンスが決定され、そしてその
シーケンスの中の各特徴ベクトルに対してセグメンテー
ション・ベクトルが決定される。次に、その入力特徴ベ
クトルとそれぞれに対応するセグメンテーション・ベク
トルとの差に基づいて新しい等化ベクトルが計算され
る。同じシリーズの特徴ベクトルが再セグメント化さ
れ、その等化ベクトルがふたたび計算し直される。同じ
シーケンスの特徴ベクトルを、セグメント化し直すこ
と、そしてその等化ベクトルを再計算することを何回か
行なうことによって、そのたびに、より正確なセグメン
テーションが行なわれ、最後にセグメンテーション・ベ
クトルの最終のセットを出力として提供することができ
る。

【００１２】本発明の他の特徴および利点は次の詳細説
明および付属図面を参照することによって、この分野の
技術に熟達している人には容易に明らかとなる。

【００１３】

【発明の実施の形態】図１は本発明に従って動作する音
声認識システム５０を利用している通信システム５を示
す。システム５により、電話の音声信号を使って、自動
化された呼出しルーティング・システムなどのリモート
・システム３２の動作を人間のオペレータが制御するこ
とができる。他の可能なリモート・システムとしては自
動化された銀行システムや小売り注文の処理システムな
どがある。システム５は対応するハンドセット１２を備
えている第１の電話機１０、第２の電話機２０、第１お
よび第２のループ・キャリア１５および２５、電話ネッ
トワーク３０、およびリモート・システム３２を含んで
いる。リモート・システム３２はさらにＡ／Ｄ変換器４
０、音声認識システム５０、およびコントローラ６０を
含んでいる。

【００１４】第１および第２ののループ・キャリア１５
および２５は第１および第２の電話機１０および２０を
それぞれネットワーク３０に接続する。電話機１０およ
び２０は普通の加入者の電話機ユニットであるのがふさ
わしい。ネットワーク３０はローカル・サービス・ネッ
トワーク・ノード、長距離キャリア・ノード、および関
係している交換局の任意の組合せを含むことができる。
リモート・システム３２の入力３５はネットワーク３０
をＡ／Ｄ変換器４０に接続する。また、バイパス回線６
５は入力３５をコントローラ６０にも接続する。音声認
識システム５０はＡ／Ｄ変換器４０の出力とコントロー
ラ６０との間に接続されている。音声認識システム５０
は本発明によって動作する訓練された音声認識装置を含
み、そして図２に関連して以下に説明される音声認識シ
ステム２００を含むのが適切である。

【００１５】図１に示されている実施例において、リモ
ート・システム３２は事務所用の自動化された呼出しル
ーティング・システムである。この実施例において、リ
モート・システム３２は入力の電話呼出しを、電話呼出
しの発信元の口頭による指令に基づいて、内線電話７０
および７２として示されているような電話の内線選択装
置に接続する。たとえば、内線７２に対して通話したい
顧客はリモート・システム３２との接続を確立し、内線
番号またはその顧客が連絡したい従業員の名前をたずね
る録音された音声を受信する。顧客が名前または番号を
言って応答すると、コントローラ６０は自動的にその入
ってきた呼出しを要求された内線に接続する。この目的
で、コントロール６０は電話の内線７０および７２によ
って示されているようないくつかの電話の内線に対して
バイパス回線６５を接続することができる。自動呼出し
階層システム３２の動作の一例を以下に説明する。

【００１６】最初、呼出し側の人は第１の電話機１０を
使ってループ・キャリア１５およびネットワーク３０の
上で、通常の方法で、たとえば、ハンドセット１２を取
り上げて自分が通話したい番号をダイヤルすることによ
ってリモート・システム３２との接続を確立する。リモ
ート・システム３２は他の電話と同様な方法で電話ネッ
トワーク３０に接続される。その接続が確立されると、
音声信号は電話機１０およびその入力３５との間でいず
れの方向にも進むことができる。電話機１０から入力３
５へ向かう音声信号はハンドセット１２、電話機１０、
ループ・キャリア１５、およびネットワーク３０による
ノイズを含む１つまたはそれ以上の要因によって損なわ
れるか、あるいはバイアスされる。ただし、ノイズの原
因はこれらに限定されない。音声信号はさらに話者のア
クセントによっても損なわれる可能性がある。上記の組
み合わさった効果が、底流にある音声信号に加算される
バイアス信号に貢献する。

【００１７】接続時、コントローラ６０は音声での挨拶
のメッセージを発生し、相手が接続したい内線の番号ま
たは人の名前を音声で要求する。その挨拶のメッセージ
はテープに録音されたもの、あるいはディジタル・メモ
リに記憶されているものでよい。コントローラ６０から
発せされる音声信号はバイパス回線６５の上で入力３５
を通ってネットワーク３０へ提供される。名前または内
線番号に対する要求のほかに、コントローラ６０は内線
番号または名前が分からない場合に人間の交換手に話す
ためのオプションをユーザに提供するのが適切である。

【００１８】呼出し者が特定の内線番号を識別する応答
を発声した場合、その音声の発声信号がＡ／Ｄ変換器４
０へ提供され、その発声がディジタルの音声信号に変換
される。Ａ／Ｄ変換器４０はディジタルの音声信号を音
声認識システム５０へ提供する。音声認識システム５０
は本発明に従って動作し、その音声信号の中のバイアス
を取り除き、それについて認識の操作を実行する。その
とき音声信号５０は要求された内線番号のデータ信号の
表現をコントローラ６０に提供するのが好ましい。コン
トローラ６０は要求された内線と呼出し者との間の直接
の音声による通信を確立するために、バイパス回線６５
を該当の内線に接続する。

【００１９】第２の呼出し者が第２の電話機２０から呼
出しを発生し、システム３２にアクセスした場合、同じ
手続きが実行される。しかしこの場合、第２の呼出し者
の音声信号に加えられるバイアス信号は呼出し者のアク
セント、電話の装置、ループ・キャリア、およびネット
ワーク３０の内部での仮想回路接続によってさえもその
影響を受けて、第１の呼出し者に対して加えられるバイ
アスとは異なっている。実際、そのようなバイアスはそ
のような違いのために呼出しごとに変化する。

【００２０】しかし、本発明によると、音声認識システ
ム５０は各呼出し者のバイアス信号に適応してそれを取
り除き、修正された、より中立の音声パターン信号をリ
モート・システム３２の内部に発生する。その修正され
た音声パターンは汎用音声モデルとマッチされて入力の
発声についての認識が実行される。話者は標準の語また
は句を繰り返すことは要求されない。

【００２１】図１に示されているシステム５は例として
だけ示されており、そして本発明は複数の利用者、複数
の入力音声認識システムを含む、時間的に変化する信号
バイアス源の影響を受ける任意の認識システムで使うの
に適している。

【００２２】図２は本発明によって動作する隠れマルコ
フ・モデルに基づく音声認識システム２００を示してい
る。システム２００は図１に示されている音声認識シス
テム５０として適切に使うことができる。システム２０
０は特徴分析装置２１０、認識装置２２０、データ記憶
装置２３０、およびデータ抽出装置２４０を含む。シス
テム２００は話された発声のディジタル信号表現である
入力音声信号Ｏ（ｔ）を受け取り、話された発声のデー
タ表現を含んでいる出力データ信号Ａ′（ｎ）を作り出
す。システム２００は既知の方法を使って訓練されたも
のであり、その結果の認識単位音声モデル、またはモデ
ル・ベクトルはデータ記憶装置２３０の中に記憶されて
いる。

【００２３】説明を明確にするために、図２に示されて
いる実施例は個々の機能ブロックとして提示されてい
る。これらのブロックが表している機能はソフトウエア
を実行できるハードウエアを含む、共有の、または専用
のハードウエアのいずれかを使って提供することができ
るが、それらには限定されない。たとえば、図２に示さ
れていて、以下に説明されるブロック２１０、２２０お
よび２４０の機能は単独の共有プロセッサによって提供
することができる。そのようなプロセッサはＡＴ＆Ｔの
ＤＳＰ１６またはＤＳＰ３２Ｃを含んでいてもよ
く、また以下に説明される動作を実行するソフトウエア
を記憶するための読出し専用メモリを含むことになる。
他の適切な実施例はこの分野の技術に熟達した人によっ
て容易に実施される可能性がある。

【００２４】システム２００の動作において、特徴分析
装置２１０はディジタルの音声信号源からの話された発
声を表している入力ディジタル音声信号Ｏ（ｔ）を受け
取る。この信号源は図には示されていないが、図に示さ
れている変換器４０のようなアナログ・ツー・ディジタ
ル変換器が適している。次に、特徴分析装置２１０はよ
く知られている方法を使って信号Ｏ（ｔ）を一連の特徴
ベクトル、すなわち、観察シーケンスＯ′（ｉ）（ここ
で、ｉ＝１〜Ｎ）に変換する。特徴ベクトルはｍ次元ベ
クトルであり、ｍの値は特定の時間のウインドウに関係
しているスペクトル情報を表す。

【００２５】ディジタル信号を観察シーケンスに変換す
るために、特徴分析装置２１０はまず入力音声ディジタ
ル信号の連続した複数の時間的ウインドウを定義する。
そのウインドウは普通は長さが５０ｍｓより短く、エッ
ジ効果を最小にするために隣りのウインドウとオーバラ
ップすることが多い。次に、入力音声の各ウインドウに
対して、特徴分析装置２１０は線形予測符号化などのよ
く知られた技法を実行して、ウインドウ化された音声信
号のスペクトル特性を表す係数を発生する。これらの係
数はセプストラル係数、デルタ・セプストラル係数およ
びログ・エネルギー係数を含み、これらはすべて特徴ベ
クトルの部分を含む。そのような係数を発生する方法は
既知であり、Ｌ．ラビナーその他による１９９３年プレ
ンティスホール発行の「音声認識の基本（Ｆｕｎｄａｍ
ｅｎｔａｌｓｏｆＳｐｅｅｃｈＲｅｃｏｇｎｉｔ
ｉｏｎ）」の１６３、１９６−１９８ページに記述され
ている。これはここで参照によって組み込まれている。
特徴ベクトルはトレーニング時に発生されたモデル・ベ
クトルの形式に合っていなければならない。同様な特徴
ベクトルが入力音声の定義されたウインドウのすべてに
対して発生される１つの実施例では、この特徴ベクトル
が次のコンポーネントを適切に含んでいる。１２セプストラル係数１２デルタ・セプストラル係数１正規化されたログ・エネルギー係数これらはたとえば、ラビナーその他による文献の中で説
明されている。

【００２６】次に、特徴分析装置２１０は特徴ベクト
ル、Ｏ′（ｉ）（ここで、ｉ＝１〜Ｎ）を認識装置２２
０に対して提供する。次に、認識装置２２０はその特徴
ベクトルについてセグメンテーションとしても知られて
いるパターン・マッチングを提供する。セグメンテーシ
ョンは認識装置２２０が特徴ベクトルのシーケンスに対
して最ももっともらしいステート・シーケンスまたは最
ももっともらしいＨＨＭを求めるプロセスである。最も
もっともらしい各ステート・シーケンスは語のモデルを
表すことが好ましい。認識装置２２０は適応等化を含む
新しいセグメンテーション技法を採用して、時間的に変
化するバイアス源によって生じる信号バイアスを補償す
る。

【００２７】セグメンテーションの手続きを開始するた
めに、認識装置２２０は各特徴ベクトルを受け取り、既
存の等化ベクトルをそれから差し引くことによって修正
する。等化ベクトルは話者のアクセント以外に、チャネ
ル、マイクロホンおよび周囲ノイズによって音声信号に
追加されたバイアスを近似するベクトルである。次に認
識装置は修正された特徴ベクトルを使って最ももっとも
らしいステート・シーケンスまたはＨＨＭを求める。そ
のステート・シーケンスは認識装置の出力であり、よく
知られたＨＨＭ技法を使って求められるのが好ましい。
また、認識装置は各観察ベクトルＯ′（ｉ）に対応して
いるセグメンテーション・ベクトルＡ（ｉ）を選択す
る。セグメンテーション・ベクトルはスペクトル的に観
察ベクトルに似ているベクトルであり、また求められた
ステート・シーケンスに密接に結び付けられている。

【００２８】次に認識装置２２０は時々刻々１つまたは
それ以上の入力特徴ベクトルとそれに対応しているセグ
メンテーション・ベクトルとの差を計算する。これらの
差の計算によって最近の音声サンプルに対するバイアス
の粗い推定値が得られる。この粗い推定値をスケーリン
グして使って、現在の等化ベクトルを更新または置換す
ることができる。

【００２９】認識装置２２０の動作に関する詳細は以下
に図３および４の説明に関連して提供される。

【００３０】図３に関連して以下に説明されるような複
数パスの認識装置の実施例においては、観察シーケンス
全体が認識装置２２０を通して複数回処理され、新しい
等化ベクトルが各パスの後に計算される。認識装置２２
０は代わりにワン・パス技法を採用することもできる。
これについては図４に関連して以下に説明される。

【００３１】次に認識装置２２０は最ももっともらしい
ステート・シーケンスをデータ抽出デバイス２４０に対
して提供する。このデバイスは認識された音声発声Ｏ
（ｔ）を出力として発生する。このデータ抽出デバイス
２４０はルックアップ・テーブルなどを使って、最もも
っともらしいステート・シーケンスとして表されている
識別された語または部分語のコードをデータ信号で置き
換える。たとえば、特定のステートのシーケンスＳ１、
Ｓ２、Ｓ３、Ｓ４が“ｔｈｒｅｅ”を表しているとす
る。データ抽出デバイス２４０はルックアップ・テーブ
ルを使って、その最ももっともらしいステート・シーケ
ンス、Ｓ１、Ｓ２、Ｓ３、およびＳ４を数値データの値
‘３’にマッチさせる。そのようなデータをそれ以降の
回路で使って、図１の中で示されているシステム５の場
合のように、入力音声に基づいた望ましいアクションを
発生させることができる。

【００３２】図３は図２に示されている認識装置２２０
のような、本発明に従って動作する認識装置の動作のフ
ロー図３００を示している。フロー図３００の動作を実
行する前に、認識装置は既知の方法によって訓練されて
いなければならない。

【００３３】しかし、一般に、ＨＭＭの認識装置は既知
の音声サンプルについての一次および二次の統計量、言
い換えれば、スペクトルの平均値および分散を使って訓
練されている。トレーニングにおいて、ＨＭＭと呼ばれ
る複数ステートの統計的モデルが各認識単位モデルに対
して発生される。ＨＭＭの各ステートは既知の語または
部分語におけるスペクトルの平均値および分散およびそ
れぞれの発生の可能性と関連付けられている。

【００３４】この目的のために、ＨＭＭの各ステートは
トレーニング時に導き出されたスペクトルの平均値を表
す１つまたはそれ以上のベクトルに関連付けられる。ま
た、ミクスチャ・コンポーネントとも呼ばれる各モデル
・ベクトルはトレーニング時に観測された平均ベクトル
からの変動の測度を提供する分散コンポーネントとも関
連付けられる。

【００３５】たとえば、“ｔｈｅ”という語に対する認
識単位モデルを考える。この“ｔｈｅ”という語は２つ
のステート・シーケンスＳ１、Ｓ２として表すことがで
きる。最初のステートＳ１はこの語の“ｔｈ”の部分に
対応し、第２のステートＳ２は“ｅ”の部分に対応す
る。この特定のモデルの場合、ステートＳ２は２つのモ
デル・ベクトルに関連付けられ、その１つは語“ｅａ
ｔ”の中でのような長い“ｅ”を表すもの、そしてもう
１つは語“ｗｈａｔ”の中でのような“ａｈ”の音を表
すものである。これによって、語“ｔｈｅ”が普通に発
音される異なる方法が許される。実際の状況において
は、いくつかのモデル・ベクトルまたはミクスチャ・コ
ンポーネントが抑揚および発音の変動をカバーするため
に、“ｔｈ”の音などの特定の各音と関連付けられる。

【００３６】通常、認識単位モデルに対するＨＭＭは新
しいステートへ前のステートからどのように到達するか
についての統計的記述を提供するステート遷移マトリッ
クスＡおよび、或るモデル・ベクトルが与えられたステ
ートの中でどの程度観察される可能性があるかについて
の記述を提供する観察確率マトリックスＢによって特性
付けることができる。上記のようなＨＭＭ技法は既知で
ある。たとえば、ラビナーその他による文献を参照され
たい。

【００３７】図３のフロー図は複数パス、連続ミクスチ
ャＨＭＭ認識装置における本発明のセグメンテーション
動作を表している。一般に、認識装置は観察シーケンス
を受け取り、最ももっともらしいステート・シーケンス
を生成する。たとえば、観察シーケンスＯ′（１）、
Ｏ′（２）、Ｏ′（３）、Ｏ′（４）、およびＯ′
（５）が与えられた場合、フロー図３００を実行する
と、ステート・シーケンスＳ１、Ｓ１、Ｓ１、Ｓ２、Ｓ
２が作られる。ステート・シーケンスは次にＳ１、Ｓ２
に縮小され、それは語“ｔｈｅ”が話されたことを示
す。この実施例において、認識装置は出力として最終の
最ももっともらしいステート・シーケンスを提供する前
に、発声全体または観察シーケンス全体を複数回セグメ
ント化する。

【００３８】ステップ３１０において、変数Ｍが０に設
定される。変数Ｍは観察シーケンスがセグメント化され
たパスの回数を表す。次に、ステップ３１５において、
認識装置は入力観察シーケンス、Ｏ′（ｉ）（ここで、
ｉ＝１〜Ｎ）を受け取る。ベクトルはランダム・アクセ
ス・メモリなどの中に適切に記憶されている。次に、認
識装置はステップ３２５を実行する。

【００３９】ステップ３２５において、観察シーケンス
の中の各特徴ベクトルＯ（ｉ）は等化ベクトルＥｑによ
って調整される。その調整を実行するために、ベクトル
Ｅｑが各特徴ベクトルＯ′（ｉ）から差し引かれて修正
されたＯ′′（ｉ）が生成される。ベクトルＥｑはマイ
クロホン、チャネル、話者のアクセント、などによって
追加されるバイアスの推定値を表す。Ｅｑを求める方法
についてはステップ３６０に関連して以下に示される。
しかし、最初のパスの場合、ベクトルＥｑは０にするの
が適切である。ステップ３２５における調整が完了した
後、認識装置はステップ３２７を実行する。

【００４０】ステップ３２７において、観察シーケンス
に対応している最ももっともらしいＨＭＭ、またはステ
ート・シーケンスを求めるためにダイナミック・プログ
ラミングの技法が採用されている。最ももっともらしい
ステート・シーケンスは認識された語または部分語の単
位を表す。通常、いくつかの候補のＨＭＭが考えられ
る。ステート・シーケンスを決定することの一部とし
て、修正された各特徴ベクトルＯ′′（ｉ）が各候補Ｈ
ＭＭの中の１つまたはそれ以上のステートに関連付けら
れたミクスチャ・コンポーネントと比較される。次に、
各候補ＨＭＭに対して確率マトリックスＡおよびＢを使
って最ももっともらしいＨＭＭまたはステート・シーケ
ンスが選択される。

【００４１】いくつかのよく知られたダイナミック・プ
ログラミング技法によって、最ももっともらしいステー
ト・シーケンスまたはＨＭＭを求めることができること
が知られている。１つの例は「音声および信号処理に関
するＩＥＥＥトランザクション（ＩＥＥＴｒａｎｓａ
ｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃＳｐｅｅｃｈ
＆ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ）」の３７
（ｉｉ）の１６４９−１６５８ページ（１９８９年１１
月）の中のＣ．Ｈ．リーその他による「連結された語の
認識のためのフレーム同期式ネットワーク・サーチ・ア
ルゴリズム（ＡＦｒａｍｅ−Ｓｙｎｃｈｒｏｎｏｕｓ
ＮｅｔｗｏｒｋＳｅａｒｃｈＡｌｇｏｒｉｔｈｍ
ｆｏｒＣｏｎｎｅｃｔｅｄＷｏｒｄＲｅｃｏｇｎ
ｉｔｉｏｎ）」の中で示されている。

【００４２】たとえば、上記の語“ｔｈ”に対する例を
ふたたび考える。修正された特徴ベクトルＯ′′
（１）、Ｏ′′（２）、およびＯ′′（３）はそれぞれ
“ｔｈ”を表しているミクスチャ・コンポーネントのＳ
１の１つまたはそれ以上にスペクトル的に近い類似性を
持っている可能性がある。同様に、ベクトルＯ′′
（４）およびＯ′′（５）は“ａｈ”という音を表して
いるＳ２のミクスチャ・コンポーネントに対してスペク
トル的に類似している可能性がある。ダイナミック・プ
ログラミングがその語“ｔｈｅ”が適切であることを決
定した場合、構文および語のコンテキストを考慮に入れ
て、Ｓ１、Ｓ２が最ももっともらしいステート・シーケ
ンスであることが決定される。そのような場合、Ｏ′′
（１）、Ｏ′′（２）、およびＯ′′（３）がＳ１に関
係付けられ、Ｏ′′（４）およびＯ′′（５）はＳ２に
関係付けられる。

【００４３】ステート・シーケンスが決定された後、認
識装置はステップ３３０を実行する。ステップ３３０に
おいて、認識装置は各観察ベクトルＯ′′（ｉ）に対し
てセグメンテーション・ベクトルＡ（ｉ）を選択する。

【００４４】セグメンテーション・ベクトルＡ（１）は
Ｏ′′（ｉ）に対応するシーケンスの中のステートと関
係付けられているミクスチャ・コンポーネントから選択
される。これらのミクスチャ・コンポーネントのうち、
選択されたミクスチャが修正された特徴ベクトルＯ′′
（ｉ）にスペクトル的に最も近いミクスチャである。ス
ペクトル的に近い度合いは２つのベクトル間のユークリ
ッド距離を求めることによって適切に測定することがで
きる。

【００４５】ふたたび語“ｔｈｅ”に対する例を考え
る。セグメンテーション・ベクトルＡ（１）を求めるた
めに、Ｓ１のすべてのミクスチャ・コンポーネントが修
正された特徴ベクトルＯ′′（ｉ）に対して比較され
る。ユークリッド距離が最も近いミクスチャがセグメン
テーション・ベクトルＡ（１）として選定される。

【００４６】そのセグメンテーション・ベクトルＡ
（１）はバイアス・ノイズの効果なしでのベクトルＯ′
（１）の１つの推定値を表す。

【００４７】修正された各特徴ベクトルＯ′′（ｉ）に
対するセグメンテーション・ベクトルＡ（ｉ）がステッ
プ３３０において選択されると、認識装置はステップ３
４５へ進む。ステップ３４５において認識装置はパスの
繰り返しの回数Ｍをイクリメントする。次に、ステップ
３５０において、認識装置があらかじめ選択されたパス
の回数を完了したかどうかが検定される。完了していた
場合、その観察シーケンスに対する複数パスのセグメン
テーションが完了しており、認識装置はステップ３５５
へ進む。２回程度の少ないパスを使うだけで繰返しプロ
セスの恩恵が十分に提供される。しかし、あらかじめ選
択された回数のパスを使うことは例として与えられてい
るだけであることに注意されたい。他の適切な停止基準
を使うこともできる。ステップ３５５において、セグメ
ンテーションのステート・シーケンスが認識装置の出力
として与えられる。次に、認識装置はステップ３１０へ
戻って、次の観察シーケンスのための処理を繰り返すこ
とができる。

【００４８】しかし、ステップ３５０において、答えが
ノーであった場合、あるいは言い換えれば別のパスが必
要であった場合、プロセッサはステップ３６０を実行
し、その中でベクトルＥｑが更新される。ベクトルＥｑ
は特徴ベクトルＯ′（ｉ）とそれぞれに対応しているセ
グメンテーション・ベクトルＡ（ｉ）との間の重み付け
られた差を平均することによって更新されることが好ま
しい。言い換えれば次の式のようになる。

【数１】

【００４９】ここで、Ｗ（ｉ）はＡ（ｉ）がＯ′（Ｉ）
に対する正しいセグメンテーション・ベクトルであるこ
との確信レベルに基づいていることが好ましい重み付け
の係数である。この確信レベルＷ（ｉ）はＯ′（ｉ）に
関係付けられたステートの内部でベクトルＡ（ｉ）に対
する統計的分散の測度に依存するのが適切である。たと
えば、選定されたミクスチャがステートＳ１において分
散が大きい場合、Ｗ（ｉ）は大きくなる。しかし、選定
されたミクスチャの分散が小さい場合、Ｗ（ｉ）は小さ
くなる可能性がある。そのような確信レベルの各種の測
度はステップ３２７で最ももっともらしいステート・シ
ーケンスを決定する時に発生される。

【００５０】代わりに、ベクトルＥｑは他の適切な式を
使って更新することができる。たとえば、新しいＥｑベ
クトルは次の式で与えられるような既存のＥｑベクトル
の修正であってもよい。

【数２】

【００５１】ここでＥｑold は既存のＥｑベクトルであ
る。この分野の技術に普通に熟達している人であれば、
特徴ベクトルとそれに対応しているセグメンテーション
・ベクトルとの差に基づいてＥｑの計算式の他のバリエ
ーションを容易に実施することができる。たとえば、同
様な差のベクトルのヒストグラムを記憶し、Ｅｑを最高
の繰返し履歴を持つ差のベクトルに等しく設定すること
ができる。いずれの場合でも結果のベクトルＥｑは中立
の、すなわち、汎用の音声パターンに加えられたベクト
ルであるとしてバイアスを表すことによって、音声信号
の中のバイアスを近似する。ベクトルＥｑがステップ３
６０において再定義された後、認識装置はステップ３２
５に戻って観察シーケンスの別のパスまたはセグメンテ
ーションの繰返しを実行する。

【００５２】フロー図３００の実行において、観察シー
ケンスはいくつかの他の停止基準が満足されるまでＭ回
のパスまたは繰返しに対して観察シーケンスがセグメン
ト化される。繰り返されるたびに、Ｅｑが更新され、さ
らにリファインされたものになり、特徴ベクトルのセグ
メンテーションを改善する。本発明はこのようにして入
力信号の中に存在するバイアスを近似するベクトルを求
めるためのプロセスを繰り返して提供する。本発明の方
法は進行中にバイアスの推定値Ｅｑを再計算し、あるい
はリファインする。それによって使用ごとのバイアスの
変化以外に、回線および周囲ノイズにおける特性の変化
に対して補償される。

【００５３】図４は図２に示されている認識装置２２０
のような認識装置において使われる、代わりのフロー図
を示している。図４のフロー図はワン・パス認識装置の
実施例における本発明の１つの実施形態を示している。
ワン・パスの認識システムにおいては、図３に示されて
いる複数パスのシステムとは反対に、特徴ベクトルは一
度だけしかセグメント化されない。複数パスのシステム
と比較して、ワン・パスのシステムは認識誤りが大きい
のが普通である。というのは、複数パスのセグメンテー
ションのリファインを行なわないからである。一方、ワ
ン・パス・システムは計算時間がはるかに少なくて済
む。この分野の技術に熟達している人であれば、どの実
施形態が特定の設計条件に合っているかを知ることがで
きる。

【００５４】ステップ４１０は新しい電話の呼出しなど
の新しい認識トランザクションが開始された時だけ発生
することが好ましい初期化のステップである。ステップ
４１０において、認識装置は先ずベクトルＥｑを初期ベ
クトルＥｑ０にリセットする。Ｅｑ０は、０または以前
に記憶されていたバイアスの推定値とすることができ
る。ステップ４１０における初期化の後、認識装置はス
テップ４１５へ進む。これは進行中でのワン・パス・セ
グメンテーション・プロセスの開始ステップである。

【００５５】ステップ４１５において、認識装置は次の
特徴ベクトルＯ′（ｉ）を受け取る。次に、ステップ４
２０において、その特徴ベクトルが等化ベクトルＥｑに
よって調整される。調整はベクトルＥｑをベクトルＯ′
（ｉ）から差し引くことによって行なわれ、その結果修
正されたＯ′′（ｉ）が生成される。ステップ４２０に
おける調整の後、認識装置はステップ４２５を実行す
る。

【００５６】ステップ４２５において、認識装置はよく
知られているＨＭＭのダイナミック・プログラミング技
法を使って、修正された特徴ベクトルＯ′′（ｉ）を最
ももっともらしいステート・シーケンスの中の次のステ
ートおよびその次のステートに関係付けられた最も近い
モデル・ベクトルの両方に対してマッチさせる。その
後、最も近いモデル・ベクトルがセグメンテーション・
ベクトルＡ（ｉ）となる。ステップ４２５は図３に関係
して前に説明されたステップ３２７での同様なＨＭＭ技
法を採用するのが適切である。次に、認識装置はステッ
プ４３０を実行する。

【００５７】ステップ４３０において、認識装置は最も
もっともらしい次のステートを認識装置の出力に対して
供給する。その後、ステップ４３５において、認識装置
は等化ベクトルＥｑを再計算する。このために、現在の
Ｅｑは現在の特徴ベクトルＯ′（ｉ）とそのセグメンテ
ーション・ベクトルＡ（ｉ）との間の差によって修正さ
れる。特に等化ベクトルの修正は次の式で与えられる。Ｅｑ＝（１−μ）Ｅｑ＋μ（Ｏ′（ｉ）−Ａ（ｉ））

【００５８】ここでμは１より小さい正のスカラー値で
あり、０．１より小さいことが好ましい。次に、認識装
置はステップ４４０へ進み、インデックスｉが増加され
る。ステップ４４０においてインデックスが増加された
後、認識装置はステップ４１５へ戻って次の特徴ベクト
ルをセグメント化する。

【００５９】このようにして上記のフロー・チャートは
バイアス・ノイズを減らすためにＥｑによって入力の特
徴ベクトルを調整すること、および、入力の特徴ベクト
ルとセグメンテーション・ベクトルとの差および前のＥ
ｑに基づいてＥｑの値を計算し直すことの両方を実行す
る。

【００６０】前記の本発明の実施例は単に説明的なもの
に過ぎないことを理解する必要がある。本発明の原理を
体現し、本発明の精神およびその範囲に入る他の実施例
は、この分野の技術に熟達した人であれば容易に考える
ことができる。たとえば、本発明による音声認識装置は
声によって駆動される消費者用電子装置および器具を含
めて図１に示されているもの以外の制御システムに対し
て使うことができる。このために、電話のハンドセット
を他の適切な音声入力デバイスで置き換えることがで
き、また、電話のネットワークも不要となる場合があ
る。

【図面の簡単な説明】

【図１】本発明によって動作する音声認識システムを含
んでいる複数のユーザ・システムを示す。

【図２】本発明に従って動作する隠れマルコフ・モデル
に基づいた音声認識システムを示す。

【図３】図２に示されているシステムの中で使うための
音声認識装置の一実施例によって実行されるステップの
フロー図を示す。

【図４】図２に示されているシステムの中で使われるた
めの音声認識装置の代わりの実施例によって実行される
ステップのフロー図を示す。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ディヴィットマンソアイスラエル国，ハイファ，アルバートシュウィツアー60 (72)発明者ジェイゴードンウィルポンアメリカ合衆国 07059 ニュージャーシィ，ウォーレン，ラウンドトップロード 75

Claims

【特許請求の範囲】

【請求項１】音声信号を認識するための装置であっ
て、入力の音声信号から複数の特徴ベクトルを発生するよう
に動作できる音声分析装置と、音声モデル・ベクトルを含んでいるメモリ・デバイス
と、動作できるように音声モデル・ベクトルをメモリ・デバ
イスから受け取るように接続されている音声認識装置と
を含み、前記音声認識装置は、ａ）音声分析装置からの複数の特徴ベクトルを含んでい
る観察シーケンスを受け取ること、ｂ）等化ベクトルを使って少なくとも１つの特徴ベクト
ルを修正すること、ｃ）音声モデル・ベクトルを使って修正された特徴ベク
トルに対応するセグメンテーション・ベクトルを発生す
ること、ｄ）セグメンテーション・ベクトルとそれに対応してい
る特徴ベクトルとの間の差に基づいてそれ以降の等化ベ
クトルを発生することができるようになっている装置。
【請求項２】認識装置がさらに、ｄ）の動作を実行す
る前に複数の特徴ベクトルに対してｂ）およびｃ）の動
作を実行し、その中で認識装置が複数の特徴ベクトルと複数のそれに
対応しているセグメンテーション・ベクトルとの間の差
の重み付けられた平均値に基づいて、それ以降の等化ベ
クトルを発生するように動作できることを特徴とする、
請求項１に記載の装置。
【請求項３】認識装置がさらに、ｅ）それ以降の等化ベクトルを使って少なくとも１つの
特徴ベクトルを修正すること、ｆ）音声モデル・ベクトルを使って修正された特徴ベク
トルに対応しているそれ以降のセグメンテーション・ベ
クトルを発生することができるように動作することを特
徴とする、請求項２に記載の装置。
【請求項４】認識装置が隠れマルコフ・モデル音声認
識装置を含んでいることを特徴とする、請求項１に記載
の装置。
【請求項５】認識装置が隠れマルコフ・モデル音声認
識装置を含んでいることを特徴とする、請求項３に記載
の装置。
【請求項６】認識装置が特徴ベクトルと対応している
セグメンテーション・ベクトルとの間の差をスケーリン
グ係数で調整したものと等化ベクトルとのベクトル和に
基づいてそれ以降の等化ベクトルを発生することができ
るようになっていることを特徴とする、請求項１に記載
の装置。
【請求項７】認識装置がさらに観察シーケンスに対応
している最ももっともらしいステート・シーケンスを発
生するように動作できることを特徴とする、請求項１に
記載の装置。
【請求項８】入力の音声信号を処理する方法であっ
て、ａ）入力の音声信号から複数の特徴ベクトルを発生する
ステップと、ｂ）少なくとも１つの特徴ベクトルを音声認識装置に対
して提供するステップと、ｃ）等化ベクトルを使って少なくとも１つの特徴ベクト
ルを修正するために音声認識装置を採用するステップ
と、ｄ）少なくとも１つの修正された特徴ベクトルに基づい
て少なくとも１つの最ももっともらしいステート・シー
ケンスを求めるために、ダイナミック・プログラミング
を採用するステップと、ｅ）複数の音声モデル・ベクトルを使って少なくとも１
つのセグメンテーション・ベクトルを少なくとも１つの
修正された特徴ベクトルから発生するために、音声認識
装置を採用するステップと、ｆ）少なくとも１つのセグメンテーション・ベクトルと
少なくとも１つの対応している特徴ベクトルとの間の差
に基づいてそれ以降の等化ベクトルを発生するステップ
とを含む、方法。
【請求項９】ステップｄ）がさらに、少なくとも１つ
の修正された特徴ベクトルと少なくとも１つの音声モデ
ル・ベクトルとの間のスペクトルの類似性に基づいて少
なくとも１つのステートを決定することを含んでいるこ
とを特徴とする、請求項８に記載の方法。
【請求項１０】ステップｆ）を実行する前に複数の特
徴ベクトルに対してｂ）、およびｃ）とｅ）のステップ
を繰り返すステップを含んでいて、その中でステップｆ）がさらに複数の特徴ベクトルとそ
れに対応している複数のセグメンテーション・ベクトル
との間の差の平均値に基づいて、それ以降の等化ベクト
ルを発生するステップを含んでいることを特徴とする、
請求項８に記載の方法。
【請求項１１】ｇ）それ以降の等化ベクトルを使って
複数の特徴ベクトルを修正するために、音声認識装置を
採用するステップと、ｈ）少なくとも１つの修正された特徴ベクトルに基づい
て、それ以降の最ももっともらしいステート・シーケン
スの少なくとも１つのステートを求めるために、ダイナ
ミック・プログラミングを採用するステップとを含んで
いることを特徴とする、請求項１０に記載の方法。
【請求項１２】音声認識装置が隠れマルコフ・モデル
の音声認識装置を含んでいることを特徴とする、請求項
８に記載の方法。
【請求項１３】ステップｄ）がさらに特徴ベクトルと
セグメンテーション・ベクトルとの間の差をスケーリン
グ係数によって調整したものと等化ベクトルとのベクト
ル和に基づいて、それ以降の等化ベクトルを発生するス
テップをさらに含んでいることを特徴とする、請求項８
に記載の方法。
【請求項１４】システムの音声制御を提供するための
装置であって、利用者からの入力音声を受け取って音声信号を発生する
ように動作できる音声入力デバイスと、音声入力デバイスから音声信号を受け取って、その音声
信号を表す特徴ベクトルを発生するために接続されてい
る音声分析装置と、音声分析装置からの特徴ベクトルを受け取るために接続
されていて、等化ベクトルを使って各特徴ベクトルを修正し、修正された特徴ベクトルに対応している最ももっともら
しいステート・シーケンスを発生し、少なくとも１つの修正された特徴ベクトルに対して１つ
のセグメンテーション・ベクトルを発生し、１つまたはそれ以上のセグメンテーション・ベクトルと
それぞれに対応する特徴ベクトルとの間の差に基づい
て、それ以降の等化ベクトルを発生することができるよ
うな音声認識装置と、音声認識装置からセグメンテーション・ベクトルを受け
取ってそれから制御データを発生し、前記制御データを
システムの中の１つのコントローラが使えるように動作
することができるデータ抽出装置とを含む装置。
【請求項１５】制御データをデータ抽出デバイスから
受け取り、さらに入力の音声に基づいてシステムを制御
するように動作できるようなコントローラを含んでいる
ことを特徴とする、請求項１４に記載の装置。
【請求項１６】音声入力デバイスが電話機を含んでい
ることを特徴とする、請求項１４に記載の装置。
【請求項１７】複数の音声入力デバイスをさらに含ん
でおり、各音声入力デバイスが音声分析装置に対して入
力の音声信号を提供するために動作できるように接続さ
れていることを特徴とする、請求項１４に記載の装置。
【請求項１８】コントローラが複数の電話機の内線に
接続されていて、音声で選択された内線電話に対して音
声入力デバイスを接続できるようになっていることを特
徴とする、請求項１５に記載の装置。