JPH08234788A - 音声認識のバイアス等化方法および装置 - Google Patents
音声認識のバイアス等化方法および装置Info
- Publication number
- JPH08234788A JPH08234788A JP7338417A JP33841795A JPH08234788A JP H08234788 A JPH08234788 A JP H08234788A JP 7338417 A JP7338417 A JP 7338417A JP 33841795 A JP33841795 A JP 33841795A JP H08234788 A JPH08234788 A JP H08234788A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- speech
- feature
- segmentation
- recognizer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 211
- 230000011218 segmentation Effects 0.000 claims abstract description 53
- 230000003595 spectral effect Effects 0.000 claims description 11
- 238000013075 data extraction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims 2
- 230000008569 process Effects 0.000 abstract description 9
- 239000000203 mixture Substances 0.000 description 13
- 230000005236 sound signal Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】
【課題】 本発明は入力の音声が認識装置に対して提供
される時に等化ベクトルを生成して更新する音声認識装
置を提供する。 【解決手段】 本発明は入力の音声信号を一連の特徴ベ
クトルまたは観察シーケンスに変換する音声分析装置を
含む。各特徴ベクトルは音声認識装置に接続され、音声
認識装置は以前に求められた等化ベクトルを特徴ベクト
ルから差し引くことによって修正する。次に、認識装置
はセグメンテーションを実行してその修正された特徴ベ
クトルをセグメンテーション・ベクトルとして定義され
ている記憶されたモデル・ベクトルにマッチさせる。次
に、認識装置は時々刻々、新しい等化ベクトルを求め
る。その新しい等化ベクトルは1つまたはそれ以上の入
力特徴ベクトルとそれぞれに対応するセグメンテーショ
ン・ベクトルとの間の差に基づいて定義されている。新
しい等化ベクトルはその後、同じ観察シーケンスにおい
て別のセグメンテーションの繰返しを実行するか、ある
いはそれ以降の特徴ベクトルについてセグメンテーショ
ンを実行するためのいずれかに使うことができる。
される時に等化ベクトルを生成して更新する音声認識装
置を提供する。 【解決手段】 本発明は入力の音声信号を一連の特徴ベ
クトルまたは観察シーケンスに変換する音声分析装置を
含む。各特徴ベクトルは音声認識装置に接続され、音声
認識装置は以前に求められた等化ベクトルを特徴ベクト
ルから差し引くことによって修正する。次に、認識装置
はセグメンテーションを実行してその修正された特徴ベ
クトルをセグメンテーション・ベクトルとして定義され
ている記憶されたモデル・ベクトルにマッチさせる。次
に、認識装置は時々刻々、新しい等化ベクトルを求め
る。その新しい等化ベクトルは1つまたはそれ以上の入
力特徴ベクトルとそれぞれに対応するセグメンテーショ
ン・ベクトルとの間の差に基づいて定義されている。新
しい等化ベクトルはその後、同じ観察シーケンスにおい
て別のセグメンテーションの繰返しを実行するか、ある
いはそれ以降の特徴ベクトルについてセグメンテーショ
ンを実行するためのいずれかに使うことができる。
Description
【0001】
【発明の属する技術分野】本発明は音声認識、そして特
に、音声認識システムにおいてバイアス・ノイズを減ら
す方法に関する。
に、音声認識システムにおいてバイアス・ノイズを減ら
す方法に関する。
【0002】
【従来の技術】音声認識は未知の音声の発声を識別する
プロセスである。一般に音声認識は未知の発声のスペク
トル的特徴を既知の語または語の列のスペクトル的特徴
に対して比較することによって行なわれる。
プロセスである。一般に音声認識は未知の発声のスペク
トル的特徴を既知の語または語の列のスペクトル的特徴
に対して比較することによって行なわれる。
【0003】既知の語または語の列のスペクトル的特徴
(または単に特徴)はトレーニング(訓練)として知ら
れているプロセスによって決定される。トレーニングに
よって、既知の語または語の列の1つまたはそれ以上の
サンプルが調べられ、それらの特徴が基準パターンとし
て、あるいは認識単位モデルとして、音声認識装置のデ
ータベースの中に記録される。通常、各認識単位モデル
は単独の既知の語を表す。
(または単に特徴)はトレーニング(訓練)として知ら
れているプロセスによって決定される。トレーニングに
よって、既知の語または語の列の1つまたはそれ以上の
サンプルが調べられ、それらの特徴が基準パターンとし
て、あるいは認識単位モデルとして、音声認識装置のデ
ータベースの中に記録される。通常、各認識単位モデル
は単独の既知の語を表す。
【0004】
【発明が解決しようとする課題】しかし、認識単位モデ
ルは言語学に基づいて音素の音響的表現である単音など
の部分語のような他の長さの音声を表す場合がある。隠
れマルコフ・モデル(HMM)認識装置として知られて
いる1つのタイプの音声認識装置において、各認識単位
モデルは各ステートが普通は部分語の単位を含んでいる
Nステートのシーケンスとして表される。未知の発声を
認識するために、そのような音声認識装置はその発声か
ら特徴を抽出してそれを特性付ける。その未知の発声の
特徴は特徴ベクトルまたは観察ベクトルと呼ばれる多次
元のベクトル量として定量化される。観察シーケンスは
一連の特徴ベクトルから構成される。次に、HMM認識
装置は未知の音声の特徴ベクトルを複数の候補HMMの
中のステートに関連付けられた既知のスペクトル的特徴
に対して比較する。各HMMまたはステートのシーケン
スがどの程度良く未知の特徴ベクトルのシーケンスにマ
ッチしているかという相対的測度を提供するために、得
点の技法が使われる。観察シーケンスに対して最ももっ
ともらしいHMMまたはステート・シーケンスがその発
声を識別する。最ももっともらしいステート・シーケン
スを決定することはセグメンテーションとして知られて
いる。
ルは言語学に基づいて音素の音響的表現である単音など
の部分語のような他の長さの音声を表す場合がある。隠
れマルコフ・モデル(HMM)認識装置として知られて
いる1つのタイプの音声認識装置において、各認識単位
モデルは各ステートが普通は部分語の単位を含んでいる
Nステートのシーケンスとして表される。未知の発声を
認識するために、そのような音声認識装置はその発声か
ら特徴を抽出してそれを特性付ける。その未知の発声の
特徴は特徴ベクトルまたは観察ベクトルと呼ばれる多次
元のベクトル量として定量化される。観察シーケンスは
一連の特徴ベクトルから構成される。次に、HMM認識
装置は未知の音声の特徴ベクトルを複数の候補HMMの
中のステートに関連付けられた既知のスペクトル的特徴
に対して比較する。各HMMまたはステートのシーケン
スがどの程度良く未知の特徴ベクトルのシーケンスにマ
ッチしているかという相対的測度を提供するために、得
点の技法が使われる。観察シーケンスに対して最ももっ
ともらしいHMMまたはステート・シーケンスがその発
声を識別する。最ももっともらしいステート・シーケン
スを決定することはセグメンテーションとして知られて
いる。
【0005】そのような音声認識システムに対して提供
される音声信号はそのようなシステム、特に、HMMベ
ースの音声認識システムの性能を大幅に劣化させる変動
する条件に出会うことが多い。チャネル干渉、周囲ノイ
ズ、音声ピックアップ装置および話者のアクセントにお
ける変化などによる望ましくない信号成分のために、そ
の認識装置が実世界での応用には適さないもになってし
まう可能性がある。上記の信号の劣化は信号バイアスと
呼ばれることがある。この信号バイアスによって観察シ
ーケンスの特徴が汚染され、パターンマッチングが不可
能になる。
される音声信号はそのようなシステム、特に、HMMベ
ースの音声認識システムの性能を大幅に劣化させる変動
する条件に出会うことが多い。チャネル干渉、周囲ノイ
ズ、音声ピックアップ装置および話者のアクセントにお
ける変化などによる望ましくない信号成分のために、そ
の認識装置が実世界での応用には適さないもになってし
まう可能性がある。上記の信号の劣化は信号バイアスと
呼ばれることがある。この信号バイアスによって観察シ
ーケンスの特徴が汚染され、パターンマッチングが不可
能になる。
【0006】信号バイアスの1つの原因であるチャネル
干渉は、電話回線上に存在する可能性のあるような回線
ノイズから構成される。チャネル干渉が時々刻々わずか
に違っても、分析された音声信号のスペクトルが大きく
変化する可能性がある。音声のピックアップ装置におけ
る変化についても同じことが言える。マイクロホンが異
なると、入力の音声信号も変わり、スペクトルに変化が
生じる。そのようなノイズ源に対処するために、音声認
識デバイスへの入力源を1つだけに限定することが考え
られるが、それは多くの応用にとって非実用的であり、
話者のアクセントまたは周囲ノイズに対する十分な対処
法とはならない。
干渉は、電話回線上に存在する可能性のあるような回線
ノイズから構成される。チャネル干渉が時々刻々わずか
に違っても、分析された音声信号のスペクトルが大きく
変化する可能性がある。音声のピックアップ装置におけ
る変化についても同じことが言える。マイクロホンが異
なると、入力の音声信号も変わり、スペクトルに変化が
生じる。そのようなノイズ源に対処するために、音声認
識デバイスへの入力源を1つだけに限定することが考え
られるが、それは多くの応用にとって非実用的であり、
話者のアクセントまたは周囲ノイズに対する十分な対処
法とはならない。
【0007】そのような原因によって生じるノイズまた
は信号バイアスは音声信号に対して加算的であると考え
る。言い換えれば、音声信号は中立の音声信号に信号バ
イアスが加算されたもので表すことができる。音声認識
の入力信号におけるバイアスを減らすか、あるいはそれ
に対抗するために各種の方法が確立されてきた。或るタ
イプのノイズ削減方法では推定の信号バイアスを音声信
号から取り除くことが必要となる。バイアスの除去を採
用しているシステムはノイズを1つのベクトルとして表
すことができると仮定しており、そのベクトルのことを
等化ベクトルと呼ぶことがある。与えられた観察シーケ
ンスの中の各入力特徴ベクトルから等化ベクトルが差し
引かれる。等化ベクトルを計算する従来技術による方法
としては、入力の音声が存在しない場合のチャネルの信
号の測定値を採取する方法などがある。そのような測定
によってチャネル・ノイズのスペクトル的表現が得ら
れ、それから等化ベクトルが作られる。代わりに、各ユ
ーザに既知の語彙を入力してもらい、その既知の語彙と
発声との差の測定値が等化ベクトルとして使われる。た
とえば、S.J.コックスその他による「確率的スペク
トル・フィッティングによるスーパーバイズされない話
者の適応(Unsupervised Speaker
Adaptation by Probalials
itic Spectrum Fitting)」Pu
b.CH 2673−2/89/0000−0294
(IEEE 1989)を参照されたい。
は信号バイアスは音声信号に対して加算的であると考え
る。言い換えれば、音声信号は中立の音声信号に信号バ
イアスが加算されたもので表すことができる。音声認識
の入力信号におけるバイアスを減らすか、あるいはそれ
に対抗するために各種の方法が確立されてきた。或るタ
イプのノイズ削減方法では推定の信号バイアスを音声信
号から取り除くことが必要となる。バイアスの除去を採
用しているシステムはノイズを1つのベクトルとして表
すことができると仮定しており、そのベクトルのことを
等化ベクトルと呼ぶことがある。与えられた観察シーケ
ンスの中の各入力特徴ベクトルから等化ベクトルが差し
引かれる。等化ベクトルを計算する従来技術による方法
としては、入力の音声が存在しない場合のチャネルの信
号の測定値を採取する方法などがある。そのような測定
によってチャネル・ノイズのスペクトル的表現が得ら
れ、それから等化ベクトルが作られる。代わりに、各ユ
ーザに既知の語彙を入力してもらい、その既知の語彙と
発声との差の測定値が等化ベクトルとして使われる。た
とえば、S.J.コックスその他による「確率的スペク
トル・フィッティングによるスーパーバイズされない話
者の適応(Unsupervised Speaker
Adaptation by Probalials
itic Spectrum Fitting)」Pu
b.CH 2673−2/89/0000−0294
(IEEE 1989)を参照されたい。
【0008】後者の方法は最も適応性のある形式の等化
ベクトルを提供する。というのは、信号バイアスを使用
するたびに推定することができるからである。しかし、
その方法には、話者がそのシステムを訓練する必要性が
あること、あるいは言い換えれば、使用するたびに既知
の語彙をしゃべらなければならないということなどの欠
点がある。さらに、その方法は特定の使用のコース全体
にわたっての周囲ノイズまたはチャネル・ノイズの変動
を考慮していない。
ベクトルを提供する。というのは、信号バイアスを使用
するたびに推定することができるからである。しかし、
その方法には、話者がそのシステムを訓練する必要性が
あること、あるいは言い換えれば、使用するたびに既知
の語彙をしゃべらなければならないということなどの欠
点がある。さらに、その方法は特定の使用のコース全体
にわたっての周囲ノイズまたはチャネル・ノイズの変動
を考慮していない。
【0009】
【課題を解決するための手段】本発明は入力の音声が認
識装置に提供される時に等化ベクトルを生成し、更新す
る音声認識装置を提供する。認識装置そのものは入力音
声のセグメンテーション時に進行中に等化ベクトルを決
定する。
識装置に提供される時に等化ベクトルを生成し、更新す
る音声認識装置を提供する。認識装置そのものは入力音
声のセグメンテーション時に進行中に等化ベクトルを決
定する。
【0010】特に、1つの実施例において、本発明は入
力の音声信号を一連の特徴ベクトルまたは観察シーケン
スに変換する音声分析装置を含む。次に、各特徴ベクト
ルが音声認識装置に対して提供され、音声認識装置は以
前に求めた等化ベクトルをその特徴ベクトルから差し引
くことによって修正する。次に認識装置は最ももっとも
らしいステート・シーケンス、すなわち、入力音声をモ
デル化する隠れマルコフ・モデル(HMM)を求める。
さらに、認識装置はその修正された特徴ベクトルをセグ
メンテーション・ベクトルと呼ばれる記憶された符号一
覧表のベクトルに対してマッチさせる。次に、認識装置
は絶えずまたは周期的に、1つまたはそれ以上の入力特
徴ベクトルとそれぞれにマッチしたセグメンテーション
・ベクトルとの差に基づいた新しい等化ベクトルを求め
る。この新しい等化ベクトルを使ってそれ以降のセグメ
ンテーション動作において特徴ベクトルを修正すること
ができる。
力の音声信号を一連の特徴ベクトルまたは観察シーケン
スに変換する音声分析装置を含む。次に、各特徴ベクト
ルが音声認識装置に対して提供され、音声認識装置は以
前に求めた等化ベクトルをその特徴ベクトルから差し引
くことによって修正する。次に認識装置は最ももっとも
らしいステート・シーケンス、すなわち、入力音声をモ
デル化する隠れマルコフ・モデル(HMM)を求める。
さらに、認識装置はその修正された特徴ベクトルをセグ
メンテーション・ベクトルと呼ばれる記憶された符号一
覧表のベクトルに対してマッチさせる。次に、認識装置
は絶えずまたは周期的に、1つまたはそれ以上の入力特
徴ベクトルとそれぞれにマッチしたセグメンテーション
・ベクトルとの差に基づいた新しい等化ベクトルを求め
る。この新しい等化ベクトルを使ってそれ以降のセグメ
ンテーション動作において特徴ベクトルを修正すること
ができる。
【0011】連続的なミクスチャHMM認識装置で使う
ための本発明の一実施例において、等化ベクトルは各観
察シーケンスのセグメンテーションが完了した後に再計
算される。最初に、観察シーケンスに対する最ももっと
もらしいステート・シーケンスが決定され、そしてその
シーケンスの中の各特徴ベクトルに対してセグメンテー
ション・ベクトルが決定される。次に、その入力特徴ベ
クトルとそれぞれに対応するセグメンテーション・ベク
トルとの差に基づいて新しい等化ベクトルが計算され
る。同じシリーズの特徴ベクトルが再セグメント化さ
れ、その等化ベクトルがふたたび計算し直される。同じ
シーケンスの特徴ベクトルを、セグメント化し直すこ
と、そしてその等化ベクトルを再計算することを何回か
行なうことによって、そのたびに、より正確なセグメン
テーションが行なわれ、最後にセグメンテーション・ベ
クトルの最終のセットを出力として提供することができ
る。
ための本発明の一実施例において、等化ベクトルは各観
察シーケンスのセグメンテーションが完了した後に再計
算される。最初に、観察シーケンスに対する最ももっと
もらしいステート・シーケンスが決定され、そしてその
シーケンスの中の各特徴ベクトルに対してセグメンテー
ション・ベクトルが決定される。次に、その入力特徴ベ
クトルとそれぞれに対応するセグメンテーション・ベク
トルとの差に基づいて新しい等化ベクトルが計算され
る。同じシリーズの特徴ベクトルが再セグメント化さ
れ、その等化ベクトルがふたたび計算し直される。同じ
シーケンスの特徴ベクトルを、セグメント化し直すこ
と、そしてその等化ベクトルを再計算することを何回か
行なうことによって、そのたびに、より正確なセグメン
テーションが行なわれ、最後にセグメンテーション・ベ
クトルの最終のセットを出力として提供することができ
る。
【0012】本発明の他の特徴および利点は次の詳細説
明および付属図面を参照することによって、この分野の
技術に熟達している人には容易に明らかとなる。
明および付属図面を参照することによって、この分野の
技術に熟達している人には容易に明らかとなる。
【0013】
【発明の実施の形態】図1は本発明に従って動作する音
声認識システム50を利用している通信システム5を示
す。システム5により、電話の音声信号を使って、自動
化された呼出しルーティング・システムなどのリモート
・システム32の動作を人間のオペレータが制御するこ
とができる。他の可能なリモート・システムとしては自
動化された銀行システムや小売り注文の処理システムな
どがある。システム5は対応するハンドセット12を備
えている第1の電話機10、第2の電話機20、第1お
よび第2のループ・キャリア15および25、電話ネッ
トワーク30、およびリモート・システム32を含んで
いる。リモート・システム32はさらにA/D変換器4
0、音声認識システム50、およびコントローラ60を
含んでいる。
声認識システム50を利用している通信システム5を示
す。システム5により、電話の音声信号を使って、自動
化された呼出しルーティング・システムなどのリモート
・システム32の動作を人間のオペレータが制御するこ
とができる。他の可能なリモート・システムとしては自
動化された銀行システムや小売り注文の処理システムな
どがある。システム5は対応するハンドセット12を備
えている第1の電話機10、第2の電話機20、第1お
よび第2のループ・キャリア15および25、電話ネッ
トワーク30、およびリモート・システム32を含んで
いる。リモート・システム32はさらにA/D変換器4
0、音声認識システム50、およびコントローラ60を
含んでいる。
【0014】第1および第2ののループ・キャリア15
および25は第1および第2の電話機10および20を
それぞれネットワーク30に接続する。電話機10およ
び20は普通の加入者の電話機ユニットであるのがふさ
わしい。ネットワーク30はローカル・サービス・ネッ
トワーク・ノード、長距離キャリア・ノード、および関
係している交換局の任意の組合せを含むことができる。
リモート・システム32の入力35はネットワーク30
をA/D変換器40に接続する。また、バイパス回線6
5は入力35をコントローラ60にも接続する。音声認
識システム50はA/D変換器40の出力とコントロー
ラ60との間に接続されている。音声認識システム50
は本発明によって動作する訓練された音声認識装置を含
み、そして図2に関連して以下に説明される音声認識シ
ステム200を含むのが適切である。
および25は第1および第2の電話機10および20を
それぞれネットワーク30に接続する。電話機10およ
び20は普通の加入者の電話機ユニットであるのがふさ
わしい。ネットワーク30はローカル・サービス・ネッ
トワーク・ノード、長距離キャリア・ノード、および関
係している交換局の任意の組合せを含むことができる。
リモート・システム32の入力35はネットワーク30
をA/D変換器40に接続する。また、バイパス回線6
5は入力35をコントローラ60にも接続する。音声認
識システム50はA/D変換器40の出力とコントロー
ラ60との間に接続されている。音声認識システム50
は本発明によって動作する訓練された音声認識装置を含
み、そして図2に関連して以下に説明される音声認識シ
ステム200を含むのが適切である。
【0015】図1に示されている実施例において、リモ
ート・システム32は事務所用の自動化された呼出しル
ーティング・システムである。この実施例において、リ
モート・システム32は入力の電話呼出しを、電話呼出
しの発信元の口頭による指令に基づいて、内線電話70
および72として示されているような電話の内線選択装
置に接続する。たとえば、内線72に対して通話したい
顧客はリモート・システム32との接続を確立し、内線
番号またはその顧客が連絡したい従業員の名前をたずね
る録音された音声を受信する。顧客が名前または番号を
言って応答すると、コントローラ60は自動的にその入
ってきた呼出しを要求された内線に接続する。この目的
で、コントロール60は電話の内線70および72によ
って示されているようないくつかの電話の内線に対して
バイパス回線65を接続することができる。自動呼出し
階層システム32の動作の一例を以下に説明する。
ート・システム32は事務所用の自動化された呼出しル
ーティング・システムである。この実施例において、リ
モート・システム32は入力の電話呼出しを、電話呼出
しの発信元の口頭による指令に基づいて、内線電話70
および72として示されているような電話の内線選択装
置に接続する。たとえば、内線72に対して通話したい
顧客はリモート・システム32との接続を確立し、内線
番号またはその顧客が連絡したい従業員の名前をたずね
る録音された音声を受信する。顧客が名前または番号を
言って応答すると、コントローラ60は自動的にその入
ってきた呼出しを要求された内線に接続する。この目的
で、コントロール60は電話の内線70および72によ
って示されているようないくつかの電話の内線に対して
バイパス回線65を接続することができる。自動呼出し
階層システム32の動作の一例を以下に説明する。
【0016】最初、呼出し側の人は第1の電話機10を
使ってループ・キャリア15およびネットワーク30の
上で、通常の方法で、たとえば、ハンドセット12を取
り上げて自分が通話したい番号をダイヤルすることによ
ってリモート・システム32との接続を確立する。リモ
ート・システム32は他の電話と同様な方法で電話ネッ
トワーク30に接続される。その接続が確立されると、
音声信号は電話機10およびその入力35との間でいず
れの方向にも進むことができる。電話機10から入力3
5へ向かう音声信号はハンドセット12、電話機10、
ループ・キャリア15、およびネットワーク30による
ノイズを含む1つまたはそれ以上の要因によって損なわ
れるか、あるいはバイアスされる。ただし、ノイズの原
因はこれらに限定されない。音声信号はさらに話者のア
クセントによっても損なわれる可能性がある。上記の組
み合わさった効果が、底流にある音声信号に加算される
バイアス信号に貢献する。
使ってループ・キャリア15およびネットワーク30の
上で、通常の方法で、たとえば、ハンドセット12を取
り上げて自分が通話したい番号をダイヤルすることによ
ってリモート・システム32との接続を確立する。リモ
ート・システム32は他の電話と同様な方法で電話ネッ
トワーク30に接続される。その接続が確立されると、
音声信号は電話機10およびその入力35との間でいず
れの方向にも進むことができる。電話機10から入力3
5へ向かう音声信号はハンドセット12、電話機10、
ループ・キャリア15、およびネットワーク30による
ノイズを含む1つまたはそれ以上の要因によって損なわ
れるか、あるいはバイアスされる。ただし、ノイズの原
因はこれらに限定されない。音声信号はさらに話者のア
クセントによっても損なわれる可能性がある。上記の組
み合わさった効果が、底流にある音声信号に加算される
バイアス信号に貢献する。
【0017】接続時、コントローラ60は音声での挨拶
のメッセージを発生し、相手が接続したい内線の番号ま
たは人の名前を音声で要求する。その挨拶のメッセージ
はテープに録音されたもの、あるいはディジタル・メモ
リに記憶されているものでよい。コントローラ60から
発せされる音声信号はバイパス回線65の上で入力35
を通ってネットワーク30へ提供される。名前または内
線番号に対する要求のほかに、コントローラ60は内線
番号または名前が分からない場合に人間の交換手に話す
ためのオプションをユーザに提供するのが適切である。
のメッセージを発生し、相手が接続したい内線の番号ま
たは人の名前を音声で要求する。その挨拶のメッセージ
はテープに録音されたもの、あるいはディジタル・メモ
リに記憶されているものでよい。コントローラ60から
発せされる音声信号はバイパス回線65の上で入力35
を通ってネットワーク30へ提供される。名前または内
線番号に対する要求のほかに、コントローラ60は内線
番号または名前が分からない場合に人間の交換手に話す
ためのオプションをユーザに提供するのが適切である。
【0018】呼出し者が特定の内線番号を識別する応答
を発声した場合、その音声の発声信号がA/D変換器4
0へ提供され、その発声がディジタルの音声信号に変換
される。A/D変換器40はディジタルの音声信号を音
声認識システム50へ提供する。音声認識システム50
は本発明に従って動作し、その音声信号の中のバイアス
を取り除き、それについて認識の操作を実行する。その
とき音声信号50は要求された内線番号のデータ信号の
表現をコントローラ60に提供するのが好ましい。コン
トローラ60は要求された内線と呼出し者との間の直接
の音声による通信を確立するために、バイパス回線65
を該当の内線に接続する。
を発声した場合、その音声の発声信号がA/D変換器4
0へ提供され、その発声がディジタルの音声信号に変換
される。A/D変換器40はディジタルの音声信号を音
声認識システム50へ提供する。音声認識システム50
は本発明に従って動作し、その音声信号の中のバイアス
を取り除き、それについて認識の操作を実行する。その
とき音声信号50は要求された内線番号のデータ信号の
表現をコントローラ60に提供するのが好ましい。コン
トローラ60は要求された内線と呼出し者との間の直接
の音声による通信を確立するために、バイパス回線65
を該当の内線に接続する。
【0019】第2の呼出し者が第2の電話機20から呼
出しを発生し、システム32にアクセスした場合、同じ
手続きが実行される。しかしこの場合、第2の呼出し者
の音声信号に加えられるバイアス信号は呼出し者のアク
セント、電話の装置、ループ・キャリア、およびネット
ワーク30の内部での仮想回路接続によってさえもその
影響を受けて、第1の呼出し者に対して加えられるバイ
アスとは異なっている。実際、そのようなバイアスはそ
のような違いのために呼出しごとに変化する。
出しを発生し、システム32にアクセスした場合、同じ
手続きが実行される。しかしこの場合、第2の呼出し者
の音声信号に加えられるバイアス信号は呼出し者のアク
セント、電話の装置、ループ・キャリア、およびネット
ワーク30の内部での仮想回路接続によってさえもその
影響を受けて、第1の呼出し者に対して加えられるバイ
アスとは異なっている。実際、そのようなバイアスはそ
のような違いのために呼出しごとに変化する。
【0020】しかし、本発明によると、音声認識システ
ム50は各呼出し者のバイアス信号に適応してそれを取
り除き、修正された、より中立の音声パターン信号をリ
モート・システム32の内部に発生する。その修正され
た音声パターンは汎用音声モデルとマッチされて入力の
発声についての認識が実行される。話者は標準の語また
は句を繰り返すことは要求されない。
ム50は各呼出し者のバイアス信号に適応してそれを取
り除き、修正された、より中立の音声パターン信号をリ
モート・システム32の内部に発生する。その修正され
た音声パターンは汎用音声モデルとマッチされて入力の
発声についての認識が実行される。話者は標準の語また
は句を繰り返すことは要求されない。
【0021】図1に示されているシステム5は例として
だけ示されており、そして本発明は複数の利用者、複数
の入力音声認識システムを含む、時間的に変化する信号
バイアス源の影響を受ける任意の認識システムで使うの
に適している。
だけ示されており、そして本発明は複数の利用者、複数
の入力音声認識システムを含む、時間的に変化する信号
バイアス源の影響を受ける任意の認識システムで使うの
に適している。
【0022】図2は本発明によって動作する隠れマルコ
フ・モデルに基づく音声認識システム200を示してい
る。システム200は図1に示されている音声認識シス
テム50として適切に使うことができる。システム20
0は特徴分析装置210、認識装置220、データ記憶
装置230、およびデータ抽出装置240を含む。シス
テム200は話された発声のディジタル信号表現である
入力音声信号O(t)を受け取り、話された発声のデー
タ表現を含んでいる出力データ信号A′(n)を作り出
す。システム200は既知の方法を使って訓練されたも
のであり、その結果の認識単位音声モデル、またはモデ
ル・ベクトルはデータ記憶装置230の中に記憶されて
いる。
フ・モデルに基づく音声認識システム200を示してい
る。システム200は図1に示されている音声認識シス
テム50として適切に使うことができる。システム20
0は特徴分析装置210、認識装置220、データ記憶
装置230、およびデータ抽出装置240を含む。シス
テム200は話された発声のディジタル信号表現である
入力音声信号O(t)を受け取り、話された発声のデー
タ表現を含んでいる出力データ信号A′(n)を作り出
す。システム200は既知の方法を使って訓練されたも
のであり、その結果の認識単位音声モデル、またはモデ
ル・ベクトルはデータ記憶装置230の中に記憶されて
いる。
【0023】説明を明確にするために、図2に示されて
いる実施例は個々の機能ブロックとして提示されてい
る。これらのブロックが表している機能はソフトウエア
を実行できるハードウエアを含む、共有の、または専用
のハードウエアのいずれかを使って提供することができ
るが、それらには限定されない。たとえば、図2に示さ
れていて、以下に説明されるブロック210、220お
よび240の機能は単独の共有プロセッサによって提供
することができる。そのようなプロセッサはAT&Tの
DSP 16またはDSP 32Cを含んでいてもよ
く、また以下に説明される動作を実行するソフトウエア
を記憶するための読出し専用メモリを含むことになる。
他の適切な実施例はこの分野の技術に熟達した人によっ
て容易に実施される可能性がある。
いる実施例は個々の機能ブロックとして提示されてい
る。これらのブロックが表している機能はソフトウエア
を実行できるハードウエアを含む、共有の、または専用
のハードウエアのいずれかを使って提供することができ
るが、それらには限定されない。たとえば、図2に示さ
れていて、以下に説明されるブロック210、220お
よび240の機能は単独の共有プロセッサによって提供
することができる。そのようなプロセッサはAT&Tの
DSP 16またはDSP 32Cを含んでいてもよ
く、また以下に説明される動作を実行するソフトウエア
を記憶するための読出し専用メモリを含むことになる。
他の適切な実施例はこの分野の技術に熟達した人によっ
て容易に実施される可能性がある。
【0024】システム200の動作において、特徴分析
装置210はディジタルの音声信号源からの話された発
声を表している入力ディジタル音声信号O(t)を受け
取る。この信号源は図には示されていないが、図に示さ
れている変換器40のようなアナログ・ツー・ディジタ
ル変換器が適している。次に、特徴分析装置210はよ
く知られている方法を使って信号O(t)を一連の特徴
ベクトル、すなわち、観察シーケンスO′(i)(ここ
で、i=1〜N)に変換する。特徴ベクトルはm次元ベ
クトルであり、mの値は特定の時間のウインドウに関係
しているスペクトル情報を表す。
装置210はディジタルの音声信号源からの話された発
声を表している入力ディジタル音声信号O(t)を受け
取る。この信号源は図には示されていないが、図に示さ
れている変換器40のようなアナログ・ツー・ディジタ
ル変換器が適している。次に、特徴分析装置210はよ
く知られている方法を使って信号O(t)を一連の特徴
ベクトル、すなわち、観察シーケンスO′(i)(ここ
で、i=1〜N)に変換する。特徴ベクトルはm次元ベ
クトルであり、mの値は特定の時間のウインドウに関係
しているスペクトル情報を表す。
【0025】ディジタル信号を観察シーケンスに変換す
るために、特徴分析装置210はまず入力音声ディジタ
ル信号の連続した複数の時間的ウインドウを定義する。
そのウインドウは普通は長さが50msより短く、エッ
ジ効果を最小にするために隣りのウインドウとオーバラ
ップすることが多い。次に、入力音声の各ウインドウに
対して、特徴分析装置210は線形予測符号化などのよ
く知られた技法を実行して、ウインドウ化された音声信
号のスペクトル特性を表す係数を発生する。これらの係
数はセプストラル係数、デルタ・セプストラル係数およ
びログ・エネルギー係数を含み、これらはすべて特徴ベ
クトルの部分を含む。そのような係数を発生する方法は
既知であり、L.ラビナーその他による1993年プレ
ンティスホール発行の「音声認識の基本(Fundam
entals of Speech Recognit
ion)」の163、196−198ページに記述され
ている。これはここで参照によって組み込まれている。
特徴ベクトルはトレーニング時に発生されたモデル・ベ
クトルの形式に合っていなければならない。同様な特徴
ベクトルが入力音声の定義されたウインドウのすべてに
対して発生される1つの実施例では、この特徴ベクトル
が次のコンポーネントを適切に含んでいる。 12 セプストラル係数 12 デルタ・セプストラル係数 1 正規化されたログ・エネルギー係数 これらはたとえば、ラビナーその他による文献の中で説
明されている。
るために、特徴分析装置210はまず入力音声ディジタ
ル信号の連続した複数の時間的ウインドウを定義する。
そのウインドウは普通は長さが50msより短く、エッ
ジ効果を最小にするために隣りのウインドウとオーバラ
ップすることが多い。次に、入力音声の各ウインドウに
対して、特徴分析装置210は線形予測符号化などのよ
く知られた技法を実行して、ウインドウ化された音声信
号のスペクトル特性を表す係数を発生する。これらの係
数はセプストラル係数、デルタ・セプストラル係数およ
びログ・エネルギー係数を含み、これらはすべて特徴ベ
クトルの部分を含む。そのような係数を発生する方法は
既知であり、L.ラビナーその他による1993年プレ
ンティスホール発行の「音声認識の基本(Fundam
entals of Speech Recognit
ion)」の163、196−198ページに記述され
ている。これはここで参照によって組み込まれている。
特徴ベクトルはトレーニング時に発生されたモデル・ベ
クトルの形式に合っていなければならない。同様な特徴
ベクトルが入力音声の定義されたウインドウのすべてに
対して発生される1つの実施例では、この特徴ベクトル
が次のコンポーネントを適切に含んでいる。 12 セプストラル係数 12 デルタ・セプストラル係数 1 正規化されたログ・エネルギー係数 これらはたとえば、ラビナーその他による文献の中で説
明されている。
【0026】次に、特徴分析装置210は特徴ベクト
ル、O′(i)(ここで、i=1〜N)を認識装置22
0に対して提供する。次に、認識装置220はその特徴
ベクトルについてセグメンテーションとしても知られて
いるパターン・マッチングを提供する。セグメンテーシ
ョンは認識装置220が特徴ベクトルのシーケンスに対
して最ももっともらしいステート・シーケンスまたは最
ももっともらしいHHMを求めるプロセスである。最も
もっともらしい各ステート・シーケンスは語のモデルを
表すことが好ましい。認識装置220は適応等化を含む
新しいセグメンテーション技法を採用して、時間的に変
化するバイアス源によって生じる信号バイアスを補償す
る。
ル、O′(i)(ここで、i=1〜N)を認識装置22
0に対して提供する。次に、認識装置220はその特徴
ベクトルについてセグメンテーションとしても知られて
いるパターン・マッチングを提供する。セグメンテーシ
ョンは認識装置220が特徴ベクトルのシーケンスに対
して最ももっともらしいステート・シーケンスまたは最
ももっともらしいHHMを求めるプロセスである。最も
もっともらしい各ステート・シーケンスは語のモデルを
表すことが好ましい。認識装置220は適応等化を含む
新しいセグメンテーション技法を採用して、時間的に変
化するバイアス源によって生じる信号バイアスを補償す
る。
【0027】セグメンテーションの手続きを開始するた
めに、認識装置220は各特徴ベクトルを受け取り、既
存の等化ベクトルをそれから差し引くことによって修正
する。等化ベクトルは話者のアクセント以外に、チャネ
ル、マイクロホンおよび周囲ノイズによって音声信号に
追加されたバイアスを近似するベクトルである。次に認
識装置は修正された特徴ベクトルを使って最ももっとも
らしいステート・シーケンスまたはHHMを求める。そ
のステート・シーケンスは認識装置の出力であり、よく
知られたHHM技法を使って求められるのが好ましい。
また、認識装置は各観察ベクトルO′(i)に対応して
いるセグメンテーション・ベクトルA(i)を選択す
る。セグメンテーション・ベクトルはスペクトル的に観
察ベクトルに似ているベクトルであり、また求められた
ステート・シーケンスに密接に結び付けられている。
めに、認識装置220は各特徴ベクトルを受け取り、既
存の等化ベクトルをそれから差し引くことによって修正
する。等化ベクトルは話者のアクセント以外に、チャネ
ル、マイクロホンおよび周囲ノイズによって音声信号に
追加されたバイアスを近似するベクトルである。次に認
識装置は修正された特徴ベクトルを使って最ももっとも
らしいステート・シーケンスまたはHHMを求める。そ
のステート・シーケンスは認識装置の出力であり、よく
知られたHHM技法を使って求められるのが好ましい。
また、認識装置は各観察ベクトルO′(i)に対応して
いるセグメンテーション・ベクトルA(i)を選択す
る。セグメンテーション・ベクトルはスペクトル的に観
察ベクトルに似ているベクトルであり、また求められた
ステート・シーケンスに密接に結び付けられている。
【0028】次に認識装置220は時々刻々1つまたは
それ以上の入力特徴ベクトルとそれに対応しているセグ
メンテーション・ベクトルとの差を計算する。これらの
差の計算によって最近の音声サンプルに対するバイアス
の粗い推定値が得られる。この粗い推定値をスケーリン
グして使って、現在の等化ベクトルを更新または置換す
ることができる。
それ以上の入力特徴ベクトルとそれに対応しているセグ
メンテーション・ベクトルとの差を計算する。これらの
差の計算によって最近の音声サンプルに対するバイアス
の粗い推定値が得られる。この粗い推定値をスケーリン
グして使って、現在の等化ベクトルを更新または置換す
ることができる。
【0029】認識装置220の動作に関する詳細は以下
に図3および4の説明に関連して提供される。
に図3および4の説明に関連して提供される。
【0030】図3に関連して以下に説明されるような複
数パスの認識装置の実施例においては、観察シーケンス
全体が認識装置220を通して複数回処理され、新しい
等化ベクトルが各パスの後に計算される。認識装置22
0は代わりにワン・パス技法を採用することもできる。
これについては図4に関連して以下に説明される。
数パスの認識装置の実施例においては、観察シーケンス
全体が認識装置220を通して複数回処理され、新しい
等化ベクトルが各パスの後に計算される。認識装置22
0は代わりにワン・パス技法を採用することもできる。
これについては図4に関連して以下に説明される。
【0031】次に認識装置220は最ももっともらしい
ステート・シーケンスをデータ抽出デバイス240に対
して提供する。このデバイスは認識された音声発声O
(t)を出力として発生する。このデータ抽出デバイス
240はルックアップ・テーブルなどを使って、最もも
っともらしいステート・シーケンスとして表されている
識別された語または部分語のコードをデータ信号で置き
換える。たとえば、特定のステートのシーケンスS1、
S2、S3、S4が“three”を表しているとす
る。データ抽出デバイス240はルックアップ・テーブ
ルを使って、その最ももっともらしいステート・シーケ
ンス、S1、S2、S3、およびS4を数値データの値
‘3’にマッチさせる。そのようなデータをそれ以降の
回路で使って、図1の中で示されているシステム5の場
合のように、入力音声に基づいた望ましいアクションを
発生させることができる。
ステート・シーケンスをデータ抽出デバイス240に対
して提供する。このデバイスは認識された音声発声O
(t)を出力として発生する。このデータ抽出デバイス
240はルックアップ・テーブルなどを使って、最もも
っともらしいステート・シーケンスとして表されている
識別された語または部分語のコードをデータ信号で置き
換える。たとえば、特定のステートのシーケンスS1、
S2、S3、S4が“three”を表しているとす
る。データ抽出デバイス240はルックアップ・テーブ
ルを使って、その最ももっともらしいステート・シーケ
ンス、S1、S2、S3、およびS4を数値データの値
‘3’にマッチさせる。そのようなデータをそれ以降の
回路で使って、図1の中で示されているシステム5の場
合のように、入力音声に基づいた望ましいアクションを
発生させることができる。
【0032】図3は図2に示されている認識装置220
のような、本発明に従って動作する認識装置の動作のフ
ロー図300を示している。フロー図300の動作を実
行する前に、認識装置は既知の方法によって訓練されて
いなければならない。
のような、本発明に従って動作する認識装置の動作のフ
ロー図300を示している。フロー図300の動作を実
行する前に、認識装置は既知の方法によって訓練されて
いなければならない。
【0033】しかし、一般に、HMMの認識装置は既知
の音声サンプルについての一次および二次の統計量、言
い換えれば、スペクトルの平均値および分散を使って訓
練されている。トレーニングにおいて、HMMと呼ばれ
る複数ステートの統計的モデルが各認識単位モデルに対
して発生される。HMMの各ステートは既知の語または
部分語におけるスペクトルの平均値および分散およびそ
れぞれの発生の可能性と関連付けられている。
の音声サンプルについての一次および二次の統計量、言
い換えれば、スペクトルの平均値および分散を使って訓
練されている。トレーニングにおいて、HMMと呼ばれ
る複数ステートの統計的モデルが各認識単位モデルに対
して発生される。HMMの各ステートは既知の語または
部分語におけるスペクトルの平均値および分散およびそ
れぞれの発生の可能性と関連付けられている。
【0034】この目的のために、HMMの各ステートは
トレーニング時に導き出されたスペクトルの平均値を表
す1つまたはそれ以上のベクトルに関連付けられる。ま
た、ミクスチャ・コンポーネントとも呼ばれる各モデル
・ベクトルはトレーニング時に観測された平均ベクトル
からの変動の測度を提供する分散コンポーネントとも関
連付けられる。
トレーニング時に導き出されたスペクトルの平均値を表
す1つまたはそれ以上のベクトルに関連付けられる。ま
た、ミクスチャ・コンポーネントとも呼ばれる各モデル
・ベクトルはトレーニング時に観測された平均ベクトル
からの変動の測度を提供する分散コンポーネントとも関
連付けられる。
【0035】たとえば、“the”という語に対する認
識単位モデルを考える。この“the”という語は2つ
のステート・シーケンスS1、S2として表すことがで
きる。最初のステートS1はこの語の“th”の部分に
対応し、第2のステートS2は“e”の部分に対応す
る。この特定のモデルの場合、ステートS2は2つのモ
デル・ベクトルに関連付けられ、その1つは語“ea
t”の中でのような長い“e”を表すもの、そしてもう
1つは語“what”の中でのような“ah”の音を表
すものである。これによって、語“the”が普通に発
音される異なる方法が許される。実際の状況において
は、いくつかのモデル・ベクトルまたはミクスチャ・コ
ンポーネントが抑揚および発音の変動をカバーするため
に、“th”の音などの特定の各音と関連付けられる。
識単位モデルを考える。この“the”という語は2つ
のステート・シーケンスS1、S2として表すことがで
きる。最初のステートS1はこの語の“th”の部分に
対応し、第2のステートS2は“e”の部分に対応す
る。この特定のモデルの場合、ステートS2は2つのモ
デル・ベクトルに関連付けられ、その1つは語“ea
t”の中でのような長い“e”を表すもの、そしてもう
1つは語“what”の中でのような“ah”の音を表
すものである。これによって、語“the”が普通に発
音される異なる方法が許される。実際の状況において
は、いくつかのモデル・ベクトルまたはミクスチャ・コ
ンポーネントが抑揚および発音の変動をカバーするため
に、“th”の音などの特定の各音と関連付けられる。
【0036】通常、認識単位モデルに対するHMMは新
しいステートへ前のステートからどのように到達するか
についての統計的記述を提供するステート遷移マトリッ
クスAおよび、或るモデル・ベクトルが与えられたステ
ートの中でどの程度観察される可能性があるかについて
の記述を提供する観察確率マトリックスBによって特性
付けることができる。上記のようなHMM技法は既知で
ある。たとえば、ラビナーその他による文献を参照され
たい。
しいステートへ前のステートからどのように到達するか
についての統計的記述を提供するステート遷移マトリッ
クスAおよび、或るモデル・ベクトルが与えられたステ
ートの中でどの程度観察される可能性があるかについて
の記述を提供する観察確率マトリックスBによって特性
付けることができる。上記のようなHMM技法は既知で
ある。たとえば、ラビナーその他による文献を参照され
たい。
【0037】図3のフロー図は複数パス、連続ミクスチ
ャHMM認識装置における本発明のセグメンテーション
動作を表している。一般に、認識装置は観察シーケンス
を受け取り、最ももっともらしいステート・シーケンス
を生成する。たとえば、観察シーケンスO′(1)、
O′(2)、O′(3)、O′(4)、およびO′
(5)が与えられた場合、フロー図300を実行する
と、ステート・シーケンスS1、S1、S1、S2、S
2が作られる。ステート・シーケンスは次にS1、S2
に縮小され、それは語“the”が話されたことを示
す。この実施例において、認識装置は出力として最終の
最ももっともらしいステート・シーケンスを提供する前
に、発声全体または観察シーケンス全体を複数回セグメ
ント化する。
ャHMM認識装置における本発明のセグメンテーション
動作を表している。一般に、認識装置は観察シーケンス
を受け取り、最ももっともらしいステート・シーケンス
を生成する。たとえば、観察シーケンスO′(1)、
O′(2)、O′(3)、O′(4)、およびO′
(5)が与えられた場合、フロー図300を実行する
と、ステート・シーケンスS1、S1、S1、S2、S
2が作られる。ステート・シーケンスは次にS1、S2
に縮小され、それは語“the”が話されたことを示
す。この実施例において、認識装置は出力として最終の
最ももっともらしいステート・シーケンスを提供する前
に、発声全体または観察シーケンス全体を複数回セグメ
ント化する。
【0038】ステップ310において、変数Mが0に設
定される。変数Mは観察シーケンスがセグメント化され
たパスの回数を表す。次に、ステップ315において、
認識装置は入力観察シーケンス、O′(i)(ここで、
i=1〜N)を受け取る。ベクトルはランダム・アクセ
ス・メモリなどの中に適切に記憶されている。次に、認
識装置はステップ325を実行する。
定される。変数Mは観察シーケンスがセグメント化され
たパスの回数を表す。次に、ステップ315において、
認識装置は入力観察シーケンス、O′(i)(ここで、
i=1〜N)を受け取る。ベクトルはランダム・アクセ
ス・メモリなどの中に適切に記憶されている。次に、認
識装置はステップ325を実行する。
【0039】ステップ325において、観察シーケンス
の中の各特徴ベクトルO(i)は等化ベクトルEqによ
って調整される。その調整を実行するために、ベクトル
Eqが各特徴ベクトルO′(i)から差し引かれて修正
されたO′′(i)が生成される。ベクトルEqはマイ
クロホン、チャネル、話者のアクセント、などによって
追加されるバイアスの推定値を表す。Eqを求める方法
についてはステップ360に関連して以下に示される。
しかし、最初のパスの場合、ベクトルEqは0にするの
が適切である。ステップ325における調整が完了した
後、認識装置はステップ327を実行する。
の中の各特徴ベクトルO(i)は等化ベクトルEqによ
って調整される。その調整を実行するために、ベクトル
Eqが各特徴ベクトルO′(i)から差し引かれて修正
されたO′′(i)が生成される。ベクトルEqはマイ
クロホン、チャネル、話者のアクセント、などによって
追加されるバイアスの推定値を表す。Eqを求める方法
についてはステップ360に関連して以下に示される。
しかし、最初のパスの場合、ベクトルEqは0にするの
が適切である。ステップ325における調整が完了した
後、認識装置はステップ327を実行する。
【0040】ステップ327において、観察シーケンス
に対応している最ももっともらしいHMM、またはステ
ート・シーケンスを求めるためにダイナミック・プログ
ラミングの技法が採用されている。最ももっともらしい
ステート・シーケンスは認識された語または部分語の単
位を表す。通常、いくつかの候補のHMMが考えられ
る。ステート・シーケンスを決定することの一部とし
て、修正された各特徴ベクトルO′′(i)が各候補H
MMの中の1つまたはそれ以上のステートに関連付けら
れたミクスチャ・コンポーネントと比較される。次に、
各候補HMMに対して確率マトリックスAおよびBを使
って最ももっともらしいHMMまたはステート・シーケ
ンスが選択される。
に対応している最ももっともらしいHMM、またはステ
ート・シーケンスを求めるためにダイナミック・プログ
ラミングの技法が採用されている。最ももっともらしい
ステート・シーケンスは認識された語または部分語の単
位を表す。通常、いくつかの候補のHMMが考えられ
る。ステート・シーケンスを決定することの一部とし
て、修正された各特徴ベクトルO′′(i)が各候補H
MMの中の1つまたはそれ以上のステートに関連付けら
れたミクスチャ・コンポーネントと比較される。次に、
各候補HMMに対して確率マトリックスAおよびBを使
って最ももっともらしいHMMまたはステート・シーケ
ンスが選択される。
【0041】いくつかのよく知られたダイナミック・プ
ログラミング技法によって、最ももっともらしいステー
ト・シーケンスまたはHMMを求めることができること
が知られている。1つの例は「音声および信号処理に関
するIEEEトランザクション(IEE Transa
ctions on Acoustic Speech
& Signal Processing)」の37
(ii)の1649−1658ページ(1989年11
月)の中のC.H.リーその他による「連結された語の
認識のためのフレーム同期式ネットワーク・サーチ・ア
ルゴリズム(AFrame−Synchronous
Network Search Algorithm
for Connected Word Recogn
ition)」の中で示されている。
ログラミング技法によって、最ももっともらしいステー
ト・シーケンスまたはHMMを求めることができること
が知られている。1つの例は「音声および信号処理に関
するIEEEトランザクション(IEE Transa
ctions on Acoustic Speech
& Signal Processing)」の37
(ii)の1649−1658ページ(1989年11
月)の中のC.H.リーその他による「連結された語の
認識のためのフレーム同期式ネットワーク・サーチ・ア
ルゴリズム(AFrame−Synchronous
Network Search Algorithm
for Connected Word Recogn
ition)」の中で示されている。
【0042】たとえば、上記の語“th”に対する例を
ふたたび考える。修正された特徴ベクトルO′′
(1)、O′′(2)、およびO′′(3)はそれぞれ
“th”を表しているミクスチャ・コンポーネントのS
1の1つまたはそれ以上にスペクトル的に近い類似性を
持っている可能性がある。同様に、ベクトルO′′
(4)およびO′′(5)は“ah”という音を表して
いるS2のミクスチャ・コンポーネントに対してスペク
トル的に類似している可能性がある。ダイナミック・プ
ログラミングがその語“the”が適切であることを決
定した場合、構文および語のコンテキストを考慮に入れ
て、S1、S2が最ももっともらしいステート・シーケ
ンスであることが決定される。そのような場合、O′′
(1)、O′′(2)、およびO′′(3)がS1に関
係付けられ、O′′(4)およびO′′(5)はS2に
関係付けられる。
ふたたび考える。修正された特徴ベクトルO′′
(1)、O′′(2)、およびO′′(3)はそれぞれ
“th”を表しているミクスチャ・コンポーネントのS
1の1つまたはそれ以上にスペクトル的に近い類似性を
持っている可能性がある。同様に、ベクトルO′′
(4)およびO′′(5)は“ah”という音を表して
いるS2のミクスチャ・コンポーネントに対してスペク
トル的に類似している可能性がある。ダイナミック・プ
ログラミングがその語“the”が適切であることを決
定した場合、構文および語のコンテキストを考慮に入れ
て、S1、S2が最ももっともらしいステート・シーケ
ンスであることが決定される。そのような場合、O′′
(1)、O′′(2)、およびO′′(3)がS1に関
係付けられ、O′′(4)およびO′′(5)はS2に
関係付けられる。
【0043】ステート・シーケンスが決定された後、認
識装置はステップ330を実行する。ステップ330に
おいて、認識装置は各観察ベクトルO′′(i)に対し
てセグメンテーション・ベクトルA(i)を選択する。
識装置はステップ330を実行する。ステップ330に
おいて、認識装置は各観察ベクトルO′′(i)に対し
てセグメンテーション・ベクトルA(i)を選択する。
【0044】セグメンテーション・ベクトルA(1)は
O′′(i)に対応するシーケンスの中のステートと関
係付けられているミクスチャ・コンポーネントから選択
される。これらのミクスチャ・コンポーネントのうち、
選択されたミクスチャが修正された特徴ベクトルO′′
(i)にスペクトル的に最も近いミクスチャである。ス
ペクトル的に近い度合いは2つのベクトル間のユークリ
ッド距離を求めることによって適切に測定することがで
きる。
O′′(i)に対応するシーケンスの中のステートと関
係付けられているミクスチャ・コンポーネントから選択
される。これらのミクスチャ・コンポーネントのうち、
選択されたミクスチャが修正された特徴ベクトルO′′
(i)にスペクトル的に最も近いミクスチャである。ス
ペクトル的に近い度合いは2つのベクトル間のユークリ
ッド距離を求めることによって適切に測定することがで
きる。
【0045】ふたたび語“the”に対する例を考え
る。セグメンテーション・ベクトルA(1)を求めるた
めに、S1のすべてのミクスチャ・コンポーネントが修
正された特徴ベクトルO′′(i)に対して比較され
る。ユークリッド距離が最も近いミクスチャがセグメン
テーション・ベクトルA(1)として選定される。
る。セグメンテーション・ベクトルA(1)を求めるた
めに、S1のすべてのミクスチャ・コンポーネントが修
正された特徴ベクトルO′′(i)に対して比較され
る。ユークリッド距離が最も近いミクスチャがセグメン
テーション・ベクトルA(1)として選定される。
【0046】そのセグメンテーション・ベクトルA
(1)はバイアス・ノイズの効果なしでのベクトルO′
(1)の1つの推定値を表す。
(1)はバイアス・ノイズの効果なしでのベクトルO′
(1)の1つの推定値を表す。
【0047】修正された各特徴ベクトルO′′(i)に
対するセグメンテーション・ベクトルA(i)がステッ
プ330において選択されると、認識装置はステップ3
45へ進む。ステップ345において認識装置はパスの
繰り返しの回数Mをイクリメントする。次に、ステップ
350において、認識装置があらかじめ選択されたパス
の回数を完了したかどうかが検定される。完了していた
場合、その観察シーケンスに対する複数パスのセグメン
テーションが完了しており、認識装置はステップ355
へ進む。2回程度の少ないパスを使うだけで繰返しプロ
セスの恩恵が十分に提供される。しかし、あらかじめ選
択された回数のパスを使うことは例として与えられてい
るだけであることに注意されたい。他の適切な停止基準
を使うこともできる。ステップ355において、セグメ
ンテーションのステート・シーケンスが認識装置の出力
として与えられる。次に、認識装置はステップ310へ
戻って、次の観察シーケンスのための処理を繰り返すこ
とができる。
対するセグメンテーション・ベクトルA(i)がステッ
プ330において選択されると、認識装置はステップ3
45へ進む。ステップ345において認識装置はパスの
繰り返しの回数Mをイクリメントする。次に、ステップ
350において、認識装置があらかじめ選択されたパス
の回数を完了したかどうかが検定される。完了していた
場合、その観察シーケンスに対する複数パスのセグメン
テーションが完了しており、認識装置はステップ355
へ進む。2回程度の少ないパスを使うだけで繰返しプロ
セスの恩恵が十分に提供される。しかし、あらかじめ選
択された回数のパスを使うことは例として与えられてい
るだけであることに注意されたい。他の適切な停止基準
を使うこともできる。ステップ355において、セグメ
ンテーションのステート・シーケンスが認識装置の出力
として与えられる。次に、認識装置はステップ310へ
戻って、次の観察シーケンスのための処理を繰り返すこ
とができる。
【0048】しかし、ステップ350において、答えが
ノーであった場合、あるいは言い換えれば別のパスが必
要であった場合、プロセッサはステップ360を実行
し、その中でベクトルEqが更新される。ベクトルEq
は特徴ベクトルO′(i)とそれぞれに対応しているセ
グメンテーション・ベクトルA(i)との間の重み付け
られた差を平均することによって更新されることが好ま
しい。言い換えれば次の式のようになる。
ノーであった場合、あるいは言い換えれば別のパスが必
要であった場合、プロセッサはステップ360を実行
し、その中でベクトルEqが更新される。ベクトルEq
は特徴ベクトルO′(i)とそれぞれに対応しているセ
グメンテーション・ベクトルA(i)との間の重み付け
られた差を平均することによって更新されることが好ま
しい。言い換えれば次の式のようになる。
【数1】
【0049】ここで、W(i)はA(i)がO′(I)
に対する正しいセグメンテーション・ベクトルであるこ
との確信レベルに基づいていることが好ましい重み付け
の係数である。この確信レベルW(i)はO′(i)に
関係付けられたステートの内部でベクトルA(i)に対
する統計的分散の測度に依存するのが適切である。たと
えば、選定されたミクスチャがステートS1において分
散が大きい場合、W(i)は大きくなる。しかし、選定
されたミクスチャの分散が小さい場合、W(i)は小さ
くなる可能性がある。そのような確信レベルの各種の測
度はステップ327で最ももっともらしいステート・シ
ーケンスを決定する時に発生される。
に対する正しいセグメンテーション・ベクトルであるこ
との確信レベルに基づいていることが好ましい重み付け
の係数である。この確信レベルW(i)はO′(i)に
関係付けられたステートの内部でベクトルA(i)に対
する統計的分散の測度に依存するのが適切である。たと
えば、選定されたミクスチャがステートS1において分
散が大きい場合、W(i)は大きくなる。しかし、選定
されたミクスチャの分散が小さい場合、W(i)は小さ
くなる可能性がある。そのような確信レベルの各種の測
度はステップ327で最ももっともらしいステート・シ
ーケンスを決定する時に発生される。
【0050】代わりに、ベクトルEqは他の適切な式を
使って更新することができる。たとえば、新しいEqベ
クトルは次の式で与えられるような既存のEqベクトル
の修正であってもよい。
使って更新することができる。たとえば、新しいEqベ
クトルは次の式で与えられるような既存のEqベクトル
の修正であってもよい。
【数2】
【0051】ここでEqold は既存のEqベクトルであ
る。この分野の技術に普通に熟達している人であれば、
特徴ベクトルとそれに対応しているセグメンテーション
・ベクトルとの差に基づいてEqの計算式の他のバリエ
ーションを容易に実施することができる。たとえば、同
様な差のベクトルのヒストグラムを記憶し、Eqを最高
の繰返し履歴を持つ差のベクトルに等しく設定すること
ができる。いずれの場合でも結果のベクトルEqは中立
の、すなわち、汎用の音声パターンに加えられたベクト
ルであるとしてバイアスを表すことによって、音声信号
の中のバイアスを近似する。ベクトルEqがステップ3
60において再定義された後、認識装置はステップ32
5に戻って観察シーケンスの別のパスまたはセグメンテ
ーションの繰返しを実行する。
る。この分野の技術に普通に熟達している人であれば、
特徴ベクトルとそれに対応しているセグメンテーション
・ベクトルとの差に基づいてEqの計算式の他のバリエ
ーションを容易に実施することができる。たとえば、同
様な差のベクトルのヒストグラムを記憶し、Eqを最高
の繰返し履歴を持つ差のベクトルに等しく設定すること
ができる。いずれの場合でも結果のベクトルEqは中立
の、すなわち、汎用の音声パターンに加えられたベクト
ルであるとしてバイアスを表すことによって、音声信号
の中のバイアスを近似する。ベクトルEqがステップ3
60において再定義された後、認識装置はステップ32
5に戻って観察シーケンスの別のパスまたはセグメンテ
ーションの繰返しを実行する。
【0052】フロー図300の実行において、観察シー
ケンスはいくつかの他の停止基準が満足されるまでM回
のパスまたは繰返しに対して観察シーケンスがセグメン
ト化される。繰り返されるたびに、Eqが更新され、さ
らにリファインされたものになり、特徴ベクトルのセグ
メンテーションを改善する。本発明はこのようにして入
力信号の中に存在するバイアスを近似するベクトルを求
めるためのプロセスを繰り返して提供する。本発明の方
法は進行中にバイアスの推定値Eqを再計算し、あるい
はリファインする。それによって使用ごとのバイアスの
変化以外に、回線および周囲ノイズにおける特性の変化
に対して補償される。
ケンスはいくつかの他の停止基準が満足されるまでM回
のパスまたは繰返しに対して観察シーケンスがセグメン
ト化される。繰り返されるたびに、Eqが更新され、さ
らにリファインされたものになり、特徴ベクトルのセグ
メンテーションを改善する。本発明はこのようにして入
力信号の中に存在するバイアスを近似するベクトルを求
めるためのプロセスを繰り返して提供する。本発明の方
法は進行中にバイアスの推定値Eqを再計算し、あるい
はリファインする。それによって使用ごとのバイアスの
変化以外に、回線および周囲ノイズにおける特性の変化
に対して補償される。
【0053】図4は図2に示されている認識装置220
のような認識装置において使われる、代わりのフロー図
を示している。図4のフロー図はワン・パス認識装置の
実施例における本発明の1つの実施形態を示している。
ワン・パスの認識システムにおいては、図3に示されて
いる複数パスのシステムとは反対に、特徴ベクトルは一
度だけしかセグメント化されない。複数パスのシステム
と比較して、ワン・パスのシステムは認識誤りが大きい
のが普通である。というのは、複数パスのセグメンテー
ションのリファインを行なわないからである。一方、ワ
ン・パス・システムは計算時間がはるかに少なくて済
む。この分野の技術に熟達している人であれば、どの実
施形態が特定の設計条件に合っているかを知ることがで
きる。
のような認識装置において使われる、代わりのフロー図
を示している。図4のフロー図はワン・パス認識装置の
実施例における本発明の1つの実施形態を示している。
ワン・パスの認識システムにおいては、図3に示されて
いる複数パスのシステムとは反対に、特徴ベクトルは一
度だけしかセグメント化されない。複数パスのシステム
と比較して、ワン・パスのシステムは認識誤りが大きい
のが普通である。というのは、複数パスのセグメンテー
ションのリファインを行なわないからである。一方、ワ
ン・パス・システムは計算時間がはるかに少なくて済
む。この分野の技術に熟達している人であれば、どの実
施形態が特定の設計条件に合っているかを知ることがで
きる。
【0054】ステップ410は新しい電話の呼出しなど
の新しい認識トランザクションが開始された時だけ発生
することが好ましい初期化のステップである。ステップ
410において、認識装置は先ずベクトルEqを初期ベ
クトルEq0にリセットする。Eq0は、0または以前
に記憶されていたバイアスの推定値とすることができ
る。ステップ410における初期化の後、認識装置はス
テップ415へ進む。これは進行中でのワン・パス・セ
グメンテーション・プロセスの開始ステップである。
の新しい認識トランザクションが開始された時だけ発生
することが好ましい初期化のステップである。ステップ
410において、認識装置は先ずベクトルEqを初期ベ
クトルEq0にリセットする。Eq0は、0または以前
に記憶されていたバイアスの推定値とすることができ
る。ステップ410における初期化の後、認識装置はス
テップ415へ進む。これは進行中でのワン・パス・セ
グメンテーション・プロセスの開始ステップである。
【0055】ステップ415において、認識装置は次の
特徴ベクトルO′(i)を受け取る。次に、ステップ4
20において、その特徴ベクトルが等化ベクトルEqに
よって調整される。調整はベクトルEqをベクトルO′
(i)から差し引くことによって行なわれ、その結果修
正されたO′′(i)が生成される。ステップ420に
おける調整の後、認識装置はステップ425を実行す
る。
特徴ベクトルO′(i)を受け取る。次に、ステップ4
20において、その特徴ベクトルが等化ベクトルEqに
よって調整される。調整はベクトルEqをベクトルO′
(i)から差し引くことによって行なわれ、その結果修
正されたO′′(i)が生成される。ステップ420に
おける調整の後、認識装置はステップ425を実行す
る。
【0056】ステップ425において、認識装置はよく
知られているHMMのダイナミック・プログラミング技
法を使って、修正された特徴ベクトルO′′(i)を最
ももっともらしいステート・シーケンスの中の次のステ
ートおよびその次のステートに関係付けられた最も近い
モデル・ベクトルの両方に対してマッチさせる。その
後、最も近いモデル・ベクトルがセグメンテーション・
ベクトルA(i)となる。ステップ425は図3に関係
して前に説明されたステップ327での同様なHMM技
法を採用するのが適切である。次に、認識装置はステッ
プ430を実行する。
知られているHMMのダイナミック・プログラミング技
法を使って、修正された特徴ベクトルO′′(i)を最
ももっともらしいステート・シーケンスの中の次のステ
ートおよびその次のステートに関係付けられた最も近い
モデル・ベクトルの両方に対してマッチさせる。その
後、最も近いモデル・ベクトルがセグメンテーション・
ベクトルA(i)となる。ステップ425は図3に関係
して前に説明されたステップ327での同様なHMM技
法を採用するのが適切である。次に、認識装置はステッ
プ430を実行する。
【0057】ステップ430において、認識装置は最も
もっともらしい次のステートを認識装置の出力に対して
供給する。その後、ステップ435において、認識装置
は等化ベクトルEqを再計算する。このために、現在の
Eqは現在の特徴ベクトルO′(i)とそのセグメンテ
ーション・ベクトルA(i)との間の差によって修正さ
れる。特に等化ベクトルの修正は次の式で与えられる。 Eq=(1−μ)Eq+μ(O′(i)−A(i))
もっともらしい次のステートを認識装置の出力に対して
供給する。その後、ステップ435において、認識装置
は等化ベクトルEqを再計算する。このために、現在の
Eqは現在の特徴ベクトルO′(i)とそのセグメンテ
ーション・ベクトルA(i)との間の差によって修正さ
れる。特に等化ベクトルの修正は次の式で与えられる。 Eq=(1−μ)Eq+μ(O′(i)−A(i))
【0058】ここでμは1より小さい正のスカラー値で
あり、0.1より小さいことが好ましい。次に、認識装
置はステップ440へ進み、インデックスiが増加され
る。ステップ440においてインデックスが増加された
後、認識装置はステップ415へ戻って次の特徴ベクト
ルをセグメント化する。
あり、0.1より小さいことが好ましい。次に、認識装
置はステップ440へ進み、インデックスiが増加され
る。ステップ440においてインデックスが増加された
後、認識装置はステップ415へ戻って次の特徴ベクト
ルをセグメント化する。
【0059】このようにして上記のフロー・チャートは
バイアス・ノイズを減らすためにEqによって入力の特
徴ベクトルを調整すること、および、入力の特徴ベクト
ルとセグメンテーション・ベクトルとの差および前のE
qに基づいてEqの値を計算し直すことの両方を実行す
る。
バイアス・ノイズを減らすためにEqによって入力の特
徴ベクトルを調整すること、および、入力の特徴ベクト
ルとセグメンテーション・ベクトルとの差および前のE
qに基づいてEqの値を計算し直すことの両方を実行す
る。
【0060】前記の本発明の実施例は単に説明的なもの
に過ぎないことを理解する必要がある。本発明の原理を
体現し、本発明の精神およびその範囲に入る他の実施例
は、この分野の技術に熟達した人であれば容易に考える
ことができる。たとえば、本発明による音声認識装置は
声によって駆動される消費者用電子装置および器具を含
めて図1に示されているもの以外の制御システムに対し
て使うことができる。このために、電話のハンドセット
を他の適切な音声入力デバイスで置き換えることがで
き、また、電話のネットワークも不要となる場合があ
る。
に過ぎないことを理解する必要がある。本発明の原理を
体現し、本発明の精神およびその範囲に入る他の実施例
は、この分野の技術に熟達した人であれば容易に考える
ことができる。たとえば、本発明による音声認識装置は
声によって駆動される消費者用電子装置および器具を含
めて図1に示されているもの以外の制御システムに対し
て使うことができる。このために、電話のハンドセット
を他の適切な音声入力デバイスで置き換えることがで
き、また、電話のネットワークも不要となる場合があ
る。
【図1】本発明によって動作する音声認識システムを含
んでいる複数のユーザ・システムを示す。
んでいる複数のユーザ・システムを示す。
【図2】本発明に従って動作する隠れマルコフ・モデル
に基づいた音声認識システムを示す。
に基づいた音声認識システムを示す。
【図3】図2に示されているシステムの中で使うための
音声認識装置の一実施例によって実行されるステップの
フロー図を示す。
音声認識装置の一実施例によって実行されるステップの
フロー図を示す。
【図4】図2に示されているシステムの中で使われるた
めの音声認識装置の代わりの実施例によって実行される
ステップのフロー図を示す。
めの音声認識装置の代わりの実施例によって実行される
ステップのフロー図を示す。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ディヴィット マンソア イスラエル国,ハイファ,アルバート シ ュウィツアー60 (72)発明者 ジェイ ゴードン ウィルポン アメリカ合衆国 07059 ニュージャーシ ィ,ウォーレン,ラウンド トップ ロー ド 75
Claims (18)
- 【請求項1】 音声信号を認識するための装置であっ
て、 入力の音声信号から複数の特徴ベクトルを発生するよう
に動作できる音声分析装置と、 音声モデル・ベクトルを含んでいるメモリ・デバイス
と、 動作できるように音声モデル・ベクトルをメモリ・デバ
イスから受け取るように接続されている音声認識装置と
を含み、 前記音声認識装置は、 a)音声分析装置からの複数の特徴ベクトルを含んでい
る観察シーケンスを受け取ること、 b)等化ベクトルを使って少なくとも1つの特徴ベクト
ルを修正すること、 c)音声モデル・ベクトルを使って修正された特徴ベク
トルに対応するセグメンテーション・ベクトルを発生す
ること、 d)セグメンテーション・ベクトルとそれに対応してい
る特徴ベクトルとの間の差に基づいてそれ以降の等化ベ
クトルを発生することができるようになっている装置。 - 【請求項2】 認識装置がさらに、d)の動作を実行す
る前に複数の特徴ベクトルに対してb)およびc)の動
作を実行し、 その中で認識装置が複数の特徴ベクトルと複数のそれに
対応しているセグメンテーション・ベクトルとの間の差
の重み付けられた平均値に基づいて、それ以降の等化ベ
クトルを発生するように動作できることを特徴とする、
請求項1に記載の装置。 - 【請求項3】 認識装置がさらに、 e)それ以降の等化ベクトルを使って少なくとも1つの
特徴ベクトルを修正すること、 f)音声モデル・ベクトルを使って修正された特徴ベク
トルに対応しているそれ以降のセグメンテーション・ベ
クトルを発生することができるように動作することを特
徴とする、請求項2に記載の装置。 - 【請求項4】 認識装置が隠れマルコフ・モデル音声認
識装置を含んでいることを特徴とする、請求項1に記載
の装置。 - 【請求項5】 認識装置が隠れマルコフ・モデル音声認
識装置を含んでいることを特徴とする、請求項3に記載
の装置。 - 【請求項6】 認識装置が特徴ベクトルと対応している
セグメンテーション・ベクトルとの間の差をスケーリン
グ係数で調整したものと等化ベクトルとのベクトル和に
基づいてそれ以降の等化ベクトルを発生することができ
るようになっていることを特徴とする、請求項1に記載
の装置。 - 【請求項7】 認識装置がさらに観察シーケンスに対応
している最ももっともらしいステート・シーケンスを発
生するように動作できることを特徴とする、請求項1に
記載の装置。 - 【請求項8】 入力の音声信号を処理する方法であっ
て、 a)入力の音声信号から複数の特徴ベクトルを発生する
ステップと、 b)少なくとも1つの特徴ベクトルを音声認識装置に対
して提供するステップと、 c)等化ベクトルを使って少なくとも1つの特徴ベクト
ルを修正するために音声認識装置を採用するステップ
と、 d)少なくとも1つの修正された特徴ベクトルに基づい
て少なくとも1つの最ももっともらしいステート・シー
ケンスを求めるために、ダイナミック・プログラミング
を採用するステップと、 e)複数の音声モデル・ベクトルを使って少なくとも1
つのセグメンテーション・ベクトルを少なくとも1つの
修正された特徴ベクトルから発生するために、音声認識
装置を採用するステップと、 f)少なくとも1つのセグメンテーション・ベクトルと
少なくとも1つの対応している特徴ベクトルとの間の差
に基づいてそれ以降の等化ベクトルを発生するステップ
とを含む、方法。 - 【請求項9】 ステップd)がさらに、少なくとも1つ
の修正された特徴ベクトルと少なくとも1つの音声モデ
ル・ベクトルとの間のスペクトルの類似性に基づいて少
なくとも1つのステートを決定することを含んでいるこ
とを特徴とする、請求項8に記載の方法。 - 【請求項10】 ステップf)を実行する前に複数の特
徴ベクトルに対してb)、およびc)とe)のステップ
を繰り返すステップを含んでいて、 その中でステップf)がさらに複数の特徴ベクトルとそ
れに対応している複数のセグメンテーション・ベクトル
との間の差の平均値に基づいて、それ以降の等化ベクト
ルを発生するステップを含んでいることを特徴とする、
請求項8に記載の方法。 - 【請求項11】 g)それ以降の等化ベクトルを使って
複数の特徴ベクトルを修正するために、音声認識装置を
採用するステップと、 h)少なくとも1つの修正された特徴ベクトルに基づい
て、それ以降の最ももっともらしいステート・シーケン
スの少なくとも1つのステートを求めるために、ダイナ
ミック・プログラミングを採用するステップとを含んで
いることを特徴とする、請求項10に記載の方法。 - 【請求項12】 音声認識装置が隠れマルコフ・モデル
の音声認識装置を含んでいることを特徴とする、請求項
8に記載の方法。 - 【請求項13】 ステップd)がさらに特徴ベクトルと
セグメンテーション・ベクトルとの間の差をスケーリン
グ係数によって調整したものと等化ベクトルとのベクト
ル和に基づいて、それ以降の等化ベクトルを発生するス
テップをさらに含んでいることを特徴とする、請求項8
に記載の方法。 - 【請求項14】 システムの音声制御を提供するための
装置であって、 利用者からの入力音声を受け取って音声信号を発生する
ように動作できる音声入力デバイスと、 音声入力デバイスから音声信号を受け取って、その音声
信号を表す特徴ベクトルを発生するために接続されてい
る音声分析装置と、 音声分析装置からの特徴ベクトルを受け取るために接続
されていて、 等化ベクトルを使って各特徴ベクトルを修正し、 修正された特徴ベクトルに対応している最ももっともら
しいステート・シーケンスを発生し、 少なくとも1つの修正された特徴ベクトルに対して1つ
のセグメンテーション・ベクトルを発生し、 1つまたはそれ以上のセグメンテーション・ベクトルと
それぞれに対応する特徴ベクトルとの間の差に基づい
て、それ以降の等化ベクトルを発生することができるよ
うな音声認識装置と、 音声認識装置からセグメンテーション・ベクトルを受け
取ってそれから制御データを発生し、前記制御データを
システムの中の1つのコントローラが使えるように動作
することができるデータ抽出装置とを含む装置。 - 【請求項15】 制御データをデータ抽出デバイスから
受け取り、さらに入力の音声に基づいてシステムを制御
するように動作できるようなコントローラを含んでいる
ことを特徴とする、請求項14に記載の装置。 - 【請求項16】 音声入力デバイスが電話機を含んでい
ることを特徴とする、請求項14に記載の装置。 - 【請求項17】 複数の音声入力デバイスをさらに含ん
でおり、各音声入力デバイスが音声分析装置に対して入
力の音声信号を提供するために動作できるように接続さ
れていることを特徴とする、請求項14に記載の装置。 - 【請求項18】 コントローラが複数の電話機の内線に
接続されていて、音声で選択された内線電話に対して音
声入力デバイスを接続できるようになっていることを特
徴とする、請求項15に記載の装置。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US08/366,657 US5812972A (en) | 1994-12-30 | 1994-12-30 | Adaptive decision directed speech recognition bias equalization method and apparatus |
| US08/366657 | 1994-12-30 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH08234788A true JPH08234788A (ja) | 1996-09-13 |
Family
ID=23443955
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7338417A Withdrawn JPH08234788A (ja) | 1994-12-30 | 1995-12-26 | 音声認識のバイアス等化方法および装置 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US5812972A (ja) |
| EP (1) | EP0720149A1 (ja) |
| JP (1) | JPH08234788A (ja) |
| CA (1) | CA2165873A1 (ja) |
| MX (1) | MX9505296A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003524805A (ja) * | 2000-02-25 | 2003-08-19 | スピーチワークス インターナショナル,インク. | 音声認識システムの自動的再学習 |
| JP2005258186A (ja) * | 2004-03-12 | 2005-09-22 | Advanced Telecommunication Research Institute International | 周波数特性等化装置 |
Families Citing this family (42)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA2196554C (en) * | 1994-08-18 | 2000-10-03 | Michael Peter Hollier | Test method |
| JPH1063293A (ja) * | 1996-08-23 | 1998-03-06 | Kokusai Denshin Denwa Co Ltd <Kdd> | 電話音声認識装置 |
| DE19712632A1 (de) * | 1997-03-26 | 1998-10-01 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Sprachfernsteuerung von Geräten |
| FR2766604B1 (fr) * | 1997-07-22 | 1999-10-01 | France Telecom | Procede et dispositif d'egalisation aveugle des effets d'un canal de transmission sur un signal de parole numerique |
| US6006182A (en) * | 1997-09-22 | 1999-12-21 | Northern Telecom Limited | Speech recognition rejection method using generalized additive models |
| US6404876B1 (en) | 1997-09-25 | 2002-06-11 | Gte Intelligent Network Services Incorporated | System and method for voice activated dialing and routing under open access network control |
| US6173041B1 (en) * | 1997-11-13 | 2001-01-09 | Advanced Micro Devices, Inc. | System and method for reducing call interruptions on a telephone |
| US6178230B1 (en) | 1997-11-13 | 2001-01-23 | Advanced Micro Devices, Inc. | System and method for identifying a callee of an incoming telephone call |
| US6385303B1 (en) | 1997-11-13 | 2002-05-07 | Legerity, Inc. | System and method for identifying and announcing a caller and a callee of an incoming telephone call |
| US6614885B2 (en) * | 1998-08-14 | 2003-09-02 | Intervoice Limited Partnership | System and method for operating a highly distributed interactive voice response system |
| US6980952B1 (en) * | 1998-08-15 | 2005-12-27 | Texas Instruments Incorporated | Source normalization training for HMM modeling of speech |
| TW418383B (en) * | 1998-09-23 | 2001-01-11 | Ind Tech Res Inst | Telephone voice recognition system and method and the channel effect compensation device using the same |
| US6230129B1 (en) * | 1998-11-25 | 2001-05-08 | Matsushita Electric Industrial Co., Ltd. | Segment-based similarity method for low complexity speech recognizer |
| DE19929462A1 (de) * | 1999-06-26 | 2001-02-22 | Philips Corp Intellectual Pty | Verfahren zum Training eines automatischen Spracherkenners |
| US20010044719A1 (en) * | 1999-07-02 | 2001-11-22 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for recognizing, indexing, and searching acoustic signals |
| US6920421B2 (en) * | 1999-12-28 | 2005-07-19 | Sony Corporation | Model adaptive apparatus for performing adaptation of a model used in pattern recognition considering recentness of a received pattern data |
| TW473704B (en) * | 2000-08-30 | 2002-01-21 | Ind Tech Res Inst | Adaptive voice recognition method with noise compensation |
| US6959278B1 (en) * | 2001-04-05 | 2005-10-25 | Verizon Corporate Services Group Inc. | Systems and methods for implementing segmentation in speech recognition systems |
| US6785648B2 (en) * | 2001-05-31 | 2004-08-31 | Sony Corporation | System and method for performing speech recognition in cyclostationary noise environments |
| US6876728B2 (en) | 2001-07-02 | 2005-04-05 | Nortel Networks Limited | Instant messaging using a wireless interface |
| US8644475B1 (en) | 2001-10-16 | 2014-02-04 | Rockstar Consortium Us Lp | Telephony usage derived presence information |
| US20030135624A1 (en) * | 2001-12-27 | 2003-07-17 | Mckinnon Steve J. | Dynamic presence management |
| DE10208466A1 (de) * | 2002-02-27 | 2004-01-29 | BSH Bosch und Siemens Hausgeräte GmbH | Elektrisches Haushaltsgerät |
| DE10208468A1 (de) * | 2002-02-27 | 2003-09-04 | Bsh Bosch Siemens Hausgeraete | Elektrisches Gerät, insbesondere Dunstabzugshaube |
| US20030225719A1 (en) * | 2002-05-31 | 2003-12-04 | Lucent Technologies, Inc. | Methods and apparatus for fast and robust model training for object classification |
| US8392609B2 (en) | 2002-09-17 | 2013-03-05 | Apple Inc. | Proximity detection for media proxies |
| US9118574B1 (en) | 2003-11-26 | 2015-08-25 | RPX Clearinghouse, LLC | Presence reporting using wireless messaging |
| US7206389B1 (en) * | 2004-01-07 | 2007-04-17 | Nuance Communications, Inc. | Method and apparatus for generating a speech-recognition-based call-routing system |
| US9355651B2 (en) | 2004-09-16 | 2016-05-31 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
| US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
| US8938390B2 (en) * | 2007-01-23 | 2015-01-20 | Lena Foundation | System and method for expressive language and developmental disorder assessment |
| US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
| EP2013869B1 (en) * | 2006-05-01 | 2017-12-13 | Nippon Telegraph And Telephone Corporation | Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics |
| US7725316B2 (en) * | 2006-07-05 | 2010-05-25 | General Motors Llc | Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle |
| US7680657B2 (en) * | 2006-08-15 | 2010-03-16 | Microsoft Corporation | Auto segmentation based partitioning and clustering approach to robust endpointing |
| EP2126901B1 (en) | 2007-01-23 | 2015-07-01 | Infoture, Inc. | System for analysis of speech |
| US9118669B2 (en) | 2010-09-30 | 2015-08-25 | Alcatel Lucent | Method and apparatus for voice signature authentication |
| US8965756B2 (en) * | 2011-03-14 | 2015-02-24 | Adobe Systems Incorporated | Automatic equalization of coloration in speech recordings |
| DE102015102605A1 (de) * | 2015-02-24 | 2016-08-25 | Intel IP Corporation | Verfahren und Vorrichtung zum Unterdrücken eines Fehlers einer Funkkanalsequenz |
| WO2019113477A1 (en) | 2017-12-07 | 2019-06-13 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
| US11270721B2 (en) * | 2018-05-21 | 2022-03-08 | Plantronics, Inc. | Systems and methods of pre-processing of speech signals for improved speech recognition |
| CN113593534B (zh) * | 2021-05-28 | 2023-07-14 | 思必驰科技股份有限公司 | 针对多口音语音识别的方法和装置 |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| NL8500339A (nl) * | 1985-02-07 | 1986-09-01 | Philips Nv | Adaptief responderend systeem. |
| EP0235127B2 (en) * | 1985-09-03 | 1993-05-05 | Motorola, Inc. | Hands-free control system for a radiotelephone |
| JPH0833739B2 (ja) * | 1990-09-13 | 1996-03-29 | 三菱電機株式会社 | パターン表現モデル学習装置 |
| WO1993001664A1 (en) * | 1991-07-08 | 1993-01-21 | Motorola, Inc. | Remote voice control system |
| JPH05257492A (ja) * | 1992-03-13 | 1993-10-08 | Toshiba Corp | 音声認識方式 |
| US5440662A (en) * | 1992-12-11 | 1995-08-08 | At&T Corp. | Keyword/non-keyword classification in isolated word speech recognition |
| US5483579A (en) * | 1993-02-25 | 1996-01-09 | Digital Acoustics, Inc. | Voice recognition dialing system |
| US5664059A (en) * | 1993-04-29 | 1997-09-02 | Panasonic Technologies, Inc. | Self-learning speaker adaptation based on spectral variation source decomposition |
-
1994
- 1994-12-30 US US08/366,657 patent/US5812972A/en not_active Expired - Lifetime
-
1995
- 1995-12-12 EP EP95309027A patent/EP0720149A1/en not_active Withdrawn
- 1995-12-14 MX MX9505296A patent/MX9505296A/es unknown
- 1995-12-21 CA CA002165873A patent/CA2165873A1/en not_active Abandoned
- 1995-12-26 JP JP7338417A patent/JPH08234788A/ja not_active Withdrawn
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003524805A (ja) * | 2000-02-25 | 2003-08-19 | スピーチワークス インターナショナル,インク. | 音声認識システムの自動的再学習 |
| JP2005258186A (ja) * | 2004-03-12 | 2005-09-22 | Advanced Telecommunication Research Institute International | 周波数特性等化装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| CA2165873A1 (en) | 1996-07-01 |
| EP0720149A1 (en) | 1996-07-03 |
| US5812972A (en) | 1998-09-22 |
| MX9505296A (es) | 1997-01-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5812972A (en) | Adaptive decision directed speech recognition bias equalization method and apparatus | |
| EP0846318B1 (en) | Pattern recognition | |
| US5991720A (en) | Speech recognition system employing multiple grammar networks | |
| US6389395B1 (en) | System and method for generating a phonetic baseform for a word and using the generated baseform for speech recognition | |
| JP2733955B2 (ja) | 適応型音声認識装置 | |
| US8694316B2 (en) | Methods, apparatus and computer programs for automatic speech recognition | |
| US5930753A (en) | Combining frequency warping and spectral shaping in HMM based speech recognition | |
| US5960397A (en) | System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition | |
| US5806029A (en) | Signal conditioned minimum error rate training for continuous speech recognition | |
| US5794192A (en) | Self-learning speaker adaptation based on spectral bias source decomposition, using very short calibration speech | |
| US5930336A (en) | Voice dialing server for branch exchange telephone systems | |
| JP2768274B2 (ja) | 音声認識装置 | |
| EP1220197A2 (en) | Speech recognition method and system | |
| JPH08110793A (ja) | 特性ベクトルの前端正規化による音声認識の改良方法及びシステム | |
| JPH10507536A5 (ja) | ||
| JPH07210190A (ja) | 音声認識方法及びシステム | |
| CN1639768B (zh) | 自动语音识别方法及装置 | |
| JP2000099080A (ja) | 信頼性尺度の評価を用いる音声認識方法 | |
| JPH09160584A (ja) | 音声適応化装置および音声認識装置 | |
| JP3868798B2 (ja) | 音声認識装置 | |
| Jiang et al. | Robust speech recognition based on Viterbi Bayesian predictive classification | |
| Ney et al. | Acoustic-phonetic modeling in the SPICOS system | |
| Rose et al. | A user-configurable system for voice label recognition | |
| Foo et al. | HMM speech recognition with reduced training | |
| JPH08123465A (ja) | 音響モデルの適応化法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20030304 |