JPH10288996A - 音声認識方法及び音声信号処理装置 - Google Patents
音声認識方法及び音声信号処理装置Info
- Publication number
- JPH10288996A JPH10288996A JP10097547A JP9754798A JPH10288996A JP H10288996 A JPH10288996 A JP H10288996A JP 10097547 A JP10097547 A JP 10097547A JP 9754798 A JP9754798 A JP 9754798A JP H10288996 A JPH10288996 A JP H10288996A
- Authority
- JP
- Japan
- Prior art keywords
- parameters
- speech recognition
- speech
- feature vector
- buffer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000005236 sound signal Effects 0.000 claims description 8
- 230000004048 modification Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 abstract description 57
- 238000010606 normalization Methods 0.000 abstract description 35
- 238000012549 training Methods 0.000 abstract description 18
- 230000000694 effects Effects 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Complex Calculations (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】
【課題】 改良された音声認識方法及び音声信号処理装
置を提供する。 【解決手段】 音声認識装置の分析ユニットで作られた
特徴ベクトルが雑音の影響を補償するために修正され
る。本発明では、スライディング正規化バッファー(3
1)を使って特徴ベクトルを正規化する。本発明の方法
により、音声認識装置のトレーニング段階が実際の音声
認識段階での騒音環境とは異なる騒音環境で実行された
場合に、音声認識装置の性能が向上する。
置を提供する。 【解決手段】 音声認識装置の分析ユニットで作られた
特徴ベクトルが雑音の影響を補償するために修正され
る。本発明では、スライディング正規化バッファー(3
1)を使って特徴ベクトルを正規化する。本発明の方法
により、音声認識装置のトレーニング段階が実際の音声
認識段階での騒音環境とは異なる騒音環境で実行された
場合に、音声認識装置の性能が向上する。
Description
【0001】
【発明の属する技術分野】本発明は音声認識に関し、特
に音声認識において決定されるべき各特徴ベクトル(fe
ature vector)を修正する方法に関する。本発明は、音
声認識を改良するために本発明のこの方法を使用する装
置にも関する。
に音声認識において決定されるべき各特徴ベクトル(fe
ature vector)を修正する方法に関する。本発明は、音
声認識を改良するために本発明のこの方法を使用する装
置にも関する。
【0002】
【従来の技術】本発明は自動的音声認識に関し、特に、
ヒドゥン・マルコフモデル(Hidden Markov Models (HM
M))に基づく音声認識に関する。HMMに基づく音声認
識は、認識可能な単語の統計的モデルに基づいている。
認識段階においては、発音された単語についてマルコフ
チェーンに基づいて観測結果及び状態遷移が計算され
て、音声認識装置のトレーニング段階で記憶された、そ
の発音された単語に対応するモデルが確率に基づいて決
定される。例えば、ヒドゥン・マルコフモデルに基づく
音声認識方法は下記の参考文献において解説されてい
る:”1989年2月のIEEE会報第77巻第2号の
中のL.ラビナーの”音声認識におけるヒドゥン・マル
コフモデルと選択されたアプリケーションについての指
導”("L. Rabiner, "A tutorial on Hidden Markov Mo
dels and selected applications in speech recogniti
on", Proceedings of the IEEE, Vol. 77, No.2, Febru
ary 1989.
ヒドゥン・マルコフモデル(Hidden Markov Models (HM
M))に基づく音声認識に関する。HMMに基づく音声認
識は、認識可能な単語の統計的モデルに基づいている。
認識段階においては、発音された単語についてマルコフ
チェーンに基づいて観測結果及び状態遷移が計算され
て、音声認識装置のトレーニング段階で記憶された、そ
の発音された単語に対応するモデルが確率に基づいて決
定される。例えば、ヒドゥン・マルコフモデルに基づく
音声認識方法は下記の参考文献において解説されてい
る:”1989年2月のIEEE会報第77巻第2号の
中のL.ラビナーの”音声認識におけるヒドゥン・マル
コフモデルと選択されたアプリケーションについての指
導”("L. Rabiner, "A tutorial on Hidden Markov Mo
dels and selected applications in speech recogniti
on", Proceedings of the IEEE, Vol. 77, No.2, Febru
ary 1989.
【0003】
【発明が解決しようとする課題】現在の音声認識装置の
問題は、騒々しい環境の中では認識精度が著しく低下す
ることである。また、特に音声認識装置が動作するとき
の騒音条件が該音声認識装置のトレーニング段階での騒
音条件と異なる場合には該音声認識装置の性能は低下す
る。音声認識装置が使用されることのある全ての騒音環
境の影響を考慮に入れることは不可能であるので、この
ことは実際問題としては音声信号認識システムにおいて
最も解決しにくい問題の1つである。音声認識装置を利
用する装置のユーザにとっての正規の立場は、音声認識
装置のトレーニングは通常は殆ど騒音のない環境で行わ
れるけれども、その音声認識装置が例えば車内などの動
作環境で使われるときには周囲の交通やその車自体から
生じる暗騒音はトレーニング段階での殆ど静穏な暗騒音
レベルとは著しく違っているということである。
問題は、騒々しい環境の中では認識精度が著しく低下す
ることである。また、特に音声認識装置が動作するとき
の騒音条件が該音声認識装置のトレーニング段階での騒
音条件と異なる場合には該音声認識装置の性能は低下す
る。音声認識装置が使用されることのある全ての騒音環
境の影響を考慮に入れることは不可能であるので、この
ことは実際問題としては音声信号認識システムにおいて
最も解決しにくい問題の1つである。音声認識装置を利
用する装置のユーザにとっての正規の立場は、音声認識
装置のトレーニングは通常は殆ど騒音のない環境で行わ
れるけれども、その音声認識装置が例えば車内などの動
作環境で使われるときには周囲の交通やその車自体から
生じる暗騒音はトレーニング段階での殆ど静穏な暗騒音
レベルとは著しく違っているということである。
【0004】音声認識装置の性能が使用されるマイクロ
ホンに左右されることも現在の音声認識装置の問題であ
る。特に音声認識装置のトレーニング段階で使われるマ
イクロホンが実際の音声認識段階で使われるマイクロホ
ンとは違っている場合には、その音声認識装置の性能は
著しく低下する。
ホンに左右されることも現在の音声認識装置の問題であ
る。特に音声認識装置のトレーニング段階で使われるマ
イクロホンが実際の音声認識段階で使われるマイクロホ
ンとは違っている場合には、その音声認識装置の性能は
著しく低下する。
【0005】特徴ベクトルを計算する際の雑音の影響を
消去するために幾つかの方法が開発されている。しか
し、それらの方法を利用する音声認識装置は決まったコ
ンピュータ/ワークステーションのアプリケーションで
のみ利用可能であり、それらの音声認識装置では音声は
オフラインで認識される。それらの方法では、認識され
るべき音声はコンピュータのメモリーに記憶されるのが
普通である。通常、記憶される音声信号の長さは数秒で
ある。その後、特徴ベクトルは、計算時に、ファイル全
体の内容から確定される各パラメータを使って修正され
る。記憶される音声信号の長さの故に、その種の方法を
実時間音声認識に適用することはできない。
消去するために幾つかの方法が開発されている。しか
し、それらの方法を利用する音声認識装置は決まったコ
ンピュータ/ワークステーションのアプリケーションで
のみ利用可能であり、それらの音声認識装置では音声は
オフラインで認識される。それらの方法では、認識され
るべき音声はコンピュータのメモリーに記憶されるのが
普通である。通常、記憶される音声信号の長さは数秒で
ある。その後、特徴ベクトルは、計算時に、ファイル全
体の内容から確定される各パラメータを使って修正され
る。記憶される音声信号の長さの故に、その種の方法を
実時間音声認識に適用することはできない。
【0006】また、正規化方法も設けられており、その
方法では音声及び雑音の両方が自分の正規化係数を持っ
ていて、それらは音声活性検出器(VAD)を用いて適
応的に更新される。適応的更新(adaptive u
pdating)であるために、各正規化係数の更新に
は遅延が伴うので、正規化プロセスは実用上充分な速さ
では実行されない。また、この方法もVADを必要とす
るけれども、その動作は、信号対雑音比(SNR)の値
が低い音声認識アプリケーションではしばしば余りに不
正確である。この方法も、前記の遅延の故に実時間要件
を満たさない。
方法では音声及び雑音の両方が自分の正規化係数を持っ
ていて、それらは音声活性検出器(VAD)を用いて適
応的に更新される。適応的更新(adaptive u
pdating)であるために、各正規化係数の更新に
は遅延が伴うので、正規化プロセスは実用上充分な速さ
では実行されない。また、この方法もVADを必要とす
るけれども、その動作は、信号対雑音比(SNR)の値
が低い音声認識アプリケーションではしばしば余りに不
正確である。この方法も、前記の遅延の故に実時間要件
を満たさない。
【0007】
【課題を解決するための手段】上記の問題を解決する音
声認識方法及び装置が発明されており、その方法及び装
置により音声認識時に決定される特徴ベクトルは雑音の
影響を補償するために修正される。特徴ベクトルの修正
は、特徴ベクトルの平均値と標準偏差とを定義し、それ
らのパラメータを使って特徴ベクトルを正規化すること
によって実行される。本発明の好ましい実施例では、ス
ライディング正規化バッファー(sliding no
rmalisation buffer)を使って特徴
ベクトルを正規化する。本発明では、特徴ベクトルの正
規化パラメータの更新は殆ど遅延無しで実行され、実際
の正規化プロセスにおける遅延は充分に小さいので実時
間音声認識アプリケーションを実現することができる。
声認識方法及び装置が発明されており、その方法及び装
置により音声認識時に決定される特徴ベクトルは雑音の
影響を補償するために修正される。特徴ベクトルの修正
は、特徴ベクトルの平均値と標準偏差とを定義し、それ
らのパラメータを使って特徴ベクトルを正規化すること
によって実行される。本発明の好ましい実施例では、ス
ライディング正規化バッファー(sliding no
rmalisation buffer)を使って特徴
ベクトルを正規化する。本発明では、特徴ベクトルの正
規化パラメータの更新は殆ど遅延無しで実行され、実際
の正規化プロセスにおける遅延は充分に小さいので実時
間音声認識アプリケーションを実現することができる。
【0008】また、本発明の方法によれば、音声認識装
置の性能を、使用するマイクロホンに左右されにくくす
ることができる。本発明によれば、音声認識装置の実験
段階と認識段階とで異なるマイクロホンが使われる場合
にも、同じマイクロホンがトレーニング段階及び認識段
階で使われる場合と殆ど同じ程度に、音声認識装置の高
い性能が達成される。
置の性能を、使用するマイクロホンに左右されにくくす
ることができる。本発明によれば、音声認識装置の実験
段階と認識段階とで異なるマイクロホンが使われる場合
にも、同じマイクロホンがトレーニング段階及び認識段
階で使われる場合と殆ど同じ程度に、音声認識装置の高
い性能が達成される。
【0009】本発明は、請求項1及び4の特徴付け部分
に記載されている事項を特徴とする。
に記載されている事項を特徴とする。
【0010】
【発明の実施の形態】図1は、本発明に適用できる公知
の音声認識装置の構造を示すブロック図である。通常、
音声認識装置の動作は、図1に示されているように、主
要な2種類の活動、即ち実際の音声認識段階10−1
2,14−15と音声トレーニング段階13とに分けら
れる。音声認識装置はマイクロホンから入力として音声
信号s(n)を受け取り、この信号は、例えば8kHz
のサンプリング周波数及び1サンプルあたり12ビット
の分解能を使用するA/D変換器10によってデジタル
形に変換される。通常、音声認識装置はいわゆるフロン
ト・エンド11を有し、ここで音声信号が分析されて特
徴ベクトル12がモデル化される。特徴ベクトルは特定
の期間中の該音声信号を描写するものである。特徴ベク
トルは、例えば10ms間隔で確定される。特徴ベクト
ルを、数種類の手法でモデル化することができる。例え
ば、特徴ベクトルをモデル化するための数種類の手法が
下記の参考文献で解説されている:1993年9月のI
EEE会報第81巻、第9号、pp.1215−124
7,に掲載されているJ.パイコーンの”音声認識にお
ける信号モデル化手法(J. Picone, "Signal modelling
techniques in speech recognition", IEEE Proceedin
gs, Vol. 81, No. 9, pp. 1215-1247, September 1993.
本発明において使用される特徴ベクトルは、いわゆるメ
ル−周波数セプストラル係数(Mel-Frequency Cepstral
Coefficients (MFCC))を確定することによりモデル化
される。トレーニング段階で、音声認識装置により使用
される単語について音声認識装置のトレーニング・ブロ
ック13において、特徴ベクトルによってモデルが作成
される。モデル・トレーニング13aにおいて、認識可
能な単語についてモデルが決定される。トレーニング段
階において、モデル化されるべき単語の復唱(repe
tition)を利用することができる。モデルはメモ
リー13bに記憶される。音声認識時に、特徴ベクトル
は現実の認識装置14に送られ、この装置は、ブロック
15aにおいて、トレーニング段階時に構成されたモデ
ルと認識可能な音声から構成されるべき特徴ベクトルと
を比較して、認識結果についての判定をブロック15b
で行う。認識結果15は、音声認識装置を使用する人に
より発音された単語に最もよく対応する、音声認識装置
のメモリーに記憶されている単語を表示する。
の音声認識装置の構造を示すブロック図である。通常、
音声認識装置の動作は、図1に示されているように、主
要な2種類の活動、即ち実際の音声認識段階10−1
2,14−15と音声トレーニング段階13とに分けら
れる。音声認識装置はマイクロホンから入力として音声
信号s(n)を受け取り、この信号は、例えば8kHz
のサンプリング周波数及び1サンプルあたり12ビット
の分解能を使用するA/D変換器10によってデジタル
形に変換される。通常、音声認識装置はいわゆるフロン
ト・エンド11を有し、ここで音声信号が分析されて特
徴ベクトル12がモデル化される。特徴ベクトルは特定
の期間中の該音声信号を描写するものである。特徴ベク
トルは、例えば10ms間隔で確定される。特徴ベクト
ルを、数種類の手法でモデル化することができる。例え
ば、特徴ベクトルをモデル化するための数種類の手法が
下記の参考文献で解説されている:1993年9月のI
EEE会報第81巻、第9号、pp.1215−124
7,に掲載されているJ.パイコーンの”音声認識にお
ける信号モデル化手法(J. Picone, "Signal modelling
techniques in speech recognition", IEEE Proceedin
gs, Vol. 81, No. 9, pp. 1215-1247, September 1993.
本発明において使用される特徴ベクトルは、いわゆるメ
ル−周波数セプストラル係数(Mel-Frequency Cepstral
Coefficients (MFCC))を確定することによりモデル化
される。トレーニング段階で、音声認識装置により使用
される単語について音声認識装置のトレーニング・ブロ
ック13において、特徴ベクトルによってモデルが作成
される。モデル・トレーニング13aにおいて、認識可
能な単語についてモデルが決定される。トレーニング段
階において、モデル化されるべき単語の復唱(repe
tition)を利用することができる。モデルはメモ
リー13bに記憶される。音声認識時に、特徴ベクトル
は現実の認識装置14に送られ、この装置は、ブロック
15aにおいて、トレーニング段階時に構成されたモデ
ルと認識可能な音声から構成されるべき特徴ベクトルと
を比較して、認識結果についての判定をブロック15b
で行う。認識結果15は、音声認識装置を使用する人に
より発音された単語に最もよく対応する、音声認識装置
のメモリーに記憶されている単語を表示する。
【0011】図2は、本発明に適用できるフロント・エ
ンド11の公知の分析ブロックの構造を示している。通
常、フロント・エンド11は、音声認識に関連する周波
数を強調するためのプリエンファシス・フィルター20
を有する。通常、プリエンファシス・フィルター20
は、例えば、H(z)=1−0.95Z-1のレスポンス
を有する1次FIRフィルターなどの高域通過フィルタ
ーである。次に、ブロック21において、フィルタリン
グされた信号からNサンプルの長さの各フレームが形成
される。例えば、N=240のサンプル長を使って、8
kHzのサンプリング周波数で30msのフレーム構造
が作られる。通常、連続するフレーム同士がS個の連続
するサンプル(例えば10ms)の程度に重なり合うい
わゆるオーバーラップ手法を使って各音声フレームを形
成することもできる。ブロック23において音声信号に
ついて高速フーリエ変換(FFT)周波数表示をモデル
化する前に、例えば、ブロック22においてハミングウ
ィンドウ(Hammingwindow)などを使って
スペクトル推定値の精度を向上させるためにいわゆるウ
ィンドウイング(windowing)を実行すること
もできる。次に、信号のFFT表示をメル・ウィンドウ
イング・ブロック(Mel windowing bl
ock)24においてメル周波数表示に変換する。メル
周波数表示への変換は、それ自体としては当業者に知ら
れている。メル周波数表示への変換は参考原典”IEE
E会報第81巻、第9号に掲載されているJ.パイコー
ンの”音声認識における信号モデル化手法(J. Picone,
"Signal modelling techniques in speech recognitio
n")”で解説されている。この周波数変換で、いろいろ
な周波数に対する耳の非線形の感度を考慮に入れる。通
常、使用される周波数帯域の数(k)はk=24であっ
てよい。実際の特徴ベクトル12,即ちいわゆるセプス
トラル係数c(i)は、ブロック25で形成された26
個の対数メル値に対していわゆる離散余弦変換(dis
crete cosine transformati
on)(DCT)を実行することによって得られる。こ
の離散余弦変換に例えば次数J=24を使用することが
できる。通常、DCT係数c(i)(iは余弦項のイン
デックスである)のうちの半分だけが使われる。通常、
実際の特徴ベクトルは、いわゆる第1段及び第2段の差
信号dc(i)及びddc(i)を計算することによっ
て音声の変動過程(ダイナミックス)に関する情報も包
含する。ブロック27においてdc(i)=c(i)−
c(i−1)及びddc(i)=dc(i)−dc(i
−1)を推定することにより、離散余弦変換ブロックの
連続する出力ベクトルからこれらの差信号を決定するこ
とができる。これらの26個の追加のパラメータが考慮
される場合には、特徴ベクトルの長さは例えば13+2
6=39パラメータとなる。
ンド11の公知の分析ブロックの構造を示している。通
常、フロント・エンド11は、音声認識に関連する周波
数を強調するためのプリエンファシス・フィルター20
を有する。通常、プリエンファシス・フィルター20
は、例えば、H(z)=1−0.95Z-1のレスポンス
を有する1次FIRフィルターなどの高域通過フィルタ
ーである。次に、ブロック21において、フィルタリン
グされた信号からNサンプルの長さの各フレームが形成
される。例えば、N=240のサンプル長を使って、8
kHzのサンプリング周波数で30msのフレーム構造
が作られる。通常、連続するフレーム同士がS個の連続
するサンプル(例えば10ms)の程度に重なり合うい
わゆるオーバーラップ手法を使って各音声フレームを形
成することもできる。ブロック23において音声信号に
ついて高速フーリエ変換(FFT)周波数表示をモデル
化する前に、例えば、ブロック22においてハミングウ
ィンドウ(Hammingwindow)などを使って
スペクトル推定値の精度を向上させるためにいわゆるウ
ィンドウイング(windowing)を実行すること
もできる。次に、信号のFFT表示をメル・ウィンドウ
イング・ブロック(Mel windowing bl
ock)24においてメル周波数表示に変換する。メル
周波数表示への変換は、それ自体としては当業者に知ら
れている。メル周波数表示への変換は参考原典”IEE
E会報第81巻、第9号に掲載されているJ.パイコー
ンの”音声認識における信号モデル化手法(J. Picone,
"Signal modelling techniques in speech recognitio
n")”で解説されている。この周波数変換で、いろいろ
な周波数に対する耳の非線形の感度を考慮に入れる。通
常、使用される周波数帯域の数(k)はk=24であっ
てよい。実際の特徴ベクトル12,即ちいわゆるセプス
トラル係数c(i)は、ブロック25で形成された26
個の対数メル値に対していわゆる離散余弦変換(dis
crete cosine transformati
on)(DCT)を実行することによって得られる。こ
の離散余弦変換に例えば次数J=24を使用することが
できる。通常、DCT係数c(i)(iは余弦項のイン
デックスである)のうちの半分だけが使われる。通常、
実際の特徴ベクトルは、いわゆる第1段及び第2段の差
信号dc(i)及びddc(i)を計算することによっ
て音声の変動過程(ダイナミックス)に関する情報も包
含する。ブロック27においてdc(i)=c(i)−
c(i−1)及びddc(i)=dc(i)−dc(i
−1)を推定することにより、離散余弦変換ブロックの
連続する出力ベクトルからこれらの差信号を決定するこ
とができる。これらの26個の追加のパラメータが考慮
される場合には、特徴ベクトルの長さは例えば13+2
6=39パラメータとなる。
【0012】図3(A)及び(B)は本発明の第1実施
例の音声認識装置の構造を示す。フロント・エンド30
は10ms間隔で出力信号として特徴ベクトルXi ,i
=1・・・M(例えばM=39)を作成する。特徴ベク
トルは正規化バッファー31に記憶され、これにより各
特徴ベクトル成分Xi ,i=1・・・M、についての平
均値μi 及び標準偏差σi が次のように計算される:
例の音声認識装置の構造を示す。フロント・エンド30
は10ms間隔で出力信号として特徴ベクトルXi ,i
=1・・・M(例えばM=39)を作成する。特徴ベク
トルは正規化バッファー31に記憶され、これにより各
特徴ベクトル成分Xi ,i=1・・・M、についての平
均値μi 及び標準偏差σi が次のように計算される:
【数1】
【数2】 式(1)及び(2)において、Nは正規化バッファー
(normalisation buffer)の長さ
であり、Mは特徴ベクトル(feature vect
or)の長さである。この後、ブロック31において、
計算された正規化係数μi ,σi を使って、認識される
べき特徴ベクトルの成分Xi が正規化される。正規化さ
れ認識されるべき特徴ベクトルXは、図4に示されてい
るように正規化バッファー31の中央に置かれる。
(normalisation buffer)の長さ
であり、Mは特徴ベクトル(feature vect
or)の長さである。この後、ブロック31において、
計算された正規化係数μi ,σi を使って、認識される
べき特徴ベクトルの成分Xi が正規化される。正規化さ
れ認識されるべき特徴ベクトルXは、図4に示されてい
るように正規化バッファー31の中央に置かれる。
【数3】
【0013】段落番号〔0013〕から〔0014〕ま
でに現れる(イ)は、下記表1に示す記号を表す。
でに現れる(イ)は、下記表1に示す記号を表す。
【表1】 正規化された特徴ベクトル(イ)はそれが音声認識装置
のトレーニング段階であるのか実際の音声認識段階であ
るのかにより、音声認識ユニット14又はトレーニング
・ブロック13に入力信号として送られる。本発明の第
1実施例の方法では、長さ(N)が固定されている正規
化バッファーが使われ、このバッファーは特徴ベクトル
上をスライドさせられる。このスライディング正規化バ
ッファーがあるので、この方法を実時間音声認識システ
ムで実行することもできる。正規化バッファー31はN
*Mサンプルのサイズのバッファーであり、通常は、デ
ジタル信号処理装置(DSP)の内部メモリー構造又は
外付けメモリーを使って該DSPをプログラミングする
ことによって音声認識ユニットと関連させてこのバッフ
ァーを実現することができる。本発明の実施例の解決法
においては、正規化バッファーは100の特徴ベクトル
の長さを持っている。一度に正規化され認識されるべき
特徴ベクトルは正規化バッファー31の中央に置かれ
る。正規化されるべき特徴ベクトルは正規化バッファー
の中央に置かれるので、音声認識には正規化バッファー
の長さであるNの遅延が生じる。本例の各パラメータを
使うときには、遅延は100*10ms=1秒である。
しかし、次に説明するように音声認識の始めに該バッフ
ァーの長さの一部分だけを使うことによって、この遅延
を半分にすることができる。
のトレーニング段階であるのか実際の音声認識段階であ
るのかにより、音声認識ユニット14又はトレーニング
・ブロック13に入力信号として送られる。本発明の第
1実施例の方法では、長さ(N)が固定されている正規
化バッファーが使われ、このバッファーは特徴ベクトル
上をスライドさせられる。このスライディング正規化バ
ッファーがあるので、この方法を実時間音声認識システ
ムで実行することもできる。正規化バッファー31はN
*Mサンプルのサイズのバッファーであり、通常は、デ
ジタル信号処理装置(DSP)の内部メモリー構造又は
外付けメモリーを使って該DSPをプログラミングする
ことによって音声認識ユニットと関連させてこのバッフ
ァーを実現することができる。本発明の実施例の解決法
においては、正規化バッファーは100の特徴ベクトル
の長さを持っている。一度に正規化され認識されるべき
特徴ベクトルは正規化バッファー31の中央に置かれ
る。正規化されるべき特徴ベクトルは正規化バッファー
の中央に置かれるので、音声認識には正規化バッファー
の長さであるNの遅延が生じる。本例の各パラメータを
使うときには、遅延は100*10ms=1秒である。
しかし、次に説明するように音声認識の始めに該バッフ
ァーの長さの一部分だけを使うことによって、この遅延
を半分にすることができる。
【0014】図5及び図6は、フローチャートの形で、
本発明の方法の作用を示している。音声認識の始めに、
正規化バッファーの全長の半分N/2が使用されるまで
該正規化バッファーは充填される(ブロック100−1
02)。その後、平均値及び標準偏差の各ベクトル
μi ,σi が計算され(ブロック103)、はじめのN
/2個の特徴ベクトルを使って第1特徴ベクトルが正規
化される。ブロック15b(図1)で公知の手法に従っ
てビタビ復号(Viterbi decoding)によりこの正規化さ
れた特徴ベクトル(イ)に対して実際の音声認識プロセ
スが実行される。次に、新しい特徴ベクトルが緩衝記憶
され(ブロック104)、記憶されている(N/2+
1)個の特徴ベクトルを使って新しい正規化係数が計算
され、第2の特徴ベクトルが正規化されて、それに対し
て認識が実行される(ブロック103)。これに対応す
るプロセスが正規化バッファーが満杯になるまで続けら
れる。このときフローチャートにおいてブロック105
からブロック106への移行が行われる。このことは、
始めのN/2個の特徴ベクトルが認識され終わってい
て、正規化されるべき特徴ベクトルが正規化バッファー
の中央に位置していることを意味する。このとき該バッ
ファーはFIFO原理(先入れ先出し)に従ってスライ
ドされて、新しい特徴ベクトルが計算され認識され終わ
ったならば(ブロック107)、最も古い特徴ベクトル
が正規化バッファーから除去される(ブロック10
6)。認識段階の終わりに(ブロック107)、正規化
バッファーに記憶されている値を使って正規化係数が計
算される。これらの正規化係数が最後のN/2個の特徴
ベクトルの認識と関連して使用される。平均値及び標準
偏差は、正規化されていない特徴ベクトルを使って計算
される。N個の特徴ベクトルの全てに対して音声認識が
実行され終わると(ブロック108)、音声認識装置は
認識可能な単語の結果をモデル化する(ブロック10
9)。
本発明の方法の作用を示している。音声認識の始めに、
正規化バッファーの全長の半分N/2が使用されるまで
該正規化バッファーは充填される(ブロック100−1
02)。その後、平均値及び標準偏差の各ベクトル
μi ,σi が計算され(ブロック103)、はじめのN
/2個の特徴ベクトルを使って第1特徴ベクトルが正規
化される。ブロック15b(図1)で公知の手法に従っ
てビタビ復号(Viterbi decoding)によりこの正規化さ
れた特徴ベクトル(イ)に対して実際の音声認識プロセ
スが実行される。次に、新しい特徴ベクトルが緩衝記憶
され(ブロック104)、記憶されている(N/2+
1)個の特徴ベクトルを使って新しい正規化係数が計算
され、第2の特徴ベクトルが正規化されて、それに対し
て認識が実行される(ブロック103)。これに対応す
るプロセスが正規化バッファーが満杯になるまで続けら
れる。このときフローチャートにおいてブロック105
からブロック106への移行が行われる。このことは、
始めのN/2個の特徴ベクトルが認識され終わってい
て、正規化されるべき特徴ベクトルが正規化バッファー
の中央に位置していることを意味する。このとき該バッ
ファーはFIFO原理(先入れ先出し)に従ってスライ
ドされて、新しい特徴ベクトルが計算され認識され終わ
ったならば(ブロック107)、最も古い特徴ベクトル
が正規化バッファーから除去される(ブロック10
6)。認識段階の終わりに(ブロック107)、正規化
バッファーに記憶されている値を使って正規化係数が計
算される。これらの正規化係数が最後のN/2個の特徴
ベクトルの認識と関連して使用される。平均値及び標準
偏差は、正規化されていない特徴ベクトルを使って計算
される。N個の特徴ベクトルの全てに対して音声認識が
実行され終わると(ブロック108)、音声認識装置は
認識可能な単語の結果をモデル化する(ブロック10
9)。
【0015】本発明の第2の実施例では、正規化バッフ
ァーの長さは音声認識中に変化することがある。音声認
識開始時には長さが比較的に短い(例えばN=45)バ
ッファーを使うことができ、例えば各フレーム(30m
s)について音声認識が進むに連れて、緩衝記憶される
べき信号の長さを大きくしてゆくことができる。この様
に、本発明の第1実施例に対する例外として、正規化さ
れるべき特徴ベクトルはバッファーの中央の特徴ベクト
ルではなくてバッファーに最初にロードされた特徴ベク
トルであってもよく、そのときのバッファーの内容の全
部を正規化係数の計算に利用することができる。この応
用例では、遅延の長さはNであり、Nは音声認識の始め
でのセグメントの長さである(例えば、N=45)。
ァーの長さは音声認識中に変化することがある。音声認
識開始時には長さが比較的に短い(例えばN=45)バ
ッファーを使うことができ、例えば各フレーム(30m
s)について音声認識が進むに連れて、緩衝記憶される
べき信号の長さを大きくしてゆくことができる。この様
に、本発明の第1実施例に対する例外として、正規化さ
れるべき特徴ベクトルはバッファーの中央の特徴ベクト
ルではなくてバッファーに最初にロードされた特徴ベク
トルであってもよく、そのときのバッファーの内容の全
部を正規化係数の計算に利用することができる。この応
用例では、遅延の長さはNであり、Nは音声認識の始め
でのセグメントの長さである(例えば、N=45)。
【0016】本発明の1実施例では、特徴ベクトルの成
分の全てが正規化されるのではなくて、特徴ベクトルの
成分のうちの一部分に対してだけ正規化が実行される。
例えば、人の聴覚作用/音声認識に関して最も重要な成
分だけに対して正規化を実行してもよい。また、本発明
の変形例では、平均値又は標準偏差と関連させて特徴ベ
クトルに対して正規化を実行するだけでもよい。より一
般的に、特徴ベクトルの修正を如何なる統計量に関連さ
せて実行してもよい。
分の全てが正規化されるのではなくて、特徴ベクトルの
成分のうちの一部分に対してだけ正規化が実行される。
例えば、人の聴覚作用/音声認識に関して最も重要な成
分だけに対して正規化を実行してもよい。また、本発明
の変形例では、平均値又は標準偏差と関連させて特徴ベ
クトルに対して正規化を実行するだけでもよい。より一
般的に、特徴ベクトルの修正を如何なる統計量に関連さ
せて実行してもよい。
【0017】図7は移動局の構造を示しており、この移
動局には、本発明を利用する音声認識装置66が設けら
れている。この移動局は、該装置に特有の例えばマイク
ロホン61,キーボード62,ディスプレイ63,スピ
ーカー64及び制御ブロック65などの部分からなって
おり、この制御ブロックは該移動局の動作を制御する。
また、この図は、移動局に特有の送信ブロック67及び
受信ブロック68も示している。制御ブロック65は、
該移動局と関連している音声認識装置66の動作も制御
する。この音声認識装置がそのトレーニング段階又は実
際の音声認識プロセス時に活性化されているとき、ユー
ザーが与えるオーディオコマンドが制御ブロックによっ
て制御されてマイクロホン61から音声認識装置66に
送られる。オーディオコマンドは別のHF(hands free
(ハンドフリー))マイクロホンを通して送られてもよ
い。通常、音声認識装置はDSPによって実現され、そ
の動作に必要なROM/RAMメモリー回路を有する。
動局には、本発明を利用する音声認識装置66が設けら
れている。この移動局は、該装置に特有の例えばマイク
ロホン61,キーボード62,ディスプレイ63,スピ
ーカー64及び制御ブロック65などの部分からなって
おり、この制御ブロックは該移動局の動作を制御する。
また、この図は、移動局に特有の送信ブロック67及び
受信ブロック68も示している。制御ブロック65は、
該移動局と関連している音声認識装置66の動作も制御
する。この音声認識装置がそのトレーニング段階又は実
際の音声認識プロセス時に活性化されているとき、ユー
ザーが与えるオーディオコマンドが制御ブロックによっ
て制御されてマイクロホン61から音声認識装置66に
送られる。オーディオコマンドは別のHF(hands free
(ハンドフリー))マイクロホンを通して送られてもよ
い。通常、音声認識装置はDSPによって実現され、そ
の動作に必要なROM/RAMメモリー回路を有する。
【0018】表2は本発明の方法での音声認識装置の性
能を他の騒音補償方法と比べて示している。本発明は、
正規化されていないメル周波数セプストラル係数又はP
MC(Parallel Model Combination(並列モデル結
合))法の使用と比較されている。試験は、騒音の少な
い環境でモデル化されたヒドゥン・マルコフ・モデルを
使って実行された。音声認識時には、必要な信号対雑音
比を達成するために、認識されるべき単語に雑音信号が
加えられた。”クリーン”モードは、音声認識装置のト
レーニングと実際の音声認識プロセスとがともに騒音の
少ない環境で行われた事態に相当する。試験結果は、本
発明の音声認識装置が特に騒々しい環境で認識装置の信
頼性を向上させることを証明している。また、本発明の
音声認識装置は、計算に関しては本発明の方法よりはる
かに複雑なPMC法より良好に機能することが分かる。
能を他の騒音補償方法と比べて示している。本発明は、
正規化されていないメル周波数セプストラル係数又はP
MC(Parallel Model Combination(並列モデル結
合))法の使用と比較されている。試験は、騒音の少な
い環境でモデル化されたヒドゥン・マルコフ・モデルを
使って実行された。音声認識時には、必要な信号対雑音
比を達成するために、認識されるべき単語に雑音信号が
加えられた。”クリーン”モードは、音声認識装置のト
レーニングと実際の音声認識プロセスとがともに騒音の
少ない環境で行われた事態に相当する。試験結果は、本
発明の音声認識装置が特に騒々しい環境で認識装置の信
頼性を向上させることを証明している。また、本発明の
音声認識装置は、計算に関しては本発明の方法よりはる
かに複雑なPMC法より良好に機能することが分かる。
【表2】
【0019】本明細書では本発明を具体例により説明し
ている。例えば、上の解説では、HMMに基づく音声認
識装置で本発明を解説している。しかし、本発明は他の
手法に基づく音声認識装置に用いるのにも適している。
例えば、ニューラル・ネットワークを利用する音声認識
装置に本発明を適用することができる。本発明は上記の
実施例の詳細に限定されるものではなく、本発明の特徴
から逸脱せずに本発明を他の形でも実施し得ることは当
業者にとっては明らかなことである。上記実施例は、限
定をするものではなくて実例であると解されるべきもの
である。従って、本発明を実施し使用する可能性は特許
請求の範囲の各請求項のみによって限定される。従っ
て、各請求項により確定される、均等実施態様を含む、
本発明のいろいろな実施態様も本発明の範囲内に属す
る。
ている。例えば、上の解説では、HMMに基づく音声認
識装置で本発明を解説している。しかし、本発明は他の
手法に基づく音声認識装置に用いるのにも適している。
例えば、ニューラル・ネットワークを利用する音声認識
装置に本発明を適用することができる。本発明は上記の
実施例の詳細に限定されるものではなく、本発明の特徴
から逸脱せずに本発明を他の形でも実施し得ることは当
業者にとっては明らかなことである。上記実施例は、限
定をするものではなくて実例であると解されるべきもの
である。従って、本発明を実施し使用する可能性は特許
請求の範囲の各請求項のみによって限定される。従っ
て、各請求項により確定される、均等実施態様を含む、
本発明のいろいろな実施態様も本発明の範囲内に属す
る。
【図1】従来技術の音声認識装置の構造を示すブロック
図である。
図である。
【図2】従来技術による分析ブロックの構造を示すブロ
ック図である。
ック図である。
【図3】(A)及び(B)は、本発明の音声認識装置の
構造を示す図である。
構造を示す図である。
【図4】本発明による正規化バッファーの使用を示す図
である。
である。
【図5】本発明による方法の作用を示すフローチャート
(その1)である。
(その1)である。
【図6】本発明による方法の作用を示すフローチャート
(その2)である。
(その2)である。
【図7】本発明の移動局の構造を示す図である。
11,30…フロント・エンド 13…音声認識装置のトレーニングブロック 14…現実の音声認識装置 20…プリエンファシス・フィルター 21…フレーム形成ブロック 31…正規化バッファー
Claims (6)
- 【請求項1】 認識可能な音声信号を時間上で特定の長
さの連続するフレームに分割し、フレームあたりに少な
くとも1つの、該音声信号を説明するパラメータを作る
ために各音声フレームを分析し、特定のフレームに関連
する前記パラメータを記憶し、前記パラメータを修正
し、その修正されたパラメータを使って音声認識を実行
する音声認識方法であって、連続するパラメータのうち
の一部だけを定期的に記憶し、前記の修正されたパラメ
ータを作るために定期的に記憶されるパラメータに基づ
いて少なくとも1つのパラメータを修正するようになっ
ていることを特徴とする音声認識方法。 - 【請求項2】 N個の連続するパラメータに基づいて、
次の各量すなわち平均値及び標準偏差のうちの1つを前
記修正のために確定するようになっており、Nは整数で
あることを特徴とする請求項1に記載の方法。 - 【請求項3】 パラメータの前記修正は、前記各量の1
つに関連する正規化から成ることを特徴とする請求項2
に記載の方法。 - 【請求項4】 音声信号を時間上で分割して連続するフ
レームとするための手段(21)と、音声フレームを分
析して該音声信号を説明する少なくとも1つのパラメー
タを作るための手段(11,30)と、該パラメータを
記憶するための記憶手段(31)と、前記パラメータを
修正して修正済みパラメータを作るための手段(31)
と、その修正済みパラメータを使って音声を認識するた
めの手段(14)とから成る音声信号処理装置であっ
て、前記記憶手段(31)は前記の連続するパラメータ
のうちの一部だけを定期的に記憶するようになってお
り、該パラメータを修正するための前記手段(31)
は、前記修正済みパラメータを作るために該記憶手段
(31)に定期的に記憶されたパラメータに基づいて該
音声信号を説明する該パラメータを修正するようになっ
ていることを特徴とする音声信号処理装置。 - 【請求項5】 前記記憶手段(31)は一定の長さのバ
ッファー(31)から成ることを特徴とする請求項4に
記載の装置。 - 【請求項6】 前記記憶手段(31)は長さが変化し得
るバッファー(31)から成ることを特徴とする請求項
4に記載の装置。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FI971521A FI114247B (fi) | 1997-04-11 | 1997-04-11 | Menetelmä ja laite puheen tunnistamiseksi |
| FI971521 | 1997-04-11 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH10288996A true JPH10288996A (ja) | 1998-10-27 |
Family
ID=8548593
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10097547A Pending JPH10288996A (ja) | 1997-04-11 | 1998-04-09 | 音声認識方法及び音声信号処理装置 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US6772117B1 (ja) |
| EP (1) | EP0871157B1 (ja) |
| JP (1) | JPH10288996A (ja) |
| DE (1) | DE69830017T2 (ja) |
| FI (1) | FI114247B (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003022084A (ja) * | 2001-07-10 | 2003-01-24 | Nippon Telegr & Teleph Corp <Ntt> | 信号検出方法及び装置、プログラムならびに記録媒体 |
| WO2006006528A1 (ja) * | 2004-07-09 | 2006-01-19 | Nippon Telegraph And Telephone Corporation | 音響信号検出システム、音響信号検出サーバ、映像信号探索装置、映像信号探索方法、映像信号探索プログラムと記録媒体、信号探索装置、信号探索方法、及び、信号探索プログラムと記録媒体 |
| JP2016102820A (ja) * | 2014-11-27 | 2016-06-02 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音響モデルを改善する方法、並びに、音響モデルを改善する為のコンピュータ及びそのコンピュータ・プログラム |
| US9390709B2 (en) | 2012-09-25 | 2016-07-12 | Seiko Epson Corporation | Voice recognition device and method, and semiconductor integrated circuit device |
| JP2016522910A (ja) * | 2013-05-07 | 2016-08-04 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | キーワード検出のための適応的オーディオフレーム処理 |
| JP2017076127A (ja) * | 2015-10-16 | 2017-04-20 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音響モデル入力データの正規化装置及び方法と、音声認識装置 |
| WO2017154279A1 (ja) * | 2016-03-10 | 2017-09-14 | ソニー株式会社 | 音声処理装置および音声処理方法 |
Families Citing this family (23)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| ATE288615T1 (de) * | 2001-03-14 | 2005-02-15 | Ibm | Verfahren und prozessorsystem zur audiosignalverarbeitung |
| US6950796B2 (en) * | 2001-11-05 | 2005-09-27 | Motorola, Inc. | Speech recognition by dynamical noise model adaptation |
| US7035797B2 (en) | 2001-12-14 | 2006-04-25 | Nokia Corporation | Data-driven filtering of cepstral time trajectories for robust speech recognition |
| JP4061094B2 (ja) * | 2002-03-15 | 2008-03-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、その音声認識方法及びプログラム |
| TWI223791B (en) * | 2003-04-14 | 2004-11-11 | Ind Tech Res Inst | Method and system for utterance verification |
| US8175877B2 (en) * | 2005-02-02 | 2012-05-08 | At&T Intellectual Property Ii, L.P. | Method and apparatus for predicting word accuracy in automatic speech recognition systems |
| US7725316B2 (en) * | 2006-07-05 | 2010-05-25 | General Motors Llc | Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle |
| JP4427530B2 (ja) * | 2006-09-21 | 2010-03-10 | 株式会社東芝 | 音声認識装置、プログラムおよび音声認識方法 |
| US20100094622A1 (en) * | 2008-10-10 | 2010-04-15 | Nexidia Inc. | Feature normalization for speech and audio processing |
| US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
| US8880396B1 (en) * | 2010-04-28 | 2014-11-04 | Audience, Inc. | Spectrum reconstruction for automatic speech recognition |
| US9691377B2 (en) | 2013-07-23 | 2017-06-27 | Google Technology Holdings LLC | Method and device for voice recognition training |
| US9542933B2 (en) | 2013-03-08 | 2017-01-10 | Analog Devices Global | Microphone circuit assembly and system with speech recognition |
| US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
| US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
| US9570069B2 (en) * | 2014-09-09 | 2017-02-14 | Disney Enterprises, Inc. | Sectioned memory networks for online word-spotting in continuous speech |
| WO2016040885A1 (en) | 2014-09-12 | 2016-03-17 | Audience, Inc. | Systems and methods for restoration of speech components |
| US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
| US10127919B2 (en) * | 2014-11-12 | 2018-11-13 | Cirrus Logic, Inc. | Determining noise and sound power level differences between primary and reference channels |
| US9576589B2 (en) * | 2015-02-06 | 2017-02-21 | Knuedge, Inc. | Harmonic feature processing for reducing noise |
| US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
| US20210201937A1 (en) * | 2019-12-31 | 2021-07-01 | Texas Instruments Incorporated | Adaptive detection threshold for non-stationary signals in noise |
| CN113870875B (zh) * | 2021-09-26 | 2026-02-13 | 平安科技(深圳)有限公司 | 音色特征提取方法、装置、计算机设备及存储介质 |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4227176A (en) * | 1978-04-27 | 1980-10-07 | Dialog Systems, Inc. | Continuous speech recognition method |
| US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
| US4713778A (en) * | 1984-03-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method |
| US4926488A (en) * | 1987-07-09 | 1990-05-15 | International Business Machines Corporation | Normalization of speech by adaptive labelling |
| US5168524A (en) * | 1989-08-17 | 1992-12-01 | Eliza Corporation | Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation |
| CA2040025A1 (en) * | 1990-04-09 | 1991-10-10 | Hideki Satoh | Speech detection apparatus with influence of input level and noise reduced |
| FI97919C (fi) | 1992-06-05 | 1997-03-10 | Nokia Mobile Phones Ltd | Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten |
| DE4229577A1 (de) * | 1992-09-04 | 1994-03-10 | Daimler Benz Ag | Verfahren zur Spracherkennung mit dem eine Anpassung von Mikrofon- und Sprachcharakteristiken erreicht wird |
| US5604839A (en) * | 1994-07-29 | 1997-02-18 | Microsoft Corporation | Method and system for improving speech recognition through front-end normalization of feature vectors |
-
1997
- 1997-04-11 FI FI971521A patent/FI114247B/fi not_active IP Right Cessation
-
1998
- 1998-03-24 DE DE69830017T patent/DE69830017T2/de not_active Expired - Lifetime
- 1998-03-24 EP EP98660024A patent/EP0871157B1/en not_active Expired - Lifetime
- 1998-04-09 US US09/057,729 patent/US6772117B1/en not_active Expired - Fee Related
- 1998-04-09 JP JP10097547A patent/JPH10288996A/ja active Pending
Cited By (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003022084A (ja) * | 2001-07-10 | 2003-01-24 | Nippon Telegr & Teleph Corp <Ntt> | 信号検出方法及び装置、プログラムならびに記録媒体 |
| WO2006006528A1 (ja) * | 2004-07-09 | 2006-01-19 | Nippon Telegraph And Telephone Corporation | 音響信号検出システム、音響信号検出サーバ、映像信号探索装置、映像信号探索方法、映像信号探索プログラムと記録媒体、信号探索装置、信号探索方法、及び、信号探索プログラムと記録媒体 |
| US7873521B2 (en) | 2004-07-09 | 2011-01-18 | Nippon Telegraph And Telephone Corporation | Sound signal detection system, sound signal detection server, image signal search apparatus, image signal search method, image signal search program and medium, signal search apparatus, signal search method and signal search program and medium |
| US9390709B2 (en) | 2012-09-25 | 2016-07-12 | Seiko Epson Corporation | Voice recognition device and method, and semiconductor integrated circuit device |
| JP2016522910A (ja) * | 2013-05-07 | 2016-08-04 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | キーワード検出のための適応的オーディオフレーム処理 |
| JP2016102820A (ja) * | 2014-11-27 | 2016-06-02 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音響モデルを改善する方法、並びに、音響モデルを改善する為のコンピュータ及びそのコンピュータ・プログラム |
| US9870767B2 (en) | 2014-11-27 | 2018-01-16 | International Business Machines Corporation | Method for improving acoustic model, computer for improving acoustic model and computer program thereof |
| US9870766B2 (en) | 2014-11-27 | 2018-01-16 | International Business Machines Incorporated | Method for improving acoustic model, computer for improving acoustic model and computer program thereof |
| US9984681B2 (en) | 2014-11-27 | 2018-05-29 | International Business Machines Corporation | Method for improving acoustic model, computer for improving acoustic model and computer program thereof |
| US9984680B2 (en) | 2014-11-27 | 2018-05-29 | International Business Machines Corporation | Method for improving acoustic model, computer for improving acoustic model and computer program thereof |
| JP2017076127A (ja) * | 2015-10-16 | 2017-04-20 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音響モデル入力データの正規化装置及び方法と、音声認識装置 |
| WO2017154279A1 (ja) * | 2016-03-10 | 2017-09-14 | ソニー株式会社 | 音声処理装置および音声処理方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP0871157A2 (en) | 1998-10-14 |
| EP0871157B1 (en) | 2005-05-04 |
| EP0871157A3 (en) | 1999-06-16 |
| FI114247B (fi) | 2004-09-15 |
| DE69830017D1 (de) | 2005-06-09 |
| FI971521L (fi) | 1998-10-12 |
| DE69830017T2 (de) | 2005-09-29 |
| FI971521A0 (fi) | 1997-04-11 |
| US6772117B1 (en) | 2004-08-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH10288996A (ja) | 音声認識方法及び音声信号処理装置 | |
| RU2373584C2 (ru) | Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков | |
| Viikki et al. | Cepstral domain segmental feature vector normalization for noise robust speech recognition | |
| EP1252621B1 (en) | System and method for modifying speech signals | |
| US7165026B2 (en) | Method of noise estimation using incremental bayes learning | |
| US5459815A (en) | Speech recognition method using time-frequency masking mechanism | |
| JPH1115491A (ja) | 環境的に補償されたスピーチ処理方法 | |
| EP0807305A1 (en) | Spectral subtraction noise suppression method | |
| CA2701439C (en) | Measuring double talk performance | |
| US7016839B2 (en) | MVDR based feature extraction for speech recognition | |
| EP1443495A1 (en) | Method of speech recognition using hidden trajectory hidden markov models | |
| US6920424B2 (en) | Determination and use of spectral peak information and incremental information in pattern recognition | |
| US5732388A (en) | Feature extraction method for a speech signal | |
| MX2007015446A (es) | Mejora de lenguaje multi-sensorial utilizando un modelo de estado de lenguaje. | |
| US7120580B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
| JP2000122688A (ja) | 音声処理装置及び方法 | |
| US7571095B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
| JP2001005486A (ja) | 音声処理装置及び方法 | |
| Pellom et al. | Voice analysis in adverse conditions: the centennial Olympic park bombing 911 call | |
| JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
| US9875755B2 (en) | Voice enhancement device and voice enhancement method | |
| JP4673828B2 (ja) | 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 | |
| Kotnik et al. | Efficient noise robust feature extraction algorithms for distributed speech recognition (DSR) systems | |
| JP2003271190A (ja) | 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置 | |
| JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |