JPH01149100A - 音声認識システム - Google Patents
音声認識システムInfo
- Publication number
- JPH01149100A JPH01149100A JP27755188A JP27755188A JPH01149100A JP H01149100 A JPH01149100 A JP H01149100A JP 27755188 A JP27755188 A JP 27755188A JP 27755188 A JP27755188 A JP 27755188A JP H01149100 A JPH01149100 A JP H01149100A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- data
- pattern
- signal
- time frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000003595 spectral effect Effects 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 11
- 230000007704 transition Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 4
- 238000009795 derivation Methods 0.000 claims 2
- 230000002123 temporal effect Effects 0.000 claims 2
- 230000008859 change Effects 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- NLZUEZXRPGMBCV-UHFFFAOYSA-N Butylhydroxytoluene Chemical compound CC1=CC(C(C)(C)C)=C(O)C(C(C)(C)C)=C1 NLZUEZXRPGMBCV-UHFFFAOYSA-N 0.000 description 1
- 206010049816 Muscle tightness Diseases 0.000 description 1
- 241000220317 Rosa Species 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は音声認識装置、特に、連続単語音声認識装置に
関する。
関する。
[従来技術の説明]
小規模から中規模にわたる語量ワード認識装置は現在重
要な商品である。例えば、これらは銀行の残高をチエツ
クするシステムや、他の種々の慎重に定義されたタスク
指向環境で使用されている。
要な商品である。例えば、これらは銀行の残高をチエツ
クするシステムや、他の種々の慎重に定義されたタスク
指向環境で使用されている。
これらの音声認識装置は一般的にはほんの僅かの開発方
向の1つ、例えば、単語標準認識装置及び音素標準認識
装置、に従っている。
向の1つ、例えば、単語標準認識装置及び音素標準認識
装置、に従っている。
これらのシステムを改良するにあたり顧客が期待する性
能の種類を達成するために取るべき方法を示唆する多く
の種類の研究努力がなされている。
能の種類を達成するために取るべき方法を示唆する多く
の種類の研究努力がなされている。
それにも関わらず、改良の方法を選択することは些細な
問題ではない。経験によれば、商業システムの最も重要
なパラメータの1つは誤り率であるということが示され
ている。これはこれらのシステムの用途においてこの誤
り率が広範囲な意義を有しているからである。−船釣な
改良では誤り率は僅かしか減少しないということがわか
っている。
問題ではない。経験によれば、商業システムの最も重要
なパラメータの1つは誤り率であるということが示され
ている。これはこれらのシステムの用途においてこの誤
り率が広範囲な意義を有しているからである。−船釣な
改良では誤り率は僅かしか減少しないということがわか
っている。
例えば、90%の精度すなわち10%の誤り率を有する
システムでは、改善によって誤り率を8%に減少させる
ことは可能であろう。従って、特定のシステムに存在す
る誤り率の半分以上を除去する改善は非常に注目すべき
ものである。
システムでは、改善によって誤り率を8%に減少させる
ことは可能であろう。従って、特定のシステムに存在す
る誤り率の半分以上を除去する改善は非常に注目すべき
ものである。
(発明の概要)
本発明によれば、2次元的に特徴付けることができるよ
り包括的なスペクトル表現を含むように音声分析部分を
変更することによって、従来技術の単語認識装置を改良
することができる。第1の次元は、認識されるべき音声
の代表的な45ミリ秒サンプルから得られるスペクトル
の特徴の「フレーム凍結」すなわち瞬間的なサンプルで
ある。ある意味で第1の次元に直交する第2の次元は、
いくつかのこのような時間フレーム又はサンプルに及び
、単一の時間フレームで得られるスペクトル特性の時間
微分に相当するものを生じる。このような概念は、本発
明者の1人、エフ、ケイ、スーング(F、に、Soon
g)とエイ、イー、ローゼンバーグ(A、E、Rose
berg)による「オン ザ ユース オン インス
タンティニアス アンド トランジショナル スペクト
ラル インフォーメーションイン スピーカ リコグニ
ション(On the Use 。
り包括的なスペクトル表現を含むように音声分析部分を
変更することによって、従来技術の単語認識装置を改良
することができる。第1の次元は、認識されるべき音声
の代表的な45ミリ秒サンプルから得られるスペクトル
の特徴の「フレーム凍結」すなわち瞬間的なサンプルで
ある。ある意味で第1の次元に直交する第2の次元は、
いくつかのこのような時間フレーム又はサンプルに及び
、単一の時間フレームで得られるスペクトル特性の時間
微分に相当するものを生じる。このような概念は、本発
明者の1人、エフ、ケイ、スーング(F、に、Soon
g)とエイ、イー、ローゼンバーグ(A、E、Rose
berg)による「オン ザ ユース オン インス
タンティニアス アンド トランジショナル スペクト
ラル インフォーメーションイン スピーカ リコグニ
ション(On the Use 。
f In5tantaneous and Trans
ional 5pectral in 5peaker
Recognltion) Jなる論文で記載されて
いるように、本質的により簡単な話者認識のタスクで使
用されているが、関連技術が、連続単語音声認識装置を
含む現在の音声認識装置の事実上どれに使用されても得
られる結果が劇的に改良されると期待される理由は存在
しない。はからずも、約150単語までの連続単語の語
當を有するこれらの認識装置の場合には少なくとも、話
者と無関係でも話者にならされていても、誤り率の減少
は常に50%より大きい。本発明者は、総括的に適用可
能であり誤り率をこのように一様に大いに減少させた他
の音声認識装置については知らない。
ional 5pectral in 5peaker
Recognltion) Jなる論文で記載されて
いるように、本質的により簡単な話者認識のタスクで使
用されているが、関連技術が、連続単語音声認識装置を
含む現在の音声認識装置の事実上どれに使用されても得
られる結果が劇的に改良されると期待される理由は存在
しない。はからずも、約150単語までの連続単語の語
當を有するこれらの認識装置の場合には少なくとも、話
者と無関係でも話者にならされていても、誤り率の減少
は常に50%より大きい。本発明者は、総括的に適用可
能であり誤り率をこのように一様に大いに減少させた他
の音声認識装置については知らない。
本発明の第1の特定の特徴によれば、遷移情報は入力音
声について得られるばかりでなく、入力音声を試験する
場合に使用される基準パターンについても前もって準備
及び記録される。実際、参考に使用されるスペクトル情
報は現在−船釣には、基準の各サンプルに対して、量が
2倍で情報が2倍である。そして、基準パターンに比較
して入力音声の試験又は処理においては、はぼ等しい重
み又は有効性が2次元の基準スペクトルパターンの両部
分及び入力音声のスペクトルパターンの両部分に帰せら
れる。即ち、等しい重要さが本質的に瞬間的な情報と、
問題のフレームを含む複数の隣接時間フレームにわたる
時間微分情報と、に帰せられる。
声について得られるばかりでなく、入力音声を試験する
場合に使用される基準パターンについても前もって準備
及び記録される。実際、参考に使用されるスペクトル情
報は現在−船釣には、基準の各サンプルに対して、量が
2倍で情報が2倍である。そして、基準パターンに比較
して入力音声の試験又は処理においては、はぼ等しい重
み又は有効性が2次元の基準スペクトルパターンの両部
分及び入力音声のスペクトルパターンの両部分に帰せら
れる。即ち、等しい重要さが本質的に瞬間的な情報と、
問題のフレームを含む複数の隣接時間フレームにわたる
時間微分情報と、に帰せられる。
本発明の他の特定的な特徴は、線形予測係数法から得ら
れるケプストラル(cepstral)情報の使用、及
び、レベルビルディング概念が特に重要である連続単語
認識装置における本発明の使用に関する。本発明者は、
2次元のケプストラル型の情報がLPC法及びいわゆる
レベルビルディング法と特に調和して働くということを
発見した。
れるケプストラル(cepstral)情報の使用、及
び、レベルビルディング概念が特に重要である連続単語
認識装置における本発明の使用に関する。本発明者は、
2次元のケプストラル型の情報がLPC法及びいわゆる
レベルビルディング法と特に調和して働くということを
発見した。
本発明の他の特徴及び利点は図面と共に以下の詳細な説
明を理解することにより明らかとなる。
明を理解することにより明らかとなる。
[一般説明]
音声信号の短時間スペクトル表現は、音声の符号化、音
声認識、音声合成及び話者認識において長く用いられて
いる。最もありふれた表現の1つは線形予測符号化(L
P G)パラメータのセットである。短時間スペクト
ル包絡線はLPG係数により効率的にパラメータ化され
る。音声の最も顕著なスペクトルの特徴、スペクトルの
ピーク又はいわゆる「ホルマント」は非常に高い忠実度
でLPC係数により表現される。この表現は上記の商業
的な用途に応用されて成功している。
声認識、音声合成及び話者認識において長く用いられて
いる。最もありふれた表現の1つは線形予測符号化(L
P G)パラメータのセットである。短時間スペクト
ル包絡線はLPG係数により効率的にパラメータ化され
る。音声の最も顕著なスペクトルの特徴、スペクトルの
ピーク又はいわゆる「ホルマント」は非常に高い忠実度
でLPC係数により表現される。この表現は上記の商業
的な用途に応用されて成功している。
符号化、認識及び合成におけるLPGの成功にもかかわ
らず、この表現は音声のスペクトルの動的な展開を表わ
す場合にある固有の不適当な点がある。LPGパラメー
タは、全音声生成プロセスの動的な歴史のいわば「スナ
ップ写真」を我々にせいぜい提供することができるだけ
である。分析の窓の大きさ、位置並びに励振により影響
されるLPGスペクトル分析過程は無雑音ではなく、な
んらかのアーチファクトが起こり得る。音声音の遷移領
域において、分析は持続された母音又は摩擦音のような
定常状態の領域におけるよりも誤りを生じがちである。
らず、この表現は音声のスペクトルの動的な展開を表わ
す場合にある固有の不適当な点がある。LPGパラメー
タは、全音声生成プロセスの動的な歴史のいわば「スナ
ップ写真」を我々にせいぜい提供することができるだけ
である。分析の窓の大きさ、位置並びに励振により影響
されるLPGスペクトル分析過程は無雑音ではなく、な
んらかのアーチファクトが起こり得る。音声音の遷移領
域において、分析は持続された母音又は摩擦音のような
定常状態の領域におけるよりも誤りを生じがちである。
これらの欠点を克服するために、本発明者は全スペクト
ルばらつきの新しい2次元(2−D)の見方を提案する
。最良の結果を得るために、LPCケプストラル係数を
使用してこの2−Dアプローチを説明する。同様な表現
はLPGパラメータのように他のパラメータの組に適用
することができるが、恐らく、対応するスペクトルの表
現の非ユークリッド性のためになんらかの欠点が、すな
わち幾何学的直観の喪失がある。
ルばらつきの新しい2次元(2−D)の見方を提案する
。最良の結果を得るために、LPCケプストラル係数を
使用してこの2−Dアプローチを説明する。同様な表現
はLPGパラメータのように他のパラメータの組に適用
することができるが、恐らく、対応するスペクトルの表
現の非ユークリッド性のためになんらかの欠点が、すな
わち幾何学的直観の喪失がある。
まずケプストラル係数は公知の反復式を用いてLPG係
数から発生される。
数から発生される。
ら= log−
号のlogパワースペクトル1ogS (ω、t)はケ
ブトラル係数により次のごとく表される。
ブトラル係数により次のごとく表される。
1ogs(ω、t) =Σcm(’望“主観的には人間
的な認識及び客観的には自動音声認識の両方における音
声スペクトルの最も適切なスペクトルの特徴の1つであ
るとして示された1ogS (ω、1)のスペクトル傾
斜は、ケフレンシー(queferency)重み付は
ケブトスラル係数により次のごとく同様に表すことがで
きる。
的な認識及び客観的には自動音声認識の両方における音
声スペクトルの最も適切なスペクトルの特徴の1つであ
るとして示された1ogS (ω、1)のスペクトル傾
斜は、ケフレンシー(queferency)重み付は
ケブトスラル係数により次のごとく同様に表すことがで
きる。
時間におけるスペクトル変化は次のように表現すること
ができる。
ができる。
微分は、普通は、隣接サンプルへ次差C3(t+Δ)
−c (t)のにより近似されるが、本来雑音性のも
のである。この有限の差の近似及びLPG分析手続のア
ーチファクトの両方に関連する雑音問題を克服するため
に、本発明者ぼスペクトルダイナミクスの本質を特徴付
けるために最小自乗曲線適合法を使用する。ここで使用
される直交多項式は単に例示的なものであって、ルジャ
ンドル多項式のような他の異なる直交多項式も同様に適
用することができる。
−c (t)のにより近似されるが、本来雑音性のも
のである。この有限の差の近似及びLPG分析手続のア
ーチファクトの両方に関連する雑音問題を克服するため
に、本発明者ぼスペクトルダイナミクスの本質を特徴付
けるために最小自乗曲線適合法を使用する。ここで使用
される直交多項式は単に例示的なものであって、ルジャ
ンドル多項式のような他の異なる直交多項式も同様に適
用することができる。
音声生成のプロセスは質量慣性、筋肉の緊張及び人間の
調音器官の他の物理的パラメータにより制限されると考
えられるので、音声間及び音声内のスペクトル遷移は非
常に高い周波数成分を持つことができない。零次、1次
及び2次直交多項式は有限の時間期間内における一連の
音声スペクトルの平均、傾斜及び曲率に対応するので、
スライディング時間窓はスペクトル遷移の大部分を特徴
付けるに適しているはずである。零次、1次及び2次多
項式多項式係数は次のごとくリストされる。
調音器官の他の物理的パラメータにより制限されると考
えられるので、音声間及び音声内のスペクトル遷移は非
常に高い周波数成分を持つことができない。零次、1次
及び2次直交多項式は有限の時間期間内における一連の
音声スペクトルの平均、傾斜及び曲率に対応するので、
スライディング時間窓はスペクトル遷移の大部分を特徴
付けるに適しているはずである。零次、1次及び2次多
項式多項式係数は次のごとくリストされる。
零次の多項式係数は、
1次の多項式係数は、
2次の係数は、
利得又は音声のエネルギーは人間の音声の認識における
主要な韻律学的刺激の1つであるが、対応する直交多項
式により同様に特徴付けることができる。2−Dのスペ
クトル展開のパラメータ的表現の場合、対応するスペク
トログラムはそのサンプル値1ogS (ω、t)、周
波数微分、二張独遼 aω 及び時間微分(及び必要成らば、より高次の微分)、 部姫独旦 t により更に正確に特徴付けられる。
主要な韻律学的刺激の1つであるが、対応する直交多項
式により同様に特徴付けることができる。2−Dのスペ
クトル展開のパラメータ的表現の場合、対応するスペク
トログラムはそのサンプル値1ogS (ω、t)、周
波数微分、二張独遼 aω 及び時間微分(及び必要成らば、より高次の微分)、 部姫独旦 t により更に正確に特徴付けられる。
音声信号のlogエネルギー(又はパワー)もサンプル
値及び直交多項式係数により特徴付けることができる。
値及び直交多項式係数により特徴付けることができる。
(実施例の説明)
第1図の実施例においては、入力される発声は点11で
受信され、この点には、もしもこの発声が音響形式の場
合は電気音響変換器を配置してもよい。この発声を表現
する電気信号は回路13においてフィルタリングされ、
サンプリングされる。次に、これらのサンプルはアナロ
グ/デジタル変換器15で一連の2進パルスに変換され
る。フィルタ・サンプリング回路13、A/D変換器1
5は音声処理のための従来の形式のものである。
受信され、この点には、もしもこの発声が音響形式の場
合は電気音響変換器を配置してもよい。この発声を表現
する電気信号は回路13においてフィルタリングされ、
サンプリングされる。次に、これらのサンプルはアナロ
グ/デジタル変換器15で一連の2進パルスに変換され
る。フィルタ・サンプリング回路13、A/D変換器1
5は音声処理のための従来の形式のものである。
このデジタル信号は次のLPG特徴信号発生器・端点検
出器17で処理され、この発生器は特にケプストラム型
の信号を発生するものである。音声処理技術で公知のよ
うに、ケプストラム又はケプストラル信号は音声信号の
log量周波周波数スペクトルog−magnitud
e frequency 5pectrua+)のフー
リエ変換を取ることによって得られる。音声処理技術で
使用される周波数に対するlog量信号(log−ma
gnitude versus frequency
signals)はこれ自体、音声信号波形に関する時
間に対する振幅の適当な表現の(有限な時間「窓」例え
ば45ミリ秒にわたる)短時間フーリエ変換である。
出器17で処理され、この発生器は特にケプストラム型
の信号を発生するものである。音声処理技術で公知のよ
うに、ケプストラム又はケプストラル信号は音声信号の
log量周波周波数スペクトルog−magnitud
e frequency 5pectrua+)のフー
リエ変換を取ることによって得られる。音声処理技術で
使用される周波数に対するlog量信号(log−ma
gnitude versus frequency
signals)はこれ自体、音声信号波形に関する時
間に対する振幅の適当な表現の(有限な時間「窓」例え
ば45ミリ秒にわたる)短時間フーリエ変換である。
ケプストラル変換に関する問題の周波数に対するlog
量信号はこの入力音声の従来の線形予測係数分析(LP
C分析)における音声のスペクトル的特徴を表すもので
ある。
量信号はこの入力音声の従来の線形予測係数分析(LP
C分析)における音声のスペクトル的特徴を表すもので
ある。
今まで説明した分析について、LPG特徴信号発生器・
端点検出器17は、本発明者のうちの2人であるエル・
アール・ラビナー(L、R,Rabiner)とジェイ
・ジー・ウィルボン(J 、G、WI Ipon)の他
、ティ”ビー・マーチン(T、B、Martln)によ
る1984年11月8日出願で、本願の論受入に譲渡さ
れた第889.8!i4号の係属出願に記載された種類
のものであってもよい。ケプストラル係数は方程式1及
び2として上に述べた反復式により明快な仕方でLPC
係数から得られる。
端点検出器17は、本発明者のうちの2人であるエル・
アール・ラビナー(L、R,Rabiner)とジェイ
・ジー・ウィルボン(J 、G、WI Ipon)の他
、ティ”ビー・マーチン(T、B、Martln)によ
る1984年11月8日出願で、本願の論受入に譲渡さ
れた第889.8!i4号の係属出願に記載された種類
のものであってもよい。ケプストラル係数は方程式1及
び2として上に述べた反復式により明快な仕方でLPC
係数から得られる。
この装置は時間微分ケプストラム信号を発生するように
変形され、かくして、50〜LOOmsの一般的な時間
幅を持ちN個の先行及びN個の後続の時間フレーム、及
び現在の時間フレームのケプストラル信号のための一時
的信号記憶部と、問題のフレームからこれらの隣接フレ
ームへの関連する期間と信号変化との商としての時間微
分ケプストラム信号を発生する時間微分回路と、を有す
る。
変形され、かくして、50〜LOOmsの一般的な時間
幅を持ちN個の先行及びN個の後続の時間フレーム、及
び現在の時間フレームのケプストラル信号のための一時
的信号記憶部と、問題のフレームからこれらの隣接フレ
ームへの関連する期間と信号変化との商としての時間微
分ケプストラム信号を発生する時間微分回路と、を有す
る。
結果として生じるケプストラム特徴信号は、特徴信号に
一般的に要求されるものの2倍の長さのフィールドで特
徴信号記憶部25に記憶される。これは、現在のフレー
ムの特徴信号(「瞬間的な」特徴信号)の他に各フィー
ルドにおいて時間微分特徴信号が存在するからである。
一般的に要求されるものの2倍の長さのフィールドで特
徴信号記憶部25に記憶される。これは、現在のフレー
ムの特徴信号(「瞬間的な」特徴信号)の他に各フィー
ルドにおいて時間微分特徴信号が存在するからである。
基準パターン信号の記憶部は本システムが応答すべき全
ての基準ワードの全ての状態を表す同様nal)、 V
ol、85 May/June 19gB、pp、21
〜31において本発明者のうち2人、即ち、ローレンス
・アール・ラビナー(Lawrence R,Rabi
ner)とジー・ウィルボン(G、Wllpon) 、
更にビーイング・ワング拳ジヤング(Biing Hw
ang Juang)lこより「ア拳セグメンタル・ケ
イ・ミーンズ・トレイニング・プロセジャ−・フォー・
コネクテッド・ワード・レコグニション(A Segm
ental K−means Tralning Pr
。
ての基準ワードの全ての状態を表す同様nal)、 V
ol、85 May/June 19gB、pp、21
〜31において本発明者のうち2人、即ち、ローレンス
・アール・ラビナー(Lawrence R,Rabi
ner)とジー・ウィルボン(G、Wllpon) 、
更にビーイング・ワング拳ジヤング(Biing Hw
ang Juang)lこより「ア拳セグメンタル・ケ
イ・ミーンズ・トレイニング・プロセジャ−・フォー・
コネクテッド・ワード・レコグニション(A Segm
ental K−means Tralning Pr
。
cedure f’or Connected Wor
d Recognition)Jなる論文において記載
されたセグメンタルに平均トレーニング方法により得ら
れる。ここで又、時間微分ケプストラム信号は上記のご
とく記憶部の各フィールドに含まれる。それは、基準信
号のN個の隣接する先行及び後続の時間フレームに対す
る信号の「瞬間」値部分の差に基づく時間微分信号とし
て得ることができる。
d Recognition)Jなる論文において記載
されたセグメンタルに平均トレーニング方法により得ら
れる。ここで又、時間微分ケプストラム信号は上記のご
とく記憶部の各フィールドに含まれる。それは、基準信
号のN個の隣接する先行及び後続の時間フレームに対す
る信号の「瞬間」値部分の差に基づく時間微分信号とし
て得ることができる。
入力音声用の特徴信号と基準状態及び基準ワード用の特
徴信号との比較は、いわゆるマルコフ(Markov)
モデル決定方法によりプロセッサ回路19で行われるが
、これは、1985年3月21日付けのビー・エイチ・
ヤングCB、H,Juang)他による特許出願第71
4,517号の同時係属出願に説明されている。
徴信号との比較は、いわゆるマルコフ(Markov)
モデル決定方法によりプロセッサ回路19で行われるが
、これは、1985年3月21日付けのビー・エイチ・
ヤングCB、H,Juang)他による特許出願第71
4,517号の同時係属出願に説明されている。
その特許出願に説明したように、プログラム制御命令は
制御プログラム記憶部31から、いずれの方向にも信号
が伝送することができるインタフ二−スバス21を介し
てプロセッサ19に送られる。
制御プログラム記憶部31から、いずれの方向にも信号
が伝送することができるインタフ二−スバス21を介し
てプロセッサ19に送られる。
制御プログラム記憶部31は例示的に連続単語認識用の
レベル形成関連制御部33を有しているが、これは、本
発明の好適な実施例がシー・ニス・マイヤー(C,S、
Myers)他に与えられた米国特許節4.400.7
a8号のレベル形成技術を使用しているからである。こ
れに関連して、「レベル」とは連続単語認識方法に関連
する一連の単語の状態における場所を意味する。いわゆ
るヒドゥンマルコフモデル(Hldden Marko
v model)の状態を解く決定方法と共にこのよう
なレベル形成技術を使用することは現在知られている。
レベル形成関連制御部33を有しているが、これは、本
発明の好適な実施例がシー・ニス・マイヤー(C,S、
Myers)他に与えられた米国特許節4.400.7
a8号のレベル形成技術を使用しているからである。こ
れに関連して、「レベル」とは連続単語認識方法に関連
する一連の単語の状態における場所を意味する。いわゆ
るヒドゥンマルコフモデル(Hldden Marko
v model)の状態を解く決定方法と共にこのよう
なレベル形成技術を使用することは現在知られている。
ランダムアクセスメモリ回路29は、プロセッサ回路1
9で得られる中間的な結果を含む結実用の一時的な記憶
装置である。
9で得られる中間的な結果を含む結実用の一時的な記憶
装置である。
認識プロセスの最終結果はインターフェースバスを介し
て利用回路35に送られる。この利用回路35は、例え
ば、コンピュータモニタへの印刷路の表示、ハードコピ
ーのプリント出力を与えるプリンタ、又はオフデイオフ
イードバラン装置とすることができる。
て利用回路35に送られる。この利用回路35は、例え
ば、コンピュータモニタへの印刷路の表示、ハードコピ
ーのプリント出力を与えるプリンタ、又はオフデイオフ
イードバラン装置とすることができる。
第1図の実施例の実際の動作に適用される第2図のフロ
ーチャートで分かるように、時間微分ケプストラル特徴
信号情報を使用しない(上記のビー・エイチ・ヤング他
による特許出願の)認識装置とは対照的に、時間微分ケ
ブストラスの特徴の導入によって基本的な処理段階が変
化することはない。
ーチャートで分かるように、時間微分ケプストラル特徴
信号情報を使用しない(上記のビー・エイチ・ヤング他
による特許出願の)認識装置とは対照的に、時間微分ケ
ブストラスの特徴の導入によって基本的な処理段階が変
化することはない。
その理由は、認識システムがこの追加の特徴に対してあ
まりに透明であるために、本発明がほぼ全ての音声認識
装置に対して得られる結果の大きな改良、代表的には5
0%以上の誤り率の減少を与えるからである。
まりに透明であるために、本発明がほぼ全ての音声認識
装置に対して得られる結果の大きな改良、代表的には5
0%以上の誤り率の減少を与えるからである。
いわゆるDP?7チング法(D TW : dynam
lc tltae warplng)又はヒドゥンマル
コフモデル(HMM)認識のような認識アルゴリズムに
基づいた動的プログラミングの決定処理が発声速度及び
発音の差を考慮に入れる方法は第3図のグラフから直感
的に明確になろう。
lc tltae warplng)又はヒドゥンマル
コフモデル(HMM)認識のような認識アルゴリズムに
基づいた動的プログラミングの決定処理が発声速度及び
発音の差を考慮に入れる方法は第3図のグラフから直感
的に明確になろう。
入力音声用の時間フレームは水平軸にプロットされ、代
表的な基準信号の組の連続時間フレームは垂直軸に示し
である。
表的な基準信号の組の連続時間フレームは垂直軸に示し
である。
現在の入力時間フレームとモデルの状態との間で最良の
マツチングを達成するプロセスにおいては、基準モデル
は次の状態に向かって前方へ進むか又は同じ状態で未変
化のままで残るかのいずれかをすることができる。この
明らかに可変の状態変化速度はDPマツチング法のそれ
と質的に類似した発生速度又は発音のばらつきの調整を
行うが、通常は音声認識の為の計算能力を消耗し尽くす
ものではない。
マツチングを達成するプロセスにおいては、基準モデル
は次の状態に向かって前方へ進むか又は同じ状態で未変
化のままで残るかのいずれかをすることができる。この
明らかに可変の状態変化速度はDPマツチング法のそれ
と質的に類似した発生速度又は発音のばらつきの調整を
行うが、通常は音声認識の為の計算能力を消耗し尽くす
ものではない。
説明及び理解を容易にするために、(LPCフィルタの
短時間フーリエ変換から生じる)周波数に対するLPG
スペクトルのlog量(log−magnttude)
はそれぞれの人力音声時間フレームと基準時間フレーム
について第3図の軸に沿って示しである。
短時間フーリエ変換から生じる)周波数に対するLPG
スペクトルのlog量(log−magnttude)
はそれぞれの人力音声時間フレームと基準時間フレーム
について第3図の軸に沿って示しである。
本発明については、実際のケプストラルの特徴及び時間
微分のケプストラル信号が例え見えなくても、各軸の各
時間フレームごとにプロットされた特徴信号の走査によ
り、時間微分特徴信号は何故音声信号のスペクトルの展
開のより完全な2次元的表現を与えるのに有用であるか
、従うて、誤り率を減少するに非常に有効であるか、と
いうことを直感的に理解させることができる。
微分のケプストラル信号が例え見えなくても、各軸の各
時間フレームごとにプロットされた特徴信号の走査によ
り、時間微分特徴信号は何故音声信号のスペクトルの展
開のより完全な2次元的表現を与えるのに有用であるか
、従うて、誤り率を減少するに非常に有効であるか、と
いうことを直感的に理解させることができる。
本発明者は、この説明に本発明を限定することを望むも
のではない。すなわち、連続的な特徴信号により表され
る2次元の地勢を知ることは、常に、単一の時間フレー
ム特徴信号に比較して利点をもたらす。これにより、シ
ステムが単一の時間フレームについて最良のマツチング
を決定をすることが必要となる前に特徴信号における未
来のスペクトルの発展を予想することができる。
のではない。すなわち、連続的な特徴信号により表され
る2次元の地勢を知ることは、常に、単一の時間フレー
ム特徴信号に比較して利点をもたらす。これにより、シ
ステムが単一の時間フレームについて最良のマツチング
を決定をすることが必要となる前に特徴信号における未
来のスペクトルの発展を予想することができる。
実際、同一語の異なる発音について話す場合、線301
の状態から状態への移動におけるどのような緩やかな、
迅速な又は突然のスペクトル変化にも充分に対応するこ
とができる。第3図の実例は文字rxJの互いに異なる
発音に関するものであり、基準のものは中間に声門閉鎖
音を有している。
の状態から状態への移動におけるどのような緩やかな、
迅速な又は突然のスペクトル変化にも充分に対応するこ
とができる。第3図の実例は文字rxJの互いに異なる
発音に関するものであり、基準のものは中間に声門閉鎖
音を有している。
また明らかに、本発明は第3図に実際に示した種類の周
波数に対するLog振幅の特徴信号並びにケプストラル
型の信号の場合にも適用可能である。
波数に対するLog振幅の特徴信号並びにケプストラル
型の信号の場合にも適用可能である。
「瞬間的な」及び時間微分(「遷移的な」)スベクトル
の特徴を用いる本発明の別の実施例は第4図に示しであ
る。
の特徴を用いる本発明の別の実施例は第4図に示しであ
る。
この場合は本発明は1987年4月3日出願で本願の論
受入に論渡されたニス・イー・レビンソン(S、E、L
evinson)の同時係属特許出願第034.487
号に開示された音声認識装置に適用される。
受入に論渡されたニス・イー・レビンソン(S、E、L
evinson)の同時係属特許出願第034.487
号に開示された音声認識装置に適用される。
第1図の実施例との重要な差は、プロセッサ回路134
0におけるアライメント回路1342が2段プロセッシ
ングを導入しているということである。これは、入力音
声の特徴と試験的な決定との再比較が本発明による時間
微分情報を使用する効果を遮蔽すると考えてもよさそう
であるからである。
0におけるアライメント回路1342が2段プロセッシ
ングを導入しているということである。これは、入力音
声の特徴と試験的な決定との再比較が本発明による時間
微分情報を使用する効果を遮蔽すると考えてもよさそう
であるからである。
驚くべきことに、しかし、このような遮蔽効果は起こら
ず、従って、誤り率のこの減少は依然として一般的には
約50%のオーダーである。
ず、従って、誤り率のこの減少は依然として一般的には
約50%のオーダーである。
音声認識の誤り率のこの減少はその商業的な用途におい
て重要な意味を有しており°、多くの他の種類の音声認
識装置、例えば、DPマツティング法を使用するものに
おける本発明の応用を促すことは明らかである。
て重要な意味を有しており°、多くの他の種類の音声認
識装置、例えば、DPマツティング法を使用するものに
おける本発明の応用を促すことは明らかである。
第1図は本発明の好適な実施例のブロック線図;第2図
は第1図の実施例の動作に関するフローチャート; 第3図は第1図の実施例の動作モードを説明する場合に
有用な曲線;及び 第4図は本発明の別の実施例のブロック線図である。
は第1図の実施例の動作に関するフローチャート; 第3図は第1図の実施例の動作モードを説明する場合に
有用な曲線;及び 第4図は本発明の別の実施例のブロック線図である。
Claims (4)
- (1)認識されるべき音声から得られる形式と比較する
のに有用な同様の形式を有する音声から得られる基準パ
ターンを記憶する記憶手段と、この基準パターンに関し
て同様な形式を有するパターンを認識されるべき音声か
ら得る導出手段と、 それぞれのパターンの可能なマッチングを生成するため
にそれぞれのパターンを処理する処理手段と、 認識された単語を利用するために表示する表示手段と、
を有し、 前記記憶手段は、検出された音声の単一の時間フレーム
からのデータと現在のフレームを含む複数の隣接時間フ
レームにわたる遷移データとの両方を有する複数の組の
パターンを関連する形式で記憶する手段を含み、 前記導出手段は、検出された音声の単一時間フレームか
らのデータと、この単一の時間フレームを含む複数の隣
接時間フレームにわたる遷移データとの両方を有する複
数組のパターンを、関連する形式で、得る手段を有し、 前記処理手段は、可能的に認識される単語を得る場合に
単一の時間フレームデータと遷移データとの両方に対し
て等価な重みを与える手段を含む、ことを特徴とする音
声認識システム。 - (2)前記記憶手段によって記憶され且つ前記導出手段
によって導出される複数組のパターンは、それぞれの単
一フレームの中心にあるそれぞれの時間微分データを遷
移データとして含み、前記時間微分データは一以上の隣
接時間フレームからのデータに部分的に依存することを
特徴とする請求項1に記載の音声認識システム。 - (3)前記基準パターンの記憶手段は線形予測係数法に
よりスペクトルの特徴を得る手段を有し、単一の時間フ
レームデータはケプストラル情報を有し、遷移データは
関連する単一時間フレームデータの近隣であることを特
徴付ける時間微分ケプストラル情報を有し、 認識される音声からパターンを導出する前記導出手段は
線形予測係数(LPC)方法によりスペクトルの特徴を
導出する手段を有し、単一時間フレームデータはケプス
トラル情報を有し、遷移データは関連する単一時間フレ
ームデータの近隣であることを特徴付ける時間微分ケプ
ストラル情報を有し、 前記それぞれのパターンを処理する手段は、利用される
単語を認識する場合における精度を改善するために、単
一時間フレームのケプストラル情報と時間微分ケプスト
ラル情報とを等しく有効に利用する手段を有する、 ことを更に特徴とする請求項1に記載の音声認識システ
ム。 - (4)前記基準パターンの記憶手段は連続単語音声のサ
ンプルからセグメンタルトレーニング手法によって得ら
れるこのようなパターンを記憶する手段を有し、 認識される音声からパターンを導出する前記導出手段は
連続単語音声に従って動作するようにされ、 前記それぞれのパターンを処理する手段は、レベルビル
ディングプロセスの各レベルにおいてケプストラル情報
と時間微分ケプストラル情報とを有効に利用するように
された、 ことを更に特徴とする請求項3記載の音声認識システム
。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US11699187A | 1987-11-05 | 1987-11-05 | |
| US116991 | 1987-11-05 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH01149100A true JPH01149100A (ja) | 1989-06-12 |
Family
ID=22370446
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP27755188A Pending JPH01149100A (ja) | 1987-11-05 | 1988-11-04 | 音声認識システム |
Country Status (2)
| Country | Link |
|---|---|
| EP (1) | EP0316112A3 (ja) |
| JP (1) | JPH01149100A (ja) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| FI95086C (fi) * | 1992-11-26 | 1995-12-11 | Nokia Mobile Phones Ltd | Menetelmä puhesignaalin tehokkaaksi koodaamiseksi |
| FI96248C (fi) * | 1993-05-06 | 1996-05-27 | Nokia Mobile Phones Ltd | Menetelmä pitkän aikavälin synteesisuodattimen toteuttamiseksi sekä synteesisuodatin puhekoodereihin |
| FI98164C (fi) * | 1994-01-24 | 1997-04-25 | Nokia Mobile Phones Ltd | Puhekooderin parametrien käsittely tietoliikennejärjestelmän vastaanottimessa |
| JPH08211897A (ja) * | 1995-02-07 | 1996-08-20 | Toyota Motor Corp | 音声認識装置 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS55138181A (en) * | 1979-04-13 | 1980-10-28 | Nec Corp | Inter-pattern similarity calculator |
| JPS57169800A (en) * | 1981-03-27 | 1982-10-19 | Western Electric Co | Continuous speech pattern recognizer |
| JPS59131999A (ja) * | 1983-01-19 | 1984-07-28 | 松下電器産業株式会社 | 音声認識装置 |
| JPS59223499A (ja) * | 1983-06-02 | 1984-12-15 | 松下電器産業株式会社 | 音素認識装置 |
-
1988
- 1988-11-03 EP EP88310337A patent/EP0316112A3/en not_active Withdrawn
- 1988-11-04 JP JP27755188A patent/JPH01149100A/ja active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS55138181A (en) * | 1979-04-13 | 1980-10-28 | Nec Corp | Inter-pattern similarity calculator |
| JPS57169800A (en) * | 1981-03-27 | 1982-10-19 | Western Electric Co | Continuous speech pattern recognizer |
| JPS59131999A (ja) * | 1983-01-19 | 1984-07-28 | 松下電器産業株式会社 | 音声認識装置 |
| JPS59223499A (ja) * | 1983-06-02 | 1984-12-15 | 松下電器産業株式会社 | 音素認識装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP0316112A3 (en) | 1989-05-31 |
| EP0316112A2 (en) | 1989-05-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Hermansky et al. | RASTA processing of speech | |
| US7277856B2 (en) | System and method for speech synthesis using a smoothing filter | |
| Kontio et al. | Neural network-based artificial bandwidth expansion of speech | |
| JPH0585916B2 (ja) | ||
| US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
| Dharanipragada et al. | Robust feature extraction for continuous speech recognition using the MVDR spectrum estimation method | |
| EP0685835B1 (en) | Speech recognition based on HMMs | |
| JPH10124089A (ja) | 音声信号処理装置及び方法、並びに、音声帯域幅拡張装置及び方法 | |
| JPH01149100A (ja) | 音声認識システム | |
| Kaur et al. | Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition | |
| JP2600384B2 (ja) | 音声合成方法 | |
| JPH08211897A (ja) | 音声認識装置 | |
| JP2951514B2 (ja) | 声質制御型音声合成装置 | |
| Al-Radhi et al. | RNN-based speech synthesis using a continuous sinusoidal model | |
| US7200552B2 (en) | Gradient descent optimization of linear prediction coefficients for speech coders | |
| JP3622990B2 (ja) | 音声合成装置及び方法 | |
| Kato et al. | HMM-based speech enhancement using sub-word models and noise adaptation | |
| Parihar | Performance analysis of advanced front ends on the Aurora Large Vocabulary Evaluation | |
| Dhanoa et al. | PERFORMANCE COMPARISON OF MFCC BASED TECHNIQUES FOR RECOGNITION OF SPOKEN HINDI WORDS | |
| Rout et al. | Addressing effects of formant dispersion and pitch sensitivity for the development of children’s kws system | |
| JP3614874B2 (ja) | 音声合成装置及び方法 | |
| JP3567477B2 (ja) | 発声変形音声認識装置 | |
| Picone | Speech Recognition using Mel cepstrum, delta cepstrum and delta-delta | |
| Haque et al. | Generating Vowel Nasality for a Rule-Based Bangla Speech Synthesizer | |
| O’Shaughnessy | “Speech Technology |