JPH01149100A

JPH01149100A - 音声認識システム

Info

Publication number: JPH01149100A
Application number: JP27755188A
Authority: JP
Inventors: Lawrence Richard Rabiner; ローレンス　リチャード　ラビナー; Frank Kao-Ping Soong; フランク　コーピン　ソン; Jay Gordon Wilpon; ジェイ　ゴードン　ウィルポン
Original assignee: American Telephone and Telegraph Co Inc
Current assignee: AT&T Corp
Priority date: 1987-11-05
Filing date: 1988-11-04
Publication date: 1989-06-12
Also published as: EP0316112A3; EP0316112A2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は音声認識装置、特に、連続単語音声認識装置に
関する。

［従来技術の説明］小規模から中規模にわたる語量ワード認識装置は現在重
要な商品である。例えば、これらは銀行の残高をチエツ
クするシステムや、他の種々の慎重に定義されたタスク
指向環境で使用されている。

これらの音声認識装置は一般的にはほんの僅かの開発方
向の１つ、例えば、単語標準認識装置及び音素標準認識
装置、に従っている。

これらのシステムを改良するにあたり顧客が期待する性
能の種類を達成するために取るべき方法を示唆する多く
の種類の研究努力がなされている。

それにも関わらず、改良の方法を選択することは些細な
問題ではない。経験によれば、商業システムの最も重要
なパラメータの１つは誤り率であるということが示され
ている。これはこれらのシステムの用途においてこの誤
り率が広範囲な意義を有しているからである。−船釣な
改良では誤り率は僅かしか減少しないということがわか
っている。

例えば、９０％の精度すなわち１０％の誤り率を有する
システムでは、改善によって誤り率を８％に減少させる
ことは可能であろう。従って、特定のシステムに存在す
る誤り率の半分以上を除去する改善は非常に注目すべき
ものである。

（発明の概要）本発明によれば、２次元的に特徴付けることができるよ
り包括的なスペクトル表現を含むように音声分析部分を
変更することによって、従来技術の単語認識装置を改良
することができる。第１の次元は、認識されるべき音声
の代表的な４５ミリ秒サンプルから得られるスペクトル
の特徴の「フレーム凍結」すなわち瞬間的なサンプルで
ある。ある意味で第１の次元に直交する第２の次元は、
いくつかのこのような時間フレーム又はサンプルに及び
、単一の時間フレームで得られるスペクトル特性の時間
微分に相当するものを生じる。このような概念は、本発
明者の１人、エフ、ケイ、スーング（Ｆ、に、Ｓｏｏｎ
ｇ）とエイ、イー、ローゼンバーグ（Ａ、Ｅ、Ｒｏｓｅ
ｂｅｒｇ）による「オン　ザ　ユース　　オン　インス
タンティニアス　アンド　トランジショナル　スペクト
ラル　インフォーメーションイン　スピーカ　リコグニ
ション（Ｏｎ　ｔｈｅ　Ｕｓｅ　。

ｆ　Ｉｎ５ｔａｎｔａｎｅｏｕｓ　ａｎｄ　Ｔｒａｎｓ
ｉｏｎａｌ　５ｐｅｃｔｒａｌ　ｉｎ　５ｐｅａｋｅｒ
　Ｒｅｃｏｇｎｌｔｉｏｎ）　Ｊなる論文で記載されて
いるように、本質的により簡単な話者認識のタスクで使
用されているが、関連技術が、連続単語音声認識装置を
含む現在の音声認識装置の事実上どれに使用されても得
られる結果が劇的に改良されると期待される理由は存在
しない。はからずも、約１５０単語までの連続単語の語
當を有するこれらの認識装置の場合には少なくとも、話
者と無関係でも話者にならされていても、誤り率の減少
は常に５０％より大きい。本発明者は、総括的に適用可
能であり誤り率をこのように一様に大いに減少させた他
の音声認識装置については知らない。

本発明の第１の特定の特徴によれば、遷移情報は入力音
声について得られるばかりでなく、入力音声を試験する
場合に使用される基準パターンについても前もって準備
及び記録される。実際、参考に使用されるスペクトル情
報は現在−船釣には、基準の各サンプルに対して、量が
２倍で情報が２倍である。そして、基準パターンに比較
して入力音声の試験又は処理においては、はぼ等しい重
み又は有効性が２次元の基準スペクトルパターンの両部
分及び入力音声のスペクトルパターンの両部分に帰せら
れる。即ち、等しい重要さが本質的に瞬間的な情報と、
問題のフレームを含む複数の隣接時間フレームにわたる
時間微分情報と、に帰せられる。

本発明の他の特定的な特徴は、線形予測係数法から得ら
れるケプストラル（ｃｅｐｓｔｒａｌ）情報の使用、及
び、レベルビルディング概念が特に重要である連続単語
認識装置における本発明の使用に関する。本発明者は、
２次元のケプストラル型の情報がＬＰＣ法及びいわゆる
レベルビルディング法と特に調和して働くということを
発見した。

本発明の他の特徴及び利点は図面と共に以下の詳細な説
明を理解することにより明らかとなる。

［一般説明］音声信号の短時間スペクトル表現は、音声の符号化、音
声認識、音声合成及び話者認識において長く用いられて
いる。最もありふれた表現の１つは線形予測符号化（Ｌ
　Ｐ　Ｇ）パラメータのセットである。短時間スペクト
ル包絡線はＬＰＧ係数により効率的にパラメータ化され
る。音声の最も顕著なスペクトルの特徴、スペクトルの
ピーク又はいわゆる「ホルマント」は非常に高い忠実度
でＬＰＣ係数により表現される。この表現は上記の商業
的な用途に応用されて成功している。

符号化、認識及び合成におけるＬＰＧの成功にもかかわ
らず、この表現は音声のスペクトルの動的な展開を表わ
す場合にある固有の不適当な点がある。ＬＰＧパラメー
タは、全音声生成プロセスの動的な歴史のいわば「スナ
ップ写真」を我々にせいぜい提供することができるだけ
である。分析の窓の大きさ、位置並びに励振により影響
されるＬＰＧスペクトル分析過程は無雑音ではなく、な
んらかのアーチファクトが起こり得る。音声音の遷移領
域において、分析は持続された母音又は摩擦音のような
定常状態の領域におけるよりも誤りを生じがちである。

これらの欠点を克服するために、本発明者は全スペクト
ルばらつきの新しい２次元（２−Ｄ）の見方を提案する
。最良の結果を得るために、ＬＰＣケプストラル係数を
使用してこの２−Ｄアプローチを説明する。同様な表現
はＬＰＧパラメータのように他のパラメータの組に適用
することができるが、恐らく、対応するスペクトルの表
現の非ユークリッド性のためになんらかの欠点が、すな
わち幾何学的直観の喪失がある。

まずケプストラル係数は公知の反復式を用いてＬＰＧ係
数から発生される。

ら＝　ｌｏｇ− 号のｌｏｇパワースペクトル１ｏｇＳ　（ω、ｔ）はケ
ブトラル係数により次のごとく表される。

１ｏｇｓ（ω、ｔ）　＝Σｃｍ（’望“主観的には人間
的な認識及び客観的には自動音声認識の両方における音
声スペクトルの最も適切なスペクトルの特徴の１つであ
るとして示された１ｏｇＳ　（ω、１）のスペクトル傾
斜は、ケフレンシー（ｑｕｅｆｅｒｅｎｃｙ）重み付は
ケブトスラル係数により次のごとく同様に表すことがで
きる。

時間におけるスペクトル変化は次のように表現すること
ができる。

微分は、普通は、隣接サンプルへ次差Ｃ３（ｔ＋Δ）　
−ｃ　　（ｔ）のにより近似されるが、本来雑音性のも
のである。この有限の差の近似及びＬＰＧ分析手続のア
ーチファクトの両方に関連する雑音問題を克服するため
に、本発明者ぼスペクトルダイナミクスの本質を特徴付
けるために最小自乗曲線適合法を使用する。ここで使用
される直交多項式は単に例示的なものであって、ルジャ
ンドル多項式のような他の異なる直交多項式も同様に適
用することができる。

音声生成のプロセスは質量慣性、筋肉の緊張及び人間の
調音器官の他の物理的パラメータにより制限されると考
えられるので、音声間及び音声内のスペクトル遷移は非
常に高い周波数成分を持つことができない。零次、１次
及び２次直交多項式は有限の時間期間内における一連の
音声スペクトルの平均、傾斜及び曲率に対応するので、
スライディング時間窓はスペクトル遷移の大部分を特徴
付けるに適しているはずである。零次、１次及び２次多
項式多項式係数は次のごとくリストされる。

零次の多項式係数は、１次の多項式係数は、２次の係数は、利得又は音声のエネルギーは人間の音声の認識における
主要な韻律学的刺激の１つであるが、対応する直交多項
式により同様に特徴付けることができる。２−Ｄのスペ
クトル展開のパラメータ的表現の場合、対応するスペク
トログラムはそのサンプル値１ｏｇＳ　（ω、ｔ）、周
波数微分、二張独遼ａω 及び時間微分（及び必要成らば、より高次の微分）、部姫独旦ｔにより更に正確に特徴付けられる。

音声信号のｌｏｇエネルギー（又はパワー）もサンプル
値及び直交多項式係数により特徴付けることができる。

（実施例の説明）第１図の実施例においては、入力される発声は点１１で
受信され、この点には、もしもこの発声が音響形式の場
合は電気音響変換器を配置してもよい。この発声を表現
する電気信号は回路１３においてフィルタリングされ、
サンプリングされる。次に、これらのサンプルはアナロ
グ／デジタル変換器１５で一連の２進パルスに変換され
る。フィルタ・サンプリング回路１３、Ａ／Ｄ変換器１
５は音声処理のための従来の形式のものである。

このデジタル信号は次のＬＰＧ特徴信号発生器・端点検
出器１７で処理され、この発生器は特にケプストラム型
の信号を発生するものである。音声処理技術で公知のよ
うに、ケプストラム又はケプストラル信号は音声信号の
ｌｏｇ量周波周波数スペクトルｏｇ−ｍａｇｎｉｔｕｄ
ｅ　ｆｒｅｑｕｅｎｃｙ　５ｐｅｃｔｒｕａ＋）のフー
リエ変換を取ることによって得られる。音声処理技術で
使用される周波数に対するｌｏｇ量信号（ｌｏｇ−ｍａ
ｇｎｉｔｕｄｅ　ｖｅｒｓｕｓ　ｆｒｅｑｕｅｎｃｙ　
ｓｉｇｎａｌｓ）はこれ自体、音声信号波形に関する時
間に対する振幅の適当な表現の（有限な時間「窓」例え
ば４５ミリ秒にわたる）短時間フーリエ変換である。

ケプストラル変換に関する問題の周波数に対するｌｏｇ
量信号はこの入力音声の従来の線形予測係数分析（ＬＰ
Ｃ分析）における音声のスペクトル的特徴を表すもので
ある。

今まで説明した分析について、ＬＰＧ特徴信号発生器・
端点検出器１７は、本発明者のうちの２人であるエル・
アール・ラビナー（Ｌ、Ｒ，Ｒａｂｉｎｅｒ）とジェイ
・ジー・ウィルボン（Ｊ　、Ｇ、ＷＩ　Ｉｐｏｎ）の他
、ティ”ビー・マーチン（Ｔ、Ｂ、Ｍａｒｔｌｎ）によ
る１９８４年１１月８日出願で、本願の論受入に譲渡さ
れた第８８９．８！ｉ４号の係属出願に記載された種類
のものであってもよい。ケプストラル係数は方程式１及
び２として上に述べた反復式により明快な仕方でＬＰＣ
係数から得られる。

この装置は時間微分ケプストラム信号を発生するように
変形され、かくして、５０〜ＬＯＯｍｓの一般的な時間
幅を持ちＮ個の先行及びＮ個の後続の時間フレーム、及
び現在の時間フレームのケプストラル信号のための一時
的信号記憶部と、問題のフレームからこれらの隣接フレ
ームへの関連する期間と信号変化との商としての時間微
分ケプストラム信号を発生する時間微分回路と、を有す
る。

結果として生じるケプストラム特徴信号は、特徴信号に
一般的に要求されるものの２倍の長さのフィールドで特
徴信号記憶部２５に記憶される。これは、現在のフレー
ムの特徴信号（「瞬間的な」特徴信号）の他に各フィー
ルドにおいて時間微分特徴信号が存在するからである。

基準パターン信号の記憶部は本システムが応答すべき全
ての基準ワードの全ての状態を表す同様ｎａｌ）、　Ｖ
ｏｌ、８５　Ｍａｙ／Ｊｕｎｅ　１９ｇＢ、ｐｐ、２１
〜３１において本発明者のうち２人、即ち、ローレンス
・アール・ラビナー（Ｌａｗｒｅｎｃｅ　Ｒ，Ｒａｂｉ
ｎｅｒ）とジー・ウィルボン（Ｇ、Ｗｌｌｐｏｎ）　、
更にビーイング・ワング拳ジヤング（Ｂｉｉｎｇ　Ｈｗ
ａｎｇ　Ｊｕａｎｇ）ｌこより「ア拳セグメンタル・ケ
イ・ミーンズ・トレイニング・プロセジャ−・フォー・
コネクテッド・ワード・レコグニション（Ａ　Ｓｅｇｍ
ｅｎｔａｌ　Ｋ−ｍｅａｎｓ　Ｔｒａｌｎｉｎｇ　Ｐｒ
。

ｃｅｄｕｒｅ　ｆ’ｏｒ　Ｃｏｎｎｅｃｔｅｄ　Ｗｏｒ
ｄ　Ｒｅｃｏｇｎｉｔｉｏｎ）Ｊなる論文において記載
されたセグメンタルに平均トレーニング方法により得ら
れる。ここで又、時間微分ケプストラム信号は上記のご
とく記憶部の各フィールドに含まれる。それは、基準信
号のＮ個の隣接する先行及び後続の時間フレームに対す
る信号の「瞬間」値部分の差に基づく時間微分信号とし
て得ることができる。

入力音声用の特徴信号と基準状態及び基準ワード用の特
徴信号との比較は、いわゆるマルコフ（Ｍａｒｋｏｖ）
モデル決定方法によりプロセッサ回路１９で行われるが
、これは、１９８５年３月２１日付けのビー・エイチ・
ヤングＣＢ、Ｈ，Ｊｕａｎｇ）他による特許出願第７１
４，５１７号の同時係属出願に説明されている。

その特許出願に説明したように、プログラム制御命令は
制御プログラム記憶部３１から、いずれの方向にも信号
が伝送することができるインタフ二−スバス２１を介し
てプロセッサ１９に送られる。

制御プログラム記憶部３１は例示的に連続単語認識用の
レベル形成関連制御部３３を有しているが、これは、本
発明の好適な実施例がシー・ニス・マイヤー（Ｃ，Ｓ、
Ｍｙｅｒｓ）他に与えられた米国特許節４．４００．７
ａ８号のレベル形成技術を使用しているからである。こ
れに関連して、「レベル」とは連続単語認識方法に関連
する一連の単語の状態における場所を意味する。いわゆ
るヒドゥンマルコフモデル（Ｈｌｄｄｅｎ　Ｍａｒｋｏ
ｖ　ｍｏｄｅｌ）の状態を解く決定方法と共にこのよう
なレベル形成技術を使用することは現在知られている。

ランダムアクセスメモリ回路２９は、プロセッサ回路１
９で得られる中間的な結果を含む結実用の一時的な記憶
装置である。

認識プロセスの最終結果はインターフェースバスを介し
て利用回路３５に送られる。この利用回路３５は、例え
ば、コンピュータモニタへの印刷路の表示、ハードコピ
ーのプリント出力を与えるプリンタ、又はオフデイオフ
イードバラン装置とすることができる。

第１図の実施例の実際の動作に適用される第２図のフロ
ーチャートで分かるように、時間微分ケプストラル特徴
信号情報を使用しない（上記のビー・エイチ・ヤング他
による特許出願の）認識装置とは対照的に、時間微分ケ
ブストラスの特徴の導入によって基本的な処理段階が変
化することはない。

その理由は、認識システムがこの追加の特徴に対してあ
まりに透明であるために、本発明がほぼ全ての音声認識
装置に対して得られる結果の大きな改良、代表的には５
０％以上の誤り率の減少を与えるからである。

いわゆるＤＰ？７チング法（Ｄ　ＴＷ　：　ｄｙｎａｍ
ｌｃ　ｔｌｔａｅ　ｗａｒｐｌｎｇ）又はヒドゥンマル
コフモデル（ＨＭＭ）認識のような認識アルゴリズムに
基づいた動的プログラミングの決定処理が発声速度及び
発音の差を考慮に入れる方法は第３図のグラフから直感
的に明確になろう。

入力音声用の時間フレームは水平軸にプロットされ、代
表的な基準信号の組の連続時間フレームは垂直軸に示し
である。

現在の入力時間フレームとモデルの状態との間で最良の
マツチングを達成するプロセスにおいては、基準モデル
は次の状態に向かって前方へ進むか又は同じ状態で未変
化のままで残るかのいずれかをすることができる。この
明らかに可変の状態変化速度はＤＰマツチング法のそれ
と質的に類似した発生速度又は発音のばらつきの調整を
行うが、通常は音声認識の為の計算能力を消耗し尽くす
ものではない。

説明及び理解を容易にするために、（ＬＰＣフィルタの
短時間フーリエ変換から生じる）周波数に対するＬＰＧ
スペクトルのｌｏｇ量（ｌｏｇ−ｍａｇｎｔｔｕｄｅ）
はそれぞれの人力音声時間フレームと基準時間フレーム
について第３図の軸に沿って示しである。

本発明については、実際のケプストラルの特徴及び時間
微分のケプストラル信号が例え見えなくても、各軸の各
時間フレームごとにプロットされた特徴信号の走査によ
り、時間微分特徴信号は何故音声信号のスペクトルの展
開のより完全な２次元的表現を与えるのに有用であるか
、従うて、誤り率を減少するに非常に有効であるか、と
いうことを直感的に理解させることができる。

本発明者は、この説明に本発明を限定することを望むも
のではない。すなわち、連続的な特徴信号により表され
る２次元の地勢を知ることは、常に、単一の時間フレー
ム特徴信号に比較して利点をもたらす。これにより、シ
ステムが単一の時間フレームについて最良のマツチング
を決定をすることが必要となる前に特徴信号における未
来のスペクトルの発展を予想することができる。

実際、同一語の異なる発音について話す場合、線３０１
の状態から状態への移動におけるどのような緩やかな、
迅速な又は突然のスペクトル変化にも充分に対応するこ
とができる。第３図の実例は文字ｒｘＪの互いに異なる
発音に関するものであり、基準のものは中間に声門閉鎖
音を有している。

また明らかに、本発明は第３図に実際に示した種類の周
波数に対するＬｏｇ振幅の特徴信号並びにケプストラル
型の信号の場合にも適用可能である。

「瞬間的な」及び時間微分（「遷移的な」）スベクトル
の特徴を用いる本発明の別の実施例は第４図に示しであ
る。

この場合は本発明は１９８７年４月３日出願で本願の論
受入に論渡されたニス・イー・レビンソン（Ｓ、Ｅ、Ｌ
ｅｖｉｎｓｏｎ）の同時係属特許出願第０３４．４８７
号に開示された音声認識装置に適用される。

第１図の実施例との重要な差は、プロセッサ回路１３４
０におけるアライメント回路１３４２が２段プロセッシ
ングを導入しているということである。これは、入力音
声の特徴と試験的な決定との再比較が本発明による時間
微分情報を使用する効果を遮蔽すると考えてもよさそう
であるからである。

驚くべきことに、しかし、このような遮蔽効果は起こら
ず、従って、誤り率のこの減少は依然として一般的には
約５０％のオーダーである。

音声認識の誤り率のこの減少はその商業的な用途におい
て重要な意味を有しており°、多くの他の種類の音声認
識装置、例えば、ＤＰマツティング法を使用するものに
おける本発明の応用を促すことは明らかである。

【図面の簡単な説明】

第１図は本発明の好適な実施例のブロック線図；第２図
は第１図の実施例の動作に関するフローチャート；第３図は第１図の実施例の動作モードを説明する場合に
有用な曲線；及び第４図は本発明の別の実施例のブロック線図である。

Claims

【特許請求の範囲】

（１）認識されるべき音声から得られる形式と比較する
のに有用な同様の形式を有する音声から得られる基準パ
ターンを記憶する記憶手段と、この基準パターンに関し
て同様な形式を有するパターンを認識されるべき音声か
ら得る導出手段と、それぞれのパターンの可能なマッチングを生成するため
にそれぞれのパターンを処理する処理手段と、認識された単語を利用するために表示する表示手段と、
を有し、前記記憶手段は、検出された音声の単一の時間フレーム
からのデータと現在のフレームを含む複数の隣接時間フ
レームにわたる遷移データとの両方を有する複数の組の
パターンを関連する形式で記憶する手段を含み、前記導出手段は、検出された音声の単一時間フレームか
らのデータと、この単一の時間フレームを含む複数の隣
接時間フレームにわたる遷移データとの両方を有する複
数組のパターンを、関連する形式で、得る手段を有し、前記処理手段は、可能的に認識される単語を得る場合に
単一の時間フレームデータと遷移データとの両方に対し
て等価な重みを与える手段を含む、ことを特徴とする音
声認識システム。
（２）前記記憶手段によって記憶され且つ前記導出手段
によって導出される複数組のパターンは、それぞれの単
一フレームの中心にあるそれぞれの時間微分データを遷
移データとして含み、前記時間微分データは一以上の隣
接時間フレームからのデータに部分的に依存することを
特徴とする請求項１に記載の音声認識システム。
（３）前記基準パターンの記憶手段は線形予測係数法に
よりスペクトルの特徴を得る手段を有し、単一の時間フ
レームデータはケプストラル情報を有し、遷移データは
関連する単一時間フレームデータの近隣であることを特
徴付ける時間微分ケプストラル情報を有し、認識される音声からパターンを導出する前記導出手段は
線形予測係数（ＬＰＣ）方法によりスペクトルの特徴を
導出する手段を有し、単一時間フレームデータはケプス
トラル情報を有し、遷移データは関連する単一時間フレ
ームデータの近隣であることを特徴付ける時間微分ケプ
ストラル情報を有し、前記それぞれのパターンを処理する手段は、利用される
単語を認識する場合における精度を改善するために、単
一時間フレームのケプストラル情報と時間微分ケプスト
ラル情報とを等しく有効に利用する手段を有する、ことを更に特徴とする請求項１に記載の音声認識システ
ム。
（４）前記基準パターンの記憶手段は連続単語音声のサ
ンプルからセグメンタルトレーニング手法によって得ら
れるこのようなパターンを記憶する手段を有し、認識される音声からパターンを導出する前記導出手段は
連続単語音声に従って動作するようにされ、前記それぞれのパターンを処理する手段は、レベルビル
ディングプロセスの各レベルにおいてケプストラル情報
と時間微分ケプストラル情報とを有効に利用するように
された、ことを更に特徴とする請求項３記載の音声認識システム
。