JPH067353B2

JPH067353B2 - 音声認識装置

Info

Publication number: JPH067353B2
Application number: JP60003537A
Authority: JP
Inventors: 正宏浜田; 明寿山田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1985-01-11
Filing date: 1985-01-11
Publication date: 1994-01-26
Anticipated expiration: 2009-01-26
Also published as: JPS61162100A

Description

【発明の詳細な説明】産業上の利用分野本発明はフレーム毎の音響分析と音韻識別とを行なう音
声認識装置に関するものである。

従来の技術近年、音声認識装置の性能向上に関する試みは盛んに行
なわれており、線形判別関数による音韻識別を用いた音
声認識装置もその対象の一つとなっている。

従来の技術としては、例えば、特開昭５９−１３１９９
９号公報に示されているように、音声の特徴パラメータ
に対しベイズ判定に基づく距離，マハラノビス距離，線
形判別関数などの統計的距離尺度を適用し、これによっ
て入力音声の認識を行なおうとするものがある。

以下図面を参照しながら、上述したような従来の音声認
識装置について説明を行なう。

第２図は従来の音声認識装置を示すものである。第２図
において、１は音響分析部、１３は係数メモリ、４は判
別計算部、８は単語標準パターンメモリ、９は認識部で
ある。

以上のように構成された音声認識装置について、以下そ
の動作について説明する。

入力音声は音響分析部１へ送られ、ここで５〜３０msec
程度の微少時間毎（以下これをフレームと呼ぶ）に分析
され、特徴パラメータに変換される。分析方法としては
線形予測（ＬＰＣ）分析法がよく利用され、特徴パラメ
ータとしては、ＬＰＣケプストラム係数がよく利用され
る。これらのパラメータは判別計算部３へ入力される。

一方、係数モメリ１３中には後に述べる方法で統計的距
離尺度を算出する際に必要となる各種の係数が予め記憶
されており、これらの係数も判別計算部４へ入力され
る。判別計算部４は前記の二つの入力を受け、統計的距
離尺度を計算し、該当フレームの音韻を識別する。上記
のような処理はフレーム毎になされ、得られた音韻列は
認識部９に送られる。ここでは、単語標準パターンメモ
リ８から得られる標準パターンと前記音韻列との間で類
似度の総合評価を行ない、入力音声に最も近い単語標準
パターンをもって、入力音声の認識結果とする。

前述した統計的距離尺度については、前述の公報におい
て、次のように説明されている。

音韻ｊに対する標準パターンとして、その平均入力フレームのパラメータ列ベクトルをとすると、ベイズ判定は第(1)式を最大とする音韻を識
別結果とすることに対応する。ただしｎはベクトルＴは転置を表わす。

また、マハラノビス距離は第(2)式で与えられ、第(2)を
最小とする音韻が識別結果となる。

また、線形判別関数は第(3)式で与えられ、第(3)式の左
辺の値が正であれば未知入力は音韻ｕに、負であれば音
韻ｖに属する。ただし、は音韻ｕと音韻ｖとを判別するための線形判別係数列ベ
クトルであり、b_u/vは同じく音韻ｕと音韻ｖとを判別す
るための定数である。

発明が解決しようとする問題点しかしながら上記のような構成では、統計的距離尺度の
算出に要する計算量が多大である，あるいは音韻識別の
結果に対する信頼度が不明なため以降の単語単位での類
似度評価に確実性が乏しい等の問題点があった。即ち、
前記第(1)式あるいは第(2)の尺度に依る場合はなる行列とマトリックスとの積を全ての音韻ｊに対して
フレーム毎に計算せねばならず、これに要する演算量は
乗算回数のみをとっても第(5)式のごとく多大である。
従ってこれを実現する装置は高速かつ大規模なものが要
求されるという問題点を有していた。

また前記第(3)式の尺度に依る場合は、乗算の回数は第
(6)式のごとく少量で済む。

しかしながら判別の結果だけでは未知入力フレームがど
の音韻に属するかが示されるだけであり、音韻標準パタ
ーンとの距離、言い換えれば音韻識別の信頼性に関する
指数は得られない。このため、第２図の認識部ので、単
語標準パターンメモリ８との音韻類似度総合評価を行な
う際に、音韻識別の信頼性の高いフレームと低いフレー
ムとが同じ重みで評価され、ひいては最終の単語認識率
が引き下げられるという問題点を有していた。

本発明は上記問題点に鑑み、計算量の軽減と識別結果に
信頼性を与えることのできる音韻識別機能の保有という
相反する２側面の要求を満たした、高認識率の音声認識
装置を提供するものである。

問題点を解決するための手段上記問題点を解決するために本発明の音声認識装置は、
入力音声をフレーム毎に分析する音響分析と、特徴パラ
メータを記憶するパラメータメモリと、線形判別係数の
組を記憶する第１の係数メモリと、任意フレームの音韻
判別を行なう判別計算部と、前記音韻判別結果を記憶す
る音韻メモリと、音韻距離算出のための距離係数を記憶
する第２の係数メモリと、音韻距離算出部と、認識しよ
うとする単語の標準的な音韻列を記憶する単語標準パタ
ーンメモリと、単語全体での類似度を評価する認識部と
を具備した構成になっている。

作用本発明は上記した構成により、次のような作用に基いて
前記従来の問題点の解消を図っている。

入力音声は音響分析部で特徴パラメータに変換され、パ
ラメータメモリにフレーム毎に記憶される。また前記特
徴パラメータは判別計算部に入力される。一方、第１の
係数メモリ中の線形判別係数も判別計算部に入力され、
ここで前記特徴パラメータとの間で一対の音韻の組ごと
に線形判別関数が計算され、音韻列メモリにフレーム毎
に記憶される。ここで線形判別関数計算に要する計算量
は、第(6)式で示したように少量で済む。

さらに前記音韻列メモリ中に書き込まれた音韻列におい
て同一音韻が連続して現われているとき、その中から任
意に一つの代表フレームを選び、これとフレーム番号を
同じくする前記特徴パラメータを前記パラメータメモリ
から読み出し、音韻距離算出部に入力する。

一方、前記代表フレームの音韻情報は第２の係数メモリ
へ入力され、ここに蓄えられている音韻別の距離係数の
うち該当するものが選び出されて前記音韻距離算出部へ
入力される。前記音韻距離算出部は上記の二つの入力を
受け、両者間の音韻距離を算出する。通常の音声では母
音定常部において、同一音韻が長く連続するので、この
区間についての代表フレームは１つだけとなり、前記音
韻距離算出部での計算は、各フレーム毎に実行する必要
がなくなる。このため、全体の計算量は従来例より大幅
な減少が期待できる。

最後に認識部は、前記音韻列メモリからの毎フレームの
音韻列と、前記音韻距離算出部から毎代表フレームの音
韻距離と、単語標準パターンメモリからの単語標準パタ
ーンとを受け、単語全体での総合類似度評価を行なって
認識結果を出力する。

実施例以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。第１図は本発明の一実施例を示
すものである。第１図において、１は入力音声をフレー
ム毎に分析する音響分析部、２は音響分析部１に得られ
た特徴パラメータを記憶するパラメータメモリ、３は線
形判別係数の組を記憶する第１の係数メモリ、４は任意
フレームの音韻判別を行なう判別計算部、５は前記音韻
判別結果を記憶する音韻列メモリ、６は音韻別共分散行
列の逆行列の組を記憶する第２の係数メモリ、７はマハ
ラノビス距離算出部、８は認識しようとする単語の標準
的な音韻列を記憶する単語標準パターンメモリ、９は単
語全体での類似度を評価する認識部である。

以上のように構成された音声認識装置について、以下そ
の動作を説明する。

まず入力音声は音響分析部１で分析される。分析方法は
従来から行なわれているもののいずれでもよいが、本実
施例では線形予測分析法を用いる。また対象音声が電話
帯域に限られている場合であれば、演算量の最小化と認
識性能の最大化との両方を満たすものとして８ＫHz、１
２ビットの標本量子化を行なった後、１０〜２０msecの
フレーム間隔毎に１０次の線形予測分析を行ない。ＬＰ
Ｃケプストラム係数（C_i,i＝1,2…10)を得るのが望まし
い。ＬＰＣケプストラム係数に関しては文献「ディジタ
ルプロセッシングオブスピーチシグナル」(L.
R.Rabiner,R.W.Schafer共著，“Digital Processing of
Speech Signals”）に詳しい説明がある。要約する
と、線形予測モデルＨ_(z)が第１(7)式で与えられると
き、ＬＰＣケプストラム係数Ｃ_iは第(8)式で与えられ
る。

以上のようにして得られた特徴パラメータは、フレーム
毎に第１図中のパラメータメモリ２に記憶されると共
に、判別計算部４に入力される。

判別計算部４では、線形判別関数を用いてフレーム毎に
入力音声の音韻識別を行ない、順次音韻列メモリ５に結
果を書き込む。線形判別関数については本明細書中の従
来の技術の項で説明したもので、ここでは省略する。ま
た図中、第１の係数メモリ３には任意の音韻対間での判
別を行なうための線形判別係数が記憶されており、これ
らの係数は判別計算部４での必要に応じて適宜読み出さ
れる。

ところで、通常の音声を本実施例で示した１０〜２０ms
ec程度毎のフレームで音韻識別する場合、母音部の音響
的特性の定常性のため同一音韻が複数フレーム連続して
識別出力されるのが普通である。本実施例ではその中か
ら任意に一つの代表フレームを選び、これとフレーム番
号を同じくする前記特徴パラメータをパラメータメモリ
２から読み出し、マハラノビス距離算出部７に入力す
る。

一方、前記代表フレームでの音韻情報は音韻列メモリ５
から読み出されて第２の係数メモリ６へ入力され、ここ
に蓄えられている音韻別逆行列の中から該当するものが
選び出されて、マハラノビス距離算出部７への第１の入
力となる。他方、前記代表フレームのフレーム番号情報
はパラメータメモリ２へも入力され、該当する特徴パラ
メータがマハラノビス距離算出部７への第２の入力とな
る。マハラノビス距離算出部７は前記第１，第２の入力
を受け、前記第(2)式に従ってマハラノビス距離を算出
し、認識部９へ結果を出力する。前述したように代表フ
レームは連続した同一音韻区間について、一つだけ求ま
るので、マハラノビス距離算出部７での計算は、従来例
で述べたものより大幅に減少する。

最後に認識部９は、音韻列メモリ５からの毎フレームの
音韻列と、マハラノビス距離算出部７からの毎代表フレ
ームのマハラノビス距離と、単語標準パターンメモリ８
からの単語標準パターンとを受け、単語全体での総合類
似度評価を行なって認識結果を出力する。総合類似度評
価に関しては種々の方法が考えられるが、本発明ではそ
の一実施例として、次の方法をとる。即ち単語標準パタ
ーンと音韻列とを用いて、音韻レベルのＤＰマッチング
をフレーム単位に行なって単語間距離を累積していく際
に、マッチングパス上で入力音声の代表フレーム位置に
おいて入力音声の音韻と標準パターンの音韻が不一致の
とき、前記マハラノビス距離が小さい程、大きな重みの
かかった距離を累積する。マハラノビス距離が小さい程
該当フレームでの音韻識別結果は信頼性が高い訳である
から、そこでの音韻クラスの不一致が単語全体での距離
増加に、より大きく影響することになるのは妥当な方法
である。

以上のように本実施例によれば、ＬＰＣケプストラム係
数によるフレーム毎の音韻判別を所要計算量の比較的少
ない線形判別関数を用いて行なうと共に、音韻中心とし
て選んだ代表フレームに限って多量の計算量を必要とす
るマハラノビス距離算出を行なって、上記線形判別関数
のみによっては求めることのできない音韻類似度を算出
することができるため、大局的かつ安性的な単語全長に
わたる音韻列情報と、局所的かつ定量的な代表フレーム
での音韻距離情報とを、大局的かつ定量的を単語全長に
わたるＤＰマッチング演算の入力とすることができ、そ
の結果従来の技術になる音声認識装置に比べ、より高い
認識率を得ることができる音声認識装置を実現すること
ができる。

発明の効果以上のように本発明は、入力音声をフレーム毎に分析す
る音響分析部と、特徴パラメータを記憶するパラメータ
メモリと、線形判別係数の組を記憶する第１の係数メモ
リと、任意フレームの音韻判別を行なう判別計算部と、
音韻判別結果を記憶する音韻メモリと、音韻距離を算出
するための距離係数を記憶する第２の係数メモリと、音
韻距離算出部と、認識しようとする単語の標準的な音韻
列を記憶する単語標準パターンメモリと、単語全体での
類似度を評価する認識部とを設けることにより、計算量
の軽減と識別結果に信頼性を与えることのできる音韻識
別機能の保有という相反する２側面の要求を満たした、
高認識率の音声認識装置を提供することができる。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識装置のブロ
ック図、第２図は従来の音声認識装置のブロック図であ
る。１……音響分析部、２……パラメータメモリ、３……第
１の係数メモリ、４……判別計算部、５……音韻列メモ
リ、６……第２の係数メモリ、７……マハラノビス距離
算出部、８……単語標準パターンメモリ、７……認識
部。

Claims

【特許請求の範囲】

【請求項１】入力音声をフレーム毎に分析する音響分析
部と、前記音響分析部で得られた特徴パラメータを記憶
するパラメータメモリと、任意の音韻対間での音韻判別
を行なうため予め定められた線形判別係数の組を記憶す
る第１の係数メモリと、前記パラメータメモリから得ら
れる任意フレームの特徴パラメータと前記第１の係数メ
モリから得られる線形判別係数とを用いて前記任意フレ
ームの音韻判別を行なう判別計算部と、前記判別計算部
の判別結果を記憶する音韻列メモリと、、任意のフレー
ムと標準音韻との間の音韻距離を算出するため音韻毎に
予め定められた距離係数を記憶する第２の係数メモリ
と、任意のフレームと標準音韻との間の音韻距離を算出
する音韻距離算出部と、認識しようとする単語の標準的
な音韻列を記憶する単語標準パターンメモリと、単語全
体での類似度を評価する認識部とを具備し、前記音韻列
メモリ中に同一音韻が連続して書き込まれているとき、
その中から任意に選んだ代表フレームとフレーム番号を
同じくする前記特徴パラメータを前記パラメータメモリ
中から選び、一方、前記判別計算部により判別された音
韻に対応して前記第２の係数メモリから該当する音韻別
の距離係数を選び、以上のようにして選ばれた二者によ
って前記代表フレームにおける代表音韻距離を計算し、
前記音韻列メモリから得られる音韻列と、前記音韻距離
算出部から得られる代表音韻距離と、前記単語標準パタ
ーンメモリから得られる単語の標準的な音韻列とを用い
て単語認識を行なうことを特徴とする音声認識装置。
【請求項２】第２の係数メモリは、任意のフレームと標
準音韻との間のマハラノビス距離を算出するため音韻毎
に予め定められた音韻別共分散行列の逆行列の組を記憶
する逆行列メモリであり、音韻距離計算部はマハラノビ
ス距離算出部であることを特徴とする特許請求の範囲第
１項記載の音声認識装置。