JPH067352B2

JPH067352B2 - 音声認識装置

Info

Publication number: JPH067352B2
Application number: JP60003536A
Authority: JP
Inventors: 正宏浜田; 明寿山田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1985-01-11
Filing date: 1985-01-11
Publication date: 1994-01-26
Anticipated expiration: 2009-01-26
Also published as: JPS61162099A

Description

【発明の詳細な説明】産業上の利用分野本発明はフレーム毎の音響分析と音韻識別とを行なう音
声認識装置に関するものである。

従来の技術近年、音声認識装置の性能向上に関する試みは盛んに行
なわれており、線形判別関数による音韻識別を用いた音
声認識装置もその対象の一つとなっている。

従来の技術としては、例えば、特開昭５９−１３１９９
９号公報に示されているように音声の特徴パラメータに
対しベイズ判定に基づく距離、マハラノビス距離、線形
判別関数などの統計的距離尺度を適用し、これによって
入力音声の認識を行なおうとするものがある。

以下図面を参照しながら、上述したような従来の音声認
識装置について説明を行なう。

第２図は従来の音声認識装置を示すものである。第２図
において、１は音響分析部、１２は係数メモリ、３は判
別係数部、６は単語標準パターンメモリ、７は認識部で
ある。

以上のように構成された音声認識装置について、以下そ
の動作について説明する。

入力音声は音響分析部１へ送られ、ここで５〜３０ｍse
c程度の微少時間毎（以下これをフレームと呼ぶ）に分
析され、特徴パラメータベクトルに変換される。分析方
法としては線形予測(LPC)分析法が多く、特徴パラメー
タとしてはＬＰＣケプストラム係数が利用されることが
多い。これらのパラメータベクトルは判別計算部３へ入
力される。一方、係数モメリ１２には後に述べる方法で
統計的距離尺度を算出する際に必要となる各種の係数が
予め記憶されており、これらの係数も判別計算部３へ入
力される。判別計算部３は前記の二つの入力を受け、統
計的距離尺度を計算し、該当フレームの音韻を識別す
る。上記のような処理はフレーム毎になされ、得られた
音韻列は認識部７に送られる。ここでは、単語標準パタ
ーンメモリ６から得られる標準パターンと前記音韻列と
の間で単語間距離の総合評価を行ない、入力音声に最も
近い単語標準パターンをもって入力音声の認識結果とす
る。

前述した統計的距離尺度については、前述の公報におい
て、次のように説明されている。

音韻ｊに対する標準パターンとして、その平均をとり、未知入力フレームのパラメータ列ベクトルをとすると、ベイズ判定は第(1)式を最大とする音韻を識
別結果とすることに対応する。ただし、ｎはベクトルの
次数，添字Ｔは転置を表わす。

また、マハラノビス距離は第(2)式で与えられ、第(2)式
を最小とする音韻が識別結果となる。

また、線形判別関数は第(3)式で与えられ、第(3)式の左
辺の値が正であれば未知入力は音韻ｕに、負であれば音
韻ｖに属する。ただし、は音韻ｕと音韻ｖとを判別するための線形判別係数列ベ
クトルであり、b_u/vは同線形判別係数の定数項である。

発明が解決しようとする問題点しかしながら上記のような構成では、統計的距離尺度の
算出に要する計算量が多大である，あるいは音韻識別の
結果に対する信頼度が不明なため以降の単語単位での類
似度評価に確実性が乏しい、等の問題点があった。即
ち、前記第(1)式あるいは第(2)式の尺度に依る場合はなる行列とマトリックスとの積を全ての音韻ｊに対して
フレーム毎に計算せねばならず、これに要する演算量は
乗算回数のみをとっても第(5)式のごとく多大である。
従ってこれを実現する装置は高速かつ大規模なものが要
求されるという問題点を有していた。

一方前記第(3)式の尺度による場合は、乗算回数は第(6)
式のごとく少量で済む反面、判別の結果だけでは未知入
力フレームが相対的にどの音韻に属するかが示されるだ
けであり、音韻標準パターンとの距離、言い換えれば音
韻識別の信頼性に関する指数は得られない。このため第
２図の認識部７で、単語標準パターン６との音韻類似度
の総合評価を行なう際に、音韻識別の信頼性の高いフレ
ームと低いフレームとが同じ重みで評価され、ひいては
最終の単語認識率が引き下げられるという問題点を有し
ていた。

本発明は上記問題点に鑑み、計算量の軽減と、識別結果
に信頼性を与えることのできる音韻識別機能の保有との
相反する二側面の要求を満たした、高認識率の音声認識
装置を提供するものである。

問題点を解決するための手段上記問題点を解決するために本発明の音声認識装置は、
入力音声をフレーム毎に分析して特徴パラメータを得る
音響分析部と、線形判別係数の組を記憶する第１の係数
メモリと、任意フレームの音韻判別を行なう判別計算部
と、音韻別に予め定められた特徴パラメータ平均ベクト
ルと共分散行列の逆行列とを記憶する第２の係数メモリ
と、マハラノビス距離算出部と、認識しようとする単語
の標準的な音韻列を記憶する単語標準パターンメモリ
と、単語全体での距離を評価する認識的とを具備した構
成になっている。

作用本発明は上記した構成により、次のような作用に基いて
前記従来の問題点の解消を図っている。

入力音声は音響分析部で特徴パラメータベクトルに変換
され、マハラノビス距離算出部と判別計算部とに入力さ
れる。第１の係数メモリ中の線形判別係数も判別計算部
に入力され、ここで前記特徴パラメータベクトルとの間
で一対の音韻の組ごとに線形判別関数が計算され、得ら
れた音韻列は第２の係数メモリと認識部とに入力され
る。なお、ここで線形判別関数計算に要する計算量は、
第(6)式で示したように少量で済む。さらに第２の係数
メモリに入力された音韻列情報に基いて、ここに蓄えら
れている音韻別の特徴パラメータ平均ベクトルと共分散
行列の逆行列との組のうち該当するものが選び出されて
前記マハラノビス距離算出部へ入力される。マハラノビ
ス距離算出部は上記の二つの入力を受け、入力音声と、
これが属すると判別された音韻の標準的パターンとの間
の第１候補音韻距離を算出する。この際の距離算出作業
は前記判別計算部で識別された唯一の候補音韻について
のみ行なえばよく、全体としての計算量は第(5)式で示
した従来例より大幅な削減が期待できる。最後に認識部
は、前記判別計算部からの音韻列と、前記マハラノビス
距離算出部からフレーム毎の第１候補音韻距離と、単語
標準パターンメモリからの単語標準パターンとを受け、
単語全体での総合距離評価を行なって認識結果を出力す
る。

実施例以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。第１は本発明の一実施例を示す
ものである。

第１図において、１は入力音声をフレーム毎に分析する
音響分析部、２は線形判別係数の組を記憶する第１の係
数メモリ、３は任意フレームの音韻判別を行なう判別計
算部、４は音韻別に予め定められた特徴パラメータ平均
ベクトルと共分散行列の逆行列とを記憶する第２の係数
メモリ、５はマハラノビス距離算出部、６は認識しよう
とする単語の標準的な音韻列を記憶する単語標準パター
ンメモリ、７は単語全体での距離を評価する認識部であ
る。

以上のように構成された音声認識装置について、以下そ
の動作を説明する。まず入力音声は音響分析部１の分析
される。分析方法は従来から行なわれている方法のいず
れでもよいが、本実施例では線形予測分析法を用いる。
対象音声が電話帯域に限られているのであれば、演算量
の最小化と認識性能の最大化との両方を満たすものとし
て、８ＫHz、１２ビットの標本量子化を行なった後、１
０〜２０ｍsecのフレーム間隔毎に１０次の線形予測分
析を行ない。ＬＰＣケプストラム係数C_i（ｉ＝１，２，
……，１０）を得るのが望ましい。ＬＰＣケプストラム
係数に関しては文献「ディジタルプロセッシングオブス
ピーチシグナル」(L.R.Rabiner R.W.Schafer共著“Digi
tal Processing of Speech Signals")に詳しい説明があ
る。要約すると、線形予測モデルＨ_(z)が第１(7)式で与
えられるとき、Ｃ_iは第(8)式で与えられる。

以上のようにして得られた特徴パラメータベクトル｛Ｃ_i｝＝(C₁,C₂,……,C₁₀) ……(9) は、フレーム毎に第１図中の判別計算部３への入力と、
マハラノビス距離算出部５への第２の入力となる。

同図中、判別計算部３では、線形判別関数を用いてフレ
ーム毎に入力音声の音韻識別を行ない、その結果得られ
た第１候補音韻を第２の係数メモリ４と認識部７とに入
力される。線形判別関数については本明細書中の従来の
技術の項で説明したものと同様の方法で扱われるので、
ここでは説明を省略する。なお図中第１の係数メモリ２
には任意の音韻対間での判別を行なうための線形判別係
数が記憶されており、これらの係数は判別計算部３での必
要に応じて適宜読み出される。

一方、第２の係数メモリ４は判別計算部３から入力され
た前記音韻列に基いて、該当する音韻別の特徴パラメー
タ平均ベクトルと共分散行列の逆行列とを選び出し、これをマハラノビス距離算出部５への第
１の入力とする。マハラノビス距離算出部５は前記の第
１の入力と第２の入力とを受け、第(2)式に従ってマハ
ラノビス距離d_jを算出し、これを第１候補音韻距離とし
て認識部７に入力する。ここに第(2)式の列ベクトルの各要素は第(9)式のC_iの各要素が代入されたものであ
る。

ところで第(2)式による距離算出は、判別計算部３で決
定されたフレーム当たり唯一の音韻に対して行なわれる
ので、これに要する乗算回数は第(5)式と異なる。即
ち、１フレーム当たり１回だけ第(4)式を計算すればよ
いので、これに要する乗算回数は次の第(10)式で表わさ
れる。

従って本実施例の音韻識別における所要乗算量の合計
は、１フレーム当たり次の第(11)式で示される。第(11)
式のｎ（Ｊ−１）は第１図中判別計算部３で行なわれる
線形判別関数算出に際する所要量，第(11)式のｎ（ｎ＋
１）はマハラノビス距離算出部５で所要量である。

以上でみた乗算回数をまとめると次表のようになる。

本実施例による計算量削減の効果は、乗算回数の比較か
らも明らかである。

最後に認識部７は、判別計算部３から得られる音韻列
と、マハラノビス距離算出部５から得られる第１候補音
韻距離と、単語標準パターンメモリ６から得られる認識
対象単語の標準的な音韻列とを用いて、単語全体での総
合距離評価を行なって認識結果を出力する。総合距離評
価に関しては種々の方法が考えられるが、本発明ではそ
の一実施例として次の方法をとる。即ち、単語標準パタ
ーンの音韻列と入力音声の音韻列とを用いて音韻レベル
のＤＰマッチングをフレーム単位に行なうことにより単
語間距離を累積していく際に、マッチングパス上で入力
音声の代表フレーム位置において前記両音韻が不一致の
とき、該当のフレームの第１候補音韻距離が小さい程、
大きな重みのかかった距離を累積する。マハラノビス距
離が小さい程該当フレームでの音韻識別結果は信頼性が
高い訳であるから、そこでの音韻クラスの不一致が単語
全体での距離増加に、より大きく影響することになるの
は妥当な方法である。

以上のように本実施例によれば、ＬＰＣケプストラム係
数によるフレーム毎の音韻判別を所要計算量の少ない線
形判別関数を用いて行ない、これだけでは識別された音
韻の確からしさが不明であるので、第１候補音韻である
と判別された音韻に限って多量の計算量を必要とするマ
ハラノビス距離算出を行なって音韻距離を求めることに
より、音韻レベルでのＤＰマッチングの際に音韻識別の
信頼性をも考慮した距離評価ができ、その結果従来より
高い認識率の音声認識装置を実現することができる。

発明の効果以上のように本発明になる音声認識装置は、入力音声を
フレーム毎に分析して特徴パラメータを得る音響分析手
段と、音韻識別のための線形判別係数の組を記憶する第
１の係数メモリと、音韻判別を行なう判別計算部と、音
韻別に予め定められた特徴パラメータ平均ベクトルと共
分散行列の逆行列とを記憶する第２の係数メモリと、マ
ハラノビス距離算出部と、認識しようとする単語の標準
的な音韻列を記憶する単語標準パターンメモリと、単語
全体での距離を評価する認識部とを具備したことによ
り、少ない計算量で音韻識別と前記音韻識別の信頼性評
価との両方ができ、その結果、従来より高い認識率を得
ることができる。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識装置のブロ
ック図、第２図は従来の音声認識装置のブロック図であ
る。１……音響分析部、２……第１の係数メモリ、３……判
別計算部、４……第２の係数メモリ、５……マハラノビ
ス距離算出部、６……単語標準パターンメモリ、７……
認識部。

Claims

【特許請求の範囲】

【請求項１】入力音声をフレーム毎に分析して特徴パラ
メータを得る音響分析部と、任意の音韻対間での音韻判
別を行なう目的で予め定められた線形判別係数の組を記
憶する第１の係数メモリと、前記音響分析部から得られ
る任意フレームの特徴パラメータと前記第１の係数メモ
リから得られる線形判別係数とを用いて前記任意フレー
ムの音韻判別を行ない、判別された音韻列を出力する判
別計算部と、任意のフレームと標準音韻との間のマハラ
ノビス距離を算出する目的で音韻別に予め定められた特
徴パラメータ平均ベクトルと共分散行列の逆行列とを記
憶する第２の係数メモリと、マハラノビス距離算出部
と、認識しようとする単語の標準的な音韻列を記憶する
単語標準パターンメモリと、単語全体での距離を評価す
る認識部とを具備し、前記判別計算部から得られるフレ
ーム毎の音韻列に対応して前記第２の係数メモリから該
当する音韻別の特徴パラメータ平均ベクトルと共分散行
列の逆行列とを選び出しこれを前記マハラノビス距離算
出部に対する第１の入力とし、一方、前記音響分析部か
ら得られるフレーム毎の特徴パラメータを前記マハラノ
ビス距離算出部に対する第２の入力とし、同一時刻のフ
レームで発生した前記第１の入力と第２の入力との間で
求められたマハラノビス距離を第１候補音韻距離として
前記マハラノビス距離算出部から出力し、前記認識部に
おいて前記判別計算部から得られる音韻列と、前記マハ
ラノビス距離算出部から得られる第１候補音韻距離と、
前記単語標準パターンメモリから得られる単語の標準的
な音韻列とを用いて単語認識を行なうことを特徴とする
音声認識装置。