JPS61162100A

JPS61162100A - 音声認識装置

Info

Publication number: JPS61162100A
Application number: JP60003537A
Authority: JP
Inventors: 正宏浜田; 明寿山田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1985-01-11
Filing date: 1985-01-11
Publication date: 1986-07-22
Anticipated expiration: 2009-01-26
Also published as: JPH067353B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明はフレーム毎の音響分析と音韻識別とを行なう音
声認識装置に関するものである。

従来の技術近年、音声認識装置の性能向上に関する試みは盛んに行
なわれており、線形判別関数による音韻識別を用いた音
声認識装置もその対象の一つとなっている。

従来の技術としては、例えば、特開昭５９−１３１９９
９号公報に示されているように、音声の特徴パラメータ
に対しベイズ判定に基づく距離。

マハラノビス距離、線形判別関数などの統計的距離尺度
を適用し、これによって入力音声の認識を行なおうとす
るものがある。

以下図面を参照しながら、上述したような従来の音声認
識装置について説明を行なう。

第２図は従来の音声認識装置を示すものである。

第２図において、１は音響分析部、１３は係数メモリ、
４は判別計算部、８は単語標準パターンメモリ、９は認
識部である。

以上のように構成された音声認識装置について。

以下その動作について説明する。

入力音声は音響分析部１へ送られ、ここで６〜３ｏ　ｍ
５ｅｃ程度の微少時間毎（以下これをフレームと呼ぶ〕
に分析され、特徴パラメータに変換される。分析方法と
しては線形予測（ＬＰＧ）分析法がよく利用され、特徴
パラメータとしては、ＬＰＧケプストラム係数がよく利
用される。これらのパラメータは判別計算部４へ人力さ
れる。

一方、係数メモリ１３中には後に述べる方法で統計的距
離尺度を算出する際に必要となる各種の係数が予め記憶
されており、これらの係数も判別計算部４へ入力される
。判別計算部４は前記の二つの入力を受け、統計的距離
尺度を計算し、該当フレームの音韻を識別する。上記の
ような処理はフレーム毎になされ、得られた音韻列は認
識部９に送られる。ここでは、単語標準パターンメモリ
８から得られる標準パターンと前記音韻列との間で類似
度の総合評価を行ない、入力音声に最も近い単語標準パ
ターンをもって、入力音声の認識結果とする。

前述した統計的距離尺度については、前述の公報におい
て、次のように説明されている。

音韻ｊに対する標準パターンとして、その平均値列ベク
トルｐ　、共分散行列＼Ｗ：ｌ　をとり、未知コ入力フレームのパラメータ列ベクトルをＬとすると、ベ
イズ判定は第（１）式を最大とする音韻を識別結果とす
ることに対応する。ただしｎはベクトルの次数１＼Ｗ１
は行列式の値、畜　は逆行列、添字では転置を表わす。

’ｊ”　　　−（ｚ−μコ　）　　　−Ｊ　　　　−Ｃ
ｒ、−ｔｔｔコ　）＃ｏｇθ９　　　上（（２π）　　・　１＼Ｗコ　１　　）　　　　　　　
　　　　　　　　　　　　・・・・・・（１）また、マ
ハラノビス距離は第（２）式で与えられ、第（２）式を
最小とする音韻が識別結果となる。

ｄ−（ｚニーμ　）・Ｗ・　・（ｒ、−／ｌｔｌ　　　
　　・・・・・・（２）フコココまた、線形判別関数は第（３）式で与えられ、第（３）
式の左辺の値が正であれば未知入力は音韻Ｕに、負であ
れば音韻Ｖに属する。ただし、＆ｕ／７　は音韻Ｕと音
韻マとを判別するための線形判別係数列ベクトルであり
、ｂｕ　／　ｖ　　は同じく音韻Ｕと音ｆｉｖとを判別
するための定数である。

Ｋｕ／ｖ＝ｂｕ／ｖ＋＆ｕ／ｖ’に　　　　　　　・・
・・・・（３）発明が解決しようとする問題点しかしながら上記のような構成では、統計的距離尺度の
算出に要する計算量が多大である、あるいは音韻識別の
結果に対する信頓度が不明なため以降の単語単位での類
似度評価に確実性が乏しい等の問題点があった。即ち、
前記第（１）式あるいは第（２）式の尺度に依る場合は（Ｘ−μ・）・町　・（Ｉ−μｊ）　　　　　・・・・
・・（４）コなる行列とマトリックスとの積を全ての音韻ｊに対して
フレーム毎に計算せねばならず、これに要する演算量は
乗算回数のみをとっても第（５）式のととく多大である
。従ってこれを実現する装置は高速かつ大規模なものが
要求されるという問題点を有していた。

乗算回数：　ｍ＝ｎ−（ｎ＋１）−Ｊ−Ｌ　　　　−＝
（６）また前記第（３）式の尺度に依る場合は、乗算の
回数は第（６）式のごとく少量で済む。

乗算回数：　ｍ＝ｎ・（Ｊ−１）・Ｌ　　　　　・・・
・（６）しかしながら判別の結果だけでは未知入力フレ
ームがどの音韻に属するかが示されるだけであり、音韻
標準パターンとの距離、言い換えれば音韻識別の信頼性
に関する指数は得られない。このため、第２図の認識部
ので、単語標準パターンメモリ８との音韻類似度総合評
価を行なう際に、音韻識別の信頼性の高いフレームと低
いフレームとが同じ重みで評価され、ひいては最終の単
語認識率が引き下げられるという問題点を有していた。

本発明は上記問題点に鑑み、計算量の軽減と識別結果に
信頼性を与えることのできる音韻識別機能の保有という
相反する２側面の要求を満たした、高認識率の音声認識
装置を提供するものである。

問題点を解決するための手段上記問題点を解決するために本発明の音声認識装置は、
人力音声をフレーム毎に分析する音響分析部と、特徴パ
ラメータを記憶するパラメータメモリと、線形判別係数
の組を記憶する第１の係数メモリと、任意フレームの音
韻判別を行なう判別計算部と、前記音韻判別結果を記憶
する音韻メモリと、音韻距離算出のだめの距離係数を記
憶する第２の係数メモリと、音韻距離算出部と、認識し
ようとする単語の標準的な音韻列を記憶する単語標準パ
ターンメモリと、単語全体での類似度を評価する認識部
とを具備した構成になっている。

作用本発明は上記した構成により、次のような作用に基いて
前記従来の問題点の解消を図っている。

入力音声は音響分析部で特徴パラメータに変換され、パ
ラメータメモリにフレーム毎に記憶される。また前記特
徴パラメータは判別計算部に入力される。一方、第１の
係数メモリ中の線形判別係数°も判別計算部に入力され
、ここで前記特徴、＋ラメータとの間で一対の音韻の組
ごとに線形判別関数が計算され、音韻列メモリにフレー
ム毎に記憶される。ここで線形判別関数計算に要する計
算量は、第（６）式で示したように少量で済む。

さらに前記音韻列メモリ中に書き込まれた音韻列におい
て同一音韻が連続して現われているとき、その中から任
意に一つの代表フレームを選び、これとフレーム番号を
同じくする前記特徴ノくラメータを前記パラメータメモ
リから読み出し、音韻距離算出部に入力する。

一方、前記代表フレームの音韻情報は第２の係数メモリ
へ入力され、ここに蓄えられている音韻別の距離係数の
うち該当するものが選び出されて前記音韻距離算出部へ
人力される。前記音韻距離算出部は上記の二つの入力を
受け、両者間の音韻距離を算出する。通常の音声では母
音定常部において、同一音韻が長く連続するので、この
区間についての代表フレームは１つだけとなり、前記音
韻距離算出部での計算は、各フレーム毎に実行する必要
がなくなる。このため、全体の計算量は従来例より大幅
な減少が期待できる。

最後に認識部は、前記音韻列メモリからの毎フレームの
音韻列と、前記音韻距離算出部からの毎代表フレームの
音韻距離と、単語標準パターンメモリからの単語標準パ
ターンとを受け、単語全体での総合類似度評価を行なっ
て認識結果を出力する。

実施例以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。第１図は本発明の一実施例を示
すものである。第１図において、１は入力音声をフレー
ム毎に分析する音響分析部、２は音響分析部１で得られ
た特徴パラメータを記憶するパラメータメモリ、３は線
形判別係数の組を記憶する第１の係数メモリ、４は任意
フレームの音韻判別を行なう判別計算部、５は前記音韻
判別結果を記憶する音韻列メモリ、６は音韻別共分散行
列の逆行列の組を記憶する第２の係数メモリ、７はマノ
・ラノピス距離算出部、８は認識しようとする単語の標
準的な音韻列を記憶する単語標準ノ（ターンメモリ、９
は単語全体での類似度を評価する認識部である。

以上のように構成された音声認識装置について、以下そ
の動作を説明する。

まず、入力音声は音響分析部１で分析される。

分析方法は従来から行なわれているもののいずれでもよ
いが、本実施例では線形予測分析法を用いる。また対象
音声が電話帯域に限られている場合であれば、演算量の
最小化と認識性能の最大化との両方を満たすものとして
８ＫＨ２，１２ビツトの標本童子化を行なった後、１０
〜２０　ｍｔｉ６０のフレーム間隔毎に１０次の線形予
測分析を行ない、ＬＰＣケプストラム係数（Ｇ工、ｉ＝
１．２−１０）を得るのが望ましい。ＬＰＯケプストラ
ム係数に関しては文献「ディジタル　プロセン／フグ　
オフスピーチ’／グｆル」（Ｌ、Ｒ，Ｒａｂｉｎｅｒ。

Ｒ，Ｗ、５ｃｈａｆ’ｅｒ共著、　”Ｄｉｇｉｔａｌ　
Ｐｒｏｃｅｓｓｉｎｇｏｆ　５ｐｅｅｃｈ　Ｓｉｇｎａ
ｌｇ　”　）に詳しい説明がある。

要約すると、線形予測モデルＨ（ｚ）が第（７）式で与
えられるとき、ＬＰＧケプストラム係数Ｃ１は第（８）
式で与えられる。

以上のようにして得られた特徴パラメータは、フレーム
毎に第１図中のパラメータメモリ２に記憶されると共に
、判別計算部４に入力される。

判別計算部４では、線形判別関数を用いてフレーム毎に
人力音声の音韻識別を行ない、順次音韻列メモリ６に結
果を書き込む。線形判別関数については本明細書の従来
の技術の項で説明したので、ここでは省略する。また図
中、第１の係数メモリ３には任意の音韻対間での判別を
行なうための線形判別係数が記憶されており、これらの
係数は判別計算部４での処理に応じて適宜読み出される
。

ところで、通常の音声を本実施例で示した１゜〜２０　
ｍ５ｅｏ程度毎のフレームで音韻識別する場合、母音部
の音響的特性の定常性のため同一音韻が複数フレーム連
続して識別出力されるのが普通である。本実施例ではそ
の中から任意に一つの代表フレームを選び、これとフレ
ーム番号を同じくする前記特徴パラメータをパラメータ
メモリ２から読み出し、マ・・マノビス距離算出部７に
入力する。

一方、前記代表フレームでの音韻情報は音韻列メモリ６
から読み出されて第２の係数メモリ６へ人力され、ここ
に蓄えられている音韻別道行列の中から該当するものが
選び出されて、マノ・マノビス距離算出部７への第１の
人力となる。他方、前記代表フレームのフレーム番号情
報はパラメータメモリ２へも入力され、該当する特徴パ
ラメータがマハラノビス距離算出部７への第２の入力と
なる。マハラノビス距離算出部７は前記第１．第２の入
力を受け、前記第（２）式に従ってマノ・マノビス距離
を算出し、認識部９へ結果を出力する。前述したように
代表フレームは連続した同一音韻区間について、一つだ
け求まるので、マ／・マノビス距離算出部７での計算は
、従来例で述べたものより大幅に減少する。

最後に認識部９は、音韻列メモリ６からの毎フレームの
音韻列と、マノ・２ノビス距離算出部７からの毎代表フ
レームのマノ・マノビス距離と、単語標準パターンメモ
リ８からの単語標準ノ（ターンとを受け、単語全体での
総合類似度評価を行なって認識結果を出力する。総合類
似度評価に関しては種々の方法が考えられるが、本発明
ではその一実施例として、次の方法をとる。即ち単語標
準）くターンと音韻列とを用いて、音韻レベルのＤＰマ
ツチングをフレーム単位に行なって単語間距離を累積し
ていく際に、マツチングツシス上で人力音声の代表フレ
ーム位置において入力音声の音韻と標準パターンの音韻
が不一致のとき、前記マノ・ラノビス距離が小さい程、
大きな重みのかかった距離を累積する。マハラノビス距
離が小さい程該当フレームでの音韻識別結果は信頼性が
高い訳であるから、そこでの音韻クラスの不一致が単語
全体での距離増加に、より犬きく影響することになるの
は妥当な方法である。

以上のように本実施例によれば、ＬＰＣケプストラム係
数によるフレーム毎の音韻判別を所要計算量の比較的少
ない線形判別関数を用いて行なうと共に、音韻中心とし
て選んだ代表フレームに限って多量の計算量を必要とす
るマハラノビス距離算出を行なって、上記線形判別関数
のみによっては求めることのできない音韻類似度を算出
することができるため、大局的かつ定性的な単語全長に
わたる音韻列情報と、局所的かつ定量的な代表フレーム
での音韻距離情報とを、大局的かつ定量的な単語全長に
わたるＤＰマツチング演算の入力とすることができ、そ
の結果従来の技術になる音声認識装置に比べ、より高い
認識率を得ることができる音声認識装置を実現すること
ができる。

発明の効果以上のように本発明は、入力音声をフレーム毎に分析す
る音響分析部と、特徴パラメータを記憶するパラメータ
メモリと、線形判別係数の組を記憶する第１の係数メモ
リと、任意フレームの音韻判別を行なう判別計算部と、
音韻判別結果を記憶する音韻メモリと、音韻距離を算出
するための距離係数を記憶する第２の係数メモリと、音
韻距離算出部と、認識しようとする単語の標準的な音韻
列を記憶する単語標準パターンメモリと、単語全体での
類似度を評価する認識部とを設けることにより、計算量
の軽減と識別結果に信頼性を与えることのできる音韻識
別機能の保有という相反する２側面の要求を満たした、
高認識率の音声認識装置を提供することができる。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識装置のブロ
ック図、第２図は従来の音声認識装置のブロック図であ
る。１・・・・音響分析部、２・・・・パラメータメモリ、
３・・・・・第１の係数メモｌハ　４　・・・判別計算
部、６・・・・・・音韻列メモリ、６・川・第２の係数
メモリ、７・・・・・マハラノビス距離算出部、８・・
・・・単語標準パターンメモリ、９・・・・・・認識部
。

Claims

【特許請求の範囲】

（１）入力音声をフレーム毎に分析する音響分析部と、
前記音響分析部で得られた特徴パラメータを記憶するパ
ラメータメモリと、任意の音韻対間での音韻判別を行な
うため予め定められた線形判別係数の組を記憶する第１
の係数メモリと、前記パラメータメモリから得られる任
意フレームの特徴パラメータと前記第１の係数メモリか
ら得られる線形判別係数とを用いて前記任意フレームの
音韻判別を行なう判別計算部と、前記判別計算部の判別
結果を記憶する音韻列メモリと、任意のフレームと標準
音韻との間の音韻距離を算出するため音韻毎に予め定め
られた距離係数を記憶する第２の係数メモリと、任意の
フレームと標準音韻との間の音韻距離を算出する音韻距
離算出部と、認識しようとする単語の標準的な音韻列を
記憶する単語標準パターンメモリと、単語全体での類似
度を評価する認識部とを具備し、前記音韻列メモリ中に
同一音韻が連続して書き込まれているとき、その中から
任意に選んだ代表フレームとフレーム番号を同じくする
前記特徴パラメータを前記パラメータメモリ中から選び
、一方、前記判別計算部により判別された音韻に対応し
て前記第２の係数メモリから該当する別の音韻距離係数
を選び、以上のようにして選ばれた二者によって前記代
表フレームにおける代表音韻距離を計算し、前記音韻列
メモリから得られる音韻列と、前記音韻距離算出部から
得られる代表音韻距離と、前記単語標準パターンメモリ
から得られる単語の標準的な音韻列とを用いて単語認識
を行なうことを特徴とする音声認識装置。
（２）第２の係数メモリは、任意のフレームと標準音韻
との間のマハラノビス距離を算出するため音韻毎に予め
定められた音韻別共分散行列の逆行列の組を記憶する逆
行列メモリであり、音韻距離計算部はマハラノビス距離
算出部であることを特徴とする特許請求の範囲第１項記
載の音声認識装置。