JPH067352B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH067352B2
JPH067352B2 JP60003536A JP353685A JPH067352B2 JP H067352 B2 JPH067352 B2 JP H067352B2 JP 60003536 A JP60003536 A JP 60003536A JP 353685 A JP353685 A JP 353685A JP H067352 B2 JPH067352 B2 JP H067352B2
Authority
JP
Japan
Prior art keywords
phoneme
calculation unit
input
word
mahalanobis distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60003536A
Other languages
English (en)
Other versions
JPS61162099A (ja
Inventor
正宏 浜田
明寿 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP60003536A priority Critical patent/JPH067352B2/ja
Publication of JPS61162099A publication Critical patent/JPS61162099A/ja
Publication of JPH067352B2 publication Critical patent/JPH067352B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明はフレーム毎の音響分析と音韻識別とを行なう音
声認識装置に関するものである。
従来の技術 近年、音声認識装置の性能向上に関する試みは盛んに行
なわれており、線形判別関数による音韻識別を用いた音
声認識装置もその対象の一つとなっている。
従来の技術としては、例えば、特開昭59−13199
9号公報に示されているように音声の特徴パラメータに
対しベイズ判定に基づく距離、マハラノビス距離、線形
判別関数などの統計的距離尺度を適用し、これによって
入力音声の認識を行なおうとするものがある。
以下図面を参照しながら、上述したような従来の音声認
識装置について説明を行なう。
第2図は従来の音声認識装置を示すものである。第2図
において、1は音響分析部、12は係数メモリ、3は判
別係数部、6は単語標準パターンメモリ、7は認識部で
ある。
以上のように構成された音声認識装置について、以下そ
の動作について説明する。
入力音声は音響分析部1へ送られ、ここで5〜30mse
c程度の微少時間毎(以下これをフレームと呼ぶ)に分
析され、特徴パラメータベクトルに変換される。分析方
法としては線形予測(LPC)分析法が多く、特徴パラメー
タとしてはLPCケプストラム係数が利用されることが
多い。これらのパラメータベクトルは判別計算部3へ入
力される。一方、係数モメリ12には後に述べる方法で
統計的距離尺度を算出する際に必要となる各種の係数が
予め記憶されており、これらの係数も判別計算部3へ入
力される。判別計算部3は前記の二つの入力を受け、統
計的距離尺度を計算し、該当フレームの音韻を識別す
る。上記のような処理はフレーム毎になされ、得られた
音韻列は認識部7に送られる。ここでは、単語標準パタ
ーンメモリ6から得られる標準パターンと前記音韻列と
の間で単語間距離の総合評価を行ない、入力音声に最も
近い単語標準パターンをもって入力音声の認識結果とす
る。
前述した統計的距離尺度については、前述の公報におい
て、次のように説明されている。
音韻jに対する標準パターンとして、その平均 をとり、未知入力フレームのパラメータ列ベクトルを とすると、ベイズ判定は第(1)式を最大とする音韻を識
別結果とすることに対応する。ただし、nはベクトルの
次数, 添字Tは転置を表わす。
また、マハラノビス距離は第(2)式で与えられ、第(2)式
を最小とする音韻が識別結果となる。
また、線形判別関数は第(3)式で与えられ、第(3)式の左
辺の値が正であれば未知入力は音韻uに、負であれば音
韻vに属する。ただし、 は音韻uと音韻vとを判別するための線形判別係数列ベ
クトルであり、bu/vは同線形判別係数の定数項である。
発明が解決しようとする問題点 しかしながら上記のような構成では、統計的距離尺度の
算出に要する計算量が多大である,あるいは音韻識別の
結果に対する信頼度が不明なため以降の単語単位での類
似度評価に確実性が乏しい、等の問題点があった。即
ち、前記第(1)式あるいは第(2)式の尺度に依る場合は なる行列とマトリックスとの積を全ての音韻jに対して
フレーム毎に計算せねばならず、これに要する演算量は
乗算回数のみをとっても第(5)式のごとく多大である。
従ってこれを実現する装置は高速かつ大規模なものが要
求されるという問題点を有していた。
一方前記第(3)式の尺度による場合は、乗算回数は第(6)
式のごとく少量で済む反面、判別の結果だけでは未知入
力フレームが相対的にどの音韻に属するかが示されるだ
けであり、音韻標準パターンとの距離、言い換えれば音
韻識別の信頼性に関する指数は得られない。このため第
2図の認識部7で、単語標準パターン6との音韻類似度
の総合評価を行なう際に、音韻識別の信頼性の高いフレ
ームと低いフレームとが同じ重みで評価され、ひいては
最終の単語認識率が引き下げられるという問題点を有し
ていた。
本発明は上記問題点に鑑み、計算量の軽減と、識別結果
に信頼性を与えることのできる音韻識別機能の保有との
相反する二側面の要求を満たした、高認識率の音声認識
装置を提供するものである。
問題点を解決するための手段 上記問題点を解決するために本発明の音声認識装置は、
入力音声をフレーム毎に分析して特徴パラメータを得る
音響分析部と、線形判別係数の組を記憶する第1の係数
メモリと、任意フレームの音韻判別を行なう判別計算部
と、音韻別に予め定められた特徴パラメータ平均ベクト
ルと共分散行列の逆行列とを記憶する第2の係数メモリ
と、マハラノビス距離算出部と、認識しようとする単語
の標準的な音韻列を記憶する単語標準パターンメモリ
と、単語全体での距離を評価する認識的とを具備した構
成になっている。
作用 本発明は上記した構成により、次のような作用に基いて
前記従来の問題点の解消を図っている。
入力音声は音響分析部で特徴パラメータベクトルに変換
され、マハラノビス距離算出部と判別計算部とに入力さ
れる。第1の係数メモリ中の線形判別係数も判別計算部
に入力され、ここで前記特徴パラメータベクトルとの間
で一対の音韻の組ごとに線形判別関数が計算され、得ら
れた音韻列は第2の係数メモリと認識部とに入力され
る。なお、ここで線形判別関数計算に要する計算量は、
第(6)式で示したように少量で済む。さらに第2の係数
メモリに入力された音韻列情報に基いて、ここに蓄えら
れている音韻別の特徴パラメータ平均ベクトルと共分散
行列の逆行列との組のうち該当するものが選び出されて
前記マハラノビス距離算出部へ入力される。マハラノビ
ス距離算出部は上記の二つの入力を受け、入力音声と、
これが属すると判別された音韻の標準的パターンとの間
の第1候補音韻距離を算出する。この際の距離算出作業
は前記判別計算部で識別された唯一の候補音韻について
のみ行なえばよく、全体としての計算量は第(5)式で示
した従来例より大幅な削減が期待できる。最後に認識部
は、前記判別計算部からの音韻列と、前記マハラノビス
距離算出部からフレーム毎の第1候補音韻距離と、単語
標準パターンメモリからの単語標準パターンとを受け、
単語全体での総合距離評価を行なって認識結果を出力す
る。
実施例 以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。第1は本発明の一実施例を示す
ものである。
第1図において、1は入力音声をフレーム毎に分析する
音響分析部、2は線形判別係数の組を記憶する第1の係
数メモリ、3は任意フレームの音韻判別を行なう判別計
算部、4は音韻別に予め定められた特徴パラメータ平均
ベクトルと共分散行列の逆行列とを記憶する第2の係数
メモリ、5はマハラノビス距離算出部、6は認識しよう
とする単語の標準的な音韻列を記憶する単語標準パター
ンメモリ、7は単語全体での距離を評価する認識部であ
る。
以上のように構成された音声認識装置について、以下そ
の動作を説明する。まず入力音声は音響分析部1の分析
される。分析方法は従来から行なわれている方法のいず
れでもよいが、本実施例では線形予測分析法を用いる。
対象音声が電話帯域に限られているのであれば、演算量
の最小化と認識性能の最大化との両方を満たすものとし
て、8KHz、12ビットの標本量子化を行なった後、1
0〜20msecのフレーム間隔毎に10次の線形予測分
析を行ない。LPCケプストラム係数Ci(i=1,2,
……,10)を得るのが望ましい。LPCケプストラム
係数に関しては文献「ディジタルプロセッシングオブス
ピーチシグナル」(L.R.Rabiner R.W.Schafer共著“Digi
tal Processing of Speech Signals")に詳しい説明があ
る。要約すると、線形予測モデルH(z)が第1(7)式で与
えられるとき、Ciは第(8)式で与えられる。
以上のようにして得られた特徴パラメータベクトル {Ci}=(C1,C2,……,C10) ……(9) は、フレーム毎に第1図中の判別計算部3への入力と、
マハラノビス距離算出部5への第2の入力となる。
同図中、判別計算部3では、線形判別関数を用いてフレ
ーム毎に入力音声の音韻識別を行ない、その結果得られ
た第1候補音韻を第2の係数メモリ4と認識部7とに入
力される。線形判別関数については本明細書中の従来の
技術の項で説明したものと同様の方法で扱われるので、
ここでは説明を省略する。なお図中第1の係数メモリ2
には任意の音韻対間での判別を行なうための線形判別係
が記憶されており、これらの係数は判別計算部3での必
要に応じて適宜読み出される。
一方、第2の係数メモリ4は判別計算部3から入力され
た前記音韻列に基いて、該当する音韻別の特徴パラメー
タ平均ベクトル と共分散行列の逆行列 とを選び出し、これをマハラノビス距離算出部5への第
1の入力とする。マハラノビス距離算出部5は前記の第
1の入力と第2の入力とを受け、第(2)式に従ってマハ
ラノビス距離djを算出し、これを第1候補音韻距離とし
て認識部7に入力する。ここに第(2)式の列ベクトル の各要素は第(9)式のCiの各要素が代入されたものであ
る。
ところで第(2)式による距離算出は、判別計算部3で決
定されたフレーム当たり唯一の音韻に対して行なわれる
ので、これに要する乗算回数は第(5)式と異なる。即
ち、1フレーム当たり1回だけ第(4)式を計算すればよ
いので、これに要する乗算回数は次の第(10)式で表わさ
れる。
従って本実施例の音韻識別における所要乗算量の合計
は、1フレーム当たり次の第(11)式で示される。第(11)
式のn(J−1)は第1図中判別計算部3で行なわれる
線形判別関数算出に際する所要量,第(11)式のn(n+
1)はマハラノビス距離算出部5で所要量である。
以上でみた乗算回数をまとめると次表のようになる。
本実施例による計算量削減の効果は、乗算回数の比較か
らも明らかである。
最後に認識部7は、判別計算部3から得られる音韻列
と、マハラノビス距離算出部5から得られる第1候補音
韻距離と、単語標準パターンメモリ6から得られる認識
対象単語の標準的な音韻列とを用いて、単語全体での総
合距離評価を行なって認識結果を出力する。総合距離評
価に関しては種々の方法が考えられるが、本発明ではそ
の一実施例として次の方法をとる。即ち、単語標準パタ
ーンの音韻列と入力音声の音韻列とを用いて音韻レベル
のDPマッチングをフレーム単位に行なうことにより単
語間距離を累積していく際に、マッチングパス上で入力
音声の代表フレーム位置において前記両音韻が不一致の
とき、該当のフレームの第1候補音韻距離が小さい程、
大きな重みのかかった距離を累積する。マハラノビス距
離が小さい程該当フレームでの音韻識別結果は信頼性が
高い訳であるから、そこでの音韻クラスの不一致が単語
全体での距離増加に、より大きく影響することになるの
は妥当な方法である。
以上のように本実施例によれば、LPCケプストラム係
数によるフレーム毎の音韻判別を所要計算量の少ない線
形判別関数を用いて行ない、これだけでは識別された音
韻の確からしさが不明であるので、第1候補音韻である
と判別された音韻に限って多量の計算量を必要とするマ
ハラノビス距離算出を行なって音韻距離を求めることに
より、音韻レベルでのDPマッチングの際に音韻識別の
信頼性をも考慮した距離評価ができ、その結果従来より
高い認識率の音声認識装置を実現することができる。
発明の効果 以上のように本発明になる音声認識装置は、入力音声を
フレーム毎に分析して特徴パラメータを得る音響分析手
段と、音韻識別のための線形判別係数の組を記憶する第
1の係数メモリと、音韻判別を行なう判別計算部と、音
韻別に予め定められた特徴パラメータ平均ベクトルと共
分散行列の逆行列とを記憶する第2の係数メモリと、マ
ハラノビス距離算出部と、認識しようとする単語の標準
的な音韻列を記憶する単語標準パターンメモリと、単語
全体での距離を評価する認識部とを具備したことによ
り、少ない計算量で音韻識別と前記音韻識別の信頼性評
価との両方ができ、その結果、従来より高い認識率を得
ることができる。
【図面の簡単な説明】
第1図は本発明の一実施例における音声認識装置のブロ
ック図、第2図は従来の音声認識装置のブロック図であ
る。 1……音響分析部、2……第1の係数メモリ、3……判
別計算部、4……第2の係数メモリ、5……マハラノビ
ス距離算出部、6……単語標準パターンメモリ、7……
認識部。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力音声をフレーム毎に分析して特徴パラ
    メータを得る音響分析部と、任意の音韻対間での音韻判
    別を行なう目的で予め定められた線形判別係数の組を記
    憶する第1の係数メモリと、前記音響分析部から得られ
    る任意フレームの特徴パラメータと前記第1の係数メモ
    リから得られる線形判別係数とを用いて前記任意フレー
    ムの音韻判別を行ない、判別された音韻列を出力する判
    別計算部と、任意のフレームと標準音韻との間のマハラ
    ノビス距離を算出する目的で音韻別に予め定められた特
    徴パラメータ平均ベクトルと共分散行列の逆行列とを記
    憶する第2の係数メモリと、マハラノビス距離算出部
    と、認識しようとする単語の標準的な音韻列を記憶する
    単語標準パターンメモリと、単語全体での距離を評価す
    る認識部とを具備し、前記判別計算部から得られるフレ
    ーム毎の音韻列に対応して前記第2の係数メモリから該
    当する音韻別の特徴パラメータ平均ベクトルと共分散行
    列の逆行列とを選び出しこれを前記マハラノビス距離算
    出部に対する第1の入力とし、一方、前記音響分析部か
    ら得られるフレーム毎の特徴パラメータを前記マハラノ
    ビス距離算出部に対する第2の入力とし、同一時刻のフ
    レームで発生した前記第1の入力と第2の入力との間で
    求められたマハラノビス距離を第1候補音韻距離として
    前記マハラノビス距離算出部から出力し、前記認識部に
    おいて前記判別計算部から得られる音韻列と、前記マハ
    ラノビス距離算出部から得られる第1候補音韻距離と、
    前記単語標準パターンメモリから得られる単語の標準的
    な音韻列とを用いて単語認識を行なうことを特徴とする
    音声認識装置。
JP60003536A 1985-01-11 1985-01-11 音声認識装置 Expired - Lifetime JPH067352B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60003536A JPH067352B2 (ja) 1985-01-11 1985-01-11 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60003536A JPH067352B2 (ja) 1985-01-11 1985-01-11 音声認識装置

Publications (2)

Publication Number Publication Date
JPS61162099A JPS61162099A (ja) 1986-07-22
JPH067352B2 true JPH067352B2 (ja) 1994-01-26

Family

ID=11560119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60003536A Expired - Lifetime JPH067352B2 (ja) 1985-01-11 1985-01-11 音声認識装置

Country Status (1)

Country Link
JP (1) JPH067352B2 (ja)

Also Published As

Publication number Publication date
JPS61162099A (ja) 1986-07-22

Similar Documents

Publication Publication Date Title
EP0492470B1 (en) Method of speech recognition
US5167004A (en) Temporal decorrelation method for robust speaker verification
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
US7957959B2 (en) Method and apparatus for processing speech data with classification models
EP1269464B1 (en) Discriminative training of hidden markov models for continuous speech recognition
EP0686965B1 (en) Speech recognition apparatus with speaker adaptation using acoustic category mean value calculus
EP0617827B1 (en) Composite expert
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
US4937870A (en) Speech recognition arrangement
JP4666129B2 (ja) 発声速度正規化分析を用いた音声認識装置
Thomson et al. Use of periodicity and jitter as speech recognition features
US6055499A (en) Use of periodicity and jitter for automatic speech recognition
JPH067352B2 (ja) 音声認識装置
JPH067353B2 (ja) 音声認識装置
JPH0772899A (ja) 音声認識装置
JPS6336678B2 (ja)
JPS6136797A (ja) 音声セグメンテ−シヨン法
JPH0619497A (ja) 音声認識方法
JPH1055195A (ja) 音声認識による話者特徴判別方法
Somervuo Speech Recognition using context vectors and multiple feature streams
JPH07281692A (ja) 音声認識装置
JP3293191B2 (ja) 音声認識装置
JP3412501B2 (ja) タスク適応化装置及び音声認識装置
JPH071440B2 (ja) 特徴パターン作成方式
JPH0344320B2 (ja)