JPS61162100A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS61162100A
JPS61162100A JP60003537A JP353785A JPS61162100A JP S61162100 A JPS61162100 A JP S61162100A JP 60003537 A JP60003537 A JP 60003537A JP 353785 A JP353785 A JP 353785A JP S61162100 A JPS61162100 A JP S61162100A
Authority
JP
Japan
Prior art keywords
phoneme
memory
distance
frame
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60003537A
Other languages
English (en)
Other versions
JPH067353B2 (ja
Inventor
正宏 浜田
明寿 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP60003537A priority Critical patent/JPH067353B2/ja
Publication of JPS61162100A publication Critical patent/JPS61162100A/ja
Publication of JPH067353B2 publication Critical patent/JPH067353B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明はフレーム毎の音響分析と音韻識別とを行なう音
声認識装置に関するものである。
従来の技術 近年、音声認識装置の性能向上に関する試みは盛んに行
なわれており、線形判別関数による音韻識別を用いた音
声認識装置もその対象の一つとなっている。
従来の技術としては、例えば、特開昭59−13199
9号公報に示されているように、音声の特徴パラメータ
に対しベイズ判定に基づく距離。
マハラノビス距離、線形判別関数などの統計的距離尺度
を適用し、これによって入力音声の認識を行なおうとす
るものがある。
以下図面を参照しながら、上述したような従来の音声認
識装置について説明を行なう。
第2図は従来の音声認識装置を示すものである。
第2図において、1は音響分析部、13は係数メモリ、
4は判別計算部、8は単語標準パターンメモリ、9は認
識部である。
以上のように構成された音声認識装置について。
以下その動作について説明する。
入力音声は音響分析部1へ送られ、ここで6〜3o m
5ec程度の微少時間毎(以下これをフレームと呼ぶ〕
に分析され、特徴パラメータに変換される。分析方法と
しては線形予測(LPG)分析法がよく利用され、特徴
パラメータとしては、LPGケプストラム係数がよく利
用される。これらのパラメータは判別計算部4へ人力さ
れる。
一方、係数メモリ13中には後に述べる方法で統計的距
離尺度を算出する際に必要となる各種の係数が予め記憶
されており、これらの係数も判別計算部4へ入力される
。判別計算部4は前記の二つの入力を受け、統計的距離
尺度を計算し、該当フレームの音韻を識別する。上記の
ような処理はフレーム毎になされ、得られた音韻列は認
識部9に送られる。ここでは、単語標準パターンメモリ
8から得られる標準パターンと前記音韻列との間で類似
度の総合評価を行ない、入力音声に最も近い単語標準パ
ターンをもって、入力音声の認識結果とする。
前述した統計的距離尺度については、前述の公報におい
て、次のように説明されている。
音韻jに対する標準パターンとして、その平均値列ベク
トルp 、共分散行列\W:l をとり、未知コ 入力フレームのパラメータ列ベクトルをLとすると、ベ
イズ判定は第(1)式を最大とする音韻を識別結果とす
ることに対応する。ただしnはベクトルの次数1\W1
は行列式の値、畜 は逆行列、添字では転置を表わす。
’j”   −(z−μコ )   −J    −C
r、−tttコ )#ogθ9   上 ((2π)  ・ 1\Wコ 1  )       
            ・・・・・・(1)また、マ
ハラノビス距離は第(2)式で与えられ、第(2)式を
最小とする音韻が識別結果となる。
d−(zニーμ )・W・ ・(r、−/ltl   
  ・・・・・・(2)フコココ また、線形判別関数は第(3)式で与えられ、第(3)
式の左辺の値が正であれば未知入力は音韻Uに、負であ
れば音韻Vに属する。ただし、&u/7 は音韻Uと音
韻マとを判別するための線形判別係数列ベクトルであり
、bu / v  は同じく音韻Uと音fivとを判別
するための定数である。
Ku/v=bu/v+&u/v’に       ・・
・・・・(3)発明が解決しようとする問題点 しかしながら上記のような構成では、統計的距離尺度の
算出に要する計算量が多大である、あるいは音韻識別の
結果に対する信頓度が不明なため以降の単語単位での類
似度評価に確実性が乏しい等の問題点があった。即ち、
前記第(1)式あるいは第(2)式の尺度に依る場合は (X−μ・)・町 ・(I−μj)     ・・・・
・・(4)コ なる行列とマトリックスとの積を全ての音韻jに対して
フレーム毎に計算せねばならず、これに要する演算量は
乗算回数のみをとっても第(5)式のととく多大である
。従ってこれを実現する装置は高速かつ大規模なものが
要求されるという問題点を有していた。
乗算回数: m=n−(n+1)−J−L    −=
(6)また前記第(3)式の尺度に依る場合は、乗算の
回数は第(6)式のごとく少量で済む。
乗算回数: m=n・(J−1)・L     ・・・
・(6)しかしながら判別の結果だけでは未知入力フレ
ームがどの音韻に属するかが示されるだけであり、音韻
標準パターンとの距離、言い換えれば音韻識別の信頼性
に関する指数は得られない。このため、第2図の認識部
ので、単語標準パターンメモリ8との音韻類似度総合評
価を行なう際に、音韻識別の信頼性の高いフレームと低
いフレームとが同じ重みで評価され、ひいては最終の単
語認識率が引き下げられるという問題点を有していた。
本発明は上記問題点に鑑み、計算量の軽減と識別結果に
信頼性を与えることのできる音韻識別機能の保有という
相反する2側面の要求を満たした、高認識率の音声認識
装置を提供するものである。
問題点を解決するための手段 上記問題点を解決するために本発明の音声認識装置は、
人力音声をフレーム毎に分析する音響分析部と、特徴パ
ラメータを記憶するパラメータメモリと、線形判別係数
の組を記憶する第1の係数メモリと、任意フレームの音
韻判別を行なう判別計算部と、前記音韻判別結果を記憶
する音韻メモリと、音韻距離算出のだめの距離係数を記
憶する第2の係数メモリと、音韻距離算出部と、認識し
ようとする単語の標準的な音韻列を記憶する単語標準パ
ターンメモリと、単語全体での類似度を評価する認識部
とを具備した構成になっている。
作用 本発明は上記した構成により、次のような作用に基いて
前記従来の問題点の解消を図っている。
入力音声は音響分析部で特徴パラメータに変換され、パ
ラメータメモリにフレーム毎に記憶される。また前記特
徴パラメータは判別計算部に入力される。一方、第1の
係数メモリ中の線形判別係数°も判別計算部に入力され
、ここで前記特徴、+ラメータとの間で一対の音韻の組
ごとに線形判別関数が計算され、音韻列メモリにフレー
ム毎に記憶される。ここで線形判別関数計算に要する計
算量は、第(6)式で示したように少量で済む。
さらに前記音韻列メモリ中に書き込まれた音韻列におい
て同一音韻が連続して現われているとき、その中から任
意に一つの代表フレームを選び、これとフレーム番号を
同じくする前記特徴ノくラメータを前記パラメータメモ
リから読み出し、音韻距離算出部に入力する。
一方、前記代表フレームの音韻情報は第2の係数メモリ
へ入力され、ここに蓄えられている音韻別の距離係数の
うち該当するものが選び出されて前記音韻距離算出部へ
人力される。前記音韻距離算出部は上記の二つの入力を
受け、両者間の音韻距離を算出する。通常の音声では母
音定常部において、同一音韻が長く連続するので、この
区間についての代表フレームは1つだけとなり、前記音
韻距離算出部での計算は、各フレーム毎に実行する必要
がなくなる。このため、全体の計算量は従来例より大幅
な減少が期待できる。
最後に認識部は、前記音韻列メモリからの毎フレームの
音韻列と、前記音韻距離算出部からの毎代表フレームの
音韻距離と、単語標準パターンメモリからの単語標準パ
ターンとを受け、単語全体での総合類似度評価を行なっ
て認識結果を出力する。
実施例 以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。第1図は本発明の一実施例を示
すものである。第1図において、1は入力音声をフレー
ム毎に分析する音響分析部、2は音響分析部1で得られ
た特徴パラメータを記憶するパラメータメモリ、3は線
形判別係数の組を記憶する第1の係数メモリ、4は任意
フレームの音韻判別を行なう判別計算部、5は前記音韻
判別結果を記憶する音韻列メモリ、6は音韻別共分散行
列の逆行列の組を記憶する第2の係数メモリ、7はマノ
・ラノピス距離算出部、8は認識しようとする単語の標
準的な音韻列を記憶する単語標準ノ(ターンメモリ、9
は単語全体での類似度を評価する認識部である。
以上のように構成された音声認識装置について、以下そ
の動作を説明する。
まず、入力音声は音響分析部1で分析される。
分析方法は従来から行なわれているもののいずれでもよ
いが、本実施例では線形予測分析法を用いる。また対象
音声が電話帯域に限られている場合であれば、演算量の
最小化と認識性能の最大化との両方を満たすものとして
8KH2,12ビツトの標本童子化を行なった後、10
〜20 mti60のフレーム間隔毎に10次の線形予
測分析を行ない、LPCケプストラム係数(G工、i=
1.2−10)を得るのが望ましい。LPOケプストラ
ム係数に関しては文献「ディジタル プロセン/フグ 
オフスピーチ’/グfル」(L、R,Rabiner。
R,W、5chaf’er共著、 ”Digital 
Processingof 5peech Signa
lg ” )に詳しい説明がある。
要約すると、線形予測モデルH(z)が第(7)式で与
えられるとき、LPGケプストラム係数C1は第(8)
式で与えられる。
以上のようにして得られた特徴パラメータは、フレーム
毎に第1図中のパラメータメモリ2に記憶されると共に
、判別計算部4に入力される。
判別計算部4では、線形判別関数を用いてフレーム毎に
人力音声の音韻識別を行ない、順次音韻列メモリ6に結
果を書き込む。線形判別関数については本明細書の従来
の技術の項で説明したので、ここでは省略する。また図
中、第1の係数メモリ3には任意の音韻対間での判別を
行なうための線形判別係数が記憶されており、これらの
係数は判別計算部4での処理に応じて適宜読み出される
ところで、通常の音声を本実施例で示した1゜〜20 
m5eo程度毎のフレームで音韻識別する場合、母音部
の音響的特性の定常性のため同一音韻が複数フレーム連
続して識別出力されるのが普通である。本実施例ではそ
の中から任意に一つの代表フレームを選び、これとフレ
ーム番号を同じくする前記特徴パラメータをパラメータ
メモリ2から読み出し、マ・・マノビス距離算出部7に
入力する。
一方、前記代表フレームでの音韻情報は音韻列メモリ6
から読み出されて第2の係数メモリ6へ人力され、ここ
に蓄えられている音韻別道行列の中から該当するものが
選び出されて、マノ・マノビス距離算出部7への第1の
人力となる。他方、前記代表フレームのフレーム番号情
報はパラメータメモリ2へも入力され、該当する特徴パ
ラメータがマハラノビス距離算出部7への第2の入力と
なる。マハラノビス距離算出部7は前記第1.第2の入
力を受け、前記第(2)式に従ってマノ・マノビス距離
を算出し、認識部9へ結果を出力する。前述したように
代表フレームは連続した同一音韻区間について、一つだ
け求まるので、マ/・マノビス距離算出部7での計算は
、従来例で述べたものより大幅に減少する。
最後に認識部9は、音韻列メモリ6からの毎フレームの
音韻列と、マノ・2ノビス距離算出部7からの毎代表フ
レームのマノ・マノビス距離と、単語標準パターンメモ
リ8からの単語標準ノ(ターンとを受け、単語全体での
総合類似度評価を行なって認識結果を出力する。総合類
似度評価に関しては種々の方法が考えられるが、本発明
ではその一実施例として、次の方法をとる。即ち単語標
準)くターンと音韻列とを用いて、音韻レベルのDPマ
ツチングをフレーム単位に行なって単語間距離を累積し
ていく際に、マツチングツシス上で人力音声の代表フレ
ーム位置において入力音声の音韻と標準パターンの音韻
が不一致のとき、前記マノ・ラノビス距離が小さい程、
大きな重みのかかった距離を累積する。マハラノビス距
離が小さい程該当フレームでの音韻識別結果は信頼性が
高い訳であるから、そこでの音韻クラスの不一致が単語
全体での距離増加に、より犬きく影響することになるの
は妥当な方法である。
以上のように本実施例によれば、LPCケプストラム係
数によるフレーム毎の音韻判別を所要計算量の比較的少
ない線形判別関数を用いて行なうと共に、音韻中心とし
て選んだ代表フレームに限って多量の計算量を必要とす
るマハラノビス距離算出を行なって、上記線形判別関数
のみによっては求めることのできない音韻類似度を算出
することができるため、大局的かつ定性的な単語全長に
わたる音韻列情報と、局所的かつ定量的な代表フレーム
での音韻距離情報とを、大局的かつ定量的な単語全長に
わたるDPマツチング演算の入力とすることができ、そ
の結果従来の技術になる音声認識装置に比べ、より高い
認識率を得ることができる音声認識装置を実現すること
ができる。
発明の効果 以上のように本発明は、入力音声をフレーム毎に分析す
る音響分析部と、特徴パラメータを記憶するパラメータ
メモリと、線形判別係数の組を記憶する第1の係数メモ
リと、任意フレームの音韻判別を行なう判別計算部と、
音韻判別結果を記憶する音韻メモリと、音韻距離を算出
するための距離係数を記憶する第2の係数メモリと、音
韻距離算出部と、認識しようとする単語の標準的な音韻
列を記憶する単語標準パターンメモリと、単語全体での
類似度を評価する認識部とを設けることにより、計算量
の軽減と識別結果に信頼性を与えることのできる音韻識
別機能の保有という相反する2側面の要求を満たした、
高認識率の音声認識装置を提供することができる。
【図面の簡単な説明】
第1図は本発明の一実施例における音声認識装置のブロ
ック図、第2図は従来の音声認識装置のブロック図であ
る。 1・・・・音響分析部、2・・・・パラメータメモリ、
3・・・・・第1の係数メモlハ 4 ・・・判別計算
部、6・・・・・・音韻列メモリ、6・川・第2の係数
メモリ、7・・・・・マハラノビス距離算出部、8・・
・・・単語標準パターンメモリ、9・・・・・・認識部

Claims (2)

    【特許請求の範囲】
  1. (1)入力音声をフレーム毎に分析する音響分析部と、
    前記音響分析部で得られた特徴パラメータを記憶するパ
    ラメータメモリと、任意の音韻対間での音韻判別を行な
    うため予め定められた線形判別係数の組を記憶する第1
    の係数メモリと、前記パラメータメモリから得られる任
    意フレームの特徴パラメータと前記第1の係数メモリか
    ら得られる線形判別係数とを用いて前記任意フレームの
    音韻判別を行なう判別計算部と、前記判別計算部の判別
    結果を記憶する音韻列メモリと、任意のフレームと標準
    音韻との間の音韻距離を算出するため音韻毎に予め定め
    られた距離係数を記憶する第2の係数メモリと、任意の
    フレームと標準音韻との間の音韻距離を算出する音韻距
    離算出部と、認識しようとする単語の標準的な音韻列を
    記憶する単語標準パターンメモリと、単語全体での類似
    度を評価する認識部とを具備し、前記音韻列メモリ中に
    同一音韻が連続して書き込まれているとき、その中から
    任意に選んだ代表フレームとフレーム番号を同じくする
    前記特徴パラメータを前記パラメータメモリ中から選び
    、一方、前記判別計算部により判別された音韻に対応し
    て前記第2の係数メモリから該当する別の音韻距離係数
    を選び、以上のようにして選ばれた二者によって前記代
    表フレームにおける代表音韻距離を計算し、前記音韻列
    メモリから得られる音韻列と、前記音韻距離算出部から
    得られる代表音韻距離と、前記単語標準パターンメモリ
    から得られる単語の標準的な音韻列とを用いて単語認識
    を行なうことを特徴とする音声認識装置。
  2. (2)第2の係数メモリは、任意のフレームと標準音韻
    との間のマハラノビス距離を算出するため音韻毎に予め
    定められた音韻別共分散行列の逆行列の組を記憶する逆
    行列メモリであり、音韻距離計算部はマハラノビス距離
    算出部であることを特徴とする特許請求の範囲第1項記
    載の音声認識装置。
JP60003537A 1985-01-11 1985-01-11 音声認識装置 Expired - Lifetime JPH067353B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60003537A JPH067353B2 (ja) 1985-01-11 1985-01-11 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60003537A JPH067353B2 (ja) 1985-01-11 1985-01-11 音声認識装置

Publications (2)

Publication Number Publication Date
JPS61162100A true JPS61162100A (ja) 1986-07-22
JPH067353B2 JPH067353B2 (ja) 1994-01-26

Family

ID=11560149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60003537A Expired - Lifetime JPH067353B2 (ja) 1985-01-11 1985-01-11 音声認識装置

Country Status (1)

Country Link
JP (1) JPH067353B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9909526B2 (en) 2009-08-27 2018-03-06 Federal-Mogul Llc Monobloc piston with a low friction skirt

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9909526B2 (en) 2009-08-27 2018-03-06 Federal-Mogul Llc Monobloc piston with a low friction skirt

Also Published As

Publication number Publication date
JPH067353B2 (ja) 1994-01-26

Similar Documents

Publication Publication Date Title
Loizou et al. High-performance alphabet recognition
Zhan et al. Vocal tract length normalization for large vocabulary continuous speech recognition
Nwe et al. Detection of stress and emotion in speech using traditional and FFT based log energy features
EP1693826B1 (en) Vocal tract resonance tracking using a nonlinear predictor
Bocchieri et al. Discriminative feature selection for speech recognition
Hanani et al. Spoken Arabic dialect recognition using X-vectors
WO2020162238A1 (ja) 音声認識装置、音声認識方法、プログラム
Bharali et al. Speech recognition with reference to Assamese language using novel fusion technique
Picone et al. Automatic text alignment for speech system evaluation
Bhagath et al. Quadrilaterals based phoneme segmentation technique for low resource spoken languages
Meftah et al. A comparative study of different speech features for arabic phonemes classification
JPS61162100A (ja) 音声認識装置
Pandey et al. Keyword spotting in continuous speech using spectral and prosodic information fusion
JP4391179B2 (ja) 話者認識システム及び方法
JPH0772899A (ja) 音声認識装置
JPS61162099A (ja) 音声認識装置
JP3293191B2 (ja) 音声認識装置
JPH0333280B2 (ja)
JPH042197B2 (ja)
JPS63147198A (ja) 単語音声検出方式
JPS60129798A (ja) 音声認識方式
JPS61180298A (ja) 音声認識装置
JPS59133600A (ja) 音声認識装置
Tappert et al. An experimental technique for establishing lexical variants by rule in automatic recognition of continuous speech
Dixon et al. Some Problems in the Derivation of a Phonetic Referent for Evaluation and Lexical Representation in Automatic Recognition of Continuous Speech