JPH0572600B2

JPH0572600B2 -

Info

Publication number: JPH0572600B2
Application number: JP59115064A
Authority: JP
Inventors: Yumi Betsusho; Akyoshi Yamada; Masahiro Hamada
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1984-06-05
Filing date: 1984-06-05
Publication date: 1993-10-12
Also published as: JPS60258599A

Description

【発明の詳細な説明】産業上の利用分野本発明は、標準音声特徴パラメータと入力音声
特徴パラメータのマツチング処理を行う音声認識
装置に関するものである。

従来例の構成とその問題点現在の音声認識装置では、多くの装置が固定小
数点演算を行う必要があり、理論上ではオーバー
フローを起こさない演算が、固定小数点演算によ
る演算誤差のためにオーバーフローを起こし、正
しいパラメータ値が算出されない可能性がある。
このため、演算過程でオーバーフローを起こした
時はオーバーフローを起こしたフレームに関し
て、処理方法を考慮する必要がある。

以下、図面を参照しながら、従来の音声認識装
置について説明する。第１図は、従来の音声認識
装置のブロツク図である。第１図において、１は
音声信号入力端子、２は特徴抽出部、３は照合
部、４は認識部、５は認識結果を出力する出力端
子である。

以上のように構成された音声認識装置について
その動作を説明する。

まず、入力された音声信号を特徴抽出部２で線
形予測分析し、特徴パラメータを抽出する。たと
えば、分析次数10次、フレーム周期12msecフレ
ーム長24msecという条件で分析すれば、単位時
間ごとに10個のPARCOR係数と11個の線形予測
係数が算出される。さらに、特徴パラメータとし
てケプストラム係数を抽出する際には、以上によ
り算出された線形予測係数を用いてケプストラム
分析を行い、単位時間ごとに11個のケプストラム
係数を算出する。PARCOR係数ｋ、線形予測係
数ａ、及びケプストラム係数ｃの算出式を、それ
ぞれ、(1)式、(2)式、(3)式に示す。

K_o＝−W_o／U_u ……(1) 但し W_o＝W_o-1＋_o 〓ⁱ⁼¹ a^n-1 _i＊r_o-i+2 U_o＝U_o-1＋K_o-1＊W_o-1 ｒ：自己相関係数ｎ：次数 aⁿ _n＝a^n-1 _n＋K_o＊a^n-1 _o-n+2 ……(2) C_o＝−a_o−１／ｎ_o-1 〓ⁱ⁼¹ ｉ＊C_i＊a_o-i ……(3) 現在の装置で、固定小数点演算により以上の演
算を行うと、演算で扱われる個々の係数がオーバ
ーフローしていなくても、 (1)式内の _o 〓ⁱ⁼¹ a^n-1 _i＊r_o-i+2 (2)式内の _o 〓ⁱ⁼¹ ｉ＊C_i＊a_o-i で個々の係数の積を加算する際に加算過程でオー
バーフローする可能性が高い。例えば、有限語長
16ビツト、小数点以下15ビツトの固定小数点演算
を行つた場合は、特に上記 _o 〓ⁱ⁼¹ a^n-1 _i＊r_o-i+2 でオーバーフローを起こす確率が高いことが確か
められている。このようにオーバーフローが生じ
た時には、オーバーフローを起こした係数より高
次の係数の演算は行れない。つまりオーバーフロ
ーを起こしたフレームに関しては、オーバーフロ
ーを起こした係数より低次の係数だけ算出され、
高次の係数は零となる。

次に照合部３では、以上で抽出された音声区間
分のケプストラム係数を用いて、標準音声パター
ンと入力音声パターンをマツチングする。たとえ
ば、ケプストラム係数の市街地距離でDPマツチ
ングする際には、市街地距離算出式は(4)式とな
る。

Ｄ＝＊_M 〓^j=1 _N 〓ⁱ⁼¹ ｜C^R _ij−C^I _ij｜ ……(4) 但し C^R：標準音声のケプストラム係数 C^I：入力音声のケプストラム係数Ｎ：分析次数Ｍ：全フレーム数Ｄ：市街地距離次に認識部４で、以上で求められた市街地距離
値のうち、最短距離を示す標準音声を認識結果と
して出力する。

しかしながら、上記の従来の構成では、オーバ
ーフローを起こしたフレームの係数が零にもかか
わらずマツチングを行うことで、オーバーフロー
を起こしたフレームでは、意味のない値を距離値
として加算していくために、市街地距離が正しく
求められない。このため、オーバーフローを起こ
すフレームを多く含む音声が誤認識する可能性が
高くなるという問題点を有していた。

発明の目的本発明は、上記の従来の問題点を解消するもの
で、オーバーフローが起こつても、パターン間距
離に及ぼす影響を少なくし、誤認識を防ぐことが
できる音声認識装置を提供するものである。

発明の構成本発明は、特徴抽出部と、照合部と、認識部
と、特徴抽出部でパラメータがオーバーフローし
た時は、オーバーフローを起こしたパラメータ及
び本パラメータより高次のパラメータを、これら
のパラメータを含むフレームの前後のフレームの
パラメータで補間する特徴パラメータ補間部とを
備え、補間したパラメータを含む音声パターンを
マツチングすることにより、オーバーフローがパ
ターン間距離に及ぼす影響を少なくし、誤認識を
防ぐことができるものである。

実施例の説明第２図は、本発明の一実施例における音声認識
装置のブロツク図である。第２図において１は音
声信号入力端子、２ａは特徴抽出部、３は照合
部、４は認識部、５は認識結果を出力する出力端
子、６は特徴パラメータ補間部である。

以上のように構成された本実施例の音声認識装
置について、以下その動作を説明する。

まず、入力された音声信号を特徴抽出部２ａで
分析し、特徴パラメータを抽出する。演算過程で
PARCOR係数がオーバーフローを起こさない時
は、動作は従来例の特徴抽出部２と同じである
が、PARCOR係数がオーバーフローを起こした
時は、オーバーフローを起こした係数を補間する
ために前後のフレームのPARCOR係数を、特徴
パラメータ補間部６に入力する。

次に、特徴パラメータ補間部６では、オーバー
フローを起こしたパラメータを含むフレームの前
後のフレームのPARCOR係数から、オーバーフ
ローしたPARCOR係数及び、これより高次の係
数を次式により算出する。

k^j _i＝k^j-1／_i＋k^j+1／_i／２（ｉ＝ｎ〜Ｎ） ……(5) 但しＫ：PARCOR係数ｊ：オーバーフローを起こした係数を含むフレ
ームｎ：オーバーフローを起こした係数の次数Ｎ：分析次数求めたPARCOR係数を再度特徴抽出部２ａに
入力し、線形予測係数、及びケプストラム係数を
特徴パラメータとして抽出する。

次に照合部３では、以上の処理で作成された標
準音声パターンと入力音声パターンのマツチング
を行う。動作は従来例の照合部３と同じである。

次に認識部４で、以上で求められた市街地距離
値のうち、最短距離を示す標準音声を認識結果と
して出力する。

以上の本実施例によれば、オーバーフローした
PARCOR係数値を、前後のフレームのPARCOR
係数値で補間で、補間したPARCOR係数により
算出されたケプストラム係数パターンをDPマツ
チングする。このことにより、PARCOR係数の
オーバーフローが市街地距離に及ぼす影響を少な
くでき、誤認識を防ぐことができる。

なお、本実施例は、特徴抽出部２ａで算出され
るパラメータのうち、PARCOR係数が最もオー
バーフローを起こす確率が高いという実験結果に
基づき、PARCOR係数に対して補間処理を行つ
たものであるが、線形予測係数またはケプストラ
ム係数に対して補間処理を行つても良い。但し、
線形予測分析により抽出されるパラメータの中で
は、PARCOR係数は声道の物理量と対応してい
るため、補間値が物理量として意味のあるもので
あることと、オーバーフローしたPARCOR係数
の前後のフレームのPARCOR係数値k^j-1 _i，k^j+1 _iが
オーバーフローしていないことから、補間値k^j _i
も、(5)式よりオーバーフローはしないことが保証
される。以上より、補間の対象となるパラメータ
はPARCOR係数が最も良いと考える。

尚、本実施例では、パターン間距離として、(4)
式で定義される市街地距離を使用したが、これは
(6)式で定義されるユークリツド距離を用いてもよ
い。

Ｄ＝_M 〓^j=1 _N 〓ⁱ⁼¹ （C^R _ij−C^I _ij）² ……(6) 但し C^R：標準音声のケプストラム係数 C^I：入力音声のケプストラム係数Ｎ：分析次数Ｍ：全フレーム数Ｄ：ユークリツド距離発明の効果以上のように本発明によれば、オーバーフロー
を起こしたパラメータ及び前記パラメータより高
次のパラメータをこれらのパラメータを含むフレ
ームの前後のフレームのパラメータで補間するの
で、オーバーフローがパターン間距離に及ぼす影
響を少なくでき、誤認識を防ぐことができその効
果は大なるものがある。

【図面の簡単な説明】

第１図は従来の音声認識装置のブロツク図、第
２図は本発明の一実施例における音声認識装置の
ブロツク図である。１……音声信号入力端子、２ａ……特徴抽出
部、３……照合部、４……認識部、５……出力端
子、６……特徴パラメータ補間部。

Claims

【特許請求の範囲】１入力音声信号の特徴パラメータを線形予測分
析法により固定小数点演算で算出する際に、演算
過程でオーバーフローを起こしたパラメータ及び
本パラメータより高次のパラメータをこれらのパ
ラメータを含むフレームの前後のフレームのパラ
メータで補間する特徴パラメータ補間部を具備す
ることにより音声認識を行うことを特徴とする音
声認識装置。２特徴パラメータ補間部は補間する特徴パラメ
ータとしてPARCOR係数を対象とすることを特
徴とする特許請求の範囲第１項記載の音声認識装
置。