JPS60202500A

JPS60202500A - 音素認識方法

Info

Publication number: JPS60202500A
Application number: JP59058706A
Authority: JP
Inventors: 二矢田　勝行; 藤井　諭
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1984-03-27
Filing date: 1984-03-27
Publication date: 1985-10-12

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音素認識を行なうことを特徴とする音声認識装
置における音素認識方法に関するものである。

従来例の構成とその問題点近年、音素認識方法として、スペクトルの時間的な動き
を特徴パラメータとして用い、これにベイズ判定に基く
距離尺度を適用する方法が提案され、良好な結果が得ら
れたという報告がある。併手他：「時間−周波数バタン
を用いた子音の認識」日本音響学会音声研究会資料１９
８２年６月）以下前記の従来技術について説明する。

本報告は、子音の特徴がその周波数スペクトルのみでな
く、その時間的な動きにも存在されることに着目し、ス
ペクトルの時系列情報をパラメータとする。スペクトル
情報は音声信号を２９チヤンネルの単峰性帯域フィルタ
に適用して、１フレーム（１０１１ｓｅｃ）ごとに２９
個ずつめる。これｋｌ＝ｃｘ４．ｘ２・・・・・・ｘ２
．）とする。そして、そ３ベー７のｍフレーム分の時系列ベクトル１Ｊ−（ｚ、、。

２．１２９．ｊ’１，２２，２２９．２＋、３１．”’
”’Ｊ−２９，５、ＤＣ＋、ｚ”’”’：１：２ｇ、ｙ
ｌ）とし、これ全特徴パラメータとする。無声破裂音有
声破裂音ではｍ＝４としている。以後ｍ＝４として説明
する。このままでは２９Ｘ４＝１１６次元となり、後の
類似度計算に要する演算量が膨大となるため、主成分分
析法によってパラメータの次元数を２段階で２４次元に
圧縮する。

先ず第１段階では１１：全１１次元に圧縮する。圧縮後
のベクトルを、＝＝（１１／、Ｉ２／・・・・・・、２
：１１′）とし、圧縮のための係数マトリックス’に／
Ａとすると亀ｆ＝ｌＡ−ｘ（１）となる。ただし、／Ａは２９Ｘ１１の行列であり、あら
かじめ多くのデータからめておく。

第２段階では４フレ一ム分のデータ１１Ｘ４＝４４次元
の情報をさらに主成分分析によって２４次元に圧縮する
。ｌ′に対する４フレ一ム分のベクトルをＪ’−（、、
’、、、ｘ２’、、・・・・・・”ｉ’１、ｊ”ｊ’、
２・・・・・・”１’ｊ、２１ｘ＋’、！！””””１
’ｊ、ｌ”１’、４””””１’ｊ、４）とし、圧縮後
のベクトルｋｆｌ＝ｃｙ、、ｙ２・・・・・・ｙ２４）
とすると、（１）と同様に次式で圧縮を行なうことがで
きる。

ｙ−耶・Ｋ’（２）ただしｌ（ｄ４４Ｘ２４の次元数を有する係数マトリッ
クスである。

次に、このようにして圧縮したパラメータを使用して音
素の判別を行なう。音素の標準パターンとして、平均値
ｌμｊ９分散共分散行列Σｊｋあらかじめ用意しておく
、標準パターンは、多くのデータに対して（１）、（２
）の圧縮を行ない、それらの平均と分散共分散を計算し
てめる。ここでｊは音素番号であり、たとえば１：／ｃ
／、２：／ｐ／。

３：／ｌ／、４：／に／のように定めておく。未知人力
Ｖの、音素番号ｊの音素に対する類似度Ｐｊは次式でめ
られる。

ここで添字Ｔは転置を、−１は逆行列を意味する。（３
）において対数をとって２倍し、これヲＬｊ６ベンとすると、Ｌｊ−（Ｗ−ｕｉｊ）Ｔ・Σｊ・（ｙ−ｐｊ）＋Ｃ，（
４）ここでＣｊ−２１ｏｇ（（２π）１２・ｌΣｊＩ）
となる。

（４）が最大となる音素番号に＃当する音素を未知人カ
シの判別結果とする。（ベイズ判定）上記従来例におけ
る問題点は、演算量が多いことである。従来例でハ（１
）と（２）によって１１６次元を２４次元に圧縮し、（
３）の類似度計算に要する演算量を減少させている。し
かし、そのかわり、圧縮するだめの計算が必要に々って
いる。

発明の目的本発明は従来技術のもつ以上のｊような欠点を解消する
もので、演算量が少なく、しかも良好な認識結果を得る
ことが可能な音素認識方法を提供するものである。

発明の構成本発明は上記目的を達成するもので、本発明の基本構成
は、ＬＰＣケプストラム係数の時系列情報を特徴パラメ
ータとして用い、これにベイズ判６ベ。

定やマハラノビス距離などの統計的距離尺度を適用して
音素を判別するようにしたものでＬＰＧケプストラム係
数の次数を分析次数以下で打切ることにより、認識率を
低下させることなく演算量を大幅に減少させたものであ
る。

実施例の説明以下に本発明の実施例を図面により説明する。

第１図は本発明の一実施例における音素認識方法を具現
化するためのブロック図を示す。図において、１は音響
分析部で、入力音声をディジタル信号に変換し、１クレ
ームごとに分析次数Ｎ次でＬＰＧ分析を行ってｎ次（Ｎ
≧ｎ）のＬＰＧケプストラム係数をめる（ｃｏｉ含む）
。２はパラメータ蓄積部で、ｍフレーム分のパラメータ
（ＬＰＧケプストラム係数）を蓄積する。３は音素標準
パターン格納部で、予め多数話者の音声により特徴パラ
メータをめ、この特徴パラメータに基づき音素毎に作成
された標準パターンを格納しておく。４ｉｄ類似度計算
部で、パラメータ蓄積部２から送出されるｍＸ（ｎ＋１
）個の未知パラ７・ンメータと音素標準パターン格納部３に格納されている各
音素の標準パターンとの間で類似度計算を行う。５は音
素判別部で、類似度が最大となる音素番号全認識結果と
して出力する。

以下に一例として無声破裂音（／ｐ／、／ｌ／。

／に、／、１０／）ｋ対象として、音素判別を行なう方
法を述べる。

入力音声を音響分析部１において１フレームごとに線形
予測分析（ＬＰＧ分析）で分析し、ＬＰＧケプストラム
係数をめる。分析に用いる窓は２０ｍ５ｅｃのハミング
窓であり、サンプリング周波数は１２ＫＨｚ、分析次数
は１５Ｆ（自己相関法）である。なおＬＰＧ分析および
ＬＰＣケプストラム係数の算出に関してはたとえばＪ、
ＤｌＭａｒｋｅｌ。

Ａ、Ｈ，Ｇｒａｙ、Ｊｒ、著、鈴木久喜訳「音声の線形
予測」昭和６５年、コロナ社に詳しい。

１フレームごとに得られたＬＰＧケプストラム係数’６
ｃｍ（ｃｏ、ｃｌ・・・・・・Ｏｎ）とする、ただし、
ｃｏはＬＰＧケプストラム係数のパワー環（０次項に対
応する。

壕だそのｍフレームの時系列ベクトル１ｌｌｌ−（ＣＯ
，１”１．１”２．１”・・’ｎ、１、ＣＤ、２、Ｃ１
、２”’”’Ｏｎ、２１ＣＤ、５１ＣＩ、３”””Ｏｎ
、３”””ＣＯ，ｍ”１．ｍ’・・””ｎ、ｍ）とする
。ＩＤ１ｄ（ｎ＋１）・ｍ次元のベクトルである。これ
はパラメータ蓄積部２に蓄えられる。時系列ベクトルル
の音素番号ｊの音素に対する類似度Ｐ、は類似度計算部
４において次式％式％ここで添字Ｔは転置を、−１は逆行列を意味する。

（５）において対数をとって２倍したものヲＬ−Ｊとす
ると、Ｌ・−一（トμｊ）・Σｊ（トｌ１１ｊ）＋Ｃ，（６）
コここで、Ｃｊ−２１ｏｇ（（２π）１２・ｌΣｊ１１と
なる。

従って、μｊ、Σ、１ＬＰｃケプストラム係数を用いて
作成し、音素標準パターン格納部３に格納され９べ、７の最大値をめることによって音素判別部５で音素の判別
を行うことができる。

本実施例の特徴は主成分分析などの方法を使用せず−単
にＬＰＧケプヌトラム係数の次数を打切ることによって
、時系列ベクトル〕の次元数を圧縮できることである。

次に■の次元数を規定する定数−フレーム数ｍと打切り
次数ｎ−に関して述べる。

先ずフレーム数ｍと音素判別率の関係を第１表に示す。

ただし、この場合打切り次数ｎ＝４とした。

（以下余白）１０べ、。

１トン第１表かられかるように、各音素の判別率は３フレ一ム
程度で飽和し、壕だ平均判別率も３フレームで飽和して
いる。４フレームの方７５ｆ０．２％高いが、次元数を
圧縮するという観点から見れば、この差は問題とならな
い。したがって、フレーム数ｍ＝３が適当である。

次にフレーム数ｍ＝３と固定し、ＬＰＧケプストラム係
数の打切り次数ｎについて述べる。第２図は打切り次数
と音素判別率の関係を図示したものであり、横軸が打切
り次数ｎ、たて軸が判別率（単位％）である。細い実線
が／Ｃ／、破線が／ｐ／、１点鎖線が７ｔ／、２点鎖線
が／に／。

そして全音素の平均判別率を太い実線で示しである。図
から明らかなように、平均判別率はｎ＝４でほぼ飽和し
、ｎ＝５で最高値８８．１％となり、ｎ＝６以降では／
ｐ／の低下にともなって、平均判別率も漸減傾向が見え
る。このように、ＬＰＧケプストラム係数の次数は６次
程度でよく、それ以上は不要であることが判明した。そ
の理由は、ケプストラム係数の性質にある。ケプストラ
ム係数は対数スペクトルの逆フーリエ係数であるので、
低次の係数はどスペクトルの大局的な特徴を表現し、高
次の係数はスペクトルの細部の特徴を表現する。スペク
トルの細部の特徴は、個人性、出現環境などの変動要因
の影響を受けやすく、統計的に見れば、音素の判別に大
きく寄与はしない。したがって、音素判別に有効なのは
スペクトルの大局的な特徴であり、それを表現するため
に必要十分な次数で、ケプストラム係数を打切ればよい
。

無声破裂音の場合は、その次数が４〜６次であり、有声
破裂音や鼻音などでもほぼ同様である。一方、半母音々
どでは打切り次数は７〜８次である。一般にＬＰＧケプ
ストラム係数の打切り次数ｎは、ＬＰＧ分析の分析次数
以下で十分であり、またほとんどの場合、分析次数の２
／３以下でよい。

このように、本実施例ではパラメータの圧縮にはＬＰＧ
ケプストラム係数の次数を打切るのみでよく、何ら計算
を要しない。

次に、無声破裂音（／ｐ／、／ｌ／、／に／。

１０／）’ｅ例として、演算量を従来例と比較する。

１３ンＬＰＣケプストラム係数の打切り次数ｎは６次（すなわ
ちＣ６，Ｃ４・・・・・・Ｃ５）、フレーム数ｍｉ３と
する。したがって、パラメータの個数は６×３＝１８で
ある。

第２表は演算量を従来例と比較して示したものである。

ただし類似度計算Ｉ／１（８）を用いＣｊは定数として
取扱った。

（以下余白）１４・、。

１５＝、＝第２表かられかるように、本実施例ではパラメータ圧縮
のための計算は不要であり、また、従来例よりもパラメ
ータ数が少ないため、類似度計算に要する計算量も従来
例よりかなり少なくてよい。

そして、無声破裂音の判別を行なうために要する全計算
量は、加減算は従来例の２．７分の１１乗算は２．８分
の１に減縮できる。このように本実施例は計算量は従来
例よりもかなり少々くでき、しかも音素判別率はほとん
ど変わらない。平均音素判別率で比較すると、無声破裂
音では、本実施例二８８．１％、従来例：９０％と従来
例の方が少し良いが、有声破裂音では逆に、本実施例：
８６．４％。

従来例二８６％であり、本実施例の方が優っている。総
合的には判別率の差はほとんどないと見てよい。音素判
別率を落とさず、しかも計算量が少ないということは、
装置を小型化、低価格化できることに々す、大きな利点
と々る。

なお、今壕での説明では類似度計算部４における類似度
計算のために（６）で示すベイズ判定に基く距離を用い
たが、他の統計的距離尺度を用いてもよい。たとえばマ
ノ１ラノビス距離Ｍｊは次式で表わされる。

Ｍ、−（Ｅｌ−ｐｔｊ）・Σ・〇−１１１ｊ）＝「・Σ
−１・］）−２ｐｉＴ−Ｘ’・フ＋、Ｔ、ｘ１・μノ（
７）コ（７）において第１項はｊに無関係であるから、大きさ
のみを比較する場合は不要である。捷だ第３項は未知入
力に無関係な定数であり、これヲＦｊと表わすことにす
る。従って（７）は次のように簡単化できる。

Ｍｊ’＝Ｆｊ−＆ｊ−Ｖただし、ａｊ＝２・ｐｔｊ・Σ（８）（８）は（６）に比べてさらに計算量が少ないという特
徴がある。従って（８）ヲ使った場合も、本実施例の方
が従来例よりもなおさら有利である。

さらに他の統計的距離尺度として線形判別関数も使用で
きることはもちろんである。

発明の効果以上型するに本発明はＬＰＧケプストラム係数の時系列
情報を特徴パラメータとして用い、前記１７・。

パターンとの類似度を統計的距離尺度を用いて計算して
音素全判別するもので、類似度計算に対して、ＬＰＧケ
プストラム係数の次数′！１ｌ−ＬＰＧ分析の分析次数
以下で打切るようにした音素認識方法を提供するもので
、従来例に比べ、性能を保持したままで計算量を大幅に
減少させることができ、装置の小型化、低価格化など実
用的な面で大きな利点を有する。

【図面の簡単な説明】

第１図は本発明の一実施例における音素認識方法を具現
化するだめのブロック図、第２図は無声破裂音の判別率
とＬＰＧケプストラム係数の打切り次数の関係を示した
図である。１・・・・・・音響分析部、２・・・・・・パラメータ
蓄積部、３・・・・・・音素標準パターン格納部、４・
・・・・・類似度計算部、５・・・・・・音素判別部。代理人の氏名弁理士中尾敏男ほか１名

Claims

【特許請求の範囲】

（１）ｔ、ｐｃケプストラム係数の時系列情報を特徴パ
ラメータとして用い、この特徴パラメータに基づき多数
話者の音声から音素又は音素群毎の音素標準パターンを
予め用意しておき、未知入力音声からＮ次の分析次数で
線形予測（Ｌｐｃ）分析を行ってｎ次のＩ、ＰＣケプス
トラム係数の時系列情報を特徴パラメータとしてめる際
のＬＰＣケプストラム係数の次数ｎｆＬＰＯ分析の分析
次数Ｎ以下とし、前記未知入力音声と音素標準パターン
との類似度を統計的距離尺度を用いて計算することによ
り音素を判別することを特徴とする音素認識方法。
（２）統計的距離尺度として、ベイズ判定に基づく距離
、マ・・ラノビス距離、線形判別関数のいずれかを用い
ること全特徴とする特許請求の範囲第１項記載の音素認
識方法。２・、ノ