JPS60202500A - 音素認識方法 - Google Patents

音素認識方法

Info

Publication number
JPS60202500A
JPS60202500A JP59058706A JP5870684A JPS60202500A JP S60202500 A JPS60202500 A JP S60202500A JP 59058706 A JP59058706 A JP 59058706A JP 5870684 A JP5870684 A JP 5870684A JP S60202500 A JPS60202500 A JP S60202500A
Authority
JP
Japan
Prior art keywords
phoneme
order
analysis
recognition method
lpg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59058706A
Other languages
English (en)
Inventor
二矢田 勝行
藤井 諭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP59058706A priority Critical patent/JPS60202500A/ja
Publication of JPS60202500A publication Critical patent/JPS60202500A/ja
Priority to US07/501,386 priority patent/US4991216A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音素認識を行なうことを特徴とする音声認識装
置における音素認識方法に関するものである。
従来例の構成とその問題点 近年、音素認識方法として、スペクトルの時間的な動き
を特徴パラメータとして用い、これにベイズ判定に基く
距離尺度を適用する方法が提案され、良好な結果が得ら
れたという報告がある。併手他:「時間−周波数バタン
を用いた子音の認識」日本音響学会音声研究会資料19
82年6月)以下前記の従来技術について説明する。
本報告は、子音の特徴がその周波数スペクトルのみでな
く、その時間的な動きにも存在されることに着目し、ス
ペクトルの時系列情報をパラメータとする。スペクトル
情報は音声信号を29チヤンネルの単峰性帯域フィルタ
に適用して、1フレーム(1011sec)ごとに29
個ずつめる。これkl=cx4.x2・・・・・・x2
.)とする。そして、そ3ベー7 のmフレーム分の時系列ベクトル1J−(z、、。
2.129.j’1,22,229.2+、31.”’
”’J−29,5、DC+、z”’”’:1:2g、y
l)とし、これ全特徴パラメータとする。無声破裂音有
声破裂音ではm=4としている。以後m=4として説明
する。このままでは29X4=116次元となり、後の
類似度計算に要する演算量が膨大となるため、主成分分
析法によってパラメータの次元数を2段階で24次元に
圧縮する。
先ず第1段階では11:全11次元に圧縮する。圧縮後
のベクトルを、==(11/、I2/・・・・・・、2
:11′)とし、圧縮のための係数マトリックス’に/
Aとすると亀 f=lA−x(1) となる。ただし、/Aは29X11の行列であり、あら
かじめ多くのデータからめておく。
第2段階では4フレ一ム分のデータ11X4=44次元
の情報をさらに主成分分析によって24次元に圧縮する
。l′に対する4フレ一ム分のベクトルをJ’−(、、
’、、、x2’、、・・・・・・”i’1、j”j’、
2・・・・・・”1’j、21x+’、!!””””1
’j、l”1’、4””””1’j、4)とし、圧縮後
のベクトルkfl=cy、、y2・・・・・・y24)
とすると、(1)と同様に次式で圧縮を行なうことがで
きる。
y−耶・K’(2) ただしl(d44X24の次元数を有する係数マトリッ
クスである。
次に、このようにして圧縮したパラメータを使用して音
素の判別を行なう。音素の標準パターンとして、平均値
lμj9分散共分散行列Σjkあらかじめ用意しておく
、標準パターンは、多くのデータに対して(1)、(2
)の圧縮を行ない、それらの平均と分散共分散を計算し
てめる。ここでjは音素番号であり、たとえば1:/c
/、2:/p/。
3:/l/、4:/に/のように定めておく。未知人力
Vの、音素番号jの音素に対する類似度Pjは次式でめ
られる。
ここで添字Tは転置を、−1は逆行列を意味する。(3
)において対数をとって2倍し、これヲLj6ベン とすると、 Lj−(W−uij)T・Σj・(y−pj)+C,(
4)ここでCj−21og((2π)12・lΣjI)
となる。
(4)が最大となる音素番号に#当する音素を未知人カ
シの判別結果とする。(ベイズ判定)上記従来例におけ
る問題点は、演算量が多いことである。従来例でハ(1
)と(2)によって116次元を24次元に圧縮し、(
3)の類似度計算に要する演算量を減少させている。し
かし、そのかわり、圧縮するだめの計算が必要に々って
いる。
発明の目的 本発明は従来技術のもつ以上のjような欠点を解消する
もので、演算量が少なく、しかも良好な認識結果を得る
ことが可能な音素認識方法を提供するものである。
発明の構成 本発明は上記目的を達成するもので、本発明の基本構成
は、LPCケプストラム係数の時系列情報を特徴パラメ
ータとして用い、これにベイズ判6ベ。
定やマハラノビス距離などの統計的距離尺度を適用して
音素を判別するようにしたものでLPGケプストラム係
数の次数を分析次数以下で打切ることにより、認識率を
低下させることなく演算量を大幅に減少させたものであ
る。
実施例の説明 以下に本発明の実施例を図面により説明する。
第1図は本発明の一実施例における音素認識方法を具現
化するためのブロック図を示す。図において、1は音響
分析部で、入力音声をディジタル信号に変換し、1クレ
ームごとに分析次数N次でLPG分析を行ってn次(N
≧n)のLPGケプストラム係数をめる(coi含む)
。2はパラメータ蓄積部で、mフレーム分のパラメータ
(LPGケプストラム係数)を蓄積する。3は音素標準
パターン格納部で、予め多数話者の音声により特徴パラ
メータをめ、この特徴パラメータに基づき音素毎に作成
された標準パターンを格納しておく。4id類似度計算
部で、パラメータ蓄積部2から送出されるmX(n+1
)個の未知パラ7・ン メータと音素標準パターン格納部3に格納されている各
音素の標準パターンとの間で類似度計算を行う。5は音
素判別部で、類似度が最大となる音素番号全認識結果と
して出力する。
以下に一例として無声破裂音(/p/、/l/。
/に、/、10/)k対象として、音素判別を行なう方
法を述べる。
入力音声を音響分析部1において1フレームごとに線形
予測分析(LPG分析)で分析し、LPGケプストラム
係数をめる。分析に用いる窓は20m5ecのハミング
窓であり、サンプリング周波数は12KHz、分析次数
は15F(自己相関法)である。なおLPG分析および
LPCケプストラム係数の算出に関してはたとえばJ、
DlMarkel。
A、H,Gray、Jr、著、鈴木久喜訳「音声の線形
予測」昭和65年、コロナ社に詳しい。
1フレームごとに得られたLPGケプストラム係数’6
cm(co、cl・・・・・・On)とする、ただし、
coはLPGケプストラム係数のパワー環(0次項に対
応する。
壕だそのmフレームの時系列ベクトル1lll−(CO
,1”1.1”2.1”・・’n、1、CD、2、C1
、2”’”’On、21CD、51CI、3”””On
、3”””CO,m”1.m’・・””n、m)とする
。ID1d(n+1)・m次元のベクトルである。これ
はパラメータ蓄積部2に蓄えられる。時系列ベクトルル
の音素番号jの音素に対する類似度P、は類似度計算部
4において次式%式% ここで添字Tは転置を、−1は逆行列を意味する。
(5)において対数をとって2倍したものヲL−Jとす
ると、 L・−一(トμj)・Σj(トl11j)+C,(6)
コ ここで、Cj−21og((2π)12・lΣj11と
なる。
従って、μj、Σ、1LPcケプストラム係数を用いて
作成し、音素標準パターン格納部3に格納され9べ、7 の最大値をめることによって音素判別部5で音素の判別
を行うことができる。
本実施例の特徴は主成分分析などの方法を使用せず−単
にLPGケプヌトラム係数の次数を打切ることによって
、時系列ベクトル〕の次元数を圧縮できることである。
次に■の次元数を規定する定数−フレーム数mと打切り
次数n−に関して述べる。
先ずフレーム数mと音素判別率の関係を第1表に示す。
ただし、この場合打切り次数n=4とした。
(以下余白) 10べ、。
1トン 第1表かられかるように、各音素の判別率は3フレ一ム
程度で飽和し、壕だ平均判別率も3フレームで飽和して
いる。4フレームの方75f0.2%高いが、次元数を
圧縮するという観点から見れば、この差は問題とならな
い。したがって、フレーム数m=3が適当である。
次にフレーム数m=3と固定し、LPGケプストラム係
数の打切り次数nについて述べる。第2図は打切り次数
と音素判別率の関係を図示したものであり、横軸が打切
り次数n、たて軸が判別率(単位%)である。細い実線
が/C/、破線が/p/、1点鎖線が7t/、2点鎖線
が/に/。
そして全音素の平均判別率を太い実線で示しである。図
から明らかなように、平均判別率はn=4でほぼ飽和し
、n=5で最高値88.1%となり、n=6以降では/
p/の低下にともなって、平均判別率も漸減傾向が見え
る。このように、LPGケプストラム係数の次数は6次
程度でよく、それ以上は不要であることが判明した。そ
の理由は、ケプストラム係数の性質にある。ケプストラ
ム係数は対数スペクトルの逆フーリエ係数であるので、
低次の係数はどスペクトルの大局的な特徴を表現し、高
次の係数はスペクトルの細部の特徴を表現する。スペク
トルの細部の特徴は、個人性、出現環境などの変動要因
の影響を受けやすく、統計的に見れば、音素の判別に大
きく寄与はしない。したがって、音素判別に有効なのは
スペクトルの大局的な特徴であり、それを表現するため
に必要十分な次数で、ケプストラム係数を打切ればよい
無声破裂音の場合は、その次数が4〜6次であり、有声
破裂音や鼻音などでもほぼ同様である。一方、半母音々
どでは打切り次数は7〜8次である。一般にLPGケプ
ストラム係数の打切り次数nは、LPG分析の分析次数
以下で十分であり、またほとんどの場合、分析次数の2
/3以下でよい。
このように、本実施例ではパラメータの圧縮にはLPG
ケプストラム係数の次数を打切るのみでよく、何ら計算
を要しない。
次に、無声破裂音(/p/、/l/、/に/。
10/)’e例として、演算量を従来例と比較する。
13ン LPCケプストラム係数の打切り次数nは6次(すなわ
ちC6,C4・・・・・・C5)、フレーム数mi3と
する。したがって、パラメータの個数は6×3=18で
ある。
第2表は演算量を従来例と比較して示したものである。
ただし類似度計算I/1(8)を用いCjは定数として
取扱った。
(以下余白) 14・、。
15=、= 第2表かられかるように、本実施例ではパラメータ圧縮
のための計算は不要であり、また、従来例よりもパラメ
ータ数が少ないため、類似度計算に要する計算量も従来
例よりかなり少なくてよい。
そして、無声破裂音の判別を行なうために要する全計算
量は、加減算は従来例の2.7分の11乗算は2.8分
の1に減縮できる。このように本実施例は計算量は従来
例よりもかなり少々くでき、しかも音素判別率はほとん
ど変わらない。平均音素判別率で比較すると、無声破裂
音では、本実施例二88.1%、従来例:90%と従来
例の方が少し良いが、有声破裂音では逆に、本実施例:
86.4%。
従来例二86%であり、本実施例の方が優っている。総
合的には判別率の差はほとんどないと見てよい。音素判
別率を落とさず、しかも計算量が少ないということは、
装置を小型化、低価格化できることに々す、大きな利点
と々る。
なお、今壕での説明では類似度計算部4における類似度
計算のために(6)で示すベイズ判定に基く距離を用い
たが、他の統計的距離尺度を用いてもよい。たとえばマ
ノ1ラノビス距離Mjは次式で表わされる。
M、−(El−ptj)・Σ・〇−111j)=「・Σ
−1・])−2piT−X’・フ+、T、x1・μノ(
7)コ (7)において第1項はjに無関係であるから、大きさ
のみを比較する場合は不要である。捷だ第3項は未知入
力に無関係な定数であり、これヲFjと表わすことにす
る。従って(7)は次のように簡単化できる。
Mj’=Fj−&j−V ただし、aj=2・ptj・Σ(8) (8)は(6)に比べてさらに計算量が少ないという特
徴がある。従って(8)ヲ使った場合も、本実施例の方
が従来例よりもなおさら有利である。
さらに他の統計的距離尺度として線形判別関数も使用で
きることはもちろんである。
発明の効果 以上型するに本発明はLPGケプストラム係数の時系列
情報を特徴パラメータとして用い、前記17・。
パターンとの類似度を統計的距離尺度を用いて計算して
音素全判別するもので、類似度計算に対して、LPGケ
プストラム係数の次数′!1l−LPG分析の分析次数
以下で打切るようにした音素認識方法を提供するもので
、従来例に比べ、性能を保持したままで計算量を大幅に
減少させることができ、装置の小型化、低価格化など実
用的な面で大きな利点を有する。
【図面の簡単な説明】
第1図は本発明の一実施例における音素認識方法を具現
化するだめのブロック図、第2図は無声破裂音の判別率
とLPGケプストラム係数の打切り次数の関係を示した
図である。 1・・・・・・音響分析部、2・・・・・・パラメータ
蓄積部、3・・・・・・音素標準パターン格納部、4・
・・・・・類似度計算部、5・・・・・・音素判別部。 代理人の氏名弁理士中尾敏男ほか1名

Claims (2)

    【特許請求の範囲】
  1. (1)t、pcケプストラム係数の時系列情報を特徴パ
    ラメータとして用い、この特徴パラメータに基づき多数
    話者の音声から音素又は音素群毎の音素標準パターンを
    予め用意しておき、未知入力音声からN次の分析次数で
    線形予測(Lpc)分析を行ってn次のI、PCケプス
    トラム係数の時系列情報を特徴パラメータとしてめる際
    のLPCケプストラム係数の次数nfLPO分析の分析
    次数N以下とし、前記未知入力音声と音素標準パターン
    との類似度を統計的距離尺度を用いて計算することによ
    り音素を判別することを特徴とする音素認識方法。
  2. (2)統計的距離尺度として、ベイズ判定に基づく距離
    、マ・・ラノビス距離、線形判別関数のいずれかを用い
    ること全特徴とする特許請求の範囲第1項記載の音素認
    識方法。 2・、ノ
JP59058706A 1983-09-22 1984-03-27 音素認識方法 Pending JPS60202500A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP59058706A JPS60202500A (ja) 1984-03-27 1984-03-27 音素認識方法
US07/501,386 US4991216A (en) 1983-09-22 1990-03-23 Method for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59058706A JPS60202500A (ja) 1984-03-27 1984-03-27 音素認識方法

Publications (1)

Publication Number Publication Date
JPS60202500A true JPS60202500A (ja) 1985-10-12

Family

ID=13091944

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59058706A Pending JPS60202500A (ja) 1983-09-22 1984-03-27 音素認識方法

Country Status (1)

Country Link
JP (1) JPS60202500A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0344320A (ja) * 1989-07-06 1991-02-26 F Hoffmann La Roche Ag p―[2―(5,6,7,8―テトラヒドロ―5,5,8,8―テトラメチル―2―ナフチル)プロペニル]フエノールの医薬としての使用
JPH0345840A (ja) * 1989-07-12 1991-02-27 Matsushita Electric Ind Co Ltd 空調機器における室外ユニット
JPH0345839A (ja) * 1989-07-12 1991-02-27 Natl House Ind Co Ltd 建物の空気調和構造

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0344320A (ja) * 1989-07-06 1991-02-26 F Hoffmann La Roche Ag p―[2―(5,6,7,8―テトラヒドロ―5,5,8,8―テトラメチル―2―ナフチル)プロペニル]フエノールの医薬としての使用
JPH0345840A (ja) * 1989-07-12 1991-02-27 Matsushita Electric Ind Co Ltd 空調機器における室外ユニット
JPH0345839A (ja) * 1989-07-12 1991-02-27 Natl House Ind Co Ltd 建物の空気調和構造

Similar Documents

Publication Publication Date Title
JP5315414B2 (ja) 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
Singh et al. Multimedia analysis for disguised voice and classification efficiency
JP3364904B2 (ja) 自動音声認識方法及び装置
US9123350B2 (en) Method and system for extracting audio features from an encoded bitstream for audio classification
Milner et al. Speech reconstruction from mel-frequency cepstral coefficients using a source-filter model.
US8280724B2 (en) Speech synthesis using complex spectral modeling
CN110472097A (zh) 乐曲自动分类方法、装置、计算机设备和存储介质
JPH0743598B2 (ja) 音声認識方法
JPH08123484A (ja) 信号合成方法および信号合成装置
US20020065649A1 (en) Mel-frequency linear prediction speech recognition apparatus and method
WO2003098597A1 (en) Syllabic kernel extraction apparatus and program product thereof
Chadha et al. Optimal feature extraction and selection techniques for speech processing: A review
JPH07199997A (ja) 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法
JPS60202500A (ja) 音素認識方法
Aslan et al. Performing accurate speaker recognition by use of SVM and cepstral features
JP4603727B2 (ja) 音響信号分析方法及び装置
JP3905620B2 (ja) 音声認識装置
JPH0738114B2 (ja) フオルマント型パタンマツチングボコ−ダ
Orphanidou et al. Voice morphing using the generative topographic mapping
Bhuvanagiri et al. Modified mel filter bank to compute MFCC of subsampled speech
Singh et al. A perfect balance of sparsity and acoustic hole in speech signal and its application in speaker recognition system
JP2658426B2 (ja) 音声認識方法
Milner Speech feature extraction and reconstruction
JPH03120434A (ja) 音声認識装置
JPH0552509B2 (ja)