JPH0424720B2

JPH0424720B2 -

Info

Publication number: JPH0424720B2
Application number: JP59157813A
Authority: JP
Inventors: Satoshi Fujii; Katsuyuki Futayada
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1984-07-27
Filing date: 1984-07-27
Publication date: 1992-04-27
Also published as: JPS6135497A

Description

【発明の詳細な説明】産業上の利用分野本発明は音声の内容を自動的に認識するための
音声認識装置に関するものである。

従来例の構成とその問題点従来の音声認識装置のブロツク図の一例を第１
図に示す、まずあらかじめ多数話者の音声データ
をクラスリング手法等を用いてグループ分けし、
音素あるいは音節の単位で標準パタン群を作成
し、標準パタン格納部１１に格納しておく。ここ
では説明のため標準パタン格納部１１中の標準パ
タン群１は男性のみのデータで、標準パタン群２
は女性のみのデータとし各群毎に６種類の標準パ
タンが用意されているとする。

さてマイク１より入力された入力音声はAD変
換器２によりAD変換された後に一方は信号処理
回路３へ送られ、プリエンフアシス、窓計算を行
つて線形予測分析プロセツサ４へ送られる。AD
変換された他方の信号はセグメンテーシヨン部５
に送られ、ここで帯域パワー計算、音声区間の検
出、有声無声音判定、子音のセグメンテーシヨン
を行い、結果をメインメモリ７に転送する。線形
予測分析プロセツサ４で得たLPCパラメータを
用い、類似度計算部６は次の手順で類似度計算を
行う。まず標準パタン格納部１１に格納された標
準パタン群１の中の標準パタンを類似度計算部６
に転送し、フレーム毎に類似度計算を行い、メイ
ンメモリ７に転送する。同様にして標準パタン群
２についても行う。メインプロセツサ８はメイン
メモリ７を参照しフレーム毎に最も類似度の高か
つた標準パタンに相当する音素又は音節を認識結
果として採用し、これとセグメンテーシヨン部５
の結果を用いて音素又は音節の系列を作成する。
そしてできた系列を単語辞書１２と照合する事に
よつて単語認識を行い、結果を出力部９に送る。

この従来例の欠点は、標準パタン格納部１１に
格納されている標準パタン群全部に対して類似度
計算を常に行なわねばならないために類似度計算部６の計算量が大きなものとな
り、高速演算の要求される高価なものとなる。

標準パタン群を複数個用意し、全ての標準パ
タン群を対象としてその中で最も類似度の高い
音素を認識に用いる方法であるために、似かよ
つた音素の数が多くなり互いの混同が増加する
ことにより認識性能を低下させる。

用意されたいずれの標準パタンにも該当しな
い音声を持つ使用者に対して認識性能が大きく
低下してしまう。

という欠点があつた。

発明の目的本発明は前記欠点を解消し、類似度計算部の計
算量を軽減して低価格化すると共に認識性能を大
幅に向上し、かつ標準パタンからはずれた音声の
性質を持つ人に対しても使用を可能とし、不特定
多数の使用者に対して高い信頼度で使用すること
のできる音声認識装置を提供することを目的とす
る。

発明の構成本発明は上記目的を達成するもので、入力音声
よりフレーム周期ごとに得られたスペクトル又は
それに類似する情報（以下スペクトル情報と記
す）を算出する音響分析部と、入力音声の音声区
間の検出と音素毎のセグメンテーシヨンを行うセ
グメンテーシヨン部と、多数話者からなる標準音
声信号から、性質の類似した話者ごとに分類され
た複数の標準パタン群を予め格納する標準パタン
格納部と、前記標準パタン格納部の標準パタン群
と前記スペクトル情報とを用いて音素ごとの類似
度を求める類似度計算部と、前記類似度計算部と
セグメンテーシヨン部の結果から少なくとも母音
部を決定し、その中心フレームを示す位置情報を
選択するプロセツサ部と、前記プロセツサ部から
の位置情報に基づき、標準パタン格納部内の標準
パタン群の選択を少なくとも行う学習部と、前記
プロセツサ部で作成された音素又は音節系列と比
較する単語辞書を格納する単語辞書部とを備え、
前記学習部が、プロセツサ部で得られた位着情報
に基づき、統計的距離尺度による類似度和の最も
大きい標準パターン群又は最大類似度になる標準
パターンの数の最も多い標準パターン群を選択す
る選択部と、前記選択結果に基づく標準パターン
群を、プロセツサ部で得られた位置情報に基づき
修正する修正部とで構成されていることを特徴と
する音声認識装置を提供するものである。

実施例の説明以下に本発明の実施例を図面を用いて説明す
る。第２図に本発明の一実施例における音声認識
装置のブロツク図を示す。

本実施例においては、あらかじめ多数話者の音
声を収集して男性，女性，子供……というように
グループ分けしておく。さらに、各グループ毎に
音声の中を音素単位に分けておく。

以下の実施例では男性（グループ１）と女性
（グループ２）の２つのグループのみで各グルー
プ内の音声を｜ａ｜，｜ｉ｜，｜ｕ｜，｜ｅ｜，｜ｏ
｜，鼻音の６個の分けた場合を例に説明する。

まず標準パタン格納部３３に格納する内容を説
明する。まずグループ１の音声における音素ｉの
LPCケプストラム係数の平均値を〓i⁽¹⁾＝（Mi₁ ⁽¹⁾，Mi₂ ⁽¹⁾，……，Mij⁽¹⁾，……， Mip⁽¹⁾）とする。(1)はグループ１であることを示し、ｐは
分析次数である。又、６個の音素に共通の共分散
行列を〓⁽¹⁾とし、その逆行列〓^-1(1)（そのjj′要素を
δjj′とする）を求めて、この〓^-1(1)と平均値〓i⁽¹⁾
を標準パタン格納部３３に標準パタン群１として
格納する。同様にグループ２の音声で平均値〓
i⁽²⁾と逆行列〓^-1(2)を求め、標準パタン群２に入れ
る。

さらに、グループ１について逆行列〓^-1(1)の
（ｊ，j′）要素をδjj′として、音素ｉのｊ次に対す
る重み係数を aij⁽¹⁾＝２_p 〓^j ′⁼¹δjj′Mij⁽¹⁾ (1) で求める。又、音素ｉの平均距離di⁽¹⁾を、 di⁽¹⁾＝〓^(1)t〓^-1(1)〓i⁽¹⁾ (2) で求める（ｔは転置行列を表わす。）。

グループ２についてもaij⁽²⁾，di⁽²⁾を求め、
aij⁽¹⁾，di⁽¹⁾，aij⁽²⁾，di⁽²⁾をバツフア３６にあらか
じめ格納しておく。

本実施例では重み係数aij、平均距離diをバツ
フア３６に格納する場合について説明するが、こ
れらは標準パタン格納部３３に格納しても良く、
その場合はバツフア３６は不必要となる。

またスペクトル情報としては一例としてLPC
ケプストラム係数を用いた場合について述べる。

次に本実施例の特徴部である学習部３２の第１
の機能である標準パタン群の自動選択について第
２図のブロツク図及び第３図のフローチヤートを
用いて説明する。

処理イに示すように任意の言葉、例えば「ハジ
メ」（hazime）という音声をマイク３１に入力さ
れたとする。かかる音声はＡ／Ｄ変換器２１で
Ａ／Ｄ変換され（処理ロ）、一方は信号処理回路
２２へ、他方はセグメンテーシヨン部２６へ送ら
れる。信号処理回路２２では処理ハに示すように
フレーム毎にプリエンフアシス、ハミング窓によ
る窓計算を行つた後、その結果を線形予測分析プ
ロセツサ２３へ送る。線形予測分析プロセツサ２
３は線形予測分析を行なつてLPCケプストラム
係数Ｃ＝（C₁，C₂，……，Cj，……，Cp）を求め
（処理ニ）、類似度計算部２４へ送る。

一方、セグメンテーシヨン部２６は帯域フイル
ム計算を行ない（処理ホ）、又線形予測分析プロ
セツサ２３で求めたLPCケプストラム係数Ｃを
用いて有声無声判定、音声区間の検出（処理ヘ）、
子音hazimeの｜ｈ｜，｜ｚ｜，｜ｍ｜のセグメン
テーシヨンおよび子音判別（処理ト）を行ないそ
の結果をメインメモリ２７に送る（処理チ）。

また学習部３２の選択部３４はバツフア３６の
中に予め準備されたaij⁽¹⁾，di⁽¹⁾を類似度計算部２
４に送る（処理リ）。類似度計算部２４では処理
ヌに示すように次式でグループ１の音素ｉに対す
る類似度li⁽¹⁾を求める。

li⁽¹⁾＝_p 〓^j=1 aij⁽¹⁾Cj−di⁽¹⁾ (3) 類似度はベイズ判定やマハラノビス距離等の統
計的距離尺度に基づくものが好適である。同様に
グループ２についてもli⁽²⁾を求め、これらをメイ
ンメモリ２７に転送する（処理ル）。

メインプロセツサ２８はセグメンテーシヨン結
果と、母音・鼻音に対する類似度を参照して処理
オの如く母音・鼻音部hazimeの｜ａ｜と｜ｉ｜
と｜ｍ｜と｜ｅ｜を決定し、決定した母音・鼻音
部の中から、最も母音又は鼻音らしい中心フレー
ム（中央の位置又は類似度最大の位置）を各母
音・鼻音部に対して選び、その位置情報を学習部
３２中の選択部３４に与える。

選択部３４は中心フレームにおける類似度li⁽¹⁾
の総和L⁽¹⁾を次式で求める（処理ワ）。

L⁽¹⁾＝_N 〓ⁿ⁼¹ _K 〓ⁱ⁼¹ li⁽¹⁾ (4) ここでＫは予め用意されている音素の種類の数
（この場合はＫ＝６）、Ｎは中心フレームの数であ
る。

さらに標準パタン群２の場合についても同様に
L⁽²⁾を求め、L⁽¹⁾とL⁽²⁾の大きさを比較してL⁽¹⁾が大
きければその音声は標準パタン群１に属すると決
定する（処理カ）。この場合その音声がどの標準
パタン群に属するかの比較は、最大類似度になる
標準パタンの数で比較しても良い。例えば入力音
声中の母音又は鼻音の第１番目（hazimeの｜ａ
｜）の中心フレームにおける類似度l₁ ⁽¹⁾，l₂ ⁽¹⁾，
……lk⁽¹⁾とl₁ ⁽²⁾，l₂ ⁽²⁾，……，lk⁽²⁾を求め、max
（l₁ ⁽¹⁾，l₂ ⁽¹⁾，……，lk⁽¹⁾，l₁ ⁽²⁾，l₂ ⁽²⁾，……，l
k⁽²⁾）
がli⁽¹⁾の場合、標準パタン群１に属すると考える。
これをＮ個（ここでは｜ａ｜，｜ｉ｜，｜ｍ｜，｜
ｅ｜の４個）の中心フレームについて求め、使用
者の音声は属する回数の多い標準パタン群に最終
的に属すると決定する方法である。この機能を学
習部３２に持たせることにより同様に標準パタン
群の自動選択を行なうことができる。

従つて以後入力された音声については選択され
た標準パタン群１に対応する、バツフア２６内の
データのみを用いて類似度計算をすれば良く、従
来のようにバツフア２６内の全標準パタン群に対
応するデータについて類似度計算を行なう必要が
ないので、計算量を大幅に減少させることができ
るとともに、音素同士の混同をなくし認識性能を
向上させることができる。

次に本発明の第２の実施例として、前記実施例
よりもさらに高い認識率を得たい場合、第１の機
能のみでは認識が著しく困難なとき、たとえば標
準パタンに入力者の音声が適していないような場
合には、第１の機能に加えてさらに以下に述べる
第２の機能を働かせる例について述べる。

すなわち本実施例は、学習部に第２の機能とし
て標準パタンの自動修正機能を付加するもので、
これは、音声認識装置が使用者に対して入力内容
を指示することによつて必要な情報を得、その使
用者の声の認識に最も適した形の標準パタンに修
正し、話者適合の能力を付加したものである。

以下第２図と第４図を用いて説明する。音声認
識装置が使用者に対しある定められた言葉、例え
ば「ナニヌネノ」（naninuneno）と発声するよう
に指示し、マイク３１からその音声が入力された
とする（処理ヨ）。その音声は第１の機能の場合
と同様の手順で処理される。すなわちＡ／Ｄ変換
器２１でＡ／Ｄ変換され（処理ロ）、信号処理回
路２２でプリエンフアシス、窓計算を行なつた
（処理ハ）後、線形予測分析プロセツサ２３で
LPCケプストラム係数を求め（処理ニ）、学習部
３２の選択部３４を介してバツフア３６内の格納
されたaij，djを類似度計算部３４へ転送し（処
理リ）、類似度計算部２４で前記(3)式を用いて類
似度計算を行ない（処理ヌ）、その結果をメイン
メモリ２７へ転送する（処理ル）。

一方Ａ／Ｄ変換された音声は、帯域フイルタ計
算（処理ホ）、有声無声判定及び音声区間検出
（処理ヘ）、子音セグメンテーシヨン及び子音判別
（処理ト）を経て（ここではnaninunenoの子音｜
ｎ｜）メインメモリ２７に転送され（処理チ）、
処理オに示すように第１の機能の場合と同様の手
順で母音・鼻音部の決定を行ない、それぞれ
naninunenoの中の｜ａ｜，｜ｉ｜，｜ｕ｜，｜ｅ
｜，｜ｏ｜および｜ｎ｜の中心部を自動検出し、
その位置情報を学習部３２中の選択部３４及び修
正部３５に与える。

選択部３４では前記(4)式を用いて標準パタン群
ごとに類似度和Ｌを求め（処理ワ）、類似度和の
大きい方の標準パタン群にその音声が属すると判
定しておく（処理カ）。

一方修正部３５は、線形予測分析プロセツサ２
３から送られた音素ｉの中心部に対応するLPC
ケプストラム係数をCijとし、標準パタン格納部
３３から、選択部３４の第１の機能の選択結果に
基づく標準パタン群の平均値Mij⁽¹⁾、逆行列の
（ｊ，j′）要素δjj′を読み出し、使用者の声に適合
した平均値M′ij⁽¹⁾を M′ij⁽¹⁾＝（WMij⁽¹⁾＋Cij）／（Ｗ＋１） (5) で求める（処理タ）。ここでＷはあらかじめ求め
てある定数である。

この平均値の求め方は以下のようにしても良
い。すなわちある音素のα次における新しい平均
値M′αを求めるために多重回帰分析法を利用す
る。

α次の特徴パラメータの推定に対し、その音素
にかかわる全データを使用する方法である。

あらかじめ用意した多数話者の平均値Qα^(R)，
学習データ〓^(R)の間に次式の関係を仮定する。

Qα^(R)＝b′α＋〓′α〓^(R)＋Eα^(R) (6) α＝１，２，……，ｊ，……，ｐ Eα^(R)：誤差ｐ：パラメータの次数Ｒ＝１，２，……，ｋｋ：用意した話者の人数〓′α＝（β′α₁，β′α₂，……，β′αj，……
，β′αp） b′α，〓′αの最小２乗推定値をbα，〓αとす
ると、ある音素の平均値の推定値Mαは入力され
た学習データのLPCケプストラム係数〓＝（C₁，
C₂，……，Cj，……，Cp）を使用して次式で求
めることができる。

Mj＝bα＋〓α〓＝bα＋_p 〓^j=1 βαj・Cj (7) このβαj，bαはあらかじめ用意されたQα^(K)，〓
^（Ｋ）を用いて、次式で求められる。

βαj＝_p 〓^j ′⁼¹Sαjj′Sαj′y (8) ここで、 Sαjj′＝_K 〓^R=1 （Vαj^(R)−）（Vαj′^(K)′） (9) Sαj′y＝_K 〓^R=1 （Vαj′^(R)−′）（Qα^(R)） (10) ただし、，はそれぞれVαj^(R)，Qα^(R)（
Ｒ
＝１，２，……，Ｋ）の平均値、Sα^jj′はSαjj′の
逆行列の要素を表わす。

また bα＝−_p 〓^j=1 βαj・ (11) でbiが求められる。

すなわち、あらかじめ多数話者のデータを用い
て(8)式でβαj、(11)式でbαを求めて修正部３５に入
れておけば新しい平均値M′αを(7)式で算出するこ
とができる。

このようにして得られた平均値M′ij⁽¹⁾を用い
て、修正部３５において新しい重み係数a′ij⁽¹⁾を a′ij⁽¹⁾＝２_p 〓^j ′⁼¹δjj′M′ij⁽¹⁾ (12) 平均距離d′i⁽¹⁾を d′i⁽¹⁾＝〓′i⁽¹⁾t〓^-1(1)〓′i⁽¹⁾ （13）で求め（処理レ）、このa′ij⁽¹⁾およびd′i⁽¹⁾を新し
い
標準パタン群としてバツフア３６に登録する（処
理ソ）。従つて次に入力された音声に対しては第
３図で示したフローチヤートの処理イ〜処理ヌに
従つて類似度計算を次式 li⁽¹⁾＝_p 〓^j=1 a′ij⁽¹⁾Cj−d′i⁽¹⁾ （14）で計算し、メインメモリ２７に転送され、メイン
プロセツサ２８でこの結果とセグメンテーシヨン
部２６の結果を用いて音素又は音節の系列を作成
し、単語辞書メモリ２９内の単語辞書と照合して
単語認識を行ない、その結果を出力部３０に送
る。

このように、標準パタンの内容を自動修正する
ことにより、標準パタンに合わない使用者の声に
対し認識性能を向上させることができる。

以上述べた学習部３２の第１の機能および第２
の機能が働くことにより、使用者に適した標準パ
タン群が自動的に選択され、かつその選択された
標準パタンの内容が最もその使用者の声の認識に
適合するように自動修正され、いかなる使用者の
声に対しても安定した、高い認識率を得ることの
できる、信頼性の高い音声認識装置として使用す
ることができる。

前述の実施例の処理手順の全体のフローを第５
図を用いて説明する。

まず第１の実施例の場合について述べる。使用
者によつて任意の音声が最初に入力される（判断
ツ）と、音声認識装置は音響分析を行なう（処理
ネ）。次に標準パタン群の選択かいなかを判断し
（判断ナ）、標準パタン群選択の作業のため、セグ
メンテーシヨン、音素判別(1)を行なう（処理ラ）。
この結果に基づいて類似度の総和の最も大きい標
準パタン群を選択する。

次に標準パタン群の修正が必要か否かを判断し
（判断ウ）、その必要がない場合は上記選択された
標準パタン群を標準パタンメモリへ転送する（処
理イ）。その結果とセグメンテーシヨン結果を用
いて音素認識を行ない（処理ノ）、その結果を単
語辞書と照合して単語認識を行ない（処理ヲ）、
認識単語を出力して（処理ク）最初の入力待ちに
もどる。

次に入力された音声に対してはすでに標準パタ
ン群の選択は終了しているため、登録された標準
パタン群を用いて処理ヤで示すセグメンテーシヨ
ン・音素判別(2)を行ない、処理ノ，処理オを経て
認識結果が出力される。

ここでセグメンテーシヨン・音素判別の(1)と(2)
のちがいは、(2)が選ばれた１組の標準パタン群で
のみ計算すれば良いのに対し、(1)は標準パタン格
納部に存在する全ての標準パタン群に対して計算
が必要なことであり、(1)の作業はかなり大きな演
算量を要することである。しかし(1)は使用開始直
後の音声にしか作動しないため、実用上問題には
ならない。

次に第２の実施例の場合について述べる。第５
図において内容が指定された音声（例えば「ナニ
ヌネノ」という音声）が入力され（判断ツ）、第
１の実施例と同様の手順により音響分析（処理
ネ）、セグメンテーシヨン・音素判別(1)（処理
ラ）、標準パタンの選択（処理ム）を行なう。次
に選択された標準パタン群の内容をその音声に適
合するように修正する（処理マ）。その結果を標
準メモリへ転送し（処理イ）、第１の実施例と同
様に音素認識（処理ノ）、単語認識（処理ヲ）を
行ない、認識結果を出力（処理ク）１最初の入力
待ちにもどる。

次に入力された音声に対してはすでに標準パタ
ン群の選択および修正が終了しているため、修正
後の標準パタン群を用いてセグメンテーシヨン・
音素判別(2)を行ない、音素認識（処理ノ）、単語
認識（処理ヲ）して認識結果が出力される。

なお自動選択（第１の機能）と自動修正（第２
の機能）の両機能を有する場合、前実施例では特
定の音声に基づいて標準パタン群の自動選択、自
動修正を行なう例について述べたが、始めに任意
の音声に基づいて標準パタン群の自動選択を行な
い、次に特定の音声を入力して自動修正を行なつ
ても良いことはもちろんである。

第１の実施例の効果を確かめるため、男性グル
ープ10名、女性グループ10名の音声を用いて標準
パタン群の自動選択の評価を行なつた。例えば女
性AKの音声がどちらかの標準パタン群に属する
かを選択する実験条件として、男性グループの標
準パタン群は男性10名の音声を用いて構成し、女
性グループの標準パタン群はAKを除く他の９名
の音声で構成し評価した。その結果、最初の入力
音声で女性CSを除き20名中19名が男性は男性グ
ループに、女性は女性グループに正しく判定でき
ることがわかつた。正しく判定できなかつた女性
CSは入力音声の内容によつて男性グループに入
つたり女性グループに入つたりし、不安定である
が、標準パタン群の自動修正を行なえば安定した
認識率の得られることがわかつた。

第２の実施例の効果を確かめるために、女性10
名を対象にフレーム単位での音素認識率の評価を
行なつた。評価は５母音および鼻音（｜ｍ｜，｜
ｎ｜と｜Ｎ｜）を対象とし、平均認識率とバラツ
キを表わす標準偏差を用いて行なつた。結果を第
６図に、横軸を話者別にして示す。４１は従来の
方法による、用意された全ての標準パタン群を用
いて最大類似度を得る標準パタンに相当する音素
を認識結果とすることにより求めた認識率であ
る。平均認識率は74.6％、標準偏差は6.01％であ
る。４２は第１の機能である自動選択の効果を示
すもので、女性が正しく女性グループに選択され
た場合に、女性グループ専用の標準パタン群を使
用することにより従来より性能を向上できること
がわかる。平均認識率は79.4％、標準偏差は5.34
％である。平均認識率は従来より4.8％向上し、
バラツキも減少する。４３は第２の機能である自
動修正の効果を示すもので、入力音声の内容が既
知の場合に（例えば「ナニヌネノ」）、その入力音
声を用いて女声グループ専用の標準パタン群の内
容を修正することによつて性能を大幅に向上でき
ることがわかる。平均認識率は85.0％、標準偏差
は2.01％である。平均認識率は従来に比し10.4％
の大幅な向上が得られる。特に従来認識率の低か
つた話者YI，YM，KKが改善されることによ
り、バラツキは従来の半分以下になり、話者に依
存しない安定な認識が実現できる。

発明の効果以上述べたように本発明は、音声認識装置に学
習部を設け、あらかじめ多数話者の音声をグルー
プ分けしてグループ毎に用意された標準パタン群
を、入力音声によつて自動的に選択し、前記選択
結果に基づく標準パターン群を、プロセツサ部で
得られた位置情報に基づき修正することにより、
使用者の声に最も適した標準パターン群が選択で
き、かつ選択された標準パターン群を使用者の声
に合うように修正することにより、不特定多数の
使用者に安定した高い認識精度を得ることができ
るとともに計算量を大幅に減らすことにより、音
声認識装置の低価格化と高速化をはかることがで
きる。

【図面の簡単な説明】

第１図は従来の音声認識装置のブロツク図、第
２図は本発明の一実施例における音声認識装置の
ブロツク図、第３図は本発明の一実施例における
標準パタン群の自動選択機能を説明するフローチ
ヤート、第４図は本発明の他の実施例における標
準パタン群の自動修正機能を説明するフローチヤ
ート、第５図は本発明の音声認識装置の認識手順
の一例を示すフローチヤート、第６図は本実施例
による音素認識率を従来例と比較した図である。２３……線形予測分析プロセツサ、２４……類
似度計算部、２６……セグメンテーシヨン部、２
８……メインプロセツサ、２９……単語辞書メモ
リ、３２……学習部、３３……標準パタン格納
部、３４……選択部、３５……修正部、３６……
バツフア。

Claims

【特許請求の範囲】１入力音声よりフレーム周期ごとに得られたス
ペクトル又はそれに類似する情報（以下スペクト
ル情報と記す）を算出する音響分析部と、入力音
声の音声区間の検出と音素毎のセグメンテーシヨ
ンを行うセグメンテーシヨン部と、多数話者から
なる標準音声信号から、性質の類似した話者ごと
に分類された複数の標準パターン群を予め格納す
る標準パターン格納部と、前記標準パターン格納
部の標準パターン群と前記スペクトル情報とを用
いて音素ごとの類似度を求める類似度計算部と、
前記類似度計算部とセグメンテーシヨン部の結果
から少なくとも母音部を決定し、その中心フレー
ムを示す位置情報を選択するプロセツサ部と、前
記プロセツサ部からの位置情報に基づき、標準パ
ターン格納部内の標準パターン群の選択を少なく
とも行う学習部と、前記プロセツサ部で作成され
た音素又は音節系列と比較する単語辞書を格納す
る単語辞書部とを具備し、前記学習部が、プロセ
ツサ部で得られた位置情報に基づき、統計的距離
尺度による類似度和の最も大きい標準パターン群
又は最大類似度になる標準パターンの数の最も多
い標準パターン群を選択する選択部と、前記選択
結果に基づく標準パターン群を、プロセツサ部で
得られた位置情報に基づき修正する修正部とで構
成されていることを特徴とする音声認識装置。２標準パターン格納部が第１と第２の格納部か
らなり、第１の格納部に少なくとも共分散逆行列
及び平均値が、第２の格納部に重み係数及び平均
距離が標準パターン群ごとに格納されていること
を特徴とする特許請求の範囲第１項記載の音声認
識装置。