JPS6350896A

JPS6350896A - 音声認識装置

Info

Publication number: JPS6350896A
Application number: JP61196269A
Authority: JP
Inventors: 陽一山田; 高橋　圭子
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1986-08-21
Filing date: 1986-08-21
Publication date: 1988-03-03
Also published as: JPH0465392B2; US4979212A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）この発明は音声認識装置、特にパタンマツチング方式の
音声認識装置に関するものである。

（従来の技術）音声認識を行うための一般的な技術としてパタンマツチ
ングによる技術がある。

パタンマツチングは、入力音声に対して所定の時間間隔
（以後、フレームと称す）毎に特徴量（一般的によく用
いられる例として複数の異なる中心周波数（以後、この
番号付けをチャネルと称す）によるバンドパスフィルタ
分析がある）を抽出する処理を音声始端時刻より音声終
端時刻まで行い、その結果得られる時系列特徴ベクトル
を予め用意されている標準パタン（認識カテゴリ名々に
ついてそのカテゴリの標準的と考えられる時系列特徴ベ
クトル）と類似度計算を行い、全ての標準パタンの中で
類似度が最大となる標準パタンが属するカテゴリ名を認
識結果とする技術である。

このマツチング技術の例として次の２つがあげられる。

先ず、第１例は線形マツチング法と呼ばれる技術である
。例えば、文献：沖研究開発第１１８号ＶＯ１，４９、
Ｐ、５３〜Ｐ、５８に開示されているように、入力され
た音声パタンを時間軸方向に線形伸縮させて発声速度の
違いを吸収し、音声標準パタンと対応づけてマツチング
を行うものである。

第２例は、ＤＰマツチング法と呼ばれる非線形マツチン
グ技術である。これは特公昭５０−２３９４１号に開示
されているが、動的計画法を用いて音声パタンと音声標
準パタンを時間軸方向に非線形に対応させ、発声速度の
変動等の歪みを最適化する方法等を用いてマツチングを
行うものである。

パタンマツチング技術は、同一の分析処理を施した音声
パタンと音声標準パタンとの相違を類似度で評価し、最
大の類似度を与える音声標準パタンのカテゴリ名を認識
結果とする技術であった。

これは音声パタンと音声標準パタンとが同じカテゴリで
ある場合は、類似度は大きくなることか期待され、逆に
、異なるカテゴリである場合は、類似度は小さくなるこ
とが期待されるからである。

（発明が解決しようとする問題点）しかし、個人差や発声時の周囲の状況等で発声速度に様
々な変動がみられ、同一カテゴリといえども両者の類似
度が大きくなるとはいえない。

又、音声は発声速度の変動に伴い、母音部では大きく伸
縮し、子音部ではあまり伸縮しないため、時間軸方向の
線形伸縮では音声パタンと音声標準パタンとの対応がう
まくいかない。即ち、音声パタンの母音部に音声標準パ
タンの母音部がうまく対応しなくなる場合が起こり、類
似度が大きくなるといえない。

前述の従来のマツチング技術の第１例である線形マツチ
ングは、このような変動に対処するため、１つのカテゴ
リに対して複数の音声標準パタンを用意している。しか
し、この技術では発声速度の変動を予想した多数の音声
標準パタンを格納しなければならず、メモリ容量が大き
くなる問題点がある。

この従来のマツチング技術の第２例のＤＰマツチング法
は、この多数の音声標準パタンをもつ線形マツチングの
問題点を解決するために考えられた技術の１つである。

この技術は、音声の非線形な伸縮を動的計画法を用いて
対処しており、音声標準パタンの数は少なくてすむが、
音声パタンと音声標準パタンとの最適対応づけを決定す
る処理が複雑であるため回路規模が大きくなり、装置が
大型化するという問題点がある。

この発明は、以上述べた従来用いられている線形マツチ
ング技術においては、音声の発声速度の変動に対処する
ために多数の音声標準パタンをもつ必要があるために大
容量のメモリが必要となるという問題点と、発声の非線
形な伸縮に対処するＤＰマツチング法の処理の複雑さの
ため回路規模が大きくなるという問題点とを解決するた
めに成されたものである。

従って、この発明の目的は、隣接フレームとのフレーム
間距離累積値を用いた時間軸非線形分割技術と、音声標
準パタン数が少なくて済む簡単な線形マツチング技術と
を用いることによって、メモリ容量が小さく、処理が簡
単な認識精度の良い音声認識装置を提供することにある
。

（問題点を解決するための手段）この目的の達成を図るため、この発明は、入力音声に対
し周波数分析を施し音声区間を決定された音声パタンに
対し所要の処理を行う下記のような手段を具える。即ち
、 ■音声の始端フレームから終端フレームまでに存在する
音節数を音声パワーの変化量などから抽出し、各音節の
開始フレーム番号及び終了フレーム番号を決定する手段
を具える。

■各音節に含む分割領域数を各音節に対してほぼ同等と
なるよう決定する手段を具える。但し、音節間の部分（
直前音節の終了フレームから該音節の開始フレーム）で
１つの分割領域となるように決定する。

■音声の始端フレームから終端フレームまでの各フレー
ム毎にその直前のフレームとの間でフレーム開路＃ｔ（
スペクトル距離）を算出する手段を具える。

この場合、隣接するフレーム間での差が小さい周波数成
分については距離値加算を行わないようにすることが好
適である。又、音声パワーが小であるフレームについて
は距離値を相対的に小とする操作を行うことによって距
離値を算出するのが好適である。

■音節開始フレームより音節終了フレームまでの各フレ
ーム毎に当該フレームまでのフレーム間距離の累積加算
値を逐次算出する手段を具える。

■各音節毎に該音節終端フレームの累積距離加算値より
該音節開始フレームの累積距離加算値を減算した値を０
項で該音節に対して与えられた分割領域数で等分割した
値に該音節開始フレームの累積距離加算値を加算した値
を等分割された分割点での累積距離加算値を分割点決定
閾値として求める手段を具える。

■各音節毎に累積距離加算値が音節開始フレームから時
間軸正方向に向って各分割点決定閾値を初めて越えるフ
レームを分割領域始端フレームとすることで音声パタン
を非線形分割する手段を具える。

■１つの分割領域始端フレームと、分割領域終端フレー
ムとまでの区間内での時間軸正規化パタンの代表的なス
ペクトルを音声パタンとして出力する手段を具える。

（作用）このように、この発明によれば、標準パタンとの線形マ
ツチングを行うべき音声パタンを、入力音声の各音節間
の発声の時間長の大小関係のばらつきの影響を受けない
時間軸分割を行って得られた時間軸正規化パタンとした
ので、線形マツチングによる認識処理の性能が高い。

（実施例）以下、図面を参照してこの発明の音声認識装置の実施例
につき説明する。

第１図はこの発明の音声認識装置の実施例を示すブロッ
ク図、′ｆＪＺ図は音声パタンの時間軸分割の処理を行
う機能手段を示す機能ブロック図、第３図（Ａ）〜（Ｇ
）はその処理手順を示す流れ図である。尚、ここで説明
する処理手順は単なる好適例であり、他の手段であって
もこの発明での処理を行うことが出来る。

入力信号Ｄ１は周波数分析部１０へ入力される。

周波数分析部ｌＯは所定の帯域数のバンドパスフィルタ
分析結果であるところの周波数スペクトルＤ２を所定の
時間間隔（フレーム）毎に算出。

し、音声信号記憶部１１及び音声区間検出部１２へ出力
する。

音声区間検出部１２は周波数スペクトル値の大きさ等か
ら始端時刻と終端時刻を決定し、始端時刻信号Ｄ３ＥＬ
び終端時刻信号Ｄ４を音声信号記憶部】ｌへ出力すると
共に、この発明の実施例では時間軸正規化部１３に対し
ても出力する。

音声信号記憶部１１は始端時刻から終端時刻まで（音声
区間）の周波数スペクトルを記憶し、所定のタイミング
でこの周波数スペクトルＤ５を時間軸正規化部１３へ出
力する。

この発明の実施例では、時間軸正規化部１３は第２図を
参照して後述する手順により時間軸正規化パタンＤ６を
算出しこの正規化パタンＤ６を類似度計算部１４へ出力
する。

類似度計算部１４は時間軸正規化パタンＤ６と予め標準
パタン記憶部１５に記憶されている全ての標準パタンと
の類似度を線形マツチングにより計算しく類似度の尺度
として市街地距離、ユークリッド距離等が挙げられる）
、各認識対象カテゴリに対する類似度を表す信号Ｄ７を
判定部１６へ出力する。

判定部１６は全ての認識対象カテゴリの中で最大の類似
度を与えるカテゴリ名を認識結果Ｄ８として出力する。

上述した音声認識装置において、周波数分析部１０、音
声信号記憶部１１、音声区間検出部１２、類似度計算部
１４、標準パタン記憶部１５及び判定部１６等の各構成
部の機能及び構成は、従来提案されている音声認識装置
に用いられている対応する構成部と同一または類似して
いるので、その詳細な説明は省略する。

従って、次に第２図に示す機能ブロック図及び第３図（
Ａ）〜（Ｇ）に示す動作の流れ図に従って、この発明の
装置の一生要部となる時間軸正規化部１３の動作につき
詳細に説明する。尚、以下の説明において処理のステッ
プをＳで示す。

［１］音節数検出手段（第２図に２０で示す）これは音
声区間内に存在する音節数を音声パワーの変化から検出
し、各音節の始端フレームと終端フレームを決定する手
段である。

音声始端フレーム番号を５ＦＲ１音声終端フレ一ム番号
をＥＦＲ１周波数分析チャネル数をＣＨＮＮＯとする。

先ず音声区間内における周波数スペクトル強度をＳ（ｉ
、ｊ）但し、ｉ：チャネル番号、ｊ：フレーム番号）を
求める（Ｓｌ）。次に音声パワーＰＯＷ（ｊ）即ちを算
出する（Ｓ２）。次に音声区間内におけるＰＯＷ（ｊ）
の最大値ＭＡＸＰＯＷを求メル（Ｓ３）。音節開始フレ
ーム番号を５ＳＦＲ（Ｌ）、（Ｌ；音節番号）、音節終
了フレーム番号をＥＥＦＲ（Ｌ）、（Ｌ；音節番号）と
する。

５ＳＦＲ（１）＝ＳＦＲと初期設定した後（Ｓ４）、始端フレームＳＦＲから時
間軸正方向へ向って、ＰＯＷ（ｊ）≦ＭＡＸＰＯＷ／Ｎ（但し、Ｎは経験によって定められる正の定数とする）を満足するフレームが所定の閾値以上継続したかどうか
判定しくＳ５）、継続していた時、該区間の開始フレー
ム番号から１を差し引いた値を該音節の終了フレーム番
号とすると共に、該区間の終了フレーム番号に１を加算
した値を次の音節の開始フレーム番号とする（Ｓ６）。

継続していない時はステップＳ５を縁り返す。

上記操作を終端フレームＥＦＲまで終了していない時は
Ｓ５、Ｓ６のステップを終端フレームまで繰り返し行う
。

終端フレームまで行った後、検出した音節数ＶＮＯを求
め（Ｓ８）、続いてＥＥＦＲ（ＶＮＯ）＝ＥＦＲ（ＶＮＯ，検出した音節数）を求め（Ｓ９）、この手段の処理を終える。

［２］分割領域数決定手段（第２図に２１で示す）これ
は検出した各音節区間（音節開始フレームから音節終了
フレームまで）の分割領域数を各音節間でほぼ同等とな
るよう設定する手段である。

所定の時間軸分割数をＤＩＶとする時、検出した各音節
区間の分割領域数ＤＮＯ（ｋ）（但し、ｋ；領域番号）
を求める。そのため、先ず（Ｄ　Ｉ　Ｖ−ＶＮＯ＋　１
　）／ＶＮＯ＝Ａを求める（　Ｓ　１０）。次にＭ＝ＭＯＤ　（Ｄ　ＩＶ−ＶＮＯ＋１、ＶＮＯ）（ＭＯ
Ｄ　（Ｂ、Ｃ）はＢをＣで除算した余り）としたとき、
Ｍ＞０　（Ｓｌｌ）である時は、ＤＮＯ（ｋ）＝ＩＮＴ
　（Ａ）（ｋ＝１〜ＶＮＯ）（ＩＮＴ（Ａ）はＡを小数
点以下切捨てた値）を求める（ＳＩ２）。次に音節フレ
ーム数（音節開始フレームから音節終了フレームまでの
フレーム数）が大である音節から順番に分割領域数ＤＮ
Ｏ（ｋ）に１を加算する処理を余りＭに対応するＭ個の
音節について行う（Ｓ　＋３）。

例えば、ＴＤ　Ｉ　Ｖ＝８、ＶＮＯ＝２である時、とな
る。

一方、Ｍ＝Ｏであるときは、上述したような余りの分配
は行わずに全ての音節に対してＤＮＯ（ｋ）＝Ａが求ま
る（　Ｓ　＋４）。

［３］　フレーム開路Ｓ算出手段（第２図に２２で示す
）これは、音声区間内のあるフレームの音声パタンと、こ
のフレームの直前のフレームの音声パタンとの間の距離
、即ちフレーム間距ｍ＜又はスペクトル距離或はベクト
ル間距離ともいう）を音声パワーを加味して算出する手
段である。

先ず、音声区間内のあるフレーム（３番目のフレームと
する）における音声パワーが加味されていないフレーム
間距離ＤＳＴ（ｊ）は第（１）式で定義される。

但し、ＳＵＢ　（ｉ）＜ＤＴＨＬのとき５ＵＢ（ｉ）＝
０　・　・　・　・　・　・　・　・　・　・　・　（
２）尚、ここでＳＵＢ　（ｉ）はフレーム間での周波数
スペクトル強度差であって、ＤＴＨＬは閾値である。こ
のとき閾値ＤＴＨＬの値は経験的に設定出来る。

従って先ず、ＳＵＢ　（ｉ）を求め（Ｓ１５）、続いて
ＳＵＢ　（ｉ　）＜ＤＴＨＬかどうかの判定を行い（Ｓ
１６）、これを満足する場合には５ＵＢ（ｉ）＝０とし
く５Ｉ７）、満足しない場合には５ＵＢ（ｉ）はステッ
プ（Ｓ　＋５）にて算出した値とする。次に、これらの
結果を用いてＤＳＴ（ｊ）を算出する（ＳＩ８）。

第（１）式で定義される距５ｉＤＳＴ（ｊ）は、第（２
）式の条件を加えることで音声区間中の母音定常部の如
く、スペクトル変化が小さい部分で距離値が相対的に小
さくなるようにしている。　　′この距離ＤＳＴ（ｊ）
に音声パワーｐｏｗ（ｊ）によるパワー加重を行ったも
のを、あるフレームにおけるフレーム間距離ＤＳＴＰ　
（ｊ）とする。

ＤＳＴＰ（ｊ）は第（３）式のように定義する。

ｏＳＴＰ（ｊ）ＪＳＴ（ｊ）　ｘ　ＰｏＷ（ｊ）／Ｃ０
Ｎ５Ｔ　・−・・・（３）但し、この（３）式の演算処理を行って（Ｓ　１９）、ＤＳＴ
Ｐ（ｊ）を求める。

このように、パワー加重を行うことにより、音声区間中
の無音区間（破裂音の直前に発声し、音声パタンのレベ
ルは無音時と同等になり、音声信号の特徴を表すスペク
トルは出力されない区間）における距離値が相対的に小
さくなるよう設定する。

第（２）式及び第（３）式による処理を行うことにより
、発声速度の変動が小さい子音部や非定常部における前
記距離値は相対的に大きくなる。

上記処理を音声始端フレームＳＦＲから音声終端フレー
ムＥＦＲまで行う（Ｓ　２０）。

［４〕累積距離加算値算出手段（第２図に２３で示す）これは始端フレームから終端フレームまでの各フレーム
毎に該始端フレームからそれぞれのフレームまでの前記
フレーム間距離を逐次加算して累積距離加算値として算
出する手段である。

求められたフレーム開路１ｉ１ＤｓＴＰ（ｊ）の全フレ
ームにわたる累積距離加算値ＳＵＭ（ｊ）を算出する（
　Ｓ　２２）。

第（４）式の操作をフレーム番号ＳＦＲからフレーム番
号ＥＦＲまで逐次行う（Ｓ　２３）。

［５〕分割点決定閾値設定手段（第２図に２４で示す）これは検出した各音節毎に、前記累積距離加算値の値よ
りｂ）項で与えられた分割領域数に分割するための分割
点決定閾値を算出する手段である。。

ここでは上述した［４〕項で算出した累積距離加算値Ｓ
ＵＭ（ｊ）を用いて分割点となるフレームを決定する分
割点決定閾値ＢＴＨＬ　（ｍ）を求める。分割点決定閾
値ＢＴＨＬ　（ｍ）は以下のように定義される。

音節数検出手段２０で検出した音節数ＶＮＯが１である
か又は２以上であるかを判定する（Ｓ２４）。

〔１〕までＶＮＯが１である場合ＢＴＨＬ（ｍ）−５ＵＭ（ＥＦＲ）Ｘｍ／ＤＩＶ　　−
・　−・　・　・　・　（５）の演算処理を行う（Ｓ　
２５）。但し、ＥＦＲ、終端フレーム番号、ｍ　＝　１
〜（Ｄ　Ｉ　Ｖ　−１）（２〕検出した音節数ＶＮＯが
２以上である場合音節番号にとした場合に以下の処理を
行う。

（ａ）ＤＮＯ（ｋ）＞１であるか否か決定しく５２６）
、ＤＮＯ（ｋ）＞１である音節についてのみ以下の操作
を行う（Ｓ２７）。

＋　ＳＵＭ　（ＳＳＦＲ（ｋ）　）但し、２＝１〜ＤＮＯ（ｋ）−１、（ｂ）次に、ｋ≠ＶＮＯであるか否か判定しくＳ２８）
、に≠Ｖ　Ｎ　Ｏである時のみ以下の操作を行う。

先ずＢＴＨＬ　（ｎｓ）　＝ＳＵＭ　（ＥＥＦＲ（ｋ））を
求め（Ｓ２９）、次にＢＴＨＬ（ｎｓ＋１）＝ＳＵＭ（ＳＳＦＲ（ｋ＋１））
を求める（　Ｓ　３０）。但し、これらにおいてしである。

［６］分割領域始端フレーム番号決定手段（第２図に２
５で示す）これは累積距離加算値が、前記始端フレームより時間軸
正方向に向って前記各分割点決定閾値を初めて越えるフ
レームを分割領域始端フレームとする時間軸非線形分割
を行う手段である。

機能ブロック２３及び２４から得られる累積距離加算値
ＳＵＭ（ｊ）及び分割点決定閾値ＢＴＨＬ（ｍ）からＳＵＭ（ｊｌｌｌ）　＜　　ＢＴＨＬ（ｍ）５５０Ｍ（
ｊ−＋　１）の条件をみたすフレーム番号ｊ、を判定し
く５３１）、このフレーム番号ｊ１が（ｍ＋　１　）番
目の分割領域始端フレームＢ　（ｍ）となる処理（Ｓ３
２）を所定の数の分割領域について行い（Ｓ３３）、所
定の分割数の時間軸非線形分割が終了する。

［７］時間軸正規化パタン出力手段（第２図に２６で示
す）次に、１つの分割領域始端フレームと、分割領域終端フ
レームまでの区間内での時間軸正規化パタンを出力する
。この場合、例えば、当該区間内での平均化パタンを全
分割領域についてそれぞれ求める（Ｓ３４．５３５）。

以上の各機能手段２０〜２６によって順次に行われるス
テップＳ２０〜ステツプＳ３５で時間軸正規化部９の動
作は終了する。

次に、このようにして求められた代表スペクトルすなわ
ち時間軸正規化パタンを類似度計算部１４へ送り、既に
説明した通り、そこで予め用意された全ての音声標準パ
タンとの類似度を求める。この類似度を表わす信号を判
定部１６に送り、そこでは既に説明した通り、全ての音
声標準パタンの中で最大の類似度をもつ音声標準パタン
に与えられるカテゴリを認識結果として出力させる。

次に、第４図（Ａ）及び第４図（Ｂ）は音声「ハジメ」
を例にとって各音節「ハ」、「ジ」、「メ」の発声時間
長の大小関係が異なる場合の時間軸分割の時間軸分割数
Ｄ　Ｉ　Ｖ＝８として動作を示したものである。第４図
（Ａ）及び（Ｂ）において横軸にフレーム番号ｊをプロ
ットして示し、それぞれの上側の図は縦軸に音声パワー
をプロットして示し、下側の図は累積距離加算値ＳＵＭ
（ｊ）をプロットして示しである。尚、第４図（Ａ）及
び（Ｂ）の右側には分割点決定閾値ＢＴＨＬ　（ｍ）（
ｍ＝　１．２、・・・、７）を示してあり、横軸の下側
にこれら閾値によって分割される領域の分割領域始端フ
レームＢ（ｍ）（ｍ＝１．２、・・・・７）が示しであ
る。

第４図（Ａ）は「ハ」の発声時間長が短く、「メ」の発
声時間長が長いが、第４図（Ｂ）では「ハＪの発声時間
長が長く、「メ」の発声時間長が短い。これら図からも
理解出来るように、発声時間長の相違の影響を受けるこ
となく、同じ分割領域番号に同じ音節部分を含む動作を
している。

（発明の効果）上述した説明から明らかなように、この発明によれば、
入力音声の各音節間の発声時間長の大小関係のばらつき
の影響を受けない時間軸分割を行い、標準パタンとの線
形マツチングにより認識処理を行う方法としたので、認
識性能の高い音声認識装置の実現が可能となる。

【図面の簡単な説明】

第１図はこの発明の音声認識装置の実施例を示すブロッ
ク図、第２図はこの発明の主要部である時間軸正規化部での処
理を実行するための機能ブロック図、第３図（Ａ）〜（
Ｇ）はこの発明の時間軸正規化の処理手順を示す流れ図
、第４図（Ａ）及び（Ｂ）はこの発明の時間軸正規化の結
果を説明するための図である。１０−・・周波数分析部、　　１１−・・音声信号記憶
部１２−・・音声区間検出部、　１３−・・時間軸正規
化部１４・・・類似度計算部、　　１５・−標準パタン
記憶部１６−・・判定部、　　　　　２０−・・音節数
検出手段２１−・・分割領域決定手段２２−・・フレーム間距離算出手段２３・・・累積距離加算値算出手段２４−・・分割点決定量値設定手段２５−・・分割領域始端フレーム番号決定手段２６・・
・時間軸正規化パタン出力手段。特許出願人　　　　沖電気工業株式会社Ｔｌ４ＰＡ軸分
官・Ｉの処理８行つ棋託ゾロｙフ図第２図今割釦熾数決定の流れ図第３図（１３）第３図（［））

Claims

【特許請求の範囲】

（１）入力音声に対し音声分析処理を行った後、検出さ
れた音声区間内の音声パタンと、予め用意されている音
声標準パタンとの線形マッチングによって類似度を求め
、全ての音声標準パタンの中で最大の類似度をもつ音声
標準パタンのカテゴリ名を認識結果として出力させるこ
とにより音声認識を行う音声認識装置において、ａ）前記音声区間内に存在する音節数を音声パワーの変
化から検出し、各音節の始端フレームと終端フレームを
決定する手段と、ｂ）前記検出した各音節区間（音節開始フレームから音
節終了フレームまで）の分割領域数を各音節間でほぼ同
等となるよう設定する手段と、ｃ）前記音声区間の始端
フレームから終端フレームまでの各フレーム毎に当該フ
レームの音声パタンと当該フレームの直前フレームの音
声パタンとの間のフレーム間距離を算出する手段と、ｄ
）前記始端フレームから終端フレームまでの各フレーム
毎に該始端フレームからそれぞれのフレームまでの前記
フレーム間距離を逐次加算して累積距離加算値として算
出する手段と、ｅ）前記検出した各音節毎に、前記累積距離加算値の値
よりｂ）項で与えられた分割領域数に分割するための分
割点決定閾値を算出する手段と、ｆ）累積距離加算値が
、前記始端フレームより時間軸正方向に向って前記各分
割点決定閾値を初めて越えるフレームを分割領域始端フ
レームとする時間軸非線形分割を行う手段と、ｇ）この時間軸非線形に分割された区間毎の時間軸正規
化パタンの代表スペクトルを前記音声パタンとして出力
する手段とを具えることを特徴とする音声認識装置。
（２）前記分割点決定閾値の算出は、ａ）検出した音節数が１以下である場合、前記終端フレ
ームにおける累積距離加算値を所定の時間軸分割数で等
分割した値とし、ｂ）検出した音節数が２以上である場合、検出した各音
節毎に該音節の開始フレームにおける累積距離加算値と
、該音節の終了フレームにおける累積距離加算値から該
音節の開始フレームにおける累積距離加算値を減算した
値を該音節の分割領域数で等分割した値を加算した値、
該音節の終了フレームにおける累積距離加算値及び該音
節の時間軸正方向に隣接する音節の開始フレームにおけ
る累積距離加算値とする処理を逐次行うことにより算出
することを特徴とする特許請求の範囲第１項に記載の音声認
識装置。
（３）前記代表スペクトルを分割された区間内における
平均スペクトルとしたことを特徴とする特許請求の範囲
第１項に記載の音声認識装置。
（４）前記代表スペクトルを分割された区間内において
最大の音声パワーを与えるフレームに対応するスペクト
ルとしたことを特徴とする特許請求の範囲第１項に記載
の音声認識装置。
（５）前記代表スペクトルを分割された区間内の中心に
位置するフレームにおけるスペクトルとしたことを特徴
とする特許請求の範囲第１項に記載の音声認識装置。