JPS61174600A

JPS61174600A - 音声認識装置

Info

Publication number: JPS61174600A
Application number: JP60015846A
Authority: JP
Inventors: 雅男渡; 曜一郎佐古; 誠赤羽; 平岩　篤信
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1985-01-30
Filing date: 1985-01-30
Publication date: 1986-08-06
Anticipated expiration: 2009-04-27
Also published as: JPH0632008B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】以下の順序でこの発明を説明する。

Ａ　産業上の利用分野Ｂ　発明の概要Ｃ従来の技術Ｄ　発明が解決しようとする問題点Ｅ　　ｆ８１！Ｉ点を解決するための手段（第１図）Ｆ
　作用（第２図）Ｇ　実施例Ｇ１　音響分析回路の説明（第３図）０２　時間正規化処理の説明（第３図、第４図、第５図）Ｇ３　パターンマツチング処理の説明（第３図）Ｈ発明
の効果八　産業上の利用分野この発明は、前もって作成し記憶しである認識対象語の
標準パターンと、認識したい語の入カパクーンとのパタ
ーンマツチングを行うことによりなす音声認識装置に関
する。

Ｂ　発明の概要この発明はパターンマツチングにより音声認識をなす装
置において、そのマツチングをとるパターンとして、入
力音声信号の音声区間で音響分析して得た音響パラメー
タ時系列がそのパラメータ空間で描く軌−を推定しその
軌跡を所定間隔で再サンプリングして得た新たな認識パ
ラメータを用いるとともに、軌跡を推定するとき常に無
音部から軌跡が始まるようにし、かつ、新たな認識パラ
メータ時系列もこの無音部から始まるようにして、入力
信号から音声区間を判定するときのずれがあっても、認
識パラメータ時系列にはその影響が殆んどないようにし
たものである。

Ｃ従来の技術音声は時間軸に沿って変化する現象で、スペクトラム・
パターンが刻々と変化するように音声を発声することに
よって固有の単語や言葉が生まれる。この人間が発声す
る単語や言葉を自動認識する技術が音声認識であるが、
人間の聴覚機能に匹敵するような音声ｌ！識を実現する
ことは現在のところ至難のことである。このため、現在
実用化されている音声認識の殆んどは、一定の使用条件
の下で、認識対象単語の標準パターンと入力パターンと
のパターンマツチングを行なうことによりなす方法であ
る。

第６図はこの音声認識装置の概要を説明するための図で
、マイクロホン（１）よりの音声入力が音響分析回路（
２）に供給される。この音響分析回路（２）では入力音
声パターンの特徴を表わす音響パラメータが抽出される
。この音響パラメータを抽出する音響分析の方法詔種々
考えられるが、例えばその−例としてバンドパスフィル
タと整流回路を１チヤンネルとし、このようなチャンネ
ルを通過帯域を変えて複数個並べ、このバンドパスフィ
ルタ群の出力としてスペクトラム・パターンの時間変化
を抽出する方法が知られている。この場合、音響パラメ
ータはその時系列Ｐｉ（ｆｌ（ｉ−１，２・・・ＩＩＩ
は例えばバンドパスフィルタのチャンネル数、ｎ−１，
２・・・ＮＵＮは音声区間判定により判定された区間に
おいて認識に利用されるフレーム数）で表わすことがで
きる。

この音響分析回路偉）よりの音響パラメータ時系列Ｐｉ
（ｎ）は、例えばスイッチからなるモード切換回路（３
）に供給される。この回路（３）のスイッチが端子Ａ側
に切り換えられるときは登録モード時で、音響パラメー
タ時系列ｐｕｎ）が認識パラメータとして標準パターン
メモリ（４）にストアされる。つまり、音声認識に先だ
うて話者の音声パターンが標準パターンとしてこのメモ
リ（４）に記憶される。なお、この登録時、発声速度変
動や単語長の違いにより一般に各登録標準パターンのフ
レーム数は異なっている。

一方、このスイッチ（３）が端子Ｂ側に切り換えられる
ときは認識モード時である。そして、この認識モード時
は、音響分析回路伐）からのそのときの入力音声の音響
パラメータ時系列が入力音声パターンメモリ（５）に供
給されて一時スドアされる。そしてこの入力パターンと
標準パターンメモリ（４）から読み出された複数の＃１
ｔｉｌＩ対象単語の標準パターンのそれぞれとの違いの
大きさが距離算出回路（６）にて針算され、そのうち入
力パターンと標準パターンとの差が最小の認識対象単語
が最小値判定回路（力にて検出され、これにて入力され
た単語が認識される。

このように、登録された標準パターンと入力パターンの
パターンマツチング処理により入力音声の認識を行なう
ものであるが、この場合に同じ単語を同じように発声し
てもそのスペクトラムパターンは時間軸方向にずれたり
伸縮したりすることを考慮しなければならない、すなわ
ち、例えば「ハイ」という単語を認識する場合、標準パ
ターンが「ハイ」で登録されているとき、入力音声が「
ハーイ」と時間軸方向に伸びてしまった場合、これは距
離が大きく違い、全く違った単語とされてしまい、正し
いｌ！鴎ができない、このため、音声認識のパターンマ
ツチングでは、この時間軸方向のずれ、伸縮を補正する
時間正規化の処理を行なう必要があり、また、この時間
正規化は認識精度を向上させるための重要な処理である
。

この時間正規化の一方法としてＤ　Ｐ　（Ｄｙｎａｍｉ
ｃＰｒｏｇｒａ膳−ｉｎｇ　）マツチングと呼ばれる手
法がある（例えば特開昭５０−９６１０４号公報参照）
。

このＤＰマツチングの手法は次のように説明できる。

入力パターンＡを次のように表現する。

Ａ＝ａｔ　ａ２　＠　＃　’ａｋ　６　＠　＠、ｉＨ（
１）ここでａｋは時刻ｋにおける音声の特徴を表す量で
特徴ベクトルと呼び、ａｋ　−（ａｈｔ＋　　ａｈｘ、　　ｓ＊＋＋ｅｉｂｑ
ａ＋＊＊ｉｓ、ａ）　　　（２）で表わされる。Ｑはベ
クトルの次数で、音響分析にバンドパスフィルタ群を使
用したときはそのチャンネル数に相等する。

同様に特定の単語の標準パターンをＢとし、次のように
表わす。

Ｂ！ｂ、ｂ、・・・・ｂ、・・・・ｂ　Ｌ　　　　　　
　　（３）ｂ、　−（ｂオ１．ｔ）Ｉ１２＋　　・・・
・ｂ、ｑ、　　・・・・ｂ　１１ａ　）　　　（４）音
声パターンの時間正規化は第７図に示すように入力パタ
ーンＡと標準パターンＢの時間軸にとｌの間に写像操作
を行うものとみることができる。

この写像を関数１厘ｌ他）（６）と表現し、歪関数と呼ぶ、この歪関数がわかれば標準パ
ターンＢの時間軸をこれによって変換し、入力パターン
Ａの時間軸ｋにそろえることができる。換言すれば、こ
の歪関数によりパターンＢは、入力パターンＡの時間軸
ｋにそろえられたパターンＢ′に変換される。

ここで、Ｂ′露ｂｊ（υｂｊ（クリ・−ｂ１龜）・・−・ｂオ■
　　（６）である。

この歪関数は未知であるが、この歪関数の最適条件から
求めることができる。すなわち、一方のパターン例えば
標準パターンを人工的に歪ませて他方のパターン（入力
パターン）に最も類似するようにする（距離を最小にす
る）と、元の歪はなくなり、最適な歪関数が求まり、写
像パターンＢ′が求まる。

ＤＰマツチングは、この原理を実行するための手法であ
り、歪関数に次のような制約を与えて、写像パターンＢ
′を得るものである。

（ｉ）Ｊ（ｋ）は近似的に単調増加関数（ｉｉ）ｊ〜）
は近似的に連続関数（ｉｉＬ）ｊｌ（ｋ）はｋ（７）近傍の値をトル。

マツチング処理の結果として必要なものは、標準パター
ンと入力パターン間の距離で、で表わされる。ここで１
１１１は二つのベクトルの距離を示す、この距離の最小
のものが標準パターンＢと入力パターンＡを最適に時間
正規化し、時間歪を除去したうえでの両パターンの差を
表わす量Ｄ　（Ａ、Ｂ）であり、で定義できる。

したがって、登録された標準パターンが複数あるときは
、各標準パターンと入力パターンとの量Ｄ　（Ａ、Ｂ）
を求め、その量Ｄ　（Ａ、Ｂ）が最小になる標準パター
ンとマツチングしたと判定する。

以上のように、ＤＰマツチングは時間軸のずれを考慮し
た多数の標準パターンを用意してお（のではなく、歪関
数によって多数の時間を正規化した標準パターンを生成
し、これと入力パターンとの距離を求め、その最小値の
ものを検知することにより、音声認識をするものである
。

ところで、以上のようなりＰマツチングの手法を用いる
場合、登録される標準パターンのフレーム数は不定であ
り、しかも全登録標準パターンと入力パターンとのＤＰ
マツチング処理をする必要があり、語鴬が多くなると演
算量が飛曜的に増加する欠点がある。

また、ＤＰマツチングは、定常部（スペクトラムパター
ンの時間変化のない部分）を重視したマツチング方式で
あるので部分的類似パターン間で誤認識を生じる可能性
があった。

このような欠点を生じない時間正規化の手法を本出願人
は先に提案した（例えば特願昭５９−１０６１７７号）
。

すなわち、音響パラメータ時系列Ｐｉ（ｎｌは、そのパ
ラメータ空間を考えた場合、点列を描く０例えば！！識
対象単語がｒＨＡＩＪであるとき音響分析用バンドパス
フィルタの数が２個で、Ｐｉ（ｎ）＝　（Ｐｘ　　Ｐ２　）であれば、入力音声の音響パラメータ時系列はその２次
元パラメータ空間には第８図に示すような点列を・描く
、この図から明らかなように音声の非定常部の点列は粗
に分布し、準定常部は密に分布する。このことは完全に
音声が定常であればパラメータは変化せず、その場合に
は点列はパラメータ空間において一点に停留することと
なることから明らかであろう。

そして、以上のことから、音声の発声速度変動による時
間軸方向のずれは殆んどが準定常部の点列密度の違いに
起因し、非定常部の時間長の影響は少ないと考えられる
。そこで、この入力パラメータ時系列Ｐｉ（ｎ）の点列
から第９図に示すように点列全体を近億的に通過するよ
うな連続曲線で描いた軌跡を推定すれば、この軌跡は音
声の発声速度変動に対して殆んど不変であることがわか
る。

このことから、出願人は、次のような時間軸正規化方法
を提案した。すなわち、先ず入力パラメータの時系列Ｐ
ｉ（ｎ）の始端Ｐｉ（１）から終端Ｐｉ（６）までを△ 連続曲線Ｐｉ■で描いた軌跡を推定し、この推定した曲
線Ｐｉ■から軌跡の長さＳを求める。そして第１０図に
示すようにこの軌跡に沿って所定長Ｔで再サンプリング
する０例えばＭ個の点に再サンプリングする場合、Ｔ−３／ＣＭ−１）　　　　　　　　　　　　（９）の
長さを基準として軌跡を再サンプリングする。

この再サンプリングされた点列を描くパラメータ時系列
をＱｌ（’）（１”’１．２”・　Ｉ＋　ｆｆ１−Ｌ　
　２・・・・Ｍ）とすれば、このパラメータ時系列Ｑｉ
（ロ）は軌跡の基本情報を有しており、しかも音声の発
声速度変動に対して殆んど不変なパラメータである。

つまり、時間軸が正規化された認識パラメータ時系列で
ある。

したがって、このパラメータ時系列Ｑｉに）を標準パタ
ーンとして登録しておくとともに、入力パターンもこの
パラメータ時系列Ｑｌ（ホ）として得、このパラメータ
時系列Ｑｉ（ホ）により両パターン間の距離を求め、そ
の距離が最小であるものを検知して音声ｉｉａを行うよ
うにすれば、時間軸方向のずれが正規化されて除去され
た状態で音声認識が常になされる。

そして、この処理方法によれば、登録時の発声速度変動
や単語長の違いに関係なく認識パラメータ時系列Ｑｉ（
ホ）のフレーム数は常にＭであり、その上認識パラメー
タ時系列Ｑｉ（ホ）は時間正規化されているので、入力
パターンと登録標準パターンとの距離の演算は最も単純
なチェビシェフ距離を求める演算でも良好な効果が期待
できる。

また、以上の方法は音声の非定常部をより重視した時間
正規化の手法であり、ＤＰマツチング処理のような部分
的類似パターン間の誤認識が少なくなる。

さらに、発声速度の変動情報は正規化パラメータ時系列
Ｑｌ＠には含まれず、このためパラメータ空間に配位す
るパラメータ遷移構造のグローバルな特徴等の扱いが容
易となり、不特定話者認識に対しても有効な各種方法の
通用が可能となる。

なお、以下、この時間正規化の処理をＮＡＴ（Ｎｏｒｇ
＊ａｌｉｚａｔｉｏｎ　Ａｌｏｎｇ　Ｔｒａｊｅｃｔｏ
ｒｙ）処理と呼ぶ。

Ｄ　発明が解決しようとする問題点以上のＮＡＴ処理は、単語が発声されている音声区間内
の情報に対して行なわれるのは当然である。ところで、
この音声区間の判定は入力音声パヮーとゼロクロス点の
数から従来一般に行なっているので、同じ単語を発声速
度変動なしに発声したとしても音声の発声者により音声
区間と判定される区間は異なることが多い。このことは
音響パラメータ時系列の始点Ｐｉ（１）、さらに終端Ｐ
ｉ（財）が異なることになり、これから当然のように推
定される軌跡も変わってしまうことになる。特に始端Ｐ
ｉ（１）が異なればすべてその後も異なってしまうこと
になるので、パターンのずれは恒久的になり音声認識の
正確度が損われる。

Ｅ　問題点を解決するための手段第１図はこの発明による音声認識装置の基本的構成の一
例を示す図で第６図と対応する部分には同一符号を付す
。

この例の場合、音響分析回路（２）はバンドパスフィル
タ群を用いたものが用いられる。すなわち、マイクロホ
ン（１）からの音声信号はＡ／Ｄコンバータ（２１）に
供給されてデジタル信号に変換され、このデジタル信号
がデジタルバンドパスフィルタ群（２２）に供給されて
複数の周波数成分からなる信号に変換される。このバン
ドパスフィルタ群（２２）出力は特徴抽出回路（２３）
に供給される。

Ａ／Ｄコンバータ（２１）よりのデジタル音声信号は、
また、音声区間判定回路（２５）に供給されて、マイク
ロホン（１）に音声入力がなされた区間が判定され、そ
の判定出力が特徴抽出回路（２３）に供給される。

特徴抽出回路（２３）では、この音声判定区間において
バンドパスフィルタ群（２２）の出力から音響パラメー
タ時系列Ｐｉ（ｎ）が作成され、これが音響分析回路（
２）の出力とされる。この音声判定区間内における音響
パラメータ時系列Ｐｉ（ｎ）は無音付加回路（８）に供
給されて、音響パラメータ時系列の始点Ｐｉ（１）の前
に無音のときの音響パラメータが付加される。また、こ
の例では終点Ｐｉ（ロ）の後にも無音のときの音響パラ
メータが付加される。

この無音付加回路（８）の出力はＮＡＴ処理回路（９）
に供給されて、始点Ｐｉ（１）の前と終点Ｐｉ（へ）の
後に無音のパラメータが付加された状態の音響パラメー
タ時系列Ｐｉ（ｎ）’から前述したようにその音響パラ
メータ空間における軌跡が推定され、この軌跡に基づい
て新たな認識パラメータ時系列Ｑｉｈ）が形成される。

そして、このパラメータ時系列（ｌｉ■がモード切換回
路（３）を通じて、登録モード時は標準パターンメモ１
月４）にストアされて登録され、認識モード時は距離算
出回路（６）に供給されて、標準パターンメモ１月４）
からの複数の登録標準パターンとの距離が計算され、そ
の計算結果の最小の標準パターンが最小値判定回路（７
）にて判定され、その判定出力が認識出力とされる。

なお、実際的にはＮＡＴ処理はマイクロコンピュータを
用いて行なうもので、この場合無音付加回路（８）は特
に設けず、音声判定区間内の音響パラメータ時系列Ｐｉ
（ｎ）から軌跡を推定する際、パラメータ時系列Ｐｉ（
ｎｌの始点Ｐｉ（１）を軌跡の始点とせず、必ず無音を
始点として推定するようにしてもよい。

終端Ｐｉ（６）についても同様にできる。

Ｆ　作用以上の構成によれば、ＮＡＴ処理回路（９）において、
推定される軌跡は必ず始点が無音から始まり、またこの
例では無音で終わるので第２図で実線Ｑｌで示すような
軌跡を描く、そして、この軌跡から認識パラメータ時系
列Ｑｔに）が作成される。

したがって、音声区間判定回路（２４）において判定さ
れる区間は、同一単語であり、かつ、発声速度変動がな
かったとしても入力音声の大きさ等により常に定まった
音声区間とはならず、Ｐｉ（ｎ）はその区間のずれに影
響されるが、軌跡が常に無音部から始まるように推定さ
れるので、作成された認識パラメータ時系列Ｑｉに）に
は、この音声判定区間のずれの影響が生じない。

Ｇ　実施例第３図はこの発明による音声認識装置の一実施例で、こ
の例は音響分析に１５チヤンネルのバンドパスフィルタ
群を用いた場合である。

Ｇｌ’音響分析回路（２）の説明すなわち、音響分析回路（２）においては、マイクロホ
ン（１）からの音声信号がアンプ（２１１）及び帯域制
限用のローパスフィルタ（２１２）を介してＡ／Ｄコン
バータ（２１３）に供給され、例えば１２．５ｋＨｚの
サンプリング周波数で１２ビツトのデジタル音声信号に
変換される。このデジタル音声信号は、１５チヤンネル
のバンドパスフィルタバンク（２２）の各チャンネルの
デジタルバンドパスフィルタ　（２２１ｏ　）　　、　
　（２２１１）　、・・・・、　　（２２１ｚ４）に供
給される。このデジタルバンドパスフィルタ（２２１ｏ
　）　、　　（２２１１）　、　”、　　（２２１ｚ４
）は例えばバターワース４次のデジタルフィルタにて構
成され、２５０−から５．５ＫＨｚまでの帯域が対数軸
上で等間隔で分割された各帯域が各フィルタの通過帯域
となるようにされている。そして、各デジタルバンドパ
スフィルタ（２２１ｏ　）　、　　（２２１ｔ　）　。

・・・・、　　（２２１１４）の出力信号はそれぞれ整
流回路（２２２ｏ　）　、　　（２２２ｚ　）　、・・
・・、　　＜２２２ｔ＋）に供給され、これら整流回路
（２２２ｏ　）　、　　（２２２ｚ　）　。

・・・・（２２２１＋）の出力はそれぞれデジタルロー
パスフィルタ（２２３ｏ　）　、　　（２２３ｔ　）　
、・・・・、　　（２２３１４）に供給される。これら
デジタルローパスフィルタ（２２３ｏ　）　、　　（２
２３１）　、・・・・、　　（２２３１４）は例えばカ
ットオフ周波数５２．８ＨｚのＦＩＲローパスフィルタ
にて構成される。

音響分析回路（２）の出力である各デジタルローパスフ
ィルタ（２２３ｏ　）　、　　（２２３ａ　）　、・・
・・。

（２２３ｚ４）の出力信号は特徴抽出回路（２３）を構
成するサンプラー（２３１）に供給される。このサンプ
ラー（２３１）ではデジタルローパスフィルタ（２２３
ｏ）　、　　（２２３１）　、・・・・、　　（２２３
１４）の出力信号をフレーム周期５．１２ｍ１ｓｅｃ毎
にサンプリングする。したがって、これよりはサンプル
時系列ａｔ（ｎ）　（ｉ　−ａ−１，２，−−−−１５
；　ｎはフレーム番号でｎ−１ａ　　２　＊　・・・・
、Ｎ）が得られる。

このサンプラー（２３１）からの出力、つまりサンプル
時系列＾１（ｎ）は音源情報正規化回路（２３２）に供
給され、これにて認識しようとする音声の話者による声
帯音源特性の違いが除去される。こうして音源特性の違
いが正規化されて除去されて音響パラメータ時系列Ｐ　
ｉ　（ｎ）がこの音源情報正規化回路（２３２）より得
られる。そして、このパラメータ時系列Ｐｉ（ｎ）が音
声区間内パラメータメモリ　（２３３）に供給される。

この音声区間内パラメータメモリ（２３３）では音声区
間判定回路（２４）からの音声区間判定信号を受けて音
源特性の正規化されたパラメータＰ　ｉ　（ｎ）が判定
さた音声区間毎にストアされる。

音声区間判定回路（２４）はゼロクロスカウンタ（２４
１）とパワー算出回路（２４２）と音声区間決定回路（
２４３）とからなり、Ａ／Ｄコンバータ（２１３）より
のデジタル音声信号がゼロクロスカウンタ（２４１）及
びパワー算出回路（２４２）に供給される。ゼロクロス
カウンタ（２４１）では１フレ一ム周期５．１２ｍ５ｅ
ｃ毎に、この１フレ一ム周期内の６４サンプルのデジタ
ル音声信号のゼロクロス数をカウントし、そのカウント
値が音声区間決定回路（２４３）の第１の入力端に供給
される。パワー算出回路（２４２）では１フレ一ム周期
毎にこの１フレ一ム周期内のデジタル音声信号のパワー
、すなわち２乗和が求められ、その出力パワー信号が音
声区間決定回路（２４３）の第２の入力端に供給される
。音声区間決定回路（２４３）には、さらに、その第３
の入゛力端に音源情報正規化回路（２３２）よりの音源
正規化情報が供給される。そして、この音声区間決定回
路（２４３）においてはゼロクロス数、区間内パワー及
び音源正規化情報が複合的に処理され、無音、無声音及
び有声音の判定処理が行なわれ、音声区間が決定される
。

この音声区間決定回路（２４３）よりの判定された音声
区間を示す音声区間判定信号は音声区間判定回路（２４
）の出力として音声区間内パラメータメモリ　（２３３
）に供給される。

こうして、判定音声区間内においてメモリ　（２３３）
にストアされた音響パラメータ時系列Ｐｉ（ｎ）は無音
付加回路（８）を介してＮＡＴ処理回路（９）に供給さ
れる。

０２　時間正規化処理の説明無音付加回路（８）ではパラメータ時系列Ｐｉ（ｎ）の
始点Ｐｉ（１）の前と終点Ｐｉ（財）の後に、予め用意
された無音を音響分析したときのパラメータを付加する
。

この無音付加処理は、メモリ（２３３）に無音を音響分
析したときのパラメータを予めストアしておき、メモリ
（２３３）からパラメータ時系列Ｐｉ（ｎ）を読み出す
とき、これに先だって先ず、その無音のパラメータを読
み出し、次いでパラメータ時系列Ｐｉ（ｎ）を読み出し
、最後に再び無音のパラメータを読み出すようにしても
よい、また、以下に述べるＮＡＴ処理における軌跡長の
算出及びｕｉｍパラメータＱｉ■の抽出時に、必ず無音
を始点として演算処理するようにしてもよい。

ＮＡＴ処理回路（９）は軌跡長算出回路（９１）と補間
間隔算出回路（９２）と補間点抽出回路（９３）からな
る。

無音付加回路（８）からの無音から開始するパラメータ
時系列Ｐｉ（ｎ）’　　（ｉ”Ｌ　　Ｌ　””＋　１５
：　ｎ”０、ｌ　　２．・・・・、Ｎ、Ｎ＋１）は軌跡
長算出回路（９１）に供給される。ここでＰｉ（ｏ）’
　＝Ｐｉｔｓ＊ｕ’−〇である。この軌跡長算出回路（
９１）においては音響パラメータ時系列Ｐｉ（ｎ）’が
そのパラメータ空間において第４図に示すように描く直
線近似による軌跡の長さを算出する。

この場合、■次元ベクトルａｌ及びｂｔ間のユークリッ
ド距離Ｄ（ａ罷、ｂｌ）はＰｉ（ｎ）’より、直線近似により軌跡を推定した場合
の時系列方向に隣接するパラメータ間距離Ｓ　（ｎ）は
５（ｎｌ＝Ｄ　（Ｐｉ　（ｎ　＋　１　）　’　、　Ｐ
ｉ（ｎ）’　）（ｎ＝０．１．”・・、Ｎ）　　　　・
・・　（１１）と表わされる。そして、時系列方向にお
ける第１番目のパラメータＰｉ（０）’から第ｎ番目の
パラメータＰｉ＆ｌ）迄の距離５Ｌ（ｎ）はと表わされる。なお、５Ｌ（１）　−０である。

そして、全軌跡長ＳＬはと表わされる。軌跡長算出回路（９１）はこの（１１）
式、（１２）式及び（１３）にて示す信号処理を行なう
。

この軌跡長算出回路（９１）にて求められた軌跡長ＳＬ
を示す信号は補間間隔算出回路（９２）に供給される。

この補間間隔算出回路（９２）では軌跡に沿って再サン
プリングするときの再サンプリング間隔Ｔを算出する。

この場合、Ｍ点に再サンプリングするとすれば、再サン
プリング間隔ＴはＴ−３Ｌ／（Ｍ−１）　　　　　　　　　　　・・・　
（１４）として求められる。

この補間間隔算出回路（９２）よりの再サンプリング間
隔Ｔを示す信号は補間点抽出回路（９３）に供給される
。また、無音付加回路（８）よりの音響パラメータ時系
列Ｐｉ（ｎ）’も、また、この補間点抽出回路（９３）
に供給される。この補間点抽出回路（９３）は音響パラ
メータ時系列Ｐｉ（ｎｌ’のそのパラメータ空間におけ
る軌跡、例えばパラメータ間を直線近似した軌跡に沿っ
て第４１！ｌにおいて○にて示すように再サンプリング
間隔Ｔで再サンプリングし、このサンプリングにより得
た新たな点列より認識パラメータ時系列Ｑｉｈｌを形成
する。

ここで、この補間点抽出回路（９３）においては第５図
に示すフローチャートに従った処理がなされ、認識パラ
メータ時系列Ｑｌに）が形成される。

先ず、ステップ（１０１）にて再サンプリング点の時系
列方向における番号を示す変数Ｊに値１が設定されると
共に音響パラメータ時系列Ｐｉ（ｎ）’のフレーム番号
を示す変数ＩＣに値０が設定され、イニシャライズされ
る０次にステップ（１０２）にて変数Ｊがインクリメン
トされ、ステップ（１０３）にてそのときの変数Ｊが（
Ｍ−１）以下であるかどうかが判別されることにより、
そのときの再サンプリング点の時系列方向における番号
がりサンプリングする必要のある最後の番号になってい
るかどうかを判断する。最後の番号であればステンプ（
１０４）に進み、再サンプリングは終了する。

最後の番号でなければステップ（１０５］にて第１番目
の再サンプリング点（これは必ず無音の部分である。）
から第３番目の再サンプリング点までの再サンプリング
距！ＤＬが算出される０次にステップ（１０８）に進み
変数ＩＣがインクリメントされる６次にステップ（１０
７）にて再サンプル距離ＤＬが音響パラメータ時系列Ｐ
ｉ（ｎ）’の第１番目のパラメータＰｉ（ｏ）から第１
Ｃ番目のパラメータＰｉｎｅ♂までの距離５Ｌ（１ｃ１
　よりも小さいかどうかにより、そのときの再サンプリ
ング点が軌跡上においてそのときのパラメータＰｉｃＩ
ｃ♂よりも軌跡の始点側に位置するかどうかが判断され
、始点側に位置していなければステップ（１０６）に戻
り変数ＩＣをインクリメントした後再びステップ（１０
７）にて再サンプリング点とパラメータＰｉ（Ｉｃ’）
との軌跡上における位置の比較をし、再サンプリング点
が軌跡上においてパラメータＰｉｏｃ＋　よりも始点側
に位置すると判断されたとき、ステップ（１０８）に進
み認識パラメータ旧σ】が形成される。

即ち、第３番目の再サンプリング点による再サンプリン
グ距離ＯＬからこの第３番目の再サンプリング点よりも
始点側に位置する第（ＩＣ−１）番目のパラメータＰｌ
（ＩＯ−１）’による距［Ｉ　Ｓ　Ｌ（Ｉｃ−１）を減
算して第（ＩＣ−１）番目のパラメータＰ　ｉ　ｏｃ−
１）’から第３番目の再サンプリング点迄の距離ＳＳを
求める。

次に、軌跡上においてこの第３番目の再サンプリング点
の両側に位置するパラメータＰ　ｔｏｃ−１３’及びパ
ラメータＰｉｏｃ♂間の距離５（ｎ）（この距離Ｓ　（
ｎ）は（１１）式にて示される信号処理にて得られる。

）にてこの距離ＳＳを除算し、この除算結果ＳＳ／　Ｓ
　（Ｉｃ−１）に軌跡上において第３番目の再サンプリ
ング点の両側に位置するパラメータＰｉｕｃ）　とＰ　
ｉ　ａｃ−１＞との差（Ｐｉａｃｚ−Ｐｉｎｅ−ｕ）を
掛算して、軌跡上において第３番目の再サンプリング点
のこの再サンプリング点よりも始点側に隣接して位置す
る第（ｒｃ−１）番目のパラメータＰ　ｉ　ａｃ　−１
＞　’からの補間量を算出し、この補間量と第３番目の
再サンプリング点よりも始点側に隣接して位置する第（
ＩＣ−１）番目のパラメータＰｉｎｅ−ｕ’とを加算し
て、軌跡に沿う新たな認識パラメータＱｉσ）が形成さ
れる。

このようにして始点及び終点（これらはＱｉ（１）＝＾Ｐｉ（ｏｌ　＝　０　、　Ｑｉｘ　−Ｐｉ（ｓ＋　＝　
Ｏである。）を除＜　　（Ｍ−２）点の再サンプリング
により認識パラメータ時系列Ｑｉ（ロ）が形成される。

Ｇ３　パターンマツチング処理の説明このＮＡＴ処理回路（９）よりの認識パラメータ時系列
Ｑｆ（→はモード切換スイッチ（３）により、登録モー
ドにおいては認識対象語毎に標準パターンメモリ（４）
にストアされる。また、認識モードにおいては距離算出
回路（６）に供給され、標準パターンメモ音用４）より
の標準パターンのパラメータ時系列との距離の算出がな
される。この場合の距離は例えば簡易的なチェビシェフ
距離として算出される。この距離算出回路（６）よりの
各標準パターンと入力パターンとの距離の算出出力は最
小値判定回路（７）に供給され、距離算出値が最小とな
る標準パターンが判定され、この判定結果により入力音
声の認識結果が出力端（７０）に得られる。

Ｈ発明の効果この発明によれば、ＮＡＴ処理のときに推定する軌跡は
必ず無音から開始し、この無音から再サンプルするよう
にしたので、音声信号判定区間のずれの影響はこの軌跡
から得る再サンプルデータ、つまり認識パラメータ時系
列Ｑｉ（ロ）には殆んどない。

したがって、パターンマツチングによる！！＆ｌｌｉは
良好に行なえる。

【図面の簡単な説明】

第１図はこの発明装置の一実施例のブロック図、第２図
はその説明のための図、第３図はこの発明装置の具体的
一実施例のブロック図、第４図はその説明のための図、
第５図はその要部の動作の説明のためのフローチャート
を示す図、第６図は音声認識装置の基本構成を示すブロ
ック図、第７図はＤＰマツチングを説明するための図、
第８図〜第１０図はＮＡＴ処理を説明するための図であ
る。（２）は音響分析回路、（４）は標準パターンメモリ、
（６）は標準パターンと入力パターンとの距離算出回路
、（７）は最小値判定回路、（９）はＮＡＴ処理回路で
ある。棟間点抽出の７０−チャート第５図音声寵・鳥で基本的構成゛のアｏ９り図第６図入力ｌ？クーンＡ玉間数Ｊ（電による１間正規化の説調図第７図第８図

Claims

【特許請求の範囲】入力音声信号の音声区間を判定する音声区間判定手段と
、この音声区間判定手段にて判定された音声区間内で音
響パラメータ時系列を得る特徴抽出手段と、この特徴抽
出手段よりの音響パラメータ時系列がパラメータ空間で
描く軌跡を推定しこの軌跡に沿って再サンプリングを行
なうことにより認識パラメータ時系列を得る処理手段と
、認識対象語の標準パターンの認識パラメータ時系列が
ストアされている標準パターンメモリと、上記処理手段
よりの入力パターンの認識パラメータ時系列と上記標準
パターンメモリからの標準パターンの認識パラメータ時
系列との差を算出する距離算出手段と、この距離算出手
段で、算出された値の最小のものを検知して認識出力を
得る最小値判定手段とを有し、上記処理手段においては、上記判定された音声区間内の
パラメータに拘わらず、常に無音から軌跡が始まるよう
に推定され、かつ、上記再サンプリングもこの無音から
常になされて上記認識パラメータが形成されるようにな
された音声認識装置。