JPH02148100A

JPH02148100A - 音声認識装置

Info

Publication number: JPH02148100A
Application number: JP63302900A
Authority: JP
Inventors: Takeshi Norimatsu; 武志則松
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1988-11-30
Filing date: 1988-11-30
Publication date: 1990-06-06

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、入力音声パターンと各標準パターンとのパタ
ーンマッヂングにより認識結果を導き出す音声認識装置
に関するものである。

従来の技術一般に、音声認識装置では、入力音声パターンと辞書に
蓄えられた各標準パターンとの類似度を計算し、類似度
の最大となる標準パターンを認識結果とする方法が行な
われている。二つの音声パターンの類似度を計算するた
めには動的計画法（ダイナミック　プログラミング法）
を用いて、二つのパターンの時間軸を非線形に伸縮する
パターンマツチング（以下、ＤＰマツチングと記す。）
が使用されている。特に、単語音声認識装置では、この
ＤＰマツチング法により高い認識率を得ている。例えば
次の文献に記載されている。

「ダイナミック　プログラミング　オプティミゼイショ
ン　フォ　スポークン　ワード　レコグニションＪ　　
（Ｈ，５ａｋｏｅ　ａｎｄ　Ｓ、Ｃｈｌｂａ、”Ｄｙｎ
ａｍｉｃ　ｐｒ。

ｇｒａｍｍｌｎｇ　ｏｐｔ、１１ｚａｔｌｏｎ　ｆｏｒ
　５ｐｏｒｋｅｎ　ｗｏｒｄ　ｒｅｃｏｇｎｉｔｉｏｎ
”、ＩＥＥＥ　ｔ、ｒａｎｓ、Ａｃｏｕｓｔｌｃ、５ｐ
ｅｅｃｈ、Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ、ｖｏ
ｌ、Ａｓ５Ｐ−２７ｐｐ、３３［１−３４９，１９７９
）　）発明が解決しようとする課題しかしながら上記の音声認識装置では、入力された名声
の区間検出を誤った場合には誤認識を生しることが多い
。特に無声子音から始まる音声（福岡、福島、福井など
）の場合、例えばｒ　Ｆ　ｔＪ　ＫＵＯＫＡＪ　　（福
岡）と発声した場合を考えたとき、語頭のｒＦＵＪの母
音ｒ　Ｕ　Ｊの部分は無声化してしまうことが多くその
結果語頭のエネルギーレベルが小さくなり、音声区間検
出の際にｒＫＵＯＫＡ」の部分だけを検出してしまうこ
とが多くなる。

しかし、人が音声を発声する場合、周囲雑音レベルの高
い環境下等では意識的にはっきりと発声しようとする傾
向があり、そのため逆に語頭の［ＦＵコの母音ｒＵＪの
部分が有声化することもあり、この場合はｒＦＵＫＵＯ
ＫＡＪあるいはｒ　Ｕ　Ｋ　ＵＯＫＡＪの部分が音声区
間として検出されることになる。このように発声の際の
状況により語頭が欠落する可能性のある場合、予め辞書
に登録された標準パターンと入力音声パターンの音声区
間検出結果が異なると（例えば、一方がｒ　Ｆ　Ｕ　Ｋ
　Ｕ　ＯＫ　Ａ　Ｊでもう一方がｒＫＵＯＫＡＪと検出
された場合）、従来のＤＰマツチング法では対応しきれ
ずに誤認識を生じさせる原因となっていた。

本発明は上記問題点に鑑み、語頭の欠落する可能性のあ
る音声（特に語頭の無声化の生じ易い音声）が入力され
た場合でも精度よく認識することのできる音声認識装置
を提供するものである。

課題を解決するための手段本発明の音声認識装置は、入力音声からエネルギー値時
系列を含む特徴ベクトルの時系列を出力する名声分析部
と、前記音声分析部から出力されるエネルギー値時系列
から無音区間を検出し後続のエネルギーの立ち−１−か
り位置を記憶する無音区間検出部と、入カバターンと標
準パターンそれぞれの、音声区間検出の結果得られた始
点と最初の無音区間点とを始点候補点としてパターンマ
ツチング演算を実行するパターンマツチング部とを備え
たことを特徴とする。

作用本発明は上記に述べた構成によって、語頭の欠落を考慮
して、音声区間検出により得られた標準パターン及び入
力音声パターンの始点と共に音声パターンの時系列上の
最初の無音区間点も始端点候補としてパターンマツチン
グ計算を開始し両者の類似度を求めていくことにより、
語頭の欠落の可能性のある音声を認識する場合にも精度
よく認識することができる。

実施例以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。

第１図は本発明の一実施例における音声認識装置のブロ
ック図である。第１図において、１は音声分析部で、入
力された音声信号をエネルギー値時系列を含む特徴ベク
トルの時系列に変換し音声区間を抽出する。２は無音区
間検出部で、音声のエネルギー値時系列から無音部分を
検出し後続のエネルギーの立ち上がりのフレーム位置を
無音区間点として記憶する。３は登録、認識動作の切り
替えを行うスイッチ、４は入力音声の特徴ベクトルの時
系列とその無音区間点を記憶する入カバターンメモリ、
５は各認識対象音声の特徴ベクトルの時系列とそれぞれ
の無音区間点を記憶する標準パターンメモリである。６
はパターンマッチング部で、パターンマツチング計算の
始端として音声区間検出により得られた始端及び最初の
無音区間点を始端候補点としてパターンマツチングを行
う。

７は初期設定部で、始端候補点以外のパターンマツチン
グの主軸上の点のベクトル間距離を無限大に設定する。

８は累積距離計算制御部で、標準パターンの長さに依存
しない非対称型のマツチングパスを使用して入力音声パ
ターンの先頭フレームから順次累積距離計算を行いパタ
ーンマツチング計ｐが入力音声パターンの無音区間点に
対応するフレームに到達した時点で、無音区間点を始点
とする累積距離計算を並行して行う。９は結果出力部で
、類似度最大となる標準パターンを認識候補音声として
出力する。第２図は第１図に示した装置の説明図である
。

次に上記音声認識装置の動作を説明する。

ます、マイクロホン等から入力された音声信号は音声分
析部２でアナログ−ディジタル変換され音声の特徴ベク
トルの時系列（例えば、１０次の線形予測係数）とエネ
ルギー値時系列に変換され発声された音声部分が区間検
出される。次に、無音区間検出部３で、音声分析部２で
得られたエネルギー値時系列から例えばエネルギー値が
予め定められた閾値を下回る区間が一定時間を超える区
間を無音声区間として検出し、その無音区間の後続のエ
ネルギーの立ち上がりのフレーム位置を無音区間点とし
て記憶する。

認識対象音声を登録する場合は、スイッチ３をＴ側に設
定し認識対象音声それぞれに対し音声分析部１で得られ
た特徴ベクトルの時系列と無音区間検出部２で得られた
無音区間点を標準パターンメモリ５に記憶する。

次に、スイッチ３がＲ側に設定されている場合、即ち認
識処理動作について説明する。入力された音声は音声分
析部１、無音区間検出部２で上記に述べた処理がなされ
、その特徴ベクトルの時系列及び無音区間点のフレーム
位置が入カバターンメモリ４に記憶される。次にパター
ンマツチング部６で始端と最初の無音区間点を始端候補
点に設定し、ここは動的計画法に基づいたパターンマツ
チング処理を実行する。以下にパターンマツチング部６
の動作を詳細に説明する。

パターンマツチングの漸化式としてここでは次式を考え
る。

ｇ（１、Ｉ）：ｄ（１、Ｉ）　　　　　　　　　　−（
１）ｇ（ｉ　、ｊ）＝ｍｉｎ（ｇ（１−Ｌｊ）　、ｇ（
１−Ｌｊ−１）、ｇ（１−１，ｊ−２））＋ｄ（ｊ　、
ｊ）　　　　　　　　　−−−−（２）ここで、ｇ（ｉ
、ｊ）、ｄ（ｉ、ｊ）はそれぞし入力音声パターンのｉ
フレーム、標準パターンのｊフレームにおける累積距離
及び特徴ベクトル間距離を表す。なお漸化式は非対称型
の経路制限を実現するものであれば−に１式以外のもの
でも良い。

またここでは簡単のため整合窓によるマツチング経路の
制限は考えないものとする。

−例として、第２図に示したような入力音声パターンと
標準パターンとの間でパターンマツチングを実行する場
合について考える。第２図において音声パターンに対す
る包絡線はエネルギーの時間変化を示している。ここで
入力音声パターンの最初の無音区間点のフレーム位置を
Ｉ　Ｑ＋、標準パターンの最初の無音区間点のフレーム
位置をｊｏとする。

ところで認識対象音声が無声子音から始まる場合には特
に標準パターン、入力音声パターンのどちらも同様に語
頭の区間検出を誤る可能性がある。

このように両パターンに語頭の欠落の可能性がある場合
には、第２図に示したようにパターンマツチング経路の
始点としては、（１＋　　１　）　、（ｔ　Ｑｌ＋ＩＬ
　　（１，ｊｏｂ）の３つの始端候補点が考えられ、こ
の３点から出発する■■■の３つのマツチング経路から
最適な経路を選択すれば語頭の欠落に対応できるパター
ンマツチングが実現できる。

そこで、まず初期設定部７で次式の設定を行う。

ｄ（１，ｊ）＝■ 但し　ｊ≠Ｌ　　ｊ≠ｊｏ＋ｄ（ｉ、１）＝■ 但し　ｉ≠１．１−Ｉ−１Ｑ。

この設定は、マツチング経路が第２図の直線ｉ＝１及び
ｊ＝１上の上記３つの始端候補点以外の点から出発しな
いように制限を加えたことと等価である。

次に累積距離計算制御部８で漸化式（２）に従い累積距
離計算を開始する。まずｉ＝１として標準パターンの第
１フレーム即ちｊ＝１から縦方向に累積距離を計算する
。これが終了すると順次ｉをインクリメントしながら同
様の処理を続ける。

これらの処理が進みｊ”！ｏ＋に到達した時点からは、
点（ｉ　０＋＋　　１　）から開始される累積距離演算
をこれまでのｇ（ｉ、ｊ）の計算と平行して行う。

即ち、！：！ａｔ以降はｇ（ｉ、ｊ）の計算と同時に、
次の漸化式％式％（１１）に従うｇ′（Ｌｊ）の計算をｉをインクリメントしなが
ら行う。

これらの処理が点（Ｉ、Ｊ）に到達した時点では２つの
累積圧＃ｇ（Ｉ、Ｊ）、ｇ’（１，Ｊ）が求められてい
ることになる。ここでｍｉｎ　　（ｇ（１，Ｊ）／ｌ、ｇ’（１，Ｊ）／（１
−１ｏ＋＋ｌ）１を求め得られた値が入力音声パターン
と標準パターン間の類似度となる。この類似度は第２図
の始端候補点３点から開始した３種類のマツチング経路
のうち最適な経路を選択したときのパターン間の距離と
なる。

標準パターンメモリ７に記憶された各標準パターンと入
力音声パターンメモリ４に記憶された入力音声パターン
間の類似度がすべて計算されたのちに、結果出力部９で
類似度の最大なる標準パターンを認識候補音声として判
定し外部に出力する。

以上のように本実施例によれば、音声の無音区間を検出
する無音区間検出部２と、語頭欠落を考慮した複数の始
端候補点以外の主軸−にの点でのベクトル間距離を無限
大に設定する初期設定部７と、入力音声パターンの最初
の無音区間点からは新たに開始される累積距離演算を、
入力音声パターンと標準パターンの始端の交点から開始
した累積距離演算と並列に実行するように制御する累積
距離計算制御部８とを備えたことにより、標準パターＩン、入力音声パターンのどちらで語頭の欠落が生じても
、１回のパターンマツチング演算ですべての可能性を考
慮した計算が実行でき、計算量をあまり増加させずに語
頭の不安定な音声に対しても精度よく認識することが可
能になる。

発明の効果以−にのように本発明の音声認識装置によれば、語頭の
欠落を考慮して、音声区間検出により得られた標準パタ
ーン及び入力音声パターンの始点と共に音声パターンの
時系列上の最初の無音区間点も始端点候補としてパター
ンマツチング計算を開始し両者の類似度を求めていくこ
とにより、語頭の欠落の可能性のある音声を認識する場
合にも精度よく認識することができる。

サラに、パターンマツチング部として、語頭欠落を考慮
した複数のパターンマツチングの始点候補点以外の点か
らマツチング経路が開始されないように拘束する初期設
定部と、入カバターンと標準パターンの始端の交点から
開始した累積距離演算と入カバターンの無音区間点から
開始した累積距離演算を並行して行う累積距離計算制御
部とを備えることにより、認識対象音声に語頭の不安定
な音声が存在した場合に入力音声パターン、標準パター
ンのどちらに語頭の欠落が生じたとしても、語頭の欠落
を考慮した全てのパターンマツチングが１回の計算で実
現でき、計算量をほとんど増加させることなく認識性能
を向上させることができる。

【図面の簡単な説明】

第１図は本発明の一実施例の音声認識装置のブロック構
成図、第２図は同装置の動作説明図である。１拳や拳音声分析部、２争争拳無音区間検出部、３・・
やスイッチ、４中・・入カバターンメモリ、５争・・標
準ハターンメモリ、６◆・拳パターンマツチング部、７
・・・初期設定部、８・９拳累積距離計算制御部、９・
・争結果出力部。

Claims

【特許請求の範囲】

（１）入力された音声信号からエネルギー値時系列を含
む特徴ベクトルの時系列を出力し発声された音声区間を
検出する音声分析部と、前記音声分析部から出力される
エネルギー値時系列から音声パターン中の無音声部分を
検出し後続のエネルギーの立ち上がり位置を無音区間点
として記憶する無音区間検出部と、予め認識対象音声と
して記憶された標準パターンと入力音声パターンそれぞ
れの、前記音声分析部で検出された音声区間の始端と、
前記無音区間検出部で検出された音声パターン時系列中
の最初の無音区間点とを音声パターンの始端候補点とし
て、標準パターンと入力音声パターンとの間で類似度を
計算し類似度が最大となる標準パターンを認識候補音声
として出力するパターンマッチング部とを備えたことを
特徴とする音声認識装置。
（２）パターンマッチング部は、標準パターンと入力音
声パターンの始端候補点同志の特徴ベクトル間距離のみ
を計算し、標準パターンの先頭フレームと入力音声パタ
ーンの始端候補点以外の点同志及び入力音声パターンの
先頭フレームと標準パターンの始端候補点以外の点同志
のベクトル間距離を予めすべて非常に大きな値に設定す
る初期設定部と、入力音声パターンの先頭フレームから
順次累積距離計算を行い、最初の無音区間点に到達した
時点で、先頭フレームから始めた累積距離計算と同時に
入力音声パターンの最初の無音区間点から始まる累積距
離計算を並行して行う累積距離計算制御部とを備えてい
ることを特徴とする請求項１記載の音声認識装置。