JPS5936760B2

JPS5936760B2 - 非線形整合による認識方法

Info

Publication number: JPS5936760B2
Application number: JP11736275A
Authority: JP
Inventors: 博平川; 幸和蕪山; 俊夫松浦
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1975-09-29
Filing date: 1975-09-29
Publication date: 1984-09-05
Also published as: JPS5242006A

Description

【発明の詳細な説明】本発明は、非線形整合による認識方法、特に標準パター
ン系列を構成する各要素と入力音声のパターン系列を構
成する各要素との夫々の間の類似度にもとずいて非線形
整合（類似度和ΣＲを求める）を行なうに当つて、入力
音声から抽出されたパーコール係数時間傾斜成分時系列
を氷め、該時系列におけるピーク発生タイミングに対応
して類似度和ΣＲを求めるために用いる類似度Ｒ１ｊを
順次遷移してゆくような整合処理手段をもうけるように
した非線形整合による認識方法に関するものである。

入力音声のパターン認識の手法の１つとして、パーコー
ル係数と呼ばれる係数の時系列を求め、標準となるパー
コール係数の時系列との間で整合をとる方式が考慮され
ている。

ここで言うパーコール係数とは、「第８回東北大学電気
通信研究所・シンポジューム論文集板倉文忠゛統計
的手法による音声の特徴抽出’’」および「昭和４５年
電子通信学会全国大会講演論文集５−３−９、板倉文忠
他”’ＰＡＲＣＯＲ型音声合成゛“」に開示されている
ものである。フ上記パーコール係数の時系列の如き、
標準パターン系列と上記入力音声から抽出された入力音
声のパターン系列（以下入力パターン系列と略すことも
ある）との整合を求めるに当つて、いわゆる非線形整合
処理が広く利用されている。

これに次５の如きものと考えてよい。即ち、標準パタ
ーン系列Ｓ−（Ｓｉ）（ｉ−１、２、・・・・・・、ｍ
）と入力パターン系列Ｐ ■（Ｐｊ）（ｊ■１、２、・
・・・・・ｎ）とウーから、上記両系列を構成する
各要素ＳｉとＰｊとの類似度Ｒｌｊをすべて決定したマ
トリクスをつくる。

そしてスタート点に対応する類似度Ｒ，ｌから終点に対
応する類似度Ｒｍｎに至る間、例えばＲｉ，ｊからＲｉ
，ｊ＋ｌ＜ｌ！−Ｒｉ＋１・ｊ＋１のうち類似度の大き
ぃ方を選択し、この様に選択された類似度を順にたどり
つつこれら類似度の和を求めるようにする。そしてこの
ような類似度を求める処理をすべての標準パターン系列
に対して行ない、この結果の類似度和の最も大きい１つ
の標準パターン系列をもつて、入力パターン系列がその
標準パターン系列に属するものとして認識する。非線形
整合処理は上述の如く行なわれるが、上述の如くＲｉ，
ｊからＲｉ，ｊ＋１とＲｉ＋Ｉ，ｊ＋ｌとのうちの類似
度の大きい方を選択しつつたどつてゆく処理即ち遷移処
理を行なうために、何んらかの原因により部分的に高い
類似度をとる箇所が非所望に存在すると、非所望な位置
で遷移が生じてしまい、正しい類似度和が決定できなく
なることがある。

本発明は上記の点を解決することを目的としており、本
発明の非線形整合による認識方法は予め用意された標準
パターン系列を構成する各要素と入力音声のパターン系
列を構成する各要素との夫夫の間の類似度にもとづいて
、上記標準パターン２系列と上記入力音声のパターン
系列との非線形整合処理を行なう非線形整合による認識
方法において、上記入力音声から抽出されたパーコール
係数にもとづき該パーコール係数の時間傾斜成分を決定
するパーコ一火係数時間傾斜成分抽出部、該抽こ出さ
れたパーコール係数時間傾斜成分の時系列を発生する時
系列発生部、および上記標準パターン系列と上記入力音
声のパターン系列との整合を求める整合処理手段とをも
うけ、該整合処理手段として、上記パーコール係数時間
傾斜成分時系列に５おけるピーク発生タイミングに対
応して、類似度和ΣＲを求めるために用いる類似度Ｒを
、上記標準パターン系列を構成する第１番目の要素と上
記入力音声のパターン系列を構成する第ｊ番目の要素と
の１つの類似度Ｒｉｊから、上記標準パターン４系列
を構成する第（１＋１）番目の要素と上記入力音声パタ
ーン系列を構成する第（ｊ＋１）番目の要素との他の類
似度Ｒｉ＋１，ｊ＋ｌに遷移する遷移タイミングを与え
強制的に遷移するよう構成せしめたことを特徴としてい
る。

以下図面を参照しつつ説明する。第１図は本発明による
認識方法の一実施例構成、第２図は第１図に示す時間傾
斜処理部の一実施例構成、第３図は本発明によつて抽出
されたＱパラメータの一例、第４図は本発明による非線
形整合処理を説明する説明図、第５図は本発明による整
合部の処理をフローチヤートの形で表わした一実施例を
夫々表わす。

第１図において、１はパーコール係数ｋパラメータ抽出
部、２−１ないし２−１０は夫々時間傾斜処理部で上記
ｋパラメータについて予め定めた短時間内の平均値をと
り該平均値の時間的変化を抽出してＱパラメータを得る
もの、３は時系列発生部でパーコール係数時間傾斜成分
時系列Ｖｊを得るもの、４は入力音声のパターン系列発
生部で例えば上記ｋパラメータにもとずいて入力音声に
対応した入力パターン系列Ｐを得るもの、５は整合処理
部、６は標準パターン系列群格納部であつて予め定めら
れた複数の標準パターン系列ｓ（０）・・・ｓ（ｒ）・
・・を格納しておくものを表わしている。

なお以下の実施例において、上記標準パターン系列ｓ（
ｏ）・・・・・・・・・は入力パターン系列Ｐと同様に
対応する形をとるが、入力パターン系列Ｐにくらべて時
系列上でいわゆる間引いたものが格納部６内に格納され
る。入力音声に対応して、公知の手段をとるパーコール
係数ｋパラメータ抽出部１によつて、ｋパラメータｋ１
ないしＫ，Ｏが求められ、これらｋパラメータｋ１ない
しＫｌＯは入力パターン系列発生部４に導びかれる。

そして該発生部４において、例えば時間帯ｔ＝０，Ｔ，
２Ｔ，・・・・・・毎にが求められ、入力パターン系列
Ｐが決定され、整合処理部５において標準パターン系列
ｓ（０）ないしｓ（ｒ）と夫々整合がとられる。本発明
の場合、上記整合処理部５において整合処理を行なうに
当つて、上述のパーコール係数時間傾斜成分時系列Ｖｊ
を求め、該時系列Ｖｊのピーク発生タイミングを調べて
これを利用するようにしている。

第２図は第１図図示の時間傾斜処理部の一実施例構成を
示し、図中Ｔないし１０は夫々時遅回路、１１は加算演
算増幅器、１２は差動増幅器、１３ないし１６は抵抗を
表わしている。

例えばｋパラメータＫ，が入力されてくると、ｋｌ（Ｔ
ｉ），ｋｌ（Ｔｉ＋ＴＯ），ｋｌ（Ｔｉ＋２Ｔ０）が加
算演算増幅器１１によつて平均された値Ａが得られる。

時遅回路１０は上記値Ａを遅延せしめ、差動増幅器１２
は該遅延された値Ａ印と上記値Ａとの差即ちＱパラメー
タタＱｌを発生する。上述の如く得られたＱパラメータ
は第３図に示す如く、各話者Ａ，Ｂ，・・・に対応しか
つ単語゛４゜゜や’゛９””などに対応した特徴を含ん
でいる。そして上記パーコール係数は声道に関する特徴
に対応するものであることが知られていることから、上
記ＱパラメータＱｌなιルＱ，Ｏは話者がある単語を
発音したときの゜’声道の変化゜”即ち”゜口の形の変
化゛に対応している。換言すると、上記ＱパラメータＱ
ｌないしＱｌＯについてＶｊ（ｔ←｛Ｑ，”（ｔ｝ＦＱ
ｚ（ｔ｝Ｉ−・・・・・＋Ｑ。

゛（ｔ）｝１／２−（１）で与えられるパーコール係数
時間傾斜成分時系列Ｖｊを決定すると、該時系列Ｖｊが
ピークをとるタイミングは”゜口の形の変化”゛が大き
い所でありいわぱ音韻が変化するタイ゛ミングであると
考えてよい。即ち例えば１アカイｌの如き単語に対応す
る入力の場合について言えば音韻１アＩが音韻Ｉ力１に
変化するタイミングや、音韻１力１が音韻ｌイ１に変化
するタイミングであると考えてよい。第１図図示の時系
列発生部は上記第（１）式にしたがつた時系列ＶＪを発
生する。

第４図は本発明による整合部の非線形整合処理を説明す
る説明図を示している。

従来公知の非線形整合処理の場合と同様に、一標準パタ
ーン系列Ｓを構成する各要素（音韻例えばｌア１やＩ力
１や１イｌに対応している）Ｓｌと入力パターン系列Ｐ
を構成する各要素Ｐ』とを、横座標と縦座標とに配列
し、各要素Ｓｌ（！：ＰＪとの間の類似度Ｒｉｊを決
定してマトリクスＲを求める。そして上述の如く求めら
れたパーコール係数時間傾斜成分時系列Ｖｊを利用して
、次の如く類似度和ΣＲを得るための類似度Ｒを抽出し
てゆく。即１）類似度Ｒ１ｌをスタート点として、上記
時系列ＶＪが予め定めた閾値ＥＯ以下であるタイミング
のもとでは、１つの抽出された類似度Ｒ１ｊからＲｉ，
ｊ＋１に遷移せしめてゆき、２）また上記時系列Ｖｊが
予め定めた閾値ＥＯを超えるタイミングのもとで、１つ
の抽出された類似度Ｒｉｊから強制的にＲｉ＋１，ｊ＋
Ｉに遷移せしめてゆくようにする。

上記の如き処理による遷移処理が正当であることは、上
述の如く、パーコール係数時間傾斜成分が゜”口の形の
変化”゜即ち音韻の変化（移りかわり）に対応している
ことから、容易に理解されよう。

第５図は、整合処理部５において第４図に関連して説明
した遷移にしたがつた類似度和ΣＲを求める処理をフロ
ーチヤートの形で表わしている。

その処理は次の通りである。即ちａ）スタート点におい
て要素Ｓ，とＰＩとに対応する類似度Ｒ１ｌをレジスタ
Ｗにセツトする。

ｂ）次に類似度Ｒ，２を抽出し、レジスタＷに加算せし
めるべきか否かを調べるべく、Ｖ。＞ＥＯであるか否か
をチエツクする。ｃ）Ｖ２＞ＥＯでない場合、レジス
タＷに類似度Ｒ１２を加算し、次に類似度Ｒ１３を抽出
するか否かを調べる処理に入る。

ｄ）しかしＶ。

＞ＥＯを満足する場合、類似度Ｒｌ２を抽出せず、レジ
スタＷには類似度Ｒ２２を加算し、次に類似度Ｒ２３を
抽出するか否かを調べる処理に入る。第１図図示の整合
処理部５は、上記第４図および第５図に関連して説明し
た如き処理を行なうものであるが、上述の如くＶｊ＞Ｅ
Ｏをチエツクしてゆく方法の代わりに、時系列Ｖｊのピ
ーク・レベルの変化を追跡せしめつつ上記遷移を行なわ
せることができる。

この場合、次の如き遷移処理が行なわれる。

即ち、（３）今類似度和ΣＲを求めるべく抽出された類
似度Ｒが類似度Ｒｉ』であるとするとき、それに対応す
る時点のパーコール係数時間傾斜成分Ｖｊによつて上記
類似度Ｒｉｊを除した値（Ｒｉｊ／Ｖｊ）を求めておく
。

（４） −ー方当該時点において次に抽出されるかも知
れない類似度Ｒｉ＋１，ｊ＋１に定数（１／Ｋ）を乗算
した値（Ｒｉ＋１，ｊ＋１／Ｋ）を求める。

（５）一上記ｆ直（Ｒｉｊ／Ｖｊ）と（Ｒｉ＋！，ｊ＋
１Ａ０との大小関係を調べ、もし前者が大であれば次に
抽出される類似度Ｒとして類似度Ｒｉ，，＋！を抽出し
、上記と同様な値（Ｒｉ，ｊ＋１／Ｖｊ＋！）を求める
。そして値（Ｒｉ＋１，ｊ＋２Ａ０と比較する。（６）
上記（５）による調査の結果後者が大であれば、そこに
音韻の変化があるものとして、類似度Ｒｉ＋１，ｊ＋１
を抽出する。そして次に値（Ｒｉ＋１，ｊ＋１／Ｖｊ
＋！）ど（Ｒｉ＋ｊ＋Ｖ′Ｋ）との比較処理に入る。以
上の如き遷移処理もまた、時系列ＶＪのピークが現われ
るとき、値（Ｒｉｊ／Ｖｊ）が小い値となり値（Ｒｉ＋
１，ｊ＋１／Ｋ）が大きくなることを考えると、パーコ
ール係数時間傾斜成分のピーク発生タイミングに対応し
て類似度ＲｉｊからＲｉ＋１，ｊ＋１に遷移せしめてゆ
くことに変わりはない。

なお上記説明においてパーコール係数時間傾斜成分時系
列Ｖｊを求めるに当つて、上記第（１）式にしたがつて
ＱパラメータＱ１ないしＱｌＯのすべてを利用すること
を示したが、上記時系列Ｖｊにおけるピーク値が第４図
図示の如くすなおに現われるよう、上記ＱパラメータＱ
１ないしＱｌＯのいくつかを選択して時系列Ｖｊを求め
るようにすることができる。

そして発明者らのシミユレーシヨンによればこの方法を
採用することがより好ましい結果を得ることを確めるこ
とができた。言うまでもなく、上述の如く、従来公知の
非線形整合処理においては、Ｒｉ，ｊから、Ｒｉ，ｊ＋
ｌとＲｉ＋１，ｊ＋１とのうちの類似度の大きい方を選
択しつつたどつてゆくために、非所望な形で遷移が生じ
るおそれがあつた。これに対して本明場の場合には十分
に信頼性の高い遷移タイミングを与えていることから、
本来Ｒｉ＋１，ｊ＋！に遷移すべき所が強まつてＲｉ＋
１，ｊに進む如き可能性が強くなる。以上説明した如く
、本発明によればパーコール係数の時間傾斜成分時系列
Ｖｊを利用し、そのピーク発生タイミングを用いて遷移
処理を行なうようにしている。このため、従来公知の方
法の如く部分的に高い類似度が非所望に現われたことに
もとずいて、非所望な遷移が生ずることがなくなる。

【図面の簡単な説明】

第１図は本発明による認識方法の一実施例構成、第２図
は第１図に示す時間傾斜処理部の一実施例構成、第３図
は本発明によつて抽出されたＱパラメータの一例、第４
図は本発明による非線形整合処理を説明する説明図、第
５図は本発明による整合部の処理をフローチヤートの形
で表わした一実施例を夫々表わす。図中、１はパーコール係数ｋパラメータ抽出部、２−１
ないし２−１０は夫々時間傾斜処理部、３は時系列発生
部、４は入力音声のパターン系列発生部、５は整合処理
部、６は標準パターン系列群格納部を表わす。

Claims

【特許請求の範囲】

１予め用意された標準パターン系列を構成する各要素
と入力音声のパターン系列を構成する各要素との夫々の
間の類似度にもとづいて、上記標準パターン系列と上記
入力音声のパターン系列との非線形整合処理を行なう非
線形整合による認識方法において、上記入力音声から抽
出されたパーコール係数にもとづき該パーコール係数の
時間傾斜成分を決定するパーコール係数時間傾斜成分抽
出部、該抽出されたパーコール係数時間傾斜成分の時系
列を発生する時系列発生部、および上記標準パターン系
列と上記入力音声のパターン系列との整合を求める整合
処理手段とをもうけ、該整合処理手段として、上記パー
コール係数時間傾斜成分時系列におけるピーク発生タイ
ミングに対応して、類似度和ΣＲを求めるために用いる
類似度Ｒを、上記標準パターン系列を構成する第ｉ番目
の要素と上記入力音声のパターン系列を構成する第ｊ番
目の要素との１つの類似度Ｒｉｊから、上記標準パター
ン系列を構成する第（ｉ＋１）番目の要素と上記入力音
声のパターン系列を構成する第（ｊ＋１）番目の要素と
の他の類似度Ｒｉ＋＿１、ｊ＋１に遷移する遷移タイミ
ングを与え強制的に遷移するよう構成せしめたことを特
徴とする非線整合による認識方法。