JPS5936760B2 - 非線形整合による認識方法 - Google Patents
非線形整合による認識方法Info
- Publication number
- JPS5936760B2 JPS5936760B2 JP11736275A JP11736275A JPS5936760B2 JP S5936760 B2 JPS5936760 B2 JP S5936760B2 JP 11736275 A JP11736275 A JP 11736275A JP 11736275 A JP11736275 A JP 11736275A JP S5936760 B2 JPS5936760 B2 JP S5936760B2
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- series
- matching
- time
- time series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Description
【発明の詳細な説明】
本発明は、非線形整合による認識方法、特に標準パター
ン系列を構成する各要素と入力音声のパターン系列を構
成する各要素との夫々の間の類似度にもとずいて非線形
整合(類似度和ΣRを求める)を行なうに当つて、入力
音声から抽出されたパーコール係数時間傾斜成分時系列
を氷め、該時系列におけるピーク発生タイミングに対応
して類似度和ΣRを求めるために用いる類似度R1jを
順次遷移してゆくような整合処理手段をもうけるように
した非線形整合による認識方法に関するものである。
ン系列を構成する各要素と入力音声のパターン系列を構
成する各要素との夫々の間の類似度にもとずいて非線形
整合(類似度和ΣRを求める)を行なうに当つて、入力
音声から抽出されたパーコール係数時間傾斜成分時系列
を氷め、該時系列におけるピーク発生タイミングに対応
して類似度和ΣRを求めるために用いる類似度R1jを
順次遷移してゆくような整合処理手段をもうけるように
した非線形整合による認識方法に関するものである。
入力音声のパターン認識の手法の1つとして、パーコー
ル係数と呼ばれる係数の時系列を求め、標準となるパー
コール係数の時系列との間で整合をとる方式が考慮され
ている。
ル係数と呼ばれる係数の時系列を求め、標準となるパー
コール係数の時系列との間で整合をとる方式が考慮され
ている。
ここで言うパーコール係数とは、「第8回東北大学電気
通信研究所・ シンポジューム論文集 板倉文忠゛統計
的手法による音声の特徴抽出’’」および「昭和45年
電子通信学会全国大会講演論文集5−3−9、板倉文忠
他”’PARCOR型音声合成゛“」に開示されている
ものである。フ 上記パーコール係数の時系列の如き、
標準パターン系列と上記入力音声から抽出された入力音
声のパターン系列(以下入力パターン系列と略すことも
ある)との整合を求めるに当つて、いわゆる非線形整合
処理が広く利用されている。
通信研究所・ シンポジューム論文集 板倉文忠゛統計
的手法による音声の特徴抽出’’」および「昭和45年
電子通信学会全国大会講演論文集5−3−9、板倉文忠
他”’PARCOR型音声合成゛“」に開示されている
ものである。フ 上記パーコール係数の時系列の如き、
標準パターン系列と上記入力音声から抽出された入力音
声のパターン系列(以下入力パターン系列と略すことも
ある)との整合を求めるに当つて、いわゆる非線形整合
処理が広く利用されている。
これに次5 の如きものと考えてよい。即ち、標準パタ
ーン系列S−(Si)(i−1、2、・・・・・・、m
)と入力パターン系列P ■(Pj)(j■1、2、・
・・・・・ n )とウーから、上記両系列を構成する
各要素SiとPjとの類似度Rljをすべて決定したマ
トリクスをつくる。
ーン系列S−(Si)(i−1、2、・・・・・・、m
)と入力パターン系列P ■(Pj)(j■1、2、・
・・・・・ n )とウーから、上記両系列を構成する
各要素SiとPjとの類似度Rljをすべて決定したマ
トリクスをつくる。
そしてスタート点に対応する類似度R,lから終点に対
応する類似度Rmnに至る間、例えばRi,jからRi
,j+l<l!−Ri+1・j+1のうち類似度の大き
ぃ方を選択し、この様に選択された類似度を順にたどり
つつこれら類似度の和を求めるようにする。そしてこの
ような類似度を求める処理をすべての標準パターン系列
に対して行ない、この結果の類似度和の最も大きい1つ
の標準パターン系列をもつて、入力パターン系列がその
標準パターン系列に属するものとして認識する。非線形
整合処理は上述の如く行なわれるが、上述の如くRi,
jからRi,j+1とRi+I,j+lとのうちの類似
度の大きい方を選択しつつたどつてゆく処理即ち遷移処
理を行なうために、何んらかの原因により部分的に高い
類似度をとる箇所が非所望に存在すると、非所望な位置
で遷移が生じてしまい、正しい類似度和が決定できなく
なることがある。
応する類似度Rmnに至る間、例えばRi,jからRi
,j+l<l!−Ri+1・j+1のうち類似度の大き
ぃ方を選択し、この様に選択された類似度を順にたどり
つつこれら類似度の和を求めるようにする。そしてこの
ような類似度を求める処理をすべての標準パターン系列
に対して行ない、この結果の類似度和の最も大きい1つ
の標準パターン系列をもつて、入力パターン系列がその
標準パターン系列に属するものとして認識する。非線形
整合処理は上述の如く行なわれるが、上述の如くRi,
jからRi,j+1とRi+I,j+lとのうちの類似
度の大きい方を選択しつつたどつてゆく処理即ち遷移処
理を行なうために、何んらかの原因により部分的に高い
類似度をとる箇所が非所望に存在すると、非所望な位置
で遷移が生じてしまい、正しい類似度和が決定できなく
なることがある。
本発明は上記の点を解決することを目的としており、本
発明の非線形整合による認識方法は予め用意された標準
パターン系列を構成する各要素と入力音声のパターン系
列を構成する各要素との夫夫の間の類似度にもとづいて
、上記標準パターン 2系列と上記入力音声のパターン
系列との非線形整合処理を行なう非線形整合による認識
方法において、上記入力音声から抽出されたパーコール
係数にもとづき該パーコール係数の時間傾斜成分を決定
するパーコ一火係数時間傾斜成分抽出部、該抽 こ出さ
れたパーコール係数時間傾斜成分の時系列を発生する時
系列発生部、および上記標準パターン系列と上記入力音
声のパターン系列との整合を求める整合処理手段とをも
うけ、該整合処理手段として、上記パーコール係数時間
傾斜成分時系列に 5おけるピーク発生タイミングに対
応して、類似度和ΣRを求めるために用いる類似度Rを
、上記標準パターン系列を構成する第1番目の要素と上
記入力音声のパターン系列を構成する第j番目の要素と
の1つの類似度Rijから、上記標準パターン 4系列
を構成する第(1+1)番目の要素と上記入力音声パタ
ーン系列を構成する第(j+1)番目の要素との他の類
似度Ri+1,j+lに遷移する遷移タイミングを与え
強制的に遷移するよう構成せしめたことを特徴としてい
る。
発明の非線形整合による認識方法は予め用意された標準
パターン系列を構成する各要素と入力音声のパターン系
列を構成する各要素との夫夫の間の類似度にもとづいて
、上記標準パターン 2系列と上記入力音声のパターン
系列との非線形整合処理を行なう非線形整合による認識
方法において、上記入力音声から抽出されたパーコール
係数にもとづき該パーコール係数の時間傾斜成分を決定
するパーコ一火係数時間傾斜成分抽出部、該抽 こ出さ
れたパーコール係数時間傾斜成分の時系列を発生する時
系列発生部、および上記標準パターン系列と上記入力音
声のパターン系列との整合を求める整合処理手段とをも
うけ、該整合処理手段として、上記パーコール係数時間
傾斜成分時系列に 5おけるピーク発生タイミングに対
応して、類似度和ΣRを求めるために用いる類似度Rを
、上記標準パターン系列を構成する第1番目の要素と上
記入力音声のパターン系列を構成する第j番目の要素と
の1つの類似度Rijから、上記標準パターン 4系列
を構成する第(1+1)番目の要素と上記入力音声パタ
ーン系列を構成する第(j+1)番目の要素との他の類
似度Ri+1,j+lに遷移する遷移タイミングを与え
強制的に遷移するよう構成せしめたことを特徴としてい
る。
以下図面を参照しつつ説明する。第1図は本発明による
認識方法の一実施例構成、第2図は第1図に示す時間傾
斜処理部の一実施例構成、第3図は本発明によつて抽出
されたQパラメータの一例、第4図は本発明による非線
形整合処理を説明する説明図、第5図は本発明による整
合部の処理をフローチヤートの形で表わした一実施例を
夫々表わす。
認識方法の一実施例構成、第2図は第1図に示す時間傾
斜処理部の一実施例構成、第3図は本発明によつて抽出
されたQパラメータの一例、第4図は本発明による非線
形整合処理を説明する説明図、第5図は本発明による整
合部の処理をフローチヤートの形で表わした一実施例を
夫々表わす。
第1図において、1はパーコール係数kパラメータ抽出
部、2−1ないし2−10は夫々時間傾斜処理部で上記
kパラメータについて予め定めた短時間内の平均値をと
り該平均値の時間的変化を抽出してQパラメータを得る
もの、3は時系列発生部でパーコール係数時間傾斜成分
時系列Vjを得るもの、4は入力音声のパターン系列発
生部で例えば上記kパラメータにもとずいて入力音声に
対応した入力パターン系列Pを得るもの、5は整合処理
部、6は標準パターン系列群格納部であつて予め定めら
れた複数の標準パターン系列s(0)・・・s(r)・
・・を格納しておくものを表わしている。
部、2−1ないし2−10は夫々時間傾斜処理部で上記
kパラメータについて予め定めた短時間内の平均値をと
り該平均値の時間的変化を抽出してQパラメータを得る
もの、3は時系列発生部でパーコール係数時間傾斜成分
時系列Vjを得るもの、4は入力音声のパターン系列発
生部で例えば上記kパラメータにもとずいて入力音声に
対応した入力パターン系列Pを得るもの、5は整合処理
部、6は標準パターン系列群格納部であつて予め定めら
れた複数の標準パターン系列s(0)・・・s(r)・
・・を格納しておくものを表わしている。
なお以下の実施例において、上記標準パターン系列s(
o)・・・・・・・・・は入力パターン系列Pと同様に
対応する形をとるが、入力パターン系列Pにくらべて時
系列上でいわゆる間引いたものが格納部6内に格納され
る。入力音声に対応して、公知の手段をとるパーコール
係数kパラメータ抽出部1によつて、kパラメータk1
ないしK,Oが求められ、これらkパラメータk1ない
しKlOは入力パターン系列発生部4に導びかれる。
o)・・・・・・・・・は入力パターン系列Pと同様に
対応する形をとるが、入力パターン系列Pにくらべて時
系列上でいわゆる間引いたものが格納部6内に格納され
る。入力音声に対応して、公知の手段をとるパーコール
係数kパラメータ抽出部1によつて、kパラメータk1
ないしK,Oが求められ、これらkパラメータk1ない
しKlOは入力パターン系列発生部4に導びかれる。
そして該発生部4において、例えば時間帯t=0,T,
2T,・・・・・・毎にが求められ、入力パターン系列
Pが決定され、整合処理部5において標準パターン系列
s(0)ないしs(r)と夫々整合がとられる。本発明
の場合、上記整合処理部5において整合処理を行なうに
当つて、上述のパーコール係数時間傾斜成分時系列Vj
を求め、該時系列Vjのピーク発生タイミングを調べて
これを利用するようにしている。
2T,・・・・・・毎にが求められ、入力パターン系列
Pが決定され、整合処理部5において標準パターン系列
s(0)ないしs(r)と夫々整合がとられる。本発明
の場合、上記整合処理部5において整合処理を行なうに
当つて、上述のパーコール係数時間傾斜成分時系列Vj
を求め、該時系列Vjのピーク発生タイミングを調べて
これを利用するようにしている。
第2図は第1図図示の時間傾斜処理部の一実施例構成を
示し、図中Tないし10は夫々時遅回路、11は加算演
算増幅器、12は差動増幅器、13ないし16は抵抗を
表わしている。
示し、図中Tないし10は夫々時遅回路、11は加算演
算増幅器、12は差動増幅器、13ないし16は抵抗を
表わしている。
例えばkパラメータK,が入力されてくると、kl(T
i),kl(Ti+TO),kl(Ti+2T0)が加
算演算増幅器11によつて平均された値Aが得られる。
i),kl(Ti+TO),kl(Ti+2T0)が加
算演算増幅器11によつて平均された値Aが得られる。
時遅回路10は上記値Aを遅延せしめ、差動増幅器12
は該遅延された値A印と上記値Aとの差即ちQパラメー
タタQlを発生する。上述の如く得られたQパラメータ
は第3図に示す如く、各話者A,B,・・・に対応しか
つ単語゛4゜゜や’゛9””などに対応した特徴を含ん
でいる。そして上記パーコール係数は声道に関する特徴
に対応するものであることが知られていることから、上
記QパラメータQl なιルQ,Oは話者がある単語を
発音したときの゜’声道の変化゜”即ち”゜口の形の変
化゛に対応している。換言すると、上記QパラメータQ
lないしQlOについてVj(t←{Q,”(t}FQ
z(t}I−・・・・・+Q。
は該遅延された値A印と上記値Aとの差即ちQパラメー
タタQlを発生する。上述の如く得られたQパラメータ
は第3図に示す如く、各話者A,B,・・・に対応しか
つ単語゛4゜゜や’゛9””などに対応した特徴を含ん
でいる。そして上記パーコール係数は声道に関する特徴
に対応するものであることが知られていることから、上
記QパラメータQl なιルQ,Oは話者がある単語を
発音したときの゜’声道の変化゜”即ち”゜口の形の変
化゛に対応している。換言すると、上記QパラメータQ
lないしQlOについてVj(t←{Q,”(t}FQ
z(t}I−・・・・・+Q。
゛(t)}1/2−(1)で与えられるパーコール係数
時間傾斜成分時系列Vjを決定すると、該時系列Vjが
ピークをとるタイミングは”゜口の形の変化”゛が大き
い所でありいわぱ音韻が変化するタイ゛ミングであると
考えてよい。即ち例えば1アカイlの如き単語に対応す
る入力の場合について言えば音韻1アIが音韻I力1に
変化するタイミングや、音韻1力1が音韻lイ1に変化
するタイミングであると考えてよい。第1図図示の時系
列発生部は上記第(1)式にしたがつた時系列VJを発
生する。
時間傾斜成分時系列Vjを決定すると、該時系列Vjが
ピークをとるタイミングは”゜口の形の変化”゛が大き
い所でありいわぱ音韻が変化するタイ゛ミングであると
考えてよい。即ち例えば1アカイlの如き単語に対応す
る入力の場合について言えば音韻1アIが音韻I力1に
変化するタイミングや、音韻1力1が音韻lイ1に変化
するタイミングであると考えてよい。第1図図示の時系
列発生部は上記第(1)式にしたがつた時系列VJを発
生する。
第4図は本発明による整合部の非線形整合処理を説明す
る説明図を示している。
る説明図を示している。
従来公知の非線形整合処理の場合と同様に、一標準パタ
ーン系列Sを構成する各要素(音韻例えばlア1やI力
1や1イlに対応している)Slと入力パターン系列P
を構成する各要素P』 とを、横座標と縦座標とに配列
し、各要素Sl (!:PJとの間の類似度Rijを決
定してマトリクスRを求める。そして上述の如く求めら
れたパーコール係数時間傾斜成分時系列Vjを利用して
、次の如く類似度和ΣRを得るための類似度Rを抽出し
てゆく。即1)類似度R1lをスタート点として、上記
時系列VJが予め定めた閾値EO以下であるタイミング
のもとでは、1つの抽出された類似度R1jからRi,
j+1に遷移せしめてゆき、2)また上記時系列Vjが
予め定めた閾値EOを超えるタイミングのもとで、1つ
の抽出された類似度Rijから強制的にRi+1,j+
Iに遷移せしめてゆくようにする。
ーン系列Sを構成する各要素(音韻例えばlア1やI力
1や1イlに対応している)Slと入力パターン系列P
を構成する各要素P』 とを、横座標と縦座標とに配列
し、各要素Sl (!:PJとの間の類似度Rijを決
定してマトリクスRを求める。そして上述の如く求めら
れたパーコール係数時間傾斜成分時系列Vjを利用して
、次の如く類似度和ΣRを得るための類似度Rを抽出し
てゆく。即1)類似度R1lをスタート点として、上記
時系列VJが予め定めた閾値EO以下であるタイミング
のもとでは、1つの抽出された類似度R1jからRi,
j+1に遷移せしめてゆき、2)また上記時系列Vjが
予め定めた閾値EOを超えるタイミングのもとで、1つ
の抽出された類似度Rijから強制的にRi+1,j+
Iに遷移せしめてゆくようにする。
上記の如き処理による遷移処理が正当であることは、上
述の如く、パーコール係数時間傾斜成分が゜”口の形の
変化”゜即ち音韻の変化(移りかわり)に対応している
ことから、容易に理解されよう。
述の如く、パーコール係数時間傾斜成分が゜”口の形の
変化”゜即ち音韻の変化(移りかわり)に対応している
ことから、容易に理解されよう。
第5図は、整合処理部5において第4図に関連して説明
した遷移にしたがつた類似度和ΣRを求める処理をフロ
ーチヤートの形で表わしている。
した遷移にしたがつた類似度和ΣRを求める処理をフロ
ーチヤートの形で表わしている。
その処理は次の通りである。即ちa)スタート点におい
て要素S,とPIとに対応する類似度R1lをレジスタ
Wにセツトする。
て要素S,とPIとに対応する類似度R1lをレジスタ
Wにセツトする。
b)次に類似度R,2を抽出し、レジスタWに加算せし
めるべきか否かを調べるべく、V。>EOであるか否か
をチエツクする。c) V2>EOでない場合、レジス
タWに類似度R12を加算し、次に類似度R13を抽出
するか否かを調べる処理に入る。
めるべきか否かを調べるべく、V。>EOであるか否か
をチエツクする。c) V2>EOでない場合、レジス
タWに類似度R12を加算し、次に類似度R13を抽出
するか否かを調べる処理に入る。
d)しかしV。
>EOを満足する場合、類似度Rl2を抽出せず、レジ
スタWには類似度R22を加算し、次に類似度R23を
抽出するか否かを調べる処理に入る。第1図図示の整合
処理部5は、上記第4図および第5図に関連して説明し
た如き処理を行なうものであるが、上述の如くVj>E
Oをチエツクしてゆく方法の代わりに、時系列Vjのピ
ーク・レベルの変化を追跡せしめつつ上記遷移を行なわ
せることができる。
スタWには類似度R22を加算し、次に類似度R23を
抽出するか否かを調べる処理に入る。第1図図示の整合
処理部5は、上記第4図および第5図に関連して説明し
た如き処理を行なうものであるが、上述の如くVj>E
Oをチエツクしてゆく方法の代わりに、時系列Vjのピ
ーク・レベルの変化を追跡せしめつつ上記遷移を行なわ
せることができる。
この場合、次の如き遷移処理が行なわれる。
即ち、(3)今類似度和ΣRを求めるべく抽出された類
似度Rが類似度Ri』であるとするとき、それに対応す
る時点のパーコール係数時間傾斜成分Vjによつて上記
類似度Rijを除した値(Rij/Vj)を求めておく
。
似度Rが類似度Ri』であるとするとき、それに対応す
る時点のパーコール係数時間傾斜成分Vjによつて上記
類似度Rijを除した値(Rij/Vj)を求めておく
。
(4) −ー方当該時点において次に抽出されるかも知
れない類似度Ri+1,j+1に定数(1/K)を乗算
した値(Ri+1,j+1/K)を求める。
れない類似度Ri+1,j+1に定数(1/K)を乗算
した値(Ri+1,j+1/K)を求める。
(5)一上記f直(Rij/Vj)と(Ri+!,j+
1A0との大小関係を調べ、もし前者が大であれば次に
抽出される類似度Rとして類似度Ri,,+!を抽出し
、上記と同様な値(Ri,j+1/Vj+!)を求める
。そして値(Ri+1,j+2A0と比較する。(6)
上記(5)による調査の結果後者が大であれば、そこに
音韻の変化があるものとして、類似度Ri+1,j+1
を抽出する。そして次に値(Ri+1,j+1 /Vj
+!)ど(Ri+j+V′K)との比較処理に入る。以
上の如き遷移処理もまた、時系列VJのピークが現われ
るとき、値(Rij/Vj)が小い値となり値(Ri+
1,j+1/K)が大きくなることを考えると、パーコ
ール係数時間傾斜成分のピーク発生タイミングに対応し
て類似度RijからRi+1,j+1に遷移せしめてゆ
くことに変わりはない。
1A0との大小関係を調べ、もし前者が大であれば次に
抽出される類似度Rとして類似度Ri,,+!を抽出し
、上記と同様な値(Ri,j+1/Vj+!)を求める
。そして値(Ri+1,j+2A0と比較する。(6)
上記(5)による調査の結果後者が大であれば、そこに
音韻の変化があるものとして、類似度Ri+1,j+1
を抽出する。そして次に値(Ri+1,j+1 /Vj
+!)ど(Ri+j+V′K)との比較処理に入る。以
上の如き遷移処理もまた、時系列VJのピークが現われ
るとき、値(Rij/Vj)が小い値となり値(Ri+
1,j+1/K)が大きくなることを考えると、パーコ
ール係数時間傾斜成分のピーク発生タイミングに対応し
て類似度RijからRi+1,j+1に遷移せしめてゆ
くことに変わりはない。
なお上記説明においてパーコール係数時間傾斜成分時系
列Vjを求めるに当つて、上記第(1)式にしたがつて
QパラメータQ1ないしQlOのすべてを利用すること
を示したが、上記時系列Vjにおけるピーク値が第4図
図示の如くすなおに現われるよう、上記QパラメータQ
1ないしQlOのいくつかを選択して時系列Vjを求め
るようにすることができる。
列Vjを求めるに当つて、上記第(1)式にしたがつて
QパラメータQ1ないしQlOのすべてを利用すること
を示したが、上記時系列Vjにおけるピーク値が第4図
図示の如くすなおに現われるよう、上記QパラメータQ
1ないしQlOのいくつかを選択して時系列Vjを求め
るようにすることができる。
そして発明者らのシミユレーシヨンによればこの方法を
採用することがより好ましい結果を得ることを確めるこ
とができた。言うまでもなく、上述の如く、従来公知の
非線形整合処理においては、Ri,jから、Ri,j+
lとRi+1,j+1とのうちの類似度の大きい方を選
択しつつたどつてゆくために、非所望な形で遷移が生じ
るおそれがあつた。これに対して本明場の場合には十分
に信頼性の高い遷移タイミングを与えていることから、
本来Ri+1,j+!に遷移すべき所が強まつてRi+
1,jに進む如き可能性が強くなる。以上説明した如く
、本発明によればパーコール係数の時間傾斜成分時系列
Vjを利用し、そのピーク発生タイミングを用いて遷移
処理を行なうようにしている。このため、従来公知の方
法の如く部分的に高い類似度が非所望に現われたことに
もとずいて、非所望な遷移が生ずることがなくなる。
採用することがより好ましい結果を得ることを確めるこ
とができた。言うまでもなく、上述の如く、従来公知の
非線形整合処理においては、Ri,jから、Ri,j+
lとRi+1,j+1とのうちの類似度の大きい方を選
択しつつたどつてゆくために、非所望な形で遷移が生じ
るおそれがあつた。これに対して本明場の場合には十分
に信頼性の高い遷移タイミングを与えていることから、
本来Ri+1,j+!に遷移すべき所が強まつてRi+
1,jに進む如き可能性が強くなる。以上説明した如く
、本発明によればパーコール係数の時間傾斜成分時系列
Vjを利用し、そのピーク発生タイミングを用いて遷移
処理を行なうようにしている。このため、従来公知の方
法の如く部分的に高い類似度が非所望に現われたことに
もとずいて、非所望な遷移が生ずることがなくなる。
第1図は本発明による認識方法の一実施例構成、第2図
は第1図に示す時間傾斜処理部の一実施例構成、第3図
は本発明によつて抽出されたQパラメータの一例、第4
図は本発明による非線形整合処理を説明する説明図、第
5図は本発明による整合部の処理をフローチヤートの形
で表わした一実施例を夫々表わす。 図中、1はパーコール係数kパラメータ抽出部、2−1
ないし2−10は夫々時間傾斜処理部、3は時系列発生
部、4は入力音声のパターン系列発生部、5は整合処理
部、6は標準パターン系列群格納部を表わす。
は第1図に示す時間傾斜処理部の一実施例構成、第3図
は本発明によつて抽出されたQパラメータの一例、第4
図は本発明による非線形整合処理を説明する説明図、第
5図は本発明による整合部の処理をフローチヤートの形
で表わした一実施例を夫々表わす。 図中、1はパーコール係数kパラメータ抽出部、2−1
ないし2−10は夫々時間傾斜処理部、3は時系列発生
部、4は入力音声のパターン系列発生部、5は整合処理
部、6は標準パターン系列群格納部を表わす。
Claims (1)
- 1 予め用意された標準パターン系列を構成する各要素
と入力音声のパターン系列を構成する各要素との夫々の
間の類似度にもとづいて、上記標準パターン系列と上記
入力音声のパターン系列との非線形整合処理を行なう非
線形整合による認識方法において、上記入力音声から抽
出されたパーコール係数にもとづき該パーコール係数の
時間傾斜成分を決定するパーコール係数時間傾斜成分抽
出部、該抽出されたパーコール係数時間傾斜成分の時系
列を発生する時系列発生部、および上記標準パターン系
列と上記入力音声のパターン系列との整合を求める整合
処理手段とをもうけ、該整合処理手段として、上記パー
コール係数時間傾斜成分時系列におけるピーク発生タイ
ミングに対応して、類似度和ΣRを求めるために用いる
類似度Rを、上記標準パターン系列を構成する第i番目
の要素と上記入力音声のパターン系列を構成する第j番
目の要素との1つの類似度Rijから、上記標準パター
ン系列を構成する第(i+1)番目の要素と上記入力音
声のパターン系列を構成する第(j+1)番目の要素と
の他の類似度Ri+_1、j+1に遷移する遷移タイミ
ングを与え強制的に遷移するよう構成せしめたことを特
徴とする非線整合による認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11736275A JPS5936760B2 (ja) | 1975-09-29 | 1975-09-29 | 非線形整合による認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11736275A JPS5936760B2 (ja) | 1975-09-29 | 1975-09-29 | 非線形整合による認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5242006A JPS5242006A (en) | 1977-04-01 |
| JPS5936760B2 true JPS5936760B2 (ja) | 1984-09-05 |
Family
ID=14709787
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP11736275A Expired JPS5936760B2 (ja) | 1975-09-29 | 1975-09-29 | 非線形整合による認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5936760B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS59174057U (ja) * | 1983-05-11 | 1984-11-20 | トヨタ自動車株式会社 | 車両用ヘツドレスト |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS55138181A (en) * | 1979-04-13 | 1980-10-28 | Nec Corp | Inter-pattern similarity calculator |
| JPS56119198A (en) * | 1980-02-26 | 1981-09-18 | Sanyo Electric Co | Word voice identifying device |
-
1975
- 1975-09-29 JP JP11736275A patent/JPS5936760B2/ja not_active Expired
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS59174057U (ja) * | 1983-05-11 | 1984-11-20 | トヨタ自動車株式会社 | 車両用ヘツドレスト |
Also Published As
| Publication number | Publication date |
|---|---|
| JPS5242006A (en) | 1977-04-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP3955246B1 (en) | Voiceprint recognition method and device based on memory bottleneck feature | |
| Hasan et al. | Duration mismatch compensation for i-vector based speaker recognition systems | |
| JP5275612B2 (ja) | 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法 | |
| CN102664003B (zh) | 基于谐波加噪声模型的残差激励信号合成及语音转换方法 | |
| CN114387997B (zh) | 一种基于深度学习的语音情感识别方法 | |
| CN107146624A (zh) | 一种说话人确认方法及装置 | |
| Kanagasundaram et al. | A study of x-vector based speaker recognition on short utterances | |
| KR20080078466A (ko) | 다단계 음성인식장치 및 방법 | |
| CN107393554A (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
| CN102592590B (zh) | 一种可任意调节的语音自然变声方法及装置 | |
| CN112786058B (zh) | 声纹模型训练方法、装置、设备以及存储介质 | |
| CN106782601B (zh) | 一种多媒体数据处理方法及其装置 | |
| WO2021035980A1 (zh) | 人脸识别模型的训练方法、装置、设备及可读存储介质 | |
| Jiang et al. | Geometric methods for spectral analysis | |
| Gamit et al. | Isolated words recognition using mfcc lpc and neural network | |
| Suh et al. | Phoneme segmentation of continuous speech using multi-layer perceptron | |
| CN105989846A (zh) | 一种多通道语音信号同步方法及装置 | |
| TWI503813B (zh) | 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組 | |
| JPS5936760B2 (ja) | 非線形整合による認識方法 | |
| CN109346107B (zh) | 一种基于lstm的独立说话人语音发音逆求解的方法 | |
| US20070256189A1 (en) | Soft alignment in gaussian mixture model based transformation | |
| Glembek et al. | Migrating i-vectors between speaker recognition systems using regression neural networks. | |
| Tong et al. | Tokenizing fundamental frequency variation for Mandarin tone error detection | |
| CN202454260U (zh) | 一种动态归一化数字特征的语音评分装置 | |
| TWI409802B (zh) | 音頻特徵處理方法及其裝置 |