JPH04248595A - Dpマッチング法 - Google Patents
Dpマッチング法Info
- Publication number
- JPH04248595A JPH04248595A JP3013267A JP1326791A JPH04248595A JP H04248595 A JPH04248595 A JP H04248595A JP 3013267 A JP3013267 A JP 3013267A JP 1326791 A JP1326791 A JP 1326791A JP H04248595 A JPH04248595 A JP H04248595A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- frame
- grid point
- word
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 20
- 230000008602 contraction Effects 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 description 40
- 238000004364 calculation method Methods 0.000 description 9
- 238000007796 conventional method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】本発明はパターンマッチング方法
に関する。
に関する。
【0002】
【従来の技術】従来、「情報基礎学詳説」(コロナ社出
版、坂井利之編)に記載されているように、u(i)を
入力パターンAのiフレームを標準パターンBのu(i
)フレームに対応づけるパターン伸縮関数とする時、入
力パターンAと標準パターンBの時系列間の距離の定義
式が、
版、坂井利之編)に記載されているように、u(i)を
入力パターンAのiフレームを標準パターンBのu(i
)フレームに対応づけるパターン伸縮関数とする時、入
力パターンAと標準パターンBの時系列間の距離の定義
式が、
【0003】
【数3】
【0004】で表され、境界条件を{u(1)=1、u
(I)=J}とするDPマッチング法や、「Two−l
evel DP−matching−a dynami
c programming based patte
rn mattingalgorithm for c
onnected word recognition
s」(IEEE Trans. Acoust.,Sp
eech& Signal Process.,ASS
P−27,6,pp588−595 by H. S
akoe)に記載されているように、連続単語認識のた
めの2段DPマッチング法が知られていた。
(I)=J}とするDPマッチング法や、「Two−l
evel DP−matching−a dynami
c programming based patte
rn mattingalgorithm for c
onnected word recognition
s」(IEEE Trans. Acoust.,Sp
eech& Signal Process.,ASS
P−27,6,pp588−595 by H. S
akoe)に記載されているように、連続単語認識のた
めの2段DPマッチング法が知られていた。
【0005】ここで、Iは入力パターンのフレーム数、
Jは標準パターンのフレーム数を表す。
Jは標準パターンのフレーム数を表す。
【0006】
【発明が解決しようとする課題】しかし、従来のDPマ
ッチング法では、入力パターン中に、本来照合すべきパ
ターンの前後に、標準パターンの特徴パラメータと特徴
量が異なる余分なパターンが付加された場合、入力パタ
ーン全体と、標準パターン全体を照合するため、正確な
パターンマッチングが不可能となるという問題点を有し
ていた。
ッチング法では、入力パターン中に、本来照合すべきパ
ターンの前後に、標準パターンの特徴パラメータと特徴
量が異なる余分なパターンが付加された場合、入力パタ
ーン全体と、標準パターン全体を照合するため、正確な
パターンマッチングが不可能となるという問題点を有し
ていた。
【0007】従来のDPマッチング法を単語音声認識に
応用した場合、単語の前後に、話者が自然に発声してし
まう、「えー」「んー」「です」等の言葉を付けて発声
した時に、余分なパターンを含んだ入力パターン全体と
、単語の標準パターンとのパターンマッチングを行うた
め、誤認識を起こしてしまうという問題点を有していた
。この問題を解決する方法として、2段DPマッチング
法を用いて、入力パターンから、単語部分をスポッティ
ングする方法があるが、この方法では、入力パターン長
がIフレームであった場合、入力パターンの総てのフレ
ームを始点とするI個の入力パターンと標準パターンと
のパターンマッチングを行うため、計算時間が長くなり
、音声認識の実時間処理が難しくなる、という問題点を
有している。
応用した場合、単語の前後に、話者が自然に発声してし
まう、「えー」「んー」「です」等の言葉を付けて発声
した時に、余分なパターンを含んだ入力パターン全体と
、単語の標準パターンとのパターンマッチングを行うた
め、誤認識を起こしてしまうという問題点を有していた
。この問題を解決する方法として、2段DPマッチング
法を用いて、入力パターンから、単語部分をスポッティ
ングする方法があるが、この方法では、入力パターン長
がIフレームであった場合、入力パターンの総てのフレ
ームを始点とするI個の入力パターンと標準パターンと
のパターンマッチングを行うため、計算時間が長くなり
、音声認識の実時間処理が難しくなる、という問題点を
有している。
【0008】
【課題を解決するための手段】本発明のDPマッチング
法は、DPマッチング法において、入力パターンAと標
準パターンBの特徴パラメータの列を、A=a1、a2
、・・、ai、・・、aI、B=b1、b2、・・、b
j、・・、bJ (Iは入力パターンのフレーム数、Jは標準パターンの
フレーム数) で表し、u(i)を、前記入力パターンAのiフレーム
を前記標準パターンBのu(i)フレームに対応づける
パターン伸縮関数とする時、前記入力パターンAと前記
標準パターンBの列間の距離の定義式を、
法は、DPマッチング法において、入力パターンAと標
準パターンBの特徴パラメータの列を、A=a1、a2
、・・、ai、・・、aI、B=b1、b2、・・、b
j、・・、bJ (Iは入力パターンのフレーム数、Jは標準パターンの
フレーム数) で表し、u(i)を、前記入力パターンAのiフレーム
を前記標準パターンBのu(i)フレームに対応づける
パターン伸縮関数とする時、前記入力パターンAと前記
標準パターンBの列間の距離の定義式を、
【0009】
【数4】
【0010】とし、前記列間の距離の定義式中の部分式
【0011】
【数5】
【0012】における境界条件を{u(i1)=1、u
(i2)= J}とし、前記列間の距離の定義式にお
いて、i>i1の時、u(i)≠1とすることを特徴と
する。
(i2)= J}とし、前記列間の距離の定義式にお
いて、i>i1の時、u(i)≠1とすることを特徴と
する。
【0013】
【実施例】(実施例1)本発明のDPマッチング法を、
ワードスポッティングを行う単語認識の音声認識装置に
応用した実施例を図面に沿って説明する。
ワードスポッティングを行う単語認識の音声認識装置に
応用した実施例を図面に沿って説明する。
【0014】図1は、本発明のDPマッチング法を用い
た音声認識装置のシステム構成図である。話者によって
発話された音声を、マイク1より入力し、A/D変換部
2において、16[KHz]、12ビットのディジタル
信号に変換し、特徴抽出部3において、20[ms]を
1フレームとして、1フレーム毎に、ハミングウィンド
ウ処理、線形予測分析を行い、14次LPCケプストラ
ム係数を特徴パラメータとして求める。この時、フレー
ムのシフト量は10[ms]とする。このようにして得
た特徴パラメータ列を入力パターンとして、単語認識部
4において、あらかじめ学習させてあるN個の単語の標
準パターンと、本発明のDPマッチング法を用いてパタ
ーンマッチングを行うことにより、単語をスポッティン
グし、認識する。このときN個の単語の標準パターンは
単語辞書5に登録されている。
た音声認識装置のシステム構成図である。話者によって
発話された音声を、マイク1より入力し、A/D変換部
2において、16[KHz]、12ビットのディジタル
信号に変換し、特徴抽出部3において、20[ms]を
1フレームとして、1フレーム毎に、ハミングウィンド
ウ処理、線形予測分析を行い、14次LPCケプストラ
ム係数を特徴パラメータとして求める。この時、フレー
ムのシフト量は10[ms]とする。このようにして得
た特徴パラメータ列を入力パターンとして、単語認識部
4において、あらかじめ学習させてあるN個の単語の標
準パターンと、本発明のDPマッチング法を用いてパタ
ーンマッチングを行うことにより、単語をスポッティン
グし、認識する。このときN個の単語の標準パターンは
単語辞書5に登録されている。
【0015】まず、図2、図3の説明に必要な記号を定
義する。
義する。
【0016】話者が発話した音声を入力パターンαとし
、入力パターン長をIとし、単語名をnとし、単語数を
Nとし、単語nの標準パターンをβnとし、単語nの標
準パターン長をJnとし、入力パターンαの特徴パラメ
ータの時系列を、a(1)、a(2)、・・・、a(I
)、とし、単語nの標準パターンβnの特徴パラメータ
の時 系列を、bn(1)、bn(2)、・・・、b
n(Jn)、とする。
、入力パターン長をIとし、単語名をnとし、単語数を
Nとし、単語nの標準パターンをβnとし、単語nの標
準パターン長をJnとし、入力パターンαの特徴パラメ
ータの時系列を、a(1)、a(2)、・・・、a(I
)、とし、単語nの標準パターンβnの特徴パラメータ
の時 系列を、bn(1)、bn(2)、・・・、b
n(Jn)、とする。
【0017】dn(i、j)を入力パターンαの第iフ
レーム(a(i))と単語nの標準パターンβnの第j
フレーム(bn(j))のフレーム間距離とする。
レーム(a(i))と単語nの標準パターンβnの第j
フレーム(bn(j))のフレーム間距離とする。
【0018】BPn(i、j)は、格子点(i、j)に
おいて、照合する入力パターンαの照合開始位置を示す
バックポインタとする。
おいて、照合する入力パターンαの照合開始位置を示す
バックポインタとする。
【0019】gn(i、j)は、入力パターンαのBP
n(i、j)フレームからiフレームと、単語nの標準
パターンβnの1フレームからjフレームとの最小累積
距離とする。
n(i、j)フレームからiフレームと、単語nの標準
パターンβnの1フレームからjフレームとの最小累積
距離とする。
【0020】un(i)を、入力パターンαのiフレー
ムを標準パターンβnのun(i)フレームに対応づけ
るパターン伸縮関数とし、本実施例においては、パター
ン伸縮関数un(i)の条件を、un(i−1)=j、
または、un(i−1)=j−1、または、un(i−
1)=j−2、の時に限り、un(i)=j、とする。 この条件は、図4で示すDPパス41、42、43に対
応する。
ムを標準パターンβnのun(i)フレームに対応づけ
るパターン伸縮関数とし、本実施例においては、パター
ン伸縮関数un(i)の条件を、un(i−1)=j、
または、un(i−1)=j−1、または、un(i−
1)=j−2、の時に限り、un(i)=j、とする。 この条件は、図4で示すDPパス41、42、43に対
応する。
【0021】入力パターンαと標準パターンβnの時系
列間の距離の定義式を、
列間の距離の定義式を、
【0022】
【数6】 ・・・(1)式
【0023】とする。
【0024】ここで、in(1)は{1≦in(1)<
I}の範囲の任意の入力パターンαのフレーム番号で、
単語nの標準パターンβと入力パターンαの照合開始位
置を示す。
I}の範囲の任意の入力パターンαのフレーム番号で、
単語nの標準パターンβと入力パターンαの照合開始位
置を示す。
【0025】in(2)は{1<in(2)≦I}の範
囲の任意の入力パターンαのフレーム番号で、単語nの
標準パターンβと入力パターンαの照合終了位置を示す
。
囲の任意の入力パターンαのフレーム番号で、単語nの
標準パターンβと入力パターンαの照合終了位置を示す
。
【0026】(1)式で表される時系列間の距離の定義
式中の部分式、
式中の部分式、
【0027】
【数7】 ・・・(2)式
【0028】における境界条件を、{un(in(1)
)=1、un(in(2))=Jn}とする。これは、
「入力パターンαの照合開始フレームが任意の第in(
1)フレームの時、単語nの標準パターンβnの照合開
始フレームは第1フレームである」ということ と、
「入力パターンαの照合終了フレームが任意の第in(
2)フレームの時、単語nの標準パターンβnの照合終
了フレームは第Jnフレームである」ということを示す
。この境界条件により、部分式(2)式は、単語nの標
準パターンβnと、 入力パターンα中の任意のin
(1)フレームから任意のin(2)フレームまでのパ
ターンとの最小累積距離を表す。
)=1、un(in(2))=Jn}とする。これは、
「入力パターンαの照合開始フレームが任意の第in(
1)フレームの時、単語nの標準パターンβnの照合開
始フレームは第1フレームである」ということ と、
「入力パターンαの照合終了フレームが任意の第in(
2)フレームの時、単語nの標準パターンβnの照合終
了フレームは第Jnフレームである」ということを示す
。この境界条件により、部分式(2)式は、単語nの標
準パターンβnと、 入力パターンα中の任意のin
(1)フレームから任意のin(2)フレームまでのパ
ターンとの最小累積距離を表す。
【0029】よって、部分式(2)式を最小にする、i
n(1)フレームとin(2)フレームを選択すること
により、単語nの標準パターンβnとの距離を最小にす
る、入力パターンα中の最適範囲をスポッティングでき
る。このようにスポッティングされた入力パターンα中
のin(1)フレームからin(2)フレームまでのパ
ターンと標準パターンβnとの最小累積距離が、入力パ
ターンαと標準パターンβnとの最小累積距離であり、
この定義式は(1)式となる。
n(1)フレームとin(2)フレームを選択すること
により、単語nの標準パターンβnとの距離を最小にす
る、入力パターンα中の最適範囲をスポッティングでき
る。このようにスポッティングされた入力パターンα中
のin(1)フレームからin(2)フレームまでのパ
ターンと標準パターンβnとの最小累積距離が、入力パ
ターンαと標準パターンβnとの最小累積距離であり、
この定義式は(1)式となる。
【0030】本発明においては、部分式(2)式を計算
するアルゴリズムを高速化するために、i>in(1)
の時、un(i)≠1とする。これは図4において、j
−2=1の時(すなわちj=3の時)に限り、DPパス
43を許可しない、ということである。この条件により
、入力パターンαの任意の第iフレームと単語nの標準
パターンβnの第1フレームとのフレーム格子点(i、
1)における最小累積距離gn(i、1)は、常にその
格子点でのフレーム間距離となり、他のフレーム間距離
とは無関係となる。すなわち、どのフレーム格子点(i
、1)もパターン照合開始点となり得ることになる。
するアルゴリズムを高速化するために、i>in(1)
の時、un(i)≠1とする。これは図4において、j
−2=1の時(すなわちj=3の時)に限り、DPパス
43を許可しない、ということである。この条件により
、入力パターンαの任意の第iフレームと単語nの標準
パターンβnの第1フレームとのフレーム格子点(i、
1)における最小累積距離gn(i、1)は、常にその
格子点でのフレーム間距離となり、他のフレーム間距離
とは無関係となる。すなわち、どのフレーム格子点(i
、1)もパターン照合開始点となり得ることになる。
【0031】この条件を用いることにより計算が高速に
なることを、図2を用いて説明する。
なることを、図2を用いて説明する。
【0032】格子点14における最小累積距離のDPパ
スが、DPパス16、17であった場合、格子点14に
おける最小累積距離は、格子点10、13、14のフレ
ーム間距離の和であり、この照合開始格子点は、格子点
10である。格子点12における最小累積距離は、上記
の条件により格子点11から格子点12へのDPパスは
存在しないため、格子点12におけるフレーム間距離で
あり、照合開始格子点は格子点12である。格子点15
における最小累積距離を求めるためのDPパスは、格子
点14における最小累積距離と格子点12における最小
累積距離のうち、最小累積距離の値の小さい方の格子点
と格子点15を結ぶパスとして求められる。ここで、D
Pパス19が選択された場合、本発明のDPマッチング
法では、上記で述べたように、照合開始格子点は格子点
12となる。このように、最初の照合開始格子点を、格
子点(1、1)として、最小累積距離の計算を始めた場
合、任意の格子点(i、j)の最小累積距離は、格子点
(1、1)から格子点(i−1、1)のうちの最適な格
子点から格子点(i、j)までの累積距離として計算さ
れ、格子点(1、1)から格子点(i−1、1)のうち
の最適な格子点が、新たに照合開始格子点として選択さ
れる。このようにして、i=1からIまで、順にiの値
を増やしながら、j(1からJnまで)との格子点にお
ける最小累積距離を、 1回だけ求めていくことによ
り、任意のiを入力パターンαの終了フレームとする、
単語nの標準パターンβnとの最小累積距離と、その照
合開始格子点を1点 だけ求めることができる。
スが、DPパス16、17であった場合、格子点14に
おける最小累積距離は、格子点10、13、14のフレ
ーム間距離の和であり、この照合開始格子点は、格子点
10である。格子点12における最小累積距離は、上記
の条件により格子点11から格子点12へのDPパスは
存在しないため、格子点12におけるフレーム間距離で
あり、照合開始格子点は格子点12である。格子点15
における最小累積距離を求めるためのDPパスは、格子
点14における最小累積距離と格子点12における最小
累積距離のうち、最小累積距離の値の小さい方の格子点
と格子点15を結ぶパスとして求められる。ここで、D
Pパス19が選択された場合、本発明のDPマッチング
法では、上記で述べたように、照合開始格子点は格子点
12となる。このように、最初の照合開始格子点を、格
子点(1、1)として、最小累積距離の計算を始めた場
合、任意の格子点(i、j)の最小累積距離は、格子点
(1、1)から格子点(i−1、1)のうちの最適な格
子点から格子点(i、j)までの累積距離として計算さ
れ、格子点(1、1)から格子点(i−1、1)のうち
の最適な格子点が、新たに照合開始格子点として選択さ
れる。このようにして、i=1からIまで、順にiの値
を増やしながら、j(1からJnまで)との格子点にお
ける最小累積距離を、 1回だけ求めていくことによ
り、任意のiを入力パターンαの終了フレームとする、
単語nの標準パターンβnとの最小累積距離と、その照
合開始格子点を1点 だけ求めることができる。
【0033】従来方法では、格子点15へのDPパスが
、DPパス19となった時、格子点12における最小累
積距離は、格子点10、11、12におけるフレーム間
距離の和で、照合開始格子点は格子点10である。すな
わち、格子点10から照合を開始した場合、どの格子点
においても、照合開始格子点は格子点10となる。よっ
て、任意のiを入力パターンαの終了フレームとする、
単語nの標準パターンβnとの最小累積距離を求めるた
めには、照合開始格子点を格子点(1、1)から格子点
(i−1、1)までのそれぞれの格子点とする、i−1
回の計算を行い、どの格子点を照合開始格子点として計
算した時が、最も累積距離が小さいかを計算する必要が
ある。よって、入力パターン数をIフレームとした場合
、最小累積距離の計算ループは本発明の(I−1)/2
倍となる。仮に、入力フレーム数Iが100フレームの
場合、最小累積距離の計算ループは、本発明の約50倍
となる。
、DPパス19となった時、格子点12における最小累
積距離は、格子点10、11、12におけるフレーム間
距離の和で、照合開始格子点は格子点10である。すな
わち、格子点10から照合を開始した場合、どの格子点
においても、照合開始格子点は格子点10となる。よっ
て、任意のiを入力パターンαの終了フレームとする、
単語nの標準パターンβnとの最小累積距離を求めるた
めには、照合開始格子点を格子点(1、1)から格子点
(i−1、1)までのそれぞれの格子点とする、i−1
回の計算を行い、どの格子点を照合開始格子点として計
算した時が、最も累積距離が小さいかを計算する必要が
ある。よって、入力パターン数をIフレームとした場合
、最小累積距離の計算ループは本発明の(I−1)/2
倍となる。仮に、入力フレーム数Iが100フレームの
場合、最小累積距離の計算ループは、本発明の約50倍
となる。
【0034】次に、図3を用いて、本発明のDPマッチ
ング法を実際に行うアルゴリズムを説明する。
ング法を実際に行うアルゴリズムを説明する。
【0035】ループ21では、単語辞書5に登録してあ
るN個の単語の標準パターンと入力パターンとのパター
ンマッチングを行うために、n=1、2、・・・、Nに
ついて、ループ22、演算23、演算24、ループ25
、演算26、演算27、ループ28、ループ29、演算
30、演算31、演算32を実行する。
るN個の単語の標準パターンと入力パターンとのパター
ンマッチングを行うために、n=1、2、・・・、Nに
ついて、ループ22、演算23、演算24、ループ25
、演算26、演算27、ループ28、ループ29、演算
30、演算31、演算32を実行する。
【0036】ループ22では、入力パターンの各フレー
ム、i=1、2、・・・、Iについて、演算23、演算
24を実行し、累積距離gn(i、1)、バックポイン
タBPn(i、1)を初期化する。
ム、i=1、2、・・・、Iについて、演算23、演算
24を実行し、累積距離gn(i、1)、バックポイン
タBPn(i、1)を初期化する。
【0037】累積距離gn(i、1)の初期値は、入力
フレームαの第iフレームと単語nの標準パターンβn
の第1フレームとのフレーム間距離dn(i、1)とす
る。格子点(i、1)におけるバックポインタBPn(
i、1)の初期値はiとする。 この初期化は、単語
nの標準パターンβnと入力パターンαの照合開始位置
にお ける境界条件を示す。
フレームαの第iフレームと単語nの標準パターンβn
の第1フレームとのフレーム間距離dn(i、1)とす
る。格子点(i、1)におけるバックポインタBPn(
i、1)の初期値はiとする。 この初期化は、単語
nの標準パターンβnと入力パターンαの照合開始位置
にお ける境界条件を示す。
【0038】ループ25では、単語nの標準パターンの
各フレーム、j=2、3、・・・、Jnについて、演算
26、演算27を実行し、累積距離gn(1、j)、バ
ックポインタBPn(1、j)を初期化する。ここで、
累積距離gn(1、j)の初期値は無限大とする。この
初期化も、単語nの標準パターンβnと入力パターンα
の照合開始位置における境界条件を満たすための初期化
である。
各フレーム、j=2、3、・・・、Jnについて、演算
26、演算27を実行し、累積距離gn(1、j)、バ
ックポインタBPn(1、j)を初期化する。ここで、
累積距離gn(1、j)の初期値は無限大とする。この
初期化も、単語nの標準パターンβnと入力パターンα
の照合開始位置における境界条件を満たすための初期化
である。
【0039】ループ28では、入力パターンの各フレー
ム、i=2、3、・・・、Iについて、ループ29、演
算30、演算31、演算32を実行する。
ム、i=2、3、・・・、Iについて、ループ29、演
算30、演算31、演算32を実行する。
【0040】ループ29では、単語nの標準パターン、
j=2、3、・・・、Jnについて、演算30、演算3
1、演算32を実行する。
j=2、3、・・・、Jnについて、演算30、演算3
1、演算32を実行する。
【0041】演算30では、格子点(i、j)において
、本実施例で許可する3つのDPパス、(図4で示され
る、DPパス41、DPパス42、DPパス43)のう
ち、最適なDPパスを選択する演算を行う。すなわち、
格子点(i−1、j)、(i−1、j−1)、(i−1
、j−2)までの累積距離が最小である格子点を選択す
る値である。演算30の中で用いられている関数、
、本実施例で許可する3つのDPパス、(図4で示され
る、DPパス41、DPパス42、DPパス43)のう
ち、最適なDPパスを選択する演算を行う。すなわち、
格子点(i−1、j)、(i−1、j−1)、(i−1
、j−2)までの累積距離が最小である格子点を選択す
る値である。演算30の中で用いられている関数、
【0
042】
042】
【数8】
【0043】は、{}中の関数gn(i−1,k)の値
を最小にするkを求める関数と定義する。この演算によ
って求められるk′の値は、上記に示したパターン伸縮
関数un(iー1)の値である。よって、jまたは、j
−1、または、jー2、のい づれかの値である。
を最小にするkを求める関数と定義する。この演算によ
って求められるk′の値は、上記に示したパターン伸縮
関数un(iー1)の値である。よって、jまたは、j
−1、または、jー2、のい づれかの値である。
【0044】演算31では、格子点(i、j)における
累積距離gn(i、j)を求める。この時、照合してい
るパターンは、入力パターンαのBPn(i−1、k′
)フ レームからiフレームと、単語nの標準パター
ンβnの1フレームからjフレー ムである。ここで
、バックポインタBPn(i−1、k′)には、格子点
(i− 1、k′)における、入力パターンαの照合
開始位置が保存されている。また、累積距離gn(i、
k′)は、入力パターンαのBPn(i−1、k′)フ
レームからiフレームと、単語nの標準パターンβnの
1フレームからk′フレームと の最小累積距離であ
る。更に、格子点(i、k′)は、演算30で演算され
たように、格子点(i、j)にとって、最適なDPパス
をとる格子点ある。よって、gn(i、k′)の値に、
格子点(i、j)におけるフレーム間距離dn(i、j
)を加えることにより、入力パターンαのBPn(i−
1、k′)フレームからi フレームと、単語nの標
準パターンβnの1フレームからjフレームとの最小累
積距離gn(i、j)を求めることができる。
累積距離gn(i、j)を求める。この時、照合してい
るパターンは、入力パターンαのBPn(i−1、k′
)フ レームからiフレームと、単語nの標準パター
ンβnの1フレームからjフレー ムである。ここで
、バックポインタBPn(i−1、k′)には、格子点
(i− 1、k′)における、入力パターンαの照合
開始位置が保存されている。また、累積距離gn(i、
k′)は、入力パターンαのBPn(i−1、k′)フ
レームからiフレームと、単語nの標準パターンβnの
1フレームからk′フレームと の最小累積距離であ
る。更に、格子点(i、k′)は、演算30で演算され
たように、格子点(i、j)にとって、最適なDPパス
をとる格子点ある。よって、gn(i、k′)の値に、
格子点(i、j)におけるフレーム間距離dn(i、j
)を加えることにより、入力パターンαのBPn(i−
1、k′)フレームからi フレームと、単語nの標
準パターンβnの1フレームからjフレームとの最小累
積距離gn(i、j)を求めることができる。
【0045】この時、累積距離gn(i、j)が照合パ
ターン長に依存しないように、入力パターンの照合パタ
ーン長で割っている。また本発明のDPマッチング法で
は、(1)式で示されるように、累積距離gn(i、j
)は標準パターン長には依存 しないため、標準パタ
ーン長に対する処置は施さない。
ターン長に依存しないように、入力パターンの照合パタ
ーン長で割っている。また本発明のDPマッチング法で
は、(1)式で示されるように、累積距離gn(i、j
)は標準パターン長には依存 しないため、標準パタ
ーン長に対する処置は施さない。
【0046】演算32では格子点(i、j)におけるバ
ックポインタを演算している。この演算により、格子点
(i、j)における累積距離gn(i、j)の入力パタ
ーンの照合開始位置を、バックポインタBPn(i、j
)に保存する。
ックポインタを演算している。この演算により、格子点
(i、j)における累積距離gn(i、j)の入力パタ
ーンの照合開始位置を、バックポインタBPn(i、j
)に保存する。
【0047】以上のように演算された累積距離gn(i
、j)の中から、入力パターンαの照合終了位置に関す
る境界条件{un(in(2))=Jn}を満たす累積
距離gn( i、Jn)を用いて、(ここで、in(
2)は入力パターンαの任意のフレーム番号 なので
、入力パターンαの任意のフレーム番号iと同義である
。)演算33を実行することにより、累積距離gn(i
、Jn)を最小にする、単語n′と入力パターンαの照
合終了位置i′フレームを選択する。
、j)の中から、入力パターンαの照合終了位置に関す
る境界条件{un(in(2))=Jn}を満たす累積
距離gn( i、Jn)を用いて、(ここで、in(
2)は入力パターンαの任意のフレーム番号 なので
、入力パターンαの任意のフレーム番号iと同義である
。)演算33を実行することにより、累積距離gn(i
、Jn)を最小にする、単語n′と入力パターンαの照
合終了位置i′フレームを選択する。
【0048】このn′とi′をバックポインタBPn(
i、j)に代入して、演算34を実行することにより、
単語名がn′で、入力パターンαの照合終了位置がi′
の時の、入力パターンαの照合開始位置Bフレームが得
られる。
i、j)に代入して、演算34を実行することにより、
単語名がn′で、入力パターンαの照合終了位置がi′
の時の、入力パターンαの照合開始位置Bフレームが得
られる。
【0049】以上の全ての演算によって、話者が発話し
た余分な音声を含む入力パターンαの中から、最適な単
語n′を認識し、その単語が存在する最適区間(Bフレ
ーム〜i′フレーム)をスポッティングする、「ワード
スポッティング」を行うことができる。
た余分な音声を含む入力パターンαの中から、最適な単
語n′を認識し、その単語が存在する最適区間(Bフレ
ーム〜i′フレーム)をスポッティングする、「ワード
スポッティング」を行うことができる。
【0050】
【発明の効果】本発明のDPマッチング法を用いること
により、話者が自然に発話した音声中から、単語部分だ
けをスポッティングし認識する「ワードスポッティング
」を、従来方法に比べ短時間で実行することが可能とな
る効果がある。この効果を以下に、具体的な数字で示す
。
により、話者が自然に発話した音声中から、単語部分だ
けをスポッティングし認識する「ワードスポッティング
」を、従来方法に比べ短時間で実行することが可能とな
る効果がある。この効果を以下に、具体的な数字で示す
。
【0051】従来方法の2段DPマッチングを用いて計
算を行った場合、入力パターン長がIフレーム、標準パ
ターン長がJフレームの場合、累積距離を計算するルー
プの回数が、(I−1)/2*I*J回であるのに対し
、本発明のDPマッチング法を用いた場合、累積距離を
計算するループの回数は、I*J回となる。すなわち、
累積距離を計算するループの回数は、従来方法の、2/
(I−1)となる。
算を行った場合、入力パターン長がIフレーム、標準パ
ターン長がJフレームの場合、累積距離を計算するルー
プの回数が、(I−1)/2*I*J回であるのに対し
、本発明のDPマッチング法を用いた場合、累積距離を
計算するループの回数は、I*J回となる。すなわち、
累積距離を計算するループの回数は、従来方法の、2/
(I−1)となる。
【0052】本実施例の様に、音声を16[KHz]で
サンプリングし、1フレームを20[ms]とし、シフ
ト量を10[ms]とした場合、1秒間の入力音声のパ
ターン長Iは、99フレームとなるので、累積距離を計
算するループの回数は、従来方法の1/48となる。
サンプリングし、1フレームを20[ms]とし、シフ
ト量を10[ms]とした場合、1秒間の入力音声のパ
ターン長Iは、99フレームとなるので、累積距離を計
算するループの回数は、従来方法の1/48となる。
【図1】本発明に関する音声認識装置のシステム構成図
。
。
【図2】本発明に関するDPパスと、入力フレームと標
準フレームとの格子点を示す図。
準フレームとの格子点を示す図。
【図3】本発明に関する音声認識方法のアルゴリズムを
示す流れ図。
示す流れ図。
【図4】本発明に関するDPパスを示す図。
1 マイク
2 A/D変換部
3 特徴抽出部
4 単語認識部
5 単語辞書
10 格子点
11 格子点
12 格子点
13 格子点
14 格子点
15 格子点
16 DPパス
17 DPパス
18 DPパス
19 DPパス
21 ループ
22 ループ
23 演算
24 演算
25 ループ
26 演算
27 演算
28 ループ
29 ループ
30 演算
31 演算
32 演算
33 演算
34 演算
41 DPパス
42 DPパス
43 DPパス
Claims (1)
- 【請求項1】 DPマッチング法において、入力パタ
ーンAと標準パターンBの特徴パラメータの列を、A=
a1、a2、・・、ai、・・、aI、B=b1、b2
、・・、bj、・・、bJ (Iは入力パターンのフレーム数、Jは標準パターンの
フレーム数) で表し、u(i)を、前記入力パターンAのiフレーム
を前記標準パターンBのu(i)フレームに対応づける
パターン伸縮関数とする時、前記入力パターンAと前記
標準パターンBの列間の距離の定義式を、【数1】 とし、前記列間の距離の定義式中の部分式【数2】 における境界条件を{u(i1)=1、u(i2)=
J}とし、前記列間の距離の定義式において、i>i
1の時、u(i)≠1とすることを特徴とする、DPマ
ッチング法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP03013267A JP3097134B2 (ja) | 1991-02-04 | 1991-02-04 | Dpマッチング法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP03013267A JP3097134B2 (ja) | 1991-02-04 | 1991-02-04 | Dpマッチング法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH04248595A true JPH04248595A (ja) | 1992-09-04 |
| JP3097134B2 JP3097134B2 (ja) | 2000-10-10 |
Family
ID=11828448
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP03013267A Expired - Fee Related JP3097134B2 (ja) | 1991-02-04 | 1991-02-04 | Dpマッチング法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3097134B2 (ja) |
-
1991
- 1991-02-04 JP JP03013267A patent/JP3097134B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP3097134B2 (ja) | 2000-10-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Ney | The use of a one-stage dynamic programming algorithm for connected word recognition | |
| CN1228761C (zh) | 用于经噪声补偿的话音识别的系统和方法 | |
| US8050925B2 (en) | Recognizing the numeric language in natural spoken dialogue | |
| JPH0159600B2 (ja) | ||
| CN1639768A (zh) | 自动语音识别方法 | |
| JP2002149186A (ja) | 識別可能な適合に関する代替の単語列の選択 | |
| CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
| JPH0247760B2 (ja) | ||
| JP3311460B2 (ja) | 音声認識装置 | |
| JPH04248595A (ja) | Dpマッチング法 | |
| JP3477751B2 (ja) | 連続単語音声認識装置 | |
| JP2543584B2 (ja) | 音声標準パタン登録方式 | |
| JP2853418B2 (ja) | 音声認識方法 | |
| JPH11202895A (ja) | 音声認識システムと方法およびそのプログラムを記録した記録媒体 | |
| JP3400474B2 (ja) | 音声認識装置および音声認識方法 | |
| JP3818154B2 (ja) | 音声認識方法 | |
| JPH0484197A (ja) | 連続音声認識装置 | |
| JP2712586B2 (ja) | 単語音声認識装置用パターンマッチング方式 | |
| JPH0449954B2 (ja) | ||
| JPS6356700A (ja) | 連続音声認識装置 | |
| JPH04311997A (ja) | Dpマッチング法 | |
| JPH05158493A (ja) | 音声認識装置 | |
| JP2995941B2 (ja) | 不特定話者用音声認識装置 | |
| JPS60159798A (ja) | 音声認識装置 | |
| JPS63236094A (ja) | 音声認識方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070811 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080811 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080811 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090811 Year of fee payment: 9 |
|
| LAPS | Cancellation because of no payment of annual fees |