JPS6336675B2 - - Google Patents
Info
- Publication number
- JPS6336675B2 JPS6336675B2 JP56183635A JP18363581A JPS6336675B2 JP S6336675 B2 JPS6336675 B2 JP S6336675B2 JP 56183635 A JP56183635 A JP 56183635A JP 18363581 A JP18363581 A JP 18363581A JP S6336675 B2 JPS6336675 B2 JP S6336675B2
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- pattern
- word
- input
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の詳細な説明】
〔発明の技術分野〕
この発明は、例えば数字等の単語を複数個連続
して発声した場合に、この発声音声を自動的に認
識し、その認識内容に応じた指令を発生させるよ
うにする連続音声認識装置に関する。
して発声した場合に、この発声音声を自動的に認
識し、その認識内容に応じた指令を発生させるよ
うにする連続音声認識装置に関する。
音声認識装置は、マンマシーンコミユニケーシ
ヨンの有力な手段として考えられているが、現在
までに実用化されている多くの装置は、区切つて
発生された弧立単語の認識しかできないものが主
体であり、データの入力速度が遅いという欠点が
あつた。これに代わるものとして、例えば特開昭
51−104204号公報に示される、いわゆる2段動的
計画法(以下2段DP法と略称する)を使用した
連続音声認識装置が考えられている。この2段
DP法の原理は、何個かの標準パターンをあらゆ
る順列で接続することによつて得られるパターン
を連続音声の標準パターンと考えて、入力パター
ン全体とのマツチングを行うもので、全体として
の類似度が最大となるように標準パターンの個数
と、配列を定めることによつて認識を行うもので
ある。実際には、上記最大化を単語単位での最大
化と、全体との最大化の2段階に分割し、それぞ
れの最大化を動的計画法を利用して実行してい
る。
ヨンの有力な手段として考えられているが、現在
までに実用化されている多くの装置は、区切つて
発生された弧立単語の認識しかできないものが主
体であり、データの入力速度が遅いという欠点が
あつた。これに代わるものとして、例えば特開昭
51−104204号公報に示される、いわゆる2段動的
計画法(以下2段DP法と略称する)を使用した
連続音声認識装置が考えられている。この2段
DP法の原理は、何個かの標準パターンをあらゆ
る順列で接続することによつて得られるパターン
を連続音声の標準パターンと考えて、入力パター
ン全体とのマツチングを行うもので、全体として
の類似度が最大となるように標準パターンの個数
と、配列を定めることによつて認識を行うもので
ある。実際には、上記最大化を単語単位での最大
化と、全体との最大化の2段階に分割し、それぞ
れの最大化を動的計画法を利用して実行してい
る。
この2段DP法についてさらに詳細に説明する
と以下のようになる。
と以下のようになる。
いま、特徴ベクトルaiを
ai=(a1i、a2i、…、aQi) ……(1)
とすると、音声パターンはaiの時系列として
A=(a1、a2、…、ai、…、aI) ……(2)
として示される。ここでIは音声パターンAの時
間長に対応し、Qは特徴ベクトルの成分数であ
る。そして、このようなパターンAが入力パター
ンとされる。
間長に対応し、Qは特徴ベクトルの成分数であ
る。そして、このようなパターンAが入力パター
ンとされる。
次に認識されるべき単語の集合として、N個の
標準パターン「Bn(n=1、2、…、N)」を設
定すると、各標準パターンBnは、Jo個の特徴ベ
クトルより成り次式のように表現される。
標準パターン「Bn(n=1、2、…、N)」を設
定すると、各標準パターンBnは、Jo個の特徴ベ
クトルより成り次式のように表現される。
Bn=(bn 1、bn 2、…、bn j、…、bn Jo) ……(3)
ここでbn jはaiと同様のベクトル
bn j=(bn 1j、bn 2j、…、bn Qj) ……(4)
である。
入力パターンAの時間点i=lを始点とし、i
=mを終端とする部分パターンは下式で表現され
る。
=mを終端とする部分パターンは下式で表現され
る。
A(l、n)=(al、al+1、…、ai、…、an)
……(5)
ただし、1≦l<m≦I
そして、この2段DP法は上記部分パターン
A(l、n)と、標準パターンBoとの間で、入力パタ
ーンの時間軸iと標準パターンの時間軸jを対応
させる関数j(i)を最適に定めて、このiとj
(i)の間で定義されるベクトル間類似度s(ai、
bn j)(以下の説明ではso(i、j)と略する)の和
の最大値S(A(l、n)、Bn)を求める操作を動的計
画法によつて行う部分でマツチングを、始点lお
よび終端mを順次変化させて算出されるS
(A(l、n)、Bn)のnに関する最大値である部分類
似度S<l、m>および、その最大値を与えるn
である部分判定結果、n<l、m>を決定する第
1段部と、入力パターンAに含まれる単語の個数
Yおよび(Y−1)個の区切り点l(1)、l(2)、…、
l(Y-1)を最適に定めて連続し、かつ重複しない区
間の部分類似度の和 S<1、I>=S<1、l(1)>+S<l(1) +1、l(2)>+…S<1(Y-1)+1、I> ……(6) を最大にする単語個数Y^および区切り点l^(1)、l^(2)、
…、l^(Y-1)を求める動作を行う全体マツチングに
より決定された区切り点l^(1)、l^(2)、…、l^(Y-1)と
部
分判定結果n<l、m>からn<1、l^>、n<
l^(1)+1、l^(2)>、…、n<l^(Y-1)+1、I>を決
定
する第2段部よりなる。
A(l、n)と、標準パターンBoとの間で、入力パタ
ーンの時間軸iと標準パターンの時間軸jを対応
させる関数j(i)を最適に定めて、このiとj
(i)の間で定義されるベクトル間類似度s(ai、
bn j)(以下の説明ではso(i、j)と略する)の和
の最大値S(A(l、n)、Bn)を求める操作を動的計
画法によつて行う部分でマツチングを、始点lお
よび終端mを順次変化させて算出されるS
(A(l、n)、Bn)のnに関する最大値である部分類
似度S<l、m>および、その最大値を与えるn
である部分判定結果、n<l、m>を決定する第
1段部と、入力パターンAに含まれる単語の個数
Yおよび(Y−1)個の区切り点l(1)、l(2)、…、
l(Y-1)を最適に定めて連続し、かつ重複しない区
間の部分類似度の和 S<1、I>=S<1、l(1)>+S<l(1) +1、l(2)>+…S<1(Y-1)+1、I> ……(6) を最大にする単語個数Y^および区切り点l^(1)、l^(2)、
…、l^(Y-1)を求める動作を行う全体マツチングに
より決定された区切り点l^(1)、l^(2)、…、l^(Y-1)と
部
分判定結果n<l、m>からn<1、l^>、n<
l^(1)+1、l^(2)>、…、n<l^(Y-1)+1、I>を決
定
する第2段部よりなる。
前記、類似度の定義としては、(2)式の入力パタ
ーンAと、(3)式の標準パターンBとの間の時間軸
のずれを補正するために、Bの時間軸jに対して
Aの時間軸iを対応させる関数 j=j(i) ……(7) を定義する。ベクトル間類似度s(i、j)は一
例として、 s(i、j)=Q 〓p=1 (api・bpj)/(a2 pi+b2 pj) ……(8) によるものとすると、AおよびBの類似度とし
て、 S(A、B)=MAX j(i)〔I 〓i=1 s(i、j(i))〕 ……(9) と定義される。(9)式の最大化をj=j(i)に関
する総当り法で処理したのでは計算量の点で不可
能で、次のような動的計画の手法で行う。すなわ
ち、初期条件 g(1、1)=s(1、1) g(i、1)=0(i≠1) ……(10) のもとに漸次式 を「i=2〜I」、「j=1〜J」の範囲で計算
し、g(I、J)を求めると、これは(9)式のS
(A、B)となる。
ーンAと、(3)式の標準パターンBとの間の時間軸
のずれを補正するために、Bの時間軸jに対して
Aの時間軸iを対応させる関数 j=j(i) ……(7) を定義する。ベクトル間類似度s(i、j)は一
例として、 s(i、j)=Q 〓p=1 (api・bpj)/(a2 pi+b2 pj) ……(8) によるものとすると、AおよびBの類似度とし
て、 S(A、B)=MAX j(i)〔I 〓i=1 s(i、j(i))〕 ……(9) と定義される。(9)式の最大化をj=j(i)に関
する総当り法で処理したのでは計算量の点で不可
能で、次のような動的計画の手法で行う。すなわ
ち、初期条件 g(1、1)=s(1、1) g(i、1)=0(i≠1) ……(10) のもとに漸次式 を「i=2〜I」、「j=1〜J」の範囲で計算
し、g(I、J)を求めると、これは(9)式のS
(A、B)となる。
S(A、B)=g(I、J) ……(12)
実際の時間軸のずれは、通常50%もずれること
がないため、第1図の「i=j」なる直線15の
近傍に直線11,12で示す間の斜線領域内で考
えれば充分である。それ故 j−r≦i≦j+r ……(13) の範囲で漸化式(11)の計算を実行することで充分で
あるとして、この領域を整合窓と称している。
がないため、第1図の「i=j」なる直線15の
近傍に直線11,12で示す間の斜線領域内で考
えれば充分である。それ故 j−r≦i≦j+r ……(13) の範囲で漸化式(11)の計算を実行することで充分で
あるとして、この領域を整合窓と称している。
また、1個の始点lに対して第1図の14で示
す範囲の終端mに関する部分類似度が一度に求め
るとしている。第1図の斜線部分の大きさは
「(2*r+1)*Jo」であり、これが1個の始点
に対する計算量である。
す範囲の終端mに関する部分類似度が一度に求め
るとしている。第1図の斜線部分の大きさは
「(2*r+1)*Jo」であり、これが1個の始点
に対する計算量である。
今、入力パターンの時間長I、標準パターンの
数N、標準パターンの平均時間長J、および時間
軸i、jの整合範囲の条件として(13)式を用い
るとき、前記手段による部分類似度「S<l、m
>」を求めるだけでも、ベクトル間類似度s(i、
j)および動的計画法における漸化式の計算回数
C1は、近似的に次式のようになる。
数N、標準パターンの平均時間長J、および時間
軸i、jの整合範囲の条件として(13)式を用い
るとき、前記手段による部分類似度「S<l、m
>」を求めるだけでも、ベクトル間類似度s(i、
j)および動的計画法における漸化式の計算回数
C1は、近似的に次式のようになる。
C1=(2*r+1)*J*I*N ……(14)
また、第2段目の全体マツチングを実行するた
めに、前記部分類似度「S<l、m>」および部
分判定結果「n<l、m>」を記憶しておかなけ
ればいけないが、その記憶容量M1は近似的に次
式のようになる。
めに、前記部分類似度「S<l、m>」および部
分判定結果「n<l、m>」を記憶しておかなけ
ればいけないが、その記憶容量M1は近似的に次
式のようになる。
M1=(2*r+1)*I*2 ……(15)
ここで
I=120、N=50、J=35、r=12 ……(16)
とすると、
計算回数 C1=5250000
記憶容量 M1=6000 ……(17)
となり、発声終了後例えば0.5秒以内で認識結果
を応答する実時間音声認識装置を実現するために
は、前記時間長I、Jの単位を15m秒とすると、
発声開始から応答までの時間すべてが計算に使用
できるとして、「0.5+120×0.015=2.3秒」間で上
記演算回数「5250000」を実行する必要があり、
1回当り約0.4μ秒という高速演算を必要とする。
ベクトル間類似度および漸化式計算を0.4μ秒で実
行するためには、非常に高速の処理装置を必要と
するが、並列に処理するとしても大規模なものと
なり、どちらにしても高価な装置となつてしま
う。
を応答する実時間音声認識装置を実現するために
は、前記時間長I、Jの単位を15m秒とすると、
発声開始から応答までの時間すべてが計算に使用
できるとして、「0.5+120×0.015=2.3秒」間で上
記演算回数「5250000」を実行する必要があり、
1回当り約0.4μ秒という高速演算を必要とする。
ベクトル間類似度および漸化式計算を0.4μ秒で実
行するためには、非常に高速の処理装置を必要と
するが、並列に処理するとしても大規模なものと
なり、どちらにしても高価な装置となつてしま
う。
本発明は上記問題点に鑑みたもので、第1のス
テツプによる1段のDp法により全体としての最
大類似度を得るようにして、記憶容量を従来のも
のよりも少なくした連続音声認識方法およびその
方法を適切に実施することができる装置を提供す
ることを第1の目的とし、第2のステツプの実行
により上記第1のステツプの結果を用いて入力音
声に対する認識単語を得ることができる連続音声
認識方法およびその方法を適切に実施することが
できる装置を提供することを第2の目的としてい
る。
テツプによる1段のDp法により全体としての最
大類似度を得るようにして、記憶容量を従来のも
のよりも少なくした連続音声認識方法およびその
方法を適切に実施することができる装置を提供す
ることを第1の目的とし、第2のステツプの実行
により上記第1のステツプの結果を用いて入力音
声に対する認識単語を得ることができる連続音声
認識方法およびその方法を適切に実施することが
できる装置を提供することを第2の目的としてい
る。
今、Y個の標準パターンBn1、Nn2、…、
Bnx-1、Bnx、…、Bnyを接続した標準パターンを
B^とすると、 B^=Bn1Bo2…Bnx-1Bnx…BnY……(1
8) となる。ここで記号は各標準パターンの特徴ベ
クトルを時系列に並べることを示す。すなわち、 B^=(bn1 1、bn1 2、…、bn1 Jo1、bn2 1、bn2 2、…、bn2 J
o2、…、bnx-1 1、bnx-1 2、…、bnx-1 Jox-1、bnx 1、bnx 2
、…、 bnx Jox、…、bny 1、bnY 2、…、bnY JoY) ……(19) となる。
Bnx-1、Bnx、…、Bnyを接続した標準パターンを
B^とすると、 B^=Bn1Bo2…Bnx-1Bnx…BnY……(1
8) となる。ここで記号は各標準パターンの特徴ベ
クトルを時系列に並べることを示す。すなわち、 B^=(bn1 1、bn1 2、…、bn1 Jo1、bn2 1、bn2 2、…、bn2 J
o2、…、bnx-1 1、bnx-1 2、…、bnx-1 Jox-1、bnx 1、bnx 2
、…、 bnx Jox、…、bny 1、bnY 2、…、bnY JoY) ……(19) となる。
この発明の原理は前記2段DP法と同じく、上
記(18)式のような、接続された標準パターンB^
と(2)式のような入力パターンAとのマツチングを
行い、最適にマツチングが取れる「n1、n2、…、
nx-1、nx、…、nY」を決定することにより、入力
パターンAは単語「n1、n2、…、nX-1、nX、…、
nY」から成つていると判定することにある。この
場合単語の個数Yも最適に決定する。
記(18)式のような、接続された標準パターンB^
と(2)式のような入力パターンAとのマツチングを
行い、最適にマツチングが取れる「n1、n2、…、
nx-1、nx、…、nY」を決定することにより、入力
パターンAは単語「n1、n2、…、nX-1、nX、…、
nY」から成つていると判定することにある。この
場合単語の個数Yも最適に決定する。
すなわち、入力パターンAを最適に近似する標
準パターンの個数と、その単語種類を決定するこ
とによつて連続単語の認識を行うものである。
準パターンの個数と、その単語種類を決定するこ
とによつて連続単語の認識を行うものである。
以下にその概要を、前記2段DP法と比較して
説明する。
説明する。
前記2段DP法においては、始点、終端のすべ
ての組み合せによる部分類似度の計算および部分
判定結果を決定するという第1マツチングと、部
分判定結果の順列組み合せを動的計画法を利用す
ることにより全体としての最大の類似度を与える
区切り点を決定する第2段マツチングよりなる。
しかし、この発明では2段階で全体の類似度を最
大にするのではなく、第1段のマツチングで全体
としての最大の類似度を得るようにする。これ
は、入力パターンAの時間点「i=P」(1P
I)を単語の区切り点と仮定し、入力パターン
の部分パターン「A(1、P)」との標準単語を最
適に順列組合せしたものとの間で、最大の類似度
「Dp=S<1、P>」が与えられているものと仮
定すると、時間点「i=q」(1P<qI)
を終端とする入力パターンの部分パターン「A
(1、q)」との最大の類似度Dqは Dq=S<1、q>= MAX n,p{Dp+S(A(p+1、q)、Bn} ……(20) により与えられ、そのときnをWqとして記憶す
る。
ての組み合せによる部分類似度の計算および部分
判定結果を決定するという第1マツチングと、部
分判定結果の順列組み合せを動的計画法を利用す
ることにより全体としての最大の類似度を与える
区切り点を決定する第2段マツチングよりなる。
しかし、この発明では2段階で全体の類似度を最
大にするのではなく、第1段のマツチングで全体
としての最大の類似度を得るようにする。これ
は、入力パターンAの時間点「i=P」(1P
I)を単語の区切り点と仮定し、入力パターン
の部分パターン「A(1、P)」との標準単語を最
適に順列組合せしたものとの間で、最大の類似度
「Dp=S<1、P>」が与えられているものと仮
定すると、時間点「i=q」(1P<qI)
を終端とする入力パターンの部分パターン「A
(1、q)」との最大の類似度Dqは Dq=S<1、q>= MAX n,p{Dp+S(A(p+1、q)、Bn} ……(20) により与えられ、そのときnをWqとして記憶す
る。
Wq=〔(20)式のDqを与えるn〕 ……(21)
「S(A(p+1、q)、Bn)」は始点(P+1)、終端
qとする部分パターン「A(p+1、q)」と単語nの標
準パターンBnとの類似度で、前記2段DP法によ
る部分類似度の計算と同じものであるが、それだ
けが独立して求められるものでなく、(20)式の
右辺の{ }内の形で求められることに特徴があ
る。(20)(21)式を「D0=0」として「q=1」
から順次「q=I」まで求めると、「Dp(P<
q)」は先に決定しているからDq、Wqはすべて
求まり、全体としての最大の類似度「S<1、I
>」はDIとして求まる。以上が第1ステツプで
あり、つぎに第2ステツプとして「S<1、I
>」を与える標準パターンの順列組合せ「B=
Bn1Bn2…BnY」を構成する単語数Yおよび
単語「n1、n2、…、nY」を決定する手続である。
この手続で、最後の単語nYはWIとして求まつて
いるが、第1ステツプの計算において、演算量な
らびに記憶量を大幅に減らすため、途中結果とし
ては、Di、Wiしか記憶されていない。このため、
時間点「i=I」より逆方向にたどつて、各単語
「nY、nY-1、…、n2、n1」の強界を見つける。そ
の方法は入力パターンの時間点「i=I」を始点
uとしてWuを認識単語として出力し、かつWuに
ついてのみ逆方向にDpマツチングを行つて、始
点uより終端vまでの逆方向部分パターン「(
u、v)」(I≧u>v≧1)と逆方向に並べた標準
パターンwuとの類似度「S((u、v)、Wu)」
と、DV-1との和を最大にするvを求める。
qとする部分パターン「A(p+1、q)」と単語nの標
準パターンBnとの類似度で、前記2段DP法によ
る部分類似度の計算と同じものであるが、それだ
けが独立して求められるものでなく、(20)式の
右辺の{ }内の形で求められることに特徴があ
る。(20)(21)式を「D0=0」として「q=1」
から順次「q=I」まで求めると、「Dp(P<
q)」は先に決定しているからDq、Wqはすべて
求まり、全体としての最大の類似度「S<1、I
>」はDIとして求まる。以上が第1ステツプで
あり、つぎに第2ステツプとして「S<1、I
>」を与える標準パターンの順列組合せ「B=
Bn1Bn2…BnY」を構成する単語数Yおよび
単語「n1、n2、…、nY」を決定する手続である。
この手続で、最後の単語nYはWIとして求まつて
いるが、第1ステツプの計算において、演算量な
らびに記憶量を大幅に減らすため、途中結果とし
ては、Di、Wiしか記憶されていない。このため、
時間点「i=I」より逆方向にたどつて、各単語
「nY、nY-1、…、n2、n1」の強界を見つける。そ
の方法は入力パターンの時間点「i=I」を始点
uとしてWuを認識単語として出力し、かつWuに
ついてのみ逆方向にDpマツチングを行つて、始
点uより終端vまでの逆方向部分パターン「(
u、v)」(I≧u>v≧1)と逆方向に並べた標準
パターンwuとの類似度「S((u、v)、Wu)」
と、DV-1との和を最大にするvを求める。
vnax=
ARGMAX
v{DV-1+S((u、v)、Wu)} ……(22)
ここで
ARGMAX
vとは、上式の{ }内の最大
値を与えるvである。
値を与えるvである。
このvnaxが単語Wuの始点(逆方向Dpマツチン
グでは終端)として決定される。つぎに、 u=vnax-1 ……(23) として、uを直前の単語の終端(逆方向Dpマツ
チングでは始点)とする。そこで、「u=0」ま
で以上を繰返せば、認識単語が逆順にすべて求ま
る。この求まつた認識単語列を逆順に並べかえれ
ば、入力された音声(単語列)が認識されたこと
になる。
グでは終端)として決定される。つぎに、 u=vnax-1 ……(23) として、uを直前の単語の終端(逆方向Dpマツ
チングでは始点)とする。そこで、「u=0」ま
で以上を繰返せば、認識単語が逆順にすべて求ま
る。この求まつた認識単語列を逆順に並べかえれ
ば、入力された音声(単語列)が認識されたこと
になる。
以上がこの発明の概略であるが、第1ステツプ
の(20)式をすべてのp、q、nについてそのま
ま実行することは計算量の点で不可能である。し
かし、(20)式は区切り点pについての最大化を
先に、実行すると、 Dq= MAX n〔 MAX p{Dp+S(A(p+1、q)、Bn)}〕 ……(24) と書き換えられる。(24)式の〔 〕内は、始点
「(P+1)」が自由で、始点における初期値をDp
とし、終端をqと固定した典型的な動的計画法
(始点自由、終端固定)の問題に置き換えること
ができる。
の(20)式をすべてのp、q、nについてそのま
ま実行することは計算量の点で不可能である。し
かし、(20)式は区切り点pについての最大化を
先に、実行すると、 Dq= MAX n〔 MAX p{Dp+S(A(p+1、q)、Bn)}〕 ……(24) と書き換えられる。(24)式の〔 〕内は、始点
「(P+1)」が自由で、始点における初期値をDp
とし、終端をqと固定した典型的な動的計画法
(始点自由、終端固定)の問題に置き換えること
ができる。
これを第2図で説明すると、時間点「i=P」
を終端とする区間の最大類似度Dpを初期値とし
て始点28である(P+1、1)から終端点29
(q、Jo)に至る経路26の交点(i、j)のベ
クトルai、bn jの類似度so(i、j)の和を最大にす
る経路の積和値が、動点計画法によつて「{Dp+
S(A(p+1、q)、Bn)}」として与えられる。
を終端とする区間の最大類似度Dpを初期値とし
て始点28である(P+1、1)から終端点29
(q、Jo)に至る経路26の交点(i、j)のベ
クトルai、bn jの類似度so(i、j)の和を最大にす
る経路の積和値が、動点計画法によつて「{Dp+
S(A(p+1、q)、Bn)}」として与えられる。
前記2段DP法では、ベクトル間類似度s(i、
j)を計算する(i、j)平面の範囲として、前
記(12)式で表わされる第1図の直線11,12で囲
まれる領域、いわゆる整合窓を設けて無駄な計算
と、急激な時間軸の整合を避けているが、この発
明では前述のような整合窓を設けるのではなく、
動的計画法における漸化式として、両側傾斜制限
を含んだものを使用する。傾斜制限を含んだもの
にはいろいろあるが一例として 初期値 g(0、0)=0 g(i、0)=−∞(i≠0) g(i、−1)=−∞ g(0、j)=−∞(j≠0)
……(30) (−∞とは、処理装置で実現できる負の最大値 を示し、値の比較の対象となる場合必ず小さくな
ることを意図する。) のもとに次の漸化式を「i=1〜I」「j=1〜
J」の範囲で解く。
j)を計算する(i、j)平面の範囲として、前
記(12)式で表わされる第1図の直線11,12で囲
まれる領域、いわゆる整合窓を設けて無駄な計算
と、急激な時間軸の整合を避けているが、この発
明では前述のような整合窓を設けるのではなく、
動的計画法における漸化式として、両側傾斜制限
を含んだものを使用する。傾斜制限を含んだもの
にはいろいろあるが一例として 初期値 g(0、0)=0 g(i、0)=−∞(i≠0) g(i、−1)=−∞ g(0、j)=−∞(j≠0)
……(30) (−∞とは、処理装置で実現できる負の最大値 を示し、値の比較の対象となる場合必ず小さくな
ることを意図する。) のもとに次の漸化式を「i=1〜I」「j=1〜
J」の範囲で解く。
これは、第3図bの点31(i、j)への経路
としては、点32(i−2、j−1)から点33
(i−1、j)経由による経路37と、点34
(i−1、j−1)からの経路38と、点35
(i−1、j−2)から点36(i、j−1)経
由の経路39の3通りがある、そのうちの最大の
ものを選択することを示す。
としては、点32(i−2、j−1)から点33
(i−1、j)経由による経路37と、点34
(i−1、j−1)からの経路38と、点35
(i−1、j−2)から点36(i、j−1)経
由の経路39の3通りがある、そのうちの最大の
ものを選択することを示す。
ここで、経路37は入力パターンの時間軸iの
増加「2」に対して標準パターンの時間軸jの増
加は「1」で、点32と点31を結ぶ線分の傾き
は「1/2」である。同様に点34と点31を結ぶ 線分の傾きは「1」、点35と点31を結ぶ線分
の傾きは「2」となる。
増加「2」に対して標準パターンの時間軸jの増
加は「1」で、点32と点31を結ぶ線分の傾き
は「1/2」である。同様に点34と点31を結ぶ 線分の傾きは「1」、点35と点31を結ぶ線分
の傾きは「2」となる。
この漸次式(31)を用いると、第3図aの始点
45(1、1)から終端46(I、j)への最適
経路40を求めるとき、前記のごとく(i、j)
平面の探索範囲は、線分の傾きが最小「1/2」の 直線42と、最大「2」の直線41に挾まれる点
45,47,48の三角形の領域となる。ここで
は、終端46(I、J)が判明しているから、終
端46にたどり着くためには、傾き「1/2」の直 線43と傾き「2」の直線44にも制限され、結
局、直線41,42,43,44に囲まれる斜線
で示した平行四辺形の内側となる。このように漸
化式そのものに傾斜制限を持たせることにより、
整合窓なしで急激な時間軸の整合を避けることが
できる。
45(1、1)から終端46(I、j)への最適
経路40を求めるとき、前記のごとく(i、j)
平面の探索範囲は、線分の傾きが最小「1/2」の 直線42と、最大「2」の直線41に挾まれる点
45,47,48の三角形の領域となる。ここで
は、終端46(I、J)が判明しているから、終
端46にたどり着くためには、傾き「1/2」の直 線43と傾き「2」の直線44にも制限され、結
局、直線41,42,43,44に囲まれる斜線
で示した平行四辺形の内側となる。このように漸
化式そのものに傾斜制限を持たせることにより、
整合窓なしで急激な時間軸の整合を避けることが
できる。
つぎに終端が固定で始点が自由な動的計画法に
ついて説明すると、第2図において終端29
(q、Jo)は固定であるから、終端29にたどり
着くためには、前記の漸化式(31)を使用すると
傾き「1/2」の直線24と、傾き「2」の直線2 5に挾まれた斜線で示す領域のベクトル間類似度
「so(i、j)」を計算し、漸化式(31)にしたが
つて最適な経路を求めることになる。
ついて説明すると、第2図において終端29
(q、Jo)は固定であるから、終端29にたどり
着くためには、前記の漸化式(31)を使用すると
傾き「1/2」の直線24と、傾き「2」の直線2 5に挾まれた斜線で示す領域のベクトル間類似度
「so(i、j)」を計算し、漸化式(31)にしたが
つて最適な経路を求めることになる。
始点としては、点21(q−2・Jo、1)から
点22(q−Jo/2、1)の間のすべての点28 (p+1、1)が候補となる。前記漸化式(31)
は、 k=q−2・Jo ……(32) とおくと、「i=k」から出発して go(i、0)=Di go(i、−1)=−∞ go(i−1、0)=−∞ ……(33) として式(31)を「j=1〜Jo」まで解くこと
を、iを1づつ増しながらqまで実行すればよ
い。漸化式の最終結果go(g、Jo)は、 go(q、Jo)= MAX p{Dp+S(A(p+1、q)、Bn)} ……(34) を表している。
点22(q−Jo/2、1)の間のすべての点28 (p+1、1)が候補となる。前記漸化式(31)
は、 k=q−2・Jo ……(32) とおくと、「i=k」から出発して go(i、0)=Di go(i、−1)=−∞ go(i−1、0)=−∞ ……(33) として式(31)を「j=1〜Jo」まで解くこと
を、iを1づつ増しながらqまで実行すればよ
い。漸化式の最終結果go(g、Jo)は、 go(q、Jo)= MAX p{Dp+S(A(p+1、q)、Bn)} ……(34) を表している。
(31)〜(34)式を使つて、連続音声認識を
(20)式により実行するとき、各終端q毎に(31)
式を第2図の斜線内で計算すると、全体としての
ベクトル間類似度および漸化式の計算回数C2はJo
の平均値Jを用いて C2=3/4*J2*I*N ……(35) となり、これは(14)式とほとんど変わらない
か、多いことになる。
(20)式により実行するとき、各終端q毎に(31)
式を第2図の斜線内で計算すると、全体としての
ベクトル間類似度および漸化式の計算回数C2はJo
の平均値Jを用いて C2=3/4*J2*I*N ……(35) となり、これは(14)式とほとんど変わらない
か、多いことになる。
ここで、第4図の終端を50(q、Jo)とした
場合、直線52,53で挾まれる領域の演算回数
が「3/4J2 o」回となつているが、終端を1個次の 51(q+1、Jo)とした場合でも、同様に直線
54,55で挾まれる領域となり、やはり「3/4 J2 o」回演算を必要とする。しかし、図から明らか
なごとく直線54,53で挾まれる斜線部は、終
端50,51とも全く同じベクトルの類似度を求
めている。つまり「(3/4J2 o)*2」回の演算は実 質は「(3/4J2 o+Jo/2)」回でよいことになる。
この ことはすべての終端について適用でき、結局重な
り合う部分を1回だけ演算すれば良いことにな
り、全体としての演算回数C3は C3=(J*I−J2/2)*N ……(36) となる。これは、第5図aの点60(1、1)、
61(Jo/2、Jo)、62(I、Jo)、63(I− Jo/2、1)を頂点とする平行四辺形の内側である。
場合、直線52,53で挾まれる領域の演算回数
が「3/4J2 o」回となつているが、終端を1個次の 51(q+1、Jo)とした場合でも、同様に直線
54,55で挾まれる領域となり、やはり「3/4 J2 o」回演算を必要とする。しかし、図から明らか
なごとく直線54,53で挾まれる斜線部は、終
端50,51とも全く同じベクトルの類似度を求
めている。つまり「(3/4J2 o)*2」回の演算は実 質は「(3/4J2 o+Jo/2)」回でよいことになる。
この ことはすべての終端について適用でき、結局重な
り合う部分を1回だけ演算すれば良いことにな
り、全体としての演算回数C3は C3=(J*I−J2/2)*N ……(36) となる。これは、第5図aの点60(1、1)、
61(Jo/2、Jo)、62(I、Jo)、63(I− Jo/2、1)を頂点とする平行四辺形の内側である。
これは、この図の点60(1、1)から点63
(I−Jo/2、1)までのすべての点P′(1≦P′≦I −Jo/2)が始点候補となり、点61(Jo/2、Jo)か ら点62(I、Jo)までのすべてのq′(Jo/2≦q′≦ I)を終端候補とする動的計画法となる。
(I−Jo/2、1)までのすべての点P′(1≦P′≦I −Jo/2)が始点候補となり、点61(Jo/2、Jo)か ら点62(I、Jo)までのすべてのq′(Jo/2≦q′≦ I)を終端候補とする動的計画法となる。
各始点、終端の組み合せを各々独立に計算する
のではなく、並列に一度に計算することができる
ため、大幅に計算量を減らすことが可能となる。
また上記のように並列に演算を行つても、漸化式
が両側傾斜制限を含んでいるため、多数の始点、
終端候補の演算を同時に行つても急激な時間軸の
整合は起こらない。
のではなく、並列に一度に計算することができる
ため、大幅に計算量を減らすことが可能となる。
また上記のように並列に演算を行つても、漸化式
が両側傾斜制限を含んでいるため、多数の始点、
終端候補の演算を同時に行つても急激な時間軸の
整合は起こらない。
上述した動的計画法の詳細を説明すると、まず
漸化式(31)は、先にすべての単語nについて各
標準パターンの時間軸jを1〜Joまで変化させて
演算を進め、次に入力パターンの時間軸iについ
て演算を進めるものとする。
漸化式(31)は、先にすべての単語nについて各
標準パターンの時間軸jを1〜Joまで変化させて
演算を進め、次に入力パターンの時間軸iについ
て演算を進めるものとする。
第5図aにおいて、前記漸化式(31)の演算が
「i=p」まで済んでいる、つまり点60(1、
1)、61(Jo/2、Jo)、68(P、Jo)、65 (P、1)を頂点とする四角形の内側の漸化式の
演算は終了しており、また漸化式の途中結果のgo
(i、j)、so(i、j)が記憶されており、また Di= MAX n{go(i、Jo)} ……(37) も「i=1〜P」まですべて求まつていることと
する。「i=P+1」の演算を開始するとき、す
べての単語について初期値を(33)式よりDpと
して go(P、0)=Dp go(P−1、0)=−∞ go(P、−1)=−∞ ……(38) 漸化式 を「j=1〜Jo」まで演算すると「go(P+1、
Jo)」が各単語毎に求まる。そこでnについての
最大値をDp+1とする。
「i=p」まで済んでいる、つまり点60(1、
1)、61(Jo/2、Jo)、68(P、Jo)、65 (P、1)を頂点とする四角形の内側の漸化式の
演算は終了しており、また漸化式の途中結果のgo
(i、j)、so(i、j)が記憶されており、また Di= MAX n{go(i、Jo)} ……(37) も「i=1〜P」まですべて求まつていることと
する。「i=P+1」の演算を開始するとき、す
べての単語について初期値を(33)式よりDpと
して go(P、0)=Dp go(P−1、0)=−∞ go(P、−1)=−∞ ……(38) 漸化式 を「j=1〜Jo」まで演算すると「go(P+1、
Jo)」が各単語毎に求まる。そこでnについての
最大値をDp+1とする。
Dp+1=MAX o{go(P+1、Jo)} ……(40)
以上の様子を第5図bに示す。この図はa図の
交差した斜線部分を抜き出したもので、上辺と下
辺に同じDiが並んでいるが、説明の都合上2列に
したもので、本来同じものである。
交差した斜線部分を抜き出したもので、上辺と下
辺に同じDiが並んでいるが、説明の都合上2列に
したもので、本来同じものである。
今、単語nについて考えると、時間「i=P」
まで終了しているから、第5図bのDpおよび
(i、j)の各交点における「go(i、j)」およ
び「so(i、j)」は、「1≦i≦P」「1≦j≦
Jo」まで求まつている。
まで終了しているから、第5図bのDpおよび
(i、j)の各交点における「go(i、j)」およ
び「so(i、j)」は、「1≦i≦P」「1≦j≦
Jo」まで求まつている。
(38)式より
go(P、0)=Dp
go(P−1、0)=−∞
go(P、−1)=−∞ ……(41)
であるから「j=1」のとき、交点(P+1、
1)の漸化式は となり、「j=2」のとき交点(P+1、2)の
漸化式は、 となつていく。同様に「j=Jo」のときの交点
(P+1、Jo)では、 となる。以上の演算をN個の全標準パターンにつ
いて実行し、求まつた「g1(P+1、J1)、g2(P
+1、J2)、…、go(P+1、Jo)、…、gN(P+
1、JN)」のなかで最大のものをDp+1とする Dp+1=MAX{g1(P+1、J1)、 g2(P+1、J2)、…、gN(P+1、JN)} ……(46) 以上の説明で1個のiについては、「J*N」
回でよいから全体の計算量C3は「{I*J*N}」
にほぼ等しいこととなつた。また、使用記憶エリ
アの量は上記ではすべての「go(i、j)」「so
(i、j)」を記憶するとしたため M3=I*(J+1)*N*2+2*I
……(47) と非常に大きなものとなるが、前記漸化式(31)
を見ると、第i段の漸化式を計算するのに必要な
ものは、「g(i−1、j)」「g(i−2、j)」お
よび「s(i−1、j)」「s(i、j)」と「g
(i、j)」であるから記憶エリアM′3は M′3=5*(J+1)*N*2+2*I
……(48) となる。しかしこれに少し工夫すると以下のよう
になる。今、「h(i、j)」なるものを次の式で
定義する。
1)の漸化式は となり、「j=2」のとき交点(P+1、2)の
漸化式は、 となつていく。同様に「j=Jo」のときの交点
(P+1、Jo)では、 となる。以上の演算をN個の全標準パターンにつ
いて実行し、求まつた「g1(P+1、J1)、g2(P
+1、J2)、…、go(P+1、Jo)、…、gN(P+
1、JN)」のなかで最大のものをDp+1とする Dp+1=MAX{g1(P+1、J1)、 g2(P+1、J2)、…、gN(P+1、JN)} ……(46) 以上の説明で1個のiについては、「J*N」
回でよいから全体の計算量C3は「{I*J*N}」
にほぼ等しいこととなつた。また、使用記憶エリ
アの量は上記ではすべての「go(i、j)」「so
(i、j)」を記憶するとしたため M3=I*(J+1)*N*2+2*I
……(47) と非常に大きなものとなるが、前記漸化式(31)
を見ると、第i段の漸化式を計算するのに必要な
ものは、「g(i−1、j)」「g(i−2、j)」お
よび「s(i−1、j)」「s(i、j)」と「g
(i、j)」であるから記憶エリアM′3は M′3=5*(J+1)*N*2+2*I
……(48) となる。しかしこれに少し工夫すると以下のよう
になる。今、「h(i、j)」なるものを次の式で
定義する。
h(i、j)=g(i−1、j−1)+2s(i、j)
……(49) と、漸化式(31)は次の形に書き換えられる。
……(49) と、漸化式(31)は次の形に書き換えられる。
あるいは
となる。これを第6図で説明すると、(i、j)
の交点における「h(i、j)」は式(19)で定義
されるように「g(i−1、j−1)」に「s(i、
j)」の2倍を足したもので矢印84で示される。
の交点における「h(i、j)」は式(19)で定義
されるように「g(i−1、j−1)」に「s(i、
j)」の2倍を足したもので矢印84で示される。
式(31)の最大値の第1列目は「{g(i−1、
j−2)+2・s(i、j−1)}」で、これは矢印
86に示されるが、前記定義式(49)によれば、
「h(i、j−1)」となる。また、式(31)の最
大値の第3列目は「{g(i−2、j−1)+2・
s(i−1、j)}」でこれは矢印81に示される
が、同様に「h(i−1、j)」となる。したがつ
て、漸化式(51)は矢印84で示される「{h
(i、j−1)+s(i、j)}」と、矢印83で示
される「h(i、j)」と、矢印82で示される
「{h(i−1、j)+s(i、j)}」の3個のうち
最大のものを選択することを示している。
j−2)+2・s(i、j−1)}」で、これは矢印
86に示されるが、前記定義式(49)によれば、
「h(i、j−1)」となる。また、式(31)の最
大値の第3列目は「{g(i−2、j−1)+2・
s(i−1、j)}」でこれは矢印81に示される
が、同様に「h(i−1、j)」となる。したがつ
て、漸化式(51)は矢印84で示される「{h
(i、j−1)+s(i、j)}」と、矢印83で示
される「h(i、j)」と、矢印82で示される
「{h(i−1、j)+s(i、j)}」の3個のうち
最大のものを選択することを示している。
式(49)、(51)から、使用記憶エリアは「h
(i−1、j)」「g(i、j)」「h(i、j)」(
j
=1〜Jo)の3種となるが、一時記憶レジスタ
TEMP1、TEMP2、TEMP3を導入すると、式
(49)、(51)は次のように分解できる。
(i−1、j)」「g(i、j)」「h(i、j)」(
j
=1〜Jo)の3種となるが、一時記憶レジスタ
TEMP1、TEMP2、TEMP3を導入すると、式
(49)、(51)は次のように分解できる。
(a) 「TEMP1=g(0)」「TEMP2=h(0)」と
初期値をもつて「j=1〜Jo」まで下記(b)〜(f)
を繰返す。
初期値をもつて「j=1〜Jo」まで下記(b)〜(f)
を繰返す。
(b) TEMP3=h(j)
(c) h(j)=TEMP1+2*s(i、j)
(d) TEMP1=g(i)
(e) g(j)=MAXTEMP2+s(i、j)
h(j)
TEMP3+s(i、j)
(f) TEMP2=h(j)
ここでh(j)は前記h(i−1、j)およびh
(i、j)の両方に代わるものであり、g(j)は
g(i、j)と同じものである。
(i、j)の両方に代わるものであり、g(j)は
g(i、j)と同じものである。
以上で使用記憶エリアM″3はh(j)、g(j)の2種
であるから M″3=2*(J+1)*N+2*I ……(52) となり、前記2段DP法による(15)式M1より小
さくなる。
であるから M″3=2*(J+1)*N+2*I ……(52) となり、前記2段DP法による(15)式M1より小
さくなる。
以上のステツプ1に関する部分をDi、Wiのテ
ーブルを作成するまでの詳細を示すと次のように
なる。
ーブルを作成するまでの詳細を示すと次のように
なる。
(ステツプ1−1) Diのテーブルを「i=1〜
I」まですべて「−∞」でクリアする「D0=
0」とする。また各単語毎の作業エリアをすべ
て「−∞」とする。
I」まですべて「−∞」でクリアする「D0=
0」とする。また各単語毎の作業エリアをすべ
て「−∞」とする。
go(j)=−∞
ho(j)=−∞n=1〜N
j=1〜Jo
「i=1」とする
(ステツプ1−2) n=1とする。
(ステツプ1−3)
TEMP1=Di(=go(0))
TEMP2=−∞(=ho(0))
とする。
(ステツプ1−4) 「j=1」からJoまで(ス
テツプ1−5)を繰返す。
テツプ1−5)を繰返す。
(ステツプ1−5) TEMP3=ho(j)とおき
ho(j)=TEMP1+2*so(i、j)
TEMP1=go(j)
go(j)=MAXTEMP2+so(i、j)
ho(j)
TEMP3+so(i、j)
TEMP2=ho(j)
(ステツプ1−6) go(Jo)<Diならば(ステツ
プ1−7)へ、そうすれば Di=go(Jo) Wi=n とする。
プ1−7)へ、そうすれば Di=go(Jo) Wi=n とする。
(ステツプ1−7) n=n+1としn≦Nなら
ば(ステツプ1−3)へ (ステツプ1−8) i=i+1 i≦1ならば
(ステツプ1−2)へ 以上(ステツプ1−1)〜(ステツプ1−8)
により、すべてのDi、Wiが求まつた。
ば(ステツプ1−3)へ (ステツプ1−8) i=i+1 i≦1ならば
(ステツプ1−2)へ 以上(ステツプ1−1)〜(ステツプ1−8)
により、すべてのDi、Wiが求まつた。
上記説明中のTEMP1、TEMP2、TEMP3は、
それぞれ一時記憶用のレジスタであり、so(i、
j)は入力ベクトルaiと第n単語の標準ベクトル
bn jとの類似度である。また、go(j)、ho(j)は各単語
毎の長さ(Jo)の漸次式の途中結果を蓄える記憶
部である。
それぞれ一時記憶用のレジスタであり、so(i、
j)は入力ベクトルaiと第n単語の標準ベクトル
bn jとの類似度である。また、go(j)、ho(j)は各単語
毎の長さ(Jo)の漸次式の途中結果を蓄える記憶
部である。
(ステツプ1−5)の類似度の計算および漸化式
の計算は、全体として第5図aに示した直線6
8,69による制限を使用しないと、 C4=J*I*N …(53) となる。必要とする記憶エリアM4は M4=2*J*N+2*I ……(54) となる。これに(16)式の値を代入すると C4=210000 M4=3740 ……(55) となり、前記2段DPの(17)式と較べて、演算
量で1/25、記憶エリアで約1/2となる。
の計算は、全体として第5図aに示した直線6
8,69による制限を使用しないと、 C4=J*I*N …(53) となる。必要とする記憶エリアM4は M4=2*J*N+2*I ……(54) となる。これに(16)式の値を代入すると C4=210000 M4=3740 ……(55) となり、前記2段DPの(17)式と較べて、演算
量で1/25、記憶エリアで約1/2となる。
次に第2ステツプについて説明する。第1ステ
ツプによつて、Di、Wiは「1≦i≦I」におい
て既知であるから、全体としての最大類似度DI
を与える標準パターンBnの順列組合せ B=Bn1Bn2…BnY-1BnY ……(60) の最後を構成する単語nYはWIである。単語nYと、
一つ前の単語nY-1との境界を決定すれば、直前の
単語はWiより決まる。以上を入力パターンの始
点「i=1」まで繰返せば、入力された単語n1、
n2、…、nY-1、nYが逆順で求まる。
ツプによつて、Di、Wiは「1≦i≦I」におい
て既知であるから、全体としての最大類似度DI
を与える標準パターンBnの順列組合せ B=Bn1Bn2…BnY-1BnY ……(60) の最後を構成する単語nYはWIである。単語nYと、
一つ前の単語nY-1との境界を決定すれば、直前の
単語はWiより決まる。以上を入力パターンの始
点「i=1」まで繰返せば、入力された単語n1、
n2、…、nY-1、nYが逆順で求まる。
これを第7図によつて説明すると、入力パター
ンAの終端「i=I」から96で示す単語WIに
ついて逆方向にスタートし、今入力された単語列
のx番目の単語と(x−1)番目の単語の区切点
が判明しており、(x−1)番目の単語の終端
(逆方向動的計画法によるマツチングでは始点)
を「i=u」とすると、(x−1)番目の単語は
95で示すWuとなる。単語Wuの標準パターン
BWuを「j=JWu〜1」と逆方向に並べた標準パ
ターンWuと、入力パターンAの始点uより終端
vまでの逆方向部分パターン(u、v)との部
分類似度を式(31)と同様の動的計画法により類
似度S((u、v)、Wu)を計算する。これは点9
1(u、JWu)よりスタートし、範囲99の中で
点92(v、1)に至る最大値を与える経路を探
すことで、求まつた類似度S((u、v)、Wu)
と、93で示すDV-1との和を最大にすること、
つまり、 MAX v{Dv-1+S((u、v)、Wu)} …(61) を最大にするvを範囲99の「j=1」なるすべ
ての終端(v、1)について探す。求められたv
をvnaxとし、この(x−1)番目の単語と(x−
2)番目の単語との境界とし、つぎに u=vnax−1 ……(62) とおいて、「u=0」になるまで、(61)、(62)式
を繰返せば認識単語はWuとして順次、逆順に求
まる。式(61)は式(24)の〔 〕内の p=v−1 q=u n=Wu ……(63) と置きかえたものであり、また式(24)を最大化
する単語nはWuと決定しているから、式(61)
は90で示すDuに等しいことになる。
ンAの終端「i=I」から96で示す単語WIに
ついて逆方向にスタートし、今入力された単語列
のx番目の単語と(x−1)番目の単語の区切点
が判明しており、(x−1)番目の単語の終端
(逆方向動的計画法によるマツチングでは始点)
を「i=u」とすると、(x−1)番目の単語は
95で示すWuとなる。単語Wuの標準パターン
BWuを「j=JWu〜1」と逆方向に並べた標準パ
ターンWuと、入力パターンAの始点uより終端
vまでの逆方向部分パターン(u、v)との部
分類似度を式(31)と同様の動的計画法により類
似度S((u、v)、Wu)を計算する。これは点9
1(u、JWu)よりスタートし、範囲99の中で
点92(v、1)に至る最大値を与える経路を探
すことで、求まつた類似度S((u、v)、Wu)
と、93で示すDV-1との和を最大にすること、
つまり、 MAX v{Dv-1+S((u、v)、Wu)} …(61) を最大にするvを範囲99の「j=1」なるすべ
ての終端(v、1)について探す。求められたv
をvnaxとし、この(x−1)番目の単語と(x−
2)番目の単語との境界とし、つぎに u=vnax−1 ……(62) とおいて、「u=0」になるまで、(61)、(62)式
を繰返せば認識単語はWuとして順次、逆順に求
まる。式(61)は式(24)の〔 〕内の p=v−1 q=u n=Wu ……(63) と置きかえたものであり、また式(24)を最大化
する単語nはWuと決定しているから、式(61)
は90で示すDuに等しいことになる。
実際には、使用する漸化式の種類(対称性等)
とか、認識装置の演算誤差を考慮すると等しくな
らない場合もあるため、最大値を求め、その最大
値を与えるvを境界と決定する。
とか、認識装置の演算誤差を考慮すると等しくな
らない場合もあるため、最大値を求め、その最大
値を与えるvを境界と決定する。
以上のステツプ2を詳細に示すと
(ステツプ2−1) u−I
x=1とする。
(ステツプ2−2) Wuを認識単語nxとして出
力する。
力する。
(ステツプ2−3) 動的計画法の作業エリアを
g(j)= 0(j=jo+1)
−∞(j=1〜Jo)
h(j)=−∞(j=1〜Jo+1)
と初期セツトし、
TEMP1=g(JWu+1)=0、DMAX=0とおく
TEMP2=h(JWu+1)=−∞
(ステツプ2−4) i=uとおく
(ステツプ2−5) 「j=JWuから「1」まで
(ステツプ2−6)を繰返す。
(ステツプ2−6)を繰返す。
(ステツプ2−6)
TEMP3=h(j)
h(j)=TEMP1+2*sWu(i、j)
TEMP1=g(j)
g(j)=MAXTEMP2+sWu(i、j)
h(j)
TEMP3+sWu(i、j)
TEMP2=h(j)
(ステツプ2−7) g(1)+Di-1<DAMXならば
(ステツプ2−8)へ DMAX=g(1)−Di-1 vnax=i (ステツプ2−8) i=i+1 i≧u−2−JWuならば(ステツプ2−5)へ (ステツプ2−9) 単語の境界vnaxが判明した
から、次に w=x+1 u=vnax−1とおき、 u>0なら(ステツプ2−2)へ (ステツプ2−10) 「=x−1」とすれば入力
パターン中の単語の個数Yが与えられる認識単
語として出力されたnx(x=1〜Y)を逆順に
並べ直す。「nY、nY-1、…、n2、n1」 以上の説明でTEMP1、TEMP2、TEMP3は
(ステツプ1)で使用したものと同じで、g(j)、
b(j)は単語Wuに関する(ステツプ1)で使用し
たgo(j)、ho(j)と同じ、DMAXは(61)式の最大値
を記憶するものである。
(ステツプ2−8)へ DMAX=g(1)−Di-1 vnax=i (ステツプ2−8) i=i+1 i≧u−2−JWuならば(ステツプ2−5)へ (ステツプ2−9) 単語の境界vnaxが判明した
から、次に w=x+1 u=vnax−1とおき、 u>0なら(ステツプ2−2)へ (ステツプ2−10) 「=x−1」とすれば入力
パターン中の単語の個数Yが与えられる認識単
語として出力されたnx(x=1〜Y)を逆順に
並べ直す。「nY、nY-1、…、n2、n1」 以上の説明でTEMP1、TEMP2、TEMP3は
(ステツプ1)で使用したものと同じで、g(j)、
b(j)は単語Wuに関する(ステツプ1)で使用し
たgo(j)、ho(j)と同じ、DMAXは(61)式の最大値
を記憶するものである。
(ステツプ2)の演算量C5は、境界を探索す
るときの単語が判明しているため、入力パターA
に含まれる単語数をYとすると、 C5=3/4J2*Y ……(64) 前記(16)式および単語の個数の平均値として
「Y=4」を代入すると、 C5=3675 ……(65) となり、これは第1ステツプの演算量、すなわち
(55式)のC4と比べて2%以下と非常に少く、こ
の発明における全体の演算量はほぼC4で与えら
れる。
るときの単語が判明しているため、入力パターA
に含まれる単語数をYとすると、 C5=3/4J2*Y ……(64) 前記(16)式および単語の個数の平均値として
「Y=4」を代入すると、 C5=3675 ……(65) となり、これは第1ステツプの演算量、すなわち
(55式)のC4と比べて2%以下と非常に少く、こ
の発明における全体の演算量はほぼC4で与えら
れる。
以上の説明において、ベクトルa、bの類似度
として相関値等のようなベクトルa、bがより似
ていればより大きな値をもつものとしたが、距離
「1a−b1」の場合は、似ていれば小さな値となる
ため、上記のすべての最大値は最小値に初期値の
「−∞」は「+∞」に置きかえればよい。
として相関値等のようなベクトルa、bがより似
ていればより大きな値をもつものとしたが、距離
「1a−b1」の場合は、似ていれば小さな値となる
ため、上記のすべての最大値は最小値に初期値の
「−∞」は「+∞」に置きかえればよい。
、以上、この発明は第1ステツプで入力パター
ンAと標準パターンの最適な組合せ(解)との間
の最大類似度が求まり、第2ステツプでは第1ス
テツプの中間給果Di、Wiを利用して、入力パタ
ーンAの終端から最大類似度を与えたマツチング
径路を逆戻りすることにより、単語の境界、番
号、個数を決定する連続音声認識手段を構成する
ものである。
ンAと標準パターンの最適な組合せ(解)との間
の最大類似度が求まり、第2ステツプでは第1ス
テツプの中間給果Di、Wiを利用して、入力パタ
ーンAの終端から最大類似度を与えたマツチング
径路を逆戻りすることにより、単語の境界、番
号、個数を決定する連続音声認識手段を構成する
ものである。
以下図面を参照してこの発明の一実施例を説明
する。第8図はその構成を示すもので、マイクロ
ホン101で音声入力を補捉するもので、この入
力音声信号は特徴抽出部102に供給し、入力音
声信号からQチヤンネルの分析フイルタにより周
波数分析し、各チヤンネルの出力レベルを時間標
本化して特徴ベクトルai=(a1i、a2i、…、aQi)を
作り出す。この特徴ベクトルaiは入力パターンバ
ツフア103に供給し、ベクトルaiを「i=1」
から終端Iまでの入力パターンAとして蓄える。
ここで入力パターンAに含まれるベクトルaiの個
数Iは、特徴抽出部102で決定される。104
は標準パターン記憶部で、N個の標準パターン
「Bn(n−1…N)」を記憶するもので、このパタ
ーン「Bn=(bn 1、bn 2、…、bn Jo)」は、前記ベクト
ルaiと同様にQ次のベクトル「bn j=(bn 1j、bn 2j、
…、bn Qj)」が各標準パターン長Jo個よりなる。前
記入力パターンバツフア103より信号iにした
がつて出力される特徴ベクトルaiと、標準パター
ン記憶部104より信号j、nにしたがつて出力
される特徴ベクトルbn jとは第1の漸化式計算部1
05に供給されてベクトル間類似度so(i、j)
を計算する。また、初期値信号Di-1を使つて
(51)式を「j=1〜Jo」まで計算し、終端をi
とした入力パターン「A(1、i)」に対する類似
度を各単語毎に「go(i、Jo)」として出力する。
この前記第1の漸化式計算部105よりの「go
(i、jo)」は、前記(ステツプ1−6)を実行す
る第1判定部106に供給し、時間点iにおける
最大類似度Diと比較し、もし「go(i、Jo)」が大
きければDiを書き直し、またそのときのnをWi
として記憶する。107は(24)式により定義さ
れる時間点iを終端とした最大類似度Diを記憶す
る最大類似度記憶部で、第1判定部106より出
力される最大値が記憶される。また、第1の判定
部106より得られる最大類似度Diを与える単語
番号nは終端単語記憶部108に書込み記憶され
る。
する。第8図はその構成を示すもので、マイクロ
ホン101で音声入力を補捉するもので、この入
力音声信号は特徴抽出部102に供給し、入力音
声信号からQチヤンネルの分析フイルタにより周
波数分析し、各チヤンネルの出力レベルを時間標
本化して特徴ベクトルai=(a1i、a2i、…、aQi)を
作り出す。この特徴ベクトルaiは入力パターンバ
ツフア103に供給し、ベクトルaiを「i=1」
から終端Iまでの入力パターンAとして蓄える。
ここで入力パターンAに含まれるベクトルaiの個
数Iは、特徴抽出部102で決定される。104
は標準パターン記憶部で、N個の標準パターン
「Bn(n−1…N)」を記憶するもので、このパタ
ーン「Bn=(bn 1、bn 2、…、bn Jo)」は、前記ベクト
ルaiと同様にQ次のベクトル「bn j=(bn 1j、bn 2j、
…、bn Qj)」が各標準パターン長Jo個よりなる。前
記入力パターンバツフア103より信号iにした
がつて出力される特徴ベクトルaiと、標準パター
ン記憶部104より信号j、nにしたがつて出力
される特徴ベクトルbn jとは第1の漸化式計算部1
05に供給されてベクトル間類似度so(i、j)
を計算する。また、初期値信号Di-1を使つて
(51)式を「j=1〜Jo」まで計算し、終端をi
とした入力パターン「A(1、i)」に対する類似
度を各単語毎に「go(i、Jo)」として出力する。
この前記第1の漸化式計算部105よりの「go
(i、jo)」は、前記(ステツプ1−6)を実行す
る第1判定部106に供給し、時間点iにおける
最大類似度Diと比較し、もし「go(i、Jo)」が大
きければDiを書き直し、またそのときのnをWi
として記憶する。107は(24)式により定義さ
れる時間点iを終端とした最大類似度Diを記憶す
る最大類似度記憶部で、第1判定部106より出
力される最大値が記憶される。また、第1の判定
部106より得られる最大類似度Diを与える単語
番号nは終端単語記憶部108に書込み記憶され
る。
109は、第2の漸化式計算部で、逆方向によ
る類似度「S((u、v)、Wu)=s(v、a)」を
計算するもので、この第2漸化式計算部109の
出力「g(v、1)」と、最大類似度記憶部107
よりのDv-1から第2の判定部110で(61)式
を最大化する区切り点vnaxを判定し、出力する。
この第2判定部110の出力である区切り点vnax
より得られる「u=vnax−1」にもとずく単語番
号Wuは順序入替部111にnx(x=1…Y)とし
て記憶しておき、この入替部111では最後に時
間順序に入替えてy(y=1…Y)として出力
する。112は全体をコントロールする制御部
で、各種信号を発生し、上記特徴抽出部102〜
順序入替部111を制御する。
る類似度「S((u、v)、Wu)=s(v、a)」を
計算するもので、この第2漸化式計算部109の
出力「g(v、1)」と、最大類似度記憶部107
よりのDv-1から第2の判定部110で(61)式
を最大化する区切り点vnaxを判定し、出力する。
この第2判定部110の出力である区切り点vnax
より得られる「u=vnax−1」にもとずく単語番
号Wuは順序入替部111にnx(x=1…Y)とし
て記憶しておき、この入替部111では最後に時
間順序に入替えてy(y=1…Y)として出力
する。112は全体をコントロールする制御部
で、各種信号を発生し、上記特徴抽出部102〜
順序入替部111を制御する。
すなわち、上記のように構成される装置におい
て、マイクロホン101から入力された音声信号
は、特徴抽出部102において、Qチヤンネルの
周波数分析フイルタによる出力を制御部112よ
りの標本化信号tによつて標本化して、Q次元の
ベクトル「a=(a1、a2、…aQ)」として出力す
る。また、この特徴抽出部102は、音声の始点
および終端の検出信号と、始点から終端までのベ
クトルaの個数Iを制御部112へ出力する。入
力パターンバツフア103は制御部112からの
信号「i=1〜I」にしたがつて、抽出部102
からの特徴ベクトルaiを記憶する。ここで、説明
を簡単にするために、入力パターンバツフア10
3にすべての入力パターンが入力し終つているも
のとする。制御部112では、まず(ステツプ1
−1)にしたがつて、第1の漸化式計算部105
内の途中結果記憶レジスタgo(j)、ho(j)および最大
類似度記憶部107を初期セツトする。次にこの
制御部112はは信号iを「1」から「I」まで
順次出力し、この各信号iにおいて、信号nを
「1」から「Nまで出力する。さらにこの各信号
nにおいて、信号jを「1」から各単語「n」の
パターン長「Jo」まで順次出力する。
て、マイクロホン101から入力された音声信号
は、特徴抽出部102において、Qチヤンネルの
周波数分析フイルタによる出力を制御部112よ
りの標本化信号tによつて標本化して、Q次元の
ベクトル「a=(a1、a2、…aQ)」として出力す
る。また、この特徴抽出部102は、音声の始点
および終端の検出信号と、始点から終端までのベ
クトルaの個数Iを制御部112へ出力する。入
力パターンバツフア103は制御部112からの
信号「i=1〜I」にしたがつて、抽出部102
からの特徴ベクトルaiを記憶する。ここで、説明
を簡単にするために、入力パターンバツフア10
3にすべての入力パターンが入力し終つているも
のとする。制御部112では、まず(ステツプ1
−1)にしたがつて、第1の漸化式計算部105
内の途中結果記憶レジスタgo(j)、ho(j)および最大
類似度記憶部107を初期セツトする。次にこの
制御部112はは信号iを「1」から「I」まで
順次出力し、この各信号iにおいて、信号nを
「1」から「Nまで出力する。さらにこの各信号
nにおいて、信号jを「1」から各単語「n」の
パターン長「Jo」まで順次出力する。
入力パターンバツフア103は、上記制御部1
12からの信号iにより指定されたベクトルaiを
出力し、標準パターンバツフア104は同じく制
御部112からの単語選択信号nおよび信号jに
より指定されたベクトルbn jを出力する。これらの
パターンバツフア103,104からの出力信号
が供給される第1の漸化式計算部105は、漸化
式の初期値を最大類似度記憶部107よりの1単
位時間前つまり「(i−1)」にける最大値Di-1と
して、各単語毎の途中結果記憶レジスタgo(j)、ho
(j)の過去値と、ベクトルai、bn jのベクトル間類似
度So(i、j)とにより、(51)式にしたがつて漸
化式を計算しgo(j)、ho(j)を更新する。そして、
「j=Jo」に達すると第1判定部106は、第1
の漸化式計算部105からのgo(i、Jo)と、単
語「(n−1)」までの時間iを終端とした最大類
似度Diとを比較し、g(i、Jo)のほうが大きけ
ればDiをgo(i、Jo)で書き換える。また、その
ときの単語番号nをWiとして終端単語記憶部1
08に記憶する。
12からの信号iにより指定されたベクトルaiを
出力し、標準パターンバツフア104は同じく制
御部112からの単語選択信号nおよび信号jに
より指定されたベクトルbn jを出力する。これらの
パターンバツフア103,104からの出力信号
が供給される第1の漸化式計算部105は、漸化
式の初期値を最大類似度記憶部107よりの1単
位時間前つまり「(i−1)」にける最大値Di-1と
して、各単語毎の途中結果記憶レジスタgo(j)、ho
(j)の過去値と、ベクトルai、bn jのベクトル間類似
度So(i、j)とにより、(51)式にしたがつて漸
化式を計算しgo(j)、ho(j)を更新する。そして、
「j=Jo」に達すると第1判定部106は、第1
の漸化式計算部105からのgo(i、Jo)と、単
語「(n−1)」までの時間iを終端とした最大類
似度Diとを比較し、g(i、Jo)のほうが大きけ
ればDiをgo(i、Jo)で書き換える。また、その
ときの単語番号nをWiとして終端単語記憶部1
08に記憶する。
「n=1…N」について上記動作が終了する
と、iを「1」増して入力パターンの個数Iだけ
「(i=1…I)」繰返すと「i=1…I」につい
てのすべてのDi、Wiが求まる。
と、iを「1」増して入力パターンの個数Iだけ
「(i=1…I)」繰返すと「i=1…I」につい
てのすべてのDi、Wiが求まる。
制御部112は上記動作が終了すると、「u=
I」を初期値として出力し、終端単語記憶部10
8より認識単語Wuを取り出す。また制御部11
2は、第2の漸化式計算部109内の途中結果記
憶部g(i)、h(j)等と、第2判定部110内の
(61)式の最大値検出用レジスタDMAXを(ステツ
プ2−3)にしたがつて初期化する。次に制御部
112は信号vをuから1づつ減らしながら、
「(u−2・JWu)」まで出力し、また各vにおいて
信号jをJWuから「1」まで1づつ減らしながら
出力する。
I」を初期値として出力し、終端単語記憶部10
8より認識単語Wuを取り出す。また制御部11
2は、第2の漸化式計算部109内の途中結果記
憶部g(i)、h(j)等と、第2判定部110内の
(61)式の最大値検出用レジスタDMAXを(ステツ
プ2−3)にしたがつて初期化する。次に制御部
112は信号vをuから1づつ減らしながら、
「(u−2・JWu)」まで出力し、また各vにおいて
信号jをJWuから「1」まで1づつ減らしながら
出力する。
入力パターンバツフア103は信号vによつて
指定されたベクトルavを出力し、標準パターン記
憶部104は、単語番号Wuおよび信号jによつ
て指定されたベクトルbWu jを出力する。
指定されたベクトルavを出力し、標準パターン記
憶部104は、単語番号Wuおよび信号jによつ
て指定されたベクトルbWu jを出力する。
第2漸化式計算部109は、途中結果記憶レジ
スタg(j)、h(j)と、ベクトルav、bWu jのベクトル
間類似度s(v、j)とにより(ステツプ2−6)
を「j=1」まで実行する。そして、「j=1」
になると第2の判定部110は、第2の漸化式計
算部109の出力g(v、i)と、時間点(v−
1)を終端とした最大類似度Dv-1との和を、過
去「(v=u〜(v+1))」の最大値DMAXと比較
し、もし大きければこのDMAXを「{DV-1+g(v、
1)}」と置き替え、そのときのvをvnaxとして記
憶する。以上を「v=u〜(u−2・Jwu)」まで
実行する。そして、このようにして得られたvnax
から「u−vnax−1」として、制御部112へ出
力する。この制御部112は「u=0」になるま
で上記動作を繰返す。順次得られた単語信号Wu
は、順序入替部111に「nX(x=1…Y)」とし
て記憶され、「u=0」になつたとき「、=nY、
n2=nY-1、…Y=n1」と順序を入替えたy(y
=1…Y)として出力する。
スタg(j)、h(j)と、ベクトルav、bWu jのベクトル
間類似度s(v、j)とにより(ステツプ2−6)
を「j=1」まで実行する。そして、「j=1」
になると第2の判定部110は、第2の漸化式計
算部109の出力g(v、i)と、時間点(v−
1)を終端とした最大類似度Dv-1との和を、過
去「(v=u〜(v+1))」の最大値DMAXと比較
し、もし大きければこのDMAXを「{DV-1+g(v、
1)}」と置き替え、そのときのvをvnaxとして記
憶する。以上を「v=u〜(u−2・Jwu)」まで
実行する。そして、このようにして得られたvnax
から「u−vnax−1」として、制御部112へ出
力する。この制御部112は「u=0」になるま
で上記動作を繰返す。順次得られた単語信号Wu
は、順序入替部111に「nX(x=1…Y)」とし
て記憶され、「u=0」になつたとき「、=nY、
n2=nY-1、…Y=n1」と順序を入替えたy(y
=1…Y)として出力する。
上記実施例では、入力パターンAが入力パター
ンバツフア103にすべて入力されてから認識動
作が始まるものとしたが、この発明は(ステツプ
1−1)〜(ステツプ1−8)で示したように入
力ベクトルaが1個入力されると同時に(ステツ
プ1−2)〜(ステツプ1−7)の演算を進める
ことができ、発声開始から認識結果応答までの全
時間を認識処理に利用することにより、応答時間
の短縮が可能である。また、第1の漸化式計算部
105は、単語nについて並列化することにより
高速化することができる。さらに第1の漸化式計
算部105と、第2の漸化式計算部109とは、
それぞれ(ステツプ1−5)、(ステツプ2−6)
で示すように同じ処理を実行しており、第2のス
テツプは第1のステツプの処理が完全に終了しな
ければ処理を開始することができないから、第2
のステツプの処理も第1の漸化計算部105で実
行することにより、第2の漸化式計算部109は
省略することができる。
ンバツフア103にすべて入力されてから認識動
作が始まるものとしたが、この発明は(ステツプ
1−1)〜(ステツプ1−8)で示したように入
力ベクトルaが1個入力されると同時に(ステツ
プ1−2)〜(ステツプ1−7)の演算を進める
ことができ、発声開始から認識結果応答までの全
時間を認識処理に利用することにより、応答時間
の短縮が可能である。また、第1の漸化式計算部
105は、単語nについて並列化することにより
高速化することができる。さらに第1の漸化式計
算部105と、第2の漸化式計算部109とは、
それぞれ(ステツプ1−5)、(ステツプ2−6)
で示すように同じ処理を実行しており、第2のス
テツプは第1のステツプの処理が完全に終了しな
ければ処理を開始することができないから、第2
のステツプの処理も第1の漸化計算部105で実
行することにより、第2の漸化式計算部109は
省略することができる。
また、マイクロホン101は電話の受話器等任
意のものが使用できる。さらに上記の実施例で
は、参照符号101〜112まですべてハードウ
エアで処理作動する例を示したが、一部分または
全部をプログラム制御で処理してもよい。また、
特徴抽出部102は周波数分析フイルタとした
が、これは音声信号の自己相関係数とか線形予測
係数とかパーコール/(PARCOR)係数等音声
の特徴を表わすことのできるパラメータを抽出す
ることができるものであればなんでもよい。ま
た、ベクトル間類似度としては、相関、距離等な
んでもよい。
意のものが使用できる。さらに上記の実施例で
は、参照符号101〜112まですべてハードウ
エアで処理作動する例を示したが、一部分または
全部をプログラム制御で処理してもよい。また、
特徴抽出部102は周波数分析フイルタとした
が、これは音声信号の自己相関係数とか線形予測
係数とかパーコール/(PARCOR)係数等音声
の特徴を表わすことのできるパラメータを抽出す
ることができるものであればなんでもよい。ま
た、ベクトル間類似度としては、相関、距離等な
んでもよい。
次に上記実施例の最も重要な構成部である第1
の漸化式計算部105の構成例を第9図aに示
す。第9図aは(51)式を実行するもので、12
0は、ベクトルaiとbn jのベクトル間類似度so(i、
j)を計算し出力するベクトル間類度計算部、1
21は、入力がgo(i−1、j)、出力がgo(i−
1、j−1)となる一時記憶用レジスタTEMP1
で「j=1」として計算がスタートするときは、
Diが初期値としてプリセツトされる。122は、
入力がho(i、j)、出力がho(i、j−1)とな
る一時記憶用レジスタTEMP2で「j=1」とし
て計算がスタートするときには−∞がプリセツト
される。123はho(i−1、j)を一時保持す
るためのレジスタTEMP3である。
の漸化式計算部105の構成例を第9図aに示
す。第9図aは(51)式を実行するもので、12
0は、ベクトルaiとbn jのベクトル間類似度so(i、
j)を計算し出力するベクトル間類度計算部、1
21は、入力がgo(i−1、j)、出力がgo(i−
1、j−1)となる一時記憶用レジスタTEMP1
で「j=1」として計算がスタートするときは、
Diが初期値としてプリセツトされる。122は、
入力がho(i、j)、出力がho(i、j−1)とな
る一時記憶用レジスタTEMP2で「j=1」とし
て計算がスタートするときには−∞がプリセツト
される。123はho(i−1、j)を一時保持す
るためのレジスタTEMP3である。
ベクトル間類似度計算部120の出力so(i、
j)は、2倍回路124に供給し、「2・so(i、
j)」として出力する。また、レジスタ121の
出力「go(i−1、j−1)」と、上記2倍回路1
24の出力「2・so(i、j)」を加算器125で
加え、この加算器125は、「{go(i−1、j−
1)+2・so(i、j)}」つまりho(i、j)を出
力する。また、レジスタ122の出力ho(i、j
−1)と、類似度計算部120の出力so(i、j)
は加算器126で加算し、この加算器126は
「{ho(i、j−1)+so(i、j)}」を出力する。
さらに、レジスタ123の出力ho(i−1、j)
と、類似度計算部120の出力so(i、j)は加
算器127で加え、この加算器127は「{ho(i
−1、j)+so(i、j)}」を出力する。128
は、後述するメモリ130の出力ho(i、j)と、
加算器126,127の各出力の最大を選択、つ
まりgo(i、j)を出力する最大値検出器で、こ
の検出器128の出力はメモリ129に供給す
る。このメモリ129は、 go(jj)=go(l、j)…(1≦jj≦j) go(jj)=go(i−1、j)…(j<jj≦Jo) を記憶するもので、その読み出し出力は前記レジ
スタ121に供給する。前記加算器125の出力
ho(i、j)はメモリ130に記憶するもので、 ho(jj)=ho(i、j)…(1≦jj≦j) ho(jj)=ho(i−j、j)…(j<jj≦Jo) を記憶する。このメモリ130の読み出し出力
は、レジスタ122および最大検出器128に供
給する。131は、上記漸化式計算部を制御する
漸化式制御部で、T1、T2、T3、T4、T5の各タイ
ミング信号を、それぞれレジスタ121,12
2,123の書込み、さらにメモリ129,13
0の書込み信号として出力する。タイミング信号
T1〜T5は各jについて各々1個づつ第9図bで
示す順序で出力される。T0はプリセツト信号で、
レジスタ121にはgo(i−1、0)に替わるDi
を、レジスタ122にはho(i、0)に替わる−
∞をそれぞれ「i=1」で計算がスタートする直
前にプリセツトする。
j)は、2倍回路124に供給し、「2・so(i、
j)」として出力する。また、レジスタ121の
出力「go(i−1、j−1)」と、上記2倍回路1
24の出力「2・so(i、j)」を加算器125で
加え、この加算器125は、「{go(i−1、j−
1)+2・so(i、j)}」つまりho(i、j)を出
力する。また、レジスタ122の出力ho(i、j
−1)と、類似度計算部120の出力so(i、j)
は加算器126で加算し、この加算器126は
「{ho(i、j−1)+so(i、j)}」を出力する。
さらに、レジスタ123の出力ho(i−1、j)
と、類似度計算部120の出力so(i、j)は加
算器127で加え、この加算器127は「{ho(i
−1、j)+so(i、j)}」を出力する。128
は、後述するメモリ130の出力ho(i、j)と、
加算器126,127の各出力の最大を選択、つ
まりgo(i、j)を出力する最大値検出器で、こ
の検出器128の出力はメモリ129に供給す
る。このメモリ129は、 go(jj)=go(l、j)…(1≦jj≦j) go(jj)=go(i−1、j)…(j<jj≦Jo) を記憶するもので、その読み出し出力は前記レジ
スタ121に供給する。前記加算器125の出力
ho(i、j)はメモリ130に記憶するもので、 ho(jj)=ho(i、j)…(1≦jj≦j) ho(jj)=ho(i−j、j)…(j<jj≦Jo) を記憶する。このメモリ130の読み出し出力
は、レジスタ122および最大検出器128に供
給する。131は、上記漸化式計算部を制御する
漸化式制御部で、T1、T2、T3、T4、T5の各タイ
ミング信号を、それぞれレジスタ121,12
2,123の書込み、さらにメモリ129,13
0の書込み信号として出力する。タイミング信号
T1〜T5は各jについて各々1個づつ第9図bで
示す順序で出力される。T0はプリセツト信号で、
レジスタ121にはgo(i−1、0)に替わるDi
を、レジスタ122にはho(i、0)に替わる−
∞をそれぞれ「i=1」で計算がスタートする直
前にプリセツトする。
上記のように構成される漸化式計算部におい
て、第5図bの斜線部を実行する場合の動作を説
明すると、入力パターンAの時間点「i=P」ま
ではすべてのnについて演算が終了しており、Di
は「0≦i≦P」まで確定している。また、メモ
リ129は「go(P、j)(n=1…N j=1…Jo)」を記憶
し、
メモリ130は「ho(P、j)(n=1…N j=1…Jo)」を
記憶
している。
て、第5図bの斜線部を実行する場合の動作を説
明すると、入力パターンAの時間点「i=P」ま
ではすべてのnについて演算が終了しており、Di
は「0≦i≦P」まで確定している。また、メモ
リ129は「go(P、j)(n=1…N j=1…Jo)」を記憶
し、
メモリ130は「ho(P、j)(n=1…N j=1…Jo)」を
記憶
している。
単語番号nおよび標準パターンBnのベクトル
bn jをとり出すインデツクスjは、第8図の制御部
112から指定される。第5図bの斜線部を実行
するにあたり、第9図bの時刻t0でレジスタ12
1および122はそれぞれDpおよび−∞を信号
T0で初期セツトされる。次に「j=1」として
時刻t1でレジスタ123は、メモリ130よりの
「ho(1)」つまりho(P、1)を信号T3で書込まれ
る。次に「i=P+1」および「j=1」で指定
されたベクトルap+1、bn 1のベクトル間類似度so
(P+1、1)が類似計算部120で計算され、
その計算結果を2倍回路124で2倍した「2・
so(P+1、1)」がレジスタ121の出力つまり
「go(P、0)=Dp」と加算器125で加算して、
「ho(p+1、1))」とし、メモリ130のho(1)に時刻t2
信号T5で書込まれる。そして、時刻t3においてメ
モリ129の出力go(1)つまりgo(P、1)がレジ
スタ121に信号T1で書込まれる。
bn jをとり出すインデツクスjは、第8図の制御部
112から指定される。第5図bの斜線部を実行
するにあたり、第9図bの時刻t0でレジスタ12
1および122はそれぞれDpおよび−∞を信号
T0で初期セツトされる。次に「j=1」として
時刻t1でレジスタ123は、メモリ130よりの
「ho(1)」つまりho(P、1)を信号T3で書込まれ
る。次に「i=P+1」および「j=1」で指定
されたベクトルap+1、bn 1のベクトル間類似度so
(P+1、1)が類似計算部120で計算され、
その計算結果を2倍回路124で2倍した「2・
so(P+1、1)」がレジスタ121の出力つまり
「go(P、0)=Dp」と加算器125で加算して、
「ho(p+1、1))」とし、メモリ130のho(1)に時刻t2
信号T5で書込まれる。そして、時刻t3においてメ
モリ129の出力go(1)つまりgo(P、1)がレジ
スタ121に信号T1で書込まれる。
またレジスタ122の出力、つまり「ho(P、
0)=−∞」は類似度計算部120の出力so(P+
1、1)と加算器126で加算される。また、レ
ジスタ123の出力、つまり「ho(P、1)」は、
同様に上記so(P+1、1)と加算器127で加
算される。最大値検出器128は加算器126,
127および130の出力で最大のもの、つま
り、メモリ130の出力 ho(1)=ho(P+1、1) ={Dp+2・so(P+1、1)} をメモリ129へ「go(1)=go(P+1、1)」とし
て時刻t4に信号T4で書込む。時刻t5では、メモ
リ130の出力「ho(1)=ho(P+1、1)」が信号
T2で書込まれて「j=1」のサイクルが終了す
る。
0)=−∞」は類似度計算部120の出力so(P+
1、1)と加算器126で加算される。また、レ
ジスタ123の出力、つまり「ho(P、1)」は、
同様に上記so(P+1、1)と加算器127で加
算される。最大値検出器128は加算器126,
127および130の出力で最大のもの、つま
り、メモリ130の出力 ho(1)=ho(P+1、1) ={Dp+2・so(P+1、1)} をメモリ129へ「go(1)=go(P+1、1)」とし
て時刻t4に信号T4で書込む。時刻t5では、メモ
リ130の出力「ho(1)=ho(P+1、1)」が信号
T2で書込まれて「j=1」のサイクルが終了す
る。
制御部112からの「j=2」で次のサイクル
がスタートする。すなわち、時刻t6ではレジスタ
123にはメモリ130の出力ho(2)つまりho(P、
2)が書込まれ、時刻t7では、レジスタ121の
出力go(P、1)と2倍回路124の出力「2・
so(P+1、2)」の和ho(P+1、2)がメモリ
130のho(2)として書込まれる。時刻t8ではメモ
リ129の出力「go(2)=go(P、2)」に書込ま
れ、時刻t9ではメモリ130の出力「ho(2)=ho
(P+1、2)」と、加算器126からの出力
「{ho(P+1、1)+so(P+1、2)}」と加算器
127からの出力「ho(P、2)+so(P+1、
2)}」の最大値が、メモリ129へ「go(2)=go
(P+1、2)」として書込まれ、時刻t10ではメ
モリ130出力「ho(2)=ho(P+1、2)」がレジ
スタ122に書込まれて「j=2」、のサイクル
が終了する。以上のサイクルをJoまで繰返すメモ
リ129の出力go(Jo)は、go(P+1、Jo)を示
すようになる。これは第8図の第1の判定部10
6の入力となる。
がスタートする。すなわち、時刻t6ではレジスタ
123にはメモリ130の出力ho(2)つまりho(P、
2)が書込まれ、時刻t7では、レジスタ121の
出力go(P、1)と2倍回路124の出力「2・
so(P+1、2)」の和ho(P+1、2)がメモリ
130のho(2)として書込まれる。時刻t8ではメモ
リ129の出力「go(2)=go(P、2)」に書込ま
れ、時刻t9ではメモリ130の出力「ho(2)=ho
(P+1、2)」と、加算器126からの出力
「{ho(P+1、1)+so(P+1、2)}」と加算器
127からの出力「ho(P、2)+so(P+1、
2)}」の最大値が、メモリ129へ「go(2)=go
(P+1、2)」として書込まれ、時刻t10ではメ
モリ130出力「ho(2)=ho(P+1、2)」がレジ
スタ122に書込まれて「j=2」、のサイクル
が終了する。以上のサイクルをJoまで繰返すメモ
リ129の出力go(Jo)は、go(P+1、Jo)を示
すようになる。これは第8図の第1の判定部10
6の入力となる。
以上の例は、(31)式を変形した(51)式を実
行するものであるが、その他に両側傾斜制限をも
つた漸化式としては go(i、j)=So(i、j)+MAXgo(i−1、j−2
)+2・so(i、j−1) g(i−1、J−1)+so(i、j) g(i−1、J−1)+so(i、j) g(i−3、j−2)+2・so(i−2、j−1)+2
・so(i−1、j) ……(70) など多くの変形が考えられる。
行するものであるが、その他に両側傾斜制限をも
つた漸化式としては go(i、j)=So(i、j)+MAXgo(i−1、j−2
)+2・so(i、j−1) g(i−1、J−1)+so(i、j) g(i−1、J−1)+so(i、j) g(i−3、j−2)+2・so(i−2、j−1)+2
・so(i−1、j) ……(70) など多くの変形が考えられる。
(70)式の傾斜は「2/3」と「1」、と「2」
で、これは標準パターン長の「−50%」から「+
50%」まで入力パターンの変化を許すものであ
り、(31)式の傾斜「1/2」「1」、「2」の「−50 %」から「+100%」よりも強い制限を含んでい
る。(31)式を(51)式と変形して第9図aのよ
うに構成する場合と同様に fo(i、j)=go(i−2、j−2) +2・so(i−1、j−1)+2・so(i、j)
……(71) =ho(i−1、j−1)+2・so(i、j)
……(72) と定義すると(70)式は go(i、j)=so(i、j)+MAXho(i、j−1) go(i−1、j
−1)+so(i、j) fo(i−j、j) …(73) または go(i、j)=MAXho(i、j−1)+so(i、j) ho(i、j) fo(i−1、j)+so(i、j) …(74) となり、これは第1ステツプを変形すれば (ステツプ1′−1)D0=0 Di−∞(i=1〜I) とおき、 i=1とする。
50%」まで入力パターンの変化を許すものであ
り、(31)式の傾斜「1/2」「1」、「2」の「−50 %」から「+100%」よりも強い制限を含んでい
る。(31)式を(51)式と変形して第9図aのよ
うに構成する場合と同様に fo(i、j)=go(i−2、j−2) +2・so(i−1、j−1)+2・so(i、j)
……(71) =ho(i−1、j−1)+2・so(i、j)
……(72) と定義すると(70)式は go(i、j)=so(i、j)+MAXho(i、j−1) go(i−1、j
−1)+so(i、j) fo(i−j、j) …(73) または go(i、j)=MAXho(i、j−1)+so(i、j) ho(i、j) fo(i−1、j)+so(i、j) …(74) となり、これは第1ステツプを変形すれば (ステツプ1′−1)D0=0 Di−∞(i=1〜I) とおき、 i=1とする。
(ステツプ1′−2)n=1とする。
(ステツプ1′−3)
TEMP1=Di-1(=go(0))
TEMP2=−∞(=ho(0))
として
(ステツプ1′−4) j=1からJoまで(ステツ
プ1−5)を繰返す。
プ1−5)を繰返す。
(ステツプ1′−5)
TEMP3=ho(j)(ho(j)=TEMP1+2・so(i、
j) TEMP1=go(j) go(j)=MAXTEMP2+so(i、j) ho(j) fo(j)+so(i、j) TEMP2=ho(j) fo(j)=TEMP3+2・so(i、j) (ステツプ1′−6) go(Jo)<Diならば(ステツ
プ1′−7)へそうでなければ Di=go(Jo) Wi=nとおく。
j) TEMP1=go(j) go(j)=MAXTEMP2+so(i、j) ho(j) fo(j)+so(i、j) TEMP2=ho(j) fo(j)=TEMP3+2・so(i、j) (ステツプ1′−6) go(Jo)<Diならば(ステツ
プ1′−7)へそうでなければ Di=go(Jo) Wi=nとおく。
(ステツプ1′−7) n=n+1とし
n≦Nならば(ステツプ1′−3)へ。
(ステツプ1′−8) i=i+1とし
i≦Iならば(ステツプ1′−2)へ。
以上をハードウエアで構成したのが第10図
で、第9図bと同じタイミングで作動する。第1
0図において第9図bと同一部分は同一符号を付
してその説明は省略する。
で、第9図bと同じタイミングで作動する。第1
0図において第9図bと同一部分は同一符号を付
してその説明は省略する。
ここで傾斜制限をもたない漸化式の例として、
go(i、j)=so(i、j)+MAXgo(i−1、j)
go(i−1、j
−1) go(i、j−1) あるいは go(i、j)=so(i、j)+MAXgo(i−1、j) go(i−1、j
−1) go(i−1、j−2) などがある。上記の第2の例は、特開昭51−
104204号で使用されているが、傾斜制限をもたな
いために、急激な時間軸の整合を避けるために
は、第1図で直線11,12のような整合窓が必
要である。
−1) go(i、j−1) あるいは go(i、j)=so(i、j)+MAXgo(i−1、j) go(i−1、j
−1) go(i−1、j−2) などがある。上記の第2の例は、特開昭51−
104204号で使用されているが、傾斜制限をもたな
いために、急激な時間軸の整合を避けるために
は、第1図で直線11,12のような整合窓が必
要である。
上記のような漸化式の場合、整合窓があつても
部分的に極端な整合がおきるため、認識実験によ
ると、あまり良くないことが多く報告されてい
る。
部分的に極端な整合がおきるため、認識実験によ
ると、あまり良くないことが多く報告されてい
る。
第11図はこの発明の他の実施例を示すもの
で、101は音声入力に用いるマイクロホンで、
このマイクロホン101からのアナログ状音声信
号はA/D変換器141でデイジタル値に変換す
る。142は入力パターンA、標準パターンB漸
化式の途中結果go(j)、ho(j)、g(j)、h(j)および最
大類似度Di、終端単語Wi等を記憶するデータメ
モリ、143はプログラムメモリで、前記デイジ
タル値に変換された音声信号はCPU144に結
合し、プログラムメモリ143のプログラムはこ
のCPU144で実行される。
で、101は音声入力に用いるマイクロホンで、
このマイクロホン101からのアナログ状音声信
号はA/D変換器141でデイジタル値に変換す
る。142は入力パターンA、標準パターンB漸
化式の途中結果go(j)、ho(j)、g(j)、h(j)および最
大類似度Di、終端単語Wi等を記憶するデータメ
モリ、143はプログラムメモリで、前記デイジ
タル値に変換された音声信号はCPU144に結
合し、プログラムメモリ143のプログラムはこ
のCPU144で実行される。
すなわち、マイクロホン101から入力された
音声信号は、A/D変換器141にてデイジタル
の数値となり、一定時間例えば100μ秒毎にCPU
144に読込まれ、データメモリ142に記憶さ
れる。CPU144は、この数値が一定個数例え
ば150個読込まれると高速フーリエ変換(FFT)
を実行し、電力スペクトラムを求め、それに16個
の三角形窓を乗じて、16チヤンネルのバンドパス
フイルタによる周波数分析と同様な結果を得、そ
れを入力ベクトルaとする。この150個のデータ
は、15m秒毎にそろうものであるが、この15m秒
を1フレームとする。
音声信号は、A/D変換器141にてデイジタル
の数値となり、一定時間例えば100μ秒毎にCPU
144に読込まれ、データメモリ142に記憶さ
れる。CPU144は、この数値が一定個数例え
ば150個読込まれると高速フーリエ変換(FFT)
を実行し、電力スペクトラムを求め、それに16個
の三角形窓を乗じて、16チヤンネルのバンドパス
フイルタによる周波数分析と同様な結果を得、そ
れを入力ベクトルaとする。この150個のデータ
は、15m秒毎にそろうものであるが、この15m秒
を1フレームとする。
つぎに、プログラムメモリ143内のプログラ
ムによるCPU144の動作を第12図〜15図
のフローチヤートにしたがつて説明する。
ムによるCPU144の動作を第12図〜15図
のフローチヤートにしたがつて説明する。
まずフローチヤート内で使用する変数i1は割り
込み処理内で計算されたベクトルaでストアする
ときのアドレスを示すインデツクス。変数lは同
じく割り込み処理内で使用される終端検出用の低
電力フレームを計数するカウンタ、変数I1は始点
から終端までのベクトルaの個数を示し、変数i2
は認識処理における入力ベクトルaの取り出し用
のインデツクスで、音声途中の低電力フレームに
おいては、処理2(前記の第1のステツプに相当)
を実行せずに先へ進む。変数i3は、処理2を実行
するときの入力ベクトルaを取り出すインデツク
ス、Di、go(j)、ho(j)、Wi、g(j)、h(j)はデータメ
モリ142に記憶されるもので、Diは第iフレー
ムを終端とした最大類似度、go(j)、ho(j)は単語n
についての処理2における漸化式の途中結果を記
憶するためのもの、WiはDiを与える単語系列の
終端単語、g(j)、h(j)は処理3(前記の第2ステ
ツプに相当)における漸化式の途中結果を記憶す
るもの、変数jは標準パターンのベクトルbjを取
り出すインデツクス、変数nは単語番号を示すも
ので、定数Joは単語nの時間長(フレーム数)を
示し、定数Nは標準パターンの数を示す。変数
TEMP1、TEMP2、TEMP3は漸化式計算部に
おける一時記憶レジスタ、変数uは処理3におけ
る逆方向のパターンマツチングの部分パターン始
点を与えるインデツクス、変数vは逆方向パター
ンマツチングの部分パターンの終端を与えるイン
デツクス、Dnaxは(61)式の最大値を検出し記
憶するためのレジスタ、vnaxはDnaxを与えたイン
デツクスvを記憶するレジスタ、変数xは認識単
語番号nxを記憶するインデツクス、so(i、j)
はベクトルaiとbn jとのベクトル間類似度である。
記号−∞はCPU144内で実現できる負の最大
値を示す。
込み処理内で計算されたベクトルaでストアする
ときのアドレスを示すインデツクス。変数lは同
じく割り込み処理内で使用される終端検出用の低
電力フレームを計数するカウンタ、変数I1は始点
から終端までのベクトルaの個数を示し、変数i2
は認識処理における入力ベクトルaの取り出し用
のインデツクスで、音声途中の低電力フレームに
おいては、処理2(前記の第1のステツプに相当)
を実行せずに先へ進む。変数i3は、処理2を実行
するときの入力ベクトルaを取り出すインデツク
ス、Di、go(j)、ho(j)、Wi、g(j)、h(j)はデータメ
モリ142に記憶されるもので、Diは第iフレー
ムを終端とした最大類似度、go(j)、ho(j)は単語n
についての処理2における漸化式の途中結果を記
憶するためのもの、WiはDiを与える単語系列の
終端単語、g(j)、h(j)は処理3(前記の第2ステ
ツプに相当)における漸化式の途中結果を記憶す
るもの、変数jは標準パターンのベクトルbjを取
り出すインデツクス、変数nは単語番号を示すも
ので、定数Joは単語nの時間長(フレーム数)を
示し、定数Nは標準パターンの数を示す。変数
TEMP1、TEMP2、TEMP3は漸化式計算部に
おける一時記憶レジスタ、変数uは処理3におけ
る逆方向のパターンマツチングの部分パターン始
点を与えるインデツクス、変数vは逆方向パター
ンマツチングの部分パターンの終端を与えるイン
デツクス、Dnaxは(61)式の最大値を検出し記
憶するためのレジスタ、vnaxはDnaxを与えたイン
デツクスvを記憶するレジスタ、変数xは認識単
語番号nxを記憶するインデツクス、so(i、j)
はベクトルaiとbn jとのベクトル間類似度である。
記号−∞はCPU144内で実現できる負の最大
値を示す。
主プログラムはスタートステツプ200から始ま
りステツプ201で音声の始点、終端を検出したこ
とを示すフラグ「0」を初期セツトし、A/D変
換器141からの100μ秒毎の割り込みを許可す
る。以下の処理はデータの取り込み、特徴ベクト
ルaの計算、始点、終端の検出等を行う割り込み
処理と、認識処理の2つが並行に処理される。
りステツプ201で音声の始点、終端を検出したこ
とを示すフラグ「0」を初期セツトし、A/D変
換器141からの100μ秒毎の割り込みを許可す
る。以下の処理はデータの取り込み、特徴ベクト
ルaの計算、始点、終端の検出等を行う割り込み
処理と、認識処理の2つが並行に処理される。
最初に、割り込み処理ステツプ220〜233につい
て説明すると、割り込みが発生すると、割り込み
処理のスタートステツプ220より処理を始めて、
ステツプ221でA/D変換器141からのデイジ
タルデータを取り込みデータメモリ142に記憶
する。データが150個に達したかどうかを判断ス
テツプ222で判断し、達していなければリターン
ステツプ223で割り込み処理を抜け出す。150個入
力されるとステツプ223で前記ベクトルaの計算
を実行する。次に判断ステツプ224で始点検出フ
ラグが「0」であるか否かをチエツクし、もし
「0」ならばこのベクトルの電力(例えばベクト
ルaの要素の和16 〓 a)が閾値以上かどうかを判断
する。ステツプ227でチエツクし閾値以下であれ
ばリターンステツプ233より抜け出す。また閾値
以上のときは始点が検出されたとして、ステツプ
228で始点検出フラグを「1」としインデツクス
i1を「1」と置き、ベクトルを「ai1=a1」として
入力パターンバツフアAにストアする。そして、
ステツプ229でカウンタlを「0」としてリター
ンステツプ223で割り込みから抜け出す。
て説明すると、割り込みが発生すると、割り込み
処理のスタートステツプ220より処理を始めて、
ステツプ221でA/D変換器141からのデイジ
タルデータを取り込みデータメモリ142に記憶
する。データが150個に達したかどうかを判断ス
テツプ222で判断し、達していなければリターン
ステツプ223で割り込み処理を抜け出す。150個入
力されるとステツプ223で前記ベクトルaの計算
を実行する。次に判断ステツプ224で始点検出フ
ラグが「0」であるか否かをチエツクし、もし
「0」ならばこのベクトルの電力(例えばベクト
ルaの要素の和16 〓 a)が閾値以上かどうかを判断
する。ステツプ227でチエツクし閾値以下であれ
ばリターンステツプ233より抜け出す。また閾値
以上のときは始点が検出されたとして、ステツプ
228で始点検出フラグを「1」としインデツクス
i1を「1」と置き、ベクトルを「ai1=a1」として
入力パターンバツフアAにストアする。そして、
ステツプ229でカウンタlを「0」としてリター
ンステツプ223で割り込みから抜け出す。
一方判断ステツプ224ですでに始点検出フラグ
が「1」となつているときは、ステツプ225でイ
ンデツクスi1を「1」増し入力ベクトルai1として
入力パターンバツフアAにストアする。判断ステ
ツプ226にて入力ベクトルの電力が閾値以上であ
れば前記ステツプ229へ、また以下のときは低電
力フレームとしてステツプ230でカウンタlを
「1」増す。
が「1」となつているときは、ステツプ225でイ
ンデツクスi1を「1」増し入力ベクトルai1として
入力パターンバツフアAにストアする。判断ステ
ツプ226にて入力ベクトルの電力が閾値以上であ
れば前記ステツプ229へ、また以下のときは低電
力フレームとしてステツプ230でカウンタlを
「1」増す。
判断ステツプ231にてカウンタlが「20」つま
り低電力フレームが20フレーム続いたか否かをチ
エツクし、「20」以下ならリターンステツプ223
へ、「20」以上であれば入力音声の終了とみなし
ステツプ232で始点から終端までの有効ベクトル
aの個数をI1と置き、終端検出フラグを「1」に
セツトし、A/D変換器141からの割り込みを
禁止しリターンステツプ223にて割り込みから抜
け出す。
り低電力フレームが20フレーム続いたか否かをチ
エツクし、「20」以下ならリターンステツプ223
へ、「20」以上であれば入力音声の終了とみなし
ステツプ232で始点から終端までの有効ベクトル
aの個数をI1と置き、終端検出フラグを「1」に
セツトし、A/D変換器141からの割り込みを
禁止しリターンステツプ223にて割り込みから抜
け出す。
以上の割り込み処理により、入力パターンバツ
フアAには15m秒毎にベクトルaが取り込まれ
る。
フアAには15m秒毎にベクトルaが取り込まれ
る。
つぎに、主プログラムのステツプ202以降を説
明すると、ステツプ202による処理1(第13図の
ステツプ240〜245による)は、前記(ステツプ1
−1)相当の初期化を行う。
明すると、ステツプ202による処理1(第13図の
ステツプ240〜245による)は、前記(ステツプ1
−1)相当の初期化を行う。
すなわち、判断部203で始点検出フラグが
「1」になるまで待ち、「1」になると、音声入力
が開始されたものとしてステツプ204でインデツ
クスi2、i3を「1」に初期化する。つぎに判断ス
テツプ205において割り込みで使用されいるイン
デツクスi1とi2を比較し、i2がi1に等しいか小さ
ければ判断ステツプ206進み、ベクトルai2の電力
が閾値より小さければ、音声途中の低電力フレー
ムとしてステツプ207でi2を「1」増して、判断
ステツプ208で終端検出フラグをチエツクする。
終端検出フラグが「0」であれば、まだ終端は検
出されていないものとして判断ステツプ205へも
どる。
「1」になるまで待ち、「1」になると、音声入力
が開始されたものとしてステツプ204でインデツ
クスi2、i3を「1」に初期化する。つぎに判断ス
テツプ205において割り込みで使用されいるイン
デツクスi1とi2を比較し、i2がi1に等しいか小さ
ければ判断ステツプ206進み、ベクトルai2の電力
が閾値より小さければ、音声途中の低電力フレー
ムとしてステツプ207でi2を「1」増して、判断
ステツプ208で終端検出フラグをチエツクする。
終端検出フラグが「0」であれば、まだ終端は検
出されていないものとして判断ステツプ205へも
どる。
前記判断ステツプ206で電力が閾値以上のとき
は、ステツプ212へ進んでi2を「1」増し、ステ
ツプ213の前記(ステツプ1−2)〜(ステツプ
1−7)に相当する処理2を実行する。つぎに、
ステツプ241でインデツクスi3を「1」増して、
判断ステツプ215によりインデツクスi3とi2を比
較する。そして、i3がi2より小さければステツプ
213へもどつて処理2を続け、大きいか等しけれ
ば判断ステツプ205へもどる。
は、ステツプ212へ進んでi2を「1」増し、ステ
ツプ213の前記(ステツプ1−2)〜(ステツプ
1−7)に相当する処理2を実行する。つぎに、
ステツプ241でインデツクスi3を「1」増して、
判断ステツプ215によりインデツクスi3とi2を比
較する。そして、i3がi2より小さければステツプ
213へもどつて処理2を続け、大きいか等しけれ
ば判断ステツプ205へもどる。
判断ステツプ208で終端検出フラグが「1」に
なつていると、判断ステツプ209でインデツクス
i3とi1の大小関係をチエツクする。これは前記ス
テツプ213内の処理2が15m秒以内に終了しない
と、ベクトルaの取り込みが先行することになる
ため、終端が検出されたとき、未評価の入力ベク
トルaが存在する可能性があるためである。そし
て、i3が入力ベクトルの個数I1より小さいか等し
い場合、前記ステツプ213、214と同様の処理をス
テツプ210、211で実行する。判断ステツプ209で
i3がI1より大きいと判断されればすべての入力ベ
クトルの評価が終了したものとして、ステツプ
216の処理3(前記第2ステツプ相当)を実行し、
認識単語として逆順に並んだnxを得る。そして、
ステツプ217でnxを逆に並べ直してyとして出力
する。以上で連続音声の認識を終了したことにな
る。
なつていると、判断ステツプ209でインデツクス
i3とi1の大小関係をチエツクする。これは前記ス
テツプ213内の処理2が15m秒以内に終了しない
と、ベクトルaの取り込みが先行することになる
ため、終端が検出されたとき、未評価の入力ベク
トルaが存在する可能性があるためである。そし
て、i3が入力ベクトルの個数I1より小さいか等し
い場合、前記ステツプ213、214と同様の処理をス
テツプ210、211で実行する。判断ステツプ209で
i3がI1より大きいと判断されればすべての入力ベ
クトルの評価が終了したものとして、ステツプ
216の処理3(前記第2ステツプ相当)を実行し、
認識単語として逆順に並んだnxを得る。そして、
ステツプ217でnxを逆に並べ直してyとして出力
する。以上で連続音声の認識を終了したことにな
る。
前記処理2の詳細を第14図に示す。すなわ
ち、ステツプ251は前記(ステツプ1−2)に相
当し、ステツプ252はステツプ(1−3)に、ス
テツプ253、256、257は(ステツプ1−4)に、
また漸化式のステツプ254、255はステツプ(1−
5)に、ステツプ258、259は(ステツプ1−6)
に、ステツプ261は(ステツプ1−7)にそれぞ
れ相当する。
ち、ステツプ251は前記(ステツプ1−2)に相
当し、ステツプ252はステツプ(1−3)に、ス
テツプ253、256、257は(ステツプ1−4)に、
また漸化式のステツプ254、255はステツプ(1−
5)に、ステツプ258、259は(ステツプ1−6)
に、ステツプ261は(ステツプ1−7)にそれぞ
れ相当する。
第15図は前記処理3の詳細を示すもので、ス
テツプ271は前記(ステツプ2−1)に、ステツ
プ272は(ステツプ2−2)に、ステツプ273、
274は(ステツプ2−3)に、ステツプ275は(ス
テツプ2−4)にそれぞれ相当する。第2のステ
ツプの説明で使用する記号iは第15図のフロー
チヤートではvと置きかえたものに等しい。また
ステツプ276および279、280は(ステツプ2−5)
に相当し、ステツプ277、278は(ステツプ2−
6)の漸化式計算に、ステツプ281、282は(ステ
ツプ2−7)の最大値検出に、ステツプ283、284
は(ステツプ2−8)に、ステツプ285は(ステ
ツプ2−9)に、ステツプ286は(ステツプ2−
10)に相当する。
テツプ271は前記(ステツプ2−1)に、ステツ
プ272は(ステツプ2−2)に、ステツプ273、
274は(ステツプ2−3)に、ステツプ275は(ス
テツプ2−4)にそれぞれ相当する。第2のステ
ツプの説明で使用する記号iは第15図のフロー
チヤートではvと置きかえたものに等しい。また
ステツプ276および279、280は(ステツプ2−5)
に相当し、ステツプ277、278は(ステツプ2−
6)の漸化式計算に、ステツプ281、282は(ステ
ツプ2−7)の最大値検出に、ステツプ283、284
は(ステツプ2−8)に、ステツプ285は(ステ
ツプ2−9)に、ステツプ286は(ステツプ2−
10)に相当する。
以上の実施例においては、第2のステツプに相
当するステツプ216の処理3を低電力フレーム20
個継続による終端検出後としたが、これは1個目
の低電力フレーム検出と同時に実行してもよい。
終端検出する前に有効電力フレームが入力された
ときは、すでに終了している処理3の結果を無効
とする。このようにすれば、終端検出時には結果
nx(またはy)は判明しており、より短時間に応
答することが可能となる。
当するステツプ216の処理3を低電力フレーム20
個継続による終端検出後としたが、これは1個目
の低電力フレーム検出と同時に実行してもよい。
終端検出する前に有効電力フレームが入力された
ときは、すでに終了している処理3の結果を無効
とする。このようにすれば、終端検出時には結果
nx(またはy)は判明しており、より短時間に応
答することが可能となる。
この実施例における連続音声認識実験の結果
は、2桁〜5桁の各数値40個、計160個の数値に
対して96.3%、各数値の1桁を1単語とした合計
560単語に対しては99.2%の認識率を得ている。
これはこの実施例を離散発生の孤立単語音声認識
として実験した1000個の単語に対する認識率99.5
%とほぼ同じ成績を示しておりこの連続音声認識
手段が有効であることを示している。
は、2桁〜5桁の各数値40個、計160個の数値に
対して96.3%、各数値の1桁を1単語とした合計
560単語に対しては99.2%の認識率を得ている。
これはこの実施例を離散発生の孤立単語音声認識
として実験した1000個の単語に対する認識率99.5
%とほぼ同じ成績を示しておりこの連続音声認識
手段が有効であることを示している。
(1) 入力パターンAの始点「i=1」終端「i=
q」とする部分パターンA(1、q)と、標準
パターンの最適な組み合せによるものとの最大
類似度Dqを求める手順として、部分パターン
A(1、q)をA(1、P)とA(P+1、q)
とに分解し、A(1、P)が持つ最大類似度Dp
と、A(P+1、q)と標準パターンBnとのマ
ツチングによる類似度S(A(p+1、q)、Bn)の和
として計算し、その和をPについて最大化する
ことを動的計画法によつて実行し、そのnにつ
いて最大値をDqとする手段は、ベクトル間類
似度s(ai、bn j)の計算を、i、j、nの組合
せに対して1回求めるだけでよいため、従来の
方法にくらべると約1/25の計算で求められる。
q」とする部分パターンA(1、q)と、標準
パターンの最適な組み合せによるものとの最大
類似度Dqを求める手順として、部分パターン
A(1、q)をA(1、P)とA(P+1、q)
とに分解し、A(1、P)が持つ最大類似度Dp
と、A(P+1、q)と標準パターンBnとのマ
ツチングによる類似度S(A(p+1、q)、Bn)の和
として計算し、その和をPについて最大化する
ことを動的計画法によつて実行し、そのnにつ
いて最大値をDqとする手段は、ベクトル間類
似度s(ai、bn j)の計算を、i、j、nの組合
せに対して1回求めるだけでよいため、従来の
方法にくらべると約1/25の計算で求められる。
(2) また入力ベクトルaq(1≦q≦I)が1個入
力されると同時にすべての単語n(1〜N)お
よび各単語の時間軸j(1〜Jo)についての演
算をし、Dq、Wqを求めることができるから音
声入力の開始と同時に演算量全体の98%以上を
占める第1ステツプの演算を並行することがで
き、発声開始から応答までを認識処理時間とし
て有効に使用することができる。
力されると同時にすべての単語n(1〜N)お
よび各単語の時間軸j(1〜Jo)についての演
算をし、Dq、Wqを求めることができるから音
声入力の開始と同時に演算量全体の98%以上を
占める第1ステツプの演算を並行することがで
き、発声開始から応答までを認識処理時間とし
て有効に使用することができる。
(3) 第1ステツプで求められた最大類似度Di、終
端単語Wi(1≦i≦I)のテーブルにより、第
2ステツプは入力パターンの終端(i=I)を
第1の区切点とし区切点によつて一義的に決ま
る認識単語のみについて、時間軸を逆方向に動
的計画法を使用して、直前の単語との区切点を
求めることができる。
端単語Wi(1≦i≦I)のテーブルにより、第
2ステツプは入力パターンの終端(i=I)を
第1の区切点とし区切点によつて一義的に決ま
る認識単語のみについて、時間軸を逆方向に動
的計画法を使用して、直前の単語との区切点を
求めることができる。
(4) 第2ステツプで区切点を求める動的計画法
は、区切点の片側(入力パターンの終端側)の
単語は一義的に定まつているため、計算量は非
常に少なくてよい。
は、区切点の片側(入力パターンの終端側)の
単語は一義的に定まつているため、計算量は非
常に少なくてよい。
(5) 前記のように第1ステツプは発声終了と同時
に演算終了とすることが可能であり、また第2
ステツプの演算量は第1ステツプに比較して2
%以下と少ないため、全体としては発声終了と
ほぼ同時に結果を応答することができる。
に演算終了とすることが可能であり、また第2
ステツプの演算量は第1ステツプに比較して2
%以下と少ないため、全体としては発声終了と
ほぼ同時に結果を応答することができる。
(6) 漸化式の途中結果記憶レジスタgo(J)、ho(j)
(fo(j))等と一時記憶レジスタTEMP1、2、3
等を構成要素とするパターンマツチング装置
は、go(i、j)およびso(i、j)をすべてま
たは一部記憶する場合の(47)式または(48)
式よりも(52)式または(54)式に示すよう
に、必要とする記憶エリアが小さくてすみ、ハ
ードウエアで実現するのに適している。
(fo(j))等と一時記憶レジスタTEMP1、2、3
等を構成要素とするパターンマツチング装置
は、go(i、j)およびso(i、j)をすべてま
たは一部記憶する場合の(47)式または(48)
式よりも(52)式または(54)式に示すよう
に、必要とする記憶エリアが小さくてすみ、ハ
ードウエアで実現するのに適している。
(7) 従来の方法に比べて、処理量が1/25ですむた
め低速な素子を使用することが可能で廉価とな
る。
め低速な素子を使用することが可能で廉価とな
る。
(8) また従来の装置と同等の素子を使用すれば、
標準パターンの数を25倍とすることが可能で、
認識単語の種類を非常に多くすることができ
る。
標準パターンの数を25倍とすることが可能で、
認識単語の種類を非常に多くすることができ
る。
(9) 使用メモリも従来の方法の半分でよいため、
それだけ低価格、小規模な装置となる。
それだけ低価格、小規模な装置となる。
(10) また処理を高速化する手法として、並列処理
が考えられるが、従来の方法における入力ベク
トル1個入力と同時にすべて処理を済す実時間
処理を実現する装置では、部分類似度計算部が
「{(2*r+1)*N}」個記憶量が「{(2*r
+1)2*N*2+M1}」となるが、この発明を
並例化した場合は、(16)式の値を用いると類
似度計算部で1/25、記憶量では約1/17と非常に
有利である。
が考えられるが、従来の方法における入力ベク
トル1個入力と同時にすべて処理を済す実時間
処理を実現する装置では、部分類似度計算部が
「{(2*r+1)*N}」個記憶量が「{(2*r
+1)2*N*2+M1}」となるが、この発明を
並例化した場合は、(16)式の値を用いると類
似度計算部で1/25、記憶量では約1/17と非常に
有利である。
(11) また、音声認識率の向上には、特徴ベクトル
の次元Qを増すことと、入力パターン、標準パ
ターンの単位時間あたりのベクトルの個数を増
すことが一般的であるから、従来の方法を使用
した装置に、この発明の方法を適用すると、同
一の認識語数、応答時間であれば、ベクトルの
次元数Qと、単位時間当りのベクトルの個数と
の積を25倍に増加させることができ、それだけ
高い認識率を期待できる。
の次元Qを増すことと、入力パターン、標準パ
ターンの単位時間あたりのベクトルの個数を増
すことが一般的であるから、従来の方法を使用
した装置に、この発明の方法を適用すると、同
一の認識語数、応答時間であれば、ベクトルの
次元数Qと、単位時間当りのベクトルの個数と
の積を25倍に増加させることができ、それだけ
高い認識率を期待できる。
(12) 両側傾斜制限つきの漸化式を用いることによ
り、複数の始点、複数の終端の動的計画法を同
時に計算しても時間軸の急激な整合を避けるこ
とが可能で計算量の大幅な削減が可能である。
り、複数の始点、複数の終端の動的計画法を同
時に計算しても時間軸の急激な整合を避けるこ
とが可能で計算量の大幅な削減が可能である。
(13) 複数の始点における初期値として、各始点
(P+1)の直前のフレームPを終端とする入
力パターンの部分パターンA(1、P)と、最
適な標準パターンの組み合せとの最大類似度
Dpを用いることにより、ある終端qまでの部
分パターンA(1、q)を最適に近似する標準
パターンの組み合せを決定する問題を、初期値
Dpと、部分パターンA(P+1、q)と各標準
パターンBn単独との、類似度S(A(p+1、q)、
Bn)の和の問題に置きかえることが可能で、
連続音声認識の問題を孤立単語音声認識とほぼ
同じ処理量で解くことができる。
(P+1)の直前のフレームPを終端とする入
力パターンの部分パターンA(1、P)と、最
適な標準パターンの組み合せとの最大類似度
Dpを用いることにより、ある終端qまでの部
分パターンA(1、q)を最適に近似する標準
パターンの組み合せを決定する問題を、初期値
Dpと、部分パターンA(P+1、q)と各標準
パターンBn単独との、類似度S(A(p+1、q)、
Bn)の和の問題に置きかえることが可能で、
連続音声認識の問題を孤立単語音声認識とほぼ
同じ処理量で解くことができる。
以上述べたように、本願の第1番目の発明によ
れば、第1ステツプによる1段のDp法により、
最大類似度Dq= MAX p,n{Dp+S(A(p+1、q)、Bn)}
を与える単語nおよびその類似度Dqをq=1〜
Iについて得るとともに、q=Iの時点で全体と
しての最大類似度を得ることができるという優れ
た効果がある。
れば、第1ステツプによる1段のDp法により、
最大類似度Dq= MAX p,n{Dp+S(A(p+1、q)、Bn)}
を与える単語nおよびその類似度Dqをq=1〜
Iについて得るとともに、q=Iの時点で全体と
しての最大類似度を得ることができるという優れ
た効果がある。
さらに、本願の第2番目の発明においては、上
記第1ステツプの結果を用いて入力音声に対する
認識単語を得ることができるという優れた効果が
ある。
記第1ステツプの結果を用いて入力音声に対する
認識単語を得ることができるという優れた効果が
ある。
さらに、本願の第3番目の発明においては、上
記第1番目の発明を適切に実施することができる
装置を提供することができるという優れた効果が
ある。
記第1番目の発明を適切に実施することができる
装置を提供することができるという優れた効果が
ある。
さらに、本願の第4番目の発明においては、上
記第2番目の発明を適切に実施することができる
装置を提供することができるという優れた効果が
ある。
記第2番目の発明を適切に実施することができる
装置を提供することができるという優れた効果が
ある。
第1図は従来の連続音声認識手段である2段
DP法の計算範囲を示す図、第2図はこの発明に
おける第1ステツプを説明するための図、第3図
aは始点・終端が固定の場合の傾斜制限つき漸化
式の計算範囲を示す図、第3図bは傾斜制限つき
の漸化式の一例を説明するための図、第4図はこ
の発明の計算量の削減を説明するための図、第5
図aはこの発明における第1ステツプの詳細を説
明するための図、第5図bはa図の斜線部分を抜
き出して説明する図、第6図は漸化式の計算の詳
細を説明する図、第7図はこの発明における第2
ステツプを説明するための図、第8図はこの発明
の一実施例を示すブロツク図、第9図aは上記実
施例の第1漸化式計算部の構成例を示すブロツク
図、第9図bはa図の制御タイミング図、第10
図は第1漸化式計算部の他の例を示すブロツク
図、第11図はこの発明の他の実施例を示す図、
第12図は上記実施例の動作を説明するためのフ
ローチヤート、第13図は第12図における処理
1を、第14図は同じく処理2を、第15図は同
じく処理3をそれぞれ説明するフローチヤートで
ある。 101……マイクロホン、102……特徴抽出
部、103……入力パターンバツフア、104…
…標準パターン記憶部、105,109……漸化
式計算部、106,110……判定部、107…
…最大類似度記憶部、108……終端単語記憶
部、112……制御部。
DP法の計算範囲を示す図、第2図はこの発明に
おける第1ステツプを説明するための図、第3図
aは始点・終端が固定の場合の傾斜制限つき漸化
式の計算範囲を示す図、第3図bは傾斜制限つき
の漸化式の一例を説明するための図、第4図はこ
の発明の計算量の削減を説明するための図、第5
図aはこの発明における第1ステツプの詳細を説
明するための図、第5図bはa図の斜線部分を抜
き出して説明する図、第6図は漸化式の計算の詳
細を説明する図、第7図はこの発明における第2
ステツプを説明するための図、第8図はこの発明
の一実施例を示すブロツク図、第9図aは上記実
施例の第1漸化式計算部の構成例を示すブロツク
図、第9図bはa図の制御タイミング図、第10
図は第1漸化式計算部の他の例を示すブロツク
図、第11図はこの発明の他の実施例を示す図、
第12図は上記実施例の動作を説明するためのフ
ローチヤート、第13図は第12図における処理
1を、第14図は同じく処理2を、第15図は同
じく処理3をそれぞれ説明するフローチヤートで
ある。 101……マイクロホン、102……特徴抽出
部、103……入力パターンバツフア、104…
…標準パターン記憶部、105,109……漸化
式計算部、106,110……判定部、107…
…最大類似度記憶部、108……終端単語記憶
部、112……制御部。
Claims (1)
- 【特許請求の範囲】 1 入力音声を電気信号に変換するマイクロホン
と、このマイクロホンからの前記入力音声に対応
する電気信号を時間点iにおける特徴を示す特徴
ベクトルai(1≦i≦I)の時系列として入力パ
ターンA=(a1、a2、…、ai、…、aI)に変換して
記憶する入力手段と、単語番号n(1≦n≦N)
についての特徴パラメータの時系列としてBn=
(bn 1、bn 2、…、bn j、…、bn Jo)を記憶する標準パタ
ーン記憶手段と、前記入力パターンAと前記複数
の標準パターンBnとの間において動的計画法を
用いて前記入力音声に最も類似の一連の単語を決
定する決定手段とから成るものにおいて、 前記決定手段は、 前記入力パターンの時間点i=1を始点とし、
i=qを終端とする部分パターンA(1、q)(但し、
1≦q≦I)と標準パターンの最適な組合せとの
間の最大類似度Dqを記憶する最大類似度記憶手
段と、 上記最大類似度Dqを与える標準パターンの組
合わせの最後の単語を示す単語番号をWqとして
記憶する終端単語記憶手段と、 時間点i=p+1を始点とし、i=qを終端と
する部分区間A(p+1、q)=(ap+1、ap+2、…、ai、
…、aq)(但し1≦p+1<q≦I)と各nにつ
いての標準パターンBnとの間で、部分パターン
の時間軸iと標準パターンの時間軸jを対応させ
る関数j(i)を最適に定めて、iとj(i)の間で定義され
るベクトル間類似度s(ai、bn j)の和の最大値S
(A(p+1、q)、Bn)と、前記最大類似度記憶手段に
て記憶している時間点i=pでの最大類似度Dp
との和をpについて最大にする操作を、 各時間点qについて、指定されたq、j、nよ
り得られるaq、bn jの間の類似度s(ap、bn j)を計
算し、その類似度s(aq、bn jと、経路点(q、j)
への到達径路に関する複数の経路情報とにより、
予め定めた漸化式を用いて最適経路を与える値を
求め、それを始点からの類似度go(q、j)とし、
各q、nについて、p=0に対してgo(p、0)=
0、p=1〜Iに対してgo(p、0)=Dpと定義
される初期条件のもとにjを標準パターンのベク
トル個数Joまで演算した結果のgo(q、Jo)を終
端qとした部分パターンA(1、q)と単語nを最終
単語とした標準パターンの最適な組合せによるも
のとの類似度Dp+S(A(1+p、q)、Bn)として得る 動的計画法によつて実行するパターンマツチン
グ手段と、 その結果の MAX p{Dp+S(A(p+1、q)、Bn)}に
対し、すべてのnに関する最大値 MAX p,n{Dp+
S(A(p+1、q)、Bn)}を前記Dqとして前記最大類
似度記憶手段に記憶させると同時に、その最大値
を与えるnを前記終端単語Wqとして前記終端単
語記憶手段に記憶させる第1の判定手段 を備えることを特徴とする連続音声認識装置。 2 入力音声を電気信号に変換するマイクロホン
と、このマイクロホンからの前記入力音声に対応
する電気信号を時間点iにおける特徴を示す特徴
ベクトルai(1≦i≦I)の時系列として入力パ
ターンA=(a1、a2、…、ai、…、aI)に変換して
記憶する入力手段と、単語番号n(1≦n≦N)
についての特徴パラメータ時系列としてBn=
(bn 1、bn 2、…、bn j、…、bn Jo)を記憶する標準パタ
ーン記憶手段と、前記入力パターンAと前記複数
の標準パターンBnとの間において動的計画法を
用いて前記入力音声に最も類似の一連の単語を決
定する決定手段とから成るものにおいて、 前記決定手段は、 前記入力パターンの時間点i=1を始点とし、
i=qを終端とする部分パターンA(1、q)(但し、
1≦q≦I)と標準パターンの最適な組合せとの
間の最大類似度Dqを記憶する最大類似度記憶手
段と、 上記最大類似度Dqを与える標準パターンの組
合せの最後の単語を示す単語番号をWqとして記
憶する終端単語記憶手段と、 時間点i=p+1を始点とし、i=qを終端と
する部分区間A(p+1、q)=(ap+1、ap+2、…、ai、
…、aq)(但し1≦p+1<q≦I)と各nにつ
いての標準パターンBnとの間で部分パターンの
時間軸iと標準パターンの時間軸jを対応させる
関数j(i)を最適に定めて、iとj(i)の間で定義される
ベクトル間類似度s(ai、bn j)の和の最大値S
(A(p+1、q)、Bn)と、前記最大類似度記憶手段に
て記憶している時間点i=pでの最大類似度Dp
との和をpについて最大にする操作を 各時間点qについて、指定されたq、j、nよ
り得られるaq、bn jの間の類似度s(aq、bn j)を計
算し、この類似度s(aq、bn j)と、経路点(q、
j)への到達経路に関する複類の経路情報とによ
り、予め定めた漸化式を用いて最適経路を与える
値を求め、それを始点からの類似度go(q、j)
とし、各q、nについてp=0に対してgo(p、
0)=0、p=1〜Iに対してgo(p、0)=Dpと
定義される初期条件のもとに、jを標準パターン
のベクトル個数Joまで演算した結果のgo(q、Jo)
を、終端をqとした部分パターンA(1、q)と単語
nを最終単語とした標準パターンの最適な組合せ
によるものとの類似度Dp+S(A(1+p、q)、Bn)と
して得る 動的計画法によつて実行するパターンマツチン
グ手段と、 その結果の MAX p{Dp+S(A(p+1、q)、Bn)}に
対し、すべてのnに関する最大値MpAoX{Dp+
S(A(p+1、q)、Bn)}を前記Dqとして前記最大類
似度記憶手段に記憶させると同時に、その最大値
を与えるnを前記終端単語Wqとして前記終端単
語記憶手段に記憶させる第1の判定手段と、 入力パターンAの時間点i=Iを始点uとし、
この始点uから終端vまでを時間的に逆方向にし
た逆方向部分パターン(u、v)=(au、au-1、…
av+1、av)と始点uにおける前記終端単語Wuの
標準パターンBwuを時間的に逆方向にした逆方向
パターンwuとの間で動的計画法により類似度S
((u、v)、wu)を求め、この類似度S((u、v)、
Bwu)と時間点i=v−1における類似度Dv-1と
の和を最大にする区切り点vをVnaxとして決定
すると同時に直前の単語の逆方向の始点u=
Vnax−1とする動作を行ない、入力パターンA
の始点まで順次上記動作を繰返す第2の判定手段
と、 順次得られる逆方向部分パターンの始点uの前
記終端単語Wuを逆順である音声の入力順に並べ
直して出力する順序入替手段と を備えることを特徴とする連続音声認識装置。 3 前記パターンマツチング手段は、 前記入力手段にて記憶している入力パターンA
と、前記標準パターン記憶手段にて記憶している
標準パターンBnにより、時間点qにおいて、指
定されたq、j、nより得られるaq、bn jの間の類
似度s(aq、bn j)を計算するベクトル間類似度計
算手段と、 このベクトル間類似度計算手段にて計算した類
似度s(aq、bn j)と、経路点(q、j)への到達
経路に関係する複数の経路情報により、予め定め
た漸化式を用いて最適経路を与える値を始点から
の類似度go(q、j)とし、各q、nについてP
=0に対してgo(p、0)=0、P=1〜Iに対し
てgo(p、0)=Dpと定義される初期条件のもと
にjを標準パターンのベクトル個数Joまで演算し
た結果のgo(q、Jo)を、終端をqとした部分パ
ターンA(1、q)と単語nを最終単語とした標準パ
ターンの最適な組合せによるものとの類似度Dp
+S(A(1+p、q)、Bn)として出力する漸化式計算
手段と からなることを特徴とする特許請求の範囲第1項
若しくは第2項記載の連続音声認識装置。 4 前記漸化式計算手段は、 時間点iにおいてho(i、j)=go(i−1、j
−1)+2・s(ai、bn)で定義される、時間点q
のho(q、j−1)、ho(q、j)、ho(q−1、j)
を前記複数の経路情報として出力する径路情報出
力手段と、 前記ベクトル間類似度計算手段にて計算した類
似度s(aq、bn j)と、前記経路情報出力手段から
の出力ho(q、j−1)、ho(q、j)、ho(q−1、
j)により、漸化式 go(q、j)=MAXho(q、j−1)+ s(aq、bn j) ho(q、j) ho(q−1、j)+ s(aq、bn j) を実行し、jを標準パターンのベクトル個数Joま
で演算した結果のgo(q、Jo)を終端をqとした
部分パターンA(1、q)と単語nを最終単語とした
標準パターンの最適な組合せによるものとの類似
度Dp+S(A(1+p、q)、Bn)として出力する漸化式
実行手段と からなることを特徴とする特許請求の範囲第3項
記載の連続音声認識装置。 5 前記漸化式計算手段は、 時間点iにおいてho(i、j)=go(i−1、j
−1)+2・s(ai、bn j)で定義される、時間点q
のho(q、j−1)、ho(q、j)、および時間点i
においてfo(i、j)=ho(i−1、j−1)+2・
s(ai、bn j)で定義される、時間点qのfo(q−1、
j)を前記複数の経路情報として出力する経路情
報出力手段と、 前記ベクトル間類似度計算手段にて計算した類
似度s(ai、bn j)と、前記経路情報出力手段から
の出力ho(q、j−1)、ho(q、i)、fo(q−1、
j)により、漸化式 go(q、j)=MAXho(q、j−1)+ s(aq、bn j) ho(q、j) ho(q−1、j)+ s(aq、bn j) を実行し、jを標準パターンのベクトル個数Joま
で演算した結果のgo(q、Jo)を、終端をqとし
た部分パターンA(1、q)と単語nを終端単語とし
た標準パターンの最適な組合せによるものとの類
似度Dp+S(A(1+p、q)、Bn)として出力する漸化
式実行手段と、 からなることを特徴とする特許請求の範囲第3項
記載の連続音声認識装置。
Priority Applications (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP56183635A JPS5885499A (ja) | 1981-11-18 | 1981-11-18 | 連続音声認識装置 |
| US06/427,539 US4530110A (en) | 1981-11-18 | 1982-09-29 | Continuous speech recognition method and device |
| DE19823237613 DE3237613A1 (de) | 1981-11-18 | 1982-10-11 | Spracherkennungs-verfahren und -vorrichtung fuer kontinuierliche sprache |
| DE8282110372T DE3274032D1 (en) | 1981-11-18 | 1982-11-10 | Continuous speech recognition method and device |
| EP82110372A EP0079578B1 (en) | 1981-11-18 | 1982-11-10 | Continuous speech recognition method and device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP56183635A JPS5885499A (ja) | 1981-11-18 | 1981-11-18 | 連続音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5885499A JPS5885499A (ja) | 1983-05-21 |
| JPS6336675B2 true JPS6336675B2 (ja) | 1988-07-21 |
Family
ID=16139222
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP56183635A Granted JPS5885499A (ja) | 1981-11-18 | 1981-11-18 | 連続音声認識装置 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US4530110A (ja) |
| EP (1) | EP0079578B1 (ja) |
| JP (1) | JPS5885499A (ja) |
| DE (2) | DE3237613A1 (ja) |
Families Citing this family (22)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS60179797A (ja) * | 1983-10-27 | 1985-09-13 | 日本電気株式会社 | パタンマツチング装置 |
| JPS60211498A (ja) * | 1984-04-05 | 1985-10-23 | 日本電気株式会社 | 連続音声認識装置 |
| JPS62169199A (ja) * | 1986-01-22 | 1987-07-25 | 株式会社デンソー | 音声認識装置 |
| US4831550A (en) * | 1986-03-27 | 1989-05-16 | International Business Machines Corporation | Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events |
| DE3640355A1 (de) * | 1986-11-26 | 1988-06-09 | Philips Patentverwaltung | Verfahren zur bestimmung des zeitlichen verlaufs eines sprachparameters und anordnung zur durchfuehrung des verfahrens |
| EP0441176B1 (en) * | 1990-01-25 | 1994-03-30 | Mitsubishi Jidosha Kogyo Kabushiki Kaisha | System for controlling the output power of motor vehicle |
| JPH04194999A (ja) * | 1990-11-27 | 1992-07-14 | Sharp Corp | 学習を用いた動的計画法 |
| US5438676A (en) * | 1991-05-10 | 1995-08-01 | Siemens Corporate Research, Inc. | Method for adapting a similarity function for identifying misclassified software objects |
| US5440742A (en) * | 1991-05-10 | 1995-08-08 | Siemens Corporate Research, Inc. | Two-neighborhood method for computing similarity between two groups of objects |
| EP0513652A2 (en) * | 1991-05-10 | 1992-11-19 | Siemens Aktiengesellschaft | Method for modelling similarity function using neural network |
| US5485621A (en) * | 1991-05-10 | 1996-01-16 | Siemens Corporate Research, Inc. | Interactive method of using a group similarity measure for providing a decision on which groups to combine |
| US5428788A (en) * | 1991-05-10 | 1995-06-27 | Siemens Corporate Research, Inc. | Feature ratio method for computing software similarity |
| US5317741A (en) * | 1991-05-10 | 1994-05-31 | Siemens Corporate Research, Inc. | Computer method for identifying a misclassified software object in a cluster of internally similar software objects |
| JP2692581B2 (ja) * | 1994-06-07 | 1997-12-17 | 日本電気株式会社 | 音響カテゴリ平均値計算装置及び適応化装置 |
| US6581048B1 (en) * | 1996-06-04 | 2003-06-17 | Paul J. Werbos | 3-brain architecture for an intelligent decision and control system |
| JP3625002B2 (ja) * | 1996-12-26 | 2005-03-02 | 株式会社リコー | 音声認識装置 |
| US20020147585A1 (en) * | 2001-04-06 | 2002-10-10 | Poulsen Steven P. | Voice activity detection |
| JP4858663B2 (ja) * | 2001-06-08 | 2012-01-18 | 日本電気株式会社 | 音声認識方法及び音声認識装置 |
| US20030101052A1 (en) * | 2001-10-05 | 2003-05-29 | Chen Lang S. | Voice recognition and activation system |
| US7085717B2 (en) * | 2002-05-21 | 2006-08-01 | Thinkengine Networks, Inc. | Scoring and re-scoring dynamic time warping of speech |
| US20180240466A1 (en) * | 2017-02-17 | 2018-08-23 | Intel Corporation | Speech Decoder and Language Interpreter With Asynchronous Pre-Processing |
| JP7017176B2 (ja) * | 2018-02-16 | 2022-02-08 | 日本電信電話株式会社 | 学習装置、識別装置、それらの方法、およびプログラム |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4059725A (en) * | 1975-03-12 | 1977-11-22 | Nippon Electric Company, Ltd. | Automatic continuous speech recognition system employing dynamic programming |
| JPS55157000A (en) * | 1979-05-28 | 1980-12-06 | Nippon Telegraph & Telephone | Continuous singleeword voice identifier |
| US4384273A (en) * | 1981-03-20 | 1983-05-17 | Bell Telephone Laboratories, Incorporated | Time warp signal recognition processor for matching signal patterns |
-
1981
- 1981-11-18 JP JP56183635A patent/JPS5885499A/ja active Granted
-
1982
- 1982-09-29 US US06/427,539 patent/US4530110A/en not_active Expired - Lifetime
- 1982-10-11 DE DE19823237613 patent/DE3237613A1/de not_active Withdrawn
- 1982-11-10 EP EP82110372A patent/EP0079578B1/en not_active Expired
- 1982-11-10 DE DE8282110372T patent/DE3274032D1/de not_active Expired
Also Published As
| Publication number | Publication date |
|---|---|
| DE3274032D1 (en) | 1986-12-04 |
| EP0079578B1 (en) | 1986-10-29 |
| EP0079578A1 (en) | 1983-05-25 |
| US4530110A (en) | 1985-07-16 |
| JPS5885499A (ja) | 1983-05-21 |
| DE3237613A1 (de) | 1983-05-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPS6336675B2 (ja) | ||
| US4811399A (en) | Apparatus and method for automatic speech recognition | |
| US20020065959A1 (en) | Information search method and apparatus using Inverse Hidden Markov Model | |
| JPH05127692A (ja) | 音声認識装置 | |
| JPH0159600B2 (ja) | ||
| US4426551A (en) | Speech recognition method and device | |
| US5164990A (en) | Method and apparatus for recognizing unknown spoken words and by feature extraction and comparison with reference words | |
| US4901352A (en) | Pattern matching method using restricted matching paths and apparatus therefor | |
| JP2980026B2 (ja) | 音声認識装置 | |
| JPS6360919B2 (ja) | ||
| JPH06208392A (ja) | パターン認識方法および装置 | |
| JP2964881B2 (ja) | 音声認識装置 | |
| JP2003535376A (ja) | 分類システムの反復訓練用の方法と装置 | |
| JPS5855520B2 (ja) | レンゾクオンセイニンシキソウチ | |
| Kavaler et al. | A dynamic time warp IC for a one thousand word recognition system | |
| JP3352144B2 (ja) | 音声認識装置 | |
| JPS5938599B2 (ja) | 連続音声認識装置 | |
| JP3226716B2 (ja) | 音声認識装置 | |
| JPH01298400A (ja) | 連続音声認識装置 | |
| JPS62144200A (ja) | 連続音声認識装置 | |
| JPS63183500A (ja) | 音声セグメンテ−シヨン装置 | |
| JPH0574836B2 (ja) | ||
| JPS60111300A (ja) | 連続単語音声認識方法 | |
| JPS6170595A (ja) | 音声認識方式 | |
| JPH08248984A (ja) | 音声認識方法 |