JPS5938599B2 - 連続音声認識装置 - Google Patents
連続音声認識装置Info
- Publication number
- JPS5938599B2 JPS5938599B2 JP50029891A JP2989175A JPS5938599B2 JP S5938599 B2 JPS5938599 B2 JP S5938599B2 JP 50029891 A JP50029891 A JP 50029891A JP 2989175 A JP2989175 A JP 2989175A JP S5938599 B2 JPS5938599 B2 JP S5938599B2
- Authority
- JP
- Japan
- Prior art keywords
- partial
- pattern
- similarity
- buffer
- input pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 239000013598 vector Substances 0.000 claims description 25
- 238000000034 method Methods 0.000 description 60
- 238000004364 calculation method Methods 0.000 description 13
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 241000287127 Passeridae Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007616 round robin method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000037351 starvation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Landscapes
- Image Processing (AREA)
Description
【発明の詳細な説明】
本発明は1個以上の単語を連続して発声した音声、いわ
ゆる連続音声を自動的に認識する装置に関する。
ゆる連続音声を自動的に認識する装置に関する。
音声認識装置は計算機へのデータ等の入力手段として、
または各種機械への制御情報の入力手段として人間工学
的にすぐれた特長を持つており、その実用化が各方面か
ら強く望まれている。
または各種機械への制御情報の入力手段として人間工学
的にすぐれた特長を持つており、その実用化が各方面か
ら強く望まれている。
しか、し音声認識装置の開発の現状を見るに、実用的な
性能を持つたものは区切つて発生した単語音声のみを認
識できる装置に限られている。単語毎に区)一切りを入
れることは認識システムの動作速度を低下させ、また使
用者に余分な注意を要求することになり、結果として、
このような認識装置の大きな欠点となつている。
性能を持つたものは区切つて発生した単語音声のみを認
識できる装置に限られている。単語毎に区)一切りを入
れることは認識システムの動作速度を低下させ、また使
用者に余分な注意を要求することになり、結果として、
このような認識装置の大きな欠点となつている。
他方、連続音声を認識する装置の研究も行なわれている
が、連続音声のもつ複雑な性質のため、充分な認識率で
動作する装置はまだ開発されていない。従米試みられて
いる種々の連続音声認識法では認識動作に先だつて、ま
たは認識動作中に単語、音素、または母音+子音+母音
等の認識単位(以下では代表例として単語を認識単位と
する)への区分比が必要であつた。
が、連続音声のもつ複雑な性質のため、充分な認識率で
動作する装置はまだ開発されていない。従米試みられて
いる種々の連続音声認識法では認識動作に先だつて、ま
たは認識動作中に単語、音素、または母音+子音+母音
等の認識単位(以下では代表例として単語を認識単位と
する)への区分比が必要であつた。
しかし、2個以上の単語を連続発生して得られる音声パ
タンにおいては単語間の遷移は連続的であつて明確な区
分点を決定することは本質的に困難である。よつて、区
分化を行なつて認識する従来の方法には、区分化の段階
で生じる区分点の誤差に影響されて誤認識が生じる欠点
がある。単語を基本的な認識単位としたものではないが
、「日本音響学会研究発表会講演論文集(昭和49年1
0月)のP255〜P256に゛VCV音節を単位とし
た連続単語音声の認識゛と題して発表された論文]には
VCV(Vは母音、Cは子音を意味する)音節を単位と
して連続単語音声を認識する手法が示されている。
タンにおいては単語間の遷移は連続的であつて明確な区
分点を決定することは本質的に困難である。よつて、区
分化を行なつて認識する従来の方法には、区分化の段階
で生じる区分点の誤差に影響されて誤認識が生じる欠点
がある。単語を基本的な認識単位としたものではないが
、「日本音響学会研究発表会講演論文集(昭和49年1
0月)のP255〜P256に゛VCV音節を単位とし
た連続単語音声の認識゛と題して発表された論文]には
VCV(Vは母音、Cは子音を意味する)音節を単位と
して連続単語音声を認識する手法が示されている。
確かに、この方法では単語間の区分点を陽に求める必要
はないが、VCV音節としての区分点をあらかじめ定め
る必要があり、単語単位の区分を行う場合と同様の難問
を残している。本発明は区分化の操作を積極的に回避し
、区分点誤差に影響されないで良好な認識を行う連続音
声認識装置を実現することを目的としている。
はないが、VCV音節としての区分点をあらかじめ定め
る必要があり、単語単位の区分を行う場合と同様の難問
を残している。本発明は区分化の操作を積極的に回避し
、区分点誤差に影響されないで良好な認識を行う連続音
声認識装置を実現することを目的としている。
本発明の構成を述べるに先だつて音声パタンの表現につ
いて説明する。いま第1時間点における音声の特徴を示
すパラメタをベクトルAiで示す。かくすると音声パタ
ンはAiの時系列としてと示される。ここにIは音声パ
タンAの時間長に対応する。このようなパタンAを入力
パタンとする。
いて説明する。いま第1時間点における音声の特徴を示
すパラメタをベクトルAiで示す。かくすると音声パタ
ンはAiの時系列としてと示される。ここにIは音声パ
タンAの時間長に対応する。このようなパタンAを入力
パタンとする。
次に認識されるべき単語の集合として数字を例に取り0
、1、2・・・・・・n、・・・・・・9の各数字に標
準パタンBn(n−0〜9)を設けるものとする。各標
準パタンBnはJn個の特徴ベクトルより成り、のごと
く表現するものとする。ここに、 b!1はJalと
同様な特徴ベクトルである。
、1、2・・・・・・n、・・・・・・9の各数字に標
準パタンBn(n−0〜9)を設けるものとする。各標
準パタンBnはJn個の特徴ベクトルより成り、のごと
く表現するものとする。ここに、 b!1はJalと
同様な特徴ベクトルである。
また、以下の説明でぱ各nに対して一定の処理を行なう
ことが多いので、時としてnを省略して標準パタンをで
代表することもある。
ことが多いので、時としてnを省略して標準パタンをで
代表することもある。
いま特徴ベクトルAiと1bjとの類似性の尺度として
なる量を定義し、これをAiと1bjとのベクトル間類
似度と称する。
なる量を定義し、これをAiと1bjとのベクトル間類
似度と称する。
S(1,j)の具体的形としては、たとえば、Aiと1
bjの内積によりとする例が考えられる。ベクトル間類
似度としては距離尺度のようにa・と b・が似ている
′まど1J小になる量によることもできるがその場合に
は以下で述べる最大化の操作はすべて最小化の操作でお
きかえられる。
bjの内積によりとする例が考えられる。ベクトル間類
似度としては距離尺度のようにa・と b・が似ている
′まど1J小になる量によることもできるがその場合に
は以下で述べる最大化の操作はすべて最小化の操作でお
きかえられる。
次にY個の標準パタンBn(1),Bn(2),・・・
・・・Bn(X),・・・・・・Bn(Y)を接続した
パタンをで示す。
・・・Bn(X),・・・・・・Bn(Y)を接続した
パタンをで示す。
ここに言う接続の操作?は単に各標準パタンの特徴ベク
トルを時系夕腋リとして続けて並べ・ることを意味する
。すなわち、このように接続したパタンを1個の時系列
として見た時と添字の一部を省略して示すこともある。
トルを時系夕腋リとして続けて並べ・ることを意味する
。すなわち、このように接続したパタンを1個の時系列
として見た時と添字の一部を省略して示すこともある。
この場合当然K= Jn(1)+ Jn(2)+・・・
・・・+ Jn(Y)となる。
・・・+ Jn(Y)となる。
本発明の原理はQ8)式aυ式のような接続された標準
パタンBと(2)式のような入力パタンAとのマツチン
グを行ない最適にマツチングが取れるn(1)=宜(1
),n(2)=’匍2),・・・・・・,n(X)=玉
(X),・・・・・・,n(Y)=雀(Y)を決定する
ことにより入力パタンAは単語6(1),6(2),・
・・・・・官(X)・・・・・・宙(Y)より成つてい
ると判定することにある。この場合単語の個数Yも最適
に決定する。すなわち本発明では入力パタンAを最適に
近似する標準パタンの個数とその種類を決定することに
よつて連続単語の認識を行なうものである。この原理に
よると連続音声の認識を通常の単語認識と同様の簡単な
考え方で処理できるが実際には以下に述べる2種類の困
難を伴なう。
パタンBと(2)式のような入力パタンAとのマツチン
グを行ない最適にマツチングが取れるn(1)=宜(1
),n(2)=’匍2),・・・・・・,n(X)=玉
(X),・・・・・・,n(Y)=雀(Y)を決定する
ことにより入力パタンAは単語6(1),6(2),・
・・・・・官(X)・・・・・・宙(Y)より成つてい
ると判定することにある。この場合単語の個数Yも最適
に決定する。すなわち本発明では入力パタンAを最適に
近似する標準パタンの個数とその種類を決定することに
よつて連続単語の認識を行なうものである。この原理に
よると連続音声の認識を通常の単語認識と同様の簡単な
考え方で処理できるが実際には以下に述べる2種類の困
難を伴なう。
第1の問題点は標準パタンBnを発声した時の速度と入
力パタンAを発声するときの速さが異なることである。
力パタンAを発声するときの速さが異なることである。
このためBの時間軸とAの時間軸との間のずれとなつて
現われる。時間軸のずれの例を第1図に示している。図
の1には標準パタンB=B3?B24B5を時間軸jに
沿つて示している。Bは3,4,5の部分に分れていて
3は標準パタンB3に4はB2に5はB5に対応してい
る。2には入力パタンAが時間軸iに沿つて示されてい
る。
現われる。時間軸のずれの例を第1図に示している。図
の1には標準パタンB=B3?B24B5を時間軸jに
沿つて示している。Bは3,4,5の部分に分れていて
3は標準パタンB3に4はB2に5はB5に対応してい
る。2には入力パタンAが時間軸iに沿つて示されてい
る。
入力パタンAば゜325’’(/SannigO/)を
連続発声したものであるとする。このように入力パタン
と標準パタンが同じ/ SannigO/であるとして
も両者の時間構造は異なつている。すなわち、/ Sa
n/ / Ni/ / GO/の各部の長さは異なつて
おり、また各部をさらに細分した音声/ s // a
// n // n//i// g// o /の各
部の長さも両者で異なる。よつて、たとえば/a/の部
分の位置は両者で異なる。このためiとjが等しいAi
と1bjの類似度s(I,j)−s(I,i)を全体と
して積分した量では有効な比較をすることができない。
連続発声したものであるとする。このように入力パタン
と標準パタンが同じ/ SannigO/であるとして
も両者の時間構造は異なつている。すなわち、/ Sa
n/ / Ni/ / GO/の各部の長さは異なつて
おり、また各部をさらに細分した音声/ s // a
// n // n//i// g// o /の各
部の長さも両者で異なる。よつて、たとえば/a/の部
分の位置は両者で異なる。このためiとjが等しいAi
と1bjの類似度s(I,j)−s(I,i)を全体と
して積分した量では有効な比較をすることができない。
すなわち、音声パタンにおいては各部(たとえば音素/
s // a // n /・・・・・・)の継続長
はあまり意味を持たずその生起順序が意味を持つから正
式のような各部の継続長に影響されやすい量は音声パタ
ンの比較の尺度として不適当である。
s // a // n /・・・・・・)の継続長
はあまり意味を持たずその生起順序が意味を持つから正
式のような各部の継続長に影響されやすい量は音声パタ
ンの比較の尺度として不適当である。
このため第1図に6,T,8,91で示すように各単語
は対応する標準パタンに対応づけられるように、また1
0,11で示すように各音素は標準パタンの対応する各
音素に対応づけられるようにして比較しなくてはいけな
い。
は対応する標準パタンに対応づけられるように、また1
0,11で示すように各音素は標準パタンの対応する各
音素に対応づけられるようにして比較しなくてはいけな
い。
しかし、少なくとも入力パタンでは単語の種類と単語の
間の境界は不明でありこのような対応づけをあらかじめ
定めることはむずかしい。第2の問題点はBが多種類で
きることである。
間の境界は不明でありこのような対応づけをあらかじめ
定めることはむずかしい。第2の問題点はBが多種類で
きることである。
たとえば、5桁までの連続数字音声を扱うとすると1桁
で10種、2桁で100種、3桁で1000種、4桁で
10000種、5桁で100000種で、合計1111
10種類のBができるのでそれだけの回数Aとlのマッ
チングを行なう必要がある。いま入力パタンAと、接続
された標準パタンBとの類似の度合を何らかの尺度で決
定するとしてS(A,B)と示し類似度と呼ぶ。
で10種、2桁で100種、3桁で1000種、4桁で
10000種、5桁で100000種で、合計1111
10種類のBができるのでそれだけの回数Aとlのマッ
チングを行なう必要がある。いま入力パタンAと、接続
された標準パタンBとの類似の度合を何らかの尺度で決
定するとしてS(A,B)と示し類似度と呼ぶ。
上に述べた認識法ではBを(9)式で与えるとしてなる
操作を行なつて、その最適なパラメタn(1),n(2
)・・・・・・n(7)を求めることによつて判定を行
なうものである。
操作を行なつて、その最適なパラメタn(1),n(2
)・・・・・・n(7)を求めることによつて判定を行
なうものである。
かくすると上に述べた2種の難点の第1はS(A,B)
をどのようにして時間軸のずれに影響されないように定
義し、それをいかに計算するかということである。第2
はn(1),n(2),・・・・・・,n(′Y)およ
びYに関する最大化をいかにして行なうかということで
ある。本発明の特長は動的計画法を利用して上述2種の
問題点を処理していることにある。
をどのようにして時間軸のずれに影響されないように定
義し、それをいかに計算するかということである。第2
はn(1),n(2),・・・・・・,n(′Y)およ
びYに関する最大化をいかにして行なうかということで
ある。本発明の特長は動的計画法を利用して上述2種の
問題点を処理していることにある。
先ず時間軸のずれの正規化に関して説明する。「日本音
響学会誌VOl27腐9P483〜P49Oに゛動的計
画法を利用した音声の時間正規化に基づく連続単語認識
”と題して発表された論文」には動的計画法を利用した
時間軸正規化法が示されている。ここでは上述文献の方
法を改良して利用する。いま(2)式の入力パタンAと
(5)式の標準パタンBを比較する問題について説明す
る。Bの時間軸jに対してAの時間軸1を対応させる関
数j−j(1)を定義してこの関数によつて1bjをA
iに対応させる。AとBの類似度を と定義する。
響学会誌VOl27腐9P483〜P49Oに゛動的計
画法を利用した音声の時間正規化に基づく連続単語認識
”と題して発表された論文」には動的計画法を利用した
時間軸正規化法が示されている。ここでは上述文献の方
法を改良して利用する。いま(2)式の入力パタンAと
(5)式の標準パタンBを比較する問題について説明す
る。Bの時間軸jに対してAの時間軸1を対応させる関
数j−j(1)を定義してこの関数によつて1bjをA
iに対応させる。AとBの類似度を と定義する。
ここにベクトル間類似度s(1,j(1))は→1とし
て(8)式によるものとする。(14)式はj−j(1
)によつて対応づけられるAiと Bj(1)の間のベ
クトル間類似度s(1,j(1))をiに関して積分し
た量を関数j(1)に関して最大化したものとなつてい
る。このため最大化の結果として得られるj=j(1)
によつて対応づけられるAiと1bj(1)の間のベク
トル間類似度はi=1〜Iの間で平均して見て最大にな
つている。よつてAiと Bj(1)は相互に類似した
ベクトルとなる。このことはAiと1bj(1)が同一
音素になるように対応づけられることになる。すなわち
第1図に直線6,10,11,7,8,9等で示したよ
うな対応づけが得られたことになる。なお本発明の実際
形態においては関数j−j(1)を陽の形で求める必要
はなく(自)式の最大値を得るだけで充分である。σ心
曳の最大化をj−j(1)に関する総当り法で処理した
のでは計算量の点で不可能である。よつて次のような動
的計画の手法で行なう。すなわち、初期条件のもとに漸
化式 をi−2〜1.. j−1〜Jの範囲で計算しg(,J
)を求めるとこれはa拭S(A,B)となつている。
て(8)式によるものとする。(14)式はj−j(1
)によつて対応づけられるAiと Bj(1)の間のベ
クトル間類似度s(1,j(1))をiに関して積分し
た量を関数j(1)に関して最大化したものとなつてい
る。このため最大化の結果として得られるj=j(1)
によつて対応づけられるAiと1bj(1)の間のベク
トル間類似度はi=1〜Iの間で平均して見て最大にな
つている。よつてAiと Bj(1)は相互に類似した
ベクトルとなる。このことはAiと1bj(1)が同一
音素になるように対応づけられることになる。すなわち
第1図に直線6,10,11,7,8,9等で示したよ
うな対応づけが得られたことになる。なお本発明の実際
形態においては関数j−j(1)を陽の形で求める必要
はなく(自)式の最大値を得るだけで充分である。σ心
曳の最大化をj−j(1)に関する総当り法で処理した
のでは計算量の点で不可能である。よつて次のような動
的計画の手法で行なう。すなわち、初期条件のもとに漸
化式 をi−2〜1.. j−1〜Jの範囲で計算しg(,J
)を求めるとこれはa拭S(A,B)となつている。
すなわちA5)、06)、a試の計算の様子を第2図に
よつて説明する。
よつて説明する。
第2図aは第1図のように時系列であられされるパタン
AとBを互に直交するi軸とj軸に沿つて示したもので
ある。すなわち、1は標準パタンBをIbjの系列とし
てj軸に沿つて、2は入力パタンAをAiの時系列とし
てi軸に沿つて示している。かくするとiとjの対応を
つけることは第2図のi−j平面上に点(1,j)の列
をとり22に示す(1、1)点より始まつて23に示す
(1.J)点に至るようにすることに対応する。A3)
式に現われるj−j(1)の一価性を保証するために隣
りあう点(1,j(1))と(1−1,j(1−1))
の間には第2図BVC示すような3種の関係のみを許す
ものとする。
AとBを互に直交するi軸とj軸に沿つて示したもので
ある。すなわち、1は標準パタンBをIbjの系列とし
てj軸に沿つて、2は入力パタンAをAiの時系列とし
てi軸に沿つて示している。かくするとiとjの対応を
つけることは第2図のi−j平面上に点(1,j)の列
をとり22に示す(1、1)点より始まつて23に示す
(1.J)点に至るようにすることに対応する。A3)
式に現われるj−j(1)の一価性を保証するために隣
りあう点(1,j(1))と(1−1,j(1−1))
の間には第2図BVC示すような3種の関係のみを許す
ものとする。
先のA5)式は第2図aの点22における初期条件を与
えるものである。06)の漸化式ではg(1−1,j)
とg(1−1,j一1)とg(1−1,j−2)の3種
の値を比較してその最大なものにs(1,j)を加えて
新たにg(I,j)とする手続きを行なうものである。
えるものである。06)の漸化式ではg(1−1,j)
とg(1−1,j一1)とg(1−1,j−2)の3種
の値を比較してその最大なものにs(1,j)を加えて
新たにg(I,j)とする手続きを行なうものである。
すなわち、第2図bで説明すると、31,32,33の
点におけるgの値を比較してそれらの最大値に30にお
けるs(I,j)の値を加算し新たに30におけるg(
I,j)としている。このような手続によつて(1、1
)点より( i)j)点に至る点列におけるs(I,j
)の値の和を最大にした量が得られることは動的計画法
の原理によつて保証される。
点におけるgの値を比較してそれらの最大値に30にお
けるs(I,j)の値を加算し新たに30におけるg(
I,j)としている。このような手続によつて(1、1
)点より( i)j)点に至る点列におけるs(I,j
)の値の和を最大にした量が得られることは動的計画法
の原理によつて保証される。
すなわちがすべてのiについて、jに関して漸化的に求
まる。
まる。
よつてj = J,i=Iの点までA6)の漸化式を計
算し止式の値を求めて行くとが求まるがこれはu拭と一
致し目的とする類似度の値S(A,B)となつている。
算し止式の値を求めて行くとが求まるがこれはu拭と一
致し目的とする類似度の値S(A,B)となつている。
実際の時間軸のずれを観察して見ると通常50%も時間
軸がずれることはない。
軸がずれることはない。
よつてi=jなる直続の近傍に直線25,26で示す間
の領域内で考えると充分である。それ故の範囲で0eの
漸化式を計算するものとする。
の領域内で考えると充分である。それ故の範囲で0eの
漸化式を計算するものとする。
以下ではこの領域を整合窓と称する。以上のごとくU4
)式によつて定義されaω、A6)、An)12拭によ
つて計算される類似度S(A,B)は音声の時間軸のず
れを正規化する方法として優れていることが実験的に確
かめられている。
)式によつて定義されaω、A6)、An)12拭によ
つて計算される類似度S(A,B)は音声の時間軸のず
れを正規化する方法として優れていることが実験的に確
かめられている。
しかし、この方法を直接1試に適用することは計算量の
点で大きな問題がある。それは、Q3l式の最大化を直
接行なおうとすると、先に第2の問題点として述べたよ
うに、Bの種類が多くなり、それだけS(A,B)を計
算する処理量が増加するからである。本発明ではQ試の
最大化を2段に分割して行なう。
点で大きな問題がある。それは、Q3l式の最大化を直
接行なおうとすると、先に第2の問題点として述べたよ
うに、Bの種類が多くなり、それだけS(A,B)を計
算する処理量が増加するからである。本発明ではQ試の
最大化を2段に分割して行なう。
いま入力パタンAの第1時間点(i=1)より始まり第
m時間点(i=m)で終る部分をA(1,m)で示す。
すなわち、以下では工を始点と称しmを終点と称する。
m時間点(i=m)で終る部分をA(1,m)で示す。
すなわち、以下では工を始点と称しmを終点と称する。
入力パタンAをY個の部分に分割すると、と表現される
。
。
ここに、4の演算子の意味は(9)式と同じである。C
9O式のAをA9)式の毛と比較するときBn(1)は
A(1,1(1))に対応させ、−般にBn閃はA(l
(x−,)+1,1(殉)に対応させ最後にBn(Y)
はA(l( Y−1),I)に対応させるも>のとする
。
9O式のAをA9)式の毛と比較するときBn(1)は
A(1,1(1))に対応させ、−般にBn閃はA(l
(x−,)+1,1(殉)に対応させ最後にBn(Y)
はA(l( Y−1),I)に対応させるも>のとする
。
このときl(1),l(2)・・・・・・l(Y−1
)の区切り点は未定であるので、QO)、ロカ式を旦式
に代入するにあたつてはl(1),l(2),・・・・
・・1(Y−1)も最適化する必要があり、α』式は次
のように書きかえられる。すなわちY:n(1),n(
2),・・・・・・n(Y):l(1),1(2),・
・・・・・1(Y−1)のすべてのパラメータについて
最適化を必要とすることになる。
)の区切り点は未定であるので、QO)、ロカ式を旦式
に代入するにあたつてはl(1),l(2),・・・・
・・1(Y−1)も最適化する必要があり、α』式は次
のように書きかえられる。すなわちY:n(1),n(
2),・・・・・・n(Y):l(1),1(2),・
・・・・・1(Y−1)のすべてのパラメータについて
最適化を必要とすることになる。
しかしI式で定義した類似度S(A,B)は加法的な量
であるの一四試は分解されて次のようになる。すなわち
、となる。
であるの一四試は分解されて次のようになる。すなわち
、となる。
ここにl(o)= 01(Y)=Iとする。F2飢C2
5)式では最初に各A(l(X−,)月,1)の部分に
ついてBn〆)( n(x)= 0 〜 9)との類似
度S( A(l(X −,)+1,1(X)),Bn(
X))を計算し、その最大となるnをn(Xとして求め
、次にY,l(1),l(2)・・・・・・I(Y−1
)に関して類似度の総和を最大にすることになる。S(
A(l(X −,)+1,1(X)),Bn内)なる
入力パタンの一部A(I(x−1 )+1,1(x))
に関する類似度であるので以下では部分類似度と称する
。
5)式では最初に各A(l(X−,)月,1)の部分に
ついてBn〆)( n(x)= 0 〜 9)との類似
度S( A(l(X −,)+1,1(X)),Bn(
X))を計算し、その最大となるnをn(Xとして求め
、次にY,l(1),l(2)・・・・・・I(Y−1
)に関して類似度の総和を最大にすることになる。S(
A(l(X −,)+1,1(X)),Bn内)なる
入力パタンの一部A(I(x−1 )+1,1(x))
に関する類似度であるので以下では部分類似度と称する
。
本発明で用いる所の口ω式の計算手順は大路次のようで
ある。(I) 1≦1<m≦Iなるすべての(1,m)
の組合せについて、すべてのnに関してS(A(1,m
),Bn)を計算しその最大となるnをn<I,m>(
以下部分判定結果と称する)とし、最大値をS<1,m
>(以下部分類似度と称する)としてテーブル状に記憶
する(これですう固式のn(x)に関する最大化を実行
したことになる)。
ある。(I) 1≦1<m≦Iなるすべての(1,m)
の組合せについて、すべてのnに関してS(A(1,m
),Bn)を計算しその最大となるnをn<I,m>(
以下部分判定結果と称する)とし、最大値をS<1,m
>(以下部分類似度と称する)としてテーブル状に記憶
する(これですう固式のn(x)に関する最大化を実行
したことになる)。
次に1(1),1(2)・・・・・・1(Y−1 )お
よびYを最適に定めてを最大にする。
よびYを最適に定めてを最大にする。
この最適パラメータl(1),l(2)・・.・・.l
( Y−1 )、およびYを工(l),I(2),.・
....△八l( Y−1)、 およびYとして記憶す
る(これで(25)式のY,工(I),1(2)・・・
・・・工(Y−1)に関する最適化を行なつたことにな
る。
( Y−1 )、およびYを工(l),I(2),.・
....△八l( Y−1)、 およびYとして記憶す
る(これで(25)式のY,工(I),1(2)・・・
・・・工(Y−1)に関する最適化を行なつたことにな
る。
)以上の(I)、(ルの手続きによつて四式の最大化は
完了するのであるが認識結果を得るには次の手続きが必
要である。
完了するのであるが認識結果を得るには次の手続きが必
要である。
(I!Jn<1,m>のテーブルを参照してを認識結果
とする。
とする。
(I)、(M,佃の手続きによつて入力パタンAを認識
することが本発明の大きな特徴である。
することが本発明の大きな特徴である。
この方法によると全体の計算量はほぼ手続き(I)によ
つて占められるがその量は大体入力パタン長の自乗、す
なわち12に比例し、かつカテゴリ数Nに比例すること
になる。しかし先のQ争式を総当り法によつてn(1)
,n(2)・・・・・・n(Y)に関して最適化する方
法では処理量はほぼNYに比例し、かつ入力パタン長I
と、それに含まれる単語数Yとがほぼ比例すると考える
とNIに比例することになり、NやIが大なる場合には
本発明で採用した(I)、(10、正の手続による方が
格段に少ない処理量で実行できる。本発明の別な大きな
特徴は手続田の計算量をさらに低減するものである。S
(A(1,m),Bn)の計算はA(1,m)を(2)
式のAに対応させBnを(5)式のBに対応させてQ5
)、06)、Qnの手続を実行することによつて求める
。このときQω式の初期条件はとなり、A6)式の漸化
式は の範囲で行なう。
つて占められるがその量は大体入力パタン長の自乗、す
なわち12に比例し、かつカテゴリ数Nに比例すること
になる。しかし先のQ争式を総当り法によつてn(1)
,n(2)・・・・・・n(Y)に関して最適化する方
法では処理量はほぼNYに比例し、かつ入力パタン長I
と、それに含まれる単語数Yとがほぼ比例すると考える
とNIに比例することになり、NやIが大なる場合には
本発明で採用した(I)、(10、正の手続による方が
格段に少ない処理量で実行できる。本発明の別な大きな
特徴は手続田の計算量をさらに低減するものである。S
(A(1,m),Bn)の計算はA(1,m)を(2)
式のAに対応させBnを(5)式のBに対応させてQ5
)、06)、Qnの手続を実行することによつて求める
。このときQω式の初期条件はとなり、A6)式の漸化
式は の範囲で行なう。
また口ωの整合窓条件は、始点が(1,1)であること
から次のようになる。結局(29)、(30).G1め
範囲で行なうことになる。これを第2図と同様な第3図
で示すと、図中に斜線で囲んで示した範囲の中のi=l
からi=mの部分で行うということになる。すなわち、
この範囲で計算してi=l(図の41点)を始点としi
=mを終点とする入力パタンA(1,m)とBnとの類
似度S(A(1,m),Bn)が1個求まる。いま、3
0の条件式を次のように変更して考える。かくすると、
凶、GD.(3試は第3図に斜線で囲んで示す範囲でA
e式の漸化式を計算することになる。
から次のようになる。結局(29)、(30).G1め
範囲で行なうことになる。これを第2図と同様な第3図
で示すと、図中に斜線で囲んで示した範囲の中のi=l
からi=mの部分で行うということになる。すなわち、
この範囲で計算してi=l(図の41点)を始点としi
=mを終点とする入力パタンA(1,m)とBnとの類
似度S(A(1,m),Bn)が1個求まる。いま、3
0の条件式を次のように変更して考える。かくすると、
凶、GD.(3試は第3図に斜線で囲んで示す範囲でA
e式の漸化式を計算することになる。
以下ではこの斜線の部分を整合窓と称する。その結果j
= Jnなる直線の点46で示すi=Jn−γ+l−
1から点4Tで示すi=Jn+γ+l−1までの区間4
5ではg(I,Jn)がすべて求まる。これらはA7成
の意味より明らかなようにA(1,i)とBnの類似度
S(A(1,i),Bn):(Jn−γ+1−1≦i≦
Jn+γ+ l−1)となつている。この変数iをmに
対応させて考えるとS(A(1,m),Bn)がの範囲
ですべて求まつたことになる。
= Jnなる直線の点46で示すi=Jn−γ+l−
1から点4Tで示すi=Jn+γ+l−1までの区間4
5ではg(I,Jn)がすべて求まる。これらはA7成
の意味より明らかなようにA(1,i)とBnの類似度
S(A(1,i),Bn):(Jn−γ+1−1≦i≦
Jn+γ+ l−1)となつている。この変数iをmに
対応させて考えるとS(A(1,m),Bn)がの範囲
ですべて求まつたことになる。
このように(3(j)の条件をG試に変更して終端を開
放した結果1個の1に関して対応づけられる多数個(2
γ+1個)のmに対してS(A(1,m),Bn)が同
時に計算されることになり、(1,m)を固定して(至
)の条件でS(A(1,m),Bn)を1個ずつ計算す
るのに比して必要な処理量は1/(2γ+1)に低減さ
れた。
放した結果1個の1に関して対応づけられる多数個(2
γ+1個)のmに対してS(A(1,m),Bn)が同
時に計算されることになり、(1,m)を固定して(至
)の条件でS(A(1,m),Bn)を1個ずつ計算す
るのに比して必要な処理量は1/(2γ+1)に低減さ
れた。
しかも1個のlに対してはo試の範囲のmだけを計算す
ればよいと考えられる。なぜならば、(3試は(3試よ
り、さらにさかのぼるとF2試より導かれたものである
が、F2゜式の説明で述べたごとく、音声の時間軸のず
れは±γ点以下と仮定しているので、Bnに対応づけら
れるA(1,m)の終端としては(3試の範囲で充分で
あると言えるからである。よつてlを1より順次増加せ
しめて、すなわち第3図の整合窓を右にずらして、各1
に対応して酊ゆmの範囲でs( A(1,m),Bn)
を順次求めると必要充分な(1,m)に関してS(A(
1,m),Bn)が得られる。
ればよいと考えられる。なぜならば、(3試は(3試よ
り、さらにさかのぼるとF2試より導かれたものである
が、F2゜式の説明で述べたごとく、音声の時間軸のず
れは±γ点以下と仮定しているので、Bnに対応づけら
れるA(1,m)の終端としては(3試の範囲で充分で
あると言えるからである。よつてlを1より順次増加せ
しめて、すなわち第3図の整合窓を右にずらして、各1
に対応して酊ゆmの範囲でs( A(1,m),Bn)
を順次求めると必要充分な(1,m)に関してS(A(
1,m),Bn)が得られる。
lの上限は次のように決定される。
第3図に50で示す点よりlが大だとmはすべてIより
大となり無意味となるので1は点50までで充分である
。この50点のi座標は であるのでlは1からL(I)まで考えればよい。
大となり無意味となるので1は点50までで充分である
。この50点のi座標は であるのでlは1からL(I)まで考えればよい。
このような考えでS(A(工,m),Bn)を算出する
と、手続(I)の(至)、AOで与えられる動的計画法
計算の処理量はだいたいN×工に比例することになり先
に示したNXI2に比すると大幅に低減される。以上の
手続(I)に関する部分を整理し、s<1,m>,n<
工,m>のテーブルを作成するまでの詳細を示すと次の
ようである。
と、手続(I)の(至)、AOで与えられる動的計画法
計算の処理量はだいたいN×工に比例することになり先
に示したNXI2に比すると大幅に低減される。以上の
手続(I)に関する部分を整理し、s<1,m>,n<
工,m>のテーブルを作成するまでの詳細を示すと次の
ようである。
(I−1) S<1,m>のテーブルをすべてoでクリ
アする。
アする。
n=0とする。
(I−2) l=1とする。
(I−3) (至)式を初期条件とし、凶、(311.
C30の範囲で漸化式AOを計算し、をG試の範囲のm
に関して求める。
C30の範囲で漸化式AOを計算し、をG試の範囲のm
に関して求める。
m= Jn−γ+l−1とする。
(I−4) S(A(1,m),Bn)≦s<1,m>
ならば(I−5)へ行くS( A(1,m),Bn)>
s<1,m>ならばs<1,m>=S(A(1,m),
Bn)n<1,m>=nとする。
ならば(I−5)へ行くS( A(1,m),Bn)>
s<1,m>ならばs<1,m>=S(A(1,m),
Bn)n<1,m>=nとする。
( I−5 ) m=m+1とする。
m≦Jn+γ+l−1ならば(I−4)へ行く。
m>Jn+γ+l−1ならば(I−6)へ行く。( I
−6) l=1+1とする。l≦L(I)(L(I)は
(3拭)ならば(I−3)へ行く。
−6) l=1+1とする。l≦L(I)(L(I)は
(3拭)ならば(I−3)へ行く。
1>L(I)ならば(I−7)へ行く。
(I−7) n=n+1とする。
n=9(数字の場合、一般にはN−1)ならば(I−2
)へ行く。
)へ行く。
n>9(数字の場合、一般にはN−1)ならば手続(I
)は終了とする。
)は終了とする。
以上の手続(I−1)から(I−7)までは本発明の装
置の動作原理の一部の説明を明確にするために示したも
のであつて本発明が方法に関する発明であることを主張
するものではない。
置の動作原理の一部の説明を明確にするために示したも
のであつて本発明が方法に関する発明であることを主張
するものではない。
また上εの手続(I−1)から(I−7)ではlに関す
る繰返しをnに関する繰返しより先にしたが、その逆で
あつてもさしつかえない。さらには各nすなわち各数字
に対して独立に動作するような手段で並列的に部分類似
度を算出する構成も可能である。次に手続(Wの詳細を
説明する。手続(mでは上に述べた手続(I)で得られ
た部分類似度のテーブルs<1,m>をもとにして区切
り点l(1)=↑(1),・・・・・・,l(x)=
l(X),・・・・・・1( Y−1 )=l( Y−
,)とその個数Yを最適に定めて口0式を最大にする。
Yが少ないと想定されるときは総当り法によつて行なつ
てもよいであろうが、Yが大、すなわちAに含まれる単
語数が犬になると1(l)・・・・・・1(Y−1)の
組合せが大となり多大な処理量が必要となる。よつてこ
こでは前記の「日本音響学会研究発表会講演論文集、P
256(昭和49年10月)」に記載されている方法を
利用し、やはり動的計画法によつて処理する。いま、な
る量を定義する。
る繰返しをnに関する繰返しより先にしたが、その逆で
あつてもさしつかえない。さらには各nすなわち各数字
に対して独立に動作するような手段で並列的に部分類似
度を算出する構成も可能である。次に手続(Wの詳細を
説明する。手続(mでは上に述べた手続(I)で得られ
た部分類似度のテーブルs<1,m>をもとにして区切
り点l(1)=↑(1),・・・・・・,l(x)=
l(X),・・・・・・1( Y−1 )=l( Y−
,)とその個数Yを最適に定めて口0式を最大にする。
Yが少ないと想定されるときは総当り法によつて行なつ
てもよいであろうが、Yが大、すなわちAに含まれる単
語数が犬になると1(l)・・・・・・1(Y−1)の
組合せが大となり多大な処理量が必要となる。よつてこ
こでは前記の「日本音響学会研究発表会講演論文集、P
256(昭和49年10月)」に記載されている方法を
利用し、やはり動的計画法によつて処理する。いま、な
る量を定義する。
すなわち入力パタンAの始端よりi=kなる点までを最
適に区切つてY(K)個の区切り点l(1),1(2)
,・・・・・・,l(Y(K))を定めてs<l(x−
1),l(x)>の総和を最大にした量をT(K)とす
る。ここにl(o)=1,1( Y(K))= Kとす
るのは四、F2O式のときと同様である。かくするとT
聞は初期条件漸化式 によつて順次計算できk=Iとなる最終状態において0
0式のTの最大化が完了する。
適に区切つてY(K)個の区切り点l(1),1(2)
,・・・・・・,l(Y(K))を定めてs<l(x−
1),l(x)>の総和を最大にした量をT(K)とす
る。ここにl(o)=1,1( Y(K))= Kとす
るのは四、F2O式のときと同様である。かくするとT
聞は初期条件漸化式 によつて順次計算できk=Iとなる最終状態において0
0式のTの最大化が完了する。
ここで必要なのはTの最大値ではなくて最適な,/ゝ、
/ゝl(l),l(2)・・・・・・l( Y−1
)であるがこれば,の漸化式の計算時に口試の右辺の最
適なhをh(k)( k = 1、2、・・・・・・I
)として記憶しておくとを初期値として として順次逆順に1’(X)=0となるまで求まる。
/ゝl(l),l(2)・・・・・・l( Y−1
)であるがこれば,の漸化式の計算時に口試の右辺の最
適なhをh(k)( k = 1、2、・・・・・・I
)として記憶しておくとを初期値として として順次逆順に1’(X)=0となるまで求まる。
最後のXがY+1に対応するのでこれによつて単語数Y
も定まる。よつてl’1,1),192)・・・・・・
工′(Y+1)の順序を逆転すると求める、l(o),
l(1)・・・・・・ l(Y)が得られる。なお、当
然↑(0)=1,↑(Y)=Iとなる。以上で(Wの手
続が完了するが本発明では手続(10単独に関しては何
ら新規性を主張しない。本発明の新規性は手続(I)の
部分にあり、さらには手続(I)、(W、叫の組合せに
あるのである。以上の手続(YDによつて得られる1(
0),l(1)・・・・・・↑(Y)と手続(I)によ
つてすでに得られている部分判定結果テーブルn<1,
m>をもとにして手続叫を実行することによつて最終的
には認式結果が得られる。たとえばAの第X単語はとし
て得られる。
も定まる。よつてl’1,1),192)・・・・・・
工′(Y+1)の順序を逆転すると求める、l(o),
l(1)・・・・・・ l(Y)が得られる。なお、当
然↑(0)=1,↑(Y)=Iとなる。以上で(Wの手
続が完了するが本発明では手続(10単独に関しては何
ら新規性を主張しない。本発明の新規性は手続(I)の
部分にあり、さらには手続(I)、(W、叫の組合せに
あるのである。以上の手続(YDによつて得られる1(
0),l(1)・・・・・・↑(Y)と手続(I)によ
つてすでに得られている部分判定結果テーブルn<1,
m>をもとにして手続叫を実行することによつて最終的
には認式結果が得られる。たとえばAの第X単語はとし
て得られる。
以上述べた手続(1)、(3)、を実行することが本発
明の骨子であるから、本発明の音声認識装置は次のよう
な各部を必要とする。
明の骨子であるから、本発明の音声認識装置は次のよう
な各部を必要とする。
すなわち(1)入力パタンAの全体または一部を保持す
るための入カパタンバツフア(2)標準パタンBnを所
用個数保持するための標準パタン記憶音艮(3)手続(
1)における類似度S(A(1,m),Bn)を(28
).A6)、(3拭によつて(3試の範囲のmに対して
算出する部分マツチング部、(4培じ分類似度S〈1,
m〉の所用個数をテーブルとして記憶するための部分類
似度バツフア(4培じ分判定結果n〈1,m〉をテーブ
ルとして記憶するための部分判定結果バツフア、(5)
S(A(1,m),Bn)をもとに手続(1−4)、(
1−5)を実行してS〈1,m〉のテーブルとn<1,
m〉のテーブルを作成するための部分判定部、(6)手
続(1)を実行するための全体マツチング部、(7)手
続を実行するための全体判定部をその主要部とし、別に
(8)以上の各部を制御するための制御部と、(9)入
力音声を分析して特徴ベクトルの時系列として入力パタ
ンAを作成するための入力部とを有する。以上述べた原
理による認識方法は非常に有効であることが計算機実験
によつて確認されている。
るための入カパタンバツフア(2)標準パタンBnを所
用個数保持するための標準パタン記憶音艮(3)手続(
1)における類似度S(A(1,m),Bn)を(28
).A6)、(3拭によつて(3試の範囲のmに対して
算出する部分マツチング部、(4培じ分類似度S〈1,
m〉の所用個数をテーブルとして記憶するための部分類
似度バツフア(4培じ分判定結果n〈1,m〉をテーブ
ルとして記憶するための部分判定結果バツフア、(5)
S(A(1,m),Bn)をもとに手続(1−4)、(
1−5)を実行してS〈1,m〉のテーブルとn<1,
m〉のテーブルを作成するための部分判定部、(6)手
続(1)を実行するための全体マツチング部、(7)手
続を実行するための全体判定部をその主要部とし、別に
(8)以上の各部を制御するための制御部と、(9)入
力音声を分析して特徴ベクトルの時系列として入力パタ
ンAを作成するための入力部とを有する。以上述べた原
理による認識方法は非常に有効であることが計算機実験
によつて確認されている。
第4図に示す第1の実施例には以上の各部の接続をプロ
ツク図で示している。図において61は入力部であり、
信号1nで与えられる入力音声をQチヤンネルの分析フ
イルタにより周波数分析して各チヤンネルの出力レベル
を時間標本化して特徴ベクトルAi−(All,.a2
ll゜゜゜゜゜゜aQi)を構成して信号a′としてi
=1より順次出力する。62は入カパタンバツフアであ
つて61より順次与えられるAiの所用個数を一時保持
する。
ツク図で示している。図において61は入力部であり、
信号1nで与えられる入力音声をQチヤンネルの分析フ
イルタにより周波数分析して各チヤンネルの出力レベル
を時間標本化して特徴ベクトルAi−(All,.a2
ll゜゜゜゜゜゜aQi)を構成して信号a′としてi
=1より順次出力する。62は入カパタンバツフアであ
つて61より順次与えられるAiの所用個数を一時保持
する。
ここでは簡単のために音声の始端においてi−1とし、
終端をi=Iとするとき、A=a1、A2・・・・・・
Ai・・・・・・aのすべての特徴ベクトルを保持する
ものとする。なお、Aに含まれるベクトルAiの個数は
入力部61によつて決定される。入力部は終端を決定す
ると信号uを発して入力パタンの分析が終了したことを
信号すると同時にベクトル個数Iも信号11として出力
する。63は標準パタン記憶部であつて(3)s(4)
の形式で表現される標準パタンBn(n−011、・・
・・・・、9)を記憶しており、制闘信号n1によつて
nが指定されるとnに対応するBnを信号blとして出
力する。
終端をi=Iとするとき、A=a1、A2・・・・・・
Ai・・・・・・aのすべての特徴ベクトルを保持する
ものとする。なお、Aに含まれるベクトルAiの個数は
入力部61によつて決定される。入力部は終端を決定す
ると信号uを発して入力パタンの分析が終了したことを
信号すると同時にベクトル個数Iも信号11として出力
する。63は標準パタン記憶部であつて(3)s(4)
の形式で表現される標準パタンBn(n−011、・・
・・・・、9)を記憶しており、制闘信号n1によつて
nが指定されるとnに対応するBnを信号blとして出
力する。
64は部分マツチング部であつて62に保持されている
入力パタンAと、63より与えられる標準パタンBnの
間で、先に述べた手続(1−3)を実行して部分パタン
A(1,m)とBnとの類似度S(A(1,m),Bn
)を算出する。
入力パタンAと、63より与えられる標準パタンBnの
間で、先に述べた手続(1−3)を実行して部分パタン
A(1,m)とBnとの類似度S(A(1,m),Bn
)を算出する。
なお、mの(3試に示す範囲ですべてのS(A(1,m
),Bn)が同時に求まることは手続()に関する説明
に述べたとおりである。65は部分判定部であつて64
で計算されるS(A(1,m),Bn)をもとにして手
続(1−4)と(1−5)を実行する。
),Bn)が同時に求まることは手続()に関する説明
に述べたとおりである。65は部分判定部であつて64
で計算されるS(A(1,m),Bn)をもとにして手
続(1−4)と(1−5)を実行する。
66は部分類似度バツフアであつて65で実行される手
続(1−4)で算出されるS<1,m〉を1,mに関す
るテーブル状に記憶する。
続(1−4)で算出されるS<1,m〉を1,mに関す
るテーブル状に記憶する。
67は部分判定結果バツフアであつてやはり65で実行
される手続(1−4)で決定されるn<1,m〉を1,
mに関するテーブル状に記憶する。
される手続(1−4)で決定されるn<1,m〉を1,
mに関するテーブル状に記憶する。
68は全体マツチング部であつて先に述べた手続(10
を実行する。
を実行する。
69は全体判定部であつて先に述べた手続を実行する。
60は制御部であつて各種の信号を発することによつて
61〜69の各部の動作を制御する。
61〜69の各部の動作を制御する。
以上の各部の動作の概略は次のようである。
入力部61と入カパタンバツフア62の動作は先に述べ
たごとくであるので、入カパタンバツフア62に入力パ
タンが入力され終つたことを示す信号uと入力パタン長
(ベクトルの個数)Iを示す信号11が制御部60に送
られた時点以後について述べる。制御部60は最初に部
分類似度バツフア67のすべてのSく1,m〉を制御信
号C1によつてOにりセツトし、かつn−0、1、2・
・・・・・9を順次信号nlとして指定する。
たごとくであるので、入カパタンバツフア62に入力パ
タンが入力され終つたことを示す信号uと入力パタン長
(ベクトルの個数)Iを示す信号11が制御部60に送
られた時点以後について述べる。制御部60は最初に部
分類似度バツフア67のすべてのSく1,m〉を制御信
号C1によつてOにりセツトし、かつn−0、1、2・
・・・・・9を順次信号nlとして指定する。
標準パタンバツフアは信号nlで指定されるnに対応し
て標準バタンBnを信号b1として出力する。制御部6
0は各nに対してl−1、2、・・・・・・L(1)、
(L(1)は(財)式)を信号11として指定する。部
分マツチング部64は信号alとして与えられる入力パ
タンAと、信号b1として与えられる標準パタンBnの
間で先に述べた手続(1−3)を実行して(3試の範囲
のmに対してs(A(1,m),Bn)を算出する。部
分パタンA(1,m)の始端を示すlは信号11として
与えられる。
て標準バタンBnを信号b1として出力する。制御部6
0は各nに対してl−1、2、・・・・・・L(1)、
(L(1)は(財)式)を信号11として指定する。部
分マツチング部64は信号alとして与えられる入力パ
タンAと、信号b1として与えられる標準パタンBnの
間で先に述べた手続(1−3)を実行して(3試の範囲
のmに対してs(A(1,m),Bn)を算出する。部
分パタンA(1,m)の始端を示すlは信号11として
与えられる。
部分判定部65は64より与えられるS(A(1,m)
,Bn)と信号nlとして与えられるn1信号11とし
て与えられる11信号mlとして(3試の範囲で与えら
れるmおよび部分類似度バツフアより読み出されるS<
1,m〉をもとにして手続(1−4)、(1一5)を実
行し部分類似度バツフア66のS〈1,m〉と部分判定
結果テーブル67のn<1,m〉を修正する。信号V1
として与えられるl=1、2、・・・・・・L(1)の
すべてについて以上の処理が終了するとnを1づつ変化
させる。nが9まで動作すると手続(1)がすべて終了
したことになる。制御部60はn=9までの動作がすべ
て終ると、そのことを示す信号U(第4図中省略)と入
力パタン長(ベクトルの個数1)を示す信号12を全体
マツチング部68に送る(第4図中省略)。68は66
に保持されるS<1,m〉のテーブルをもとにして獣を
初期値とし(3V.の漸化式をk=1、2、・・・・・
・Iに関して計算しT(k)のテーブルを作成し、それ
をもとにしてl′(x)のテーブルおよび?を(40)
.(4試によつて算出しその順序を逆転することによつ
て↑(0),↑(1),・・・・・・↑轟を算出し、信
号↑として全体判定部69に送る。
,Bn)と信号nlとして与えられるn1信号11とし
て与えられる11信号mlとして(3試の範囲で与えら
れるmおよび部分類似度バツフアより読み出されるS<
1,m〉をもとにして手続(1−4)、(1一5)を実
行し部分類似度バツフア66のS〈1,m〉と部分判定
結果テーブル67のn<1,m〉を修正する。信号V1
として与えられるl=1、2、・・・・・・L(1)の
すべてについて以上の処理が終了するとnを1づつ変化
させる。nが9まで動作すると手続(1)がすべて終了
したことになる。制御部60はn=9までの動作がすべ
て終ると、そのことを示す信号U(第4図中省略)と入
力パタン長(ベクトルの個数1)を示す信号12を全体
マツチング部68に送る(第4図中省略)。68は66
に保持されるS<1,m〉のテーブルをもとにして獣を
初期値とし(3V.の漸化式をk=1、2、・・・・・
・Iに関して計算しT(k)のテーブルを作成し、それ
をもとにしてl′(x)のテーブルおよび?を(40)
.(4試によつて算出しその順序を逆転することによつ
て↑(0),↑(1),・・・・・・↑轟を算出し、信
号↑として全体判定部69に送る。
先に述べたように↑(0)=1↑間=Iとなつているの
で、全体判定部では↑(X)と、部分判定結果バツフア
67に記憶されるn<1,m〉をもとにして(5)式の
ごとくして認識結果を算出し賞として出力する。以上述
べた実施例は本発明の一構成例を示したものであつて何
ら本発明の範囲を限定するものではない。特に第4図の
64,65,66、および60,62,63の構成と動
作に関しては64の部分をnに関して並列化することに
より高速化することができる。また以上の説明では62
には入力パタンAの全体が保持され、その後認識のため
の動作が始まるものとして説明したが、入力パタンAが
62に入力されつつある時点で63,64,65,66
,67の各部を実時間に動作させAを処理することによ
り、入カパタンバツフア62の容量を縮小できる。この
場合には、先に手続(1−1)〜(1−5)の説明のと
き述べたようにnに関する繰り返しを1に関する繰り返
しより優先するか、または64の部分をnに関して並列
化する必要がある。また、部分類似度バツフア66はS
<1,m〉をすべての1,mの組合せに関して記憶する
必要はない。
で、全体判定部では↑(X)と、部分判定結果バツフア
67に記憶されるn<1,m〉をもとにして(5)式の
ごとくして認識結果を算出し賞として出力する。以上述
べた実施例は本発明の一構成例を示したものであつて何
ら本発明の範囲を限定するものではない。特に第4図の
64,65,66、および60,62,63の構成と動
作に関しては64の部分をnに関して並列化することに
より高速化することができる。また以上の説明では62
には入力パタンAの全体が保持され、その後認識のため
の動作が始まるものとして説明したが、入力パタンAが
62に入力されつつある時点で63,64,65,66
,67の各部を実時間に動作させAを処理することによ
り、入カパタンバツフア62の容量を縮小できる。この
場合には、先に手続(1−1)〜(1−5)の説明のと
き述べたようにnに関する繰り返しを1に関する繰り返
しより優先するか、または64の部分をnに関して並列
化する必要がある。また、部分類似度バツフア66はS
<1,m〉をすべての1,mの組合せに関して記憶する
必要はない。
なぜならば1個のlに対しては(3′F.の範囲のmし
か必要でないからである。よつて66では第5図に斜線
をほどこした範囲でS<1,m〉を記憶すればよい。な
お、第5図の70の座標M1と、71の座標M2は(3
試より次のように定まる。このようにして必要なS<1
,m〉のみを記憶することにすると66の記憶容量は格
段に低減できる。
か必要でないからである。よつて66では第5図に斜線
をほどこした範囲でS<1,m〉を記憶すればよい。な
お、第5図の70の座標M1と、71の座標M2は(3
試より次のように定まる。このようにして必要なS<1
,m〉のみを記憶することにすると66の記憶容量は格
段に低減できる。
なお以上のことは部分判定結果バツフア67に関しても
まつたく同様である。次に本発明の最も重要な構成部で
ある部分マツチング部の構成例を第6図に示す。
まつたく同様である。次に本発明の最も重要な構成部で
ある部分マツチング部の構成例を第6図に示す。
図において62は入カパタンバツフアであつて第4図と
同じものである。ここでは簡単のため入力パタンAの全
体が保持されているとする。 640〜647が部分マ
ツチング部であつて第4図の64に対応する。641は
標準パタンバツフアであつて第4図の標準パタン記憶部
より送られるBnを(5)式のようなパタンBとして保
持する。
同じものである。ここでは簡単のため入力パタンAの全
体が保持されているとする。 640〜647が部分マ
ツチング部であつて第4図の64に対応する。641は
標準パタンバツフアであつて第4図の標準パタン記憶部
より送られるBnを(5)式のようなパタンBとして保
持する。
642はベクトル間類似度計算部であつて、1≦i≦I
、1≦j≦Jのすべての(1,j)の組合せに関してA
iと b・をそれぞれ62と641より読み出してJ(
8)式によりベクトル間類似度s(1,j)を算出して
、ベクトル間類似度バツフア643に送りすべて記憶さ
せる。
、1≦j≦Jのすべての(1,j)の組合せに関してA
iと b・をそれぞれ62と641より読み出してJ(
8)式によりベクトル間類似度s(1,j)を算出して
、ベクトル間類似度バツフア643に送りすべて記憶さ
せる。
643は制御信号11,j1によつて指定されるs(1
,j)を信号sとして出力する。
,j)を信号sとして出力する。
644は漸化式計算部であつて入力Gl,g2,g,の
最大値を求めてそれにsを加算する。
最大値を求めてそれにsを加算する。
すなわち645は演算レジスタであつて順次計算される
GOを所用個数惺持する。
GOを所用個数惺持する。
646は部分マツチング制御部であつて第4図の制御部
より制御信号11を受けた後、制御信号Il,jl等に
よつて以上の各部を制御する。
より制御信号11を受けた後、制御信号Il,jl等に
よつて以上の各部を制御する。
62,641,642の動作は簡単であるので642に
s(I,j)がすべて計算されたとして、それ以後の動
作について述べる。
s(I,j)がすべて計算されたとして、それ以後の動
作について述べる。
まず最初、制御信号ΥSを発して645に初期条作2印
を設定する。次に制御部はjを1より順次増加し、jl
として出力しかつ各jに対してiをm式の範囲で正方向
に1づつ変化させJ2として出力する。643はIl,
jlで指定される(I,j)に対応してs(I,j)を
信号sとして出力する。
を設定する。次に制御部はjを1より順次増加し、jl
として出力しかつ各jに対してiをm式の範囲で正方向
に1づつ変化させJ2として出力する。643はIl,
jlで指定される(I,j)に対応してs(I,j)を
信号sとして出力する。
また645はやはりIl,jlで指定される(I,j)
に対応しての3個の値を出力する。
に対応しての3個の値を出力する。
644はこの3個の値とsをもとにして(有)式を計算
するから結局AO式の漸化式を計算することになる。
するから結局AO式の漸化式を計算することになる。
よつて得られるG。をg(I,j)として645に書き
込みながらI,jを先に述べたように変化させるとj=
Jnに関する演算が終つた時点ではg(M,Jn)が(
3試の範囲ですべて求まることになる。第6図に関する
以上の記述は本発明の主要部の原理を説明するための一
構成例を示したものであつて、本発明の範囲を限定する
ものではない。
込みながらI,jを先に述べたように変化させるとj=
Jnに関する演算が終つた時点ではg(M,Jn)が(
3試の範囲ですべて求まることになる。第6図に関する
以上の記述は本発明の主要部の原理を説明するための一
構成例を示したものであつて、本発明の範囲を限定する
ものではない。
特に、AO式より明らかなように演算レジスタにはg(
I,j)の値は現在のjに対応するものと、(j−1)
に対応するもの、(j−2)に対応するものがあれば充
分なのでj−3以下のものは記憶する必要はない。また
先に手続(I−1)〜(I−5)に関して補足説明した
ようにnに関する繰返しをlに関する繰返しよりも優先
した時には第6図とは別の構成が適したものとなる。さ
らに漸化式00自体にも種々の変形が可能である。たと
えばまたは とする方法はa試の右辺〔〕内の第3式でj座標がへい
きなりj−2からjに増加していることに起因する不連
続性を改善するのに有効であることが実験的に確認され
ている。
I,j)の値は現在のjに対応するものと、(j−1)
に対応するもの、(j−2)に対応するものがあれば充
分なのでj−3以下のものは記憶する必要はない。また
先に手続(I−1)〜(I−5)に関して補足説明した
ようにnに関する繰返しをlに関する繰返しよりも優先
した時には第6図とは別の構成が適したものとなる。さ
らに漸化式00自体にも種々の変形が可能である。たと
えばまたは とする方法はa試の右辺〔〕内の第3式でj座標がへい
きなりj−2からjに増加していることに起因する不連
続性を改善するのに有効であることが実験的に確認され
ている。
実施例を離れて、本明細書全体に関しても説明を簡単に
するために限定を加えて説明した点がいくつかあるが、
これらの記載は本発明の範囲を限定するものではない。
するために限定を加えて説明した点がいくつかあるが、
これらの記載は本発明の範囲を限定するものではない。
特に1,mの最小変化単位は1に限定しない。たとえば
1,mを2ずつ変化させると本認識装置の所用処理量お
よび部分類似度バツフアと部分判定結果バツフアに要求
される記憶量は約半減される。このように1,mを2ず
つ変化させても認識率が低下しないことは計算機による
シミユレーシヨン実験で確認している。
1,mを2ずつ変化させると本認識装置の所用処理量お
よび部分類似度バツフアと部分判定結果バツフアに要求
される記憶量は約半減される。このように1,mを2ず
つ変化させても認識率が低下しないことは計算機による
シミユレーシヨン実験で確認している。
第1図は本発明の目的とする連続単語認識における問題
点を示す図で、1は3,4,5の3個の標準パタンを接
続した標準パタンBをjなる時間軸に沿つて示したもの
、2は入力パタンAをiなる時間軸に沿つて示したもの
、3は数字/ San×4は数字/Ni/、5は数字/
GO/の標準パタン、6,7,8,9は入力パタンと標
準パタンの単語の対応を示し、10,11は/San/
の部分における音素/s/,/a/,/n/の対応を示
す。 第2図λは本発明で採用している時間正規化の原理を説
明するための図で、1は縦軸jに沿つて並べた標準パタ
ン、2は横軸1に沿つて並べた入力パタン、21はこの
ような点列を最適に定めることによつて時間軸の正規化
を行なうことを示し、25,26は本発明で言う所の整
合窓である。第2図bは第3図のi−j平面の1部であ
つて、本明細書において一例として用いる動的計画法の
漸化式A6)の計算の様子を示している。すなわち、3
0点のg(1,j)は31点のg(1−1,j)と32
点のg(1−1,j−1)、33点のg(1−1,j−
2)と30点のs(1−j)を基にして計算される。第
3図は本発明で言う所の手続1)の実行原理を示す図で
、斜線をほどこした部分は整合窓であつて、41はその
始点であり、45は終点mの集合を示し、点50はlを
この点まで変化する必要があることを示す。 第4図は本発明の一実施例を示すプロツク図で、61は
入力部、62は入カパタンバツフア、63は標準パタン
バツフア、64は部分マツチング部、65は部分判定部
、66は部分類似度バツフア、67は部分判定結果バツ
フア、68は全体マツチング部、69は全体判定部、6
0は制御部である。 第5図は部分判定結果バツフアおよび部分類似度バツフ
アの所用記憶容量を低減する工夫を示す図で、斜線をほ
どこした部分のみを記憶すればよいことを示す。第6図
は本発明の重要な一構成要素である部分マツチング部の
構成例を示し、62は入力パタンバッファ、641は標
準パタンバツフア、642はベクトル間類似度計算部、
643はベクトル間類似度バツフア、644は漸化式計
算部、645は演算レジスタ、640は部分マツチング
制御部である。
点を示す図で、1は3,4,5の3個の標準パタンを接
続した標準パタンBをjなる時間軸に沿つて示したもの
、2は入力パタンAをiなる時間軸に沿つて示したもの
、3は数字/ San×4は数字/Ni/、5は数字/
GO/の標準パタン、6,7,8,9は入力パタンと標
準パタンの単語の対応を示し、10,11は/San/
の部分における音素/s/,/a/,/n/の対応を示
す。 第2図λは本発明で採用している時間正規化の原理を説
明するための図で、1は縦軸jに沿つて並べた標準パタ
ン、2は横軸1に沿つて並べた入力パタン、21はこの
ような点列を最適に定めることによつて時間軸の正規化
を行なうことを示し、25,26は本発明で言う所の整
合窓である。第2図bは第3図のi−j平面の1部であ
つて、本明細書において一例として用いる動的計画法の
漸化式A6)の計算の様子を示している。すなわち、3
0点のg(1,j)は31点のg(1−1,j)と32
点のg(1−1,j−1)、33点のg(1−1,j−
2)と30点のs(1−j)を基にして計算される。第
3図は本発明で言う所の手続1)の実行原理を示す図で
、斜線をほどこした部分は整合窓であつて、41はその
始点であり、45は終点mの集合を示し、点50はlを
この点まで変化する必要があることを示す。 第4図は本発明の一実施例を示すプロツク図で、61は
入力部、62は入カパタンバツフア、63は標準パタン
バツフア、64は部分マツチング部、65は部分判定部
、66は部分類似度バツフア、67は部分判定結果バツ
フア、68は全体マツチング部、69は全体判定部、6
0は制御部である。 第5図は部分判定結果バツフアおよび部分類似度バツフ
アの所用記憶容量を低減する工夫を示す図で、斜線をほ
どこした部分のみを記憶すればよいことを示す。第6図
は本発明の重要な一構成要素である部分マツチング部の
構成例を示し、62は入力パタンバッファ、641は標
準パタンバツフア、642はベクトル間類似度計算部、
643はベクトル間類似度バツフア、644は漸化式計
算部、645は演算レジスタ、640は部分マツチング
制御部である。
Claims (1)
- 1 特徴ベクトルの時系列として表現される入力パタン
A=a_1、a_2、・・・・・、a_i、・・・・・
、a_Iの所用部分を一時記憶するための入力パタンバ
ッファと、各単語クラスn(n=1、2、・・・・・・
N)に対してあらかじめ設定される標準パタンB^n=
|b^n_1、|b^n_2・・・・・・、|b^n_
j・・・・・・|b^n_j_nを記憶するための標準
パタン記憶部と、各nに対して、入力パタンの時間点i
=lを始点としi=mを終端とする部分パタンA(l、
m)=a_l、a_l_+_1、・・・・・・、a_i
、・・・・・・、a_m(1≦l<m≦I)と標準パタ
ンB^nの間で部分パタンの時間軸iに標準パタンの時
間軸jを対応させる関数j(i)を最適に定めてa_i
と|b_j(i)の間で定義されるベクトル間類似度S
(i、j)の和の最大値S(A(l、m)、B^n)を
求める操作を動的計画法によつて行ない、各Iに対して
複数のmの範囲で上記SS(A(l、m)、B^n)を
出力する部分マッチング部と、始点lおよびそれに対応
して終端mを順次変化させて部分マッチング部で算出さ
れるS(A(l、m)、B^n)のnに関する最大値で
ある部分類似度S<l、m>およびその最大値を与える
nである部分判定結果n<l、m>を決定するための部
分判定部と、上記部分類似度S<l、m>の所用個数を
テーブル状に記憶するための部分類似度バッファと、上
記部分判定結果n<l、m>の所用個数をテーブル上に
記憶するための部分判定結果バッファと、入力パタンA
に含まれる単語の個数Yおよび(Y−1)個の区切り点
l_(_1_)、l_(_2_)、・・・・・・、l_
(_X_)、・・・・・・l_(_Y_−_1_)を最
適に定めて連続しかつ重複しない区間の部分類似度の和
S<1、l_(_1_)>+S<l_(_1_)+1、
l_(_2_)>・・・・・・+S<l_(_X_−_
1_)+1、l_(_X_)>・・・・・・+S<l_
(_Y_−_1_)+1、I>を最大にする区切り点■
_(_1_)、■_(_2_)、・・・・・・、■_(
_X_)、・・・・・・■_(_Y_−_1_)を求め
る操作を行なうための全体マッチング部と、全体マッチ
ング部によって決定される区切り点■_(_1_)、■
_(_2_)・・・・・・、■_(_X_)、・・・・
・・■_(_Y_−_1_)と部分判定結果バッファに
保持されるn<l、m>によつてY個の認識結果n<1
、■_(_1_)>、n<■_(_1_)_+_1、■
_(_2_)>、・・・・・・n<l_(_X_−_1
)+1、I_(_X_)>、・・・・・・、n<l_(
_Y_−_1_)+1、I>を決定する全体判定部とを
有することを特徴とする連続音声認識装置。
Priority Applications (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP50029891A JPS5938599B2 (ja) | 1975-03-12 | 1975-03-12 | 連続音声認識装置 |
| NLAANVRAGE7602579,A NL186885C (nl) | 1975-03-12 | 1976-03-11 | Stelsel voor het automatisch herkennen van spraak. |
| DE19762610439 DE2610439A1 (de) | 1975-03-12 | 1976-03-12 | Schaltungsanordnung zur automatischen erkennung von sprache |
| GB10059/76A GB1546520A (en) | 1975-03-12 | 1976-03-12 | Speech pattern recognition system |
| US05/753,072 US4059725A (en) | 1975-03-12 | 1976-12-21 | Automatic continuous speech recognition system employing dynamic programming |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP50029891A JPS5938599B2 (ja) | 1975-03-12 | 1975-03-12 | 連続音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS51104204A JPS51104204A (ja) | 1976-09-14 |
| JPS5938599B2 true JPS5938599B2 (ja) | 1984-09-18 |
Family
ID=12288579
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP50029891A Expired JPS5938599B2 (ja) | 1975-03-12 | 1975-03-12 | 連続音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5938599B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6231200U (ja) * | 1985-08-09 | 1987-02-24 |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS56149098A (en) * | 1980-04-22 | 1981-11-18 | Kanehara Takafumi | Voice counter |
| JPS5782896A (en) * | 1980-11-12 | 1982-05-24 | Hitachi Ltd | Continuous voice recognition system |
| US4400788A (en) * | 1981-03-27 | 1983-08-23 | Bell Telephone Laboratories, Incorporated | Continuous speech pattern recognizer |
| JPS59181400A (ja) * | 1983-03-31 | 1984-10-15 | 富士通株式会社 | 連続音声認識方式 |
| JPS59218500A (ja) * | 1984-05-11 | 1984-12-08 | 株式会社日立製作所 | 音声認識装置 |
-
1975
- 1975-03-12 JP JP50029891A patent/JPS5938599B2/ja not_active Expired
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6231200U (ja) * | 1985-08-09 | 1987-02-24 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPS51104204A (ja) | 1976-09-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5073939A (en) | Dynamic time warping (DTW) apparatus for use in speech recognition systems | |
| JPH02195400A (ja) | 音声認識装置 | |
| CN112908308B (zh) | 一种音频处理方法、装置、设备及介质 | |
| JPS5885499A (ja) | 連続音声認識装置 | |
| EP0162255B1 (en) | Pattern matching method and apparatus therefor | |
| JP2980026B2 (ja) | 音声認識装置 | |
| JPS5938599B2 (ja) | 連続音声認識装置 | |
| JPS6312312B2 (ja) | ||
| JPH0346839B2 (ja) | ||
| CN114566143B (zh) | 一种可局部修改内容的语音合成方法及语音合成系统 | |
| JP3440840B2 (ja) | 音声認識方法及びその装置 | |
| JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
| JP2603920B2 (ja) | 音声認識装置 | |
| JPS58223194A (ja) | 日本語音声入力方式 | |
| JPH01319099A (ja) | 音声認識装置 | |
| JPH0223876B2 (ja) | ||
| JPS6073592A (ja) | 特定話者用音声認識装置 | |
| JP2000099077A (ja) | 音声認識装置 | |
| JP2000172286A (ja) | 中国語音声合成のための同時調音処理装置 | |
| JPS58224394A (ja) | 連続単語音声認識装置 | |
| JPS61180295A (ja) | 連続音節認識方法 | |
| JP3520054B2 (ja) | 音声認識装置、コンピュータプログラム及び記録媒体 | |
| JPS60140396A (ja) | 音声ガイダンス方式 | |
| JPS63158597A (ja) | 単語検出方式 | |
| JPS60147797A (ja) | 音声認識装置 |