JPH0120439B2 - - Google Patents
Info
- Publication number
- JPH0120439B2 JPH0120439B2 JP58056717A JP5671783A JPH0120439B2 JP H0120439 B2 JPH0120439 B2 JP H0120439B2 JP 58056717 A JP58056717 A JP 58056717A JP 5671783 A JP5671783 A JP 5671783A JP H0120439 B2 JPH0120439 B2 JP H0120439B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- standard
- input
- patterns
- interpolation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Description
【発明の詳細な説明】
〔発明の技術分野〕
本発明は、複数個の単語あるいは音節が連続し
ている入力音声の認識方式に関し、特に単語ある
いは音節間に調音結合が生じている場合の認識精
度を改善するための方式に関する。
ている入力音声の認識方式に関し、特に単語ある
いは音節間に調音結合が生じている場合の認識精
度を改善するための方式に関する。
一般に複数個の単語あるいは音節が連続して発
声される場合、特に早口で発声されるほど隣合う
単語あるいは音節の端部に、調音結合と呼ばれる
変形が生じる。たとえば、〔aKa〕と〔aSa〕と
を続けて発声すると〔aKaaSa〕となり、中間の
2つのaaが結合して短くなる傾向を示す。その
ため、用意されている標準パターンとのマツチン
グ精度が低下するという問題があつた。この場合
の解決方法として、すべての標準パターンについ
て、予め調音結合による変化を登録しておくこと
が考えられるが、調音結合を生じる標準パターン
同士の組合わせと、調音結合の深さによる変化が
多いことから、実際上困難であつた。
声される場合、特に早口で発声されるほど隣合う
単語あるいは音節の端部に、調音結合と呼ばれる
変形が生じる。たとえば、〔aKa〕と〔aSa〕と
を続けて発声すると〔aKaaSa〕となり、中間の
2つのaaが結合して短くなる傾向を示す。その
ため、用意されている標準パターンとのマツチン
グ精度が低下するという問題があつた。この場合
の解決方法として、すべての標準パターンについ
て、予め調音結合による変化を登録しておくこと
が考えられるが、調音結合を生じる標準パターン
同士の組合わせと、調音結合の深さによる変化が
多いことから、実際上困難であつた。
本発明の目的は、調音給合を含む連続音声入力
パターンの認識において、簡易な方法で擬似的な
調音結合変化の標準パターンを作成し、入力パタ
ーンとのマツチング精度を向上させることにあ
る。
パターンの認識において、簡易な方法で擬似的な
調音結合変化の標準パターンを作成し、入力パタ
ーンとのマツチング精度を向上させることにあ
る。
本発明は、そのための構成として、複数個の単
語あるいは音節を連続して発声した未知入力音声
を分析して得られた音響的特徴を表す入力パター
ンの各部分に、前以つて記憶しておいた単語/音
節音声の標準パターンを必要な個数だけマツチン
グさせる連続音声認識方式において、該マツチン
グに際して、各隣合う標準パターンの端部同志が
その境界で離隔している場合、該離隔部の標準パ
ターンとして標準パターンの端部同士から求めた
補間パターンを適用することにより、入力パター
ンとの類似度を算出し、該類似度が最大となる標
準パターン系列をもとめ、得られた標準パターン
系列に対応する単語あるいは音節系列を認識結果
として出力することを特徴としている。
語あるいは音節を連続して発声した未知入力音声
を分析して得られた音響的特徴を表す入力パター
ンの各部分に、前以つて記憶しておいた単語/音
節音声の標準パターンを必要な個数だけマツチン
グさせる連続音声認識方式において、該マツチン
グに際して、各隣合う標準パターンの端部同志が
その境界で離隔している場合、該離隔部の標準パ
ターンとして標準パターンの端部同士から求めた
補間パターンを適用することにより、入力パター
ンとの類似度を算出し、該類似度が最大となる標
準パターン系列をもとめ、得られた標準パターン
系列に対応する単語あるいは音節系列を認識結果
として出力することを特徴としている。
以下に、本発明の詳細を図にしたがつて説明す
る。
る。
第1図は、連続音声入力パターンにおける調音
給合変化の説明図である。横軸が入力パターン、
縦軸が標準パターン系列を示している。入力パタ
ーン中の部分パターンC1およびC2同士の隣接す
る幅Pの区間(m1、l2間)は、調音結合により変
形し、かつ短縮されておりそのため、本来入力部
分パターンC1,C2にそれぞれマツチングさせる
べく用意されている標準パターンA,Bは、その
端部同士が重複した形となり、しかもパターンA
の終端部PeAあるいはパターンBの始端部PSBは、
いずれも入力パターン中の調音給合変形部分m1,
l2に対するマツチング特性が悪くなり、曖昧さを
増やす原因となる。
給合変化の説明図である。横軸が入力パターン、
縦軸が標準パターン系列を示している。入力パタ
ーン中の部分パターンC1およびC2同士の隣接す
る幅Pの区間(m1、l2間)は、調音結合により変
形し、かつ短縮されておりそのため、本来入力部
分パターンC1,C2にそれぞれマツチングさせる
べく用意されている標準パターンA,Bは、その
端部同士が重複した形となり、しかもパターンA
の終端部PeAあるいはパターンBの始端部PSBは、
いずれも入力パターン中の調音給合変形部分m1,
l2に対するマツチング特性が悪くなり、曖昧さを
増やす原因となる。
本発明では、このため標準パターンとして、調
音結合にもとづく変形を強く受けやすいパターン
端部、すなわち、たとえば第1図の標準パターン
BについてはPSBおよびBeBを予め除去し、中央部
のみの幅の狭いパターンを使用するものである。
しかし、その結果パターンマツチングを行なうと
き、各標準パターン間に空隙部が生じる。これは
入力パターン中の調音結合で変形した区間Qに対
応している。そこで、調音結合区間に対する標準
パターンを予め擬似的に作成する。すなわち、2
つの幅の狭い標準パターンのすべての組み合わせ
について、それらの端部同士を結ぶ補間パターン
を作成しておき、パターンマツチング時に、幅の
狭い標準パターン間の空隙部に、適合する補間パ
ターンを選択して嵌めこむようにするものであ
る。
音結合にもとづく変形を強く受けやすいパターン
端部、すなわち、たとえば第1図の標準パターン
BについてはPSBおよびBeBを予め除去し、中央部
のみの幅の狭いパターンを使用するものである。
しかし、その結果パターンマツチングを行なうと
き、各標準パターン間に空隙部が生じる。これは
入力パターン中の調音結合で変形した区間Qに対
応している。そこで、調音結合区間に対する標準
パターンを予め擬似的に作成する。すなわち、2
つの幅の狭い標準パターンのすべての組み合わせ
について、それらの端部同士を結ぶ補間パターン
を作成しておき、パターンマツチング時に、幅の
狭い標準パターン間の空隙部に、適合する補間パ
ターンを選択して嵌めこむようにするものであ
る。
第2図は、本発明による補間パターンの説明図
であり、n,n2は幅の狭い標準パターン、ncは補
間パターンである。補間の方法は、直線補間ある
いは2次補間等の適当なものが使用できる。また
補間パターンの長さは、(n1,n2)により変化さ
せてもよい。
であり、n,n2は幅の狭い標準パターン、ncは補
間パターンである。補間の方法は、直線補間ある
いは2次補間等の適当なものが使用できる。また
補間パターンの長さは、(n1,n2)により変化さ
せてもよい。
次に、このような補間パターンを用いた連続音
声認識の実施例について説明する。
声認識の実施例について説明する。
第3図に示すように、両端を除いた標準パター
ンniと入力の部分パターンCi(l、m)との距離
をD(l、m、ni)とし、補間パターンni′と入力
パターンの対応する調音結合区間Ci′(l′、m′)
との距離をDn(l′、m′、ni−1、ni)とする。この
とき、最小累積距離をS0とし、l、m、l′、m′を
それぞれli′+1、li、li-1+1、li′で一般化する
と、次式によつて求められる。
ンniと入力の部分パターンCi(l、m)との距離
をD(l、m、ni)とし、補間パターンni′と入力
パターンの対応する調音結合区間Ci′(l′、m′)
との距離をDn(l′、m′、ni−1、ni)とする。この
とき、最小累積距離をS0とし、l、m、l′、m′を
それぞれli′+1、li、li-1+1、li′で一般化する
と、次式によつて求められる。
S0=
min
k k
〓i-1
min
min
li,l′i,ni〔Dn(li-1+1、li′、ni−1、ni)+D
(li′+1、li、ni)〕……(1) そして、このS0を与えるni(i=1、2、…、
k)を、認識結果とする。
(li′+1、li、ni)〕……(1) そして、このS0を与えるni(i=1、2、…、
k)を、認識結果とする。
第4図は実施例システムの構成図であり、図
中、1は標準パターン記憶部、2は標準パターン
niから前処理で作成した補間バターンの記憶部、
3は認識対象の入力パターンの記憶部、4は(1)式
の〔 〕内のDn+Dを計算する距離計算部、5
はその距離計算結果の最小値計算部、6は最小累
積距離S0を与えるni(i=1、2、3、…、k)
を決定する類似度計算部である。類似度計算部6
の処理結果は認識出力として取り出される。
中、1は標準パターン記憶部、2は標準パターン
niから前処理で作成した補間バターンの記憶部、
3は認識対象の入力パターンの記憶部、4は(1)式
の〔 〕内のDn+Dを計算する距離計算部、5
はその距離計算結果の最小値計算部、6は最小累
積距離S0を与えるni(i=1、2、3、…、k)
を決定する類似度計算部である。類似度計算部6
の処理結果は認識出力として取り出される。
次に(1)式の計算手順の1例について述べる。ま
ず、最小距離 D^(l、m、n1、n2)= min min j〔Dn(l、j、ni、n2)+D(j+1m、n2)〕……(2
) を求め、記憶する。
ず、最小距離 D^(l、m、n1、n2)= min min j〔Dn(l、j、ni、n2)+D(j+1m、n2)〕……(2
) を求め、記憶する。
次に、
S(1、i、n)=D(1、i、n) ……(3)
を初期値として、以下の漸化式を解く。
S(k、i、n)=
min
min
j,n′〔S(k−1、j、n′)+D^(j+1、i、n
′、n)〕……(4) この時、同時に B(k、i、n)= argmin j min min n′〔S(k−1、j、n′)+D^(j+1、i、n′、
n)〕……(5) N(k−1、i、n)= argmin n′ min min j〔S(k−1、i、n′+D^(j+1、i、n′、n)
〕……(6) を求め、記憶しておく。
′、n)〕……(4) この時、同時に B(k、i、n)= argmin j min min n′〔S(k−1、j、n′)+D^(j+1、i、n′、
n)〕……(5) N(k−1、i、n)= argmin n′ min min j〔S(k−1、i、n′+D^(j+1、i、n′、n)
〕……(6) を求め、記憶しておく。
最小累積距離は、
S0=
min
k,nS(k、I、n) ……(7)
により与えられる。
さらに認識結果を得るためには、
k0=
argmin
k
min
nS(k、I、n) ……(8)
Nk0=
argmin
nS(k0、I、n) ……(9)
とし、次に
k=k0
i=I ……(10)
を初期値として、
Nk-1=N(k−1、i、Nk) ……(11)
i、kを以下のように置き換える。
i←B(k、i、Nk)
k←k−1 ……(12)
k2ならば、(11)式から繰り返す。このように
して得られる N1、N2、…、Nk0が認識結果である。
して得られる N1、N2、…、Nk0が認識結果である。
以上のように、本発明によれば、標準パターン
を、調音結合に対して安定なパターン中央部分で
主として構成し、調音結合により変動しやすいパ
ターン端部は、擬似的に補間して作成したものを
用いることにより、比較的簡単な構成で効率的な
連続音声認識システムを実現することができる。
を、調音結合に対して安定なパターン中央部分で
主として構成し、調音結合により変動しやすいパ
ターン端部は、擬似的に補間して作成したものを
用いることにより、比較的簡単な構成で効率的な
連続音声認識システムを実現することができる。
第1図は入力パターンに調音結合を含む場合の
従来のパターンマツチングの説明図、第2図は本
発明による補間パターンの説明図、第3図は補間
パターンを用いたパターンマツチングの説明図、
第4図は本発明実施例システムの構成図である。 図中、1は標準パターン記憶部、2は補間パタ
ーン記憶部、3は入力パターン記憶部、4は距離
計算部、5は最小値計算部、6は類似度計算部を
表わす。
従来のパターンマツチングの説明図、第2図は本
発明による補間パターンの説明図、第3図は補間
パターンを用いたパターンマツチングの説明図、
第4図は本発明実施例システムの構成図である。 図中、1は標準パターン記憶部、2は補間パタ
ーン記憶部、3は入力パターン記憶部、4は距離
計算部、5は最小値計算部、6は類似度計算部を
表わす。
Claims (1)
- 【特許請求の範囲】 1 複数個の単語あるいは音節を連続して発声し
た末知入力音声を分析して得られた音響的特徴を
表す入力パターンの各部分に、前以つて記憶して
おいた単語/音節音声の標準パターンを必要な個
数だけマツチングさせる連続音声認識方式におい
て、該マツチングに際して、各隣合う標準パター
ンの端部同士がその境界で離隔している場合、該
離隔部の標準パターンとして構準パターンの端部
同士から求めた補間パターンを適用することに依
り、入力パターンとの類似度を算出し、該類似度
が最大となる標準パターン系列をもとめ、得られ
た標準パターン系列に対応する単語あるいは音節
系列を認識結果として出力することを特徴とする
連続音声認識方式。 2 前記第1項記載の連続音声認識方式におい
て、マツチングの際に、予め各標準パターンと入
力の任意長の総ての部分パターンとの部分類似度
と、総ての標準パターンの終端部と始端部同士か
ら求められるあらゆる補間パターンと、入力の任
意長の総ての部分パターンとの補間パターン部類
似度とを算出した後、動的計画法を用いて最適標
準パターン系列を求めることを特徴とする連続音
声認識方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58056717A JPS59181399A (ja) | 1983-03-31 | 1983-03-31 | 連続音声認識方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58056717A JPS59181399A (ja) | 1983-03-31 | 1983-03-31 | 連続音声認識方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS59181399A JPS59181399A (ja) | 1984-10-15 |
| JPH0120439B2 true JPH0120439B2 (ja) | 1989-04-17 |
Family
ID=13035232
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58056717A Granted JPS59181399A (ja) | 1983-03-31 | 1983-03-31 | 連続音声認識方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS59181399A (ja) |
-
1983
- 1983-03-31 JP JP58056717A patent/JPS59181399A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS59181399A (ja) | 1984-10-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPS63285598A (ja) | 音素接続形パラメ−タ規則合成方式 | |
| WO1993018505A1 (en) | Voice transformation system | |
| CN104934029A (zh) | 基于基音同步频谱参数的语音识别系统和方法 | |
| US7069217B2 (en) | Waveform synthesis | |
| JPS592040B2 (ja) | 音声認織装置 | |
| JPH0120439B2 (ja) | ||
| JP5393546B2 (ja) | 韻律作成装置及び韻律作成方法 | |
| JPS62144200A (ja) | 連続音声認識装置 | |
| JPH0120438B2 (ja) | ||
| JPH0211919B2 (ja) | ||
| JPS59161782A (ja) | パタ−ン・マツチング方法 | |
| US5956677A (en) | Speech recognizer having a speech data memory storing speech data and a reference pattern memory storing partial symbol trains of words for recognition | |
| JPH0251519B2 (ja) | ||
| JP3109205B2 (ja) | 量子化装置 | |
| JPH0436400B2 (ja) | ||
| JP3348735B2 (ja) | パターン照合方式 | |
| JPH0251518B2 (ja) | ||
| Zhou et al. | Multisegment multiple VQ codebooks-based speaker independent isolated-word recognition using unbiased mel cepstrum | |
| JPS6155700A (ja) | ピッチ抽出処理方式 | |
| JPS59173884A (ja) | パタ−ン比較装置 | |
| JPH0690635B2 (ja) | ピツチエラ−修正方法 | |
| JPS63104098A (ja) | 音声認識装置 | |
| JPH0199095A (ja) | パターン作成装置 | |
| JPH04253100A (ja) | 音声合成装置の音源データ生成方法 | |
| JPS59181400A (ja) | 連続音声認識方式 |