JPH0120438B2 - - Google Patents
Info
- Publication number
- JPH0120438B2 JPH0120438B2 JP58056716A JP5671683A JPH0120438B2 JP H0120438 B2 JPH0120438 B2 JP H0120438B2 JP 58056716 A JP58056716 A JP 58056716A JP 5671683 A JP5671683 A JP 5671683A JP H0120438 B2 JPH0120438 B2 JP H0120438B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- standard
- input
- patterns
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Description
【発明の詳細な説明】
〔発明の技術分野〕
本発明は、複数個の単語あるいは音節が連続し
ている入力音声の認識方式に関し、特に単語ある
いは音節間に調合結合が生じている場合の認識精
度を加善するための方式に関する。[Detailed Description of the Invention] [Technical Field of the Invention] The present invention relates to a recognition method for input speech in which a plurality of words or syllables are consecutive, and particularly to recognition when a conjunctive combination occurs between words or syllables. This article relates to a method for improving accuracy.
一般に複数個の単語あるいは音節が連続して発
声される場合、特に早口で発声されるほど、隣合
う単語あるいは音節の端部に、調音結合と呼ばれ
る変形および短縮が生じ、それにより、用意され
ている標準パターンとのマツチング精度が低下す
るという問題があつた。この場合の解決方法とし
て、すべての標準パターンについて、予め調音結
合による変化を登録しておくことが考えられる
が、調音結合を生じる標準パターン同士の組合わ
せと、調音結合の深さによる変化が多すぎて、実
際上困難であつた。
In general, when multiple words or syllables are uttered in succession, especially the faster they are uttered, the ends of adjacent words or syllables undergo transformations and shortenings called articulatory combinations, which result in preparedness. There was a problem that the matching accuracy with the existing standard pattern decreased. A possible solution to this case would be to register in advance changes due to articulatory combinations for all standard patterns, but there are many changes due to combinations of standard patterns that cause articulatory combinations and the depth of articulatory combinations. So much so that it was actually difficult.
本発明の目的は、調音結合を含む連続音声入力
パターンの認識において、簡易な方法で標準パタ
ーンに擬似的な調音結合変化を導入し、入力パタ
ーンとのマツチング精度を向上させることにあ
る。
An object of the present invention is to improve the accuracy of matching with input patterns by introducing pseudo articulatory combination changes into standard patterns using a simple method in recognition of continuous speech input patterns including articulatory combinations.
本発明は、そのための構成として、複数個の単
語あるいは音節を連続して発声した未知入力音声
を分析して得られた音響的特徴を表す入力パター
ンの各部分に、前以つて記憶しておいた単語音声
あるいは音節の標準パターンを必要な個数だけマ
ツチングさせる際に、各隣合う標準パターンの端
部同士がその境界で重複している場合、該重複部
の標準パターンとして各標準パターンの重複部の
パターン同士から求めた平均化パターンを使用す
ることに依り、入力パターンとの類似度を算出
し、該類似度が最大となる標準パターン系列をも
とめ、得られた標準パターン系列に対応する単語
あるいは音節系列を認識結果として出力すること
を特徴としている。 To this end, the present invention has a structure in which acoustic features obtained by analyzing unknown input speech in which a plurality of words or syllables are successively uttered are stored in each part of an input pattern in advance. When matching the required number of standard patterns of word sounds or syllables, if the edges of adjacent standard patterns overlap at the boundary, the overlapping part of each standard pattern is used as the standard pattern of the overlapping part. By using the averaged pattern obtained from the patterns of It is characterized by outputting a syllable sequence as a recognition result.
以下に、本発明の詳細を図にしたがつて説明す
る。
The details of the present invention will be explained below with reference to the drawings.
第1図は、連続音声入力パターンにおける調音
結合変化とそのパターンマツチングの説明図であ
る。入力パターン中の部分パターンC1およびC2
同士の隣接する幅Qの区間(m1、l2)は、調音結
合により変形し、かつ短縮されており、そのた
め、本来、入力部分パターンC1、C2とそれぞれ
マツチングするべき標準パターンA,Bは、その
端部同士が重複した形となり、しかもパターンA
の終端部PeAあるいはパターンBの始端部PSBは、
いずれも入力パターン中の調音結合変形区間Q
(m1、l2)に対するマツチング特性が悪くなり、
瞹昧さを増やす原因となる。 FIG. 1 is an explanatory diagram of articulatory combination changes and pattern matching in continuous speech input patterns. Subpatterns C 1 and C 2 in the input pattern
The adjacent sections (m 1 , l 2 ) of width Q are deformed and shortened by articulatory combination, and therefore, the standard patterns A, which should originally be matched with the input partial patterns C 1 and C 2 , respectively. B has a shape in which the ends overlap each other, and pattern A
The terminal end P eA of pattern B or the start end P SB of pattern B is
In both cases, the articulatory combination deformation section Q in the input pattern
The matching characteristics for (m 1 , l 2 ) deteriorate,
This causes an increase in ambiguity.
第2図a,b,cは、本発明の基本原理の説明
図である。aは隣接する2つの標準パターンn1、
n2を示す。bは標準パターンn1、n2を、幅P=5
で重複させ、またcは幅P=10で重複させたもの
である。重複区間内のパターンは、擬似的に生成
した調音結合部パターンである。すなわち、u1お
よびu2で例示されるように、予め、認識の前処理
の中で、すべての標準パターンの2個(たとえば
n1、n2)の組み合わせについて、その端部同士を
重複させ、平均化して作成されたものである。 FIGS. 2a, b, and c are explanatory diagrams of the basic principle of the present invention. a is two adjacent standard patterns n 1 ,
Indicates n 2 . b is the standard pattern n 1 , n 2 , width P = 5
c is overlapped with width P=10. The pattern within the overlapping section is a pseudo-generated articulatory joint pattern. That is, as exemplified by u 1 and u 2 , two of all standard patterns (for example,
It is created by overlapping the ends of the combinations n 1 , n 2 ) and averaging them.
平均化パターンは、2つのパターンを滑らかに
つなぐ方法、直線で結ぶ方法、各位置で単純に算
術平均する方法等種々の方法で作成することがで
きる。 The averaging pattern can be created in various ways, such as by connecting two patterns smoothly, by connecting them with a straight line, or by simply performing arithmetic averaging at each position.
次に、上記平均化パターンを用いた認識処理の
実施例について説明する。 Next, an example of recognition processing using the above averaged pattern will be described.
第3図に示すように、標準パターンniの始端
Pi-1フレームおよび終端Piフレームを除いたもの
と、入力の部分パターンCi-1(l、m)との距離
を、D(l、m、ni、Pi-1、Pi)とする。 As shown in Figure 3, the starting point of the standard pattern n i
The distance between the input partial pattern C i- 1 (l, m) and the input partial pattern C i-1 (l, m) excluding the P i-1 frame and the terminal P i frame is D(l, m, n i , P i-1 , P i ).
さらに標準パターンni-1の終端Pi-1フレームと、
標準パターンniの始端Pi-1フレームとにより求め
た平均化パターン(Pi-1フレーム)と、調音結合
区間に相当する入力部分パターンCi′(l′、m′)
との距離を、Dm(l′、m′、ni-1、ni、Pi-1)とす
る。 Furthermore, the terminal P i-1 frame of the standard pattern n i-1 ,
The averaged pattern (P i-1 frame) obtained from the starting point P i-1 frame of the standard pattern n i and the input partial pattern C i ′ (l′, m′) corresponding to the articulatory combination section
Let the distance from the
各l、m、l′、m′を、それぞれ図示のように
l′i+1、li、li-1+1、li′で一般化したとき、パター
ン間の最小累積距離S0は次式により求めることが
できる。 Each l, m, l', m' as shown in the figure.
When generalized by l' i+1 , l i , l i-1 +1, l i ', the minimum cumulative distance S 0 between patterns can be determined by the following equation.
S0=
min
kk
〓i=1
l1、lmini=1
l1、lmin
i,ni,Pi、〔Dm(li-1+1、li′、ni-1、ni、Pi-1)
+D(li′+1、li、ni、Pi-1、Pi)〕…(1)
このS0を与えるni(i=1、2、…k)が認識
結果となる。S 0 = min k k 〓 i=1 l 1 , lmin i=1 l 1 , lmin i, ni, Pi, [Dm(l i-1 +1, l i ′, n i-1 , n i , Pi -1 )
+D(l i '+1, l i , n i , P i-1 , P i )]...(1) n i (i=1, 2,...k) which gives this S 0 becomes the recognition result.
第4図は実施例システムの構成図であり、図
中、1は標準パターン記憶部、2は標準パターン
niから前処理で作成した平均化パターンの記憶
部、3は認識対象の入力パターンの記憶部、4は
(1)式の〔 〕内のDm+Dを計算する距離計算
部、5はその距離計算結果の最小値計算部、6は
最小累積距離S0を与えるni(i=1、2、3、…
k)を決定する類似度計算部である。類似度計算
部6の処理結果は認識出力として取り出される。 FIG. 4 is a configuration diagram of the embodiment system, in which 1 is a standard pattern storage unit, 2 is a standard pattern storage unit, and 2 is a standard pattern storage unit.
3 is a storage unit for the averaging pattern created from n i in preprocessing, 3 is a storage unit for the input pattern to be recognized, 4 is
In equation (1), the distance calculation unit calculates Dm+D in [ ], 5 is the minimum value calculation unit for the distance calculation result, and 6 is the minimum cumulative distance S 0 n i (i=1, 2, 3,...
k) is a similarity calculation unit that determines k). The processing result of the similarity calculation unit 6 is taken out as a recognition output.
次に、(1)式の具体的な計算手順について述べ
る。 Next, we will discuss the specific calculation procedure for equation (1).
まず、
D^(l1、m、n1、n2、P1、P2)
=
min
min
j〔Dm(l、j、n1、z2、P1)+D(j+1、m、n2、
P1、P2)〕…(2)
を求める。次に、
S(1、i、n、P)
=D(1、i、n、o、P) …(3)
を初期値として、以下の漸化式を解く
S(k、i、n、P)
=
min
min
j,n′,P′{S((k−1、j、n′、P′)+D^(j
+1、i、n′、n、P′、P)}…(4)
上記S(k、i、n、P)を求めるとき、同時
に、
B(k、i、n、P)=
argmin
j
min
min
n′,P′{S(k−1、j、n′、P′)+D^(j+1、
i、n′、n、P′、P)}…(5)
N(k−1、i、n、P)=
argmin
n′
min
min
j′,P′{S(k−1、j、n′、P′)D^(j+1、i
、n′、n、P′、P)}…(6)
P(k、i、n、P)=
argmin
P′
min
min
j,n′{S(k−1、j、n′、P′)D^(j+1、i
、n′、n、P′、P)}…(7)
を求めておき、記憶しておく。 First, D^(l 1 , m, n 1 , n 2 , P 1 , P 2 ) = min min j [Dm(l, j, n 1 , z 2 , P 1 )+D(j+1, m, n 2 ,
P 1 , P 2 )]...Find (2). Next, with S(1, i, n, P) = D(1, i, n, o, P) ...(3) as the initial value, solve the following recurrence formula S(k, i, n, P) = min min j, n', P'{S((k-1, j, n', P') + D^(j
+1, i, n', n, P', P)}...(4) When calculating the above S(k, i, n, P), at the same time, B(k, i, n, P) = argmin j min min n', P'{S (k-1, j, n', P') + D^ (j+1,
i, n', n, P', P)}...(5) N(k-1, i, n, P) = argmin n' min min j', P'{S(k-1, j, n ′, P′) D^(j+1, i
, n', n, P', P)}...(6) P(k, i, n, P) = argmin P' min min j, n'{S(k-1, j, n', P' )D^(j+1,i
, n', n, P', P)}...(7) and memorize it.
これにより最小累積距離S0は、 S0= min k,nS(k′、I、n、o) …(8) により与えられる。 As a result, the minimum cumulative distance S 0 is given by S 0 = min k, nS (k', I, n, o) (8).
さらに、認識結果を得るためには、
k0=
argmin
k
min
nS(k、I、n、o) …(9)
Nk0=
argmin
nS(k0、I、n、o) …(10)
とし、次に
k=k0、i=I、P=o …(11)
を初期値として
Nk-1=N(k−1、i、Nk、P) …(12)
を求め、次にi、P、kを以下のように同時に置
き換える。 Furthermore, in order to obtain the recognition result, k 0 = argmin k min nS (k, I, n, o) ...(9) Nk 0 = argmin nS (k 0 , I, n, o) ... (10) , then use k=k 0 , i=I, P=o...(11) as initial values to find N k-1 =N(k-1, i, N k , P)...(12), and then Replace i, P, and k simultaneously as follows.
i←B(k、i、Nk、P) P←P(k、i、Nk、P) k←k←1 …(13) k2ならば(12)式から繰り返す。 i←B(k, i, Nk , P) P←P(k, i, Nk , P) k←k←1...(13) If k2, repeat from equation (12).
このようにして得られた N1、N2、…、Nk0 が認識結果となる。 N 1 , N 2 , . . . , N k0 obtained in this way are the recognition results.
以上のように、本発明によれば、入力パターン
が調音結合を含んでいても、比較的容易に精度の
よいパターンマツチングを行なうことができる。
As described above, according to the present invention, even if the input pattern includes an articulatory combination, accurate pattern matching can be performed relatively easily.
第1図は調音結合をもつ入力パターンのパター
ンマツチングの説明図、第2図は本発明にもとづ
く平均化パターンの説明図、第3図は本発明にも
とづく認識処理の説明図、第4図は実施例システ
ムの構成図である。
図中、1は標準パターン記憶部、2は平均化パ
ターン記憶部、3は入力パターン記憶部、4は距
離計算部、5は最小値計算部、6は類似度計算部
を表わす。
Fig. 1 is an explanatory diagram of pattern matching of input patterns with articulatory combinations, Fig. 2 is an explanatory diagram of the averaging pattern based on the present invention, Fig. 3 is an explanatory diagram of recognition processing based on the present invention, and Fig. 4 is an explanatory diagram of the recognition processing based on the present invention. 1 is a configuration diagram of an example system. In the figure, 1 represents a standard pattern storage section, 2 an averaging pattern storage section, 3 an input pattern storage section, 4 a distance calculation section, 5 a minimum value calculation section, and 6 a similarity calculation section.
Claims (1)
た未知入力音声を分析して得られた音響的特徴を
表す入力パターンの各部分に、前以つて記憶して
おいた単語音声あるいは音節の標準パターンを必
要な個数だけマツチングさせる際に、各隣合う標
準パターンの端部同士がその境界で重複している
場合、該重複部の標準パターンとして各標準パタ
ーンの重複部のパターン同士から求めた平均化パ
ターンを使用することに依り、入力パターンとの
類似度を算出し、該類似度が最大となる標準パタ
ーン系列をもとめ、得られた標準パターン系列に
対応する単語あるいは音節系列を認識結果として
出力することを特徴とする連続音声認識方式。 2 前記第1項記載の連続音声認識方式におい
て、マツチングの際に、予め各標準パターンの始
端部、終端部を所定長内で除去した総ての標準部
分パターンと入力の任意長の総ての部分パターン
との部分類似度と、総ての標準パターンの所定長
内の終端部と始端部同士から求められる、共に長
さの等しい組合せのあらゆる平均化パターンと入
力の任意長の総ての部分パターンとの平均化パタ
ーン部類似度とを算出した後、動的計画法を用い
て最適標準パターン系列を求めることを特徴とす
る連続音声認識方式。[Claims] 1. Words previously stored in each part of an input pattern representing acoustic features obtained by analyzing unknown input speech in which a plurality of words or syllables are continuously uttered. When matching the required number of standard patterns of sounds or syllables, if the edges of adjacent standard patterns overlap at the boundary, the pattern of the overlapping part of each standard pattern is used as the standard pattern of the overlapping part. By using the averaged pattern obtained from each other, the similarity with the input pattern is calculated, the standard pattern sequence with the maximum similarity is found, and the word or syllable sequence corresponding to the obtained standard pattern sequence. A continuous speech recognition method characterized by outputting as a recognition result. 2. In the continuous speech recognition method described in item 1 above, when matching, all standard partial patterns whose starting and ending parts are removed within a predetermined length of each standard pattern and all input arbitrary lengths are used for matching. All averaged patterns of combinations of equal length and all parts of arbitrary length of the input, calculated from the partial similarity with the partial pattern and the end and start parts of all standard patterns within a predetermined length. A continuous speech recognition method characterized by calculating an averaged pattern part similarity with a pattern and then determining an optimal standard pattern sequence using dynamic programming.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58056716A JPS59181398A (en) | 1983-03-31 | 1983-03-31 | Continuous voice recognition system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58056716A JPS59181398A (en) | 1983-03-31 | 1983-03-31 | Continuous voice recognition system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS59181398A JPS59181398A (en) | 1984-10-15 |
| JPH0120438B2 true JPH0120438B2 (en) | 1989-04-17 |
Family
ID=13035203
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58056716A Granted JPS59181398A (en) | 1983-03-31 | 1983-03-31 | Continuous voice recognition system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS59181398A (en) |
-
1983
- 1983-03-31 JP JP58056716A patent/JPS59181398A/en active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS59181398A (en) | 1984-10-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP3121810A1 (en) | Apparatus and method of acoustic score calculation and speech recognition | |
| JPS63285598A (en) | Phoneme connection type parameter rule synthesization system | |
| WO1981002943A1 (en) | Continuous speech recognition system | |
| JPS592040B2 (en) | Voice recognition device | |
| CN110534134A (en) | Speech detection method, system, computer equipment and computer storage medium | |
| JP3311460B2 (en) | Voice recognition device | |
| JPH0120438B2 (en) | ||
| JPH0120439B2 (en) | ||
| JPH0436400B2 (en) | ||
| JPS62144200A (en) | Continuous voice recognition equipment | |
| JPH0251518B2 (en) | ||
| JPH0575117B2 (en) | ||
| JPH0251519B2 (en) | ||
| JP2738403B2 (en) | Voice recognition device | |
| JPS59181400A (en) | Continuous voice recognition system | |
| JPH0464077B2 (en) | ||
| JPH07325598A (en) | Speech recognition device | |
| JPH0531792B2 (en) | ||
| JPH05334431A (en) | Function approximating device for dot shape data | |
| JPS59160276A (en) | Pattern recognizing device | |
| JPS60198598A (en) | Voice recognition method | |
| JPH1125279A (en) | End point detection method for core drawing of line figure | |
| JPH0554678B2 (en) | ||
| JPH04264958A (en) | Locus calculation device | |
| JPS60254385A (en) | Stroke identification system |