JPH01112298A - Voice recognition equipment - Google Patents

Voice recognition equipment

Info

Publication number
JPH01112298A
JPH01112298A JP62271148A JP27114887A JPH01112298A JP H01112298 A JPH01112298 A JP H01112298A JP 62271148 A JP62271148 A JP 62271148A JP 27114887 A JP27114887 A JP 27114887A JP H01112298 A JPH01112298 A JP H01112298A
Authority
JP
Japan
Prior art keywords
threshold
result
parameter
recognition
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62271148A
Other languages
Japanese (ja)
Other versions
JPH0577079B2 (en
Inventor
Hiromi Fujii
藤井 浩美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP62271148A priority Critical patent/JPH01112298A/en
Publication of JPH01112298A publication Critical patent/JPH01112298A/en
Publication of JPH0577079B2 publication Critical patent/JPH0577079B2/ja
Granted legal-status Critical Current

Links

Abstract

PURPOSE: To efficiently execute free pruning correspondingly to a speaker or an environment change and to execute voice recognition processing at a high speed by learning a threshold by using a voice spoken in the past and information indicating the validity/invalidity of a recognized result. CONSTITUTION: A parameter for finding out an accumulated distance from past vocalization on an optimum path and finding out a suitable threshold from the found value is learned. The learning using the accumulated distance on the optimum path is executed only when the recognized result is correct, and if the recognized result is erroneous, the continuation of errors can be prevented by increasing the tree pruning threshold. Namely the validity/invalidity of the recognized result is inputted from a result checking part 8, and when the recognized result is inputted as an error, threshold parameters α, β set up at preset are read out from a threshold parameter storing part 3 and updated so that the threshold is increased. Consequently an optimum threshold for tree printing can be learned, a threshold suitable for a speaker or an environmental change can be set up, a recognition speed can be increased, and a recognition rate can be improved.

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、発声された音声を高速で認識する音声認識装
置の改良に関する。
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to an improvement in a speech recognition device that recognizes uttered speech at high speed.

(従来の技術) 音声認識は、優れたマンマシンインターフェースを実現
する技術として重要であり、すでにさまざまな分野で音
声認識装置が使われている。現在の装置のほとんどは、
パターンマツチング法による認識方式を採用している。
(Prior Art) Speech recognition is an important technology for realizing excellent man-machine interfaces, and speech recognition devices are already being used in various fields. Most of the current devices are
A recognition method based on the pattern matching method is adopted.

この方式は、発声された認識対象の単語をあらかじめ標
準パターンとして保持しておき、入力された発声のパタ
ーン(以下、入力パターンとする)と保持された標準パ
ターンとの比較を行い、最も類似した標準パターンの単
語名を認識結果とするものである。この時、2つのパタ
ーンの時間軸を対応づけてパターン間距離を求める方法
としては、動的計画法により非線形な対応付けを行うD
Pマツチング法が使用されている。Drマツチングにつ
いては「連続発声した単語音声を効率的に認識する2段
DPマツチング」2日計エレクトロニクス、 1983
年11月7日号の171頁より208頁(以下、文献1
とする)に詳しく記述されている。この文献によると、
7: タフ A + 8間の距wED(A、B)は、以
下のように定義されている。
In this method, uttered words to be recognized are stored in advance as standard patterns, and the input utterance pattern (hereinafter referred to as input pattern) is compared with the stored standard pattern. The recognition result is the word name of the standard pattern. At this time, as a method for associating the time axes of two patterns and finding the distance between the patterns, D
P matching method is used. Regarding Dr matching, see “Two-stage DP matching for efficient recognition of continuously uttered word sounds,” Nikkakei Electronics, 1983.
Pages 171 to 208 of the November 7 issue (hereinafter referred to as Reference 1)
) is described in detail. According to this literature,
7: The distance wED(A, B) between Tough A + 8 is defined as follows.

D (A 、 B ) =、m、in[Σd(i 、j
)]1 $1(i)   2二1 d(i、j)はalとす、のベクトル間距離である。パ
ターン間距離りは、たとえば以下の漸化式計算により求
めることができる。
D (A, B) =, m, in[Σd(i, j
)]1 $1(i) 221 d(i, j) is the distance between vectors al and . The inter-pattern distance can be determined, for example, by the following recurrence formula calculation.

・・・(1)弐 g(i、j)は1+Jにより張られるij平面中の点(
1,1)から(i 、 j)までのベクトル間距離dの
累積値の最小値であり、以下、累積距離と呼ぶことにす
る。D(A、B)はこの漸化式計算をi=1・・・I、
j=1・・・Jまで行って得られるg(I 、J)とし
て求められる。
...(1) 2g (i, j) is a point in the ij plane spanned by 1+J (
1, 1) to (i, j), and is hereinafter referred to as the cumulative distance. D(A,B) calculates this recurrence formula as i=1...I,
It is obtained as g(I, J) obtained by going up to j=1...J.

ここで、第2図に示すようなi、j平面を考える。上記
漸化式は、第2図に示すように、(i−1、j)、(i
−1,j−1)、(i−1,j−2)から(i 、 j
)に至る3木のパス(イ)。
Here, consider the i, j plane as shown in FIG. The above recurrence formula, as shown in Figure 2, (i-1, j), (i
-1, j-1), (i-1, j-2) to (i, j
) A three-tree path (a).

(ロ)、(ハ)を許して、格子点(1,1)から(I、
J)に至るベクトル間距@d(i、j)の−3= 総和が最小を与える(i、j)の経路(以下、最適パス
という)を求めるものである。最適パスは、(1)式の
計算の際に(イ)、(ロ)。
Allowing (b) and (c), from lattice point (1,1) to (I,
This is to find the path (hereinafter referred to as the optimal path) for (i, j) that provides the minimum -3= sum of the inter-vector distance @d(i, j) to J). The optimal path is determined by (a) and (b) when calculating equation (1).

(ハ)のうちどのパスが選ばれたかのパス情報h(f 
、 j)をすべての(i、j)に対して保持しておき、
Dが求められた後に(I、J)より保持されたパスを(
1,1)まで遡るバックトラックを行うことにより得ら
れる。バックトラックにより最適パスを求める方法につ
いては、「音声認識ニオケル動的計画法の応用J 、 
bit、 Vol、 15゜No、8の131頁より1
42頁に詳しく述べられている。
Path information h (f
, j) for all (i, j),
After D is determined, the path retained from (I, J) is (
This can be obtained by backtracking all the way back to 1,1). For information on how to find the optimal path by backtracking, see "Applications of Niockel Dynamic Programming for Speech Recognition J.
bit, Vol, 15° No. 8, page 131 1
Details are given on page 42.

以上述べたDPマツチングによる認識アルゴリズムには
、多くの改良があるが、その1つとして特開昭58−9
8796号に記載されているクロックワイズDP法があ
る。この方法は、入力パターンの時間軸iを最も外側の
ループにしてgn(i、j)の計算を行うことにより、
特徴ベクトルaiの入力と同期したマツチング処理を実
現し、実時間性を高める方法である。すなわち、この方
法では、入力パターンの時刻iにおいて、全ての単語n
と単語nの標準パターン上の時刻jに対してgfi (
i。
There have been many improvements to the recognition algorithm using DP matching described above, one of which is JP-A-58-9
There is a clockwise DP method described in No. 8796. This method calculates gn(i, j) using the time axis i of the input pattern as the outermost loop.
This method realizes matching processing that is synchronized with the input of feature vector ai and improves real-time performance. That is, in this method, at time i of the input pattern, all words n
and gfi (
i.

j)を求める。Find j).

また、上記のクロックワイズDr法に枝刈の考えを導入
することにより処理を高速化したものが特願昭62−6
1732号、特願昭62−219460号に述べられて
いる。以下、これらの方法について簡単に説明する。
In addition, a patent application filed in 1982-6 that sped up the processing by introducing the idea of pruning to the clockwise Dr method described above.
No. 1732 and Japanese Patent Application No. 62-219460. These methods will be briefly explained below.

特願昭62−61732号の方法は、クロックワイズD
P法において、時刻iでの累積距離gn(i、j)があ
るしきい値θ(i)以上のn、i、jに対しては、時刻
i+1以降の漸化式計算を省略するものである。これは
、g″(i 、 j)が大きい(n。
The method of patent application No. 62-61732 is Clockwise D.
In the P method, for n, i, j whose cumulative distance gn(i, j) at time i is greater than or equal to a certain threshold θ(i), the recurrence formula calculation after time i+1 is omitted. be. This means that g″(i, j) is large (n.

i、j)は最適パス上にある可能性が低いとみなして漸
化式計算を省略するものである。これにより計算すべき
漸化式計算回数が大幅に減少し、認識処理が高速化され
る。θ(i)の設定法としては以下のものがある。
i, j) are considered to be unlikely to be on the optimal path, and the recurrence formula calculation is omitted. As a result, the number of recurrence formula calculations to be performed is significantly reduced, and the recognition processing speed is increased. There are the following methods for setting θ(i).

(イ) θ(i)=αi+β (ロ) θ(i )=gmin(i)+α(α、βは定
数) (イ)は最適累積距離が増加するとしてθ(i)をiの
一次単調増加関数として定めるもの、(ロ)は各iにお
ける累積距離g″(i、j)。
(a) θ(i)=αi+β (b) θ(i)=gmin(i)+α (α, β are constants) (a) Assuming that the optimal cumulative distance increases, θ(i) is a linear monotonous increase of i. What is defined as a function, (b) is the cumulative distance g″(i, j) at each i.

J = i 、−−・Jn、 n= 1、−、 Nの最
小値g m1n(i)にαの余裕を持たせてθを定める
ものである。しかし、この方法において、しきい値を求
めるためのしきい値パラメータα、βは一定値であった
ため、適切でないしきい値θ(i)による認識エラーや
計算量が低減されない場合があった。
J=i, ---Jn, n=1,-, θ is determined by giving a margin of α to the minimum value g m1n(i) of N. However, in this method, since the threshold parameters α and β for determining the threshold value are constant values, recognition errors and calculation amount due to inappropriate threshold value θ(i) may not be reduced.

特願昭62−219460号の方法は、特願昭62−6
1732号におけるこのような問題に対処できるもので
あり、過去の発声よりしきい値パラメータを学習する機
能を有する。しきい値パラメータは以下の手順で学習す
る。まず、認識結果出力後、入力パターンと認識結果を
与えた標準パターンとの間でマツチングを行い、バック
トラックによって最適パスを求める。次に、最適パス上
の累積距離gap+(i)、i=1.・・・、1を求め
、しきい値θ(i)が全てのiにおいてg−p+’:’
x)<θ(f)を満足するようにしきい値パラメータα
゛、β′を求める。次の認識処理に使用するα、βは、
過去1回収上X回の発声に対するしきい値パラメータα
′(X)、β’(x)、x=1.・・・、Xより求める
The method of Japanese Patent Application No. 62-219460 is
This is a device that can deal with such problems in No. 1732, and has a function of learning threshold parameters from past utterances. The threshold parameters are learned using the following steps. First, after outputting the recognition results, matching is performed between the input pattern and the standard pattern that gave the recognition results, and an optimal path is determined by backtracking. Next, the cumulative distance gap+(i) on the optimal path, i=1. ..., 1 is calculated, and the threshold value θ(i) is g-p+':' for all i.
The threshold parameter α is set so that x) < θ(f).
Find ゛, β′. α and β used for the next recognition process are
Threshold parameter α for utterances X times in the past one collection
'(X), β'(x), x=1. ..., find it from X.

(発明が解決しようとする問題点) 従来法における枝刈では、認識結果が正解でもエラーで
も同様の方法でパラメータα、βの学Wを行っていた。
(Problems to be Solved by the Invention) In pruning in the conventional method, the parameters α and β are calculated using the same method regardless of whether the recognition result is correct or erroneous.

しかし、誤認識の場合には最適パスを求める際に、発声
された単語とは異なる標準パターンとのマツチングが行
われるため、正解単語との正解パスは求められない。従
って、誤認識が起きると、適切でないしきい値パラメー
タα。
However, in the case of misrecognition, when determining the optimal path, the uttered word is matched with a different standard pattern, so the correct path with the correct word cannot be determined. Therefore, when misrecognition occurs, the threshold parameter α is inappropriate.

βが学習されることがあり、さらに誤認識を生むことに
つながっていた。
β may be learned, leading to further misrecognition.

本発明の目的は、上記の問題点をなくし、常に適切な枝
刈のしきい値θを定めることのできる音声認識装置を提
供することである。
An object of the present invention is to provide a speech recognition device that eliminates the above-mentioned problems and can always determine an appropriate pruning threshold θ.

(問題点を解決するための手段) 本発明による音声認識装置は次の各部を必要とする。す
なわち、各単語nの音声の特徴ベクトル時系列B” =
 b”、・・・bai・・・b″Tmを標準パターンと
して保持する標準パターン格納部と、枝刈のしきい値を
求めるパラメータであるしきい値パラメータを格納する
しきい値パラメータ格納部と、時刻iの入力音声の特徴
ベクトルaiを逐次読み込み時系列パターンA=al・
・・ai・・・aoとして保持する入力パターン格納部
と、各時刻iにおいて入力音声の特徴aiと前記標準パ
ターン格納部の標準パターンb″。
(Means for Solving the Problems) The speech recognition device according to the present invention requires the following parts. In other words, the speech feature vector time series B'' of each word n =
b",...bai...b"Tm as a standard pattern, and a threshold parameter storage section that stores a threshold parameter that is a parameter for determining a pruning threshold. , the feature vector ai of the input voice at time i is read sequentially and the time series pattern A=al・
. . . ai . . . an input pattern storage section that holds them as ao, the characteristics ai of the input voice at each time i, and the standard pattern b'' of the standard pattern storage section.

との距離”(11j)の累計距離gn(s l 3 )
を前記しきい値パラメータ格納部のパラメータで定めら
れる枝刈条件を満足する(n、j)の値に対して求める
マツチング部と、マツチング部にて時刻工に求められた
累積距離gn(r、J)の最小値を与える単語nを認識
結果として出力する判定部と、認識結果の正否を与える
結果確認部と、結果が正解である場合に入力パターン格
納部における入力パターンAと認識結果の標準パターン
Bnを読み込み最適パスを求める最適パス計算部と、結
果が正解である場合には前記最適パス計算部にて得−8
= られた最適パス上の累積距離の値を用いてしきい値パラ
メータを更新し結果が誤りである場合にはしきい値パラ
メータ格納部のしきい値パラメータをしきい値を高くす
るように更新するしきい値パラメータ決定部の各部であ
る。
Cumulative distance gn(s l 3 ) of "distance" (11j) to
a matching unit that calculates gn(r, J) a determination unit that outputs the word n that gives the minimum value as a recognition result; a result confirmation unit that determines whether the recognition result is correct; and a standard for the input pattern A and the recognition result in the input pattern storage unit when the result is correct. The optimum path calculation section reads the pattern Bn and calculates the optimum path, and if the result is correct, the optimum path calculation section calculates the result by -8.
= The threshold parameter is updated using the value of the cumulative distance on the optimal path determined, and if the result is incorrect, the threshold parameter in the threshold parameter storage is updated to increase the threshold value. These are the various parts of the threshold parameter determining section.

(作用) 本発明による音声認識装置は、過去に発声された音声と
、認識結果の正否の情報を用いてしきい値を学習するこ
とにより、話者や環境の変化に対応して、枝刈を効率よ
く行い高速に認識処理を行うことを特徴とする。
(Operation) The speech recognition device according to the present invention learns a threshold value using speech uttered in the past and information on whether the recognition results are correct or incorrect, and pruns in response to changes in the speaker or the environment. It is characterized by efficient and high-speed recognition processing.

上述したように、枝刈は入力パターンの各時刻iにおけ
るしきい値θ(i)を用いて行う。従って、θ(i)は
正解の単語の最適パス上の累積距離を下回らず、かつ、
高すぎないように設定することが望ましい。本発明の特
徴は、過去の発声に対して最適パス上の累積距離を求め
、それらの値から適切なしきい値θ(i)を求めるパラ
メータを学習することにある。さらに、最適パス上の累
積距離を用いた学習は認識結果が正解であるときのみ行
い、認識結果がエラーである場合には、枝刈のしきい値
を上げることにより連続したエラーを防ぐことを特徴と
する。以下に、その動作原理を説明する。
As described above, pruning is performed using the threshold value θ(i) at each time i of the input pattern. Therefore, θ(i) is not less than the cumulative distance of the correct word on the optimal path, and
It is desirable to set it not too high. The feature of the present invention is to obtain cumulative distances on the optimal path for past utterances, and to learn parameters for obtaining an appropriate threshold value θ(i) from these values. Furthermore, learning using the cumulative distance on the optimal path is performed only when the recognition result is correct, and if the recognition result is an error, the pruning threshold is raised to prevent consecutive errors. Features. The operating principle will be explained below.

従来方式による認識処理が行われ、結果が出力された後
、認識結果が正解か否かの入力を促すプロンプトに従っ
て、利用者が結果の正否を入力する。認識結果が正解で
ある場合には、認識結果の単語nの標準パターンB”と
保持されている基カバターンとの間で前記文献1に述べ
られているDPマツチングを行う。マツチングでは、漸
化式計算において選択されたパスの情報h(z、j)と
累積距離g(i、j)を全ての(i 、 j)に対して
保持しておき、バックトラックにより最適パスを得る。
After the recognition process using the conventional method is performed and the results are output, the user inputs whether the results are correct or not in accordance with a prompt prompting the user to input whether the recognition results are correct or not. If the recognition result is correct, DP matching described in the above-mentioned document 1 is performed between the recognition result standard pattern B of word n and the retained basic pattern.In the matching, the recurrence formula The information h(z, j) of the path selected in the calculation and the cumulative distance g(i, j) are held for all (i, j), and the optimal path is obtained by backtracking.

最適パス上の累積距離g−pt(t )は、最適パスb
−p+ (s ) =J (1)・・・j(f)・・・
j(I)における累積距離g(i 、j(i))として
得られる。
The cumulative distance g-pt(t) on the optimal path is the optimal path b
-p+ (s) = J (1)...j(f)...
It is obtained as the cumulative distance g(i, j(i)) at j(I).

このようにして得られた各iにおける最適パス上の累積
距離g−p+ (1)は、直前の入力音声の時刻iにお
ける枝刈のしきい値θ(i)の最適値と考えることがで
きる。そのため、これらの情報を用いて、現在のしきい
値パラメータを補正することで、次回の認識処理ではよ
り適切なしきい値を設定することができる。さらに、話
者や環境が変化した場合、それ以前と同じパラメータで
は不適切なしきい値θが設定される場合があるが、その
ような場合にも、上記の原理によって、発声ごとにより
適切なθが設定できるようになる。
The cumulative distance g−p+ (1) on the optimal path at each i obtained in this way can be considered as the optimal value of the pruning threshold θ(i) at time i of the immediately preceding input voice. . Therefore, by correcting the current threshold parameters using this information, a more appropriate threshold can be set for the next recognition process. Furthermore, if the speaker or the environment changes, an inappropriate threshold θ may be set using the same parameters as before, but even in such cases, the above principle allows a more appropriate θ to be set for each utterance. can be set.

以上は、認識結果が正解である場合の処理であるが、誤
認識の場合は正解単語に対する最適パスが枝刈きれてし
まった可能性が強いとみなして、現在のしきい値θより
高いしきい値が設定されるようにしきい値パラメータα
、βを更新する。
The above is the process when the recognition result is correct, but in the case of incorrect recognition, it is assumed that there is a strong possibility that the optimal path for the correct word has been pruned, and if the recognition result is higher than the current threshold θ. Threshold parameter α such that the threshold value is set
, β is updated.

(実施例) 以下に、本発明の実施例について図面を参照しながら詳
細に説明する。第1図は、本発明の一実施例を示すブロ
ック図である。
(Example) Examples of the present invention will be described in detail below with reference to the drawings. FIG. 1 is a block diagram showing one embodiment of the present invention.

第1図における標準バクーン格納部2には、あらかじめ
発声された認識対象単語nの各時系列デ一夕が標準パタ
ーンB、とじて格納されており、しきい値パラメータ格
納部3には、枝刈のしきい値θ(i)を求めるためのし
きい値α、βがあらかじめ格納されている。発声された
基カバターンAは実時間で分析され、特徴ベクトルai
の時系列のデータとして逐次マツチング部4に入力され
る。
In the standard Bakun storage unit 2 in FIG. Threshold values α and β for determining the mowing threshold θ(i) are stored in advance. The uttered basic cover turn A is analyzed in real time and the feature vector ai
The data is sequentially input to the matching unit 4 as time-series data.

また、aiは同時に、入力パターン格納部1に逐次格納
され、次の入力があるまで保持される。マツチング部4
では入力されたaiごとにn、jに対して漸化式計算を
行いgn(i+ j)を求める。マツチングには、従来
方式におけるクロックワイズDP法に枝刈の考えを導入
した方式(特願昭62−61732号)を用いる。枝刈
のしきい値θの求め方としては、ここでは、−次車調増
加関数(θ(i)=αi十β)を用いることとする。マ
ツチング部4は、iにおける累積距離計算後、しきい値
パラメータ格納部3のα、βを読み込みθ(i)を計算
し、g’(i、j)<θ(i)を満足する(n、j)を
求める。al+1が入力されると、時刻iで求められた
枝刈基準を満足する(n、j)に対して漸化式計算を行
う。マツチング部4ではこのように枝刈をしながら時刻
Iまでの処理を行い基カバターンAと全ての標準パター
ンBnとのパターン間距離を求める。
Furthermore, ai is simultaneously stored sequentially in the input pattern storage section 1 and held until the next input. Matching section 4
Now, for each input ai, a recurrence formula calculation is performed on n and j to obtain gn(i+j). For matching, a method (Japanese Patent Application No. 62-61732) is used in which the idea of pruning is introduced into the conventional clockwise DP method. As a method for determining the pruning threshold θ, here, a −th vehicle adjustment increasing function (θ(i)=αi + β) is used. After calculating the cumulative distance at i, the matching unit 4 reads α and β from the threshold parameter storage unit 3, calculates θ(i), and satisfies g'(i, j)<θ(i) (n , j). When al+1 is input, recurrence formula calculation is performed for (n, j) that satisfies the pruning criterion determined at time i. The matching section 4 performs the processing up to time I while performing pruning in this manner, and calculates inter-pattern distances between the base cover pattern A and all standard patterns Bn.

判定郡5では、マツチング部4にて得られた基カバター
ンAと全ての標準パターンBn、n=1・・Nとのパタ
ーン間距離のうち最小距離を与えた標準パターンを結果
として出力する。引続き、利用者によってこの認識結果
の正否が結果確認部8より入力される。結果確認部8は
、正否を入力する手段を有し、例えば正否に対応する2
つのキーよりなる装置を用いることができる。このよう
に、結果の正否が入力されると、正否に応じてしきい値
パラメータの学習処理が行われる。
In determination group 5, the standard pattern that gives the minimum distance among the inter-pattern distances between the base cover pattern A obtained by the matching section 4 and all the standard patterns Bn, n=1...N is output as a result. Subsequently, the user inputs whether the recognition result is correct or not from the result confirmation section 8. The result confirmation unit 8 has a means for inputting whether the result is correct or not.
A device consisting of two keys can be used. In this way, when the result is correct or incorrect, the threshold parameter learning process is performed depending on whether the result is correct or incorrect.

まず、結果が正解である場合について説明する。この場
合の学習には、従来方法(特願昭62−61732号)
と同様に、基カバターンと認識結果を与えた標準パター
ンとのマツチングにおける最適パス上の累積距離を用い
る。最適パス計算部6は、利用者から結果が正解である
という入力を得ると、入力パターンAを入力パターン格
納部1より、結果を与えた標準パターンBnを標準パタ
ーン格納部2より読み込み、文献1に示されているよう
なりPマツチング法を用いて1対1のマツチングを行う
。マツチングの際には、(i、j)における累積距離g
(i、j)と(i 、 j)に至るパスh(i、j)を
全ての(i 、 j)に対して保持しておく。最適パス
は、(1,J)より、パスの情報りを遡るバックトラッ
クにより得られる。このようにして得られた最適パス上
の累積距離をg、pt(i) 、 i = 1 、・・
・、■とする。その後、パラメータ決定部7においてし
きい値パラメータα。
First, a case where the result is correct will be explained. In this case, the conventional method (Japanese Patent Application No. 62-61732)
Similarly, the cumulative distance on the optimal path in matching the base cover pattern and the standard pattern that gave the recognition result is used. When the optimal path calculation unit 6 receives input from the user that the result is correct, it reads the input pattern A from the input pattern storage unit 1 and the standard pattern Bn that gave the result from the standard pattern storage unit 2, and reads the input pattern A from the input pattern storage unit 1 and the standard pattern Bn giving the result from the standard pattern storage unit 2, One-to-one matching is performed using the P matching method as shown in . During matching, the cumulative distance g at (i, j)
A path h(i, j) leading to (i, j) and (i, j) is maintained for all (i, j). The optimal path is obtained from (1, J) by backtracking the path information. The cumulative distance on the optimal path obtained in this way is g, pt(i), i = 1,...
・、■. Thereafter, the parameter determination unit 7 determines the threshold parameter α.

βの学習を行う。乙。、1は、最適パス上の累積距離で
あるから、マツチング時の枝刈のしきい値は常にこの値
以上である必要がある。パラメータα。
Perform learning of β. Otsu. , 1 is the cumulative distance on the optimal path, so the pruning threshold during matching must always be greater than or equal to this value. Parameter α.

βの値は例えば、go、の最小自乗近似直線の係数とし
て求めることができる。第3図は、g*p+と求められ
たα、βによるθ(i)を示している。図におけるβは
最小自乗近似直線の係数として求められた値より余裕分
Δβだけ大きくなっている。
The value of β can be obtained, for example, as a coefficient of the least squares approximation straight line of go. FIG. 3 shows θ(i) based on g*p+ and the determined α and β. In the figure, β is larger than the value determined as the coefficient of the least squares approximation straight line by an amount of margin Δβ.

パラメータ決定部7には、このようにして求められたα
、βを過去の発声X回分(X≧0)が格納されている。
The parameter determination unit 7 stores α obtained in this way.
, β have been uttered X times (X≧0) in the past are stored.

これらの値から、新たなしきい値パラメータを求め、し
きい値パラメータ格納部3に格納する。しきい値パラメ
ータの求め方としては、X回のα、βの値の最大値をと
る方法を用いる。しきい値パラメータα、βの求め方と
しては、過去X回の最大値をとる方法の他に、過去X回
の平均値をとる方法などを用いることができる。
New threshold parameters are determined from these values and stored in the threshold parameter storage section 3. The threshold parameter is determined by taking the maximum value of α and β values X times. As a method for determining the threshold parameters α and β, in addition to a method of taking the maximum value of the past X times, a method of taking the average value of the past X times, etc. can be used.

次に、認識結果が誤認識の場合について説明する。利用
者により、認識結果がエラーと入力された場合は、しき
い値パラメータ格納部3より現在設定されているしきい
値パラメータα、βを読み込み、それらをしきい値θ(
i)が増加するように更新する。αの更新値は例えば、
α、、=k・α、14.α。、、=α−+a+TまたB
の更新値も同様に、β。、、−k・β。4.β0.、=
β。、+Tなどの方法を用いることができる。θの求め
方として一次単調増加関数を用いる上記の例では、kと
して1以上の値、または、正の値を持っTを与えること
によりθ1..〉θ。+4となるα、βを設定すること
ができる。
Next, a case where the recognition result is erroneous recognition will be explained. If the user inputs an error in the recognition result, the currently set threshold parameters α and β are read from the threshold parameter storage unit 3 and set to the threshold value θ (
i) is updated so that it increases. For example, the updated value of α is
α,,=k・α,14. α. ,,=α−+a+T and B
Similarly, the updated value of β is also β. ,,−k・β. 4. β0. ,=
β. , +T, etc. can be used. In the above example in which a linear monotonically increasing function is used to obtain θ, θ1. .. 〉θ. It is possible to set α and β to be +4.

以上の実施例では、しきい値θの求め方として一次単調
増加関数を用いて説明したが、それ以外の方法として、
iにおける最小値を基にした場合(θ(i)−gmin
(i )+α)について説明する。この場合には、以下
のようにしてパラメータαを学習するととができる。ま
ず、認識時にマツチング部4における枝刈処理に使用さ
れた各iの累積距離の最小値g m1n(1) + i
=1 +・・・。
In the above embodiments, the method of determining the threshold value θ was explained using a linear monotonically increasing function, but as another method,
Based on the minimum value at i (θ(i)−gmin
(i)+α) will be explained. In this case, the parameter α can be learned as follows. First, the minimum value g m1n (1) + i of the cumulative distance of each i used in the pruning process in the matching unit 4 during recognition.
=1 +...

■を、各時刻iにおいてパラメータ決定部7に格納して
おく。その後、上記の実施例と同様に処理し、最適パス
計算部6においてg−pl(t) 、 i =1、・・
・、■を求めた後、パラメータ決定部7において、g□
rr(1)=g。pl (i) −gmin(i) 、
 s−1,・・・、■を計算しga+。の最大値を求め
る。
(2) is stored in the parameter determination unit 7 at each time i. Thereafter, processing is performed in the same manner as in the above embodiment, and the optimal path calculation unit 6 calculates g-pl(t), i = 1,...
・,■ After determining g□
rr(1)=g. pl(i)-gmin(i),
Calculate s-1,..., ■ and get ga+. Find the maximum value of.

パラメータ決定部7には、このようにして求められたg
□、の最大値が過去の発声X回分(X≧0)格納されて
いる。αはこれらの値の平均、または−】6− 最大値に基づいて決定することができる。
The parameter determination unit 7 stores g obtained in this way.
The maximum value of □ is stored for X times of past utterances (X≧0). α can be determined based on the average of these values or the maximum value.

(発明の効果) 以上に説明した本発明による高速音声認識装置では、誤
認識が起きてもそれが誤認識の多発につながることなく
、枝刈における最適なしきい値を学習することができる
。そのため、話者や環境などの変化に適応したしきい値
の設定が可能になる。それにより、しきい値が不適当で
あるために起きていた従来の問題点が解決され、認識速
度がより高速になり、また、認識率が向上する。
(Effects of the Invention) In the high-speed speech recognition device according to the present invention described above, even if erroneous recognition occurs, it is possible to learn an optimal threshold value for pruning without leading to frequent erroneous recognition. Therefore, it is possible to set a threshold value that adapts to changes in the speaker, environment, etc. This solves the conventional problems caused by inappropriate threshold values, increases recognition speed, and improves recognition rate.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例を示すブロック図、第2図は
従来方式におけるマツチングの様子を説明するための図
、第3図は第1図実施例におけるパラメータ決定部で行
なわれる処理を説明するための図である。 1・・・入力パターン格納部、2・・・標準パターン格
納部、3・・・しきい値パラメータ格納部、4・・・マ
ツチング部、5・・・判定部、6・・・最適パス計算部
、7・・・パラメータ決定部、8・・・結果確認部。
FIG. 1 is a block diagram showing an embodiment of the present invention, FIG. 2 is a diagram for explaining the state of matching in the conventional method, and FIG. 3 shows the processing performed by the parameter determining section in the embodiment of FIG. It is a figure for explaining. DESCRIPTION OF SYMBOLS 1... Input pattern storage part, 2... Standard pattern storage part, 3... Threshold parameter storage part, 4... Matching part, 5... Judgment part, 6... Optimal path calculation part, 7...parameter determination part, 8...result confirmation part.

Claims (1)

【特許請求の範囲】[Claims] 各単語nの音声の特徴ベクトル時系列B^n=b^n、
・・・b^n_j・・・b^n_j_mを標準パターン
として保持する標準パターン格納部と、枝刈のしきい値
を求めるパラメータであるしきい値パラメータを格納す
るしきい値パラメータ格納部と、時刻iの入力音声の特
徴ベクトルa_iを逐次読み込み時系列パターンA=a
_1・・・a_i・・・a_Iとして保持する入力パタ
ーン格納部と、各時刻iにおいて入力音声の特徴a_i
と前記標準パターン格納部の標準パターンb^n_jと
の距離d^n(i、j)の累積距離g^n(i、j)を
前記しきい値パラメータ格納部のパラメータで定められ
る枝刈条件を満足する(n、j)の値に対して求めるマ
ッチング部と、このマッチング部にて時刻Iに求められ
た累積距離g^n(I、J)の最小値を与える単語nを
認識結果として出力する判定部と、認識結果の正否を与
える結果確認部と、結果が正解である場合に前記入力パ
ターン格納部における入力パターンAと認識結果の標準
パターンBnを読み込み最適パスを求める最適パス計算
部と、結果が正解である場合には前記最適パス計算部に
て得られた最適パス上の累積距離の値を用いてしきい値
パラメータを更新し結果が誤りである場合には前記しき
い値パラメータ格納部のしきい値パラメータをしきい値
を高くするように更新するしきい値パラメータ決定部と
を有することを特徴とする音声認識装置。
Voice feature vector time series of each word n = b^n,
...b^n_j...b^n_j_m as a standard pattern; a threshold parameter storage section that stores a threshold parameter that is a parameter for determining a pruning threshold; Sequentially read feature vector a_i of input voice at time i, time series pattern A=a
_1...a_i...a_I and the input pattern storage section that stores the characteristics a_i of the input voice at each time i.
The cumulative distance g^n(i, j) of the distance d^n(i, j) between the standard pattern b^n_j in the standard pattern storage section and the standard pattern b^n_j in the standard pattern storage section is determined by the pruning condition determined by the parameters in the threshold parameter storage section. A matching unit that calculates the value of (n, j) that satisfies a determination unit that outputs, a result confirmation unit that determines whether the recognition result is correct, and an optimal path calculation unit that reads the input pattern A in the input pattern storage unit and the standard pattern Bn of the recognition result and calculates the optimal path if the result is correct. If the result is correct, the threshold parameter is updated using the value of the cumulative distance on the optimal path obtained by the optimal path calculation section, and if the result is incorrect, the threshold parameter is updated. A speech recognition device comprising: a threshold parameter determination unit that updates a threshold parameter in a parameter storage unit so as to increase the threshold value.
JP62271148A 1987-10-26 1987-10-26 Voice recognition equipment Granted JPH01112298A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62271148A JPH01112298A (en) 1987-10-26 1987-10-26 Voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62271148A JPH01112298A (en) 1987-10-26 1987-10-26 Voice recognition equipment

Publications (2)

Publication Number Publication Date
JPH01112298A true JPH01112298A (en) 1989-04-28
JPH0577079B2 JPH0577079B2 (en) 1993-10-25

Family

ID=17495995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62271148A Granted JPH01112298A (en) 1987-10-26 1987-10-26 Voice recognition equipment

Country Status (1)

Country Link
JP (1) JPH01112298A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08500400A (en) * 1991-01-18 1996-01-16 ディーダブリュ・ウインドウ・カバリングズ・インク Venetian blinds with thin headrails

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08500400A (en) * 1991-01-18 1996-01-16 ディーダブリュ・ウインドウ・カバリングズ・インク Venetian blinds with thin headrails

Also Published As

Publication number Publication date
JPH0577079B2 (en) 1993-10-25

Similar Documents

Publication Publication Date Title
US7447634B2 (en) Speech recognizing apparatus having optimal phoneme series comparing unit and speech recognizing method
US8612235B2 (en) Method and system for considering information about an expected response when performing speech recognition
JP4531166B2 (en) Speech recognition method using reliability measure evaluation
KR20000004972A (en) Speech procrssing
McDermott et al. Prototype-based minimum classification error/generalized probabilistic descent training for various speech units
JPH07334184A (en) Calculating device for acoustic category mean value and adapting device therefor
JPH0683388A (en) Speech recognition device
JP3014177B2 (en) Speaker adaptive speech recognition device
US5029212A (en) Continuous speech recognition unit using forward probabilities
JP2852298B2 (en) Standard pattern adaptation method
JPH1185186A (en) Nonspecific speaker acoustic model forming apparatus and speech recognition apparatus
US5828998A (en) Identification-function calculator, identification-function calculating method, identification unit, identification method, and speech recognition system
JPH01112298A (en) Voice recognition equipment
US6718299B1 (en) Information processing apparatus for integrating a plurality of feature parameters
Yfantis et al. Vector interpolation for time alignment in speech recognition
JP2570448B2 (en) Standard pattern learning method
JPH0962644A (en) neural network
JPH09258783A (en) Voice recognition device
JP3400474B2 (en) Voice recognition device and voice recognition method
JP3090204B2 (en) Speech model learning device and speech recognition device
JP3316352B2 (en) Voice recognition method
JPH01138596A (en) Voice recognition equipment
JPH08248983A (en) Voice recognition device
JPH071440B2 (en) Feature pattern creation method
Gosztolya et al. On best fit T-norms in speech recognition