JPH0449720B2 - - Google Patents
Info
- Publication number
- JPH0449720B2 JPH0449720B2 JP58034979A JP3497983A JPH0449720B2 JP H0449720 B2 JPH0449720 B2 JP H0449720B2 JP 58034979 A JP58034979 A JP 58034979A JP 3497983 A JP3497983 A JP 3497983A JP H0449720 B2 JPH0449720 B2 JP H0449720B2
- Authority
- JP
- Japan
- Prior art keywords
- distance
- vector
- standard pattern
- input
- vector sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 239000013598 vector Substances 0.000 claims description 49
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 230000008602 contraction Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Description
【発明の詳細な説明】
産業上の利用分野
本発明は不特定の話者を対象とする音声認識装
置に関する。DETAILED DESCRIPTION OF THE INVENTION Field of the Invention The present invention relates to a speech recognition device intended for unspecified speakers.
従来例の構成とその問題点
従来、音声認識装置では入力音声信号を分析す
ることによつて得られるn次元の特徴ベクトル系
列{a1、a2、……aI}に対し辞書としてあらかじ
め装置内に登録してあるP個の標準パターンベク
トル系列{b1 1、b1 2、……b1 J}……{bp 1、bp 2、……
bp K}の中からこれと距離の最も近いもの、もしく
は最も類似性の大きいものをもつて認識結果とし
ているが、このとき入力ベクトル系列{a1、a2、
……、aI}と標準パターンベクトル系列のうちの
1つ、例えば{bl 1、bl 2、……bM}(但しl=1〜
P)の比較に際して{a1、a2、……、aI}の1要
素ベクトルaiと{bl 1、bl 2、……、bl M}の中の1要
素ベクトルbl nの市街距離、もしくはユークリツ
ド距離を計算し、これをもとに2つのベクトル系
列の総距離を、ダイナミツクプログラミングや線
形伸縮などの手法を用いて計算するものが大部分
である。Configuration of conventional example and its problems Conventionally, in a speech recognition device, an n-dimensional feature vector sequence {a 1 , a 2 , ...a I } obtained by analyzing an input speech signal is processed in advance as a dictionary. P standard pattern vector sequences registered in {b 1 1 , b 1 2 , ...b 1 J } ...{b p 1 , b p 2 , ...
b p K }, the one with the closest distance or the one with the greatest similarity is used as the recognition result. In this case, the input vector sequence {a 1 , a 2 ,
..., a I } and one of the standard pattern vector series, e.g. {b l 1 , b l 2 , ... b M } (where l=1~
P), one-element vector ai of {a 1 , a 2 , ..., a I } and one-element vector b l n of {b l 1 , b l 2 , ..., b l M } Most methods calculate the city distance or Euclidean distance, and then calculate the total distance between two vector sequences based on this using techniques such as dynamic programming or linear expansion/contraction.
但し、市街距離、ユークリツド距離は次式で与
えられる。 However, the city distance and Euclidean distance are given by the following formula.
ai={ai、1、ai2、……、ai、N}
bl n={bl n,1、bl n,2、……、bl n,N}とするとき
cl,n=N
〓r=1
|ai、r−bl n,rr|
(市街距離)
yl,n=N
〓r=1
(ai、r−bl n,r)2
(ユークリツド距離)
しかし、市街距離や、ユークリツド距離では登
録されている標準パターンを抽出した話者と、実
際に認識しようとする話者が異なる。いわゆる不
特定話者認識の場合に十分な認識率が得られてい
なかつた。これは話者毎のスペクトルの構造の微
細な変動に起因するものである。ai = {ai, 1 , ai 2 , ..., ai, N} b l n = {b l n,1 , b l n,2 , ..., b l n,N }, then c l,n = N 〓 r=1 |ai, r−b l n,r r| (urban distance) y l,n = N 〓 r=1 (ai, r−b l n,r ) 2 (Euclidean distance) However, In city distance and Euclidean distance, the speaker who extracted the registered standard pattern and the speaker who is actually trying to recognize are different. In the case of so-called speaker-independent recognition, a sufficient recognition rate was not obtained. This is due to minute variations in the spectral structure of each speaker.
音声信号の一区間、例えば10mS程度を切りと
つて、これをフーリエ変換やフイルタバンクなど
の手段によつて周波数分析を行つた時、幾つかの
周波数帯にピークが現われる。これはフオルマン
トと呼ばれ音韻を特徴づける重要なパラメータで
ある。フオルマントとは人間の声道を、ある伝達
関数を持つフイルタとしてとらえた時のフイルタ
の極、すなわち共振点に相当する。このうち共振
周波数の低いものから順に第1フオルマント、第
2フオルマント、……第nフオルマントといい、
特に第1、第2フオルマントを中心に比較的低次
のフオルマントは音韻を特徴ずけるのに非常に重
要な役割をはたすことが一般に知られている。 When a section of an audio signal, for example about 10 msec, is cut out and frequency analyzed using means such as Fourier transform or a filter bank, peaks appear in some frequency bands. This is called a formant and is an important parameter that characterizes phoneme. A formant corresponds to the pole of a filter, or resonance point, when the human vocal tract is viewed as a filter with a certain transfer function. Among these, the one with the lowest resonance frequency is called the first formant, the second formant, ... the nth formant,
It is generally known that relatively low-order formants, particularly the first and second formants, play a very important role in characterizing phonemes.
フオルマント周波数と帯域幅が決定されれば、
音韻はほぼ決定できるが、しかし又、個人によつ
バラツキがありこれが不特定話者認識における認
識率低下の原因となつている。 Once the formant frequency and bandwidth are determined,
Although the phoneme can almost be determined, there is also variation depending on the individual, and this is the cause of a decline in the recognition rate in speaker-independent recognition.
例えば|a|(「ア」)と発声された音声波形の
一部を切り出してピツチ成分が現われない様な比
較的広帯域なハンドパスフイルタ群で周波数分析
を行うと第1図Aに示すようにkHzを中心に2つ
の山ができる。これが第1、第2フオルマント
(F1,F2)相当する。又、第3フオルマント
(F3)は3とH2付近に現われる。 For example, if you cut out a part of the voice waveform uttered as |a| (``a'') and perform frequency analysis using a relatively wide band hand-pass filter group that does not contain pitch components, the result will be as shown in Figure 1A. Two peaks are formed around kHz. This corresponds to the first and second formants (F1, F2). Also, the third formant (F3) appears near 3 and H2.
これに対して|i|(「イ」)ではF1300Hz、
F22.5kHz、F33kHzとなる(第1図B)
しかしF1、F2、F3……の値は個人によつて微
妙な差が有る。すなわち同じ|a|と発声された
音でも話者Aと話者Bでは第1図C,Dのように
フオルマントの位置が多少異なる。この話者間に
おけるフオルマント位置のバラツキが従来の音声
認識装置を不特定話者に適用した認識率の低下の
原因となつていた。 On the other hand, |i| (“I”) has F1300Hz,
F22.5kHz and F33kHz (Figure 1B) However, there are slight differences in the values of F1, F2, F3... depending on the individual. That is, even when the same sound is uttered as |a|, the positions of the formants are slightly different between speaker A and speaker B, as shown in FIG. 1, C and D. This variation in formant positions among speakers has been the cause of a decrease in recognition rates when conventional speech recognition devices are applied to unspecified speakers.
発明の目的
本発明は上記欠点に鑑み、フオルマント周波数
の個人差による不特定話者認識における認識率の
低下を改善する音声認識装置を提供することを目
的とする。OBJECTS OF THE INVENTION In view of the above drawbacks, it is an object of the present invention to provide a speech recognition device that improves the reduction in recognition rate in speaker-independent recognition due to individual differences in formant frequencies.
発明の構成
本発明は、特徴ベクトルの列を出力する周波数
分析手段と、あらかじめ周波数分析された標準パ
ターンベクトル系列を記憶手段と、前記周波数分
析手段の出力と、前記標準パターンベクトル系列
の各々を比較する比較手段と、前記比較の結果最
小の距離を与える標準パターンベクトルを認識結
果とする判断手段とを備えた音声認識装置であ
り、入力パターンペクトル列の各ベクトルと標準
パターンベクトル列の各ベクトルを隣接周波数ど
うしの組に分け各組毎に平行移動させながら比較
し、その距離が最小となる対応を求め、その時の
距離の総和をもつて2ベクトルの間の距離とする
ことにより分者間のフオルマント位置の個人差を
軽減し、不特定話者認識における認識率の向上を
はかることのできるものである。Structure of the Invention The present invention includes a frequency analysis means for outputting a sequence of feature vectors, a storage means for storing a standard pattern vector sequence subjected to frequency analysis in advance, and a comparison between the output of the frequency analysis means and each of the standard pattern vector sequences. A speech recognition device is provided with a comparison means for determining a standard pattern vector that provides the minimum distance as a result of the comparison, and a determination means for determining, as a recognition result, a standard pattern vector that provides the minimum distance as a result of the comparison. Divide into pairs of adjacent frequencies, compare each pair while moving them in parallel, find the correspondence that minimizes the distance, and calculate the distance between the two vectors by taking the sum of the distances at that time. This method can reduce individual differences in formant positions and improve the recognition rate in speaker-independent recognition.
実施例の説明
以下、本発明の一実施例について図面を参照し
ながら説明する。DESCRIPTION OF EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings.
第2図は本発明の一実施例における音声認識装
置のブロツク図である。同図において、1は入力
音声をパラメータ分析してN次元のパラメータベ
クトル列{a1、a2、……、aI}に遂次変換するパ
ラメータ分析部で、フイルタバンク、フーリエ変
換器なの周波数分析器により構成される。2はス
イツチで、標準パターン作成時にはB側に、パタ
ーン比較時にはA側に切り換る。3はパターン記
憶部で、パラメータ分析部1により作成されたN
次元のパラメータベクトルの列を標準パターン
{b1 1、b1 2、……、b1 J}、……、{bp 1、bp 2、……bp K
}
として記憶する。 FIG. 2 is a block diagram of a speech recognition device in one embodiment of the present invention. In the figure, reference numeral 1 denotes a parameter analysis unit that analyzes the parameters of the input voice and sequentially converts it into an N-dimensional parameter vector sequence {a 1 , a 2 , ..., a I }. It consists of an analyzer. 2 is a switch which is switched to the B side when creating a standard pattern and to the A side when comparing patterns. 3 is a pattern storage unit, which stores N created by the parameter analysis unit 1.
The array of dimensional parameter vectors is defined as a standard pattern {b 1 1 , b 1 2 , ..., b 1 J }, ..., {b p 1 , b p 2 , ...b p K
}
be memorized as
4は移相部でK個の移相器より成り、標準パタ
ーンベクトル列に属する1ベクトルbl nを
bl n={bl n,1、bl n,2……、bl n,N}とする時、これをK
個の組
に分割してその各々を対応する移相器によみ出し
てシフトする。5は部分距離計算部で、K個の部
分距離計算器より成り、シフトしながら順次出力
される各移相器の出力と、同じくK個の組に分割
された入力パラメータベクトルの1つ
ai={ai、1、ai,2、……ai,r}
……{ai,t、ai,t+1……ai,N}
の各組について距離を計算する。 4 is a phase shifter consisting of K phase shifters, which converts one vector b l n belonging to the standard pattern vector sequence into b l n = {b l n,1 , b l n,2 ..., b l n, N }, this is K
set of pieces The signal is divided into 2 and each of them is transferred to a corresponding phase shifter and shifted. 5 is a partial distance calculation unit, which consists of K partial distance calculators, and calculates the output of each phase shifter, which is sequentially output while shifting, and one of the input parameter vectors ai=, which is also divided into K sets. The distance is calculated for each set of {ai, 1, a i,2 , ... a i,r } ... {a i,t , a i,t+1 ... a i,N }.
6は部分判定部で、K個の部分判定器から成り
順次シフトしながら計算した各移相器出力のうち
最小のものを選択し出力する。7は総合距離計算
部で、部分判定部15より得られたK個の総和を
求めると共に、以上の動作を入力パラメータベク
トル列のi=1〜Iについて行つた結果を順次累
積加算してゆく。8は判定部で、以上の操作を、
標準パターンベクトルのl=1〜Pに対して行い
その結果得られた距離が最小のものをもつて認識
結果として信号線9に出力する。 Reference numeral 6 denotes a partial determining unit, which is composed of K partial determining units, and selects and outputs the minimum among the calculated phase shifter outputs while sequentially shifting. Reference numeral 7 denotes a total distance calculation unit which calculates the sum of the K values obtained from the partial determination unit 15 and sequentially cumulatively adds the results of performing the above operations for i=1 to I of the input parameter vector sequence. 8 is the judgment section, which performs the above operations,
This is performed for standard pattern vectors l=1 to P, and the one with the minimum distance obtained as a result is output to the signal line 9 as the recognition result.
次に上記のように構成された装置の動作につい
て、標準パターン作成時、パターン比較時とに分
けて各々説明する。 Next, the operation of the apparatus configured as described above will be explained separately for the time of standard pattern creation and the time of pattern comparison.
まず標準パターン作成時にはスイツチ2をB側
に接続し入力された音声信号をパラメータ分析部
1よりN次元のパラメータベクトルの列{a1、
a2、……、aI}を遂次変換した後、パターン記憶
部3に記憶させる。この動作を9回繰り返すこと
によりパターン記憶部3内に標準パターンベクト
ル列{b1 1、b1 2、……、b1 J}、……{bp 1、bp 2、……
、
bp K}が記憶される。 First, when creating a standard pattern, the switch 2 is connected to the B side, and the input audio signal is processed by the parameter analysis section 1 into an N-dimensional parameter vector sequence {a 1 ,
a 2 , . . . , a I } are sequentially converted and then stored in the pattern storage unit 3. By repeating this operation nine times, standard pattern vector sequences {b 1 1 , b 1 2 , ..., b 1 J }, ... {b p 1 , b p 2 , ...
,
b p K } is stored.
次にパターン比較の場合について説明する。パ
ターン比較に際しては、スイツチ2をA側に接続
し、パラメータ分析部1は入力音声を入力パラメ
ータベクトル列{a1、a2、……、aI}に変換し部
分距離計算部5に入力する。一方パターン記憶部
3は標準パターンベクトル列の1つ{bl 1、bl 2、…
…、bl M}の各ベクトルをK個の組に分け移相部
4のK個の移相器に入力する。すなわちベクトル
bl nを{bl 1、bl 2、……、bl M}に層する1ベクトルと
しbl n={bl n,1、bl n,2……bl n,N}とするとき、これを
に分割しこれを移相部4の入力とする。 Next, the case of pattern comparison will be explained. For pattern comparison, the switch 2 is connected to the A side, and the parameter analysis section 1 converts the input voice into an input parameter vector sequence {a 1 , a 2 , ..., a I }, and inputs it to the partial distance calculation section 5. . On the other hand, the pattern storage unit 3 stores one of the standard pattern vector sequences {b l 1 , b l 2 , . . .
..., b l M } are divided into K groups and input to K phase shifters of the phase shifter 4. i.e. vector
Let b l n be one vector layered in {b l 1 , b l 2 , ..., b l M }b l n = {b l n,1 , b l n,2 ...b l n,N } , then this This is used as input to the phase shifter 4.
移相部4の各位相器では、次段の部分距離計算
部5で部分距離が計算される毎に、その出力をシ
フトし、同じように組分けされた入力パラメータ
ベクトル列の各ベクトルとの間でパターンをずら
せながら距離計算を行う。 Each phase shifter in the phase shifter 4 shifts its output each time a partial distance is calculated in the partial distance calculator 5 in the next stage, and compares it with each vector in the input parameter vector sequence grouped in the same way. Distance calculations are performed while shifting the pattern between the two.
すなわち入力パラメータベクトル列{a1、a2、
……、aI}の一ベクトルai(i=1〜I)の各要
素を同じくK個の組に分割する。すなわち
この各組を部分距離計算部5の各部分距離計算器
の一方の入力とし、標準パターンベクトルのそれ
を他方の入力とする。この時第1組目の距離を市
街距離で表わした時
c1d=S
〓v=1
|ai,v−bl n,(v+d)| ……(1)
で表わされる。この時のdが移相部4でのシフト
量となる。以下第K組迄同様にして距離ck,vが定
義できる(k=1〜K)。 In other words, the input parameter vector sequence {a 1 , a 2 ,
..., a I }, each element of one vector ai (i=1 to I) is similarly divided into K sets. i.e. Each of these sets is used as one input of each partial distance calculator of the partial distance calculating section 5, and that of the standard pattern vector is used as the other input. At this time, when the distance of the first set is expressed as a city distance, it is expressed as c 1d = S 〓 v=1 | a i,v −b l n,(v+d) | ...(1). d at this time becomes the shift amount in the phase shifter 4. The distance c k,v can be defined in the same manner up to the Kth group (k=1 to K).
部分判定部6では、部分距離計算部5より順次
与えられる距離ck,v(但し、−D1dD2:D1、
D2はシフトの量を示す定数)のうち最小のもの
ck,vnioを判定し、総合距離計算部7に入力する。
総合距離計算部7では部分判定部6から得られる
K個の部分距離の総和を求め、さらに、この総和
を、標準パターンベクトル列
{bl 1、bl 2、……bl n、……bl M}のm=1〜Mにわた
つて累積し、これを入力パターンベクトル列
{a1、a2、……aI}との距離clとして総合判定部
8に出力する。すなわち
cl=M
〓m=1 K
〓k=1
ck,vnio ……(2)
総合判定部8では以上の動作を標準パターンベク
トル列のl=1〜Pについて行い、その時最小の
距離を与える標準パターンベクトル列をもつて認
識結果として信号線9に出力する。 In the partial determination unit 6, the distances c k,v sequentially given by the partial distance calculation unit 5 (however, -D1dD2:D1,
D2 is a constant indicating the amount of shift).
c k,vnio is determined and input to the comprehensive distance calculation section 7.
The total distance calculation section 7 calculates the sum of the K partial distances obtained from the partial determination section 6, and further converts this sum into a standard pattern vector sequence {b l 1 , b l 2 , . . . b l n , . . . b l M } over m=1 to M, and output this to the comprehensive determination unit 8 as the distance cl from the input pattern vector sequence {a 1 , a 2 , . . . a I }. That is, cl= M 〓 m=1 K 〓 k=1 c k,vnio ...(2) The comprehensive judgment unit 8 performs the above operation for l=1 to P of the standard pattern vector sequence, and then gives the minimum distance. A standard pattern vector sequence is output to the signal line 9 as a recognition result.
次に移相部4のシフト動作とパターン比較につ
いて第3図を用いてさらに説明する。 Next, the shift operation of the phase shifter 4 and pattern comparison will be further explained using FIG. 3.
第3図Aは話者甲によつて発せられた入力パタ
ーンベクトル列の1つaiを示し、
ai={ai,1、ai,2、……ai,N}とする。 FIG. 3A shows one input pattern vector sequence ai uttered by speaker A, where ai={a i,1 , a i,2 , . . . a i,N }.
同図Cは標準パターンベクトル列中の入力パター
ンベクトルに対応するベクトルbl nを示し、
bl n={bl n,1、……、bl n,N}
とし、これらをK個のブロツクに分割した各々を
B1〜B4とする。C in the figure shows the vector b l n corresponding to the input pattern vector in the standard pattern vector sequence, b l n = {b l n,1 , ..., b l n,N }, and these are divided into K pieces. Each divided into blocks
B1 to B4.
この時、前述の部分距離
c1d=S
〓v=1
|ai,v−bl n,(v+d)|(−D1dD2)を計算
する動作は、第3図Bに示す様に標準パターンの
B1部を左から右に順次1サンプルずつシフトし
てその距離を順次計算してゆくことに他ならな
い。 At this time, the operation of calculating the partial distance c 1d = S 〓 v=1 |a i,v −b l n,(v+d) |(−D1dD2) is standard as shown in Figure 3B. pattern of
This is nothing more than shifting part B1 one sample at a time from left to right and calculating the distance one by one.
以上のように本実施例によれば標準パターンベ
クトルをK等分し順次シフトする移相部4、同じ
くK等分された入力パターンと移相部4の出力と
の距離を順次計算する部分距離計算部5とその出
力のうち最小距離のものを判定する部分判定部6
を設けることにより入力パターンに対して標準パ
ターンの各部を平行移動させながら比較すること
により発話者が異なることによるフオルマントの
位置のずれを補正するパターン比較法を実現する
ことができる。 As described above, according to this embodiment, the phase shifter 4 divides the standard pattern vector into K equal parts and shifts them sequentially, and the partial distance sequentially calculates the distance between the input pattern divided into K equal parts and the output of the phase shifter 4. A calculation unit 5 and a partial determination unit 6 that determines the minimum distance among its outputs.
By providing this, it is possible to realize a pattern comparison method that corrects shifts in formant positions due to different speakers by comparing each part of the standard pattern while moving it parallel to the input pattern.
なお本分中式(1)で与えられる市街距離c,dはこ
れをユークリツド距離やLPC距離等他の距離尺
度を用いても同様に実現できる。 The urban distances c and d given by Equation (1) in the main text can be similarly realized using other distance measures such as Euclidean distance or LPC distance.
又、総合距離計算部において式(2)で与えられる
累積距離clの計算は、線形伸縮やD.P.マツチング
の手法を併用して行うこともできる。 Further, the calculation of the cumulative distance cl given by equation (2) in the comprehensive distance calculation section can also be performed using linear expansion/contraction and DP matching techniques.
発明の効果
以上のように本発明の音声認識装置は標準パタ
ーン並びに入力パターンをK個の組に分割し、各
組を個別に平行移動させながらその距離が最小と
なる時の距離の総和をもつて2つのパターンの距
離とすることにより、フオルマントの個人差に起
因する距離の誤差を軽減し不特定話者音声認識に
おける認識率の改善を図ることができ、その工業
的価値は大なるものがある。Effects of the Invention As described above, the speech recognition device of the present invention divides the standard pattern and the input pattern into K sets, moves each set individually in parallel, and calculates the sum of the distances when the distance is the minimum. By setting the distance between the two patterns as the distance between the two patterns, it is possible to reduce the distance error caused by individual differences in formants and improve the recognition rate in speaker-independent speech recognition, which has great industrial value. be.
第1図A〜Dはスペクトル形状の差異を説明す
るための波形図、第2図は本発明の一実施例にお
ける音声認識装置のブロツク図、第3図は同実施
例のパターン比較方法を説明するための波形図で
ある。
1……パラメータ分析部、2……スイツチ、3
……パターン記憶部、4……移相部、5……部分
距離計算部、6……部分判定部、7……総合距離
計算部、8……総合判定部。
Figures 1A to D are waveform diagrams for explaining differences in spectral shapes, Figure 2 is a block diagram of a speech recognition device in an embodiment of the present invention, and Figure 3 explains a pattern comparison method in the same embodiment. FIG. 1...Parameter analysis section, 2...Switch, 3
...Pattern storage unit, 4...Phase shift unit, 5...Partial distance calculation unit, 6...Partial judgment unit, 7...Comprehensive distance calculation unit, 8...Comprehensive judgment unit.
Claims (1)
ベクトル列{a1、a2……、aI}を出力する周波数
分析手段と、あらかじめ周波数分析されたP組の
標準パターンベクトル列{b1 1、b1 2、……、b1 J}…
…、{bp 1、bp 2、……、bp K}を記憶する記憶手段と、
前記入力特徴ベクトル列{a1、a2、……aI}の一
要素ベクトルai(i=1〜I)と、前記標準パタ
ーンベクトル系列{b1 1、b1 2、……、b1 J}……、
{bp 1、bp 2、……、bp K}の一要素ベクトルbl n(l=1
〜P)を比較するに際し、bl nの要素{bl n,1、bl n,2、
……、bl n,N}を隣接周波数どうしの組{bl n,1、
bl n,2、……、bl n,S}……{bn,l t、bl n,t+1、……bl n
,N}
に分割し、これを同様に分割したaiの該当周波数
帯域を中心として、各組毎に平行移動し、その距
離が最小となる対応を求め、その時の各組の距離
の総和をもつてベクトルaiとbl nの距離とし、この
尺度によつて前記周波数分析手段の出力{a1、
a2、……、aI}と前記標準パターンベクトル系列
{b1 1、b1 2、……、b1 J}……、{bp 1、bp 2、……、bp K
}
の各々を比較する比較手段と、前記比較の結果最
小距離を与える標準パターンベクトル{bl 1、bl 2、
……bl M}をもつて認識結果とする判定手段とを
具備する音声認識装置。1. A frequency analysis means that frequency-analyzes an input audio signal and outputs an N-dimensional feature vector sequence {a 1 , a 2 ..., a I }, and P sets of standard pattern vector sequences {b 1 that have been frequency-analyzed in advance 1 , b 1 2 , ..., b 1 J }...
..., {b p 1 , b p 2 , ..., b p K };
One element vector ai (i=1 to I) of the input feature vector sequence {a 1 , a 2 , ... a I } and the standard pattern vector sequence {b 1 1 , b 1 2 , ..., b 1 J }……,
One - element vector b l n ( l = 1
~P), the elements of b l n {b l n,1 , b l n,2 ,
..., b l n,N } is a set of adjacent frequencies {b l n,1 ,
b l n,2 ,..., b l n,S }...{b n , l t , b l n,t+1 ,...b l n
,N }
, move each pair in parallel around the corresponding frequency band of ai divided in the same way, find the correspondence that minimizes the distance, and then create a vector ai with the sum of the distances of each pair. and b l n , and by this measure, the output of the frequency analysis means {a 1 ,
a 2 , ..., a I } and the standard pattern vector sequence {b 1 1 , b 1 2 , ..., b 1 J } ..., {b p 1 , b p 2 , ..., b p K
}
a standard pattern vector {b l 1 , b l 2 ,
...b l M } as a recognition result.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58034979A JPS59160199A (en) | 1983-03-02 | 1983-03-02 | voice recognition device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58034979A JPS59160199A (en) | 1983-03-02 | 1983-03-02 | voice recognition device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS59160199A JPS59160199A (en) | 1984-09-10 |
| JPH0449720B2 true JPH0449720B2 (en) | 1992-08-12 |
Family
ID=12429260
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58034979A Granted JPS59160199A (en) | 1983-03-02 | 1983-03-02 | voice recognition device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS59160199A (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP4060555A1 (en) | 2021-03-17 | 2022-09-21 | Robovision | Improved visual servoing |
| WO2022194883A2 (en) | 2021-03-17 | 2022-09-22 | Robovision | Improved visual servoing |
-
1983
- 1983-03-02 JP JP58034979A patent/JPS59160199A/en active Granted
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP4060555A1 (en) | 2021-03-17 | 2022-09-21 | Robovision | Improved visual servoing |
| WO2022194883A2 (en) | 2021-03-17 | 2022-09-22 | Robovision | Improved visual servoing |
Also Published As
| Publication number | Publication date |
|---|---|
| JPS59160199A (en) | 1984-09-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Watanabe | Formant estimation method using inverse-filter control | |
| US5749073A (en) | System for automatically morphing audio information | |
| JP3055691B2 (en) | Voice recognition device | |
| EP0686965A2 (en) | Speech recognition apparatus with speaker adaptation using acoustic category mean value calculus | |
| US4991216A (en) | Method for speech recognition | |
| JPH0638199B2 (en) | Voice recognizer | |
| JPS6128998B2 (en) | ||
| JPH0772900A (en) | Speech synthesis emotion imparting method | |
| Das | Some experiments in discrete utterance recognition | |
| JPH0449720B2 (en) | ||
| JPH09319391A (en) | Speech synthesis method | |
| KR101056567B1 (en) | Apparatus and Method for Selecting Synthesis Unit in Corpus-based Speech Synthesizer | |
| Dognin et al. | Parameter optimization for vocal tract length normalization | |
| Zbancioc et al. | A New Approach for Formants Emphasis Using Fuzzy Techniques | |
| JPS6048040B2 (en) | Learning processing method for individual differences in speech recognition | |
| JPH0246960B2 (en) | ||
| KR19990087730A (en) | Real-time speech recognition system for unspecified speakers and method thereof | |
| JPH0574080B2 (en) | ||
| JPH0632010B2 (en) | Voice recognizer | |
| Funada | Speech analysis using a time‐varying ARX model for separating the source‐tract coupling of vowels | |
| Mito et al. | Real‐time pitch detection with a digital signal processor | |
| JPH0554678B2 (en) | ||
| JPH02203396A (en) | Feature extraction system for voice | |
| Takagi et al. | Formant frequency estimation by moment calculation of the speech spectrum | |
| Nomura et al. | A pitch extraction method using higher‐order joint moment |