JPH0632007B2 - Speaker verification method - Google Patents
Speaker verification methodInfo
- Publication number
- JPH0632007B2 JPH0632007B2 JP2081757A JP8175790A JPH0632007B2 JP H0632007 B2 JPH0632007 B2 JP H0632007B2 JP 2081757 A JP2081757 A JP 2081757A JP 8175790 A JP8175790 A JP 8175790A JP H0632007 B2 JPH0632007 B2 JP H0632007B2
- Authority
- JP
- Japan
- Prior art keywords
- vowel
- distance
- pattern
- speaker
- vowels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 13
- 238000012795 verification Methods 0.000 title claims description 12
- 230000001755 vocal effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Description
【発明の詳細な説明】 発明の目的; (産業上の利用分野) この発明は、予め登録しておいた音声特徴パターンと入
力された音声特徴パターンとを比較することによって話
者を確実に照合するための話者照合方式に関する。DETAILED DESCRIPTION OF THE INVENTION Object of the Invention (Industrial field of application) The present invention reliably verifies a speaker by comparing a pre-registered voice feature pattern with an input voice feature pattern. Speaker verification method for doing.
(従来の技術) 話者照合の研究は古くから行なわれており、様々な方式
が提案されている。代表的な方式としてはBPF(Band Pas
s Filter)分析による音声パターンのパターン間の類似
度をDPマッチング等の処理によって求め、この類似度に
基づいて判定を行なうものがある。BPF分析は音声を通
過周波数帯域の異なる複数個のBPFに並列に通し、各出
力を全波整流後にLPFによって平滑化し、ある時間間隔
でA/D変換することによってそのパターンを得る。DPマ
ッチングは2つのパターン間の距離ができるだけ小さく
なるように、非線形にパターン長を合わせるための効率
的な方法である。BPF分析,DPマッチングについては、
例えば新美康永著共立出版発行の「音声認識」に詳しく
説明されている。(Prior Art) Research on speaker verification has been performed for a long time, and various methods have been proposed. As a typical method, BPF (Band Pas
There is a method in which the similarity between voice patterns by s Filter) analysis is obtained by processing such as DP matching, and determination is performed based on this similarity. In BPF analysis, speech is passed through multiple BPFs with different pass frequency bands in parallel, each output is smoothed by LPF after full-wave rectification, and the pattern is obtained by A / D conversion at certain time intervals. DP matching is an efficient method for non-linearly matching pattern lengths so that the distance between two patterns is as small as possible. For BPF analysis and DP matching,
For example, it is explained in detail in "Voice Recognition" published by Kyoritsu Publishing by Yasunaga Niimi.
(発明が解決しようとする課題) 上述の方式では、特徴としてBPF分析パターンそのもの
を用いているため、データ量が非常に多くなる欠点があ
る。たとえばBPF数15個、A/D周期10msで1秒長の音声
を分析すると、そのデータ量は1000/10×15=1500個に
もなってしまう。(Problems to be Solved by the Invention) In the above-mentioned method, since the BPF analysis pattern itself is used as a feature, there is a drawback that the amount of data becomes very large. For example, when analyzing 1 second long speech with 15 BPFs and A / D period of 10ms, the data amount becomes 1000/10 × 15 = 1500.
この発明は上述のような事情より成されたものであり、
この発明の目的は、5母音との距離パターンに関する特
徴量から有効性を考慮して選択したものを利用すること
によって全体のデータ量を少なくしており、少ないデー
タ量でも話者を確実に照合するための話者照合方式を提
供することにある。The present invention has been made under the circumstances as described above,
An object of the present invention is to reduce the total data amount by using a feature amount selected from the feature amount related to the distance pattern with five vowels in consideration of effectiveness, and to reliably match the speaker even with a small data amount. It is to provide a speaker verification method for doing so.
発明の構成 (課題を解決するための手段) この発明は話者照合方式に関するもので、この発明の上
記目的は、話者に予め5母音を発声させて5母音パター
ンを一旦作成すると共に、前記5母音以外の言葉を発声
させて前記5母音パターンとの距離を求め、特徴量の中
から有効なものを選択し、前記選択された特徴量を前記
話者の標準パターンとして登録しておき、照合時には前
記登録時と同一の5母音以外の言葉を発声させて、前記
登録された標準パターンとの類似度により話者を照合す
るようにすることによって達成される。Configuration of the Invention (Means for Solving the Problem) The present invention relates to a speaker verification system, and an object of the present invention is to make a speaker utter five vowels in advance to temporarily create a five vowel pattern, and A word other than the 5 vowels is uttered to obtain the distance from the 5 vowel patterns, an effective one is selected from the feature quantities, and the selected feature quantity is registered as a standard pattern of the speaker. This is achieved by uttering the same words other than the five vowels as at the time of registration at the time of matching, and matching the speaker based on the degree of similarity with the registered standard pattern.
(作用) この発明は、より少ないデータで高い話者照合能力を得
るために開発されたもので、より個人性を持つ特徴量を
選択して使用することにより、従来方式に比べ1/10以下
のデータ量で照合可能となっている。この発明では、特
に特定の話者に予め5母音と5母音以外の言葉を発声さ
せて特徴量を計算し、有効性を考慮した上で特徴量を選
択し、それを標準パターンとして登録しておき、照合時
に5母音以外の言葉を発声させて特徴量を計算し、この
特徴量から得られるパターンと標準パターンとを比較し
て話者照合を行なうようにしている。(Function) The present invention was developed to obtain a high speaker verification ability with less data. By selecting and using a feature amount with more individuality, it is 1/10 or less compared to the conventional method. It is possible to collate with the amount of data. In the present invention, in particular, a specific speaker is made to speak 5 vowels and words other than 5 vowels in advance to calculate a feature amount, the feature amount is selected in consideration of effectiveness, and the feature amount is registered as a standard pattern. Every time, the words other than the 5 vowels are uttered at the time of matching to calculate the characteristic amount, and the pattern obtained from the characteristic amount is compared with the standard pattern to perform the speaker verification.
(実施例)第1図はこの発明の動作例を示しており、最
初に登録モードか照合モードかを判断するが(ステップ
S1)、先ず登録モードについて説明する。(Embodiment) FIG. 1 shows an operation example of the present invention. First, it is judged whether the mode is the registration mode or the collation mode.
First, the registration mode will be described.
先ず5母音の音声を入力する回数を数えるパラメータm
を“0”とし(ステップS2)、その後に話者が5母音
“a”〜“o”を弧立発声し(ステップS3)、発声され
た5母音の音声について各母音毎に音響分析を行なう
(ステップS4)。この音響分析は音声信号をA/D変換し
た音声データをLPC(Linear Planning Coefifcient)分析
するものであり、LPC分析に関しては中田和男著 総合
電子出版発行の「音声の合成と認識」に詳細に説明され
ており、この手法を用いるものである。First, a parameter m for counting the number of times of inputting 5 vowel sounds
Is set to "0" (step S2), and then the speaker utters five vowels "a" to "o" (step S3), and acoustic analysis is performed for each vowel of the uttered five vowels. (Step S4). This acoustic analysis is for LPC (Linear Planning Coefifcient) analysis of speech data obtained by A / D converting a speech signal. The details of LPC analysis are explained in "Speech Synthesis and Recognition" by Kazuo Nakata published by Sogo Electronics Co., Ltd. This method is used.
すなわち、第2図に示すように音声波形を適当なサンプ
リング時間でA/D変換し、音声区間を切り出し、たとえ
ばフレームシフト10ms,フレーム長30msでフレーム単位
に分割し、各フレーム内データに対してハミング窓をか
け合せてフレーム両端の部分の周波数の歪をなくし、そ
の後に適応1次多段逆フィルタ(演算して求めたもの)
を通して音源特性によるものを除去し、声道特性のみと
した後にLPC分析を行なう。That is, as shown in FIG. 2, a voice waveform is A / D converted at an appropriate sampling time, a voice section is cut out, divided into frame units, for example, with a frame shift of 10 ms and a frame length of 30 ms. The Hamming window is multiplied to eliminate the distortion of the frequency at both ends of the frame, and then the adaptive first-order multistage inverse filter (calculated)
Then, the LPC analysis is performed after removing the one due to the sound source characteristic and leaving only the vocal tract characteristic.
データパターンは第3図のような形となる。但し、ここ
では、aijは第iフレーム,第j次LPC係数を、nは分析
次数をそれぞれ示す。第4図(A)はハミング窓をかけ合
せた後の特性を示し、同図(B)は同図(A)を逆フィルタを
通した後の特性を示している。逆フィルタすることによ
りスペクトルが平坦化される。さらに、定常時(初めと
終りの部分を除いた部分)のLPC時系列を第3図に示す
如く平均し、先ず“a”の母音パターンを作成する。
“i”〜“o”についても同様にLPC分析を行ない、5
母音のパターンを作成する。The data pattern is as shown in FIG. Here, a ij indicates the i-th frame and the j-th LPC coefficient, and n indicates the analysis order. FIG. 4 (A) shows the characteristic after the Hamming window is crossed, and FIG. 4 (B) shows the characteristic after the inverse filter is passed through the same figure (A). The spectrum is flattened by the inverse filter. Further, the LPC time series in the steady state (a portion excluding the beginning and end portions) is averaged as shown in FIG. 3 to first create a vowel pattern "a".
Similarly, LPC analysis is performed for “i” to “o” as well.
Create a vowel pattern.
この音響分析の後、パラメータmが所定数Mになってい
るか否かを判断し(ステップS5)、m=Mとなるまでパ
ラメータmをカウントアップして(ステップS6)、上記
ステップS3にリターンして上記動作を繰り返す。そし
て、m=Mとなった場合にはM回のパターンを平均し、
5母音パターンとしてメモリに記憶し(ステップS7)、
音声入力の回数を数えるためのパラメータlを“0”と
し(ステップS8)、所定の文章,単語等を発声する(ス
テップS10。なお、後述する平均ピッチ,平均逆フィル
タ係数は5母音パターンとしてはメモリに記憶しない。After this acoustic analysis, it is determined whether or not the parameter m is a predetermined number M (step S5), the parameter m is counted up until m = M (step S6), and the process returns to step S3. Then, the above operation is repeated. When m = M, the patterns M times are averaged,
5 vowel patterns are stored in the memory (step S7),
The parameter l for counting the number of voice inputs is set to "0" (step S8), and a predetermined sentence, word, etc. is uttered (step S10. Note that the average pitch and the average inverse filter coefficient described later are five vowel patterns. Do not store in memory.
この発声された音声に対して、先ず上述したと同様な音
響分析を行ない(ステップS11、逆フィルタ係数を求
め、その逆フィルタを通した後にLPC分析の時係列を求
め、更にピッチの時係列を求める。ピッチ(声の高さ)
は元のデータそのものから直接求めるよりも、LPCで予
測したものと実際のデータとの差を一旦求め、この残差
からピッチの時系列を求めた方が簡単である。そして、
音響分析のデータを基に特徴量の計算を行なう(ステッ
プS12)。この特徴量の計算は、平均ピッチ(声の高
さ),平均LPC係数(声道の平均的な特性),平均逆フ
ィルタ係数(音源の平均的な特性)及びLPCパターンで
の5母音との距離に関する各種特徴量を求めるものであ
る。LPC係数,ピッチ及び逆フィルタ係数のフレーム毎
の値と、平均LPC係数,平均ピッチ及び平均逆フィルタ
係数との関係は第5図に示されており、また、LPCパタ
ーンでの5母音との距離は第6図で示されるようなマト
リクスデータとなる。母音“i”との距離はブロックSC
1で表わされるが、例えば母音“a”との距離パターン
dajは下式で計算される。For this uttered voice, first, the same acoustic analysis as described above is performed (step S11, the inverse filter coefficient is obtained, the time sequence of the LPC analysis is obtained after passing through the inverse filter, and the time sequence of the pitch is further determined. Seeking Pitch (voice pitch)
It is easier to find the difference between what was predicted by the LPC and the actual data, and then to find the time series of the pitch from this residual, rather than to find it directly from the original data itself. And
A feature amount is calculated based on the acoustic analysis data (step S12). This feature is calculated with the average pitch (pitch of voice), average LPC coefficient (average characteristic of vocal tract), average inverse filter coefficient (average characteristic of sound source) and 5 vowels in LPC pattern. This is to obtain various feature quantities related to distance. The relationship between the LPC coefficient, the pitch and the inverse filter coefficient for each frame and the average LPC coefficient, the average pitch and the average inverse filter coefficient is shown in Fig. 5, and the distance between the five vowels in the LPC pattern is also shown. Becomes matrix data as shown in FIG. Distance to vowel "i" is block SC
Although represented by 1, the distance pattern d aj with the vowel “a” is calculated by the following equation.
αjk:第jフレーム第k次のLPC係数 α▲a k▼:母音“a”の第k次LPC係数 daj:第jフレーム母音“a”とのパターン距離 また、5母音との距離に関する特徴量の項目内容は第7
図に示されており、次に第7図の上段(各母音毎)につ
いては母音“a”について、下段(各母音間)について
は母音“a”及び“i”の場合について、その計算式を
以下に示す。各母音毎の音声区間全体の分散値buntは、 dai:第iフレームの“a”との距離 の平均 n:フレーム数 である。また、各母音間の音声区間全体の相関係数r
は、 :daiとdiiの共分散 daiの分散 sii:diiの分散 である。そして、距離和distは、 である。更に、第jセグメントについて各母音毎の分散
値bunsj,平均値avesj,各母音間の距離の分散値dis-bu
nj,距離の平均値dis-avejは次のように計算する。 α jk : L-th coefficient of the j-th frame and the k-th order α ▲ a k ▼: L-th coefficient of the k-th order of the vowel “a” d aj : Pattern distance from the j-th frame vowel “a” Also, it relates to the distance from the fifth vowel. Feature content is 7th
The calculation formulas for the vowel “a” in the upper row (for each vowel) and the vowels “a” and “i” in the lower row (between each vowel) shown in FIG. Is shown below. The variance value bunt of the entire voice section for each vowel is d ai : Distance from “a” in i-th frame Average n: number of frames. Also, the correlation coefficient r of the entire voice section between each vowel
Is : Covariance of d ai and d ii d ai of the variance s ii: is the variance of the d ii. And the distance sum dist is Is. Furthermore, for the j-th segment, the variance value bunsj for each vowel, the average value avesj, and the variance value dis-bu for the distance between vowels.
The average value of nj and distance dis-avej is calculated as follows.
(第jセグメントに第m〜第m′フレームが含まれる場
合) co-disj=(dai-dii)2:daiとdaiの距離 第8図は“namae”を発声した場合について、LPCパター
ンでの5母音パターンとの距離を示している。特性DS1
は母音“a”との距離を、特性DSDは母音“i”との距
離を、特性DS3は母音“u”との距離を、特性DS4は母音
“e”との距離を、特性DS5は母音“o”との距離をそ
れぞれ示しており、母音部で該当母音との距離が小さく
5本がバラバラの場合は発声が明瞭であり、5本とも比
較的大きく同じような値を有する場合には発声が不明瞭
であると言える。 (When the j-th segment includes the m-th to m-th frames) co-disj = (d ai -d ii) 2: Distance d ai and d ai FIG. 8 shows the distance from the 5 vowel pattern in the LPC pattern when "namae" is uttered. Characteristic DS1
Is the distance from vowel "a", characteristic DSD is the distance from vowel "i", characteristic DS3 is the distance from vowel "u", characteristic DS4 is the distance from vowel "e", and characteristic DS5 is the vowel It shows the distance with "o", and when the distance between the vowel and the corresponding vowel is small in the vowel part and the five are disjointed, the utterance is clear, and when the five have relatively large and similar values, It can be said that the utterance is unclear.
第7図の各特徴について関係を示したのが第9図(A),
(B)であり、同図(A)は第8図の中から2本の特性を取り
出したものである。また、第9図(A),(B)の縦の実線は
セグメントの境界を示している。フレーム(時間)に対
して母音“a”との距離は第9図(A)の特性Aで示さ
れ、母音“i”との距離は特性Bで示されるとすると、
母音“a”と母音“i”との母音間の距離和(dist)は斜
線部Cで示される。距離Bの起伏は距離Aのそれより急
峻であるため、音声区間全体での分散値(bunt)が大きく
なる。図中×印は各母音毎の音声区間全体での最小値(m
int)を、・印はセグメントでの最小値(mins)を、横線は
セグメントでの平均値(aves)をそれぞれ示している。そ
して、母音“a”との距離及び母音“i”との距離の間
の距離は第9図(B)のように表わされ、各セグメントで
の平均値(dis-ave)は横線のように、最小値(dis-min)は
*印となる。The relationship between the features of FIG. 7 is shown in FIG. 9 (A),
It is (B), and (A) of the same figure extracts two characteristics from FIG. The vertical solid lines in FIGS. 9A and 9B indicate the boundaries of the segments. The distance from the vowel “a” to the frame (time) is shown by the characteristic A in FIG. 9 (A), and the distance from the vowel “i” is shown by the characteristic B.
The distance sum (dist) between the vowels “a” and “i” is indicated by the shaded area C. Since the undulation of the distance B is steeper than that of the distance A, the variance value (bunt) in the entire voice section becomes large. The X mark in the figure indicates the minimum value (m
int),-mark indicates the minimum value (mins) in the segment, and the horizontal line indicates the average value (aves) in the segment. The distance between the vowel “a” and the distance between the vowel “i” is expressed as shown in FIG. 9 (B), and the average value (dis-ave) in each segment is indicated by the horizontal line. The minimum value (dis-min) is marked with *.
但し、セグメントは母音定常部とその間及び始端,終端
とし、5母音との距離パターンを利用し、発声内容を考
慮してトップダウンで行なう。たとえば“namae”を発
声した場合、最初の“a”のセグメントを見付けるに
は、先ず存在候補区間(“namae”の場合は全長の1/3よ
り前)で“a”との距離の最小値を見付け、しきい値を
その最小値×定数とし、しきい値以下の区間の長さがセ
グメント長の範囲内(発声する言葉により予め決められ
ている範囲、たとえば10〜20フレーム)になるように定
数の値を調整してセグメントを求める。However, the segment is defined as the vowel stationary part and the space between the vowel stationary part and the beginning and end of the vowel, and the distance pattern with the five vowels is used, and the segment is performed top down in consideration of the utterance content. For example, when "namae" is uttered, in order to find the first "a" segment, the minimum value of the distance from "a" in the existence candidate section (before 1/3 of the total length in the case of "namae") Find the threshold value, make it the minimum value x a constant, and make the length of the section equal to or less than the threshold value within the range of the segment length (predetermined range depending on the uttered words, for example, 10 to 20 frames). Calculate the segment by adjusting the constant value to.
このような特徴量の計算を行なった後、パラメータlが
所定数Lとなるまで上記ステップS10にリターンして同
様な動作を繰返し(ステップS13,S14)、l=Lとなっ
た時に特徴量の選択を行なう(ステップS15)。すなわ
ち、話者、発声音毎に第7図の中から有効なものを10個
選択する。有効性の評価は、次式で示されるF比の大小
で判断する。After such calculation of the feature amount, the process returns to step S10 and the same operation is repeated until the parameter l reaches a predetermined number L (steps S13 and S14). Selection is made (step S15). That is, ten valid voices are selected from FIG. 7 for each speaker and voice. The effectiveness is evaluated by the magnitude of the F ratio shown by the following formula.
但し、μi:話者iの分布の中心 μ:全体の中心 xij:話者iの第j番目のデータ I:話者数 L:データ数 本人分布の広がりが小さく各話者分布が離れているほど
分離状態が良く、話者間分散が大きく話者内分散が小さ
いほどF比は大きくて有効となる。さらに、話者発声音
によらない共通のものとして、平均ピッチ,平均LPC係
数(3〜8次),平均逆フィルタ係数(1〜3次)の計
10個を採用する。すなわち、照合のための特徴量の数は
本実施例では20個である。なお、第7図に示すような5
母音パターンとの距離に関する各種特徴量の中からF比
の大きいものから少なくとも10個とれば、話者照合に非
常に有効となることが実験により確かめられたので10個
選択しているが、照合演算処理時間によってはもう少し
選択数を増加させても良い。 Where μ i : center of distribution of speaker i μ: center of the whole x ij : j-th data of speaker i I: number of speakers L: number of data The smaller the spread of the principal distribution, the farther the distribution of each speaker is, the better the separation state is, and the larger the inter-speaker distribution is, The smaller the dispersion, the larger the F ratio and the more effective. In addition, the average pitch, average LPC coefficient (3rd to 8th order), and average inverse filter coefficient (1st to 3rd order) are commonly used regardless of the speaker's vocal sound.
Adopt 10 pieces. That is, the number of feature quantities for matching is 20 in this embodiment. In addition, 5 as shown in FIG.
It has been confirmed by experiments that it is very effective for speaker verification if at least 10 of the various features related to the distance from the vowel pattern have a large F ratio, so 10 are selected. The number of selections may be increased slightly depending on the calculation processing time.
このような特徴量の選択の後に選択した特徴量のL個平
均をとり、標準パターンとしてメモリに登録する(ステ
ップS16)。ただし、上述したF比の計算には本人以外
のデータが必要であるため、この登録の前には、比較す
べき登録者以外のデータをある程度収集する必要があ
る。After such feature amount selection, L feature averages of the selected feature amounts are averaged and registered in the memory as a standard pattern (step S16). However, since the above-mentioned calculation of the F ratio requires data other than that of the person himself / herself, it is necessary to collect some data other than that of the person who should be compared before the registration.
上述のような登録モードの後に、話者の照合を行なう場
合は次のように行なう。すなわち、先ず登録時に用いた
所定の文章を言葉で発声し(ステップS20)、この入力
された音声に対して上述したような音響分析(ステップ
S21)及び登録時に選択した特徴量の計算(ステップS2
2)を行ない、その後に平均ピッチによる判定を行なう
(ステップS23)。平均ピッチによる判定は、標準パタ
ーンでの平均ピッチに対してある範囲内にあるかどうか
で判定する。すなわち、この判定で foref×(1−α)≦foin≦foref×(1+α)……(10) foref:標準パターンの平均ピッチ foin:入力音声の平均ピッチ の場合にはOKとなる。平均ピッチによる判定の後に、重
み付き距離による判定を行なう(ステップS24)。この
重み付き距離による判定は、平均ピッチ以外の19種の特
徴量の有効性に応じた重み付き距離と、しきい値との大
小比較を下式に従って行なう。After the registration mode as described above, the speaker verification is performed as follows. That is, first, the predetermined sentence used at the time of registration is uttered in words (step S20), and the input voice is subjected to the acoustic analysis as described above (step S20).
S21) and calculation of the feature amount selected at the time of registration (step S2
2) is performed, and then the average pitch is determined (step S23). The determination based on the average pitch is based on whether the average pitch in the standard pattern is within a certain range. That is, the determination in f oref × (1-α) ≦ f oin ≦ f oref × (1 + α) ...... (10) f oref: Mean standard pattern pitch f oin: when the average pitch of the input voice is OK and Become. After the determination based on the average pitch, the determination based on the weighted distance is performed (step S24). The determination based on the weighted distance is performed by comparing the weighted distance according to the effectiveness of 19 types of feature values other than the average pitch with the threshold value according to the following formula.
wi:第i特徴の重み(=F比) ai:標準パターンの第i特徴の値 bi:入力パターンの第i特徴の値 dis≦disoOK dis>disoNG 上述のような平均ピッチによる判定がOKであり、重み付
き距離による判定がOKの場合には、話者が登録者と同一
であるとしてアクセプトし(ステップS25)、いずれか
がNGの場合にはリジェクトとなる(ステップS26)。 w i : weight of the i-th feature (= F ratio) a i : value of the i-th feature of the standard pattern b i : value of the i-th feature of the input pattern d is ≦ d iso OK d is > d iso NG As described above If the determination based on the average pitch is OK and the determination based on the weighted distance is OK, the speaker is accepted as being the same as the registrant (step S25), and if either is NG, it is rejected. (Step S26).
発明の効果; 以上のようにこの発明の話者照合方式によれば、5母音
パターンとの距離パターンに関する特徴量から有効なも
のを選択して使用しているため、少ないデータ量でしか
も話者の照合を確実に行なうことが可能となる。EFFECTS OF THE INVENTION As described above, according to the speaker verification method of the present invention, since effective ones are selected and used from the feature quantities related to the distance pattern with the five vowel patterns, a small amount of data and a speaker can be used. It is possible to reliably perform the collation of.
第1図はこの発明の動作例を示すフローチャート、第2
図及び第3図はLPC分析を説明するための図、第4図
(A),(B)は逆フィルタの関係を説明するための図、第5
図は特徴量の内容を示す図、第6図及び第8図は5母音
との距離パターンを示す図、第7図は特徴量の内容を示
す図、第9図(A),(B)は特徴量を説明するための図であ
る。FIG. 1 is a flow chart showing an operation example of the present invention, and FIG.
Figures and 3 are figures for explaining LPC analysis, and Figure 4
(A), (B) is a diagram for explaining the relationship of the inverse filter, the fifth
The figure shows the contents of the feature amount, FIGS. 6 and 8 show the distance pattern with 5 vowels, FIG. 7 shows the contents of the feature amount, and FIGS. 9 (A) and 9 (B). FIG. 4 is a diagram for explaining a feature amount.
Claims (1)
ーンを一旦作成すると共に、前記5母音以外の言葉を発
声させて前記5母音パターンとの距離を求め、特徴量の
中から有効なものを選択し、前記選択された特徴量を前
記話者の標準パターンとして登録しておき、照合時には
前記登録時と同一の5母音以外の言葉を発声させ、前記
登録された標準パターンとの類似度により話者を照合す
るようにしたことを特徴とする話者照合方式。1. A speaker utters 5 vowels in advance to temporarily create a 5 vowel pattern, and a word other than the 5 vowels is uttered to obtain a distance from the 5 vowel pattern, which is effective from the feature quantities. , The selected feature quantity is registered as a standard pattern of the speaker, and at the time of verification, the same words other than the 5 vowels as at the time of registration are uttered, and the registered standard pattern A speaker verification method characterized by matching speakers based on the degree of similarity.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2081757A JPH0632007B2 (en) | 1990-03-29 | 1990-03-29 | Speaker verification method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2081757A JPH0632007B2 (en) | 1990-03-29 | 1990-03-29 | Speaker verification method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH03280099A JPH03280099A (en) | 1991-12-11 |
| JPH0632007B2 true JPH0632007B2 (en) | 1994-04-27 |
Family
ID=13755318
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2081757A Expired - Lifetime JPH0632007B2 (en) | 1990-03-29 | 1990-03-29 | Speaker verification method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0632007B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4330603B2 (en) | 2006-07-18 | 2009-09-16 | 株式会社オートネットワーク技術研究所 | Insulated wire and wire harness |
| JP5221937B2 (en) | 2007-11-16 | 2013-06-26 | 株式会社オートネットワーク技術研究所 | Acid anhydride-introduced polymer and polymer composition, covered electric wire and wire harness |
| JP5560541B2 (en) | 2008-06-27 | 2014-07-30 | 株式会社オートネットワーク技術研究所 | Flame retardant composition, covered electric wire and wire harness |
-
1990
- 1990-03-29 JP JP2081757A patent/JPH0632007B2/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPH03280099A (en) | 1991-12-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5522012A (en) | Speaker identification and verification system | |
| US5440662A (en) | Keyword/non-keyword classification in isolated word speech recognition | |
| Murthy et al. | Robust text-independent speaker identification over telephone channels | |
| US6009391A (en) | Line spectral frequencies and energy features in a robust signal recognition system | |
| US6253175B1 (en) | Wavelet-based energy binning cepstal features for automatic speech recognition | |
| US5097509A (en) | Rejection method for speech recognition | |
| US5465318A (en) | Method for generating a speech recognition model for a non-vocabulary utterance | |
| US5459815A (en) | Speech recognition method using time-frequency masking mechanism | |
| NZ331431A (en) | Speech processing via voice recognition | |
| WO1998038632A1 (en) | Method and system for establishing handset-dependent normalizing models for speaker recognition | |
| JP2745535B2 (en) | Voice recognition device | |
| Badran et al. | Speaker recognition using artificial neural networks based on vowel phonemes | |
| JPH0632007B2 (en) | Speaker verification method | |
| US20050240397A1 (en) | Method of determining variable-length frame for speech signal preprocessing and speech signal preprocessing method and device using the same | |
| JPS60114900A (en) | Voice/voiceless discrimination | |
| KR100319237B1 (en) | Dtw based isolated-word recognization system employing voiced/unvoiced/silence information | |
| Beaufays et al. | Using speech/non-speech detection to bias recognition search on noisy data | |
| JPH07271392A (en) | Speaker recognition similarity normalization method and speaker recognition apparatus using this method | |
| Wilpon et al. | Connected digit recognition based on improved acoustic resolution | |
| JPH07210197A (en) | Method of identifying speaker | |
| Higgins et al. | A multi-spectral data-fusion approach to speaker recognition | |
| JP2815667B2 (en) | Speaker recognition method | |
| JP2658426B2 (en) | Voice recognition method | |
| Hmich et al. | Discriminating coding applied to the Automatic Speaker Identification | |
| Mut et al. | Improved Weighted Matching for Speaker Recognition. |