JPH0462597B2 - - Google Patents

Info

Publication number
JPH0462597B2
JPH0462597B2 JP10693784A JP10693784A JPH0462597B2 JP H0462597 B2 JPH0462597 B2 JP H0462597B2 JP 10693784 A JP10693784 A JP 10693784A JP 10693784 A JP10693784 A JP 10693784A JP H0462597 B2 JPH0462597 B2 JP H0462597B2
Authority
JP
Japan
Prior art keywords
symbol
voice
waveform
input
large amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP10693784A
Other languages
Japanese (ja)
Other versions
JPS60250399A (en
Inventor
Hiroyoshi Yuasa
Koichi Oomura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP10693784A priority Critical patent/JPS60250399A/en
Publication of JPS60250399A publication Critical patent/JPS60250399A/en
Publication of JPH0462597B2 publication Critical patent/JPH0462597B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

[技術分野] 本発明は電子機器を音声メツセージによつて操
作するための音声メツセージ識別方式に関するも
のである。 [背景技術] 音韻情報は調音方法によるので、主に断面積の
変化に対応した周波数スペクトルの包絡線に含ま
れており、特に共振周波数(第1、第2、第3ホ
ルトマントF1,F2,F3)と、その帯域幅
(50〜110Hz)によつて特徴付けられる。音声の周
波数スペクトルは上記声道の伝達特性と音源波形
の形状で、ほぼ決まるが声道の伝達特性は声道断
面積による共振点と声道長によつて決まる共振点
が含まれており、調音即ち音韻はほぼ声道断面積
で決まり、声道長は男性、女性、子供や個人差に
よる。さらに音源波形(特に有声音の声帯振動に
よるもの)は声の高さや、強さによると考えられ
る。 従つて音韻識別のためには、音源波形や声道長
の影響を除いた周波数スペクトルの包絡線を抽出
することによつて、個人差等の少ない高い識別能
力(認識率)が得られる。ところでスペクトル包
絡を得る方法を用いて音声認識を行う場合高い認
識率や多くの認識語数が得られるが、公知の方法
(例えば全極型モデルによる線形予測分析)では
計算量が膨大なため、コンピユータなどの高価な
システムを必要とし用途が限られる。ところで予
測残差としては、周波数スペクトルが平坦なイン
パルス列(有声音)とランダムノイズ(無声音)
の音源波形を含む。ここで有声音の場合、第16
図gに示す音声波形の音源波形が同図aである場
合には同図bのようなインパルス音源と見なされ
ることによる。 ところで実際の音声の波形や、第16図fの音
源波形を見ると直感的に同図aの音源波形の微分
波形(同図c)が重なつているように見える。そ
して音源波形の立ち下がりの傾斜が緩やかである
に対し、立ち下がりは急峻であるため微分波形の
大きさは下向きが大きく、上向きが小さい。 一方、ホルトマントやスペクトル包絡を推定す
るために有声音源の影響を除くためには周波数ス
ペクトル上の積を和に変換する準同形処理が知ら
れているが、複素ケプストラムで分離することに
なつてデータ量の多い高速フーリエ変換を2度も
繰り返さなければならないので、簡易とは言えな
かつた。 又スペクトル包絡やホルトマントを求める方法
では短区間分析方式が知られている。これは有声
音の周期よりやや長いめかあるいは3msec程度の
短い区間(特に声門の閉鎖区間)内で、線形予測
分析をするもので、声帯振動数の影響を受けず、
ホルトマントが求められると言われているが、線
形予測のため相関関数を求めたり、短区間の決定
の為に共分散行列を計算する等乗算回数が多くな
るという問題が有つた。 そこで本発明者らは音声の大振幅時点を分析窓
の中心にする短区間の高速フーリエ変換で、スペ
クトル包絡が簡単な区間決定と少ない乗算回数で
計算できる方式を提案したが声門の開区間で第1
6図cで示す音源波形の微分波形のようなもので
分析していると見なせば個人差の影響を受けてい
ると言わざるを得ない。(但しスペクトル包絡が
おおざつぱで良い場合には簡易型としては実用
的。) [発明の目的] 本発明は上述の問題点に鑑みて為されたもの
で、その目的とするところは計算量が少なく、話
者の個人差や声帯振動の影響が少ない音声メツセ
ージ識別方式を提供するにある。 [発明の開示] まず本発明の基本原理を考察してみる。線形予
測分析のように声道モデルを線形システムとして
考えてみると、音声波形は音源波形と声道の伝達
特性(インパルス応答)とのたたき込み演算とな
るが、第16図aのような音源に対するインパル
ス応答をするシステムが実際の声道モデルといえ
るわけである。このため現実に音源波形を観測し
てインパルス列に対する音源モデルを作ること
は、2重のたたみ込みになるので極めて困難であ
る。そこで簡単で実用的であれば良いので実際の
実験結果で効果があれば良いと考え、上述したよ
うに音声の5母音(i,e,a,o,u)の時間
波形を見ていると第16図cのような音源の微分
波形が含まれているように見えるから、最も単純
に考えて、音源波形が第16図fの場合の微分波
形である同図eの波形を同図gの波形から引き算
して高速フーリエ変換を行つたのが本発明の基本
的な技術思想である。ここで分析区間は第16図
eで示したi,jの区間内であれば良いが、この
場合同図dに示したインパルスに対する応答のフ
ーリエ変換をするかごとく扱つていることに相当
する。 実施例 第1図は本発明の処理フローに基づいた回路構
成図であり、図中1は高域強調部で、この高域強
調部1は入力音声の高域を強調させるためのもの
である。2は高域強調された入力音声をA/D変
換するA/D変換部で、このA/D変換部2から
の出力は区間補償部3と、ピツチ検出部4とに入
力する。ピツチ検出部4はA/D変換された1フ
レーム内の音声の時間波形の振幅の絶対値IPOW
を求めて所定サンプル数の平均値がフレーム内の
前半で最低となる第1の下向き大振幅点IPN1を
検出するとともにこれに続く第2の下向き大振幅
点IPN3を求めてこれら下向き大振幅点IPN1と
IPN3とからピツチIPitを求めるためのものであ
る。区間補償部3はピツチ補償を行うためのもの
で、第16図eに示す波形を第2の下向き大振幅
点IPN3の手前で検出した上向き大振幅点IPN2
との間で引き算をすることにより補償するように
なつており、このオフセツト値はIPN1点で第4
図bに示すように振幅−IPOWとなる点Aと、
IPN2点で振幅IPOWとなる点Bとを直線Xで結
んだものとする。尚第4図中IPN0は最も手前の
大振幅点である。又オフセツト値としては、第1
の下向き大振幅点IPN1でのピーク値の半分の点
Cと、上向き大振幅点IPN2でのピーク値の半分
の点Dとを直線で結んだものとしたり、あるいは
上向き大振幅点IPN0と下向き大振幅点IPN1と
の間で−IPOWとなる第5図bに示す点Eと、上
向き大振幅点IPN2と下向き大振幅点IPN3との
中間でIPOWとなる点Fとを直線で結んだものと
してもよい。尚第4図a、第5図aは夫々第4図
b、第5図bの音声の周波数スペクトラムを示
す。5は分析区間決定部で、この分析区間決定部
5は下向き大振幅点IPN1より64点、あるいは32
点以内、又は(IPN2−IPN1)の1/2,1/
4といつた値に設定する。ここで高速フーリエ変
換のサンプル数としては64,128,256といつた2
のべきになるのが一般的であるが、ウインドウの
計算の都合で、短区間の長さとして32点と64点と
を採用した。7は高速フーリエ変換部で、この高
速フーリエ変換部7は高速フーリエ変換によつて
周波数スペクトルの包絡を求めるためのものであ
り、演算時には分析窓計算部6によつて定められ
たスペクトルウインドウが掛けられる。分析窓計
算部6は高速フーリエ変換部7でのスペクトル包
絡線抽出をより正確にかつより少ない計算量(乗
算回数)で行なえるように高速フーリエ変換にか
けるスペクトルウインドウの長さ及び位置を最適
化するためのものである。8は周波数帯域分割部
で、この周波数帯域分割部8は高速フーリエ変換
部7で抽出され周波数スペクトルを対数パワース
ペクトルにした後の出力から各周波数成分の短時
間平均パワー、例えばUV.V,VH,VL,VF,
VBの6成分を得るためのもので有る。ここで、
Vは音声入力中、0〜1KHzの周波数帯域の短時
間平均パワーをしめしており、有音声のエネルギ
に対応している。UVは音声入力中、5〜12KHz
の周波数帯域の短時間平均パワーを示しており、
無音声のエネルギに対応している。また有音声の
VL,VH,VB,VFは夫々音声入力中、0〜
0.5KHz、0.5〜1.0KHz、1.0〜2.0KHz、及び2.0〜
4.0KHzの周波数帯域の短時間平均パワーを示し
ており、夫々狭顎音、広顎音、後舌音、及び前舌
音のエネルギに対応している。9は差信号ベクト
ル変換部で、この差信号ベクトル変換部9は上記
各短時間平均パワーより、5音韻(i、e、a、
o、u)が夫々eao/iu、a/eo、e/o、i/
uにほぼ分けられるようにUV/V,VH/VL,
VF/VB,VB/VL,VF/VHの差信号ベクト
ルを求めるものである。18は上記周波数帯域分
割部8と、差信号ベクトル変換部9とが周波数帯
域分割による差信号ベクトルを求めるためのもの
であるに対して、ホルマントベクトルを求めるた
めのホルマント軌跡変換部であつて、スペクトル
包絡のピーク周波数(ホルマント周波数)を求め
てホルマントベクトルとしており、ホルマントベ
クトルの成分は各ホルマントごとの平均値に対す
る差を成分とし、周波数軸を対数あるいは線形ス
ケールで表したものである。尚ピツチ検出により
各ホルマントごとの基準周波数となる上記の平均
値を男性、女性、子供といつたクラスに切り換え
ることによつて、認識率の向上が図れる。第15
図a,bは5母音のホルマント分布と、ピークの
位置を示す。10は記号ベクトル変換部で、この
記号ベクトル変換部10は上記差信号ベクトル又
はホルマントベクトルと変換行列とで記号ベクト
ル{i、e、a、o、u、h、l、f、b、w}
に変換するもので、変換行列の値は記号に対応す
る差信号ベクトルあるいはホルマントベクトルの
各成分の大きさに相当する行成分を持つておれば
よい。11は始端・終端検知部で、この始端・終
端検知部11はUV/V差信号が、ある設定値Ru
より正のときUVと判定し、ある設定値Rvより負
のときVと判定し、その中間をSと判定する有
声、無声判定機能を備え、UV,Vの判定により
音声の始端を検知し、無音がある設定値以上のサ
ンプル数の間、継続すると終端と検知するもので
ある。12は記号変換処理部で、この記号変換処
理部12はVの区間では記号ベクトルの最大成分
がある設定値以上の場合にはその記号を出力し、
設定値以下の場合にはmを出力する。またUVと
Sとの区間では、夫々UV,Sを出力する。13
は整形処理部で、この整形処理部13は同じ記号
の繰り返しを一つの記号とその継続時間とのリス
トに直し、さらに継続時間が短いものは省略す
る。14は単語標準パターン記憶部で、この単語
標準パターン記憶部14は音声パターンを登録モ
ードで登録して認識照合時の標準パターンとする
ためのものである。予備選択部15は認識モード
において、照合するまえにUVの数などで一次識
別して照合対象を限定するための予備選択を行う
ためのものである。16は時間軸正規化・照合部
で、この時間軸正規化・照合部16は上記リスト
の継続時間の合計が例えば200(あるいは1000)と
いつた一定値になるように継続時間を正規化する
ための時間軸正規化機能と、時間軸上で対応する
対応する記号間の距離(相関値)を求めて、これ
を、全サンプルについて合計したものをパターン
間の距離とした第1表に示す距離テーブルを用い
て標準パターンと照合する距離計算機能とからな
る。
[Technical Field] The present invention relates to a voice message identification method for operating electronic equipment using voice messages. [Background Art] Since phonological information depends on the articulation method, it is mainly included in the envelope of the frequency spectrum that corresponds to changes in cross-sectional area, and is especially contained in the envelope of the frequency spectrum corresponding to changes in cross-sectional area. ) and its bandwidth (50-110Hz). The frequency spectrum of speech is almost determined by the vocal tract transfer characteristics and the shape of the sound source waveform, but the vocal tract transfer characteristics include resonance points determined by the vocal tract cross-sectional area and resonance points determined by the vocal tract length. Articulation, or phonology, is determined mostly by the cross-sectional area of the vocal tract, and the length of the vocal tract varies between men, women, children, and individuals. Furthermore, the sound source waveform (particularly due to vocal fold vibration of voiced sounds) is thought to depend on the pitch and strength of the voice. Therefore, for phoneme identification, by extracting the envelope of the frequency spectrum excluding the influence of the sound source waveform and vocal tract length, high discrimination ability (recognition rate) with little individual difference can be obtained. By the way, when performing speech recognition using the method of obtaining the spectral envelope, a high recognition rate and a large number of recognized words can be obtained, but known methods (for example, linear predictive analysis using an all-pole model) require a huge amount of calculation, so Requires expensive systems such as, and its uses are limited. By the way, the prediction residuals include impulse trains with flat frequency spectra (voiced sounds) and random noise (unvoiced sounds).
Contains the sound source waveform. Here, in the case of voiced sounds, the 16th
This is because when the sound source waveform of the speech waveform shown in Figure G is the sound source waveform of Figure A, it is regarded as an impulse sound source as shown in Figure b. By the way, when looking at the actual voice waveform and the sound source waveform shown in FIG. 16(f), it intuitively appears that the differential waveform (FIG. 16(c)) of the sound source waveform in FIG. 16(a) overlaps. Since the falling slope of the sound source waveform is gentle, but the falling slope is steep, the magnitude of the differential waveform is large in the downward direction and small in the upward direction. On the other hand, in order to remove the influence of voiced sound sources in order to estimate Holtmant and spectral envelope, homomorphic processing is known in which the product on the frequency spectrum is converted into a sum. Since a large amount of fast Fourier transform had to be repeated twice, it could not be called simple. A short interval analysis method is also known as a method for determining the spectral envelope and Holt mant. This is a linear predictive analysis performed within an interval that is slightly longer than the period of a voiced sound or as short as 3 msec (especially the glottal closure interval), and is not affected by the vocal fold frequency.
It is said that Holtmant can be calculated, but there is a problem in that it requires a large number of equal multiplications to calculate a correlation function for linear prediction and to calculate a covariance matrix for short interval determination. Therefore, the present inventors proposed a method in which the spectral envelope can be calculated with simple interval determination and a small number of multiplications using short-interval fast Fourier transform that centers the analysis window at the point of large amplitude of the voice. 1st
If we consider that the analysis is performed using something like the differential waveform of the sound source waveform shown in Figure 6c, it must be said that it is influenced by individual differences. (However, it is practical as a simple type when the spectral envelope is only rough.) [Objective of the Invention] The present invention has been made in view of the above-mentioned problems, and its purpose is to reduce the amount of calculation. To provide a voice message identification method which is less affected by individual differences among speakers and vocal cord vibration. [Disclosure of the Invention] First, let us consider the basic principle of the present invention. If we consider the vocal tract model as a linear system as in linear predictive analysis, the speech waveform is a convolution calculation of the sound source waveform and the vocal tract transfer characteristics (impulse response). The system that makes an impulse response to the vocal tract can be said to be the actual vocal tract model. For this reason, it is extremely difficult to create a sound source model for an impulse train by actually observing the sound source waveform because it involves double convolution. Therefore, I thought that it would be good if it was simple and practical, and if it was effective as a result of actual experiments, and as mentioned above, when looking at the time waveforms of the five vowels (i, e, a, o, u) of the voice, Since it appears to include the differential waveform of the sound source as shown in Figure 16c, the simplest way to think of it is to convert the waveform in Figure 16e, which is the differential waveform when the sound source waveform is Figure 16f, to the waveform in Figure 16g. The basic technical idea of the present invention is to perform fast Fourier transform by subtracting from the waveform of . Here, the analysis interval may be within the interval i and j shown in FIG. 16e, but in this case, it corresponds to treating the response to the impulse shown in FIG. 16d as if it were subjected to Fourier transform. Embodiment FIG. 1 is a circuit configuration diagram based on the processing flow of the present invention. In the figure, 1 is a high frequency emphasis section, and this high frequency emphasis section 1 is for emphasizing the high frequency range of input audio. . Reference numeral 2 denotes an A/D converter that performs A/D conversion of the high-frequency emphasized input audio, and the output from this A/D converter 2 is input to a section compensator 3 and a pitch detector 4. The pitch detection unit 4 detects the absolute value IPOW of the amplitude of the time waveform of the A/D converted audio within one frame.
The first large downward amplitude point IPN1 where the average value of the predetermined number of samples is the lowest in the first half of the frame is detected, and the second large downward amplitude point IPN3 that follows this is found, and these large downward amplitude points IPN1 are found. and
This is to obtain pitch IPit from IPN3. The interval compensator 3 is for performing pitch compensation, and detects the waveform shown in FIG.
Compensation is made by subtracting between
As shown in figure b, point A where the amplitude is −IPOW,
Assume that a straight line X connects point B where the amplitude IPOW is obtained at two points of IPN. Note that IPN0 in FIG. 4 is the closest large amplitude point. Also, as the offset value, the first
The point C, which is half the peak value at the large downward amplitude point IPN1, and the point D, which is half the peak value at the large upward amplitude point IPN2, are connected by a straight line, or the large upward amplitude point IPN0 and the large downward amplitude point Even if a straight line connects point E shown in Fig. 5b, which is -IPOW between amplitude point IPN1, and point F, which is IPOW halfway between upward large amplitude point IPN2 and downward large amplitude point IPN3, good. Note that FIGS. 4a and 5a show the frequency spectra of the voices in FIGS. 4b and 5b, respectively. Reference numeral 5 denotes an analysis interval determination unit, and this analysis interval determination unit 5 selects 64 points or 32 points from the downward large amplitude point IPN1.
within points, or 1/2, 1/ of (IPN2-IPN1)
Set it to a value of 4. Here, the number of samples for fast Fourier transform is 64, 128, and 256.
Generally speaking, the lengths of the short sections are 32 points and 64 points for window calculation reasons. Reference numeral 7 denotes a fast Fourier transform section. This fast Fourier transform section 7 is used to obtain the envelope of the frequency spectrum by fast Fourier transform, and during calculation, the spectrum window determined by the analysis window calculation section 6 is multiplied. It will be done. The analysis window calculation unit 6 optimizes the length and position of the spectral window to be applied to the fast Fourier transform so that the fast Fourier transform unit 7 can extract the spectral envelope more accurately and with fewer calculations (number of multiplications). It is for the purpose of Reference numeral 8 denotes a frequency band division section, and this frequency band division section 8 converts the frequency spectrum extracted by the fast Fourier transform section 7 into a logarithmic power spectrum, and then converts the short-term average power of each frequency component, such as UV.V, VH, into a logarithmic power spectrum. ,VL,VF,
It is used to obtain the 6 components of VB. here,
V indicates the short-time average power in the frequency band of 0 to 1 KHz during voice input, and corresponds to the energy of voice with voice. UV is 5-12KHz during audio input
It shows the short-term average power in the frequency band of
It corresponds to the energy of silence. There is also a voice
VL, VH, VB, VF are respectively during audio input, 0~
0.5KHz, 0.5~1.0KHz, 1.0~2.0KHz, and 2.0~
It shows the short-term average power in the 4.0KHz frequency band, and corresponds to the energy of narrow jaw sounds, wide jaw sounds, back tongue sounds, and front tongue sounds, respectively. 9 is a difference signal vector converter, and this difference signal vector converter 9 converts 5 phonemes (i, e, a,
o, u) are respectively eao/iu, a/eo, e/o, i/
UV/V, VH/VL,
This is to find the difference signal vectors of VF/VB, VB/VL, and VF/VH. Reference numeral 18 is a formant locus converter for obtaining a formant vector, whereas the frequency band dividing section 8 and the difference signal vector converting section 9 are for obtaining a difference signal vector by frequency band division. The peak frequency (formant frequency) of the spectrum envelope is determined and used as a formant vector, and the components of the formant vector are the differences with respect to the average value for each formant, and the frequency axis is expressed on a logarithmic or linear scale. The recognition rate can be improved by switching the above-mentioned average value, which serves as the reference frequency for each formant, to classes such as male, female, and child through pitch detection. 15th
Figures a and b show the formant distribution of five vowels and the positions of the peaks. 10 is a symbol vector converter, and this symbol vector converter 10 converts the above difference signal vector or formant vector and a conversion matrix into a symbol vector {i, e, a, o, u, h, l, f, b, w}.
The values of the transformation matrix need only have row components corresponding to the magnitude of each component of the difference signal vector or formant vector corresponding to the symbol. Reference numeral 11 denotes a start/end detection section, and this start/end detection section 11 detects the UV/V difference signal at a certain set value Ru.
It has a voiced/unvoiced determination function that determines UV when it is more positive, V when it is more negative than a certain set value Rv, and S when it is in between, and detects the beginning of the voice by determining UV and V. If silence continues for a number of samples equal to or greater than a certain set value, it is detected as the end. 12 is a symbol conversion processing unit, and this symbol conversion processing unit 12 outputs the symbol when the maximum component of the symbol vector is greater than a certain set value in the interval of V,
If the value is less than the set value, m is output. Further, in the interval between UV and S, UV and S are output respectively. 13
is a formatting processing section, and this formatting processing section 13 converts repetitions of the same symbol into a list of one symbol and its duration, and further omits symbols with short durations. Reference numeral 14 denotes a word standard pattern storage section, and this word standard pattern storage section 14 is used to register a voice pattern in a registration mode and use it as a standard pattern at the time of recognition and verification. The preliminary selection unit 15 is used in the recognition mode to perform preliminary selection to limit the objects of comparison by performing primary identification based on the number of UVs or the like before comparison. 16 is a time axis normalization/verification unit, and this time axis normalization/verification unit 16 normalizes the duration so that the total duration of the above list becomes a constant value, such as 200 (or 1000). The distance between corresponding symbols on the time axis (correlation value) is determined using the time axis normalization function for It consists of a distance calculation function that uses a distance table to match a standard pattern.

【表】 第1表において、横の欄及び縦の欄は夫々標準
パターンの記号及び入力パターンの記号に対応し
ており、例えば標準パターンの記号がaであつ
て、しかも入力パターンの記号もaであるときに
は、距離テーブルの出力は−2となり、近似度が
低いことをしめすものである。従つて距離計算機
能においては距離テーブルからの出力を順次加算
するだけでの演算操作により、入力パターンと標
準パターンとのパターン全体としての近似度を容
易に計算できるわけである。17は有意差検定部
で、この有意差検定部17は距離の最も近いパタ
ーンがある設定値より近く、さらに2番目に近い
ものより、ある設定値以上離れている場合に、こ
の最も近いパターンと入力パターンが同じとみな
し、他の場合には認識不良としてリジエクトする
有意差検定機能と、該認識結果を出力する結果出
力機能とを備えたものである。19は最適化フイ
ードバツク部で、この最適化フイードバツク部1
9は周波数帯域の分割の最適化と、差信号ベクト
ルのオフセツトの最適化をフイードバツク的に行
うために、学習モードにおいて話者の/i、e、
a、o、u/の発生の時系列を記憶して、予め標
準的に設定した分割周波数の近傍で分割周波数を
変動させて、記号ベクトルの感度特性に応じて変
動方向と量を、記号成分が最大となるように最適
化するものであり、この場合スペクトルの勾配
を、差信号ベクトルのオフセツトで補償し、特に
入力音声がイ音のときi成分が突出し、ア音のと
きa音が突出するようにし、また/e/、/u/
の識別がより確実となるように差信号入力のゲイ
ンバランスを調整する。この場合まずVH/VL
の最適調整、次にVF/VBの最適調整、更につ
ぎにVB/VLの最適調整を行うのである。 而して実施例ではサンプリング周期80μsec(サ
ンプリング周波数12.5KHz)で、フレーム長を
512サンプルとした。基本周波数の周期が最低で
90Hzとすると、139サンプルになり、256点の周波
数スペクトルを計算するためには通常の高速フー
リエ変換では512点の計算になり、乗算回数が29
×(24+25)=512×(16+32)=24576回になるが、
基本周期より短い区間の64サンプルを、512サン
プルのフレームより抜き出して分析すると、128
点の高速フーリエ変換でよいので27×(23+24)=
128×(8+16)=3072回の乗算で良い。また高速
フーリエ変換の前処理の分析窓の乗算は周波数ス
ペクトルのサンプル数と同じになるので、短区間
分析が簡易な方法として効果のあることがわか
る。第2図は第1図実施例のピツチ検出部4と分
析区間決定部5からなる特徴部分のフローチヤー
トを示し、1フレーム内の振幅の絶対値の平均値
IPOWを(1)で求め、(2)で30サンプルづつの平均値
がフレームの前半で最低となる下向き大振幅点
IPN1を検出し、更に(3)で次の下向き大振幅点
IPN3を検出し、そして(4)でこれらの下向き大振
幅点IPN1,IPN3からピツチIPit=IPN3−
IPN1を求める。ピツチ検出後(5)で前の上向き大
振幅点IPN0を下向き大振幅点IPN1より検出
し、両大振幅点IPN0,IPN1の中間の振幅0の
点より(6)で大振幅点IMiDとし、この大振幅点
IMiDを中心として上向き大振幅の半サイクルと
下向き大振幅の半サイクルからなる1サイクルを
含む短区間を決定する。次いで(7)で直流補償を行
い、(8)で分析窓掛けを行い(9)で高速フーリエ変換
を行い、(10)で差信号ベクトルか、ホルマントベク
トルかのモード選択を行い、(11)で周波数帯域分割
を、(12)でホルマント軌跡を求める。 第3図は本発明の具体的な回路図を示し、音声
はマイク18より入力され、プリアンプ19で増
幅されて、調整アンプ20でゲインとオフセツト
を調整される。次にA/D変換回路21で音声入
力をデイジタル変換を行い、デイジタル変換され
た音声フレームは音声フレームメモリ23に記憶
される。24はFFTプロセツサで、このFFTプ
ロセツサ24はコントロール部24aと、演算レ
ジスタ24bと、内蔵RAM24cと、係数を記
憶してある係数ROM24dとを備えた一般の
FFTチツプからなり、音声フレームメモリ23
から読出した音声フレームを取り込み、高速フー
リエ変換をウインドウをかけて行う。25はスペ
クトルフレームメモリで、FFTプロセツサ24
で演算されたスペクトルフレームを記憶するため
のものである。22は音声フレームメモリ23、
FFTプロセツサ24、スペクトルフレームメモ
リ25の動作タイミングを与えるタイミング回路
である。26はプログラムROM27に予め書き
込んである動作プログラムに基づいて制御演算を
行うCPUであり、照合モード時には照合演算回
路30を動作させて、スペクトルフレームメモリ
25に格納してあるデータを記号化して予め登録
モード時に標準パターンRAM31に格納してあ
る標準パターンとの照合演算を行つたり、あるい
は登録モード時に入力音声のパターンを標準パタ
ーンとして標準パターンRAM31に格納させた
り、更には学習モード時に上述の最適化フイード
バツクを行つたりする。図中32はターミナル
部、33はマイコンバス、28はワーキング
RAM、29は制御入出力部である。 第6図は上述の点Aと点Bとの間の128点のウ
インドウを掛けて高速フーリエ変換(256点)を
行つたシミユレーシヨン結果であり、同図aは同
図bで時間波形と示された周波数スペクトラムで
ある。第7図は上述の点Cと点Dとの間の128点
のウインドウを掛けて高速フーリエ変換(256点)
を行つたシミユレーシヨン結果であり、同図aは
同図bで時間波形と示された周波数スペクトラム
である。この第7図の場合は第6図の場合と大差
はない。第8図は上述の点Cと点Dとの間の64点
のウインドウを掛けて高速フーリエ変換(128点)
を行つたシミユレーシヨン結果であり、同図aは
同図bで時間波形と示された周波数スペクトラム
である。第9図は上述の点Cと点Dとの間の32点
のウインドウを掛けて高速フーリエ変換(64点)
を行つたシミユレーシヨン結果であり、同図aは
同図bで時間波形と示された周波数スペクトラム
である。これらの第8図、第9図から分かるよう
に第2〜第3ホルマントに相当する共振点が明確
に表われている。第10図は声帯振動の立ち上が
り区間にインパルスがあると見なして、上向き大
振幅点IPN0より短区間(ピツチ補償はしない)
で分析したもので、128点のウインドウを掛けて
高速フーリエ変換(256点)を行つたシミユレー
シヨン結果であり、同図aは同図bで時間波形と
示された周波数スペクトラムである。又第11図
は声帯振動の立ち上がり区間にインパルスがある
と見なして、上向き大振幅点IPN0より短区間
(ピツチ補償はしない)で分析したもので、64点
のウインドウを掛けて高速フーリエ変換(128点)
を行つたシミユレーシヨン結果であり、同図aは
同図bで時間波形と示された周波数スペクトラム
である。これら第10図、第11図と、上記の第
8図とを比較すると第8図図示の場合が共振点が
明確になつていることがよく分かる。第8図図示
の場合の切り出し区間はIPN2−IPN1=LWP=
96の半分である48点であるに対して第11図の区
間は64点であるのでこの効果は大きいといえる。
第12図は声門閉鎖区間とおぼしき位置のフレー
ム長64点を分析したもので、この場合第11図に
比べても共振特性が明確ではないので、第8図に
示す本方式による効果が有効であることがよく分
かる。尚同図aは同図bで時間波形と示された周
波数スペクトラムである。 尚第13図は記号化のプロセスを示す。同図に
おいて、Vは音声入力中、0〜1KHzの周波数帯
域の短時間平均パワーを示しており、有声音のエ
ネルギに対応している。また、UVは音声入力
中、5〜12KHzの周波数帯域の短時間平均パワー
を示しており、無声音のエネルギに対応してい
る。さらに、VL,VH,VB,VFは夫々音声入
力中、0〜0.4KHz、0.4〜0.8KHz、及び1.8〜3.2K
Hzの周波数帯域の短時間平均パワーを示してお
り、夫々狭顎音、広顎音、後舌音、及び前舌音の
エネルギに対応している。S0〜S4は差動増幅手段
であり、夫々差信号V/UV,Veao/Viu,
Va/Veo,Ve/Vo,Vi/Vuを算出するもので
ある。C0は比較手段であり、上記差動増幅手段
S0から出力される差信号成分が、基準値Rvより
も小さいときには有声音Vの符号を割り当て、基
準値Ruよりも大きい時には無声音UVの符号をの
符号を割り当て、それ以外の場合には無音Sと判
定する。ただし、Ru>O>Rvである。MY0は記
号化処理部で、この記号化処理部MY0は無音、
有声音及び無声音の各場合についてS,V,UV
の各符号の内いずれか1つの符号を入力する。
MC0は各差信号出力Vea/Viu,Va/Vea,
Ve/Vo,Vi/Vuを成分とする4次元ベクトル
に所定の行列Tmを乗算して、音声入力中に含ま
れる各母音i、e、a、o、u、とその他の有声
音h、i、f、b、wの短時間平均パワーを算出
するものであり、行列計算部MC0の出力は最大
値判定部MX0に入力されて各成分i、e、a、
o、u、h、l、f、b、wの内最大の成分がど
れであるかを判定され、その最大の成分の符号が
記号化処理部MY0に入力される。但し最大の成
分と2番目に大きい成分との差が小さいときには
符号mが出力される。記号化処理部MY0は比較
手段C0から出力される符号がVであるときには、
最大値判定部MX0から出力されるi、e、a、
o、u、h、l、f、b、w及びmの内のいずれ
か1つの符号を出力し、又比較手段C0から出力
される符号がU又はSであるときには、その符号
をそのまま出力するものである。尚行列計算部
MC0の変換行列Tmとしては(1)〜(3)式のようなも
のが使用可能である。 〔Tm〕=−17 17, 17, 17, −17, 18, −18 0, 0, 13,0, 0, 17, 0, 0, 0, 0, 0, 0, 0,0, 17, 0, −17, 0, 0, 0, 18, −18, 0,17 0 0 0 0 0 0 0 0 −13 …(1) 〔Tm〕=−16, 16, 16, 16, −16, 18, −18, 0, 0, 13,−8, −8, 16, −8, −8, 0, 0, 0, 0, 0,0, 16, 0, −16, 0, 0, 0, 18, −18, 0,16 0 −8 0 −16 0 0 0 0 −13 …(2) 〔Tm〕=−14, 14, 14, 14, −14, 18, −18, 0, 0, 13,−14, −14, 14, −14, −14, 0, 0, 0, 0, 0,0, 14, 0, −14, 0, 0, 0, 18, −18, 0,14 0 −14 0 −14 0 0 0 0 −13 …(3) まず(1)式の変換行列Tmは、識別に最低限必要
な要素以外は0にして、計算を速くできるように
したもので、(2)式は、要素の絶対値が8の部分に
冗長度を持たせ、差信号の検出が弱い場合には幅
広く5母音の記号化が可能になるようにしたもの
で、(3)式は第1ホルマントF1に関する差信号に
対する5母音の要素を総て同じ大きさの重み(絶
対値14)にするとともに、第2ホルマントF2
関する2つの差信号に関しては、5母音に対し
て、どちらかに1個づつ識別に必要な重みをつけ
たもので、第1ホルマントF1を第2ホルマント
F2より重要視したものといえる。この変換行列
Tmは、識別対象の言葉等によつて任意に設定で
きるものである。この第3図のAPは上述した調
整アンプ20の特性を示している。 又上述の照合方法以外に、差信号から2値化信
号を作つてこの組み合わせで記号化し、逐次照合
することも可能である。この方法としては次のよ
うなものがある。つまり短時間平均パワーのベク
トルより求めたUV/V差信号、Veao/Viu差信
号、Va/Veo差信号、Ve/Vo差信号、Vi/Vu
差信号を抽出してVeao/Viu差信号が正の一定
値以上あれば記号Veaoを割り当て、負の一定値
以下であるときには記号Viuを割り当て、その他
の場合には記号Sを割り当て、Va/Veo差信号
が正の一定値以上であるときには記号Vaを割り
当て、負の一定値以下であるときには記号Veoを
割り当て、その他の場合には記号Sを割り当て、
Ve/Vo差信号が正の一定値以上であるときには
記号Veを割り当て、負の一定値以下であるとき
には記号Voを割り当て、その他の場合には記号
Sを割り当て、更にVi/Vu差信号が正の一定値
以上であるときには記号Viを割り当て、負の一
定値以下であるときには記号Vuを割り当て、そ
の他の場合には記号Sを割り当てる。そしてこれ
らの記号を一時記憶手段に記憶して第2表に示す
記号化テーブルを参照しながら記号a、e、o、
i、u、h、l、f、b、w、mのうちいずれか
1つの記号に変換する。
[Table] In Table 1, the horizontal and vertical columns correspond to the standard pattern symbol and input pattern symbol, respectively.For example, if the standard pattern symbol is a, and the input pattern symbol is also a When , the output of the distance table is -2, indicating that the degree of approximation is low. Therefore, in the distance calculation function, the degree of approximation of the input pattern and the standard pattern as a whole can be easily calculated by simply adding the outputs from the distance table in sequence. Reference numeral 17 denotes a significant difference testing unit, which detects the closest pattern when it is closer than a certain setting value and is further away from the second closest pattern by more than a certain setting value. It is equipped with a significant difference test function that considers the input patterns to be the same and rejects them as recognition failure in other cases, and a result output function that outputs the recognition result. 19 is an optimization feedback section, and this optimization feedback section 1
9 is the speaker's /i, e,
The time series of the occurrences of a, o, and u/ is stored, and the dividing frequency is varied in the vicinity of a preset standard dividing frequency, and the direction and amount of variation are determined according to the sensitivity characteristics of the symbol vector. In this case, the slope of the spectrum is compensated by the offset of the difference signal vector, and in particular, when the input voice is an A note, the i component is prominent, and when the input voice is an A note, the a note is prominent. /e/, /u/
The gain balance of the difference signal input is adjusted so that identification of the difference signal becomes more reliable. In this case, first VH/VL
Then, the optimum adjustment of VF/VB is performed, and then the optimum adjustment of VB/VL is performed. In the example, the sampling period is 80 μsec (sampling frequency 12.5 KHz), and the frame length is
There were 512 samples. The period of the fundamental frequency is the lowest
If it is 90Hz, there will be 139 samples, and in order to calculate the frequency spectrum of 256 points, normal fast Fourier transform will require calculation of 512 points, and the number of multiplications will be 29.
× (2 4 + 2 5 ) = 512 × (16 + 32) = 24576 times,
When 64 samples in an interval shorter than the fundamental period are extracted from a frame of 512 samples and analyzed, 128
Fast Fourier transform of a point is sufficient, so 2 7 × (2 3 + 2 4 ) =
128×(8+16)=3072 multiplications are enough. Furthermore, since the multiplication of the analysis window in the preprocessing of the fast Fourier transform is the same as the number of samples of the frequency spectrum, it can be seen that the short interval analysis is effective as a simple method. FIG. 2 shows a flowchart of the characteristic part consisting of the pitch detection section 4 and the analysis interval determination section 5 of the embodiment of FIG.
Calculate IPOW in (1), and in (2) find the downward large amplitude point where the average value of each 30 samples is the lowest in the first half of the frame.
Detect IPN1, and then proceed to the next downward large amplitude point in (3)
Detect IPN3, and in (4), from these downward large amplitude points IPN1 and IPN3, pitch IPit=IPN3−
Find IPN1. After detecting the pitch (5), the previous upward large amplitude point IPN0 is detected from the downward large amplitude point IPN1, and from the point with amplitude 0 between the two large amplitude points IPN0 and IPN1, the large amplitude point IMiD is determined in (6). Large amplitude point
A short section including one cycle consisting of a half cycle of large upward amplitude and a half cycle of large downward amplitude is determined with IMiD as the center. Next, perform DC compensation in (7), perform analytical windowing in (8), perform fast Fourier transform in (9), select mode between difference signal vector or formant vector in (10), and (11) Find the frequency band division with (12) and the formant locus. FIG. 3 shows a specific circuit diagram of the present invention, in which audio is input from a microphone 18, amplified by a preamplifier 19, and adjusted for gain and offset by an adjustment amplifier 20. Next, the A/D conversion circuit 21 digitally converts the audio input, and the digitally converted audio frame is stored in the audio frame memory 23. Reference numeral 24 denotes an FFT processor, and this FFT processor 24 is a general type having a control section 24a, an arithmetic register 24b, a built-in RAM 24c, and a coefficient ROM 24d in which coefficients are stored.
Consists of FFT chip, audio frame memory 23
The audio frame read from is captured and fast Fourier transform is performed using a window. 25 is a spectral frame memory, and FFT processor 24
This is for storing the calculated spectral frame. 22 is an audio frame memory 23;
This is a timing circuit that provides operation timing for the FFT processor 24 and spectrum frame memory 25. 26 is a CPU that performs control calculations based on the operation program written in advance in the program ROM 27, and in the verification mode operates the verification calculation circuit 30 to encode data stored in the spectral frame memory 25 and register it in advance. In the mode, it is possible to perform a comparison calculation with the standard pattern stored in the standard pattern RAM 31, or in the registration mode, the input voice pattern can be stored as a standard pattern in the standard pattern RAM 31, and furthermore, in the learning mode, the above-mentioned optimization can be performed. We send feedback. In the figure, 32 is the terminal section, 33 is the microcomputer bus, and 28 is the working section.
RAM 29 is a control input/output section. Figure 6 shows the simulation result of fast Fourier transform (256 points) multiplied by a window of 128 points between point A and point B mentioned above. This is the frequency spectrum. Figure 7 shows the fast Fourier transform (256 points) multiplied by the window of 128 points between point C and point D mentioned above.
These are the simulation results obtained by performing the above, and the figure a shows the frequency spectrum shown as the time waveform in the figure b. The case shown in FIG. 7 is not much different from the case shown in FIG. Figure 8 shows the fast Fourier transform (128 points) multiplied by the 64-point window between points C and D mentioned above.
These are the simulation results obtained by performing the above, and the figure a shows the frequency spectrum shown as the time waveform in the figure b. Figure 9 shows fast Fourier transform (64 points) by multiplying the window of 32 points between point C and point D mentioned above.
These are the simulation results obtained by performing the above, and the figure a shows the frequency spectrum shown as the time waveform in the figure b. As can be seen from these FIGS. 8 and 9, resonance points corresponding to the second and third formants are clearly visible. Figure 10 assumes that there is an impulse in the rising section of vocal cord vibration, and shows a section shorter than the large upward amplitude point IPN0 (no pitch compensation).
This is a simulation result obtained by multiplying a window of 128 points and performing fast Fourier transform (256 points). Figure a is the frequency spectrum shown as the time waveform in figure b. In addition, Fig. 11 assumes that there is an impulse in the rising section of the vocal cord vibration, and analyzes it in a shorter section (no pitch compensation) than the upward large amplitude point IPN0.It is multiplied by a window of 64 points and fast Fourier transform (12 point)
These are the simulation results obtained by performing the above, and the figure a shows the frequency spectrum shown as the time waveform in the figure b. Comparing these FIGS. 10 and 11 with the above-mentioned FIG. 8, it is clearly seen that the resonance point is clear in the case shown in FIG. 8. In the case shown in Figure 8, the cutout section is IPN2−IPN1=LWP=
This effect can be said to be large since the section in Figure 11 has 64 points, compared to 48 points, which is half of 96 points.
Figure 12 is an analysis of 64 frame length points at positions that appear to be the glottis closure section.In this case, the resonance characteristics are not clear even compared to Figure 11, so the effect of this method shown in Figure 8 is effective. I understand something very clearly. Note that a in the same figure is a frequency spectrum shown as a time waveform in the same figure b. Incidentally, FIG. 13 shows the symbolization process. In the figure, V indicates the short-time average power in the frequency band of 0 to 1 KHz during voice input, and corresponds to the energy of voiced sound. Furthermore, UV indicates the short-term average power in the frequency band of 5 to 12 KHz during audio input, and corresponds to the energy of unvoiced sound. Furthermore, VL, VH, VB, and VF are respectively 0~0.4KHz, 0.4~0.8KHz, and 1.8~3.2K during audio input.
It shows the short-term average power in the Hz frequency band, and corresponds to the energy of narrow jaw sounds, wide jaw sounds, back tongue sounds, and front tongue sounds, respectively. S 0 to S 4 are differential amplification means, which output difference signals V/UV, Veao/Viu, and
It calculates Va/Veo, Ve/Vo, and Vi/Vu. C 0 is a comparison means, and the above differential amplification means
When the difference signal component output from S 0 is smaller than the reference value Rv, it is assigned the sign of a voiced sound V, when it is larger than the reference value Ru, it is assigned the sign of an unvoiced sound UV, and otherwise it is silent. Determined as S. However, Ru>O>Rv. MY 0 is a symbolization processing section, and this symbolization processing section MY 0 is silent,
S, V, UV for each case of voiced and unvoiced sounds
Enter one of the codes.
MC 0 is each difference signal output Vea/Viu, Va/Vea,
A four-dimensional vector whose components are Ve/Vo, Vi/Vu is multiplied by a predetermined matrix Tm, and each vowel i, e, a, o, u and other voiced sounds h, i included in the audio input are , f, b, w, and the output of the matrix calculation unit MC 0 is input to the maximum value determination unit MX 0 to calculate each component i, e, a,
It is determined which of o, u, h, l, f, b, and w is the largest component, and the code of the largest component is input to the encoding processing unit MY0 . However, when the difference between the largest component and the second largest component is small, the code m is output. When the code output from the comparison means C0 is V, the symbolization processing unit MY0 calculates the following:
i, e, a, output from the maximum value judgment unit MX 0 ,
Outputs one of o, u, h, l, f, b, w, and m, and when the code output from comparison means C0 is U or S, outputs that code as is. It is something to do. Matrix calculation part
As the transformation matrix Tm of MC 0 , equations (1) to (3) can be used. [Tm]=-17 17, 17, 17, -17, 18, -18 0, 0, 13, 0, 0, 17, 0, 0, 0, 0, 0, 0, 0, 0, 17, 0 , -17, 0, 0, 0, 18, -18, 0,17 0 0 0 0 0 0 0 0 -13 ...(1) [Tm] = -16, 16, 16, 16, -16, 18, -18, 0, 0, 13, -8, -8, 16, -8, -8, 0, 0, 0, 0, 0,0, 16, 0, -16, 0, 0, 0, 18, −18, 0,16 0 −8 0 −16 0 0 0 0 −13 …(2) [Tm] = −14, 14, 14, 14, −14, 18, −18, 0, 0, 13, − 14, -14, 14, -14, -14, 0, 0, 0, 0, 0,0, 14, 0, -14, 0, 0, 0, 18, -18, 0,14 0 -14 0 −14 0 0 0 0 −13 …(3) First, the transformation matrix Tm in equation (1) is set to 0 except for the minimum necessary elements for identification to speed up the calculation, and the transformation matrix Tm in equation (2) (3) gives redundancy to the part where the absolute value of the element is 8, and when the detection of the difference signal is weak, it is possible to symbolize a wide range of five vowels. The elements of the 5 vowels for the difference signal related to F 1 are all given the same weight (absolute value 14), and for the two difference signals related to the second formant F 2 , one of the 5 vowels is given the same weight (absolute value 14). The first formant F 1 is given the necessary weight to identify each individual, and the first formant F 1 is converted into the second formant.
It can be said that it was given more importance than F2 . This transformation matrix
Tm can be arbitrarily set depending on the word to be identified. AP in FIG. 3 shows the characteristics of the adjustment amplifier 20 described above. In addition to the above-mentioned matching method, it is also possible to create a binary signal from the difference signal, encode it with this combination, and sequentially match. Examples of this method include: In other words, UV/V difference signal, Veao/Viu difference signal, Va/Veo difference signal, Ve/Vo difference signal, Vi/Vu obtained from the vector of short-term average power.
Extract the difference signal and assign the symbol Veao if the Veao/Viu difference signal is above a certain positive value, assign the symbol Viu if it is below a certain negative value, and assign the symbol S in other cases. When the difference signal is above a certain positive value, the symbol Va is assigned, when it is below a certain negative value, the symbol Veo is assigned, and in other cases, the symbol S is assigned,
When the Ve/Vo difference signal is above a certain positive value, the symbol Ve is assigned, when it is below a certain negative value, the symbol Vo is assigned, and in other cases, the symbol S is assigned, and the Vi/Vu difference signal is positive. When it is above a certain value, the symbol Vi is assigned, when it is below a certain negative value, the symbol Vu is assigned, and in other cases, the symbol S is assigned. Then, while storing these symbols in the temporary storage means and referring to the symbolization table shown in Table 2, the symbols a, e, o,
Convert to one of the symbols i, u, h, l, f, b, w, and m.

【表】【table】

【表】 ただし、第2表において*は0、1のいずれで
もよいことを示しており、0/1は0の場合と1
の場合を示している。かかる記号化テーブルは例
えばROMなどを用いて構成されており、一時記
憶した内容をアドレス入力としてROMをアクセ
スすることにより、a、e、o……等の各記号の
コードがデータ出力として得られるようにする
か、あるいは一時記憶した内容と記号化テーブル
の内容とを排他的論理和で比較し、一致したとき
の記号を出力するとよい。第14図は照合部をマ
イクロコンピユータの逐次判別処理プログラムに
よつて実現する方法を示すフローチヤートであ
り、まず第1段階としてVeo/Viu差信号が高レ
ベルHであるか、中レベルMであるか、低レベル
Lであるかによつて、3グループに分けている。
そして第2段階では、まず第1段階がHのとき
は、Va/Veo差信号がHならば、記号/a/を
出力し、Mならば記号/Vo/を出力し、Lなら
ば第3段階に移り、Ve/Vo差信号を調べて、H
ならば記号/e/を出力し、Mならば/h/を出
力し、Lならば記号/o/を出力する。一方、第
1段階がMの場合、第2段階では、Ve/Vo差信
号がHならば記号/f/を出力し、Mならば記
号/m/を出力し、Lならば記号/b/を出力す
る。更に第1段階がLの場合、第2段階では
Vi/Vu差信号がAHならば記号/i/を出力し、
Mならば記号/l/を出力し、Lならば号/u/
を出力するのである。 上述に実施例は直交変換として高速フーリエ変
換を用いてあるが、ウオルシユ変換を用いてもよ
い。 [発明の効果] 本発明は音声入力の時間波形の正負が声帯振動
の向きに対して一定であるように正負の位相を保
ち、声帯振動の微分波形が負である声帯振動の立
ち下がりに対応する音声の時間波形の第1の下向
き大振幅点を求めるとともに、次の声帯振動の微
分波形が負である声帯振動の立ち下がりに対応す
る音声の時間波形の第2の下向き大振幅点を求め
る手段を備え、この第2の下向き大振幅点の手前
にある声帯振動の微分波形が正である声帯振動の
立ち上がりに対応する音声の時間波形の上向き大
振幅点と第1の下向き大振幅点との中間で短区間
分析して音声入力の周波数スペクトルの包絡線を
抽出するのでホルトマントに相当するスペクトル
包絡が明確に求められ、話者の個人差や、声帯振
動の影響が少なくかつ計算量が少なくて高い認識
が行えるという効果がある。
[Table] However, in Table 2, * indicates that it can be either 0 or 1, and 0/1 indicates 0 or 1.
The case is shown below. Such a symbolization table is constructed using, for example, a ROM, and by accessing the ROM by using the temporarily stored contents as an address input, codes for each symbol such as a, e, o, etc. can be obtained as data output. Alternatively, it is preferable to compare the temporarily stored contents and the contents of the symbolization table using exclusive OR, and output a symbol when they match. FIG. 14 is a flowchart showing a method for realizing the matching section using a sequential discrimination processing program of a microcomputer.The first step is to determine whether the Veo/Viu difference signal is at a high level H or at a medium level M. They are divided into three groups depending on whether they are low level or low level L.
In the second stage, when the first stage is H, if the Va/Veo difference signal is H, the symbol /a/ is output, if it is M, the symbol /Vo/ is output, and if it is L, the third Step 1, check the Ve/Vo difference signal, and
If so, output the symbol /e/, if M, output /h/, and if L, output the symbol /o/. On the other hand, if the first stage is M, in the second stage, if the Ve/Vo difference signal is H, the symbol /f/ is output, if it is M, the symbol /m/ is output, and if it is L, the symbol /b/ Output. Furthermore, if the first stage is L, then in the second stage
If the Vi/Vu difference signal is AH, output the symbol /i/,
If M, output the symbol /l/; if L, output the symbol /u/
It outputs . Although the above-described embodiment uses fast Fourier transform as the orthogonal transform, Walsh transform may also be used. [Effects of the Invention] The present invention maintains the positive and negative phases of the time waveform of voice input so that they are constant with respect to the direction of vocal fold vibration, and corresponds to the falling edge of vocal fold vibration when the differential waveform of vocal fold vibration is negative. Find the first large downward amplitude point of the temporal waveform of the voice that corresponds to the fall of the vocal fold vibration where the differential waveform of the next vocal fold vibration is negative. and a first large downward amplitude point and an upward large amplitude point of the temporal waveform of the voice corresponding to the rise of the vocal fold vibration in which the differential waveform of the vocal fold vibration is positive before the second downward large amplitude point. Since the envelope of the frequency spectrum of the voice input is extracted by performing a short interval analysis in the middle of This has the effect of allowing high recognition.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の実施例の概略回路構成図、第
2図は同上の要部の動作説明用のフローチヤー
ト、第3図は同上の具体回路図、第4図乃至第1
2図は同上の動作説明図、第13図は本発明の実
施例の記号化プロセスを説明する回路ブロツク
図、第14図は本発明の別の照合例の動作説明用
のフローチヤート、第15図はホルトマン軌跡に
ついての説明用波形図、第16図は本発明の背景
技術説明用の波形図であり、3は区間補償部、4
はピツチ検出部、5は分析区間決定部、6は分析
窓計算部、7は高速フリーエ変換部、8は周波数
帯域分割部、9は差信号ベクトル変換部、8はホ
ルトマン軌跡変換部である。
FIG. 1 is a schematic circuit configuration diagram of an embodiment of the present invention, FIG. 2 is a flowchart for explaining the operation of the main parts of the same, FIG. 3 is a specific circuit diagram of the same, and FIGS.
2 is an explanatory diagram of the same operation as above, FIG. 13 is a circuit block diagram explaining the symbolization process of the embodiment of the present invention, FIG. 14 is a flowchart for explaining the operation of another collation example of the present invention, and FIG. The figure is a waveform diagram for explaining the Holtmann trajectory, and FIG. 16 is a waveform diagram for explaining the background technology of the present invention.
5 is a pitch detection unit, 5 is an analysis interval determination unit, 6 is an analysis window calculation unit, 7 is a fast Freeier transform unit, 8 is a frequency band division unit, 9 is a difference signal vector conversion unit, and 8 is a Holtmann locus conversion unit.

Claims (1)

【特許請求の範囲】[Claims] 1 音声入力の周波数スペクトルを抽出する手段
と、対数パワースペクトルを周波数分割して各周
波数帯域毎の短時間平均パワーを取り出しこれら
短時間平均パワーから5母音i,e,a,o,u
がe,a,oとi,uの比率、aとe,oの比
率、eとoの比率、iとuの比率に分かれるよう
に差信号ベクトルを抽出するか、あるいはホルマ
ント軌跡からホルマントベクトルを求めて、差信
号ベクトル又はホルマントベクトルに変換行列を
乗算して5母音及びその他の有声音の記号ベクト
ルを算出する行列計算手段と、該行列計算手段か
ら出力される記号ベクトルの各成分のうち最大の
成分を分析フレームの擬音韻記号として出力する
手段と、該擬音韻記号に基づいて記号と継続時間
からなる入力パターンを予め記憶してある標準パ
ターンとを時間軸あるいは記号によつて照合して
入力パターンに最も近い標準パターンを入力メツ
セージとして識別することを特徴とする音声メツ
セージ識別方式において、音声入力の時間波形の
正負が声帯振動の向きに対して一定であるように
正負の位相を保ち、声帯振動の微分波形が負であ
る声帯振動の立ち下がりに対応する音声の時間波
形の第1の下向き大振幅点を求めるとともに、次
の声帯振動の微分波形が負である声帯振動の立ち
下がりに対応する音声の時間波形の第2の下向き
大振幅点を求める手段を備え、この第2の下向き
大振幅点の手前にある声帯振動の微分波形が正で
ある声帯振動の立ち上がりに対応する音声の時間
波形の上向き大振幅点と第1の下向きの大振幅点
との中間で短区間分析して音声入力の周波数スペ
クトルの包絡線を抽出することを特徴とする音声
メツセージ識別方式。
1. Means for extracting the frequency spectrum of the audio input, frequency-dividing the logarithmic power spectrum, extracting the short-term average power for each frequency band, and extracting the five vowels i, e, a, o, u from these short-time average powers.
Extract the difference signal vector so that it is divided into the ratio of e, a, o and i, u, the ratio of a and e, o, the ratio of e and o, and the ratio of i and u, or extract the formant vector from the formant locus. matrix calculation means for calculating symbol vectors of five vowels and other voiced sounds by multiplying the difference signal vector or formant vector by a transformation matrix; A means for outputting the largest component as an onomatopoeic symbol of an analysis frame and a standard pattern in which input patterns consisting of symbols and durations are stored in advance based on the onomatopoeic symbol are compared on a time axis or by symbol. In a voice message identification method that identifies the standard pattern closest to the input pattern as the input message, the positive and negative phases of the time waveform of the voice input are maintained so that they are constant with respect to the direction of vocal cord vibration. , find the first downward large amplitude point of the voice time waveform corresponding to the falling edge of vocal fold vibration where the differential waveform of vocal fold vibration is negative, and find the next falling edge of vocal fold vibration where the differential waveform of vocal fold vibration is negative. means for determining a second downward large amplitude point of the temporal waveform of the voice corresponding to the second downward large amplitude point, and the differential waveform of the vocal fold vibration before the second downward large amplitude point is positive, and the voice corresponds to the rise of the vocal fold vibration. A voice message identification method characterized by extracting an envelope of a frequency spectrum of a voice input by performing a short interval analysis between an upward large amplitude point and a first downward large amplitude point of a time waveform.
JP10693784A 1984-05-25 1984-05-25 Voice message identification system Granted JPS60250399A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10693784A JPS60250399A (en) 1984-05-25 1984-05-25 Voice message identification system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10693784A JPS60250399A (en) 1984-05-25 1984-05-25 Voice message identification system

Publications (2)

Publication Number Publication Date
JPS60250399A JPS60250399A (en) 1985-12-11
JPH0462597B2 true JPH0462597B2 (en) 1992-10-06

Family

ID=14446300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10693784A Granted JPS60250399A (en) 1984-05-25 1984-05-25 Voice message identification system

Country Status (1)

Country Link
JP (1) JPS60250399A (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS619698A (en) * 1984-06-25 1986-01-17 松下電工株式会社 Voice message identification system

Also Published As

Publication number Publication date
JPS60250399A (en) 1985-12-11

Similar Documents

Publication Publication Date Title
EP0219109B1 (en) Method of analyzing input speech and speech analysis apparatus therefor
US10410623B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
US20100332222A1 (en) Intelligent classification method of vocal signal
JPH0990974A (en) Signal processing method
He et al. Stress detection using speech spectrograms and sigma-pi neuron units
Rahman et al. Dynamic time warping assisted SVM classifier for Bangla speech recognition
JP3354252B2 (en) Voice recognition device
JPS60181798A (en) Voice recognition system
JPH0462597B2 (en)
Upadhyay et al. Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario
JPH0462596B2 (en)
JPH01255000A (en) Apparatus and method for selectively adding noise to template to be used in voice recognition system
JPH07121197A (en) Learning voice recognition method
Meyer et al. Complementarity of MFCC, PLP and Gabor features in the presence of speech-intrinsic variabilities.
Siegel et al. A pattern classification algorithm for the voiced/unvoiced decision
Zouhir et al. Speech Signals Parameterization Based on Auditory Filter Modeling
Lee Robust linear prediction for speech analysis
Akhsanta et al. Text-independent speaker identification using PCA-SVM model
Zergat et al. Robust support vector machines for speaker verification task
Mut et al. Improved Weighted Matching for Speaker Recognition.
JPH1097269A (en) Voice detection device and method
JPH0251520B2 (en)
bachir Tazi Fusion approach for robust speaker identification system
JPH0311478B2 (en)
JPS619698A (en) Voice message identification system