JPH01998A - How to normalize spectrograms - Google Patents
How to normalize spectrogramsInfo
- Publication number
- JPH01998A JPH01998A JP62-156958A JP15695887A JPH01998A JP H01998 A JPH01998 A JP H01998A JP 15695887 A JP15695887 A JP 15695887A JP H01998 A JPH01998 A JP H01998A
- Authority
- JP
- Japan
- Prior art keywords
- spectrogram
- codebook
- learning
- vector
- normalization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims description 76
- 238000013139 quantization Methods 0.000 claims description 48
- 238000010606 normalization Methods 0.000 claims description 29
- 238000000034 method Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 11
- 230000003595 spectral effect Effects 0.000 description 11
- 230000005236 sound signal Effects 0.000 description 7
- 230000009466 transformation Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.
Description
【発明の詳細な説明】
[産業上の利用分野コ
この発明はスペクトログラムの正規化方式に関し、特に
、ベクトル量子化を用いて異話者間のスペクトログラム
の正規化を行ない、不特定話者認識のための話者適応化
や性質変換技術に適用できるようなスペクトログラムの
正規化方式に関する。[Detailed Description of the Invention] [Industrial Field of Application] This invention relates to a spectrogram normalization method, and in particular, it normalizes spectrograms between different speakers using vector quantization, and is useful for speaker-independent recognition. This paper relates to a spectrogram normalization method that can be applied to speaker adaptation and property conversion techniques.
[従来の技術および発明が解決しようとする問題点]
自動翻訳電話では、入力として音声が用(Sられるが、
その音声は不特定話者の音声であり、このような不特定
話者の音声を的確に認識する必要がある。不特定話者認
識のための1つの手段として、異話者間のスペクトログ
ラムの正規化を行なう方法があるが、従来の異話者間の
スペクトログラムの正規化手段は、主に母音区間の正規
化に関するものであり、決定論的なスペクトル周波数の
変化などの方法しかなかった。[Prior art and problems to be solved by the invention] Automatic translation telephones use voice as input;
The voice is the voice of an unspecified speaker, and it is necessary to accurately recognize such voice of an unspecified speaker. One method for speaker-independent recognition is to normalize spectrograms between speakers of different speakers, but conventional methods of normalizing spectrograms between speakers of different speakers mainly involve normalization of vowel intervals. The only methods available were deterministic spectral frequency changes.
そこで、ベクトル量子化を用いて異話者間のスペクトピ
グラムの正規化を行なう方法が考えられる。ところが、
従来のベクトル量子化では、計算量、メモリの増加を抑
えて認1性能を向上させるべくベクトル量子化に用いる
スペクトル歪み尺度の改良が行なわれてきた。そして、
種々の特徴の組合わせの複合スペクトル歪み尺度が用い
られてきたが、この方法ではスペクトル歪み尺度に多種
の特徴間を混在させ、それらの間の依存関係を拘束条件
として用い、より認識性能の良い空間へ特徴を写像する
ところに意味があった。しかし、この方法では、次のよ
うな問題点があった。Therefore, a method of normalizing spectopigrams between different speakers using vector quantization may be considered. However,
In conventional vector quantization, the spectral distortion measure used in vector quantization has been improved in order to suppress increases in calculation amount and memory and improve recognition performance. and,
Composite spectral distortion measures that combine various features have been used, but this method mixes various types of features in the spectral distortion measures and uses the dependencies between them as constraint conditions to improve recognition performance. The meaning lies in mapping features into space. However, this method has the following problems.
■ 各特徴間間の依存関係がベクトル量子化のコードブ
ック内に統計的に妥当性を持つためには、非常に多くの
ラーニングサンプルとこのための膨大な計算時間が必要
である。■ In order for the dependencies between features to have statistical validity in the vector quantization codebook, a large number of learning samples and an enormous amount of calculation time are required.
■ コードブックサイズで見た場合、各特徴に必要なコ
ードブックサイズは特徴間の依存関係を拘束条件にする
ことで減少する。しかし、それでも全体のコードブック
サイズは各特徴に必要なコードブックサイズの積になっ
て、非常に大きくなってしまい、膨大なメモリが必要で
あった。■ In terms of codebook size, the codebook size required for each feature can be reduced by using the dependencies between features as a constraint. However, the overall codebook size is still the product of the codebook sizes required for each feature, resulting in a very large size and requiring a huge amount of memory.
■ 複合スペクトル歪み尺度を用いてベクトル量子化の
コードブックを生成した場合、各種の特徴間の相関によ
り、スペクトルの再現能力が低下する。■ When a vector quantization codebook is generated using a composite spectral distortion measure, the ability to reproduce the spectrum decreases due to the correlation between various features.
それゆえに、この発明の主たる目的は、ベクトル量子化
を用いてスペクトルを個人ごとに有限のベクトルで表現
し、その後、異話者間のベクトルの対応を求めることに
より、異話者間のスペクトログラムを正規化し得るスペ
クトログラムの正規化方式を提供することである。Therefore, the main purpose of this invention is to express spectra for each individual with finite vectors using vector quantization, and then to find the correspondence between the vectors between different speakers. An object of the present invention is to provide a normalization method for spectrograms that can be normalized.
[問題点を関東するための手段]
この発明は音声をディジタル化し、その音声の特徴とし
てスペクトログラムを抽出し、この抽出されたスペクト
ログラムを異話者間で正規化するスペクトログラム正規
化方式であって、音声をベクトル量子化した後ベクトル
量子化のコードブックについて異話者間で対応づけを行
ない、この対応づけに基づいてスペクトログラムの正規
化を行なうように構成したものである。1
[作用]
この発明に係るスペクトログラムの正規化方式は、音声
をベクトル量子化した後スペクトログラムを個人ごとに
有限のベクトルで表現し、その後異話者間のベクトルの
対応を求めることにより、コードブックサイズは各特徴
に必要なコードブックサイズの和となるので、全体のコ
ードブックサイズを低減できる。[Means for solving the problem] The present invention is a spectrogram normalization method that digitizes speech, extracts a spectrogram as a feature of the speech, and normalizes the extracted spectrogram between different speakers. After vector quantizing speech, the vector quantization codebook is associated with different speakers, and the spectrogram is normalized based on this association. 1 [Operation] The spectrogram normalization method according to the present invention vector quantizes the speech, expresses the spectrogram with a finite vector for each individual, and then calculates the correspondence between the vectors between different speakers, thereby creating a codebook. Since the size is the sum of the codebook sizes required for each feature, the overall codebook size can be reduced.
[発明の実施例]
以下に、図面を参照して、この発明の実施例についてよ
り詳細に説明する。[Embodiments of the Invention] Examples of the invention will be described in more detail below with reference to the drawings.
第1図はこの発明が適用される音声認識装置の概略ブロ
ック図である。FIG. 1 is a schematic block diagram of a speech recognition device to which the present invention is applied.
第1図において、音声認識装置はアンプ1とローパスフ
ィルタ2とA/D変換器3と処理装置4とから構成され
る。アンプ1は入力された音声信号を増幅するものであ
り、ローパスフィルタ2は増幅された音声信号から折返
し雑音を除去するものである。A/D変換器3は音声信
号を12kH2のサンプリング信号により、16ビツト
のディジタル信号に変換するものである。処理装置5は
コンピュータ5と磁気ディスク6と端末類7とプリンタ
8とを含む。コンピュータ5はA/D変換器3から入力
された音声のディジタル信号に基づいて音声認識を行な
うものである。In FIG. 1, the speech recognition device is composed of an amplifier 1, a low-pass filter 2, an A/D converter 3, and a processing device 4. The amplifier 1 is for amplifying an input audio signal, and the low-pass filter 2 is for removing aliasing noise from the amplified audio signal. The A/D converter 3 converts the audio signal into a 16-bit digital signal using a 12kHz sampling signal. The processing device 5 includes a computer 5, a magnetic disk 6, a terminal 7, and a printer 8. The computer 5 performs voice recognition based on the voice digital signal input from the A/D converter 3.
第2図はこの発明の一実施例の音声の入力から正規化ス
ペクトログラムを出力するまでの全体の流れを示すフロ
ー図である。FIG. 2 is a flow diagram showing the overall flow from audio input to output of a normalized spectrogram in one embodiment of the present invention.
次に、第1図ないし第3図を参照して、この発明の一実
施例の動作について説明する。入力された音声信号はア
ンプ1で増幅され、ローパスフィルタ2によって折返し
雑音が除去された後、第2図に示すステップ(図示では
SPと略称する)SPlにおいて、A/D変換器3が入
力された音声信号を16ビツトのディジタル信号に変換
する。Next, the operation of one embodiment of the present invention will be described with reference to FIGS. 1 to 3. The input audio signal is amplified by the amplifier 1, and after aliasing noise is removed by the low-pass filter 2, the input audio signal is input to the A/D converter 3 in step SPl shown in FIG. 2 (abbreviated as SP in the figure). Converts the audio signal into a 16-bit digital signal.
処理装置4のコンピュータ5はステップSP2において
、ディジタル信号に変換された音声の特徴抽出を行なう
。この特徴抽出では、たとえば線形分析(LPG分析)
などの手法を用いて行なわれる。In step SP2, the computer 5 of the processing device 4 extracts features of the audio converted into a digital signal. In this feature extraction, for example, linear analysis (LPG analysis)
This is done using methods such as
ステップSP3において、コードブックの生成であるか
否かが判別され、コードブックの生成であれば、ステッ
プSP4において、抽出された音声の特徴に基づいて、
コードブック生成が行なわれる。このコードブック生成
としては、たとえばLBGアルゴリズムが用いられ、特
徴ごとに生成されて、ステップSP5において、磁気デ
ィスク6のセパレートコードブックに格納される。なお
、LBGアルゴリズムについては、Linde、Buz
o、Gray; An algorithmfor
Vector Quantization D
esLgn’IEEE C0M−28(1980−0
1)に詳細に記載されている。In step SP3, it is determined whether or not a codebook is to be generated. If a codebook is to be generated, in step SP4, based on the features of the extracted speech,
Codebook generation is performed. For example, the LBG algorithm is used to generate this codebook, and each feature is generated and stored in a separate codebook on the magnetic disk 6 in step SP5. Regarding the LBG algorithm, Linde and Buz
o, Gray; An algorithm for
Vector Quantization D
esLgn'IEEE C0M-28 (1980-0
1) is described in detail.
量子化を行なうときには、ステップSP3においてコー
ドブックの生成でないことが判別され、前述のステップ
SP2で求められた音声の特徴が、ステップSP6にお
いて、セパレートコードブックを参照してセパレートベ
クトル量子化される。When performing quantization, it is determined in step SP3 that a codebook is not generated, and the speech features obtained in step SP2 described above are subjected to separate vector quantization with reference to a separate codebook in step SP6.
そして、ステップSP7において、変換ベクトルの学習
であるか否かが判別され、変換ベクトルの学習であれば
、ステップSP8において、セパレートベクトル量子化
により生成された特徴ごとのコード列が標準話者の学習
用標準パターン系列とDouble 5plitによ
るDP(Dynamic Programming:
動的計画法)マツチングされる。この学習用標準パター
ン系列はステップSP9において予め磁気ディスク6に
登録されている。ステップ5P10において、DPマツ
チングの結果のベクトルの対応づけのヒストグラムを用
いて、変換ベクトルが生成される。Then, in step SP7, it is determined whether or not the learning is of a transformation vector. If it is learning of a transformation vector, in step SP8, the code string for each feature generated by separate vector quantization is DP (Dynamic Programming:
dynamic programming) is matched. This learning standard pattern series is registered in advance on the magnetic disk 6 in step SP9. In step 5P10, a transformation vector is generated using a histogram of vector correspondences resulting from DP matching.
この変換ベクトルはステップ5P11において、磁気デ
ィスク6に登録される。This conversion vector is registered in the magnetic disk 6 in step 5P11.
前述のステップSP7において、変換ベクトルの学習で
ないことを判別したとき、すなわち正規化であることを
判別したときには、ステップ5P12において、セパレ
ートベクトル量子化により生成された特徴ごとのコード
列が、ステップ5P11において既に格納されている変
換ベクトルを用いてフレームごとに置換えられ、正規化
スペクトログラムが生成されて出力される。In step SP7, when it is determined that the transformation vector is not learning, that is, when it is determined that normalization is being performed, the code string for each feature generated by separate vector quantization is transferred to step 5P11 in step 5P12. The already stored transformation vectors are used to replace each frame, and a normalized spectrogram is generated and output.
第3図はベクトル量子化を用いたスペクトログラム正規
化の動作を説明するためのフロー図であり、第4図はセ
パレートベクトル量子化の動作を説明するためのフロー
図であり、第5図は変換ベクトル学習のアルゴリズムを
説明するためのフロー図であり、第6図はスペクトログ
ラム正規化のアルゴリズムであり、第7図はマツチング
方式を説明するためのフロー図である。Fig. 3 is a flow diagram for explaining the operation of spectrogram normalization using vector quantization, Fig. 4 is a flow diagram for explaining the operation of separate vector quantization, and Fig. 5 is a flow diagram for explaining the operation of spectrogram normalization using vector quantization. FIG. 6 is a flowchart for explaining a vector learning algorithm, FIG. 6 is a spectrogram normalization algorithm, and FIG. 7 is a flowchart for explaining a matching method.
次に、第3図を参照して、ベクトル量子化を用いたスペ
クトログラム正規化について説明する。Next, spectrogram normalization using vector quantization will be explained with reference to FIG.
この発明におけるベクトル量子化を用いたスペクトログ
ラム正規化は大きく2つの機能から構成されている。1
つは、ステップ5P23におけるベクトル量子化である
。このベクトル量子化は、特徴の種類ごとに別々にベク
トル量子化を行なうセパレートベクトル量子化であって
、ステップ5P22において、特徴別に別々のコードブ
ックが生成される。Spectrogram normalization using vector quantization in this invention consists of two main functions. 1
The first is vector quantization in step 5P23. This vector quantization is separate vector quantization in which vector quantization is performed separately for each type of feature, and in step 5P22, separate codebooks are generated for each feature.
2つ目は、ステップ5P24におけるスペクトルの変換
(正規化)であり、ステップ5P24において、学習用
qt語を未知話者に発声させることにより、ベクトルの
対応づけを行なう。ここでは、全学習用単語について求
めた対応づけのヒストグラムを求め、これを重みとして
未知話者のコードブックの特徴ベクトルを標準話者のコ
ードブックの特徴ベクトルの線形結合で表わし、これを
変換コードブックとしてステップ5P25において格納
しておき、正規化時には、入力されたスペクトルを入力
ごとに変換コードブックを用いて置換え、スペクトルの
正規化を行なう。The second step is the conversion (normalization) of the spectrum in step 5P24, and in step 5P24, the vectors are associated by having the unknown speaker speak the qt word for learning. Here, we obtain a histogram of the correspondence obtained for all training words, use this as a weight, express the feature vector of the unknown speaker's codebook as a linear combination of the feature vectors of the standard speaker's codebook, and use this as a conversion code. It is stored as a book in step 5P25, and during normalization, the input spectrum is replaced with the conversion codebook for each input to normalize the spectrum.
ここで、セパレートベクトル量子化について詳細に説明
する。この発明では、音声をパワーとスペクトル情報(
自己相関係数、LPCケプストラム係数)の2種類の特
徴に分割し、それぞれについて別々にベクトル量子化を
行なう。但し、パワーはスカラーであるため、不均一ス
カラー量子化となっている。第4図において、ステップ
5P31において、16ビツトのディジタル信号に変換
された音声信号に対して、14次の自己相関分析による
LPG分析を行ない、入力音声の特徴であるパワーと自
己相関係数、LPCケプストラム係数を抽出する。ステ
ップ5P32において、パワーのコードブック生成であ
るか否かを判別し、パワーのコードブック生成であれば
、ステップ5P33において、入力音声のパワーをスカ
ラー量子化する。スカラー量子化では、不均一量子化の
手法を用いて、ステップ5P33においてパワーコード
ブックを生成し、ステップ5P34において、生成した
パワーコードブックを磁気ディスク6に格納する。Here, separate vector quantization will be explained in detail. In this invention, audio is divided into power and spectral information (
It is divided into two types of features (autocorrelation coefficient and LPC cepstrum coefficient), and vector quantization is performed separately on each of them. However, since the power is a scalar, it is non-uniform scalar quantization. In FIG. 4, in step 5P31, the audio signal converted to a 16-bit digital signal is subjected to LPG analysis using 14th order autocorrelation analysis, and the power, autocorrelation coefficient, and LPC, which are the characteristics of the input audio, are analyzed. Extract cepstral coefficients. In step 5P32, it is determined whether or not power codebook generation is being performed, and if power codebook generation is being performed, the power of the input voice is scalar quantized in step 5P33. In the scalar quantization, a power codebook is generated in step 5P33 using a non-uniform quantization method, and the generated power codebook is stored on the magnetic disk 6 in step 5P34.
パワーコードブックの生成でないとき、すなわち、量子
化時には、ステップ5P34におけるパワーコードブッ
クを用いて、ステップ5P35において量子化を行ない
、パワーに関するコード列を出力する。When a power codebook is not being generated, that is, during quantization, the power codebook in step 5P34 is used, quantization is performed in step 5P35, and a code string related to power is output.
一方、ステップ5P36において、LPC相関係数およ
びLPCケプストラム係数のコードブック生成であるこ
とが判別されると、ステップ5P37において、LBG
アルゴリズムにより、WLRR度に基づいてコードブッ
クが生成され、ステップ5P38におて、生成されたコ
ードブックが磁気ディスク6に格納される。こで、WL
R尺度は、音声の特徴を強調する尺度であり、単語音声
の認識において高い性能を示すものであり、村山。On the other hand, if it is determined in step 5P36 that the codebook is to be generated for LPC correlation coefficients and LPC cepstral coefficients, then in step 5P37, LBG
A codebook is generated based on the WLRR degree by the algorithm, and the generated codebook is stored on the magnetic disk 6 in step 5P38. Here, WL
The R scale is a scale that emphasizes the features of speech and shows high performance in word speech recognition, according to Murayama.
鹿野による“ピークに重みをおいたLPGスペクトルマ
ツチング尺度尺度子電子通信学会論文) J64−A5
(198−05)に記載されている。Shikano, “LPG spectrum matching scale scale with peak weighting” (IEICE paper) J64-A5
(198-05).
なお、LPG相関係数およびLPCケプストラム係数の
コードブック生成でないとき、すなわち、量子化時には
入力音声の自己相関係数とLPCケプストラム係数に対
し、ステップSP3gにおけるスペクトルコードブック
を用いて、ステップ5P39においてベクトル量子化を
行ない、スペクトル情報に関するコード列を出力する。Note that when a codebook of LPG correlation coefficients and LPC cepstrum coefficients is not generated, that is, during quantization, vectors are generated in step 5P39 using the spectral codebook in step SP3g for the autocorrelation coefficients and LPC cepstrum coefficients of input speech. Performs quantization and outputs a code string related to spectral information.
ここで、コードブック生成、量子化に用いたスペクトル
歪み尺度は次のものである。Here, the spectral distortion measure used for codebook generation and quantization is as follows.
d −P/P’ + P’ /P−2・・・(1
)ower
d −Σ (C(n)−C’ (n)) (R(
n)−R’ (n))spectrus
・・・(2)
ここで、
d はパワー項の歪み尺度であり、ower
dSpOetrtJlはスペクトル歪み尺度であり、R
(n)はコードブックのn次の自己相関、係数であり、
R’ (n)は人力のn次の自己相関係数であり、C(
n)はコードブックのn次のLPCケプストラム係数で
あり、
C’ (n)は人力のn次のLPCケプストラム係数で
ある。d −P/P' + P' /P-2...(1
)ower d -Σ (C(n)-C' (n)) (R(
n)-R' (n))spectrus...(2) where d is the distortion measure of the power term, power dSpOetrtJl is the spectral distortion measure, and R
(n) is the n-th autocorrelation coefficient of the codebook, R' (n) is the n-th autocorrelation coefficient of human power, and C(
n) is the n-th order LPC cepstral coefficient of the codebook, and C' (n) is the n-th order LPC cepstral coefficient of the human power.
次に、第5図を参照して、第、3図に示したステップ5
P24.ステップ5P25におけるスペクトルの正規化
および変換コードブ・ツクの生成について詳細に説明す
る。まず、変換コードブ・ツクを生成するにあたって、
学習用単語を未知話者に発声させる。この入力音声をス
テップ5P41において、ステップ5P42で既に格納
されているコードブックを用いてセパレートベクトル量
子化する。ステップ5P43において、量子化されたコ
ード列は、ステップ5P44において既に格納されてい
る標準話者の同一単語の学習用標準/く夕一ンとDou
ble 5plit法によりD P 7 ツチングさ
れ、未知話者と標準話者が発声した同一学習単語でベク
トルの対応づけを求める。そして、すべての学習単語に
ついて対応づけを求め、ヒストグラムの形で格納する。Next, referring to FIG. 5, step 5 shown in FIG.
P24. The spectral normalization and conversion codebook generation in step 5P25 will be described in detail. First, when generating the conversion code book,
Have an unknown speaker say the learning words. This input voice is subjected to separate vector quantization in step 5P41 using the codebook already stored in step 5P42. In step 5P43, the quantized code string is used as the learning standard for the same words of standard speakers already stored in step 5P44.
The vectors are matched using the same learning word uttered by an unknown speaker and a standard speaker using D P 7 tsching using the ble 5plit method. Then, the correspondence is obtained for all the learning words and stored in the form of a histogram.
ステップ5P45において、求めたヒストグラムを用い
て、未知話者の特徴ベクトルを、ステップ5P46にお
いて格納されている標準話者のコードブックの特徴ベク
トルの対応づけのヒストグラムを重みとした荷重和で表
わす。この荷重和は次の式で表すことができる。In step 5P45, the obtained histogram is used to express the feature vector of the unknown speaker as a weighted sum weighted in step 5P46 with the histogram of the association of feature vectors in the codebook of the standard speaker stored. This weighted sum can be expressed by the following formula.
a′(ト)−Σb (k)Elk/i hn (k)
n
k:標準話者のコードブックのコード番号口:未知話者
のコードブックのコード番号a′:未知話者から標準話
者への変換ベクトルb (k) :標準話者のコード
ブックの特徴ベクトル
h (k):DPマツチングによる対応付けで求めら
れた未知話者のコードnに
対する標準話者のコードにのヒス
トグラム
つぎに、ステップ5P48において a /の変換ベク
トルで未知話者のツー1ブ・ツクを入替え、ステップ5
P43.5P45および5P47および5P48を繰返
し行なう。この繰返しを一定回数または全学習単語に対
するDP短距離収束するまで繰返し、ステップ5P47
において収束したことを判別すると、最終的な未知話者
から標準話者への変換ベクトルが求められる。a' (g) - Σb (k) Elk/i hn (k)
n k: Code number of the standard speaker's codebook Mouth: Code number of the unknown speaker's codebook a': Conversion vector from unknown speaker to standard speaker b (k): Characteristics of the standard speaker's codebook Vector h (k): histogram of the standard speaker's code for the unknown speaker's code n found by the correspondence by DP matching.Next, in step 5P48, the unknown speaker's two 1 b. Swap the Tsuku, step 5
P43. Repeat steps 5P45, 5P47 and 5P48. Repeat this process a certain number of times or until DP short distance convergence for all learning words is reached, step 5P47.
When it is determined that convergence has been achieved in , the final conversion vector from the unknown speaker to the standard speaker is determined.
次に、第6図を参照して、スペクトルの正規化について
説明する。ステップ5P51において、未知話者の入力
音声を、コードブックを用いてセパレートベクトル量子
化する。ここで、未知話者のコードブックはステップ5
P52において予め格納されている。そして、先程求め
たステップ5P54における未知話者から標準話者への
変換ベクトルにより、ステップ5P53において未知話
者のコードブックを入替え、フレームワイズにスペクト
ルの入替えを行なって正規化スペクトログラムを出力す
る。。Next, normalization of the spectrum will be explained with reference to FIG. In step 5P51, the input speech of the unknown speaker is subjected to separate vector quantization using the codebook. Here, the unknown speaker's codebook is
It is stored in advance in P52. Then, in step 5P53, the codebook of the unknown speaker is replaced based on the conversion vector from the unknown speaker to the standard speaker obtained in step 5P54, framewise spectrum replacement is performed, and a normalized spectrogram is output. .
次に、第7図を参照して、対応づけを求めるマツチング
動作について説明する。マツチングはDouble
5plit法を用いて行なう。ステップ5P61におい
て、セパレートベクトル量子化によりパワーとスペクト
ルと別々にベクトル量子化し生成されたコード列と、コ
ード列として格納されている標準パターンとをマツチン
グする。Next, with reference to FIG. 7, a matching operation for determining correspondence will be described. Matching is Double
This is carried out using the 5-plit method. In step 5P61, a code string generated by vector quantizing power and spectrum separately by separate vector quantization is matched with a standard pattern stored as a code string.
標準パターンはステップ5P62において、セパレート
ベクトル量子化によりコード化されたパワーおよびスペ
クトルの標準パターンが予め格納されている。そして、
ステップ5P61におけるマツチングにおいては、コー
ド間の距離は予めステップ5P63において距離マトリ
クスを作成しておき、この表びきを行なうことで求める
。このようにして、順番に標準パターンとマツチングし
て求めた人力音声と標準パターンのベクトルの対応をス
テップ5P64におけるヒストグラム生成部に出力する
。そして、ヒストグラム生成部で求められたヒストグラ
ムを重みとして、未知話者の特徴ベクトルを標準話者の
特徴ベクトルの線形結合で表わして変換ベクトルとする
。As the standard pattern, in step 5P62, a standard pattern of power and spectrum coded by separate vector quantization is stored in advance. and,
In the matching in step 5P61, the distance between codes is determined by creating a distance matrix in advance in step 5P63 and performing this table search. In this way, the correspondence between the vector of the human voice and the standard pattern obtained by sequential matching with the standard pattern is output to the histogram generation section in step 5P64. Then, using the histogram obtained by the histogram generation unit as a weight, the unknown speaker's feature vector is expressed as a linear combination of the standard speaker's feature vectors, and is used as a conversion vector.
次に、マツチング方法について詳細に説明する。Next, the matching method will be explained in detail.
従来のマツチングでは、入力も標準パターンも1つの特
徴列あるいはコード列であったが、セパレートベクトル
量子化では、一般に複数のコード列により構成される。In conventional matching, both the input and the standard pattern are one feature string or code string, but in separate vector quantization, they are generally composed of a plurality of code strings.
この発明では、パワーコード列とスペクトルコード列の
2系列のマツチング手法を例に掲げて説明する。パワー
とスペクトルの両方の情報を考えた場合の距離尺度とし
てPWLR尺度がある。これは次式で示される。In this invention, a method of matching two sequences, a power code sequence and a spectrum code sequence, will be exemplified and explained. There is a PWLR measure as a distance measure when both power and spectrum information are considered. This is shown by the following equation.
dPVLR−Σ(C(n)−C’ (n))Q?(n)
−R’ (n))+ a(P/P’ + P’ /P−
2) 、 −(3)a= 0.01
従来のDouble 5plit法によるコード列の
マツチングでは、前述のようにすべての空間がベクトル
量子化され、有限個の点で代表されていることを利用し
て、予めすべての代表点間の距離を求めて距離マトリク
スに格納しておく。したがって、
d、WLR(1,j) −oL(A(+)、B(j))
DL(A(1)、B(j))
一Σ(CK(n)−c、 (n))(RK(n)−RL
(n))+ a−(PK/PL+ P、 /PK−2)
A (i)は、入力音声のiフレーム目のコード番号
B (j)は、標準パターンのjフレーム目のコード番
号
DL (K、L)は、コードに、L間の距離を距離マト
リクスから表びきで求めたもの
に、 Lは、A (j) 、 B (j)のコード
番号しかし、セパレートベクトル量子化では、2つの系
列を有するので次のようにして距離を求める。dPVLR-Σ(C(n)-C'(n))Q? (n)
-R'(n))+a(P/P'+P'/P-
2) , -(3) a = 0.01 In matching code strings using the conventional Double 5plit method, as mentioned above, all spaces are vector quantized and represented by a finite number of points. Then, the distances between all representative points are calculated in advance and stored in a distance matrix. Therefore, d, WLR(1,j) −oL(A(+),B(j))
DL(A(1), B(j)) one Σ(CK(n)-c, (n))(RK(n)-RL
(n))+ a-(PK/PL+ P, /PK-2)
A (i) is the code number of the i-th frame of the input audio B (j) is the code number of the j-th frame of the standard pattern DL (K, L) is the code number that represents the distance between L from the distance matrix in the code. L is the code number of A (j) and B (j).However, in separate vector quantization, there are two sequences, so the distance is determined as follows.
d[p][VLR]”J)
=DL (A (+)、B (j)
)Sp8eL 5pect 5pect+
a’ DL、o、8. (Apo、、、 (1)、 B
、、、e、 (j))ここで、
DL (A (1)、B (j))
spect 5pect 5pect−Σ(
CK(n)−C,(n)>(RK(n)−R,(n))
DL (A (1)、B (j))
power power powe
r” P Kメ/PLl+PLメ/P K、 −2に、
Lは、A (i)、B (j)のコード5
pcct 5pect
番号
に’ 、L’ は、A (i)、B (j
)のpower powerコード番
号である。d[p][VLR]”J) =DL (A (+), B (j)
) Sp8eL 5pect 5pect+
a' DL, o, 8. (Apo, , (1), B
,,,e, (j)) where DL (A (1), B (j))
spectrum 5pect 5pect-Σ(
CK(n)-C,(n)>(RK(n)-R,(n))
DL (A (1), B (j))
power power power
r” PK me/PLl+PL me/PK, -2,
L is code 5 of A (i), B (j)
pcct 5pect ', L' in the numbers are A (i), B (j
) is the power code number.
これは、PWLR尺度の第1項と第2項を別々にコード
化して距離を計算し、和を求めたものである。この局部
距離の尺度を用いて、DPマツチングにより距離を求め
る。This is obtained by separately encoding the first and second terms of the PWLR measure, calculating distances, and finding the sum. Using this local distance measure, the distance is determined by DP matching.
以上のようにして、非常に高性能なベクトル量子化を用
いた正規化方式を達成できる。In the manner described above, a normalization method using vector quantization with very high performance can be achieved.
[発明の効果]
以上のように、このは発明によれば、音声をベクトル量
子化した後スペクトログラムを抽出し、ベクトル量子化
のコードブックについて異話者間で対応づけを行ない、
この対応づけに基づいてスペクトログラムの正規化を行
なうようにしたので、各特徴の依存項を無視でき、ラー
ニングサンプルを少なくてすみ、計算量が減少する。た
だし、セパレートすることにより、別のベクトル量子化
系を構成するので、この分計算量が多少増加するが、ラ
ーニングサンプルが少ないので十分計算量を減少できる
。コードブックサイズはセパレートベクトル量子化では
、各特徴に必要なコードブックサイズの和になるので、
全体のコードブックサイズを激減させることができる。[Effects of the Invention] As described above, according to the present invention, a spectrogram is extracted after vector quantization of speech, and correspondence is made between different speakers using the vector quantization codebook.
Since the spectrogram is normalized based on this correspondence, the dependent term of each feature can be ignored, the number of learning samples can be reduced, and the amount of calculation can be reduced. However, by separating, a separate vector quantization system is constructed, which slightly increases the amount of calculation, but since there are few learning samples, the amount of calculation can be sufficiently reduced. In separate vector quantization, the codebook size is the sum of the codebook sizes required for each feature, so
The overall codebook size can be drastically reduced.
しかも、各特徴の依存項は無視するので、コードブック
の特徴内で最適な量子化をすることができ、このために
忠実にスペクトログラムを再現できる。Moreover, since the dependent terms of each feature are ignored, optimal quantization can be performed within the features of the codebook, and therefore the spectrogram can be faithfully reproduced.
第1図はこの発明の一実施例が適用される音声認識装置
の概略ブロック図である。第2図は音声の入力から正規
化までの全体の処理の流れを示すフロー図である。第3
図はベクトル量子化を用いたスペクトログラム正規化の
動作を説明するためのフロー図である。第4図はセパレ
ートベクトル量子化の動作を説明するためのフロー図で
ある。
第5図は変換ベクトル学習のアルゴリズムを説明するた
めのフロー図である。第6図はスペクトログラム正規化
のアルゴリズムを示すフロー図である。第7図はマツチ
ング動作を説明するためのフロー図である。
図において、1はアンプ、1はローパスフィルタ、3は
A/D変換器、4は処理装置、5はコンピュータを示す
。
特許出願人 エイ・ティ・アール自動翻訳電話研究所FIG. 1 is a schematic block diagram of a speech recognition device to which an embodiment of the present invention is applied. FIG. 2 is a flow diagram showing the overall processing flow from inputting audio to normalization. Third
The figure is a flow diagram for explaining the operation of spectrogram normalization using vector quantization. FIG. 4 is a flow diagram for explaining the operation of separate vector quantization. FIG. 5 is a flow diagram for explaining the transformation vector learning algorithm. FIG. 6 is a flow diagram showing an algorithm for spectrogram normalization. FIG. 7 is a flow diagram for explaining the matching operation. In the figure, 1 is an amplifier, 1 is a low-pass filter, 3 is an A/D converter, 4 is a processing device, and 5 is a computer. Patent applicant A.T.R. Automatic Translation Telephone Research Institute
Claims (5)
ペクトログラムを抽出し、その抽出されたスペクトログ
ラムを異話者間で正規化するスペクトログラム正規化方
式において、 音声をベクトル量子化した後、ベクトル量子化のコード
ブックについて異話者間で対応づけを行ない、この対応
づけに基づいてスペクトログラムの正規化を行なうよう
にした、スペクトログラムの正規化方式。(1) In the spectrogram normalization method, which digitizes speech, extracts a spectrogram as a feature of the speech, and normalizes the extracted spectrogram between speakers of different speakers, the speech is vector quantized, and then vector quantization is performed. A spectrogram normalization method that maps codebooks between different speakers and normalizes spectrograms based on this mapping.
者のコードブックのベクトルの対応を一定の学習用単語
の学習により求め、これに基づいて正規化を行なう、特
許請求の範囲第1項記載のスペクトログラムの正規化方
式。(2) The scope of the claim is that, as the method for making the correspondence between the different speakers, the correspondence between the vectors of the codebooks of the different speakers is obtained by learning certain learning words, and normalization is performed based on this. The spectrogram normalization method described in Section 1.
応づけのヒストグラムを作成し、これを重みとした基準
話者の特徴ベクトルの線形結合で未知話者の特徴ベクト
ルを書換えることにより、前記スペクトログラムの正規
化を行なうようにした、特許請求の範囲第2項記載のス
ペクトログラムの正規化方式。(3) By creating a matching histogram using dynamic programming during the learning, and rewriting the unknown speaker's feature vector with a linear combination of the reference speaker's feature vectors using this as a weight, The spectrogram normalization method according to claim 2, wherein the spectrogram is normalized.
動的計画法によるマッチングの局部距離に各種の特徴の
コード間距離の和を用いてコードづけの経路を拘束する
ことにより対応づけの学習を行なうようにした、特許請
求の範囲第3項記載のスペクトログラムの正規化方式。(4) When matching the codebooks between the different speakers,
Claim 3, wherein the learning of correspondence is performed by constraining the coding path using the sum of inter-code distances of various features as the local distance of matching by dynamic programming. Spectrogram normalization method.
の2種類を用いてセパレートベクトル量子化を行ない、
一定の学習単語の学習により、対応づけのヒストグラム
を作成し、前記未知話者の各コードブックの特徴ベクト
ルをヒストグラムを重みとした基準話者の特徴ベクトル
の線形結合で置換えることにより正規化を行なうように
した、特許請求の範囲第3項記載のスペクトログラムの
正規化方式。(5) Performing separate vector quantization using two types of voice characteristics: power and autocorrelation coefficient;
By learning a certain number of learning words, a histogram of the correspondence is created, and normalization is performed by replacing the feature vectors of each codebook of the unknown speaker with a linear combination of the feature vectors of the reference speaker with the histogram as a weight. A spectrogram normalization method according to claim 3, wherein the spectrogram normalization method is performed.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62156958A JP2709386B2 (en) | 1987-06-24 | 1987-06-24 | Spectrogram normalization method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62156958A JP2709386B2 (en) | 1987-06-24 | 1987-06-24 | Spectrogram normalization method |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JPH01998A true JPH01998A (en) | 1989-01-05 |
| JPS64998A JPS64998A (en) | 1989-01-05 |
| JP2709386B2 JP2709386B2 (en) | 1998-02-04 |
Family
ID=15639038
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP62156958A Expired - Fee Related JP2709386B2 (en) | 1987-06-24 | 1987-06-24 | Spectrogram normalization method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2709386B2 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8971778B2 (en) * | 2011-09-20 | 2015-03-03 | Brother Kogyo Kabushiki Kaisha | Fixing device |
| US9075919B2 (en) | 2010-10-06 | 2015-07-07 | International Business Machines Corporation | Asynchronous code testing |
Families Citing this family (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1863014B1 (en) * | 1998-10-09 | 2009-09-30 | Sony Corporation | Apparatuses and methods for learning and using a distance transition model |
| JP3631657B2 (en) * | 2000-04-03 | 2005-03-23 | シャープ株式会社 | Voice quality conversion device, voice quality conversion method, and program recording medium |
| JP2002080376A (en) * | 2000-06-06 | 2002-03-19 | Ibe:Kk | Biologically active agent and medicine |
| KR100823606B1 (en) * | 2001-09-13 | 2008-04-21 | 주식회사 포스코 | Method for manufacturing amorphous refractory material using waste sludge |
| KR100848807B1 (en) * | 2006-03-16 | 2008-07-28 | 재단법인서울대학교산학협력재단 | Assay Method for Kasugamycin Using HPLC |
| KR100737173B1 (en) * | 2006-05-09 | 2007-07-10 | 경북대학교 산학협력단 | Authentication device using one-time password generator and one-time password generator |
| KR100801929B1 (en) * | 2006-07-05 | 2008-02-12 | 건국대학교 산학협력단 | Endonuclease IV and its amino acid sequence, Endonuclease IV gene and its base sequence derived from the Thermos Thermophilus strain, and a method of preparing them |
| KR100877600B1 (en) * | 2006-11-30 | 2009-01-08 | 재단법인서울대학교산학협력재단 | Pharmaceutical composition for the prevention and treatment of alcoholic fatty liver and fatty hepatitis containing metadoxin and garlic oil as active ingredients |
| KR100844468B1 (en) * | 2006-12-27 | 2008-07-07 | 대한민국(관리부서:농촌진흥청장) | Microsatellite Markers Association for Domestic and Japanese Japonica Rice Varieties and Their Codes |
| KR100852496B1 (en) * | 2007-01-24 | 2008-08-18 | 한양대학교 산학협력단 | Method for preparing titanium oxide photocatalyst using oxygen plasma and rapid heat treatment |
| KR100897754B1 (en) * | 2009-03-31 | 2009-05-15 | 충남대학교산학협력단 | Heat exchanger design method of hermetic cooling tower |
| CN105092887B (en) * | 2015-07-22 | 2018-02-16 | 国家电网公司 | Passive air monitoring device, system and method based on fiber grating sensing technology |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5651637A (en) * | 1979-10-04 | 1981-05-09 | Toray Eng Co Ltd | Gear inspecting device |
| EP0215065A1 (en) * | 1985-03-21 | 1987-03-25 | AT&T Corp. | Individual recognition by voice analysis |
| JPS61261799A (en) * | 1985-05-16 | 1986-11-19 | 株式会社リコー | Code book preparation for unspecified speaker |
-
1987
- 1987-06-24 JP JP62156958A patent/JP2709386B2/en not_active Expired - Fee Related
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9075919B2 (en) | 2010-10-06 | 2015-07-07 | International Business Machines Corporation | Asynchronous code testing |
| US8971778B2 (en) * | 2011-09-20 | 2015-03-03 | Brother Kogyo Kabushiki Kaisha | Fixing device |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6292776B1 (en) | Hierarchial subband linear predictive cepstral features for HMM-based speech recognition | |
| JP2691109B2 (en) | Speech coder with speaker-dependent prototype generated from non-user reference data | |
| Dua et al. | GFCC based discriminatively trained noise robust continuous ASR system for Hindi language | |
| JPH05188994A (en) | Noise suppressor | |
| JPH01997A (en) | Speech recognition method using vector quantization | |
| Bharti et al. | Real time speaker recognition system using MFCC and vector quantization technique | |
| JPH01998A (en) | How to normalize spectrograms | |
| JPH067345B2 (en) | Speech recognition method using vector quantization | |
| JPH01996A (en) | Speech recognition method using vector quantization | |
| Saksamudre et al. | Isolated word recognition system for Hindi Language | |
| JP2709386B2 (en) | Spectrogram normalization method | |
| Abe et al. | Cross-language voice conversion | |
| JPH067344B2 (en) | Speech recognition method using vector quantization | |
| Shariah et al. | Human computer interaction using isolated-words speech recognition technology | |
| CN113436607B (en) | A fast voice cloning method | |
| JP2003036097A (en) | Information detecting apparatus and method, and information searching apparatus and method | |
| Bhatt et al. | Effects of the dynamic and energy based feature extraction on hindi speech recognition | |
| JPH10254473A (en) | Voice conversion method and voice conversion device | |
| JP2709926B2 (en) | Voice conversion method | |
| Ghanty et al. | On recognition of spoken Bengali numerals | |
| JP2912579B2 (en) | Voice conversion speech synthesizer | |
| Nijhawan et al. | Real time speaker recognition system for hindi words | |
| JPH0764599A (en) | Line spectrum pair parameter vector quantization method, clustering method, speech coding method, and apparatus therefor | |
| Li | Speech recognition of mandarin monosyllables | |
| Lingam | Speaker based language independent isolated speech recognition system |