JPH03111900A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPH03111900A JPH03111900A JP1251170A JP25117089A JPH03111900A JP H03111900 A JPH03111900 A JP H03111900A JP 1251170 A JP1251170 A JP 1251170A JP 25117089 A JP25117089 A JP 25117089A JP H03111900 A JPH03111900 A JP H03111900A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- recognition
- similarity
- vector
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 40
- 239000013598 vector Substances 0.000 claims description 37
- 230000005236 sound signal Effects 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 19
- 238000000605 extraction Methods 0.000 abstract description 14
- 238000001228 spectrum Methods 0.000 abstract description 11
- 238000010606 normalization Methods 0.000 abstract description 8
- 238000004458 analytical method Methods 0.000 abstract description 6
- 230000011218 segmentation Effects 0.000 abstract 2
- 239000000284 extract Substances 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000013139 quantization Methods 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 101000687448 Homo sapiens REST corepressor 1 Proteins 0.000 description 1
- 102100024864 REST corepressor 1 Human genes 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Abstract
め要約のデータは記録されません。
Description
場のパターンを利用して得た標準パターンと、同じく認
識対象音声に対応する特徴パターンとの類似度の計算に
係るものである。
出して得た音声の標準パターンを単語夫々に用意してお
き、認識対象として入力された音声から同様にして抽出
した特徴パターンと複数の標準パターンとを整合し、最
も類偵性が高い標準パターンを求め、この標準パターン
に係る単語が入力されたものと判定する方式をとってい
る。そして、従来は上記特徴パターンとして、音声信号
を分析して得られる、時間軸を横軸、空間軸を縦軸とす
るスカラー場の時空間パターンそのものを用いていた。
数を空間軸とするスペクトルが代表的なものであり、こ
の他、ケフレンシーを空間軸とするケプストラム、PA
RCOR係数、LSP 係数、声道断面積関数等種々の
時空間パターンが用いられていた。
して多数話者又は不特定話者への対応があり、これには
1つの単語に多数の標準パターンを用意することで認識
率の向上を図っていた。更に、話者が同一であっても発
音速度が異なることがあり、このような場合にも対応で
きるように時間軸変動を吸収し得るDPマツチング法が
開発されていた。
方式では、大語粟又は不特定話者を対象とした場合、必
ずしも十分な認識率が得られておらず、たとえ、上述の
如く1つの単語に多数の標準パターンを用意したり、あ
るいは叶マツチング法を用いても、これらは本格的な解
決にはならなかった。
ステムの実用化が停滞しているのである。
公報において、時間−周波数の時空間パターンであるス
カラー場のスペクトルを空間微分してスペクトルベクト
ル場パターンを得、このパターンを音声の特徴として用
いる手法を提案した。そしてそれを更に一歩進め音節認
識、単語認識に適し、また高い認識率が得られるような
音声の特徴抽出方式、音声認識方式を、本発明者等は特
願昭62−248915号、特願昭62−136377
号によって提案した。
軸及び空間軸で規定されるスカラー場の時空間パターン
を得、該時空間パターンを空間機。
ベクトル場パターンに変換し、該ベクトル場パターンの
ベクトルについて、その方向パラメータをN個(N:整
数)に量子化し、この量子化値を同じくするベクトル毎
に各々分離して、そのベクトル、の大きさを各格子点の
値としたN個の方向別2次元パターンを作成し、該方向
別2次元パターンによって予め作成しておいた標準パタ
ーンと、認識対象として入力された音声信号によって得
た前記方向別2次元パターンである特徴パターンとの類
似度を計算して入力音声を識別する点にある。
るが、より困難な単音節認識を高認識率で行わせること
が課題となっていた。
たものである。
空間軸で規定されるスカラー場の時空間パターンを得、
該時空間パターンを空間微分することにより空間の各格
子点で大きさと方向をもっベクトル場パターンに変換し
、該ベクトル場パターンのベクトルについて、その方向
パラメータをN個(N:整数)に量子化し、この量子化
値を同じくするベクトル毎に各々分離して、そのベクト
ルの大きさを各格子点の値としたN個の方向別2次元パ
ターンを作成し、該方向別2次元パターンによって予め
作成しておいた標準パターンと、認識対象として入力さ
れた音声信号によって得た前記方向別2次元パターンで
ある特徴パターンとの類似度を計算して入力音声を識別
する音声認識方式において、標準パターン及び特徴パタ
ーン夫々の前記方向ごとに類似度の計算を行うことを特
徴とする。
間軸方向の単位ごとに行うことを特徴とする。
別のスペクトルベクトル場ではスペクトルの同様の変化
が抽出されていることになる。従って方向別に類似度計
算を行うと、標準パターンと特徴パターンの類似度をよ
り正確に求めることができる。更に時間軸方向の単位ご
とに類似度計算を行うと、特徴抽出の際の処理に際して
行われる正規化のくずれの影響が少なくなり、これによ
り正確な類似度が求められる。
。
ブロック図である。この実施例では分析部で音声信号を
スペクトル分析してスカラー場の時空間パターンとして
、周波数軸を空間軸とするスペクトルを用いている。
声の入力はマイクロホン等の音声検出器及びA/D &
換器からなる音声入力部1によって行われ、これによっ
て得られた音声信号は通過周波数帯域を夫々に異にする
複数チャネル(例えば10〜30)のバンドパスフィル
タを並列的に接続してなる分析部2に入力される。分析
部では、分析の結果、時空間パターンが得られ、このパ
ターンが単語区間切出部3によって認識単位の単語ごと
に区分されて特徴抽出部4へ与えられる。単語区間切出
部3としては従来から知られているものを用いればよい
。
、以後の説明においては、上記した如くバンドパスフィ
ルタ群を用いることとするが、高速フーリエ変換器を用
いてもよい。
周波数とする時空間パターンであり、単語区間切出部3
によって切出された第2図に示す時空間パターンをr
(t、x) (但しtはサンプリングの時刻を示す番
号、Xはバンドパスフィルタのチャネル番号又は周波数
帯域を特定する番号。
入力され、正規化部41は時間軸の線形正規化をする。
るためであり、時間軸をTフレームからMフレーム(例
えば16〜32フレ一ム程度)にする。具体的にはM≦
Tの場合は、正規化した時空間パターンF(t、x)は
下記(1)弐で求められる。
j = (T/M) ・t としてt=1〜Mまで計算すればよい。
t、x)を示す。
規化を行う場合は例えばf (t、x)のスペクトルベ
クトル場を次に説明するのと同様の方法で求め、このベ
クトル場密度を一定とするヘクトル場密度イコライゼイ
ション等を用いればよい。
おいて下記のようにしてスペクトルベクトル場の抽出が
行われる。このスペクトルベクトル場は第1表に示す如
き正規化された時空間パターンの各格子点(t、x)の
8近傍の値を用いて算出される。
x) + F (t+1.x−1)−F (t−1,
x+1) −2P(t−1,x) −F (t−1,
x−1)Y = F (t−1,x+1) +2F(
t、x+1) + F (t+1.x+1)F(t−
1,x−1) −2P(t、x−1) −F(t+1
.x−1)r =J X2+Y” −(5)・・
・(3) ・・・(4) θ= jan−’ ・・・(6)と
して3 (r、 θ)で示されるのがスペクトルベク
トル場パターンである。
データの時間軸方向の増分を周波数軸方向に重み付けを
して求めた値であり、時間軸方向の微分値、つまり時間
軸方向の変化指標と言うことができる。
の変化指標と言うことができる。
て、rはベクトルの大きさ、θはベクトルの方向を表す
。
別2次元パターンが作成される。即ち、先ず、ベクトル
場パターンの全ての格子点のベクトルについて、その方
向パラメータθをN値に量子化する。第4図はN=8の
場合の量子化例を説明するための図であり、第2表のよ
うにθとNは対応する。
るN値を同じくするベクトルを、N値毎に分離して各々
取り出し、そのベクトルの大きさを各格子点の値とした
N個の方向別2次元パター7 H(1+L θ)を作成
する。第5図がこの方向別2次元パターンの模式図であ
って、Nの値が該当する位置にのみrが存在し、他の位
置は0となっている。(3)、 (4)式から理解され
るようにX、 Yの算出には8近傍が必要であるので、
算出されるS(r、 θ)は第3図におけるt=1.
t=Mの列、及びx=1.x=Lの行については算出さ
れない。
時間軸方向はM−2列、周波数軸方向はL−2行となる
。
、χ、θ)に対してボカシ処理部5にてボカシ処理を行
う。ボカシ処理は、処理対象のパターンを、その位置に
応じて重みづけした9近傍のマスクパターンを乗するこ
とにより行われボカシ処理後の方向別2次元パターンを H(t、x、 θ)とすると ・・・(7) として表すことができる。
パターンであり、例えば下記(8) (9)の如き値を
有し、中心のω。が処理対象データの位置に、またω1
〜ω6が8近傍位置のデータに対応する。
位置、鮪〜ω8を、対応させる8近傍のデータの位置を
各特定するものである。
処理を周波数軸方向のボヵシ処理に比して積極的に行う
にある。
行うのに用いる場合には(8)式のように周波数軸方向
のボカシ処理は行わず、男性5女性の両方の性の音声の
特徴抽出を行う場合は(9)式のように周波数軸方向の
ボカシ処理も少し行う。
た音声固有の特徴の変動が小さくなったものとなる。つ
まり、話者が異なることや、発生速度の異なりによって
生ずる特徴の時空間的変動の安定化が図れるのである。
とする場合には音声認識率の向上が図れるのである。
時間軸は発声速度に係り、発声時及び発声者によって大
きく変動するからであり、この変動の悪影響を排除する
ためである。
が異なり、これによる変動の悪影響を周波数軸も同時に
ボカシ処理することによって排除するためである。
いが、一方の性のみの場合は(8)式に示されるように
時間軸のみのボカシ効果をもつボカシ処理を4〜7回程
度、両方の性の場合は(9)弐に示されるように時間軸
へのボカシの重みの174〜1/8程度の空間軸の重み
を同時にもつ時空間のボカシ処理を、それぞれ、4回程
度繰り返し行うことが適当である。
準パターンとしてこれを特定するデータと共に標準パタ
ーン格納部6へ格納される。そして認識の際には認識対
象として入力された音声について得られたボカシ処理部
5出力の特徴パターンと、標準パターン格納部6内の標
準パターンの夫々とにつき計算部7において類似度の計
算を行い、最も類僚する標準パターンを特定するデータ
を認識結果として出力する。
徴を有している。これを要約すると、まず第5図に示す
如きNのパターンの夫々について、特徴パターンと標準
パターンとの類似度計算を行う。この計算には市街地距
離Dc、ユークリッド距離り0.相関係数Cが類似度判
定の指標として用いられる。限定するものではないが相
関係数Cによる場合は最も高い認識率が得られる。更に
本発明の第2の方式ではNの方向ごとに、更に時間軸の
単位、っまり1フレームごとに同様の計算を行う。
の絶対値の総和であり、計算が簡単であるという利点を
有している。
に正確な距離を指す。
ある。
象音声の特徴パターンを1 (t、X、θ)とすると本
発明の第1方式に係るN方向ごとの計算では以下のよう
に表される。
、X。
表せる。
xN次元ベクトルとしての計算を行う(以下第1比較方
式という)場合は以下のように表せる。(但しXはXの
総数(−L−2))この場合は市街地距離も計算でき、 D=−、E、jノ(t、 X、θ)−Z+(L、χ・θ
)また、T′個のフレームごとに計算する(以下第2比
較方式という)場合は以下のように表せる。
験について説明する。実験は離散発生された日本語の単
音節101種類について行われた。
またサンプリング周波数12.5kHzで行った。
スフィルタによる。またフレーム間隔ハ5.12n+s
ecである。これらの仕様により正規化して得た2次元
音声パターンは 32 (=T’ ) xlB (=X) x8 (=N
)である。
じ10人が発声した音声の認識を行わせるクローズ(c
lose)話者実験実験n 29人分のデータで標準
パターンを1個作り、これとは別の1人が発声した音 声の認識を行わせるオープン(open)話者実験 実験■ 1人が発声した10回分のデータで標準パター
ンを1個つくり、同じ10回分のデータを認識する特定
話者のクローズ データの実験(但し話者2名分) 実験IVI人が発声した9回分のデ、−夕で標準パター
ン、を1個作り、別の1人が発声した音声の認識を行う
特定話者2名の オーブンデータの実験 これらの実験■〜■について前述の類似度計算の結果を
第4表に示す。
を除き、実験1〜Nのいずれにおいても本発明の第1.
第2方式が第1.第2比較方式より高い認識率を得てお
り、また、実験■の相関係数Cを除き第2方式か第1方
式より高い認識率を得ている。
距離り、よりも相関係数Cの方が認識率が高い。
較方式の結果に示すように単音節においても高い認識率
を得させるものであるが、本発明の第1.第2方式によ
れば、−層高い認識率が実現できるものである。
認識率が得られるのは前述したようにスペクトルベクト
ル場が方向別のものとなっているためであると考えられ
る。また更にフレームごとに計算を行うと高い認識率が
得られるのは前述のボカシ処理の影響を回避できるから
と考えられる。
規化のくずれによる影響が少ないと考えられる。
節認識特存の効果であると考えられる。
ペクトルパターンを求める段階で音の大きさの正規化を
フレームごとに行っている。これによって直流分が除去
される。前述の実験では以下のような計算でこれを行っ
ている。
、) /20=八八(但し^1〜A、。は20チヤネ
ルのフィルタ夫々の原出力) として、 B+=IogA+ AAB2=IogA
2 AA Bzo=10gAzo−八A を1つのフレームの20のチャネルのフィルタの各出力
としている。即ち、第2図のスペクトルの時空間パター
ンf (t、x)はBt−Bzoがtフレーム分集まっ
たものである。
合はDC,D、、Cのいずれを用いてもほぼ同様の結果
となる。ところが、方向別に分離して、更にはボカシ処
理を行うので、前記正規化でフレームごとに正規化され
ている状態がくずれてしまう。この傾向は、単語認識よ
りも単音節認識のときに顕著である。
ため、ボカシ処理の影響が出にくいが、単音節では、前
に位置する子音部即ち、ベクトル場が変化する部分が、
単語よりも時間的に多いためと考えられる。そこで、類
似性を計算する相関係数が単音節認識でよい結果が得ら
れるのである。
単音節認識、しかも成人男性の発声による場合も極めて
高い認識等が得られることとなる。
ブロック図、第2図は時空間パターンの模式図、第3図
は正規化された時空間パターンを示す模式図、第4図は
ベクトル方向量子化の説明図、第5図は方向別2次元パ
ターンの模式図である。 4・・・特徴抽出部 5・・・ボカシ処理部 6・・・
標準パターン格納部 7・・・計算部 41・・・正規
化部42・・・スペクトルベクトル場抽出部 43・・
・方向別2次元パターン作成部 特 許 出願人 工業技術院長 杉浦 賢 外1名復
代理人並びに代理人 弁理士 河 野 登 夫1 第 図 第 図 第 図 −2 第 図
Claims (1)
- 【特許請求の範囲】 1、音声信号から時間軸及び空間軸で規定されるスカラ
ー場の時空間パターンを得、該時空間パターンを空間微
分することにより空間の各格子点で大きさと方向をもつ
ベクトル場パターンに変換し、該ベクトル場パターンの
ベクトルについて、その方向パラメータをN値(N:整
数)に量子化し、この量子化値を同じくするベクトル毎
に各々分離して、そのベクトルの大きさを各格子点の値
としたN個の方向別2次元パターンを作成し、該方向別
2次元パターンによって予め作成しておいた標準パター
ンと、認識対象として入力された音声信号によって得た
前記方向別2次元パターンである特徴パターンとの類似
度を計算して入力音声を識別する音声認識方式において
、標準パターン及び特徴パターン夫々の前記方向ごとに
類似度の計算を行うことを特徴とする音声認識方式。 2、前記方向ごとの類似度計算を前記方向別2次元パタ
ーンの時間軸方向の単位ごとに行うことを特徴とする請
求項1記載の音声認識方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1251170A JP2613108B2 (ja) | 1989-09-27 | 1989-09-27 | 音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1251170A JP2613108B2 (ja) | 1989-09-27 | 1989-09-27 | 音声認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH03111900A true JPH03111900A (ja) | 1991-05-13 |
| JP2613108B2 JP2613108B2 (ja) | 1997-05-21 |
Family
ID=17218721
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1251170A Expired - Lifetime JP2613108B2 (ja) | 1989-09-27 | 1989-09-27 | 音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2613108B2 (ja) |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH01158496A (ja) * | 1987-09-30 | 1989-06-21 | Agency Of Ind Science & Technol | 音声の特徴抽出方式 |
-
1989
- 1989-09-27 JP JP1251170A patent/JP2613108B2/ja not_active Expired - Lifetime
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH01158496A (ja) * | 1987-09-30 | 1989-06-21 | Agency Of Ind Science & Technol | 音声の特徴抽出方式 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2613108B2 (ja) | 1997-05-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
| CN112201255A (zh) | 语音信号频谱特征和深度学习的语音欺骗攻击检测方法 | |
| Deshmukh et al. | Speech based emotion recognition using machine learning | |
| US8489404B2 (en) | Method for detecting audio signal transient and time-scale modification based on same | |
| US9704505B2 (en) | Audio signal processing apparatus and method | |
| CN115691539B (zh) | 基于视觉导引的两阶段语音分离方法及系统 | |
| CN108520756A (zh) | 一种说话人语音分离的方法及装置 | |
| EP0292929B1 (en) | Method of feature extraction and recognition of voice and recognition apparatus | |
| Zheng et al. | Improving the spectra recovering of bone-conducted speech via structural similarity loss function | |
| Singh et al. | Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition | |
| Wolf et al. | Audio source separation with time-frequency velocities | |
| JPH03111900A (ja) | 音声認識方法 | |
| Chougule et al. | Channel robust MFCCs for continuous speech speaker recognition | |
| US7454337B1 (en) | Method of modeling single data class from multi-class data | |
| GB2216320A (en) | Selective addition of noise to templates employed in automatic speech recognition systems | |
| JPH01158496A (ja) | 音声の特徴抽出方式 | |
| CN120748414B (zh) | 一种基于人工智能的语音处理方法 | |
| CN120412651B (zh) | 一种通过静音去除实现口语评测效率提升的方法 | |
| CN112562726B (zh) | 一种基于mfcc相似矩阵的语音音乐分离方法 | |
| Biswas et al. | Audio visual isolated Hindi digits recognition using HMM | |
| Sarma et al. | Speaker change detection using excitation source and vocal tract system information | |
| JPH0330159B2 (ja) | ||
| Diener et al. | Codebook clustering for unit selection based EMG-to-speech conversion. | |
| CN109903777B (zh) | 一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法 | |
| Mishra et al. | HINDI SPEECH AUDIO VISUAL FEATURE RECOGNITION |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080227 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090227 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100227 Year of fee payment: 13 |
|
| EXPY | Cancellation because of completion of term | ||
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100227 Year of fee payment: 13 |