JPH0330159B2 - - Google Patents

Info

Publication number
JPH0330159B2
JPH0330159B2 JP62136377A JP13637787A JPH0330159B2 JP H0330159 B2 JPH0330159 B2 JP H0330159B2 JP 62136377 A JP62136377 A JP 62136377A JP 13637787 A JP13637787 A JP 13637787A JP H0330159 B2 JPH0330159 B2 JP H0330159B2
Authority
JP
Japan
Prior art keywords
pattern
vector
dimensional
spatiotemporal
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62136377A
Other languages
English (en)
Other versions
JPS63300296A (ja
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to JP62136377A priority Critical patent/JPS63300296A/ja
Priority to US07/196,390 priority patent/US4989249A/en
Priority to DE88108313T priority patent/DE3882805T2/de
Priority to EP88108313A priority patent/EP0292929B1/en
Publication of JPS63300296A publication Critical patent/JPS63300296A/ja
Publication of JPH0330159B2 publication Critical patent/JPH0330159B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声認識方式に関し、更に詳述すれば
ベクトル場のパターンを利用して高い認識率を得
ることができる新規な方式及びその実施に使用す
る装置を提供するものである。
〔従来技術〕
音声認識は、一般に、認識させるべき単語から
特徴を抽出して得た音声の標準パターンを単語
夫々に用意しておき、認識対象として入力された
音声から同様にして抽出した特徴パターンと複数
の標準パターンとを整合し、最も類似性が高い標
準パターンを求め、この標準パターンに係る単語
が入力されたものと判定する方式をとつている。
そして、従来は上記特徴パターンとして、音声信
号を分析して得られる、時間軸を横軸、空間軸を
縦軸とするスカラー場の時空間パターンそのもの
を用いていた。このようなスカラー場の時空間パ
ターンとしては、周波数を空間軸とするスペクト
ルが代表的なものであり、この他、ケフレンシー
を空間軸とするケプストラム、PARCOR係数、
LSP係数、音道断面積関数等種々の時空間パター
ンが用いられていた。
又、音声認識の分野において解決すべき課題の
1つとして多数話者又は不特定話者への対応があ
り、これには1つの単語に多数の標準パターンを
用意することで認識率の向上を図つていた。更
に、話者が同一であつても発音速度が異なること
があり、このような場合にも対応できるように時
間軸変動を吸収し得るDPマツチング法が開発さ
れていた。
〔発明が解決しようとする問題点〕
スカラー場の時空間パターンそのものを特徴と
して用いる従来の方式では、大語彙や不特定話者
を対象とした場合、必ずしも十分な認識率が得ら
られておらず、たとえ、上述の如く1つの単語に
多数の標準パターンを用意したり、あるいはDP
マツチング法を用いても、これらは本格的な解決
にはならなかつた。従つて、不特定話者や大語彙
を対象とした音声認識システムの実用化が停滞し
ているのである。そこで、本発明者の1人は、特
開昭60−59394号公報において、時間−周波数の
時空間パターンをであるスカラー場のスペクトル
空間微分してスペクトルベクトル場パターンを
得、このパターンを特徴として用いる手法を提案
したが、本願は、この手法を工学的観点から更に
一歩進めて、計算が簡単で短時間に行え実用化に
適するように、且つより高い認識率が得られるよ
うに改良した音声認識方式及びその実施に使用す
る装置を提供することを目的とする。
〔問題点を解決するための手段〕
本発明に係る音声認識方式は、認識対象として
入力された音声信号から特徴パターンを抽出し、
該特徴パターンと標準パターンとの整合をとり、
入力音声を識別する音声認識方式において、音声
信号を分析して時間軸と空間軸とで規定されるス
カラー場の時空間パターンを得、該時空間パター
ンを空間微分することにより空間の各格子点で大
きさと方向をもつベクトル場パターンに変換し、
該ベクトル場パターンのベクトルについて、その
方向パラメータをN値(N:整数)に量子化し、
この量子化値を同じくするベクトル毎に各々分離
して、そのベクトルの大きさを各格子点の値とし
たN個の方向別2次元パターンを作成し、該方向
別2次元パターンを前記特徴パターンとすること
を特徴とする。
〔作用〕
入力された音声信号は時間軸及び空間軸で規定
されるスカラー場の時空間パターンからベクトル
の方向パラメータが量子化され、量子化された方
向毎に分離された複数の方向別2次元パターンに
変換されることにより、このパターンを特徴パタ
ーンとして認識が行われる。このパターンは時空
間パターンの空間微分、つまり時空間変化情報を
もつて構成されているので音声音韻性をよく表
し、且つ話者変動等に影響され難く、又、方向パ
ラメータの量子化によりベクトル場の変動を吸収
する。更には、ベクトル場パターンそのものを特
徴パターンとした場合に実行せざるを得ない複素
数演算が不要となり、計算が簡略化される。
〔実施例〕
以下本発明をその実施例を示す図面に基づいて
詳述する。
第1図は本発明方式を実施するための装置の構
成を示すブロツク図である。この実施例では分析
部で音声信号をスペクトル分析してスカラー場の
時空間パターンとして、周波数軸を空間軸とする
スペクトルを用いている。
標準パターン作成のための音声の入力又は認識
対象の音声の入力はマイクロホン等の音声検出器
及びA/D変換器からなる音声入力部1によつて
行われ、これによつて得られた音声信号は通過周
波数帯域を夫々に異なる複数チヤネル(例えば10
〜30)のバンドパスフイルタを並列的に接続して
なる分析部2に入力される。分析部では、分析の
結果、時空間パターンが得られ、このパターンが
単語区間切出部3によつて認識単位の単語ごとに
区分されて特徴抽出部4へ与えられる。単語区間
切出部3としては従来から知られているものを用
いればよい。
なお周波数帯域ごとに音声信号を分割する分析
部として、以後の説明においては、上記した如く
バンドパスフイルタ群を用いることとするが、高
速フーリエ変換器を用いてもよい。
さて本発明方式は次に説明する特徴抽出部によ
つて特徴づけられる。特徴抽出部4への入力パタ
ーンは横軸を時間軸、縦軸を周波数とする時空間
パターンであり、単語区間切出部3によつて切出
された第2図に示す時空間パターンを(t,x)
(但しtはサンプリングの時刻を示す番号、xは
バンドパスフイルタのチヤネル番号又は周波数帯
域を特定する番号。1≦t≦T、1≦t≦L)と
表す。
単語区間切出部3出力は特徴抽出部4の正規化
部41へ入力され、正規化部41は時間軸の線形
正規化をする。これは単語の長短、入力音声の長
短等をある程度吸収するためであり、時間軸をT
フレームからMフレーム(例えば16〜23フレーム
程度)にする。具体的にはM≦Tの場合は、正規
化した時空間パターンF(t,x)は下記(1)式で
求められる。
F(t,x)=(T/M)

Claims (1)

  1. 【特許請求の範囲】 1 認識対象として入力された音声信号から時間
    軸及び空間軸で規定されるスカラー場の時空間パ
    ターンを得、該時空間パターンに基く特徴パター
    ンと標準パターンとの整合をとり、入力音声を識
    別する音声認識方式において、 音声信号を分析して前記スカラー場の時空間パ
    ターンを得、該時空間パターンを空間微分するこ
    とにより空間の各格子点で大きさと方向をもつベ
    クトル場パターンに変換し、該ベクトル場パター
    ンのベクトルについて、その方向パラメータをN
    値(N:整数)に量子化し、この量子化値を同じ
    くするベクトル毎に各々分離して、そのベクトル
    の大きさを各格子点の値としたN個の方向別2次
    元パターンを作成し、該方向別2次元パターンを
    前記特徴パターンとすることを特徴とした音声認
    識方式。 2 認識対象として入力された音声信号から時間
    軸及び空間軸で規定されるスカラー場の時空間パ
    ターンを得、該時空間パターンに基く特徴パター
    ンと標準パターンとの整合をとり、入力音声を識
    別する音声認識装置において、 入力音声信号を分析して前記スカラー場の時空
    間パターンを得る分析部と、 該時空間パターンを時間に関して正規化する正
    規化部と、 正規化された時空間パターンを空間微分し、空
    間の各格子点で大きさと方向をもつベクトル場パ
    ターンを抽出するベクトル場抽出部と、 該ベクトル場パターンのベクトルについて、そ
    の方向パラメータをN値(N:整数)に量子化
    し、この量子化値を同じくするベクトル毎に各々
    分離して、そのベクトルの大きさを各格子点の値
    としたN個の方向別2次元パターンを作成する方
    向別2次元パターン作成部と を具備し、該方向別2次元パターン作成部の出力
    を前記特徴パターンとして利用すべくなしてある
    ことを特徴とする音声認識装置。 3 認識対象として入力された音声信号から時間
    軸及び空間軸で規定されるスカラー場の時空間パ
    ターンを得、該時空間パターンに基く特徴パター
    ンと標準パターンとの整合をとり、入力音声を識
    別する音声認識装置において、 入力音声信号を分析して前記スカラー場の時空
    間パターンを得る分析部と、 該分析部から逐次出力される時間軸方向の複数
    フレーム毎の前記時空間パターンから、空間微分
    によりベクトル場パターンを逐次抽出するベクト
    ル場パターン抽出部と、 該逐次抽出される前記ベクトル場パターンのベ
    クトルについて、その方向パラメータをN値
    (N:整数)に量子化し、この量子化値を同じく
    するベクトル毎に各々分離して、そのベクトルの
    大きさを各格子点の値としたN個の方向別2次元
    パターンを、逐次作成する第1の方向別2次元パ
    ターン作成部と、 該第1の方向別2次元パターン作成部で逐次作
    成される複数フレームの方向別2次元パターンの
    平均値を求めて、又は該複数フレームの方向別2
    次元パターンの中から一のパターンを選択して、
    1フレームの方向別2次元パターンを逐次作成す
    る第2の方向別2次元パターン作成部と を具備し、第2の方向別2次元パターン作成部の
    出力を前記特徴パターンとして利用すべくなして
    あることを特徴とする音声認識装置。
JP62136377A 1987-05-29 1987-05-29 音声認識方式及び装置 Granted JPS63300296A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP62136377A JPS63300296A (ja) 1987-05-29 1987-05-29 音声認識方式及び装置
US07/196,390 US4989249A (en) 1987-05-29 1988-05-20 Method of feature determination and extraction and recognition of voice and apparatus therefore
DE88108313T DE3882805T2 (de) 1987-05-29 1988-05-25 Verfahren zur Ermittlung von Merkmalen und Spracherkennung und Erkennungseinrichtung.
EP88108313A EP0292929B1 (en) 1987-05-29 1988-05-25 Method of feature extraction and recognition of voice and recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62136377A JPS63300296A (ja) 1987-05-29 1987-05-29 音声認識方式及び装置

Publications (2)

Publication Number Publication Date
JPS63300296A JPS63300296A (ja) 1988-12-07
JPH0330159B2 true JPH0330159B2 (ja) 1991-04-26

Family

ID=15173736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62136377A Granted JPS63300296A (ja) 1987-05-29 1987-05-29 音声認識方式及び装置

Country Status (1)

Country Link
JP (1) JPS63300296A (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6059394A (ja) * 1983-09-12 1985-04-05 工業技術院長 音声認識装置

Also Published As

Publication number Publication date
JPS63300296A (ja) 1988-12-07

Similar Documents

Publication Publication Date Title
Hermansky et al. Multi-resolution RASTA filtering for TANDEM-based ASR
US5884260A (en) Method and system for detecting and generating transient conditions in auditory signals
JP4177755B2 (ja) 発話特徴抽出システム
CN110858476B (zh) 一种基于麦克风阵列的声音采集方法及装置
JP6482173B2 (ja) 音響信号処理装置およびその方法
JPS6128998B2 (ja)
EP0292929B1 (en) Method of feature extraction and recognition of voice and recognition apparatus
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
JPH0330159B2 (ja)
Singh et al. Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition
JPH0558559B2 (ja)
JP2613108B2 (ja) 音声認識方法
Wang et al. Speech enhancement based on noise classification and deep neural network
Khan et al. Speaker separation using visual speech features and single-channel audio.
JPH0217039B2 (ja)
Alkhaldi et al. Multi-band based recognition of spoken arabic numerals using wavelet transform
Chandrasekaram New Feature Vector based on GFCC for Language Recognition.
Jyotishi et al. A novel feature for nasalised vowels and characteristic analysis of nasal filter
JPS6229799B2 (ja)
Biswas et al. Audio visual isolated Hindi digits recognition using HMM
JPH03122699A (ja) 雑音除去装置及び該装置を用いた音声認識装置
Mudhafar et al. Audio-Visual Source Separation Based Fusion Techniques.
JPH0323920B2 (ja)
GB2299247A (en) Sound analysis
Rademacher et al. Auditory filterbank based frequency-warping invariant features for automatic speech recognition

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080426

Year of fee payment: 17