JPH0448400B2 - - Google Patents

Info

Publication number
JPH0448400B2
JPH0448400B2 JP22487885A JP22487885A JPH0448400B2 JP H0448400 B2 JPH0448400 B2 JP H0448400B2 JP 22487885 A JP22487885 A JP 22487885A JP 22487885 A JP22487885 A JP 22487885A JP H0448400 B2 JPH0448400 B2 JP H0448400B2
Authority
JP
Japan
Prior art keywords
vector
feature vector
input
component
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP22487885A
Other languages
English (en)
Other versions
JPS6286399A (ja
Inventor
Yukio Tabei
Makoto Morito
Kozo Yamada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP22487885A priority Critical patent/JPS6286399A/ja
Priority to US06/909,957 priority patent/US4852181A/en
Priority to EP86113175A priority patent/EP0219712B1/en
Priority to DE8686113175T priority patent/DE3683343D1/de
Publication of JPS6286399A publication Critical patent/JPS6286399A/ja
Priority to US07/295,194 priority patent/US4918735A/en
Publication of JPH0448400B2 publication Critical patent/JPH0448400B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は高雑音下においても高精度の認識を行
うことのできる音声認識方法に関する。
(従来の技術) 従来、この種の音声認識方法として電子通信学
会論文誌、J68−1(昭和60年1月)p.78−85に記
載されるものがあつた。第2図は従来のローカル
ピークを用いた音声認識方法のフローチヤートで
あり、入力音声は、15チヤネルのバンドパスフイ
ルター群で10msecごとに周波数分析され(第2
図の1参照)、声帯音源特性の個人差の正規化法
として、音声スペクトルを振幅、周波数軸ともに
対数で表わし最小二乗近似直線を求め(第2図の
2参照)、差をとつて補正する。ただし、最小二
乗近似直線の傾きが正の場合には平均値からの差
をとる。その後、第3図に示すように、各フレー
ム(10msec)毎に0dB以上となる各部分につい
て、各最大値の1/2以上の振幅を持つものの中で
最大値となるチヤネルをローカルピーク有りとし
て“1”にし、他を“0”として2値化を行う
(第2図の3参照)。バンドパスフイルタのチヤネ
ル数は15であるが、16チヤネル目に最小二乗近似
直線の傾きが負のとき有声音と見なし1をたて、
傾きが正のとき無声音と見なし“0”をたて、傾
斜の符号を付加する(第2図の4参照)。
荷重平均辞書は、複数の2値化パターンを時間
軸上一番長いものへ線形に伸ばして加算して多値
パターンとして得られる(第2図の5参照)。
2値の入力パターンと多値の荷重平均辞書との
マツチングには、時間方向は長い方のパターンに
線形に伸ばして合わせ、ある類似度に基づいて計
算を行い、最大類似度を与える標準パターンのカ
テゴリ名を認識結果とする(第2図の6参照)。
(発明が解決しようとする問題点) 以上述べた従来の音声認識方法は、接話型マイ
ク等を用いる場合のようなSN比の良い環境では
有効に機能するが、高雑音の環境下では雑音の変
動によるピークを拾いやすく誤認識が増えるとい
う問題点があつた。
本発明は、以上述べた雑音の変動によるピーク
があつても、音声のローカルピークとの性質の違
いを考慮したローカルピークベクトル算出処理を
用いることで、雑音の変動によるピークを拾わ
ず、雑音に対する耐性が強く認識精度の高い音声
認識方法を提供することを目的とする。
(問題点を解決するための手段) 本発明による音声認識方法は、まず入力音声を
各音声フレーム毎に複数チヤネルの特徴ベクトル
に周波数分析を行う。
一方、入力音声の特徴ベクトルは、当該ベクト
ルの属する音声フレームにおける最小二乗近似直
線を用いてスペクトル正規化される。前記スペク
トル正規化後の特徴ベクトルの各成分が正であれ
ば1とし、0以下であれば0とする2値の窓ベク
トルを算出し、前記窓ベクトルをスムージングを
行い、その後、窓ベクトルの各成分と前記スペク
トル正規化後の特徴ベクトルの各成分との積を算
出し、前記積の取られた特徴ベクトルから周波数
方向の極大値のあるチヤネルに対応する成分を1
とするローカルピークベクトルを算出する。そし
てこの入力音声のローカルピークベクトルの時系
列と予めめ用意された複数の標準パターンとの類
似度計算を行ない入力音声のカテゴリーを判定す
るものである。
(作用) 本発明は、入力音声のスペクトル正規化した特
徴ベクトルを抽出した後、ローカルピークベクト
ル抽出前にスペクトル正規化特徴ベクトルから得
られる窓ベクトルをスムージングしこれとスペク
トル正規化特徴ベクトルとの乗算処理を行なつて
いる。このため、ローカルピークベクトル抽出時
に入力雑音の変動によるピークを入力音声のロー
カルピークと誤つて抽出することが抑制され、安
定して入力音声のローカルピークベクトルを抽出
している。
(実施例) 第1図は本発明の一実施例を示すブロツク図で
ある。以下、第1図に示された音声認識装置の構
成及び動作について説明する。
〔入力処理〕
入力音声はマイク(図示せず)を通して電気信
号に変換され、アンプ(図示せず)、ローパスフ
イルタ(図示せず)、を通りA/D変換器(図示
せず)により、例えば標本化周波数12kHzで標本
化され、入力端子101に入力される。
〔周波数分析処理〕
入力端子から入力されるデイジタル値は周波数
分析部102において周波数分析されて、音声フ
レーム時系列の特徴ベクトルに変換される。この
周波数分析部102はバンドパスフイルタと絶対
値化演算部とローパスフイルタとで構成される。
まず、周波数分析には、本実施例では、第4図
に示すような低Qの特性を有するバンドパスフイ
ルタを用いている。ここではローカルピークの安
定な抽出を目的としたため低Qのバンドパスフイ
ルタを用いている。
各バンドパスフイルタの出力は絶対値演算が施
され、ローパスフイルタに入力され、音声フレー
ムの周期(本実施例では10msec)ごとに再サン
プルされ、特徴ベクトルを算出する。
i番目の音声フレームにおけるkチヤネルのロ
ーパスフイルタの出力を再サンプルした出力をai
とするとi番目の音声フレームにおける特徴ベ
クトルaiは ai=ai 1,ai 2,……,ai k と表現される。ここでKはチヤネル数(本実施例
ではK=22)であり、ai 1,ai 2,……,ai kは特徴
ベクトルaiの成分である。
〔フレーム電力算出処理〕
フレーム電力算出部103は、音声フレーム毎
に周波数分析部102より出力される特徴ベクト
ルaiを受けて、当該音声フレームのフレーム電力
Piを次式(1) により算出する。
〔音声区間検出処理〕
音声区間検出部104においては、フレーム電
力算出部103より出力されるフレーム電力Pi
用いて音声区間検出を行う。
音声区間検出のアルゴリズムについては各種提
案されており、本発明はそのアルゴリズム自体が
目的ではないが、ここではフレーム電力Piが定め
られた閾値PS以上、T1フレーム以上続いた始め
のフレームを始端IS、音声の始端から後でフレー
ム電力Piが閾値PE以下の状態がT2フレーム続い
た時の始めてPE以下となつたフレームを終端IE
して検出する。
〔スペクトル正規化処理〕
スペクトル正規化部105は周波数分析部10
2より出力される入力音声の特徴ベクトルaiを受
けてまず特徴ベクトルaiの各成分ai kを次式(2)によ
り絶対値xi(k)に対数変換する。
Xi K=c log ai k 0 ai k≧1 ai k≦0 ……(2) cは、ai kのビツト数とxi kのビツト数から定ま
る定数である。
次に、次式(3)によつて与えられる最小二乗近似
直線 yi k=ui・k+vi 但し、 を用いた次式(4)のスペクトル正規化処理を行う。
zi k=xi k−yi k ……(4) 〔ローカルピークベクトル算出処理〕 第5図に本発明によるローカルピークベクトル
算出部106の詳細構成を示す。
第5図において、501はスペクトル正規化デ
ータzi kの入力端子、502は2値化演算部、5
03はスムージング部、504は乗算演算部、5
05は極大値抽出部、506はローカルピークベ
クトル出力端子である。
前記スペクトル正規化部105によりスペクト
ル正規化されたデータzi kから、2値化演算部5
02において次式(5)によつて与えられる2値の窓
ベクトル Wi=(Wi 1,Wi 2,……,Wi k,……,Wi K)が算
出される。
(kはチヤネル番号を表わす。) Wi K=1 0 zi k>0 zi k0 (5) ここでWi 1,Wi 2,……,Wi Kは窓ベクトルWiの成
分である。続いてスムージング部503により窓
ベクトルWiをスムージングし、スムージング窓
ベクトルi=(Wi 1i k,……,i K)を得る。
このスムージングはWiの成分Wi kが2チヤンネ
ル以上続けて1とならない場合は対応するi k
ゼロとすることにより行なわれる。
すなわち……010110…………000110……のよ
うにスムージングされる。
次に、スムージングされた窓ベクトルiの各
成分i kとスペクトル正規化されたデータzi kとの
積が乗算演算部504において次式(6)により求め
られる。
Li k=zi ki k……(6)(但しk=1,……
K) 次にここで求められたLi kを用いて極大値抽出
部505により次式(7)において Li k>Li k+1 かつ Li k-1<Li k ただし k=1,……,K Li 0=−∞ Li k+1=−∞ (7) なる条件を満たすkに対してはri k=1、条件を満
たさないkに対してはri k=0なる値を成分とする
ローカルピークベクトル ri=ri 1,ri 2,……,ri k,……ri K) を算出する。ここでri 1,ri 2,……,ri Kはローカ
ルピークベクトルriの成分である。
第6図aにスペクトル正規化されたデータzi k
の例、第6図bに窓ベクトルWiの成分wi kの例、
第6図cにスムージングされた窓ベクトルi
成分wi kの例、第6図dにzi ki kとの積Li kの例、
第6図eにローカルピークベクトルriの成分ri k
例を示す。
〔類似度計算処理〕
類似度計算部107はローカルピークベクトル
算出部106から出力される入力音声のローカル
ピークベクトルriの時系列を受けて標準パターン
メモリ108に格納された全ての標準パターンと
の類似度計算を行なう。
ここで標準パターンは、カテゴリ毎に1個、あ
るいは複数個の学習音声に対して認識を行う前
に、認識時と同様な処理によりローカルピークベ
クトルを算出し、時間軸を伸縮して加算して作成
してある。
すなわち標準パターンは重み付きローカルピー
クベクトルの時系列として格納される。本実施例
では標準パターンの数をMとする。
類似度計算部107において入力音声と標準パ
ターンとのフレーム間の類似度S(i,j)は、
次式(8)で求められる。
ここでriは第iフレームの入力音声のローカル
ピークベクトル、Djは第jフレームの標準パタ
ーンの特徴ベクトル、ri tはriの転置、Dj tはDjの転
置を表わす。
なお、iとjの対応には非線形に対応させる方
法もあるが、本実施例では線形マツチングを行
い、m番目の標準パターン長をSLnとする。
このとき入力音声とm番目の標準パターンの類
似度S^nは次式(9)で求められる。
上述の如くして、M個の標準パターン全てに対
して入力音声との類似度S^n(但しm=1〜M)を
算出する。
〔判定処理〕
判定部109は類似度計算部107より出力さ
れる各標準パターンとの類似度S^n(但しm=1〜
M)を受け、その中でも最も類似度の高いものを
抽出し、抽出された類似度に対する標準パターン
のカテゴリー名を判定結果として識別し出力す
る。
即ち、この判定処理は次式(10)で表わされる処理
によつて、 m0=arg max S^n……(10) なるm0を判定し、m0番目の標準パターンのカテ
ゴリ名を出力端子110へ出力する。
以上の説明では各処理をハード的に行なう場合
について説明したが、各処理をソフト的に行なう
ことも当然可能なものである。
(発明の効果) 以上、詳細に説明したように本発明によれば、
入力音声のスペクトル正規化後の特徴ベクトルか
ら窓ベクトルを求め、窓ベクトルをスムージング
処理し、前記スペクトル正規化後の特徴ベクトル
にスペクトル窓として乗算してからローカルピー
クベクトルを算出しているため、雑音によるロー
カルピークを音声のローカルピークと誤ることが
なく、各標準パターンとの類似度計算処理、判定
処理において精度の高い処理が行なわれ、その結
果認識精度の良い音声認識装置が実現できる。
【図面の簡単な説明】
第1図は本発明の1実施例の構成を示すブロツ
ク図、第2図は従来の音声認識方法のフローチヤ
ート、第3図は従来の入力信号の2値化を説明す
るための図、第4図は本発明の一実施例の周波数
分析に用いるバンドパスフイルタの周波数特性
図、第5図は本発明のローカルピークベクトル算
出部の構成を示すブロツク図、第6図a〜eは本
発明における入力音声のローカルピークベクトル
抽出の過程を説明するための図である。 102……周波数分析部、103……フレーム
電力算出部、104……音声区間検出部、105
……スペクトル正規化部、106……ローカルピ
ークベクトル算出部、107……類似度計算部、
108……標準パターンメモリ、109……判定
部、502……2値化演算部、503……スムー
ジング部、504……乗算演算部、505……極
大値抽出部。

Claims (1)

  1. 【特許請求の範囲】 1 所定周期の音声フレーム毎に入力音声を周波
    数分析し入力音声の周波数成分のベクトルとして
    の特徴ベクトルを抽出する処理と、 入力音声の前記特徴ベクトルを当該特徴ベクト
    ルの属する音声フレームにおける最小二乗近似直
    線を用いてスペクトル正規化しスペクトル正規化
    特徴ベクトルを抽出する処理と、前記スペクトル
    正規化特徴ベクトルの各成分について当該成分が
    正であれば“1”として0以下の場合は“0”と
    して変換した2値の各成分からなる窓ベクトルを
    抽出する処理と、 前記窓ベクトルをスムージングしスムージング
    窓ベクトルを抽出する処理と、 前記スペクトル正規化特徴ベクトルの各成分と
    前記スムージング窓ベクトルの各成分との積を算
    出し窓のかかつた特徴ベクトルとして抽出する処
    理と、 前記窓のかかつた特徴ベクトルについて周波数
    方向に極大値の有無を判定し極大値すなわちロー
    カルピークとなるチヤネルに対応する成分を
    “1”としその他を“0”とする2値のローカル
    ピークベクトルに変換する処理と、 入力音声の前記ローカルピークベクトルの時系
    列と予め用意された複数の標準パターンとの類似
    度計算を行ない入力音声のカテゴリーを判定する
    処理とを有することを特徴とする音声認識方法。
JP22487885A 1985-09-26 1985-10-11 音声認識方法 Granted JPS6286399A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP22487885A JPS6286399A (ja) 1985-10-11 1985-10-11 音声認識方法
US06/909,957 US4852181A (en) 1985-09-26 1986-09-22 Speech recognition for recognizing the catagory of an input speech pattern
EP86113175A EP0219712B1 (en) 1985-09-26 1986-09-25 Method of and system for speech recognition
DE8686113175T DE3683343D1 (de) 1985-09-26 1986-09-25 Verfahren und einrichtung zur spracherkennung.
US07/295,194 US4918735A (en) 1985-09-26 1989-01-09 Speech recognition apparatus for recognizing the category of an input speech pattern

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22487885A JPS6286399A (ja) 1985-10-11 1985-10-11 音声認識方法

Publications (2)

Publication Number Publication Date
JPS6286399A JPS6286399A (ja) 1987-04-20
JPH0448400B2 true JPH0448400B2 (ja) 1992-08-06

Family

ID=16820582

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22487885A Granted JPS6286399A (ja) 1985-09-26 1985-10-11 音声認識方法

Country Status (1)

Country Link
JP (1) JPS6286399A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0752356B2 (ja) * 1991-08-28 1995-06-05 株式会社エイ・ティ・アール自動翻訳電話研究所 話者適応化方式

Also Published As

Publication number Publication date
JPS6286399A (ja) 1987-04-20

Similar Documents

Publication Publication Date Title
US4918735A (en) Speech recognition apparatus for recognizing the category of an input speech pattern
CN103236260B (zh) 语音识别系统
JPS634200B2 (ja)
EP1141939B1 (en) System and method for segmentation of speech signals
CN115171716A (zh) 一种基于空间特征聚类的连续语音分离方法、系统及电子设备
EP0474496B1 (en) Speech recognition apparatus
Singh et al. Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition
JP3354252B2 (ja) 音声認識装置
JP3039623B2 (ja) 音声認識装置
JPH0448400B2 (ja)
JPH0556520B2 (ja)
JP2992324B2 (ja) 音声区間検出方法
WO2007041789A1 (en) Front-end processing of speech signals
CN116229988A (zh) 一种电力调度系统人员声纹识别鉴权方法、系统及装置
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
KR0176751B1 (ko) 음성인식 시스템의 특징추출방법
JP2001083978A (ja) 音声認識装置
JP3023135B2 (ja) 音声認識装置
JPS61137199A (ja) 単語音声の認識方法
JPH0573090A (ja) 音声認識方法
JPS625298A (ja) 音声認識装置
JP3450972B2 (ja) パターン認識装置
JPH0451840B2 (ja)
JPS61230199A (ja) 音声認識方法
JPS62159195A (ja) 音声パタン作成方法