JPH0448400B2

JPH0448400B2 -

Info

Publication number: JPH0448400B2
Application number: JP22487885A
Authority: JP
Inventors: Yukio Tabei; Makoto Morito; Kozo Yamada
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1985-10-11
Filing date: 1985-10-11
Publication date: 1992-08-06
Also published as: JPS6286399A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は高雑音下においても高精度の認識を行
うことのできる音声認識方法に関する。

（従来の技術）従来、この種の音声認識方法として電子通信学
会論文誌、J68−１（昭和60年１月）p.78−85に記
載されるものがあつた。第２図は従来のローカル
ピークを用いた音声認識方法のフローチヤートで
あり、入力音声は、15チヤネルのバンドパスフイ
ルター群で10msecごとに周波数分析され（第２
図の１参照）、声帯音源特性の個人差の正規化法
として、音声スペクトルを振幅、周波数軸ともに
対数で表わし最小二乗近似直線を求め（第２図の
２参照）、差をとつて補正する。ただし、最小二
乗近似直線の傾きが正の場合には平均値からの差
をとる。その後、第３図に示すように、各フレー
ム（10msec）毎に0dB以上となる各部分につい
て、各最大値の1/2以上の振幅を持つものの中で
最大値となるチヤネルをローカルピーク有りとし
て“１”にし、他を“０”として２値化を行う
（第２図の３参照）。バンドパスフイルタのチヤネ
ル数は15であるが、16チヤネル目に最小二乗近似
直線の傾きが負のとき有声音と見なし１をたて、
傾きが正のとき無声音と見なし“０”をたて、傾
斜の符号を付加する（第２図の４参照）。

荷重平均辞書は、複数の２値化パターンを時間
軸上一番長いものへ線形に伸ばして加算して多値
パターンとして得られる（第２図の５参照）。

２値の入力パターンと多値の荷重平均辞書との
マツチングには、時間方向は長い方のパターンに
線形に伸ばして合わせ、ある類似度に基づいて計
算を行い、最大類似度を与える標準パターンのカ
テゴリ名を認識結果とする（第２図の６参照）。

（発明が解決しようとする問題点）以上述べた従来の音声認識方法は、接話型マイ
ク等を用いる場合のようなSN比の良い環境では
有効に機能するが、高雑音の環境下では雑音の変
動によるピークを拾いやすく誤認識が増えるとい
う問題点があつた。

本発明は、以上述べた雑音の変動によるピーク
があつても、音声のローカルピークとの性質の違
いを考慮したローカルピークベクトル算出処理を
用いることで、雑音の変動によるピークを拾わ
ず、雑音に対する耐性が強く認識精度の高い音声
認識方法を提供することを目的とする。

（問題点を解決するための手段）本発明による音声認識方法は、まず入力音声を
各音声フレーム毎に複数チヤネルの特徴ベクトル
に周波数分析を行う。

一方、入力音声の特徴ベクトルは、当該ベクト
ルの属する音声フレームにおける最小二乗近似直
線を用いてスペクトル正規化される。前記スペク
トル正規化後の特徴ベクトルの各成分が正であれ
ば１とし、０以下であれば０とする２値の窓ベク
トルを算出し、前記窓ベクトルをスムージングを
行い、その後、窓ベクトルの各成分と前記スペク
トル正規化後の特徴ベクトルの各成分との積を算
出し、前記積の取られた特徴ベクトルから周波数
方向の極大値のあるチヤネルに対応する成分を１
とするローカルピークベクトルを算出する。そし
てこの入力音声のローカルピークベクトルの時系
列と予めめ用意された複数の標準パターンとの類
似度計算を行ない入力音声のカテゴリーを判定す
るものである。

（作用）本発明は、入力音声のスペクトル正規化した特
徴ベクトルを抽出した後、ローカルピークベクト
ル抽出前にスペクトル正規化特徴ベクトルから得
られる窓ベクトルをスムージングしこれとスペク
トル正規化特徴ベクトルとの乗算処理を行なつて
いる。このため、ローカルピークベクトル抽出時
に入力雑音の変動によるピークを入力音声のロー
カルピークと誤つて抽出することが抑制され、安
定して入力音声のローカルピークベクトルを抽出
している。

（実施例）第１図は本発明の一実施例を示すブロツク図で
ある。以下、第１図に示された音声認識装置の構
成及び動作について説明する。

〔入力処理〕

入力音声はマイク（図示せず）を通して電気信
号に変換され、アンプ（図示せず）、ローパスフ
イルタ（図示せず）、を通りＡ／Ｄ変換器（図示
せず）により、例えば標本化周波数12kHzで標本
化され、入力端子１０１に入力される。

〔周波数分析処理〕

入力端子から入力されるデイジタル値は周波数
分析部１０２において周波数分析されて、音声フ
レーム時系列の特徴ベクトルに変換される。この
周波数分析部１０２はバンドパスフイルタと絶対
値化演算部とローパスフイルタとで構成される。

まず、周波数分析には、本実施例では、第４図
に示すような低Ｑの特性を有するバンドパスフイ
ルタを用いている。ここではローカルピークの安
定な抽出を目的としたため低Ｑのバンドパスフイ
ルタを用いている。

各バンドパスフイルタの出力は絶対値演算が施
され、ローパスフイルタに入力され、音声フレー
ムの周期（本実施例では10msec）ごとに再サン
プルされ、特徴ベクトルを算出する。

ｉ番目の音声フレームにおけるｋチヤネルのロ
ーパスフイルタの出力を再サンプルした出力をa_i
^ｋとするとｉ番目の音声フレームにおける特徴ベ
クトルa_iは a_i＝a_i ¹，a_i ²，……，a_i ^k と表現される。ここでＫはチヤネル数（本実施例
ではＫ＝22）であり、a_i ¹，a_i ²，……，a_i ^kは特徴
ベクトルa_iの成分である。

〔フレーム電力算出処理〕

フレーム電力算出部１０３は、音声フレーム毎
に周波数分析部１０２より出力される特徴ベクト
ルa_iを受けて、当該音声フレームのフレーム電力
P_iを次式(1) により算出する。

〔音声区間検出処理〕

音声区間検出部１０４においては、フレーム電
力算出部１０３より出力されるフレーム電力P_iを
用いて音声区間検出を行う。

音声区間検出のアルゴリズムについては各種提
案されており、本発明はそのアルゴリズム自体が
目的ではないが、ここではフレーム電力P_iが定め
られた閾値P_S以上、T₁フレーム以上続いた始め
のフレームを始端I_S、音声の始端から後でフレー
ム電力P_iが閾値P_E以下の状態がT₂フレーム続い
た時の始めてP_E以下となつたフレームを終端I_Eと
して検出する。

〔スペクトル正規化処理〕

スペクトル正規化部１０５は周波数分析部１０
２より出力される入力音声の特徴ベクトルa_iを受
けてまず特徴ベクトルa_iの各成分a_i ^kを次式(2)によ
り絶対値x_i（ｋ）に対数変換する。

X_i ^K＝ｃ log a_i ^k ０ a_i ^k≧１ a_i ^k≦０ ……(2) ｃは、a_i ^kのビツト数とx_i ^kのビツト数から定ま
る定数である。

次に、次式(3)によつて与えられる最小二乗近似
直線 y_i ^k＝u_i・ｋ＋v_i 但し、を用いた次式(4)のスペクトル正規化処理を行う。

z_i ^k＝x_i ^k−y_i ^k ……(4) 〔ローカルピークベクトル算出処理〕第５図に本発明によるローカルピークベクトル
算出部１０６の詳細構成を示す。

第５図において、５０１はスペクトル正規化デ
ータz_i ^kの入力端子、５０２は２値化演算部、５
０３はスムージング部、５０４は乗算演算部、５
０５は極大値抽出部、５０６はローカルピークベ
クトル出力端子である。

前記スペクトル正規化部１０５によりスペクト
ル正規化されたデータz_i ^kから、２値化演算部５
０２において次式(5)によつて与えられる２値の窓
ベクトル W_i＝（W_i ¹，W_i ²，……，W_i ^k，……，W_i ^K）が算
出される。

（ｋはチヤネル番号を表わす。） W_i ^K＝１０ z_i ^k＞０ z_i ^k０ (5) ここでW_i ¹，W_i ²，……，W_i ^Kは窓ベクトルW_iの成
分である。続いてスムージング部５０３により窓
ベクトルW_iをスムージングし、スムージング窓
ベクトル_i＝（W_i ¹，_i ^k，……，_i ^K）を得る。

このスムージングはW_iの成分W_i ^kが２チヤンネ
ル以上続けて１とならない場合は対応する_i ^kは
ゼロとすることにより行なわれる。

すなわち……010110…………000110……のよ
うにスムージングされる。

次に、スムージングされた窓ベクトル_iの各
成分_i ^kとスペクトル正規化されたデータz_i ^kとの
積が乗算演算部５０４において次式(6)により求め
られる。

L_i ^k＝z_i ^k・_i ^k……(6)（但しｋ＝１，……
Ｋ）次にここで求められたL_i ^kを用いて極大値抽出
部５０５により次式(7)において L_i ^k＞L_i ^k+1 かつ L_i ^k-1＜L_i ^k ただしｋ＝１，……，Ｋ L_i ⁰＝−∞ L_i ^k+1＝−∞ (7) なる条件を満たすｋに対してはr_i ^k＝１、条件を満
たさないｋに対してはr_i ^k＝０なる値を成分とする
ローカルピークベクトル r_i＝r_i ¹，r_i ²，……，r_i ^k，……r_i ^K）を算出する。ここでr_i ¹，r_i ²，……，r_i ^Kはローカ
ルピークベクトルr_iの成分である。

第６図ａにスペクトル正規化されたデータz_i ^k
の例、第６図ｂに窓ベクトルW_iの成分w_i ^kの例、
第６図ｃにスムージングされた窓ベクトル_iの
成分w_i ^kの例、第６図ｄにz_i ^kと_i ^kとの積L_i ^kの例、
第６図ｅにローカルピークベクトルr_iの成分r_i ^kの
例を示す。

〔類似度計算処理〕

類似度計算部１０７はローカルピークベクトル
算出部１０６から出力される入力音声のローカル
ピークベクトルr_iの時系列を受けて標準パターン
メモリ１０８に格納された全ての標準パターンと
の類似度計算を行なう。

ここで標準パターンは、カテゴリ毎に１個、あ
るいは複数個の学習音声に対して認識を行う前
に、認識時と同様な処理によりローカルピークベ
クトルを算出し、時間軸を伸縮して加算して作成
してある。

すなわち標準パターンは重み付きローカルピー
クベクトルの時系列として格納される。本実施例
では標準パターンの数をＭとする。

類似度計算部１０７において入力音声と標準パ
ターンとのフレーム間の類似度Ｓ（ｉ，ｊ）は、
次式(8)で求められる。

ここでr_iは第ｉフレームの入力音声のローカル
ピークベクトル、D_jは第ｊフレームの標準パタ
ーンの特徴ベクトル、r_i ^tはr_iの転置、D_j ^tはD_jの転
置を表わす。

なお、ｉとｊの対応には非線形に対応させる方
法もあるが、本実施例では線形マツチングを行
い、ｍ番目の標準パターン長をSL_nとする。

このとき入力音声とｍ番目の標準パターンの類
似度S^_nは次式(9)で求められる。

上述の如くして、Ｍ個の標準パターン全てに対
して入力音声との類似度S^_n（但しｍ＝１〜Ｍ）を
算出する。

〔判定処理〕

判定部１０９は類似度計算部１０７より出力さ
れる各標準パターンとの類似度S^_n（但しｍ＝１〜
Ｍ）を受け、その中でも最も類似度の高いものを
抽出し、抽出された類似度に対する標準パターン
のカテゴリー名を判定結果として識別し出力す
る。

即ち、この判定処理は次式(10)で表わされる処理
によつて、 m₀＝arg max S^_n……(10) なるm₀を判定し、m₀番目の標準パターンのカテ
ゴリ名を出力端子１１０へ出力する。

以上の説明では各処理をハード的に行なう場合
について説明したが、各処理をソフト的に行なう
ことも当然可能なものである。

（発明の効果）以上、詳細に説明したように本発明によれば、
入力音声のスペクトル正規化後の特徴ベクトルか
ら窓ベクトルを求め、窓ベクトルをスムージング
処理し、前記スペクトル正規化後の特徴ベクトル
にスペクトル窓として乗算してからローカルピー
クベクトルを算出しているため、雑音によるロー
カルピークを音声のローカルピークと誤ることが
なく、各標準パターンとの類似度計算処理、判定
処理において精度の高い処理が行なわれ、その結
果認識精度の良い音声認識装置が実現できる。

【図面の簡単な説明】

第１図は本発明の１実施例の構成を示すブロツ
ク図、第２図は従来の音声認識方法のフローチヤ
ート、第３図は従来の入力信号の２値化を説明す
るための図、第４図は本発明の一実施例の周波数
分析に用いるバンドパスフイルタの周波数特性
図、第５図は本発明のローカルピークベクトル算
出部の構成を示すブロツク図、第６図ａ〜ｅは本
発明における入力音声のローカルピークベクトル
抽出の過程を説明するための図である。１０２……周波数分析部、１０３……フレーム
電力算出部、１０４……音声区間検出部、１０５
……スペクトル正規化部、１０６……ローカルピ
ークベクトル算出部、１０７……類似度計算部、
１０８……標準パターンメモリ、１０９……判定
部、５０２……２値化演算部、５０３……スムー
ジング部、５０４……乗算演算部、５０５……極
大値抽出部。

Claims

【特許請求の範囲】１所定周期の音声フレーム毎に入力音声を周波
数分析し入力音声の周波数成分のベクトルとして
の特徴ベクトルを抽出する処理と、入力音声の前記特徴ベクトルを当該特徴ベクト
ルの属する音声フレームにおける最小二乗近似直
線を用いてスペクトル正規化しスペクトル正規化
特徴ベクトルを抽出する処理と、前記スペクトル
正規化特徴ベクトルの各成分について当該成分が
正であれば“１”として０以下の場合は“０”と
して変換した２値の各成分からなる窓ベクトルを
抽出する処理と、前記窓ベクトルをスムージングしスムージング
窓ベクトルを抽出する処理と、前記スペクトル正規化特徴ベクトルの各成分と
前記スムージング窓ベクトルの各成分との積を算
出し窓のかかつた特徴ベクトルとして抽出する処
理と、前記窓のかかつた特徴ベクトルについて周波数
方向に極大値の有無を判定し極大値すなわちロー
カルピークとなるチヤネルに対応する成分を
“１”としその他を“０”とする２値のローカル
ピークベクトルに変換する処理と、入力音声の前記ローカルピークベクトルの時系
列と予め用意された複数の標準パターンとの類似
度計算を行ない入力音声のカテゴリーを判定する
処理とを有することを特徴とする音声認識方法。