JPH0146079B2

JPH0146079B2 -

Info

Publication number: JPH0146079B2
Application number: JP57229278A
Authority: JP
Inventors: Yasuo Sato; Takayuki Fujimoto; Tadayasu Sugita
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1982-12-29
Filing date: 1982-12-29
Publication date: 1989-10-05
Also published as: JPS59123896A

Description

【発明の詳細な説明】 (A) 発明の技術分野本発明は音声認識装置、特に帯域フイルタ群を
用いて入力音声の周波数分析を行い、単音節また
は単語等の音声認識を行う音声認識装置におい
て、音声認識率を低下させることなく、照合すべ
き特徴パラメータ時系列のパラメータ量を削減
し、かつ分析ハードウエア量の削減を可能とした
音声認識装置に関するものである。

(B) 技術の背景と問題点音声認識方式として、広帯域の音声周波数分析
を行うため、多数チヤネルの帯域通過フイルタを
使用し、各フイルタの出力を整流積分等によつて
帯域別スペクトル電力に変換し、それらを対数変
換して帯域別対数スペクトル電力を求め、スペク
トルの正規化のため、全チヤネルの平均値が零と
なるように帯域別対数スペクトル電力を変換した
後、正規化されたすべての帯域別対数スペクトル
電力を照合用特徴パラメータ時系列として使用
し、予め辞書に登録された標準特徴パラメータ時
系列と、例えばダイナミツクプログラミング
（DP）マツチング法等により照合して、単音節ま
たは単語等の音声認識を行う方式が知られてい
る。

上記音声認識方式において、音声の認識率を高
めるためには、帯域フイルタの数、すなわちチヤ
ネル数を多くする必要がある。しかし、チヤネル
数を増加させると、音声周波数を分析するための
ハードウエア量が多く必要になるだけでなく、特
徴パラメータの要素が増えることから、照合に用
いるメモリ量が多く必要になり、また辞書に格納
する標準特徴パラメータ時系列の格納領域も多く
必要になる。さらに、照合のための演算処理時間
も多くかかることになる。

しかし、チヤネル数を減らせば、必要とするメ
モリ量等を少なくすることができるが、音声認識
率が劣化することになる。

ところで、本発明者等は、本発明の完成に先立
つて、多くの実験・研究を積み重ねた結果、音声
認識における次のような特性を発見した。音声周
波数分析は、高周波数帯域部分も含めて、広帯域
にわたつて行つたほうが良好な結果が得られる
が、特に高周波数帯域部分については、各サンプ
リングごとのパワースペクトルの相対的な音声エ
ネルギー量が重要であり、例えば、そのパワース
ペクトルのピークが、5KHzの周波数部分にある
か、7KHzの周波数部分にあるかは、音声認識上
それ程重要ではないということである。これは、
人間の耳では、おそらく高周波数帯域における周
波数のわずかな違いは、認識が困難であるためと
考えられる。

そこで本発明者等は、高周波数帯域部分も含め
た複数の帯域フイルタで分析したパラメータを正
規化した後、高域部分の複数チヤネルのパラメー
タを除去するようにして、音声認識率が変化する
かどうかを実験してみたところ、特徴パラメータ
時系列として高域部分も含めた全チヤネルについ
てのパラメータを用いた場合に比べて、認識率が
低下しないことが判明した。一方、高周波数帯域
部分を始めから正規化の条件に加えない場合に
は、音声認識率が低下することが判明した。

(C) 発明の目的と構成本発明は上記の点に鑑み、従来方式の改善を図
り、音声認識率を低下させることなく、照合すべ
き特徴パラメータ量を減少させて、メモリ量等の
削減を可能とするとともに、スペクトル分析のた
めのハードウエア量を削減することを目的として
いる。換言すれば、従来と同じ特徴パラメータ量
であれば、音声の認識率がさらに向上するように
することを目的としている。そのため、本発明の
音声認識装置は、音声を周波数分析して得られる
特徴パラメータ時系列の照合を行い音声を認識す
る音声認識装置において、広帯域の音声周波数帯
域にわたつてスペクトル分析を行うスペクトル分
析部と、そのスペクトル分析部による分析結果の
高周波数帯域部分をその帯域幅に応じて重み付け
する重み付け手段およびその重み付け結果を含む
上記分析結果の平均値を算出する平均値算出手段
を有し、その平均値に基づいて、高周波数帯域部
分を除くスペクトルの正規化を行うスペクトル正
規化部とを備え、照合用特徴パラメータ時系列と
して上記高周波数帯域部分を除去した正規化スペ
クトルのパラメータ時系列を用いるようにしたこ
とを特徴としている。以下、図面を参照しつつ実
施例に従つて説明する。

(D) 発明の実施例図は本発明の一実施例構成を示す。

図中、１は音声入力部、２はパラメータ抽出
部、３はスペクトル分析部、４−１ないし４−ｎ
は帯域通過フイルタ、５−１ないし５−ｎは整流
器、６−１ないし６−ｎはアナログ・デイジタル
変換回路、７はスペクトル正規化部、８−１ない
し８−ｎは対数変換部、９は定数記憶部、１０は
乗算器、１１は平均値算出部、１２−１ないし１
２−（ｎ−１）は減算器、１３は音声認識部、１
４は辞書を表わす。

音声入力部１から入力された単音節または単語
からなる音声のアナログ信号は、パラメータ抽出
部２に入力される。パラメータ抽出部２は、音声
アナログ信号の周波数分析を行い、認識すべき入
力音声の特徴パラメータ時系列を抽出生成するも
のである。そのため、パラメータ抽出部２は、広
帯域の音声周波数帯域にわたつてスペクトル分析
を行うスペクトル分析部３と、スペクトル分析部
３の出力を、高周波数帯域部分について重み付け
して正規化し、高周波数帯域部分を除く正規化ス
ペクトルを照合用の特徴パラメータP₁，P₂，…
P_o-1として出力するスペクトル正規化部７とを有
している。

スペクトル分析部３は、帯域別に複数（ｎ個）
の帯域通過フイルタ４−１〜４−ｎを有してい
る。図において、上部の帯域通過フイルタ４−１
から順に下位に向うに従つて、通過周波数が高く
なつている。帯域通過フイルタ４−１〜４−ｎ
は、例えば隣接する帯域通過フイルタの3dBの減
衰点が一致するように配置され、例えば180Hzか
ら7.8KHzまでの広帯域にわたつてカバーするよ
うにされる。特に、帯域通過フイルタ４−１から
４−（ｎ−１）までは、例えば帯域幅が170Hzない
し620Hz程度に定められるが、最高周波帯域の帯
域通過フイルタ４−ｎは、例えば3KHzというよ
うな広い帯域特性をもつようにされている。

音声入力部１からの音声信号は、帯域通過フイ
ルタ４−１〜４−ｎによつて帯域別にろ波され、
それぞれ整流器５−１〜５−ｎに入力される。各
整流器５−１〜５−ｎは、例えば10msの整流積
分時定数でもつて、入力信号の整流平滑化を行
う。整流器５−１〜５−ｎの出力は、アナログ・
デイジタル変換器６−１〜６−ｎに入力され、帯
域別スペクトル電力をデイジタル量として表わし
たものが求められる。変換結果は、スペクトル正
規化部７へ出力される。

スペクトル正規化部７に入力された帯域別スペ
クトル電力は、対数変換部８−１〜８−ｎによつ
て、人間が感じる音の強弱に出力値が比例するよ
う対数変換されて、帯域別対数スペクトル電力が
求められる。次に、この帯域別対数スペクトル電
力について、入力音声が大きな声であつても、小
さな声であつても同じ特徴パラメータとして表わ
れるようにするために、以下のような変換が行わ
れる。

まず、対数変換部８−ｎの出力値、すなわち最
高周波数帯域の対数スペクトル電力に、予め定数
記憶部９に格納された重み付け定数を、乗算器１
０によつて、掛け合わせる。これは、上述の如
く、帯域通過フイルタ４−ｎについては、他の帯
域通過フイルタ４−１〜４−（ｎ−１）よりも広
い帯域幅をもつようにしているため、１チヤネル
でもつて複数チヤネル分のウエイトを持つからで
ある。もし、該最高周波数帯域の１チヤネルが、
低域における３チヤネル分の帯域幅に相当する場
合には、重み付け定数として「３」が定数記憶部
９に格納され、乗算器１０によつて、対数変換部
８−ｎの出力値が３倍されることになる。

平均値算出部１１は、上記重み付けが考慮され
た帯域別対数スペクトル電力についての平均値を
算出する。例えば各対数変換部８−１〜８−ｎの
出力値が、それぞれP′₁，P′₂，…，P′_o-1，P′_oで
あり、重み付け定数がωであるとすると、平均値
Ｐは次のようになる。

減算器１２−１〜１２−（ｎ−１）は、対数変
換部８−１〜８−（ｎ−１）に対応して設けられ
る。すなわち、対数変換部８−ｎに対応する減算
器は設けられず、帯域別対数スペクトル電力P′_o
は、平均値の算出のためにだけ用いられ、平均値
の算出後は除去される。減算器１２−１〜１２−
（ｎ−１）は、各帯域別対数スペクトル電力P′₁，
P′₂，…，P′_o-1から、平均値算出部１１の出力
の減算を行う。すなわち、減算器１２−１〜１２
−（ｎ−１）の出力P_iは、各々次のようになる。

P_i＝P′_i−（ｉ＝１，２，…，ｎ−１）この減算器１２−１〜１２−（ｎ−１）の出力
P_iは、照合用特徴パラメータとして、音声認識部
１３に出力される。

音声認識部１３は、（ｎ−１）個の特徴パラメ
ータの組からなる特徴パラメータ時系列によつ
て、予め辞書１０に登録された標準特徴パラメー
タ時系列と、例えばDPマツチング法により照合
することにより入力音声の認識を行う。すなわ
ち、簡単に言えば時間軸の正規化を行い、対応す
る時点におけるｍ個の入力特徴パラメータP_iと標
準特徴パラメータP′_iとの距離（P_i−P′_i）²をｉ＝
１からｉ＝ｍまで加算し、これを一連の時系列に
ついて加えた結果が最小になる標準特徴パラメー
タに対応する単音節または単語を認識結果とす
る。

本発明者等は、本発明の効果を試験するため
に、次のような実験を行つた。まず、第１チヤネ
ルから第19チヤネルまで、180KHzから7.8KHzま
での帯域をカバーする19個の帯域フイルタを用意
した。特に第17チヤネル、第18チヤネル、第19チ
ヤネルの帯域フイルタの特性を記すと、それぞれ
中心周波数は5145Hz、5910Hz、7020Hz、下限周波
数は4800Hz、5514Hz、6334Hz、上限周波数は5514
Hz、6334Hz、7800Hzであり、帯域幅はそれぞれ
714Hz、820Hz、1466Hzである。そして、従来方式
により、この全チヤネルの帯域別対数スペクトル
電力を正規化した19個の正規化スペクトル電力を
特徴パラメータとして音声認識を行つた。

次に、第１チヤネルから第16チヤネルまでは、
上述のものと同じ帯域フイルタを用意し、第17チ
ヤネルから第19チヤネルまでの帯域フイルタに替
えて、下限周波数が4800Hz、上限周波数が7.8K
Hzの帯域フイルタを用い、上記実施例で説明した
如く、17個のチヤネルによつてスペクトル分析を
行い、重み付け定数を「３」として、第17チヤネ
ルの出力値の重み付けを行つて平均値を算出し、
そのうえで、第17チヤネルの出力値を除いた16個
の帯域別対数スペクトルから平均値を減算し、結
果を特徴パラメータとした。この16個の特徴パラ
メータに基づいて、新たに作成し直した16個の特
徴パラメータの組からなる標準特徴パラメータと
照合して音声認識を行つたが、音声認識率は上記
19個の特徴パラメータを用いた場合と同様な結果
が得られた。

なお、最初から、第１チヤネルから第16チヤネ
ルまでのスペクトル分析しか行わなかつたものに
ついては、高域部分の情報が全く加味されないた
め、音声認識率が低下することは、以前の実験で
わかつている。

さらに、周波数帯域を変化させて実験を繰り返
したが同様な効果を得ることができた。

(E) 発明の効果以上説明した如く本発明によれば、簡単な手段
によつて、音声認識率を低下させることなく、照
合／格納特徴パラメータ量を削減することがで
き、メモリ量、演算機構等を節減することができ
るとともに、高周波数帯域部分をまとめることに
よつて、スペクトル分析のためのハードウエア量
を減少させることができるようになる。さらに、
周波数帯域を広げることによつて、音声認識率を
向上させることができるようになる。

【図面の簡単な説明】

図は本発明の一実施例構成を示す。図中、１は音声入力部、２はパラメータ抽出
部、３はスペクトル分析部、４−１ないし４−ｎ
は帯域通過フイルタ、５−１ないし５−ｎは整流
器、６−１ないし６−ｎはアナログ・デイジタル
変換回路、７はスペクトル正規化部、８−１ない
し８−ｎは対数変換部、９は定数記憶部、１０は
乗算器、１１は平均値算出部、１２−１ないし１
２−（ｎ−１）は減算器、１３は音声認識部、１
４は辞書を表わす。

Claims

【特許請求の範囲】１音声を周波数分析して得られる特徴パラメー
タ時系列の照合を行い音声を認識する音声認識装
置において、広帯域の音声周波数帯域にわたつてスペクトル
分析を行うスペクトル分析部と、そのスペクトル分析部による分析結果の高周波
数帯域部分をその帯域幅に応じて重み付けする重
み付け手段およびその重み付け結果を含む上記分
析結果の平均値を算出する平均値算出手段を有
し、その平均値に基づいて、高周波数帯域部分を
除くスペクトルの正規化を行うスペクトル正規化
部とを備え、照合用特徴パラメータ時系列として上記高周波
数帯域部分を除去した正規化スペクトルのパラメ
ータ時系列を用いるようにしたことを特徴とする
音声認識装置。２上記スペクトル分析部は、多数チヤネルの帯
域通過フイルタを使用し、各フイルタの出力を帯
域別スペクトル電力に変換するよう構成され、上記スペクトル正規化部は、上記帯域別スペク
トル電力を対数変換して帯域別対数スペクトル電
力を求めた後、最高周波数帯域の１チヤネルを重
み付けして全チヤネルの重み付け平均値を求め、
上記帯域別対数スペクトル電力から上記重み付け
平均値を引いた上記最高周波数帯域の１チヤネル
を除くスペクトル電力を出力するように構成され
たことを特徴とする特許請求の範囲第１項記載の
音声認識装置。