JPH0146079B2 - - Google Patents

Info

Publication number
JPH0146079B2
JPH0146079B2 JP57229278A JP22927882A JPH0146079B2 JP H0146079 B2 JPH0146079 B2 JP H0146079B2 JP 57229278 A JP57229278 A JP 57229278A JP 22927882 A JP22927882 A JP 22927882A JP H0146079 B2 JPH0146079 B2 JP H0146079B2
Authority
JP
Japan
Prior art keywords
spectrum
band
frequency band
average value
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57229278A
Other languages
English (en)
Other versions
JPS59123896A (ja
Inventor
Yasuo Sato
Takayuki Fujimoto
Tadayasu Sugita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP57229278A priority Critical patent/JPS59123896A/ja
Publication of JPS59123896A publication Critical patent/JPS59123896A/ja
Publication of JPH0146079B2 publication Critical patent/JPH0146079B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (A) 発明の技術分野 本発明は音声認識装置、特に帯域フイルタ群を
用いて入力音声の周波数分析を行い、単音節また
は単語等の音声認識を行う音声認識装置におい
て、音声認識率を低下させることなく、照合すべ
き特徴パラメータ時系列のパラメータ量を削減
し、かつ分析ハードウエア量の削減を可能とした
音声認識装置に関するものである。
(B) 技術の背景と問題点 音声認識方式として、広帯域の音声周波数分析
を行うため、多数チヤネルの帯域通過フイルタを
使用し、各フイルタの出力を整流積分等によつて
帯域別スペクトル電力に変換し、それらを対数変
換して帯域別対数スペクトル電力を求め、スペク
トルの正規化のため、全チヤネルの平均値が零と
なるように帯域別対数スペクトル電力を変換した
後、正規化されたすべての帯域別対数スペクトル
電力を照合用特徴パラメータ時系列として使用
し、予め辞書に登録された標準特徴パラメータ時
系列と、例えばダイナミツクプログラミング
(DP)マツチング法等により照合して、単音節ま
たは単語等の音声認識を行う方式が知られてい
る。
上記音声認識方式において、音声の認識率を高
めるためには、帯域フイルタの数、すなわちチヤ
ネル数を多くする必要がある。しかし、チヤネル
数を増加させると、音声周波数を分析するための
ハードウエア量が多く必要になるだけでなく、特
徴パラメータの要素が増えることから、照合に用
いるメモリ量が多く必要になり、また辞書に格納
する標準特徴パラメータ時系列の格納領域も多く
必要になる。さらに、照合のための演算処理時間
も多くかかることになる。
しかし、チヤネル数を減らせば、必要とするメ
モリ量等を少なくすることができるが、音声認識
率が劣化することになる。
ところで、本発明者等は、本発明の完成に先立
つて、多くの実験・研究を積み重ねた結果、音声
認識における次のような特性を発見した。音声周
波数分析は、高周波数帯域部分も含めて、広帯域
にわたつて行つたほうが良好な結果が得られる
が、特に高周波数帯域部分については、各サンプ
リングごとのパワースペクトルの相対的な音声エ
ネルギー量が重要であり、例えば、そのパワース
ペクトルのピークが、5KHzの周波数部分にある
か、7KHzの周波数部分にあるかは、音声認識上
それ程重要ではないということである。これは、
人間の耳では、おそらく高周波数帯域における周
波数のわずかな違いは、認識が困難であるためと
考えられる。
そこで本発明者等は、高周波数帯域部分も含め
た複数の帯域フイルタで分析したパラメータを正
規化した後、高域部分の複数チヤネルのパラメー
タを除去するようにして、音声認識率が変化する
かどうかを実験してみたところ、特徴パラメータ
時系列として高域部分も含めた全チヤネルについ
てのパラメータを用いた場合に比べて、認識率が
低下しないことが判明した。一方、高周波数帯域
部分を始めから正規化の条件に加えない場合に
は、音声認識率が低下することが判明した。
(C) 発明の目的と構成 本発明は上記の点に鑑み、従来方式の改善を図
り、音声認識率を低下させることなく、照合すべ
き特徴パラメータ量を減少させて、メモリ量等の
削減を可能とするとともに、スペクトル分析のた
めのハードウエア量を削減することを目的として
いる。換言すれば、従来と同じ特徴パラメータ量
であれば、音声の認識率がさらに向上するように
することを目的としている。そのため、本発明の
音声認識装置は、音声を周波数分析して得られる
特徴パラメータ時系列の照合を行い音声を認識す
る音声認識装置において、広帯域の音声周波数帯
域にわたつてスペクトル分析を行うスペクトル分
析部と、そのスペクトル分析部による分析結果の
高周波数帯域部分をその帯域幅に応じて重み付け
する重み付け手段およびその重み付け結果を含む
上記分析結果の平均値を算出する平均値算出手段
を有し、その平均値に基づいて、高周波数帯域部
分を除くスペクトルの正規化を行うスペクトル正
規化部とを備え、照合用特徴パラメータ時系列と
して上記高周波数帯域部分を除去した正規化スペ
クトルのパラメータ時系列を用いるようにしたこ
とを特徴としている。以下、図面を参照しつつ実
施例に従つて説明する。
(D) 発明の実施例 図は本発明の一実施例構成を示す。
図中、1は音声入力部、2はパラメータ抽出
部、3はスペクトル分析部、4−1ないし4−n
は帯域通過フイルタ、5−1ないし5−nは整流
器、6−1ないし6−nはアナログ・デイジタル
変換回路、7はスペクトル正規化部、8−1ない
し8−nは対数変換部、9は定数記憶部、10は
乗算器、11は平均値算出部、12−1ないし1
2−(n−1)は減算器、13は音声認識部、1
4は辞書を表わす。
音声入力部1から入力された単音節または単語
からなる音声のアナログ信号は、パラメータ抽出
部2に入力される。パラメータ抽出部2は、音声
アナログ信号の周波数分析を行い、認識すべき入
力音声の特徴パラメータ時系列を抽出生成するも
のである。そのため、パラメータ抽出部2は、広
帯域の音声周波数帯域にわたつてスペクトル分析
を行うスペクトル分析部3と、スペクトル分析部
3の出力を、高周波数帯域部分について重み付け
して正規化し、高周波数帯域部分を除く正規化ス
ペクトルを照合用の特徴パラメータP1,P2,…
Po-1として出力するスペクトル正規化部7とを有
している。
スペクトル分析部3は、帯域別に複数(n個)
の帯域通過フイルタ4−1〜4−nを有してい
る。図において、上部の帯域通過フイルタ4−1
から順に下位に向うに従つて、通過周波数が高く
なつている。帯域通過フイルタ4−1〜4−n
は、例えば隣接する帯域通過フイルタの3dBの減
衰点が一致するように配置され、例えば180Hzか
ら7.8KHzまでの広帯域にわたつてカバーするよ
うにされる。特に、帯域通過フイルタ4−1から
4−(n−1)までは、例えば帯域幅が170Hzない
し620Hz程度に定められるが、最高周波帯域の帯
域通過フイルタ4−nは、例えば3KHzというよ
うな広い帯域特性をもつようにされている。
音声入力部1からの音声信号は、帯域通過フイ
ルタ4−1〜4−nによつて帯域別にろ波され、
それぞれ整流器5−1〜5−nに入力される。各
整流器5−1〜5−nは、例えば10msの整流積
分時定数でもつて、入力信号の整流平滑化を行
う。整流器5−1〜5−nの出力は、アナログ・
デイジタル変換器6−1〜6−nに入力され、帯
域別スペクトル電力をデイジタル量として表わし
たものが求められる。変換結果は、スペクトル正
規化部7へ出力される。
スペクトル正規化部7に入力された帯域別スペ
クトル電力は、対数変換部8−1〜8−nによつ
て、人間が感じる音の強弱に出力値が比例するよ
う対数変換されて、帯域別対数スペクトル電力が
求められる。次に、この帯域別対数スペクトル電
力について、入力音声が大きな声であつても、小
さな声であつても同じ特徴パラメータとして表わ
れるようにするために、以下のような変換が行わ
れる。
まず、対数変換部8−nの出力値、すなわち最
高周波数帯域の対数スペクトル電力に、予め定数
記憶部9に格納された重み付け定数を、乗算器1
0によつて、掛け合わせる。これは、上述の如
く、帯域通過フイルタ4−nについては、他の帯
域通過フイルタ4−1〜4−(n−1)よりも広
い帯域幅をもつようにしているため、1チヤネル
でもつて複数チヤネル分のウエイトを持つからで
ある。もし、該最高周波数帯域の1チヤネルが、
低域における3チヤネル分の帯域幅に相当する場
合には、重み付け定数として「3」が定数記憶部
9に格納され、乗算器10によつて、対数変換部
8−nの出力値が3倍されることになる。
平均値算出部11は、上記重み付けが考慮され
た帯域別対数スペクトル電力についての平均値を
算出する。例えば各対数変換部8−1〜8−nの
出力値が、それぞれP′1,P′2,…,P′o-1,P′o
あり、重み付け定数がωであるとすると、平均値
Pは次のようになる。
減算器12−1〜12−(n−1)は、対数変
換部8−1〜8−(n−1)に対応して設けられ
る。すなわち、対数変換部8−nに対応する減算
器は設けられず、帯域別対数スペクトル電力P′o
は、平均値の算出のためにだけ用いられ、平均値
の算出後は除去される。減算器12−1〜12−
(n−1)は、各帯域別対数スペクトル電力P′1
P′2,…,P′o-1から、平均値算出部11の出力
の減算を行う。すなわち、減算器12−1〜12
−(n−1)の出力Piは、各々次のようになる。
Pi=P′i−(i=1,2,…,n−1) この減算器12−1〜12−(n−1)の出力
Piは、照合用特徴パラメータとして、音声認識部
13に出力される。
音声認識部13は、(n−1)個の特徴パラメ
ータの組からなる特徴パラメータ時系列によつ
て、予め辞書10に登録された標準特徴パラメー
タ時系列と、例えばDPマツチング法により照合
することにより入力音声の認識を行う。すなわ
ち、簡単に言えば時間軸の正規化を行い、対応す
る時点におけるm個の入力特徴パラメータPiと標
準特徴パラメータP′iとの距離(Pi−P′i2をi=
1からi=mまで加算し、これを一連の時系列に
ついて加えた結果が最小になる標準特徴パラメー
タに対応する単音節または単語を認識結果とす
る。
本発明者等は、本発明の効果を試験するため
に、次のような実験を行つた。まず、第1チヤネ
ルから第19チヤネルまで、180KHzから7.8KHzま
での帯域をカバーする19個の帯域フイルタを用意
した。特に第17チヤネル、第18チヤネル、第19チ
ヤネルの帯域フイルタの特性を記すと、それぞれ
中心周波数は5145Hz、5910Hz、7020Hz、下限周波
数は4800Hz、5514Hz、6334Hz、上限周波数は5514
Hz、6334Hz、7800Hzであり、帯域幅はそれぞれ
714Hz、820Hz、1466Hzである。そして、従来方式
により、この全チヤネルの帯域別対数スペクトル
電力を正規化した19個の正規化スペクトル電力を
特徴パラメータとして音声認識を行つた。
次に、第1チヤネルから第16チヤネルまでは、
上述のものと同じ帯域フイルタを用意し、第17チ
ヤネルから第19チヤネルまでの帯域フイルタに替
えて、下限周波数が4800Hz、上限周波数が7.8K
Hzの帯域フイルタを用い、上記実施例で説明した
如く、17個のチヤネルによつてスペクトル分析を
行い、重み付け定数を「3」として、第17チヤネ
ルの出力値の重み付けを行つて平均値を算出し、
そのうえで、第17チヤネルの出力値を除いた16個
の帯域別対数スペクトルから平均値を減算し、結
果を特徴パラメータとした。この16個の特徴パラ
メータに基づいて、新たに作成し直した16個の特
徴パラメータの組からなる標準特徴パラメータと
照合して音声認識を行つたが、音声認識率は上記
19個の特徴パラメータを用いた場合と同様な結果
が得られた。
なお、最初から、第1チヤネルから第16チヤネ
ルまでのスペクトル分析しか行わなかつたものに
ついては、高域部分の情報が全く加味されないた
め、音声認識率が低下することは、以前の実験で
わかつている。
さらに、周波数帯域を変化させて実験を繰り返
したが同様な効果を得ることができた。
(E) 発明の効果 以上説明した如く本発明によれば、簡単な手段
によつて、音声認識率を低下させることなく、照
合/格納特徴パラメータ量を削減することがで
き、メモリ量、演算機構等を節減することができ
るとともに、高周波数帯域部分をまとめることに
よつて、スペクトル分析のためのハードウエア量
を減少させることができるようになる。さらに、
周波数帯域を広げることによつて、音声認識率を
向上させることができるようになる。
【図面の簡単な説明】
図は本発明の一実施例構成を示す。 図中、1は音声入力部、2はパラメータ抽出
部、3はスペクトル分析部、4−1ないし4−n
は帯域通過フイルタ、5−1ないし5−nは整流
器、6−1ないし6−nはアナログ・デイジタル
変換回路、7はスペクトル正規化部、8−1ない
し8−nは対数変換部、9は定数記憶部、10は
乗算器、11は平均値算出部、12−1ないし1
2−(n−1)は減算器、13は音声認識部、1
4は辞書を表わす。

Claims (1)

  1. 【特許請求の範囲】 1 音声を周波数分析して得られる特徴パラメー
    タ時系列の照合を行い音声を認識する音声認識装
    置において、 広帯域の音声周波数帯域にわたつてスペクトル
    分析を行うスペクトル分析部と、 そのスペクトル分析部による分析結果の高周波
    数帯域部分をその帯域幅に応じて重み付けする重
    み付け手段およびその重み付け結果を含む上記分
    析結果の平均値を算出する平均値算出手段を有
    し、その平均値に基づいて、高周波数帯域部分を
    除くスペクトルの正規化を行うスペクトル正規化
    部とを備え、 照合用特徴パラメータ時系列として上記高周波
    数帯域部分を除去した正規化スペクトルのパラメ
    ータ時系列を用いるようにしたことを特徴とする
    音声認識装置。 2 上記スペクトル分析部は、多数チヤネルの帯
    域通過フイルタを使用し、各フイルタの出力を帯
    域別スペクトル電力に変換するよう構成され、 上記スペクトル正規化部は、上記帯域別スペク
    トル電力を対数変換して帯域別対数スペクトル電
    力を求めた後、最高周波数帯域の1チヤネルを重
    み付けして全チヤネルの重み付け平均値を求め、
    上記帯域別対数スペクトル電力から上記重み付け
    平均値を引いた上記最高周波数帯域の1チヤネル
    を除くスペクトル電力を出力するように構成され
    たことを特徴とする特許請求の範囲第1項記載の
    音声認識装置。
JP57229278A 1982-12-29 1982-12-29 音声認識装置 Granted JPS59123896A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57229278A JPS59123896A (ja) 1982-12-29 1982-12-29 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57229278A JPS59123896A (ja) 1982-12-29 1982-12-29 音声認識装置

Publications (2)

Publication Number Publication Date
JPS59123896A JPS59123896A (ja) 1984-07-17
JPH0146079B2 true JPH0146079B2 (ja) 1989-10-05

Family

ID=16889601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57229278A Granted JPS59123896A (ja) 1982-12-29 1982-12-29 音声認識装置

Country Status (1)

Country Link
JP (1) JPS59123896A (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS565597A (en) * 1979-06-26 1981-01-21 Sanyo Electric Co Voice identifier

Also Published As

Publication number Publication date
JPS59123896A (ja) 1984-07-17

Similar Documents

Publication Publication Date Title
Reynolds Experimental evaluation of features for robust speaker identification
US7711123B2 (en) Segmenting audio signals into auditory events
US5054085A (en) Preprocessing system for speech recognition
CA2155832C (en) Noise reduction
JP2004531767A5 (ja)
EP1093112B1 (en) A method for generating speech feature signals and an apparatus for carrying through this method
EP0248593A1 (en) Preprocessing system for speech recognition
US8064699B2 (en) Method and device for ascertaining feature vectors from a signal
JPH0146079B2 (ja)
US5692103A (en) Method of speech recognition with learning
JPH0146080B2 (ja)
JP2642694B2 (ja) 雑音除去方法
JP2966452B2 (ja) 音声認識装置の雑音除去システム
JPH0146078B2 (ja)
JPS61206000A (ja) 音声認識装置
Hernando et al. Speaker verification on the polycost database using frequency filtered spectral energies.
JPS59172695A (ja) 音声パラメ−タ抽出方式
KR100381372B1 (ko) 음성특징 추출장치
JPS6334477B2 (ja)
JPH0461359B2 (ja)
CN119993194A (zh) 一种特征获取方法及装置
JPS62113197A (ja) 音声認識装置
JP2003173195A (ja) 占有度抽出装置および基本周波数抽出装置、それらの方法、それらのプログラム並びにそれらのプログラムを記録した記録媒体
CN121148388A (zh) 一种基于ai的蓝牙耳机语音控制方法、系统及设备
CN117079666A (zh) 歌曲打分方法、装置、终端设备以及存储介质