JPH07219596A

JPH07219596A - 音声認識装置

Info

Publication number: JPH07219596A
Application number: JP6008256A
Authority: JP
Inventors: Kazuaki Obara; 和昭小原
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1994-01-28
Filing date: 1994-01-28
Publication date: 1995-08-18

Abstract

(57)【要約】【目的】大きな雑音環境下でも認識率の低下の少な
く、さまざまな環境で使えることを可能にする音声認識
装置を提供すること。【構成】音声を異なる中心周波数を持つ複数の周波数
帯域に分割する手段１０２と、前記分割して得られた各
信号波形に含まれる相関性の大小を求める手段１０３
と、複数の周波数帯域に分割する手段１０２によって得
られた各信号波形のパワー成分を検出する手段１０４
と、分割された各信号波形に含まれる同期周波数成分を
前記パワー成分を用いて正規化する手段１０５と、正規
化された同期信号成分を加算する手段１０６を備えたこ
とを特徴とする音声認識装置。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識装置に関し、更
に詳しくは大きな騒音下でも認識性能を損ねることなく
利用することの出来る音声認識装置に関するものであ
る。

【０００２】

【従来の技術】従来の音声認識装置としては、図４に示
された様な構成が一般的に用いられてきている。図４に
おいて、４０１は音声を入力するためのマイク、４０２
は４０１のマイクで入力された音声の特徴量を取り出す
ための特徴抽出器、４０３は４０２の特徴抽出器で取り
出した音声の特徴量を用いて入力された音声を認識する
ための識別部である。以上のように構成された従来の音
声認識装置について、以下その動作を説明する。図４に
おいて、音声を入力するためのマイク４０１で入力され
た音声は特徴抽出器４０２に入力され音声の特徴量が抽
出される。この音声の特徴量の抽出にはこれまで公知の
フィルタ分析、ＤＦＴ(Discrete FourierTransform)分
析、ＬＰＣ（Linear Predictive Coding）分析等が用い
られている。音声特徴抽出器４０２で求められた音声の
特徴量は識別部４０３に入力され公知のＤＴＷ(Dinamic
Time Warping)、ＨＭＭ(Hidden Markoff Model)、ＮＮ
(Neural Network)等の様々な音声パターンの識別方法に
よってされた入力された音声の認識を行う。

【０００３】

【発明が解決しようとする課題】以上のように構成され
た従来の構成の音声認識装置において、公知のフィルタ
分析、ＤＦＴ(Discrete Fourier Transform)分析、Ｌ
ＰＣ（Linear Predictive Coding）分析等を用いる特徴
抽出器４０２では、大きな騒音下での音声の特徴分析が
的確に行われなくなり認識性能が低下してしまうといっ
た問題があった。

【０００４】本発明はかかる点に鑑み、大きな騒音下で
も高い認識率が得られる音声認識装置を提供することを
目的とする。

【０００５】

【課題を解決するための手段】本発明は、音声を異なる
中心周波数を持つ複数の周波数帯域に分割する手段と、
前記分割された音声信号の各信号波形の相関性の大小を
求める手段と、前記分割された音声信号の各信号波形の
パワー成分を検出する手段と、前記分割された音声信号
の各信号波形の相関性の大小を前記パワー成分を用いて
正規化する手段と、前記正規化された相関性の大小を加
算する手段と、前記加算された信号を用いて入力音声の
識別を行う識別部を備えたことを特徴とする音声認識装
置である。

【０００６】

【作用】本発明は前記した構成により、大きな騒音のあ
る環境でも音声認識装置の認識率を低下することなく利
用することができ、音声認識装置の利用環境を大きく広
げることができる。

【０００７】

【実施例】図１は本発明の第１の実施例における音声認
識装置の構成図を示すもので１０１は音声を入力するた
めのマイク、１０２は音声を異なる中心周波数を持つ複
数の周波数帯域に分割するためのフィルタバンク、１０
３はフィルタによって周波数分析された音声信号の各信
号波形の自己相関を求めるための自己相関器、１０４は
フィルタによって周波数分析された音声信号波形のパワ
ー成分を求めるパワー検出回路、１０５は自己相関器１
０３の出力を前記パワー検出器１０４で求めた各フィル
タ出力のパワーを用いて正規化するための除算器、１０
６は除算器１０５で正規化された各フィルタの自己相関
の値を加え合わせるための加算器、１０６は加算器１０
５で求めた音声特徴量を用いて音声認識をするための識
別部である。

【０００８】以上のように構成された従来の音声認識装
置について、以下その動作を説明する。図１において、
音声を入力するためのマイク１０１によって入力された
音声は、フィルタバンク１０２に入力され、異なる中心
周波数を持つ複数の周波数帯域を有する音声周波数帯域
に分割される。この帯域フィルタバンクの中心周波数は
音声信号帯域を対数的に等間隔に分割することによって
設定しており、音声情報の重要な成分を受け持つ低域の
周波数成分は細かく、高域の周波数成分は大まかに分析
する事によって効率的に音声の周波数分析を行ってい
る。このフィルタバンク１０２で分析された音声信号
は、自己相関器１０３とパワー検出器１０４に入力さ
れ、各フィルタ出力に含まれる各帯域成分の周期性検出
とフィルタに含まれるパワーの検出が行われる。その後
パワー成分で正規化するために除算器１０５に入力され
自己相関器１０３の出力はフィルタ出力のパワーに応じ
て正規化される。正規化された各自己相関器出力は加算
器１０６へと入力され各フィルタの正規化された自己相
関値が加え合わされる。識別部１０７では加え合わされ
た自己相関の値をを用いて、公知の音声パターンの識別
方法であるＤＴＷ(DinamicTime Warping)によって、入
力された音声の認識を行う。音声パターンの識別方法と
してはＨＭＭ(Hidden Markoff Model)、ＮＮ(Neural Ne
twork)等の様々な音声パターンの識別方法をＤＴＷの代
わりに用いることが出来る。

【０００９】図２に上記に示した本発明を用いた音声認
識装置の雑音環境下での音声認識率を、従来の認識装置
を用いたときの認識率と比較した結果を示している。図
２の縦軸は音声認識率、横軸は音声が発話される環境の
雑音の大きさをしめすS/N比を示している。従来の認識
装置としては、良く用いられている音声分析手法である
ＤＦＴ(Discrete Fourier Transform)を用いた音声認
識装置の結果を示している。この図より明らかなよう
に、従来の手法では雑音が高くなる（S/N比が低くな
る）と認識率が大きく低下してくるのに対して、本発明
の音声認識装置では、雑音が大きくなってきても認識率
の低下は少なく、良好な認識性能が維持できていること
がわかる。

【００１０】以上のように本実施例によれば、大きな雑
音環境下においても認識率の低下が少ない優れた音声認
識装置を得ることが出来、音声認識装置を大きな雑音が
ある環境でも利用することを可能にするなど、その実用
的な価値は非常に大きい。

【００１１】図３は本発明の第２の実施例における音声
認識装置の構成図を示すものである。３０１は音声を入
力するためのマイク、３０２は音声を異なる中心周波数
を持つ複数の周波数帯域に分割するためのフィルタバン
ク、３０３はフィルタによって周波数分析された音声信
号の各信号波形を各フィルタの中心周波数の逆数により
決定される遅延量だけフィルタ出力信号を遅延させるた
めの遅延回路、３０４は遅延回路３０３により遅延され
た信号と、遅延しないフィルタ出力信号との掛け算をす
るための乗算器、３０５は乗算器３０４の出力をフィル
タ毎に設定した積分時間だけ積分するための積分回路、
３０６はフィルタ出力信号の自乗を計算するための２乗
回路、３０７は２乗器３０６の出力をフィルタ毎に設定
した積分時間だけ積分するための積分回路、３０８は積
分回路３０６の出力を積分回路３０７で除算する事によ
って乗算器３０４の出力を、各フィルタ出力のパワーを
用いて正規化するための除算器、３０９は各フィルタ出
力につながる除算器３０８の出力を加算する加算器、３
１０は３０９の出力である音声特徴量を用いて音声認識
をするための識別部である。

【００１２】以上のように構成された従来の音声認識装
置について、以下その動作を説明する。図３において、
音声を入力するためのマイク３０１によって入力された
音声は、異なる中心周波数を持つ複数のフィルタ３０２
により異なる周波数帯域を有する複数の音声周波数帯域
に分割される。この帯域フィルタ３０２の中心周波数は
第一の実施例と同様に、音声信号帯域を対数的に等間隔
に分割することによって設定しており、音声情報の低次
のフォルマント等の重要な成分を受け持つ低域の周波数
成分は細かく、高域の周波数成分は大まかに分析する事
によって効率的に音声の周波数分析を行っている。この
フィルタバンク３０２で分析された音声信号は、前記フ
ィルタによって周波数分析された音声信号の各信号波形
を各フィルタの中心周波数の逆数により決定される遅延
量（例えばフィルタの中心周波数が200Hzの時の遅延量
は5msに設定）だけフィルタ出力信号を遅延させるため
の遅延回路３０３に入力され遅延された後、遅延しない
フィルタ出力信号との積を求めるために乗算器３０４に
入力された後、各フィルタ毎に設定される積分時間を持
つ積分器３０５に入力される。積分器３０５の出力は、
遅延した信号（遅延回路３０３の出力）と遅延しない信
号の相関が高ければ出力値は大きくなり、逆に相関が低
ければ出力は低くなる。積分器３０５の出力は、２乗回
路３０６の出力（フィルタ出力のパワー）を積分器３０
７により積分したものの出力用いて除算器３０８によっ
て除算される。この演算によってフィルタ出力に含まれ
る中心周波数成分を、フィルタに含まれるパワーを用い
て正規化した量として求めている。除算器３０８ー１〜
３０８ーＮの出力は加算器３０９で加算され識別部３１
０へと入力される。識別部３１０では入力された音声特
徴量を用いて、公知のＤＴＷ(Dinamic Time Warping)、
ＨＭＭ(Hidden Markoff Model)、ＮＮ(Neural Network)
等の様々な音声パターンの識別方法によって、入力され
た音声の認識を行う。

【００１３】以上のように本実施例によれば、複数のフ
ィルタによって周波数分析された音声信号の各信号波形
の自己相関を求める必要がなく、より簡易な構成でフィ
ルタ出力の相関性の大小を求めることができ、大きな雑
音環境下においても認識率の低下が少ない優れた音声認
識装置を得ることが出来、音声認識装置を大きな雑音が
ある環境でも利用することが可能なり、その実用的な価
値は非常に大きい。

【００１４】

【発明の効果】以上説明したように、本発明によれば、
大きな雑音環境下でも認識率の低下の少ない音声認識装
置を得ることが出来、音声認識装置をさまざまな環境で
使えることを可能にすることができその実用的価値には
大なるものがある。

【図面の簡単な説明】

【図１】本発明における第１の実施例の音声認識装置の
構成図

【図２】本発明における第１の実施例を用いたの音声認
識装置の性能説明図

【図３】本発明における第２の実施例の音声認識装置の
構成図

【図４】従来の音声認識装置の構成図

【符号の説明】

１０１入力マイク１０２フィルタバンク１０３自己相関器１０４パワー検出回路１０５除算器１０６加算器１０７識別器３０１マイク３０２フィルタバンク３０３遅延回路３０４乗算器３０５積分器３０６２乗回路３０７積分器３０８加算器３０９除算器３１０識別部

Claims

【特許請求の範囲】

【請求項１】音声を異なる中心周波数を持つフィルタに
よって複数の周波数帯域に分割する手段と、前記分割し
て得られた各フィルタ出力波形に含まれる時間方向の相
関性の大小を求める手段と、前記複数の周波数帯域に分
割する手段によって得られた各信号波形のパワー成分を
検出する手段と、前記分割された各信号波形の相関の大
小性を前記パワー成分を用いて正規化する手段と、前記
複数の周波数帯域の正規化された信号を加算する手段
と、前記加算された信号成分を用いて入力音声の識別を
行う識別部を備えたことを特徴とする音声認識装置。
【請求項２】フィルタによって分割された各信号波形に
含まれる相関性の大小を求める手段と、前記分割された
音声信号の各信号波形のパワー成分を検出する手段が、
前記複数の周波数帯域に分割する手段によって分割され
た信号波形の自己相関を用いて求めることを特徴とする
請求項１記載の音声認識装置。
【請求項３】フィルタによって分割された各信号波形に
含まれる相関性の大小を求める手段が、前記複数のフィ
ルタによって分割された音声信号と、各々のフィルタの
中心周波数によって決定される遅延量だけ前記複数のフ
ィルタによって分割された音声信号を遅延した信号を乗
算する手段と、前記乗算する手段の出力を積分する手段
とを用いて求めることを特徴とする請求項１記載の音声
認識装置。
【請求項４】音声を複数の周波数帯域に分割するための
フィルタの中心周波数が、音声信号帯域を対数的に等間
隔に分割することによって設定された事を特徴とする請
求項１記載の音声認識装置。