JPH03230255A

JPH03230255A - 音声認識方法

Info

Publication number: JPH03230255A
Application number: JP2026671A
Authority: JP
Inventors: Kazuhiko Okashita; 和彦岡下; Shingo Nishimura; 新吾西村; Masashi Miyagawa; 宮川　正志
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1990-02-05
Filing date: 1990-02-05
Publication date: 1991-10-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、電気錠、ＩＣカード等のオンライン端末等で
入力音声からその単語を認識するに好適な音声認識方法
に関する。

［従来の技術］従来、雑音の影響、回線等の入力系の相違等に対して高
い認識率を確保できる音声認識方法として、特開平１−
２６０４９０号公報に記載の如くのものが提案されてい
る。この音声認識方法は、音声をＬＰＣ分析して１フレ
ーム毎にＬＰＣケプストラムを算出し、フレーム間のＬ
ＰＣケプストラムの差分値を入力パラメータとして作成
する。他方、各音声の標準パターンも同様の差分値にて
作成してオく、そして、入力パラメータと標準パターン
との類似度を統計的尺度により計算し、類似度が最大と
なる標準パターンに対応する音声を認識結果とする。

［発明が解決しようとする課題］然しなから、従来技術には下記■〜■の問題点がある。

■ＬＰＧ分析は、音声を時系列的に多数区分したフレー
ム毎に順次行なうものであるため、処理時間が多大であ
る。

■入力パラメータの算出後の類似度の計算もフレーム毎
に順次行なうものであるため、処理時間が多大である。

■上記■、■により、実時間処理を行なうためには、高
級で複雑な処理が必要となる。

本発明は、容易に実時間処理てき、かつ高い認識率を確
保できる音声認識方法を提供することを目的とする。

［課題を解決するための手段］請求項１に記載の本発明は、ニューラルネットワークを
用いて入力音声からその単語を認識する単語認識方法で
あって、入力音声の周波数特性を算出し、各帯域のそれ
ぞれにおいて時間的に等分割した音声区間のそれぞれを
１つのブロックとして、各ブロックの中で周波数特性の
平均を算出し、それらの平均を対応する帯域内のブロッ
ク間で差分した値を、ニューラルネットワークへの入力
として用いるようにしたものである。

請求項２に記載の本発明は、前記ニューラルネットワー
クが階層的なニューラルネットワークであるようにした
ものである。

［作用］請求項１に記載の本発明によれば、下記■〜■の作用効
果がある。

■ニューラルネットワークへ入力する特徴パラメータと
して「周波数特性」を用いたから、入力を得るための前
処理が、ＬＰＧ相関やＬＰＣケプストラムの如くの複雑
な特徴量抽出に比して単純で並列的に周波数分析でき、
その前処理に要する時間が短くて足りる。

■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理が単純かつ迅速である。

■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットが独立に動作しており、並列的な演算
処理が可能である。従って、演算処理が迅速である。

■上記■〜■により、音声認識処理を複雑な処理装置に
よることなく容易に実時間処理できる。

■定常的なスペクトル歪に強く、高い認識率を維持でき
る。これは、以下に解析する如く、入力音声の各ブロッ
クでの周波数特性の平均を同一帯域内のブロック内で差
分するものであるため、スペクトル歪を消去できること
による。即ち、ｌをブロック番号、ｋを帯域番号、Ａｋ
をに帯域の周波数伝送特性、Ｓ　ｍｉｋを学習段階での
に帯域ｌブロックの音声信号、Ｓ　ｔｉｋを評価段階で
電話回線を通した後における如く、定常的な周波数伝送
特性Ａｋの影響によりスペクトルが歪んだ、ｋ帯域ｌブ
ロックの音声信号とする時、５ｔｉｋ＝Ａｋ　　・　Ｓｍｉである、そして、評価段階での各音声信号Ｓ　ｔｉｋを
単語のパワー全体で正規化したものは、である、そして
、上記（１）式の対数を取り、例えば隣の（ｉ＋１）ブ
ロックとの差分な取る。この差分値Ｈは、＝　ｌｏｇ（Ｓ　ｔｉｋ）　−１ｏｇ（ΣΣＳ　ｔｉｋ
）−１ｏｇ（Ｓ　ｔ（ｉ＋１）ｋ）＋　ｌｏｇ（ΣΣＳ
　ｔｉｋ）＝　ｌｏｇ（Ｓ　ｔｉｋ）　−１ｏｇ（Ｓ　
ｔ（ｉ＋１）ｋ）　　　　　・・−（２）＝　ｌｏｇ（
Ａ　ｋ−８ｍ１ｋ）　−１ｏｇ（Ａ　ｋ−８ｍ（ｉ＋１
）ｋ）＝　ｌｏｇ（Ａ　ｋ）　＋　ｌｏｇ（Ｓ　ｍ１ｋ
）−ｌｏｇ（Ａ　ｋ）−ｌｏｇ（Ｓ　ｍ（ｉ＋１）ｋ）
＝　ｌｏｇ（Ｓ　ｍｉＮ　−ｌｏｇ（Ｓ　ｍ（ｉ＋１）
ｋ）　　　　　　＝　（３）である。

上記差分値Ｈの（２）式は評価段階における音声信号の
差分値を表わし、（３）式は学習段階における音声信号
の差分値を表わす。即ち、（２）式の評価段階における
音声信号の差分値は、周波数伝送特性Ａｋを消去されて
、（３）式の学習段階の差分値と同等になる、即ちスペ
クトル歪を消去できるのである。

請求項２に記載の本発明によれば、下記■の作用効果が
ある。

０階層的なニューラルネットワークにあっては、現在、
後述する如くの簡単な学習アルゴリズム（パックプロパ
ゲーション）が確立されており、高い認識率を実現でき
るニューラルネットワークを容易に形成できる。

［実施例］第１図は本発明が適用された音声認識システムの一例を
示す模式図、第２図はニューラルネットワークを示す模
式図、第３図は階層的なニューラルネットワークを示す
模式図、第４図はユニットの構造を示す模式図である。

本発明の具体的実施例の説明に先立ち、ニューラルネッ
トワークの構成、学習アルゴリズムについて説明する。

（１）ニューラルネットワークは、その構造から、第２
図（Ａ）に示す階層的ネットワークと第２図（Ｂ）に示
す相互結合ネットワークの２種に大別できる０本発明は
、両ネットワークのいずれを用いて構成するものであっ
ても良いが、階層的ネットワークは後述する如くの簡単
な学習アルゴリズムが確立されているためより有用であ
る。

（２）ネットワークの構造階層的ネットワークは、第３図に示す如く、入力層、中
間層、出力層からなる階層構造をとる。

各層は１以上のユニットから構成される。結合は、入力
層→中間層→出力層という前向きの結合たけで、各層内
での結合はない。

（３）ユニットの構造ユニットは第４図に示す如く脳のニューロンのモデル化
であり構造は簡単である。他のユニットから入力を受け
、その総和をとり一定の規則（変換関数）で変換し、結
果を出力する。他のユニットとの結合には、それぞれ結
合の強さを表わす可変の重みを付ける。

（４）学習（パックプロパゲーション）ネットワークの
学習とは、実際の出力を目標値（望ましい出力）に近づ
けることであり、−船釣には第４図に示した各ユニット
の変換関数及び重みを変化させて学習を行なう。

又、学習のアルゴリズムとしては、例えば、Ｒｕｍｅｌ
ｈａｒｔ、　Ｄ、Ｅ、、ＭｃＣｌｅｌｌａｎｄ、　Ｊ、
Ｌ、　ａｎｄ　ｔｈｅＰＤＰ　Ｒｅ５ｅａｒｃｈ　Ｇｒ
ｏｕｐ、　ＰＡＲＡＬＬＥＬ　ＤＩＳＴＲＩＢＵＴＥＤ
ＰＲＯＣＥＳＳＩＮＧ、　ｔｈｅ　ＭＩＴ　ｌ’ｒｅｓ
ｓ、　１９８Ｂ、に記載されているパックプロパゲーシ
ョンを用いることができる。

以下、本発明の具体的な実施例について説明する。

認識システム１は、１６チヤンネルのバンドパスフィル
タ１１、平均化回路１２、ブロック差分回路１３、ニュ
ーラルネットワーク２０．判定回路３０の結合にて構成
される（第１図参照）。

この認識システム１にあっては、認識単語を４７都道府
県名、特定話者を１名とした。以下、認識システム１の
学習動作と評価動作について詳述する。

（学習）１、入力作成 ■各認識単語の既知入力音声波形を１６チヤンネルのバ
ンドパスフィルタ１１に通し、入力音声の周波数特性を
算出する。

■バンドパスフィルタ１１の各帯域のそれぞれにおいて
音声波形を時間的に８等分割した音声区間のそれぞれを
１つのブロックとして、平均化回路１２により、各ブロ
ックの中で、上記■で求めた周波数特性の平均を算出す
る。この学習段階における音声信号のに帯域ｌブロック
での周波数特性の平均を、Ｓ　ｍｉｋとする。

■上記■で各帯域にて求めた各ブロックの周除算して正
規化し、次に対数を取り、隣の（ｉ＋１）ブロックとの
差分を取り、前記（３）式の如くの差分値Ｈを算出する
。

■上記■で求めた値をニューラルネットワーク２０への
入力とする。入力個数は１６チヤンネル×８ブロック；
１２８個となる。

２、学習 ■　１２８個の入力層と４８個の出力層をもつニューラ
ルネットワーク２０を用いる。

０４７個の認識単語のそれぞれに番号付けし、４７個の
出力層と対応させ、各認識単語について上記１の■で求
めた入力に対し、その単語に対応した出力層か「１」、
その他の出力層が「０」という値（目標値）になるよう
に、パックプロパゲーションにより５０００回学習する
。これにより、一定認識率を保証し得るニューラルネッ
トワーク２０を構築する。

（評価）１、入力作成 ■各認識単語の未知入力音声波形を１６チヤンネルのバ
ンドパスフィルタ１１に通し、入力音声の周波数特性を
算出する。

■バンドパスフィルタ１１の各帯域のそれぞれにおいて
音声波形を時間的に８等分割した音声区間のそれぞれを
１つのブロックとして、平均化回路１２により、各ブロ
ックの中で、上記■で求めた周波数特性の平均を算出す
る。この評価段階における音声信号のに帯域１ブロツク
での周波数特性の平均を、Ｓ　ｔｉｋとする。

■上記■で各帯域にて求めた各ブロックの周波数特性の
平均を、単語の全パワーΣΣＳ　ｔｉｋで除算して前記
（１）式の如く正規化し、次に対数を取り、隣の　（ｉ
＋１）ブロックとの差分を取り、前記（２）式の如くの
差分値Ｈを算出する。

２、学習 ■上記■で求めた値をニューラルネットワーク２０へ入
力する。

■ニューラルネットワーク２０の出力層の値より判定回
路３０にて入力単語を判定する。

以下、本発明の実験結果について説明する。

（実験１）本発明例として、周波数特性の平均をブロック間で差分
したものをニューラルネットワーク２０への入力とした
。認識単語を４７都道府県名、特定話者を１名とした。

結果、認識率は９０．６％、処理速度は１秒以内（１単
語平均認識時間）であった。

（実験２）比較例として、ＬＰＧ相関とＬＰＣケプストラムのフレ
ーム間差分値にて、入力パラメータと標準パターンのそ
れぞれを作成し、両者の類似度を統計的尺度により計算
した。認識単語を４７都道府県名、特定話者を１名とし
た。

結果、認識率は９３．２％、処理速度は１秒以上（１単
語平均認識時間）であった。

以下、上記実施例の作用について説明する。

■ニューラルネットワーク２０へ入力する特徴パラメー
タとして「周波数特性」を用いたから、入力を得るため
の前処理が、ＬＰＧ相関やＬＰＣケプストラムの如くの
複雑な特徴量抽出に比して単純で並列的に周波数分析で
き、その前処理に要する時間か短くて足りる。

■ニューラルネットワーク２０は、原理的に、ネットワ
ーク全体の演算処理が単純かつ迅速である。

■ニューラルネットワーク２０は、原理的に、それを構
成している各ユニットが独立に動作しており、並列的な
演算処理が可能である。従つて、演算処理が迅速である
。

■定常的なスペクトル歪に強く、高い認識率を維持でき
る。これは、［作用コの■にて前述の如く、評価段階で
算出した（２）式の如くの差分値が、周波数伝送特性Ａ
ｋを消去されて、学習段階で算出した（３）式の如くの
差分値と同等となり、雑音の影響や回線等の入力系の相
違に起因するスペクトル歪を消去できるからである。

０階層的なニューラルネットワーク２ｏにあっては、現
在、前述の如くの簡単な学習アルゴリズム（パックプロ
パゲーション）が確立されており、高い認識率を実現で
きるニューラルネットワーク２０を容易に形成できる。

［発明の効果］以上のように本発明によれば、容易に実時間処理でき、
かつ高い認識率を確保できる音声認識方法を得ることが
できる。

【図面の簡単な説明】

第１図は本発明が適用された音声認識システムの一例を
示す模式図、第２図はニューラルネットワークを示す模
式図、第３図は階層的なニューラルネットワークを示す
模式図、第４図はユニットの構造を示す模式図である。１・・・認識システム、１０・・・バンドパスフィルタ、１２・・・平均化回路、１３・・・ブロック差分回路、２０・・・ニューラルネットワーク、３０・・・判定回路。

Claims

【特許請求の範囲】

（１）ニューラルネットワークを用いて入力音声からそ
の単語を認識する単語認識方法であって、入力音声の周
波数特性を算出し、各帯域のそれぞれにおいて時間的に
等分割した音声区間のそれぞれを１つのブロックとして
、各ブロックの中で周波数特性の平均を算出し、それら
の平均を対応する帯域内のブロック間で差分した値を、
ニューラルネットワークへの入力として用いる音声認識
方法。
（２）前記ニューラルネットワークが階層的なニューラ
ルネットワークである請求項１記載の音声認識方法。