JPH03116099A

JPH03116099A - 音声認識装置

Info

Publication number: JPH03116099A
Application number: JP1254077A
Authority: JP
Inventors: Ryosuke Isotani; 亮輔磯谷
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1989-09-29
Filing date: 1989-09-29
Publication date: 1991-05-17

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、環境雑音中で発生された単語音声をニューラ
ルネットワークを用いて認識する音声認識装置に関する
。

（従来の技術）音声認識装置が実際に使用される場面では、通常周囲に
雑音が存在する。このような環境下で音声認識を行うた
めには、まず、マイク等より入力された時間的に連続な
信号の中から、意味のある音声の存在する区間（以下、
−音声区間）の検出を行うことが必要である。認識処理
に先だって、音響的な特徴のみからボトムアップに音声
区間を検出するためのアルゴリズムも存在するが、この
ような方法で音声区間の検出を完全に行うことは国数で
あり、また、検出の誤りは認識率の低下に結びつくこと
が多い。

音声区間検出の誤りに対する１つの方法として。

はじめにおおまかな検出を行っておいて、その後の認識
処理で、検出位置の変動を吸収する方法がある。音声認
識に広く用いられている手法であるＤＰマ・ｙチングに
適用した例としては、端点フリーＤＰがあげられる（電
子通信学界論文誌ＶＯ１，６１−Ｄ　Ｎｏ、９　ｐＤ、
６５７−６４４　ｒ連続して発生した単語音声の認識」
）、また、特願昭６２−２０２５４６には、前後に環境
雑音パターンを連結したパターンを用いて入力パターン
とのマツチングを行うことにより、入力パターンの前後
に付加している雑音に対処する方法が示されている。

一方、従来のパターンマツチング法などに代わる音声認
識手法として、近年ニューラルネットワークを用いた方
法が注目を集めている。従来の方法では識別できなかっ
た発声の揺らぎや個人差を、ニューラルネットワークの
持つ高度のパターンが雑音で吸収できることが期待され
ている。ニューラルネットワークを単語単位の音声の認
識に応用したものとしては、ダイナミックプログラミン
グ・ニューラルネットワーク（ダイナミックニューラル
ネットワークともいう、以下、ＤＮＮと称する）がある
、ＤＮＮは、ニューラルネットワークのパターンが雑音
に、ＤＰマツチングのもつ時間軸正規化の能力を統合し
たもので、単語のように、継続時間長の変動の影響の大
きい対象をも認識単位とすることができる手法である。

ＤＮＨについては、特願昭６２−２７３８３０〜２７３
８３３に詳しく述べられている。

（発明が解決しようとする課題）上で述べたようにＤＮＮは音声認識の有力な一手法であ
るが、音声区間が正しく検出された入力を前提としてお
り、検出位置の変動には対処していない、したがって、
音声区間検出の誤りによる認識率の低下が生じる可能性
が高かった。

本発明は、ニューラルネットワークの高度のパターンが
雑音を持ちつつ、音声区間の検出位置の変動に対処する
ことのできる音声認識装置を提供することを目的とする
。

（課題を解決するための手段）本発明の音声認識装置は、特徴ベクトルの有限長の時系列パターンとして表される
入力パターンに対し、その中の始端と終端の２つの時点
の複数の組合せを発生して、その各組合せについて、入
力パターンの中で始端と終端の間に含まれる部分を音声
区間パターンとして、始端と終端の間に含まれない部分
を雑音区間パターンとして出力する音声区間候補発生部
と、該音声区間候補発生部から出力された可変長の音声
区間パターンが認識対象のある単語に属する度合をニュ
ーラルネットワークを用いて０．１のＨＭに正規化され
た値として求めるニューラルネッワークと、前記音声区間候補発生部から出力された雑音区間パータ
ンの各フレームが雑音である度合をニューラルネッ１−
ワークを用いて０．１の間に正規化された値として求め
る雑音ニューラルネ・ットワークと、前記単語二ヱーラルネットワークの出力値に音声区間の
フレーム数を乗じたｌａ音区間パターンの各フレームに
対する前記雑音ニューラルネットワークの出力値との和
の重み付きの和を計算する重み付き和計算部と、前記音声区間候補発生部で発生される始端と終端の各組
合せに対して前記重み付き和計算部によって計算された
値を格納する結果格納部と、該結果格納部に格納された
値の中から最大の値を求めて、入力パターンのその単語
に対する単語ｗ１似度として出力する最大値検出部とか
ら構成され、入力パターンに対し、認識対象の各単語の中で最大の単
語類似度を与える単語を認識結果とすることを特徴とす
る。

（ｆ１！用）本装置に入力される音声パターンは、音声区間を完全に
含むよう、前後に十分余裕を持って切り出されたパター
ンとする。実際の音声区間は、このパターン中の一部分
である。正しい単語については、正しい始端と終端の組
合せが選ばれると類似度が大きくなる６本装置では音声
区間の始端と終端の複数の組合せを仮定し、仮定したす
べての部分がパターン（音声区間パターン）について認
識対象の単語との類似度の計算を行い、その餞大値を求
めることにより、もとの入力パターン全体が音声区間に
一致していなくても、正しい類似度を求めることができ
る。さらに、入力パターン中、音声区間の外の部分（雑
音区間パターン）については「雑音である確からしさ」
を計算し、音声区間部分の類似度に加えて全体の類似度
とすることにより、音声区間検出の性能を向上させてい
る。

類似度はそれぞれニューラルネットワークにより０．１
の間に正規化された値として求められるので、音声区間
と雑音区間の相を求める際、区間の長さを＃）！して、
あらかじめフレーム数を乗じておく。

請求項１の発明では、雑音区間パターンについての計算
の際、各フレームごとに類似度を計算するので、高精度
に類似度を求められる。一方、請求項２の発明では、平
均パターンを求めてそのパターンに対する類似度を求め
るので、精度は請求項１の発明に比べやや劣るが、計算
量が少なくなるという利点がある。

音声区間パターン、雑音区間パターンそれぞれの類似度
を計算する際、ニューラルネットワークを用いることに
より、高度の識別が期待できる。

（実施例）本発明の請求項１による音声認識における、入力パター
ンとある一つの単語との類似度の計算法の実施例を第１
図に示す、音声区間候補発生部１では、音声区間の始端
と終端の２つの時点のあらゆる組合せを順次発生する。

その各組合せについて、入力パターンの中で始端と終端
の間に含まれる部分を音声区間パターンとして、始端と
終端の間に含まれない部分を雑音区間パターンとして出
力する。ある一つの音声区間候補に対し、音声区間パタ
ーンについては、単語ニューラルネットワーク２によっ
て、その部分パターンと単語の類似度を計算する。単語
ニューラルネットワーク２としては、ＤＮＳを用いるこ
とができる。ただし、出力値はシグモイド関数を用いて
０．１の間に正規化する。また、雑音区間パターンにつ
いては、雑音ニューラルネットワーク４により、各フレ
ームについて雑音である度合を０，１の間で計算し出力
する。単語ニューラルネットワークの出力値に音声区間
パターンのフレーム数を乗じた値と、雑音区間パターン
の各フレームに対する雑音ニューラルネットワークの出
力値の和に、あるあらかじめ定めた重み定数を乗じた値
との和を計算し、結果を結果格納部７に格納する。この
値を、音声区間の始端と終端のあらゆる組合せについて
計算し、その最大値を、入力パターンとその単語との類
似度〈以下、４ｉ語類似度と呼ぶ）とする。

本発明の請求項２による音声認識装置における、入力パ
ターンとある一つの単語との類似度の計算法の実施例を
第２図に示す、雑音区間パターンに対する処理が、第１
図と異なる。まず、雑音区間の全フレームのパターンを
平均し、平均化したパターンに対して雑音二、１−ラル
ネットワークの出力値を求める。出力値は、雑音区間の
フレーム数倍されて、重み付き和計算部に送られる。そ
の曲の部分は、第１図と同じである。

雑音ニューラルネットワークの実現例を、第３図に示す
、ニューラルネットワークは、入力層、中間層、および
１個の出カニニットからなる。入力層は、２ｘ（入力パ
ターンの特徴ベクトルの次元数）個のユニ・ｙトを有し
、各ユニットは、それぞれ入力パターン中の第Ｊおよび
第ｊ−１フレームの特徴ベクトルの各要素の値を受は取
り、その値をそのまま出力する。中間層の各ユニットは
、入力層のすべてのユニットから入力を受け、それらの
荷重和を計算し、その値に出力関数を施した結果の値を
出力する。出力ユニットは、中間層のすべてのユニ・ッ
トの出力値の荷重和を計算し、その値に出力関数を施し
た結果の値を出力する。この出カニニットの出力値を、
入力パターンの第ｊパターンに対する雑音ニューラルネ
ットワークの出力値とする。出力ｒ定数としては、シグ
モイド関数を用いる。

第４図に、本発明による音声認識装置の一実施例を示す
０Ｍ求項１の例で説明するが、請求項２でも全く同様に
構成できる。認識対象の単語数をＮとする。認識対象の
単語ごとに、入力パターンとの間で第１図に示した類似
度を和計算し、最大の類似度を与える単語を認識結果と
する。単語ニューラルネットワークは、単語ごとに用意
する。

雑音ニューラルネットワークは全単語に対して共通なの
で共有することができる。以下、本誌Ｒ装置の動作を説
明する。音声区間ｆＡ補補止生部は、音声区間の始端と
終端のあらゆる組合せを順次発生ずる。ある一つの音声
区間候補に対し、入力パターン中の音声区間内のパター
ンについては、各単語について、単語ニューラルネット
ワークによって、その部分パターンと単語の類似度（以
下、部分単語類α度と呼ぶ）を計算する。すべての単語
の中で最大の部分単語類似度を与えるものを、最大部分
単語類似度検出部１２で求める。入力パターン中の雑音
区間パターンについては、各フレームごとに雑音ニュー
ラルネットワークにより雑音である度合を計算し、出力
する。上で求めた最大の部分単語類似度に音声区間のフ
レーム数を乗じた値と、各フレームごとの雑音ニューラ
ルネットワークの出力値の和の重み付きの和を計算し、
結果の値を最大の部分単語類似度を与える単語について
の単語類似度として、その単語番号とともに結果格納部
１５に格納する。以上の処理を、雑音区間の始端と終端
のあらゆる組合せについて行う、最後に、結果格納部１
５から最大の単語類似度を与える単語を最大単語類似度
検出部１６で求め、その単語を認識結果として出力する
。

（発明の効果）以上に述べたように、本発明によれば、環境雑音中で発
声された音声など、音声区間の検出位置に変動を含む入
力パターンに対しても、各カテゴリとの顧似度を入力中
の音声の前後の雑音の区間を考慮して計算することによ
り、高性能な認識を行うことができる。

【図面の簡単な説明】

第１図は、本発明の請求項１による音声認識装置におけ
る、入力パターンとある単語との類似度の計算法の実施
例を示す図、第２図は、本発明の請求項２による音声認
識装置における、入力パターンとある単語との類似度の
計算法の実施例を示す図、第３図は、本発明における雑
音ニューラルネットワークの実現例を示す図、第４図は
、本発明による音声認識装置の実施例の構成を示す図で
ある。１・・・音声区間候補発生部、２．１１・・・単語ニュ
ーラルネヴトワーク、３，１０．１３・・・乗算器、４
・・・雑音ニューラルネットワーク、５・・・加算器、
６１４・・・重み付き和計算部、７，１５・・・結果格
納部、８・・・最大値検出部、９・・・平均化手段、１
２・・・散大部分単語類似度検出部、１６・・・最大単
語類似度検出部。

Claims

【特許請求の範囲】

（１）特徴ベクトルの有限長の時系列パターンとして表
される入力パターンに対し、その中の始端と終端の２つ
の時点の複数の組合せを発生して、その各組合せについ
て、入力パターンの中で始端と終端の間に含まれる部分
を音声区間パターンとして、始端と終端の間に含まれな
い部分を雑音区間パターンとして出力する音声区間候補
発生部と、該音声区間候補発生部から出力された可変長
の音声区間パターンが認識対象のある単語に属する度合
をニューラルネットワークを用いて０，１の間に正規化
された値として求めるニューラルネッワークと、前記音声区間候補発生部から出力された雑音区間パータ
ンの各フレームが雑音である度合をニューラルネットワ
ークを用いて０，１の間に正規化された値として求める
雑音ニューラルネットワークと、前記単語ニューラルネットワークの出力値に音声区間の
フレーム数を乗じた雑音区間パターンの各フレームに対
する前記雑音ニューラルネットワークの出力値との和の
重み付きの和を計算する重み付き和計算部と、前記音声区間候補発生部で発生される始端と終端の各組
合せに対して前記重み付き和計算部によって計算された
値を格納する結果格納部と、該結果格納部に格納された
値の中から最大の値を求めて、入力パターンのその単語
に対する単語類似度として出力する最大値検出部とから
構成され、入力パータンに対し、認識対象の各単語の中で最大の単
語類似度を与える単語を認識結果とすることを特徴とす
る音声認識装置。
（２）特徴ベクトルの有限長の時系列パターンとして表
される入力パターンに対し、その中の始端と終端の２つ
の時点の複数の組合せを発生して、その各組合せについ
て、入力パターンの中で始端と終端の間に含まれる部分
を音声区間パターンとして、始端と終端との間に含まれ
ない部分を雑音区間パターンとして出力する音声区間候
補発生部と、該音声区間候補発生部から出力された可変長の音声区間
パターンが認識対象のある単語に属する度合をニューラ
ルネットワークを用いて０，１の間に正規化された値と
して求める単語ニューラルネットワークと、前記音声区間候補発生部から出力された雑音区間の全フ
レームのパターンを平均化する平均化手段と、該平均化手段から出力される平均化パターンが雑音であ
る度合をニューラルネットワークを用いて０，１の間に
正規化された値として求める雑音ニューラルネットワー
クと、前記単語ニューラルネットワークの出力値に音声区間の
フレーム数を乗じた値と前記雑音ニューラルネットワー
ク出力値に区間のフレーム数を乗じた値との和の重み付
きの和を計算する重み付き和計算部と、前記音声区間候補発生部で発生される始端と終端の各組
合せに対して前記重み付き和計算部によって計算された
値を格納する結果格納部と、該結果格納部に格納された
値の中から最大の値を求めて、入力パターンのその単語
に対する単語類似度として出力する最大値検出部とから
構成され、入力パータンに対し、認識対象の各単語の中で最大の単
語類似度を与える単語を認識対象とすることを特徴とす
る音声認識装置。