JPH03116099A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH03116099A
JPH03116099A JP1254077A JP25407789A JPH03116099A JP H03116099 A JPH03116099 A JP H03116099A JP 1254077 A JP1254077 A JP 1254077A JP 25407789 A JP25407789 A JP 25407789A JP H03116099 A JPH03116099 A JP H03116099A
Authority
JP
Japan
Prior art keywords
pattern
word
noise
neural network
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1254077A
Other languages
English (en)
Inventor
Ryosuke Isotani
亮輔 磯谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP1254077A priority Critical patent/JPH03116099A/ja
Publication of JPH03116099A publication Critical patent/JPH03116099A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、環境雑音中で発生された単語音声をニューラ
ルネットワークを用いて認識する音声認識装置に関する
(従来の技術) 音声認識装置が実際に使用される場面では、通常周囲に
雑音が存在する。このような環境下で音声認識を行うた
めには、まず、マイク等より入力された時間的に連続な
信号の中から、意味のある音声の存在する区間(以下、
−音声区間)の検出を行うことが必要である。認識処理
に先だって、音響的な特徴のみからボトムアップに音声
区間を検出するためのアルゴリズムも存在するが、この
ような方法で音声区間の検出を完全に行うことは国数で
あり、また、検出の誤りは認識率の低下に結びつくこと
が多い。
音声区間検出の誤りに対する1つの方法として。
はじめにおおまかな検出を行っておいて、その後の認識
処理で、検出位置の変動を吸収する方法がある。音声認
識に広く用いられている手法であるDPマ・yチングに
適用した例としては、端点フリーDPがあげられる(電
子通信学界論文誌VO1,61−D No、9 pD、
657−644 r連続して発生した単語音声の認識」
)、また、特願昭62−202546には、前後に環境
雑音パターンを連結したパターンを用いて入力パターン
とのマツチングを行うことにより、入力パターンの前後
に付加している雑音に対処する方法が示されている。
一方、従来のパターンマツチング法などに代わる音声認
識手法として、近年ニューラルネットワークを用いた方
法が注目を集めている。従来の方法では識別できなかっ
た発声の揺らぎや個人差を、ニューラルネットワークの
持つ高度のパターンが雑音で吸収できることが期待され
ている。ニューラルネットワークを単語単位の音声の認
識に応用したものとしては、ダイナミックプログラミン
グ・ニューラルネットワーク(ダイナミックニューラル
ネットワークともいう、以下、DNNと称する)がある
、DNNは、ニューラルネットワークのパターンが雑音
に、DPマツチングのもつ時間軸正規化の能力を統合し
たもので、単語のように、継続時間長の変動の影響の大
きい対象をも認識単位とすることができる手法である。
DNHについては、特願昭62−273830〜273
833に詳しく述べられている。
(発明が解決しようとする課題) 上で述べたようにDNNは音声認識の有力な一手法であ
るが、音声区間が正しく検出された入力を前提としてお
り、検出位置の変動には対処していない、したがって、
音声区間検出の誤りによる認識率の低下が生じる可能性
が高かった。
本発明は、ニューラルネットワークの高度のパターンが
雑音を持ちつつ、音声区間の検出位置の変動に対処する
ことのできる音声認識装置を提供することを目的とする
(課題を解決するための手段) 本発明の音声認識装置は、 特徴ベクトルの有限長の時系列パターンとして表される
入力パターンに対し、その中の始端と終端の2つの時点
の複数の組合せを発生して、その各組合せについて、入
力パターンの中で始端と終端の間に含まれる部分を音声
区間パターンとして、始端と終端の間に含まれない部分
を雑音区間パターンとして出力する音声区間候補発生部
と、該音声区間候補発生部から出力された可変長の音声
区間パターンが認識対象のある単語に属する度合をニュ
ーラルネットワークを用いて0.1のHMに正規化され
た値として求めるニューラルネッワークと、 前記音声区間候補発生部から出力された雑音区間パータ
ンの各フレームが雑音である度合をニューラルネッ1−
ワークを用いて0.1の間に正規化された値として求め
る雑音ニューラルネ・ットワークと、 前記単語二ヱーラルネットワークの出力値に音声区間の
フレーム数を乗じたla音区間パターンの各フレームに
対する前記雑音ニューラルネットワークの出力値との和
の重み付きの和を計算する重み付き和計算部と、 前記音声区間候補発生部で発生される始端と終端の各組
合せに対して前記重み付き和計算部によって計算された
値を格納する結果格納部と、該結果格納部に格納された
値の中から最大の値を求めて、入力パターンのその単語
に対する単語w1似度として出力する最大値検出部とか
ら構成され、 入力パターンに対し、認識対象の各単語の中で最大の単
語類似度を与える単語を認識結果とすることを特徴とす
る。
(f1!用) 本装置に入力される音声パターンは、音声区間を完全に
含むよう、前後に十分余裕を持って切り出されたパター
ンとする。実際の音声区間は、このパターン中の一部分
である。正しい単語については、正しい始端と終端の組
合せが選ばれると類似度が大きくなる6本装置では音声
区間の始端と終端の複数の組合せを仮定し、仮定したす
べての部分がパターン(音声区間パターン)について認
識対象の単語との類似度の計算を行い、その餞大値を求
めることにより、もとの入力パターン全体が音声区間に
一致していなくても、正しい類似度を求めることができ
る。さらに、入力パターン中、音声区間の外の部分(雑
音区間パターン)については「雑音である確からしさ」
を計算し、音声区間部分の類似度に加えて全体の類似度
とすることにより、音声区間検出の性能を向上させてい
る。
類似度はそれぞれニューラルネットワークにより0.1
の間に正規化された値として求められるので、音声区間
と雑音区間の相を求める際、区間の長さを#)!して、
あらかじめフレーム数を乗じておく。
請求項1の発明では、雑音区間パターンについての計算
の際、各フレームごとに類似度を計算するので、高精度
に類似度を求められる。一方、請求項2の発明では、平
均パターンを求めてそのパターンに対する類似度を求め
るので、精度は請求項1の発明に比べやや劣るが、計算
量が少なくなるという利点がある。
音声区間パターン、雑音区間パターンそれぞれの類似度
を計算する際、ニューラルネットワークを用いることに
より、高度の識別が期待できる。
(実施例) 本発明の請求項1による音声認識における、入力パター
ンとある一つの単語との類似度の計算法の実施例を第1
図に示す、音声区間候補発生部1では、音声区間の始端
と終端の2つの時点のあらゆる組合せを順次発生する。
その各組合せについて、入力パターンの中で始端と終端
の間に含まれる部分を音声区間パターンとして、始端と
終端の間に含まれない部分を雑音区間パターンとして出
力する。ある一つの音声区間候補に対し、音声区間パタ
ーンについては、単語ニューラルネットワーク2によっ
て、その部分パターンと単語の類似度を計算する。単語
ニューラルネットワーク2としては、DNSを用いるこ
とができる。ただし、出力値はシグモイド関数を用いて
0.1の間に正規化する。また、雑音区間パターンにつ
いては、雑音ニューラルネットワーク4により、各フレ
ームについて雑音である度合を0,1の間で計算し出力
する。単語ニューラルネットワークの出力値に音声区間
パターンのフレーム数を乗じた値と、雑音区間パターン
の各フレームに対する雑音ニューラルネットワークの出
力値の和に、あるあらかじめ定めた重み定数を乗じた値
との和を計算し、結果を結果格納部7に格納する。この
値を、音声区間の始端と終端のあらゆる組合せについて
計算し、その最大値を、入力パターンとその単語との類
似度〈以下、4i語類似度と呼ぶ)とする。
本発明の請求項2による音声認識装置における、入力パ
ターンとある一つの単語との類似度の計算法の実施例を
第2図に示す、雑音区間パターンに対する処理が、第1
図と異なる。まず、雑音区間の全フレームのパターンを
平均し、平均化したパターンに対して雑音二、1−ラル
ネットワークの出力値を求める。出力値は、雑音区間の
フレーム数倍されて、重み付き和計算部に送られる。そ
の曲の部分は、第1図と同じである。
雑音ニューラルネットワークの実現例を、第3図に示す
、ニューラルネットワークは、入力層、中間層、および
1個の出カニニットからなる。入力層は、2x(入力パ
ターンの特徴ベクトルの次元数)個のユニ・yトを有し
、各ユニットは、それぞれ入力パターン中の第Jおよび
第j−1フレームの特徴ベクトルの各要素の値を受は取
り、その値をそのまま出力する。中間層の各ユニットは
、入力層のすべてのユニットから入力を受け、それらの
荷重和を計算し、その値に出力関数を施した結果の値を
出力する。出力ユニットは、中間層のすべてのユニ・ッ
トの出力値の荷重和を計算し、その値に出力関数を施し
た結果の値を出力する。この出カニニットの出力値を、
入力パターンの第jパターンに対する雑音ニューラルネ
ットワークの出力値とする。出力r定数としては、シグ
モイド関数を用いる。
第4図に、本発明による音声認識装置の一実施例を示す
0M求項1の例で説明するが、請求項2でも全く同様に
構成できる。認識対象の単語数をNとする。認識対象の
単語ごとに、入力パターンとの間で第1図に示した類似
度を和計算し、最大の類似度を与える単語を認識結果と
する。単語ニューラルネットワークは、単語ごとに用意
する。
雑音ニューラルネットワークは全単語に対して共通なの
で共有することができる。以下、本誌R装置の動作を説
明する。音声区間fA補補止生部は、音声区間の始端と
終端のあらゆる組合せを順次発生ずる。ある一つの音声
区間候補に対し、入力パターン中の音声区間内のパター
ンについては、各単語について、単語ニューラルネット
ワークによって、その部分パターンと単語の類似度(以
下、部分単語類α度と呼ぶ)を計算する。すべての単語
の中で最大の部分単語類似度を与えるものを、最大部分
単語類似度検出部12で求める。入力パターン中の雑音
区間パターンについては、各フレームごとに雑音ニュー
ラルネットワークにより雑音である度合を計算し、出力
する。上で求めた最大の部分単語類似度に音声区間のフ
レーム数を乗じた値と、各フレームごとの雑音ニューラ
ルネットワークの出力値の和の重み付きの和を計算し、
結果の値を最大の部分単語類似度を与える単語について
の単語類似度として、その単語番号とともに結果格納部
15に格納する。以上の処理を、雑音区間の始端と終端
のあらゆる組合せについて行う、最後に、結果格納部1
5から最大の単語類似度を与える単語を最大単語類似度
検出部16で求め、その単語を認識結果として出力する
(発明の効果) 以上に述べたように、本発明によれば、環境雑音中で発
声された音声など、音声区間の検出位置に変動を含む入
力パターンに対しても、各カテゴリとの顧似度を入力中
の音声の前後の雑音の区間を考慮して計算することによ
り、高性能な認識を行うことができる。
【図面の簡単な説明】
第1図は、本発明の請求項1による音声認識装置におけ
る、入力パターンとある単語との類似度の計算法の実施
例を示す図、第2図は、本発明の請求項2による音声認
識装置における、入力パターンとある単語との類似度の
計算法の実施例を示す図、第3図は、本発明における雑
音ニューラルネットワークの実現例を示す図、第4図は
、本発明による音声認識装置の実施例の構成を示す図で
ある。 1・・・音声区間候補発生部、2.11・・・単語ニュ
ーラルネヴトワーク、3,10.13・・・乗算器、4
・・・雑音ニューラルネットワーク、5・・・加算器、
614・・・重み付き和計算部、7,15・・・結果格
納部、8・・・最大値検出部、9・・・平均化手段、1
2・・・散大部分単語類似度検出部、16・・・最大単
語類似度検出部。

Claims (2)

    【特許請求の範囲】
  1. (1)特徴ベクトルの有限長の時系列パターンとして表
    される入力パターンに対し、その中の始端と終端の2つ
    の時点の複数の組合せを発生して、その各組合せについ
    て、入力パターンの中で始端と終端の間に含まれる部分
    を音声区間パターンとして、始端と終端の間に含まれな
    い部分を雑音区間パターンとして出力する音声区間候補
    発生部と、該音声区間候補発生部から出力された可変長
    の音声区間パターンが認識対象のある単語に属する度合
    をニューラルネットワークを用いて0,1の間に正規化
    された値として求めるニューラルネッワークと、 前記音声区間候補発生部から出力された雑音区間パータ
    ンの各フレームが雑音である度合をニューラルネットワ
    ークを用いて0,1の間に正規化された値として求める
    雑音ニューラルネットワークと、 前記単語ニューラルネットワークの出力値に音声区間の
    フレーム数を乗じた雑音区間パターンの各フレームに対
    する前記雑音ニューラルネットワークの出力値との和の
    重み付きの和を計算する重み付き和計算部と、 前記音声区間候補発生部で発生される始端と終端の各組
    合せに対して前記重み付き和計算部によって計算された
    値を格納する結果格納部と、該結果格納部に格納された
    値の中から最大の値を求めて、入力パターンのその単語
    に対する単語類似度として出力する最大値検出部とから
    構成され、 入力パータンに対し、認識対象の各単語の中で最大の単
    語類似度を与える単語を認識結果とすることを特徴とす
    る音声認識装置。
  2. (2)特徴ベクトルの有限長の時系列パターンとして表
    される入力パターンに対し、その中の始端と終端の2つ
    の時点の複数の組合せを発生して、その各組合せについ
    て、入力パターンの中で始端と終端の間に含まれる部分
    を音声区間パターンとして、始端と終端との間に含まれ
    ない部分を雑音区間パターンとして出力する音声区間候
    補発生部と、 該音声区間候補発生部から出力された可変長の音声区間
    パターンが認識対象のある単語に属する度合をニューラ
    ルネットワークを用いて0,1の間に正規化された値と
    して求める単語ニューラルネットワークと、 前記音声区間候補発生部から出力された雑音区間の全フ
    レームのパターンを平均化する平均化手段と、 該平均化手段から出力される平均化パターンが雑音であ
    る度合をニューラルネットワークを用いて0,1の間に
    正規化された値として求める雑音ニューラルネットワー
    クと、 前記単語ニューラルネットワークの出力値に音声区間の
    フレーム数を乗じた値と前記雑音ニューラルネットワー
    ク出力値に区間のフレーム数を乗じた値との和の重み付
    きの和を計算する重み付き和計算部と、 前記音声区間候補発生部で発生される始端と終端の各組
    合せに対して前記重み付き和計算部によって計算された
    値を格納する結果格納部と、該結果格納部に格納された
    値の中から最大の値を求めて、入力パターンのその単語
    に対する単語類似度として出力する最大値検出部とから
    構成され、 入力パータンに対し、認識対象の各単語の中で最大の単
    語類似度を与える単語を認識対象とすることを特徴とす
    る音声認識装置。
JP1254077A 1989-09-29 1989-09-29 音声認識装置 Pending JPH03116099A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1254077A JPH03116099A (ja) 1989-09-29 1989-09-29 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1254077A JPH03116099A (ja) 1989-09-29 1989-09-29 音声認識装置

Publications (1)

Publication Number Publication Date
JPH03116099A true JPH03116099A (ja) 1991-05-17

Family

ID=17259903

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1254077A Pending JPH03116099A (ja) 1989-09-29 1989-09-29 音声認識装置

Country Status (1)

Country Link
JP (1) JPH03116099A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717393B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717393B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그장치

Similar Documents

Publication Publication Date Title
JP4218982B2 (ja) 音声処理
US5749072A (en) Communications device responsive to spoken commands and methods of using same
US5185848A (en) Noise reduction system using neural network
US5651094A (en) Acoustic category mean value calculating apparatus and adaptation apparatus
EP1159737B1 (en) Speaker recognition
US5583968A (en) Noise reduction for speech recognition
US4811399A (en) Apparatus and method for automatic speech recognition
EP1141939B1 (en) System and method for segmentation of speech signals
US5963904A (en) Phoneme dividing method using multilevel neural network
US5787393A (en) Speech recognition apparatus using neural network, and learning method therefor
JPH04182700A (ja) 音声認識装置
CN110751955B (zh) 基于时频矩阵动态选择的声音事件分类方法及系统
GB2380644A (en) Speech detection
US5845092A (en) Endpoint detection in a stand-alone real-time voice recognition system
JP2002023776A (ja) ブラインドセパレーションにおける話者音声と非音声雑音の識別方法及び話者音声チャンネルの特定方法
JP3163109B2 (ja) 多方向同時収音式音声認識方法
JPH05119792A (ja) 音声認識装置
JPH03120598A (ja) 音声認識方法及び装置
JPH03116099A (ja) 音声認識装置
US20050033786A1 (en) Device and method for filtering electrical signals, in particular acoustic signals
JPH1185185A (ja) 音声認識システムおよび音声認識制御プログラムを記録した記録媒体
JP3098593B2 (ja) 音声認識装置
Pattanayak et al. Significance of single frequency filter for the development of children's KWS system.
Varzandeh et al. A two-stage CNN with feature reduction for speech-aware binaural DOA estimation
JPH10124084A (ja) 音声処理装置