JPH0754434B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0754434B2
JPH0754434B2 JP1114733A JP11473389A JPH0754434B2 JP H0754434 B2 JPH0754434 B2 JP H0754434B2 JP 1114733 A JP1114733 A JP 1114733A JP 11473389 A JP11473389 A JP 11473389A JP H0754434 B2 JPH0754434 B2 JP H0754434B2
Authority
JP
Japan
Prior art keywords
voice
section
unit
value
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1114733A
Other languages
English (en)
Other versions
JPH02293797A (ja
Inventor
由実 滝沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP1114733A priority Critical patent/JPH0754434B2/ja
Publication of JPH02293797A publication Critical patent/JPH02293797A/ja
Publication of JPH0754434B2 publication Critical patent/JPH0754434B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、音声認識装置に関するものである。
従来の技術 近年、音声認識技術の発達と共に、音声認識装置が様々
の分野で実用化されようとしているが、実用化するため
には、認識装置を実際に使用する上での様々の問題点を
解消する必要がある。この実用上の問題点の1つに、音
声入力時のSN比が低い場合に、雑音を音声区間として誤
検出してしまい、その結果、誤認識してしまうという点
がある。
従来の音声認識装置では、上記問題点を解決するため
に、あらかじめ音声を入力する直前に背景雑音を入力し
てそのパワーを調べ、音声区間を検出するための閾値を
上記パワー以上に設定しておき、設定された閾値を用い
て音声区間を検出する。この方法により、SN比が低い環
境でも雑音を音声区間として誤検出することなく、誤認
識率が少なくなる。
以下,図面を参照しながら、上述したような従来の音声
認識装置について説明を行う。第3図は、従来の登録型
単語音声認識装置のブロック図である。同図において、
1は音声入力端子,2は分析部、16は閾値設定部、17は区
間検出部、18は照合部、19は認識結果出力端子、20は登
録音声用バッファ、21は入力音声用バッファ、22、23は
スイッチである。以上のように構成された音声認識装置
について以下その動作について説明する。
まず登録時には、音声入力時直前に、音声入力端子1よ
り所定時間分の背景雑音信号が入力され、分析部2で単
位時間ごとの信号のパワーが算出され、算出結果は閾値
設定部16に入力される。閾値設定部16では上記で算出さ
れたパワーの平均値を求め、左記平均値に所定値(たと
えば6dBとする)を加えた値を区間検出閾値と設定す
る。
登録単語音声入力時には、音声入力端子1より入力され
た信号にもとづき、分析部2では単位時間毎の信号のパ
ワーと特徴パラメータが算出され、パワー算出結果は区
間検出部17に、特徴パラメータは入力音声用バッファ21
に入力される。分析方法としてたとえばLPCケプストラ
ム法を用いれば所定の個数のケプストラム係数が特徴パ
ラメータとして算出される。次に区間検出部17では単位
時間毎の信号のパワーと先に設定した区間検出閾値とを
比較し、信号のパワーが60msec以上連続して区間検出閾
値以上となる部分を音声区間と決定する。但し、信号パ
ワーが区間検出閾値以下となっても閾値以下の区間が60
msec以上連続しなければ音声区間とする。次に決定され
た音声区間分の特徴パラメータを入力音声用バッファ21
より入力し、登録音声用バッファ20に保管する。以上の
音声入力以降の処理を全認識単語分繰り返す。
次に認識時には、登録時と同様に背景雑音から区間検出
閾値を設定した後、入力音声を分析し、音声区間を検出
する。分析方法、区間検出方法共に登録時と同じであ
る。音声区間検出後、照合部18で登録音声と入力音声と
の照合を行い、最短距離を示す単語を認識結果として認
識結果出力端子19より出力する。なおスイッチ22は、音
声入力直前に雑音を入力する場合には閾値設定部16に、
音声入力時には区間検出部17と入力音声用バッファ21と
に算出結果を入力するように動作する。スイッチ23は、
登録時には登録用バッファ20に、認識時には照合部18に
特徴パラメータを入力するように動作する。
発明が解決しようとする課題 しかしながら、上記のような構成では、雑音パワーの変
化に無関係に雑音を除去することは可能であるが、雑音
または発声パワーの変化に伴い音声区間の始端及び終端
位置がずれるため、登録音声または標準音声発声時と入
力音声発声時との状況が違うと異なる音声区間で照合さ
れるため、誤認識を起こしやすいという問題点を有して
いた。
本発明は、上記問題点に鑑み、登録音声または標準音声
と入力音声との音声区間のずれを防ぎ、状況の違いによ
る誤認識を軽減することができる音声認識装置を提供す
るものである。
課題を解決するための手段 上記目的を達成するために請求項1記載の音声認識装置
は、入力信号の単位時間毎のパワーを検出する分析部
と、SN比を算出するSN比算出部と、SN比を考慮して区間
検出閾値を決定する閾値設定部と、決定された閾値によ
り上記入力信号の音声区間を検出する区間検出部と、登
録音声または標準音声区間を修正する区間修正部と、登
録音声または標準音声と入力音声とを照合して認識結果
を出力する照合部とから構成されている。
また請求項2記載の音声認識装置は、入力信号の単位時
間毎のパワーを検出する分析部と、信号パワーのピーク
値と雑音パワー値とを考慮して区間検出閾値を設定する
閾値設定部と、設定された閾値により上記入力信号の音
声区間の検出する区間検出部と、登録音声または標準音
声の区間を修正する区間修正部と、登録音声または標準
音声と入力音声とを照合して認識結果を出力する照合部
とから構成されている。
作用 請求項1記載の音声認識装置によれば、SN比算出部でSN
比を算出し、閾値決定部でSN比が低い環境では雑音パワ
ー以上の値を、SN比が高い環境ではピーク値から所定値
を引いた値を閾値と決定した後、区間検出部で上記閾値
を用いて入力音声の区間検出を行い、さらに区間修正部
で上記閾値にて登録音声または標準音声と入力音声との
照合を行う。
また請求項2記載の音声認識装置によれば、閾値設定部
で雑音パワー値に所定値を加えた値と、ピーク値より所
定値を引いた値とを比較して大きい方の値を閾値と設定
した後、区間検出部で上記閾値を用いて入力音声の区間
検出を行い、さらに区間修正部で上記閾値にて登録音声
または標準音声区間を修正し、照合部で上記登録音声ま
たは標準音声と入力音声との照合を行う。
実施例 第1図は、本発明の第1の実施例(請求項1記載の発明
に対応)における登録型単語音声認識装置のブロック図
である。
同図において、1は音声入力端子、2は分析部、3は仮
閾値設定部、4はSN比算出部、5は閾値設定部、6は区
間検出部、7は区間修正部、8は照合部、9は登録音声
用バッファ、10は入力音声用バッファ、11は認識結果出
力端子、12、13はスイッチであり、従来例(第3図参
照)と同じものは同一の番号を付与している。
以上のように構成された音声認識装置について以下その
動作について説明する。
まず登録時には、音声入力時直前に、音声入力端子1よ
り所定時間分の背景雑音信号が入力され、分析部2で単
位時間ごとの信号のパワーが算出される。算出結果は仮
閾値設定部3に入力される。仮閾値設定部3で上記パワ
ーの平均値を求め、左記平均値に所定値(本実施例では
6dBとする)加えた値を仮区間検出閾値とする。
登録単語音声入力時には、音声入力端子1より入力され
た信号にもとづき、分析部2では単位時間毎の信号のパ
ワーと特徴パラメータが算出される。パワー算出結果は
SN比算出部4に、特徴パラメータは入力音声用バッファ
10に入力される。なお分析方法は従来例と同じである。
SN比算出部4では、先に設定された仮区間検出閾値以上
の信号部を仮の音声区間として、仮音声区間内のピーク
値と先に算出された雑音パワーとの平均値の比をSN比と
して算出し、SN比が所定値(本例では24dBとする)以下
であれば登録を再度やり直すよう話者に指示し、以上の
登録処理を初めからやり直す。
SN値が24dB以上であれば閾値設定部5で、ピーク値より
所定値(本実施例では18dBとする)を引いた値を検出閾
値として決定する。区間検出部6で単位時間毎の信号パ
ワーと検出閾値とを比較し、音声区間を検出する。区間
検出方法は、従来例と同じである。次に、音声区間分の
特徴パラメータを入力音声用バッファ10より入力し、登
録音声用バッファ9に登録する。以上の登録音声入力以
降の処理を全認識単語分繰り返す。
次に認識時には、登録時と同様に背景雑音から仮区間検
出閾値を設定した後、入力音声を分析し、結果をSN比算
出部4と入力音声用バッファ10とに入力する。SN比算出
部4で登録時同様にSN比を算出し、結果を閾値設定部5
に入力する。閾値設定部5で、SN比が24dB以上であれば
ピーク値から18dBを引いた値を閾値とし、SN比が24dB以
下であれば先の仮区間検出閾値を閾値と設定した後、区
間検出部6で、左記閾値を用いて音声区間を検出する。
なお区間検出方法は登録時と同様である。
次に区間修正部7では、上記SN比が24dB以上の際には登
録された登録音声区間の修正は行なわず、SN比が24dB以
下の場合のみ、上記閾値にて登録音声の区間検出を再度
やり直す。次に照合部8で登録音声と入力音声との照合
を行い、最短距離を示す単語を認識結果として出力端子
11より出力する。なおスイッチ12は、音声入力直前に雑
音を入力する際には仮閾値設定部3に、音声入力時には
SN比算出部4と入力音声用バッファ10とに算出結果を入
力するように動作する。スイッチ13は、登録時には登録
用バッファ9に、認識時には区間修正部7に特徴パラメ
ータを入力するように動作する。
以上のように、本実施例によれば、SN比算出部4で信号
のピーク値と雑音の平均パワー値との比を算出し、閾値
設定部5で上記SN比が一定値以下の場合は雑音パワー値
に所定値を加えた値を、SN比が一定値以上の場合にはピ
ーク値より所定値を引いた値を閾値と決定し、区間検出
部6で上記閾値を用いて入力音声の区間検出を行い、区
間修正部7で上記閾値にて登録音声を修正し、照合部8
で上記登録音声と入力音声との照合を行うことにより、
登録音声と入力音声との音声区間のずれを防ぎ、状況の
違いによる誤認識を軽減することができる。
第2図は、本発明の第2の実施例(請求項2記載の発明
に対応)における登録型単語音声認識装置のブロック図
である。
同図において、1は音声入力端子、2は分析部、3は仮
閾値設定部、14は閾値設定部、6は区間検出部、7は区
間修正部、8は照合部、9は登録音声用バッファ、10は
入力音声用バッファ、11は認識結果出力端子、12、15は
スイッチであり、前記実施例と同じものは,同一の番号
を付与している。
以上のように構成された音声認識装置について以下その
動作について説明する。
まず登録時には、音声入力時直前に、音声入力端子1よ
り所定時間分の背景雑音信号が入力され、分析部2で単
位時間ごとの信号のパワーが算出される。算出結果は仮
閾値設定部3に入力される。仮閾値設定部3で上記パワ
ーの平均値を求め、左記平均値に一定値(本実施例では
6dBとする)加えた値を仮区間検出閾値とする。
登録単語音声入力時には、音声入力端子1より入力され
た信号にもとづき、分析部2では単位時間毎の信号のパ
ワーと特徴パラメータが算出される。パワー算出結果は
閾値設定部14に、特徴パラメータは入力音声用バッファ
10に入力される。なお分析方法は前記実施例と同じであ
る。閾値設定部14では、先に設定された仮区間検出閾値
以上の信号部を仮音声区間とし、仮音声区間内のピーク
値から所定値(本実施例では18dBとする)を加えた値と
先に算出された仮区間検出閾値とを比較し、後者の値が
大きければ登録を再度やり直すよう話者に指示し、以上
の登録処理を初めからやり直す。
前者の値が大きければ、この前者の値(ピーク値−18d
B)を検出閾値として設定し、区間検出部6で単位時間
毎の信号パワーと検出閾値とを比較し、音声区間を検出
する。区間検出方法は、従来例と同じである。次に、音
声区間分の特徴パラメータを入力音声用バッファ10より
入力し、登録音声用バッファ9に登録する。以上の登録
音声以降の処理を全認識単語分繰り返す。
次に認識時には、登録時と同様に背景雑音から仮区間検
出閾値を設定した後、入力音声を分析し、結果を閾値設
定部14と入力音声用バッファ10とに入力する。閾値設定
部14で、区間検出閾値以上の信号部を仮音声区間とし、
仮音声区間内のピーク値から18dBを引いた値と先に算出
された仮区間検出閾値とを比較し、両値の大きい方を閾
値と設定した後、区間検出部6で、左記閾値を用いて音
声区間を検出する。なお区間検出方法は登録時と同様で
ある。
次に区間修正部7では、上記閾値がピーク値から18dBを
引いた値で設定された場合には登録された登録音声区間
の修正は行なわず、閾値が仮区間検出閾値で設定された
場合のみ、上記閾値にて登録音声の区間検出を再度やり
直す。次に照合部8で登録音声と入力音声との照合を行
い、最短距離を示す単語を認識結果として出力端子11よ
り出力する。なおスイッチ15は、音声入力直前に雑音を
入力する際には仮閾値設定部3に、音声入力時には閾値
設定部14と入力音声用バッファ10とに算出結果を入力す
るように動作する。スイッチ13は、登録時には登録用バ
ッファ9に、認識時には区間修正部7に特徴パラメータ
を入力するように動作する。
以上のように,本実施例によれば、閾値設定部14で雑音
パワー値に6dBを加えた値と、ピーク値より18dBを引い
た値とを比較して大きい方を閾値と決定した後、区間検
出部6で上記閾値を用いて入力音声の区間検出を行い、
区間修正部で上記閾値にて登録音声区間を修正し、照合
部で上記登録音声と入力音声との照合を行うことによ
り、登録音声と入力音声との音声区間のずれを防ぎ、状
況の違いによる誤認識を少なくすることができる。また
本実施例は、第1の実施例に比べ、SN比を算出する手間
をかけずに同じ効果を期待できる。
発明の効果 請求項1記載の音声認識装置は、SN比算出部でSN比を算
出し、閾値決定部でSN比が低い環境では雑音パワー以上
の値を、SN比が高い環境ではピーク値より所定値を引い
た値を閾値と設定した後、区間検出部で上記閾値を用い
て入力音声の区間検出を行い、さらに区間修正部で上記
閾値にて登録音声または標準音声区間を修正し、照合部
で上記登録音声または標準音声と入力音声との照合を行
うことにより、登録音声と入力音声との音声区間のずれ
を防ぎ、状況の違いによる誤認識を少なくすることがで
きる。
また請求項2記載の音声認識装置は、閾値設定部で雑音
パワー値に所定値を加えた値と、ピーク値より所定値を
引いた値とを比較して大きい方を閾値と決定した後、区
間検出部で上記閾値を用いて入力音声の区間検出を行
い、さらに区間修正部で上記閾値にて登録音声または標
準音声区間を修正し、照合部で上記登録音声または標準
音声と入力音声との照合を行うことにより、登録音声ま
たは標準音声と入力音声との音声区間のずれを防ぎ、状
況の違いによる誤認識を少なくすることができる。また
上記発明に比べ、SN比を算出する手間をかけずに同じ効
果を期待できる。
【図面の簡単な説明】
第1図は本発明の第1の実施例における音声認識装置の
ブロック図、第2図は本発明の第2の実施例における音
声認識装置のブロック図、第3図は従来例における音声
認識装置のブロック図である。 2……分析部、4……SN比算出部、5、14……閾値設定
部、6……区間検出部、7……区間修正部、8……照合
部。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】入力信号の単位時間毎のパワーを検出する
    分析部と、音声パワーと雑音パワーの比(以後SN比とい
    う)を算出するSN比算出部と、SN比を考慮して区間検出
    閾値を決定する閾値決定部と、決定された閾値により上
    記入力信号の音声区間を検出する区間検出部と、登録音
    声または標準音声の区間を修正する区間修正部と、登録
    音声または標準音声と入力音声とを照合して認識結果を
    出力する照合部とを具備し、SN比算出部でSN比を算出
    し、閾値決定部でSN比が低い環境では雑音パワー以上の
    値を、SN比が高い環境では信号の最大パワー値(以後ピ
    ーク値という)より所定値を引いた値を閾値と設定し、
    区間検出部で上記閾値を用いて入力音声の区間検出を行
    い、区間修正部で上記閾値を使って登録音声または標準
    音声区間を修正し、照合部で上記登録音声または標準音
    声と入力音声との照合を行うように構成したことを特徴
    とする音声認識装置。
  2. 【請求項2】入力信号の単位時間毎のパワーを検出する
    分析部と、信号パワーのピーク値と雑音パワー値とを考
    慮して区間検出閾値を設定する閾値設定部と、設定され
    た閾値により上記入力信号の音声区間を検出する区間検
    出部と、登録音声または標準音声の区間を修正する区間
    修正部と、登録音声または標準音声と入力音声とを照合
    して認識結果を出力する照合部とを具備し、閾値設定部
    で雑音パワーに所定の値を加えた値と、信号のピーク値
    より所定値を引いた値を比較して大きい方の値を閾値と
    設定し、区間検出部で上記閾値を用いて入力音声の区間
    検出を行い、区間修正部で上記閾値にて登録音声または
    標準音声区間を修正し、照合部で上記登録音声または標
    準音声と入力音声との照合を行うように構成したことを
    特徴とする音声認識装置。
JP1114733A 1989-05-08 1989-05-08 音声認識装置 Expired - Lifetime JPH0754434B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1114733A JPH0754434B2 (ja) 1989-05-08 1989-05-08 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1114733A JPH0754434B2 (ja) 1989-05-08 1989-05-08 音声認識装置

Publications (2)

Publication Number Publication Date
JPH02293797A JPH02293797A (ja) 1990-12-04
JPH0754434B2 true JPH0754434B2 (ja) 1995-06-07

Family

ID=14645272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1114733A Expired - Lifetime JPH0754434B2 (ja) 1989-05-08 1989-05-08 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0754434B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
JP5402089B2 (ja) * 2009-03-02 2014-01-29 富士通株式会社 音響信号変換装置、方法、及びプログラム

Also Published As

Publication number Publication date
JPH02293797A (ja) 1990-12-04

Similar Documents

Publication Publication Date Title
EP0077194B1 (en) Speech recognition system
US7050973B2 (en) Speaker recognition using dynamic time warp template spotting
JPH0754434B2 (ja) 音声認識装置
JP2996019B2 (ja) 音声認識装置
JPH0792989A (ja) 音声認識方法
JP2754960B2 (ja) 音声認識装置
JP2666296B2 (ja) 音声認識装置
JPH0619491A (ja) 音声認識装置
JP2882792B2 (ja) 標準パターン作成方式
JP2737109B2 (ja) 音声区間検出方式
JP2644494B2 (ja) 不特定話者音声認識装置
JP2901976B2 (ja) パターン照合予備選択方式
JP3065739B2 (ja) 音声区間検出装置
KR940005045B1 (ko) 음성 인식방법
JP2844592B2 (ja) 離散単語音声認識装置
JPH0651792A (ja) 音声認識装置
JPH09127982A (ja) 音声認識装置
JPH1069291A (ja) 音声認識装置
JP3065691B2 (ja) 音声認識装置
JPH0752354B2 (ja) 音声認識装置
JP3020999B2 (ja) パターン登録方法
JPH0119597B2 (ja)
JPS61113099A (ja) 音声認識装置における音声区間検出方式
JPH0343639B2 (ja)
JPS60260096A (ja) 音声認識装置