JPH0570159B2

JPH0570159B2 -

Info

Publication number: JPH0570159B2
Application number: JP59107795A
Authority: JP
Inventors: Takeshi Norimatsu; Hideki Fuje
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1984-05-28
Filing date: 1984-05-28
Publication date: 1993-10-04
Also published as: JPS60250400A

Description

【発明の詳細な説明】産業上の利用分野本発明は、特定話者を対象とした主として登録
型単語を認識する音声認識装置に関する。

従来例の構成とその問題点特定話者を対象とした登録型単語を認識する音
声認識装置では、あらかじめ登録単語の特徴ベク
トルの時系列を標準パタンとしてメモリに記憶し
ておき、入力音声パタンと各標準パタンとの間で
パタンマツチングを行ない、最も類似度の高いも
のを認識結果とする方法が一般に行なわれてい
る。しかし、同一話者が同一単語を発声しても、
時間の経過と共にスペクトルパタンは変化してい
るため、上記の音声認識装置を長時間に渡つて使
用する場合には、認識性能の低下を生じる原因に
なるという問題点を有していた。

発明の目的本発明は上記の従来の問題点を解消するもの
で、認識処理の結果が十分に信頼できる時に、入
力音声パタンを標準パタンとして自動的に変更す
ることにより話者の発声の時間的変動に対応でき
る音声認識装置を提供することを目的とする。

発明の構成本発明は、音声の特徴ベクトルを抽出する音声
分析手段と、音声のエネルギー包絡線上の主要な
ピークを検出するエネルギーピーク検出手段と、
登録音声の特徴ベクトルの時系列を標準パタンと
して記憶する記憶手段と、登録音声パタンと入力
音声パタンとのマツチングにより、認識候補音声
を導き出す認識手段と、入力音声と認識候補音声
の音声長の比較を行なう音声長比較手段を有し、
認識手段とエネルギーピーク検出手段と音声長比
較手段の結果により、認識候補音声が十分に正確
である時に、入力音声パタンを標準パタンとして
採用し、標準パタンの一部を入れ換えるように構
成した音声認識装置である。

実施例の説明第１図は、本発明の一実施例における音声認識
装置を示すブロツク図である。第１図において１
は音声入力部で、話者からの音声がマイクロホン
等を通して入力される。２は音声分析手段で、入
力された音声信号から特徴ベクトルを抽出する。
３はエネルギーピーク検出手段で、入力音声のエ
ネルギー包絡線上から主要なピークを検出する。
４は認識手段で、記憶手段７に蓄えられた標準パ
タンと入力音声パタンとの間でパタンマツチング
を行なう。５は入力音声と認識手段４で得られた
認識候補音声の時間長の比較を行なう時間長比較
手段、６は入力音声パタンと標準パタンとの入れ
換えを行なうパタン入れ換え手段である。

第２図は本実施例の構成を示す回路図である。
１０は第１図のエネルギーピーク検出手段３、認
識手段４、音声長比較手段５、パタン入れ換え手
段６、記憶手段７の各手段を実現するためのマイ
クロコンピユータで、認識対象となる単語群の特
徴パラメータの時系列及び、エネルギーピーク検
出手段３により得られた各単語のピーク数を記憶
する記憶部１２と、入力音声と標準パタンのパタ
ンマツチング、及び標準パタン入れ換えのための
判定を行なう演算制御部１３、及び入力部１１、
出力部１４により等価的に構成されている。

８は音声入力を行なうマイクロホン、９はマイ
クロホン８から入力された音声信号をアナログ−
デイジタル変換し特徴パラメータを抽出するアナ
ログ−デイジタル変換器（以下Ａ／Ｄ変換器とい
う）である。１５は認識登録処理を開始させるス
イツチ、１６は認識候補音声を表示する認識結果
表示器である。

第３図は本実施例のマイクロコンピユータの動
作を説明するための要部のフローチヤートであ
る。以上の構成による本実施例の動作を、各登録
単語の標準パタンを３個ずつ用意した場合につい
て、詳細に説明する。

本実施例による音声認識装置は、まずスイツチ
１５を押すことにより、音声入力の待ち状態とな
る。音声が入力されると、ステツプ17により、音
声信号の入力処理を行なう。これはＡ／Ｄ変換器
９により、アナログーデイジタル変換された音声
信号がマイクロコンピユータ１０に入力され、演
算制御部１３で特徴ベクトルを抽出し、この特徴
ベクトルの時系列を記憶部１２に記憶する。この
後、ステツプ18により、入力音声のエネルギー包
絡線上の主要なピークを検出し、ピーク数を記憶
部１２に記憶する。ステツプ18のエネルギーピー
ク数の検出は、できるだけ母音部分のエネルギー
の高い所のピークを検出するために、低周波側
（例えば1KHz以下）の特徴ベクトルの総和をエネ
ルギー値と見なし、このエネルギーの包絡線上の
デイツプとピーク部分をまず検出する。このデイ
ツプ部分とピーク部分のエネルギーの差が、閾値
以上である時、これを１つのピークと見なし、全
体のエネルギー包絡線上のピーク数を計数してい
く。このピーク検出が終了すると、ステツプ19に
より、記憶部１２に蓄えられた標準パタンと、入
力音声パタンとの間でパタンマツチング処理を行
ない、マツチング距離の小さなものから順に、第
１、第２候補の単語を選択する。

ステツプ20では、選択された第１候補、第２候
補単語が同じ単語であるか調べ、同じであれば、
さらにステツプ21に進み、第１候補、第２候補と
入力音声との距離差が閾値以下であれば、ステツ
プ22で、認識結果として認識候補単語等を認識結
果表示器１６で表示する。ステツプ20，21の条件
を満たさなければ、パタンマツチングの結果は正
確でないと判断しステツプ17に戻る。

認識結果が得られると、現在の入力音声パタン
を標準パタンとして採用するために、入力音声が
認識結果と同一であるかを、以下に示す処理によ
り判断する。

まず、ステツプ23で入力音声と第１候補のエネ
ルギーピーク数を比較し、同じであれば、ステツ
プ24で入力音声と第２候補のピーク数を比較す
る。ピーク数が同じであれば、入力音声のエネル
ギーパタンは認識結果のものと非常に類似してい
ると見なし次のステツプに進む。

ステツプ25では、入力音声と第１候補との音声
長を比較する。これは、入力音声と第１候補の音
声長比Ｄを計算し、Ｄが、１−ａ＜Ｄ＜１＋ａ（０＜ａ＜１）の範囲に入つているかを調べる。この条件を満た
していると、さらにステツプ26により入力音声と
第２候補の音声長をステツプ25と同様に比較す
る。ここでａは、音声長比較のための閾値であ
る。

これらの条件をすべて満たしている時に、入力
音声は、認識結果の単語と同一であると判断し、
ステツプ27で標準パタンの入れ換えを行なう。こ
の標準パタン入れ換えでは、パタンマツチングに
より得られた第１、第２候補の２個の標準パタン
の他の残りの標準パタンを、入力音声のパタンと
入れ換え、記憶部１２に再び格納する。こうして
標準パタンは、新しいパタンに順次変更されてい
く。

ステツプ23，24，25，26の条件文が満たされな
い場合は、ステツプ17に戻り音声入力待ち状態と
なる。

上記実施例の構成によれば、パタンマツチング
の結果と、エネルギーピークの情報、及び音声長
の比較結果を用い、認識結果が正確であると判断
された時に、標準パタンを新しいパタンに変更し
ていくことにより、話者の発声の時間変動に対応
することができる。

発明の効果本発明は、入力音声のエネルギー包絡線上のピ
ークを検出するエネルギーピーク検出手段と、入
力音声と認識結果の標準パタンとの時間長を比較
する音声長比較手段を有し、パタンマツチングの
結果、第１、第２候補が同一で、入力音声の距離
差も小さく、またエネルギーピーク数がすべて一
致し、各音声長も一定範囲に納まつている時に、
認識結果は信用できると判断し、標準パタンの一
部を入力音声パタンと入れ換えることにより、話
者の発声の時間経過による変動に応じて標準パタ
ンを更新することのできる音声認識装置を提供で
きるものである。

さらに、標準パタンが自動的に更新されていく
ことにより、登録をいちいちやり直す必要がなく
なり、長時間の使用にも十分に対応できる音声認
識装置が提供できるものである。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識装
置のブロツク図、第２図は同装置の構成を示す回
路図、第３図は同動作説明のための要部フローチ
ヤートである。２……音声分析手段、３……エネルギーピーク
検出手段、４……認識手段、５……時間長比較手
段、６……パタン入れ換え手段、７……記憶手
段、８……マイクロホン、９……Ａ／Ｄ変換器、
１０……マイクロコンピユータ。

Claims

【特許請求の範囲】

１入力音声から特徴ベクトルを抽出する音声分
析手段と、前記音声分析手段より得られる特徴ベ
クトルからエネルギー包絡線を導き、この包絡線
上の主要なピーク数を検出するエネルギーピーク
検出手段と、各登録音声の特徴ベクトルの時系列
を標準パタンとして複数個記憶する記憶手段と、
前記記憶手段により記憶された登録音声の標準パ
タンと入力音声とのパタンマツチングにより認識
候補音声を導き出す認識手段と、入力音声と認識
候補音声との音声長を比較する音声長比較手段
と、前記認識手段によるパタンマツチングの結
果、上位２候補が同一単語で十分に入力音声に類
似し、前記エネルギーピーク検出手段によるピー
ク数が、入力音声、認識候補音声共一致し、かつ
前記音声長比較手段の結果両者の音声長がある範
囲内に納まつている時に、認識候補音声の上位２
候補以外の標準パタンの１つを入力音声パタンと
入れ換えるパタン入れ換え手段を備えたことを特
徴とする音声認識装置。