JPH0449958B2

JPH0449958B2 -

Info

Publication number: JPH0449958B2
Application number: JP58240415A
Authority: JP
Inventors: Masahiro Hamada; Hideki Fuje
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1983-12-19
Filing date: 1983-12-19
Publication date: 1992-08-12
Also published as: JPS60130800A

Description

【発明の詳細な説明】

産業上の利用分野本発明は、スペクトル類似度評価に基づく音声
認識装置に関するものである。従来例の構成とその問題点従来の音声認識装置の問題点を、単語認識方法
を例にとつて説明する。第１図において、入力音声はスペクトル分析手
段１でフレーム毎に分析され、エネルギ正規化手
段２で発声強度のばらつきを補正するためのエネ
ルギ正規化を受けた後、予め同様の手段で処理さ
れ蓄えられていた標準パターン６との間のスペク
トル的な類似度がスペクトル類似度計算手段３で
計算され、このようにして得られたフレーム毎の
スペクトル類似性が類似度累積手段４により単語
全長にわたつて累積され、判定手段５により最終
の判定が行なわれるしくみとなつている。一般に人間の発声強度は、同一の単語を発音す
る場合でもその都度異なる。エネルギ正規化手段
３はこのような発声強度のばらつきを補正するた
めに有効であるが、反面、音声の本質からしてエ
ネルギ強度に違いがあるべき区間〔例えば母音区
間と無声子音区間など〕についても、その性質に
かかわりなくエネルギ正規化を行なつてしまうと
いう欠点がある。第２図はその様子を具体的に示
したものである。第２図Ａにおいて、実線は母音のスペクトル強
度を、破線は子音のスペクトル強度をそれぞれ表
わしている。また両スペクトルの間の縦縞部分は
スペクトル非類似度〔類似度の逆の概念〕を示し
ており、本来のスペクトル的距離を表わしている
と考えることができる。一方、第２図Ｂは上記の
母音と子音とのスペクトルがエネルギ正規化処理
を受けた後のスペクトルを示している。同図で
は、本来エネルギの小さかつた子音のスペクトル
が拡大され、母音のスペクトルエネルギと同程度
になつたため、同図中の縦縞部分で示されたスペ
クトル非類似度は第２図Ａの場合よりも小さくな
つている。即ち、エネルギ正規化処理によると、
本来明らかにエネルギ強度が異なり、同時にスペ
クトル非類似度が大きかつた母音と子音とのスペ
クトルが、比較的エネルギ強度が等しく、同時に
スペクトル非類似度が小さいものとして評価され
ることになる。ところで、単語認識を行なう場合には、登録音
声テンプレートと認識対象音声との間でフレーム
毎に正規化スペクトル類似度を累積していく。従
つて言語的に明らかに異なつていると考えられる
音声区間〔例えば上記例の母音区間と子音区間〕
の非類似度は、言語的に似通つていると考えられ
る音声区間〔例えば同一種の母音であり、発声強
度のみが若干異なる母音区間〕の非類似度に比
べ、より大きな重みづけをもつて評価される方
が、最終の認識結果において明らかに言語的に異
なつていると考えられる言語間での誤認識が発生
することを防ぐことができる。即ち、エネルギ正規化処理によると、発声時の
エネルギ強度的不安定要因が除外できる反面、言
語的に明確かつ支配的であるべき相違点をあいま
いにしてしまうという問題点があつた。発明の目的本発明は上記従来の欠点を解消するもので、エ
ネルギ正規化処理のもつ上記長所を生かしつつ、
同時に言語的に明らかに不都合と考えられるよう
な誤認識の発生をできるだけ阻止し、認識率の向
上を図ることのできる音声認識装置を提供するこ
とを目的とする。発明の構成上記目的を達成するため、本発明の音声認識装
置は、入力音声の周波数的特徴をフレーム毎に分
析するスペクトル分析手段と、このスペクトル分
析手段で得られたスペクトル特徴から音声のエネ
ルギの強弱に起因する要素を除外して正規化スペ
クトルを得るエネルギを正規化手段と、登録音声
の正規化スペクトルと認識用音声の正規化スペク
トルとの間の類似度をフレーム毎に求めるスペク
トル類似度計算手段と、このスペクトル類似度計
算手段から得られるフレーム毎の類似度を認識し
ようとする音声単位長の全体にわたつて累積する
類似度累積手段と、入力音声の音韻系列を求める
音韻系列分析手段と、登録音声の音韻系列と認識
用音声の音韻系列との間の類似度を認識しようと
する音声単位長の全体にわたつて評価する音韻類
似度評価手段と、前記類似度累積手段から得られ
るスペクトル類似度と前記音韻類似度評価手段か
ら得られる音韻類似度との両者を用いて最終の判
定を下す判定手段とを備えた構成である。実施例の説明以下、本発明の一実施例について、図面に基づ
いて説明する。第３図は本発明の一実施例における音声認識装
置の構成図であり、第１図に示す構成要素と同一
の構成要素には同一の符号を付してその説明を省
略する。第３図において、７は音韻系列分析手
段、８は音韻類似度評価手段、９は音韻系列標準
パターンである。入力音声はスペクトル分析手段１でフレーム毎
に分析され、エネルギ正規化手段２で発生強度の
ばらつきの補正を受けた後、予め同様の手段で処
理され蓄えられていたスペクトル標準パターン６
との間のスペクトル的な類似度がスペクトル類似
度計算手段３で計算され、このようにして得られ
たフレーム毎のスペクトル類似度が類似度累積手
段４により単語全長にわたつて累積されていく。
一方、前記入力音声は音韻系列分析手段７にも入
力されここで得られた音韻系列と、予め同様の手
段で処理され蓄えられていた音韻系列標準パター
ン９とが音韻類似度評価手段８に入力され、ここ
で音韻類似度が求められる。さらに、前記単語全
長にわたつて累積されたスペクトル類似度と、音
韻類似度とは判定手段５に入力される。判定手段５における判定は次のように行なわれ
る。なお以下の説明では便宜上類似度と逆の概念
である非類似度を考え、これを距離と呼ぶことに
する。さて下記表は各登録音声と認識用音声との
組み合わせから得られた複数のスペクトル距離の
うち最も小さい距離〔以下第１候補距離（d₁）と
呼ぶ〕と、最も小さい距離と２番目に小さい距離
との差〔以下第２候補距離差Δ₂と呼ぶ〕との２
つの値について、それらが、予め別に定めたしき
い値〔以下第１候補距離しきい値（θ₁）および第
２候補距離差しきい値（θ₂）と呼ぶ〕に対してと
り得る大小関係の組み合わせの各場合を示してい
る。

【表】

Claims

【特許請求の範囲】１入力音声の周波数的特徴をフレーム毎に分析
するスペクトル分析手段と、このスペクトル分析
手段で得られたスペクトル特徴から音声のエネル
ギの強弱に起因する要素を除外して正規化スペク
トルを得るエネルギ正規化手段と、登録音声の正
規化スペクトルと認識用音声の正規化スペクトル
との間の類似度をフレーム毎に求めるスペクトル
類似度計算手段と、このスペクトル類似度計算手
段から得られるフレーム毎の類似度を認識しよう
とする音声単位長の全体にわたつて累積する類似
度累積手段と、入力音声の音韻系列を求める音韻
系列分析手段と、登録音声の音韻系列と認識用音
声の音韻系列との間の類似度を認識しようとする
音声単位長の全体にわたつて評価する音韻類似度
評価手段と、前記類似度累積手段から得られるス
ペクトル類似度と前記音韻類似度評価手段から得
られる音韻類似度との両者を用いて最終の判定を
下す判定手段とを備えた音声認識装置。２判定手段は、登録音声のそれぞれと認識用音
声との間から得られた複数のスペクトル類似度の
うち、最も大きい類似度と、最も大きい類似度と
２番目に大きい類似度との類似度差と、音韻類似
度との三者を用いて判定を下す構成とした特許請
求の範囲第１項記載の音声認識装置。３判定手段は、最も大きい類似度が予め定めら
れた第１のしきい値より大きくなり、かつ類似度
差が予め定められた第２のしきい値より小さくな
つた時に判定を下す構成とした特許請求の範囲第
２項記載の音声認識装置。４判定手段は、最も大きいスペクトル類似度を
与えた登録音声の音韻系列と、２番目に大きいス
ペクトル類似度を与えた登録音声の音韻系列と
を、認識用音声の音韻系列と比較し、予め定めた
規則によつて音韻系列がより類似していると評価
された方の登録音声をもつて認識結果とする構成
とした特許請求の範囲第３項記載の音声認識装
置。５判定手段は、最も大きいスペクトル類似度を
与えた登録音声の音韻系列と、２番目に大きいス
ペクトル類似度を与えた登録音声の音韻系列と
を、認識用音声の音韻系列と比較し、予め定めた
規則に基づいて、双方の音韻系列がともに認識用
音声の音韻系列と類似していると評価された時に
は最も大きいスペクトル類似度を与えた登録音声
をもつて認識結果とし、いずれか一方の音韻系列
が認識用音声の音韻系列に類似しかつ他方の音韻
系列が認識用音声の音韻系列に類似していないと
評価された時には類似していると評価された音韻
系列を与えた登録音声をもつて認識結果とし、双
方の音韻系列がともに認識用音声の音韻系列と類
似していないと評価された時には満足すべき認識
が行なえなかつたとして認識結果を出力しない構
成とした特許請求の範囲第３項記載の音声認識装
置。