JPH0119600B2

JPH0119600B2 -

Info

Publication number: JPH0119600B2
Application number: JP56048254A
Authority: JP
Inventors: Kyoshi Iwata
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1981-03-31
Filing date: 1981-03-31
Publication date: 1989-04-12
Also published as: JPS57163300A

Description

【発明の詳細な説明】本発明は単語音声認識における大分類方式に関
し、特に単語の音声確識に際して完全照合を行な
う候補数を抽出するためあらかじめ辞書を予備選
択するための単語音声の大分類を作成するものに
関する。

人間の音声単語を認識する単語音声認識装置は
限られた範囲で実用化の段階に近づきつつあり、
約1000程度の単語までの実時間認識装置が市販さ
れる状態にある。

従来の音声単語認識装置は、第１図に示す如
く、音声単語から入力特徴時系列パターンS₁、S₂
…Snを作成しこれを照合回路３において、あら
かじめ単語辞書２に登録されている単語の標準パ
ターン1′、2′、3′…N′と順次比較して、その最大
類似のものを最大類似度検出回路４により抽出し
てこれを音声入力された単語であると認識してい
る。この場合、入力特徴時系列パターンとして
は、例えば第２図イ，ロに示すように、一定時間
t₁、t₂…毎に特徴分析されて、例えば周波数分析
されて、特徴パラメータの時系列に変換されたも
のを使用する。この入力時系よりパターンは前記
各標準パターンと順次照合され、各辞書項目につ
いて入力時系列パターンとの類似度の計算が行な
われ、最大類似度を示す辞書項目がその認識結果
として最大類似度検出回路４から出力されること
になる。このとき音声の時系列の長さは一定でな
く、辞書との照合は時間的に非線形な伸縮を伴な
うが、これは、ダイナミツク・プログラミングの
手法により能率よく計算する方法が一般化してい
る。そして照合に要する時間は、辞書２に格納さ
れている標準パターンの数に依存し、標準パター
ン数がＮ倍になればＮ倍となる。

それ故、このように辞書２に格納されている全
標準パターンと照合する方式は、格納されている
標準パターンの数が少ないうちはよい。しかしな
がら音声認識の究極目標と予想される音声タイプ
ライターでは数万語の単語が必要であると予想さ
れる。したがつて、このような大語彙の単語音声
認識を前記の如く格納されている全標準パターン
と、照合するという方法で実現する場合には、こ
の照合処理を並列的に実行しなければならず、音
声認識装置の規模が非常に大きくなり、現実的で
はない。

そのために、第３図に示す如く、大分類コード
作成回路５によりこの入力特徴時系列パターン
S₁S₂…Snを、その大局的または局所的な特徴に
より大分類コードに変換し、このコードに基づき
辞書２に格納されている標準パターンを検索して
全辞書の中から候補辞書項目の予備選択を行な
い、予備選択されたものを候補保持部６にて保持
し、この候補単語P₁…Phについて照合回路３に
て入力特徴時系列パターンS₁、S₂…Snとの照合
を行なうようにする。このようにすれば、入力特
徴時系列パターンS₁、S₂…Snとの照合は、予備
選択された辞書項目に対して行なわれるので、単
語数が増大しても照合処理に要する時間はそれ程
多くならない。例えば１万単語を認識する場合に
は、これを1/10に候補数が絞られれば、従来の実
用化されている装置とほぼ同程度の速度で認識処
理を行なうことができる。

したがつて本発明はこのように、辞書を予備選
択できる大分類コードを作成する単語音声認識に
おける大分類作成方式の提供を目的とするもので
ある。そしてこのために本発明の単語音声認識に
おける大分類方式では、入力音声信号にもとづき
特徴パラメータを抽出する特徴パラメータ抽出手
段と、入力音声信号にもとづきそのスペクトル分
析を行なうスペクトル分析手段と、このスペクト
ルの時間的変化状態を検出するスペクトル時間変
化検出手段と、このスペクトル時間変化にもとづ
き前記特徴パラメータを区分しこの区分内の特徴
パラメータの平均値を求める平均値作成手抜と、
この特徴パラメータの平均値にもとづきクラスタ
リングを行なうクラスタ手段を設け、入力音声信
号に基づき大分類コードを作成するようにしたこ
とを特徴とする。

以下本発明における大分類方式を第４図ないし
第８図にもとづき説明する。

(1) 入力音声波形を、例えばフイルタバンクまた
はLPC分析によるスペクトル包絡抽出により、
第２図イ，ロに示す如く、一定時間おきに周波
数スペクトルを得、これにより第４図イに示す
如く、周波数スペクトルの時系列パターンを作
成する。

(2) この第４図イの周波数スペクトルの時系列パ
ターンに、第５図イに示すｍ×ｎのマスクＭ
（ここでは３×３）を使用して次のようなマス
ク走査を行ない、周波数スペクトルの時間変動
の大きい部分を第４図ハに示すように抽出す
る。

すなわち、第５図イに示すマスクＭを使用し
て第４図イに示す周波数スペクトルの時系列パ
ターンを走査するが、このとき第５図イ，ロに
示すようにエレメントS₁、S₂、S₃を正とし、エ
レメントS₇、S₈、S₉を負としてマスク演算を行
ない、その絶対値をエレメントS₅の値a₀とする
マスク演算を行なう。

a₀＝｜（S₁＋S₂＋S₃）−（S₇＋S₈＋S₉）｜このようにして第４図ロに示す如く、マスク
演算テーブルMTが得られる。そして次にこの
マスク演算テーブルMTにおいて、各フレー
ム、すなわちサンプルタイムt₂、t₃−における
測定値に対するマスク演算値が別に設定された
閾値a_thより大きい個数が何個存在するかとい
うことを抽出して、第４図ハに示す如く、変動
テーブルＰを得、このピーク数Piの値（第４図
ハではP₂、P₃、P₄…）をそのフレームでのス
ペクトル変動の度合の強さと定義する。そして
ピーク数にもとづき、第６図に示す如く、その
スペクトル変動の状態を示すピーク数Piの時系
列パラメータを求める。

(3) この第６図に示す、スペクトル変動の状態を
示すピーク数Piの時系列パラメータによりピー
ク ′P₁、 ′P₂、 ′P₃、 ′P₄…を検出して、別
に設けられた閾値Pthより大きいもの（第６図
では ′P₁、 ′P₃、 ′P₄…）を抽出し、これを
後述する入力音声の区切り候補とする。そして
この時点での音声の区分候補は、通常の音素レ
ベルよりも多目に出現するように閾値pthを設
定する。

(4) また最初に入力された入力音声波形にもとづ
き特徴パラメータを求めておく。この特徴パラ
メータとしては、例えば各フレームt₁、t₂…の
パワーや周波数スペクトルが使用できる。そし
てこの周波数スペクトルを使用する場合には、
前記(1)の周波数スペクトルを使用することがで
きる。

(5) 次にこの特徴パラメータの平均値を求める。
いま特徴パラメータとして周波数スペクトルを
使用したときの平均値の求め方を次に説明する
まず上記(3)で求めた入力音声の区切り候補 ′
P₁、 ′P₃、 ′P₄…の時刻t₃、tg、tk…で、第４
図イの周波数スペクトルの時系列パターンを区
切る。そしてこの区切り間を区分時系列と定義
する。すなわち、第４図イにおいて、t₃、tg、
tk…でこれを区分し、各区分内においてそれぞ
れの周波数成分の平均値を求める。すなわち区
分t₃〜tg間では周波数f₁の平均値f₁₀₁を f₁₀₁＝S₃₁＋S₄₁＋…S_g-1

Claims

【特許請求の範囲】

１入力音声信号にもとづき特徴パラメータを抽
出する特徴パラメータ抽出手段と、入力音声信号
にもとづきそのスペクトル分析を行なうスペクト
ル分析手段と、このスペクトルの時間的変化状態
を検出するスペクトル時間変化検出手段と、この
スペクトル時間変化にもとづき前記特徴パラメー
タを区分しこの区分内の特徴パラメータの平均値
を求める平均値作成手段と、この特徴パラメータ
の平均値にもとづきクラスタリングを行なうクラ
スタ手段を設け、入力音声信号に基づき大分類コ
ードを作成するようにしたことを特徴とする単語
音声認識における大分類方式。