JPH087599B2

JPH087599B2 - 音声認識法

Info

Publication number: JPH087599B2
Application number: JP63236912A
Authority: JP
Inventors: 利幸森井; 勝行二矢田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1988-09-21
Filing date: 1988-09-21
Publication date: 1996-01-29
Anticipated expiration: 2011-01-29
Also published as: JPH0283597A

Description

【発明の詳細な説明】産業上の利用分野本発明は、音声データを認識する装置に用いられる音
声認識法に関するものである。

従来の技術現在の音声認識システムの機能ブロック図は、第２図
に示す通りである。まず、マイク入力された入力音声信
号６に、LPC分析やフィルター分析などの音響分析をほ
どこし、特徴パラメータを含む音声情報を音響分析部７
で抽出する。次に、セグメンテーション部８において子
音セグメンテーションを行った後、音素判別部９におい
て音素標準パターン格納部10に格納された音素標準パタ
ーンとマッチングを行い、音素を判別して音素系列を作
る。そして、音素系列作成部11において、音形規則格納
部12に格納された音形規則と照し合せて修正をくわえ
て、最終的な音素系列を作成し、この音素系列と単語辞
書格納部13に格納された単語辞書とのマッチングを単語
マッチング部14で行って、類似度の一番大きいものを認
識結果15とする。

ここで、音素判別部の音素マッチングに用いられる不
特定話者・多数語用音素標準パターンは第３図に示す様
に作成される。まず、防音室内でマイク入力された音声
データ16をA/D変換部17においてA/D変換したものを多人
数・多数語について収録して音声データベース18を作
る。次に、音響分析部19で音響分析を行い、特徴パラメ
ータを抽出する。一方、音響分析19で得られるパワー情
報などをもとに、人が目視によってそれぞれのデータに
対して音素のラベリング20を行って、ラベリングデータ
ベース21を作る。そして、標準パターン作成部22におい
て、特徴パラメータとラベリングデータとを用いてLPC
ケプストラム係数を特徴パラメータとした音素標準パタ
ーン23を作成する。

この音声認識システムの実用化に際しては、認識され
る音声が環境から受ける影響を低減する認識アルゴリズ
ムが必要になる。特に、環境ノイズは認識率の低下の最
も大きい要因であり、音響分析におけるノイズ対策は必
須である。従来の環境ノイズ対策は、その環境ノイズを
付加した音素標準パターンを作成して音素認識に用いる
という方法であったが、このノイズ付加音素標準パター
ンは第４図に示す様にして作成される。まず、あらかじ
め音声認識を行なう環境のノイズ24を収録し、A/D変換
部25においてA/D変換を行なってノイズデータベース26
を作成する。次に、第３図において示された音素標準パ
ターン作成において作成され、音声データベース格納部
27に格納されたノイズのないクリーンな音声データベー
スとノイズデータベースとをノイズ混合部28において、
指定された比で混合し、ノイズ付加音声データベース29
を作成する。次に、音響分析部30で音響分析を行い、特
徴パラメータを抽出する。次に、第３図において示され
た音素標準パターン作成において作成され、ラベリング
データベース格納部31に格納されたラベリングデータベ
ースと特徴パラメータとを用いて、標準パターン作成部
32において、LPCケプストラム係数を特徴パラメータと
したノイズ付加音素標準パターン33を作成する。

このノイズ付加音素標準パターンを音素判別に用いる
ことによってノイズに適合した音声認識をおこなうこと
ができるが、ノイズ付加音素標準パターン作成には膨大
な時間と労力とを必要とするので、認識時のノイズ学習
では実現が困難であった。

発明が解決しようとする課題音声認識システムの実用化に際しては、認識される音
声が環境から受ける影響を低減する認識アルゴリズムが
必要になる。特に、環境ノイズは認識率の低下の最も大
きい要因であり、音響分析におけるノイズ対策は必須で
ある。しかし、環境ノイズは、その環境や時間によって
様々なパワーと周波数成分を持つので、それぞれに対す
る適応が容易でない。また、LPCケプストラム係数を特
徴パラメータとしているため、ノイズ成分の扱いが難し
くなっている。そのため、現在の音素認識における音素
標準パターンの環境ノイズ適合法としては、その環境ノ
イズを付加した音素標準パターンを作成して音素認識に
用いるという方法が認識率向上に最も有効なものであっ
た。

しかし、ノイズ付加音素標準パターンを作成するため
には、その環境ノイズを収録し、それを音声データに付
加したものを他人数・多数語について収集し、その音声
データから音声データベースを作り、その音声データベ
ースから音素標準パターンを作成するという大変労力と
時間のかかるデータ処理を行わなくてはならない。ま
た、いくつかの環境ノイズを付加した音素標準パターン
を格納しておき、認識時にその中から最も適した音素標
準パターンを選択して音素認識に使用するという方法も
考えられるが、ノイズのパワースペクトル上にピークが
ある場合などを含めると、それだけではすべての環境ノ
イズに対して対応することは出来ない。また、実環境で
用いられる音声認識装置に組み込むということを考える
と、認識時の環境ノイズ学習によって音素標準パターン
のノイズ適合を行うことが望ましい。

本発明は、認識時における短時間の環境ノイズ学習に
よって音素標準パターンをその環境ノイズに適合するよ
うに変形し、その音素標準パターンを音素判別部におけ
る音素マッチングに使用することによって、環境ノイズ
に適合した音声認識を行うことによる認識率の向上を目
的とするものである。

課題を解決するための手段この課題を解決するために、本発明は線型予測係数で
表現される全極型合成モデルの伝達関数の演算による音
素標準パターンのノイズ適合を提案する。

まず、認識時における環境ノイズを短時間収音し、そ
のノイズデータを音響分析して線型予測係数を求める。
次に、音素標準パターンに対する線型予測係数で表現さ
れる全極型合成モデルの伝達関数と、求めたノイズの線
型予測係数で表現される伝達関数とを指定された比で加
え、その結果を全極型合成モデルとして近似することに
よって新たな伝達関数を得、その新たな伝達関数を表現
する疑似線型予測係数から導かれる音素標準パターンを
音素判別に用いることによって、環境ノイズに適合した
音声認識が行なわれ、上記目的が達成される。

作用本発明により、様々な性質を持つ環境ノイズに適合し
た音素標準パターンを認識時の短時間のノイズ学習によ
って容易に得ることが出来る。その音素標準パターンを
音素判別部における音素マッチングに使用することによ
って、環境ノイズに適合した音声認識を行うことが出来
る。よって認識率の向上が実現される。

実施例以下に本発明の実施例を図面を用いて詳細に説明す
る。第１図は、本発明の一実施例における音声認識シス
テムを具体化する、線型予測係数で表現される全極型合
成モデルの伝達関数の演算による音素標準パターンのノ
イズ適合の機能ブロック図である。

各ブロックの説明を以下に述べる。

まず認識時において、環境ノイズ１を短時間入力し、
音響分析部２において音響分析を行ない、線型予測係数
を求める。つぎに、伝達関数演算部３において、音素標
準パターン格納部４に格納された音素標準パターンに対
する線型予測係数で表現される全極型合成モデルの伝達
関数とノイズの線型予測係数で表現される全極型合成モ
デルの伝達関数とを指定された比で加え、その結果を全
極型合成モデルとして近似して新たな伝達関数を得、そ
の新たな伝達関数を表現する疑似線型予測係数から新音
素標準パターン５を導く。そして、この新音素標準パタ
ーンを音声認識システムの音素判別部に用いることによ
り、ノイズに適合した音声認識が実現される。

ここで、上記の伝達関数演算部における処理について
詳細に述べる。

線型予測係数で表現される全極型合成モデルの伝達関
数は下の様な全極型フィルターの形で書かれる。

σ：利得係数 a_n:線型予測係数このときのσは、自己相関法による線型予測分析の全
２乗誤差に等しく、スペクトルの側から見ると、モデル
のスペクトルエネルギーとデータのスペクトルエネルギ
ーを整合させるための利得因子となっている。

したがって、入力スペクトルＸ（ejθ）とモデルスペ
クトルは次式の様な関係がある。

Pw（Ｘ（ejθ）≒Pw（σ/A（ｚ）） Pw（）：ある一定時間内における時系列のパワーこのことから、音声データにノイズが付加出来る様に
線型予測係数をノイズに適合させることが出来るものと
考えられる。この発想のもとに、音素標準パターンのノ
イズ適合を行なう。

ノイズ付加音声データ作成は下の様に行われている。

Ｘ（ｎ）：音声信号の時系列Ｙ（ｎ）：ノイズ信号の時系列 d:指定するノイズレベルまず、ある区間について音声データのパワーを求め、
指定されたノイズレベルにあうようにノイズのパワーを
変更して音声データに数値的に加える。

これと同じ手順で音素標準パターンに対応する線型予
測係数で表現される合成モデルの伝達関数を変化させ
る。音素標準パターンはLPCケプストラム係数の平均μ
（ｉ）と共分散行列Cov（i,j）とで構成されており、こ
の平均μ（ｉ）を線形予測係数に変換し、次式により全
極型合成モデル上でノイズを加算する。

σ_A:標準パターンに対応する利得係数 σ_B:ノイズから求めた利得係数Ａ（ｚ）：標準パターンに対応する線型予測係数Ｂ（ｚ）：ノイズから求めた線型予測係数ここで、各音素についてｄを指定する場合は、とすると、Pw（（ｚ））＝Pw（（ｚ））であるから、式＝σ_A/A（ｚ）＋ｄ・P_Bσ_A/P_Aσ_Ｂ・σ_B/B（ｚ）＝σ_A/P_A（1/（ｚ）＋d/（ｚ））を計算する。

また、ｄを全音声区間について一様に指定する場合
は、 P_A＝全音声区間の平均パワー P_B＝全ノイズデータの平均パワーとすると、を計算する。

伝達関数のたし算の仕方は次の様にして行なわれる。
まず、有理式としてたし算を行う。次に、和の分数式の
分母の式を分子の式で割って、分子が１になる様にす
る。このときの打切り次数は使用する音素標準パターン
が表現されるLPCケプストラム係数の次数を使用する。
（本実施例では、分母の余った分数式は切捨てとす
る。）そして、分母の定数項で分母と分子を割り、分母
の定数項が１になるようにすることによって、この伝達
関数を全極型合成モデルとして近似する。最後に、この
有理式を全極型合成モデルとしたときの分母の係数を疑
似線型予測係数とし、分子を疑似利得定数として、新た
な、LPCケプストラム係数を特徴パラメータとした音素
標準パターンの平均を導く。本実施例で、上記疑似線型予測係数からLPCケ
プストラム係数を求める方法は、古井貞煕著「ディジタ
ル音声処理」東海大学出版会、1985年９月25日発行p.47
−48に記載された、線型予測係数からLPCケプストラム
係数を求める方法を用いた。LPCケプストラム係数は統
計処理に適しており、これを特徴パラメータとしてマッ
チングを行なうことにより、高い認識率が得られる。

新たな音素標準パターンを構成するLPCケプストラム
係数の平均と共分散行列ov（i,j）のうちの、平均は前述の様にして導くが、共分散行列ov（i,j）につ
いては、短時間のノイズ学習でこのノイズ適合を実現す
るために、ノイズの共分散を混入することが出来ない。
しかし、ノイズの混入によって音声の分散が広がると考
えられるので、簡易的に次の様な変形を行う。

μ（ｉ）,Cov（i,j）：もとの音素標準パターンの平均
と共分散。

このようにして求めた平均、共分散から、統計的距離
尺度の一つであるマハラノビス距離を用いて、入力音声
とのマッチングを以下の式によって行なう。

ov^-1（i,j）：共分散行列ov（i,j）の逆行列Ｓ（ｉ）：入力音声から得られるLPCケプストラム係数このマッチング計算を、入力音声と全ての音素標準パ
ターンについて行い、距離が最小の標準パターンに対応
する音素が認識結果となる。

ここで、音素判別に、このノイズ適合法で作成される
音素標準パターンを用いた場合の効果を示すために、音
素判別の実験結果について述べる。

（ただし、本実施例において示す音素判別実験結果は、
ノイズレベルを前音声区間について一様に指定する方法
についての実験結果である。）評価条件は次の通りであ
る。評価対象音素群は母音・鼻音と語中子音（音声破裂
音無声破裂音/c,p,t,k/、摩擦音/z,s,h/）である。評価対
象話者は男女各10人（計20人）であり、特に語中子音に
ついては、OPENの評価をするために、一人一人の評価に
用いる音素標準パターンをその評価対象話者を除いた19
人で作成する。評価データとして用いるノイズ付加音声
データは、母音・鼻音については「疑似HOTHノイズ（−
6dB/oct）付加音声データ」、語中子音については「展
示会の実環境ノイズ付加音声データ」であり、ノイズレ
ベルは両方ともS/N比で15dBである。また、本発明によ
るノイズ適合のノイズ学習の時間は10秒である。

上記の条件に基づいて、ノイズの入っていないクリー
ンな音素標準パターンに本発明のノイズ適合を適用する
ことによって導かれた新たな音素標準パターンを用いて
評価を行なう。

以下の表は、それぞれの評価音素群の判別結果を表に
したものである。

第１段目がノイズの入っていないクリーンな音素標準
パターンで評価した結果である。第２段目がノイズ付加
音声データから作成した音素標準パターンで評価した結
果である。第３段目が本発明によるノイズ適合により得
られた音素標準パターンで評価した結果である（ただ
し、ノイズレベルの最適値での値である）。母音・鼻音
に関しては音素ごとの認識率を、語中子音に関しては基
準フレームをふらせた場合の認識率を示す。ノイズ付加
音素標準パターンの認識率にはおよばないものの、本発
明によるノイズ適合によって識別率が改善されているこ
とがわかる。１段目と２段目の識別率の差を100％とし
た時、本発明が改善した識別率の割合は、本発明のノイ
ズ適合によって、母音・鼻音が63.0％、語中子音でも有
声破裂音が73.2％〜55.2％、無声破裂音が80.4％〜84.7
％、摩擦音が30.0％〜58.6％改善され、短時間のノイズ
学習でありながらも、大きい効果がある事を示してい
る。

発明の効果以上の様に本発明は、線型予測係数で表現される全極
型合成モデルの伝達関数の演算により、様々な性質を持
つ環境ノイズに適合した音素標準パターンを認識時の短
時間のノイズ学習によって容易に得ることが出来、その
音素標準パターンを音素判別部における音素マッチング
に使用することによって、環境ノイズに適合した音声認
識を行うことが出来、よって認識率を向上させることが
出来、本発明の効果は大きい。

【図面の簡単な説明】

第１図は、本発明の一実施例における音声認識システム
を具体化する、線型予測係数で表現される合成モデルの
伝達関数の演算による音素標準パターンのノイズ適合の
機能ブロック図、第２図は、従来の音声認識システムの
機能ブロック図、第３図は、従来の音素標準パターン作
成システムの機能ブロック図、第４図は従来のノイズ付
加音素標準パターン作成システムの機能ブロック図であ
る。１……環境ノイズ、２……音響分析部、３……伝達関数
演算部、４……標準パターン格納部、５……新音素標準
パターン。

Claims

【特許請求の範囲】

【請求項１】認識時の環境ノイズを音響分析して得られ
た線型予測係数で表現される全極型合成モデルの伝達関
数と、標準パターンに対応する線型予測係数で表現され
る全極型合成モデルの伝達関数とを加え、その結果を全
極型合成モデルとして近似することによって新たな伝達
関数を得、その新たな伝達関数を表現する疑似線型予測
係数から導かれる標準パターンをマッチングに用いるこ
とによって音声認識を行なうことを特徴とした音声認識
法。
【請求項２】音声認識が音素を認識の基本単位としてお
り、標準パターンが線型予測係数から導かれるLPCケプ
ストラム係数を特徴パラメータとする音素標準パターン
であり、またマッチングが音素標準パターンを用いた音
素マッチングであることを特徴とする請求項１記載の音
声認識法。