JPH0283597A

JPH0283597A - 音声認識法

Info

Publication number: JPH0283597A
Application number: JP63236912A
Authority: JP
Inventors: Toshiyuki Morii; 利幸森井; Katsuyuki Futayada; 二矢田　勝行
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1988-09-21
Filing date: 1988-09-21
Publication date: 1990-03-23
Anticipated expiration: 2011-01-29
Also published as: JPH087599B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、音声データを認識する装置に用いられる音声
認識法に関するものである。

従来の技術現在の音声認識システムの・機能ブロック図は、第２図
に示す通りである。まず、マイク入力された入力音声信
号６に、ＬＰＣ分析やフィルター分析などの音響分析を
ほどこし、特徴パラメータを含む音声情報を音響分析部
７で抽出する。次に、セグメンテーション部８において
子音セグメンテーションを行った後、音素判別部９にお
いて音素標準パターン格納部１０に格納された音素標準
パターンとマツチングを行い、音素を判別して音素系列
を作る。そして、音素系列作成部１１において、金形規
則格納部１２に格納された金形規則と照し合せて修正を
くわえて、最終的な音素系列を作成し、この音素系列と
単語辞書格納部１３に格納された単語辞書とのマツチン
グを単語マツチング部１４で行って、類似度の一番犬き
いものを認識結果１５とする０ここで、音素判別部の音素マツチングに用いられる不特
定話者・多数語用音素標準パターンは第３図に示す様に
作成される。まず、防音室内でマイク入力された音声デ
ータ１６をＡ／Ｄ変換部１７においてＡ／Ｄ変換したも
のを多人数・多数語について収録して音声データベース
１８を作る。次に、音響分析部１９で音響分析を行い、
特徴パラメータを抽出する。一方、音響分析部１９で得
られるパワー情報などをもとに、人が目視によってそれ
ぞれのデータに対して音素のラベリング２０を行って、
ラベリングデータベース２１を作る。そして、標準パタ
ーン作成部２２において、特徴パラメータとラベリング
データとを用いてＬＰＣケプストラム係数を特徴パラメ
ータとした音素標準パターン２３を作成する。

この音声認識システムの実用化に際しては、認識される
音声が環境から受ける影響を低減する認識アルゴリズム
が必要になる。特に、環境ノイズは認識率の低下の最も
大きい要因であシ、音響分析におけるノイズ対策は必須
である。従来の環境ノイズ対策は、その環境ノイズを付
加した音素標準パターンを作成して音素認識に用いると
いう方法であったが、このノイズ付加音素標準パターン
は第４図に示す様にして作成される。まず、あらかじめ
音声認識を行なう環境のノイズ２４を収録し、Ａ／Ｄ変
換部２５においてＡ／Ｄ変換を行なってノイズデータベ
ース２６を作成する。次に、第３図において示された音
素標準パターン作成において作成され、音声データベー
ス格納部２７に格納されたノイズのないクリーンな音声
データベースとノイズデータベースとをノイズ混合部２
８において、指定された比で混合し、ノイズ付加音声デ
ータベース２９を作成する。次に、音響分析部３０で音
響分析を行い、特徴パラメータを抽出する。次に、第３
図において示された音素標準パターン作成において作成
され、ラベリングデータベース格納部３１に格納された
ラベリングデータベースと特徴パラメータとを用いて、
標準パターン作成部３２において、ＬＰＣケプストラム
係数を特徴パラメータとじたノイズ付加音素標準パター
ン３３を作成する。

このノイズ付加音素標準パターンを音素判別に用いるこ
とによってノイズに適合した音声認識をおこなうことが
できるが、ノイズ付加音素標準パターン作成には膨大な
時間と労力とを必要とするので、認識時のノイズ学習で
は実現が困難であった。

発明が解決しようとする課題音声認識システムの実用化に際しては、認識される音声
が環境から受ける影響を低減する認識アルゴリズムが必
要になる。特に、環境ノイズは認識率の低下の最も大き
い要因であり、音響分析におけるノイズ対策は必須であ
る。しかし、環境ノイズは、その環境や時間によって様
々なパワーと周波数成分を持つので、それぞれに対する
適応が容易でない。また、ＬＰＣケプストラム係数を特
徴パラメータとしているため、ノイズ成分の扱いが難し
くなっている。そのため、現在の音素認識における音素
標準パターンの環境ノイズ適合法としては、その環境ノ
イズを付加した音素標準パターンを作成して音素認識に
用いるという方法が認識率向上に最も有効なものであっ
た。

しかし、ノイズ付加音素標準パターンを作成するために
は、その環境ノイズを収録し、それを音声データに付加
したものを多人数・多数語について収集し、その音声デ
ータから音声データベースを作シ、その音声データベー
スから音素標準パターンを作成するという大変労力と時
間のかかるデータ処理を行わなくてはならない。また、
いくつかの環境ノイズを付加した音素標準パターンを格
納しておき、認識時にその中から最も適した音素標準パ
ターンを選択して音素認識に使用するという方法も考え
られるが、ノイズのパワースペクトル上にピークがある
場合などを含めると、それだけではすべての環境ノイズ
に対して対応することは出来ない。また、実環境で用い
られる音声認識装置に組み込むということを考えると、
認識時の環境ノイズ学習によって音素標準パターンのノ
イズ適合を行うことが望ましい。

本発明は、認識時における短時間の環境ノイズ学習によ
って音素標準パターンをその環境ノイズに適合するよう
に変形し、その音素標準パターンを音素判別部における
音素マツチングに使用することによって、環境ノイズに
適合した音声認識を行うことによる認識率の向上を目的
とするものである。

課題を解決するだめの手段この課題を解決するために、本発明は線型予測係数で表
現される全極型合成モデルの伝達関数の演算による音素
標準パターンのノイズ適合を提案する。

まず、認識時における環境ノイズを短時間収音し、その
ノイズデータを音響分析して線型予測係数を求める９次
に、音素標準パターンに対する線型予測係数で表現され
る全極型合成モデルの伝達関数と、求めたノイズの線型
予測係数で表現される伝達関数とを指定された比で加え
、その結果を全極型合成モデルとして近似することによ
って新たな伝達関数を得、その新たな伝達関数を表現す
る疑似線型予測係数から導かれる音素標準パターンを音
素判別に用いることによって、環境ノイズに適合した音
声認識が行なわれ、上記目的が達成される。

作用本発明により、様々な性質を持つ環境ノイズに適合した
音素標準パターンを認識時の短時間のノイズ学習によっ
て容易に得ることが出来る。その音素標準パターンを音
素判別部における音素マツチングに使用することによっ
て、環境ノイズに適合した音声認識を行うことが出来る
。よって認識率の向上が実現される。

実施例以下に本発明の実施例を図面を用いて詳細に説明する。

第１図は、本発明の一実施例における音声認識システム
を具体化する、線型予測係数で表現される全極型合成モ
デルの伝達関数の演算による音素標準パターンのノイズ
適合の機能ブロック図である。

各ブロックの説明を以下に述べる。

まず認識時において、環境ノイズ１を短時間入力し、音
響分析部２において音響分析を行ない、線型予測係数を
求める。つぎに、伝達関数演算部３において、音素標準
パターン格納部４に格納された音素標準パターンに対す
る線型予測係数で表現される全極型合成モデルの伝達関
数とノイズの線型予測係数で表現される全極型合成モデ
ルの伝達関数とを指定された比で加え、その結果を全極
型合成モデルとして近似して新たな伝達関数を得、その
新たな伝達関数を表現する疑似線型予測係数から新音素
標準パターン５を導く。そして、この新音素標準パター
ンを音声認識システムの音素判別部に用いることにより
、ノイズに適合した音声認識が実現される。

ここで、上記の伝達関数演算部における処理について詳
細に述べる。

線型予測係数で表現される全極型合成モデルの伝達関数
は下の様な全極型フィルターの形で書かれる。

σ／ＡＣＺ）＝ａ／　（１＋Σａ、Ｚ”）σ：利得係数ａｎ：線型予測係数このときのσは、自己相関法による線型予測分析の全２
乗誤差に等しく、スペクトルの側から見ると、モデルの
スペクトルエネルギーとデータのスペクトルエネルギー
を整合させるだめの利得因子となっている。

したがって、入カスベクトルＸ（ｅｊθ）とモデルスペ
クトルは次式の様な関係がある。

Ｐｗ　（Ｘ　（ｅｊθ）　）　＃Ｐｗ　（’／Ａ（ｚ）
）Ｐｗ　（）ある一定時間内における時系列のパワーこ
のことから、音声データにノイズが付加出来る様に線型
予測係数をノイズに適合させることが出来るものと考え
られる。この発想のもとに、音素標準パターンのノイズ
適合を行なう。

ノイズ付加音声データ作成は下の様に行われている。

Ｘ（ｎ）＋ｄｌＩｗ　　　ｎ　　　Ｐｗ　　Ｙｎ　　−
Ｙ（ｎ）Ｘ（ｎ）：音声信号の時系列Ｙ（ｎ）：ノイズ信号の時系列ｄ：指定するノイズレベルまず、ある区間について音声データのパワーを求め、指
定されたノイズレベルにあうようにノイズのパワーを変
更して音声データに数値的に加える０これと同じ手順で音素標準パターンに対する線型予測係
数で表現される合成モデルの伝達関数を変化させる。

（ＦＡ／Ａ（Ｚ）＋　ｄ−ＰＷ　　（７Ａ／Ａ　　　／
ＰＷ　（ｆｆｎ／Ｂ（ｚ））・σＢ　／　Ｂ　（ｚ）＝
■ σＡ：標準パターンに対応する利得係数σＢ：ノイズか
ら求めた利得係数Ａ（ｚ）：標準パターンに対応する線型予測係数Ｂ（ｚ
）：ノイズから求めた線型予測係数ここで、各音素につ
いてｄを指定する場合は、ＰＡ＝ＡＩ丁ａＴ　　　ＰＢ
　＝　Ｊ　１＋Σｂ７△ Ａ（ｚ）＝　Ａ（Ｚ）／　ＰＡ　　　　　Ｂ　（ｚ）＝
　Ｂ　（ｚ）／　ＰＢとすると、Ｐｗ　（ＩＫ（ｚ））
　＝Ｐｗ　（Ｂ（ｚ））であるから、 ■式＝σＡ　／　Ａ（ｚ）＋　ｄ−ＰＢσＡ／ＰＡ１７
Ｂ・σＢ　／　Ｂ　（ｚ）＝　σｈ　／　ＰＡ　　（１
／　Ａ（Ｚ）＋　ｄ　／　Ｂ（ｚ））を計算する。

また、ｄを全音声区間について一様に指定する場合は、ＰＡ＝全音声区間の平均パワーＰＢ＝全ノイズデータの平均パワーとすると、 ■式＝　（ＦＡ　／Ａ　（ｚ）　＋　５６Ｂ／　Ｂ　（
ｚ）を計算する。

伝達関数のたし算の仕方は次の様にして行なわれる。ま
ず、有理式としてたし算を行う。次に、和の分数式の分
母の式を分子の式で割って、分子が１になる様にする。

このときの打切り次数は使用する音素標準パターンが表
現されるＬＰＣクプストラム係数の次数を使用する。（
本実施例では、分母の余った分数式は切捨てとする。）
そして、分母の定数項で分母と分子を割シ、分母の定数
項が１になるようにすることによって、この伝達関数を
全極型合成モデルとして近似する。最後に、この有理式
を全極型合成モデルとしたときの分母の係数を疑似線型
予測係数とし、分子を疑似利得定数として、新たな、Ｌ
ＰＣケプストラム係数を特徴パラメータとした音素標準
パターンを導く。

音素標準パターンを構成するＬＰＣケプストラム係数の
平均は前述の様にして導くが、共分散行列については、
短時間のノイズ学習でこのノイズ適合を実現するために
、ノイズの共分散を混入することが出来ない。しかし、
ノイズの混入によって音声の分散が広がると考えられる
ので、簡易的に次の様な変形を行う。

ｅｏｖ　（ｉ、　ｊ）　＝Ｃｏｖ　（ｉ、　ｊ）　＋（
Ｃ（ｉ）　ｕ（ｉ））（μ（ｊ）−μ（ｊ））バｉ）、　Ｃｏｖ　（ｉ＋　ｊ）　　：もとの音素標準
パターンの平均と共分散。

△ μ（ｉ）：前述の様にして作成された平均。

ここで、音素判別に、このノイズ適合法で作成される音
素標準パターンを用いた場合の効果を示すために、音素
判別の実験結果について述べる。

（ただし、本実施例において示す音素判別実験結果は、
ノイズレベルを前音声区間について一様に指定する方法
についての実験結果である。）評価条件は次の通りであ
る。評価対象音素群は母音・鼻音と語中子音（音声破裂
音／Ｍ、　Ｎ、　＊、　Ｂ、　Ｄ。

Ｒ，Ｚ／、無声破裂音／Ｃ，Ｐ、　Ｔ、　Ｋ／、摩擦音
／Ｚ、　Ｓ、　Ｈ／）である。評価対象話者は男女各１
０人（計２０人）であり、特に語中子音については、０
ＰＥＮの評価をするために、−人一人の評価に用いる音
素標準パターンをその評価対象話者を除いた１９人で作
成する。評価データとして用いるノイズ付加音声データ
は、母音・鼻音については「疑似ＨＯＴＨノイズ（−６
ｄＢ１０　ｃ　ｔ　）付加音声データ」、語中子音につ
いては「展示会の実環境ノイズ付加音声データ」であり
、ノイズレベルは両方ともＳ／Ｎ比で１５ｄＢである。

また、本発明によるノイズ適合のノイズ学習の時間は１
０秒である。

上記の条件に基づいて、ノイズの入っていないクリーン
な音素標準パターンに本発明のノイズ適合を適用するこ
とによって導かれた新たな音素標準パターンを用いて評
価を行なう。

以下の表は、それぞれの評価音素群の判別結果を表にし
たものである。

以下余白第１段目がノイズの入っていないクリーンな音素標準パ
ターンで評価した結果である。第２段目がノイズ付加音
声データから作成した音素標準パターンで評価した結果
である。第３段目が本発明によるノイズ適合により得ら
れた音素標準パターンで評価した結果である（ただし、
ノイズレベルの最適値での値である）。母音・鼻音に関
しては音素ごとの認識率を、語中子音に関しては基準フ
レームをふらせた場合の認識率を示す。ノイズ付加音素
標準パターンの認識率にはおよばないものの、本発明に
よるノイズ適合によって識別率が改善されていることが
わかる。１段目と２段目の識別率の差を１００％とした
時、本発明が改善した識別率の割合は、本発明のノイズ
適合によって、母音・鼻音が６３０％、語中子音でも有
声破裂音が７３．２　％〜５５．２チ、無声破裂音が８
０．４％〜８４．７％、摩擦音が３０．０％〜５８．６
　％改善され、短時間のノイズ学習でありながらも、大
きい効果がある事を示している。

発明の効果以上の様に本発明は、線型予測係数で表現される全極型
合成モデルの伝達関数の演算により、様々な性質を持つ
環境ノイズに適合した音素標準パターンを認識時の短時
間のノイズ学習によって容易に得ることが出来、その音
素標準パターンを音素判別部における音素マツチングに
使用することによって、環境ノイズに適合した音声認識
を行うことが出来、よって認識率を向上させることが出
来、本発明の効果は大きい。

【図面の簡単な説明】

第１図は、本発明の一実施例における音声認識システム
を具体化する、線型予測係数で表現される合成モデルの
伝達関数の演算による音素標準パターンのノイズ適合の
機能ブロック図、第２図は、従来の音声認識システムの
機能ブロック図、第３図は、従来の音素標準パターン作
成システムの機能ブロック図、第４図は従来のノイズ付
加音素標準パターン作成システムの機能ブロック図であ
る。１・・・環境ノイズ、２・・・音響分析部、３・・・伝
達関数演算部、４・・・標準パターン格納部、５・・・
新音素標準パターン。

Claims

【特許請求の範囲】

（１）認識時の環境ノイズを音響分析して得られた線型
予測係数で表現される全極型合成モデルの伝達関数と、
標準パターンに対応する線型予測係数で表現される全極
型合成モデルの伝達関数とを加え、その結果を全極型合
成モデルとして近似することによって新たな伝達関数を
得、その新たな伝達関数を表現する疑似線型予測係数か
ら導かれる標準パターンをマッチングに用いることによ
って音声認識を行なうことを特徴とした音声認識法。
（２）音声認識が音素を認識の基本単位としており、標
準パターンが線型予測係数から導かれるＬＰＣケプスト
ラム係数を特徴パラメータとする音素標準パターンであ
り、またマッチングが音素標準パターンを用いた音素マ
ッチングであることを特徴とする請求項１記載の音声認
識法。