JPH087599B2 - 音声認識法 - Google Patents

音声認識法

Info

Publication number
JPH087599B2
JPH087599B2 JP63236912A JP23691288A JPH087599B2 JP H087599 B2 JPH087599 B2 JP H087599B2 JP 63236912 A JP63236912 A JP 63236912A JP 23691288 A JP23691288 A JP 23691288A JP H087599 B2 JPH087599 B2 JP H087599B2
Authority
JP
Japan
Prior art keywords
phoneme
noise
standard pattern
linear prediction
transfer function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63236912A
Other languages
English (en)
Other versions
JPH0283597A (ja
Inventor
利幸 森井
勝行 二矢田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP63236912A priority Critical patent/JPH087599B2/ja
Publication of JPH0283597A publication Critical patent/JPH0283597A/ja
Publication of JPH087599B2 publication Critical patent/JPH087599B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、音声データを認識する装置に用いられる音
声認識法に関するものである。
従来の技術 現在の音声認識システムの機能ブロック図は、第2図
に示す通りである。まず、マイク入力された入力音声信
号6に、LPC分析やフィルター分析などの音響分析をほ
どこし、特徴パラメータを含む音声情報を音響分析部7
で抽出する。次に、セグメンテーション部8において子
音セグメンテーションを行った後、音素判別部9におい
て音素標準パターン格納部10に格納された音素標準パタ
ーンとマッチングを行い、音素を判別して音素系列を作
る。そして、音素系列作成部11において、音形規則格納
部12に格納された音形規則と照し合せて修正をくわえ
て、最終的な音素系列を作成し、この音素系列と単語辞
書格納部13に格納された単語辞書とのマッチングを単語
マッチング部14で行って、類似度の一番大きいものを認
識結果15とする。
ここで、音素判別部の音素マッチングに用いられる不
特定話者・多数語用音素標準パターンは第3図に示す様
に作成される。まず、防音室内でマイク入力された音声
データ16をA/D変換部17においてA/D変換したものを多人
数・多数語について収録して音声データベース18を作
る。次に、音響分析部19で音響分析を行い、特徴パラメ
ータを抽出する。一方、音響分析19で得られるパワー情
報などをもとに、人が目視によってそれぞれのデータに
対して音素のラベリング20を行って、ラベリングデータ
ベース21を作る。そして、標準パターン作成部22におい
て、特徴パラメータとラベリングデータとを用いてLPC
ケプストラム係数を特徴パラメータとした音素標準パタ
ーン23を作成する。
この音声認識システムの実用化に際しては、認識され
る音声が環境から受ける影響を低減する認識アルゴリズ
ムが必要になる。特に、環境ノイズは認識率の低下の最
も大きい要因であり、音響分析におけるノイズ対策は必
須である。従来の環境ノイズ対策は、その環境ノイズを
付加した音素標準パターンを作成して音素認識に用いる
という方法であったが、このノイズ付加音素標準パター
ンは第4図に示す様にして作成される。まず、あらかじ
め音声認識を行なう環境のノイズ24を収録し、A/D変換
部25においてA/D変換を行なってノイズデータベース26
を作成する。次に、第3図において示された音素標準パ
ターン作成において作成され、音声データベース格納部
27に格納されたノイズのないクリーンな音声データベー
スとノイズデータベースとをノイズ混合部28において、
指定された比で混合し、ノイズ付加音声データベース29
を作成する。次に、音響分析部30で音響分析を行い、特
徴パラメータを抽出する。次に、第3図において示され
た音素標準パターン作成において作成され、ラベリング
データベース格納部31に格納されたラベリングデータベ
ースと特徴パラメータとを用いて、標準パターン作成部
32において、LPCケプストラム係数を特徴パラメータと
したノイズ付加音素標準パターン33を作成する。
このノイズ付加音素標準パターンを音素判別に用いる
ことによってノイズに適合した音声認識をおこなうこと
ができるが、ノイズ付加音素標準パターン作成には膨大
な時間と労力とを必要とするので、認識時のノイズ学習
では実現が困難であった。
発明が解決しようとする課題 音声認識システムの実用化に際しては、認識される音
声が環境から受ける影響を低減する認識アルゴリズムが
必要になる。特に、環境ノイズは認識率の低下の最も大
きい要因であり、音響分析におけるノイズ対策は必須で
ある。しかし、環境ノイズは、その環境や時間によって
様々なパワーと周波数成分を持つので、それぞれに対す
る適応が容易でない。また、LPCケプストラム係数を特
徴パラメータとしているため、ノイズ成分の扱いが難し
くなっている。そのため、現在の音素認識における音素
標準パターンの環境ノイズ適合法としては、その環境ノ
イズを付加した音素標準パターンを作成して音素認識に
用いるという方法が認識率向上に最も有効なものであっ
た。
しかし、ノイズ付加音素標準パターンを作成するため
には、その環境ノイズを収録し、それを音声データに付
加したものを他人数・多数語について収集し、その音声
データから音声データベースを作り、その音声データベ
ースから音素標準パターンを作成するという大変労力と
時間のかかるデータ処理を行わなくてはならない。ま
た、いくつかの環境ノイズを付加した音素標準パターン
を格納しておき、認識時にその中から最も適した音素標
準パターンを選択して音素認識に使用するという方法も
考えられるが、ノイズのパワースペクトル上にピークが
ある場合などを含めると、それだけではすべての環境ノ
イズに対して対応することは出来ない。また、実環境で
用いられる音声認識装置に組み込むということを考える
と、認識時の環境ノイズ学習によって音素標準パターン
のノイズ適合を行うことが望ましい。
本発明は、認識時における短時間の環境ノイズ学習に
よって音素標準パターンをその環境ノイズに適合するよ
うに変形し、その音素標準パターンを音素判別部におけ
る音素マッチングに使用することによって、環境ノイズ
に適合した音声認識を行うことによる認識率の向上を目
的とするものである。
課題を解決するための手段 この課題を解決するために、本発明は線型予測係数で
表現される全極型合成モデルの伝達関数の演算による音
素標準パターンのノイズ適合を提案する。
まず、認識時における環境ノイズを短時間収音し、そ
のノイズデータを音響分析して線型予測係数を求める。
次に、音素標準パターンに対する線型予測係数で表現さ
れる全極型合成モデルの伝達関数と、求めたノイズの線
型予測係数で表現される伝達関数とを指定された比で加
え、その結果を全極型合成モデルとして近似することに
よって新たな伝達関数を得、その新たな伝達関数を表現
する疑似線型予測係数から導かれる音素標準パターンを
音素判別に用いることによって、環境ノイズに適合した
音声認識が行なわれ、上記目的が達成される。
作 用 本発明により、様々な性質を持つ環境ノイズに適合し
た音素標準パターンを認識時の短時間のノイズ学習によ
って容易に得ることが出来る。その音素標準パターンを
音素判別部における音素マッチングに使用することによ
って、環境ノイズに適合した音声認識を行うことが出来
る。よって認識率の向上が実現される。
実施例 以下に本発明の実施例を図面を用いて詳細に説明す
る。第1図は、本発明の一実施例における音声認識シス
テムを具体化する、線型予測係数で表現される全極型合
成モデルの伝達関数の演算による音素標準パターンのノ
イズ適合の機能ブロック図である。
各ブロックの説明を以下に述べる。
まず認識時において、環境ノイズ1を短時間入力し、
音響分析部2において音響分析を行ない、線型予測係数
を求める。つぎに、伝達関数演算部3において、音素標
準パターン格納部4に格納された音素標準パターンに対
する線型予測係数で表現される全極型合成モデルの伝達
関数とノイズの線型予測係数で表現される全極型合成モ
デルの伝達関数とを指定された比で加え、その結果を全
極型合成モデルとして近似して新たな伝達関数を得、そ
の新たな伝達関数を表現する疑似線型予測係数から新音
素標準パターン5を導く。そして、この新音素標準パタ
ーンを音声認識システムの音素判別部に用いることによ
り、ノイズに適合した音声認識が実現される。
ここで、上記の伝達関数演算部における処理について
詳細に述べる。
線型予測係数で表現される全極型合成モデルの伝達関
数は下の様な全極型フィルターの形で書かれる。
σ:利得係数 an:線型予測係数 このときのσは、自己相関法による線型予測分析の全
2乗誤差に等しく、スペクトルの側から見ると、モデル
のスペクトルエネルギーとデータのスペクトルエネルギ
ーを整合させるための利得因子となっている。
したがって、入力スペクトルX(ejθ)とモデルスペ
クトルは次式の様な関係がある。
Pw(X(ejθ)≒Pw(σ/A(z)) Pw( ):ある一定時間内における時系列のパワー このことから、音声データにノイズが付加出来る様に
線型予測係数をノイズに適合させることが出来るものと
考えられる。この発想のもとに、音素標準パターンのノ
イズ適合を行なう。
ノイズ付加音声データ作成は下の様に行われている。
X(n):音声信号の時系列 Y(n):ノイズ信号の時系列 d:指定するノイズレベル まず、ある区間について音声データのパワーを求め、
指定されたノイズレベルにあうようにノイズのパワーを
変更して音声データに数値的に加える。
これと同じ手順で音素標準パターンに対応する線型予
測係数で表現される合成モデルの伝達関数を変化させ
る。音素標準パターンはLPCケプストラム係数の平均μ
(i)と共分散行列Cov(i,j)とで構成されており、こ
の平均μ(i)を線形予測係数に変換し、次式により全
極型合成モデル上でノイズを加算する。
σA:標準パターンに対応する利得係数 σB:ノイズから求めた利得係数 A(z):標準パターンに対応する線型予測係数 B(z):ノイズから求めた線型予測係数 ここで、各音素についてdを指定する場合は、 とすると、Pw((z))=Pw((z)) であるから、 式=σA/A(z)+d・PBσA/PAσ・σB/B(z) =σA/PA(1/(z)+d/(z)) を計算する。
また、dを全音声区間について一様に指定する場合
は、 PA=全音声区間の平均パワー PB=全ノイズデータの平均パワー とすると、 を計算する。
伝達関数のたし算の仕方は次の様にして行なわれる。
まず、有理式としてたし算を行う。次に、和の分数式の
分母の式を分子の式で割って、分子が1になる様にす
る。このときの打切り次数は使用する音素標準パターン
が表現されるLPCケプストラム係数の次数を使用する。
(本実施例では、分母の余った分数式は切捨てとす
る。)そして、分母の定数項で分母と分子を割り、分母
の定数項が1になるようにすることによって、この伝達
関数を全極型合成モデルとして近似する。最後に、この
有理式を全極型合成モデルとしたときの分母の係数を疑
似線型予測係数とし、分子を疑似利得定数として、新た
な、LPCケプストラム係数を特徴パラメータとした音素
標準パターンの平均 を導く。本実施例で、上記疑似線型予測係数からLPCケ
プストラム係数を求める方法は、古井貞煕著「ディジタ
ル音声処理」東海大学出版会、1985年9月25日発行p.47
−48に記載された、線型予測係数からLPCケプストラム
係数を求める方法を用いた。LPCケプストラム係数は統
計処理に適しており、これを特徴パラメータとしてマッ
チングを行なうことにより、高い認識率が得られる。
新たな音素標準パターンを構成するLPCケプストラム
係数の平均 と共分散行列ov(i,j)のうちの、平均 は前述の様にして導くが、共分散行列ov(i,j)につ
いては、短時間のノイズ学習でこのノイズ適合を実現す
るために、ノイズの共分散を混入することが出来ない。
しかし、ノイズの混入によって音声の分散が広がると考
えられるので、簡易的に次の様な変形を行う。
μ(i),Cov(i,j):もとの音素標準パターンの平均
と共分散。
このようにして求めた平均、共分散から、統計的距離
尺度の一つであるマハラノビス距離を用いて、入力音声
とのマッチングを以下の式によって行なう。
ov-1(i,j):共分散行列ov(i,j)の逆行列 S(i):入力音声から得られるLPCケプストラム係数 このマッチング計算を、入力音声と全ての音素標準パ
ターンについて行い、距離が最小の標準パターンに対応
する音素が認識結果となる。
ここで、音素判別に、このノイズ適合法で作成される
音素標準パターンを用いた場合の効果を示すために、音
素判別の実験結果について述べる。
(ただし、本実施例において示す音素判別実験結果は、
ノイズレベルを前音声区間について一様に指定する方法
についての実験結果である。)評価条件は次の通りであ
る。評価対象音素群は母音・鼻音と語中子音(音声破裂
無声破裂音/c,p,t,k/、摩擦音/z,s,h/)である。評価対
象話者は男女各10人(計20人)であり、特に語中子音に
ついては、OPENの評価をするために、一人一人の評価に
用いる音素標準パターンをその評価対象話者を除いた19
人で作成する。評価データとして用いるノイズ付加音声
データは、母音・鼻音については「疑似HOTHノイズ(−
6dB/oct)付加音声データ」、語中子音については「展
示会の実環境ノイズ付加音声データ」であり、ノイズレ
ベルは両方ともS/N比で15dBである。また、本発明によ
るノイズ適合のノイズ学習の時間は10秒である。
上記の条件に基づいて、ノイズの入っていないクリー
ンな音素標準パターンに本発明のノイズ適合を適用する
ことによって導かれた新たな音素標準パターンを用いて
評価を行なう。
以下の表は、それぞれの評価音素群の判別結果を表に
したものである。
第1段目がノイズの入っていないクリーンな音素標準
パターンで評価した結果である。第2段目がノイズ付加
音声データから作成した音素標準パターンで評価した結
果である。第3段目が本発明によるノイズ適合により得
られた音素標準パターンで評価した結果である(ただ
し、ノイズレベルの最適値での値である)。母音・鼻音
に関しては音素ごとの認識率を、語中子音に関しては基
準フレームをふらせた場合の認識率を示す。ノイズ付加
音素標準パターンの認識率にはおよばないものの、本発
明によるノイズ適合によって識別率が改善されているこ
とがわかる。1段目と2段目の識別率の差を100%とし
た時、本発明が改善した識別率の割合は、本発明のノイ
ズ適合によって、母音・鼻音が63.0%、語中子音でも有
声破裂音が73.2%〜55.2%、無声破裂音が80.4%〜84.7
%、摩擦音が30.0%〜58.6%改善され、短時間のノイズ
学習でありながらも、大きい効果がある事を示してい
る。
発明の効果 以上の様に本発明は、線型予測係数で表現される全極
型合成モデルの伝達関数の演算により、様々な性質を持
つ環境ノイズに適合した音素標準パターンを認識時の短
時間のノイズ学習によって容易に得ることが出来、その
音素標準パターンを音素判別部における音素マッチング
に使用することによって、環境ノイズに適合した音声認
識を行うことが出来、よって認識率を向上させることが
出来、本発明の効果は大きい。
【図面の簡単な説明】
第1図は、本発明の一実施例における音声認識システム
を具体化する、線型予測係数で表現される合成モデルの
伝達関数の演算による音素標準パターンのノイズ適合の
機能ブロック図、第2図は、従来の音声認識システムの
機能ブロック図、第3図は、従来の音素標準パターン作
成システムの機能ブロック図、第4図は従来のノイズ付
加音素標準パターン作成システムの機能ブロック図であ
る。 1……環境ノイズ、2……音響分析部、3……伝達関数
演算部、4……標準パターン格納部、5……新音素標準
パターン。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】認識時の環境ノイズを音響分析して得られ
    た線型予測係数で表現される全極型合成モデルの伝達関
    数と、標準パターンに対応する線型予測係数で表現され
    る全極型合成モデルの伝達関数とを加え、その結果を全
    極型合成モデルとして近似することによって新たな伝達
    関数を得、その新たな伝達関数を表現する疑似線型予測
    係数から導かれる標準パターンをマッチングに用いるこ
    とによって音声認識を行なうことを特徴とした音声認識
    法。
  2. 【請求項2】音声認識が音素を認識の基本単位としてお
    り、標準パターンが線型予測係数から導かれるLPCケプ
    ストラム係数を特徴パラメータとする音素標準パターン
    であり、またマッチングが音素標準パターンを用いた音
    素マッチングであることを特徴とする請求項1記載の音
    声認識法。
JP63236912A 1988-09-21 1988-09-21 音声認識法 Expired - Lifetime JPH087599B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63236912A JPH087599B2 (ja) 1988-09-21 1988-09-21 音声認識法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63236912A JPH087599B2 (ja) 1988-09-21 1988-09-21 音声認識法

Publications (2)

Publication Number Publication Date
JPH0283597A JPH0283597A (ja) 1990-03-23
JPH087599B2 true JPH087599B2 (ja) 1996-01-29

Family

ID=17007598

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63236912A Expired - Lifetime JPH087599B2 (ja) 1988-09-21 1988-09-21 音声認識法

Country Status (1)

Country Link
JP (1) JPH087599B2 (ja)

Also Published As

Publication number Publication date
JPH0283597A (ja) 1990-03-23

Similar Documents

Publication Publication Date Title
Vergin et al. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
US5459815A (en) Speech recognition method using time-frequency masking mechanism
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
Kumar et al. Spoken language identification using hybrid feature extraction methods
Nanavare et al. Recognition of human emotions from speech processing
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Shanthi Therese et al. Review of feature extraction techniques in automatic speech recognition
Devi et al. Automatic speech emotion and speaker recognition based on hybrid gmm and ffbnn
Revathy et al. Performance comparison of speaker and emotion recognition
Hidayat et al. Speech recognition of KV-patterned Indonesian syllable using MFCC, wavelet and HMM
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Seman et al. An evaluation of endpoint detection measures for malay speech recognition of an isolated words
Kristomo et al. Classification of the syllables sound using wavelet, Renyi entropy and AR-PSD features
JP2658426B2 (ja) 音声認識方法
JPH087599B2 (ja) 音声認識法
Lingam Speaker based language independent isolated speech recognition system
Deiv et al. Automatic gender identification for hindi speech recognition
Lin et al. Consonant/vowel segmentation for Mandarin syllable recognition
Nidhyananthan et al. A framework for multilingual text-independent speaker identification system
Bhattachajee et al. An experimental analysis of speech features for tone speech recognition
JP2692382B2 (ja) 音声認識方法
KR100488121B1 (ko) 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법
Nafisah et al. Mel-frequencies Stochastic Model for Gender Classification based on Pitch and Formant
Patil et al. A novel approach to identification of speakers from their hum

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080129

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090129

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090129

Year of fee payment: 13