JPH087599B2 - 音声認識法 - Google Patents
音声認識法Info
- Publication number
- JPH087599B2 JPH087599B2 JP63236912A JP23691288A JPH087599B2 JP H087599 B2 JPH087599 B2 JP H087599B2 JP 63236912 A JP63236912 A JP 63236912A JP 23691288 A JP23691288 A JP 23691288A JP H087599 B2 JPH087599 B2 JP H087599B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- noise
- standard pattern
- linear prediction
- transfer function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 15
- 230000007613 environmental effect Effects 0.000 claims description 22
- 238000012546 transfer Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 description 18
- 230000006978 adaptation Effects 0.000 description 12
- 238000011156 evaluation Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Description
【発明の詳細な説明】 産業上の利用分野 本発明は、音声データを認識する装置に用いられる音
声認識法に関するものである。
声認識法に関するものである。
従来の技術 現在の音声認識システムの機能ブロック図は、第2図
に示す通りである。まず、マイク入力された入力音声信
号6に、LPC分析やフィルター分析などの音響分析をほ
どこし、特徴パラメータを含む音声情報を音響分析部7
で抽出する。次に、セグメンテーション部8において子
音セグメンテーションを行った後、音素判別部9におい
て音素標準パターン格納部10に格納された音素標準パタ
ーンとマッチングを行い、音素を判別して音素系列を作
る。そして、音素系列作成部11において、音形規則格納
部12に格納された音形規則と照し合せて修正をくわえ
て、最終的な音素系列を作成し、この音素系列と単語辞
書格納部13に格納された単語辞書とのマッチングを単語
マッチング部14で行って、類似度の一番大きいものを認
識結果15とする。
に示す通りである。まず、マイク入力された入力音声信
号6に、LPC分析やフィルター分析などの音響分析をほ
どこし、特徴パラメータを含む音声情報を音響分析部7
で抽出する。次に、セグメンテーション部8において子
音セグメンテーションを行った後、音素判別部9におい
て音素標準パターン格納部10に格納された音素標準パタ
ーンとマッチングを行い、音素を判別して音素系列を作
る。そして、音素系列作成部11において、音形規則格納
部12に格納された音形規則と照し合せて修正をくわえ
て、最終的な音素系列を作成し、この音素系列と単語辞
書格納部13に格納された単語辞書とのマッチングを単語
マッチング部14で行って、類似度の一番大きいものを認
識結果15とする。
ここで、音素判別部の音素マッチングに用いられる不
特定話者・多数語用音素標準パターンは第3図に示す様
に作成される。まず、防音室内でマイク入力された音声
データ16をA/D変換部17においてA/D変換したものを多人
数・多数語について収録して音声データベース18を作
る。次に、音響分析部19で音響分析を行い、特徴パラメ
ータを抽出する。一方、音響分析19で得られるパワー情
報などをもとに、人が目視によってそれぞれのデータに
対して音素のラベリング20を行って、ラベリングデータ
ベース21を作る。そして、標準パターン作成部22におい
て、特徴パラメータとラベリングデータとを用いてLPC
ケプストラム係数を特徴パラメータとした音素標準パタ
ーン23を作成する。
特定話者・多数語用音素標準パターンは第3図に示す様
に作成される。まず、防音室内でマイク入力された音声
データ16をA/D変換部17においてA/D変換したものを多人
数・多数語について収録して音声データベース18を作
る。次に、音響分析部19で音響分析を行い、特徴パラメ
ータを抽出する。一方、音響分析19で得られるパワー情
報などをもとに、人が目視によってそれぞれのデータに
対して音素のラベリング20を行って、ラベリングデータ
ベース21を作る。そして、標準パターン作成部22におい
て、特徴パラメータとラベリングデータとを用いてLPC
ケプストラム係数を特徴パラメータとした音素標準パタ
ーン23を作成する。
この音声認識システムの実用化に際しては、認識され
る音声が環境から受ける影響を低減する認識アルゴリズ
ムが必要になる。特に、環境ノイズは認識率の低下の最
も大きい要因であり、音響分析におけるノイズ対策は必
須である。従来の環境ノイズ対策は、その環境ノイズを
付加した音素標準パターンを作成して音素認識に用いる
という方法であったが、このノイズ付加音素標準パター
ンは第4図に示す様にして作成される。まず、あらかじ
め音声認識を行なう環境のノイズ24を収録し、A/D変換
部25においてA/D変換を行なってノイズデータベース26
を作成する。次に、第3図において示された音素標準パ
ターン作成において作成され、音声データベース格納部
27に格納されたノイズのないクリーンな音声データベー
スとノイズデータベースとをノイズ混合部28において、
指定された比で混合し、ノイズ付加音声データベース29
を作成する。次に、音響分析部30で音響分析を行い、特
徴パラメータを抽出する。次に、第3図において示され
た音素標準パターン作成において作成され、ラベリング
データベース格納部31に格納されたラベリングデータベ
ースと特徴パラメータとを用いて、標準パターン作成部
32において、LPCケプストラム係数を特徴パラメータと
したノイズ付加音素標準パターン33を作成する。
る音声が環境から受ける影響を低減する認識アルゴリズ
ムが必要になる。特に、環境ノイズは認識率の低下の最
も大きい要因であり、音響分析におけるノイズ対策は必
須である。従来の環境ノイズ対策は、その環境ノイズを
付加した音素標準パターンを作成して音素認識に用いる
という方法であったが、このノイズ付加音素標準パター
ンは第4図に示す様にして作成される。まず、あらかじ
め音声認識を行なう環境のノイズ24を収録し、A/D変換
部25においてA/D変換を行なってノイズデータベース26
を作成する。次に、第3図において示された音素標準パ
ターン作成において作成され、音声データベース格納部
27に格納されたノイズのないクリーンな音声データベー
スとノイズデータベースとをノイズ混合部28において、
指定された比で混合し、ノイズ付加音声データベース29
を作成する。次に、音響分析部30で音響分析を行い、特
徴パラメータを抽出する。次に、第3図において示され
た音素標準パターン作成において作成され、ラベリング
データベース格納部31に格納されたラベリングデータベ
ースと特徴パラメータとを用いて、標準パターン作成部
32において、LPCケプストラム係数を特徴パラメータと
したノイズ付加音素標準パターン33を作成する。
このノイズ付加音素標準パターンを音素判別に用いる
ことによってノイズに適合した音声認識をおこなうこと
ができるが、ノイズ付加音素標準パターン作成には膨大
な時間と労力とを必要とするので、認識時のノイズ学習
では実現が困難であった。
ことによってノイズに適合した音声認識をおこなうこと
ができるが、ノイズ付加音素標準パターン作成には膨大
な時間と労力とを必要とするので、認識時のノイズ学習
では実現が困難であった。
発明が解決しようとする課題 音声認識システムの実用化に際しては、認識される音
声が環境から受ける影響を低減する認識アルゴリズムが
必要になる。特に、環境ノイズは認識率の低下の最も大
きい要因であり、音響分析におけるノイズ対策は必須で
ある。しかし、環境ノイズは、その環境や時間によって
様々なパワーと周波数成分を持つので、それぞれに対す
る適応が容易でない。また、LPCケプストラム係数を特
徴パラメータとしているため、ノイズ成分の扱いが難し
くなっている。そのため、現在の音素認識における音素
標準パターンの環境ノイズ適合法としては、その環境ノ
イズを付加した音素標準パターンを作成して音素認識に
用いるという方法が認識率向上に最も有効なものであっ
た。
声が環境から受ける影響を低減する認識アルゴリズムが
必要になる。特に、環境ノイズは認識率の低下の最も大
きい要因であり、音響分析におけるノイズ対策は必須で
ある。しかし、環境ノイズは、その環境や時間によって
様々なパワーと周波数成分を持つので、それぞれに対す
る適応が容易でない。また、LPCケプストラム係数を特
徴パラメータとしているため、ノイズ成分の扱いが難し
くなっている。そのため、現在の音素認識における音素
標準パターンの環境ノイズ適合法としては、その環境ノ
イズを付加した音素標準パターンを作成して音素認識に
用いるという方法が認識率向上に最も有効なものであっ
た。
しかし、ノイズ付加音素標準パターンを作成するため
には、その環境ノイズを収録し、それを音声データに付
加したものを他人数・多数語について収集し、その音声
データから音声データベースを作り、その音声データベ
ースから音素標準パターンを作成するという大変労力と
時間のかかるデータ処理を行わなくてはならない。ま
た、いくつかの環境ノイズを付加した音素標準パターン
を格納しておき、認識時にその中から最も適した音素標
準パターンを選択して音素認識に使用するという方法も
考えられるが、ノイズのパワースペクトル上にピークが
ある場合などを含めると、それだけではすべての環境ノ
イズに対して対応することは出来ない。また、実環境で
用いられる音声認識装置に組み込むということを考える
と、認識時の環境ノイズ学習によって音素標準パターン
のノイズ適合を行うことが望ましい。
には、その環境ノイズを収録し、それを音声データに付
加したものを他人数・多数語について収集し、その音声
データから音声データベースを作り、その音声データベ
ースから音素標準パターンを作成するという大変労力と
時間のかかるデータ処理を行わなくてはならない。ま
た、いくつかの環境ノイズを付加した音素標準パターン
を格納しておき、認識時にその中から最も適した音素標
準パターンを選択して音素認識に使用するという方法も
考えられるが、ノイズのパワースペクトル上にピークが
ある場合などを含めると、それだけではすべての環境ノ
イズに対して対応することは出来ない。また、実環境で
用いられる音声認識装置に組み込むということを考える
と、認識時の環境ノイズ学習によって音素標準パターン
のノイズ適合を行うことが望ましい。
本発明は、認識時における短時間の環境ノイズ学習に
よって音素標準パターンをその環境ノイズに適合するよ
うに変形し、その音素標準パターンを音素判別部におけ
る音素マッチングに使用することによって、環境ノイズ
に適合した音声認識を行うことによる認識率の向上を目
的とするものである。
よって音素標準パターンをその環境ノイズに適合するよ
うに変形し、その音素標準パターンを音素判別部におけ
る音素マッチングに使用することによって、環境ノイズ
に適合した音声認識を行うことによる認識率の向上を目
的とするものである。
課題を解決するための手段 この課題を解決するために、本発明は線型予測係数で
表現される全極型合成モデルの伝達関数の演算による音
素標準パターンのノイズ適合を提案する。
表現される全極型合成モデルの伝達関数の演算による音
素標準パターンのノイズ適合を提案する。
まず、認識時における環境ノイズを短時間収音し、そ
のノイズデータを音響分析して線型予測係数を求める。
次に、音素標準パターンに対する線型予測係数で表現さ
れる全極型合成モデルの伝達関数と、求めたノイズの線
型予測係数で表現される伝達関数とを指定された比で加
え、その結果を全極型合成モデルとして近似することに
よって新たな伝達関数を得、その新たな伝達関数を表現
する疑似線型予測係数から導かれる音素標準パターンを
音素判別に用いることによって、環境ノイズに適合した
音声認識が行なわれ、上記目的が達成される。
のノイズデータを音響分析して線型予測係数を求める。
次に、音素標準パターンに対する線型予測係数で表現さ
れる全極型合成モデルの伝達関数と、求めたノイズの線
型予測係数で表現される伝達関数とを指定された比で加
え、その結果を全極型合成モデルとして近似することに
よって新たな伝達関数を得、その新たな伝達関数を表現
する疑似線型予測係数から導かれる音素標準パターンを
音素判別に用いることによって、環境ノイズに適合した
音声認識が行なわれ、上記目的が達成される。
作 用 本発明により、様々な性質を持つ環境ノイズに適合し
た音素標準パターンを認識時の短時間のノイズ学習によ
って容易に得ることが出来る。その音素標準パターンを
音素判別部における音素マッチングに使用することによ
って、環境ノイズに適合した音声認識を行うことが出来
る。よって認識率の向上が実現される。
た音素標準パターンを認識時の短時間のノイズ学習によ
って容易に得ることが出来る。その音素標準パターンを
音素判別部における音素マッチングに使用することによ
って、環境ノイズに適合した音声認識を行うことが出来
る。よって認識率の向上が実現される。
実施例 以下に本発明の実施例を図面を用いて詳細に説明す
る。第1図は、本発明の一実施例における音声認識シス
テムを具体化する、線型予測係数で表現される全極型合
成モデルの伝達関数の演算による音素標準パターンのノ
イズ適合の機能ブロック図である。
る。第1図は、本発明の一実施例における音声認識シス
テムを具体化する、線型予測係数で表現される全極型合
成モデルの伝達関数の演算による音素標準パターンのノ
イズ適合の機能ブロック図である。
各ブロックの説明を以下に述べる。
まず認識時において、環境ノイズ1を短時間入力し、
音響分析部2において音響分析を行ない、線型予測係数
を求める。つぎに、伝達関数演算部3において、音素標
準パターン格納部4に格納された音素標準パターンに対
する線型予測係数で表現される全極型合成モデルの伝達
関数とノイズの線型予測係数で表現される全極型合成モ
デルの伝達関数とを指定された比で加え、その結果を全
極型合成モデルとして近似して新たな伝達関数を得、そ
の新たな伝達関数を表現する疑似線型予測係数から新音
素標準パターン5を導く。そして、この新音素標準パタ
ーンを音声認識システムの音素判別部に用いることによ
り、ノイズに適合した音声認識が実現される。
音響分析部2において音響分析を行ない、線型予測係数
を求める。つぎに、伝達関数演算部3において、音素標
準パターン格納部4に格納された音素標準パターンに対
する線型予測係数で表現される全極型合成モデルの伝達
関数とノイズの線型予測係数で表現される全極型合成モ
デルの伝達関数とを指定された比で加え、その結果を全
極型合成モデルとして近似して新たな伝達関数を得、そ
の新たな伝達関数を表現する疑似線型予測係数から新音
素標準パターン5を導く。そして、この新音素標準パタ
ーンを音声認識システムの音素判別部に用いることによ
り、ノイズに適合した音声認識が実現される。
ここで、上記の伝達関数演算部における処理について
詳細に述べる。
詳細に述べる。
線型予測係数で表現される全極型合成モデルの伝達関
数は下の様な全極型フィルターの形で書かれる。
数は下の様な全極型フィルターの形で書かれる。
σ:利得係数 an:線型予測係数 このときのσは、自己相関法による線型予測分析の全
2乗誤差に等しく、スペクトルの側から見ると、モデル
のスペクトルエネルギーとデータのスペクトルエネルギ
ーを整合させるための利得因子となっている。
2乗誤差に等しく、スペクトルの側から見ると、モデル
のスペクトルエネルギーとデータのスペクトルエネルギ
ーを整合させるための利得因子となっている。
したがって、入力スペクトルX(ejθ)とモデルスペ
クトルは次式の様な関係がある。
クトルは次式の様な関係がある。
Pw(X(ejθ)≒Pw(σ/A(z)) Pw( ):ある一定時間内における時系列のパワー このことから、音声データにノイズが付加出来る様に
線型予測係数をノイズに適合させることが出来るものと
考えられる。この発想のもとに、音素標準パターンのノ
イズ適合を行なう。
線型予測係数をノイズに適合させることが出来るものと
考えられる。この発想のもとに、音素標準パターンのノ
イズ適合を行なう。
ノイズ付加音声データ作成は下の様に行われている。
X(n):音声信号の時系列 Y(n):ノイズ信号の時系列 d:指定するノイズレベル まず、ある区間について音声データのパワーを求め、
指定されたノイズレベルにあうようにノイズのパワーを
変更して音声データに数値的に加える。
指定されたノイズレベルにあうようにノイズのパワーを
変更して音声データに数値的に加える。
これと同じ手順で音素標準パターンに対応する線型予
測係数で表現される合成モデルの伝達関数を変化させ
る。音素標準パターンはLPCケプストラム係数の平均μ
(i)と共分散行列Cov(i,j)とで構成されており、こ
の平均μ(i)を線形予測係数に変換し、次式により全
極型合成モデル上でノイズを加算する。
測係数で表現される合成モデルの伝達関数を変化させ
る。音素標準パターンはLPCケプストラム係数の平均μ
(i)と共分散行列Cov(i,j)とで構成されており、こ
の平均μ(i)を線形予測係数に変換し、次式により全
極型合成モデル上でノイズを加算する。
σA:標準パターンに対応する利得係数 σB:ノイズから求めた利得係数 A(z):標準パターンに対応する線型予測係数 B(z):ノイズから求めた線型予測係数 ここで、各音素についてdを指定する場合は、 とすると、Pw((z))=Pw((z)) であるから、 式=σA/A(z)+d・PBσA/PAσB・σB/B(z) =σA/PA(1/(z)+d/(z)) を計算する。
また、dを全音声区間について一様に指定する場合
は、 PA=全音声区間の平均パワー PB=全ノイズデータの平均パワー とすると、 を計算する。
は、 PA=全音声区間の平均パワー PB=全ノイズデータの平均パワー とすると、 を計算する。
伝達関数のたし算の仕方は次の様にして行なわれる。
まず、有理式としてたし算を行う。次に、和の分数式の
分母の式を分子の式で割って、分子が1になる様にす
る。このときの打切り次数は使用する音素標準パターン
が表現されるLPCケプストラム係数の次数を使用する。
(本実施例では、分母の余った分数式は切捨てとす
る。)そして、分母の定数項で分母と分子を割り、分母
の定数項が1になるようにすることによって、この伝達
関数を全極型合成モデルとして近似する。最後に、この
有理式を全極型合成モデルとしたときの分母の係数を疑
似線型予測係数とし、分子を疑似利得定数として、新た
な、LPCケプストラム係数を特徴パラメータとした音素
標準パターンの平均 を導く。本実施例で、上記疑似線型予測係数からLPCケ
プストラム係数を求める方法は、古井貞煕著「ディジタ
ル音声処理」東海大学出版会、1985年9月25日発行p.47
−48に記載された、線型予測係数からLPCケプストラム
係数を求める方法を用いた。LPCケプストラム係数は統
計処理に適しており、これを特徴パラメータとしてマッ
チングを行なうことにより、高い認識率が得られる。
まず、有理式としてたし算を行う。次に、和の分数式の
分母の式を分子の式で割って、分子が1になる様にす
る。このときの打切り次数は使用する音素標準パターン
が表現されるLPCケプストラム係数の次数を使用する。
(本実施例では、分母の余った分数式は切捨てとす
る。)そして、分母の定数項で分母と分子を割り、分母
の定数項が1になるようにすることによって、この伝達
関数を全極型合成モデルとして近似する。最後に、この
有理式を全極型合成モデルとしたときの分母の係数を疑
似線型予測係数とし、分子を疑似利得定数として、新た
な、LPCケプストラム係数を特徴パラメータとした音素
標準パターンの平均 を導く。本実施例で、上記疑似線型予測係数からLPCケ
プストラム係数を求める方法は、古井貞煕著「ディジタ
ル音声処理」東海大学出版会、1985年9月25日発行p.47
−48に記載された、線型予測係数からLPCケプストラム
係数を求める方法を用いた。LPCケプストラム係数は統
計処理に適しており、これを特徴パラメータとしてマッ
チングを行なうことにより、高い認識率が得られる。
新たな音素標準パターンを構成するLPCケプストラム
係数の平均 と共分散行列ov(i,j)のうちの、平均 は前述の様にして導くが、共分散行列ov(i,j)につ
いては、短時間のノイズ学習でこのノイズ適合を実現す
るために、ノイズの共分散を混入することが出来ない。
しかし、ノイズの混入によって音声の分散が広がると考
えられるので、簡易的に次の様な変形を行う。
係数の平均 と共分散行列ov(i,j)のうちの、平均 は前述の様にして導くが、共分散行列ov(i,j)につ
いては、短時間のノイズ学習でこのノイズ適合を実現す
るために、ノイズの共分散を混入することが出来ない。
しかし、ノイズの混入によって音声の分散が広がると考
えられるので、簡易的に次の様な変形を行う。
μ(i),Cov(i,j):もとの音素標準パターンの平均
と共分散。
と共分散。
このようにして求めた平均、共分散から、統計的距離
尺度の一つであるマハラノビス距離を用いて、入力音声
とのマッチングを以下の式によって行なう。
尺度の一つであるマハラノビス距離を用いて、入力音声
とのマッチングを以下の式によって行なう。
ov-1(i,j):共分散行列ov(i,j)の逆行列 S(i):入力音声から得られるLPCケプストラム係数 このマッチング計算を、入力音声と全ての音素標準パ
ターンについて行い、距離が最小の標準パターンに対応
する音素が認識結果となる。
ターンについて行い、距離が最小の標準パターンに対応
する音素が認識結果となる。
ここで、音素判別に、このノイズ適合法で作成される
音素標準パターンを用いた場合の効果を示すために、音
素判別の実験結果について述べる。
音素標準パターンを用いた場合の効果を示すために、音
素判別の実験結果について述べる。
(ただし、本実施例において示す音素判別実験結果は、
ノイズレベルを前音声区間について一様に指定する方法
についての実験結果である。)評価条件は次の通りであ
る。評価対象音素群は母音・鼻音と語中子音(音声破裂
音 無声破裂音/c,p,t,k/、摩擦音/z,s,h/)である。評価対
象話者は男女各10人(計20人)であり、特に語中子音に
ついては、OPENの評価をするために、一人一人の評価に
用いる音素標準パターンをその評価対象話者を除いた19
人で作成する。評価データとして用いるノイズ付加音声
データは、母音・鼻音については「疑似HOTHノイズ(−
6dB/oct)付加音声データ」、語中子音については「展
示会の実環境ノイズ付加音声データ」であり、ノイズレ
ベルは両方ともS/N比で15dBである。また、本発明によ
るノイズ適合のノイズ学習の時間は10秒である。
ノイズレベルを前音声区間について一様に指定する方法
についての実験結果である。)評価条件は次の通りであ
る。評価対象音素群は母音・鼻音と語中子音(音声破裂
音 無声破裂音/c,p,t,k/、摩擦音/z,s,h/)である。評価対
象話者は男女各10人(計20人)であり、特に語中子音に
ついては、OPENの評価をするために、一人一人の評価に
用いる音素標準パターンをその評価対象話者を除いた19
人で作成する。評価データとして用いるノイズ付加音声
データは、母音・鼻音については「疑似HOTHノイズ(−
6dB/oct)付加音声データ」、語中子音については「展
示会の実環境ノイズ付加音声データ」であり、ノイズレ
ベルは両方ともS/N比で15dBである。また、本発明によ
るノイズ適合のノイズ学習の時間は10秒である。
上記の条件に基づいて、ノイズの入っていないクリー
ンな音素標準パターンに本発明のノイズ適合を適用する
ことによって導かれた新たな音素標準パターンを用いて
評価を行なう。
ンな音素標準パターンに本発明のノイズ適合を適用する
ことによって導かれた新たな音素標準パターンを用いて
評価を行なう。
以下の表は、それぞれの評価音素群の判別結果を表に
したものである。
したものである。
第1段目がノイズの入っていないクリーンな音素標準
パターンで評価した結果である。第2段目がノイズ付加
音声データから作成した音素標準パターンで評価した結
果である。第3段目が本発明によるノイズ適合により得
られた音素標準パターンで評価した結果である(ただ
し、ノイズレベルの最適値での値である)。母音・鼻音
に関しては音素ごとの認識率を、語中子音に関しては基
準フレームをふらせた場合の認識率を示す。ノイズ付加
音素標準パターンの認識率にはおよばないものの、本発
明によるノイズ適合によって識別率が改善されているこ
とがわかる。1段目と2段目の識別率の差を100%とし
た時、本発明が改善した識別率の割合は、本発明のノイ
ズ適合によって、母音・鼻音が63.0%、語中子音でも有
声破裂音が73.2%〜55.2%、無声破裂音が80.4%〜84.7
%、摩擦音が30.0%〜58.6%改善され、短時間のノイズ
学習でありながらも、大きい効果がある事を示してい
る。
パターンで評価した結果である。第2段目がノイズ付加
音声データから作成した音素標準パターンで評価した結
果である。第3段目が本発明によるノイズ適合により得
られた音素標準パターンで評価した結果である(ただ
し、ノイズレベルの最適値での値である)。母音・鼻音
に関しては音素ごとの認識率を、語中子音に関しては基
準フレームをふらせた場合の認識率を示す。ノイズ付加
音素標準パターンの認識率にはおよばないものの、本発
明によるノイズ適合によって識別率が改善されているこ
とがわかる。1段目と2段目の識別率の差を100%とし
た時、本発明が改善した識別率の割合は、本発明のノイ
ズ適合によって、母音・鼻音が63.0%、語中子音でも有
声破裂音が73.2%〜55.2%、無声破裂音が80.4%〜84.7
%、摩擦音が30.0%〜58.6%改善され、短時間のノイズ
学習でありながらも、大きい効果がある事を示してい
る。
発明の効果 以上の様に本発明は、線型予測係数で表現される全極
型合成モデルの伝達関数の演算により、様々な性質を持
つ環境ノイズに適合した音素標準パターンを認識時の短
時間のノイズ学習によって容易に得ることが出来、その
音素標準パターンを音素判別部における音素マッチング
に使用することによって、環境ノイズに適合した音声認
識を行うことが出来、よって認識率を向上させることが
出来、本発明の効果は大きい。
型合成モデルの伝達関数の演算により、様々な性質を持
つ環境ノイズに適合した音素標準パターンを認識時の短
時間のノイズ学習によって容易に得ることが出来、その
音素標準パターンを音素判別部における音素マッチング
に使用することによって、環境ノイズに適合した音声認
識を行うことが出来、よって認識率を向上させることが
出来、本発明の効果は大きい。
第1図は、本発明の一実施例における音声認識システム
を具体化する、線型予測係数で表現される合成モデルの
伝達関数の演算による音素標準パターンのノイズ適合の
機能ブロック図、第2図は、従来の音声認識システムの
機能ブロック図、第3図は、従来の音素標準パターン作
成システムの機能ブロック図、第4図は従来のノイズ付
加音素標準パターン作成システムの機能ブロック図であ
る。 1……環境ノイズ、2……音響分析部、3……伝達関数
演算部、4……標準パターン格納部、5……新音素標準
パターン。
を具体化する、線型予測係数で表現される合成モデルの
伝達関数の演算による音素標準パターンのノイズ適合の
機能ブロック図、第2図は、従来の音声認識システムの
機能ブロック図、第3図は、従来の音素標準パターン作
成システムの機能ブロック図、第4図は従来のノイズ付
加音素標準パターン作成システムの機能ブロック図であ
る。 1……環境ノイズ、2……音響分析部、3……伝達関数
演算部、4……標準パターン格納部、5……新音素標準
パターン。
Claims (2)
- 【請求項1】認識時の環境ノイズを音響分析して得られ
た線型予測係数で表現される全極型合成モデルの伝達関
数と、標準パターンに対応する線型予測係数で表現され
る全極型合成モデルの伝達関数とを加え、その結果を全
極型合成モデルとして近似することによって新たな伝達
関数を得、その新たな伝達関数を表現する疑似線型予測
係数から導かれる標準パターンをマッチングに用いるこ
とによって音声認識を行なうことを特徴とした音声認識
法。 - 【請求項2】音声認識が音素を認識の基本単位としてお
り、標準パターンが線型予測係数から導かれるLPCケプ
ストラム係数を特徴パラメータとする音素標準パターン
であり、またマッチングが音素標準パターンを用いた音
素マッチングであることを特徴とする請求項1記載の音
声認識法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63236912A JPH087599B2 (ja) | 1988-09-21 | 1988-09-21 | 音声認識法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63236912A JPH087599B2 (ja) | 1988-09-21 | 1988-09-21 | 音声認識法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0283597A JPH0283597A (ja) | 1990-03-23 |
| JPH087599B2 true JPH087599B2 (ja) | 1996-01-29 |
Family
ID=17007598
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63236912A Expired - Lifetime JPH087599B2 (ja) | 1988-09-21 | 1988-09-21 | 音声認識法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH087599B2 (ja) |
-
1988
- 1988-09-21 JP JP63236912A patent/JPH087599B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0283597A (ja) | 1990-03-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Vergin et al. | Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition | |
| Shrawankar et al. | Techniques for feature extraction in speech recognition system: A comparative study | |
| US5459815A (en) | Speech recognition method using time-frequency masking mechanism | |
| US20010010039A1 (en) | Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector | |
| Kumar et al. | Spoken language identification using hybrid feature extraction methods | |
| Nanavare et al. | Recognition of human emotions from speech processing | |
| Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
| Shanthi Therese et al. | Review of feature extraction techniques in automatic speech recognition | |
| Devi et al. | Automatic speech emotion and speaker recognition based on hybrid gmm and ffbnn | |
| Revathy et al. | Performance comparison of speaker and emotion recognition | |
| Hidayat et al. | Speech recognition of KV-patterned Indonesian syllable using MFCC, wavelet and HMM | |
| Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
| Seman et al. | An evaluation of endpoint detection measures for malay speech recognition of an isolated words | |
| Kristomo et al. | Classification of the syllables sound using wavelet, Renyi entropy and AR-PSD features | |
| JP2658426B2 (ja) | 音声認識方法 | |
| JPH087599B2 (ja) | 音声認識法 | |
| Lingam | Speaker based language independent isolated speech recognition system | |
| Deiv et al. | Automatic gender identification for hindi speech recognition | |
| Lin et al. | Consonant/vowel segmentation for Mandarin syllable recognition | |
| Nidhyananthan et al. | A framework for multilingual text-independent speaker identification system | |
| Bhattachajee et al. | An experimental analysis of speech features for tone speech recognition | |
| JP2692382B2 (ja) | 音声認識方法 | |
| KR100488121B1 (ko) | 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법 | |
| Nafisah et al. | Mel-frequencies Stochastic Model for Gender Classification based on Pitch and Formant | |
| Patil et al. | A novel approach to identification of speakers from their hum |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080129 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090129 Year of fee payment: 13 |
|
| EXPY | Cancellation because of completion of term | ||
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090129 Year of fee payment: 13 |