JPH0283597A - 音声認識法 - Google Patents
音声認識法Info
- Publication number
- JPH0283597A JPH0283597A JP63236912A JP23691288A JPH0283597A JP H0283597 A JPH0283597 A JP H0283597A JP 63236912 A JP63236912 A JP 63236912A JP 23691288 A JP23691288 A JP 23691288A JP H0283597 A JPH0283597 A JP H0283597A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- noise
- standard pattern
- speech recognition
- transfer function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は、音声データを認識する装置に用いられる音声
認識法に関するものである。
認識法に関するものである。
従来の技術
現在の音声認識システムの・機能ブロック図は、第2図
に示す通りである。まず、マイク入力された入力音声信
号6に、LPC分析やフィルター分析などの音響分析を
ほどこし、特徴パラメータを含む音声情報を音響分析部
7で抽出する。次に、セグメンテーション部8において
子音セグメンテーションを行った後、音素判別部9にお
いて音素標準パターン格納部10に格納された音素標準
パターンとマツチングを行い、音素を判別して音素系列
を作る。そして、音素系列作成部11において、金形規
則格納部12に格納された金形規則と照し合せて修正を
くわえて、最終的な音素系列を作成し、この音素系列と
単語辞書格納部13に格納された単語辞書とのマツチン
グを単語マツチング部14で行って、類似度の一番犬き
いものを認識結果15とする0 ここで、音素判別部の音素マツチングに用いられる不特
定話者・多数語用音素標準パターンは第3図に示す様に
作成される。まず、防音室内でマイク入力された音声デ
ータ16をA/D変換部17においてA/D変換したも
のを多人数・多数語について収録して音声データベース
18を作る。次に、音響分析部19で音響分析を行い、
特徴パラメータを抽出する。一方、音響分析部19で得
られるパワー情報などをもとに、人が目視によってそれ
ぞれのデータに対して音素のラベリング20を行って、
ラベリングデータベース21を作る。そして、標準パタ
ーン作成部22において、特徴パラメータとラベリング
データとを用いてLPCケプストラム係数を特徴パラメ
ータとした音素標準パターン23を作成する。
に示す通りである。まず、マイク入力された入力音声信
号6に、LPC分析やフィルター分析などの音響分析を
ほどこし、特徴パラメータを含む音声情報を音響分析部
7で抽出する。次に、セグメンテーション部8において
子音セグメンテーションを行った後、音素判別部9にお
いて音素標準パターン格納部10に格納された音素標準
パターンとマツチングを行い、音素を判別して音素系列
を作る。そして、音素系列作成部11において、金形規
則格納部12に格納された金形規則と照し合せて修正を
くわえて、最終的な音素系列を作成し、この音素系列と
単語辞書格納部13に格納された単語辞書とのマツチン
グを単語マツチング部14で行って、類似度の一番犬き
いものを認識結果15とする0 ここで、音素判別部の音素マツチングに用いられる不特
定話者・多数語用音素標準パターンは第3図に示す様に
作成される。まず、防音室内でマイク入力された音声デ
ータ16をA/D変換部17においてA/D変換したも
のを多人数・多数語について収録して音声データベース
18を作る。次に、音響分析部19で音響分析を行い、
特徴パラメータを抽出する。一方、音響分析部19で得
られるパワー情報などをもとに、人が目視によってそれ
ぞれのデータに対して音素のラベリング20を行って、
ラベリングデータベース21を作る。そして、標準パタ
ーン作成部22において、特徴パラメータとラベリング
データとを用いてLPCケプストラム係数を特徴パラメ
ータとした音素標準パターン23を作成する。
この音声認識システムの実用化に際しては、認識される
音声が環境から受ける影響を低減する認識アルゴリズム
が必要になる。特に、環境ノイズは認識率の低下の最も
大きい要因であシ、音響分析におけるノイズ対策は必須
である。従来の環境ノイズ対策は、その環境ノイズを付
加した音素標準パターンを作成して音素認識に用いると
いう方法であったが、このノイズ付加音素標準パターン
は第4図に示す様にして作成される。まず、あらかじめ
音声認識を行なう環境のノイズ24を収録し、A/D変
換部25においてA/D変換を行なってノイズデータベ
ース26を作成する。次に、第3図において示された音
素標準パターン作成において作成され、音声データベー
ス格納部27に格納されたノイズのないクリーンな音声
データベースとノイズデータベースとをノイズ混合部2
8において、指定された比で混合し、ノイズ付加音声デ
ータベース29を作成する。次に、音響分析部30で音
響分析を行い、特徴パラメータを抽出する。次に、第3
図において示された音素標準パターン作成において作成
され、ラベリングデータベース格納部31に格納された
ラベリングデータベースと特徴パラメータとを用いて、
標準パターン作成部32において、LPCケプストラム
係数を特徴パラメータとじたノイズ付加音素標準パター
ン33を作成する。
音声が環境から受ける影響を低減する認識アルゴリズム
が必要になる。特に、環境ノイズは認識率の低下の最も
大きい要因であシ、音響分析におけるノイズ対策は必須
である。従来の環境ノイズ対策は、その環境ノイズを付
加した音素標準パターンを作成して音素認識に用いると
いう方法であったが、このノイズ付加音素標準パターン
は第4図に示す様にして作成される。まず、あらかじめ
音声認識を行なう環境のノイズ24を収録し、A/D変
換部25においてA/D変換を行なってノイズデータベ
ース26を作成する。次に、第3図において示された音
素標準パターン作成において作成され、音声データベー
ス格納部27に格納されたノイズのないクリーンな音声
データベースとノイズデータベースとをノイズ混合部2
8において、指定された比で混合し、ノイズ付加音声デ
ータベース29を作成する。次に、音響分析部30で音
響分析を行い、特徴パラメータを抽出する。次に、第3
図において示された音素標準パターン作成において作成
され、ラベリングデータベース格納部31に格納された
ラベリングデータベースと特徴パラメータとを用いて、
標準パターン作成部32において、LPCケプストラム
係数を特徴パラメータとじたノイズ付加音素標準パター
ン33を作成する。
このノイズ付加音素標準パターンを音素判別に用いるこ
とによってノイズに適合した音声認識をおこなうことが
できるが、ノイズ付加音素標準パターン作成には膨大な
時間と労力とを必要とするので、認識時のノイズ学習で
は実現が困難であった。
とによってノイズに適合した音声認識をおこなうことが
できるが、ノイズ付加音素標準パターン作成には膨大な
時間と労力とを必要とするので、認識時のノイズ学習で
は実現が困難であった。
発明が解決しようとする課題
音声認識システムの実用化に際しては、認識される音声
が環境から受ける影響を低減する認識アルゴリズムが必
要になる。特に、環境ノイズは認識率の低下の最も大き
い要因であり、音響分析におけるノイズ対策は必須であ
る。しかし、環境ノイズは、その環境や時間によって様
々なパワーと周波数成分を持つので、それぞれに対する
適応が容易でない。また、LPCケプストラム係数を特
徴パラメータとしているため、ノイズ成分の扱いが難し
くなっている。そのため、現在の音素認識における音素
標準パターンの環境ノイズ適合法としては、その環境ノ
イズを付加した音素標準パターンを作成して音素認識に
用いるという方法が認識率向上に最も有効なものであっ
た。
が環境から受ける影響を低減する認識アルゴリズムが必
要になる。特に、環境ノイズは認識率の低下の最も大き
い要因であり、音響分析におけるノイズ対策は必須であ
る。しかし、環境ノイズは、その環境や時間によって様
々なパワーと周波数成分を持つので、それぞれに対する
適応が容易でない。また、LPCケプストラム係数を特
徴パラメータとしているため、ノイズ成分の扱いが難し
くなっている。そのため、現在の音素認識における音素
標準パターンの環境ノイズ適合法としては、その環境ノ
イズを付加した音素標準パターンを作成して音素認識に
用いるという方法が認識率向上に最も有効なものであっ
た。
しかし、ノイズ付加音素標準パターンを作成するために
は、その環境ノイズを収録し、それを音声データに付加
したものを多人数・多数語について収集し、その音声デ
ータから音声データベースを作シ、その音声データベー
スから音素標準パターンを作成するという大変労力と時
間のかかるデータ処理を行わなくてはならない。また、
いくつかの環境ノイズを付加した音素標準パターンを格
納しておき、認識時にその中から最も適した音素標準パ
ターンを選択して音素認識に使用するという方法も考え
られるが、ノイズのパワースペクトル上にピークがある
場合などを含めると、それだけではすべての環境ノイズ
に対して対応することは出来ない。また、実環境で用い
られる音声認識装置に組み込むということを考えると、
認識時の環境ノイズ学習によって音素標準パターンのノ
イズ適合を行うことが望ましい。
は、その環境ノイズを収録し、それを音声データに付加
したものを多人数・多数語について収集し、その音声デ
ータから音声データベースを作シ、その音声データベー
スから音素標準パターンを作成するという大変労力と時
間のかかるデータ処理を行わなくてはならない。また、
いくつかの環境ノイズを付加した音素標準パターンを格
納しておき、認識時にその中から最も適した音素標準パ
ターンを選択して音素認識に使用するという方法も考え
られるが、ノイズのパワースペクトル上にピークがある
場合などを含めると、それだけではすべての環境ノイズ
に対して対応することは出来ない。また、実環境で用い
られる音声認識装置に組み込むということを考えると、
認識時の環境ノイズ学習によって音素標準パターンのノ
イズ適合を行うことが望ましい。
本発明は、認識時における短時間の環境ノイズ学習によ
って音素標準パターンをその環境ノイズに適合するよう
に変形し、その音素標準パターンを音素判別部における
音素マツチングに使用することによって、環境ノイズに
適合した音声認識を行うことによる認識率の向上を目的
とするものである。
って音素標準パターンをその環境ノイズに適合するよう
に変形し、その音素標準パターンを音素判別部における
音素マツチングに使用することによって、環境ノイズに
適合した音声認識を行うことによる認識率の向上を目的
とするものである。
課題を解決するだめの手段
この課題を解決するために、本発明は線型予測係数で表
現される全極型合成モデルの伝達関数の演算による音素
標準パターンのノイズ適合を提案する。
現される全極型合成モデルの伝達関数の演算による音素
標準パターンのノイズ適合を提案する。
まず、認識時における環境ノイズを短時間収音し、その
ノイズデータを音響分析して線型予測係数を求める9次
に、音素標準パターンに対する線型予測係数で表現され
る全極型合成モデルの伝達関数と、求めたノイズの線型
予測係数で表現される伝達関数とを指定された比で加え
、その結果を全極型合成モデルとして近似することによ
って新たな伝達関数を得、その新たな伝達関数を表現す
る疑似線型予測係数から導かれる音素標準パターンを音
素判別に用いることによって、環境ノイズに適合した音
声認識が行なわれ、上記目的が達成される。
ノイズデータを音響分析して線型予測係数を求める9次
に、音素標準パターンに対する線型予測係数で表現され
る全極型合成モデルの伝達関数と、求めたノイズの線型
予測係数で表現される伝達関数とを指定された比で加え
、その結果を全極型合成モデルとして近似することによ
って新たな伝達関数を得、その新たな伝達関数を表現す
る疑似線型予測係数から導かれる音素標準パターンを音
素判別に用いることによって、環境ノイズに適合した音
声認識が行なわれ、上記目的が達成される。
作用
本発明により、様々な性質を持つ環境ノイズに適合した
音素標準パターンを認識時の短時間のノイズ学習によっ
て容易に得ることが出来る。その音素標準パターンを音
素判別部における音素マツチングに使用することによっ
て、環境ノイズに適合した音声認識を行うことが出来る
。よって認識率の向上が実現される。
音素標準パターンを認識時の短時間のノイズ学習によっ
て容易に得ることが出来る。その音素標準パターンを音
素判別部における音素マツチングに使用することによっ
て、環境ノイズに適合した音声認識を行うことが出来る
。よって認識率の向上が実現される。
実施例
以下に本発明の実施例を図面を用いて詳細に説明する。
第1図は、本発明の一実施例における音声認識システム
を具体化する、線型予測係数で表現される全極型合成モ
デルの伝達関数の演算による音素標準パターンのノイズ
適合の機能ブロック図である。
を具体化する、線型予測係数で表現される全極型合成モ
デルの伝達関数の演算による音素標準パターンのノイズ
適合の機能ブロック図である。
各ブロックの説明を以下に述べる。
まず認識時において、環境ノイズ1を短時間入力し、音
響分析部2において音響分析を行ない、線型予測係数を
求める。つぎに、伝達関数演算部3において、音素標準
パターン格納部4に格納された音素標準パターンに対す
る線型予測係数で表現される全極型合成モデルの伝達関
数とノイズの線型予測係数で表現される全極型合成モデ
ルの伝達関数とを指定された比で加え、その結果を全極
型合成モデルとして近似して新たな伝達関数を得、その
新たな伝達関数を表現する疑似線型予測係数から新音素
標準パターン5を導く。そして、この新音素標準パター
ンを音声認識システムの音素判別部に用いることにより
、ノイズに適合した音声認識が実現される。
響分析部2において音響分析を行ない、線型予測係数を
求める。つぎに、伝達関数演算部3において、音素標準
パターン格納部4に格納された音素標準パターンに対す
る線型予測係数で表現される全極型合成モデルの伝達関
数とノイズの線型予測係数で表現される全極型合成モデ
ルの伝達関数とを指定された比で加え、その結果を全極
型合成モデルとして近似して新たな伝達関数を得、その
新たな伝達関数を表現する疑似線型予測係数から新音素
標準パターン5を導く。そして、この新音素標準パター
ンを音声認識システムの音素判別部に用いることにより
、ノイズに適合した音声認識が実現される。
ここで、上記の伝達関数演算部における処理について詳
細に述べる。
細に述べる。
線型予測係数で表現される全極型合成モデルの伝達関数
は下の様な全極型フィルターの形で書かれる。
は下の様な全極型フィルターの形で書かれる。
σ/ACZ)=a/ (1+Σa、Z”)σ:利得係数
an:線型予測係数
このときのσは、自己相関法による線型予測分析の全2
乗誤差に等しく、スペクトルの側から見ると、モデルの
スペクトルエネルギーとデータのスペクトルエネルギー
を整合させるだめの利得因子となっている。
乗誤差に等しく、スペクトルの側から見ると、モデルの
スペクトルエネルギーとデータのスペクトルエネルギー
を整合させるだめの利得因子となっている。
したがって、入カスベクトルX(ejθ)とモデルスペ
クトルは次式の様な関係がある。
クトルは次式の様な関係がある。
Pw (X (ejθ) ) #Pw (’/A(z)
)Pw ()ある一定時間内における時系列のパワーこ
のことから、音声データにノイズが付加出来る様に線型
予測係数をノイズに適合させることが出来るものと考え
られる。この発想のもとに、音素標準パターンのノイズ
適合を行なう。
)Pw ()ある一定時間内における時系列のパワーこ
のことから、音声データにノイズが付加出来る様に線型
予測係数をノイズに適合させることが出来るものと考え
られる。この発想のもとに、音素標準パターンのノイズ
適合を行なう。
ノイズ付加音声データ作成は下の様に行われている。
X(n)+dlIw n Pw Yn −
Y(n)X(n):音声信号の時系列 Y(n):ノイズ信号の時系列 d:指定するノイズレベル まず、ある区間について音声データのパワーを求め、指
定されたノイズレベルにあうようにノイズのパワーを変
更して音声データに数値的に加える0 これと同じ手順で音素標準パターンに対する線型予測係
数で表現される合成モデルの伝達関数を変化させる。
Y(n)X(n):音声信号の時系列 Y(n):ノイズ信号の時系列 d:指定するノイズレベル まず、ある区間について音声データのパワーを求め、指
定されたノイズレベルにあうようにノイズのパワーを変
更して音声データに数値的に加える0 これと同じ手順で音素標準パターンに対する線型予測係
数で表現される合成モデルの伝達関数を変化させる。
(FA/A(Z)+ d−PW (7A/A /
PW (ffn/B(z))・σB / B (z)=
■ σA:標準パターンに対応する利得係数σB:ノイズか
ら求めた利得係数 A(z):標準パターンに対応する線型予測係数B(z
):ノイズから求めた線型予測係数ここで、各音素につ
いてdを指定する場合は、PA=AI丁aT PB
= J 1+Σb7△ A(z)= A(Z)/ PA B (z)=
B (z)/ PBとすると、Pw (IK(z))
=Pw (B(z))であるから、 ■式=σA / A(z)+ d−PBσA/PA17
B・σB / B (z)= σh / PA (1
/ A(Z)+ d / B(z))を計算する。
PW (ffn/B(z))・σB / B (z)=
■ σA:標準パターンに対応する利得係数σB:ノイズか
ら求めた利得係数 A(z):標準パターンに対応する線型予測係数B(z
):ノイズから求めた線型予測係数ここで、各音素につ
いてdを指定する場合は、PA=AI丁aT PB
= J 1+Σb7△ A(z)= A(Z)/ PA B (z)=
B (z)/ PBとすると、Pw (IK(z))
=Pw (B(z))であるから、 ■式=σA / A(z)+ d−PBσA/PA17
B・σB / B (z)= σh / PA (1
/ A(Z)+ d / B(z))を計算する。
また、dを全音声区間について一様に指定する場合は、
PA=全音声区間の平均パワー
PB=全ノイズデータの平均パワー
とすると、
■式= (FA /A (z) + 56B/ B (
z)を計算する。
z)を計算する。
伝達関数のたし算の仕方は次の様にして行なわれる。ま
ず、有理式としてたし算を行う。次に、和の分数式の分
母の式を分子の式で割って、分子が1になる様にする。
ず、有理式としてたし算を行う。次に、和の分数式の分
母の式を分子の式で割って、分子が1になる様にする。
このときの打切り次数は使用する音素標準パターンが表
現されるLPCクプストラム係数の次数を使用する。(
本実施例では、分母の余った分数式は切捨てとする。)
そして、分母の定数項で分母と分子を割シ、分母の定数
項が1になるようにすることによって、この伝達関数を
全極型合成モデルとして近似する。最後に、この有理式
を全極型合成モデルとしたときの分母の係数を疑似線型
予測係数とし、分子を疑似利得定数として、新たな、L
PCケプストラム係数を特徴パラメータとした音素標準
パターンを導く。
現されるLPCクプストラム係数の次数を使用する。(
本実施例では、分母の余った分数式は切捨てとする。)
そして、分母の定数項で分母と分子を割シ、分母の定数
項が1になるようにすることによって、この伝達関数を
全極型合成モデルとして近似する。最後に、この有理式
を全極型合成モデルとしたときの分母の係数を疑似線型
予測係数とし、分子を疑似利得定数として、新たな、L
PCケプストラム係数を特徴パラメータとした音素標準
パターンを導く。
音素標準パターンを構成するLPCケプストラム係数の
平均は前述の様にして導くが、共分散行列については、
短時間のノイズ学習でこのノイズ適合を実現するために
、ノイズの共分散を混入することが出来ない。しかし、
ノイズの混入によって音声の分散が広がると考えられる
ので、簡易的に次の様な変形を行う。
平均は前述の様にして導くが、共分散行列については、
短時間のノイズ学習でこのノイズ適合を実現するために
、ノイズの共分散を混入することが出来ない。しかし、
ノイズの混入によって音声の分散が広がると考えられる
ので、簡易的に次の様な変形を行う。
eov (i、 j) =Cov (i、 j) +(
C(i) u(i))(μ(j)−μ(j)) バi)、 Cov (i+ j) :もとの音素標準
パターンの平均と共分散。
C(i) u(i))(μ(j)−μ(j)) バi)、 Cov (i+ j) :もとの音素標準
パターンの平均と共分散。
△
μ(i):前述の様にして作成された平均。
ここで、音素判別に、このノイズ適合法で作成される音
素標準パターンを用いた場合の効果を示すために、音素
判別の実験結果について述べる。
素標準パターンを用いた場合の効果を示すために、音素
判別の実験結果について述べる。
(ただし、本実施例において示す音素判別実験結果は、
ノイズレベルを前音声区間について一様に指定する方法
についての実験結果である。)評価条件は次の通りであ
る。評価対象音素群は母音・鼻音と語中子音(音声破裂
音/M、 N、 *、 B、 D。
ノイズレベルを前音声区間について一様に指定する方法
についての実験結果である。)評価条件は次の通りであ
る。評価対象音素群は母音・鼻音と語中子音(音声破裂
音/M、 N、 *、 B、 D。
R,Z/、無声破裂音/C,P、 T、 K/、摩擦音
/Z、 S、 H/)である。評価対象話者は男女各1
0人(計20人)であり、特に語中子音については、0
PENの評価をするために、−人一人の評価に用いる音
素標準パターンをその評価対象話者を除いた19人で作
成する。評価データとして用いるノイズ付加音声データ
は、母音・鼻音については「疑似HOTHノイズ(−6
dB10 c t )付加音声データ」、語中子音につ
いては「展示会の実環境ノイズ付加音声データ」であり
、ノイズレベルは両方ともS/N比で15dBである。
/Z、 S、 H/)である。評価対象話者は男女各1
0人(計20人)であり、特に語中子音については、0
PENの評価をするために、−人一人の評価に用いる音
素標準パターンをその評価対象話者を除いた19人で作
成する。評価データとして用いるノイズ付加音声データ
は、母音・鼻音については「疑似HOTHノイズ(−6
dB10 c t )付加音声データ」、語中子音につ
いては「展示会の実環境ノイズ付加音声データ」であり
、ノイズレベルは両方ともS/N比で15dBである。
また、本発明によるノイズ適合のノイズ学習の時間は1
0秒である。
0秒である。
上記の条件に基づいて、ノイズの入っていないクリーン
な音素標準パターンに本発明のノイズ適合を適用するこ
とによって導かれた新たな音素標準パターンを用いて評
価を行なう。
な音素標準パターンに本発明のノイズ適合を適用するこ
とによって導かれた新たな音素標準パターンを用いて評
価を行なう。
以下の表は、それぞれの評価音素群の判別結果を表にし
たものである。
たものである。
以下余白
第1段目がノイズの入っていないクリーンな音素標準パ
ターンで評価した結果である。第2段目がノイズ付加音
声データから作成した音素標準パターンで評価した結果
である。第3段目が本発明によるノイズ適合により得ら
れた音素標準パターンで評価した結果である(ただし、
ノイズレベルの最適値での値である)。母音・鼻音に関
しては音素ごとの認識率を、語中子音に関しては基準フ
レームをふらせた場合の認識率を示す。ノイズ付加音素
標準パターンの認識率にはおよばないものの、本発明に
よるノイズ適合によって識別率が改善されていることが
わかる。1段目と2段目の識別率の差を100%とした
時、本発明が改善した識別率の割合は、本発明のノイズ
適合によって、母音・鼻音が630%、語中子音でも有
声破裂音が73.2 %〜55.2チ、無声破裂音が8
0.4%〜84.7%、摩擦音が30.0%〜58.6
%改善され、短時間のノイズ学習でありながらも、大
きい効果がある事を示している。
ターンで評価した結果である。第2段目がノイズ付加音
声データから作成した音素標準パターンで評価した結果
である。第3段目が本発明によるノイズ適合により得ら
れた音素標準パターンで評価した結果である(ただし、
ノイズレベルの最適値での値である)。母音・鼻音に関
しては音素ごとの認識率を、語中子音に関しては基準フ
レームをふらせた場合の認識率を示す。ノイズ付加音素
標準パターンの認識率にはおよばないものの、本発明に
よるノイズ適合によって識別率が改善されていることが
わかる。1段目と2段目の識別率の差を100%とした
時、本発明が改善した識別率の割合は、本発明のノイズ
適合によって、母音・鼻音が630%、語中子音でも有
声破裂音が73.2 %〜55.2チ、無声破裂音が8
0.4%〜84.7%、摩擦音が30.0%〜58.6
%改善され、短時間のノイズ学習でありながらも、大
きい効果がある事を示している。
発明の効果
以上の様に本発明は、線型予測係数で表現される全極型
合成モデルの伝達関数の演算により、様々な性質を持つ
環境ノイズに適合した音素標準パターンを認識時の短時
間のノイズ学習によって容易に得ることが出来、その音
素標準パターンを音素判別部における音素マツチングに
使用することによって、環境ノイズに適合した音声認識
を行うことが出来、よって認識率を向上させることが出
来、本発明の効果は大きい。
合成モデルの伝達関数の演算により、様々な性質を持つ
環境ノイズに適合した音素標準パターンを認識時の短時
間のノイズ学習によって容易に得ることが出来、その音
素標準パターンを音素判別部における音素マツチングに
使用することによって、環境ノイズに適合した音声認識
を行うことが出来、よって認識率を向上させることが出
来、本発明の効果は大きい。
第1図は、本発明の一実施例における音声認識システム
を具体化する、線型予測係数で表現される合成モデルの
伝達関数の演算による音素標準パターンのノイズ適合の
機能ブロック図、第2図は、従来の音声認識システムの
機能ブロック図、第3図は、従来の音素標準パターン作
成システムの機能ブロック図、第4図は従来のノイズ付
加音素標準パターン作成システムの機能ブロック図であ
る。 1・・・環境ノイズ、2・・・音響分析部、3・・・伝
達関数演算部、4・・・標準パターン格納部、5・・・
新音素標準パターン。
を具体化する、線型予測係数で表現される合成モデルの
伝達関数の演算による音素標準パターンのノイズ適合の
機能ブロック図、第2図は、従来の音声認識システムの
機能ブロック図、第3図は、従来の音素標準パターン作
成システムの機能ブロック図、第4図は従来のノイズ付
加音素標準パターン作成システムの機能ブロック図であ
る。 1・・・環境ノイズ、2・・・音響分析部、3・・・伝
達関数演算部、4・・・標準パターン格納部、5・・・
新音素標準パターン。
Claims (2)
- (1)認識時の環境ノイズを音響分析して得られた線型
予測係数で表現される全極型合成モデルの伝達関数と、
標準パターンに対応する線型予測係数で表現される全極
型合成モデルの伝達関数とを加え、その結果を全極型合
成モデルとして近似することによって新たな伝達関数を
得、その新たな伝達関数を表現する疑似線型予測係数か
ら導かれる標準パターンをマッチングに用いることによ
って音声認識を行なうことを特徴とした音声認識法。 - (2)音声認識が音素を認識の基本単位としており、標
準パターンが線型予測係数から導かれるLPCケプスト
ラム係数を特徴パラメータとする音素標準パターンであ
り、またマッチングが音素標準パターンを用いた音素マ
ッチングであることを特徴とする請求項1記載の音声認
識法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63236912A JPH087599B2 (ja) | 1988-09-21 | 1988-09-21 | 音声認識法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63236912A JPH087599B2 (ja) | 1988-09-21 | 1988-09-21 | 音声認識法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0283597A true JPH0283597A (ja) | 1990-03-23 |
| JPH087599B2 JPH087599B2 (ja) | 1996-01-29 |
Family
ID=17007598
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63236912A Expired - Lifetime JPH087599B2 (ja) | 1988-09-21 | 1988-09-21 | 音声認識法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH087599B2 (ja) |
-
1988
- 1988-09-21 JP JP63236912A patent/JPH087599B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPH087599B2 (ja) | 1996-01-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Ancilin et al. | Improved speech emotion recognition with Mel frequency magnitude coefficient | |
| Vergin et al. | Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition | |
| Kinnunen | Spectral features for automatic text-independent speaker recognition | |
| Sudhakar et al. | Analysis of speech features for emotion detection: A review | |
| US20010010039A1 (en) | Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector | |
| Kumar et al. | Spoken language identification using hybrid feature extraction methods | |
| CN110970036A (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
| Paulose et al. | Performance evaluation of different modeling methods and classifiers with MFCC and IHC features for speaker recognition | |
| Přibil et al. | GMM-based speaker gender and age classification after voice conversion | |
| Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
| Shanthi Therese et al. | Review of feature extraction techniques in automatic speech recognition | |
| Nagaraja et al. | Mono and Cross lingual speaker identification with the constraint of limited data | |
| Muhammad et al. | Voice content matching system for quran readers | |
| Yadav et al. | Prosodic mapping using neural networks for emotion conversion in Hindi language | |
| Goyal et al. | A comparison of Laryngeal effect in the dialects of Punjabi language | |
| Revathy et al. | Performance comparison of speaker and emotion recognition | |
| López et al. | Normal-to-shouted speech spectral mapping for speaker recognition under vocal effort mismatch | |
| Juvela et al. | The NII speech synthesis entry for Blizzard Challenge 2016 | |
| JPH0283597A (ja) | 音声認識法 | |
| Lingam | Speaker based language independent isolated speech recognition system | |
| JP2658426B2 (ja) | 音声認識方法 | |
| Ahmed et al. | Voice morphing: An illusion or reality | |
| Nidhyananthan et al. | A framework for multilingual text-independent speaker identification system | |
| Patil et al. | Identifying Perceptually Similar Languages Using Teager Energy Based Cepstrum. | |
| Bhattachajee et al. | An experimental analysis of speech features for tone speech recognition |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080129 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090129 Year of fee payment: 13 |
|
| EXPY | Cancellation because of completion of term | ||
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090129 Year of fee payment: 13 |