JPH0682275B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH0682275B2 JPH0682275B2 JP1236471A JP23647189A JPH0682275B2 JP H0682275 B2 JPH0682275 B2 JP H0682275B2 JP 1236471 A JP1236471 A JP 1236471A JP 23647189 A JP23647189 A JP 23647189A JP H0682275 B2 JPH0682275 B2 JP H0682275B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- frequency band
- certain frequency
- voice
- recognizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000011218 segmentation Effects 0.000 claims description 52
- 238000013528 artificial neural network Methods 0.000 claims description 50
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000000034 method Methods 0.000 description 45
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Description
【発明の詳細な説明】 [産業上の利用分野] この発明は音声認識装置に関し、特に、入力された音声
を音韻グループごとにセグメンテーションを行ない、こ
のセグメンテーション法とこれに適用する音韻識別ニュ
ーラル・ネットワークを融合して音韻を認識するような
音声認識装置に関する。
を音韻グループごとにセグメンテーションを行ない、こ
のセグメンテーション法とこれに適用する音韻識別ニュ
ーラル・ネットワークを融合して音韻を認識するような
音声認識装置に関する。
[従来の技術および発明が解決しようとする課題] 従来の音声認識の方法は、連続した音声波形に時間区分
を入れてセグメンテーションを行なった後に、音韻認識
を行なう方法と、連続した音声波形の時間区分およびそ
の部分の音韻認識を同時に行なういわゆる音韻スポッテ
ィング方法とが提案されている。
を入れてセグメンテーションを行なった後に、音韻認識
を行なう方法と、連続した音声波形の時間区分およびそ
の部分の音韻認識を同時に行なういわゆる音韻スポッテ
ィング方法とが提案されている。
しかしながら、前者の方法においては、各音韻の存在す
る音韻環境にかかわらず、画一的なパワーやスペクトル
の変化などの単純なパラメータの組合わせでセグメンテ
ーションを行なっているため、高精度な音韻認識率を得
ることができない。さらに、セグメンテーション法は、
音韻区間の同定にのみ用いられ、セグメンテーション方
法により得られる音韻グループを用いて最終的な音韻の
認識結果を決定し、音韻認識率の向上を図ったものは提
案されていない。また、後者の方法においては、連続す
る音韻の境界付近で音韻の誤認識や挿入誤りが多く、そ
の結果高い音韻認識率が得られないという欠点があっ
た。
る音韻環境にかかわらず、画一的なパワーやスペクトル
の変化などの単純なパラメータの組合わせでセグメンテ
ーションを行なっているため、高精度な音韻認識率を得
ることができない。さらに、セグメンテーション法は、
音韻区間の同定にのみ用いられ、セグメンテーション方
法により得られる音韻グループを用いて最終的な音韻の
認識結果を決定し、音韻認識率の向上を図ったものは提
案されていない。また、後者の方法においては、連続す
る音韻の境界付近で音韻の誤認識や挿入誤りが多く、そ
の結果高い音韻認識率が得られないという欠点があっ
た。
それゆえに、この発明の主たる目的は、セグメンテーシ
ョン誤りによる音韻の誤認識および音韻スポッティング
法による音韻境界における音韻の誤認識や挿入誤りを解
決し、さらにセグメンテーション法により得られる音韻
グループを用いて最終的な音韻の認識結果を決定し、高
い音韻認識が可能な音声認識装置を提供することであ
る。
ョン誤りによる音韻の誤認識および音韻スポッティング
法による音韻境界における音韻の誤認識や挿入誤りを解
決し、さらにセグメンテーション法により得られる音韻
グループを用いて最終的な音韻の認識結果を決定し、高
い音韻認識が可能な音声認識装置を提供することであ
る。
[課題を解決するための手段] 請求項1に係る発明は、入力された音声を認識する音声
認識装置であって、入力された音声のある周波数帯域に
おけるパワーの大きさと、ある周波数帯域におけるパワ
ーの変化量と、ある周波数帯域におけるスペクトルの変
化量と、ある周波数帯域と他のある周波数帯域とにおけ
るパワーの比の音響特徴に基づいて、入力された音声を
音韻グループごとに区間と確信度を決定してセグメンテ
ーションを行なうセグメンテーション手段と、それぞれ
が音韻グループに対応して設けられ、セグメンテーショ
ンされた音韻グループのうち最大確信度の与えられた音
韻グループの音韻を認識する複数の時間遅れニューラル
ネットワークと、決定された音韻グループの区間と確信
度および時間遅れニューラルネットワークによって認識
された音韻とに基づいて音声を認識する認識手段とを備
えて構成される。
認識装置であって、入力された音声のある周波数帯域に
おけるパワーの大きさと、ある周波数帯域におけるパワ
ーの変化量と、ある周波数帯域におけるスペクトルの変
化量と、ある周波数帯域と他のある周波数帯域とにおけ
るパワーの比の音響特徴に基づいて、入力された音声を
音韻グループごとに区間と確信度を決定してセグメンテ
ーションを行なうセグメンテーション手段と、それぞれ
が音韻グループに対応して設けられ、セグメンテーショ
ンされた音韻グループのうち最大確信度の与えられた音
韻グループの音韻を認識する複数の時間遅れニューラル
ネットワークと、決定された音韻グループの区間と確信
度および時間遅れニューラルネットワークによって認識
された音韻とに基づいて音声を認識する認識手段とを備
えて構成される。
請求項2に係る発明は、請求項1と同様のセグメンテー
ション手段と、セグメンテーションされた音韻グループ
の音韻を認識する時間遅れニューラルネットワークと、
決定された音韻グループと時間遅れニューラルネットワ
ークの認識結果との妥当性を表わす関数を決定する関数
決定手段と、決定された音韻グループの区間と確信度お
よび決定された関数とに基づいて音声を認識する認識手
段とを備えて構成される。
ション手段と、セグメンテーションされた音韻グループ
の音韻を認識する時間遅れニューラルネットワークと、
決定された音韻グループと時間遅れニューラルネットワ
ークの認識結果との妥当性を表わす関数を決定する関数
決定手段と、決定された音韻グループの区間と確信度お
よび決定された関数とに基づいて音声を認識する認識手
段とを備えて構成される。
請求項3に係る発明は、請求項1のセグメンテーション
手段および複数の時間遅れニューラルネットワークを備
えるとともに、セグメンテーション手段によって決定さ
れた音韻グループと時間遅れニューラルネットワークの
認識結果との妥当性を表わす関数を決定する関数決定手
段と、決定された音韻グループの関数と確信度および関
数に基づいて音声を認識する認識手段とを備えて構成さ
れる。
手段および複数の時間遅れニューラルネットワークを備
えるとともに、セグメンテーション手段によって決定さ
れた音韻グループと時間遅れニューラルネットワークの
認識結果との妥当性を表わす関数を決定する関数決定手
段と、決定された音韻グループの関数と確信度および関
数に基づいて音声を認識する認識手段とを備えて構成さ
れる。
[作用] この発明に係る音声認識装置は、入力された音声を音韻
グループごとに区間と確信度を決定してセグメンテーシ
ョンを行ない、そのうち最大確信度の与えられた音韻グ
ループの音韻を時間遅れニューラルネットワークによっ
て認識し、決定された音韻グループの区間と確信度およ
び時間遅れニューラルネットワークによって認識された
音韻とに基づいて音声を認識する。
グループごとに区間と確信度を決定してセグメンテーシ
ョンを行ない、そのうち最大確信度の与えられた音韻グ
ループの音韻を時間遅れニューラルネットワークによっ
て認識し、決定された音韻グループの区間と確信度およ
び時間遅れニューラルネットワークによって認識された
音韻とに基づいて音声を認識する。
[発明の実施例] 第1図はこの発明が適用される音声認識装置の概略ブロ
ック図である。第1図を参照して、音声認識装置はアン
プ1とローパスフィルタ2とA/D変換器3と処理装置4
とを含む。アンプ1は入力された音声信号を増幅し、ロ
ーパスフィルタ2は増幅された音声信号から折返し雑音
を除去する。A/D変換器3は音声信号をサンプリングし
てディジタル信号に変換する。処理装置4はコンピュー
タ5と磁気ディスク6と端末類7とプリンタ8とを含
む。コンピュータ5はA/D変換部3から入力されたサン
プリングされた音声のディジタル信号に基づいて、後述
の第2図ないし第5図に示した手法を用いて音声認識を
行なう。
ック図である。第1図を参照して、音声認識装置はアン
プ1とローパスフィルタ2とA/D変換器3と処理装置4
とを含む。アンプ1は入力された音声信号を増幅し、ロ
ーパスフィルタ2は増幅された音声信号から折返し雑音
を除去する。A/D変換器3は音声信号をサンプリングし
てディジタル信号に変換する。処理装置4はコンピュー
タ5と磁気ディスク6と端末類7とプリンタ8とを含
む。コンピュータ5はA/D変換部3から入力されたサン
プリングされた音声のディジタル信号に基づいて、後述
の第2図ないし第5図に示した手法を用いて音声認識を
行なう。
第2図ないし第5図はこの発明の音韻を識別して音声を
認識する各種方式を示す図である。
認識する各種方式を示す図である。
まず、第2図ないし第5図に示すそれぞれの手法におい
て、共通の構成について説明する。第2図ないし第5図
に示した各方式は、3つの部分からなり、それぞれ音韻
セグメンテーション部、音韻識別部および音韻決定部か
らなる。これらの具体的な説明は、本願発明者が先に成
した特許出願(特願平1−61928号公報)において詳細
に説明しており、ここでは簡単に説明する。音韻セグメ
ンテーション部はルールベースで行なわれ、音韻候補の
検出が、音韻クラスごとにスペクトログラム上の大局的
な音響特徴を用いて、音韻の存在し得る大まかな位置が
検出される。ここでの音韻クラスは、たとえば無声摩擦
音や有声摩擦音などである。
て、共通の構成について説明する。第2図ないし第5図
に示した各方式は、3つの部分からなり、それぞれ音韻
セグメンテーション部、音韻識別部および音韻決定部か
らなる。これらの具体的な説明は、本願発明者が先に成
した特許出願(特願平1−61928号公報)において詳細
に説明しており、ここでは簡単に説明する。音韻セグメ
ンテーション部はルールベースで行なわれ、音韻候補の
検出が、音韻クラスごとにスペクトログラム上の大局的
な音響特徴を用いて、音韻の存在し得る大まかな位置が
検出される。ここでの音韻クラスは、たとえば無声摩擦
音や有声摩擦音などである。
次に、音韻環境の仮説が行なわれる。すなわち、検出さ
れた音韻候補ごとに、それぞれの前後に音韻の種類が仮
説される。次に、音韻環境の仮説の下で音韻境界の検出
および仮説の検証が行なわれる。正しい仮説の下では、
仮説ごとに高い確信度が得られ、結果として音韻環境が
検出される。逆に誤った仮説では、確信度が低くなり、
音韻環境を得るに至らない。仮説が正しいか否かの判断
は、スペクトログラム上の音響特徴、すなわち入力され
た音声の或る周波数帯域におけるパワーの大きさと、パ
ワーの変化量と、スペクトルの変化量と、他の周波数帯
域に対するパワーの比等の音響特徴に基づいて判断され
る。次に、仮説された音韻クラスごとに最大確信度を与
える音韻境界がセグメンテーション結果とされ、その音
韻の始終端と音韻クラスが確信度付きで出力される。
れた音韻候補ごとに、それぞれの前後に音韻の種類が仮
説される。次に、音韻環境の仮説の下で音韻境界の検出
および仮説の検証が行なわれる。正しい仮説の下では、
仮説ごとに高い確信度が得られ、結果として音韻環境が
検出される。逆に誤った仮説では、確信度が低くなり、
音韻環境を得るに至らない。仮説が正しいか否かの判断
は、スペクトログラム上の音響特徴、すなわち入力され
た音声の或る周波数帯域におけるパワーの大きさと、パ
ワーの変化量と、スペクトルの変化量と、他の周波数帯
域に対するパワーの比等の音響特徴に基づいて判断され
る。次に、仮説された音韻クラスごとに最大確信度を与
える音韻境界がセグメンテーション結果とされ、その音
韻の始終端と音韻クラスが確信度付きで出力される。
第6図は音韻を識別するための時間遅れニューラル・ネ
ットワーク(TDNN)の一例を示す図である。次に、第6
図を参照して、上述のようにして検出されたセグメンテ
ーションの音韻を識別する方法について説明する。第6
図に示した時間遅れニューラル・ネットワークは18の子
音を有声破裂音,無声破裂音,鼻音,有声摩擦音,無声
摩擦音,流音の6つのクラスにグループ化し、それぞれ
のグループが入力層11に入力される。入力層11は従来か
ら知られているバックプロパゲーションの学習により、
セグメンテーションされた音韻の識別を行なう。各クラ
スの識別は中間層12によって行なわれる。この実施例で
は、時間遅れニューラル・ネットワークの学習は、すべ
ての子音の終端位置を入力層11の前から2/3の位置に合
わせて行なわれる。同様にして、音韻識別では、セグメ
ンテーション結果の終端が入力層11の同じ位置に適用さ
れ、時間遅れニューラル・ネットワークの出力層13が出
力する最大確信度を与える音韻を識別結果とする。
ットワーク(TDNN)の一例を示す図である。次に、第6
図を参照して、上述のようにして検出されたセグメンテ
ーションの音韻を識別する方法について説明する。第6
図に示した時間遅れニューラル・ネットワークは18の子
音を有声破裂音,無声破裂音,鼻音,有声摩擦音,無声
摩擦音,流音の6つのクラスにグループ化し、それぞれ
のグループが入力層11に入力される。入力層11は従来か
ら知られているバックプロパゲーションの学習により、
セグメンテーションされた音韻の識別を行なう。各クラ
スの識別は中間層12によって行なわれる。この実施例で
は、時間遅れニューラル・ネットワークの学習は、すべ
ての子音の終端位置を入力層11の前から2/3の位置に合
わせて行なわれる。同様にして、音韻識別では、セグメ
ンテーション結果の終端が入力層11の同じ位置に適用さ
れ、時間遅れニューラル・ネットワークの出力層13が出
力する最大確信度を与える音韻を識別結果とする。
第2図ないし第5図に示した音韻決定部では、音韻クラ
スごとにセグメンテーション結果およびその区間に適用
した時間遅れニューラル・ネットワークが出力する音韻
識別結果を用いて、最大確信度を与える音韻とその区間
が決定される。
スごとにセグメンテーション結果およびその区間に適用
した時間遅れニューラル・ネットワークが出力する音韻
識別結果を用いて、最大確信度を与える音韻とその区間
が決定される。
第2図に示した方式は最も単純なセグメンテーション法
と音韻識別法の組合わせにより音韻を識別し、音声を認
識するものである。入力された音声は分析され、特徴抽
出が行なわれた後、セグメンテーション部において、た
とえば無声摩擦音の確信度が0.62であり、有声摩擦音の
確信度が0.51であるという決定が行なわれる。そして、
確信度の大きい無声摩擦音が選択され、この無声摩擦音
が第6図に示した時間遅れニューラル・ネットワークに
入力され、前述の特願平1−61928号に開示されている
方式を用いて音韻識別が行なわれて音韻の認識が行なわ
れる。
と音韻識別法の組合わせにより音韻を識別し、音声を認
識するものである。入力された音声は分析され、特徴抽
出が行なわれた後、セグメンテーション部において、た
とえば無声摩擦音の確信度が0.62であり、有声摩擦音の
確信度が0.51であるという決定が行なわれる。そして、
確信度の大きい無声摩擦音が選択され、この無声摩擦音
が第6図に示した時間遅れニューラル・ネットワークに
入力され、前述の特願平1−61928号に開示されている
方式を用いて音韻識別が行なわれて音韻の認識が行なわ
れる。
第3図に示した例は、セグメンテーション法を音韻グル
ープの絞り込みに用いた手段により音韻が識別され、音
声を認識するものである。この例では、入力された音声
は分析され特徴抽出の結果、セグメンテーション部にお
いて最大確信度を与える結果が決定され、その音韻グル
ープが有声音グループであるか無声音グループであるか
に応じて有声子音識別用時間遅れネットワークあるいは
無声子音識別時間遅れニューラル・ネットワークが選択
的に適用されてその区間内の音韻識別が行なわれる。
ープの絞り込みに用いた手段により音韻が識別され、音
声を認識するものである。この例では、入力された音声
は分析され特徴抽出の結果、セグメンテーション部にお
いて最大確信度を与える結果が決定され、その音韻グル
ープが有声音グループであるか無声音グループであるか
に応じて有声子音識別用時間遅れネットワークあるいは
無声子音識別時間遅れニューラル・ネットワークが選択
的に適用されてその区間内の音韻識別が行なわれる。
一般に、識別音韻の種類が少ないほど時間遅れニューラ
ル・ネットワークの識別能力が上がることから、セグメ
ンテーション結果の音韻クラス間に混同がない場合、ク
ラスごとに音韻識別を行なう時間遅れニューラル・ネッ
トワークを用いた方が識別率が向上することが期待され
る。つまり、セグメンテーション部により音韻クラスの
絞り込みを行ない、そのクラス内の音韻識別が行なわれ
る。
ル・ネットワークの識別能力が上がることから、セグメ
ンテーション結果の音韻クラス間に混同がない場合、ク
ラスごとに音韻識別を行なう時間遅れニューラル・ネッ
トワークを用いた方が識別率が向上することが期待され
る。つまり、セグメンテーション部により音韻クラスの
絞り込みを行ない、そのクラス内の音韻識別が行なわれ
る。
第7図は第3図で説明した有声子音識別用時間遅れニュ
ーラル・ネットワークおよび無声子音識別用時間遅れニ
ューラル・ネットワークの一例を示す図である。第7図
(a)に示した無声子音識別用ニューラル・ネットワー
クは無声8子音(p,t,k,ch,ts,s,sh,h)を識別するもの
であり、入力層21と中間層22と出力層23とを含む。ま
た、第7図(b)に示した有声子音識別用時間遅れニュ
ーラル・ネットワークは有声7子音(b,d,g,m,n,r,z)
を識別するものであり、入力層31と中間層32と出力層33
とを含む。
ーラル・ネットワークおよび無声子音識別用時間遅れニ
ューラル・ネットワークの一例を示す図である。第7図
(a)に示した無声子音識別用ニューラル・ネットワー
クは無声8子音(p,t,k,ch,ts,s,sh,h)を識別するもの
であり、入力層21と中間層22と出力層23とを含む。ま
た、第7図(b)に示した有声子音識別用時間遅れニュ
ーラル・ネットワークは有声7子音(b,d,g,m,n,r,z)
を識別するものであり、入力層31と中間層32と出力層33
とを含む。
第4図に示した例は、セグメンテーション法の音韻グル
ープと音韻識別法の結果の妥当性を表わす関数を用いて
音韻を識別して音声を認識するものであり、第2図およ
び第3図で説明した実施例と同様にして、セグメンテー
ション部において無声摩擦音と有声摩擦音の確信度が決
定され、その後第6図に示した時間遅れニューラル・ネ
ットワークを用いて、その区間内の音韻識別が行なわれ
て音韻認識が行なわれる。すなわち、この第4図に示し
た例では、音韻区間の候補とその音韻グループが出力さ
れ、時間遅れニューラル・ネットワークの識別音韻とセ
グメンテーション結果の音韻クラスの妥当性を考慮に入
れることができ、音韻セグメンテーションおよび音韻識
別の能力がともに向上することが期待できる。
ープと音韻識別法の結果の妥当性を表わす関数を用いて
音韻を識別して音声を認識するものであり、第2図およ
び第3図で説明した実施例と同様にして、セグメンテー
ション部において無声摩擦音と有声摩擦音の確信度が決
定され、その後第6図に示した時間遅れニューラル・ネ
ットワークを用いて、その区間内の音韻識別が行なわれ
て音韻認識が行なわれる。すなわち、この第4図に示し
た例では、音韻区間の候補とその音韻グループが出力さ
れ、時間遅れニューラル・ネットワークの識別音韻とセ
グメンテーション結果の音韻クラスの妥当性を考慮に入
れることができ、音韻セグメンテーションおよび音韻識
別の能力がともに向上することが期待できる。
ここで、その妥当性を表わす関数の一例として、次の第
(1)式および第(2)式を用いて、最大の確信度(Ce
rtainty Factor)を与える音韻を認識結果とする方法
として示す。
(1)式および第(2)式を用いて、最大の確信度(Ce
rtainty Factor)を与える音韻を認識結果とする方法
として示す。
CFrec=combine (CFseg,CFnn) …(1) CFnn=k・Wnn・f (arg(seg),arg(nn)) …
(2) 但し、 CFrec:最終音韻認識の確信度 CFseg:セグメンテーション結果の確信度 CFnn:音韻識別結果の確信度 Wnn:時間遅れニューラル・ネットワークの識別音韻の出
力値 arg(seg):セグメンテーション結果の音韻クラス arg(nn):時間遅れニューラル・ネットワークの識別
音韻 k:係数(時間遅れニューラル・ネットワークの信頼度,k
が大きいほど時間遅れニューラル・ネットワークの出力
結果を信用している。) f( ):識別音韻と音韻クラスの妥当性を示す関数。
時間遅れニューラル・ネットワークの識別音韻がセグメ
ンテーション結果の音韻クラスに属せば1.0,属さなけれ
ば1.0,有声音/無声音が一致していれば0.5を与える。
(2) 但し、 CFrec:最終音韻認識の確信度 CFseg:セグメンテーション結果の確信度 CFnn:音韻識別結果の確信度 Wnn:時間遅れニューラル・ネットワークの識別音韻の出
力値 arg(seg):セグメンテーション結果の音韻クラス arg(nn):時間遅れニューラル・ネットワークの識別
音韻 k:係数(時間遅れニューラル・ネットワークの信頼度,k
が大きいほど時間遅れニューラル・ネットワークの出力
結果を信用している。) f( ):識別音韻と音韻クラスの妥当性を示す関数。
時間遅れニューラル・ネットワークの識別音韻がセグメ
ンテーション結果の音韻クラスに属せば1.0,属さなけれ
ば1.0,有声音/無声音が一致していれば0.5を与える。
combine( ):MYCINの確信度計算モデル 第5図に示した例は、セグメンテーション法を音韻グル
ープの絞り込みに用いた手段により音韻の識別手段を選
択し、セグメンテーション法の音韻グループと音韻識別
法の結果の妥当性を表わす関数を用いたことにより音韻
を識別し、音声を認識するものである。
ープの絞り込みに用いた手段により音韻の識別手段を選
択し、セグメンテーション法の音韻グループと音韻識別
法の結果の妥当性を表わす関数を用いたことにより音韻
を識別し、音声を認識するものである。
第8図はこの発明の各方式による子音認識結果をテーブ
ルに示した図である。18子音識別時間遅れニューラル・
ネットワークと有声音/無声音の2つの時間遅れニュー
ラル・ネットワークとを用いた場合、時間遅れニューラ
ル・ネットワークの識別音韻とセグメンテーション結果
の音韻クラスとの妥当性を考慮する場合としない場合、
さらに妥当性を考慮する場合どの程度時間遅れニューラ
ル・ネットワークの出力結果を信用するかなどの条件を
変えた実験を行なった。第8図において、18−CONS−TD
NNは18子音識別時間遅れニューラル・ネットワークを用
いた場合を示し、V/UV−TDNNは有声音/無声音の2つの
時間遅れニューラル・ネットワークを用いた場合を示
し、NO COMBは時間遅れニューラル・ネットワークの識
別音韻とセグメンテーション結果の音韻クラスの妥当性
を考慮しない場合を示し、with COMBは考慮した場合を
示す。
ルに示した図である。18子音識別時間遅れニューラル・
ネットワークと有声音/無声音の2つの時間遅れニュー
ラル・ネットワークとを用いた場合、時間遅れニューラ
ル・ネットワークの識別音韻とセグメンテーション結果
の音韻クラスとの妥当性を考慮する場合としない場合、
さらに妥当性を考慮する場合どの程度時間遅れニューラ
ル・ネットワークの出力結果を信用するかなどの条件を
変えた実験を行なった。第8図において、18−CONS−TD
NNは18子音識別時間遅れニューラル・ネットワークを用
いた場合を示し、V/UV−TDNNは有声音/無声音の2つの
時間遅れニューラル・ネットワークを用いた場合を示
し、NO COMBは時間遅れニューラル・ネットワークの識
別音韻とセグメンテーション結果の音韻クラスの妥当性
を考慮しない場合を示し、with COMBは考慮した場合を
示す。
前述の第(1)式および第(2)式の時間遅れニューラ
ル・ネットワークに対する依存度としては、k=0.4,0.
8の2つの値を用いた。kが大きいほど時間遅れニュー
ラル・ネットワークの出力結果を信用していることにな
る。Recognition Rateは音韻セグメンテーション,音
韻識別ともに正しく行なわれた場合を示し、Insertion
Error Rateは付加誤り率を示し、Segmentation Rat
eは音韻の始終端境界誤差が50msec以内に検出され正し
くセグメンテーションされたと判断された割合を示し、
Boundary Alignment Errorは正しく検出された境界の
視察ラベルに対するずれを示し、within Correct Seg
mentation Rateはこの発明により正しくセグメンテー
ションされた区間の中での音韻識別率を示す。第8図に
示したテーブルは、音韻クラスの絞り込みを行なった上
で時間遅れニューラル・ネットワークを適用する方法の
有効性、また時間遅れニューラル・ネットワークの識別
音韻とセグメンテーション結果の音韻クラスの妥当性を
考慮する方法の有効性を示している。
ル・ネットワークに対する依存度としては、k=0.4,0.
8の2つの値を用いた。kが大きいほど時間遅れニュー
ラル・ネットワークの出力結果を信用していることにな
る。Recognition Rateは音韻セグメンテーション,音
韻識別ともに正しく行なわれた場合を示し、Insertion
Error Rateは付加誤り率を示し、Segmentation Rat
eは音韻の始終端境界誤差が50msec以内に検出され正し
くセグメンテーションされたと判断された割合を示し、
Boundary Alignment Errorは正しく検出された境界の
視察ラベルに対するずれを示し、within Correct Seg
mentation Rateはこの発明により正しくセグメンテー
ションされた区間の中での音韻識別率を示す。第8図に
示したテーブルは、音韻クラスの絞り込みを行なった上
で時間遅れニューラル・ネットワークを適用する方法の
有効性、また時間遅れニューラル・ネットワークの識別
音韻とセグメンテーション結果の音韻クラスの妥当性を
考慮する方法の有効性を示している。
なお、音韻グループの絞り込みは、有声音/無声音など
の分け方に限ることなく、摩擦音声,鼻音声音,破裂性
音などの分け方も可能であり、この分け方に応じた音声
識別方法を適用すればよい。
の分け方に限ることなく、摩擦音声,鼻音声音,破裂性
音などの分け方も可能であり、この分け方に応じた音声
識別方法を適用すればよい。
また、上述の実施例の音韻識別方式においては、時間遅
れニューラル・ネットワークを用いたが、その他の一般
的な統計的手法による音韻グループ内の音韻識別方法を
用いてもよい。たとえば、一般のニューラル・ネットワ
ークによる音韻識別方法や、HMMによる音韻識別方法
や、ベイズ則による音韻識別方法や、線形判別による音
韻識別方法や、LVQなどの方法にて設計した標準パター
ンを用いた音韻識別方法などが適用可能である。
れニューラル・ネットワークを用いたが、その他の一般
的な統計的手法による音韻グループ内の音韻識別方法を
用いてもよい。たとえば、一般のニューラル・ネットワ
ークによる音韻識別方法や、HMMによる音韻識別方法
や、ベイズ則による音韻識別方法や、線形判別による音
韻識別方法や、LVQなどの方法にて設計した標準パター
ンを用いた音韻識別方法などが適用可能である。
[発明の効果] 以上のように、この発明によれば、入力された音声を音
韻グループごとに区間と確信度を決定してセグメンテー
ションを行ない、最大確信度の与えられた音韻グループ
の音韻を認識し、決定された音韻グループの区間と確信
度および時間遅れニューラルネットワークによって認識
された音韻とに基づいて音声を認識することができ、高
い性能の音韻認識を可能にすることができる。
韻グループごとに区間と確信度を決定してセグメンテー
ションを行ない、最大確信度の与えられた音韻グループ
の音韻を認識し、決定された音韻グループの区間と確信
度および時間遅れニューラルネットワークによって認識
された音韻とに基づいて音声を認識することができ、高
い性能の音韻認識を可能にすることができる。
第1図はこの発明の一実施例が適用される音声認識装置
全体の概略ブロック図である。第2図はこの発明の一実
施例における最も単純なセグメンテーション法と音韻識
別法の組合わせにより音韻を識別して音声を認識する一
例を示す図である。第3図はセグメンテーション法を音
韻グループの絞り込みに用いた手段により音韻を識別し
て音声を認識する一例を示す図である。第4図はセグメ
ンテーション法の音韻グループと音韻識別法の結果の妥
当性を表わす関数を用いたことにより音韻を識別して音
声を認識する一例を示す図である。第5図はセグメンテ
ーション法を音韻グループの絞り込みに用いた手段によ
り音韻を識別し、セグメンテーション法の音韻グループ
と音韻識別法の結果の妥当性を示す関数を用いたことに
より音韻を識別して音声を認識する一例を示す図であ
る。第6図は第2図および第4図で用いた18子音識別用
時間遅れニューラル・ネットワークの一例を示す図であ
る。第7図は第3図および第5図の実施例で用いた有声
音/無声音別の子音識別用時間遅れニューラル・ネット
ワークの一例を示す図である。第8図はこの発明の各方
式による音韻認識結果をテーブルに示した図である。 図において、1はアンプ、2はローパスフィルタ、3は
A/D変換器、4は処理装置、5はコンピュータ、6は磁
気ディスク、7は端末類、8はプリンタ、11,21,31は入
力層、12,22,32は中間層、13,23,33は出力層を示す。
全体の概略ブロック図である。第2図はこの発明の一実
施例における最も単純なセグメンテーション法と音韻識
別法の組合わせにより音韻を識別して音声を認識する一
例を示す図である。第3図はセグメンテーション法を音
韻グループの絞り込みに用いた手段により音韻を識別し
て音声を認識する一例を示す図である。第4図はセグメ
ンテーション法の音韻グループと音韻識別法の結果の妥
当性を表わす関数を用いたことにより音韻を識別して音
声を認識する一例を示す図である。第5図はセグメンテ
ーション法を音韻グループの絞り込みに用いた手段によ
り音韻を識別し、セグメンテーション法の音韻グループ
と音韻識別法の結果の妥当性を示す関数を用いたことに
より音韻を識別して音声を認識する一例を示す図であ
る。第6図は第2図および第4図で用いた18子音識別用
時間遅れニューラル・ネットワークの一例を示す図であ
る。第7図は第3図および第5図の実施例で用いた有声
音/無声音別の子音識別用時間遅れニューラル・ネット
ワークの一例を示す図である。第8図はこの発明の各方
式による音韻認識結果をテーブルに示した図である。 図において、1はアンプ、2はローパスフィルタ、3は
A/D変換器、4は処理装置、5はコンピュータ、6は磁
気ディスク、7は端末類、8はプリンタ、11,21,31は入
力層、12,22,32は中間層、13,23,33は出力層を示す。
Claims (3)
- 【請求項1】入力された音声を認識する音声認識装置で
あって、 前記入力された音声のある周波数帯域におけるパワーの
大きさと、ある周波数帯域におけるパワーの変化量と、
ある周波数帯域におけるスペクトルの変化量と、ある周
波数帯域と他のある周波数帯域とにおけるパワーの比の
音響特徴に基づいて、前記入力された音声を音韻グルー
プごとに区間と確信度を決定してセグメンテーションを
行なうセグメンテーション手段、 それぞれが音韻グループに対応して設けられ、前記セグ
メンテーション手段によってセグメンテーションされた
音韻グループのうち、最大確信度の与えられた音韻グル
ープの音韻を認識する複数の時間遅れニューラルネット
ワーク、および 前記セグメンテーション手段によって決定された音韻グ
ループの区間と確信度および前記時間遅れニューラルネ
ットワークによって認識された音韻とに基づいて音声を
認識する認識手段を備えた、音声認識装置。 - 【請求項2】入力された音声を認識する音声認識装置で
あって、 前記入力された音声のある周波数帯域におけるパワーの
大きさと、ある周波数帯域におけるパワーの変化量と、
ある周波数帯域におけるスペクトルの変化量と、ある周
波数帯域と他のある周波数帯域とにおけるパワーの比の
音響特徴に基づいて、前記入力された音声を音韻グルー
プごとに区間と確信度を決定してセグメンテーションを
行なうセグメンテーション手段、 前記セグメンテーション手段によってセグメンテーショ
ンされた音韻グループの音韻を認識する時間遅れニュー
ラルネットワーク、 前記セグメンテーション手段によって決定された音韻グ
ループと前記時間遅れニューラルネットワークの認識結
果との妥当性を表わす関数を決定する関数決定手段、お
よび 前記セグメンテーション手段によって決定された音韻グ
ループの区間と確信度および前記関数決定手段によって
決定された関数とに基づいて音声を認識する認識手段を
備えた、音声認識装置。 - 【請求項3】入力された音声を認識する音声認識装置で
あって、 前記入力された音声のある周波数帯域におけるパワーの
大きさと、ある周波数帯域におけるパワーの変化量と、
ある周波数帯域におけるスペクトルの変化量と、ある周
波数帯域と他のある周波数帯域とにおけるパワーの比の
音響特徴に基づいて、前記入力された音声を音韻グルー
プごとに区間と確信度を決定してセグメンテーションを
行なうセグメンテーション手段、 それぞれが音韻グループに対応して設けられ、前記セグ
メンテーション手段によってセグメンテーションされた
音韻グループのうち最大確信度の与えられた音韻グルー
プの音韻を認識する複数の時間遅れニューラルネットワ
ーク、 前記セグメンテーション手段によって決定された音韻グ
ループと前記時間遅れニューラルネットワークの認識結
果との妥当性を表わす関数を決定する関数決定手段、お
よび 前記セグメンテーション手段によって決定された音韻グ
ループの区間と確信度および前記関数決定手段によって
決定された関数とに基づいて音声を認識する認識手段を
備えた、音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1236471A JPH0682275B2 (ja) | 1989-09-11 | 1989-09-11 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1236471A JPH0682275B2 (ja) | 1989-09-11 | 1989-09-11 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0398098A JPH0398098A (ja) | 1991-04-23 |
| JPH0682275B2 true JPH0682275B2 (ja) | 1994-10-19 |
Family
ID=17001233
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1236471A Expired - Fee Related JPH0682275B2 (ja) | 1989-09-11 | 1989-09-11 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0682275B2 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100486735B1 (ko) * | 2003-02-28 | 2005-05-03 | 삼성전자주식회사 | 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치 |
| WO2007114346A1 (ja) * | 2006-03-30 | 2007-10-11 | Honda Moter Co., Ltd. | 音声認識装置 |
| JP6545633B2 (ja) * | 2016-03-17 | 2019-07-17 | 株式会社東芝 | 単語スコア計算装置、単語スコア計算方法及びプログラム |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0640274B2 (ja) * | 1989-03-13 | 1994-05-25 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声認識装置 |
-
1989
- 1989-09-11 JP JP1236471A patent/JPH0682275B2/ja not_active Expired - Fee Related
Non-Patent Citations (1)
| Title |
|---|
| 電子情報通信学会技術研究報告SP89−33(1989−6−23)P.69−76 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0398098A (ja) | 1991-04-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPS6336676B2 (ja) | ||
| CN102222498B (zh) | 声音判别系统、声音判别方法以及声音判别用程序 | |
| Glass et al. | Detection and recognition of nasal consonants in American English | |
| JPH0558553B2 (ja) | ||
| JPH0682275B2 (ja) | 音声認識装置 | |
| Villing et al. | Performance limits for envelope based automatic syllable segmentation | |
| Von Keller | An On‐Line Recognition System for Spoken Digits | |
| JPS58108590A (ja) | 音声認識装置 | |
| Paliwal et al. | Synthesis‐based recognition of continuous speech | |
| Muthusamy et al. | A review of research in automatic language identification | |
| CN121600911B (zh) | 一种语音识别结果的动态纠错方法及系统 | |
| JPH045198B2 (ja) | ||
| JPH0640274B2 (ja) | 音声認識装置 | |
| Hamzah et al. | Impact of acoustical voice activity detection on spontaneous filled pause classification | |
| Seman et al. | Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation | |
| JP3049711B2 (ja) | 音声処理装置 | |
| Pawar et al. | Analysis of FFSR, VFSR, MFSR techniques for feature extraction in speaker recognition: a review | |
| KASUYA et al. | Automatic Detection of Vowel Centers from Continuous Speech | |
| CN120564718A (zh) | 一种基于多语言连续语音流的内容识别方法 | |
| JPS5936759B2 (ja) | 音声認識方法 | |
| Pawate et al. | A new method for segmenting continuous speech | |
| Huerta-Hernández et al. | On the processing of fuzzy patterns for text independent phonetic speech segmentation | |
| Ananthapadmanabha et al. | Relative occurrences and difference of extrema for detection of transitions between broad phonetic classes | |
| JPS63226691A (ja) | 標準パターン作成方式 | |
| JPH03145167A (ja) | 音声認識方式 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |