JPH0682275B2

JPH0682275B2 - 音声認識装置

Info

Publication number: JPH0682275B2
Application number: JP1236471A
Authority: JP
Inventors: 康弘小森
Original assignee: ATR JIDO HONYAKU DENWA
Current assignee: ATR JIDO HONYAKU DENWA
Priority date: 1989-09-11
Filing date: 1989-09-11
Publication date: 1994-10-19
Anticipated expiration: 2009-10-19
Also published as: JPH0398098A

Description

【発明の詳細な説明】［産業上の利用分野］この発明は音声認識装置に関し、特に、入力された音声
を音韻グループごとにセグメンテーションを行ない、こ
のセグメンテーション法とこれに適用する音韻識別ニュ
ーラル・ネットワークを融合して音韻を認識するような
音声認識装置に関する。

［従来の技術および発明が解決しようとする課題］従来の音声認識の方法は、連続した音声波形に時間区分
を入れてセグメンテーションを行なった後に、音韻認識
を行なう方法と、連続した音声波形の時間区分およびそ
の部分の音韻認識を同時に行なういわゆる音韻スポッテ
ィング方法とが提案されている。

しかしながら、前者の方法においては、各音韻の存在す
る音韻環境にかかわらず、画一的なパワーやスペクトル
の変化などの単純なパラメータの組合わせでセグメンテ
ーションを行なっているため、高精度な音韻認識率を得
ることができない。さらに、セグメンテーション法は、
音韻区間の同定にのみ用いられ、セグメンテーション方
法により得られる音韻グループを用いて最終的な音韻の
認識結果を決定し、音韻認識率の向上を図ったものは提
案されていない。また、後者の方法においては、連続す
る音韻の境界付近で音韻の誤認識や挿入誤りが多く、そ
の結果高い音韻認識率が得られないという欠点があっ
た。

それゆえに、この発明の主たる目的は、セグメンテーシ
ョン誤りによる音韻の誤認識および音韻スポッティング
法による音韻境界における音韻の誤認識や挿入誤りを解
決し、さらにセグメンテーション法により得られる音韻
グループを用いて最終的な音韻の認識結果を決定し、高
い音韻認識が可能な音声認識装置を提供することであ
る。

［課題を解決するための手段］請求項１に係る発明は、入力された音声を認識する音声
認識装置であって、入力された音声のある周波数帯域に
おけるパワーの大きさと、ある周波数帯域におけるパワ
ーの変化量と、ある周波数帯域におけるスペクトルの変
化量と、ある周波数帯域と他のある周波数帯域とにおけ
るパワーの比の音響特徴に基づいて、入力された音声を
音韻グループごとに区間と確信度を決定してセグメンテ
ーションを行なうセグメンテーション手段と、それぞれ
が音韻グループに対応して設けられ、セグメンテーショ
ンされた音韻グループのうち最大確信度の与えられた音
韻グループの音韻を認識する複数の時間遅れニューラル
ネットワークと、決定された音韻グループの区間と確信
度および時間遅れニューラルネットワークによって認識
された音韻とに基づいて音声を認識する認識手段とを備
えて構成される。

請求項２に係る発明は、請求項１と同様のセグメンテー
ション手段と、セグメンテーションされた音韻グループ
の音韻を認識する時間遅れニューラルネットワークと、
決定された音韻グループと時間遅れニューラルネットワ
ークの認識結果との妥当性を表わす関数を決定する関数
決定手段と、決定された音韻グループの区間と確信度お
よび決定された関数とに基づいて音声を認識する認識手
段とを備えて構成される。

請求項３に係る発明は、請求項１のセグメンテーション
手段および複数の時間遅れニューラルネットワークを備
えるとともに、セグメンテーション手段によって決定さ
れた音韻グループと時間遅れニューラルネットワークの
認識結果との妥当性を表わす関数を決定する関数決定手
段と、決定された音韻グループの関数と確信度および関
数に基づいて音声を認識する認識手段とを備えて構成さ
れる。

［作用］この発明に係る音声認識装置は、入力された音声を音韻
グループごとに区間と確信度を決定してセグメンテーシ
ョンを行ない、そのうち最大確信度の与えられた音韻グ
ループの音韻を時間遅れニューラルネットワークによっ
て認識し、決定された音韻グループの区間と確信度およ
び時間遅れニューラルネットワークによって認識された
音韻とに基づいて音声を認識する。

［発明の実施例］第１図はこの発明が適用される音声認識装置の概略ブロ
ック図である。第１図を参照して、音声認識装置はアン
プ１とローパスフィルタ２とA/D変換器３と処理装置４
とを含む。アンプ１は入力された音声信号を増幅し、ロ
ーパスフィルタ２は増幅された音声信号から折返し雑音
を除去する。A/D変換器３は音声信号をサンプリングし
てディジタル信号に変換する。処理装置４はコンピュー
タ５と磁気ディスク６と端末類７とプリンタ８とを含
む。コンピュータ５はA/D変換部３から入力されたサン
プリングされた音声のディジタル信号に基づいて、後述
の第２図ないし第５図に示した手法を用いて音声認識を
行なう。

第２図ないし第５図はこの発明の音韻を識別して音声を
認識する各種方式を示す図である。

まず、第２図ないし第５図に示すそれぞれの手法におい
て、共通の構成について説明する。第２図ないし第５図
に示した各方式は、３つの部分からなり、それぞれ音韻
セグメンテーション部、音韻識別部および音韻決定部か
らなる。これらの具体的な説明は、本願発明者が先に成
した特許出願（特願平１−61928号公報）において詳細
に説明しており、ここでは簡単に説明する。音韻セグメ
ンテーション部はルールベースで行なわれ、音韻候補の
検出が、音韻クラスごとにスペクトログラム上の大局的
な音響特徴を用いて、音韻の存在し得る大まかな位置が
検出される。ここでの音韻クラスは、たとえば無声摩擦
音や有声摩擦音などである。

次に、音韻環境の仮説が行なわれる。すなわち、検出さ
れた音韻候補ごとに、それぞれの前後に音韻の種類が仮
説される。次に、音韻環境の仮説の下で音韻境界の検出
および仮説の検証が行なわれる。正しい仮説の下では、
仮説ごとに高い確信度が得られ、結果として音韻環境が
検出される。逆に誤った仮説では、確信度が低くなり、
音韻環境を得るに至らない。仮説が正しいか否かの判断
は、スペクトログラム上の音響特徴、すなわち入力され
た音声の或る周波数帯域におけるパワーの大きさと、パ
ワーの変化量と、スペクトルの変化量と、他の周波数帯
域に対するパワーの比等の音響特徴に基づいて判断され
る。次に、仮説された音韻クラスごとに最大確信度を与
える音韻境界がセグメンテーション結果とされ、その音
韻の始終端と音韻クラスが確信度付きで出力される。

第６図は音韻を識別するための時間遅れニューラル・ネ
ットワーク（TDNN）の一例を示す図である。次に、第６
図を参照して、上述のようにして検出されたセグメンテ
ーションの音韻を識別する方法について説明する。第６
図に示した時間遅れニューラル・ネットワークは18の子
音を有声破裂音，無声破裂音，鼻音，有声摩擦音，無声
摩擦音，流音の６つのクラスにグループ化し、それぞれ
のグループが入力層11に入力される。入力層11は従来か
ら知られているバックプロパゲーションの学習により、
セグメンテーションされた音韻の識別を行なう。各クラ
スの識別は中間層12によって行なわれる。この実施例で
は、時間遅れニューラル・ネットワークの学習は、すべ
ての子音の終端位置を入力層11の前から2/3の位置に合
わせて行なわれる。同様にして、音韻識別では、セグメ
ンテーション結果の終端が入力層11の同じ位置に適用さ
れ、時間遅れニューラル・ネットワークの出力層13が出
力する最大確信度を与える音韻を識別結果とする。

第２図ないし第５図に示した音韻決定部では、音韻クラ
スごとにセグメンテーション結果およびその区間に適用
した時間遅れニューラル・ネットワークが出力する音韻
識別結果を用いて、最大確信度を与える音韻とその区間
が決定される。

第２図に示した方式は最も単純なセグメンテーション法
と音韻識別法の組合わせにより音韻を識別し、音声を認
識するものである。入力された音声は分析され、特徴抽
出が行なわれた後、セグメンテーション部において、た
とえば無声摩擦音の確信度が0.62であり、有声摩擦音の
確信度が0.51であるという決定が行なわれる。そして、
確信度の大きい無声摩擦音が選択され、この無声摩擦音
が第６図に示した時間遅れニューラル・ネットワークに
入力され、前述の特願平１−61928号に開示されている
方式を用いて音韻識別が行なわれて音韻の認識が行なわ
れる。

第３図に示した例は、セグメンテーション法を音韻グル
ープの絞り込みに用いた手段により音韻が識別され、音
声を認識するものである。この例では、入力された音声
は分析され特徴抽出の結果、セグメンテーション部にお
いて最大確信度を与える結果が決定され、その音韻グル
ープが有声音グループであるか無声音グループであるか
に応じて有声子音識別用時間遅れネットワークあるいは
無声子音識別時間遅れニューラル・ネットワークが選択
的に適用されてその区間内の音韻識別が行なわれる。

一般に、識別音韻の種類が少ないほど時間遅れニューラ
ル・ネットワークの識別能力が上がることから、セグメ
ンテーション結果の音韻クラス間に混同がない場合、ク
ラスごとに音韻識別を行なう時間遅れニューラル・ネッ
トワークを用いた方が識別率が向上することが期待され
る。つまり、セグメンテーション部により音韻クラスの
絞り込みを行ない、そのクラス内の音韻識別が行なわれ
る。

第７図は第３図で説明した有声子音識別用時間遅れニュ
ーラル・ネットワークおよび無声子音識別用時間遅れニ
ューラル・ネットワークの一例を示す図である。第７図
（ａ）に示した無声子音識別用ニューラル・ネットワー
クは無声８子音（p,t,k,ch,ts,s,sh,h）を識別するもの
であり、入力層21と中間層22と出力層23とを含む。ま
た、第７図（ｂ）に示した有声子音識別用時間遅れニュ
ーラル・ネットワークは有声７子音（b,d,g,m,n,r,z）
を識別するものであり、入力層31と中間層32と出力層33
とを含む。

第４図に示した例は、セグメンテーション法の音韻グル
ープと音韻識別法の結果の妥当性を表わす関数を用いて
音韻を識別して音声を認識するものであり、第２図およ
び第３図で説明した実施例と同様にして、セグメンテー
ション部において無声摩擦音と有声摩擦音の確信度が決
定され、その後第６図に示した時間遅れニューラル・ネ
ットワークを用いて、その区間内の音韻識別が行なわれ
て音韻認識が行なわれる。すなわち、この第４図に示し
た例では、音韻区間の候補とその音韻グループが出力さ
れ、時間遅れニューラル・ネットワークの識別音韻とセ
グメンテーション結果の音韻クラスの妥当性を考慮に入
れることができ、音韻セグメンテーションおよび音韻識
別の能力がともに向上することが期待できる。

ここで、その妥当性を表わす関数の一例として、次の第
（１）式および第（２）式を用いて、最大の確信度（Ce
rtainty Factor）を与える音韻を認識結果とする方法
として示す。

CFrec＝combine （CFseg,CFnn） …（１） CFnn＝ｋ・Wnn・ｆ（arg（seg）,arg（nn）） …
（２）但し、 CFrec:最終音韻認識の確信度 CFseg:セグメンテーション結果の確信度 CFnn:音韻識別結果の確信度 Wnn:時間遅れニューラル・ネットワークの識別音韻の出
力値 arg（seg）：セグメンテーション結果の音韻クラス arg（nn）：時間遅れニューラル・ネットワークの識別
音韻 k:係数（時間遅れニューラル・ネットワークの信頼度,k
が大きいほど時間遅れニューラル・ネットワークの出力
結果を信用している。）ｆ（）：識別音韻と音韻クラスの妥当性を示す関数。
時間遅れニューラル・ネットワークの識別音韻がセグメ
ンテーション結果の音韻クラスに属せば1.0,属さなけれ
ば1.0,有声音／無声音が一致していれば0.5を与える。

combine（）:MYCINの確信度計算モデル第５図に示した例は、セグメンテーション法を音韻グル
ープの絞り込みに用いた手段により音韻の識別手段を選
択し、セグメンテーション法の音韻グループと音韻識別
法の結果の妥当性を表わす関数を用いたことにより音韻
を識別し、音声を認識するものである。

第８図はこの発明の各方式による子音認識結果をテーブ
ルに示した図である。18子音識別時間遅れニューラル・
ネットワークと有声音／無声音の２つの時間遅れニュー
ラル・ネットワークとを用いた場合、時間遅れニューラ
ル・ネットワークの識別音韻とセグメンテーション結果
の音韻クラスとの妥当性を考慮する場合としない場合、
さらに妥当性を考慮する場合どの程度時間遅れニューラ
ル・ネットワークの出力結果を信用するかなどの条件を
変えた実験を行なった。第８図において、18−CONS−TD
NNは18子音識別時間遅れニューラル・ネットワークを用
いた場合を示し、V/UV−TDNNは有声音／無声音の２つの
時間遅れニューラル・ネットワークを用いた場合を示
し、NO COMBは時間遅れニューラル・ネットワークの識
別音韻とセグメンテーション結果の音韻クラスの妥当性
を考慮しない場合を示し、with COMBは考慮した場合を
示す。

前述の第（１）式および第（２）式の時間遅れニューラ
ル・ネットワークに対する依存度としては、ｋ＝0.4,0.
8の２つの値を用いた。ｋが大きいほど時間遅れニュー
ラル・ネットワークの出力結果を信用していることにな
る。Recognition Rateは音韻セグメンテーション，音
韻識別ともに正しく行なわれた場合を示し、Insertion
Error Rateは付加誤り率を示し、Segmentation Rat
eは音韻の始終端境界誤差が50msec以内に検出され正し
くセグメンテーションされたと判断された割合を示し、
Boundary Alignment Errorは正しく検出された境界の
視察ラベルに対するずれを示し、within Correct Seg
mentation Rateはこの発明により正しくセグメンテー
ションされた区間の中での音韻識別率を示す。第８図に
示したテーブルは、音韻クラスの絞り込みを行なった上
で時間遅れニューラル・ネットワークを適用する方法の
有効性、また時間遅れニューラル・ネットワークの識別
音韻とセグメンテーション結果の音韻クラスの妥当性を
考慮する方法の有効性を示している。

なお、音韻グループの絞り込みは、有声音／無声音など
の分け方に限ることなく、摩擦音声，鼻音声音，破裂性
音などの分け方も可能であり、この分け方に応じた音声
識別方法を適用すればよい。

また、上述の実施例の音韻識別方式においては、時間遅
れニューラル・ネットワークを用いたが、その他の一般
的な統計的手法による音韻グループ内の音韻識別方法を
用いてもよい。たとえば、一般のニューラル・ネットワ
ークによる音韻識別方法や、HMMによる音韻識別方法
や、ベイズ則による音韻識別方法や、線形判別による音
韻識別方法や、LVQなどの方法にて設計した標準パター
ンを用いた音韻識別方法などが適用可能である。

［発明の効果］以上のように、この発明によれば、入力された音声を音
韻グループごとに区間と確信度を決定してセグメンテー
ションを行ない、最大確信度の与えられた音韻グループ
の音韻を認識し、決定された音韻グループの区間と確信
度および時間遅れニューラルネットワークによって認識
された音韻とに基づいて音声を認識することができ、高
い性能の音韻認識を可能にすることができる。

【図面の簡単な説明】

第１図はこの発明の一実施例が適用される音声認識装置
全体の概略ブロック図である。第２図はこの発明の一実
施例における最も単純なセグメンテーション法と音韻識
別法の組合わせにより音韻を識別して音声を認識する一
例を示す図である。第３図はセグメンテーション法を音
韻グループの絞り込みに用いた手段により音韻を識別し
て音声を認識する一例を示す図である。第４図はセグメ
ンテーション法の音韻グループと音韻識別法の結果の妥
当性を表わす関数を用いたことにより音韻を識別して音
声を認識する一例を示す図である。第５図はセグメンテ
ーション法を音韻グループの絞り込みに用いた手段によ
り音韻を識別し、セグメンテーション法の音韻グループ
と音韻識別法の結果の妥当性を示す関数を用いたことに
より音韻を識別して音声を認識する一例を示す図であ
る。第６図は第２図および第４図で用いた18子音識別用
時間遅れニューラル・ネットワークの一例を示す図であ
る。第７図は第３図および第５図の実施例で用いた有声
音／無声音別の子音識別用時間遅れニューラル・ネット
ワークの一例を示す図である。第８図はこの発明の各方
式による音韻認識結果をテーブルに示した図である。図において、１はアンプ、２はローパスフィルタ、３は
A/D変換器、４は処理装置、５はコンピュータ、６は磁
気ディスク、７は端末類、８はプリンタ、11,21,31は入
力層、12,22,32は中間層、13,23,33は出力層を示す。

Claims

【特許請求の範囲】

【請求項１】入力された音声を認識する音声認識装置で
あって、前記入力された音声のある周波数帯域におけるパワーの
大きさと、ある周波数帯域におけるパワーの変化量と、
ある周波数帯域におけるスペクトルの変化量と、ある周
波数帯域と他のある周波数帯域とにおけるパワーの比の
音響特徴に基づいて、前記入力された音声を音韻グルー
プごとに区間と確信度を決定してセグメンテーションを
行なうセグメンテーション手段、それぞれが音韻グループに対応して設けられ、前記セグ
メンテーション手段によってセグメンテーションされた
音韻グループのうち、最大確信度の与えられた音韻グル
ープの音韻を認識する複数の時間遅れニューラルネット
ワーク、および前記セグメンテーション手段によって決定された音韻グ
ループの区間と確信度および前記時間遅れニューラルネ
ットワークによって認識された音韻とに基づいて音声を
認識する認識手段を備えた、音声認識装置。
【請求項２】入力された音声を認識する音声認識装置で
あって、前記入力された音声のある周波数帯域におけるパワーの
大きさと、ある周波数帯域におけるパワーの変化量と、
ある周波数帯域におけるスペクトルの変化量と、ある周
波数帯域と他のある周波数帯域とにおけるパワーの比の
音響特徴に基づいて、前記入力された音声を音韻グルー
プごとに区間と確信度を決定してセグメンテーションを
行なうセグメンテーション手段、前記セグメンテーション手段によってセグメンテーショ
ンされた音韻グループの音韻を認識する時間遅れニュー
ラルネットワーク、前記セグメンテーション手段によって決定された音韻グ
ループと前記時間遅れニューラルネットワークの認識結
果との妥当性を表わす関数を決定する関数決定手段、お
よび前記セグメンテーション手段によって決定された音韻グ
ループの区間と確信度および前記関数決定手段によって
決定された関数とに基づいて音声を認識する認識手段を
備えた、音声認識装置。
【請求項３】入力された音声を認識する音声認識装置で
あって、前記入力された音声のある周波数帯域におけるパワーの
大きさと、ある周波数帯域におけるパワーの変化量と、
ある周波数帯域におけるスペクトルの変化量と、ある周
波数帯域と他のある周波数帯域とにおけるパワーの比の
音響特徴に基づいて、前記入力された音声を音韻グルー
プごとに区間と確信度を決定してセグメンテーションを
行なうセグメンテーション手段、それぞれが音韻グループに対応して設けられ、前記セグ
メンテーション手段によってセグメンテーションされた
音韻グループのうち最大確信度の与えられた音韻グルー
プの音韻を認識する複数の時間遅れニューラルネットワ
ーク、前記セグメンテーション手段によって決定された音韻グ
ループと前記時間遅れニューラルネットワークの認識結
果との妥当性を表わす関数を決定する関数決定手段、お
よび前記セグメンテーション手段によって決定された音韻グ
ループの区間と確信度および前記関数決定手段によって
決定された関数とに基づいて音声を認識する認識手段を
備えた、音声認識装置。