JPH0373880B2

JPH0373880B2 -

Info

Publication number: JPH0373880B2
Application number: JP57076037A
Authority: JP
Priority date: 1982-05-06
Filing date: 1982-05-06
Publication date: 1991-11-25
Also published as: JPS58192098A

Description

【発明の詳細な説明】本発明は音声を認識する事のできる音声認識装
置に関する。

一般に、同一話者であつても発声の毎に発声時
間が異なるばかりか、アクセントにも多少の変動
があり、更に、話者が異なれば、上述の変動に個
人差が加わる事が知られている。従つて、これ等
の音声の変動成分を統計的手法を用いる事に依つ
て補なう事が提案され、近年では、この様な統計
的手法を導入して認識率の向上を目ざした音声認
識装置が開発されつつある。

この種従来の音声認識装置の構成を第１図に示
す。同図に於いて、(1)は音声を電気的な音声信号
に変換するマイクロフオンである。２は該マイク
ロフオン１に依つて得られる音声信号から音声の
特徴パラメータを抽出するパラメータ抽出回路で
あり、一つの認識音声の音声信号について音声帯
域（100Hz〜4KHz）を８分割した８個の周波数ス
ペクトル値が16サンプル配列する行列構成の特徴
パラメータ〔xij〕、（ｉ＝１、…、８；ｊ＝１、
…、16）が出力される。３は関数メモリであり、
特定多数ｎの認識音声について予じめ複数話者か
ら抽出した特徴パラメータ〔xij⁽ⁿ⁾〕に基づき、
これ等が正規分布を為すとして導出した話者の相
違に関する特徴パラメータの値の分布関数
〔xij⁽ⁿ⁾〕が複数の認識音声毎に貯えられている。
この認識音声を５つの母音（ア、イ、ウ、エ、
オ）とした場合、関数メモリ３の第１乃至第５関
数メモリ３１〜、３５に夫々ア、イ、ウ、エ、オ
順に〔fij⁽¹⁾〕、〜、〔fij⁽⁵⁾〕が格納されている。４
は確率計算回路であり、上記関数メモリ３の各分
布関数〔fij⁽ⁿ⁾〕、ｎ＝１、２、３、４、５に基づ
いて上記パラメータ抽出回路２から得られる入力
音声の特徴パラメータ〔xij〕の５つの母音に対
する存在確率〔fij⁽ⁿ⁾（xij）〕、ｎ＝１、２、３、
４、５を導出して、これ等を出力する。５はこれ
等の存在確率〔fij⁽ⁿ⁾（xij）〕、を貯える確率メモリ
であり、その第１乃至第５確率メモリ５１、〜、
５５の夫々に〔fij⁽ⁿ⁾（xij）〕、ｎ＝１、２、３、
４、５が貯えられる。６は認識音声決定回路であ
り、上記確率メモリ５の各存在確率〔fij⁽ⁿ⁾（xij）〕
の成分の和、即ちｄ（ｎ）＝₈ 〓ⁱ⁼¹ ₁₆ 〓^j=1(n) _fij （xij）ｎ＝１、２、３、４、５を求めて、ｄ（ｎ）が最大となる時のｎを検出す
る事に依つて、この時の入力音声が第ｎ番目の認
識音声と決定される。即ち、ｎ＝４なら（エ）で
あると決定される。

第２図は、上記関数メモリ３に貯えられた５つ
の母音に対する1KHzの周波数（ｉ＝Ｉ）の特定
サンプル（ｊ＝Ｊ）の周波数スペクトル値の存在
確率を示した分布関数fIJ⁽ⁿ⁾（xIJ）を図示したも
のである。同図に基づいて、xIJなる入力音声の
特徴パラメータの周波数スペクトル値に注目して
みること、このx〓IJと母音(イ)、(エ)、(オ)の各平均
値
ｘIJ⁽²⁾、IJ⁽⁴⁾、IJ⁽⁵⁾の夫々との誤差が等しく
なつているが、上述の関数メモリ３と確率計算回
路４とに依つて、夫々の確率fIJ⁽²⁾（x〓IJ）、fIJ⁽⁴⁾
（x〓IJ）、fIJ⁽⁵⁾（x〓IJ）、を求めると、同図から明
ら
かな如く、fIJ⁽⁴⁾（x〓IJ）が最大であつて、母音(エ)
に属する確率が最も高い事がわかる。この様に、
第１図の如き従来装置に於いては、音声の特徴パ
ラメータである周波数スペクトル値の分布の度合
いを加味した認識処理を行なう事に依つて、多少
とも認識率の向上が為されている。

しかしながら、第２図に於いて、今x¨IJなる周
波数スペクトル値に注目してみると、このx¨IJは
母音(ア)に属し、その確率fIJ⁽¹⁾（x¨IJ）が前述のx〓
IJ
が母音(エ)に属する確率fIJ⁽⁴⁾（x〓IJ）と等しくなつ
ているが、実際には、x¨IJが母音(ア)以外の母音(イ)
、
(ウ)、(エ)、(オ)に属する確率がほとんど無いのに比べ
て、x〓IJが母音(エ)以外の母音(イ)、(オ)に属する確
率
が充分にある事がわかる。この様に音声を識別す
るのに重要なx¨IJが母音(ア)に属する確率fIJ⁽¹⁾
（x¨IJ）と音声を識別するのに重要でないx〓IJが母
音(エ)に属する確率fIJ⁽⁴⁾（x〓IJ）とを同等に取り扱
う事、即ち、各認識音声個別の分布関数に依る確
率を直接類似度の得点として取り扱う事、には不
都合があり、この不都合に依つて、従来の音声認
識装置では、認識率の大巾な向上を期待する事は
できなかつた。

本発明は上述の不都合を解消する事を目的とし
てなされ、各認識音声個別の分布関数にその重要
度に相当した重み付けを行なう為の手段を備えた
音声認識装置を提供するものである。

第３図に本発明の音声認識装置の一実施例を示
す。同図に於いて１〜５は第１図と同様にマイク
ロフオン〜確率メモリを示しており、マイクロフ
オン１に入力された音声の特徴パラメータの周波
数スペクトル値〔xij〕がパラメータ抽出回路２
に依つて得られ、この特徴パラメータ〔xij〕の
各成分について、関数メモリ３に貯えられた各認
識音声の分布関数〔fij⁽ⁿ⁾〕、ｎ＝１、２、３、４、
５（アイウエオ順）に従い、確率計算回路４に依
り各認識音声毎の存在確率〔fij⁽ⁿ⁾（xij）〕、ｎ＝
１、２、３、４、５が算出され、夫々確率メモリ
５に貯えられる。本発明の実施例装置が第１図の
従来装置と異なる所は、各認識音声、即ち各母音
（ア、イ、ウ、エ、オ）の特徴パラメータ
〔xij⁽ⁿ⁾〕、ｎ＝１、２、３、４、５の分布関数
〔fij⁽ⁿ⁾〕の夫々の重要度を示す重み付け係数〔△
Hij⁽ⁿ⁾〕、ｎ＝１、２、３、４、５を第１乃至第５
重み付け係数メモリ７１、〜、７５に貯えた重み
付け係数メモリ７を備えた点にある。尚、８は類
似度計算回路、９は類似度メモリ、６は認識音声
決定回路である。

ここで、先ず上記重み付け係数メモリ７に貯え
られる重み付け係数〔Hij⁽ⁿ⁾〕について詳述する。

先ず、上記関数メモリ３の各母音（ア、イ、
ウ、エ、オ）の周波数スペクトル値xijの各分布
関数〔fij⁽ⁿ⁾（xij）〕に基づいて、夫々の分布関数
〔fij⁽ⁿ⁾（xij）〕を最大とする周波数スペクトル値、
即ち各母音（ア、イ、ウ、エ、オ）の代表値
ij⁽¹⁾、〜、ij⁽⁵⁾に於ける全ての母音（ア、イ、
ウ、エ、オ）についての存在確率〔fij⁽¹⁾（
ij⁽ⁿ⁾）〕、〜、〔fij⁽⁵⁾（ij⁽ⁿ⁾）〕、ｎ＝１、２、
３、
４、５を算出し、更に、各代表値ij⁽¹⁾、〜、
ij⁽⁵⁾に於ける存在確率の相対的な比率、即ち、上
記各代表値xij⁽¹⁾、〜、xij⁽⁵⁾がその母音に属する
相対的な確率を求めておく。

そして、ここで情報論理で云う情報量の概念を
導入すると、もともと、ある特徴パラメータxij
が５つの母音（ア、イ、ウ、エ、オ）の内の一つ
に属する相対的な確率が夫々gij⁽ⁿ⁾＝1/5である事
から、これ等パラメータxijの元来の情報量が Iij⁽ⁿ⁾＝log₂〔１／gij⁽ⁿ⁾＝log₂5 ｎ＝１、２、３、４、５として定義され、これ等情報量Iij⁽ⁿ⁾の期待値（エ
ントロビー）は全て Hij⁽ⁿ⁾＝₅ 〓ⁿ⁼¹ gij⁽ⁿ⁾・Iij⁽ⁿ⁾ ＝log₂5 ≒2.33 ｎ＝１、２、３、４、５で表わされる即ち、この期待値Hij⁽ⁿ⁾は５つの事
象が夫々均等に起こり得る場合の各事象について
の最大となる不確実性を示しているとも云える。

然るに、実際にある特徴パラメータxijが得ら
れると、例えば第２図に示す如く、その分布関数
〔fij⁽¹⁾〕が他のそれとは分離されている母音(ア)の
特徴パラメータとなる周波数スペクトル値の代表
値IJ⁽¹⁾が得られた時、即ち、母音(ア)の事象が発
生した場合には、この代表値IJ⁽¹⁾が各母音
（ア、イ、ウ、エ、オ）に属する相対的な確率は
夫々ほぼ gIJ⁽ⁿ⁾（IJ⁽¹⁾）＝１（ｎ＝１）０（ｎ＝２、３、４、５）であり、この時の情報量 IIJ⁽ⁿ⁾（IJ⁽¹⁾）＝log₂〔１／gIJ⁽ⁿ⁾（IJ⁽¹⁾）〕は IIJ⁽ⁿ⁾（IJ⁽¹⁾）＝０（ｎ＝１） ∞（ｎ＝２、３、４、５）と表わされ、その期待値H′IJ⁽¹⁾は H′IJ⁽¹⁾＝₅ 〓ⁿ⁼¹ gIJ⁽ⁿ⁾（IJ⁽¹⁾）・I′IJ⁽ⁿ⁾（IJ⁽¹⁾）＝０となり、この期待値H′IJ⁽¹⁾が元来の最大なる期待
値Hij⁽¹⁾に比べて△HIJ⁽¹⁾＝Hij⁽¹⁾−H′IJ⁽¹⁾≒2.33減
小した事がわかる。一方、例えばその分布関数
〔fij⁽⁴⁾〕が他のそれと重なり合つている母音(エ)の
特徴パラメータとなる周波数スペクトル値の代表
値IJ⁽⁴⁾が得られた時、即ち、母音(オ)の事象が発
生した場合には、この代表値IJ⁽⁴⁾が各母音
（ア、イ、ウ、エ、オ）に属する相対的な確率は
夫々ほぼ gIJ_(o)（IJ⁽⁴⁾）＝０(n=1、2、3) ＝5/8（ｎ＝４）＝3/8（ｎ＝５）であり、の時の情報量 IIJ⁽ⁿ⁾（xIJ⁽⁴⁾）＝log₂ 〔１／gIJ⁽ⁿ⁾（IJ₍₄₎）〕は IIJ⁽ⁿ⁾（IJ⁽⁴⁾）＝∞（ｎ＝１、２、３）＝0.64（ｎ＝４）＝1.4（ｎ＝５）と表わされ、その期待値H′IJ⁽⁴⁾は H′IJ⁽⁴⁾＝₅ 〓ⁿ⁼¹ gIJ⁽ⁿ⁾（IJ⁽⁴⁾）・I′IJ⁽ⁿ⁾（IJ⁽⁴⁾）＝0.93 となり、この期待値H′IJ⁽⁵⁾が元来の最大なる期待
値Hij⁽⁵⁾に比べて △HIJ⁽⁵⁾＝Hij⁽⁵⁾−H′IJ⁽⁵⁾≒1.4 減小した事がわかる。

上述の結果から、５つの各母音（ア、イ、ウ、
エ、オ）個有の特徴パラメータxijの分布関数
〔fij〕、ｎ＝１、２、３、４、５の内、他の４つ
の分布関数とは完全に分離された分布関数、即
ち、重要度の高い分布関数に対しては、上述の期
待値〔Hij⁽ⁿ⁾〕の変化値〔△Hij⁽ⁿ⁾〕は最大とな
る。一方、他の分布関数と重なる度合いが大きな
分布関数、即ち重要度の低い分布関数に対して
は、上述の期待値〔Hij⁽ⁿ⁾〕の変化値〔△Hij⁽ⁿ⁾〕
は小さくなり、５つの分布関数〔fij⁽ⁿ⁾〕が全く重
なり合う場合、即ち全く識別不可能であつて重要
度のない場合には、この変化値〔△Hij⁽ⁿ⁾〕は零
となる事がわかる。

従つて、上述した情報量Iij⁽ⁿ⁾の期待値〔Hij⁽ⁿ⁾〕
の変化値〔△Hij⁽ⁿ⁾〕は △Hij⁽ⁿ⁾＝Hij⁽ⁿ⁾−H′ij⁽ⁿ⁾ ＝log−｛₅ 〓^k=1 gij⁽ⁿ⁾′（ij⁽ⁿ⁾）・log₂ 〔１／gij⁽ⁿ⁾（ij⁽ⁿ⁾）〕｝ｎ＝１、２、３、４、５で求められ、これ等各変化値〔△Hij⁽ⁿ⁾〕が重み
付け係数として重み付け係数メモリ７に貯えられ
ている。

斯る重み付け係数メモリ７に格納されている各
重み付け係数〔△Hij⁽ⁿ⁾〕、ｎ＝１、２、３、４、
５は、類似度計算回路８に於いて、上記確率メモ
リ５に貯えられた入力音声の周波数スペクトル値
からなる特徴パラメータ〔xij〕の各存在確率
〔fij⁽ⁿ⁾（xij）〕、ｎ＝１、２、３、４、５に乗じら
れ、その重要度を示す重み付けがなされた類似度
〔△Hij⁽ⁿ⁾・fij⁽ⁿ⁾（xij）〕、ｎ＝１、２、３、４、
５
を得、これ等類似度が類似度メモリ９の第１乃至
第５メモリ９１、〜、９５に貯えられる。そして
認識音声決定回路６′に依つて上記類似度メモリ
９の各類似度〔△Hij⁽ⁿ⁾・fij⁽ⁿ⁾（xij）〕、ｎ＝１、
２、３、４、５の成分の和、即ち、 d′(n)＝₈ 〓ⁱ⁼¹ ₁₆ 〓^j=1 △Hij⁽ⁿ⁾・fij⁽ⁿ⁾(xij) ｎ＝１、２、３、４、５を求めて、d′（ｎ）が最大となる時のｎを検出し、
この時の入力音声が第ｎ番目の認識音声と決定さ
れる。即ちｎ＝２なら母音(イ)であると決定され
る。

斯る構成の音声認識装置に於於いて、例えば、
第２図の周波数スペクトル値x〓IJを特徴パラメー
タとする音音声が入力された場合は、類似度計算
回路８に依つてこの値x〓IJの各母音（ア、イ、ウ、
エ、オ）の夫々に対する類似度△HIJ⁽ⁿ⁾・fI⁽ⁿ⁾
Ｊ・x〓IJ（x〓IJ），ｎ＝１、２、３、４、５が求めら
れるが、この内母音(エ)に対する類似度は、第４重
み付け係数メモリ７４に貯えられた△HIJ⁽⁴⁾が1.4
であるので、1.4fIJ⁽⁴⁾（x〓IJ）となる。また、周波
数スペクトル値x¨IJを特徴パラメータとする音声
が入力された場合は、この値x¨IJの母音(ア)に対す
る類似度は第１重み付け係数メモリ７１に貯えら
れた△HIJ⁽¹⁾が最大値2.33であるので、2.33fIJ⁽¹⁾
（x¨IJ）となる。従つて、第２図に示す如く、x〓IJ
が母音(エ)に属する存在確率fIJ⁽⁴⁾（x〓IJ）とx¨IJが
母
音(ア)に属する存在確率fIJ⁽¹⁾（x¨IJ）とが等しい場
合であつても、重要度の低い存在確率fIJ⁽⁴⁾x〓IJ）
には低い類似度が与えられ、重要度の高い存在確
率fIJ⁽¹⁾（x¨IJ）には高い類似度が与えられる。

第４図に本発明の音声認識装置の他の実施例を
示す。同図の実施例装置が第３図の装置と異なる
所は関数メモリ３と重み付け係数メモリ７とを別
体に設ける代りに、分布関数〔fij⁽ⁿ⁾）に重み付け
係数〔△Hij⁽ⁿ⁾〕を乗じた形の重み付け分布関数
〔△Hij⁽ⁿ⁾・fij⁽ⁿ⁾〕、ｎ＝１、２、３、４、５を
夫々第１乃至第５の重み付け分布関数メモリ１０
１、〜、１０５に格納した重み付け分布関数メモ
リ１０を備えた点にある。本実施例装置の場合、
類似度計算回路８′は上記重み付け分布関数メモ
リ１０の各重み付け分布関数〔△Hij⁽ⁿ⁾・fij⁽ⁿ⁾〕
に基づき、パラメータ抽出回路２から得られる入
力音声の周波数スペクトル値からなる特徴パラメ
ータ〔xij〕の各母音（ア、イ、ウ、エ、オ）に
対する重み付けされた存在確率〔△Hij⁽ⁿ⁾・fij⁽ⁿ⁾
（xij）〕、ｎ＝１、２、３、４、５を類似度として
算出し、これ等類似度が類似度メモリ９に貯えら
れる事になる。

斯して得られた類似度〔△Hij⁽ⁿ⁾・fij⁽ⁿ⁾（xij）〕
は、認識音声決定回路６′に依つて、第３図の実
例装置と同様に処理され、認識音声が決定され
る。

以上の説明に於いては、５つの母音（ア、イ、
ウ、エ、オ）を認識音声とした場合即ちｎ＝５の
場合を示して来たが、50音全てを認識音声とする
場合には、ｎ＝50として処理する事ができる。ま
た音声の特徴パラメータ〔xij〕として、ｉ＝８
個の周波数スペクトル値、ｊ＝16サンプルの場合
を例示したが、この特徴パラメータ〔xij〕とし
てはホルマント周波数、及び自己相関係数等が使
用できる。

本発明の音声認識装置は、以上の説明から明ら
かな如く、特定多数の認識音声毎に、その特徴パ
ラメータの分布関数に基づき、特徴パラメータが
持つ情報量Ｉの期待値Ｈの△Ｈを予じめ算出して
おき、この変化値△Ｈを重み付け係数として貯え
た重み付け係数メモリを備え、類似度計算回路に
依つて、上記重み付け係数メモリの重み付け係数
△Ｈと入力音声の特徴パラメータに対する各認識
音声毎の存在確率ｆ（ｘ）との積△Ｈ・ｆ（ｘ）を
計算して、重み付けされた類似度を得るものであ
るので、各認識音声の特徴パラメータの分布関数
ｆの内、他の分布関数ｆと重なり合うものについ
ては、即ち、音声認識する為の重要度が低いもの
については、その認識音声に対する類似度を小さ
くする事ができる。従つて、重要度が高い認識音
声の存在確率ｆ（ｘ）を有効に用いて入力音声を
認識する事が可能となり、特定話者ばかりか不特
定話者に対してもその音声の変動成分を充分補
い、認識率の大巾な向上が図れる。

また本発明の音声認識装置は、特定多数の認識
音声毎に、その特徴パラメータの分布関数ｆに、
特徴パラメータが持つ情報量Ｉの期待値Ｈの変化
値△Ｈを重み付けした重み付け分布関数△Ｈ・ｆ
を貯えた重み付け分布関数メモリを備えたもので
あるので、認識率の向上が図れるばかりか、メモ
リ構成の簡略化が図れ、認識時の計算処理の高速
化が望める。

【図面の簡単な説明】

第１図は従来の音声認識装置を示すブロツク
図、第２図は特徴パラメータの分布関数の曲線
図、第３図は本発明の音声認識装置の一実施例の
ブロツク図、第４図は本発明装置の他の実施例の
ブロツク図、である。２…パラメータ抽出回路、３…関数メモリ、４
…確率計算回路、５…確率メモリ、６，６′…認
識音声決定回路、７…重み付け係数メモリ、８，
８′…類似度計算回路、９…類似度メモリ、１０
…重み付け分布関数メモリ。

Claims

【特許請求の範囲】１入力された音声からその音声の特徴パラメー
タｘを抽出するパラメータ抽出回路と、特定多数
の認識音声毎に複数の同一認識音声の特徴パラメ
ータｘの分布関数ｆを予じめ求めておき、この分
布関数ｆを貯えた関数メモリと、特定多数の認識
音声毎に、上記各分布関数に基づき上記特徴パラ
メータｘが持つ情報量Ｉの期待値Ｈの変化値△Ｈ
を予じめ算出しておき、この変化値△Ｈを重み付
け係数として貯えた重み付け係数メモリと、上記
関数メモリの各音声の分布関数ｆに基づいて上記
パラメータ抽出回路から得られる入力音声の特徴
パラメータｘが示す各認識音声の存在確率ｆ（ｘ）
を夫々算出する確率計算回路と、該確率計算回路
に依つて得られる各音声の存在確率ｆ（ｘ）と上
記重み付け係数メモリの各認識音声の重み付け係
数△Ｈとの積△Ｈ・ｆ（ｘ）を類似度として計算
する類似度計算回路と、からなり、該類似度計算
回路から得られる類似度が最大となる認識音声を
この時の入力音声と認識する事を特徴とした音声
認識装置。２入力された音声からその音声の特徴パラメー
タｘを抽出するパラメータ抽出回路と、特定多数
の認識音声毎に、複数の同一認識音声の特徴パラ
メータｘの分布関数ｆを予じめ求めておき、この
分布関数ｆに、該分布関数ｆに基づいて予じめ算
出した上記特徴パラメータｘの情報量Ｉの期待値
Ｈの変化値△Ｈを重み付けしてなる重み付け分布
関数△Ｈ・ｆを貯えた重み付け分布関数メモリ
と、該関数メモリの各音声の重み付け分布関数△
Ｈ・ｆに基づき、上記パラメータ抽出回路から得
られる入力音声の特徴パラメータｘが示す各認識
音声に対する重み付けされた存在確率△Ｈ・ｆ
（ｘ）を類似度として算出する類似度計算回路と、
からなり、該類似度計算回路から得られる類似度
が最大となる認識音声をこの時の入力音声と認識
する事を特徴とした音声認識装置。