JPH0373880B2 - - Google Patents
Info
- Publication number
- JPH0373880B2 JPH0373880B2 JP57076037A JP7603782A JPH0373880B2 JP H0373880 B2 JPH0373880 B2 JP H0373880B2 JP 57076037 A JP57076037 A JP 57076037A JP 7603782 A JP7603782 A JP 7603782A JP H0373880 B2 JPH0373880 B2 JP H0373880B2
- Authority
- JP
- Japan
- Prior art keywords
- recognized
- voice
- distribution function
- speech
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000015654 memory Effects 0.000 claims description 42
- 238000005315 distribution function Methods 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Description
【発明の詳細な説明】
本発明は音声を認識する事のできる音声認識装
置に関する。
置に関する。
一般に、同一話者であつても発声の毎に発声時
間が異なるばかりか、アクセントにも多少の変動
があり、更に、話者が異なれば、上述の変動に個
人差が加わる事が知られている。従つて、これ等
の音声の変動成分を統計的手法を用いる事に依つ
て補なう事が提案され、近年では、この様な統計
的手法を導入して認識率の向上を目ざした音声認
識装置が開発されつつある。
間が異なるばかりか、アクセントにも多少の変動
があり、更に、話者が異なれば、上述の変動に個
人差が加わる事が知られている。従つて、これ等
の音声の変動成分を統計的手法を用いる事に依つ
て補なう事が提案され、近年では、この様な統計
的手法を導入して認識率の向上を目ざした音声認
識装置が開発されつつある。
この種従来の音声認識装置の構成を第1図に示
す。同図に於いて、(1)は音声を電気的な音声信号
に変換するマイクロフオンである。2は該マイク
ロフオン1に依つて得られる音声信号から音声の
特徴パラメータを抽出するパラメータ抽出回路で
あり、一つの認識音声の音声信号について音声帯
域(100Hz〜4KHz)を8分割した8個の周波数ス
ペクトル値が16サンプル配列する行列構成の特徴
パラメータ〔xij〕、(i=1、…、8;j=1、
…、16)が出力される。3は関数メモリであり、
特定多数nの認識音声について予じめ複数話者か
ら抽出した特徴パラメータ〔xij(n)〕に基づき、
これ等が正規分布を為すとして導出した話者の相
違に関する特徴パラメータの値の分布関数
〔xij(n)〕が複数の認識音声毎に貯えられている。
この認識音声を5つの母音(ア、イ、ウ、エ、
オ)とした場合、関数メモリ3の第1乃至第5関
数メモリ31〜、35に夫々ア、イ、ウ、エ、オ
順に〔fij(1)〕、〜、〔fij(5)〕が格納されている。4
は確率計算回路であり、上記関数メモリ3の各分
布関数〔fij(n)〕、n=1、2、3、4、5に基づ
いて上記パラメータ抽出回路2から得られる入力
音声の特徴パラメータ〔xij〕の5つの母音に対
する存在確率〔fij(n)(xij)〕、n=1、2、3、
4、5を導出して、これ等を出力する。5はこれ
等の存在確率〔fij(n)(xij)〕、を貯える確率メモリ
であり、その第1乃至第5確率メモリ51、〜、
55の夫々に〔fij(n)(xij)〕、n=1、2、3、
4、5が貯えられる。6は認識音声決定回路であ
り、上記確率メモリ5の各存在確率〔fij(n)(xij)〕
の成分の和、即ち d(n)=8 〓i=1 16 〓j=1(n) fij (xij) n=1、2、3、4、5 を求めて、d(n)が最大となる時のnを検出す
る事に依つて、この時の入力音声が第n番目の認
識音声と決定される。即ち、n=4なら(エ)で
あると決定される。
す。同図に於いて、(1)は音声を電気的な音声信号
に変換するマイクロフオンである。2は該マイク
ロフオン1に依つて得られる音声信号から音声の
特徴パラメータを抽出するパラメータ抽出回路で
あり、一つの認識音声の音声信号について音声帯
域(100Hz〜4KHz)を8分割した8個の周波数ス
ペクトル値が16サンプル配列する行列構成の特徴
パラメータ〔xij〕、(i=1、…、8;j=1、
…、16)が出力される。3は関数メモリであり、
特定多数nの認識音声について予じめ複数話者か
ら抽出した特徴パラメータ〔xij(n)〕に基づき、
これ等が正規分布を為すとして導出した話者の相
違に関する特徴パラメータの値の分布関数
〔xij(n)〕が複数の認識音声毎に貯えられている。
この認識音声を5つの母音(ア、イ、ウ、エ、
オ)とした場合、関数メモリ3の第1乃至第5関
数メモリ31〜、35に夫々ア、イ、ウ、エ、オ
順に〔fij(1)〕、〜、〔fij(5)〕が格納されている。4
は確率計算回路であり、上記関数メモリ3の各分
布関数〔fij(n)〕、n=1、2、3、4、5に基づ
いて上記パラメータ抽出回路2から得られる入力
音声の特徴パラメータ〔xij〕の5つの母音に対
する存在確率〔fij(n)(xij)〕、n=1、2、3、
4、5を導出して、これ等を出力する。5はこれ
等の存在確率〔fij(n)(xij)〕、を貯える確率メモリ
であり、その第1乃至第5確率メモリ51、〜、
55の夫々に〔fij(n)(xij)〕、n=1、2、3、
4、5が貯えられる。6は認識音声決定回路であ
り、上記確率メモリ5の各存在確率〔fij(n)(xij)〕
の成分の和、即ち d(n)=8 〓i=1 16 〓j=1(n) fij (xij) n=1、2、3、4、5 を求めて、d(n)が最大となる時のnを検出す
る事に依つて、この時の入力音声が第n番目の認
識音声と決定される。即ち、n=4なら(エ)で
あると決定される。
第2図は、上記関数メモリ3に貯えられた5つ
の母音に対する1KHzの周波数(i=I)の特定
サンプル(j=J)の周波数スペクトル値の存在
確率を示した分布関数fIJ(n)(xIJ)を図示したも
のである。同図に基づいて、xIJなる入力音声の
特徴パラメータの周波数スペクトル値に注目して
みること、このx〓IJと母音(イ)、(エ)、(オ)の各平均
値
xIJ(2)、IJ(4)、IJ(5)の夫々との誤差が等しく
なつているが、上述の関数メモリ3と確率計算回
路4とに依つて、夫々の確率fIJ(2)(x〓IJ)、fIJ(4)
(x〓IJ)、fIJ(5)(x〓IJ)、を求めると、同図から明
ら
かな如く、fIJ(4)(x〓IJ)が最大であつて、母音(エ)
に属する確率が最も高い事がわかる。この様に、
第1図の如き従来装置に於いては、音声の特徴パ
ラメータである周波数スペクトル値の分布の度合
いを加味した認識処理を行なう事に依つて、多少
とも認識率の向上が為されている。
の母音に対する1KHzの周波数(i=I)の特定
サンプル(j=J)の周波数スペクトル値の存在
確率を示した分布関数fIJ(n)(xIJ)を図示したも
のである。同図に基づいて、xIJなる入力音声の
特徴パラメータの周波数スペクトル値に注目して
みること、このx〓IJと母音(イ)、(エ)、(オ)の各平均
値
xIJ(2)、IJ(4)、IJ(5)の夫々との誤差が等しく
なつているが、上述の関数メモリ3と確率計算回
路4とに依つて、夫々の確率fIJ(2)(x〓IJ)、fIJ(4)
(x〓IJ)、fIJ(5)(x〓IJ)、を求めると、同図から明
ら
かな如く、fIJ(4)(x〓IJ)が最大であつて、母音(エ)
に属する確率が最も高い事がわかる。この様に、
第1図の如き従来装置に於いては、音声の特徴パ
ラメータである周波数スペクトル値の分布の度合
いを加味した認識処理を行なう事に依つて、多少
とも認識率の向上が為されている。
しかしながら、第2図に於いて、今x¨IJなる周
波数スペクトル値に注目してみると、このx¨IJは
母音(ア)に属し、その確率fIJ(1)(x¨IJ)が前述のx〓
IJ
が母音(エ)に属する確率fIJ(4)(x〓IJ)と等しくなつ
ているが、実際には、x¨IJが母音(ア)以外の母音(イ)
、
(ウ)、(エ)、(オ)に属する確率がほとんど無いのに比べ
て、x〓IJが母音(エ)以外の母音(イ)、(オ)に属する確
率
が充分にある事がわかる。この様に音声を識別す
るのに重要なx¨IJが母音(ア)に属する確率fIJ(1)
(x¨IJ)と音声を識別するのに重要でないx〓IJが母
音(エ)に属する確率fIJ(4)(x〓IJ)とを同等に取り扱
う事、即ち、各認識音声個別の分布関数に依る確
率を直接類似度の得点として取り扱う事、には不
都合があり、この不都合に依つて、従来の音声認
識装置では、認識率の大巾な向上を期待する事は
できなかつた。
波数スペクトル値に注目してみると、このx¨IJは
母音(ア)に属し、その確率fIJ(1)(x¨IJ)が前述のx〓
IJ
が母音(エ)に属する確率fIJ(4)(x〓IJ)と等しくなつ
ているが、実際には、x¨IJが母音(ア)以外の母音(イ)
、
(ウ)、(エ)、(オ)に属する確率がほとんど無いのに比べ
て、x〓IJが母音(エ)以外の母音(イ)、(オ)に属する確
率
が充分にある事がわかる。この様に音声を識別す
るのに重要なx¨IJが母音(ア)に属する確率fIJ(1)
(x¨IJ)と音声を識別するのに重要でないx〓IJが母
音(エ)に属する確率fIJ(4)(x〓IJ)とを同等に取り扱
う事、即ち、各認識音声個別の分布関数に依る確
率を直接類似度の得点として取り扱う事、には不
都合があり、この不都合に依つて、従来の音声認
識装置では、認識率の大巾な向上を期待する事は
できなかつた。
本発明は上述の不都合を解消する事を目的とし
てなされ、各認識音声個別の分布関数にその重要
度に相当した重み付けを行なう為の手段を備えた
音声認識装置を提供するものである。
てなされ、各認識音声個別の分布関数にその重要
度に相当した重み付けを行なう為の手段を備えた
音声認識装置を提供するものである。
第3図に本発明の音声認識装置の一実施例を示
す。同図に於いて1〜5は第1図と同様にマイク
ロフオン〜確率メモリを示しており、マイクロフ
オン1に入力された音声の特徴パラメータの周波
数スペクトル値〔xij〕がパラメータ抽出回路2
に依つて得られ、この特徴パラメータ〔xij〕の
各成分について、関数メモリ3に貯えられた各認
識音声の分布関数〔fij(n)〕、n=1、2、3、4、
5(アイウエオ順)に従い、確率計算回路4に依
り各認識音声毎の存在確率〔fij(n)(xij)〕、n=
1、2、3、4、5が算出され、夫々確率メモリ
5に貯えられる。本発明の実施例装置が第1図の
従来装置と異なる所は、各認識音声、即ち各母音
(ア、イ、ウ、エ、オ)の特徴パラメータ
〔xij(n)〕、n=1、2、3、4、5の分布関数
〔fij(n)〕の夫々の重要度を示す重み付け係数〔△
Hij(n)〕、n=1、2、3、4、5を第1乃至第5
重み付け係数メモリ71、〜、75に貯えた重み
付け係数メモリ7を備えた点にある。尚、8は類
似度計算回路、9は類似度メモリ、6は認識音声
決定回路である。
す。同図に於いて1〜5は第1図と同様にマイク
ロフオン〜確率メモリを示しており、マイクロフ
オン1に入力された音声の特徴パラメータの周波
数スペクトル値〔xij〕がパラメータ抽出回路2
に依つて得られ、この特徴パラメータ〔xij〕の
各成分について、関数メモリ3に貯えられた各認
識音声の分布関数〔fij(n)〕、n=1、2、3、4、
5(アイウエオ順)に従い、確率計算回路4に依
り各認識音声毎の存在確率〔fij(n)(xij)〕、n=
1、2、3、4、5が算出され、夫々確率メモリ
5に貯えられる。本発明の実施例装置が第1図の
従来装置と異なる所は、各認識音声、即ち各母音
(ア、イ、ウ、エ、オ)の特徴パラメータ
〔xij(n)〕、n=1、2、3、4、5の分布関数
〔fij(n)〕の夫々の重要度を示す重み付け係数〔△
Hij(n)〕、n=1、2、3、4、5を第1乃至第5
重み付け係数メモリ71、〜、75に貯えた重み
付け係数メモリ7を備えた点にある。尚、8は類
似度計算回路、9は類似度メモリ、6は認識音声
決定回路である。
ここで、先ず上記重み付け係数メモリ7に貯え
られる重み付け係数〔Hij(n)〕について詳述する。
られる重み付け係数〔Hij(n)〕について詳述する。
先ず、上記関数メモリ3の各母音(ア、イ、
ウ、エ、オ)の周波数スペクトル値xijの各分布
関数〔fij(n)(xij)〕に基づいて、夫々の分布関数
〔fij(n)(xij)〕を最大とする周波数スペクトル値、
即ち各母音(ア、イ、ウ、エ、オ)の代表値
ij(1)、〜、ij(5)に於ける全ての母音(ア、イ、
ウ、エ、オ)についての存在確率〔fij(1)(
ij(n))〕、〜、〔fij(5)(ij(n))〕、n=1、2、
3、
4、5を算出し、更に、各代表値ij(1)、〜、
ij(5)に於ける存在確率の相対的な比率、即ち、上
記各代表値xij(1)、〜、xij(5)がその母音に属する
相対的な確率 を求めておく。
ウ、エ、オ)の周波数スペクトル値xijの各分布
関数〔fij(n)(xij)〕に基づいて、夫々の分布関数
〔fij(n)(xij)〕を最大とする周波数スペクトル値、
即ち各母音(ア、イ、ウ、エ、オ)の代表値
ij(1)、〜、ij(5)に於ける全ての母音(ア、イ、
ウ、エ、オ)についての存在確率〔fij(1)(
ij(n))〕、〜、〔fij(5)(ij(n))〕、n=1、2、
3、
4、5を算出し、更に、各代表値ij(1)、〜、
ij(5)に於ける存在確率の相対的な比率、即ち、上
記各代表値xij(1)、〜、xij(5)がその母音に属する
相対的な確率 を求めておく。
そして、ここで情報論理で云う情報量の概念を
導入すると、もともと、ある特徴パラメータxij
が5つの母音(ア、イ、ウ、エ、オ)の内の一つ
に属する相対的な確率が夫々gij(n)=1/5である事
から、これ等パラメータxijの元来の情報量が Iij(n)=log2〔1/gij(n)=log25 n=1、2、3、4、5 として定義され、これ等情報量Iij(n)の期待値(エ
ントロビー)は全て Hij(n)=5 〓n=1 gij(n)・Iij(n) =log25 ≒2.33 n=1、2、3、4、5 で表わされる即ち、この期待値Hij(n)は5つの事
象が夫々均等に起こり得る場合の各事象について
の最大となる不確実性を示しているとも云える。
導入すると、もともと、ある特徴パラメータxij
が5つの母音(ア、イ、ウ、エ、オ)の内の一つ
に属する相対的な確率が夫々gij(n)=1/5である事
から、これ等パラメータxijの元来の情報量が Iij(n)=log2〔1/gij(n)=log25 n=1、2、3、4、5 として定義され、これ等情報量Iij(n)の期待値(エ
ントロビー)は全て Hij(n)=5 〓n=1 gij(n)・Iij(n) =log25 ≒2.33 n=1、2、3、4、5 で表わされる即ち、この期待値Hij(n)は5つの事
象が夫々均等に起こり得る場合の各事象について
の最大となる不確実性を示しているとも云える。
然るに、実際にある特徴パラメータxijが得ら
れると、例えば第2図に示す如く、その分布関数
〔fij(1)〕が他のそれとは分離されている母音(ア)の
特徴パラメータとなる周波数スペクトル値の代表
値IJ(1)が得られた時、即ち、母音(ア)の事象が発
生した場合には、この代表値IJ(1)が各母音
(ア、イ、ウ、エ、オ)に属する相対的な確率は
夫々ほぼ gIJ(n)(IJ(1)) =1(n=1) 0(n=2、3、4、5) であり、この時の情報量 IIJ(n)(IJ(1))=log2〔1/gIJ(n)(IJ(1))〕は IIJ(n)(IJ(1)) =0(n=1) ∞(n=2、3、4、5) と表わされ、その期待値H′IJ(1)は H′IJ(1)=5 〓n=1 gIJ(n)(IJ(1)) ・I′IJ(n)(IJ(1))=0 となり、この期待値H′IJ(1)が元来の最大なる期待
値Hij(1)に比べて△HIJ(1)=Hij(1)−H′IJ(1)≒2.33減
小した事がわかる。一方、例えばその分布関数
〔fij(4)〕が他のそれと重なり合つている母音(エ)の
特徴パラメータとなる周波数スペクトル値の代表
値IJ(4)が得られた時、即ち、母音(オ)の事象が発
生した場合には、この代表値IJ(4)が各母音
(ア、イ、ウ、エ、オ)に属する相対的な確率は
夫々ほぼ gIJ(o)(IJ(4))=0(n=1、2、3) =5/8(n=4) =3/8(n=5) であり、の時の情報量 IIJ(n)(xIJ(4))=log2 〔1/gIJ(n)(IJ(4))〕 は IIJ(n)(IJ(4))=∞(n=1、2、3) =0.64(n=4) =1.4(n=5) と表わされ、その期待値H′IJ(4)は H′IJ(4)=5 〓n=1 gIJ(n)(IJ(4)) ・I′IJ(n)(IJ(4))=0.93 となり、この期待値H′IJ(5)が元来の最大なる期待
値Hij(5)に比べて △HIJ(5)=Hij(5)−H′IJ(5)≒1.4 減小した事がわかる。
れると、例えば第2図に示す如く、その分布関数
〔fij(1)〕が他のそれとは分離されている母音(ア)の
特徴パラメータとなる周波数スペクトル値の代表
値IJ(1)が得られた時、即ち、母音(ア)の事象が発
生した場合には、この代表値IJ(1)が各母音
(ア、イ、ウ、エ、オ)に属する相対的な確率は
夫々ほぼ gIJ(n)(IJ(1)) =1(n=1) 0(n=2、3、4、5) であり、この時の情報量 IIJ(n)(IJ(1))=log2〔1/gIJ(n)(IJ(1))〕は IIJ(n)(IJ(1)) =0(n=1) ∞(n=2、3、4、5) と表わされ、その期待値H′IJ(1)は H′IJ(1)=5 〓n=1 gIJ(n)(IJ(1)) ・I′IJ(n)(IJ(1))=0 となり、この期待値H′IJ(1)が元来の最大なる期待
値Hij(1)に比べて△HIJ(1)=Hij(1)−H′IJ(1)≒2.33減
小した事がわかる。一方、例えばその分布関数
〔fij(4)〕が他のそれと重なり合つている母音(エ)の
特徴パラメータとなる周波数スペクトル値の代表
値IJ(4)が得られた時、即ち、母音(オ)の事象が発
生した場合には、この代表値IJ(4)が各母音
(ア、イ、ウ、エ、オ)に属する相対的な確率は
夫々ほぼ gIJ(o)(IJ(4))=0(n=1、2、3) =5/8(n=4) =3/8(n=5) であり、の時の情報量 IIJ(n)(xIJ(4))=log2 〔1/gIJ(n)(IJ(4))〕 は IIJ(n)(IJ(4))=∞(n=1、2、3) =0.64(n=4) =1.4(n=5) と表わされ、その期待値H′IJ(4)は H′IJ(4)=5 〓n=1 gIJ(n)(IJ(4)) ・I′IJ(n)(IJ(4))=0.93 となり、この期待値H′IJ(5)が元来の最大なる期待
値Hij(5)に比べて △HIJ(5)=Hij(5)−H′IJ(5)≒1.4 減小した事がわかる。
上述の結果から、5つの各母音(ア、イ、ウ、
エ、オ)個有の特徴パラメータxijの分布関数
〔fij〕、n=1、2、3、4、5の内、他の4つ
の分布関数とは完全に分離された分布関数、即
ち、重要度の高い分布関数に対しては、上述の期
待値〔Hij(n)〕の変化値〔△Hij(n)〕は最大とな
る。一方、他の分布関数と重なる度合いが大きな
分布関数、即ち重要度の低い分布関数に対して
は、上述の期待値〔Hij(n)〕の変化値〔△Hij(n)〕
は小さくなり、5つの分布関数〔fij(n)〕が全く重
なり合う場合、即ち全く識別不可能であつて重要
度のない場合には、この変化値〔△Hij(n)〕は零
となる事がわかる。
エ、オ)個有の特徴パラメータxijの分布関数
〔fij〕、n=1、2、3、4、5の内、他の4つ
の分布関数とは完全に分離された分布関数、即
ち、重要度の高い分布関数に対しては、上述の期
待値〔Hij(n)〕の変化値〔△Hij(n)〕は最大とな
る。一方、他の分布関数と重なる度合いが大きな
分布関数、即ち重要度の低い分布関数に対して
は、上述の期待値〔Hij(n)〕の変化値〔△Hij(n)〕
は小さくなり、5つの分布関数〔fij(n)〕が全く重
なり合う場合、即ち全く識別不可能であつて重要
度のない場合には、この変化値〔△Hij(n)〕は零
となる事がわかる。
従つて、上述した情報量Iij(n)の期待値〔Hij(n)〕
の変化値〔△Hij(n)〕は △Hij(n)=Hij(n)−H′ij(n) =log−{5 〓k=1 gij(n)′(ij(n))・log2 〔1/gij(n)(ij(n))〕} n=1、2、3、4、5 で求められ、これ等各変化値〔△Hij(n)〕が重み
付け係数として重み付け係数メモリ7に貯えられ
ている。
の変化値〔△Hij(n)〕は △Hij(n)=Hij(n)−H′ij(n) =log−{5 〓k=1 gij(n)′(ij(n))・log2 〔1/gij(n)(ij(n))〕} n=1、2、3、4、5 で求められ、これ等各変化値〔△Hij(n)〕が重み
付け係数として重み付け係数メモリ7に貯えられ
ている。
斯る重み付け係数メモリ7に格納されている各
重み付け係数〔△Hij(n)〕、n=1、2、3、4、
5は、類似度計算回路8に於いて、上記確率メモ
リ5に貯えられた入力音声の周波数スペクトル値
からなる特徴パラメータ〔xij〕の各存在確率
〔fij(n)(xij)〕、n=1、2、3、4、5に乗じら
れ、その重要度を示す重み付けがなされた類似度
〔△Hij(n)・fij(n)(xij)〕、n=1、2、3、4、
5
を得、これ等類似度が類似度メモリ9の第1乃至
第5メモリ91、〜、95に貯えられる。そして
認識音声決定回路6′に依つて上記類似度メモリ
9の各類似度〔△Hij(n)・fij(n)(xij)〕、n=1、
2、3、4、5の成分の和、即ち、 d′(n)=8 〓i=1 16 〓j=1 △Hij(n)・fij(n)(xij) n=1、2、3、4、5 を求めて、d′(n)が最大となる時のnを検出し、
この時の入力音声が第n番目の認識音声と決定さ
れる。即ちn=2なら母音(イ)であると決定され
る。
重み付け係数〔△Hij(n)〕、n=1、2、3、4、
5は、類似度計算回路8に於いて、上記確率メモ
リ5に貯えられた入力音声の周波数スペクトル値
からなる特徴パラメータ〔xij〕の各存在確率
〔fij(n)(xij)〕、n=1、2、3、4、5に乗じら
れ、その重要度を示す重み付けがなされた類似度
〔△Hij(n)・fij(n)(xij)〕、n=1、2、3、4、
5
を得、これ等類似度が類似度メモリ9の第1乃至
第5メモリ91、〜、95に貯えられる。そして
認識音声決定回路6′に依つて上記類似度メモリ
9の各類似度〔△Hij(n)・fij(n)(xij)〕、n=1、
2、3、4、5の成分の和、即ち、 d′(n)=8 〓i=1 16 〓j=1 △Hij(n)・fij(n)(xij) n=1、2、3、4、5 を求めて、d′(n)が最大となる時のnを検出し、
この時の入力音声が第n番目の認識音声と決定さ
れる。即ちn=2なら母音(イ)であると決定され
る。
斯る構成の音声認識装置に於於いて、例えば、
第2図の周波数スペクトル値x〓IJを特徴パラメー
タとする音音声が入力された場合は、類似度計算
回路8に依つてこの値x〓IJの各母音(ア、イ、ウ、
エ、オ)の夫々に対する類似度△HIJ(n)・fI(n)
J・x〓IJ(x〓IJ),n=1、2、3、4、5が求めら
れるが、この内母音(エ)に対する類似度は、第4重
み付け係数メモリ74に貯えられた△HIJ(4)が1.4
であるので、1.4fIJ(4)(x〓IJ)となる。また、周波
数スペクトル値x¨IJを特徴パラメータとする音声
が入力された場合は、この値x¨IJの母音(ア)に対す
る類似度は第1重み付け係数メモリ71に貯えら
れた△HIJ(1)が最大値2.33であるので、2.33fIJ(1)
(x¨IJ)となる。従つて、第2図に示す如く、x〓IJ
が母音(エ)に属する存在確率fIJ(4)(x〓IJ)とx¨IJが
母
音(ア)に属する存在確率fIJ(1)(x¨IJ)とが等しい場
合であつても、重要度の低い存在確率fIJ(4)x〓IJ)
には低い類似度が与えられ、重要度の高い存在確
率fIJ(1)(x¨IJ)には高い類似度が与えられる。
第2図の周波数スペクトル値x〓IJを特徴パラメー
タとする音音声が入力された場合は、類似度計算
回路8に依つてこの値x〓IJの各母音(ア、イ、ウ、
エ、オ)の夫々に対する類似度△HIJ(n)・fI(n)
J・x〓IJ(x〓IJ),n=1、2、3、4、5が求めら
れるが、この内母音(エ)に対する類似度は、第4重
み付け係数メモリ74に貯えられた△HIJ(4)が1.4
であるので、1.4fIJ(4)(x〓IJ)となる。また、周波
数スペクトル値x¨IJを特徴パラメータとする音声
が入力された場合は、この値x¨IJの母音(ア)に対す
る類似度は第1重み付け係数メモリ71に貯えら
れた△HIJ(1)が最大値2.33であるので、2.33fIJ(1)
(x¨IJ)となる。従つて、第2図に示す如く、x〓IJ
が母音(エ)に属する存在確率fIJ(4)(x〓IJ)とx¨IJが
母
音(ア)に属する存在確率fIJ(1)(x¨IJ)とが等しい場
合であつても、重要度の低い存在確率fIJ(4)x〓IJ)
には低い類似度が与えられ、重要度の高い存在確
率fIJ(1)(x¨IJ)には高い類似度が与えられる。
第4図に本発明の音声認識装置の他の実施例を
示す。同図の実施例装置が第3図の装置と異なる
所は関数メモリ3と重み付け係数メモリ7とを別
体に設ける代りに、分布関数〔fij(n))に重み付け
係数〔△Hij(n)〕を乗じた形の重み付け分布関数
〔△Hij(n)・fij(n)〕、n=1、2、3、4、5を
夫々第1乃至第5の重み付け分布関数メモリ10
1、〜、105に格納した重み付け分布関数メモ
リ10を備えた点にある。本実施例装置の場合、
類似度計算回路8′は上記重み付け分布関数メモ
リ10の各重み付け分布関数〔△Hij(n)・fij(n)〕
に基づき、パラメータ抽出回路2から得られる入
力音声の周波数スペクトル値からなる特徴パラメ
ータ〔xij〕の各母音(ア、イ、ウ、エ、オ)に
対する重み付けされた存在確率〔△Hij(n)・fij(n)
(xij)〕、n=1、2、3、4、5を類似度として
算出し、これ等類似度が類似度メモリ9に貯えら
れる事になる。
示す。同図の実施例装置が第3図の装置と異なる
所は関数メモリ3と重み付け係数メモリ7とを別
体に設ける代りに、分布関数〔fij(n))に重み付け
係数〔△Hij(n)〕を乗じた形の重み付け分布関数
〔△Hij(n)・fij(n)〕、n=1、2、3、4、5を
夫々第1乃至第5の重み付け分布関数メモリ10
1、〜、105に格納した重み付け分布関数メモ
リ10を備えた点にある。本実施例装置の場合、
類似度計算回路8′は上記重み付け分布関数メモ
リ10の各重み付け分布関数〔△Hij(n)・fij(n)〕
に基づき、パラメータ抽出回路2から得られる入
力音声の周波数スペクトル値からなる特徴パラメ
ータ〔xij〕の各母音(ア、イ、ウ、エ、オ)に
対する重み付けされた存在確率〔△Hij(n)・fij(n)
(xij)〕、n=1、2、3、4、5を類似度として
算出し、これ等類似度が類似度メモリ9に貯えら
れる事になる。
斯して得られた類似度〔△Hij(n)・fij(n)(xij)〕
は、認識音声決定回路6′に依つて、第3図の実
例装置と同様に処理され、認識音声が決定され
る。
は、認識音声決定回路6′に依つて、第3図の実
例装置と同様に処理され、認識音声が決定され
る。
以上の説明に於いては、5つの母音(ア、イ、
ウ、エ、オ)を認識音声とした場合即ちn=5の
場合を示して来たが、50音全てを認識音声とする
場合には、n=50として処理する事ができる。ま
た音声の特徴パラメータ〔xij〕として、i=8
個の周波数スペクトル値、j=16サンプルの場合
を例示したが、この特徴パラメータ〔xij〕とし
てはホルマント周波数、及び自己相関係数等が使
用できる。
ウ、エ、オ)を認識音声とした場合即ちn=5の
場合を示して来たが、50音全てを認識音声とする
場合には、n=50として処理する事ができる。ま
た音声の特徴パラメータ〔xij〕として、i=8
個の周波数スペクトル値、j=16サンプルの場合
を例示したが、この特徴パラメータ〔xij〕とし
てはホルマント周波数、及び自己相関係数等が使
用できる。
本発明の音声認識装置は、以上の説明から明ら
かな如く、特定多数の認識音声毎に、その特徴パ
ラメータの分布関数に基づき、特徴パラメータが
持つ情報量Iの期待値Hの△Hを予じめ算出して
おき、この変化値△Hを重み付け係数として貯え
た重み付け係数メモリを備え、類似度計算回路に
依つて、上記重み付け係数メモリの重み付け係数
△Hと入力音声の特徴パラメータに対する各認識
音声毎の存在確率f(x)との積△H・f(x)を
計算して、重み付けされた類似度を得るものであ
るので、各認識音声の特徴パラメータの分布関数
fの内、他の分布関数fと重なり合うものについ
ては、即ち、音声認識する為の重要度が低いもの
については、その認識音声に対する類似度を小さ
くする事ができる。従つて、重要度が高い認識音
声の存在確率f(x)を有効に用いて入力音声を
認識する事が可能となり、特定話者ばかりか不特
定話者に対してもその音声の変動成分を充分補
い、認識率の大巾な向上が図れる。
かな如く、特定多数の認識音声毎に、その特徴パ
ラメータの分布関数に基づき、特徴パラメータが
持つ情報量Iの期待値Hの△Hを予じめ算出して
おき、この変化値△Hを重み付け係数として貯え
た重み付け係数メモリを備え、類似度計算回路に
依つて、上記重み付け係数メモリの重み付け係数
△Hと入力音声の特徴パラメータに対する各認識
音声毎の存在確率f(x)との積△H・f(x)を
計算して、重み付けされた類似度を得るものであ
るので、各認識音声の特徴パラメータの分布関数
fの内、他の分布関数fと重なり合うものについ
ては、即ち、音声認識する為の重要度が低いもの
については、その認識音声に対する類似度を小さ
くする事ができる。従つて、重要度が高い認識音
声の存在確率f(x)を有効に用いて入力音声を
認識する事が可能となり、特定話者ばかりか不特
定話者に対してもその音声の変動成分を充分補
い、認識率の大巾な向上が図れる。
また本発明の音声認識装置は、特定多数の認識
音声毎に、その特徴パラメータの分布関数fに、
特徴パラメータが持つ情報量Iの期待値Hの変化
値△Hを重み付けした重み付け分布関数△H・f
を貯えた重み付け分布関数メモリを備えたもので
あるので、認識率の向上が図れるばかりか、メモ
リ構成の簡略化が図れ、認識時の計算処理の高速
化が望める。
音声毎に、その特徴パラメータの分布関数fに、
特徴パラメータが持つ情報量Iの期待値Hの変化
値△Hを重み付けした重み付け分布関数△H・f
を貯えた重み付け分布関数メモリを備えたもので
あるので、認識率の向上が図れるばかりか、メモ
リ構成の簡略化が図れ、認識時の計算処理の高速
化が望める。
第1図は従来の音声認識装置を示すブロツク
図、第2図は特徴パラメータの分布関数の曲線
図、第3図は本発明の音声認識装置の一実施例の
ブロツク図、第4図は本発明装置の他の実施例の
ブロツク図、である。 2…パラメータ抽出回路、3…関数メモリ、4
…確率計算回路、5…確率メモリ、6,6′…認
識音声決定回路、7…重み付け係数メモリ、8,
8′…類似度計算回路、9…類似度メモリ、10
…重み付け分布関数メモリ。
図、第2図は特徴パラメータの分布関数の曲線
図、第3図は本発明の音声認識装置の一実施例の
ブロツク図、第4図は本発明装置の他の実施例の
ブロツク図、である。 2…パラメータ抽出回路、3…関数メモリ、4
…確率計算回路、5…確率メモリ、6,6′…認
識音声決定回路、7…重み付け係数メモリ、8,
8′…類似度計算回路、9…類似度メモリ、10
…重み付け分布関数メモリ。
Claims (1)
- 【特許請求の範囲】 1 入力された音声からその音声の特徴パラメー
タxを抽出するパラメータ抽出回路と、特定多数
の認識音声毎に複数の同一認識音声の特徴パラメ
ータxの分布関数fを予じめ求めておき、この分
布関数fを貯えた関数メモリと、特定多数の認識
音声毎に、上記各分布関数に基づき上記特徴パラ
メータxが持つ情報量Iの期待値Hの変化値△H
を予じめ算出しておき、この変化値△Hを重み付
け係数として貯えた重み付け係数メモリと、上記
関数メモリの各音声の分布関数fに基づいて上記
パラメータ抽出回路から得られる入力音声の特徴
パラメータxが示す各認識音声の存在確率f(x)
を夫々算出する確率計算回路と、該確率計算回路
に依つて得られる各音声の存在確率f(x)と上
記重み付け係数メモリの各認識音声の重み付け係
数△Hとの積△H・f(x)を類似度として計算
する類似度計算回路と、からなり、該類似度計算
回路から得られる類似度が最大となる認識音声を
この時の入力音声と認識する事を特徴とした音声
認識装置。 2 入力された音声からその音声の特徴パラメー
タxを抽出するパラメータ抽出回路と、特定多数
の認識音声毎に、複数の同一認識音声の特徴パラ
メータxの分布関数fを予じめ求めておき、この
分布関数fに、該分布関数fに基づいて予じめ算
出した上記特徴パラメータxの情報量Iの期待値
Hの変化値△Hを重み付けしてなる重み付け分布
関数△H・fを貯えた重み付け分布関数メモリ
と、該関数メモリの各音声の重み付け分布関数△
H・fに基づき、上記パラメータ抽出回路から得
られる入力音声の特徴パラメータxが示す各認識
音声に対する重み付けされた存在確率△H・f
(x)を類似度として算出する類似度計算回路と、
からなり、該類似度計算回路から得られる類似度
が最大となる認識音声をこの時の入力音声と認識
する事を特徴とした音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57076037A JPS58192098A (ja) | 1982-05-06 | 1982-05-06 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57076037A JPS58192098A (ja) | 1982-05-06 | 1982-05-06 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS58192098A JPS58192098A (ja) | 1983-11-09 |
| JPH0373880B2 true JPH0373880B2 (ja) | 1991-11-25 |
Family
ID=13593608
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP57076037A Granted JPS58192098A (ja) | 1982-05-06 | 1982-05-06 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS58192098A (ja) |
-
1982
- 1982-05-06 JP JP57076037A patent/JPS58192098A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS58192098A (ja) | 1983-11-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Wang et al. | Exploring monaural features for classification-based speech segregation | |
| Ittichaichareon et al. | Speech recognition using MFCC | |
| US7711123B2 (en) | Segmenting audio signals into auditory events | |
| Hu et al. | Segregation of unvoiced speech from nonspeech interference | |
| EP0411290A2 (en) | Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns | |
| US4817159A (en) | Method and apparatus for speech recognition | |
| US5101434A (en) | Voice recognition using segmented time encoded speech | |
| Karthikeyan et al. | Hybrid machine learning classification scheme for speaker identification | |
| CN112309404A (zh) | 机器语音的鉴别方法、装置、设备及存储介质 | |
| KR20180087038A (ko) | 화자 특성을 고려하는 음성합성 기능의 보청기 및 그 보청 방법 | |
| JPH0373880B2 (ja) | ||
| Baby | Investigating modulation spectrogram features for deep neural network-based automatic speech recognition | |
| KR102418256B1 (ko) | 언어 모델 개량을 통한 짧은 단어 인식 장치 및 방법 | |
| JPH041916B2 (ja) | ||
| JPH021318B2 (ja) | ||
| JP3100180B2 (ja) | 音声認識方法 | |
| Ashames et al. | Mel-Spectrograms and Data Augmentation for Spoken Digit Classification | |
| JP2744622B2 (ja) | 破裂子音識別方式 | |
| JPH0720889A (ja) | 不特定話者の音声認識装置および方法 | |
| JPH0441357B2 (ja) | ||
| Singh et al. | A novel algorithm using MFCC and ERB gammatone filters in speech recognition | |
| Zhang et al. | Monaural voiced speech segregation based on elaborate harmonic grouping strategy | |
| JP2886879B2 (ja) | 音声認識方法 | |
| JPH0580792A (ja) | 確率演算装置及び確率演算方法 | |
| CN117672261A (zh) | 一种音频处理方法、装置、设备及介质 |