JPH0373880B2 - - Google Patents

Info

Publication number
JPH0373880B2
JPH0373880B2 JP57076037A JP7603782A JPH0373880B2 JP H0373880 B2 JPH0373880 B2 JP H0373880B2 JP 57076037 A JP57076037 A JP 57076037A JP 7603782 A JP7603782 A JP 7603782A JP H0373880 B2 JPH0373880 B2 JP H0373880B2
Authority
JP
Japan
Prior art keywords
recognized
voice
distribution function
speech
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57076037A
Other languages
English (en)
Other versions
JPS58192098A (ja
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to JP57076037A priority Critical patent/JPS58192098A/ja
Publication of JPS58192098A publication Critical patent/JPS58192098A/ja
Publication of JPH0373880B2 publication Critical patent/JPH0373880B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は音声を認識する事のできる音声認識装
置に関する。
一般に、同一話者であつても発声の毎に発声時
間が異なるばかりか、アクセントにも多少の変動
があり、更に、話者が異なれば、上述の変動に個
人差が加わる事が知られている。従つて、これ等
の音声の変動成分を統計的手法を用いる事に依つ
て補なう事が提案され、近年では、この様な統計
的手法を導入して認識率の向上を目ざした音声認
識装置が開発されつつある。
この種従来の音声認識装置の構成を第1図に示
す。同図に於いて、(1)は音声を電気的な音声信号
に変換するマイクロフオンである。2は該マイク
ロフオン1に依つて得られる音声信号から音声の
特徴パラメータを抽出するパラメータ抽出回路で
あり、一つの認識音声の音声信号について音声帯
域(100Hz〜4KHz)を8分割した8個の周波数ス
ペクトル値が16サンプル配列する行列構成の特徴
パラメータ〔xij〕、(i=1、…、8;j=1、
…、16)が出力される。3は関数メモリであり、
特定多数nの認識音声について予じめ複数話者か
ら抽出した特徴パラメータ〔xij(n)〕に基づき、
これ等が正規分布を為すとして導出した話者の相
違に関する特徴パラメータの値の分布関数
〔xij(n)〕が複数の認識音声毎に貯えられている。
この認識音声を5つの母音(ア、イ、ウ、エ、
オ)とした場合、関数メモリ3の第1乃至第5関
数メモリ31〜、35に夫々ア、イ、ウ、エ、オ
順に〔fij(1)〕、〜、〔fij(5)〕が格納されている。4
は確率計算回路であり、上記関数メモリ3の各分
布関数〔fij(n)〕、n=1、2、3、4、5に基づ
いて上記パラメータ抽出回路2から得られる入力
音声の特徴パラメータ〔xij〕の5つの母音に対
する存在確率〔fij(n)(xij)〕、n=1、2、3、
4、5を導出して、これ等を出力する。5はこれ
等の存在確率〔fij(n)(xij)〕、を貯える確率メモリ
であり、その第1乃至第5確率メモリ51、〜、
55の夫々に〔fij(n)(xij)〕、n=1、2、3、
4、5が貯えられる。6は認識音声決定回路であ
り、上記確率メモリ5の各存在確率〔fij(n)(xij)〕
の成分の和、即ち d(n)=8i=1 16j=1(n) fij (xij) n=1、2、3、4、5 を求めて、d(n)が最大となる時のnを検出す
る事に依つて、この時の入力音声が第n番目の認
識音声と決定される。即ち、n=4なら(エ)で
あると決定される。
第2図は、上記関数メモリ3に貯えられた5つ
の母音に対する1KHzの周波数(i=I)の特定
サンプル(j=J)の周波数スペクトル値の存在
確率を示した分布関数fIJ(n)(xIJ)を図示したも
のである。同図に基づいて、xIJなる入力音声の
特徴パラメータの周波数スペクトル値に注目して
みること、このx〓IJと母音(イ)、(エ)、(オ)の各平均

xIJ(2)、IJ(4)、IJ(5)の夫々との誤差が等しく
なつているが、上述の関数メモリ3と確率計算回
路4とに依つて、夫々の確率fIJ(2)(x〓IJ)、fIJ(4)
(x〓IJ)、fIJ(5)(x〓IJ)、を求めると、同図から明

かな如く、fIJ(4)(x〓IJ)が最大であつて、母音(エ)
に属する確率が最も高い事がわかる。この様に、
第1図の如き従来装置に於いては、音声の特徴パ
ラメータである周波数スペクトル値の分布の度合
いを加味した認識処理を行なう事に依つて、多少
とも認識率の向上が為されている。
しかしながら、第2図に於いて、今x¨IJなる周
波数スペクトル値に注目してみると、このx¨IJは
母音(ア)に属し、その確率fIJ(1)(x¨IJ)が前述のx〓
IJ
が母音(エ)に属する確率fIJ(4)(x〓IJ)と等しくなつ
ているが、実際には、x¨IJが母音(ア)以外の母音(イ)

(ウ)、(エ)、(オ)に属する確率がほとんど無いのに比べ
て、x〓IJが母音(エ)以外の母音(イ)、(オ)に属する確

が充分にある事がわかる。この様に音声を識別す
るのに重要なx¨IJが母音(ア)に属する確率fIJ(1)
(x¨IJ)と音声を識別するのに重要でないx〓IJが母
音(エ)に属する確率fIJ(4)(x〓IJ)とを同等に取り扱
う事、即ち、各認識音声個別の分布関数に依る確
率を直接類似度の得点として取り扱う事、には不
都合があり、この不都合に依つて、従来の音声認
識装置では、認識率の大巾な向上を期待する事は
できなかつた。
本発明は上述の不都合を解消する事を目的とし
てなされ、各認識音声個別の分布関数にその重要
度に相当した重み付けを行なう為の手段を備えた
音声認識装置を提供するものである。
第3図に本発明の音声認識装置の一実施例を示
す。同図に於いて1〜5は第1図と同様にマイク
ロフオン〜確率メモリを示しており、マイクロフ
オン1に入力された音声の特徴パラメータの周波
数スペクトル値〔xij〕がパラメータ抽出回路2
に依つて得られ、この特徴パラメータ〔xij〕の
各成分について、関数メモリ3に貯えられた各認
識音声の分布関数〔fij(n)〕、n=1、2、3、4、
5(アイウエオ順)に従い、確率計算回路4に依
り各認識音声毎の存在確率〔fij(n)(xij)〕、n=
1、2、3、4、5が算出され、夫々確率メモリ
5に貯えられる。本発明の実施例装置が第1図の
従来装置と異なる所は、各認識音声、即ち各母音
(ア、イ、ウ、エ、オ)の特徴パラメータ
〔xij(n)〕、n=1、2、3、4、5の分布関数
〔fij(n)〕の夫々の重要度を示す重み付け係数〔△
Hij(n)〕、n=1、2、3、4、5を第1乃至第5
重み付け係数メモリ71、〜、75に貯えた重み
付け係数メモリ7を備えた点にある。尚、8は類
似度計算回路、9は類似度メモリ、6は認識音声
決定回路である。
ここで、先ず上記重み付け係数メモリ7に貯え
られる重み付け係数〔Hij(n)〕について詳述する。
先ず、上記関数メモリ3の各母音(ア、イ、
ウ、エ、オ)の周波数スペクトル値xijの各分布
関数〔fij(n)(xij)〕に基づいて、夫々の分布関数
〔fij(n)(xij)〕を最大とする周波数スペクトル値、
即ち各母音(ア、イ、ウ、エ、オ)の代表値
ij(1)、〜、ij(5)に於ける全ての母音(ア、イ、
ウ、エ、オ)についての存在確率〔fij(1)
ij(n))〕、〜、〔fij(5)(ij(n))〕、n=1、2、
3、
4、5を算出し、更に、各代表値ij(1)、〜、
ij(5)に於ける存在確率の相対的な比率、即ち、上
記各代表値xij(1)、〜、xij(5)がその母音に属する
相対的な確率 を求めておく。
そして、ここで情報論理で云う情報量の概念を
導入すると、もともと、ある特徴パラメータxij
が5つの母音(ア、イ、ウ、エ、オ)の内の一つ
に属する相対的な確率が夫々gij(n)=1/5である事
から、これ等パラメータxijの元来の情報量が Iij(n)=log2〔1/gij(n)=log25 n=1、2、3、4、5 として定義され、これ等情報量Iij(n)の期待値(エ
ントロビー)は全て Hij(n)5n=1 gij(n)・Iij(n) =log25 ≒2.33 n=1、2、3、4、5 で表わされる即ち、この期待値Hij(n)は5つの事
象が夫々均等に起こり得る場合の各事象について
の最大となる不確実性を示しているとも云える。
然るに、実際にある特徴パラメータxijが得ら
れると、例えば第2図に示す如く、その分布関数
〔fij(1)〕が他のそれとは分離されている母音(ア)の
特徴パラメータとなる周波数スペクトル値の代表
値IJ(1)が得られた時、即ち、母音(ア)の事象が発
生した場合には、この代表値IJ(1)が各母音
(ア、イ、ウ、エ、オ)に属する相対的な確率は
夫々ほぼ gIJ(n)(IJ(1)) =1(n=1) 0(n=2、3、4、5) であり、この時の情報量 IIJ(n)(IJ(1))=log2〔1/gIJ(n)(IJ(1))〕は IIJ(n)(IJ(1)) =0(n=1) ∞(n=2、3、4、5) と表わされ、その期待値H′IJ(1)は H′IJ(1)5n=1 gIJ(n)(IJ(1)) ・I′IJ(n)(IJ(1))=0 となり、この期待値H′IJ(1)が元来の最大なる期待
値Hij(1)に比べて△HIJ(1)=Hij(1)−H′IJ(1)≒2.33減
小した事がわかる。一方、例えばその分布関数
〔fij(4)〕が他のそれと重なり合つている母音(エ)の
特徴パラメータとなる周波数スペクトル値の代表
値IJ(4)が得られた時、即ち、母音(オ)の事象が発
生した場合には、この代表値IJ(4)が各母音
(ア、イ、ウ、エ、オ)に属する相対的な確率は
夫々ほぼ gIJ(o)(IJ(4))=0(n=1、2、3) =5/8(n=4) =3/8(n=5) であり、の時の情報量 IIJ(n)(xIJ(4))=log2 〔1/gIJ(n)(IJ(4))〕 は IIJ(n)(IJ(4))=∞(n=1、2、3) =0.64(n=4) =1.4(n=5) と表わされ、その期待値H′IJ(4)は H′IJ(4)5n=1 gIJ(n)(IJ(4)) ・I′IJ(n)(IJ(4))=0.93 となり、この期待値H′IJ(5)が元来の最大なる期待
値Hij(5)に比べて △HIJ(5)=Hij(5)−H′IJ(5)≒1.4 減小した事がわかる。
上述の結果から、5つの各母音(ア、イ、ウ、
エ、オ)個有の特徴パラメータxijの分布関数
〔fij〕、n=1、2、3、4、5の内、他の4つ
の分布関数とは完全に分離された分布関数、即
ち、重要度の高い分布関数に対しては、上述の期
待値〔Hij(n)〕の変化値〔△Hij(n)〕は最大とな
る。一方、他の分布関数と重なる度合いが大きな
分布関数、即ち重要度の低い分布関数に対して
は、上述の期待値〔Hij(n)〕の変化値〔△Hij(n)
は小さくなり、5つの分布関数〔fij(n)〕が全く重
なり合う場合、即ち全く識別不可能であつて重要
度のない場合には、この変化値〔△Hij(n)〕は零
となる事がわかる。
従つて、上述した情報量Iij(n)の期待値〔Hij(n)
の変化値〔△Hij(n)〕は △Hij(n)=Hij(n)−H′ij(n) =log−{5k=1 gij(n)′(ij(n))・log2 〔1/gij(n)(ij(n))〕} n=1、2、3、4、5 で求められ、これ等各変化値〔△Hij(n)〕が重み
付け係数として重み付け係数メモリ7に貯えられ
ている。
斯る重み付け係数メモリ7に格納されている各
重み付け係数〔△Hij(n)〕、n=1、2、3、4、
5は、類似度計算回路8に於いて、上記確率メモ
リ5に貯えられた入力音声の周波数スペクトル値
からなる特徴パラメータ〔xij〕の各存在確率
〔fij(n)(xij)〕、n=1、2、3、4、5に乗じら
れ、その重要度を示す重み付けがなされた類似度
〔△Hij(n)・fij(n)(xij)〕、n=1、2、3、4、

を得、これ等類似度が類似度メモリ9の第1乃至
第5メモリ91、〜、95に貯えられる。そして
認識音声決定回路6′に依つて上記類似度メモリ
9の各類似度〔△Hij(n)・fij(n)(xij)〕、n=1、
2、3、4、5の成分の和、即ち、 d′(n)=8i=1 16j=1 △Hij(n)・fij(n)(xij) n=1、2、3、4、5 を求めて、d′(n)が最大となる時のnを検出し、
この時の入力音声が第n番目の認識音声と決定さ
れる。即ちn=2なら母音(イ)であると決定され
る。
斯る構成の音声認識装置に於於いて、例えば、
第2図の周波数スペクトル値x〓IJを特徴パラメー
タとする音音声が入力された場合は、類似度計算
回路8に依つてこの値x〓IJの各母音(ア、イ、ウ、
エ、オ)の夫々に対する類似度△HIJ(n)・fI(n)
J・x〓IJ(x〓IJ),n=1、2、3、4、5が求めら
れるが、この内母音(エ)に対する類似度は、第4重
み付け係数メモリ74に貯えられた△HIJ(4)が1.4
であるので、1.4fIJ(4)(x〓IJ)となる。また、周波
数スペクトル値x¨IJを特徴パラメータとする音声
が入力された場合は、この値x¨IJの母音(ア)に対す
る類似度は第1重み付け係数メモリ71に貯えら
れた△HIJ(1)が最大値2.33であるので、2.33fIJ(1)
(x¨IJ)となる。従つて、第2図に示す如く、x〓IJ
が母音(エ)に属する存在確率fIJ(4)(x〓IJ)とx¨IJが

音(ア)に属する存在確率fIJ(1)(x¨IJ)とが等しい場
合であつても、重要度の低い存在確率fIJ(4)x〓IJ)
には低い類似度が与えられ、重要度の高い存在確
率fIJ(1)(x¨IJ)には高い類似度が与えられる。
第4図に本発明の音声認識装置の他の実施例を
示す。同図の実施例装置が第3図の装置と異なる
所は関数メモリ3と重み付け係数メモリ7とを別
体に設ける代りに、分布関数〔fij(n))に重み付け
係数〔△Hij(n)〕を乗じた形の重み付け分布関数
〔△Hij(n)・fij(n)〕、n=1、2、3、4、5を
夫々第1乃至第5の重み付け分布関数メモリ10
1、〜、105に格納した重み付け分布関数メモ
リ10を備えた点にある。本実施例装置の場合、
類似度計算回路8′は上記重み付け分布関数メモ
リ10の各重み付け分布関数〔△Hij(n)・fij(n)
に基づき、パラメータ抽出回路2から得られる入
力音声の周波数スペクトル値からなる特徴パラメ
ータ〔xij〕の各母音(ア、イ、ウ、エ、オ)に
対する重み付けされた存在確率〔△Hij(n)・fij(n)
(xij)〕、n=1、2、3、4、5を類似度として
算出し、これ等類似度が類似度メモリ9に貯えら
れる事になる。
斯して得られた類似度〔△Hij(n)・fij(n)(xij)〕
は、認識音声決定回路6′に依つて、第3図の実
例装置と同様に処理され、認識音声が決定され
る。
以上の説明に於いては、5つの母音(ア、イ、
ウ、エ、オ)を認識音声とした場合即ちn=5の
場合を示して来たが、50音全てを認識音声とする
場合には、n=50として処理する事ができる。ま
た音声の特徴パラメータ〔xij〕として、i=8
個の周波数スペクトル値、j=16サンプルの場合
を例示したが、この特徴パラメータ〔xij〕とし
てはホルマント周波数、及び自己相関係数等が使
用できる。
本発明の音声認識装置は、以上の説明から明ら
かな如く、特定多数の認識音声毎に、その特徴パ
ラメータの分布関数に基づき、特徴パラメータが
持つ情報量Iの期待値Hの△Hを予じめ算出して
おき、この変化値△Hを重み付け係数として貯え
た重み付け係数メモリを備え、類似度計算回路に
依つて、上記重み付け係数メモリの重み付け係数
△Hと入力音声の特徴パラメータに対する各認識
音声毎の存在確率f(x)との積△H・f(x)を
計算して、重み付けされた類似度を得るものであ
るので、各認識音声の特徴パラメータの分布関数
fの内、他の分布関数fと重なり合うものについ
ては、即ち、音声認識する為の重要度が低いもの
については、その認識音声に対する類似度を小さ
くする事ができる。従つて、重要度が高い認識音
声の存在確率f(x)を有効に用いて入力音声を
認識する事が可能となり、特定話者ばかりか不特
定話者に対してもその音声の変動成分を充分補
い、認識率の大巾な向上が図れる。
また本発明の音声認識装置は、特定多数の認識
音声毎に、その特徴パラメータの分布関数fに、
特徴パラメータが持つ情報量Iの期待値Hの変化
値△Hを重み付けした重み付け分布関数△H・f
を貯えた重み付け分布関数メモリを備えたもので
あるので、認識率の向上が図れるばかりか、メモ
リ構成の簡略化が図れ、認識時の計算処理の高速
化が望める。
【図面の簡単な説明】
第1図は従来の音声認識装置を示すブロツク
図、第2図は特徴パラメータの分布関数の曲線
図、第3図は本発明の音声認識装置の一実施例の
ブロツク図、第4図は本発明装置の他の実施例の
ブロツク図、である。 2…パラメータ抽出回路、3…関数メモリ、4
…確率計算回路、5…確率メモリ、6,6′…認
識音声決定回路、7…重み付け係数メモリ、8,
8′…類似度計算回路、9…類似度メモリ、10
…重み付け分布関数メモリ。

Claims (1)

  1. 【特許請求の範囲】 1 入力された音声からその音声の特徴パラメー
    タxを抽出するパラメータ抽出回路と、特定多数
    の認識音声毎に複数の同一認識音声の特徴パラメ
    ータxの分布関数fを予じめ求めておき、この分
    布関数fを貯えた関数メモリと、特定多数の認識
    音声毎に、上記各分布関数に基づき上記特徴パラ
    メータxが持つ情報量Iの期待値Hの変化値△H
    を予じめ算出しておき、この変化値△Hを重み付
    け係数として貯えた重み付け係数メモリと、上記
    関数メモリの各音声の分布関数fに基づいて上記
    パラメータ抽出回路から得られる入力音声の特徴
    パラメータxが示す各認識音声の存在確率f(x)
    を夫々算出する確率計算回路と、該確率計算回路
    に依つて得られる各音声の存在確率f(x)と上
    記重み付け係数メモリの各認識音声の重み付け係
    数△Hとの積△H・f(x)を類似度として計算
    する類似度計算回路と、からなり、該類似度計算
    回路から得られる類似度が最大となる認識音声を
    この時の入力音声と認識する事を特徴とした音声
    認識装置。 2 入力された音声からその音声の特徴パラメー
    タxを抽出するパラメータ抽出回路と、特定多数
    の認識音声毎に、複数の同一認識音声の特徴パラ
    メータxの分布関数fを予じめ求めておき、この
    分布関数fに、該分布関数fに基づいて予じめ算
    出した上記特徴パラメータxの情報量Iの期待値
    Hの変化値△Hを重み付けしてなる重み付け分布
    関数△H・fを貯えた重み付け分布関数メモリ
    と、該関数メモリの各音声の重み付け分布関数△
    H・fに基づき、上記パラメータ抽出回路から得
    られる入力音声の特徴パラメータxが示す各認識
    音声に対する重み付けされた存在確率△H・f
    (x)を類似度として算出する類似度計算回路と、
    からなり、該類似度計算回路から得られる類似度
    が最大となる認識音声をこの時の入力音声と認識
    する事を特徴とした音声認識装置。
JP57076037A 1982-05-06 1982-05-06 音声認識装置 Granted JPS58192098A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57076037A JPS58192098A (ja) 1982-05-06 1982-05-06 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57076037A JPS58192098A (ja) 1982-05-06 1982-05-06 音声認識装置

Publications (2)

Publication Number Publication Date
JPS58192098A JPS58192098A (ja) 1983-11-09
JPH0373880B2 true JPH0373880B2 (ja) 1991-11-25

Family

ID=13593608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57076037A Granted JPS58192098A (ja) 1982-05-06 1982-05-06 音声認識装置

Country Status (1)

Country Link
JP (1) JPS58192098A (ja)

Also Published As

Publication number Publication date
JPS58192098A (ja) 1983-11-09

Similar Documents

Publication Publication Date Title
Wang et al. Exploring monaural features for classification-based speech segregation
Ittichaichareon et al. Speech recognition using MFCC
US7711123B2 (en) Segmenting audio signals into auditory events
Hu et al. Segregation of unvoiced speech from nonspeech interference
EP0411290A2 (en) Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
US4817159A (en) Method and apparatus for speech recognition
US5101434A (en) Voice recognition using segmented time encoded speech
Karthikeyan et al. Hybrid machine learning classification scheme for speaker identification
CN112309404A (zh) 机器语音的鉴别方法、装置、设备及存储介质
KR20180087038A (ko) 화자 특성을 고려하는 음성합성 기능의 보청기 및 그 보청 방법
JPH0373880B2 (ja)
Baby Investigating modulation spectrogram features for deep neural network-based automatic speech recognition
KR102418256B1 (ko) 언어 모델 개량을 통한 짧은 단어 인식 장치 및 방법
JPH041916B2 (ja)
JPH021318B2 (ja)
JP3100180B2 (ja) 音声認識方法
Ashames et al. Mel-Spectrograms and Data Augmentation for Spoken Digit Classification
JP2744622B2 (ja) 破裂子音識別方式
JPH0720889A (ja) 不特定話者の音声認識装置および方法
JPH0441357B2 (ja)
Singh et al. A novel algorithm using MFCC and ERB gammatone filters in speech recognition
Zhang et al. Monaural voiced speech segregation based on elaborate harmonic grouping strategy
JP2886879B2 (ja) 音声認識方法
JPH0580792A (ja) 確率演算装置及び確率演算方法
CN117672261A (zh) 一种音频处理方法、装置、设备及介质