JPS58145999A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPS58145999A JPS58145999A JP57029472A JP2947282A JPS58145999A JP S58145999 A JPS58145999 A JP S58145999A JP 57029472 A JP57029472 A JP 57029472A JP 2947282 A JP2947282 A JP 2947282A JP S58145999 A JPS58145999 A JP S58145999A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- supplied
- circuit
- word
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
本発明は音声認識に関し、f#蜆な方法を提案するもの
である。
である。
音声認識においては、特定話者に対する単語認識による
ものがすでに実用化されている。これは認識対象とする
全ての単語について特定話者にこれらを発声させ、バン
ドパスフィルタバンク等によりその音響パラメータを検
出して記憶(登録)しておく。そして特定話者が発声し
たときその音響パラメータを検出し、登録された各単語
の音物パラメータと比較し、これらが一致したときその
単語であるとのg誠を行う。
ものがすでに実用化されている。これは認識対象とする
全ての単語について特定話者にこれらを発声させ、バン
ドパスフィルタバンク等によりその音響パラメータを検
出して記憶(登録)しておく。そして特定話者が発声し
たときその音響パラメータを検出し、登録された各単語
の音物パラメータと比較し、これらが一致したときその
単語であるとのg誠を行う。
この上うな装置において、話者の発声の時間軸が登録時
と異なっている場合には、一定時間(5〜gQm8ai
)毎に抽出される音響パラメータの時系列を伸縮し1時
間軸を整合させる。これによって発声速度の変動に対処
させるよさにしている。
と異なっている場合には、一定時間(5〜gQm8ai
)毎に抽出される音響パラメータの時系列を伸縮し1時
間軸を整合させる。これによって発声速度の変動に対処
させるよさにしている。
ところがとの装置の場合、認識対象とする全ての単IN
Kついてその単語の全体の音響パラメータをあらかじめ
登母格納しておかなければならず、膨大な記憶容量と演
算を必要とする。このため認識語い数に限界があった。
Kついてその単語の全体の音響パラメータをあらかじめ
登母格納しておかなければならず、膨大な記憶容量と演
算を必要とする。このため認識語い数に限界があった。
これに対して音韻(日本飴でいえばロー!字表記したと
きのA、 I 、U、 E、0.に、 8.T等)ある
いは音@ (KA 、 KI 、 K1等)単位での認
識を行うことが提案されている。しかしこの場合K、母
音岬の準定常部を有する音韻の認識は容易であっても、
破裂音(K、T、P尋)のように音韻的特徴が非常に短
いものを音響パラメータのみで一つの音韻に特定するこ
とは極めて困難である。
きのA、 I 、U、 E、0.に、 8.T等)ある
いは音@ (KA 、 KI 、 K1等)単位での認
識を行うことが提案されている。しかしこの場合K、母
音岬の準定常部を有する音韻の認識は容易であっても、
破裂音(K、T、P尋)のように音韻的特徴が非常に短
いものを音響パラメータのみで一つの音韻に特定するこ
とは極めて困難である。
そこで従来は、各音節ごとに離散的に発音された音声を
登帰し、離散的に発声された音声を単語wtIm!と同
様に時間軸整合させてljg鐵を行っており、特殊な発
声を行うために限定された用途でしか利用できなかった
。
登帰し、離散的に発声された音声を単語wtIm!と同
様に時間軸整合させてljg鐵を行っており、特殊な発
声を行うために限定された用途でしか利用できなかった
。
さらに不特定話者をs1wIt対象とした場合には、音
響パラメータに個人差による大きな分散があり、上述の
ように時間軸の整合だけでは認識を行うことができない
。そこで例えば一つの単語について複数の音響パラメー
タを登録して近似の青畳パラメータを@緻する方法や、
単語全体を同定次元のパラメータに変換し、識別函数に
よって判別する方法が提案されているが、いづれも膨大
な記憶容量な必費としたり、演算量が多く、i&ili
織飴い数が伽めて少くなってしまう。
響パラメータに個人差による大きな分散があり、上述の
ように時間軸の整合だけでは認識を行うことができない
。そこで例えば一つの単語について複数の音響パラメー
タを登録して近似の青畳パラメータを@緻する方法や、
単語全体を同定次元のパラメータに変換し、識別函数に
よって判別する方法が提案されているが、いづれも膨大
な記憶容量な必費としたり、演算量が多く、i&ili
織飴い数が伽めて少くなってしまう。
本発明はこのような点にかんがみ、不特定話者に対して
も、容易かつ確実に音声認識を行えるようにした、新規
な音声認識方法を提案するものである。以下に図面を参
照しながら、本発明の一実施例について説明しよう。
も、容易かつ確実に音声認識を行えるようにした、新規
な音声認識方法を提案するものである。以下に図面を参
照しながら、本発明の一実施例について説明しよう。
ところで音韻の発声現象を観察すると、母音や摩擦音(
8,H勢)等の音韻は長く伸して発声することができる
32例えば1はいゝという発声を考えた場合に、この音
韻は第1図Aに示すようK、「無音→H→A→I→無音
」に変化する。これに対して同じ1はい10発声を第1
図Bのように行うこともできる。ここでH,A、Iの準
定f部の長さは発声ととに変化し、これKよって時間軸
の変動を生じる。ところがこの場合に1各音韻間の過渡
部[1線で示す)は比較的時間軸の変動が少いことが判
明した。
8,H勢)等の音韻は長く伸して発声することができる
32例えば1はいゝという発声を考えた場合に、この音
韻は第1図Aに示すようK、「無音→H→A→I→無音
」に変化する。これに対して同じ1はい10発声を第1
図Bのように行うこともできる。ここでH,A、Iの準
定f部の長さは発声ととに変化し、これKよって時間軸
の変動を生じる。ところがこの場合に1各音韻間の過渡
部[1線で示す)は比較的時間軸の変動が少いことが判
明した。
本願発明者はこの点に着目したものである。
第2図において、マイクーフオン(1)に供給された音
声信号がマイクアンプ(2)、5.5kHK以下のロー
パスフィルタ(3)を通じてA、D変換回路(4)K供
給される。またり謬ツク発生器(5)からのIL5kH
1(80声(6)間隔)のす/プリンダク四ツクがAD
変換回路(4)に供給され、このタイ書ングで音声信号
がそれぞれ所定ビット数(=1ワード)のデジタル信号
に変換される。この変、換された音声信号が5×64ワ
ードのレジスタ(6)K供給される。またクロツタ発生
器(5)からの5.12輌器間隔のフレームクロックが
5進カウンタ(7)K供給され、このカウント値がレジ
スタ(6)に供給されて音声信号が64ワードずつシフ
トされ、シフトされた4X64ワードの信号がレジスタ
(6)から取り出される。
声信号がマイクアンプ(2)、5.5kHK以下のロー
パスフィルタ(3)を通じてA、D変換回路(4)K供
給される。またり謬ツク発生器(5)からのIL5kH
1(80声(6)間隔)のす/プリンダク四ツクがAD
変換回路(4)に供給され、このタイ書ングで音声信号
がそれぞれ所定ビット数(=1ワード)のデジタル信号
に変換される。この変、換された音声信号が5×64ワ
ードのレジスタ(6)K供給される。またクロツタ発生
器(5)からの5.12輌器間隔のフレームクロックが
5進カウンタ(7)K供給され、このカウント値がレジ
スタ(6)に供給されて音声信号が64ワードずつシフ
トされ、シフトされた4X64ワードの信号がレジスタ
(6)から取り出される。
このレジスタ(6)から取り出された4 X 64 =
254!ワードの信号が高速フーリエ変換()’FT
)回路(8)K供給される。ここでこのFF7回路(8
)において、例えはTの時間長に含まれるn1個のす/
プリングデータによつ【表される波形函数を U n fT(t) −(
Itとしたとき、これなフーリエ変換して、〒 =U ln fT(f) 十j U zn fT(f)
=−(21の信号が得られる。
254!ワードの信号が高速フーリエ変換()’FT
)回路(8)K供給される。ここでこのFF7回路(8
)において、例えはTの時間長に含まれるn1個のす/
プリングデータによつ【表される波形函数を U n fT(t) −(
Itとしたとき、これなフーリエ変換して、〒 =U ln fT(f) 十j U zn fT(f)
=−(21の信号が得られる。
さらにこのFF7回路(8)からの信号がノ(ワースベ
クトルの検出回路(9)K供給され、 10” l =U”s n fT(f) +uinft
(t) H4+44H(a)のパワースペクト
ル信号が取り出される。ここでフーリエ変換された信号
は周波数軸上で対称になつ【いるので、フーリエ変換に
よって取り出されるIIf個のデータの半分は冗長デー
タである。そとで半分のデータを排除してinf個のデ
ータが取り出される。すなわち上述0FFT囲路(8)
に供給された2s6ワードの信号が変換されてH8ワー
ドの/(ワースベクトル信号が取り出される。
クトルの検出回路(9)K供給され、 10” l =U”s n fT(f) +uinft
(t) H4+44H(a)のパワースペクト
ル信号が取り出される。ここでフーリエ変換された信号
は周波数軸上で対称になつ【いるので、フーリエ変換に
よって取り出されるIIf個のデータの半分は冗長デー
タである。そとで半分のデータを排除してinf個のデ
ータが取り出される。すなわち上述0FFT囲路(8)
に供給された2s6ワードの信号が変換されてH8ワー
ドの/(ワースベクトル信号が取り出される。
このパワースペクトル信号がエンファシス回路−に供給
されて聴感上の補正を行うための重み付けが行われる。
されて聴感上の補正を行うための重み付けが行われる。
ここで重み付けとしては、例えば周波数の高域成分を増
強する補正が行われる。
強する補正が行われる。
この重み付けされた信号が帯域分割−路収りに供給され
、聴感特性に合せた周波数メルスケールに応じて例えば
32の帯域に分割される。ここで)(ワースベクトルの
分割点と異なる場合にはその信号が各帯域に按分され【
それぞれの帯域の信号の量に応じた信号が取り出される
。これによって上述の128ワードのパワースペクトル
信号が、青畳的特徴を保存したま京32ワードに圧縮さ
れる。
、聴感特性に合せた周波数メルスケールに応じて例えば
32の帯域に分割される。ここで)(ワースベクトルの
分割点と異なる場合にはその信号が各帯域に按分され【
それぞれの帯域の信号の量に応じた信号が取り出される
。これによって上述の128ワードのパワースペクトル
信号が、青畳的特徴を保存したま京32ワードに圧縮さ
れる。
この信号で対数囲路aのに供給され、各信号の対数値に
変換される。これによって上述のエンファシス回路a呻
での重み付は等による冗長度が排除される。ここでこの
対数パワースペクトルtog I l4t(f)I
・・−・・(4)
をスペクトルパラメータX(1)(ム二〇、1・叩・3
1)と称する。
変換される。これによって上述のエンファシス回路a呻
での重み付は等による冗長度が排除される。ここでこの
対数パワースペクトルtog I l4t(f)I
・・−・・(4)
をスペクトルパラメータX(1)(ム二〇、1・叩・3
1)と称する。
このスペクトルパラメータx(1)が離散的フーリエ変
換(DFT)回路(13に供給される。ここでこのDF
T−絡QIにおいて、例えば分割された帯域の数をMと
すると、このM次元スペクトルパラメータX山(i=0
,1・・・・・・M−1)−を2M点の実数対称パラメ
ータとみなしCDFTを行う。従って1M へ− 満=0,1・・・・・・2M−1 となる。さらKこのDFTを行う函数は偶画数とみなさ
れるため goi*w* =顛 □− 輩 となり、これらより となる。このDFTによりスペクトルの包絡特性を表構
する音響パラメータが抽出される。
換(DFT)回路(13に供給される。ここでこのDF
T−絡QIにおいて、例えば分割された帯域の数をMと
すると、このM次元スペクトルパラメータX山(i=0
,1・・・・・・M−1)−を2M点の実数対称パラメ
ータとみなしCDFTを行う。従って1M へ− 満=0,1・・・・・・2M−1 となる。さらKこのDFTを行う函数は偶画数とみなさ
れるため goi*w* =顛 □− 輩 となり、これらより となる。このDFTによりスペクトルの包絡特性を表構
する音響パラメータが抽出される。
このよ5KL、てDFTされたスベタトツムバラメfi
X<i> Kツイテ、0−P−1(fiえばr=8)
次までのV次元の値を取り出し、これをローカルパラメ
ータL (p) (p=0. 1・・−・・P−1)と
すると・・・(7) となり、ここでスペクトルパラメータが対称であること
を考慮して X(轟) ” X(xli−i−x )
−−−−(8)とおくと、ローカルパラメータL
(p)は・・・・・・(9) 但し、p工0,1・・・・・・P−1 となる。このよ5KL、て32ワードの信号がr(例え
ば8)ワードに正編される。
X<i> Kツイテ、0−P−1(fiえばr=8)
次までのV次元の値を取り出し、これをローカルパラメ
ータL (p) (p=0. 1・・−・・P−1)と
すると・・・(7) となり、ここでスペクトルパラメータが対称であること
を考慮して X(轟) ” X(xli−i−x )
−−−−(8)とおくと、ローカルパラメータL
(p)は・・・・・・(9) 但し、p工0,1・・・・・・P−1 となる。このよ5KL、て32ワードの信号がr(例え
ば8)ワードに正編される。
このローカルパラメータL (p)がメモリ装置Iに供
給される。このメモリ装置Iは1行rワードの記憶部が
例えば16行マトリクス状に配されたもので、ローカル
パラメータL(p)か各次元ととKJI11次記憶され
ると共に、上述のクロック発生器(5)からの5.12
輌1間隔のフレームクロックが供給されて、各行のパラ
メータが順次横方向ヘシフトされる。
給される。このメモリ装置Iは1行rワードの記憶部が
例えば16行マトリクス状に配されたもので、ローカル
パラメータL(p)か各次元ととKJI11次記憶され
ると共に、上述のクロック発生器(5)からの5.12
輌1間隔のフレームクロックが供給されて、各行のパラ
メータが順次横方向ヘシフトされる。
これにより【メモリ装置Iには5.12m5c間隔のr
次元のローカルパラメータ、L(p)が167レーム(
81,92m5ec)分記憶され、フレームクロックご
とに順次新しいパラメータに更新される さらにエンファシス1路a匈からの重み付けされた信号
が帯域分割−路C11)に供給され、上述と同様にメル
スケールに応じてN(例えば20 )の帯域に分割され
、それぞれの帯域の信号の量に応じた信号■佃)(ll
=o、1・・−・・N−1)が取り出される。この信号
がバイアス付き対数回路5(至)k供給されてV’(n
) = ”g(V(n) + B )
・・= Hが形成される。また信号VOI)が累算回
路(2)に供給されて て v−=jog(V1十B)
−・・・・・Qυが形成される。そしてこ
れらの信号が演算回路(財)に供給されて V(n)=マ蟲−v色) −a邊が
形成される。
次元のローカルパラメータ、L(p)が167レーム(
81,92m5ec)分記憶され、フレームクロックご
とに順次新しいパラメータに更新される さらにエンファシス1路a匈からの重み付けされた信号
が帯域分割−路C11)に供給され、上述と同様にメル
スケールに応じてN(例えば20 )の帯域に分割され
、それぞれの帯域の信号の量に応じた信号■佃)(ll
=o、1・・−・・N−1)が取り出される。この信号
がバイアス付き対数回路5(至)k供給されてV’(n
) = ”g(V(n) + B )
・・= Hが形成される。また信号VOI)が累算回
路(2)に供給されて て v−=jog(V1十B)
−・・・・・Qυが形成される。そしてこ
れらの信号が演算回路(財)に供給されて V(n)=マ蟲−v色) −a邊が
形成される。
ここで上述のような信号V(n)を用いることにより、
この信号は音韻から音韻への変化に対して各次(n=o
、1・・・・−・N−1)の変化か同程度となり、音韻
の種類による変化量のばらつきを回避できる。
この信号は音韻から音韻への変化に対して各次(n=o
、1・・・・−・N−1)の変化か同程度となり、音韻
の種類による変化量のばらつきを回避できる。
また対数をとり演算を行って正規化パラメータV(II
)を形成したことにより、入力音声のレベルの変化によ
るパラメータV(n)の変動が排除される。さらにバイ
アスBを加算して演算を行ったことにより、仮りに[3
−* ooとするとバフメータv01)→0となること
から明らかなように、入力音声の微少成分(ノイズ勢)
に対する感度を下げることができる。
)を形成したことにより、入力音声のレベルの変化によ
るパラメータV(n)の変動が排除される。さらにバイ
アスBを加算して演算を行ったことにより、仮りに[3
−* ooとするとバフメータv01)→0となること
から明らかなように、入力音声の微少成分(ノイズ勢)
に対する感度を下げることができる。
このパラメータV(A”)がメモリ装置(ハ)に供給さ
れ′C2W+1(例えば9)フレーム分が記憶される。
れ′C2W+1(例えば9)フレーム分が記憶される。
この記憶された信号が演算回路(ホ)に供給されてYn
、t−1,:′ffFN(vQl)(■))・・・・・
・(B)但し、GFN=(I;−實+重≦■≦w−)−
1)が形成され、この信号とバフメータy<t>が演算
回路(財)K供給されて ・・・・・・a荀 が形成される このT(t)が過渡点検出パラメータで
あって、とのT(t)がビータ判別回路(至)に供給さ
れて、入力音声信号の音韻の過渡点が検出される。
、t−1,:′ffFN(vQl)(■))・・・・・
・(B)但し、GFN=(I;−實+重≦■≦w−)−
1)が形成され、この信号とバフメータy<t>が演算
回路(財)K供給されて ・・・・・・a荀 が形成される このT(t)が過渡点検出パラメータで
あって、とのT(t)がビータ判別回路(至)に供給さ
れて、入力音声信号の音韻の過渡点が検出される。
ここでパラメータT(t)が、フレー五tを挾んで前後
W7レームずつで定義されているので、不要な凹凸やf
IkILを生じるおそれがない。なお第3wJは例えば
0ゼー“とい5発音を、サンプリング周波数ILikH
i、l冨ビットデジタルデータとし、5.1ハlフレ一
ム周期で26藝点のFFTを行い、帯域数h=鵞O,バ
イアxBm6.検出7レーム数2W+1w−1で上述の
検出を行った場合を示している。図中Aは音声波形、B
は音韻、Cは検出信号であって、「無音−4Z J
l” Z−4K J 「g −4RJ「R→0」 「
0→無音」の各過渡部で顕著なピークを発生する。ここ
で無音部にノイズによる多少の凹凸が形成されるかこれ
はバイアスBを太き(することにより破liA図示のよ
うに略OKなる。
W7レームずつで定義されているので、不要な凹凸やf
IkILを生じるおそれがない。なお第3wJは例えば
0ゼー“とい5発音を、サンプリング周波数ILikH
i、l冨ビットデジタルデータとし、5.1ハlフレ一
ム周期で26藝点のFFTを行い、帯域数h=鵞O,バ
イアxBm6.検出7レーム数2W+1w−1で上述の
検出を行った場合を示している。図中Aは音声波形、B
は音韻、Cは検出信号であって、「無音−4Z J
l” Z−4K J 「g −4RJ「R→0」 「
0→無音」の各過渡部で顕著なピークを発生する。ここ
で無音部にノイズによる多少の凹凸が形成されるかこれ
はバイアスBを太き(することにより破liA図示のよ
うに略OKなる。
この過液点検出信号T(t)がメ毫す装置Iに供給され
、この検出信号のタイ櫂ンダに相白する一一カルバツメ
ータL(P)が8誉目の行にシフトされた時点でメ毫す
装置1の読み出しが行われる。ここでメモリ鋏*aiの
読み出しは、各次元Pごとに16フレ一五分の信号が横
方向に読み出される。そして読み出された信号がDFT
回路Q5に供給される。
、この検出信号のタイ櫂ンダに相白する一一カルバツメ
ータL(P)が8誉目の行にシフトされた時点でメ毫す
装置1の読み出しが行われる。ここでメモリ鋏*aiの
読み出しは、各次元Pごとに16フレ一五分の信号が横
方向に読み出される。そして読み出された信号がDFT
回路Q5に供給される。
この回路(lstmおいて上述と同様にDFTが行われ
、音響パラメータの時系列変化の包絡特性が抽出される
。とのDFTされた信号の内から0〜Q−1(例えばQ
=3)次までのQ次元の値を取り出す。
、音響パラメータの時系列変化の包絡特性が抽出される
。とのDFTされた信号の内から0〜Q−1(例えばQ
=3)次までのQ次元の値を取り出す。
このDFTを各次元Pごとに行い、全体でPxQ(=2
4)ワードの過渡点パラメータK(p、 Q)(p=o
、1・・・・・・p−1) (Q=0.1・叩・Q−1
)が形成される。ここで、K(0,0)は定数なので、
p=oのときKq=1−Qとしてもよい。
4)ワードの過渡点パラメータK(p、 Q)(p=o
、1・・・・・・p−1) (Q=0.1・叩・Q−1
)が形成される。ここで、K(0,0)は定数なので、
p=oのときKq=1−Qとしてもよい。
すなわち第4図において、Aのような入力音声信号(H
AI)に対してBのような過渡点が検出されている場合
は、この信号の全体のパワースペクトルはCのようにな
っている。そして例えば[H→A]の過渡点のパワース
ペクトルがDのようであったとすると、この信号がエン
ファシスされてEのようになり、メルスケールで圧縮さ
れてFのようになる。この信号がDFTされてGのよう
になり、Hのよさに前後の16フレ一五分がマトリクス
され、この信号が順次時間軸を方向K DFTされて過
渡点パラメータK(psq)が形成される。
AI)に対してBのような過渡点が検出されている場合
は、この信号の全体のパワースペクトルはCのようにな
っている。そして例えば[H→A]の過渡点のパワース
ペクトルがDのようであったとすると、この信号がエン
ファシスされてEのようになり、メルスケールで圧縮さ
れてFのようになる。この信号がDFTされてGのよう
になり、Hのよさに前後の16フレ一五分がマトリクス
され、この信号が順次時間軸を方向K DFTされて過
渡点パラメータK(psq)が形成される。
この過渡点パラメータK(p、q)がマハラノビス距離
算出回路QIK供給されると共に、メモリ装置aηから
のクラスタ系数が回路(1Gに供給され【各クラスタ系
数とのマハラノビス距離が算出される。
算出回路QIK供給されると共に、メモリ装置aηから
のクラスタ系数が回路(1Gに供給され【各クラスタ系
数とのマハラノビス距離が算出される。
ここでクラスタ系数は複数の話者の発音が上述と同様に
過渡点パラメータを抽出し、これを音韻の自答に応じて
分類し統計解析して得られたものである。
過渡点パラメータを抽出し、これを音韻の自答に応じて
分類し統計解析して得られたものである。
そしてこの算出されたマハッノビス距離が判定回路0に
供給され、検出された過渡点が、何の音韻から何の音韻
への過渡点であるかが判定され、出力端子a鐘に取り出
される。
供給され、検出された過渡点が、何の音韻から何の音韻
への過渡点であるかが判定され、出力端子a鐘に取り出
される。
すなわち例えば1はい”1いいえ”0(ゼロ)1〜@9
(キエウ)1012単語について、あらかじめ多数(百
Å以上)の話者の音声を前述の装置に供給し、過渡点を
検出し過渡点パラメータを抽出する。この過渡点パラメ
ータを例えば第5図に示すようなテーブルに分類し、こ
の分#(クラスタ)ととに統計解析する。図中*は無音
を示す。
(キエウ)1012単語について、あらかじめ多数(百
Å以上)の話者の音声を前述の装置に供給し、過渡点を
検出し過渡点パラメータを抽出する。この過渡点パラメ
ータを例えば第5図に示すようなテーブルに分類し、こ
の分#(クラスタ)ととに統計解析する。図中*は無音
を示す。
これらの過渡点パラメータについて、任意のす(1)
/プルをRy、 B (r := 112”=・24
) (”はクラスタ指標で例えば―=1は*→H,a=
2はH→Aに対応する。―は話者番号)として、共分散
マトリクス・・−・ae 但し、R?)−E(Rシ5) Eはアンナンブル平均を針数し、こ の逆マトリクス (1) (a)−1 Br、 s” (At、 u)r、 s
−−−Qiを求める。
) (”はクラスタ指標で例えば―=1は*→H,a=
2はH→Aに対応する。―は話者番号)として、共分散
マトリクス・・−・ae 但し、R?)−E(Rシ5) Eはアンナンブル平均を針数し、こ の逆マトリクス (1) (a)−1 Br、 s” (At、 u)r、 s
−−−Qiを求める。
ここで任意の過渡点パラメータに、とクラスタ1との距
離が、マハラノビスの1n (K・″″RRソ゛ ・・・・・・Q7)で求
められる。
離が、マハラノビスの1n (K・″″RRソ゛ ・・・・・・Q7)で求
められる。
従ってメ%す装置Qηに上述のB、、 s及びlを求0
めて記憶しておくことにより、マハラノビス距離算出回
路(IQにて入力音声の過渡点パラメータとのマハラノ
ビス距離が算出される。
路(IQにて入力音声の過渡点パラメータとのマハラノ
ビス距離が算出される。
これによつ″′C回路収Qから入力音声の過渡点ごとに
各クラスタとの最小距離と過渡点の順位が堆り出される
。とれらが判定囲路(IIK供給され、入力音声が無音
になった時点において認識判定を行う。
各クラスタとの最小距離と過渡点の順位が堆り出される
。とれらが判定囲路(IIK供給され、入力音声が無音
になった時点において認識判定を行う。
例えば各単語ととに、各過渡点パラメータとクラスタと
の最小距離の平方根の平均値による単語距離を求める。
の最小距離の平方根の平均値による単語距離を求める。
?jお過渡点の一部脱落を考慮し【各単語は脱落を想定
した複数のタイプについて単語距離を求める。ただし過
渡点の順位関係がテーブルと異なっているものはリジェ
クトする。そしてこの単語距離が最小になる単語を認識
判定する。
した複数のタイプについて単語距離を求める。ただし過
渡点の順位関係がテーブルと異なっているものはリジェ
クトする。そしてこの単語距離が最小になる単語を認識
判定する。
こうして音声認識が行われるわけであるが、本発明によ
れば音声の過一点の音韻の変化を検出しているので、時
間軸の変動がなく、不特定話者について良好なg繊を行
5ことができる。
れば音声の過一点の音韻の変化を検出しているので、時
間軸の変動がなく、不特定話者について良好なg繊を行
5ことができる。
また過渡点において上述のようなパラメータの抽出を行
ったことにより、一つの過渡点を例えば24次元でw識
することができ、glltl−極めて容易かつ正確に行
うことができる。
ったことにより、一つの過渡点を例えば24次元でw識
することができ、glltl−極めて容易かつ正確に行
うことができる。
なお上述の装置において120名の話者にて学習を行い
、この120名以外の話者にて上述の12単語について
実験を行った結果、96.5%の平均wl識率が得られ
た。
、この120名以外の話者にて上述の12単語について
実験を行った結果、96.5%の平均wl識率が得られ
た。
さらに上述の例では1はい1の「H→AJど8(ハチ)
0の「H−*AJは同じクラスタに分類可能である。従
って認識すべき言語の音韻数をαとして・1oLC1個
のクラスタをあらかじめ計算してクラスタ係数をメモリ
装fIL拳?)K記憶させておけば、種薯の単一の認識
に適用でき、多くの語いの認識を容易に行5ことができ
る。
0の「H−*AJは同じクラスタに分類可能である。従
って認識すべき言語の音韻数をαとして・1oLC1個
のクラスタをあらかじめ計算してクラスタ係数をメモリ
装fIL拳?)K記憶させておけば、種薯の単一の認識
に適用でき、多くの語いの認識を容易に行5ことができ
る。
【図面の簡単な説明】
菖11Qは音声のa明のための図、第2図は本発明の一
例の系統卸、縞3図〜謔5図はその説明のための図であ
る。 (1)ハマイタロフォン、+31はローパスフィルタ、
(4)はAD変換回路、(5)はクロック発生器、(6
)はレジネタ、(7)はカクンタ、(8)は高速フーリ
エ変換囲路、(9)はパワースペクトル検出回路、ae
はエンファシス回路、aeは帯域分割回路、a4は対I
I[回路、03.6勺は離散的7−リエ変換閏路、軸、
@りはメモリ装置、軸はマハツノビス距離算出回路、錦
は判定回路、0は出力端子、なυ〜(至)は過渡点検出
のための回路である。 第5 i”1 手続補正書 昭和s8年 5月 25日 1′1′−件の表示 昭和s7年特許願第 !−412号 2、発明の名称 音声−織方法 3、補正、をする者 事件との関係 特許出願人 住所 東京部品用区北品用6丁目7番35号名称(21
8) ソニー株式会社 代表取締役 大 賀 典 雄 6、補止により増加する発明の数 (1)明細書中、嬉7119行F2M4点」とあるな「
2M−1点」と訂正する。 (2)同、同]110行1DFT&行5」とあるな「2
M−2点のDriを行なう」と訂正する。 (3)同、同真11〜14行 [x(、、、)−7玄1)/” i−O謹 =S二X(i)W[f)’ di ・・・・・(5
)諺m mm0.1・・・・−2M−IJとあるなmmo、1.
・・・・・2ト3」と訂正する。 (4)岡、菖8勇1行〜2行 i [W mm(悲士匹) 1M4 2M−雪 =偏(五」二!−)と訂正する。 −1 (5) 岡、同114行 [X(m) = ”ff’X(t)aimす1Jとある
をi=@ 菖 (6)同、同負1l−Is行 π・1−p r L<p>−五、xO)鴎]「 」 とあるな +7) rllj、第93N2行 r X(i) = X (sM−i−t)・・・・・・
・(8)」とあるな「X(i) =−X (−一息−り
」と訂正する・(8)同、同j14行 とあるな (9)同、第10貴10行 aO同、Mlllkl!i行ry<th>Jとあるをr
Ycn) Jと訂正する。 aυ 同、同jll 17行 ag 同、第131111行「定数なので」とあるを
「音声鼓形のパワーを表現しているので、パワー正規化
のため」と訂正する。 as 同、菖14116 、7 、8行にソtLソt
L r/jスタ系数」とあるV「クラスタ係数」と訂正
する。 Q4 同、菖17116行「96.5%」とあるをr
9s、zう」と訂正する。 as 同、同jal1行rcLCm個」とあるなrc
iPs個程度」と訂正する。 以上
例の系統卸、縞3図〜謔5図はその説明のための図であ
る。 (1)ハマイタロフォン、+31はローパスフィルタ、
(4)はAD変換回路、(5)はクロック発生器、(6
)はレジネタ、(7)はカクンタ、(8)は高速フーリ
エ変換囲路、(9)はパワースペクトル検出回路、ae
はエンファシス回路、aeは帯域分割回路、a4は対I
I[回路、03.6勺は離散的7−リエ変換閏路、軸、
@りはメモリ装置、軸はマハツノビス距離算出回路、錦
は判定回路、0は出力端子、なυ〜(至)は過渡点検出
のための回路である。 第5 i”1 手続補正書 昭和s8年 5月 25日 1′1′−件の表示 昭和s7年特許願第 !−412号 2、発明の名称 音声−織方法 3、補正、をする者 事件との関係 特許出願人 住所 東京部品用区北品用6丁目7番35号名称(21
8) ソニー株式会社 代表取締役 大 賀 典 雄 6、補止により増加する発明の数 (1)明細書中、嬉7119行F2M4点」とあるな「
2M−1点」と訂正する。 (2)同、同]110行1DFT&行5」とあるな「2
M−2点のDriを行なう」と訂正する。 (3)同、同真11〜14行 [x(、、、)−7玄1)/” i−O謹 =S二X(i)W[f)’ di ・・・・・(5
)諺m mm0.1・・・・−2M−IJとあるなmmo、1.
・・・・・2ト3」と訂正する。 (4)岡、菖8勇1行〜2行 i [W mm(悲士匹) 1M4 2M−雪 =偏(五」二!−)と訂正する。 −1 (5) 岡、同114行 [X(m) = ”ff’X(t)aimす1Jとある
をi=@ 菖 (6)同、同負1l−Is行 π・1−p r L<p>−五、xO)鴎]「 」 とあるな +7) rllj、第93N2行 r X(i) = X (sM−i−t)・・・・・・
・(8)」とあるな「X(i) =−X (−一息−り
」と訂正する・(8)同、同j14行 とあるな (9)同、第10貴10行 aO同、Mlllkl!i行ry<th>Jとあるをr
Ycn) Jと訂正する。 aυ 同、同jll 17行 ag 同、第131111行「定数なので」とあるを
「音声鼓形のパワーを表現しているので、パワー正規化
のため」と訂正する。 as 同、菖14116 、7 、8行にソtLソt
L r/jスタ系数」とあるV「クラスタ係数」と訂正
する。 Q4 同、菖17116行「96.5%」とあるをr
9s、zう」と訂正する。 as 同、同jal1行rcLCm個」とあるなrc
iPs個程度」と訂正する。 以上
Claims (1)
- 無音を含む音韻間の過渡部を検出する手段を有し、この
検出された過渡部の音声を所定長抽出してパラメータに
変換し、このパラメータな認識基本単位とするようにし
た音声g敵方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57029472A JPS58145999A (ja) | 1982-02-25 | 1982-02-25 | 音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57029472A JPS58145999A (ja) | 1982-02-25 | 1982-02-25 | 音声認識方法 |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3130683A Division JPH0664480B2 (ja) | 1991-05-02 | 1991-05-02 | 音声信号圧縮方法及びメモリ書き込み方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS58145999A true JPS58145999A (ja) | 1983-08-31 |
| JPH0441357B2 JPH0441357B2 (ja) | 1992-07-08 |
Family
ID=12277034
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP57029472A Granted JPS58145999A (ja) | 1982-02-25 | 1982-02-25 | 音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS58145999A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS59166999A (ja) * | 1983-03-11 | 1984-09-20 | ソニー株式会社 | 音声過渡点検出方法 |
| JPS59170897A (ja) * | 1983-03-17 | 1984-09-27 | ソニー株式会社 | 音声過渡点検出方法 |
| JPS59174899A (ja) * | 1983-03-25 | 1984-10-03 | ソニー株式会社 | 音声過渡点検出方法 |
| WO1995014990A1 (en) * | 1993-11-29 | 1995-06-01 | Sony Corporation | Method and device for encoding signal, method and device for decoding signal, and recording medium |
-
1982
- 1982-02-25 JP JP57029472A patent/JPS58145999A/ja active Granted
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS59166999A (ja) * | 1983-03-11 | 1984-09-20 | ソニー株式会社 | 音声過渡点検出方法 |
| JPS59170897A (ja) * | 1983-03-17 | 1984-09-27 | ソニー株式会社 | 音声過渡点検出方法 |
| JPS59174899A (ja) * | 1983-03-25 | 1984-10-03 | ソニー株式会社 | 音声過渡点検出方法 |
| WO1995014990A1 (en) * | 1993-11-29 | 1995-06-01 | Sony Corporation | Method and device for encoding signal, method and device for decoding signal, and recording medium |
| US5778339A (en) * | 1993-11-29 | 1998-07-07 | Sony Corporation | Signal encoding method, signal encoding apparatus, signal decoding method, signal decoding apparatus, and recording medium |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0441357B2 (ja) | 1992-07-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH0441356B2 (ja) | ||
| CN102486920A (zh) | 音频事件检测方法和装置 | |
| CN101390155A (zh) | 发言者适配的语音识别和利用基音的注册 | |
| CN110931023B (zh) | 性别识别方法、系统、移动终端及存储介质 | |
| CN110970036A (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
| Saxena et al. | Extricate features utilizing Mel frequency cepstral coefficient in automatic speech recognition system | |
| CN111785302B (zh) | 说话人分离方法、装置及电子设备 | |
| JPS58145999A (ja) | 音声認識方法 | |
| Andruski et al. | The acoustics of vowels in Japanese women’s speech to infants and adults | |
| Chen et al. | Teager Mel and PLP fusion feature based speech emotion recognition | |
| Zhang et al. | Effective segmentation based on vocal effort change point detection | |
| JP4753412B2 (ja) | 発音評定装置、およびプログラム | |
| tat Vu et al. | An LP-based blind model for restoring bone-conducted speech | |
| JPS59166999A (ja) | 音声過渡点検出方法 | |
| Frid et al. | Acoustic-phonetic analysis of fricatives for classification using SVM based algorithm | |
| Berjon et al. | Frequency-centroid features for word recognition of non-native English speakers | |
| Zhang et al. | Advancements in whisper-island detection using the linear predictive residual | |
| JPH0552510B2 (ja) | ||
| Garg et al. | Minimal Feature Analysis for Isolated Digit Recognition for varying encoding rates in noisy environments | |
| JPS6069697A (ja) | 音声認識装置 | |
| JPH0546560B2 (ja) | ||
| JPH0552511B2 (ja) | ||
| JPH0546558B2 (ja) | ||
| JPS58146000A (ja) | 音声認識方法 | |
| JPH0546559B2 (ja) |