JPH045394B2 - - Google Patents
Info
- Publication number
- JPH045394B2 JPH045394B2 JP59058176A JP5817684A JPH045394B2 JP H045394 B2 JPH045394 B2 JP H045394B2 JP 59058176 A JP59058176 A JP 59058176A JP 5817684 A JP5817684 A JP 5817684A JP H045394 B2 JPH045394 B2 JP H045394B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- dictionary
- word
- likelihood
- probability density
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する単語音声認識方法に
関するものである。
書を照合して単語を認識する単語音声認識方法に
関するものである。
(従来例の構成とその問題点)
第1図は従来の単語音声認識方法の一例及び本
発明の単語音声認識方法の実施例を実行するため
の装置の機能ブロツク図である。従来例を第1
図、第2図及び第3図とともに説明する。第1図
において、1は入力音声からパラメータの時系列
を作成するパラメータ抽出部、2は音素標準パタ
ンを照合して、音素の確率密度を算出する確率密
度計算部、3は音素毎のセグメンテーシヨン、尤
度計算、単語類似度計算を行なう単語認識部であ
る。また、4は各音素毎の各種パラメータにおけ
る分布を各音素毎の平均値(〓i)、及び各種パ
ラメータ間の共分散行列(Σi)の形で表わした音
素標準パタンを記憶する音素標準パタン部、5は
認識すべき全単語を音素単位の記号例で表記した
単語辞書が記憶されている単語辞書部である。そ
の単語辞書は、例えば単語「サツポロ」、「ナガ
ノ」は「SAQPORO」、「NAGANO」等と表記
されている。
発明の単語音声認識方法の実施例を実行するため
の装置の機能ブロツク図である。従来例を第1
図、第2図及び第3図とともに説明する。第1図
において、1は入力音声からパラメータの時系列
を作成するパラメータ抽出部、2は音素標準パタ
ンを照合して、音素の確率密度を算出する確率密
度計算部、3は音素毎のセグメンテーシヨン、尤
度計算、単語類似度計算を行なう単語認識部であ
る。また、4は各音素毎の各種パラメータにおけ
る分布を各音素毎の平均値(〓i)、及び各種パ
ラメータ間の共分散行列(Σi)の形で表わした音
素標準パタンを記憶する音素標準パタン部、5は
認識すべき全単語を音素単位の記号例で表記した
単語辞書が記憶されている単語辞書部である。そ
の単語辞書は、例えば単語「サツポロ」、「ナガ
ノ」は「SAQPORO」、「NAGANO」等と表記
されている。
次に上記従来例の動作について説明する。パラ
メータ抽出部1において、入力音声を10msecの
フレーム毎に分析しパラメータを抽出して、パラ
メータ時系列を作成する。次に確率密度計算部2
において、フレーム毎に得られたパラメータと音
素標準パタン部4の音素標準パタンを照合し、音
素の確率密度を算出する。次に、単語認識部3に
おいて、各辞書項目毎に、その辞書項目を構成す
る辞書音素系列に従つて辞書音素系列中の音素X
のセグメンテーシヨンを行ない、その音素Xの確
率密度φX及びその音素Xに対応してセグメンテ
ーシヨンされた区間に出現し易い他の音素Y,Z
等の確率密度φY、φZを用いてその音素Xのセグ
メンテーシヨン区間に対して、音素Xの尤度lXを
式に従つて求める。
メータ抽出部1において、入力音声を10msecの
フレーム毎に分析しパラメータを抽出して、パラ
メータ時系列を作成する。次に確率密度計算部2
において、フレーム毎に得られたパラメータと音
素標準パタン部4の音素標準パタンを照合し、音
素の確率密度を算出する。次に、単語認識部3に
おいて、各辞書項目毎に、その辞書項目を構成す
る辞書音素系列に従つて辞書音素系列中の音素X
のセグメンテーシヨンを行ない、その音素Xの確
率密度φX及びその音素Xに対応してセグメンテ
ーシヨンされた区間に出現し易い他の音素Y,Z
等の確率密度φY、φZを用いてその音素Xのセグ
メンテーシヨン区間に対して、音素Xの尤度lXを
式に従つて求める。
(但し、
Ns、Ne:音素Xに対応してセグメンテーシヨン
された区間の始端と終端のフレーム番号 iの範囲は音素Xが何であるかによつて異な
り、例えばXが音素Aアの時は前記X、Yに対応
するiの範囲は5母音A.I.U.E.Oの5つとする。) 式において、φi(〓n)はある音素iの確率密
度を表わし、式のように定義される。
された区間の始端と終端のフレーム番号 iの範囲は音素Xが何であるかによつて異な
り、例えばXが音素Aアの時は前記X、Yに対応
するiの範囲は5母音A.I.U.E.Oの5つとする。) 式において、φi(〓n)はある音素iの確率密
度を表わし、式のように定義される。
φi(〓n)=1/(2π)N/2|Σi|1/2exp〔
−1/2(〓n−〓i)TΣi-1(〓n−〓i)〕……
(但し、 〓n:第nフレームにおけるN個のパラメータ
(ベクトル) 〓i:ある音素iのパラメータの平均値(ベクト
ル) Σi:共分散行列) またW(X、i、A、B)は、音素系列/
AXB/において、音素Xの区間に出現する音素
iの確率密度φiを考慮した重み関数であり、予め
予備実験等により求める。音素系列/AXB/の
場合の重み関数W(X、i、A、B)の例を第2
図に示す。第2図は音素Xに対応してセグメンテ
ーシヨンされた区間において、出現し易い音素が
音素X、及び音素X以外の音素としてY、Zが出
現した場合の例である。
−1/2(〓n−〓i)TΣi-1(〓n−〓i)〕……
(但し、 〓n:第nフレームにおけるN個のパラメータ
(ベクトル) 〓i:ある音素iのパラメータの平均値(ベクト
ル) Σi:共分散行列) またW(X、i、A、B)は、音素系列/
AXB/において、音素Xの区間に出現する音素
iの確率密度φiを考慮した重み関数であり、予め
予備実験等により求める。音素系列/AXB/の
場合の重み関数W(X、i、A、B)の例を第2
図に示す。第2図は音素Xに対応してセグメンテ
ーシヨンされた区間において、出現し易い音素が
音素X、及び音素X以外の音素としてY、Zが出
現した場合の例である。
上記の操作を辞書音素系列中の全ての音素につ
いて行ない、その辞書項目における各音素の尤度
の平均として単語類似度LMを式に従い求める。
次にLMを各辞書項目毎に求め、LMが最大になる
辞書項目をもつて認識単語としていた。
いて行ない、その辞書項目における各音素の尤度
の平均として単語類似度LMを式に従い求める。
次にLMを各辞書項目毎に求め、LMが最大になる
辞書項目をもつて認識単語としていた。
LM=NP
〓c=1
lj/NP ……
(LM:辞書中のM番目の単語の類似度
lj:辞書音素系列中のj番目の音素の尤度
NP:辞書音素数)
第3図は/NAGANO/(長野)と発声した場
合の/AGA/の部分の各音素の確率密度の時間
変化を示す。また、第4図は式において、/
AGA/の場合の重み関数、W(G、i、A、A)
を示す。
合の/AGA/の部分の各音素の確率密度の時間
変化を示す。また、第4図は式において、/
AGA/の場合の重み関数、W(G、i、A、A)
を示す。
第3図の/G/のセグメンテーシヨン区間(a
−b)において、出現する音素の確率密度をみる
と、/G/の確率密度、φGが最大で台形のパタ
ンをなし、次に/G/とは別種の音素/R/の確
率密度φRがφGより小さく低い山形となつて現わ
れ、φNについてもφRと似た傾向を示す。従つて、
式により、本来の音素である/G/の尤度φG
及び/G/の区間(a−b)に出現し易い音素で
ある/R/、/N/等の確率密度φR、φNから/
G/の尤度lGを式及び第4図のW(G、i、A、
A)の値に従つて計算する。また、第3図におい
て、φAに比べφGの値が小さいが、lGを求める際、
式を用いてφGだけでなく、φRやφNをW(G、
i、A、A)に従つて計算しているため、lAとlG
の間に大きな差を生じることがない。
−b)において、出現する音素の確率密度をみる
と、/G/の確率密度、φGが最大で台形のパタ
ンをなし、次に/G/とは別種の音素/R/の確
率密度φRがφGより小さく低い山形となつて現わ
れ、φNについてもφRと似た傾向を示す。従つて、
式により、本来の音素である/G/の尤度φG
及び/G/の区間(a−b)に出現し易い音素で
ある/R/、/N/等の確率密度φR、φNから/
G/の尤度lGを式及び第4図のW(G、i、A、
A)の値に従つて計算する。また、第3図におい
て、φAに比べφGの値が小さいが、lGを求める際、
式を用いてφGだけでなく、φRやφNをW(G、
i、A、A)に従つて計算しているため、lAとlG
の間に大きな差を生じることがない。
第5図は、式において/ARA/の場合のW
(R、i、A、A)を示す。第3図において、/
AGA/の/G/のセグメンテーシヨン区間(a
−b)に辞書音素系列中の/ARA/の/R/を
対応させた時、式及び第5図に示す重み関数、
W(R、i、A、A)の値に従つて、/R/の尤
度lRを求めると、区間(a−b)において、φG>
φRよりGの尤度lGよりRの尤度lRが大きくなるこ
とはない。
(R、i、A、A)を示す。第3図において、/
AGA/の/G/のセグメンテーシヨン区間(a
−b)に辞書音素系列中の/ARA/の/R/を
対応させた時、式及び第5図に示す重み関数、
W(R、i、A、A)の値に従つて、/R/の尤
度lRを求めると、区間(a−b)において、φG>
φRよりGの尤度lGよりRの尤度lRが大きくなるこ
とはない。
第6図に同じ単語/NAGANO/を他の話者が
発声した場合の/AGA/の部分の各音素の確率
密度の時間変化を示す。第6図の/G/のセグメ
ンテーシヨン区間(c−d)において、出現する
音素の確率密度をみると、第3図の場合とは異な
り、/G/の確率密度φGは台形のパタンをなす
が、値はφRに比べ小さい。一方、/AGA/の区
間において、φRの時間変化は少ないが、φRはφG
よりも大きな値を持つ。従つて、式、W(G、
i、A、A)及びW(R、i、A、A)より/
G/のセグメンテーシヨン区間(c−d)に、辞
書音素系列中の/AGA/の/G/を対応させた
時、得られる/G/の尤度lGと/ARA/の/
R/を対応させた時得られる/R/の尤度lRを比
較すると、lRの方がlGより大きくなる。このため
発声した単語/NAGANO/(ナガノ)を/
NARANO/(ナラノ))と誤認識する欠点があ
つた。
発声した場合の/AGA/の部分の各音素の確率
密度の時間変化を示す。第6図の/G/のセグメ
ンテーシヨン区間(c−d)において、出現する
音素の確率密度をみると、第3図の場合とは異な
り、/G/の確率密度φGは台形のパタンをなす
が、値はφRに比べ小さい。一方、/AGA/の区
間において、φRの時間変化は少ないが、φRはφG
よりも大きな値を持つ。従つて、式、W(G、
i、A、A)及びW(R、i、A、A)より/
G/のセグメンテーシヨン区間(c−d)に、辞
書音素系列中の/AGA/の/G/を対応させた
時、得られる/G/の尤度lGと/ARA/の/
R/を対応させた時得られる/R/の尤度lRを比
較すると、lRの方がlGより大きくなる。このため
発声した単語/NAGANO/(ナガノ)を/
NARANO/(ナラノ))と誤認識する欠点があ
つた。
(発明の目的)
本発明は、上記従来技術の欠点を除去し、尤度
計算の精度を向上させ、それにより単語認識率を
向上させることを目的とするものである。
計算の精度を向上させ、それにより単語認識率を
向上させることを目的とするものである。
(発明の構成)
本発明は、上記目的を達成するために、セグメ
ンテーシヨンされた区間において、着目した音素
の確率密度の時間変化パタンを尤度計算に取入
れ、尤度計算の精度を向上させるものである。即
わち、本発明の単語音声認識方法は、セグメンテ
ーシヨンされた音素の区間において、辞書音素系
列中の隣接する前後の音素に応じて、その音素及
び別種の音素の標準パタンとその音素との距離の
値及びその時間変化パタンに応じて尤度を計算
し、この尤度の値を用いて辞書項目と入力音声の
類似度を求めて単語を認識することを特徴とす
る。
ンテーシヨンされた区間において、着目した音素
の確率密度の時間変化パタンを尤度計算に取入
れ、尤度計算の精度を向上させるものである。即
わち、本発明の単語音声認識方法は、セグメンテ
ーシヨンされた音素の区間において、辞書音素系
列中の隣接する前後の音素に応じて、その音素及
び別種の音素の標準パタンとその音素との距離の
値及びその時間変化パタンに応じて尤度を計算
し、この尤度の値を用いて辞書項目と入力音声の
類似度を求めて単語を認識することを特徴とす
る。
(実施例の説明)
以下に本発明の一実施例について第1図及び第
3図とともに説明する。第1図において、音素標
準パタンは従来例と同様である。単語辞書は、認
識すべき単語を音素の記号列で表記してある。ま
たパラメータ抽出により得られるパラメータ時系
列は従来例と同様である。本実施例の動作につい
て説明する。先ず入力音声からフレーム毎のパラ
メータを得、さらにそのパラメータの値を使つ
て、各音素標準パタンから得られる確率密度を計
算する。ここまでは、前記従来例と同様である。
次に各辞書項目毎にその辞書項目を構成する辞書
音素系列に従つて音素Xのセグメンテーシヨンを
行ない、その音素Xの確率密度φX及びその音素
Xに対応してセグメンテーシヨンされた区間に出
現し易い他の音素Y、Z等の確率密度φY、φZを
用いて音素Xの尤度lXを求めるのであるが、その
際、φX、φY、φZの時間変化の大きさも考慮してlX
を求める。
3図とともに説明する。第1図において、音素標
準パタンは従来例と同様である。単語辞書は、認
識すべき単語を音素の記号列で表記してある。ま
たパラメータ抽出により得られるパラメータ時系
列は従来例と同様である。本実施例の動作につい
て説明する。先ず入力音声からフレーム毎のパラ
メータを得、さらにそのパラメータの値を使つ
て、各音素標準パタンから得られる確率密度を計
算する。ここまでは、前記従来例と同様である。
次に各辞書項目毎にその辞書項目を構成する辞書
音素系列に従つて音素Xのセグメンテーシヨンを
行ない、その音素Xの確率密度φX及びその音素
Xに対応してセグメンテーシヨンされた区間に出
現し易い他の音素Y、Z等の確率密度φY、φZを
用いて音素Xの尤度lXを求めるのであるが、その
際、φX、φY、φZの時間変化の大きさも考慮してlX
を求める。
第6図において、入力単語/NAGANO/の/
G/の尤度lGを求める場合、/G/のセグメンテ
ーシヨン区間(c−d)に対して出現し易い/
G/以外の音素の確率密度φR、φN及び/G/の
確率密度φGの時間についての1次差分値ΔφG/
Δtを求めてその極大値φG DMXと極小値φG DMNの
差φG DDの大小に応じて式、式に従つて尤度
を求める。
G/の尤度lGを求める場合、/G/のセグメンテ
ーシヨン区間(c−d)に対して出現し易い/
G/以外の音素の確率密度φR、φN及び/G/の
確率密度φGの時間についての1次差分値ΔφG/
Δtを求めてその極大値φG DMXと極小値φG DMNの
差φG DDの大小に応じて式、式に従つて尤度
を求める。
(V(φi DDは音素iの確率密度φiの1次差分値に
おける極大値と極小値の差φi DDから計算される
重み関数であり、式によつて表わされる) V(φi DD)を除き、記号は、式に準ずる。
おける極大値と極小値の差φi DDから計算される
重み関数であり、式によつて表わされる) V(φi DD)を除き、記号は、式に準ずる。
V(φi DD)=C+D・φi DD ……
(C、Dは定数)
第7図にV(φG DD)の値を示す。セグメンテ
ーシヨン区間(c−d)に対応して第6図におい
て、、式を用いて/AGA/の/G/の尤度
l′Gと/ARA/の/R/の尤度l′Rを求めると、(c
−d)区間において、V(φG DD)〓V(φR DD)
より、本来の音素/G/の尤度l′Gの方がl′Rより大
きくなるため/NAGANO/を/NARANO/と
誤認識することはない。
ーシヨン区間(c−d)に対応して第6図におい
て、、式を用いて/AGA/の/G/の尤度
l′Gと/ARA/の/R/の尤度l′Rを求めると、(c
−d)区間において、V(φG DD)〓V(φR DD)
より、本来の音素/G/の尤度l′Gの方がl′Rより大
きくなるため/NAGANO/を/NARANO/と
誤認識することはない。
本実施例においては、セグメンテーシヨンされ
た区間において、音素Xの尤度lXを求める際、音
素Xの確率密度φXの時間変化の大きさに対応し
た尤度計算を行なうため、φXの値が小さくても
時間変化が大きければ、lXの値が大きくなり、尤
度計算の精度が向上する利点がある。
た区間において、音素Xの尤度lXを求める際、音
素Xの確率密度φXの時間変化の大きさに対応し
た尤度計算を行なうため、φXの値が小さくても
時間変化が大きければ、lXの値が大きくなり、尤
度計算の精度が向上する利点がある。
(発明の効果)
本発明は、セグメンテーシヨンされた区間内に
おいて、辞書音素系列中の隣接する前後の音素に
応じて、その音素及び別種の音素の標準パタンと
その音素との距離の値及び時間変化パタンに応じ
て尤度を計算するため、尤度計算の精度が向上す
る。
おいて、辞書音素系列中の隣接する前後の音素に
応じて、その音素及び別種の音素の標準パタンと
その音素との距離の値及び時間変化パタンに応じ
て尤度を計算するため、尤度計算の精度が向上す
る。
第1図は従来の単語音声認識方法の一例および
本発明の方法を実施例を実行するための装置の機
能ブロツク図である。第2図は式において、音
素系列/AXB/の場合の重み関数W(X、i、
A、B)を示す図、第3図は、/NAGANO/
(ナガノ)と発声した場合の/AGA/の部分にお
ける音素の確率密度の時間変化を示す図、第4
図、第5図は、式において音素系列/AGA/
及び/ARA/の場合の重み関数W(G、i、A、
A)、W(R、i、A、A)を示す図、第6図は、
第3図とは別の話者が発声した/NAGANO/
(ナガノ)の/AGA/の部分における音素の確率
密度及びその差分値の時間変化を示す図、第7図
は式のV(φi DD)とφi DDの関係を示す図であ
る。 1……パラメータ抽出部、2……確率密度計算
部、3……単語認識部、4……音素標準パタン
部、5……単語辞書部。
本発明の方法を実施例を実行するための装置の機
能ブロツク図である。第2図は式において、音
素系列/AXB/の場合の重み関数W(X、i、
A、B)を示す図、第3図は、/NAGANO/
(ナガノ)と発声した場合の/AGA/の部分にお
ける音素の確率密度の時間変化を示す図、第4
図、第5図は、式において音素系列/AGA/
及び/ARA/の場合の重み関数W(G、i、A、
A)、W(R、i、A、A)を示す図、第6図は、
第3図とは別の話者が発声した/NAGANO/
(ナガノ)の/AGA/の部分における音素の確率
密度及びその差分値の時間変化を示す図、第7図
は式のV(φi DD)とφi DDの関係を示す図であ
る。 1……パラメータ抽出部、2……確率密度計算
部、3……単語認識部、4……音素標準パタン
部、5……単語辞書部。
Claims (1)
- 1 認識すべき単語を音素単位の記号列で表記し
た単語辞書と、各音素の音響パラメータで表わさ
れた各音素の標準パタンを用いて、入力音声の単
語認識を行なう単語音声認識方法において、入力
音声を単語辞書の各辞書項目と照合し、各辞書項
目を構成する辞書音素系列に従い各音素毎に入力
音声をセグメンテーシヨンし、セグメンテーシヨ
ンされた音素の区間に対して、その音素の標準パ
タンとその音素との距離の値を用いて各辞書項目
と入力音声の類似度を求めて、単語を認識する
際、セグメンテーシヨンされた音素の区間内にお
いて、辞書音素系列中の隣接する前後の音素に応
じて、その音素及び別種の音素の標準パタンとそ
の音素との距離の値及びその時間変化パタンに応
じて尤度を計算し、この尤度の値を用いて辞書項
目と入力音声の類似度を求めて単語を認識するこ
とを特徴とする単語音声認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59058176A JPS60202488A (ja) | 1984-03-28 | 1984-03-28 | 単語音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59058176A JPS60202488A (ja) | 1984-03-28 | 1984-03-28 | 単語音声認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60202488A JPS60202488A (ja) | 1985-10-12 |
| JPH045394B2 true JPH045394B2 (ja) | 1992-01-31 |
Family
ID=13076685
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59058176A Granted JPS60202488A (ja) | 1984-03-28 | 1984-03-28 | 単語音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60202488A (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2879989B2 (ja) * | 1991-03-22 | 1999-04-05 | 松下電器産業株式会社 | 音声認識方法 |
| JP2692382B2 (ja) * | 1990-12-21 | 1997-12-17 | 松下電器産業株式会社 | 音声認識方法 |
-
1984
- 1984-03-28 JP JP59058176A patent/JPS60202488A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60202488A (ja) | 1985-10-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6490555B1 (en) | Discriminatively trained mixture models in continuous speech recognition | |
| EP1023718A1 (en) | Pattern recognition using multiple reference models | |
| JPH045394B2 (ja) | ||
| Wolfertstetter et al. | Structured Markov models for speech recognition | |
| Tanaka et al. | F-measure based end-to-end optimization of neural network keyword detectors | |
| JPH0412480B2 (ja) | ||
| JPH0431116B2 (ja) | ||
| Kakutani et al. | Detection and recognition of repaired speech on misrecognized utterances for speech input of car navigation system. | |
| JPH045391B2 (ja) | ||
| JPH0247756B2 (ja) | ||
| JPH0247757B2 (ja) | ||
| JPH0431114B2 (ja) | ||
| JPH045397B2 (ja) | ||
| JPH045396B2 (ja) | ||
| JPH0412479B2 (ja) | ||
| JPS6325366B2 (ja) | ||
| JPH0431115B2 (ja) | ||
| JPH0155477B2 (ja) | ||
| JPH0413719B2 (ja) | ||
| JPH07113838B2 (ja) | 音声認識方法 | |
| JPH045393B2 (ja) | ||
| JPH045392B2 (ja) | ||
| JPH0155476B2 (ja) | ||
| Cocchiglia et al. | Implementation of an autoassociative recurrent neural network for speech recognition | |
| JPH045395B2 (ja) |