JPH045395B2 - - Google Patents
Info
- Publication number
- JPH045395B2 JPH045395B2 JP59058177A JP5817784A JPH045395B2 JP H045395 B2 JPH045395 B2 JP H045395B2 JP 59058177 A JP59058177 A JP 59058177A JP 5817784 A JP5817784 A JP 5817784A JP H045395 B2 JPH045395 B2 JP H045395B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- phoneme
- word
- segmented
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する単語音声認識方法に
関するものである。
書を照合して単語を認識する単語音声認識方法に
関するものである。
(従来例の構成とその問題点)
従来の単語音声認識方法を、第1図、第2図及
び第3図とともに説明する。第1図において単語
辞書部3の単語辞書は認識すべき全単語を音素系
列で表記したものであり、例えば単語「サツポ
ロ」、「フツサ」は「SAQPORO」「HUQSA」等
と表記されている。
び第3図とともに説明する。第1図において単語
辞書部3の単語辞書は認識すべき全単語を音素系
列で表記したものであり、例えば単語「サツポ
ロ」、「フツサ」は「SAQPORO」「HUQSA」等
と表記されている。
パラメータ抽出部1で入力音声を10msのフレ
ーム毎に分析し、パラメータを抽出して、パラメ
ータ時系列を作成する。次に単語認識部2におい
て上記のパラメータを用いて各辞書項目毎に、そ
の辞書項目を構成する辞書音素系列に従つて、1
音素毎に音素のセグメンテーシヨンを行ない、音
素の種類と、その音素に対応してセグメンテーシ
ヨンされた区間を尤度lを、上記パラメータを用
いて計算し、式に従つてその辞書項目におけ
る、各音素の尤度の平均として類似度を求める。
ーム毎に分析し、パラメータを抽出して、パラメ
ータ時系列を作成する。次に単語認識部2におい
て上記のパラメータを用いて各辞書項目毎に、そ
の辞書項目を構成する辞書音素系列に従つて、1
音素毎に音素のセグメンテーシヨンを行ない、音
素の種類と、その音素に対応してセグメンテーシ
ヨンされた区間を尤度lを、上記パラメータを用
いて計算し、式に従つてその辞書項目におけ
る、各音素の尤度の平均として類似度を求める。
以上により得られる単語類似度LMを各辞書項
目毎に求め、LMが最大となる辞書項目をもつて
認識単語とする。
目毎に求め、LMが最大となる辞書項目をもつて
認識単語とする。
LM=NP
〓i=1
li/NP ……
(但し、
LM:辞書中のM番目の単語の類似度
li:辞書音素系列中のi番目の音素の尤度
NP:辞書音素数)
上記のような方法において、促音のセグメンテ
ーシヨン及び尤度計算は、式に示される音声の
対数正規化パワー、P(N)(Nはフレーム番号
(No.))及び式に示される隣接フレーム間ケプス
トラム距離CD(N)の値をもとにセグメンテーシ
ヨンを行ない、セグメンテーシヨンされた促音の
持続時間長、LNGから式に従つて促音の尤度
を求める。
ーシヨン及び尤度計算は、式に示される音声の
対数正規化パワー、P(N)(Nはフレーム番号
(No.))及び式に示される隣接フレーム間ケプス
トラム距離CD(N)の値をもとにセグメンテーシ
ヨンを行ない、セグメンテーシヨンされた促音の
持続時間長、LNGから式に従つて促音の尤度
を求める。
P(N)=logPow(N)−logPowMio/logPowMax−lo
gPowMio…… (但し、 N:フレームNo. Pow(N):音声区間内の音声パワー PowMax、PowMio:音声区間内の音声パワーの最
大値及び最小値) CD(N)=〔{Co(N)−Co(N−1)}2+2
・5 〓i=1 {Ci(N)−Ci(N−1)}2〕〓 …… (但し、 Co(N):Nフレーム目における、音声の対数残
差パワー Ci(N):Nフレーム目におけるi次のケプストラ
ム係数) (但し、 A、B:定数 TLG:促音の持続時間長の平均値 TL、TH:促音の持続時間長のいき値 TLG、TL、LHは予備実験等により予め求めてお
く) 第2図は/SAQPORO/(札幌)と発声した
時の音声の対数正規化パワーP(N)の時間変化
を表わしている。この場合の促音/Q/のセグメ
ンテーシヨン及び尤度計算は、/A/の後端フレ
ームaからP(N)の大きさがTP以下のフレーム
をサーチして、P(N)がTP以上であるか、又
は、隣接フレーム間ケプストラム距離CD(N)
が、いき値TCDより大きくなるフレーム(b)を促
音/Q/の後端フレームとし/Q/のセグメンテ
ーシヨンされた区間(a−b)の持続時間長
LNGを用いて式に従つて尤度を計算する。
gPowMio…… (但し、 N:フレームNo. Pow(N):音声区間内の音声パワー PowMax、PowMio:音声区間内の音声パワーの最
大値及び最小値) CD(N)=〔{Co(N)−Co(N−1)}2+2
・5 〓i=1 {Ci(N)−Ci(N−1)}2〕〓 …… (但し、 Co(N):Nフレーム目における、音声の対数残
差パワー Ci(N):Nフレーム目におけるi次のケプストラ
ム係数) (但し、 A、B:定数 TLG:促音の持続時間長の平均値 TL、TH:促音の持続時間長のいき値 TLG、TL、LHは予備実験等により予め求めてお
く) 第2図は/SAQPORO/(札幌)と発声した
時の音声の対数正規化パワーP(N)の時間変化
を表わしている。この場合の促音/Q/のセグメ
ンテーシヨン及び尤度計算は、/A/の後端フレ
ームaからP(N)の大きさがTP以下のフレーム
をサーチして、P(N)がTP以上であるか、又
は、隣接フレーム間ケプストラム距離CD(N)
が、いき値TCDより大きくなるフレーム(b)を促
音/Q/の後端フレームとし/Q/のセグメンテ
ーシヨンされた区間(a−b)の持続時間長
LNGを用いて式に従つて尤度を計算する。
第3図は/HUQSA/(福生)と発声した時の
音声パワーP(N)及び隣接フレーム間ケプスト
ラム距離CD(N)の時間変化を表わしている。第
3図の促音/Q/の部分に着目すると、/U/の
後端フレーム(c)から/Q/の後端フレーム(d)を探
索する場合、第2図の/Q/の場合と比べ、P
(N)の大きさはQ区間において、いき値TP以下
になることはなく、CD(N)の値もTCD以上にな
ることはない。このため、促音Qのセグメンテー
シヨンを行なう場合本来の/Q/区間の後端(d)を
通り越し、後端フレーム(d)の探索を誤り、尤度も
低くなるため、促音、無声摩擦音が連続した音素
系列を含む単語は誤認識する欠点があつた。
音声パワーP(N)及び隣接フレーム間ケプスト
ラム距離CD(N)の時間変化を表わしている。第
3図の促音/Q/の部分に着目すると、/U/の
後端フレーム(c)から/Q/の後端フレーム(d)を探
索する場合、第2図の/Q/の場合と比べ、P
(N)の大きさはQ区間において、いき値TP以下
になることはなく、CD(N)の値もTCD以上にな
ることはない。このため、促音Qのセグメンテー
シヨンを行なう場合本来の/Q/区間の後端(d)を
通り越し、後端フレーム(d)の探索を誤り、尤度も
低くなるため、促音、無声摩擦音が連続した音素
系列を含む単語は誤認識する欠点があつた。
(発明の目的)
本発明は、上記従来技術の欠点を除去し、セグ
メンテーシヨン及び尤度計算の精度を向上させ、
それにより単語認識率を向上させることを目的と
するものである。
メンテーシヨン及び尤度計算の精度を向上させ、
それにより単語認識率を向上させることを目的と
するものである。
(発明の構成)
本発明は、上記目的を達成するために、促音、
無声摩擦音が連続する音素系列のセグメンテーシ
ヨン及び尤度計算を行なう際、促音、無声摩擦音
の連続2音素をまとめてセグメンテーシヨンし、
次に音素の音響パラメータの分布形で表わされた
標準パタンを用いて、そのセグメンテーシヨンさ
れた音声の区間が各音素から生成される確率密度
を計算し、セグメンテーシヨンされた音声の区間
に対して上記確率密度の値を利用して尤度計算を
行なうものである。
無声摩擦音が連続する音素系列のセグメンテーシ
ヨン及び尤度計算を行なう際、促音、無声摩擦音
の連続2音素をまとめてセグメンテーシヨンし、
次に音素の音響パラメータの分布形で表わされた
標準パタンを用いて、そのセグメンテーシヨンさ
れた音声の区間が各音素から生成される確率密度
を計算し、セグメンテーシヨンされた音声の区間
に対して上記確率密度の値を利用して尤度計算を
行なうものである。
(実施例の説明)
以下に本発明の実施例について第3図及び第4
図とともに説明する。第4図は本実施例の方法を
実行するための装置の機能ブロツク図であり、パ
ラメータ抽出部1、音素の確率密度計算部2、単
語認識部3、音素標準パタン部6、単語辞書7等
からなる。第1図に示す従来例と異なるのは、音
響パラメータの分布形で表わされた音素の標準パ
タンを備えていることである。また、単語辞書
は、認識すべき単語を音素の記号列で表記してあ
るが、促音、無声摩擦音の2連続音素系列に対し
て予めそれを識別するための符号をつけてある。
パラメータ抽出により得られるパラメータ時系列
は従来例と同様である。
図とともに説明する。第4図は本実施例の方法を
実行するための装置の機能ブロツク図であり、パ
ラメータ抽出部1、音素の確率密度計算部2、単
語認識部3、音素標準パタン部6、単語辞書7等
からなる。第1図に示す従来例と異なるのは、音
響パラメータの分布形で表わされた音素の標準パ
タンを備えていることである。また、単語辞書
は、認識すべき単語を音素の記号列で表記してあ
るが、促音、無声摩擦音の2連続音素系列に対し
て予めそれを識別するための符号をつけてある。
パラメータ抽出により得られるパラメータ時系列
は従来例と同様である。
本実施例の動作について説明する。先ずパラメ
ータ抽出部1において入力音声からフレーム毎の
パラメータを得、さらにそのパラメータの値を使
つて、確率密度計算部2おいて各音素の標準パタ
ンとから得られる確率密度を計算する。次に単語
認識部3により各辞書項目毎に、その辞書項目を
構成する辞書音素系列に従つて音素Xのセグメン
テーシヨンを行ない、その音素Xとソの音素Xに
対応してセグメンテーシヨンされた区間の尤度lX
を計算するのであるが、促音、無声摩擦音が連続
する音素系列中の促音の部分の性質は、促音、破
裂音が連続する音素系列中の促音の部分の性質と
は異なり、促音の部分の性質が無声摩擦音の性質
に近くなる。従つて、無声摩擦音の確率密度の値
を用いて促音、無声摩擦音の2連続音素をまとめ
てセグメンテーシヨンし尤度計算を行なう。
ータ抽出部1において入力音声からフレーム毎の
パラメータを得、さらにそのパラメータの値を使
つて、確率密度計算部2おいて各音素の標準パタ
ンとから得られる確率密度を計算する。次に単語
認識部3により各辞書項目毎に、その辞書項目を
構成する辞書音素系列に従つて音素Xのセグメン
テーシヨンを行ない、その音素Xとソの音素Xに
対応してセグメンテーシヨンされた区間の尤度lX
を計算するのであるが、促音、無声摩擦音が連続
する音素系列中の促音の部分の性質は、促音、破
裂音が連続する音素系列中の促音の部分の性質と
は異なり、促音の部分の性質が無声摩擦音の性質
に近くなる。従つて、無声摩擦音の確率密度の値
を用いて促音、無声摩擦音の2連続音素をまとめ
てセグメンテーシヨンし尤度計算を行なう。
第3図は、/HUQSA/と発声した時の音声パ
ワーP(N)、隣接フレーム間ケプストラム距離、
CD(N)及び音素/H/、/U/、/S/、/
A/の確率密度φH、φU、φS、φAの時間変化を示
す。第3図において、促音/Q/の部分のパワー
P(N)はいき値TP以下にはならず次の音素/
S/のパワーP(N)と同程度であり、/S/と
の境界(d)の隣接フレーム間ケプストラム距離、
CD(d)の値もいき値TCDを超えず大きな変化がな
い。また/Q/区間の確率密度は/S/の確率密
度、φSが優勢であり、/S/の後端(f)まで優勢で
ある。従つて、促音、無声摩擦音の2連続音素系
列に対しては、上記2連続音素系列を持続時間の
長い無声摩擦音とみなし、無声子音の確率密度を
用いて、/S/の後端(f)を見つけ、セグメンテー
シヨンを行ない、セグメンテーシヨン区間長、
LQS及び無声摩擦音の確率密度値φSを用いて式
に従い促音、無声摩擦音の2連続音素系列の尤度
lQSを求める。
ワーP(N)、隣接フレーム間ケプストラム距離、
CD(N)及び音素/H/、/U/、/S/、/
A/の確率密度φH、φU、φS、φAの時間変化を示
す。第3図において、促音/Q/の部分のパワー
P(N)はいき値TP以下にはならず次の音素/
S/のパワーP(N)と同程度であり、/S/と
の境界(d)の隣接フレーム間ケプストラム距離、
CD(d)の値もいき値TCDを超えず大きな変化がな
い。また/Q/区間の確率密度は/S/の確率密
度、φSが優勢であり、/S/の後端(f)まで優勢で
ある。従つて、促音、無声摩擦音の2連続音素系
列に対しては、上記2連続音素系列を持続時間の
長い無声摩擦音とみなし、無声子音の確率密度を
用いて、/S/の後端(f)を見つけ、セグメンテー
シヨンを行ない、セグメンテーシヨン区間長、
LQS及び無声摩擦音の確率密度値φSを用いて式
に従い促音、無声摩擦音の2連続音素系列の尤度
lQSを求める。
本実施例においては、促音、無声摩擦音の2連
続音素系列を持続時間の長い1つの無声摩擦音と
みなし、無声摩擦音の確率密度を用いてセグメン
テーシヨン及び尤度計算を行なうため、促音、無
声摩擦音の2連続音素系列を含む単語の認識率が
向上する利点がある。
続音素系列を持続時間の長い1つの無声摩擦音と
みなし、無声摩擦音の確率密度を用いてセグメン
テーシヨン及び尤度計算を行なうため、促音、無
声摩擦音の2連続音素系列を含む単語の認識率が
向上する利点がある。
C、D:定数
TLGQ:促音と無声摩擦音が連続した場合の持
続時間長の平均値 TL、TH:促音と無声摩擦音が連続した場合の持
続時間長のいき値 (TLGQ、TL、THは予備実験等により予め求め
ておく。) c、d:促音と無声摩擦音が連続した音素系列に
対応してセグメンテーシヨンされた区間の始端
及び終端フレームNo. φi(CN)はある音素iの確率密度を表わし、
式のように定義される。
続時間長の平均値 TL、TH:促音と無声摩擦音が連続した場合の持
続時間長のいき値 (TLGQ、TL、THは予備実験等により予め求め
ておく。) c、d:促音と無声摩擦音が連続した音素系列に
対応してセグメンテーシヨンされた区間の始端
及び終端フレームNo. φi(CN)はある音素iの確率密度を表わし、
式のように定義される。
φi(CN)=1/(2π)K/2|Σi|1/2exp〔−1
/2(CN−〓i)〓Σi -1(CN−〓i)〕…… CN:第NフレームにおけるK個のパラメータ
(ベクトル) 〓i:ある音素iのパラメータの平均値(ベクト
ル) Σi:共分散行列 式において、確率密度の割り算における分母
のiの範囲は5母音、鼻音、有声子音、無声子音
合わせて15個の音素のグループとしている。
/2(CN−〓i)〓Σi -1(CN−〓i)〕…… CN:第NフレームにおけるK個のパラメータ
(ベクトル) 〓i:ある音素iのパラメータの平均値(ベクト
ル) Σi:共分散行列 式において、確率密度の割り算における分母
のiの範囲は5母音、鼻音、有声子音、無声子音
合わせて15個の音素のグループとしている。
(発明の効果)
本発明は、促音と無声摩擦音が2連続する音素
系列のセグメンテーシヨン及び尤度計算を行なう
際、無声摩擦音の確率密度を用いて、促音、摩擦
音の連続2音素をまとめてセグメンテーシヨンし
尤度計算を行うことにより、従来法に比べ精度よ
くセグメンテーシヨン及び尤度計算を行なうこと
ができる利点を有する。
系列のセグメンテーシヨン及び尤度計算を行なう
際、無声摩擦音の確率密度を用いて、促音、摩擦
音の連続2音素をまとめてセグメンテーシヨンし
尤度計算を行うことにより、従来法に比べ精度よ
くセグメンテーシヨン及び尤度計算を行なうこと
ができる利点を有する。
第1図は従来例における単語音声認識方法を説
明するための図、第2図は/SAQPORO/(札
幌)と発声した場合の音声の正規化対数パワーP
(N)及び隣接フレーム間ケプストラム距離、CD
(N)の時間変化を示す図、第3図は/
HUQSA/(福生)と発声した場合のP(N)、
CD(N)及び音素/H/、/U/、/S/、/
A/の確率密度φH、φU、φS、φAの時間変化を示
す図、第4図は本発明の一実施例における単語音
声認識方法を説明するための図である。 11……パラメータ抽出部、12……音素の確
率密度計算部、13……単語認識部、14……音
素標準パタン部、15……単語辞書部。
明するための図、第2図は/SAQPORO/(札
幌)と発声した場合の音声の正規化対数パワーP
(N)及び隣接フレーム間ケプストラム距離、CD
(N)の時間変化を示す図、第3図は/
HUQSA/(福生)と発声した場合のP(N)、
CD(N)及び音素/H/、/U/、/S/、/
A/の確率密度φH、φU、φS、φAの時間変化を示
す図、第4図は本発明の一実施例における単語音
声認識方法を説明するための図である。 11……パラメータ抽出部、12……音素の確
率密度計算部、13……単語認識部、14……音
素標準パタン部、15……単語辞書部。
Claims (1)
- 1 認識すべき単語を音素単位の記号列で表記し
た単語辞書の辞書項目と入力音声を照合し、各辞
書項目を構成する辞書音素系列に従い、各辞書毎
に入力音声を単位時間毎に分析した音響パラメー
タを用いて、入力音声に対しセグメンテーシヨン
を行ない、そのセグメンテーシヨンされた区間に
対して、上記音響パラメータを用いて、各辞書項
目と入力音声の類似度を求めて、単語を認識する
単語音声認識方法において、辞書単語中の促音、
無声摩擦音が連続した音素系列に対しては促音と
無声摩擦音の連続2音素をまとめてセグメンテー
シヨンし、音素の音響パラメータの分布形で表わ
された標準パタンを用いて、そのセグメンテーシ
ヨンされた音声の区間が、各音素から生成される
確率密度を計算し、セグメンテーシヨンされた音
声の区間に対して上記確率密度の値を用いて尤度
計算を行なうことを特徴とする単語音声認識方
法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59058177A JPS60202496A (ja) | 1984-03-28 | 1984-03-28 | 単語音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59058177A JPS60202496A (ja) | 1984-03-28 | 1984-03-28 | 単語音声認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60202496A JPS60202496A (ja) | 1985-10-12 |
| JPH045395B2 true JPH045395B2 (ja) | 1992-01-31 |
Family
ID=13076717
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59058177A Granted JPS60202496A (ja) | 1984-03-28 | 1984-03-28 | 単語音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60202496A (ja) |
-
1984
- 1984-03-28 JP JP59058177A patent/JPS60202496A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60202496A (ja) | 1985-10-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8352263B2 (en) | Method for speech recognition on all languages and for inputing words using speech recognition | |
| JPS6336676B2 (ja) | ||
| US4991216A (en) | Method for speech recognition | |
| JP4666129B2 (ja) | 発声速度正規化分析を用いた音声認識装置 | |
| Frihia et al. | HMM/SVM segmentation and labelling of Arabic speech for speech recognition applications | |
| Ravinder | Comparison of hmm and dtw for isolated word recognition system of punjabi language | |
| Abdo et al. | Semi-automatic segmentation system for syllables extraction from continuous Arabic audio signal | |
| Kashani et al. | Sequential use of spectral models to reduce deletion and insertion errors in vowel detection | |
| JP5300000B2 (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
| Geetha et al. | Automatic phoneme segmentation of Tamil utterances | |
| JPH045395B2 (ja) | ||
| Shafie et al. | Sequential classification for articulation and Co-articulation classes of Al-Quran syllables pronunciations based on GMM-MLLR | |
| JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
| Laleye et al. | Automatic text-independent syllable segmentation using singularity exponents and rényi entropy | |
| JP2001005483A (ja) | 単語音声認識方法及び単語音声認識装置 | |
| JP3128251B2 (ja) | 音声認識装置 | |
| Thandil et al. | Automatic speech recognition system for utterances in Malayalam language | |
| JPH0981177A (ja) | 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法 | |
| JP2760096B2 (ja) | 音声認識方式 | |
| JPH0619497A (ja) | 音声認識方法 | |
| KR960007132B1 (ko) | 음성인식장치 및 그 방법 | |
| JPH0431116B2 (ja) | ||
| Loizou | Robust speaker-independent recognition of a confusable vocabulary | |
| Maenobu et al. | Speaker-independent word recognition in connected speech on the basis of phoneme recognition | |
| JPH045397B2 (ja) |