JPH045392B2 - - Google Patents
Info
- Publication number
- JPH045392B2 JPH045392B2 JP59058174A JP5817484A JPH045392B2 JP H045392 B2 JPH045392 B2 JP H045392B2 JP 59058174 A JP59058174 A JP 59058174A JP 5817484 A JP5817484 A JP 5817484A JP H045392 B2 JPH045392 B2 JP H045392B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- vowels
- dictionary
- word
- unvoiced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 1
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する単語音声認識方法に
関するものである。
書を照合して単語を認識する単語音声認識方法に
関するものである。
(従来例の構成とその問題点)
第1図は従来の単語音声認識方法の一例及び本
発明の単語音声認識方法の実施例等を実行するた
めの装置の機能ブロツク図である。従来例を第1
図および第2図とともに説明する。第1図におい
て、1は入力音声からパラメータの時系列を作成
するパラメータ抽出部、2は音素標準パタンを照
合して、音素の確率密度を算出する確率密度計算
部、3は音素毎のセグメンテーシヨン、尤度計
算、単語類似度計算等を行なう単語認識部であ
る。また、4は予め予備実験等により作成され
た、各音素毎の各種パラメータにおける分布を各
音素毎の平均値(〓i)、及び各種パラメータ間の
共分散行列(Σi)の形で表わした音素標準パタン
を記憶する音素標準パタン部、5は認識すべき全
単語を音素単位の記号列で表記した単語辞書が記
憶されている単語辞書部である。その単語辞書
は、例えば単語「サツポロ」、「クルメ」等は、そ
れぞれ「SAQPORO」、「KURUME」等と表記
されている。
発明の単語音声認識方法の実施例等を実行するた
めの装置の機能ブロツク図である。従来例を第1
図および第2図とともに説明する。第1図におい
て、1は入力音声からパラメータの時系列を作成
するパラメータ抽出部、2は音素標準パタンを照
合して、音素の確率密度を算出する確率密度計算
部、3は音素毎のセグメンテーシヨン、尤度計
算、単語類似度計算等を行なう単語認識部であ
る。また、4は予め予備実験等により作成され
た、各音素毎の各種パラメータにおける分布を各
音素毎の平均値(〓i)、及び各種パラメータ間の
共分散行列(Σi)の形で表わした音素標準パタン
を記憶する音素標準パタン部、5は認識すべき全
単語を音素単位の記号列で表記した単語辞書が記
憶されている単語辞書部である。その単語辞書
は、例えば単語「サツポロ」、「クルメ」等は、そ
れぞれ「SAQPORO」、「KURUME」等と表記
されている。
次に上記従来例の動作について説明する。入力
音素をパラメータ抽出部1により10msのフレー
ム毎に分析しパラメータを抽出して、パラメータ
時系列を作成する。確率密度計算部2はフレーム
毎に得られたパラメータと音素標準パタンを照合
し、音素の確率密度算出する。次に単語認識部3
において、上記のパラメータと得られた確率密度
値を用いて各辞書項目毎に、その辞書項目を構成
する辞書音素系列に従つて1音素毎に音素のセグ
メンテーシヨンを行ない、下記式に従いその音
素の種類と、その音素に対応してセグメンテーシ
ヨンされた区間の尤度lを計算し、その辞書項目
における、各音素の尤度の平均として類似度を求
める。ここで、その音素をXとし、Xに対応して
セグメンテーシヨンされた区間の始端と終端のフ
レーム番号をNs、Neとし、第nフレームにおけ
る各パラメータの値をCoとすると、音素Xの尤
度lxは下式で定義される。
音素をパラメータ抽出部1により10msのフレー
ム毎に分析しパラメータを抽出して、パラメータ
時系列を作成する。確率密度計算部2はフレーム
毎に得られたパラメータと音素標準パタンを照合
し、音素の確率密度算出する。次に単語認識部3
において、上記のパラメータと得られた確率密度
値を用いて各辞書項目毎に、その辞書項目を構成
する辞書音素系列に従つて1音素毎に音素のセグ
メンテーシヨンを行ない、下記式に従いその音
素の種類と、その音素に対応してセグメンテーシ
ヨンされた区間の尤度lを計算し、その辞書項目
における、各音素の尤度の平均として類似度を求
める。ここで、その音素をXとし、Xに対応して
セグメンテーシヨンされた区間の始端と終端のフ
レーム番号をNs、Neとし、第nフレームにおけ
る各パラメータの値をCoとすると、音素Xの尤
度lxは下式で定義される。
φi(Co)はある音素iの確率密度を表わし、
式のように定義される。
式のように定義される。
φi(Co)=1/(2π)1/2|Σi|1/2exp〔
−1/2(Co−〓i)T -1 〓 i(Co−〓i)〕 …… Co:第nフレームにおけるN個のパラメータ (ベクトル) μi:ある音素iのパラメータの平均値 (ベクトル) Σi:共分散行列 式において、確率密度の割り算における分母
のサメンシヨンiの範囲は、音素Xが何であるか
によつて異なり、例えばXが音素A(ア)の時はiの
範囲は5母音、A、E、I、O、Uとしている。
以上により得られる単語類似度LMを式に従つ
て各辞書項目毎に求め、LMが最大となる辞書項
目をもつて、認識単語としていた。
−1/2(Co−〓i)T -1 〓 i(Co−〓i)〕 …… Co:第nフレームにおけるN個のパラメータ (ベクトル) μi:ある音素iのパラメータの平均値 (ベクトル) Σi:共分散行列 式において、確率密度の割り算における分母
のサメンシヨンiの範囲は、音素Xが何であるか
によつて異なり、例えばXが音素A(ア)の時はiの
範囲は5母音、A、E、I、O、Uとしている。
以上により得られる単語類似度LMを式に従つ
て各辞書項目毎に求め、LMが最大となる辞書項
目をもつて、認識単語としていた。
LM=NP
〓j=1
lj/NP ……
LM:辞書中のM番目の単語の類似度
li:辞書音素系列中の音素jの尤度
NP:辞書音素数
第2図は/KURUME/(久留米)と発声した
時の各音素/K/、/U/、/R/、/U/、/
M/、/E/、の確率密度φK、φU、φR、φU、
φM、φEの時間変化を表わしている。この場合の
辞書単語/KURUME/に対する各音素のセグメ
ンテーシヨン及び尤度計算は、辞書の音素系列/
K/、/U/、/R/、/U/、/M/、/
E/、の順序に使い、第1番目の音素/K/に対
してφKを用いてセグメンテーシヨンした区間
(a−b)を対応させ、式に従いφKを用いてlK
を計算し、同様してlU、lR、lU、lM、lE、を求め
る。
時の各音素/K/、/U/、/R/、/U/、/
M/、/E/、の確率密度φK、φU、φR、φU、
φM、φEの時間変化を表わしている。この場合の
辞書単語/KURUME/に対する各音素のセグメ
ンテーシヨン及び尤度計算は、辞書の音素系列/
K/、/U/、/R/、/U/、/M/、/
E/、の順序に使い、第1番目の音素/K/に対
してφKを用いてセグメンテーシヨンした区間
(a−b)を対応させ、式に従いφKを用いてlK
を計算し、同様してlU、lR、lU、lM、lE、を求め
る。
第3図は同じ単語/KURUME/を別の話者が
発声した場合の各音素の確率密度の時間的変化を
示している。第3図において、辞書単語/
KURUME/に対する各音素のセグメンテーシヨ
ンは、辞書の音素系列/K/、/U/、/
R/、/U/、/M/、/E/の順序に従つて行
なうが、第1番目の音素である/K/のセグメン
テーシヨンを行なう場合、/K/の確率密度φK
は辞書の音素系列中の第2番目に現われる/U/
の始まり付近まで優勢であり、辞書の音素系列中
の最初に現われる/U/の区間においてφUはφK
に比べ小さな値となつている。また/R/の区間
においてφRもφKに比べほぼ同程度の値である。
発声した場合の各音素の確率密度の時間的変化を
示している。第3図において、辞書単語/
KURUME/に対する各音素のセグメンテーシヨ
ンは、辞書の音素系列/K/、/U/、/
R/、/U/、/M/、/E/の順序に従つて行
なうが、第1番目の音素である/K/のセグメン
テーシヨンを行なう場合、/K/の確率密度φK
は辞書の音素系列中の第2番目に現われる/U/
の始まり付近まで優勢であり、辞書の音素系列中
の最初に現われる/U/の区間においてφUはφK
に比べ小さな値となつている。また/R/の区間
においてφRもφKに比べほぼ同程度の値である。
このため、本来、(c−d)となるべき/K/
の区間を区間(c−e)又は区間(c−f)と誤
るため、第2番目以後の音素のセグメンテーシヨ
ンを誤り尤度も低くなるため、結果として無声子
音、無声化母音又は発声のナマケ易い母音、有声
子音が連続した音素系列を含む単語は、誤認識し
易い欠点があつた。
の区間を区間(c−e)又は区間(c−f)と誤
るため、第2番目以後の音素のセグメンテーシヨ
ンを誤り尤度も低くなるため、結果として無声子
音、無声化母音又は発声のナマケ易い母音、有声
子音が連続した音素系列を含む単語は、誤認識し
易い欠点があつた。
(発明の目的)
本発明は、上記従来例の欠点を除去するもので
あり、尤度計算の精度を向上させ、それにより単
語認識率を向上させることを目的とする。
あり、尤度計算の精度を向上させ、それにより単
語認識率を向上させることを目的とする。
(発明の構成)
本発明は、上記目的を達成するために、無声子
音及び有声子音に挟まれた無声化母音又は発声が
ナマケた母音のセグメンテーシヨン及び尤度計算
を行なう際、無声化母音又は、発声がナマケた母
音を含む、無声子音、母音、有声子音の連続3音
素をまとめてセグメンテーシヨンした尤度計算を
行なうことにより、セグメンテーシヨン及び尤度
計算の精度を向上させる効果を得るものである。
音及び有声子音に挟まれた無声化母音又は発声が
ナマケた母音のセグメンテーシヨン及び尤度計算
を行なう際、無声化母音又は、発声がナマケた母
音を含む、無声子音、母音、有声子音の連続3音
素をまとめてセグメンテーシヨンした尤度計算を
行なうことにより、セグメンテーシヨン及び尤度
計算の精度を向上させる効果を得るものである。
(実施例の説明)
以下に本発明の一実施例について第1図及び第
3図とともに説明する。第1図において、音素標
準パタンは従来例と同様である。単語辞書は、認
識すべき単語を音素の記号例で表記してあるが従
来例と異なるのは、無声化母音又はナマケた発声
をし易い母音に対して予め符号をつけてある。ま
たパラメータ抽出により得られるパラメータ時系
列は従来例と同様である。
3図とともに説明する。第1図において、音素標
準パタンは従来例と同様である。単語辞書は、認
識すべき単語を音素の記号例で表記してあるが従
来例と異なるのは、無声化母音又はナマケた発声
をし易い母音に対して予め符号をつけてある。ま
たパラメータ抽出により得られるパラメータ時系
列は従来例と同様である。
本実施例の動作について説明する。先ず入力音
声からフレーム毎のパラメータを得、さらにその
パラメータの値を使つて、各音素標準パタンから
得られる確率密度を計算する。ここまでは、前記
従来例と同様である。次に各辞書項目毎にその辞
書項目を構成する辞書音素系列に従つて音素Xの
セグメンテーシヨンを行ない、その音素Xとその
音素Xに対応してセグメンテーシヨンされた区間
の尤度lXを計算するのであるが、辞書音素系列中
に無声子音C1、有声子音C2に挟まれた無声化母
音又はナマケた発声をし易い母音Vがある場合、
Vの確率密度の値は母音の性質を示さず、無声子
音又は有声子音の性質を示す。従つて、無声子
音、無声化母音又は発声のナマケた母音、有声子
音(C1VC2)の並びにおける各音素の種類及びそ
の音素並びに対応して、各々の音素の確率密度の
値を利用して、3音素まとめてセグメンテーシヨ
ンを行ない、そのセグメンテーシヨンされた区間
に対して尤度lC1vc2を計算する。
声からフレーム毎のパラメータを得、さらにその
パラメータの値を使つて、各音素標準パタンから
得られる確率密度を計算する。ここまでは、前記
従来例と同様である。次に各辞書項目毎にその辞
書項目を構成する辞書音素系列に従つて音素Xの
セグメンテーシヨンを行ない、その音素Xとその
音素Xに対応してセグメンテーシヨンされた区間
の尤度lXを計算するのであるが、辞書音素系列中
に無声子音C1、有声子音C2に挟まれた無声化母
音又はナマケた発声をし易い母音Vがある場合、
Vの確率密度の値は母音の性質を示さず、無声子
音又は有声子音の性質を示す。従つて、無声子
音、無声化母音又は発声のナマケた母音、有声子
音(C1VC2)の並びにおける各音素の種類及びそ
の音素並びに対応して、各々の音素の確率密度の
値を利用して、3音素まとめてセグメンテーシヨ
ンを行ない、そのセグメンテーシヨンされた区間
に対して尤度lC1vc2を計算する。
第3図において、/K/の次の/U/の区間
(d−e)において/U/の確率度φUの値はほと
んどなく、代わりに/K/の確率密度φKが第2
番目の/U/の始まり付近まで優勢となつてい
る。また/R/の確率密度φRは/R/の区間に
おいてφKと同程度の値である。従つて区間(c
−f)を/K/、/U/、/R/を1つにまとめ
た音素系列/KUR/のセグメンテーシヨン区間
とし、/KUR/のセグメンテーシヨン区間内に
おいてφK、φRの値を用いて式に従い、3音素
分の尤度lKURを計算する。
(d−e)において/U/の確率度φUの値はほと
んどなく、代わりに/K/の確率密度φKが第2
番目の/U/の始まり付近まで優勢となつてい
る。また/R/の確率密度φRは/R/の区間に
おいてφKと同程度の値である。従つて区間(c
−f)を/K/、/U/、/R/を1つにまとめ
た音素系列/KUR/のセグメンテーシヨン区間
とし、/KUR/のセグメンテーシヨン区間内に
おいてφK、φRの値を用いて式に従い、3音素
分の尤度lKURを計算する。
式と対比して、他の普通の音素については従
来と同様式を用いて尤度計算を行なう。
来と同様式を用いて尤度計算を行なう。
本実施例においては、発声のナマケた母音を1
つの母音として扱わず、無声子音、発声のナマケ
た母音、無声子音の音素並びをまとめてセグメン
テーシヨン及び尤度計算を行なうため、発声のナ
マケた母音を含む単語の認識率が向上する利点が
ある。
つの母音として扱わず、無声子音、発声のナマケ
た母音、無声子音の音素並びをまとめてセグメン
テーシヨン及び尤度計算を行なうため、発声のナ
マケた母音を含む単語の認識率が向上する利点が
ある。
(発明の効果)
本発明は上記のような構成であり、以下に示す
効果が得られるものである。
効果が得られるものである。
無声子音と有声子音に挟まれ、発声のナマケた
母音のセグメンテーシヨン及び尤度計算を行なう
際、発声のナマケた母音を含む無声子音、発声の
ナマケた母音、無声子音の連続3音素をまとめて
セグメンテーシヨンし、尤度計算を行なうことに
より、従来法に比べ精度よくセグメンテーシヨン
及び尤度計算を行うことができる利点を有する。
母音のセグメンテーシヨン及び尤度計算を行なう
際、発声のナマケた母音を含む無声子音、発声の
ナマケた母音、無声子音の連続3音素をまとめて
セグメンテーシヨンし、尤度計算を行なうことに
より、従来法に比べ精度よくセグメンテーシヨン
及び尤度計算を行うことができる利点を有する。
第1図は従来及び本発明の一実施例における単
語音声認識方法を説明するための図、第2図は/
KURUME/(久留米)と発声した場合の各音
素/K/、/U/、/R/、/U/、/M/、/
E/の確率密度φK、φU、φR、φU、φM、φEの時間
変化を示す図、第3図は第2図の場合と別の話者
が/KURUME/と発声した場合のφK、φU、φR、
φU、φM、φEの時間変化を表わす図である。 1……パラメータ抽出部、2……確率密度計算
部、3……単語認識部、4……音素標準パタン
部、5……単語辞書部。
語音声認識方法を説明するための図、第2図は/
KURUME/(久留米)と発声した場合の各音
素/K/、/U/、/R/、/U/、/M/、/
E/の確率密度φK、φU、φR、φU、φM、φEの時間
変化を示す図、第3図は第2図の場合と別の話者
が/KURUME/と発声した場合のφK、φU、φR、
φU、φM、φEの時間変化を表わす図である。 1……パラメータ抽出部、2……確率密度計算
部、3……単語認識部、4……音素標準パタン
部、5……単語辞書部。
Claims (1)
- 1 認識すべき単語を音素単位の記号列で表記し
た単語辞書と、各音素の音響パラメータの分布形
で表わされた各音素の標準パタンを用いて、入力
音声の単誤認識を行なう単語音声認識方法におい
て、入力音声を単語辞書の各辞書項目と照合し、
各辞書項目を構成する辞書音素系列に従い各音素
毎に入力音声をセグメンテーシヨンし、その音素
の標準パタンを用いて、そのセグメンテーシヨン
された音声の区間がその音素から生成される確率
密度を計算し、セグメンテーシヨンされた音声の
区間に対して、上記確率密度の値を用いて各辞書
項目と入力音声の類似度を求めて単語を認識する
際、無声子音と有声子音の間に挟まれた、無声化
母音や発声のナマケた母音に対しては、無声化
母音や発声のナマケた母音を含む無声子音、無
声化母音又は発声のナマケた母音、および有声
子音の連続3音素をまとめてセグメンテーシヨン
し、尤度計算を行なうことを特徴とする単語音声
認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59058174A JPS60202487A (ja) | 1984-03-28 | 1984-03-28 | 単語音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59058174A JPS60202487A (ja) | 1984-03-28 | 1984-03-28 | 単語音声認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60202487A JPS60202487A (ja) | 1985-10-12 |
| JPH045392B2 true JPH045392B2 (ja) | 1992-01-31 |
Family
ID=13076632
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59058174A Granted JPS60202487A (ja) | 1984-03-28 | 1984-03-28 | 単語音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60202487A (ja) |
-
1984
- 1984-03-28 JP JP59058174A patent/JPS60202487A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60202487A (ja) | 1985-10-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH045392B2 (ja) | ||
| JPH0431116B2 (ja) | ||
| JPH045393B2 (ja) | ||
| JPH045396B2 (ja) | ||
| JP3291073B2 (ja) | 音声認識方式 | |
| JPH045397B2 (ja) | ||
| JPH045391B2 (ja) | ||
| JP3277522B2 (ja) | 音声認識方法 | |
| JPH07113838B2 (ja) | 音声認識方法 | |
| JPH0431115B2 (ja) | ||
| JPS60182499A (ja) | 音声認識装置 | |
| JPH0412480B2 (ja) | ||
| Watanabe | Segmentation-free syllable recognition in continuously spoken Japanese | |
| JPH045395B2 (ja) | ||
| JPH0412479B2 (ja) | ||
| JPH0413719B2 (ja) | ||
| JPH0635494A (ja) | 音声認識装置 | |
| JPS60149099A (ja) | 音声認識方法 | |
| JPS6180298A (ja) | 音声認識装置 | |
| JPH0289098A (ja) | 音節パターン切り出し装置 | |
| JPH067359B2 (ja) | 音声認識装置 | |
| JPH0431114B2 (ja) | ||
| JPH045394B2 (ja) | ||
| Zhao | HMM based recognition of Chinese tones in continuous speech | |
| JPH0413720B2 (ja) |