JPH045391B2 - - Google Patents
Info
- Publication number
- JPH045391B2 JPH045391B2 JP59058173A JP5817384A JPH045391B2 JP H045391 B2 JPH045391 B2 JP H045391B2 JP 59058173 A JP59058173 A JP 59058173A JP 5817384 A JP5817384 A JP 5817384A JP H045391 B2 JPH045391 B2 JP H045391B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- dictionary
- word
- speech
- nasal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 description 11
- 238000000605 extraction Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 1
- 230000002940 repellent Effects 0.000 description 1
- 239000005871 repellent Substances 0.000 description 1
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は入力音声と、音素表記された単語辞書
を照合して単語を認識する単語音声認識方法に関
するものである。
を照合して単語を認識する単語音声認識方法に関
するものである。
(従来例の構成とその問題点)
第1図は従来の単語音声認識方法の一例及び本
発明の単語音声認識方法の実施例を実行するため
の装置の機能ブロツク図である。従来例を第1
図、第2図及び第3図とともに説明する。第1図
において、1は入力音声からパラメータの時系列
を作成するパラメータ抽出部、2は音素標準パタ
ンを照合して、音素の確率密度を算出する確率密
度計算部、3は音素毎のセグメンテーシヨン、尤
度計算、単語類似度計算を行なう単語認識部であ
る。また、4は各音素毎の各種パラメータにおけ
る分布を各音素毎の平均値(μi)、及び各種パラ
メータ間の半分散行列(Σi)の形で表わした音素
標準パタンを記憶する音素標準パタン部、5は認
識すべき全単語を音素単位の記号列で表記した単
語辞書が記憶されている単語辞書部である。その
単語辞書は、例えば単語「サツポロ」、「カンケ
イ」は「SAQPORO」、「KAN=NAI」等と表記
されている。
発明の単語音声認識方法の実施例を実行するため
の装置の機能ブロツク図である。従来例を第1
図、第2図及び第3図とともに説明する。第1図
において、1は入力音声からパラメータの時系列
を作成するパラメータ抽出部、2は音素標準パタ
ンを照合して、音素の確率密度を算出する確率密
度計算部、3は音素毎のセグメンテーシヨン、尤
度計算、単語類似度計算を行なう単語認識部であ
る。また、4は各音素毎の各種パラメータにおけ
る分布を各音素毎の平均値(μi)、及び各種パラ
メータ間の半分散行列(Σi)の形で表わした音素
標準パタンを記憶する音素標準パタン部、5は認
識すべき全単語を音素単位の記号列で表記した単
語辞書が記憶されている単語辞書部である。その
単語辞書は、例えば単語「サツポロ」、「カンケ
イ」は「SAQPORO」、「KAN=NAI」等と表記
されている。
次に上記従来例の動作について説明する。パラ
メータ抽出部1において、入力音素を10msのフ
レーム毎に分析しパラメータを抽出して、パラメ
ータ時系列を作成する。次に確率密度計算部2に
おいて、フレーム毎に得られたパラメータと音素
標準パタン部4の音素標準パタンを照合し、音素
の確率密度を算出する。次に、単語認識部3にお
いて、各辞書項目毎に、その辞書項目を構成する
辞書音素系列に従つて音素のセグメンテーシヨン
を行ない、下記式に従いその音素の種類と、そ
の音素に対応してセグメンテーシヨンされた区間
の尤度lを計算し、その辞書項目における、各音
素の尤度の平均として類似度を求める。ここで、
その音素をXとし、Xに対応してセグメンテーシ
ヨンされた区間の始端と終端のフレーム番号を
Ns、Neとし、第nフレームにおける各パラメー
タの値をCoとすると、音素Xの尤度lxは下式で定
義される。
メータ抽出部1において、入力音素を10msのフ
レーム毎に分析しパラメータを抽出して、パラメ
ータ時系列を作成する。次に確率密度計算部2に
おいて、フレーム毎に得られたパラメータと音素
標準パタン部4の音素標準パタンを照合し、音素
の確率密度を算出する。次に、単語認識部3にお
いて、各辞書項目毎に、その辞書項目を構成する
辞書音素系列に従つて音素のセグメンテーシヨン
を行ない、下記式に従いその音素の種類と、そ
の音素に対応してセグメンテーシヨンされた区間
の尤度lを計算し、その辞書項目における、各音
素の尤度の平均として類似度を求める。ここで、
その音素をXとし、Xに対応してセグメンテーシ
ヨンされた区間の始端と終端のフレーム番号を
Ns、Neとし、第nフレームにおける各パラメー
タの値をCoとすると、音素Xの尤度lxは下式で定
義される。
φi(Co)はある音素iの確率密度を表わし、
式のように定義される。
式のように定義される。
φi(Co)=1/(2π)N/2|Σi|1/2exp〔
−1/2(Co−μi)TΣ-1 i(Co−μi)〕…… Co:第nフレームにおけるN個のパラメータ (ベクトル) μi:ある音楽iのパラメータの平均値 (ベクトル) Σi:共分散行列 式において、確率密度の割り算における分母
のサメンシヨンのiの範囲は、音素Xが何である
かによつて異なり、例えばXが音楽A(ア)の時はi
の範囲は5母音、A、E、I、O、U、としてい
る。以上により得られる単語類似度LMを式に
従つて各辞書項目毎に求め、LMが最大となる辞
書項目をもつて、認識単語としていた。
−1/2(Co−μi)TΣ-1 i(Co−μi)〕…… Co:第nフレームにおけるN個のパラメータ (ベクトル) μi:ある音楽iのパラメータの平均値 (ベクトル) Σi:共分散行列 式において、確率密度の割り算における分母
のサメンシヨンのiの範囲は、音素Xが何である
かによつて異なり、例えばXが音楽A(ア)の時はi
の範囲は5母音、A、E、I、O、U、としてい
る。以上により得られる単語類似度LMを式に
従つて各辞書項目毎に求め、LMが最大となる辞
書項目をもつて、認識単語としていた。
LM=NP
〓j=1
lj/NP ……
(LM:辞書中のM番目の単語の類似度
lj:辞書音素系列中のj番目の音素の尤度
NP:辞書音素類)
第2図は/KAN=NAI/(関内)と発声した
時の/AN=NA/の部分の各音素の確率密度の
時間変化を表わしている。この場合の/AN=
NA/の部分のセグメンテーシヨン及び尤度計算
は、各音素/A/、/N=/、/N/、/A/の
確率密度の値φA、φN=、φN、φAの時間変化に従つ
てセグメンテーシヨンを行なう。/AN=NA/
の場合は第1番目の/A/に対してセグメンテー
シヨンした区間(a−b)を対応させ、式に従
い、φAを用いてlAを計算し、/N=/、/
N/、/A/についても同様にlN=、lN、lAを計算
する。
時の/AN=NA/の部分の各音素の確率密度の
時間変化を表わしている。この場合の/AN=
NA/の部分のセグメンテーシヨン及び尤度計算
は、各音素/A/、/N=/、/N/、/A/の
確率密度の値φA、φN=、φN、φAの時間変化に従つ
てセグメンテーシヨンを行なう。/AN=NA/
の場合は第1番目の/A/に対してセグメンテー
シヨンした区間(a−b)を対応させ、式に従
い、φAを用いてlAを計算し、/N=/、/
N/、/A/についても同様にlN=、lN、lAを計算
する。
第3図は同じ単語/KAN=NAI/を別の話者
が発声した場合の各音素の確率密度の時間変化を
示している。第3図において、/AN=NA/の
部分のセグメンテーシヨン及び尤度計算はφA、
φN=、φN、φAの時間変化によつて行なうが、/N
=/のセグメンテーシヨンをする場合/N=/の
次に来る音素/N/の確率密度φNが/N/の区
間で十分大きくならずφN=が/N/の区間に大き
な値を持ち、次の音素/A/の区間の始まりまで
きている。従つて/N=/のセグメンテーシヨン
区間は区間(g−h)となり、/N/の区間を含
むため、/N=/の次の音素/N/のセグメンテ
ーンシヨンを誤り、尤度lNも低くなるため、撥
音、鼻音の連続2音素を含む単語は誤認識し易い
欠点があつた。
が発声した場合の各音素の確率密度の時間変化を
示している。第3図において、/AN=NA/の
部分のセグメンテーシヨン及び尤度計算はφA、
φN=、φN、φAの時間変化によつて行なうが、/N
=/のセグメンテーシヨンをする場合/N=/の
次に来る音素/N/の確率密度φNが/N/の区
間で十分大きくならずφN=が/N/の区間に大き
な値を持ち、次の音素/A/の区間の始まりまで
きている。従つて/N=/のセグメンテーシヨン
区間は区間(g−h)となり、/N/の区間を含
むため、/N=/の次の音素/N/のセグメンテ
ーンシヨンを誤り、尤度lNも低くなるため、撥
音、鼻音の連続2音素を含む単語は誤認識し易い
欠点があつた。
(発明の目的)
本発明は、上記従来例の欠点を除去するもので
あり、尤度計算の精度を向上させ、それにより単
語認識率を向上させることを目的とする。
あり、尤度計算の精度を向上させ、それにより単
語認識率を向上させることを目的とする。
(発明の構成)
本発明は、上記目的を達成するために、撥音、
鼻音が連続する音素系列のセグメンテーシヨン及
び尤度計算を行なう際、撥音、鼻音の連続2音素
をまとめてセグメンテーシヨンし尤度計算を行な
うことにより、セグメンテーシヨン及び尤度計算
の精度を向上させる効果を得るものである。
鼻音が連続する音素系列のセグメンテーシヨン及
び尤度計算を行なう際、撥音、鼻音の連続2音素
をまとめてセグメンテーシヨンし尤度計算を行な
うことにより、セグメンテーシヨン及び尤度計算
の精度を向上させる効果を得るものである。
(実施例の説明)
以下に本発明の一実施例について第1図及び第
3図とともに説明する。第1図において、音素標
準パタンは従来例と同様である。単語辞書は、認
識すべき単語を音素の記号列で表記してある。ま
たパラメータ抽出により得られるパラメータ時系
列は従来例と同様である。本実施例の動作につい
て説明する。先ず、パラメータ抽出部1で入力音
声からフレーム毎のパラメータを得、さらに確率
密度計算部2でそのパラメータの値及び、各音素
標準パタンから得られる確率密度を計算する。次
に、単語認識部3において、単語辞書部5内の各
辞書項目毎にその辞書項目を構成する辞書音声系
列に従つて音素Xのセグメンテーシヨンを行な
い、その音素Xとその音素Xに対応してセグメン
テーシヨンされた区間の尤度lXを計算するのであ
るが、辞書音素系列中に撥音、鼻音の2連続音素
系列がある場合、第1番目の音素である撥音の確
率密度の値が、次の鼻音の終りまで優勢である。
従つて撥音、鼻音の連続2音素をまとめてセグメ
ンテーシヨンし、そのセグメンテーシヨンした区
間に対して尤度を計算する。第3図の/AN=
NA/の部分の各音素/A/、/N=/、/
N/、/A/の確率密度φA、φN=、φN、φAをみる
と、φN=は/N/の部分でφNよりも大きな値を持
ち/A/の始まり(h)まで続いている。従つて、
φN=の値を用いて、/N=N/の連続2音素をま
とめてgからhまでセグメンテーシヨンを行な
い、セグメンテーシヨンした区間(g−h)に対
してφN=の値を用いて式に従つて2音素分の尤
度lN=Nを求める。ここで式と対比して普通の音
素の場合は従来同様式を用いて尤度計算を行な
う。
3図とともに説明する。第1図において、音素標
準パタンは従来例と同様である。単語辞書は、認
識すべき単語を音素の記号列で表記してある。ま
たパラメータ抽出により得られるパラメータ時系
列は従来例と同様である。本実施例の動作につい
て説明する。先ず、パラメータ抽出部1で入力音
声からフレーム毎のパラメータを得、さらに確率
密度計算部2でそのパラメータの値及び、各音素
標準パタンから得られる確率密度を計算する。次
に、単語認識部3において、単語辞書部5内の各
辞書項目毎にその辞書項目を構成する辞書音声系
列に従つて音素Xのセグメンテーシヨンを行な
い、その音素Xとその音素Xに対応してセグメン
テーシヨンされた区間の尤度lXを計算するのであ
るが、辞書音素系列中に撥音、鼻音の2連続音素
系列がある場合、第1番目の音素である撥音の確
率密度の値が、次の鼻音の終りまで優勢である。
従つて撥音、鼻音の連続2音素をまとめてセグメ
ンテーシヨンし、そのセグメンテーシヨンした区
間に対して尤度を計算する。第3図の/AN=
NA/の部分の各音素/A/、/N=/、/
N/、/A/の確率密度φA、φN=、φN、φAをみる
と、φN=は/N/の部分でφNよりも大きな値を持
ち/A/の始まり(h)まで続いている。従つて、
φN=の値を用いて、/N=N/の連続2音素をま
とめてgからhまでセグメンテーシヨンを行な
い、セグメンテーシヨンした区間(g−h)に対
してφN=の値を用いて式に従つて2音素分の尤
度lN=Nを求める。ここで式と対比して普通の音
素の場合は従来同様式を用いて尤度計算を行な
う。
本実施ににおいては、撥音、鼻音の音素系列を
1つにまとめてセグメンテーシヨン及び尤度計算
を行なうため、撥音、鼻音の連続2音素を含む単
語の認識率が向上する利点がある。
1つにまとめてセグメンテーシヨン及び尤度計算
を行なうため、撥音、鼻音の連続2音素を含む単
語の認識率が向上する利点がある。
但し、記号の使用は、式に準ずる。
(発明の効果)
本発明は上記のように撥音、鼻音の連続2音素
をまとめてセグメンテーシヨンし、尤度計算を行
なうことにより、従来法に比べ精度よくセグメン
テーシヨン及び尤度計算を行うことができる。
をまとめてセグメンテーシヨンし、尤度計算を行
なうことにより、従来法に比べ精度よくセグメン
テーシヨン及び尤度計算を行うことができる。
第1図は従来及び本発明の一実施例における単
語音声認識方法を説明するための図、第2図は/
KAN=NAI/(カンナイ)と発声した場合の/
AN=NA/の部分の各要素/A/、/N
=/、/N/、/A/の確率密度φA、φN=、φN、
φAの時間変化を示す図、第3図は第2図の場合
とは別の話者が/KAN=NAI/と発生した場合
φA、φN=、φN、φAの時間変化を示す図である。 1……パラメータ抽出部、2……確率密度計算
部、3……単語認識部、4……音素標準パタン
部、5……単語辞書部。
語音声認識方法を説明するための図、第2図は/
KAN=NAI/(カンナイ)と発声した場合の/
AN=NA/の部分の各要素/A/、/N
=/、/N/、/A/の確率密度φA、φN=、φN、
φAの時間変化を示す図、第3図は第2図の場合
とは別の話者が/KAN=NAI/と発生した場合
φA、φN=、φN、φAの時間変化を示す図である。 1……パラメータ抽出部、2……確率密度計算
部、3……単語認識部、4……音素標準パタン
部、5……単語辞書部。
Claims (1)
- 1 認識すべき単語を音素単位の記号列で表記し
た単語辞書と、各音素の音響パラメータの分布形
で表わされた各音素の標準パタンを用いて、入力
音声の単語認識を行なう単語音声認識方法におい
て、入力音声を単語辞書の各辞書項目と照合し、
各辞書項目を構成する辞書音素系列に従い各音素
毎に入力音声をセグメンテーシヨンし、その音素
の標準パタンを用いて、そのセグメンテーシヨン
された音声の区間がその音素から生成される確率
密度を計算し、セグメンテーシヨンされた音声の
区間に対して、上記確率密度の値を用いて各辞書
項目と入力音声の類似度を求めて、単語を認識す
る際、辞書単語中の撥音、鼻音が連続した音素系
列に対しては、撥音と鼻音の連続2音素をまとめ
てセグメンテーシヨンし、尤度計算を行なうこと
を特徴とする単語音声認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59058173A JPS60202494A (ja) | 1984-03-28 | 1984-03-28 | 単語音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59058173A JPS60202494A (ja) | 1984-03-28 | 1984-03-28 | 単語音声認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60202494A JPS60202494A (ja) | 1985-10-12 |
| JPH045391B2 true JPH045391B2 (ja) | 1992-01-31 |
Family
ID=13076606
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59058173A Granted JPS60202494A (ja) | 1984-03-28 | 1984-03-28 | 単語音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60202494A (ja) |
-
1984
- 1984-03-28 JP JP59058173A patent/JPS60202494A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60202494A (ja) | 1985-10-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH045391B2 (ja) | ||
| JPH0431116B2 (ja) | ||
| Bhardwaj et al. | A Study of Methods Involved In Voice Emotion Recognition | |
| JPH045392B2 (ja) | ||
| JPH045393B2 (ja) | ||
| JPH07113838B2 (ja) | 音声認識方法 | |
| JPH045394B2 (ja) | ||
| JP3291073B2 (ja) | 音声認識方式 | |
| JPH0412480B2 (ja) | ||
| JPH045396B2 (ja) | ||
| JPH045397B2 (ja) | ||
| JPH045395B2 (ja) | ||
| JPH0431115B2 (ja) | ||
| JPS62111292A (ja) | 音声認識装置 | |
| JPH0155476B2 (ja) | ||
| JPH0413719B2 (ja) | ||
| JPH0412479B2 (ja) | ||
| Elghonemy et al. | Speaker independent isolated Arabic word recognition system | |
| Loizou | Robust speaker-independent recognition of a confusable vocabulary | |
| Smyth | Segmental sub-word unit classification using a multilayer perceptron | |
| JPS60149097A (ja) | 音声認識方法 | |
| JPH0635494A (ja) | 音声認識装置 | |
| JPH067359B2 (ja) | 音声認識装置 | |
| JP2000242292A (ja) | 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体 | |
| JPH0155477B2 (ja) |