JPH0427560B2 - - Google Patents
Info
- Publication number
- JPH0427560B2 JPH0427560B2 JP19538285A JP19538285A JPH0427560B2 JP H0427560 B2 JPH0427560 B2 JP H0427560B2 JP 19538285 A JP19538285 A JP 19538285A JP 19538285 A JP19538285 A JP 19538285A JP H0427560 B2 JPH0427560 B2 JP H0427560B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- vowels
- vowel
- learning
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 claims description 51
- 239000013598 vector Substances 0.000 claims description 25
- 230000001755 vocal effect Effects 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 239000000463 material Substances 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000004088 simulation Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000498886 Collimonas arenae Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000010791 quenching Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Description
【発明の詳細な説明】
〔概要〕
5つの母音からそれぞれ得られるケプストラム
係数を要素とする特徴ベクトルの特徴ベクトル空
間での相対位置関係を利用して母音を認識するこ
とにより、認識率を向上させて母音認識方法。
係数を要素とする特徴ベクトルの特徴ベクトル空
間での相対位置関係を利用して母音を認識するこ
とにより、認識率を向上させて母音認識方法。
本発明は、音声認識特に5母音の認識方式の改
良に関するものである。
良に関するものである。
音声の個人差は不特定話者音声の認識を実現す
るうえで大きな障害となつている。その問題の難
しさは音声の個人性情報は音韻情報と比べてあい
まいで、しかも音声波のさまざまな性質に分散し
ているという所にある。その対策として、スペク
トルパターンの修正や周波数軸の伸縮、ホルマン
トの修正などの個人差の正規化方法がある。しか
し、個人性の原因は多様なのでそのような方法は
問題の解決にまだ十分対応できないのが現状であ
る。一方、識別関数やマルチテンプレートの作
成、または適当な尺度で話者を分類するなどのパ
ターンマツチングの手法も試みられた。このよう
な方法は実用の可能性はあるが問題の本質に十分
に触れず、話者への適応能力が限られる。そこで
学習を通して認識機械を話者の個人性の適応させ
ることが、個人差問題を解決する基本的な方法の
一つであると思われるが、この方向への研究はま
だ少ない。本発明ではこの方向を目指すものとし
て、教師なし学習を基にした不特定話者音声母音
認識の手法について述べる。
るうえで大きな障害となつている。その問題の難
しさは音声の個人性情報は音韻情報と比べてあい
まいで、しかも音声波のさまざまな性質に分散し
ているという所にある。その対策として、スペク
トルパターンの修正や周波数軸の伸縮、ホルマン
トの修正などの個人差の正規化方法がある。しか
し、個人性の原因は多様なのでそのような方法は
問題の解決にまだ十分対応できないのが現状であ
る。一方、識別関数やマルチテンプレートの作
成、または適当な尺度で話者を分類するなどのパ
ターンマツチングの手法も試みられた。このよう
な方法は実用の可能性はあるが問題の本質に十分
に触れず、話者への適応能力が限られる。そこで
学習を通して認識機械を話者の個人性の適応させ
ることが、個人差問題を解決する基本的な方法の
一つであると思われるが、この方向への研究はま
だ少ない。本発明ではこの方向を目指すものとし
て、教師なし学習を基にした不特定話者音声母音
認識の手法について述べる。
音韻の中でも母音は個人性の重要な要因をなす
声道構造の基本特性を反映しているので、母音に
おける個人差はもつとも大きいと言える。そこで
不特定話者音声中の母音を高い信頼度で認識し、
これを基礎にして単話ないし連続音声の認識へと
展開することが行なわれて来ている。
声道構造の基本特性を反映しているので、母音に
おける個人差はもつとも大きいと言える。そこで
不特定話者音声中の母音を高い信頼度で認識し、
これを基礎にして単話ないし連続音声の認識へと
展開することが行なわれて来ている。
従来、母音を認識する方式として、第17図に
示す様に母音の第一、第二ホルマントを軸とする
特徴空間における、5つの母音(a、i、u、
e、o)の相対位置関係を利用することが行なわ
れている。
示す様に母音の第一、第二ホルマントを軸とする
特徴空間における、5つの母音(a、i、u、
e、o)の相対位置関係を利用することが行なわ
れている。
つまり、例えば、母音(i)を基準にとると、
母音iとu間の距離diu、iとo間の距離dio、i
とaの距離dia、(i)と(e)の距離dieの大小関係を利
用して、入力母音の認識を行なう様にしている。
母音iとu間の距離diu、iとo間の距離dio、i
とaの距離dia、(i)と(e)の距離dieの大小関係を利
用して、入力母音の認識を行なう様にしている。
このため話者とは無関係の標準パターンにおけ
る上記母音間の距離を予め求めてメモリに記憶し
ておく。
る上記母音間の距離を予め求めてメモリに記憶し
ておく。
そして、入力母音のそれぞれについて、第1、
第2ホルマントから最初にある母音と仮定する。
第2ホルマントから最初にある母音と仮定する。
ついで、この仮定が正しいか否かを検定するた
めに、仮定した母音間の距離をそれぞれ求め、こ
れらの大小関係か標準パターンにおける母音間の
距離の大小関係と合致しているか否かを調べる。
めに、仮定した母音間の距離をそれぞれ求め、こ
れらの大小関係か標準パターンにおける母音間の
距離の大小関係と合致しているか否かを調べる。
合致しておけば仮定が正しいと判断し、合致し
ていなければ、他の母音に仮定をやり直して、再
び同様のことを行なう。
ていなければ、他の母音に仮定をやり直して、再
び同様のことを行なう。
以上のことを繰り返し行なつて、最終的に入力
母音が何でもあつたかを認識する。
母音が何でもあつたかを認識する。
次に前記の如く、後者への適合性を高めるため
に、標準パターンの修正を行なう。
に、標準パターンの修正を行なう。
つまり、上記認識を何回か行ない認識する毎に
求めた母音の絶対値の平均値を標準パターンと
し、更にこのパターンから母音間の距離を求め、
次に入力する母音の認識に利用する。
求めた母音の絶対値の平均値を標準パターンと
し、更にこのパターンから母音間の距離を求め、
次に入力する母音の認識に利用する。
以上の様に、従来においては、入力母音の第
1、第2ホルマントを利用しているが、この第
1、第2ホルマントの抽出を正確に行なうことが
困難であるので、認識率が低いと言う問題があつ
た。
1、第2ホルマントを利用しているが、この第
1、第2ホルマントの抽出を正確に行なうことが
困難であるので、認識率が低いと言う問題があつ
た。
本発明においては、このために、低次のケブス
トラム係数を利用して認識を行なう様にした。
トラム係数を利用して認識を行なう様にした。
このケプストラムは、スペクトル包絡を求める
方法の一つである。
方法の一つである。
ケプストラムは、音声信号を高速フーリエ変換
して求めたパワスペクトルの対数をとつたもの
を、さらに高速フーリエ逆変換処理を施したもの
として、定義される。
して求めたパワスペクトルの対数をとつたもの
を、さらに高速フーリエ逆変換処理を施したもの
として、定義される。
音声のパワスペクトルはピツチ周波数の影響を
受けて、細かく波打つた形状となる。一方、スペ
クトル包絡は、この細かく波打つたパワスペクト
ルの概形を示している。そこで、この波打つたパ
ワスペクトルをある信号波形とみなして、高速フ
ーリエ逆変換を行なえば、その低週波分としてス
ペクトルの概形、すなわちスペクトル包絡の情報
が得られる。そして、この低周波成分のみをもう
一度高速フーリエ変換することにより、そのスペ
クトル包絡特性だけが求まることになる。
受けて、細かく波打つた形状となる。一方、スペ
クトル包絡は、この細かく波打つたパワスペクト
ルの概形を示している。そこで、この波打つたパ
ワスペクトルをある信号波形とみなして、高速フ
ーリエ逆変換を行なえば、その低週波分としてス
ペクトルの概形、すなわちスペクトル包絡の情報
が得られる。そして、この低周波成分のみをもう
一度高速フーリエ変換することにより、そのスペ
クトル包絡特性だけが求まることになる。
このように、音声信号のパワスペクトルの対数
をとつたものに、フーリエ逆変換処理を施して得
られた波形をケプストラムとよんでいる。第1図
bはaに示す母音“ア”に対するケプストラムを
求めたものであり、cはbに示すケプストラムの
低周波成分の1から16までの係数を用いて、フー
リエ変換して求めたスペクトル包絡特性の例であ
る。この低周波成分だけを切り出す関数は、コム
リフタ(comb−lifter;lifterはfilterの逆読)と
よばれている。
をとつたものに、フーリエ逆変換処理を施して得
られた波形をケプストラムとよんでいる。第1図
bはaに示す母音“ア”に対するケプストラムを
求めたものであり、cはbに示すケプストラムの
低周波成分の1から16までの係数を用いて、フー
リエ変換して求めたスペクトル包絡特性の例であ
る。この低周波成分だけを切り出す関数は、コム
リフタ(comb−lifter;lifterはfilterの逆読)と
よばれている。
またb図に示すケブストラムでは、本来パワス
テペクトルの周波数関数となつている波形を、時
間軸とみなしてヒーリエ逆変換処理して施してい
る。したがつて横軸をfrequencyの逆読をして、
ケフレンシ(quefrency)とよんでおり、このケ
フレンシの次元は時間となつている。
テペクトルの周波数関数となつている波形を、時
間軸とみなしてヒーリエ逆変換処理して施してい
る。したがつて横軸をfrequencyの逆読をして、
ケフレンシ(quefrency)とよんでおり、このケ
フレンシの次元は時間となつている。
ケプストラムを求める際にパワステスペクトル
の対数をとるのは、次式に示すように、音声S
(z)が声道の伝達関数H(z)と、音源の電達関
数U(z)の積、 ||2=|H(z)|2|U(z)|2 となつていて、その対数をとることにより、次の
ように和に分離することができるためである。
の対数をとるのは、次式に示すように、音声S
(z)が声道の伝達関数H(z)と、音源の電達関
数U(z)の積、 ||2=|H(z)|2|U(z)|2 となつていて、その対数をとることにより、次の
ように和に分離することができるためである。
log|S(z)|=log|H(z)|+log|U(z)|
また、スペクトルの小さな変化の部分が対数をと
ることにより、拡大するためにもよる。
ることにより、拡大するためにもよる。
ケプストラムの特徴として、第1図bに示した
ように、鋭いピークが存在する場合は、音声のパ
ワスペクトルに、ある一定の周期が存在してい
る。そして、このピークのケフレンシは、そのま
ま元の波形の周期となり、これがピツチ周期とな
る。
ように、鋭いピークが存在する場合は、音声のパ
ワスペクトルに、ある一定の周期が存在してい
る。そして、このピークのケフレンシは、そのま
ま元の波形の周期となり、これがピツチ周期とな
る。
以上の様にして求めたケプストラム係数を用い
て前述した特徴空間における5母音間の相対位置
関係を調査してみると、話者に依存せず不変と見
做し得る関係が存在することが分かつた。
て前述した特徴空間における5母音間の相対位置
関係を調査してみると、話者に依存せず不変と見
做し得る関係が存在することが分かつた。
従つて本発明においては、このケプストラム係
数の用いて表わされる母音間の相対位置関係を利
用して、母音認識のための標準パターンの修正及
びこの修正した標準パターンを用いて母音認識を
行なう様にした。
数の用いて表わされる母音間の相対位置関係を利
用して、母音認識のための標準パターンの修正及
びこの修正した標準パターンを用いて母音認識を
行なう様にした。
以下のことについて詳細に説明する。
一部の話者についての実験結果を第2図に示
す。第2図は、1次から10次までのケプストラム
係数からなる特徴ペクトル空間を考え、この空間
における5母音の位置の分布を主成分分析の方法
で第一、第二主軸平面へ写像したものである。第
2図の異なる5角形は異なる話者に対応する。第
2図から異なる母音の絶対位置(5角形の頂点に
対応する)の分布が、話者の間で重なり合つてい
ることがわかる。この現象は主に声道構造など個
人差によるものと見られる。また、5母音の絶対
位置を繋ぐ5角形の形状も話者により一様ではな
い。これは声道構造の差のほか調音の仕方などの
差もあることを示している。これらのことは、平
行移動、伸縮などの簡単な正規化処理では個人差
問題に対応しにくいことを示している。
す。第2図は、1次から10次までのケプストラム
係数からなる特徴ペクトル空間を考え、この空間
における5母音の位置の分布を主成分分析の方法
で第一、第二主軸平面へ写像したものである。第
2図の異なる5角形は異なる話者に対応する。第
2図から異なる母音の絶対位置(5角形の頂点に
対応する)の分布が、話者の間で重なり合つてい
ることがわかる。この現象は主に声道構造など個
人差によるものと見られる。また、5母音の絶対
位置を繋ぐ5角形の形状も話者により一様ではな
い。これは声道構造の差のほか調音の仕方などの
差もあることを示している。これらのことは、平
行移動、伸縮などの簡単な正規化処理では個人差
問題に対応しにくいことを示している。
一方、同一話者の各母音の相対的な位置関係が
話者によらずほぼ一定していることが実験結果
(例えば後述する第3図)から分かつた。つまり、
ある母音の位置を始点(原点)にとれば、それと
他の母音の位置との距離の大小関係がほぼ不変で
あるということである。次に、このことについて
より詳しく説明しよう。
話者によらずほぼ一定していることが実験結果
(例えば後述する第3図)から分かつた。つまり、
ある母音の位置を始点(原点)にとれば、それと
他の母音の位置との距離の大小関係がほぼ不変で
あるということである。次に、このことについて
より詳しく説明しよう。
先ず特徴ベクトル空間における二つの母音の特
徴ベクトルXv、Xw間の距離dvwを dvw=d(Xv、Xw)=M 〓j=1 (xvj−xwj)2 (1) で表す。ここで、wNjはXvの第j成分、Mはベク
トルの次元数で、ここでは1次から10次のケプス
トラム係数を用いるのでM=10とする。ある母音
の特徴ベクトルXvと他のすべての母音の特徴ベ
クトルをXz(z∈{a、i、u、e、o})との
距離を要素する集合をDvで表す。
徴ベクトルXv、Xw間の距離dvwを dvw=d(Xv、Xw)=M 〓j=1 (xvj−xwj)2 (1) で表す。ここで、wNjはXvの第j成分、Mはベク
トルの次元数で、ここでは1次から10次のケプス
トラム係数を用いるのでM=10とする。ある母音
の特徴ベクトルXvと他のすべての母音の特徴ベ
クトルをXz(z∈{a、i、u、e、o})との
距離を要素する集合をDvで表す。
Dv={dvz|z∈{a、i、u、e、o}} (2)
dvzは話者により一般に異なつている。しかし、
同一話者に関するDvの各要素間には、第2図の
5角形の特徴からみて、話者によらないで成立す
ると仮定し得る一定の大小関係が存在する。例え
ば母音iとoの距離dipのiとaの距離diaが dip<dia (3) となることは、例外はないといえないが、まずど
の話者についても成立するものと考えてよい。式
(3)の大小関係をi、o、aに関する3項関係と呼
ぶ。第3図は式(3)が成立することを支持する資料
の1つである。すなわち、第4図に示すdata
typeIの音声資料(A組25人分)を用い、先ずそ
れぞれの話者に対して、すべての結合可能なCV
音節に組み合せ(i、o、a、各15個のとき、
(15)3=3375通り)についてddi:oa=dia−dipの頻
度を求め、ついでその頻度を25人ついて平均した
ものが第3図のヒストグラムf(dd)である。こ
の資料ではddi:oa>0となつているので、式(3)
は話者によらず成立するとた考えるのが妥当であ
ることが分かる。一般にすべての話者について成
立するものと見なされるような3項関係: dvw<dvz、i.e.、ddv:ws=dvz−dvw>0 (4) を総称して母音間の相対関数と呼ぶことにする。
但し、v、w、zは5母音からなる集合V={a、
e、i、o、u}の要素である。本発明におい
て、不変な相対関係として採用した3項関係を第
5図に示す。表のRvは相対関係として採用され
た3項関係の中でvを始点とする3項関係の集合
(Rvの右の欄の大小関係の集まり)を表す。第5
図の理解を扶けるために、特徴空間における5角
形の例を第6図に示す。5母音の相対関係の全体
(ここでは第5図)を関係モデルと呼びRで表す。
同一話者に関するDvの各要素間には、第2図の
5角形の特徴からみて、話者によらないで成立す
ると仮定し得る一定の大小関係が存在する。例え
ば母音iとoの距離dipのiとaの距離diaが dip<dia (3) となることは、例外はないといえないが、まずど
の話者についても成立するものと考えてよい。式
(3)の大小関係をi、o、aに関する3項関係と呼
ぶ。第3図は式(3)が成立することを支持する資料
の1つである。すなわち、第4図に示すdata
typeIの音声資料(A組25人分)を用い、先ずそ
れぞれの話者に対して、すべての結合可能なCV
音節に組み合せ(i、o、a、各15個のとき、
(15)3=3375通り)についてddi:oa=dia−dipの頻
度を求め、ついでその頻度を25人ついて平均した
ものが第3図のヒストグラムf(dd)である。こ
の資料ではddi:oa>0となつているので、式(3)
は話者によらず成立するとた考えるのが妥当であ
ることが分かる。一般にすべての話者について成
立するものと見なされるような3項関係: dvw<dvz、i.e.、ddv:ws=dvz−dvw>0 (4) を総称して母音間の相対関数と呼ぶことにする。
但し、v、w、zは5母音からなる集合V={a、
e、i、o、u}の要素である。本発明におい
て、不変な相対関係として採用した3項関係を第
5図に示す。表のRvは相対関係として採用され
た3項関係の中でvを始点とする3項関係の集合
(Rvの右の欄の大小関係の集まり)を表す。第5
図の理解を扶けるために、特徴空間における5角
形の例を第6図に示す。5母音の相対関係の全体
(ここでは第5図)を関係モデルと呼びRで表す。
R=RaURiURuReURp (5)
関係モデルRを用いると、同じ話者の母音の特徴
ベクトルを次のように特性化することができる。
すなわち、Xiが母音vの特徴ベクトルであるため
には、Rvに含まれる3項関係をすべて満足する
ことが必要である。つまり、Rvに含まれる3項
関係の1つをdvw<dvz、XjとXkはそれぞれ母音w
とzの特徴ベクトルであるとするとき、次式で定
義される関数Rv:wz(Xi、Xj、Xk)の値が1と
なることが必要であり、Rvの他の3項関係につ
いても同様である。
ベクトルを次のように特性化することができる。
すなわち、Xiが母音vの特徴ベクトルであるため
には、Rvに含まれる3項関係をすべて満足する
ことが必要である。つまり、Rvに含まれる3項
関係の1つをdvw<dvz、XjとXkはそれぞれ母音w
とzの特徴ベクトルであるとするとき、次式で定
義される関数Rv:wz(Xi、Xj、Xk)の値が1と
なることが必要であり、Rvの他の3項関係につ
いても同様である。
Rv:wz(Xi、Xj、Xk)={1、if dij<dik 0、other
wise(6) 〔作用〕 ここで行われる教師なし学習の目的は、話者と
は無関係に予め用意された母音の標準パターンを
初期値として、話者に適応した標準パターンを作
ることである。この時、初期値として用いられる
標準パターンのセツトをSexで表し、外部情報源
と呼ぶことにする。また話者の発話音声から適当
な方法で切り出された母音に該当する標本(特徴
ベクトルで表す)を学習データセツトと呼び、
{XL={X1、……、XN}で表す。{XL}のサイズ
に関する検討は次章で行う。
wise(6) 〔作用〕 ここで行われる教師なし学習の目的は、話者と
は無関係に予め用意された母音の標準パターンを
初期値として、話者に適応した標準パターンを作
ることである。この時、初期値として用いられる
標準パターンのセツトをSexで表し、外部情報源
と呼ぶことにする。また話者の発話音声から適当
な方法で切り出された母音に該当する標本(特徴
ベクトルで表す)を学習データセツトと呼び、
{XL={X1、……、XN}で表す。{XL}のサイズ
に関する検討は次章で行う。
5母音の場合、不特定話者においてもパターン
マツチングで未知の入力母音に対する候補を定め
ると、第三位までの候補の中に入力母音に該当す
るものが存在する確率はほぼ100%に近いと考え
られる。そこで、以下に述べる学習アルゴリズム
では、{XL}のどの学習データXiについてもSex
とのパターンマツチングによつて定める候補は第
3位までとし、第一候補から順にCi1、Ci2、Ci3
で表す。Xiに対する候補をまとめて、Ci={Ci1、
Ci2、Ci3}、i=1、……N、また{XL}に対す
る候補リストをC={C1、……、CN}と表し、CL
−listと呼ぶ。
マツチングで未知の入力母音に対する候補を定め
ると、第三位までの候補の中に入力母音に該当す
るものが存在する確率はほぼ100%に近いと考え
られる。そこで、以下に述べる学習アルゴリズム
では、{XL}のどの学習データXiについてもSex
とのパターンマツチングによつて定める候補は第
3位までとし、第一候補から順にCi1、Ci2、Ci3
で表す。Xiに対する候補をまとめて、Ci={Ci1、
Ci2、Ci3}、i=1、……N、また{XL}に対す
る候補リストをC={C1、……、CN}と表し、CL
−listと呼ぶ。
第7図のフローチヤートにしたがつて学習のア
ルゴリズムを説明する。
ルゴリズムを説明する。
ステツプS1……{XL}に対する予備認識を行
う。予備認識では{XL}の各データXと外部標
準パターンSexとの間でマツチング(マハラノビ
ス距離を用いる)を行つて、三位までの候補を決
め、CL−listを作る(第8図a参照)。
う。予備認識では{XL}の各データXと外部標
準パターンSexとの間でマツチング(マハラノビ
ス距離を用いる)を行つて、三位までの候補を決
め、CL−listを作る(第8図a参照)。
ステツプS1′……すべての学習データXi、Xj∈
{XL}について式(1)により、daj=d(Xi、Xj)を
計算し、これを1行、j列の要素とする行列
〔dij〕(関係行列と呼ぶ)を作成する。
{XL}について式(1)により、daj=d(Xi、Xj)を
計算し、これを1行、j列の要素とする行列
〔dij〕(関係行列と呼ぶ)を作成する。
ステツプS3……関係モデルRを評価基準とし
て、CL−listの各候補の正当性をチエツクする。
て、CL−listの各候補の正当性をチエツクする。
まず学習データXiの第一候補Ci1=vが正しい
と仮定し、他のすべての学習データの中でも第一
候補がwであるものをXj、第一候補がzである
ものをXkとおく。このとき、すべてのXjとXk
について得られる学習データの組<Xi、Xj、Xk
>のそれぞれについて、第5図のRVに含まれる
相対関係 Rv:wz:(Xi、Xj、Xk)=1、つまりdij<dikを
満たすか否かを調べる(式(6)参照)。もし上の3
項関係を満足すれば、その都度Ci1の得点Si1に1
ポイントに加え、そうでない時は0を加える。但
しSi1を初期値は0とする。Rvに含まれる、他の
すべての3項関係Rv:w′z′、Rv:w″z″、……に
ついても同様にSi1に加点する方法で評価し、そ
の結果を得点Si1で代表する。
と仮定し、他のすべての学習データの中でも第一
候補がwであるものをXj、第一候補がzである
ものをXkとおく。このとき、すべてのXjとXk
について得られる学習データの組<Xi、Xj、Xk
>のそれぞれについて、第5図のRVに含まれる
相対関係 Rv:wz:(Xi、Xj、Xk)=1、つまりdij<dikを
満たすか否かを調べる(式(6)参照)。もし上の3
項関係を満足すれば、その都度Ci1の得点Si1に1
ポイントに加え、そうでない時は0を加える。但
しSi1を初期値は0とする。Rvに含まれる、他の
すべての3項関係Rv:w′z′、Rv:w″z″、……に
ついても同様にSi1に加点する方法で評価し、そ
の結果を得点Si1で代表する。
次にXiの第二候補Ci2=v′、第三候補Ci3=v″に
ついても他のXj、Xkの同一候補を用いて、Ci1の
ときと全く同じ方法で、それぞれ、Rv′及び
Rv″を用いて評価し、それらの結果をそれぞれ得
点Si2及びSi3で表す。
ついても他のXj、Xkの同一候補を用いて、Ci1の
ときと全く同じ方法で、それぞれ、Rv′及び
Rv″を用いて評価し、それらの結果をそれぞれ得
点Si2及びSi3で表す。
すべてのXi∈{XL}に対して以上の評価を行
う。
う。
ステツプS4……New−CL−list1、2、3……
を作成する。すなわち、三つの候補の得点Si1、
Si2、Si3を評価回数で平均(評価回数で割つた)
した後比較し、得点の高い順に新しい候補リスト
New−CL−listに登録し、その得点を改めてSi1、
Si2、Si3とおく。もし(|Si1−Si2|/Si1+Si2))
<Tならば、Xiに対応する母音は未定とする。
Tは適当に定めたしきい値である。
を作成する。すなわち、三つの候補の得点Si1、
Si2、Si3を評価回数で平均(評価回数で割つた)
した後比較し、得点の高い順に新しい候補リスト
New−CL−listに登録し、その得点を改めてSi1、
Si2、Si3とおく。もし(|Si1−Si2|/Si1+Si2))
<Tならば、Xiに対応する母音は未定とする。
Tは適当に定めたしきい値である。
ステツプS5……対応する母音が未定となる学
習データがある場合、或いは学習する前後でCL
−listに変化がある場合にはステツプS3に戻り、
同じ手順でNew−CL−listの各候補の正当性を評
価する。未定の学習データがなくなるか、或いは
学習によつてNew−C−L−istに変化がなくな
るか、または適当に定めた繰り返し数になるまで
学習した場合には、学習を終了し、Xiにラベル
(母音名)Li=Ci1(=v)、1≦i≦N、をつけ
る。
習データがある場合、或いは学習する前後でCL
−listに変化がある場合にはステツプS3に戻り、
同じ手順でNew−CL−listの各候補の正当性を評
価する。未定の学習データがなくなるか、或いは
学習によつてNew−C−L−istに変化がなくな
るか、または適当に定めた繰り返し数になるまで
学習した場合には、学習を終了し、Xiにラベル
(母音名)Li=Ci1(=v)、1≦i≦N、をつけ
る。
ステツプS6……学習の結果に基づいて話者に
適合した標準パターンSL={SLa、SLe、SLi、SLp、
SLu}が作られる。但し、母音vの標準パターン
SLvはラベルLiがvであるすべての学習データXi
(Qはその数とする)の平均ベクトルとする。つ
まり、 SLv=1/QQ 〓 i=1(V∈V) (7) 以上の様にして、話者に応じた母音の標準パタ
ーンを生成し、次に入力してくる母音の標準パタ
ーンを生成し、次に入力してくる母音の認識に用
いる。
適合した標準パターンSL={SLa、SLe、SLi、SLp、
SLu}が作られる。但し、母音vの標準パターン
SLvはラベルLiがvであるすべての学習データXi
(Qはその数とする)の平均ベクトルとする。つ
まり、 SLv=1/QQ 〓 i=1(V∈V) (7) 以上の様にして、話者に応じた母音の標準パタ
ーンを生成し、次に入力してくる母音の標準パタ
ーンを生成し、次に入力してくる母音の認識に用
いる。
第9図により、本発明の実施例を説明する。
図中1は信号抽出部、2は高速フーリエ変換
部、3は対数部、4は高速フーリエ逆変換部、5
は低ケフレンシ抽出部、6は予備認識部、7は関
係行列生成部、8は検定部、9は標準パターン生
成部である。
部、3は対数部、4は高速フーリエ逆変換部、5
は低ケフレンシ抽出部、6は予備認識部、7は関
係行列生成部、8は検定部、9は標準パターン生
成部である。
信号抽出部1には母音信号が入力するが、時間
窓を設け、一定時間だけ母音信号を抽出し高速フ
ーリエ変換部2へ入力する。高速フーリエ変換部
では、入力信号のフーリエ変換を行なつて、パワ
ースペクトラムを抽出し、対数部3へ入力する。
窓を設け、一定時間だけ母音信号を抽出し高速フ
ーリエ変換部2へ入力する。高速フーリエ変換部
では、入力信号のフーリエ変換を行なつて、パワ
ースペクトラムを抽出し、対数部3へ入力する。
対数部3では、パワースペクトラムの対数を求
めて、高速フーリエ逆変換器4へ入力し、逆変換
を行なう。
めて、高速フーリエ逆変換器4へ入力し、逆変換
を行なう。
これによつて得られたケプストラムの内1〜10
次までの低ケフレンシ(特徴ベクトル)を低ケフ
レンシ抽出部5において抽出し、予備認識部6へ
入力する。予備認識部6は抽出した1〜10次の特
徴ベクトルと、外部標準パターンの特徴ベクトル
の間でマハラノビス距離を用いてマツチングを行
ない各入力母音毎に第3位までの候補を決める。
次までの低ケフレンシ(特徴ベクトル)を低ケフ
レンシ抽出部5において抽出し、予備認識部6へ
入力する。予備認識部6は抽出した1〜10次の特
徴ベクトルと、外部標準パターンの特徴ベクトル
の間でマハラノビス距離を用いてマツチングを行
ない各入力母音毎に第3位までの候補を決める。
次に、関係行列生成部7において、各母音の候
補毎に式(1)に従つてdijを求め、これによりi行、
j行の関係行列〔dij〕を求める。
補毎に式(1)に従つてdijを求め、これによりi行、
j行の関係行列〔dij〕を求める。
次に検定部8においては、前述の如く、関係行
列から得られる(5)式の関係モデルRを評価基準と
して各候補の正当性をチエツクする。
列から得られる(5)式の関係モデルRを評価基準と
して各候補の正当性をチエツクする。
この様に、Xiの各候補を評価する時、ほかの
すべてのデータXjの第一候補Cj1が正しいと仮定
して評価に臨む。Cj1の中に真でないものがある
場合には、当然学習に悪い影響を与える。したが
つて、第一候補が正しい割合が高ければ高いほど
このような影響が少なくなる。学習の効果として
は第8図の如くNew−CL−listを生成する度に第
一候補の正しい割合が高くなる。この例には、一
回ずつ学習のCL−listまたはNew−CL−listの各
要素の変化を示す。母音に記号に下線がついた候
補は真であることを示し、“!”は未定を示す。
この例では話者の母音の特性と外部標準パターン
Sexの特性との差が大きいので、CL−listの第一
候補の正答率60%しかないが、3回繰り返し学習
をした後、第一候補の正答率は100%になる。一
般的に言えば繰り返し学習によつて学習結果の信
頼性が高くなつてくる。
すべてのデータXjの第一候補Cj1が正しいと仮定
して評価に臨む。Cj1の中に真でないものがある
場合には、当然学習に悪い影響を与える。したが
つて、第一候補が正しい割合が高ければ高いほど
このような影響が少なくなる。学習の効果として
は第8図の如くNew−CL−listを生成する度に第
一候補の正しい割合が高くなる。この例には、一
回ずつ学習のCL−listまたはNew−CL−listの各
要素の変化を示す。母音に記号に下線がついた候
補は真であることを示し、“!”は未定を示す。
この例では話者の母音の特性と外部標準パターン
Sexの特性との差が大きいので、CL−listの第一
候補の正答率60%しかないが、3回繰り返し学習
をした後、第一候補の正答率は100%になる。一
般的に言えば繰り返し学習によつて学習結果の信
頼性が高くなつてくる。
ここで、多数話者の音声を対象として、教師な
し学習のシミユレーシヨンを行い、関係モデルR
と学習アルゴリズムの有効性を評価する。また、
{XL}のサイズの影響、外部情報源の影響などに
ついて検討する。更に学習結果に基づいて母音認
識を行い、不特定話者音声認識への適用効果の実
験結果を示す。
し学習のシミユレーシヨンを行い、関係モデルR
と学習アルゴリズムの有効性を評価する。また、
{XL}のサイズの影響、外部情報源の影響などに
ついて検討する。更に学習結果に基づいて母音認
識を行い、不特定話者音声認識への適用効果の実
験結果を示す。
音声資料の構成と分析条件
実験に用いる音声データベースと分析条件を
第4図に示す。本発明では主に個人差問題に注
目しているため調音結合の影響を強く受けてい
ないと単音節母音(type 音声資料)を基本
音声資料として用いる。またこの方に及ぼす調
音結合の影響を検討するため3連鎖母音を含む
文節データ(type音声資料)についても実験
を行う。
第4図に示す。本発明では主に個人差問題に注
目しているため調音結合の影響を強く受けてい
ないと単音節母音(type 音声資料)を基本
音声資料として用いる。またこの方に及ぼす調
音結合の影響を検討するため3連鎖母音を含む
文節データ(type音声資料)についても実験
を行う。
type音声資料の66人の話者を25人(A組)、
41人(B組)の2グループに分ける。type音
声資料の23人の話者(B組の話者に含まれる)
をC組とする。A組の話者(全部或いは一部)
のデータから外部標準パターンSexを作成す
る。次の認識実験はすべてB組、C組のデータ
に対して行う。つまり異なる話者によるオープ
ン実験である。
41人(B組)の2グループに分ける。type音
声資料の23人の話者(B組の話者に含まれる)
をC組とする。A組の話者(全部或いは一部)
のデータから外部標準パターンSexを作成す
る。次の認識実験はすべてB組、C組のデータ
に対して行う。つまり異なる話者によるオープ
ン実験である。
認識実験方法
−1 学習データセツト{XL}の生成方法
学習データセツト{XL}は認識されるデ
ータの一部としてダイナミツクに取り出され
ることが望ましい。一人あたりの認識データ
セツト{X}のサイズが大きくない場合(第
4図のB組では75個/人)のシユミレーシヨ
ンとして、ランダムに{X}から学習データ
を取り出す方法で{XL}を生成する。以下
の実験報告では{XL}はすべてのこの方式
で生成する。
ータの一部としてダイナミツクに取り出され
ることが望ましい。一人あたりの認識データ
セツト{X}のサイズが大きくない場合(第
4図のB組では75個/人)のシユミレーシヨ
ンとして、ランダムに{X}から学習データ
を取り出す方法で{XL}を生成する。以下
の実験報告では{XL}はすべてのこの方式
で生成する。
−2 認識方法
認識の基本的方法は、先ず話者ごとにその
認識の対象となるデータセツト{X}から学
習データセツト{XL}を生成し、{XL}と外
部標準パターンSexとのマツチングによりCL
−listを作成する。次に関係モデルRを評価
基準とする教師なし学習を行い、各候補の正
当性の評価に基づいてその話者に適応した標
準パターンのセツトSexが得られる。認識は
発生データXとSとのマツチングにおける距
離に基づいて行なわれる。以下、この認識方
法をRUL(Recogmition based on
Unsupervised Lear−ning)法と呼ぶ。
認識の対象となるデータセツト{X}から学
習データセツト{XL}を生成し、{XL}と外
部標準パターンSexとのマツチングによりCL
−listを作成する。次に関係モデルRを評価
基準とする教師なし学習を行い、各候補の正
当性の評価に基づいてその話者に適応した標
準パターンのセツトSexが得られる。認識は
発生データXとSとのマツチングにおける距
離に基づいて行なわれる。以下、この認識方
法をRUL(Recogmition based on
Unsupervised Lear−ning)法と呼ぶ。
また従来の方法(Xと外部標準パターン
Sexとのマツチングによる方法)をM方と呼
び、PULとM法の比較実験を行う。
Sexとのマツチングによる方法)をM方と呼
び、PULとM法の比較実験を行う。
実験結果と検討
次の3項目に重点において実験を行う。(1)教
師なし学習の効果。(2)本認識方式に対する外部
情報限の影響。(3) 不特定話者の影響。
師なし学習の効果。(2)本認識方式に対する外部
情報限の影響。(3) 不特定話者の影響。
−1 学習の効果とその検討
−1に述べたランダム方式で{XL}を
生成して教師なし学習のシユミレーシヨンを
行う。第10図にSexの作成に用いた人数と
{XL}の要素数(以下、それぞれS−size、
L−sizeと呼ぶことがある)パラメータとす
る学習結果の正答率(ラベルセツト{Li}の
正答率)をB組について示す。学習結果は第
10図に示すように、いずれの場合もほぼ99
%以上である。また、学習の正答率はほとん
どSexの構成人数と{XL}のサイズに影響さ
れないことが分かる。即ち高い正答率が維持
されるのは、主に学習データが互いに提供し
合う相対関係に関する情報によるものであ
り、RUL法の原点もここにある。
生成して教師なし学習のシユミレーシヨンを
行う。第10図にSexの作成に用いた人数と
{XL}の要素数(以下、それぞれS−size、
L−sizeと呼ぶことがある)パラメータとす
る学習結果の正答率(ラベルセツト{Li}の
正答率)をB組について示す。学習結果は第
10図に示すように、いずれの場合もほぼ99
%以上である。また、学習の正答率はほとん
どSexの構成人数と{XL}のサイズに影響さ
れないことが分かる。即ち高い正答率が維持
されるのは、主に学習データが互いに提供し
合う相対関係に関する情報によるものであ
り、RUL法の原点もここにある。
CL−listの第一列(すべての第一候補)が
真である割合P1は話者によりかなり違う。
学習に及ぼすこの影響を調べるために、CL
−listの第一候補を第2、第3候補とランダ
ムに入れ替えて、P1を変化させ、学習を行
なつた。第11図にB組についてこのような
シミユレーシヨンの結果を示す。P1は60%
以上であれば、満足できる正答率が得られる
ことが表から分かる。またこの結果は相対関
係モデルRの妥当性も裏付けている。
真である割合P1は話者によりかなり違う。
学習に及ぼすこの影響を調べるために、CL
−listの第一候補を第2、第3候補とランダ
ムに入れ替えて、P1を変化させ、学習を行
なつた。第11図にB組についてこのような
シミユレーシヨンの結果を示す。P1は60%
以上であれば、満足できる正答率が得られる
ことが表から分かる。またこの結果は相対関
係モデルRの妥当性も裏付けている。
−2 認識実験に関する検討
−2に述べた方法で母音認識実験を行
い、Sexの作成に用いた人数をバラメータと
し、RUL法とM法のそれぞれに対する実験
結果(B組)を第12図に示す。S−sizeの
減少とともにM法の認識率が顕著に低下す
る。これはオープン実験によく見られる傾向
である。しかしRUL法の認識率はわずかに
下がるだけである。RUL法お認識は学習結
果に基づいて行われるが、学習の結果はSex
にほとんど影響されないので(第10図)安
定な認識が期待できる。
い、Sexの作成に用いた人数をバラメータと
し、RUL法とM法のそれぞれに対する実験
結果(B組)を第12図に示す。S−sizeの
減少とともにM法の認識率が顕著に低下す
る。これはオープン実験によく見られる傾向
である。しかしRUL法の認識率はわずかに
下がるだけである。RUL法お認識は学習結
果に基づいて行われるが、学習の結果はSex
にほとんど影響されないので(第10図)安
定な認識が期待できる。
B組データについて、認識結果に対する
{XL}のサイズの影響を第13図に示す。こ
の表から分かるように{XL}サイズが10個
程度以上であれば認識率はすべて98%以上で
ある。{XL}のサイズがあまり少ないと学習
の結果が正しくてもそこから生成される標準
パターンの信頼正が低くなり、認識率が落ち
る。しかし、第13図に示すように{XL}
のサイズがある程度以上であれば安定した高
い認識率が得られる。
{XL}のサイズの影響を第13図に示す。こ
の表から分かるように{XL}サイズが10個
程度以上であれば認識率はすべて98%以上で
ある。{XL}のサイズがあまり少ないと学習
の結果が正しくてもそこから生成される標準
パターンの信頼正が低くなり、認識率が落ち
る。しかし、第13図に示すように{XL}
のサイズがある程度以上であれば安定した高
い認識率が得られる。
B組について理想的な認識条件、つまり完
全なクローズ実験(話者ごとに自分自身の標
準パターンとのマツチングにより認識を行う
場合)の認識率は99.2%であるが、RUL法
は99%に近い認識率が得られ、学習による認
識の限界に近づいているように見える。
全なクローズ実験(話者ごとに自分自身の標
準パターンとのマツチングにより認識を行う
場合)の認識率は99.2%であるが、RUL法
は99%に近い認識率が得られ、学習による認
識の限界に近づいているように見える。
−3 不特定話者の影響
不特定話和母音認識のシミユレーシヨンと
して、話者の数を次第に増やして認識実験を
行い、認識率の変化から話者の数の影響を検
討する。第14図にRUL法とM法について
の実験結果を示す。ここでは、Sexは15人の
データから生成される。横軸の最初の10人は
Sexの生成に用いた10人である。この図に示
すように話者数が増えてもRUL法の認識率
はほとんど変わらない、これはM法の認識率
の低下と対照的である。両方法の認識率の差
はSexとの個人差が大きい一部の話者につい
て特に明らかである。第15図にこのような
話者について話者ごとの認識率を示す。
RUL法による話者別の最低の認識率は96%
に対しM法によるのは70.7%である。
して、話者の数を次第に増やして認識実験を
行い、認識率の変化から話者の数の影響を検
討する。第14図にRUL法とM法について
の実験結果を示す。ここでは、Sexは15人の
データから生成される。横軸の最初の10人は
Sexの生成に用いた10人である。この図に示
すように話者数が増えてもRUL法の認識率
はほとんど変わらない、これはM法の認識率
の低下と対照的である。両方法の認識率の差
はSexとの個人差が大きい一部の話者につい
て特に明らかである。第15図にこのような
話者について話者ごとの認識率を示す。
RUL法による話者別の最低の認識率は96%
に対しM法によるのは70.7%である。
以上の種種の実験結果から、RUL法は不
特定話者の環境のもとで個人差を吸収して安
定かつ高い認識率を得るための有効な方法で
あると思われる。同時にRUL法の基礎とな
る関係モデルRの妥当正、そして教師なし学
習アルゴリズムの有効性も明らかにされた。
特定話者の環境のもとで個人差を吸収して安
定かつ高い認識率を得るための有効な方法で
あると思われる。同時にRUL法の基礎とな
る関係モデルRの妥当正、そして教師なし学
習アルゴリズムの有効性も明らかにされた。
−4 3連鎖母音を含む文節データに関する実
験 以上の実験は個人差の問題に焦点を絞つた
ので、調音結合の影響が相対的に少ないB組
のデータを対象にしたものである。ここで
は、C組の文節データ中の3連鎖母音につい
ての学習と認識結果を示す。第16図より、
学習結果も認識結果も外部情報源にあり依存
しない傾向はB組の結果と同様である。この
ように認識率が安定していることは不特定和
者音声認識の場合に特に重要な意味があると
思われる。またRUL法とM法における認識
率の差はRUL法による話者適応の結果とみ
られる。しかし、C組についての認識率はB
組についての認識率より低い。この原因は第
4図に示された文節中の3連鎖母音は調音結
合を受け、パターンがかなり変形されるため
と思われる。このような場合は本手法を適用
する前にパターンの修正など調音結合の特性
を考慮した対策を取ることが望ましい。
験 以上の実験は個人差の問題に焦点を絞つた
ので、調音結合の影響が相対的に少ないB組
のデータを対象にしたものである。ここで
は、C組の文節データ中の3連鎖母音につい
ての学習と認識結果を示す。第16図より、
学習結果も認識結果も外部情報源にあり依存
しない傾向はB組の結果と同様である。この
ように認識率が安定していることは不特定和
者音声認識の場合に特に重要な意味があると
思われる。またRUL法とM法における認識
率の差はRUL法による話者適応の結果とみ
られる。しかし、C組についての認識率はB
組についての認識率より低い。この原因は第
4図に示された文節中の3連鎖母音は調音結
合を受け、パターンがかなり変形されるため
と思われる。このような場合は本手法を適用
する前にパターンの修正など調音結合の特性
を考慮した対策を取ることが望ましい。
以上の如く、本発明においては、低次のケプス
トラム係数を要素とする特徴ベクトルの相対位置
関係を用いて母音の認識を行なつているので認識
率を向上させることが可能となる。
トラム係数を要素とする特徴ベクトルの相対位置
関係を用いて母音の認識を行なつているので認識
率を向上させることが可能となる。
第1図はケプストラムを説明する図、第2図は
主軸平面における話者ごとの5母音の位置を示す
図、第3図は三項関係の不変性を例を示した図、
第4図は音声資料を説明する図、第5図は母音間
の不変な相対関係をまとめた図、第6図は特徴空
間における母音間の相対関係を示す模式図、第7
図は教師なし学習アルゴリズムを示す図、第8図
は学習の例を示す図、第9図は実施例を示す図、
第10図は学習の正答率を示す図、第11図は第
1候補の正答率P1を変えたときの学習シミユレ
ーシヨンの結果を示す図、第12図は認識率とS
−size及びL−sizeとの関係を示す図、第13図
は学習データサイズと母音認識率(%)の関係を
示す図、第14図は話者人数と認識率の関係を示
す図、第15図はRUL法とM法の話者ごとの認
識率の比較結果を示す図、第16図は文節中の3
連鎖母音の学習と認識結果を示す図、第17図は
従来の認識方法を示す図である。 図中2は高速フーリエ変換部、3は対数部、4
は高速フーリエ逆変換部、5は低ケフレンシ抽出
部、6は予備認識部、7は関係行列生成部、8は
検定部、9は標準パターン生成部である。
主軸平面における話者ごとの5母音の位置を示す
図、第3図は三項関係の不変性を例を示した図、
第4図は音声資料を説明する図、第5図は母音間
の不変な相対関係をまとめた図、第6図は特徴空
間における母音間の相対関係を示す模式図、第7
図は教師なし学習アルゴリズムを示す図、第8図
は学習の例を示す図、第9図は実施例を示す図、
第10図は学習の正答率を示す図、第11図は第
1候補の正答率P1を変えたときの学習シミユレ
ーシヨンの結果を示す図、第12図は認識率とS
−size及びL−sizeとの関係を示す図、第13図
は学習データサイズと母音認識率(%)の関係を
示す図、第14図は話者人数と認識率の関係を示
す図、第15図はRUL法とM法の話者ごとの認
識率の比較結果を示す図、第16図は文節中の3
連鎖母音の学習と認識結果を示す図、第17図は
従来の認識方法を示す図である。 図中2は高速フーリエ変換部、3は対数部、4
は高速フーリエ逆変換部、5は低ケフレンシ抽出
部、6は予備認識部、7は関係行列生成部、8は
検定部、9は標準パターン生成部である。
Claims (1)
- 【特許請求の範囲】 1 5つの音声母音からそれぞれ得られる1次か
らn次までのケプストラム係数を要素とした特徴
ベクトルを予め標準特徴ベクトルとして用意し、 認識対象となる特定話者の5つの音声母音から
1次からn次までのケプストラム係数を要素とし
た特徴ベクトルを求め、 特定話者の各母音毎の特徴ベクトルと各標準特
徴ベクトルとの比較を行い、類似した複数の標準
特徴ベクトルを候補ベクトルとして選択し、 各候補ベクトル間の距離の大小関係を求め、 5つの音声母音特有の特徴ベクトル間の距離の
大小関係と対応した大小関係を有する候補ベクト
ルを標準特徴ベクトルとして、該特定者の入力音
声を認識に用いることを特徴とする音声母音認識
方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP19538285A JPS6255700A (ja) | 1985-09-04 | 1985-09-04 | 音声母音認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP19538285A JPS6255700A (ja) | 1985-09-04 | 1985-09-04 | 音声母音認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6255700A JPS6255700A (ja) | 1987-03-11 |
| JPH0427560B2 true JPH0427560B2 (ja) | 1992-05-12 |
Family
ID=16340235
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP19538285A Granted JPS6255700A (ja) | 1985-09-04 | 1985-09-04 | 音声母音認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6255700A (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH067358B2 (ja) * | 1988-08-20 | 1994-01-26 | 正行 木村 | 相対関係に基づく音声認識方式 |
| JP4906776B2 (ja) * | 2008-04-16 | 2012-03-28 | 株式会社アルカディア | 音声制御装置 |
-
1985
- 1985-09-04 JP JP19538285A patent/JPS6255700A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6255700A (ja) | 1987-03-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Palo et al. | Wavelet based feature combination for recognition of emotions | |
| Qawaqneh et al. | Deep neural network framework and transformed MFCCs for speaker's age and gender classification | |
| CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
| Nwe et al. | Speech based emotion classification | |
| Yogesh et al. | A new hybrid PSO assisted biogeography-based optimization for emotion and stress recognition from speech signal | |
| US7957959B2 (en) | Method and apparatus for processing speech data with classification models | |
| Bezoui et al. | Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC) | |
| Samantaray et al. | A novel approach of speech emotion recognition with prosody, quality and derived features using SVM classifier for a class of North-Eastern Languages | |
| Al Anazi et al. | A machine learning model for the identification of the holy quran reciter utilizing k-nearest neighbor and artificial neural networks | |
| CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
| Nanavare et al. | Recognition of human emotions from speech processing | |
| CN106531192A (zh) | 基于冗余特征和多词典表示的语音情感识别方法及系统 | |
| Daouad et al. | An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture | |
| Agrawal et al. | Speech emotion recognition of Hindi speech using statistical and machine learning techniques | |
| Rao | Survey on speech recognition | |
| Sinha et al. | Acoustic-phonetic feature based dialect identification in Hindi Speech | |
| Rajeswari et al. | Generative model-driven feature learning for dysarthric speech recognition | |
| Dwijayanti et al. | Speech-to-text conversion in indonesian language using a deep bidirectional long short-term memory algorithm | |
| Xue et al. | Learning speech emotion features by joint disentangling-discrimination | |
| Saputri et al. | Identifying Indonesian local languages on spontaneous speech data | |
| JPH0427560B2 (ja) | ||
| Rashmi et al. | Optimization of Convolutional Neural Network Architectures for High-Accuracy Spoken Digit Classification Using Mel-Frequency Cepstral Coefficients. | |
| Cai et al. | Deep speaker embeddings with convolutional neural network on supervector for text-independent speaker recognition | |
| Shafieian | Hidden Markov model and Persian speech recognition | |
| Hassine et al. | Hybrid techniques for Arabic Letter recognition |