JPH045400B2 - - Google Patents
Info
- Publication number
- JPH045400B2 JPH045400B2 JP358784A JP358784A JPH045400B2 JP H045400 B2 JPH045400 B2 JP H045400B2 JP 358784 A JP358784 A JP 358784A JP 358784 A JP358784 A JP 358784A JP H045400 B2 JPH045400 B2 JP H045400B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- phoneme
- word
- segmentation
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000011218 segmentation Effects 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する音声認識方法に関す
るものである。
書を照合して単語を認識する音声認識方法に関す
るものである。
(従来例の構成とその問題点)
第1図は従来の単語認識方法1つ(第1の従来
例)を実施する装置の機能の概略を示すブロツク
図であり、第2図はW区間における中域の帯域パ
ワーと低域の帯域パワーの比の、W区間における
変化を示す図である。
例)を実施する装置の機能の概略を示すブロツク
図であり、第2図はW区間における中域の帯域パ
ワーと低域の帯域パワーの比の、W区間における
変化を示す図である。
第1図において、1はパラメータ抽出部、2は
音素セグメンテーシヨン部、3は音素認識部、4
は単語辞書部、5はコンフユージヨンマトリクス
部、6は単語認識部である。単語辞書部4は認識
すべき全単語を音素で表記した単語辞書を記憶し
ているものであり、その単語辞書には、例えば単
語「サツポロ」、「アサヒカワ」、「ワカヤマ」、「オ
カヤマ」は、「SAQPORO」、「ASAHIKAWA」、
「WAKAJAMA」、「OKAJMA」等と表記されて
いる。コンフユージヨンマトリクス部5は、辞書
の表記に用いられる各種音素が、実際の音素認識
で何と認識されるかの確率、例えばAがAと認識
される確率は85%、AがOと認識される確率は7
%、セグメンテーシヨン誤りによりAが認識音素
系列上から脱落してしまう確率は5%…等の値を
示すコンフユージヨンマトリクスを記憶している
ものである。
音素セグメンテーシヨン部、3は音素認識部、4
は単語辞書部、5はコンフユージヨンマトリクス
部、6は単語認識部である。単語辞書部4は認識
すべき全単語を音素で表記した単語辞書を記憶し
ているものであり、その単語辞書には、例えば単
語「サツポロ」、「アサヒカワ」、「ワカヤマ」、「オ
カヤマ」は、「SAQPORO」、「ASAHIKAWA」、
「WAKAJAMA」、「OKAJMA」等と表記されて
いる。コンフユージヨンマトリクス部5は、辞書
の表記に用いられる各種音素が、実際の音素認識
で何と認識されるかの確率、例えばAがAと認識
される確率は85%、AがOと認識される確率は7
%、セグメンテーシヨン誤りによりAが認識音素
系列上から脱落してしまう確率は5%…等の値を
示すコンフユージヨンマトリクスを記憶している
ものである。
次に上記従来例の動作について説明する。パラ
メータ抽出部1により入力音声を10msのフレー
ム毎に分析し、パラメータを抽出し、音素セグメ
ンテーシヨン部2でフレーム毎の音声の性質、パ
ラメータの変化等に基づき、音素セグメンテーシ
ヨン(入力音声を音素毎の区間に区切ること)を
行ない、音素認識部3でこのセグメンテーシヨン
された区間毎に音素認識を行なう。単語認識部6
では、音素認識部3により得られた認識音素系列
と、単語辞書部6に記憶されている各辞書項目と
の類似度をコンフユージヨンマトリクス部5内の
コンフユージヨンマトリクスを用いて計算し、最
大類似度となる単語(辞書項目)を認識単語とし
ていた。本従来例におけるワ行母音(以下Wで表
わす)のセグメンテーシヨン法は、入力音声の中
域(600〜1500Hz)の帯域パワーPMと低域(250
〜600Hz)の帯域パワーPLの下式に示す比RML RML△=PM/PL ……(1) が、第2図に示すように谷形となる区間をWの区
間としてセグメンテーシヨンするものであつた。
これは、RMLがW区間における第1フオルマント
周波数の変化に対応して谷形に推移する性質を利
用したものであるが、下記の欠点を有していた。
すなわちRMLはW区間以外でもフオルマント周波
数の変化に応じ変動する量であるため、W区間以
外の区間でもRMLの谷は生じ、その区間をW区間
と誤らないためにRMLの谷の深さに、あるスレツ
シヨルドを設け、谷の深さがそのスレツシヨルド
を越えた時にはその谷の区間をW区間としてセグ
メンテーシヨンし、それ以外の浅い谷は無視して
いた。そのため、W区間が正しくセグメンテーシ
ヨンされる割り合いは70%程度にとどまり、単語
誤認識も多いという欠点があつた。例えば、第1
図に例を示すように、入力単語がWAKAJAMA
である時、このWはしばしば前記のような理由で
セグメンテーシヨンされず、得られた認識音素系
列はAKAJAMAとなつて、単語辞書の各辞書項
目との類似度計算の結果、単語認識結果は
OKAJAMAに誤つた。本従来例においては、上
記に示すような単語誤認識が多いという欠点があ
つた。
メータ抽出部1により入力音声を10msのフレー
ム毎に分析し、パラメータを抽出し、音素セグメ
ンテーシヨン部2でフレーム毎の音声の性質、パ
ラメータの変化等に基づき、音素セグメンテーシ
ヨン(入力音声を音素毎の区間に区切ること)を
行ない、音素認識部3でこのセグメンテーシヨン
された区間毎に音素認識を行なう。単語認識部6
では、音素認識部3により得られた認識音素系列
と、単語辞書部6に記憶されている各辞書項目と
の類似度をコンフユージヨンマトリクス部5内の
コンフユージヨンマトリクスを用いて計算し、最
大類似度となる単語(辞書項目)を認識単語とし
ていた。本従来例におけるワ行母音(以下Wで表
わす)のセグメンテーシヨン法は、入力音声の中
域(600〜1500Hz)の帯域パワーPMと低域(250
〜600Hz)の帯域パワーPLの下式に示す比RML RML△=PM/PL ……(1) が、第2図に示すように谷形となる区間をWの区
間としてセグメンテーシヨンするものであつた。
これは、RMLがW区間における第1フオルマント
周波数の変化に対応して谷形に推移する性質を利
用したものであるが、下記の欠点を有していた。
すなわちRMLはW区間以外でもフオルマント周波
数の変化に応じ変動する量であるため、W区間以
外の区間でもRMLの谷は生じ、その区間をW区間
と誤らないためにRMLの谷の深さに、あるスレツ
シヨルドを設け、谷の深さがそのスレツシヨルド
を越えた時にはその谷の区間をW区間としてセグ
メンテーシヨンし、それ以外の浅い谷は無視して
いた。そのため、W区間が正しくセグメンテーシ
ヨンされる割り合いは70%程度にとどまり、単語
誤認識も多いという欠点があつた。例えば、第1
図に例を示すように、入力単語がWAKAJAMA
である時、このWはしばしば前記のような理由で
セグメンテーシヨンされず、得られた認識音素系
列はAKAJAMAとなつて、単語辞書の各辞書項
目との類似度計算の結果、単語認識結果は
OKAJAMAに誤つた。本従来例においては、上
記に示すような単語誤認識が多いという欠点があ
つた。
次に第2の従来例を第3図とともに述べる。第
3図において、パラメータ抽出部1および単語辞
書部4は第1図に示す第1の従来例と同様のもの
である。第2の従来例において、パラメータ抽出
部1で入力を10msのフレーム毎に分析、パラメ
ータ抽出を行ない、単語肉書部7では、パラメー
タ抽出部1で得られたパラメータ時系列を直接、
単語辞書部4の単語辞書都照合し、各辞書項目毎
にその入力音声がその辞書項目を発声したもので
あると仮定して、その辞書項目の辞書音素系列に
従い、1音素ずつセグメンテーシヨンし、そのセ
グメンテーシヨンされた区間が、辞書音素系列の
その音素を発声したものである確からしさを表わ
す尺度である尤度を計算し、尤度の平均値とし
て、その辞書項目と入力音声との類似度を求める
ことにより単語を認識していた。ここで、第2の
従来例において、辞書音素系列上のWに対応して
W区間のセグメンテーシヨンを行なう場合、フレ
ーム毎に求めた各母音標準パタンとの距離におい
て、この距離が一番近い母音の種類が「ワ」にお
いてU→AあるいはO→Aと変化する性質を利用
してW区間をセグメンテーシヨンしていた。しか
し第2の従来例において、非常に明瞭に発声した
場合以外は、W区間におけるフレーム毎の一番距
離の近い母音が終止AあるいはOとなつて、変化
をとらえられないことがが多く、その場合W区間
のセグメンテーシヨンができない、つまり「W区
間は含まない」という判断になりがちで、単語誤
認識の原因となつていた。
3図において、パラメータ抽出部1および単語辞
書部4は第1図に示す第1の従来例と同様のもの
である。第2の従来例において、パラメータ抽出
部1で入力を10msのフレーム毎に分析、パラメ
ータ抽出を行ない、単語肉書部7では、パラメー
タ抽出部1で得られたパラメータ時系列を直接、
単語辞書部4の単語辞書都照合し、各辞書項目毎
にその入力音声がその辞書項目を発声したもので
あると仮定して、その辞書項目の辞書音素系列に
従い、1音素ずつセグメンテーシヨンし、そのセ
グメンテーシヨンされた区間が、辞書音素系列の
その音素を発声したものである確からしさを表わ
す尺度である尤度を計算し、尤度の平均値とし
て、その辞書項目と入力音声との類似度を求める
ことにより単語を認識していた。ここで、第2の
従来例において、辞書音素系列上のWに対応して
W区間のセグメンテーシヨンを行なう場合、フレ
ーム毎に求めた各母音標準パタンとの距離におい
て、この距離が一番近い母音の種類が「ワ」にお
いてU→AあるいはO→Aと変化する性質を利用
してW区間をセグメンテーシヨンしていた。しか
し第2の従来例において、非常に明瞭に発声した
場合以外は、W区間におけるフレーム毎の一番距
離の近い母音が終止AあるいはOとなつて、変化
をとらえられないことがが多く、その場合W区間
のセグメンテーシヨンができない、つまり「W区
間は含まない」という判断になりがちで、単語誤
認識の原因となつていた。
(発明の目的)
本発明は上記従来例の欠点を除去するものであ
り、W区間を正しくセグメンテーシヨンできるよ
うにして、単語認識率を向上させることを目的と
する。
り、W区間を正しくセグメンテーシヨンできるよ
うにして、単語認識率を向上させることを目的と
する。
(発明の構成)
本発明は、上記目的を達成するために、入力音
声を単語辞書の各辞書項目と照合し、各辞書項目
を構成する辞書音素系列に従い各音素毎に入力音
声をセグメンテーシヨンするとともに、ワ行半母
音のセグメンテーシヨンに際しては、入力音声の
中域の帯域パワーPMと低域の帯域パワーPLの比
RMLの時間変化をも照合し、その比RMLが極小と
なる区間であるときにワ行半母音としてセグメン
テーシヨンを行ない、セグメンテーシヨンの後に
各音素の尤度を算出し、この尤度の値を用いて各
辞書項目と入力音声の類似度を求めて、入力単語
を認識することを特徴とする音声認識方法であ
る。この特徴により、本発明はセグメンテーシヨ
ンを確実に行なうことができ、高い単語認識率を
得る効果を持つものである。
声を単語辞書の各辞書項目と照合し、各辞書項目
を構成する辞書音素系列に従い各音素毎に入力音
声をセグメンテーシヨンするとともに、ワ行半母
音のセグメンテーシヨンに際しては、入力音声の
中域の帯域パワーPMと低域の帯域パワーPLの比
RMLの時間変化をも照合し、その比RMLが極小と
なる区間であるときにワ行半母音としてセグメン
テーシヨンを行ない、セグメンテーシヨンの後に
各音素の尤度を算出し、この尤度の値を用いて各
辞書項目と入力音声の類似度を求めて、入力単語
を認識することを特徴とする音声認識方法であ
る。この特徴により、本発明はセグメンテーシヨ
ンを確実に行なうことができ、高い単語認識率を
得る効果を持つものである。
(実施例の説明)
以下に本発明の一実施例について、図面ととも
に説明する。本実施例の音声認識方法を実施する
装置の基本構成は第2の従来例と同様に、第3図
のブロツク図により示される。第3図においてパ
ラメータ抽出部1と単語辞書部4は、前記第1の
従来例、及び第2の従来例と同様である。
に説明する。本実施例の音声認識方法を実施する
装置の基本構成は第2の従来例と同様に、第3図
のブロツク図により示される。第3図においてパ
ラメータ抽出部1と単語辞書部4は、前記第1の
従来例、及び第2の従来例と同様である。
本実施例の動作について説明する。先ずパラメ
ータ抽出部1により入力音声を10msのフレーム
毎に分析、パラメータ抽出を行ない、単語認識部
7では、パラメータ抽出部1で得られたパラメー
タ時系列を直接、単語辞書部4の単語辞書と照合
し、各辞書項目毎に、その入力音声がその辞書項
目を発声したものであると仮定して、その辞書項
目の辞書音素系列に従い、1音素ずつセグメンテ
ーシヨンし、そのセグメンテーシヨンされた区間
が、辞書音素系列のその音素を発生したものであ
る確からしさを表わす尺度である尤度を計算し、
尤度の平均値として、その辞書項目と入力音声と
の類似度を求めることにより単語を認識する。こ
の時、本実施例においては、辞書音素系列上のワ
行半母音WてW区間のセグメンテーシヨンを行な
う場合、前記(1)式に示す、入力音声の中域の帯域
パワーと低域の帯域パワーの比RMLが、第2図に
示すように谷形となる区間をWの区間としてセグ
メンテーシヨンを行なう。
ータ抽出部1により入力音声を10msのフレーム
毎に分析、パラメータ抽出を行ない、単語認識部
7では、パラメータ抽出部1で得られたパラメー
タ時系列を直接、単語辞書部4の単語辞書と照合
し、各辞書項目毎に、その入力音声がその辞書項
目を発声したものであると仮定して、その辞書項
目の辞書音素系列に従い、1音素ずつセグメンテ
ーシヨンし、そのセグメンテーシヨンされた区間
が、辞書音素系列のその音素を発生したものであ
る確からしさを表わす尺度である尤度を計算し、
尤度の平均値として、その辞書項目と入力音声と
の類似度を求めることにより単語を認識する。こ
の時、本実施例においては、辞書音素系列上のワ
行半母音WてW区間のセグメンテーシヨンを行な
う場合、前記(1)式に示す、入力音声の中域の帯域
パワーと低域の帯域パワーの比RMLが、第2図に
示すように谷形となる区間をWの区間としてセグ
メンテーシヨンを行なう。
本実施例においては、W区間以外の所でRMLの
谷が生じても、ちようどその部分で入力単語と異
る辞書項目のWのセグメンテーシヨンがなされな
ければ全く問題はなく、またもしそのような誤つ
たセグメンテーシヨンがなされても、尤度計算時
に低い尤度となるように他のパラメータも用いた
尤度計算を行なうことにより、正しいW区間のセ
グメンテーシヨンとは区別できる。従つて、W区
間のセグメンテーシヨンにRMLの谷を用いても、
第1の従来例とは異り、谷の深さにスレツシヨル
ドを設ける必要がなく、RMLの谷が浅くてもW区
間を正しくセグメンテーシヨンできるようにな
り、単語認識率も向上する。また、W区間におい
てRMLが谷を成さないことはほとんどないため、
第2の従来例と比べてもW区間を正しくセグメン
テーシヨンできる割り合いははるかに高く、単語
認識率も向上するという効果がある。例えば、第
3図に例を示すように、入力単語が
WAKAJAMAである時、Wのセグメンテーシヨ
ンは確実になされ、単語認識結果も正しく
WAKAJAMAとなつた。
谷が生じても、ちようどその部分で入力単語と異
る辞書項目のWのセグメンテーシヨンがなされな
ければ全く問題はなく、またもしそのような誤つ
たセグメンテーシヨンがなされても、尤度計算時
に低い尤度となるように他のパラメータも用いた
尤度計算を行なうことにより、正しいW区間のセ
グメンテーシヨンとは区別できる。従つて、W区
間のセグメンテーシヨンにRMLの谷を用いても、
第1の従来例とは異り、谷の深さにスレツシヨル
ドを設ける必要がなく、RMLの谷が浅くてもW区
間を正しくセグメンテーシヨンできるようにな
り、単語認識率も向上する。また、W区間におい
てRMLが谷を成さないことはほとんどないため、
第2の従来例と比べてもW区間を正しくセグメン
テーシヨンできる割り合いははるかに高く、単語
認識率も向上するという効果がある。例えば、第
3図に例を示すように、入力単語が
WAKAJAMAである時、Wのセグメンテーシヨ
ンは確実になされ、単語認識結果も正しく
WAKAJAMAとなつた。
(発明の効果)
本発明は上記のような構成であり、以下に示す
効果が得られるものである。入力音声を各辞書項
目の辞書音素系列に従つてセグメンテーシヨンす
る時、Wのセグメンテーシヨンを、入力音声の中
域の帯域パワーと低域の帯域パワーの比がW区間
で谷となることを利用して行なうことにより、W
区間が確実にセグメンテーシヨンされることとな
り、単語認識率が向上するという利点を有する。
効果が得られるものである。入力音声を各辞書項
目の辞書音素系列に従つてセグメンテーシヨンす
る時、Wのセグメンテーシヨンを、入力音声の中
域の帯域パワーと低域の帯域パワーの比がW区間
で谷となることを利用して行なうことにより、W
区間が確実にセグメンテーシヨンされることとな
り、単語認識率が向上するという利点を有する。
第1図は第1の従来例における音声認識方法を
実施するのに用いる装置の機能の概略を示すブロ
ツク図、第2図は、W区間における中域の帯域パ
ワーと低域の帯域パワーの比の、W区間における
変化を示す図、第3図は、第2の従来例、及び本
発明の実施例における音声認識方法を実施するの
に用いる装置の機能の概略を示すブロツク図であ
る。 1……パラメータ抽出部、4……単語辞書部、
7……単語認識部。
実施するのに用いる装置の機能の概略を示すブロ
ツク図、第2図は、W区間における中域の帯域パ
ワーと低域の帯域パワーの比の、W区間における
変化を示す図、第3図は、第2の従来例、及び本
発明の実施例における音声認識方法を実施するの
に用いる装置の機能の概略を示すブロツク図であ
る。 1……パラメータ抽出部、4……単語辞書部、
7……単語認識部。
Claims (1)
- 1 入力音声を認識すべき単語を音素で表記した
単語辞書の各辞書項目と照合し、各辞書項目を構
成する辞書音素系列に従い各音素毎に入力音声を
セグメンテーシヨンするとともに、ワ行半母音の
セグメンテーシヨンに際しては、入力音声の中域
の帯域パワーPMと低域の帯域パワーPLの比RMLの
時間変化をも照合し、その比RMLが極小となる区
間であるときにワ行半母音としてセグメンテーシ
ヨンを行ない、その後各セグメンテーシヨンされ
た音声の区間がその音素を発声したものである確
らしさを示す尺度である尤度を算出し、この尤度
の値を用いて各辞書項目と入力音声の類似度を求
めて、入力音声の単語を認識することを特徴とす
る音声認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP358784A JPS60147799A (ja) | 1984-01-13 | 1984-01-13 | 音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP358784A JPS60147799A (ja) | 1984-01-13 | 1984-01-13 | 音声認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60147799A JPS60147799A (ja) | 1985-08-03 |
| JPH045400B2 true JPH045400B2 (ja) | 1992-01-31 |
Family
ID=11561586
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP358784A Granted JPS60147799A (ja) | 1984-01-13 | 1984-01-13 | 音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60147799A (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4815463B2 (ja) * | 2008-03-28 | 2011-11-16 | 三菱電機インフォメーションシステムズ株式会社 | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム |
-
1984
- 1984-01-13 JP JP358784A patent/JPS60147799A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60147799A (ja) | 1985-08-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0103245A1 (en) | Pattern matching apparatus | |
| EP0498419B1 (en) | Speech recognition device for calculating a corrected similarity scarcely dependent on circumstances of production of input patterns | |
| JPH0222960B2 (ja) | ||
| JPH045400B2 (ja) | ||
| EP0255529A4 (en) | FRAMEWORK COMPARISON PROCEDURE FOR RECOGNIZING WORDS IN A LARGE NOISE ENVIRONMENT. | |
| JPH045399B2 (ja) | ||
| JPS6136798A (ja) | 音声セグメンテ−シヨン法 | |
| JPH11119793A (ja) | 音声認識装置 | |
| JPH0651792A (ja) | 音声認識装置 | |
| JPH0458636B2 (ja) | ||
| JPS60149099A (ja) | 音声認識方法 | |
| JPH0431118B2 (ja) | ||
| JPH0554116B2 (ja) | ||
| JPH0412479B2 (ja) | ||
| JPH0635494A (ja) | 音声認識装置 | |
| White | Speech recognition with character string encoding | |
| JPH0570840B2 (ja) | ||
| JPH0431116B2 (ja) | ||
| JPH0431114B2 (ja) | ||
| JPS58159598A (ja) | 単音節音声認識方式 | |
| JPS6113386A (ja) | 手書文字認識装置 | |
| JPH0155476B2 (ja) | ||
| JPH045396B2 (ja) | ||
| JPH04258999A (ja) | 音声認識方式 | |
| JPH0412480B2 (ja) |