JPH0562759B2 - - Google Patents
Info
- Publication number
- JPH0562759B2 JPH0562759B2 JP13382984A JP13382984A JPH0562759B2 JP H0562759 B2 JPH0562759 B2 JP H0562759B2 JP 13382984 A JP13382984 A JP 13382984A JP 13382984 A JP13382984 A JP 13382984A JP H0562759 B2 JPH0562759 B2 JP H0562759B2
- Authority
- JP
- Japan
- Prior art keywords
- bpf
- vowels
- vowel
- speech recognition
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 13
- 238000000926 separation method Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 229930091051 Arenine Natural products 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Description
〈技術分野〉
本発明は、音声認識装置において、その特徴抽
出部が2つの帯域ろ波器(BPF)で構成される
という簡単な場合で、音声認識の特徴量として、
前記2つのBPF出力波形の零交差回数を用いる
音声の特徴抽出方式に関するものである。 〈従来技術〉 音声認識に使用される特徴量、およびそれを用
いた標準パターンの作成方法については、各種の
ものが提案され、開発されている。ここで、特徴
量としてよく知られている零交差回数(以下単に
ZCCという)を用い、各母音のスペクトル情報、
特に第1フオルマント(F1)と第2フオルマン
ト(F2)を重視した構成は、簡易な音声認識装
置が得られるものとして注目されている。 さて、ZCCとフオルマント周波数との関連は、
従来からもさまざまな研究がなされてきている。
しかし、BPFによつてフオルマントの存在領域
を限定しても、そのフオルマントのバンド幅や、
他のフオルマントの影響を受けて、厳密には対応
しないことがしばしばある。日本語5母音は、
F1,F2が抽出できれば、かなりよい精度で識別
できることは周知である。しかし上記の理由によ
つて、厳密にF1,F2に対応せず、誤認識につな
がるおそれがある。 また一方、F1,F2には次のような変動要素が
ある。例えば、このように2チヤンネルのBPF
を用いて、F1,F2を抽出しようとする場合、白
井・藤沢(信学会論文誌1974/3)では、各
BPFの帯域を、250Hz〜1000Hz、700Hz〜2500Hz
に設定することを提案している。ところが、F1,
F2の分布は、前後の音韻環境による調音結合や
個人差により大きく変動し、前記の帯域はある特
定の人に対しては有効に働くが、うまく作用しな
い人も存在する。 〈発明の目的〉 本発明は、上記点に鑑みて、母音のF1とF2の
抽出を最優先するのではなく、母音の中で|a|
と|i|が最も性質の違う対であることに注目
し、この距離が最も大きくなるようにBPFの帯
域を設定することにより、従来の欠点を除去する
ものである。 〈実施例〉 以下図面に従つて、本発明方式の一実施例を詳
細に説明する。 第1図は音声認識装置としての回路構成例を示
すブロツク図である。図において、1はマイク、
2はアンプ、3は第1帯域ろ波器(BPF1)、4は
第2帯域ろ波器(BPF2)、5は第1零交差カウン
タ、6は第2零交差カウンタ、7は認識部であ
る。ここで、第1帯域ろ波器(BPF1)3の通過
域はF1l(Hz)〜F1h(Hz)(低チヤンネル、第1
フオルマントF1に対応)、第2帯域ろ波器
(BPF2)4の通過域はF2l(Hz)〜F2h(Hz)(高
チヤンネル、第2フオルマントF2に対応)であ
るとする。 第2図a,bの実線はそれぞれ標準的な|a|
と|i|のスペクトル概形を示す。この図から、
点線のごとく2つのBPF1,BPF2を施せば、この
2母音の分離はほぼ最大となることがわかる。第
3図は、これをわかりやすくするため、ある分析
フレーム窓を設けたとき、各BPFの出力に対す
るZCCの分布を、男女大勢の音声資料から|a|
と|i|の部分のみを切出して表わしたものであ
る。横軸(Zl)はBPF1出力のZCC、縦軸(Zh)
はBPF2出力のZCCをそれぞれ周波数に変換した
値である。本発明方式の特徴は、この2群間の距
離が最大となるように、各BPFの遮断周波数を
設定することにある。 使用する距離としては、例えば確率分布間の距
離としてよく用いられるBhattacharyaの距離を
採用することができる。すなわち、2つの母音群
Pij{=Pr(Zl=i,Zh=j)}およびQij{=Pr(Zl
=i,Zh=j)}間の距離d(P,Q)は次のよ
うに定義される。 d(P,Q)=1/2n 〓i=1 o 〓i=1 (√−√)2 ここで、m:Zl方向の最大値 n:Zh方向の最大値 Pr:確率密度関数 よつて、2群が完全に分離していればd(P,
Q)=1、完全に一致していれば0となる。 低チヤンネルBPF1の低域側の遮断周波数F1l
は、ピツチの影響を除くためのもので、250<F1
l<350(例えば300Hzぐらい)が望ましい。また
高チヤンネルBPF2の高域側の遮断周波数F2h
は、摩擦音検出を兼ねて、5000<F2h(例えば
6000Hz〜7000Hz)に設定する。つまり、音声認識
装置として、簡単な回路構成にする目的で、高い
方のチヤンネルBPF2は摩擦音検出を兼ねさせて
いる。摩擦音は母音と分離していて、一般にF2
は1000Hz〜3000Hzに分布するのに対し、摩擦音は
3000Hz〜6000Hzにエネルギーが集中し、ZCCもそ
れに対応した値をとる。 低チヤンネルBPF1の高域側遮断周波数F1h
と、高チヤンネルBPF2の低域側遮断周波数F2l
は、大勢の男女話者の発生した多くの単語音声資
料から、|a|と|i|の部分を対象に分析した
結果、1200≦F1h≦1400,1100≦F2l≦1300,
ただしF2l<F1h(例えばBPF1は1300Hz、BPF2
は1200Hz)が最適であることが判明した。 すなわち、前記( )内に記した具体例をとる
と、全体として例えば、低チヤンネルBPF1の通
過域は300〜1300Hz、高チヤンネルBPF2の通過域
は1200〜6000Hzに設定すればよい。 なお、本例において、フイルタ回路の簡素化も
考慮して、両チヤンネルとも遮断周波数の傾斜特
性は±12dB/octに固定している。 上述のごとく、本発明による2つのBPF1,
BPF2は、F1,F2の抽出を目標に設定されたもの
でなく、多人数の音声資料中で|a|と|i|の
分離が最大となるように定められている。従つ
て、どんな人に対しても、|a|と|i|は、第
3図のZl−Zh平面上でうまく識別できる。しか
も、他の音韻に対しても、かなりの識別能力は認
められる。第4図に、日本語5母音(|a|,|
i|,|u|,|e|,|o|)と摩擦音(f)の
分布図を示しておく。上記により、本発明の方式
によれば、簡易な不特定話者音声認識装置を実現
することができる。 「|a|と|i|の分離を最大にすることが、
どうして、不特定話者認識において有効なのか」
について、今少し詳しく説明する。 まず、|a|と|i|が母音の中で最も性質の
違う対であることを、調音などの点から述べる。
母音は、調音の位置(舌による声道の狭めの位
置)と狭めの度合(主として顎の上下による唇の
開く具合によつて決まる)とによつて、より詳し
くは唇の丸めの有無、張りと緩みなどを加えて、
第5図のように分類される。ただし、図中で対に
なつているもの、例えばiとy,eとφなどは唇
による変形であり、右側が円唇の母音である。日
本語の|a|は図の記号ではa,a,a,aに相
当するが、図から|a|と|i|が最も離れた存
在であることがわかる。すなわち、|a|は広い
後舌ないし中舌母音であるのに対し、|i|は狭
い前舌母音である。また|o|は|a|の近い位
置に存在する。 次に周波数領域での差異について述べる。普
通、母音には数個のフオルマントがあつて、周波
数の低い方から第1、第2、…フオルマントと呼
んでいる。フオルマントは、発声者、性別、年齢
などにより、かなり大幅に変動し、また発話時に
前後につなげて発音される音素の影響を受けて変
動する。母音を特徴づけるのは、低次、特に第1
および第2フオルマント(F1,F2)である。第
6図は、日本語母音のフオルマントF1,F2を、
男女別に発話者や環境の差による大略の範囲を点
線で示したものである。この図から、第2図a,
bにそのスペクトル概形を示したように、|a|
と|i|はF1,F2に対応する領域で大きく食い
違つていることがわかる。 以上のことから、不特定話者を対象にして音声
認識を行なう場合、大きな課題の1つである、話
者によらず特徴量が安定している(robust
featuresである)という条件を満たすためには、
母音識別において|a|と|i|に着目するのが
最も妥当である。つまり、|a|と|i|は、そ
の調音様式(第5図参照)の拘束力が強いため、
発話者や環境による変動が少ないと推定される。
事実、|i|に関しては、従来の研究から5母音
中最も安定した音素であると言われており、また
|u|は最も不安定で調音結合の影響を受けやす
く、地域による差も大きいとされている。よつ
て、|a|と|i|のそれぞれの分布が最もよく
分離するように2つのBPF1,BPF2の通過域を設
定すれば、特徴量として最も安定なもの(robust
なもの)が期待できる。 ただし、実際の分析では、5母音中|a|と|
o|の分布が非常に重なつていたため、この音素
を1つにまとめ|i|と|a|の分離に着目し
た。|o|は、第5図、第6図からもわかるよう
に|a|に近く、|i|とはかなり離れており、|
a|と同じ群として扱つても大差がなく、また本
発明による分離では、同じ群として扱う方が、よ
り安定な特徴量(robust features)形成に役立
つ。もちろんこの場合、|a|と|o|は識別で
きないことになるが、2チヤンネルのBPFとい
う簡易な音声認識装置では、このデメリツトは大
きくない。認識対象語いをこのことに注意して選
んでやればよい。 この2チヤンネルBPF設計法で得られたデー
タ例を第7図に示す。 対象とする母音は|a|,|i|,|u|,|e
|の4群、ただし上述のとおり、|a|はaとo
を含んでいる。使用したデータは、男女数十名の
発声したいろいろな単語中の母音定常部である。
評価尺度は先に説明した2つの分布間の
Bhattacharya距離を用いており、第7図中では
各組み合わせの上段に記した。下段は、参考まで
に2群間の重み付きEuclidian距離を示している。
BPF1の高域側遮断周波数F1hとBPF2の低域側
遮断周波数F2lとの組み合わせは、下表のよう
に9種類である。
出部が2つの帯域ろ波器(BPF)で構成される
という簡単な場合で、音声認識の特徴量として、
前記2つのBPF出力波形の零交差回数を用いる
音声の特徴抽出方式に関するものである。 〈従来技術〉 音声認識に使用される特徴量、およびそれを用
いた標準パターンの作成方法については、各種の
ものが提案され、開発されている。ここで、特徴
量としてよく知られている零交差回数(以下単に
ZCCという)を用い、各母音のスペクトル情報、
特に第1フオルマント(F1)と第2フオルマン
ト(F2)を重視した構成は、簡易な音声認識装
置が得られるものとして注目されている。 さて、ZCCとフオルマント周波数との関連は、
従来からもさまざまな研究がなされてきている。
しかし、BPFによつてフオルマントの存在領域
を限定しても、そのフオルマントのバンド幅や、
他のフオルマントの影響を受けて、厳密には対応
しないことがしばしばある。日本語5母音は、
F1,F2が抽出できれば、かなりよい精度で識別
できることは周知である。しかし上記の理由によ
つて、厳密にF1,F2に対応せず、誤認識につな
がるおそれがある。 また一方、F1,F2には次のような変動要素が
ある。例えば、このように2チヤンネルのBPF
を用いて、F1,F2を抽出しようとする場合、白
井・藤沢(信学会論文誌1974/3)では、各
BPFの帯域を、250Hz〜1000Hz、700Hz〜2500Hz
に設定することを提案している。ところが、F1,
F2の分布は、前後の音韻環境による調音結合や
個人差により大きく変動し、前記の帯域はある特
定の人に対しては有効に働くが、うまく作用しな
い人も存在する。 〈発明の目的〉 本発明は、上記点に鑑みて、母音のF1とF2の
抽出を最優先するのではなく、母音の中で|a|
と|i|が最も性質の違う対であることに注目
し、この距離が最も大きくなるようにBPFの帯
域を設定することにより、従来の欠点を除去する
ものである。 〈実施例〉 以下図面に従つて、本発明方式の一実施例を詳
細に説明する。 第1図は音声認識装置としての回路構成例を示
すブロツク図である。図において、1はマイク、
2はアンプ、3は第1帯域ろ波器(BPF1)、4は
第2帯域ろ波器(BPF2)、5は第1零交差カウン
タ、6は第2零交差カウンタ、7は認識部であ
る。ここで、第1帯域ろ波器(BPF1)3の通過
域はF1l(Hz)〜F1h(Hz)(低チヤンネル、第1
フオルマントF1に対応)、第2帯域ろ波器
(BPF2)4の通過域はF2l(Hz)〜F2h(Hz)(高
チヤンネル、第2フオルマントF2に対応)であ
るとする。 第2図a,bの実線はそれぞれ標準的な|a|
と|i|のスペクトル概形を示す。この図から、
点線のごとく2つのBPF1,BPF2を施せば、この
2母音の分離はほぼ最大となることがわかる。第
3図は、これをわかりやすくするため、ある分析
フレーム窓を設けたとき、各BPFの出力に対す
るZCCの分布を、男女大勢の音声資料から|a|
と|i|の部分のみを切出して表わしたものであ
る。横軸(Zl)はBPF1出力のZCC、縦軸(Zh)
はBPF2出力のZCCをそれぞれ周波数に変換した
値である。本発明方式の特徴は、この2群間の距
離が最大となるように、各BPFの遮断周波数を
設定することにある。 使用する距離としては、例えば確率分布間の距
離としてよく用いられるBhattacharyaの距離を
採用することができる。すなわち、2つの母音群
Pij{=Pr(Zl=i,Zh=j)}およびQij{=Pr(Zl
=i,Zh=j)}間の距離d(P,Q)は次のよ
うに定義される。 d(P,Q)=1/2n 〓i=1 o 〓i=1 (√−√)2 ここで、m:Zl方向の最大値 n:Zh方向の最大値 Pr:確率密度関数 よつて、2群が完全に分離していればd(P,
Q)=1、完全に一致していれば0となる。 低チヤンネルBPF1の低域側の遮断周波数F1l
は、ピツチの影響を除くためのもので、250<F1
l<350(例えば300Hzぐらい)が望ましい。また
高チヤンネルBPF2の高域側の遮断周波数F2h
は、摩擦音検出を兼ねて、5000<F2h(例えば
6000Hz〜7000Hz)に設定する。つまり、音声認識
装置として、簡単な回路構成にする目的で、高い
方のチヤンネルBPF2は摩擦音検出を兼ねさせて
いる。摩擦音は母音と分離していて、一般にF2
は1000Hz〜3000Hzに分布するのに対し、摩擦音は
3000Hz〜6000Hzにエネルギーが集中し、ZCCもそ
れに対応した値をとる。 低チヤンネルBPF1の高域側遮断周波数F1h
と、高チヤンネルBPF2の低域側遮断周波数F2l
は、大勢の男女話者の発生した多くの単語音声資
料から、|a|と|i|の部分を対象に分析した
結果、1200≦F1h≦1400,1100≦F2l≦1300,
ただしF2l<F1h(例えばBPF1は1300Hz、BPF2
は1200Hz)が最適であることが判明した。 すなわち、前記( )内に記した具体例をとる
と、全体として例えば、低チヤンネルBPF1の通
過域は300〜1300Hz、高チヤンネルBPF2の通過域
は1200〜6000Hzに設定すればよい。 なお、本例において、フイルタ回路の簡素化も
考慮して、両チヤンネルとも遮断周波数の傾斜特
性は±12dB/octに固定している。 上述のごとく、本発明による2つのBPF1,
BPF2は、F1,F2の抽出を目標に設定されたもの
でなく、多人数の音声資料中で|a|と|i|の
分離が最大となるように定められている。従つ
て、どんな人に対しても、|a|と|i|は、第
3図のZl−Zh平面上でうまく識別できる。しか
も、他の音韻に対しても、かなりの識別能力は認
められる。第4図に、日本語5母音(|a|,|
i|,|u|,|e|,|o|)と摩擦音(f)の
分布図を示しておく。上記により、本発明の方式
によれば、簡易な不特定話者音声認識装置を実現
することができる。 「|a|と|i|の分離を最大にすることが、
どうして、不特定話者認識において有効なのか」
について、今少し詳しく説明する。 まず、|a|と|i|が母音の中で最も性質の
違う対であることを、調音などの点から述べる。
母音は、調音の位置(舌による声道の狭めの位
置)と狭めの度合(主として顎の上下による唇の
開く具合によつて決まる)とによつて、より詳し
くは唇の丸めの有無、張りと緩みなどを加えて、
第5図のように分類される。ただし、図中で対に
なつているもの、例えばiとy,eとφなどは唇
による変形であり、右側が円唇の母音である。日
本語の|a|は図の記号ではa,a,a,aに相
当するが、図から|a|と|i|が最も離れた存
在であることがわかる。すなわち、|a|は広い
後舌ないし中舌母音であるのに対し、|i|は狭
い前舌母音である。また|o|は|a|の近い位
置に存在する。 次に周波数領域での差異について述べる。普
通、母音には数個のフオルマントがあつて、周波
数の低い方から第1、第2、…フオルマントと呼
んでいる。フオルマントは、発声者、性別、年齢
などにより、かなり大幅に変動し、また発話時に
前後につなげて発音される音素の影響を受けて変
動する。母音を特徴づけるのは、低次、特に第1
および第2フオルマント(F1,F2)である。第
6図は、日本語母音のフオルマントF1,F2を、
男女別に発話者や環境の差による大略の範囲を点
線で示したものである。この図から、第2図a,
bにそのスペクトル概形を示したように、|a|
と|i|はF1,F2に対応する領域で大きく食い
違つていることがわかる。 以上のことから、不特定話者を対象にして音声
認識を行なう場合、大きな課題の1つである、話
者によらず特徴量が安定している(robust
featuresである)という条件を満たすためには、
母音識別において|a|と|i|に着目するのが
最も妥当である。つまり、|a|と|i|は、そ
の調音様式(第5図参照)の拘束力が強いため、
発話者や環境による変動が少ないと推定される。
事実、|i|に関しては、従来の研究から5母音
中最も安定した音素であると言われており、また
|u|は最も不安定で調音結合の影響を受けやす
く、地域による差も大きいとされている。よつ
て、|a|と|i|のそれぞれの分布が最もよく
分離するように2つのBPF1,BPF2の通過域を設
定すれば、特徴量として最も安定なもの(robust
なもの)が期待できる。 ただし、実際の分析では、5母音中|a|と|
o|の分布が非常に重なつていたため、この音素
を1つにまとめ|i|と|a|の分離に着目し
た。|o|は、第5図、第6図からもわかるよう
に|a|に近く、|i|とはかなり離れており、|
a|と同じ群として扱つても大差がなく、また本
発明による分離では、同じ群として扱う方が、よ
り安定な特徴量(robust features)形成に役立
つ。もちろんこの場合、|a|と|o|は識別で
きないことになるが、2チヤンネルのBPFとい
う簡易な音声認識装置では、このデメリツトは大
きくない。認識対象語いをこのことに注意して選
んでやればよい。 この2チヤンネルBPF設計法で得られたデー
タ例を第7図に示す。 対象とする母音は|a|,|i|,|u|,|e
|の4群、ただし上述のとおり、|a|はaとo
を含んでいる。使用したデータは、男女数十名の
発声したいろいろな単語中の母音定常部である。
評価尺度は先に説明した2つの分布間の
Bhattacharya距離を用いており、第7図中では
各組み合わせの上段に記した。下段は、参考まで
に2群間の重み付きEuclidian距離を示している。
BPF1の高域側遮断周波数F1hとBPF2の低域側
遮断周波数F2lとの組み合わせは、下表のよう
に9種類である。
【表】
表中の(n=1,2,…,9)が第7図に図
示され、の順にデータが載せられている。△印
はBhattacharya距離の最大値を示す。図からわ
かるように、1200≦F1h≦1400,1100≦F2l≦
1300の範囲で、各母音間とも充分な距離を有して
いる。 特にこの中で、|a|と|i|の分離はと
の組み合わせで最大(0.97)になつている。また
最下欄の各群間の距離の平均をみても、これら組
み合わせで最大(0.70)となつた。しかし、は
に比べ、F2lを100Hz低く設定しているため、
|a|の抽出においてより安定していると思われ
る。なぜなら、|a|の第1、第2フオルマント
が1000Hz付近に存在しているため、F2lが低い
ほどそれを抽出しやすくなるからである。従つ
て、各遮断周波数F1h,F2lは上記範囲内であ
つて、かつF2l<F1hとなるように設定するこ
とが望ましい。 なお、上記例において、総合的にはの組み合
わせが最適であつた。このとき、|a|と|i|
の分離が最大であるのみならず、平均値が示して
いるように、他の母音群間の分離も最大になる。 〈発明の効果〉 以上のように本発明によれば、簡単な回路構成
で、誤認識がなく、任意の不特定話者に対しても
有効に働き得る、簡易型音声認識装置の実現に有
用な方式が提供できる。
示され、の順にデータが載せられている。△印
はBhattacharya距離の最大値を示す。図からわ
かるように、1200≦F1h≦1400,1100≦F2l≦
1300の範囲で、各母音間とも充分な距離を有して
いる。 特にこの中で、|a|と|i|の分離はと
の組み合わせで最大(0.97)になつている。また
最下欄の各群間の距離の平均をみても、これら組
み合わせで最大(0.70)となつた。しかし、は
に比べ、F2lを100Hz低く設定しているため、
|a|の抽出においてより安定していると思われ
る。なぜなら、|a|の第1、第2フオルマント
が1000Hz付近に存在しているため、F2lが低い
ほどそれを抽出しやすくなるからである。従つ
て、各遮断周波数F1h,F2lは上記範囲内であ
つて、かつF2l<F1hとなるように設定するこ
とが望ましい。 なお、上記例において、総合的にはの組み合
わせが最適であつた。このとき、|a|と|i|
の分離が最大であるのみならず、平均値が示して
いるように、他の母音群間の分離も最大になる。 〈発明の効果〉 以上のように本発明によれば、簡単な回路構成
で、誤認識がなく、任意の不特定話者に対しても
有効に働き得る、簡易型音声認識装置の実現に有
用な方式が提供できる。
第1図は本発明の実現回路例を示すブロツク
図、第2図a,bはそれぞれ母音|a|および|
i|のスペクトル概形と第1図BPF特性の関係
を示す図、第3図は母音|a|と|i|間の分離
特性を説明する図、第4図は摩擦音および各母音
間の分離特性を説明する図、第5図は調音様式に
よる母音の分類を説明する図、第6図は日本語母
音のフオルマント分布を説明する図、第7図は本
発明方式による距離分析データ例を示す図であ
る。 1……マイク、2……アンプ、3……第1帯域
ろ波器、4……第2帯域ろ波器、5……第1零交
差カウンタ、6……第2零交差カウンタ、7……
認識部。
図、第2図a,bはそれぞれ母音|a|および|
i|のスペクトル概形と第1図BPF特性の関係
を示す図、第3図は母音|a|と|i|間の分離
特性を説明する図、第4図は摩擦音および各母音
間の分離特性を説明する図、第5図は調音様式に
よる母音の分類を説明する図、第6図は日本語母
音のフオルマント分布を説明する図、第7図は本
発明方式による距離分析データ例を示す図であ
る。 1……マイク、2……アンプ、3……第1帯域
ろ波器、4……第2帯域ろ波器、5……第1零交
差カウンタ、6……第2零交差カウンタ、7……
認識部。
Claims (1)
- 【特許請求の範囲】 1 入力音声を2つの帯域ろ波器(BPF)に通
した後、それぞれの出力波形の一定時間(フレー
ム)内の零交差回数を音声認識の特徴量とするも
のにおいて、 前記各BPFの通過域をF1l(Hz)からF1h
(Hz),およびF2l(Hz)からF2h(Hz)とおくと
き、250<F1l<350,1200≦F1h≦1400,1100
≦F2l≦1300,F2l<F1h,5000<F2hを満た
すように設定してなることを特徴とする音声の特
徴抽出方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP13382984A JPS6111799A (ja) | 1984-06-27 | 1984-06-27 | 音声の特徴抽出方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP13382984A JPS6111799A (ja) | 1984-06-27 | 1984-06-27 | 音声の特徴抽出方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6111799A JPS6111799A (ja) | 1986-01-20 |
| JPH0562759B2 true JPH0562759B2 (ja) | 1993-09-09 |
Family
ID=15114013
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP13382984A Granted JPS6111799A (ja) | 1984-06-27 | 1984-06-27 | 音声の特徴抽出方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6111799A (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4784016B2 (ja) * | 2001-08-10 | 2011-09-28 | 大日本印刷株式会社 | 周波数解析方法および音響信号の符号化方法 |
-
1984
- 1984-06-27 JP JP13382984A patent/JPS6111799A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6111799A (ja) | 1986-01-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5884260A (en) | Method and system for detecting and generating transient conditions in auditory signals | |
| WO2011046474A2 (ru) | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания | |
| US20110178799A1 (en) | Methods and systems for identifying speech sounds using multi-dimensional analysis | |
| CN106710604A (zh) | 提高语音可懂度的共振峰增强装置和方法 | |
| Cole et al. | Feature-based speaker-independent recognition of isolated English letters | |
| Leinonen et al. | Self‐organized acoustic feature map in detection of fricative‐vowel coarticulation | |
| Donai et al. | Gender identification using high-frequency speech energy: Effects of increasing the low-frequency limit | |
| Donai et al. | Gender identification from high-pass filtered vowel segments: The use of high-frequency energy | |
| Salim et al. | Combined approach to dysarthric speaker verification using data augmentation and feature fusion | |
| Rao et al. | Speech enhancement for listeners with hearing loss based on a model for vowel coding in the auditory midbrain | |
| Glass et al. | Detection and recognition of nasal consonants in American English | |
| Martens et al. | An auditory model based on the analysis of envelope patterns | |
| JPH0562759B2 (ja) | ||
| Salim et al. | Automatic Speaker Verification System for Dysarthria Patients. | |
| Fatehchand | Machine recognition of spoken words | |
| Mori et al. | Human language identification with reduced spectral information. | |
| Palanichamy et al. | Optimized Voice Activity Detection for Audio Signal Processing | |
| MacKinnon et al. | Realtime recognition of unvoiced fricatives in continuous speech to aid the deaf | |
| CN113611326A (zh) | 一种实时语音情感识别方法及装置 | |
| Scarr | Word-recognition machine | |
| Kiukaanniemi et al. | Long-term speech spectra: A computerized method of measurement and a comparative study of Finnish and English data | |
| Kiriakos et al. | Lexical stress detection in isolated English words | |
| JP2557497B2 (ja) | 男女声の識別方法 | |
| Zhou et al. | A new nonlinear feature for stress classification | |
| Haque et al. | A feature extraction method for automatic speech recognition based on the cochlear nucleus. |