JPH0562759B2 - - Google Patents

Info

Publication number
JPH0562759B2
JPH0562759B2 JP13382984A JP13382984A JPH0562759B2 JP H0562759 B2 JPH0562759 B2 JP H0562759B2 JP 13382984 A JP13382984 A JP 13382984A JP 13382984 A JP13382984 A JP 13382984A JP H0562759 B2 JPH0562759 B2 JP H0562759B2
Authority
JP
Japan
Prior art keywords
bpf
vowels
vowel
speech recognition
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP13382984A
Other languages
English (en)
Other versions
JPS6111799A (ja
Inventor
Koichi Yamaguchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP13382984A priority Critical patent/JPS6111799A/ja
Publication of JPS6111799A publication Critical patent/JPS6111799A/ja
Publication of JPH0562759B2 publication Critical patent/JPH0562759B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
〈技術分野〉 本発明は、音声認識装置において、その特徴抽
出部が2つの帯域ろ波器(BPF)で構成される
という簡単な場合で、音声認識の特徴量として、
前記2つのBPF出力波形の零交差回数を用いる
音声の特徴抽出方式に関するものである。 〈従来技術〉 音声認識に使用される特徴量、およびそれを用
いた標準パターンの作成方法については、各種の
ものが提案され、開発されている。ここで、特徴
量としてよく知られている零交差回数(以下単に
ZCCという)を用い、各母音のスペクトル情報、
特に第1フオルマント(F1)と第2フオルマン
ト(F2)を重視した構成は、簡易な音声認識装
置が得られるものとして注目されている。 さて、ZCCとフオルマント周波数との関連は、
従来からもさまざまな研究がなされてきている。
しかし、BPFによつてフオルマントの存在領域
を限定しても、そのフオルマントのバンド幅や、
他のフオルマントの影響を受けて、厳密には対応
しないことがしばしばある。日本語5母音は、
F1,F2が抽出できれば、かなりよい精度で識別
できることは周知である。しかし上記の理由によ
つて、厳密にF1,F2に対応せず、誤認識につな
がるおそれがある。 また一方、F1,F2には次のような変動要素が
ある。例えば、このように2チヤンネルのBPF
を用いて、F1,F2を抽出しようとする場合、白
井・藤沢(信学会論文誌1974/3)では、各
BPFの帯域を、250Hz〜1000Hz、700Hz〜2500Hz
に設定することを提案している。ところが、F1
F2の分布は、前後の音韻環境による調音結合や
個人差により大きく変動し、前記の帯域はある特
定の人に対しては有効に働くが、うまく作用しな
い人も存在する。 〈発明の目的〉 本発明は、上記点に鑑みて、母音のF1とF2
抽出を最優先するのではなく、母音の中で|a|
と|i|が最も性質の違う対であることに注目
し、この距離が最も大きくなるようにBPFの帯
域を設定することにより、従来の欠点を除去する
ものである。 〈実施例〉 以下図面に従つて、本発明方式の一実施例を詳
細に説明する。 第1図は音声認識装置としての回路構成例を示
すブロツク図である。図において、1はマイク、
2はアンプ、3は第1帯域ろ波器(BPF1)、4は
第2帯域ろ波器(BPF2)、5は第1零交差カウン
タ、6は第2零交差カウンタ、7は認識部であ
る。ここで、第1帯域ろ波器(BPF1)3の通過
域はF1l(Hz)〜F1h(Hz)(低チヤンネル、第1
フオルマントF1に対応)、第2帯域ろ波器
(BPF2)4の通過域はF2l(Hz)〜F2h(Hz)(高
チヤンネル、第2フオルマントF2に対応)であ
るとする。 第2図a,bの実線はそれぞれ標準的な|a|
と|i|のスペクトル概形を示す。この図から、
点線のごとく2つのBPF1,BPF2を施せば、この
2母音の分離はほぼ最大となることがわかる。第
3図は、これをわかりやすくするため、ある分析
フレーム窓を設けたとき、各BPFの出力に対す
るZCCの分布を、男女大勢の音声資料から|a|
と|i|の部分のみを切出して表わしたものであ
る。横軸(Zl)はBPF1出力のZCC、縦軸(Zh)
はBPF2出力のZCCをそれぞれ周波数に変換した
値である。本発明方式の特徴は、この2群間の距
離が最大となるように、各BPFの遮断周波数を
設定することにある。 使用する距離としては、例えば確率分布間の距
離としてよく用いられるBhattacharyaの距離を
採用することができる。すなわち、2つの母音群
Pij{=Pr(Zl=i,Zh=j)}およびQij{=Pr(Zl
=i,Zh=j)}間の距離d(P,Q)は次のよ
うに定義される。 d(P,Q)=1/2ni=1 oi=1 (√−√)2 ここで、m:Zl方向の最大値 n:Zh方向の最大値 Pr:確率密度関数 よつて、2群が完全に分離していればd(P,
Q)=1、完全に一致していれば0となる。 低チヤンネルBPF1の低域側の遮断周波数F1
は、ピツチの影響を除くためのもので、250<F1
l<350(例えば300Hzぐらい)が望ましい。また
高チヤンネルBPF2の高域側の遮断周波数F2
は、摩擦音検出を兼ねて、5000<F2h(例えば
6000Hz〜7000Hz)に設定する。つまり、音声認識
装置として、簡単な回路構成にする目的で、高い
方のチヤンネルBPF2は摩擦音検出を兼ねさせて
いる。摩擦音は母音と分離していて、一般にF2
は1000Hz〜3000Hzに分布するのに対し、摩擦音は
3000Hz〜6000Hzにエネルギーが集中し、ZCCもそ
れに対応した値をとる。 低チヤンネルBPF1の高域側遮断周波数F1
と、高チヤンネルBPF2の低域側遮断周波数F2
は、大勢の男女話者の発生した多くの単語音声資
料から、|a|と|i|の部分を対象に分析した
結果、1200≦F1h≦1400,1100≦F2l≦1300,
ただしF2l<F1h(例えばBPF1は1300Hz、BPF2
は1200Hz)が最適であることが判明した。 すなわち、前記( )内に記した具体例をとる
と、全体として例えば、低チヤンネルBPF1の通
過域は300〜1300Hz、高チヤンネルBPF2の通過域
は1200〜6000Hzに設定すればよい。 なお、本例において、フイルタ回路の簡素化も
考慮して、両チヤンネルとも遮断周波数の傾斜特
性は±12dB/octに固定している。 上述のごとく、本発明による2つのBPF1
BPF2は、F1,F2の抽出を目標に設定されたもの
でなく、多人数の音声資料中で|a|と|i|の
分離が最大となるように定められている。従つ
て、どんな人に対しても、|a|と|i|は、第
3図のZl−Zh平面上でうまく識別できる。しか
も、他の音韻に対しても、かなりの識別能力は認
められる。第4図に、日本語5母音(|a|,|
i|,|u|,|e|,|o|)と摩擦音(f)の
分布図を示しておく。上記により、本発明の方式
によれば、簡易な不特定話者音声認識装置を実現
することができる。 「|a|と|i|の分離を最大にすることが、
どうして、不特定話者認識において有効なのか」
について、今少し詳しく説明する。 まず、|a|と|i|が母音の中で最も性質の
違う対であることを、調音などの点から述べる。
母音は、調音の位置(舌による声道の狭めの位
置)と狭めの度合(主として顎の上下による唇の
開く具合によつて決まる)とによつて、より詳し
くは唇の丸めの有無、張りと緩みなどを加えて、
第5図のように分類される。ただし、図中で対に
なつているもの、例えばiとy,eとφなどは唇
による変形であり、右側が円唇の母音である。日
本語の|a|は図の記号ではa,a,a,aに相
当するが、図から|a|と|i|が最も離れた存
在であることがわかる。すなわち、|a|は広い
後舌ないし中舌母音であるのに対し、|i|は狭
い前舌母音である。また|o|は|a|の近い位
置に存在する。 次に周波数領域での差異について述べる。普
通、母音には数個のフオルマントがあつて、周波
数の低い方から第1、第2、…フオルマントと呼
んでいる。フオルマントは、発声者、性別、年齢
などにより、かなり大幅に変動し、また発話時に
前後につなげて発音される音素の影響を受けて変
動する。母音を特徴づけるのは、低次、特に第1
および第2フオルマント(F1,F2)である。第
6図は、日本語母音のフオルマントF1,F2を、
男女別に発話者や環境の差による大略の範囲を点
線で示したものである。この図から、第2図a,
bにそのスペクトル概形を示したように、|a|
と|i|はF1,F2に対応する領域で大きく食い
違つていることがわかる。 以上のことから、不特定話者を対象にして音声
認識を行なう場合、大きな課題の1つである、話
者によらず特徴量が安定している(robust
featuresである)という条件を満たすためには、
母音識別において|a|と|i|に着目するのが
最も妥当である。つまり、|a|と|i|は、そ
の調音様式(第5図参照)の拘束力が強いため、
発話者や環境による変動が少ないと推定される。
事実、|i|に関しては、従来の研究から5母音
中最も安定した音素であると言われており、また
|u|は最も不安定で調音結合の影響を受けやす
く、地域による差も大きいとされている。よつ
て、|a|と|i|のそれぞれの分布が最もよく
分離するように2つのBPF1,BPF2の通過域を設
定すれば、特徴量として最も安定なもの(robust
なもの)が期待できる。 ただし、実際の分析では、5母音中|a|と|
o|の分布が非常に重なつていたため、この音素
を1つにまとめ|i|と|a|の分離に着目し
た。|o|は、第5図、第6図からもわかるよう
に|a|に近く、|i|とはかなり離れており、|
a|と同じ群として扱つても大差がなく、また本
発明による分離では、同じ群として扱う方が、よ
り安定な特徴量(robust features)形成に役立
つ。もちろんこの場合、|a|と|o|は識別で
きないことになるが、2チヤンネルのBPFとい
う簡易な音声認識装置では、このデメリツトは大
きくない。認識対象語いをこのことに注意して選
んでやればよい。 この2チヤンネルBPF設計法で得られたデー
タ例を第7図に示す。 対象とする母音は|a|,|i|,|u|,|e
|の4群、ただし上述のとおり、|a|はaとo
を含んでいる。使用したデータは、男女数十名の
発声したいろいろな単語中の母音定常部である。
評価尺度は先に説明した2つの分布間の
Bhattacharya距離を用いており、第7図中では
各組み合わせの上段に記した。下段は、参考まで
に2群間の重み付きEuclidian距離を示している。
BPF1の高域側遮断周波数F1hとBPF2の低域側
遮断周波数F2lとの組み合わせは、下表のよう
に9種類である。
【表】 表中の(n=1,2,…,9)が第7図に図
示され、の順にデータが載せられている。△印
はBhattacharya距離の最大値を示す。図からわ
かるように、1200≦F1h≦1400,1100≦F2l≦
1300の範囲で、各母音間とも充分な距離を有して
いる。 特にこの中で、|a|と|i|の分離はと
の組み合わせで最大(0.97)になつている。また
最下欄の各群間の距離の平均をみても、これら組
み合わせで最大(0.70)となつた。しかし、は
に比べ、F2lを100Hz低く設定しているため、
|a|の抽出においてより安定していると思われ
る。なぜなら、|a|の第1、第2フオルマント
が1000Hz付近に存在しているため、F2lが低い
ほどそれを抽出しやすくなるからである。従つ
て、各遮断周波数F1h,F2lは上記範囲内であ
つて、かつF2l<F1hとなるように設定するこ
とが望ましい。 なお、上記例において、総合的にはの組み合
わせが最適であつた。このとき、|a|と|i|
の分離が最大であるのみならず、平均値が示して
いるように、他の母音群間の分離も最大になる。 〈発明の効果〉 以上のように本発明によれば、簡単な回路構成
で、誤認識がなく、任意の不特定話者に対しても
有効に働き得る、簡易型音声認識装置の実現に有
用な方式が提供できる。
【図面の簡単な説明】
第1図は本発明の実現回路例を示すブロツク
図、第2図a,bはそれぞれ母音|a|および|
i|のスペクトル概形と第1図BPF特性の関係
を示す図、第3図は母音|a|と|i|間の分離
特性を説明する図、第4図は摩擦音および各母音
間の分離特性を説明する図、第5図は調音様式に
よる母音の分類を説明する図、第6図は日本語母
音のフオルマント分布を説明する図、第7図は本
発明方式による距離分析データ例を示す図であ
る。 1……マイク、2……アンプ、3……第1帯域
ろ波器、4……第2帯域ろ波器、5……第1零交
差カウンタ、6……第2零交差カウンタ、7……
認識部。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声を2つの帯域ろ波器(BPF)に通
    した後、それぞれの出力波形の一定時間(フレー
    ム)内の零交差回数を音声認識の特徴量とするも
    のにおいて、 前記各BPFの通過域をF1l(Hz)からF1
    (Hz),およびF2l(Hz)からF2h(Hz)とおくと
    き、250<F1l<350,1200≦F1h≦1400,1100
    ≦F2l≦1300,F2l<F1h,5000<F2hを満た
    すように設定してなることを特徴とする音声の特
    徴抽出方式。
JP13382984A 1984-06-27 1984-06-27 音声の特徴抽出方式 Granted JPS6111799A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13382984A JPS6111799A (ja) 1984-06-27 1984-06-27 音声の特徴抽出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13382984A JPS6111799A (ja) 1984-06-27 1984-06-27 音声の特徴抽出方式

Publications (2)

Publication Number Publication Date
JPS6111799A JPS6111799A (ja) 1986-01-20
JPH0562759B2 true JPH0562759B2 (ja) 1993-09-09

Family

ID=15114013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13382984A Granted JPS6111799A (ja) 1984-06-27 1984-06-27 音声の特徴抽出方式

Country Status (1)

Country Link
JP (1) JPS6111799A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4784016B2 (ja) * 2001-08-10 2011-09-28 大日本印刷株式会社 周波数解析方法および音響信号の符号化方法

Also Published As

Publication number Publication date
JPS6111799A (ja) 1986-01-20

Similar Documents

Publication Publication Date Title
US5884260A (en) Method and system for detecting and generating transient conditions in auditory signals
WO2011046474A2 (ru) Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
US20110178799A1 (en) Methods and systems for identifying speech sounds using multi-dimensional analysis
CN106710604A (zh) 提高语音可懂度的共振峰增强装置和方法
Cole et al. Feature-based speaker-independent recognition of isolated English letters
Leinonen et al. Self‐organized acoustic feature map in detection of fricative‐vowel coarticulation
Donai et al. Gender identification using high-frequency speech energy: Effects of increasing the low-frequency limit
Donai et al. Gender identification from high-pass filtered vowel segments: The use of high-frequency energy
Salim et al. Combined approach to dysarthric speaker verification using data augmentation and feature fusion
Rao et al. Speech enhancement for listeners with hearing loss based on a model for vowel coding in the auditory midbrain
Glass et al. Detection and recognition of nasal consonants in American English
Martens et al. An auditory model based on the analysis of envelope patterns
JPH0562759B2 (ja)
Salim et al. Automatic Speaker Verification System for Dysarthria Patients.
Fatehchand Machine recognition of spoken words
Mori et al. Human language identification with reduced spectral information.
Palanichamy et al. Optimized Voice Activity Detection for Audio Signal Processing
MacKinnon et al. Realtime recognition of unvoiced fricatives in continuous speech to aid the deaf
CN113611326A (zh) 一种实时语音情感识别方法及装置
Scarr Word-recognition machine
Kiukaanniemi et al. Long-term speech spectra: A computerized method of measurement and a comparative study of Finnish and English data
Kiriakos et al. Lexical stress detection in isolated English words
JP2557497B2 (ja) 男女声の識別方法
Zhou et al. A new nonlinear feature for stress classification
Haque et al. A feature extraction method for automatic speech recognition based on the cochlear nucleus.