JPH0562759B2

JPH0562759B2 -

Info

Publication number: JPH0562759B2
Application number: JP13382984A
Authority: JP
Inventors: Koichi Yamaguchi
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1984-06-27
Filing date: 1984-06-27
Publication date: 1993-09-09
Also published as: JPS6111799A

Description

【発明の詳細な説明】

〈技術分野〉本発明は、音声認識装置において、その特徴抽
出部が２つの帯域ろ波器（BPF）で構成される
という簡単な場合で、音声認識の特徴量として、
前記２つのBPF出力波形の零交差回数を用いる
音声の特徴抽出方式に関するものである。〈従来技術〉音声認識に使用される特徴量、およびそれを用
いた標準パターンの作成方法については、各種の
ものが提案され、開発されている。ここで、特徴
量としてよく知られている零交差回数（以下単に
ZCCという）を用い、各母音のスペクトル情報、
特に第１フオルマント（F₁）と第２フオルマン
ト（F₂）を重視した構成は、簡易な音声認識装
置が得られるものとして注目されている。さて、ZCCとフオルマント周波数との関連は、
従来からもさまざまな研究がなされてきている。
しかし、BPFによつてフオルマントの存在領域
を限定しても、そのフオルマントのバンド幅や、
他のフオルマントの影響を受けて、厳密には対応
しないことがしばしばある。日本語５母音は、
F₁，F₂が抽出できれば、かなりよい精度で識別
できることは周知である。しかし上記の理由によ
つて、厳密にF₁，F₂に対応せず、誤認識につな
がるおそれがある。また一方、F₁，F₂には次のような変動要素が
ある。例えば、このように２チヤンネルのBPF
を用いて、F₁，F₂を抽出しようとする場合、白
井・藤沢（信学会論文誌1974／３）では、各
BPFの帯域を、250Hz〜1000Hz、700Hz〜2500Hz
に設定することを提案している。ところが、F₁，
F₂の分布は、前後の音韻環境による調音結合や
個人差により大きく変動し、前記の帯域はある特
定の人に対しては有効に働くが、うまく作用しな
い人も存在する。〈発明の目的〉本発明は、上記点に鑑みて、母音のF₁とF₂の
抽出を最優先するのではなく、母音の中で｜ａ｜
と｜ｉ｜が最も性質の違う対であることに注目
し、この距離が最も大きくなるようにBPFの帯
域を設定することにより、従来の欠点を除去する
ものである。〈実施例〉以下図面に従つて、本発明方式の一実施例を詳
細に説明する。第１図は音声認識装置としての回路構成例を示
すブロツク図である。図において、１はマイク、
２はアンプ、３は第１帯域ろ波器（BPF₁）、４は
第２帯域ろ波器（BPF₂）、５は第１零交差カウン
タ、６は第２零交差カウンタ、７は認識部であ
る。ここで、第１帯域ろ波器（BPF₁）３の通過
域はF₁ｌ（Hz）〜F₁ｈ（Hz）（低チヤンネル、第１
フオルマントF₁に対応）、第２帯域ろ波器
（BPF₂）４の通過域はF₂ｌ（Hz）〜F₂ｈ（Hz）（高
チヤンネル、第２フオルマントF₂に対応）であ
るとする。第２図ａ，ｂの実線はそれぞれ標準的な｜ａ｜
と｜ｉ｜のスペクトル概形を示す。この図から、
点線のごとく２つのBPF₁，BPF₂を施せば、この
２母音の分離はほぼ最大となることがわかる。第
３図は、これをわかりやすくするため、ある分析
フレーム窓を設けたとき、各BPFの出力に対す
るZCCの分布を、男女大勢の音声資料から｜ａ｜
と｜ｉ｜の部分のみを切出して表わしたものであ
る。横軸（Zl）はBPF₁出力のZCC、縦軸（Zh）
はBPF₂出力のZCCをそれぞれ周波数に変換した
値である。本発明方式の特徴は、この２群間の距
離が最大となるように、各BPFの遮断周波数を
設定することにある。使用する距離としては、例えば確率分布間の距
離としてよく用いられるBhattacharyaの距離を
採用することができる。すなわち、２つの母音群
Pij｛＝Pr（Zl＝ｉ，Zh＝ｊ）｝およびQij｛＝Pr（Zl
＝ｉ，Zh＝ｊ）｝間の距離ｄ（Ｐ，Ｑ）は次のよ
うに定義される。ｄ（Ｐ，Ｑ）＝１／２_n 〓ⁱ⁼¹ _o 〓ⁱ⁼¹ （√−√）² ここで、ｍ：Zl方向の最大値ｎ：Zh方向の最大値 Pr：確率密度関数よつて、２群が完全に分離していればｄ（Ｐ，
Ｑ）＝１、完全に一致していれば０となる。低チヤンネルBPF₁の低域側の遮断周波数F₁ｌ
は、ピツチの影響を除くためのもので、250＜F₁
ｌ＜350（例えば300Hzぐらい）が望ましい。また
高チヤンネルBPF₂の高域側の遮断周波数F₂ｈ
は、摩擦音検出を兼ねて、5000＜F₂ｈ（例えば
6000Hz〜7000Hz）に設定する。つまり、音声認識
装置として、簡単な回路構成にする目的で、高い
方のチヤンネルBPF₂は摩擦音検出を兼ねさせて
いる。摩擦音は母音と分離していて、一般にF₂
は1000Hz〜3000Hzに分布するのに対し、摩擦音は
3000Hz〜6000Hzにエネルギーが集中し、ZCCもそ
れに対応した値をとる。低チヤンネルBPF₁の高域側遮断周波数F₁ｈ
と、高チヤンネルBPF₂の低域側遮断周波数F₂ｌ
は、大勢の男女話者の発生した多くの単語音声資
料から、｜ａ｜と｜ｉ｜の部分を対象に分析した
結果、1200≦F₁ｈ≦1400，1100≦F₂ｌ≦1300，
ただしF₂ｌ＜F₁ｈ（例えばBPF₁は1300Hz、BPF₂
は1200Hz）が最適であることが判明した。すなわち、前記（）内に記した具体例をとる
と、全体として例えば、低チヤンネルBPF₁の通
過域は300〜1300Hz、高チヤンネルBPF₂の通過域
は1200〜6000Hzに設定すればよい。なお、本例において、フイルタ回路の簡素化も
考慮して、両チヤンネルとも遮断周波数の傾斜特
性は±12dB／octに固定している。上述のごとく、本発明による２つのBPF₁，
BPF₂は、F₁，F₂の抽出を目標に設定されたもの
でなく、多人数の音声資料中で｜ａ｜と｜ｉ｜の
分離が最大となるように定められている。従つ
て、どんな人に対しても、｜ａ｜と｜ｉ｜は、第
３図のZl−Zh平面上でうまく識別できる。しか
も、他の音韻に対しても、かなりの識別能力は認
められる。第４図に、日本語５母音（｜ａ｜，｜
ｉ｜，｜ｕ｜，｜ｅ｜，｜ｏ｜）と摩擦音（ｆ）の
分布図を示しておく。上記により、本発明の方式
によれば、簡易な不特定話者音声認識装置を実現
することができる。「｜ａ｜と｜ｉ｜の分離を最大にすることが、
どうして、不特定話者認識において有効なのか」
について、今少し詳しく説明する。まず、｜ａ｜と｜ｉ｜が母音の中で最も性質の
違う対であることを、調音などの点から述べる。
母音は、調音の位置（舌による声道の狭めの位
置）と狭めの度合（主として顎の上下による唇の
開く具合によつて決まる）とによつて、より詳し
くは唇の丸めの有無、張りと緩みなどを加えて、
第５図のように分類される。ただし、図中で対に
なつているもの、例えばｉとｙ，ｅとφなどは唇
による変形であり、右側が円唇の母音である。日
本語の｜ａ｜は図の記号ではａ，ａ，ａ，ａに相
当するが、図から｜ａ｜と｜ｉ｜が最も離れた存
在であることがわかる。すなわち、｜ａ｜は広い
後舌ないし中舌母音であるのに対し、｜ｉ｜は狭
い前舌母音である。また｜ｏ｜は｜ａ｜の近い位
置に存在する。次に周波数領域での差異について述べる。普
通、母音には数個のフオルマントがあつて、周波
数の低い方から第１、第２、…フオルマントと呼
んでいる。フオルマントは、発声者、性別、年齢
などにより、かなり大幅に変動し、また発話時に
前後につなげて発音される音素の影響を受けて変
動する。母音を特徴づけるのは、低次、特に第１
および第２フオルマント（F₁，F₂）である。第
６図は、日本語母音のフオルマントF₁，F₂を、
男女別に発話者や環境の差による大略の範囲を点
線で示したものである。この図から、第２図ａ，
ｂにそのスペクトル概形を示したように、｜ａ｜
と｜ｉ｜はF₁，F₂に対応する領域で大きく食い
違つていることがわかる。以上のことから、不特定話者を対象にして音声
認識を行なう場合、大きな課題の１つである、話
者によらず特徴量が安定している（robust
featuresである）という条件を満たすためには、
母音識別において｜ａ｜と｜ｉ｜に着目するのが
最も妥当である。つまり、｜ａ｜と｜ｉ｜は、そ
の調音様式（第５図参照）の拘束力が強いため、
発話者や環境による変動が少ないと推定される。
事実、｜ｉ｜に関しては、従来の研究から５母音
中最も安定した音素であると言われており、また
｜ｕ｜は最も不安定で調音結合の影響を受けやす
く、地域による差も大きいとされている。よつ
て、｜ａ｜と｜ｉ｜のそれぞれの分布が最もよく
分離するように２つのBPF₁，BPF₂の通過域を設
定すれば、特徴量として最も安定なもの（robust
なもの）が期待できる。ただし、実際の分析では、５母音中｜ａ｜と｜
ｏ｜の分布が非常に重なつていたため、この音素
を１つにまとめ｜ｉ｜と｜ａ｜の分離に着目し
た。｜ｏ｜は、第５図、第６図からもわかるよう
に｜ａ｜に近く、｜ｉ｜とはかなり離れており、｜
ａ｜と同じ群として扱つても大差がなく、また本
発明による分離では、同じ群として扱う方が、よ
り安定な特徴量（robust features）形成に役立
つ。もちろんこの場合、｜ａ｜と｜ｏ｜は識別で
きないことになるが、２チヤンネルのBPFとい
う簡易な音声認識装置では、このデメリツトは大
きくない。認識対象語いをこのことに注意して選
んでやればよい。この２チヤンネルBPF設計法で得られたデー
タ例を第７図に示す。対象とする母音は｜ａ｜，｜ｉ｜，｜ｕ｜，｜ｅ
｜の４群、ただし上述のとおり、｜ａ｜はａとｏ
を含んでいる。使用したデータは、男女数十名の
発声したいろいろな単語中の母音定常部である。
評価尺度は先に説明した２つの分布間の
Bhattacharya距離を用いており、第７図中では
各組み合わせの上段に記した。下段は、参考まで
に２群間の重み付きEuclidian距離を示している。
BPF₁の高域側遮断周波数F₁ｈとBPF₂の低域側
遮断周波数F₂ｌとの組み合わせは、下表のよう
に９種類である。

【表】表中の（ｎ＝１，２，…，９）が第７図に図
示され、の順にデータが載せられている。△印
はBhattacharya距離の最大値を示す。図からわ
かるように、1200≦F₁ｈ≦1400，1100≦F₂ｌ≦
1300の範囲で、各母音間とも充分な距離を有して
いる。特にこの中で、｜ａ｜と｜ｉ｜の分離はと
の組み合わせで最大（0.97）になつている。また
最下欄の各群間の距離の平均をみても、これら組
み合わせで最大（0.70）となつた。しかし、は
に比べ、F₂ｌを100Hz低く設定しているため、
｜ａ｜の抽出においてより安定していると思われ
る。なぜなら、｜ａ｜の第１、第２フオルマント
が1000Hz付近に存在しているため、F₂ｌが低い
ほどそれを抽出しやすくなるからである。従つ
て、各遮断周波数F₁ｈ，F₂ｌは上記範囲内であ
つて、かつF₂ｌ＜F₁ｈとなるように設定するこ
とが望ましい。なお、上記例において、総合的にはの組み合
わせが最適であつた。このとき、｜ａ｜と｜ｉ｜
の分離が最大であるのみならず、平均値が示して
いるように、他の母音群間の分離も最大になる。〈発明の効果〉以上のように本発明によれば、簡単な回路構成
で、誤認識がなく、任意の不特定話者に対しても
有効に働き得る、簡易型音声認識装置の実現に有
用な方式が提供できる。

【図面の簡単な説明】

第１図は本発明の実現回路例を示すブロツク
図、第２図ａ，ｂはそれぞれ母音｜ａ｜および｜
ｉ｜のスペクトル概形と第１図BPF特性の関係
を示す図、第３図は母音｜ａ｜と｜ｉ｜間の分離
特性を説明する図、第４図は摩擦音および各母音
間の分離特性を説明する図、第５図は調音様式に
よる母音の分類を説明する図、第６図は日本語母
音のフオルマント分布を説明する図、第７図は本
発明方式による距離分析データ例を示す図であ
る。１……マイク、２……アンプ、３……第１帯域
ろ波器、４……第２帯域ろ波器、５……第１零交
差カウンタ、６……第２零交差カウンタ、７……
認識部。

Claims

【特許請求の範囲】１入力音声を２つの帯域ろ波器（BPF）に通
した後、それぞれの出力波形の一定時間（フレー
ム）内の零交差回数を音声認識の特徴量とするも
のにおいて、前記各BPFの通過域をF₁ｌ（Hz）からF₁ｈ
（Hz），およびF₂ｌ（Hz）からF₂ｈ（Hz）とおくと
き、250＜F₁ｌ＜350，1200≦F₁ｈ≦1400，1100
≦F₂ｌ≦1300，F₂ｌ＜F₁ｈ，5000＜F₂ｈを満た
すように設定してなることを特徴とする音声の特
徴抽出方式。