JPH0223878B2

JPH0223878B2 -

Info

Publication number: JPH0223878B2
Application number: JP58072420A
Authority: JP
Inventors: Norihiro Jinnai
Original assignee: Individual
Current assignee: Individual
Priority date: 1983-04-23
Filing date: 1983-04-23
Publication date: 1990-05-25
Also published as: JPS59197100A

Description

【発明の詳細な説明】この発明は、人間の音声を検出するための音声
検出方法に関する。

コンピユータの発展に伴い、音声入力装置が提
案されている。この音声入力装置は予め音声波の
特徴を音声記憶部に記憶させ、新らたに入力され
た音声波の特徴を音声記憶部の記憶値と比較して
入力した音声を認識するものである。

しかしながら、従来の音声認識は鼻腔・口腔出
力が重ね合わされた音声波でもつて音素を識別認
識するものであるため、認識率・認識時間の点で
十分に満足のいけるものではない。

ところで、有声音発声時、声帯振動波は口蓋帆
によつて鼻腔に向うものと口腔に向うものに分割
され、鼻腔、口腔の形状相違などに基づく伝達特
性により修飾を受けて鼻孔と唇から出力される。
この時、鼻腔形状は変化しないが、口蓋帆は動
き、口腔形状は歯、舌などの動きにより変化し、
唇は開閉する。したがつて、声帯から発生し口腔
と鼻腔に分割された声帯振動波は、鼻孔と唇まで
の通路形状の違いによつて種々の修飾を受けるた
め、両者の鼻孔、唇からの出力波形は明瞭に異な
るものとなる。

また、無声音発声時においても、鼻腔出力が極
めて小さく、口腔出力のみが存在し、両者の出力
波形は明瞭に異なる。

この発明は、口腔と鼻腔から出る音声波が明瞭
に異なる波形を示すことに着目して成したもので
あり、音素の認識を極めて容易にすることを目的
とする。

この目的達成のため、この発明の音声波検出方
法にあつては、鼻腔からの音声出力を検出すると
同時に口腔からの音声出力を検出し、鼻腔出力エネルギー曲線と口腔出力エネルギー
曲線の立上り時間差を第１の特徴量とし、口腔出
力エネルギー曲線の立上り時における正規化鼻腔
出力エネルギー曲線と正規化口腔出力エネルギー
曲線の傾斜の比を第２の特徴量とする判別用Ｄ−
Ｓ平面と、咽頭腔通過エネルギー曲線の立上り時における
咽頭腔通過エネルギーに対する鼻腔出力エネルギ
ーの比を第１の特徴量とし、発声中における前記
比の時間変化曲線の最大傾斜の値を第２の特徴量
とする判別用Ｏ−Δ平面と、口腔出力音声信号における無音区間の差分零交
叉数を除去した雑音除去差分零交叉数を第１の特
徴量とし、この雑音除去差分零交叉数と鼻腔出力
エネルギー曲線の立上り時間差を第２の特徴量と
する判別用Ｎ−Ｄ平面と、を作成し、発せられた音声波のこれらの判別用各
平面上における分布に基づき、（step1）Ｏ−Δ平面上で（／Ｎ／）を分離し、（step2）Ｎ−Ｄ平面上で（／サ行の音韻／）、
（／破擦音／）、（／摩擦音／）、（／ザ行の音
韻／）、（／マ行の音韻／、／ナ行の音韻／、／
ガ行の音韻／、／ダ行の音韻／、／バ行の音
韻／）の各音韻及び音韻群を分離し、（step3）Ｏ−Δ平面上で（／ヤ行の音
韻／、／ラ行の音韻／、／ワ行の音韻／）の音
韻群を分離し、（step4）Ｄ−Ｓ平面上で（／カ行の音
韻／、／タ行の破裂音韻／、／パ行の音韻／）
の音韻群を分離し、（step5）Ｎ−Ｄ平面上で（／ア行の音韻／）
と（／ハ行の音韻／）の音韻の識別を行なう、上記各stepからなる一連の手順により上記各音
韻群又は音韻を分類するようにしたのである。

このように構成されるこの発明に係る音声波検
出方法にあつては、まず、不特定多数人の発声音
に基づく予備実験によつて、前記Ｄ−Ｓ平面、Ｏ
−Δ平面、Ｎ−Ｄ平面を決定し、ある不特定人の
発声音を前記各平面に基づいて各音韻群又は音韻
に分類して、その音声を認識する。

したがつて、この発明によると、以上のように
構成し、鼻腔・口腔両出力の明瞭に異なる２つの
波形に基づいてその音声を認識するようにしたの
で、音声の認識が極めて正確かつ容易となり、コ
ンピユータ処理する際には、認識率・認識時間及
び記憶容量が著しく向上する。

以下、この発明の実施例を添付図面に基づいて
説明する。

第１図に示すように、人の頭部１に固定される
ヘツドアーム２からは先端にマイク３ｍ，３ｎを
支持するアーム４が位置調整可能の顔の前面に延
びている。マイク３ｎは音声の鼻腔出力を検出す
るために鼻孔に向かい、マイク３ｍは音声の口腔
出力を検出するために口に向つている。なお、上
記マイク３ｎ，３ｍのいずれか一方は位置調整可
能に設けることが望ましい。また、マイク３ｍと
３ｎ間には鼻腔出力と口腔出力とを分離する遮断
板５を設けて、両出力が混合することなく各マイ
ク３ｎ，３ｍに入力することが望ましい。

上記各マイク３ｍ，３ｎからの信号は、第２図
に示すようにマルチプレクサ等の切換器６を介し
てAD変換器７に入力され、デイジタル信号に変
換されてコンピユータ８に入力される。コンピユ
ータ８において両マイク３ｍ，３ｎの出力に基づ
き、発せられた音声の認識処理を行なう。

この認識処理は種々の手段を取り得るが例えば
以下のようにして行なう。

この手段は、マイク３ｍ，３ｎによつて検出し
て得られた音声出力のエネルギー曲線N^Eｍ，N^E
ｎに基づき、下記のＤ、Ｓ、（En／Eo）_p′、Δ
（En／Eo）、CR、DTなるパラメータを算出し、
各パラメータにより、Ｄ−Ｓ平面、（En／Eo）_p−
Δ（En／Eo）平面（０−Δ平面）、CR−DT平面
（Ｎ−Ｄ平面）を得て、この各平面に基づき発声
音を識別するものである。

Ｄ：N^EｎとN^Eｍの立上り時間差Ｓ：N^EｎとN^Eｍの立上り時の傾斜比 En：鼻腔の通過エネルギー Eo：咽頭腔の通過エネルギー（En／Eo）_p：En／Eo曲線の開始点の値 Δ（En／Eo）：En／Eo曲線の最大傾斜値 CR：雑音除去差分零交叉数 DT：雑音除去差分零交叉数とN^Eｎの立上り時間
差つぎに、上記各平面の作成及びそれに基づく音
韻識別を述べる。

(i) Ｄ−Ｓ平面第３図ａ〜ｌは、音声(ア)／ａ／、(カ)／ka／、
（サ）／sa／、（タ）／ta／、（ナ）／na／、
(ハ)／ha／、（マ）／ma／、（ヤ）／ya／、
（ラ）／ta／、（ワ）／wa／、（パ）／pa／、
（ン）／Ｎ／をマイク３ｍ，３ｎで検出して得
られたエネルギー曲線N^Eｍ、N^Eｎであり、観
規した音声波エネルギーを各々最大値で正規化
したエネルギーの時間変化曲線である。

このエネルギー曲線において、／ａ／、／
ha／ではN^EｎとN^Eｍが同時に立上り、発声中
のN^EｎとN^Eｍは同じ変化をしている。／
ka／、／ta／、／pa／ではN^Eｍの立上り時に
破裂気流によるピークが現われ、N^EｍはN^Eｎ
より早く立上つている。／sa／では／ｓ／の区
間でN^Eｍに小さな値（矢印）が現われてい
る。／na／、／ma／ではN^EｎがN^Eｍより早
く立上り、N^Eｍが増加を始めると同時にN^Eｎ
が減少を始める。／ya／、／ra／、／wa／で
はN^EｎとN^Eｍがほぼ同時に立上るが立上り時
の傾斜はN^EｎがN^Eｍより大きい。／Ｎ／では
口腔出力が極めて小さく、N^Eｍには室内騒音
のエネルギー曲線が現われている。

以上の各音韻のエネルギー曲線の特徴を表わ
すパラメータとして次式(1)、(2)で定義する遅延
時間Ｄと傾斜比Ｓを算出する。

Ｄ＝t_op−t_np ………(1) Ｓ＝N^Eｎ（t_n3）−N^Eｎ（t_np）／N^Eｍ（t_n3）−N^E
ｍ（t_np）………(2) 但し、t_op、t_npはN^Eｎ、N^Eｍが各々最大値の
５％点を初めて越えた時刻、t_n3はt_npから任意
の時間例えば、19.2ｍsec後の時刻である。式
(1)はN^EｎとN^Eｍの立上り時間差を、式(2)はN^E
ｍの立上り時におけるN^EｎとN^Eｍの傾斜の比
を表わす。

第４図は第３図における／sa／と／Ｎ／を除
く10種の単音節の２つのパラメータを算出して
Ｄ−Ｓ平面上に発声音の頭文字で例えば／ta／
はＴでプロツトしたもので、音声試料は10名の
男性が孤立発声したものである。なお、／sa／
では／ｓ／の区間でN^Eｍ値のばらつきが大き
くt_npの検出が不安定となり、また、／Ｎ／で
は口腔出力が極めて小さいためt_npが決定でき
ないという理由で除外した。図面においては、
Ｓ＞3.0の場合、Ｓ＝3.0の位置にプロツトして
いる。

この図によれば／ａ／、／ha／の遅延時間
Ｄは小さく、傾斜比Ｓは1.0を中心に分布す
る。／ka／、／tm／、／pa／ではＤ＞０でＳ
は小さい。。又、／na／、／ma／ではＤ＜０、
Ｓ＜０である。／ya／、／ra／、／wa／では
Ｄが小さく、Ｓが他の音韻群より大きい。この
音韻ではN^EｍがN^Eｎの立上りよりややおくれ
る（Ｄ＜０）音声試料があるが、それらは、
N^EｎとN^Eｍの概形は第３図とほぼ同じ形状で
あつたが、N^Eｎ曲線の最初のピークが早く、
そのピークの頂上付近でN^Eｎの傾きを計算す
ることとなるため、傾斜比Ｓがやや小さくなつ
たと考える（第４図矢印）。

以上により、Ｄ、Ｓを求めることにより各音
韻を数種のグループに分類し得ることが理解で
きる。

(ii) Ｏ−Δ平面第１図に示すように、咽頭腔９の通過エネル
ギーをE_p（ｔ）、鼻腔１０と口腔１１の出力エネ
ルギーを各々E_o（ｔ）、E_n（ｔ）又、マイク３
ｎ，３ｍが観測するエネルギーをE_o（in）（ｔ）、
E_n（in）（ｔ）とした時、まず、観測値E_o（in）
（ｔ）、E_n（in）（ｔ）からE_o（ｔ）／E_p（ｔ）の
時間変化曲線を推定する。

エネルギーは声道内で無損失であると仮定す
ると式(3)が成り立つ。

E_p（ｔ）＝E_o（ｔ）＋E_n（ｔ） ………(3) 又、C_o、C_nを放射エネルギーのうち各マイ
クに入る比率とすれば、 E_o（in）（ｔ）＝C_oE_o（ｔ） E_n（in）（ｔ）＝C_nE_n（ｔ） ………(4) となり、式(3)と式(4)より C_oE_p（ｔ）＝E_o（in）（ｔ）＋（C_o／C_n）E_n（in）（ｔ） ………(5) が得られる。

ここで、C_o／C_nの算出が問題になるが、例え
ば円筒の一端開口部に１個のマイクを配置し、他
端開口部で口及び鼻を覆つてE_pを検出するととも
に第１図に示す手段によりE_n、E_oを検出し、E_p
＝E_n＋E_oとなるC_o、C_nを算出すればよい。C_n、
C_oはマイク３ｍ，３ｎの位置で変化するため、
固定して行ないE_p、E_n、E_oは複数回の平均値で
比較するとよい。

このようにして得たC_o／C_nに基づき次式(6)を
得る。

E_o／E_p＝E_o（ｔ）／E_p（ｔ）＝E_o（in）（ｔ）／E_o（in）（ｔ）＋（C_o／C_n）E_n（in
）（ｔ） ………(6) 第５図に上述の発声音／ａ／…における上式
(6)のE_o／E_pの時間変化曲線を示す。

このE_o／E_pの曲線の特徴を表わすパラメー
タとして次式を定義する。

（E_o／E_p）_p＝E_o（to）／E_p（to） ………(7) Δ（E_o／E_p）＝Max〔E_o（ｔ）／E_p（ｔ） −E_o（ｔ）′／E_p（ｔ）′〕 ………(8) ただし、Maxはかぎかつこ内の最大値を意
味する。また、t_pはE_pが最大値の15％点を初め
て越えた時時刻、t′はt_pから任意の時刻ｔから
ある時間例えば、19.2ｍsec後の時刻である。
式(7)はE_o／E_p曲線の左端の値を、また、式(8)
は曲線の最大傾斜を表わしている。第６図は第
５図に示した10名の男性が孤立発声した12種の
単音節の上記２つのパラメータをＯ−Δ平面に
発声音の頭文字でプロツトしたものである。
（第６図では図を見やすくするため５個の音声
試料のみプロツトした音韻があるが、他の５個
も同様の分布をしている。）この図によれば12種の単音節が（／ａ／、／
ka／、／sa／、／ta／、／ha／、／pa／）、
（／na／、／ma／）、（／ya／、／ra／、／
wa／）、（／Ｎ／）の４群に分類できる。

なお、この平面図上では／∫a／、／
za／、／ga／、／da／、／ba／を扱わない
が、／∫a／の分布は／sa／と同じであり、／
za／、／ga／、／da／、／ba／の分布は／
na／に類似しているが分布は広く分類しにく
いからである。

(iii) Ｎ−Ｄ平面この平面は／ｓ／、／ｚ／などの摩擦音、／
t∫i／、／tsu／などの破擦音を識別するもので
あり、まず、その１つのパラメータである雑音
除去差分零交叉数（Noise rejected
differential zero crossing rate）について述
べる。

第７図に示す例えば／su／の口腔出力音声波
形において、ある点における口腔出力音声信号
を｛xi｝とするとき、雑音除去差分零交叉数を
CRを次式(9)で定義する。

｛（xi＋１−xi）（xi−xi−１）｝＜０、かつ｛｜
xi＋１｜しきい値または｜xi｜＞しきい値また
は｜xi−１｜＞しきい値｝ならばサンプル点ｉ
において雑音除去差分零交叉が１回あつたと
し、この零交叉をある区間内で合計したもの。

(9) 第８図ａ乃至ｆに／ｕ／、／su／、／
zu／、／tsu／、／hu／、／nu／の発声音のCR
と時間の関係を示す。

つぎに、もう１つのパラメータとして、次式(10)
で示すCRとN^Eｎの立上り時間差DT（Delay
time）を定義する。

Delay time＝t_op−z_p 但し、Dalay time＜０のとき Deley time＝t_op−t_np (10) ここで、NEn、NEmの立上り時刻を各々t_op、
t_np、雑音除去差分零交叉数の立上りを、その交
叉数が９回を初めて越えた時刻z_pとする。第８図
ａ乃至ｆに鼻腔、口腔出力エネルギーの正規化時
間変化曲線N^Eｎ、N^Eｍを示す。

第９図は、雑音除去差分零交叉数〔N.R.−D.
Z.C.R.〕（CR）を縦軸に雑音除去差分零交叉数
CRとN^Eｎの立上り時間差（Delay time）を横軸
にとつた平面（Ｎ−Ｄ平面）に後続母音別に各単
音節を発声音の頭文字でプロツトしたものであ
る。

この図によると、単音節／ｓ／、／∫／、／
ｚ／、／ｈ／、（／ｎ／、／ｍ／、／ｇ／、／
ｄ／、／ｂ／）及び母音に分類できることが確認
できる。

なお、この図において、／ka／、／ta／、／
pa／、／ya／、／ra／、／wa／、／Ｎ／を扱つ
ていないが、／ka／、／ta／、／pa／の分布
は／ａ／、／ha／の間にあり、／ya／、／
ra／、／wa／の分布は／ａ／と同じで、分類上
不都合であり、また、／Ｎ／は口腔出力が存在し
ないためＮ−Ｄ平面上にプロツトすることができ
ないからである。

以上で各平面図の作成方法を述べたが、つぎに
これらの平面を使用して音韻認識したアルゴリズ
ムの一例を示す。

このアルゴリズムの一例は、音韻／ａ／、／
ka／、／sa／、／ta／、／na／、／ha／、／
ma／、／ya／、／ra／、wa／、／pa／、／
∫a／、／za／、／ga／、／da／、／ba／、／
Ｎ／を識別するものであり、第１０図に示す識別
フローチヤートによつて行なう。

step1ではＯ−Δ平面上で／Ｎ／を分離識別す
る。これはＯ−Δ平面上での／Ｎ／の分布が非常
に顕著であり、最初に他の音韻から分離しておく
ことが適切であることによる。

step2ではＮ−Ｄ平面上で／sa／、／∫a／、／
za／、（／ma／、／na／、／ga／、／da／、／
ba／）の４群を分離識別する。

step3では再びＯ−Δ平面上で（／ya／、／
ra／、／wa／）の１群を分離識別する。

step4ではＤ−Ｓ平面上で（／ａ／、／ha／）
と（／ka／、／ta／、／pa／）の分離を行なう。

step5では再びＮ−Ｄ平面上で／ａ／と／ha／
の識別を行なう。

以上の５段階の処理によつて17種の音韻を９群
に分類する。このように５段階の構成をとる理由
は各平面上で他の音韻群から顕著に分離している
音韻を先に分離識別する方法を採用していること
による。

以上は、母音及び後続母音が／ａ／のもの、す
なわちア母音列（ア、カ、サ、タ…）の音韻識別
であつたが、母音／ａ／を母音／ｅ／又は／ｏ／
に置き換え、後続母音／ａ／を後続母音／ｅ／又
は／ｏ／に置き換えれば、同様にして、エ母音
列、オ母音列の音韻群又は音韻を分類することが
できる。また、母音／ａ／を母音／ｉ／又は／
ｕ／に置き換え、後続母音／ａ／を後続母音／
ｉ／又は／ｕ／に置き換え、破擦音／t∫i／及
び／tsu／の音韻をstep2で分離すれば、同様にし
て、イ母音列、ウ母音列の各音韻群又は音韻を分
類することができる。この破擦音が分類できるこ
とは第９図から確認できる（図中、Ｔが破擦音で
あり、同図ｂ／t∫i／、同図ｃが／tsu／）。

この様にして多群に分類された各音韻群の中に
おいて、従来から行なわれている周知な認識手
法、例えばスペクトルの重心周波数・ピーク周波
数・谷周波数およびそれらの時間変化に基づく認
識手法により各音韻を識別し、最終的な判定を下
す。

前記実施例は、鼻腔出力と口腔出力を分離する
遮蔽板を設けたものであつたが、遮蔽板を設けな
い場合には例えば第１１図に示すように、エネル
ギー曲線N^Eｍ、N^Eｎにおいて、最大値の35％点
と15％点とを直線で結び、この直線と時間軸との
交点をt_op、（t_np）とするなどの補正をしてＤ−Ｓ
平面、Ｏ−Δ平面、Ｎ−Ｄ平面を作成すればよ
い。

なお、上記音声の認識において、口の動きを検
出するカメラ等を用いた検出器を設け、この検出
器とこの発明の検出方法との組合わせで検出すれ
ば、より正確に識別できる。

【図面の簡単な説明】

第１図はこの発明の一例を示す説明図、第２図
はこの発明を利用する制御ブロツク図、第３図ａ
〜ｌは時間とエネルギー分布を示すグラフ、第４
図はＤ−Ｓ平面を示すグラフ、第５図ａ〜ｌは
E_o／E_pの時間変化曲線を示すグラフ、第６図は
Ｏ−Δ平面を示すグラフ、第７図は／su／の口腔
出力音声波形図、第８図ａ乃至ｆは鼻腔、口腔出
力エネルギーの正規化時間変化曲線及び口腔出力
の雑音除去差分零交叉数の時間変化曲線のグラ
フ、第９図ａ〜ｅはＮ−Ｄ平面を示すグラフ、第
１０図は音声認識の一例を示すフローチヤート、
第１１図は補正例を示すグラフである。３ｍ，３ｎ……マイク、４……支持アーム。

Claims

【特許請求の範囲】１鼻腔からの音声出力を検出すると同時に口腔
からの音声出力を検出し、鼻腔出力エネルギー曲線と口腔出力エネルギー
曲線の立上り時間差を第１の特徴量とし、口腔出
力エネルギー曲線の立上り時における正規化鼻腔
出力エネルギー曲線と正規化口腔出力エネルギー
曲線の傾斜の比を第２の特徴量とする判別用Ｄ−
Ｓ平面と、咽頭腔通過エネルギー曲線の立上り時における
咽頭腔通過エネルギーに対する鼻腔出力エネルギ
ーの比を第１の特徴量とし、発声中における前記
比の時間変化曲線の最大傾斜の値を第２の特徴量
とする判別用Ｏ−Δ平面と、口腔出力音声信号における無音区間の差分零交
叉数を除去した雑音除去差分零交叉数を第１の特
徴量とし、この雑音除去差分零交叉数と鼻腔出力
エネルギー曲線の立上り時間差を第２の特徴量と
する判別用Ｎ−Ｄ平面と、を作成し、発せられた音声波のこれらの判別用各
平面上における分布に基づき、（step1）Ｏ−Δ平面上で（／Ｎ／）を分離し、（step2）Ｎ−Ｄ平面上で（／サ行の音韻／）、
（／破擦音／）、（／摩擦音／）、（／ザ行の音
韻／）、（／マ行の音韻／、／ナ行の音韻／、／
ガ行の音韻／、／ダ行の音韻／、／バ行の音
韻／）の各音韻及び音韻群を分離し、（step3）Ｏ−Δ平面上で（／ヤ行の音
韻／、／ラ行の音韻／、／ワ行の音韻／）の音
韻群を分離し、（step4）Ｄ−Ｓ平面上で（／カ行の音
韻／、／タ行の破裂音韻／、／パ行の音韻／）
の音韻群を分離し、（step5）Ｎ−Ｄ平面上で（／ア行の音韻／）
と（／ハ行の音韻／）の音韻の識別を行なう、上記各Stepからなる一連の手順により上記各
音韻群又は音韻を分類することを特徴とする音声
波検出方法。