JPH0223878B2 - - Google Patents

Info

Publication number
JPH0223878B2
JPH0223878B2 JP58072420A JP7242083A JPH0223878B2 JP H0223878 B2 JPH0223878 B2 JP H0223878B2 JP 58072420 A JP58072420 A JP 58072420A JP 7242083 A JP7242083 A JP 7242083A JP H0223878 B2 JPH0223878 B2 JP H0223878B2
Authority
JP
Japan
Prior art keywords
phoneme
line
plane
oral cavity
energy curve
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58072420A
Other languages
English (en)
Other versions
JPS59197100A (ja
Inventor
Norihiro Jinnai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP7242083A priority Critical patent/JPS59197100A/ja
Publication of JPS59197100A publication Critical patent/JPS59197100A/ja
Publication of JPH0223878B2 publication Critical patent/JPH0223878B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 この発明は、人間の音声を検出するための音声
検出方法に関する。
コンピユータの発展に伴い、音声入力装置が提
案されている。この音声入力装置は予め音声波の
特徴を音声記憶部に記憶させ、新らたに入力され
た音声波の特徴を音声記憶部の記憶値と比較して
入力した音声を認識するものである。
しかしながら、従来の音声認識は鼻腔・口腔出
力が重ね合わされた音声波でもつて音素を識別認
識するものであるため、認識率・認識時間の点で
十分に満足のいけるものではない。
ところで、有声音発声時、声帯振動波は口蓋帆
によつて鼻腔に向うものと口腔に向うものに分割
され、鼻腔、口腔の形状相違などに基づく伝達特
性により修飾を受けて鼻孔と唇から出力される。
この時、鼻腔形状は変化しないが、口蓋帆は動
き、口腔形状は歯、舌などの動きにより変化し、
唇は開閉する。したがつて、声帯から発生し口腔
と鼻腔に分割された声帯振動波は、鼻孔と唇まで
の通路形状の違いによつて種々の修飾を受けるた
め、両者の鼻孔、唇からの出力波形は明瞭に異な
るものとなる。
また、無声音発声時においても、鼻腔出力が極
めて小さく、口腔出力のみが存在し、両者の出力
波形は明瞭に異なる。
この発明は、口腔と鼻腔から出る音声波が明瞭
に異なる波形を示すことに着目して成したもので
あり、音素の認識を極めて容易にすることを目的
とする。
この目的達成のため、この発明の音声波検出方
法にあつては、鼻腔からの音声出力を検出すると
同時に口腔からの音声出力を検出し、 鼻腔出力エネルギー曲線と口腔出力エネルギー
曲線の立上り時間差を第1の特徴量とし、口腔出
力エネルギー曲線の立上り時における正規化鼻腔
出力エネルギー曲線と正規化口腔出力エネルギー
曲線の傾斜の比を第2の特徴量とする判別用D−
S平面と、 咽頭腔通過エネルギー曲線の立上り時における
咽頭腔通過エネルギーに対する鼻腔出力エネルギ
ーの比を第1の特徴量とし、発声中における前記
比の時間変化曲線の最大傾斜の値を第2の特徴量
とする判別用O−Δ平面と、 口腔出力音声信号における無音区間の差分零交
叉数を除去した雑音除去差分零交叉数を第1の特
徴量とし、この雑音除去差分零交叉数と鼻腔出力
エネルギー曲線の立上り時間差を第2の特徴量と
する判別用N−D平面と、 を作成し、発せられた音声波のこれらの判別用各
平面上における分布に基づき、 (step1) O−Δ平面上で(/N/)を分離し、 (step2) N−D平面上で(/サ行の音韻/)、
(/破擦音/)、(/摩擦音/)、(/ザ行の音
韻/)、(/マ行の音韻/、/ナ行の音韻/、/
ガ行の音韻/、/ダ行の音韻/、/バ行の音
韻/)の各音韻及び音韻群を分離し、 (step3) O−Δ平面上で(/ヤ行の音
韻/、/ラ行の音韻/、/ワ行の音韻/)の音
韻群を分離し、 (step4) D−S平面上で(/カ行の音
韻/、/タ行の破裂音韻/、/パ行の音韻/)
の音韻群を分離し、 (step5) N−D平面上で(/ア行の音韻/)
と(/ハ行の音韻/) の音韻の識別を行なう、 上記各stepからなる一連の手順により上記各音
韻群又は音韻を分類するようにしたのである。
このように構成されるこの発明に係る音声波検
出方法にあつては、まず、不特定多数人の発声音
に基づく予備実験によつて、前記D−S平面、O
−Δ平面、N−D平面を決定し、ある不特定人の
発声音を前記各平面に基づいて各音韻群又は音韻
に分類して、その音声を認識する。
したがつて、この発明によると、以上のように
構成し、鼻腔・口腔両出力の明瞭に異なる2つの
波形に基づいてその音声を認識するようにしたの
で、音声の認識が極めて正確かつ容易となり、コ
ンピユータ処理する際には、認識率・認識時間及
び記憶容量が著しく向上する。
以下、この発明の実施例を添付図面に基づいて
説明する。
第1図に示すように、人の頭部1に固定される
ヘツドアーム2からは先端にマイク3m,3nを
支持するアーム4が位置調整可能の顔の前面に延
びている。マイク3nは音声の鼻腔出力を検出す
るために鼻孔に向かい、マイク3mは音声の口腔
出力を検出するために口に向つている。なお、上
記マイク3n,3mのいずれか一方は位置調整可
能に設けることが望ましい。また、マイク3mと
3n間には鼻腔出力と口腔出力とを分離する遮断
板5を設けて、両出力が混合することなく各マイ
ク3n,3mに入力することが望ましい。
上記各マイク3m,3nからの信号は、第2図
に示すようにマルチプレクサ等の切換器6を介し
てAD変換器7に入力され、デイジタル信号に変
換されてコンピユータ8に入力される。コンピユ
ータ8において両マイク3m,3nの出力に基づ
き、発せられた音声の認識処理を行なう。
この認識処理は種々の手段を取り得るが例えば
以下のようにして行なう。
この手段は、マイク3m,3nによつて検出し
て得られた音声出力のエネルギー曲線NEm,NE
nに基づき、下記のD、S、(En/Eo)p′、Δ
(En/Eo)、CR、DTなるパラメータを算出し、
各パラメータにより、D−S平面、(En/Eo)p
Δ(En/Eo)平面(0−Δ平面)、CR−DT平面
(N−D平面)を得て、この各平面に基づき発声
音を識別するものである。
D:NEnとNEmの立上り時間差 S:NEnとNEmの立上り時の傾斜比 En:鼻腔の通過エネルギー Eo:咽頭腔の通過エネルギー (En/Eo)p:En/Eo曲線の開始点の値 Δ(En/Eo):En/Eo曲線の最大傾斜値 CR:雑音除去差分零交叉数 DT:雑音除去差分零交叉数とNEnの立上り時間
差 つぎに、上記各平面の作成及びそれに基づく音
韻識別を述べる。
(i) D−S平面 第3図a〜lは、音声(ア)/a/、(カ)/ka/、
(サ)/sa/、(タ)/ta/、(ナ)/na/、
(ハ)/ha/、(マ)/ma/、(ヤ)/ya/、
(ラ)/ta/、(ワ)/wa/、(パ)/pa/、
(ン)/N/をマイク3m,3nで検出して得
られたエネルギー曲線NEm、NEnであり、観
規した音声波エネルギーを各々最大値で正規化
したエネルギーの時間変化曲線である。
このエネルギー曲線において、/a/、/
ha/ではNEnとNEmが同時に立上り、発声中
のNEnとNEmは同じ変化をしている。/
ka/、/ta/、/pa/ではNEmの立上り時に
破裂気流によるピークが現われ、NEmはNE
より早く立上つている。/sa/では/s/の区
間でNEmに小さな値(矢印)が現われてい
る。/na/、/ma/ではNEnがNEmより早
く立上り、NEmが増加を始めると同時にNE
が減少を始める。/ya/、/ra/、/wa/で
はNEnとNEmがほぼ同時に立上るが立上り時
の傾斜はNEnがNEmより大きい。/N/では
口腔出力が極めて小さく、NEmには室内騒音
のエネルギー曲線が現われている。
以上の各音韻のエネルギー曲線の特徴を表わ
すパラメータとして次式(1)、(2)で定義する遅延
時間Dと傾斜比Sを算出する。
D=top−tnp ………(1) S=NEn(tn3)−NEn(tnp)/NEm(tn3)−NE
m(tnp)………(2) 但し、top、tnpはNEn、NEmが各々最大値の
5%点を初めて越えた時刻、tn3はtnpから任意
の時間例えば、19.2msec後の時刻である。式
(1)はNEnとNEmの立上り時間差を、式(2)はNE
mの立上り時におけるNEnとNEmの傾斜の比
を表わす。
第4図は第3図における/sa/と/N/を除
く10種の単音節の2つのパラメータを算出して
D−S平面上に発声音の頭文字で例えば/ta/
はTでプロツトしたもので、音声試料は10名の
男性が孤立発声したものである。なお、/sa/
では/s/の区間でNEm値のばらつきが大き
くtnpの検出が不安定となり、また、/N/で
は口腔出力が極めて小さいためtnpが決定でき
ないという理由で除外した。図面においては、
S>3.0の場合、S=3.0の位置にプロツトして
いる。
この図によれば/a/、/ha/の遅延時間
Dは小さく、傾斜比Sは1.0を中心に分布す
る。/ka/、/tm/、/pa/ではD>0でS
は小さい。。又、/na/、/ma/ではD<0、
S<0である。/ya/、/ra/、/wa/では
Dが小さく、Sが他の音韻群より大きい。この
音韻ではNEmがNEnの立上りよりややおくれ
る(D<0)音声試料があるが、それらは、
NEnとNEmの概形は第3図とほぼ同じ形状で
あつたが、NEn曲線の最初のピークが早く、
そのピークの頂上付近でNEnの傾きを計算す
ることとなるため、傾斜比Sがやや小さくなつ
たと考える(第4図矢印)。
以上により、D、Sを求めることにより各音
韻を数種のグループに分類し得ることが理解で
きる。
(ii) O−Δ平面 第1図に示すように、咽頭腔9の通過エネル
ギーをEp(t)、鼻腔10と口腔11の出力エネ
ルギーを各々Eo(t)、En(t)又、マイク3
n,3mが観測するエネルギーをEo(in)(t)、
En(in)(t)とした時、まず、観測値Eo(in)
(t)、En(in)(t)からEo(t)/Ep(t)の
時間変化曲線を推定する。
エネルギーは声道内で無損失であると仮定す
ると式(3)が成り立つ。
Ep(t)=Eo(t)+En(t) ………(3) 又、Co、Cnを放射エネルギーのうち各マイ
クに入る比率とすれば、 Eo(in)(t)=CoEo(t) En(in)(t)=CnEn(t) ………(4) となり、式(3)と式(4)より CoEp(t)=Eo(in)(t) +(Co/Cn)En(in)(t) ………(5) が得られる。
ここで、Co/Cnの算出が問題になるが、例え
ば円筒の一端開口部に1個のマイクを配置し、他
端開口部で口及び鼻を覆つてEpを検出するととも
に第1図に示す手段によりEn、Eoを検出し、Ep
=En+EoとなるCo、Cnを算出すればよい。Cn
Coはマイク3m,3nの位置で変化するため、
固定して行ないEp、En、Eoは複数回の平均値で
比較するとよい。
このようにして得たCo/Cnに基づき次式(6)を
得る。
Eo/Ep=Eo(t)/Ep(t) =Eo(in)(t)/Eo(in)(t)+(Co/Cn)En(in
)(t) ………(6) 第5図に上述の発声音/a/…における上式
(6)のEo/Epの時間変化曲線を示す。
このEo/Epの曲線の特徴を表わすパラメー
タとして次式を定義する。
(Eo/Epp=Eo(to)/Ep(to) ………(7) Δ(Eo/Ep)=Max〔Eo(t)/Ep(t) −Eo(t)′/Ep(t)′〕 ………(8) ただし、Maxはかぎかつこ内の最大値を意
味する。また、tpはEpが最大値の15%点を初め
て越えた時時刻、t′はtpから任意の時刻tから
ある時間例えば、19.2msec後の時刻である。
式(7)はEo/Ep曲線の左端の値を、また、式(8)
は曲線の最大傾斜を表わしている。第6図は第
5図に示した10名の男性が孤立発声した12種の
単音節の上記2つのパラメータをO−Δ平面に
発声音の頭文字でプロツトしたものである。
(第6図では図を見やすくするため5個の音声
試料のみプロツトした音韻があるが、他の5個
も同様の分布をしている。) この図によれば12種の単音節が(/a/、/
ka/、/sa/、/ta/、/ha/、/pa/)、
(/na/、/ma/)、(/ya/、/ra/、/
wa/)、(/N/)の4群に分類できる。
なお、この平面図上では/∫a/、/
za/、/ga/、/da/、/ba/を扱わない
が、/∫a/の分布は/sa/と同じであり、/
za/、/ga/、/da/、/ba/の分布は/
na/に類似しているが分布は広く分類しにく
いからである。
(iii) N−D平面 この平面は/s/、/z/などの摩擦音、/
t∫i/、/tsu/などの破擦音を識別するもので
あり、まず、その1つのパラメータである雑音
除去差分零交叉数(Noise rejected
differential zero crossing rate)について述
べる。
第7図に示す例えば/su/の口腔出力音声波
形において、ある点における口腔出力音声信号
を{xi}とするとき、雑音除去差分零交叉数を
CRを次式(9)で定義する。
{(xi+1−xi)(xi−xi−1)}<0、かつ{|
xi+1|しきい値または|xi|>しきい値また
は|xi−1|>しきい値}ならばサンプル点i
において雑音除去差分零交叉が1回あつたと
し、この零交叉をある区間内で合計したもの。
(9) 第8図a乃至fに/u/、/su/、/
zu/、/tsu/、/hu/、/nu/の発声音のCR
と時間の関係を示す。
つぎに、もう1つのパラメータとして、次式(10)
で示すCRとNEnの立上り時間差DT(Delay
time)を定義する。
Delay time=top−zp 但し、Dalay time<0のとき Deley time=top−tnp (10) ここで、NEn、NEmの立上り時刻を各々top
tnp、雑音除去差分零交叉数の立上りを、その交
叉数が9回を初めて越えた時刻zpとする。第8図
a乃至fに鼻腔、口腔出力エネルギーの正規化時
間変化曲線NEn、NEmを示す。
第9図は、雑音除去差分零交叉数〔N.R.−D.
Z.C.R.〕(CR)を縦軸に雑音除去差分零交叉数
CRとNEnの立上り時間差(Delay time)を横軸
にとつた平面(N−D平面)に後続母音別に各単
音節を発声音の頭文字でプロツトしたものであ
る。
この図によると、単音節/s/、/∫/、/
z/、/h/、(/n/、/m/、/g/、/
d/、/b/)及び母音に分類できることが確認
できる。
なお、この図において、/ka/、/ta/、/
pa/、/ya/、/ra/、/wa/、/N/を扱つ
ていないが、/ka/、/ta/、/pa/の分布
は/a/、/ha/の間にあり、/ya/、/
ra/、/wa/の分布は/a/と同じで、分類上
不都合であり、また、/N/は口腔出力が存在し
ないためN−D平面上にプロツトすることができ
ないからである。
以上で各平面図の作成方法を述べたが、つぎに
これらの平面を使用して音韻認識したアルゴリズ
ムの一例を示す。
このアルゴリズムの一例は、音韻/a/、/
ka/、/sa/、/ta/、/na/、/ha/、/
ma/、/ya/、/ra/、wa/、/pa/、/
∫a/、/za/、/ga/、/da/、/ba/、/
N/を識別するものであり、第10図に示す識別
フローチヤートによつて行なう。
step1ではO−Δ平面上で/N/を分離識別す
る。これはO−Δ平面上での/N/の分布が非常
に顕著であり、最初に他の音韻から分離しておく
ことが適切であることによる。
step2ではN−D平面上で/sa/、/∫a/、/
za/、(/ma/、/na/、/ga/、/da/、/
ba/)の4群を分離識別する。
step3では再びO−Δ平面上で(/ya/、/
ra/、/wa/)の1群を分離識別する。
step4ではD−S平面上で(/a/、/ha/)
と(/ka/、/ta/、/pa/)の分離を行なう。
step5では再びN−D平面上で/a/と/ha/
の識別を行なう。
以上の5段階の処理によつて17種の音韻を9群
に分類する。このように5段階の構成をとる理由
は各平面上で他の音韻群から顕著に分離している
音韻を先に分離識別する方法を採用していること
による。
以上は、母音及び後続母音が/a/のもの、す
なわちア母音列(ア、カ、サ、タ…)の音韻識別
であつたが、母音/a/を母音/e/又は/o/
に置き換え、後続母音/a/を後続母音/e/又
は/o/に置き換えれば、同様にして、エ母音
列、オ母音列の音韻群又は音韻を分類することが
できる。また、母音/a/を母音/i/又は/
u/に置き換え、後続母音/a/を後続母音/
i/又は/u/に置き換え、破擦音/t∫i/及
び/tsu/の音韻をstep2で分離すれば、同様にし
て、イ母音列、ウ母音列の各音韻群又は音韻を分
類することができる。この破擦音が分類できるこ
とは第9図から確認できる(図中、Tが破擦音で
あり、同図b/t∫i/、同図cが/tsu/)。
この様にして多群に分類された各音韻群の中に
おいて、従来から行なわれている周知な認識手
法、例えばスペクトルの重心周波数・ピーク周波
数・谷周波数およびそれらの時間変化に基づく認
識手法により各音韻を識別し、最終的な判定を下
す。
前記実施例は、鼻腔出力と口腔出力を分離する
遮蔽板を設けたものであつたが、遮蔽板を設けな
い場合には例えば第11図に示すように、エネル
ギー曲線NEm、NEnにおいて、最大値の35%点
と15%点とを直線で結び、この直線と時間軸との
交点をtop、(tnp)とするなどの補正をしてD−S
平面、O−Δ平面、N−D平面を作成すればよ
い。
なお、上記音声の認識において、口の動きを検
出するカメラ等を用いた検出器を設け、この検出
器とこの発明の検出方法との組合わせで検出すれ
ば、より正確に識別できる。
【図面の簡単な説明】
第1図はこの発明の一例を示す説明図、第2図
はこの発明を利用する制御ブロツク図、第3図a
〜lは時間とエネルギー分布を示すグラフ、第4
図はD−S平面を示すグラフ、第5図a〜lは
Eo/Epの時間変化曲線を示すグラフ、第6図は
O−Δ平面を示すグラフ、第7図は/su/の口腔
出力音声波形図、第8図a乃至fは鼻腔、口腔出
力エネルギーの正規化時間変化曲線及び口腔出力
の雑音除去差分零交叉数の時間変化曲線のグラ
フ、第9図a〜eはN−D平面を示すグラフ、第
10図は音声認識の一例を示すフローチヤート、
第11図は補正例を示すグラフである。 3m,3n……マイク、4……支持アーム。

Claims (1)

  1. 【特許請求の範囲】 1 鼻腔からの音声出力を検出すると同時に口腔
    からの音声出力を検出し、 鼻腔出力エネルギー曲線と口腔出力エネルギー
    曲線の立上り時間差を第1の特徴量とし、口腔出
    力エネルギー曲線の立上り時における正規化鼻腔
    出力エネルギー曲線と正規化口腔出力エネルギー
    曲線の傾斜の比を第2の特徴量とする判別用D−
    S平面と、 咽頭腔通過エネルギー曲線の立上り時における
    咽頭腔通過エネルギーに対する鼻腔出力エネルギ
    ーの比を第1の特徴量とし、発声中における前記
    比の時間変化曲線の最大傾斜の値を第2の特徴量
    とする判別用O−Δ平面と、 口腔出力音声信号における無音区間の差分零交
    叉数を除去した雑音除去差分零交叉数を第1の特
    徴量とし、この雑音除去差分零交叉数と鼻腔出力
    エネルギー曲線の立上り時間差を第2の特徴量と
    する判別用N−D平面と、 を作成し、発せられた音声波のこれらの判別用各
    平面上における分布に基づき、 (step1) O−Δ平面上で(/N/)を分離し、 (step2) N−D平面上で(/サ行の音韻/)、
    (/破擦音/)、(/摩擦音/)、(/ザ行の音
    韻/)、(/マ行の音韻/、/ナ行の音韻/、/
    ガ行の音韻/、/ダ行の音韻/、/バ行の音
    韻/)の各音韻及び音韻群を分離し、 (step3) O−Δ平面上で(/ヤ行の音
    韻/、/ラ行の音韻/、/ワ行の音韻/)の音
    韻群を分離し、 (step4) D−S平面上で(/カ行の音
    韻/、/タ行の破裂音韻/、/パ行の音韻/)
    の音韻群を分離し、 (step5) N−D平面上で(/ア行の音韻/)
    と(/ハ行の音韻/) の音韻の識別を行なう、 上記各Stepからなる一連の手順により上記各
    音韻群又は音韻を分類することを特徴とする音声
    波検出方法。
JP7242083A 1983-04-23 1983-04-23 音声波検出方法 Granted JPS59197100A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7242083A JPS59197100A (ja) 1983-04-23 1983-04-23 音声波検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7242083A JPS59197100A (ja) 1983-04-23 1983-04-23 音声波検出方法

Publications (2)

Publication Number Publication Date
JPS59197100A JPS59197100A (ja) 1984-11-08
JPH0223878B2 true JPH0223878B2 (ja) 1990-05-25

Family

ID=13488770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7242083A Granted JPS59197100A (ja) 1983-04-23 1983-04-23 音声波検出方法

Country Status (1)

Country Link
JP (1) JPS59197100A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE45831T1 (de) * 1983-05-18 1989-09-15 Speech Systems Inc Spracherkennungssystem.

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5011505A (ja) * 1973-05-09 1975-02-06

Also Published As

Publication number Publication date
JPS59197100A (ja) 1984-11-08

Similar Documents

Publication Publication Date Title
Nirgianaki Acoustic characteristics of Greek fricatives
US20050171774A1 (en) Features and techniques for speaker authentication
Truong et al. Automatic pronunciation error detection: an acoustic-phonetic approach
Nandwana et al. A new front-end for classification of non-speech sounds: a study on human whistle
JPH0223878B2 (ja)
Demolin et al. Whispery voiced nasal stops in rwanda.
Denzer-King The acoustics of uvulars in Tlingit
JP2006154212A (ja) 音声評価方法および評価装置
Frid et al. Acoustic-phonetic analysis of fricatives for classification using SVM based algorithm
Pickett Sound patterns of speech: An introductory sketch
Jayan et al. Automated detection of transition segments for intensity and time-scale modification for speech intelligibility enhancement
Jijomon et al. An offline signal processing technique for accurate localisation of stop release bursts in vowel-consonant-vowel utterances
Maddela et al. Phonetic–Acoustic Characteristics of Telugu Lateral Approximants
Sun Analysis and interpretation of glide characteristics in pursuit of an algorithm for recognition
Signorello et al. Aerodynamic Features of French Fricatives.
Tran et al. Predicting F0 and voicing from NAM-captured whispered speech
Ali et al. Formants based analysis for speech recognition
JPS60166995A (ja) 音声波検出方法
JPH036519B2 (ja)
JPH036520B2 (ja)
JP2006284907A (ja) 音素セグメンテーション方法及び装置
JP4595124B2 (ja) 音声信号と非音声信号の判別装置及び方法
de Haya Spectral study with automatic formant extraction to improve non-native pronunciation of English vowels
Nakazato et al. Speech Signal Processing Using Consonant-Vowel Location Detection
JP2557497B2 (ja) 男女声の識別方法