JPH07101355B2 - 音声の特徴抽出方法 - Google Patents

音声の特徴抽出方法

Info

Publication number
JPH07101355B2
JPH07101355B2 JP62100863A JP10086387A JPH07101355B2 JP H07101355 B2 JPH07101355 B2 JP H07101355B2 JP 62100863 A JP62100863 A JP 62100863A JP 10086387 A JP10086387 A JP 10086387A JP H07101355 B2 JPH07101355 B2 JP H07101355B2
Authority
JP
Japan
Prior art keywords
frequency
bpf
zci
value
center frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP62100863A
Other languages
English (en)
Other versions
JPS63265300A (ja
Inventor
耕市 山口
憲治 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP62100863A priority Critical patent/JPH07101355B2/ja
Publication of JPS63265300A publication Critical patent/JPS63265300A/ja
Publication of JPH07101355B2 publication Critical patent/JPH07101355B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Sorting Of Articles (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

【発明の詳細な説明】 <産業上の利用分野> この発明は、入力音声をBPF(帯域ろ波器)群に入力
し、このBPF群を形成する各チャンネルBPF(以下、ch.B
PFと言う。)の出力波形の零交差間隔(以下、ZCIと言
う。)を用いて、音声認識の特徴量を求める音声の特徴
抽出方法に関する。
<従来の技術> 母音は、声帯より生じた振動波を口腔や鼻腔の形で決ま
る共鳴特性によって変形させて発生するものであり、あ
る特定の周波数成分が強調された波形となっている。こ
の母音を特徴付ける優勢な周波数成分はフォルマントと
呼ばれている。母音には数個のフォルマントがあり、そ
のうち周波数の低いほうから順に、第1,第2,…フォルマ
ントと呼ぶ。母音を特徴付けるのは低次のフォルマント
であって、特に、第1,第2フォルマントの寄与が大き
い。日本語の5母音は、上記第1,第2フォルマントが抽
出できればかなりの精度で識別できることは周知であ
る。
従来より、音声認識に使用される特徴量を求める方法と
して、各種の方法が提案されているが、上述のような理
由により、フォルマントを抽出して音韻を識別する方法
が最も多く行われている。上記フォルマントを抽出する
方法として次のようなものがある。すなわち、入力音声
信号をBPF群に入力して各ch.BPFの出力波形のパワーを
計算し、得られた値から周波数領域におけるスペクトル
のピークに相当する周波数を抽出し、種々の母音のフォ
ルマント周波数の存在範囲,フォルマント周波数におけ
るスペクトル値の大きさ,帯域幅に関する経験的な知識
および前後の分析フレームにおける結果との周波数的な
連続性を考慮して、ピークに相当する周波数とフォルマ
ントを対応付ける方法である。
<発明が解決しようとする問題点> しかしながら、上記従来のフォルマントを抽出する方法
は、BPF群の各ch.BPFの出力波形から算出したパワー値
によって、周波数領域のスペクトルを表現し、そのピー
クの位置の周波数からフォルマントを抽出しているが、
各ch.BPF通過後の出力波形には各ch.BPFの中心周波数以
外に、ある程度広い範囲の周波数成分も含んでいる。し
たがって、隣接したch.BPF間において、その出力波形の
パワーに大きな差が現れず、スペクトルのピークの位置
がはっきり現れない場合は、フォルマント周波数が正確
に決定出来ないという問題点がある。また、騒音が付加
した場合には、騒音の周波数成分が加わり、ピークを鈍
化させたり音声区間の抽出が困難になるなどの問題点も
ある。
そこで、この発明の目的は、BPF群通過後の出力波形のZ
CIを計測し、そのZCIが所定の範囲に入る生起頻度を現
す変量の値を用いて、スペクトルのピークを強調するこ
とにより各フォルマントを正確に分離することができ、
さらに、騒音の周波数成分が加わっても、スペクトルの
ピークが鈍化しない音声の特徴抽出方法を提供すること
にある。
<問題点を解決するための手段> 上記目的を達成するため、この発明の音声の特徴抽出方
法は、中心周波数がメル尺度で等間隔に設定された複数
のチャンネルのBPFからなるBPF群に入力音声信号を入力
し、各チャンネルのBPFの出力波形から、一定時間毎に
夫々の出力波形のZCIを計測し、この計測されたZCIが各
隣接するチャンネルの帯域の中心周波数の中間値間に相
当する時間等の何れかに入る場合に、この時間長でのZC
Iの生起頻度を表す変量の値を所定の値だけ増加させ、
上記各チャンネルのBPFにおける中心周波数に相当する
時間長でのZCIの生起頻度を表す変量の値を用いて、入
力音声の特徴量を求めることを特徴としている。
また、上記入力音声の特徴量は、各チャンネルのBPFの
夫々における中心周波数に相当する時間長でのZCIに、
当該BPFに隣接する低周波数側のBPFにおける当該BPFの
中心周波数に相当する時間長でのZCIを乗じて求めるの
が望ましい。
ここで、ZCIによる周波数分析の原理について述べる。
簡単化のため正弦波について考える。まず、第1図にお
いて、正弦波が零交差してから、次にまた零交差するま
での経過時間をZCIという。第1図(a)の正弦波101と
第1図(b)の正弦波102を合成した波形について考え
ると、正弦波101の振幅が正弦波102の振幅よりかなり大
きい場合、得られる合成波形は第1図(c)のようにな
り、この合成波形103のZCIは正弦波101のものにほぼ等
しくなる。逆に、正弦波102の振幅が正弦波101の振幅よ
りかなり大きい場合、得られる合成波形は第1図(d)
のようになり、この合成波形104のZCIは正弦波102のも
のにほぼ等しくなる。このように、波形のZCIは、その
波形に含まれる周波数成分の振幅の大小に関係があり、
振幅の大きい方の周波数成分に相当するZCIの生起頻度
が大きく、他の周波数成分に相当するZCIの生起を抑え
る作用(抑制効果)がある。この発明は、上述の原理を
利用してスペクトルのピークの強調を行うものである。
例えば、中心周波数f1のBPFをBPF1、BPF1に隣接する中
心周波数f2のBPFをBPF2とする。いま、入力音声信号と
して、周波数f1とf2の周波数成分を共に含んでいる波形
を考え、周波数f1の振幅が周波数f2の振幅よりかなり大
きいとする。入力音声信号をBPF1およびBPF2に入力して
得られる出力波形のうち、BPF1の出力波形の主要成分は
周波数f1であるが、隣接するBPF2の出力波形にもかなり
周波数f1の周波数成分が含まれる。したがって、BPF1
出力波形のパワーの値は直接周波数f1の強度を表わして
いるが、BPF2の出力波形のパワーの値には周波数f2の強
度だけでなく周波数f1の強度も含まれてしまう。このよ
うに、各ch.BPFの出力波形のパワーの値を周波数領域に
おけるスペクトル強度に変換する方法では、振幅が大き
い周波数f1の影響が隣接するBPF2の出力波形のパワーの
値に表われるので、隣接する両BPF間で出力波形のパワ
ーに差が出にくい。このことが、スペクトルのピークの
平滑化につながり、ピークの位置が正確に抽出しにくい
原因となっているのである。
そこで、上記BPF1の出力波形のZCIを計測し、所定の周
波数範囲に相当するZCIの範囲に入る頻度分布をとる
と、主要成分である周波数f1に相当するZCIの生起頻度
が大きくなる。一方、BPF2の出力波形では、上述のよう
に中心周波数f2の他に周波数f1の周波数成分もかなり含
まれているので、周波数f1の周波数成分が周波数f2の周
波数成分より大きい場合は、周波数f1に相当するZCIの
生起頻度はかなり大きくなり、周波数f2に相当するZCI
の生起頻度は抑制効果によってかえって少なくなる。よ
って、本発明の場合、周波数f1,f2の周波数成分の強度
を、夫々BPF1,BPF2の中心周波数f1,f2に相当するZCIの
上記生起頻度を特徴量として表わすと、周波数f1,f2
周波数成分の強度にはかなりの差ができ、周波数f1の周
波数成分のピークが強調されるのである。
<作用> 入力音声信号が複数のチャンネル数からなるBPF群に入
力されると、各チャンネルのBPFから出力される波形か
ら、一定時間毎にZCIが計測され、このZCIが各隣接する
チャンネルのBPFの中心周波数の中間値間に相当する時
間長の何れかに入る場合には、この時間長でのZCIの生
起頻度を現す変量の値が所定の値だけ増加される。そし
て、上記BPF群の各中心周波数に相当する時間長での生
起頻度を表す変量の値に基づいて、入力音声の特徴量が
求められる。したがって、スペクトルのピークが強調さ
れる。
また、上記入力音声の特徴量を、各チャンネルのBPFの
夫々における中心周波数に相当する時間長でのZCIに、
当該BPFに隣接する低周波数側のBPFにおける当該BPFの
中心周波数に相当する時間長でのZCIを乗じて求めるよ
うにすれば、スペクトルのピークがさらに強調される。
<実施例> 以下、この発明を図示の実施例により詳細に説明する。
第2図はこの発明の一実施例を示すブロック図である。
マイク201から入力された音声信号は、アンプ202によっ
て増幅され、複数のチャンネル数からなるBPF群203に入
力される。上記BPF群203の各ch.BPFの中心周波数は、例
えば、メル尺度で等間隔になるようにとる。この例で
は、16チャンネルに分割している。
ZCIカウント部204は、各ch.BPFの出力波形について、一
定時間(フレーム)毎にZCIを逐次計測し、j番目のch.
BPF(中心周波数の低いch.BPFから順にj=1,2,3,…と
する)の出力波形のある時刻tにおけるZCIをT(t)
とし、このT(t)が、予め決められたZCIを区分する
ための範囲Ti〜Ti+1のどこに入るかを調べ、そのT
(t)が入る範囲でのZCIの生起頻度が表わす変量Hi (j)
の値を一定の値だけ増加させる。ここで、1フレームに
おけるZCIの生起頻度を考えた場合、上記Tiの値の設定
をあまり細かく取りすぎると、各フレーム間で各範囲Ti
〜Ti+1に属するZCIにばらつきが生じるため、ある程度
の間隔が必要になる。また、特徴量算出時にはあらゆる
ZCIの区分範囲のZCIの生起頻度を利用するために、中心
周波数に相当するZCIの範囲が、各ch.BPF間で離散的に
ならないように設定する。さらに、人間の聴覚の特性は
高域になるほど分解能が下がるということを考慮してTi
の間隔は高域ほど大きくとるほうが望ましい。以上のこ
とから、本実施例においては上述のようにBPFの中心周
波数をメル尺度で等間隔にとり、Tiの値を各隣接するc
h.BPFの中心周波数の中間値に相当する時間長に設定す
る。第3図(b)は例として、第3図(a)に示すよう
なスペクトル301を有する音声信号が入力された場合、1
6チャンネルに分割された各ch.BPF別の出力波形から得
られた各ZCIの上記生起頻度を表わす変量Hi (j)の値の分
布を示す。この図で横軸は周波数を表わし、各Hi (j)
区間は周波数に変換された値で示している。
特徴量抽出部205は各ch.BPF別に得られた各ZCIの生起頻
度を表わす変量Hi (j)のうち、各ch.BPFの中心周波数fc
に相当する値を周波数fcの特徴量として抽出する。第3
図(a)にこのようにして求められた各ch.BPFの中心周
波数に相当するZCIの生起頻度を表わす変量の値のスペ
クトル302を示す。この図から分かるように第1フォル
マントから第2フォルマントにかけての周波数成分が抑
制効果により大きく削られて、第1フォルマントと第2
フォルマントのピークが強調されるのである。
騒音が付加された場合も、上記騒音は一般に周波数特性
が平坦なので、音声信号のうち母音のように特定の周波
数成分にピークがあるような場合は、その周波数成分に
相当するのZCIの生起頻度が多くなりピークが強調さ
れ、ピーク以外の騒音などの周波数成分はピークの周波
数に相当するZCIの生起頻度に抑制されるので騒音によ
る影響は少なくなる。また、摩擦音のような子音の場合
は、フォルマントのようなピークはないが、高域にエネ
ルギーが集中しているので、その帯域でZCIの生起頻度
が増加し、騒音と区別することが出来る。
音素識別部206は、フレーム毎に、上述のようにして得
られた特徴量とあらかじめ音素標準パターン207に用意
されている音素の上記特徴量の標準パターンを参照し
て、入力信号に音素のラベル付けを行ない音素記号系列
を出力する。単語認識部208は、単語標準パターン209に
用意されている単語の音素記号系列の標準パターンと上
記音素識別部206から出力される入力音声信号の音素記
号系列とを比較して単語認識を行い、結果出力部210は
その結果を出力する。
このようにして、スペクトルのある周波数成分の強度に
ピークがあると、その周辺の周波数成分を抑制して、ス
ペクトルのピークを強調することができる。したがっ
て、各フォルマントを正確に分離することができ、フォ
ルマント周波数を正確に決定することができる。
上記実施例においては、特徴量として変量Hi (j)うち、
各ch.BPFの中心周波数fcに相当する値を用いている。し
かし、この発明はこれに限定するものではなく、例え
ば、上記中心周波数fcのch.BPFの出力波形より得られた
各ZCIの生起頻度を表わす変量Hi (j)うち、中心周波数fc
に相当する値と、そのch.BPFに隣接する中心周波数が低
い方のch.BPFの出力波形より得られた各ZCIの生起頻度
を表わす変量Hi (j-1)のうち、上記周波数fcに相当する
値とを乗じて得られる変量を周波数fcに関する特徴量と
してもよい。この場合は、スペクトルのピークに相当す
る周波数に近い中心周波数のch.BPFの出力波形のZCIに
おいて、上述のようにZCIの抑制効果によってスペクト
ルのピークの周波数に相当するZCI以外のZCIの生起がお
さえられる。したがって、上記のように、変量Hi (j)
中心周波数fcに相当する値と変量Hi (j-1)の上記周波数f
cに相当する値とを乗じて求めた特徴量の値は、スペク
トルのピークに相当するZCIの前後でさらに小さくな
り、各ch.BPFの中心周波数fcに相当するZCIの生起頻度
を表わす変量だけを特徴量としてスペクトルを表わした
場合よりも、スペクトルのピークの強調がさらに顕著に
なる。
上記各実施例においては、ZCIの生起頻度を表わす変量H
i (j)を一定の値だけ増加させているが、こ発明はこれに
限定するものではない。すなわち、例えば変量Hi (j)
増加量を零交差間に生起する波高値に相当する値とする
と、変量Hi (j)は、波高値の高い周波数では波高値の低
い周波数の場合より、さらに大きく増加する。したがっ
て、スペクトルのピークに相当する周波数成分の振幅は
大きいので、増加量を一定値とした場合に比べてスペク
トルのピークに相当するZCIの生起頻度を表わす変量Hi
(j)の値がより大きくなり、さらにピークを強調でき
る。
前述の各実施例においては、Tiの値を各隣接するch.BPF
の中心周波数の中間値に相当する時間長としている。し
かし、スペクトルのピークが隣接するch.BPFの中心周波
数の中間に来ると、スペクトルのピークに相当するZCI
が両ch.BPFに分散してしまい、ピークとして現れにくく
なる。したがって、上記T(t)を区分する範囲をTi
α〜Ti+1+β(α>0,β>0)として、ZCIを
分割する区間に重なりを持たせることにより、スペクト
ルのピークの位置をさらに正確に表わすようにしてもよ
い。
<発明の効果> 以上より明らかなように、この発明の音声の特徴抽出方
法によれば、入力音声信号をBPF群を通過させて、各ch.
BPFの出力波形から計測したZCIが各隣接するch.BPFの中
心周波数の中間値間に相当する時間長の何れかに入ると
き、この時間長でのZCIの生起頻度を表す変量の値を所
定の値だけ増加させ、上記BPF群の各中心周波数に相当
する時間長でのZCIの生起頻度を表わす変量の値を用い
て、入力音声の特徴量を求めるようにしたので、入力音
声信号のスペクトルのピークが強調され、母音の特徴を
表す各フォルマントを正確に分離することができる。ま
た、この発明の音声の特徴抽出方法によれば、スペクト
ルのピークが強調されるので、周波数特性が平坦である
騒音が付加されても、スペクトルのピークは鈍化するこ
とはない。
また、上記入力音声の特徴量を各ch.BPFの夫々における
中心周波数に相当する時間長でのZCIに、当該ch.BPFに
隣接する低周波数側のch.BPFにおける当該ch.BPFの中心
周波数に相当する時間長でのZCIを乗じて求めるように
すれば、スペクトルのピークがさらに強調される。
【図面の簡単な説明】
第1図は正弦波およびその合成波におけるZCIの説明
図、第2図はこの発明を用いた音声認識装置のブロック
図、第3図(a)は入力音声のスペクトルと各ch.BPFの
出力波形から求めたパワースペクトルとZCIの生起頻度
から求めた特徴量のスペクトルを表わす図、第3図
(b)は各ch.BPFの出力波形から得られたZCIの生起頻
度を表わす変量の図である。 201……マイク、202……アンプ、 203……BPF群、204……ZCIカウント部、 205……特徴量抽出部、206……音素識別部、 207……音素標準パターン、208……単語認識部、 209……単語標準パターン、210……結果出力部。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】中心周波数がメル尺度で等間隔に設定され
    た複数のチャンネルの帯域ろ波器からなる帯域ろ波器群
    に入力音声信号を入力し、 各チャンネルの帯域ろ波器の出力波形から、一定時間毎
    に夫々の出力波形の零交叉間隔を計測し、 この計測された零交叉間隔が各隣接するチャンネルの帯
    域の中心周波数の中間値間に相当する時間等の何れかに
    入る場合に、この時間長での零交叉間隔の生起頻度を表
    す変量の値を所定の値だけ増加させ、 上記各チャンネルの帯域ろ波器における中心周波数に相
    当する時間長での零交叉間隔の生起頻度を表す変量の値
    を用いて、入力音声の特徴量を求めることを特徴とする
    音声の特徴抽出方法。
  2. 【請求項2】特許請求の範囲第1項に記載の音声の特徴
    抽出方法において、 上記入力音声の特徴量は、各チャンネルの帯域ろ波器の
    夫々における中心周波数に相当する時間長での零交叉間
    隔に、当該帯域ろ波器に隣接する低周波数側の帯域ろ波
    器における当該帯域ろ波器の中心周波数に相当する時間
    長での零交叉間隔を乗じて求めることを特徴とする音声
    の特徴抽出方法。
JP62100863A 1987-04-22 1987-04-22 音声の特徴抽出方法 Expired - Fee Related JPH07101355B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62100863A JPH07101355B2 (ja) 1987-04-22 1987-04-22 音声の特徴抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62100863A JPH07101355B2 (ja) 1987-04-22 1987-04-22 音声の特徴抽出方法

Publications (2)

Publication Number Publication Date
JPS63265300A JPS63265300A (ja) 1988-11-01
JPH07101355B2 true JPH07101355B2 (ja) 1995-11-01

Family

ID=14285149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62100863A Expired - Fee Related JPH07101355B2 (ja) 1987-04-22 1987-04-22 音声の特徴抽出方法

Country Status (1)

Country Link
JP (1) JPH07101355B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4939259B2 (ja) * 2007-03-05 2012-05-23 パイオニア株式会社 音響装置及び音声補正方法

Also Published As

Publication number Publication date
JPS63265300A (ja) 1988-11-01

Similar Documents

Publication Publication Date Title
EP0219109B1 (en) Method of analyzing input speech and speech analysis apparatus therefor
CN102054480B (zh) 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
CN101452698B (zh) 一种自动嗓音谐噪比分析方法
Zhou et al. Classification of speech under stress based on features derived from the nonlinear Teager energy operator
US9514738B2 (en) Method and device for recognizing speech
US7085721B1 (en) Method and apparatus for fundamental frequency extraction or detection in speech
EP1605437B1 (en) Determination of the common origin of two harmonic components
US5577160A (en) Speech analysis apparatus for extracting glottal source parameters and formant parameters
Kawahara et al. Higher order waveform symmetry measure and its application to periodicity detectors for speech and singing with fine temporal resolution
JPH07101355B2 (ja) 音声の特徴抽出方法
JP4166405B2 (ja) 駆動信号分析装置
RU2107950C1 (ru) Способ идентификации личности по фонограммам произвольной устной речи
CN120656485B (zh) 一种汉语言的发音音准评估方法
KR100539176B1 (ko) 음악적 특징 추출 방법 및 장치
Dasgupta et al. Detection of Glottal Excitation Epochs in Speech Signal Using Hilbert Envelope.
KR0173924B1 (ko) 음성신호의 유성음 구간에서 이포크 검출 방법
Funada A method for the extraction of spectral peaks and its application to fundamental frequency estimation of speech signals
JP2951333B2 (ja) 音声信号の区間判別方法
Hsu et al. Instantaneous changes in acoustic signals reflect syllable progression and cross-linguistic syllable variation
JP2557497B2 (ja) 男女声の識別方法
Kasthuri et al. Perceptive Speech Filters for Speech Signal Noise Reduction
JPS6229798B2 (ja)
Alku et al. Linearity of the function between the sound pressure level of speech and the negative peak amplitude of the differentiated glottal flow for voices of different intensities
Hieronymus et al. A reference speech recognition algorithm for benchmarking and speech data base analysis
Sugiyama et al. Frequency weighted LPC spectral matching measures

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees