JPH0222960B2 - - Google Patents
Info
- Publication number
- JPH0222960B2 JPH0222960B2 JP59056622A JP5662284A JPH0222960B2 JP H0222960 B2 JPH0222960 B2 JP H0222960B2 JP 59056622 A JP59056622 A JP 59056622A JP 5662284 A JP5662284 A JP 5662284A JP H0222960 B2 JPH0222960 B2 JP H0222960B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- voice
- frame
- signal
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000001514 detection method Methods 0.000 claims description 32
- 238000001228 spectrum Methods 0.000 claims description 20
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 24
- 238000000034 method Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 17
- 230000015654 memory Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000002688 persistence Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 208000037656 Respiratory Sounds Diseases 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
Description
【発明の詳細な説明】
産業上の利用分野
本発明は音声認識装置に用いられる音声の始
端・終端の検出装置に関するものである。
端・終端の検出装置に関するものである。
従来例の構成とその問題点
音声の始端、終端の検出方法に関する従来例と
しては、信号のエネルギーと零交差回数を用いた
方法が知られている。これは、新美康永:音声認
識、共立出版(1979)、あるいは、L.R.Rabiner
and M.R.Sambur:An algovithm for
determining the endpoint of isolated
utterances、Bell Syst.Tech.J.、(1975)に示さ
れている。
しては、信号のエネルギーと零交差回数を用いた
方法が知られている。これは、新美康永:音声認
識、共立出版(1979)、あるいは、L.R.Rabiner
and M.R.Sambur:An algovithm for
determining the endpoint of isolated
utterances、Bell Syst.Tech.J.、(1975)に示さ
れている。
零交差回数というのは信号の符号のみを残し、
振幅を1ビツトに量子化した零交差波の一定時間
長の区間における零交差の平均回数である。音声
のようにスペクトル構造をもつた信号の零交差回
数はスペクトル中の優勢な周波数成分とよく対応
する。第1図a〜cは音声信号の零交差回数の分
布を示したもので、aは無音、bは無声音、cは
有声音の分布である。図から分るように、音声信
号の零交差回数は、有声音のように低域の周波数
成分の優勢は音声では第1図cのように小さな値
を示し、無声音のように高域の周波数成分の優勢
な音声では第1図bのように大きな値を示す。従
来法による音声の始端・終端検出方法はこの零交
差回数を利用することにより信号のエネルギーは
小さいが、零交差回数は大きな値をとる無声子音
の検出精度を上げた方法である。
振幅を1ビツトに量子化した零交差波の一定時間
長の区間における零交差の平均回数である。音声
のようにスペクトル構造をもつた信号の零交差回
数はスペクトル中の優勢な周波数成分とよく対応
する。第1図a〜cは音声信号の零交差回数の分
布を示したもので、aは無音、bは無声音、cは
有声音の分布である。図から分るように、音声信
号の零交差回数は、有声音のように低域の周波数
成分の優勢は音声では第1図cのように小さな値
を示し、無声音のように高域の周波数成分の優勢
な音声では第1図bのように大きな値を示す。従
来法による音声の始端・終端検出方法はこの零交
差回数を利用することにより信号のエネルギーは
小さいが、零交差回数は大きな値をとる無声子音
の検出精度を上げた方法である。
以下図面を参照しながら従来例の音声の始端・
終端検出方法について説明する。
終端検出方法について説明する。
第2図は従来例の構成を示したものであり、第
3図は従来例における音声の始端・終端検出方法
の動作を説明するための例を示したものである。
音声を含む信号は第2図に示すエネルギー算出部
1と零交差回数算出部2によりフレーム(例えば
10msec長)毎に信号エネルギーE(n)(nはフ
レーム番号)と零交差回数Nz(n)という2つの
特徴パラメータに変換される。3は信号のエネル
ギーレベルにより確実に音声区間であるという部
分を検出する始端・終端候補決定部であり、信号
エネルギーE(n)に対対し2つの閾値E1,E2
(E1>E2)を適用し音声の始端候補n1、終端候補
n2を求める。これは第3図aの例に示すように、
エネルギーの値がE2を越え、かつその後E2以下
になることなしにE1を越えるとき、音声区間に
入つたとみなし、E2を越えた点を始端候補n1とす
るものである。終端候補n2は時間軸を逆にして、
同様の方法で決定する。第2図の4は音声の始
端・終端決定部である。ここでは、零交差回数算
出部2で計算された信号の零交差回数Nz(n)と
閾値Noを用いて、エネルギーE(n)は小さいが
零交差回数Nz(n)が大きな値をとる無声音が、
始端・終端候補決定部3で定められた音声の始
端・終端候補(n1,n2)の外側にないか検査す
る。第3図bの例に示すように、始端候補n1より
前の数フレームの区間において零交差回数Nz
(n)が閾値Noより大となるフレームの数を数
え、その数が一定値(たとえば3)以上であれば
始端候補n1より前に無声音があるとみなし最初に
閾値Noを越えたフレームn′1に始端を移す。終端
についても同様である。ただし、第3図bでは終
端n2はもとのままである場合を示している。この
ようにして最終的な音声の始端、終端(n′1、n2)
が決定される。
3図は従来例における音声の始端・終端検出方法
の動作を説明するための例を示したものである。
音声を含む信号は第2図に示すエネルギー算出部
1と零交差回数算出部2によりフレーム(例えば
10msec長)毎に信号エネルギーE(n)(nはフ
レーム番号)と零交差回数Nz(n)という2つの
特徴パラメータに変換される。3は信号のエネル
ギーレベルにより確実に音声区間であるという部
分を検出する始端・終端候補決定部であり、信号
エネルギーE(n)に対対し2つの閾値E1,E2
(E1>E2)を適用し音声の始端候補n1、終端候補
n2を求める。これは第3図aの例に示すように、
エネルギーの値がE2を越え、かつその後E2以下
になることなしにE1を越えるとき、音声区間に
入つたとみなし、E2を越えた点を始端候補n1とす
るものである。終端候補n2は時間軸を逆にして、
同様の方法で決定する。第2図の4は音声の始
端・終端決定部である。ここでは、零交差回数算
出部2で計算された信号の零交差回数Nz(n)と
閾値Noを用いて、エネルギーE(n)は小さいが
零交差回数Nz(n)が大きな値をとる無声音が、
始端・終端候補決定部3で定められた音声の始
端・終端候補(n1,n2)の外側にないか検査す
る。第3図bの例に示すように、始端候補n1より
前の数フレームの区間において零交差回数Nz
(n)が閾値Noより大となるフレームの数を数
え、その数が一定値(たとえば3)以上であれば
始端候補n1より前に無声音があるとみなし最初に
閾値Noを越えたフレームn′1に始端を移す。終端
についても同様である。ただし、第3図bでは終
端n2はもとのままである場合を示している。この
ようにして最終的な音声の始端、終端(n′1、n2)
が決定される。
しかし、上記のように零交差回数を用いた方法
では、エネルギーが小さく零交差回数も小さい有
声子音(例えば、/b/、/d/)などの脱落を
減小することはできない。また、音声の始端、終
端には唇を開けたときの雑音とか呼吸音による雑
音が付加しやすい。第4図a,bは上記雑音が付
加した音声のエネルギー変化を示したもので、a
は唇の動きによる雑音が始端に付加した場合の例
として異様(/ijoo/)という音声のパワー変化
を示し、bは呼吸音による雑音が始端に付加した
場合の例として出場(/ideju/)という音声の
パワー変化を示したものである。図に示した例の
ような場合、従来例では始端は雑音部分となつて
しまう。このように、従来例による方法では始
端、終端の位置を誤つてしまい音素の脱落や雑音
による音素の付加がさけられない場合があるとい
う欠点がある。
では、エネルギーが小さく零交差回数も小さい有
声子音(例えば、/b/、/d/)などの脱落を
減小することはできない。また、音声の始端、終
端には唇を開けたときの雑音とか呼吸音による雑
音が付加しやすい。第4図a,bは上記雑音が付
加した音声のエネルギー変化を示したもので、a
は唇の動きによる雑音が始端に付加した場合の例
として異様(/ijoo/)という音声のパワー変化
を示し、bは呼吸音による雑音が始端に付加した
場合の例として出場(/ideju/)という音声の
パワー変化を示したものである。図に示した例の
ような場合、従来例では始端は雑音部分となつて
しまう。このように、従来例による方法では始
端、終端の位置を誤つてしまい音素の脱落や雑音
による音素の付加がさけられない場合があるとい
う欠点がある。
発明の目的
本発明は上記欠点に鑑み、音声の脱落、雑音の
付加が少なく、位置精度の高い音声の始端、終端
検出装置を提供するものである。
付加が少なく、位置精度の高い音声の始端、終端
検出装置を提供するものである。
発明の構成
上記目的を達成するためには、信号のエネルギ
ーとスペクトル形状によりフレーム毎(例えば
10msec)に有音・無音の判定を行なう有音・無
音判定部と、フレーム毎の有音・無音判定結果の
持続性により音声の始端・終端候補を検出する部
分と、無音から有音またはその逆の有音から無音
に変化する場合における信号のエネルギーの変化
とスペクトルの変化の大きさという動的な特徴に
より始端・終端の位置を決定する部分とを備え、
入力された音声を含む信号から音声の始端・終端
の位置を検出するようにしたものである。
ーとスペクトル形状によりフレーム毎(例えば
10msec)に有音・無音の判定を行なう有音・無
音判定部と、フレーム毎の有音・無音判定結果の
持続性により音声の始端・終端候補を検出する部
分と、無音から有音またはその逆の有音から無音
に変化する場合における信号のエネルギーの変化
とスペクトルの変化の大きさという動的な特徴に
より始端・終端の位置を決定する部分とを備え、
入力された音声を含む信号から音声の始端・終端
の位置を検出するようにしたものである。
実施例の説明
以下、本発明の実施例について図面を参照しな
がら説明する。
がら説明する。
第5図は本発明の一実施例における音声認識装
置に組込まれた音声の始端・終端検出装置のブロ
ツク図を示したものである。図において5はエネ
ルギー抽出部で、整流平滑回路で構成され信号の
パワーをフレーム毎に抽出する。6はスペクトル
形状抽出部で、例えば、低域(250〜600Hz)、中
域(600〜1500Hz)、高域(1500〜4000Hz)の3種
類の帯域通過フイルタ群と整流平滑回路で構成さ
れ、各帯域におけるフレーム毎のパワーがスペク
トル情報として用いられている。エネルギー抽出
部5とスペクトル形状抽出部6とで特徴量抽出部
13を構成する。7はマルチプレクサで、エネル
ギー抽出部5からの信号のパワーとスペクトル形
状抽出部6からの帯域フイルタパワーを時分割で
有音・無音判定部8へ入力するためのものであ
る。8は有音・無音判定部で、無音、無声音、有
声音の判別を行うためのものである。9,10は
閾値メモリと標準パターンメモリであり有音・無
音判定部8で用いられる定数値が格納されてい
る。閾値メモリ9には、パワーの2つの閾値E1,
E2(E1>E2)が格納してある。また、標準パター
ンメモリ10には、無音・無声音を判別するため
の線形判別関数と無音・有声音を判別するための
線形判別関数の2種類の線形判別関数の係数が格
納されている。そして、これら2つの閾値E1,
E2と2つの線形判別関数の係数は、あらかじめ
使用する環境下で発声された音声データの統計処
理により求められ、格納されている。11は始
端・終端候補検出部であり、有音・無音判定部8
より送られてくるフレーム毎の有音・無音判定結
果の持続時間により、音声の始端・終端候補を検
出する。12は始端・終端決定部で、最終的な始
端・終端を決定する。なお、第5図8〜12はマ
イクロプロセツサ1台で構成される。
置に組込まれた音声の始端・終端検出装置のブロ
ツク図を示したものである。図において5はエネ
ルギー抽出部で、整流平滑回路で構成され信号の
パワーをフレーム毎に抽出する。6はスペクトル
形状抽出部で、例えば、低域(250〜600Hz)、中
域(600〜1500Hz)、高域(1500〜4000Hz)の3種
類の帯域通過フイルタ群と整流平滑回路で構成さ
れ、各帯域におけるフレーム毎のパワーがスペク
トル情報として用いられている。エネルギー抽出
部5とスペクトル形状抽出部6とで特徴量抽出部
13を構成する。7はマルチプレクサで、エネル
ギー抽出部5からの信号のパワーとスペクトル形
状抽出部6からの帯域フイルタパワーを時分割で
有音・無音判定部8へ入力するためのものであ
る。8は有音・無音判定部で、無音、無声音、有
声音の判別を行うためのものである。9,10は
閾値メモリと標準パターンメモリであり有音・無
音判定部8で用いられる定数値が格納されてい
る。閾値メモリ9には、パワーの2つの閾値E1,
E2(E1>E2)が格納してある。また、標準パター
ンメモリ10には、無音・無声音を判別するため
の線形判別関数と無音・有声音を判別するための
線形判別関数の2種類の線形判別関数の係数が格
納されている。そして、これら2つの閾値E1,
E2と2つの線形判別関数の係数は、あらかじめ
使用する環境下で発声された音声データの統計処
理により求められ、格納されている。11は始
端・終端候補検出部であり、有音・無音判定部8
より送られてくるフレーム毎の有音・無音判定結
果の持続時間により、音声の始端・終端候補を検
出する。12は始端・終端決定部で、最終的な始
端・終端を決定する。なお、第5図8〜12はマ
イクロプロセツサ1台で構成される。
以上のように構成された音声の始端・終端検出
装置についてその動作を説明する。
装置についてその動作を説明する。
マイク等より入力される音声を含む信号は第5
図のエネルギー抽出部5およびスペクトル形状抽
出部6によりフレーム毎にパワーPWと3つの帯
域パワーPi(i=1〜3)に変換される。この
PW、Piはマルチプレクサ7を経て有音・無音判
定部8に入力される。有音・無音判定部8では入
力されたPW、Pi(i=1〜3)の4つのパラメ
ータを対数変換し対数パワーLPWと対数帯域パ
ワーLPi(i=1〜3)を求める。そして、LPW
とLPi(i=1〜3)の4つのパラメータと閾値
メモリ9と標準パターンメモリ10に格納されて
いる閾値E1,E2と2つの線形判別関数の係数と
を用いて、入力されたフレームが有音であるか無
音であるかを判定する。この有音・無音判定はま
ず最初に2つのエネルギー閾値E1,E2(E1>E2)
と対数パワーLPWとの比較による判定が行なわ
れる。2つの閾値E1,E2はLPW>E1ならば確実
に有音であり、LPW<E2ならば確実に無音であ
るという値に設定されているため判定結果は式(1)
に示すようなものとなる。
図のエネルギー抽出部5およびスペクトル形状抽
出部6によりフレーム毎にパワーPWと3つの帯
域パワーPi(i=1〜3)に変換される。この
PW、Piはマルチプレクサ7を経て有音・無音判
定部8に入力される。有音・無音判定部8では入
力されたPW、Pi(i=1〜3)の4つのパラメ
ータを対数変換し対数パワーLPWと対数帯域パ
ワーLPi(i=1〜3)を求める。そして、LPW
とLPi(i=1〜3)の4つのパラメータと閾値
メモリ9と標準パターンメモリ10に格納されて
いる閾値E1,E2と2つの線形判別関数の係数と
を用いて、入力されたフレームが有音であるか無
音であるかを判定する。この有音・無音判定はま
ず最初に2つのエネルギー閾値E1,E2(E1>E2)
と対数パワーLPWとの比較による判定が行なわ
れる。2つの閾値E1,E2はLPW>E1ならば確実
に有音であり、LPW<E2ならば確実に無音であ
るという値に設定されているため判定結果は式(1)
に示すようなものとなる。
LPW>E1 ならば 有音
LPW<E2 ならば 無音
E2LPWE1 ならば 不定 式(1)
LPWというエネルギー量を用いた判定で不定
という判定結果を得た場合は、さらにスペクトル
形状による有音・無音判定を行なう。これは、低
域、中域、高域の3つの帯域の対数パワーLPi
(i=1〜3)をスペクトル形状を表わすパラメ
ータとし、標準パターンメモリ10に格納してあ
る2種類の線形判別関数の係数を用い判別関数の
値を計算することにより有音・無音を判定するも
のである。この2つの線形判別関数のうち1つは
有音/無声音を判別するためのものであり、もう
1つは有音/無声音を判別するためのものであ
る。線形判別関数FXは式(2)に示すものであり、
標準パターンメモリ10には式(2)のAi(i=1〜
3)とi(i=1〜3)が無音/無声音、無
音/有声音という2種類の線形判別関数毎に格納
されている。
という判定結果を得た場合は、さらにスペクトル
形状による有音・無音判定を行なう。これは、低
域、中域、高域の3つの帯域の対数パワーLPi
(i=1〜3)をスペクトル形状を表わすパラメ
ータとし、標準パターンメモリ10に格納してあ
る2種類の線形判別関数の係数を用い判別関数の
値を計算することにより有音・無音を判定するも
のである。この2つの線形判別関数のうち1つは
有音/無声音を判別するためのものであり、もう
1つは有音/無声音を判別するためのものであ
る。線形判別関数FXは式(2)に示すものであり、
標準パターンメモリ10には式(2)のAi(i=1〜
3)とi(i=1〜3)が無音/無声音、無
音/有声音という2種類の線形判別関数毎に格納
されている。
FX=3
〓i=1
Ai(LPi−i) ……式(2)
(ただし、Aiは係数、iは平均値)
式(2)におけるAiは2つのクラスの最適な判別を
行なうように設定され2つのクラスの級内分散、
級間分散の比であるFisher比の最大化条件から求
められる。本実施例において、式(2)のAiおよび
LPiはあらかじめ使用環境下で発声された音声デ
ータの無音・無声音・有声音を統計処理して求め
られる。そしてFXの値は入力が無音のとき負で、
入力が無声音あるいは有声音のときは正の値をと
るように設定してある。したがつて、スペクトル
形状による有音、無音判定は無音/無声音と無
音/有声音の2つの線形判別関数を計算しいずれ
か一方でも正の値をとるならば有音、2つとも負
の値ならば無音と判定する。このようにして得ら
れたフレーム毎の有音・無音の判定結果は第5図
の始端・終端候補検出部11に送られる。始端・
終端候補検出部11ではフレーム毎に得られる有
音・無音の判定結果の持続時間により音声の始端
候補および終端候補を検出する。11の始端・終
端候補検出部はマイクロプロセツサの2つのレジ
スタをカウンタとして用い、さらに比較演算機能
を用いて構成される。そして、始端候補検出にお
いては1つのカウンタだけを用い、終端候補検出
ではカウンタを2つとも用いている。第6図は始
端候補検出のための処理の流れを示したものであ
る。第6図は有音と判定されたフレームが5フレ
ーム以上連続したときその先頭のフレームを始端
候補とすることを示している。第6図の処理イは
有音フレームのカウンタ(第6図のCOUNT)、
始端候補フレーム番号格納領域(第6図
FRAMES)そして処理フレームポジシヨン(第
6図I)の初期化のためのリセツトである。第6
図処理ロは処理フレームポジシヨンの更新であ
る。処理ハは処理フレームが有音であるか無音で
あるかの比較による分岐である。処理しているフ
レームが有音である場合は有音フレームのカウン
タ(COUNT)に1を加える(第6図処理ニ)。
さらに、始端候補フレーム番号格納領域
(FRAMES)が0にリセツトされたままである
場合は現在処理を行なつているフレームの番号
(I)を格納する(処理ホ,ヘ)。処理トでは有音
フレームのカウンタ5になつたかの判定を行な
う。そして、カウンタが5以下の場合は処理ロに
戻り、カウンタが5以上になつた場合は始端候補
が検出されたということで始端候補検出処理を終
了する。処理が終了するまでの間に処理ハにおい
て無音であるというフレームがあつた場合は、処
理チにおいて有音フレームカウンタおよび始端候
補フレーム番号格納領域はリセツトされ処理はロ
に戻る。有音フレームカウンタは無音フレームが
あると処理チによりリセツトされるため有音が連
続したフレーム数のカウンタとなる。したがつ
て、処理トの判定は有音が5フレーム以上連続し
たかの判定となる。したがつて、音声の始端の前
に唇の動きによる雑音などで有声と判定されたフ
レームが2〜3フレームあつてもその後に1フレ
ームでも無音と判定されるフレームがあればそれ
は除去される。このようにして始端候補が検出さ
れると次に終端候補検出のための処理が行なわれ
る。第7図は終端候補検出のための処理の流れを
示したものである。
行なうように設定され2つのクラスの級内分散、
級間分散の比であるFisher比の最大化条件から求
められる。本実施例において、式(2)のAiおよび
LPiはあらかじめ使用環境下で発声された音声デ
ータの無音・無声音・有声音を統計処理して求め
られる。そしてFXの値は入力が無音のとき負で、
入力が無声音あるいは有声音のときは正の値をと
るように設定してある。したがつて、スペクトル
形状による有音、無音判定は無音/無声音と無
音/有声音の2つの線形判別関数を計算しいずれ
か一方でも正の値をとるならば有音、2つとも負
の値ならば無音と判定する。このようにして得ら
れたフレーム毎の有音・無音の判定結果は第5図
の始端・終端候補検出部11に送られる。始端・
終端候補検出部11ではフレーム毎に得られる有
音・無音の判定結果の持続時間により音声の始端
候補および終端候補を検出する。11の始端・終
端候補検出部はマイクロプロセツサの2つのレジ
スタをカウンタとして用い、さらに比較演算機能
を用いて構成される。そして、始端候補検出にお
いては1つのカウンタだけを用い、終端候補検出
ではカウンタを2つとも用いている。第6図は始
端候補検出のための処理の流れを示したものであ
る。第6図は有音と判定されたフレームが5フレ
ーム以上連続したときその先頭のフレームを始端
候補とすることを示している。第6図の処理イは
有音フレームのカウンタ(第6図のCOUNT)、
始端候補フレーム番号格納領域(第6図
FRAMES)そして処理フレームポジシヨン(第
6図I)の初期化のためのリセツトである。第6
図処理ロは処理フレームポジシヨンの更新であ
る。処理ハは処理フレームが有音であるか無音で
あるかの比較による分岐である。処理しているフ
レームが有音である場合は有音フレームのカウン
タ(COUNT)に1を加える(第6図処理ニ)。
さらに、始端候補フレーム番号格納領域
(FRAMES)が0にリセツトされたままである
場合は現在処理を行なつているフレームの番号
(I)を格納する(処理ホ,ヘ)。処理トでは有音
フレームのカウンタ5になつたかの判定を行な
う。そして、カウンタが5以下の場合は処理ロに
戻り、カウンタが5以上になつた場合は始端候補
が検出されたということで始端候補検出処理を終
了する。処理が終了するまでの間に処理ハにおい
て無音であるというフレームがあつた場合は、処
理チにおいて有音フレームカウンタおよび始端候
補フレーム番号格納領域はリセツトされ処理はロ
に戻る。有音フレームカウンタは無音フレームが
あると処理チによりリセツトされるため有音が連
続したフレーム数のカウンタとなる。したがつ
て、処理トの判定は有音が5フレーム以上連続し
たかの判定となる。したがつて、音声の始端の前
に唇の動きによる雑音などで有声と判定されたフ
レームが2〜3フレームあつてもその後に1フレ
ームでも無音と判定されるフレームがあればそれ
は除去される。このようにして始端候補が検出さ
れると次に終端候補検出のための処理が行なわれ
る。第7図は終端候補検出のための処理の流れを
示したものである。
第7図の処理イは無音フレームのカウンタ(第
7図のCOUNT1)、有音フレームのカウンタ(第
7図のCOUNT2)そして終端候補フレーム番号
格納領域(第7図FRAMEE)の初期化のための
リセツトである。第7図処理ロは処理フレームポ
ジシヨン(第7図I)の更新である。処理ハは処
理フレームが有音であるか無音であるかの比較に
よる分岐である。処理しているフレームが無音で
ある場合は無音フレームカウンタを更新し、有音
フレームカウンタをリセツトする(処理ニ,ホ)。
さらに無音カウンタが2以上でかつ終端フレーム
番号格納領域がリセツトされている場合には無音
フレームカウンタが1となつたフレームの番号を
終端候補フレームとして終端フレーム格納領域に
格納する(処理ヘ,ト)。処理チでは無音フレー
ムカウンタが30になつたかの判定を行なう。そし
て、無音フレームカウンタが30未満の場合は処理
ロに戻り、30以上となつた場合は音声が終了した
とみなし処理を終了する。処理ハにおいて有音で
あつた場合に分岐する処理リ,ヌ,ルは終端候補
フレームが格納されてから有音のフレームが何フ
レーム連続したかの処理で5フレーム以上連続し
た場合は、音声は終了していないとみなし処理イ
に戻り終端候補検出をやり直す。有音フレームが
5フレーム未満の場合は雑音とみなし、その区間
は無音区間であるということで処理ニにおいて無
音フレームカウンタにその区間長が加えられる。
7図のCOUNT1)、有音フレームのカウンタ(第
7図のCOUNT2)そして終端候補フレーム番号
格納領域(第7図FRAMEE)の初期化のための
リセツトである。第7図処理ロは処理フレームポ
ジシヨン(第7図I)の更新である。処理ハは処
理フレームが有音であるか無音であるかの比較に
よる分岐である。処理しているフレームが無音で
ある場合は無音フレームカウンタを更新し、有音
フレームカウンタをリセツトする(処理ニ,ホ)。
さらに無音カウンタが2以上でかつ終端フレーム
番号格納領域がリセツトされている場合には無音
フレームカウンタが1となつたフレームの番号を
終端候補フレームとして終端フレーム格納領域に
格納する(処理ヘ,ト)。処理チでは無音フレー
ムカウンタが30になつたかの判定を行なう。そし
て、無音フレームカウンタが30未満の場合は処理
ロに戻り、30以上となつた場合は音声が終了した
とみなし処理を終了する。処理ハにおいて有音で
あつた場合に分岐する処理リ,ヌ,ルは終端候補
フレームが格納されてから有音のフレームが何フ
レーム連続したかの処理で5フレーム以上連続し
た場合は、音声は終了していないとみなし処理イ
に戻り終端候補検出をやり直す。有音フレームが
5フレーム未満の場合は雑音とみなし、その区間
は無音区間であるということで処理ニにおいて無
音フレームカウンタにその区間長が加えられる。
終端候補は無音フレームが2フレーム連続した
とき音声の終了の可能性があるとし先頭の無音フ
レームを音声の終了候補とし、その終了候補フレ
ームから29フレームの間に有音フレームが5フレ
ーム以上連続することがない場合は先の終了候補
フレームを終端候補とする。もし、終了候補から
29フレーム後の間に有音フレームが5フレーム以
上連続した場合は、音声はまだ終了していないと
し、カウンタおよび終了候補フレームをすべてリ
セツトし第7図に示す終端検出処理を次のフレー
ムからやり直す。このような処理により終端に付
加された4フレーム以下の雑音は取り除かれる。
始端・終端決定部12では始端・終端候補検出部
11により検出された始端・終端候補フレーム付
近におけるパワーLPWとスペクトルLPiの変化の
大きさにより最終的な始端・終端を決定する。パ
ワーの変化の大きさを表わすパラメータとしては
式(3)に示すようにフレーム毎に得られる対数パワ
ーLPWの差分値LPWDが用いられる。
とき音声の終了の可能性があるとし先頭の無音フ
レームを音声の終了候補とし、その終了候補フレ
ームから29フレームの間に有音フレームが5フレ
ーム以上連続することがない場合は先の終了候補
フレームを終端候補とする。もし、終了候補から
29フレーム後の間に有音フレームが5フレーム以
上連続した場合は、音声はまだ終了していないと
し、カウンタおよび終了候補フレームをすべてリ
セツトし第7図に示す終端検出処理を次のフレー
ムからやり直す。このような処理により終端に付
加された4フレーム以下の雑音は取り除かれる。
始端・終端決定部12では始端・終端候補検出部
11により検出された始端・終端候補フレーム付
近におけるパワーLPWとスペクトルLPiの変化の
大きさにより最終的な始端・終端を決定する。パ
ワーの変化の大きさを表わすパラメータとしては
式(3)に示すようにフレーム毎に得られる対数パワ
ーLPWの差分値LPWDが用いられる。
LPWDj=LPWj−LPWj-1 ……式(3)
(ただし、jはフレーム番号)
また、スペクトルの変化の大きさを表わすパラ
メータとしては式(4)に示す帯域対数パワーLPiの
ユークリツド距離SPDを用いる。
メータとしては式(4)に示す帯域対数パワーLPiの
ユークリツド距離SPDを用いる。
SPDj=3
〓i=1
(LPij-LPij-1)2 ……(4)
(ただし、iは帯域を表わし、jはフレーム番号
を表わす) LPWDというパラメータはパワーが増加して
いる場合正の値をとり、パワーが減少している場
合は負の値をとる。また、SPDは無音から有音
へと変化する場合のようにスペクトルの形状が大
きく変化するところでは大きな値をとる。始端の
決定はまず始めにLPWDが正の値をとるフレー
ムを始端候補から後端に向つて検索する。次に
LPWDが最初に正となつたフレームから後2フ
レームの計3フレームの中でLPWDが正の値で
SPDが最大となるフレームを求め、そのフレー
ムを始端フレームと決定する。
を表わす) LPWDというパラメータはパワーが増加して
いる場合正の値をとり、パワーが減少している場
合は負の値をとる。また、SPDは無音から有音
へと変化する場合のようにスペクトルの形状が大
きく変化するところでは大きな値をとる。始端の
決定はまず始めにLPWDが正の値をとるフレー
ムを始端候補から後端に向つて検索する。次に
LPWDが最初に正となつたフレームから後2フ
レームの計3フレームの中でLPWDが正の値で
SPDが最大となるフレームを求め、そのフレー
ムを始端フレームと決定する。
終端の決定は、まず始めにLPWDが負の値を
とるフレームを終端候補フレームから始端方向に
向つて検索する。次にLPWDが最初に負となつ
たフレームから2フレーム前の計3フレームの中
でLPWDが負の値でSPDが最大となるフレーム
を求め、そのフレームの1つ前のフレームを終端
フレームと決定する。このようにして得られた始
端・終端は音声認識装置にて利用される。
とるフレームを終端候補フレームから始端方向に
向つて検索する。次にLPWDが最初に負となつ
たフレームから2フレーム前の計3フレームの中
でLPWDが負の値でSPDが最大となるフレーム
を求め、そのフレームの1つ前のフレームを終端
フレームと決定する。このようにして得られた始
端・終端は音声認識装置にて利用される。
本実施例によれば、有音・無音判定部8におい
てエネルギーレベルが低い入力信号に対し、線形
判別関数を用い無音とのスペクトル形状の相異に
より有音であるか判定する方法をとつているた
め、エネルギーの小さな無声子音や有声子音の脱
落を減少することができる。また、始端・終端候
補検出部11において、音声の持続性を考慮した
検出を行なつているので、音声の始端・終端前後
に付加された短かい雑音を取り除くことができ
る。さらに、始端・終端決定部12では、無音か
ら有音あるいは逆の場合におけるエネルギーの変
化とスペクトル形状の変化の大きさを利用して始
端・終端の位置を決定しているために位置精度の
高い音声の始端・終端を得ることができる。第8
図は「土台」(/dodai/)と発声された音声に
本発明の一実施例における始端・終端検出を適応
した例で、第8図aは対数パワーLPWを示し、
bはスペクトル変化SPD、cはパワー変化
LPWD、dの実線は無音/無声音を判別する線
形判別関数の値、破線は無音/有声音を判別する
線形判別関数の値を示したものである。第8図の
例においては、始端・終端にそれぞれ雑音が見ら
れる。フレーム毎の無音・有音判定部8では、
LPWがE1以上であるか、またはLPWがE1とE2の
間にある場合はdに示す二つの線形判別関数の正
負を勘案することにより、aに示すイからロおよ
びハからニの区間を有音と判定する。これにより
始端の雑音が取り除かれる。始端・終端候補検出
部11においては、有音・無音フレームの持続性
により始端候補フレームをイとし、終端候補フレ
ームをロとする。このときハからニの有音区間は
5フレーム未満であるため雑音と判定される。そ
して、始端・終端決定部12では対数パワーの変
化cとスペクトルの変化bにより始端イ′、終端
ロ′が決定され雑音が除去された正しい始端・終
端の位置が得られる。あらかじめ目視による始
端・終端のラベル付けが行なわれている男性話者
1名が発声した212単語を用いて本発明の一実施
例の評価実験を行なつた結果、ラベルとの差が2
フレーム以内となるものが始端で93.4%、終端
92.9%、ラベルとの差が3フレーム以内となるも
のが始端で97.6%、終端で97.2%という結果を得
た。そして、始端の音素脱落という重大な誤りは
2単語、終端の音素脱落という重大な誤りは2単
語と少なく、また雑音の付加による誤りはなく、
良好な結果を得ることができ、本発明による音声
の始端・終端検出装置が有効に動作することを確
めることができた。
てエネルギーレベルが低い入力信号に対し、線形
判別関数を用い無音とのスペクトル形状の相異に
より有音であるか判定する方法をとつているた
め、エネルギーの小さな無声子音や有声子音の脱
落を減少することができる。また、始端・終端候
補検出部11において、音声の持続性を考慮した
検出を行なつているので、音声の始端・終端前後
に付加された短かい雑音を取り除くことができ
る。さらに、始端・終端決定部12では、無音か
ら有音あるいは逆の場合におけるエネルギーの変
化とスペクトル形状の変化の大きさを利用して始
端・終端の位置を決定しているために位置精度の
高い音声の始端・終端を得ることができる。第8
図は「土台」(/dodai/)と発声された音声に
本発明の一実施例における始端・終端検出を適応
した例で、第8図aは対数パワーLPWを示し、
bはスペクトル変化SPD、cはパワー変化
LPWD、dの実線は無音/無声音を判別する線
形判別関数の値、破線は無音/有声音を判別する
線形判別関数の値を示したものである。第8図の
例においては、始端・終端にそれぞれ雑音が見ら
れる。フレーム毎の無音・有音判定部8では、
LPWがE1以上であるか、またはLPWがE1とE2の
間にある場合はdに示す二つの線形判別関数の正
負を勘案することにより、aに示すイからロおよ
びハからニの区間を有音と判定する。これにより
始端の雑音が取り除かれる。始端・終端候補検出
部11においては、有音・無音フレームの持続性
により始端候補フレームをイとし、終端候補フレ
ームをロとする。このときハからニの有音区間は
5フレーム未満であるため雑音と判定される。そ
して、始端・終端決定部12では対数パワーの変
化cとスペクトルの変化bにより始端イ′、終端
ロ′が決定され雑音が除去された正しい始端・終
端の位置が得られる。あらかじめ目視による始
端・終端のラベル付けが行なわれている男性話者
1名が発声した212単語を用いて本発明の一実施
例の評価実験を行なつた結果、ラベルとの差が2
フレーム以内となるものが始端で93.4%、終端
92.9%、ラベルとの差が3フレーム以内となるも
のが始端で97.6%、終端で97.2%という結果を得
た。そして、始端の音素脱落という重大な誤りは
2単語、終端の音素脱落という重大な誤りは2単
語と少なく、また雑音の付加による誤りはなく、
良好な結果を得ることができ、本発明による音声
の始端・終端検出装置が有効に動作することを確
めることができた。
なお、以上の説明ではスペクトル形状を表わす
パラメータとして帯域対数パワーを用いた有音・
無音の判定として線形判別関数を用いた場合につ
いて説明したが、スペクトル形状を表わすパラメ
ータとして信号のフーリエ変換や線形予測分析に
より得られるパワースペクトルや線形予測分析に
より得られるLPC−ケプストラム係数を用い、
有音・無音の判定法としてベイズ判定やマハラノ
ビス距離などの統計的距離尺度を用いても良い。
パラメータとして帯域対数パワーを用いた有音・
無音の判定として線形判別関数を用いた場合につ
いて説明したが、スペクトル形状を表わすパラメ
ータとして信号のフーリエ変換や線形予測分析に
より得られるパワースペクトルや線形予測分析に
より得られるLPC−ケプストラム係数を用い、
有音・無音の判定法としてベイズ判定やマハラノ
ビス距離などの統計的距離尺度を用いても良い。
発明の効果
以上のように、本発明は信号のエネルギー情報
だけでなくスペクトル形状をも用いたフレーム毎
の有音・無音判定部と、音声の持続性を考慮した
始端・終端候補検出部と、エネルギーの変化およ
びスペクトル形状の変化量により始端・終端位置
を決定する決定部により構成される音声の始端・
終端検出装置を提供するもので、有音・無音判定
として、無音・無声音・有声音のスペクトル標準
パターンとの統計的距離尺度を用いたスペクトル
形状の相異を利用しているため、エネルギーの小
さな無声子音や有声子音の脱落を少なくでき、ま
た有音の持続性による始端・終端候補検出を行な
つているため雑音の付加が少なく、しかもエネル
ギーとスペクトルの変化の大きさにより始端・終
端の位置を決定するための位置情報が高いという
すぐれた効果が得られる。
だけでなくスペクトル形状をも用いたフレーム毎
の有音・無音判定部と、音声の持続性を考慮した
始端・終端候補検出部と、エネルギーの変化およ
びスペクトル形状の変化量により始端・終端位置
を決定する決定部により構成される音声の始端・
終端検出装置を提供するもので、有音・無音判定
として、無音・無声音・有声音のスペクトル標準
パターンとの統計的距離尺度を用いたスペクトル
形状の相異を利用しているため、エネルギーの小
さな無声子音や有声子音の脱落を少なくでき、ま
た有音の持続性による始端・終端候補検出を行な
つているため雑音の付加が少なく、しかもエネル
ギーとスペクトルの変化の大きさにより始端・終
端の位置を決定するための位置情報が高いという
すぐれた効果が得られる。
第1図は従来用いられている零交差回数の分布
図、第2図は従来の始端・終端検出装置のブロツ
ク図、第3図は従来の始端・終端検出装置の動作
例を説明する図、第4図は従来で雑音が付加した
音声のエネルギー変化を示す図、第5図は本発明
の一実施例における音声の始端・終端検出装置の
ブロツク図、第6図は本発明の一実施例における
始端候補検出処理を示すフローチヤート図、第7
図は本発明の一実施例における終端候補検出処理
を示すフローチヤート図、第8図は本発明の一実
施例における動作例を説明する図である。 5……エネルギー抽出部、6……スペクトル形
状抽出部、7……マルチプレクサ、8……有音・
無音判定部、9……閾値メモリ、10……標準パ
ターンメモリ、11……始端・終端候補検出部、
12……始端・終端決定部、13……特徴量抽出
部。
図、第2図は従来の始端・終端検出装置のブロツ
ク図、第3図は従来の始端・終端検出装置の動作
例を説明する図、第4図は従来で雑音が付加した
音声のエネルギー変化を示す図、第5図は本発明
の一実施例における音声の始端・終端検出装置の
ブロツク図、第6図は本発明の一実施例における
始端候補検出処理を示すフローチヤート図、第7
図は本発明の一実施例における終端候補検出処理
を示すフローチヤート図、第8図は本発明の一実
施例における動作例を説明する図である。 5……エネルギー抽出部、6……スペクトル形
状抽出部、7……マルチプレクサ、8……有音・
無音判定部、9……閾値メモリ、10……標準パ
ターンメモリ、11……始端・終端候補検出部、
12……始端・終端決定部、13……特徴量抽出
部。
Claims (1)
- 【特許請求の範囲】 1 音声を含む信号から一定時間長の区間毎に信
号のエネルギーとスペクトル形状を表わす特徴量
を抽出する特徴量抽出部と、前記特徴量を用いて
入力された信号が有音であるか無音であるか一定
時間長の区間毎に判定する有音・無音判定部と、
前記有音・無音の判定結果の時系列を用い判定結
果の持続時間により音声の始端・終端の候補を検
出する始端・終端候補検出部と、始端・終端候補
の前後における信号のエネルギー変化とスペクト
ルの変化の大きさを用いて始端・終端の位置を決
定する始端・終端決定部とを具備することを特徴
とする音声の始端・終端検出装置。 2 信号のスペクトル形状を表わす特徴量とし
て、帯域フイルタ群、フーリエ変換若しくは線形
予測分析のいずれかの方法により求められるパワ
ースペクトルまたは線形予測分析により得られる
LPCケプストラム係数のいずれかを用いること
を特徴とする特許請求の範囲第1項記載の音声の
始端・終端検出装置。 3 有音・無音判定部が、信号のエネルギーと二
つの閾値との比較を行う第1判定部と、無音、無
声音、有声音の三つの標準パターンと入力信号の
スペクトルとの統計的距離尺度を用いスペクトル
の類似度による判定を行う第2判定部とを備え、
前記統計的距離尺度として線形判別関数、マハラ
ノビス距離、ベイズ判定のいずれかを用いること
を特徴とする特許請求の範囲第1項記載の音声の
始端・終端検出装置。 4 始端・終端決定部のスペクトルの変化の大き
さを表わす特徴量として、一定時間長の区間にお
けるスペクトルを表わす特徴量と前の区間のスペ
クトルを表わす特徴量とのユークリツド距離を用
いることを特徴とする特許請求の範囲第1項記載
の音声の始端・終端検出装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59056622A JPS60200300A (ja) | 1984-03-23 | 1984-03-23 | 音声の始端・終端検出装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59056622A JPS60200300A (ja) | 1984-03-23 | 1984-03-23 | 音声の始端・終端検出装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60200300A JPS60200300A (ja) | 1985-10-09 |
| JPH0222960B2 true JPH0222960B2 (ja) | 1990-05-22 |
Family
ID=13032381
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59056622A Granted JPS60200300A (ja) | 1984-03-23 | 1984-03-23 | 音声の始端・終端検出装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60200300A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000132177A (ja) * | 1998-10-20 | 2000-05-12 | Canon Inc | 音声処理装置及び方法 |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS62244100A (ja) * | 1986-04-17 | 1987-10-24 | 株式会社リコー | 音声区間検出方式 |
| JPH07101354B2 (ja) * | 1986-12-26 | 1995-11-01 | 松下電器産業株式会社 | 音声区間検出装置 |
| JPH0795239B2 (ja) * | 1987-04-03 | 1995-10-11 | アメリカン テレフォン アンド テレグラフ カムパニー | 音声フレーム中の基本周波数の存在を検出する装置および方法 |
| DE3874471T2 (de) * | 1987-04-03 | 1993-02-25 | American Telephone & Telegraph | Abstandsmessungskontrolle eines multidetektorsystems. |
| JPH07113834B2 (ja) * | 1987-05-23 | 1995-12-06 | 日本電気株式会社 | 音声区間検出方式 |
| JPH07113836B2 (ja) * | 1987-05-29 | 1995-12-06 | 日本電気株式会社 | 音声認識装置 |
| JP2656069B2 (ja) * | 1988-05-13 | 1997-09-24 | 富士通株式会社 | 音声検出装置 |
| JP2599974B2 (ja) * | 1988-09-13 | 1997-04-16 | 積水化学工業株式会社 | 音声検出方式 |
| JP2559475B2 (ja) * | 1988-09-22 | 1996-12-04 | 積水化学工業株式会社 | 音声検出方式 |
| JP4758879B2 (ja) * | 2006-12-14 | 2011-08-31 | 日本電信電話株式会社 | 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法 |
-
1984
- 1984-03-23 JP JP59056622A patent/JPS60200300A/ja active Granted
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000132177A (ja) * | 1998-10-20 | 2000-05-12 | Canon Inc | 音声処理装置及び方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60200300A (ja) | 1985-10-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Evangelopoulos et al. | Multiband modulation energy tracking for noisy speech detection | |
| US6615170B1 (en) | Model-based voice activity detection system and method using a log-likelihood ratio and pitch | |
| US4933973A (en) | Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems | |
| JP3180655B2 (ja) | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 | |
| CA2098629C (en) | Speech recognition method using time-frequency masking mechanism | |
| Yoo et al. | Formant-based robust voice activity detection | |
| JPS6336676B2 (ja) | ||
| US4937871A (en) | Speech recognition device | |
| Wilpon et al. | Application of hidden Markov models to automatic speech endpoint detection | |
| JPH0222960B2 (ja) | ||
| Costa et al. | Speech and phoneme segmentation under noisy environment through spectrogram image analysis | |
| JPH0449952B2 (ja) | ||
| JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
| GB2216320A (en) | Selective addition of noise to templates employed in automatic speech recognition systems | |
| Seltzer et al. | Automatic detection of corrupt spectrographic features for robust speech recognition | |
| JPS60129796A (ja) | 音声入力装置 | |
| JPH034918B2 (ja) | ||
| Gulzar et al. | An improved endpoint detection algorithm using bit wise approach for isolated, spoken paired and Hindi hybrid paired words | |
| JP2557497B2 (ja) | 男女声の識別方法 | |
| Seman et al. | Evaluating endpoint detection algorithms for isolated word from Malay parliamentary speech | |
| Cosi | Evidence against frame-based analysis techniques | |
| Kolossa | Performance analysis of wavelet-based voice activity detection | |
| JP2658426B2 (ja) | 音声認識方法 | |
| Amrous et al. | Robust Arabic speech recognition in noisy environments using prosodic features and formant | |
| Ananthapadmanabha et al. | Relative occurrences and difference of extrema for detection of transitions between broad phonetic classes |