JPH0222960B2

JPH0222960B2 -

Info

Publication number: JPH0222960B2
Application number: JP59056622A
Authority: JP
Inventors: Hideji Morii; Satoshi Fujii; Masakatsu Hoshimi
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1984-03-23
Filing date: 1984-03-23
Publication date: 1990-05-22
Also published as: JPS60200300A

Description

【発明の詳細な説明】産業上の利用分野本発明は音声認識装置に用いられる音声の始
端・終端の検出装置に関するものである。

従来例の構成とその問題点音声の始端、終端の検出方法に関する従来例と
しては、信号のエネルギーと零交差回数を用いた
方法が知られている。これは、新美康永：音声認
識、共立出版（1979）、あるいは、L.R.Rabiner
and M.R.Sambur：An algovithm for
determining the endpoint of isolated
utterances、Bell Syst.Tech.J.、（1975）に示さ
れている。

零交差回数というのは信号の符号のみを残し、
振幅を１ビツトに量子化した零交差波の一定時間
長の区間における零交差の平均回数である。音声
のようにスペクトル構造をもつた信号の零交差回
数はスペクトル中の優勢な周波数成分とよく対応
する。第１図ａ〜ｃは音声信号の零交差回数の分
布を示したもので、ａは無音、ｂは無声音、ｃは
有声音の分布である。図から分るように、音声信
号の零交差回数は、有声音のように低域の周波数
成分の優勢は音声では第１図ｃのように小さな値
を示し、無声音のように高域の周波数成分の優勢
な音声では第１図ｂのように大きな値を示す。従
来法による音声の始端・終端検出方法はこの零交
差回数を利用することにより信号のエネルギーは
小さいが、零交差回数は大きな値をとる無声子音
の検出精度を上げた方法である。

以下図面を参照しながら従来例の音声の始端・
終端検出方法について説明する。

第２図は従来例の構成を示したものであり、第
３図は従来例における音声の始端・終端検出方法
の動作を説明するための例を示したものである。
音声を含む信号は第２図に示すエネルギー算出部
１と零交差回数算出部２によりフレーム（例えば
10msec長）毎に信号エネルギーＥ（ｎ）（ｎはフ
レーム番号）と零交差回数Nz（ｎ）という２つの
特徴パラメータに変換される。３は信号のエネル
ギーレベルにより確実に音声区間であるという部
分を検出する始端・終端候補決定部であり、信号
エネルギーＥ（ｎ）に対対し２つの閾値E₁，E₂
（E₁＞E₂）を適用し音声の始端候補n₁、終端候補
n₂を求める。これは第３図ａの例に示すように、
エネルギーの値がE₂を越え、かつその後E₂以下
になることなしにE₁を越えるとき、音声区間に
入つたとみなし、E₂を越えた点を始端候補n₁とす
るものである。終端候補n₂は時間軸を逆にして、
同様の方法で決定する。第２図の４は音声の始
端・終端決定部である。ここでは、零交差回数算
出部２で計算された信号の零交差回数Nz（ｎ）と
閾値Noを用いて、エネルギーＥ（ｎ）は小さいが
零交差回数Nz（ｎ）が大きな値をとる無声音が、
始端・終端候補決定部３で定められた音声の始
端・終端候補（n₁，n₂）の外側にないか検査す
る。第３図ｂの例に示すように、始端候補n₁より
前の数フレームの区間において零交差回数Nz
（ｎ）が閾値Noより大となるフレームの数を数
え、その数が一定値（たとえば３）以上であれば
始端候補n₁より前に無声音があるとみなし最初に
閾値Noを越えたフレームn′₁に始端を移す。終端
についても同様である。ただし、第３図ｂでは終
端n₂はもとのままである場合を示している。この
ようにして最終的な音声の始端、終端（n′₁、n₂）
が決定される。

しかし、上記のように零交差回数を用いた方法
では、エネルギーが小さく零交差回数も小さい有
声子音（例えば、／ｂ／、／ｄ／）などの脱落を
減小することはできない。また、音声の始端、終
端には唇を開けたときの雑音とか呼吸音による雑
音が付加しやすい。第４図ａ，ｂは上記雑音が付
加した音声のエネルギー変化を示したもので、ａ
は唇の動きによる雑音が始端に付加した場合の例
として異様（／ijoo／）という音声のパワー変化
を示し、ｂは呼吸音による雑音が始端に付加した
場合の例として出場（／ideju／）という音声の
パワー変化を示したものである。図に示した例の
ような場合、従来例では始端は雑音部分となつて
しまう。このように、従来例による方法では始
端、終端の位置を誤つてしまい音素の脱落や雑音
による音素の付加がさけられない場合があるとい
う欠点がある。

発明の目的本発明は上記欠点に鑑み、音声の脱落、雑音の
付加が少なく、位置精度の高い音声の始端、終端
検出装置を提供するものである。

発明の構成上記目的を達成するためには、信号のエネルギ
ーとスペクトル形状によりフレーム毎（例えば
10msec）に有音・無音の判定を行なう有音・無
音判定部と、フレーム毎の有音・無音判定結果の
持続性により音声の始端・終端候補を検出する部
分と、無音から有音またはその逆の有音から無音
に変化する場合における信号のエネルギーの変化
とスペクトルの変化の大きさという動的な特徴に
より始端・終端の位置を決定する部分とを備え、
入力された音声を含む信号から音声の始端・終端
の位置を検出するようにしたものである。

実施例の説明以下、本発明の実施例について図面を参照しな
がら説明する。

第５図は本発明の一実施例における音声認識装
置に組込まれた音声の始端・終端検出装置のブロ
ツク図を示したものである。図において５はエネ
ルギー抽出部で、整流平滑回路で構成され信号の
パワーをフレーム毎に抽出する。６はスペクトル
形状抽出部で、例えば、低域（250〜600Hz）、中
域（600〜1500Hz）、高域（1500〜4000Hz）の３種
類の帯域通過フイルタ群と整流平滑回路で構成さ
れ、各帯域におけるフレーム毎のパワーがスペク
トル情報として用いられている。エネルギー抽出
部５とスペクトル形状抽出部６とで特徴量抽出部
１３を構成する。７はマルチプレクサで、エネル
ギー抽出部５からの信号のパワーとスペクトル形
状抽出部６からの帯域フイルタパワーを時分割で
有音・無音判定部８へ入力するためのものであ
る。８は有音・無音判定部で、無音、無声音、有
声音の判別を行うためのものである。９，１０は
閾値メモリと標準パターンメモリであり有音・無
音判定部８で用いられる定数値が格納されてい
る。閾値メモリ９には、パワーの２つの閾値E₁，
E₂（E₁＞E₂）が格納してある。また、標準パター
ンメモリ１０には、無音・無声音を判別するため
の線形判別関数と無音・有声音を判別するための
線形判別関数の２種類の線形判別関数の係数が格
納されている。そして、これら２つの閾値E₁，
E₂と２つの線形判別関数の係数は、あらかじめ
使用する環境下で発声された音声データの統計処
理により求められ、格納されている。１１は始
端・終端候補検出部であり、有音・無音判定部８
より送られてくるフレーム毎の有音・無音判定結
果の持続時間により、音声の始端・終端候補を検
出する。１２は始端・終端決定部で、最終的な始
端・終端を決定する。なお、第５図８〜１２はマ
イクロプロセツサ１台で構成される。

以上のように構成された音声の始端・終端検出
装置についてその動作を説明する。

マイク等より入力される音声を含む信号は第５
図のエネルギー抽出部５およびスペクトル形状抽
出部６によりフレーム毎にパワーPWと３つの帯
域パワーP_i（ｉ＝１〜３）に変換される。この
PW、P_iはマルチプレクサ７を経て有音・無音判
定部８に入力される。有音・無音判定部８では入
力されたPW、P_i（ｉ＝１〜３）の４つのパラメ
ータを対数変換し対数パワーLPWと対数帯域パ
ワーLP_i（ｉ＝１〜３）を求める。そして、LPW
とLP_i（ｉ＝１〜３）の４つのパラメータと閾値
メモリ９と標準パターンメモリ１０に格納されて
いる閾値E₁，E₂と２つの線形判別関数の係数と
を用いて、入力されたフレームが有音であるか無
音であるかを判定する。この有音・無音判定はま
ず最初に２つのエネルギー閾値E₁，E₂（E₁＞E₂）
と対数パワーLPWとの比較による判定が行なわ
れる。２つの閾値E₁，E₂はLPW＞E₁ならば確実
に有音であり、LPW＜E₂ならば確実に無音であ
るという値に設定されているため判定結果は式(1)
に示すようなものとなる。

LPW＞E₁ ならば有音 LPW＜E₂ ならば無音 E₂LPWE₁ ならば不定式(1) LPWというエネルギー量を用いた判定で不定
という判定結果を得た場合は、さらにスペクトル
形状による有音・無音判定を行なう。これは、低
域、中域、高域の３つの帯域の対数パワーLP_i
（ｉ＝１〜３）をスペクトル形状を表わすパラメ
ータとし、標準パターンメモリ１０に格納してあ
る２種類の線形判別関数の係数を用い判別関数の
値を計算することにより有音・無音を判定するも
のである。この２つの線形判別関数のうち１つは
有音／無声音を判別するためのものであり、もう
１つは有音／無声音を判別するためのものであ
る。線形判別関数FXは式(2)に示すものであり、
標準パターンメモリ１０には式(2)のA_i（ｉ＝１〜
３）と_i（ｉ＝１〜３）が無音／無声音、無
音／有声音という２種類の線形判別関数毎に格納
されている。

FX＝₃ 〓ⁱ⁼¹ A_i（LP_i−_i） ……式(2) （ただし、A_iは係数、_iは平均値）式(2)におけるA_iは２つのクラスの最適な判別を
行なうように設定され２つのクラスの級内分散、
級間分散の比であるFisher比の最大化条件から求
められる。本実施例において、式(2)のA_iおよび
LP_iはあらかじめ使用環境下で発声された音声デ
ータの無音・無声音・有声音を統計処理して求め
られる。そしてFXの値は入力が無音のとき負で、
入力が無声音あるいは有声音のときは正の値をと
るように設定してある。したがつて、スペクトル
形状による有音、無音判定は無音／無声音と無
音／有声音の２つの線形判別関数を計算しいずれ
か一方でも正の値をとるならば有音、２つとも負
の値ならば無音と判定する。このようにして得ら
れたフレーム毎の有音・無音の判定結果は第５図
の始端・終端候補検出部１１に送られる。始端・
終端候補検出部１１ではフレーム毎に得られる有
音・無音の判定結果の持続時間により音声の始端
候補および終端候補を検出する。１１の始端・終
端候補検出部はマイクロプロセツサの２つのレジ
スタをカウンタとして用い、さらに比較演算機能
を用いて構成される。そして、始端候補検出にお
いては１つのカウンタだけを用い、終端候補検出
ではカウンタを２つとも用いている。第６図は始
端候補検出のための処理の流れを示したものであ
る。第６図は有音と判定されたフレームが５フレ
ーム以上連続したときその先頭のフレームを始端
候補とすることを示している。第６図の処理イは
有音フレームのカウンタ（第６図のCOUNT）、
始端候補フレーム番号格納領域（第６図
FRAMES）そして処理フレームポジシヨン（第
６図Ｉ）の初期化のためのリセツトである。第６
図処理ロは処理フレームポジシヨンの更新であ
る。処理ハは処理フレームが有音であるか無音で
あるかの比較による分岐である。処理しているフ
レームが有音である場合は有音フレームのカウン
タ（COUNT）に１を加える（第６図処理ニ）。
さらに、始端候補フレーム番号格納領域
（FRAMES）が０にリセツトされたままである
場合は現在処理を行なつているフレームの番号
（Ｉ）を格納する（処理ホ，ヘ）。処理トでは有音
フレームのカウンタ５になつたかの判定を行な
う。そして、カウンタが５以下の場合は処理ロに
戻り、カウンタが５以上になつた場合は始端候補
が検出されたということで始端候補検出処理を終
了する。処理が終了するまでの間に処理ハにおい
て無音であるというフレームがあつた場合は、処
理チにおいて有音フレームカウンタおよび始端候
補フレーム番号格納領域はリセツトされ処理はロ
に戻る。有音フレームカウンタは無音フレームが
あると処理チによりリセツトされるため有音が連
続したフレーム数のカウンタとなる。したがつ
て、処理トの判定は有音が５フレーム以上連続し
たかの判定となる。したがつて、音声の始端の前
に唇の動きによる雑音などで有声と判定されたフ
レームが２〜３フレームあつてもその後に１フレ
ームでも無音と判定されるフレームがあればそれ
は除去される。このようにして始端候補が検出さ
れると次に終端候補検出のための処理が行なわれ
る。第７図は終端候補検出のための処理の流れを
示したものである。

第７図の処理イは無音フレームのカウンタ（第
７図のCOUNT1）、有音フレームのカウンタ（第
７図のCOUNT2）そして終端候補フレーム番号
格納領域（第７図FRAMEE）の初期化のための
リセツトである。第７図処理ロは処理フレームポ
ジシヨン（第７図Ｉ）の更新である。処理ハは処
理フレームが有音であるか無音であるかの比較に
よる分岐である。処理しているフレームが無音で
ある場合は無音フレームカウンタを更新し、有音
フレームカウンタをリセツトする（処理ニ，ホ）。
さらに無音カウンタが２以上でかつ終端フレーム
番号格納領域がリセツトされている場合には無音
フレームカウンタが１となつたフレームの番号を
終端候補フレームとして終端フレーム格納領域に
格納する（処理ヘ，ト）。処理チでは無音フレー
ムカウンタが30になつたかの判定を行なう。そし
て、無音フレームカウンタが30未満の場合は処理
ロに戻り、30以上となつた場合は音声が終了した
とみなし処理を終了する。処理ハにおいて有音で
あつた場合に分岐する処理リ，ヌ，ルは終端候補
フレームが格納されてから有音のフレームが何フ
レーム連続したかの処理で５フレーム以上連続し
た場合は、音声は終了していないとみなし処理イ
に戻り終端候補検出をやり直す。有音フレームが
５フレーム未満の場合は雑音とみなし、その区間
は無音区間であるということで処理ニにおいて無
音フレームカウンタにその区間長が加えられる。

終端候補は無音フレームが２フレーム連続した
とき音声の終了の可能性があるとし先頭の無音フ
レームを音声の終了候補とし、その終了候補フレ
ームから29フレームの間に有音フレームが５フレ
ーム以上連続することがない場合は先の終了候補
フレームを終端候補とする。もし、終了候補から
29フレーム後の間に有音フレームが５フレーム以
上連続した場合は、音声はまだ終了していないと
し、カウンタおよび終了候補フレームをすべてリ
セツトし第７図に示す終端検出処理を次のフレー
ムからやり直す。このような処理により終端に付
加された４フレーム以下の雑音は取り除かれる。
始端・終端決定部１２では始端・終端候補検出部
１１により検出された始端・終端候補フレーム付
近におけるパワーLPWとスペクトルLP_iの変化の
大きさにより最終的な始端・終端を決定する。パ
ワーの変化の大きさを表わすパラメータとしては
式(3)に示すようにフレーム毎に得られる対数パワ
ーLPWの差分値LPWDが用いられる。

LPWD_j＝LPW_j−LPW_j-1 ……式(3) （ただし、ｊはフレーム番号）また、スペクトルの変化の大きさを表わすパラ
メータとしては式(4)に示す帯域対数パワーLP_iの
ユークリツド距離SPDを用いる。

SPD_j＝₃ 〓ⁱ⁼¹ (LP_ij-LP_ij-1)² ……(4) （ただし、ｉは帯域を表わし、ｊはフレーム番号
を表わす） LPWDというパラメータはパワーが増加して
いる場合正の値をとり、パワーが減少している場
合は負の値をとる。また、SPDは無音から有音
へと変化する場合のようにスペクトルの形状が大
きく変化するところでは大きな値をとる。始端の
決定はまず始めにLPWDが正の値をとるフレー
ムを始端候補から後端に向つて検索する。次に
LPWDが最初に正となつたフレームから後２フ
レームの計３フレームの中でLPWDが正の値で
SPDが最大となるフレームを求め、そのフレー
ムを始端フレームと決定する。

終端の決定は、まず始めにLPWDが負の値を
とるフレームを終端候補フレームから始端方向に
向つて検索する。次にLPWDが最初に負となつ
たフレームから２フレーム前の計３フレームの中
でLPWDが負の値でSPDが最大となるフレーム
を求め、そのフレームの１つ前のフレームを終端
フレームと決定する。このようにして得られた始
端・終端は音声認識装置にて利用される。

本実施例によれば、有音・無音判定部８におい
てエネルギーレベルが低い入力信号に対し、線形
判別関数を用い無音とのスペクトル形状の相異に
より有音であるか判定する方法をとつているた
め、エネルギーの小さな無声子音や有声子音の脱
落を減少することができる。また、始端・終端候
補検出部１１において、音声の持続性を考慮した
検出を行なつているので、音声の始端・終端前後
に付加された短かい雑音を取り除くことができ
る。さらに、始端・終端決定部１２では、無音か
ら有音あるいは逆の場合におけるエネルギーの変
化とスペクトル形状の変化の大きさを利用して始
端・終端の位置を決定しているために位置精度の
高い音声の始端・終端を得ることができる。第８
図は「土台」（／dodai／）と発声された音声に
本発明の一実施例における始端・終端検出を適応
した例で、第８図ａは対数パワーLPWを示し、
ｂはスペクトル変化SPD、ｃはパワー変化
LPWD、ｄの実線は無音／無声音を判別する線
形判別関数の値、破線は無音／有声音を判別する
線形判別関数の値を示したものである。第８図の
例においては、始端・終端にそれぞれ雑音が見ら
れる。フレーム毎の無音・有音判定部８では、
LPWがE₁以上であるか、またはLPWがE₁とE₂の
間にある場合はｄに示す二つの線形判別関数の正
負を勘案することにより、ａに示すイからロおよ
びハからニの区間を有音と判定する。これにより
始端の雑音が取り除かれる。始端・終端候補検出
部１１においては、有音・無音フレームの持続性
により始端候補フレームをイとし、終端候補フレ
ームをロとする。このときハからニの有音区間は
５フレーム未満であるため雑音と判定される。そ
して、始端・終端決定部１２では対数パワーの変
化ｃとスペクトルの変化ｂにより始端イ′、終端
ロ′が決定され雑音が除去された正しい始端・終
端の位置が得られる。あらかじめ目視による始
端・終端のラベル付けが行なわれている男性話者
１名が発声した212単語を用いて本発明の一実施
例の評価実験を行なつた結果、ラベルとの差が２
フレーム以内となるものが始端で93.4％、終端
92.9％、ラベルとの差が３フレーム以内となるも
のが始端で97.6％、終端で97.2％という結果を得
た。そして、始端の音素脱落という重大な誤りは
２単語、終端の音素脱落という重大な誤りは２単
語と少なく、また雑音の付加による誤りはなく、
良好な結果を得ることができ、本発明による音声
の始端・終端検出装置が有効に動作することを確
めることができた。

なお、以上の説明ではスペクトル形状を表わす
パラメータとして帯域対数パワーを用いた有音・
無音の判定として線形判別関数を用いた場合につ
いて説明したが、スペクトル形状を表わすパラメ
ータとして信号のフーリエ変換や線形予測分析に
より得られるパワースペクトルや線形予測分析に
より得られるLPC−ケプストラム係数を用い、
有音・無音の判定法としてベイズ判定やマハラノ
ビス距離などの統計的距離尺度を用いても良い。

発明の効果以上のように、本発明は信号のエネルギー情報
だけでなくスペクトル形状をも用いたフレーム毎
の有音・無音判定部と、音声の持続性を考慮した
始端・終端候補検出部と、エネルギーの変化およ
びスペクトル形状の変化量により始端・終端位置
を決定する決定部により構成される音声の始端・
終端検出装置を提供するもので、有音・無音判定
として、無音・無声音・有声音のスペクトル標準
パターンとの統計的距離尺度を用いたスペクトル
形状の相異を利用しているため、エネルギーの小
さな無声子音や有声子音の脱落を少なくでき、ま
た有音の持続性による始端・終端候補検出を行な
つているため雑音の付加が少なく、しかもエネル
ギーとスペクトルの変化の大きさにより始端・終
端の位置を決定するための位置情報が高いという
すぐれた効果が得られる。

【図面の簡単な説明】

第１図は従来用いられている零交差回数の分布
図、第２図は従来の始端・終端検出装置のブロツ
ク図、第３図は従来の始端・終端検出装置の動作
例を説明する図、第４図は従来で雑音が付加した
音声のエネルギー変化を示す図、第５図は本発明
の一実施例における音声の始端・終端検出装置の
ブロツク図、第６図は本発明の一実施例における
始端候補検出処理を示すフローチヤート図、第７
図は本発明の一実施例における終端候補検出処理
を示すフローチヤート図、第８図は本発明の一実
施例における動作例を説明する図である。５……エネルギー抽出部、６……スペクトル形
状抽出部、７……マルチプレクサ、８……有音・
無音判定部、９……閾値メモリ、１０……標準パ
ターンメモリ、１１……始端・終端候補検出部、
１２……始端・終端決定部、１３……特徴量抽出
部。

Claims

【特許請求の範囲】１音声を含む信号から一定時間長の区間毎に信
号のエネルギーとスペクトル形状を表わす特徴量
を抽出する特徴量抽出部と、前記特徴量を用いて
入力された信号が有音であるか無音であるか一定
時間長の区間毎に判定する有音・無音判定部と、
前記有音・無音の判定結果の時系列を用い判定結
果の持続時間により音声の始端・終端の候補を検
出する始端・終端候補検出部と、始端・終端候補
の前後における信号のエネルギー変化とスペクト
ルの変化の大きさを用いて始端・終端の位置を決
定する始端・終端決定部とを具備することを特徴
とする音声の始端・終端検出装置。２信号のスペクトル形状を表わす特徴量とし
て、帯域フイルタ群、フーリエ変換若しくは線形
予測分析のいずれかの方法により求められるパワ
ースペクトルまたは線形予測分析により得られる
LPCケプストラム係数のいずれかを用いること
を特徴とする特許請求の範囲第１項記載の音声の
始端・終端検出装置。３有音・無音判定部が、信号のエネルギーと二
つの閾値との比較を行う第１判定部と、無音、無
声音、有声音の三つの標準パターンと入力信号の
スペクトルとの統計的距離尺度を用いスペクトル
の類似度による判定を行う第２判定部とを備え、
前記統計的距離尺度として線形判別関数、マハラ
ノビス距離、ベイズ判定のいずれかを用いること
を特徴とする特許請求の範囲第１項記載の音声の
始端・終端検出装置。４始端・終端決定部のスペクトルの変化の大き
さを表わす特徴量として、一定時間長の区間にお
けるスペクトルを表わす特徴量と前の区間のスペ
クトルを表わす特徴量とのユークリツド距離を用
いることを特徴とする特許請求の範囲第１項記載
の音声の始端・終端検出装置。