JPH05173592A

JPH05173592A - 音声／非音声判別方法および判別装置

Info

Publication number: JPH05173592A
Application number: JP3342631A
Authority: JP
Inventors: Yoshihisa Nakato; 良久中藤; Takeshi Norimatsu; 武志則松
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1991-12-25
Filing date: 1991-12-25
Publication date: 1993-07-13

Abstract

(57)【要約】【目的】テレビ会議システムに用いるテレビカメラ、
またはマイクロフォンの切り換えに用いられる、あるい
は音声認識装置等の前処理として用いられる、入力信号
が音声であるかそれ以外の音であるかを判別する音声／
非音声判別装置に関するもので、簡単な構成で自動的に
しかも高精度に音声／非音声の判定をすることができる
音声／非音声判別装置を提供する。【構成】入力信号から特徴抽出部１１にて一定時間毎
に複数の特徴量を抽出し、しきい値決定部１２であらか
じめ多数の音声と非音声の学習データを用いてしきい値
を決定し、抽出した特徴量としきい値とを比較すること
で音声かそれ以外かを概略判定部１３と詳細判定部１４
とで判定し、概略判定部と詳細判定部とにより音声と
判定されたフレーム数の存在比率により、最終判定部に
てその区間が音声か否かを判別する構成を有する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、テレビ会議システムに
用いるテレビカメラ、またはマイクロフォンの切り換え
のための入力信号が音声であるかそれ以外の音であるか
を判定する音声／非音声判別方法および判別装置や、音
声認識装置の前処理等で使われる、入力信号が音声であ
るかそれ以外の音であるかを判定する音声／非音声判別
方法および判別装置に関する。

【０００２】

【従来の技術】テレビ会議システムに用いるテレビカメ
ラ、またはマイクロフォンの切り換えのための音声／非
音声判別装置では、会議室内に存在する様々な雑音など
音声以外の入力に対して切り替えが行われる可能性があ
る。また、音声認識等の音声処理を行う装置では、音声
以外の信号が入力され誤って音声と判断されると誤認識
を生じる。そこで、入力された信号が正確に音声である
かどうかを判定できる音声／非音声判別装置が必要とさ
れる。

【０００３】従来の音声／非音声判別装置では、処理の
簡素化のための入力信号のパワー値がある所定のしきい
値よりも大きい部分を音声と判断する方法が一般的に行
われる。しかし会議室等の実環境で使用することを考え
ると、紙などの資料をめくる音や、息吹きなどのマイク
ロフォンの振動によって起こるノイズ等の音声以外のパ
ワーの大きな様々な音が入力される可能性があり、パワ
ーだけでは音声／非音声の判別はできない。

【０００４】そこで、パワー以外の複数の音声の特徴量
を用いて、入力信号の有声性を判定する方法が幾つか提
案されている。例えば、A Pattern Recognition Approa
ch to Voiced-unvoiced-silence classification with
application to speech recognition, IEEE Trans. Aco
ust., Speech, Signal Processing, ASSP-24-3 (1976)
による方法がある。これは、パターン認識の手法を用い
て無音・無声・有声を一括して判定する方法であるが、
無音・無声音を高周波成分の多い雑音と考えれば有声音
（母音性）の検出に基づく音声／非音声判別装置の一種
と考えられる。具体的には、入力音声の一定時間ごとの
零交差回数、信号の対数エネルギー、１次の自己相関係
数、１次の線形予測係数、線形予測残差の対数エネルギ
ーの５種類の特徴量を求め、各特徴量毎に正規分布を仮
定し、それらの同時確率により無音・無声・有声の判定
を行っている。

【０００５】

【発明が解決しようとする課題】しかしながら上記の音
声／非音声判別装置では、おもに高周波数域のエネルギ
ーの優勢な雑音のみしか除去できない。また、音声中の
各音韻の特徴に基づいた特徴量は使用されておらず、音
声の各音韻の検出に適した特徴量を用いることによる高
精度な音声／非音声判別が必要とされている。本発明
は、上記の課題を解決するもので、音声判別のための高
性能な音声／非音声判別装置を提供することを目的とす
る。本発明は、低周波数域のエネルギーの優勢な雑音の
除去に優れた特徴量を用いることで、息吹きなどによる
マイクロフォンの振動によって起こる雑音や、床や机な
どとの共鳴によって引き起こされる低周波性の雑音の除
去が可能で、さらに音声の各音韻の検出に適した特徴量
を組み合わせて用いることで、音声の各音韻の検出に基
づいた高性能で、しかも簡単な構成による音声／非音声
の判別が可能な音声／非音声判別装置を提供することを
目的とする。

【０００６】

【課題を解決するための手段】本発明は上記目的を達成
するために有声音（母音性）を検出することを主眼とし
て、入力信号の一定時間毎の１次以上の自己相関係数、
１次以上のケプストラム係数等の複数の音声の特徴量を
抽出する特徴量抽出部と、あらかじめ多数の音声と非音
声の学習データについて所定時間内に抽出した前記特徴
量抽出部にて抽出された特徴量を用いて、音声かそれ以
外かを判定するためのしきい値を決定するしきい値決定
部と、所定時間内の１次以上の自己相関係数および１次
のケプストラム係数と前記しきい値決定部で決定したし
きい値とを比較することで音声かそれ以外かを判定し、
音声が周波数領域においてどの程度母音性を持つかを概
略的に判定する概略判定部と、音声中の各音韻の特徴に
基づき有声音の検出に適した特徴量である２次以上のケ
プストラム係数と前記しきい値決定部で決定したしきい
値とを比較することで音声かそれ以外かを判定し、どの
程度母音性を持つかを詳細に判定する詳細判定部と、前
記概略判定部と前記詳細判定部とによりパワーの一定レ
ベル以上の区間について、音声と判定されたフレームの
存在比率によりその区間が音声か否かを判定する最終判
定部とを備えたものである。

【０００７】

【作用】本発明は、上記した構成により、母音などの有
声音がいかなる周波数帯域に最も優勢にエネルギーを持
つかを端的に表す特徴量や、音声中の各音韻の特徴に基
づく有声音の検出に適した特徴量を用い、あらかじめ信
頼性の高い多数の音声データと様々な雑音を含む非音声
データに基づいて適当に設定したしきい値により一定時
間毎の音声の判別を行わせているので、高性能な音声／
非音声の判別が可能となる。

【０００８】

【実施例】以下本発明の一実施例について説明する。
（図１）は本発明の一実施例の全体構成を示すブロック
構成図である。（図１）において、１１は音声判別のた
めの複数の特徴量を抽出する特徴抽出部で、１フレーム
毎のパワーを計算するパワー算出部１１ａと、１フレー
ム毎の１次の自己相関係数を算出する１次の自己相関係
数算出部１１ｂと、１フレーム毎の７次の自己相関係数
を算出する７次の自己相関係数算出部１１ｃと、１フレ
ーム毎の１次のケプストラム係数を算出する１次のケプ
ストラム係数算出部１１ｄと、１フレーム毎の３次のケ
プストラム係数を算出する３次のケプストラム係数算出
部１１ｅとから構成される。これらの特徴量は入力信号
の有声音（母音性）を検出するために用いられる。以下
に、これら特徴量の頻度分布について調査した結果を示
す。

【０００９】調査に使用したデータは、音声データと雑
音データの２種類の音響データである。音声データとし
ては、無響室において録音した男性１名の発声した２１
２単語中の１６音韻（/a/,/i/,/u/,/e/,/o/,/b/,/d/,/g
/,/m/,/n/,/N/,/s/,/h/,/r/,/w/,/y/）を使用し、すべ
ての音韻に関して視察により音韻境界が求められてい
る。また、雑音データとしては、（表１）に示すよう
な、本実施例の音声／非音声判別装置が使用されるであ
ろう会議室内において想定し得る２２種類の雑音を用い
た。音声及び雑音データの分析条件を（表２）に示す。

【００１０】

【表１】

【００１１】

【表２】

【００１２】調査の結果として、１次の自己相関係数に
ついての頻度分布が１６音韻と２２雑音についての場合
をそれぞれ（図４）（図５）に、７次の自己相関係数に
ついての頻度分布が１６音韻と２２雑音についての場合
をそれぞれ（図６）（図７）に、１次のケプストラム係
数についての頻度分布が１６音韻と２２雑音についての
場合をそれぞれ（図８）（図９）に、３次のケプストラ
ム係数についての頻度分布が１６音韻と２２雑音につい
ての場合をそれぞれ（図１０）（図１１）に示した。そ
れぞれの図において、黒丸は平均値を示し、縦方向にそ
の標準偏差を示している。その結果、次のような傾向が
あることがわかった。

【００１３】まず１次以上の自己相関係数は、エネルギ
ーの集中周波数域の違いが反映される特徴量であり、エ
ネルギーが高い周波数帯域に優勢に存在している無声音
などランダム性の強い雑音では、１次の自己相関係数の
値は０に近い小さい値を示し（図５）、有声音などにお
いてはその値は１近くを示す（図４）。一方、エネルギ
ーが低い周波数帯域に優勢に存在している雑音の場合、
７次の自己相関係数の値は１に近い値を示し（図７）、
有声音などではその値が０に近くなる（図６）。ケプス
トラム係数は、スペクトルの形状を表す特徴量であり、
同じ有声音でも各音韻毎にその値は大きく異なる。１次
のケプストラム係数は、有声音か無声音かなどの大まか
なスペクトルの形状の違いを表す量であり、音韻／ｉ／
を除く有声音ではその値が１．０以上を示し、それ以外
の音では１．０以下の値を示す（図８）。３次のケプス
トラム係数は、音韻／ｉ／の特徴が特に大きく表れる特
徴量であり、／ｉ／ではその値が０．５以上を示し、そ
れ以外の音では０．５以下を示す（図１０）。

【００１４】（図１）において、１２はあらかじめ多数
の音声と非音声の学習データを用いて、音声かそれ以外
かを判定するためのある適当なしきい値を決定するしき
い値決定部である。１３は特徴抽出部１１から出力され
る１次と７次の自己相関係数と１次のケプストラム係数
を、しきい値決定部１２で決定したある適当なしきい値
とフレーム単位で比較することにより音声かそれ以外か
を判定する概略判定部であり、１４は概略判定部１３に
より音声以外と判定されたもののうち、特徴抽出部１１
から出力される３次のケプストラム係数としきい値決定
部１２で決定したある適当なしきい値とをフレーム単位
で比較することにより、有声音の／ｉ／かそれ以外かを
判定する詳細判定部である。１５はパワーの一定レベル
以上の入力信号の塊について概略判定部１３と詳細判定
部１４とにより音声と判定されたフレームの個数の割合
が、しきい値決定部１２で決定したある適当なしきい値
以上のときにその塊を音声と判定する最終判定部であ
る。

【００１５】以下、本発明の一実施例について（図１）
のブロック構成図と（図２）の概略判定部１３の動作を
説明するためのフローチャート、および（図３）の詳細
判定部１４の動作を説明するためのフローチャートを参
照しながら詳細に説明する。

【００１６】音響信号がマイクロフォンを通して入力さ
れると、特徴抽出部１１によりまず５つの特徴量が抽出
される。パワー算出部１１ａでは、一定時間毎のパワー
値が例えば（数１）で算出される。一定の時間間隔は、
ここでは例えばサンプリング周波数を１０ＫＨｚとし
て、２００点（２０ｍｓ）とし、この時間単位をフレー
ムと呼ぶ。

【００１７】

【数１】

【００１８】ここで、Ｐiはフレームｉでのパワー値、
Ｓ_kはフレーム内の入力信号のサンプル値を示す。この
パワー値は発声条件の違いによるパワーの違いを統一し
て扱えるように、パワーの大きな区間内の最大値、最小
値間を例えば０から１までの値に正規化して用いる。１
次の自己相関係数算出部１１ｂではフレーム毎に１次の
自己相関係数Ａi(1)が、７次の自己相関係数算出部１１
ｃではフレーム毎に７次の自己相関係数Ａi(7)がそれぞ
れ（数２）、（数３）で算出され、さらにＡi(1)、Ａi
(7)ともに０次の自己相関係数で正規化される。

【００１９】

【数２】

【００２０】

【数３】

【００２１】１次のケプストラム係数算出部１１ｄで
は、フレームｉでの１次のケプストラム係数Ｃi(1)が、
３次のケプストラム係数算出部１１ｅでは、フレームｉ
での３次のケプストラム係数Ｃi(3)が線形予測分析によ
り求められる。なお、１次の自己相関係数のかわりに１
次の偏自己相関係数を、また１次のケプストラム係数の
かわりに１次の線形予測係数を用いても、それらの値の
絶対値は等しいので全く差し支えない。また、７次の自
己相関係数のかわりに６次から１２次程度までの自己相
関係数を用いても、エネルギーが低い周波数帯域に優勢
に存在している非音声を除去するために使用するという
意味では差し支えない。また、本実施例では１次および
３次のケプストラム係数により、音声中の音韻／ｉ／に
着目して／ｉ／の特徴が特に大きく表れる特徴量を用い
ているが、さらに高性能な音声／非音声の判別を実現す
るため、他の音韻、例えば／ａ／、／ｕ／、／ｅ／、／
ｏ／などの特徴が大きく表れる１次以上のケプストラム
係数を組み合わせて用いても良い。また、ケプストラム
係数としては、ＬＰＣケプストラム係数、ＦＦＴケプス
トラム係数、メルケプストラム係数を用いても、音声中
の各音韻の特徴に基づき音韻性を詳細に判定するという
意味では差し支えない。

【００２２】しきい値決定部１２では、あらかじめ多数
の音声データの母音部分と非音声データについて特徴抽
出部１１で得られる特徴量を抽出しておき、これらの特
徴量の分布に基づき音声かそれ以外かの適当なしきい値
をそれぞれの特徴量毎に定めておく。また、音声の学習
データを用いて特徴抽出部１１で得られる特徴量が、あ
る決められたフレーム数の中でどの程度の割合で存在す
るかにより、音声／非音声を判定するためのある適当な
しきい値を決定する。音声／非音声のしきい値決定の際
に使用する非音声データとしては、例えば本実施例の音
声／非音声判別装置が会議室等で利用される場合は、机
を叩く音、紙の刷れる音、コップの音、マイクロフォン
に物が触れる音等、予想される雑音データを用いればよ
い。

【００２３】音響信号から特徴抽出部１１で得られた特
徴量は、概略判定部１３と詳細判定部１４にそれぞれ入
力される。まず、音響信号から特徴抽出部１１で得られ
た特徴量うち１次および７次の自己相関係数と１次のケ
プストラム係数が、概略判定部１３にそれぞれ入力され
る。

【００２４】（図２）に示すステップ２１において、１
次の自己相関係数の値の大きさにより、エネルギーが高
い周波数帯域に優勢に存在している無声音などランダム
性の強い雑音が除去される。しきい値決定部１２で決定
した１次の自己相関係数のしきい値をＡ１とすると、Ａ
i(1)≧Ａ１のときに音声、それ以外が非音声であると判
断する。次に、ステップ２２において、７次の自己相関
係数の値の大きさにより、エネルギーが低い周波数帯域
に優勢に存在している雑音が除去される。すなわち、し
きい値決定部１２で決定した７次の自己相関係数のしき
い値をＡ７とすると、Ａi(7)≦Ａ７のときに音声、それ
以外が非音声であると判断する。

【００２５】さらに、ステップ２３において、１次のケ
プストラム係数の値の大きさにより、音韻／ｉ／を除く
有声音が検出される。しきい値決定部１２で決定した１
次のケプストラム係数のしきい値をＣ１とすると、Ｃi
(1)≧Ｃ１のとき音声であり、それ以外が非音声である
と判断する。音声であればステップ２４においてＶi＝
１の出力値を、非音声であればステップ２５においてＶ
i＝０の出力値を詳細判定部１４に送出する。

【００２６】次に、詳細判定部１４のステップ３１にお
いて、概略判定部１３において音声と判定されたものす
なわちＶi＝１の場合は、そのまま出力値を最終判定部
１５に送出し、概略判定部１３において非音声と判定さ
れたもの、すなわちＶi＝０の場合についてのみ音韻／
ｉ／の検出が行われる。ステップ３２において、しきい
値決定部１２で決定した３次のケプストラム係数のしき
い値をＣ３とすると、音響信号から特徴抽出部１１で抽
出された３次のケプストラム係数の値の大きさとの比較
により、Ｃi(3)≧Ｃ３のときのみ／ｉ／すなわち音声で
あり、それ以外は非音声であると判断する。音声であれ
ばステップ３３においてＶi＝１の出力値を、非音声で
あればステップ３４においてＶi＝０の出力値を最終判
定部１５に送出する。

【００２７】最終判定部１５では、まずパワー計算部１
１ａで得られたパワー値系列から、しきい値決定部１２
であらかじめ定めたパワーしきい値を決められた長さ以
上越える区間を音声候補区間として検出する。このとき
の音声候補区間のフレーム長をＣとする。この音声候補
区間に対して、概略判定部１３と詳細判定部１４とによ
り音声と判定されたフレームの個数Ｃ１を計数し、音声
候補区間に占める音声と判定された区間のフレーム数の
割合がしきい値決定部１２であらかじめ定めたしきい値
Ｍを越えるとき、すなわち（数４）の条件を満足すると
きにこの音声候補区間は音声であると判定する。

【００２８】

【数４】

【００２９】以上のように本実施例の音声／非音声判別
装置によれば、入力信号から一定時間毎の音声の複数の
特徴量を抽出する特徴量抽出部１１と、あらかじめ多数
の音声と非音声の学習データについてフレーム単位で抽
出した前記特徴量を用いて、音声かそれ以外かを判定す
るためのしきい値を決定するしきい値決定部１２と、複
数の音声の特徴量としきい値決定部で決定したしきい値
とを比較することで音声かそれ以外かを判定し、音声が
周波数領域においてどの程度母音性を持つかを概略的に
判定する概略判定部１３と、音声中の各音韻の特徴に基
づき有声音の検出に適した複数の特徴量としきい値決定
部で決定したしきい値とを比較することで音声かそれ以
外かを判定し、どの程度母音性を持つかを詳細に判定す
る詳細判定部１４と、概略判定部と詳細判定部とにより
パワーの一定レベル以上の区間について、音声と判定さ
れたフレームの存在比率によりその区間が音声か否かを
判定する最終判定部とを具備して構成することにより、
簡単な構成で様々な音響信号を正確に判定することがで
きる音声／非音声判別装置を提供することができる。

【００３０】

【発明の効果】以上の説明から明らかなように本発明に
よれば、音声を特徴付ける複数の特徴量を抽出し、多数
の母音と非音声データにおける特徴量からあらかじめ適
当なしきい値を設定しておき、フレーム毎に音声か非音
声かの判定を行い、パワーの大きな部分を音声区間候補
として判定されたフレームの存在比率により音声か非音
声か判別するように構成してあるので、非常に簡単な構
成で入力信号が音声かそれ以外かを正確に判定すること
ができる音声／非音声判別装置を提供することができ
る。

【図面の簡単な説明】

【図１】本発明の一実施例の音声／非音声判別装置の全
体構成を示すブロック図

【図２】本発明の概略判定部の一実施例の動作を示すフ
ローチャート

【図３】本発明の詳細判定部の一実施例の動作を示すフ
ローチャート

【図４】１６音韻における１次の自己相関係数の頻度分
布図

【図５】２２雑音における１次の自己相関係数の頻度分
布図

【図６】１６音韻における７次の自己相関係数の頻度分
布図

【図７】２２雑音における７次の自己相関係数の頻度分
布図

【図８】１６音韻における１次のケプストラム係数の頻
度分布図

【図９】２２雑音における１次のケプストラム係数の頻
度分布図

【図１０】１６音韻における３次のケプストラム係数の
頻度分布図

【図１１】２２雑音における３次のケプストラム係数の
頻度分布図

【符号の説明】１１特徴抽出部１１ａパワー算出部１１ｂ１次の自己相関係数算出部１１ｃ７次の自己相関係数算出部１１ｄ１次のケプストラム係数算出部１１ｅ３次のケプストラム係数算出部１２しきい値決定部１３概略判定部１４詳細判定部１５最終判定部

Claims

【特許請求の範囲】

【請求項１】入力信号から一定時間毎に、音声を特徴
付ける１次の自己相関係数および２次以上の自己相関係
数のうち少なくとも１つを用いて複数の音声の特徴量を
抽出し、音声か非音声であるかを判別する音声／非音声
判別方法。
【請求項２】入力信号から一定時間毎に、音声を特徴
付ける１次のケプストラム係数および２次以上のケプス
トラム係数のうち少なくとも１つを用いて複数の音声の
特徴量を抽出し、音声か非音声であるかを判別する音声
／非音声判別方法。
【請求項３】入力信号から一定時間毎に音声を特徴付
ける１次の自己相関係数および２次以上の自己相関係数
と１次のケプストラム係数および２次以上のケプストラ
ム係数を抽出する特徴抽出部と、あらかじめ多数の音声
と非音声の学習データについて所定時間内に前記特徴抽
出部で抽出した特徴量を用いて、音声かそれ以外かを判
定するためのしきい値を決定するしきい値決定部と、入
力信号から所定時間内に前記特徴抽出部で抽出した１次
以上の自己相関係数と１次のケプストラム係数のうち少
なくとも１つの特徴量について、前記しきい値決定部で
決定したしきい値と比較することで音声かそれ以外かを
判定する概略判定部と、前記概略判定部により音声以外
と判定されたものにおいて、入力信号から所定時間内に
前記特徴抽出部で抽出した２次以上のケプストラム係数
のうち少なくとも１つの特徴量について、前記しきい値
決定部で決定したしきい値と比較することで音声かそれ
以外かを判定する詳細判定部と、パワーの一定レベル以
上の入力信号の塊について前記概略判定部と前記詳細判
定部とにより音声と判定されたフレームの個数の割合が
前記しきい値決定部で決定したしきい値以上のときにそ
の塊を音声と判定する最終判定部とを備えたことを特徴
とする音声／非音声判別装置。