JPH05173592A - 音声/非音声判別方法および判別装置 - Google Patents
音声/非音声判別方法および判別装置Info
- Publication number
- JPH05173592A JPH05173592A JP3342631A JP34263191A JPH05173592A JP H05173592 A JPH05173592 A JP H05173592A JP 3342631 A JP3342631 A JP 3342631A JP 34263191 A JP34263191 A JP 34263191A JP H05173592 A JPH05173592 A JP H05173592A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- order
- determination unit
- threshold value
- input signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 テレビ会議システムに用いるテレビカメラ、
またはマイクロフォンの切り換えに用いられる、あるい
は音声認識装置等の前処理として用いられる、入力信号
が音声であるかそれ以外の音であるかを判別する音声/
非音声判別装置に関するもので、簡単な構成で自動的に
しかも高精度に音声/非音声の判定をすることができる
音声/非音声判別装置を提供する。 【構成】 入力信号から特徴抽出部11にて一定時間毎
に複数の特徴量を抽出し、しきい値決定部12であらか
じめ多数の音声と非音声の学習データを用いてしきい値
を決定し、抽出した特徴量としきい値とを比較すること
で音声かそれ以外かを概略判定部13と詳細判定部14
とで判定し 、概略判定部と詳細判定部とにより音声と
判定されたフレーム数の存在比率により、最終判定部に
てその区間が音声か否かを判別する構成を有する。
またはマイクロフォンの切り換えに用いられる、あるい
は音声認識装置等の前処理として用いられる、入力信号
が音声であるかそれ以外の音であるかを判別する音声/
非音声判別装置に関するもので、簡単な構成で自動的に
しかも高精度に音声/非音声の判定をすることができる
音声/非音声判別装置を提供する。 【構成】 入力信号から特徴抽出部11にて一定時間毎
に複数の特徴量を抽出し、しきい値決定部12であらか
じめ多数の音声と非音声の学習データを用いてしきい値
を決定し、抽出した特徴量としきい値とを比較すること
で音声かそれ以外かを概略判定部13と詳細判定部14
とで判定し 、概略判定部と詳細判定部とにより音声と
判定されたフレーム数の存在比率により、最終判定部に
てその区間が音声か否かを判別する構成を有する。
Description
【0001】
【産業上の利用分野】本発明は、テレビ会議システムに
用いるテレビカメラ、またはマイクロフォンの切り換え
のための入力信号が音声であるかそれ以外の音であるか
を判定する音声/非音声判別方法および判別装置や、音
声認識装置の前処理等で使われる、入力信号が音声であ
るかそれ以外の音であるかを判定する音声/非音声判別
方法および判別装置に関する。
用いるテレビカメラ、またはマイクロフォンの切り換え
のための入力信号が音声であるかそれ以外の音であるか
を判定する音声/非音声判別方法および判別装置や、音
声認識装置の前処理等で使われる、入力信号が音声であ
るかそれ以外の音であるかを判定する音声/非音声判別
方法および判別装置に関する。
【0002】
【従来の技術】テレビ会議システムに用いるテレビカメ
ラ、またはマイクロフォンの切り換えのための音声/非
音声判別装置では、会議室内に存在する様々な雑音など
音声以外の入力に対して切り替えが行われる可能性があ
る。また、音声認識等の音声処理を行う装置では、音声
以外の信号が入力され誤って音声と判断されると誤認識
を生じる。そこで、入力された信号が正確に音声である
かどうかを判定できる音声/非音声判別装置が必要とさ
れる。
ラ、またはマイクロフォンの切り換えのための音声/非
音声判別装置では、会議室内に存在する様々な雑音など
音声以外の入力に対して切り替えが行われる可能性があ
る。また、音声認識等の音声処理を行う装置では、音声
以外の信号が入力され誤って音声と判断されると誤認識
を生じる。そこで、入力された信号が正確に音声である
かどうかを判定できる音声/非音声判別装置が必要とさ
れる。
【0003】従来の音声/非音声判別装置では、処理の
簡素化のための入力信号のパワー値がある所定のしきい
値よりも大きい部分を音声と判断する方法が一般的に行
われる。しかし会議室等の実環境で使用することを考え
ると、紙などの資料をめくる音や、息吹きなどのマイク
ロフォンの振動によって起こるノイズ等の音声以外のパ
ワーの大きな様々な音が入力される可能性があり、パワ
ーだけでは音声/非音声の判別はできない。
簡素化のための入力信号のパワー値がある所定のしきい
値よりも大きい部分を音声と判断する方法が一般的に行
われる。しかし会議室等の実環境で使用することを考え
ると、紙などの資料をめくる音や、息吹きなどのマイク
ロフォンの振動によって起こるノイズ等の音声以外のパ
ワーの大きな様々な音が入力される可能性があり、パワ
ーだけでは音声/非音声の判別はできない。
【0004】そこで、パワー以外の複数の音声の特徴量
を用いて、入力信号の有声性を判定する方法が幾つか提
案されている。例えば、A Pattern Recognition Approa
ch to Voiced-unvoiced-silence classification with
application to speech recognition, IEEE Trans. Aco
ust., Speech, Signal Processing, ASSP-24-3 (1976)
による方法がある。これは、パターン認識の手法を用い
て無音・無声・有声を一括して判定する方法であるが、
無音・無声音を高周波成分の多い雑音と考えれば有声音
(母音性)の検出に基づく音声/非音声判別装置の一種
と考えられる。具体的には、入力音声の一定時間ごとの
零交差回数、信号の対数エネルギー、1次の自己相関係
数、1次の線形予測係数、線形予測残差の対数エネルギ
ーの5種類の特徴量を求め、各特徴量毎に正規分布を仮
定し、それらの同時確率により無音・無声・有声の判定
を行っている。
を用いて、入力信号の有声性を判定する方法が幾つか提
案されている。例えば、A Pattern Recognition Approa
ch to Voiced-unvoiced-silence classification with
application to speech recognition, IEEE Trans. Aco
ust., Speech, Signal Processing, ASSP-24-3 (1976)
による方法がある。これは、パターン認識の手法を用い
て無音・無声・有声を一括して判定する方法であるが、
無音・無声音を高周波成分の多い雑音と考えれば有声音
(母音性)の検出に基づく音声/非音声判別装置の一種
と考えられる。具体的には、入力音声の一定時間ごとの
零交差回数、信号の対数エネルギー、1次の自己相関係
数、1次の線形予測係数、線形予測残差の対数エネルギ
ーの5種類の特徴量を求め、各特徴量毎に正規分布を仮
定し、それらの同時確率により無音・無声・有声の判定
を行っている。
【0005】
【発明が解決しようとする課題】しかしながら上記の音
声/非音声判別装置では、おもに高周波数域のエネルギ
ーの優勢な雑音のみしか除去できない。また、音声中の
各音韻の特徴に基づいた特徴量は使用されておらず、音
声の各音韻の検出に適した特徴量を用いることによる高
精度な音声/非音声判別が必要とされている。本発明
は、上記の課題を解決するもので、音声判別のための高
性能な音声/非音声判別装置を提供することを目的とす
る。本発明は、低周波数域のエネルギーの優勢な雑音の
除去に優れた特徴量を用いることで、息吹きなどによる
マイクロフォンの振動によって起こる雑音や、床や机な
どとの共鳴によって引き起こされる低周波性の雑音の除
去が可能で、さらに音声の各音韻の検出に適した特徴量
を組み合わせて用いることで、音声の各音韻の検出に基
づいた高性能で、しかも簡単な構成による音声/非音声
の判別が可能な音声/非音声判別装置を提供することを
目的とする。
声/非音声判別装置では、おもに高周波数域のエネルギ
ーの優勢な雑音のみしか除去できない。また、音声中の
各音韻の特徴に基づいた特徴量は使用されておらず、音
声の各音韻の検出に適した特徴量を用いることによる高
精度な音声/非音声判別が必要とされている。本発明
は、上記の課題を解決するもので、音声判別のための高
性能な音声/非音声判別装置を提供することを目的とす
る。本発明は、低周波数域のエネルギーの優勢な雑音の
除去に優れた特徴量を用いることで、息吹きなどによる
マイクロフォンの振動によって起こる雑音や、床や机な
どとの共鳴によって引き起こされる低周波性の雑音の除
去が可能で、さらに音声の各音韻の検出に適した特徴量
を組み合わせて用いることで、音声の各音韻の検出に基
づいた高性能で、しかも簡単な構成による音声/非音声
の判別が可能な音声/非音声判別装置を提供することを
目的とする。
【0006】
【課題を解決するための手段】本発明は上記目的を達成
するために有声音(母音性)を検出することを主眼とし
て、入力信号の一定時間毎の1次以上の自己相関係数、
1次以上のケプストラム係数等の複数の音声の特徴量を
抽出する特徴量抽出部と、あらかじめ多数の音声と非音
声の学習データについて所定時間内に抽出した前記特徴
量抽出部にて抽出された特徴量を用いて、音声かそれ以
外かを判定するためのしきい値を決定するしきい値決定
部と、所定時間内の1次以上の自己相関係数および1次
のケプストラム係数と前記しきい値決定部で決定したし
きい値とを比較することで音声かそれ以外かを判定し、
音声が周波数領域においてどの程度母音性を持つかを概
略的に判定する概略判定部と、音声中の各音韻の特徴に
基づき有声音の検出に適した特徴量である2次以上のケ
プストラム係数と前記しきい値決定部で決定したしきい
値とを比較することで音声かそれ以外かを判定し、どの
程度母音性を持つかを詳細に判定する詳細判定部と、前
記概略判定部と前記詳細判定部とによりパワーの一定レ
ベル以上の区間について、音声と判定されたフレームの
存在比率によりその区間が音声か否かを判定する最終判
定部とを備えたものである。
するために有声音(母音性)を検出することを主眼とし
て、入力信号の一定時間毎の1次以上の自己相関係数、
1次以上のケプストラム係数等の複数の音声の特徴量を
抽出する特徴量抽出部と、あらかじめ多数の音声と非音
声の学習データについて所定時間内に抽出した前記特徴
量抽出部にて抽出された特徴量を用いて、音声かそれ以
外かを判定するためのしきい値を決定するしきい値決定
部と、所定時間内の1次以上の自己相関係数および1次
のケプストラム係数と前記しきい値決定部で決定したし
きい値とを比較することで音声かそれ以外かを判定し、
音声が周波数領域においてどの程度母音性を持つかを概
略的に判定する概略判定部と、音声中の各音韻の特徴に
基づき有声音の検出に適した特徴量である2次以上のケ
プストラム係数と前記しきい値決定部で決定したしきい
値とを比較することで音声かそれ以外かを判定し、どの
程度母音性を持つかを詳細に判定する詳細判定部と、前
記概略判定部と前記詳細判定部とによりパワーの一定レ
ベル以上の区間について、音声と判定されたフレームの
存在比率によりその区間が音声か否かを判定する最終判
定部とを備えたものである。
【0007】
【作用】本発明は、上記した構成により、母音などの有
声音がいかなる周波数帯域に最も優勢にエネルギーを持
つかを端的に表す特徴量や、音声中の各音韻の特徴に基
づく有声音の検出に適した特徴量を用い、あらかじめ信
頼性の高い多数の音声データと様々な雑音を含む非音声
データに基づいて適当に設定したしきい値により一定時
間毎の音声の判別を行わせているので、高性能な音声/
非音声の判別が可能となる。
声音がいかなる周波数帯域に最も優勢にエネルギーを持
つかを端的に表す特徴量や、音声中の各音韻の特徴に基
づく有声音の検出に適した特徴量を用い、あらかじめ信
頼性の高い多数の音声データと様々な雑音を含む非音声
データに基づいて適当に設定したしきい値により一定時
間毎の音声の判別を行わせているので、高性能な音声/
非音声の判別が可能となる。
【0008】
【実施例】以下本発明の一実施例について説明する。
(図1)は本発明の一実施例の全体構成を示すブロック
構成図である。(図1)において、11は音声判別のた
めの複数の特徴量を抽出する特徴抽出部で、1フレーム
毎のパワーを計算するパワー算出部11aと、1フレー
ム毎の1次の自己相関係数を算出する1次の自己相関係
数算出部11bと、1フレーム毎の7次の自己相関係数
を算出する7次の自己相関係数算出部11cと、1フレ
ーム毎の1次のケプストラム係数を算出する1次のケプ
ストラム係数算出部11dと、1フレーム毎の3次のケ
プストラム係数を算出する3次のケプストラム係数算出
部11eとから構成される。これらの特徴量は入力信号
の有声音(母音性)を検出するために用いられる。以下
に、これら特徴量の頻度分布について調査した結果を示
す。
(図1)は本発明の一実施例の全体構成を示すブロック
構成図である。(図1)において、11は音声判別のた
めの複数の特徴量を抽出する特徴抽出部で、1フレーム
毎のパワーを計算するパワー算出部11aと、1フレー
ム毎の1次の自己相関係数を算出する1次の自己相関係
数算出部11bと、1フレーム毎の7次の自己相関係数
を算出する7次の自己相関係数算出部11cと、1フレ
ーム毎の1次のケプストラム係数を算出する1次のケプ
ストラム係数算出部11dと、1フレーム毎の3次のケ
プストラム係数を算出する3次のケプストラム係数算出
部11eとから構成される。これらの特徴量は入力信号
の有声音(母音性)を検出するために用いられる。以下
に、これら特徴量の頻度分布について調査した結果を示
す。
【0009】調査に使用したデータは、音声データと雑
音データの2種類の音響データである。音声データとし
ては、無響室において録音した男性1名の発声した21
2単語中の16音韻(/a/,/i/,/u/,/e/,/o/,/b/,/d/,/g
/,/m/,/n/,/N/,/s/,/h/,/r/,/w/,/y/) を使用し、すべ
ての音韻に関して視察により音韻境界が求められてい
る。また、雑音データとしては、(表1)に示すよう
な、本実施例の音声/非音声判別装置が使用されるであ
ろう会議室内において想定し得る22種類の雑音を用い
た。音声及び雑音データの分析条件を(表2)に示す。
音データの2種類の音響データである。音声データとし
ては、無響室において録音した男性1名の発声した21
2単語中の16音韻(/a/,/i/,/u/,/e/,/o/,/b/,/d/,/g
/,/m/,/n/,/N/,/s/,/h/,/r/,/w/,/y/) を使用し、すべ
ての音韻に関して視察により音韻境界が求められてい
る。また、雑音データとしては、(表1)に示すよう
な、本実施例の音声/非音声判別装置が使用されるであ
ろう会議室内において想定し得る22種類の雑音を用い
た。音声及び雑音データの分析条件を(表2)に示す。
【0010】
【表1】
【0011】
【表2】
【0012】調査の結果として、1次の自己相関係数に
ついての頻度分布が16音韻と22雑音についての場合
をそれぞれ(図4)(図5)に、7次の自己相関係数に
ついての頻度分布が16音韻と22雑音についての場合
をそれぞれ(図6)(図7)に、1次のケプストラム係
数についての頻度分布が16音韻と22雑音についての
場合をそれぞれ(図8)(図9)に、3次のケプストラ
ム係数についての頻度分布が16音韻と22雑音につい
ての場合をそれぞれ(図10)(図11)に示した。そ
れぞれの図において、黒丸は平均値を示し、縦方向にそ
の標準偏差を示している。その結果、次のような傾向が
あることがわかった。
ついての頻度分布が16音韻と22雑音についての場合
をそれぞれ(図4)(図5)に、7次の自己相関係数に
ついての頻度分布が16音韻と22雑音についての場合
をそれぞれ(図6)(図7)に、1次のケプストラム係
数についての頻度分布が16音韻と22雑音についての
場合をそれぞれ(図8)(図9)に、3次のケプストラ
ム係数についての頻度分布が16音韻と22雑音につい
ての場合をそれぞれ(図10)(図11)に示した。そ
れぞれの図において、黒丸は平均値を示し、縦方向にそ
の標準偏差を示している。その結果、次のような傾向が
あることがわかった。
【0013】まず1次以上の自己相関係数は、エネルギ
ーの集中周波数域の違いが反映される特徴量であり、エ
ネルギーが高い周波数帯域に優勢に存在している無声音
などランダム性の強い雑音では、1次の自己相関係数の
値は0に近い小さい値を示し(図5)、有声音などにお
いてはその値は1近くを示す(図4)。一方、エネルギ
ーが低い周波数帯域に優勢に存在している雑音の場合、
7次の自己相関係数の値は1に近い値を示し(図7)、
有声音などではその値が0に近くなる(図6)。ケプス
トラム係数は、スペクトルの形状を表す特徴量であり、
同じ有声音でも各音韻毎にその値は大きく異なる。1次
のケプストラム係数は、有声音か無声音かなどの大まか
なスペクトルの形状の違いを表す量であり、音韻/i/
を除く有声音ではその値が1.0以上を示し、それ以外
の音では1.0以下の値を示す(図8)。3次のケプス
トラム係数は、音韻/i/の特徴が特に大きく表れる特
徴量であり、/i/ではその値が0.5以上を示し、そ
れ以外の音では0.5以下を示す(図10)。
ーの集中周波数域の違いが反映される特徴量であり、エ
ネルギーが高い周波数帯域に優勢に存在している無声音
などランダム性の強い雑音では、1次の自己相関係数の
値は0に近い小さい値を示し(図5)、有声音などにお
いてはその値は1近くを示す(図4)。一方、エネルギ
ーが低い周波数帯域に優勢に存在している雑音の場合、
7次の自己相関係数の値は1に近い値を示し(図7)、
有声音などではその値が0に近くなる(図6)。ケプス
トラム係数は、スペクトルの形状を表す特徴量であり、
同じ有声音でも各音韻毎にその値は大きく異なる。1次
のケプストラム係数は、有声音か無声音かなどの大まか
なスペクトルの形状の違いを表す量であり、音韻/i/
を除く有声音ではその値が1.0以上を示し、それ以外
の音では1.0以下の値を示す(図8)。3次のケプス
トラム係数は、音韻/i/の特徴が特に大きく表れる特
徴量であり、/i/ではその値が0.5以上を示し、そ
れ以外の音では0.5以下を示す(図10)。
【0014】(図1)において、12はあらかじめ多数
の音声と非音声の学習データを用いて、音声かそれ以外
かを判定するためのある適当なしきい値を決定するしき
い値決定部である。13は特徴抽出部11から出力され
る1次と7次の自己相関係数と1次のケプストラム係数
を、しきい値決定部12で決定したある適当なしきい値
とフレーム単位で比較することにより音声かそれ以外か
を判定する概略判定部であり、14は概略判定部13に
より音声以外と判定されたもののうち、特徴抽出部11
から出力される3次のケプストラム係数としきい値決定
部12で決定したある適当なしきい値とをフレーム単位
で比較することにより、有声音の/i/かそれ以外かを
判定する詳細判定部である。15はパワーの一定レベル
以上の入力信号の塊について概略判定部13と詳細判定
部14とにより音声と判定されたフレームの個数の割合
が、しきい値決定部12で決定したある適当なしきい値
以上のときにその塊を音声と判定する最終判定部であ
る。
の音声と非音声の学習データを用いて、音声かそれ以外
かを判定するためのある適当なしきい値を決定するしき
い値決定部である。13は特徴抽出部11から出力され
る1次と7次の自己相関係数と1次のケプストラム係数
を、しきい値決定部12で決定したある適当なしきい値
とフレーム単位で比較することにより音声かそれ以外か
を判定する概略判定部であり、14は概略判定部13に
より音声以外と判定されたもののうち、特徴抽出部11
から出力される3次のケプストラム係数としきい値決定
部12で決定したある適当なしきい値とをフレーム単位
で比較することにより、有声音の/i/かそれ以外かを
判定する詳細判定部である。15はパワーの一定レベル
以上の入力信号の塊について概略判定部13と詳細判定
部14とにより音声と判定されたフレームの個数の割合
が、しきい値決定部12で決定したある適当なしきい値
以上のときにその塊を音声と判定する最終判定部であ
る。
【0015】以下、本発明の一実施例について(図1)
のブロック構成図と(図2)の概略判定部13の動作を
説明するためのフローチャート、および(図3)の詳細
判定部14の動作を説明するためのフローチャートを参
照しながら詳細に説明する。
のブロック構成図と(図2)の概略判定部13の動作を
説明するためのフローチャート、および(図3)の詳細
判定部14の動作を説明するためのフローチャートを参
照しながら詳細に説明する。
【0016】音響信号がマイクロフォンを通して入力さ
れると、特徴抽出部11によりまず5つの特徴量が抽出
される。パワー算出部11aでは、一定時間毎のパワー
値が例えば(数1)で算出される。一定の時間間隔は、
ここでは例えばサンプリング周波数を10KHzとし
て、200点(20ms)とし、この時間単位をフレー
ムと呼ぶ。
れると、特徴抽出部11によりまず5つの特徴量が抽出
される。パワー算出部11aでは、一定時間毎のパワー
値が例えば(数1)で算出される。一定の時間間隔は、
ここでは例えばサンプリング周波数を10KHzとし
て、200点(20ms)とし、この時間単位をフレー
ムと呼ぶ。
【0017】
【数1】
【0018】ここで、Piはフレームiでのパワー値、
Skはフレーム内の入力信号のサンプル値を示す。この
パワー値は発声条件の違いによるパワーの違いを統一し
て扱えるように、パワーの大きな区間内の最大値、最小
値間を例えば0から1までの値に正規化して用いる。1
次の自己相関係数算出部11bではフレーム毎に1次の
自己相関係数Ai(1)が、7次の自己相関係数算出部11
cではフレーム毎に7次の自己相関係数Ai(7)がそれぞ
れ(数2)、(数3)で算出され、さらにAi(1)、Ai
(7)ともに0次の自己相関係数で正規化される。
Skはフレーム内の入力信号のサンプル値を示す。この
パワー値は発声条件の違いによるパワーの違いを統一し
て扱えるように、パワーの大きな区間内の最大値、最小
値間を例えば0から1までの値に正規化して用いる。1
次の自己相関係数算出部11bではフレーム毎に1次の
自己相関係数Ai(1)が、7次の自己相関係数算出部11
cではフレーム毎に7次の自己相関係数Ai(7)がそれぞ
れ(数2)、(数3)で算出され、さらにAi(1)、Ai
(7)ともに0次の自己相関係数で正規化される。
【0019】
【数2】
【0020】
【数3】
【0021】1次のケプストラム係数算出部11dで
は、フレームiでの1次のケプストラム係数Ci(1)が、
3次のケプストラム係数算出部11eでは、フレームi
での3次のケプストラム係数Ci(3)が線形予測分析によ
り求められる。なお、1次の自己相関係数のかわりに1
次の偏自己相関係数を、また1次のケプストラム係数の
かわりに1次の線形予測係数を用いても、それらの値の
絶対値は等しいので全く差し支えない。また、7次の自
己相関係数のかわりに6次から12次程度までの自己相
関係数を用いても、エネルギーが低い周波数帯域に優勢
に存在している非音声を除去するために使用するという
意味では差し支えない。また、本実施例では1次および
3次のケプストラム係数により、音声中の音韻/i/に
着目して/i/の特徴が特に大きく表れる特徴量を用い
ているが、さらに高性能な音声/非音声の判別を実現す
るため、他の音韻、例えば/a/、/u/、/e/、/
o/などの特徴が大きく表れる1次以上のケプストラム
係数を組み合わせて用いても良い。また、ケプストラム
係数としては、LPCケプストラム係数、FFTケプス
トラム係数、メルケプストラム係数を用いても、音声中
の各音韻の特徴に基づき音韻性を詳細に判定するという
意味では差し支えない。
は、フレームiでの1次のケプストラム係数Ci(1)が、
3次のケプストラム係数算出部11eでは、フレームi
での3次のケプストラム係数Ci(3)が線形予測分析によ
り求められる。なお、1次の自己相関係数のかわりに1
次の偏自己相関係数を、また1次のケプストラム係数の
かわりに1次の線形予測係数を用いても、それらの値の
絶対値は等しいので全く差し支えない。また、7次の自
己相関係数のかわりに6次から12次程度までの自己相
関係数を用いても、エネルギーが低い周波数帯域に優勢
に存在している非音声を除去するために使用するという
意味では差し支えない。また、本実施例では1次および
3次のケプストラム係数により、音声中の音韻/i/に
着目して/i/の特徴が特に大きく表れる特徴量を用い
ているが、さらに高性能な音声/非音声の判別を実現す
るため、他の音韻、例えば/a/、/u/、/e/、/
o/などの特徴が大きく表れる1次以上のケプストラム
係数を組み合わせて用いても良い。また、ケプストラム
係数としては、LPCケプストラム係数、FFTケプス
トラム係数、メルケプストラム係数を用いても、音声中
の各音韻の特徴に基づき音韻性を詳細に判定するという
意味では差し支えない。
【0022】しきい値決定部12では、あらかじめ多数
の音声データの母音部分と非音声データについて特徴抽
出部11で得られる特徴量を抽出しておき、これらの特
徴量の分布に基づき音声かそれ以外かの適当なしきい値
をそれぞれの特徴量毎に定めておく。また、音声の学習
データを用いて特徴抽出部11で得られる特徴量が、あ
る決められたフレーム数の中でどの程度の割合で存在す
るかにより、音声/非音声を判定するためのある適当な
しきい値を決定する。音声/非音声のしきい値決定の際
に使用する非音声データとしては、例えば本実施例の音
声/非音声判別装置が会議室等で利用される場合は、机
を叩く音、紙の刷れる音、コップの音、マイクロフォン
に物が触れる音等、予想される雑音データを用いればよ
い。
の音声データの母音部分と非音声データについて特徴抽
出部11で得られる特徴量を抽出しておき、これらの特
徴量の分布に基づき音声かそれ以外かの適当なしきい値
をそれぞれの特徴量毎に定めておく。また、音声の学習
データを用いて特徴抽出部11で得られる特徴量が、あ
る決められたフレーム数の中でどの程度の割合で存在す
るかにより、音声/非音声を判定するためのある適当な
しきい値を決定する。音声/非音声のしきい値決定の際
に使用する非音声データとしては、例えば本実施例の音
声/非音声判別装置が会議室等で利用される場合は、机
を叩く音、紙の刷れる音、コップの音、マイクロフォン
に物が触れる音等、予想される雑音データを用いればよ
い。
【0023】音響信号から特徴抽出部11で得られた特
徴量は、概略判定部13と詳細判定部14にそれぞれ入
力される。まず、音響信号から特徴抽出部11で得られ
た特徴量うち1次および7次の自己相関係数と1次のケ
プストラム係数が、概略判定部13にそれぞれ入力され
る。
徴量は、概略判定部13と詳細判定部14にそれぞれ入
力される。まず、音響信号から特徴抽出部11で得られ
た特徴量うち1次および7次の自己相関係数と1次のケ
プストラム係数が、概略判定部13にそれぞれ入力され
る。
【0024】(図2)に示すステップ21において、1
次の自己相関係数の値の大きさにより、エネルギーが高
い周波数帯域に優勢に存在している無声音などランダム
性の強い雑音が除去される。しきい値決定部12で決定
した1次の自己相関係数のしきい値をA1とすると、A
i(1)≧A1のときに音声、それ以外が非音声であると判
断する。次に、ステップ22において、7次の自己相関
係数の値の大きさにより、エネルギーが低い周波数帯域
に優勢に存在している雑音が除去される。すなわち、し
きい値決定部12で決定した7次の自己相関係数のしき
い値をA7とすると、Ai(7)≦A7のときに音声、それ
以外が非音声であると判断する。
次の自己相関係数の値の大きさにより、エネルギーが高
い周波数帯域に優勢に存在している無声音などランダム
性の強い雑音が除去される。しきい値決定部12で決定
した1次の自己相関係数のしきい値をA1とすると、A
i(1)≧A1のときに音声、それ以外が非音声であると判
断する。次に、ステップ22において、7次の自己相関
係数の値の大きさにより、エネルギーが低い周波数帯域
に優勢に存在している雑音が除去される。すなわち、し
きい値決定部12で決定した7次の自己相関係数のしき
い値をA7とすると、Ai(7)≦A7のときに音声、それ
以外が非音声であると判断する。
【0025】さらに、ステップ23において、1次のケ
プストラム係数の値の大きさにより、音韻/i/を除く
有声音が検出される。しきい値決定部12で決定した1
次のケプストラム係数のしきい値をC1とすると、Ci
(1)≧C1のとき音声であり、それ以外が非音声である
と判断する。音声であればステップ24においてVi=
1の出力値を、非音声であればステップ25においてV
i=0の出力値を詳細判定部14に送出する。
プストラム係数の値の大きさにより、音韻/i/を除く
有声音が検出される。しきい値決定部12で決定した1
次のケプストラム係数のしきい値をC1とすると、Ci
(1)≧C1のとき音声であり、それ以外が非音声である
と判断する。音声であればステップ24においてVi=
1の出力値を、非音声であればステップ25においてV
i=0の出力値を詳細判定部14に送出する。
【0026】次に、詳細判定部14のステップ31にお
いて、概略判定部13において音声と判定されたものす
なわちVi=1の場合は、そのまま出力値を最終判定部
15に送出し、概略判定部13において非音声と判定さ
れたもの、すなわちVi=0の場合についてのみ音韻/
i/の検出が行われる。ステップ32において、しきい
値決定部12で決定した3次のケプストラム係数のしき
い値をC3とすると、音響信号から特徴抽出部11で抽
出された3次のケプストラム係数の値の大きさとの比較
により、Ci(3)≧C3のときのみ/i/すなわち音声で
あり、それ以外は非音声であると判断する。音声であれ
ばステップ33においてVi=1の出力値を、非音声で
あればステップ34においてVi=0の出力値を最終判
定部15に送出する。
いて、概略判定部13において音声と判定されたものす
なわちVi=1の場合は、そのまま出力値を最終判定部
15に送出し、概略判定部13において非音声と判定さ
れたもの、すなわちVi=0の場合についてのみ音韻/
i/の検出が行われる。ステップ32において、しきい
値決定部12で決定した3次のケプストラム係数のしき
い値をC3とすると、音響信号から特徴抽出部11で抽
出された3次のケプストラム係数の値の大きさとの比較
により、Ci(3)≧C3のときのみ/i/すなわち音声で
あり、それ以外は非音声であると判断する。音声であれ
ばステップ33においてVi=1の出力値を、非音声で
あればステップ34においてVi=0の出力値を最終判
定部15に送出する。
【0027】最終判定部15では、まずパワー計算部1
1aで得られたパワー値系列から、しきい値決定部12
であらかじめ定めたパワーしきい値を決められた長さ以
上越える区間を音声候補区間として検出する。このとき
の音声候補区間のフレーム長をCとする。この音声候補
区間に対して、概略判定部13と詳細判定部14とによ
り音声と判定されたフレームの個数C1を計数し、音声
候補区間に占める音声と判定された区間のフレーム数の
割合がしきい値決定部12であらかじめ定めたしきい値
Mを越えるとき、すなわち(数4)の条件を満足すると
きにこの音声候補区間は音声であると判定する。
1aで得られたパワー値系列から、しきい値決定部12
であらかじめ定めたパワーしきい値を決められた長さ以
上越える区間を音声候補区間として検出する。このとき
の音声候補区間のフレーム長をCとする。この音声候補
区間に対して、概略判定部13と詳細判定部14とによ
り音声と判定されたフレームの個数C1を計数し、音声
候補区間に占める音声と判定された区間のフレーム数の
割合がしきい値決定部12であらかじめ定めたしきい値
Mを越えるとき、すなわち(数4)の条件を満足すると
きにこの音声候補区間は音声であると判定する。
【0028】
【数4】
【0029】以上のように本実施例の音声/非音声判別
装置によれば、入力信号から一定時間毎の音声の複数の
特徴量を抽出する特徴量抽出部11と、あらかじめ多数
の音声と非音声の学習データについてフレーム単位で抽
出した前記特徴量を用いて、音声かそれ以外かを判定す
るためのしきい値を決定するしきい値決定部12と、複
数の音声の特徴量としきい値決定部で決定したしきい値
とを比較することで音声かそれ以外かを判定し、音声が
周波数領域においてどの程度母音性を持つかを概略的に
判定する概略判定部13と、音声中の各音韻の特徴に基
づき有声音の検出に適した複数の特徴量としきい値決定
部で決定したしきい値とを比較することで音声かそれ以
外かを判定し、どの程度母音性を持つかを詳細に判定す
る詳細判定部14と、概略判定部と詳細判定部とにより
パワーの一定レベル以上の区間について、音声と判定さ
れたフレームの存在比率によりその区間が音声か否かを
判定する最終判定部とを具備して構成することにより、
簡単な構成で様々な音響信号を正確に判定することがで
きる音声/非音声判別装置を提供することができる。
装置によれば、入力信号から一定時間毎の音声の複数の
特徴量を抽出する特徴量抽出部11と、あらかじめ多数
の音声と非音声の学習データについてフレーム単位で抽
出した前記特徴量を用いて、音声かそれ以外かを判定す
るためのしきい値を決定するしきい値決定部12と、複
数の音声の特徴量としきい値決定部で決定したしきい値
とを比較することで音声かそれ以外かを判定し、音声が
周波数領域においてどの程度母音性を持つかを概略的に
判定する概略判定部13と、音声中の各音韻の特徴に基
づき有声音の検出に適した複数の特徴量としきい値決定
部で決定したしきい値とを比較することで音声かそれ以
外かを判定し、どの程度母音性を持つかを詳細に判定す
る詳細判定部14と、概略判定部と詳細判定部とにより
パワーの一定レベル以上の区間について、音声と判定さ
れたフレームの存在比率によりその区間が音声か否かを
判定する最終判定部とを具備して構成することにより、
簡単な構成で様々な音響信号を正確に判定することがで
きる音声/非音声判別装置を提供することができる。
【0030】
【発明の効果】以上の説明から明らかなように本発明に
よれば、音声を特徴付ける複数の特徴量を抽出し、多数
の母音と非音声データにおける特徴量からあらかじめ適
当なしきい値を設定しておき、フレーム毎に音声か非音
声かの判定を行い、パワーの大きな部分を音声区間候補
として判定されたフレームの存在比率により音声か非音
声か判別するように構成してあるので、非常に簡単な構
成で入力信号が音声かそれ以外かを正確に判定すること
ができる音声/非音声判別装置を提供することができ
る。
よれば、音声を特徴付ける複数の特徴量を抽出し、多数
の母音と非音声データにおける特徴量からあらかじめ適
当なしきい値を設定しておき、フレーム毎に音声か非音
声かの判定を行い、パワーの大きな部分を音声区間候補
として判定されたフレームの存在比率により音声か非音
声か判別するように構成してあるので、非常に簡単な構
成で入力信号が音声かそれ以外かを正確に判定すること
ができる音声/非音声判別装置を提供することができ
る。
【図1】本発明の一実施例の音声/非音声判別装置の全
体構成を示すブロック図
体構成を示すブロック図
【図2】本発明の概略判定部の一実施例の動作を示すフ
ローチャート
ローチャート
【図3】本発明の詳細判定部の一実施例の動作を示すフ
ローチャート
ローチャート
【図4】16音韻における1次の自己相関係数の頻度分
布図
布図
【図5】22雑音における1次の自己相関係数の頻度分
布図
布図
【図6】16音韻における7次の自己相関係数の頻度分
布図
布図
【図7】22雑音における7次の自己相関係数の頻度分
布図
布図
【図8】16音韻における1次のケプストラム係数の頻
度分布図
度分布図
【図9】22雑音における1次のケプストラム係数の頻
度分布図
度分布図
【図10】16音韻における3次のケプストラム係数の
頻度分布図
頻度分布図
【図11】22雑音における3次のケプストラム係数の
頻度分布図
頻度分布図
【符号の説明】 11 特徴抽出部 11a パワー算出部 11b 1次の自己相関係数算出部 11c 7次の自己相関係数算出部 11d 1次のケプストラム係数算出部 11e 3次のケプストラム係数算出部 12 しきい値決定部 13 概略判定部 14 詳細判定部 15 最終判定部
Claims (3)
- 【請求項1】 入力信号から一定時間毎に、音声を特徴
付ける1次の自己相関係数および2次以上の自己相関係
数のうち少なくとも1つを用いて複数の音声の特徴量を
抽出し、音声か非音声であるかを判別する音声/非音声
判別方法。 - 【請求項2】 入力信号から一定時間毎に、音声を特徴
付ける1次のケプストラム係数および2次以上のケプス
トラム係数のうち少なくとも1つを用いて複数の音声の
特徴量を抽出し、音声か非音声であるかを判別する音声
/非音声判別方法。 - 【請求項3】 入力信号から一定時間毎に音声を特徴付
ける1次の自己相関係数および2次以上の自己相関係数
と1次のケプストラム係数および2次以上のケプストラ
ム係数を抽出する特徴抽出部と、あらかじめ多数の音声
と非音声の学習データについて所定時間内に前記特徴抽
出部で抽出した特徴量を用いて、音声かそれ以外かを判
定するためのしきい値を決定するしきい値決定部と、入
力信号から所定時間内に前記特徴抽出部で抽出した1次
以上の自己相関係数と1次のケプストラム係数のうち少
なくとも1つの特徴量について、前記しきい値決定部で
決定したしきい値と比較することで音声かそれ以外かを
判定する概略判定部と、前記概略判定部により音声以外
と判定されたものにおいて、入力信号から所定時間内に
前記特徴抽出部で抽出した2次以上のケプストラム係数
のうち少なくとも1つの特徴量について、前記しきい値
決定部で決定したしきい値と比較することで音声かそれ
以外かを判定する詳細判定部と、パワーの一定レベル以
上の入力信号の塊について前記概略判定部と前記詳細判
定部とにより音声と判定されたフレームの個数の割合が
前記しきい値決定部で決定したしきい値以上のときにそ
の塊を音声と判定する最終判定部とを備えたことを特徴
とする音声/非音声判別装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3342631A JPH05173592A (ja) | 1991-12-25 | 1991-12-25 | 音声/非音声判別方法および判別装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3342631A JPH05173592A (ja) | 1991-12-25 | 1991-12-25 | 音声/非音声判別方法および判別装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH05173592A true JPH05173592A (ja) | 1993-07-13 |
Family
ID=18355269
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3342631A Pending JPH05173592A (ja) | 1991-12-25 | 1991-12-25 | 音声/非音声判別方法および判別装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH05173592A (ja) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002306492A (ja) * | 2001-04-16 | 2002-10-22 | Electronic Navigation Research Institute | カオス論的ヒューマンファクタ評価装置 |
| WO2007046267A1 (ja) * | 2005-10-20 | 2007-04-26 | Nec Corporation | 音声判別システム、音声判別方法及び音声判別用プログラム |
| US20090067651A1 (en) * | 2006-04-01 | 2009-03-12 | Widex A/S | Hearing aid, and a method for control of adaptation rate in anti-feedback systems for hearing aids |
| WO2010089976A1 (ja) | 2009-02-09 | 2010-08-12 | パナソニック株式会社 | 補聴器 |
| US8121321B2 (en) | 2008-12-26 | 2012-02-21 | Panasonic Corporation | Hearing aids |
| JP2013050604A (ja) * | 2011-08-31 | 2013-03-14 | Nippon Hoso Kyokai <Nhk> | 音響処理装置およびそのプログラム |
-
1991
- 1991-12-25 JP JP3342631A patent/JPH05173592A/ja active Pending
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002306492A (ja) * | 2001-04-16 | 2002-10-22 | Electronic Navigation Research Institute | カオス論的ヒューマンファクタ評価装置 |
| WO2007046267A1 (ja) * | 2005-10-20 | 2007-04-26 | Nec Corporation | 音声判別システム、音声判別方法及び音声判別用プログラム |
| JP4911034B2 (ja) * | 2005-10-20 | 2012-04-04 | 日本電気株式会社 | 音声判別システム、音声判別方法及び音声判別用プログラム |
| US8175868B2 (en) | 2005-10-20 | 2012-05-08 | Nec Corporation | Voice judging system, voice judging method and program for voice judgment |
| CN102222499B (zh) | 2005-10-20 | 2012-11-07 | 日本电气株式会社 | 声音判别系统、声音判别方法以及声音判别用程序 |
| US20090067651A1 (en) * | 2006-04-01 | 2009-03-12 | Widex A/S | Hearing aid, and a method for control of adaptation rate in anti-feedback systems for hearing aids |
| US8744102B2 (en) * | 2006-04-01 | 2014-06-03 | Widex A/S | Hearing aid, and a method for control of adaptation rate in anti-feedback systems for hearing aids |
| US8121321B2 (en) | 2008-12-26 | 2012-02-21 | Panasonic Corporation | Hearing aids |
| WO2010089976A1 (ja) | 2009-02-09 | 2010-08-12 | パナソニック株式会社 | 補聴器 |
| US8126176B2 (en) | 2009-02-09 | 2012-02-28 | Panasonic Corporation | Hearing aid |
| JP2013050604A (ja) * | 2011-08-31 | 2013-03-14 | Nippon Hoso Kyokai <Nhk> | 音響処理装置およびそのプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0625774B1 (en) | A method and an apparatus for speech detection | |
| EP1210711B1 (en) | Sound source classification | |
| JPH0990974A (ja) | 信号処理方法 | |
| EP2347408A1 (en) | System and method for automatic speach to text conversion | |
| KR101122590B1 (ko) | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 | |
| Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
| JPH0792988A (ja) | 音声検出装置と映像切り替え装置 | |
| CN102222499A (zh) | 声音判别系统、声音判别方法以及声音判别用程序 | |
| US7451082B2 (en) | Noise-resistant utterance detector | |
| JPH05173592A (ja) | 音声/非音声判別方法および判別装置 | |
| JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
| JPH0797279B2 (ja) | 音声認識装置 | |
| JP3493849B2 (ja) | 音声認識装置 | |
| Burileanu et al. | An adaptive and fast speech detection algorithm | |
| JPH05249987A (ja) | 音声検出方法および音声検出装置 | |
| Malucha et al. | Comparison of methods for determining speech voicing based on tests performed on paired consonants and continuous speech | |
| JP2658426B2 (ja) | 音声認識方法 | |
| JPH034918B2 (ja) | ||
| Zheng et al. | A robust keyword detection system for criminal scene analysis | |
| JPH06110492A (ja) | 音声認識装置 | |
| WO1997037345A1 (en) | Speech processing | |
| JP2006071956A (ja) | 音声信号処理装置及びプログラム | |
| Kondo et al. | Estimation of two-to-one forced selection intelligibility scores by speech recognizers using noise-adapted models. | |
| Kizhanatham | Detection of co-channel speech and usable speech | |
| Charfuelan et al. | Classification of listener linguistic vocalisations in interactive meetings |