JPH0285897A

JPH0285897A - 音声検出方式

Info

Publication number: JPH0285897A
Application number: JP63238050A
Authority: JP
Inventors: Shigenobu Nonaka; 重信野中; Masayuki Unno; 海野　雅幸
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1988-09-22
Filing date: 1988-09-22
Publication date: 1990-03-27

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、音声検出方式に関する。

［従来の技術］従来、雑音環境下で音声の存在を検出する方法は多数あ
り、特公昭５７−１２９９９号公報に記載されているよ
うな通信における音声区間の検出に用いたり、音声言語
内容の認識の前処理に用いたりされているか、高雑音下
での一般用途への展開は困難で、例えば、着信ベル音が
鳴っているような状態てのハンズフリー電話機の音声に
よる応答開始等ができなかった。

なお、雑音環境下で簡易に音声の存在を検出する方法と
しては、入力信号が一定時間間隔内に参照軸を横切る回
数を検出する方法かあった。

［発明が解決しようとする課題］しかしながら、上記従来の音声検出方式を用いる方法に
あっては、一般に雑音の振幅は音声の振幅に比較して小
さいという前提を用いており、雑音の振幅が音声の振幅
と同程度の場合、音声の存在を検出することができない
。

そこで本出願人は、雑音環境下での音声の存在を簡易に
検出することがてきる音声検出方式として、■入力信号
の参照軸交差数と波高値（波形の振幅レベルの無次元化
量）とを特徴パラメータとして有声音を検出する方法、
■入力信号の参照軸交差数と圧基準振幅時間（波形の振
幅が一定時間間隔内に実効値を目安とするしきい値を越
える時間）とを特徴パラメータとして有声音を検出する
方法を提案している。

上記■、■の音声検出方式は、従来方式に比して有用で
あるものの、以下の理由によりその有声音検出率の向上
に限界がある。

すなわち、音声には、低周波成分のパワーが多く、高周
波成分のパワーは少ないという特徴がある。ところが、
上記■、■の方法で特徴パラメータとして用いられる、
参照軸交差数と、波形の振幅分布に関する値（波高値、
圧基準振幅時間）は、入力信号の主たる周波数成分の周
波数に近似するものであり、入力信号の周波数分布に関
する情報を堤供するものでない。したがって、■、■の
方法にあっては、有声音のもつ基本的な特徴の１つであ
る周波数分布に関する情報量が不足しているため、有声
音検出率を向上するのに困難がある。

本発明は、雑音の振幅が大きく音声の検出に対する影響
が大きい場合にも、雑音環境下での音声の存在を、簡易
に高い検出率で検出することを目的とする。

［課題を解決するための手段］請求項１に記載の本発明は、入力信号の参照軸交差数と
、波形の振幅分布に関する値と、パワースペクトルに関
する値とを特徴パラメータとして算出し、この算出結果
を、有声音と特定雑音についての辞書データと比較し、
入力信号か有声音を含むかどうかを判定するようにしだ
ものである。

ここで、参照軸交差数は、人力信号か零レベル等、予め
定めた参照レベルを横切る回数であり、入力信号が有声
音を含む場合、−Ｍにある一定範囲内の値を示す。

請求項２に記載の本発明は、前記波形の振幅分布に関す
る値として、例えば次式で表わされる波高値Ｐを用いる
ようにしたものである。この波高値は、入力信号が有声
音を含む場合、−Ｍにある一定範囲内の値を示す。

Ｐ　＝　２０Ｘ　１ｏｇ＋ｏ（Ｖｐ／Ｖ、□）たたし、
■、ニ一定時間間隔内の振幅の絶対値の最大値 ■ｒ□　＝同一定時間間隔内の振幅の実効値請求項３に記載の本発明は、前記波形の振幅分布に関す
る値として、例えば次式で表わされる波高値Ｐを用いる
ようにしたものである。この波高値は、入力信号が有声
音を含む場合、一般にある一定範囲内の値を示す。

Ｐ　＝　２０Ｘ　ｌｏｇ＋ｏ（Ｖｐ／Ｖａ）たたし、■
、ニ一定時間間隔内の振幅の絶対値の最大値 ■、：同一定時間間隔内の振幅の絶対値の平均値請求項４に記載の本発明は、前記波形の振幅分布に関す
る値として振幅が一定時間間隔内に実効値を目安とする
しきい値を越える時間（圧基準振幅時間と呼ぶ）を用い
るようにしたものである。

この圧基準振幅時間は、入力信号が有声音を含む場合、
−Ｍにある一定範囲内の値を示す。

請求項５に記載の本発明は、前記パワースペクトルに関
する値として、入力信号の音声周波数帯域を多チャンネ
ルバンドパスフィルタで複数チャンネルに分割し、その
全チャンネルから得られたパワーの総和値に対し、その
低帯域チャンネルから得られたパワーの合計値がなす比
率を用いるようにしたものである。ここで、有声音は低
周波成分の側のパワーが高周波成分の側のパワーに対し
て大きい特徴がある。このため、」１記比率は、入力信
号が有声音を含む場合、−Ｓに雑音よりも大きめの値を
示す。なお、多チャンネルバンドパスフィルタは、音声
周波数帯域を等間隔または対数間隔的に複数の帯域に分
割した複数チャンネルをもって構成される。

［作用コ請求項１に記載の本発明にあっては、雑音環境下の音声
を以下の如く検出する。なお、本発明にあっては、有声
音（母音、半母音、鼻音等の声帯の振動をともなう音で
あり、人間か発声する殆どすべての音声には有声音が含
まれている）をもって音声とする。

（１）有声音と特定雑音について、それらの信号の一定
時間間隔内における参照軸交差数と波形の振幅分布に関
する値と波形のパワースペクトルに関する値とを特徴パ
ラメータとする辞書データを用意する。

辞書データとしては、例えば、下記（ａ）（ｂｌ　　　
（ｃ）が用いられる。

（ａ）多数の音声から得られた有声音についての特徴パ
ラメータの組。

（ｂ）特定雑音（例えば特定電話機の着信ベル音）につ
いて求められた多数の特徴パラメータの組。

（ｃ）有声音と、特定雑音とを特定の比率で加え合わせ
た結果を多数の音声について求めた特徴パラメータの組
。

なお、上記（ａ）　　（ｂ）、（ｃ）のデータは、音響
データを特徴パラメータ化した数値データ、数値データ
を統計処理した平均値、分散等の統計的データ、もしく
は統計的データに基づいて定まる境界方程式等の判別式
データ等の各種態様にて用意できる。

（２）入力信号を採取し、この入力信号の一定時間間隔
内における参照軸交差数と波形の振幅分布に関する値と
波形のパワースペクトルに関する値とを特徴パラメータ
として算出する。

（３）上記（２）で算出した特徴パラメータと、上記（
１）で定めた辞書データが規定する標準パターンとを、
パラメータ空間上で比較し、入力信号か有声音を含むか
どうかをパターン認識により判定する。

辞書データを用いて上述のパターン認識は例えば以下の
如くなされる。

■辞書データが規定するカテゴリー「有声音」（前記（
ａ）の有声音、もしくは前記（Ｃ）の特定雑音を特定の
比率で加え合わされた有声音のカテゴリー）と、カテゴ
リー「その他」とで２分されるパラメータ空間を構成し
、人力信号の特徴パラメータがどちらのカテゴリーに属
するかを判定する。

■次に、特定雑音の振幅が大きく、これか有声音の検出
に大きく影響を与えることの可能性を考慮し、上記■に
加え、カテゴリー「特定雑音」とカテゴリー「有声音」
の境界を定め、入力信号の特徴パラメータかどちらのカ
テゴリーに属するかを判定する。

■上記■、■の判定の結果、入力信号が、■においてカ
テゴリー「有声音」に属し、かつ■においてカテゴリー
「特定雑音」に属さないことを条件に、入力信号中に有
声音が存在することを判定する。

しかして、請求項１に記載の本発明にあっては、参照軸
交差数と波形の振幅分布に関する値の２つの特徴パラメ
ータのみを用いる場合に比して、有声音のもつ基本的な
特徴の１つである周波数分布の偏りを反映した特徴パラ
メータを第３のパラメータとして用いることから、特定
雑音の振幅が大きく音声の検出に対する影響が大きい場
合にも、有声音のカテゴリーと特定雑音のカテゴリーと
をパラメータ空間において明瞭に分離でき、雑音環境下
での音声の存在を、簡易に高い検出率で検出できる。

請求項２に記載の本発明によれば、波形の振幅分布に関
する値として、前述した如くの波高値を用いたから、有
声音の特徴である先鋭な波形を忠実に反映したパラメー
タ値を用いることとなり、２１　ｇの識別性か向上する
というメリットがある。

請求項３に記載の本発明によれば、波形の振幅分布に関
する値として、前述した如くの波高値を用いたから、請
求項２に記載の本発明に比して演算量を少なくでき、か
つ有声音の特徴である先鋭な波形を比較的忠実に反映し
たパラメータ値を用いることとなり、雑音の識別性が向
上するというメリットかある。なお、演算量が少ないと
いうことは応答速度か速いことを特徴する請求項４に記載の本発明によれば、波形の振幅分布に関
する値として、前述した如くの超基準振幅時間を用いた
から、請求項２または３に記載の本発明に比して演算量
をより少なくできるというメリットがある。

請求項５に記載の本発明によれば、波形のパワースペク
トルに関する値として、前述した如くのパワーの比率を
用いたから、有声音の特徴である周波数分布の傾きを反
映したパラメータ値を用いることになり、雑音との識別
性が向上するというメリットがある。

［実施例］第１図は本発明の実施に用いられる音声検出装置の一例
を示すブロック図、第２図は本発明の特徴パラメータに
よって形成されるパラメータ空間を示す模式図である。

第１図において、１１はマイク、１２は増幅器、１３は
ローパスフィルタ、１４は多チャンネルバンドパスフィ
ルタ、１５はＡ／Ｄコンバータ、１６はＡ／Ｄコンバー
タ、１７はパラメータ演算部、１８は辞書データ記憶部
、１９は判定部、２０は結果出力部である。この実施例
にあっては、雑音環境下の音声を以下の如く検出する。

（１）有声音と特定雑音について、それらの信号の２０
＊Ｓ間における参照軸交差数ｘよと、波形の振幅分布に
関する値Ｘ２と、波形のパワースペクトルに関する値Ｘ
３とを特徴パラメータとする辞書データを用意し、これ
を辞書データ記憶部１８に記憶せしめる。

ここで、波形の振幅分布に関する値Ｘ２としては、下記
■、■、■のいずれかを用いることができる。

■下式で表わされる波高値Ｐ。

Ｐ　＝　２（ＩＸ　ｌｏｇ＋ｏ（ｖｐ／ｖｒ、＊）たた
し、ｖ２ニ一定時間間隔内の振幅の絶対値の最大値Ｖ□１　：同一定時間間隔内の振幅の実効値 ■下式で表わされる波高値Ｐ。

Ｐ　＝　２０Ｘ　ｌｏｇ＋ｏ（Ｖｐ／Ｖａ）ただし、■
、コニ−時間間隔内の振幅の絶対値の最大値 ■、二同一定時間間隔内の振幅の絶対値の平均値 ■振幅が一定時間間隔内に実効値を目安とするしきい値
を越える時間（超基準振幅時間）。

上記■の波高値を用いる場合には、有声音の特徴である
先鋭な波形を比較的忠実に反映したパラメータ値を用い
ることとなり、雑音の識別性か向上するというメリット
かある。

上記■の波高値を用いる場合には、上記■の波高値に比
して演算量を少なくてき、かつ有声音の特徴である先鋭
な波形を忠実に反映したパラメータ値を用いることとな
り、雑音の識別性か向上するというメリットかある。

上記■の波高値を用いる場合には、上記■、■の波高値
に比して演算量をより少なくてきるというメリットかあ
る。

また、パワースペクトルに関する値Ｘ、としては、前述
した、入力信号の音声周波数帯域を多チャンネルバンド
パスフィルタて複数チャンネルに分割し、その全チャン
ネルから得られたパワーの総和値に対し、その低帯域チ
ャンネルから得られたパワーの合計値がなす比率を用い
ることができる。このパワーの比率を用いる場合には、
有声音の特徴である周波数分布の傾きを反映したパラメ
ータ値を用いることになり、雑音との識別性が向上する
というメリットがある。

また、辞書データとしては、例えば下記（ａ）、（ｂ）
、および（ｃ）が作成される。

（ａ）多数の音声から得られた有声音［ア］についての
特徴パラメータの組。

（ｂ）特定雑音（特定電話機の着信ベル音）について求
められた多数の特徴パラメータの組。

［ｃ）有声音［ア］と特定雑音とを、２０　Ｘ　１０ｇ＋ｏ　（Ｓｒ＋ｓ＋＋／Ｎｒｍ＊）　
［ｄＢ］で定義される有声音対特定雑音比３．　Ｏ，−
３゜−６，−１０［ｄＢ］で加え合わせた結果を多数の
音声について求めた特徴パラメータの組。なお、Ｓ　ｒ
ａｍｓは有声音「ア」の振幅の実効値を表わし、Ｎ１□
は特定雑音の振幅の実効値を表わす。

（２）マイク１１にて入力信号を採取し、この入力信号
を、増幅器１２で増幅し、ローパスフィルタ１３を通す
ことによって４．２ＫＨｚ以下の音声帯域成分だけを抽
出する。この後、入力信号は、■パワースペクトルに関
する特徴パラメータを抽出するための前処理を行なう多
チャンネルバンドパスフィルタ１４およびＡ／Ｄコンバ
ータ１５からなる経路と、■振幅分布に関する値と参照
軸交差数の２つの特徴的パラメータを抽出する前処理を
行なうＡ／Ｄコンバータ１６を備える経路とに分岐して
転送される。多チャンネルバンドパスフィルタ１４は、
周波数帯域で２５０Ｈｚから４ＫＨｚまでを１７６オク
ターブ毎に２５チヤンネルに分割したバンドパスフィル
タである。Ａ／Ｄコンバータ１５．１６は標本化周波数
１０Ｋｊｌｚ　、変換ビット数１６ｂｉｔである。これ
らのフィルタ１４、コンバータ１５．１６の前処理部に
よって得られた入力信号およびその周波数信号のデジタ
ル値は、パラメータ演算部１７に送り込まれる。パラメ
ータ演算部１７は、上記入力信号の２ｈＳ間における参
照軸周波数ｘＩと、波形の振幅分布に関する値Ｘ２と、
パワースペクトルに関する値Ｘ３とを特徴パラメータと
して算出する。

（３）上記（２）で算出した特徴パラメータと、上記（
１）で定めた辞書データが規定する標準パラメータとを
、判定部１９において比較し、入力信号が有声音を含む
かどうかを判定し、この判定結果を結果出力部２０から
出力する。

ここで、前述の辞書データを用いたパターン認識は、例
えば第２図のパラメータ空間上で以下の如くなされる。

なお、第２図は零交差数く参照軸レベルを零レベルに設
定したもの）と波形の振幅分布に関する値とパワースペ
クトルに関する値の３つの特徴パラメータをそれぞれＸ
１軸とＸ２軸とＸ３軸にとったものである。第２図にお
いて、μｍσ１１％　σ１２、σ１．はそれぞれ有声音
（前記（ａ）の有声音［ア］、もしくは前記（ｃ）の特
定雑音を特定の有声音対特定雑音比で加え合わされた有
声音）の辞書パラメータの平均値、Ｘ１軸成分の標準偏
差、Ｘ２軸成分の標準偏差、×３３成分の標準偏差を表
わし、μ２、σ２１、σ２２、σ２３はそれぞれ特定雑
音の辞書パラメータについての同様の値を表わす。

■辞書データが規定するカテゴリー「有声音」（前記（
ａ）の有声音［アコ、もしくは前記（ｃ）の特定雑音を
特定の比率で加え合わせた有声音のカテゴリー）と、カ
テゴリー「その他」とを２分する境界１を定める。境界
１にあっては、有声音の辞書データの平均値μｍを含む
側がカテゴリー「有声音」である、この境界１は、平均
値のまわりにどれだけ有声音の辞書データが集中してい
るかを表わす集中楕円であり、軸の長さを変えることに
より有声音の辞書データが楕円内に入る割合を変えるこ
とができる。この実施例の場合は有声音の辞書データの
９割が楕円内に入るように軸の長さを定めた。破線はμ
とσで規定されるカテゴリー「有声音」の概念を表わす
、すなわち、この■の過程にあっては、入力信号の特徴
パラメータが境界１のいずれの側のカテゴリーに属する
かを判定することとなる。

０次に、特定雑音の振幅が大きく、これが有声音の検出
に大きく影響を与えることの可能性を考慮し、上記■に
加え、カテゴリー「特定雑音」とカテゴリー「有声音」
の境界２を定める。境界２にあっては、特定雑音の平均
値μ２を含む側がカテゴリー「特定雑音」となる。この
境界２は、カテゴリー「有声音」とカテゴリー「特定雑
音」に対する尤度が等しい点の集まりである。この実施
例の場合には特定雑音の標準偏差が、人工的に作られた
電話機の着信ベル音であって、有声音と特定雑音を特定
の有声音対特定雑音比で加え合わせたものの辞書データ
の標準偏差より一般的に小さいので、カテゴリー「特定
雑音」が閉じた空間になっている。破線はμとσで規定
されるカテゴリー「特定雑音」の概念を表わす。すなわ
ち、この■の過程にあっては、入力信号の特徴パラメー
タか境界２のいずれの側のカテゴリーに属するかを判定
することとなる。

■上記■、■の判定の結果、入力信号が、特徴パラメー
タ空間上で、■において境界１のμｍ側に属し、かつ■
において境界２のμ２側に属さない時、入力信号をカテ
ゴリー「有声音」に属すると判定する。すなわち、入力
信号中に有声音が存在することを判定する。

しかして、上記実施例にあっては、参照軸交差数と波形
の振幅分布に関する値の２つの特徴パラメータのみを用
いる場合に比して、有声音のもつ基本的な特徴の１つで
ある周波数分布の偏りを反映した特徴パラメータを第３
のパラメータとして用いることから、特定雑音の振幅が
大きく音声の検出に対する影響が大きい場合にも、有声
音のカテゴリーと特定雑音のカテゴリーとをパラメータ
空間において明瞭に分離でき、雑音環境下での音声の存
在を、簡易に高い検出率で検出できる。

特に、上記実施例では、有声音対特定雑音比が−６［ｄ
Ｂ］においても高い有声音の検出率を示し、−３（ｄＢ
］においては　１００［％］に近い検出率を示すことが
認められた。

なお、上記実施例においては、特徴パラメータ空間上で
標準パターンを規定する境界線として集中楕円と２つの
カテゴリーに対する尤度が等しくなる点の集まりを用い
たか、本発明の実施においては、もちろん他の一般的な
パターン認識の手法を用いることができる。例えば、カ
テゴリー「有声音」とカテゴリー「特定雑音」に対する
尤度が等しくなる点の集まりの代わりに、Ｍａｈａｒａ
ｎｏｂｉｓ距離やＥｕｃｌｉｄ距離が等しくなる点の集
まり等を用いることができる。

［発明の効果］以上のように本発明によれば、雑音の振幅が大きく音声
の検出に対する影響が大きい場合にも、雑音環境下での
音声の存在を、簡易に高い検出率で検出することができ
る。

【図面の簡単な説明】

第１図は本発明の実施に用いられる音声検出装置の一例
を示すブロック図、第２図は本発明の特徴パラメータに
よって形成されるパラメータ空間を示す模式図である。１１・・・マイク、１４・・・多チャンネルバンドパスフィルタ、１７・・
・パラメータ演算部、１８・・・辞書データ記憶部、１９・・・判定部、２０・・・結果出力部。特許出願人　積水化学工業株式会社代表者　　廣１）馨

Claims

【特許請求の範囲】

（１）入力信号の参照軸交差数と、波形の振幅分布に関
する値と、パワースペクトルに関する値とを特徴パラメ
ータとして算出し、この算出結果を、有声音と特定雑音
についての辞書データと比較し、入力信号が有声音を含
むかどうかを判定する音声検出方式。
（２）前記波形の振幅分布に関する値として一定時間間
隔内の振幅の絶対値の最大値に対する該一定時間間隔内
の振幅の実効値の比で表わされる波高値を用いる請求項
１記載の音声検出方式。
（３）前記波形の振幅分布に関する値として一定時間間
隔内の振幅の絶対値の最大値に対する該一定時間間隔内
の振幅の絶対値の平均値の比で表わされる波高値を用い
る請求項１記載の音声検出方式。
（４）前記波形の振幅分布に関する値として振幅が一定
時間間隔内に実効値を目安とするしきい値を越える時間
を用いる請求項１記載の音声検出方式。
（５）前記パワースペクトルに関する値として、入力信
号の音声周波数帯域を多チャンネルバンドパスフィルタ
で複数チャンネルに分割し、その全チャンネルから得ら
れたパワーの総和値に対し、その低帯域チャンネルから
得られたパワーの合計値がなす比率を用いる請求項１記
載の音声検出方式。