JPH0285897A - 音声検出方式 - Google Patents
音声検出方式Info
- Publication number
- JPH0285897A JPH0285897A JP63238050A JP23805088A JPH0285897A JP H0285897 A JPH0285897 A JP H0285897A JP 63238050 A JP63238050 A JP 63238050A JP 23805088 A JP23805088 A JP 23805088A JP H0285897 A JPH0285897 A JP H0285897A
- Authority
- JP
- Japan
- Prior art keywords
- value
- amplitude
- input signal
- waveform
- time interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は、音声検出方式に関する。
[従来の技術]
従来、雑音環境下で音声の存在を検出する方法は多数あ
り、特公昭57−12999号公報に記載されているよ
うな通信における音声区間の検出に用いたり、音声言語
内容の認識の前処理に用いたりされているか、高雑音下
での一般用途への展開は困難で、例えば、着信ベル音が
鳴っているような状態てのハンズフリー電話機の音声に
よる応答開始等ができなかった。
り、特公昭57−12999号公報に記載されているよ
うな通信における音声区間の検出に用いたり、音声言語
内容の認識の前処理に用いたりされているか、高雑音下
での一般用途への展開は困難で、例えば、着信ベル音が
鳴っているような状態てのハンズフリー電話機の音声に
よる応答開始等ができなかった。
なお、雑音環境下で簡易に音声の存在を検出する方法と
しては、入力信号が一定時間間隔内に参照軸を横切る回
数を検出する方法かあった。
しては、入力信号が一定時間間隔内に参照軸を横切る回
数を検出する方法かあった。
[発明が解決しようとする課題]
しかしながら、上記従来の音声検出方式を用いる方法に
あっては、一般に雑音の振幅は音声の振幅に比較して小
さいという前提を用いており、雑音の振幅が音声の振幅
と同程度の場合、音声の存在を検出することができない
。
あっては、一般に雑音の振幅は音声の振幅に比較して小
さいという前提を用いており、雑音の振幅が音声の振幅
と同程度の場合、音声の存在を検出することができない
。
そこで本出願人は、雑音環境下での音声の存在を簡易に
検出することがてきる音声検出方式として、■入力信号
の参照軸交差数と波高値(波形の振幅レベルの無次元化
量)とを特徴パラメータとして有声音を検出する方法、
■入力信号の参照軸交差数と圧基準振幅時間(波形の振
幅が一定時間間隔内に実効値を目安とするしきい値を越
える時間)とを特徴パラメータとして有声音を検出する
方法を提案している。
検出することがてきる音声検出方式として、■入力信号
の参照軸交差数と波高値(波形の振幅レベルの無次元化
量)とを特徴パラメータとして有声音を検出する方法、
■入力信号の参照軸交差数と圧基準振幅時間(波形の振
幅が一定時間間隔内に実効値を目安とするしきい値を越
える時間)とを特徴パラメータとして有声音を検出する
方法を提案している。
上記■、■の音声検出方式は、従来方式に比して有用で
あるものの、以下の理由によりその有声音検出率の向上
に限界がある。
あるものの、以下の理由によりその有声音検出率の向上
に限界がある。
すなわち、音声には、低周波成分のパワーが多く、高周
波成分のパワーは少ないという特徴がある。ところが、
上記■、■の方法で特徴パラメータとして用いられる、
参照軸交差数と、波形の振幅分布に関する値(波高値、
圧基準振幅時間)は、入力信号の主たる周波数成分の周
波数に近似するものであり、入力信号の周波数分布に関
する情報を堤供するものでない。したがって、■、■の
方法にあっては、有声音のもつ基本的な特徴の1つであ
る周波数分布に関する情報量が不足しているため、有声
音検出率を向上するのに困難がある。
波成分のパワーは少ないという特徴がある。ところが、
上記■、■の方法で特徴パラメータとして用いられる、
参照軸交差数と、波形の振幅分布に関する値(波高値、
圧基準振幅時間)は、入力信号の主たる周波数成分の周
波数に近似するものであり、入力信号の周波数分布に関
する情報を堤供するものでない。したがって、■、■の
方法にあっては、有声音のもつ基本的な特徴の1つであ
る周波数分布に関する情報量が不足しているため、有声
音検出率を向上するのに困難がある。
本発明は、雑音の振幅が大きく音声の検出に対する影響
が大きい場合にも、雑音環境下での音声の存在を、簡易
に高い検出率で検出することを目的とする。
が大きい場合にも、雑音環境下での音声の存在を、簡易
に高い検出率で検出することを目的とする。
[課題を解決するための手段]
請求項1に記載の本発明は、入力信号の参照軸交差数と
、波形の振幅分布に関する値と、パワースペクトルに関
する値とを特徴パラメータとして算出し、この算出結果
を、有声音と特定雑音についての辞書データと比較し、
入力信号か有声音を含むかどうかを判定するようにしだ
ものである。
、波形の振幅分布に関する値と、パワースペクトルに関
する値とを特徴パラメータとして算出し、この算出結果
を、有声音と特定雑音についての辞書データと比較し、
入力信号か有声音を含むかどうかを判定するようにしだ
ものである。
ここで、参照軸交差数は、人力信号か零レベル等、予め
定めた参照レベルを横切る回数であり、入力信号が有声
音を含む場合、−Mにある一定範囲内の値を示す。
定めた参照レベルを横切る回数であり、入力信号が有声
音を含む場合、−Mにある一定範囲内の値を示す。
請求項2に記載の本発明は、前記波形の振幅分布に関す
る値として、例えば次式で表わされる波高値Pを用いる
ようにしたものである。この波高値は、入力信号が有声
音を含む場合、−Mにある一定範囲内の値を示す。
る値として、例えば次式で表わされる波高値Pを用いる
ようにしたものである。この波高値は、入力信号が有声
音を含む場合、−Mにある一定範囲内の値を示す。
P = 20X 1og+o(Vp/V、□)たたし、
■、ニ一定時間間隔内の振幅の絶対値の最大値 ■r□ =同一定時間間隔内の振幅の 実効値 請求項3に記載の本発明は、前記波形の振幅分布に関す
る値として、例えば次式で表わされる波高値Pを用いる
ようにしたものである。この波高値は、入力信号が有声
音を含む場合、一般にある一定範囲内の値を示す。
■、ニ一定時間間隔内の振幅の絶対値の最大値 ■r□ =同一定時間間隔内の振幅の 実効値 請求項3に記載の本発明は、前記波形の振幅分布に関す
る値として、例えば次式で表わされる波高値Pを用いる
ようにしたものである。この波高値は、入力信号が有声
音を含む場合、一般にある一定範囲内の値を示す。
P = 20X log+o(Vp/Va)たたし、■
、ニ一定時間間隔内の振幅の絶対値の最大値 ■、:同一定時間間隔内の振幅の 絶対値の平均値 請求項4に記載の本発明は、前記波形の振幅分布に関す
る値として振幅が一定時間間隔内に実効値を目安とする
しきい値を越える時間(圧基準振幅時間と呼ぶ)を用い
るようにしたものである。
、ニ一定時間間隔内の振幅の絶対値の最大値 ■、:同一定時間間隔内の振幅の 絶対値の平均値 請求項4に記載の本発明は、前記波形の振幅分布に関す
る値として振幅が一定時間間隔内に実効値を目安とする
しきい値を越える時間(圧基準振幅時間と呼ぶ)を用い
るようにしたものである。
この圧基準振幅時間は、入力信号が有声音を含む場合、
−Mにある一定範囲内の値を示す。
−Mにある一定範囲内の値を示す。
請求項5に記載の本発明は、前記パワースペクトルに関
する値として、入力信号の音声周波数帯域を多チャンネ
ルバンドパスフィルタで複数チャンネルに分割し、その
全チャンネルから得られたパワーの総和値に対し、その
低帯域チャンネルから得られたパワーの合計値がなす比
率を用いるようにしたものである。ここで、有声音は低
周波成分の側のパワーが高周波成分の側のパワーに対し
て大きい特徴がある。このため、」1記比率は、入力信
号が有声音を含む場合、−Sに雑音よりも大きめの値を
示す。なお、多チャンネルバンドパスフィルタは、音声
周波数帯域を等間隔または対数間隔的に複数の帯域に分
割した複数チャンネルをもって構成される。
する値として、入力信号の音声周波数帯域を多チャンネ
ルバンドパスフィルタで複数チャンネルに分割し、その
全チャンネルから得られたパワーの総和値に対し、その
低帯域チャンネルから得られたパワーの合計値がなす比
率を用いるようにしたものである。ここで、有声音は低
周波成分の側のパワーが高周波成分の側のパワーに対し
て大きい特徴がある。このため、」1記比率は、入力信
号が有声音を含む場合、−Sに雑音よりも大きめの値を
示す。なお、多チャンネルバンドパスフィルタは、音声
周波数帯域を等間隔または対数間隔的に複数の帯域に分
割した複数チャンネルをもって構成される。
[作用コ
請求項1に記載の本発明にあっては、雑音環境下の音声
を以下の如く検出する。なお、本発明にあっては、有声
音(母音、半母音、鼻音等の声帯の振動をともなう音で
あり、人間か発声する殆どすべての音声には有声音が含
まれている)をもって音声とする。
を以下の如く検出する。なお、本発明にあっては、有声
音(母音、半母音、鼻音等の声帯の振動をともなう音で
あり、人間か発声する殆どすべての音声には有声音が含
まれている)をもって音声とする。
(1)有声音と特定雑音について、それらの信号の一定
時間間隔内における参照軸交差数と波形の振幅分布に関
する値と波形のパワースペクトルに関する値とを特徴パ
ラメータとする辞書データを用意する。
時間間隔内における参照軸交差数と波形の振幅分布に関
する値と波形のパワースペクトルに関する値とを特徴パ
ラメータとする辞書データを用意する。
辞書データとしては、例えば、下記(a)(bl
(c)が用いられる。
(c)が用いられる。
(a)多数の音声から得られた有声音についての特徴パ
ラメータの組。
ラメータの組。
(b)特定雑音(例えば特定電話機の着信ベル音)につ
いて求められた多数の特徴パラメータの組。
いて求められた多数の特徴パラメータの組。
(c)有声音と、特定雑音とを特定の比率で加え合わせ
た結果を多数の音声について求めた特徴パラメータの組
。
た結果を多数の音声について求めた特徴パラメータの組
。
なお、上記(a) (b)、(c)のデータは、音響
データを特徴パラメータ化した数値データ、数値データ
を統計処理した平均値、分散等の統計的データ、もしく
は統計的データに基づいて定まる境界方程式等の判別式
データ等の各種態様にて用意できる。
データを特徴パラメータ化した数値データ、数値データ
を統計処理した平均値、分散等の統計的データ、もしく
は統計的データに基づいて定まる境界方程式等の判別式
データ等の各種態様にて用意できる。
(2)入力信号を採取し、この入力信号の一定時間間隔
内における参照軸交差数と波形の振幅分布に関する値と
波形のパワースペクトルに関する値とを特徴パラメータ
として算出する。
内における参照軸交差数と波形の振幅分布に関する値と
波形のパワースペクトルに関する値とを特徴パラメータ
として算出する。
(3)上記(2)で算出した特徴パラメータと、上記(
1)で定めた辞書データが規定する標準パターンとを、
パラメータ空間上で比較し、入力信号か有声音を含むか
どうかをパターン認識により判定する。
1)で定めた辞書データが規定する標準パターンとを、
パラメータ空間上で比較し、入力信号か有声音を含むか
どうかをパターン認識により判定する。
辞書データを用いて上述のパターン認識は例えば以下の
如くなされる。
如くなされる。
■辞書データが規定するカテゴリー「有声音」(前記(
a)の有声音、もしくは前記(C)の特定雑音を特定の
比率で加え合わされた有声音のカテゴリー)と、カテゴ
リー「その他」とで2分されるパラメータ空間を構成し
、人力信号の特徴パラメータがどちらのカテゴリーに属
するかを判定する。
a)の有声音、もしくは前記(C)の特定雑音を特定の
比率で加え合わされた有声音のカテゴリー)と、カテゴ
リー「その他」とで2分されるパラメータ空間を構成し
、人力信号の特徴パラメータがどちらのカテゴリーに属
するかを判定する。
■次に、特定雑音の振幅が大きく、これか有声音の検出
に大きく影響を与えることの可能性を考慮し、上記■に
加え、カテゴリー「特定雑音」とカテゴリー「有声音」
の境界を定め、入力信号の特徴パラメータかどちらのカ
テゴリーに属するかを判定する。
に大きく影響を与えることの可能性を考慮し、上記■に
加え、カテゴリー「特定雑音」とカテゴリー「有声音」
の境界を定め、入力信号の特徴パラメータかどちらのカ
テゴリーに属するかを判定する。
■上記■、■の判定の結果、入力信号が、■においてカ
テゴリー「有声音」に属し、かつ■においてカテゴリー
「特定雑音」に属さないことを条件に、入力信号中に有
声音が存在することを判定する。
テゴリー「有声音」に属し、かつ■においてカテゴリー
「特定雑音」に属さないことを条件に、入力信号中に有
声音が存在することを判定する。
しかして、請求項1に記載の本発明にあっては、参照軸
交差数と波形の振幅分布に関する値の2つの特徴パラメ
ータのみを用いる場合に比して、有声音のもつ基本的な
特徴の1つである周波数分布の偏りを反映した特徴パラ
メータを第3のパラメータとして用いることから、特定
雑音の振幅が大きく音声の検出に対する影響が大きい場
合にも、有声音のカテゴリーと特定雑音のカテゴリーと
をパラメータ空間において明瞭に分離でき、雑音環境下
での音声の存在を、簡易に高い検出率で検出できる。
交差数と波形の振幅分布に関する値の2つの特徴パラメ
ータのみを用いる場合に比して、有声音のもつ基本的な
特徴の1つである周波数分布の偏りを反映した特徴パラ
メータを第3のパラメータとして用いることから、特定
雑音の振幅が大きく音声の検出に対する影響が大きい場
合にも、有声音のカテゴリーと特定雑音のカテゴリーと
をパラメータ空間において明瞭に分離でき、雑音環境下
での音声の存在を、簡易に高い検出率で検出できる。
請求項2に記載の本発明によれば、波形の振幅分布に関
する値として、前述した如くの波高値を用いたから、有
声音の特徴である先鋭な波形を忠実に反映したパラメー
タ値を用いることとなり、21 gの識別性か向上する
というメリットがある。
する値として、前述した如くの波高値を用いたから、有
声音の特徴である先鋭な波形を忠実に反映したパラメー
タ値を用いることとなり、21 gの識別性か向上する
というメリットがある。
請求項3に記載の本発明によれば、波形の振幅分布に関
する値として、前述した如くの波高値を用いたから、請
求項2に記載の本発明に比して演算量を少なくでき、か
つ有声音の特徴である先鋭な波形を比較的忠実に反映し
たパラメータ値を用いることとなり、雑音の識別性が向
上するというメリットかある。なお、演算量が少ないと
いうことは応答速度か速いことを特徴する 請求項4に記載の本発明によれば、波形の振幅分布に関
する値として、前述した如くの超基準振幅時間を用いた
から、請求項2または3に記載の本発明に比して演算量
をより少なくできるというメリットがある。
する値として、前述した如くの波高値を用いたから、請
求項2に記載の本発明に比して演算量を少なくでき、か
つ有声音の特徴である先鋭な波形を比較的忠実に反映し
たパラメータ値を用いることとなり、雑音の識別性が向
上するというメリットかある。なお、演算量が少ないと
いうことは応答速度か速いことを特徴する 請求項4に記載の本発明によれば、波形の振幅分布に関
する値として、前述した如くの超基準振幅時間を用いた
から、請求項2または3に記載の本発明に比して演算量
をより少なくできるというメリットがある。
請求項5に記載の本発明によれば、波形のパワースペク
トルに関する値として、前述した如くのパワーの比率を
用いたから、有声音の特徴である周波数分布の傾きを反
映したパラメータ値を用いることになり、雑音との識別
性が向上するというメリットがある。
トルに関する値として、前述した如くのパワーの比率を
用いたから、有声音の特徴である周波数分布の傾きを反
映したパラメータ値を用いることになり、雑音との識別
性が向上するというメリットがある。
[実施例]
第1図は本発明の実施に用いられる音声検出装置の一例
を示すブロック図、第2図は本発明の特徴パラメータに
よって形成されるパラメータ空間を示す模式図である。
を示すブロック図、第2図は本発明の特徴パラメータに
よって形成されるパラメータ空間を示す模式図である。
第1図において、11はマイク、12は増幅器、13は
ローパスフィルタ、14は多チャンネルバンドパスフィ
ルタ、15はA/Dコンバータ、16はA/Dコンバー
タ、17はパラメータ演算部、18は辞書データ記憶部
、19は判定部、20は結果出力部である。この実施例
にあっては、雑音環境下の音声を以下の如く検出する。
ローパスフィルタ、14は多チャンネルバンドパスフィ
ルタ、15はA/Dコンバータ、16はA/Dコンバー
タ、17はパラメータ演算部、18は辞書データ記憶部
、19は判定部、20は結果出力部である。この実施例
にあっては、雑音環境下の音声を以下の如く検出する。
(1)有声音と特定雑音について、それらの信号の20
*S間における参照軸交差数xよと、波形の振幅分布に
関する値X2と、波形のパワースペクトルに関する値X
3とを特徴パラメータとする辞書データを用意し、これ
を辞書データ記憶部18に記憶せしめる。
*S間における参照軸交差数xよと、波形の振幅分布に
関する値X2と、波形のパワースペクトルに関する値X
3とを特徴パラメータとする辞書データを用意し、これ
を辞書データ記憶部18に記憶せしめる。
ここで、波形の振幅分布に関する値X2としては、下記
■、■、■のいずれかを用いることができる。
■、■、■のいずれかを用いることができる。
■下式で表わされる波高値P。
P = 2(IX log+o(vp/vr、*)たた
し、v2ニ一定時間間隔内の振幅の絶対値の最大値 V□1 :同一定時間間隔内の振幅の 実効値 ■下式で表わされる波高値P。
し、v2ニ一定時間間隔内の振幅の絶対値の最大値 V□1 :同一定時間間隔内の振幅の 実効値 ■下式で表わされる波高値P。
P = 20X log+o(Vp/Va)ただし、■
、コニ−時間間隔内の振幅の絶対値の最大値 ■、二同一定時間間隔内の振幅の 絶対値の平均値 ■振幅が一定時間間隔内に実効値を目安とするしきい値
を越える時間(超基準振幅時間)。
、コニ−時間間隔内の振幅の絶対値の最大値 ■、二同一定時間間隔内の振幅の 絶対値の平均値 ■振幅が一定時間間隔内に実効値を目安とするしきい値
を越える時間(超基準振幅時間)。
上記■の波高値を用いる場合には、有声音の特徴である
先鋭な波形を比較的忠実に反映したパラメータ値を用い
ることとなり、雑音の識別性か向上するというメリット
かある。
先鋭な波形を比較的忠実に反映したパラメータ値を用い
ることとなり、雑音の識別性か向上するというメリット
かある。
上記■の波高値を用いる場合には、上記■の波高値に比
して演算量を少なくてき、かつ有声音の特徴である先鋭
な波形を忠実に反映したパラメータ値を用いることとな
り、雑音の識別性か向上するというメリットかある。
して演算量を少なくてき、かつ有声音の特徴である先鋭
な波形を忠実に反映したパラメータ値を用いることとな
り、雑音の識別性か向上するというメリットかある。
上記■の波高値を用いる場合には、上記■、■の波高値
に比して演算量をより少なくてきるというメリットかあ
る。
に比して演算量をより少なくてきるというメリットかあ
る。
また、パワースペクトルに関する値X、としては、前述
した、入力信号の音声周波数帯域を多チャンネルバンド
パスフィルタて複数チャンネルに分割し、その全チャン
ネルから得られたパワーの総和値に対し、その低帯域チ
ャンネルから得られたパワーの合計値がなす比率を用い
ることができる。このパワーの比率を用いる場合には、
有声音の特徴である周波数分布の傾きを反映したパラメ
ータ値を用いることになり、雑音との識別性が向上する
というメリットがある。
した、入力信号の音声周波数帯域を多チャンネルバンド
パスフィルタて複数チャンネルに分割し、その全チャン
ネルから得られたパワーの総和値に対し、その低帯域チ
ャンネルから得られたパワーの合計値がなす比率を用い
ることができる。このパワーの比率を用いる場合には、
有声音の特徴である周波数分布の傾きを反映したパラメ
ータ値を用いることになり、雑音との識別性が向上する
というメリットがある。
また、辞書データとしては、例えば下記(a)、(b)
、および(c)が作成される。
、および(c)が作成される。
(a)多数の音声から得られた有声音[ア]についての
特徴パラメータの組。
特徴パラメータの組。
(b)特定雑音(特定電話機の着信ベル音)について求
められた多数の特徴パラメータの組。
められた多数の特徴パラメータの組。
[c)有声音[ア]と特定雑音とを、
20 X 10g+o (Sr+s++/Nrm*)
[dB]で定義される有声音対特定雑音比3. O,−
3゜−6,−10[dB]で加え合わせた結果を多数の
音声について求めた特徴パラメータの組。なお、S r
amsは有声音「ア」の振幅の実効値を表わし、N1□
は特定雑音の振幅の実効値を表わす。
[dB]で定義される有声音対特定雑音比3. O,−
3゜−6,−10[dB]で加え合わせた結果を多数の
音声について求めた特徴パラメータの組。なお、S r
amsは有声音「ア」の振幅の実効値を表わし、N1□
は特定雑音の振幅の実効値を表わす。
(2)マイク11にて入力信号を採取し、この入力信号
を、増幅器12で増幅し、ローパスフィルタ13を通す
ことによって4.2KHz以下の音声帯域成分だけを抽
出する。この後、入力信号は、■パワースペクトルに関
する特徴パラメータを抽出するための前処理を行なう多
チャンネルバンドパスフィルタ14およびA/Dコンバ
ータ15からなる経路と、■振幅分布に関する値と参照
軸交差数の2つの特徴的パラメータを抽出する前処理を
行なうA/Dコンバータ16を備える経路とに分岐して
転送される。多チャンネルバンドパスフィルタ14は、
周波数帯域で250Hzから4KHzまでを176オク
ターブ毎に25チヤンネルに分割したバンドパスフィル
タである。A/Dコンバータ15.16は標本化周波数
10Kjlz 、変換ビット数16bitである。これ
らのフィルタ14、コンバータ15.16の前処理部に
よって得られた入力信号およびその周波数信号のデジタ
ル値は、パラメータ演算部17に送り込まれる。パラメ
ータ演算部17は、上記入力信号の2hS間における参
照軸周波数xIと、波形の振幅分布に関する値X2と、
パワースペクトルに関する値X3とを特徴パラメータと
して算出する。
を、増幅器12で増幅し、ローパスフィルタ13を通す
ことによって4.2KHz以下の音声帯域成分だけを抽
出する。この後、入力信号は、■パワースペクトルに関
する特徴パラメータを抽出するための前処理を行なう多
チャンネルバンドパスフィルタ14およびA/Dコンバ
ータ15からなる経路と、■振幅分布に関する値と参照
軸交差数の2つの特徴的パラメータを抽出する前処理を
行なうA/Dコンバータ16を備える経路とに分岐して
転送される。多チャンネルバンドパスフィルタ14は、
周波数帯域で250Hzから4KHzまでを176オク
ターブ毎に25チヤンネルに分割したバンドパスフィル
タである。A/Dコンバータ15.16は標本化周波数
10Kjlz 、変換ビット数16bitである。これ
らのフィルタ14、コンバータ15.16の前処理部に
よって得られた入力信号およびその周波数信号のデジタ
ル値は、パラメータ演算部17に送り込まれる。パラメ
ータ演算部17は、上記入力信号の2hS間における参
照軸周波数xIと、波形の振幅分布に関する値X2と、
パワースペクトルに関する値X3とを特徴パラメータと
して算出する。
(3)上記(2)で算出した特徴パラメータと、上記(
1)で定めた辞書データが規定する標準パラメータとを
、判定部19において比較し、入力信号が有声音を含む
かどうかを判定し、この判定結果を結果出力部20から
出力する。
1)で定めた辞書データが規定する標準パラメータとを
、判定部19において比較し、入力信号が有声音を含む
かどうかを判定し、この判定結果を結果出力部20から
出力する。
ここで、前述の辞書データを用いたパターン認識は、例
えば第2図のパラメータ空間上で以下の如くなされる。
えば第2図のパラメータ空間上で以下の如くなされる。
なお、第2図は零交差数く参照軸レベルを零レベルに設
定したもの)と波形の振幅分布に関する値とパワースペ
クトルに関する値の3つの特徴パラメータをそれぞれX
1軸とX2軸とX3軸にとったものである。第2図にお
いて、μmσ11% σ12、σ1.はそれぞれ有声音
(前記(a)の有声音[ア]、もしくは前記(c)の特
定雑音を特定の有声音対特定雑音比で加え合わされた有
声音)の辞書パラメータの平均値、X1軸成分の標準偏
差、X2軸成分の標準偏差、×33成分の標準偏差を表
わし、μ2、σ21、σ22、σ23はそれぞれ特定雑
音の辞書パラメータについての同様の値を表わす。
定したもの)と波形の振幅分布に関する値とパワースペ
クトルに関する値の3つの特徴パラメータをそれぞれX
1軸とX2軸とX3軸にとったものである。第2図にお
いて、μmσ11% σ12、σ1.はそれぞれ有声音
(前記(a)の有声音[ア]、もしくは前記(c)の特
定雑音を特定の有声音対特定雑音比で加え合わされた有
声音)の辞書パラメータの平均値、X1軸成分の標準偏
差、X2軸成分の標準偏差、×33成分の標準偏差を表
わし、μ2、σ21、σ22、σ23はそれぞれ特定雑
音の辞書パラメータについての同様の値を表わす。
■辞書データが規定するカテゴリー「有声音」(前記(
a)の有声音[アコ、もしくは前記(c)の特定雑音を
特定の比率で加え合わせた有声音のカテゴリー)と、カ
テゴリー「その他」とを2分する境界1を定める。境界
1にあっては、有声音の辞書データの平均値μmを含む
側がカテゴリー「有声音」である、この境界1は、平均
値のまわりにどれだけ有声音の辞書データが集中してい
るかを表わす集中楕円であり、軸の長さを変えることに
より有声音の辞書データが楕円内に入る割合を変えるこ
とができる。この実施例の場合は有声音の辞書データの
9割が楕円内に入るように軸の長さを定めた。破線はμ
とσで規定されるカテゴリー「有声音」の概念を表わす
、すなわち、この■の過程にあっては、入力信号の特徴
パラメータが境界1のいずれの側のカテゴリーに属する
かを判定することとなる。
a)の有声音[アコ、もしくは前記(c)の特定雑音を
特定の比率で加え合わせた有声音のカテゴリー)と、カ
テゴリー「その他」とを2分する境界1を定める。境界
1にあっては、有声音の辞書データの平均値μmを含む
側がカテゴリー「有声音」である、この境界1は、平均
値のまわりにどれだけ有声音の辞書データが集中してい
るかを表わす集中楕円であり、軸の長さを変えることに
より有声音の辞書データが楕円内に入る割合を変えるこ
とができる。この実施例の場合は有声音の辞書データの
9割が楕円内に入るように軸の長さを定めた。破線はμ
とσで規定されるカテゴリー「有声音」の概念を表わす
、すなわち、この■の過程にあっては、入力信号の特徴
パラメータが境界1のいずれの側のカテゴリーに属する
かを判定することとなる。
0次に、特定雑音の振幅が大きく、これが有声音の検出
に大きく影響を与えることの可能性を考慮し、上記■に
加え、カテゴリー「特定雑音」とカテゴリー「有声音」
の境界2を定める。境界2にあっては、特定雑音の平均
値μ2を含む側がカテゴリー「特定雑音」となる。この
境界2は、カテゴリー「有声音」とカテゴリー「特定雑
音」に対する尤度が等しい点の集まりである。この実施
例の場合には特定雑音の標準偏差が、人工的に作られた
電話機の着信ベル音であって、有声音と特定雑音を特定
の有声音対特定雑音比で加え合わせたものの辞書データ
の標準偏差より一般的に小さいので、カテゴリー「特定
雑音」が閉じた空間になっている。破線はμとσで規定
されるカテゴリー「特定雑音」の概念を表わす。すなわ
ち、この■の過程にあっては、入力信号の特徴パラメー
タか境界2のいずれの側のカテゴリーに属するかを判定
することとなる。
に大きく影響を与えることの可能性を考慮し、上記■に
加え、カテゴリー「特定雑音」とカテゴリー「有声音」
の境界2を定める。境界2にあっては、特定雑音の平均
値μ2を含む側がカテゴリー「特定雑音」となる。この
境界2は、カテゴリー「有声音」とカテゴリー「特定雑
音」に対する尤度が等しい点の集まりである。この実施
例の場合には特定雑音の標準偏差が、人工的に作られた
電話機の着信ベル音であって、有声音と特定雑音を特定
の有声音対特定雑音比で加え合わせたものの辞書データ
の標準偏差より一般的に小さいので、カテゴリー「特定
雑音」が閉じた空間になっている。破線はμとσで規定
されるカテゴリー「特定雑音」の概念を表わす。すなわ
ち、この■の過程にあっては、入力信号の特徴パラメー
タか境界2のいずれの側のカテゴリーに属するかを判定
することとなる。
■上記■、■の判定の結果、入力信号が、特徴パラメー
タ空間上で、■において境界1のμm側に属し、かつ■
において境界2のμ2側に属さない時、入力信号をカテ
ゴリー「有声音」に属すると判定する。すなわち、入力
信号中に有声音が存在することを判定する。
タ空間上で、■において境界1のμm側に属し、かつ■
において境界2のμ2側に属さない時、入力信号をカテ
ゴリー「有声音」に属すると判定する。すなわち、入力
信号中に有声音が存在することを判定する。
しかして、上記実施例にあっては、参照軸交差数と波形
の振幅分布に関する値の2つの特徴パラメータのみを用
いる場合に比して、有声音のもつ基本的な特徴の1つで
ある周波数分布の偏りを反映した特徴パラメータを第3
のパラメータとして用いることから、特定雑音の振幅が
大きく音声の検出に対する影響が大きい場合にも、有声
音のカテゴリーと特定雑音のカテゴリーとをパラメータ
空間において明瞭に分離でき、雑音環境下での音声の存
在を、簡易に高い検出率で検出できる。
の振幅分布に関する値の2つの特徴パラメータのみを用
いる場合に比して、有声音のもつ基本的な特徴の1つで
ある周波数分布の偏りを反映した特徴パラメータを第3
のパラメータとして用いることから、特定雑音の振幅が
大きく音声の検出に対する影響が大きい場合にも、有声
音のカテゴリーと特定雑音のカテゴリーとをパラメータ
空間において明瞭に分離でき、雑音環境下での音声の存
在を、簡易に高い検出率で検出できる。
特に、上記実施例では、有声音対特定雑音比が−6[d
B]においても高い有声音の検出率を示し、−3(dB
]においては 100[%]に近い検出率を示すことが
認められた。
B]においても高い有声音の検出率を示し、−3(dB
]においては 100[%]に近い検出率を示すことが
認められた。
なお、上記実施例においては、特徴パラメータ空間上で
標準パターンを規定する境界線として集中楕円と2つの
カテゴリーに対する尤度が等しくなる点の集まりを用い
たか、本発明の実施においては、もちろん他の一般的な
パターン認識の手法を用いることができる。例えば、カ
テゴリー「有声音」とカテゴリー「特定雑音」に対する
尤度が等しくなる点の集まりの代わりに、Mahara
nobis距離やEuclid距離が等しくなる点の集
まり等を用いることができる。
標準パターンを規定する境界線として集中楕円と2つの
カテゴリーに対する尤度が等しくなる点の集まりを用い
たか、本発明の実施においては、もちろん他の一般的な
パターン認識の手法を用いることができる。例えば、カ
テゴリー「有声音」とカテゴリー「特定雑音」に対する
尤度が等しくなる点の集まりの代わりに、Mahara
nobis距離やEuclid距離が等しくなる点の集
まり等を用いることができる。
[発明の効果]
以上のように本発明によれば、雑音の振幅が大きく音声
の検出に対する影響が大きい場合にも、雑音環境下での
音声の存在を、簡易に高い検出率で検出することができ
る。
の検出に対する影響が大きい場合にも、雑音環境下での
音声の存在を、簡易に高い検出率で検出することができ
る。
第1図は本発明の実施に用いられる音声検出装置の一例
を示すブロック図、第2図は本発明の特徴パラメータに
よって形成されるパラメータ空間を示す模式図である。 11・・・マイク、 14・・・多チャンネルバンドパスフィルタ、17・・
・パラメータ演算部、 18・・・辞書データ記憶部、 19・・・判定部、 20・・・結果出力部。 特許出願人 積水化学工業株式会社 代表者 廣1)馨
を示すブロック図、第2図は本発明の特徴パラメータに
よって形成されるパラメータ空間を示す模式図である。 11・・・マイク、 14・・・多チャンネルバンドパスフィルタ、17・・
・パラメータ演算部、 18・・・辞書データ記憶部、 19・・・判定部、 20・・・結果出力部。 特許出願人 積水化学工業株式会社 代表者 廣1)馨
Claims (5)
- (1)入力信号の参照軸交差数と、波形の振幅分布に関
する値と、パワースペクトルに関する値とを特徴パラメ
ータとして算出し、この算出結果を、有声音と特定雑音
についての辞書データと比較し、入力信号が有声音を含
むかどうかを判定する音声検出方式。 - (2)前記波形の振幅分布に関する値として一定時間間
隔内の振幅の絶対値の最大値に対する該一定時間間隔内
の振幅の実効値の比で表わされる波高値を用いる請求項
1記載の音声検出方式。 - (3)前記波形の振幅分布に関する値として一定時間間
隔内の振幅の絶対値の最大値に対する該一定時間間隔内
の振幅の絶対値の平均値の比で表わされる波高値を用い
る請求項1記載の音声検出方式。 - (4)前記波形の振幅分布に関する値として振幅が一定
時間間隔内に実効値を目安とするしきい値を越える時間
を用いる請求項1記載の音声検出方式。 - (5)前記パワースペクトルに関する値として、入力信
号の音声周波数帯域を多チャンネルバンドパスフィルタ
で複数チャンネルに分割し、その全チャンネルから得ら
れたパワーの総和値に対し、その低帯域チャンネルから
得られたパワーの合計値がなす比率を用いる請求項1記
載の音声検出方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63238050A JPH0285897A (ja) | 1988-09-22 | 1988-09-22 | 音声検出方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63238050A JPH0285897A (ja) | 1988-09-22 | 1988-09-22 | 音声検出方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0285897A true JPH0285897A (ja) | 1990-03-27 |
Family
ID=17024420
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63238050A Pending JPH0285897A (ja) | 1988-09-22 | 1988-09-22 | 音声検出方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0285897A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007206037A (ja) * | 2006-02-06 | 2007-08-16 | Nippon Telegr & Teleph Corp <Ntt> | 信号測定分析装置 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS60114900A (ja) * | 1983-11-25 | 1985-06-21 | 松下電器産業株式会社 | 有音・無音判定法 |
-
1988
- 1988-09-22 JP JP63238050A patent/JPH0285897A/ja active Pending
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS60114900A (ja) * | 1983-11-25 | 1985-06-21 | 松下電器産業株式会社 | 有音・無音判定法 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007206037A (ja) * | 2006-02-06 | 2007-08-16 | Nippon Telegr & Teleph Corp <Ntt> | 信号測定分析装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Wilpon et al. | An Improved Word‐Detection Algorithm for Telephone‐Quality Speech Incorporating Both Syntactic and Semantic Constraints | |
| JPH08509556A (ja) | 音響信号中の過渡状態を検出し生成する方法とシステム | |
| Combrinck et al. | On the mel-scaled cepstrum | |
| KR101008022B1 (ko) | 유성음 및 무성음 검출방법 및 장치 | |
| Leinonen et al. | Self‐organized acoustic feature map in detection of fricative‐vowel coarticulation | |
| CN111755028A (zh) | 一种基于基音特征的近场遥控器语音端点检测方法及系统 | |
| CN120148484B (zh) | 一种基于微型计算机的语音识别方法及装置 | |
| JPS60200300A (ja) | 音声の始端・終端検出装置 | |
| WO2022134781A1 (zh) | 拖音的检测方法、装置、设备及存储介质 | |
| JPH0285897A (ja) | 音声検出方式 | |
| JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
| JPH0449952B2 (ja) | ||
| JP2992324B2 (ja) | 音声区間検出方法 | |
| Jiang | Fundamental frequency vector for a speaker identification system | |
| JP2557497B2 (ja) | 男女声の識別方法 | |
| JP2559475B2 (ja) | 音声検出方式 | |
| JPH0285898A (ja) | 音声検出方式 | |
| IL108401A (en) | Method and apparatus for indicating the emotional state of a person | |
| JP2599974B2 (ja) | 音声検出方式 | |
| JPH04369698A (ja) | 音声認識方式 | |
| KR100345402B1 (ko) | 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법 | |
| JP2951333B2 (ja) | 音声信号の区間判別方法 | |
| JPH0556520B2 (ja) | ||
| MacKinnon et al. | Realtime recognition of unvoiced fricatives in continuous speech to aid the deaf | |
| JPH04130500A (ja) | 音声信号の判別方法 |