JPH0285896A - 音声検出方式 - Google Patents

音声検出方式

Info

Publication number
JPH0285896A
JPH0285896A JP63238049A JP23804988A JPH0285896A JP H0285896 A JPH0285896 A JP H0285896A JP 63238049 A JP63238049 A JP 63238049A JP 23804988 A JP23804988 A JP 23804988A JP H0285896 A JPH0285896 A JP H0285896A
Authority
JP
Japan
Prior art keywords
value
amplitude
input signal
time interval
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63238049A
Other languages
English (en)
Other versions
JP2559475B2 (ja
Inventor
Shingo Nishimura
新吾 西村
Masashi Miyagawa
宮川 正志
Masayuki Unno
海野 雅幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP63238049A priority Critical patent/JP2559475B2/ja
Publication of JPH0285896A publication Critical patent/JPH0285896A/ja
Application granted granted Critical
Publication of JP2559475B2 publication Critical patent/JP2559475B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野コ 本発明は、音声検出方式に関する。
[従来の技術] 従来、雑音環境下で音声の存在を検出する方法は多数あ
り、特公昭57−12999号公報に記載されているよ
うな通信における音声区間の検出に用いたり、音声言語
内容の認識の前処理に用いたりされているが、高雑音下
での一般用途への展開は困難て、例えば、着信ベル音が
鳴っているような状態でのハンズフリー電話機の音声に
よる応答開始等ができなかった。
なお、雑音環境下で簡易に音声の存在を検出する方法と
しては、入力信号か一定時間間隔内に参照軸を横切る回
数を検出する方法かあった。
[発明が解決しようとする課題] しかしながら、上記従来の音声検出方式を用いる方法に
あっては、一般に雑音の振幅は音声の振幅に比較して小
さいという前提を用いており、雉音の振幅が音声の振幅
と同程度の場合、音声の存在を検出することができない
そこで本出願人は、雑音環境下での音声の存在を簡易に
検出することができる音声検出方式として、■入力信号
の参照軸交差数と波高値(波形の振幅レベルの無次元化
量)とを特徴パラメータとして有声音を検出する方法、
■入力信号の参照軸交差数と圧基準振幅時間(波形の振
幅が一定時間間隔内に実効値を目安とするしきい値を越
える時間)とを特徴パラメータとして有声音を検出する
方法を提案している。
上記■、■の音声検出方式は、従来方式に比して有用で
あるものの、以下の理由によりその有声音検出率の向上
に限界かある。
すなわち、■の場合には、一定時間の区間内に雑音の影
響等により一ケ所でも特に振幅レベルの高い入力信号が
あると、そのレベルが波高値となる。このような区間の
存在は、波高値の分散を大きくする傾向を招き、有声音
検出率の向上を阻害する要因となる。
また、■の場合には、圧基準振幅時間が波形の時間軸方
向に関する値であるに過ぎず、このパラメータたけでは
波形の振幅レベルに関する情報量が不足し、有声音検出
率を向上するのに困難がある。
本発明は、雑音の振幅が大きく音声の検出に対する影響
が大きい場合にも、雑音環境下での音声の存在を、簡易
に高い検出率で検出することを目的とする。
[課題を解決するための手段] 請求項1に記載の本発明は、入力信号の参照軸交差数と
、波形の振幅レベルに関する値と、波形の振幅が一定時
間間隔内に実効値を目安とするしきい値を越える時間と
を特徴パラメータとして算出し、この算出結果を、有声
音と特定雑音についての辞書データと比較し、入力信号
が有声音を含むかどうかを判定するようにしたものであ
る。
請求項2に記載の本発明は、前記波形の振幅レベル分布
に関する値として、例えば次式で表わされる波高値Pを
用いるようにしたものである。
P = 2DX 1og+o(Vp/Lms)ただし、
VPエニー時間間隔内の振幅の絶対値の最大値 ■1□ 二同一定時間間隔内の振幅の 実効値 請求項3に記載の本発明は、前記波形の振幅レベルに関
する値として、例えば次式で表わされる波高値Pを用い
るようにしたものである。
P = 2(IX log+o(Vp/Va)たたし、
■Pニ一定時間間隔内の振幅の絶対値の最大値 ■6:同一定時間間隔内の振幅の 絶対値の平均値 [作用] 請求項1に記載の本発明にあっては、雑音環境下の音声
を以下の如く検出する。なお、本発明にあっては、有声
音(母音、半母音、鼻音等の声帯の振動をともなう音で
あり、人間が発声する殆どすべての音声には有声音が含
まれている)をもって音声とする。
(1)有声音と特定雑音について、それらの信号の一定
時間間隔内における参照軸交差数(零レベル等、予め定
めた参照レベルを横切る回数)と、波形の振幅レベルに
関する値(波高値)と、波形の振幅が一定時間間隔内に
実効値を目安とするしきい値を越える時間(圧基準振幅
時間)とを特徴パラメータとする辞書データを用意する
辞書データとしては、例えば、下記(a)(b) : 
(c)が用いられる。
(a)多数の音声から得られた有声音についての特徴パ
ラメータの組。
(b)特定雑音(例えば特定電話機の着信ベル音)につ
いて求められた多数の特徴パラメータの組。
(c)有声音と、特定雑音とを特定の比率で加え合わせ
た結果を多数の音声について求めた特徴パラメータの組
なお、上記(a) 、 (b) 、 (c)のデータは
、音響データを特徴パラメータ化した数値データ、数値
データを統計処理した平均値、分散等の統計的データ、
もしくは統計的データに基づいて定まる境界方程式等の
判別式データ等の各種態様にて用意できる。
(2)入力信号を採取し、この入力信号の一定時間間隔
内における参照軸交差数と、波高値と、圧基準振幅時間
とを特徴パラメータとして算出する。
(3)上記(2)で算出した特徴パラメータと、上記(
1)で定めた辞書データが規定する標準パターンとを、
パラメータ空間上て比較し、入力信号が有声音を含むか
どうかをパターン認識により判定する。
辞書データを用いて上述のパターン認識は例えば以下の
如くなされる。
■辞書データが規定するカテゴリー「有声音」(前記(
a)の有声音、もしくは前記(C)の特定雑音を特定の
比率で加え合わされた有声音のカテゴリー)と、カテゴ
リー「その他」とで2分されるパラメータ空間な構成し
、入力信号の特徴パラメータがどちらのカテゴリーに属
するかを判定する。
■次に、特定雑音の振幅が大きく、これが有声音の検出
に大きく影響を与えることの可能性を考慮し、上記■に
加え、カテゴリー「特定雑音」とカテゴリー「有声音」
の境界を定め、入力信号の特徴パラメータがどちらのカ
テゴリーに属するかを判定する。
■上記■、■の判定の結果、入力信号が、■においてカ
テゴリー「有声音」に属し、かっ■においてカテゴリー
「特定雑音」に属さないことを条件に、入力信号中に有
声音が存在することを判定する。
しかして、請求項1に記載の本発明にあっては、特徴パ
ラメータとして参照軸交差数と波高値と圧基準振幅時間
の3つのパラメータを用いたから、■参照軸交差数と波
高値の2つのパラメータのみを用いる場合に、雑音の影
響等により波高値の分散が大きくなり有声音の検出率が
向上しない傾向を、圧基準振幅時間を併用することによ
り補完し、また■参照軸交差数と圧基準振幅時間の2つ
のパラメータのみを用いる場合に、波形の振幅レベルに
関する情報量が不足することを、波高値を併用すること
により補完できる。これにより、特定雑音の振幅か大き
く音声の検出に対する影響が大きい場合にも、カテゴリ
ー「有声音」とカテゴリー「特定雑・音」とをパラメー
タ空間において明瞭に分離でき、雑音環境下での音声の
存在を簡易に高い検出率で検出できる。
請求項2に記載の本発明によれば、波形の振幅レベルに
関する値として、前述した如くの波高値を用いたから、
有声音の特徴である先鋭な波形を忠実に反映したパラメ
ータ値を用いることとなり、雑音の識別性が向上すると
いうメリットがある。また、この場合には、波高値と圧
基準振幅時間の算定過程において、振幅の実効値を共用
できるから、演算量が少なくて足り、検出作業がより簡
易となる。
請求項3に記載の本発明によれば、波形の振幅レベルに
関する値として、前述した如くの波高値を用いたから、
請求項2に記載の本発明に比して演算量を少なくてき、
かつ有声音の特徴である先鋭な波形を比較的忠実゛に反
映したパラメータ値を用いることとなり、雑音の識別性
が向上するというメリットかある。なお、演算量か少な
・いということは応答速度が速いことを意味する。
[実施例コ 第1図は本発明の実施に用いられる音声検出装置の一例
を示すブロック図、第2図は本発明の特徴パラメータに
よって形成されるパラメータ空間を示す模式図である。
第1図において、11はマイク、12は増幅器、13は
ローパスフィルタ、14はA/Dコンバータ、15はパ
ラメータ計算部、16は辞書データ記憶部、17は判定
部、18は結果出力部である。この実施例にあっては、
雑音環境下の音声を以下の如く検出する。
(1)有声音と特定雑音について、それらの信号の20
m5間における参照軸交差数Xlと、波高値×2と、圧
基準振幅時間×3とを特徴パラメータとする辞書データ
を用意し、これを辞書データ記憶部16に記憶せしめる
ここで、波高値×2としては、下記■、■のいずれかを
用いることかできる。
■下式て表わされる波高値P0 P = 20X log+o (vp/vr+−s)た
たし、■、ニ一定時間間隔内の振幅の絶対値の最大値 V r IN m  :同一定時間間隔内の振幅の実効
値 ■下式で表わされる波高値P。
P :” 20X lOg+o(Vp/Va)たたし、
VPユニー時間間隔内の振幅の絶対値の最大値 v&二同一定時間間隔内の振幅の 絶対値の平均値 上記■の波高値を用いる場合には、有声音の特徴である
先鋭な波形を比較的忠実に反映したパラメータ値を用い
ることとなり、雑音の識別性が向上するというメリット
かある。
上記■の波高値を用いる場合には、上記■の波高値に比
して演算量を少なくてき、かつ有声音の特徴である先鋭
な波形を忠実に反映したパラメータ値を用いることとな
り、雑音の識別性が向上するというメリットがある。
また、辞書データとしては、例えば下記(a)、(b)
、および(c)が作成される。
(al多数の音声から得られた有声音[ア]についての
特徴パラメータの組。
(b)特定雑音(特定電話機の着信ベル音)について求
められた多数の特徴パラメータの組。
(c)有声音[ア]と特定雑音とを、 20X 1og+o(Srms/Nr+++j [dB
]で定義される有声音対特定雑音比−10[dB]で加
え合わせた結果を多数の音声について求めた特徴パラメ
ータの組。なお、S、□は有声音「ア」の振幅の実効値
を表わし、N rawは特定雑音の振幅の実効値を表わ
す。
(2)マイク11にて入力信号を採取し、この入力信号
を、増幅器12で増幅し、ローパスフィルタ13を通す
ことによって4.2K)lz以上の成分はカットし、A
/Dコンバータ14によって標本化周波数10KHz 
、変換ビット数16bitのデジタル信号に変換し、パ
ラメータ計算部15に送り込む。
パラメータ計算部15は、上記入力信号の20m5間に
おける参照軸交差数×1と、波高値×2と、超基準振幅
時間×3とを特徴パラメータとして算出する。
(3)上記(2)で算出した特徴パラメータと、上記(
1)て定めた辞書データか規定する標準パターンとを、
判定部17において比較し、入力信号が有声音を含むか
どうかを判定し、この判定結果を結果出力部18から出
力する。
ここで、前述の辞書データを用いたパターン認識は、例
えば第2図のパラメータ空間上で以下の如くなされる。
なお、第2図は零交差数(参照軸レベルを零レベルに設
定したもの)と波高値と超基準振幅時間の3つの特徴パ
ラメータをそれぞれX、軸とx2軸と×3軸にとつだも
のである。第2図において、μm σ1いa12、σ1
3はそれぞれ有声音(前記(a)の有声音[ア]、もし
くは前記(C)の特定雑音を特定の有声音対特定雑音比
て加え合わされた有声音)の辞書パラメータの平均値、
X。
軸成分の標準偏差、X2軸成分の標準偏差、x33軸成
の標準偏差を表わし、μ2、σ2いσ22、σ23はそ
れぞれ特定雑音の辞書パラメータについての同様の値を
表わす。
■辞書データか規定するカテゴリー「有声音」(前記(
a)の有声音[ア]、もしくは前記(c)の特定雑音を
特定の比率で加え合わせた有声音のカテゴリー)と、カ
テゴリー「その他」とを2分する境界1を定める。境界
1にあっては、有声音の辞書データの平均値μmを含む
側がカテゴリー「有声音」である。この境界1は、平均
値のまわりにどれだけ有声音の辞書データか集中してい
るかを表わす集中楕円であり、軸の長さを変えることに
より有声音の辞書データか楕円内に入る割合を変えるこ
とができる。この実施例の場合は有声音の辞書データの
9割が楕円内に入るように軸の長さを定めた。破線はμ
とσで規定されるカテゴリー「有声音」の概念を表わす
。すなわち、この■の過程にあっては、入力信号の特徴
パラメータが境界1のいずれの側のカテゴリーに属する
かを判定することとなる。
■次に、特定雑音の振幅が大きく、これが有声音の検出
に大きく影響を与えることの可能性を考慮し、上記■に
加え、カテゴリー「特定雑音」とカテゴリー「有声音」
の境界2を定める。境界2にあっては、特定雑音の平均
値μ2を含む側がカテゴリー「特定雑音」となる。この
境界2は、カテゴリー「有声音」とカテゴリー「特定雑
音」に対する尤度が等しい点の集まりである。この実施
例の場合には特定雑音の標準偏差が、人工的に作られた
電話機の着信ベル音であって、有声音と特定雑音を特定
の有声音対特定雑音比で加え合わせたものの辞書データ
の標準偏差より一般的に小さいので、カテゴリー「特定
雑音」が閉じた空間になっている。破線はμとσて規定
されるカテゴリー「特定雑音」の概念を表わす。すなわ
ち、この■の過程にあっては、入力信号の特徴パラメー
タが境界2のいずれの側のカテゴリーに属するかを判定
することとなる。
■上記■、■の判定の結果、入力信号か、特徴パラメー
タ空間上で、■において境界1のμm側に属し、かつ■
において境界2のμ2111Nに属さない時、入力信号
をカテゴリー「有声音」に属すると判定する。すなわち
、入力信号中に有声音が存在することを判定する。
しかして、上記実施例にあっては、特徴パラメータとし
て参照軸交差数と波高値と圧基準振幅時間の3つのパラ
メータを用いたから、■参照軸交差数と波高値の2つの
パラメータのみを用いる場合に、雑音の影響等により波
高値の分散が大きくなり有声音の検出率が向上しない傾
向を、圧基準振幅時間を併用することにより補完し、ま
た■参照軸交差数と圧基準振幅時間の2つのパラメータ
のみを用いる場合に、波形の振幅レベルに関する千〇報
量が不足することを、波高値を併用することにより補完
できる。これにより、特定雑音の振幅が大きく音声の検
出に対する影響が大きい場合にも、カテゴリー「有声音
」とカテゴリー「特定雑音」とをパラメータ空間におい
て明瞭に分離でき、雑音環境下での音声の存在を、簡易
に高い検出率で検出できる。
特に、有声音対特定雑音比−10[dB]の非常に雑音
の大きな環境下て実験を行なった結果、■零交差数と波
高値を特徴パラメータとして有声音を検出する場合、検
出率は50[%]、■零交差数と圧基準振幅時間を特徴
パラメータとして有声音を検出する場合、60[%コて
あったか、上記実施例の場合には90[%コとなり本発
明の効果が認められた。また、波高値と圧基準振幅時間
の算出過程において、共用できる計算部分(例えば振幅
の実効値)が多いため、上記実施例の処理時間は■また
は■の場合とほとんど変わらなかった。
なお、上記実施例においては、特徴パラメータ空間上で
標準パターンを規定する境界線として集中楕円と2つの
カテゴリーに対する尤度が等しくなる点の集まりを用い
たが、本発明の実施においては、もちろん他の一般的な
パターン認識の手法を用いることができる。例えば、カ
テゴリー「有声音」とカテゴリー「特定雑音」に対する
尤度か等しくなる点の集まりの代わりに、Mahara
nobis距離やEuclid距離か等しくなる点の集
まり等を用いることがてきる。
[発明の効果] 以上のように本発明によれば、雑音の振幅か大きく音声
の検出に対する影響が大きい場合にも、雑音環境下での
音声の存在を、簡易に高い検出率で検出することかでき
る。
【図面の簡単な説明】
第1図は本発明の実施に用いられる音声検出装置の一例
を示すブロック図、第2図は本発明の特徴パラメータに
よって形成されるパラメータ空間を示す模式図である。 11・・・マイク、 15・・・パラメータ計算部、 16・・・辞書データ記憶部、 17・・・判定部、 8・・・結果出力部。

Claims (3)

    【特許請求の範囲】
  1. (1)入力信号の参照軸交差数と、波形の振幅レベルに
    関する値と、波形の振幅が一定時間間隔内に実効値を目
    安とするしきい値を越える時間とを特徴パラメータとし
    て算出し、この算出結果を、有声音と特定雑音について
    の辞書データと比較し、入力信号が有声音を含むかどう
    かを判定する音声検出方式。
  2. (2)前記波形の振幅レベルに関する値として一定時間
    間隔内の振幅の絶対値の最大値に対する該一定時間間隔
    内の振幅の実効値の比で表わされる波高値を用いる請求
    項1記載の音声検出方式。
  3. (3)前記波形の振幅レベルに関する値として一定時間
    間隔内の振幅の絶対値の最大値に対する該一定時間間隔
    内の振幅の絶対値の平均値の比で表わされる波高値を用
    いる請求項1記載の音声検出方式。
JP63238049A 1988-09-22 1988-09-22 音声検出方式 Expired - Lifetime JP2559475B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63238049A JP2559475B2 (ja) 1988-09-22 1988-09-22 音声検出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63238049A JP2559475B2 (ja) 1988-09-22 1988-09-22 音声検出方式

Publications (2)

Publication Number Publication Date
JPH0285896A true JPH0285896A (ja) 1990-03-27
JP2559475B2 JP2559475B2 (ja) 1996-12-04

Family

ID=17024405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63238049A Expired - Lifetime JP2559475B2 (ja) 1988-09-22 1988-09-22 音声検出方式

Country Status (1)

Country Link
JP (1) JP2559475B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05234247A (ja) * 1992-02-19 1993-09-10 Teac Corp 音声信号検出回路
JP2010061151A (ja) * 2002-01-24 2010-03-18 Motorola Inc 雑音環境のための音声活動検出器及び有効化器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS587196A (ja) * 1981-07-06 1983-01-14 株式会社日立製作所 音声信号検出装置
JPS60200300A (ja) * 1984-03-23 1985-10-09 松下電器産業株式会社 音声の始端・終端検出装置
JPS63500399A (ja) * 1985-08-02 1988-02-12 コンパニュ オリス インダストリ エス アー アナライトが存在可能な媒体中のアナライトをルミネセンスによって検出および/または測定するための均質方法およびその方法に使用するキット

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS587196A (ja) * 1981-07-06 1983-01-14 株式会社日立製作所 音声信号検出装置
JPS60200300A (ja) * 1984-03-23 1985-10-09 松下電器産業株式会社 音声の始端・終端検出装置
JPS63500399A (ja) * 1985-08-02 1988-02-12 コンパニュ オリス インダストリ エス アー アナライトが存在可能な媒体中のアナライトをルミネセンスによって検出および/または測定するための均質方法およびその方法に使用するキット

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05234247A (ja) * 1992-02-19 1993-09-10 Teac Corp 音声信号検出回路
JP2010061151A (ja) * 2002-01-24 2010-03-18 Motorola Inc 雑音環境のための音声活動検出器及び有効化器

Also Published As

Publication number Publication date
JP2559475B2 (ja) 1996-12-04

Similar Documents

Publication Publication Date Title
TWI412019B (zh) 聲音事件偵測模組及其方法
CN109545188A (zh) 一种实时语音端点检测方法及装置
JP6758890B2 (ja) 音声判別装置、音声判別方法、コンピュータプログラム
JP3163109B2 (ja) 多方向同時収音式音声認識方法
JPH0285896A (ja) 音声検出方式
JPS60200300A (ja) 音声の始端・終端検出装置
Tüske et al. Robust voice activity detection based on the entropy of noise-suppressed spectrum
Nilsson et al. Human whistle detection and frequency estimation
JPH0285898A (ja) 音声検出方式
JP2797861B2 (ja) 音声検出方法および音声検出装置
CN111816217A (zh) 一种自适应端点检测的语音识别方法与系统、智能设备
JPH0449952B2 (ja)
JP2599974B2 (ja) 音声検出方式
JP2992324B2 (ja) 音声区間検出方法
JP2557497B2 (ja) 男女声の識別方法
JPS6367197B2 (ja)
JPH0285897A (ja) 音声検出方式
JPH0430040B2 (ja)
JPH0424692A (ja) 音声区間検出方式
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
JPS59124397A (ja) 無音区間検出回路
JPH02289899A (ja) 音声検出方式
CN113611291A (zh) 一种电力专业的语音识别算法
JPH0297998A (ja) 音声判定方式
JP5169297B2 (ja) 音処理装置およびプログラム