JPH0277098A - 音声検出方式 - Google Patents

音声検出方式

Info

Publication number
JPH0277098A
JPH0277098A JP63227546A JP22754688A JPH0277098A JP H0277098 A JPH0277098 A JP H0277098A JP 63227546 A JP63227546 A JP 63227546A JP 22754688 A JP22754688 A JP 22754688A JP H0277098 A JPH0277098 A JP H0277098A
Authority
JP
Japan
Prior art keywords
value
amplitude
waveform
input signal
time interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63227546A
Other languages
English (en)
Other versions
JP2599974B2 (ja
Inventor
Masayuki Unno
海野 雅幸
Masashi Miyagawa
宮川 正志
Tsunehiko Koike
小池 恒彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Advanced Technology Corp
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
NTT Technology Transfer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd, NTT Technology Transfer Corp filed Critical Sekisui Chemical Co Ltd
Priority to JP63227546A priority Critical patent/JP2599974B2/ja
Publication of JPH0277098A publication Critical patent/JPH0277098A/ja
Application granted granted Critical
Publication of JP2599974B2 publication Critical patent/JP2599974B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野コ 本発明は、音声検出方式に関する。
[従来の技術] 従来、雑音環境下で音声の存在を検出する方法は多数あ
り、特公昭57−12999号公報に記載されているよ
うな通信における音声区間の検出に用いたり、音声言語
内容の認識の前処理に用いたりされているが、高雑音下
ての一般用途への展開は困難で、例えば、着信ベル音が
鳴っているような状態でのハンズフリー電話機の音声に
よる応答開始等ができなかった。
なお、雑音環境下て簡易に音声の存在を検出する方法と
しては、入力信号が一定時間間隔内に参照軸を横切る回
数を検出する方法かあった。
[発明が解決しようとする課題] しかしながら、上記従来の音声検出方式を用いる方法に
あっては、一般に雑音の振幅は音声の撮幅に比較して小
さいという前提を用いており、雑音の振幅か音声の振幅
と同程度の場合、音声の存在を検出することができない
本発明は、雑音の振幅か大きく音声の検出に対する影響
が大きい場合にも、雑音環境下での音声の存在を、簡易
に検出することを目的とする。
[課題を解決するための手段] 請求項1に記載の本発明は、入力信号の参照軸交差数と
波形の振幅分布に関する値とを特徴パラメータとして算
出し、この算出結果を、有声音と特定雑音についての辞
書データと比較し、入力信号が有声音を含むかどうかを
判定するするようにしたものである。
請求項2に記載の本発明は、前記波形の振幅分布に関す
る値として、例えば次式で表わされる波高値Pを用いる
ようにしたちのである。
P = 20X log+o (Vp/Vr□)たたし
、VPニ一定時間間隔内の振幅の絶対値の最大値 vo、二同一定時間間隔内の振幅の 実効値 請求項3に記載の本発明は、前記波形の振幅分布に関す
る値として、例えば次式で表わされる波高値Pを用いる
ようにしたものである。
P = 20 X 1og+o (vp/v、)たたし
、vPニ一定時間間隔内の振幅の絶対値の最大値 vl:同一定時間間隔内の振幅の 絶対値の平均値 請求項4に記載の本発明は、前記波形の振幅分布に関す
る値として振幅が一定時間間隔内に実効値を目安とする
しきい値を越える時間NR基準振幅時間と呼ぶ)を用い
るようにしたものである。
[作用] 請求項1に記載の本発明にあっては、雑音環境下の音声
を以下の如く検出する。なお、本発明にあっては、有声
音(母音、半母音、鼻音等の声帯の振動をともなう音で
あり、人間が発声する殆どすべての音声には有声音か含
まれている)をもって音声とする。
(1)有声音と特定雑音について、それらの信号の一定
時間間隔内における参照軸交差数(零レベル等、予め定
めた参照レベルを横切る回数)と波形の振幅分布に関す
る値とを特徴パラメータとする辞遵データを用意する。
辞書データとしては、例えば、下記(a)、(b)、(
c)が用いられる。
(a)多数の音声から得られた有声音についての特徴パ
ラメータの組。
(b)特定雑音(例えば特定電話機の着信ベル音)につ
いて求められた多数の特徴パラメータの組。
(c)有声音と、特定雑音とを特定の比率で加え合わせ
た結果を多数の音声について求めた特徴パラメータの組
なお、上記(a) 、 (b) 、 (c)のデータは
、音響データを特徴パラメータ化した数値データ、数値
データを統計処理した平均値、分散等の統計的データ、
もしくは統計的データに基づいて定まる境界方程式等の
判別式データ等の各種態様にて用意できる。
(2)入力信号を採取し、この入力信号の一定時間間隔
内における参照軸交差数と波形の振幅分布に関する値と
を特徴パラメータとして算出する。
(3)上記(2)で算出した特徴パラメータと、上記(
1)で定めた辞書データが規定する標準パターンとを、
パラメータ空間上で比較し、入力信号が有声音を含むか
どうかをパターン認識により判定する。
辞書データを用いて上述のパターン認識は例えば以下の
如くなされる。
■辞書データが規定するカテゴリー「有声音」(前記(
a)の有声音、もしくは前記(c)の特定雑音を特定の
比率で加え合わされた有声音のカテゴリー)と、カテゴ
リー「その他」とで2分されるパラメータ空間を構成し
、入力信号の特徴パラメータかどちらのカテゴリーに属
するかを判定する。
0次に、特定雑音の振幅か大きく、これが有声音の検出
に大きく影響を与えることの可能性を考慮し、上記■に
加え、カテゴリー「特定雑音」とカテゴリー「有声音」
の境界を定め、入力信号の特徴パラメータかどちらのカ
テゴリーに属するかを判定する。
■1記■、■の判定の結果、入力信号か、■においてカ
テゴリー「有声音」に属し、かつ■においてカテゴリー
「特定雑音」に属さないことを条件に、入力信号中に有
声音か存在することを判定する。
しかして、請求項1に記載の本発明にあっては、持童パ
ラメータとして参照軸交差数と波形の振幅分布に関する
値の2つのパラメータを用いたから、カテゴリー「有声
音」とカテゴリー「特定なIt f!rJとをパラメー
タ空間において明瞭に分離できる。したかって、特定雑
音の振幅が大きく音声の検出に対する影響が大きい場合
にも、雑音環境下での音声の存在を、高い検出率で簡易
に検出できる。
r+1求項2に記載の本発明によれば、波形の振幅分布
に関する値として、前述した如くの波高値を用いたから
、有声音の特徴である先鋭な波形を忠実に反映したパラ
メータ値を用いることとなり、雑音の識別性か向上する
というメリットかある。
請求項3に記載の本発明によれば、波形の振幅分布に関
する値として、前述した如くの波高値を用いたから、請
求項2に記載の本発明に比して演算量を少なくてき、か
つ有声音の特徴である先鋭な波形を比較的忠実に反映し
たパラメータ値を用いることとなり、雑音の識別性か向
上するというメリットかある。なお、演算量が少ないと
いうことは応答速度か速いことを特徴する 請求項4に記載の本発明によれば、波形の振幅分布に関
する値として、前述した如くの超基準振幅時間を用いた
から、請求項2または3に記載の本発明に比して演算量
をより少なくできるというメリットかある。
[実施例] 第1図は本発明の実施に用いられる音声検出装置の一例
を示すブロック図、第2図は本発明の特徴パラメータに
よって形成されるパラメータ空間を示す模式図である。
第1図において、11はマイク、12は増幅器、13は
ローパスフィルタ、14はA/Dコンバータ、15はパ
ラメータ計算部、16は辞書データ記憶部、17は判定
部、18は結果出力部である。この実施例にあっては、
雑音環境下の音声を以下の如く検出する。
(1)有声音と特定雑音について、それらの信号の20
o+S間における参照軸交差数X1と、波形の振幅分布
に関する値×2とを特徴パラメータとする辞書データを
用意し、これを辞書データ記憶部16に記寸患せしめる
ここで、波形の振幅分布に関する値x2としては、下記
■、■、■のいずれかを用いることができる。
■下式で表わされる波高値P。
P :8+2QX 10g1o (Vp/Vrms)た
たし、vPニ一定時間間隔内の振幅の絶対値の最大値 Vrmm二同一定時間間隔内の振幅の 実効値 ■下式て表わされる波高値P。
P =20X log+o(Vp/Va)ただし、vP
ニ一定時間間隔内の振幅の絶対値の最大値 ■、二同一定時間間隔内の振幅の 絶対値の平均値 ■振幅か一定時間間隔内に実効値を目安とするしきい値
を越える時間(超基準振幅時間)。
上記■の波高値を用いる場合には、有声音の特徴である
先鋭な波形を比較的忠実に反映したパラメータ値を用い
ることとなり、雑音の識別性か向上するというメリット
がある。
上記■の波高値を用いる場合には、上記■の波高値に比
して演算量を少なくでき、かつ有声音の特徴である先鋭
な波形を忠実に反映したパラメータ値を用いることとな
り、雑音の識別性が向上するというメリットかある。
上記■の波高値を用いる場合には、上記の、■の波高値
に比して演算量をより少なくできるというメリットがあ
る。
また、辞書データとしては、例えば下記(al 。
(b)、および(c)か作成される。
(a)多数の音声から得られた有声音[ア]についての
特徴パラメータの組。
(b)特定雑音(特定電話機の着信ベル音)について求
められた多数の特徴パラメータの組。
(c)有声音[ア]と特定雑音とを、 zox log+o (Sr、Rs/Nr+msl [
dB]て定義される有声音対特定雑音比3.0.−3゜
−(i、 −10[dB]て加え合わせた結果を多数の
き声について求めた特徴パラメータの組。なお、S r
mwは有声音「ア」の振幅の実効値を表わし、Nr□は
特定雑音の振幅の実効値を表わす。
(2)マイク11にて入力信号を採取し、この入力信号
を、増幅器12で増幅し、ローパスフィルタ13を通す
ことによって4.2KIlz以上の成分はカットし、A
/Dコンバータ14によって標本化周波数10Kllz
 、変換ビット数16bitのデジタル信号に変換し、
パラメータ計算部15に送り込む。
パラメータ計算部15は、上記入力信号の2013間に
おける参照軸交差数X、と、波形の振幅分布に関する値
×2と′を特徴パラメータとして算出する。
(3)上記(2)で算出した特徴パラメータと、上記(
1)で定めた辞書データが規定する標準パターンとを、
判定部17において比較し、入力信号か有声音を含むか
どうかを判定し、この判定結果を結果出力部18から出
力する。
ここで、前述の辞書データを用いたパターン認識は、例
えば第2図のパラメータ空間上で以下の如くなされる。
なお、第2図は零交差数(参照軸レベルを零レベルに設
定したもの)と波高値の2つの特徴パラメータをそれぞ
れXI軸とX2軸にとったものである。第2図において
、μm、 、l、σ、2はそれσ ぞれイ1声音(前記(a)の有声音[ア]、もしくは前
記(C)の特定2M 合を特定の有声音対特定雑音比て
加え合わされた有声音)の辞書パラメータの平均値、X
1軸成分の標準偏差、×22成分の標準偏差を表わし、
μ2.σ28、σ2□はそれぞれ特定雑音の辞書パラメ
ータについての同様の値を表わす。
■辞書データが規定するカテゴリー「有声音」(前記(
a)の有声音[ア]、もしくは前記(c)の特定雑音を
特定の比率で加え合わせた有声音のカテゴリー)と、カ
テゴリー「その他」とを2分する境界1を定める。境界
1にあっては、有声音の辞書データの平均値μmを含む
側がカテゴリー「有声音」である。この境界1は、平均
値のまわりにどれだけ有声音の辞書データか集中してい
るかを表わす集中楕円であり、軸の長さを変えることに
より有声音の辞書データか楕円内に入る割合を変えるこ
とかできる。この実施例の場合は有声音の辞書データの
9割が楕円内に入るように軸の長さを定めた。破線はμ
とσで規定されるカテゴリー「有声音」の概念を表わす
。すなわち、この■の過程にあっては、入力信号の特徴
パラメータが境界1のいずれの側のカテゴリーに属する
かを判定することとなる。
■次に、特定雑音の振幅が大きく、これが有声音の検出
に大きく影響を与えることの可能性を考慮し、上記■に
加え、カテゴリー「特定雑音」とカテゴリー「有声音」
の境界2を定める。境界2にあっては、特定雑音の平均
値μ2を含む側がカテゴリー「特定雑音」となる、この
境界2は、カテゴリー「有声音」とカテゴリー「特定雑
音」に対する尤度か等しい点の集まりである。この実施
例の場合には特定雑音の標準偏差が、人工的に作られた
電話機の着信ベル音であって、有声音と特定雑音を特定
の有声音対特定雑音比で加え合わせたものの辞書データ
の標準偏差より一般的に小さいので、カテゴリー「特定
雑音」が閉じた空間になっている。破線はμとσで規定
されるカテゴリー「特定雑音」の概念を表わす。すなわ
ち、この■の過程にあっては、入力信号の特徴パラメー
夕か境界2のいずれの側のカテゴリーに属するかを判定
することとなる。
■上記■、■の判定の結果、入力信号が、特徴パラメー
タ空間上で、■において境界1のμm側に属し、かつ■
において境界2のμm側に属さない時、入力信号をカテ
ゴリー「有声音」に属すると判定する。すなわち、入力
信号中に有声音が存在することを判定する。
しかして、上記実施例にあっては、特徴パラメータとし
て参照軸交差数と波形の振幅分布に関する値の2つのパ
ラメータを用いたから、カテゴリー「有声音」とカテゴ
リー「特定雑音」とをパラメータ空間において明瞭に分
離できる。したがって、特定雑音の振幅が大きく音声の
検出に対する°影響が大きい場合にも、雑音環境下での
音声の存在を、高い検出率で簡易に検出できる。特に、
上記実施例では、有声音対特定雑音比か一6dBL:お
いても高い有声音の検出率を示し、−3dBにおいては
100%に近い検出率を示すことが認められた。
なお、上記実施例においては、特徴パラメータ空間上で
標準パターンを規定する境界線として集中楕円と2つの
カテゴリーに対する尤度が等しくなる点の集まりを用い
たか、本発明の実施においては、もちろん他の一般的な
パターン認識の手法を用いることができる0例えば、カ
テゴリー「有声音」とカテゴリー「特定雑音」に対する
尤度か等しくなる点の集まりの代わりに、Mahara
nobis距離やEuclid距離が等しくなる点の集
まり等を用いることができる。
[発明の効果] 以上のように本発明によれば、雑音の振幅か大きく音声
の検出に対する影響が大きい場合にも、雑音環境下での
音声の存在を、簡易に検出することができる。
【図面の簡単な説明】
第1図は本発明の実施に用いられる音声検出装置の一例
を示すブロック図、第2図は本発明の特徴パラメータに
よりて形成されるパラメータ空間を示す模式図である。 11・・・マイク、 15・・・パラメータ計算部、 16・・・辞書データ記憶部、 17・・・判定部、 18・・・結果出力部。 代理人 弁理士  塩 川 修 治 第1図 第2図

Claims (4)

    【特許請求の範囲】
  1. (1)入力信号の参照軸交差数と波形の振幅分布に関す
    る値とを特徴パラメータとして算出し、この算出結果を
    、有声音と特定雑音についての辞書データと比較し、入
    力信号が有声音を含むかどうかを判定する音声検出方式
  2. (2)前記波形の振幅分布に関する値として一定時間間
    隔内の振幅の絶対値の最大値に対する該一定時間間隔内
    の振幅の実効値の比で表わされる波高値を用いる請求項
    1記載の音声検出方式。
  3. (3)前記波形の振幅分布に関する値として一定時間間
    隔内の振幅の絶対値の最大値に対する該一定時間間隔内
    の振幅の絶対値の平均値の比で表わされる波高値を用い
    る請求項1記載の音声検出方式。
  4. (4)前記波形の振幅分布に関する値として振幅が一定
    時間間隔内に実効値を目安とするしきい値を越える時間
    を用いる請求項1記載の音声検出方式。
JP63227546A 1988-09-13 1988-09-13 音声検出方式 Expired - Fee Related JP2599974B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63227546A JP2599974B2 (ja) 1988-09-13 1988-09-13 音声検出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63227546A JP2599974B2 (ja) 1988-09-13 1988-09-13 音声検出方式

Publications (2)

Publication Number Publication Date
JPH0277098A true JPH0277098A (ja) 1990-03-16
JP2599974B2 JP2599974B2 (ja) 1997-04-16

Family

ID=16862594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63227546A Expired - Fee Related JP2599974B2 (ja) 1988-09-13 1988-09-13 音声検出方式

Country Status (1)

Country Link
JP (1) JP2599974B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS587196A (ja) * 1981-07-06 1983-01-14 株式会社日立製作所 音声信号検出装置
JPS60200300A (ja) * 1984-03-23 1985-10-09 松下電器産業株式会社 音声の始端・終端検出装置
JPS63500399A (ja) * 1985-08-02 1988-02-12 コンパニュ オリス インダストリ エス アー アナライトが存在可能な媒体中のアナライトをルミネセンスによって検出および/または測定するための均質方法およびその方法に使用するキット

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS587196A (ja) * 1981-07-06 1983-01-14 株式会社日立製作所 音声信号検出装置
JPS60200300A (ja) * 1984-03-23 1985-10-09 松下電器産業株式会社 音声の始端・終端検出装置
JPS63500399A (ja) * 1985-08-02 1988-02-12 コンパニュ オリス インダストリ エス アー アナライトが存在可能な媒体中のアナライトをルミネセンスによって検出および/または測定するための均質方法およびその方法に使用するキット

Also Published As

Publication number Publication date
JP2599974B2 (ja) 1997-04-16

Similar Documents

Publication Publication Date Title
Moattar et al. A simple but efficient real-time voice activity detection algorithm
JPH0222398B2 (ja)
JPH0990974A (ja) 信号処理方法
KR890002816A (ko) 저렴한 음성 인식 시스템 및 방법
Tüske et al. Robust voice activity detection based on the entropy of noise-suppressed spectrum
WO2001029822A1 (en) Method and apparatus for determining pitch synchronous frames
JPS60200300A (ja) 音声の始端・終端検出装置
JP2797861B2 (ja) 音声検出方法および音声検出装置
JPH0277098A (ja) 音声検出方式
JP2559475B2 (ja) 音声検出方式
CN115424639B (zh) 一种基于时频特征的环境噪声下海豚声音端点检测方法
JP2992324B2 (ja) 音声区間検出方法
JPH0285898A (ja) 音声検出方式
JP5157475B2 (ja) 音処理装置およびプログラム
JPS60114900A (ja) 有音・無音判定法
KR100587260B1 (ko) 음향 기기의 음성인식장치
JP2557497B2 (ja) 男女声の識別方法
JPH0285897A (ja) 音声検出方式
JPH0430040B2 (ja)
JP5157474B2 (ja) 音処理装置およびプログラム
JPS6242198A (ja) 音声認識装置
JPH0546196A (ja) 音声認識装置
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
JPH04324499A (ja) 音声認識装置
JP2666296B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees