JPH0327698A - 音響信号検出方法 - Google Patents
音響信号検出方法Info
- Publication number
- JPH0327698A JPH0327698A JP2059641A JP5964190A JPH0327698A JP H0327698 A JPH0327698 A JP H0327698A JP 2059641 A JP2059641 A JP 2059641A JP 5964190 A JP5964190 A JP 5964190A JP H0327698 A JPH0327698 A JP H0327698A
- Authority
- JP
- Japan
- Prior art keywords
- microphone
- noise
- sound
- power
- receiver
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Noise Elimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は、雑音と所望の音響信号が混在する信号に対し
て、所望の音響信号の存在する時間区間を検出する音響
検出方法に関する. [従来の技術] 近年、音声認識装置の開発はめざましいものがあるが、
耐雑音性のある音声認識装置の開発は遅れている。その
理由は、雑音環境下で正しく音声区間検出(時間軸上で
音声が存在する時間区間を判定すること)を行うことが
難しいという点にある.ja音区間を誤って音声と判定
した場合、雑音をむりやり何かの音韻と対応づけてしま
うため、正しい音声認識結果を得ることは不可能である
。
て、所望の音響信号の存在する時間区間を検出する音響
検出方法に関する. [従来の技術] 近年、音声認識装置の開発はめざましいものがあるが、
耐雑音性のある音声認識装置の開発は遅れている。その
理由は、雑音環境下で正しく音声区間検出(時間軸上で
音声が存在する時間区間を判定すること)を行うことが
難しいという点にある.ja音区間を誤って音声と判定
した場合、雑音をむりやり何かの音韻と対応づけてしま
うため、正しい音声認識結果を得ることは不可能である
。
従って雑音下でも良好に動作する音声区間検出技術の開
発は大変重要なものと考えられている.第13図は第1
の従来の音声区間検出法を説明する図である.同図は、
信号の短時間パワーの時間的変化を表すもので、縦軸は
マイクロホンから出力された信号の短時間パワーを、横
軸は時刻を表している.以下、本明細書では特に明記し
ない場合、「パワー」とLt短時間パワーを表している
.信号には定常雑音11(時間的にパワーがほぼ一定の
雑音:例えば、空調雑音や機器のファン雑音)、非定常
雑音12(時間的にパワーが大きく変動する雑音:PA
えば、ドアの閉まる音や不要な音声)および(所望の)
音声13が含まれている.定常雑音のパワーは事前に知
ることは可能であるが、非定常雑音のパワーは予測不可
能である. 第1の従来法は、信号のパワーの監視を続
け、そのパワーが、定常雑音のパワーに基づいて決定さ
れる閾値Thl 4より大きくなった時間区間を音声区
間と判定するものである。現在の音声認識装置の大半は
、この方法を用いて音声区間検出を行っている。
発は大変重要なものと考えられている.第13図は第1
の従来の音声区間検出法を説明する図である.同図は、
信号の短時間パワーの時間的変化を表すもので、縦軸は
マイクロホンから出力された信号の短時間パワーを、横
軸は時刻を表している.以下、本明細書では特に明記し
ない場合、「パワー」とLt短時間パワーを表している
.信号には定常雑音11(時間的にパワーがほぼ一定の
雑音:例えば、空調雑音や機器のファン雑音)、非定常
雑音12(時間的にパワーが大きく変動する雑音:PA
えば、ドアの閉まる音や不要な音声)および(所望の)
音声13が含まれている.定常雑音のパワーは事前に知
ることは可能であるが、非定常雑音のパワーは予測不可
能である. 第1の従来法は、信号のパワーの監視を続
け、そのパワーが、定常雑音のパワーに基づいて決定さ
れる閾値Thl 4より大きくなった時間区間を音声区
間と判定するものである。現在の音声認識装置の大半は
、この方法を用いて音声区間検出を行っている。
しかしこの方法では、第■3図に示す正しい音声区間1
6の検出も行えるが、パワーの大きい非定常雑音区間1
5も誤って音声区間と判定してしまうという大きな問題
点があった.この点を解決する第2の従来法は2個のマ
イクロホンを用いて、一方のマイクロホンは音声と周囲
雑音とのSN比が大きく、他のマイクロホンはSN比が
小さくなるように、即ち2つのマイクロホン出力にSN
比の差が生じるように設置される.この事を実現するマ
イクロホンの具体的設置方法としては、第14図(a)
に示すように第1のマイクロホン1は発声者3の近くに
、第2のマイクロホン2は発声者3から遠くの場所にそ
れぞれ設置する方法、あるいは第14図(b)示すよう
に第1のマイクロホン1は発声者3の正面に、第2のマ
イクロホン2は発声者3の側面にそれぞれ設置する方法
などが考えられる。これらの設置方法を行えば、第1の
マイクロホン1より出力される音声パワーは第2のマイ
クロホン2より出力される音声パワーより大きく一方、
電音は遠方で発生すると考えると、両マイクロホン1、
2の出力における雑音パワーはほぼ等しく、その結果、
2つのマイクロホン1、2の出力にSN比の差が生じる
.第15図は第2の従来法の理想的動作を説明する図で
、第15図(a>は第1のマイクロホン出力の短時間パ
ワーPlの時間的変化を、第15図(b)は第2のマイ
クロホン出力の短時間パワーP2の時間的変化を表し、
それぞれの図において、第13図と同様に、11は定常
雑音、12は非定常雑音、13は音声を表している。2
つのマイクロホンをSN比の差が生じるように設置した
結果、短時間パワーP2における音声のパワーは、短時
間パワーptにおける音声のパワーより小さくなり、一
方、雑音のパワーは両者において等しくなっている.第
2の従来法では、第15図(C)に示すように、2つの
信号の短時間バワーP1とP2の差PD(PD=P1−
P2)を計算し、このパワー差PDが、記号17で示す
ある閾値pthより大きくなった時間区間18を音声区
間と判定するものである.第15図(C)より、第2の
従来法では、第1の従来法のようにパワーの大きな非定
常雑音12の区間を誤って音声区間と判定する問題は生
じないことがわかる。
6の検出も行えるが、パワーの大きい非定常雑音区間1
5も誤って音声区間と判定してしまうという大きな問題
点があった.この点を解決する第2の従来法は2個のマ
イクロホンを用いて、一方のマイクロホンは音声と周囲
雑音とのSN比が大きく、他のマイクロホンはSN比が
小さくなるように、即ち2つのマイクロホン出力にSN
比の差が生じるように設置される.この事を実現するマ
イクロホンの具体的設置方法としては、第14図(a)
に示すように第1のマイクロホン1は発声者3の近くに
、第2のマイクロホン2は発声者3から遠くの場所にそ
れぞれ設置する方法、あるいは第14図(b)示すよう
に第1のマイクロホン1は発声者3の正面に、第2のマ
イクロホン2は発声者3の側面にそれぞれ設置する方法
などが考えられる。これらの設置方法を行えば、第1の
マイクロホン1より出力される音声パワーは第2のマイ
クロホン2より出力される音声パワーより大きく一方、
電音は遠方で発生すると考えると、両マイクロホン1、
2の出力における雑音パワーはほぼ等しく、その結果、
2つのマイクロホン1、2の出力にSN比の差が生じる
.第15図は第2の従来法の理想的動作を説明する図で
、第15図(a>は第1のマイクロホン出力の短時間パ
ワーPlの時間的変化を、第15図(b)は第2のマイ
クロホン出力の短時間パワーP2の時間的変化を表し、
それぞれの図において、第13図と同様に、11は定常
雑音、12は非定常雑音、13は音声を表している。2
つのマイクロホンをSN比の差が生じるように設置した
結果、短時間パワーP2における音声のパワーは、短時
間パワーptにおける音声のパワーより小さくなり、一
方、雑音のパワーは両者において等しくなっている.第
2の従来法では、第15図(C)に示すように、2つの
信号の短時間バワーP1とP2の差PD(PD=P1−
P2)を計算し、このパワー差PDが、記号17で示す
ある閾値pthより大きくなった時間区間18を音声区
間と判定するものである.第15図(C)より、第2の
従来法では、第1の従来法のようにパワーの大きな非定
常雑音12の区間を誤って音声区間と判定する問題は生
じないことがわかる。
しかし、実際には、この第2の従来法が、このように理
想的に動作することはまれである.その理由は、2つの
信号のパワー差を利用して利用して音声区間検出を正し
く行うためには、以下の3つの条件が満足さている必要
がある. 条件1:2つの信号にSN比の差があること。
想的に動作することはまれである.その理由は、2つの
信号のパワー差を利用して利用して音声区間検出を正し
く行うためには、以下の3つの条件が満足さている必要
がある. 条件1:2つの信号にSN比の差があること。
条件2:2つの信号における雑音区間および音声区間が
、ともに時間的に整合していること。
、ともに時間的に整合していること。
条件3:種々の環境条件の変動による上記SN比の差の
変動が小さいこと。(SN比の差の安定性) ところが、第2の従来法では上記第1の条件にのみ注目
し、第2および第3の条件を考慮していないため、以下
に述べる問題点が発生する.まず、第1の問題点につい
て説明する。第16図は第14図(a)に雑音源4を書
き加えたものである.この時、音声は第1のマイクロホ
ン1に先ず入力され、次に第2のマイクロホン2に入力
される。一方、雑音は第2のマイクロホン2に先ず入力
され、次に第1のマイクロホン1に入力される.従って
、2つのマイクロホンの出力信号において音声区間およ
び雑音区間は整合しない.この事を第17図に示した.
第17図(a)は第1のマイクロホン出力の短時間パワ
ーP1を、第17図(b)は第2のマイクロホン出力の
短時間バワーP2を、第17図(C)はその短時間パワ
ーの差PDをそれぞれ表している.また、11は定常雑
音、12は非定常雑音、13は音声を表していることは
第15図の例と同様である.第17図(a)、(b)に
おける音声と誰音のパワーの大きさの関係は、第15図
(a)、(b)におけるそれと同一である.しかし一第
17図では、音声は第2のマイクロホンの出力において
、第1のマイクロホンの出力より記号3lで示す時間τ
Sだけ遅れたものとなっており,雑音は記号32で示す
時間τNだけ進んだものとなっている。
変動が小さいこと。(SN比の差の安定性) ところが、第2の従来法では上記第1の条件にのみ注目
し、第2および第3の条件を考慮していないため、以下
に述べる問題点が発生する.まず、第1の問題点につい
て説明する。第16図は第14図(a)に雑音源4を書
き加えたものである.この時、音声は第1のマイクロホ
ン1に先ず入力され、次に第2のマイクロホン2に入力
される。一方、雑音は第2のマイクロホン2に先ず入力
され、次に第1のマイクロホン1に入力される.従って
、2つのマイクロホンの出力信号において音声区間およ
び雑音区間は整合しない.この事を第17図に示した.
第17図(a)は第1のマイクロホン出力の短時間パワ
ーP1を、第17図(b)は第2のマイクロホン出力の
短時間バワーP2を、第17図(C)はその短時間パワ
ーの差PDをそれぞれ表している.また、11は定常雑
音、12は非定常雑音、13は音声を表していることは
第15図の例と同様である.第17図(a)、(b)に
おける音声と誰音のパワーの大きさの関係は、第15図
(a)、(b)におけるそれと同一である.しかし一第
17図では、音声は第2のマイクロホンの出力において
、第1のマイクロホンの出力より記号3lで示す時間τ
Sだけ遅れたものとなっており,雑音は記号32で示す
時間τNだけ進んだものとなっている。
即ち、音声区間と雑音区間は、共に、時間的に整合して
いない.その結果、2つの信号のパワーの差PDは第1
7図(c)のように第15図<C)とは異なったものと
なり、記号l7で示す閾値Pt.h以上の区間を音声区
間を判定した場合には、第17図(C)の記号33に示
した区間が誤って音声区間と判定されてしまうという第
1の問題が生じる。この雑音区間の記号32で示す時間
差τNは、雑音源の位置により大きく変化するため、遅
延器などを用いて整合性を計ることは不可能である. 次に、第2の問題として、実際の環境においては、2つ
のマイクロホン出力信号間のSN比の差を変動させる種
々の要因が存在し、2つの信号間のSN比の差の安定性
を確保することは難しいということを説明する. 変動要因の第1としては、雑音源の位置がある.前述の
説明では、雑音源は遠方にあると仮定したが、雑音源が
比較的近い位置にある時には、雑音源の位置はSN比の
差の大きな変動要因になる。
いない.その結果、2つの信号のパワーの差PDは第1
7図(c)のように第15図<C)とは異なったものと
なり、記号l7で示す閾値Pt.h以上の区間を音声区
間を判定した場合には、第17図(C)の記号33に示
した区間が誤って音声区間と判定されてしまうという第
1の問題が生じる。この雑音区間の記号32で示す時間
差τNは、雑音源の位置により大きく変化するため、遅
延器などを用いて整合性を計ることは不可能である. 次に、第2の問題として、実際の環境においては、2つ
のマイクロホン出力信号間のSN比の差を変動させる種
々の要因が存在し、2つの信号間のSN比の差の安定性
を確保することは難しいということを説明する. 変動要因の第1としては、雑音源の位置がある.前述の
説明では、雑音源は遠方にあると仮定したが、雑音源が
比較的近い位置にある時には、雑音源の位置はSN比の
差の大きな変動要因になる。
第18図を用いてその例を示す。第18図<a)(b)
において、前述した第16図の例と同様に、l、2はそ
れぞれ第1および第2のマイクロホン、3は発声者、4
は雑音源である.雑音源がこの2つの図に示す位置にあ
った場合には、音声のパワーと同様に、第1のマイクロ
ホン1の出力における雑音のパワーが第2のマイクロホ
ン2の出力の雑音のパワーより大きくなる.その結果、
2つのマイクロホン出力の間のSN比の差は小さなもの
となる。
において、前述した第16図の例と同様に、l、2はそ
れぞれ第1および第2のマイクロホン、3は発声者、4
は雑音源である.雑音源がこの2つの図に示す位置にあ
った場合には、音声のパワーと同様に、第1のマイクロ
ホン1の出力における雑音のパワーが第2のマイクロホ
ン2の出力の雑音のパワーより大きくなる.その結果、
2つのマイクロホン出力の間のSN比の差は小さなもの
となる。
第2の変動要因としては、発声者の動きがある.例えば
、第18図(b)において発声者が45゜右方向に首を
向けることによってと、音声は2つのマイクロホンにほ
ぼ同一のパワーで受音される.その結果、2つのマイク
ロホン1、2の出力において音声のパワー差は生じなく
なり、SN比の差は変動する. 第3の変動要因としては、室内反射音の影響がある.2
つのマイクロホン1、2が、SN比が異なるように設置
された場合の多くにおいて、時間的構造および大きさの
異なる反射音が、各マイクロホンにおける雑音および音
声に付加され、その結果、SN比は時間的に大きく変動
する.さらにその他にも、電気的雑音、振動雑音など数
多くの変動要因が存在する。従って、これらのSN比の
変動要因が存在する環境下で、安定したSN比の差を確
保することはきわめて困難であり、第2の従来法が有効
に動作可能なマイクロホン設置方法を見いだすことは容
易ではない.このように、第2の従来法には重大な問題
点があり、実用的には十分な性能を発揮することはでき
ない。
、第18図(b)において発声者が45゜右方向に首を
向けることによってと、音声は2つのマイクロホンにほ
ぼ同一のパワーで受音される.その結果、2つのマイク
ロホン1、2の出力において音声のパワー差は生じなく
なり、SN比の差は変動する. 第3の変動要因としては、室内反射音の影響がある.2
つのマイクロホン1、2が、SN比が異なるように設置
された場合の多くにおいて、時間的構造および大きさの
異なる反射音が、各マイクロホンにおける雑音および音
声に付加され、その結果、SN比は時間的に大きく変動
する.さらにその他にも、電気的雑音、振動雑音など数
多くの変動要因が存在する。従って、これらのSN比の
変動要因が存在する環境下で、安定したSN比の差を確
保することはきわめて困難であり、第2の従来法が有効
に動作可能なマイクロホン設置方法を見いだすことは容
易ではない.このように、第2の従来法には重大な問題
点があり、実用的には十分な性能を発揮することはでき
ない。
次に、上記第2の従来法の問題点の解決をねらいとした
第3の従来法を第19図を用いてこの方法を説明する.
第19図において、前述した例と同様に、1は第1のマ
イクロホン、2は第2のマイクロホンである.また、2
lは短時間パワー計算部、22は音声区間候補選択部、
23、24は音声区間候補における平均パワー計算部、
25はパワー差検出部、26は音声区間候補検定部であ
る. この方法において、第2の従来法と同様に、第1のマイ
クロホン1は、音声と周囲雑音とのSN比が大きく、第
2のマイクロホン2は、前者のマイクロホン1に比べて
SN比が小さくなるように設置される.この方法におい
て、まず、第1のマイクロホンの出力信号の短時間パワ
ーを、短時間パワー計算部21において計算する。次に
、音声区間候補検出部22において、信号の短時間パワ
ーの監視を続け、そのパワーが、定常雑音のパワーに基
づいて決定される閾値Thより大きくなった時間区間を
音声区間候補として選択する.ここまでの動作は第13
図に示した第1の従来法と全く同一である.従って、第
工3図の記号工5で示した雑音区間も音声区間候補とし
て選択されている。次に、平均パワー計算部23、24
において、この候補区間における第1のマイクロホン1
の出力の平均パワーおよび第2のマイクロホン2の出力
の平均パワーを算出する。次に、パワー差検出部25に
おいて、各々の平均パワーの差PDLを求める。最後に
、音声区間候補検定部26において、予め定めた閾値P
DLtより大きい時にはその候補区間を音声区間と決
定し、小さい時にはその候補区間を棄却する。
第3の従来法を第19図を用いてこの方法を説明する.
第19図において、前述した例と同様に、1は第1のマ
イクロホン、2は第2のマイクロホンである.また、2
lは短時間パワー計算部、22は音声区間候補選択部、
23、24は音声区間候補における平均パワー計算部、
25はパワー差検出部、26は音声区間候補検定部であ
る. この方法において、第2の従来法と同様に、第1のマイ
クロホン1は、音声と周囲雑音とのSN比が大きく、第
2のマイクロホン2は、前者のマイクロホン1に比べて
SN比が小さくなるように設置される.この方法におい
て、まず、第1のマイクロホンの出力信号の短時間パワ
ーを、短時間パワー計算部21において計算する。次に
、音声区間候補検出部22において、信号の短時間パワ
ーの監視を続け、そのパワーが、定常雑音のパワーに基
づいて決定される閾値Thより大きくなった時間区間を
音声区間候補として選択する.ここまでの動作は第13
図に示した第1の従来法と全く同一である.従って、第
工3図の記号工5で示した雑音区間も音声区間候補とし
て選択されている。次に、平均パワー計算部23、24
において、この候補区間における第1のマイクロホン1
の出力の平均パワーおよび第2のマイクロホン2の出力
の平均パワーを算出する。次に、パワー差検出部25に
おいて、各々の平均パワーの差PDLを求める。最後に
、音声区間候補検定部26において、予め定めた閾値P
DLtより大きい時にはその候補区間を音声区間と決
定し、小さい時にはその候補区間を棄却する。
この第3の従来法において特徴的なことは、短時間パワ
ーの差でなく、第1のマイクロホン1の出力において音
声区間候補として選んだ、比較的長時間区間内の平均パ
ワーの差を計算することである.従って、第17図(a
)、(b)のように、2つのマイクロホン出力において
、音声区間や雑音区間が時間的に整合していなくても、
また、2つの信号に時間的構造が異なった反射音が付加
されてSN比の時間的変動があったとしても、その事が
平均パワーの差におよぼす影響は小さく、前記第2の従
来法の問題点は改善される。
ーの差でなく、第1のマイクロホン1の出力において音
声区間候補として選んだ、比較的長時間区間内の平均パ
ワーの差を計算することである.従って、第17図(a
)、(b)のように、2つのマイクロホン出力において
、音声区間や雑音区間が時間的に整合していなくても、
また、2つの信号に時間的構造が異なった反射音が付加
されてSN比の時間的変動があったとしても、その事が
平均パワーの差におよぼす影響は小さく、前記第2の従
来法の問題点は改善される。
[発明が解決しようとする課題]
しかし、この方法では候補区間内の平均パワーにより音
声区間を決定しているために、雑音区間と音声区間が連
続的に存在する場合には誤った判定結果を生じる。第2
0図にそのような場合の例を示す。第20図は、第1の
マイクロホンlの出力を表しており、正しい音声区間は
図の34の区間である。この図において、非定常雑音1
2と音声13は時間的に近接しているため、短時間パワ
ーが記号14で示す閾値Thを越える、雑音区間と音声
区間を一つにした区間35が音声区間候補として選ばれ
てしまう。従って、平均パワーの差を求めた結果、この
候補区間が正しい音声区間と判定された場合には、第2
0図の記号36に示した区間が誤判定区間となってしま
うし、また、この音声区間が棄却された場合には正しい
音声区間か非音声区間とみなされたことになって、いず
れの場合においても誤った判定結果となるという問題が
生じる. このことから、この第3の従来法は、第2の従来法の持
つ問題点を解決する手法となっていないことがわかる. このように、従来の音声区間検出法では上述した数々の
問題点があるため、非定常雑音が存在する場合に、正し
い音声区間の検出を行うことは困難であった. それ故、本発明の主目的は、従来より高い確率で、非定
常雑音環境下における音声区間を検出できる方法を提供
することにある。
声区間を決定しているために、雑音区間と音声区間が連
続的に存在する場合には誤った判定結果を生じる。第2
0図にそのような場合の例を示す。第20図は、第1の
マイクロホンlの出力を表しており、正しい音声区間は
図の34の区間である。この図において、非定常雑音1
2と音声13は時間的に近接しているため、短時間パワ
ーが記号14で示す閾値Thを越える、雑音区間と音声
区間を一つにした区間35が音声区間候補として選ばれ
てしまう。従って、平均パワーの差を求めた結果、この
候補区間が正しい音声区間と判定された場合には、第2
0図の記号36に示した区間が誤判定区間となってしま
うし、また、この音声区間が棄却された場合には正しい
音声区間か非音声区間とみなされたことになって、いず
れの場合においても誤った判定結果となるという問題が
生じる. このことから、この第3の従来法は、第2の従来法の持
つ問題点を解決する手法となっていないことがわかる. このように、従来の音声区間検出法では上述した数々の
問題点があるため、非定常雑音が存在する場合に、正し
い音声区間の検出を行うことは困難であった. それ故、本発明の主目的は、従来より高い確率で、非定
常雑音環境下における音声区間を検出できる方法を提供
することにある。
また本発明の他の目的は、発生者の近く(マイクロホン
から発声者を見たとき±30度の範囲)を除いた任意の
位置に雑音源があったとしても、音声区間の検出ができ
る方法を提供することにある. [課題を解決するための手段] このような課題を達成するために、本発明は、以下の用
件を必須とする。すなわち、前述したように、2つの信
号のパワー差を利用して音声区間検出を正しく行うため
には、以下の3つの条件が必要である. 条件1:2つの信号にSN比の差があること.条件2:
2つの信号における雑音区間および音声区間が、ともに
時間的に整合していること.条件3:種々の環境条件の
変動による上記SN比の差の変動が小さいこと. (SN比の差の安定性〉 本発明の第1の特徴は、上記第1と第2の条件を同時に
満足させるために、同一の場所(厳密な意味での同一の
場所ではなく、本発明を有効に動作させるために、実質
的に同一と見なせる場所)にSN比の異なる信号を発生
させる2つの受音器を設置し、その2つの出力信号のパ
ワー差を用いて音声区間の検出を行う点にある。また、
本発明の第2の特徴は、上記第3の条件を満足させるた
めに、上記2つの受音器のうちの1つは、指向性制御機
能を有したマイクロホンアレーシステムを用いる点にあ
る. [作用] 本発明の第1の特徴によれば、雑音も音声も2つの受音
器には同一時刻に到達するので、2つの受音器出力信号
における雑音区間および音声区間はともに時間的に整合
している.従って、第2の従来法における第1の問題点
は解決される.また、2つの受音器が同一位置に設置さ
れていれば、各信号に付加される反射音の時間的tR造
も同一のものとなるため、前記第2の従来法における第
2の問題点として述べた2つの受音器出力にSN比の差
の変動に及ぼす反射音の影響は大幅に軽減される。
から発声者を見たとき±30度の範囲)を除いた任意の
位置に雑音源があったとしても、音声区間の検出ができ
る方法を提供することにある. [課題を解決するための手段] このような課題を達成するために、本発明は、以下の用
件を必須とする。すなわち、前述したように、2つの信
号のパワー差を利用して音声区間検出を正しく行うため
には、以下の3つの条件が必要である. 条件1:2つの信号にSN比の差があること.条件2:
2つの信号における雑音区間および音声区間が、ともに
時間的に整合していること.条件3:種々の環境条件の
変動による上記SN比の差の変動が小さいこと. (SN比の差の安定性〉 本発明の第1の特徴は、上記第1と第2の条件を同時に
満足させるために、同一の場所(厳密な意味での同一の
場所ではなく、本発明を有効に動作させるために、実質
的に同一と見なせる場所)にSN比の異なる信号を発生
させる2つの受音器を設置し、その2つの出力信号のパ
ワー差を用いて音声区間の検出を行う点にある。また、
本発明の第2の特徴は、上記第3の条件を満足させるた
めに、上記2つの受音器のうちの1つは、指向性制御機
能を有したマイクロホンアレーシステムを用いる点にあ
る. [作用] 本発明の第1の特徴によれば、雑音も音声も2つの受音
器には同一時刻に到達するので、2つの受音器出力信号
における雑音区間および音声区間はともに時間的に整合
している.従って、第2の従来法における第1の問題点
は解決される.また、2つの受音器が同一位置に設置さ
れていれば、各信号に付加される反射音の時間的tR造
も同一のものとなるため、前記第2の従来法における第
2の問題点として述べた2つの受音器出力にSN比の差
の変動に及ぼす反射音の影響は大幅に軽減される。
次に、本発明の第2の特徴によれば、前記第2の従来法
における第2の問題点として述べた2つの受音器出力間
のSN比の差の変動に及ぼす雑音源位置、および発声者
の移動の問題が改善できる.[実施例コ 本発明の構成図を第1図に示した.第1図において、4
1はSN比の高い信号を出力する第1の受音器(マイク
ロホンアレーシステム)で、複数のマイクロホン素子よ
り構成されるマイクロホンアレー51と指向特性制御部
52とより構成される。42は第1の受音器出力のSN
比に比べてSN比の低い信号を出力する第2の受音器で
、この2つの受音器は同一の場所に設置されている。ま
た、43、44は短時間パワー計算部、45は2つの信
号のパワー差に基づく音声区間検出部である。
における第2の問題点として述べた2つの受音器出力間
のSN比の差の変動に及ぼす雑音源位置、および発声者
の移動の問題が改善できる.[実施例コ 本発明の構成図を第1図に示した.第1図において、4
1はSN比の高い信号を出力する第1の受音器(マイク
ロホンアレーシステム)で、複数のマイクロホン素子よ
り構成されるマイクロホンアレー51と指向特性制御部
52とより構成される。42は第1の受音器出力のSN
比に比べてSN比の低い信号を出力する第2の受音器で
、この2つの受音器は同一の場所に設置されている。ま
た、43、44は短時間パワー計算部、45は2つの信
号のパワー差に基づく音声区間検出部である。
さて、本発明の効果を説明するために、第1図の構成に
おける、第1の受音器4■として、マイクロホンアレー
システムの代わりに、単一指向性マイクロホンを、第2
の受音器42として無指向性マイクロホンを用いた方法
を考える。そのようにすれば、発声者に指向性を向けた
第1の受音器の出力のSN比は、指向性を有しない第2
の受音器の出力のSN比より大きなものになる.しかし
、この方法は必ずしも良好に動作しない.このことを第
2図を用いて説明する。第2図において、61は単一指
向性マイクロホンの、62は無指向性マイクロホンの、
それぞれの指向性パターンを示しており、3は発声者、
63、64は雑a源の位置を表している.第2図(a)
.(b)からわかるように、単一指向性マイクロホンは
発声者の方に向けた正面方向に対しては感度が高く、そ
の逆方向には感度が低い.無指向性マイクロホンは全て
の方向に同一の感度を持っている.従って、雄音源が第
2図(a).(b)の記号63の位置にあれば、単一指
向性マイクロホンの出力のSN比は無指向性マイクロホ
ンのSN比より大変大きくなる.しかし、第2図(a)
.(b)において、雑音源が例えば記号64の位置にあ
る時(またはその位置に移動した時)には、単一指向性
マイクロホンの雑音に対する感度は高くなるため、単一
指向性マイクロホンの出力と無指向性マイクロホンの出
力のSN比の差は小さくなってしまう。このように、単
一指向性マイクロホンを第1の受音器として用いる方法
では、雑音源の位置によりSN比が大きく変動するとい
う問題点が発生する。
おける、第1の受音器4■として、マイクロホンアレー
システムの代わりに、単一指向性マイクロホンを、第2
の受音器42として無指向性マイクロホンを用いた方法
を考える。そのようにすれば、発声者に指向性を向けた
第1の受音器の出力のSN比は、指向性を有しない第2
の受音器の出力のSN比より大きなものになる.しかし
、この方法は必ずしも良好に動作しない.このことを第
2図を用いて説明する。第2図において、61は単一指
向性マイクロホンの、62は無指向性マイクロホンの、
それぞれの指向性パターンを示しており、3は発声者、
63、64は雑a源の位置を表している.第2図(a)
.(b)からわかるように、単一指向性マイクロホンは
発声者の方に向けた正面方向に対しては感度が高く、そ
の逆方向には感度が低い.無指向性マイクロホンは全て
の方向に同一の感度を持っている.従って、雄音源が第
2図(a).(b)の記号63の位置にあれば、単一指
向性マイクロホンの出力のSN比は無指向性マイクロホ
ンのSN比より大変大きくなる.しかし、第2図(a)
.(b)において、雑音源が例えば記号64の位置にあ
る時(またはその位置に移動した時)には、単一指向性
マイクロホンの雑音に対する感度は高くなるため、単一
指向性マイクロホンの出力と無指向性マイクロホンの出
力のSN比の差は小さくなってしまう。このように、単
一指向性マイクロホンを第1の受音器として用いる方法
では、雑音源の位置によりSN比が大きく変動するとい
う問題点が発生する。
上記の単一指向性マイクロホンを使用した場合の問題点
;ま、第3図に示すような超指向性を持つ受音器を、第
1図の第1の受音器41として用いれば解決するように
考えられるかもしれない。しかし、通常の超指向性受音
器の指向特性は周波数により異なっている.即ち、低周
波数域では第2図(a)の記号61のような広がった指
向特性を持ち、高周波数域では第2図(a)に示したも
のよりさらに鋭い指向特性を持つ。その結果、低周波数
域の雑音に対しては、前述したように雑音源の位置によ
りSN比が変動するという問題が、高周波数域において
は発声者の少しの移動でSN比が変動するという問題が
発生する. 以上説明したように、良好な音声区間検出結果を得るた
めには、第1図に示した本発明の構成における第1の受
音器4■として、良く知られている指向性受音器を代用
することは困難であることがわかる。
;ま、第3図に示すような超指向性を持つ受音器を、第
1図の第1の受音器41として用いれば解決するように
考えられるかもしれない。しかし、通常の超指向性受音
器の指向特性は周波数により異なっている.即ち、低周
波数域では第2図(a)の記号61のような広がった指
向特性を持ち、高周波数域では第2図(a)に示したも
のよりさらに鋭い指向特性を持つ。その結果、低周波数
域の雑音に対しては、前述したように雑音源の位置によ
りSN比が変動するという問題が、高周波数域において
は発声者の少しの移動でSN比が変動するという問題が
発生する. 以上説明したように、良好な音声区間検出結果を得るた
めには、第1図に示した本発明の構成における第1の受
音器4■として、良く知られている指向性受音器を代用
することは困難であることがわかる。
次に、指向性制御機能を持つマイクロホンアレーシステ
ムを用いる本発明では、雑音源の位置や、発声者の移動
に対してもSN比の変動を小さく保つことができること
を説明する. 指向性制御機能を持つマイクロホンアレーシステムの代
表例は適応形アレー(Adapjive (micro
phone) array)と呼ばれている受音器であ
る。適応形アレーの一構成例を第4図に示す。第4図に
おいて、5lはマイクロホンアレーで、Mgのマイクロ
ホン素子561〜56lIlより構成される.52は指
向性制御部で、各マイクロホン出力に接続されたフィル
タ531〜53M、フィルタ出力の総和をとる加算器5
5およびフィルタ特性制御部54より構成される。
ムを用いる本発明では、雑音源の位置や、発声者の移動
に対してもSN比の変動を小さく保つことができること
を説明する. 指向性制御機能を持つマイクロホンアレーシステムの代
表例は適応形アレー(Adapjive (micro
phone) array)と呼ばれている受音器であ
る。適応形アレーの一構成例を第4図に示す。第4図に
おいて、5lはマイクロホンアレーで、Mgのマイクロ
ホン素子561〜56lIlより構成される.52は指
向性制御部で、各マイクロホン出力に接続されたフィル
タ531〜53M、フィルタ出力の総和をとる加算器5
5およびフィルタ特性制御部54より構成される。
フィルタ特性制御部54には、各マイクロホン出力信号
および加算器55の出力xiが入力され、xiに含まれ
る雑音戒分を小さくするようにフィルタ531〜53l
4の特性を制御する.次に、このフィルタ特性制御部5
4の動作原理を説明する.加算器55の出力信号xiは
、音声成分Sと雑音成分nとの和として、次式のように
表される。
および加算器55の出力xiが入力され、xiに含まれ
る雑音戒分を小さくするようにフィルタ531〜53l
4の特性を制御する.次に、このフィルタ特性制御部5
4の動作原理を説明する.加算器55の出力信号xiは
、音声成分Sと雑音成分nとの和として、次式のように
表される。
Xl=s+n (1)
このとき、何の条件もつけずに雑音成分のバワーn2を
最少化するフィルタ特性を求めると、フィルタ531〜
53Mが全てゲイン零のフィルタとなってしまう。その
結果雑音成分nは零となって最少になるが、音声成分S
も出力されないという意味のない結果となる。そこで、
フィルタ動作の結果として得られる信号xiに含まれる
音声成分Sに対して、ある拘束条件を設定し、その条件
下でxiに含まれる雑音成分nを最少化するフィルタの
特性を求める。拘束条件の例としては、マイクロホン出
力信号(フィルタ入力信号)に含まれる音声成分をsO
と表したとき、S=SOという拘束条件や、Is−sl
2の平均値が予め定められた閾値以下とするという条件
などが知られている。
最少化するフィルタ特性を求めると、フィルタ531〜
53Mが全てゲイン零のフィルタとなってしまう。その
結果雑音成分nは零となって最少になるが、音声成分S
も出力されないという意味のない結果となる。そこで、
フィルタ動作の結果として得られる信号xiに含まれる
音声成分Sに対して、ある拘束条件を設定し、その条件
下でxiに含まれる雑音成分nを最少化するフィルタの
特性を求める。拘束条件の例としては、マイクロホン出
力信号(フィルタ入力信号)に含まれる音声成分をsO
と表したとき、S=SOという拘束条件や、Is−sl
2の平均値が予め定められた閾値以下とするという条件
などが知られている。
さて、M個のマイクロホン素子の出力をul〜uMと表
し、フィルタ53l〜53lI1の特性をhl〜hl4
と表すと、信号xlのパワーxl2は、次のようになる
。
し、フィルタ53l〜53lI1の特性をhl〜hl4
と表すと、信号xlのパワーxl2は、次のようになる
。
M
と表される。また、音声と雑音が互いに無相関であると
仮定すると、次式が成立する。
仮定すると、次式が成立する。
xl2=s2+n2 (3)(2)、(3
)式より、xiに含まれる雑音成分のパワーn2はフィ
ルタ特性hl−hl4の2次関数となることがわかる.
従って、拘束条件のもとて雑音成分のパワーn2を最少
化するフィルタ制御の問題は、よく知られた拘束条件付
き2次関数の最少化の問題となる. 各種の拘束条件に対する種々の解決、具体的アルゴリズ
ムについては、文献(”Introduction t
.oAdaptive Arrays”R.A.Mo
nzingo ef. at,JohnWiley &
Sons,NEW YORK, 1980 )や、米
国特許第4,536,887号に詳しく述べられている
.このように、X1に含まれる雑音成分を低減させるこ
とは、雑音の到来方向に対するこのアレーシステムの感
度を低減することに相当し、その結果、このアレーシス
テムは、目的方向に感度が高く、雑音源方向に感度の低
い指向特性を形成する。
)式より、xiに含まれる雑音成分のパワーn2はフィ
ルタ特性hl−hl4の2次関数となることがわかる.
従って、拘束条件のもとて雑音成分のパワーn2を最少
化するフィルタ制御の問題は、よく知られた拘束条件付
き2次関数の最少化の問題となる. 各種の拘束条件に対する種々の解決、具体的アルゴリズ
ムについては、文献(”Introduction t
.oAdaptive Arrays”R.A.Mo
nzingo ef. at,JohnWiley &
Sons,NEW YORK, 1980 )や、米
国特許第4,536,887号に詳しく述べられている
.このように、X1に含まれる雑音成分を低減させるこ
とは、雑音の到来方向に対するこのアレーシステムの感
度を低減することに相当し、その結果、このアレーシス
テムは、目的方向に感度が高く、雑音源方向に感度の低
い指向特性を形成する。
第5図は、適応形アレーの形成する指向特性の一PA6
6を示す。第5図において、3はこれまでの実施例と同
様に発声者であり、63、64は雑音源である.第5図
からわかるように、適応形アレーは、鋭い指向特性は持
たないが、雑音源の方向に感度の低い指向特性を実現す
る.この指向特性の低感度の部分は「死角」と呼ばれ、
マイクロホンアレーがM個の素子より構成されている時
、アレーシステムはM−1個の死角を形戒することがで
きる。
6を示す。第5図において、3はこれまでの実施例と同
様に発声者であり、63、64は雑音源である.第5図
からわかるように、適応形アレーは、鋭い指向特性は持
たないが、雑音源の方向に感度の低い指向特性を実現す
る.この指向特性の低感度の部分は「死角」と呼ばれ、
マイクロホンアレーがM個の素子より構成されている時
、アレーシステムはM−1個の死角を形戒することがで
きる。
このような指向特性を形成する適応形アレーは、室内で
反射された雑音が、雑音源以外の方向からも多数到来す
る場合には、超指向性受音器と比べて、得られるSN比
は小さい。しかし、雑音源の位置によらず、ほぼ一定の
SN比を得ることができるという特徴、また、発声者3
の方向に鋭い指向性を持たないため、発声者3の移動に
よるSN比の変動が少ないという特徴は、2つの信号の
パワー差を用いて音声区間検出を行う場合に必要なSN
比の差の安定性を確保するために大変適した受音器であ
る。
反射された雑音が、雑音源以外の方向からも多数到来す
る場合には、超指向性受音器と比べて、得られるSN比
は小さい。しかし、雑音源の位置によらず、ほぼ一定の
SN比を得ることができるという特徴、また、発声者3
の方向に鋭い指向性を持たないため、発声者3の移動に
よるSN比の変動が少ないという特徴は、2つの信号の
パワー差を用いて音声区間検出を行う場合に必要なSN
比の差の安定性を確保するために大変適した受音器であ
る。
加えて、適応形アレーには雑音パワーの時間的変動を小
さくするという特徴がある。このことを第6図(a),
(b)を用いて説明する。一般に室内では雄音源の方向
以外からも壁・床・天井などで反射された雑音が受音器
に入射する.適応形アレーはそれら全ての雑音方向に死
角を形成することはできず、マイクロホンアレーがM個
のマイクロホン素子より構成される時には、直接音およ
びエネルギーの大きな反射音の入射する方向に最大Mト
個の死角を形成することによりSN比を改善する。
さくするという特徴がある。このことを第6図(a),
(b)を用いて説明する。一般に室内では雄音源の方向
以外からも壁・床・天井などで反射された雑音が受音器
に入射する.適応形アレーはそれら全ての雑音方向に死
角を形成することはできず、マイクロホンアレーがM個
のマイクロホン素子より構成される時には、直接音およ
びエネルギーの大きな反射音の入射する方向に最大Mト
個の死角を形成することによりSN比を改善する。
この効果を第6図(a).(b)を用いて説明する。第
6図(a)は無指向性マイクロホンで受音した時のパル
ス性雑音、第6図(b)は適応形アレーで受音した時の
パルス性雑音を信号を表す。
6図(a)は無指向性マイクロホンで受音した時のパル
ス性雑音、第6図(b)は適応形アレーで受音した時の
パルス性雑音を信号を表す。
第6図(a)において71は雑音源から直接受音した雑
音、72、73、74は壁・床などで1回もしくは複数
回反射してから受音した雑音である。
音、72、73、74は壁・床などで1回もしくは複数
回反射してから受音した雑音である。
直接音71のエネルギーに比べて、反射音72、73、
74のエネルギーは時間とともに指数関数的に減衰する
。アレーを構成するマイクロホン素子数を4とすると、
この適応形アレーは雑音源方向および72、73の反射
音の方向の3つの死角を形成する。従って、適応形アレ
ー出力第6図(b)において74で示した雑音の反射音
のパワーは無指向性マイクロホンで受音したものと大き
な差はないが、雑音の直接音および72、73の反射音
のパワーは大きく低下している。そしてその結果、雑音
のパワーの時間的変動が小さくなることがわかる. 先に述べたように、音声区間の誤検出の犬きな要因は、
雑音のパワーの大きな時間的変動である.この時間的変
動に対処するために2つの信号のパワー差を利用した音
声区間検出を行うのであるが、種々のSN比の変動要因
を完全に除去することは不可能であるため、誤検出を1
00%回避することはできない.従って、本発明におい
て用いられる雑音パワーの時間的変動を小さくする適応
形アレーの特徴は、音声区間の誤検出をより少なくする
ために大変効果を発揮する. 第1図における本発明の構成例における第2の受音器4
2としては、マイクロホンアレー51を横成するマイク
ロホン素子のうちの一つを用いるのが最も簡便な方法で
ある。この例は、後述する第7図に示される. また、第2の受音器は、第10図に示すように、第1の
受音器42のマイクロホンアレー5lのマイクロホンの
出力のいくつかを合戒器52Aに入力し、出力を得るこ
とにより、第2の信号x2を得ることも可能である. 指向性vI御機能を持つマイクロホンアレーシステムの
他の例としては、米国特許第791,418号に示され
ているような受音方式がある.この方式では、到来方向
の明確な音声信号を保存し、周囲一様から到来する雑音
を低減するような信号処理がなされている。この方式が
良好に動作するためには、発声者と雑音源の位置が一致
していないという条件(マイクロホンからみた方向は同
一でもよい〉が必要であり、所望の位置にある音源から
の音のみを抽出するという意味から指向性制御の一種と
見なせる。
74のエネルギーは時間とともに指数関数的に減衰する
。アレーを構成するマイクロホン素子数を4とすると、
この適応形アレーは雑音源方向および72、73の反射
音の方向の3つの死角を形成する。従って、適応形アレ
ー出力第6図(b)において74で示した雑音の反射音
のパワーは無指向性マイクロホンで受音したものと大き
な差はないが、雑音の直接音および72、73の反射音
のパワーは大きく低下している。そしてその結果、雑音
のパワーの時間的変動が小さくなることがわかる. 先に述べたように、音声区間の誤検出の犬きな要因は、
雑音のパワーの大きな時間的変動である.この時間的変
動に対処するために2つの信号のパワー差を利用した音
声区間検出を行うのであるが、種々のSN比の変動要因
を完全に除去することは不可能であるため、誤検出を1
00%回避することはできない.従って、本発明におい
て用いられる雑音パワーの時間的変動を小さくする適応
形アレーの特徴は、音声区間の誤検出をより少なくする
ために大変効果を発揮する. 第1図における本発明の構成例における第2の受音器4
2としては、マイクロホンアレー51を横成するマイク
ロホン素子のうちの一つを用いるのが最も簡便な方法で
ある。この例は、後述する第7図に示される. また、第2の受音器は、第10図に示すように、第1の
受音器42のマイクロホンアレー5lのマイクロホンの
出力のいくつかを合戒器52Aに入力し、出力を得るこ
とにより、第2の信号x2を得ることも可能である. 指向性vI御機能を持つマイクロホンアレーシステムの
他の例としては、米国特許第791,418号に示され
ているような受音方式がある.この方式では、到来方向
の明確な音声信号を保存し、周囲一様から到来する雑音
を低減するような信号処理がなされている。この方式が
良好に動作するためには、発声者と雑音源の位置が一致
していないという条件(マイクロホンからみた方向は同
一でもよい〉が必要であり、所望の位置にある音源から
の音のみを抽出するという意味から指向性制御の一種と
見なせる。
第7図は、第1図に示される本発明の第一の実施例をよ
り具体的に説明する図である.同図において、51はマ
イクロホンアレー、52は指向特性fil御部、43は
第一の短時間パワー計算部、44は第二の短時間パワー
計算部、45はパワー差に基づく音声区間検出部である
ことは、これまでの実施例と同様である。また、81は
指向特性制御部52の出力側に接続されて信号x1を受
けかつ出力をパワー演計算43に送出する第一の増幅器
、82はマイクロホン42(この例ではマイクロホンア
レ−51を構成するマイクロホン素子のひとつを使用)
に接続されて信号x2を受けかつ出力をパワー計算部4
4に送出する第二の増幅器、83はパワー計算部43、
44の出力pi,p2を受ける差分器、84はパワー計
算部43の出力p1を受けかつ音声区間の一部をなして
いるという可能性のある短時間区間パワーに基づく判定
部、85は差分器83の出力を受けるパワーに基づく判
定部、86は短時間パワーに基づく判定部84の出力S
1とパワーに基づく判定部85の出力S2とを受ける音
声区間候補検定部あるいは音声区間決定部である。
り具体的に説明する図である.同図において、51はマ
イクロホンアレー、52は指向特性fil御部、43は
第一の短時間パワー計算部、44は第二の短時間パワー
計算部、45はパワー差に基づく音声区間検出部である
ことは、これまでの実施例と同様である。また、81は
指向特性制御部52の出力側に接続されて信号x1を受
けかつ出力をパワー演計算43に送出する第一の増幅器
、82はマイクロホン42(この例ではマイクロホンア
レ−51を構成するマイクロホン素子のひとつを使用)
に接続されて信号x2を受けかつ出力をパワー計算部4
4に送出する第二の増幅器、83はパワー計算部43、
44の出力pi,p2を受ける差分器、84はパワー計
算部43の出力p1を受けかつ音声区間の一部をなして
いるという可能性のある短時間区間パワーに基づく判定
部、85は差分器83の出力を受けるパワーに基づく判
定部、86は短時間パワーに基づく判定部84の出力S
1とパワーに基づく判定部85の出力S2とを受ける音
声区間候補検定部あるいは音声区間決定部である。
この方法を実行する手順は以下の通りである。
先ず、雑音の重畳した音声はマイクロホンアレー5Lに
より受音される。このマイクロホンアレー51の田方信
号は指向性制御部52に入力され、第1の信号xiを発
生する。一方、マイクロホンアレー51を構成する1つ
のマイクロホン素子の出力をx2とする。この時、指向
性制v4部52による指向性制御の結果、xiにおける
SN比はX2におけるSN比より大きいものとなってい
る.次に増幅器81、82を用いて信号xiおよびx2
に含まれる音声のパワーが等しくなるように信号のレベ
ルを補正する.この操作は必須なものではないが、この
操作を行っておくと、後の説明が簡単化される。次に、
短時間パワー計算部43、44において、それぞれ、X
1およびx2の短時間バワーP1およびP2を計算し出
力する。この短時間パワーptおよびP2は対数値(d
B)または真数値で表されているものとする。
より受音される。このマイクロホンアレー51の田方信
号は指向性制御部52に入力され、第1の信号xiを発
生する。一方、マイクロホンアレー51を構成する1つ
のマイクロホン素子の出力をx2とする。この時、指向
性制v4部52による指向性制御の結果、xiにおける
SN比はX2におけるSN比より大きいものとなってい
る.次に増幅器81、82を用いて信号xiおよびx2
に含まれる音声のパワーが等しくなるように信号のレベ
ルを補正する.この操作は必須なものではないが、この
操作を行っておくと、後の説明が簡単化される。次に、
短時間パワー計算部43、44において、それぞれ、X
1およびx2の短時間バワーP1およびP2を計算し出
力する。この短時間パワーptおよびP2は対数値(d
B)または真数値で表されているものとする。
次にSN比の高い信号のバワーP1をパワーに基づく判
定部84に入力する。このパワーに基づく判定部84に
おいては、P1の値があらかじめ定められた閏値Thよ
り大きい場合には、該当する短時間区間が音声区の一部
である可能性を示すために出力Stとして”1”を出力
し、そうでない場合には”0”を出力する。
定部84に入力する。このパワーに基づく判定部84に
おいては、P1の値があらかじめ定められた閏値Thよ
り大きい場合には、該当する短時間区間が音声区の一部
である可能性を示すために出力Stとして”1”を出力
し、そうでない場合には”0”を出力する。
次に、差分器83においてptとP2の差分PD (
PD = P2−PL>を演算し、この差分PDをパ
ワー差に基づく判定部85に入力する。
PD = P2−PL>を演算し、この差分PDをパ
ワー差に基づく判定部85に入力する。
このパワー差に基づく判定部85においては、PDの値
があらかじめ定められた閾値pthより小さい場合には
、出力S2として”1”を出力し、そうでない場合には
′゛0”′を出力する。
があらかじめ定められた閾値pthより小さい場合には
、出力S2として”1”を出力し、そうでない場合には
′゛0”′を出力する。
最後に、上記パワーに基づく判定部84の出力S1とパ
ワー差に基づく判定部85の出力S2は音声区間決定部
86に入力される。音声区間決定部86では、S1およ
びS2の値がともに”1”である時、候補となった短時
間区間は正しい音声区間の一部をなすものと判定し、そ
れ以外の場合には雑音区間と判定した結果を出力する。
ワー差に基づく判定部85の出力S2は音声区間決定部
86に入力される。音声区間決定部86では、S1およ
びS2の値がともに”1”である時、候補となった短時
間区間は正しい音声区間の一部をなすものと判定し、そ
れ以外の場合には雑音区間と判定した結果を出力する。
次に、上記パワー差に基づく音声区間検出部45の動作
を第8図(a)、(b)、(c)を用いて説明する。第
8図(a)は、第1の受音器の出力におけるパワーPL
の時間的変化を表し、第8図(b)は第2の受音器の出
力におけるパワーP2の時間的変化を表し、第8図(C
)はP2とP1の差PD(PD=.P2−P1)を表し
ている.それぞれの図において、縦軸は信号の短時間パ
ワーを、横軸は時刻を表している。また、11は定常雑
音、121.122は非定常雑音、13は音声を前述し
た例の説明と同様に表している。
を第8図(a)、(b)、(c)を用いて説明する。第
8図(a)は、第1の受音器の出力におけるパワーPL
の時間的変化を表し、第8図(b)は第2の受音器の出
力におけるパワーP2の時間的変化を表し、第8図(C
)はP2とP1の差PD(PD=.P2−P1)を表し
ている.それぞれの図において、縦軸は信号の短時間パ
ワーを、横軸は時刻を表している。また、11は定常雑
音、121.122は非定常雑音、13は音声を前述し
た例の説明と同様に表している。
ptおよびP2に含まれる音声のパワーは、等しくなる
ように調整されているため、P2における定常雑音のパ
ワーが音声のパワーより多少小さいものであれば、対数
値でパワーを表示している第8図(a)、(b)におい
て、音声区間のパワーはほぼ等しいものとなる。一方、
第2の受音器の出力は第1の受音器の出力よりSN比が
小さいため、第8図(b)における雑音のパワーは、第
8図(a)における雑音のパワーに比べて、SN比の差
に相当する分だけ大きくなっていることが示されている
。そして、その結果、第8図(C)に示したP2とpt
のパワー差PI)の値は、音声区間においては零となり
、非音声区間では非零の値をとる. しかし、現実の環境丁では、前述したように種々のSN
比の差の変動要因が存在するため、指向性制御機能を持
つマイクロホンアレーシステムを利用して変動要因の軽
減を図った本発明においても、PDの値はこのような理
想的な値をとるとは限らない。例えば、予想を上回る範
囲の話者の移動は音声区間であってもPDの値を零より
大きな値とするし、また、音声と同一方向から到来する
雑音(例えば、発声者の舌うちや、発声者が紙をめくる
音等〉に対しては、それが比較的パワーの小さなもので
あったとしても、PDの値はその雑音区間においては零
となってしまう. このような点を考慮して、本発明では、まず、パワーに
基づく判定部84の動作として、第8図(a>に示すよ
うに、閾値Thより小さい雉時間区間は非音声区間と判
定してしまう。その結果、例えば、記号122で示した
雑音が音声と同一方向から到来する雑音であって、その
雑音区間においてPDが小さなものであったとしてもこ
の雑音区間を音声区間と誤検出することはなく、有効性
の高い音声区間検出が実現されることがわかる。
ように調整されているため、P2における定常雑音のパ
ワーが音声のパワーより多少小さいものであれば、対数
値でパワーを表示している第8図(a)、(b)におい
て、音声区間のパワーはほぼ等しいものとなる。一方、
第2の受音器の出力は第1の受音器の出力よりSN比が
小さいため、第8図(b)における雑音のパワーは、第
8図(a)における雑音のパワーに比べて、SN比の差
に相当する分だけ大きくなっていることが示されている
。そして、その結果、第8図(C)に示したP2とpt
のパワー差PI)の値は、音声区間においては零となり
、非音声区間では非零の値をとる. しかし、現実の環境丁では、前述したように種々のSN
比の差の変動要因が存在するため、指向性制御機能を持
つマイクロホンアレーシステムを利用して変動要因の軽
減を図った本発明においても、PDの値はこのような理
想的な値をとるとは限らない。例えば、予想を上回る範
囲の話者の移動は音声区間であってもPDの値を零より
大きな値とするし、また、音声と同一方向から到来する
雑音(例えば、発声者の舌うちや、発声者が紙をめくる
音等〉に対しては、それが比較的パワーの小さなもので
あったとしても、PDの値はその雑音区間においては零
となってしまう. このような点を考慮して、本発明では、まず、パワーに
基づく判定部84の動作として、第8図(a>に示すよ
うに、閾値Thより小さい雉時間区間は非音声区間と判
定してしまう。その結果、例えば、記号122で示した
雑音が音声と同一方向から到来する雑音であって、その
雑音区間においてPDが小さなものであったとしてもこ
の雑音区間を音声区間と誤検出することはなく、有効性
の高い音声区間検出が実現されることがわかる。
第7図に示される音声区間決定部86は、第1L図に示
されるように、パワーに基づく判定部84からの出力s
1をパワー差に基づく判定部85からの出力S2がとも
に”1”であるときに、その短時間区間を音声区間と判
定する音声区間候補検定部86aの他にこの検定部が音
声区間と判した時間区間が音声の最小継続区間の予測値
を越えて継続した場合のみ、この時間区間を音声区間と
判定する区間検定部86bを設けるようにしても良い。
されるように、パワーに基づく判定部84からの出力s
1をパワー差に基づく判定部85からの出力S2がとも
に”1”であるときに、その短時間区間を音声区間と判
定する音声区間候補検定部86aの他にこの検定部が音
声区間と判した時間区間が音声の最小継続区間の予測値
を越えて継続した場合のみ、この時間区間を音声区間と
判定する区間検定部86bを設けるようにしても良い。
本発明の有効性を確認するために、以下の実験を行った
. 〈実験条件〉 実験は残響時間が0.4秒の室内において行っf,:。
. 〈実験条件〉 実験は残響時間が0.4秒の室内において行っf,:。
雑音としてはスビーカから妨害音声(ラジオのニュース
)を発生させた。所望音声としては単語音声(都市名〉
を用い、異なった妨害音声下で発声したl00単語を収
集した。発声者と雑音源の位置は受音器からみて45度
離れた位置に設定した。受音器1としては、適応形アレ
ーの一つである、A M N O.R受音装置(参考文
献: Y.Kanedaand J.Ohga ”A
dapt.ive Microphone−array
SystCmfor Noise Reductio
n , fEEE ’rrans. on Acous
t..,Speech,Signal Proces
sing,vol−ASSP−34,PP.1391−
1400, Dec.1986 )を用いた。Al4N
OR受a装置は、複数のマイクロホン素子より構成され
るマイクロホンアレーとディジタルフィルタを組み合わ
せて実現され、単一のマイクロホン素子に比べて、lO
〜16 dB程度の高SN比受音が可能である.また、
受音器2としては、前記のマイクロホンアレーの構成要
素である■つのマイクロホン素子を用いた。短時間パワ
ーの算出は窓長30 msで10 ms毎に行った. パワーに基づく判定部84における閾値Thは、各発声
を一定の長さ(l秒〉で取り込み、その中での最大短時
間パワーと最小短時間パワーの差Pl4Mを求め、Th
=PMM X O.5 、と定めた。
)を発生させた。所望音声としては単語音声(都市名〉
を用い、異なった妨害音声下で発声したl00単語を収
集した。発声者と雑音源の位置は受音器からみて45度
離れた位置に設定した。受音器1としては、適応形アレ
ーの一つである、A M N O.R受音装置(参考文
献: Y.Kanedaand J.Ohga ”A
dapt.ive Microphone−array
SystCmfor Noise Reductio
n , fEEE ’rrans. on Acous
t..,Speech,Signal Proces
sing,vol−ASSP−34,PP.1391−
1400, Dec.1986 )を用いた。Al4N
OR受a装置は、複数のマイクロホン素子より構成され
るマイクロホンアレーとディジタルフィルタを組み合わ
せて実現され、単一のマイクロホン素子に比べて、lO
〜16 dB程度の高SN比受音が可能である.また、
受音器2としては、前記のマイクロホンアレーの構成要
素である■つのマイクロホン素子を用いた。短時間パワ
ーの算出は窓長30 msで10 ms毎に行った. パワーに基づく判定部84における閾値Thは、各発声
を一定の長さ(l秒〉で取り込み、その中での最大短時
間パワーと最小短時間パワーの差Pl4Mを求め、Th
=PMM X O.5 、と定めた。
また、PDの閾値PLhは8dB と設定した。
なお、音声区間の正解としては、無雑音時の音声に対し
て第1の従来法(パワーに基づく判定のみを用いる方法
)を適用して得られた区間を用いた。
て第1の従来法(パワーに基づく判定のみを用いる方法
)を適用して得られた区間を用いた。
(実験結果)
以上の条件で、受音点での音声のSN比を、受音器2の
出力において−5 dBとなるように設定して、単語区
間の検出実験を行った。
出力において−5 dBとなるように設定して、単語区
間の検出実験を行った。
第9図に実験結果の一例を示す。第9図(a)は雑音が
無い場合の音声パワーと音声区間の正解を示す.第9図
(b)は妨害音声が付加された時の第2の受音器の出力
のバワーP2を示している。
無い場合の音声パワーと音声区間の正解を示す.第9図
(b)は妨害音声が付加された時の第2の受音器の出力
のバワーP2を示している。
第9図(C)は、妨害音声が付加された時の第1の受音
器(AMNOR受音装置〉の出力のパワーPL,および
選択された音声区間候補を示している。ハッチで示した
部分が、誤って検出された音声区間を示している。第9
図(b)と(C)を比べた時、(b)図にΔ印で示した
雑音のパワーの時間的変動が、適応形アレーの出力であ
る(C)図において小さなものになっていることがわか
る。
器(AMNOR受音装置〉の出力のパワーPL,および
選択された音声区間候補を示している。ハッチで示した
部分が、誤って検出された音声区間を示している。第9
図(b)と(C)を比べた時、(b)図にΔ印で示した
雑音のパワーの時間的変動が、適応形アレーの出力であ
る(C)図において小さなものになっていることがわか
る。
すなわち、パワーの時間的変化の鋭いピークが平坦なも
のになっている。
のになっている。
第9図(d)は本発明の手法を適用した結果、単語区間
と判定した結果を矢印で表示している.なお、第9図(
c),(d)において検出された音声区間にはさまれる
200■S以内の非音声区間は、単語区間の一部と見な
した。ハッチで示した部分は誤検出(音声区間を雑音区
間と判定した)した区間である。この図より、本発明の
方法は、ほぼ良好に動作を行っていることが確認できる
。
と判定した結果を矢印で表示している.なお、第9図(
c),(d)において検出された音声区間にはさまれる
200■S以内の非音声区間は、単語区間の一部と見な
した。ハッチで示した部分は誤検出(音声区間を雑音区
間と判定した)した区間である。この図より、本発明の
方法は、ほぼ良好に動作を行っていることが確認できる
。
実験結果を定量的に評価するために、単語区間の始端お
よび終端における誤差が50 Ils以内で検出できた
場合を正解とみなし、その正解率を求めた。SN比の高
いAMNOHの出力に対して、現在の音声認識装置にお
いても、最も多く利用されている第1の従来法を適用し
た場合、正解率は43?≦であった。これに対し、本発
明方式では、96%の検出結果を得、その時の始・終端
の平均検出誤差は約20ffisであった。この結果よ
り、本音声区間検出法の有効性が確認された。
よび終端における誤差が50 Ils以内で検出できた
場合を正解とみなし、その正解率を求めた。SN比の高
いAMNOHの出力に対して、現在の音声認識装置にお
いても、最も多く利用されている第1の従来法を適用し
た場合、正解率は43?≦であった。これに対し、本発
明方式では、96%の検出結果を得、その時の始・終端
の平均検出誤差は約20ffisであった。この結果よ
り、本音声区間検出法の有効性が確認された。
また、例えば第2図(a)に示されるように、第1の受
音器として単一指向性マイクロホンを用いた場合には、
発声者とマイクロホンとを結ぶ直線し対して、マイクロ
ホンを中心に実質的に発声者方向90度以内の範囲に雑
音源が存在した場合には、単語区間の正答率は10%程
度であり、本発明が高精度な音響信号検出方式であるこ
とが確認された.なお、本発明では発声者とマイクロホ
ンとを結ぶ直線に対して±30゜の範囲を除いて前述し
た±96%の検定結果が得られている。
音器として単一指向性マイクロホンを用いた場合には、
発声者とマイクロホンとを結ぶ直線し対して、マイクロ
ホンを中心に実質的に発声者方向90度以内の範囲に雑
音源が存在した場合には、単語区間の正答率は10%程
度であり、本発明が高精度な音響信号検出方式であるこ
とが確認された.なお、本発明では発声者とマイクロホ
ンとを結ぶ直線に対して±30゜の範囲を除いて前述し
た±96%の検定結果が得られている。
若干の性能劣化が許容できる応用には、いわゆる超指向
性受音器と選択フィルタより構成される受音器も、本発
明の第1の受音器として適用が可能である.第12図に
その構成例を示す。第12図において51はマイクロホ
ンアレー、91は超指向性を実現するための加算器、9
2は処理フィルタである.府述したように、超指向性受
音器を用いた場合には低周波域、高周波域においてSN
比の変動が大きくなるため、この処理フィルタは発声者
の移動が予思される範囲において感度が高く、その範囲
外では感度の低い帯域のみを抽出することにより、この
問題点の改善を行うものである。この方式の問題点はS
N比の変動の少ない周波数帯域が必ずしも音声をエネル
ギーの大きな帯域とは一致しないため、第1の受音器の
出力のSN比が低下し、音声区間候補に置ける誤選択が
増加する点にある.一方、この方式の利点は、系構成が
単純であるという点にある。
性受音器と選択フィルタより構成される受音器も、本発
明の第1の受音器として適用が可能である.第12図に
その構成例を示す。第12図において51はマイクロホ
ンアレー、91は超指向性を実現するための加算器、9
2は処理フィルタである.府述したように、超指向性受
音器を用いた場合には低周波域、高周波域においてSN
比の変動が大きくなるため、この処理フィルタは発声者
の移動が予思される範囲において感度が高く、その範囲
外では感度の低い帯域のみを抽出することにより、この
問題点の改善を行うものである。この方式の問題点はS
N比の変動の少ない周波数帯域が必ずしも音声をエネル
ギーの大きな帯域とは一致しないため、第1の受音器の
出力のSN比が低下し、音声区間候補に置ける誤選択が
増加する点にある.一方、この方式の利点は、系構成が
単純であるという点にある。
本発明においては、音声信号固有の性質を全く利用して
いない.しかし、音声区間検出を行うためには、音声信
号の性質を利用した判定法を本発明と組み合わせて使用
することは大変有効である。
いない.しかし、音声区間検出を行うためには、音声信
号の性質を利用した判定法を本発明と組み合わせて使用
することは大変有効である。
実際、第1の従来法はそれ単独で使用されることはなく
、音声信号の性質を利用した判定法と組み合わせて使用
するのが通常である。たとえば、き声信号の最小継続時
間の予測値Tcを利用して、Tcより短い音声区間の候
補は雑音と判定する方法が知られている.この判定法を
組み合わせて、パルス性雑音の影響を除去することは、
音声区間検出において大変有効な方式である。また、音
声信号の周期性を利用して、信号が非周期性である区間
は非音声であると判定する方法など、その他にも数多く
の判定方が知られている.これら従来の方法は、本発明
で音声区間と判定した区間を入力として、その区間の再
判定を行う、または、本発明を含めた複数の判定を行っ
た結果の多数決により音声区間の最終決定を行うなどの
方法により、簡単に本発明と組み合わせて使用すること
ができる このように、本発明は、従来知られている多くの音声区
間検出法と組み合わせることが可能であり、その結果、
使用目的に応じて、検出性能の大きな向上を実現するこ
とも可能である.さて、本発明の第一の応用分野゛とし
ては、以上で説明してきたように音声認識装置への適用
がある。第二の応用分野としては、音饗エコーキャンセ
ラがある.音響エコーキャンセラとは、例えば、拡声電
話系などにおいて、受話スビ一カからの音が送話マイク
ロホンに回り込んで受音され、その結果ハウリング等の
問題を生じる事を防ぐための技術である.音響エコーキ
ャンセラの原理は、受話スビーカから送話マイクロホン
までの音響伝達特性を推定し、その推定結果に基づいて
送話マイクロホンで受音された信号から受話スビーカか
らの音の成分を差し引くというものである。この受話ス
ビーカから送話マイクロホンまでの伝達特性は時刻と共
に変化するため、推定を継続的に行う必要があるが、そ
の推定を行う時には送話者は発声していないという条件
(さもないと、大きな推定誤差が発生する)が必要であ
る。しかし、送話者の発声の有無の判定は必ずしもうま
くは行われず、そのことが、この技術の現在の課題の一
つとなっている。
、音声信号の性質を利用した判定法と組み合わせて使用
するのが通常である。たとえば、き声信号の最小継続時
間の予測値Tcを利用して、Tcより短い音声区間の候
補は雑音と判定する方法が知られている.この判定法を
組み合わせて、パルス性雑音の影響を除去することは、
音声区間検出において大変有効な方式である。また、音
声信号の周期性を利用して、信号が非周期性である区間
は非音声であると判定する方法など、その他にも数多く
の判定方が知られている.これら従来の方法は、本発明
で音声区間と判定した区間を入力として、その区間の再
判定を行う、または、本発明を含めた複数の判定を行っ
た結果の多数決により音声区間の最終決定を行うなどの
方法により、簡単に本発明と組み合わせて使用すること
ができる このように、本発明は、従来知られている多くの音声区
間検出法と組み合わせることが可能であり、その結果、
使用目的に応じて、検出性能の大きな向上を実現するこ
とも可能である.さて、本発明の第一の応用分野゛とし
ては、以上で説明してきたように音声認識装置への適用
がある。第二の応用分野としては、音饗エコーキャンセ
ラがある.音響エコーキャンセラとは、例えば、拡声電
話系などにおいて、受話スビ一カからの音が送話マイク
ロホンに回り込んで受音され、その結果ハウリング等の
問題を生じる事を防ぐための技術である.音響エコーキ
ャンセラの原理は、受話スビーカから送話マイクロホン
までの音響伝達特性を推定し、その推定結果に基づいて
送話マイクロホンで受音された信号から受話スビーカか
らの音の成分を差し引くというものである。この受話ス
ビーカから送話マイクロホンまでの伝達特性は時刻と共
に変化するため、推定を継続的に行う必要があるが、そ
の推定を行う時には送話者は発声していないという条件
(さもないと、大きな推定誤差が発生する)が必要であ
る。しかし、送話者の発声の有無の判定は必ずしもうま
くは行われず、そのことが、この技術の現在の課題の一
つとなっている。
この問題に対して、送話者の音声を目的音声、受話スビ
ーカからの音声を不要音声と考えて本発明を適用し、あ
る時間区間に目的音声が存在するとp1定した時刻には
送話者が発声しているものとみなして、上記伝達特性の
推定動作を停止することを行えば、上記課題を解決した
、高性能な音響エコーキャンセラの実現が可能となる。
ーカからの音声を不要音声と考えて本発明を適用し、あ
る時間区間に目的音声が存在するとp1定した時刻には
送話者が発声しているものとみなして、上記伝達特性の
推定動作を停止することを行えば、上記課題を解決した
、高性能な音響エコーキャンセラの実現が可能となる。
第三の応用分野としては、音声蓄積技術への応用がある
。例えば、大量の連続発声音声をディジタル化し、磁気
ディスクなどに記録しようとする場合、音声符号化によ
る情報圧縮技術も重要であるが、非音声区間を検出して
その区間を切り捨てたり,またはその区間を特に低い情
報量で記録することも大変重要な技術である.本発明は
そのような技術における非音声区間の検出に適用可能で
ある. さらに、本発明方式は音声信号固有の性質を利用してい
ないため、検出対象とする音としては、音声以外の任意
の音〈例えば音楽、機械音、衝撃音など〉を選ぶことが
可能である.そして、その結果、本発明方式は各種監視
装置、計測装置、などを始めとした、様々な応用形態が
考えられる.[発明の効果コ 以上説明したように、本発明の方法は同一の場所に設置
された第1の受音器(指向性制m機能を持つマイクロホ
ンアレーシステム)および第2の受音器によって受音さ
れた信号の間の短時間パワーの差を利用して所望の信号
の存在を判定するため、従来のこの種方式では不可能で
あった、非定常雑音環境下における所望音声区間の検出
を可能とするものである.
。例えば、大量の連続発声音声をディジタル化し、磁気
ディスクなどに記録しようとする場合、音声符号化によ
る情報圧縮技術も重要であるが、非音声区間を検出して
その区間を切り捨てたり,またはその区間を特に低い情
報量で記録することも大変重要な技術である.本発明は
そのような技術における非音声区間の検出に適用可能で
ある. さらに、本発明方式は音声信号固有の性質を利用してい
ないため、検出対象とする音としては、音声以外の任意
の音〈例えば音楽、機械音、衝撃音など〉を選ぶことが
可能である.そして、その結果、本発明方式は各種監視
装置、計測装置、などを始めとした、様々な応用形態が
考えられる.[発明の効果コ 以上説明したように、本発明の方法は同一の場所に設置
された第1の受音器(指向性制m機能を持つマイクロホ
ンアレーシステム)および第2の受音器によって受音さ
れた信号の間の短時間パワーの差を利用して所望の信号
の存在を判定するため、従来のこの種方式では不可能で
あった、非定常雑音環境下における所望音声区間の検出
を可能とするものである.
第1図は本発明による音響信号検出方法の実施例を説明
するためのブロック図、第2図は唯一指向性マイクロホ
ンと無指向性マイクロホンとを用いた場合の問題点を説
明するための図、第3図は超指向性受f器を用いた場合
の問題点を説明するための図、第4図は第1図の第1の
受音器の具体例を示すブロック図、第5図は適応形アレ
ーの指向特性を示す図、第6図は無指向性マイクロホン
と適応形アレーを用いたときのパルス性懐音の受音信号
波形を示す波形図、第7図は第1図に示される実施例を
より具体的に示すブロック図、第8図は第7図に示され
る音声区間検出部の動作を説明するためのグラフ、第9
図は本発明の有効性を確かめた実験結果を示す図、第1
O図から第12図は本発明の他の実施例を示すブロック
図、第13図は従来の含声区間検出法の第1の例を示す
グラフ,第14図は従来の音声区間検出法の第2の例を
説明するためのマイクロホン設置例を示す図、第15図
は第2の従来法の理想的動作を説明するためのグラフ、
第16図はマイクロホンと雑音源との位置関係を示すグ
ラフ、第17図は第2の従来法の問題を説明するための
グラフ、第18図はマイクロホンと雑音源との位置関係
を示す図、第19図は従来の音声区間検出法の第3の例
を示すブロック図、第20図は第19図に示される第3
の例の問題点を説明するためのグラフである。 41.41・・・・受音器、43.44・・・・短時間
パワー計算部、45・・・・音声区間検出部、5■・・
・・マイクロホンアレー、52・・・指向性制御部、8
4.85・・・・判定部、86・・・・音声区間決定部
。
するためのブロック図、第2図は唯一指向性マイクロホ
ンと無指向性マイクロホンとを用いた場合の問題点を説
明するための図、第3図は超指向性受f器を用いた場合
の問題点を説明するための図、第4図は第1図の第1の
受音器の具体例を示すブロック図、第5図は適応形アレ
ーの指向特性を示す図、第6図は無指向性マイクロホン
と適応形アレーを用いたときのパルス性懐音の受音信号
波形を示す波形図、第7図は第1図に示される実施例を
より具体的に示すブロック図、第8図は第7図に示され
る音声区間検出部の動作を説明するためのグラフ、第9
図は本発明の有効性を確かめた実験結果を示す図、第1
O図から第12図は本発明の他の実施例を示すブロック
図、第13図は従来の含声区間検出法の第1の例を示す
グラフ,第14図は従来の音声区間検出法の第2の例を
説明するためのマイクロホン設置例を示す図、第15図
は第2の従来法の理想的動作を説明するためのグラフ、
第16図はマイクロホンと雑音源との位置関係を示すグ
ラフ、第17図は第2の従来法の問題を説明するための
グラフ、第18図はマイクロホンと雑音源との位置関係
を示す図、第19図は従来の音声区間検出法の第3の例
を示すブロック図、第20図は第19図に示される第3
の例の問題点を説明するためのグラフである。 41.41・・・・受音器、43.44・・・・短時間
パワー計算部、45・・・・音声区間検出部、5■・・
・・マイクロホンアレー、52・・・指向性制御部、8
4.85・・・・判定部、86・・・・音声区間決定部
。
Claims (9)
- (1)ほぼ同一の位置に設けられかつ目的信号および雑
音の電力比(SN比)がそれぞれ異なる信号を送出する
第1及び第2の受音器を使用し、ある時間区間における
これらの受音器から送出される前記信号の電力の差また
は比が、予め決められた範囲内である場合、この時間区
間に前記目的信号を受音したと判定するようにし、前記
第1の受音器は、雑音位置に応じて指向特性を制御でき
る適応形マイクロホンアレーであることを特徴とする音
響信号検出方法。 - (2)請求項1において、前記第1及び第2の受音器は
、指向特性の異なった受音器を使用することを特徴とす
る音響信号検出方法。 - (3)請求項1において、前記第1の受音器は、複数の
マイクロホン素子より構成されるマイクロホンアレーと
、その後段に配置された指向特性制御回路より構成され
ることを特徴とする音響信号検出方法。 - (4)請求項1において、ある時間区間における前記2
つの信号の電力の差または比が、予め決められた範囲内
であり、かつ、SN比の高い受音器から出力される信号
のある時間区間におけるの電力が、予め決められた範囲
内である場合、この時間区間に前記目的信号を受音した
と判定することを特徴とする音響信号検出方法。 - (5)請求項1において、前記第2の受音器もマイクロ
ホンアレーによって構成されていることを特徴とする音
響信号検出方法。 - (6)請求項1において、前記目的信号を受音したと判
定した時間区間が、音声の最小継続時間の予測値を越え
て継続した場合、この時間区間に前記目的信号を受音し
たと判定することを特徴とする音響信号検出方法。 - (7)請求項3において、前記第2の受音器は、前記第
1の受音器を構成するマイクロホンアレーの構成要素で
ある一つのマイクロホン素子を使用することを特徴とす
る音響信号検出方法。 - (8)請求項6において、前記第1の受音器は、複数の
マイクロホン素子より構成されるマイクロホンアレーと
、その後段に配置された指向性特性制御回路より構成さ
れ、前記第2の受音器は、前記第1の受音器を構成する
マイクロホンアレーを構成するマイクロホン素子のいく
つかを共有し、さらにこれらいくつかのマイクロホン素
子の出力を合成する手段を有することを特徴とする音響
信号検出方法。 - (9)ほぼ同一の位置に設けられかつ目的信号および雑
音の電力比(SN比)がそれぞれ異なる信号を送出する
第1および第2の受音器を使用し、ある時間区間におけ
るこれらの受音器から送出される前記信号の電力の差ま
たは比が、あらかじめ決められた範囲内である場合、こ
の時間区間に前記目的信号を受音したと判定するように
し、前記第1の受音器は、複数のマイクロホンが配置さ
れた指向性マイクロホンアレーと、各マイクロホンの出
力を受けて超指向性を合成する合成器と、こ合成器の出
力を受手所定の帯域成分を通過させ帯域選択フィルタに
よって構成されることを特とする音響信号検出方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2059641A JP2913105B2 (ja) | 1989-03-10 | 1990-03-09 | 音響信号検出方法 |
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1-58953 | 1989-03-10 | ||
| JP5895389 | 1989-03-10 | ||
| JP2059641A JP2913105B2 (ja) | 1989-03-10 | 1990-03-09 | 音響信号検出方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0327698A true JPH0327698A (ja) | 1991-02-06 |
| JP2913105B2 JP2913105B2 (ja) | 1999-06-28 |
Family
ID=26399975
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2059641A Expired - Fee Related JP2913105B2 (ja) | 1989-03-10 | 1990-03-09 | 音響信号検出方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2913105B2 (ja) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003515177A (ja) * | 1999-10-19 | 2003-04-22 | ソニー エレクトロニクス インク | 自然言語インターフェースコントロールシステム |
| JP2005309366A (ja) * | 2004-03-25 | 2005-11-04 | Nec Corp | 信号処理方法および信号処理装置 |
| JP2008304498A (ja) * | 2007-06-05 | 2008-12-18 | Yamaha Corp | 音声検出装置、音声会議システムおよび遠隔会議システム |
| WO2012086834A1 (ja) * | 2010-12-21 | 2012-06-28 | 日本電信電話株式会社 | 音声強調方法、装置、プログラム、記録媒体 |
| JP2012198289A (ja) * | 2011-03-18 | 2012-10-18 | Fujitsu Ltd | 音声誤検出判別装置、音声誤検出判別方法、およびプログラム |
| JP2014510452A (ja) * | 2011-02-10 | 2014-04-24 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ノイズ、エコーおよびロケーション外(out−of−location)信号の合成された抑制 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS57148413A (en) * | 1981-03-10 | 1982-09-13 | Matsushita Electric Ind Co Ltd | Sound absorbing device |
| JPS5974800A (ja) * | 1982-09-30 | 1984-04-27 | シユア・ブラザ−ズ・インコ−ポレイテツド | 音声装置 |
| JPS632500A (ja) * | 1986-06-20 | 1988-01-07 | Matsushita Electric Ind Co Ltd | 収音装置 |
-
1990
- 1990-03-09 JP JP2059641A patent/JP2913105B2/ja not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS57148413A (en) * | 1981-03-10 | 1982-09-13 | Matsushita Electric Ind Co Ltd | Sound absorbing device |
| JPS5974800A (ja) * | 1982-09-30 | 1984-04-27 | シユア・ブラザ−ズ・インコ−ポレイテツド | 音声装置 |
| JPS632500A (ja) * | 1986-06-20 | 1988-01-07 | Matsushita Electric Ind Co Ltd | 収音装置 |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003515177A (ja) * | 1999-10-19 | 2003-04-22 | ソニー エレクトロニクス インク | 自然言語インターフェースコントロールシステム |
| JP2005309366A (ja) * | 2004-03-25 | 2005-11-04 | Nec Corp | 信号処理方法および信号処理装置 |
| JP2008304498A (ja) * | 2007-06-05 | 2008-12-18 | Yamaha Corp | 音声検出装置、音声会議システムおよび遠隔会議システム |
| WO2012086834A1 (ja) * | 2010-12-21 | 2012-06-28 | 日本電信電話株式会社 | 音声強調方法、装置、プログラム、記録媒体 |
| JP5486694B2 (ja) * | 2010-12-21 | 2014-05-07 | 日本電信電話株式会社 | 音声強調方法、装置、プログラム、記録媒体 |
| JP2014510452A (ja) * | 2011-02-10 | 2014-04-24 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ノイズ、エコーおよびロケーション外(out−of−location)信号の合成された抑制 |
| JP2012198289A (ja) * | 2011-03-18 | 2012-10-18 | Fujitsu Ltd | 音声誤検出判別装置、音声誤検出判別方法、およびプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2913105B2 (ja) | 1999-06-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CA2011775C (en) | Method of detecting acoustic signal | |
| US8204248B2 (en) | Acoustic localization of a speaker | |
| US10395667B2 (en) | Correlation-based near-field detector | |
| JP5706513B2 (ja) | 空間オーディオプロセッサおよび音響入力信号に基づいて空間パラメータを提供する方法 | |
| US8996367B2 (en) | Sound processing apparatus, sound processing method and program | |
| EP2936830B1 (en) | Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates | |
| CN113810825A (zh) | 在存在强噪声干扰的情况下的鲁棒的扬声器定位系统和方法 | |
| KR102409536B1 (ko) | 오디오 디바이스에서 재생 관리를 위한 사건 검출 | |
| JP2009522942A (ja) | 発話改善のためにマイク間レベル差を用いるシステム及び方法 | |
| CN110169082B (zh) | 用于组合音频信号输出的方法和装置、及计算机可读介质 | |
| Sullivan et al. | Multi-microphone correlation-based processing for robust speech recognition | |
| JP6840302B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
| JPH11249693A (ja) | 収音装置 | |
| US20210136489A1 (en) | Audio capture using beamforming | |
| JPH0327698A (ja) | 音響信号検出方法 | |
| KR101073632B1 (ko) | 반향 환경에서의 영교차 기반 다음원 국지화 방법 및 장치 | |
| Adcock et al. | Practical issues in the use of a frequency‐domain delay estimator for microphone‐array applications | |
| US6633847B1 (en) | Voice activated circuit and radio using same | |
| Brutti et al. | A Phase-Based Time-Frequency Masking for Multi-Channel Speech Enhancement in Domestic Environments. | |
| CN108141694B (zh) | 音频设备中的回放管理的事件检测 | |
| JP3332144B2 (ja) | 目的音源領域検出方法およびその装置 | |
| US11483644B1 (en) | Filtering early reflections | |
| Park et al. | Statistical model-based voice activity detection using spatial cues and log energy for dual-channel noisy speech recognition | |
| Mavandadi et al. | Post Recognition Speech Localization | |
| Marquardt et al. | Deliverable 3.1 Multi-channel Acoustic Echo Cancellation, Acoustic Source Localization, and Beamforming Algorithms for Distant-Talking ASR and Surveillance |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |