JPH0327698A

JPH0327698A - 音響信号検出方法

Info

Publication number: JPH0327698A
Application number: JP2059641A
Authority: JP
Inventors: Yutaka Kaneda; 豊金田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1989-03-10
Filing date: 1990-03-09
Publication date: 1991-02-06
Anticipated expiration: 2014-06-28
Also published as: JP2913105B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、雑音と所望の音響信号が混在する信号に対し
て、所望の音響信号の存在する時間区間を検出する音響
検出方法に関する．［従来の技術］近年、音声認識装置の開発はめざましいものがあるが、
耐雑音性のある音声認識装置の開発は遅れている。その
理由は、雑音環境下で正しく音声区間検出（時間軸上で
音声が存在する時間区間を判定すること）を行うことが
難しいという点にある．ｊａ音区間を誤って音声と判定
した場合、雑音をむりやり何かの音韻と対応づけてしま
うため、正しい音声認識結果を得ることは不可能である
。

従って雑音下でも良好に動作する音声区間検出技術の開
発は大変重要なものと考えられている．第１３図は第１
の従来の音声区間検出法を説明する図である．同図は、
信号の短時間パワーの時間的変化を表すもので、縦軸は
マイクロホンから出力された信号の短時間パワーを、横
軸は時刻を表している．以下、本明細書では特に明記し
ない場合、「パワー」とＬｔ短時間パワーを表している
．信号には定常雑音１１（時間的にパワーがほぼ一定の
雑音：例えば、空調雑音や機器のファン雑音）、非定常
雑音１２（時間的にパワーが大きく変動する雑音：ＰＡ
えば、ドアの閉まる音や不要な音声）および（所望の）
音声１３が含まれている．定常雑音のパワーは事前に知
ることは可能であるが、非定常雑音のパワーは予測不可
能である．　第１の従来法は、信号のパワーの監視を続
け、そのパワーが、定常雑音のパワーに基づいて決定さ
れる閾値Ｔｈｌ　４より大きくなった時間区間を音声区
間と判定するものである。現在の音声認識装置の大半は
、この方法を用いて音声区間検出を行っている。

しかしこの方法では、第■３図に示す正しい音声区間１
６の検出も行えるが、パワーの大きい非定常雑音区間１
５も誤って音声区間と判定してしまうという大きな問題
点があった．この点を解決する第２の従来法は２個のマ
イクロホンを用いて、一方のマイクロホンは音声と周囲
雑音とのＳＮ比が大きく、他のマイクロホンはＳＮ比が
小さくなるように、即ち２つのマイクロホン出力にＳＮ
比の差が生じるように設置される．この事を実現するマ
イクロホンの具体的設置方法としては、第１４図（ａ）
に示すように第１のマイクロホン１は発声者３の近くに
、第２のマイクロホン２は発声者３から遠くの場所にそ
れぞれ設置する方法、あるいは第１４図（ｂ）示すよう
に第１のマイクロホン１は発声者３の正面に、第２のマ
イクロホン２は発声者３の側面にそれぞれ設置する方法
などが考えられる。これらの設置方法を行えば、第１の
マイクロホン１より出力される音声パワーは第２のマイ
クロホン２より出力される音声パワーより大きく一方、
電音は遠方で発生すると考えると、両マイクロホン１、
２の出力における雑音パワーはほぼ等しく、その結果、
２つのマイクロホン１、２の出力にＳＮ比の差が生じる
．第１５図は第２の従来法の理想的動作を説明する図で
、第１５図（ａ＞は第１のマイクロホン出力の短時間パ
ワーＰｌの時間的変化を、第１５図（ｂ）は第２のマイ
クロホン出力の短時間パワーＰ２の時間的変化を表し、
それぞれの図において、第１３図と同様に、１１は定常
雑音、１２は非定常雑音、１３は音声を表している。２
つのマイクロホンをＳＮ比の差が生じるように設置した
結果、短時間パワーＰ２における音声のパワーは、短時
間パワーｐｔにおける音声のパワーより小さくなり、一
方、雑音のパワーは両者において等しくなっている．第
２の従来法では、第１５図（Ｃ）に示すように、２つの
信号の短時間バワーＰ１とＰ２の差ＰＤ（ＰＤ＝Ｐ１−
Ｐ２）を計算し、このパワー差ＰＤが、記号１７で示す
ある閾値ｐｔｈより大きくなった時間区間１８を音声区
間と判定するものである．第１５図（Ｃ）より、第２の
従来法では、第１の従来法のようにパワーの大きな非定
常雑音１２の区間を誤って音声区間と判定する問題は生
じないことがわかる。

しかし、実際には、この第２の従来法が、このように理
想的に動作することはまれである．その理由は、２つの
信号のパワー差を利用して利用して音声区間検出を正し
く行うためには、以下の３つの条件が満足さている必要
がある．条件１：２つの信号にＳＮ比の差があること。

条件２：２つの信号における雑音区間および音声区間が
、ともに時間的に整合していること。

条件３：種々の環境条件の変動による上記ＳＮ比の差の
変動が小さいこと。（ＳＮ比の差の安定性）ところが、第２の従来法では上記第１の条件にのみ注目
し、第２および第３の条件を考慮していないため、以下
に述べる問題点が発生する．まず、第１の問題点につい
て説明する。第１６図は第１４図（ａ）に雑音源４を書
き加えたものである．この時、音声は第１のマイクロホ
ン１に先ず入力され、次に第２のマイクロホン２に入力
される。一方、雑音は第２のマイクロホン２に先ず入力
され、次に第１のマイクロホン１に入力される．従って
、２つのマイクロホンの出力信号において音声区間およ
び雑音区間は整合しない．この事を第１７図に示した．
第１７図（ａ）は第１のマイクロホン出力の短時間パワ
ーＰ１を、第１７図（ｂ）は第２のマイクロホン出力の
短時間バワーＰ２を、第１７図（Ｃ）はその短時間パワ
ーの差ＰＤをそれぞれ表している．また、１１は定常雑
音、１２は非定常雑音、１３は音声を表していることは
第１５図の例と同様である．第１７図（ａ）、（ｂ）に
おける音声と誰音のパワーの大きさの関係は、第１５図
（ａ）、（ｂ）におけるそれと同一である．しかし一第
１７図では、音声は第２のマイクロホンの出力において
、第１のマイクロホンの出力より記号３ｌで示す時間τ
Ｓだけ遅れたものとなっており，雑音は記号３２で示す
時間τＮだけ進んだものとなっている。

即ち、音声区間と雑音区間は、共に、時間的に整合して
いない．その結果、２つの信号のパワーの差ＰＤは第１
７図（ｃ）のように第１５図＜Ｃ）とは異なったものと
なり、記号ｌ７で示す閾値Ｐｔ．ｈ以上の区間を音声区
間を判定した場合には、第１７図（Ｃ）の記号３３に示
した区間が誤って音声区間と判定されてしまうという第
１の問題が生じる。この雑音区間の記号３２で示す時間
差τＮは、雑音源の位置により大きく変化するため、遅
延器などを用いて整合性を計ることは不可能である．次に、第２の問題として、実際の環境においては、２つ
のマイクロホン出力信号間のＳＮ比の差を変動させる種
々の要因が存在し、２つの信号間のＳＮ比の差の安定性
を確保することは難しいということを説明する．変動要因の第１としては、雑音源の位置がある．前述の
説明では、雑音源は遠方にあると仮定したが、雑音源が
比較的近い位置にある時には、雑音源の位置はＳＮ比の
差の大きな変動要因になる。

第１８図を用いてその例を示す。第１８図＜ａ）（ｂ）
において、前述した第１６図の例と同様に、ｌ、２はそ
れぞれ第１および第２のマイクロホン、３は発声者、４
は雑音源である．雑音源がこの２つの図に示す位置にあ
った場合には、音声のパワーと同様に、第１のマイクロ
ホン１の出力における雑音のパワーが第２のマイクロホ
ン２の出力の雑音のパワーより大きくなる．その結果、
２つのマイクロホン出力の間のＳＮ比の差は小さなもの
となる。

第２の変動要因としては、発声者の動きがある．例えば
、第１８図（ｂ）において発声者が４５゜右方向に首を
向けることによってと、音声は２つのマイクロホンにほ
ぼ同一のパワーで受音される．その結果、２つのマイク
ロホン１、２の出力において音声のパワー差は生じなく
なり、ＳＮ比の差は変動する．第３の変動要因としては、室内反射音の影響がある．２
つのマイクロホン１、２が、ＳＮ比が異なるように設置
された場合の多くにおいて、時間的構造および大きさの
異なる反射音が、各マイクロホンにおける雑音および音
声に付加され、その結果、ＳＮ比は時間的に大きく変動
する．さらにその他にも、電気的雑音、振動雑音など数
多くの変動要因が存在する。従って、これらのＳＮ比の
変動要因が存在する環境下で、安定したＳＮ比の差を確
保することはきわめて困難であり、第２の従来法が有効
に動作可能なマイクロホン設置方法を見いだすことは容
易ではない．このように、第２の従来法には重大な問題
点があり、実用的には十分な性能を発揮することはでき
ない。

次に、上記第２の従来法の問題点の解決をねらいとした
第３の従来法を第１９図を用いてこの方法を説明する．
第１９図において、前述した例と同様に、１は第１のマ
イクロホン、２は第２のマイクロホンである．また、２
ｌは短時間パワー計算部、２２は音声区間候補選択部、
２３、２４は音声区間候補における平均パワー計算部、
２５はパワー差検出部、２６は音声区間候補検定部であ
る．この方法において、第２の従来法と同様に、第１のマイ
クロホン１は、音声と周囲雑音とのＳＮ比が大きく、第
２のマイクロホン２は、前者のマイクロホン１に比べて
ＳＮ比が小さくなるように設置される．この方法におい
て、まず、第１のマイクロホンの出力信号の短時間パワ
ーを、短時間パワー計算部２１において計算する。次に
、音声区間候補検出部２２において、信号の短時間パワ
ーの監視を続け、そのパワーが、定常雑音のパワーに基
づいて決定される閾値Ｔｈより大きくなった時間区間を
音声区間候補として選択する．ここまでの動作は第１３
図に示した第１の従来法と全く同一である．従って、第
工３図の記号工５で示した雑音区間も音声区間候補とし
て選択されている。次に、平均パワー計算部２３、２４
において、この候補区間における第１のマイクロホン１
の出力の平均パワーおよび第２のマイクロホン２の出力
の平均パワーを算出する。次に、パワー差検出部２５に
おいて、各々の平均パワーの差ＰＤＬを求める。最後に
、音声区間候補検定部２６において、予め定めた閾値Ｐ
　ＤＬｔより大きい時にはその候補区間を音声区間と決
定し、小さい時にはその候補区間を棄却する。

この第３の従来法において特徴的なことは、短時間パワ
ーの差でなく、第１のマイクロホン１の出力において音
声区間候補として選んだ、比較的長時間区間内の平均パ
ワーの差を計算することである．従って、第１７図（ａ
）、（ｂ）のように、２つのマイクロホン出力において
、音声区間や雑音区間が時間的に整合していなくても、
また、２つの信号に時間的構造が異なった反射音が付加
されてＳＮ比の時間的変動があったとしても、その事が
平均パワーの差におよぼす影響は小さく、前記第２の従
来法の問題点は改善される。

［発明が解決しようとする課題］しかし、この方法では候補区間内の平均パワーにより音
声区間を決定しているために、雑音区間と音声区間が連
続的に存在する場合には誤った判定結果を生じる。第２
０図にそのような場合の例を示す。第２０図は、第１の
マイクロホンｌの出力を表しており、正しい音声区間は
図の３４の区間である。この図において、非定常雑音１
２と音声１３は時間的に近接しているため、短時間パワ
ーが記号１４で示す閾値Ｔｈを越える、雑音区間と音声
区間を一つにした区間３５が音声区間候補として選ばれ
てしまう。従って、平均パワーの差を求めた結果、この
候補区間が正しい音声区間と判定された場合には、第２
０図の記号３６に示した区間が誤判定区間となってしま
うし、また、この音声区間が棄却された場合には正しい
音声区間か非音声区間とみなされたことになって、いず
れの場合においても誤った判定結果となるという問題が
生じる．このことから、この第３の従来法は、第２の従来法の持
つ問題点を解決する手法となっていないことがわかる．このように、従来の音声区間検出法では上述した数々の
問題点があるため、非定常雑音が存在する場合に、正し
い音声区間の検出を行うことは困難であった．それ故、本発明の主目的は、従来より高い確率で、非定
常雑音環境下における音声区間を検出できる方法を提供
することにある。

また本発明の他の目的は、発生者の近く（マイクロホン
から発声者を見たとき±３０度の範囲）を除いた任意の
位置に雑音源があったとしても、音声区間の検出ができ
る方法を提供することにある．［課題を解決するための手段］このような課題を達成するために、本発明は、以下の用
件を必須とする。すなわち、前述したように、２つの信
号のパワー差を利用して音声区間検出を正しく行うため
には、以下の３つの条件が必要である．条件１：２つの信号にＳＮ比の差があること．条件２：
２つの信号における雑音区間および音声区間が、ともに
時間的に整合していること．条件３：種々の環境条件の
変動による上記ＳＮ比の差の変動が小さいこと．（ＳＮ比の差の安定性〉本発明の第１の特徴は、上記第１と第２の条件を同時に
満足させるために、同一の場所（厳密な意味での同一の
場所ではなく、本発明を有効に動作させるために、実質
的に同一と見なせる場所）にＳＮ比の異なる信号を発生
させる２つの受音器を設置し、その２つの出力信号のパ
ワー差を用いて音声区間の検出を行う点にある。また、
本発明の第２の特徴は、上記第３の条件を満足させるた
めに、上記２つの受音器のうちの１つは、指向性制御機
能を有したマイクロホンアレーシステムを用いる点にあ
る．［作用］本発明の第１の特徴によれば、雑音も音声も２つの受音
器には同一時刻に到達するので、２つの受音器出力信号
における雑音区間および音声区間はともに時間的に整合
している．従って、第２の従来法における第１の問題点
は解決される．また、２つの受音器が同一位置に設置さ
れていれば、各信号に付加される反射音の時間的ｔＲ造
も同一のものとなるため、前記第２の従来法における第
２の問題点として述べた２つの受音器出力にＳＮ比の差
の変動に及ぼす反射音の影響は大幅に軽減される。

次に、本発明の第２の特徴によれば、前記第２の従来法
における第２の問題点として述べた２つの受音器出力間
のＳＮ比の差の変動に及ぼす雑音源位置、および発声者
の移動の問題が改善できる．［実施例コ本発明の構成図を第１図に示した．第１図において、４
１はＳＮ比の高い信号を出力する第１の受音器（マイク
ロホンアレーシステム）で、複数のマイクロホン素子よ
り構成されるマイクロホンアレー５１と指向特性制御部
５２とより構成される。４２は第１の受音器出力のＳＮ
比に比べてＳＮ比の低い信号を出力する第２の受音器で
、この２つの受音器は同一の場所に設置されている。ま
た、４３、４４は短時間パワー計算部、４５は２つの信
号のパワー差に基づく音声区間検出部である。

さて、本発明の効果を説明するために、第１図の構成に
おける、第１の受音器４■として、マイクロホンアレー
システムの代わりに、単一指向性マイクロホンを、第２
の受音器４２として無指向性マイクロホンを用いた方法
を考える。そのようにすれば、発声者に指向性を向けた
第１の受音器の出力のＳＮ比は、指向性を有しない第２
の受音器の出力のＳＮ比より大きなものになる．しかし
、この方法は必ずしも良好に動作しない．このことを第
２図を用いて説明する。第２図において、６１は単一指
向性マイクロホンの、６２は無指向性マイクロホンの、
それぞれの指向性パターンを示しており、３は発声者、
６３、６４は雑ａ源の位置を表している．第２図（ａ）
．（ｂ）からわかるように、単一指向性マイクロホンは
発声者の方に向けた正面方向に対しては感度が高く、そ
の逆方向には感度が低い．無指向性マイクロホンは全て
の方向に同一の感度を持っている．従って、雄音源が第
２図（ａ）．（ｂ）の記号６３の位置にあれば、単一指
向性マイクロホンの出力のＳＮ比は無指向性マイクロホ
ンのＳＮ比より大変大きくなる．しかし、第２図（ａ）
．（ｂ）において、雑音源が例えば記号６４の位置にあ
る時（またはその位置に移動した時）には、単一指向性
マイクロホンの雑音に対する感度は高くなるため、単一
指向性マイクロホンの出力と無指向性マイクロホンの出
力のＳＮ比の差は小さくなってしまう。このように、単
一指向性マイクロホンを第１の受音器として用いる方法
では、雑音源の位置によりＳＮ比が大きく変動するとい
う問題点が発生する。

上記の単一指向性マイクロホンを使用した場合の問題点
；ま、第３図に示すような超指向性を持つ受音器を、第
１図の第１の受音器４１として用いれば解決するように
考えられるかもしれない。しかし、通常の超指向性受音
器の指向特性は周波数により異なっている．即ち、低周
波数域では第２図（ａ）の記号６１のような広がった指
向特性を持ち、高周波数域では第２図（ａ）に示したも
のよりさらに鋭い指向特性を持つ。その結果、低周波数
域の雑音に対しては、前述したように雑音源の位置によ
りＳＮ比が変動するという問題が、高周波数域において
は発声者の少しの移動でＳＮ比が変動するという問題が
発生する．以上説明したように、良好な音声区間検出結果を得るた
めには、第１図に示した本発明の構成における第１の受
音器４■として、良く知られている指向性受音器を代用
することは困難であることがわかる。

次に、指向性制御機能を持つマイクロホンアレーシステ
ムを用いる本発明では、雑音源の位置や、発声者の移動
に対してもＳＮ比の変動を小さく保つことができること
を説明する．指向性制御機能を持つマイクロホンアレーシステムの代
表例は適応形アレー（Ａｄａｐｊｉｖｅ　（ｍｉｃｒｏ
ｐｈｏｎｅ）　ａｒｒａｙ）と呼ばれている受音器であ
る。適応形アレーの一構成例を第４図に示す。第４図に
おいて、５ｌはマイクロホンアレーで、Ｍｇのマイクロ
ホン素子５６１〜５６ｌＩｌより構成される．５２は指
向性制御部で、各マイクロホン出力に接続されたフィル
タ５３１〜５３Ｍ、フィルタ出力の総和をとる加算器５
５およびフィルタ特性制御部５４より構成される。

フィルタ特性制御部５４には、各マイクロホン出力信号
および加算器５５の出力ｘｉが入力され、ｘｉに含まれ
る雑音戒分を小さくするようにフィルタ５３１〜５３ｌ
４の特性を制御する．次に、このフィルタ特性制御部５
４の動作原理を説明する．加算器５５の出力信号ｘｉは
、音声成分Ｓと雑音成分ｎとの和として、次式のように
表される。

Ｘｌ＝ｓ＋ｎ　　　　　　　（１）このとき、何の条件もつけずに雑音成分のバワーｎ２を
最少化するフィルタ特性を求めると、フィルタ５３１〜
５３Ｍが全てゲイン零のフィルタとなってしまう。その
結果雑音成分ｎは零となって最少になるが、音声成分Ｓ
も出力されないという意味のない結果となる。そこで、
フィルタ動作の結果として得られる信号ｘｉに含まれる
音声成分Ｓに対して、ある拘束条件を設定し、その条件
下でｘｉに含まれる雑音成分ｎを最少化するフィルタの
特性を求める。拘束条件の例としては、マイクロホン出
力信号（フィルタ入力信号）に含まれる音声成分をｓＯ
と表したとき、Ｓ＝ＳＯという拘束条件や、Ｉｓ−ｓｌ
２の平均値が予め定められた閾値以下とするという条件
などが知られている。

さて、Ｍ個のマイクロホン素子の出力をｕｌ〜ｕＭと表
し、フィルタ５３ｌ〜５３ｌＩ１の特性をｈｌ〜ｈｌ４
と表すと、信号ｘｌのパワーｘｌ２は、次のようになる
。

Ｍと表される。また、音声と雑音が互いに無相関であると
仮定すると、次式が成立する。

ｘｌ２＝ｓ２＋ｎ２　　　　　　　（３）（２）、（３
）式より、ｘｉに含まれる雑音成分のパワーｎ２はフィ
ルタ特性ｈｌ−ｈｌ４の２次関数となることがわかる．
従って、拘束条件のもとて雑音成分のパワーｎ２を最少
化するフィルタ制御の問題は、よく知られた拘束条件付
き２次関数の最少化の問題となる．各種の拘束条件に対する種々の解決、具体的アルゴリズ
ムについては、文献（”Ｉｎｔｒｏｄｕｃｔｉｏｎ　ｔ
．ｏＡｄａｐｔｉｖｅ　　Ａｒｒａｙｓ”Ｒ．Ａ．Ｍｏ
ｎｚｉｎｇｏ　ｅｆ．　ａｔ，ＪｏｈｎＷｉｌｅｙ　＆
　Ｓｏｎｓ，ＮＥＷ　ＹＯＲＫ，　１９８０　）や、米
国特許第４，５３６，８８７号に詳しく述べられている
．このように、Ｘ１に含まれる雑音成分を低減させるこ
とは、雑音の到来方向に対するこのアレーシステムの感
度を低減することに相当し、その結果、このアレーシス
テムは、目的方向に感度が高く、雑音源方向に感度の低
い指向特性を形成する。

第５図は、適応形アレーの形成する指向特性の一ＰＡ６
６を示す。第５図において、３はこれまでの実施例と同
様に発声者であり、６３、６４は雑音源である．第５図
からわかるように、適応形アレーは、鋭い指向特性は持
たないが、雑音源の方向に感度の低い指向特性を実現す
る．この指向特性の低感度の部分は「死角」と呼ばれ、
マイクロホンアレーがＭ個の素子より構成されている時
、アレーシステムはＭ−１個の死角を形戒することがで
きる。

このような指向特性を形成する適応形アレーは、室内で
反射された雑音が、雑音源以外の方向からも多数到来す
る場合には、超指向性受音器と比べて、得られるＳＮ比
は小さい。しかし、雑音源の位置によらず、ほぼ一定の
ＳＮ比を得ることができるという特徴、また、発声者３
の方向に鋭い指向性を持たないため、発声者３の移動に
よるＳＮ比の変動が少ないという特徴は、２つの信号の
パワー差を用いて音声区間検出を行う場合に必要なＳＮ
比の差の安定性を確保するために大変適した受音器であ
る。

加えて、適応形アレーには雑音パワーの時間的変動を小
さくするという特徴がある。このことを第６図（ａ），
（ｂ）を用いて説明する。一般に室内では雄音源の方向
以外からも壁・床・天井などで反射された雑音が受音器
に入射する．適応形アレーはそれら全ての雑音方向に死
角を形成することはできず、マイクロホンアレーがＭ個
のマイクロホン素子より構成される時には、直接音およ
びエネルギーの大きな反射音の入射する方向に最大Ｍト
個の死角を形成することによりＳＮ比を改善する。

この効果を第６図（ａ）．（ｂ）を用いて説明する。第
６図（ａ）は無指向性マイクロホンで受音した時のパル
ス性雑音、第６図（ｂ）は適応形アレーで受音した時の
パルス性雑音を信号を表す。

第６図（ａ）において７１は雑音源から直接受音した雑
音、７２、７３、７４は壁・床などで１回もしくは複数
回反射してから受音した雑音である。

直接音７１のエネルギーに比べて、反射音７２、７３、
７４のエネルギーは時間とともに指数関数的に減衰する
。アレーを構成するマイクロホン素子数を４とすると、
この適応形アレーは雑音源方向および７２、７３の反射
音の方向の３つの死角を形成する。従って、適応形アレ
ー出力第６図（ｂ）において７４で示した雑音の反射音
のパワーは無指向性マイクロホンで受音したものと大き
な差はないが、雑音の直接音および７２、７３の反射音
のパワーは大きく低下している。そしてその結果、雑音
のパワーの時間的変動が小さくなることがわかる．先に述べたように、音声区間の誤検出の犬きな要因は、
雑音のパワーの大きな時間的変動である．この時間的変
動に対処するために２つの信号のパワー差を利用した音
声区間検出を行うのであるが、種々のＳＮ比の変動要因
を完全に除去することは不可能であるため、誤検出を１
００％回避することはできない．従って、本発明におい
て用いられる雑音パワーの時間的変動を小さくする適応
形アレーの特徴は、音声区間の誤検出をより少なくする
ために大変効果を発揮する．第１図における本発明の構成例における第２の受音器４
２としては、マイクロホンアレー５１を横成するマイク
ロホン素子のうちの一つを用いるのが最も簡便な方法で
ある。この例は、後述する第７図に示される．また、第２の受音器は、第１０図に示すように、第１の
受音器４２のマイクロホンアレー５ｌのマイクロホンの
出力のいくつかを合戒器５２Ａに入力し、出力を得るこ
とにより、第２の信号ｘ２を得ることも可能である．指向性ｖＩ御機能を持つマイクロホンアレーシステムの
他の例としては、米国特許第７９１，４１８号に示され
ているような受音方式がある．この方式では、到来方向
の明確な音声信号を保存し、周囲一様から到来する雑音
を低減するような信号処理がなされている。この方式が
良好に動作するためには、発声者と雑音源の位置が一致
していないという条件（マイクロホンからみた方向は同
一でもよい〉が必要であり、所望の位置にある音源から
の音のみを抽出するという意味から指向性制御の一種と
見なせる。

第７図は、第１図に示される本発明の第一の実施例をよ
り具体的に説明する図である．同図において、５１はマ
イクロホンアレー、５２は指向特性ｆｉｌ御部、４３は
第一の短時間パワー計算部、４４は第二の短時間パワー
計算部、４５はパワー差に基づく音声区間検出部である
ことは、これまでの実施例と同様である。また、８１は
指向特性制御部５２の出力側に接続されて信号ｘ１を受
けかつ出力をパワー演計算４３に送出する第一の増幅器
、８２はマイクロホン４２（この例ではマイクロホンア
レ−５１を構成するマイクロホン素子のひとつを使用）
に接続されて信号ｘ２を受けかつ出力をパワー計算部４
４に送出する第二の増幅器、８３はパワー計算部４３、
４４の出力ｐｉ，ｐ２を受ける差分器、８４はパワー計
算部４３の出力ｐ１を受けかつ音声区間の一部をなして
いるという可能性のある短時間区間パワーに基づく判定
部、８５は差分器８３の出力を受けるパワーに基づく判
定部、８６は短時間パワーに基づく判定部８４の出力Ｓ
１とパワーに基づく判定部８５の出力Ｓ２とを受ける音
声区間候補検定部あるいは音声区間決定部である。

この方法を実行する手順は以下の通りである。

先ず、雑音の重畳した音声はマイクロホンアレー５Ｌに
より受音される。このマイクロホンアレー５１の田方信
号は指向性制御部５２に入力され、第１の信号ｘｉを発
生する。一方、マイクロホンアレー５１を構成する１つ
のマイクロホン素子の出力をｘ２とする。この時、指向
性制ｖ４部５２による指向性制御の結果、ｘｉにおける
ＳＮ比はＸ２におけるＳＮ比より大きいものとなってい
る．次に増幅器８１、８２を用いて信号ｘｉおよびｘ２
に含まれる音声のパワーが等しくなるように信号のレベ
ルを補正する．この操作は必須なものではないが、この
操作を行っておくと、後の説明が簡単化される。次に、
短時間パワー計算部４３、４４において、それぞれ、Ｘ
１およびｘ２の短時間バワーＰ１およびＰ２を計算し出
力する。この短時間パワーｐｔおよびＰ２は対数値（ｄ
Ｂ）または真数値で表されているものとする。

次にＳＮ比の高い信号のバワーＰ１をパワーに基づく判
定部８４に入力する。このパワーに基づく判定部８４に
おいては、Ｐ１の値があらかじめ定められた閏値Ｔｈよ
り大きい場合には、該当する短時間区間が音声区の一部
である可能性を示すために出力Ｓｔとして”１”を出力
し、そうでない場合には”０”を出力する。

次に、差分器８３においてｐｔとＰ２の差分ＰＤ　　（
ＰＤ　＝　　Ｐ２−ＰＬ＞を演算し、この差分ＰＤをパ
ワー差に基づく判定部８５に入力する。

このパワー差に基づく判定部８５においては、ＰＤの値
があらかじめ定められた閾値ｐｔｈより小さい場合には
、出力Ｓ２として”１”を出力し、そうでない場合には
′゛０”′を出力する。

最後に、上記パワーに基づく判定部８４の出力Ｓ１とパ
ワー差に基づく判定部８５の出力Ｓ２は音声区間決定部
８６に入力される。音声区間決定部８６では、Ｓ１およ
びＳ２の値がともに”１”である時、候補となった短時
間区間は正しい音声区間の一部をなすものと判定し、そ
れ以外の場合には雑音区間と判定した結果を出力する。

次に、上記パワー差に基づく音声区間検出部４５の動作
を第８図（ａ）、（ｂ）、（ｃ）を用いて説明する。第
８図（ａ）は、第１の受音器の出力におけるパワーＰＬ
の時間的変化を表し、第８図（ｂ）は第２の受音器の出
力におけるパワーＰ２の時間的変化を表し、第８図（Ｃ
）はＰ２とＰ１の差ＰＤ（ＰＤ＝．Ｐ２−Ｐ１）を表し
ている．それぞれの図において、縦軸は信号の短時間パ
ワーを、横軸は時刻を表している。また、１１は定常雑
音、１２１．１２２は非定常雑音、１３は音声を前述し
た例の説明と同様に表している。

ｐｔおよびＰ２に含まれる音声のパワーは、等しくなる
ように調整されているため、Ｐ２における定常雑音のパ
ワーが音声のパワーより多少小さいものであれば、対数
値でパワーを表示している第８図（ａ）、（ｂ）におい
て、音声区間のパワーはほぼ等しいものとなる。一方、
第２の受音器の出力は第１の受音器の出力よりＳＮ比が
小さいため、第８図（ｂ）における雑音のパワーは、第
８図（ａ）における雑音のパワーに比べて、ＳＮ比の差
に相当する分だけ大きくなっていることが示されている
。そして、その結果、第８図（Ｃ）に示したＰ２とｐｔ
のパワー差ＰＩ）の値は、音声区間においては零となり
、非音声区間では非零の値をとる．しかし、現実の環境丁では、前述したように種々のＳＮ
比の差の変動要因が存在するため、指向性制御機能を持
つマイクロホンアレーシステムを利用して変動要因の軽
減を図った本発明においても、ＰＤの値はこのような理
想的な値をとるとは限らない。例えば、予想を上回る範
囲の話者の移動は音声区間であってもＰＤの値を零より
大きな値とするし、また、音声と同一方向から到来する
雑音（例えば、発声者の舌うちや、発声者が紙をめくる
音等〉に対しては、それが比較的パワーの小さなもので
あったとしても、ＰＤの値はその雑音区間においては零
となってしまう．このような点を考慮して、本発明では、まず、パワーに
基づく判定部８４の動作として、第８図（ａ＞に示すよ
うに、閾値Ｔｈより小さい雉時間区間は非音声区間と判
定してしまう。その結果、例えば、記号１２２で示した
雑音が音声と同一方向から到来する雑音であって、その
雑音区間においてＰＤが小さなものであったとしてもこ
の雑音区間を音声区間と誤検出することはなく、有効性
の高い音声区間検出が実現されることがわかる。

第７図に示される音声区間決定部８６は、第１Ｌ図に示
されるように、パワーに基づく判定部８４からの出力ｓ
１をパワー差に基づく判定部８５からの出力Ｓ２がとも
に”１”であるときに、その短時間区間を音声区間と判
定する音声区間候補検定部８６ａの他にこの検定部が音
声区間と判した時間区間が音声の最小継続区間の予測値
を越えて継続した場合のみ、この時間区間を音声区間と
判定する区間検定部８６ｂを設けるようにしても良い。

本発明の有効性を確認するために、以下の実験を行った
．〈実験条件〉実験は残響時間が０．４秒の室内において行っｆ，：。

雑音としてはスビーカから妨害音声（ラジオのニュース
）を発生させた。所望音声としては単語音声（都市名〉
を用い、異なった妨害音声下で発声したｌ００単語を収
集した。発声者と雑音源の位置は受音器からみて４５度
離れた位置に設定した。受音器１としては、適応形アレ
ーの一つである、Ａ　Ｍ　Ｎ　Ｏ．Ｒ受音装置（参考文
献：　　Ｙ．Ｋａｎｅｄａａｎｄ　Ｊ．Ｏｈｇａ　”Ａ
ｄａｐｔ．ｉｖｅ　Ｍｉｃｒｏｐｈｏｎｅ−ａｒｒａｙ
　ＳｙｓｔＣｍｆｏｒ　Ｎｏｉｓｅ　Ｒｅｄｕｃｔｉｏ
ｎ　，　ｆＥＥＥ　’ｒｒａｎｓ．　ｏｎ　Ａｃｏｕｓ
ｔ．．，Ｓｐｅｅｃｈ，Ｓｉｇｎａｌ　　Ｐｒｏｃｅｓ
ｓｉｎｇ，ｖｏｌ−ＡＳＳＰ−３４，ＰＰ．１３９１−
１４００，　Ｄｅｃ．１９８６　）を用いた。Ａｌ４Ｎ
ＯＲ受ａ装置は、複数のマイクロホン素子より構成され
るマイクロホンアレーとディジタルフィルタを組み合わ
せて実現され、単一のマイクロホン素子に比べて、ｌＯ
〜１６　ｄＢ程度の高ＳＮ比受音が可能である．また、
受音器２としては、前記のマイクロホンアレーの構成要
素である■つのマイクロホン素子を用いた。短時間パワ
ーの算出は窓長３０　ｍｓで１０　ｍｓ毎に行った．パワーに基づく判定部８４における閾値Ｔｈは、各発声
を一定の長さ（ｌ秒〉で取り込み、その中での最大短時
間パワーと最小短時間パワーの差Ｐｌ４Ｍを求め、Ｔｈ
＝ＰＭＭ　Ｘ　Ｏ．５　、と定めた。

また、ＰＤの閾値ＰＬｈは８ｄＢ　　と設定した。

なお、音声区間の正解としては、無雑音時の音声に対し
て第１の従来法（パワーに基づく判定のみを用いる方法
）を適用して得られた区間を用いた。

（実験結果）以上の条件で、受音点での音声のＳＮ比を、受音器２の
出力において−５　ｄＢとなるように設定して、単語区
間の検出実験を行った。

第９図に実験結果の一例を示す。第９図（ａ）は雑音が
無い場合の音声パワーと音声区間の正解を示す．第９図
（ｂ）は妨害音声が付加された時の第２の受音器の出力
のバワーＰ２を示している。

第９図（Ｃ）は、妨害音声が付加された時の第１の受音
器（ＡＭＮＯＲ受音装置〉の出力のパワーＰＬ，および
選択された音声区間候補を示している。ハッチで示した
部分が、誤って検出された音声区間を示している。第９
図（ｂ）と（Ｃ）を比べた時、（ｂ）図にΔ印で示した
雑音のパワーの時間的変動が、適応形アレーの出力であ
る（Ｃ）図において小さなものになっていることがわか
る。

すなわち、パワーの時間的変化の鋭いピークが平坦なも
のになっている。

第９図（ｄ）は本発明の手法を適用した結果、単語区間
と判定した結果を矢印で表示している．なお、第９図（
ｃ），（ｄ）において検出された音声区間にはさまれる
２００■Ｓ以内の非音声区間は、単語区間の一部と見な
した。ハッチで示した部分は誤検出（音声区間を雑音区
間と判定した）した区間である。この図より、本発明の
方法は、ほぼ良好に動作を行っていることが確認できる
。

実験結果を定量的に評価するために、単語区間の始端お
よび終端における誤差が５０　Ｉｌｓ以内で検出できた
場合を正解とみなし、その正解率を求めた。ＳＮ比の高
いＡＭＮＯＨの出力に対して、現在の音声認識装置にお
いても、最も多く利用されている第１の従来法を適用し
た場合、正解率は４３？≦であった。これに対し、本発
明方式では、９６％の検出結果を得、その時の始・終端
の平均検出誤差は約２０ｆｆｉｓであった。この結果よ
り、本音声区間検出法の有効性が確認された。

また、例えば第２図（ａ）に示されるように、第１の受
音器として単一指向性マイクロホンを用いた場合には、
発声者とマイクロホンとを結ぶ直線し対して、マイクロ
ホンを中心に実質的に発声者方向９０度以内の範囲に雑
音源が存在した場合には、単語区間の正答率は１０％程
度であり、本発明が高精度な音響信号検出方式であるこ
とが確認された．なお、本発明では発声者とマイクロホ
ンとを結ぶ直線に対して±３０゜の範囲を除いて前述し
た±９６％の検定結果が得られている。

若干の性能劣化が許容できる応用には、いわゆる超指向
性受音器と選択フィルタより構成される受音器も、本発
明の第１の受音器として適用が可能である．第１２図に
その構成例を示す。第１２図において５１はマイクロホ
ンアレー、９１は超指向性を実現するための加算器、９
２は処理フィルタである．府述したように、超指向性受
音器を用いた場合には低周波域、高周波域においてＳＮ
比の変動が大きくなるため、この処理フィルタは発声者
の移動が予思される範囲において感度が高く、その範囲
外では感度の低い帯域のみを抽出することにより、この
問題点の改善を行うものである。この方式の問題点はＳ
Ｎ比の変動の少ない周波数帯域が必ずしも音声をエネル
ギーの大きな帯域とは一致しないため、第１の受音器の
出力のＳＮ比が低下し、音声区間候補に置ける誤選択が
増加する点にある．一方、この方式の利点は、系構成が
単純であるという点にある。

本発明においては、音声信号固有の性質を全く利用して
いない．しかし、音声区間検出を行うためには、音声信
号の性質を利用した判定法を本発明と組み合わせて使用
することは大変有効である。

実際、第１の従来法はそれ単独で使用されることはなく
、音声信号の性質を利用した判定法と組み合わせて使用
するのが通常である。たとえば、き声信号の最小継続時
間の予測値Ｔｃを利用して、Ｔｃより短い音声区間の候
補は雑音と判定する方法が知られている．この判定法を
組み合わせて、パルス性雑音の影響を除去することは、
音声区間検出において大変有効な方式である。また、音
声信号の周期性を利用して、信号が非周期性である区間
は非音声であると判定する方法など、その他にも数多く
の判定方が知られている．これら従来の方法は、本発明
で音声区間と判定した区間を入力として、その区間の再
判定を行う、または、本発明を含めた複数の判定を行っ
た結果の多数決により音声区間の最終決定を行うなどの
方法により、簡単に本発明と組み合わせて使用すること
ができるこのように、本発明は、従来知られている多くの音声区
間検出法と組み合わせることが可能であり、その結果、
使用目的に応じて、検出性能の大きな向上を実現するこ
とも可能である．さて、本発明の第一の応用分野゛とし
ては、以上で説明してきたように音声認識装置への適用
がある。第二の応用分野としては、音饗エコーキャンセ
ラがある．音響エコーキャンセラとは、例えば、拡声電
話系などにおいて、受話スビ一カからの音が送話マイク
ロホンに回り込んで受音され、その結果ハウリング等の
問題を生じる事を防ぐための技術である．音響エコーキ
ャンセラの原理は、受話スビーカから送話マイクロホン
までの音響伝達特性を推定し、その推定結果に基づいて
送話マイクロホンで受音された信号から受話スビーカか
らの音の成分を差し引くというものである。この受話ス
ビーカから送話マイクロホンまでの伝達特性は時刻と共
に変化するため、推定を継続的に行う必要があるが、そ
の推定を行う時には送話者は発声していないという条件
（さもないと、大きな推定誤差が発生する）が必要であ
る。しかし、送話者の発声の有無の判定は必ずしもうま
くは行われず、そのことが、この技術の現在の課題の一
つとなっている。

この問題に対して、送話者の音声を目的音声、受話スビ
ーカからの音声を不要音声と考えて本発明を適用し、あ
る時間区間に目的音声が存在するとｐ１定した時刻には
送話者が発声しているものとみなして、上記伝達特性の
推定動作を停止することを行えば、上記課題を解決した
、高性能な音響エコーキャンセラの実現が可能となる。

第三の応用分野としては、音声蓄積技術への応用がある
。例えば、大量の連続発声音声をディジタル化し、磁気
ディスクなどに記録しようとする場合、音声符号化によ
る情報圧縮技術も重要であるが、非音声区間を検出して
その区間を切り捨てたり，またはその区間を特に低い情
報量で記録することも大変重要な技術である．本発明は
そのような技術における非音声区間の検出に適用可能で
ある．さらに、本発明方式は音声信号固有の性質を利用してい
ないため、検出対象とする音としては、音声以外の任意
の音〈例えば音楽、機械音、衝撃音など〉を選ぶことが
可能である．そして、その結果、本発明方式は各種監視
装置、計測装置、などを始めとした、様々な応用形態が
考えられる．［発明の効果コ以上説明したように、本発明の方法は同一の場所に設置
された第１の受音器（指向性制ｍ機能を持つマイクロホ
ンアレーシステム）および第２の受音器によって受音さ
れた信号の間の短時間パワーの差を利用して所望の信号
の存在を判定するため、従来のこの種方式では不可能で
あった、非定常雑音環境下における所望音声区間の検出
を可能とするものである．

【図面の簡単な説明】

第１図は本発明による音響信号検出方法の実施例を説明
するためのブロック図、第２図は唯一指向性マイクロホ
ンと無指向性マイクロホンとを用いた場合の問題点を説
明するための図、第３図は超指向性受ｆ器を用いた場合
の問題点を説明するための図、第４図は第１図の第１の
受音器の具体例を示すブロック図、第５図は適応形アレ
ーの指向特性を示す図、第６図は無指向性マイクロホン
と適応形アレーを用いたときのパルス性懐音の受音信号
波形を示す波形図、第７図は第１図に示される実施例を
より具体的に示すブロック図、第８図は第７図に示され
る音声区間検出部の動作を説明するためのグラフ、第９
図は本発明の有効性を確かめた実験結果を示す図、第１
Ｏ図から第１２図は本発明の他の実施例を示すブロック
図、第１３図は従来の含声区間検出法の第１の例を示す
グラフ，第１４図は従来の音声区間検出法の第２の例を
説明するためのマイクロホン設置例を示す図、第１５図
は第２の従来法の理想的動作を説明するためのグラフ、
第１６図はマイクロホンと雑音源との位置関係を示すグ
ラフ、第１７図は第２の従来法の問題を説明するための
グラフ、第１８図はマイクロホンと雑音源との位置関係
を示す図、第１９図は従来の音声区間検出法の第３の例
を示すブロック図、第２０図は第１９図に示される第３
の例の問題点を説明するためのグラフである。４１．４１・・・・受音器、４３．４４・・・・短時間
パワー計算部、４５・・・・音声区間検出部、５■・・
・・マイクロホンアレー、５２・・・指向性制御部、８
４．８５・・・・判定部、８６・・・・音声区間決定部
。

Claims

【特許請求の範囲】

（１）ほぼ同一の位置に設けられかつ目的信号および雑
音の電力比（ＳＮ比）がそれぞれ異なる信号を送出する
第１及び第２の受音器を使用し、ある時間区間における
これらの受音器から送出される前記信号の電力の差また
は比が、予め決められた範囲内である場合、この時間区
間に前記目的信号を受音したと判定するようにし、前記
第１の受音器は、雑音位置に応じて指向特性を制御でき
る適応形マイクロホンアレーであることを特徴とする音
響信号検出方法。
（２）請求項１において、前記第１及び第２の受音器は
、指向特性の異なった受音器を使用することを特徴とす
る音響信号検出方法。
（３）請求項１において、前記第１の受音器は、複数の
マイクロホン素子より構成されるマイクロホンアレーと
、その後段に配置された指向特性制御回路より構成され
ることを特徴とする音響信号検出方法。
（４）請求項１において、ある時間区間における前記２
つの信号の電力の差または比が、予め決められた範囲内
であり、かつ、ＳＮ比の高い受音器から出力される信号
のある時間区間におけるの電力が、予め決められた範囲
内である場合、この時間区間に前記目的信号を受音した
と判定することを特徴とする音響信号検出方法。
（５）請求項１において、前記第２の受音器もマイクロ
ホンアレーによって構成されていることを特徴とする音
響信号検出方法。
（６）請求項１において、前記目的信号を受音したと判
定した時間区間が、音声の最小継続時間の予測値を越え
て継続した場合、この時間区間に前記目的信号を受音し
たと判定することを特徴とする音響信号検出方法。
（７）請求項３において、前記第２の受音器は、前記第
１の受音器を構成するマイクロホンアレーの構成要素で
ある一つのマイクロホン素子を使用することを特徴とす
る音響信号検出方法。
（８）請求項６において、前記第１の受音器は、複数の
マイクロホン素子より構成されるマイクロホンアレーと
、その後段に配置された指向性特性制御回路より構成さ
れ、前記第２の受音器は、前記第１の受音器を構成する
マイクロホンアレーを構成するマイクロホン素子のいく
つかを共有し、さらにこれらいくつかのマイクロホン素
子の出力を合成する手段を有することを特徴とする音響
信号検出方法。
（９）ほぼ同一の位置に設けられかつ目的信号および雑
音の電力比（ＳＮ比）がそれぞれ異なる信号を送出する
第１および第２の受音器を使用し、ある時間区間におけ
るこれらの受音器から送出される前記信号の電力の差ま
たは比が、あらかじめ決められた範囲内である場合、こ
の時間区間に前記目的信号を受音したと判定するように
し、前記第１の受音器は、複数のマイクロホンが配置さ
れた指向性マイクロホンアレーと、各マイクロホンの出
力を受けて超指向性を合成する合成器と、こ合成器の出
力を受手所定の帯域成分を通過させ帯域選択フィルタに
よって構成されることを特とする音響信号検出方法。