JPH04152396A

JPH04152396A - 音声切り出し装置

Info

Publication number: JPH04152396A
Application number: JP2278393A
Authority: JP
Inventors: Shinichi Tsurufuji; 鶴藤　真一
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1990-10-16
Filing date: 1990-10-16
Publication date: 1992-05-26
Anticipated expiration: 2012-08-27
Also published as: JP2648014B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（イ）産業上の利用分野本発明は、音声が含まれる信号から、その音声が存在す
る時間領域を切゛り出す為の音声切り出し装置に関し、
特に音声認識システムに於ける認識音声のための音声切
り出し装置に関する。

（ロ）従来の技術一般の音声認識システムに於ては、音声を入力するため
のマイクには、音声の他に常に周囲雑音が入力されてし
まうので、この周囲雑音に含まれる音声の時間領域を正
確に検出する事が重要である。

例えば、バックグランドミュージック（’ＢＧＭ）が流
れているような事務所に於て、音声認識によって、例え
ばワードプロセッサへの入力を行う場合は、このＢＧＭ
が話者の音声と共にマイクに入力されるので、この入力
信号の内、どこがらどこまでの時間帯が音声領域である
かを正確に検出できなければ、音声認識は不可能である
。このことは、カーステレオなどの車載音響機器で音楽
や歌曲を再生中の自動車内で、自動車電装機器を音声認
識操作しようとする場合でも同様である。

従って、従来の音声認識システムでは、マイクに入力さ
れた信号のレベルを検出し、これが予じめ音声を発声す
る環境や条件から決定した特定の閾値以上になる時間帯
を音声の時間領域と見做して、この時間領域を切り出す
音声切り出し手法が一般に採用されている。

然し乍ら、上述の如き音声切り出し手法を用いた従来の
音声切り出し装置に於ては、そのレベル比較閾値を経験
的に得られた値に設定していたので、即ち、実際の雑音
のレベルの変化に適応できないので、音声切り出し処理
の精度を実用的なものとすることができなかった。

即ち、従来は、カーステレオが雑音源の場合、このカー
ステレオの音響出力端子から直接帯られる雑音信号にの
み基づいて、音声切り出しの比較閾値を設定していた。

この場合、通常は、この音響出力端子から得られる信号
レベルと実際に音声入力用マイクに入力されるカーステ
レオ音響のレベルとがどのような関係にあるかが考慮さ
れていないので、しかもこの関係がマイクの位置に依存
して変動する事が考慮されていないため、比較閾値を設
定するのに参照されるはずの雑音レベルを適切に検出で
きない不都合があった。

（ハ）発明が解決しようとする課題本発明は上述の従来の不都合に鑑みてなされたものであ
り、雑音源から直接抽出した雑音レベルを参照した音声
の切り出しの閾値を設定するに際して、音声入力用のマ
イクで拾うこの雑音レベルを考慮して、適切な閾値設定
を可能とした音声切り出し装置を提供するものである。

（ニ）課題を解決するための手段本発明の音声切り出し装置は、音声を入力するマイクと
、該マイクから入力された音声を分析する音声分析部と
、あらかじめ閾値が設定されている閾値メモリと、音声
分析部で分析された特徴パラメータと閾値メモリの閾値
とに基づいて音声を切り出す切り出し部と、雑音を入力
する音響入力部と、上記閾値メモリの閾値を学習設定す
る閾値学習部と、上記音声分析部で分析された分析結果
を上記切り出し部、又は上記閾値学習部のいずれかに伝
達することを指定する切り替え部を備えたものである。

（ホ）作用本発明の音声切り出し装置によれば、上記切り替え部が
上記閾値学習部に分析結果を伝達している時に、即ち、
上記切り替え部が上記切り出し部に伝達しない時に、閾
値学習部は上記音声分析部の音響信号と上記音響入力部
の音響信号との相対レベル比に基づいて、音声切り出し
のための閾値を設定する。

（へ）実施例第１図は本発明の音声の時間領域検出装置の構成の一実
施例を示すブロック図である。

同図に於て、ｌは音声を電気信号に変換するマイク、２
はマイクから入力された音声を分析して音声の特徴を表
すパラメータの抽出を行う音声分析部、３は音声分析部
２から得られる特徴パラメタの送出先を切り替え選択す
るスイッチＳの切り替え動作を制御する切り替え部、４
は雑音入力端子Ｎからの雑音信号の入力を行う音響入力
部である。

更に、５は上記スイッチＳの一方の切り替え端子につな
がり、音声分析部２からスイッチＳを介して得られる特
徴パラメータの時間系列の内、音声の時間領域を検出す
る（切り出す）処理を行う切り出し部、６は切り出し部
５に於て特徴パラメータの切り出し閾値を設定登録した
閾値メモリ、７は上記スイッチＳの他方の切り替え端子
につながり、該閾値メモリ６に設定登録すべき閾値を上
記音響入力部４から得られる雑音信号と上記スイッチＳ
を介して得られる特徴パラメータとに基づき（即ち、学
習して）、これを最適な値に決定すべく動作する閾値学
習部である。

斯して、上記切り出し部５で切り出された特徴パラメー
タ時間系列は、バクーン認識による音声認識処理に必要
な音声バタンとして用いられる。

第２図に本発明の音声の時間領域検出装置をオーディオ
機器の音声制御（音声認識による制御）に使用した場合
を示す。この場合の音響入力部４の詳細は第３図に示さ
れており、オーディオ機器のスピーカ出力３０がレベル
メータ用ＩＣ３１（レベルメータ内蔵のオーディオ機器
では、内蔵のＩＣが使用できる）に直接入力され、その
レベルがエンコーダ３２によりエンコードされている。

これら第１図乃至第３図に示した本発明の音声の時間領
域検出装置が特徴とする処は、マイク１から入力を行わ
ない場合に、その間にマイク１から入力される音声と音
響入力部４に入力される雑音レベルの関係を調べる点に
あり、これは閾値学習部７の動作に負うものである。

第４図に該閾値学習部７の詳細を示す。同図に於て、４
１はセレクト回路であり、音響入力部出力にレベルに応
じた閾値平均バッファを選択するものである。４２１〜
４２ｎは閾値平均バッファでレベル毎に音声分析部２で
分析された結果を貯えている。４３は平均演算部であり
、ａｍ平均バッファ４２ｎの値と音声分析部２での分析
結果を荷電平均し、閾値平均バッファ４２ｎに貯える。

４４は閾値決定部であり、閾値平均バッファ４２ｎの値
をもとに、閾値メモリ６に設定する。

以下に、実際の動作について説明する。

使用者は音声入力を行わない場合には、切り替え部３を
操作して、スイッチＳを音声入力不可の状態にセットす
る。即ち、スイッチＳが閾値学習部７に接続される。

このように、切り替え部３にて音声入力不可の状態にセ
ットされると、ａ値学習部７は、セレクト４１により閾
値平均バッファのうちの１つが選択される。

例えば、閾値平均バッファ４２２が選択されたとすると
、この閾値平均バッファ４２２の値が平均演算部４３へ
送られる。この平均演算部４３は、音声分析部２で分析
されたデータと閾値平均バッファ４２２の値の荷重平均
［最新の音響入力部のレベル２に対するマイク入力の平
均値コを例えば下記の式から求める。

ＡＶＥ２ＸＡｎ＋ＰＡＬＡＶＥ２ｎｅｗ　　＝Ａｎ＋１同様にして、対応のレベルの入力があった時に各平均値
バッファ４２１〜４２ｎの値が計算され、更新される。

この演算を切り替え部３のスイッチが音声入力可に変わ
るまで続ける。

このようにして、レベル毎に平均値を貯えておき、レベ
ル対応で閾値を決定できるようになすのである。

斯して、切り替え部３のスイッチが音声入力可に変わる
と、閾値決定部４４は、閾値平均バッファ４２１〜４２
ｎのいずれかの値を一定倍してその値を閾値メモリ６に
格納する。

次に、音声きり出し処理について説明する。マイク１か
ら入力された音声は、音声分析部２で分析され切り出し
部５に送られる。切り出し部５は音響入力部４からの入
力をもとに閾値メモリ６から閾値を呼び出し、分析結果
と比較しながら音声の切り出しのチエツクを行う。

以上のように実施すれば、音声入力を行う場合に既知雑
音源の位置とマイクの位置関係に依存されずに閾値の設
定が可能である。

設定方法は、この実施例で示したもののみならず、以下
のような方法も考えられる。

閾値平均バッファ４２１〜４２ｎの値の一定倍を閾値メ
モリに設定する代わりに、閾値学習部において基準レベ
ルとなるテーブルを持っておき、閾値平均バッファ４２
１〜４２ｎの値と最も近いテーブルの値を閾値メモリ６
に設定することも考えられる。

（ト）発明の効果本発明の音声切り出し装置によれば、切り出し処理をし
ていない時に、閾値学習部は上記音声分析部の音響信号
と上記音響入力部の音響信号との相対レベル比に基づい
て、音声切り出しのための閾値を設定できるので、雑音
下の音声切り出しにおいて事前の調整の必要なく適正な
閾値の設定が可能である。

【図面の簡単な説明】

第１図は本発明の音声切り出し装置を用いた音声認識シ
ステムの構成図、第２図は本発明にかかる音声認識シス
テムをオーディオの音声制御に用いる場合の構成図、第
３図は本発明装置の音響入力部の構成図、第４図は閾値
学習部の構成図である。（１）・・・マイク、（２）・・・音声分析部、（３）
・切り替え部、（４）・・・音響入力部、（５）・・・
切り出し部、（６）・・・閾値メモリ、（７）・・・閾
値学習部。

Claims

【特許請求の範囲】

（１）音声を入力するマイクと、該マイクから入力され
た音声を分析する音声分析部と、あらかじめ閾値が設定
されている閾値メモリと、音声分析部で分析された特徴
パラメータと閾値メモリの閾値とに基づいて音声を切り
出す切り出し部と、雑音を入力する音響入力部と、上記
閾値メモリの閾値を学習設定する閾値学習部と、上記音
声分析部で分析された分析結果を上記切り出し部、又は
上記閾値学習部のいずれかに伝達することを指定する切
り替え部を備え、上記切り替え部が上記閾値学習部に分析結果を伝達して
いる時に、上記閾値学習部は上記音声分析部と上記音響
入力部との各音響信号により音声切り出しのための閾値
設定を行うことを特徴とする音声切り出し装置。