JPH04152396A - 音声切り出し装置 - Google Patents
音声切り出し装置Info
- Publication number
- JPH04152396A JPH04152396A JP2278393A JP27839390A JPH04152396A JP H04152396 A JPH04152396 A JP H04152396A JP 2278393 A JP2278393 A JP 2278393A JP 27839390 A JP27839390 A JP 27839390A JP H04152396 A JPH04152396 A JP H04152396A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- threshold
- section
- audio
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 claims description 23
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000003909 pattern recognition Methods 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 17
- 239000000872 buffer Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(イ)産業上の利用分野
本発明は、音声が含まれる信号から、その音声が存在す
る時間領域を切゛り出す為の音声切り出し装置に関し、
特に音声認識システムに於ける認識音声のための音声切
り出し装置に関する。
る時間領域を切゛り出す為の音声切り出し装置に関し、
特に音声認識システムに於ける認識音声のための音声切
り出し装置に関する。
(ロ)従来の技術
一般の音声認識システムに於ては、音声を入力するため
のマイクには、音声の他に常に周囲雑音が入力されてし
まうので、この周囲雑音に含まれる音声の時間領域を正
確に検出する事が重要である。
のマイクには、音声の他に常に周囲雑音が入力されてし
まうので、この周囲雑音に含まれる音声の時間領域を正
確に検出する事が重要である。
例えば、バックグランドミュージック(’BGM)が流
れているような事務所に於て、音声認識によって、例え
ばワードプロセッサへの入力を行う場合は、このBGM
が話者の音声と共にマイクに入力されるので、この入力
信号の内、どこがらどこまでの時間帯が音声領域である
かを正確に検出できなければ、音声認識は不可能である
。このことは、カーステレオなどの車載音響機器で音楽
や歌曲を再生中の自動車内で、自動車電装機器を音声認
識操作しようとする場合でも同様である。
れているような事務所に於て、音声認識によって、例え
ばワードプロセッサへの入力を行う場合は、このBGM
が話者の音声と共にマイクに入力されるので、この入力
信号の内、どこがらどこまでの時間帯が音声領域である
かを正確に検出できなければ、音声認識は不可能である
。このことは、カーステレオなどの車載音響機器で音楽
や歌曲を再生中の自動車内で、自動車電装機器を音声認
識操作しようとする場合でも同様である。
従って、従来の音声認識システムでは、マイクに入力さ
れた信号のレベルを検出し、これが予じめ音声を発声す
る環境や条件から決定した特定の閾値以上になる時間帯
を音声の時間領域と見做して、この時間領域を切り出す
音声切り出し手法が一般に採用されている。
れた信号のレベルを検出し、これが予じめ音声を発声す
る環境や条件から決定した特定の閾値以上になる時間帯
を音声の時間領域と見做して、この時間領域を切り出す
音声切り出し手法が一般に採用されている。
然し乍ら、上述の如き音声切り出し手法を用いた従来の
音声切り出し装置に於ては、そのレベル比較閾値を経験
的に得られた値に設定していたので、即ち、実際の雑音
のレベルの変化に適応できないので、音声切り出し処理
の精度を実用的なものとすることができなかった。
音声切り出し装置に於ては、そのレベル比較閾値を経験
的に得られた値に設定していたので、即ち、実際の雑音
のレベルの変化に適応できないので、音声切り出し処理
の精度を実用的なものとすることができなかった。
即ち、従来は、カーステレオが雑音源の場合、このカー
ステレオの音響出力端子から直接帯られる雑音信号にの
み基づいて、音声切り出しの比較閾値を設定していた。
ステレオの音響出力端子から直接帯られる雑音信号にの
み基づいて、音声切り出しの比較閾値を設定していた。
この場合、通常は、この音響出力端子から得られる信号
レベルと実際に音声入力用マイクに入力されるカーステ
レオ音響のレベルとがどのような関係にあるかが考慮さ
れていないので、しかもこの関係がマイクの位置に依存
して変動する事が考慮されていないため、比較閾値を設
定するのに参照されるはずの雑音レベルを適切に検出で
きない不都合があった。
レベルと実際に音声入力用マイクに入力されるカーステ
レオ音響のレベルとがどのような関係にあるかが考慮さ
れていないので、しかもこの関係がマイクの位置に依存
して変動する事が考慮されていないため、比較閾値を設
定するのに参照されるはずの雑音レベルを適切に検出で
きない不都合があった。
(ハ)発明が解決しようとする課題
本発明は上述の従来の不都合に鑑みてなされたものであ
り、雑音源から直接抽出した雑音レベルを参照した音声
の切り出しの閾値を設定するに際して、音声入力用のマ
イクで拾うこの雑音レベルを考慮して、適切な閾値設定
を可能とした音声切り出し装置を提供するものである。
り、雑音源から直接抽出した雑音レベルを参照した音声
の切り出しの閾値を設定するに際して、音声入力用のマ
イクで拾うこの雑音レベルを考慮して、適切な閾値設定
を可能とした音声切り出し装置を提供するものである。
(ニ)課題を解決するための手段
本発明の音声切り出し装置は、音声を入力するマイクと
、該マイクから入力された音声を分析する音声分析部と
、あらかじめ閾値が設定されている閾値メモリと、音声
分析部で分析された特徴パラメータと閾値メモリの閾値
とに基づいて音声を切り出す切り出し部と、雑音を入力
する音響入力部と、上記閾値メモリの閾値を学習設定す
る閾値学習部と、上記音声分析部で分析された分析結果
を上記切り出し部、又は上記閾値学習部のいずれかに伝
達することを指定する切り替え部を備えたものである。
、該マイクから入力された音声を分析する音声分析部と
、あらかじめ閾値が設定されている閾値メモリと、音声
分析部で分析された特徴パラメータと閾値メモリの閾値
とに基づいて音声を切り出す切り出し部と、雑音を入力
する音響入力部と、上記閾値メモリの閾値を学習設定す
る閾値学習部と、上記音声分析部で分析された分析結果
を上記切り出し部、又は上記閾値学習部のいずれかに伝
達することを指定する切り替え部を備えたものである。
(ホ)作用
本発明の音声切り出し装置によれば、上記切り替え部が
上記閾値学習部に分析結果を伝達している時に、即ち、
上記切り替え部が上記切り出し部に伝達しない時に、閾
値学習部は上記音声分析部の音響信号と上記音響入力部
の音響信号との相対レベル比に基づいて、音声切り出し
のための閾値を設定する。
上記閾値学習部に分析結果を伝達している時に、即ち、
上記切り替え部が上記切り出し部に伝達しない時に、閾
値学習部は上記音声分析部の音響信号と上記音響入力部
の音響信号との相対レベル比に基づいて、音声切り出し
のための閾値を設定する。
(へ)実施例
第1図は本発明の音声の時間領域検出装置の構成の一実
施例を示すブロック図である。
施例を示すブロック図である。
同図に於て、lは音声を電気信号に変換するマイク、2
はマイクから入力された音声を分析して音声の特徴を表
すパラメータの抽出を行う音声分析部、3は音声分析部
2から得られる特徴パラメタの送出先を切り替え選択す
るスイッチSの切り替え動作を制御する切り替え部、4
は雑音入力端子Nからの雑音信号の入力を行う音響入力
部である。
はマイクから入力された音声を分析して音声の特徴を表
すパラメータの抽出を行う音声分析部、3は音声分析部
2から得られる特徴パラメタの送出先を切り替え選択す
るスイッチSの切り替え動作を制御する切り替え部、4
は雑音入力端子Nからの雑音信号の入力を行う音響入力
部である。
更に、5は上記スイッチSの一方の切り替え端子につな
がり、音声分析部2からスイッチSを介して得られる特
徴パラメータの時間系列の内、音声の時間領域を検出す
る(切り出す)処理を行う切り出し部、6は切り出し部
5に於て特徴パラメータの切り出し閾値を設定登録した
閾値メモリ、7は上記スイッチSの他方の切り替え端子
につながり、該閾値メモリ6に設定登録すべき閾値を上
記音響入力部4から得られる雑音信号と上記スイッチS
を介して得られる特徴パラメータとに基づき(即ち、学
習して)、これを最適な値に決定すべく動作する閾値学
習部である。
がり、音声分析部2からスイッチSを介して得られる特
徴パラメータの時間系列の内、音声の時間領域を検出す
る(切り出す)処理を行う切り出し部、6は切り出し部
5に於て特徴パラメータの切り出し閾値を設定登録した
閾値メモリ、7は上記スイッチSの他方の切り替え端子
につながり、該閾値メモリ6に設定登録すべき閾値を上
記音響入力部4から得られる雑音信号と上記スイッチS
を介して得られる特徴パラメータとに基づき(即ち、学
習して)、これを最適な値に決定すべく動作する閾値学
習部である。
斯して、上記切り出し部5で切り出された特徴パラメー
タ時間系列は、バクーン認識による音声認識処理に必要
な音声バタンとして用いられる。
タ時間系列は、バクーン認識による音声認識処理に必要
な音声バタンとして用いられる。
第2図に本発明の音声の時間領域検出装置をオーディオ
機器の音声制御(音声認識による制御)に使用した場合
を示す。この場合の音響入力部4の詳細は第3図に示さ
れており、オーディオ機器のスピーカ出力30がレベル
メータ用IC31(レベルメータ内蔵のオーディオ機器
では、内蔵のICが使用できる)に直接入力され、その
レベルがエンコーダ32によりエンコードされている。
機器の音声制御(音声認識による制御)に使用した場合
を示す。この場合の音響入力部4の詳細は第3図に示さ
れており、オーディオ機器のスピーカ出力30がレベル
メータ用IC31(レベルメータ内蔵のオーディオ機器
では、内蔵のICが使用できる)に直接入力され、その
レベルがエンコーダ32によりエンコードされている。
これら第1図乃至第3図に示した本発明の音声の時間領
域検出装置が特徴とする処は、マイク1から入力を行わ
ない場合に、その間にマイク1から入力される音声と音
響入力部4に入力される雑音レベルの関係を調べる点に
あり、これは閾値学習部7の動作に負うものである。
域検出装置が特徴とする処は、マイク1から入力を行わ
ない場合に、その間にマイク1から入力される音声と音
響入力部4に入力される雑音レベルの関係を調べる点に
あり、これは閾値学習部7の動作に負うものである。
第4図に該閾値学習部7の詳細を示す。同図に於て、4
1はセレクト回路であり、音響入力部出力にレベルに応
じた閾値平均バッファを選択するものである。421〜
42nは閾値平均バッファでレベル毎に音声分析部2で
分析された結果を貯えている。43は平均演算部であり
、am平均バッファ42nの値と音声分析部2での分析
結果を荷電平均し、閾値平均バッファ42nに貯える。
1はセレクト回路であり、音響入力部出力にレベルに応
じた閾値平均バッファを選択するものである。421〜
42nは閾値平均バッファでレベル毎に音声分析部2で
分析された結果を貯えている。43は平均演算部であり
、am平均バッファ42nの値と音声分析部2での分析
結果を荷電平均し、閾値平均バッファ42nに貯える。
44は閾値決定部であり、閾値平均バッファ42nの値
をもとに、閾値メモリ6に設定する。
をもとに、閾値メモリ6に設定する。
以下に、実際の動作について説明する。
使用者は音声入力を行わない場合には、切り替え部3を
操作して、スイッチSを音声入力不可の状態にセットす
る。即ち、スイッチSが閾値学習部7に接続される。
操作して、スイッチSを音声入力不可の状態にセットす
る。即ち、スイッチSが閾値学習部7に接続される。
このように、切り替え部3にて音声入力不可の状態にセ
ットされると、a値学習部7は、セレクト41により閾
値平均バッファのうちの1つが選択される。
ットされると、a値学習部7は、セレクト41により閾
値平均バッファのうちの1つが選択される。
例えば、閾値平均バッファ422が選択されたとすると
、この閾値平均バッファ422の値が平均演算部43へ
送られる。この平均演算部43は、音声分析部2で分析
されたデータと閾値平均バッファ422の値の荷重平均
[最新の音響入力部のレベル2に対するマイク入力の平
均値コを例えば下記の式から求める。
、この閾値平均バッファ422の値が平均演算部43へ
送られる。この平均演算部43は、音声分析部2で分析
されたデータと閾値平均バッファ422の値の荷重平均
[最新の音響入力部のレベル2に対するマイク入力の平
均値コを例えば下記の式から求める。
AVE2XAn+PAL
AVE2new =
An+1
同様にして、対応のレベルの入力があった時に各平均値
バッファ421〜42nの値が計算され、更新される。
バッファ421〜42nの値が計算され、更新される。
この演算を切り替え部3のスイッチが音声入力可に変わ
るまで続ける。
るまで続ける。
このようにして、レベル毎に平均値を貯えておき、レベ
ル対応で閾値を決定できるようになすのである。
ル対応で閾値を決定できるようになすのである。
斯して、切り替え部3のスイッチが音声入力可に変わる
と、閾値決定部44は、閾値平均バッファ421〜42
nのいずれかの値を一定倍してその値を閾値メモリ6に
格納する。
と、閾値決定部44は、閾値平均バッファ421〜42
nのいずれかの値を一定倍してその値を閾値メモリ6に
格納する。
次に、音声きり出し処理について説明する。マイク1か
ら入力された音声は、音声分析部2で分析され切り出し
部5に送られる。切り出し部5は音響入力部4からの入
力をもとに閾値メモリ6から閾値を呼び出し、分析結果
と比較しながら音声の切り出しのチエツクを行う。
ら入力された音声は、音声分析部2で分析され切り出し
部5に送られる。切り出し部5は音響入力部4からの入
力をもとに閾値メモリ6から閾値を呼び出し、分析結果
と比較しながら音声の切り出しのチエツクを行う。
以上のように実施すれば、音声入力を行う場合に既知雑
音源の位置とマイクの位置関係に依存されずに閾値の設
定が可能である。
音源の位置とマイクの位置関係に依存されずに閾値の設
定が可能である。
設定方法は、この実施例で示したもののみならず、以下
のような方法も考えられる。
のような方法も考えられる。
閾値平均バッファ421〜42nの値の一定倍を閾値メ
モリに設定する代わりに、閾値学習部において基準レベ
ルとなるテーブルを持っておき、閾値平均バッファ42
1〜42nの値と最も近いテーブルの値を閾値メモリ6
に設定することも考えられる。
モリに設定する代わりに、閾値学習部において基準レベ
ルとなるテーブルを持っておき、閾値平均バッファ42
1〜42nの値と最も近いテーブルの値を閾値メモリ6
に設定することも考えられる。
(ト)発明の効果
本発明の音声切り出し装置によれば、切り出し処理をし
ていない時に、閾値学習部は上記音声分析部の音響信号
と上記音響入力部の音響信号との相対レベル比に基づい
て、音声切り出しのための閾値を設定できるので、雑音
下の音声切り出しにおいて事前の調整の必要なく適正な
閾値の設定が可能である。
ていない時に、閾値学習部は上記音声分析部の音響信号
と上記音響入力部の音響信号との相対レベル比に基づい
て、音声切り出しのための閾値を設定できるので、雑音
下の音声切り出しにおいて事前の調整の必要なく適正な
閾値の設定が可能である。
第1図は本発明の音声切り出し装置を用いた音声認識シ
ステムの構成図、第2図は本発明にかかる音声認識シス
テムをオーディオの音声制御に用いる場合の構成図、第
3図は本発明装置の音響入力部の構成図、第4図は閾値
学習部の構成図である。 (1)・・・マイク、(2)・・・音声分析部、(3)
・切り替え部、(4)・・・音響入力部、(5)・・・
切り出し部、(6)・・・閾値メモリ、(7)・・・閾
値学習部。
ステムの構成図、第2図は本発明にかかる音声認識シス
テムをオーディオの音声制御に用いる場合の構成図、第
3図は本発明装置の音響入力部の構成図、第4図は閾値
学習部の構成図である。 (1)・・・マイク、(2)・・・音声分析部、(3)
・切り替え部、(4)・・・音響入力部、(5)・・・
切り出し部、(6)・・・閾値メモリ、(7)・・・閾
値学習部。
Claims (1)
- (1)音声を入力するマイクと、該マイクから入力され
た音声を分析する音声分析部と、あらかじめ閾値が設定
されている閾値メモリと、音声分析部で分析された特徴
パラメータと閾値メモリの閾値とに基づいて音声を切り
出す切り出し部と、雑音を入力する音響入力部と、上記
閾値メモリの閾値を学習設定する閾値学習部と、上記音
声分析部で分析された分析結果を上記切り出し部、又は
上記閾値学習部のいずれかに伝達することを指定する切
り替え部を備え、 上記切り替え部が上記閾値学習部に分析結果を伝達して
いる時に、上記閾値学習部は上記音声分析部と上記音響
入力部との各音響信号により音声切り出しのための閾値
設定を行うことを特徴とする音声切り出し装置。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2278393A JP2648014B2 (ja) | 1990-10-16 | 1990-10-16 | 音声切り出し装置 |
| US08/897,734 US6411928B2 (en) | 1990-02-09 | 1997-07-21 | Apparatus and method for recognizing voice with reduced sensitivity to ambient noise |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2278393A JP2648014B2 (ja) | 1990-10-16 | 1990-10-16 | 音声切り出し装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH04152396A true JPH04152396A (ja) | 1992-05-26 |
| JP2648014B2 JP2648014B2 (ja) | 1997-08-27 |
Family
ID=17596719
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2278393A Expired - Fee Related JP2648014B2 (ja) | 1990-02-09 | 1990-10-16 | 音声切り出し装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2648014B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2016098228A1 (ja) * | 2014-12-18 | 2016-06-23 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2966460B2 (ja) | 1990-02-09 | 1999-10-25 | 三洋電機株式会社 | 音声切り出し方法及び音声認識装置 |
-
1990
- 1990-10-16 JP JP2278393A patent/JP2648014B2/ja not_active Expired - Fee Related
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2016098228A1 (ja) * | 2014-12-18 | 2016-06-23 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2648014B2 (ja) | 1997-08-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7885818B2 (en) | Controlling an apparatus based on speech | |
| EP3108646B1 (en) | Environment sensing intelligent apparatus | |
| US5867581A (en) | Hearing aid | |
| KR100677396B1 (ko) | 음성인식장치의 음성구간 검출방법 | |
| WO2003093775A2 (en) | Sound detection and localization system | |
| US8200488B2 (en) | Method for processing speech using absolute loudness | |
| EP1226454A1 (en) | Method to determine whether an acoustic source is near or far from a pair of microphones | |
| CN108429963A (zh) | 一种耳机及降噪方法 | |
| US6959095B2 (en) | Method and apparatus for providing multiple output channels in a microphone | |
| JP2004500750A (ja) | 補聴器調整方法及びこの方法を適用する補聴器 | |
| JPH0713586A (ja) | 音声判別装置と音響再生装置 | |
| JPH11249693A (ja) | 収音装置 | |
| JP2910417B2 (ja) | 音声音楽判別装置 | |
| JPH04152396A (ja) | 音声切り出し装置 | |
| JPH06236196A (ja) | 音声認識方法および装置 | |
| JP2003131686A (ja) | 音声と音楽の混合比推定方法及び装置並びにそれを用いたオーディオ装置 | |
| US20100249961A1 (en) | Environmental sound reproducing device | |
| JPH023520B2 (ja) | ||
| JP2990051B2 (ja) | 音声認識装置 | |
| JP2617851B2 (ja) | 音響選別導入方法 | |
| JPS63281200A (ja) | 音声区間検出方式 | |
| JP3111301B2 (ja) | 音声判別方法及び装置 | |
| CN115959536B (zh) | 基于乘客行为的电梯多设备音量调节系统 | |
| EP4362502A1 (en) | Controlling local rendering of remote environmental audio | |
| JP2002182691A (ja) | 音を出力する機器を制御する制御装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |