JPH03233600A - 音声切り出し方法及び音声認識装置 - Google Patents
音声切り出し方法及び音声認識装置Info
- Publication number
- JPH03233600A JPH03233600A JP2030185A JP3018590A JPH03233600A JP H03233600 A JPH03233600 A JP H03233600A JP 2030185 A JP2030185 A JP 2030185A JP 3018590 A JP3018590 A JP 3018590A JP H03233600 A JPH03233600 A JP H03233600A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- region
- audio
- acoustic signal
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title description 8
- 238000000605 extraction Methods 0.000 claims description 45
- 230000005236 sound signal Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 abstract 2
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(イ)産業上の利用分野
本発明は、音声認識装置、更にほこの音声認識装置に入
力される音声の時間領域の検出を行うなめの音声切り出
し方法に関する。
力される音声の時間領域の検出を行うなめの音声切り出
し方法に関する。
(ロ)従来の技術
音声認識装置に於ては、音声を入力するためのマイクに
は、音声の他に常に周囲雑音が入力されてしまうので、
この周囲雑音に含まれる音声の時間領域を正確に検出す
ることが重要課題である。
は、音声の他に常に周囲雑音が入力されてしまうので、
この周囲雑音に含まれる音声の時間領域を正確に検出す
ることが重要課題である。
例えば、バックグランドミュージック(BGM)が流れ
ているような事務所に於ても、音声認識によって、例え
ばワードプロセッサへの入力を行うなどの必要性が出て
くる場合があり、この場合にはB G Mが話者の音声
に混じって音声認識のためのマイクに入力されるので、
この入力音響信号のどの時間位置からどの時間位置まで
が音声領域であるかを正確に検出できなければ、音声認
識は不可能である。このような事は、カーステレオなど
の車載音響機器で音楽や歌曲を再生中の自動車内で自動
車電装機器を音声認識操作しようとする場合でも同じで
ある。
ているような事務所に於ても、音声認識によって、例え
ばワードプロセッサへの入力を行うなどの必要性が出て
くる場合があり、この場合にはB G Mが話者の音声
に混じって音声認識のためのマイクに入力されるので、
この入力音響信号のどの時間位置からどの時間位置まで
が音声領域であるかを正確に検出できなければ、音声認
識は不可能である。このような事は、カーステレオなど
の車載音響機器で音楽や歌曲を再生中の自動車内で自動
車電装機器を音声認識操作しようとする場合でも同じで
ある。
従って、従来装置では、マイクに入力された信号のレベ
ルを検知して、これが予じめ音声を発生する環境や条件
から決定した特定の閾値以上になる時間を音声の時間領
域と見做して切り出す音声切り出し方法が採用されてい
た。
ルを検知して、これが予じめ音声を発生する環境や条件
から決定した特定の閾値以上になる時間を音声の時間領
域と見做して切り出す音声切り出し方法が採用されてい
た。
しかしながら、このような従来の音声切り出し方法では
、周囲雑音であるGBMや歌曲の再生レベルが一定でな
いので、従来の固定的な閾値を用いているだけでは正確
な音声の切り出しができない不都合があった。
、周囲雑音であるGBMや歌曲の再生レベルが一定でな
いので、従来の固定的な閾値を用いているだけでは正確
な音声の切り出しができない不都合があった。
(ハ)発明が解決しようとする課題
本発明は上述の従来の不都合に鑑みてなされたものであ
り、そのレベルが変動する周囲雑音環境下に於ても正確
に音声の時間領域を検出することのできる音声切り出し
方法を提供し、更には、この音声切り出し方法の採用に
よって音声認識装置を実現しようとするものである。
り、そのレベルが変動する周囲雑音環境下に於ても正確
に音声の時間領域を検出することのできる音声切り出し
方法を提供し、更には、この音声切り出し方法の採用に
よって音声認識装置を実現しようとするものである。
(ニ)課題を解決するための手段
本発明の音声切り出し方法は、音声が存在する音響信号
のレベルが特定の閾値以上に達する時間領域に音声の存
在を検出して音声領域を切り出す方法であって、上記音
響信号とは異なる音響入力手段で検出した周囲雑音レベ
ルにより上記閾値を設定し、該閾値により音響信号領域
を切り出し、該音響信号領域を音声領域として抽出する
ものである。
のレベルが特定の閾値以上に達する時間領域に音声の存
在を検出して音声領域を切り出す方法であって、上記音
響信号とは異なる音響入力手段で検出した周囲雑音レベ
ルにより上記閾値を設定し、該閾値により音響信号領域
を切り出し、該音響信号領域を音声領域として抽出する
ものである。
又、本発明の音声認識装置は、音声を入力するマイク、
該マイクから得られる音響信号を分析して音声の特徴パ
ラメータ時系列を抽出する音声分析部、該音声分析部か
ら得られる特徴パラメータ時系列に基づいて音声パタン
を作成する音声パタン作成部、予じめ複数の標準的音声
の音声パタンを標準音声パタンとして貯えた標準音声パ
タンメモリ、該メモリの各音声パタンと上記音声パタン
とをパタンマツチングして上記音声パタンを識別する識
別部、周囲雑音を入力するための音響入力端子、該入力
端子に接続された周囲雑音の発生原である音響機器から
の雑音音響レベルにより第1の音声切り出し閾値を設定
する第1切り出し閾値設定部、該設定部により設定され
た第1切り出し閾値により上記マイクから得られる音響
信号から第1の音響信号領域を検出する第1切り出し制
御部、該制御部で検出した第1の音響信号領域が中心に
存在する音響信号に対して更に周囲雑音レベルに基づき
上記第1の閾値より低いレベルの第2の閾値を設定する
第2切り出し閾値設定部、該設定部により設定された第
2切り出し閾値により上記第1の音響信号領域が含まれ
る第2の音響信号領域を検出する第2切り出し制御部を
備え、該第2切り出し制御部で検出された第2の音響信
号領域を音声領域と見做し、上記音声分析部から得られ
る特徴パラメータ時系列の内、上記音声領域に存在する
特徴パラメータ時系列に基づき、上記音声パタン作成部
で音声パタンを作成するものである。
該マイクから得られる音響信号を分析して音声の特徴パ
ラメータ時系列を抽出する音声分析部、該音声分析部か
ら得られる特徴パラメータ時系列に基づいて音声パタン
を作成する音声パタン作成部、予じめ複数の標準的音声
の音声パタンを標準音声パタンとして貯えた標準音声パ
タンメモリ、該メモリの各音声パタンと上記音声パタン
とをパタンマツチングして上記音声パタンを識別する識
別部、周囲雑音を入力するための音響入力端子、該入力
端子に接続された周囲雑音の発生原である音響機器から
の雑音音響レベルにより第1の音声切り出し閾値を設定
する第1切り出し閾値設定部、該設定部により設定され
た第1切り出し閾値により上記マイクから得られる音響
信号から第1の音響信号領域を検出する第1切り出し制
御部、該制御部で検出した第1の音響信号領域が中心に
存在する音響信号に対して更に周囲雑音レベルに基づき
上記第1の閾値より低いレベルの第2の閾値を設定する
第2切り出し閾値設定部、該設定部により設定された第
2切り出し閾値により上記第1の音響信号領域が含まれ
る第2の音響信号領域を検出する第2切り出し制御部を
備え、該第2切り出し制御部で検出された第2の音響信
号領域を音声領域と見做し、上記音声分析部から得られ
る特徴パラメータ時系列の内、上記音声領域に存在する
特徴パラメータ時系列に基づき、上記音声パタン作成部
で音声パタンを作成するものである。
(ホ)作用
本発明の音声切り出し方法によれば、音声が存在する音
響信号から音声の時間領域をそのレベルで検出するため
の閾値を周囲雑音レベルに従ってダイナミックに設定で
きるので、周囲雑音が変動する環境下でも有効な音声領
域の検出が可能となる。
響信号から音声の時間領域をそのレベルで検出するため
の閾値を周囲雑音レベルに従ってダイナミックに設定で
きるので、周囲雑音が変動する環境下でも有効な音声領
域の検出が可能となる。
本発明の音声認識装置によれば、第1切り出し制御部が
周囲雑音に応じて変動する第1の閾値を用いて音声が存
在する音響信号から音声が必ず存在すると見做せる第1
の音響信号領域を検出し、更に第2切り出し制御部が上
記第1の閾値より小さい第2の閾値を用いて上記第1の
音響信号領域を中心として時間長を拡張した第2の音響
信号領域を検出し、該第2の音響信号領域を音声領域と
見做すことによって、該音声領域に亘たる音響信号から
音声の特徴を適切に表す特徴パ、ラメータが抽出でき、
この特徴パラメータに基づく音声パタンの作成により音
声認識率の向上が可能となる。
周囲雑音に応じて変動する第1の閾値を用いて音声が存
在する音響信号から音声が必ず存在すると見做せる第1
の音響信号領域を検出し、更に第2切り出し制御部が上
記第1の閾値より小さい第2の閾値を用いて上記第1の
音響信号領域を中心として時間長を拡張した第2の音響
信号領域を検出し、該第2の音響信号領域を音声領域と
見做すことによって、該音声領域に亘たる音響信号から
音声の特徴を適切に表す特徴パ、ラメータが抽出でき、
この特徴パラメータに基づく音声パタンの作成により音
声認識率の向上が可能となる。
(へ)実施例
第1図に本発明の音声認識装置の一実施例の成因を示す
。
。
同図に於て、1は音声が入力されるマイク、2はマイク
1から入力される音響信号を分析して音声の特徴を表す
特徴パラメータの時系列を抽出する音声分析部であり、
例えば、周波数分析により音響信号レベル情報を保存し
たスペクトルパラメータが得られる。3は上記音声分析
部2から得られる特徴パラメータの時系列に対して音声
が存在する時間領域を切り出すための第1切り出し制御
部であり、該時間領域の先頭特徴パラメータと最終特徴
パラメータとに夫々仮のスタート符号とエンド符号とを
付与して、一連の特徴パラメータの時系列(これら符号
付与パラメータの前後に連なる十分な数の時系列を含む
)を出力する。4は該第1切り出し制御部3から仮のス
タート符号とエンド符号とが付与された特徴パラメータ
時系列を一時的に記憶する第1音声バツフアである。
1から入力される音響信号を分析して音声の特徴を表す
特徴パラメータの時系列を抽出する音声分析部であり、
例えば、周波数分析により音響信号レベル情報を保存し
たスペクトルパラメータが得られる。3は上記音声分析
部2から得られる特徴パラメータの時系列に対して音声
が存在する時間領域を切り出すための第1切り出し制御
部であり、該時間領域の先頭特徴パラメータと最終特徴
パラメータとに夫々仮のスタート符号とエンド符号とを
付与して、一連の特徴パラメータの時系列(これら符号
付与パラメータの前後に連なる十分な数の時系列を含む
)を出力する。4は該第1切り出し制御部3から仮のス
タート符号とエンド符号とが付与された特徴パラメータ
時系列を一時的に記憶する第1音声バツフアである。
5は上記マイクとは異なる雑音レベル入力端子であり、
これには周囲雑音入力用の第2のマイクあるいは、周囲
雑音源となる音響再生機器の出端子、またはこの音響再
生機器での再生レベル表示(例えば、LEDのバー表示
からなるレベルメータ)用の信号線が接続される。6は
上記第1切り出し制御部3での特徴パラメータ時系列に
対する音声の時間領域切り出しに必要な第1の閾値を上
記マイク1からの音響信号と上記雑音レベル入力端子3
からの周囲雑音レベルとを参照して設定する第1閾値設
定部である。
これには周囲雑音入力用の第2のマイクあるいは、周囲
雑音源となる音響再生機器の出端子、またはこの音響再
生機器での再生レベル表示(例えば、LEDのバー表示
からなるレベルメータ)用の信号線が接続される。6は
上記第1切り出し制御部3での特徴パラメータ時系列に
対する音声の時間領域切り出しに必要な第1の閾値を上
記マイク1からの音響信号と上記雑音レベル入力端子3
からの周囲雑音レベルとを参照して設定する第1閾値設
定部である。
7は上記第1音声バツフア4から得られる仮のスタート
符号とエンド符号とが付与された特徴パラメータの時系
列に対して、再度厳密に音声が存在する時間領域を切り
出すための第2切り出し制御部であり、該時間領域の仮
の先頭特徴パラメータより時間的に前の位置(真の音声
領域のスタート位置に対応する)の特徴パラメータに真
のスタート符号を付与すると共に仮の最終特徴パラメー
タより時間的に後の位置(真の音声領域のエンド位置)
の特徴パラメータに兵のエンド符号を付与して、これら
一連の特徴パラメータの時系列を出力する。8は該第2
切り出し制御部7から真のスタート符号とエンド符号と
が付与された特徴パラメータ時系列を一時的に記憶する
第2音声バツフアである。9は上記第2切り出し制御部
7での特徴パラメータ時系列に対する音声の真の時間領
域切り出しに必要な第2の閾値を上記第1の閾値より小
さく設定する第2閾値設定部であり、音声の真の時間領
域を適切に抽出できるような値、例えば環境によって多
少異なるが経験的に第1の閾値の80%程度に設定され
る。
符号とエンド符号とが付与された特徴パラメータの時系
列に対して、再度厳密に音声が存在する時間領域を切り
出すための第2切り出し制御部であり、該時間領域の仮
の先頭特徴パラメータより時間的に前の位置(真の音声
領域のスタート位置に対応する)の特徴パラメータに真
のスタート符号を付与すると共に仮の最終特徴パラメー
タより時間的に後の位置(真の音声領域のエンド位置)
の特徴パラメータに兵のエンド符号を付与して、これら
一連の特徴パラメータの時系列を出力する。8は該第2
切り出し制御部7から真のスタート符号とエンド符号と
が付与された特徴パラメータ時系列を一時的に記憶する
第2音声バツフアである。9は上記第2切り出し制御部
7での特徴パラメータ時系列に対する音声の真の時間領
域切り出しに必要な第2の閾値を上記第1の閾値より小
さく設定する第2閾値設定部であり、音声の真の時間領
域を適切に抽出できるような値、例えば環境によって多
少異なるが経験的に第1の閾値の80%程度に設定され
る。
10は上記第2バツフア8のに記憶された真のスタート
符号とエンド符号とが付与された特徴パラメータ時系列
からこれら符号間に属する真の音声領域の特徴パラメー
タ時系列に基づいて入力音声パタンを作成する音声パタ
ン作成部であり、特定の時系列に特徴パタンを正規化し
た音声パタンが得られる。11は上記雑音レベル入力端
子5から得られる雑音レベルを上記第2切り出し制御部
7から得られる真の音声領域に亘って記憶する雑音レベ
ルバッファ、12は該雑音レベルバッファ11の雑音レ
ベルの時間平均値と経験的に設定された所定の所定レベ
ルと比較するレベル比較部であり、該雑音レベルバッフ
ァ11の平均雑音レベルが所定レベルより大きい時に上
記音声パクン作成部10での音声パタン作成処理を禁止
する。
符号とエンド符号とが付与された特徴パラメータ時系列
からこれら符号間に属する真の音声領域の特徴パラメー
タ時系列に基づいて入力音声パタンを作成する音声パタ
ン作成部であり、特定の時系列に特徴パタンを正規化し
た音声パタンが得られる。11は上記雑音レベル入力端
子5から得られる雑音レベルを上記第2切り出し制御部
7から得られる真の音声領域に亘って記憶する雑音レベ
ルバッファ、12は該雑音レベルバッファ11の雑音レ
ベルの時間平均値と経験的に設定された所定の所定レベ
ルと比較するレベル比較部であり、該雑音レベルバッフ
ァ11の平均雑音レベルが所定レベルより大きい時に上
記音声パクン作成部10での音声パタン作成処理を禁止
する。
13は予じめ多数の標準的音声の音声パタンを標準音声
パタンとして記憶した標準音声パタンメモリ、14は上
記音声パタン作成部10から得られる入力音声パタンを
上記標準音声パタンメモリ13の各標準音声パタンをパ
タンマツチングしてパタン間誤差が最も小さくしかもこ
の誤差の許容限度である認識閾値以下の誤差となる標準
音声パタンを検出する識別部であり、検出された標準音
声パタンに対応する認識結果信号を出力する。
パタンとして記憶した標準音声パタンメモリ、14は上
記音声パタン作成部10から得られる入力音声パタンを
上記標準音声パタンメモリ13の各標準音声パタンをパ
タンマツチングしてパタン間誤差が最も小さくしかもこ
の誤差の許容限度である認識閾値以下の誤差となる標準
音声パタンを検出する識別部であり、検出された標準音
声パタンに対応する認識結果信号を出力する。
15は上記識別部14での認識閾値を上記雑音レベルバ
ッファ11の平均雑音レベルに応じて可変設定する認識
閾値設定部であり、平均雑音レベルが多き時にはこの認
識閾値が大きくなる。
ッファ11の平均雑音レベルに応じて可変設定する認識
閾値設定部であり、平均雑音レベルが多き時にはこの認
識閾値が大きくなる。
第2図は本発明の音声認識装置に於ける音声切り出し動
作を示す信号波形図であり、同図に基づき動作を詳述す
る。
作を示す信号波形図であり、同図に基づき動作を詳述す
る。
まず、音声の時間領域の切り出し閾値設定の方法につい
て解説する。
て解説する。
第1切り出し閾値設定部6は、第2図のNで示す階段状
に変化する雑音レベル入力端子5からの雑音レベルを一
定時間毎(例えば5m5ec毎)に取り込み、取り込ん
だレベルに応じて音声の切り出しのための第1の閾値を
決定している。この場合、雑音レベル入力端子5には、
LEDのバー表示からなるレベルメータ用の信号線が接
続されている。
に変化する雑音レベル入力端子5からの雑音レベルを一
定時間毎(例えば5m5ec毎)に取り込み、取り込ん
だレベルに応じて音声の切り出しのための第1の閾値を
決定している。この場合、雑音レベル入力端子5には、
LEDのバー表示からなるレベルメータ用の信号線が接
続されている。
即ち、この切り出し閾値(Vtlと記述する)設定は以
下の如き雑音レベルNの関数になる。
下の如き雑音レベルNの関数になる。
Vtl = f (N)
以下に、f (N)の具体例を列挙する。
1上立盟盈j
f (N) = a X N + b である。
ここで、a、bは夫々定数を示しており、特に、bは通
常の定常的な騒音状態においては、第1切り出し制御部
3でマイク1から入力される雑音が音声として切り出さ
れることのないように通常の定常的な騒音のレベルより
大きな値が与えられている。
常の定常的な騒音状態においては、第1切り出し制御部
3でマイク1から入力される雑音が音声として切り出さ
れることのないように通常の定常的な騒音のレベルより
大きな値が与えられている。
棗2(7す(1倒
ec程度)のマイクlがらの入力を基に、切り出しの閾
値を設定する方法が有効である。この場合の切り出しの
閾値設定の方法を以下に示す。
値を設定する方法が有効である。この場合の切り出しの
閾値設定の方法を以下に示す。
ここで、場合分は条件Cは定数。更に、tl、t2は現
時点より前の時間を意味し、a、は時間iに関する重み
である。従って、上記の式は音声入力前のマイク1から
の雑音だけの音響信号レベルの時間平均に上述の定数す
を加えたものとなる。
時点より前の時間を意味し、a、は時間iに関する重み
である。従って、上記の式は音声入力前のマイク1から
の雑音だけの音響信号レベルの時間平均に上述の定数す
を加えたものとなる。
以上示したf (N)は、既知音声のみが雑音としてマ
イク1に入力される場合を想定したものであるが、この
他にもマイクlに入力されるものとしては、定常的な周
囲雑音がある。この場合は、上記のような閾値設定では
、対処できない。従って、周囲雑音がマイク1で常時入
力されるため、こ−の入力を第1切り出し閾値設定部6
で蓄えながら現在の入力時から一定時間前(例えば50
m sえば、50ms e c程度)前のマイク1が
らの入力のパワーを示すものである。
イク1に入力される場合を想定したものであるが、この
他にもマイクlに入力されるものとしては、定常的な周
囲雑音がある。この場合は、上記のような閾値設定では
、対処できない。従って、周囲雑音がマイク1で常時入
力されるため、こ−の入力を第1切り出し閾値設定部6
で蓄えながら現在の入力時から一定時間前(例えば50
m sえば、50ms e c程度)前のマイク1が
らの入力のパワーを示すものである。
肛10M11
上記第4の関数例に於て、雑音レベルNが定数Cより大
きいか小さいかの場合分けに関係なく、上記式■と式■
のf (N)の値の大きいほうの値をf(N’)とする
ことができる。
きいか小さいかの場合分けに関係なく、上記式■と式■
のf (N)の値の大きいほうの値をf(N’)とする
ことができる。
以上の如きf (N)の関数例の採用によって、第2図
の実線曲線で示す様に、周囲雑音Nに応じて変動する第
1の閾値Vtlが決定される。
の実線曲線で示す様に、周囲雑音Nに応じて変動する第
1の閾値Vtlが決定される。
従って、上記第1切り出し制御部3が音声分析部2から
得られる特徴パラメータ時系列のレベル[この場合、第
2図の破線曲線Vで示す如く、各時点に於いて、周波数
スペクトルレベルVの総和ΣV (=V) ] と第1
の閾値Vtl との比較を行い、ΣV≧Vtl と
なる連続した時系列の先頭時点Tslの特徴パラメータ
に仮のスタート符号を付与し、その最終時点Telの特
徴パラメータに仮のエンド符号を付与する。
得られる特徴パラメータ時系列のレベル[この場合、第
2図の破線曲線Vで示す如く、各時点に於いて、周波数
スペクトルレベルVの総和ΣV (=V) ] と第1
の閾値Vtl との比較を行い、ΣV≧Vtl と
なる連続した時系列の先頭時点Tslの特徴パラメータ
に仮のスタート符号を付与し、その最終時点Telの特
徴パラメータに仮のエンド符号を付与する。
斯して、仮のスタート符号とエンド符号とが付与された
特徴パラメータ時系列は、第1音声バツフア4に格納さ
れる。この時、該バッファ4には仮のスタート符号が付
与された特徴パラメータ以前の時系列と仮のエンド符号
が付与された特徴パラメータ以後の時系列も十分に格納
されている。
特徴パラメータ時系列は、第1音声バツフア4に格納さ
れる。この時、該バッファ4には仮のスタート符号が付
与された特徴パラメータ以前の時系列と仮のエンド符号
が付与された特徴パラメータ以後の時系列も十分に格納
されている。
次に、第2切り出し制御部7による音声切り出しについ
て説明する。
て説明する。
雑音レベル入力端子5からの雑音レベルが大きい場合に
は、上記第1切り出し制御部3では、音声の語頭及び語
尾が正確に切り出されない可能性があり、このため真の
音声領域より短い音声領域しか検出できないことになる
。従って、第2切り出し制御部7はこれを補う為に設け
られている。
は、上記第1切り出し制御部3では、音声の語頭及び語
尾が正確に切り出されない可能性があり、このため真の
音声領域より短い音声領域しか検出できないことになる
。従って、第2切り出し制御部7はこれを補う為に設け
られている。
即ち、第2切り出し制御部7では、第1切り出し閾値設
定部3で設定される第1の閾値Vt1 より小さい値の
第2の閾値Vt2 を設定し、この閾値Vt2 を
用いて、上記第1音声バツフア4の特徴パラメータ時系
列に対して、より適切な音声領域の切り出しを行う。
定部3で設定される第1の閾値Vt1 より小さい値の
第2の閾値Vt2 を設定し、この閾値Vt2 を
用いて、上記第1音声バツフア4の特徴パラメータ時系
列に対して、より適切な音声領域の切り出しを行う。
ここで、第2の閾値Vt2 の設定について説明を加
える。第1切り出し閾値設定部6で設定された第1の閾
値Vtl は時間情報と共に第2切り出し閾値設定部
9に情報提供される。
える。第1切り出し閾値設定部6で設定された第1の閾
値Vtl は時間情報と共に第2切り出し閾値設定部
9に情報提供される。
該第2切り出し閾値設定部9は、第1切り出し閾値設定
部6で設定された第1の閾値Vtlによって求められた
仮の先頭時点Tslの音声レベルV(Tsl )=Vt
l (Tsl )なる第1の閾値より小さい第2の閾値
Vt2を決定すると共に仮の最終時点Telの音声レベ
ルV(T61 )=Vtl (Tel )より小さい第
2の閾値Vt2を決定する。
部6で設定された第1の閾値Vtlによって求められた
仮の先頭時点Tslの音声レベルV(Tsl )=Vt
l (Tsl )なる第1の閾値より小さい第2の閾値
Vt2を決定すると共に仮の最終時点Telの音声レベ
ルV(T61 )=Vtl (Tel )より小さい第
2の閾値Vt2を決定する。
具体的には、真の先頭時点Ts2を決定するための第2
の閾値Vt2はVtl (Tsl )の関数になり、以
下の如く表される。
の閾値Vt2はVtl (Tsl )の関数になり、以
下の如く表される。
例えば、Vt2 =Vtl (Tsl )−d、 dは
定数または、Vt2 =Vtl (Tsl )7m%m
は定数更に、真の最終時点Te2を決定するための第2
の閾値Vt2はVjl (Te1 )の関数になり、真
の先頭時点Ts2の場合と同じく、以下の如く表される
。
定数または、Vt2 =Vtl (Tsl )7m%m
は定数更に、真の最終時点Te2を決定するための第2
の閾値Vt2はVjl (Te1 )の関数になり、真
の先頭時点Ts2の場合と同じく、以下の如く表される
。
例えば、Vt2=Vtl(Tel)−d、dは定数また
は、Vt2 =Vtl (Tel )7m、 mは定数
なお、これら第2の閾値Vt2の設定の場合も第1の閾
値Vtlの設定の場合と同様に、最小値定数Cを設定し
ておけば、定常雑音を領域まで音声として切り出す危惧
はない。
は、Vt2 =Vtl (Tel )7m、 mは定数
なお、これら第2の閾値Vt2の設定の場合も第1の閾
値Vtlの設定の場合と同様に、最小値定数Cを設定し
ておけば、定常雑音を領域まで音声として切り出す危惧
はない。
従って、第2切り出し閾値設定部9で設定された第2の
閾値Vt2を用いて第2切り出し制御部7は、第1音声
バツフア4に記憶されている時点Tsl前で、V(Ta
2)=Vt2となる音声の真の先頭時点と見做廿る時点
Ts2を検出して、この時点の特徴パラメータに真のス
タート符号を付与する。さらに、時点Tel後でV(T
a2)−Vt2となる音声の真の最終時点と見做せる時
点Ts2を検出して、この時点の特徴パラメータに真の
エンド符号を付与する。
閾値Vt2を用いて第2切り出し制御部7は、第1音声
バツフア4に記憶されている時点Tsl前で、V(Ta
2)=Vt2となる音声の真の先頭時点と見做廿る時点
Ts2を検出して、この時点の特徴パラメータに真のス
タート符号を付与する。さらに、時点Tel後でV(T
a2)−Vt2となる音声の真の最終時点と見做せる時
点Ts2を検出して、この時点の特徴パラメータに真の
エンド符号を付与する。
斯して、真のスタート符号とエンド符号が付与された特
徴パラメータ時系列は、第2音声バツフア8に一時的に
記憶され、このスタート符号とエンド符号とが付与され
た間の特徴パラメータ時系列が音声パタン作成部10に
供給される。
徴パラメータ時系列は、第2音声バツフア8に一時的に
記憶され、このスタート符号とエンド符号とが付与され
た間の特徴パラメータ時系列が音声パタン作成部10に
供給される。
而して、雑音レベルが非常に大きい時には、上述の音声
切り出し手段によっても、正確な音声領域の検出が困難
になる場合があり、この時には音声認識を行わないよう
な安全対策が必要になる。
切り出し手段によっても、正確な音声領域の検出が困難
になる場合があり、この時には音声認識を行わないよう
な安全対策が必要になる。
従って、第1図の実施例に於ては、レベル比較部12を
設けて、上述の安全対策を講じている。
設けて、上述の安全対策を講じている。
即ち、第2切り出し制御部7で切り出された音声領域(
第2図のTs2〜Te2)についての雑音レベルが雑音
レベルバッファ11に貯えられているので、これに基づ
きレベル比較装置12が雑音レベルの時間平均値awe
(N )*ΣN/(Te2−Ta2)を計算し、この値
が一定値以上になる時、上記音声パタン作成部10での
音声パタン作成を禁止することになる。
第2図のTs2〜Te2)についての雑音レベルが雑音
レベルバッファ11に貯えられているので、これに基づ
きレベル比較装置12が雑音レベルの時間平均値awe
(N )*ΣN/(Te2−Ta2)を計算し、この値
が一定値以上になる時、上記音声パタン作成部10での
音声パタン作成を禁止することになる。
一方、許容範囲の雑音下に於て音声パタン作成部10が
作成した音声パタンは、予じめ標準パタンメモリ13に
蓄えられている多数の標準パタンとを識別部14でパタ
ンマツチングを行い、標準パタンのうち最も類似してい
る(即ち、誤差りが最も小さい)標準パタンが認識結果
として類似度(誤差りと逆数的関係にある)と共に識別
部14に貯えられる。
作成した音声パタンは、予じめ標準パタンメモリ13に
蓄えられている多数の標準パタンとを識別部14でパタ
ンマツチングを行い、標準パタンのうち最も類似してい
る(即ち、誤差りが最も小さい)標準パタンが認識結果
として類似度(誤差りと逆数的関係にある)と共に識別
部14に貯えられる。
この識別部14に於ては、認識閾値設定部15の認識の
閾値により最終的に識別部14に貯えられている認識結
果を有効とするかどうかの判定を行う。
閾値により最終的に識別部14に貯えられている認識結
果を有効とするかどうかの判定を行う。
ここで、認識閾値設定部15に於ける認識の閾値の設定
方法について説明する。誤差りによって類似の程度を表
す場合には、該認識闇値Dtは、音声領域(第2図のT
s2〜Te2)の雑音平均レベルave(N )に追従
して決定されるものであり、例えば以下の例のように決
められる。
方法について説明する。誤差りによって類似の程度を表
す場合には、該認識闇値Dtは、音声領域(第2図のT
s2〜Te2)の雑音平均レベルave(N )に追従
して決定されるものであり、例えば以下の例のように決
められる。
Dt =pXave(N)+q
ここで、p、qは定数である。
即ち、認識閾値Dtは、周囲雑音が大きい時には大きく
設定される。
設定される。
従って、識別部14は、このように周囲雑音のレベルに
応じて変動する該認識閾値Dtより、認識結果の類似度
りが大きい場合(類似している場合)は認識結果を有効
とするので、雑音レベルの大きさに応じて入力パタンが
多少変形してもこれを吸収して認識結果を導出すること
ができる。
応じて変動する該認識閾値Dtより、認識結果の類似度
りが大きい場合(類似している場合)は認識結果を有効
とするので、雑音レベルの大きさに応じて入力パタンが
多少変形してもこれを吸収して認識結果を導出すること
ができる。
以上に説明した音声認識装置は、例えば、自動車内のカ
ーステレオの操作手段として用いることができ、この場
合には、周囲雑音としてこのカーステレオ自体が対象と
なる。また、雑音レベル入力端子5への入力は、オーデ
ィオ機器の出力線から直接入力する以外にも、マイクと
アナログ/デジタルコンバータの使用により、マイクか
ら周囲雑音を採集することもできる。
ーステレオの操作手段として用いることができ、この場
合には、周囲雑音としてこのカーステレオ自体が対象と
なる。また、雑音レベル入力端子5への入力は、オーデ
ィオ機器の出力線から直接入力する以外にも、マイクと
アナログ/デジタルコンバータの使用により、マイクか
ら周囲雑音を採集することもできる。
(ト)発明の効果
本発明の音声切り出し方法によれば、音声が存在する音
響信号から音声の時間領域をそのレベルで検出するため
の閾値を周囲雑音レベルに従ってダイナミックに設定で
きるので、そのレベルが変動する音響再生環境の中でも
、有効な音声領域の検出ができる。さらに、本発明の音
声切り出し方法を採用した音声認識装置によれば、音声
領域のより適切な検出が可能になり、音声認識処理の精
度の向上が望める。
響信号から音声の時間領域をそのレベルで検出するため
の閾値を周囲雑音レベルに従ってダイナミックに設定で
きるので、そのレベルが変動する音響再生環境の中でも
、有効な音声領域の検出ができる。さらに、本発明の音
声切り出し方法を採用した音声認識装置によれば、音声
領域のより適切な検出が可能になり、音声認識処理の精
度の向上が望める。
第1図は本発明の音声認識装置の構成を示すブロック図
、第2図は第1図の装置に採用した本発明の音声切り出
し方法を示す信号図である。 1・・・マイク、2・・・音声分析部、3・・・第1切
り出し閾値制御部、4・・・第1音声バツフア、5・・
・雑音レベル入力端子、6・・・第1切り出し閾値設定
部、7・・・第2切り出し閾値制御部、8・・・第2音
声バツフア、9・・・第2切り出し閾値設定部、10・
・・音声パタン作成部、11・・・雑音レベルバッファ
、12・・・レベル比較部、13・・・標準パタンメモ
リ、14・・・識別部、 15・・・認識閾値設定部。
、第2図は第1図の装置に採用した本発明の音声切り出
し方法を示す信号図である。 1・・・マイク、2・・・音声分析部、3・・・第1切
り出し閾値制御部、4・・・第1音声バツフア、5・・
・雑音レベル入力端子、6・・・第1切り出し閾値設定
部、7・・・第2切り出し閾値制御部、8・・・第2音
声バツフア、9・・・第2切り出し閾値設定部、10・
・・音声パタン作成部、11・・・雑音レベルバッファ
、12・・・レベル比較部、13・・・標準パタンメモ
リ、14・・・識別部、 15・・・認識閾値設定部。
Claims (8)
- (1)音声が存在する音響信号のレベルが特定の閾値以
上に達する時間領域に音声の存在を検出して音声領域を
切り出す音声切り出し方法に於て、上記音響信号とは異
なる音響入力手段で検出した周囲雑音レベルにより上記
閾値を設定し、該閾値により音響信号領域を切り出し、
該音響信号領域を音声領域として抽出する音声切り出し
方法。 - (2)上記周囲雑音レベルが所定の値より小さい時には
、音響信号自身に基づいて上記閾値を設定する請求項1
記載の音声切り出し方法。 - (3)音声が存在する音響信号のレベルが特定の閾値以
上に達する時間領域に音声の存在を検出して音声領域を
切り出す音声切り出し方法に於て、上記音響信号とは異
なる音響入力手段で検出した周囲雑音レベルにより第1
の閾値を設定し、該閾値により第1の音響信号領域を切
り出し、その後、この第1の音響信号領域が中心に存在
する音響信号に対し、更に周囲雑音レベルに基づき、上
記第1の閾値より低いレベルの第2の閾値を設定し、該
閾値により第1の音響信号領域が含まれる第2の音響信
号領域をを切り出し、該第2の音響信号領域を音声領域
として抽出する音声切り出し方法。 - (4)抽出された上記音声領域に於ける周囲雑音レベル
が音声領域の音響信号のレベルに応じて設定された値よ
り大きい場合、この時の音声領域の抽出を無効とする請
求項1、2、または3記載の音声切り出し方法。 - (5)上記周囲雑音は、音楽などの音響を再生する音響
機器の出力端子から直接入力された音響信号となす請求
項1、2、3または4記載の音声切り出し方法。 - (6)音声を入力するマイク、該マイクから得られる音
響信号を分析して音声の特徴パラメータ時系列を抽出す
る音声分析部、該音声分析部から得られる特徴パラメー
タ時系列に基づいて音声パタンを作成する音声パタン作
成部、予じめ複数の標準的音声の音声パタンを標準音声
パタンとして貯えた標準音声パタンメモリ、該メモリの
各音声パタンと上記音声パタンとをパタンマッチングし
て上記音声パタンを識別する識別部、周囲雑音を入力す
るための音響入力端子、該入力端子に接続された周囲雑
音の発生原である音響機器からの雑音音響レベルにより
第1の音声切り出し閾値を設定する第1切り出し閾値設
定部、該設定部により設定された第1切り出し閾値によ
り上記マイクから得られる音響信号から第1の音響信号
領域を検出する第1切り出し制御部、該制御部で検出し
た第1の音響信号領域が中心に存在する音響信号に対し
て更に周囲雑音レベルに基づき上記第1の閾値より低い
レベルの第2の閾値を設定する第2切り出し閾値設定部
、該設定部により設定された第2切り出し閾値により上
記第1の音響信号領域が含まれる第2の音響信号領域を
検出する第2切り出し制御部を備え、 該第2切り出し制御部で検出された第2の音響信号領域
を音声領域と見做し、上記音声分析部から得られる特徴
パラメータ時系列の内、上記音声領域に存在する特徴パ
ラメータ時系列に基づき、上記音声パタン作成部で音声
パタンを作成する音声認識装置。 - (7)上記識別部はこの時の入力音声パタンと最も誤差
が小さくパタンマッチングでき、且つ該最小誤差が所定
の認識誤差より小さい場合の標準音声パタンに対応付け
られた認識結果信号を出力するものであって、該認識誤
差を上記音声領域に於ける周囲雑音に応じ て可変設定する請求項6記載の音声認識装置。 - (8)上記音響入力端子は上記マイクへの音声入力にと
って周囲雑音となる車載音響再生機器の出力端子に結合
され、上記識別部の識別結果信号は該車載音響再生機器
の制御回路に出力され、音声認識によって車載音響再生
機器の操作を行う請求項6、または7記載の音声認識装
置。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2030185A JP2966460B2 (ja) | 1990-02-09 | 1990-02-09 | 音声切り出し方法及び音声認識装置 |
| US08/897,734 US6411928B2 (en) | 1990-02-09 | 1997-07-21 | Apparatus and method for recognizing voice with reduced sensitivity to ambient noise |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2030185A JP2966460B2 (ja) | 1990-02-09 | 1990-02-09 | 音声切り出し方法及び音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH03233600A true JPH03233600A (ja) | 1991-10-17 |
| JP2966460B2 JP2966460B2 (ja) | 1999-10-25 |
Family
ID=12296699
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2030185A Expired - Fee Related JP2966460B2 (ja) | 1990-02-09 | 1990-02-09 | 音声切り出し方法及び音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2966460B2 (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003524794A (ja) * | 1999-02-08 | 2003-08-19 | クゥアルコム・インコーポレイテッド | 雑音のある信号におけるスピーチのエンドポイント決定 |
| CN103863188A (zh) * | 2014-04-03 | 2014-06-18 | 安徽师范大学 | 车用语音识别信号在线自诊断方法 |
| CN119649807A (zh) * | 2024-10-30 | 2025-03-18 | 珠海格力电器股份有限公司 | 一种基于语音唤醒系统的处理方法、装置、设备及介质 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2648014B2 (ja) | 1990-10-16 | 1997-08-27 | 三洋電機株式会社 | 音声切り出し装置 |
| JP6329754B2 (ja) | 2013-11-22 | 2018-05-23 | 矢崎総業株式会社 | 締結部材付き部品とその取付方法 |
-
1990
- 1990-02-09 JP JP2030185A patent/JP2966460B2/ja not_active Expired - Fee Related
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003524794A (ja) * | 1999-02-08 | 2003-08-19 | クゥアルコム・インコーポレイテッド | 雑音のある信号におけるスピーチのエンドポイント決定 |
| CN103863188A (zh) * | 2014-04-03 | 2014-06-18 | 安徽师范大学 | 车用语音识别信号在线自诊断方法 |
| CN119649807A (zh) * | 2024-10-30 | 2025-03-18 | 珠海格力电器股份有限公司 | 一种基于语音唤醒系统的处理方法、装置、设备及介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2966460B2 (ja) | 1999-10-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5331784B2 (ja) | スピーチエンドポインタ | |
| US8473282B2 (en) | Sound processing device and program | |
| US20060167698A1 (en) | System and method for generating an identification signal for electronic devices | |
| US20060100866A1 (en) | Influencing automatic speech recognition signal-to-noise levels | |
| JPH03233600A (ja) | 音声切り出し方法及び音声認識装置 | |
| WO2007095413A2 (en) | Method and apparatus for detecting affects in speech | |
| JP3106543B2 (ja) | 音声信号処理装置 | |
| JP3114757B2 (ja) | 音声認識装置 | |
| JPH0430040B2 (ja) | ||
| JPH0764594A (ja) | 音声認識装置 | |
| JP3474949B2 (ja) | 音声認識装置 | |
| JP2648014B2 (ja) | 音声切り出し装置 | |
| JP2017068153A (ja) | 半導体装置、システム、電子機器、及び、音声認識方法 | |
| JP2666296B2 (ja) | 音声認識装置 | |
| KR100345402B1 (ko) | 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법 | |
| JP2844592B2 (ja) | 離散単語音声認識装置 | |
| JPH1097269A (ja) | 音声検出装置及び方法 | |
| JPH0651792A (ja) | 音声認識装置 | |
| JP2000155600A (ja) | 音声認識システムおよび入力音声レベル警告方法 | |
| JP5169297B2 (ja) | 音処理装置およびプログラム | |
| JPS59170894A (ja) | 音声区間の切り出し方式 | |
| CA1127764A (en) | Speech recognition system | |
| JPH01244497A (ja) | 音声区間検出回路 | |
| JPS6334479B2 (ja) | ||
| JPS62115498A (ja) | 無声破裂子音識別方式 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070813 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080813 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090813 Year of fee payment: 10 |
|
| LAPS | Cancellation because of no payment of annual fees |