JPH0247698A - 音声区間検出方式 - Google Patents
音声区間検出方式Info
- Publication number
- JPH0247698A JPH0247698A JP63198162A JP19816288A JPH0247698A JP H0247698 A JPH0247698 A JP H0247698A JP 63198162 A JP63198162 A JP 63198162A JP 19816288 A JP19816288 A JP 19816288A JP H0247698 A JPH0247698 A JP H0247698A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- section
- average noise
- level
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 230000011218 segmentation Effects 0.000 claims abstract description 3
- 238000005259 measurement Methods 0.000 abstract description 6
- 239000006185 dispersion Substances 0.000 abstract 2
- 238000000034 method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 4
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
この発明は音声認識装置における音声区間の検出方式に
関するものである。
関するものである。
(従来の技術)
通常の音声認識装置では、入力された音響信号より音声
が存在する区間を検出する処理(以下音声区間検出処理
と呼ぶ)と、検出された音声の内容を認識判定する(以
下認識処理と呼/!fi)処理に大別できる。
が存在する区間を検出する処理(以下音声区間検出処理
と呼ぶ)と、検出された音声の内容を認識判定する(以
下認識処理と呼/!fi)処理に大別できる。
通例このような動作を行うために音声認識装置では入力
された音響フレームと呼ばれている微小時間毎に音響信
号を分析してその特徴パラメータを算出しでいる。特徴
パラメータとしでは音響パワー、パワースペクトル等が
代表的なものである。
された音響フレームと呼ばれている微小時間毎に音響信
号を分析してその特徴パラメータを算出しでいる。特徴
パラメータとしでは音響パワー、パワースペクトル等が
代表的なものである。
音声区間検出は音声区間がそれ以外の区間に比べ音響パ
ワーが大きいという性質を利用している。
ワーが大きいという性質を利用している。
このような従来の音声区間の検出処理方式としては例え
ば文献:特開昭60−114900号公報に開示された
ものがある。この従来方式の一構成例を第2図を参照し
て説明する。
ば文献:特開昭60−114900号公報に開示された
ものがある。この従来方式の一構成例を第2図を参照し
て説明する。
外部入力部10、例えば、マイクロホン、電話機等から
入力した音響信号をA/D変換部12において標本化し
ディジタル信号系列に変換する0次のパワー算出部14
ではこのディジタル信号系列(以下単に入力信号とする
)からフレーム毎に音響パワーPI (Iはフレーム
番号を示す)を演算し、これを音声区間検出部16及び
閾値設定部18にそれぞれ送出する。閾1設定部18に
おいて、後述するように、この音響パワーP、に基づい
て平均雑音レベルを算定して音声区間検出部16へ送り
、この音声区間検出部1δにおいて、音響パワーP、と
平均雑音レベルとから音声区間を検出しで判定する0次
の認識部20においては、音声区間の音響パワー系列か
らなる音声バタンに対しで認識処理が行なわれ、その認
識結果が外部機器22、例えば、コンピュータとかその
他所要の表示装置等へ送られる。
入力した音響信号をA/D変換部12において標本化し
ディジタル信号系列に変換する0次のパワー算出部14
ではこのディジタル信号系列(以下単に入力信号とする
)からフレーム毎に音響パワーPI (Iはフレーム
番号を示す)を演算し、これを音声区間検出部16及び
閾値設定部18にそれぞれ送出する。閾1設定部18に
おいて、後述するように、この音響パワーP、に基づい
て平均雑音レベルを算定して音声区間検出部16へ送り
、この音声区間検出部1δにおいて、音響パワーP、と
平均雑音レベルとから音声区間を検出しで判定する0次
の認識部20においては、音声区間の音響パワー系列か
らなる音声バタンに対しで認識処理が行なわれ、その認
識結果が外部機器22、例えば、コンピュータとかその
他所要の表示装置等へ送られる。
このような構成の従来の音声認識製雪では認識動作に先
立っで前述したように音声区間検出のための平均雑音レ
ベルを設定する目的で、背景雑音レベルの測定を行って
いる。これは無入力状態での音響パワーの性質を測定し
適切な音声区間検出用閾値を決定するためである。
立っで前述したように音声区間検出のための平均雑音レ
ベルを設定する目的で、背景雑音レベルの測定を行って
いる。これは無入力状態での音響パワーの性質を測定し
適切な音声区間検出用閾値を決定するためである。
以下、この処理につき説明する。外部入力部10よつ入
力された音響信号からパワー算出部14で得られた音響
パワーP、に基づいて、閾値設定部1日では平均雑音レ
ベルNL、平均雑音分散N。を算出する。これら平均雑
音レベルN、及び平均雑音分数NDは、Nを測定フレー
ム数とすると次の(1)及び(2)式でそれぞれ与えら
れでいる。
力された音響信号からパワー算出部14で得られた音響
パワーP、に基づいて、閾値設定部1日では平均雑音レ
ベルNL、平均雑音分散N。を算出する。これら平均雑
音レベルN、及び平均雑音分数NDは、Nを測定フレー
ム数とすると次の(1)及び(2)式でそれぞれ与えら
れでいる。
N、ヨ、
ざらに平均雑音レベルNL及び平均雑音分数NDから下
記の(3)式に従って音声切り出しレベルVLを決定し
でいる。
記の(3)式に従って音声切り出しレベルVLを決定し
でいる。
VL = NL + NI X No・ ・ ・ ・
・ ・ ・ ・ ・ ・ ・ ・ (3)ここで、N1
はあらかじめシステムで定めた計数であり通例2〜4程
度の値となる。このように算定された音声切り出しレベ
ルVLを以後音声区間検出部16で利用する。
・ ・ ・ ・ ・ ・ ・ ・ (3)ここで、N1
はあらかじめシステムで定めた計数であり通例2〜4程
度の値となる。このように算定された音声切り出しレベ
ルVLを以後音声区間検出部16で利用する。
次に従来の音声区間検出動作について簡単に説明する。
先ず、通常の如く、外部入力部10より入力された音響
信号をA/D変換部12において入力信号に変換した後
、パワー算出部14にて音響パワーPを算出する。この
音響パワーP、の一例を第3図に示す、同図において、
縦軸に音響パワーP横軸にフレーム番号工をとって示し
である0図中、破線は音声切り出しレベルVLt表して
いる。工、及び工、は音声区間の音声始端及び音声終端
である。また、V、、V、は音声始端フレーム及び音声
終端フレームであり、通常はフレーム周期を8ミリ秒程
度としている。
信号をA/D変換部12において入力信号に変換した後
、パワー算出部14にて音響パワーPを算出する。この
音響パワーP、の一例を第3図に示す、同図において、
縦軸に音響パワーP横軸にフレーム番号工をとって示し
である0図中、破線は音声切り出しレベルVLt表して
いる。工、及び工、は音声区間の音声始端及び音声終端
である。また、V、、V、は音声始端フレーム及び音声
終端フレームであり、通常はフレーム周期を8ミリ秒程
度としている。
音声区間検出部16では上述した音声区間を切り出す処
理を行うもので、従来は音響パワーP1に対して次の条
件■〜■が成立する最初のフレームを音声区間の始端フ
レームとしでいる。
理を行うもので、従来は音響パワーP1に対して次の条
件■〜■が成立する最初のフレームを音声区間の始端フ
レームとしでいる。
■始端条件
P≧V、となるフレームがあるフレームI以降、予め経
験により定められている複数個すなわちN2個のフレー
ム以上継続したとき、このフレームエを始端フレームV
、とする。
験により定められている複数個すなわちN2個のフレー
ム以上継続したとき、このフレームエを始端フレームV
、とする。
■終端条件
また、又始端フレームV、を検出後、以下の条件が最初
に成立するフレームの直前のフレームを音声区間の終端
フレームV、とする。
に成立するフレームの直前のフレームを音声区間の終端
フレームV、とする。
P<V、となるフレームがフレームエ以降、予め経験に
より定められでいる複数個すなわちN3個のフレーム以
上継続したとき。
より定められでいる複数個すなわちN3個のフレーム以
上継続したとき。
■除外条件
さらに音声区間長V L E Hが以下の条件にかかる
場合には音声区間とみなさない。
場合には音声区間とみなさない。
VLEII<N、又はV L EN > N s但し
VLE11=Vε −S+1
でありかつN4及びN5は経験により予め定められたフ
レーム数である。
レーム数である。
(発明が解決しようとする課題)
上述した従来の音声切り出しレベルVLの算定は、背景
雑音の音響パワーの分布が正規分布に近いことを仮定し
ている。実際静かな環境下ではこのような近似がよく当
てはまる。しかし騒音レベルが高いような環境か、もし
くは電話等の回!!を経由しできたような入力条件では
、クリック音等の継続時間は短いがピークの音響パワー
が極めて高い雑音が存在するため、この近似から外れる
場合が多く、これがため、第4図に示される様に音響パ
ワーレベルのかなり高いとこ′ろの分布が増加する。
雑音の音響パワーの分布が正規分布に近いことを仮定し
ている。実際静かな環境下ではこのような近似がよく当
てはまる。しかし騒音レベルが高いような環境か、もし
くは電話等の回!!を経由しできたような入力条件では
、クリック音等の継続時間は短いがピークの音響パワー
が極めて高い雑音が存在するため、この近似から外れる
場合が多く、これがため、第4図に示される様に音響パ
ワーレベルのかなり高いとこ′ろの分布が増加する。
従ってこのような雑音がちようと背景雑音レベルの測定
時に発生すると、平均雑音レベルNL、平均雑音分散N
Dが共に高く算定されてしまい、これは音声区間検出誤
りの原因となる。このような減少を軽減する一手法とし
て平均雑音レベルの測定時間Nを長くする手法があるが
、この手法では認識開始に至るまでの準備時間が長くな
り音声認識製雪自体の応答性が低下してしまうため、充
分な測定時間Nを採用出来なかった。
時に発生すると、平均雑音レベルNL、平均雑音分散N
Dが共に高く算定されてしまい、これは音声区間検出誤
りの原因となる。このような減少を軽減する一手法とし
て平均雑音レベルの測定時間Nを長くする手法があるが
、この手法では認識開始に至るまでの準備時間が長くな
り音声認識製雪自体の応答性が低下してしまうため、充
分な測定時間Nを採用出来なかった。
この発明の目的は、上述したクリック音等の雑音環境下
においても音声区間検出誤りを著しく減少させることが
出来るような音声切り出しレベルVLを設定出来る音声
区間検出方式を提供することにある。
においても音声区間検出誤りを著しく減少させることが
出来るような音声切り出しレベルVLを設定出来る音声
区間検出方式を提供することにある。
(課題を解決するための手段)
この目的の達成を図るため、この発明の音声区間検出方
式によれば、閾値算出部において、音響パワーP1のう
ち最も大なる値を持つものから順に、第一の所定の個数
N maxの音響パワーと、最も小なる値をもつものか
ら順に第二の所定の個数N m I nの音響パワーと
を除いた残りの全ての音響パワーP、に対して平均雑音
レベルNL′、平均雑音分散No’を算出した後、当該
平均雑音レベルNL’及び平均雑音分散N。゛より音声
切り出しレベルLを算定することを特徴とする。
式によれば、閾値算出部において、音響パワーP1のう
ち最も大なる値を持つものから順に、第一の所定の個数
N maxの音響パワーと、最も小なる値をもつものか
ら順に第二の所定の個数N m I nの音響パワーと
を除いた残りの全ての音響パワーP、に対して平均雑音
レベルNL′、平均雑音分散No’を算出した後、当該
平均雑音レベルNL’及び平均雑音分散N。゛より音声
切り出しレベルLを算定することを特徴とする。
(作用)
このように構成すれば、音声無入力時の音響パワー分布
のうちクリック音等の雑音に起因する高音響パワー側と
、その他の雑音に起因する低音響パワー側を除いた、本
来の音響パワーが集中する中間の分布領域中の音響パワ
ーを用いて音声切り出しレベルVLを定める方式である
ので、ビークパワーの高い雑音成分にほとんど影響され
ずに適切な音声切り出しレベルVL8著しく簡単に決定
出来る。その結果、音声区間検出の誤りが減少する。従
って、総合的な認識性能に優れた音声認識袋Mを提供す
ることになる。
のうちクリック音等の雑音に起因する高音響パワー側と
、その他の雑音に起因する低音響パワー側を除いた、本
来の音響パワーが集中する中間の分布領域中の音響パワ
ーを用いて音声切り出しレベルVLを定める方式である
ので、ビークパワーの高い雑音成分にほとんど影響され
ずに適切な音声切り出しレベルVL8著しく簡単に決定
出来る。その結果、音声区間検出の誤りが減少する。従
って、総合的な認識性能に優れた音声認識袋Mを提供す
ることになる。
(実施例)
以下、図面を参照してこの発明の音声区間検出方式の実
施例を説明する。
施例を説明する。
第1図はこの発明の音声区間検出方式の実施例の説明に
供するブロック図、第5図は闇値設定部での処理の流れ
図である。
供するブロック図、第5図は闇値設定部での処理の流れ
図である。
第1図において、第2図に示した構成成分と同−の構成
成分についでは同一の符号を付()て示し、その詳細な
説明を省略する。
成分についでは同一の符号を付()て示し、その詳細な
説明を省略する。
又、第1図において、24は第2図に示す従来の閾値設
定部18に対応する閾値設定部であるが、この従来の閾
値設定部18とはその機能従って内部構成が異なる。
定部18に対応する閾値設定部であるが、この従来の閾
値設定部18とはその機能従って内部構成が異なる。
先ず、この実施例における閾値設定部24につき第5図
を併用しながら説明する。
を併用しながら説明する。
この実施例では、先ず、音声無入力状態で各フレームI
(I=1、・・・、N)毎の音響パワーP (I)をパ
ワー算出部14で算出し、これを闇値設定部24及び音
声区間検出部16に送る。
(I=1、・・・、N)毎の音響パワーP (I)をパ
ワー算出部14で算出し、これを闇値設定部24及び音
声区間検出部16に送る。
閾値設定部24においては、マイクロプロセッサ30の
制御の下で、これら音響パワーP (I)をパワー算出
部14からシステムバス36を経てメモリ32の各メモ
リ領1或日MEM (1) 、RMEM(2)、RM・
・・PMEM (N)に−時記憶する。この場合、I=
1 (1番目)のフレームから処理を開始する(ステッ
プ51)6次にINNであるかを判定しくステップS2
)、I≦Nである場合には1番目のフレームの音響パワ
ーP、をメモリ領vtRMEM (1)に−時記憶する
(ステップ53)0次にフレーム番号I!次のI=2へ
進め(ステップS4)、上述したステップS2へ戻し、
ステップS2及びS3の処理を行って2番目(I=2)
のフレームの音響パワーP2tメモリ領tSiRMEM
(2)へ−時記憶する。このように、順次に、I=N
まで各音響パワーP、をそれぞれ対応するメモリ領域R
MEM (N)へ−時記憶する。
制御の下で、これら音響パワーP (I)をパワー算出
部14からシステムバス36を経てメモリ32の各メモ
リ領1或日MEM (1) 、RMEM(2)、RM・
・・PMEM (N)に−時記憶する。この場合、I=
1 (1番目)のフレームから処理を開始する(ステッ
プ51)6次にINNであるかを判定しくステップS2
)、I≦Nである場合には1番目のフレームの音響パワ
ーP、をメモリ領vtRMEM (1)に−時記憶する
(ステップ53)0次にフレーム番号I!次のI=2へ
進め(ステップS4)、上述したステップS2へ戻し、
ステップS2及びS3の処理を行って2番目(I=2)
のフレームの音響パワーP2tメモリ領tSiRMEM
(2)へ−時記憶する。このように、順次に、I=N
まで各音響パワーP、をそれぞれ対応するメモリ領域R
MEM (N)へ−時記憶する。
ステップS2において、INNと判定されると、マイク
ロプロセッサの制御の下で、メモリ32の各メモリ領域
RMEM(1)〜RMEM (N)に記憶されでいる音
響パワーP1〜PNを昇順にソーティングを行って、そ
の結果をシステムバス36を経てワークメモリ34へ送
り、このワークメモリ34のメモリ領域SMEM (1
) 、SMEM(2) 5.、、SMEM (N)へ大
きざの順に再格納させる(ステップS5)。従って、例
えば、メモリ領域SMEM(1)には音響パワーP1の
うち一番ピーク値の小さいものが記憶され、逆にメモリ
領域SMEM (N)には一番ピーク値の大きいものが
記憶される。すなわち、この実施例では、メモリ領域S
MEM(J)(J=1、・・・、N)に格納される音響
パワーPlの大きさは次の間係が成立する。
ロプロセッサの制御の下で、メモリ32の各メモリ領域
RMEM(1)〜RMEM (N)に記憶されでいる音
響パワーP1〜PNを昇順にソーティングを行って、そ
の結果をシステムバス36を経てワークメモリ34へ送
り、このワークメモリ34のメモリ領域SMEM (1
) 、SMEM(2) 5.、、SMEM (N)へ大
きざの順に再格納させる(ステップS5)。従って、例
えば、メモリ領域SMEM(1)には音響パワーP1の
うち一番ピーク値の小さいものが記憶され、逆にメモリ
領域SMEM (N)には一番ピーク値の大きいものが
記憶される。すなわち、この実施例では、メモリ領域S
MEM(J)(J=1、・・・、N)に格納される音響
パワーPlの大きさは次の間係が成立する。
SMEM(+) ≦SMEM(2) ≦・・・SM
EM(N)・ ・ ・ ・ (4)で読み出しかつ、こ
れら個数に対応する音響パワーP、を除いた残りの全て
の音響パワーP1をワークメモリ34がらマイクロプロ
セッサ3oへ読み出す(ステップS6)。
EM(N)・ ・ ・ ・ (4)で読み出しかつ、こ
れら個数に対応する音響パワーP、を除いた残りの全て
の音響パワーP1をワークメモリ34がらマイクロプロ
セッサ3oへ読み出す(ステップS6)。
次に、マイクロプロセッサ30において、次式(5)(
こ従った平均雑音レベルN、′の算出処理を行ない、そ
の結果をマイクロプロセッサ3oのメモリに一時記憶し
ておく(ステップ57)6次にマイクロプロセッサ30
において、次の式で示される平均雑音レベルN、′を算
出する。
こ従った平均雑音レベルN、′の算出処理を行ない、そ
の結果をマイクロプロセッサ3oのメモリに一時記憶し
ておく(ステップ57)6次にマイクロプロセッサ30
において、次の式で示される平均雑音レベルN、′を算
出する。
この目的のため、マイクロプロセッサ30のメモリ(図
示せず)に、経験によって予め定められた、最大音響パ
ワーから順に小ざい方へ数えてこの平均雑音レベルの計
算に用いない音響レベルの個数N、□と、同様1こ経験
によって予め定められた、最小音響パワーから順に大き
い方へ数えて、この平均雑音レベルの計算に用いない音
響レベルの個数N Mll’lとを格納しておき、これ
ら格納されたN 1llaX及びN、、、+−8マイク
ロプロセツサ30自身次に、マイクロプロセッサ30に
おいて、メモリからN□8及びN minと平均雑音レ
ベルNL’とを読み出して次式(6)で与えられる平均
雑音分散N。′を算出し、その結果ND゛を当該メモリ
に一時記憶させる(ステ・ンブS8)。
示せず)に、経験によって予め定められた、最大音響パ
ワーから順に小ざい方へ数えてこの平均雑音レベルの計
算に用いない音響レベルの個数N、□と、同様1こ経験
によって予め定められた、最小音響パワーから順に大き
い方へ数えて、この平均雑音レベルの計算に用いない音
響レベルの個数N Mll’lとを格納しておき、これ
ら格納されたN 1llaX及びN、、、+−8マイク
ロプロセツサ30自身次に、マイクロプロセッサ30に
おいて、メモリからN□8及びN minと平均雑音レ
ベルNL’とを読み出して次式(6)で与えられる平均
雑音分散N。′を算出し、その結果ND゛を当該メモリ
に一時記憶させる(ステ・ンブS8)。
次に、これら平均雑音レベルN、’ 、平均雑音分散N
D′及び予め経験によって定められてマイクロプロセッ
サ30中のメモリに格納されでいる係数N+をそれぞれ
読み出して次式(7)に従って音声切り出しレベルVL
′を求める(ステップS9)。
D′及び予め経験によって定められてマイクロプロセッ
サ30中のメモリに格納されでいる係数N+をそれぞれ
読み出して次式(7)に従って音声切り出しレベルVL
′を求める(ステップS9)。
る、NヨaX % NmInはピーク性雑音の発生確率
、継続時間の性質によって適切な値に設定する必要があ
る0通例N□8は測定フレーム数のNの1/10〜11
50程度、N m L nはNの1/1゜〜1150な
いし0の値とするのが好適である。
、継続時間の性質によって適切な値に設定する必要があ
る0通例N□8は測定フレーム数のNの1/10〜11
50程度、N m L nはNの1/1゜〜1150な
いし0の値とするのが好適である。
音声区間検出処理、認識処理については従来例の通りで
あるのでその説明を省略する。
あるのでその説明を省略する。
上述した実施例はこの発明の好適例であるにすぎず、こ
の発明は上述した実施例にのみ限定されるものではない
こと明らかである。
の発明は上述した実施例にのみ限定されるものではない
こと明らかである。
VL = NL+ NIX No・ ・ ・ ・ ・
・ ・ ・ ・ ・ ・ ・ (7)閾値設定部24に
おいて上述したステップS]〜S9の処理が完了すると
、その結果である音声切り出しレベルVL′がマイクロ
プロセッサ30の制御によってシステムバス36を経て
音声区間検出部16へ送られる。尚、測定時間Nは通例
0.16〜o、32秒程度が好適であり、フレーム周期
が8ミリ秒の場合、N=20〜4oとな(発明の効果) 上述した説明からも明らかなようにこの発明の音声区間
検出方式によれば、背景雑音レベル測定に際してサシプ
ルされた音響パワーP、のうち最も大なる値を持つもの
からN maX個の音響パワと、最も小なる値を持つも
のから順にN、、、1.、個の音響パワーを除いた残り
の全ての音響パワーPの平均雑音レベル値NL′、平均
雑音分散NDを求めることにより、ど−クバワーの高い
雑音成分が多い環境下でもその影響を受けることなく、
適切な音声切り出しレベルを設定出来るように構成した
ものであるから、高雑音下でも音声区間検出誤りが非常
に少なくなり、これがため総合的な認識性能に優れた認
識部Mを実現することが出来る。
・ ・ ・ ・ ・ ・ ・ (7)閾値設定部24に
おいて上述したステップS]〜S9の処理が完了すると
、その結果である音声切り出しレベルVL′がマイクロ
プロセッサ30の制御によってシステムバス36を経て
音声区間検出部16へ送られる。尚、測定時間Nは通例
0.16〜o、32秒程度が好適であり、フレーム周期
が8ミリ秒の場合、N=20〜4oとな(発明の効果) 上述した説明からも明らかなようにこの発明の音声区間
検出方式によれば、背景雑音レベル測定に際してサシプ
ルされた音響パワーP、のうち最も大なる値を持つもの
からN maX個の音響パワと、最も小なる値を持つも
のから順にN、、、1.、個の音響パワーを除いた残り
の全ての音響パワーPの平均雑音レベル値NL′、平均
雑音分散NDを求めることにより、ど−クバワーの高い
雑音成分が多い環境下でもその影響を受けることなく、
適切な音声切り出しレベルを設定出来るように構成した
ものであるから、高雑音下でも音声区間検出誤りが非常
に少なくなり、これがため総合的な認識性能に優れた認
識部Mを実現することが出来る。
20・・・認識部、
24・・・閾値設定部、
32・・・メモリ、
36・・・システムバス。
22・・・外部機器
30・・・マイクロプロセッサ
34・・・ワークメモリ
第1図はこの発明の音声区間検出方式の説明に供するブ
ロック図、 第2図は従来の音声区間検出方式の説明に供するブロッ
ク図、 第3図はこの発明及び従来の説明に供する音声パワーの
一例を示す図、 第4図は音響パワー分布を示す図、 第5図は音声切り出しレベルの算出処理の動作の流れ図
である。
ロック図、 第2図は従来の音声区間検出方式の説明に供するブロッ
ク図、 第3図はこの発明及び従来の説明に供する音声パワーの
一例を示す図、 第4図は音響パワー分布を示す図、 第5図は音声切り出しレベルの算出処理の動作の流れ図
である。
Claims (1)
- (1)外部入力部からの入力音響信号からパワー算出部
においてフレームと呼ばれる微小時間毎に音響パワーP
_1を算出し、閾値設定部において該音響パワーP_1
に基づいて平均雑音レベルを算定し、前記音響パワーP
_1と平均雑音レベルとから音声区間を検出し、認識部
において当該音声区間で定まる音声パタンに対して認識
処理を行ってその結果を外部機器へ出力するように構成
した音声認識装置において、前記音声区間を検出するに
当り、 前記パワー算出部においては音声無入力状態での音響パ
ワーP_1を定められた時間分測定し、前記閾値算出部
においては、当該音響パワーP_1のうち最も大なる値
を持つものから順に第一の所定の個数N_m_a_xの
音響パワーと、最も小なる値を持つものから順に第二の
所定の個数N_m_i_nの音響パワーとを除いた残り
の全ての音響パワーP_1に対して平均雑音レベルN_
L′、平均雑音分散N_D′を算出した後、当該平均雑
音レベルN_L′及び平均雑音分散N_D′より音声切
り出しレベルV_Lを算定する ことを特徴とする音声区間検出方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63198162A JPH0823756B2 (ja) | 1988-08-09 | 1988-08-09 | 音声区間検出方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63198162A JPH0823756B2 (ja) | 1988-08-09 | 1988-08-09 | 音声区間検出方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0247698A true JPH0247698A (ja) | 1990-02-16 |
| JPH0823756B2 JPH0823756B2 (ja) | 1996-03-06 |
Family
ID=16386496
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63198162A Expired - Lifetime JPH0823756B2 (ja) | 1988-08-09 | 1988-08-09 | 音声区間検出方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0823756B2 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0535294A (ja) * | 1991-07-26 | 1993-02-12 | Nec Corp | 音声認識装置 |
| JP2006209069A (ja) * | 2004-12-28 | 2006-08-10 | Advanced Telecommunication Research Institute International | 音声区間検出装置および音声区間検出プログラム |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4521673B2 (ja) * | 2003-06-19 | 2010-08-11 | 株式会社国際電気通信基礎技術研究所 | 発話区間検出装置、コンピュータプログラム及びコンピュータ |
-
1988
- 1988-08-09 JP JP63198162A patent/JPH0823756B2/ja not_active Expired - Lifetime
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0535294A (ja) * | 1991-07-26 | 1993-02-12 | Nec Corp | 音声認識装置 |
| JP2006209069A (ja) * | 2004-12-28 | 2006-08-10 | Advanced Telecommunication Research Institute International | 音声区間検出装置および音声区間検出プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0823756B2 (ja) | 1996-03-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6314396B1 (en) | Automatic gain control in a speech recognition system | |
| US5867581A (en) | Hearing aid | |
| US8065115B2 (en) | Method and system for identifying audible noise as wind noise in a hearing aid apparatus | |
| JP2002366174A (ja) | G.729の付属書bに準拠した音声アクティビティ検出回路を収束させるための方法 | |
| CZ67896A3 (en) | Voice detector | |
| JPH09325790A (ja) | 音声処理方法および装置 | |
| CN103226952A (zh) | 语音处理装置、方法和程序 | |
| KR20000023823A (ko) | 다중 행렬식을 채용하는 음성검출 시스템 | |
| JP3194135B2 (ja) | デジタルオーディオプロセッサ | |
| EP1300832A1 (en) | Speech recognizer, method for recognizing speech and speech recognition program | |
| CN113555033A (zh) | 语音交互系统的自动增益控制方法、装置及系统 | |
| CN110556128B (zh) | 一种语音活动性检测方法、设备及计算机可读存储介质 | |
| JPH0247698A (ja) | 音声区間検出方式 | |
| US12425780B2 (en) | Audio signal processing method and apparatus, device and storage medium | |
| EP1424684A1 (en) | Voice activity detection apparatus and method | |
| US6665411B2 (en) | DVE system with instability detection | |
| US8738367B2 (en) | Speech signal processing device | |
| US7046792B2 (en) | Transmit/receive arbitrator | |
| EP0348888B1 (en) | Overflow speech detecting apparatus | |
| KR20060057919A (ko) | 자동음성인식시스템의 음성 2단 끝점검출 장치 및 그 방법 | |
| JPH0632537B2 (ja) | ハウリング抑圧装置 | |
| JPH07225592A (ja) | 有音区間検出装置 | |
| JPH02176796A (ja) | 音声認識装置 | |
| JP2001117585A (ja) | 音声認識方法及び装置 | |
| JP2000352987A (ja) | 音声認識装置 |