JPH0247698A - 音声区間検出方式 - Google Patents

音声区間検出方式

Info

Publication number
JPH0247698A
JPH0247698A JP63198162A JP19816288A JPH0247698A JP H0247698 A JPH0247698 A JP H0247698A JP 63198162 A JP63198162 A JP 63198162A JP 19816288 A JP19816288 A JP 19816288A JP H0247698 A JPH0247698 A JP H0247698A
Authority
JP
Japan
Prior art keywords
acoustic
section
average noise
level
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63198162A
Other languages
English (en)
Other versions
JPH0823756B2 (ja
Inventor
Takashi Miki
三木 敬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP63198162A priority Critical patent/JPH0823756B2/ja
Publication of JPH0247698A publication Critical patent/JPH0247698A/ja
Publication of JPH0823756B2 publication Critical patent/JPH0823756B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は音声認識装置における音声区間の検出方式に
関するものである。
(従来の技術) 通常の音声認識装置では、入力された音響信号より音声
が存在する区間を検出する処理(以下音声区間検出処理
と呼ぶ)と、検出された音声の内容を認識判定する(以
下認識処理と呼/!fi)処理に大別できる。
通例このような動作を行うために音声認識装置では入力
された音響フレームと呼ばれている微小時間毎に音響信
号を分析してその特徴パラメータを算出しでいる。特徴
パラメータとしでは音響パワー、パワースペクトル等が
代表的なものである。
音声区間検出は音声区間がそれ以外の区間に比べ音響パ
ワーが大きいという性質を利用している。
このような従来の音声区間の検出処理方式としては例え
ば文献:特開昭60−114900号公報に開示された
ものがある。この従来方式の一構成例を第2図を参照し
て説明する。
外部入力部10、例えば、マイクロホン、電話機等から
入力した音響信号をA/D変換部12において標本化し
ディジタル信号系列に変換する0次のパワー算出部14
ではこのディジタル信号系列(以下単に入力信号とする
)からフレーム毎に音響パワーPI  (Iはフレーム
番号を示す)を演算し、これを音声区間検出部16及び
閾値設定部18にそれぞれ送出する。閾1設定部18に
おいて、後述するように、この音響パワーP、に基づい
て平均雑音レベルを算定して音声区間検出部16へ送り
、この音声区間検出部1δにおいて、音響パワーP、と
平均雑音レベルとから音声区間を検出しで判定する0次
の認識部20においては、音声区間の音響パワー系列か
らなる音声バタンに対しで認識処理が行なわれ、その認
識結果が外部機器22、例えば、コンピュータとかその
他所要の表示装置等へ送られる。
このような構成の従来の音声認識製雪では認識動作に先
立っで前述したように音声区間検出のための平均雑音レ
ベルを設定する目的で、背景雑音レベルの測定を行って
いる。これは無入力状態での音響パワーの性質を測定し
適切な音声区間検出用閾値を決定するためである。
以下、この処理につき説明する。外部入力部10よつ入
力された音響信号からパワー算出部14で得られた音響
パワーP、に基づいて、閾値設定部1日では平均雑音レ
ベルNL、平均雑音分散N。を算出する。これら平均雑
音レベルN、及び平均雑音分数NDは、Nを測定フレー
ム数とすると次の(1)及び(2)式でそれぞれ与えら
れでいる。
N、ヨ、 ざらに平均雑音レベルNL及び平均雑音分数NDから下
記の(3)式に従って音声切り出しレベルVLを決定し
でいる。
VL = NL + NI X No・ ・ ・ ・ 
・ ・ ・ ・ ・ ・ ・ ・ (3)ここで、N1
はあらかじめシステムで定めた計数であり通例2〜4程
度の値となる。このように算定された音声切り出しレベ
ルVLを以後音声区間検出部16で利用する。
次に従来の音声区間検出動作について簡単に説明する。
先ず、通常の如く、外部入力部10より入力された音響
信号をA/D変換部12において入力信号に変換した後
、パワー算出部14にて音響パワーPを算出する。この
音響パワーP、の一例を第3図に示す、同図において、
縦軸に音響パワーP横軸にフレーム番号工をとって示し
である0図中、破線は音声切り出しレベルVLt表して
いる。工、及び工、は音声区間の音声始端及び音声終端
である。また、V、、V、は音声始端フレーム及び音声
終端フレームであり、通常はフレーム周期を8ミリ秒程
度としている。
音声区間検出部16では上述した音声区間を切り出す処
理を行うもので、従来は音響パワーP1に対して次の条
件■〜■が成立する最初のフレームを音声区間の始端フ
レームとしでいる。
■始端条件 P≧V、となるフレームがあるフレームI以降、予め経
験により定められている複数個すなわちN2個のフレー
ム以上継続したとき、このフレームエを始端フレームV
、とする。
■終端条件 また、又始端フレームV、を検出後、以下の条件が最初
に成立するフレームの直前のフレームを音声区間の終端
フレームV、とする。
P<V、となるフレームがフレームエ以降、予め経験に
より定められでいる複数個すなわちN3個のフレーム以
上継続したとき。
■除外条件 さらに音声区間長V L E Hが以下の条件にかかる
場合には音声区間とみなさない。
VLEII<N、又はV L EN > N s但し VLE11=Vε −S+1 でありかつN4及びN5は経験により予め定められたフ
レーム数である。
(発明が解決しようとする課題) 上述した従来の音声切り出しレベルVLの算定は、背景
雑音の音響パワーの分布が正規分布に近いことを仮定し
ている。実際静かな環境下ではこのような近似がよく当
てはまる。しかし騒音レベルが高いような環境か、もし
くは電話等の回!!を経由しできたような入力条件では
、クリック音等の継続時間は短いがピークの音響パワー
が極めて高い雑音が存在するため、この近似から外れる
場合が多く、これがため、第4図に示される様に音響パ
ワーレベルのかなり高いとこ′ろの分布が増加する。
従ってこのような雑音がちようと背景雑音レベルの測定
時に発生すると、平均雑音レベルNL、平均雑音分散N
Dが共に高く算定されてしまい、これは音声区間検出誤
りの原因となる。このような減少を軽減する一手法とし
て平均雑音レベルの測定時間Nを長くする手法があるが
、この手法では認識開始に至るまでの準備時間が長くな
り音声認識製雪自体の応答性が低下してしまうため、充
分な測定時間Nを採用出来なかった。
この発明の目的は、上述したクリック音等の雑音環境下
においても音声区間検出誤りを著しく減少させることが
出来るような音声切り出しレベルVLを設定出来る音声
区間検出方式を提供することにある。
(課題を解決するための手段) この目的の達成を図るため、この発明の音声区間検出方
式によれば、閾値算出部において、音響パワーP1のう
ち最も大なる値を持つものから順に、第一の所定の個数
N maxの音響パワーと、最も小なる値をもつものか
ら順に第二の所定の個数N m I nの音響パワーと
を除いた残りの全ての音響パワーP、に対して平均雑音
レベルNL′、平均雑音分散No’を算出した後、当該
平均雑音レベルNL’及び平均雑音分散N。゛より音声
切り出しレベルLを算定することを特徴とする。
(作用) このように構成すれば、音声無入力時の音響パワー分布
のうちクリック音等の雑音に起因する高音響パワー側と
、その他の雑音に起因する低音響パワー側を除いた、本
来の音響パワーが集中する中間の分布領域中の音響パワ
ーを用いて音声切り出しレベルVLを定める方式である
ので、ビークパワーの高い雑音成分にほとんど影響され
ずに適切な音声切り出しレベルVL8著しく簡単に決定
出来る。その結果、音声区間検出の誤りが減少する。従
って、総合的な認識性能に優れた音声認識袋Mを提供す
ることになる。
(実施例) 以下、図面を参照してこの発明の音声区間検出方式の実
施例を説明する。
第1図はこの発明の音声区間検出方式の実施例の説明に
供するブロック図、第5図は闇値設定部での処理の流れ
図である。
第1図において、第2図に示した構成成分と同−の構成
成分についでは同一の符号を付()て示し、その詳細な
説明を省略する。
又、第1図において、24は第2図に示す従来の閾値設
定部18に対応する閾値設定部であるが、この従来の閾
値設定部18とはその機能従って内部構成が異なる。
先ず、この実施例における閾値設定部24につき第5図
を併用しながら説明する。
この実施例では、先ず、音声無入力状態で各フレームI
(I=1、・・・、N)毎の音響パワーP (I)をパ
ワー算出部14で算出し、これを闇値設定部24及び音
声区間検出部16に送る。
閾値設定部24においては、マイクロプロセッサ30の
制御の下で、これら音響パワーP (I)をパワー算出
部14からシステムバス36を経てメモリ32の各メモ
リ領1或日MEM (1) 、RMEM(2)、RM・
・・PMEM (N)に−時記憶する。この場合、I=
1 (1番目)のフレームから処理を開始する(ステッ
プ51)6次にINNであるかを判定しくステップS2
)、I≦Nである場合には1番目のフレームの音響パワ
ーP、をメモリ領vtRMEM (1)に−時記憶する
(ステップ53)0次にフレーム番号I!次のI=2へ
進め(ステップS4)、上述したステップS2へ戻し、
ステップS2及びS3の処理を行って2番目(I=2)
のフレームの音響パワーP2tメモリ領tSiRMEM
 (2)へ−時記憶する。このように、順次に、I=N
まで各音響パワーP、をそれぞれ対応するメモリ領域R
MEM (N)へ−時記憶する。
ステップS2において、INNと判定されると、マイク
ロプロセッサの制御の下で、メモリ32の各メモリ領域
RMEM(1)〜RMEM (N)に記憶されでいる音
響パワーP1〜PNを昇順にソーティングを行って、そ
の結果をシステムバス36を経てワークメモリ34へ送
り、このワークメモリ34のメモリ領域SMEM (1
) 、SMEM(2) 5.、、SMEM (N)へ大
きざの順に再格納させる(ステップS5)。従って、例
えば、メモリ領域SMEM(1)には音響パワーP1の
うち一番ピーク値の小さいものが記憶され、逆にメモリ
領域SMEM (N)には一番ピーク値の大きいものが
記憶される。すなわち、この実施例では、メモリ領域S
MEM(J)(J=1、・・・、N)に格納される音響
パワーPlの大きさは次の間係が成立する。
SMEM(+)  ≦SMEM(2)  ≦・・・SM
EM(N)・ ・ ・ ・ (4)で読み出しかつ、こ
れら個数に対応する音響パワーP、を除いた残りの全て
の音響パワーP1をワークメモリ34がらマイクロプロ
セッサ3oへ読み出す(ステップS6)。
次に、マイクロプロセッサ30において、次式(5)(
こ従った平均雑音レベルN、′の算出処理を行ない、そ
の結果をマイクロプロセッサ3oのメモリに一時記憶し
ておく(ステップ57)6次にマイクロプロセッサ30
において、次の式で示される平均雑音レベルN、′を算
出する。
この目的のため、マイクロプロセッサ30のメモリ(図
示せず)に、経験によって予め定められた、最大音響パ
ワーから順に小ざい方へ数えてこの平均雑音レベルの計
算に用いない音響レベルの個数N、□と、同様1こ経験
によって予め定められた、最小音響パワーから順に大き
い方へ数えて、この平均雑音レベルの計算に用いない音
響レベルの個数N Mll’lとを格納しておき、これ
ら格納されたN 1llaX及びN、、、+−8マイク
ロプロセツサ30自身次に、マイクロプロセッサ30に
おいて、メモリからN□8及びN minと平均雑音レ
ベルNL’とを読み出して次式(6)で与えられる平均
雑音分散N。′を算出し、その結果ND゛を当該メモリ
に一時記憶させる(ステ・ンブS8)。
次に、これら平均雑音レベルN、’ 、平均雑音分散N
D′及び予め経験によって定められてマイクロプロセッ
サ30中のメモリに格納されでいる係数N+をそれぞれ
読み出して次式(7)に従って音声切り出しレベルVL
′を求める(ステップS9)。
る、NヨaX % NmInはピーク性雑音の発生確率
、継続時間の性質によって適切な値に設定する必要があ
る0通例N□8は測定フレーム数のNの1/10〜11
50程度、N m L nはNの1/1゜〜1150な
いし0の値とするのが好適である。
音声区間検出処理、認識処理については従来例の通りで
あるのでその説明を省略する。
上述した実施例はこの発明の好適例であるにすぎず、こ
の発明は上述した実施例にのみ限定されるものではない
こと明らかである。
VL = NL+ NIX No・ ・ ・ ・ ・ 
・ ・ ・ ・ ・ ・ ・ (7)閾値設定部24に
おいて上述したステップS]〜S9の処理が完了すると
、その結果である音声切り出しレベルVL′がマイクロ
プロセッサ30の制御によってシステムバス36を経て
音声区間検出部16へ送られる。尚、測定時間Nは通例
0.16〜o、32秒程度が好適であり、フレーム周期
が8ミリ秒の場合、N=20〜4oとな(発明の効果) 上述した説明からも明らかなようにこの発明の音声区間
検出方式によれば、背景雑音レベル測定に際してサシプ
ルされた音響パワーP、のうち最も大なる値を持つもの
からN maX個の音響パワと、最も小なる値を持つも
のから順にN、、、1.、個の音響パワーを除いた残り
の全ての音響パワーPの平均雑音レベル値NL′、平均
雑音分散NDを求めることにより、ど−クバワーの高い
雑音成分が多い環境下でもその影響を受けることなく、
適切な音声切り出しレベルを設定出来るように構成した
ものであるから、高雑音下でも音声区間検出誤りが非常
に少なくなり、これがため総合的な認識性能に優れた認
識部Mを実現することが出来る。
20・・・認識部、 24・・・閾値設定部、 32・・・メモリ、 36・・・システムバス。
22・・・外部機器 30・・・マイクロプロセッサ 34・・・ワークメモリ
【図面の簡単な説明】
第1図はこの発明の音声区間検出方式の説明に供するブ
ロック図、 第2図は従来の音声区間検出方式の説明に供するブロッ
ク図、 第3図はこの発明及び従来の説明に供する音声パワーの
一例を示す図、 第4図は音響パワー分布を示す図、 第5図は音声切り出しレベルの算出処理の動作の流れ図
である。

Claims (1)

    【特許請求の範囲】
  1. (1)外部入力部からの入力音響信号からパワー算出部
    においてフレームと呼ばれる微小時間毎に音響パワーP
    _1を算出し、閾値設定部において該音響パワーP_1
    に基づいて平均雑音レベルを算定し、前記音響パワーP
    _1と平均雑音レベルとから音声区間を検出し、認識部
    において当該音声区間で定まる音声パタンに対して認識
    処理を行ってその結果を外部機器へ出力するように構成
    した音声認識装置において、前記音声区間を検出するに
    当り、 前記パワー算出部においては音声無入力状態での音響パ
    ワーP_1を定められた時間分測定し、前記閾値算出部
    においては、当該音響パワーP_1のうち最も大なる値
    を持つものから順に第一の所定の個数N_m_a_xの
    音響パワーと、最も小なる値を持つものから順に第二の
    所定の個数N_m_i_nの音響パワーとを除いた残り
    の全ての音響パワーP_1に対して平均雑音レベルN_
    L′、平均雑音分散N_D′を算出した後、当該平均雑
    音レベルN_L′及び平均雑音分散N_D′より音声切
    り出しレベルV_Lを算定する ことを特徴とする音声区間検出方式。
JP63198162A 1988-08-09 1988-08-09 音声区間検出方式 Expired - Lifetime JPH0823756B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63198162A JPH0823756B2 (ja) 1988-08-09 1988-08-09 音声区間検出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63198162A JPH0823756B2 (ja) 1988-08-09 1988-08-09 音声区間検出方式

Publications (2)

Publication Number Publication Date
JPH0247698A true JPH0247698A (ja) 1990-02-16
JPH0823756B2 JPH0823756B2 (ja) 1996-03-06

Family

ID=16386496

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63198162A Expired - Lifetime JPH0823756B2 (ja) 1988-08-09 1988-08-09 音声区間検出方式

Country Status (1)

Country Link
JP (1) JPH0823756B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0535294A (ja) * 1991-07-26 1993-02-12 Nec Corp 音声認識装置
JP2006209069A (ja) * 2004-12-28 2006-08-10 Advanced Telecommunication Research Institute International 音声区間検出装置および音声区間検出プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4521673B2 (ja) * 2003-06-19 2010-08-11 株式会社国際電気通信基礎技術研究所 発話区間検出装置、コンピュータプログラム及びコンピュータ

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0535294A (ja) * 1991-07-26 1993-02-12 Nec Corp 音声認識装置
JP2006209069A (ja) * 2004-12-28 2006-08-10 Advanced Telecommunication Research Institute International 音声区間検出装置および音声区間検出プログラム

Also Published As

Publication number Publication date
JPH0823756B2 (ja) 1996-03-06

Similar Documents

Publication Publication Date Title
US6314396B1 (en) Automatic gain control in a speech recognition system
US5867581A (en) Hearing aid
US8065115B2 (en) Method and system for identifying audible noise as wind noise in a hearing aid apparatus
JP2002366174A (ja) G.729の付属書bに準拠した音声アクティビティ検出回路を収束させるための方法
CZ67896A3 (en) Voice detector
JPH09325790A (ja) 音声処理方法および装置
CN103226952A (zh) 语音处理装置、方法和程序
KR20000023823A (ko) 다중 행렬식을 채용하는 음성검출 시스템
JP3194135B2 (ja) デジタルオーディオプロセッサ
EP1300832A1 (en) Speech recognizer, method for recognizing speech and speech recognition program
CN113555033A (zh) 语音交互系统的自动增益控制方法、装置及系统
CN110556128B (zh) 一种语音活动性检测方法、设备及计算机可读存储介质
JPH0247698A (ja) 音声区間検出方式
US12425780B2 (en) Audio signal processing method and apparatus, device and storage medium
EP1424684A1 (en) Voice activity detection apparatus and method
US6665411B2 (en) DVE system with instability detection
US8738367B2 (en) Speech signal processing device
US7046792B2 (en) Transmit/receive arbitrator
EP0348888B1 (en) Overflow speech detecting apparatus
KR20060057919A (ko) 자동음성인식시스템의 음성 2단 끝점검출 장치 및 그 방법
JPH0632537B2 (ja) ハウリング抑圧装置
JPH07225592A (ja) 有音区間検出装置
JPH02176796A (ja) 音声認識装置
JP2001117585A (ja) 音声認識方法及び装置
JP2000352987A (ja) 音声認識装置