JPH0247698A

JPH0247698A - 音声区間検出方式

Info

Publication number: JPH0247698A
Application number: JP63198162A
Authority: JP
Inventors: Takashi Miki; 三木　敬
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1988-08-09
Filing date: 1988-08-09
Publication date: 1990-02-16
Anticipated expiration: 2011-03-06
Also published as: JPH0823756B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）この発明は音声認識装置における音声区間の検出方式に
関するものである。

（従来の技術）通常の音声認識装置では、入力された音響信号より音声
が存在する区間を検出する処理（以下音声区間検出処理
と呼ぶ）と、検出された音声の内容を認識判定する（以
下認識処理と呼／！ｆｉ）処理に大別できる。

通例このような動作を行うために音声認識装置では入力
された音響フレームと呼ばれている微小時間毎に音響信
号を分析してその特徴パラメータを算出しでいる。特徴
パラメータとしでは音響パワー、パワースペクトル等が
代表的なものである。

音声区間検出は音声区間がそれ以外の区間に比べ音響パ
ワーが大きいという性質を利用している。

このような従来の音声区間の検出処理方式としては例え
ば文献：特開昭６０−１１４９００号公報に開示された
ものがある。この従来方式の一構成例を第２図を参照し
て説明する。

外部入力部１０、例えば、マイクロホン、電話機等から
入力した音響信号をＡ／Ｄ変換部１２において標本化し
ディジタル信号系列に変換する０次のパワー算出部１４
ではこのディジタル信号系列（以下単に入力信号とする
）からフレーム毎に音響パワーＰＩ　　（Ｉはフレーム
番号を示す）を演算し、これを音声区間検出部１６及び
閾値設定部１８にそれぞれ送出する。閾１設定部１８に
おいて、後述するように、この音響パワーＰ、に基づい
て平均雑音レベルを算定して音声区間検出部１６へ送り
、この音声区間検出部１δにおいて、音響パワーＰ、と
平均雑音レベルとから音声区間を検出しで判定する０次
の認識部２０においては、音声区間の音響パワー系列か
らなる音声バタンに対しで認識処理が行なわれ、その認
識結果が外部機器２２、例えば、コンピュータとかその
他所要の表示装置等へ送られる。

このような構成の従来の音声認識製雪では認識動作に先
立っで前述したように音声区間検出のための平均雑音レ
ベルを設定する目的で、背景雑音レベルの測定を行って
いる。これは無入力状態での音響パワーの性質を測定し
適切な音声区間検出用閾値を決定するためである。

以下、この処理につき説明する。外部入力部１０よつ入
力された音響信号からパワー算出部１４で得られた音響
パワーＰ、に基づいて、閾値設定部１日では平均雑音レ
ベルＮＬ、平均雑音分散Ｎ。を算出する。これら平均雑
音レベルＮ、及び平均雑音分数ＮＤは、Ｎを測定フレー
ム数とすると次の（１）及び（２）式でそれぞれ与えら
れでいる。

Ｎ、ヨ、ざらに平均雑音レベルＮＬ及び平均雑音分数ＮＤから下
記の（３）式に従って音声切り出しレベルＶＬを決定し
でいる。

ＶＬ　＝　ＮＬ　＋　ＮＩ　Ｘ　Ｎｏ・　・　・　・　
・　・　・　・　・　・　・　・　（３）ここで、Ｎ１
はあらかじめシステムで定めた計数であり通例２〜４程
度の値となる。このように算定された音声切り出しレベ
ルＶＬを以後音声区間検出部１６で利用する。

次に従来の音声区間検出動作について簡単に説明する。

先ず、通常の如く、外部入力部１０より入力された音響
信号をＡ／Ｄ変換部１２において入力信号に変換した後
、パワー算出部１４にて音響パワーＰを算出する。この
音響パワーＰ、の一例を第３図に示す、同図において、
縦軸に音響パワーＰ横軸にフレーム番号工をとって示し
である０図中、破線は音声切り出しレベルＶＬｔ表して
いる。工、及び工、は音声区間の音声始端及び音声終端
である。また、Ｖ、、Ｖ、は音声始端フレーム及び音声
終端フレームであり、通常はフレーム周期を８ミリ秒程
度としている。

音声区間検出部１６では上述した音声区間を切り出す処
理を行うもので、従来は音響パワーＰ１に対して次の条
件■〜■が成立する最初のフレームを音声区間の始端フ
レームとしでいる。

■始端条件Ｐ≧Ｖ、となるフレームがあるフレームＩ以降、予め経
験により定められている複数個すなわちＮ２個のフレー
ム以上継続したとき、このフレームエを始端フレームＶ
、とする。

■終端条件また、又始端フレームＶ、を検出後、以下の条件が最初
に成立するフレームの直前のフレームを音声区間の終端
フレームＶ、とする。

Ｐ＜Ｖ、となるフレームがフレームエ以降、予め経験に
より定められでいる複数個すなわちＮ３個のフレーム以
上継続したとき。

■除外条件さらに音声区間長Ｖ　Ｌ　Ｅ　Ｈが以下の条件にかかる
場合には音声区間とみなさない。

ＶＬＥＩＩ＜Ｎ、又はＶ　Ｌ　ＥＮ　＞　Ｎ　ｓ但しＶＬＥ１１＝Ｖε　−Ｓ＋１でありかつＮ４及びＮ５は経験により予め定められたフ
レーム数である。

（発明が解決しようとする課題）上述した従来の音声切り出しレベルＶＬの算定は、背景
雑音の音響パワーの分布が正規分布に近いことを仮定し
ている。実際静かな環境下ではこのような近似がよく当
てはまる。しかし騒音レベルが高いような環境か、もし
くは電話等の回！！を経由しできたような入力条件では
、クリック音等の継続時間は短いがピークの音響パワー
が極めて高い雑音が存在するため、この近似から外れる
場合が多く、これがため、第４図に示される様に音響パ
ワーレベルのかなり高いとこ′ろの分布が増加する。

従ってこのような雑音がちようと背景雑音レベルの測定
時に発生すると、平均雑音レベルＮＬ、平均雑音分散Ｎ
Ｄが共に高く算定されてしまい、これは音声区間検出誤
りの原因となる。このような減少を軽減する一手法とし
て平均雑音レベルの測定時間Ｎを長くする手法があるが
、この手法では認識開始に至るまでの準備時間が長くな
り音声認識製雪自体の応答性が低下してしまうため、充
分な測定時間Ｎを採用出来なかった。

この発明の目的は、上述したクリック音等の雑音環境下
においても音声区間検出誤りを著しく減少させることが
出来るような音声切り出しレベルＶＬを設定出来る音声
区間検出方式を提供することにある。

（課題を解決するための手段）この目的の達成を図るため、この発明の音声区間検出方
式によれば、閾値算出部において、音響パワーＰ１のう
ち最も大なる値を持つものから順に、第一の所定の個数
Ｎ　ｍａｘの音響パワーと、最も小なる値をもつものか
ら順に第二の所定の個数Ｎ　ｍ　Ｉ　ｎの音響パワーと
を除いた残りの全ての音響パワーＰ、に対して平均雑音
レベルＮＬ′、平均雑音分散Ｎｏ’を算出した後、当該
平均雑音レベルＮＬ’及び平均雑音分散Ｎ。゛より音声
切り出しレベルＬを算定することを特徴とする。

（作用）このように構成すれば、音声無入力時の音響パワー分布
のうちクリック音等の雑音に起因する高音響パワー側と
、その他の雑音に起因する低音響パワー側を除いた、本
来の音響パワーが集中する中間の分布領域中の音響パワ
ーを用いて音声切り出しレベルＶＬを定める方式である
ので、ビークパワーの高い雑音成分にほとんど影響され
ずに適切な音声切り出しレベルＶＬ８著しく簡単に決定
出来る。その結果、音声区間検出の誤りが減少する。従
って、総合的な認識性能に優れた音声認識袋Ｍを提供す
ることになる。

（実施例）以下、図面を参照してこの発明の音声区間検出方式の実
施例を説明する。

第１図はこの発明の音声区間検出方式の実施例の説明に
供するブロック図、第５図は闇値設定部での処理の流れ
図である。

第１図において、第２図に示した構成成分と同−の構成
成分についでは同一の符号を付（）て示し、その詳細な
説明を省略する。

又、第１図において、２４は第２図に示す従来の閾値設
定部１８に対応する閾値設定部であるが、この従来の閾
値設定部１８とはその機能従って内部構成が異なる。

先ず、この実施例における閾値設定部２４につき第５図
を併用しながら説明する。

この実施例では、先ず、音声無入力状態で各フレームＩ
（Ｉ＝１、・・・、Ｎ）毎の音響パワーＰ　（Ｉ）をパ
ワー算出部１４で算出し、これを闇値設定部２４及び音
声区間検出部１６に送る。

閾値設定部２４においては、マイクロプロセッサ３０の
制御の下で、これら音響パワーＰ　（Ｉ）をパワー算出
部１４からシステムバス３６を経てメモリ３２の各メモ
リ領１或日ＭＥＭ　（１）　、ＲＭＥＭ（２）、ＲＭ・
・・ＰＭＥＭ　（Ｎ）に−時記憶する。この場合、Ｉ＝
１　（１番目）のフレームから処理を開始する（ステッ
プ５１）６次にＩＮＮであるかを判定しくステップＳ２
）、Ｉ≦Ｎである場合には１番目のフレームの音響パワ
ーＰ、をメモリ領ｖｔＲＭＥＭ　（１）に−時記憶する
（ステップ５３）０次にフレーム番号Ｉ！次のＩ＝２へ
進め（ステップＳ４）、上述したステップＳ２へ戻し、
ステップＳ２及びＳ３の処理を行って２番目（Ｉ＝２）
のフレームの音響パワーＰ２ｔメモリ領ｔＳｉＲＭＥＭ
　（２）へ−時記憶する。このように、順次に、Ｉ＝Ｎ
まで各音響パワーＰ、をそれぞれ対応するメモリ領域Ｒ
ＭＥＭ　（Ｎ）へ−時記憶する。

ステップＳ２において、ＩＮＮと判定されると、マイク
ロプロセッサの制御の下で、メモリ３２の各メモリ領域
ＲＭＥＭ（１）〜ＲＭＥＭ　（Ｎ）に記憶されでいる音
響パワーＰ１〜ＰＮを昇順にソーティングを行って、そ
の結果をシステムバス３６を経てワークメモリ３４へ送
り、このワークメモリ３４のメモリ領域ＳＭＥＭ　（１
）　、ＳＭＥＭ（２）　５．、、ＳＭＥＭ　（Ｎ）へ大
きざの順に再格納させる（ステップＳ５）。従って、例
えば、メモリ領域ＳＭＥＭ（１）には音響パワーＰ１の
うち一番ピーク値の小さいものが記憶され、逆にメモリ
領域ＳＭＥＭ　（Ｎ）には一番ピーク値の大きいものが
記憶される。すなわち、この実施例では、メモリ領域Ｓ
ＭＥＭ（Ｊ）（Ｊ＝１、・・・、Ｎ）に格納される音響
パワーＰｌの大きさは次の間係が成立する。

ＳＭＥＭ（＋）　　≦ＳＭＥＭ（２）　　≦・・・ＳＭ
ＥＭ（Ｎ）・　・　・　・　（４）で読み出しかつ、こ
れら個数に対応する音響パワーＰ、を除いた残りの全て
の音響パワーＰ１をワークメモリ３４がらマイクロプロ
セッサ３ｏへ読み出す（ステップＳ６）。

次に、マイクロプロセッサ３０において、次式（５）（
こ従った平均雑音レベルＮ、′の算出処理を行ない、そ
の結果をマイクロプロセッサ３ｏのメモリに一時記憶し
ておく（ステップ５７）６次にマイクロプロセッサ３０
において、次の式で示される平均雑音レベルＮ、′を算
出する。

この目的のため、マイクロプロセッサ３０のメモリ（図
示せず）に、経験によって予め定められた、最大音響パ
ワーから順に小ざい方へ数えてこの平均雑音レベルの計
算に用いない音響レベルの個数Ｎ、□と、同様１こ経験
によって予め定められた、最小音響パワーから順に大き
い方へ数えて、この平均雑音レベルの計算に用いない音
響レベルの個数Ｎ　Ｍｌｌ’ｌとを格納しておき、これ
ら格納されたＮ　１ｌｌａＸ及びＮ、、、＋−８マイク
ロプロセツサ３０自身次に、マイクロプロセッサ３０に
おいて、メモリからＮ□８及びＮ　ｍｉｎと平均雑音レ
ベルＮＬ’とを読み出して次式（６）で与えられる平均
雑音分散Ｎ。′を算出し、その結果ＮＤ゛を当該メモリ
に一時記憶させる（ステ・ンブＳ８）。

次に、これら平均雑音レベルＮ、’　、平均雑音分散Ｎ
Ｄ′及び予め経験によって定められてマイクロプロセッ
サ３０中のメモリに格納されでいる係数Ｎ＋をそれぞれ
読み出して次式（７）に従って音声切り出しレベルＶＬ
′を求める（ステップＳ９）。

る、ＮヨａＸ　％　ＮｍＩｎはピーク性雑音の発生確率
、継続時間の性質によって適切な値に設定する必要があ
る０通例Ｎ□８は測定フレーム数のＮの１／１０〜１１
５０程度、Ｎ　ｍ　Ｌ　ｎはＮの１／１゜〜１１５０な
いし０の値とするのが好適である。

音声区間検出処理、認識処理については従来例の通りで
あるのでその説明を省略する。

上述した実施例はこの発明の好適例であるにすぎず、こ
の発明は上述した実施例にのみ限定されるものではない
こと明らかである。

ＶＬ　＝　ＮＬ＋　ＮＩＸ　Ｎｏ・　・　・　・　・　
・　・　・　・　・　・　・　（７）閾値設定部２４に
おいて上述したステップＳ］〜Ｓ９の処理が完了すると
、その結果である音声切り出しレベルＶＬ′がマイクロ
プロセッサ３０の制御によってシステムバス３６を経て
音声区間検出部１６へ送られる。尚、測定時間Ｎは通例
０．１６〜ｏ、３２秒程度が好適であり、フレーム周期
が８ミリ秒の場合、Ｎ＝２０〜４ｏとな（発明の効果）上述した説明からも明らかなようにこの発明の音声区間
検出方式によれば、背景雑音レベル測定に際してサシプ
ルされた音響パワーＰ、のうち最も大なる値を持つもの
からＮ　ｍａＸ個の音響パワと、最も小なる値を持つも
のから順にＮ、、、１．、個の音響パワーを除いた残り
の全ての音響パワーＰの平均雑音レベル値ＮＬ′、平均
雑音分散ＮＤを求めることにより、ど−クバワーの高い
雑音成分が多い環境下でもその影響を受けることなく、
適切な音声切り出しレベルを設定出来るように構成した
ものであるから、高雑音下でも音声区間検出誤りが非常
に少なくなり、これがため総合的な認識性能に優れた認
識部Ｍを実現することが出来る。

２０・・・認識部、２４・・・閾値設定部、３２・・・メモリ、３６・・・システムバス。

２２・・・外部機器３０・・・マイクロプロセッサ３４・・・ワークメモリ

【図面の簡単な説明】

第１図はこの発明の音声区間検出方式の説明に供するブ
ロック図、第２図は従来の音声区間検出方式の説明に供するブロッ
ク図、第３図はこの発明及び従来の説明に供する音声パワーの
一例を示す図、第４図は音響パワー分布を示す図、第５図は音声切り出しレベルの算出処理の動作の流れ図
である。

Claims

【特許請求の範囲】

（１）外部入力部からの入力音響信号からパワー算出部
においてフレームと呼ばれる微小時間毎に音響パワーＰ
＿１を算出し、閾値設定部において該音響パワーＰ＿１
に基づいて平均雑音レベルを算定し、前記音響パワーＰ
＿１と平均雑音レベルとから音声区間を検出し、認識部
において当該音声区間で定まる音声パタンに対して認識
処理を行ってその結果を外部機器へ出力するように構成
した音声認識装置において、前記音声区間を検出するに
当り、前記パワー算出部においては音声無入力状態での音響パ
ワーＰ＿１を定められた時間分測定し、前記閾値算出部
においては、当該音響パワーＰ＿１のうち最も大なる値
を持つものから順に第一の所定の個数Ｎ＿ｍ＿ａ＿ｘの
音響パワーと、最も小なる値を持つものから順に第二の
所定の個数Ｎ＿ｍ＿ｉ＿ｎの音響パワーとを除いた残り
の全ての音響パワーＰ＿１に対して平均雑音レベルＮ＿
Ｌ′、平均雑音分散Ｎ＿Ｄ′を算出した後、当該平均雑
音レベルＮ＿Ｌ′及び平均雑音分散Ｎ＿Ｄ′より音声切
り出しレベルＶ＿Ｌを算定することを特徴とする音声区間検出方式。