JPS6147437B2

JPS6147437B2 -

Info

Publication number: JPS6147437B2
Application number: JP55174341A
Authority: JP
Inventors: Satoru Kabasawa; Hidekazu Tsuboka; Yoshiteru Mifune
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1980-12-10
Filing date: 1980-12-10
Publication date: 1986-10-18
Also published as: JPS5797599A

Description

【発明の詳細な説明】本発明において、音声は式(1)で示される様に、
入力をある時間毎にサンプリングして得られる特
徴ベクトルの系列として表わされるものとする。

X₁，X₂，…，Ｘ_N (1) 上式において、各々のXi（ｉ＝１，２，…，
Ｎ）はそれぞれｍ次元ベクトルであつて、 Xi＝（ｘ_i1，ｘ_i2，…，ｘ_in） (2) と表わされる。ここで、例えばｍチヤンネルのバ
ンドパスフイルタの出力x₁（ｔ），x₂（ｔ），…，
ｘ_n（ｔ）の時間標本化したものとして特徴ベク
トルをとらえることができる。

また、特徴ベクトルで表わされる音声の区間を
フレームという。式(1)の添字１，２，…，ｎは時
間（即ち、フレーム）を表わすパラメータであ
る。

特徴パラメータの系列とは、例えばエネルギー
の系列であつて、式(1)で示される音声の特徴ベク
トルの系列がフイルタ・バンクの出力である場合
には、特徴ベクトルＸ_iのエネルギーは、 Pi＝Σ^ｍ _ｊ＝１ｘ^２ _ｉｊ (3) と定義される。式(1)の特徴ベクトルの系列に対応
するエネルギーの系列は、式(3)より、 P₁，P₂，…，Ｐ_N (4) と表わされる。

式(4)で示されるエネルギーの系列の変動に対し
て、予め設定された閾値を越えた区間を音声区間
として検出するが、これは、音声の自動認識にお
ける重要な間題の一つである。音声区間検出の問
題は、始端の検出、は終端の検出の二つの部
分問題に分けることができる。

本発明は、この二つの部分問題のうちでの問
題に関するもので、終端の検出を目的とするもの
である。

ところで、音声区間の検出においては、異なつ
た話者ではもちろんのこと同一話者でも発話ごと
に入力レベルの平均値が変動し、また発話音声に
加わる雑音によつてエネルギーの系列が不規則な
変動を伴なう。これらの変動が原因で音声区間を
正しく検出できないために、発話音声を誤認識す
ることがしばしばある。

本発明は、エネルギーの系列の変動に適応して
閾値を設定することによつて、入力レベルの平均
値の変動や雑音による不規則な変動を吸収し、予
め設定した時間観察して、より正確に音声区間を
検出することを目的とする。

ただし、本発明においては式(4)の系列を式(3)で
与えられる様なエネルギーのみならず。

Pi＝（Σ^ｍ _ｊ＝１ｘ^２ _ｉｊ）^1/2 (5) Pi＝Σ^ｍ _ｊ＝１｜ｘ_ij｜ (6) などによつて定義しても有効となる。即ち、Ｐ_i
は式(3)のエネルギーと同等のもので、音声入力レ
ベルの特徴を表現できるものであればよいのであ
る。

エネルギー系列から音声区間の終端を検出する
方法として従来提案されている方式を説明し、そ
の問題点を述べる。

従来提案されている音声区間の終端検出の方法
は、予め定めたエネルギー・レベルの閾値が高す
ぎれば、雑音による不規則な変動や発話時のレベ
ルの平均値の変動によつて音声区間の正しい終端
よりも早い時点で終端を誤検出しやすい。また、
予め定めたエネルギー・レベルの閾値が低すぎれ
ば、発話時のレベルの平均値の変動による誤検出
はかなり除かれるのであろうが、雑音による不規
則な変動によつて音声区間の正しい終端よりも遅
い時点で終端を誤検出しやすいという欠点があ
る。

それ故、音声区間の終端を正しく検出するため
には、発話音声の入力レベルの変動を観察すると
共に、音声に加わつた雑音量を観祭して、個々の
発話音声に適応したエネルギー・レベルの閾値を
決定する必要がある。

以下で述べる終端検出方式は、このような背景
からなされたものである。この本発明を実現する
構成の一実施例を示して説明する。

第１図は、適応的に定めた閾値を用いて音声区
間の終端を検出するための一構成例である。

１で示される極大値決定部においては、入力レ
ベルの変動を観祭していて、エネルギー・レベル
の極大値を検出するたびに、２で示される閾値決
定部に極大値が与えられる。閾値決定部２におい
ては、極大値決定部１の出力、即ち極大値が、現
在の閾値を越えた場合に、その極大値に基づいて
新しい閾値を決定する。エネルギーの系列が現在
の閾値を越えない区間において極大値が存在して
も閾値はそのままである。いま、閾値をθ，極大
値をαとすると、θはある関数ｆに関して、 θ＝ｆ（α） (7) で与えられる。具体的には、例えば θ＝max（α／16，25） (8) で与えられる。ここで、max（・）は（）内の
最大値を与える関数である。最初の閾値は、最初
の極大値を用いて式(8)で与えられる。

状態決定部３においては、閾値決定部２の出
力、即ち閾値に基づいて、エネルギーの系列が閾
値よりも大きいか、或いは小さいが決定される。
４で示される状態系列保持部においては、状態決
定部３の出力を保持し、予め設定された時間、即
ち予め設定したフレーム数以上連続してエネルギ
ー系列が閾値以下となつた時点で、はじめてエネ
ルギーの系列が閾値以下となつた時点が５で示さ
れる終端検出部に出力される。終端検出部５にお
いては、状態保持部４の出力をもとに、エネルギ
ーの系列から終端のフレームが検出され、出力さ
れるのである。

第２図は、第１図に示した構成例の動作を具体
的に説明するためのエネルギーの系列の一例であ
る。同図において、横軸は時間、即ちフレームで
あり、縦軸はエネルギー・レベルである。エネル
ギーの系列は、同図に示された曲線上の離散的な
点に相当するが、表記の都合上、連続した曲線で
示してある。

極大値決定部１では、極大値θ_１を検出し閾値
決定部２にα_１を与える。閾値決定部２では、式
(8)に基づいて閾値θ_１が決定される。状態決定部
３では、閾値θ_１に基づいて、エネルギーの系列
がθ_１よりも大きいか小さいかが決定され出力さ
れる。状態系列保持部４では、状態決定部３から
の出力を保持し、予め設定された時間Ｔの間θ_１
以下のエネルギーが連続するかどうかを観祭して
いるが、第２図の例では、θ_１に関しては、Ｔ以
内でエネギーの系列がθ_１を越えるので、エネル
ギーの系列がはじめてθ_１より小さくなつた時点
t₁は終端検出部への出力とはならない。同様に、
極大値α_２をもとに閾値θ_２が決定されるが、終
端検出部５への出力はない。ただし、極大値α_４
は閾値θを越えないので、極大値α_３の時点ま
で、閾値θはそのままである。しかし、極大値α
_３をもとに決定された閾値θ_３に関しては、θ_３
以下となる時間がＴ以上連続するので、エネルギ
ーの系列がはじめてθ_３より小さくなつた時点t₃
が終端として検出され、終端検出部５から出力さ
れるのである。

以上のように本発明は、音声入力レベルの平均
値の変動に伴ない、終端検出のための閾値を適応
的に決定して、より正確な終端検出を行なう終端
検出方式であつて、従来の方式に比較して音声入力レベルの平均値の変動に応じて、適応
的に終端検出のための閾値を決定しているので、
入力レベルの平均値の変動や雑音によるエネルギ
ーの系列の不規則な変動が原因となる終端の誤検
出の低減が可能となり、より正確な終端の検出が
行なえる。

等の優れた特徴を有するものである。そして音
声区間を正確に検出することは、音声の自動認識
の正確さの向上につながり、したがつて入力レベ
ルの変動や雑音などによるエネルギーの系列の不
規則な変動を吸収して、より正確な終端の検出を
行なう本発明は、音声の自動認識においてきわめ
て有効である。

【図面の簡単な説明】

第１図は音声区間の終端検出方式の一実施例を
示すブロツク図、第２図は、第１図のブロツク図
の動作を説明するめのエネルギー系列の線図であ
る。１……極大値決定部、２……閾値決定部、３…
…状態決定部、４……状態系列保持部、５……終
端検出部。

Claims

【特許請求の範囲】

１音声入力をある時間ごとにサンプリングして
音声特徴ベクトルの系列X₁，X₂，…，Ｘ_Nを発生
する手段と、X₁，X₂，…，Ｘ_oを用いて音声入力
レベルを表わすパラメータの系列P₁，P₂，…，Ｐ
_Nを発生する手段と、P₁，P₂，…Ｐ_Nに関する閾値
を設定する手段と、P₁，P₂，…，Ｐ_Nが閾値を越
えないことを検出することによつて音声区間の終
端を決定する手段と前記特徴パラメータの系列Ｐ
_i（ｉ＝１，２，…Ｎ）の極大値を決定する手段
と、前記極大値と閾値を比較して大きい方の値を
閾値として設定する閾値決定手段と、特徴パラメ
ータＰ_i（ｉ＝１，２，…，Ｎ）が前記閾値決定
手段で設定された閾値を越えないことが一定時間
連続して観察されたとき、Ｐ_iがはじめて閾値よ
り小さくなつた時点を以つて音声区間の終端と決
定する手段とを備えたことを特徴とする音声区間
の終端検出装置。