JPS6147437B2 - - Google Patents
Info
- Publication number
- JPS6147437B2 JPS6147437B2 JP55174341A JP17434180A JPS6147437B2 JP S6147437 B2 JPS6147437 B2 JP S6147437B2 JP 55174341 A JP55174341 A JP 55174341A JP 17434180 A JP17434180 A JP 17434180A JP S6147437 B2 JPS6147437 B2 JP S6147437B2
- Authority
- JP
- Japan
- Prior art keywords
- threshold
- energy
- speech
- time
- maximum value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 239000013598 vector Substances 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 description 15
- 230000001788 irregular Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 1
Description
【発明の詳細な説明】
本発明において、音声は式(1)で示される様に、
入力をある時間毎にサンプリングして得られる特
徴ベクトルの系列として表わされるものとする。
入力をある時間毎にサンプリングして得られる特
徴ベクトルの系列として表わされるものとする。
X1,X2,…,XN (1)
上式において、各々のXi(i=1,2,…,
N)はそれぞれm次元ベクトルであつて、 Xi=(xi1,xi2,…,xin) (2) と表わされる。ここで、例えばmチヤンネルのバ
ンドパスフイルタの出力x1(t),x2(t),…,
xn(t)の時間標本化したものとして特徴ベク
トルをとらえることができる。
N)はそれぞれm次元ベクトルであつて、 Xi=(xi1,xi2,…,xin) (2) と表わされる。ここで、例えばmチヤンネルのバ
ンドパスフイルタの出力x1(t),x2(t),…,
xn(t)の時間標本化したものとして特徴ベク
トルをとらえることができる。
また、特徴ベクトルで表わされる音声の区間を
フレームという。式(1)の添字1,2,…,nは時
間(即ち、フレーム)を表わすパラメータであ
る。
フレームという。式(1)の添字1,2,…,nは時
間(即ち、フレーム)を表わすパラメータであ
る。
特徴パラメータの系列とは、例えばエネルギー
の系列であつて、式(1)で示される音声の特徴ベク
トルの系列がフイルタ・バンクの出力である場合
には、特徴ベクトルXiのエネルギーは、 Pi=Σm j=1 x2 ij (3) と定義される。式(1)の特徴ベクトルの系列に対応
するエネルギーの系列は、式(3)より、 P1,P2,…,PN (4) と表わされる。
の系列であつて、式(1)で示される音声の特徴ベク
トルの系列がフイルタ・バンクの出力である場合
には、特徴ベクトルXiのエネルギーは、 Pi=Σm j=1 x2 ij (3) と定義される。式(1)の特徴ベクトルの系列に対応
するエネルギーの系列は、式(3)より、 P1,P2,…,PN (4) と表わされる。
式(4)で示されるエネルギーの系列の変動に対し
て、予め設定された閾値を越えた区間を音声区間
として検出するが、これは、音声の自動認識にお
ける重要な間題の一つである。音声区間検出の問
題は、始端の検出、は終端の検出の二つの部
分問題に分けることができる。
て、予め設定された閾値を越えた区間を音声区間
として検出するが、これは、音声の自動認識にお
ける重要な間題の一つである。音声区間検出の問
題は、始端の検出、は終端の検出の二つの部
分問題に分けることができる。
本発明は、この二つの部分問題のうちでの問
題に関するもので、終端の検出を目的とするもの
である。
題に関するもので、終端の検出を目的とするもの
である。
ところで、音声区間の検出においては、異なつ
た話者ではもちろんのこと同一話者でも発話ごと
に入力レベルの平均値が変動し、また発話音声に
加わる雑音によつてエネルギーの系列が不規則な
変動を伴なう。これらの変動が原因で音声区間を
正しく検出できないために、発話音声を誤認識す
ることがしばしばある。
た話者ではもちろんのこと同一話者でも発話ごと
に入力レベルの平均値が変動し、また発話音声に
加わる雑音によつてエネルギーの系列が不規則な
変動を伴なう。これらの変動が原因で音声区間を
正しく検出できないために、発話音声を誤認識す
ることがしばしばある。
本発明は、エネルギーの系列の変動に適応して
閾値を設定することによつて、入力レベルの平均
値の変動や雑音による不規則な変動を吸収し、予
め設定した時間観察して、より正確に音声区間を
検出することを目的とする。
閾値を設定することによつて、入力レベルの平均
値の変動や雑音による不規則な変動を吸収し、予
め設定した時間観察して、より正確に音声区間を
検出することを目的とする。
ただし、本発明においては式(4)の系列を式(3)で
与えられる様なエネルギーのみならず。
与えられる様なエネルギーのみならず。
Pi=(Σm j=1 x2 ij)1/2 (5)
Pi=Σm j=1|xij| (6)
などによつて定義しても有効となる。即ち、Pi
は式(3)のエネルギーと同等のもので、音声入力レ
ベルの特徴を表現できるものであればよいのであ
る。
は式(3)のエネルギーと同等のもので、音声入力レ
ベルの特徴を表現できるものであればよいのであ
る。
エネルギー系列から音声区間の終端を検出する
方法として従来提案されている方式を説明し、そ
の問題点を述べる。
方法として従来提案されている方式を説明し、そ
の問題点を述べる。
従来提案されている音声区間の終端検出の方法
は、予め定めたエネルギー・レベルの閾値が高す
ぎれば、雑音による不規則な変動や発話時のレベ
ルの平均値の変動によつて音声区間の正しい終端
よりも早い時点で終端を誤検出しやすい。また、
予め定めたエネルギー・レベルの閾値が低すぎれ
ば、発話時のレベルの平均値の変動による誤検出
はかなり除かれるのであろうが、雑音による不規
則な変動によつて音声区間の正しい終端よりも遅
い時点で終端を誤検出しやすいという欠点があ
る。
は、予め定めたエネルギー・レベルの閾値が高す
ぎれば、雑音による不規則な変動や発話時のレベ
ルの平均値の変動によつて音声区間の正しい終端
よりも早い時点で終端を誤検出しやすい。また、
予め定めたエネルギー・レベルの閾値が低すぎれ
ば、発話時のレベルの平均値の変動による誤検出
はかなり除かれるのであろうが、雑音による不規
則な変動によつて音声区間の正しい終端よりも遅
い時点で終端を誤検出しやすいという欠点があ
る。
それ故、音声区間の終端を正しく検出するため
には、発話音声の入力レベルの変動を観察すると
共に、音声に加わつた雑音量を観祭して、個々の
発話音声に適応したエネルギー・レベルの閾値を
決定する必要がある。
には、発話音声の入力レベルの変動を観察すると
共に、音声に加わつた雑音量を観祭して、個々の
発話音声に適応したエネルギー・レベルの閾値を
決定する必要がある。
以下で述べる終端検出方式は、このような背景
からなされたものである。この本発明を実現する
構成の一実施例を示して説明する。
からなされたものである。この本発明を実現する
構成の一実施例を示して説明する。
第1図は、適応的に定めた閾値を用いて音声区
間の終端を検出するための一構成例である。
間の終端を検出するための一構成例である。
1で示される極大値決定部においては、入力レ
ベルの変動を観祭していて、エネルギー・レベル
の極大値を検出するたびに、2で示される閾値決
定部に極大値が与えられる。閾値決定部2におい
ては、極大値決定部1の出力、即ち極大値が、現
在の閾値を越えた場合に、その極大値に基づいて
新しい閾値を決定する。エネルギーの系列が現在
の閾値を越えない区間において極大値が存在して
も閾値はそのままである。いま、閾値をθ,極大
値をαとすると、θはある関数fに関して、 θ=f(α) (7) で与えられる。具体的には、例えば θ=max(α/16,25) (8) で与えられる。ここで、max(・)は( )内の
最大値を与える関数である。最初の閾値は、最初
の極大値を用いて式(8)で与えられる。
ベルの変動を観祭していて、エネルギー・レベル
の極大値を検出するたびに、2で示される閾値決
定部に極大値が与えられる。閾値決定部2におい
ては、極大値決定部1の出力、即ち極大値が、現
在の閾値を越えた場合に、その極大値に基づいて
新しい閾値を決定する。エネルギーの系列が現在
の閾値を越えない区間において極大値が存在して
も閾値はそのままである。いま、閾値をθ,極大
値をαとすると、θはある関数fに関して、 θ=f(α) (7) で与えられる。具体的には、例えば θ=max(α/16,25) (8) で与えられる。ここで、max(・)は( )内の
最大値を与える関数である。最初の閾値は、最初
の極大値を用いて式(8)で与えられる。
状態決定部3においては、閾値決定部2の出
力、即ち閾値に基づいて、エネルギーの系列が閾
値よりも大きいか、或いは小さいが決定される。
4で示される状態系列保持部においては、状態決
定部3の出力を保持し、予め設定された時間、即
ち予め設定したフレーム数以上連続してエネルギ
ー系列が閾値以下となつた時点で、はじめてエネ
ルギーの系列が閾値以下となつた時点が5で示さ
れる終端検出部に出力される。終端検出部5にお
いては、状態保持部4の出力をもとに、エネルギ
ーの系列から終端のフレームが検出され、出力さ
れるのである。
力、即ち閾値に基づいて、エネルギーの系列が閾
値よりも大きいか、或いは小さいが決定される。
4で示される状態系列保持部においては、状態決
定部3の出力を保持し、予め設定された時間、即
ち予め設定したフレーム数以上連続してエネルギ
ー系列が閾値以下となつた時点で、はじめてエネ
ルギーの系列が閾値以下となつた時点が5で示さ
れる終端検出部に出力される。終端検出部5にお
いては、状態保持部4の出力をもとに、エネルギ
ーの系列から終端のフレームが検出され、出力さ
れるのである。
第2図は、第1図に示した構成例の動作を具体
的に説明するためのエネルギーの系列の一例であ
る。同図において、横軸は時間、即ちフレームで
あり、縦軸はエネルギー・レベルである。エネル
ギーの系列は、同図に示された曲線上の離散的な
点に相当するが、表記の都合上、連続した曲線で
示してある。
的に説明するためのエネルギーの系列の一例であ
る。同図において、横軸は時間、即ちフレームで
あり、縦軸はエネルギー・レベルである。エネル
ギーの系列は、同図に示された曲線上の離散的な
点に相当するが、表記の都合上、連続した曲線で
示してある。
極大値決定部1では、極大値θ1を検出し閾値
決定部2にα1を与える。閾値決定部2では、式
(8)に基づいて閾値θ1が決定される。状態決定部
3では、閾値θ1に基づいて、エネルギーの系列
がθ1よりも大きいか小さいかが決定され出力さ
れる。状態系列保持部4では、状態決定部3から
の出力を保持し、予め設定された時間Tの間θ1
以下のエネルギーが連続するかどうかを観祭して
いるが、第2図の例では、θ1に関しては、T以
内でエネギーの系列がθ1を越えるので、エネル
ギーの系列がはじめてθ1より小さくなつた時点
t1は終端検出部への出力とはならない。同様に、
極大値α2をもとに閾値θ2が決定されるが、終
端検出部5への出力はない。ただし、極大値α4
は閾値θを越えないので、極大値α3の時点ま
で、閾値θはそのままである。しかし、極大値α
3をもとに決定された閾値θ3に関しては、θ3
以下となる時間がT以上連続するので、エネルギ
ーの系列がはじめてθ3より小さくなつた時点t3
が終端として検出され、終端検出部5から出力さ
れるのである。
決定部2にα1を与える。閾値決定部2では、式
(8)に基づいて閾値θ1が決定される。状態決定部
3では、閾値θ1に基づいて、エネルギーの系列
がθ1よりも大きいか小さいかが決定され出力さ
れる。状態系列保持部4では、状態決定部3から
の出力を保持し、予め設定された時間Tの間θ1
以下のエネルギーが連続するかどうかを観祭して
いるが、第2図の例では、θ1に関しては、T以
内でエネギーの系列がθ1を越えるので、エネル
ギーの系列がはじめてθ1より小さくなつた時点
t1は終端検出部への出力とはならない。同様に、
極大値α2をもとに閾値θ2が決定されるが、終
端検出部5への出力はない。ただし、極大値α4
は閾値θを越えないので、極大値α3の時点ま
で、閾値θはそのままである。しかし、極大値α
3をもとに決定された閾値θ3に関しては、θ3
以下となる時間がT以上連続するので、エネルギ
ーの系列がはじめてθ3より小さくなつた時点t3
が終端として検出され、終端検出部5から出力さ
れるのである。
以上のように本発明は、音声入力レベルの平均
値の変動に伴ない、終端検出のための閾値を適応
的に決定して、より正確な終端検出を行なう終端
検出方式であつて、従来の方式に比較して 音声入力レベルの平均値の変動に応じて、適応
的に終端検出のための閾値を決定しているので、
入力レベルの平均値の変動や雑音によるエネルギ
ーの系列の不規則な変動が原因となる終端の誤検
出の低減が可能となり、より正確な終端の検出が
行なえる。
値の変動に伴ない、終端検出のための閾値を適応
的に決定して、より正確な終端検出を行なう終端
検出方式であつて、従来の方式に比較して 音声入力レベルの平均値の変動に応じて、適応
的に終端検出のための閾値を決定しているので、
入力レベルの平均値の変動や雑音によるエネルギ
ーの系列の不規則な変動が原因となる終端の誤検
出の低減が可能となり、より正確な終端の検出が
行なえる。
等の優れた特徴を有するものである。そして音
声区間を正確に検出することは、音声の自動認識
の正確さの向上につながり、したがつて入力レベ
ルの変動や雑音などによるエネルギーの系列の不
規則な変動を吸収して、より正確な終端の検出を
行なう本発明は、音声の自動認識においてきわめ
て有効である。
声区間を正確に検出することは、音声の自動認識
の正確さの向上につながり、したがつて入力レベ
ルの変動や雑音などによるエネルギーの系列の不
規則な変動を吸収して、より正確な終端の検出を
行なう本発明は、音声の自動認識においてきわめ
て有効である。
第1図は音声区間の終端検出方式の一実施例を
示すブロツク図、第2図は、第1図のブロツク図
の動作を説明するめのエネルギー系列の線図であ
る。 1……極大値決定部、2……閾値決定部、3…
…状態決定部、4……状態系列保持部、5……終
端検出部。
示すブロツク図、第2図は、第1図のブロツク図
の動作を説明するめのエネルギー系列の線図であ
る。 1……極大値決定部、2……閾値決定部、3…
…状態決定部、4……状態系列保持部、5……終
端検出部。
Claims (1)
- 1 音声入力をある時間ごとにサンプリングして
音声特徴ベクトルの系列X1,X2,…,XNを発生
する手段と、X1,X2,…,Xoを用いて音声入力
レベルを表わすパラメータの系列P1,P2,…,P
Nを発生する手段と、P1,P2,…PNに関する閾値
を設定する手段と、P1,P2,…,PNが閾値を越
えないことを検出することによつて音声区間の終
端を決定する手段と前記特徴パラメータの系列P
i(i=1,2,…N)の極大値を決定する手段
と、前記極大値と閾値を比較して大きい方の値を
閾値として設定する閾値決定手段と、特徴パラメ
ータPi(i=1,2,…,N)が前記閾値決定
手段で設定された閾値を越えないことが一定時間
連続して観察されたとき、Piがはじめて閾値よ
り小さくなつた時点を以つて音声区間の終端と決
定する手段とを備えたことを特徴とする音声区間
の終端検出装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP55174341A JPS5797599A (en) | 1980-12-10 | 1980-12-10 | System of detecting final end of each voice section |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP55174341A JPS5797599A (en) | 1980-12-10 | 1980-12-10 | System of detecting final end of each voice section |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5797599A JPS5797599A (en) | 1982-06-17 |
| JPS6147437B2 true JPS6147437B2 (ja) | 1986-10-18 |
Family
ID=15976938
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP55174341A Granted JPS5797599A (en) | 1980-12-10 | 1980-12-10 | System of detecting final end of each voice section |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5797599A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH06507507A (ja) * | 1992-02-28 | 1994-08-25 | ジュンカ、ジャン、クロード | 音声信号中の独立単語境界決定方法 |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0143161A1 (en) * | 1983-07-08 | 1985-06-05 | International Standard Electric Corporation | Apparatus for automatic speech activity detection |
| JPS6039691A (ja) * | 1983-08-13 | 1985-03-01 | 電子計算機基本技術研究組合 | 音声認識方法 |
| JP2625682B2 (ja) * | 1986-09-19 | 1997-07-02 | 松下電器産業株式会社 | 音声区間の始端検出装置 |
| JP4973492B2 (ja) * | 2007-01-30 | 2012-07-11 | 株式会社Jvcケンウッド | 再生装置、再生方法及び再生プログラム |
| WO2008114448A1 (ja) * | 2007-03-20 | 2008-09-25 | Fujitsu Limited | 音声認識システム、音声認識プログラムおよび音声認識方法 |
-
1980
- 1980-12-10 JP JP55174341A patent/JPS5797599A/ja active Granted
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH06507507A (ja) * | 1992-02-28 | 1994-08-25 | ジュンカ、ジャン、クロード | 音声信号中の独立単語境界決定方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPS5797599A (en) | 1982-06-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6216103B1 (en) | Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise | |
| US6556967B1 (en) | Voice activity detector | |
| US4696041A (en) | Apparatus for detecting an utterance boundary | |
| JPH08508108A (ja) | 休止検出を行う音声認識 | |
| US11170760B2 (en) | Detecting speech activity in real-time in audio signal | |
| US6718302B1 (en) | Method for utilizing validity constraints in a speech endpoint detector | |
| CN120048268B (zh) | 一种基于声纹识别的自适应vad参数调节方法及系统 | |
| RU2127912C1 (ru) | Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков и устройство для кодирования и/или декодирования стационарных фоновых звуков | |
| US6865529B2 (en) | Method of estimating the pitch of a speech signal using an average distance between peaks, use of the method, and a device adapted therefor | |
| Acero et al. | Robust HMM-based endpoint detector. | |
| JPS6147437B2 (ja) | ||
| CN106571138B (zh) | 一种信号端点的检测方法、检测装置及检测设备 | |
| JP2000250568A (ja) | 音声区間検出装置 | |
| CA1301338C (en) | Frame comparison method for word recognition in high noise environments | |
| JP2025027120A (ja) | ダイアログ検出器 | |
| JP2817429B2 (ja) | 音声認識装置 | |
| JP3520430B2 (ja) | 左右音像方向抽出方法 | |
| US20010029447A1 (en) | Method of estimating the pitch of a speech signal using previous estimates, use of the method, and a device adapted therefor | |
| Neben et al. | Experiments in isolated word recognition using noisy speech | |
| JP2737109B2 (ja) | 音声区間検出方式 | |
| KR0135878B1 (ko) | 음성 데이타 시종점 검출 방법 및 그 장치 | |
| JPS6151320B2 (ja) | ||
| Dokku et al. | Detection of stop consonants in continuous noisy speech based on an extrapolation technique | |
| KR20200026587A (ko) | 음성 구간을 검출하는 방법 및 장치 | |
| JPH05183997A (ja) | 効果音付加自動判別装置 |