JPS6147437B2 - - Google Patents

Info

Publication number
JPS6147437B2
JPS6147437B2 JP55174341A JP17434180A JPS6147437B2 JP S6147437 B2 JPS6147437 B2 JP S6147437B2 JP 55174341 A JP55174341 A JP 55174341A JP 17434180 A JP17434180 A JP 17434180A JP S6147437 B2 JPS6147437 B2 JP S6147437B2
Authority
JP
Japan
Prior art keywords
threshold
energy
speech
time
maximum value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55174341A
Other languages
English (en)
Other versions
JPS5797599A (en
Inventor
Satoru Kabasawa
Hidekazu Tsuboka
Yoshiteru Mifune
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP55174341A priority Critical patent/JPS5797599A/ja
Publication of JPS5797599A publication Critical patent/JPS5797599A/ja
Publication of JPS6147437B2 publication Critical patent/JPS6147437B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明において、音声は式(1)で示される様に、
入力をある時間毎にサンプリングして得られる特
徴ベクトルの系列として表わされるものとする。
X1,X2,…,XN (1) 上式において、各々のXi(i=1,2,…,
N)はそれぞれm次元ベクトルであつて、 Xi=(xi1,xi2,…,xin) (2) と表わされる。ここで、例えばmチヤンネルのバ
ンドパスフイルタの出力x1(t),x2(t),…,
n(t)の時間標本化したものとして特徴ベク
トルをとらえることができる。
また、特徴ベクトルで表わされる音声の区間を
フレームという。式(1)の添字1,2,…,nは時
間(即ち、フレーム)を表わすパラメータであ
る。
特徴パラメータの系列とは、例えばエネルギー
の系列であつて、式(1)で示される音声の特徴ベク
トルの系列がフイルタ・バンクの出力である場合
には、特徴ベクトルXiのエネルギーは、 Pi=Σ j=1 ij (3) と定義される。式(1)の特徴ベクトルの系列に対応
するエネルギーの系列は、式(3)より、 P1,P2,…,PN (4) と表わされる。
式(4)で示されるエネルギーの系列の変動に対し
て、予め設定された閾値を越えた区間を音声区間
として検出するが、これは、音声の自動認識にお
ける重要な間題の一つである。音声区間検出の問
題は、始端の検出、は終端の検出の二つの部
分問題に分けることができる。
本発明は、この二つの部分問題のうちでの問
題に関するもので、終端の検出を目的とするもの
である。
ところで、音声区間の検出においては、異なつ
た話者ではもちろんのこと同一話者でも発話ごと
に入力レベルの平均値が変動し、また発話音声に
加わる雑音によつてエネルギーの系列が不規則な
変動を伴なう。これらの変動が原因で音声区間を
正しく検出できないために、発話音声を誤認識す
ることがしばしばある。
本発明は、エネルギーの系列の変動に適応して
閾値を設定することによつて、入力レベルの平均
値の変動や雑音による不規則な変動を吸収し、予
め設定した時間観察して、より正確に音声区間を
検出することを目的とする。
ただし、本発明においては式(4)の系列を式(3)で
与えられる様なエネルギーのみならず。
Pi=(Σ j=1 ij1/2 (5) Pi=Σ j=1|xij| (6) などによつて定義しても有効となる。即ち、Pi
は式(3)のエネルギーと同等のもので、音声入力レ
ベルの特徴を表現できるものであればよいのであ
る。
エネルギー系列から音声区間の終端を検出する
方法として従来提案されている方式を説明し、そ
の問題点を述べる。
従来提案されている音声区間の終端検出の方法
は、予め定めたエネルギー・レベルの閾値が高す
ぎれば、雑音による不規則な変動や発話時のレベ
ルの平均値の変動によつて音声区間の正しい終端
よりも早い時点で終端を誤検出しやすい。また、
予め定めたエネルギー・レベルの閾値が低すぎれ
ば、発話時のレベルの平均値の変動による誤検出
はかなり除かれるのであろうが、雑音による不規
則な変動によつて音声区間の正しい終端よりも遅
い時点で終端を誤検出しやすいという欠点があ
る。
それ故、音声区間の終端を正しく検出するため
には、発話音声の入力レベルの変動を観察すると
共に、音声に加わつた雑音量を観祭して、個々の
発話音声に適応したエネルギー・レベルの閾値を
決定する必要がある。
以下で述べる終端検出方式は、このような背景
からなされたものである。この本発明を実現する
構成の一実施例を示して説明する。
第1図は、適応的に定めた閾値を用いて音声区
間の終端を検出するための一構成例である。
1で示される極大値決定部においては、入力レ
ベルの変動を観祭していて、エネルギー・レベル
の極大値を検出するたびに、2で示される閾値決
定部に極大値が与えられる。閾値決定部2におい
ては、極大値決定部1の出力、即ち極大値が、現
在の閾値を越えた場合に、その極大値に基づいて
新しい閾値を決定する。エネルギーの系列が現在
の閾値を越えない区間において極大値が存在して
も閾値はそのままである。いま、閾値をθ,極大
値をαとすると、θはある関数fに関して、 θ=f(α) (7) で与えられる。具体的には、例えば θ=max(α/16,25) (8) で与えられる。ここで、max(・)は( )内の
最大値を与える関数である。最初の閾値は、最初
の極大値を用いて式(8)で与えられる。
状態決定部3においては、閾値決定部2の出
力、即ち閾値に基づいて、エネルギーの系列が閾
値よりも大きいか、或いは小さいが決定される。
4で示される状態系列保持部においては、状態決
定部3の出力を保持し、予め設定された時間、即
ち予め設定したフレーム数以上連続してエネルギ
ー系列が閾値以下となつた時点で、はじめてエネ
ルギーの系列が閾値以下となつた時点が5で示さ
れる終端検出部に出力される。終端検出部5にお
いては、状態保持部4の出力をもとに、エネルギ
ーの系列から終端のフレームが検出され、出力さ
れるのである。
第2図は、第1図に示した構成例の動作を具体
的に説明するためのエネルギーの系列の一例であ
る。同図において、横軸は時間、即ちフレームで
あり、縦軸はエネルギー・レベルである。エネル
ギーの系列は、同図に示された曲線上の離散的な
点に相当するが、表記の都合上、連続した曲線で
示してある。
極大値決定部1では、極大値θを検出し閾値
決定部2にαを与える。閾値決定部2では、式
(8)に基づいて閾値θが決定される。状態決定部
3では、閾値θに基づいて、エネルギーの系列
がθよりも大きいか小さいかが決定され出力さ
れる。状態系列保持部4では、状態決定部3から
の出力を保持し、予め設定された時間Tの間θ
以下のエネルギーが連続するかどうかを観祭して
いるが、第2図の例では、θに関しては、T以
内でエネギーの系列がθを越えるので、エネル
ギーの系列がはじめてθより小さくなつた時点
t1は終端検出部への出力とはならない。同様に、
極大値αをもとに閾値θが決定されるが、終
端検出部5への出力はない。ただし、極大値α
は閾値θを越えないので、極大値αの時点ま
で、閾値θはそのままである。しかし、極大値α
をもとに決定された閾値θに関しては、θ
以下となる時間がT以上連続するので、エネルギ
ーの系列がはじめてθより小さくなつた時点t3
が終端として検出され、終端検出部5から出力さ
れるのである。
以上のように本発明は、音声入力レベルの平均
値の変動に伴ない、終端検出のための閾値を適応
的に決定して、より正確な終端検出を行なう終端
検出方式であつて、従来の方式に比較して 音声入力レベルの平均値の変動に応じて、適応
的に終端検出のための閾値を決定しているので、
入力レベルの平均値の変動や雑音によるエネルギ
ーの系列の不規則な変動が原因となる終端の誤検
出の低減が可能となり、より正確な終端の検出が
行なえる。
等の優れた特徴を有するものである。そして音
声区間を正確に検出することは、音声の自動認識
の正確さの向上につながり、したがつて入力レベ
ルの変動や雑音などによるエネルギーの系列の不
規則な変動を吸収して、より正確な終端の検出を
行なう本発明は、音声の自動認識においてきわめ
て有効である。
【図面の簡単な説明】
第1図は音声区間の終端検出方式の一実施例を
示すブロツク図、第2図は、第1図のブロツク図
の動作を説明するめのエネルギー系列の線図であ
る。 1……極大値決定部、2……閾値決定部、3…
…状態決定部、4……状態系列保持部、5……終
端検出部。

Claims (1)

    【特許請求の範囲】
  1. 1 音声入力をある時間ごとにサンプリングして
    音声特徴ベクトルの系列X1,X2,…,XNを発生
    する手段と、X1,X2,…,Xoを用いて音声入力
    レベルを表わすパラメータの系列P1,P2,…,P
    Nを発生する手段と、P1,P2,…PNに関する閾値
    を設定する手段と、P1,P2,…,PNが閾値を越
    えないことを検出することによつて音声区間の終
    端を決定する手段と前記特徴パラメータの系列P
    i(i=1,2,…N)の極大値を決定する手段
    と、前記極大値と閾値を比較して大きい方の値を
    閾値として設定する閾値決定手段と、特徴パラメ
    ータPi(i=1,2,…,N)が前記閾値決定
    手段で設定された閾値を越えないことが一定時間
    連続して観察されたとき、Piがはじめて閾値よ
    り小さくなつた時点を以つて音声区間の終端と決
    定する手段とを備えたことを特徴とする音声区間
    の終端検出装置。
JP55174341A 1980-12-10 1980-12-10 System of detecting final end of each voice section Granted JPS5797599A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP55174341A JPS5797599A (en) 1980-12-10 1980-12-10 System of detecting final end of each voice section

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP55174341A JPS5797599A (en) 1980-12-10 1980-12-10 System of detecting final end of each voice section

Publications (2)

Publication Number Publication Date
JPS5797599A JPS5797599A (en) 1982-06-17
JPS6147437B2 true JPS6147437B2 (ja) 1986-10-18

Family

ID=15976938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP55174341A Granted JPS5797599A (en) 1980-12-10 1980-12-10 System of detecting final end of each voice section

Country Status (1)

Country Link
JP (1) JPS5797599A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06507507A (ja) * 1992-02-28 1994-08-25 ジュンカ、ジャン、クロード 音声信号中の独立単語境界決定方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0143161A1 (en) * 1983-07-08 1985-06-05 International Standard Electric Corporation Apparatus for automatic speech activity detection
JPS6039691A (ja) * 1983-08-13 1985-03-01 電子計算機基本技術研究組合 音声認識方法
JP2625682B2 (ja) * 1986-09-19 1997-07-02 松下電器産業株式会社 音声区間の始端検出装置
JP4973492B2 (ja) * 2007-01-30 2012-07-11 株式会社Jvcケンウッド 再生装置、再生方法及び再生プログラム
WO2008114448A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 音声認識システム、音声認識プログラムおよび音声認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06507507A (ja) * 1992-02-28 1994-08-25 ジュンカ、ジャン、クロード 音声信号中の独立単語境界決定方法

Also Published As

Publication number Publication date
JPS5797599A (en) 1982-06-17

Similar Documents

Publication Publication Date Title
US6216103B1 (en) Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
US6556967B1 (en) Voice activity detector
US4696041A (en) Apparatus for detecting an utterance boundary
JPH08508108A (ja) 休止検出を行う音声認識
US11170760B2 (en) Detecting speech activity in real-time in audio signal
US6718302B1 (en) Method for utilizing validity constraints in a speech endpoint detector
CN120048268B (zh) 一种基于声纹识别的自适应vad参数调节方法及系统
RU2127912C1 (ru) Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков и устройство для кодирования и/или декодирования стационарных фоновых звуков
US6865529B2 (en) Method of estimating the pitch of a speech signal using an average distance between peaks, use of the method, and a device adapted therefor
Acero et al. Robust HMM-based endpoint detector.
JPS6147437B2 (ja)
CN106571138B (zh) 一种信号端点的检测方法、检测装置及检测设备
JP2000250568A (ja) 音声区間検出装置
CA1301338C (en) Frame comparison method for word recognition in high noise environments
JP2025027120A (ja) ダイアログ検出器
JP2817429B2 (ja) 音声認識装置
JP3520430B2 (ja) 左右音像方向抽出方法
US20010029447A1 (en) Method of estimating the pitch of a speech signal using previous estimates, use of the method, and a device adapted therefor
Neben et al. Experiments in isolated word recognition using noisy speech
JP2737109B2 (ja) 音声区間検出方式
KR0135878B1 (ko) 음성 데이타 시종점 검출 방법 및 그 장치
JPS6151320B2 (ja)
Dokku et al. Detection of stop consonants in continuous noisy speech based on an extrapolation technique
KR20200026587A (ko) 음성 구간을 검출하는 방법 및 장치
JPH05183997A (ja) 効果音付加自動判別装置