JPH0376471B2 - - Google Patents

Info

Publication number
JPH0376471B2
JPH0376471B2 JP57012795A JP1279582A JPH0376471B2 JP H0376471 B2 JPH0376471 B2 JP H0376471B2 JP 57012795 A JP57012795 A JP 57012795A JP 1279582 A JP1279582 A JP 1279582A JP H0376471 B2 JPH0376471 B2 JP H0376471B2
Authority
JP
Japan
Prior art keywords
audio
section
time series
tentative
parameter time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57012795A
Other languages
English (en)
Other versions
JPS58130395A (ja
Inventor
Hidenori Shinoda
Tomio Sakata
Yoichi Takebayashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP57012795A priority Critical patent/JPS58130395A/ja
Publication of JPS58130395A publication Critical patent/JPS58130395A/ja
Publication of JPH0376471B2 publication Critical patent/JPH0376471B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は孤立発声された単語音声の音声区間を
安定確実に検出し得る音声区間検出装置に関す
る。
〔発明の技術的背景〕
孤立発声された単語音声の全体的な音声パター
ンを用いて上記単語音声を認識する場合、その音
声区間の検出精度が認識率に大きく影響する。特
にこの音声区間の検出に際しては、雑音等を音声
区間の一部として取込むことによる所謂付加誤り
を未然に防ぐこと、また音声の一部が欠落した状
態で音声区間を定めたことによる所謂脱落誤りを
未然に防ぐことが重要な課題となる。
しかして一般に音声がエネルギーのS/Nにし
て30dB以上確保される静かな環境下で与えれる
ような、会話型の認識システムにあつては、上述
した問題は比較的簡単に解決される。即ち、この
種のシステムでは、話者に対して積極的に発声促
進が行われるので、発声前の無音区間がある程度
保証される。従つてこの区間におけるエネルギー
や零交差数の平均値、更には分散等を求めておけ
ば背景雑音レベルに応じて音声区間検出の閾値を
設定できるので、正確な音声区間検出が可能とな
る。
〔背景技術の問題点〕
然し乍ら音声入力がなされる環境が必ずしも静
かであるとは何ら保証されず、一般的には上述し
た無音区間を確実に設定することはできない。し
かも発声環境によつては、周囲の雑音レベルが高
かつたり、雑音レベル自体が変動していることも
ある。この為、従来システムではこのような背景
雑音に対して何ら対処することができず、その音
声区間を正確に、且つ安定に検出することが甚だ
困難であつた。この為、付加脱落誤りにより、認
識率を十分に高くすることができなかつた。
また精度の高い音声認識を行う為には、音声区
間の始端および終端位置の安定化を図ることが必
要である。例えば始端を単語の最初の音素の母音
の開始点として定義するならば、音声のレベルや
背景雑音レベルに無関係に上記開始点を検出する
ことが必要である。然し、これらの要求を、単一
の音声パラメータのみを用いて、あるいは単一の
アルゴリズムだけで満たすことは非常に困難であ
り、実用性の点でも問題があつた。
〔発明の目的〕
本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、音声信号と背景
雑音とのS/Nが悪く、しかも背景雑音レベルが
大きく変動する環境下で発声された音声の始端と
終端を正確に検出して、その音声区間を安定に、
且つ高精度に検出することのできる実用性の高い
音声区間検出装置を提供することにある。
〔発明の概要〕
本発明は入力音声の或る音声パラメータを抽出
し、この抽出された音声パラメータを用いて上記
入力音声の大略的な音声区間を検出したのち、こ
の音声区間の仮始端から数フレーム前、および上
記音声区間の仮終端から数フレーム後までの区間
を検出区間として定めて、この検出区間の音声を
前記入力音声の別の特徴パラメータを用いて検出
して音声区間の始端と終端とをそれぞれ精度良く
定めるようにしたものである。
〔発明の効果〕
従つて本発明によれば、雑音に対して比較的耐
性のある音声パラメータを用いて仮りに音声区間
を定めたのち、別の特徴パラメータを用いて高精
度に音声の一意的に定まる始端と終端とをそれぞ
れ検出するので、正確に音声区間を検出すること
が可能となる。しかも雑音に対して耐性のあるパ
ラメータを用いて音声区間を仮検出し、この仮検
出区間を含む前後に所定フレーム数付加された区
間を検出対象として精度の高い音声検出を行うの
で、背景雑音の大きな影響を受けることなしに安
定に音声区間検出を行うことが可能となる。従つ
て、発声環境に左右されることなく音声区間検出
を正確に行い得るので、音声認識率の向上を図り
得る等の実用上、絶大なる効果が奏せられる。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例につき
説明する。
第1図は実施例装置の概略構成図で、第2図は
実施例装置の作用を説明する為の図である。
マイクロホンから入力増幅器を介して入力され
た音声信号は、音声パラメータ抽出部1に導びか
れる。この音声パラメータ抽出部1は、短時間幅
T毎に、上記入力音声信号の全帯域エネルギーの
実効値Eと、例えば4チヤンネルの広帯域バンド
パスフイルタを介して抽出された入力音声信号の
各チヤンネル出力の実効値B1、B2、B3、B4を求
め、これを音声パラメータ時系列として出力して
いる。このようにして求められるE、B1、B2
B3、B4の音声パラメータ時系列は所定時間幅に
亘つて、一旦バツフアメモリ2に格納される。第
2図に示す信号Eは、エネルギーを音声パラメー
タとした音声パターンの例を示すものである。
しかして、第1段音声区間検出部3は、エネル
ギーEの音声パラメータ時系列を入力し、そのエ
ネルギーと予め設定された閾値E1とを比較して、
上記閾値Eを越える時点a1を音声の仮始端として
検出している。この仮始端a1の検出アルゴリズム
は、入力音声エネルギーEが閾値E1を越え、所
定時間継続したときに上記閾値E1を越えた時点
を仮始端a1として定めることにより行われる。仮
りに、上記閾値E1を越える期間が所定時間(所
定フレーム数:50〜70msec)継続しない場合に
は、これを雑音と看做し、仮始端検出をし直す。
しかるのち、このようにして検出された仮始端a1
の情報は閾値計算部4に与えられる。閾値計算部
4では、例えば音声入力開始時点から上記仮始端
a1までの入力音声エネルギーEの平均値を求め、
これに所定の値を加える等して、仮終端検出の為
の閾値E2を設定し、これを前記第1段音声区間
検出部3に与えている。第1段音声区間検出部3
では、この新たに与えられた閾値E2に従い、今
度は入力音声エネルギーEが上記閾値E2を下ま
わり、且つ所定時間(所定フレーム数:250〜300
msec程度)継続したとき、上記エネルギーEが
閾値E2を下まわつた直前の時点b1を仮終端として
検出している。従つて、この仮終端b1の検出は、
仮始端a1の検出に比して、或る程度背景雑音レベ
ルを考慮したものとなる。このようにして、第1
段音声区間検出部3により、入力音声に対する仮
りの音声区間が、エネルギーEを音声パラメータ
とした閾値E1、E2との比較により仮始端a1、仮
終端b1が求められて検出されている。そして、上
記仮始端a1および仮終端b1によつて示される音声
区間は、パルス性雑音によりエネルギーが高くな
つた区間や、単語中の無音区間等の影響を受けな
いものとなつている。
さて、ラベリング部5には、上記第1段音声区
間検出部3によつて検出された仮始端a1および仮
終端b1の情報が与えられる。また、前記閾値計算
部4では、上記仮始端a1から仮終端b1までの区間
の音声パラメータE、B1、B2、B3、B4を前記バ
ツフアメモリ2から読出し、エネルギーEが最大
値をとる時点Mにおける最大エネルギー値EMお
よびこの時点Mにおける各チヤンネル出力B1M
B2M、B3M、B4Mを求め、各パラメータ毎に上記各
値からそれぞれ所定値を差引いて、ラベリング用
の閾値ET、B1T、B2T、B3T、B4Tの情報が前記ラ
ベリング部5に与えられている。
ラベリング部5では、前記仮始端a1の情報か
ら、この仮始端a1より数フレーム前の時点(a1
NF)を区間検出用の始端a2として定め、また前
記仮終端b1の情報から、この仮始端b1より数フレ
ーム後の時点(b1−NE)を区間検出用の終端b2
として定めている。そして、この始端a2から終端
b2によつて示される区間について前記バツフアメ
モリ2から音声パラメータを順次読出し、先に設
定されたラベリング用の閾値ET、B1T、B2T
B3T、B4Tとそれぞれ比較している。そして、第
2図にそのテーブルを示すように、各時点毎に、
上記各音声パラメータとその閾値との比較結果を
順次登録している。この比較結果の登録は、例え
ば音声パラメータが閾値より大なるとき、音声要
素が強いとして「1」なるデータを、また音声パ
ラメータが閾値より小なるときには音声要素が弱
いとして「0」なるデータをそれぞれ登録するこ
とにより行われる。そして、このようにして求め
られたテーブルを各時点毎に、例えば論理和処理
する等して、その結果「Q」「V」の時系列を得
ている。このQ−Vテーブルは、「V」を音声区
間の要素、「Q」を無音区間の要素として示すも
のである。
第2段音声区間検出部6では、上記の如く求め
られたラベリング結果「Q」、「V」を基にして、
入力音声に対する区間検出を行う。即ち、この区
間検出における始端および終端の検出は、先に説
明した第1段音声区間検出部3の検出アルゴリズ
ムとほぼ同様なものであるが、Q−Vテーブルを
参照して時間方向に音声要素「V」とラベリング
されたフレームを探索していくことにより行われ
る。そして、最初に「V」とラベリングされたフ
レームaを検出し、その後「V」なるラベリング
が所定フレーム数、例えば40〜50msecに相当す
るフレーム数継続するか否かを調べる。そして、
この条件が満たされたとき、上記フレームaを入
力音声の始端であると認定する。その後、最初に
「Q」とラベリングされたフレームbを検出し、
そのあとに所定フレーム数、例えば250〜300m
secに亘つて「Q」なるラベリングが継続するか
否かを検出する。この検出で否と判定された場合
には、「V」とラベリングされたフレームが所定
数、例えば40〜50msecに相当するフレーム数継
続するか否かを調べる。そしてこの条件が満足さ
れた場合には、単語中の別の音声区間が現われた
と看做して改めて上記終端検出の操作を行う。
又、上記条件が満たされないときには、これをノ
イズによるものと看做して「V」とラベリングさ
れたフレーム数を「Q」のカウントに加える。こ
れにより、入力音声に対する始端aと終端bとが
それぞれ検出され、その音声区間が検出決定され
ることになる。
かくして本装置による上述した音声区間検出に
よれば、背景雑音の悪影響を受けることなしに安
定に、且つ確実に入力音声の音声区間を精度良く
検出することができる。と言うのは、音声区間の
始端および終端は、背景雑音のレベルとは無関係
であり、従つて背景雑音のレベルに左右されるこ
となく決定されるべきものである。そこで本発明
では、入力音声の最大レベルを基準として閾値を
定め、この閾値に従つて各音声パラメータについ
てそれぞれラベリングを行つている。しかも、複
数の音声パラメータに亘つてラベリング判定して
いるので、例え或る帯域にエネルギーが集中し、
全体的にエネルギーレベルが低くなつている音素
であつても、これを確実に検出することができ
る。従つて、入力音声の各フレームにおける音素
をそれぞれ確実に検出することができ、音声区間
を正確に検出することが可能となる。これ故、発
声環境に左右されることなく、しかも背景雑音レ
ベルが変動している場合であつても安定に且つ正
確に音声区間検出ができ、その実用的利点は絶大
である。
尚、本発明は上記実施例に限定されるものでは
ない。例えば入力音声から抽出する音声パラメー
タとしては、各種次数でのLPC予測誤差や、音
声信号の相関係数等の特徴パラメータを採用する
こともできる。またバンドパスフイルタの各チヤ
ンネル出力の関連性を特徴パラメータとすること
も有用であり、このバンドパスフイルタのチヤン
ネル数は仕様に応じて定めればよい。要するに本
発明は、その要旨を逸脱しない範囲で種々変形し
て実施することができる。
【図面の簡単な説明】
第1図は本発明の一実施例装置の概略構成図、
第2図は実施例装置の作用を説明する為の音声パ
ラメータとラベリングテーブルを示す図である。 1……音声パラメータ抽出部、2……バツフア
メモリ、3……第1段音声区間検出部、4……閾
値計算部、5……ラベリング部、6……第2段音
声区間検出部。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声の複数種類の音声パラメータ時系列
    をそれぞれ抽出する手段と、これらの抽出された
    音声パラメータ時系列を記憶するメモリと、上記
    音声パラメータ時系列のうちの特定された1つの
    音声パラメータ時系列から音声区間の仮始端およ
    び仮終端をそれぞれ検出する手段と、上記仮始端
    の所定フレーム数前から前記仮終端の所定フレー
    ム数後までの区間をラベリング対象区間として設
    定する手段と、この設定されたラベリング対象区
    間における音声パラメータ時系列の最大レベルを
    検出する手段と、この最大レベルを基準に前記ラ
    ベリング対象区間について少なくとも前記仮始端
    および仮終端検出に用いた音声パラメータ時系列
    以外の前記記憶された音声パラメータ時系列を用
    いて各フレームが無音か否かのラベリングを行う
    手段と、このラベリング結果に従つて前記入力音
    声の音声区間の始端および終端をそれぞれ決定す
    る手段とを具備したことを特徴とする音声区間検
    出装置。 2 仮始端および仮終端の検出に用いられる音声
    パラメータ時系列は、入力音声エネルギーを特徴
    パラメータとしたものである特許請求の範囲第1
    項記載の音声区間検出装置。 3 仮始端の検出は、音声エネルギーを特徴パラ
    メータとした音声パラメータ時系列のレベルが所
    定の閾値を越えて所定フレーム数継続した時点を
    検出して行われ、仮終端は、音声入力時点から上
    記仮始端までの区間の音声パラメータの分布に従
    つて定められた閾値を前記音声パラメータ時系列
    のレベルが下まわつて所定フレーム数継続した時
    点を検出して行われるものである特許請求の範囲
    第1項記載の音声区間検出装置。 4 始端および終端の検出は、無音を示すラベリ
    ングが所定フレーム継続した直後および直前を検
    出して行われるものである特許請求の範囲第1項
    記載の音声区間検出装置。
JP57012795A 1982-01-29 1982-01-29 音声区間検出装置 Granted JPS58130395A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57012795A JPS58130395A (ja) 1982-01-29 1982-01-29 音声区間検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57012795A JPS58130395A (ja) 1982-01-29 1982-01-29 音声区間検出装置

Publications (2)

Publication Number Publication Date
JPS58130395A JPS58130395A (ja) 1983-08-03
JPH0376471B2 true JPH0376471B2 (ja) 1991-12-05

Family

ID=11815326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57012795A Granted JPS58130395A (ja) 1982-01-29 1982-01-29 音声区間検出装置

Country Status (1)

Country Link
JP (1) JPS58130395A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59139099A (ja) * 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
DE4126902C2 (de) * 1990-08-15 1996-06-27 Ricoh Kk Sprachintervall - Feststelleinheit
EP0944036A4 (en) 1997-04-30 2000-02-23 Japan Broadcasting Corp METHOD AND DEVICE FOR DETECTING LANGUAGE AREAS, AND METHOD AND DEVICE FOR LANGUAGE SPEED CONVERSION

Also Published As

Publication number Publication date
JPS58130395A (ja) 1983-08-03

Similar Documents

Publication Publication Date Title
CA1246228A (en) Endpoint detector
US5579431A (en) Speech detection in presence of noise by determining variance over time of frequency band limited energy
JPH0713584A (ja) 音声検出装置
JPH0222398B2 (ja)
KR101122590B1 (ko) 음성 데이터 분할에 의한 음성 인식 장치 및 방법
JPS60200300A (ja) 音声の始端・終端検出装置
JPH0376471B2 (ja)
JPS584198A (ja) 音声認識装置における標準パタ−ン登録方式
JP2882792B2 (ja) 標準パターン作成方式
JPH045198B2 (ja)
Kartik et al. Speaker change detection using support vector machines
JP2901976B2 (ja) パターン照合予備選択方式
JP3032551B2 (ja) 音声標準パターン登録方法
JP3020999B2 (ja) パターン登録方法
JP2891259B2 (ja) 音声区間検出装置
JPS58125099A (ja) 音声認識装置
JPS59105697A (ja) 音声認識装置
JPS61233791A (ja) 音声認識装置における音声区間検出方式
JPH0682275B2 (ja) 音声認識装置
JPS59149400A (ja) 音声入力装置
JPS61260299A (ja) 音声認識装置
JPS59224900A (ja) 音声認識方法
JPH0567039B2 (ja)
Ahmad et al. An isolated speech endpoint detector using multiple speech features
JPS6151196A (ja) 音声認識装置