JPH0376471B2

JPH0376471B2 -

Info

Publication number: JPH0376471B2
Application number: JP57012795A
Authority: JP
Inventors: Hidenori Shinoda; Tomio Sakata; Yoichi Takebayashi
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1982-01-29
Filing date: 1982-01-29
Publication date: 1991-12-05
Also published as: JPS58130395A

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は孤立発声された単語音声の音声区間を
安定確実に検出し得る音声区間検出装置に関す
る。

〔発明の技術的背景〕

孤立発声された単語音声の全体的な音声パター
ンを用いて上記単語音声を認識する場合、その音
声区間の検出精度が認識率に大きく影響する。特
にこの音声区間の検出に際しては、雑音等を音声
区間の一部として取込むことによる所謂付加誤り
を未然に防ぐこと、また音声の一部が欠落した状
態で音声区間を定めたことによる所謂脱落誤りを
未然に防ぐことが重要な課題となる。

しかして一般に音声がエネルギーのＳ／Ｎにし
て30dB以上確保される静かな環境下で与えれる
ような、会話型の認識システムにあつては、上述
した問題は比較的簡単に解決される。即ち、この
種のシステムでは、話者に対して積極的に発声促
進が行われるので、発声前の無音区間がある程度
保証される。従つてこの区間におけるエネルギー
や零交差数の平均値、更には分散等を求めておけ
ば背景雑音レベルに応じて音声区間検出の閾値を
設定できるので、正確な音声区間検出が可能とな
る。

〔背景技術の問題点〕

然し乍ら音声入力がなされる環境が必ずしも静
かであるとは何ら保証されず、一般的には上述し
た無音区間を確実に設定することはできない。し
かも発声環境によつては、周囲の雑音レベルが高
かつたり、雑音レベル自体が変動していることも
ある。この為、従来システムではこのような背景
雑音に対して何ら対処することができず、その音
声区間を正確に、且つ安定に検出することが甚だ
困難であつた。この為、付加脱落誤りにより、認
識率を十分に高くすることができなかつた。

また精度の高い音声認識を行う為には、音声区
間の始端および終端位置の安定化を図ることが必
要である。例えば始端を単語の最初の音素の母音
の開始点として定義するならば、音声のレベルや
背景雑音レベルに無関係に上記開始点を検出する
ことが必要である。然し、これらの要求を、単一
の音声パラメータのみを用いて、あるいは単一の
アルゴリズムだけで満たすことは非常に困難であ
り、実用性の点でも問題があつた。

〔発明の目的〕

本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、音声信号と背景
雑音とのＳ／Ｎが悪く、しかも背景雑音レベルが
大きく変動する環境下で発声された音声の始端と
終端を正確に検出して、その音声区間を安定に、
且つ高精度に検出することのできる実用性の高い
音声区間検出装置を提供することにある。

〔発明の概要〕

本発明は入力音声の或る音声パラメータを抽出
し、この抽出された音声パラメータを用いて上記
入力音声の大略的な音声区間を検出したのち、こ
の音声区間の仮始端から数フレーム前、および上
記音声区間の仮終端から数フレーム後までの区間
を検出区間として定めて、この検出区間の音声を
前記入力音声の別の特徴パラメータを用いて検出
して音声区間の始端と終端とをそれぞれ精度良く
定めるようにしたものである。

〔発明の効果〕

従つて本発明によれば、雑音に対して比較的耐
性のある音声パラメータを用いて仮りに音声区間
を定めたのち、別の特徴パラメータを用いて高精
度に音声の一意的に定まる始端と終端とをそれぞ
れ検出するので、正確に音声区間を検出すること
が可能となる。しかも雑音に対して耐性のあるパ
ラメータを用いて音声区間を仮検出し、この仮検
出区間を含む前後に所定フレーム数付加された区
間を検出対象として精度の高い音声検出を行うの
で、背景雑音の大きな影響を受けることなしに安
定に音声区間検出を行うことが可能となる。従つ
て、発声環境に左右されることなく音声区間検出
を正確に行い得るので、音声認識率の向上を図り
得る等の実用上、絶大なる効果が奏せられる。

〔発明の実施例〕

以下、図面を参照して本発明の一実施例につき
説明する。

第１図は実施例装置の概略構成図で、第２図は
実施例装置の作用を説明する為の図である。

マイクロホンから入力増幅器を介して入力され
た音声信号は、音声パラメータ抽出部１に導びか
れる。この音声パラメータ抽出部１は、短時間幅
Ｔ毎に、上記入力音声信号の全帯域エネルギーの
実効値Ｅと、例えば４チヤンネルの広帯域バンド
パスフイルタを介して抽出された入力音声信号の
各チヤンネル出力の実効値B₁、B₂、B₃、B₄を求
め、これを音声パラメータ時系列として出力して
いる。このようにして求められるＥ、B₁、B₂、
B₃、B₄の音声パラメータ時系列は所定時間幅に
亘つて、一旦バツフアメモリ２に格納される。第
２図に示す信号Ｅは、エネルギーを音声パラメー
タとした音声パターンの例を示すものである。

しかして、第１段音声区間検出部３は、エネル
ギーＥの音声パラメータ時系列を入力し、そのエ
ネルギーと予め設定された閾値E₁とを比較して、
上記閾値Ｅを越える時点a₁を音声の仮始端として
検出している。この仮始端a₁の検出アルゴリズム
は、入力音声エネルギーＥが閾値E₁を越え、所
定時間継続したときに上記閾値E₁を越えた時点
を仮始端a₁として定めることにより行われる。仮
りに、上記閾値E₁を越える期間が所定時間（所
定フレーム数：50〜70ｍsec）継続しない場合に
は、これを雑音と看做し、仮始端検出をし直す。
しかるのち、このようにして検出された仮始端a₁
の情報は閾値計算部４に与えられる。閾値計算部
４では、例えば音声入力開始時点から上記仮始端
a₁までの入力音声エネルギーＥの平均値を求め、
これに所定の値を加える等して、仮終端検出の為
の閾値E₂を設定し、これを前記第１段音声区間
検出部３に与えている。第１段音声区間検出部３
では、この新たに与えられた閾値E₂に従い、今
度は入力音声エネルギーＥが上記閾値E₂を下ま
わり、且つ所定時間（所定フレーム数：250〜300
ｍsec程度）継続したとき、上記エネルギーＥが
閾値E₂を下まわつた直前の時点b₁を仮終端として
検出している。従つて、この仮終端b₁の検出は、
仮始端a₁の検出に比して、或る程度背景雑音レベ
ルを考慮したものとなる。このようにして、第１
段音声区間検出部３により、入力音声に対する仮
りの音声区間が、エネルギーＥを音声パラメータ
とした閾値E₁、E₂との比較により仮始端a₁、仮
終端b₁が求められて検出されている。そして、上
記仮始端a₁および仮終端b₁によつて示される音声
区間は、パルス性雑音によりエネルギーが高くな
つた区間や、単語中の無音区間等の影響を受けな
いものとなつている。

さて、ラベリング部５には、上記第１段音声区
間検出部３によつて検出された仮始端a₁および仮
終端b₁の情報が与えられる。また、前記閾値計算
部４では、上記仮始端a₁から仮終端b₁までの区間
の音声パラメータＥ、B₁、B₂、B₃、B₄を前記バ
ツフアメモリ２から読出し、エネルギーＥが最大
値をとる時点Ｍにおける最大エネルギー値EMお
よびこの時点Ｍにおける各チヤンネル出力B_1M、
B_2M、B_3M、B_4Mを求め、各パラメータ毎に上記各
値からそれぞれ所定値を差引いて、ラベリング用
の閾値E_T、B_1T、B_2T、B_3T、B_4Tの情報が前記ラ
ベリング部５に与えられている。

ラベリング部５では、前記仮始端a₁の情報か
ら、この仮始端a₁より数フレーム前の時点（a₁−
N_F）を区間検出用の始端a₂として定め、また前
記仮終端b₁の情報から、この仮始端b₁より数フレ
ーム後の時点（b₁−N_E）を区間検出用の終端b₂
として定めている。そして、この始端a₂から終端
b₂によつて示される区間について前記バツフアメ
モリ２から音声パラメータを順次読出し、先に設
定されたラベリング用の閾値E_T、B_1T、B_2T、
B_3T、B_4Tとそれぞれ比較している。そして、第
２図にそのテーブルを示すように、各時点毎に、
上記各音声パラメータとその閾値との比較結果を
順次登録している。この比較結果の登録は、例え
ば音声パラメータが閾値より大なるとき、音声要
素が強いとして「１」なるデータを、また音声パ
ラメータが閾値より小なるときには音声要素が弱
いとして「０」なるデータをそれぞれ登録するこ
とにより行われる。そして、このようにして求め
られたテーブルを各時点毎に、例えば論理和処理
する等して、その結果「Ｑ」「Ｖ」の時系列を得
ている。このＱ−Ｖテーブルは、「Ｖ」を音声区
間の要素、「Ｑ」を無音区間の要素として示すも
のである。

第２段音声区間検出部６では、上記の如く求め
られたラベリング結果「Ｑ」、「Ｖ」を基にして、
入力音声に対する区間検出を行う。即ち、この区
間検出における始端および終端の検出は、先に説
明した第１段音声区間検出部３の検出アルゴリズ
ムとほぼ同様なものであるが、Ｑ−Ｖテーブルを
参照して時間方向に音声要素「Ｖ」とラベリング
されたフレームを探索していくことにより行われ
る。そして、最初に「Ｖ」とラベリングされたフ
レームａを検出し、その後「Ｖ」なるラベリング
が所定フレーム数、例えば40〜50ｍsecに相当す
るフレーム数継続するか否かを調べる。そして、
この条件が満たされたとき、上記フレームａを入
力音声の始端であると認定する。その後、最初に
「Ｑ」とラベリングされたフレームｂを検出し、
そのあとに所定フレーム数、例えば250〜300ｍ
secに亘つて「Ｑ」なるラベリングが継続するか
否かを検出する。この検出で否と判定された場合
には、「Ｖ」とラベリングされたフレームが所定
数、例えば40〜50ｍsecに相当するフレーム数継
続するか否かを調べる。そしてこの条件が満足さ
れた場合には、単語中の別の音声区間が現われた
と看做して改めて上記終端検出の操作を行う。
又、上記条件が満たされないときには、これをノ
イズによるものと看做して「Ｖ」とラベリングさ
れたフレーム数を「Ｑ」のカウントに加える。こ
れにより、入力音声に対する始端ａと終端ｂとが
それぞれ検出され、その音声区間が検出決定され
ることになる。

かくして本装置による上述した音声区間検出に
よれば、背景雑音の悪影響を受けることなしに安
定に、且つ確実に入力音声の音声区間を精度良く
検出することができる。と言うのは、音声区間の
始端および終端は、背景雑音のレベルとは無関係
であり、従つて背景雑音のレベルに左右されるこ
となく決定されるべきものである。そこで本発明
では、入力音声の最大レベルを基準として閾値を
定め、この閾値に従つて各音声パラメータについ
てそれぞれラベリングを行つている。しかも、複
数の音声パラメータに亘つてラベリング判定して
いるので、例え或る帯域にエネルギーが集中し、
全体的にエネルギーレベルが低くなつている音素
であつても、これを確実に検出することができ
る。従つて、入力音声の各フレームにおける音素
をそれぞれ確実に検出することができ、音声区間
を正確に検出することが可能となる。これ故、発
声環境に左右されることなく、しかも背景雑音レ
ベルが変動している場合であつても安定に且つ正
確に音声区間検出ができ、その実用的利点は絶大
である。

尚、本発明は上記実施例に限定されるものでは
ない。例えば入力音声から抽出する音声パラメー
タとしては、各種次数でのLPC予測誤差や、音
声信号の相関係数等の特徴パラメータを採用する
こともできる。またバンドパスフイルタの各チヤ
ンネル出力の関連性を特徴パラメータとすること
も有用であり、このバンドパスフイルタのチヤン
ネル数は仕様に応じて定めればよい。要するに本
発明は、その要旨を逸脱しない範囲で種々変形し
て実施することができる。

【図面の簡単な説明】

第１図は本発明の一実施例装置の概略構成図、
第２図は実施例装置の作用を説明する為の音声パ
ラメータとラベリングテーブルを示す図である。１……音声パラメータ抽出部、２……バツフア
メモリ、３……第１段音声区間検出部、４……閾
値計算部、５……ラベリング部、６……第２段音
声区間検出部。

Claims

【特許請求の範囲】１入力音声の複数種類の音声パラメータ時系列
をそれぞれ抽出する手段と、これらの抽出された
音声パラメータ時系列を記憶するメモリと、上記
音声パラメータ時系列のうちの特定された１つの
音声パラメータ時系列から音声区間の仮始端およ
び仮終端をそれぞれ検出する手段と、上記仮始端
の所定フレーム数前から前記仮終端の所定フレー
ム数後までの区間をラベリング対象区間として設
定する手段と、この設定されたラベリング対象区
間における音声パラメータ時系列の最大レベルを
検出する手段と、この最大レベルを基準に前記ラ
ベリング対象区間について少なくとも前記仮始端
および仮終端検出に用いた音声パラメータ時系列
以外の前記記憶された音声パラメータ時系列を用
いて各フレームが無音か否かのラベリングを行う
手段と、このラベリング結果に従つて前記入力音
声の音声区間の始端および終端をそれぞれ決定す
る手段とを具備したことを特徴とする音声区間検
出装置。２仮始端および仮終端の検出に用いられる音声
パラメータ時系列は、入力音声エネルギーを特徴
パラメータとしたものである特許請求の範囲第１
項記載の音声区間検出装置。３仮始端の検出は、音声エネルギーを特徴パラ
メータとした音声パラメータ時系列のレベルが所
定の閾値を越えて所定フレーム数継続した時点を
検出して行われ、仮終端は、音声入力時点から上
記仮始端までの区間の音声パラメータの分布に従
つて定められた閾値を前記音声パラメータ時系列
のレベルが下まわつて所定フレーム数継続した時
点を検出して行われるものである特許請求の範囲
第１項記載の音声区間検出装置。４始端および終端の検出は、無音を示すラベリ
ングが所定フレーム継続した直後および直前を検
出して行われるものである特許請求の範囲第１項
記載の音声区間検出装置。