JPS6292998A

JPS6292998A - 音声区間検出装置

Info

Publication number: JPS6292998A
Application number: JP60234014A
Authority: JP
Inventors: 藤井　浩美
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1985-10-18
Filing date: 1985-10-18
Publication date: 1987-04-28

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、音声認識技術などで用いられている入力音声
の存在範囲を検出する音声区間検出装置の改良に関する
ものである。

〔従来の技術〕

従来の音声区間検出装置として、幾つかの方式によるも
のが試みられている。それらのうち代表的な方式として
、音声のパワーや零交差数などの特徴パラメータの閾値
をあらかじめ設定し、入力信号のパワーや零交差数、あ
るいは、単位時間内のパワーから求められるエネルギー
などが、ある閾値を越えるかどうかで音声の区間を検出
するものがある。

以下に、図面を用いて従来の音声区間検出装置の原理を
説明する。

第４図は従来の音声区間検出装置の原理を示すブロック
図である。パターンバッファ１には音声区間を含む、あ
る時間長の特徴パラメータが保持されている。閾値決定
部２では、パターンバッファ１に保持されている入力信
号の特徴パターンからパワーや零交差数などの閾値を計
算する。検出部３では、パターンバッファ１の特徴パラ
メータと閾値決定部２の閾値を読み込み、音声区間の始
端、終端を求める。閾値決定部２．検出部３における処
理としては、たとえば特願昭５８−１５６０９８号明細
書［可変閾値型音声検出器」に記載されている方式が知
られている。この方式は、閾値として、入力信号中の雑
音信号の平均電力から求められたパワー、パワーの累積
などを求め、時刻ごとに特徴パラメータと比較すること
により音声区間の始端、終端を求める方式である。

〔発明が解決しようとする問題点〕

しかし、以上説明したような音声検出装置では、認識に
対しても、登録に対しても同一の処理を行っているため
、どちらのモードでも同じ頻度で検出エラーが起こる。

しかし、認識時に比べ、登録時のエラーは致命的である
ため、極力減らさなければならない。なぜなら、登録時
に検出エラーが起き、必要な音声以外の音が挿入された
り、必要な音声の一部が脱落すると、認識時の照合が不
正確になってしまう。すなわち、認識時にその単語を正
しく認識することは困難となり、その単語に関して認識
エラーが多発し、認識性能が大幅に低下してしまうから
である。

本発明の目的は、このような致命的な登録時の検出エラ
ーが起こらない音声区間検出装置を提供することにある
。

〔問題点を解決するための手段〕

本発明による音声検出装置は次のような各部を必要とす
る。すなわち、入力された音声の特徴パラメータを保持
するパターンバッファ尼、前記パターンバッファの特徴
パラメータより音声区間を検出するための闇値を求める
閾値決定部と、前記パターンバッファの特徴パラメータ
と閾値決定部の閾値より、音声の存在する区間の始端と
終端の候補を決定する検出部と、登録語粟に関する情報
と格納するトップダウン情報格納部と、前記検出部にお
いて求められた音声区間の始端、終端の候補の情報、前
記トップダウン情報格納部の情報、および前記パターン
バッファの特徴パラメータをらとに、音声区間の始端と
終端を求める後処理部の各部である。

〔作用〕

本発明は、登録時には、入力音声が既知であることを利
用して、登録語禦に関する知識を用いて始端、終端の検
査や修正を行い、登録時の致命的なエラーをなくすとい
うものである。これは、ｌ・ツブダウン情報格納部、後
処・環部を設けることで実現できる。すなわち、トップ
ダウン情報格納部に、登録する単語が満足すべき条件を
記述しておき、後処理部では、それらと音声検出部にて
得られた始端、終端から条件を満足しているかを調べる
。その結果、条件に合えば確認されたとする。

条件に合わない場合でも、合うまで始端、終端を修正し
てゆくことにより、より正確な検出が実現できる。

〔実施例〕

以下に、本発明の実施例について図面を参照しながら詳
細に説明する。第１図は本発明の音声区間検出装置の一
実施例を示すブロック図である。

ここでは、登録語禦が離散数字である時に登録用発声“
ｒ　ｏ　ｋ　ｕ　”を検出する場合を例にとり説明する
。

パターンバッファ１には、入力信号の特徴パラメータが
保持されている。闇値決定部２では、パターンバッファ
１の特徴パラメータを読み込み、それらのパラメータか
ら検出のための閾値を計算する。閾値を計算する処理は
、前述の特願昭５８−１５６０９８号明細書に記載され
ているものを用いることができる。次に、検出部３では
、パターンバッファ１の特徴パラメータに対して、閾値
決定部２の閾値を用いて、音声の存在する区間の始端と
終端の候補を求める。検出部３には、前述と同様に特願
昭５８−１５６０９８号明細書に記載されている音声検
出器を用いることができる。

トップダウン情報格納部４には、各登録単語の検出にあ
たって満足すべき条件が記述されている。

たとえば、登録用発声゛ｒｏｋｕ”に対しては、平均発
声時間長が５００ｍ５ｅｃ　、パワーの山の数が２個、
と記述されている。登録語禦に対するトップダウン情報
は、“ｒｏｋｕ”″以外の単語についてもそれぞれ条件
が定められている。

後処理部５では、まず初めに、検出部３にて求められた
始端、終端から、処理している音声の発声時間長、パワ
ーの山の数を求める。パワーの山の数は、例えば、パワ
ーがある閾値をある時間長以上続けて越えた時に一つと
数える、という方法により求めることができる。次に、
求められたこれらの情報と、トップダウン情報格納部４
の情報を照合し、それらが一致していれば、検出部３に
て求められた始端、終端が正しいと判断し、その時刻間
を音声区間として切り出す。しかし、一致していない時
は、脱落、または、挿入が起きていると考えられるため
、以下のような修正を行う。

処理中の音声“ｒ　ｏ　ｋ　ｕ　”の時間長がトップダ
ウン情報格納部４に記述されている“ｒｏｋｕ”の平均
発声時間長の半分よりも短く、また、パワーの山の数が
トップダウン情報のパワーの山の数よりも少ない時は、
脱落が起こっていると考えられる。そのような場合は、
第２図に示すように求められた始端候補より前か、終端
候補より後の時刻のパワーの山を探し、現在の音声区間
に追加する。パワーの山を探すには、例えば、第２図の
ように、検出部３にて用いた閾値を下げて新たな閾値Ｔ
Ｈとし、始端候補から前、または、終端候補から後ろで
、その閾値をパワーが越える時刻とその後下回る時刻が
存在する時かどうかをみる、という処理を用いることが
できる。そのようなパワーの山が検出されるとそれを現
在の音声区間に追加する。

また、反対に、処理中の“’ｒｏｋｕ”の時間長がトッ
プダウン情報の’　ｒ　ｏ　ｋ　ｕ　”の平均発声時間
長の１．５倍゛よりも長く、かつ、パワーの山の数がト
ップダウン情報のパワーの山の数よりも多い時は、挿入
が起こっていると考えられる。そのような場合は、第３
図に示すように、始端部分のパワーの山の最大値Ａと終
端部分のパワーの山の最大値Ｂを比較し、最大値の小さ
い最大値Ａの山を音声区間から除外する。

後処理部５におけるこれらの処理は、処理中のデータが
トップダウン情報を満足するまで繰り返し続けられる。

トップダウン情報は以上述べた情報の池に、例えば、パ
ワーのディップの数、特徴パラメータより検出された母
音の数を用いることができる。また、パワー、時間長に
基づく情報の他に、・スペクトルに基づく情報を用いて
も良い。

〔発明の効果〕

以上述べた本発明による音声区間検出装置では、登録す
る語禦に関する情報を持ち、検出にあたっては、それら
の条件を満足しているかを確認する。

さらに、満足していない場合は、満足するまで修正を行
う。従って、従来よりも登録時の検出エラーが減少する
。これにより、認識時における大幅な性能の低下を防ぐ
ことができる。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図、
第３図は第１図中の後処理部５における処理の動作を示
す音声パワーの図、第４図は従来の音声区間検出装置を
示すプロ・ｌり図である。１・・・パターンバッファ、２・・・閾値決定部、３・
・・検出部、４・・・トップダウン情報格納部、５・・
・後処理部。７、゛わ代理人　弁理士　　内　原　１！ン業　　／　　凹／ト− ミン〉−（Ｘ

Claims

【特許請求の範囲】

入力された音声の特徴パラメータを保持するパターンバ
ッファと、前記パターンバッファの特徴パラメータより
音声区間を検出するための閾値を求める閾値決定部と、
前記パターンバッファの特徴パラメータと閾値決定部の
閾値より、音声の存在する区間の始端と終端の候補を決
定する検出部と、登録語彙に関する情報を格納するトッ
プダウン情報格納部と、前記検出部において求められた
音声区間の始端、終端の候補の情報、前記トップダウン
情報格納部の情報、および前記パターンバッファの特徴
パラメータをもとに、音声区間の始端と終端を求める後
処理部とを有することを特徴とする音声区間検出装置。