JPS6292998A - 音声区間検出装置 - Google Patents
音声区間検出装置Info
- Publication number
- JPS6292998A JPS6292998A JP60234014A JP23401485A JPS6292998A JP S6292998 A JPS6292998 A JP S6292998A JP 60234014 A JP60234014 A JP 60234014A JP 23401485 A JP23401485 A JP 23401485A JP S6292998 A JPS6292998 A JP S6292998A
- Authority
- JP
- Japan
- Prior art keywords
- section
- speech
- power
- pattern buffer
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 claims description 29
- 238000012805 post-processing Methods 0.000 claims description 7
- 238000000034 method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、音声認識技術などで用いられている入力音声
の存在範囲を検出する音声区間検出装置の改良に関する
ものである。
の存在範囲を検出する音声区間検出装置の改良に関する
ものである。
従来の音声区間検出装置として、幾つかの方式によるも
のが試みられている。それらのうち代表的な方式として
、音声のパワーや零交差数などの特徴パラメータの閾値
をあらかじめ設定し、入力信号のパワーや零交差数、あ
るいは、単位時間内のパワーから求められるエネルギー
などが、ある閾値を越えるかどうかで音声の区間を検出
するものがある。
のが試みられている。それらのうち代表的な方式として
、音声のパワーや零交差数などの特徴パラメータの閾値
をあらかじめ設定し、入力信号のパワーや零交差数、あ
るいは、単位時間内のパワーから求められるエネルギー
などが、ある閾値を越えるかどうかで音声の区間を検出
するものがある。
以下に、図面を用いて従来の音声区間検出装置の原理を
説明する。
説明する。
第4図は従来の音声区間検出装置の原理を示すブロック
図である。パターンバッファ1には音声区間を含む、あ
る時間長の特徴パラメータが保持されている。閾値決定
部2では、パターンバッファ1に保持されている入力信
号の特徴パターンからパワーや零交差数などの閾値を計
算する。検出部3では、パターンバッファ1の特徴パラ
メータと閾値決定部2の閾値を読み込み、音声区間の始
端、終端を求める。閾値決定部2.検出部3における処
理としては、たとえば特願昭58−156098号明細
書[可変閾値型音声検出器」に記載されている方式が知
られている。この方式は、閾値として、入力信号中の雑
音信号の平均電力から求められたパワー、パワーの累積
などを求め、時刻ごとに特徴パラメータと比較すること
により音声区間の始端、終端を求める方式である。
図である。パターンバッファ1には音声区間を含む、あ
る時間長の特徴パラメータが保持されている。閾値決定
部2では、パターンバッファ1に保持されている入力信
号の特徴パターンからパワーや零交差数などの閾値を計
算する。検出部3では、パターンバッファ1の特徴パラ
メータと閾値決定部2の閾値を読み込み、音声区間の始
端、終端を求める。閾値決定部2.検出部3における処
理としては、たとえば特願昭58−156098号明細
書[可変閾値型音声検出器」に記載されている方式が知
られている。この方式は、閾値として、入力信号中の雑
音信号の平均電力から求められたパワー、パワーの累積
などを求め、時刻ごとに特徴パラメータと比較すること
により音声区間の始端、終端を求める方式である。
しかし、以上説明したような音声検出装置では、認識に
対しても、登録に対しても同一の処理を行っているため
、どちらのモードでも同じ頻度で検出エラーが起こる。
対しても、登録に対しても同一の処理を行っているため
、どちらのモードでも同じ頻度で検出エラーが起こる。
しかし、認識時に比べ、登録時のエラーは致命的である
ため、極力減らさなければならない。なぜなら、登録時
に検出エラーが起き、必要な音声以外の音が挿入された
り、必要な音声の一部が脱落すると、認識時の照合が不
正確になってしまう。すなわち、認識時にその単語を正
しく認識することは困難となり、その単語に関して認識
エラーが多発し、認識性能が大幅に低下してしまうから
である。
ため、極力減らさなければならない。なぜなら、登録時
に検出エラーが起き、必要な音声以外の音が挿入された
り、必要な音声の一部が脱落すると、認識時の照合が不
正確になってしまう。すなわち、認識時にその単語を正
しく認識することは困難となり、その単語に関して認識
エラーが多発し、認識性能が大幅に低下してしまうから
である。
本発明の目的は、このような致命的な登録時の検出エラ
ーが起こらない音声区間検出装置を提供することにある
。
ーが起こらない音声区間検出装置を提供することにある
。
本発明による音声検出装置は次のような各部を必要とす
る。すなわち、入力された音声の特徴パラメータを保持
するパターンバッファ尼、前記パターンバッファの特徴
パラメータより音声区間を検出するための闇値を求める
閾値決定部と、前記パターンバッファの特徴パラメータ
と閾値決定部の閾値より、音声の存在する区間の始端と
終端の候補を決定する検出部と、登録語粟に関する情報
と格納するトップダウン情報格納部と、前記検出部にお
いて求められた音声区間の始端、終端の候補の情報、前
記トップダウン情報格納部の情報、および前記パターン
バッファの特徴パラメータをらとに、音声区間の始端と
終端を求める後処理部の各部である。
る。すなわち、入力された音声の特徴パラメータを保持
するパターンバッファ尼、前記パターンバッファの特徴
パラメータより音声区間を検出するための闇値を求める
閾値決定部と、前記パターンバッファの特徴パラメータ
と閾値決定部の閾値より、音声の存在する区間の始端と
終端の候補を決定する検出部と、登録語粟に関する情報
と格納するトップダウン情報格納部と、前記検出部にお
いて求められた音声区間の始端、終端の候補の情報、前
記トップダウン情報格納部の情報、および前記パターン
バッファの特徴パラメータをらとに、音声区間の始端と
終端を求める後処理部の各部である。
本発明は、登録時には、入力音声が既知であることを利
用して、登録語禦に関する知識を用いて始端、終端の検
査や修正を行い、登録時の致命的なエラーをなくすとい
うものである。これは、l・ツブダウン情報格納部、後
処・環部を設けることで実現できる。すなわち、トップ
ダウン情報格納部に、登録する単語が満足すべき条件を
記述しておき、後処理部では、それらと音声検出部にて
得られた始端、終端から条件を満足しているかを調べる
。その結果、条件に合えば確認されたとする。
用して、登録語禦に関する知識を用いて始端、終端の検
査や修正を行い、登録時の致命的なエラーをなくすとい
うものである。これは、l・ツブダウン情報格納部、後
処・環部を設けることで実現できる。すなわち、トップ
ダウン情報格納部に、登録する単語が満足すべき条件を
記述しておき、後処理部では、それらと音声検出部にて
得られた始端、終端から条件を満足しているかを調べる
。その結果、条件に合えば確認されたとする。
条件に合わない場合でも、合うまで始端、終端を修正し
てゆくことにより、より正確な検出が実現できる。
てゆくことにより、より正確な検出が実現できる。
以下に、本発明の実施例について図面を参照しながら詳
細に説明する。第1図は本発明の音声区間検出装置の一
実施例を示すブロック図である。
細に説明する。第1図は本発明の音声区間検出装置の一
実施例を示すブロック図である。
ここでは、登録語禦が離散数字である時に登録用発声“
r o k u ”を検出する場合を例にとり説明する
。
r o k u ”を検出する場合を例にとり説明する
。
パターンバッファ1には、入力信号の特徴パラメータが
保持されている。闇値決定部2では、パターンバッファ
1の特徴パラメータを読み込み、それらのパラメータか
ら検出のための閾値を計算する。閾値を計算する処理は
、前述の特願昭58−156098号明細書に記載され
ているものを用いることができる。次に、検出部3では
、パターンバッファ1の特徴パラメータに対して、閾値
決定部2の閾値を用いて、音声の存在する区間の始端と
終端の候補を求める。検出部3には、前述と同様に特願
昭58−156098号明細書に記載されている音声検
出器を用いることができる。
保持されている。闇値決定部2では、パターンバッファ
1の特徴パラメータを読み込み、それらのパラメータか
ら検出のための閾値を計算する。閾値を計算する処理は
、前述の特願昭58−156098号明細書に記載され
ているものを用いることができる。次に、検出部3では
、パターンバッファ1の特徴パラメータに対して、閾値
決定部2の閾値を用いて、音声の存在する区間の始端と
終端の候補を求める。検出部3には、前述と同様に特願
昭58−156098号明細書に記載されている音声検
出器を用いることができる。
トップダウン情報格納部4には、各登録単語の検出にあ
たって満足すべき条件が記述されている。
たって満足すべき条件が記述されている。
たとえば、登録用発声゛roku”に対しては、平均発
声時間長が500m5ec 、パワーの山の数が2個、
と記述されている。登録語禦に対するトップダウン情報
は、“roku”″以外の単語についてもそれぞれ条件
が定められている。
声時間長が500m5ec 、パワーの山の数が2個、
と記述されている。登録語禦に対するトップダウン情報
は、“roku”″以外の単語についてもそれぞれ条件
が定められている。
後処理部5では、まず初めに、検出部3にて求められた
始端、終端から、処理している音声の発声時間長、パワ
ーの山の数を求める。パワーの山の数は、例えば、パワ
ーがある閾値をある時間長以上続けて越えた時に一つと
数える、という方法により求めることができる。次に、
求められたこれらの情報と、トップダウン情報格納部4
の情報を照合し、それらが一致していれば、検出部3に
て求められた始端、終端が正しいと判断し、その時刻間
を音声区間として切り出す。しかし、一致していない時
は、脱落、または、挿入が起きていると考えられるため
、以下のような修正を行う。
始端、終端から、処理している音声の発声時間長、パワ
ーの山の数を求める。パワーの山の数は、例えば、パワ
ーがある閾値をある時間長以上続けて越えた時に一つと
数える、という方法により求めることができる。次に、
求められたこれらの情報と、トップダウン情報格納部4
の情報を照合し、それらが一致していれば、検出部3に
て求められた始端、終端が正しいと判断し、その時刻間
を音声区間として切り出す。しかし、一致していない時
は、脱落、または、挿入が起きていると考えられるため
、以下のような修正を行う。
処理中の音声“r o k u ”の時間長がトップダ
ウン情報格納部4に記述されている“roku”の平均
発声時間長の半分よりも短く、また、パワーの山の数が
トップダウン情報のパワーの山の数よりも少ない時は、
脱落が起こっていると考えられる。そのような場合は、
第2図に示すように求められた始端候補より前か、終端
候補より後の時刻のパワーの山を探し、現在の音声区間
に追加する。パワーの山を探すには、例えば、第2図の
ように、検出部3にて用いた閾値を下げて新たな閾値T
Hとし、始端候補から前、または、終端候補から後ろで
、その閾値をパワーが越える時刻とその後下回る時刻が
存在する時かどうかをみる、という処理を用いることが
できる。そのようなパワーの山が検出されるとそれを現
在の音声区間に追加する。
ウン情報格納部4に記述されている“roku”の平均
発声時間長の半分よりも短く、また、パワーの山の数が
トップダウン情報のパワーの山の数よりも少ない時は、
脱落が起こっていると考えられる。そのような場合は、
第2図に示すように求められた始端候補より前か、終端
候補より後の時刻のパワーの山を探し、現在の音声区間
に追加する。パワーの山を探すには、例えば、第2図の
ように、検出部3にて用いた閾値を下げて新たな閾値T
Hとし、始端候補から前、または、終端候補から後ろで
、その閾値をパワーが越える時刻とその後下回る時刻が
存在する時かどうかをみる、という処理を用いることが
できる。そのようなパワーの山が検出されるとそれを現
在の音声区間に追加する。
また、反対に、処理中の“’roku”の時間長がトッ
プダウン情報の’ r o k u ”の平均発声時間
長の1.5倍゛よりも長く、かつ、パワーの山の数がト
ップダウン情報のパワーの山の数よりも多い時は、挿入
が起こっていると考えられる。そのような場合は、第3
図に示すように、始端部分のパワーの山の最大値Aと終
端部分のパワーの山の最大値Bを比較し、最大値の小さ
い最大値Aの山を音声区間から除外する。
プダウン情報の’ r o k u ”の平均発声時間
長の1.5倍゛よりも長く、かつ、パワーの山の数がト
ップダウン情報のパワーの山の数よりも多い時は、挿入
が起こっていると考えられる。そのような場合は、第3
図に示すように、始端部分のパワーの山の最大値Aと終
端部分のパワーの山の最大値Bを比較し、最大値の小さ
い最大値Aの山を音声区間から除外する。
後処理部5におけるこれらの処理は、処理中のデータが
トップダウン情報を満足するまで繰り返し続けられる。
トップダウン情報を満足するまで繰り返し続けられる。
トップダウン情報は以上述べた情報の池に、例えば、パ
ワーのディップの数、特徴パラメータより検出された母
音の数を用いることができる。また、パワー、時間長に
基づく情報の他に、・スペクトルに基づく情報を用いて
も良い。
ワーのディップの数、特徴パラメータより検出された母
音の数を用いることができる。また、パワー、時間長に
基づく情報の他に、・スペクトルに基づく情報を用いて
も良い。
以上述べた本発明による音声区間検出装置では、登録す
る語禦に関する情報を持ち、検出にあたっては、それら
の条件を満足しているかを確認する。
る語禦に関する情報を持ち、検出にあたっては、それら
の条件を満足しているかを確認する。
さらに、満足していない場合は、満足するまで修正を行
う。従って、従来よりも登録時の検出エラーが減少する
。これにより、認識時における大幅な性能の低下を防ぐ
ことができる。
う。従って、従来よりも登録時の検出エラーが減少する
。これにより、認識時における大幅な性能の低下を防ぐ
ことができる。
第1図は本発明の一実施例を示すブロック図、第2図、
第3図は第1図中の後処理部5における処理の動作を示
す音声パワーの図、第4図は従来の音声区間検出装置を
示すプロ・lり図である。 1・・・パターンバッファ、2・・・閾値決定部、3・
・・検出部、4・・・トップダウン情報格納部、5・・
・後処理部。 7、゛わ 代理人 弁理士 内 原 1!ン 業 / 凹 /ト− ミ ン〉−(X
第3図は第1図中の後処理部5における処理の動作を示
す音声パワーの図、第4図は従来の音声区間検出装置を
示すプロ・lり図である。 1・・・パターンバッファ、2・・・閾値決定部、3・
・・検出部、4・・・トップダウン情報格納部、5・・
・後処理部。 7、゛わ 代理人 弁理士 内 原 1!ン 業 / 凹 /ト− ミ ン〉−(X
Claims (1)
- 入力された音声の特徴パラメータを保持するパターンバ
ッファと、前記パターンバッファの特徴パラメータより
音声区間を検出するための閾値を求める閾値決定部と、
前記パターンバッファの特徴パラメータと閾値決定部の
閾値より、音声の存在する区間の始端と終端の候補を決
定する検出部と、登録語彙に関する情報を格納するトッ
プダウン情報格納部と、前記検出部において求められた
音声区間の始端、終端の候補の情報、前記トップダウン
情報格納部の情報、および前記パターンバッファの特徴
パラメータをもとに、音声区間の始端と終端を求める後
処理部とを有することを特徴とする音声区間検出装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP60234014A JPS6292998A (ja) | 1985-10-18 | 1985-10-18 | 音声区間検出装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP60234014A JPS6292998A (ja) | 1985-10-18 | 1985-10-18 | 音声区間検出装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS6292998A true JPS6292998A (ja) | 1987-04-28 |
Family
ID=16964200
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP60234014A Pending JPS6292998A (ja) | 1985-10-18 | 1985-10-18 | 音声区間検出装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6292998A (ja) |
-
1985
- 1985-10-18 JP JP60234014A patent/JPS6292998A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPS6292998A (ja) | 音声区間検出装置 | |
| CN109389997B (zh) | 磁记录介质的读取方法及读取装置以及存储介质 | |
| JPH0376471B2 (ja) | ||
| JPS59121099A (ja) | 音声区間検出装置 | |
| JPS62141595A (ja) | 音声検出方式 | |
| JP2901976B2 (ja) | パターン照合予備選択方式 | |
| JPH0585917B2 (ja) | ||
| JPS59105697A (ja) | 音声認識装置 | |
| JPS62211699A (ja) | 音声区間検出回路 | |
| JP2712586B2 (ja) | 単語音声認識装置用パターンマッチング方式 | |
| JP2882792B2 (ja) | 標準パターン作成方式 | |
| JPS61260299A (ja) | 音声認識装置 | |
| JPS61233791A (ja) | 音声認識装置における音声区間検出方式 | |
| JP2534244B2 (ja) | 標準パタ―ン作成方法 | |
| JPS6111886A (ja) | 文字認識方式 | |
| JPS63281199A (ja) | 音声セグメンテ−ション装置 | |
| JPS62217298A (ja) | 音声認識装置 | |
| JP2844592B2 (ja) | 離散単語音声認識装置 | |
| JPS61259296A (ja) | 音声区間検出方式 | |
| JPS62109099A (ja) | 音声区間検出方式 | |
| JPS59219797A (ja) | 音声区間切り出し方式 | |
| JPS62258499A (ja) | 音声開始時点検知方法 | |
| JPH01170998A (ja) | 音韻区間情報形成装置 | |
| JPS63220295A (ja) | 音声区間検出方式 | |
| JPS59211100A (ja) | 登録型音声認識方法 |