JPH0225199B2 - - Google Patents
Info
- Publication number
- JPH0225199B2 JPH0225199B2 JP58147311A JP14731183A JPH0225199B2 JP H0225199 B2 JPH0225199 B2 JP H0225199B2 JP 58147311 A JP58147311 A JP 58147311A JP 14731183 A JP14731183 A JP 14731183A JP H0225199 B2 JPH0225199 B2 JP H0225199B2
- Authority
- JP
- Japan
- Prior art keywords
- change
- power
- distance
- cepstrum
- residual power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Description
【発明の詳細な説明】
産業上の利用分野
本発明は、音声区間と音声の存在しない区間と
が連続している入力音より音声区間を検出する音
声区間検出方法に関するものである。
が連続している入力音より音声区間を検出する音
声区間検出方法に関するものである。
従来例の構成とその問題点
音声認識を行なう場合、マイクから連続して入
力される入力音から、実際の音声の区間を検出す
ることが必須である。従来の音声区間検出方法
は、音声区間を専らパワの変化を利用して検出し
ていた。すなわち、無音部分と音声区間を識別す
るパワのスレツシヨルドを定め、その値を越える
入力があると音声区間とするというものであつ
た。この方法では、パワのスレツシヨルドが高い
場合には、語頭が無声破裂音である場合など、そ
の部分のパワが小さい場合に音声区間として検出
されないことが生じ、反対にスレツシヨルドを低
くした場合には、音声区間直前の口中音等の雑音
を音声区間に含んでしまいやすく、音声認識誤り
の原因となつていた。
力される入力音から、実際の音声の区間を検出す
ることが必須である。従来の音声区間検出方法
は、音声区間を専らパワの変化を利用して検出し
ていた。すなわち、無音部分と音声区間を識別す
るパワのスレツシヨルドを定め、その値を越える
入力があると音声区間とするというものであつ
た。この方法では、パワのスレツシヨルドが高い
場合には、語頭が無声破裂音である場合など、そ
の部分のパワが小さい場合に音声区間として検出
されないことが生じ、反対にスレツシヨルドを低
くした場合には、音声区間直前の口中音等の雑音
を音声区間に含んでしまいやすく、音声認識誤り
の原因となつていた。
発明の目的
本発明は、上記従来例の欠点を除去し、音声区
間を正しく検出することにより、音声認識の認識
率を向上さることを目的とするものである。
間を正しく検出することにより、音声認識の認識
率を向上さることを目的とするものである。
発明の構成
本発明は上記目的を達成するために、入力音を
フレームに区切り、フレーム毎に線形予測分析
(LPC)を行ない、これにより得られる残差パワ
の変化、隣接フレーム間のLPCケプストラム距
離の変化、残差パワに重みを置いたLPCケプス
トラム距離の変化等により音声区間を判定検出す
る音声区間検出方法である。
フレームに区切り、フレーム毎に線形予測分析
(LPC)を行ない、これにより得られる残差パワ
の変化、隣接フレーム間のLPCケプストラム距
離の変化、残差パワに重みを置いたLPCケプス
トラム距離の変化等により音声区間を判定検出す
る音声区間検出方法である。
実施例の説明
以下に本発明の一実施例について図面と共に説
明する。第1図に示すように入力音を10ms毎の
フレームに区切り(ステツプ1)、フレーム毎に
パワ及び、LPCケプストラムを算出し(ステツ
プ2,3)、次に隣接フレーム間の残差パワに重
みを置いたケプストラム距離を算出する(ステツ
プ4)。ケプストラム距離について説明する。I
番目のフレームの第n次のLPCケプストラム係
数をCu(I)とすると、番目のフレーム(I−
1)番目のフレームの間のN次迄の通常のケプス
トラム距離は第(1)式で表わされる。
明する。第1図に示すように入力音を10ms毎の
フレームに区切り(ステツプ1)、フレーム毎に
パワ及び、LPCケプストラムを算出し(ステツ
プ2,3)、次に隣接フレーム間の残差パワに重
みを置いたケプストラム距離を算出する(ステツ
プ4)。ケプストラム距離について説明する。I
番目のフレームの第n次のLPCケプストラム係
数をCu(I)とすると、番目のフレーム(I−
1)番目のフレームの間のN次迄の通常のケプス
トラム距離は第(1)式で表わされる。
〔ケプストラム距離〕2={C0(I)−C0(I−1)}2
+2N 〓n=1 {Co((I)−Co(I−1)}2 …(1) ここで0次のLPCケプストラム係数は、残差
パワの対数に相当するものである。これに対し、
残差パワに重みをおいたケプストラム距離は第(2)
式で定義される。
+2N 〓n=1 {Co((I)−Co(I−1)}2 …(1) ここで0次のLPCケプストラム係数は、残差
パワの対数に相当するものである。これに対し、
残差パワに重みをおいたケプストラム距離は第(2)
式で定義される。
〔残差パワに重みをおいたケプストラム距離
〕2 ={C0(I)−C0(I−1)}2×2N 〓n=1 {Co(I)−Co(I−1)}2 …(2) 即ち、第(2)式において、右辺の第2項は、残差
分(C0項)を除いたときのケプストラム距離で
あり、それに第1項を掛けたものはある種のケプ
ストラム距離である。ところで、第1項は、残差
分(C0)の変化の大きさを表わす項であり、こ
の項を第2項に加える通常のケプストラム距離
{第(1)式}に比べ、第(2)式のように乗算にすると、
C0の寄与分が大きくなる。つまり、C0の変化が
著しく大ならば、第(2)式の値は第2項が0でない
限り大きくなるし、C0の変化が0であれば、第
(2)式も0となる。よつて、第(2)式は残差パワに重
みを置いたケプストラム距離を表わす。換言すれ
ば、残差パワの変化の寄与分を大きくしたことに
なる。
〕2 ={C0(I)−C0(I−1)}2×2N 〓n=1 {Co(I)−Co(I−1)}2 …(2) 即ち、第(2)式において、右辺の第2項は、残差
分(C0項)を除いたときのケプストラム距離で
あり、それに第1項を掛けたものはある種のケプ
ストラム距離である。ところで、第1項は、残差
分(C0)の変化の大きさを表わす項であり、こ
の項を第2項に加える通常のケプストラム距離
{第(1)式}に比べ、第(2)式のように乗算にすると、
C0の寄与分が大きくなる。つまり、C0の変化が
著しく大ならば、第(2)式の値は第2項が0でない
限り大きくなるし、C0の変化が0であれば、第
(2)式も0となる。よつて、第(2)式は残差パワに重
みを置いたケプストラム距離を表わす。換言すれ
ば、残差パワの変化の寄与分を大きくしたことに
なる。
本実施例における音声区間検出は、第1図に示
すように先ずパワ変化を調べ、パワがスレツシヨ
ルドより大きい区間を仮の音声区間と定め(ステ
ツプ5)、次にその語頭付近で、前記により算出
された残差パワに重みをおいたケプストラム距離
が著しく大きくなるフレームを探し、そのフレー
ムを真の語頭として、音声区間を修正する(ステ
ツプ6)ものである。
すように先ずパワ変化を調べ、パワがスレツシヨ
ルドより大きい区間を仮の音声区間と定め(ステ
ツプ5)、次にその語頭付近で、前記により算出
された残差パワに重みをおいたケプストラム距離
が著しく大きくなるフレームを探し、そのフレー
ムを真の語頭として、音声区間を修正する(ステ
ツプ6)ものである。
次に本実施例の効果について、第2図とともに
説明する。第2図は単語「クマガヤ」の「ク」の
部分の各種パラメータの時間変化を示す。第2図
において11はパワ、12は残差パワ、13は隣
接フレームとのケプストラム距離、14は隣接フ
レームとの残差パワに重みをおいたケプストラム
距離を示す。第2図において、パワ11と残差パ
ワ12は音声区間全体にわたつて高いレベルを示
すが語頭の正確な位置は雑音の影響等により見い
出しにくく、一方隣接フレームとのケプストラム
距離13、隣接フレームとの残差パワに重みを置
いたケプストラム距離14は語頭で著しく大きな
値が得られるが、音声の定常部分では値が小さく
なることが示される。本実施例はこれらパラメー
タの良好な組み合わせの例であり、先ずパワ11
により音声区間を大まかに検出し、次に語頭を隣
接フレームとの残差パワに重みをおいたケプスト
ラム距離14を用いて修正することにより、音声
区間検出の精度を高めるものである。
説明する。第2図は単語「クマガヤ」の「ク」の
部分の各種パラメータの時間変化を示す。第2図
において11はパワ、12は残差パワ、13は隣
接フレームとのケプストラム距離、14は隣接フ
レームとの残差パワに重みをおいたケプストラム
距離を示す。第2図において、パワ11と残差パ
ワ12は音声区間全体にわたつて高いレベルを示
すが語頭の正確な位置は雑音の影響等により見い
出しにくく、一方隣接フレームとのケプストラム
距離13、隣接フレームとの残差パワに重みを置
いたケプストラム距離14は語頭で著しく大きな
値が得られるが、音声の定常部分では値が小さく
なることが示される。本実施例はこれらパラメー
タの良好な組み合わせの例であり、先ずパワ11
により音声区間を大まかに検出し、次に語頭を隣
接フレームとの残差パワに重みをおいたケプスト
ラム距離14を用いて修正することにより、音声
区間検出の精度を高めるものである。
実施例では、パワ11の変化と隣接フレームと
の残差パワに重みを置いたケプストラム距離14
の変化とを用いて音声区間を検出した例を示した
が、要するに、パワ11の変化と残差パワ12の
変化のいずれか一方と、隣接フレームとのケプス
トラム距離13の変化と隣接フレームとの残差パ
ワに重みを置いたケプストラム距離14の変化の
いずれか一方とを組合せるようにすればよい。
の残差パワに重みを置いたケプストラム距離14
の変化とを用いて音声区間を検出した例を示した
が、要するに、パワ11の変化と残差パワ12の
変化のいずれか一方と、隣接フレームとのケプス
トラム距離13の変化と隣接フレームとの残差パ
ワに重みを置いたケプストラム距離14の変化の
いずれか一方とを組合せるようにすればよい。
なお、残差パワに重みをおいたケプストラム距
離14として、第(2)式の他に、第(3)式のように定
義することもできる。これを用いてもほぼ同様な
結果を得られる。
離14として、第(2)式の他に、第(3)式のように定
義することもできる。これを用いてもほぼ同様な
結果を得られる。
〔残差パワに重みをおいたケプストラム距離
〕2 △ =k×{C0(I)−C0(I−1)}2+2N 〓n=1 {Co(I)−Co(I−1)}2 …(3) なお、k>1である。
〕2 △ =k×{C0(I)−C0(I−1)}2+2N 〓n=1 {Co(I)−Co(I−1)}2 …(3) なお、k>1である。
発明の効果
本発明は上記のように、音声区間全体の大まか
な検出、語頭の精密化を夫々に適したパラメータ
を用いることにより、音声区間を精度よく検出す
ることができるので、音声認識において高い認識
率を得られるという利点を有する。
な検出、語頭の精密化を夫々に適したパラメータ
を用いることにより、音声区間を精度よく検出す
ることができるので、音声認識において高い認識
率を得られるという利点を有する。
第1図は本発明の一実施例における音声区間検
出法のステツプを示す流れ図。第2図は単語「ク
マガヤ」の「ク」の部分の、本発明で用いるパラ
メータの時間変化を示す図である。
出法のステツプを示す流れ図。第2図は単語「ク
マガヤ」の「ク」の部分の、本発明で用いるパラ
メータの時間変化を示す図である。
Claims (1)
- 【特許請求の範囲】 1 入力音をフレームに区切り、フレーム毎に線
形予測分析を行い、この線形予測分析により得ら
れる残差パワの変化と線形予測分析結果より求め
られた線形予測分析ケプストラムの隣接フレーム
間のケプストラム距離の変化、又は前記残差パワ
の変化と隣接フレーム間の残差パワに重みを置い
たケプストラム距離の変化とを利用して音声区間
を検出することを特徴とする音声区間検出方法。 2 入力音をフレームに区切り、フレーム毎に求
められるパワの変化と入力音のフレーム毎の線形
予測分析結果より求められた線形予測分析ケプス
トラムの隣接フレーム間のケプストラム距離の変
化、又は前記パワの変化と隣接フレーム間の残差
パワに重みを置いたケプストラム距離の変化とを
利用して音声区間を検出することを特徴とする音
声区間検出方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58147311A JPS6039700A (ja) | 1983-08-13 | 1983-08-13 | 音声区間検出方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58147311A JPS6039700A (ja) | 1983-08-13 | 1983-08-13 | 音声区間検出方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6039700A JPS6039700A (ja) | 1985-03-01 |
| JPH0225199B2 true JPH0225199B2 (ja) | 1990-05-31 |
Family
ID=15427320
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58147311A Granted JPS6039700A (ja) | 1983-08-13 | 1983-08-13 | 音声区間検出方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6039700A (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2656069B2 (ja) * | 1988-05-13 | 1997-09-24 | 富士通株式会社 | 音声検出装置 |
| JP2573352B2 (ja) * | 1989-04-10 | 1997-01-22 | 富士通株式会社 | 音声検出装置 |
-
1983
- 1983-08-13 JP JP58147311A patent/JPS6039700A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6039700A (ja) | 1985-03-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5229234B2 (ja) | 非音声区間検出方法及び非音声区間検出装置 | |
| EP0764937B1 (en) | Method for speech detection in a high-noise environment | |
| US20060053003A1 (en) | Acoustic interval detection method and device | |
| JP3451146B2 (ja) | スペクトルサブトラクションを用いた雑音除去システムおよび方法 | |
| KR100269216B1 (ko) | 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법 | |
| JPH08328591A (ja) | 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法 | |
| Hanilçi et al. | Regularized all-pole models for speaker verification under noisy environments | |
| JPH10254476A (ja) | 音声区間検出方法 | |
| Hanilçi et al. | Comparing spectrum estimators in speaker verification under additive noise degradation | |
| US20040107098A1 (en) | Audio-visual codebook dependent cepstral normalization | |
| Zhao et al. | A processing method for pitch smoothing based on autocorrelation and cepstral F0 detection approaches | |
| JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
| JP2940835B2 (ja) | ピッチ周波数差分特徴量抽出法 | |
| JPH0225199B2 (ja) | ||
| JPH0449952B2 (ja) | ||
| KR100194953B1 (ko) | 유성음 구간에서 프레임별 피치 검출 방법 | |
| JPH07295588A (ja) | 発話速度推定方法 | |
| JPH0222399B2 (ja) | ||
| JP3100180B2 (ja) | 音声認識方法 | |
| JPH0456999B2 (ja) | ||
| EP3956890B1 (en) | A dialog detector | |
| JP3026855B2 (ja) | 音声認識装置 | |
| JPS61128300A (ja) | ピツチ抽出装置 | |
| JPH1097288A (ja) | 背景雑音除去装置及び音声認識装置 | |
| KR100211965B1 (ko) | 유성음 구간에서 피치동기식 포먼트 추정방법 |