JPH0121519B2 - - Google Patents
Info
- Publication number
- JPH0121519B2 JPH0121519B2 JP55005690A JP569080A JPH0121519B2 JP H0121519 B2 JPH0121519 B2 JP H0121519B2 JP 55005690 A JP55005690 A JP 55005690A JP 569080 A JP569080 A JP 569080A JP H0121519 B2 JPH0121519 B2 JP H0121519B2
- Authority
- JP
- Japan
- Prior art keywords
- state
- input
- autocorrelation coefficient
- voice
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
【発明の詳細な説明】
本発明は音声認識装置などにおける、入力音声
の存在範囲を検出する音声区間検出方法に関す
る。
の存在範囲を検出する音声区間検出方法に関す
る。
従来、入力音声の存在範囲を検出するための特
徴量として、主として入力音声のパワー情報が用
いられ、その他に入力音声の零交叉波情報などが
経験的に用いられていた。零交叉波情報を用いる
手法は、高域成分の多い無声子音では低域成分の
多い有声音や雑音にくらべて零交叉回数が多いこ
とを利用したものであるが、無声子音、有声音、
雑音の各零交叉回数の分布を調べると互いに重な
り合う部分が多く、これを用いて高精度の区分を
おこなうことは困難である。
徴量として、主として入力音声のパワー情報が用
いられ、その他に入力音声の零交叉波情報などが
経験的に用いられていた。零交叉波情報を用いる
手法は、高域成分の多い無声子音では低域成分の
多い有声音や雑音にくらべて零交叉回数が多いこ
とを利用したものであるが、無声子音、有声音、
雑音の各零交叉回数の分布を調べると互いに重な
り合う部分が多く、これを用いて高精度の区分を
おこなうことは困難である。
したがつて、上記の従来方法によると、たとえ
ば入力音声の開始点や終了点における無声子音
“s”や“h”の検出が困難であるので、検出感
度を上げるために判定時における閾値を下げるこ
とがおこなわれる。その結果、たとえば室内雑音
を入力音声とみなして誤検出するなどの問題が生
じていた。通常の電話機を通して音声を入力する
場合は、電話機に指向性がないため、室内雑音な
どの周囲雑音が混入しやすく、入力音声と周囲雑
音との区別が特に重要な課題となる。
ば入力音声の開始点や終了点における無声子音
“s”や“h”の検出が困難であるので、検出感
度を上げるために判定時における閾値を下げるこ
とがおこなわれる。その結果、たとえば室内雑音
を入力音声とみなして誤検出するなどの問題が生
じていた。通常の電話機を通して音声を入力する
場合は、電話機に指向性がないため、室内雑音な
どの周囲雑音が混入しやすく、入力音声と周囲雑
音との区別が特に重要な課題となる。
したがつて、本発明は、入力音声と周囲雑音と
により異なる値を有する特徴量を用いることによ
り上記問題点を解決する音声区間検出方法を提供
することを目的とする。
により異なる値を有する特徴量を用いることによ
り上記問題点を解決する音声区間検出方法を提供
することを目的とする。
上記目的を達成するため、本発明においては、
入力音声における無声子音と周囲雑音との周波数
スペクトルの概形の差が、1次の偏自己相関係数
値にあらわれることに注目し、これと前記パワー
情報とを特徴量として用いることに特徴がある。
入力音声における無声子音と周囲雑音との周波数
スペクトルの概形の差が、1次の偏自己相関係数
値にあらわれることに注目し、これと前記パワー
情報とを特徴量として用いることに特徴がある。
通常の無声子音はよく知られているように、周
波数スペクトルが3〜10KHzの高周波領域に比較
的大きな成分を有する高域強調の特性を有する。
波数スペクトルが3〜10KHzの高周波領域に比較
的大きな成分を有する高域強調の特性を有する。
一方、通常の周囲雑音はパワーは小さいがその
周波数特性が、−9dB/oct(周波数が2倍になる
毎に−9dB減衰する)程度の傾斜を有する低域強
調の特性を有する。
周波数特性が、−9dB/oct(周波数が2倍になる
毎に−9dB減衰する)程度の傾斜を有する低域強
調の特性を有する。
また、母音などの有声音も通常の周囲雑音と同
様に低域強度の周波数特性を有しているが、周囲
雑音の場合に比較してパワーが大きくなつてい
る。
様に低域強度の周波数特性を有しているが、周囲
雑音の場合に比較してパワーが大きくなつてい
る。
上記の特性の差を利用すれば
(i) 低域強調で、一定パワーθ2以上ならば有声音
(ii) 低域強調で、一定パワーθ2以下ならば周囲雑
音 (iii) 高域強調ならば、パワーの大小によらず無声
子音 のごとく分類することにより音声区間の検出が可
能になる。
音 (iii) 高域強調ならば、パワーの大小によらず無声
子音 のごとく分類することにより音声区間の検出が可
能になる。
ここで、高域強調特性を持つていてもパワーが
極端に小さい音声が検出された場合には、音声区
間検出時の演算誤差などにより無声子音でない音
声が混入した可能性があるから、パワーがθ1(θ1
<θ2)以下ならば検出された音声を雑音として除
外することが必要である。
極端に小さい音声が検出された場合には、音声区
間検出時の演算誤差などにより無声子音でない音
声が混入した可能性があるから、パワーがθ1(θ1
<θ2)以下ならば検出された音声を雑音として除
外することが必要である。
つぎに、1次の偏自己相関係数と0次の自己相
関係数(パワー情報)とを用いて上記分類をおこ
なう原理を説明する。
関係数(パワー情報)とを用いて上記分類をおこ
なう原理を説明する。
なお、簡単のため入力音声を単一周波数を有す
る信号にモデル化して以下の説明をおこなう。
る信号にモデル化して以下の説明をおこなう。
1次の偏自己相関係数(k1)は0次の自己相関
係数(v0)と1次の自己相関係数(v1)とから(1)
式により求められる。
係数(v0)と1次の自己相関係数(v1)とから(1)
式により求められる。
k1=v1/v0 …(1)
入力音声のサンプリング周波数fSを2πに対応さ
せて正規化した角周波数ωを考え、入力音声をた
とえば(2)式のごとく与える。
せて正規化した角周波数ωを考え、入力音声をた
とえば(2)式のごとく与える。
f(t)=a sin(ωt+) …(2)
このとき、v0、v1はつぎのようになる。
v0=a2/2 …(3)
v1=a2/2・cosωTS …(4)
(3)、(4)式より、k1=cosωTS …(5)
ただし、TS=1/fS
ここで、サンプリング周波数fSの1/2で与えら
れる折り返し周波数fR、すなわち fR=fS/2=2π/2=π を入力音声の周波数帯域(BW)に対応させる
と、 () π/2<BWπ(高域側)では−1k1<0 () 0BWπ/2(低域側)では0k11 一方、v0はパワーに相当する量で常に正であ
る。
れる折り返し周波数fR、すなわち fR=fS/2=2π/2=π を入力音声の周波数帯域(BW)に対応させる
と、 () π/2<BWπ(高域側)では−1k1<0 () 0BWπ/2(低域側)では0k11 一方、v0はパワーに相当する量で常に正であ
る。
上記の分折から、高域成分の強い音声信号のk1
は(−1)に近くなり、逆に低域成分の強い音声
信号のk1は(+1)に近くなることがわかる。
は(−1)に近くなり、逆に低域成分の強い音声
信号のk1は(+1)に近くなることがわかる。
たとえば、電話のようにかなり帯域を制限した
場合でも、無声子音“s”や“h”ではk1<0.7
であるのに対して、周囲雑音ではk1>0.7である
ことを実験的に確認することができた。
場合でも、無声子音“s”や“h”ではk1<0.7
であるのに対して、周囲雑音ではk1>0.7である
ことを実験的に確認することができた。
したがつて、上記のようなk1の特性と、通常は
信号成分が雑音成分よりも大きなパワーを有する
ことを利用すれば、入力音声に対して前記(i)〜(iii)
の分類をおこなうことができる。
信号成分が雑音成分よりも大きなパワーを有する
ことを利用すれば、入力音声に対して前記(i)〜(iii)
の分類をおこなうことができる。
(i)〜(iii)の分類にもとづいた、入力音声区間の開
始、終了の検出は、たとえばつぎのようにすれば
よい。
始、終了の検出は、たとえばつぎのようにすれば
よい。
θ1、θ2:パワーに関する所定の閾値
(θ2>θ1)
δ:1次の偏自己相関係数に関する所定の閾値
(一般にパワーの大きさにより異なる値に設定
する)。
(一般にパワーの大きさにより異なる値に設定
する)。
TS、TI、E:時間に関する所定の閾値
(1) v0θ2
(2) θ2Voθ1(θ2>θ1)かつk1δ
とするとき、
上記(1)項または(2)項を満足する状態が、継続的
にまたは断続的に時間TS以上続いたならば入力
音声区間の開始と判定し、(1)項と(2)項のいずれの
状態も満足しない状態が継続的にまたは断続的に
時間TE以上続いたならば入力音声区間の終了と
判定することにより入力音声区間が検出される。
にまたは断続的に時間TS以上続いたならば入力
音声区間の開始と判定し、(1)項と(2)項のいずれの
状態も満足しない状態が継続的にまたは断続的に
時間TE以上続いたならば入力音声区間の終了と
判定することにより入力音声区間が検出される。
また、上記状態が断続する場合は断の状態にな
つている時間がT1以下ならば、断の状態はなか
つたものとみるようにしておく。
つている時間がT1以下ならば、断の状態はなか
つたものとみるようにしておく。
第1図はv0とk1の値により、音声信号の種類を
判定するための閾値θ1、θ2、およびδの設定例
と、これに応じて各音声信号と周囲雑音とが検出
される領域を示す。
判定するための閾値θ1、θ2、およびδの設定例
と、これに応じて各音声信号と周囲雑音とが検出
される領域を示す。
第1図において、の領域は前記(iii)に対応し、
入力音声が無声子音であることを示し、の領域
は前記(i)に対応し、入力音声が有声音であること
を示す。また、の領域は前記(ii)に対応し、入力
音声が室内雑音や音声区間検出時の演算誤差など
によるランダム雑音を含めた周囲雑音であること
を示す。また、δは一般にv0により変化させる、
すなわちv0の関数としてδ=δ(v0)のごとく設
定することが望ましいことが実験により確認され
ているが、入力音声によつてはたとえばδ=0.7
のごとく一定値に設定してもよい。
入力音声が無声子音であることを示し、の領域
は前記(i)に対応し、入力音声が有声音であること
を示す。また、の領域は前記(ii)に対応し、入力
音声が室内雑音や音声区間検出時の演算誤差など
によるランダム雑音を含めた周囲雑音であること
を示す。また、δは一般にv0により変化させる、
すなわちv0の関数としてδ=δ(v0)のごとく設
定することが望ましいことが実験により確認され
ているが、入力音声によつてはたとえばδ=0.7
のごとく一定値に設定してもよい。
なお、実際の入力音声は単一周波数でなく複数
周波数成分が合成された波形になつているので、
各周波数成分毎のパワー値と1次の自己相関係数
値の和をそれぞれ前記v0およびv1として、k1=
v1/v0により1次の偏自己相関係数を求めればよい。
周波数成分が合成された波形になつているので、
各周波数成分毎のパワー値と1次の自己相関係数
値の和をそれぞれ前記v0およびv1として、k1=
v1/v0により1次の偏自己相関係数を求めればよい。
すなわち、入力音声の周波数帯域をf0〜fC(Hz)
とすれば実際の入力音声信号の波形は近似的に次
式により表わされる。
とすれば実際の入力音声信号の波形は近似的に次
式により表わされる。
f(t)=N
〓n=1
aosin(nω0t+o) …(6)
ただし、ω0=2πf0、N:周波数成分数
これから、前記(3)、(4)式におけるv0、v1は
v0=1/TF∫TF 0f(t)2dt(TF:フレームの長さ)…
(7) =1/2N 〓n=1 a2 o v1=1/TF∫TF 0f(t)・f(t+TS)dt (TS:サンプリング周期) …(8) =1/2N 〓n=1 a2 ocosnω0TS したがつて としてv0とk1が計算される。
(7) =1/2N 〓n=1 a2 o v1=1/TF∫TF 0f(t)・f(t+TS)dt (TS:サンプリング周期) …(8) =1/2N 〓n=1 a2 ocosnω0TS したがつて としてv0とk1が計算される。
電話音声の場合、周波数帯域は通常150〜4000
Hz程度であるので、サンプリング周波数はfS=
8000Hzに設定すればよく、したがつてサンプリン
グ周期はTS=1/fS=125μsとなる。
Hz程度であるので、サンプリング周波数はfS=
8000Hzに設定すればよく、したがつてサンプリン
グ周期はTS=1/fS=125μsとなる。
また、1フレームの長さは、破裂音のごとく変
化の急激な音声に対しては短かく、抑揚の少ない
話声のごとく変化の緩慢な音声に対しては長くす
るなど、その都度適当な値にされるべきものであ
るが、通常は5ms〜20ms程度に設定される。
化の急激な音声に対しては短かく、抑揚の少ない
話声のごとく変化の緩慢な音声に対しては長くす
るなど、その都度適当な値にされるべきものであ
るが、通常は5ms〜20ms程度に設定される。
以下、本発明を実施例を参照して詳細に説明す
る。
る。
第2図は本発明の一実施例を示す回路ブロツク
図である。
図である。
入力音声信号1は折返し雑音防止用の低域通過
フイルタ2(Low Pass Filter……LPF)を
通つて、アナログ−デイジタル変換器3(A
nalog to Digital Converter……ADC)によ
りデイジタルデータに変換されて、入力バツフア
メモリ4に入力される。入力バツフアメモリ4は
それぞれ1フレーム期間分のデータを格納する2
個のメモリ領域4−1と4−2とからなる2面バ
ツフア構成となつていて、一方の領域(たとえば
4−2)にデータを入力している間に、他方の領
域(たとえば4−1)にすでに入力されたデータ
に対する所定の処理が実行される。
フイルタ2(Low Pass Filter……LPF)を
通つて、アナログ−デイジタル変換器3(A
nalog to Digital Converter……ADC)によ
りデイジタルデータに変換されて、入力バツフア
メモリ4に入力される。入力バツフアメモリ4は
それぞれ1フレーム期間分のデータを格納する2
個のメモリ領域4−1と4−2とからなる2面バ
ツフア構成となつていて、一方の領域(たとえば
4−2)にデータを入力している間に、他方の領
域(たとえば4−1)にすでに入力されたデータ
に対する所定の処理が実行される。
制御部5で発生される制御信号によつて、メモ
リ領域4−1内のデータがたとえば入力された順
序で出力されて、レジスタ6に転送される。
リ領域4−1内のデータがたとえば入力された順
序で出力されて、レジスタ6に転送される。
このとき、1サンプリング周期だけ前にレジス
タ6に入力されていたデータはレジスタ7に転送
される。
タ6に入力されていたデータはレジスタ7に転送
される。
レジスタ6に格納されているデータ(これを
D6とする)と、レジスタ7に格納されているデ
ータ(これをD7とする)とは、それぞれ掛算器
8および掛算器9に入力され、掛算器8による掛
算結果D6×D6がアキユムレータ10に加算され、
掛算器9による掛算結果D6×D7がアキユムレー
タ11に加算される。
D6とする)と、レジスタ7に格納されているデ
ータ(これをD7とする)とは、それぞれ掛算器
8および掛算器9に入力され、掛算器8による掛
算結果D6×D6がアキユムレータ10に加算され、
掛算器9による掛算結果D6×D7がアキユムレー
タ11に加算される。
メモリ領域4−1内のすべてのデータについて
上記の演算処理が終了すると、アキユムレータ1
0とアキユムレータ11においてはそれぞれ前記
(7)式、(8)式における積分の演算が実行されたこと
になり、アキユムレータ10内にはそれらのデー
タに対する前記パワー情報に相当する0次の自己
相関係数v0のTF倍(v0×TF)が求められ、アキ
ユムレータ11には1次の相関係数v1のTF倍
(v1×TF)が求められていることになる。TFは定
数なので閾値θ1、θ2をあらかじめTF倍しておけば
特に1/TFにする必要はない。k1は(9)式からわ
かるように分母と分子にTFがかかつても同じで
あるから問題ない。以下TF倍した値をv0又はv1
として説明する。
上記の演算処理が終了すると、アキユムレータ1
0とアキユムレータ11においてはそれぞれ前記
(7)式、(8)式における積分の演算が実行されたこと
になり、アキユムレータ10内にはそれらのデー
タに対する前記パワー情報に相当する0次の自己
相関係数v0のTF倍(v0×TF)が求められ、アキ
ユムレータ11には1次の相関係数v1のTF倍
(v1×TF)が求められていることになる。TFは定
数なので閾値θ1、θ2をあらかじめTF倍しておけば
特に1/TFにする必要はない。k1は(9)式からわ
かるように分母と分子にTFがかかつても同じで
あるから問題ない。以下TF倍した値をv0又はv1
として説明する。
アキユムレータ10の出力データは制御部5内
のメモリに格納されるとともに、ROM12の読
み出しアドレスとなり、ROM14において逆数
の1/v0に変換されて掛算器15の乗数となる。
アキユムレータ11の出力データは上記掛算器1
5の被乗数となり、掛算器15において前記1/
v0との掛算が実行されて、前記1次の偏自己相関
係数k1となり、レジスタ16に格納された後、制
御部5内のメモリに格納される。
のメモリに格納されるとともに、ROM12の読
み出しアドレスとなり、ROM14において逆数
の1/v0に変換されて掛算器15の乗数となる。
アキユムレータ11の出力データは上記掛算器1
5の被乗数となり、掛算器15において前記1/
v0との掛算が実行されて、前記1次の偏自己相関
係数k1となり、レジスタ16に格納された後、制
御部5内のメモリに格納される。
これに続いて、つぎのフレーム期間におけるデ
ータから上記と同様の過程を経てこのフレーム期
間に対するv0とk1が計算されて、制御部5内のメ
モリに格納される。
ータから上記と同様の過程を経てこのフレーム期
間に対するv0とk1が計算されて、制御部5内のメ
モリに格納される。
以下、同様にして各フレーム期間毎にv0とk1が
1組ずつ計算されて、制御部5内のメモリに順次
格納されていく。なお、上記の演算処理において
必要な一連の制御信号はすべて制御部5より供給
されるが、第2図においては簡単のため、データ
のフローのみを示し、制御信号については明示を
省略してある。
1組ずつ計算されて、制御部5内のメモリに順次
格納されていく。なお、上記の演算処理において
必要な一連の制御信号はすべて制御部5より供給
されるが、第2図においては簡単のため、データ
のフローのみを示し、制御信号については明示を
省略してある。
つぎに、上記各フレーム期間毎に求められたv0
とk1を用いて入力音声区間の開始と終了を検出す
る手順の一具体例を説明する。
とk1を用いて入力音声区間の開始と終了を検出す
る手順の一具体例を説明する。
(A) 音声区間の開始
v0θ2
v0θ1(θ2>θ1)かつk10.7
項または項を満足するフレームが継続的
にTS=50msec相当分以上続いたならば入力音
声区間の開始と判定する。
にTS=50msec相当分以上続いたならば入力音
声区間の開始と判定する。
ただし、この条件が継続的に満足されている
状態が中断しても、中断したフレームがTI=
30msec相当分以下ならば、中断はなかつたも
のとみなす。
状態が中断しても、中断したフレームがTI=
30msec相当分以下ならば、中断はなかつたも
のとみなす。
(B) 音声区間の終了
v0<θ4かつk1>0.7
v0<θ3
項または項を満足するフレームが継続的
にTE=300msec相当分以上続いたならば入力
音声区間の終了と判定する。
にTE=300msec相当分以上続いたならば入力
音声区間の終了と判定する。
ただし、この条件が継続的に満足されている
状態が中断しても、中断したフレームがTI=
30msec相当分以下ならば中断はなかつたもの
とみなす。
状態が中断しても、中断したフレームがTI=
30msec相当分以下ならば中断はなかつたもの
とみなす。
なお、上記(B)におけるθ3とθ4は、それぞれ(A)に
おけるθ1とθ2に一致させるか、θ3θ1、θ4θ2に
すればよい。また、k1に関する閾値δを0.7にし
たのは、実施例の対象とした入力音声が無声子音
か周囲雑音かを判定するために最適閾値であるこ
とが実験的に確認されたことによる。
おけるθ1とθ2に一致させるか、θ3θ1、θ4θ2に
すればよい。また、k1に関する閾値δを0.7にし
たのは、実施例の対象とした入力音声が無声子音
か周囲雑音かを判定するために最適閾値であるこ
とが実験的に確認されたことによる。
上記比較動作を中心とした判定処理は第1図に
おける制御部5内の専用処理装置やマイクロプロ
セツサなどにより実行される。
おける制御部5内の専用処理装置やマイクロプロ
セツサなどにより実行される。
なお、上記v0、k1、時間(フレーム数)などに
関する閾値の変更や、判定手順の変更や、新たな
判定基準の追加などを環境条件の変化に応じて任
意におこなえることはいうまでもない。
関する閾値の変更や、判定手順の変更や、新たな
判定基準の追加などを環境条件の変化に応じて任
意におこなえることはいうまでもない。
さらに、本発明により音声区間を検出後、たと
えば動的計画法により標準パターンとのマツチン
グをとる認識処理も制御部5内のマイクロプロセ
ツサによりおこなえる。
えば動的計画法により標準パターンとのマツチン
グをとる認識処理も制御部5内のマイクロプロセ
ツサによりおこなえる。
第3図は、/システム研(shisutemken)/な
る入力音声のv0とk1の時間的変化と、v0に関する
前記閾値をθ1(=θ3)、θ2(=θ4)として上記音声
の開始点と、終了点を検出し得ることを示す図で
ある。
る入力音声のv0とk1の時間的変化と、v0に関する
前記閾値をθ1(=θ3)、θ2(=θ4)として上記音声
の開始点と、終了点を検出し得ることを示す図で
ある。
第3図によれば、v0のみを用いた従来法による
と、音声開始点の/sh/に相当する部分では、θ1
<v0<θ2であるため、閾値をθ2にすると/sh/の
検出が不可能になり、これを検出可等にするため
閾値をθ1に下げると、周囲雑音と混同する恐れが
生じることがわかる。
と、音声開始点の/sh/に相当する部分では、θ1
<v0<θ2であるため、閾値をθ2にすると/sh/の
検出が不可能になり、これを検出可等にするため
閾値をθ1に下げると、周囲雑音と混同する恐れが
生じることがわかる。
これに対して、本発明に従つてk1をあわせ用い
ると、上記/sh/の部分ではk1δであるため、
前記(A)の項の条件が満足されることになり、(A)
の又は項の条件を満足する入力音声の継続時
間も前記所定の閾値TSを越えるために、開始点
が正しく検出されることになる。
ると、上記/sh/の部分ではk1δであるため、
前記(A)の項の条件が満足されることになり、(A)
の又は項の条件を満足する入力音声の継続時
間も前記所定の閾値TSを越えるために、開始点
が正しく検出されることになる。
なお、途中の/te/の部分では、v0<θ1、k1<
δであるため、前記(B)の項、項ともに満足さ
れる状態になるが、このような状態の継続時間が
前記所定の閾値TI以下であるため、音声の終了
ではなく、一時的中断として処理される。
δであるため、前記(B)の項、項ともに満足さ
れる状態になるが、このような状態の継続時間が
前記所定の閾値TI以下であるため、音声の終了
ではなく、一時的中断として処理される。
音声終了点になると、前記(B)の項、項とも
に満足される状態になり、この状態の継続時間も
前記所定の閾値TEを越えるために、終了点が正
しく検出されることになる。
に満足される状態になり、この状態の継続時間も
前記所定の閾値TEを越えるために、終了点が正
しく検出されることになる。
また、(u)は無声化により脱落していること
を示す。
を示す。
なお、上記開始点、終了点はそれぞれ前記(A)、
(B)が最初に満足された時刻で、これを基準として
音声区間の検出がおこなわれる。
(B)が最初に満足された時刻で、これを基準として
音声区間の検出がおこなわれる。
また、本発明を音声認識の処理に用いる場合、
(A)の又はの条件が成立した時点で音声開始候
補点として認識動作に入り、その継続状態がTS
以下で終了したときは、それまでの認識用の処理
を無効とすれば、検出遅れの不都合は回避するこ
とができる。
(A)の又はの条件が成立した時点で音声開始候
補点として認識動作に入り、その継続状態がTS
以下で終了したときは、それまでの認識用の処理
を無効とすれば、検出遅れの不都合は回避するこ
とができる。
以上説明したごとく、本発明によれば入力音声
の開始点や終了点における無声子音でも周囲雑音
と混同することなく正しく検出できるため、音声
区間の検出精度を著しく向上させることができ、
その実用的価値は大きい。
の開始点や終了点における無声子音でも周囲雑音
と混同することなく正しく検出できるため、音声
区間の検出精度を著しく向上させることができ、
その実用的価値は大きい。
第1図は、本発明を用いて入力音声の種類を判
定する原理を示す図、第2図は、本発明の一実施
例を示す回路ブロツク図、第3図は、本発明によ
り音声区間の検出をおこなつた実験データを示す
図である。 2……低域通過フイルタ、3……アナログ−デ
イジタル変換器、4……2面バツフア、5……制
御部。
定する原理を示す図、第2図は、本発明の一実施
例を示す回路ブロツク図、第3図は、本発明によ
り音声区間の検出をおこなつた実験データを示す
図である。 2……低域通過フイルタ、3……アナログ−デ
イジタル変換器、4……2面バツフア、5……制
御部。
Claims (1)
- 【特許請求の範囲】 1 入力信号の一定抽出区間毎に零次の自己相関
および1次の偏自己相関係数を抽出し、前記零次
の自己相関係数が第1の閾値以上である第1の状
態と、前記零次の自己相関係数が第2の閾値以上
で前記第1の閾値以下でありかつ前記1次の偏自
己相関係数が第3の閾値より小さい第2の状態の
いずれか一方の状態が所定数の抽出区間にわたつ
て実質上継続したか否かにより前記入力信号が音
声区間内であるか否かを判定することを特徴とす
る音声区間検出方法。 2 前記第1の状態と第2の状態の少なくとも一
方の状態が所定数の抽出区間にわたつて実質上継
続したときに前記音声区間の開始点と判定するこ
とを特徴とする特許請求範囲第1項記載の音声区
間検出方法。 3 前記第1の状態と第2の状態のいずれも満足
しない状態が所定数の抽出区間にわたつて実質上
継続したときに前記音声区間の終了点と判定する
ことを特徴とする特許請求の範囲第1項記載の音
声区間検出法。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP569080A JPS56104399A (en) | 1980-01-23 | 1980-01-23 | Voice interval detection system |
| DE3101851A DE3101851C2 (de) | 1980-01-23 | 1981-01-21 | Vorrichtung zum Erkennen von Sprache |
| US06/227,677 US4401849A (en) | 1980-01-23 | 1981-01-23 | Speech detecting method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP569080A JPS56104399A (en) | 1980-01-23 | 1980-01-23 | Voice interval detection system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS56104399A JPS56104399A (en) | 1981-08-20 |
| JPH0121519B2 true JPH0121519B2 (ja) | 1989-04-21 |
Family
ID=11618089
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP569080A Granted JPS56104399A (en) | 1980-01-23 | 1980-01-23 | Voice interval detection system |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US4401849A (ja) |
| JP (1) | JPS56104399A (ja) |
| DE (1) | DE3101851C2 (ja) |
Families Citing this family (31)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS57191699A (en) * | 1981-05-22 | 1982-11-25 | Hitachi Ltd | Pattern matching apparatus |
| JPS5844500A (ja) * | 1981-09-11 | 1983-03-15 | シャープ株式会社 | 音声認識方式 |
| JPS58143394A (ja) * | 1982-02-19 | 1983-08-25 | 株式会社日立製作所 | 音声区間の検出・分類方式 |
| JPS58160996A (ja) * | 1982-03-19 | 1983-09-24 | 日本電信電話株式会社 | 雑音抑圧方式 |
| JPS58170698U (ja) * | 1982-05-10 | 1983-11-14 | カシオ計算機株式会社 | 音声認識装置におけるノイズ防止回路 |
| DE3243231A1 (de) * | 1982-11-23 | 1984-05-24 | Philips Kommunikations Industrie AG, 8500 Nürnberg | Verfahren zur erkennung von sprachpausen |
| DE3243232A1 (de) * | 1982-11-23 | 1984-05-24 | Philips Kommunikations Industrie AG, 8500 Nürnberg | Verfahren zur erkennung von sprachpausen |
| JPS59115625A (ja) * | 1982-12-22 | 1984-07-04 | Nec Corp | 音声検出器 |
| GB2139052A (en) * | 1983-04-20 | 1984-10-31 | Philips Electronic Associated | Apparatus for distinguishing between speech and certain other signals |
| JPS59216198A (ja) * | 1983-05-24 | 1984-12-06 | 三洋電機株式会社 | 音声の有声無声判定方式 |
| JPS60230200A (ja) * | 1984-04-27 | 1985-11-15 | 日本電気株式会社 | 音声検出回路 |
| JPH079581B2 (ja) * | 1985-02-28 | 1995-02-01 | ヤマハ株式会社 | 電子楽器 |
| JPH079580B2 (ja) * | 1985-06-20 | 1995-02-01 | ヤマハ株式会社 | 電子楽器の制御装置 |
| JPS62204300A (ja) * | 1986-03-05 | 1987-09-08 | 日本無線株式会社 | ボイススイツチ |
| JPS6350900A (ja) * | 1986-08-21 | 1988-03-03 | 沖電気工業株式会社 | 音声認識装置 |
| US4829578A (en) * | 1986-10-02 | 1989-05-09 | Dragon Systems, Inc. | Speech detection and recognition apparatus for use with background noise of varying levels |
| JPH07101354B2 (ja) * | 1986-12-26 | 1995-11-01 | 松下電器産業株式会社 | 音声区間検出装置 |
| JPH01169499A (ja) * | 1987-12-24 | 1989-07-04 | Fujitsu Ltd | 単語音声区間切出し方式 |
| US5319703A (en) * | 1992-05-26 | 1994-06-07 | Vmx, Inc. | Apparatus and method for identifying speech and call-progression signals |
| US5579431A (en) * | 1992-10-05 | 1996-11-26 | Panasonic Technologies, Inc. | Speech detection in presence of noise by determining variance over time of frequency band limited energy |
| US5617508A (en) * | 1992-10-05 | 1997-04-01 | Panasonic Technologies Inc. | Speech detection device for the detection of speech end points based on variance of frequency band limited energy |
| JPH07325599A (ja) * | 1994-12-28 | 1995-12-12 | Fujitsu Ltd | 音声蓄積装置 |
| US5822726A (en) * | 1995-01-31 | 1998-10-13 | Motorola, Inc. | Speech presence detector based on sparse time-random signal samples |
| GB2317084B (en) * | 1995-04-28 | 2000-01-19 | Northern Telecom Ltd | Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals |
| FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
| JP3670754B2 (ja) * | 1996-04-15 | 2005-07-13 | オリンパス株式会社 | 信号処理装置 |
| US6480823B1 (en) | 1998-03-24 | 2002-11-12 | Matsushita Electric Industrial Co., Ltd. | Speech detection for noisy conditions |
| US6327564B1 (en) | 1999-03-05 | 2001-12-04 | Matsushita Electric Corporation Of America | Speech detection using stochastic confidence measures on the frequency spectrum |
| JP2004341033A (ja) * | 2003-05-13 | 2004-12-02 | Matsushita Electric Ind Co Ltd | 音声媒介起動装置およびその方法 |
| US7305099B2 (en) * | 2003-08-12 | 2007-12-04 | Sony Ericsson Mobile Communications Ab | Electronic devices, methods, and computer program products for detecting noise in a signal based on autocorrelation coefficient gradients |
| JPWO2008007616A1 (ja) * | 2006-07-13 | 2009-12-10 | 日本電気株式会社 | 無音声発声の入力警告装置と方法並びにプログラム |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5712999B2 (ja) * | 1974-04-08 | 1982-03-13 | ||
| US4044309A (en) * | 1974-07-18 | 1977-08-23 | Narco Scientific Industries, Inc. | Automatic squelch circuit with hysteresis |
| JPS51149705A (en) * | 1975-06-18 | 1976-12-22 | Nippon Telegr & Teleph Corp <Ntt> | Method of analyzing drive sound source signal |
| US4074069A (en) * | 1975-06-18 | 1978-02-14 | Nippon Telegraph & Telephone Public Corporation | Method and apparatus for judging voiced and unvoiced conditions of speech signal |
| US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
| JPS5912185B2 (ja) * | 1978-01-09 | 1984-03-21 | 日本電気株式会社 | 有声無声判定装置 |
-
1980
- 1980-01-23 JP JP569080A patent/JPS56104399A/ja active Granted
-
1981
- 1981-01-21 DE DE3101851A patent/DE3101851C2/de not_active Expired
- 1981-01-23 US US06/227,677 patent/US4401849A/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| DE3101851A1 (de) | 1981-12-17 |
| DE3101851C2 (de) | 1984-05-30 |
| US4401849A (en) | 1983-08-30 |
| JPS56104399A (en) | 1981-08-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH0121519B2 (ja) | ||
| JP4587160B2 (ja) | 信号処理装置および方法 | |
| EP0398180B1 (en) | Method of and arrangement for distinguishing between voiced and unvoiced speech elements | |
| JP3604393B2 (ja) | 音声検出装置 | |
| US5809453A (en) | Methods and apparatus for detecting harmonic structure in a waveform | |
| Hainsworth et al. | Analysis of reassigned spectrograms for musical transcription | |
| CA1193731A (en) | Speech analysis system | |
| EP0092612B1 (en) | Speech analysis system | |
| JPH07191696A (ja) | 音声認識装置 | |
| CN110827859B (zh) | 一种颤音识别的方法与装置 | |
| US20060150805A1 (en) | Method of automatically detecting vibrato in music | |
| KR100345402B1 (ko) | 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법 | |
| JP4360527B2 (ja) | ピッチ検出方法 | |
| KR100539176B1 (ko) | 음악적 특징 추출 방법 및 장치 | |
| KR0173924B1 (ko) | 음성신호의 유성음 구간에서 이포크 검출 방법 | |
| JPS63155197A (ja) | 無声音検出方法 | |
| JPS6334479B2 (ja) | ||
| JPS59170894A (ja) | 音声区間の切り出し方式 | |
| JPS63226691A (ja) | 標準パターン作成方式 | |
| JP2000010577A (ja) | 有声音/無声音判定装置 | |
| JPS6129517B2 (ja) | ||
| Pruthi et al. | ENEE 739A | |
| JPS62141597A (ja) | 有声破裂子音識別方式 | |
| JPH0412478B2 (ja) | ||
| JPH026078B2 (ja) |