JPH0121519B2

JPH0121519B2 -

Info

Publication number: JPH0121519B2
Application number: JP55005690A
Authority: JP
Inventors: Hiroshi Ichikawa; Nobuo Hataoka; Yoshiaki Kitatsume; Eiji Oohira
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1980-01-23
Filing date: 1980-01-23
Publication date: 1989-04-21
Also published as: DE3101851A1; DE3101851C2; US4401849A; JPS56104399A

Description

【発明の詳細な説明】本発明は音声認識装置などにおける、入力音声
の存在範囲を検出する音声区間検出方法に関す
る。

従来、入力音声の存在範囲を検出するための特
徴量として、主として入力音声のパワー情報が用
いられ、その他に入力音声の零交叉波情報などが
経験的に用いられていた。零交叉波情報を用いる
手法は、高域成分の多い無声子音では低域成分の
多い有声音や雑音にくらべて零交叉回数が多いこ
とを利用したものであるが、無声子音、有声音、
雑音の各零交叉回数の分布を調べると互いに重な
り合う部分が多く、これを用いて高精度の区分を
おこなうことは困難である。

したがつて、上記の従来方法によると、たとえ
ば入力音声の開始点や終了点における無声子音
“ｓ”や“ｈ”の検出が困難であるので、検出感
度を上げるために判定時における閾値を下げるこ
とがおこなわれる。その結果、たとえば室内雑音
を入力音声とみなして誤検出するなどの問題が生
じていた。通常の電話機を通して音声を入力する
場合は、電話機に指向性がないため、室内雑音な
どの周囲雑音が混入しやすく、入力音声と周囲雑
音との区別が特に重要な課題となる。

したがつて、本発明は、入力音声と周囲雑音と
により異なる値を有する特徴量を用いることによ
り上記問題点を解決する音声区間検出方法を提供
することを目的とする。

上記目的を達成するため、本発明においては、
入力音声における無声子音と周囲雑音との周波数
スペクトルの概形の差が、１次の偏自己相関係数
値にあらわれることに注目し、これと前記パワー
情報とを特徴量として用いることに特徴がある。

通常の無声子音はよく知られているように、周
波数スペクトルが３〜10KHzの高周波領域に比較
的大きな成分を有する高域強調の特性を有する。

一方、通常の周囲雑音はパワーは小さいがその
周波数特性が、−9dB／oct（周波数が２倍になる
毎に−9dB減衰する）程度の傾斜を有する低域強
調の特性を有する。

また、母音などの有声音も通常の周囲雑音と同
様に低域強度の周波数特性を有しているが、周囲
雑音の場合に比較してパワーが大きくなつてい
る。

上記の特性の差を利用すれば (i) 低域強調で、一定パワーθ₂以上ならば有声音 (ii) 低域強調で、一定パワーθ₂以下ならば周囲雑
音 (iii) 高域強調ならば、パワーの大小によらず無声
子音のごとく分類することにより音声区間の検出が可
能になる。

ここで、高域強調特性を持つていてもパワーが
極端に小さい音声が検出された場合には、音声区
間検出時の演算誤差などにより無声子音でない音
声が混入した可能性があるから、パワーがθ₁（θ₁
＜θ₂）以下ならば検出された音声を雑音として除
外することが必要である。

つぎに、１次の偏自己相関係数と０次の自己相
関係数（パワー情報）とを用いて上記分類をおこ
なう原理を説明する。

なお、簡単のため入力音声を単一周波数を有す
る信号にモデル化して以下の説明をおこなう。

１次の偏自己相関係数（k₁）は０次の自己相関
係数（v₀）と１次の自己相関係数（v₁）とから(1)
式により求められる。

k₁＝v₁／v₀ …(1) 入力音声のサンプリング周波数f_Sを2πに対応さ
せて正規化した角周波数ωを考え、入力音声をた
とえば(2)式のごとく与える。

ｆ（ｔ）＝ａ sin（ωt＋） …(2) このとき、v₀、v₁はつぎのようになる。

v₀＝a²／２ …(3) v₁＝a²／２・cosωT_S …(4) (3)、(4)式より、k₁＝cosωT_S …(5) ただし、T_S＝１／f_S ここで、サンプリング周波数f_Sの1/2で与えら
れる折り返し周波数f_R、すなわち f_R＝f_S／２＝2π／２＝π を入力音声の周波数帯域（BW）に対応させる
と、 () π／２＜BWπ（高域側）では−１k₁＜０ () ０BWπ／２（低域側）では０k₁１一方、v₀はパワーに相当する量で常に正であ
る。

上記の分折から、高域成分の強い音声信号のk₁
は（−１）に近くなり、逆に低域成分の強い音声
信号のk₁は（＋１）に近くなることがわかる。

たとえば、電話のようにかなり帯域を制限した
場合でも、無声子音“ｓ”や“ｈ”ではk₁＜0.7
であるのに対して、周囲雑音ではk₁＞0.7である
ことを実験的に確認することができた。

したがつて、上記のようなk₁の特性と、通常は
信号成分が雑音成分よりも大きなパワーを有する
ことを利用すれば、入力音声に対して前記(i)〜(iii)
の分類をおこなうことができる。

(i)〜(iii)の分類にもとづいた、入力音声区間の開
始、終了の検出は、たとえばつぎのようにすれば
よい。

θ₁、θ₂：パワーに関する所定の閾値（θ₂＞θ₁） δ：１次の偏自己相関係数に関する所定の閾値
（一般にパワーの大きさにより異なる値に設定
する）。

T_S、T_I、_E：時間に関する所定の閾値 (1) v₀θ₂ (2) θ₂Voθ₁（θ₂＞θ₁）かつk₁δ とするとき、上記(1)項または(2)項を満足する状態が、継続的
にまたは断続的に時間T_S以上続いたならば入力
音声区間の開始と判定し、(1)項と(2)項のいずれの
状態も満足しない状態が継続的にまたは断続的に
時間T_E以上続いたならば入力音声区間の終了と
判定することにより入力音声区間が検出される。

また、上記状態が断続する場合は断の状態にな
つている時間がT₁以下ならば、断の状態はなか
つたものとみるようにしておく。

第１図はv₀とk₁の値により、音声信号の種類を
判定するための閾値θ₁、θ₂、およびδの設定例
と、これに応じて各音声信号と周囲雑音とが検出
される領域を示す。

第１図において、の領域は前記(iii)に対応し、
入力音声が無声子音であることを示し、の領域
は前記(i)に対応し、入力音声が有声音であること
を示す。また、の領域は前記(ii)に対応し、入力
音声が室内雑音や音声区間検出時の演算誤差など
によるランダム雑音を含めた周囲雑音であること
を示す。また、δは一般にv₀により変化させる、
すなわちv₀の関数としてδ＝δ（v₀）のごとく設
定することが望ましいことが実験により確認され
ているが、入力音声によつてはたとえばδ＝0.7
のごとく一定値に設定してもよい。

なお、実際の入力音声は単一周波数でなく複数
周波数成分が合成された波形になつているので、
各周波数成分毎のパワー値と１次の自己相関係数
値の和をそれぞれ前記v₀およびv₁として、k₁＝
v₁／v₀により１次の偏自己相関係数を求めればよい。

すなわち、入力音声の周波数帯域をf₀〜f_C（Hz）
とすれば実際の入力音声信号の波形は近似的に次
式により表わされる。

ｆ（ｔ）＝_N 〓ⁿ⁼¹ a_osin（nω₀t＋_o） …(6) ただし、ω₀＝2πf₀、Ｎ：周波数成分数これから、前記(3)、(4)式におけるv₀、v₁は v₀＝１／T_F∫^TF ₀ｆ（ｔ）²dt（T_F：フレームの長さ）…
(7) ＝１／２_N 〓ⁿ⁼¹ a² _o v₁＝１／T_F∫^TF ₀ｆ（ｔ）・ｆ（ｔ＋T_S）dt （T_S：サンプリング周期） …(8) ＝１／２_N 〓ⁿ⁼¹ a² _ocosnω₀T_S したがつてとしてv₀とk₁が計算される。

電話音声の場合、周波数帯域は通常150〜4000
Hz程度であるので、サンプリング周波数はf_S＝
8000Hzに設定すればよく、したがつてサンプリン
グ周期はT_S＝１／f_S＝125μsとなる。

また、１フレームの長さは、破裂音のごとく変
化の急激な音声に対しては短かく、抑揚の少ない
話声のごとく変化の緩慢な音声に対しては長くす
るなど、その都度適当な値にされるべきものであ
るが、通常は５ｍｓ〜20ｍｓ程度に設定される。

以下、本発明を実施例を参照して詳細に説明す
る。

第２図は本発明の一実施例を示す回路ブロツク
図である。

入力音声信号１は折返し雑音防止用の低域通過
フイルタ２（Ｌow Ｐass Ｆilter……LPF）を
通つて、アナログ−デイジタル変換器３（Ａ
nalog to Ｄigital Ｃonverter……ADC）によ
りデイジタルデータに変換されて、入力バツフア
メモリ４に入力される。入力バツフアメモリ４は
それぞれ１フレーム期間分のデータを格納する２
個のメモリ領域４−１と４−２とからなる２面バ
ツフア構成となつていて、一方の領域（たとえば
４−２）にデータを入力している間に、他方の領
域（たとえば４−１）にすでに入力されたデータ
に対する所定の処理が実行される。

制御部５で発生される制御信号によつて、メモ
リ領域４−１内のデータがたとえば入力された順
序で出力されて、レジスタ６に転送される。

このとき、１サンプリング周期だけ前にレジス
タ６に入力されていたデータはレジスタ７に転送
される。

レジスタ６に格納されているデータ（これを
D₆とする）と、レジスタ７に格納されているデ
ータ（これをD₇とする）とは、それぞれ掛算器
８および掛算器９に入力され、掛算器８による掛
算結果D₆×D₆がアキユムレータ１０に加算され、
掛算器９による掛算結果D₆×D₇がアキユムレー
タ１１に加算される。

メモリ領域４−１内のすべてのデータについて
上記の演算処理が終了すると、アキユムレータ１
０とアキユムレータ１１においてはそれぞれ前記
(7)式、(8)式における積分の演算が実行されたこと
になり、アキユムレータ１０内にはそれらのデー
タに対する前記パワー情報に相当する０次の自己
相関係数v₀のT_F倍（v₀×T_F）が求められ、アキ
ユムレータ１１には１次の相関係数v₁のT_F倍
（v₁×T_F）が求められていることになる。T_Fは定
数なので閾値θ₁、θ₂をあらかじめT_F倍しておけば
特に１／T_Fにする必要はない。k₁は(9)式からわ
かるように分母と分子にT_Fがかかつても同じで
あるから問題ない。以下T_F倍した値をv₀又はv₁
として説明する。

アキユムレータ１０の出力データは制御部５内
のメモリに格納されるとともに、ROM１２の読
み出しアドレスとなり、ROM１４において逆数
の１／v₀に変換されて掛算器１５の乗数となる。
アキユムレータ１１の出力データは上記掛算器１
５の被乗数となり、掛算器１５において前記１／
v₀との掛算が実行されて、前記１次の偏自己相関
係数k₁となり、レジスタ１６に格納された後、制
御部５内のメモリに格納される。

これに続いて、つぎのフレーム期間におけるデ
ータから上記と同様の過程を経てこのフレーム期
間に対するv₀とk₁が計算されて、制御部５内のメ
モリに格納される。

以下、同様にして各フレーム期間毎にv₀とk₁が
１組ずつ計算されて、制御部５内のメモリに順次
格納されていく。なお、上記の演算処理において
必要な一連の制御信号はすべて制御部５より供給
されるが、第２図においては簡単のため、データ
のフローのみを示し、制御信号については明示を
省略してある。

つぎに、上記各フレーム期間毎に求められたv₀
とk₁を用いて入力音声区間の開始と終了を検出す
る手順の一具体例を説明する。

(A) 音声区間の開始 v₀θ₂ v₀θ₁（θ₂＞θ₁）かつk₁0.7 項または項を満足するフレームが継続的
にT_S＝50ｍsec相当分以上続いたならば入力音
声区間の開始と判定する。

ただし、この条件が継続的に満足されている
状態が中断しても、中断したフレームがT_I＝
30ｍsec相当分以下ならば、中断はなかつたも
のとみなす。

(B) 音声区間の終了 v₀＜θ₄かつk₁＞0.7 v₀＜θ₃ 項または項を満足するフレームが継続的
にT_E＝300ｍsec相当分以上続いたならば入力
音声区間の終了と判定する。

ただし、この条件が継続的に満足されている
状態が中断しても、中断したフレームがT_I＝
30ｍsec相当分以下ならば中断はなかつたもの
とみなす。

なお、上記(B)におけるθ₃とθ₄は、それぞれ(A)に
おけるθ₁とθ₂に一致させるか、θ₃θ₁、θ₄θ₂に
すればよい。また、k₁に関する閾値δを0.7にし
たのは、実施例の対象とした入力音声が無声子音
か周囲雑音かを判定するために最適閾値であるこ
とが実験的に確認されたことによる。

上記比較動作を中心とした判定処理は第１図に
おける制御部５内の専用処理装置やマイクロプロ
セツサなどにより実行される。

なお、上記v₀、k₁、時間（フレーム数）などに
関する閾値の変更や、判定手順の変更や、新たな
判定基準の追加などを環境条件の変化に応じて任
意におこなえることはいうまでもない。

さらに、本発明により音声区間を検出後、たと
えば動的計画法により標準パターンとのマツチン
グをとる認識処理も制御部５内のマイクロプロセ
ツサによりおこなえる。

第３図は、／システム研（shisutemken）／な
る入力音声のv₀とk₁の時間的変化と、v₀に関する
前記閾値をθ₁（＝θ₃）、θ₂（＝θ₄）として上記音声
の開始点と、終了点を検出し得ることを示す図で
ある。

第３図によれば、v₀のみを用いた従来法による
と、音声開始点の／sh／に相当する部分では、θ₁
＜v₀＜θ₂であるため、閾値をθ₂にすると／sh／の
検出が不可能になり、これを検出可等にするため
閾値をθ₁に下げると、周囲雑音と混同する恐れが
生じることがわかる。

これに対して、本発明に従つてk₁をあわせ用い
ると、上記／sh／の部分ではk₁δであるため、
前記(A)の項の条件が満足されることになり、(A)
の又は項の条件を満足する入力音声の継続時
間も前記所定の閾値T_Sを越えるために、開始点
が正しく検出されることになる。

なお、途中の／te／の部分では、v₀＜θ₁、k₁＜
δであるため、前記(B)の項、項ともに満足さ
れる状態になるが、このような状態の継続時間が
前記所定の閾値T_I以下であるため、音声の終了
ではなく、一時的中断として処理される。

音声終了点になると、前記(B)の項、項とも
に満足される状態になり、この状態の継続時間も
前記所定の閾値T_Eを越えるために、終了点が正
しく検出されることになる。

また、（ｕ）は無声化により脱落していること
を示す。

なお、上記開始点、終了点はそれぞれ前記(A)、
(B)が最初に満足された時刻で、これを基準として
音声区間の検出がおこなわれる。

また、本発明を音声認識の処理に用いる場合、
(A)の又はの条件が成立した時点で音声開始候
補点として認識動作に入り、その継続状態がT_S
以下で終了したときは、それまでの認識用の処理
を無効とすれば、検出遅れの不都合は回避するこ
とができる。

以上説明したごとく、本発明によれば入力音声
の開始点や終了点における無声子音でも周囲雑音
と混同することなく正しく検出できるため、音声
区間の検出精度を著しく向上させることができ、
その実用的価値は大きい。

【図面の簡単な説明】

第１図は、本発明を用いて入力音声の種類を判
定する原理を示す図、第２図は、本発明の一実施
例を示す回路ブロツク図、第３図は、本発明によ
り音声区間の検出をおこなつた実験データを示す
図である。２……低域通過フイルタ、３……アナログ−デ
イジタル変換器、４……２面バツフア、５……制
御部。

Claims

【特許請求の範囲】１入力信号の一定抽出区間毎に零次の自己相関
および１次の偏自己相関係数を抽出し、前記零次
の自己相関係数が第１の閾値以上である第１の状
態と、前記零次の自己相関係数が第２の閾値以上
で前記第１の閾値以下でありかつ前記１次の偏自
己相関係数が第３の閾値より小さい第２の状態の
いずれか一方の状態が所定数の抽出区間にわたつ
て実質上継続したか否かにより前記入力信号が音
声区間内であるか否かを判定することを特徴とす
る音声区間検出方法。２前記第１の状態と第２の状態の少なくとも一
方の状態が所定数の抽出区間にわたつて実質上継
続したときに前記音声区間の開始点と判定するこ
とを特徴とする特許請求範囲第１項記載の音声区
間検出方法。３前記第１の状態と第２の状態のいずれも満足
しない状態が所定数の抽出区間にわたつて実質上
継続したときに前記音声区間の終了点と判定する
ことを特徴とする特許請求の範囲第１項記載の音
声区間検出法。