JPH0795237B2

JPH0795237B2 - 適応多変数推定装置

Info

Publication number: JPH0795237B2
Application number: JP62-506332A
Authority: JP
Inventors: リントムソン，デビット
Original assignee: アメリカンテレフォンアンドテレグラフカムパニー
Priority date: 1987-04-03
Filing date: 1988-01-12
Publication date: 1995-10-11
Anticipated expiration: 2010-10-11
Also published as: WO1988007738A1; HK106693A; CA1338251C; ATE82426T1; SG59893G; DE3875894T2; AU1222688A; JPH0795237B1; CA1337708C; JPH01502779A; EP0308433B1; AU599459B2; EP0308433A1; DE3875894D1

Description

【発明の詳細な説明】［技術分野］本発明は、リアルタイム過程（プロセス）を表わすサン
プルを、それぞれリアルタイム過程の一状態に対応する
群に類別することに関する。とくにこの類別は、各サン
プルが発生したときに統計的技法を用いてリアルタイム
で行われる。

［背景技術と問題点］多くのリアルタイム過程において、変化しつつある環境
における現在の状態を過程の現在および過去のサンプル
から推定することを試みるときに問題が存在する。この
ような過程の１つの例が人の声道による音声の発生であ
る。声道により発生された音は、基本周波数を持つこと
もあり（有声音の状態）または基本周波数を持たない場
合もある（無声音の状態）。さらに音が発生されなけれ
ば第３の状態が存在することもある（沈黙の状態）。こ
れらの３つの状態を判別する問題は音声／沈黙判別とい
われる。低ビット速度音声コーダにおいてはしばしば、
不正確な音声判別のために音声品質の低下が生ずる。こ
れらの音声判別を正確に行う際の困難な点は、単一の音
声パラメータすなわち類別子（classifier）では有声音
音声と無声音音声との識別に信頼性がないという事実に
ある。音声判定を行うために、多重音声類別子を重みつ
き和の形に組合わせることは当業者に周知である。この
ような方法は、デー・ピー・プレザス（D.P.Prezas）他
による「パターン認識および適応時間−領域分析を用い
た迅速かつ正確なピッチ検出」、IEEE音響・音成および
信号処理国際会議資料、第１巻、109−112ページ、1986
年４月（“Fast and Accurate Pitch Detection Using
Pattern Recognition and Adaptive Time-Domain Analy
sis"、Proc.IEEE Int.Conf.Acoust.,Speech and Signal
Proc.,Vol.1,pp109-112,April 1986）に記載されてい
る。この論文の説明のように、音声類別子の重みつき和
がもしある特定のしきい値より大であれば音声フレーム
は有声音と宣言され、もしそうでなければ無声音と宣言
される。数学的にはこの関係はａ′Ｘ＋ｂ＞０として表
わされ、ここで“a"は重みからなるベクトル、“X"は類
別子からなるベクトル、および“b"はしきい値を表わす
スカラーである。重みは音声の学習（training）セット
上の性能を最大化するように選択されるが、ここで各フ
レームの音声化（voicing）は既知である。これらの重
みは、単一パラメータを使用するものに比較して音声コ
ーダ内に顕著な音声品質改良を提供する判別ルールを形
成する。

固定重みつき和による方法に付帯する問題点は、音声環
境が変化する場合にそれが良好に実行しないということ
である。このような音声環境の変化は、車内の電話すな
わち移動電話で行われる電話会話の結果であったり、ま
たはおそらく電話送話器が異種のものが原因であったり
する。固定重みつき和による方法が変化する環境におい
て良好に実行しない原因は、多くの音声類別子が、暗騒
音、非線形ひずみ、および濾波による影響を受けること
である。もし音声化が学習セットの特徴とは異なる特徴
を有する音声に対して判別されなければならないなら
ば、一般に重みは満足な結果を与えないであろう。

固定重みつき和による方法を変化する音声環境に適応さ
せる一方法が、シー・ピー・キャンベル（C.P.Cambel
l）他の論文「音声の有声音／無声音類別の米国政府LPC
-10Eアルゴリズムへの適用」、IEEE音響・音成および信
号処理国際会議資料、1986年、東京、第9.11.4巻、473-
476ページ（“Voiced/Unvoiced Classification of Spe
ech with Application to the U.S. Government LPC-10
E Algorithm"、IEEE International Conference on Aco
ustics,Speech and Signal Processing,1986,Tokyo,Vo
l.9.11.4,pp.473-476）に開示されている。この論文
は、重みおよびしきい値の各組（セット）に対する学習
データに異なるレベルの白色雑音を加えることにより、
同一セットの学習データからあらかじめ設定された各々
異なる重みつきおよびしきい値の組を利用することを開
示している。各フレームに対し音声サンプルは、これら
の組の１つの結果がSN比（信号対雑音比、SNR）に基づ
いて選択された後に１組の重みおよびしきい値により処
理される。SN比が持つことができる可能値の範囲（レン
ジ）は、各々が組の１つに割当てられる副範囲（サブレ
ンジ）に分割される。各フレームに対しSN比が計算さ
れ；副範囲が決定され；次にフレームが有声音／無声音
判別される。この方法に伴う問題点は、これは学習デー
タに白色雑音が追加されたものに対してのみ有効であっ
て広範囲の音声環境および話者に対し適応できないこと
にある。従って、変化する環境および異なる話者に対し
音声が有声音であるか無声音であるかを信頼性をもって
判別可能な音声音検出器に対する需要が存在してくる。

［解決法］上記の問題点は、物理的過程からのリアルタイムサンプ
ルに応答して複数の過程状態に対する統計的分布を決定
し、これらの分布から判別領域を確立する装置により解
決されかつ技術的進歩が達成される。後者の領域は、各
過程サンプルが発生されたときに現在の過程状態を決定
するのに使用される。音声判別をするのに使用されると
き、この装置は音声の類別子の状態を使用することによ
り変化する音声環境に適応する。統計的手法は類別子に
基づいて行われ、音声判別に使用される判別領域を修正
するのに使用される。この装置は、有声音および無声音
の両フレームに対して統計的分布を推定し、これらの統
計的分布を判別領域の決定に使用するのが好ましい。後
者の領域は次に現在の音声フレームが有声音か無声音か
を判別するのに使用される。

有声音検出器は、現在の音声フレームが無声音である確
率、現在の音声フレームが有声音である確率、およびあ
るフレームが無声音であろうという総合確率、とを計算
するのが好ましい。これらの３種類の確率を用いて次に
検出器は、無声音フレームの確率分布と有声音フレーム
の確率分布とを計算する。さらに、現在の音声フレーム
が有声音であるか無声音であるかの確率を決定する計算
は最尤（maximum likelihood）統計的手法を用いること
により実行される。また最尤統計的方法は、確率の他に
重みベクトルおよびしきい値にも応答する。他の実施例
においては、重みベクトルおよびしきい値は各フレーム
に対し適応的に計算される。この重みベクトルおよびし
きい値の適応計算は、変化する音声環境への検出器の迅
速適応を可能にする。

音声フレーム内における基本周波数の存在を判定する装
置は、音声フレームの音声属性を表わす１組の類別子に
応答して１組の統計的パラメータを計算するための回路
を有するのが好ましい。第２の回路は統計的分布を定義
する１組のパラメータに応答して各々が類別子の１つに
付属する１組の重みを計算する。最後に第３の回路が計
算された１組の重みおよび類別子と１組のパラメータと
に応答して音声フレーム内における基本周波数の存在を
判定し、すなわち通常の表現を用いれば、無声音／有声
音判別を行う。

第２の回路はまた、しきい値と新しい重みベクトルとを
計算してこれらの値を第１の回路に連絡し、第１の回路
はこれらの値および新しい１組の類別子とに応答して他
の１組の統計的パラメータを決定するのが好ましい。他
の１組の統計的パラメータは次に、次の音声フレームに
対して基本周波数の存在を判定するのに使用される。

第１の回路は次の１組の類別子、新しい重みベクトルお
よびしきい値とに応答して、次のフレームが無声音であ
る確率、次のフレームが有声音である確率、およびある
フレームが無声音であろうという総合確率、とを計算す
るのが好ましい。これらの確率は次に過去および現在の
フレームに対する類別子の平均を与える１組の値と共に
他の１組の統計的パラメータを決定するのに利用され
る。

音声判別を決定するための方法は次のステップで実行さ
れる：すなわち有声音および無声音フレームに対する統
計的分布を推定するステップ、この統計的分布に応答し
て有声音音声と無声音音声とを表わす判別領域を決定す
るステップ、および判別領域および現在の音声フレーム
とに応答して音声判別を行うステップである。さらに統
計的分布は、現在の音声フレームが無声音である確率、
現在の音声フレームが有声音である確率、およびあるフ
レームが無声音であろうという総合確率、とから計算さ
れる。これらの３種類の確率は統計的分布を決定するス
テップのサブステップとして計算される。

［図面の簡単な説明］本発明は図面を参照しながら以下の詳細な説明を読めば
容易に理解されよう。ここで：第１図は本発明を用いた装置のブロック図；第２図は本発明をブロック図の形で表わした図；第３図および第４図は第２図の統計的有声音検出器103
により実行される機能をさらに詳細に表わした図；第５図は第４図のブロック340で実行される機能をさら
に詳細に表わした図である。

［詳細な説明］第１図は有声音検出器の１つとして本発明の主題である
統計的有声音検出器を使用する無声音／有声音判別動作
を実行するための装置を示す。第１図の装置は２種類の
検出器すなわち識別有声音検出器と統計的有声音検出器
とを使用する。統計的有声音検出器103は、音声環境の
変化を検出して類別子発生器101から来る類別子を処理
するのに使用される重みを修正してより正確に無声音／
有声音判別を行うようにする適応検出器である。識別有
声音検出器102は、初期スタートアップの間すなわち統
計的有声音検出器103が初期の音声環境にすなわち新し
い音声環境にまだ十分には適応していないときの急激に
変化する音声環境条件内で使用される。

ここで第１図に示す装置の全体的動作を考えてみる。類
別子発生器101は各音声フレームに応答して、音声エネ
ルギーの対数（log）、LPC（線形予測分布）ゲインの対
数、第１の反射係数の対数面積比、および１ピッチ周期
だけオフセットされている１フレーム長の２つの音声セ
グメントの二乗相関係数であることが好ましい類別子
（classifier）を発生する。これらの類別子の計算は、
アナログ音声をディジタルにサンプリングすること、デ
ィジタルサンプルのフレームを形成すること、およびこ
れらのフレームを処理すること、とを含み、これは当業
者には周知である。発生器101は通路106を介して類別子
を検出器102および103に伝送する。

検出器102および103は通路106を介して受取られた類別
子に応答して無声音／有声音判別を行い、通路107およ
び110の各々を介してこれらの判別をマルチプレクサ105
に伝達する。さらにこれらの検出器は有声音フレームと
無声音フレームとの間の距離尺度を決定し、通路108お
よび109を介してこれらの距離を比較器104に伝送する。
これらの距離はマハラノビス（Maharanobis）距離また
は他の一般化距離であることが好ましい。比較器104は
通路108及び109を介して受取られた距離に応答してマル
チプレクサ105を制御し、この結果後者のマルチプレク
サは最大距離を発生している検出器出力を選別する。

第２図は統計的有声音検出器103をさらに詳細に示す。
各音声フレームに対して、通路106を介して類別子発生
器101から類別子のベクトルとも呼ばれる１組の類別子
が受取られる。沈黙検出器201はこれらの類別子に応答
してこのフレーム内に音声が存在するか否かを判別す
る。もし音声が存在すれば、検出器201は通路210を介し
て信号を伝送する。もしフレーム内に音声が存在しなけ
れば（沈黙）、このときのみ減算器207およびU/V（無声
音／有声音）判別器205がその特定のフレームのために
作動する。音声が存在するか否かに関しては、判別器20
5により各フレーム毎に無声音／有声音判別が行われ
る。

類別子平均器202は検出器201からの信号に応答して、現
フレームに対する類別子内でそれ以前のフレームに対す
る類別子と平均することにより、通路106を介して受取
られた個々の類別子の平均を維持する。フレーム内にも
し音声（沈黙でない）が存在すれば、沈黙検出器201は
通路210を介して統計的計算器203、発生器206、および
平均器202とに信号を送る。

統計的計算器203は有声音フレームおよび無声音フレー
ムに対する統計的分布を計算する。とくに計算器203は
通路210を介して受取られた信号に応答してああるフレ
ームが無声音である総合確率およびあるフレームが有声
音である確率とを計算する。さらに統計的計算器203は
そのフレームが無声音であった場合に各類別子が有する
であろう統計値およびそのフレームが有声音であった場
合に各類別子が有するであろう統計値とを計算する。さ
らに計算器203は類別子の共分散マトリックスを計算す
る。この統計値は平均値であることが好ましい。計算器
203により行われる計算は、現フレームに基づくのみで
なくそれ以前のフレームにも基づいている。統計的計算
器203は、これらの計算を、通路106を介して受取られる
現フレームに対する類別子および通路211を介して受取
られる類別子の平均に基づくのみでなく、各類別子のた
めの重みおよびフレームが無声音であるかまたは有声音
であるかを判別するところの、通路213を介して重み計
算器204から受取られたしきい値とにも基づいて行う。

重み計算器204は、計算器203により発生され通路212を
介して受取られた現フレームに対する類別子の確率、共
分散マトリックス、および統計値に応答して、各類別子
に対する重みベクトルａ、および現フレームに対するし
きい値ｂ、とを再計算する。次にこれらの新しいａおよ
びｂの値は通路213を介して統計的計算器203に逆伝送さ
れる。

重み計算器204はまた無声音と有声音との両方の領域内
における類別子のための重みおよび統計値を通路214を
介して判別器205に伝送しかつ通路208を介して発生器20
6に伝送する。後者の発生器はこの情報に応答して距離
尺度を計算し、この距離尺度は次に第１図に示すように
通路109を介して比較器104に伝送される。

U/V（無声音／有声音）判別器205は通路214および215を
介して伝送された情報に応答してこのフレームが無声音
であるかまたは有声音であるかを判別し、この判別器を
通路110を介して第１図のマルチプレクサ105に伝送す
る。

ここで第２図に示し、ここではベクトルおよびマトリッ
クス数学で与えられる各ブロックの動作をさらに詳細に
説明する。平均器202、統計的計算器203、および重み計
算器204とは、エヌ・イー・ディ（N.E.Day）著の「混合
正規分布の成分の推定」（“Estimating the Component
s of a Mixture of Normal Distribution"、ビオメトリ
カ［Biometrika］誌、第56巻、第３号、463-474ペー
ジ、1969）という題名の論文に記載されたものに類似の
改良EMアルゴリズムを実行する。くずし平均（decaying
average）の概念を用いて、類別子平均器202は次式
１、２、および３を計算することにより、現フレームお
よびそれ以前のフレームに対する類別子の平均を計算す
る。

ｎ＝ｎ＋1 ifn＜2000 （１）ｚ＝＝1/n （２） X_n＝（１−ｚ）X_n-1＋zx_n （３） x_nは現フレームのための類別子を示すベクトルであり、
ｎは2000までの処理フレーム数である。ｚはくずし平均
係数を示し、X_nは現フレームおよび過去のフレームの全
部の類別子の平均を示す。統計的計算器203は、ｚ、x_n
およびX_n情報の受領に応答して、次のようにまず二乗お
よび積の和のマトリックスQ_nを計算することにより共分
散マトリックスＴを計算する。

Q_n＝（１−ｚ）Q_n-1＋ｚx_nｘ′_n．（４） Q_nが計算されると、次のようにＴが計算される。

Ｔ＝Q_n−X_nＸ′_n．（５）類別子から次のように平均値が差引かれる。

x_n＝x_n−X_n （６）次に計算器203は以下に示す式（７）を解くことによ
り、現ベクトルX_nにより表わされるフレームが無声音で
ある確率を決定するが、ここでベクトルａの成分は、音
声エネルギーの対数に対応する成分は0.3918606に、LPC
ゲインの対数に対応する成分は−0.0520902に、第１反
射係数の対数面積比に対応する成分は0.5637082に、お
よび二乗相関係数に対応する成分は、1.361249に等しく
初期化し、またｂは最初−8.36454に等しく初期化する
ことが好ましい。

（７）式を解いた後に計算器203は次式を解くことによ
り、類別子が有声音フレームを表わす確率を決定する。

Ｐ（v|x_n）＝１−Ｐ（u|x_n）（８）次に計算器203はp_nを求める式（９）を解くことによ
り、あるフレームが無声音であろうという総合確率を決
定する。

p_n＝（１−ｚ）p_n-1＋zP（u|x_n）．（９）フレームが無声音であろうという確率を決定した後に、
次に計算器203は無声音型および有声音型の両方のフレ
ームに対する各類別子の平均値を与える２つのベクトル
ｕおよびｖを決定する。ベクトルｕおよびｖはそれぞれ
無声音フレームおよび有声音フレームに対する統計的平
均である。統計的平均無声音ベクトルであるベクトルｕ
は、もしフレームが無声音であるならば各類別子の平均
値を含み；また統計的平均有声音ベクトルであるベクト
ルｖは、もしフレームが有声音であるならば各類別子に
対する平均値を与える。以下に示すように、現フレーム
に対するベクトルｕは式（10）を計算することにより解
かれ、現フレームに対するベクトルｖは式（11）を計算
することにより決定される。

u_n＝（１−ｚ）u_n-1＋zx_nＰ（u|x_n）／p_n−zx_n （10） v_n＝（１−ｚ）v_n-1＋zx_nＰ（v|x_n）／（１−p_n）−zx_n
（11）ここで計算器203は、通路212を介してベクトルｕおよび
ｖ、マトリックスＴ、および確率ｐを重み計算器204に
伝送する。重み計算器204はこの情報に応答してベクト
ルａおよびスカラーｂに対する新しい値を計算する。次
にこれらの新しい値は通路213を介して統計的計算器203
に逆伝送される。これにより検出器103は変化する環境
に迅速に適応可能である。ベクトルａおよびスカラーｂ
に対する新しい値が統計的計算器203に逆伝送されなく
ても、ベクトルｕおよびｖが最新の値とされているので
検出器103は変化する環境に適応し続けるであろう。明
らかなように、判別器205はベクトルｕおよびｖ並びに
ベクトルａおよびスカラーｂを用いて音声判別を行う。
ｎが好ましくは99より大きくなると、ベクトルａおよび
スカラーｂは次式のように計算される。ベクトルａは式
を解くことにより決定される。

スカラーｂは次式を解くことにより決定される。

式（12）および（13）を計算した後に、重み計算器204
は通路214を介してベクトルａ、ｕ、およびｖをU/V判別
器205に伝送する。もしフレームが沈黙を含んだ場合は
式（６）のみが計算される。

判別器205はこの伝送された情報に応答して現フレーム
が有声音であるかまたは無声音であるかを判別する。も
し出力に対応するベクトル（v_n−u_n）の成分が正であれ
ば、このときは、もし次式が真であるならばフレームは
有声音であると宣言される。

ａ′x_n−ａ′（u_n＋v_n）/2＞0; （14）またはもし出力に対応するベクトル（v_n−u_n）の成分が
負であれば、このときは、もし次式が真であるならばフ
レームは有声音であると宣言される。

ａ′x_n−ａ′（u_n＋v_n）/2＜0. （15）式（14）はまた次式のようにも書き替えられる。

ａ′x_n＋ｂ−log［（１−p_n）／p_n］＞０式（15）はまた次式のようにも書き替えられる。

ａ′x_n＋ｂ−log［（１−p_n）／p_n］＞０もし前記の条件が満たされないならば、判別器205はフ
レームが無声音であると宣言する。式（14）および（1
5）は有声判別を行うための判別領域を表わす。（14）
および（15）の書き替え形式のlogの項は性能を少し変
えれば省略可能である。本実施例においては、出力に対
応する成分は音声エネルギーのlogであるのが好まし
い。

発生器206は通路214を介して計算器204から受取られた
情報に応答して次のように距離尺度Ａを計算する。まず
最初に、次のように式（16）により識別変数ｄが計算さ
れる。

ｄ＝ａ′x_n＋ｂ−log［（１−p_n）／p_n］．（16）次の諸式で用いるためのｄに類似の値を発生するため
に、種々のタイプの音声検出器を用いることは好まし
く、これは当業者には明らかであろう。このような検出
器の１つが自己相関検出器であろう。もしフレームが有
声音であれば、式（17）ないし（20）は次のように解か
れる。

m₁＝（１−ｚ）m₁＋zd, （17） s₁＝（１−ｚ）s₁＋zd²，（18） k₁＝s₁−▲m² ₁▼ （19）ここでm₁は有声音フレームに対する平均であり、k₁は有
声音フレームに対する分散である。

フレームが無声音であると判別器205が宣言するであろ
う確率P_dは次式で計算される。

P_d＝（１−ｚ）P_d．（20） P_dは最初0.5に設定されるのが好ましい。

もしフレームが無声音ならば、式（21）ないし（24）は
次のように解かれる。

m₀＝（１−ｚ）m₀＋zd, （21） s₀＝（１−ｚ）s₀＋zd² （22） k₀＝s₀−▲m² ₀▼．（23）フレームが無声音であると判別器205が宣言するであろ
う確率P_dは次式で計算される。

P_d＝（１−ｚ）P_d＋z. （24）式（16）ないし（22）を計算した後に距離尺度すなわち
メリット値が次のように計算される。

式（25）はホテリング（Hotelling）の２サンプルT²統
計を用いて距離尺度を計算する式（25）に対して、メリ
ット値が大きくなればなるほど分離は大きくなる。しか
しながら他のメリット値は、メリット値が小さくなれば
なるほど分離は大きくなるところに存在する。好ましい
ことに距離尺度は次式で与えられるマハラノビス距離で
あってもよい。

好ましいことに第３の方法は次式で与えられる。

好ましくは、距離尺度を計算するために第４の方法は次
式で示される。

A²＝ａ′（v_n−u_n）（28）識別検出器102は、もしａ′Ｘ＋ｂ＞０ならば有声音フ
レームを指示する情報を通路107を介してマルチプレク
サ105に伝送することにより無声音／有声音判別を行
う。もしこの条件が真でなければ、このときは検出器10
2は無声音フレームを指示する。検出器102により使用さ
れるベクトルａおよびスカラーｂに対する値は好ましい
ことに統計的有声音検出器103に対するａおよびｂの初
期値と同一である。

検出器102は、式（16）ないし（28）に与えられるもの
と類似の計算を実行することにより発生器206に類似の
方法で距離尺度を決定する。

第３図および第４図は第２図の統計的有声音検出器103
により実施される操作を流れ図の形式でさらに詳細に示
す。ブロック02および300はそれぞれ第２図のブロック2
02および201を実行する。ブロック304ないし318は統計
的計算器203を実行する。ブロック320および322は重み
計算器204を実行し、ブロック326ないし338は第２図の
ブロック205を実行する。第２図の発生器206はブロック
340により実行される。減算器207はブロック308または
ブロック324により実行される。

ブロック302は現フレームとそれ以前の全てのフレーム
とに対する類別子の平均を示すベクトルを計算する。ブ
ロック300は現フレーム内には音声が存在するかまたは
沈黙が存在するかを判別する。そしてもし現フレーム内
に沈黙が存在すれば、制御が判別ブロック326に引渡さ
れる前にブロック324により各類別子から各類別子に対
する平均が差引かれる。しかしながらもし現フレーム内
に音声が存在すれば、このときはブロック304ないし322
により統計的計算および重み計算が実行される。まず第
１番目にブロック302において平均ベクトルが求められ
る。第２番目にブロック304において二乗および積の和
のマトリックスが計算される。次にブロック306におい
て、現フレームおよび過去のフレームに対する類別子の
平均を示すベクトルＸと共に後者のマトリックスが使用
されて共分散マトリックスＴを計算する。次にブロック
308において類別子ベクトルx_nから平均Ｘが差引かれ
る。

次にブロック310は、現在の重みベクトルａ、現在のし
きい値ｂ、および現フレームに対する類別子のベクトル
x_nとを利用することにより、現フレームが無声音である
確率を計算する。現フレームが無声音であるという確率
を計算した後に、ブロック312により現フレームが有声
音である確率が計算される。次にブロック314によりあ
るフレームが無声音であろうという総合確率p_nが計算さ
れる。

ブロック316および318は２つのベクトルｕおよびｖを計
算する。ベクトルｕの中に含まれる値は、もしそのフレ
ームが無声音であったならば各類別子が持つであろう統
計的平均値を表わす。一方ベクトルｖは、もしそのフレ
ームが有声音であったならば各類別子が持つであろう統
計的平均値を表わす値を含む。現フレームおよびそれ以
前のフレームに対する類別子の実際の値はベクトルｕま
たはベクトルｖのまわりにクラスタ（集団化）される。
もしこれらのフレームが無声音であることがわかると、
それ以前のフレームおよび現フレームに対する類別子を
表わすベクトルはベクトルｕのまわりにクラスタされ；
そうでなければそれ以前の類別子ベクトルはベクトルｖ
のまわりにクラスタされる。

ブロック316および318を実施した後に制御は判別ブロッ
ク320に引き渡される。もし、Ｎが99より大きければ、
制御は判別ブロック322に引渡され；そうでなければ制
御はブロック326に引渡される。制御を受取ると、ブロ
ック322は次に新しい重みベクトルａおよび新しいしき
い値ｂを計算する。ベクトルａおよび値ｂは次に続くフ
レーム内で第３図内のそれに先行するブロックにより使
用される。好ましくは、もしＮが無限大より大であるこ
とが要求されるならば、ベクトルａおよびスカラーｂは
決して変えられないで、検出器103はブロック326ないし
328内に示すようにベクトルｖおよびｕにのみ応答して
適応するであろう。

ブロック326ないし338は第２図のu/v判別器205を実行す
る。ブロック326は現フレームのベクトルｖのパワー項
（powerterm）がベクトルｕのパワー項以上か否かを判
別する。もしこの条件が真であれば、このときは判別ブ
ロック328が実行される。後者の判別ブロックは、テス
トにより有声音かまたは無声音かを判別する。もしブロ
ック328の判別においてフレームはブロック330により有
声音として表示され、そうでなければフレームはブロッ
ク332により無声音として表示される。もしベクトルｖ
のパワー項より小であるならば、ブロック334ないし338
の機能が実行され同様に機能する。最後にブロック340
が距離尺度を計算する。

第５図は第４図のブロック340により実行される動作を
流れ図の形で詳細に示す。判別ブロック501は、ブロッ
ク330、332、336または338の結果を調べることによりフ
レームが無声音と指示されたかまたは有声音と指示され
たかを判別する。もしフレームが有声音と指定されたな
らば通路507が選択される。ブロック510は確率P_dを計算
し、ブロック502は有声音フレームに対する平均m₁を再
計算し、およびブロック503は有声音フレームに対する
分散k₁を再計算する。もしフレームが無声音と判別され
たならば判別ブロック501は通路508を選択する。ブロッ
ク509は確率P_dを再計算し、ブロック504は無声音フレー
ムに対する平均m₀を再計算し、およびブロック505は無
声音フレームに対する分散k₀を再計算する。最後にブロ
ック506は指示された計算を実行することにより距離尺
度を計算する。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭61−48898（ＪＰ，Ａ) 特開昭60−200300（ＪＰ，Ａ) 特開昭60−114900（ＪＰ，Ａ) ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＶｏｌ．ＡＳＳＰ−24，Ｎｏ. ３，Ｊｕｎｅ 1976，Ｐ．201−212

Claims

【特許請求の範囲】

【請求項１】非トレーニング音声信号に応答して、この
音声信号をサンプリングすることによりディジタル音声
信号を生成し、このディジタル音声信号のフレームを形
成し、各フレームを処理して音声属性を定義する類別子
のセットを生成する手段と、前記フレームのうちの１つである第１のフレームの音声
属性を定義する類別子のセットに応答して、第１の統計
分布のセットを計算する第１の手段と、計算された第１の統計分布のセットに応答して、それぞ
れ前記類別子のうちの１つに対応する重みのセットを計
算する第２の手段と、計算された重みおよび類別子のセットと前記第１の統計
分布のセットに応答して、前記第１フレームにおける基
本周波数の存在を判定する第３の手段とからなることを
特徴とする、非トレーニング音声信号における基本周波
数の存在を判定する装置。
【請求項２】前記第２手段が、前記統計分布のセットに応答してしきい値を計算する手
段と、前記重みのセットおよび前記しきい値を、前記第１フレ
ームとは異なる第２のフレームに対する第２の統計分布
のセットを計算するのに使用されるように前記第１手段
に通知する手段とからなることを特徴とする請求項１の
装置。
【請求項３】前記第１手段が、通知された重みのセット
と前記第２フレームの音声属性を定義する第２の類別子
のセットとにさらに応答して、第２の統計分布のセット
を計算することを特徴とする請求項２の装置。
【請求項４】前記第１手段が、以前のフレームに対する前記類別子の平均を計算する手
段と、前記類別子の平均と、前記通知された重みのセットと、
前記第２の類別子のセットとに応答して、前記第２の統
計分布のセットを決定する手段とからなることを特徴と
する請求項３の装置。
【請求項５】前記第１手段が、各フレームにおける音声の存在を検出する手段と、前記第２のフレーム内に音声が検出されないときに前記
第２の統計分布のセットの計算を中止させる手段とをさ
らに有することを特徴とする請求項４の装置。
【請求項６】前記第１手段が、前記第２の類別子のセットが無声音フレームを表す確率
および前記第２の類別子のセットが有声音フレームを表
す確率を計算する手段と、フレームが無声音である全確率を計算する手段とをさら
に有することを特徴とする請求項５の装置。
【請求項７】前記第１手段が、無声音フレームを表す平
均類別子のセットと有声音フレームを表す平均類別子の
セットとを計算する手段をさらに有することを特徴とす
る請求項６の装置。
【請求項８】前記第１手段が、前記第２フレームに対す
る無声音フレームを表す前記平均類別子のセットと、前
記第２フレームに対する無声音フレームを表す前記類別
子のセットとの間の共分散マトリックスを計算する手段
をさらに有することを特徴とする請求項７の装置。
【請求項９】前記第２手段が、共分散マトリックスと、
有声音フレームおよび無声音フレームの両方に対する前
記平均類別子のセットと、フレームが無声音である前記
全確率とに応答して、前記第２の統計分布のセットを決
定することを特徴とする請求項８の装置。
【請求項１０】前記第３手段が、前記第２の統計分布の
セットと、有声音フレームおよび無声音フレームに対す
る前記平均類別子のセットとに応答して、前記第２フレ
ームにおける前記基本周波数の存在を判定することを特
徴とする請求項９の装置。
【請求項１１】非トレーニング音声信号をサンプリング
することによりディジタル音声信号を生成し、このディ
ジタル音声信号のフレームを形成し、各フレームを処理
して音声属性を定義する類別子のセットを生成するステ
ップと、前記フレームのうちの１つである第１のフレームの音声
属性を定義する類別子のセットに応答して、第１の統計
分布のセットを計算する第１計算ステップと、計算された第１の統計分布のセットに応答して、それぞ
れ前記類別子のうちの１つに対応する重みのセットを計
算する第２計算ステップと、計算された重みおよび類別子のセットと前記第１の統計
分布のセットに応答して、前記第１フレームにおける基
本周波数の存在を判定するステップとからなることを特
徴とする、非トレーニング音声信号における基本周波数
の存在を判定する方法。
【請求項１２】前記第２計算ステップが、前記統計分布のセットに応答してしきい値を計算するス
テップと、前記重みのセットおよび前記しきい値を、前記第１フレ
ームとは異なる第２のフレームに対する第２の統計分布
のセットを計算する際に使用するために通知するステッ
プとからなることを特徴とする請求項11の方法。
【請求項１３】前記第１計算ステップが、通知された重
みのセットと前記第２フレームの音声属性を定義する第
２の類別子のセットとにさらに応答して、第２の統計分
布のセットを計算することを特徴とする請求項12の方
法。
【請求項１４】前記第１計算ステップが、以前のフレームに対する前記類別子の平均を計算するス
テップと、前記類別子の平均と、前記通知された重みのセットと、
前記第２の類別子のセットとに応答して、前記第２の統
計分布のセットを決定するステップとからなることを特
徴とする請求項13の方法。
【請求項１５】前記第１計算ステップが、各フレームにおける音声の存在を検出するステップと、前記第２のフレーム内に音声が検出されないときに前記
第２の統計分布のセットの計算を中止させるステップと
をさらに有することを特徴とする請求項14の方法。
【請求項１６】前記第１計算ステップが、前記第２の類別子のセットが無声音フレームを表す確率
および前記第２の類別子のセットが有声音フレームを表
す確率を計算するステップと、フレームが無声音である全確率を計算するステップとを
さらに有することを特徴とする請求項15の方法。
【請求項１７】前記第１計算ステップが、無声音フレー
ムを表す平均類別子のセットと有声音フレームを表す平
均類別子のセットとを計算するステップをさらに有する
ことを特徴とする請求項16の方法。
【請求項１８】前記第１計算ステップが、前記第２フレ
ームに対する無声音フレームを表す前記平均類別子のセ
ットと、前記第２フレームに対する無声音フレームを表
す前記類別子のセットとの間の共分散マトリックスを計
算するステップをさらに有することを特徴とする請求項
17の方法。
【請求項１９】前記第２計算ステップが、共分散マトリ
ックスと、有声音フレームおよび無声音フレームの両方
に対する前記平均類別子のセットと、フレームが無声音
である前記全確率とに応答して、前記第２の統計分布の
セットを決定することを特徴とする請求項18の方法。
【請求項２０】前記判定ステップが、前記第２の統計分
布のセットと、有声音フレームおよび無声音フレームに
対する前記平均類別子のセットとに応答して、前記第２
フレームにおける前記基本周波数の存在を判定すること
を特徴とする請求項19の方法。