JPH0795237B2 - 適応多変数推定装置 - Google Patents
適応多変数推定装置Info
- Publication number
- JPH0795237B2 JPH0795237B2 JP62-506332A JP50633287A JPH0795237B2 JP H0795237 B2 JPH0795237 B2 JP H0795237B2 JP 50633287 A JP50633287 A JP 50633287A JP H0795237 B2 JPH0795237 B2 JP H0795237B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- classifiers
- calculating
- unvoiced
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Paper (AREA)
- Feedback Control In General (AREA)
- Bridges Or Land Bridges (AREA)
- Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Radar Systems Or Details Thereof (AREA)
- Measurement Of Radiation (AREA)
Description
【発明の詳細な説明】
[技術分野]
本発明は、リアルタイム過程(プロセス)を表わすサン
プルを、それぞれリアルタイム過程の一状態に対応する
群に類別することに関する。とくにこの類別は、各サン
プルが発生したときに統計的技法を用いてリアルタイム
で行われる。
プルを、それぞれリアルタイム過程の一状態に対応する
群に類別することに関する。とくにこの類別は、各サン
プルが発生したときに統計的技法を用いてリアルタイム
で行われる。
[背景技術と問題点]
多くのリアルタイム過程において、変化しつつある環境
における現在の状態を過程の現在および過去のサンプル
から推定することを試みるときに問題が存在する。この
ような過程の1つの例が人の声道による音声の発生であ
る。声道により発生された音は、基本周波数を持つこと
もあり(有声音の状態)または基本周波数を持たない場
合もある(無声音の状態)。さらに音が発生されなけれ
ば第3の状態が存在することもある(沈黙の状態)。こ
れらの3つの状態を判別する問題は音声/沈黙判別とい
われる。低ビット速度音声コーダにおいてはしばしば、
不正確な音声判別のために音声品質の低下が生ずる。こ
れらの音声判別を正確に行う際の困難な点は、単一の音
声パラメータすなわち類別子(classifier)では有声音
音声と無声音音声との識別に信頼性がないという事実に
ある。音声判定を行うために、多重音声類別子を重みつ
き和の形に組合わせることは当業者に周知である。この
ような方法は、デー・ピー・プレザス(D.P.Prezas)他
による「パターン認識および適応時間−領域分析を用い
た迅速かつ正確なピッチ検出」、IEEE音響・音成および
信号処理国際会議資料、第1巻、109−112ページ、1986
年4月(“Fast and Accurate Pitch Detection Using
Pattern Recognition and Adaptive Time-Domain Analy
sis"、Proc.IEEE Int.Conf.Acoust.,Speech and Signal
Proc.,Vol.1,pp109-112,April 1986)に記載されてい
る。この論文の説明のように、音声類別子の重みつき和
がもしある特定のしきい値より大であれば音声フレーム
は有声音と宣言され、もしそうでなければ無声音と宣言
される。数学的にはこの関係はa′X+b>0として表
わされ、ここで“a"は重みからなるベクトル、“X"は類
別子からなるベクトル、および“b"はしきい値を表わす
スカラーである。重みは音声の学習(training)セット
上の性能を最大化するように選択されるが、ここで各フ
レームの音声化(voicing)は既知である。これらの重
みは、単一パラメータを使用するものに比較して音声コ
ーダ内に顕著な音声品質改良を提供する判別ルールを形
成する。
における現在の状態を過程の現在および過去のサンプル
から推定することを試みるときに問題が存在する。この
ような過程の1つの例が人の声道による音声の発生であ
る。声道により発生された音は、基本周波数を持つこと
もあり(有声音の状態)または基本周波数を持たない場
合もある(無声音の状態)。さらに音が発生されなけれ
ば第3の状態が存在することもある(沈黙の状態)。こ
れらの3つの状態を判別する問題は音声/沈黙判別とい
われる。低ビット速度音声コーダにおいてはしばしば、
不正確な音声判別のために音声品質の低下が生ずる。こ
れらの音声判別を正確に行う際の困難な点は、単一の音
声パラメータすなわち類別子(classifier)では有声音
音声と無声音音声との識別に信頼性がないという事実に
ある。音声判定を行うために、多重音声類別子を重みつ
き和の形に組合わせることは当業者に周知である。この
ような方法は、デー・ピー・プレザス(D.P.Prezas)他
による「パターン認識および適応時間−領域分析を用い
た迅速かつ正確なピッチ検出」、IEEE音響・音成および
信号処理国際会議資料、第1巻、109−112ページ、1986
年4月(“Fast and Accurate Pitch Detection Using
Pattern Recognition and Adaptive Time-Domain Analy
sis"、Proc.IEEE Int.Conf.Acoust.,Speech and Signal
Proc.,Vol.1,pp109-112,April 1986)に記載されてい
る。この論文の説明のように、音声類別子の重みつき和
がもしある特定のしきい値より大であれば音声フレーム
は有声音と宣言され、もしそうでなければ無声音と宣言
される。数学的にはこの関係はa′X+b>0として表
わされ、ここで“a"は重みからなるベクトル、“X"は類
別子からなるベクトル、および“b"はしきい値を表わす
スカラーである。重みは音声の学習(training)セット
上の性能を最大化するように選択されるが、ここで各フ
レームの音声化(voicing)は既知である。これらの重
みは、単一パラメータを使用するものに比較して音声コ
ーダ内に顕著な音声品質改良を提供する判別ルールを形
成する。
固定重みつき和による方法に付帯する問題点は、音声環
境が変化する場合にそれが良好に実行しないということ
である。このような音声環境の変化は、車内の電話すな
わち移動電話で行われる電話会話の結果であったり、ま
たはおそらく電話送話器が異種のものが原因であったり
する。固定重みつき和による方法が変化する環境におい
て良好に実行しない原因は、多くの音声類別子が、暗騒
音、非線形ひずみ、および濾波による影響を受けること
である。もし音声化が学習セットの特徴とは異なる特徴
を有する音声に対して判別されなければならないなら
ば、一般に重みは満足な結果を与えないであろう。
境が変化する場合にそれが良好に実行しないということ
である。このような音声環境の変化は、車内の電話すな
わち移動電話で行われる電話会話の結果であったり、ま
たはおそらく電話送話器が異種のものが原因であったり
する。固定重みつき和による方法が変化する環境におい
て良好に実行しない原因は、多くの音声類別子が、暗騒
音、非線形ひずみ、および濾波による影響を受けること
である。もし音声化が学習セットの特徴とは異なる特徴
を有する音声に対して判別されなければならないなら
ば、一般に重みは満足な結果を与えないであろう。
固定重みつき和による方法を変化する音声環境に適応さ
せる一方法が、シー・ピー・キャンベル(C.P.Cambel
l)他の論文「音声の有声音/無声音類別の米国政府LPC
-10Eアルゴリズムへの適用」、IEEE音響・音成および信
号処理国際会議資料、1986年、東京、第9.11.4巻、473-
476ページ(“Voiced/Unvoiced Classification of Spe
ech with Application to the U.S. Government LPC-10
E Algorithm"、IEEE International Conference on Aco
ustics,Speech and Signal Processing,1986,Tokyo,Vo
l.9.11.4,pp.473-476)に開示されている。この論文
は、重みおよびしきい値の各組(セット)に対する学習
データに異なるレベルの白色雑音を加えることにより、
同一セットの学習データからあらかじめ設定された各々
異なる重みつきおよびしきい値の組を利用することを開
示している。各フレームに対し音声サンプルは、これら
の組の1つの結果がSN比(信号対雑音比、SNR)に基づ
いて選択された後に1組の重みおよびしきい値により処
理される。SN比が持つことができる可能値の範囲(レン
ジ)は、各々が組の1つに割当てられる副範囲(サブレ
ンジ)に分割される。各フレームに対しSN比が計算さ
れ;副範囲が決定され;次にフレームが有声音/無声音
判別される。この方法に伴う問題点は、これは学習デー
タに白色雑音が追加されたものに対してのみ有効であっ
て広範囲の音声環境および話者に対し適応できないこと
にある。従って、変化する環境および異なる話者に対し
音声が有声音であるか無声音であるかを信頼性をもって
判別可能な音声音検出器に対する需要が存在してくる。
せる一方法が、シー・ピー・キャンベル(C.P.Cambel
l)他の論文「音声の有声音/無声音類別の米国政府LPC
-10Eアルゴリズムへの適用」、IEEE音響・音成および信
号処理国際会議資料、1986年、東京、第9.11.4巻、473-
476ページ(“Voiced/Unvoiced Classification of Spe
ech with Application to the U.S. Government LPC-10
E Algorithm"、IEEE International Conference on Aco
ustics,Speech and Signal Processing,1986,Tokyo,Vo
l.9.11.4,pp.473-476)に開示されている。この論文
は、重みおよびしきい値の各組(セット)に対する学習
データに異なるレベルの白色雑音を加えることにより、
同一セットの学習データからあらかじめ設定された各々
異なる重みつきおよびしきい値の組を利用することを開
示している。各フレームに対し音声サンプルは、これら
の組の1つの結果がSN比(信号対雑音比、SNR)に基づ
いて選択された後に1組の重みおよびしきい値により処
理される。SN比が持つことができる可能値の範囲(レン
ジ)は、各々が組の1つに割当てられる副範囲(サブレ
ンジ)に分割される。各フレームに対しSN比が計算さ
れ;副範囲が決定され;次にフレームが有声音/無声音
判別される。この方法に伴う問題点は、これは学習デー
タに白色雑音が追加されたものに対してのみ有効であっ
て広範囲の音声環境および話者に対し適応できないこと
にある。従って、変化する環境および異なる話者に対し
音声が有声音であるか無声音であるかを信頼性をもって
判別可能な音声音検出器に対する需要が存在してくる。
[解決法]
上記の問題点は、物理的過程からのリアルタイムサンプ
ルに応答して複数の過程状態に対する統計的分布を決定
し、これらの分布から判別領域を確立する装置により解
決されかつ技術的進歩が達成される。後者の領域は、各
過程サンプルが発生されたときに現在の過程状態を決定
するのに使用される。音声判別をするのに使用されると
き、この装置は音声の類別子の状態を使用することによ
り変化する音声環境に適応する。統計的手法は類別子に
基づいて行われ、音声判別に使用される判別領域を修正
するのに使用される。この装置は、有声音および無声音
の両フレームに対して統計的分布を推定し、これらの統
計的分布を判別領域の決定に使用するのが好ましい。後
者の領域は次に現在の音声フレームが有声音か無声音か
を判別するのに使用される。
ルに応答して複数の過程状態に対する統計的分布を決定
し、これらの分布から判別領域を確立する装置により解
決されかつ技術的進歩が達成される。後者の領域は、各
過程サンプルが発生されたときに現在の過程状態を決定
するのに使用される。音声判別をするのに使用されると
き、この装置は音声の類別子の状態を使用することによ
り変化する音声環境に適応する。統計的手法は類別子に
基づいて行われ、音声判別に使用される判別領域を修正
するのに使用される。この装置は、有声音および無声音
の両フレームに対して統計的分布を推定し、これらの統
計的分布を判別領域の決定に使用するのが好ましい。後
者の領域は次に現在の音声フレームが有声音か無声音か
を判別するのに使用される。
有声音検出器は、現在の音声フレームが無声音である確
率、現在の音声フレームが有声音である確率、およびあ
るフレームが無声音であろうという総合確率、とを計算
するのが好ましい。これらの3種類の確率を用いて次に
検出器は、無声音フレームの確率分布と有声音フレーム
の確率分布とを計算する。さらに、現在の音声フレーム
が有声音であるか無声音であるかの確率を決定する計算
は最尤(maximum likelihood)統計的手法を用いること
により実行される。また最尤統計的方法は、確率の他に
重みベクトルおよびしきい値にも応答する。他の実施例
においては、重みベクトルおよびしきい値は各フレーム
に対し適応的に計算される。この重みベクトルおよびし
きい値の適応計算は、変化する音声環境への検出器の迅
速適応を可能にする。
率、現在の音声フレームが有声音である確率、およびあ
るフレームが無声音であろうという総合確率、とを計算
するのが好ましい。これらの3種類の確率を用いて次に
検出器は、無声音フレームの確率分布と有声音フレーム
の確率分布とを計算する。さらに、現在の音声フレーム
が有声音であるか無声音であるかの確率を決定する計算
は最尤(maximum likelihood)統計的手法を用いること
により実行される。また最尤統計的方法は、確率の他に
重みベクトルおよびしきい値にも応答する。他の実施例
においては、重みベクトルおよびしきい値は各フレーム
に対し適応的に計算される。この重みベクトルおよびし
きい値の適応計算は、変化する音声環境への検出器の迅
速適応を可能にする。
音声フレーム内における基本周波数の存在を判定する装
置は、音声フレームの音声属性を表わす1組の類別子に
応答して1組の統計的パラメータを計算するための回路
を有するのが好ましい。第2の回路は統計的分布を定義
する1組のパラメータに応答して各々が類別子の1つに
付属する1組の重みを計算する。最後に第3の回路が計
算された1組の重みおよび類別子と1組のパラメータと
に応答して音声フレーム内における基本周波数の存在を
判定し、すなわち通常の表現を用いれば、無声音/有声
音判別を行う。
置は、音声フレームの音声属性を表わす1組の類別子に
応答して1組の統計的パラメータを計算するための回路
を有するのが好ましい。第2の回路は統計的分布を定義
する1組のパラメータに応答して各々が類別子の1つに
付属する1組の重みを計算する。最後に第3の回路が計
算された1組の重みおよび類別子と1組のパラメータと
に応答して音声フレーム内における基本周波数の存在を
判定し、すなわち通常の表現を用いれば、無声音/有声
音判別を行う。
第2の回路はまた、しきい値と新しい重みベクトルとを
計算してこれらの値を第1の回路に連絡し、第1の回路
はこれらの値および新しい1組の類別子とに応答して他
の1組の統計的パラメータを決定するのが好ましい。他
の1組の統計的パラメータは次に、次の音声フレームに
対して基本周波数の存在を判定するのに使用される。
計算してこれらの値を第1の回路に連絡し、第1の回路
はこれらの値および新しい1組の類別子とに応答して他
の1組の統計的パラメータを決定するのが好ましい。他
の1組の統計的パラメータは次に、次の音声フレームに
対して基本周波数の存在を判定するのに使用される。
第1の回路は次の1組の類別子、新しい重みベクトルお
よびしきい値とに応答して、次のフレームが無声音であ
る確率、次のフレームが有声音である確率、およびある
フレームが無声音であろうという総合確率、とを計算す
るのが好ましい。これらの確率は次に過去および現在の
フレームに対する類別子の平均を与える1組の値と共に
他の1組の統計的パラメータを決定するのに利用され
る。
よびしきい値とに応答して、次のフレームが無声音であ
る確率、次のフレームが有声音である確率、およびある
フレームが無声音であろうという総合確率、とを計算す
るのが好ましい。これらの確率は次に過去および現在の
フレームに対する類別子の平均を与える1組の値と共に
他の1組の統計的パラメータを決定するのに利用され
る。
音声判別を決定するための方法は次のステップで実行さ
れる:すなわち有声音および無声音フレームに対する統
計的分布を推定するステップ、この統計的分布に応答し
て有声音音声と無声音音声とを表わす判別領域を決定す
るステップ、および判別領域および現在の音声フレーム
とに応答して音声判別を行うステップである。さらに統
計的分布は、現在の音声フレームが無声音である確率、
現在の音声フレームが有声音である確率、およびあるフ
レームが無声音であろうという総合確率、とから計算さ
れる。これらの3種類の確率は統計的分布を決定するス
テップのサブステップとして計算される。
れる:すなわち有声音および無声音フレームに対する統
計的分布を推定するステップ、この統計的分布に応答し
て有声音音声と無声音音声とを表わす判別領域を決定す
るステップ、および判別領域および現在の音声フレーム
とに応答して音声判別を行うステップである。さらに統
計的分布は、現在の音声フレームが無声音である確率、
現在の音声フレームが有声音である確率、およびあるフ
レームが無声音であろうという総合確率、とから計算さ
れる。これらの3種類の確率は統計的分布を決定するス
テップのサブステップとして計算される。
[図面の簡単な説明]
本発明は図面を参照しながら以下の詳細な説明を読めば
容易に理解されよう。ここで: 第1図は本発明を用いた装置のブロック図; 第2図は本発明をブロック図の形で表わした図; 第3図および第4図は第2図の統計的有声音検出器103
により実行される機能をさらに詳細に表わした図; 第5図は第4図のブロック340で実行される機能をさら
に詳細に表わした図である。
容易に理解されよう。ここで: 第1図は本発明を用いた装置のブロック図; 第2図は本発明をブロック図の形で表わした図; 第3図および第4図は第2図の統計的有声音検出器103
により実行される機能をさらに詳細に表わした図; 第5図は第4図のブロック340で実行される機能をさら
に詳細に表わした図である。
[詳細な説明]
第1図は有声音検出器の1つとして本発明の主題である
統計的有声音検出器を使用する無声音/有声音判別動作
を実行するための装置を示す。第1図の装置は2種類の
検出器すなわち識別有声音検出器と統計的有声音検出器
とを使用する。統計的有声音検出器103は、音声環境の
変化を検出して類別子発生器101から来る類別子を処理
するのに使用される重みを修正してより正確に無声音/
有声音判別を行うようにする適応検出器である。識別有
声音検出器102は、初期スタートアップの間すなわち統
計的有声音検出器103が初期の音声環境にすなわち新し
い音声環境にまだ十分には適応していないときの急激に
変化する音声環境条件内で使用される。
統計的有声音検出器を使用する無声音/有声音判別動作
を実行するための装置を示す。第1図の装置は2種類の
検出器すなわち識別有声音検出器と統計的有声音検出器
とを使用する。統計的有声音検出器103は、音声環境の
変化を検出して類別子発生器101から来る類別子を処理
するのに使用される重みを修正してより正確に無声音/
有声音判別を行うようにする適応検出器である。識別有
声音検出器102は、初期スタートアップの間すなわち統
計的有声音検出器103が初期の音声環境にすなわち新し
い音声環境にまだ十分には適応していないときの急激に
変化する音声環境条件内で使用される。
ここで第1図に示す装置の全体的動作を考えてみる。類
別子発生器101は各音声フレームに応答して、音声エネ
ルギーの対数(log)、LPC(線形予測分布)ゲインの対
数、第1の反射係数の対数面積比、および1ピッチ周期
だけオフセットされている1フレーム長の2つの音声セ
グメントの二乗相関係数であることが好ましい類別子
(classifier)を発生する。これらの類別子の計算は、
アナログ音声をディジタルにサンプリングすること、デ
ィジタルサンプルのフレームを形成すること、およびこ
れらのフレームを処理すること、とを含み、これは当業
者には周知である。発生器101は通路106を介して類別子
を検出器102および103に伝送する。
別子発生器101は各音声フレームに応答して、音声エネ
ルギーの対数(log)、LPC(線形予測分布)ゲインの対
数、第1の反射係数の対数面積比、および1ピッチ周期
だけオフセットされている1フレーム長の2つの音声セ
グメントの二乗相関係数であることが好ましい類別子
(classifier)を発生する。これらの類別子の計算は、
アナログ音声をディジタルにサンプリングすること、デ
ィジタルサンプルのフレームを形成すること、およびこ
れらのフレームを処理すること、とを含み、これは当業
者には周知である。発生器101は通路106を介して類別子
を検出器102および103に伝送する。
検出器102および103は通路106を介して受取られた類別
子に応答して無声音/有声音判別を行い、通路107およ
び110の各々を介してこれらの判別をマルチプレクサ105
に伝達する。さらにこれらの検出器は有声音フレームと
無声音フレームとの間の距離尺度を決定し、通路108お
よび109を介してこれらの距離を比較器104に伝送する。
これらの距離はマハラノビス(Maharanobis)距離また
は他の一般化距離であることが好ましい。比較器104は
通路108及び109を介して受取られた距離に応答してマル
チプレクサ105を制御し、この結果後者のマルチプレク
サは最大距離を発生している検出器出力を選別する。
子に応答して無声音/有声音判別を行い、通路107およ
び110の各々を介してこれらの判別をマルチプレクサ105
に伝達する。さらにこれらの検出器は有声音フレームと
無声音フレームとの間の距離尺度を決定し、通路108お
よび109を介してこれらの距離を比較器104に伝送する。
これらの距離はマハラノビス(Maharanobis)距離また
は他の一般化距離であることが好ましい。比較器104は
通路108及び109を介して受取られた距離に応答してマル
チプレクサ105を制御し、この結果後者のマルチプレク
サは最大距離を発生している検出器出力を選別する。
第2図は統計的有声音検出器103をさらに詳細に示す。
各音声フレームに対して、通路106を介して類別子発生
器101から類別子のベクトルとも呼ばれる1組の類別子
が受取られる。沈黙検出器201はこれらの類別子に応答
してこのフレーム内に音声が存在するか否かを判別す
る。もし音声が存在すれば、検出器201は通路210を介し
て信号を伝送する。もしフレーム内に音声が存在しなけ
れば(沈黙)、このときのみ減算器207およびU/V(無声
音/有声音)判別器205がその特定のフレームのために
作動する。音声が存在するか否かに関しては、判別器20
5により各フレーム毎に無声音/有声音判別が行われ
る。
各音声フレームに対して、通路106を介して類別子発生
器101から類別子のベクトルとも呼ばれる1組の類別子
が受取られる。沈黙検出器201はこれらの類別子に応答
してこのフレーム内に音声が存在するか否かを判別す
る。もし音声が存在すれば、検出器201は通路210を介し
て信号を伝送する。もしフレーム内に音声が存在しなけ
れば(沈黙)、このときのみ減算器207およびU/V(無声
音/有声音)判別器205がその特定のフレームのために
作動する。音声が存在するか否かに関しては、判別器20
5により各フレーム毎に無声音/有声音判別が行われ
る。
類別子平均器202は検出器201からの信号に応答して、現
フレームに対する類別子内でそれ以前のフレームに対す
る類別子と平均することにより、通路106を介して受取
られた個々の類別子の平均を維持する。フレーム内にも
し音声(沈黙でない)が存在すれば、沈黙検出器201は
通路210を介して統計的計算器203、発生器206、および
平均器202とに信号を送る。
フレームに対する類別子内でそれ以前のフレームに対す
る類別子と平均することにより、通路106を介して受取
られた個々の類別子の平均を維持する。フレーム内にも
し音声(沈黙でない)が存在すれば、沈黙検出器201は
通路210を介して統計的計算器203、発生器206、および
平均器202とに信号を送る。
統計的計算器203は有声音フレームおよび無声音フレー
ムに対する統計的分布を計算する。とくに計算器203は
通路210を介して受取られた信号に応答してああるフレ
ームが無声音である総合確率およびあるフレームが有声
音である確率とを計算する。さらに統計的計算器203は
そのフレームが無声音であった場合に各類別子が有する
であろう統計値およびそのフレームが有声音であった場
合に各類別子が有するであろう統計値とを計算する。さ
らに計算器203は類別子の共分散マトリックスを計算す
る。この統計値は平均値であることが好ましい。計算器
203により行われる計算は、現フレームに基づくのみで
なくそれ以前のフレームにも基づいている。統計的計算
器203は、これらの計算を、通路106を介して受取られる
現フレームに対する類別子および通路211を介して受取
られる類別子の平均に基づくのみでなく、各類別子のた
めの重みおよびフレームが無声音であるかまたは有声音
であるかを判別するところの、通路213を介して重み計
算器204から受取られたしきい値とにも基づいて行う。
ムに対する統計的分布を計算する。とくに計算器203は
通路210を介して受取られた信号に応答してああるフレ
ームが無声音である総合確率およびあるフレームが有声
音である確率とを計算する。さらに統計的計算器203は
そのフレームが無声音であった場合に各類別子が有する
であろう統計値およびそのフレームが有声音であった場
合に各類別子が有するであろう統計値とを計算する。さ
らに計算器203は類別子の共分散マトリックスを計算す
る。この統計値は平均値であることが好ましい。計算器
203により行われる計算は、現フレームに基づくのみで
なくそれ以前のフレームにも基づいている。統計的計算
器203は、これらの計算を、通路106を介して受取られる
現フレームに対する類別子および通路211を介して受取
られる類別子の平均に基づくのみでなく、各類別子のた
めの重みおよびフレームが無声音であるかまたは有声音
であるかを判別するところの、通路213を介して重み計
算器204から受取られたしきい値とにも基づいて行う。
重み計算器204は、計算器203により発生され通路212を
介して受取られた現フレームに対する類別子の確率、共
分散マトリックス、および統計値に応答して、各類別子
に対する重みベクトルa、および現フレームに対するし
きい値b、とを再計算する。次にこれらの新しいaおよ
びbの値は通路213を介して統計的計算器203に逆伝送さ
れる。
介して受取られた現フレームに対する類別子の確率、共
分散マトリックス、および統計値に応答して、各類別子
に対する重みベクトルa、および現フレームに対するし
きい値b、とを再計算する。次にこれらの新しいaおよ
びbの値は通路213を介して統計的計算器203に逆伝送さ
れる。
重み計算器204はまた無声音と有声音との両方の領域内
における類別子のための重みおよび統計値を通路214を
介して判別器205に伝送しかつ通路208を介して発生器20
6に伝送する。後者の発生器はこの情報に応答して距離
尺度を計算し、この距離尺度は次に第1図に示すように
通路109を介して比較器104に伝送される。
における類別子のための重みおよび統計値を通路214を
介して判別器205に伝送しかつ通路208を介して発生器20
6に伝送する。後者の発生器はこの情報に応答して距離
尺度を計算し、この距離尺度は次に第1図に示すように
通路109を介して比較器104に伝送される。
U/V(無声音/有声音)判別器205は通路214および215を
介して伝送された情報に応答してこのフレームが無声音
であるかまたは有声音であるかを判別し、この判別器を
通路110を介して第1図のマルチプレクサ105に伝送す
る。
介して伝送された情報に応答してこのフレームが無声音
であるかまたは有声音であるかを判別し、この判別器を
通路110を介して第1図のマルチプレクサ105に伝送す
る。
ここで第2図に示し、ここではベクトルおよびマトリッ
クス数学で与えられる各ブロックの動作をさらに詳細に
説明する。平均器202、統計的計算器203、および重み計
算器204とは、エヌ・イー・ディ(N.E.Day)著の「混合
正規分布の成分の推定」(“Estimating the Component
s of a Mixture of Normal Distribution"、ビオメトリ
カ[Biometrika]誌、第56巻、第3号、463-474ペー
ジ、1969)という題名の論文に記載されたものに類似の
改良EMアルゴリズムを実行する。くずし平均(decaying
average)の概念を用いて、類別子平均器202は次式
1、2、および3を計算することにより、現フレームお
よびそれ以前のフレームに対する類別子の平均を計算す
る。
クス数学で与えられる各ブロックの動作をさらに詳細に
説明する。平均器202、統計的計算器203、および重み計
算器204とは、エヌ・イー・ディ(N.E.Day)著の「混合
正規分布の成分の推定」(“Estimating the Component
s of a Mixture of Normal Distribution"、ビオメトリ
カ[Biometrika]誌、第56巻、第3号、463-474ペー
ジ、1969)という題名の論文に記載されたものに類似の
改良EMアルゴリズムを実行する。くずし平均(decaying
average)の概念を用いて、類別子平均器202は次式
1、2、および3を計算することにより、現フレームお
よびそれ以前のフレームに対する類別子の平均を計算す
る。
n=n+1 ifn<2000 (1)
z==1/n (2)
Xn=(1−z)Xn-1+zxn (3)
xnは現フレームのための類別子を示すベクトルであり、
nは2000までの処理フレーム数である。zはくずし平均
係数を示し、Xnは現フレームおよび過去のフレームの全
部の類別子の平均を示す。統計的計算器203は、z、xn
およびXn情報の受領に応答して、次のようにまず二乗お
よび積の和のマトリックスQnを計算することにより共分
散マトリックスTを計算する。
nは2000までの処理フレーム数である。zはくずし平均
係数を示し、Xnは現フレームおよび過去のフレームの全
部の類別子の平均を示す。統計的計算器203は、z、xn
およびXn情報の受領に応答して、次のようにまず二乗お
よび積の和のマトリックスQnを計算することにより共分
散マトリックスTを計算する。
Qn=(1−z)Qn-1+zxnx′n. (4)
Qnが計算されると、次のようにTが計算される。
T=Qn−XnX′n. (5)
類別子から次のように平均値が差引かれる。
xn=xn−Xn (6)
次に計算器203は以下に示す式(7)を解くことによ
り、現ベクトルXnにより表わされるフレームが無声音で
ある確率を決定するが、ここでベクトルaの成分は、音
声エネルギーの対数に対応する成分は0.3918606に、LPC
ゲインの対数に対応する成分は−0.0520902に、第1反
射係数の対数面積比に対応する成分は0.5637082に、お
よび二乗相関係数に対応する成分は、1.361249に等しく
初期化し、またbは最初−8.36454に等しく初期化する
ことが好ましい。
り、現ベクトルXnにより表わされるフレームが無声音で
ある確率を決定するが、ここでベクトルaの成分は、音
声エネルギーの対数に対応する成分は0.3918606に、LPC
ゲインの対数に対応する成分は−0.0520902に、第1反
射係数の対数面積比に対応する成分は0.5637082に、お
よび二乗相関係数に対応する成分は、1.361249に等しく
初期化し、またbは最初−8.36454に等しく初期化する
ことが好ましい。
(7)式を解いた後に計算器203は次式を解くことによ
り、類別子が有声音フレームを表わす確率を決定する。
り、類別子が有声音フレームを表わす確率を決定する。
P(v|xn)=1−P(u|xn) (8)
次に計算器203はpnを求める式(9)を解くことによ
り、あるフレームが無声音であろうという総合確率を決
定する。
り、あるフレームが無声音であろうという総合確率を決
定する。
pn=(1−z)pn-1+zP(u|xn). (9)
フレームが無声音であろうという確率を決定した後に、
次に計算器203は無声音型および有声音型の両方のフレ
ームに対する各類別子の平均値を与える2つのベクトル
uおよびvを決定する。ベクトルuおよびvはそれぞれ
無声音フレームおよび有声音フレームに対する統計的平
均である。統計的平均無声音ベクトルであるベクトルu
は、もしフレームが無声音であるならば各類別子の平均
値を含み;また統計的平均有声音ベクトルであるベクト
ルvは、もしフレームが有声音であるならば各類別子に
対する平均値を与える。以下に示すように、現フレーム
に対するベクトルuは式(10)を計算することにより解
かれ、現フレームに対するベクトルvは式(11)を計算
することにより決定される。
次に計算器203は無声音型および有声音型の両方のフレ
ームに対する各類別子の平均値を与える2つのベクトル
uおよびvを決定する。ベクトルuおよびvはそれぞれ
無声音フレームおよび有声音フレームに対する統計的平
均である。統計的平均無声音ベクトルであるベクトルu
は、もしフレームが無声音であるならば各類別子の平均
値を含み;また統計的平均有声音ベクトルであるベクト
ルvは、もしフレームが有声音であるならば各類別子に
対する平均値を与える。以下に示すように、現フレーム
に対するベクトルuは式(10)を計算することにより解
かれ、現フレームに対するベクトルvは式(11)を計算
することにより決定される。
un=(1−z)un-1+zxnP(u|xn)/pn−zxn (10)
vn=(1−z)vn-1+zxnP(v|xn)/(1−pn)−zxn
(11) ここで計算器203は、通路212を介してベクトルuおよび
v、マトリックスT、および確率pを重み計算器204に
伝送する。重み計算器204はこの情報に応答してベクト
ルaおよびスカラーbに対する新しい値を計算する。次
にこれらの新しい値は通路213を介して統計的計算器203
に逆伝送される。これにより検出器103は変化する環境
に迅速に適応可能である。ベクトルaおよびスカラーb
に対する新しい値が統計的計算器203に逆伝送されなく
ても、ベクトルuおよびvが最新の値とされているので
検出器103は変化する環境に適応し続けるであろう。明
らかなように、判別器205はベクトルuおよびv並びに
ベクトルaおよびスカラーbを用いて音声判別を行う。
nが好ましくは99より大きくなると、ベクトルaおよび
スカラーbは次式のように計算される。ベクトルaは式
を解くことにより決定される。
(11) ここで計算器203は、通路212を介してベクトルuおよび
v、マトリックスT、および確率pを重み計算器204に
伝送する。重み計算器204はこの情報に応答してベクト
ルaおよびスカラーbに対する新しい値を計算する。次
にこれらの新しい値は通路213を介して統計的計算器203
に逆伝送される。これにより検出器103は変化する環境
に迅速に適応可能である。ベクトルaおよびスカラーb
に対する新しい値が統計的計算器203に逆伝送されなく
ても、ベクトルuおよびvが最新の値とされているので
検出器103は変化する環境に適応し続けるであろう。明
らかなように、判別器205はベクトルuおよびv並びに
ベクトルaおよびスカラーbを用いて音声判別を行う。
nが好ましくは99より大きくなると、ベクトルaおよび
スカラーbは次式のように計算される。ベクトルaは式
を解くことにより決定される。
スカラーbは次式を解くことにより決定される。
式(12)および(13)を計算した後に、重み計算器204
は通路214を介してベクトルa、u、およびvをU/V判別
器205に伝送する。もしフレームが沈黙を含んだ場合は
式(6)のみが計算される。
は通路214を介してベクトルa、u、およびvをU/V判別
器205に伝送する。もしフレームが沈黙を含んだ場合は
式(6)のみが計算される。
判別器205はこの伝送された情報に応答して現フレーム
が有声音であるかまたは無声音であるかを判別する。も
し出力に対応するベクトル(vn−un)の成分が正であれ
ば、このときは、もし次式が真であるならばフレームは
有声音であると宣言される。
が有声音であるかまたは無声音であるかを判別する。も
し出力に対応するベクトル(vn−un)の成分が正であれ
ば、このときは、もし次式が真であるならばフレームは
有声音であると宣言される。
a′xn−a′(un+vn)/2>0; (14)
またはもし出力に対応するベクトル(vn−un)の成分が
負であれば、このときは、もし次式が真であるならばフ
レームは有声音であると宣言される。
負であれば、このときは、もし次式が真であるならばフ
レームは有声音であると宣言される。
a′xn−a′(un+vn)/2<0. (15)
式(14)はまた次式のようにも書き替えられる。
a′xn+b−log[(1−pn)/pn]>0
式(15)はまた次式のようにも書き替えられる。
a′xn+b−log[(1−pn)/pn]>0
もし前記の条件が満たされないならば、判別器205はフ
レームが無声音であると宣言する。式(14)および(1
5)は有声判別を行うための判別領域を表わす。(14)
および(15)の書き替え形式のlogの項は性能を少し変
えれば省略可能である。本実施例においては、出力に対
応する成分は音声エネルギーのlogであるのが好まし
い。
レームが無声音であると宣言する。式(14)および(1
5)は有声判別を行うための判別領域を表わす。(14)
および(15)の書き替え形式のlogの項は性能を少し変
えれば省略可能である。本実施例においては、出力に対
応する成分は音声エネルギーのlogであるのが好まし
い。
発生器206は通路214を介して計算器204から受取られた
情報に応答して次のように距離尺度Aを計算する。まず
最初に、次のように式(16)により識別変数dが計算さ
れる。
情報に応答して次のように距離尺度Aを計算する。まず
最初に、次のように式(16)により識別変数dが計算さ
れる。
d=a′xn+b−log[(1−pn)/pn]. (16)
次の諸式で用いるためのdに類似の値を発生するため
に、種々のタイプの音声検出器を用いることは好まし
く、これは当業者には明らかであろう。このような検出
器の1つが自己相関検出器であろう。もしフレームが有
声音であれば、式(17)ないし(20)は次のように解か
れる。
に、種々のタイプの音声検出器を用いることは好まし
く、これは当業者には明らかであろう。このような検出
器の1つが自己相関検出器であろう。もしフレームが有
声音であれば、式(17)ないし(20)は次のように解か
れる。
m1=(1−z)m1+zd, (17)
s1=(1−z)s1+zd2, (18)
k1=s1−▲m2 1▼ (19)
ここでm1は有声音フレームに対する平均であり、k1は有
声音フレームに対する分散である。
声音フレームに対する分散である。
フレームが無声音であると判別器205が宣言するであろ
う確率Pdは次式で計算される。
う確率Pdは次式で計算される。
Pd=(1−z)Pd. (20)
Pdは最初0.5に設定されるのが好ましい。
もしフレームが無声音ならば、式(21)ないし(24)は
次のように解かれる。
次のように解かれる。
m0=(1−z)m0+zd, (21)
s0=(1−z)s0+zd2 (22)
k0=s0−▲m2 0▼. (23)
フレームが無声音であると判別器205が宣言するであろ
う確率Pdは次式で計算される。
う確率Pdは次式で計算される。
Pd=(1−z)Pd+z. (24)
式(16)ないし(22)を計算した後に距離尺度すなわち
メリット値が次のように計算される。
メリット値が次のように計算される。
式(25)はホテリング(Hotelling)の2サンプルT2統
計を用いて距離尺度を計算する式(25)に対して、メリ
ット値が大きくなればなるほど分離は大きくなる。しか
しながら他のメリット値は、メリット値が小さくなれば
なるほど分離は大きくなるところに存在する。好ましい
ことに距離尺度は次式で与えられるマハラノビス距離で
あってもよい。
計を用いて距離尺度を計算する式(25)に対して、メリ
ット値が大きくなればなるほど分離は大きくなる。しか
しながら他のメリット値は、メリット値が小さくなれば
なるほど分離は大きくなるところに存在する。好ましい
ことに距離尺度は次式で与えられるマハラノビス距離で
あってもよい。
好ましいことに第3の方法は次式で与えられる。
好ましくは、距離尺度を計算するために第4の方法は次
式で示される。
式で示される。
A2=a′(vn−un) (28)
識別検出器102は、もしa′X+b>0ならば有声音フ
レームを指示する情報を通路107を介してマルチプレク
サ105に伝送することにより無声音/有声音判別を行
う。もしこの条件が真でなければ、このときは検出器10
2は無声音フレームを指示する。検出器102により使用さ
れるベクトルaおよびスカラーbに対する値は好ましい
ことに統計的有声音検出器103に対するaおよびbの初
期値と同一である。
レームを指示する情報を通路107を介してマルチプレク
サ105に伝送することにより無声音/有声音判別を行
う。もしこの条件が真でなければ、このときは検出器10
2は無声音フレームを指示する。検出器102により使用さ
れるベクトルaおよびスカラーbに対する値は好ましい
ことに統計的有声音検出器103に対するaおよびbの初
期値と同一である。
検出器102は、式(16)ないし(28)に与えられるもの
と類似の計算を実行することにより発生器206に類似の
方法で距離尺度を決定する。
と類似の計算を実行することにより発生器206に類似の
方法で距離尺度を決定する。
第3図および第4図は第2図の統計的有声音検出器103
により実施される操作を流れ図の形式でさらに詳細に示
す。ブロック02および300はそれぞれ第2図のブロック2
02および201を実行する。ブロック304ないし318は統計
的計算器203を実行する。ブロック320および322は重み
計算器204を実行し、ブロック326ないし338は第2図の
ブロック205を実行する。第2図の発生器206はブロック
340により実行される。減算器207はブロック308または
ブロック324により実行される。
により実施される操作を流れ図の形式でさらに詳細に示
す。ブロック02および300はそれぞれ第2図のブロック2
02および201を実行する。ブロック304ないし318は統計
的計算器203を実行する。ブロック320および322は重み
計算器204を実行し、ブロック326ないし338は第2図の
ブロック205を実行する。第2図の発生器206はブロック
340により実行される。減算器207はブロック308または
ブロック324により実行される。
ブロック302は現フレームとそれ以前の全てのフレーム
とに対する類別子の平均を示すベクトルを計算する。ブ
ロック300は現フレーム内には音声が存在するかまたは
沈黙が存在するかを判別する。そしてもし現フレーム内
に沈黙が存在すれば、制御が判別ブロック326に引渡さ
れる前にブロック324により各類別子から各類別子に対
する平均が差引かれる。しかしながらもし現フレーム内
に音声が存在すれば、このときはブロック304ないし322
により統計的計算および重み計算が実行される。まず第
1番目にブロック302において平均ベクトルが求められ
る。第2番目にブロック304において二乗および積の和
のマトリックスが計算される。次にブロック306におい
て、現フレームおよび過去のフレームに対する類別子の
平均を示すベクトルXと共に後者のマトリックスが使用
されて共分散マトリックスTを計算する。次にブロック
308において類別子ベクトルxnから平均Xが差引かれ
る。
とに対する類別子の平均を示すベクトルを計算する。ブ
ロック300は現フレーム内には音声が存在するかまたは
沈黙が存在するかを判別する。そしてもし現フレーム内
に沈黙が存在すれば、制御が判別ブロック326に引渡さ
れる前にブロック324により各類別子から各類別子に対
する平均が差引かれる。しかしながらもし現フレーム内
に音声が存在すれば、このときはブロック304ないし322
により統計的計算および重み計算が実行される。まず第
1番目にブロック302において平均ベクトルが求められ
る。第2番目にブロック304において二乗および積の和
のマトリックスが計算される。次にブロック306におい
て、現フレームおよび過去のフレームに対する類別子の
平均を示すベクトルXと共に後者のマトリックスが使用
されて共分散マトリックスTを計算する。次にブロック
308において類別子ベクトルxnから平均Xが差引かれ
る。
次にブロック310は、現在の重みベクトルa、現在のし
きい値b、および現フレームに対する類別子のベクトル
xnとを利用することにより、現フレームが無声音である
確率を計算する。現フレームが無声音であるという確率
を計算した後に、ブロック312により現フレームが有声
音である確率が計算される。次にブロック314によりあ
るフレームが無声音であろうという総合確率pnが計算さ
れる。
きい値b、および現フレームに対する類別子のベクトル
xnとを利用することにより、現フレームが無声音である
確率を計算する。現フレームが無声音であるという確率
を計算した後に、ブロック312により現フレームが有声
音である確率が計算される。次にブロック314によりあ
るフレームが無声音であろうという総合確率pnが計算さ
れる。
ブロック316および318は2つのベクトルuおよびvを計
算する。ベクトルuの中に含まれる値は、もしそのフレ
ームが無声音であったならば各類別子が持つであろう統
計的平均値を表わす。一方ベクトルvは、もしそのフレ
ームが有声音であったならば各類別子が持つであろう統
計的平均値を表わす値を含む。現フレームおよびそれ以
前のフレームに対する類別子の実際の値はベクトルuま
たはベクトルvのまわりにクラスタ(集団化)される。
もしこれらのフレームが無声音であることがわかると、
それ以前のフレームおよび現フレームに対する類別子を
表わすベクトルはベクトルuのまわりにクラスタされ;
そうでなければそれ以前の類別子ベクトルはベクトルv
のまわりにクラスタされる。
算する。ベクトルuの中に含まれる値は、もしそのフレ
ームが無声音であったならば各類別子が持つであろう統
計的平均値を表わす。一方ベクトルvは、もしそのフレ
ームが有声音であったならば各類別子が持つであろう統
計的平均値を表わす値を含む。現フレームおよびそれ以
前のフレームに対する類別子の実際の値はベクトルuま
たはベクトルvのまわりにクラスタ(集団化)される。
もしこれらのフレームが無声音であることがわかると、
それ以前のフレームおよび現フレームに対する類別子を
表わすベクトルはベクトルuのまわりにクラスタされ;
そうでなければそれ以前の類別子ベクトルはベクトルv
のまわりにクラスタされる。
ブロック316および318を実施した後に制御は判別ブロッ
ク320に引き渡される。もし、Nが99より大きければ、
制御は判別ブロック322に引渡され;そうでなければ制
御はブロック326に引渡される。制御を受取ると、ブロ
ック322は次に新しい重みベクトルaおよび新しいしき
い値bを計算する。ベクトルaおよび値bは次に続くフ
レーム内で第3図内のそれに先行するブロックにより使
用される。好ましくは、もしNが無限大より大であるこ
とが要求されるならば、ベクトルaおよびスカラーbは
決して変えられないで、検出器103はブロック326ないし
328内に示すようにベクトルvおよびuにのみ応答して
適応するであろう。
ク320に引き渡される。もし、Nが99より大きければ、
制御は判別ブロック322に引渡され;そうでなければ制
御はブロック326に引渡される。制御を受取ると、ブロ
ック322は次に新しい重みベクトルaおよび新しいしき
い値bを計算する。ベクトルaおよび値bは次に続くフ
レーム内で第3図内のそれに先行するブロックにより使
用される。好ましくは、もしNが無限大より大であるこ
とが要求されるならば、ベクトルaおよびスカラーbは
決して変えられないで、検出器103はブロック326ないし
328内に示すようにベクトルvおよびuにのみ応答して
適応するであろう。
ブロック326ないし338は第2図のu/v判別器205を実行す
る。ブロック326は現フレームのベクトルvのパワー項
(powerterm)がベクトルuのパワー項以上か否かを判
別する。もしこの条件が真であれば、このときは判別ブ
ロック328が実行される。後者の判別ブロックは、テス
トにより有声音かまたは無声音かを判別する。もしブロ
ック328の判別においてフレームはブロック330により有
声音として表示され、そうでなければフレームはブロッ
ク332により無声音として表示される。もしベクトルv
のパワー項より小であるならば、ブロック334ないし338
の機能が実行され同様に機能する。最後にブロック340
が距離尺度を計算する。
る。ブロック326は現フレームのベクトルvのパワー項
(powerterm)がベクトルuのパワー項以上か否かを判
別する。もしこの条件が真であれば、このときは判別ブ
ロック328が実行される。後者の判別ブロックは、テス
トにより有声音かまたは無声音かを判別する。もしブロ
ック328の判別においてフレームはブロック330により有
声音として表示され、そうでなければフレームはブロッ
ク332により無声音として表示される。もしベクトルv
のパワー項より小であるならば、ブロック334ないし338
の機能が実行され同様に機能する。最後にブロック340
が距離尺度を計算する。
第5図は第4図のブロック340により実行される動作を
流れ図の形で詳細に示す。判別ブロック501は、ブロッ
ク330、332、336または338の結果を調べることによりフ
レームが無声音と指示されたかまたは有声音と指示され
たかを判別する。もしフレームが有声音と指定されたな
らば通路507が選択される。ブロック510は確率Pdを計算
し、ブロック502は有声音フレームに対する平均m1を再
計算し、およびブロック503は有声音フレームに対する
分散k1を再計算する。もしフレームが無声音と判別され
たならば判別ブロック501は通路508を選択する。ブロッ
ク509は確率Pdを再計算し、ブロック504は無声音フレー
ムに対する平均m0を再計算し、およびブロック505は無
声音フレームに対する分散k0を再計算する。最後にブロ
ック506は指示された計算を実行することにより距離尺
度を計算する。
流れ図の形で詳細に示す。判別ブロック501は、ブロッ
ク330、332、336または338の結果を調べることによりフ
レームが無声音と指示されたかまたは有声音と指示され
たかを判別する。もしフレームが有声音と指定されたな
らば通路507が選択される。ブロック510は確率Pdを計算
し、ブロック502は有声音フレームに対する平均m1を再
計算し、およびブロック503は有声音フレームに対する
分散k1を再計算する。もしフレームが無声音と判別され
たならば判別ブロック501は通路508を選択する。ブロッ
ク509は確率Pdを再計算し、ブロック504は無声音フレー
ムに対する平均m0を再計算し、およびブロック505は無
声音フレームに対する分散k0を再計算する。最後にブロ
ック506は指示された計算を実行することにより距離尺
度を計算する。
─────────────────────────────────────────────────────
フロントページの続き
(56)参考文献 特開 昭61−48898(JP,A)
特開 昭60−200300(JP,A)
特開 昭60−114900(JP,A)
IEEE Transactions
on Acoustics,Speec
h,and Signal Proces
sing Vol.ASSP−24,No.
3,June 1976,P.201−212
Claims (20)
- 【請求項1】非トレーニング音声信号に応答して、この
音声信号をサンプリングすることによりディジタル音声
信号を生成し、このディジタル音声信号のフレームを形
成し、各フレームを処理して音声属性を定義する類別子
のセットを生成する手段と、 前記フレームのうちの1つである第1のフレームの音声
属性を定義する類別子のセットに応答して、第1の統計
分布のセットを計算する第1の手段と、 計算された第1の統計分布のセットに応答して、それぞ
れ前記類別子のうちの1つに対応する重みのセットを計
算する第2の手段と、 計算された重みおよび類別子のセットと前記第1の統計
分布のセットに応答して、前記第1フレームにおける基
本周波数の存在を判定する第3の手段とからなることを
特徴とする、非トレーニング音声信号における基本周波
数の存在を判定する装置。 - 【請求項2】前記第2手段が、 前記統計分布のセットに応答してしきい値を計算する手
段と、 前記重みのセットおよび前記しきい値を、前記第1フレ
ームとは異なる第2のフレームに対する第2の統計分布
のセットを計算するのに使用されるように前記第1手段
に通知する手段とからなることを特徴とする請求項1の
装置。 - 【請求項3】前記第1手段が、通知された重みのセット
と前記第2フレームの音声属性を定義する第2の類別子
のセットとにさらに応答して、第2の統計分布のセット
を計算することを特徴とする請求項2の装置。 - 【請求項4】前記第1手段が、 以前のフレームに対する前記類別子の平均を計算する手
段と、 前記類別子の平均と、前記通知された重みのセットと、
前記第2の類別子のセットとに応答して、前記第2の統
計分布のセットを決定する手段とからなることを特徴と
する請求項3の装置。 - 【請求項5】前記第1手段が、 各フレームにおける音声の存在を検出する手段と、 前記第2のフレーム内に音声が検出されないときに前記
第2の統計分布のセットの計算を中止させる手段とをさ
らに有することを特徴とする請求項4の装置。 - 【請求項6】前記第1手段が、 前記第2の類別子のセットが無声音フレームを表す確率
および前記第2の類別子のセットが有声音フレームを表
す確率を計算する手段と、 フレームが無声音である全確率を計算する手段とをさら
に有することを特徴とする請求項5の装置。 - 【請求項7】前記第1手段が、無声音フレームを表す平
均類別子のセットと有声音フレームを表す平均類別子の
セットとを計算する手段をさらに有することを特徴とす
る請求項6の装置。 - 【請求項8】前記第1手段が、前記第2フレームに対す
る無声音フレームを表す前記平均類別子のセットと、前
記第2フレームに対する無声音フレームを表す前記類別
子のセットとの間の共分散マトリックスを計算する手段
をさらに有することを特徴とする請求項7の装置。 - 【請求項9】前記第2手段が、共分散マトリックスと、
有声音フレームおよび無声音フレームの両方に対する前
記平均類別子のセットと、フレームが無声音である前記
全確率とに応答して、前記第2の統計分布のセットを決
定することを特徴とする請求項8の装置。 - 【請求項10】前記第3手段が、前記第2の統計分布の
セットと、有声音フレームおよび無声音フレームに対す
る前記平均類別子のセットとに応答して、前記第2フレ
ームにおける前記基本周波数の存在を判定することを特
徴とする請求項9の装置。 - 【請求項11】非トレーニング音声信号をサンプリング
することによりディジタル音声信号を生成し、このディ
ジタル音声信号のフレームを形成し、各フレームを処理
して音声属性を定義する類別子のセットを生成するステ
ップと、 前記フレームのうちの1つである第1のフレームの音声
属性を定義する類別子のセットに応答して、第1の統計
分布のセットを計算する第1計算ステップと、 計算された第1の統計分布のセットに応答して、それぞ
れ前記類別子のうちの1つに対応する重みのセットを計
算する第2計算ステップと、 計算された重みおよび類別子のセットと前記第1の統計
分布のセットに応答して、前記第1フレームにおける基
本周波数の存在を判定するステップとからなることを特
徴とする、非トレーニング音声信号における基本周波数
の存在を判定する方法。 - 【請求項12】前記第2計算ステップが、 前記統計分布のセットに応答してしきい値を計算するス
テップと、 前記重みのセットおよび前記しきい値を、前記第1フレ
ームとは異なる第2のフレームに対する第2の統計分布
のセットを計算する際に使用するために通知するステッ
プとからなることを特徴とする請求項11の方法。 - 【請求項13】前記第1計算ステップが、通知された重
みのセットと前記第2フレームの音声属性を定義する第
2の類別子のセットとにさらに応答して、第2の統計分
布のセットを計算することを特徴とする請求項12の方
法。 - 【請求項14】前記第1計算ステップが、 以前のフレームに対する前記類別子の平均を計算するス
テップと、 前記類別子の平均と、前記通知された重みのセットと、
前記第2の類別子のセットとに応答して、前記第2の統
計分布のセットを決定するステップとからなることを特
徴とする請求項13の方法。 - 【請求項15】前記第1計算ステップが、 各フレームにおける音声の存在を検出するステップと、 前記第2のフレーム内に音声が検出されないときに前記
第2の統計分布のセットの計算を中止させるステップと
をさらに有することを特徴とする請求項14の方法。 - 【請求項16】前記第1計算ステップが、 前記第2の類別子のセットが無声音フレームを表す確率
および前記第2の類別子のセットが有声音フレームを表
す確率を計算するステップと、 フレームが無声音である全確率を計算するステップとを
さらに有することを特徴とする請求項15の方法。 - 【請求項17】前記第1計算ステップが、無声音フレー
ムを表す平均類別子のセットと有声音フレームを表す平
均類別子のセットとを計算するステップをさらに有する
ことを特徴とする請求項16の方法。 - 【請求項18】前記第1計算ステップが、前記第2フレ
ームに対する無声音フレームを表す前記平均類別子のセ
ットと、前記第2フレームに対する無声音フレームを表
す前記類別子のセットとの間の共分散マトリックスを計
算するステップをさらに有することを特徴とする請求項
17の方法。 - 【請求項19】前記第2計算ステップが、共分散マトリ
ックスと、有声音フレームおよび無声音フレームの両方
に対する前記平均類別子のセットと、フレームが無声音
である前記全確率とに応答して、前記第2の統計分布の
セットを決定することを特徴とする請求項18の方法。 - 【請求項20】前記判定ステップが、前記第2の統計分
布のセットと、有声音フレームおよび無声音フレームに
対する前記平均類別子のセットとに応答して、前記第2
フレームにおける前記基本周波数の存在を判定すること
を特徴とする請求項19の方法。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US3429687A | 1987-04-03 | 1987-04-03 | |
| US34,296 | 1987-04-03 | ||
| PCT/US1988/000030 WO1988007738A1 (en) | 1987-04-03 | 1988-01-12 | An adaptive multivariate estimating apparatus |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JPH01502779A JPH01502779A (ja) | 1989-09-21 |
| JPH0795237B1 JPH0795237B1 (ja) | 1995-10-11 |
| JPH0795237B2 true JPH0795237B2 (ja) | 1995-10-11 |
Family
ID=21875521
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP62-506332A Expired - Lifetime JPH0795237B2 (ja) | 1987-04-03 | 1988-01-12 | 適応多変数推定装置 |
Country Status (9)
| Country | Link |
|---|---|
| EP (1) | EP0308433B1 (ja) |
| JP (1) | JPH0795237B2 (ja) |
| AT (1) | ATE82426T1 (ja) |
| AU (1) | AU599459B2 (ja) |
| CA (2) | CA1337708C (ja) |
| DE (1) | DE3875894T2 (ja) |
| HK (1) | HK106693A (ja) |
| SG (1) | SG59893G (ja) |
| WO (1) | WO1988007738A1 (ja) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1988007739A1 (en) * | 1987-04-03 | 1988-10-06 | American Telephone & Telegraph Company | An adaptive threshold voiced detector |
| JP3277398B2 (ja) * | 1992-04-15 | 2002-04-22 | ソニー株式会社 | 有声音判別方法 |
| US6202046B1 (en) | 1997-01-23 | 2001-03-13 | Kabushiki Kaisha Toshiba | Background noise/speech classification method |
| JP3670217B2 (ja) | 2000-09-06 | 2005-07-13 | 国立大学法人名古屋大学 | 雑音符号化装置、雑音復号装置、雑音符号化方法および雑音復号方法 |
| JP4517045B2 (ja) * | 2005-04-01 | 2010-08-04 | 独立行政法人産業技術総合研究所 | 音高推定方法及び装置並びに音高推定用プラグラム |
| CN104517614A (zh) * | 2013-09-30 | 2015-04-15 | 上海爱聊信息科技有限公司 | 基于各子带特征参数值的清浊音判决装置及其判决方法 |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1988007739A1 (en) * | 1987-04-03 | 1988-10-06 | American Telephone & Telegraph Company | An adaptive threshold voiced detector |
-
1988
- 1988-01-12 JP JP62-506332A patent/JPH0795237B2/ja not_active Expired - Lifetime
- 1988-01-12 EP EP88901347A patent/EP0308433B1/en not_active Expired - Lifetime
- 1988-01-12 WO PCT/US1988/000030 patent/WO1988007738A1/en not_active Ceased
- 1988-01-12 AU AU12226/88A patent/AU599459B2/en not_active Ceased
- 1988-01-12 AT AT88901347T patent/ATE82426T1/de not_active IP Right Cessation
- 1988-01-12 DE DE8888901347T patent/DE3875894T2/de not_active Expired - Lifetime
- 1988-02-29 CA CA000560109A patent/CA1337708C/en not_active Expired - Fee Related
-
1993
- 1993-05-07 SG SG598/93A patent/SG59893G/en unknown
- 1993-10-07 HK HK1066/93A patent/HK106693A/en not_active IP Right Cessation
-
1995
- 1995-03-09 CA CA000616983A patent/CA1338251C/en not_active Expired - Fee Related
Non-Patent Citations (1)
| Title |
|---|
| IEEETransactionsonAcoustics,Speech,andSignalProcessingVol.ASSP−24,No.3,June1976,P.201−212 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0795237B1 (ja) | 1995-10-11 |
| AU1222688A (en) | 1988-11-02 |
| CA1338251C (en) | 1996-04-16 |
| DE3875894D1 (en) | 1992-12-17 |
| DE3875894T2 (de) | 1993-05-19 |
| CA1337708C (en) | 1995-12-05 |
| JPH01502779A (ja) | 1989-09-21 |
| ATE82426T1 (de) | 1992-11-15 |
| AU599459B2 (en) | 1990-07-19 |
| SG59893G (en) | 1993-07-09 |
| EP0308433A1 (en) | 1989-03-29 |
| EP0308433B1 (en) | 1992-11-11 |
| HK106693A (en) | 1993-10-15 |
| WO1988007738A1 (en) | 1988-10-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1083541B1 (en) | A method and apparatus for speech detection | |
| US6993481B2 (en) | Detection of speech activity using feature model adaptation | |
| US5715372A (en) | Method and apparatus for characterizing an input signal | |
| EP1536414B1 (en) | Method and apparatus for multi-sensory speech enhancement | |
| CN109034046B (zh) | 一种基于声学检测的电能表内异物自动识别方法 | |
| US9336777B2 (en) | Speech processing device, speech processing method, and speech processing program | |
| US5046100A (en) | Adaptive multivariate estimating apparatus | |
| US5007093A (en) | Adaptive threshold voiced detector | |
| JPH0795237B2 (ja) | 適応多変数推定装置 | |
| FI111572B (fi) | Menetelmä puheen käsittelemiseksi akustisten häiriöiden läsnäollessa | |
| US4972490A (en) | Distance measurement control of a multiple detector system | |
| Silsbee | Sensory integration in audiovisual automatic speech recognition | |
| EP0309561B1 (en) | An adaptive threshold voiced detector | |
| JP4673828B2 (ja) | 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 | |
| EP0310636B1 (en) | Distance measurement control of a multiple detector system | |
| JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
| JP4560899B2 (ja) | 音声認識装置、及び音声認識方法 | |
| Khosla et al. | Automatic Gender Identification Through Speech Analysis |