JP6234060B2 - ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム - Google Patents

ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム Download PDF

Info

Publication number
JP6234060B2
JP6234060B2 JP2013099645A JP2013099645A JP6234060B2 JP 6234060 B2 JP6234060 B2 JP 6234060B2 JP 2013099645 A JP2013099645 A JP 2013099645A JP 2013099645 A JP2013099645 A JP 2013099645A JP 6234060 B2 JP6234060 B2 JP 6234060B2
Authority
JP
Japan
Prior art keywords
target domain
domain
data
audio data
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013099645A
Other languages
English (en)
Other versions
JP2014219605A (ja
Inventor
治 市川
治 市川
スティーブン・ジェイ・レニー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2013099645A priority Critical patent/JP6234060B2/ja
Priority to US14/251,772 priority patent/US10217456B2/en
Publication of JP2014219605A publication Critical patent/JP2014219605A/ja
Application granted granted Critical
Publication of JP6234060B2 publication Critical patent/JP6234060B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L15/075Adaptation to the speaker supervised, i.e. under machine guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Probability & Statistics with Applications (AREA)

Description

本発明は、ソースドメインの音声データを用いてターゲットドメインの音声データを生成する技術に関し、より詳細には、ソースドメインの音声データをターゲットドメインの音声データのチャネル特性に基づいてマッピングする技術に関する。
音声認識の性能はターゲットドメインの音響環境に大きく依存する。即ち、音響モデルを学習する環境と、音声を評価する環境の間に音響的ミスマッチがあると、音声認識システムの性能は多くの場合低下する。環境間のミスマッチは、背景雑音、録音機器の音響特性、チャネル歪みなどの様々な原因によって大きくなる。そこで従来は、ターゲットドメインの音響モデルを構築することで環境間のミスマッチを避けるため、特定の環境における音声データを録音することに非常に多くの時間と労力とが費やされた。
これとは対照的に、近年のスマートフォン等のハンドヘルド・デバイスを用いたインターネット・サービス(例えば、音声検索やボイスメールなど)によって、大量の生きた音声データを低コストで取得することが可能となった。そこでこのような種々の音響環境における豊富な音声データを再利用することが望まれる。
音声認識におけるクロスドメインの問題は、伝統的に以下の4つのアプローチに大別される。
1.再利用法
2.モデル適応法
3.特徴量変換法
4.正規化法
1.の再利用法は、ターゲットドメインの音響モデルを構築するために、ソースドメインの音声データを用いてターゲットドメインの音声データをシミュレートする手法である(例えば、非特許文献1〜2を参照)。
2.のモデル適応法は、ソースドメインの音響モデルのパラメータを変更してテスト音声に合わせる手法であり、最大事後確率推定法(MaximumA Posteriori Estimation : MAP)や、最尤線形回帰法(Maximum LikelihoodLinear Regression : MLLR)がこれに該当する(例えば、特許文献1、非特許文献3〜非特許文献5を参照)。なお、該手法とは異なるが、同様にモデルを適応させる技術として特許文献2〜3、非特許文献6が存在する。
3.の特徴量変換法は、デコード時にテスト音声の特徴量をソースドメインの音響モデルに合わせるように変換する手法であり、特徴量空間最尤線形回帰法(Feature space Maximum Likelihood Linear Regression : fMLLR)や、特徴量空間相互情報量最小化法(Feature speace Minimum Mutual Information : fMMI)がこれに該当する(例えば、非特許文献3〜5、非特許文献7を参照)。
4.の正規化法は、テスト音声の特徴量の分布を正規化してソースドメインの音響モデルに合わせる手法であり、ケプストラム平均正規化法(Cepstral MeanNormalization: CMN)、分散平均正規化法(Mean and Variance Normalization: MVN)がこの手法に該当する(例えば、非特許文献8を参照)。
これら1.〜4.の各手法は組み合わせて用いることも可能である。また、2.〜4.の各手法は既に確立した技術である。一方で、1.の手法は全プロセスの出発点として重要な技術であるが、該手法に属する既存技術は、上述したインターネットを介して収集される音声データに対して適用することはできない。
非特許文献1は、ソースドメインのクリーン音声を入力として、まずターゲットドメインにおけるインパルス応答を畳み込み、その後雑音を加えて、ターゲットドメインの音声をシミュレートする手法を開示する(図2Aを参照)。該手法は、チャネルと雑音の特性を補償する最も直接的な手法であるが、インターネット上の音声データをソースデータとする場合には本手法は適さない。なぜならば、ソースデータはクリーン音声とはいえず、また、入力データのチャネル特性が単一のインパルス応答に対しては多様すぎるためである。
非特許文献2は、ステレオデータを用いたマッピング手法を開示する。即ち、非特許文献2の技術は、ソースドメインの音声データとターゲットドメインの音声データを同時に記録することを必要とする。ソースとなる音声データをインターネット上のライブデータとする場合、ステレオデータを用意するのは困難であるため、本手法を利用することはできない。
また、1.の手法とは異なるが、目的タスクに合致した音声データを既存の音声コーパスから選択することで目的タスクの音声コーパスを構築する技術を開示するものもある(非特許文献9を参照)。
なお、以下の非特許文献10〜11は、事前に用意したクリーン音声の混合ガウスモデル(Gaussian mixture model :GMM)と、クリーン音声と観測音声の関係式から、Vector Taylor Series(VTS)近似より観測音声のGMMを算出する技術を示す背景技術として列挙するものである。
特開2012−42957号公報 特表2002−529800号公報 特開平10−149191号公報
V. Stahl、A. Fischer、R. Bippus、"AcousticSynthesis of Training Data for Speech Recognition in LivingRoom Environments," Proc. of ICASSP、Vol. 1、pp. 285-288、2001. J. Droppo、L. Deng、A. Acero、"Evaluationof the SPLICE Algorithm on the Aurora2 Database"、Proc. of Eurospeech、pp. 217-220, 2001. P. J. Moreno、B. Raj、R. M. Stern、"A vector Taylor series approach forenvironment-independent speech recognition"、Proc. of ICASSP、Vol. 2、 1996. M. L. Seltzer、A. Acero、"Factored Adaptation for SeparableCompensation of Speaker and Environmental Variability", Proc. of ASRU、pp. 146-151、2011. M. J. F. Gales、"Maximum likelihoodlinear transformations for HMM based speech recognition、"Computer Speech and Language、Vol. 12、pp.75-98、1998. M. J. F. Gales、S. J. Young、"Robust continuous speech recognition using parallel model combination"、IEEE Trans. on Sp.and Audio Proc.、Vol. 4, pp. 352-359、1996. B.Kingsbury、L. Mangu、G. Saon、H. Soltau、G. Zweig、"fMPE: Discriminatively Trained Features for SpeechRecognition "、Proc. ICASSP、Vol.1、pp.961-964、2005 小川 厚徳、高橋 敏、「ケプストラム正規化の実行単位に関する実験的検証」、電子情報通信学会論文誌D、 Vol. J90-D No.9、pp.2648-2651 T. Cincarek、T. Toda、H. Saruwatari、K. Shikano、"Utterance-based Selective Training for the AutomaticCreation of Task-Dependent Acoustic Models," EICETRANSACTIONS on Information and SystemsVol.E89-DNo.3pp.962-969 B. Raj、E. Gouvea、R. M. Stern、"Cepstral compensationusing statistical linearization" 、Proc. of the ETRW、1997. D. Y. Kim、C. K. Un、N. S. Kim、"Speech recognition in noisy environments using first-order vector Taylor series"、 Speech Communication、 Vol. 24、pp. 39-49、1998.
本発明は、上記従来技術における問題点に鑑みてなされたものであり、インターネット上の音声データのように豊富に存在する音響環境の異なる音声データを再利用してターゲットドメインの音声データをシミュレートする方法、装置、およびプログラムを提供することを目的とする。
本願発明は、上記従来技術の課題を解決するために以下の特徴を有する音声データを生成する方法を提供する。本願発明の音声データを生成する方法は、ターゲットドメインのクリーンな音声データを用いて学習された前記ターゲットドメインの混合ガウスモデル(Gaussian mixture model :GMM)を読み出すステップと、前記ターゲットドメインのGMMを参照して、入力として受け取ったソースドメインの音声データを、前記ターゲットドメインの音声データに、該ターゲットドメインの音声データのチャネル特性に基づきマッピングするステップと、マッピングした前記ソースドメインの音声データに、前記ターゲットドメインのノイズを加えて、擬似的なターゲットドメインの音声データを出力するステップとを含む。ここで、ターゲットドメインのGMMの学習に使用されるターゲットドメインのクリーンな音声データは少量であってよい。
好ましくは、前記マッピングするステップは、チャネルマッピング・パラメータによって前記ソースドメインの音声データを前記ターゲットドメインの音声データにマッピングする生成モデル式を決定するステップと、前記生成モデル式を参照して前記ターゲットドメインのGMMから変換したソースドメインのGMMに含まれるチャネルマッピング・パラメータを、Expectation Maximization(EM)アルゴリズムを用いて推定するステップとを含む。
好ましくは、前記チャネルマッピング・パラメータは、前記擬似的なターゲットドメインの音声データを求めるために前記ソースドメインの音声データから差し引くチャネルバイアスを含む。
より好ましくは、前記チャネルマッピング・パラメータは、前記擬似的なターゲットドメインの音声データを求めるために前記ソースドメインの音声データに乗算するチャネル振幅を更に含む。
好ましくは、前記EMアルゴリズムを用いて推定するステップは、変換した前記ソースドメインのGMMにソースドメインの観測値を入力して得られる音響尤度を求めるステップと、求めた音響尤度に基づいた目的関数を最小化する前記チャネルマッピング・パラメータを求めるステップとを交互に繰り返すステップを含む。
より好ましくは、前記音響尤度を求めるステップにおいて、現在の推定されている前記チャネルマッピング・パラメータに基づき算出した雑音成分を参照する。
更に好ましくは、前記生成モデル式を参照して前記ターゲットドメインのGMMから変換したソースドメインのGMMを求める際にVector Taylor Series(VTS)近似を用いる。
好ましくは、学習された前記ターゲットドメインの混合ガウスモデル(GMM)は話者の性別ごと用意されており、入力として受け取ったソースドメインの音声データの1発話ごとに男性らしさ及び女性らしさを求めながら、前記ターゲットドメインの音声データにマッピングする。
また好ましくは、前記マッピングするステップは、ソースドメインの各音声データについて、前記ターゲットドメインのGMMのガウス分布コンポーネントのうち、該音声データとの音響空間における距離が近いガウス分布コンポーネントの平均との差を求め、該差を、ガウス分布コンポーネントごとの尤度で重みづけした上で、時間方向の平均として求めて前記ソースドメインの音声データに足し合わせるステップを含む。
以上、ターゲットドメインの学習用の音声データを生成する方法として本発明を説明した。しかし本発明は、そのような学習用音声データ生成方法の各ステップをコンピュータに実行させる学習用音声データ生成プログラム、及び該学習用音声データ生成プログラムを1以上のコンピュータにインストールして実現される学習用音声データ生成システムとして把握することもできる。
本願発明によれば、クリーンな音声データを用いて学習されたターゲットドメインのGMMを参照して、入力として受け取ったソースドメインの音声データを、ターゲットドメインの音声データに、該ターゲットドメインの音声データのチャネル特性に基づいてマッピングして、ターゲットドメインの音声データをシミュレートする。このため、両方の音声について書き起こしデータがある必要も音声認識する必要もない。そして、インターネット上の音声データのように豊富に存在する音響環境の異なる音声データを再利用してターゲットドメインの音声データをシミュレートすることが可能となる。本発明のその他の効果については、各実施の形態の記載から理解される。
本願発明の実施形態による学習用音声データ生成システムを実現するのに好適な情報処理装置のハードウェア構成の一例を示す。 従来の学習用音声データをシミュレートするシステムの機能ブロック図である。 本発明の実施形態による学習用音声データ生成システムの機能ブロック図である。 正規化された自動車のノイズを示すグラフである。 正規化された自動車のノイズを示すグラフである。 本発明の実施形態による学習用音声データ生成処理の全体の流れの一例を示すフローチャートある。 本発明の実施形態によるマッピング処理の流れの一例を示すフローチャートある。 本発明を適用して生成した学習用音声データから構築された音響モデルを用いて行った音声認識の実験結果を示す図である。
以下、本願発明を実施するための形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。なお、実施の形態の説明の全体を通じて同じ要素には同じ番号を付している。
図1は、本発明を実施するためのコンピュータ100の例示的なハードウェア構成を示す。外部記憶装置114やROM106は、オペレーティング・システムと協働してCPU102に命令を与え、本発明を実施するための複数のコンピュータ・プログラムのコードや各種データを記録することができる。そして外部記憶装置114やROM106に格納された複数のコンピュータ・プログラムは各々RAM104にロードされることによってCPU102により実行される。なお、外部記憶装置114は、SCSIコントローラなどのコントローラ(図示しない)を経由してバス108へ接続されている。また、複数のコンピュータ・プログラムのコードには、本発明の実施形態に係る学習用音声データ生成プログラムが含まれる。また、各種データには、本発明においてソースドメインの音声データとするインターネット上の様々な音響環境の音声データや、ターゲットドメインの少量のクリーンな音声データを用いて学習されたターゲットドメインのGMMが含まれる。
コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記録することもできる。なお、CPU102が、外部記憶装置114から渡されるデジタル信号に対して、学習用音声データ生成プログラムにより行う処理の詳細は後述する。
コンピュータ100はまた、視覚データをユーザに提示するための表示装置116を含む。表示装置116は、グラフィックスコントローラ(図示しない)を経由してバス108へ接続されている。コンピュータ100は、通信インタフェース118を介してネットワークに接続し、他のコンピュータ等と通信を行うことが可能である。
以上の説明により、コンピュータ100は、通常のパーソナルコンピュータ、ワークステーション、メインフレームなどの情報処理装置、又は、これらの組み合わせによって実現されることが容易に理解されるであろう。なお、上記説明した構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。同様に本発明を実施するためのコンピュータ100は、キーボードやマウスのような入力デバイス、スピーカー等の他の構成要素を含むことも可能であることは言うまでもない。
図2Bは、本発明の実施形態による学習用音声データ生成システム220の機能ブロック図を示す。学習用音声データ生成システム220は、ソースドメインの音声データをターゲットドメインの音声データにマッピングしてターゲットドメインの音声データを擬似的に生成するべく、ソースドメイン・データ格納部222と、混合ガウスモデル格納部224と、チャネルマッピング部226と、ノイズデータ格納部228と、ノイズ付加部230と、ターゲットドメイン・データ格納部232とを備える。
ソースドメイン・データ格納部222は、インターネット上で公開されている、あるいはインターネットを使った音声検索サービスなどのサービスにより提供される、種々の音響環境下における豊富な音声データをソースドメインの音声データとして格納する。したがって、ソースドメインの音声データには若干のノイズが重畳されている可能性が高い。このようなインターネットを使った音声データの収集は、例えば、携帯端末に音声認識を行うアプリケーションプログラムを実装し、その使用者の発声がインターネットを通じて送信され、サーバーに蓄積されることで行われる。
混合ガウスモデル格納部224は、ターゲットドメインのクリーンな音声データを用いて学習されたターゲットドメインのGMMを格納する。即ち、ターゲットドメインのクリーンな音声データは、k混合のGMMとしてモデル化される。ターゲットドメインのGMM学習は、EMアルゴリズムを用いて行われる。なお、学習に用いられるターゲットドメインのクリーンな音声は少量であってよい(例えば、数名から数十名の男女話者によるトータル数時間の音声、精度に応じてより少ない時間の音声でもよい)。
チャネルマッピング部226は、ソースドメイン・データ格納部222から入力として読み出したソースドメインの音声データの1発話ごと、その補正量を混合ガウスモデル格納部224から読み出したターゲットドメインのGMMを参照して求め、ターゲットドメインの音声データにマッピングする。より具体的には、チャネルマッピング部226は、ソースドメインの各音声データ(1発話)について、ターゲットドメインのGMMのガウス分布コンポーネントのうち、該音声データとの音響空間における距離が近いガウス分布コンポーネントの平均との差を求め、該差を、ガウス分布コンポーネントごとの尤度で重みづけした上で、時間方向の平均として求める。続いてチャネルマッピング部226は、時間方向の平均として求めた量をチャネル補正量としてソースドメインの音声データに足し合わせる。チャネルマッピングの処理の更なる詳細は後述する。
ノイズデータ格納部228は、ターゲットドメインにおけるノイズであって、マイクロフォンに音声以外の音源から混入し、音声データの波形に加法的な変形を加えるノイズを格納する。なお、ターゲットドメインにおけるノイズは、混合ガウスモデル格納部224に格納されるターゲットドメインのGMMの学習時と同じ条件(同一の音響環境)で記録する必要がある。
ノイズ付加部230は、チャネルマッピング部226から出力されるチャネルマッピング後の音声データに、ノイズデータ格納部228からランダムに読み出したノイズを付加してターゲットドメインの音声データをシミュレートする。シミュレートされた擬似的なターゲットドメインの音声データはその後ターゲットドメイン・データ格納部232に格納される。なお、付加するノイズの割合は、最終的にターゲットドメインにおけるSN比の統計的分布に一致するよう1発話ごとに調整される。
このように、音声データをターゲットドメインの音声データにマッピングするにあたり、チャネル特性及びノイズ特性は主要な要素である。そして、上述した学習用音声データ生成システム220において、ノイズ付加の前にチャネル補償を行うことが重要である。これを例証するために、2種類の音声データに同一の自動車のノイズを加えた。図3A、図3Bは、それぞれ、1発話ごとにCMN処理してチャネル歪みによる影響を軽減した後のノイズの分布を示す。なお、縦軸はc2(2番目のケプストラム)を示し、横軸はc1(1番目のケプストラム)を示す(ただし、ケプストラムの最初の項は0番である)。
図3Aは、停止した車中で録音された音声の特徴量ベクトルの平均値を0に正規化した後のノイズの分布を示す。図3Bは、携帯型機器に録音された音声の特徴ベクトルの平均値を0に正規化した後のノイズの分布を示す。同一のノイズを付加したにもかかわらず、ランタイム時のチャネル正規化(CMN)処理により結果の信号は全く異なるものとなっている。この結果からも、デコーダにおいて類似した信号を取得するためには、最初にチャネル補償を行う必要があることが分かる。
次に、チャネルマッピング部226による処理の詳細を説明する。上述したように本発明ではターゲットドメインのチャネル特性の事前知識として、ターゲットドメインの少量のクリーン音声データを用いて学習されたターゲットドメインのGMMを用いる。そしてターゲットドメインのGMMに似せるためのチャネル補正量(以下、チャネルマッピング・パラメータという)を大量の入力音声における1発話ごとに求めて、データのマッピングを行う。
ターゲットドメインのGMMは多少の話者バリエーションを含んでおり、これによって入力に話者依存要素が含まれることが許容される。入力は一切のノイズが重畳されていないクリーン音声が好適とされるが、実際の音声データには若干のノイズが含まれる。そこで、本発明では、VTS近似とEMアルゴリズムを用いてチャネルマッピング・パラメータを推定する。以下、チャネルマッピング・パラメータとして、特徴量のシフト量(以下、チャネルバイアスという)のみを考慮する場合と、特徴量のシフト量に加えて、特徴量の大きさを変換する特徴量の係数(以下、チャネル振幅という)をも考慮する場合の2つについて順に説明する。
<チャネルバイアスのみの場合>
ここではマッピング・パラメータによってソースドメインの音声データをターゲットドメインの音声データにマッピングする生成モデル式において、チャネルバイアスのみを考慮する場合について説明する。時間領域におけるソースドメインの観測音声の特徴量ベクトルYは、チャネルの特徴量ベクトルH、クリーン音声の特徴量ベクトルX、ノイズの特徴量ベクトルNを用いて下記式(1)のように表すことができる(添え字sはソースドメインであることを示す)。なおNは、マイクロフォンに音声以外の音源から混入し波形に加法的な変形を与える雑音であり、Hは伝送系により加えられる乗法性の歪みである。
Figure 0006234060

同様に、時間領域におけるターゲットドメインの観測音声の特徴量ベクトルYは、チャネルの特徴量ベクトルH、クリーン音声の特徴量ベクトルXを用いて下記式(2)のように表すことができる(添え字tはターゲットドメインであることを示す)。
Figure 0006234060
上記式(1)をケプストラム領域に書き直すと下記式(3)、(4)になる。
Figure 0006234060

同様に上記式(2)をケプストラム領域に書き直すと下記式(5)になり、これを更に上記式(3)を用いて変形すると、最終的に下記式(8)、(9)が得られる。ここで式(9)より定義されるcが求めるべきチャネルバイアスである。ここで、行列Cは、Discrete Cosine Transform(DCT)行列を、C-1はその逆行列を表す。
Figure 0006234060
上記式(8)において、ターゲットドメインの観測音声の特徴量ベクトルy
Figure 0006234060
、及びソースドメインの観測音声の特徴量ベクトルyをyと書き換えると、最終的に下記式(10)で表される生成モデル式が得られる。
Figure 0006234060

上述したように、本発明では、チャネルバイアスcをVTS近似とEMアルゴリズムを用いて推定する。具体的には、上記式(10)で表される生成モデル式を参照し、混合ガウスモデル格納部224に事前に用意したターゲットドメインのGMMから変換したソースドメインのGMMに含まれるチャネルバイアスcを、EMアルゴリズムを用いて推定する。即ち、ターゲットドメインのGMMから変換したソースドメインのGMMにソースドメインの観測音声の特徴ベクトルyを入力して得られる音響尤度を求めるステップと、求めた音響尤度に基づいた目的関数を最小化するチャネルバイアスcを求めるステップとを交互に繰り返す。以下、数式を用いてこの繰り返しステップを説明する。
まず、ソースドメインのGMMにソースドメインの観測音声の特徴量ベクトルyを入力して得られる音響尤度p(y)の対数をとったものにマイナスを掛けたものを考え、下記式(11)を得る。ここでγ、μy,k、Σy,kは順に、ソースドメインのGMMのk番目の正規分布の事前確率、平均ベクトル、共分散行列を示す。式(11)から式(12)への変形は、イェンゼンの不等式を用いたものであり、更に変形を行って最終的に式(14)を得る。なお下記数式においてdは、ソースドメインの観測音声の特徴量ベクトルyのd番目の成分を示し、Dはその次元数を示す。
Figure 0006234060
チャネルバイアスcは音響尤度p(y)が最大になるように推定されるが、これは上記式(14)の右辺第2項が最小になるようにチャネルバイアスcを推定することに等しい。そこで、下記式(15)で表される目的関数Φを新たに導入する。
Figure 0006234060

ここで、事後確率ρは下記式(16)より定義される。
Figure 0006234060
チャネルバイアスcは、上記式(15)で表される目的関数Φを最小にするように推定される。そこで、事前に用意していたターゲットドメインのGMMと、上記式(10)の生成モデル式とから、共分散対角行列を仮定してVTS近似よりソースドメインのGMMを算出し、下記式(17)、(18)を得る。μ、Σn,dは、それぞれノイズの平均ベクトル、共分散行列を示し、δはクロネッカーのデルタを示す。
Figure 0006234060

Figure 0006234060

なお、式(18)に表される共分散対角行列は、さらなる近似を用いて簡略化してもかまわない。例えば、ターゲットドメインの共分散行列と同一にしても、精度の劣化は少量にとどまる。逆に、対角近似の条件を外して精密な共分散行列としても良い。上記式(17)に現れるベクトルG、及び、上記式(18)に現れるヤコビ行列Fは、それぞれ下記式(19)、(20)により定式化される雑音成分である。ここで、行列Cは、Discrete CosineTransform(DCT)行列を、C−1はその逆行列を表す。
Figure 0006234060

Figure 0006234060
上記式(19)及び式(20)によりそれぞれ表される雑音成分のベクトルGとヤコビ行列Fは、ケプストラム領域において実装することが好ましいが、対数スペクトル領域において表すと、下記式(21)、(22)のようにそれぞれ表される。
Figure 0006234060

Figure 0006234060
次に上記式(17)〜(20)を参照して、上記式(15)、(16)により表される目的関数Φをチャネルバイアスcに関して微分したものを0に設定することで、チャネルバイアスcの現在の推定値を得る。また、チャネルバイアスcの現在の推定値を用いて雑音成分のベクトルG及びヤコビ行列Fを更新し、目的関数Φを求める。そして、求まった目的関数Φを最小にするように再びチャネルバイアスcを推定する。この2ステップからなる処理をチャネルバイアスcが収束するまで繰り返すことで、チャネルバイアスcの最終的な推定値が得られる。
収束したチャネルバイアスcの推定値を生成モデル式の式(10)に代入し、更に式(10)の右辺第3項をMMSE推定により近似することで、最終的に下記式(23)が得られる。式(23)によりソースドメインの音声データからマップされたターゲットドメインのクリーン音声を得ることができる。
Figure 0006234060

なお、式(23)では、ソースドメインのノイズ除去とチャネル特性の補正を同時に行っている。ソースドメインのノイズを無視できる場合には、下記式(24)のように、ノイズ除去を省略しても良い。
Figure 0006234060
<チャネル振幅を考慮する場合>
ここではマッピング・パラメータによってソースドメインの音声データをターゲットドメインの音声データにマッピングする生成モデル式において、チャネルバイアスcに加えて、チャネル振幅aを新たに導入する場合について説明する。この場合、上記式(10)の生成モデル式は、下記式(25)のように拡張される。式中記号*は、ベクトル要素ごとの内積を表す。
Figure 0006234060

上述したように、本発明では、チャネルバイアスcとチャネル振幅aをVTS近似とEMアルゴリズムを用いて推定する。具体的には、上記式(25)で表される生成モデル式を参照し、混合ガウスモデル格納部224に事前に用意したターゲットドメインのGMMから変換したソースドメインのGMMに含まれるチャネルバイアスcとチャネル振幅aを、EMアルゴリズムを用いて推定する。即ち、ターゲットドメインのGMMから変換したソースドメインのGMMにソースドメインの観測音声の特徴ベクトルyを入力して得られる音響尤度を求めるステップと、求めた音響尤度に基づいた目的関数を最小化するチャネルバイアスcとチャネル振幅aを求めるステップとを交互に繰り返す。以下、数式を用いて説明する。
上記式(25)の生成モデル式を参照して、事前に用意していたターゲットドメインのGMMから、共分散対角行列を仮定してVTS近似より得られるソースドメインのGMMの平均ベクトルμy,kと共分散行列Σy,k,dは、それぞれ下記式(26)、(27)のようになる。μ、Σn,dは、それぞれノイズの平均ベクトル、共分散行列を示し、δはクロネッカーのデルタを示す。また式(26)、(27)中にそれぞれ現れるGとFは、上記式(19)及び式(20)によりそれぞれ表される雑音成分のベクトルGとヤコビ行列Fである。
Figure 0006234060

Figure 0006234060
なお、目的関数Φはチャネルバイアスcのみを考慮する場合と同じであり上記式(15)、(16)により表される。そこで上記式(19)〜(20)、(26)〜(27)を参照して、上記式(15)、(16)により表される目的関数Φをチャネルバイアスcに関して微分したものを0に設定することで、チャネルバイアスcの現在の推定値を得る。同様に上記式(19)〜(20)、(26)〜(27)を参照して、上記式(15)、(16)により表される目的関数Φをチャネル振幅aに関して微分したものを0に設定することで、チャネル振幅aの現在の推定値を得る。続いて、チャネルバイアスcとチャネル振幅aのそれぞれの現在の推定値を用いて雑音成分のベクトルG及びヤコビ行列Fを更新し、目的関数Φを求める。そして、求まった目的関数Φを最小にするように再びチャネルバイアスcとチャネル振幅aとを推定する。この2ステップからなる処理をチャネルバイアスcとチャネル振幅aとが収束するまで繰り返すことで、チャネルバイアスcとチャネル振幅aの最終的な推定値が得られる。なお、チャネルバイアスcとチャネル振幅aの初期値はそれぞれ順に値0と値1としてよい。また、チャネルバイアスcについては、通常その全ての成分を更新するが、チャネル振幅aについては低次の成分、例えば0番目と2番目の成分のみを更新してもよい。これはケプストラムの低次の成分がチャネル特性について支配的であるためである。
収束したチャネルバイアスc及びチャネル振幅aのそれぞれの推定値を生成モデル式の式(25)に代入し、更に式(25)の右辺第3項をMMSE推定により近似して、最終的に下記式(28)を得る。式(28)によりソースドメインの音声データからマップされたターゲットドメインのクリーン音声を得ることができる。
Figure 0006234060

式(28)では、ソースドメインのノイズ除去とチャネル特性の補正を同時に行っている。ソースドメインのノイズを無視できる場合には、下記式(29)のように、ノイズ除去を省略しても良い。
Figure 0006234060
<話者の性別ごと用意されたGMMを用いる場合>
上記説明した2つのケースでは、混合ガウスモデル格納部224に事前に用意したターゲットドメインのGMMは1つであり、性別の区別なく多少の話者バリエーションを含んでいた。ここでは、ターゲットドメインのGMMは、話者の性別ごとに用意するものとする。そして、入力として受け取るソースドメインの音声データの1発話ごとに男性らしさ及び女性らしさを求めながら、ターゲットドメインの音声データにマッピングするものとする。すると目的関数Φは下記式(30)のように表される。
Figure 0006234060

ここでgはgenderインデックスであり、女性(female)又は男性(male)のいずれかを示す。また、事後gender確率λは、ガウス分布の尤度を事後確率とみたてて合計を1になるように正規化したものである。また、ρは上記式(16)により定義される事後確率である。
ここで上記式(10)の生成モデル式と上記式(30)の目的関数Φが与えられたとする。すると、上記式(17)〜(20)を参照して、上記式(30)により表される目的関数Φをチャネルバイアスcに関して微分したものを0に設定することで、チャネルバイアスcの現在の推定値を得る。また、チャネルバイアスcの現在の推定値を用いて雑音成分のベクトルG及びヤコビ行列Fを更新し、目的関数Φを求める。そして、求まった目的関数Φを最小にするように再びチャネルバイアスcを推定する。この2ステップからなる処理をチャネルバイアスcが収束するまで繰り返すことで、チャネルバイアスcの最終的な推定値が得られる。
事後gender確率λもまた、チャネルバイアスcを繰り返し更新する間、ターゲットドメインの性別ごとのGMMの事後確率に基づいて、下記式(31)、(32)に示すように更新する。
Figure 0006234060

Figure 0006234060

オプションとして、下記式(33)に示す事後gender確率λを用いてもよい。
Figure 0006234060

但しβの値は定数である。なお、ここまで、ケプストラム領域を前提に定式化をしてきたが、よく行われるように対数メルスペクトル領域や対数スペクトル領域でも同様に定式化できることは当業者に明らかである(ケプストラム領域とは、対数メルスペクトル領域を離散コサイン変換したものである。)。
次に図4及び図5を参照して、本発明の実施形態による学習用音声データ生成処理の流れを説明する。図4は、学習用音声データ生成処理の全体の流れの一例を示すフローチャートある。図5は、図4に示すフローチャートのステップ404のマッピング処理の流れの一例を示すフローチャートある。
図4に示すフローチャートは、ステップ400で開始し、チャネルマッピング部226は、ソースドメイン・データ格納部222からソースドメインの音声データを入力として取得する。続いてチャネルマッピング部226は、混合ガウスモデル格納部224からターゲットドメインのGMMを読み出す(ステップ402)。続いてチャネルマッピング部226は、ターゲットドメインのGMMを参照して、ソースドメインの音声データを、ターゲットドメインの音声データに、ターゲットドメインの音声データのチャネル特性に基づいてマッピングする(ステップ404)。マッピング処理の詳細は図5を参照して後述する。
続いて、ノイズ付加部230は、ノイズデータ格納部228からランダムに読み出したノイズをマッピング後の音声データに付加してターゲットドメインの擬似音声データを生成し(ステップ406)、これをターゲットドメイン・データ格納部に232へ出力する(ステップ408)。そして処理は終了する。
図5に示すフローチャートは、ステップ500で開始し、チャネルマッピング部226はソースドメインの観測音声の特徴量ベクトルとターゲットドメインの観測音声の特徴量ベクトルとの関係を示す生成モデル式を決定する。上述したように利用可能な生成モデル式には、チャネルマッピング・パラメータとしてチャネルバイアスcのみを考慮する生成モデル式と、チャネルマッピング・パラメータとしてチャネルバイアスcとチャネル振幅とを考慮する生成モデル式の2つがある。
続いてチャネルマッピング部226は、ターゲットドメインのGMMから変換したソースドメインのGMMに含まれるチャネルマッピング・パラメータを、EMアルゴリズムを用いて推定する(ステップ502)。ここでソースドメインのGMMは、上述したように、
事前に用意したターゲットドメインのGMMとステップ500で決定した生成モデル式とから、VTS近似により算出される。
続いてチャネルマッピング部226は、ステップ502で求まったチャネルマッピング・パラメータを用いて、ステップ500で決定した生成モデル式に従いソースドメインの音声データをターゲットドメインの音声データにマッピングする(ステップ504)。そして処理は終了する。
以上、実施形態を用いて本発明の説明をしたが、本発明の技術範囲は上記実施形態に記載の範囲には限定されない。上記の実施形態に、種々の変更又は改良を加えることが可能であることが当業者に明らかである。従って、そのような変更又は改良を加えた形態も当然に本発明の技術的範囲に含まれる。
上述した実施形態の各機能は、C、C++、C#、Java(登録商標)などのオブジェクト指向プログラミング言語などで記述された装置実行可能なプログラムにより実現でき、本実施形態のプログラムは、ハードディスク装置、CD−ROM、MO、DVD、フレキシブルディスク、EEPROM、EPROMなどの装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。
以下、本発明について、実施例を用いてより具体的に説明を行なうが、本発明は、後述する実施例に限定されるものではない。
先に開示した本発明の方法をコンピュータに実行させるためのコンピュータ・プログラムを作成し、一般社団法人情報処理学会(IPSJ)が提供する自動車内音声認識の評価用フレームワークを使用して、各コンピュータ・プログラムの性能を評価した。
<実験条件>
本実験は、自動車内音声認識の評価用データベースCENSREC-3を用いて行った。評価条件は、学習データと評価データの双方に遠隔マイクロフォンを使用するミスマッチのない場合(A)と、学習データに接話マイクロフォンを使用し、評価データに遠隔マイクロフォンを使用するミスマッチのある場合(B〜E)とした。更に、ミスマッチのある場合(B〜E)は、本発明の適用の無い場合(B)と、本発明の適用のある場合(C〜E)とし、本発明の適用のある場合は以下の3つの条件について検討した。学習データに対しチャネルバイアスのみを考慮したチャネルマッピングを適用した場合(C)。学習データに対し、チャネルバイアスのみを考慮し、話者の性別を区別したチャネルマッピングを適用した場合(D)。学習データに対し、チャネルバイアスとチャネル振幅を考慮し、話者の性別を区別したチャネルマッピングを適用した場合(E)。
本発明を適用する場合、学習データとして、駐車した車内で記録された男性202人、女性91人の計293人のドライバーによる3608の発話を用いた。また、事前に用意するターゲットドメインのクリーン音声のGMMは、混合数は256とし、遠隔マイクロフォンで収録しランダムに選択した500の発話データで学習した。
一方、評価データとしては、駐車した車内で記録された男性8人、女性10人の計18人のドライバーによる898の発話を用いた。
また、実験に必要な様々な特徴量を出力するフロントエンドを用意し、学習データと評価データの双方に適用した。特徴量は、MFCC 12次元 + ΔMFCC 12次元 + ΔΔMFCC12次元 + 対数パワー の39次元で、発話単位のCMNを適用した場合と適用しない場合の両方の値を得た。音響モデルの作り方などバックエンドの構成は無変更とした(Category0)。
<実験結果>
図6は、上述したA〜Eの6つの条件下それぞれでのCMNオンとCMNオフでの単語正解精度(%)を示す。条件Aはミスマッチの無い場合の単語正解精度であるため、その値は上限を示す。条件Bはミスマッチのある場合であって、本発明によるチャネルマッピングがなされていないため、その値はベースラインとなる。条件C〜条件Eは、ミスマッチのある場合であって、本発明によるチャネルマッピングが適用されている場合である。いずれの場合も単語正解精度はベースラインよりも高くなっている。また、条件Dでの単語正解精度の値は条件Cのそれよりも改善されているため、本発明によるチャネルマッピング手法は、チャネル特性と話者特性の両方に有効であるといえる。また、条件C〜条件EのすべてにおいてCMNオンの場合の単語正解精度の値はベースラインのそれよりも高くなっているため、本発明によるチャネルマッピング手法はCMNと相性がよいといえる。

Claims (12)

  1. コンピュータの演算処理により、ソースドメインの音声データを利用してターゲットドメインの学習用の音声データを生成する方法であって、
    ターゲットドメインのクリーンな音声データを用いて学習された前記ターゲットドメインの混合ガウスモデル(Gaussian mixture model :GMM)を読み出すステップと、
    前記ターゲットドメインのGMMを参照して、入力として受け取ったソースドメインの音声データの補正量を求めることにより、前記ソースドメインの音声データを、前記ターゲットドメインの音声データに、該ターゲットドメインの音声データのチャネル特性に基づきマッピングするステップと、
    マッピングした前記ソースドメインの音声データに、前記ターゲットドメインのノイズを加えて、擬似的なターゲットドメインの音声データを出力するステップとを含み
    前記マッピングするステップは、前記ソースドメインの音声データを前記ターゲットドメインの音声データにチャネルマッピング・パラメータによってマッピングする生成モデル式を決定するステップと、前記生成モデル式を参照して前記ターゲットドメインのGMMから変換したソースドメインのGMMに含まれるチャネルマッピング・パラメータを、Expectation Maximization(EM)アルゴリズムを用いて推定するステップとを含む、
    学習データ生成方法。
  2. 前記チャネルマッピング・パラメータは、前記擬似的なターゲットドメインの音声データを求めるために前記ソースドメインの音声データから差し引くチャネルバイアスを含む、請求項に記載の学習データ生成方法。
  3. 前記チャネルマッピング・パラメータは、前記擬似的なターゲットドメインの音声データを求めるために前記ソースドメインの音声データに乗算するチャネル振幅を更に含む、請求項に記載の学習データ生成方法。
  4. 前記EMアルゴリズムを用いて推定するステップは、変換した前記ソースドメインのGMMにソースドメインの観測値を入力して得られる音響尤度を求めるステップと、求めた音響尤度に基づいた目的関数を最小化する前記チャネルマッピング・パラメータを求めるステップとを交互に繰り返すステップを含む、請求項に記載の学習データ生成方法。
  5. 前記音響尤度を求めるステップにおいて、現在の推定されている前記チャネルマッピング・パラメータに基づき算出した雑音成分を参照する、請求項に記載の学習データ生成方法。
  6. 前記生成モデル式を参照して前記ターゲットドメインのGMMから変換したソースドメインのGMMを求める際にVector Taylor Series(VTS)近似を用いる、請求項に記載の学習データ生成方法。
  7. 学習された前記ターゲットドメインの混合ガウスモデル(GMM)は話者の性別ごと用意されており、入力として受け取ったソースドメインの音声データの1発話ごとに男性らしさ及び女性らしさを求めながら、前記ターゲットドメインの音声データにマッピングする、請求項に記載の学習データ生成方法。
  8. 前記マッピングするステップは、ソースドメインの各音声データについて、前記ターゲットドメインのGMMのガウス分布コンポーネントのうち、該音声データとの音響空間における距離が近いガウス分布コンポーネントの平均との差を求め、該差を、ガウス分布コンポーネントごとの尤度で重みづけした上で、時間方向の平均として求めて前記ソースドメインの音声データに足し合わせるステップを含む、請求項1に記載の学習データ生成方法。
  9. コンピュータに、請求項1乃至のいずれか一項に記載の学習データ生成方法の各ステップを実行させるための学習データ生成プログラム。
  10. 請求項1乃至のいずれか一項に記載の学習データ生成方法の各ステップを実行するように適合された手段を備える、学習データ生成システム。
  11. ソースドメインの音声データを利用してターゲットドメインの学習用の音声データを生成するシステムであって、
    ターゲットドメインの少量のクリーンな音声データを用いて学習された前記ターゲットドメインの混合ガウスモデル(Gaussian mixture model :GMM)を格納する混合ガウスモデル格納部と、
    前記ターゲットドメインのGMMを参照して、入力として受け取ったソースドメインの音声データの補正量を求めることにより、前記ソースドメインの音声データを、前記ターゲットドメインの音声データに、該ターゲットドメインの音声データのチャネル特性に基づきマッピングするチャネルマッピング部と、
    マッピングした前記ソースドメインの音声データに、前記ターゲットドメインのノイズを加えて、擬似的なターゲットドメインの音声データを出力するノイズ付加部と、
    を含み、
    前記チャネルマッピング部は、前記ソースドメインの音声データを前記ターゲットドメインの音声データにチャネルマッピング・パラメータによってマッピングする生成モデル式を決定し、該生成モデル式を参照して前記ターゲットドメインのGMMから変換したソースドメインのGMMに含まれるチャネルマッピング・パラメータを、Expectation Maximization(EM)アルゴリズムを用いて推定する、
    学習データ生成システム。
  12. 前記チャネルマッピング・パラメータは、前記擬似的なターゲットドメインの音声データを求めるために前記ソースドメインの音声データから差し引くチャネルバイアスと、前記ソースドメインの音声データに乗算するチャネル振幅を含む、請求項11に記載の学習データ生成システム。
JP2013099645A 2013-05-09 2013-05-09 ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム Active JP6234060B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013099645A JP6234060B2 (ja) 2013-05-09 2013-05-09 ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
US14/251,772 US10217456B2 (en) 2013-05-09 2014-04-14 Method, apparatus, and program for generating training speech data for target domain

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013099645A JP6234060B2 (ja) 2013-05-09 2013-05-09 ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム

Publications (2)

Publication Number Publication Date
JP2014219605A JP2014219605A (ja) 2014-11-20
JP6234060B2 true JP6234060B2 (ja) 2017-11-22

Family

ID=51865433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013099645A Active JP6234060B2 (ja) 2013-05-09 2013-05-09 ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム

Country Status (2)

Country Link
US (1) US10217456B2 (ja)
JP (1) JP6234060B2 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6189818B2 (ja) * 2014-11-21 2017-08-30 日本電信電話株式会社 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム
US10540957B2 (en) * 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
US11062228B2 (en) 2015-07-06 2021-07-13 Microsoft Technoiogy Licensing, LLC Transfer learning techniques for disparate label sets
US11443169B2 (en) * 2016-02-19 2022-09-13 International Business Machines Corporation Adaptation of model for recognition processing
US9922664B2 (en) * 2016-03-28 2018-03-20 Nuance Communications, Inc. Characterizing, selecting and adapting audio and acoustic training data for automatic speech recognition systems
JP6199461B1 (ja) * 2016-09-13 2017-09-20 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
CN108305619B (zh) * 2017-03-10 2020-08-04 腾讯科技(深圳)有限公司 语音数据集训练方法和装置
US10885900B2 (en) 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
US10783882B2 (en) * 2018-01-03 2020-09-22 International Business Machines Corporation Acoustic change detection for robust automatic speech recognition based on a variance between distance dependent GMM models
JP6452061B1 (ja) * 2018-08-10 2019-01-16 クリスタルメソッド株式会社 学習データ生成方法、学習方法、及び評価装置
CN111210809B (zh) * 2018-11-22 2024-03-19 阿里巴巴集团控股有限公司 语音训练数据适配方法和装置、语音数据转换方法以及电子设备
JP7073286B2 (ja) * 2019-01-10 2022-05-23 株式会社日立製作所 データ生成装置、予測器学習装置、データ生成方法、及び学習方法
US11790263B2 (en) 2019-02-25 2023-10-17 International Business Machines Corporation Program synthesis using annotations based on enumeration patterns
CN110414845B (zh) * 2019-07-31 2023-09-19 创新先进技术有限公司 针对目标交易的风险评估方法及装置
US11335329B2 (en) * 2019-08-28 2022-05-17 Tata Consultancy Services Limited Method and system for generating synthetic multi-conditioned data sets for robust automatic speech recognition
CN111210811B (zh) * 2019-12-31 2022-10-04 深圳市瑞讯云技术有限公司 一种基音混合方法及装置
US11803758B2 (en) * 2020-04-17 2023-10-31 Microsoft Technology Licensing, Llc Adversarial pretraining of machine learning models
CN111785300B (zh) * 2020-06-12 2021-05-25 北京快鱼电子股份公司 一种基于深度神经网络的哭声检测方法和系统
KR102557810B1 (ko) * 2021-05-11 2023-07-24 고려대학교 산학협력단 학습 데이터 생성 방법 및 이를 이용한 음성 인식 후처리 방법
US12112767B2 (en) 2021-05-21 2024-10-08 International Business Machines Corporation Acoustic data augmentation with mixed normalization factors
JP7804603B2 (ja) * 2023-03-03 2026-01-22 株式会社日立製作所 合成学習データ生成装置、合成学習データ生成方法
CN117975208A (zh) * 2024-04-01 2024-05-03 泉州装备制造研究所 一种基于无监督领域适应算法的输电线检测方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573088A (ja) * 1991-09-13 1993-03-26 Toshiba Corp 認識辞書の作成方法、認識辞書作成装置及び音声認識装置
JP3587966B2 (ja) 1996-09-20 2004-11-10 日本電信電話株式会社 音声認識方法、装置そよびその記憶媒体
US6324510B1 (en) 1998-11-06 2001-11-27 Lernout & Hauspie Speech Products N.V. Method and apparatus of hierarchically organizing an acoustic model for speech recognition and adaptation of the model to unseen domains
EP1564721A1 (en) * 2002-11-21 2005-08-17 Matsushita Electric Industrial Co., Ltd. Standard model creating device and standard model creating method
JP2005196020A (ja) * 2004-01-09 2005-07-21 Nec Corp 音声処理装置と方法並びにプログラム
US20070239441A1 (en) * 2006-03-29 2007-10-11 Jiri Navratil System and method for addressing channel mismatch through class specific transforms
US7480641B2 (en) * 2006-04-07 2009-01-20 Nokia Corporation Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation
JP4996156B2 (ja) * 2006-07-19 2012-08-08 旭化成株式会社 音声信号変換装置
ES2678415T3 (es) * 2008-08-05 2018-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica
US9009039B2 (en) * 2009-06-12 2015-04-14 Microsoft Technology Licensing, Llc Noise adaptive training for speech recognition
US8433567B2 (en) * 2010-04-08 2013-04-30 International Business Machines Corporation Compensation of intra-speaker variability in speaker diarization
GB2482874B (en) * 2010-08-16 2013-06-12 Toshiba Res Europ Ltd A speech processing system and method

Also Published As

Publication number Publication date
JP2014219605A (ja) 2014-11-20
US20140337026A1 (en) 2014-11-13
US10217456B2 (en) 2019-02-26

Similar Documents

Publication Publication Date Title
JP6234060B2 (ja) ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
CN111161752A (zh) 回声消除方法和装置
JP4245617B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP6723120B2 (ja) 音響処理装置および音響処理方法
JP5242782B2 (ja) 音声認識方法
US20110040561A1 (en) Intersession variability compensation for automatic extraction of information from voice
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
JP4316583B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
Kim et al. Feature compensation in the cepstral domain employing model combination
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
JP2007286377A (ja) 応対評価装置、その方法、プログラムおよびその記録媒体
JP2019090930A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP5997114B2 (ja) 雑音抑圧装置、雑音抑圧方法、およびプログラム
JP5670298B2 (ja) 雑音抑圧装置、方法及びプログラム
JP5881454B2 (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
JP6721165B2 (ja) 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
JP2008158035A (ja) 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
Han et al. Reverberation and noise robust feature compensation based on IMM
JP6000094B2 (ja) 話者適応化装置、話者適応化方法、プログラム
JP5457999B2 (ja) 雑音抑圧装置とその方法とプログラム
JP2010049102A (ja) 残響除去装置、残響除去方法、コンピュータプログラムおよび記録媒体
JP2008064849A (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2019193073A (ja) 音源分離装置、その方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161206

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170303

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170516

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170830

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20170907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171024

R150 Certificate of patent or registration of utility model

Ref document number: 6234060

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150