JP2007206603A - 音響モデルの作成方法 - Google Patents
音響モデルの作成方法 Download PDFInfo
- Publication number
- JP2007206603A JP2007206603A JP2006028213A JP2006028213A JP2007206603A JP 2007206603 A JP2007206603 A JP 2007206603A JP 2006028213 A JP2006028213 A JP 2006028213A JP 2006028213 A JP2006028213 A JP 2006028213A JP 2007206603 A JP2007206603 A JP 2007206603A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- acoustic model
- voice
- signal
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】乗車などに起因する発話歪があっても音声を性能良く認識できる音響モデルを提供する。
【解決手段】音響的雑音が実質的にない環境において所定の音声を収録して無歪音声コーパス1を作成するステップと、ステップで作成した無歪音声コーパスの音声を、移動体の移動速度に対応した発話に変形する発話変換フィルタ手段2を用いて補正し、移動環境音声コーパス3を作成するステップと、ステップで作成された移動環境音声コーパス3を学習データとして学習して音響モデル4を作成するステップと、を有する。
【選択図】 図1
【解決手段】音響的雑音が実質的にない環境において所定の音声を収録して無歪音声コーパス1を作成するステップと、ステップで作成した無歪音声コーパスの音声を、移動体の移動速度に対応した発話に変形する発話変換フィルタ手段2を用いて補正し、移動環境音声コーパス3を作成するステップと、ステップで作成された移動環境音声コーパス3を学習データとして学習して音響モデル4を作成するステップと、を有する。
【選択図】 図1
Description
本発明は、自動車に代表される移動体内で用いられることがある音響モデルの作成方法、音声認識装置及び音声認識に関する。
自動車の運転者や同乗者(以下、単に乗員とも言う。)の発話内容を認識して、これを操作指示として利用する自動車用ナビゲーション装置が実用化されているが、特に自動車内で用いられる音声認識装置では、自動車に乗っているという環境の変化が乗員に影響を与え、これによる発話歪が音声認識システムの認識性能に影響することが知られている。
たとえば、自動車に乗った発話者が走行雑音を受聴することによって生じる発話歪(ロンバード効果と呼ばれる。)は、非常にロバストな現象であることが知られている。また、本発明者らの研究により、自動車に乗ることにより乗員、特に運転者が緊張し、この緊張によって発話歪が生じるといった現象も確認されている(図13参照)。このような発話歪が生じる現象は、多くの場合、無意識のうちに自然に発生する。
従来の音声認識装置には、図14及び図15に示すように、音声分析、特徴抽出、パターンマッチング等を行なうための情報を有する音響モデルと呼ばれる要素が存在する。
音響モデルは、音素または音韻のラベルと、このラベルに対応する音声信号を音響的特徴情報等に変換した信号とが記述されたもので、近年では隠れマルコフモデル(Hidden Markov Model)を用いた音声認識手法が多く採用されている。隠れマルコフモデルとは、確率モデルの一つであって、システムがパラメータ未知のマルコフ過程であると仮定し、観測可能な情報からその未知のパラメータを推定する手法である。この隠れマルコフモデルを用いた音響モデルでは、音声波形を離散的な信号とした音声信号と、この音声信号に付与した音素ラベルからなる音声コーパスとを学習データとして、隠れマルコフモデルのモデル学習を行なうことで、目的とする音響モデルが作成される。
ところで、こうした音響モデルは学習データである音声コーパスの内容に依存するため、音声コーパスの内容は音声認識を使用する実際の環境に適合していることが望ましい。
すなわち、音声認識装置に用いるための音響モデルを作成する際に、音声コーパス内の発話データの特徴と、実際の環境における話者の発話の特徴とが近ければ近いほど音声の認識性能が高くなる。したがって、車載用音声認識装置の音響モデルを作成するには、これら発話歪が発生した発話による音声コーパスを用いて作成することが望ましい。
しかしながら、発話歪を含んだ発話データを収録するためには、運転者に運転させながら発話させ、かつ周囲の雑音が含まれないように収録しなければならないことから、そのような音声コーパスを作成することは技術的に極めて困難である。また、技術の発展によりこうしたことの実現が可能となった場合でも、車両の走行環境毎に音声コーパスを作成することは、莫大な工数と費用がかかり、現実的ではなかった。
他方で、実際の使用環境において入力された、発話歪を含む音声を補正する手法も提案されているが(たとえば、非特許文献1)、走行中での発話歪現象の挙動が明らかでなかったことから、その処理過程はケプストラム等の一部領域の補正のみに留まっており、音声の認識性能は充分であるとはいえない。
「発話歪モデルを用いた騒音環境下音声認識」(日本音響学会講演論文集平成7年3月)鈴木忠、安部芳春、中島邦男(三菱電機・情シ研)
「発話歪モデルを用いた騒音環境下音声認識」(日本音響学会講演論文集平成7年3月)鈴木忠、安部芳春、中島邦男(三菱電機・情シ研)
本発明は、乗車などに起因する発話歪があっても音声を性能良く認識できる音響モデル、音声認識装置および音声認識方法を提供することを目的とする。
上記目的を達成するために、第1の観点による発明は、音響的雑音が実質的にない環境において所定の音声を収録して無歪音声コーパスを作成し、この無歪音声コーパスの音声を、移動体の移動速度に対応した発話に変形する発話変換フィルタ手段を用いて補正して移動環境音声コーパスを作成し、この移動環境音声コーパスを基に学習して音響モデルを作成することを特徴とする。
また、第2の観点による発明は、認識すべき音声信号を、検出された移動体の移動速度に応じて、音響モデルの学習時に用いられた音声コーパスと同じ音響的かつ統計的特性を有する音声信号に補正し、この補正された音声信号を、音響モデルを用いてラベル信号に変換することを特徴とする。
第1の観点による発明では、音響モデルの学習データとなる移動環境音声コーパスを作成する際に移動体の移動速度に対応した発話に変形補正することで、移動による発話歪を考慮することし、第2の観点による発明では、音響モデルを用いて復号する際に、音響モデルの学習データとなった音声コーパスと同じ音響的・統計的特性を有する音声信号となるように、認識対象の音声信号を補正することで移動による発話歪を考慮することとしている。これにより、乗車などに起因する発話歪があっても音声を性能良く認識することができる。
なお、特許請求の範囲、明細書及び図面にいう「音響的雑音が実質的にない環境」とは、走行環境もしくは走行状態に起因する騒音、または話者の緊張等の生理現象の変化が存在しない環境もしくは状態を意味する。
以下、本発明の実施形態を図面に基づいて説明するが、以下の説明では、移動体としての自動車に搭載されるナビゲーション装置、空気調和装置、オーディオ装置などの各種車載機器の操作指示として運転者や同乗者の発話を音声認識するための音声認識装置及び音声認識方法並びにこれに用いられる音響モデルの作成方法を例に挙げて説明する。
ただし、本発明の音響モデルの作成方法、音声認識装置及び音声認識方法は、自動車以外の移動体にも適用することができ、また車載機器のように常に移動体において使用される機器だけでなく、たとえば携帯電話のように、移動体において使用されることがある機器の操作指示に応用することも本発明の範囲内である。
《第1実施形態》
図1は本発明の音響モデルの作成方法の第1実施形態を示すブロック図である。
図1は本発明の音響モデルの作成方法の第1実施形態を示すブロック図である。
本実施形態の音響モデルの作成方法は、音響的雑音が実質的にない環境において所定の音声を収録して無歪音声コーパス1を作成する第1ステップと、この第1ステップで作成した無歪音声コーパス1の音声を、移動体の移動速度に対応した発話に変形する発話変換フィルタ手段2を用いて補正し、移動環境音声コーパス3を作成する第2ステップと、この第2ステップで作成された移動環境音声コーパス3を学習データとして学習して、目的とする音響モデル4を作成する第3ステップとを少なくとも含む。
音響モデル4とは、入力された音声信号の特徴を分析し、音素または音韻情報に変換する際に用いられる辞書であり、音声コーパス(テキストラベルのついた音声信号)に含まれる多くの音声信号の音響的特徴を表現するために、様々な長さの時系列を確率的に生成する信号モデルである。
一般に、音響モデル4では隠れマルコフモデルを用いた信号モデルが多用されており、この隠れマルコフモデルの学習は、たとえば、バーム・ウェルチ(Baum-Weltch)の学習アルゴリズムなどを用いることによって実現可能であることが知られている(たとえば、特開平9-152886号公報,「音声認識システム」オーム社参照)。こうした音響モデルは、学習対象となる音声コーパスに含まれる音声の集合の音響的特徴が、実環境において入力される音声の集合の音響的特徴に近いほど、音声認識システムの認識性能が向上すると考えられるため、音声認識システムの性能向上のためには実環境における発話に近い発話を収集し、音声コーパスとする必要がある。
すなわち、走行中の発話歪に対応可能な音響モデルを作成するためには、学習データとして用いる音声コーパスの中に、走行中の発話歪に係る音声が含まれている必要がある。
そこで、本実施形態では、予め防音室など、雑音や残響特性の影響が少ないクリーン環境で収録することで無歪音声コーパス1を作成しておき、この無歪音声コーパス1に含まれるクリーンな音声信号を、車速毎に用意した発話変換フィルタ手段2を用いて走行中の発話歪をともなう音声信号に変形したものを移動環境音声コーパス3とし、この変形後の移動環境音声コーパス3を学習データとして、上述したバウム・ウェルチの学習アルゴリズムを用いて音響モデル4の学習を行なう。
こうすることで、目的とする音響モデル4の学習データとなる移動環境音声コーパス3の内容に、走行中の音声信号も含まれた状態となり、こうして学習された音響モデル4によって音声認識を実行すると、走行環境における発話に対しても認識精度が低下しないロバストな性能を獲得することができる。
無歪音声コーパス1は、雑音や残響特性の影響が少なく、かつ走行環境下での発話者の緊張のない静止環境、たとえば上述した防音室において、莫大な音声発話をパーソナルコンピュータなどに録音する。そして、この録音した音声発話の信号(コンピュータの音ファイル)のどこからどこまでが何の音素かといったラベル情報を付与することで無歪音声コーパス1を得る。
無歪音声コーパス1を作成したら、自動車の走行速度毎に発話変換フィルタ手段2を用いて音声を変換し、移動環境音声コーパス3を作成する。
本実施形態に係る発話変換フィルタ手段2(パラメータ)としては以下の手段を挙げることができるが、これらの発話変換フィルタ手段2の内容は、本発明者らが行った次の実験結果を根拠とするものである。
まず、発話が可能な被験者男女6名の発話を、テストコースを走行する走行環境と実験室環境とにおいて収録した。走行環境では、アイドリング時、30km/h走行時、60km/h走行時、100km/h走行時の4段階の速度を維持したそれぞれの走行環境下において発話を収録した。被験者は、運転席または助手席に着座した状態で収録を行ない、収録には接話マイクを用い、被験者正面に設置した1ページに1単語を記述した用紙の内容について、複数の環境下において一発話毎に収録した。
一方、実験室環境では、アイドリング時、30km/h走行時、60km/h走行時、100km/h走行時に被験者両耳位置においてバイノーラル収録した騒音を、半無響室において被験者に受聴させながら、被験者正面に設置した1ページに1単語を記述した用紙の内容について、複数の環境下において一発話毎に収録した。なお、この騒音は収録時の音圧レベルに調整した。
これらそれぞれの環境下で収録した男女それぞれの話者6名の音声発話を収集し、パワー、基本周波数、スペクトル傾斜、ホルマント周波数および発話速度に関するパラメータについて、それぞれの変動を高品質音声分析変換合成法STRAIGHT(「聴覚の情景分析と高品質音声分析変換合成法STRAIGHT」河原英紀,日本音響学会講演論文集1-2-1, pp.189-192, Sep.1997)を用いて解析した。
(1) 音声のパワー(エネルギー)
本発明者らの実験によれば、90%以上の分析結果において、走行速度の増加にともない音声のパワーも増加することが明らかとなった。具体的には、0km/hと100km/hの車速変化に対し、平均で3.5dB、最大7dBの音声パワーを増加させることで実験室環境から走行環境への補正が可能となることが明らかになった。また、音響的にクリーンな環境(防音室等)において無歪音声コーパス1が作成されている場合は、平均で6.8dB, 最大で14dBの音声パワーを増加させることで、クリーンな環境において収録された無歪音声コーパス1に対し時速100km/hで走行する際の発話歪を含む移動環境音声コーパスを作成できることも確認された。
本発明者らの実験によれば、90%以上の分析結果において、走行速度の増加にともない音声のパワーも増加することが明らかとなった。具体的には、0km/hと100km/hの車速変化に対し、平均で3.5dB、最大7dBの音声パワーを増加させることで実験室環境から走行環境への補正が可能となることが明らかになった。また、音響的にクリーンな環境(防音室等)において無歪音声コーパス1が作成されている場合は、平均で6.8dB, 最大で14dBの音声パワーを増加させることで、クリーンな環境において収録された無歪音声コーパス1に対し時速100km/hで走行する際の発話歪を含む移動環境音声コーパスを作成できることも確認された。
したがって、本実施形態では、発話変換フィルタ手段2の一形態として、走行速度が増加するにしたがい、音声信号の単位フレーム切出し後のパワー平均(窓関数等を用いて予め決まった時間だけ観測された音声信号のパワーの平均)、または、この切り出し後の音声区間のパワー和を増加させる。全体としてはアイドリング時に比較して最大で7dB、クリーン環境において収録された音声に比較して最大で14dB程度音声パワーを増加させればよい。
なお、本パラメータは、正規化等の手法でパワー変動の影響を吸収する音声認識システムや、個々の音素および音韻におけるパワー変動を認識のパラメータとして用いていない音声認識システムに適用する場合には変更しなくても良い。
(2) 音声の基本周波数
音声周波数の調波成分の中で最も低い周波数のことを音声の基本周波数と称するが、人間の声帯振動の基本振動数と一致することが知られており、音の高さの物理的特徴といわれている。
音声周波数の調波成分の中で最も低い周波数のことを音声の基本周波数と称するが、人間の声帯振動の基本振動数と一致することが知られており、音の高さの物理的特徴といわれている。
本発明者らの実験によれば、70%以上の分析結果において、走行速度の増加にともない基本周波数が増加することが判明した。具体的には、0km/hと100km/hの車速変化に対し、最大で21Hz増加した。また、クリーン環境で収録された無歪音声コーパスと移動環境音声コーパスとの比較においては、最大で36Hz増加した。ただし、このパラメータは分散も大きく、また話者によっては変化しない場合も観測された。
したがって、本実施形態では、発話変換フィルタ手段2の一形態として、走行速度が増加するにしたがい、基本周波数を増加させる。さらに具体的には、最大で36Hzの変化量であることから、例えば、0km/h〜100km/hまでの車速変化において、25km/h毎に9Hzずつ増加させる。
原則として走行速度が増加するにしたがい基本周波数を増加させるように発話変換フィルタ手段2を構成するが、上述したとおりこのパラメータは分散も大きいので、発話変換フィルタ手段2により補正した音声コーパスと補正しない音声コーパスとを並存させても良く、更に音響モデルを作成する際に、補正した音声コーパス(移動環境音声コーパス3)からなる探索経路と、補正しない音声コーパス(無歪音声コーパス1)からなる探索経路とを並存させても良い。
また、母音の種別によっても変動が異なることが本発明者らの実験により確認されているため、検出される母音毎に設定しても良い。例えば、調査結果の母音毎の変動結果から、/a/(あ)は約25Hz増加させ、/i/(い)は変動に一貫性がないため0Hz、/u/(う)は約29Hz増加させ、/e/(え)は約36Hz増加させ、/o/(お)は約26Hz増加させるといったように設定しても良い。これについては後述する。
(3) 音声のスペクトル回帰直線
音声のスペクトル回帰直線とは、音声のスペクトル包絡の0Hz〜4kHzまでの周波数スペクトルを1次直線で近似した要素であり、その一例を図10の直線Xで示す。
音声のスペクトル回帰直線とは、音声のスペクトル包絡の0Hz〜4kHzまでの周波数スペクトルを1次直線で近似した要素であり、その一例を図10の直線Xで示す。
本発明者らの実験によれば、80%以上の分析結果において、走行速度の増加にともないスペクトル回帰直線の傾きが増加することが判明した。例えば、クリーン環境で収録された無歪音声信号に対し、100km/h走行時の移動環境で収録された音声信号のスペクトル傾斜は、最大で0.0081増加した。一方、走行時の移動環境における音声信号同士においては、例えば0km/h走行時と100km/h走行時の関係において、56%程度の分析結果においてのみスペクトル回帰直線の傾斜が最大で0.0067増加することが判明した。
したがって、本実施形態では、発話変換フィルタ手段2の一形態として、音響モデルの学習時に用いた音声コーパスがクリーン環境における無歪音声信号を用いたものである場合には、走行速度の増加にともないスペクトル回帰直線の傾斜を増加させるように補正する。
例えば、4kHzまで1kHzにつき0.5dB増加するよう高域を増加させ、走行速度がアイドリング(0km/h)→30km/h→60km/h→100km/hと増加する毎に0.5→1.0→1.5→2.0dBというように傾きの増加(波形全体としては約1.5dBずつ増加)を行なう等の処理を行なう。また、すべての音素に共通のパラメータ変形を行なっても良いし、上述した音声の基本周波数の場合と同様に、たとえば母音などの音素毎に個別の増加設定を行なっても良い。
(4) 音声のホルマント周波数
ホルマント周波数とは、図10に示すように、音声のスペクトル包絡上で特定の周波数領域にエネルギーが集中して生じる山の中央値または最大振幅の周波数をいう。ホルマント周波数は主に定常母音において観測され、低い周波数から順に第1ホルマント、第2ホルマントと称され、母音毎に各ホルマント周波数の組合せが異なる。ホルマントは、音声生成における人間の声道の共振によって生じる特性である。
ホルマント周波数とは、図10に示すように、音声のスペクトル包絡上で特定の周波数領域にエネルギーが集中して生じる山の中央値または最大振幅の周波数をいう。ホルマント周波数は主に定常母音において観測され、低い周波数から順に第1ホルマント、第2ホルマントと称され、母音毎に各ホルマント周波数の組合せが異なる。ホルマントは、音声生成における人間の声道の共振によって生じる特性である。
図11(出典:伊福部達「音声タイプライタの設計」CQ出版 1984)は、横軸に第1ホルマント周波数F1、縦軸に第2ホルマント周波数F2をとり、日本語の5母音(あ、い、う、え、お)の分布を表示したものであり、実線で結んだ○印が男性の音声、点線で結んだ●印が女性の音声を表示したものである。しかしながら、移動環境における音声発話では、図12に示すように変化し、たとえば同図に示すように/u/(う)の音声が場合によっては/e/(え)と認識されることもある。
このようにホルマント周波数のパラメータは、クリーン環境と走行環境とで相関を示し、また性別等によっても異なる結果が得られた。
(4-1) 第1ホルマント周波数
実験室環境における調査では、クリーン音声信号と100km/h走行時の走行音声信号の関係では、80%以上の分析結果において、第1ホルマント周波数の増加傾向が観測された。具体的には、クリーン音声信号と100km/h走行時の環境変化に対し、第1ホルマント周波数は最大で約300Hz、平均で約50Hz増加した。
実験室環境における調査では、クリーン音声信号と100km/h走行時の走行音声信号の関係では、80%以上の分析結果において、第1ホルマント周波数の増加傾向が観測された。具体的には、クリーン音声信号と100km/h走行時の環境変化に対し、第1ホルマント周波数は最大で約300Hz、平均で約50Hz増加した。
一方、走行音声信号同士においても、例えば0km/h走行時と100km/h走行時の関係において、75%以上の分析結果において第1ホルマント周波数の増加傾向が観測された。具体的には、0km/h走行時と100km/h走行時の環境変化に対し、第1ホルマントは最大で、約300Hz、平均で約10Hzの増加傾向が観測された。
これに対して、走行環境における調査では、被験者の性別によって傾向が変化した。すなわち、女性被験者において、クリーン音声信号と100km/h走行時の走行音声信号の関係では、70%以上の結果について、第1ホルマントが減少した。具体的には、クリーン音声信号と100km/h走行時の環境変化に対し、第1ホルマントは最大で約100Hz、平均で約20Hz減少した。
一方、走行音声信号同士においても、例えば0km/h走行時と100km/h走行時の関係において、75%以上の分析結果において第1ホルマント周波数の減少傾向が観測された。具体的には、0km/h走行時と100km/h走行時の環境変化に対し、第1ホルマントは最大で約170Hz、平均で約50Hzの減少傾向が観測された。
(4-2) 第2ホルマント周波数
実験室環境および走行環境の何れの調査においても、増加、減少に偏る傾向は見られなかった。ただし、男性被験者では、何れの環境においてもやや増加傾向が見られた。具体的には、走行環境のクリーン音声信号と100km/h走行時の環境変化に対し、第2ホルマントは最大で約150Hz、平均で約7Hz増加し、0km/h走行時と100km/h走行時の環境変化に対し、第2ホルマントは最大で約130Hz、平均で約50Hzの増加傾向が観測された。
実験室環境および走行環境の何れの調査においても、増加、減少に偏る傾向は見られなかった。ただし、男性被験者では、何れの環境においてもやや増加傾向が見られた。具体的には、走行環境のクリーン音声信号と100km/h走行時の環境変化に対し、第2ホルマントは最大で約150Hz、平均で約7Hz増加し、0km/h走行時と100km/h走行時の環境変化に対し、第2ホルマントは最大で約130Hz、平均で約50Hzの増加傾向が観測された。
また、第2ホルマント周波数については、音素毎にも傾向が異なり、例えば、走行環境のクリーン音声信号と100km/h走行時の環境変化に対し、/a/(あ)の音素は男女を問わず全体として減少傾向にあり、最大で約90Hz減少した。
(4-3) 第3ホルマント
実験室環境では増加減少にかたよる傾向は見られないが、走行環境におけるクリーン音声信号と100km/h走行時の走行音声信号の関係では、70%以上の結果について、第3ホルマントが増加した。また、男性被験者においては、全体として増加傾向にあった。
実験室環境では増加減少にかたよる傾向は見られないが、走行環境におけるクリーン音声信号と100km/h走行時の走行音声信号の関係では、70%以上の結果について、第3ホルマントが増加した。また、男性被験者においては、全体として増加傾向にあった。
具体的には、走行環境のクリーン音声信号と100km/h走行時の環境変化に対し、第3ホルマントは最大で約390Hz、平均で約100Hz増加し、0km/h走行時と100km/h走行時の環境変化に対し、第3ホルマントは最大で約540Hz、平均で約30Hzの増加傾向が観測された。
また、第3ホルマント周波数は音素毎にも傾向が異なり、例えば、走行環境のクリーン音声信号と100km/h走行時の環境変化に対し、/o/(お)の音素は男女を問わず全体として増加傾向にあり、最大で約20Hz増加したが、/e/(え)の音素は男女を問わず減少傾向にあり、最大で約70Hz減少した。
したがって、本実施形態では、発話変換フィルタ手段2の一形態として、母音毎、音声コーパスの環境毎、男女毎に、ホルマント周波数についてのパラメータ変形を行なうことが好ましい。母音ごとに異なるホルマント周波数のパラメータ変形を行なう一例を、調査結果に基づき下記表1に示す。
(表1)
/a/:速度が30km/h上がる毎に
第一ホルマント : 10Hz
第二ホルマント : 20Hz
第三ホルマント : 10Hz ずつ増加
/i/:速度が30km/h上がる毎に
第一ホルマント : 20Hz
第二ホルマント : 5Hz
第三ホルマント : 0Hz ずつ増加
/u/:速度が30km/h上がる毎に
第一ホルマント : 20Hz
第二ホルマント : 0Hz
第三ホルマント : 10Hz ずつ増加
/e /:速度が30km/h上がる毎に
第一ホルマント : 20Hz
第二ホルマント : 5Hz
第三ホルマント : 0Hz ずつ増加
/o/:速度が30km/h上がる毎に
第一ホルマント : 15Hz
第二ホルマント : 10Hz
第三ホルマント : 0Hz ずつ増加
ただし、これらパラメータの変更量は一例であって、無歪音声コーパスの収録環境や目的とする走行環境によって必要に応じて補正してもよい。
(表1)
/a/:速度が30km/h上がる毎に
第一ホルマント : 10Hz
第二ホルマント : 20Hz
第三ホルマント : 10Hz ずつ増加
/i/:速度が30km/h上がる毎に
第一ホルマント : 20Hz
第二ホルマント : 5Hz
第三ホルマント : 0Hz ずつ増加
/u/:速度が30km/h上がる毎に
第一ホルマント : 20Hz
第二ホルマント : 0Hz
第三ホルマント : 10Hz ずつ増加
/e /:速度が30km/h上がる毎に
第一ホルマント : 20Hz
第二ホルマント : 5Hz
第三ホルマント : 0Hz ずつ増加
/o/:速度が30km/h上がる毎に
第一ホルマント : 15Hz
第二ホルマント : 10Hz
第三ホルマント : 0Hz ずつ増加
ただし、これらパラメータの変更量は一例であって、無歪音声コーパスの収録環境や目的とする走行環境によって必要に応じて補正してもよい。
(5) 音声発話語彙の語頭(先頭モーラ)の延長
本発明者らの鋭意研究の結果、語頭、すなわち先頭モーラ(mora:アクセントで強勢や抑揚などの単位となる音の相対的長さ。)の持続長が走行環境に応じて長くなることが確認されている。したがって、本実施形態では発話変換フィルタ手段2の一形態として、非走行環境と比較して最大40%程度、語頭のモーラ長を引き伸ばす。
本発明者らの鋭意研究の結果、語頭、すなわち先頭モーラ(mora:アクセントで強勢や抑揚などの単位となる音の相対的長さ。)の持続長が走行環境に応じて長くなることが確認されている。したがって、本実施形態では発話変換フィルタ手段2の一形態として、非走行環境と比較して最大40%程度、語頭のモーラ長を引き伸ばす。
(6) 音声発話語彙の語尾(最終モーラ)の延長
本発明者らの鋭意研究の結果、走行速度にともなう騒音によって聴覚フィードバックが阻害されると、発話者は丁寧にはっきり発話しようとする傾向があることが確認されている。したがって、本実施形態では発話変換フィルタ手段2の一形態として、非走行環境と比較して最大80%程度、語尾のモーラ長を引き伸ばす。
本発明者らの鋭意研究の結果、走行速度にともなう騒音によって聴覚フィードバックが阻害されると、発話者は丁寧にはっきり発話しようとする傾向があることが確認されている。したがって、本実施形態では発話変換フィルタ手段2の一形態として、非走行環境と比較して最大80%程度、語尾のモーラ長を引き伸ばす。
以上のとおり、本実施形態に係る発話変換フィルタ手段2のパラメータとして、音声のパワー、音声の基本周波数、音声のスペクトル回帰直線の傾き、音声のホルマント周波数(第1〜第3ホルマント周波数)、発話語彙の語頭、発話語彙の語尾を例示したが、これらは単独でも、また二つ以上のパラメータを組み合わせても良い。これらのパラメータを変換する具体的手段は、一般的にモーフィング(morphing)の技術として提案されている手法(「聴覚の情景分析と高品質音声分析変換合成法STRAIGHT」河原英紀,日本音響学会講演論文集1-2-1, pp.189-192, Sep.1997)等を用いることで変形が可能である。ただし、特に該文献に記載された変換手法にのみ限定されず、発話のパラメータが変形できるアルゴリズムであれば適用することができる。
図1に戻り、上述した発話変換フィルタ手段2によって走行速度毎に無歪音声コーパス1を移動環境音声コーパス3に変換したら、これら走行速度毎に作成された移動環境音声コーパス3を学習データとしてそれぞれ学習することで、目的とする走行速度毎の音響モデル4を作成することができる。この場合の学習法は、既述したバーム・ウェルチの学習アルゴリズムなどを用いることができる。
本実施形態の音響モデル4は、走行速度に対応した発話歪が考慮されて作成されているので、実際の走行時に入力される発話に対して高い認識性能を発揮することができる。
次に、上述した音響モデル4を用いた音声認識方法及び音声認識装置について説明する。図2は本発明の音声認識装置の第1実施形態を示すブロック図、図3は本発明の音声認識装置の第1実施形態の制御手順を示すフローチャートである。
本実施形態に係る音声認識装置は、図2に示すように認識すべき音声を入力するためのマイクロホンなどから構成される音声入力装置5と、音声入力装置5に入力された音声信号から雑音を除去するためのノイズフィルタなどから構成される雑音除去部6と、雑音が除去された後の音声信号をテキスト信号に変換するためのデコーダ7と、このデコーダ7で変換する際に参照される辞書たる、音響モデル4及び言語モデル8とを有する。
デコーダ7は、音声入力装置5に入力された音声信号からその特徴を現すパラメータを抽出し、メモリなどに格納された音響モデル4および言語モデル8に記録されているテキスト情報に結び付けられたパラメータと比較し、最も適切なテキスト情報を出力する。この際に、たとえば隠れマルコフモデルに代表される統計的パラメータを用いた手法を用いることができる。
特に本実施形態では、上述したとおり走行速度毎(実施形態では0,30,60,100km/hの4種類)に対応した音響モデル4がメモリなどに格納されている。
また、本実施形態に係る音声認識装置では、車両の走行速度を検出する車速検出装置9と、この車速検出装置9で検出された車速に応じてメモリに格納された4種類の音響モデル4の中から対応する音響モデル4を選択する選択装置10が設けられている。選択装置10は、車速の範囲とその範囲での音響モデル4の対応関係が予め決められたマップを有し、車速検出装置9で検出された実際の車速に基づいて最も適した音響モデル4を選択する。たとえば、0〜15km/hであるときは0km/hの音響モデル4を選択し、15〜45km/hであるときは30km/hの音響モデル4を選択するといったようにマップ化されている。
次に、図3を参照して本実施形態の音声認識装置の動作を説明する。
まずステップS100にて初期化処理を行なう。このときすべての音声認識処理に関する初期化が行われる。また、音声認識装置については音声認識処理の入力信号待ち受け状態にしてもよいし、使用者が入力の意思を示したタイミング(たとえばPTTスイッチのON)で起動し入力信号待ち受け状態にしてもよい。
次いで、ステップS110にてCAN(Controller Area Network 車載LAN規格)等を用いて車速変化の検出を行なう。車速が変化していればステップS115へ進み、変化していなければステップS110の検出処理を繰り返す。車速の変化幅は車速ごとに用意されている音響モデル4の対応する車速に準拠する。例えば、30km/hと60km/hの音響モデルが用意されている場合は、45km/hを超えた段階で車速の変化が検出されるものとする。
次いで、ステップS115にて使用者によって音信号が入力された際の車速を検知し、図2に示す音響モデル4の中から対応する音響モデル4を選択する。
次いで、ステップS120にて音声入力が検知された場合はステップS130へ進み、音声入力が検知されない場合はステップS110へ戻って以上の処理を繰り返す。
ステップS130では、入力された音声信号の認識処理を行う。このとき、ステップS115で音響モデル4を選択したときは、この選択された音響モデル4を用いて音声認識処理を行う。
最後にステップS140にて、認識された音声認識処理結果、すなわちテキスト情報を目的とする他の操作機器に送出する。
本実施形態に係る音声認識装置では、車載対象となる要素が複数の音響モデル4を含む図2に示すものとなり、音響モデル4の容量が大きくなるものの、音声入力装置5に入力された音声をそのままデコーダ7で変換するだけでテキスト情報を外部へ出力できるので、音声認識性能は勿論のこと、認識速度を高速化することができる。
《第2実施形態》
図4は本発明に係る音響モデルの作成方法の第2実施形態を示すブロック図である。
図4は本発明に係る音響モデルの作成方法の第2実施形態を示すブロック図である。
上述した第1実施形態では、移動環境下の発話歪を考慮した音響モデル4を走行速度毎に複数作成し、これを車載音声認識装置に適用することで発話歪を含んだ音声の認識性能を高めるように構成したが、複数の音響モデル4の記憶に必要な容量が大きくなるというデメリットもある。
そこで、本実施形態では車載される音声認識装置の記憶容量が小さくなるようにする。すなわち、図4に示すように、音響的雑音が実質的にない環境において所定の音声を収録して無歪音声コーパス1を作成する第1ステップと、この第1ステップで作成した無歪音声コーパス1を学習データとして学習して無歪音響モデル11を作成する第2ステップと、無歪音声コーパス1の音声を、移動体の速度に対応した発話に変形する発話変換フィルタ手段2を用いて補正し、移動環境音声コーパス3を作成する第3ステップと、この第3ステップで作成された移動環境音声コーパス3を用いて無歪音響モデル11を適応化して音響モデル4を作成する第4ステップと、を少なくとも含む。
ここで、無歪音声コーパス1、発話変換フィルタ手段2及び音響モデル4の構成は上述した第1実施形態と同じであるため、その詳細な説明は省略するが、本実施形態に係る無歪音響モデル11は、大規模な無歪音声コーパス1を学習データとしてたとえばバーム・ウェルチの学習アルゴリズムなどを用いることにより得られる音響モデルであるが、この無歪音響モデル11は大容量であって車載される音声認識装置に格納されるものの、走行速度毎に複数存在するものではなく1つの音響モデルとして構成されている。
その代わりに、本実施形態に係る移動環境音声コーパス12の容量を小規模なコーパスで構成し、この小規模な移動環境音声コーパス12を走行速度に対応させて複数作成して車載される音声認識装置に格納する。
そして、この小規模な移動環境音声コーパス12を用いて、たとえばMLLR(Maximum Likelihood Linear Regression 不特定話者音声認識用の音響モデルを特定話者用に変換するアルゴリズム)などの環境適応アルゴリズムを用いて適応化することで目的とする音響モデル4を作成する。
本実施形態の音響モデル4は、走行速度に対応した発話歪が考慮されて作成されているので、実際の走行時に入力される発話に対して高い認識性能を発揮することができる。これに加えて、移動環境音声コーパス12を小規模なコーパスで構成できるので、車載される音声認識装置に適用して好ましいものとなる。
次に、上述した音響モデル4を用いた音声認識方法及び音声認識装置について説明する。図5は本発明の音声認識装置の第2実施形態を示すブロック図、図6は本発明の音声認識装置の第2実施形態の制御手順を示すフローチャートである。
本実施形態に係る音声認識装置は、図5に示すように認識すべき音声を入力するためのマイクロホンなどから構成される音声入力装置5と、音声入力装置5に入力された音声信号から雑音を除去するためのノイズフィルタなどから構成される雑音除去部6と、雑音が除去された後の音声信号をテキスト信号に変換するためのデコーダ7と、このデコーダ7で変換する際に参照される辞書たる、音響モデル4及び言語モデル8とを有する。
ここで、音声入力装置5、雑音除去部6、デコーダ7は上述した第1実施形態と同じであるためその詳細な説明は省略する。
特に本実施形態では、上述したとおり走行速度毎(実施形態では0,30,60,100km/hの4種類)に対応した移動環境音声コーパス12がメモリなどに格納されている。
また、本実施形態に係る音声認識装置では、車両の走行速度を検出する車速検出装置9と、この車速検出装置9で検出された車速に応じてメモリに格納された4種類の移動環境音声コーパス12の中から対応する移動環境音声コーパス12を選択する選択装置10が設けられている。選択装置10は、車速の範囲とその範囲での移動環境音声コーパス12の対応関係が予め決められたマップを有し、車速検出装置9で検出された実際の車速に基づいて最も適した移動環境音声コーパス12を選択する。たとえば、0〜15km/hであるときは0km/hの移動環境音声コーパス12を選択し、15〜45km/hであるときは30km/hの移動環境音声コーパス12を選択するといったようにマップ化されている。
次に、図6を参照して本実施形態の音声認識装置の動作を説明する。
まずステップS100にて初期化処理を行なう。このときすべての音声認識処理に関する初期化が行われる。また、音声認識装置については音声認識処理の入力信号待ち受け状態にしてもよいし、使用者が入力の意思を示したタイミング(たとえばPTTスイッチのON)で起動し入力信号待ち受け状態にしてもよい。
次いで、ステップS110にてCAN等を用いて車速変化の検出を行なう。車速が変化していればステップS116へ進み、変化していなければステップS110の検出処理を繰り返す。車速の変化幅は車速ごとに用意されている移動環境音声コーパス12の対応する車速に準拠する。例えば、30km/hと60km/hの移動環境音声コーパス12が用意されている場合は、45km/hを超えた段階で車速の変化が検出されるものとする。
次いで、ステップS116にて使用者によって音信号が入力された際の車速を検知し、図5に示す移動環境音声コーパス12の中から対応する移動環境音声コーパス12を選択するとともに、この選択された移動環境音声コーパス12を用いて適用化装置13により適応化処理を実行する。
次いで、ステップS120にて音声入力が検知された場合はステップS130へ進み、音声入力が検知されない場合はステップS110へ戻って以上の処理を繰り返す。
ステップS130では、入力された音声信号の認識処理を行う。このとき、ステップS116で適応化された音響モデル4を用いて音声認識処理を行う。
最後にステップS140にて、認識された音声認識処理結果、すなわちテキスト情報を目的とする他の操作機器に送出する。
本実施形態に係る音声認識装置では、車載対象となる移動環境音声コーパス12を小規模コーパスで構成できるので、適応化処理が付加されるものの、音声認識性能は勿論のこと、小さな記憶容量で音声認識装置を構築することができる。
《第3実施形態》
図7は本発明の音響モデルの作成方法の第3実施形態を示すブロック図である。移動環境下での発話歪を考慮した音響モデルを作成するにあたり、上述した第1実施形態では入力される音声信号を一つの種類(カテゴリー)と考えて発話変換フィルタ手段2を適用したが、話者の個人差や性別などのカテゴリーの相違によってパラメータの走行速度毎の変動態様が異なることもある。このため、本実施形態では、母音などの音素に応じて、または話者が男女の何れかかによって異なる発話変換フィルタ手段2を用意し、音素・話者選別装置14により発話変換フィルタ手段2を選別し、選別された発話変換フィルタ手段2に基づいて移動環境音声コーパス3を作成する。
図7は本発明の音響モデルの作成方法の第3実施形態を示すブロック図である。移動環境下での発話歪を考慮した音響モデルを作成するにあたり、上述した第1実施形態では入力される音声信号を一つの種類(カテゴリー)と考えて発話変換フィルタ手段2を適用したが、話者の個人差や性別などのカテゴリーの相違によってパラメータの走行速度毎の変動態様が異なることもある。このため、本実施形態では、母音などの音素に応じて、または話者が男女の何れかかによって異なる発話変換フィルタ手段2を用意し、音素・話者選別装置14により発話変換フィルタ手段2を選別し、選別された発話変換フィルタ手段2に基づいて移動環境音声コーパス3を作成する。
たとえば、/a/-/o/の母音の音素において、異なる発話変換フィルタ手段2を用いて変換する。より具体的には、/a/(あ)の音素が入力された場合は発話変換フィルタ手段2の変換を実施する。また、男女何れの音声が入力された場合にも、第1ホルマント周波数を減少させた音声信号と、第1ホルマント周波数を増加させた音声信号との何れのコーパスをも送出する。さらに、女性の音声が入力された場合は第1ホルマント周波数を減少させ、男性の音声が入力された場合は第1ホルマント周波数を増加させた音声信号を移動環境音声コーパス3に送出する。
本実施形態の音響モデル4は、走行速度に対応した発話歪が考慮されて作成されているので、実際の走行時に入力される発話に対して高い認識性能を発揮することができることに加えて、話者の特性に応じた変換を行なって音響モデル4を作成するので、音声認識性能がより高くなる。
《第4実施形態》
図8は本発明の音声認識装置の第4実施形態を示すブロック図、図9は本発明の音声認識装置の第4実施形態の制御手順を示すフローチャートである。
図8は本発明の音声認識装置の第4実施形態を示すブロック図、図9は本発明の音声認識装置の第4実施形態の制御手順を示すフローチャートである。
上述した第1〜第3実施形態では、音声認識装置に用いられる音響モデル4に移動環境下での発話歪を織り込んだが、本実施形態では入力された音声信号を、移動環境を考慮していない一般的な音響モデル及び言語モデルを用いて変換する前に、移動環境を考慮した前処理補正を実行する。
すなわち、本実施形態の音声認識装置は、図8に示すように認識すべき音声を入力するためのマイクロホンなどから構成される音声入力装置5と、音声入力装置5に入力された音声信号から雑音を除去するためのノイズフィルタなどから構成される雑音除去部6と、入力された音声信号を移動環境下での発話歪を差し引いた音声信号に補正する発話補正フィルタ手段15と、補正され、雑音が除去された後の音声信号をテキスト信号に変換するためのデコーダ7と、このデコーダ7で変換する際に参照される辞書たる、音響モデル4及び言語モデル8とを有する。
ここで、音声入力装置5、雑音除去部6及びデコーダ7並びに音響モデル4及び言語モデル8の構成は上述した第2実施形態と同じであるため、その詳細な説明は省略する。
本実施形態では、特に発話補正フィルタ手段15により入力された音声信号を前処理補正するが、この前処理補正は、入力された音声信号を、音響モデル4を学習した時に用いた音声コーパスと同じ音響的かつ統計的特性を有する音声信号に補正するものである。すなわち、音声入力装置5に入力された音声信号には実際の移動環境下での発話歪が含まれる一方で、音響モデル4の学習データとなった音声コーパスは無歪音声コーパスなど、移動環境下での発話歪が含まれていない音声コーパスである。
そこで、本実施形態では発話補正フィルタ手段15にて以下のような前処理補正を行なうが、本実施形態の発話補正フィルタ手段15は上述した第1実施形態にて詳述した発話変換フィルタ手段2の逆の特性を有するものである。
すなわち、発話補正フィルタ手段15のパラメータとして、音声のパワー、音声の基本周波数、音声のスペクトル回帰直線の傾き、音声のホルマント周波数(第1〜第3ホルマント周波数)、発話語彙の語頭、発話語彙の語尾を例示することができ、具体的な補正値は、第1実施形態の発話変換フィルタ手段2において「増加させる」としたパラメータは本例の発話補正フィルタ手段15では「減少させる」こととし、同じく第1実施形態の発話変換フィルタ手段2において「延長させる」としたパラメータは本例の発話補正フィルタ手段15では「縮小させる」こととする。そして、減少や縮小の絶対値は第1実施形態の発話変換フィルタ手段2のそれと同じ値である。
次に図9を参照して本実施形態の音声認識装置の動作を説明する。
まずステップS100にて初期化処理を行なう。このときすべての音声認識処理に関する初期化が行われる。また、音声認識装置については音声認識処理の入力信号待ち受け状態にしてもよいし、使用者が入力の意思を示したタイミング(たとえばPTTスイッチのON)で起動し入力信号待ち受け状態にしてもよい。
次いで、ステップS110にてCAN等を用いて車速変化の検出を行なう。車速が変化していればステップS117へ進み、変化していなければステップS110の検出処理を繰り返す。車速の変化幅は車速ごとに用意されている発話補正フィルタ手段15の対応する車速に準拠する。例えば、30km/hと60km/hの発話補正フィルタ手段15が用意されている場合は、45km/hを超えた段階で車速の変化が検出されるものとする。
次いで、ステップS117にて使用者によって音信号が入力された際の車速を検知し、発話補正フィルタ手段15の中から対応する発話補正フィルタ手段15を選択する。
次いで、ステップS120にて音声入力が検知された場合はステップS125へ進み、入力された音声信号をステップS117で選択された発話補正フィルタ手段15を用いて補正する。音声入力が検知されない場合はステップS110へ戻って以上の処理を繰り返す。
ステップS130では、入力された音声信号の認識処理を行う。最後にステップS140にて、認識された音声認識処理結果、すなわちテキスト情報を目的とする他の操作機器に送出する。
本実施形態に係る音声認識装置では、変換すべき音声信号を、発話歪を含まず、音響モデルの学習データとされた音声コーパスと同じ特性を有する音声信号に前処理補正するので、音声の認識性能を高めることができる。特に本実施形態は、携帯電話機の通話に適用することができる。
なお、以上説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。
1…無歪音声コーパス
2…発話変換フィルタ手段
3…移動環境音声コーパス
4…音響モデル
5…音声入力装置
7…デコーダ
8…言語モデル
9…車速検出装置
10…選択装置
2…発話変換フィルタ手段
3…移動環境音声コーパス
4…音響モデル
5…音声入力装置
7…デコーダ
8…言語モデル
9…車速検出装置
10…選択装置
Claims (26)
- 移動体内で利用されることがある音声認識装置に用いられ、音声信号をラベル信号に変換するための音響モデルの作成方法であって、
音響的雑音が実質的にない環境において所定の音声を収録して無歪音声コーパスを作成するステップと、
前記ステップで作成した無歪音声コーパスの音声を、前記移動体の移動速度に対応した発話に変形する発話変換フィルタ手段を用いて補正し、移動環境音声コーパスを作成するステップと、
前記ステップで作成された移動環境音声コーパスを学習データとして学習して音響モデルを作成するステップと、を有することを特徴とする音響モデルの作成方法。 - 移動体内で利用されることがある音声認識装置に用いられ、音声信号をラベル信号に変換するための音響モデルの作成方法であって、
音響的雑音が実質的にない環境において所定の音声を収録して無歪音声コーパスを作成するステップと、
前記ステップで作成した無歪音声コーパスを学習データとして学習して無歪音響モデルを作成するステップと、
前記無歪音声コーパスの音声を、前記移動体の速度に対応した発話に変形する発話変換フィルタ手段を用いて補正し、移動環境音声コーパスを作成するステップと、
前記ステップで作成された移動環境音声コーパスを用いて前記無歪音響モデルを適応化して音響モデルを作成するステップと、を有することを特徴とする音響モデルの作成方法。 - 前記移動環境音声コーパスのデータ容量が前記無歪音声コーパスのデータ容量より小さくなるように、前記無歪音声コーパスの音声の中から選択的に移動環境音声コーパスに補正することを特徴とする請求項2に記載の音響モデルの作成方法。
- 前記無歪音声コーパスの音声を所定のカテゴリーに応じて選別するステップを有し、
前記発話変換フィルタ手段は、前記ステップで選別されたカテゴリーに対応するとともに前記移動体の移動速度に対応した発話に補正することを特徴とする請求項1〜3の何れかに記載の音響モデルの作成方法。 - 前記発話変換フィルタ手段は、移動体の移動速度が増加するにしたがって音声の母音のパワーを増加させるように音声を補正することを特徴とする請求項1〜4の何れかに記載の音響モデルの作成方法。
- 前記発話変換フィルタ手段は、移動体の移動速度が増加するにしたがって音声の母音のピッチ周波数を増加させるように音声を補正することを特徴とする請求項1〜4の何れかに記載の音響モデルの作成方法。
- 前記発話変換フィルタ手段は、移動体の移動速度が増加するにしたがって音声の母音のスペクトル回帰直線の傾きを増加させるように音声帯域周波数のパワーを補正することを特徴とする請求項1〜4の何れかに記載の音響モデルの作成方法。
- 前記発話変換フィルタ手段は、移動体の移動速度が増加するにしたがって音声の第1〜第3ホルマントの少なくとも一つを増加させるように音声を補正することを特徴とする請求項1〜4の何れかに記載の音響モデルの作成方法。
- 前記発話変換フィルタ手段は、移動体の移動速度が増加するにしたがって発話された語彙の語頭の母音の継続時間を増加させるように音声を補正することを特徴とする請求項1〜4の何れかに記載の音響モデルの作成方法。
- 前記発話変換フィルタ手段は、移動体の移動速度が増加するにしたがって発話された語彙の語尾の母音の継続時間を増加させるように音声を補正することを特徴とする請求項1〜4の何れかに記載の音響モデルの作成方法。
- 移動体内で利用されることがある音声認識方法であって、
前記移動体の移動速度を検出するステップと、
認識すべき音声を入力するステップと、
前記ステップで入力された音声信号を、検出された移動体の移動速度に応じて、請求項1〜10の何れかに記載の方法により作成された音響モデルを用いてラベル信号に変換するステップとを有することを特徴とする音声認識方法。 - 移動体内で利用されることがある音声認識装置であって、
前記移動体の移動速度を検出する速度検出手段と、
認識すべき音声を入力する音声入力手段と、
請求項1〜10の何れかに記載の方法により作成された音響モデルを記憶する記憶手段と、
前記速度検出手段により検出された移動体の移動速度に応じて、前記記憶手段に記憶された音響モデルを用いて前記音声入力手段に入力された音声信号をラベル信号に変換する変換手段とを有することを特徴とする音声認識装置。 - 移動体内で利用されることがある音声認識装置であって、
前記移動体の移動速度を検出する速度検出手段と、
認識すべき音声を入力する音声入力手段と、
音声信号とラベル信号とが関連付けられた音響モデルが記憶された記憶手段と、
前記入力手段に入力された音声信号を、前記速度検出手段により検出された移動体の移動速度に応じて、前記記憶手段に記憶された音響モデルの学習時に用いられた音声コーパスと同じ音響的かつ統計的特性を有する音声信号に補正する発話補正フィルタ手段と、
前記発話補正フィルタ手段で補正された音声信号を前記記憶手段に記憶された音響モデルを用いてラベル信号に変換する変換手段とを有することを特徴とする音声認識装置。 - 前記発話補正フィルタ手段は、移動体の移動速度が増加するにしたがって音声の母音のパワーを減少させるように音声信号を補正することを特徴とする請求項13に記載の音声認識装置。
- 前記発話補正フィルタ手段は、移動体の移動速度が増加するにしたがって音声の母音のピッチ周波数を減少させるように音声信号を補正することを特徴とする請求項13に記載の音声認識装置。
- 前記発話補正フィルタ手段は、移動体の移動速度が増加するにしたがって音声の母音のスペクトル回帰直線の傾きを減少させるように音声帯域周波数のパワーを補正することを特徴とする請求項13に記載の音声認識装置。
- 前記発話補正フィルタ手段は、移動体の移動速度が増加するにしたがって音声の第1〜第3ホルマントの少なくとも一つを減少させるように音声信号を補正することを特徴とする請求項13に記載の音声認識装置。
- 前記発話補正フィルタ手段は、移動体の移動速度が増加するにしたがって発話された語彙の語頭の母音の継続時間を減少させるように音声信号を補正することを特徴とする請求項13に記載の音声認識装置。
- 前記発話補正フィルタ手段は、移動体の移動速度が増加するにしたがって発話された語彙の語尾の母音の継続時間を減少させるように音声信号を補正することを特徴とする請求項13に記載の音声認識装置。
- 移動体内で利用されることがある音声認識方法であって、
前記移動体の移動速度を検出するステップと、
認識すべき音声を入力するステップと、
音響モデルが記憶された記憶手段と、
前記ステップで入力された音声信号を、検出された移動体の移動速度に応じて、音声信号とラベル信号とが関連付けられた音響モデルの学習時に用いられた音声コーパスと同じ音響的かつ統計的特性を有する音声信号に補正するステップと、
前記ステップで補正された音声信号を、前記音響モデルを用いてラベル信号に変換するステップとを有することを特徴とする音声認識方法。 - 前記補正するステップにおいて、移動体の移動速度が増加するにしたがって音声の母音のパワーを減少させるように、入力された音声信号を補正することを特徴とする請求項20に記載の音声認識方法。
- 前記補正するステップにおいて、移動体の移動速度が増加するにしたがって音声の母音のピッチ周波数を減少させるように、入力された音声信号を補正することを特徴とする請求項20に記載の音声認識方法。
- 前記補正するステップにおいて、移動体の移動速度が増加するにしたがって音声の母音のスペクトル回帰直線の傾きを減少させるように、入力された音声信号の音声帯域周波数のパワーを補正することを特徴とする請求項20に記載の音声認識方法。
- 前記補正するステップにおいて、移動体の移動速度が増加するにしたがって音声の第1〜第3ホルマントの少なくとも一つを減少させるように、入力された音声信号を補正することを特徴とする請求項20に記載の音声認識方法。
- 前記補正するステップにおいて、移動体の移動速度が増加するにしたがって発話された語彙の語頭の母音の継続時間を減少させるように、入力された音声信号を補正することを特徴とする請求項20に記載の音声認識方法。
- 前記補正するステップにおいて、移動体の移動速度が増加するにしたがって発話された語彙の語尾の母音の継続時間を減少させるように、入力された音声信号を補正することを特徴とする請求項20に記載の音声認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006028213A JP2007206603A (ja) | 2006-02-06 | 2006-02-06 | 音響モデルの作成方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006028213A JP2007206603A (ja) | 2006-02-06 | 2006-02-06 | 音響モデルの作成方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2007206603A true JP2007206603A (ja) | 2007-08-16 |
Family
ID=38486099
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006028213A Pending JP2007206603A (ja) | 2006-02-06 | 2006-02-06 | 音響モデルの作成方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2007206603A (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010243914A (ja) * | 2009-04-08 | 2010-10-28 | Kyoto Univ | 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム |
| US10552457B2 (en) | 2012-03-28 | 2020-02-04 | Interactive Intelligence Group, Inc. | System and method for fingerprinting datasets |
| CN112634860A (zh) * | 2020-12-29 | 2021-04-09 | 苏州思必驰信息科技有限公司 | 儿童语音识别模型训练语料筛选方法 |
| CN112885352A (zh) * | 2021-01-26 | 2021-06-01 | 广东电网有限责任公司 | 一种语料库的构建方法、装置、计算机设备及存储介质 |
| US12223853B2 (en) | 2022-10-05 | 2025-02-11 | Harman International Industries, Incorporated | Method and system for obtaining acoustical measurements |
-
2006
- 2006-02-06 JP JP2006028213A patent/JP2007206603A/ja active Pending
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010243914A (ja) * | 2009-04-08 | 2010-10-28 | Kyoto Univ | 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム |
| US10552457B2 (en) | 2012-03-28 | 2020-02-04 | Interactive Intelligence Group, Inc. | System and method for fingerprinting datasets |
| CN112634860A (zh) * | 2020-12-29 | 2021-04-09 | 苏州思必驰信息科技有限公司 | 儿童语音识别模型训练语料筛选方法 |
| CN112634860B (zh) * | 2020-12-29 | 2022-05-03 | 思必驰科技股份有限公司 | 儿童语音识别模型训练语料筛选方法 |
| CN112885352A (zh) * | 2021-01-26 | 2021-06-01 | 广东电网有限责任公司 | 一种语料库的构建方法、装置、计算机设备及存储介质 |
| US12223853B2 (en) | 2022-10-05 | 2025-02-11 | Harman International Industries, Incorporated | Method and system for obtaining acoustical measurements |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5315414B2 (ja) | 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム | |
| US8812312B2 (en) | System, method and program for speech processing | |
| Scanzio et al. | On the use of a multilingual neural network front-end. | |
| JPH11126090A (ja) | 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体 | |
| JP2007500367A (ja) | 音声認識方法およびコミュニケーション機器 | |
| KR100815115B1 (ko) | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 | |
| Chuang et al. | Speaker-aware deep denoising autoencoder with embedded speaker identity for speech enhancement. | |
| JPH075892A (ja) | 音声認識方法 | |
| JP6087731B2 (ja) | 音声明瞭化装置、方法及びプログラム | |
| KR20060066483A (ko) | 음성 인식을 위한 특징 벡터 추출 방법 | |
| JP5301037B2 (ja) | 音声認識装置 | |
| JP2007206603A (ja) | 音響モデルの作成方法 | |
| Buera et al. | Unsupervised data-driven feature vector normalization with acoustic model adaptation for robust speech recognition | |
| Xie et al. | Deep neural network for robust speech recognition with auxiliary features from laser-Doppler vibrometer sensor | |
| Zhang et al. | Towards intoxicated speech recognition | |
| Mporas et al. | Context-adaptive pre-processing scheme for robust speech recognition in fast-varying noise environment | |
| Fukuda et al. | Improved voice activity detection using static harmonic features | |
| JPH11327593A (ja) | 音声認識システム | |
| Ichikawa et al. | Local peak enhancement combined with noise reduction algorithms for robust automatic speech recognition in automobiles | |
| Azmi et al. | Syllable-based automatic Arabic speech recognition in different conditions of noise | |
| JP2004184856A (ja) | 音声認識装置 | |
| JP2007017840A (ja) | 音声認証装置 | |
| Jung et al. | Development of an optimized feature extraction algorithm for throat signal analysis | |
| Galić et al. | Speaker dependent recognition of whispered speech based on MLLR adaptation | |
| Bonde et al. | Noise robust automatic speech recognition with adaptive quantile based noise estimation and speech band emphasizing filter bank |