JP2007206603A

JP2007206603A - 音響モデルの作成方法

Info

Publication number: JP2007206603A
Application number: JP2006028213A
Authority: JP
Inventors: Mitsunobu Kaminuma; 充伸神沼; Masato Akagi; 正人赤木
Original assignee: Japan Advanced Institute of Science and Technology; Nissan Motor Co Ltd
Current assignee: Japan Advanced Institute of Science and Technology; Nissan Motor Co Ltd
Priority date: 2006-02-06
Filing date: 2006-02-06
Publication date: 2007-08-16

Abstract

【課題】乗車などに起因する発話歪があっても音声を性能良く認識できる音響モデルを提供する。
【解決手段】音響的雑音が実質的にない環境において所定の音声を収録して無歪音声コーパス１を作成するステップと、ステップで作成した無歪音声コーパスの音声を、移動体の移動速度に対応した発話に変形する発話変換フィルタ手段２を用いて補正し、移動環境音声コーパス３を作成するステップと、ステップで作成された移動環境音声コーパス３を学習データとして学習して音響モデル４を作成するステップと、を有する。
【選択図】図１

Description

本発明は、自動車に代表される移動体内で用いられることがある音響モデルの作成方法、音声認識装置及び音声認識に関する。

自動車の運転者や同乗者（以下、単に乗員とも言う。）の発話内容を認識して、これを操作指示として利用する自動車用ナビゲーション装置が実用化されているが、特に自動車内で用いられる音声認識装置では、自動車に乗っているという環境の変化が乗員に影響を与え、これによる発話歪が音声認識システムの認識性能に影響することが知られている。

たとえば、自動車に乗った発話者が走行雑音を受聴することによって生じる発話歪（ロンバード効果と呼ばれる。）は、非常にロバストな現象であることが知られている。また、本発明者らの研究により、自動車に乗ることにより乗員、特に運転者が緊張し、この緊張によって発話歪が生じるといった現象も確認されている(図１３参照)。このような発話歪が生じる現象は、多くの場合、無意識のうちに自然に発生する。

従来の音声認識装置には、図１４及び図１５に示すように、音声分析、特徴抽出、パターンマッチング等を行なうための情報を有する音響モデルと呼ばれる要素が存在する。

音響モデルは、音素または音韻のラベルと、このラベルに対応する音声信号を音響的特徴情報等に変換した信号とが記述されたもので、近年では隠れマルコフモデル（Hidden Markov Model）を用いた音声認識手法が多く採用されている。隠れマルコフモデルとは、確率モデルの一つであって、システムがパラメータ未知のマルコフ過程であると仮定し、観測可能な情報からその未知のパラメータを推定する手法である。この隠れマルコフモデルを用いた音響モデルでは、音声波形を離散的な信号とした音声信号と、この音声信号に付与した音素ラベルからなる音声コーパスとを学習データとして、隠れマルコフモデルのモデル学習を行なうことで、目的とする音響モデルが作成される。

ところで、こうした音響モデルは学習データである音声コーパスの内容に依存するため、音声コーパスの内容は音声認識を使用する実際の環境に適合していることが望ましい。

すなわち、音声認識装置に用いるための音響モデルを作成する際に、音声コーパス内の発話データの特徴と、実際の環境における話者の発話の特徴とが近ければ近いほど音声の認識性能が高くなる。したがって、車載用音声認識装置の音響モデルを作成するには、これら発話歪が発生した発話による音声コーパスを用いて作成することが望ましい。

しかしながら、発話歪を含んだ発話データを収録するためには、運転者に運転させながら発話させ、かつ周囲の雑音が含まれないように収録しなければならないことから、そのような音声コーパスを作成することは技術的に極めて困難である。また、技術の発展によりこうしたことの実現が可能となった場合でも、車両の走行環境毎に音声コーパスを作成することは、莫大な工数と費用がかかり、現実的ではなかった。

他方で、実際の使用環境において入力された、発話歪を含む音声を補正する手法も提案されているが（たとえば、非特許文献１）、走行中での発話歪現象の挙動が明らかでなかったことから、その処理過程はケプストラム等の一部領域の補正のみに留まっており、音声の認識性能は充分であるとはいえない。
「発話歪モデルを用いた騒音環境下音声認識」（日本音響学会講演論文集平成７年３月）鈴木忠、安部芳春、中島邦男(三菱電機・情シ研）

本発明は、乗車などに起因する発話歪があっても音声を性能良く認識できる音響モデル、音声認識装置および音声認識方法を提供することを目的とする。

上記目的を達成するために、第１の観点による発明は、音響的雑音が実質的にない環境において所定の音声を収録して無歪音声コーパスを作成し、この無歪音声コーパスの音声を、移動体の移動速度に対応した発話に変形する発話変換フィルタ手段を用いて補正して移動環境音声コーパスを作成し、この移動環境音声コーパスを基に学習して音響モデルを作成することを特徴とする。

また、第２の観点による発明は、認識すべき音声信号を、検出された移動体の移動速度に応じて、音響モデルの学習時に用いられた音声コーパスと同じ音響的かつ統計的特性を有する音声信号に補正し、この補正された音声信号を、音響モデルを用いてラベル信号に変換することを特徴とする。

第１の観点による発明では、音響モデルの学習データとなる移動環境音声コーパスを作成する際に移動体の移動速度に対応した発話に変形補正することで、移動による発話歪を考慮することし、第２の観点による発明では、音響モデルを用いて復号する際に、音響モデルの学習データとなった音声コーパスと同じ音響的・統計的特性を有する音声信号となるように、認識対象の音声信号を補正することで移動による発話歪を考慮することとしている。これにより、乗車などに起因する発話歪があっても音声を性能良く認識することができる。

なお、特許請求の範囲、明細書及び図面にいう「音響的雑音が実質的にない環境」とは、走行環境もしくは走行状態に起因する騒音、または話者の緊張等の生理現象の変化が存在しない環境もしくは状態を意味する。

発明の実施の形態

以下、本発明の実施形態を図面に基づいて説明するが、以下の説明では、移動体としての自動車に搭載されるナビゲーション装置、空気調和装置、オーディオ装置などの各種車載機器の操作指示として運転者や同乗者の発話を音声認識するための音声認識装置及び音声認識方法並びにこれに用いられる音響モデルの作成方法を例に挙げて説明する。

ただし、本発明の音響モデルの作成方法、音声認識装置及び音声認識方法は、自動車以外の移動体にも適用することができ、また車載機器のように常に移動体において使用される機器だけでなく、たとえば携帯電話のように、移動体において使用されることがある機器の操作指示に応用することも本発明の範囲内である。

《第１実施形態》
図１は本発明の音響モデルの作成方法の第１実施形態を示すブロック図である。

本実施形態の音響モデルの作成方法は、音響的雑音が実質的にない環境において所定の音声を収録して無歪音声コーパス１を作成する第１ステップと、この第１ステップで作成した無歪音声コーパス１の音声を、移動体の移動速度に対応した発話に変形する発話変換フィルタ手段２を用いて補正し、移動環境音声コーパス３を作成する第２ステップと、この第２ステップで作成された移動環境音声コーパス３を学習データとして学習して、目的とする音響モデル４を作成する第３ステップとを少なくとも含む。

音響モデル４とは、入力された音声信号の特徴を分析し、音素または音韻情報に変換する際に用いられる辞書であり、音声コーパス（テキストラベルのついた音声信号）に含まれる多くの音声信号の音響的特徴を表現するために、様々な長さの時系列を確率的に生成する信号モデルである。

一般に、音響モデル４では隠れマルコフモデルを用いた信号モデルが多用されており、この隠れマルコフモデルの学習は、たとえば、バーム・ウェルチ(Baum-Weltch)の学習アルゴリズムなどを用いることによって実現可能であることが知られている（たとえば、特開平９-１５２８８６号公報，「音声認識システム」オーム社参照）。こうした音響モデルは、学習対象となる音声コーパスに含まれる音声の集合の音響的特徴が、実環境において入力される音声の集合の音響的特徴に近いほど、音声認識システムの認識性能が向上すると考えられるため、音声認識システムの性能向上のためには実環境における発話に近い発話を収集し、音声コーパスとする必要がある。

すなわち、走行中の発話歪に対応可能な音響モデルを作成するためには、学習データとして用いる音声コーパスの中に、走行中の発話歪に係る音声が含まれている必要がある。

そこで、本実施形態では、予め防音室など、雑音や残響特性の影響が少ないクリーン環境で収録することで無歪音声コーパス１を作成しておき、この無歪音声コーパス１に含まれるクリーンな音声信号を、車速毎に用意した発話変換フィルタ手段２を用いて走行中の発話歪をともなう音声信号に変形したものを移動環境音声コーパス３とし、この変形後の移動環境音声コーパス３を学習データとして、上述したバウム・ウェルチの学習アルゴリズムを用いて音響モデル４の学習を行なう。

こうすることで、目的とする音響モデル４の学習データとなる移動環境音声コーパス３の内容に、走行中の音声信号も含まれた状態となり、こうして学習された音響モデル４によって音声認識を実行すると、走行環境における発話に対しても認識精度が低下しないロバストな性能を獲得することができる。

無歪音声コーパス１は、雑音や残響特性の影響が少なく、かつ走行環境下での発話者の緊張のない静止環境、たとえば上述した防音室において、莫大な音声発話をパーソナルコンピュータなどに録音する。そして、この録音した音声発話の信号（コンピュータの音ファイル）のどこからどこまでが何の音素かといったラベル情報を付与することで無歪音声コーパス１を得る。

無歪音声コーパス１を作成したら、自動車の走行速度毎に発話変換フィルタ手段２を用いて音声を変換し、移動環境音声コーパス３を作成する。

本実施形態に係る発話変換フィルタ手段２(パラメータ)としては以下の手段を挙げることができるが、これらの発話変換フィルタ手段２の内容は、本発明者らが行った次の実験結果を根拠とするものである。

まず、発話が可能な被験者男女６名の発話を、テストコースを走行する走行環境と実験室環境とにおいて収録した。走行環境では、アイドリング時、３０ｋｍ／ｈ走行時、６０ｋｍ／ｈ走行時、１００ｋｍ／ｈ走行時の４段階の速度を維持したそれぞれの走行環境下において発話を収録した。被験者は、運転席または助手席に着座した状態で収録を行ない、収録には接話マイクを用い、被験者正面に設置した１ページに１単語を記述した用紙の内容について、複数の環境下において一発話毎に収録した。

一方、実験室環境では、アイドリング時、３０ｋｍ／ｈ走行時、６０ｋｍ／ｈ走行時、１００ｋｍ／ｈ走行時に被験者両耳位置においてバイノーラル収録した騒音を、半無響室において被験者に受聴させながら、被験者正面に設置した１ページに１単語を記述した用紙の内容について、複数の環境下において一発話毎に収録した。なお、この騒音は収録時の音圧レベルに調整した。

これらそれぞれの環境下で収録した男女それぞれの話者６名の音声発話を収集し、パワー、基本周波数、スペクトル傾斜、ホルマント周波数および発話速度に関するパラメータについて、それぞれの変動を高品質音声分析変換合成法STRAIGHT（「聴覚の情景分析と高品質音声分析変換合成法STRAIGHT」河原英紀,日本音響学会講演論文集1-2-1, pp.189-192, Sep.1997）を用いて解析した。

(1) 音声のパワー(エネルギー)
本発明者らの実験によれば、９０％以上の分析結果において、走行速度の増加にともない音声のパワーも増加することが明らかとなった。具体的には、０ｋｍ／ｈと１００ｋｍ／ｈの車速変化に対し、平均で３．５ｄＢ、最大７ｄＢの音声パワーを増加させることで実験室環境から走行環境への補正が可能となることが明らかになった。また、音響的にクリーンな環境（防音室等）において無歪音声コーパス１が作成されている場合は、平均で６．８ｄＢ, 最大で１４ｄＢの音声パワーを増加させることで、クリーンな環境において収録された無歪音声コーパス１に対し時速１００ｋｍ／ｈで走行する際の発話歪を含む移動環境音声コーパスを作成できることも確認された。

したがって、本実施形態では、発話変換フィルタ手段２の一形態として、走行速度が増加するにしたがい、音声信号の単位フレーム切出し後のパワー平均（窓関数等を用いて予め決まった時間だけ観測された音声信号のパワーの平均）、または、この切り出し後の音声区間のパワー和を増加させる。全体としてはアイドリング時に比較して最大で７ｄＢ、クリーン環境において収録された音声に比較して最大で１４ｄＢ程度音声パワーを増加させればよい。

なお、本パラメータは、正規化等の手法でパワー変動の影響を吸収する音声認識システムや、個々の音素および音韻におけるパワー変動を認識のパラメータとして用いていない音声認識システムに適用する場合には変更しなくても良い。

(2) 音声の基本周波数
音声周波数の調波成分の中で最も低い周波数のことを音声の基本周波数と称するが、人間の声帯振動の基本振動数と一致することが知られており、音の高さの物理的特徴といわれている。

本発明者らの実験によれば、７０％以上の分析結果において、走行速度の増加にともない基本周波数が増加することが判明した。具体的には、０ｋｍ／ｈと１００ｋｍ／ｈの車速変化に対し、最大で２１Ｈｚ増加した。また、クリーン環境で収録された無歪音声コーパスと移動環境音声コーパスとの比較においては、最大で３６Ｈｚ増加した。ただし、このパラメータは分散も大きく、また話者によっては変化しない場合も観測された。

したがって、本実施形態では、発話変換フィルタ手段２の一形態として、走行速度が増加するにしたがい、基本周波数を増加させる。さらに具体的には、最大で３６Ｈｚの変化量であることから、例えば、０ｋｍ／ｈ〜１００ｋｍ／ｈまでの車速変化において、２５ｋｍ／ｈ毎に９Ｈｚずつ増加させる。

原則として走行速度が増加するにしたがい基本周波数を増加させるように発話変換フィルタ手段２を構成するが、上述したとおりこのパラメータは分散も大きいので、発話変換フィルタ手段２により補正した音声コーパスと補正しない音声コーパスとを並存させても良く、更に音響モデルを作成する際に、補正した音声コーパス（移動環境音声コーパス３）からなる探索経路と、補正しない音声コーパス(無歪音声コーパス１)からなる探索経路とを並存させても良い。

また、母音の種別によっても変動が異なることが本発明者らの実験により確認されているため、検出される母音毎に設定しても良い。例えば、調査結果の母音毎の変動結果から、/a/（あ）は約２５Ｈｚ増加させ、/i/（い）は変動に一貫性がないため０Ｈｚ、/u/（う）は約２９Ｈｚ増加させ、/e/（え）は約３６Ｈｚ増加させ、/o/（お）は約２６Ｈｚ増加させるといったように設定しても良い。これについては後述する。

(3) 音声のスペクトル回帰直線
音声のスペクトル回帰直線とは、音声のスペクトル包絡の０Ｈｚ〜４ｋＨｚまでの周波数スペクトルを１次直線で近似した要素であり、その一例を図１０の直線Ｘで示す。

本発明者らの実験によれば、８０％以上の分析結果において、走行速度の増加にともないスペクトル回帰直線の傾きが増加することが判明した。例えば、クリーン環境で収録された無歪音声信号に対し、１００ｋｍ／ｈ走行時の移動環境で収録された音声信号のスペクトル傾斜は、最大で０．００８１増加した。一方、走行時の移動環境における音声信号同士においては、例えば０ｋｍ／ｈ走行時と１００ｋｍ／ｈ走行時の関係において、５６％程度の分析結果においてのみスペクトル回帰直線の傾斜が最大で０．００６７増加することが判明した。

したがって、本実施形態では、発話変換フィルタ手段２の一形態として、音響モデルの学習時に用いた音声コーパスがクリーン環境における無歪音声信号を用いたものである場合には、走行速度の増加にともないスペクトル回帰直線の傾斜を増加させるように補正する。

例えば、４ｋＨｚまで１ｋＨｚにつき０．５ｄＢ増加するよう高域を増加させ、走行速度がアイドリング（０ｋｍ／ｈ）→３０ｋｍ／ｈ→６０ｋｍ／ｈ→１００ｋｍ／ｈと増加する毎に０．５→１．０→１．５→２．０ｄＢというように傾きの増加（波形全体としては約１．５ｄＢずつ増加）を行なう等の処理を行なう。また、すべての音素に共通のパラメータ変形を行なっても良いし、上述した音声の基本周波数の場合と同様に、たとえば母音などの音素毎に個別の増加設定を行なっても良い。

(4) 音声のホルマント周波数
ホルマント周波数とは、図１０に示すように、音声のスペクトル包絡上で特定の周波数領域にエネルギーが集中して生じる山の中央値または最大振幅の周波数をいう。ホルマント周波数は主に定常母音において観測され、低い周波数から順に第１ホルマント、第２ホルマントと称され、母音毎に各ホルマント周波数の組合せが異なる。ホルマントは、音声生成における人間の声道の共振によって生じる特性である。

図１１（出典：伊福部達「音声タイプライタの設計」ＣＱ出版 1984）は、横軸に第１ホルマント周波数Ｆ１、縦軸に第２ホルマント周波数Ｆ２をとり、日本語の５母音（あ、い、う、え、お）の分布を表示したものであり、実線で結んだ○印が男性の音声、点線で結んだ●印が女性の音声を表示したものである。しかしながら、移動環境における音声発話では、図１２に示すように変化し、たとえば同図に示すように/u/（う）の音声が場合によっては/e/（え）と認識されることもある。

このようにホルマント周波数のパラメータは、クリーン環境と走行環境とで相関を示し、また性別等によっても異なる結果が得られた。

(4-1) 第１ホルマント周波数
実験室環境における調査では、クリーン音声信号と１００ｋｍ／ｈ走行時の走行音声信号の関係では、８０％以上の分析結果において、第１ホルマント周波数の増加傾向が観測された。具体的には、クリーン音声信号と１００ｋｍ／ｈ走行時の環境変化に対し、第１ホルマント周波数は最大で約３００Ｈｚ、平均で約５０Ｈｚ増加した。

一方、走行音声信号同士においても、例えば０ｋｍ／ｈ走行時と１００ｋｍ／ｈ走行時の関係において、７５％以上の分析結果において第１ホルマント周波数の増加傾向が観測された。具体的には、０ｋｍ／ｈ走行時と１００ｋｍ／ｈ走行時の環境変化に対し、第１ホルマントは最大で、約３００Ｈｚ、平均で約１０Ｈｚの増加傾向が観測された。

これに対して、走行環境における調査では、被験者の性別によって傾向が変化した。すなわち、女性被験者において、クリーン音声信号と１００ｋｍ／ｈ走行時の走行音声信号の関係では、７０％以上の結果について、第１ホルマントが減少した。具体的には、クリーン音声信号と１００ｋｍ／ｈ走行時の環境変化に対し、第１ホルマントは最大で約１００Ｈｚ、平均で約２０Ｈｚ減少した。

一方、走行音声信号同士においても、例えば０ｋｍ／ｈ走行時と１００ｋｍ／ｈ走行時の関係において、７５％以上の分析結果において第１ホルマント周波数の減少傾向が観測された。具体的には、０ｋｍ／ｈ走行時と１００ｋｍ／ｈ走行時の環境変化に対し、第１ホルマントは最大で約１７０Ｈｚ、平均で約５０Ｈｚの減少傾向が観測された。

(4-2) 第２ホルマント周波数
実験室環境および走行環境の何れの調査においても、増加、減少に偏る傾向は見られなかった。ただし、男性被験者では、何れの環境においてもやや増加傾向が見られた。具体的には、走行環境のクリーン音声信号と１００ｋｍ／ｈ走行時の環境変化に対し、第２ホルマントは最大で約１５０Ｈｚ、平均で約７Ｈｚ増加し、０ｋｍ／ｈ走行時と１００ｋｍ／ｈ走行時の環境変化に対し、第２ホルマントは最大で約１３０Ｈｚ、平均で約５０Ｈｚの増加傾向が観測された。

また、第２ホルマント周波数については、音素毎にも傾向が異なり、例えば、走行環境のクリーン音声信号と１００ｋｍ／ｈ走行時の環境変化に対し、/a/（あ）の音素は男女を問わず全体として減少傾向にあり、最大で約９０Ｈｚ減少した。

(4-3) 第３ホルマント
実験室環境では増加減少にかたよる傾向は見られないが、走行環境におけるクリーン音声信号と１００ｋｍ／ｈ走行時の走行音声信号の関係では、７０％以上の結果について、第３ホルマントが増加した。また、男性被験者においては、全体として増加傾向にあった。

具体的には、走行環境のクリーン音声信号と１００ｋｍ／ｈ走行時の環境変化に対し、第３ホルマントは最大で約３９０Ｈｚ、平均で約１００Ｈｚ増加し、０ｋｍ／ｈ走行時と１００ｋｍ／ｈ走行時の環境変化に対し、第３ホルマントは最大で約５４０Ｈｚ、平均で約３０Ｈｚの増加傾向が観測された。

また、第３ホルマント周波数は音素毎にも傾向が異なり、例えば、走行環境のクリーン音声信号と１００ｋｍ／ｈ走行時の環境変化に対し、/o/（お）の音素は男女を問わず全体として増加傾向にあり、最大で約２０Ｈｚ増加したが、/e/（え）の音素は男女を問わず減少傾向にあり、最大で約７０Ｈｚ減少した。

したがって、本実施形態では、発話変換フィルタ手段２の一形態として、母音毎、音声コーパスの環境毎、男女毎に、ホルマント周波数についてのパラメータ変形を行なうことが好ましい。母音ごとに異なるホルマント周波数のパラメータ変形を行なう一例を、調査結果に基づき下記表１に示す。
（表１）
/a/：速度が30km/h上がる毎に
第一ホルマント : 10Hz
第二ホルマント : 20Hz
第三ホルマント : 10Hz ずつ増加
/i/：速度が30km/h上がる毎に
第一ホルマント : 20Hz
第二ホルマント : 5Hz
第三ホルマント : 0Hz ずつ増加
/u/：速度が30km/h上がる毎に
第一ホルマント : 20Hz
第二ホルマント : 0Hz
第三ホルマント : 10Hz ずつ増加
/e /：速度が30km/h上がる毎に
第一ホルマント : 20Hz
第二ホルマント : 5Hz
第三ホルマント : 0Hz ずつ増加
/o/：速度が30km/h上がる毎に
第一ホルマント : 15Hz
第二ホルマント : 10Hz
第三ホルマント : 0Hz ずつ増加
ただし、これらパラメータの変更量は一例であって、無歪音声コーパスの収録環境や目的とする走行環境によって必要に応じて補正してもよい。

(5) 音声発話語彙の語頭（先頭モーラ）の延長
本発明者らの鋭意研究の結果、語頭、すなわち先頭モーラ（mora:アクセントで強勢や抑揚などの単位となる音の相対的長さ。）の持続長が走行環境に応じて長くなることが確認されている。したがって、本実施形態では発話変換フィルタ手段２の一形態として、非走行環境と比較して最大４０％程度、語頭のモーラ長を引き伸ばす。

(6) 音声発話語彙の語尾（最終モーラ）の延長
本発明者らの鋭意研究の結果、走行速度にともなう騒音によって聴覚フィードバックが阻害されると、発話者は丁寧にはっきり発話しようとする傾向があることが確認されている。したがって、本実施形態では発話変換フィルタ手段２の一形態として、非走行環境と比較して最大８０％程度、語尾のモーラ長を引き伸ばす。

以上のとおり、本実施形態に係る発話変換フィルタ手段２のパラメータとして、音声のパワー、音声の基本周波数、音声のスペクトル回帰直線の傾き、音声のホルマント周波数（第１〜第３ホルマント周波数）、発話語彙の語頭、発話語彙の語尾を例示したが、これらは単独でも、また二つ以上のパラメータを組み合わせても良い。これらのパラメータを変換する具体的手段は、一般的にモーフィング(morphing)の技術として提案されている手法（「聴覚の情景分析と高品質音声分析変換合成法STRAIGHT」河原英紀,日本音響学会講演論文集1-2-1, pp.189-192, Sep.1997）等を用いることで変形が可能である。ただし、特に該文献に記載された変換手法にのみ限定されず、発話のパラメータが変形できるアルゴリズムであれば適用することができる。

図１に戻り、上述した発話変換フィルタ手段２によって走行速度毎に無歪音声コーパス１を移動環境音声コーパス３に変換したら、これら走行速度毎に作成された移動環境音声コーパス３を学習データとしてそれぞれ学習することで、目的とする走行速度毎の音響モデル４を作成することができる。この場合の学習法は、既述したバーム・ウェルチの学習アルゴリズムなどを用いることができる。

本実施形態の音響モデル４は、走行速度に対応した発話歪が考慮されて作成されているので、実際の走行時に入力される発話に対して高い認識性能を発揮することができる。

次に、上述した音響モデル４を用いた音声認識方法及び音声認識装置について説明する。図２は本発明の音声認識装置の第１実施形態を示すブロック図、図３は本発明の音声認識装置の第１実施形態の制御手順を示すフローチャートである。

本実施形態に係る音声認識装置は、図２に示すように認識すべき音声を入力するためのマイクロホンなどから構成される音声入力装置５と、音声入力装置５に入力された音声信号から雑音を除去するためのノイズフィルタなどから構成される雑音除去部６と、雑音が除去された後の音声信号をテキスト信号に変換するためのデコーダ７と、このデコーダ７で変換する際に参照される辞書たる、音響モデル４及び言語モデル８とを有する。

デコーダ７は、音声入力装置５に入力された音声信号からその特徴を現すパラメータを抽出し、メモリなどに格納された音響モデル４および言語モデル８に記録されているテキスト情報に結び付けられたパラメータと比較し、最も適切なテキスト情報を出力する。この際に、たとえば隠れマルコフモデルに代表される統計的パラメータを用いた手法を用いることができる。

特に本実施形態では、上述したとおり走行速度毎（実施形態では０，３０，６０，１００ｋｍ／ｈの４種類）に対応した音響モデル４がメモリなどに格納されている。

また、本実施形態に係る音声認識装置では、車両の走行速度を検出する車速検出装置９と、この車速検出装置９で検出された車速に応じてメモリに格納された４種類の音響モデル４の中から対応する音響モデル４を選択する選択装置１０が設けられている。選択装置１０は、車速の範囲とその範囲での音響モデル４の対応関係が予め決められたマップを有し、車速検出装置９で検出された実際の車速に基づいて最も適した音響モデル４を選択する。たとえば、０〜１５ｋｍ／ｈであるときは０ｋｍ／ｈの音響モデル４を選択し、１５〜４５ｋｍ／ｈであるときは３０ｋｍ／ｈの音響モデル４を選択するといったようにマップ化されている。

次に、図３を参照して本実施形態の音声認識装置の動作を説明する。

まずステップＳ１００にて初期化処理を行なう。このときすべての音声認識処理に関する初期化が行われる。また、音声認識装置については音声認識処理の入力信号待ち受け状態にしてもよいし、使用者が入力の意思を示したタイミング（たとえばＰＴＴスイッチのＯＮ）で起動し入力信号待ち受け状態にしてもよい。

次いで、ステップＳ１１０にてＣＡＮ(Controller Area Network 車載ＬＡＮ規格)等を用いて車速変化の検出を行なう。車速が変化していればステップＳ１１５へ進み、変化していなければステップＳ１１０の検出処理を繰り返す。車速の変化幅は車速ごとに用意されている音響モデル４の対応する車速に準拠する。例えば、３０ｋｍ／ｈと６０ｋｍ／ｈの音響モデルが用意されている場合は、４５ｋｍ／ｈを超えた段階で車速の変化が検出されるものとする。

次いで、ステップＳ１１５にて使用者によって音信号が入力された際の車速を検知し、図２に示す音響モデル４の中から対応する音響モデル４を選択する。

次いで、ステップＳ１２０にて音声入力が検知された場合はステップＳ１３０へ進み、音声入力が検知されない場合はステップＳ１１０へ戻って以上の処理を繰り返す。

ステップＳ１３０では、入力された音声信号の認識処理を行う。このとき、ステップＳ１１５で音響モデル４を選択したときは、この選択された音響モデル４を用いて音声認識処理を行う。

最後にステップＳ１４０にて、認識された音声認識処理結果、すなわちテキスト情報を目的とする他の操作機器に送出する。

本実施形態に係る音声認識装置では、車載対象となる要素が複数の音響モデル４を含む図２に示すものとなり、音響モデル４の容量が大きくなるものの、音声入力装置５に入力された音声をそのままデコーダ７で変換するだけでテキスト情報を外部へ出力できるので、音声認識性能は勿論のこと、認識速度を高速化することができる。

《第２実施形態》
図４は本発明に係る音響モデルの作成方法の第２実施形態を示すブロック図である。

上述した第１実施形態では、移動環境下の発話歪を考慮した音響モデル４を走行速度毎に複数作成し、これを車載音声認識装置に適用することで発話歪を含んだ音声の認識性能を高めるように構成したが、複数の音響モデル４の記憶に必要な容量が大きくなるというデメリットもある。

そこで、本実施形態では車載される音声認識装置の記憶容量が小さくなるようにする。すなわち、図４に示すように、音響的雑音が実質的にない環境において所定の音声を収録して無歪音声コーパス１を作成する第１ステップと、この第１ステップで作成した無歪音声コーパス１を学習データとして学習して無歪音響モデル１１を作成する第２ステップと、無歪音声コーパス１の音声を、移動体の速度に対応した発話に変形する発話変換フィルタ手段２を用いて補正し、移動環境音声コーパス３を作成する第３ステップと、この第３ステップで作成された移動環境音声コーパス３を用いて無歪音響モデル１１を適応化して音響モデル４を作成する第４ステップと、を少なくとも含む。

ここで、無歪音声コーパス１、発話変換フィルタ手段２及び音響モデル４の構成は上述した第１実施形態と同じであるため、その詳細な説明は省略するが、本実施形態に係る無歪音響モデル１１は、大規模な無歪音声コーパス１を学習データとしてたとえばバーム・ウェルチの学習アルゴリズムなどを用いることにより得られる音響モデルであるが、この無歪音響モデル１１は大容量であって車載される音声認識装置に格納されるものの、走行速度毎に複数存在するものではなく１つの音響モデルとして構成されている。

その代わりに、本実施形態に係る移動環境音声コーパス１２の容量を小規模なコーパスで構成し、この小規模な移動環境音声コーパス１２を走行速度に対応させて複数作成して車載される音声認識装置に格納する。

そして、この小規模な移動環境音声コーパス１２を用いて、たとえばＭＬＬＲ(Maximum Likelihood Linear Regression 不特定話者音声認識用の音響モデルを特定話者用に変換するアルゴリズム)などの環境適応アルゴリズムを用いて適応化することで目的とする音響モデル４を作成する。

本実施形態の音響モデル４は、走行速度に対応した発話歪が考慮されて作成されているので、実際の走行時に入力される発話に対して高い認識性能を発揮することができる。これに加えて、移動環境音声コーパス１２を小規模なコーパスで構成できるので、車載される音声認識装置に適用して好ましいものとなる。

次に、上述した音響モデル４を用いた音声認識方法及び音声認識装置について説明する。図５は本発明の音声認識装置の第２実施形態を示すブロック図、図６は本発明の音声認識装置の第２実施形態の制御手順を示すフローチャートである。

本実施形態に係る音声認識装置は、図５に示すように認識すべき音声を入力するためのマイクロホンなどから構成される音声入力装置５と、音声入力装置５に入力された音声信号から雑音を除去するためのノイズフィルタなどから構成される雑音除去部６と、雑音が除去された後の音声信号をテキスト信号に変換するためのデコーダ７と、このデコーダ７で変換する際に参照される辞書たる、音響モデル４及び言語モデル８とを有する。

ここで、音声入力装置５、雑音除去部６、デコーダ７は上述した第１実施形態と同じであるためその詳細な説明は省略する。

特に本実施形態では、上述したとおり走行速度毎（実施形態では０，３０，６０，１００ｋｍ／ｈの４種類）に対応した移動環境音声コーパス１２がメモリなどに格納されている。

また、本実施形態に係る音声認識装置では、車両の走行速度を検出する車速検出装置９と、この車速検出装置９で検出された車速に応じてメモリに格納された４種類の移動環境音声コーパス１２の中から対応する移動環境音声コーパス１２を選択する選択装置１０が設けられている。選択装置１０は、車速の範囲とその範囲での移動環境音声コーパス１２の対応関係が予め決められたマップを有し、車速検出装置９で検出された実際の車速に基づいて最も適した移動環境音声コーパス１２を選択する。たとえば、０〜１５ｋｍ／ｈであるときは０ｋｍ／ｈの移動環境音声コーパス１２を選択し、１５〜４５ｋｍ／ｈであるときは３０ｋｍ／ｈの移動環境音声コーパス１２を選択するといったようにマップ化されている。

次に、図６を参照して本実施形態の音声認識装置の動作を説明する。

次いで、ステップＳ１１０にてＣＡＮ等を用いて車速変化の検出を行なう。車速が変化していればステップＳ１１６へ進み、変化していなければステップＳ１１０の検出処理を繰り返す。車速の変化幅は車速ごとに用意されている移動環境音声コーパス１２の対応する車速に準拠する。例えば、３０ｋｍ／ｈと６０ｋｍ／ｈの移動環境音声コーパス１２が用意されている場合は、４５ｋｍ／ｈを超えた段階で車速の変化が検出されるものとする。

次いで、ステップＳ１１６にて使用者によって音信号が入力された際の車速を検知し、図５に示す移動環境音声コーパス１２の中から対応する移動環境音声コーパス１２を選択するとともに、この選択された移動環境音声コーパス１２を用いて適用化装置１３により適応化処理を実行する。

ステップＳ１３０では、入力された音声信号の認識処理を行う。このとき、ステップＳ１１６で適応化された音響モデル４を用いて音声認識処理を行う。

本実施形態に係る音声認識装置では、車載対象となる移動環境音声コーパス１２を小規模コーパスで構成できるので、適応化処理が付加されるものの、音声認識性能は勿論のこと、小さな記憶容量で音声認識装置を構築することができる。

《第３実施形態》
図７は本発明の音響モデルの作成方法の第３実施形態を示すブロック図である。移動環境下での発話歪を考慮した音響モデルを作成するにあたり、上述した第１実施形態では入力される音声信号を一つの種類（カテゴリー）と考えて発話変換フィルタ手段２を適用したが、話者の個人差や性別などのカテゴリーの相違によってパラメータの走行速度毎の変動態様が異なることもある。このため、本実施形態では、母音などの音素に応じて、または話者が男女の何れかかによって異なる発話変換フィルタ手段２を用意し、音素・話者選別装置１４により発話変換フィルタ手段２を選別し、選別された発話変換フィルタ手段２に基づいて移動環境音声コーパス３を作成する。

たとえば、/a/-/o/の母音の音素において、異なる発話変換フィルタ手段２を用いて変換する。より具体的には、/a/（あ）の音素が入力された場合は発話変換フィルタ手段２の変換を実施する。また、男女何れの音声が入力された場合にも、第１ホルマント周波数を減少させた音声信号と、第１ホルマント周波数を増加させた音声信号との何れのコーパスをも送出する。さらに、女性の音声が入力された場合は第１ホルマント周波数を減少させ、男性の音声が入力された場合は第１ホルマント周波数を増加させた音声信号を移動環境音声コーパス３に送出する。

本実施形態の音響モデル４は、走行速度に対応した発話歪が考慮されて作成されているので、実際の走行時に入力される発話に対して高い認識性能を発揮することができることに加えて、話者の特性に応じた変換を行なって音響モデル４を作成するので、音声認識性能がより高くなる。

《第４実施形態》
図８は本発明の音声認識装置の第４実施形態を示すブロック図、図９は本発明の音声認識装置の第４実施形態の制御手順を示すフローチャートである。

上述した第１〜第３実施形態では、音声認識装置に用いられる音響モデル４に移動環境下での発話歪を織り込んだが、本実施形態では入力された音声信号を、移動環境を考慮していない一般的な音響モデル及び言語モデルを用いて変換する前に、移動環境を考慮した前処理補正を実行する。

すなわち、本実施形態の音声認識装置は、図８に示すように認識すべき音声を入力するためのマイクロホンなどから構成される音声入力装置５と、音声入力装置５に入力された音声信号から雑音を除去するためのノイズフィルタなどから構成される雑音除去部６と、入力された音声信号を移動環境下での発話歪を差し引いた音声信号に補正する発話補正フィルタ手段１５と、補正され、雑音が除去された後の音声信号をテキスト信号に変換するためのデコーダ７と、このデコーダ７で変換する際に参照される辞書たる、音響モデル４及び言語モデル８とを有する。

ここで、音声入力装置５、雑音除去部６及びデコーダ７並びに音響モデル４及び言語モデル８の構成は上述した第２実施形態と同じであるため、その詳細な説明は省略する。

本実施形態では、特に発話補正フィルタ手段１５により入力された音声信号を前処理補正するが、この前処理補正は、入力された音声信号を、音響モデル４を学習した時に用いた音声コーパスと同じ音響的かつ統計的特性を有する音声信号に補正するものである。すなわち、音声入力装置５に入力された音声信号には実際の移動環境下での発話歪が含まれる一方で、音響モデル４の学習データとなった音声コーパスは無歪音声コーパスなど、移動環境下での発話歪が含まれていない音声コーパスである。

そこで、本実施形態では発話補正フィルタ手段１５にて以下のような前処理補正を行なうが、本実施形態の発話補正フィルタ手段１５は上述した第１実施形態にて詳述した発話変換フィルタ手段２の逆の特性を有するものである。

すなわち、発話補正フィルタ手段１５のパラメータとして、音声のパワー、音声の基本周波数、音声のスペクトル回帰直線の傾き、音声のホルマント周波数（第１〜第３ホルマント周波数）、発話語彙の語頭、発話語彙の語尾を例示することができ、具体的な補正値は、第１実施形態の発話変換フィルタ手段２において「増加させる」としたパラメータは本例の発話補正フィルタ手段１５では「減少させる」こととし、同じく第１実施形態の発話変換フィルタ手段２において「延長させる」としたパラメータは本例の発話補正フィルタ手段１５では「縮小させる」こととする。そして、減少や縮小の絶対値は第１実施形態の発話変換フィルタ手段２のそれと同じ値である。

次に図９を参照して本実施形態の音声認識装置の動作を説明する。

次いで、ステップＳ１１０にてＣＡＮ等を用いて車速変化の検出を行なう。車速が変化していればステップＳ１１７へ進み、変化していなければステップＳ１１０の検出処理を繰り返す。車速の変化幅は車速ごとに用意されている発話補正フィルタ手段１５の対応する車速に準拠する。例えば、３０ｋｍ／ｈと６０ｋｍ／ｈの発話補正フィルタ手段１５が用意されている場合は、４５ｋｍ／ｈを超えた段階で車速の変化が検出されるものとする。

次いで、ステップＳ１１７にて使用者によって音信号が入力された際の車速を検知し、発話補正フィルタ手段１５の中から対応する発話補正フィルタ手段１５を選択する。

次いで、ステップＳ１２０にて音声入力が検知された場合はステップＳ１２５へ進み、入力された音声信号をステップＳ１１７で選択された発話補正フィルタ手段１５を用いて補正する。音声入力が検知されない場合はステップＳ１１０へ戻って以上の処理を繰り返す。

ステップＳ１３０では、入力された音声信号の認識処理を行う。最後にステップＳ１４０にて、認識された音声認識処理結果、すなわちテキスト情報を目的とする他の操作機器に送出する。

本実施形態に係る音声認識装置では、変換すべき音声信号を、発話歪を含まず、音響モデルの学習データとされた音声コーパスと同じ特性を有する音声信号に前処理補正するので、音声の認識性能を高めることができる。特に本実施形態は、携帯電話機の通話に適用することができる。

なお、以上説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。

本発明の音響モデルの作成方法の第１実施形態を示すブロック図である。本発明の音声認識装置の第１実施形態を示すブロック図である。本発明の音声認識装置の第１実施形態の制御手順を示すフローチャートである。本発明の音響モデルの作成方法の第２実施形態を示すブロック図である。本発明の音声認識装置の第２実施形態を示すブロック図である。本発明の音声認識装置の第２実施形態の制御手順を示すフローチャートである。本発明の音響モデルの作成方法の第３実施形態を示すブロック図である。本発明の音声認識装置の第４実施形態を示すブロック図である。本発明の音声認識装置の第４実施形態の制御手順を示すフローチャートである。ホルマント周波数を説明するための音声のスペクトル包絡を示すグラフである。日本語の母音とホルマント周波数との関係を示すグラフである。走行環境における発話歪と音声認識性能との関係を示す図である。走行環境下の緊張等に起因する発話歪の影響を説明するためのグラフである。従来の音声認識装置の一例を示すブロック図である。従来の音響モデルの作成方法の一例を示すブロック図である。

符号の説明

１…無歪音声コーパス
２…発話変換フィルタ手段
３…移動環境音声コーパス
４…音響モデル
５…音声入力装置
７…デコーダ
８…言語モデル
９…車速検出装置
１０…選択装置

Claims

移動体内で利用されることがある音声認識装置に用いられ、音声信号をラベル信号に変換するための音響モデルの作成方法であって、
音響的雑音が実質的にない環境において所定の音声を収録して無歪音声コーパスを作成するステップと、
前記ステップで作成した無歪音声コーパスの音声を、前記移動体の移動速度に対応した発話に変形する発話変換フィルタ手段を用いて補正し、移動環境音声コーパスを作成するステップと、
前記ステップで作成された移動環境音声コーパスを学習データとして学習して音響モデルを作成するステップと、を有することを特徴とする音響モデルの作成方法。
移動体内で利用されることがある音声認識装置に用いられ、音声信号をラベル信号に変換するための音響モデルの作成方法であって、
音響的雑音が実質的にない環境において所定の音声を収録して無歪音声コーパスを作成するステップと、
前記ステップで作成した無歪音声コーパスを学習データとして学習して無歪音響モデルを作成するステップと、
前記無歪音声コーパスの音声を、前記移動体の速度に対応した発話に変形する発話変換フィルタ手段を用いて補正し、移動環境音声コーパスを作成するステップと、
前記ステップで作成された移動環境音声コーパスを用いて前記無歪音響モデルを適応化して音響モデルを作成するステップと、を有することを特徴とする音響モデルの作成方法。
前記移動環境音声コーパスのデータ容量が前記無歪音声コーパスのデータ容量より小さくなるように、前記無歪音声コーパスの音声の中から選択的に移動環境音声コーパスに補正することを特徴とする請求項２に記載の音響モデルの作成方法。
前記無歪音声コーパスの音声を所定のカテゴリーに応じて選別するステップを有し、
前記発話変換フィルタ手段は、前記ステップで選別されたカテゴリーに対応するとともに前記移動体の移動速度に対応した発話に補正することを特徴とする請求項１〜３の何れかに記載の音響モデルの作成方法。
前記発話変換フィルタ手段は、移動体の移動速度が増加するにしたがって音声の母音のパワーを増加させるように音声を補正することを特徴とする請求項１〜４の何れかに記載の音響モデルの作成方法。
前記発話変換フィルタ手段は、移動体の移動速度が増加するにしたがって音声の母音のピッチ周波数を増加させるように音声を補正することを特徴とする請求項１〜４の何れかに記載の音響モデルの作成方法。
前記発話変換フィルタ手段は、移動体の移動速度が増加するにしたがって音声の母音のスペクトル回帰直線の傾きを増加させるように音声帯域周波数のパワーを補正することを特徴とする請求項１〜４の何れかに記載の音響モデルの作成方法。
前記発話変換フィルタ手段は、移動体の移動速度が増加するにしたがって音声の第１〜第３ホルマントの少なくとも一つを増加させるように音声を補正することを特徴とする請求項１〜４の何れかに記載の音響モデルの作成方法。
前記発話変換フィルタ手段は、移動体の移動速度が増加するにしたがって発話された語彙の語頭の母音の継続時間を増加させるように音声を補正することを特徴とする請求項１〜４の何れかに記載の音響モデルの作成方法。
前記発話変換フィルタ手段は、移動体の移動速度が増加するにしたがって発話された語彙の語尾の母音の継続時間を増加させるように音声を補正することを特徴とする請求項１〜４の何れかに記載の音響モデルの作成方法。
移動体内で利用されることがある音声認識方法であって、
前記移動体の移動速度を検出するステップと、
認識すべき音声を入力するステップと、
前記ステップで入力された音声信号を、検出された移動体の移動速度に応じて、請求項１〜１０の何れかに記載の方法により作成された音響モデルを用いてラベル信号に変換するステップとを有することを特徴とする音声認識方法。
移動体内で利用されることがある音声認識装置であって、
前記移動体の移動速度を検出する速度検出手段と、
認識すべき音声を入力する音声入力手段と、
請求項１〜１０の何れかに記載の方法により作成された音響モデルを記憶する記憶手段と、
前記速度検出手段により検出された移動体の移動速度に応じて、前記記憶手段に記憶された音響モデルを用いて前記音声入力手段に入力された音声信号をラベル信号に変換する変換手段とを有することを特徴とする音声認識装置。
移動体内で利用されることがある音声認識装置であって、
前記移動体の移動速度を検出する速度検出手段と、
認識すべき音声を入力する音声入力手段と、
音声信号とラベル信号とが関連付けられた音響モデルが記憶された記憶手段と、
前記入力手段に入力された音声信号を、前記速度検出手段により検出された移動体の移動速度に応じて、前記記憶手段に記憶された音響モデルの学習時に用いられた音声コーパスと同じ音響的かつ統計的特性を有する音声信号に補正する発話補正フィルタ手段と、
前記発話補正フィルタ手段で補正された音声信号を前記記憶手段に記憶された音響モデルを用いてラベル信号に変換する変換手段とを有することを特徴とする音声認識装置。
前記発話補正フィルタ手段は、移動体の移動速度が増加するにしたがって音声の母音のパワーを減少させるように音声信号を補正することを特徴とする請求項１３に記載の音声認識装置。
前記発話補正フィルタ手段は、移動体の移動速度が増加するにしたがって音声の母音のピッチ周波数を減少させるように音声信号を補正することを特徴とする請求項１３に記載の音声認識装置。
前記発話補正フィルタ手段は、移動体の移動速度が増加するにしたがって音声の母音のスペクトル回帰直線の傾きを減少させるように音声帯域周波数のパワーを補正することを特徴とする請求項１３に記載の音声認識装置。
前記発話補正フィルタ手段は、移動体の移動速度が増加するにしたがって音声の第１〜第３ホルマントの少なくとも一つを減少させるように音声信号を補正することを特徴とする請求項１３に記載の音声認識装置。
前記発話補正フィルタ手段は、移動体の移動速度が増加するにしたがって発話された語彙の語頭の母音の継続時間を減少させるように音声信号を補正することを特徴とする請求項１３に記載の音声認識装置。
前記発話補正フィルタ手段は、移動体の移動速度が増加するにしたがって発話された語彙の語尾の母音の継続時間を減少させるように音声信号を補正することを特徴とする請求項１３に記載の音声認識装置。
移動体内で利用されることがある音声認識方法であって、
前記移動体の移動速度を検出するステップと、
認識すべき音声を入力するステップと、
音響モデルが記憶された記憶手段と、
前記ステップで入力された音声信号を、検出された移動体の移動速度に応じて、音声信号とラベル信号とが関連付けられた音響モデルの学習時に用いられた音声コーパスと同じ音響的かつ統計的特性を有する音声信号に補正するステップと、
前記ステップで補正された音声信号を、前記音響モデルを用いてラベル信号に変換するステップとを有することを特徴とする音声認識方法。
前記補正するステップにおいて、移動体の移動速度が増加するにしたがって音声の母音のパワーを減少させるように、入力された音声信号を補正することを特徴とする請求項２０に記載の音声認識方法。
前記補正するステップにおいて、移動体の移動速度が増加するにしたがって音声の母音のピッチ周波数を減少させるように、入力された音声信号を補正することを特徴とする請求項２０に記載の音声認識方法。
前記補正するステップにおいて、移動体の移動速度が増加するにしたがって音声の母音のスペクトル回帰直線の傾きを減少させるように、入力された音声信号の音声帯域周波数のパワーを補正することを特徴とする請求項２０に記載の音声認識方法。
前記補正するステップにおいて、移動体の移動速度が増加するにしたがって音声の第１〜第３ホルマントの少なくとも一つを減少させるように、入力された音声信号を補正することを特徴とする請求項２０に記載の音声認識方法。
前記補正するステップにおいて、移動体の移動速度が増加するにしたがって発話された語彙の語頭の母音の継続時間を減少させるように、入力された音声信号を補正することを特徴とする請求項２０に記載の音声認識方法。
前記補正するステップにおいて、移動体の移動速度が増加するにしたがって発話された語彙の語尾の母音の継続時間を減少させるように、入力された音声信号を補正することを特徴とする請求項２０に記載の音声認識方法。