JPH07295585A

JPH07295585A - 車載用音声認識装置

Info

Publication number: JPH07295585A
Application number: JP6107734A
Authority: JP
Inventors: Katsuichi Ono; 勝一小野; Hisashi Chiba; 久千葉; Hitoshi Kubota; 整久保田
Original assignee: Suzuki Motor Corp
Current assignee: Suzuki Motor Corp
Priority date: 1994-04-22
Filing date: 1994-04-22
Publication date: 1995-11-10

Abstract

(57)【要約】【目的】騒音の多い環境における音声の認識率を飛躍
的に向上させる。【構成】車載用音声認識装置１０は、音声パターンＸ
を入力する音声入力手段１２と、特定の単語の音声パタ
ーンを表す登録パターンに対応して設けられると共に音
声パターンＸについて雑音を除去した雑音除去パターン
Ｘ１〜Ｘｎを出力するｎ個のニューラルネットワーク１
４１〜１４ｎと、雑音除去パターンＸ１〜Ｘｎとニュー
ラルネットワーク１４１〜１４ｎが出力すべき登録パタ
ーンとの類似度Ｒ１〜Ｒｎを各ニューラルネットワーク
１４１〜１４ｎごとに計算する類似度計算手段１６１〜
１６ｎと、類似度Ｒ１〜Ｒｎのうち最も高い類似度が一
定のしきい値以上である場合にのみその類似度の登録パ
ターンに対応する単語Ｈmaxを認識結果として出力する
認識結果出力手段１８とを備えている。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、車両を音声によって操
作するためにその車両に搭載する車載用音声認識装置に
関する。

【０００２】

【従来の技術】従来の車載用音声認識装置は、一般的な
音声認識装置とは異なり、車両の内外から生ずる騒音の
中でも音声を正しく認識できるような工夫がなされてい
る。例えば、特開平3-138698号公報に記載されている車
載用音声認識装置では、周囲騒音レベルに応じて音声入
力時のしきい値のレベルを変化させている。また、特開
昭58-70293号公報に記載されている車載用音声認識装置
では、連続した二つの音声命令が一致した場合にのみ動
作するようにしている。

【０００３】

【発明が解決しようとする課題】しかしながら、かかる
従来技術は、ノイマン型コンピュータを用いたものであ
るため、本質的に雑音に弱いという問題を有していた。
したがって、車両の内外から生ずる騒音の中で音声の認
識率を向上させることは、極めて困難な状況にあった。

【０００４】

【発明の目的】そこで、本発明の目的は、上記従来技術
の問題を解決することにより、騒音の多い環境の中でも
音声の認識率を飛躍的に向上できる車載用音声認識装置
を提供することにある。

【０００５】

【課題を解決するための手段】本発明に係る車載用音声
認識装置は、上記目的を達成するためになされたもので
あり、音声パターンを入力する音声入力手段と、特定の
単語の音声パターンを表す登録パターンに対応して設け
られると共に前記音声入力手段で入力された音声パター
ンについて雑音を除去した雑音除去パターンを出力する
複数のニューラルネットワークと、これらのニューラル
ネットワークが出力した雑音除去パターンとこれらのニ
ューラルネットワークが出力すべき前記登録パターンと
の類似度を各ニューラルネットワークごとに計算する類
似度計算手段と、この類似度計算手段で計算された類似
度のうち最も高い類似度が一定のしきい値以上である場
合にのみこの最も高い類似度の前記登録パターンに対応
する単語を認識結果として出力する認識結果出力手段と
を備えている。そして、前記ニューラルネットワーク
は、雑音を含んだ前記登録パターンに対してこの雑音を
除去してこの登録パターンを出力するように予め学習さ
れている。

【０００６】また、前記ニューラルネットワークは、リ
カレントニューラルネットワークとしてもよい。

【０００７】

【作用】ニューラルネットワークは、特定の単語の音声
パターンを表す登録パターンに一対一に対応して複数設
けられている。各ニューラルネットワークは、雑音を含
んだ登録パターンに対して雑音を除去して登録パターン
を出力するように予め学習されている。すなわち、ニュ
ーラルネットワークは、認識すべき単語の数だけ設けら
れており、それぞれ異なった結合荷重等を有している。

【０００８】上述した学習の結果により、各ニューラル
ネットワークは、そのニューラルネットワークに対応す
る登録パターンであれば、雑音の中に埋もれていても、
雑音を的確に除去して登録パターンを出力する。一方、
そのニューラルネットワークに対応しないパターンであ
れば、そのニューラルネットワークの登録パターンでは
ないと認識して、登録パターンとは異なるパターンを出
力する。このとき、各ニューラルネットワークは、入力
されるパターンがそのニューラルネットワークの出力す
べき登録パターンに類似しているほど、出力されるパタ
ーンがその登録パターンに類似する。このような高いパ
ターン識別能力は、ニューラルネットワークに特有の性
質であって従来のノイマン型コンピュータでは得られな
いものである。特に、ニューラルネットワークの中で
も、リカレントニューラルネットワークにその傾向が著
しい。

【０００９】操作者がある単語を発声すると、その音声
は音声入力手段によって音声パターンとして入力され
る。この音声パターンは、各ニューラルネットワークで
雑音が除去され、雑音除去パターンとなる。このとき、
雑音除去パターンは、ニューラルネットワークごとに原
則としてすべて異なる形状となる。ニューラルネットワ
ークごとに、結合荷重等が異なるからである。これらの
雑音除去パターンは、類似度計算手段において、各ニュ
ーラルネットワークの出力すべき登録パターンと比較さ
れ、類似度が求められる。続いて、認識結果出力手段に
おいて、最も高い類似度が検出されて、その類似度がし
きい値以上であれば、その類似度の登録パターンに対応
する単語が認識結果として出力される。一方、最も高い
類似度がしきい値以下であれば、その雑音除去パターン
に合致する登録パターンはないと認識される。

【００１０】

【実施例】図１乃至図３は本発明に係る車載用音声認識
装置の一実施例を示し、図１は機能ブロック図、図２は
より具体的な構成図、図３はニューラルネットワークの
構成及び動作を示す説明図である。以下、これらの図に
基づき説明する。

【００１１】本発明に係る車載用音声認識装置１０は、
音声パターンＸを入力する音声入力手段１２と、特定の
単語Ｈ１〜Ｈｎ（図示せず）の音声パターンを表す登録
パターンｈ１〜ｈｎ（図示せず）に対応して設けられる
と共に音声入力手段１２で入力された音声パターンＸに
ついて雑音を除去した雑音除去パターンＸ１〜Ｘｎを出
力するｎ個のニューラルネットワーク１４１〜１４ｎ
と、ニューラルネットワーク１４１〜１４ｎが出力した
雑音除去パターンＸ１〜Ｘｎとニューラルネットワーク
１４１〜１４ｎが出力すべき登録パターンｈ１〜ｈｎと
の類似度Ｒ１〜Ｒｎを各ニューラルネットワーク１４１
〜１４ｎごとに計算する類似度計算手段１６１〜１６ｎ
と、類似度計算手段１６１〜１６ｎで計算された類似度
Ｒ１〜Ｒｎのうち最も高い類似度Ｒmax が一定のしきい
値σ以上である場合にのみ類似度Ｒmax の登録パターン
ｈmax に対応する単語Ｈmax を認識結果として出力する
認識結果出力手段１８とを備えている。また、音声入力
手段１２には外部入力装置２０が接続され、認識結果出
力手段１８には外部出力装置２２が接続されている。そ
して、ニューラルネットワーク１４１〜１４ｎのそれぞ
れは、雑音を含んだ登録パターンｈ''１〜ｈ''ｎに対し
てこの雑音を除去して登録パターンｈ１〜ｈｎを出力す
るように予め学習されている。ニューラルネットワーク
１４１〜１４ｎは、例えば「ブレーキ」，「アクセル」
等の単語ごとに、例えば50個（ｎ＝50）設けられてい
る。

【００１２】本実施例では、図２に示すように、車載用
音声認識装置１０がマイクロコンピュータ２４によって
実現されている。マイクロコンピュータ２４は、ＣＰＵ
２６，ＲＯＭ２８，ＲＡＭ３０及び入出力インタフェイ
ス３２から構成されている。ＲＯＭ２８には、登録パタ
ーンｈ１〜ｈｎ，ニューラルネットワーク１４１〜１４
ｎの結合荷重値，コンピュータプログラム等が予め記憶
されている。ＲＡＭ３０には、音声パターンＸ，類似度
Ｒ１〜Ｒｎ等が記憶される。ＲＯＭ２８及びＲＡＭ３０
は、マイクロコンピュータ２４の外部に増設してもよ
い。また、マイクロコンピュータ２４には、外部入力装
置２０としてのマイクロホン３４，増幅器３６及びＡ／
Ｄコンバータ３８が接続されていると共に、外部出力装
置２２としてのシリアルインタフェイス４０及び車載機
器４２並びにＤ／Ａコンバータ４４，増幅器４６，スピ
ーカ４８及びＣＲＴ５０が接続されている。

【００１３】図３は、ニューラルネットワーク１４１〜
１４ｎのうちの一つであるニューラルネットワーク１４
ｍを示している。なお、他のニューラルネットワーク１
４１〜１４ｍ−１，１４ｍ＋１〜１４ｎもニューラルネ
ットワーク１４ｍと同じ構成である。

【００１４】ニューラルネットワーク１４ｍは、一個の
ユニット（「○」で図示）からなる入力層６０と、任意
の個数のユニットからなる隠れ層６２と、一個のユニッ
トからなる出力層６４とを備えている。入力層６０，隠
れ層６２，出力層６４の各ユニットは、対称結合又は一
方向結合に拘束されない、非対称でリカレントな結合を
している。このような特徴を有するニューラルネットワ
ークを「リカレントニューラルネットワーク」という。
リカレントニューラルネットワークは、雑音が混入した
入力データに対しても、極めて正確な認識が可能であ
る。なお、リカレントニューラルネットワーク自体は、
公知技術であり、例えば「計測と制御」Vol.30.No.4(19
91年４月)pp.296-301 等に詳述されている。また、各ユ
ニットは、次の式で表される状態方程式に従って動作
する。

【００１５】

【数１】

【００１６】ニューラルネットワーク１４ｍは、雑音を
含んだ種々の登録パターンｈ''ｍａ，ｈ''ｍｂ，ｈ''ｍ
ｃ，・・・に対してこの雑音を除去して登録パターンｈ
ｍを出力するように予め学習されている。すなわち、入
力層６０に入力される雑音を含んだ登録パターンｈ''ｍ
ａ，ｈ''ｍｂ，ｈ''ｍｃ，・・・と出力層６４から出力
される登録パターンｈｍとの関係を得るために、各ユニ
ット間の結合荷重を予め学習によって求めておく。雑音
を含んだ登録パターンｈ''ｍａ，ｈ''ｍｂ，ｈ''ｍｃ，
・・・は、様々な走行状態の中で登録パターンｈｍに対
応する単語Ｈｍを発声して作成したものである。学習方
法としては、例えばＢＰＴＴ（Back Propagation Throu
gh Time ）が一般的である。

【００１７】このような学習済みのニューラルネットワ
ーク１４ｍを使用すれば、入力層６０に未知の音声パタ
ーンＸ''が与えられたとき、音声パターンＸ''が登録パ
ターンｈｍに雑音を含んだものであれば、出力層６４か
ら雑音を除去した正確な登録パターンｈｍが出力され
る。一方、音声パターンＸ''が登録パターンｈｍと無関
係なものであれば、出力層６４からは登録パターンｈｍ
とは異なるパターンが出力される。すなわち、音声パタ
ーンＸ''が登録パターンｈｍに類似している程、出力層
６４から出力されるパターンは登録パターンｈｍと類似
することになる。このように、ニューラルネットワーク
１４ｍは、パターンの形状を学習するものであるため、
入力パターン（本実施例における「音声パターン」）に
雑音が混入した場合でも、正しいパターン認識が可能で
ある。

【００１８】次に、図４のフローチャート及び図５の波
形図を中心に図１乃至図５に基づき、本実施例の動作を
説明する。

【００１９】まず、操作者が、例えば「ブレーキ」，
「アクセル」等の単語を、図５（Ａ）に示す音声ＸＸと
して発声する。すると、音声ＸＸは、マイクロホン３
４，増幅器３６及びＡ／Ｄコンバータ３８を介して、車
載用音声認識装置１０（マイクロコンピュータ２４）に
入力される（ステップ１０１）。このとき、車両は走行
中であるため、音声ＸＸには非常に多くの雑音が含まれ
ている。音声入力手段１２では、音声ＸＸのうちの認識
すべき区間をしきい値等に基づき検出して図５（Ｂ）に
示す音声パターンＸとする（ステップ１０２）。続い
て、音声パターンＸは、各ニューラルネットワーク１４
１〜１４ｎへ出力され、各ニューラルネットワーク１４
１〜１４ｎで雑音が除去されて、図５（Ｃ）に示す雑音
除去パターンＸ１〜Ｘｎとなる（ステップ１０３）。図
５（Ｃ）では便宜上一個の雑音除去パターンのみを示し
ているが、雑音除去パターンＸ１〜Ｘｎは原則としてす
べて異なる形状となる。ニューラルネットワーク１４１
〜１４ｎごとに、結合荷重が異なるからである。雑音除
去パターンＸ１〜Ｘｎは、類似度計算手段１６１〜１６
ｎにおいて、特徴値が抽出された後（ステップ１０
４）、各ニューラルネットワーク１４１〜１４ｎの出力
すべき登録パターンｈ１〜ｈｎと比較され、類似度Ｒ１
〜Ｒｎが求められる（ステップ１０５）。すなわち、Ｘ
１とｈ１とを比較してＲ１，Ｘ２とｈ２とを比較してＲ
２，・・・・・，Ｘｎとｈｎとを比較してＲｎという具
合に類似度Ｒ１〜Ｒｎが求められる。ここで、雑音除去
パターンの特徴値と登録パターンの特徴値（標準値）と
の一致部分又は近似部分が多いほど、類似度は高くな
る。なお、特徴値は、短時間周波数分析により得られる
帯域幅ごとのパワースペクトル密度や、ＬＰＣケプスト
ラム係数である。続いて、認識結果出力手段１８におい
て、最も高い類似度Ｒmax が検出され（ステップ１０
６）、類似度Ｒmax としきい値σとの大小が比較される
（ステップ１０７）。類似度Ｒmax がしきい値σ以上で
あれば、類似度Ｒmax の登録パターンｈmax に対応する
単語Ｈmax を認識結果として出力し、スピーカ４８又は
ＣＲＴ５０を通じて操作者に認識結果を報告すると共
に、車載機器４２に対して所定の操作を行う（ステップ
１０８）。一方、類似度Ｒmax がしきい値σ以下であれ
ば、登録されていない単語が入力されたものと認識し
て、スピーカ４８又はＣＲＴ５０を通じて操作者に再入
力を促す（ステップ１０９）。また、所定の操作（ステ
ップ１０８）後、終了か否かが判断され（ステップ１１
０）、終了でなければ再び音声入力（ステップ１０１）
から繰り返す。

【００２０】なお、ニューラルネットワーク１４１〜１
４ｎは、本実施例のようにリカレントニューラルネット
ワークを用いることが最も望ましいが、これに限定する
ものではなく、例えばフィードフォワードネットワーク
等を用いてもよい。また、ニューラルネットワーク１４
１〜１４ｎを、ニューロチップによっても実現してもよ
い。

【００２１】

【発明の効果】本発明によれば、雑音を含んだ登録パタ
ーンに対して雑音を除去して登録パターンを出力するよ
うに予め学習されているニューラルネットワークを登録
パターンごとに設けているので、各ニューラルネットワ
ークからは、そのニューラルネットワークに対応する登
録パターンであれば雑音を的確に除去して登録パターン
を出力できる一方、そのニューラルネットワークに対応
しないパターンであれば登録パターンではないと認識し
て登録パターンとは異なるパターンを出力できる。した
がって、各ニューラルネットワークから出力された雑音
除去パターンと各ニューラルネットワークに対応する登
録パターンとの類似度のうち最も高い類似度がしきい値
以上であれば、その類似度の登録パターンに対応する単
語を認識結果として出力することにより、騒音の多い環
境でも雑音を的確に除去して音声を認識できるので、音
声の認識率を向上できる。

【図面の簡単な説明】

【図１】本発明の一実施例を示す機能ブロック図であ
る。

【図２】本発明の一実施例を示すより具体的な構成図で
ある。

【図３】本発明の一実施例におけるニューラルネットワ
ークの構成及び動作を示す説明図である。

【図４】本発明の一実施例の動作を示すフローチャート
である。

【図５】本発明の一実施例における各種の波形図を示
し、図５（Ａ）は音声、図５（Ｂ）は音声パターン、図
５（Ｃ）は雑音除去パターンである。

【符号の説明】

１０車載用音声認識装置１２音声入力手段１４１〜１４ｎ，１４ｍニューラルネットワーク１６１〜１６ｎ類似度計算手段１８認識結果出力手段Ｘ音声パターンＸ１〜Ｘｎ雑音除去パターンＲ１〜Ｒｎ類似度Ｈmax 最も高い類似度の登録パターンに対応する単語

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ１０Ｌ 3/02 ３０１Ｄ 9/10 ３０１Ｃ

Claims

【特許請求の範囲】

【請求項１】音声パターンを入力する音声入力手段
と、特定の単語の音声パターンを表す登録パターンに対
応して設けられると共に前記音声入力手段で入力された
音声パターンについて雑音を除去した雑音除去パターン
を出力する複数のニューラルネットワークと、これらの
ニューラルネットワークが出力した雑音除去パターンと
これらのニューラルネットワークが出力すべき前記登録
パターンとの類似度を各ニューラルネットワークごとに
計算する類似度計算手段と、この類似度計算手段で計算
された類似度のうち最も高い類似度が一定のしきい値以
上である場合にのみこの最も高い類似度の前記登録パタ
ーンに対応する単語を認識結果として出力する認識結果
出力手段とを備え、前記ニューラルネットワークのそれ
ぞれは、雑音を含んだ前記登録パターンに対してこの雑
音を除去してこの登録パターンを出力するように予め学
習されていることを特徴とする車載用音声認識装置。
【請求項２】前記ニューラルネットワークは、リカレ
ントニューラルネットワークであることを特徴とする請
求項１記載の車載用音声認識装置。