JPH07295585A - 車載用音声認識装置 - Google Patents
車載用音声認識装置Info
- Publication number
- JPH07295585A JPH07295585A JP6107734A JP10773494A JPH07295585A JP H07295585 A JPH07295585 A JP H07295585A JP 6107734 A JP6107734 A JP 6107734A JP 10773494 A JP10773494 A JP 10773494A JP H07295585 A JPH07295585 A JP H07295585A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- voice
- registered
- output
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
(57)【要約】
【目的】 騒音の多い環境における音声の認識率を飛躍
的に向上させる。 【構成】 車載用音声認識装置10は、音声パターンX
を入力する音声入力手段12と、特定の単語の音声パタ
ーンを表す登録パターンに対応して設けられると共に音
声パターンXについて雑音を除去した雑音除去パターン
X1〜Xnを出力するn個のニューラルネットワーク1
41〜14nと、雑音除去パターンX1〜Xnとニュー
ラルネットワーク141〜14nが出力すべき登録パタ
ーンとの類似度R1〜Rnを各ニューラルネットワーク
141〜14nごとに計算する類似度計算手段161〜
16nと、類似度R1〜Rnのうち最も高い類似度が一
定のしきい値以上である場合にのみその類似度の登録パ
ターンに対応する単語Hmaxを認識結果として出力する
認識結果出力手段18とを備えている。
的に向上させる。 【構成】 車載用音声認識装置10は、音声パターンX
を入力する音声入力手段12と、特定の単語の音声パタ
ーンを表す登録パターンに対応して設けられると共に音
声パターンXについて雑音を除去した雑音除去パターン
X1〜Xnを出力するn個のニューラルネットワーク1
41〜14nと、雑音除去パターンX1〜Xnとニュー
ラルネットワーク141〜14nが出力すべき登録パタ
ーンとの類似度R1〜Rnを各ニューラルネットワーク
141〜14nごとに計算する類似度計算手段161〜
16nと、類似度R1〜Rnのうち最も高い類似度が一
定のしきい値以上である場合にのみその類似度の登録パ
ターンに対応する単語Hmaxを認識結果として出力する
認識結果出力手段18とを備えている。
Description
【0001】
【産業上の利用分野】本発明は、車両を音声によって操
作するためにその車両に搭載する車載用音声認識装置に
関する。
作するためにその車両に搭載する車載用音声認識装置に
関する。
【0002】
【従来の技術】従来の車載用音声認識装置は、一般的な
音声認識装置とは異なり、車両の内外から生ずる騒音の
中でも音声を正しく認識できるような工夫がなされてい
る。例えば、特開平3-138698号公報に記載されている車
載用音声認識装置では、周囲騒音レベルに応じて音声入
力時のしきい値のレベルを変化させている。また、特開
昭58-70293号公報に記載されている車載用音声認識装置
では、連続した二つの音声命令が一致した場合にのみ動
作するようにしている。
音声認識装置とは異なり、車両の内外から生ずる騒音の
中でも音声を正しく認識できるような工夫がなされてい
る。例えば、特開平3-138698号公報に記載されている車
載用音声認識装置では、周囲騒音レベルに応じて音声入
力時のしきい値のレベルを変化させている。また、特開
昭58-70293号公報に記載されている車載用音声認識装置
では、連続した二つの音声命令が一致した場合にのみ動
作するようにしている。
【0003】
【発明が解決しようとする課題】しかしながら、かかる
従来技術は、ノイマン型コンピュータを用いたものであ
るため、本質的に雑音に弱いという問題を有していた。
したがって、車両の内外から生ずる騒音の中で音声の認
識率を向上させることは、極めて困難な状況にあった。
従来技術は、ノイマン型コンピュータを用いたものであ
るため、本質的に雑音に弱いという問題を有していた。
したがって、車両の内外から生ずる騒音の中で音声の認
識率を向上させることは、極めて困難な状況にあった。
【0004】
【発明の目的】そこで、本発明の目的は、上記従来技術
の問題を解決することにより、騒音の多い環境の中でも
音声の認識率を飛躍的に向上できる車載用音声認識装置
を提供することにある。
の問題を解決することにより、騒音の多い環境の中でも
音声の認識率を飛躍的に向上できる車載用音声認識装置
を提供することにある。
【0005】
【課題を解決するための手段】本発明に係る車載用音声
認識装置は、上記目的を達成するためになされたもので
あり、音声パターンを入力する音声入力手段と、特定の
単語の音声パターンを表す登録パターンに対応して設け
られると共に前記音声入力手段で入力された音声パター
ンについて雑音を除去した雑音除去パターンを出力する
複数のニューラルネットワークと、これらのニューラル
ネットワークが出力した雑音除去パターンとこれらのニ
ューラルネットワークが出力すべき前記登録パターンと
の類似度を各ニューラルネットワークごとに計算する類
似度計算手段と、この類似度計算手段で計算された類似
度のうち最も高い類似度が一定のしきい値以上である場
合にのみこの最も高い類似度の前記登録パターンに対応
する単語を認識結果として出力する認識結果出力手段と
を備えている。そして、前記ニューラルネットワーク
は、雑音を含んだ前記登録パターンに対してこの雑音を
除去してこの登録パターンを出力するように予め学習さ
れている。
認識装置は、上記目的を達成するためになされたもので
あり、音声パターンを入力する音声入力手段と、特定の
単語の音声パターンを表す登録パターンに対応して設け
られると共に前記音声入力手段で入力された音声パター
ンについて雑音を除去した雑音除去パターンを出力する
複数のニューラルネットワークと、これらのニューラル
ネットワークが出力した雑音除去パターンとこれらのニ
ューラルネットワークが出力すべき前記登録パターンと
の類似度を各ニューラルネットワークごとに計算する類
似度計算手段と、この類似度計算手段で計算された類似
度のうち最も高い類似度が一定のしきい値以上である場
合にのみこの最も高い類似度の前記登録パターンに対応
する単語を認識結果として出力する認識結果出力手段と
を備えている。そして、前記ニューラルネットワーク
は、雑音を含んだ前記登録パターンに対してこの雑音を
除去してこの登録パターンを出力するように予め学習さ
れている。
【0006】また、前記ニューラルネットワークは、リ
カレントニューラルネットワークとしてもよい。
カレントニューラルネットワークとしてもよい。
【0007】
【作用】ニューラルネットワークは、特定の単語の音声
パターンを表す登録パターンに一対一に対応して複数設
けられている。各ニューラルネットワークは、雑音を含
んだ登録パターンに対して雑音を除去して登録パターン
を出力するように予め学習されている。すなわち、ニュ
ーラルネットワークは、認識すべき単語の数だけ設けら
れており、それぞれ異なった結合荷重等を有している。
パターンを表す登録パターンに一対一に対応して複数設
けられている。各ニューラルネットワークは、雑音を含
んだ登録パターンに対して雑音を除去して登録パターン
を出力するように予め学習されている。すなわち、ニュ
ーラルネットワークは、認識すべき単語の数だけ設けら
れており、それぞれ異なった結合荷重等を有している。
【0008】上述した学習の結果により、各ニューラル
ネットワークは、そのニューラルネットワークに対応す
る登録パターンであれば、雑音の中に埋もれていても、
雑音を的確に除去して登録パターンを出力する。一方、
そのニューラルネットワークに対応しないパターンであ
れば、そのニューラルネットワークの登録パターンでは
ないと認識して、登録パターンとは異なるパターンを出
力する。このとき、各ニューラルネットワークは、入力
されるパターンがそのニューラルネットワークの出力す
べき登録パターンに類似しているほど、出力されるパタ
ーンがその登録パターンに類似する。このような高いパ
ターン識別能力は、ニューラルネットワークに特有の性
質であって従来のノイマン型コンピュータでは得られな
いものである。特に、ニューラルネットワークの中で
も、リカレントニューラルネットワークにその傾向が著
しい。
ネットワークは、そのニューラルネットワークに対応す
る登録パターンであれば、雑音の中に埋もれていても、
雑音を的確に除去して登録パターンを出力する。一方、
そのニューラルネットワークに対応しないパターンであ
れば、そのニューラルネットワークの登録パターンでは
ないと認識して、登録パターンとは異なるパターンを出
力する。このとき、各ニューラルネットワークは、入力
されるパターンがそのニューラルネットワークの出力す
べき登録パターンに類似しているほど、出力されるパタ
ーンがその登録パターンに類似する。このような高いパ
ターン識別能力は、ニューラルネットワークに特有の性
質であって従来のノイマン型コンピュータでは得られな
いものである。特に、ニューラルネットワークの中で
も、リカレントニューラルネットワークにその傾向が著
しい。
【0009】操作者がある単語を発声すると、その音声
は音声入力手段によって音声パターンとして入力され
る。この音声パターンは、各ニューラルネットワークで
雑音が除去され、雑音除去パターンとなる。このとき、
雑音除去パターンは、ニューラルネットワークごとに原
則としてすべて異なる形状となる。ニューラルネットワ
ークごとに、結合荷重等が異なるからである。これらの
雑音除去パターンは、類似度計算手段において、各ニュ
ーラルネットワークの出力すべき登録パターンと比較さ
れ、類似度が求められる。続いて、認識結果出力手段に
おいて、最も高い類似度が検出されて、その類似度がし
きい値以上であれば、その類似度の登録パターンに対応
する単語が認識結果として出力される。一方、最も高い
類似度がしきい値以下であれば、その雑音除去パターン
に合致する登録パターンはないと認識される。
は音声入力手段によって音声パターンとして入力され
る。この音声パターンは、各ニューラルネットワークで
雑音が除去され、雑音除去パターンとなる。このとき、
雑音除去パターンは、ニューラルネットワークごとに原
則としてすべて異なる形状となる。ニューラルネットワ
ークごとに、結合荷重等が異なるからである。これらの
雑音除去パターンは、類似度計算手段において、各ニュ
ーラルネットワークの出力すべき登録パターンと比較さ
れ、類似度が求められる。続いて、認識結果出力手段に
おいて、最も高い類似度が検出されて、その類似度がし
きい値以上であれば、その類似度の登録パターンに対応
する単語が認識結果として出力される。一方、最も高い
類似度がしきい値以下であれば、その雑音除去パターン
に合致する登録パターンはないと認識される。
【0010】
【実施例】図1乃至図3は本発明に係る車載用音声認識
装置の一実施例を示し、図1は機能ブロック図、図2は
より具体的な構成図、図3はニューラルネットワークの
構成及び動作を示す説明図である。以下、これらの図に
基づき説明する。
装置の一実施例を示し、図1は機能ブロック図、図2は
より具体的な構成図、図3はニューラルネットワークの
構成及び動作を示す説明図である。以下、これらの図に
基づき説明する。
【0011】本発明に係る車載用音声認識装置10は、
音声パターンXを入力する音声入力手段12と、特定の
単語H1〜Hn(図示せず)の音声パターンを表す登録
パターンh1〜hn(図示せず)に対応して設けられる
と共に音声入力手段12で入力された音声パターンXに
ついて雑音を除去した雑音除去パターンX1〜Xnを出
力するn個のニューラルネットワーク141〜14n
と、ニューラルネットワーク141〜14nが出力した
雑音除去パターンX1〜Xnとニューラルネットワーク
141〜14nが出力すべき登録パターンh1〜hnと
の類似度R1〜Rnを各ニューラルネットワーク141
〜14nごとに計算する類似度計算手段161〜16n
と、類似度計算手段161〜16nで計算された類似度
R1〜Rnのうち最も高い類似度Rmax が一定のしきい
値σ以上である場合にのみ類似度Rmax の登録パターン
hmax に対応する単語Hmax を認識結果として出力する
認識結果出力手段18とを備えている。また、音声入力
手段12には外部入力装置20が接続され、認識結果出
力手段18には外部出力装置22が接続されている。そ
して、ニューラルネットワーク141〜14nのそれぞ
れは、雑音を含んだ登録パターンh''1〜h''nに対し
てこの雑音を除去して登録パターンh1〜hnを出力す
るように予め学習されている。ニューラルネットワーク
141〜14nは、例えば「ブレーキ」,「アクセル」
等の単語ごとに、例えば50個(n=50)設けられてい
る。
音声パターンXを入力する音声入力手段12と、特定の
単語H1〜Hn(図示せず)の音声パターンを表す登録
パターンh1〜hn(図示せず)に対応して設けられる
と共に音声入力手段12で入力された音声パターンXに
ついて雑音を除去した雑音除去パターンX1〜Xnを出
力するn個のニューラルネットワーク141〜14n
と、ニューラルネットワーク141〜14nが出力した
雑音除去パターンX1〜Xnとニューラルネットワーク
141〜14nが出力すべき登録パターンh1〜hnと
の類似度R1〜Rnを各ニューラルネットワーク141
〜14nごとに計算する類似度計算手段161〜16n
と、類似度計算手段161〜16nで計算された類似度
R1〜Rnのうち最も高い類似度Rmax が一定のしきい
値σ以上である場合にのみ類似度Rmax の登録パターン
hmax に対応する単語Hmax を認識結果として出力する
認識結果出力手段18とを備えている。また、音声入力
手段12には外部入力装置20が接続され、認識結果出
力手段18には外部出力装置22が接続されている。そ
して、ニューラルネットワーク141〜14nのそれぞ
れは、雑音を含んだ登録パターンh''1〜h''nに対し
てこの雑音を除去して登録パターンh1〜hnを出力す
るように予め学習されている。ニューラルネットワーク
141〜14nは、例えば「ブレーキ」,「アクセル」
等の単語ごとに、例えば50個(n=50)設けられてい
る。
【0012】本実施例では、図2に示すように、車載用
音声認識装置10がマイクロコンピュータ24によって
実現されている。マイクロコンピュータ24は、CPU
26,ROM28,RAM30及び入出力インタフェイ
ス32から構成されている。ROM28には、登録パタ
ーンh1〜hn,ニューラルネットワーク141〜14
nの結合荷重値,コンピュータプログラム等が予め記憶
されている。RAM30には、音声パターンX,類似度
R1〜Rn等が記憶される。ROM28及びRAM30
は、マイクロコンピュータ24の外部に増設してもよ
い。また、マイクロコンピュータ24には、外部入力装
置20としてのマイクロホン34,増幅器36及びA/
Dコンバータ38が接続されていると共に、外部出力装
置22としてのシリアルインタフェイス40及び車載機
器42並びにD/Aコンバータ44,増幅器46,スピ
ーカ48及びCRT50が接続されている。
音声認識装置10がマイクロコンピュータ24によって
実現されている。マイクロコンピュータ24は、CPU
26,ROM28,RAM30及び入出力インタフェイ
ス32から構成されている。ROM28には、登録パタ
ーンh1〜hn,ニューラルネットワーク141〜14
nの結合荷重値,コンピュータプログラム等が予め記憶
されている。RAM30には、音声パターンX,類似度
R1〜Rn等が記憶される。ROM28及びRAM30
は、マイクロコンピュータ24の外部に増設してもよ
い。また、マイクロコンピュータ24には、外部入力装
置20としてのマイクロホン34,増幅器36及びA/
Dコンバータ38が接続されていると共に、外部出力装
置22としてのシリアルインタフェイス40及び車載機
器42並びにD/Aコンバータ44,増幅器46,スピ
ーカ48及びCRT50が接続されている。
【0013】図3は、ニューラルネットワーク141〜
14nのうちの一つであるニューラルネットワーク14
mを示している。なお、他のニューラルネットワーク1
41〜14m−1,14m+1〜14nもニューラルネ
ットワーク14mと同じ構成である。
14nのうちの一つであるニューラルネットワーク14
mを示している。なお、他のニューラルネットワーク1
41〜14m−1,14m+1〜14nもニューラルネ
ットワーク14mと同じ構成である。
【0014】ニューラルネットワーク14mは、一個の
ユニット(「○」で図示)からなる入力層60と、任意
の個数のユニットからなる隠れ層62と、一個のユニッ
トからなる出力層64とを備えている。入力層60,隠
れ層62,出力層64の各ユニットは、対称結合又は一
方向結合に拘束されない、非対称でリカレントな結合を
している。このような特徴を有するニューラルネットワ
ークを「リカレントニューラルネットワーク」という。
リカレントニューラルネットワークは、雑音が混入した
入力データに対しても、極めて正確な認識が可能であ
る。なお、リカレントニューラルネットワーク自体は、
公知技術であり、例えば「計測と制御」Vol.30.No.4(19
91年4月)pp.296-301 等に詳述されている。また、各ユ
ニットは、次の式で表される状態方程式に従って動作
する。
ユニット(「○」で図示)からなる入力層60と、任意
の個数のユニットからなる隠れ層62と、一個のユニッ
トからなる出力層64とを備えている。入力層60,隠
れ層62,出力層64の各ユニットは、対称結合又は一
方向結合に拘束されない、非対称でリカレントな結合を
している。このような特徴を有するニューラルネットワ
ークを「リカレントニューラルネットワーク」という。
リカレントニューラルネットワークは、雑音が混入した
入力データに対しても、極めて正確な認識が可能であ
る。なお、リカレントニューラルネットワーク自体は、
公知技術であり、例えば「計測と制御」Vol.30.No.4(19
91年4月)pp.296-301 等に詳述されている。また、各ユ
ニットは、次の式で表される状態方程式に従って動作
する。
【0015】
【数1】
【0016】ニューラルネットワーク14mは、雑音を
含んだ種々の登録パターンh''ma,h''mb,h''m
c,・・・に対してこの雑音を除去して登録パターンh
mを出力するように予め学習されている。すなわち、入
力層60に入力される雑音を含んだ登録パターンh''m
a,h''mb,h''mc,・・・と出力層64から出力
される登録パターンhmとの関係を得るために、各ユニ
ット間の結合荷重を予め学習によって求めておく。雑音
を含んだ登録パターンh''ma,h''mb,h''mc,
・・・は、様々な走行状態の中で登録パターンhmに対
応する単語Hmを発声して作成したものである。学習方
法としては、例えばBPTT(Back Propagation Throu
gh Time )が一般的である。
含んだ種々の登録パターンh''ma,h''mb,h''m
c,・・・に対してこの雑音を除去して登録パターンh
mを出力するように予め学習されている。すなわち、入
力層60に入力される雑音を含んだ登録パターンh''m
a,h''mb,h''mc,・・・と出力層64から出力
される登録パターンhmとの関係を得るために、各ユニ
ット間の結合荷重を予め学習によって求めておく。雑音
を含んだ登録パターンh''ma,h''mb,h''mc,
・・・は、様々な走行状態の中で登録パターンhmに対
応する単語Hmを発声して作成したものである。学習方
法としては、例えばBPTT(Back Propagation Throu
gh Time )が一般的である。
【0017】このような学習済みのニューラルネットワ
ーク14mを使用すれば、入力層60に未知の音声パタ
ーンX''が与えられたとき、音声パターンX''が登録パ
ターンhmに雑音を含んだものであれば、出力層64か
ら雑音を除去した正確な登録パターンhmが出力され
る。一方、音声パターンX''が登録パターンhmと無関
係なものであれば、出力層64からは登録パターンhm
とは異なるパターンが出力される。すなわち、音声パタ
ーンX''が登録パターンhmに類似している程、出力層
64から出力されるパターンは登録パターンhmと類似
することになる。このように、ニューラルネットワーク
14mは、パターンの形状を学習するものであるため、
入力パターン(本実施例における「音声パターン」)に
雑音が混入した場合でも、正しいパターン認識が可能で
ある。
ーク14mを使用すれば、入力層60に未知の音声パタ
ーンX''が与えられたとき、音声パターンX''が登録パ
ターンhmに雑音を含んだものであれば、出力層64か
ら雑音を除去した正確な登録パターンhmが出力され
る。一方、音声パターンX''が登録パターンhmと無関
係なものであれば、出力層64からは登録パターンhm
とは異なるパターンが出力される。すなわち、音声パタ
ーンX''が登録パターンhmに類似している程、出力層
64から出力されるパターンは登録パターンhmと類似
することになる。このように、ニューラルネットワーク
14mは、パターンの形状を学習するものであるため、
入力パターン(本実施例における「音声パターン」)に
雑音が混入した場合でも、正しいパターン認識が可能で
ある。
【0018】次に、図4のフローチャート及び図5の波
形図を中心に図1乃至図5に基づき、本実施例の動作を
説明する。
形図を中心に図1乃至図5に基づき、本実施例の動作を
説明する。
【0019】まず、操作者が、例えば「ブレーキ」,
「アクセル」等の単語を、図5(A)に示す音声XXと
して発声する。すると、音声XXは、マイクロホン3
4,増幅器36及びA/Dコンバータ38を介して、車
載用音声認識装置10(マイクロコンピュータ24)に
入力される(ステップ101)。このとき、車両は走行
中であるため、音声XXには非常に多くの雑音が含まれ
ている。音声入力手段12では、音声XXのうちの認識
すべき区間をしきい値等に基づき検出して図5(B)に
示す音声パターンXとする(ステップ102)。続い
て、音声パターンXは、各ニューラルネットワーク14
1〜14nへ出力され、各ニューラルネットワーク14
1〜14nで雑音が除去されて、図5(C)に示す雑音
除去パターンX1〜Xnとなる(ステップ103)。図
5(C)では便宜上一個の雑音除去パターンのみを示し
ているが、雑音除去パターンX1〜Xnは原則としてす
べて異なる形状となる。ニューラルネットワーク141
〜14nごとに、結合荷重が異なるからである。雑音除
去パターンX1〜Xnは、類似度計算手段161〜16
nにおいて、特徴値が抽出された後(ステップ10
4)、各ニューラルネットワーク141〜14nの出力
すべき登録パターンh1〜hnと比較され、類似度R1
〜Rnが求められる(ステップ105)。すなわち、X
1とh1とを比較してR1,X2とh2とを比較してR
2,・・・・・,Xnとhnとを比較してRnという具
合に類似度R1〜Rnが求められる。ここで、雑音除去
パターンの特徴値と登録パターンの特徴値(標準値)と
の一致部分又は近似部分が多いほど、類似度は高くな
る。なお、特徴値は、短時間周波数分析により得られる
帯域幅ごとのパワースペクトル密度や、LPCケプスト
ラム係数である。続いて、認識結果出力手段18におい
て、最も高い類似度Rmax が検出され(ステップ10
6)、類似度Rmax としきい値σとの大小が比較される
(ステップ107)。類似度Rmax がしきい値σ以上で
あれば、類似度Rmax の登録パターンhmax に対応する
単語Hmax を認識結果として出力し、スピーカ48又は
CRT50を通じて操作者に認識結果を報告すると共
に、車載機器42に対して所定の操作を行う(ステップ
108)。一方、類似度Rmax がしきい値σ以下であれ
ば、登録されていない単語が入力されたものと認識し
て、スピーカ48又はCRT50を通じて操作者に再入
力を促す(ステップ109)。また、所定の操作(ステ
ップ108)後、終了か否かが判断され(ステップ11
0)、終了でなければ再び音声入力(ステップ101)
から繰り返す。
「アクセル」等の単語を、図5(A)に示す音声XXと
して発声する。すると、音声XXは、マイクロホン3
4,増幅器36及びA/Dコンバータ38を介して、車
載用音声認識装置10(マイクロコンピュータ24)に
入力される(ステップ101)。このとき、車両は走行
中であるため、音声XXには非常に多くの雑音が含まれ
ている。音声入力手段12では、音声XXのうちの認識
すべき区間をしきい値等に基づき検出して図5(B)に
示す音声パターンXとする(ステップ102)。続い
て、音声パターンXは、各ニューラルネットワーク14
1〜14nへ出力され、各ニューラルネットワーク14
1〜14nで雑音が除去されて、図5(C)に示す雑音
除去パターンX1〜Xnとなる(ステップ103)。図
5(C)では便宜上一個の雑音除去パターンのみを示し
ているが、雑音除去パターンX1〜Xnは原則としてす
べて異なる形状となる。ニューラルネットワーク141
〜14nごとに、結合荷重が異なるからである。雑音除
去パターンX1〜Xnは、類似度計算手段161〜16
nにおいて、特徴値が抽出された後(ステップ10
4)、各ニューラルネットワーク141〜14nの出力
すべき登録パターンh1〜hnと比較され、類似度R1
〜Rnが求められる(ステップ105)。すなわち、X
1とh1とを比較してR1,X2とh2とを比較してR
2,・・・・・,Xnとhnとを比較してRnという具
合に類似度R1〜Rnが求められる。ここで、雑音除去
パターンの特徴値と登録パターンの特徴値(標準値)と
の一致部分又は近似部分が多いほど、類似度は高くな
る。なお、特徴値は、短時間周波数分析により得られる
帯域幅ごとのパワースペクトル密度や、LPCケプスト
ラム係数である。続いて、認識結果出力手段18におい
て、最も高い類似度Rmax が検出され(ステップ10
6)、類似度Rmax としきい値σとの大小が比較される
(ステップ107)。類似度Rmax がしきい値σ以上で
あれば、類似度Rmax の登録パターンhmax に対応する
単語Hmax を認識結果として出力し、スピーカ48又は
CRT50を通じて操作者に認識結果を報告すると共
に、車載機器42に対して所定の操作を行う(ステップ
108)。一方、類似度Rmax がしきい値σ以下であれ
ば、登録されていない単語が入力されたものと認識し
て、スピーカ48又はCRT50を通じて操作者に再入
力を促す(ステップ109)。また、所定の操作(ステ
ップ108)後、終了か否かが判断され(ステップ11
0)、終了でなければ再び音声入力(ステップ101)
から繰り返す。
【0020】なお、ニューラルネットワーク141〜1
4nは、本実施例のようにリカレントニューラルネット
ワークを用いることが最も望ましいが、これに限定する
ものではなく、例えばフィードフォワードネットワーク
等を用いてもよい。また、ニューラルネットワーク14
1〜14nを、ニューロチップによっても実現してもよ
い。
4nは、本実施例のようにリカレントニューラルネット
ワークを用いることが最も望ましいが、これに限定する
ものではなく、例えばフィードフォワードネットワーク
等を用いてもよい。また、ニューラルネットワーク14
1〜14nを、ニューロチップによっても実現してもよ
い。
【0021】
【発明の効果】本発明によれば、雑音を含んだ登録パタ
ーンに対して雑音を除去して登録パターンを出力するよ
うに予め学習されているニューラルネットワークを登録
パターンごとに設けているので、各ニューラルネットワ
ークからは、そのニューラルネットワークに対応する登
録パターンであれば雑音を的確に除去して登録パターン
を出力できる一方、そのニューラルネットワークに対応
しないパターンであれば登録パターンではないと認識し
て登録パターンとは異なるパターンを出力できる。した
がって、各ニューラルネットワークから出力された雑音
除去パターンと各ニューラルネットワークに対応する登
録パターンとの類似度のうち最も高い類似度がしきい値
以上であれば、その類似度の登録パターンに対応する単
語を認識結果として出力することにより、騒音の多い環
境でも雑音を的確に除去して音声を認識できるので、音
声の認識率を向上できる。
ーンに対して雑音を除去して登録パターンを出力するよ
うに予め学習されているニューラルネットワークを登録
パターンごとに設けているので、各ニューラルネットワ
ークからは、そのニューラルネットワークに対応する登
録パターンであれば雑音を的確に除去して登録パターン
を出力できる一方、そのニューラルネットワークに対応
しないパターンであれば登録パターンではないと認識し
て登録パターンとは異なるパターンを出力できる。した
がって、各ニューラルネットワークから出力された雑音
除去パターンと各ニューラルネットワークに対応する登
録パターンとの類似度のうち最も高い類似度がしきい値
以上であれば、その類似度の登録パターンに対応する単
語を認識結果として出力することにより、騒音の多い環
境でも雑音を的確に除去して音声を認識できるので、音
声の認識率を向上できる。
【図1】本発明の一実施例を示す機能ブロック図であ
る。
る。
【図2】本発明の一実施例を示すより具体的な構成図で
ある。
ある。
【図3】本発明の一実施例におけるニューラルネットワ
ークの構成及び動作を示す説明図である。
ークの構成及び動作を示す説明図である。
【図4】本発明の一実施例の動作を示すフローチャート
である。
である。
【図5】本発明の一実施例における各種の波形図を示
し、図5(A)は音声、図5(B)は音声パターン、図
5(C)は雑音除去パターンである。
し、図5(A)は音声、図5(B)は音声パターン、図
5(C)は雑音除去パターンである。
10 車載用音声認識装置 12 音声入力手段 141〜14n,14m ニューラルネットワーク 161〜16n 類似度計算手段 18 認識結果出力手段 X 音声パターン X1〜Xn 雑音除去パターン R1〜Rn 類似度 Hmax 最も高い類似度の登録パターンに対応する単語
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G10L 3/02 301 D 9/10 301 C
Claims (2)
- 【請求項1】 音声パターンを入力する音声入力手段
と、特定の単語の音声パターンを表す登録パターンに対
応して設けられると共に前記音声入力手段で入力された
音声パターンについて雑音を除去した雑音除去パターン
を出力する複数のニューラルネットワークと、これらの
ニューラルネットワークが出力した雑音除去パターンと
これらのニューラルネットワークが出力すべき前記登録
パターンとの類似度を各ニューラルネットワークごとに
計算する類似度計算手段と、この類似度計算手段で計算
された類似度のうち最も高い類似度が一定のしきい値以
上である場合にのみこの最も高い類似度の前記登録パタ
ーンに対応する単語を認識結果として出力する認識結果
出力手段とを備え、前記ニューラルネットワークのそれ
ぞれは、雑音を含んだ前記登録パターンに対してこの雑
音を除去してこの登録パターンを出力するように予め学
習されていることを特徴とする車載用音声認識装置。 - 【請求項2】 前記ニューラルネットワークは、リカレ
ントニューラルネットワークであることを特徴とする請
求項1記載の車載用音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6107734A JPH07295585A (ja) | 1994-04-22 | 1994-04-22 | 車載用音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6107734A JPH07295585A (ja) | 1994-04-22 | 1994-04-22 | 車載用音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH07295585A true JPH07295585A (ja) | 1995-11-10 |
Family
ID=14466601
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6107734A Withdrawn JPH07295585A (ja) | 1994-04-22 | 1994-04-22 | 車載用音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH07295585A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015069063A (ja) * | 2013-09-30 | 2015-04-13 | 日本電気通信システム株式会社 | 音声認識システム、音声認識方法、及び音声認識プログラム |
-
1994
- 1994-04-22 JP JP6107734A patent/JPH07295585A/ja not_active Withdrawn
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015069063A (ja) * | 2013-09-30 | 2015-04-13 | 日本電気通信システム株式会社 | 音声認識システム、音声認識方法、及び音声認識プログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3002204B2 (ja) | 時系列信号認識装置 | |
| US6003002A (en) | Method and system of adapting speech recognition models to speaker environment | |
| JP2768274B2 (ja) | 音声認識装置 | |
| EP0388067A2 (en) | Speech recognition system | |
| EP0342630A2 (en) | Speech recognition with speaker adaptation by learning | |
| JP2000507714A (ja) | 言語処理 | |
| JPH0792673B2 (ja) | 認識用辞書学習方法 | |
| US20020091522A1 (en) | System and method for hybrid voice recognition | |
| JPH07334184A (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
| JPS634200B2 (ja) | ||
| US5758021A (en) | Speech recognition combining dynamic programming and neural network techniques | |
| JP2002023776A (ja) | ブラインドセパレーションにおける話者音声と非音声雑音の識別方法及び話者音声チャンネルの特定方法 | |
| JP2002123286A (ja) | 音声認識方法 | |
| CN1420486A (zh) | 基于决策树的语音辨别 | |
| JPH07295585A (ja) | 車載用音声認識装置 | |
| JP2700143B2 (ja) | 音声コーディング装置および方法 | |
| US20080228477A1 (en) | Method and Device For Processing a Voice Signal For Robust Speech Recognition | |
| AU646060B2 (en) | Adaptation of reference speech patterns in speech recognition | |
| US7231352B2 (en) | Method for computer-supported speech recognition, speech recognition system and control device for controlling a technical system and telecommunications device | |
| JPH01202798A (ja) | 音声認識方法 | |
| JP3036509B2 (ja) | 話者照合における閾値決定方法及び装置 | |
| JP3605011B2 (ja) | 音声認識方法 | |
| JP3100180B2 (ja) | 音声認識方法 | |
| JP2002091480A (ja) | 音響モデル生成装置及び音声認識装置 | |
| JP2752981B2 (ja) | 音声認識装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20010703 |