JPH0573094A

JPH0573094A - 連続音声認識方法

Info

Publication number: JPH0573094A
Application number: JP3232132A
Authority: JP
Inventors: Yoshihiro Matsuura; 嘉宏松浦
Original assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Current assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Priority date: 1991-09-12
Filing date: 1991-09-12
Publication date: 1993-03-26

Abstract

(57)【要約】【目的】連続音声認識方法における処理速度及び文章
認識率を高める。【構成】入力音声信号に対する音響処理によって音素
列信号を取出し、この音素列信号に対する言語処理によ
って文章認識を行うにおいて、話者の実際の音声信号を
教師信号として教師あり学習を行うニューラルネットワ
ークによって音素列信号を言語処理する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、連続音声認識方法に係
り、特に会話音声認識方法に関する。

【０００２】

【従来の技術】音声認識方式のうち、単語を連続して発
声した音声を認識する連続音声認識方式は、比較的少数
の語いを認識する連続単語音声認識、さらには言語的知
識を付加して比較的多数の語いの意味内容を認識する会
話音声認識がある。図２は会話音声認識方式の構成を示
す。この構成は階層モデルを示し、音響処理部１と言語
処理部２による階層で分散処理する。音響処理部１は、
入力音声から特徴抽出を行い、音声信号のセグメント
化、音素認識により音素列に変換する。言語処理部２は
辞書と音韻規則から単語あるいは単語列の候補を作成
し、構文、意味、文脈などの言語情報を用いることによ
って音素列を補正し、文章として出力する。

【０００３】この階層モデルのほかに、音響レベルと言
語レベルに共通のデータベースを用いるブラックボード
モデル、言語レベルにネットワークを用いるネットワー
クモデルがある。

【０００４】

【発明が解決しようとする課題】従来の方式において、
音響処理部１では完全な音素認識を行うことが難しく、
出力される音素列には誤りが含まれている。そこで、言
語処理部では誤りが含まれていることを前提に処理する
ため、完全にマッチしていない単語も候補に上げ、構文
や意味等の言語情報から誤った候補を除いている。

【０００５】このため、音響処理部での音素認識率が低
下すると、言語処理部で上げる単語候補も多くなり、処
理速度の低下及び文章認識率の低下になる問題があっ
た。

【０００６】本発明の目的は、処理速度及び文章認識率
を高めた連続音声認識方法を提供することにある。

【０００７】

【課題を解決するための手段】入力音声信号に対する音
響処理によって音素列信号を取出し、この音素列信号に
対する言語処理によって文章認識を行うにおいて、話者
の実際の音声信号を教師信号として学習によって前記音
素列信号を修正するニューラルネットワークによって修
正した音素列信号で言語処理することを特徴とする。

【０００８】

【作用】音響処理した音素列信号に対し、ニューラルネ
ットワークによる教師あり学習によって修正した音素列
信号を得、これを言語処理のための音素列信号に使用す
ることで音響処理部での音響処理誤りを少なくし、言語
処理部での単語候補低減を図る。

【０００９】

【実施例】図１は本発明の一実施例を示す構成図であ
る。同図中、音響処理部１及び言語処理部２は従来の階
層モデルと同様の処理を行う。

【００１０】ニューラルネットワーク３は音響処理部１
から音素列信号と実際に発声された音素列信号とから学
習によって修正した音素列を得、この修正音素列信号を
言語処理部２へ音素列信号として与える。

【００１１】ニューラルネットワーク３による音素列修
正は、教師あり学習を行うもので、話者が実際に発生し
た音声信号を教師信号とし音響処理した音素列に対する
修正音素列信号を学習によって修正するか、又は実音声
との誤差を教師信号として学習を修正する。

【００１２】このようなニューラルネットワーク３を介
在することにより、音響処理部１で発生する音素列化へ
の誤りの傾向又は誤差そのものがニューラルネットワー
クで学習され、この学習は処理を繰り返すほど段階的に
修正能力が高められ、音素列の誤りを修正する。これに
より、言語処理部２における単語候補も少なくし、処理
速度を高め、また文章認識率も高める。

【００１３】なお、本発明は階層モデルに限らず、ブラ
ックボードモデルやネットワークモデルでの音響レベル
処理に適用して同等の作用効果が得られる。

【００１４】

【発明の効果】以上のとおり、本発明によれば、音響処
理による音素列信号に対しニューラルネットワークによ
って教師あり学習による修正を行い、この修正音素列信
号を言語処理するようにしたため、音響処理部での処理
の誤りにも言語処理部での単語候補数を低減してその処
理速度向上及び文章認識率の向上を図ることができる。

【図面の簡単な説明】

【図１】本発明の一実施例を示す構成図。

【図２】従来の方式を示す構成図。

【符号の説明】

１…音響処理部，２…言語処理部，３…ニューラルネッ
トワーク。

Claims

【特許請求の範囲】

【請求項１】入力音声信号に対する音響処理によって
音素列信号を取出し、この音素列信号に対する言語処理
によって文章認識を行うにおいて、話者の実際の音声信
号を教師信号として学習によって前記音素列信号を修正
するニューラルネットワークによって修正した音素列信
号で言語処理することを特徴とする連続音声認識方法。