JPH06289899A

JPH06289899A - 音声認識装置

Info

Publication number: JPH06289899A
Application number: JP5074107A
Authority: JP
Inventors: Tadamichi Tokuda; 肇道徳田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1993-03-31
Filing date: 1993-03-31
Publication date: 1994-10-18

Abstract

(57)【要約】【目的】ニューラルネットを認識部に用いた音声認識
装置において、認識ミスが生じた場合、そのミスを生じ
させた音声特徴データをニューラルネット部に学習させ
ることにより、話者の発音の経時変化に対応する。【構成】音声認識装置に組み込まれたニューラルネッ
ト部３に、認識をミスした音声特徴データを、そのつど
自動的に音声認識・学習制御部７の制御により学習させ
るものである。また、不良データの学習を防ぐため、学
習はその音声特徴データが学習済みのデータにある程度
一致している場合のみ実行される。したがって、話者の
発音が経時変化しても、その音声特徴データを、そのつ
ど学習させることによって話者の発音の変化に対応し、
高い認識精度を保ち続けることができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、話者が発する単語音声
を認識し、その結果を出力する音声認識装置に関するも
のである。

【０００２】

【従来の技術】従来のニューラルネット部を用いて単語
音声を認識する音声認識装置では、単語音声の音声特徴
データを予めニューラルネット部に学習させ、認識時に
は音声の特徴データがニューラルネット部に渡され、学
習済み単語との一致度が認識結果として出力されるよう
になっていた。

【０００３】

【発明が解決しようとする課題】従来の音声認識装置で
は、ニューラルネット部の学習後に話者の発音が経時変
化した場合、単語の認識ミスが生じやすかった。そし
て、認識を行うニューラルネット部の学習データを入力
し直して学習をやり直さない限り、認識ミスが改善され
ることはなかった。また、その際に雑音や特異な発音を
含む不良データを学習させると、かえって認識精度を低
下させるおそれがあった。

【０００４】本発明はこのような従来の問題点を解決
し、話者の発音の変化に対応して高い認識精度を維持し
うる音声認識装置の提供を目的とする。

【０００５】

【課題を解決するための手段】本発明は上記目的を達成
するため、特定・不特定話者が発声する単語音声を認識
するニューラルネットを用いた音声認識装置において、
音声信号を入力するための音声入力部と、前記音声信号
からその特徴を抽出する音声信号特徴抽出部と、ニュー
ラルネットの学習用データ記憶部と、認識結果を表示し
ユーザからその正誤を受け取る外部インタフェース部
と、抽出した音声特徴データと学習済みの各単語の音声
特徴データとの一致の度合いを数字で出力し、かつ与え
られた音声特徴データを学習するニューラルネット部
と、前記ニューラルネット部が出力する一致度から認識
結果を判定する認識結果判定部と、上記データの流れを
制御し、前記ニューラルネット部に学習を行わせる音声
認識・学習制御部とを備えたことを特徴とする。

【０００６】

【作用】本発明によれば、音声認識装置に組み込まれた
ニューラルネット部に、認識をミスした音声特徴データ
を、そのつど自動的に学習させるものである。また、不
良データの学習を防ぐため、学習はその音声特徴データ
が学習済みのデータにある程度一致している場合のみ実
行される。

【０００７】したがって、話者の発音が経時変化して
も、その音声特徴データを、そのつど学習させることに
よって話者の発音の変化に対応し、高い認識精度を保ち
続けることができる。

【０００８】

【実施例】図１は本発明の一実施例における音声認識装
置の機能ブロック図であり、図１において、１は話者が
発声した音声を入力するための音声入力部、２は前記音
声入力部１により入力された音声信号から、その音声特
徴データを算出する音声信号特徴抽出部、３は音声特徴
データを入力とし、学習した各単語の音声特徴データと
の一致の度合いを出力するニューラルネット部、４はニ
ューラルネット部３から認識結果を受け取り、一致度の
上位３つの単語を算出する認識結果判定部、５はニュー
ラルネット部３に学習させた単語の音声特徴データを記
憶しておく学習用データ記憶部、６は学習用データ記憶
部５から認識結果を受け取り、それを表示し、ユーザか
ら結果の正誤を入力してもらう外部インタフェース部、
７は外部インタフェース部６から認識結果の正誤情報を
受け取り、ニューラルネット部３に学習させるかどうか
を決定する音声認識・学習制御部である。

【０００９】図２は図１の音声認識装置の回路ブロック
図であり、８はマイクロホン、９はリードオンリメモリ
(以下、ＲＯＭと略称する)、10は中央処理装置(以下、
ＣＰＵと略称する)、11はランダムアクセスメモリ(以
下、ＲＡＭと略称する)、12はモニター、13はキーボー
ドである。

【００１０】ここで上記図１に示した音声入力部１はマ
イクロホン８により、学習用データ記憶部５はＲＡＭ11
により、音声信号特徴抽出部２とニューラルネット部３
と認識結果判定部４と音声認識・学習制御部７は、ＣＰ
Ｕ10がＲＯＭ９およびＲＡＭ11とデータの授受を行いな
がらＲＯＭ９に記憶されたプログラムを実行することに
より、外部インタフェース部６はモニター12とキーボー
ド13により、それぞれ実現されている。

【００１１】上記のように構成された本発明の一実施例
における音声認識装置に、「たなか」という単語の音声
が、初期の学習時とは異なる発音で与えられた場合につ
いて、以下、この動作を図３のフローチャートに基づき
説明する。なお、ニューラルネット部３は(表１)に示す
学習用データを既に学習しているものとする。一単語に
つき、２つのデータがあり、１つのデータの大きさは27
0バイトで、45個の数値よりなる。

【００１２】

【表１】

【００１３】ステップ(Ｓ1)で、音声信号特徴抽出部２
は音声入力部１から入力された入力音声信号に対する音
声特徴抽出を行う。

【００１４】ステップ(Ｓ2)では、抽出された音声特徴
データをニューラルネット部３に入力し、出力として学
習済みの各単語との一致度を得る。得られた一致度が大
きい順に上位３つの単語が認識結果判定部４によって算
出される。上記例では、(表２)に示すように、「たな
か」は第２位で、「とくだ」が第１位となったとする。

【００１５】

【表２】

【００１６】ステップ(Ｓ3)では、外部インタフェース
部６が認識結果をモニター12に出力し、ユーザがそれを
見て、認識結果が正しい場合はyesを、認識結果が誤っ
ている場合は正しい答えをキーボード13に入力する。上
記例では、認識結果が誤っているため(no)、ユーザは
「たなか」と入力する。

【００１７】ステップ(Ｓ4)では、音声認識・学習制御
部７が外部インタフェース部６からユーザの入力を受け
取り、入力がyesであれば処理を終了する。入力がnoの
場合は、ユーザが入力した正解単語が認識の第３位以内
に入っていれば、ステップ(Ｓ5)に進み、入って入なけ
れば処理を終了する。これは、雑音が混じった不良デー
タや、発音が大きく乱れたデータが学習用データに混入
することを防ぐためである。上記例では、「たなか」は
第２位になっているため正常データとみなし、ステップ
(Ｓ6)に進む。

【００１８】ステップ(Ｓ5)では、学習用データ記憶部
５の学習用データの中の古い音声特徴データを今回誤認
識した音声特徴データに更新し、ＲＡＭ11に記憶する。
上記例では、(表１)の学習用データ中の「たなか」の音
声特徴データの古い方(No.3)を消去し、今回誤認識した
「たなか」のデータを記録する。つまり、(表３)に変更
後の学習用データを示し、No.3に新しいデータが挿入さ
れ、もとのNo.3はNo.4になる。

【００１９】

【表３】

【００２０】また、ステップ(Ｓ6)では、更新された学
習用データをニューラルネット部３に学習させ、学習し
たニューラルネットを保存する。ニューラルネット部の
初期の学習では数千回の学習回数が必要だが、学習用デ
ータの一部更新のみの場合では百回程度の回数で十分に
学習が収束し、学習にかかる時間も実用範囲内であり、
学習したデータを正確に認識できるようになることが実
験によって明らかになっている。上記例では、ニューラ
ルネット部は「たなか」の発音の変化を学習するため、
後に「たなか」の発音が同様に変化しても正しく認識す
ることができるようになる。

【００２１】以上のように、従来の音声認識装置にニュ
ーラルネット部の学習機能と正常データの判別機能を加
えることによって、ユーザが誤りを指摘するだけで装置
は正常データのみを自動的に学習し、話者の発音が経時
変化しても高い認識精度を保つことが可能となる。

【００２２】

【発明の効果】以上説明したように本発明の音声認識装
置は、特別な操作を必要とせずに話者の発音の変化を自
動的に学習することによって、高い認識精度を得ること
ができる。

【図面の簡単な説明】

【図１】本発明の一実施例における音声合成装置の機能
ブロック図である。

【図２】図１の回路ブロック図である。

【図３】図１の動作を説明するフローチャートである。

【符号の説明】

１…音声入力部、２…音声信号特徴抽出部、３…ニ
ューラルネット部、４…認識結果判定部、５…学習
用データ記憶部、６…外部インタフェース部、７…音
声認識・学習制御部、８…マイクロホン、９…ＲＯ
Ｍ、 10…ＣＰＵ、 11…ＲＡＭ、 12…モニター、
13…キーボード。

Claims

【特許請求の範囲】

【請求項１】特定・不特定話者が発声する単語音声を
認識するニューラルネットを用いた音声認識装置におい
て、音声信号を入力するための音声入力部と、前記音声信号
からその特徴を抽出する音声信号特徴抽出部と、ニュー
ラルネットの学習用データ記憶部と、認識結果を表示し
ユーザからその正誤を受け取る外部インタフェース部
と、抽出した音声特徴データと学習済みの各単語の音声
特徴データとの一致の度合いを数字で出力し、かつ与え
られた音声特徴データを学習するニューラルネット部
と、前記ニューラルネット部が出力する一致度から認識
結果を判定する認識結果判定部と、上記データの流れを
制御し、前記ニューラルネット部に学習を行わせる音声
認識・学習制御部とを備えたことを特徴とする音声認識
装置。