JPH06289899A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH06289899A JPH06289899A JP5074107A JP7410793A JPH06289899A JP H06289899 A JPH06289899 A JP H06289899A JP 5074107 A JP5074107 A JP 5074107A JP 7410793 A JP7410793 A JP 7410793A JP H06289899 A JPH06289899 A JP H06289899A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- neural network
- recognition
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 ニューラルネットを認識部に用いた音声認識
装置において、認識ミスが生じた場合、そのミスを生じ
させた音声特徴データをニューラルネット部に学習させ
ることにより、話者の発音の経時変化に対応する。 【構成】 音声認識装置に組み込まれたニューラルネッ
ト部3に、認識をミスした音声特徴データを、そのつど
自動的に音声認識・学習制御部7の制御により学習させ
るものである。また、不良データの学習を防ぐため、学
習はその音声特徴データが学習済みのデータにある程度
一致している場合のみ実行される。したがって、話者の
発音が経時変化しても、その音声特徴データを、そのつ
ど学習させることによって話者の発音の変化に対応し、
高い認識精度を保ち続けることができる。
装置において、認識ミスが生じた場合、そのミスを生じ
させた音声特徴データをニューラルネット部に学習させ
ることにより、話者の発音の経時変化に対応する。 【構成】 音声認識装置に組み込まれたニューラルネッ
ト部3に、認識をミスした音声特徴データを、そのつど
自動的に音声認識・学習制御部7の制御により学習させ
るものである。また、不良データの学習を防ぐため、学
習はその音声特徴データが学習済みのデータにある程度
一致している場合のみ実行される。したがって、話者の
発音が経時変化しても、その音声特徴データを、そのつ
ど学習させることによって話者の発音の変化に対応し、
高い認識精度を保ち続けることができる。
Description
【0001】
【産業上の利用分野】本発明は、話者が発する単語音声
を認識し、その結果を出力する音声認識装置に関するも
のである。
を認識し、その結果を出力する音声認識装置に関するも
のである。
【0002】
【従来の技術】従来のニューラルネット部を用いて単語
音声を認識する音声認識装置では、単語音声の音声特徴
データを予めニューラルネット部に学習させ、認識時に
は音声の特徴データがニューラルネット部に渡され、学
習済み単語との一致度が認識結果として出力されるよう
になっていた。
音声を認識する音声認識装置では、単語音声の音声特徴
データを予めニューラルネット部に学習させ、認識時に
は音声の特徴データがニューラルネット部に渡され、学
習済み単語との一致度が認識結果として出力されるよう
になっていた。
【0003】
【発明が解決しようとする課題】従来の音声認識装置で
は、ニューラルネット部の学習後に話者の発音が経時変
化した場合、単語の認識ミスが生じやすかった。そし
て、認識を行うニューラルネット部の学習データを入力
し直して学習をやり直さない限り、認識ミスが改善され
ることはなかった。また、その際に雑音や特異な発音を
含む不良データを学習させると、かえって認識精度を低
下させるおそれがあった。
は、ニューラルネット部の学習後に話者の発音が経時変
化した場合、単語の認識ミスが生じやすかった。そし
て、認識を行うニューラルネット部の学習データを入力
し直して学習をやり直さない限り、認識ミスが改善され
ることはなかった。また、その際に雑音や特異な発音を
含む不良データを学習させると、かえって認識精度を低
下させるおそれがあった。
【0004】本発明はこのような従来の問題点を解決
し、話者の発音の変化に対応して高い認識精度を維持し
うる音声認識装置の提供を目的とする。
し、話者の発音の変化に対応して高い認識精度を維持し
うる音声認識装置の提供を目的とする。
【0005】
【課題を解決するための手段】本発明は上記目的を達成
するため、特定・不特定話者が発声する単語音声を認識
するニューラルネットを用いた音声認識装置において、
音声信号を入力するための音声入力部と、前記音声信号
からその特徴を抽出する音声信号特徴抽出部と、ニュー
ラルネットの学習用データ記憶部と、認識結果を表示し
ユーザからその正誤を受け取る外部インタフェース部
と、抽出した音声特徴データと学習済みの各単語の音声
特徴データとの一致の度合いを数字で出力し、かつ与え
られた音声特徴データを学習するニューラルネット部
と、前記ニューラルネット部が出力する一致度から認識
結果を判定する認識結果判定部と、上記データの流れを
制御し、前記ニューラルネット部に学習を行わせる音声
認識・学習制御部とを備えたことを特徴とする。
するため、特定・不特定話者が発声する単語音声を認識
するニューラルネットを用いた音声認識装置において、
音声信号を入力するための音声入力部と、前記音声信号
からその特徴を抽出する音声信号特徴抽出部と、ニュー
ラルネットの学習用データ記憶部と、認識結果を表示し
ユーザからその正誤を受け取る外部インタフェース部
と、抽出した音声特徴データと学習済みの各単語の音声
特徴データとの一致の度合いを数字で出力し、かつ与え
られた音声特徴データを学習するニューラルネット部
と、前記ニューラルネット部が出力する一致度から認識
結果を判定する認識結果判定部と、上記データの流れを
制御し、前記ニューラルネット部に学習を行わせる音声
認識・学習制御部とを備えたことを特徴とする。
【0006】
【作用】本発明によれば、音声認識装置に組み込まれた
ニューラルネット部に、認識をミスした音声特徴データ
を、そのつど自動的に学習させるものである。また、不
良データの学習を防ぐため、学習はその音声特徴データ
が学習済みのデータにある程度一致している場合のみ実
行される。
ニューラルネット部に、認識をミスした音声特徴データ
を、そのつど自動的に学習させるものである。また、不
良データの学習を防ぐため、学習はその音声特徴データ
が学習済みのデータにある程度一致している場合のみ実
行される。
【0007】したがって、話者の発音が経時変化して
も、その音声特徴データを、そのつど学習させることに
よって話者の発音の変化に対応し、高い認識精度を保ち
続けることができる。
も、その音声特徴データを、そのつど学習させることに
よって話者の発音の変化に対応し、高い認識精度を保ち
続けることができる。
【0008】
【実施例】図1は本発明の一実施例における音声認識装
置の機能ブロック図であり、図1において、1は話者が
発声した音声を入力するための音声入力部、2は前記音
声入力部1により入力された音声信号から、その音声特
徴データを算出する音声信号特徴抽出部、3は音声特徴
データを入力とし、学習した各単語の音声特徴データと
の一致の度合いを出力するニューラルネット部、4はニ
ューラルネット部3から認識結果を受け取り、一致度の
上位3つの単語を算出する認識結果判定部、5はニュー
ラルネット部3に学習させた単語の音声特徴データを記
憶しておく学習用データ記憶部、6は学習用データ記憶
部5から認識結果を受け取り、それを表示し、ユーザか
ら結果の正誤を入力してもらう外部インタフェース部、
7は外部インタフェース部6から認識結果の正誤情報を
受け取り、ニューラルネット部3に学習させるかどうか
を決定する音声認識・学習制御部である。
置の機能ブロック図であり、図1において、1は話者が
発声した音声を入力するための音声入力部、2は前記音
声入力部1により入力された音声信号から、その音声特
徴データを算出する音声信号特徴抽出部、3は音声特徴
データを入力とし、学習した各単語の音声特徴データと
の一致の度合いを出力するニューラルネット部、4はニ
ューラルネット部3から認識結果を受け取り、一致度の
上位3つの単語を算出する認識結果判定部、5はニュー
ラルネット部3に学習させた単語の音声特徴データを記
憶しておく学習用データ記憶部、6は学習用データ記憶
部5から認識結果を受け取り、それを表示し、ユーザか
ら結果の正誤を入力してもらう外部インタフェース部、
7は外部インタフェース部6から認識結果の正誤情報を
受け取り、ニューラルネット部3に学習させるかどうか
を決定する音声認識・学習制御部である。
【0009】図2は図1の音声認識装置の回路ブロック
図であり、8はマイクロホン、9はリードオンリメモリ
(以下、ROMと略称する)、10は中央処理装置(以下、
CPUと略称する)、11はランダムアクセスメモリ(以
下、RAMと略称する)、12はモニター、13はキーボー
ドである。
図であり、8はマイクロホン、9はリードオンリメモリ
(以下、ROMと略称する)、10は中央処理装置(以下、
CPUと略称する)、11はランダムアクセスメモリ(以
下、RAMと略称する)、12はモニター、13はキーボー
ドである。
【0010】ここで上記図1に示した音声入力部1はマ
イクロホン8により、学習用データ記憶部5はRAM11
により、音声信号特徴抽出部2とニューラルネット部3
と認識結果判定部4と音声認識・学習制御部7は、CP
U10がROM9およびRAM11とデータの授受を行いな
がらROM9に記憶されたプログラムを実行することに
より、外部インタフェース部6はモニター12とキーボー
ド13により、それぞれ実現されている。
イクロホン8により、学習用データ記憶部5はRAM11
により、音声信号特徴抽出部2とニューラルネット部3
と認識結果判定部4と音声認識・学習制御部7は、CP
U10がROM9およびRAM11とデータの授受を行いな
がらROM9に記憶されたプログラムを実行することに
より、外部インタフェース部6はモニター12とキーボー
ド13により、それぞれ実現されている。
【0011】上記のように構成された本発明の一実施例
における音声認識装置に、「たなか」という単語の音声
が、初期の学習時とは異なる発音で与えられた場合につ
いて、以下、この動作を図3のフローチャートに基づき
説明する。なお、ニューラルネット部3は(表1)に示す
学習用データを既に学習しているものとする。一単語に
つき、2つのデータがあり、1つのデータの大きさは27
0バイトで、45個の数値よりなる。
における音声認識装置に、「たなか」という単語の音声
が、初期の学習時とは異なる発音で与えられた場合につ
いて、以下、この動作を図3のフローチャートに基づき
説明する。なお、ニューラルネット部3は(表1)に示す
学習用データを既に学習しているものとする。一単語に
つき、2つのデータがあり、1つのデータの大きさは27
0バイトで、45個の数値よりなる。
【0012】
【表1】
【0013】ステップ(S1)で、音声信号特徴抽出部2
は音声入力部1から入力された入力音声信号に対する音
声特徴抽出を行う。
は音声入力部1から入力された入力音声信号に対する音
声特徴抽出を行う。
【0014】ステップ(S2)では、抽出された音声特徴
データをニューラルネット部3に入力し、出力として学
習済みの各単語との一致度を得る。得られた一致度が大
きい順に上位3つの単語が認識結果判定部4によって算
出される。上記例では、(表2)に示すように、「たな
か」は第2位で、「とくだ」が第1位となったとする。
データをニューラルネット部3に入力し、出力として学
習済みの各単語との一致度を得る。得られた一致度が大
きい順に上位3つの単語が認識結果判定部4によって算
出される。上記例では、(表2)に示すように、「たな
か」は第2位で、「とくだ」が第1位となったとする。
【0015】
【表2】
【0016】ステップ(S3)では、外部インタフェース
部6が認識結果をモニター12に出力し、ユーザがそれを
見て、認識結果が正しい場合はyesを、認識結果が誤っ
ている場合は正しい答えをキーボード13に入力する。上
記例では、認識結果が誤っているため(no)、ユーザは
「たなか」と入力する。
部6が認識結果をモニター12に出力し、ユーザがそれを
見て、認識結果が正しい場合はyesを、認識結果が誤っ
ている場合は正しい答えをキーボード13に入力する。上
記例では、認識結果が誤っているため(no)、ユーザは
「たなか」と入力する。
【0017】ステップ(S4)では、音声認識・学習制御
部7が外部インタフェース部6からユーザの入力を受け
取り、入力がyesであれば処理を終了する。入力がnoの
場合は、ユーザが入力した正解単語が認識の第3位以内
に入っていれば、ステップ(S5)に進み、入って入なけ
れば処理を終了する。これは、雑音が混じった不良デー
タや、発音が大きく乱れたデータが学習用データに混入
することを防ぐためである。上記例では、「たなか」は
第2位になっているため正常データとみなし、ステップ
(S6)に進む。
部7が外部インタフェース部6からユーザの入力を受け
取り、入力がyesであれば処理を終了する。入力がnoの
場合は、ユーザが入力した正解単語が認識の第3位以内
に入っていれば、ステップ(S5)に進み、入って入なけ
れば処理を終了する。これは、雑音が混じった不良デー
タや、発音が大きく乱れたデータが学習用データに混入
することを防ぐためである。上記例では、「たなか」は
第2位になっているため正常データとみなし、ステップ
(S6)に進む。
【0018】ステップ(S5)では、学習用データ記憶部
5の学習用データの中の古い音声特徴データを今回誤認
識した音声特徴データに更新し、RAM11に記憶する。
上記例では、(表1)の学習用データ中の「たなか」の音
声特徴データの古い方(No.3)を消去し、今回誤認識した
「たなか」のデータを記録する。つまり、(表3)に変更
後の学習用データを示し、No.3に新しいデータが挿入さ
れ、もとのNo.3はNo.4になる。
5の学習用データの中の古い音声特徴データを今回誤認
識した音声特徴データに更新し、RAM11に記憶する。
上記例では、(表1)の学習用データ中の「たなか」の音
声特徴データの古い方(No.3)を消去し、今回誤認識した
「たなか」のデータを記録する。つまり、(表3)に変更
後の学習用データを示し、No.3に新しいデータが挿入さ
れ、もとのNo.3はNo.4になる。
【0019】
【表3】
【0020】また、ステップ(S6)では、更新された学
習用データをニューラルネット部3に学習させ、学習し
たニューラルネットを保存する。ニューラルネット部の
初期の学習では数千回の学習回数が必要だが、学習用デ
ータの一部更新のみの場合では百回程度の回数で十分に
学習が収束し、学習にかかる時間も実用範囲内であり、
学習したデータを正確に認識できるようになることが実
験によって明らかになっている。上記例では、ニューラ
ルネット部は「たなか」の発音の変化を学習するため、
後に「たなか」の発音が同様に変化しても正しく認識す
ることができるようになる。
習用データをニューラルネット部3に学習させ、学習し
たニューラルネットを保存する。ニューラルネット部の
初期の学習では数千回の学習回数が必要だが、学習用デ
ータの一部更新のみの場合では百回程度の回数で十分に
学習が収束し、学習にかかる時間も実用範囲内であり、
学習したデータを正確に認識できるようになることが実
験によって明らかになっている。上記例では、ニューラ
ルネット部は「たなか」の発音の変化を学習するため、
後に「たなか」の発音が同様に変化しても正しく認識す
ることができるようになる。
【0021】以上のように、従来の音声認識装置にニュ
ーラルネット部の学習機能と正常データの判別機能を加
えることによって、ユーザが誤りを指摘するだけで装置
は正常データのみを自動的に学習し、話者の発音が経時
変化しても高い認識精度を保つことが可能となる。
ーラルネット部の学習機能と正常データの判別機能を加
えることによって、ユーザが誤りを指摘するだけで装置
は正常データのみを自動的に学習し、話者の発音が経時
変化しても高い認識精度を保つことが可能となる。
【0022】
【発明の効果】以上説明したように本発明の音声認識装
置は、特別な操作を必要とせずに話者の発音の変化を自
動的に学習することによって、高い認識精度を得ること
ができる。
置は、特別な操作を必要とせずに話者の発音の変化を自
動的に学習することによって、高い認識精度を得ること
ができる。
【図面の簡単な説明】
【図1】本発明の一実施例における音声合成装置の機能
ブロック図である。
ブロック図である。
【図2】図1の回路ブロック図である。
【図3】図1の動作を説明するフローチャートである。
1…音声入力部、 2…音声信号特徴抽出部、 3…ニ
ューラルネット部、 4…認識結果判定部、 5…学習
用データ記憶部、 6…外部インタフェース部、7…音
声認識・学習制御部、 8…マイクロホン、 9…RO
M、 10…CPU、 11…RAM、 12…モニター、
13…キーボード。
ューラルネット部、 4…認識結果判定部、 5…学習
用データ記憶部、 6…外部インタフェース部、7…音
声認識・学習制御部、 8…マイクロホン、 9…RO
M、 10…CPU、 11…RAM、 12…モニター、
13…キーボード。
Claims (1)
- 【請求項1】 特定・不特定話者が発声する単語音声を
認識するニューラルネットを用いた音声認識装置におい
て、 音声信号を入力するための音声入力部と、前記音声信号
からその特徴を抽出する音声信号特徴抽出部と、ニュー
ラルネットの学習用データ記憶部と、認識結果を表示し
ユーザからその正誤を受け取る外部インタフェース部
と、抽出した音声特徴データと学習済みの各単語の音声
特徴データとの一致の度合いを数字で出力し、かつ与え
られた音声特徴データを学習するニューラルネット部
と、前記ニューラルネット部が出力する一致度から認識
結果を判定する認識結果判定部と、上記データの流れを
制御し、前記ニューラルネット部に学習を行わせる音声
認識・学習制御部とを備えたことを特徴とする音声認識
装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5074107A JPH06289899A (ja) | 1993-03-31 | 1993-03-31 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5074107A JPH06289899A (ja) | 1993-03-31 | 1993-03-31 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH06289899A true JPH06289899A (ja) | 1994-10-18 |
Family
ID=13537644
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5074107A Pending JPH06289899A (ja) | 1993-03-31 | 1993-03-31 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH06289899A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017107098A (ja) * | 2015-12-10 | 2017-06-15 | 株式会社リクルートライフスタイル | 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム |
| JP2023503008A (ja) * | 2019-11-18 | 2023-01-26 | グーグル エルエルシー | 実世界のオーディオ訓練データの自動化されたマイニング |
-
1993
- 1993-03-31 JP JP5074107A patent/JPH06289899A/ja active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017107098A (ja) * | 2015-12-10 | 2017-06-15 | 株式会社リクルートライフスタイル | 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム |
| JP2023503008A (ja) * | 2019-11-18 | 2023-01-26 | グーグル エルエルシー | 実世界のオーディオ訓練データの自動化されたマイニング |
| US12106748B2 (en) | 2019-11-18 | 2024-10-01 | Google Llc | Automated mining of real-world audio training data |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6671672B1 (en) | Voice authentication system having cognitive recall mechanism for password verification | |
| JP3880163B2 (ja) | 音声認識中に可変数の代替ワードを表示する方法及びシステム | |
| US5832063A (en) | Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases | |
| US5428707A (en) | Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance | |
| US7039629B1 (en) | Method for inputting data into a system | |
| JP4588069B2 (ja) | 操作者認識装置、操作者認識方法、および、操作者認識プログラム | |
| JPS603699A (ja) | 適応性自動離散音声認識方法 | |
| JPH10133685A (ja) | 連続音声認識中にフレーズを編集する方法及びシステム | |
| KR101819458B1 (ko) | 음성 인식 장치 및 시스템 | |
| CN109215638B (zh) | 一种语音学习方法、装置、语音设备及存储介质 | |
| US7035800B2 (en) | Method for entering characters | |
| US20080177542A1 (en) | Voice Recognition Program | |
| CN117292688A (zh) | 一种基于智能语音鼠标的控制方法及智能语音鼠标 | |
| KR100554442B1 (ko) | 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법 | |
| JP4216361B2 (ja) | 数字用音声認識システム | |
| JPH06289899A (ja) | 音声認識装置 | |
| KR102392992B1 (ko) | 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 | |
| JP2003140690A (ja) | 情報システム、電子機器、プログラム | |
| JPH06130985A (ja) | 音声認識装置 | |
| JPH10187184A (ja) | 認識された音声を修正するときに認識されたワードを選択する方法及びシステム | |
| JP2002215184A (ja) | 音声認識装置、及びプログラム | |
| US6141661A (en) | Method and apparatus for performing a grammar-pruning operation | |
| JP2001092493A (ja) | 音声認識修正方式 | |
| CN113920803A (zh) | 一种错误反馈方法、装置、设备及可读存储介质 | |
| JPH064264A (ja) | 音声入出力システム |