JPH0573094A - 連続音声認識方法 - Google Patents
連続音声認識方法Info
- Publication number
- JPH0573094A JPH0573094A JP3232132A JP23213291A JPH0573094A JP H0573094 A JPH0573094 A JP H0573094A JP 3232132 A JP3232132 A JP 3232132A JP 23213291 A JP23213291 A JP 23213291A JP H0573094 A JPH0573094 A JP H0573094A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- phoneme series
- phoneme string
- phoneme
- corrected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Abstract
(57)【要約】
【目的】 連続音声認識方法における処理速度及び文章
認識率を高める。 【構成】 入力音声信号に対する音響処理によって音素
列信号を取出し、この音素列信号に対する言語処理によ
って文章認識を行うにおいて、話者の実際の音声信号を
教師信号として教師あり学習を行うニューラルネットワ
ークによって音素列信号を言語処理する。
認識率を高める。 【構成】 入力音声信号に対する音響処理によって音素
列信号を取出し、この音素列信号に対する言語処理によ
って文章認識を行うにおいて、話者の実際の音声信号を
教師信号として教師あり学習を行うニューラルネットワ
ークによって音素列信号を言語処理する。
Description
【0001】
【産業上の利用分野】本発明は、連続音声認識方法に係
り、特に会話音声認識方法に関する。
り、特に会話音声認識方法に関する。
【0002】
【従来の技術】音声認識方式のうち、単語を連続して発
声した音声を認識する連続音声認識方式は、比較的少数
の語いを認識する連続単語音声認識、さらには言語的知
識を付加して比較的多数の語いの意味内容を認識する会
話音声認識がある。図2は会話音声認識方式の構成を示
す。この構成は階層モデルを示し、音響処理部1と言語
処理部2による階層で分散処理する。音響処理部1は、
入力音声から特徴抽出を行い、音声信号のセグメント
化、音素認識により音素列に変換する。言語処理部2は
辞書と音韻規則から単語あるいは単語列の候補を作成
し、構文、意味、文脈などの言語情報を用いることによ
って音素列を補正し、文章として出力する。
声した音声を認識する連続音声認識方式は、比較的少数
の語いを認識する連続単語音声認識、さらには言語的知
識を付加して比較的多数の語いの意味内容を認識する会
話音声認識がある。図2は会話音声認識方式の構成を示
す。この構成は階層モデルを示し、音響処理部1と言語
処理部2による階層で分散処理する。音響処理部1は、
入力音声から特徴抽出を行い、音声信号のセグメント
化、音素認識により音素列に変換する。言語処理部2は
辞書と音韻規則から単語あるいは単語列の候補を作成
し、構文、意味、文脈などの言語情報を用いることによ
って音素列を補正し、文章として出力する。
【0003】この階層モデルのほかに、音響レベルと言
語レベルに共通のデータベースを用いるブラックボード
モデル、言語レベルにネットワークを用いるネットワー
クモデルがある。
語レベルに共通のデータベースを用いるブラックボード
モデル、言語レベルにネットワークを用いるネットワー
クモデルがある。
【0004】
【発明が解決しようとする課題】従来の方式において、
音響処理部1では完全な音素認識を行うことが難しく、
出力される音素列には誤りが含まれている。そこで、言
語処理部では誤りが含まれていることを前提に処理する
ため、完全にマッチしていない単語も候補に上げ、構文
や意味等の言語情報から誤った候補を除いている。
音響処理部1では完全な音素認識を行うことが難しく、
出力される音素列には誤りが含まれている。そこで、言
語処理部では誤りが含まれていることを前提に処理する
ため、完全にマッチしていない単語も候補に上げ、構文
や意味等の言語情報から誤った候補を除いている。
【0005】このため、音響処理部での音素認識率が低
下すると、言語処理部で上げる単語候補も多くなり、処
理速度の低下及び文章認識率の低下になる問題があっ
た。
下すると、言語処理部で上げる単語候補も多くなり、処
理速度の低下及び文章認識率の低下になる問題があっ
た。
【0006】本発明の目的は、処理速度及び文章認識率
を高めた連続音声認識方法を提供することにある。
を高めた連続音声認識方法を提供することにある。
【0007】
【課題を解決するための手段】入力音声信号に対する音
響処理によって音素列信号を取出し、この音素列信号に
対する言語処理によって文章認識を行うにおいて、話者
の実際の音声信号を教師信号として学習によって前記音
素列信号を修正するニューラルネットワークによって修
正した音素列信号で言語処理することを特徴とする。
響処理によって音素列信号を取出し、この音素列信号に
対する言語処理によって文章認識を行うにおいて、話者
の実際の音声信号を教師信号として学習によって前記音
素列信号を修正するニューラルネットワークによって修
正した音素列信号で言語処理することを特徴とする。
【0008】
【作用】音響処理した音素列信号に対し、ニューラルネ
ットワークによる教師あり学習によって修正した音素列
信号を得、これを言語処理のための音素列信号に使用す
ることで音響処理部での音響処理誤りを少なくし、言語
処理部での単語候補低減を図る。
ットワークによる教師あり学習によって修正した音素列
信号を得、これを言語処理のための音素列信号に使用す
ることで音響処理部での音響処理誤りを少なくし、言語
処理部での単語候補低減を図る。
【0009】
【実施例】図1は本発明の一実施例を示す構成図であ
る。同図中、音響処理部1及び言語処理部2は従来の階
層モデルと同様の処理を行う。
る。同図中、音響処理部1及び言語処理部2は従来の階
層モデルと同様の処理を行う。
【0010】ニューラルネットワーク3は音響処理部1
から音素列信号と実際に発声された音素列信号とから学
習によって修正した音素列を得、この修正音素列信号を
言語処理部2へ音素列信号として与える。
から音素列信号と実際に発声された音素列信号とから学
習によって修正した音素列を得、この修正音素列信号を
言語処理部2へ音素列信号として与える。
【0011】ニューラルネットワーク3による音素列修
正は、教師あり学習を行うもので、話者が実際に発生し
た音声信号を教師信号とし音響処理した音素列に対する
修正音素列信号を学習によって修正するか、又は実音声
との誤差を教師信号として学習を修正する。
正は、教師あり学習を行うもので、話者が実際に発生し
た音声信号を教師信号とし音響処理した音素列に対する
修正音素列信号を学習によって修正するか、又は実音声
との誤差を教師信号として学習を修正する。
【0012】このようなニューラルネットワーク3を介
在することにより、音響処理部1で発生する音素列化へ
の誤りの傾向又は誤差そのものがニューラルネットワー
クで学習され、この学習は処理を繰り返すほど段階的に
修正能力が高められ、音素列の誤りを修正する。これに
より、言語処理部2における単語候補も少なくし、処理
速度を高め、また文章認識率も高める。
在することにより、音響処理部1で発生する音素列化へ
の誤りの傾向又は誤差そのものがニューラルネットワー
クで学習され、この学習は処理を繰り返すほど段階的に
修正能力が高められ、音素列の誤りを修正する。これに
より、言語処理部2における単語候補も少なくし、処理
速度を高め、また文章認識率も高める。
【0013】なお、本発明は階層モデルに限らず、ブラ
ックボードモデルやネットワークモデルでの音響レベル
処理に適用して同等の作用効果が得られる。
ックボードモデルやネットワークモデルでの音響レベル
処理に適用して同等の作用効果が得られる。
【0014】
【発明の効果】以上のとおり、本発明によれば、音響処
理による音素列信号に対しニューラルネットワークによ
って教師あり学習による修正を行い、この修正音素列信
号を言語処理するようにしたため、音響処理部での処理
の誤りにも言語処理部での単語候補数を低減してその処
理速度向上及び文章認識率の向上を図ることができる。
理による音素列信号に対しニューラルネットワークによ
って教師あり学習による修正を行い、この修正音素列信
号を言語処理するようにしたため、音響処理部での処理
の誤りにも言語処理部での単語候補数を低減してその処
理速度向上及び文章認識率の向上を図ることができる。
【図1】本発明の一実施例を示す構成図。
【図2】従来の方式を示す構成図。
1…音響処理部,2…言語処理部,3…ニューラルネッ
トワーク。
トワーク。
Claims (1)
- 【請求項1】 入力音声信号に対する音響処理によって
音素列信号を取出し、この音素列信号に対する言語処理
によって文章認識を行うにおいて、話者の実際の音声信
号を教師信号として学習によって前記音素列信号を修正
するニューラルネットワークによって修正した音素列信
号で言語処理することを特徴とする連続音声認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3232132A JPH0573094A (ja) | 1991-09-12 | 1991-09-12 | 連続音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3232132A JPH0573094A (ja) | 1991-09-12 | 1991-09-12 | 連続音声認識方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0573094A true JPH0573094A (ja) | 1993-03-26 |
Family
ID=16934502
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3232132A Pending JPH0573094A (ja) | 1991-09-12 | 1991-09-12 | 連続音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0573094A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7343288B2 (en) | 2002-05-08 | 2008-03-11 | Sap Ag | Method and system for the processing and storing of voice information and corresponding timeline information |
| US7406413B2 (en) | 2002-05-08 | 2008-07-29 | Sap Aktiengesellschaft | Method and system for the processing of voice data and for the recognition of a language |
| JP4987203B2 (ja) * | 1999-11-12 | 2012-07-25 | フェニックス ソリューションズ インコーポレーテッド | 分散型リアルタイム音声認識装置 |
| JP2023030678A (ja) * | 2021-08-23 | 2023-03-08 | 日本放送協会 | 学習装置、データ生成装置及びプログラム |
-
1991
- 1991-09-12 JP JP3232132A patent/JPH0573094A/ja active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4987203B2 (ja) * | 1999-11-12 | 2012-07-25 | フェニックス ソリューションズ インコーポレーテッド | 分散型リアルタイム音声認識装置 |
| US7343288B2 (en) | 2002-05-08 | 2008-03-11 | Sap Ag | Method and system for the processing and storing of voice information and corresponding timeline information |
| US7406413B2 (en) | 2002-05-08 | 2008-07-29 | Sap Aktiengesellschaft | Method and system for the processing of voice data and for the recognition of a language |
| JP2023030678A (ja) * | 2021-08-23 | 2023-03-08 | 日本放送協会 | 学習装置、データ生成装置及びプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
| US6233553B1 (en) | Method and system for automatically determining phonetic transcriptions associated with spelled words | |
| US8498857B2 (en) | System and method for rapid prototyping of existing speech recognition solutions in different languages | |
| WO2022083083A1 (zh) | 一种声音变换系统以及声音变换系统的训练方法 | |
| US6138099A (en) | Automatically updating language models | |
| Raux et al. | Using task-oriented spoken dialogue systems for language learning: potential, practical applications and challenges | |
| JP2003316386A (ja) | 音声認識方法および音声認識装置および音声認識プログラム | |
| US20020087317A1 (en) | Computer-implemented dynamic pronunciation method and system | |
| JPH06110494A (ja) | 発音学習装置 | |
| JPH0573094A (ja) | 連続音声認識方法 | |
| Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
| KR20220036239A (ko) | 딥러닝 기반의 발음 평가 시스템 | |
| US20100161312A1 (en) | Method of semantic, syntactic and/or lexical correction, corresponding corrector, as well as recording medium and computer program for implementing this method | |
| JPH03226785A (ja) | 音声認識装置付き語学用教育装置 | |
| CN114512124A (zh) | 端到端语音识别方法、装置及电子设备 | |
| JPWO2022185437A5 (ja) | ||
| Polyakova et al. | Learning from errors in grapheme-to-phoneme conversion. | |
| JP2001188556A (ja) | 音声認識方法及び装置 | |
| JPH0736481A (ja) | 補完音声認識装置 | |
| JPS6229796B2 (ja) | ||
| JPH0229799A (ja) | 音素を単位とした音声認識装置 | |
| Montoya Gomez et al. | Refined Analysis of Reading Miscues | |
| KR19980013825A (ko) | 언어모델 적응기능을 가진 음성인식장치 및 그 제어방법 | |
| JPH08171396A (ja) | 音声認識装置 | |
| CN121053989A (zh) | 文本处理方法、装置、电子设备、存储介质及程序产品 |