JPH10116094A - 音声認識方法および音声認識装置 - Google Patents
音声認識方法および音声認識装置Info
- Publication number
- JPH10116094A JPH10116094A JP9265959A JP26595997A JPH10116094A JP H10116094 A JPH10116094 A JP H10116094A JP 9265959 A JP9265959 A JP 9265959A JP 26595997 A JP26595997 A JP 26595997A JP H10116094 A JPH10116094 A JP H10116094A
- Authority
- JP
- Japan
- Prior art keywords
- sentence hypothesis
- phrase
- sentence
- hypothesis
- key phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 53
- 238000012795 verification Methods 0.000 claims description 45
- 238000001514 detection method Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 10
- 238000013459 approach Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000002269 spontaneous effect Effects 0.000 description 4
- 239000000945 filler Substances 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 235000006887 Alpinia galanga Nutrition 0.000 description 1
- 240000002768 Alpinia galanga Species 0.000 description 1
- 238000003657 Likelihood-ratio test Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
よりも多くの発話が受容される、効率および自由度の高
い会話音声認識を実現する。 【解決手段】 キー句検出器11で、会話の状態に固有
の句部分文法の集合に基づいて複数のキー句を検出す
る。次に、キー句検証器12で、これらのキー句に信頼
性尺度を割り当て、その信頼性尺度をしきい値と比較す
ることによってそれらのキー句を検証し、検証済みキー
句候補の集合を得る。次に、文仮説生成器13で、検証
済みキー句候補を、所定の(例えばタスク固有の)意味
情報25に基づいて結合して文仮説を得る。最後に、文
仮説検証器14で、これらの文仮説を検証して、検証済
み文仮説を生成し、最終認識結果を得る。会話ベースの
システムでは、大規模なタスク内の会話の特定の状態に
応じて(すなわち「サブタスク」に対して)、個別の句
部分文法を使用することが可能である。
Description
関し、特に、会話音声を理解する方法に関する。
のためのシステムが開発され、いくつもの「実世界」の
応用で評価されている。いくつかのアプローチが用いら
れている。第1のアプローチは決定性有限状態文法(F
SG)である。これは、簡単なタスクあるいはアプリケ
ーションに限定されるが、ユーザの発話を受け取る(そ
してそれにより認識し最終的には理解する)ものであ
る。このようなシステムでは、認識器は、音声入力全体
を、可能な(すなわち、固定した文法により許容され
る)単語列のいずれかに合うものを見つける(復号す
る)ことを試みる。
固定した文法を使用することは、ほとんど文法的に正し
い文(文法内の文)がシステムに与えられる場合には有
効である。しかし、多数のユーザに適用されるほとんど
の典型的な「実世界」の環境では、さまざまな発話に遭
遇し、その多くはこのようなタスクベースの文法によっ
て十分に対応することができない。このような文法的に
正しくない文(文法外の文)には、例えば、無関係単
語、口ごもり、反復および予想外の表現などがある。日
付あるいは時刻の音声認識のような明らかに単純なサブ
タスクの場合でさえ、自然なユーザ発話の20%以上が
文法外となる可能性が高いことが分かっている。このよ
うな条件下で、これらの文法を用いるシステムの性能は
低い。そしてこの低い性能は、試行期間中に文法を念入
りに調整したにもかかわらず起こる。タスクがさらに複
雑な問合せに関わる場合には状況はさらに悪くなる。こ
のような複雑な問合せに対処する固定したタスクベース
の文法を書いてから十分に調整することは、法外な量の
(人間の)時間および労力を必要とすることが明らかに
なっている。
を仮定して、その文法が入力全体に適合(マッチング)
しなければならないという一様な要求条件を適用する復
号の枠組みから生じている。(発話の文法外部分に適合
する)「フィルタ」モデルの使用は、固定文法のほとん
ど従う音声サンプルには限定された成功を収めている
が、固定文法に固有の基本的な問題点を解決していない
ために、多くの一般的な発話が認識されないままであ
る。
つのアプローチは、統計言語モデルの使用に関するもの
である。このようなモデルは、固定した所定の文法に基
づくのではなく、大量のサンプルデータを用いた学習
(トレーニング)の結果として統計的に生成された文法
に基づく。例えば、米国政府(ARPA)がスポンサー
となっているATIS(航空旅行情報システム(Air Tra
vel Information System))プロジェクトは、統計言語
モデルのアプローチを用いた会話音声処理に対する包括
的プロジェクトである。(例えば、D. A. Dahl, "Expan
ding the Scope of the ATIS Task: The ATIS-3 Corpu
s", Proc. ARPA Human Language Technology Workshop,
pp.43-48, 1994、参照。)この場合、かなりの量のデ
ータが収集され、文法外の発話を認識する能力に関して
も、統計言語モデルの使用は比較的成功を収めた。
ションでは、データ収集作業自体が大量の(人間の)時
間および労力を必要とするため、統計モデルをトレーニ
ングするためにこのような大量のデータを提供すること
は実際的でないことが多い。ほとんどのアプリケーショ
ンでは、与えられたタスクに対して単純な2連語(bigra
m)言語モデルを構築するのに十分な量のデータを収集す
るのでさえ実際的ではない。(さらに、注意すべき点で
あるが、ATISシステムの場合、実行されたシナリオ
およびデータ収集はやや人工的であり、従って、実世界
の自然発話に固有の問題点を必ずしも反映していない可
能性がある。)これらの理由から、「実世界」のアプリ
ケーションに配備され試験されているほとんどの会話シ
ステムは、文法外発話を処理する能力が制限されている
にもかかわらず、実際には上記のような決定性有限状態
文法を使用している。
もう1つのクラスのアプローチは「単語スポッティン
グ」方式に関するものである。これは、例えば、R. C.
Rose,"Keyword Detection in Conversational Speech U
tterances Using Hidden Markov Model Based Continuo
us Speech Recognition", Computer Speech and Langua
ge, 9(9):309-333, 1995、および、H. Tsuboi and Y. T
akebayashi, "A Real-time Task-oriented Speech Unde
rstanding System Using Keyword-spotting", Proc. IE
EE-ICASSP, volume 1, pp.197-200, 1992、に記載され
ている。これらのアプローチは、入力発話の非キーワー
ド部分のモデル化に使用する方法に依存して2つのカテ
ゴリーに分類される。
きる単語スポッティング方式は、大語彙を認識する能力
に基づくものである。この方式の例としては、J. R. Ro
hlicek et al., "Phonetic Training and Language Mod
eling for Word Spotting",Proc. IEEE-ICASSP, volume
2, pp.459-462, 1993、および、M. Weintraub, "Keywo
rd-Spotting Using SRI's DECIPHER Large-Vocabulary
Speech-RecognitionSystem", Proc. IEEE-ICASSP, volu
me 2, pp.463-466, 1993、に記載されているものがあ
る。この技術は、できるだけ多くの語彙知識を組み込
み、キーワードモデルとともに、多くの非キーワード語
彙単語モデルをシステムで利用可能とする。しかし、こ
の技術でも、自然音声でしばしば見られる口ごもりや自
己反復のような非適格な現象を十分にモデル化すること
ができない。すなわち、すべての一様復号アプローチに
固有の問題点を解決していない。さらに、大語彙自然音
声認識技術は、タスク領域が限定される場合には特に、
性能および効率性に問題がある。
ーは、入力発話の非キーワード部分をモデル化するため
に用いられる部分語(subword)モデルの並列ネットワー
クまたは単純ガーベジモデルとともに単純(すなわち限
定語彙)単語スポッティングを使用するものである。こ
のような方式の例としては、J. G. Wilpon et al., "Au
tomatic Recognition of Keywords in Unconstrained S
peech Using Hidden Markov Models", IEEE Trans. Aco
ust., Speech & Signal Process., 38(11):1870-1878,
1990、および、R. C. Rose and D. B. Paul, "A Hidden
Markov ModelBased Keyword Recognition System", Pr
oc. IEEE-ICASSP, pp.129-132, 1990、に記載されてい
るものがある。残念ながら、ガーベジモデルも、部分語
モデルの並列ネットワークも、非キーワードに合うもの
を見つける性能が十分ではなく、そのため、キーワード
モデルが発話の無関係(すなわち非キーワード)部分と
誤って合わせられることも多い。この結果、多くの「フ
ォールスアラーム」(すなわち、キーワードの誤った
「認識」)が起こる。さらに、このカテゴリーに属する
既存のほとんどのシステムは、語彙に依存してキーワー
ドモデルおよびガーベジモデルを「調整」し、それによ
り、部分語に基づく音声認識アプローチの利点の多くを
犠牲にしている。これらの理由から、このカテゴリーの
単語スポッティング方式で応用が成功しているのは、例
えば数字音声認識のタスクのような非常に小さい語彙を
含むタスクのみである。
たところでは、ほとんどの会話音声発話(すなわち
「文」)はタスクに関するあるキーワードおよび「キー
句(キーフレーズ)」を含み、その認識により発話の部
分的あるいは全体的な理解が可能となる一方で、発話の
他の部分は実際にはタスクに関係がないので無視すべき
である。(注意すべき点であるが、「文」という用語
は、本明細書では、任意の単語列を意味し、そのような
単語列が文法的に正しい文構造を有するかどうかは問わ
ない。また、「キー句」という用語の使用は、本明細書
では、1個以上の単語からなる列を含むものとする。す
なわち、キーワードは単一の単語からなる「キー句」で
ある。)すなわち、自由度の高い音声理解システムは、
文の意味的に重要な部分を検出し無関係な部分を拒絶す
るアプローチに基づいて構築することができる。従来の
文法的制約を緩和し、かつ、認識されるキー句の集合に
特に注目することによって、例えば固定した形式的な文
法に基づいて受容されるよりも多くの発話が受容され
る。
の高い(すなわち、制約のない)音声の理解を実現する
ために使用可能なキー句の検出および検証の技術が実現
される。具体的には、単語列(すなわち文)からなる音
声発話に「多重パス」手続きが適用される。まず、例え
ば会話の状態に固有の句部分文法の集合に基づいて複数
のキー句を検出(すなわち、認識)する。次に、これら
のキー句に信頼性尺度を割り当て、その信頼性尺度をし
きい値と比較することによってそれらのキー句を検証
し、その結果として、検証済みキー句候補の集合を得
る。次に、検証済みキー句候補を、所定の(例えばタス
ク固有の)意味情報に基づいて結合して文仮説を得る。
文仮説は、個々のキー句信頼性尺度に基づいて生成する
ことも可能である。最後に、これらの文仮説を検証し
て、検証済み文仮説を生成し、その結果、音声発話の理
解を得る。
大規模なタスク内の会話の特定の状態に応じて(すなわ
ち、「サブタスク」に対して)、個別の句部分文法を使
用することが可能である。例えば、会話ベースの自動車
予約タスク内では、システムは、与えられた時点におい
て、要求された車が必要となる日時を決定する必要があ
る。この場合、予期される応答は、時間的な情報のみを
与えるものであると限定することができる。自由度の高
い会話マネージャと組み合わされることにより、本発明
の実施例によるシステムは、文音声を少なくとも部分的
に理解することができる。さらに、会話セッションが進
むうちに、必要な明確化(曖昧さの除去)を実行するこ
とも可能である。
および理解のためのシステムは、(例えば、非キーワー
ド大語彙知識を用いることなく)部分語ベースの音声認
識の一般的な枠組みで、無関係部分を誤って「認識」せ
ずに、発話の重要部分を認識することによって実現され
る。(部分語ベースの音声認識は、当業者には周知であ
るが、音節、半音節あるいは音素のような単語セグメン
トのモデリングおよびマッチングを含む。次に、それら
の単語セグメント(すなわち、部分語)の列に、語彙内
の各単語をマッピングするために、辞書(lexicon)が提
供される。こうして、単語に対応するモデルは、実質的
に、辞書によって指定される、その単語を構成する部分
語のモデルの連接からなる。)図1に、本発明の実施例
による音声認識および音声発話の理解を実行する1つの
例示的なシステムの図を示す。
大な問題点のうちの1つは、従来の音声認識器は一般
に、その結果にどのくらいの信頼性をおくことができる
かが分からないことである。この理由で、図1に示した
本発明の実施例によれば、認識した結果に対する仮説検
定を実行し、それに信頼性尺度を割り当てる検証方法を
用いる。(例えば、R. A. Sukkar et al., "A Vocabula
ry Independent Discriminitively Trained Method for
Rejection of Non-Keywords in Subword-BasedSpeech
Recognition", Proc. EuroSpeech-95, pp.1629-1632, 1
995、R. A. Sukkar et al., "Utterance Verification
of Keyword Strings Using Word-Based Minimum Verifi
cation Error (WB-MVE) Training", Proc. IEEE-ICASS
P, pp.518-521, 1996、および、M. Rahim et al., "Dis
criminitive Utterance Verification Using Minimum S
tring Verification Error (MSVE) Training", Proc. I
EEE-ICASSP, 1996、参照。)このような発話検証法を図
1の実施例のシステムに統合することによって、キーワ
ード(あるいは、この場合にはキー句)の検出の信頼性
を高くすることができる。すなわち、キーワードモデル
への正しくないマッチングすなわち「フォールスアラー
ム」は大幅に減少する。
うな「フォールスアラーム」をさらに減少させる。シス
テムは、このようなキーワード(あるいはキー句)マッ
チングおよび検証プロセスの単独の結果として「最終判
定」をしない。むしろ、検証したキーワードあるいはキ
ー句の組み合わせ(すなわち、文)に基づいて意味解析
を実行して文仮説を生成し、それを別の検証プロセスで
検証する。特に、この文仮説検証プロセスは、全発話内
にあるいくつかの部分語からなる「部分入力」で実行さ
れる。
テムは、検出単位として、キーワードのみを使用するの
ではなく、キー句を使用する。上記の単語スポッティン
グ方式は一般に、局所的ノイズや乱雑な音によって容易
にトリガされる小さいテンプレートを使用する。より長
い検出単位(すなわち、単なるキーワードの代わりにキ
ー句)を使用することは、より特徴的な情報を含むこと
になり、その結果、認識段階および検証段階の両方で、
より安定な音響マッチングが得られるので、有効であ
る。
ードと、おそらくは、機能語との列からなる。例え
ば、"in the morning"は、期間についてのキー句であ
り、"in downtown Chicago"は、地理的場所についての
キー句である。このような句は、自然音声で発話される
ときでも、一般に息継ぎなしで発話される。
検出されたキー句には概念情報のタグが付けられる。実
際には、キー句は、例えば時刻および場所のような、意
味(セマンティック)フレームにおける意味スロットに
直接対応するように定義される。(意味フレームは、当
業者に周知の用語であるが、与えられたアプリケーショ
ンに対して、会話によって部分的にあるいは完全に充填
される情報テンプレートからなる。)従来のn連語(n-g
ram)言語モデルによって定義されるようなボトムアップ
句(例えば、B. Suhm and A. Waibel, "Towards Better
Language Models for Spontaneous Speech", Proc. IC
SLP, pp.831-834, 1994、E. P. Giachin, "Phrase Bigr
ams for Continuous Speech Recognition", Proc. IEEE
-ICASSP,pp.225-228, 1995、および、S. Deligne and
F. Bimbot, "Language Modelingby Variable Length Se
quences: Theoretical Formulation and Evaluation of
Multigrams", Proc. IEEE-ICASSP, pp.169-172, 1995、
参照。)とは異なり、本実施例によって認識されるトッ
プダウンキー句は、容易に意味表現へと直接にマッピン
グされる。従って、これらのキー句の検出は、直接に、
発話の確実な理解につながる。
キー句検出器11、キー句検証器12、文仮説生成器1
3および文仮説検証器14を有する。特に、キー句検出
器11は、会話状態に特有の句部分文法(すなわち、キ
ー句文法21)の集合を用いてキー句の集合を認識する
ための部分語ベースの音声認識器からなる。検出された
キー句には、次に、意味(セマンティック)タグが付け
られる。このタグは、文仮説生成器13(後述)によっ
てその後に実行される文レベルの解析で有用となる。キ
ー句検出器11によって用いられる部分語モデル認識器
は、辞書23および部分語モデル22を使用する。これ
らは、例えば、当業者に周知の従来の最小分類誤差(M
CE(minimum classification error))基準に基づいて
トレーニングされたものである。これらのモデル自体
は、例えば、同じく当業者に周知の隠れマルコフモデル
(HMM)からなることも可能である。
12によって検証され、信頼性尺度が割り当てられる。
上記のように、このプロセスは、これがなければ起こり
得る多くのフォールスアラームを除去する。実施例のキ
ー句検証器12は、当業者に周知の「反部分語モデル」
を用いて、認識されたキー句の各部分語をテストする、
部分語レベルの検証の組合せからなる。キー句検証器1
2は辞書23、部分語モデル22および反部分語モデル
24を使用する。これらは、例えば、最小検証誤差(M
VE(minimum verification error))基準を用いてトレ
ーニングされたものである。
成器13である。これは、例えばタスク固有の意味情報
25を用いて、検証されたキー句候補を1つ以上の文仮
説へと結合する。例えば、T. Kawahara et al., "Conce
pt-Based Phrase Spotting Approach for Spontaneous
Speech Understanding", Proc. IEEE-ICASSP, pp.291-2
94, 1996、に記載されたようなスタック復号器を用い
て、意味制約を満たす最適な仮説を探索することができ
る。
的かつ意味的に最良の意味仮説が検証され、最終出力
(すなわち、少なくとも1つの検証された文仮説)が生
成される。文仮説検証器14は、意味情報25、辞書2
3、部分語モデル26および反部分語モデル27を使用
する。キー句に付けられた意味タグが、キー句検出器1
1によって提供され意味仮説生成器13によって使用さ
れるため、検証された文仮説は本質的に、直接に対応す
る「意味」を有し、それにより、個々のアプリケーショ
ンによる必要に応じた意味フレームの生成が可能とな
る。
句検出を実行する。これは、会話状態に依存する特定の
サブタスクに基づくことが可能である。具体的には、各
サブタスクごとに、キー句パターンが1つ以上の決定性
有限状態文法として記述される。これは、実施例では、
キー句検出器11によってキー句文法21から選択され
る。これらの文法は、タスク仕様から直接に人手により
導出することも可能であり、あるいは、当業者に周知の
従来の学習手続きを用いて、小さいコーパスから自動的
または半自動的に(すなわち、人間の支援のもとで)生
成することも可能である。
えて、"at the"や"near"のような機能語を含む。これに
より、従来のキーワードのみのマッチングに比べて、よ
り安定なマッチングが可能となり、検出精度が改善され
る。(例えば、前掲のT. Kawahara et al., "Concept-B
ased Phrase Spotting Approach for Spontaneous Spee
ch Understanding"を参照。)いずれのキー句にも含ま
れないがしばしばキー句に伴う充填句も定義され、埋め
込まれたキー句を含む句パターンを形成するために使用
される。
ワークへとコンパイルされる。このネットワークにおい
て、キー句は繰り返し現れ、ガーベジモデルがキー句の
出現の間に埋め込まれる。しかし、注意すべき点である
が、単純な繰り返しは曖昧さを生じる可能性がある。例
えば、日の繰り返しが許容される場合、"twenty four"
と"twenty"+"four"を区別することはできない。従っ
て、不可能なキー句の結合を禁止する追加の制約も組み
込む必要がある。
および反復を有するキー句部分文法オートマトンのネッ
トワークからなる。このようなオートマトンは、結合重
みを評価することによって、確率的言語モデルへと容易
に拡張することができる。このようなモデルを使用する
ことにより、文レベルの文法と比べてあまり複雑になら
ずに、適用範囲が広くなる。
ち、簡略化した)句ネットワークの例を示す。これは、
「データ取得」サブタスクに適用された場合に、図1の
実施例のシステムのキー句検出器11によって使用され
ることが可能である。このネットワーク例の完全な実現
により、曜日、月、日、および年の実質的に任意の反復
が、適当な制約のもとに許容される。(このような完全
な実現の全語彙は99語である。)この特定のサブタス
クでは、キャリア句は組み込まれない。
の実施例によって採用されている検出方法は、フォワー
ド−バックワード2パス探索に基づくものである。これ
は、例えば、W. Chou et al., "An Algorithm of High
Resolution and Efficient Multiple String Hypothesi
zation for Continuous Speech Recognition Using Int
er-Word Models", Proc. IEEE-ICASSP, volume 2, pp.1
53-156, 1994、に記載されている。本発明の別の実施例
では、代わりに、当業者に周知の1パス検出法を使用す
ることも可能である。
T. Kawahara et al., "Concept-Based Phrase Spotting
Approach for Spontaneous Speech Understanding"に
記載されているもの)は、N番目までの最良ストリング
仮説からなる集合を求めることができるが、この結果と
して得られるN個の最良仮説は一般に、1〜2個が置き
換わった類似の単語列である。本発明の目標は、(入力
発話全体に基づいてストリング仮説を生成することでは
なく)入力発話の一部に基づいてキー句候補を識別する
ことであるので、仮説を延長しても既に延長された仮説
と同じ仮説になる場合にはその仮説は捨てられる。
句ネットワークのマージング(merging)状態にマークを
付けることによって実現される。当業者には周知のよう
に、マージング状態は、キー句あるいは充填句が終了
し、さらに延長すると次の(すなわち新たな)句の最初
に侵入することになるノードに対応する。
仮説に、出力されるべき完全な句であるというタグが付
いている場合、本発明の手続きは、もう1語だけその句
を延長し、その句を最良延長と並べる。このノードに、
以前のいずれかの仮説が同じ時点に到達している場合、
検出した句を出力した後に現在の仮説は捨てられる。そ
うでなければ、その時点は、その後の探索のためにマー
クされる。
は、冗長な仮説延長のない効率的なものであり、スコア
順に、正しいN番目までの最良のキー句候補を生成す
る。本発明のさまざまな実施例によれば、この手続き
は、所望の個数の句を生成したことに基づいて、あるい
は、あるスコアしきい値に基づいて、終了することも可
能である。例えば、仮説のスコアが、最高スコア仮説の
0.99倍より小さい値に到達したときに、検出を終了
することも可能である。
のシステムのキー句検証器12は、部分語レベルのテス
トに基づいて、検出された句の検証を行う。具体的に
は、与えられた句の各部分語nに対して、検証スコア
は、次式のような従来の尤度比(LR(likelihood rati
o))テストに基づいて計算される。 LRn=P(O|λn c)/P(O|λn a) (1) ただし、Oは、観測フレームの列を表し、λn cおよびλ
n aは、それぞれ、部分語nに対する正しい部分語モデル
および反部分語モデルを表す。(部分語モデルは部分語
モデル22から得られ、対応する反部分語モデルは反部
分語モデル24から得られる。)認識の結果として、観
測列Oは、部分語nに対して、ビタビアルゴリズムによ
り並べられ、確率P(O|λn c)およびP(O|λn a)
が得られる。(ビタビアルゴリズムは、当業者に周知の
従来のスコアリング方法である。)
語モデルは、混同しやすい部分語クラスをまとめること
(クラスタ化)によって構成される。各反部分語モデル
は、対応する部分語モデルと同じ構造、すなわち、同じ
個数の状態およびミクスチャを有する。反部分語モデル
は、特定の部分語の検証専用であるため、反部分語モデ
ルをリファレンスとして使用して復号を行うことによ
り、部分語モデルの無制約な復号を行うのに比べて、弁
別性が改善される。こうして、システムは、認識器によ
ってなされる置換誤りを拒絶する能力が増大する。この
(検証)ステップでは、文脈独立な反部分語モデルを使
用することも可能であるが、認識ステップは、文脈依存
の部分語モデルを用いて実行される。
結果を、観測Oの継続時間長lnに基づいて正規化する
ことにより、量log LRnが次のように定義される。 log LRn=(log P(O|λn c)−log P(O|λn a))/ln (2) 注意すべき点であるが、式(2)の第1項は認識スコア
そのものであるので、上記の計算の効果は単に、計算さ
れるスコアを反部分語モデルのスコアだけずらし、その
結果を正規化することである。
ごとに、対応する部分語レベルの検証スコアを組み合わ
せることによって、信頼性尺度(CM(confidence meas
ure))を計算する。例えば、検出されたキー句がN個の
部分語を含む場合、このキー句に対する信頼性尺度は、
対応するN個の尤度比の関数とすることが可能である。
具体的には、次のようになる。 CM=f(log LR1,...,log LRN) (3) 信頼性尺度(CM)が、ある所定のしきい値を超える場
合に、与えられたキー句は承認される。実施例では、し
きい値の値は、例えば−0.15に設定される。
ざまな信頼性尺度関数を使用することができる。例え
ば、第1の例示的な信頼性尺度CM1は、フレーム継続
時間による正規化に基づく。特に、これは、正しい部分
語モデルに対して得られるビタビスコアと、対応する反
部分語モデルに対して得られるビタビスコアの差に等し
い。すなわち、次のようになる。
句の全継続時間である。すなわち、L=Σlnである。
語セグメントによる正規化に基づく。特に、これは、与
えられたキー句のすべての部分語の対数尤度比の単なる
平均である。(一実施例では、句セグメンテーション後
に単語間文脈情報が失われるため、最後の部分語に対し
て特別の考慮がなされる。)すなわち、次のようにな
る。
ての部分語にわたる平均の信頼性レベルではなく、検証
プロセスの結果、信頼性レベルが低いような部分語に注
目する。これが有効なのは、正しくないキー句の部分語
のうちには実際に入力句に正しく一致するが、他の部分
語は入力句とは非常に異なることがあるからである。例
えば、"November"の後半部分は、場合によって、入力
句"December"の後半と完全に一致するため、部分語スコ
アを平均した場合に高い検証スコア(すなわち信頼性尺
度)を受け取ることになる。従って、これを確実に拒絶
するためには、この句の前半(その検証スコアは低くな
る可能性が高い)に注目するのが有効である。
注目するために、各部分語ごとに正規分布を仮定するこ
とによって、対数尤度比を調整することが可能である。
具体的には、部分語HMMのトレーニングで用いたサン
プルを使用して、各部分語ごとに対数尤度比の平均およ
び分散を計算する。その後、対数尤度比が、期待される
平均より小さい部分語のみを含む和を実行することによ
って、CM3を計算することができる。すなわち、次の
ようになる。
より小さい部分語の数(すなわち、log LRn<0と
なる部分語の数)である。
イド関数を用いる。この例示的な信頼性尺度は、最小誤
り率基準でトレーニングするための損失関数として用い
られる。すなわち、次のようになる。
発明の別の実施例によって使用される信頼性尺度に対し
て)、特定のしきい値を選択することが可能である。与
えられた信頼性尺度の値がそのしきい値を下回る場合、
候補キー句は検証済みキー句候補の集合から排除され、
そうでない場合、検証済みキー句候補の集合に含まれ
る。
される信頼性尺度の尤度比は、「フォールスアラーム」
を排除するためだけではなく、検証済みの句に対する
「再スコアリング」を行うための基礎としても使用可能
である。例えば、E. Lleida and R. C. Rose, "Efficie
nt Decoding and Training Procedures for UtteranceV
erification in Continuous Speech Recognition", Pro
c. IEEE-ICASSP, pp.507-510, 1996、には、尤度比に基
づいて復号を行うことが提案されている。しかし、尤度
比の直接の使用は、そのダイナミックレンジが大きいた
め、不安定となる可能性がある。こうして、本発明の一
実施例によれば、反部分語モデルのスコアが正しい部分
語モデルのスコアより大きい場合(すなわち、CM1<
0の場合)にガーベジ充填句を生成することによって、
反部分語モデルをガーベジモデルとして処理する。ガー
ベジ充填句は、もとの句と同じ継続時間を有し、もとの
句よりも例えばCM1だけ高いスコアを有する。その結
果、もとの句は、その後の文解析(以下参照)で選択さ
れる可能性が低くなる。
説生成器13はキー句検証器12によって生成された検
証済みキー句候補を意味情報25に基づいて1個以上の
文仮説へと組み合わせる文解析を実行する。一実施例で
は、句候補のLR(left-to-right)トレリスを使用する
ことが可能な1次元RL(right-to-left)探索が用いら
れる。別の実施例では、島駆動探索アルゴリズムを用い
ることも可能である。トレリス解析は計算量が多いた
め、さらに別の実施例ではラティス解析法を採用する。
これは、トレリス解析よりわずかに精度が低くなるだけ
である。ラティス解析法は、音響スコアと、提供される
意味制約情報(キー句タグの許容される組み合わせを指
定する)に基づいて、句候補を結合する。キー句検出の
ためのフォワード−バックワード探索によって与えられ
るスコアを音響スコアとして用いることが可能である。
るためには、スタック復号探索法を採用すると有効であ
る。この方法は、一連の部分仮説を反復的に生成し、完
全な文仮説が生成されるまで、各反復において最良の利
用可能な部分仮説を延長する。
{w1,w2}とし、新たな仮説が句w3を連結すること
によって生成されると仮定する。新たな仮説{w1,
w2,w3}に対する評価関数は、完全な入力発話h0に
対する上限スコアからのずれ(オフセット)として以下
のように計算される。
の結果である。初期仮説はf^(null)=h0である。
新たな句が追加されるごとに、オフセットが減算され
る。上限h0は、認識プロセスのフォワードパスで計算
される。
timal Search Strategies for Speech Understanding C
ontrol", Artificial Intelligence, 18:295-326, 198
2、に記載されているような不足法(short-fall method)
に基づいている。注意すべき点であるが、この評価はA
*認容である。しかし、探索を効率的に導くこの方法の
発見的能力はやや限定されたものとなる可能性がある。
検出ベースの解析段階では特に、入力発話全体が扱われ
ることを仮定しないため、数語の短い仮説が誤って受容
される可能性が高い。従って、発話でスキップされた部
分を評価することが有効となる。そのため、具体的に
は、本発明の一実施例によれば、スキップ長に比例する
一様な罰金値をオフセットとして追加することが可能で
ある。もちろん、この近似は粗雑であるため、次善の探
索となる可能性がある。従って、これを補うために、で
きるだけ多くのキー句とともに、できるだけ多くのガー
ベジ句(無音を含む)を生成することが好ましい。(一
実施例では、これらの仮説は、キー句検証プロセス中に
生成することも可能である。)
説検証器14は、認識出力の最終判定を行う。実施例で
は、大域的音響情報および大域的意味情報の両方を使用
し、それぞれ入力発話全体に適用される。キー句検証プ
ロセスは局所的な判定のみをしたが、文仮説検証プロセ
スはこれらの局所的な結果を組み合わせ、従来の発話検
証と同様の効果を実現する。しかし、検出ベースの認識
プロセスは、多数の予期しないキャリア句を含む場合で
も入力発話を受容することが多いことに注意すべきであ
る。
行される音響検証プロセスは、与えられた文仮説が十分
に一致することを保証するために、入力発話全体の再ス
コアリングを行う。この再スコアリングは、部分語モデ
ル26、反部分語モデル27、および辞書23を用いて
行われる。この段階で適用される部分語モデル(すなわ
ち、部分語モデル26)の集合および対応する反部分語
モデル(すなわち、反部分語モデル27)の集合は、キ
ー句検出器11およびキー句検証器12によって使用さ
れるもの(すなわち、部分語モデル22および反部分語
モデル24)よりも精度が高い。こうして、より高い精
度の音響再スコアリングが実行される。
文仮説の意味的「完全性」を評価する。例えば、本発明
の一実施例によれば、意味検証は、ある構成要素が意味
的に「合法」かどうかのみを指定する単純な意味制約情
報に基づいて実行される。このような場合、文仮説検証
器14の意味解析部分は、例えば、与えられた文仮説の
意味表現が完全であるかどうかを判断する。しかし、注
意すべき点であるが、会話ベースのアプリケーションで
は、例えば、不完全な発話にしばしば遭遇する。例え
ば、ユーザはただ"August"(8月)と言うだけで、その
月の特定の日を指定しないことがある。一般に、こうし
た「不完全な」発話も同様に受容すべきである。
説検証器14は、与えられた文仮説が意味表現を完成し
ておらず、かつ、ほとんどの入力セグメントが尤度比テ
ストで拒絶された場合にのみ、その文仮説を拒絶する。
この組合せ「テスト」は、例えば、満足な文仮説に遭遇
するまで、各文仮説に適用することが可能である。
一般的な確率的意味モデルを、文仮説検証器14で用い
ることが可能である。このような場合、各文仮説につい
て、音響スコアとともに意味スコアを求め、組み合わせ
たスコアを用いて、最終認識結果として出力すべき検証
された文仮説を選択することが可能である。
証のみまたは音響的検証のみ(両方ではない)を、文仮
説検証器14で実行することが可能である。例えば、さ
らに高い精度の部分語および反部分語のモデルが利用可
能でない場合には、入力発話の音響再スコアリングを実
行することはあまり効果がない。従って、この場合、意
味検証のみを実行して、単に、与えられた文仮説が意味
表現を完成していることを検証するか、あるいは、確率
的意味モデルを用いている場合には、検証済み文仮説が
最終認証結果として判断されるもとになる意味スコアを
生成する。
載した本発明の実施例は、個別の機能ブロックからなる
ものとして表した。これらのブロックによって表される
機能は、共用あるいは専用のハードウェアの使用によっ
て提供することが可能である。ハードウェアには、ソフ
トウェアを実行することが可能なハードウェアが含まれ
るが、これに限定されるものではない。例えば、ここに
記載した構成要素の機能は、単一の共用プロセッサによ
って、あるいは、複数のプロセッサによって提供するこ
とが可能である。本発明の実施例は、ディジタル信号プ
ロセッサ(DSP)ハードウェア、上記の動作を実行す
るソフトウェアを格納する読み出し専用メモリ(RO
M)、および、結果を格納するランダムアクセスメモリ
(RAM)からなることが可能である。超大規模集積
(VLSI)ハードウェアや、カスタムVLSI回路を
汎用プロセッサやDSP回路と組み合わせたものも可能
である。
器」、「文仮説生成器」、および「文仮説検証器」とい
う用語は、対応する機能を実行する任意のメカニズムを
含む。
定した形式的な文法に基づいて受容されるよりも多くの
発話が受容される、効率および自由度の高い会話音声認
識が実現される。
の理解を実行するシステムの図である。
1の例示的なシステムによって使用されることが可能な
単純化された句ネットワーク例の図である。
Claims (32)
- 【請求項1】 複数の単語からなる音声発話の音声認識
を実行する音声認識方法において、 句部分文法に基づいてキー句検出を実行して、認識され
た単語からなる複数の検出済みキー句を生成する検出ス
テップと、 前記検出済みキー句に信頼性尺度を割り当て、該信頼性
尺度をしきい値と比較することにより、前記検出済みキ
ー句の検証を実行して、検証済みキー句候補の集合を生
成するキー句検証ステップと、 前記検証済みキー句候補を結合し、所定の意味情報に基
づいて文仮説を生成するステップと、 前記文仮説の検証を実行して、少なくとも1つの検証済
み文仮説を生成する文仮説検証ステップとからなること
を特徴とする音声認識方法。 - 【請求項2】 前記句部分文法は、会話状態に基づく句
部分文法の集合から選択されることを特徴とする請求項
1の方法。 - 【請求項3】 前記句部分文法は、音声サンプルのコー
パスを用いたトレーニングプロセスに基づいて導出され
たものであることを特徴とする請求項1の方法。 - 【請求項4】 前記文仮説の生成は、前記信頼性尺度に
も基づくことを特徴とする請求項1の方法。 - 【請求項5】 前記検出済みキー句は、意味タグでラベ
ルされることを特徴とする請求項1の方法。 - 【請求項6】 前記文仮説の生成は、前記意味タグにも
基づくことを特徴とする請求項5の方法。 - 【請求項7】 前記文仮説の生成は、前記信頼性尺度に
も基づくことを特徴とする請求項6の方法。 - 【請求項8】 前記文仮説の生成は、前記信頼性尺度、
前記意味タグ、および前記所定の意味情報に基づいて、
最も確からしい文仮説を判定するステップからなること
を特徴とする請求項7の方法。 - 【請求項9】 前記検出ステップは複数の部分語モデル
に基づいて実行され、前記検出済みキー句は部分語の列
からなることを特徴とする請求項1の方法。 - 【請求項10】 前記部分語モデルは隠れマルコフモデ
ルからなることを特徴とする請求項9の方法。 - 【請求項11】 前記キー句検証ステップは、部分語モ
デルの集合と、対応する反部分語モデルの集合に基づい
て実行されることを特徴とする請求項9の方法。 - 【請求項12】 前記部分語モデルおよび前記反部分語
モデルは隠れマルコフモデルからなることを特徴とする
請求項11の方法。 - 【請求項13】 前記文仮説検証ステップは、文仮説に
対して音響的検証を実行するステップからなることを特
徴とする請求項1の方法。 - 【請求項14】 前記文仮説検証ステップは、文仮説に
対して意味的検証を実行するステップからなることを特
徴とする請求項1の方法。 - 【請求項15】 前記文仮説検証ステップは、最も確か
らしい1つの文仮説を選択するステップを含むことを特
徴とする請求項1の方法。 - 【請求項16】 前記検証済み文仮説に基づいて意味フ
レームを生成するステップをさらに有することを特徴と
する請求項1の方法。 - 【請求項17】 複数の単語からなる音声発話の音声認
識を実行する音声認識装置において、 句部分文法に基づいてキー句検出を実行して、認識され
た単語からなる複数の検出済みキー句を生成するキー句
検出器と、 前記検出済みキー句に信頼性尺度を割り当て、該信頼性
尺度をしきい値と比較することにより、前記検出済みキ
ー句の検証を実行して、検証済みキー句候補の集合を生
成するキー句検証器と、 前記検証済みキー句候補を結合し、所定の意味情報に基
づいて文仮説を生成する文仮説生成器と、 前記文仮説の検証を実行して、少なくとも1つの検証済
み文仮説を生成する文仮説検証器とからなることを特徴
とする音声認識装置。 - 【請求項18】 前記句部分文法は、会話状態に基づく
句部分文法の集合から選択されることを特徴とする請求
項17の装置。 - 【請求項19】 前記句部分文法は、音声サンプルのコ
ーパスを用いたトレーニングプロセスに基づいて導出さ
れたものであることを特徴とする請求項17の装置。 - 【請求項20】 前記文仮説生成器は、前記信頼性尺度
にも基づいて前記文仮説を生成することを特徴とする請
求項17の装置。 - 【請求項21】 前記検出済みキー句は、意味タグでラ
ベルされることを特徴とする請求項17の装置。 - 【請求項22】 前記文仮説生成器は、前記意味タグに
も基づいて前記文仮説を生成することを特徴とする請求
項21の装置。 - 【請求項23】 前記文仮説生成器は、前記信頼性尺度
にも基づいて前記文仮説を生成することを特徴とする請
求項22の装置。 - 【請求項24】 前記文仮説生成器は、前記信頼性尺
度、前記意味タグ、および前記所定の意味情報に基づい
て、最も確からしい文仮説を判定することを特徴とする
請求項23の装置。 - 【請求項25】 前記キー句検出器は複数の部分語モデ
ルに基づいて動作し、前記検出済みキー句は部分語の列
からなることを特徴とする請求項17の装置。 - 【請求項26】 前記部分語モデルは隠れマルコフモデ
ルからなることを特徴とする請求項25の装置。 - 【請求項27】 前記キー句検証器は、部分語モデルの
集合と、対応する反部分語モデルの集合に基づいて動作
することを特徴とする請求項25の装置。 - 【請求項28】 前記部分語モデルおよび前記反部分語
モデルは隠れマルコフモデルからなることを特徴とする
請求項27の装置。 - 【請求項29】 前記文仮説検証器は、文仮説に対して
音響的検証を実行することを特徴とする請求項17の装
置。 - 【請求項30】 前記文仮説検証器は、文仮説に対して
意味的検証を実行することを特徴とする請求項17の装
置。 - 【請求項31】 前記文仮説検証器は、最も確からしい
1つの文仮説を選択することを特徴とする請求項17の
装置。 - 【請求項32】 前記検証済み文仮説に基づいて意味フ
レームを生成する意味フレーム生成器をさらに有するこ
とを特徴とする請求項17の装置。
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US72441396A | 1996-10-01 | 1996-10-01 | |
| US08/771,732 US5797123A (en) | 1996-10-01 | 1996-12-20 | Method of key-phase detection and verification for flexible speech understanding |
| US08/771732 | 1996-12-20 | ||
| US08/724413 | 1996-12-20 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH10116094A true JPH10116094A (ja) | 1998-05-06 |
| JP3361732B2 JP3361732B2 (ja) | 2003-01-07 |
Family
ID=27110976
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP26595997A Expired - Fee Related JP3361732B2 (ja) | 1996-10-01 | 1997-09-30 | 音声認識方法および音声認識装置 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US5797123A (ja) |
| EP (1) | EP0834862A3 (ja) |
| JP (1) | JP3361732B2 (ja) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000099080A (ja) * | 1998-09-16 | 2000-04-07 | Koninkl Philips Electronics Nv | 信頼性尺度の評価を用いる音声認識方法 |
| JP2003515177A (ja) * | 1999-10-19 | 2003-04-22 | ソニー エレクトロニクス インク | 自然言語インターフェースコントロールシステム |
| JP2004133477A (ja) * | 2002-10-14 | 2004-04-30 | Sony Internatl Europ Gmbh | 音声認識方法、音声認識方法のためのコンピュータプログラム、及びそのコンピュータプログラムが記録された記憶媒体 |
| JP2004334193A (ja) * | 2003-05-01 | 2004-11-25 | Microsoft Corp | 音声認識および自然言語理解のための複合統計/ルール・ベース文法モデルを有するシステム |
| JP2005115328A (ja) * | 2003-05-01 | 2005-04-28 | Microsoft Corp | 自然言語理解(NLU)システムにおける規則ベース文法に関するスロットおよび前終端記号(preterminal)に関する統計モデル |
| JPWO2008001486A1 (ja) * | 2006-06-29 | 2009-11-26 | 日本電気株式会社 | 音声処理装置およびプログラム、並びに、音声処理方法 |
| WO2010024052A1 (ja) * | 2008-08-27 | 2010-03-04 | 日本電気株式会社 | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム |
| US7711570B2 (en) | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
Families Citing this family (149)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB9619165D0 (en) * | 1996-09-13 | 1996-10-23 | British Telecomm | Training apparatus and method |
| US6023676A (en) * | 1996-12-12 | 2000-02-08 | Dspc Israel, Ltd. | Keyword recognition system and method |
| US6137863A (en) * | 1996-12-13 | 2000-10-24 | At&T Corp. | Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition |
| US6219453B1 (en) | 1997-08-11 | 2001-04-17 | At&T Corp. | Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm |
| US6154579A (en) * | 1997-08-11 | 2000-11-28 | At&T Corp. | Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
| US6505156B1 (en) * | 1997-09-18 | 2003-01-07 | Siemens Aktiengesellschaft | Method for recognizing a keyword in speech |
| US6141661A (en) * | 1997-10-17 | 2000-10-31 | At&T Corp | Method and apparatus for performing a grammar-pruning operation |
| US6205428B1 (en) | 1997-11-20 | 2001-03-20 | At&T Corp. | Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers |
| US6151574A (en) * | 1997-12-05 | 2000-11-21 | Lucent Technologies Inc. | Technique for adaptation of hidden markov models for speech recognition |
| US6397179B2 (en) * | 1997-12-24 | 2002-05-28 | Nortel Networks Limited | Search optimization system and method for continuous speech recognition |
| US6223158B1 (en) | 1998-02-04 | 2001-04-24 | At&T Corporation | Statistical option generator for alpha-numeric pre-database speech recognition correction |
| US6205261B1 (en) | 1998-02-05 | 2001-03-20 | At&T Corp. | Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
| US6076053A (en) * | 1998-05-21 | 2000-06-13 | Lucent Technologies Inc. | Methods and apparatus for discriminative training and adaptation of pronunciation networks |
| DE19824450C2 (de) * | 1998-05-30 | 2001-05-31 | Grundig Ag | Verfahren und Vorrichtung zur Verarbeitung von Sprachsignalen |
| US7937260B1 (en) * | 1998-06-15 | 2011-05-03 | At&T Intellectual Property Ii, L.P. | Concise dynamic grammars using N-best selection |
| US6400805B1 (en) | 1998-06-15 | 2002-06-04 | At&T Corp. | Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition |
| US7031925B1 (en) | 1998-06-15 | 2006-04-18 | At&T Corp. | Method and apparatus for creating customer specific dynamic grammars |
| US6138095A (en) * | 1998-09-03 | 2000-10-24 | Lucent Technologies Inc. | Speech recognition |
| US6434524B1 (en) * | 1998-09-09 | 2002-08-13 | One Voice Technologies, Inc. | Object interactive user interface using speech recognition and natural language processing |
| US6499013B1 (en) * | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
| US6292778B1 (en) * | 1998-10-30 | 2001-09-18 | Lucent Technologies Inc. | Task-independent utterance verification with subword-based minimum verification error training |
| US6571210B2 (en) | 1998-11-13 | 2003-05-27 | Microsoft Corporation | Confidence measure system using a near-miss pattern |
| US6502072B2 (en) * | 1998-11-20 | 2002-12-31 | Microsoft Corporation | Two-tier noise rejection in speech recognition |
| US6246986B1 (en) * | 1998-12-31 | 2001-06-12 | At&T Corp. | User barge-in enablement in large vocabulary speech recognition systems |
| US6519562B1 (en) * | 1999-02-25 | 2003-02-11 | Speechworks International, Inc. | Dynamic semantic control of a speech recognition system |
| US6504905B1 (en) | 1999-04-09 | 2003-01-07 | Qwest Communications International Inc. | System and method of testing voice signals in a telecommunication system |
| EP1224569A4 (en) | 1999-05-28 | 2005-08-10 | Sehda Inc | PHRASE BASED DIALOGUE MODELING WITH SPECIAL APPLICATION FOR GENERATING RECOGNITION GRAMMARK FOR LANGUAGE-CONTROLLED USER INTERFACE |
| US20020032564A1 (en) | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
| EP1058446A3 (en) * | 1999-06-03 | 2003-07-09 | Lucent Technologies Inc. | Key segment spotting in voice messages |
| US6405149B1 (en) | 1999-06-23 | 2002-06-11 | Louis K. Tsai | System and method for testing a telecommunication system |
| WO2001013362A1 (de) * | 1999-08-18 | 2001-02-22 | Siemens Aktiengesellschaft | Verfahren zur unterstützung eines dialogs |
| JP2001075964A (ja) * | 1999-08-31 | 2001-03-23 | Sony Corp | 情報処理装置および情報処理方法、並びに記録媒体 |
| US7149690B2 (en) | 1999-09-09 | 2006-12-12 | Lucent Technologies Inc. | Method and apparatus for interactive language instruction |
| US6539353B1 (en) * | 1999-10-12 | 2003-03-25 | Microsoft Corporation | Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition |
| US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
| US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
| US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
| US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
| EP1109152A1 (en) * | 1999-12-13 | 2001-06-20 | Sony International (Europe) GmbH | Method for speech recognition using semantic and pragmatic informations |
| US6598018B1 (en) | 1999-12-15 | 2003-07-22 | Matsushita Electric Industrial Co., Ltd. | Method for natural dialog interface to car devices |
| JP3426176B2 (ja) * | 1999-12-27 | 2003-07-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、方法、コンピュータ・システム及び記憶媒体 |
| US7263484B1 (en) | 2000-03-04 | 2007-08-28 | Georgia Tech Research Corporation | Phonetic searching |
| US7031923B1 (en) * | 2000-03-06 | 2006-04-18 | International Business Machines Corporation | Verbal utterance rejection using a labeller with grammatical constraints |
| US6556972B1 (en) * | 2000-03-16 | 2003-04-29 | International Business Machines Corporation | Method and apparatus for time-synchronized translation and synthesis of natural-language speech |
| EP1162602B1 (en) * | 2000-06-07 | 2004-12-15 | Sony International (Europe) GmbH | Two pass speech recognition with active vocabulary restriction |
| JP4105841B2 (ja) * | 2000-07-11 | 2008-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体 |
| US6856956B2 (en) * | 2000-07-20 | 2005-02-15 | Microsoft Corporation | Method and apparatus for generating and displaying N-best alternatives in a speech recognition system |
| US7162422B1 (en) * | 2000-09-29 | 2007-01-09 | Intel Corporation | Apparatus and method for using user context information to improve N-best processing in the presence of speech recognition uncertainty |
| US7451085B2 (en) * | 2000-10-13 | 2008-11-11 | At&T Intellectual Property Ii, L.P. | System and method for providing a compensated speech recognition model for speech recognition |
| EP1215654B1 (en) * | 2000-12-13 | 2006-05-24 | Sony Deutschland GmbH | Method for recognizing speech |
| US6937983B2 (en) * | 2000-12-20 | 2005-08-30 | International Business Machines Corporation | Method and system for semantic speech recognition |
| US7400712B2 (en) * | 2001-01-18 | 2008-07-15 | Lucent Technologies Inc. | Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access |
| US7072837B2 (en) * | 2001-03-16 | 2006-07-04 | International Business Machines Corporation | Method for processing initially recognized speech in a speech recognition session |
| US7209880B1 (en) * | 2001-03-20 | 2007-04-24 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
| US7506022B2 (en) | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
| US7610547B2 (en) | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
| US7409349B2 (en) | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
| US20040104062A1 (en) * | 2002-12-02 | 2004-06-03 | Yvon Bedard | Side panel for a snowmobile |
| DE10131157C1 (de) * | 2001-06-29 | 2002-07-04 | Project49 Ag | Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme |
| TW518483B (en) * | 2001-08-14 | 2003-01-21 | Ind Tech Res Inst | Phrase verification method using probability-oriented confidence tag |
| EP1291849B1 (en) * | 2001-09-07 | 2006-07-12 | Sony Deutschland GmbH | Memory management for a spoken dialogue system |
| US8229753B2 (en) | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
| KR20020023197A (ko) * | 2001-12-27 | 2002-03-28 | 김연수 | 자연음 처리를 이용한 데이터 제공 방법과 이를 위한 시스템 |
| US7188066B2 (en) | 2002-02-04 | 2007-03-06 | Microsoft Corporation | Speech controls for use with a speech system |
| US7167831B2 (en) * | 2002-02-04 | 2007-01-23 | Microsoft Corporation | Systems and methods for managing multiple grammars in a speech recognition system |
| US8374879B2 (en) | 2002-02-04 | 2013-02-12 | Microsoft Corporation | Systems and methods for managing interactions from multiple speech-enabled applications |
| US7139713B2 (en) | 2002-02-04 | 2006-11-21 | Microsoft Corporation | Systems and methods for managing interactions from multiple speech-enabled applications |
| US7257776B2 (en) * | 2002-02-05 | 2007-08-14 | Microsoft Corporation | Systems and methods for scaling a graphical user interface according to display dimensions and using a tiered sizing schema to define display objects |
| US7603627B2 (en) | 2002-02-05 | 2009-10-13 | Microsoft Corporation | Systems and methods for creating and managing graphical user interface lists |
| US7587317B2 (en) * | 2002-02-15 | 2009-09-08 | Microsoft Corporation | Word training interface |
| US7143035B2 (en) * | 2002-03-27 | 2006-11-28 | International Business Machines Corporation | Methods and apparatus for generating dialog state conditioned language models |
| JP2003308091A (ja) * | 2002-04-17 | 2003-10-31 | Pioneer Electronic Corp | 音声認識装置、音声認識方法および音声認識プログラム |
| US7805302B2 (en) * | 2002-05-20 | 2010-09-28 | Microsoft Corporation | Applying a structured language model to information extraction |
| US20040006470A1 (en) * | 2002-07-03 | 2004-01-08 | Pioneer Corporation | Word-spotting apparatus, word-spotting method, and word-spotting program |
| US20040008828A1 (en) * | 2002-07-09 | 2004-01-15 | Scott Coles | Dynamic information retrieval system utilizing voice recognition |
| US7698136B1 (en) * | 2003-01-28 | 2010-04-13 | Voxify, Inc. | Methods and apparatus for flexible speech recognition |
| US7260535B2 (en) | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
| EP1654727A4 (en) * | 2003-07-23 | 2007-12-26 | Nexidia Inc | INTERROGATIONS FOR THE DETECTION OF WORDS |
| US20050038647A1 (en) * | 2003-08-11 | 2005-02-17 | Aurilab, Llc | Program product, method and system for detecting reduced speech |
| US8311835B2 (en) | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
| US8200477B2 (en) * | 2003-10-22 | 2012-06-12 | International Business Machines Corporation | Method and system for extracting opinions from text documents |
| US8160883B2 (en) | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
| US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
| WO2005101235A1 (ja) * | 2004-04-12 | 2005-10-27 | Matsushita Electric Industrial Co., Ltd. | 対話支援装置 |
| JP2006039120A (ja) * | 2004-07-26 | 2006-02-09 | Sony Corp | 対話装置および対話方法、並びにプログラムおよび記録媒体 |
| US7584103B2 (en) * | 2004-08-20 | 2009-09-01 | Multimodal Technologies, Inc. | Automated extraction of semantic content and generation of a structured document from speech |
| US7680250B1 (en) | 2004-11-24 | 2010-03-16 | Interactive Quality Services | Interactive method and system of testing an automated call telephonic communication system |
| US7584098B2 (en) * | 2004-11-29 | 2009-09-01 | Microsoft Corporation | Vocabulary-independent search of spontaneous speech |
| US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
| WO2006086179A2 (en) * | 2005-01-31 | 2006-08-17 | Textdigger, Inc. | Method and system for semantic search and retrieval of electronic documents |
| US7827032B2 (en) * | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
| US7895039B2 (en) * | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
| US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
| US8200495B2 (en) * | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
| US7865362B2 (en) * | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
| ATE400047T1 (de) * | 2005-02-17 | 2008-07-15 | Loquendo Spa | Verfahren und system zum automatischen bereitstellen linguistischer formulierungen, die ausserhalb einer erkennungsdomäne eines automatischen spracherkennungssystems liegen |
| WO2006097975A1 (ja) * | 2005-03-11 | 2006-09-21 | Gifu Service Co., Ltd. | 音声認識プログラム |
| JP2008537225A (ja) | 2005-04-11 | 2008-09-11 | テキストディガー,インコーポレイテッド | クエリについての検索システムおよび方法 |
| WO2007081681A2 (en) | 2006-01-03 | 2007-07-19 | Textdigger, Inc. | Search system with query refinement and search method |
| US8229733B2 (en) * | 2006-02-09 | 2012-07-24 | John Harney | Method and apparatus for linguistic independent parsing in a natural language systems |
| US8862573B2 (en) | 2006-04-04 | 2014-10-14 | Textdigger, Inc. | Search system and method with text function tagging |
| EP2013869B1 (en) * | 2006-05-01 | 2017-12-13 | Nippon Telegraph And Telephone Corporation | Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics |
| JP4767754B2 (ja) * | 2006-05-18 | 2011-09-07 | 富士通株式会社 | 音声認識装置および音声認識プログラム |
| US8209175B2 (en) * | 2006-06-08 | 2012-06-26 | Microsoft Corporation | Uncertainty interval content sensing within communications |
| US8560314B2 (en) * | 2006-06-22 | 2013-10-15 | Multimodal Technologies, Llc | Applying service levels to transcripts |
| US8301449B2 (en) * | 2006-10-16 | 2012-10-30 | Microsoft Corporation | Minimum classification error training with growth transformation optimization |
| US7925505B2 (en) * | 2007-04-10 | 2011-04-12 | Microsoft Corporation | Adaptation of language models and context free grammar in speech recognition |
| WO2009038882A1 (en) * | 2007-08-02 | 2009-03-26 | Nexidia, Inc. | Control and configuration of a speech recognizer by wordspotting |
| US8639507B2 (en) * | 2007-12-25 | 2014-01-28 | Nec Corporation | Voice recognition system, voice recognition method, and program for voice recognition |
| EP2343668B1 (en) | 2010-01-08 | 2017-10-04 | Deutsche Telekom AG | A method and system of processing annotated multimedia documents using granular and hierarchical permissions |
| US8626511B2 (en) | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
| JP5533042B2 (ja) * | 2010-03-04 | 2014-06-25 | 富士通株式会社 | 音声検索装置、音声検索方法、プログラム及び記録媒体 |
| US8406390B1 (en) | 2010-08-23 | 2013-03-26 | Sprint Communications Company L.P. | Pausing a live teleconference call |
| US8880399B2 (en) * | 2010-09-27 | 2014-11-04 | Rosetta Stone, Ltd. | Utterance verification and pronunciation scoring by lattice transduction |
| US8959102B2 (en) | 2010-10-08 | 2015-02-17 | Mmodal Ip Llc | Structured searching of dynamic structured document corpuses |
| WO2012061252A2 (en) | 2010-11-04 | 2012-05-10 | Dw Associates, Llc. | Methods and systems for identifying, quantifying, analyzing, and optimizing the level of engagement of components within a defined ecosystem or context |
| US8996359B2 (en) | 2011-05-18 | 2015-03-31 | Dw Associates, Llc | Taxonomy and application of language analysis and processing |
| US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
| US8952796B1 (en) | 2011-06-28 | 2015-02-10 | Dw Associates, Llc | Enactive perception device |
| US9269353B1 (en) | 2011-12-07 | 2016-02-23 | Manu Rehani | Methods and systems for measuring semantics in communications |
| US9020807B2 (en) | 2012-01-18 | 2015-04-28 | Dw Associates, Llc | Format for displaying text analytics results |
| US9317605B1 (en) | 2012-03-21 | 2016-04-19 | Google Inc. | Presenting forked auto-completions |
| CA2882664A1 (en) * | 2012-07-20 | 2014-01-23 | Interactive Intelligence, Inc. | Method and system for real-time keyword spotting for speech analytics |
| US9672815B2 (en) | 2012-07-20 | 2017-06-06 | Interactive Intelligence Group, Inc. | Method and system for real-time keyword spotting for speech analytics |
| CN103971678B (zh) * | 2013-01-29 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 关键词检测方法和装置 |
| US9020809B1 (en) | 2013-02-28 | 2015-04-28 | Google Inc. | Increasing semantic coverage with semantically irrelevant insertions |
| US9047271B1 (en) | 2013-02-28 | 2015-06-02 | Google Inc. | Mining data for natural language system |
| US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
| US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
| US9177553B1 (en) | 2013-06-25 | 2015-11-03 | Google Inc. | Identifying underserved command inputs |
| US9117452B1 (en) | 2013-06-25 | 2015-08-25 | Google Inc. | Exceptions to action invocation from parsing rules |
| US9330195B1 (en) | 2013-06-25 | 2016-05-03 | Google Inc. | Inducing command inputs from property sequences |
| US9183196B1 (en) * | 2013-06-25 | 2015-11-10 | Google Inc. | Parsing annotator framework from external services |
| US9280970B1 (en) | 2013-06-25 | 2016-03-08 | Google Inc. | Lattice semantic parsing |
| US9092505B1 (en) | 2013-06-25 | 2015-07-28 | Google Inc. | Parsing rule generalization by n-gram span clustering |
| US9123336B1 (en) | 2013-06-25 | 2015-09-01 | Google Inc. | Learning parsing rules and argument identification from crowdsourcing of proposed command inputs |
| US9984684B1 (en) | 2013-06-25 | 2018-05-29 | Google Llc | Inducing command inputs from high precision and high recall data |
| US9251202B1 (en) | 2013-06-25 | 2016-02-02 | Google Inc. | Corpus specific queries for corpora from search query |
| US9299339B1 (en) | 2013-06-25 | 2016-03-29 | Google Inc. | Parsing rule augmentation based on query sequence and action co-occurrence |
| US9646606B2 (en) | 2013-07-03 | 2017-05-09 | Google Inc. | Speech recognition using domain knowledge |
| US8812320B1 (en) | 2014-04-01 | 2014-08-19 | Google Inc. | Segment-based speaker verification using dynamically generated phrases |
| US10360904B2 (en) | 2014-05-09 | 2019-07-23 | Nuance Communications, Inc. | Methods and apparatus for speech recognition using a garbage model |
| US9589563B2 (en) * | 2014-06-02 | 2017-03-07 | Robert Bosch Gmbh | Speech recognition of partial proper names by natural language processing |
| JP6671379B2 (ja) | 2014-10-01 | 2020-03-25 | エクスブレイン・インコーポレーテッド | 音声および接続プラットフォーム |
| US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
| CN110800045B (zh) * | 2017-10-24 | 2024-09-20 | 北京嘀嘀无限科技发展有限公司 | 用于不间断应用唤醒和语音识别的系统和方法 |
| KR102224994B1 (ko) * | 2019-05-21 | 2021-03-08 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
| KR20220034488A (ko) | 2020-09-11 | 2022-03-18 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
| US12374337B2 (en) * | 2022-11-01 | 2025-07-29 | Microsoft Technology Licensing, Llc | Systems and methods for GPT guided neural punctuation for conversational speech |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0876787A (ja) * | 1994-09-07 | 1996-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法およびこの方法を実施する装置 |
| JPH08248988A (ja) * | 1995-03-13 | 1996-09-27 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法 |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5509104A (en) * | 1989-05-17 | 1996-04-16 | At&T Corp. | Speech recognition employing key word modeling and non-key word modeling |
| CA2015410C (en) * | 1989-05-17 | 1996-04-02 | Chin H. Lee | Speech recognition employing key word modeling and non-key word modeling |
| US5625748A (en) * | 1994-04-18 | 1997-04-29 | Bbn Corporation | Topic discriminator using posterior probability or confidence scores |
| US5675706A (en) * | 1995-03-31 | 1997-10-07 | Lucent Technologies Inc. | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition |
| US5680511A (en) * | 1995-06-07 | 1997-10-21 | Dragon Systems, Inc. | Systems and methods for word recognition |
-
1996
- 1996-12-20 US US08/771,732 patent/US5797123A/en not_active Expired - Lifetime
-
1997
- 1997-09-23 EP EP97307401A patent/EP0834862A3/en not_active Withdrawn
- 1997-09-30 JP JP26595997A patent/JP3361732B2/ja not_active Expired - Fee Related
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0876787A (ja) * | 1994-09-07 | 1996-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法およびこの方法を実施する装置 |
| JPH08248988A (ja) * | 1995-03-13 | 1996-09-27 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法 |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000099080A (ja) * | 1998-09-16 | 2000-04-07 | Koninkl Philips Electronics Nv | 信頼性尺度の評価を用いる音声認識方法 |
| JP2003515177A (ja) * | 1999-10-19 | 2003-04-22 | ソニー エレクトロニクス インク | 自然言語インターフェースコントロールシステム |
| US7711570B2 (en) | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
| JP2004133477A (ja) * | 2002-10-14 | 2004-04-30 | Sony Internatl Europ Gmbh | 音声認識方法、音声認識方法のためのコンピュータプログラム、及びそのコンピュータプログラムが記録された記憶媒体 |
| JP2004334193A (ja) * | 2003-05-01 | 2004-11-25 | Microsoft Corp | 音声認識および自然言語理解のための複合統計/ルール・ベース文法モデルを有するシステム |
| JP2005115328A (ja) * | 2003-05-01 | 2005-04-28 | Microsoft Corp | 自然言語理解(NLU)システムにおける規則ベース文法に関するスロットおよび前終端記号(preterminal)に関する統計モデル |
| JPWO2008001486A1 (ja) * | 2006-06-29 | 2009-11-26 | 日本電気株式会社 | 音声処理装置およびプログラム、並びに、音声処理方法 |
| US8751226B2 (en) | 2006-06-29 | 2014-06-10 | Nec Corporation | Learning a verification model for speech recognition based on extracted recognition and language feature information |
| WO2010024052A1 (ja) * | 2008-08-27 | 2010-03-04 | 日本電気株式会社 | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| EP0834862A2 (en) | 1998-04-08 |
| JP3361732B2 (ja) | 2003-01-07 |
| US5797123A (en) | 1998-08-18 |
| EP0834862A3 (en) | 1998-12-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3361732B2 (ja) | 音声認識方法および音声認識装置 | |
| US9646605B2 (en) | False alarm reduction in speech recognition systems using contextual information | |
| JP3672595B2 (ja) | 結合されたストリングモデルの最小誤認率訓練 | |
| JP3434838B2 (ja) | ワードスポッティング法 | |
| US6542866B1 (en) | Speech recognition method and apparatus utilizing multiple feature streams | |
| US6535850B1 (en) | Smart training and smart scoring in SD speech recognition system with user defined vocabulary | |
| US6125345A (en) | Method and apparatus for discriminative utterance verification using multiple confidence measures | |
| US6912499B1 (en) | Method and apparatus for training a multilingual speech model set | |
| EP1610301B1 (en) | Speech recognition method based on word duration modelling | |
| Deshmukh et al. | Hierarchical search for large-vocabulary conversational speech recognition: working toward a solution to the decoding problem | |
| US20080312926A1 (en) | Automatic Text-Independent, Language-Independent Speaker Voice-Print Creation and Speaker Recognition | |
| US6738745B1 (en) | Methods and apparatus for identifying a non-target language in a speech recognition system | |
| Kawahara et al. | Flexible speech understanding based on combined key-phrase detection and verification | |
| JPH09127972A (ja) | 連結数字の認識のための発声識別立証 | |
| Schlüter et al. | Interdependence of language models and discriminative training | |
| CN101452701B (zh) | 基于反模型的置信度估计方法及装置 | |
| US20050038647A1 (en) | Program product, method and system for detecting reduced speech | |
| Falavigna et al. | Acoustic and word lattice based algorithms for confidence scores. | |
| Kawahara et al. | Combining key-phrase detection and subword-based verification for flexible speech understanding | |
| JPH1185188A (ja) | 音声認識方法及びそのプログラム記録媒体 | |
| Ramesh et al. | Context dependent anti subword modeling for utterance verification. | |
| Mengusoglu et al. | Use of acoustic prior information for confidence measure in ASR applications. | |
| US20040267529A1 (en) | N-gram spotting followed by matching continuation tree forward and backward from a spotted n-gram | |
| JP6199994B2 (ja) | コンテキスト情報を使用した音声認識システムにおける誤警報低減 | |
| Williams | A study of the use and evaluation of confidence measures in automatic speech recognition |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071018 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081018 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081018 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091018 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091018 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101018 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111018 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121018 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131018 Year of fee payment: 11 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |