JPH10116094A - 音声認識方法および音声認識装置 - Google Patents

音声認識方法および音声認識装置

Info

Publication number
JPH10116094A
JPH10116094A JP9265959A JP26595997A JPH10116094A JP H10116094 A JPH10116094 A JP H10116094A JP 9265959 A JP9265959 A JP 9265959A JP 26595997 A JP26595997 A JP 26595997A JP H10116094 A JPH10116094 A JP H10116094A
Authority
JP
Japan
Prior art keywords
sentence hypothesis
phrase
sentence
hypothesis
key phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9265959A
Other languages
English (en)
Other versions
JP3361732B2 (ja
Inventor
Chou Uu
チョウ ウー
Biing Hwang Juang
ジャン ビン−ホワン
Tatsuya Kawahara
たつや かわはら
Lee Chin-Fui
リー チン−フイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Publication of JPH10116094A publication Critical patent/JPH10116094A/ja
Application granted granted Critical
Publication of JP3361732B2 publication Critical patent/JP3361732B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 固定した形式的な文法に基づいて受容される
よりも多くの発話が受容される、効率および自由度の高
い会話音声認識を実現する。 【解決手段】 キー句検出器11で、会話の状態に固有
の句部分文法の集合に基づいて複数のキー句を検出す
る。次に、キー句検証器12で、これらのキー句に信頼
性尺度を割り当て、その信頼性尺度をしきい値と比較す
ることによってそれらのキー句を検証し、検証済みキー
句候補の集合を得る。次に、文仮説生成器13で、検証
済みキー句候補を、所定の(例えばタスク固有の)意味
情報25に基づいて結合して文仮説を得る。最後に、文
仮説検証器14で、これらの文仮説を検証して、検証済
み文仮説を生成し、最終認識結果を得る。会話ベースの
システムでは、大規模なタスク内の会話の特定の状態に
応じて(すなわち「サブタスク」に対して)、個別の句
部分文法を使用することが可能である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識の分野に
関し、特に、会話音声を理解する方法に関する。
【0002】
【従来の技術】過去数年間、会話音声の認識および理解
のためのシステムが開発され、いくつもの「実世界」の
応用で評価されている。いくつかのアプローチが用いら
れている。第1のアプローチは決定性有限状態文法(F
SG)である。これは、簡単なタスクあるいはアプリケ
ーションに限定されるが、ユーザの発話を受け取る(そ
してそれにより認識し最終的には理解する)ものであ
る。このようなシステムでは、認識器は、音声入力全体
を、可能な(すなわち、固定した文法により許容され
る)単語列のいずれかに合うものを見つける(復号す
る)ことを試みる。
【0003】
【発明が解決しようとする課題】実際には、このような
固定した文法を使用することは、ほとんど文法的に正し
い文(文法内の文)がシステムに与えられる場合には有
効である。しかし、多数のユーザに適用されるほとんど
の典型的な「実世界」の環境では、さまざまな発話に遭
遇し、その多くはこのようなタスクベースの文法によっ
て十分に対応することができない。このような文法的に
正しくない文(文法外の文)には、例えば、無関係単
語、口ごもり、反復および予想外の表現などがある。日
付あるいは時刻の音声認識のような明らかに単純なサブ
タスクの場合でさえ、自然なユーザ発話の20%以上が
文法外となる可能性が高いことが分かっている。このよ
うな条件下で、これらの文法を用いるシステムの性能は
低い。そしてこの低い性能は、試行期間中に文法を念入
りに調整したにもかかわらず起こる。タスクがさらに複
雑な問合せに関わる場合には状況はさらに悪くなる。こ
のような複雑な問合せに対処する固定したタスクベース
の文法を書いてから十分に調整することは、法外な量の
(人間の)時間および労力を必要とすることが明らかに
なっている。
【0004】上記の問題点は、固定した文レベルの文法
を仮定して、その文法が入力全体に適合(マッチング)
しなければならないという一様な要求条件を適用する復
号の枠組みから生じている。(発話の文法外部分に適合
する)「フィルタ」モデルの使用は、固定文法のほとん
ど従う音声サンプルには限定された成功を収めている
が、固定文法に固有の基本的な問題点を解決していない
ために、多くの一般的な発話が認識されないままであ
る。
【0005】会話音声の認識および理解に対するもう1
つのアプローチは、統計言語モデルの使用に関するもの
である。このようなモデルは、固定した所定の文法に基
づくのではなく、大量のサンプルデータを用いた学習
(トレーニング)の結果として統計的に生成された文法
に基づく。例えば、米国政府(ARPA)がスポンサー
となっているATIS(航空旅行情報システム(Air Tra
vel Information System))プロジェクトは、統計言語
モデルのアプローチを用いた会話音声処理に対する包括
的プロジェクトである。(例えば、D. A. Dahl, "Expan
ding the Scope of the ATIS Task: The ATIS-3 Corpu
s", Proc. ARPA Human Language Technology Workshop,
pp.43-48, 1994、参照。)この場合、かなりの量のデ
ータが収集され、文法外の発話を認識する能力に関して
も、統計言語モデルの使用は比較的成功を収めた。
【0006】しかし、一般的な「実世界」のアプリケー
ションでは、データ収集作業自体が大量の(人間の)時
間および労力を必要とするため、統計モデルをトレーニ
ングするためにこのような大量のデータを提供すること
は実際的でないことが多い。ほとんどのアプリケーショ
ンでは、与えられたタスクに対して単純な2連語(bigra
m)言語モデルを構築するのに十分な量のデータを収集す
るのでさえ実際的ではない。(さらに、注意すべき点で
あるが、ATISシステムの場合、実行されたシナリオ
およびデータ収集はやや人工的であり、従って、実世界
の自然発話に固有の問題点を必ずしも反映していない可
能性がある。)これらの理由から、「実世界」のアプリ
ケーションに配備され試験されているほとんどの会話シ
ステムは、文法外発話を処理する能力が制限されている
にもかかわらず、実際には上記のような決定性有限状態
文法を使用している。
【0007】会話音声認識問題のために考えられている
もう1つのクラスのアプローチは「単語スポッティン
グ」方式に関するものである。これは、例えば、R. C.
Rose,"Keyword Detection in Conversational Speech U
tterances Using Hidden Markov Model Based Continuo
us Speech Recognition", Computer Speech and Langua
ge, 9(9):309-333, 1995、および、H. Tsuboi and Y. T
akebayashi, "A Real-time Task-oriented Speech Unde
rstanding System Using Keyword-spotting", Proc. IE
EE-ICASSP, volume 1, pp.197-200, 1992、に記載され
ている。これらのアプローチは、入力発話の非キーワー
ド部分のモデル化に使用する方法に依存して2つのカテ
ゴリーに分類される。
【0008】その第1のカテゴリーに分類することがで
きる単語スポッティング方式は、大語彙を認識する能力
に基づくものである。この方式の例としては、J. R. Ro
hlicek et al., "Phonetic Training and Language Mod
eling for Word Spotting",Proc. IEEE-ICASSP, volume
2, pp.459-462, 1993、および、M. Weintraub, "Keywo
rd-Spotting Using SRI's DECIPHER Large-Vocabulary
Speech-RecognitionSystem", Proc. IEEE-ICASSP, volu
me 2, pp.463-466, 1993、に記載されているものがあ
る。この技術は、できるだけ多くの語彙知識を組み込
み、キーワードモデルとともに、多くの非キーワード語
彙単語モデルをシステムで利用可能とする。しかし、こ
の技術でも、自然音声でしばしば見られる口ごもりや自
己反復のような非適格な現象を十分にモデル化すること
ができない。すなわち、すべての一様復号アプローチに
固有の問題点を解決していない。さらに、大語彙自然音
声認識技術は、タスク領域が限定される場合には特に、
性能および効率性に問題がある。
【0009】単語スポッティング方式の第2のカテゴリ
ーは、入力発話の非キーワード部分をモデル化するため
に用いられる部分語(subword)モデルの並列ネットワー
クまたは単純ガーベジモデルとともに単純(すなわち限
定語彙)単語スポッティングを使用するものである。こ
のような方式の例としては、J. G. Wilpon et al., "Au
tomatic Recognition of Keywords in Unconstrained S
peech Using Hidden Markov Models", IEEE Trans. Aco
ust., Speech & Signal Process., 38(11):1870-1878,
1990、および、R. C. Rose and D. B. Paul, "A Hidden
Markov ModelBased Keyword Recognition System", Pr
oc. IEEE-ICASSP, pp.129-132, 1990、に記載されてい
るものがある。残念ながら、ガーベジモデルも、部分語
モデルの並列ネットワークも、非キーワードに合うもの
を見つける性能が十分ではなく、そのため、キーワード
モデルが発話の無関係(すなわち非キーワード)部分と
誤って合わせられることも多い。この結果、多くの「フ
ォールスアラーム」(すなわち、キーワードの誤った
「認識」)が起こる。さらに、このカテゴリーに属する
既存のほとんどのシステムは、語彙に依存してキーワー
ドモデルおよびガーベジモデルを「調整」し、それによ
り、部分語に基づく音声認識アプローチの利点の多くを
犠牲にしている。これらの理由から、このカテゴリーの
単語スポッティング方式で応用が成功しているのは、例
えば数字音声認識のタスクのような非常に小さい語彙を
含むタスクのみである。
【0010】
【課題を解決するための手段】本発明の発明者が認識し
たところでは、ほとんどの会話音声発話(すなわち
「文」)はタスクに関するあるキーワードおよび「キー
句(キーフレーズ)」を含み、その認識により発話の部
分的あるいは全体的な理解が可能となる一方で、発話の
他の部分は実際にはタスクに関係がないので無視すべき
である。(注意すべき点であるが、「文」という用語
は、本明細書では、任意の単語列を意味し、そのような
単語列が文法的に正しい文構造を有するかどうかは問わ
ない。また、「キー句」という用語の使用は、本明細書
では、1個以上の単語からなる列を含むものとする。す
なわち、キーワードは単一の単語からなる「キー句」で
ある。)すなわち、自由度の高い音声理解システムは、
文の意味的に重要な部分を検出し無関係な部分を拒絶す
るアプローチに基づいて構築することができる。従来の
文法的制約を緩和し、かつ、認識されるキー句の集合に
特に注目することによって、例えば固定した形式的な文
法に基づいて受容されるよりも多くの発話が受容され
る。
【0011】そこで、本発明の実施例によれば、自由度
の高い(すなわち、制約のない)音声の理解を実現する
ために使用可能なキー句の検出および検証の技術が実現
される。具体的には、単語列(すなわち文)からなる音
声発話に「多重パス」手続きが適用される。まず、例え
ば会話の状態に固有の句部分文法の集合に基づいて複数
のキー句を検出(すなわち、認識)する。次に、これら
のキー句に信頼性尺度を割り当て、その信頼性尺度をし
きい値と比較することによってそれらのキー句を検証
し、その結果として、検証済みキー句候補の集合を得
る。次に、検証済みキー句候補を、所定の(例えばタス
ク固有の)意味情報に基づいて結合して文仮説を得る。
文仮説は、個々のキー句信頼性尺度に基づいて生成する
ことも可能である。最後に、これらの文仮説を検証し
て、検証済み文仮説を生成し、その結果、音声発話の理
解を得る。
【0012】さらに、会話ベースのシステムでは特に、
大規模なタスク内の会話の特定の状態に応じて(すなわ
ち、「サブタスク」に対して)、個別の句部分文法を使
用することが可能である。例えば、会話ベースの自動車
予約タスク内では、システムは、与えられた時点におい
て、要求された車が必要となる日時を決定する必要があ
る。この場合、予期される応答は、時間的な情報のみを
与えるものであると限定することができる。自由度の高
い会話マネージャと組み合わされることにより、本発明
の実施例によるシステムは、文音声を少なくとも部分的
に理解することができる。さらに、会話セッションが進
むうちに、必要な明確化(曖昧さの除去)を実行するこ
とも可能である。
【0013】
【発明の実施の形態】
[はじめに]本発明の実施例によれば、会話音声の認識
および理解のためのシステムは、(例えば、非キーワー
ド大語彙知識を用いることなく)部分語ベースの音声認
識の一般的な枠組みで、無関係部分を誤って「認識」せ
ずに、発話の重要部分を認識することによって実現され
る。(部分語ベースの音声認識は、当業者には周知であ
るが、音節、半音節あるいは音素のような単語セグメン
トのモデリングおよびマッチングを含む。次に、それら
の単語セグメント(すなわち、部分語)の列に、語彙内
の各単語をマッピングするために、辞書(lexicon)が提
供される。こうして、単語に対応するモデルは、実質的
に、辞書によって指定される、その単語を構成する部分
語のモデルの連接からなる。)図1に、本発明の実施例
による音声認識および音声発話の理解を実行する1つの
例示的なシステムの図を示す。
【0014】注意すべき点であるが、従来技術の最も重
大な問題点のうちの1つは、従来の音声認識器は一般
に、その結果にどのくらいの信頼性をおくことができる
かが分からないことである。この理由で、図1に示した
本発明の実施例によれば、認識した結果に対する仮説検
定を実行し、それに信頼性尺度を割り当てる検証方法を
用いる。(例えば、R. A. Sukkar et al., "A Vocabula
ry Independent Discriminitively Trained Method for
Rejection of Non-Keywords in Subword-BasedSpeech
Recognition", Proc. EuroSpeech-95, pp.1629-1632, 1
995、R. A. Sukkar et al., "Utterance Verification
of Keyword Strings Using Word-Based Minimum Verifi
cation Error (WB-MVE) Training", Proc. IEEE-ICASS
P, pp.518-521, 1996、および、M. Rahim et al., "Dis
criminitive Utterance Verification Using Minimum S
tring Verification Error (MSVE) Training", Proc. I
EEE-ICASSP, 1996、参照。)このような発話検証法を図
1の実施例のシステムに統合することによって、キーワ
ード(あるいは、この場合にはキー句)の検出の信頼性
を高くすることができる。すなわち、キーワードモデル
への正しくないマッチングすなわち「フォールスアラー
ム」は大幅に減少する。
【0015】また、図1の実施例のシステムは、このよ
うな「フォールスアラーム」をさらに減少させる。シス
テムは、このようなキーワード(あるいはキー句)マッ
チングおよび検証プロセスの単独の結果として「最終判
定」をしない。むしろ、検証したキーワードあるいはキ
ー句の組み合わせ(すなわち、文)に基づいて意味解析
を実行して文仮説を生成し、それを別の検証プロセスで
検証する。特に、この文仮説検証プロセスは、全発話内
にあるいくつかの部分語からなる「部分入力」で実行さ
れる。
【0016】既に指摘したように、図1の実施例のシス
テムは、検出単位として、キーワードのみを使用するの
ではなく、キー句を使用する。上記の単語スポッティン
グ方式は一般に、局所的ノイズや乱雑な音によって容易
にトリガされる小さいテンプレートを使用する。より長
い検出単位(すなわち、単なるキーワードの代わりにキ
ー句)を使用することは、より特徴的な情報を含むこと
になり、その結果、認識段階および検証段階の両方で、
より安定な音響マッチングが得られるので、有効であ
る。
【0017】具体的には、キー句は、1個以上のキーワ
ードと、おそらくは、機能語との列からなる。例え
ば、"in the morning"は、期間についてのキー句であ
り、"in downtown Chicago"は、地理的場所についての
キー句である。このような句は、自然音声で発話される
ときでも、一般に息継ぎなしで発話される。
【0018】ここに記載する本発明の実施例によれば、
検出されたキー句には概念情報のタグが付けられる。実
際には、キー句は、例えば時刻および場所のような、意
味(セマンティック)フレームにおける意味スロットに
直接対応するように定義される。(意味フレームは、当
業者に周知の用語であるが、与えられたアプリケーショ
ンに対して、会話によって部分的にあるいは完全に充填
される情報テンプレートからなる。)従来のn連語(n-g
ram)言語モデルによって定義されるようなボトムアップ
句(例えば、B. Suhm and A. Waibel, "Towards Better
Language Models for Spontaneous Speech", Proc. IC
SLP, pp.831-834, 1994、E. P. Giachin, "Phrase Bigr
ams for Continuous Speech Recognition", Proc. IEEE
-ICASSP,pp.225-228, 1995、および、S. Deligne and
F. Bimbot, "Language Modelingby Variable Length Se
quences: Theoretical Formulation and Evaluation of
Multigrams", Proc. IEEE-ICASSP, pp.169-172, 1995、
参照。)とは異なり、本実施例によって認識されるトッ
プダウンキー句は、容易に意味表現へと直接にマッピン
グされる。従って、これらのキー句の検出は、直接に、
発話の確実な理解につながる。
【0019】具体的には、図1の実施例のシステムは、
キー句検出器11、キー句検証器12、文仮説生成器1
3および文仮説検証器14を有する。特に、キー句検出
器11は、会話状態に特有の句部分文法(すなわち、キ
ー句文法21)の集合を用いてキー句の集合を認識する
ための部分語ベースの音声認識器からなる。検出された
キー句には、次に、意味(セマンティック)タグが付け
られる。このタグは、文仮説生成器13(後述)によっ
てその後に実行される文レベルの解析で有用となる。キ
ー句検出器11によって用いられる部分語モデル認識器
は、辞書23および部分語モデル22を使用する。これ
らは、例えば、当業者に周知の従来の最小分類誤差(M
CE(minimum classification error))基準に基づいて
トレーニングされたものである。これらのモデル自体
は、例えば、同じく当業者に周知の隠れマルコフモデル
(HMM)からなることも可能である。
【0020】次に、検出されたキー句は、キー句検証器
12によって検証され、信頼性尺度が割り当てられる。
上記のように、このプロセスは、これがなければ起こり
得る多くのフォールスアラームを除去する。実施例のキ
ー句検証器12は、当業者に周知の「反部分語モデル」
を用いて、認識されたキー句の各部分語をテストする、
部分語レベルの検証の組合せからなる。キー句検証器1
2は辞書23、部分語モデル22および反部分語モデル
24を使用する。これらは、例えば、最小検証誤差(M
VE(minimum verification error))基準を用いてトレ
ーニングされたものである。
【0021】図1の実施例の第3の構成要素は文仮説生
成器13である。これは、例えばタスク固有の意味情報
25を用いて、検証されたキー句候補を1つ以上の文仮
説へと結合する。例えば、T. Kawahara et al., "Conce
pt-Based Phrase Spotting Approach for Spontaneous
Speech Understanding", Proc. IEEE-ICASSP, pp.291-2
94, 1996、に記載されたようなスタック復号器を用い
て、意味制約を満たす最適な仮説を探索することができ
る。
【0022】最後に、文仮説検証器14によって、音響
的かつ意味的に最良の意味仮説が検証され、最終出力
(すなわち、少なくとも1つの検証された文仮説)が生
成される。文仮説検証器14は、意味情報25、辞書2
3、部分語モデル26および反部分語モデル27を使用
する。キー句に付けられた意味タグが、キー句検出器1
1によって提供され意味仮説生成器13によって使用さ
れるため、検証された文仮説は本質的に、直接に対応す
る「意味」を有し、それにより、個々のアプリケーショ
ンによる必要に応じた意味フレームの生成が可能とな
る。
【0023】[キー句検出]キー句検出器11は、キー
句検出を実行する。これは、会話状態に依存する特定の
サブタスクに基づくことが可能である。具体的には、各
サブタスクごとに、キー句パターンが1つ以上の決定性
有限状態文法として記述される。これは、実施例では、
キー句検出器11によってキー句文法21から選択され
る。これらの文法は、タスク仕様から直接に人手により
導出することも可能であり、あるいは、当業者に周知の
従来の学習手続きを用いて、小さいコーパスから自動的
または半自動的に(すなわち、人間の支援のもとで)生
成することも可能である。
【0024】一般に、キー句は、従来のキーワードに加
えて、"at the"や"near"のような機能語を含む。これに
より、従来のキーワードのみのマッチングに比べて、よ
り安定なマッチングが可能となり、検出精度が改善され
る。(例えば、前掲のT. Kawahara et al., "Concept-B
ased Phrase Spotting Approach for Spontaneous Spee
ch Understanding"を参照。)いずれのキー句にも含ま
れないがしばしばキー句に伴う充填句も定義され、埋め
込まれたキー句を含む句パターンを形成するために使用
される。
【0025】特に、キー句および充填句の文法はネット
ワークへとコンパイルされる。このネットワークにおい
て、キー句は繰り返し現れ、ガーベジモデルがキー句の
出現の間に埋め込まれる。しかし、注意すべき点である
が、単純な繰り返しは曖昧さを生じる可能性がある。例
えば、日の繰り返しが許容される場合、"twenty four"
と"twenty"+"four"を区別することはできない。従っ
て、不可能なキー句の結合を禁止する追加の制約も組み
込む必要がある。
【0026】従って、検出ユニットは、許容される結合
および反復を有するキー句部分文法オートマトンのネッ
トワークからなる。このようなオートマトンは、結合重
みを評価することによって、確率的言語モデルへと容易
に拡張することができる。このようなモデルを使用する
ことにより、文レベルの文法と比べてあまり複雑になら
ずに、適用範囲が広くなる。
【0027】例として、図2に、単純化した(すなわ
ち、簡略化した)句ネットワークの例を示す。これは、
「データ取得」サブタスクに適用された場合に、図1の
実施例のシステムのキー句検出器11によって使用され
ることが可能である。このネットワーク例の完全な実現
により、曜日、月、日、および年の実質的に任意の反復
が、適当な制約のもとに許容される。(このような完全
な実現の全語彙は99語である。)この特定のサブタス
クでは、キャリア句は組み込まれない。
【0028】さらに具体的には、ここに記載する本発明
の実施例によって採用されている検出方法は、フォワー
ド−バックワード2パス探索に基づくものである。これ
は、例えば、W. Chou et al., "An Algorithm of High
Resolution and Efficient Multiple String Hypothesi
zation for Continuous Speech Recognition Using Int
er-Word Models", Proc. IEEE-ICASSP, volume 2, pp.1
53-156, 1994、に記載されている。本発明の別の実施例
では、代わりに、当業者に周知の1パス検出法を使用す
ることも可能である。
【0029】A*認容スタック復号器(例えば、前掲の
T. Kawahara et al., "Concept-Based Phrase Spotting
Approach for Spontaneous Speech Understanding"に
記載されているもの)は、N番目までの最良ストリング
仮説からなる集合を求めることができるが、この結果と
して得られるN個の最良仮説は一般に、1〜2個が置き
換わった類似の単語列である。本発明の目標は、(入力
発話全体に基づいてストリング仮説を生成することでは
なく)入力発話の一部に基づいてキー句候補を識別する
ことであるので、仮説を延長しても既に延長された仮説
と同じ仮説になる場合にはその仮説は捨てられる。
【0030】特に、本実施例のスタック復号器は、キー
句ネットワークのマージング(merging)状態にマークを
付けることによって実現される。当業者には周知のよう
に、マージング状態は、キー句あるいは充填句が終了
し、さらに延長すると次の(すなわち新たな)句の最初
に侵入することになるノードに対応する。
【0031】スタック復号器によって「ポップ」される
仮説に、出力されるべき完全な句であるというタグが付
いている場合、本発明の手続きは、もう1語だけその句
を延長し、その句を最良延長と並べる。このノードに、
以前のいずれかの仮説が同じ時点に到達している場合、
検出した句を出力した後に現在の仮説は捨てられる。そ
うでなければ、その時点は、その後の探索のためにマー
クされる。
【0032】注意すべき点であるが、この検出手続き
は、冗長な仮説延長のない効率的なものであり、スコア
順に、正しいN番目までの最良のキー句候補を生成す
る。本発明のさまざまな実施例によれば、この手続き
は、所望の個数の句を生成したことに基づいて、あるい
は、あるスコアしきい値に基づいて、終了することも可
能である。例えば、仮説のスコアが、最高スコア仮説の
0.99倍より小さい値に到達したときに、検出を終了
することも可能である。
【0033】[キー句検証と信頼性尺度]図1の実施例
のシステムのキー句検証器12は、部分語レベルのテス
トに基づいて、検出された句の検証を行う。具体的に
は、与えられた句の各部分語nに対して、検証スコア
は、次式のような従来の尤度比(LR(likelihood rati
o))テストに基づいて計算される。 LRn=P(O|λn c)/P(O|λn a) (1) ただし、Oは、観測フレームの列を表し、λn cおよびλ
n aは、それぞれ、部分語nに対する正しい部分語モデル
および反部分語モデルを表す。(部分語モデルは部分語
モデル22から得られ、対応する反部分語モデルは反部
分語モデル24から得られる。)認識の結果として、観
測列Oは、部分語nに対して、ビタビアルゴリズムによ
り並べられ、確率P(O|λn c)およびP(O|λn a
が得られる。(ビタビアルゴリズムは、当業者に周知の
従来のスコアリング方法である。)
【0034】各部分語モデルに対して、対応する反部分
語モデルは、混同しやすい部分語クラスをまとめること
(クラスタ化)によって構成される。各反部分語モデル
は、対応する部分語モデルと同じ構造、すなわち、同じ
個数の状態およびミクスチャを有する。反部分語モデル
は、特定の部分語の検証専用であるため、反部分語モデ
ルをリファレンスとして使用して復号を行うことによ
り、部分語モデルの無制約な復号を行うのに比べて、弁
別性が改善される。こうして、システムは、認識器によ
ってなされる置換誤りを拒絶する能力が増大する。この
(検証)ステップでは、文脈独立な反部分語モデルを使
用することも可能であるが、認識ステップは、文脈依存
の部分語モデルを用いて実行される。
【0035】特に、上記の式(1)の対数をとり、その
結果を、観測Oの継続時間長lnに基づいて正規化する
ことにより、量log LRnが次のように定義される。 log LRn=(log P(O|λn c)−log P(O|λn a))/ln (2) 注意すべき点であるが、式(2)の第1項は認識スコア
そのものであるので、上記の計算の効果は単に、計算さ
れるスコアを反部分語モデルのスコアだけずらし、その
結果を正規化することである。
【0036】キー句検証器12は、検出された各キー句
ごとに、対応する部分語レベルの検証スコアを組み合わ
せることによって、信頼性尺度(CM(confidence meas
ure))を計算する。例えば、検出されたキー句がN個の
部分語を含む場合、このキー句に対する信頼性尺度は、
対応するN個の尤度比の関数とすることが可能である。
具体的には、次のようになる。 CM=f(log LR1,...,log LRN) (3) 信頼性尺度(CM)が、ある所定のしきい値を超える場
合に、与えられたキー句は承認される。実施例では、し
きい値の値は、例えば−0.15に設定される。
【0037】本発明のさまざまな実施例において、さま
ざまな信頼性尺度関数を使用することができる。例え
ば、第1の例示的な信頼性尺度CM1は、フレーム継続
時間による正規化に基づく。特に、これは、正しい部分
語モデルに対して得られるビタビスコアと、対応する反
部分語モデルに対して得られるビタビスコアの差に等し
い。すなわち、次のようになる。
【数1】 上記の式で、lnは、部分語nの継続時間を表し、Lは
句の全継続時間である。すなわち、L=Σlnである。
【0038】第2の例示的な信頼性尺度CM2は、部分
語セグメントによる正規化に基づく。特に、これは、与
えられたキー句のすべての部分語の対数尤度比の単なる
平均である。(一実施例では、句セグメンテーション後
に単語間文脈情報が失われるため、最後の部分語に対し
て特別の考慮がなされる。)すなわち、次のようにな
る。
【数2】
【0039】第3の例示的な信頼性尺度CM3は、すべ
ての部分語にわたる平均の信頼性レベルではなく、検証
プロセスの結果、信頼性レベルが低いような部分語に注
目する。これが有効なのは、正しくないキー句の部分語
のうちには実際に入力句に正しく一致するが、他の部分
語は入力句とは非常に異なることがあるからである。例
えば、"November"の後半部分は、場合によって、入力
句"December"の後半と完全に一致するため、部分語スコ
アを平均した場合に高い検証スコア(すなわち信頼性尺
度)を受け取ることになる。従って、これを確実に拒絶
するためには、この句の前半(その検証スコアは低くな
る可能性が高い)に注目するのが有効である。
【0040】このように、低い信頼性レベルの部分語に
注目するために、各部分語ごとに正規分布を仮定するこ
とによって、対数尤度比を調整することが可能である。
具体的には、部分語HMMのトレーニングで用いたサン
プルを使用して、各部分語ごとに対数尤度比の平均およ
び分散を計算する。その後、対数尤度比が、期待される
平均より小さい部分語のみを含む和を実行することによ
って、CM3を計算することができる。すなわち、次の
ようになる。
【数3】 ただし、Naは、対数尤度比が実際には期待される平均
より小さい部分語の数(すなわち、log LRn<0と
なる部分語の数)である。
【0041】第4の例示的な信頼性尺度CM4はシグモ
イド関数を用いる。この例示的な信頼性尺度は、最小誤
り率基準でトレーニングするための損失関数として用い
られる。すなわち、次のようになる。
【数4】 これらの信頼性尺度のそれぞれに対して(あるいは、本
発明の別の実施例によって使用される信頼性尺度に対し
て)、特定のしきい値を選択することが可能である。与
えられた信頼性尺度の値がそのしきい値を下回る場合、
候補キー句は検証済みキー句候補の集合から排除され、
そうでない場合、検証済みキー句候補の集合に含まれ
る。
【0042】本発明のさまざまな実施例によれば、計算
される信頼性尺度の尤度比は、「フォールスアラーム」
を排除するためだけではなく、検証済みの句に対する
「再スコアリング」を行うための基礎としても使用可能
である。例えば、E. Lleida and R. C. Rose, "Efficie
nt Decoding and Training Procedures for UtteranceV
erification in Continuous Speech Recognition", Pro
c. IEEE-ICASSP, pp.507-510, 1996、には、尤度比に基
づいて復号を行うことが提案されている。しかし、尤度
比の直接の使用は、そのダイナミックレンジが大きいた
め、不安定となる可能性がある。こうして、本発明の一
実施例によれば、反部分語モデルのスコアが正しい部分
語モデルのスコアより大きい場合(すなわち、CM1
0の場合)にガーベジ充填句を生成することによって、
反部分語モデルをガーベジモデルとして処理する。ガー
ベジ充填句は、もとの句と同じ継続時間を有し、もとの
句よりも例えばCM1だけ高いスコアを有する。その結
果、もとの句は、その後の文解析(以下参照)で選択さ
れる可能性が低くなる。
【0043】[文解析]図1の実施例のシステムの文仮
説生成器13はキー句検証器12によって生成された検
証済みキー句候補を意味情報25に基づいて1個以上の
文仮説へと組み合わせる文解析を実行する。一実施例で
は、句候補のLR(left-to-right)トレリスを使用する
ことが可能な1次元RL(right-to-left)探索が用いら
れる。別の実施例では、島駆動探索アルゴリズムを用い
ることも可能である。トレリス解析は計算量が多いた
め、さらに別の実施例ではラティス解析法を採用する。
これは、トレリス解析よりわずかに精度が低くなるだけ
である。ラティス解析法は、音響スコアと、提供される
意味制約情報(キー句タグの許容される組み合わせを指
定する)に基づいて、句候補を結合する。キー句検出の
ためのフォワード−バックワード探索によって与えられ
るスコアを音響スコアとして用いることが可能である。
【0044】最も可能性の高い文仮説を効率的に見つけ
るためには、スタック復号探索法を採用すると有効であ
る。この方法は、一連の部分仮説を反復的に生成し、完
全な文仮説が生成されるまで、各反復において最良の利
用可能な部分仮説を延長する。
【0045】具体的には、現在の「最良の」部分仮説を
{w1,w2}とし、新たな仮説が句w3を連結すること
によって生成されると仮定する。新たな仮説{w1
2,w3}に対する評価関数は、完全な入力発話h0
対する上限スコアからのずれ(オフセット)として以下
のように計算される。
【数5】 ただし、f^(wi)は、検出された句wiに対する評価
の結果である。初期仮説はf^(null)=h0である。
新たな句が追加されるごとに、オフセットが減算され
る。上限h0は、認識プロセスのフォワードパスで計算
される。
【0046】上記の方法は、例えば、W. A. Woods, "Op
timal Search Strategies for Speech Understanding C
ontrol", Artificial Intelligence, 18:295-326, 198
2、に記載されているような不足法(short-fall method)
に基づいている。注意すべき点であるが、この評価はA
*認容である。しかし、探索を効率的に導くこの方法の
発見的能力はやや限定されたものとなる可能性がある。
検出ベースの解析段階では特に、入力発話全体が扱われ
ることを仮定しないため、数語の短い仮説が誤って受容
される可能性が高い。従って、発話でスキップされた部
分を評価することが有効となる。そのため、具体的に
は、本発明の一実施例によれば、スキップ長に比例する
一様な罰金値をオフセットとして追加することが可能で
ある。もちろん、この近似は粗雑であるため、次善の探
索となる可能性がある。従って、これを補うために、で
きるだけ多くのキー句とともに、できるだけ多くのガー
ベジ句(無音を含む)を生成することが好ましい。(一
実施例では、これらの仮説は、キー句検証プロセス中に
生成することも可能である。)
【0047】[文検証]図1の実施例のシステムの文仮
説検証器14は、認識出力の最終判定を行う。実施例で
は、大域的音響情報および大域的意味情報の両方を使用
し、それぞれ入力発話全体に適用される。キー句検証プ
ロセスは局所的な判定のみをしたが、文仮説検証プロセ
スはこれらの局所的な結果を組み合わせ、従来の発話検
証と同様の効果を実現する。しかし、検出ベースの認識
プロセスは、多数の予期しないキャリア句を含む場合で
も入力発話を受容することが多いことに注意すべきであ
る。
【0048】具体的には、文仮説検証器14によって実
行される音響検証プロセスは、与えられた文仮説が十分
に一致することを保証するために、入力発話全体の再ス
コアリングを行う。この再スコアリングは、部分語モデ
ル26、反部分語モデル27、および辞書23を用いて
行われる。この段階で適用される部分語モデル(すなわ
ち、部分語モデル26)の集合および対応する反部分語
モデル(すなわち、反部分語モデル27)の集合は、キ
ー句検出器11およびキー句検証器12によって使用さ
れるもの(すなわち、部分語モデル22および反部分語
モデル24)よりも精度が高い。こうして、より高い精
度の音響再スコアリングが実行される。
【0049】一方、意味検証プロセスは、与えられた各
文仮説の意味的「完全性」を評価する。例えば、本発明
の一実施例によれば、意味検証は、ある構成要素が意味
的に「合法」かどうかのみを指定する単純な意味制約情
報に基づいて実行される。このような場合、文仮説検証
器14の意味解析部分は、例えば、与えられた文仮説の
意味表現が完全であるかどうかを判断する。しかし、注
意すべき点であるが、会話ベースのアプリケーションで
は、例えば、不完全な発話にしばしば遭遇する。例え
ば、ユーザはただ"August"(8月)と言うだけで、その
月の特定の日を指定しないことがある。一般に、こうし
た「不完全な」発話も同様に受容すべきである。
【0050】従って、本発明の一実施例によれば、文仮
説検証器14は、与えられた文仮説が意味表現を完成し
ておらず、かつ、ほとんどの入力セグメントが尤度比テ
ストで拒絶された場合にのみ、その文仮説を拒絶する。
この組合せ「テスト」は、例えば、満足な文仮説に遭遇
するまで、各文仮説に適用することが可能である。
【0051】しかし、本発明の別の実施例では、さらに
一般的な確率的意味モデルを、文仮説検証器14で用い
ることが可能である。このような場合、各文仮説につい
て、音響スコアとともに意味スコアを求め、組み合わせ
たスコアを用いて、最終認識結果として出力すべき検証
された文仮説を選択することが可能である。
【0052】本発明のさらに別の実施例では、意味的検
証のみまたは音響的検証のみ(両方ではない)を、文仮
説検証器14で実行することが可能である。例えば、さ
らに高い精度の部分語および反部分語のモデルが利用可
能でない場合には、入力発話の音響再スコアリングを実
行することはあまり効果がない。従って、この場合、意
味検証のみを実行して、単に、与えられた文仮説が意味
表現を完成していることを検証するか、あるいは、確率
的意味モデルを用いている場合には、検証済み文仮説が
最終認証結果として判断されるもとになる意味スコアを
生成する。
【0053】[付記]説明を明確にするため、ここに記
載した本発明の実施例は、個別の機能ブロックからなる
ものとして表した。これらのブロックによって表される
機能は、共用あるいは専用のハードウェアの使用によっ
て提供することが可能である。ハードウェアには、ソフ
トウェアを実行することが可能なハードウェアが含まれ
るが、これに限定されるものではない。例えば、ここに
記載した構成要素の機能は、単一の共用プロセッサによ
って、あるいは、複数のプロセッサによって提供するこ
とが可能である。本発明の実施例は、ディジタル信号プ
ロセッサ(DSP)ハードウェア、上記の動作を実行す
るソフトウェアを格納する読み出し専用メモリ(RO
M)、および、結果を格納するランダムアクセスメモリ
(RAM)からなることが可能である。超大規模集積
(VLSI)ハードウェアや、カスタムVLSI回路を
汎用プロセッサやDSP回路と組み合わせたものも可能
である。
【0054】また、「キー句検出器」、「キー句検証
器」、「文仮説生成器」、および「文仮説検証器」とい
う用語は、対応する機能を実行する任意のメカニズムを
含む。
【0055】
【発明の効果】以上述べたごとく、本発明によれば、固
定した形式的な文法に基づいて受容されるよりも多くの
発話が受容される、効率および自由度の高い会話音声認
識が実現される。
【図面の簡単な説明】
【図1】本発明の実施例による音声認識および音声発話
の理解を実行するシステムの図である。
【図2】「日付取得」サブタスクに適用した場合に、図
1の例示的なシステムによって使用されることが可能な
単純化された句ネットワーク例の図である。
【符号の説明】
11 キー句検出器 12 キー句検証器 13 文仮説生成器 14 文仮説検証器 21 キー句文法 22 部分語モデル 23 辞書 24 反部分語モデル 25 意味情報 26 部分語モデル 27 反部分語モデル
───────────────────────────────────────────────────── フロントページの続き (71)出願人 596077259 600 Mountain Avenue, Murray Hill, New Je rsey 07974−0636U.S.A. (72)発明者 ビン−ホワン ジャン アメリカ合衆国、07059 ニュージャージ ー、ウォレン、サウス レーン 8 (72)発明者 かわはら たつや 京都府京都市伏見区東奉行伏見御堂122 (72)発明者 チン−フイ リー アメリカ合衆国、07974 ニュージャージ ー、ニュー プロビデンス、ラニーメデ パークウェイ 118

Claims (32)

    【特許請求の範囲】
  1. 【請求項1】 複数の単語からなる音声発話の音声認識
    を実行する音声認識方法において、 句部分文法に基づいてキー句検出を実行して、認識され
    た単語からなる複数の検出済みキー句を生成する検出ス
    テップと、 前記検出済みキー句に信頼性尺度を割り当て、該信頼性
    尺度をしきい値と比較することにより、前記検出済みキ
    ー句の検証を実行して、検証済みキー句候補の集合を生
    成するキー句検証ステップと、 前記検証済みキー句候補を結合し、所定の意味情報に基
    づいて文仮説を生成するステップと、 前記文仮説の検証を実行して、少なくとも1つの検証済
    み文仮説を生成する文仮説検証ステップとからなること
    を特徴とする音声認識方法。
  2. 【請求項2】 前記句部分文法は、会話状態に基づく句
    部分文法の集合から選択されることを特徴とする請求項
    1の方法。
  3. 【請求項3】 前記句部分文法は、音声サンプルのコー
    パスを用いたトレーニングプロセスに基づいて導出され
    たものであることを特徴とする請求項1の方法。
  4. 【請求項4】 前記文仮説の生成は、前記信頼性尺度に
    も基づくことを特徴とする請求項1の方法。
  5. 【請求項5】 前記検出済みキー句は、意味タグでラベ
    ルされることを特徴とする請求項1の方法。
  6. 【請求項6】 前記文仮説の生成は、前記意味タグにも
    基づくことを特徴とする請求項5の方法。
  7. 【請求項7】 前記文仮説の生成は、前記信頼性尺度に
    も基づくことを特徴とする請求項6の方法。
  8. 【請求項8】 前記文仮説の生成は、前記信頼性尺度、
    前記意味タグ、および前記所定の意味情報に基づいて、
    最も確からしい文仮説を判定するステップからなること
    を特徴とする請求項7の方法。
  9. 【請求項9】 前記検出ステップは複数の部分語モデル
    に基づいて実行され、前記検出済みキー句は部分語の列
    からなることを特徴とする請求項1の方法。
  10. 【請求項10】 前記部分語モデルは隠れマルコフモデ
    ルからなることを特徴とする請求項9の方法。
  11. 【請求項11】 前記キー句検証ステップは、部分語モ
    デルの集合と、対応する反部分語モデルの集合に基づい
    て実行されることを特徴とする請求項9の方法。
  12. 【請求項12】 前記部分語モデルおよび前記反部分語
    モデルは隠れマルコフモデルからなることを特徴とする
    請求項11の方法。
  13. 【請求項13】 前記文仮説検証ステップは、文仮説に
    対して音響的検証を実行するステップからなることを特
    徴とする請求項1の方法。
  14. 【請求項14】 前記文仮説検証ステップは、文仮説に
    対して意味的検証を実行するステップからなることを特
    徴とする請求項1の方法。
  15. 【請求項15】 前記文仮説検証ステップは、最も確か
    らしい1つの文仮説を選択するステップを含むことを特
    徴とする請求項1の方法。
  16. 【請求項16】 前記検証済み文仮説に基づいて意味フ
    レームを生成するステップをさらに有することを特徴と
    する請求項1の方法。
  17. 【請求項17】 複数の単語からなる音声発話の音声認
    識を実行する音声認識装置において、 句部分文法に基づいてキー句検出を実行して、認識され
    た単語からなる複数の検出済みキー句を生成するキー句
    検出器と、 前記検出済みキー句に信頼性尺度を割り当て、該信頼性
    尺度をしきい値と比較することにより、前記検出済みキ
    ー句の検証を実行して、検証済みキー句候補の集合を生
    成するキー句検証器と、 前記検証済みキー句候補を結合し、所定の意味情報に基
    づいて文仮説を生成する文仮説生成器と、 前記文仮説の検証を実行して、少なくとも1つの検証済
    み文仮説を生成する文仮説検証器とからなることを特徴
    とする音声認識装置。
  18. 【請求項18】 前記句部分文法は、会話状態に基づく
    句部分文法の集合から選択されることを特徴とする請求
    項17の装置。
  19. 【請求項19】 前記句部分文法は、音声サンプルのコ
    ーパスを用いたトレーニングプロセスに基づいて導出さ
    れたものであることを特徴とする請求項17の装置。
  20. 【請求項20】 前記文仮説生成器は、前記信頼性尺度
    にも基づいて前記文仮説を生成することを特徴とする請
    求項17の装置。
  21. 【請求項21】 前記検出済みキー句は、意味タグでラ
    ベルされることを特徴とする請求項17の装置。
  22. 【請求項22】 前記文仮説生成器は、前記意味タグに
    も基づいて前記文仮説を生成することを特徴とする請求
    項21の装置。
  23. 【請求項23】 前記文仮説生成器は、前記信頼性尺度
    にも基づいて前記文仮説を生成することを特徴とする請
    求項22の装置。
  24. 【請求項24】 前記文仮説生成器は、前記信頼性尺
    度、前記意味タグ、および前記所定の意味情報に基づい
    て、最も確からしい文仮説を判定することを特徴とする
    請求項23の装置。
  25. 【請求項25】 前記キー句検出器は複数の部分語モデ
    ルに基づいて動作し、前記検出済みキー句は部分語の列
    からなることを特徴とする請求項17の装置。
  26. 【請求項26】 前記部分語モデルは隠れマルコフモデ
    ルからなることを特徴とする請求項25の装置。
  27. 【請求項27】 前記キー句検証器は、部分語モデルの
    集合と、対応する反部分語モデルの集合に基づいて動作
    することを特徴とする請求項25の装置。
  28. 【請求項28】 前記部分語モデルおよび前記反部分語
    モデルは隠れマルコフモデルからなることを特徴とする
    請求項27の装置。
  29. 【請求項29】 前記文仮説検証器は、文仮説に対して
    音響的検証を実行することを特徴とする請求項17の装
    置。
  30. 【請求項30】 前記文仮説検証器は、文仮説に対して
    意味的検証を実行することを特徴とする請求項17の装
    置。
  31. 【請求項31】 前記文仮説検証器は、最も確からしい
    1つの文仮説を選択することを特徴とする請求項17の
    装置。
  32. 【請求項32】 前記検証済み文仮説に基づいて意味フ
    レームを生成する意味フレーム生成器をさらに有するこ
    とを特徴とする請求項17の装置。
JP26595997A 1996-10-01 1997-09-30 音声認識方法および音声認識装置 Expired - Fee Related JP3361732B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US72441396A 1996-10-01 1996-10-01
US08/771,732 US5797123A (en) 1996-10-01 1996-12-20 Method of key-phase detection and verification for flexible speech understanding
US08/771732 1996-12-20
US08/724413 1996-12-20

Publications (2)

Publication Number Publication Date
JPH10116094A true JPH10116094A (ja) 1998-05-06
JP3361732B2 JP3361732B2 (ja) 2003-01-07

Family

ID=27110976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26595997A Expired - Fee Related JP3361732B2 (ja) 1996-10-01 1997-09-30 音声認識方法および音声認識装置

Country Status (3)

Country Link
US (1) US5797123A (ja)
EP (1) EP0834862A3 (ja)
JP (1) JP3361732B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099080A (ja) * 1998-09-16 2000-04-07 Koninkl Philips Electronics Nv 信頼性尺度の評価を用いる音声認識方法
JP2003515177A (ja) * 1999-10-19 2003-04-22 ソニー エレクトロニクス インク 自然言語インターフェースコントロールシステム
JP2004133477A (ja) * 2002-10-14 2004-04-30 Sony Internatl Europ Gmbh 音声認識方法、音声認識方法のためのコンピュータプログラム、及びそのコンピュータプログラムが記録された記憶媒体
JP2004334193A (ja) * 2003-05-01 2004-11-25 Microsoft Corp 音声認識および自然言語理解のための複合統計/ルール・ベース文法モデルを有するシステム
JP2005115328A (ja) * 2003-05-01 2005-04-28 Microsoft Corp 自然言語理解(NLU)システムにおける規則ベース文法に関するスロットおよび前終端記号(preterminal)に関する統計モデル
JPWO2008001486A1 (ja) * 2006-06-29 2009-11-26 日本電気株式会社 音声処理装置およびプログラム、並びに、音声処理方法
WO2010024052A1 (ja) * 2008-08-27 2010-03-04 日本電気株式会社 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
US7711570B2 (en) 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose

Families Citing this family (149)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9619165D0 (en) * 1996-09-13 1996-10-23 British Telecomm Training apparatus and method
US6023676A (en) * 1996-12-12 2000-02-08 Dspc Israel, Ltd. Keyword recognition system and method
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6505156B1 (en) * 1997-09-18 2003-01-07 Siemens Aktiengesellschaft Method for recognizing a keyword in speech
US6141661A (en) * 1997-10-17 2000-10-31 At&T Corp Method and apparatus for performing a grammar-pruning operation
US6205428B1 (en) 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6151574A (en) * 1997-12-05 2000-11-21 Lucent Technologies Inc. Technique for adaptation of hidden markov models for speech recognition
US6397179B2 (en) * 1997-12-24 2002-05-28 Nortel Networks Limited Search optimization system and method for continuous speech recognition
US6223158B1 (en) 1998-02-04 2001-04-24 At&T Corporation Statistical option generator for alpha-numeric pre-database speech recognition correction
US6205261B1 (en) 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6076053A (en) * 1998-05-21 2000-06-13 Lucent Technologies Inc. Methods and apparatus for discriminative training and adaptation of pronunciation networks
DE19824450C2 (de) * 1998-05-30 2001-05-31 Grundig Ag Verfahren und Vorrichtung zur Verarbeitung von Sprachsignalen
US7937260B1 (en) * 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US7031925B1 (en) 1998-06-15 2006-04-18 At&T Corp. Method and apparatus for creating customer specific dynamic grammars
US6138095A (en) * 1998-09-03 2000-10-24 Lucent Technologies Inc. Speech recognition
US6434524B1 (en) * 1998-09-09 2002-08-13 One Voice Technologies, Inc. Object interactive user interface using speech recognition and natural language processing
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6292778B1 (en) * 1998-10-30 2001-09-18 Lucent Technologies Inc. Task-independent utterance verification with subword-based minimum verification error training
US6571210B2 (en) 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
US6502072B2 (en) * 1998-11-20 2002-12-31 Microsoft Corporation Two-tier noise rejection in speech recognition
US6246986B1 (en) * 1998-12-31 2001-06-12 At&T Corp. User barge-in enablement in large vocabulary speech recognition systems
US6519562B1 (en) * 1999-02-25 2003-02-11 Speechworks International, Inc. Dynamic semantic control of a speech recognition system
US6504905B1 (en) 1999-04-09 2003-01-07 Qwest Communications International Inc. System and method of testing voice signals in a telecommunication system
EP1224569A4 (en) 1999-05-28 2005-08-10 Sehda Inc PHRASE BASED DIALOGUE MODELING WITH SPECIAL APPLICATION FOR GENERATING RECOGNITION GRAMMARK FOR LANGUAGE-CONTROLLED USER INTERFACE
US20020032564A1 (en) 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
EP1058446A3 (en) * 1999-06-03 2003-07-09 Lucent Technologies Inc. Key segment spotting in voice messages
US6405149B1 (en) 1999-06-23 2002-06-11 Louis K. Tsai System and method for testing a telecommunication system
WO2001013362A1 (de) * 1999-08-18 2001-02-22 Siemens Aktiengesellschaft Verfahren zur unterstützung eines dialogs
JP2001075964A (ja) * 1999-08-31 2001-03-23 Sony Corp 情報処理装置および情報処理方法、並びに記録媒体
US7149690B2 (en) 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
US6539353B1 (en) * 1999-10-12 2003-03-25 Microsoft Corporation Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
EP1109152A1 (en) * 1999-12-13 2001-06-20 Sony International (Europe) GmbH Method for speech recognition using semantic and pragmatic informations
US6598018B1 (en) 1999-12-15 2003-07-22 Matsushita Electric Industrial Co., Ltd. Method for natural dialog interface to car devices
JP3426176B2 (ja) * 1999-12-27 2003-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、方法、コンピュータ・システム及び記憶媒体
US7263484B1 (en) 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US7031923B1 (en) * 2000-03-06 2006-04-18 International Business Machines Corporation Verbal utterance rejection using a labeller with grammatical constraints
US6556972B1 (en) * 2000-03-16 2003-04-29 International Business Machines Corporation Method and apparatus for time-synchronized translation and synthesis of natural-language speech
EP1162602B1 (en) * 2000-06-07 2004-12-15 Sony International (Europe) GmbH Two pass speech recognition with active vocabulary restriction
JP4105841B2 (ja) * 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
US6856956B2 (en) * 2000-07-20 2005-02-15 Microsoft Corporation Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
US7162422B1 (en) * 2000-09-29 2007-01-09 Intel Corporation Apparatus and method for using user context information to improve N-best processing in the presence of speech recognition uncertainty
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
EP1215654B1 (en) * 2000-12-13 2006-05-24 Sony Deutschland GmbH Method for recognizing speech
US6937983B2 (en) * 2000-12-20 2005-08-30 International Business Machines Corporation Method and system for semantic speech recognition
US7400712B2 (en) * 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US7072837B2 (en) * 2001-03-16 2006-07-04 International Business Machines Corporation Method for processing initially recognized speech in a speech recognition session
US7209880B1 (en) * 2001-03-20 2007-04-24 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US7506022B2 (en) 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US7610547B2 (en) 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7409349B2 (en) 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US20040104062A1 (en) * 2002-12-02 2004-06-03 Yvon Bedard Side panel for a snowmobile
DE10131157C1 (de) * 2001-06-29 2002-07-04 Project49 Ag Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme
TW518483B (en) * 2001-08-14 2003-01-21 Ind Tech Res Inst Phrase verification method using probability-oriented confidence tag
EP1291849B1 (en) * 2001-09-07 2006-07-12 Sony Deutschland GmbH Memory management for a spoken dialogue system
US8229753B2 (en) 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
KR20020023197A (ko) * 2001-12-27 2002-03-28 김연수 자연음 처리를 이용한 데이터 제공 방법과 이를 위한 시스템
US7188066B2 (en) 2002-02-04 2007-03-06 Microsoft Corporation Speech controls for use with a speech system
US7167831B2 (en) * 2002-02-04 2007-01-23 Microsoft Corporation Systems and methods for managing multiple grammars in a speech recognition system
US8374879B2 (en) 2002-02-04 2013-02-12 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
US7139713B2 (en) 2002-02-04 2006-11-21 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
US7257776B2 (en) * 2002-02-05 2007-08-14 Microsoft Corporation Systems and methods for scaling a graphical user interface according to display dimensions and using a tiered sizing schema to define display objects
US7603627B2 (en) 2002-02-05 2009-10-13 Microsoft Corporation Systems and methods for creating and managing graphical user interface lists
US7587317B2 (en) * 2002-02-15 2009-09-08 Microsoft Corporation Word training interface
US7143035B2 (en) * 2002-03-27 2006-11-28 International Business Machines Corporation Methods and apparatus for generating dialog state conditioned language models
JP2003308091A (ja) * 2002-04-17 2003-10-31 Pioneer Electronic Corp 音声認識装置、音声認識方法および音声認識プログラム
US7805302B2 (en) * 2002-05-20 2010-09-28 Microsoft Corporation Applying a structured language model to information extraction
US20040006470A1 (en) * 2002-07-03 2004-01-08 Pioneer Corporation Word-spotting apparatus, word-spotting method, and word-spotting program
US20040008828A1 (en) * 2002-07-09 2004-01-15 Scott Coles Dynamic information retrieval system utilizing voice recognition
US7698136B1 (en) * 2003-01-28 2010-04-13 Voxify, Inc. Methods and apparatus for flexible speech recognition
US7260535B2 (en) 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
EP1654727A4 (en) * 2003-07-23 2007-12-26 Nexidia Inc INTERROGATIONS FOR THE DETECTION OF WORDS
US20050038647A1 (en) * 2003-08-11 2005-02-17 Aurilab, Llc Program product, method and system for detecting reduced speech
US8311835B2 (en) 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US8200477B2 (en) * 2003-10-22 2012-06-12 International Business Machines Corporation Method and system for extracting opinions from text documents
US8160883B2 (en) 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
WO2005101235A1 (ja) * 2004-04-12 2005-10-27 Matsushita Electric Industrial Co., Ltd. 対話支援装置
JP2006039120A (ja) * 2004-07-26 2006-02-09 Sony Corp 対話装置および対話方法、並びにプログラムおよび記録媒体
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US7680250B1 (en) 2004-11-24 2010-03-16 Interactive Quality Services Interactive method and system of testing an automated call telephonic communication system
US7584098B2 (en) * 2004-11-29 2009-09-01 Microsoft Corporation Vocabulary-independent search of spontaneous speech
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
WO2006086179A2 (en) * 2005-01-31 2006-08-17 Textdigger, Inc. Method and system for semantic search and retrieval of electronic documents
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
ATE400047T1 (de) * 2005-02-17 2008-07-15 Loquendo Spa Verfahren und system zum automatischen bereitstellen linguistischer formulierungen, die ausserhalb einer erkennungsdomäne eines automatischen spracherkennungssystems liegen
WO2006097975A1 (ja) * 2005-03-11 2006-09-21 Gifu Service Co., Ltd. 音声認識プログラム
JP2008537225A (ja) 2005-04-11 2008-09-11 テキストディガー,インコーポレイテッド クエリについての検索システムおよび方法
WO2007081681A2 (en) 2006-01-03 2007-07-19 Textdigger, Inc. Search system with query refinement and search method
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
US8862573B2 (en) 2006-04-04 2014-10-14 Textdigger, Inc. Search system and method with text function tagging
EP2013869B1 (en) * 2006-05-01 2017-12-13 Nippon Telegraph And Telephone Corporation Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics
JP4767754B2 (ja) * 2006-05-18 2011-09-07 富士通株式会社 音声認識装置および音声認識プログラム
US8209175B2 (en) * 2006-06-08 2012-06-26 Microsoft Corporation Uncertainty interval content sensing within communications
US8560314B2 (en) * 2006-06-22 2013-10-15 Multimodal Technologies, Llc Applying service levels to transcripts
US8301449B2 (en) * 2006-10-16 2012-10-30 Microsoft Corporation Minimum classification error training with growth transformation optimization
US7925505B2 (en) * 2007-04-10 2011-04-12 Microsoft Corporation Adaptation of language models and context free grammar in speech recognition
WO2009038882A1 (en) * 2007-08-02 2009-03-26 Nexidia, Inc. Control and configuration of a speech recognizer by wordspotting
US8639507B2 (en) * 2007-12-25 2014-01-28 Nec Corporation Voice recognition system, voice recognition method, and program for voice recognition
EP2343668B1 (en) 2010-01-08 2017-10-04 Deutsche Telekom AG A method and system of processing annotated multimedia documents using granular and hierarchical permissions
US8626511B2 (en) 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
JP5533042B2 (ja) * 2010-03-04 2014-06-25 富士通株式会社 音声検索装置、音声検索方法、プログラム及び記録媒体
US8406390B1 (en) 2010-08-23 2013-03-26 Sprint Communications Company L.P. Pausing a live teleconference call
US8880399B2 (en) * 2010-09-27 2014-11-04 Rosetta Stone, Ltd. Utterance verification and pronunciation scoring by lattice transduction
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
WO2012061252A2 (en) 2010-11-04 2012-05-10 Dw Associates, Llc. Methods and systems for identifying, quantifying, analyzing, and optimizing the level of engagement of components within a defined ecosystem or context
US8996359B2 (en) 2011-05-18 2015-03-31 Dw Associates, Llc Taxonomy and application of language analysis and processing
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US8952796B1 (en) 2011-06-28 2015-02-10 Dw Associates, Llc Enactive perception device
US9269353B1 (en) 2011-12-07 2016-02-23 Manu Rehani Methods and systems for measuring semantics in communications
US9020807B2 (en) 2012-01-18 2015-04-28 Dw Associates, Llc Format for displaying text analytics results
US9317605B1 (en) 2012-03-21 2016-04-19 Google Inc. Presenting forked auto-completions
CA2882664A1 (en) * 2012-07-20 2014-01-23 Interactive Intelligence, Inc. Method and system for real-time keyword spotting for speech analytics
US9672815B2 (en) 2012-07-20 2017-06-06 Interactive Intelligence Group, Inc. Method and system for real-time keyword spotting for speech analytics
CN103971678B (zh) * 2013-01-29 2015-08-12 腾讯科技(深圳)有限公司 关键词检测方法和装置
US9020809B1 (en) 2013-02-28 2015-04-28 Google Inc. Increasing semantic coverage with semantically irrelevant insertions
US9047271B1 (en) 2013-02-28 2015-06-02 Google Inc. Mining data for natural language system
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US9177553B1 (en) 2013-06-25 2015-11-03 Google Inc. Identifying underserved command inputs
US9117452B1 (en) 2013-06-25 2015-08-25 Google Inc. Exceptions to action invocation from parsing rules
US9330195B1 (en) 2013-06-25 2016-05-03 Google Inc. Inducing command inputs from property sequences
US9183196B1 (en) * 2013-06-25 2015-11-10 Google Inc. Parsing annotator framework from external services
US9280970B1 (en) 2013-06-25 2016-03-08 Google Inc. Lattice semantic parsing
US9092505B1 (en) 2013-06-25 2015-07-28 Google Inc. Parsing rule generalization by n-gram span clustering
US9123336B1 (en) 2013-06-25 2015-09-01 Google Inc. Learning parsing rules and argument identification from crowdsourcing of proposed command inputs
US9984684B1 (en) 2013-06-25 2018-05-29 Google Llc Inducing command inputs from high precision and high recall data
US9251202B1 (en) 2013-06-25 2016-02-02 Google Inc. Corpus specific queries for corpora from search query
US9299339B1 (en) 2013-06-25 2016-03-29 Google Inc. Parsing rule augmentation based on query sequence and action co-occurrence
US9646606B2 (en) 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
US8812320B1 (en) 2014-04-01 2014-08-19 Google Inc. Segment-based speaker verification using dynamically generated phrases
US10360904B2 (en) 2014-05-09 2019-07-23 Nuance Communications, Inc. Methods and apparatus for speech recognition using a garbage model
US9589563B2 (en) * 2014-06-02 2017-03-07 Robert Bosch Gmbh Speech recognition of partial proper names by natural language processing
JP6671379B2 (ja) 2014-10-01 2020-03-25 エクスブレイン・インコーポレーテッド 音声および接続プラットフォーム
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
CN110800045B (zh) * 2017-10-24 2024-09-20 北京嘀嘀无限科技发展有限公司 用于不间断应用唤醒和语音识别的系统和方法
KR102224994B1 (ko) * 2019-05-21 2021-03-08 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
KR20220034488A (ko) 2020-09-11 2022-03-18 삼성전자주식회사 전자 장치 및 이의 제어 방법
US12374337B2 (en) * 2022-11-01 2025-07-29 Microsoft Technology Licensing, Llc Systems and methods for GPT guided neural punctuation for conversational speech

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0876787A (ja) * 1994-09-07 1996-03-22 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法およびこの方法を実施する装置
JPH08248988A (ja) * 1995-03-13 1996-09-27 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5509104A (en) * 1989-05-17 1996-04-16 At&T Corp. Speech recognition employing key word modeling and non-key word modeling
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
US5625748A (en) * 1994-04-18 1997-04-29 Bbn Corporation Topic discriminator using posterior probability or confidence scores
US5675706A (en) * 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US5680511A (en) * 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0876787A (ja) * 1994-09-07 1996-03-22 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法およびこの方法を実施する装置
JPH08248988A (ja) * 1995-03-13 1996-09-27 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099080A (ja) * 1998-09-16 2000-04-07 Koninkl Philips Electronics Nv 信頼性尺度の評価を用いる音声認識方法
JP2003515177A (ja) * 1999-10-19 2003-04-22 ソニー エレクトロニクス インク 自然言語インターフェースコントロールシステム
US7711570B2 (en) 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
JP2004133477A (ja) * 2002-10-14 2004-04-30 Sony Internatl Europ Gmbh 音声認識方法、音声認識方法のためのコンピュータプログラム、及びそのコンピュータプログラムが記録された記憶媒体
JP2004334193A (ja) * 2003-05-01 2004-11-25 Microsoft Corp 音声認識および自然言語理解のための複合統計/ルール・ベース文法モデルを有するシステム
JP2005115328A (ja) * 2003-05-01 2005-04-28 Microsoft Corp 自然言語理解(NLU)システムにおける規則ベース文法に関するスロットおよび前終端記号(preterminal)に関する統計モデル
JPWO2008001486A1 (ja) * 2006-06-29 2009-11-26 日本電気株式会社 音声処理装置およびプログラム、並びに、音声処理方法
US8751226B2 (en) 2006-06-29 2014-06-10 Nec Corporation Learning a verification model for speech recognition based on extracted recognition and language feature information
WO2010024052A1 (ja) * 2008-08-27 2010-03-04 日本電気株式会社 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム

Also Published As

Publication number Publication date
EP0834862A2 (en) 1998-04-08
JP3361732B2 (ja) 2003-01-07
US5797123A (en) 1998-08-18
EP0834862A3 (en) 1998-12-09

Similar Documents

Publication Publication Date Title
JP3361732B2 (ja) 音声認識方法および音声認識装置
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
JP3672595B2 (ja) 結合されたストリングモデルの最小誤認率訓練
JP3434838B2 (ja) ワードスポッティング法
US6542866B1 (en) Speech recognition method and apparatus utilizing multiple feature streams
US6535850B1 (en) Smart training and smart scoring in SD speech recognition system with user defined vocabulary
US6125345A (en) Method and apparatus for discriminative utterance verification using multiple confidence measures
US6912499B1 (en) Method and apparatus for training a multilingual speech model set
EP1610301B1 (en) Speech recognition method based on word duration modelling
Deshmukh et al. Hierarchical search for large-vocabulary conversational speech recognition: working toward a solution to the decoding problem
US20080312926A1 (en) Automatic Text-Independent, Language-Independent Speaker Voice-Print Creation and Speaker Recognition
US6738745B1 (en) Methods and apparatus for identifying a non-target language in a speech recognition system
Kawahara et al. Flexible speech understanding based on combined key-phrase detection and verification
JPH09127972A (ja) 連結数字の認識のための発声識別立証
Schlüter et al. Interdependence of language models and discriminative training
CN101452701B (zh) 基于反模型的置信度估计方法及装置
US20050038647A1 (en) Program product, method and system for detecting reduced speech
Falavigna et al. Acoustic and word lattice based algorithms for confidence scores.
Kawahara et al. Combining key-phrase detection and subword-based verification for flexible speech understanding
JPH1185188A (ja) 音声認識方法及びそのプログラム記録媒体
Ramesh et al. Context dependent anti subword modeling for utterance verification.
Mengusoglu et al. Use of acoustic prior information for confidence measure in ASR applications.
US20040267529A1 (en) N-gram spotting followed by matching continuation tree forward and backward from a spotted n-gram
JP6199994B2 (ja) コンテキスト情報を使用した音声認識システムにおける誤警報低減
Williams A study of the use and evaluation of confidence measures in automatic speech recognition

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071018

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081018

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081018

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091018

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091018

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101018

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111018

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121018

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131018

Year of fee payment: 11

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees