JPH10116094A

JPH10116094A - 音声認識方法および音声認識装置

Info

Publication number: JPH10116094A
Application number: JP9265959A
Authority: JP
Inventors: Chou Uu; チョウウー; Biing Hwang Juang; ジャンビン−ホワン; Tatsuya Kawahara; たつやかわはら; Lee Chin-Fui; リーチン−フイ
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 1996-10-01
Filing date: 1997-09-30
Publication date: 1998-05-06
Anticipated expiration: 2017-09-30
Also published as: EP0834862A2; JP3361732B2; US5797123A; EP0834862A3

Abstract

(57)【要約】【課題】固定した形式的な文法に基づいて受容される
よりも多くの発話が受容される、効率および自由度の高
い会話音声認識を実現する。【解決手段】キー句検出器１１で、会話の状態に固有
の句部分文法の集合に基づいて複数のキー句を検出す
る。次に、キー句検証器１２で、これらのキー句に信頼
性尺度を割り当て、その信頼性尺度をしきい値と比較す
ることによってそれらのキー句を検証し、検証済みキー
句候補の集合を得る。次に、文仮説生成器１３で、検証
済みキー句候補を、所定の（例えばタスク固有の）意味
情報２５に基づいて結合して文仮説を得る。最後に、文
仮説検証器１４で、これらの文仮説を検証して、検証済
み文仮説を生成し、最終認識結果を得る。会話ベースの
システムでは、大規模なタスク内の会話の特定の状態に
応じて（すなわち「サブタスク」に対して）、個別の句
部分文法を使用することが可能である。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識の分野に
関し、特に、会話音声を理解する方法に関する。

【０００２】

【従来の技術】過去数年間、会話音声の認識および理解
のためのシステムが開発され、いくつもの「実世界」の
応用で評価されている。いくつかのアプローチが用いら
れている。第１のアプローチは決定性有限状態文法（Ｆ
ＳＧ）である。これは、簡単なタスクあるいはアプリケ
ーションに限定されるが、ユーザの発話を受け取る（そ
してそれにより認識し最終的には理解する）ものであ
る。このようなシステムでは、認識器は、音声入力全体
を、可能な（すなわち、固定した文法により許容され
る）単語列のいずれかに合うものを見つける（復号す
る）ことを試みる。

【０００３】

【発明が解決しようとする課題】実際には、このような
固定した文法を使用することは、ほとんど文法的に正し
い文（文法内の文）がシステムに与えられる場合には有
効である。しかし、多数のユーザに適用されるほとんど
の典型的な「実世界」の環境では、さまざまな発話に遭
遇し、その多くはこのようなタスクベースの文法によっ
て十分に対応することができない。このような文法的に
正しくない文（文法外の文）には、例えば、無関係単
語、口ごもり、反復および予想外の表現などがある。日
付あるいは時刻の音声認識のような明らかに単純なサブ
タスクの場合でさえ、自然なユーザ発話の２０％以上が
文法外となる可能性が高いことが分かっている。このよ
うな条件下で、これらの文法を用いるシステムの性能は
低い。そしてこの低い性能は、試行期間中に文法を念入
りに調整したにもかかわらず起こる。タスクがさらに複
雑な問合せに関わる場合には状況はさらに悪くなる。こ
のような複雑な問合せに対処する固定したタスクベース
の文法を書いてから十分に調整することは、法外な量の
（人間の）時間および労力を必要とすることが明らかに
なっている。

【０００４】上記の問題点は、固定した文レベルの文法
を仮定して、その文法が入力全体に適合（マッチング）
しなければならないという一様な要求条件を適用する復
号の枠組みから生じている。（発話の文法外部分に適合
する）「フィルタ」モデルの使用は、固定文法のほとん
ど従う音声サンプルには限定された成功を収めている
が、固定文法に固有の基本的な問題点を解決していない
ために、多くの一般的な発話が認識されないままであ
る。

【０００５】会話音声の認識および理解に対するもう１
つのアプローチは、統計言語モデルの使用に関するもの
である。このようなモデルは、固定した所定の文法に基
づくのではなく、大量のサンプルデータを用いた学習
（トレーニング）の結果として統計的に生成された文法
に基づく。例えば、米国政府（ＡＲＰＡ）がスポンサー
となっているＡＴＩＳ（航空旅行情報システム(Air Tra
vel Information System)）プロジェクトは、統計言語
モデルのアプローチを用いた会話音声処理に対する包括
的プロジェクトである。（例えば、D. A. Dahl, "Expan
ding the Scope of the ATIS Task: The ATIS-3 Corpu
s", Proc. ARPA Human Language Technology Workshop,
pp.43-48, 1994、参照。）この場合、かなりの量のデ
ータが収集され、文法外の発話を認識する能力に関して
も、統計言語モデルの使用は比較的成功を収めた。

【０００６】しかし、一般的な「実世界」のアプリケー
ションでは、データ収集作業自体が大量の（人間の）時
間および労力を必要とするため、統計モデルをトレーニ
ングするためにこのような大量のデータを提供すること
は実際的でないことが多い。ほとんどのアプリケーショ
ンでは、与えられたタスクに対して単純な２連語(bigra
m)言語モデルを構築するのに十分な量のデータを収集す
るのでさえ実際的ではない。（さらに、注意すべき点で
あるが、ＡＴＩＳシステムの場合、実行されたシナリオ
およびデータ収集はやや人工的であり、従って、実世界
の自然発話に固有の問題点を必ずしも反映していない可
能性がある。）これらの理由から、「実世界」のアプリ
ケーションに配備され試験されているほとんどの会話シ
ステムは、文法外発話を処理する能力が制限されている
にもかかわらず、実際には上記のような決定性有限状態
文法を使用している。

【０００７】会話音声認識問題のために考えられている
もう１つのクラスのアプローチは「単語スポッティン
グ」方式に関するものである。これは、例えば、R. C.
Rose,"Keyword Detection in Conversational Speech U
tterances Using Hidden Markov Model Based Continuo
us Speech Recognition", Computer Speech and Langua
ge, 9(9):309-333, 1995、および、H. Tsuboi and Y. T
akebayashi, "A Real-time Task-oriented Speech Unde
rstanding System Using Keyword-spotting", Proc. IE
EE-ICASSP, volume 1, pp.197-200, 1992、に記載され
ている。これらのアプローチは、入力発話の非キーワー
ド部分のモデル化に使用する方法に依存して２つのカテ
ゴリーに分類される。

【０００８】その第１のカテゴリーに分類することがで
きる単語スポッティング方式は、大語彙を認識する能力
に基づくものである。この方式の例としては、J. R. Ro
hlicek et al., "Phonetic Training and Language Mod
eling for Word Spotting",Proc. IEEE-ICASSP, volume
2, pp.459-462, 1993、および、M. Weintraub, "Keywo
rd-Spotting Using SRI's DECIPHER Large-Vocabulary
Speech-RecognitionSystem", Proc. IEEE-ICASSP, volu
me 2, pp.463-466, 1993、に記載されているものがあ
る。この技術は、できるだけ多くの語彙知識を組み込
み、キーワードモデルとともに、多くの非キーワード語
彙単語モデルをシステムで利用可能とする。しかし、こ
の技術でも、自然音声でしばしば見られる口ごもりや自
己反復のような非適格な現象を十分にモデル化すること
ができない。すなわち、すべての一様復号アプローチに
固有の問題点を解決していない。さらに、大語彙自然音
声認識技術は、タスク領域が限定される場合には特に、
性能および効率性に問題がある。

【０００９】単語スポッティング方式の第２のカテゴリ
ーは、入力発話の非キーワード部分をモデル化するため
に用いられる部分語(subword)モデルの並列ネットワー
クまたは単純ガーベジモデルとともに単純（すなわち限
定語彙）単語スポッティングを使用するものである。こ
のような方式の例としては、J. G. Wilpon et al., "Au
tomatic Recognition of Keywords in Unconstrained S
peech Using Hidden Markov Models", IEEE Trans. Aco
ust., Speech & Signal Process., 38(11):1870-1878,
1990、および、R. C. Rose and D. B. Paul, "A Hidden
Markov ModelBased Keyword Recognition System", Pr
oc. IEEE-ICASSP, pp.129-132, 1990、に記載されてい
るものがある。残念ながら、ガーベジモデルも、部分語
モデルの並列ネットワークも、非キーワードに合うもの
を見つける性能が十分ではなく、そのため、キーワード
モデルが発話の無関係（すなわち非キーワード）部分と
誤って合わせられることも多い。この結果、多くの「フ
ォールスアラーム」（すなわち、キーワードの誤った
「認識」）が起こる。さらに、このカテゴリーに属する
既存のほとんどのシステムは、語彙に依存してキーワー
ドモデルおよびガーベジモデルを「調整」し、それによ
り、部分語に基づく音声認識アプローチの利点の多くを
犠牲にしている。これらの理由から、このカテゴリーの
単語スポッティング方式で応用が成功しているのは、例
えば数字音声認識のタスクのような非常に小さい語彙を
含むタスクのみである。

【００１０】

【課題を解決するための手段】本発明の発明者が認識し
たところでは、ほとんどの会話音声発話（すなわち
「文」）はタスクに関するあるキーワードおよび「キー
句（キーフレーズ）」を含み、その認識により発話の部
分的あるいは全体的な理解が可能となる一方で、発話の
他の部分は実際にはタスクに関係がないので無視すべき
である。（注意すべき点であるが、「文」という用語
は、本明細書では、任意の単語列を意味し、そのような
単語列が文法的に正しい文構造を有するかどうかは問わ
ない。また、「キー句」という用語の使用は、本明細書
では、１個以上の単語からなる列を含むものとする。す
なわち、キーワードは単一の単語からなる「キー句」で
ある。）すなわち、自由度の高い音声理解システムは、
文の意味的に重要な部分を検出し無関係な部分を拒絶す
るアプローチに基づいて構築することができる。従来の
文法的制約を緩和し、かつ、認識されるキー句の集合に
特に注目することによって、例えば固定した形式的な文
法に基づいて受容されるよりも多くの発話が受容され
る。

【００１１】そこで、本発明の実施例によれば、自由度
の高い（すなわち、制約のない）音声の理解を実現する
ために使用可能なキー句の検出および検証の技術が実現
される。具体的には、単語列（すなわち文）からなる音
声発話に「多重パス」手続きが適用される。まず、例え
ば会話の状態に固有の句部分文法の集合に基づいて複数
のキー句を検出（すなわち、認識）する。次に、これら
のキー句に信頼性尺度を割り当て、その信頼性尺度をし
きい値と比較することによってそれらのキー句を検証
し、その結果として、検証済みキー句候補の集合を得
る。次に、検証済みキー句候補を、所定の（例えばタス
ク固有の）意味情報に基づいて結合して文仮説を得る。
文仮説は、個々のキー句信頼性尺度に基づいて生成する
ことも可能である。最後に、これらの文仮説を検証し
て、検証済み文仮説を生成し、その結果、音声発話の理
解を得る。

【００１２】さらに、会話ベースのシステムでは特に、
大規模なタスク内の会話の特定の状態に応じて（すなわ
ち、「サブタスク」に対して）、個別の句部分文法を使
用することが可能である。例えば、会話ベースの自動車
予約タスク内では、システムは、与えられた時点におい
て、要求された車が必要となる日時を決定する必要があ
る。この場合、予期される応答は、時間的な情報のみを
与えるものであると限定することができる。自由度の高
い会話マネージャと組み合わされることにより、本発明
の実施例によるシステムは、文音声を少なくとも部分的
に理解することができる。さらに、会話セッションが進
むうちに、必要な明確化（曖昧さの除去）を実行するこ
とも可能である。

【００１３】

【発明の実施の形態】

［はじめに］本発明の実施例によれば、会話音声の認識
および理解のためのシステムは、（例えば、非キーワー
ド大語彙知識を用いることなく）部分語ベースの音声認
識の一般的な枠組みで、無関係部分を誤って「認識」せ
ずに、発話の重要部分を認識することによって実現され
る。（部分語ベースの音声認識は、当業者には周知であ
るが、音節、半音節あるいは音素のような単語セグメン
トのモデリングおよびマッチングを含む。次に、それら
の単語セグメント（すなわち、部分語）の列に、語彙内
の各単語をマッピングするために、辞書(lexicon)が提
供される。こうして、単語に対応するモデルは、実質的
に、辞書によって指定される、その単語を構成する部分
語のモデルの連接からなる。）図１に、本発明の実施例
による音声認識および音声発話の理解を実行する１つの
例示的なシステムの図を示す。

【００１４】注意すべき点であるが、従来技術の最も重
大な問題点のうちの１つは、従来の音声認識器は一般
に、その結果にどのくらいの信頼性をおくことができる
かが分からないことである。この理由で、図１に示した
本発明の実施例によれば、認識した結果に対する仮説検
定を実行し、それに信頼性尺度を割り当てる検証方法を
用いる。（例えば、R. A. Sukkar et al., "A Vocabula
ry Independent Discriminitively Trained Method for
Rejection of Non-Keywords in Subword-BasedSpeech
Recognition", Proc. EuroSpeech-95, pp.1629-1632, 1
995、R. A. Sukkar et al., "Utterance Verification
of Keyword Strings Using Word-Based Minimum Verifi
cation Error (WB-MVE) Training", Proc. IEEE-ICASS
P, pp.518-521, 1996、および、M. Rahim et al., "Dis
criminitive Utterance Verification Using Minimum S
tring Verification Error (MSVE) Training", Proc. I
EEE-ICASSP, 1996、参照。）このような発話検証法を図
１の実施例のシステムに統合することによって、キーワ
ード（あるいは、この場合にはキー句）の検出の信頼性
を高くすることができる。すなわち、キーワードモデル
への正しくないマッチングすなわち「フォールスアラー
ム」は大幅に減少する。

【００１５】また、図１の実施例のシステムは、このよ
うな「フォールスアラーム」をさらに減少させる。シス
テムは、このようなキーワード（あるいはキー句）マッ
チングおよび検証プロセスの単独の結果として「最終判
定」をしない。むしろ、検証したキーワードあるいはキ
ー句の組み合わせ（すなわち、文）に基づいて意味解析
を実行して文仮説を生成し、それを別の検証プロセスで
検証する。特に、この文仮説検証プロセスは、全発話内
にあるいくつかの部分語からなる「部分入力」で実行さ
れる。

【００１６】既に指摘したように、図１の実施例のシス
テムは、検出単位として、キーワードのみを使用するの
ではなく、キー句を使用する。上記の単語スポッティン
グ方式は一般に、局所的ノイズや乱雑な音によって容易
にトリガされる小さいテンプレートを使用する。より長
い検出単位（すなわち、単なるキーワードの代わりにキ
ー句）を使用することは、より特徴的な情報を含むこと
になり、その結果、認識段階および検証段階の両方で、
より安定な音響マッチングが得られるので、有効であ
る。

【００１７】具体的には、キー句は、１個以上のキーワ
ードと、おそらくは、機能語との列からなる。例え
ば、"in the morning"は、期間についてのキー句であ
り、"in downtown Chicago"は、地理的場所についての
キー句である。このような句は、自然音声で発話される
ときでも、一般に息継ぎなしで発話される。

【００１８】ここに記載する本発明の実施例によれば、
検出されたキー句には概念情報のタグが付けられる。実
際には、キー句は、例えば時刻および場所のような、意
味（セマンティック）フレームにおける意味スロットに
直接対応するように定義される。（意味フレームは、当
業者に周知の用語であるが、与えられたアプリケーショ
ンに対して、会話によって部分的にあるいは完全に充填
される情報テンプレートからなる。）従来のｎ連語(n-g
ram)言語モデルによって定義されるようなボトムアップ
句（例えば、B. Suhm and A. Waibel, "Towards Better
Language Models for Spontaneous Speech", Proc. IC
SLP, pp.831-834, 1994、E. P. Giachin, "Phrase Bigr
ams for Continuous Speech Recognition", Proc. IEEE
-ICASSP,pp.225-228, 1995、および、S. Deligne and
F. Bimbot, "Language Modelingby Variable Length Se
quences: Theoretical Formulation and Evaluation of
Multigrams", Proc. IEEE-ICASSP, pp.169-172, 1995、
参照。）とは異なり、本実施例によって認識されるトッ
プダウンキー句は、容易に意味表現へと直接にマッピン
グされる。従って、これらのキー句の検出は、直接に、
発話の確実な理解につながる。

【００１９】具体的には、図１の実施例のシステムは、
キー句検出器１１、キー句検証器１２、文仮説生成器１
３および文仮説検証器１４を有する。特に、キー句検出
器１１は、会話状態に特有の句部分文法（すなわち、キ
ー句文法２１）の集合を用いてキー句の集合を認識する
ための部分語ベースの音声認識器からなる。検出された
キー句には、次に、意味（セマンティック）タグが付け
られる。このタグは、文仮説生成器１３（後述）によっ
てその後に実行される文レベルの解析で有用となる。キ
ー句検出器１１によって用いられる部分語モデル認識器
は、辞書２３および部分語モデル２２を使用する。これ
らは、例えば、当業者に周知の従来の最小分類誤差（Ｍ
ＣＥ(minimum classification error)）基準に基づいて
トレーニングされたものである。これらのモデル自体
は、例えば、同じく当業者に周知の隠れマルコフモデル
（ＨＭＭ）からなることも可能である。

【００２０】次に、検出されたキー句は、キー句検証器
１２によって検証され、信頼性尺度が割り当てられる。
上記のように、このプロセスは、これがなければ起こり
得る多くのフォールスアラームを除去する。実施例のキ
ー句検証器１２は、当業者に周知の「反部分語モデル」
を用いて、認識されたキー句の各部分語をテストする、
部分語レベルの検証の組合せからなる。キー句検証器１
２は辞書２３、部分語モデル２２および反部分語モデル
２４を使用する。これらは、例えば、最小検証誤差（Ｍ
ＶＥ(minimum verification error)）基準を用いてトレ
ーニングされたものである。

【００２１】図１の実施例の第３の構成要素は文仮説生
成器１３である。これは、例えばタスク固有の意味情報
２５を用いて、検証されたキー句候補を１つ以上の文仮
説へと結合する。例えば、T. Kawahara et al., "Conce
pt-Based Phrase Spotting Approach for Spontaneous
Speech Understanding", Proc. IEEE-ICASSP, pp.291-2
94, 1996、に記載されたようなスタック復号器を用い
て、意味制約を満たす最適な仮説を探索することができ
る。

【００２２】最後に、文仮説検証器１４によって、音響
的かつ意味的に最良の意味仮説が検証され、最終出力
（すなわち、少なくとも１つの検証された文仮説）が生
成される。文仮説検証器１４は、意味情報２５、辞書２
３、部分語モデル２６および反部分語モデル２７を使用
する。キー句に付けられた意味タグが、キー句検出器１
１によって提供され意味仮説生成器１３によって使用さ
れるため、検証された文仮説は本質的に、直接に対応す
る「意味」を有し、それにより、個々のアプリケーショ
ンによる必要に応じた意味フレームの生成が可能とな
る。

【００２３】［キー句検出］キー句検出器１１は、キー
句検出を実行する。これは、会話状態に依存する特定の
サブタスクに基づくことが可能である。具体的には、各
サブタスクごとに、キー句パターンが１つ以上の決定性
有限状態文法として記述される。これは、実施例では、
キー句検出器１１によってキー句文法２１から選択され
る。これらの文法は、タスク仕様から直接に人手により
導出することも可能であり、あるいは、当業者に周知の
従来の学習手続きを用いて、小さいコーパスから自動的
または半自動的に（すなわち、人間の支援のもとで）生
成することも可能である。

【００２４】一般に、キー句は、従来のキーワードに加
えて、"at the"や"near"のような機能語を含む。これに
より、従来のキーワードのみのマッチングに比べて、よ
り安定なマッチングが可能となり、検出精度が改善され
る。（例えば、前掲のT. Kawahara et al., "Concept-B
ased Phrase Spotting Approach for Spontaneous Spee
ch Understanding"を参照。）いずれのキー句にも含ま
れないがしばしばキー句に伴う充填句も定義され、埋め
込まれたキー句を含む句パターンを形成するために使用
される。

【００２５】特に、キー句および充填句の文法はネット
ワークへとコンパイルされる。このネットワークにおい
て、キー句は繰り返し現れ、ガーベジモデルがキー句の
出現の間に埋め込まれる。しかし、注意すべき点である
が、単純な繰り返しは曖昧さを生じる可能性がある。例
えば、日の繰り返しが許容される場合、"twenty four"
と"twenty"+"four"を区別することはできない。従っ
て、不可能なキー句の結合を禁止する追加の制約も組み
込む必要がある。

【００２６】従って、検出ユニットは、許容される結合
および反復を有するキー句部分文法オートマトンのネッ
トワークからなる。このようなオートマトンは、結合重
みを評価することによって、確率的言語モデルへと容易
に拡張することができる。このようなモデルを使用する
ことにより、文レベルの文法と比べてあまり複雑になら
ずに、適用範囲が広くなる。

【００２７】例として、図２に、単純化した（すなわ
ち、簡略化した）句ネットワークの例を示す。これは、
「データ取得」サブタスクに適用された場合に、図１の
実施例のシステムのキー句検出器１１によって使用され
ることが可能である。このネットワーク例の完全な実現
により、曜日、月、日、および年の実質的に任意の反復
が、適当な制約のもとに許容される。（このような完全
な実現の全語彙は９９語である。）この特定のサブタス
クでは、キャリア句は組み込まれない。

【００２８】さらに具体的には、ここに記載する本発明
の実施例によって採用されている検出方法は、フォワー
ド−バックワード２パス探索に基づくものである。これ
は、例えば、W. Chou et al., "An Algorithm of High
Resolution and Efficient Multiple String Hypothesi
zation for Continuous Speech Recognition Using Int
er-Word Models", Proc. IEEE-ICASSP, volume 2, pp.1
53-156, 1994、に記載されている。本発明の別の実施例
では、代わりに、当業者に周知の１パス検出法を使用す
ることも可能である。

【００２９】Ａ_*認容スタック復号器（例えば、前掲の
T. Kawahara et al., "Concept-Based Phrase Spotting
Approach for Spontaneous Speech Understanding"に
記載されているもの）は、Ｎ番目までの最良ストリング
仮説からなる集合を求めることができるが、この結果と
して得られるＮ個の最良仮説は一般に、１〜２個が置き
換わった類似の単語列である。本発明の目標は、（入力
発話全体に基づいてストリング仮説を生成することでは
なく）入力発話の一部に基づいてキー句候補を識別する
ことであるので、仮説を延長しても既に延長された仮説
と同じ仮説になる場合にはその仮説は捨てられる。

【００３０】特に、本実施例のスタック復号器は、キー
句ネットワークのマージング(merging)状態にマークを
付けることによって実現される。当業者には周知のよう
に、マージング状態は、キー句あるいは充填句が終了
し、さらに延長すると次の（すなわち新たな）句の最初
に侵入することになるノードに対応する。

【００３１】スタック復号器によって「ポップ」される
仮説に、出力されるべき完全な句であるというタグが付
いている場合、本発明の手続きは、もう１語だけその句
を延長し、その句を最良延長と並べる。このノードに、
以前のいずれかの仮説が同じ時点に到達している場合、
検出した句を出力した後に現在の仮説は捨てられる。そ
うでなければ、その時点は、その後の探索のためにマー
クされる。

【００３２】注意すべき点であるが、この検出手続き
は、冗長な仮説延長のない効率的なものであり、スコア
順に、正しいＮ番目までの最良のキー句候補を生成す
る。本発明のさまざまな実施例によれば、この手続き
は、所望の個数の句を生成したことに基づいて、あるい
は、あるスコアしきい値に基づいて、終了することも可
能である。例えば、仮説のスコアが、最高スコア仮説の
０．９９倍より小さい値に到達したときに、検出を終了
することも可能である。

【００３３】［キー句検証と信頼性尺度］図１の実施例
のシステムのキー句検証器１２は、部分語レベルのテス
トに基づいて、検出された句の検証を行う。具体的に
は、与えられた句の各部分語ｎに対して、検証スコア
は、次式のような従来の尤度比（ＬＲ(likelihood rati
o)）テストに基づいて計算される。ＬＲ_n＝Ｐ（Ｏ｜λ_n ^c）／Ｐ（Ｏ｜λ_n ^a）（１）ただし、Ｏは、観測フレームの列を表し、λ_n ^cおよびλ
_n ^aは、それぞれ、部分語ｎに対する正しい部分語モデル
および反部分語モデルを表す。（部分語モデルは部分語
モデル２２から得られ、対応する反部分語モデルは反部
分語モデル２４から得られる。）認識の結果として、観
測列Ｏは、部分語ｎに対して、ビタビアルゴリズムによ
り並べられ、確率Ｐ（Ｏ｜λ_n ^c）およびＰ（Ｏ｜λ_n ^a）
が得られる。（ビタビアルゴリズムは、当業者に周知の
従来のスコアリング方法である。）

【００３４】各部分語モデルに対して、対応する反部分
語モデルは、混同しやすい部分語クラスをまとめること
（クラスタ化）によって構成される。各反部分語モデル
は、対応する部分語モデルと同じ構造、すなわち、同じ
個数の状態およびミクスチャを有する。反部分語モデル
は、特定の部分語の検証専用であるため、反部分語モデ
ルをリファレンスとして使用して復号を行うことによ
り、部分語モデルの無制約な復号を行うのに比べて、弁
別性が改善される。こうして、システムは、認識器によ
ってなされる置換誤りを拒絶する能力が増大する。この
（検証）ステップでは、文脈独立な反部分語モデルを使
用することも可能であるが、認識ステップは、文脈依存
の部分語モデルを用いて実行される。

【００３５】特に、上記の式（１）の対数をとり、その
結果を、観測Ｏの継続時間長ｌ_nに基づいて正規化する
ことにより、量ｌｏｇＬＲ_nが次のように定義される。ｌｏｇＬＲ_n＝（ｌｏｇＰ（Ｏ｜λ_n ^c）−ｌｏｇＰ（Ｏ｜λ_n ^a））／ｌ_n （２）注意すべき点であるが、式（２）の第１項は認識スコア
そのものであるので、上記の計算の効果は単に、計算さ
れるスコアを反部分語モデルのスコアだけずらし、その
結果を正規化することである。

【００３６】キー句検証器１２は、検出された各キー句
ごとに、対応する部分語レベルの検証スコアを組み合わ
せることによって、信頼性尺度（ＣＭ(confidence meas
ure)）を計算する。例えば、検出されたキー句がＮ個の
部分語を含む場合、このキー句に対する信頼性尺度は、
対応するＮ個の尤度比の関数とすることが可能である。
具体的には、次のようになる。ＣＭ＝ｆ（ｌｏｇＬＲ₁，...，ｌｏｇＬＲ_N）（３）信頼性尺度（ＣＭ）が、ある所定のしきい値を超える場
合に、与えられたキー句は承認される。実施例では、し
きい値の値は、例えば−０．１５に設定される。

【００３７】本発明のさまざまな実施例において、さま
ざまな信頼性尺度関数を使用することができる。例え
ば、第１の例示的な信頼性尺度ＣＭ₁は、フレーム継続
時間による正規化に基づく。特に、これは、正しい部分
語モデルに対して得られるビタビスコアと、対応する反
部分語モデルに対して得られるビタビスコアの差に等し
い。すなわち、次のようになる。

【数１】上記の式で、ｌ_nは、部分語ｎの継続時間を表し、Ｌは
句の全継続時間である。すなわち、Ｌ＝Σｌ_nである。

【００３８】第２の例示的な信頼性尺度ＣＭ₂は、部分
語セグメントによる正規化に基づく。特に、これは、与
えられたキー句のすべての部分語の対数尤度比の単なる
平均である。（一実施例では、句セグメンテーション後
に単語間文脈情報が失われるため、最後の部分語に対し
て特別の考慮がなされる。）すなわち、次のようにな
る。

【数２】

【００３９】第３の例示的な信頼性尺度ＣＭ₃は、すべ
ての部分語にわたる平均の信頼性レベルではなく、検証
プロセスの結果、信頼性レベルが低いような部分語に注
目する。これが有効なのは、正しくないキー句の部分語
のうちには実際に入力句に正しく一致するが、他の部分
語は入力句とは非常に異なることがあるからである。例
えば、"November"の後半部分は、場合によって、入力
句"December"の後半と完全に一致するため、部分語スコ
アを平均した場合に高い検証スコア（すなわち信頼性尺
度）を受け取ることになる。従って、これを確実に拒絶
するためには、この句の前半（その検証スコアは低くな
る可能性が高い）に注目するのが有効である。

【００４０】このように、低い信頼性レベルの部分語に
注目するために、各部分語ごとに正規分布を仮定するこ
とによって、対数尤度比を調整することが可能である。
具体的には、部分語ＨＭＭのトレーニングで用いたサン
プルを使用して、各部分語ごとに対数尤度比の平均およ
び分散を計算する。その後、対数尤度比が、期待される
平均より小さい部分語のみを含む和を実行することによ
って、ＣＭ₃を計算することができる。すなわち、次の
ようになる。

【数３】ただし、Ｎ_aは、対数尤度比が実際には期待される平均
より小さい部分語の数（すなわち、ｌｏｇＬＲ_n＜０と
なる部分語の数）である。

【００４１】第４の例示的な信頼性尺度ＣＭ₄はシグモ
イド関数を用いる。この例示的な信頼性尺度は、最小誤
り率基準でトレーニングするための損失関数として用い
られる。すなわち、次のようになる。

【数４】これらの信頼性尺度のそれぞれに対して（あるいは、本
発明の別の実施例によって使用される信頼性尺度に対し
て）、特定のしきい値を選択することが可能である。与
えられた信頼性尺度の値がそのしきい値を下回る場合、
候補キー句は検証済みキー句候補の集合から排除され、
そうでない場合、検証済みキー句候補の集合に含まれ
る。

【００４２】本発明のさまざまな実施例によれば、計算
される信頼性尺度の尤度比は、「フォールスアラーム」
を排除するためだけではなく、検証済みの句に対する
「再スコアリング」を行うための基礎としても使用可能
である。例えば、E. Lleida and R. C. Rose, "Efficie
nt Decoding and Training Procedures for UtteranceV
erification in Continuous Speech Recognition", Pro
c. IEEE-ICASSP, pp.507-510, 1996、には、尤度比に基
づいて復号を行うことが提案されている。しかし、尤度
比の直接の使用は、そのダイナミックレンジが大きいた
め、不安定となる可能性がある。こうして、本発明の一
実施例によれば、反部分語モデルのスコアが正しい部分
語モデルのスコアより大きい場合（すなわち、ＣＭ₁＜
０の場合）にガーベジ充填句を生成することによって、
反部分語モデルをガーベジモデルとして処理する。ガー
ベジ充填句は、もとの句と同じ継続時間を有し、もとの
句よりも例えばＣＭ₁だけ高いスコアを有する。その結
果、もとの句は、その後の文解析（以下参照）で選択さ
れる可能性が低くなる。

【００４３】［文解析］図１の実施例のシステムの文仮
説生成器１３はキー句検証器１２によって生成された検
証済みキー句候補を意味情報２５に基づいて１個以上の
文仮説へと組み合わせる文解析を実行する。一実施例で
は、句候補のＬＲ(left-to-right)トレリスを使用する
ことが可能な１次元ＲＬ(right-to-left)探索が用いら
れる。別の実施例では、島駆動探索アルゴリズムを用い
ることも可能である。トレリス解析は計算量が多いた
め、さらに別の実施例ではラティス解析法を採用する。
これは、トレリス解析よりわずかに精度が低くなるだけ
である。ラティス解析法は、音響スコアと、提供される
意味制約情報（キー句タグの許容される組み合わせを指
定する）に基づいて、句候補を結合する。キー句検出の
ためのフォワード−バックワード探索によって与えられ
るスコアを音響スコアとして用いることが可能である。

【００４４】最も可能性の高い文仮説を効率的に見つけ
るためには、スタック復号探索法を採用すると有効であ
る。この方法は、一連の部分仮説を反復的に生成し、完
全な文仮説が生成されるまで、各反復において最良の利
用可能な部分仮説を延長する。

【００４５】具体的には、現在の「最良の」部分仮説を
｛ｗ₁，ｗ₂｝とし、新たな仮説が句ｗ₃を連結すること
によって生成されると仮定する。新たな仮説｛ｗ₁，
ｗ₂，ｗ₃｝に対する評価関数は、完全な入力発話ｈ₀に
対する上限スコアからのずれ（オフセット）として以下
のように計算される。

【数５】ただし、ｆ＾（ｗ_i）は、検出された句ｗ_iに対する評価
の結果である。初期仮説はｆ＾（null）＝ｈ₀である。
新たな句が追加されるごとに、オフセットが減算され
る。上限ｈ₀は、認識プロセスのフォワードパスで計算
される。

【００４６】上記の方法は、例えば、W. A. Woods, "Op
timal Search Strategies for Speech Understanding C
ontrol", Artificial Intelligence, 18:295-326, 198
2、に記載されているような不足法(short-fall method)
に基づいている。注意すべき点であるが、この評価はＡ
_*認容である。しかし、探索を効率的に導くこの方法の
発見的能力はやや限定されたものとなる可能性がある。
検出ベースの解析段階では特に、入力発話全体が扱われ
ることを仮定しないため、数語の短い仮説が誤って受容
される可能性が高い。従って、発話でスキップされた部
分を評価することが有効となる。そのため、具体的に
は、本発明の一実施例によれば、スキップ長に比例する
一様な罰金値をオフセットとして追加することが可能で
ある。もちろん、この近似は粗雑であるため、次善の探
索となる可能性がある。従って、これを補うために、で
きるだけ多くのキー句とともに、できるだけ多くのガー
ベジ句（無音を含む）を生成することが好ましい。（一
実施例では、これらの仮説は、キー句検証プロセス中に
生成することも可能である。）

【００４７】［文検証］図１の実施例のシステムの文仮
説検証器１４は、認識出力の最終判定を行う。実施例で
は、大域的音響情報および大域的意味情報の両方を使用
し、それぞれ入力発話全体に適用される。キー句検証プ
ロセスは局所的な判定のみをしたが、文仮説検証プロセ
スはこれらの局所的な結果を組み合わせ、従来の発話検
証と同様の効果を実現する。しかし、検出ベースの認識
プロセスは、多数の予期しないキャリア句を含む場合で
も入力発話を受容することが多いことに注意すべきであ
る。

【００４８】具体的には、文仮説検証器１４によって実
行される音響検証プロセスは、与えられた文仮説が十分
に一致することを保証するために、入力発話全体の再ス
コアリングを行う。この再スコアリングは、部分語モデ
ル２６、反部分語モデル２７、および辞書２３を用いて
行われる。この段階で適用される部分語モデル（すなわ
ち、部分語モデル２６）の集合および対応する反部分語
モデル（すなわち、反部分語モデル２７）の集合は、キ
ー句検出器１１およびキー句検証器１２によって使用さ
れるもの（すなわち、部分語モデル２２および反部分語
モデル２４）よりも精度が高い。こうして、より高い精
度の音響再スコアリングが実行される。

【００４９】一方、意味検証プロセスは、与えられた各
文仮説の意味的「完全性」を評価する。例えば、本発明
の一実施例によれば、意味検証は、ある構成要素が意味
的に「合法」かどうかのみを指定する単純な意味制約情
報に基づいて実行される。このような場合、文仮説検証
器１４の意味解析部分は、例えば、与えられた文仮説の
意味表現が完全であるかどうかを判断する。しかし、注
意すべき点であるが、会話ベースのアプリケーションで
は、例えば、不完全な発話にしばしば遭遇する。例え
ば、ユーザはただ"August"（８月）と言うだけで、その
月の特定の日を指定しないことがある。一般に、こうし
た「不完全な」発話も同様に受容すべきである。

【００５０】従って、本発明の一実施例によれば、文仮
説検証器１４は、与えられた文仮説が意味表現を完成し
ておらず、かつ、ほとんどの入力セグメントが尤度比テ
ストで拒絶された場合にのみ、その文仮説を拒絶する。
この組合せ「テスト」は、例えば、満足な文仮説に遭遇
するまで、各文仮説に適用することが可能である。

【００５１】しかし、本発明の別の実施例では、さらに
一般的な確率的意味モデルを、文仮説検証器１４で用い
ることが可能である。このような場合、各文仮説につい
て、音響スコアとともに意味スコアを求め、組み合わせ
たスコアを用いて、最終認識結果として出力すべき検証
された文仮説を選択することが可能である。

【００５２】本発明のさらに別の実施例では、意味的検
証のみまたは音響的検証のみ（両方ではない）を、文仮
説検証器１４で実行することが可能である。例えば、さ
らに高い精度の部分語および反部分語のモデルが利用可
能でない場合には、入力発話の音響再スコアリングを実
行することはあまり効果がない。従って、この場合、意
味検証のみを実行して、単に、与えられた文仮説が意味
表現を完成していることを検証するか、あるいは、確率
的意味モデルを用いている場合には、検証済み文仮説が
最終認証結果として判断されるもとになる意味スコアを
生成する。

【００５３】［付記］説明を明確にするため、ここに記
載した本発明の実施例は、個別の機能ブロックからなる
ものとして表した。これらのブロックによって表される
機能は、共用あるいは専用のハードウェアの使用によっ
て提供することが可能である。ハードウェアには、ソフ
トウェアを実行することが可能なハードウェアが含まれ
るが、これに限定されるものではない。例えば、ここに
記載した構成要素の機能は、単一の共用プロセッサによ
って、あるいは、複数のプロセッサによって提供するこ
とが可能である。本発明の実施例は、ディジタル信号プ
ロセッサ（ＤＳＰ）ハードウェア、上記の動作を実行す
るソフトウェアを格納する読み出し専用メモリ（ＲＯ
Ｍ）、および、結果を格納するランダムアクセスメモリ
（ＲＡＭ）からなることが可能である。超大規模集積
（ＶＬＳＩ）ハードウェアや、カスタムＶＬＳＩ回路を
汎用プロセッサやＤＳＰ回路と組み合わせたものも可能
である。

【００５４】また、「キー句検出器」、「キー句検証
器」、「文仮説生成器」、および「文仮説検証器」とい
う用語は、対応する機能を実行する任意のメカニズムを
含む。

【００５５】

【発明の効果】以上述べたごとく、本発明によれば、固
定した形式的な文法に基づいて受容されるよりも多くの
発話が受容される、効率および自由度の高い会話音声認
識が実現される。

【図面の簡単な説明】

【図１】本発明の実施例による音声認識および音声発話
の理解を実行するシステムの図である。

【図２】「日付取得」サブタスクに適用した場合に、図
１の例示的なシステムによって使用されることが可能な
単純化された句ネットワーク例の図である。

【符号の説明】

１１キー句検出器１２キー句検証器１３文仮説生成器１４文仮説検証器２１キー句文法２２部分語モデル２３辞書２４反部分語モデル２５意味情報２６部分語モデル２７反部分語モデル

───────────────────────────────────────────────────── フロントページの続き (71)出願人 596077259 600 ＭｏｕｎｔａｉｎＡｖｅｎｕｅ, ＭｕｒｒａｙＨｉｌｌ，ＮｅｗＪｅｒｓｅｙ 07974−0636Ｕ．Ｓ．Ａ. (72)発明者ビン−ホワンジャンアメリカ合衆国、07059 ニュージャージー、ウォレン、サウスレーン８ (72)発明者かわはらたつや京都府京都市伏見区東奉行伏見御堂122 (72)発明者チン−フイリーアメリカ合衆国、07974 ニュージャージー、ニュープロビデンス、ラニーメデパークウェイ 118

Claims

【特許請求の範囲】

【請求項１】複数の単語からなる音声発話の音声認識
を実行する音声認識方法において、句部分文法に基づいてキー句検出を実行して、認識され
た単語からなる複数の検出済みキー句を生成する検出ス
テップと、前記検出済みキー句に信頼性尺度を割り当て、該信頼性
尺度をしきい値と比較することにより、前記検出済みキ
ー句の検証を実行して、検証済みキー句候補の集合を生
成するキー句検証ステップと、前記検証済みキー句候補を結合し、所定の意味情報に基
づいて文仮説を生成するステップと、前記文仮説の検証を実行して、少なくとも１つの検証済
み文仮説を生成する文仮説検証ステップとからなること
を特徴とする音声認識方法。
【請求項２】前記句部分文法は、会話状態に基づく句
部分文法の集合から選択されることを特徴とする請求項
１の方法。
【請求項３】前記句部分文法は、音声サンプルのコー
パスを用いたトレーニングプロセスに基づいて導出され
たものであることを特徴とする請求項１の方法。
【請求項４】前記文仮説の生成は、前記信頼性尺度に
も基づくことを特徴とする請求項１の方法。
【請求項５】前記検出済みキー句は、意味タグでラベ
ルされることを特徴とする請求項１の方法。
【請求項６】前記文仮説の生成は、前記意味タグにも
基づくことを特徴とする請求項５の方法。
【請求項７】前記文仮説の生成は、前記信頼性尺度に
も基づくことを特徴とする請求項６の方法。
【請求項８】前記文仮説の生成は、前記信頼性尺度、
前記意味タグ、および前記所定の意味情報に基づいて、
最も確からしい文仮説を判定するステップからなること
を特徴とする請求項７の方法。
【請求項９】前記検出ステップは複数の部分語モデル
に基づいて実行され、前記検出済みキー句は部分語の列
からなることを特徴とする請求項１の方法。
【請求項１０】前記部分語モデルは隠れマルコフモデ
ルからなることを特徴とする請求項９の方法。
【請求項１１】前記キー句検証ステップは、部分語モ
デルの集合と、対応する反部分語モデルの集合に基づい
て実行されることを特徴とする請求項９の方法。
【請求項１２】前記部分語モデルおよび前記反部分語
モデルは隠れマルコフモデルからなることを特徴とする
請求項１１の方法。
【請求項１３】前記文仮説検証ステップは、文仮説に
対して音響的検証を実行するステップからなることを特
徴とする請求項１の方法。
【請求項１４】前記文仮説検証ステップは、文仮説に
対して意味的検証を実行するステップからなることを特
徴とする請求項１の方法。
【請求項１５】前記文仮説検証ステップは、最も確か
らしい１つの文仮説を選択するステップを含むことを特
徴とする請求項１の方法。
【請求項１６】前記検証済み文仮説に基づいて意味フ
レームを生成するステップをさらに有することを特徴と
する請求項１の方法。
【請求項１７】複数の単語からなる音声発話の音声認
識を実行する音声認識装置において、句部分文法に基づいてキー句検出を実行して、認識され
た単語からなる複数の検出済みキー句を生成するキー句
検出器と、前記検出済みキー句に信頼性尺度を割り当て、該信頼性
尺度をしきい値と比較することにより、前記検出済みキ
ー句の検証を実行して、検証済みキー句候補の集合を生
成するキー句検証器と、前記検証済みキー句候補を結合し、所定の意味情報に基
づいて文仮説を生成する文仮説生成器と、前記文仮説の検証を実行して、少なくとも１つの検証済
み文仮説を生成する文仮説検証器とからなることを特徴
とする音声認識装置。
【請求項１８】前記句部分文法は、会話状態に基づく
句部分文法の集合から選択されることを特徴とする請求
項１７の装置。
【請求項１９】前記句部分文法は、音声サンプルのコ
ーパスを用いたトレーニングプロセスに基づいて導出さ
れたものであることを特徴とする請求項１７の装置。
【請求項２０】前記文仮説生成器は、前記信頼性尺度
にも基づいて前記文仮説を生成することを特徴とする請
求項１７の装置。
【請求項２１】前記検出済みキー句は、意味タグでラ
ベルされることを特徴とする請求項１７の装置。
【請求項２２】前記文仮説生成器は、前記意味タグに
も基づいて前記文仮説を生成することを特徴とする請求
項２１の装置。
【請求項２３】前記文仮説生成器は、前記信頼性尺度
にも基づいて前記文仮説を生成することを特徴とする請
求項２２の装置。
【請求項２４】前記文仮説生成器は、前記信頼性尺
度、前記意味タグ、および前記所定の意味情報に基づい
て、最も確からしい文仮説を判定することを特徴とする
請求項２３の装置。
【請求項２５】前記キー句検出器は複数の部分語モデ
ルに基づいて動作し、前記検出済みキー句は部分語の列
からなることを特徴とする請求項１７の装置。
【請求項２６】前記部分語モデルは隠れマルコフモデ
ルからなることを特徴とする請求項２５の装置。
【請求項２７】前記キー句検証器は、部分語モデルの
集合と、対応する反部分語モデルの集合に基づいて動作
することを特徴とする請求項２５の装置。
【請求項２８】前記部分語モデルおよび前記反部分語
モデルは隠れマルコフモデルからなることを特徴とする
請求項２７の装置。
【請求項２９】前記文仮説検証器は、文仮説に対して
音響的検証を実行することを特徴とする請求項１７の装
置。
【請求項３０】前記文仮説検証器は、文仮説に対して
意味的検証を実行することを特徴とする請求項１７の装
置。
【請求項３１】前記文仮説検証器は、最も確からしい
１つの文仮説を選択することを特徴とする請求項１７の
装置。
【請求項３２】前記検証済み文仮説に基づいて意味フ
レームを生成する意味フレーム生成器をさらに有するこ
とを特徴とする請求項１７の装置。