JPH08227298A

JPH08227298A - クラスタ化された単語間及び／又は句間の調音結合を使用した音声認識

Info

Publication number: JPH08227298A
Application number: JP7224017A
Authority: JP
Inventors: Kazuhiro Kondo; 和弘近藤; Ikuo Kudo; 育男工藤; Hang Kao Yu; − ハングカオユ; Barbara J Wheatley; ジェイ．ウィートリーバーバラ
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1994-08-31
Filing date: 1995-08-31
Publication date: 1996-09-03
Also published as: US5819221A

Abstract

(57)【要約】【課題】クラスタ化された単語間及び／又は句間の調
音結合を使用して、高い認識精度を有する音声認識装置
及び方法を提供する。【解決手段】音声認識モデルは、単語間または句間の
調音結合が、僅かなクラスにのみクラスタ化されてなる
単語間及び／又は句間調音結合を備えている。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は音声認識に関し、特
に、単語間及び／又は句間の調音結合（ｃｏａｒｔｉｃ
ｕｌａｔｉｏｎ）を使用した音声モデル化に関する。

【０００２】

【従来技術の説明】連続した音声における単語間調音結
合をモデル化することは、認識の正確性を徹底的に改善
することは、英語に対してこれまで示されてきた。例と
して、以下の文献を参照されたい。（１）エム・ワイ・フワング（Ｍ．Ｙ．Ｈｗａｎ
ｇ）、エッチ・ダブリュー・ホン（Ｈ．Ｗ．Ｈｏｎ）、
及びケー・エフ・リー（Ｋ．Ｆ．Ｌｅｅ）：「連続した
音声認識における単語間調音結合のモデル化（Ｍｏｄｅ
ｌｉｎｇＢｅｔｗｅｅｎ−ＷｏｒｄＣｏａｒｔｉｃ
ｕｌａｔｉｏｎｉｎＣｏｎｔｉｎｕｏｕｓＳｐｅ
ｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）」、プロシーデング
・ヨーロッパ−スピーチ '８９（Ｐｒｏｃ．Ｅｕｒｏ
−ｓｐｅｅｃｈ '８９）、仏国、パリ、１９８９、９
月。（２）デー・ビー・パウル（Ｄ．Ｂ．Ｐａｕｌ）：
「リンカーン製の連続した音声認識システム：最近の開
発及び結果（ＴｈｅＬｉｎｃｏｌｎＣｏｎｔｉｎｕ
ｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＳｙ
ｓｔｅｍ：ＲｅｃｅｎｔＤｅｖｅｌｏｐｍｅｎｔ
ａｎｄＲｅｓｕｌｔｓ）」、プロシーディング・ダー
パ・スピーチ・アンド・ナショナルランゲージ・プロセ
シング・ワークショップ（Ｐｒｏｃ．ＤＡＲＰＡＳ
ｐｅｅｃｈａｎｄＮａｔｉｏｎａｌＬａｎｇｕａ
ｇｅＰｒｏｃｅｓｓ．Ｗｏｒｋｓｈｏｐ）、ペンシ
ルバニア州フィラデルフィア（Ｐｈｉｌａｄｅｌｐｈｉ
ａＰＡ）、１９８９年、２月。（３）アール・カーディン（Ｒ．Ｃａｒｄｉｎ）、ワ
イ・ノルマンディン（Ｙ．Ｎｏｒｍａｎｄｉｎ）、及び
イー・ミリーン（Ｅ．Ｍｉｌｌｉｅｕ）：「改良式接続
ディジット認識に対する単語間調音結合のモデル化及び
エムエムアイイー訓練（Ｉｎｔｅｒ−ＷｏｒｄＣｏａ
ｒｔｉｃｕｌａｔｉｏｎＭｏｄｅｌｉｎｇａｎｄ
ＭＭＩＥＴｒａｉｎｉｎｇｆｏｒＩｍｐｒｏｖｅ
ｄＣｏｎｎｅｃｔｅｄＤｉｇｉｔＲｅｃｏｇｎｉ
ｔｉｏｎ）」、プロシーディング・アイトリプルイー・
インターナショナル・コンファレンス・アクースティッ
ク・スピーチ（Ｐｒｏｃ．ＩＥＥＥＩｎｔｅｒｎａｔ
ｉｏｎａｌＣｏｎｆ．Ａｃｏｕｓｔ．Ｓｐｅｅｃ
ｈ）、シグナル・プロセッシング（ＳｉｇｎａｌＰｒ
ｏｃｅｓｓ．）、ミネソタ州ミネアポリス（Ｍｉｎｎｅ
ａｐｏｌｉｓＭＮ）、１９９３年、４月。（４）テー・ワタナベ（Ｔ．Ｗａｔａｎａｂｅ）、ア
ール・イソタニ（Ｒ．Ｉｓｏｔａｎｉ）、及びエス・ツ
カダ（Ｓ．Ｔｓｕｋａｄａ）：「デミ−シラブル装置を
使用した陰マルコフモデルに基づくスピーカー独立性音
声認識（Ｓｐｅａｋｅｒ−ＩｎｄｅｐｅｎｄｅｎｔＳ
ｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＢａｓｅｄｏｎ
ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌＵｓｉｎ
ｇＤｅｍｉ−ＳｙｌｌａｂｌｅＵｎｉｔｓ）」、ア
イイーアイシーイー・トランザクションＤ−II編（Ｉ
ＥＩＣＥＴｒａｎｓ．ＰａｒｔＤ−II）、Ｊ７５−
Ｄ−II巻、第８号、第１２８１頁ないし第１２８９頁、
１９９２年４月。しかしながら、これらの調音結合を説
明すべく、付加的音声変動モデルを導入することによっ
て、モデルの所要数は、相当増大する。このことは、こ
れらのモデルを蓄積するのにより多くのメモリが必要と
され、かつ、入力音声と付加的文脈とを整合するのに、
より多くの計算が必要とされることを意味する。付加さ
れた計算を低減する有効なパラメータが、既に提案され
てきている。例えば、以下の文献を参照されたい。（５）ダブリュー・チョー（Ｗ．Ｃｈｏｕ）、ティー
・マツオカ（Ｔ．Ｍａｔｓｕｏｋａ）、ビー・エッチ・
ジュアング（Ｂ．Ｈ．Ｊｕａｎｇ）、及びシー・エッチ
・リー（Ｃ．Ｈ．Ｌｅｅ）：「単語間モデルを使用した
連続した音声認識に対する高分解能及び有効な多数のス
トリング仮説のアルゴリズム（ＡｎＡｌｇｏｒｉｔｈ
ｍｏｆＨｉｇｈＲｅｓｏｌｕｔｉｏｎａｎｄ
ＥｆｆｉｃｉｅｎｔＭｕｌｔｉｐｌｅＳｔｒｉｎｇ
ＨｙｐｏｔｈｅｓｉｚａｔｉｏｎｆｏｒＣｏｎｔ
ｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ
ＵｓｉｎｇＩｎｔｅｒ−ＷｏｒｄＭｏｄｅｌ
ｓ）」、プロシーディング・アイトリプルイー・インタ
ーナショナル・コンファレンス・アクーステック・スピ
ーチ（Ｐｒｏｃ．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａ
ｌＣｏｎｆ．Ａｃｏｕｓｔ．Ｓｐｅｅｃｈ）、シグ
ナル・プロセッシング（ＳｉｇｎａｌＰｒｏｃｅｓ
ｓ．）、オーストラリア国アデレード、１９９４年４
月。（６）ケー・イトー（Ｋ．Ｉｔｏｕ）、エス・ハヤミ
ズ（Ｓ．Ｈａｙａｍｉｚｕ）、及びエッチ・タナカ
（Ｈ．Ｔａｎａｋａ）：「文脈独立性音声ＨＭＭ及びＮ
−最良文仮説を見い出すための有効なアルゴリズムによ
る連続した音声認識（ＣｏｎｔｉｎｕｏｕｓＳｐｅｅ
ｃｈＲｅｃｏｇｎｉｔｉｏｎｂｙＣｏｎｔｅｘｔ
−ＤｅｐｅｎｄｅｎｔＰｈｏｎｅｔｉｃＨＭＭａ
ｎｄａｎＥｆｆｉｃｉｅｎｔＡｌｇｏｒｉｔｈｍ
ｆｏｒＦｉｎｄｉｎｇＮ−ＢｅｓｔＳｅｎｔｅｎ
ｃｅＨｙｐｏｔｈｅｓｉｓ）」、プロシーディング・
アイトリプルイー・インターナショナル・コンファレン
ス・アクーステック・スピーチ（Ｐｒｏｃ．ＩＥＥＥ
ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆ．Ａｃｏｕｓ
ｔ．Ｓｐｅｅｃｈ）、シグナル・プロセッシング（Ｓｉ
ｇｎａｌＰｒｏｃｅｓｓ．）、カルフォルニア州サン
フランシスコ（ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ）、
１９９２年３月。

【０００３】

【発明の概要】本発明の一実施例によれば、音声認識モ
デルは、単語間又は句間の調音結合が、僅かなクラスに
のみクラスタ化されてなる単語間及び／又は句間調音結
合を備えている。

【０００４】

【実施例】出願人は、単語間または句間（単語／句間）
文脈をモデル化する文脈独立性音声モデルのネットワー
クをコンパイルすることによって、これらの単語間文脈
を考慮しないモデルと比較して、認識エラーにおいて３
０％を超える猛烈な低減を達成できることを見い出し
た。しかしながら、これは、用語をモデル化するのに必
要な音声モデル数を相当増大させる。この増大を克服す
るため、出願人は、ここで、単語／句間文脈を僅かなク
ラスにのみクラスタ化することを教示する。子音の単語
間文脈に対して１つのクラスを用い、かつ、母音文脈に
対して２つのクラスを用いて、日本語におけるディジッ
ト・ストリング認識の認識の正確さは、非クラスタ化モ
デルにおける正確さと実質的に等しいことが判かり、一
方、要求される音声モデル数は、５０％以上低減され
た。

【０００５】この作業に使用される単語または句モデル
は、３音モデルを、単語内音声文脈及び単語／句間文脈
の双方をモデル化するネットワークに連結することによ
って構成された。文献１に説明されている方法とは異な
り、出願人は、その位置によって３音を区別しない、換
言すれば、単語の始め、中間、または終了にある３音を
区別しなかった。しかしながら、後ほど、出願人が、単
語／句間音をクラスタ化するのを開始するとき、出願人
は、単語の中間において３音からこれらの音を区別する
こととなる。

【０００６】図１は、日本語のディジット・ストリング
（ｄｉｇｉｔ−ｓｔｒｉｎｇ）「いち（１）、さん
（３）、ご（５）」に対する訓練用文法を示している。
各単語は、各単語に入って出て行く２つの経路を有して
いる。一方の経路は、無音（ｓｉｌ）を通過し、他方の
経路は、隣りの単語と直接接続している。

【０００７】図２は、空白文法（ディジット・ループ文
法）を使用して、日本語のディジット認識タスクに対す
る認識文法を図示している。各単語モデルは、全ての妥
当な３音モデルを、従来の単語間３音の他に、全ての可
能な左右の単語／句間文脈と並行して連結することによ
って、構成される。適切な単語間文脈の選択は、完全に
管理されない。文脈は、サーチ経路における隣りの単語
に従って制限することができ、これによって、付加され
た複雑さを犠牲にして、サーチ空間が低減される。しか
しながら、この文脈モデル化経路を管理されないままに
しておくことは、性能に重要な影響を与えないことが経
験的に見い出され、こうして、サーチを制限されないま
まにしておくことが決定された。

【０００８】単語間文脈依存性を導入することによっ
て、先の作業で指摘されたように、所要モデル数は相当
増大する。ディジット認識タスクに対して、３音モデル
数は、単語間文脈独立ケースに対する９６から、文脈依
存ケースに対する４６１に増大した。

【０００９】モデルの所要数における増大を最少に制限
するため、出願人はここで、単語間文脈を非常に僅かな
クラスにクラスタ化することを教示すると共に、このこ
とは、認識の正確さに重要な影響を及ぼさないことを見
い出した。

【００１０】これらの実験に使用された資料は、音声ダ
イヤル呼出しタスクに対する専有の資料であった。この
ことは、ケー・コンド（Ｋ．Ｋｏｎｄｏ）、ジェー・ピ
コーン（Ｊ．Ｐｉｃｏｎｅ）、及びビー・ホエートレイ
（Ｂ．Ｗｈｅａｔｌｅｙ）による「日本語及び英語のデ
ィジット認識の比較分析（ＡＣｏｍｐａｒａｔｉｖｅ
ＡｎａｌｙｓｉｓｏｆＪａｐａｎｅｓｅａｎｄ
ＥｎｇｌｉｓｈＤｉｇｉｔＲｅｃｏｇｎｉｔｉｏ
ｎ）」、プロシーディング・アイトリプルイー・インタ
ーナショナル・コンファレンス・アクースティック・ス
ピーチ（Ｐｒｏｃ．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎ
ａｌＣｏｎｆ．Ａｃｏｕｓｔ．Ｓｐｅａｃｈ）、シグ
ナル・プロセッシング（ＳｉｇｎａｌＰｒｏｃｅｓ
ｓ．）、オーストラリア国アデレード、１９９４年４月
に論じられている。収集された音声は、連続したディジ
ット・ストリングは勿論のこと、命令句（例えば「コー
ル・ホーム（ｃａｌｌｈｏｍｅ）」から構成される。
後者のみが、ここで説明するテストに対して使用され
た。テーブル固定式の線型マイクロフォンが使用される
と共に、中レベルまで低いノイズが、バックグラウンド
に含まれた。２２１個のスピーカー、並びに１１２人の
男性及び１０９人の女性がいた。各スピーカーは、半分
がディジット・ストリングである１００個の文章を話し
た。各性別毎に略８０％のデータが、訓練に使用され、
残りは、テストに使用された。テストセット及び訓練セ
ット間のスピーカーの重畳はない。全体で、総数５，４
４７個の男性の言葉と、５，３８０個の女性の言葉が、
訓練に対して使用され、かつ、２，０６８個の男女の言
葉が、テストに対して使用された。

【００１１】ここで使用する認識システムは、ＬＰＣベ
ースのＨＭＭ（陰マルコフモデル（ＨｉｄｄｅｎＭａ
ｒｃｏｖＭｏｄｅｌ））認識装置である。例として、
以下の文献を参照されたい：ジー・アール・ドッデング
トン（Ｇ．Ｒ．Ｄｏｄｄｉｎｇｔｏｎ）、「改良式音声
認識用の音声感知識別（ＰｈｏｎｅｔｉｃａｌｌｙＳｅ
ｎｓｉｔｉｖｅＤｉｓｃｒｉｍｉｎａｎｔｓｆｏｒ
ＩｍｐｒｏｖｅｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉ
ｏｎ）」、プロシーディング・アイシーエーエスエスピ
ー（Ｐｒｏｃ．ＩＣＡＳＳＰ）、１９８９年５月。音声
は８ｋＨｚでサンプリングされ、ＬＰＣ分析が応用さ
れ、かつ、ＬＰＣ（線型予測コーディング（Ｌｉｎｅａ
ｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ））パラメー
タが、特徴ベクトルに変換される。特徴ベクトルは、１
４個のメル−スペースドフィルタ（ｍｅｌ−ｓｐａｃｅ
ｄｆｉｌｔｅｒ）から成るフィルターバンクから出力
されるスペクトルエネルギー・ベクトル、これらのスペ
クトルエネルギーの短時間の差異、音声レベル、及び成
る音声インジケータから構成される。要素の総数は３４
である。特徴ベクトルの分散統計量を正規化すべく設計
された線型変換が応用され、かつ、最下位の１８個の特
徴がドロップされ、この結果、１６のベクトル次元とな
る。より詳細な説明は、ドッデングトン他（Ｄｏｄｄｉ
ｎｇｔｏｎ，ａｔａｌ）の「スピーカー独立性音声認
識の方法及びシステム（ＳｐｅａｋｅｒＩｎｄｅｐｅ
ｎｄｅｎｔＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ
ＭｅｔｈｏｄａｎｄＳｙｓｔｅｍ）」と題する米国
特許第４，９０８，８６５号に見い出される。この特許
は、参照によって、ここに含まれる。単峰性ガウス連続
分布モデルが、ＨＭＭモデルにおけるビタービ−スタイ
ル最大公算経路スコアリング（Ｖｉｔｅｒｂｉ−ｓｔｙ
ｌｅｍａｘｉｍｕｍｌｉｋｅｌｉｈｏｏｄｐａｔｈ
ｓｃｏｒｉｎｇ）と一緒に使用される。より詳細な説
明は、ドッデングトン他（Ｄｏｄｄｉｎｇｔｏｎ，ｅｔ
ａｌ）の「陰マルコフモデル音声認識に対する有効な
プルーニングアルゴリズム（ＥｆｆｉｃｉｅｎｔＰｒ
ｕｎｉｎｇＡｌｇｏｒｉｔｈｍｆｏｒＨｉｄｄｅ
ｎＭａｒｋｏｖＭｏｄｅｌＳｐｅａｃｈＲｅｃｏ
ｇｎｉｔｉｏｎ）」と題する米国特許第４，９７９，５
９８号に見い出される。この特許は、参照によってここ
に含まれる。

【００１２】これらのモデルを自己ループを有する無限
モデルと比較した状態で、我々はより良好な性能を一貫
して観察してきたので、これらのモデルは、有限持続期
間（自己ループの無い）モデルであった。各モデルの状
態数は、音声の平均持続期間によって決まる。持続期間
は、単音の初期セットを有するビタビ整合統計量（ｖｉ
ｔｅｒｂｉａｌｉｇｎｅｄｓｔａｔｉｓｔｉｃｓ）
から計算される。

【００１３】図３は、クラスタ化を有しない単語間文脈
依存性モデル（ケースII）から、１つにクラスタ化され
た無音文脈を排除した全ての音声文脈を有する文脈依存
性モデル（ケースVI）まで、テストされた種々の文脈ク
ラスタ化の計画である。単語間文脈独立性モデルに対す
るテスト結果（ケースＩ）は、比較のために含まれた右
側文脈位置は、単語または句の後の明瞭度を指し、左側
文脈位置は、単語または句の前の明瞭度を指す。

【００１４】ケースIII に対して、右側部分、即ち単語
または句の後の５つのクラスがある。各クラスタは、音
声シンボルによって表わされた音声に対する一般特徴ベ
クトルである。ケースIII に対して、無音、／ｉ／に対
する音声を有する母音クラスタ、音声シンボル及び／ｓ
／、／ｎ／、／ｚ／、／ｒ／に対する音声用の両唇音
（明瞭度点が唇にある）クラスタ、音声／ｇ／、／ｙ
／、／ｋ／に対する口蓋音軟口蓋子音（明瞭度が口蓋音
または軟口蓋子音である）クラスタがある。左側、即ち
単語／句前に対するケースIII に対して、別々に処理さ
れた全ての６つの文脈または非クラスタ化がある。

【００１５】ケースIVに対して、右側、即ち単語／句後
に対する３つのクラスタ特徴ベクトルがある。これら
は、無音、音声／ｉ／を有する母音クラスタ、及び／ｈ
／、／ｍ／、／ｓ／、／ｎ／、／ｚ／、／ｒ／、／ｇ
／、／ｙ／、／ｋ／に対する子音用の共通ベクトルであ
る。他の単語／句の左側に対するケースIVに対して、全
ての６つの文脈は、別々に処理される。

【００１６】好ましいケースＶに対して、無音、音声／
ｉ／を有する母音クラスタ、及び／ｈ／、／ｍ／、／ｓ
／、／ｎ／、／ｚ／、／ｒ／、／ｇ／、／ｙ／及び／ｋ
／に対する共通特徴ベクトルを有する子音クラスタであ
る、単語／句の右側に対する３つのクラスタがある。左
側、即ち単語／句前に対して、無音、音声／ｉ／及び／
ｕ／を有する高い母音クラスタ、音声／ａ／及び／ｏ／
を有する軽く低い母音クラスタ、及び音声／Ｎ／を有す
る単音クラスタがある。

【００１７】ケースVIに対して、無音及び全ての音声で
ある、単語／句の右側に対する２つのクラスタと、無音
及び全ての音声である、左側に対する２つのクラスタと
がある。

【００１８】図４は、各ケースの結果を示している。

【００１９】ケースＩ及びIIに対する性能から、単語間
文脈依存性の導入によって、単語誤り率は、２．５％か
ら１．７％に減少し、誤り率における３２％の相対的減
少となる。このことは、用語をモデル化するのに必要な
モデル数において、５倍のコスト増になる。他のケース
は勿論のこと、これらのケースにおいて、誤り率の殆ん
どの差異は、置換エラーにおいて見ることができ、挿入
または削除エラーではないことを指摘することもまた興
味深い。

【００２０】ケースIII ないしＶは、異なるクラスタ化
概要を比較している。ケースIII に対する結果は、子音
文脈を幾つかのクラスにクラスタ化することは、単語エ
ラーに何ら影響を与えないことを示し、一方、ケースIV
は、全子音文脈に関するクラスタ化は、エラーにおいて
僅かな増大しか有さないことを示している。ケースＶに
対する母音文脈の２つのクラスへの付加的クラスタ化
は、単語エラーに増大を示すことはなく、文章誤り率に
僅かな増大がある。非クラスタ化のケースIIと比較され
るケースＶに対するモデルの所要数における低減は、２
倍を上回り、一方、単語誤り率の増加は、０．１％以内
に維持された。最後に、ケースVIは、他の音声文脈から
無音を丁度分離することによって、単語エラーは、依然
として、ケースＩの単語間文脈独立性モデルと比較し
て、相当低減することができることを示している。

【００２１】得られた結果は、単語間文脈依存性モデル
についてであった。これらのモデルは、単語間及び単語
内文脈の双方を管理する文法を用いて調整された。認識
文法は、全ての単語間文脈依存性３音に対する経路を並
行して許容すると共に、サーチ経路に対して何らの制限
を加えるものではない。この単純な文法においてさえ
も、単語間文脈をモデル化しないモデルと比較して、３
０％以上、誤り率を低減することが可能であった。我々
はまた、単語間文脈に対するクラスタ化計画を提案し
た。全子音を１つのクラスにクラスタ化すると共に、母
音を２つのクラスにクラスタ化することによって、誤り
率の増加を０．１％以内に保ちながら、所要のモデル総
数を半分にすることができる。

【００２２】図５を参照すると、本発明の一実施例によ
る音声認識システムが図示されている。入力音声は、例
えば、マイクロフォン１１でピックアップされて、Ａ／
Ｄ変換器１３に送られる。先に論じたように、音声は、
８ｋＨｚでサンプリングされる。デジタル化された音声
入力は、デジタル信号プロセッサ（ＤＳＰ：ｄｉｇｉｔ
ａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、または汎
用コンピュータ１５上で実行される認識装置プログラム
を使用して、処理される。前述したように、認識装置
は、ＬＰＣベースのＨＭＭ認識装置である。プログラム
・メモリは、入力音声と、データベース、即ちデータ構
成体１７との最良の整合を見い出して、認識結果をもた
らすようになっている。ここでの教示によれば、データ
ベース、即ちデータ構成体１７は、クラスタ化されたモ
デル、及びクラスタ化された単語／句間文脈を有する文
法を備えている。クラスタ化されたモデルは、図５に図
示するように、例えば、図３のクラスタ化計画に従っ
て、単語／句間文脈をクラスタ化することによって形成
される。クラスＶの好ましい実施例において、単語間ま
たは句間文脈のこのクラスタ化は、例えば、母音、子
音、高い母音、低い母音、鼻音、無音等の言語知識ベー
スに基づいている。クラスタ化された単語／句間文脈を
有する文法は、例えば図１に示すような、単語／句間文
脈拡張（図１５の１６）によって拡張された、例えば３
つのディジット文法等の音声認識文法に由来している。
モデルのクラスタ化に対する同一のクラスタ化ルール
は、母音、子音、高い母音、低い母音等を使用して、例
えばクラスＶのクラスタ化等の文法に適応される。モデ
ル及び文法に対するクラスタ化は、データ構成体１７に
有効な蓄積空間に応じた、図３に図示した他のクラスに
従って行うことができる。

【００２３】ここで行われたテストは、日本語に対して
であるが、同様の方法が、他の言語にも応用されること
を確信している。しかしながら、その効率と共に、クラ
スタ化計画は、異なることとなる。英語に対する例が、
図６に示されている。図６は、訓練用の「１、３、５」
の例示的ディジット・ストリングに対する文章モデルを
図示している。

【００２４】この応用は、日本語ディジットに対する句
間文脈用の最適クラスタ化を、特に説明している。しか
しながら、他の言語及び他の用語に対する最適クラスタ
化は、同一の方法論に追従して、実験的に引き出すこと
ができる。この発明のキーアイデアは、調音結合効果を
捕えるべく、句間文脈をモデル化することと、次いで、
認識性能を犠牲にすること無く、モデル数を相当低減す
べく、文脈をクラスタ化することである。他の言語及び
用語に対する応用は、明白である。

【００２５】ここに示した結果は、音声モデルを使用し
た。しかしながら、同一の単語間文脈及びそのクラスタ
化計画は、例えば、単語モデル等の他のモデル化ユニッ
トに適用する必要がある。

【００２６】以上の説明に関して更に以下の項を開示す
る。（１）音声を認識するデータ構造音声構造において、
所定のクラスにクラスタ化される音声単語間／句間モデ
ルを備えたモデルと、前記所定のクラスに従ってクラス
タ化された単語間／句間の文脈を有する音声認識文法
と、を具備したことを特徴とする前記データ構造。

【００２７】（２）第１項記載のデータ構造におい
て、前記所定のクラスのうちの１つのクラスが、無音文
脈に対するものであることを特徴とする前記データ構
造。

【００２８】（３）第２項記載のデータ構造におい
て、前記所定のクラスのうちの第２のクラスが、無音文
脈以外のものであることを特徴とする前記データ構造。

【００２９】（４）第２項記載のデータ構造におい
て、前記所定のクラスのうちの第２のクラスが、子音に
対するものであり、前記所定のクラスのうちの第３のク
ラスが、母音に対するものであることを特徴とする前記
データ構造。

【００３０】（５）第１項記載のデータ構造におい
て、単語／句の右側に対する単語／句間文脈依存性モデ
ルが、無音クラス、（ｉ）に対する母音クラス及び子音
クラスを含み、かつ、単語／句の左側に対する単語間文
脈依存性モデルが、無音クラス、高い母音クラス、中間
の低い母音クラス、及び鼻音クラスを含むことを特徴と
する前記データ構造。

【００３１】（６）所定のクラスにクラスタ化された
単語間／句間文脈を有するモデルを備えた音声モデルを
記憶すると共に、前記所定のクラスに従ってクラスタ化
された単語間／句間文脈を有する音声認識文法を記憶す
る手段と、最良の整合出力をもたらすべく、前記モデル
及び前記文法と前記入力音声を比較する手段と、を具備
したことを特徴とする音声認識装置。

【００３２】（７）第６項記載の認識装置において、
前記所定のクラスの１つが、無音であることを特徴とす
る前記認識装置。

【００３３】（８）第７項記載の認識装置において、
前記所定のクラスの２番目が、無音以外であることを特
徴とする前記認識装置。

【００３４】（９）第７項記載の認識装置において、
前記所定のクラスの２番目が、子音のためであることを
特徴とする前記認識装置。

【００３５】（１０）第９項記載の認識装置におい
て、前記クラスの３番目が、母音のためであることを特
徴とする前記認識装置。

【００３６】（１１）第７項記載の認識装置におい
て、単語／句の左側に対する単語／句間文脈依存性モデ
ルが、無音クラス、母音クラス、及び子音クラスを含
み、単語／句の左側に対する単語／句間文脈依存性モデ
ルが、無音クラス、高い母音クラス、軽く低い母音クラ
ス、及び鼻音クラスを含んでなることを特徴とする前記
認識装置。

【００３７】（１２）音声単語／句間モデルを備えた
モデルをもたらす段階と、クラスタ化されたモデルを形
成すべく、言語知識クラスに従って前記単語／句間モデ
ルをクラスタ化する段階と、音声認識応用文法をもたら
す段階と、前記音声認識応用文法に関する単語／句間文
脈の拡張段階と、クラスタ化された単語／句間文脈を有
する文法を形成すべく、前記クラスに従って、前記音声
認識応用文法に関する前記拡張された単語／句間文脈を
クラスタ化する段階と、最良の整合を同定すべく、前記
クラスタ化されたモデル及び前記音声認識文法の前記ク
ラスタ化された単語／句間文脈に対して、入力音声を比
較する段階と、を具備したことを特徴とする音声を認識
する方法。

【００３８】（１３）改良された音声認識は、単語間
及び／又は句間調音結合の使用によって、本発明に従っ
て達成される。この付加的用語をモデル化するのに必要
な音声モデル数の増加は、単語／句間モデル及び文法１
９，２０を、僅かなクラスにのみクラスタ化することに
よって低減される。子音単語間文脈に対する１つのクラ
スと、母音文脈に対する２つのクラスを使用することに
よって、モデル数を半分以上に低減する一方、日本語に
対する正確さは、非クラスタ化モデルに対しても同様で
ある。

【図面の簡単な説明】

【図１】訓練用の例示的ディジット・ストリング「イ
チ、サン、ゴ」に対する文章モデルの略図である。

【図２】日本語ディジット・ストリング認識に対するサ
ンプル文章モデルの略図である。

【図３】テストされたクラスタ化計画の略図である。

【図４】テスト結果の略図である。

【図５】本発明の一実施例による音声認識システムの略
図である。

【図６】訓練用の例示的ディジット・ストリング「１３
５」に対する文章モデルの略図である。

【符号の説明】

１１マイクロフォン１３Ａ／Ｄ変換器１５音声認識装置１７データベース１９中間単語／句モデル２０中間単語／句文法

───────────────────────────────────────────────────── フロントページの続き (72)発明者ユ − ハングカオアメリカ合衆国テキサス州リチャードソン，ハニーサックルドライブ 2558 (72)発明者バーバラジェイ．ウィートリーアメリカ合衆国テキサス州プラノ，プレザントバレードライブ 2009

Claims

【特許請求の範囲】

【請求項１】音声を認識するデータ構造音声構造にお
いて、所定のクラスにクラスタ化される音声単語間／句間モデ
ルを備えたモデルと、前記所定のクラスに従ってクラスタ化された単語間／句
間の文脈を有する音声認識文法と、を具備したことを特
徴とする前記データ構造。
【請求項２】音声単語間／句間モデルを備えたモデル
をもたらす段階と、クラスタ化されたモデルを形成すべく、言語知識クラス
に従って前記単語間／句間モデルをクラスタ化する段階
と、音声認識応用文法をもたらす段階と、前記音声認識応用文法に関する単語間／句間文脈の拡張
段階と、クラスタ化された単語間／句間文脈を有する文法を形成
すべく、前記クラスに従って、前記音声認識応用文法に
関する前記拡張された単語間／句間文脈をクラスタ化す
る段階と、最良の整合を同定すべく、前記クラスタ化されたモデル
及び前記音声認識文法の前記クラスタ化された単語間／
句間文脈に対して、入力音声を比較する段階と、を具備
したことを特徴とする音声を認識する方法。