JPH08227298A - クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識 - Google Patents
クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識Info
- Publication number
- JPH08227298A JPH08227298A JP7224017A JP22401795A JPH08227298A JP H08227298 A JPH08227298 A JP H08227298A JP 7224017 A JP7224017 A JP 7224017A JP 22401795 A JP22401795 A JP 22401795A JP H08227298 A JPH08227298 A JP H08227298A
- Authority
- JP
- Japan
- Prior art keywords
- model
- clustered
- word
- contexts
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008878 coupling Effects 0.000 title description 5
- 238000010168 coupling process Methods 0.000 title description 5
- 238000005859 coupling reaction Methods 0.000 title description 5
- 238000000034 method Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 238000012360 testing method Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 3
- 241000408659 Darpa Species 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 240000002768 Alpinia galanga Species 0.000 description 1
- 235000006887 Alpinia galanga Nutrition 0.000 description 1
- 241000205585 Aquilegia canadensis Species 0.000 description 1
- NLZUEZXRPGMBCV-UHFFFAOYSA-N Butylhydroxytoluene Chemical compound CC1=CC(C(C)(C)C)=C(O)C(C(C)(C)C)=C1 NLZUEZXRPGMBCV-UHFFFAOYSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001808 coupling effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000004907 gland Anatomy 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000001584 soft palate Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
音結合を使用して、高い認識精度を有する音声認識装置
及び方法を提供する。 【解決手段】 音声認識モデルは、単語間または句間の
調音結合が、僅かなクラスにのみクラスタ化されてなる
単語間及び/又は句間調音結合を備えている。
Description
に、単語間及び/又は句間の調音結合(coartic
ulation)を使用した音声モデル化に関する。
合をモデル化することは、認識の正確性を徹底的に改善
することは、英語に対してこれまで示されてきた。例と
して、以下の文献を参照されたい。 (1) エム・ワイ・フワング(M.Y.Hwan
g)、エッチ・ダブリュー・ホン(H.W.Hon)、
及びケー・エフ・リー(K.F.Lee):「連続した
音声認識における単語間調音結合のモデル化(Mode
ling Between−Word Coartic
ulation in Continuous Spe
ech Recognition)」、プロシーデング
・ヨーロッパ−スピーチ '89 (Proc.Euro
−speech '89)、仏国、パリ、1989、9
月。 (2) デー・ビー・パウル(D.B.Paul):
「リンカーン製の連続した音声認識システム:最近の開
発及び結果(The Lincoln Continu
ous Speech Recognition Sy
stem: Recent Development
and Results)」、プロシーディング・ダー
パ・スピーチ・アンド・ナショナルランゲージ・プロセ
シング・ワークショップ(Proc. DARPA S
peech and National Langua
ge Process. Workshop)、ペンシ
ルバニア州フィラデルフィア(Philadelphi
a PA)、1989年、2月。 (3) アール・カーディン(R.Cardin)、ワ
イ・ノルマンディン(Y.Normandin)、及び
イー・ミリーン(E.Millieu):「改良式接続
ディジット認識に対する単語間調音結合のモデル化及び
エムエムアイイー訓練(Inter−Word Coa
rticulation Modeling and
MMIE Training for Improve
d Connected Digit Recogni
tion)」、プロシーディング・アイトリプルイー・
インターナショナル・コンファレンス・アクースティッ
ク・スピーチ(Proc.IEEE Internat
ional Conf.Acoust.Speec
h)、シグナル・プロセッシング(Signal Pr
ocess.)、ミネソタ州ミネアポリス(Minne
apolis MN)、1993年、4月。 (4) テー・ワタナベ(T.Watanabe)、ア
ール・イソタニ(R.Isotani)、及びエス・ツ
カダ(S.Tsukada):「デミ−シラブル装置を
使用した陰マルコフモデルに基づくスピーカー独立性音
声認識(Speaker−Independent S
peech RecognitionBased on
Hidden Markov Model Usin
g Demi−Syllable Units)」、ア
イイーアイシーイー・トランザクション D−II編(I
EICE Trans.Part D−II)、J75−
D−II巻、第8号、第1281頁ないし第1289頁、
1992年4月。しかしながら、これらの調音結合を説
明すべく、付加的音声変動モデルを導入することによっ
て、モデルの所要数は、相当増大する。このことは、こ
れらのモデルを蓄積するのにより多くのメモリが必要と
され、かつ、入力音声と付加的文脈とを整合するのに、
より多くの計算が必要とされることを意味する。付加さ
れた計算を低減する有効なパラメータが、既に提案され
てきている。例えば、以下の文献を参照されたい。 (5) ダブリュー・チョー(W.Chou)、ティー
・マツオカ(T.Matsuoka)、ビー・エッチ・
ジュアング(B.H.Juang)、及びシー・エッチ
・リー(C.H.Lee):「単語間モデルを使用した
連続した音声認識に対する高分解能及び有効な多数のス
トリング仮説のアルゴリズム(An Algorith
m of High Resolution and
Efficient Multiple String
Hypothesization for Cont
inuous Speech Recognition
Using Inter−Word Model
s)」、プロシーディング・アイトリプルイー・インタ
ーナショナル・コンファレンス・アクーステック・スピ
ーチ(Proc.IEEE Internationa
l Conf. Acoust.Speech)、シグ
ナル・プロセッシング(Signal Proces
s.)、オーストラリア国アデレード、1994年4
月。 (6) ケー・イトー(K.Itou)、エス・ハヤミ
ズ(S.Hayamizu)、及びエッチ・タナカ
(H.Tanaka):「文脈独立性音声HMM及びN
−最良文仮説を見い出すための有効なアルゴリズムによ
る連続した音声認識(Continuous Spee
ch Recognition by Context
−Dependent Phonetic HMM a
nd anEfficient Algorithm
for Finding N−Best Senten
ce Hypothesis)」、プロシーディング・
アイトリプルイー・インターナショナル・コンファレン
ス・アクーステック・スピーチ(Proc.IEEE
International Conf. Acous
t.Speech)、シグナル・プロセッシング(Si
gnal Process.)、カルフォルニア州サン
フランシスコ(San Francisco,CA)、
1992年3月。
デルは、単語間又は句間の調音結合が、僅かなクラスに
のみクラスタ化されてなる単語間及び/又は句間調音結
合を備えている。
文脈をモデル化する文脈独立性音声モデルのネットワー
クをコンパイルすることによって、これらの単語間文脈
を考慮しないモデルと比較して、認識エラーにおいて3
0%を超える猛烈な低減を達成できることを見い出し
た。しかしながら、これは、用語をモデル化するのに必
要な音声モデル数を相当増大させる。この増大を克服す
るため、出願人は、ここで、単語/句間文脈を僅かなク
ラスにのみクラスタ化することを教示する。子音の単語
間文脈に対して1つのクラスを用い、かつ、母音文脈に
対して2つのクラスを用いて、日本語におけるディジッ
ト・ストリング認識の認識の正確さは、非クラスタ化モ
デルにおける正確さと実質的に等しいことが判かり、一
方、要求される音声モデル数は、50%以上低減され
た。
は、3音モデルを、単語内音声文脈及び単語/句間文脈
の双方をモデル化するネットワークに連結することによ
って構成された。文献1に説明されている方法とは異な
り、出願人は、その位置によって3音を区別しない、換
言すれば、単語の始め、中間、または終了にある3音を
区別しなかった。しかしながら、後ほど、出願人が、単
語/句間音をクラスタ化するのを開始するとき、出願人
は、単語の中間において3音からこれらの音を区別する
こととなる。
(digit−string)「いち(1)、さん
(3)、ご(5)」に対する訓練用文法を示している。
各単語は、各単語に入って出て行く2つの経路を有して
いる。一方の経路は、無音(sil)を通過し、他方の
経路は、隣りの単語と直接接続している。
法)を使用して、日本語のディジット認識タスクに対す
る認識文法を図示している。各単語モデルは、全ての妥
当な3音モデルを、従来の単語間3音の他に、全ての可
能な左右の単語/句間文脈と並行して連結することによ
って、構成される。適切な単語間文脈の選択は、完全に
管理されない。文脈は、サーチ経路における隣りの単語
に従って制限することができ、これによって、付加され
た複雑さを犠牲にして、サーチ空間が低減される。しか
しながら、この文脈モデル化経路を管理されないままに
しておくことは、性能に重要な影響を与えないことが経
験的に見い出され、こうして、サーチを制限されないま
まにしておくことが決定された。
て、先の作業で指摘されたように、所要モデル数は相当
増大する。ディジット認識タスクに対して、3音モデル
数は、単語間文脈独立ケースに対する96から、文脈依
存ケースに対する461に増大した。
するため、出願人はここで、単語間文脈を非常に僅かな
クラスにクラスタ化することを教示すると共に、このこ
とは、認識の正確さに重要な影響を及ぼさないことを見
い出した。
イヤル呼出しタスクに対する専有の資料であった。この
ことは、ケー・コンド(K.Kondo)、ジェー・ピ
コーン(J.Picone)、及びビー・ホエートレイ
(B.Wheatley)による「日本語及び英語のデ
ィジット認識の比較分析(A Comparative
Analysis of Japanese and
English Digit Recognitio
n)」、プロシーディング・アイトリプルイー・インタ
ーナショナル・コンファレンス・アクースティック・ス
ピーチ(Proc.IEEE Internation
al Conf.Acoust.Speach)、シグ
ナル・プロセッシング(Signal Proces
s.)、オーストラリア国アデレード、1994年4月
に論じられている。収集された音声は、連続したディジ
ット・ストリングは勿論のこと、命令句(例えば「コー
ル・ホーム(call home)」から構成される。
後者のみが、ここで説明するテストに対して使用され
た。テーブル固定式の線型マイクロフォンが使用される
と共に、中レベルまで低いノイズが、バックグラウンド
に含まれた。221個のスピーカー、並びに112人の
男性及び109人の女性がいた。各スピーカーは、半分
がディジット・ストリングである100個の文章を話し
た。各性別毎に略80%のデータが、訓練に使用され、
残りは、テストに使用された。テストセット及び訓練セ
ット間のスピーカーの重畳はない。全体で、総数5,4
47個の男性の言葉と、5,380個の女性の言葉が、
訓練に対して使用され、かつ、2,068個の男女の言
葉が、テストに対して使用された。
ースのHMM(陰マルコフモデル(Hidden Ma
rcov Model))認識装置である。例として、
以下の文献を参照されたい:ジー・アール・ドッデング
トン(G.R.Doddington)、「改良式音声
認識用の音声感知識別(PhoneticallySe
nsitive Discriminants for
ImprovedSpeech Recogniti
on)」、プロシーディング・アイシーエーエスエスピ
ー(Proc.ICASSP)、1989年5月。音声
は8kHzでサンプリングされ、LPC分析が応用さ
れ、かつ、LPC(線型予測コーディング(Linea
r Predictive Coding))パラメー
タが、特徴ベクトルに変換される。特徴ベクトルは、1
4個のメル−スペースドフィルタ(mel−space
d filter)から成るフィルターバンクから出力
されるスペクトルエネルギー・ベクトル、これらのスペ
クトルエネルギーの短時間の差異、音声レベル、及び成
る音声インジケータから構成される。要素の総数は34
である。特徴ベクトルの分散統計量を正規化すべく設計
された線型変換が応用され、かつ、最下位の18個の特
徴がドロップされ、この結果、16のベクトル次元とな
る。より詳細な説明は、ドッデングトン他(Doddi
ngton,at al)の「スピーカー独立性音声認
識の方法及びシステム(Speaker Indepe
ndent Speech Recognition
Method and System)」と題する米国
特許第4,908,865号に見い出される。この特許
は、参照によって、ここに含まれる。単峰性ガウス連続
分布モデルが、HMMモデルにおけるビタービ−スタイ
ル最大公算経路スコアリング(Viterbi−sty
le maximum likelihoodpath
scoring)と一緒に使用される。より詳細な説
明は、ドッデングトン他(Doddington,et
al)の「陰マルコフモデル音声認識に対する有効な
プルーニングアルゴリズム(Efficient Pr
uning Algorithm for Hidde
n Markov ModelSpeach Reco
gnition)」と題する米国特許第4,979,5
98号に見い出される。この特許は、参照によってここ
に含まれる。
モデルと比較した状態で、我々はより良好な性能を一貫
して観察してきたので、これらのモデルは、有限持続期
間(自己ループの無い)モデルであった。各モデルの状
態数は、音声の平均持続期間によって決まる。持続期間
は、単音の初期セットを有するビタビ整合統計量(vi
terbi aligned statistics)
から計算される。
依存性モデル(ケースII)から、1つにクラスタ化され
た無音文脈を排除した全ての音声文脈を有する文脈依存
性モデル(ケースVI)まで、テストされた種々の文脈ク
ラスタ化の計画である。単語間文脈独立性モデルに対す
るテスト結果(ケースI)は、比較のために含まれた右
側文脈位置は、単語または句の後の明瞭度を指し、左側
文脈位置は、単語または句の前の明瞭度を指す。
または句の後の5つのクラスがある。各クラスタは、音
声シンボルによって表わされた音声に対する一般特徴ベ
クトルである。ケースIII に対して、無音、/i/に対
する音声を有する母音クラスタ、音声シンボル及び/s
/、/n/、/z/、/r/に対する音声用の両唇音
(明瞭度点が唇にある)クラスタ、音声/g/、/y
/、/k/に対する口蓋音軟口蓋子音(明瞭度が口蓋音
または軟口蓋子音である)クラスタがある。左側、即ち
単語/句前に対するケースIII に対して、別々に処理さ
れた全ての6つの文脈または非クラスタ化がある。
に対する3つのクラスタ特徴ベクトルがある。これら
は、無音、音声/i/を有する母音クラスタ、及び/h
/、/m/、/s/、/n/、/z/、/r/、/g
/、/y/、/k/に対する子音用の共通ベクトルであ
る。他の単語/句の左側に対するケースIVに対して、全
ての6つの文脈は、別々に処理される。
i/を有する母音クラスタ、及び/h/、/m/、/s
/、/n/、/z/、/r/、/g/、/y/及び/k
/に対する共通特徴ベクトルを有する子音クラスタであ
る、単語/句の右側に対する3つのクラスタがある。左
側、即ち単語/句前に対して、無音、音声/i/及び/
u/を有する高い母音クラスタ、音声/a/及び/o/
を有する軽く低い母音クラスタ、及び音声/N/を有す
る単音クラスタがある。
ある、単語/句の右側に対する2つのクラスタと、無音
及び全ての音声である、左側に対する2つのクラスタと
がある。
文脈依存性の導入によって、単語誤り率は、2.5%か
ら1.7%に減少し、誤り率における32%の相対的減
少となる。このことは、用語をモデル化するのに必要な
モデル数において、5倍のコスト増になる。他のケース
は勿論のこと、これらのケースにおいて、誤り率の殆ん
どの差異は、置換エラーにおいて見ることができ、挿入
または削除エラーではないことを指摘することもまた興
味深い。
概要を比較している。ケースIII に対する結果は、子音
文脈を幾つかのクラスにクラスタ化することは、単語エ
ラーに何ら影響を与えないことを示し、一方、ケースIV
は、全子音文脈に関するクラスタ化は、エラーにおいて
僅かな増大しか有さないことを示している。ケースVに
対する母音文脈の2つのクラスへの付加的クラスタ化
は、単語エラーに増大を示すことはなく、文章誤り率に
僅かな増大がある。非クラスタ化のケースIIと比較され
るケースVに対するモデルの所要数における低減は、2
倍を上回り、一方、単語誤り率の増加は、0.1%以内
に維持された。最後に、ケースVIは、他の音声文脈から
無音を丁度分離することによって、単語エラーは、依然
として、ケースIの単語間文脈独立性モデルと比較し
て、相当低減することができることを示している。
についてであった。これらのモデルは、単語間及び単語
内文脈の双方を管理する文法を用いて調整された。認識
文法は、全ての単語間文脈依存性3音に対する経路を並
行して許容すると共に、サーチ経路に対して何らの制限
を加えるものではない。この単純な文法においてさえ
も、単語間文脈をモデル化しないモデルと比較して、3
0%以上、誤り率を低減することが可能であった。我々
はまた、単語間文脈に対するクラスタ化計画を提案し
た。全子音を1つのクラスにクラスタ化すると共に、母
音を2つのクラスにクラスタ化することによって、誤り
率の増加を0.1%以内に保ちながら、所要のモデル総
数を半分にすることができる。
る音声認識システムが図示されている。入力音声は、例
えば、マイクロフォン11でピックアップされて、A/
D変換器13に送られる。先に論じたように、音声は、
8kHzでサンプリングされる。デジタル化された音声
入力は、デジタル信号プロセッサ(DSP:digit
al signal processor)、または汎
用コンピュータ15上で実行される認識装置プログラム
を使用して、処理される。前述したように、認識装置
は、LPCベースのHMM認識装置である。プログラム
・メモリは、入力音声と、データベース、即ちデータ構
成体17との最良の整合を見い出して、認識結果をもた
らすようになっている。ここでの教示によれば、データ
ベース、即ちデータ構成体17は、クラスタ化されたモ
デル、及びクラスタ化された単語/句間文脈を有する文
法を備えている。クラスタ化されたモデルは、図5に図
示するように、例えば、図3のクラスタ化計画に従っ
て、単語/句間文脈をクラスタ化することによって形成
される。クラスVの好ましい実施例において、単語間ま
たは句間文脈のこのクラスタ化は、例えば、母音、子
音、高い母音、低い母音、鼻音、無音等の言語知識ベー
スに基づいている。クラスタ化された単語/句間文脈を
有する文法は、例えば図1に示すような、単語/句間文
脈拡張(図15の16)によって拡張された、例えば3
つのディジット文法等の音声認識文法に由来している。
モデルのクラスタ化に対する同一のクラスタ化ルール
は、母音、子音、高い母音、低い母音等を使用して、例
えばクラスVのクラスタ化等の文法に適応される。モデ
ル及び文法に対するクラスタ化は、データ構成体17に
有効な蓄積空間に応じた、図3に図示した他のクラスに
従って行うことができる。
であるが、同様の方法が、他の言語にも応用されること
を確信している。しかしながら、その効率と共に、クラ
スタ化計画は、異なることとなる。英語に対する例が、
図6に示されている。図6は、訓練用の「1、3、5」
の例示的ディジット・ストリングに対する文章モデルを
図示している。
間文脈用の最適クラスタ化を、特に説明している。しか
しながら、他の言語及び他の用語に対する最適クラスタ
化は、同一の方法論に追従して、実験的に引き出すこと
ができる。この発明のキーアイデアは、調音結合効果を
捕えるべく、句間文脈をモデル化することと、次いで、
認識性能を犠牲にすること無く、モデル数を相当低減す
べく、文脈をクラスタ化することである。他の言語及び
用語に対する応用は、明白である。
た。しかしながら、同一の単語間文脈及びそのクラスタ
化計画は、例えば、単語モデル等の他のモデル化ユニッ
トに適用する必要がある。
る。 (1) 音声を認識するデータ構造音声構造において、
所定のクラスにクラスタ化される音声単語間/句間モデ
ルを備えたモデルと、前記所定のクラスに従ってクラス
タ化された単語間/句間の文脈を有する音声認識文法
と、を具備したことを特徴とする前記データ構造。
て、前記所定のクラスのうちの1つのクラスが、無音文
脈に対するものであることを特徴とする前記データ構
造。
て、前記所定のクラスのうちの第2のクラスが、無音文
脈以外のものであることを特徴とする前記データ構造。
て、前記所定のクラスのうちの第2のクラスが、子音に
対するものであり、前記所定のクラスのうちの第3のク
ラスが、母音に対するものであることを特徴とする前記
データ構造。
て、単語/句の右側に対する単語/句間文脈依存性モデ
ルが、無音クラス、(i)に対する母音クラス及び子音
クラスを含み、かつ、単語/句の左側に対する単語間文
脈依存性モデルが、無音クラス、高い母音クラス、中間
の低い母音クラス、及び鼻音クラスを含むことを特徴と
する前記データ構造。
単語間/句間文脈を有するモデルを備えた音声モデルを
記憶すると共に、前記所定のクラスに従ってクラスタ化
された単語間/句間文脈を有する音声認識文法を記憶す
る手段と、最良の整合出力をもたらすべく、前記モデル
及び前記文法と前記入力音声を比較する手段と、を具備
したことを特徴とする音声認識装置。
前記所定のクラスの1つが、無音であることを特徴とす
る前記認識装置。
前記所定のクラスの2番目が、無音以外であることを特
徴とする前記認識装置。
前記所定のクラスの2番目が、子音のためであることを
特徴とする前記認識装置。
て、前記クラスの3番目が、母音のためであることを特
徴とする前記認識装置。
て、単語/句の左側に対する単語/句間文脈依存性モデ
ルが、無音クラス、母音クラス、及び子音クラスを含
み、単語/句の左側に対する単語/句間文脈依存性モデ
ルが、無音クラス、高い母音クラス、軽く低い母音クラ
ス、及び鼻音クラスを含んでなることを特徴とする前記
認識装置。
モデルをもたらす段階と、クラスタ化されたモデルを形
成すべく、言語知識クラスに従って前記単語/句間モデ
ルをクラスタ化する段階と、音声認識応用文法をもたら
す段階と、前記音声認識応用文法に関する単語/句間文
脈の拡張段階と、クラスタ化された単語/句間文脈を有
する文法を形成すべく、前記クラスに従って、前記音声
認識応用文法に関する前記拡張された単語/句間文脈を
クラスタ化する段階と、最良の整合を同定すべく、前記
クラスタ化されたモデル及び前記音声認識文法の前記ク
ラスタ化された単語/句間文脈に対して、入力音声を比
較する段階と、を具備したことを特徴とする音声を認識
する方法。
及び/又は句間調音結合の使用によって、本発明に従っ
て達成される。この付加的用語をモデル化するのに必要
な音声モデル数の増加は、単語/句間モデル及び文法1
9,20を、僅かなクラスにのみクラスタ化することに
よって低減される。子音単語間文脈に対する1つのクラ
スと、母音文脈に対する2つのクラスを使用することに
よって、モデル数を半分以上に低減する一方、日本語に
対する正確さは、非クラスタ化モデルに対しても同様で
ある。
チ、サン、ゴ」に対する文章モデルの略図である。
ンプル文章モデルの略図である。
図である。
5」に対する文章モデルの略図である。
Claims (2)
- 【請求項1】 音声を認識するデータ構造音声構造にお
いて、 所定のクラスにクラスタ化される音声単語間/句間モデ
ルを備えたモデルと、 前記所定のクラスに従ってクラスタ化された単語間/句
間の文脈を有する音声認識文法と、を具備したことを特
徴とする前記データ構造。 - 【請求項2】 音声単語間/句間モデルを備えたモデル
をもたらす段階と、 クラスタ化されたモデルを形成すべく、言語知識クラス
に従って前記単語間/句間モデルをクラスタ化する段階
と、 音声認識応用文法をもたらす段階と、 前記音声認識応用文法に関する単語間/句間文脈の拡張
段階と、 クラスタ化された単語間/句間文脈を有する文法を形成
すべく、前記クラスに従って、前記音声認識応用文法に
関する前記拡張された単語間/句間文脈をクラスタ化す
る段階と、 最良の整合を同定すべく、前記クラスタ化されたモデル
及び前記音声認識文法の前記クラスタ化された単語間/
句間文脈に対して、入力音声を比較する段階と、を具備
したことを特徴とする音声を認識する方法。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US298689 | 1994-08-31 | ||
| US08/298,689 US5819221A (en) | 1994-08-31 | 1994-08-31 | Speech recognition using clustered between word and/or phrase coarticulation |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH08227298A true JPH08227298A (ja) | 1996-09-03 |
Family
ID=23151611
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7224017A Pending JPH08227298A (ja) | 1994-08-31 | 1995-08-31 | クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US5819221A (ja) |
| JP (1) | JPH08227298A (ja) |
Families Citing this family (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6178396B1 (en) * | 1996-08-02 | 2001-01-23 | Fujitsu Limited | Word/phrase classification processing method and apparatus |
| US6405159B2 (en) | 1998-06-03 | 2002-06-11 | Sbc Technology Resources, Inc. | Method for categorizing, describing and modeling types of system users |
| US7072826B1 (en) * | 1998-06-04 | 2006-07-04 | Matsushita Electric Industrial Co., Ltd. | Language conversion rule preparing device, language conversion device and program recording medium |
| US6260014B1 (en) * | 1998-09-14 | 2001-07-10 | International Business Machines Corporation | Specific task composite acoustic models |
| AU6501999A (en) * | 1998-09-29 | 2000-04-17 | Scansoft, Inc. | Inter-word triphone models |
| US6574596B2 (en) * | 1999-02-08 | 2003-06-03 | Qualcomm Incorporated | Voice recognition rejection scheme |
| US7086007B1 (en) | 1999-05-27 | 2006-08-01 | Sbc Technology Resources, Inc. | Method for integrating user models to interface design |
| US6778643B1 (en) | 2000-03-21 | 2004-08-17 | Sbc Technology Resources, Inc. | Interface and method of designing an interface |
| US20040006473A1 (en) | 2002-07-02 | 2004-01-08 | Sbc Technology Resources, Inc. | Method and system for automated categorization of statements |
| US7464033B2 (en) * | 2000-07-31 | 2008-12-09 | Texas Instruments Incorporated | Decoding multiple HMM sets using a single sentence grammar |
| US7269558B2 (en) * | 2000-07-31 | 2007-09-11 | Texas Instruments Incorporated | Decoding multiple HMM sets using a single sentence grammar |
| US20020087313A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented intelligent speech model partitioning method and system |
| US7065201B2 (en) | 2001-07-31 | 2006-06-20 | Sbc Technology Resources, Inc. | Telephone call processing in an interactive voice response call management system |
| US7305070B2 (en) | 2002-01-30 | 2007-12-04 | At&T Labs, Inc. | Sequential presentation of long instructions in an interactive voice response system |
| US6914975B2 (en) | 2002-02-21 | 2005-07-05 | Sbc Properties, L.P. | Interactive dialog-based training method |
| US7027586B2 (en) | 2003-12-18 | 2006-04-11 | Sbc Knowledge Ventures, L.P. | Intelligently routing customer communications |
| US9245526B2 (en) * | 2006-04-25 | 2016-01-26 | General Motors Llc | Dynamic clustering of nametags in an automated speech recognition system |
| JP4528839B2 (ja) * | 2008-02-29 | 2010-08-25 | 株式会社東芝 | 音素モデルクラスタリング装置、方法及びプログラム |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4908865A (en) * | 1984-12-27 | 1990-03-13 | Texas Instruments Incorporated | Speaker independent speech recognition method and system |
| GB8719487D0 (en) * | 1987-08-18 | 1987-09-23 | Met Line Inc | Snow thrower |
| US5438511A (en) * | 1988-10-19 | 1995-08-01 | Xerox Corporation | Disjunctive unification |
| US4984178A (en) * | 1989-02-21 | 1991-01-08 | Texas Instruments Incorporated | Chart parser for stochastic unification grammar |
| US4977598A (en) * | 1989-04-13 | 1990-12-11 | Texas Instruments Incorporated | Efficient pruning algorithm for hidden markov model speech recognition |
| US5418717A (en) * | 1990-08-27 | 1995-05-23 | Su; Keh-Yih | Multiple score language processing system |
| US5388183A (en) * | 1991-09-30 | 1995-02-07 | Kurzwell Applied Intelligence, Inc. | Speech recognition providing multiple outputs |
| US5511213A (en) * | 1992-05-08 | 1996-04-23 | Correa; Nelson | Associative memory processor architecture for the efficient execution of parsing algorithms for natural language processing and pattern recognition |
| US5390279A (en) * | 1992-12-31 | 1995-02-14 | Apple Computer, Inc. | Partitioning speech rules by context for speech recognition |
| US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
-
1994
- 1994-08-31 US US08/298,689 patent/US5819221A/en not_active Expired - Lifetime
-
1995
- 1995-08-31 JP JP7224017A patent/JPH08227298A/ja active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| US5819221A (en) | 1998-10-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7299178B2 (en) | Continuous speech recognition method and system using inter-word phonetic information | |
| JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
| Ostendorf et al. | Integration of diverse recognition methodologies through reevaluation of N-best sentence hypotheses | |
| US5983177A (en) | Method and apparatus for obtaining transcriptions from multiple training utterances | |
| Lee et al. | Improved acoustic modeling for large vocabulary continuous speech recognition | |
| US20140025379A1 (en) | Method and System for Real-Time Keyword Spotting for Speech Analytics | |
| US20030055640A1 (en) | System and method for parameter estimation for pattern recognition | |
| JPH08227298A (ja) | クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識 | |
| JPH0772840B2 (ja) | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 | |
| Lakshmi Sarada et al. | Automatic transcription of continuous speech into syllable-like units for Indian languages | |
| US5764851A (en) | Fast speech recognition method for mandarin words | |
| Lee et al. | Improved acoustic modeling for continuous speech recognition | |
| WO2014014478A1 (en) | Method and system for real-time keyword spotting for speech analytics | |
| Liu et al. | The Cambridge University 2014 BOLT conversational telephone Mandarin Chinese LVCSR system for speech translation. | |
| Shen et al. | Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition | |
| Huang et al. | A fast algorithm for large vocabulary keyword spotting application | |
| Demeechai et al. | Recognition of syllables in a tone language | |
| McDermott et al. | Minimum classification error for large scale speech recognition tasks using weighted finite state transducers | |
| Fosler-Lussier | A tutorial on pronunciation modeling for large vocabulary speech recognition | |
| D'Orta et al. | Large-vocabulary speech recognition: a system for the Italian language | |
| Sawant et al. | Isolated spoken Marathi words recognition using HMM | |
| Rose et al. | Speech recognition using automatically derived acoustic baseforms | |
| Delić et al. | A Review of AlfaNum Speech Technologies for Serbian, Croatian and Macedonian | |
| Sugamura et al. | Speech processing technologies and telecommunications applications at NTT | |
| Fukada et al. | Speaker normalized acoustic modeling based on 3-D viterbi decoding |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050719 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20051019 |
|
| A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20051024 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060113 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060728 |