JPH08227298A - クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識 - Google Patents

クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識

Info

Publication number
JPH08227298A
JPH08227298A JP7224017A JP22401795A JPH08227298A JP H08227298 A JPH08227298 A JP H08227298A JP 7224017 A JP7224017 A JP 7224017A JP 22401795 A JP22401795 A JP 22401795A JP H08227298 A JPH08227298 A JP H08227298A
Authority
JP
Japan
Prior art keywords
model
clustered
word
contexts
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7224017A
Other languages
English (en)
Inventor
Kazuhiro Kondo
和弘 近藤
Ikuo Kudo
育男 工藤
Hang Kao Yu
− ハング カオ ユ
Barbara J Wheatley
ジェイ.ウィートリー バーバラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JPH08227298A publication Critical patent/JPH08227298A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 クラスタ化された単語間及び/又は句間の調
音結合を使用して、高い認識精度を有する音声認識装置
及び方法を提供する。 【解決手段】 音声認識モデルは、単語間または句間の
調音結合が、僅かなクラスにのみクラスタ化されてなる
単語間及び/又は句間調音結合を備えている。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は音声認識に関し、特
に、単語間及び/又は句間の調音結合(coartic
ulation)を使用した音声モデル化に関する。
【0002】
【従来技術の説明】連続した音声における単語間調音結
合をモデル化することは、認識の正確性を徹底的に改善
することは、英語に対してこれまで示されてきた。例と
して、以下の文献を参照されたい。 (1) エム・ワイ・フワング(M.Y.Hwan
g)、エッチ・ダブリュー・ホン(H.W.Hon)、
及びケー・エフ・リー(K.F.Lee):「連続した
音声認識における単語間調音結合のモデル化(Mode
ling Between−Word Coartic
ulation in Continuous Spe
ech Recognition)」、プロシーデング
・ヨーロッパ−スピーチ '89 (Proc.Euro
−speech '89)、仏国、パリ、1989、9
月。 (2) デー・ビー・パウル(D.B.Paul):
「リンカーン製の連続した音声認識システム:最近の開
発及び結果(The Lincoln Continu
ous Speech Recognition Sy
stem: Recent Development
and Results)」、プロシーディング・ダー
パ・スピーチ・アンド・ナショナルランゲージ・プロセ
シング・ワークショップ(Proc. DARPA S
peech and National Langua
ge Process. Workshop)、ペンシ
ルバニア州フィラデルフィア(Philadelphi
a PA)、1989年、2月。 (3) アール・カーディン(R.Cardin)、ワ
イ・ノルマンディン(Y.Normandin)、及び
イー・ミリーン(E.Millieu):「改良式接続
ディジット認識に対する単語間調音結合のモデル化及び
エムエムアイイー訓練(Inter−Word Coa
rticulation Modeling and
MMIE Training for Improve
d Connected Digit Recogni
tion)」、プロシーディング・アイトリプルイー・
インターナショナル・コンファレンス・アクースティッ
ク・スピーチ(Proc.IEEE Internat
ional Conf.Acoust.Speec
h)、シグナル・プロセッシング(Signal Pr
ocess.)、ミネソタ州ミネアポリス(Minne
apolis MN)、1993年、4月。 (4) テー・ワタナベ(T.Watanabe)、ア
ール・イソタニ(R.Isotani)、及びエス・ツ
カダ(S.Tsukada):「デミ−シラブル装置を
使用した陰マルコフモデルに基づくスピーカー独立性音
声認識(Speaker−Independent S
peech RecognitionBased on
Hidden Markov Model Usin
g Demi−Syllable Units)」、ア
イイーアイシーイー・トランザクション D−II編(I
EICE Trans.Part D−II)、J75−
D−II巻、第8号、第1281頁ないし第1289頁、
1992年4月。しかしながら、これらの調音結合を説
明すべく、付加的音声変動モデルを導入することによっ
て、モデルの所要数は、相当増大する。このことは、こ
れらのモデルを蓄積するのにより多くのメモリが必要と
され、かつ、入力音声と付加的文脈とを整合するのに、
より多くの計算が必要とされることを意味する。付加さ
れた計算を低減する有効なパラメータが、既に提案され
てきている。例えば、以下の文献を参照されたい。 (5) ダブリュー・チョー(W.Chou)、ティー
・マツオカ(T.Matsuoka)、ビー・エッチ・
ジュアング(B.H.Juang)、及びシー・エッチ
・リー(C.H.Lee):「単語間モデルを使用した
連続した音声認識に対する高分解能及び有効な多数のス
トリング仮説のアルゴリズム(An Algorith
m of High Resolution and
Efficient Multiple String
Hypothesization for Cont
inuous Speech Recognition
Using Inter−Word Model
s)」、プロシーディング・アイトリプルイー・インタ
ーナショナル・コンファレンス・アクーステック・スピ
ーチ(Proc.IEEE Internationa
l Conf. Acoust.Speech)、シグ
ナル・プロセッシング(Signal Proces
s.)、オーストラリア国アデレード、1994年4
月。 (6) ケー・イトー(K.Itou)、エス・ハヤミ
ズ(S.Hayamizu)、及びエッチ・タナカ
(H.Tanaka):「文脈独立性音声HMM及びN
−最良文仮説を見い出すための有効なアルゴリズムによ
る連続した音声認識(Continuous Spee
ch Recognition by Context
−Dependent Phonetic HMM a
nd anEfficient Algorithm
for Finding N−Best Senten
ce Hypothesis)」、プロシーディング・
アイトリプルイー・インターナショナル・コンファレン
ス・アクーステック・スピーチ(Proc.IEEE
International Conf. Acous
t.Speech)、シグナル・プロセッシング(Si
gnal Process.)、カルフォルニア州サン
フランシスコ(San Francisco,CA)、
1992年3月。
【0003】
【発明の概要】本発明の一実施例によれば、音声認識モ
デルは、単語間又は句間の調音結合が、僅かなクラスに
のみクラスタ化されてなる単語間及び/又は句間調音結
合を備えている。
【0004】
【実施例】出願人は、単語間または句間(単語/句間)
文脈をモデル化する文脈独立性音声モデルのネットワー
クをコンパイルすることによって、これらの単語間文脈
を考慮しないモデルと比較して、認識エラーにおいて3
0%を超える猛烈な低減を達成できることを見い出し
た。しかしながら、これは、用語をモデル化するのに必
要な音声モデル数を相当増大させる。この増大を克服す
るため、出願人は、ここで、単語/句間文脈を僅かなク
ラスにのみクラスタ化することを教示する。子音の単語
間文脈に対して1つのクラスを用い、かつ、母音文脈に
対して2つのクラスを用いて、日本語におけるディジッ
ト・ストリング認識の認識の正確さは、非クラスタ化モ
デルにおける正確さと実質的に等しいことが判かり、一
方、要求される音声モデル数は、50%以上低減され
た。
【0005】この作業に使用される単語または句モデル
は、3音モデルを、単語内音声文脈及び単語/句間文脈
の双方をモデル化するネットワークに連結することによ
って構成された。文献1に説明されている方法とは異な
り、出願人は、その位置によって3音を区別しない、換
言すれば、単語の始め、中間、または終了にある3音を
区別しなかった。しかしながら、後ほど、出願人が、単
語/句間音をクラスタ化するのを開始するとき、出願人
は、単語の中間において3音からこれらの音を区別する
こととなる。
【0006】図1は、日本語のディジット・ストリング
(digit−string)「いち(1)、さん
(3)、ご(5)」に対する訓練用文法を示している。
各単語は、各単語に入って出て行く2つの経路を有して
いる。一方の経路は、無音(sil)を通過し、他方の
経路は、隣りの単語と直接接続している。
【0007】図2は、空白文法(ディジット・ループ文
法)を使用して、日本語のディジット認識タスクに対す
る認識文法を図示している。各単語モデルは、全ての妥
当な3音モデルを、従来の単語間3音の他に、全ての可
能な左右の単語/句間文脈と並行して連結することによ
って、構成される。適切な単語間文脈の選択は、完全に
管理されない。文脈は、サーチ経路における隣りの単語
に従って制限することができ、これによって、付加され
た複雑さを犠牲にして、サーチ空間が低減される。しか
しながら、この文脈モデル化経路を管理されないままに
しておくことは、性能に重要な影響を与えないことが経
験的に見い出され、こうして、サーチを制限されないま
まにしておくことが決定された。
【0008】単語間文脈依存性を導入することによっ
て、先の作業で指摘されたように、所要モデル数は相当
増大する。ディジット認識タスクに対して、3音モデル
数は、単語間文脈独立ケースに対する96から、文脈依
存ケースに対する461に増大した。
【0009】モデルの所要数における増大を最少に制限
するため、出願人はここで、単語間文脈を非常に僅かな
クラスにクラスタ化することを教示すると共に、このこ
とは、認識の正確さに重要な影響を及ぼさないことを見
い出した。
【0010】これらの実験に使用された資料は、音声ダ
イヤル呼出しタスクに対する専有の資料であった。この
ことは、ケー・コンド(K.Kondo)、ジェー・ピ
コーン(J.Picone)、及びビー・ホエートレイ
(B.Wheatley)による「日本語及び英語のデ
ィジット認識の比較分析(A Comparative
Analysis of Japanese and
English Digit Recognitio
n)」、プロシーディング・アイトリプルイー・インタ
ーナショナル・コンファレンス・アクースティック・ス
ピーチ(Proc.IEEE Internation
al Conf.Acoust.Speach)、シグ
ナル・プロセッシング(Signal Proces
s.)、オーストラリア国アデレード、1994年4月
に論じられている。収集された音声は、連続したディジ
ット・ストリングは勿論のこと、命令句(例えば「コー
ル・ホーム(call home)」から構成される。
後者のみが、ここで説明するテストに対して使用され
た。テーブル固定式の線型マイクロフォンが使用される
と共に、中レベルまで低いノイズが、バックグラウンド
に含まれた。221個のスピーカー、並びに112人の
男性及び109人の女性がいた。各スピーカーは、半分
がディジット・ストリングである100個の文章を話し
た。各性別毎に略80%のデータが、訓練に使用され、
残りは、テストに使用された。テストセット及び訓練セ
ット間のスピーカーの重畳はない。全体で、総数5,4
47個の男性の言葉と、5,380個の女性の言葉が、
訓練に対して使用され、かつ、2,068個の男女の言
葉が、テストに対して使用された。
【0011】ここで使用する認識システムは、LPCベ
ースのHMM(陰マルコフモデル(Hidden Ma
rcov Model))認識装置である。例として、
以下の文献を参照されたい:ジー・アール・ドッデング
トン(G.R.Doddington)、「改良式音声
認識用の音声感知識別(PhoneticallySe
nsitive Discriminants for
ImprovedSpeech Recogniti
on)」、プロシーディング・アイシーエーエスエスピ
ー(Proc.ICASSP)、1989年5月。音声
は8kHzでサンプリングされ、LPC分析が応用さ
れ、かつ、LPC(線型予測コーディング(Linea
r Predictive Coding))パラメー
タが、特徴ベクトルに変換される。特徴ベクトルは、1
4個のメル−スペースドフィルタ(mel−space
d filter)から成るフィルターバンクから出力
されるスペクトルエネルギー・ベクトル、これらのスペ
クトルエネルギーの短時間の差異、音声レベル、及び成
る音声インジケータから構成される。要素の総数は34
である。特徴ベクトルの分散統計量を正規化すべく設計
された線型変換が応用され、かつ、最下位の18個の特
徴がドロップされ、この結果、16のベクトル次元とな
る。より詳細な説明は、ドッデングトン他(Doddi
ngton,at al)の「スピーカー独立性音声認
識の方法及びシステム(Speaker Indepe
ndent Speech Recognition
Method and System)」と題する米国
特許第4,908,865号に見い出される。この特許
は、参照によって、ここに含まれる。単峰性ガウス連続
分布モデルが、HMMモデルにおけるビタービ−スタイ
ル最大公算経路スコアリング(Viterbi−sty
le maximum likelihoodpath
scoring)と一緒に使用される。より詳細な説
明は、ドッデングトン他(Doddington,et
al)の「陰マルコフモデル音声認識に対する有効な
プルーニングアルゴリズム(Efficient Pr
uning Algorithm for Hidde
n Markov ModelSpeach Reco
gnition)」と題する米国特許第4,979,5
98号に見い出される。この特許は、参照によってここ
に含まれる。
【0012】これらのモデルを自己ループを有する無限
モデルと比較した状態で、我々はより良好な性能を一貫
して観察してきたので、これらのモデルは、有限持続期
間(自己ループの無い)モデルであった。各モデルの状
態数は、音声の平均持続期間によって決まる。持続期間
は、単音の初期セットを有するビタビ整合統計量(vi
terbi aligned statistics)
から計算される。
【0013】図3は、クラスタ化を有しない単語間文脈
依存性モデル(ケースII)から、1つにクラスタ化され
た無音文脈を排除した全ての音声文脈を有する文脈依存
性モデル(ケースVI)まで、テストされた種々の文脈ク
ラスタ化の計画である。単語間文脈独立性モデルに対す
るテスト結果(ケースI)は、比較のために含まれた右
側文脈位置は、単語または句の後の明瞭度を指し、左側
文脈位置は、単語または句の前の明瞭度を指す。
【0014】ケースIII に対して、右側部分、即ち単語
または句の後の5つのクラスがある。各クラスタは、音
声シンボルによって表わされた音声に対する一般特徴ベ
クトルである。ケースIII に対して、無音、/i/に対
する音声を有する母音クラスタ、音声シンボル及び/s
/、/n/、/z/、/r/に対する音声用の両唇音
(明瞭度点が唇にある)クラスタ、音声/g/、/y
/、/k/に対する口蓋音軟口蓋子音(明瞭度が口蓋音
または軟口蓋子音である)クラスタがある。左側、即ち
単語/句前に対するケースIII に対して、別々に処理さ
れた全ての6つの文脈または非クラスタ化がある。
【0015】ケースIVに対して、右側、即ち単語/句後
に対する3つのクラスタ特徴ベクトルがある。これら
は、無音、音声/i/を有する母音クラスタ、及び/h
/、/m/、/s/、/n/、/z/、/r/、/g
/、/y/、/k/に対する子音用の共通ベクトルであ
る。他の単語/句の左側に対するケースIVに対して、全
ての6つの文脈は、別々に処理される。
【0016】好ましいケースVに対して、無音、音声/
i/を有する母音クラスタ、及び/h/、/m/、/s
/、/n/、/z/、/r/、/g/、/y/及び/k
/に対する共通特徴ベクトルを有する子音クラスタであ
る、単語/句の右側に対する3つのクラスタがある。左
側、即ち単語/句前に対して、無音、音声/i/及び/
u/を有する高い母音クラスタ、音声/a/及び/o/
を有する軽く低い母音クラスタ、及び音声/N/を有す
る単音クラスタがある。
【0017】ケースVIに対して、無音及び全ての音声で
ある、単語/句の右側に対する2つのクラスタと、無音
及び全ての音声である、左側に対する2つのクラスタと
がある。
【0018】図4は、各ケースの結果を示している。
【0019】ケースI及びIIに対する性能から、単語間
文脈依存性の導入によって、単語誤り率は、2.5%か
ら1.7%に減少し、誤り率における32%の相対的減
少となる。このことは、用語をモデル化するのに必要な
モデル数において、5倍のコスト増になる。他のケース
は勿論のこと、これらのケースにおいて、誤り率の殆ん
どの差異は、置換エラーにおいて見ることができ、挿入
または削除エラーではないことを指摘することもまた興
味深い。
【0020】ケースIII ないしVは、異なるクラスタ化
概要を比較している。ケースIII に対する結果は、子音
文脈を幾つかのクラスにクラスタ化することは、単語エ
ラーに何ら影響を与えないことを示し、一方、ケースIV
は、全子音文脈に関するクラスタ化は、エラーにおいて
僅かな増大しか有さないことを示している。ケースVに
対する母音文脈の2つのクラスへの付加的クラスタ化
は、単語エラーに増大を示すことはなく、文章誤り率に
僅かな増大がある。非クラスタ化のケースIIと比較され
るケースVに対するモデルの所要数における低減は、2
倍を上回り、一方、単語誤り率の増加は、0.1%以内
に維持された。最後に、ケースVIは、他の音声文脈から
無音を丁度分離することによって、単語エラーは、依然
として、ケースIの単語間文脈独立性モデルと比較し
て、相当低減することができることを示している。
【0021】得られた結果は、単語間文脈依存性モデル
についてであった。これらのモデルは、単語間及び単語
内文脈の双方を管理する文法を用いて調整された。認識
文法は、全ての単語間文脈依存性3音に対する経路を並
行して許容すると共に、サーチ経路に対して何らの制限
を加えるものではない。この単純な文法においてさえ
も、単語間文脈をモデル化しないモデルと比較して、3
0%以上、誤り率を低減することが可能であった。我々
はまた、単語間文脈に対するクラスタ化計画を提案し
た。全子音を1つのクラスにクラスタ化すると共に、母
音を2つのクラスにクラスタ化することによって、誤り
率の増加を0.1%以内に保ちながら、所要のモデル総
数を半分にすることができる。
【0022】図5を参照すると、本発明の一実施例によ
る音声認識システムが図示されている。入力音声は、例
えば、マイクロフォン11でピックアップされて、A/
D変換器13に送られる。先に論じたように、音声は、
8kHzでサンプリングされる。デジタル化された音声
入力は、デジタル信号プロセッサ(DSP:digit
al signal processor)、または汎
用コンピュータ15上で実行される認識装置プログラム
を使用して、処理される。前述したように、認識装置
は、LPCベースのHMM認識装置である。プログラム
・メモリは、入力音声と、データベース、即ちデータ構
成体17との最良の整合を見い出して、認識結果をもた
らすようになっている。ここでの教示によれば、データ
ベース、即ちデータ構成体17は、クラスタ化されたモ
デル、及びクラスタ化された単語/句間文脈を有する文
法を備えている。クラスタ化されたモデルは、図5に図
示するように、例えば、図3のクラスタ化計画に従っ
て、単語/句間文脈をクラスタ化することによって形成
される。クラスVの好ましい実施例において、単語間ま
たは句間文脈のこのクラスタ化は、例えば、母音、子
音、高い母音、低い母音、鼻音、無音等の言語知識ベー
スに基づいている。クラスタ化された単語/句間文脈を
有する文法は、例えば図1に示すような、単語/句間文
脈拡張(図15の16)によって拡張された、例えば3
つのディジット文法等の音声認識文法に由来している。
モデルのクラスタ化に対する同一のクラスタ化ルール
は、母音、子音、高い母音、低い母音等を使用して、例
えばクラスVのクラスタ化等の文法に適応される。モデ
ル及び文法に対するクラスタ化は、データ構成体17に
有効な蓄積空間に応じた、図3に図示した他のクラスに
従って行うことができる。
【0023】ここで行われたテストは、日本語に対して
であるが、同様の方法が、他の言語にも応用されること
を確信している。しかしながら、その効率と共に、クラ
スタ化計画は、異なることとなる。英語に対する例が、
図6に示されている。図6は、訓練用の「1、3、5」
の例示的ディジット・ストリングに対する文章モデルを
図示している。
【0024】この応用は、日本語ディジットに対する句
間文脈用の最適クラスタ化を、特に説明している。しか
しながら、他の言語及び他の用語に対する最適クラスタ
化は、同一の方法論に追従して、実験的に引き出すこと
ができる。この発明のキーアイデアは、調音結合効果を
捕えるべく、句間文脈をモデル化することと、次いで、
認識性能を犠牲にすること無く、モデル数を相当低減す
べく、文脈をクラスタ化することである。他の言語及び
用語に対する応用は、明白である。
【0025】ここに示した結果は、音声モデルを使用し
た。しかしながら、同一の単語間文脈及びそのクラスタ
化計画は、例えば、単語モデル等の他のモデル化ユニッ
トに適用する必要がある。
【0026】以上の説明に関して更に以下の項を開示す
る。 (1) 音声を認識するデータ構造音声構造において、
所定のクラスにクラスタ化される音声単語間/句間モデ
ルを備えたモデルと、前記所定のクラスに従ってクラス
タ化された単語間/句間の文脈を有する音声認識文法
と、を具備したことを特徴とする前記データ構造。
【0027】(2) 第1項記載のデータ構造におい
て、前記所定のクラスのうちの1つのクラスが、無音文
脈に対するものであることを特徴とする前記データ構
造。
【0028】(3) 第2項記載のデータ構造におい
て、前記所定のクラスのうちの第2のクラスが、無音文
脈以外のものであることを特徴とする前記データ構造。
【0029】(4) 第2項記載のデータ構造におい
て、前記所定のクラスのうちの第2のクラスが、子音に
対するものであり、前記所定のクラスのうちの第3のク
ラスが、母音に対するものであることを特徴とする前記
データ構造。
【0030】(5) 第1項記載のデータ構造におい
て、単語/句の右側に対する単語/句間文脈依存性モデ
ルが、無音クラス、(i)に対する母音クラス及び子音
クラスを含み、かつ、単語/句の左側に対する単語間文
脈依存性モデルが、無音クラス、高い母音クラス、中間
の低い母音クラス、及び鼻音クラスを含むことを特徴と
する前記データ構造。
【0031】(6) 所定のクラスにクラスタ化された
単語間/句間文脈を有するモデルを備えた音声モデルを
記憶すると共に、前記所定のクラスに従ってクラスタ化
された単語間/句間文脈を有する音声認識文法を記憶す
る手段と、最良の整合出力をもたらすべく、前記モデル
及び前記文法と前記入力音声を比較する手段と、を具備
したことを特徴とする音声認識装置。
【0032】(7) 第6項記載の認識装置において、
前記所定のクラスの1つが、無音であることを特徴とす
る前記認識装置。
【0033】(8) 第7項記載の認識装置において、
前記所定のクラスの2番目が、無音以外であることを特
徴とする前記認識装置。
【0034】(9) 第7項記載の認識装置において、
前記所定のクラスの2番目が、子音のためであることを
特徴とする前記認識装置。
【0035】(10) 第9項記載の認識装置におい
て、前記クラスの3番目が、母音のためであることを特
徴とする前記認識装置。
【0036】(11) 第7項記載の認識装置におい
て、単語/句の左側に対する単語/句間文脈依存性モデ
ルが、無音クラス、母音クラス、及び子音クラスを含
み、単語/句の左側に対する単語/句間文脈依存性モデ
ルが、無音クラス、高い母音クラス、軽く低い母音クラ
ス、及び鼻音クラスを含んでなることを特徴とする前記
認識装置。
【0037】(12) 音声単語/句間モデルを備えた
モデルをもたらす段階と、クラスタ化されたモデルを形
成すべく、言語知識クラスに従って前記単語/句間モデ
ルをクラスタ化する段階と、音声認識応用文法をもたら
す段階と、前記音声認識応用文法に関する単語/句間文
脈の拡張段階と、クラスタ化された単語/句間文脈を有
する文法を形成すべく、前記クラスに従って、前記音声
認識応用文法に関する前記拡張された単語/句間文脈を
クラスタ化する段階と、最良の整合を同定すべく、前記
クラスタ化されたモデル及び前記音声認識文法の前記ク
ラスタ化された単語/句間文脈に対して、入力音声を比
較する段階と、を具備したことを特徴とする音声を認識
する方法。
【0038】(13) 改良された音声認識は、単語間
及び/又は句間調音結合の使用によって、本発明に従っ
て達成される。この付加的用語をモデル化するのに必要
な音声モデル数の増加は、単語/句間モデル及び文法1
9,20を、僅かなクラスにのみクラスタ化することに
よって低減される。子音単語間文脈に対する1つのクラ
スと、母音文脈に対する2つのクラスを使用することに
よって、モデル数を半分以上に低減する一方、日本語に
対する正確さは、非クラスタ化モデルに対しても同様で
ある。
【図面の簡単な説明】
【図1】訓練用の例示的ディジット・ストリング「イ
チ、サン、ゴ」に対する文章モデルの略図である。
【図2】日本語ディジット・ストリング認識に対するサ
ンプル文章モデルの略図である。
【図3】テストされたクラスタ化計画の略図である。
【図4】テスト結果の略図である。
【図5】本発明の一実施例による音声認識システムの略
図である。
【図6】訓練用の例示的ディジット・ストリング「13
5」に対する文章モデルの略図である。
【符号の説明】
11 マイクロフォン 13 A/D変換器 15 音声認識装置 17 データベース 19 中間単語/句モデル 20 中間単語/句文法
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ユ − ハング カオ アメリカ合衆国 テキサス州リチャードソ ン,ハニーサックル ドライブ 2558 (72)発明者 バーバラ ジェイ.ウィートリー アメリカ合衆国テキサス州プラノ,プレザ ント バレー ドライブ 2009

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 音声を認識するデータ構造音声構造にお
    いて、 所定のクラスにクラスタ化される音声単語間/句間モデ
    ルを備えたモデルと、 前記所定のクラスに従ってクラスタ化された単語間/句
    間の文脈を有する音声認識文法と、を具備したことを特
    徴とする前記データ構造。
  2. 【請求項2】 音声単語間/句間モデルを備えたモデル
    をもたらす段階と、 クラスタ化されたモデルを形成すべく、言語知識クラス
    に従って前記単語間/句間モデルをクラスタ化する段階
    と、 音声認識応用文法をもたらす段階と、 前記音声認識応用文法に関する単語間/句間文脈の拡張
    段階と、 クラスタ化された単語間/句間文脈を有する文法を形成
    すべく、前記クラスに従って、前記音声認識応用文法に
    関する前記拡張された単語間/句間文脈をクラスタ化す
    る段階と、 最良の整合を同定すべく、前記クラスタ化されたモデル
    及び前記音声認識文法の前記クラスタ化された単語間/
    句間文脈に対して、入力音声を比較する段階と、を具備
    したことを特徴とする音声を認識する方法。
JP7224017A 1994-08-31 1995-08-31 クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識 Pending JPH08227298A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US298689 1994-08-31
US08/298,689 US5819221A (en) 1994-08-31 1994-08-31 Speech recognition using clustered between word and/or phrase coarticulation

Publications (1)

Publication Number Publication Date
JPH08227298A true JPH08227298A (ja) 1996-09-03

Family

ID=23151611

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7224017A Pending JPH08227298A (ja) 1994-08-31 1995-08-31 クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識

Country Status (2)

Country Link
US (1) US5819221A (ja)
JP (1) JPH08227298A (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6178396B1 (en) * 1996-08-02 2001-01-23 Fujitsu Limited Word/phrase classification processing method and apparatus
US6405159B2 (en) 1998-06-03 2002-06-11 Sbc Technology Resources, Inc. Method for categorizing, describing and modeling types of system users
US7072826B1 (en) * 1998-06-04 2006-07-04 Matsushita Electric Industrial Co., Ltd. Language conversion rule preparing device, language conversion device and program recording medium
US6260014B1 (en) * 1998-09-14 2001-07-10 International Business Machines Corporation Specific task composite acoustic models
AU6501999A (en) * 1998-09-29 2000-04-17 Scansoft, Inc. Inter-word triphone models
US6574596B2 (en) * 1999-02-08 2003-06-03 Qualcomm Incorporated Voice recognition rejection scheme
US7086007B1 (en) 1999-05-27 2006-08-01 Sbc Technology Resources, Inc. Method for integrating user models to interface design
US6778643B1 (en) 2000-03-21 2004-08-17 Sbc Technology Resources, Inc. Interface and method of designing an interface
US20040006473A1 (en) 2002-07-02 2004-01-08 Sbc Technology Resources, Inc. Method and system for automated categorization of statements
US7464033B2 (en) * 2000-07-31 2008-12-09 Texas Instruments Incorporated Decoding multiple HMM sets using a single sentence grammar
US7269558B2 (en) * 2000-07-31 2007-09-11 Texas Instruments Incorporated Decoding multiple HMM sets using a single sentence grammar
US20020087313A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented intelligent speech model partitioning method and system
US7065201B2 (en) 2001-07-31 2006-06-20 Sbc Technology Resources, Inc. Telephone call processing in an interactive voice response call management system
US7305070B2 (en) 2002-01-30 2007-12-04 At&T Labs, Inc. Sequential presentation of long instructions in an interactive voice response system
US6914975B2 (en) 2002-02-21 2005-07-05 Sbc Properties, L.P. Interactive dialog-based training method
US7027586B2 (en) 2003-12-18 2006-04-11 Sbc Knowledge Ventures, L.P. Intelligently routing customer communications
US9245526B2 (en) * 2006-04-25 2016-01-26 General Motors Llc Dynamic clustering of nametags in an automated speech recognition system
JP4528839B2 (ja) * 2008-02-29 2010-08-25 株式会社東芝 音素モデルクラスタリング装置、方法及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4908865A (en) * 1984-12-27 1990-03-13 Texas Instruments Incorporated Speaker independent speech recognition method and system
GB8719487D0 (en) * 1987-08-18 1987-09-23 Met Line Inc Snow thrower
US5438511A (en) * 1988-10-19 1995-08-01 Xerox Corporation Disjunctive unification
US4984178A (en) * 1989-02-21 1991-01-08 Texas Instruments Incorporated Chart parser for stochastic unification grammar
US4977598A (en) * 1989-04-13 1990-12-11 Texas Instruments Incorporated Efficient pruning algorithm for hidden markov model speech recognition
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
US5511213A (en) * 1992-05-08 1996-04-23 Correa; Nelson Associative memory processor architecture for the efficient execution of parsing algorithms for natural language processing and pattern recognition
US5390279A (en) * 1992-12-31 1995-02-14 Apple Computer, Inc. Partitioning speech rules by context for speech recognition
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition

Also Published As

Publication number Publication date
US5819221A (en) 1998-10-06

Similar Documents

Publication Publication Date Title
US7299178B2 (en) Continuous speech recognition method and system using inter-word phonetic information
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
Ostendorf et al. Integration of diverse recognition methodologies through reevaluation of N-best sentence hypotheses
US5983177A (en) Method and apparatus for obtaining transcriptions from multiple training utterances
Lee et al. Improved acoustic modeling for large vocabulary continuous speech recognition
US20140025379A1 (en) Method and System for Real-Time Keyword Spotting for Speech Analytics
US20030055640A1 (en) System and method for parameter estimation for pattern recognition
JPH08227298A (ja) クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
Lakshmi Sarada et al. Automatic transcription of continuous speech into syllable-like units for Indian languages
US5764851A (en) Fast speech recognition method for mandarin words
Lee et al. Improved acoustic modeling for continuous speech recognition
WO2014014478A1 (en) Method and system for real-time keyword spotting for speech analytics
Liu et al. The Cambridge University 2014 BOLT conversational telephone Mandarin Chinese LVCSR system for speech translation.
Shen et al. Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition
Huang et al. A fast algorithm for large vocabulary keyword spotting application
Demeechai et al. Recognition of syllables in a tone language
McDermott et al. Minimum classification error for large scale speech recognition tasks using weighted finite state transducers
Fosler-Lussier A tutorial on pronunciation modeling for large vocabulary speech recognition
D'Orta et al. Large-vocabulary speech recognition: a system for the Italian language
Sawant et al. Isolated spoken Marathi words recognition using HMM
Rose et al. Speech recognition using automatically derived acoustic baseforms
Delić et al. A Review of AlfaNum Speech Technologies for Serbian, Croatian and Macedonian
Sugamura et al. Speech processing technologies and telecommunications applications at NTT
Fukada et al. Speaker normalized acoustic modeling based on 3-D viterbi decoding

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050719

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20051019

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20051024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060113

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060728