JP2683976B2 - 音声認識用確率モデル - Google Patents
音声認識用確率モデルInfo
- Publication number
- JP2683976B2 JP2683976B2 JP4064619A JP6461992A JP2683976B2 JP 2683976 B2 JP2683976 B2 JP 2683976B2 JP 4064619 A JP4064619 A JP 4064619A JP 6461992 A JP6461992 A JP 6461992A JP 2683976 B2 JP2683976 B2 JP 2683976B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- state
- speech recognition
- states
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000007704 transition Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000034 method Methods 0.000 description 1
Description
に関し、特に、隠れマルコフモデル(HMM)を用いた
音声認識において、最小限のモデルパラグラフで最大限
の音声現象をモデル化する効率のよい音声認識用確率モ
デルに関する。
認識を行なうためには、いかにして詳細なモデルの生成
と頑健なモデルの推定を同時に実現するかということが
重要な課題となる。モデルの詳細化のためには、音声空
間全体を覆うような異音クラスを適切に決める必要があ
り、また、限られた学習サンプルから頑健性の高いモデ
ルを推定するためには、学習サンプルの持つ情報を効率
よく取込めるメカニズムを導入する必要がある。
識においては、従来ではサブワード毎にモデルがそれぞ
れ独立して形成されていた。たとえば、モデルの単位に
ついては、知識に基づく決定(音素,半音節,音素コン
テキスト)、あるいは歪み最小化に基づく決定(音素環
境クラスタリングにおける音素環境)などの評価基準で
決められていた。また、モデルの構造は、知識に基づく
決定(全モデルが同一,あるいは数通りの構造で表
現)、あるいは類似度を基準とした状態共有化などによ
って決定されていた。さらに、個々の状態は特定のサブ
ワードモデルに所属し、音声の特徴パターン空間上の1
つの独立した確率的定常信号源という位置付けになって
いないという問題があった。このため、類似した特徴を
持つ状態が局所的特徴が共通する複数のモデルに対し
て、それぞれ単独に形成され、表現効率が悪いという欠
点があった。
率のよいサブワードモデルの表現形態を採用することに
より、最小限のモデルパラグラフで最大限の音声現象を
モデル化できるような音声認識用確率モデルを提供する
ことである。
ルパラメータで最大限の音声現象をモデル化するための
音声認識用確率モデルであって、それぞれ独立した音素
空間上の確率的定常信号源とみなすことのできる複数の
状態、および接続可能な状態間に設定されたパスからな
る状態のネットワーク構造を持ち、状態間に設定された
1つのパスに沿って始端から終端まで状態を連結してで
きるモデルが1つのサブワードモデルを表現し、モデル
は個々の状態を示す状態番号と、先行音素の集合,当該
音素の集合,後続音素の集合の直積として定義されたコ
ンテキストクラスと、状態遷移確率との情報をそれぞれ
保有するように構成される。
態をそれぞれ独立した確率的定常信号源として位置付
け、それらの間のパスの違いにより異なるサブワードモ
デルを表現し、各モデルは個々の状態を示す状態番号
と、先行音素の集合,当該音素の集合,後続音素の集合
の直積として定義されたコンテキストクラスと、状態遷
移確率との情報をそれぞれ保有することにより、高い表
現効率を達成する。
この図1に示した実施例は、30個の状態を用いて表現
した6子音(/b,d,g,m,n,N/)認識のため
のモデルの例を示したものである。図1では、各楕円が
1つの状態を表わしており、この中に記されている情報
は、一番上の行が状態番号を示し、2行目以降が受理可
能なコンテキストを表わしている。その状態で受理可能
なコンテキストクラスは、2行目以降上から順に記され
ている先行音素の集合、当該音素の集合、後続音素の集
合の直積として定義される。なお、音素記号の後に記さ
れている“..”は、さらにいくつかの要素が存在して
いるか、表示の都合上省略されていることを示してい
る。HMMでは、入力データとしてある音素コンテキス
トを持つ音声サンプルが与えられたとき、その音素コン
テキストを含むコンテキストクラスを受理することがで
きる状態を先行および後続状態リストの制約内で連結す
ることによって、入力データに対するモデルを一意に決
定することができる。
いて説明する。ある音素セグメントにおいて、コンテキ
ストの影響により変形された音素パターンは、音素セグ
メントの前方ほど先行音素の影響を強く受け、また後方
ほど後続音素の影響を強く受けていると考えるのが自然
である。このような観点から、図1に示したモデルの構
造を実際に見てみると、始端に直結された状態では、先
行音素に関する変形が考慮されている状態が多く(#3
と#27、#9と#26と#15はそれぞれ当該音素と
先行音素の違いを考慮しており、後続音素の違いは考慮
されていない)、また終端に直結された状態では、後続
音素に関する変形が考慮されている状態が多い(#11
と#17、#1と#23はそれぞれ当該音素と後続音素
の違いを考慮しており、#10と#28のみが例外的に
当該音素と先行音素の違いを考慮している)ことがわか
る。一方、それら以外の音素セグメントの中間部分に対
応している状態では当該音素のみの違いを考慮してい
る。
じている音素変形をモデルの構造にうまく反映させるこ
とができる。
について説明する。図1に示したモデルでは、13通り
の異なるパスが存在し、この数がすなわちこのモデルで
表現可能なモデルの総数となる。また、この13通りの
モデルで使用されている延べ状態数は51(#12−#
20−#4というモデルのみが3状態で、残りはすべて
4状態)である。
と仮定した場合に必要となる延べ状態数M′と実際の状
態数Mとの比率M′/Mをモデル化効率と呼ぶことにす
る。図1に示したモデル化効率は51/30=1.7で
ある。このモデル化効率は、見方を変えれば1つの状態
が平均いくつのモデル間で共有されているかを表わした
指標となっており、この値が大きいほど少ない状態で多
くのモデルを表現していることになる。
次状態分割法により、各状態の音素コンテキストや構造
などをすべて自動的に決定することも可能である。その
際に、2つの状態に対して、状態遷移確率として、自分
自身への状態遷移確率および後続状態への状態遷移確率
の2通りの値を保有し、後続状態への状態遷移確率は後
続状態の種類にかかわらず遷移確率の値をそのまま複写
する。
態をそれぞれ独立した確率的定常信号源として位置付
け、それらの間のパスの違いにより異なるサブワードモ
デルを表現するようにしたので、個々の状態は極小的特
徴は共通する複数のモデル間で共有され、高い表現効率
を達成することができる。
る。
Claims (4)
- 【請求項1】 最小限のモデルパラメータで最大限の音
声現象をモデル化するための音声認識用確率モデルであ
って、 それぞれ独立した音素空間上の確率的定常信号源とみな
すことのできる複数の状態、および接続可能な状態間に
設定されたパスからなる状態のネットワーク構造を持
ち、状態間に設定された1つのパスに沿って始端から終
端まで状態を連結してできるモデルが1つのサブワード
モデルを表現し、 前記モデルは個々の状態を示す状態番号と、先行音素の
集合,当該音素の集合,後続音素の集合の直積として定
義されたコンテキストクラスと、状態遷移確率との情報
をそれぞれ保有していることを特徴とする、音声認識用
確率モデル。 - 【請求項2】 前記モデルは、個々の状態に対して、局
所的な特徴が共通する複数のサブワードモデル間での共
有が許されていることを特徴とする、請求項1の音声認
識用確率モデル。 - 【請求項3】 さらに、ある音素コンテキストを持つ音
声サンプルが与えられたとき、その音素コンテキストを
含むコンテキストクラスを受理することができる状態を
接続することによって、その音声サンプルを表現するモ
デルを一意に決定することができることを特徴とする、
請求項1の音声認識用確率モデル。 - 【請求項4】 前記各状態は、状態遷移確率として、自
分自身への状態遷移確率および後続状態への状態遷移確
率の2通りの値を保有し、後続状態への状態遷移確率は
後続状態の種類にかかわらず一定であることを特徴とす
る、請求項1の音声認識用確率モデル。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4064619A JP2683976B2 (ja) | 1992-03-23 | 1992-03-23 | 音声認識用確率モデル |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4064619A JP2683976B2 (ja) | 1992-03-23 | 1992-03-23 | 音声認識用確率モデル |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH07175494A JPH07175494A (ja) | 1995-07-14 |
| JP2683976B2 true JP2683976B2 (ja) | 1997-12-03 |
Family
ID=13263460
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP4064619A Expired - Fee Related JP2683976B2 (ja) | 1992-03-23 | 1992-03-23 | 音声認識用確率モデル |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2683976B2 (ja) |
-
1992
- 1992-03-23 JP JP4064619A patent/JP2683976B2/ja not_active Expired - Fee Related
Non-Patent Citations (2)
| Title |
|---|
| THE JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN (E),VOL.11,NO.3,P.136 MAY 1990 (平成2年) |
| 日本音響学会講演論文集(平成3年10月)2−5−13,P.73−74 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH07175494A (ja) | 1995-07-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11664021B2 (en) | Contextual biasing for speech recognition | |
| CN100371926C (zh) | 通过响应输入语句而输出应答语句的交互对话装置和方法 | |
| Holter et al. | Maximum likelihood modelling of pronunciation variation | |
| US20070094007A1 (en) | Conversation controller | |
| JPH0772840B2 (ja) | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 | |
| JP2004362584A (ja) | テキストおよび音声の分類のための言語モデルの判別トレーニング | |
| CN110930982A (zh) | 一种多口音声学模型及多口音语音识别方法 | |
| JPH0782348B2 (ja) | 音声認識用サブワードモデル生成方法 | |
| US7133827B1 (en) | Training speech recognition word models from word samples synthesized by Monte Carlo techniques | |
| US20090222266A1 (en) | Apparatus, method, and recording medium for clustering phoneme models | |
| JP2008046538A (ja) | テキスト音声合成を支援するシステム | |
| JP2683976B2 (ja) | 音声認識用確率モデル | |
| JP4738847B2 (ja) | データ検索装置および方法 | |
| Shen et al. | Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition | |
| JP2583074B2 (ja) | 音声合成方法 | |
| US8260614B1 (en) | Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition | |
| JPH09179578A (ja) | 単音節認識装置 | |
| JP2006201265A (ja) | 音声認識装置 | |
| US7818172B2 (en) | Voice recognition method and system based on the contexual modeling of voice units | |
| Serridge | Context-dependent modeling in a segment-based speech recognition system | |
| RU2101782C1 (ru) | Способ распознавания слов в слитной речи и система для его реализации | |
| JP2002082688A (ja) | 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
| JP4882569B2 (ja) | 音声合成装置、方法及びプログラム | |
| JPH04195100A (ja) | 連続音声認識装置 | |
| JPH07113925B2 (ja) | 文字表記結果の対応関係判定システム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19970701 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080815 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080815 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090815 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090815 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100815 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100815 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110815 Year of fee payment: 14 |
|
| LAPS | Cancellation because of no payment of annual fees |