JPH07175494A - 音声認識用確率モデル - Google Patents

音声認識用確率モデル

Info

Publication number
JPH07175494A
JPH07175494A JP4064619A JP6461992A JPH07175494A JP H07175494 A JPH07175494 A JP H07175494A JP 4064619 A JP4064619 A JP 4064619A JP 6461992 A JP6461992 A JP 6461992A JP H07175494 A JPH07175494 A JP H07175494A
Authority
JP
Japan
Prior art keywords
state
model
phoneme
conditions
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4064619A
Other languages
English (en)
Other versions
JP2683976B2 (ja
Inventor
Junichi Takami
淳一 鷹見
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR JIDO HONYAKU DENWA KENKYUSHO KK
Original Assignee
ATR JIDO HONYAKU DENWA KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR JIDO HONYAKU DENWA KENKYUSHO KK filed Critical ATR JIDO HONYAKU DENWA KENKYUSHO KK
Priority to JP4064619A priority Critical patent/JP2683976B2/ja
Publication of JPH07175494A publication Critical patent/JPH07175494A/ja
Application granted granted Critical
Publication of JP2683976B2 publication Critical patent/JP2683976B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 この発明は効率のよいサブワードモデルの表
現形態を採用することにより、最小限のモデルパラメー
タで最大限の音声現象をモデル化し得る音声認識用確率
モデルを提供することを主要な特徴とする。 【構成】 それぞれ独立した音素空間上の確率的定常信
号源と見なすことのできる複数の状態と、接続可能な状
態間に設定されたパスからなる状態のネットワーク構造
を持ち、状態間に設定された1つのパスの始端から終端
まで状態を連結してできるモデルが1つのサブワードモ
デルを表現する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は音声認識用確率モデル
に関し、特に、隠れマルコフモデル(HMM)を用いた
音声認識において、最小限のモデルパラグラフで最大限
の音声現象をモデル化する効率のよい音声認識用確率モ
デルに関する。
【0002】
【従来の技術】HMMを用いての高精度かつ頑健な音声
認識を行なうためには、いかにして詳細なモデルの生成
と頑健なモデルの推定を同時に実現するかということが
重要な課題となる。モデルの詳細化のためには、音声空
間全体を覆うような異音クラスを適切に決める必要があ
り、また、限られた学習サンプルから頑健性の高いモデ
ルを推定するためには、学習サンプルの持つ情報を効率
よく取込めるメカニズムを導入する必要がある。
【0003】
【発明が解決しようとする課題】HMMを用いた音声認
識においては、従来ではサブワード毎にモデルがそれぞ
れ独立して形成されていた。たとえば、モデルの単位に
ついては、知識に基づく決定(音素,半音節,音素コン
テキスト)、あるいは歪み最小化に基づく決定(音素環
境クラスタリングにおける音素環境)などの評価基準で
決められていた。また、モデルの構造は、知識に基づく
決定(全モデルが同一,あるいは数通りの構造で表
現)、あるいは類似度を基準とした状態共有化などによ
って決定されていた。さらに、個々の状態は特定のサブ
ワードモデルに所属し、音声の特徴パターン空間上の1
つの独立した確率的定常信号源という位置付けになって
いないという問題があった。このため、類似した特徴を
持つ状態が局所的特徴が共通する複数のモデルに対し
て、それぞれ単独に形成され、表現効率が悪いという欠
点があった。
【0004】それゆえに、この発明の主たる目的は、効
率のよいサブワードモデルの表現形態を採用することに
より、最小限のモデルパラグラフで最大限の音声現象を
モデル化できるような音声認識用確率モデルを提供する
ことである。
【0005】
【課題を解決するための手段】この発明は音声の特徴パ
ターンの微小単位時間内での形状である音声の静的特徴
およびその時間的な変化である音声の動的特徴を複数の
出力確率密度分布の連鎖としてモデル化した隠れマルコ
フモデルであって、それぞれ独立した音素空間上の確率
的定常信号源と見なすことのできる複数の状態、および
接続可能な状態間に設定されたパスからなる状態のネッ
トワーク構造を持ち、状態間に設定された1つのパスに
沿って始端から終端まで状態を連結してできるモデルが
1つのサブワードモデルを表現するように構成される。
【0006】
【作用】この発明にかかる音声認識用確率モデルは、各
状態を、それぞれ独立した確率的定常信号源として位置
付け、それらの間のパスの違いにより異なるサブワード
モデルを表現することにより、個々の状態を局所的特徴
が共通する複数のモデル間で共有され、高い表現効率を
達成する。
【0007】
【実施例】図1はこの発明の一実施例を示す図である。
この図1に示した実施例は、30個の状態を用いて表現
した6子音(/b,d,g,m,n,N/)認識のため
のモデルの例を示したものである。図1では、各楕円が
1つの状態を表わしており、この中に記されている情報
は、一番上の行が状態番号を示し、2行目以降が受理可
能なコンテキストを表わしている。その状態で受理可能
なコンテキストクラスは、2行目以降上から順に記され
ている先行音素の集合、当該音素の集合、後続音素の集
合の直積として定義される。なお、音素記号の後に記さ
れている“..”は、さらにいくつかの要素が存在して
いるか、表示の都合上省略されていることを示してい
る。
【0008】次に、図1を参照して、モデルの構造につ
いて説明する。ある音素セグメントにおいて、コンテキ
ストの影響により変形された音素パターンは、音素セグ
メントの前方ほど先行音素の影響を強く受け、また後方
ほど後続音素の影響を強く受けていると考えるのが自然
である。このような観点から、図1に示したモデルの構
造を実際に見てみると、始端に直結された状態では、先
行音素に関する変形が考慮されている状態が多く(#3
と#27、#9と#26と#15はそれぞれ当該音素と
先行音素の違いを考慮しており、後続音素の違いは考慮
されていない)、また終端に直結された状態では、後続
音素に関する変形が考慮されている状態が多い(#11
と#17、#1と#23はそれぞれ当該音素と後続音素
の違いを考慮しており、#10と#28のみが例外的に
当該音素と先行音素の違いを考慮している)ことがわか
る。一方、それら以外の音素セグメントの中間部分に対
応している状態では当該音素のみの違いを考慮してい
る。
【0009】上述のごとく、実際の音素サンプル中で生
じている音素変形をモデルの構造にうまく反映させるこ
とができる。
【0010】次に、表現可能なモデル数とモデル化効率
について説明する。図1に示したモデルでは、13通り
の異なるパスが存在し、この数がすなわちこのモデルで
表現可能なモデルの総数となる。また、この13通りの
モデルで使用されている延べ状態数は51(#12−#
20−#4というモデルのみが3状態で、残りはすべて
4状態)である。
【0011】ここで、すべてのモデルを個別に形成した
と仮定した場合に必要となる延べ状態数M′と実際の状
態数Mとの比率M′/Mをモデル化効率と呼ぶことにす
る。図1に示したモデル化効率は51/30=1.7で
ある。このモデル化効率は、見方を変えれば1つの状態
が平均いくつのモデル間で共有されているかを表わした
指標となっており、この値が大きいほど少ない状態で多
くのモデルを表現していることになる。
【0012】なお、図1に示したモデルは、たとえば逐
次状態分割法により、各状態の音素コンテキストクラス
や構造などをすべて自動的に決定することも可能であ
る。
【0013】
【発明の効果】以上のように、この発明によれば、各状
態をそれぞれ独立した確率的定常信号源として位置付
け、それらの間のパスの違いにより異なるサブワードモ
デルを表現するようにしたので、個々の状態は極小的特
徴は共通する複数のモデル間で共有され、高い表現効率
を達成することができる。
【図面の簡単な説明】
【図1】この発明の一実施例のモデルの例を示す図であ
る。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 音声の特徴パターンの微小単位時間内で
    の形状である音声の静的特徴およびその時間的な変化で
    ある音声の動的特徴を複数の出力確率密度分布の連鎖と
    してモデル化した隠れマルコフモデルにおいて、 それぞれ独立した音素空間上の確率的定常信号源と見な
    すことのできる複数の状態、および接続可能な状態間に
    設定されたパスからなる状態のネットワーク構造を持
    ち、状態間に設定された1つのパスに沿って始端から終
    端まで状態を連結してできるモデルが1つのサブワード
    モデルを表現することを特徴とする、音声認識用確率モ
    デル。
  2. 【請求項2】 さらに、個々の状態に対して、局所的な
    特徴が共通する複数のサブワードモデル間での共有が許
    されていることを特徴とする、請求項1の音声認識用確
    率モデル。
  3. 【請求項3】 さらに、個々の状態が状態番号と、受理
    可能なコンテキストクラスと、接続可能な先行状態およ
    び後続状態のリストと、出力確率密度分布のパラグラフ
    と、状態遷移確率との情報をそれぞれ保有していること
    を特徴とする、請求項1の音声認識用確率モデル。
  4. 【請求項4】 前記受理可能なコンテキストクラスは、
    コンテキスト要因である先行音素,当該音素,後続音素
    などの集合の直積として表わされていることを特徴とす
    る、請求項3の音声認識用確率モデル。
  5. 【請求項5】 さらに、ある音素コンテキストを持つ音
    声サンプルが与えられたとき、その音素コンテキストを
    含むコンテキストクラスを受理することができる状態
    を、接続可能な先行状態および後続状態のリストの範囲
    内で接続することによって、その音声サンプルを表現す
    るモデルを一意に決定することができることを特徴とす
    る、請求項3の音声認識用確率モデル。
  6. 【請求項6】 前記出力確率密度分布のパラメータとし
    て、各状態毎に独立して任意の分布形状が与えられてい
    ることを特徴とする、請求項3の音声認識用確率モデ
    ル。
  7. 【請求項7】 前記各状態は、状態遷移確率として、自
    分自身への状態遷移確率および後続状態への状態遷移確
    率の2通りの値を保有し、後続状態への状態遷移確率は
    後続状態の種類にかかわらず一定であることを特徴とす
    る、請求項3の音声認識用確率モデル。
JP4064619A 1992-03-23 1992-03-23 音声認識用確率モデル Expired - Fee Related JP2683976B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4064619A JP2683976B2 (ja) 1992-03-23 1992-03-23 音声認識用確率モデル

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4064619A JP2683976B2 (ja) 1992-03-23 1992-03-23 音声認識用確率モデル

Publications (2)

Publication Number Publication Date
JPH07175494A true JPH07175494A (ja) 1995-07-14
JP2683976B2 JP2683976B2 (ja) 1997-12-03

Family

ID=13263460

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4064619A Expired - Fee Related JP2683976B2 (ja) 1992-03-23 1992-03-23 音声認識用確率モデル

Country Status (1)

Country Link
JP (1) JP2683976B2 (ja)

Also Published As

Publication number Publication date
JP2683976B2 (ja) 1997-12-03

Similar Documents

Publication Publication Date Title
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
US7590540B2 (en) Method and system for statistic-based distance definition in text-to-speech conversion
US6212500B1 (en) Process for the multilingual use of a hidden markov sound model in a speech recognition system
US5677988A (en) Method of generating a subword model for speech recognition
Möbius Rare events and closed domains: Two delicate concepts in speech synthesis
KR20190002812A (ko) 음성 인식 방법 및 그 장치
Watts Unsupervised learning for text-to-speech synthesis
CN108711421A (zh) 一种语音识别声学模型建立方法及装置和电子设备
JPH05289692A (ja) ワードを予測する会話認識装置用言語生成装置及び方法
US11270691B2 (en) Voice interaction system, its processing method, and program therefor
JP4885160B2 (ja) 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
KR20190032868A (ko) 음성인식 방법 및 그 장치
EP1398758A2 (en) Method and apparatus for generating decision tree questions for speech processing
CN104167206A (zh) 声学模型合并方法和设备以及语音识别方法和系统
Pollet et al. Unit Selection with Hierarchical Cascaded Long Short Term Memory Bidirectional Recurrent Neural Nets.
JPH07175494A (ja) 音声認識用確率モデル
JP3950957B2 (ja) 言語処理装置および方法
Lee et al. Special speech recognition approaches for the highly confusing Mandarin syllables based on hidden Markov models
Phillips Speaker independent classification of vowels and diphthongs in continuous speech
RU2101782C1 (ru) Способ распознавания слов в слитной речи и система для его реализации
Serridge Context-dependent modeling in a segment-based speech recognition system
Silén et al. Analysis of duration prediction accuracy in HMM-based speech synthesis
JP4882569B2 (ja) 音声合成装置、方法及びプログラム
KR100275446B1 (ko) 음소 인식률을 이용한 기본 음소 설정 방법

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19970701

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080815

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080815

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090815

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090815

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100815

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100815

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110815

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees