JPH0713587A - 隠れマルコフモデル連結学習方法 - Google Patents
隠れマルコフモデル連結学習方法Info
- Publication number
- JPH0713587A JPH0713587A JP5155359A JP15535993A JPH0713587A JP H0713587 A JPH0713587 A JP H0713587A JP 5155359 A JP5155359 A JP 5155359A JP 15535993 A JP15535993 A JP 15535993A JP H0713587 A JPH0713587 A JP H0713587A
- Authority
- JP
- Japan
- Prior art keywords
- hidden markov
- markov model
- parameter
- boundary
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 隠れマルコフモデル(HMM)のパラメータ
再推定精度を向上させる。 【構成】 音声信号の音響分析パラメータを求め、その
パラメータ系列をそのパラメータを用いてセグメンテー
ションして第1境界を求め、前記音声信号の発声内容を
音素系列にほん訳し、その各HMMを連結させ、その連
結HMMを用いてビタビデコーデイングアルゴリズムで
セグメンテーションして第2境界を求め、これを第1,
第2境界がある誤差範囲内で一致する音韻環境を予めな
るべく多く求めておく。学習音声信号の音響分析パラメ
ータをセグメンテーションして、前記一致する音韻環境
を探し、その探した音韻環境部分についてはその音響分
析パラメータによるセグメンテーションによる境界を用
いて、連結したHMMの各HMMに対するパラメータ再
推定に用いる学習音声データを制限する。
再推定精度を向上させる。 【構成】 音声信号の音響分析パラメータを求め、その
パラメータ系列をそのパラメータを用いてセグメンテー
ションして第1境界を求め、前記音声信号の発声内容を
音素系列にほん訳し、その各HMMを連結させ、その連
結HMMを用いてビタビデコーデイングアルゴリズムで
セグメンテーションして第2境界を求め、これを第1,
第2境界がある誤差範囲内で一致する音韻環境を予めな
るべく多く求めておく。学習音声信号の音響分析パラメ
ータをセグメンテーションして、前記一致する音韻環境
を探し、その探した音韻環境部分についてはその音響分
析パラメータによるセグメンテーションによる境界を用
いて、連結したHMMの各HMMに対するパラメータ再
推定に用いる学習音声データを制限する。
Description
【0001】
【産業上の利用分野】この発明は、例えば音声認識に用
いられ、音素や音節などのサブワード単位の隠れマルコ
フモデルを、学習音声の内容で連結し、その個々の隠れ
マルコフモデルのパラメータを、学習音声信号を用いて
再推定する隠れマルコフモデル連結学習方法に関し、特
に、再推定に用いる学習音声信号の区間を制限する学習
方法に係わる。
いられ、音素や音節などのサブワード単位の隠れマルコ
フモデルを、学習音声の内容で連結し、その個々の隠れ
マルコフモデルのパラメータを、学習音声信号を用いて
再推定する隠れマルコフモデル連結学習方法に関し、特
に、再推定に用いる学習音声信号の区間を制限する学習
方法に係わる。
【0002】
【従来の技術】従来において、隠れマルコフモデルの連
結学習で、各パラメータの再推定に用いる学習音声信号
は全区間用いていた。この場合は計算量が多く、時間が
かかり、しかも学習対象と関係のない多くのデータも取
込まれるため、収束が悪く、パラメーターの再推定精度
が悪くなる場合もある。
結学習で、各パラメータの再推定に用いる学習音声信号
は全区間用いていた。この場合は計算量が多く、時間が
かかり、しかも学習対象と関係のない多くのデータも取
込まれるため、収束が悪く、パラメーターの再推定精度
が悪くなる場合もある。
【0003】このような点から学習音声信号(データ)
を分別し、その各区間ごとに連結隠れマルコフモデル中
の対応する部分の隠れマルコフモデルのパラメータを再
推定することも行われている。即ち図2に示すように、
入力学習音声信号は音声分析部1で分析されて、スペク
トラム、LPCケプストラムなどの特徴パラメータが求
められ、その特徴パラメータの系列は分析特徴量記憶部
2は記憶される。一方、入力学習音声信号の発声内容、
つまり学習音声内容を示すテキスト文が発声内容記憶部
4に記憶される。モデル連結部5で学習を開始する前
に、学習のパラメータ初期値、つまり出力確率や遷移確
率などの初期値をパラメータ記憶部3から読出して各隠
れマルコフモデルの初期化を行う。次に、発声内容記憶
部4から発声内容を取出し、それを音素系列にほん訳
し、その音素系列に合せて、その各音素と対応する、初
期化された音素単位の隠れマルコフモデルを順次連結す
る。
を分別し、その各区間ごとに連結隠れマルコフモデル中
の対応する部分の隠れマルコフモデルのパラメータを再
推定することも行われている。即ち図2に示すように、
入力学習音声信号は音声分析部1で分析されて、スペク
トラム、LPCケプストラムなどの特徴パラメータが求
められ、その特徴パラメータの系列は分析特徴量記憶部
2は記憶される。一方、入力学習音声信号の発声内容、
つまり学習音声内容を示すテキスト文が発声内容記憶部
4に記憶される。モデル連結部5で学習を開始する前
に、学習のパラメータ初期値、つまり出力確率や遷移確
率などの初期値をパラメータ記憶部3から読出して各隠
れマルコフモデルの初期化を行う。次に、発声内容記憶
部4から発声内容を取出し、それを音素系列にほん訳
し、その音素系列に合せて、その各音素と対応する、初
期化された音素単位の隠れマルコフモデルを順次連結す
る。
【0004】次に学習区間設定部6で、前記連結した、
隠れマルコフモデルを用いて、ビタビ(Viterb
i)デコーデイング・アルゴリズムによりセグメンテー
ションを行い、入力学習音声信号の各音素区間境界を求
める。学習処理部7で連結した隠れマルコフモデルの前
記セグメンテーションした各区間ごとに、その区間と対
応する部分とその区間の両端にあるその区間の何倍かの
幅の部分とを学習音声の特徴パラメータ系列から取出
し、この取出した特徴パラメータを用いてその区間の各
隠れマルコフモデルのパラメータを再推定する。
隠れマルコフモデルを用いて、ビタビ(Viterb
i)デコーデイング・アルゴリズムによりセグメンテー
ションを行い、入力学習音声信号の各音素区間境界を求
める。学習処理部7で連結した隠れマルコフモデルの前
記セグメンテーションした各区間ごとに、その区間と対
応する部分とその区間の両端にあるその区間の何倍かの
幅の部分とを学習音声の特徴パラメータ系列から取出
し、この取出した特徴パラメータを用いてその区間の各
隠れマルコフモデルのパラメータを再推定する。
【0005】
【発明が解決しようとする課題】このように学習音声デ
ータ、つまり特徴パラメータ系列を制限してパラメータ
再推定を行うと、計算量が減少し、また学習対象と関係
のないデータが少く、パラメータ推定精度が向上する。
しかし、セグメンテーションの精度が悪いため、本来学
習に必要な音声データを外してしまったり、またこのよ
うなことをなるべく避けるには学習音声データ区間をな
るべく長くする必要があり、不必要なデータが多くな
り、かつ計算量が多くなる。
ータ、つまり特徴パラメータ系列を制限してパラメータ
再推定を行うと、計算量が減少し、また学習対象と関係
のないデータが少く、パラメータ推定精度が向上する。
しかし、セグメンテーションの精度が悪いため、本来学
習に必要な音声データを外してしまったり、またこのよ
うなことをなるべく避けるには学習音声データ区間をな
るべく長くする必要があり、不必要なデータが多くな
り、かつ計算量が多くなる。
【0006】
【課題を解決するための手段】この発明によれば連結さ
れた隠れマルコフモデルを用いてセグメンテーションを
行って境界を求めると共に、同一音声信号の特徴パラメ
ータ系列について、そのパラメータに基づいてセグメン
テーションを行って境界を求め、これら両境界がある誤
差範囲内で一致している音韻環境を予め調べておき、学
習音声信号の特徴パラメータ、つまり音響分析パラメー
タを用いてセグメンテーションして前記両境界が一致す
る音韻環境を探し、その音韻環境部分についてはその各
境界を連結された隠れマルコフモデル中の各隠れマルコ
フモデルに与える学習音声データの境界とを解釈し、学
習に用いる音声データ区間を制限してパラメータを再推
定する。
れた隠れマルコフモデルを用いてセグメンテーションを
行って境界を求めると共に、同一音声信号の特徴パラメ
ータ系列について、そのパラメータに基づいてセグメン
テーションを行って境界を求め、これら両境界がある誤
差範囲内で一致している音韻環境を予め調べておき、学
習音声信号の特徴パラメータ、つまり音響分析パラメー
タを用いてセグメンテーションして前記両境界が一致す
る音韻環境を探し、その音韻環境部分についてはその各
境界を連結された隠れマルコフモデル中の各隠れマルコ
フモデルに与える学習音声データの境界とを解釈し、学
習に用いる音声データ区間を制限してパラメータを再推
定する。
【0007】
【実施例】この発明の実施例を図1の流れ図を参照して
説明する。入力音声信号を、その音響分析パラメータ、
つまり特徴パラメータ系列を用いてセグメンテーション
を行い第1境界を求める(S1 )。特徴パラメータ系列
中のパワーやスペクトラムなどによりどの部分にどのよ
うな音韻があるかを調べて音韻境界を求める。また同一
音声についての発声内容について求めた連結された隠れ
マルコフモデルを用いて、ビタビデコーデイング・アル
ゴリズムによりセグメンテーションを行って第2境界を
求める(S2 )。第1境界と第2境界とが一定誤差範囲
内で一致する音韻環境をなるべく多く、予め調べて記憶
しておく(S 3 )。
説明する。入力音声信号を、その音響分析パラメータ、
つまり特徴パラメータ系列を用いてセグメンテーション
を行い第1境界を求める(S1 )。特徴パラメータ系列
中のパワーやスペクトラムなどによりどの部分にどのよ
うな音韻があるかを調べて音韻境界を求める。また同一
音声についての発声内容について求めた連結された隠れ
マルコフモデルを用いて、ビタビデコーデイング・アル
ゴリズムによりセグメンテーションを行って第2境界を
求める(S2 )。第1境界と第2境界とが一定誤差範囲
内で一致する音韻環境をなるべく多く、予め調べて記憶
しておく(S 3 )。
【0008】次に学習音声信号を入力し、これを分析し
て特徴パラメータ(音響分析パラメータ)系列を得、そ
の特徴パラメータを用いてセグメンテーションして、前
記両境界が一致する音韻環境を探す(S4 )。探した音
韻環境部分について学習音声データ(特徴パラメータ系
列)を、先に行ったセグメンテーションにより求めた境
界により区間制限する(S5 )。その制限された区間の
みを用いて、連結された隠れマルコフモデルの対応する
部の各隠れマルコフモデルのパラメータ、つまり出力確
率や遷移確率などを再推定する(S6 )。
て特徴パラメータ(音響分析パラメータ)系列を得、そ
の特徴パラメータを用いてセグメンテーションして、前
記両境界が一致する音韻環境を探す(S4 )。探した音
韻環境部分について学習音声データ(特徴パラメータ系
列)を、先に行ったセグメンテーションにより求めた境
界により区間制限する(S5 )。その制限された区間の
みを用いて、連結された隠れマルコフモデルの対応する
部の各隠れマルコフモデルのパラメータ、つまり出力確
率や遷移確率などを再推定する(S6 )。
【0009】このようにすると母音−子音−母音−子音
の繰返し部分のような音韻環境では、その音韻境界が明
確であって、この部分についてはその音韻ごとに隠れマ
ルコフモデルのパラメータの再推定を行うことにより学
習音声データ量が少なく、しかも不要なデータがないた
め、少ない計算量で精度よくパラメータを推定すること
ができる。子音−母音−母音−子音などの母音が連続す
る部分や子音−半母音−母音−子音などの半母音と母音
が連続する部分などは音韻境界が明確でないため,音韻
ごとに隠れマルコフモデルのパラメータの再推定を行な
わず,母音−母音,半母音−母音といった複数の音韻に
ついて一括して隠れマルコフモデルのパラメータの再推
定を行う。
の繰返し部分のような音韻環境では、その音韻境界が明
確であって、この部分についてはその音韻ごとに隠れマ
ルコフモデルのパラメータの再推定を行うことにより学
習音声データ量が少なく、しかも不要なデータがないた
め、少ない計算量で精度よくパラメータを推定すること
ができる。子音−母音−母音−子音などの母音が連続す
る部分や子音−半母音−母音−子音などの半母音と母音
が連続する部分などは音韻境界が明確でないため,音韻
ごとに隠れマルコフモデルのパラメータの再推定を行な
わず,母音−母音,半母音−母音といった複数の音韻に
ついて一括して隠れマルコフモデルのパラメータの再推
定を行う。
【0010】
【発明の効果】以上述べたようにこの発明によれば、隠
れマルコフモデルを用いたセグメンテーションと、音響
分析パラメータを用いたセグメンテーションとが比較的
よく一致する音韻環境については、音響分析パラメータ
を用いてセグメンテーションを行って、パラメータ再推
定に用いる学習音声データを区間制限しているため、各
隠れマルコフモデルの学習対象とは関係のないデータを
取込むことが減少し、本来学習すべき区間の取りこぼし
が減少し、正しい区間で学習が行われるためパラメータ
の推定精度が向上する。しかも区間制限された少ない学
習データを用いるため計算量が少なくて済み、収束が速
く、全体の学習時間が短かくなる。
れマルコフモデルを用いたセグメンテーションと、音響
分析パラメータを用いたセグメンテーションとが比較的
よく一致する音韻環境については、音響分析パラメータ
を用いてセグメンテーションを行って、パラメータ再推
定に用いる学習音声データを区間制限しているため、各
隠れマルコフモデルの学習対象とは関係のないデータを
取込むことが減少し、本来学習すべき区間の取りこぼし
が減少し、正しい区間で学習が行われるためパラメータ
の推定精度が向上する。しかも区間制限された少ない学
習データを用いるため計算量が少なくて済み、収束が速
く、全体の学習時間が短かくなる。
【図1】この発明の実施例を示す流れ図。
【図2】隠れマルコフモデル連結学習装置の一般的構成
を示すブロック図。
を示すブロック図。
Claims (1)
- 【請求項1】 入力学習音声信号を分析してその特徴パ
ラメータを求め、これを記憶し、 上記入力学習音声信号の発声内容を記憶し、 その発声内容に基づき隠れマルコフモデルを連結し、 その連結された隠れマルコフモデル中の各隠れマルコフ
モデルのパラメータ再推定に用いる上記学習音声信号の
区間を制限してそのパラメータ再推定をする隠れマルコ
フモデル連結学習方法において、 上記特徴パラメータを用いてセグメンテーションを行っ
て得た第1境界と、連結された隠れマルコフモデルを用
いてセグメンテーションを行って得た第2境界とが一定
の誤差範囲で一致する音韻環境を予め調べておき、 上記入力学習音声の特徴パラメータを用いてセグメンテ
ーションして上記一致する音韻環境を探し、 探した音韻環境部分についてはその各境界により上記パ
ラメータ再推定に用いる上記区間を決定することを特徴
とする隠れマルコフモデル連結学習方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5155359A JPH0713587A (ja) | 1993-06-25 | 1993-06-25 | 隠れマルコフモデル連結学習方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5155359A JPH0713587A (ja) | 1993-06-25 | 1993-06-25 | 隠れマルコフモデル連結学習方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0713587A true JPH0713587A (ja) | 1995-01-17 |
Family
ID=15604189
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5155359A Pending JPH0713587A (ja) | 1993-06-25 | 1993-06-25 | 隠れマルコフモデル連結学習方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0713587A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003529106A (ja) * | 2000-03-24 | 2003-09-30 | スピーチワークス・インターナショナル・インコーポレーテッド | 音声認識システムのための分割アプローチ |
| JP2007536050A (ja) * | 2004-05-07 | 2007-12-13 | アイシス イノヴェイション リミテッド | 信号解析法 |
-
1993
- 1993-06-25 JP JP5155359A patent/JPH0713587A/ja active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003529106A (ja) * | 2000-03-24 | 2003-09-30 | スピーチワークス・インターナショナル・インコーポレーテッド | 音声認識システムのための分割アプローチ |
| JP2007536050A (ja) * | 2004-05-07 | 2007-12-13 | アイシス イノヴェイション リミテッド | 信号解析法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5581655A (en) | Method for recognizing speech using linguistically-motivated hidden Markov models | |
| CN1645477B (zh) | 使用用户纠正的自动语音识别学习 | |
| EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
| JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
| US5865626A (en) | Multi-dialect speech recognition method and apparatus | |
| US5873061A (en) | Method for constructing a model of a new word for addition to a word model database of a speech recognition system | |
| JPH0422276B2 (ja) | ||
| US20010032075A1 (en) | Speech recognition method, apparatus and storage medium | |
| KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
| JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
| JP3403838B2 (ja) | 句境界確率計算装置および句境界確率利用連続音声認識装置 | |
| JPH0713587A (ja) | 隠れマルコフモデル連結学習方法 | |
| CN114333789A (zh) | 语音识别系统的更新方法、装置、电子设备和存储介质 | |
| JPH09114482A (ja) | 音声認識のための話者適応化方法 | |
| JP2005091504A (ja) | 音声認識装置 | |
| JP2002082688A (ja) | 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
| Jelinek et al. | 25 Continuous speech recognition: Statistical methods | |
| JPH08211893A (ja) | 音声認識装置 | |
| JPH05303391A (ja) | 音声認識装置 | |
| JP3926716B2 (ja) | 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体 | |
| JPH09212190A (ja) | 音声認識装置及び文認識装置 | |
| JP3105708B2 (ja) | 音声認識装置 | |
| JPH08248983A (ja) | 音声認識装置 | |
| JPH0573087A (ja) | 音声認識方法 | |
| JPH096387A (ja) | 音声認識装置 |