JPH0713587A

JPH0713587A - 隠れマルコフモデル連結学習方法

Info

Publication number: JPH0713587A
Application number: JP5155359A
Authority: JP
Inventors: Shigeru Honma; 茂本間
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1993-06-25
Filing date: 1993-06-25
Publication date: 1995-01-17

Abstract

(57)【要約】【目的】隠れマルコフモデル（ＨＭＭ）のパラメータ
再推定精度を向上させる。【構成】音声信号の音響分析パラメータを求め、その
パラメータ系列をそのパラメータを用いてセグメンテー
ションして第１境界を求め、前記音声信号の発声内容を
音素系列にほん訳し、その各ＨＭＭを連結させ、その連
結ＨＭＭを用いてビタビデコーデイングアルゴリズムで
セグメンテーションして第２境界を求め、これを第１，
第２境界がある誤差範囲内で一致する音韻環境を予めな
るべく多く求めておく。学習音声信号の音響分析パラメ
ータをセグメンテーションして、前記一致する音韻環境
を探し、その探した音韻環境部分についてはその音響分
析パラメータによるセグメンテーションによる境界を用
いて、連結したＨＭＭの各ＨＭＭに対するパラメータ再
推定に用いる学習音声データを制限する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、例えば音声認識に用
いられ、音素や音節などのサブワード単位の隠れマルコ
フモデルを、学習音声の内容で連結し、その個々の隠れ
マルコフモデルのパラメータを、学習音声信号を用いて
再推定する隠れマルコフモデル連結学習方法に関し、特
に、再推定に用いる学習音声信号の区間を制限する学習
方法に係わる。

【０００２】

【従来の技術】従来において、隠れマルコフモデルの連
結学習で、各パラメータの再推定に用いる学習音声信号
は全区間用いていた。この場合は計算量が多く、時間が
かかり、しかも学習対象と関係のない多くのデータも取
込まれるため、収束が悪く、パラメーターの再推定精度
が悪くなる場合もある。

【０００３】このような点から学習音声信号（データ）
を分別し、その各区間ごとに連結隠れマルコフモデル中
の対応する部分の隠れマルコフモデルのパラメータを再
推定することも行われている。即ち図２に示すように、
入力学習音声信号は音声分析部１で分析されて、スペク
トラム、ＬＰＣケプストラムなどの特徴パラメータが求
められ、その特徴パラメータの系列は分析特徴量記憶部
２は記憶される。一方、入力学習音声信号の発声内容、
つまり学習音声内容を示すテキスト文が発声内容記憶部
４に記憶される。モデル連結部５で学習を開始する前
に、学習のパラメータ初期値、つまり出力確率や遷移確
率などの初期値をパラメータ記憶部３から読出して各隠
れマルコフモデルの初期化を行う。次に、発声内容記憶
部４から発声内容を取出し、それを音素系列にほん訳
し、その音素系列に合せて、その各音素と対応する、初
期化された音素単位の隠れマルコフモデルを順次連結す
る。

【０００４】次に学習区間設定部６で、前記連結した、
隠れマルコフモデルを用いて、ビタビ（Ｖｉｔｅｒｂ
ｉ）デコーデイング・アルゴリズムによりセグメンテー
ションを行い、入力学習音声信号の各音素区間境界を求
める。学習処理部７で連結した隠れマルコフモデルの前
記セグメンテーションした各区間ごとに、その区間と対
応する部分とその区間の両端にあるその区間の何倍かの
幅の部分とを学習音声の特徴パラメータ系列から取出
し、この取出した特徴パラメータを用いてその区間の各
隠れマルコフモデルのパラメータを再推定する。

【０００５】

【発明が解決しようとする課題】このように学習音声デ
ータ、つまり特徴パラメータ系列を制限してパラメータ
再推定を行うと、計算量が減少し、また学習対象と関係
のないデータが少く、パラメータ推定精度が向上する。
しかし、セグメンテーションの精度が悪いため、本来学
習に必要な音声データを外してしまったり、またこのよ
うなことをなるべく避けるには学習音声データ区間をな
るべく長くする必要があり、不必要なデータが多くな
り、かつ計算量が多くなる。

【０００６】

【課題を解決するための手段】この発明によれば連結さ
れた隠れマルコフモデルを用いてセグメンテーションを
行って境界を求めると共に、同一音声信号の特徴パラメ
ータ系列について、そのパラメータに基づいてセグメン
テーションを行って境界を求め、これら両境界がある誤
差範囲内で一致している音韻環境を予め調べておき、学
習音声信号の特徴パラメータ、つまり音響分析パラメー
タを用いてセグメンテーションして前記両境界が一致す
る音韻環境を探し、その音韻環境部分についてはその各
境界を連結された隠れマルコフモデル中の各隠れマルコ
フモデルに与える学習音声データの境界とを解釈し、学
習に用いる音声データ区間を制限してパラメータを再推
定する。

【０００７】

【実施例】この発明の実施例を図１の流れ図を参照して
説明する。入力音声信号を、その音響分析パラメータ、
つまり特徴パラメータ系列を用いてセグメンテーション
を行い第１境界を求める（Ｓ₁）。特徴パラメータ系列
中のパワーやスペクトラムなどによりどの部分にどのよ
うな音韻があるかを調べて音韻境界を求める。また同一
音声についての発声内容について求めた連結された隠れ
マルコフモデルを用いて、ビタビデコーデイング・アル
ゴリズムによりセグメンテーションを行って第２境界を
求める（Ｓ₂）。第１境界と第２境界とが一定誤差範囲
内で一致する音韻環境をなるべく多く、予め調べて記憶
しておく（Ｓ ₃）。

【０００８】次に学習音声信号を入力し、これを分析し
て特徴パラメータ（音響分析パラメータ）系列を得、そ
の特徴パラメータを用いてセグメンテーションして、前
記両境界が一致する音韻環境を探す（Ｓ₄）。探した音
韻環境部分について学習音声データ（特徴パラメータ系
列）を、先に行ったセグメンテーションにより求めた境
界により区間制限する（Ｓ₅）。その制限された区間の
みを用いて、連結された隠れマルコフモデルの対応する
部の各隠れマルコフモデルのパラメータ、つまり出力確
率や遷移確率などを再推定する（Ｓ₆）。

【０００９】このようにすると母音−子音−母音−子音
の繰返し部分のような音韻環境では、その音韻境界が明
確であって、この部分についてはその音韻ごとに隠れマ
ルコフモデルのパラメータの再推定を行うことにより学
習音声データ量が少なく、しかも不要なデータがないた
め、少ない計算量で精度よくパラメータを推定すること
ができる。子音−母音−母音−子音などの母音が連続す
る部分や子音−半母音−母音−子音などの半母音と母音
が連続する部分などは音韻境界が明確でないため，音韻
ごとに隠れマルコフモデルのパラメータの再推定を行な
わず，母音−母音，半母音−母音といった複数の音韻に
ついて一括して隠れマルコフモデルのパラメータの再推
定を行う。

【００１０】

【発明の効果】以上述べたようにこの発明によれば、隠
れマルコフモデルを用いたセグメンテーションと、音響
分析パラメータを用いたセグメンテーションとが比較的
よく一致する音韻環境については、音響分析パラメータ
を用いてセグメンテーションを行って、パラメータ再推
定に用いる学習音声データを区間制限しているため、各
隠れマルコフモデルの学習対象とは関係のないデータを
取込むことが減少し、本来学習すべき区間の取りこぼし
が減少し、正しい区間で学習が行われるためパラメータ
の推定精度が向上する。しかも区間制限された少ない学
習データを用いるため計算量が少なくて済み、収束が速
く、全体の学習時間が短かくなる。

【図面の簡単な説明】

【図１】この発明の実施例を示す流れ図。

【図２】隠れマルコフモデル連結学習装置の一般的構成
を示すブロック図。

Claims

【特許請求の範囲】

【請求項１】入力学習音声信号を分析してその特徴パ
ラメータを求め、これを記憶し、上記入力学習音声信号の発声内容を記憶し、その発声内容に基づき隠れマルコフモデルを連結し、その連結された隠れマルコフモデル中の各隠れマルコフ
モデルのパラメータ再推定に用いる上記学習音声信号の
区間を制限してそのパラメータ再推定をする隠れマルコ
フモデル連結学習方法において、上記特徴パラメータを用いてセグメンテーションを行っ
て得た第１境界と、連結された隠れマルコフモデルを用
いてセグメンテーションを行って得た第２境界とが一定
の誤差範囲で一致する音韻環境を予め調べておき、上記入力学習音声の特徴パラメータを用いてセグメンテ
ーションして上記一致する音韻環境を探し、探した音韻環境部分についてはその各境界により上記パ
ラメータ再推定に用いる上記区間を決定することを特徴
とする隠れマルコフモデル連結学習方法。