JPH0635496A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPH0635496A JPH0635496A JP18545292A JP18545292A JPH0635496A JP H0635496 A JPH0635496 A JP H0635496A JP 18545292 A JP18545292 A JP 18545292A JP 18545292 A JP18545292 A JP 18545292A JP H0635496 A JPH0635496 A JP H0635496A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- hmm
- recognition
- unit
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】入力された音声から認識対象とする音声を正確
に抽出し、かつ計算量が少なく高速に認識することがで
きるようにする。 【構成】入力音声を音響分析部1により例えばLPC分
析して特徴パラメータを求め、その特徴パラメータか
ら、音声量子化部3により、量子化された音声セグメン
ト系列などのラベル系列を求め、このラベル系列をカテ
ゴリ毎のHMMを用いてHMM認識部5にて認識する。
この認識処理の都度、入力ラベル系列に対してHMMの
状態が遷移したフレームを状態遷移位置検出部7にて検
出し、このフレームを基準として、次にHMM認識部5
で用いる始端フレームを始端フレーム算出部8で求め、
このフレームが認識終了判定部9での認識終了判定条件
に合致していなければ、このフレームを始端とするラベ
ル系列をHMMへ入力してHMM認識部5にて再度認識
する構成とする。
に抽出し、かつ計算量が少なく高速に認識することがで
きるようにする。 【構成】入力音声を音響分析部1により例えばLPC分
析して特徴パラメータを求め、その特徴パラメータか
ら、音声量子化部3により、量子化された音声セグメン
ト系列などのラベル系列を求め、このラベル系列をカテ
ゴリ毎のHMMを用いてHMM認識部5にて認識する。
この認識処理の都度、入力ラベル系列に対してHMMの
状態が遷移したフレームを状態遷移位置検出部7にて検
出し、このフレームを基準として、次にHMM認識部5
で用いる始端フレームを始端フレーム算出部8で求め、
このフレームが認識終了判定部9での認識終了判定条件
に合致していなければ、このフレームを始端とするラベ
ル系列をHMMへ入力してHMM認識部5にて再度認識
する構成とする。
Description
【0001】
【産業上の利用分野】本発明は、入力音声の認識にHM
Mを適用した音声認識方式に関する。
Mを適用した音声認識方式に関する。
【0002】
【従来の技術】近年、入力音声を認識する音声認識方式
において、音声を一定の符号系列に変換するベクトル量
子化やマトリクス量子化等を行い、量子化符号系列を隠
れマルコフモデル(Hidden Markov Model )、即ちHM
Mで認識する方式が成功を収めている。
において、音声を一定の符号系列に変換するベクトル量
子化やマトリクス量子化等を行い、量子化符号系列を隠
れマルコフモデル(Hidden Markov Model )、即ちHM
Mで認識する方式が成功を収めている。
【0003】この種の音声認識方式を適用する音声認識
装置をより実用的な装置とするためには、認識対象とし
ている言葉の前後に認識対象外の言葉や周囲騒音などが
付加された入力音声に対して、認識対象としている言葉
を正しく認識するワードスポッティング技術が必要不可
欠となっている。
装置をより実用的な装置とするためには、認識対象とし
ている言葉の前後に認識対象外の言葉や周囲騒音などが
付加された入力音声に対して、認識対象としている言葉
を正しく認識するワードスポッティング技術が必要不可
欠となっている。
【0004】ワードスポッティングを行うための従来の
技術としては、 (1)入力音声のパワーの大きさを用いて検出した複数
の音声区間に対して認識処理を行う方式。
技術としては、 (1)入力音声のパワーの大きさを用いて検出した複数
の音声区間に対して認識処理を行う方式。
【0005】(2)入力音声の全てのフレームを音声の
始端・終端候補とし、この始端・終端の組み合わせから
得られる全ての音声区間に対して認識処理を行う方式。
始端・終端候補とし、この始端・終端の組み合わせから
得られる全ての音声区間に対して認識処理を行う方式。
【0006】(3)上記の方式(2)において、音声区
間候補の数を削減するために音声区間の最小長と最大長
を設定する方式。
間候補の数を削減するために音声区間の最小長と最大長
を設定する方式。
【0007】(4)上記の方式(2)において、全ての
フレームを始端・終端候補とするのではなく、一定間隔
のフレームを始端・終端候補とし、音声区間候補の数を
削減する方式。
フレームを始端・終端候補とするのではなく、一定間隔
のフレームを始端・終端候補とし、音声区間候補の数を
削減する方式。
【0008】などの技術が提案されている。
【0009】
【発明が解決しようとする課題】しかし、従来の音声認
識方式には次のような問題があった。
識方式には次のような問題があった。
【0010】まず、入力音声のパワーを用いて音声区間
を検出する上記(1)の方式においては、認識対象の音
声と認識対象外の音声の間に無音区間がない場合には、
正しい音声区間を音声区間候補として検出することが困
難なため、高い認識性能が得られないという問題があっ
た。
を検出する上記(1)の方式においては、認識対象の音
声と認識対象外の音声の間に無音区間がない場合には、
正しい音声区間を音声区間候補として検出することが困
難なため、高い認識性能が得られないという問題があっ
た。
【0011】また、全てのフレームを音声区間の始端・
終端候補とする上記(2)の方式では、正しい音声区間
が音声区間候補中に含まれることは保証されるが、音声
区間候補の数が多くなりすぎて計算が困難であるという
問題があった。
終端候補とする上記(2)の方式では、正しい音声区間
が音声区間候補中に含まれることは保証されるが、音声
区間候補の数が多くなりすぎて計算が困難であるという
問題があった。
【0012】この音声区間候補の数を削減するために、
上記(3)のように、音声区間長の最小値と最大値を設
定し、1つの始端に対する終端候補を限定する方式が用
いられているが、始端候補は限定されず、全フレームが
始端候補の対象であるため、音声区間候補削減の効果は
少ないという問題があった。
上記(3)のように、音声区間長の最小値と最大値を設
定し、1つの始端に対する終端候補を限定する方式が用
いられているが、始端候補は限定されず、全フレームが
始端候補の対象であるため、音声区間候補削減の効果は
少ないという問題があった。
【0013】また、始端・終端候補を削減する手段とし
ては、上記(4)のように、一定間隔のフレームを始端
・終端候補とする方式がある。しかし、この方式では、
フレームの選び方に入力音声の特徴が反映されず、フレ
ームの間隔を小さくした場合には、音声区間候補数削減
効果は少なく、フレームの間隔を大きくした場合には、
正しい始端・終端が選択されない可能性があり、高い認
識性能が得られないという問題があった。
ては、上記(4)のように、一定間隔のフレームを始端
・終端候補とする方式がある。しかし、この方式では、
フレームの選び方に入力音声の特徴が反映されず、フレ
ームの間隔を小さくした場合には、音声区間候補数削減
効果は少なく、フレームの間隔を大きくした場合には、
正しい始端・終端が選択されない可能性があり、高い認
識性能が得られないという問題があった。
【0014】そこで、本発明は、HMMの性能を生か
し、入力された音声から認識対象とする音声を正確に抽
出し、かつ計算量が少なく高速に認識することのできる
音声認識方式を提供することを目的とする。
し、入力された音声から認識対象とする音声を正確に抽
出し、かつ計算量が少なく高速に認識することのできる
音声認識方式を提供することを目的とする。
【0015】
【課題を解決するための手段】本発明の音声認識方式
は、入力される音声信号を音響分析することにより特徴
パラメータを求める音響分析手段と、この特徴パラメー
タからフレーム毎にラベルを求める音声量子化手段と、
このラベルの系列をカテゴリ毎に用意されたHMMを用
いて認識する認識手段と、この認識手段による認識処理
の都度、HMMに入力されたラベル系列に対してHMM
の状態が遷移したフレームを求める状態遷移位置検出手
段と、この状態遷移フレームの位置を基準として、次の
認識処理でHMMへ入力するラベル系列の始端となるフ
レームを求める始端フレーム算出手段とを設け、この始
端フレーム算出手段により求められたフレームを始端と
するラベル系列をHMMへ入力して認識手段における次
の認識処理を行うようにしたことを特徴とするものであ
る。
は、入力される音声信号を音響分析することにより特徴
パラメータを求める音響分析手段と、この特徴パラメー
タからフレーム毎にラベルを求める音声量子化手段と、
このラベルの系列をカテゴリ毎に用意されたHMMを用
いて認識する認識手段と、この認識手段による認識処理
の都度、HMMに入力されたラベル系列に対してHMM
の状態が遷移したフレームを求める状態遷移位置検出手
段と、この状態遷移フレームの位置を基準として、次の
認識処理でHMMへ入力するラベル系列の始端となるフ
レームを求める始端フレーム算出手段とを設け、この始
端フレーム算出手段により求められたフレームを始端と
するラベル系列をHMMへ入力して認識手段における次
の認識処理を行うようにしたことを特徴とするものであ
る。
【0016】
【作用】上記の構成においては、入力される音声信号か
ら求められたラベル系列をHMMを用いて認識手段にて
認識処理する毎に、入力ラベル系列に対してHMMの状
態が遷移したフレームが状態遷移位置検出手段により求
められる。
ら求められたラベル系列をHMMを用いて認識手段にて
認識処理する毎に、入力ラベル系列に対してHMMの状
態が遷移したフレームが状態遷移位置検出手段により求
められる。
【0017】HMMの状態が遷移したフレーム(状態遷
移フレーム)が求められると、始端フレーム算出手段が
起動され、その状態遷移フレームを基準として、次にH
MMへ入力するラベル系列の始端フレームが求められ
る。この始端フレームが、認識終了条件に合致するフレ
ームでなければ、このフレームを始端とするラベル系列
がHMMを用いて認識手段にて再度認識される。
移フレーム)が求められると、始端フレーム算出手段が
起動され、その状態遷移フレームを基準として、次にH
MMへ入力するラベル系列の始端フレームが求められ
る。この始端フレームが、認識終了条件に合致するフレ
ームでなければ、このフレームを始端とするラベル系列
がHMMを用いて認識手段にて再度認識される。
【0018】このように、上記の構成においては、入力
音声中から認識対象とする単語のみを抽出して認識する
ために、始端フレーム位置を変更してHMM認識処理を
繰り返し行う際に、全てのフレームが始端フレームとさ
れるのではなく、前回のHMM認識処理で得られた状態
遷移位置を基準として次のHMM認識処理で使用する始
端フレームが決定されるため、始端フレームとなるフレ
ーム数を従来に比べて大幅に削減でき、認識対象とする
音声区間を精度良く、高速に検出することが可能とな
り、音声を高精度に認識することができる。
音声中から認識対象とする単語のみを抽出して認識する
ために、始端フレーム位置を変更してHMM認識処理を
繰り返し行う際に、全てのフレームが始端フレームとさ
れるのではなく、前回のHMM認識処理で得られた状態
遷移位置を基準として次のHMM認識処理で使用する始
端フレームが決定されるため、始端フレームとなるフレ
ーム数を従来に比べて大幅に削減でき、認識対象とする
音声区間を精度良く、高速に検出することが可能とな
り、音声を高精度に認識することができる。
【0019】
【実施例】以下、本発明の一実施例について図面を参照
して説明する。
して説明する。
【0020】図1は、本発明の一実施例に係る音声認識
装置の構成を概略的に示すブロック図である。この図1
の音声認識装置における処理は、基本的には、音声学的
に意味のあるセグメント(Phonetic Segment;以下PS
と記述する)を認識処理単位とし、このPS単位の認識
辞書を用いてPSに量子化された入力音声をHMM認識
部で単語照合するものである。
装置の構成を概略的に示すブロック図である。この図1
の音声認識装置における処理は、基本的には、音声学的
に意味のあるセグメント(Phonetic Segment;以下PS
と記述する)を認識処理単位とし、このPS単位の認識
辞書を用いてPSに量子化された入力音声をHMM認識
部で単語照合するものである。
【0021】ここまでの図1の音声認識装置における処
理を更に詳しく説明する。まず、図示せぬマイクロフォ
ンを通して入力される音声信号(入力音声)は音響分析
部1に導かれる。音響分析部1は、入力音声を音響分析
して特徴パラメータを求めるためのものである。
理を更に詳しく説明する。まず、図示せぬマイクロフォ
ンを通して入力される音声信号(入力音声)は音響分析
部1に導かれる。音響分析部1は、入力音声を音響分析
して特徴パラメータを求めるためのものである。
【0022】音響分析部1は、図2にその詳細を示すよ
うに、A/D変換器101、パワー計算部102および
LPC分析部103から構成される。音響分析部1に導
かれた入力音声はA/D変換器101にて、例えばサン
プリング周波数12kHz,12ビットで量子化された
後、パワー計算部102に入力されて、その音声パワー
が計算され、更にLPC分析部103に入力されて、L
PC(Linear Predictive Coding)メルケプストラム分
析(LPC分析)される。このLPC分析は、例えばフ
レーム長16msec、フレーム周期8msecで16次のLP
Cメルケプストラムを分析パラメータとして行われる。
なお、音響分析部1での音響分析は、LPCメルケプス
トラム分析に限るものではなく、BPF(Band Pass Fi
lter)分析等でもよい。
うに、A/D変換器101、パワー計算部102および
LPC分析部103から構成される。音響分析部1に導
かれた入力音声はA/D変換器101にて、例えばサン
プリング周波数12kHz,12ビットで量子化された
後、パワー計算部102に入力されて、その音声パワー
が計算され、更にLPC分析部103に入力されて、L
PC(Linear Predictive Coding)メルケプストラム分
析(LPC分析)される。このLPC分析は、例えばフ
レーム長16msec、フレーム周期8msecで16次のLP
Cメルケプストラムを分析パラメータとして行われる。
なお、音響分析部1での音響分析は、LPCメルケプス
トラム分析に限るものではなく、BPF(Band Pass Fi
lter)分析等でもよい。
【0023】さて、図1の音声認識装置には、上記の音
響分析部1の他に、音声認識処理を起動するための認識
処理起動部2、音響分析部1により求められた特徴パラ
メータによりフレーム毎にラベルを求めるための音声量
子化部3、所定のPS(音声セグメント)単位の認識辞
書が記憶されているPS辞書記憶部4、音声量子化部3
により求められたラベル系列をHMMを用いて認識する
HMM認識部5、およびHMMのモデルMのパラメータ
が記憶されているHMMパラメータ記憶部6が設けられ
ている。
響分析部1の他に、音声認識処理を起動するための認識
処理起動部2、音響分析部1により求められた特徴パラ
メータによりフレーム毎にラベルを求めるための音声量
子化部3、所定のPS(音声セグメント)単位の認識辞
書が記憶されているPS辞書記憶部4、音声量子化部3
により求められたラベル系列をHMMを用いて認識する
HMM認識部5、およびHMMのモデルMのパラメータ
が記憶されているHMMパラメータ記憶部6が設けられ
ている。
【0024】認識処理起動部2は、図2に示す音響分析
部1内のパワー計算部102で計算された入力音声パワ
ーの値がある閾値よりも大きくなった時点で、認識処理
を開始する信号を音声量子化部3に出力する。この認識
処理の起動の条件としては、パワーの値に限るものでは
なく、マイクロフォンのスイッチのオン/オフ等を使用
することも可能である。
部1内のパワー計算部102で計算された入力音声パワ
ーの値がある閾値よりも大きくなった時点で、認識処理
を開始する信号を音声量子化部3に出力する。この認識
処理の起動の条件としては、パワーの値に限るものでは
なく、マイクロフォンのスイッチのオン/オフ等を使用
することも可能である。
【0025】音声量子化部3は認識処理起動部2からの
開始信号により起動され、音響分析部1で分析された特
徴パラメータをPS辞書記憶部4に登録されている所定
のPS単位の認識辞書と時間軸方向に連続的にマッチン
グ処理し、各フレーム毎に類似度が最大となるPSを量
子化結果として、HMM認識部5に出力する。
開始信号により起動され、音響分析部1で分析された特
徴パラメータをPS辞書記憶部4に登録されている所定
のPS単位の認識辞書と時間軸方向に連続的にマッチン
グ処理し、各フレーム毎に類似度が最大となるPSを量
子化結果として、HMM認識部5に出力する。
【0026】ここで、音声量子化部3でのPSによる連
続マッチング処理は、次式(1)に示す複合LPCメル
ケプストラム類似尺度を用いて行われる。
続マッチング処理は、次式(1)に示す複合LPCメル
ケプストラム類似尺度を用いて行われる。
【0027】
【数1】 なお、(1)式において、CはLPCメルケプストラ
ム、Wm (Ki)、φm (ki)はそれぞれPS名Ki の固有値
から求められる重みと固有ベクトルである。また、(
・ )は内積を示し、‖ ‖はノルムを示している。
ム、Wm (Ki)、φm (ki)はそれぞれPS名Ki の固有値
から求められる重みと固有ベクトルである。また、(
・ )は内積を示し、‖ ‖はノルムを示している。
【0028】さて、本実施例で用いられるPSとして
は、例えば次のようなものがある。
は、例えば次のようなものがある。
【0029】 (1)持続性セグメント :(1−1)母音定常部 (1−2)摩擦子音部 (2)子音セグメント :母音への渡り(過渡部)を
含む部分[半音節] (3)音節境界セグメント:(3−1)母音境界 (3−2)母音、子音境界 (3−3)母音、無音境界 (4)その他のセグメント:無声化母音等 このうち、(1)、(2)および(4)の一部について
は音節を認識セグメントとする場合にも採用されること
が多い。しかし、本実施例におけるPSの長所は、上記
(1)、(2)、(4)に示されるセグメントに加えて
上記(3)の音節境界セグメントを採用したことにあ
る。
含む部分[半音節] (3)音節境界セグメント:(3−1)母音境界 (3−2)母音、子音境界 (3−3)母音、無音境界 (4)その他のセグメント:無声化母音等 このうち、(1)、(2)および(4)の一部について
は音節を認識セグメントとする場合にも採用されること
が多い。しかし、本実施例におけるPSの長所は、上記
(1)、(2)、(4)に示されるセグメントに加えて
上記(3)の音節境界セグメントを採用したことにあ
る。
【0030】HMM認識部5は、音声量子化部3から出
力される各フレーム毎に類似度が最大となるPS、即ち
PS系列(ラベル系列)を受けて、対応する入力音声の
単語照合を行う。このHMM認識部5の単語照合を以下
に説明する。
力される各フレーム毎に類似度が最大となるPS、即ち
PS系列(ラベル系列)を受けて、対応する入力音声の
単語照合を行う。このHMM認識部5の単語照合を以下
に説明する。
【0031】本実施例における単語照合は、上記のよう
にPS系列をラベル系列として求め、これを単語(カテ
ゴリ)毎のHMMに通して行うものである。ここで、H
MMの一般的定式化について述べる。HMMでは、N個
の状態S1 ,S2 ,…,SNを持ち、初期状態がこれら
N個の状態に確率的に分布しているとする。音声では、
一定のフレーム周期毎に、ある確率(遷移確率)で状態
を遷移するモデルが使われる。遷移の際には、ある確率
(出力確率)でラベルを出力するが、ラベルを出力しな
いで状態を遷移するナル遷移を導入することもある。出
力ラベル系列が与えられても状態遷移系列は一意には決
まらない。観測できるのは、ラベル系列だけであること
からhidden(隠れ)markov model (HMM)と呼ばれ
ている。HMMのモデルMは次の6つのパラメータから
定義される。
にPS系列をラベル系列として求め、これを単語(カテ
ゴリ)毎のHMMに通して行うものである。ここで、H
MMの一般的定式化について述べる。HMMでは、N個
の状態S1 ,S2 ,…,SNを持ち、初期状態がこれら
N個の状態に確率的に分布しているとする。音声では、
一定のフレーム周期毎に、ある確率(遷移確率)で状態
を遷移するモデルが使われる。遷移の際には、ある確率
(出力確率)でラベルを出力するが、ラベルを出力しな
いで状態を遷移するナル遷移を導入することもある。出
力ラベル系列が与えられても状態遷移系列は一意には決
まらない。観測できるのは、ラベル系列だけであること
からhidden(隠れ)markov model (HMM)と呼ばれ
ている。HMMのモデルMは次の6つのパラメータから
定義される。
【0032】N :状態数 (状態S1 ,S2 ,
…,SN ) K :ラベル数 (ラベルR=1,2,…,K) pij :遷移確率 Si からSj に遷移する確率 qij(k) :Si からSj への遷移の際にラベルkを出力
する確率 mi :初期状態確率 初期状態がSi である確率 F :最終状態の集合 次に、モデルMに対して音声の特徴を反映した遷移上の
制限を加える。音声では、一般的に状態Si から以前に
通過した状態(Si-1 ,Si-2 ,…)に戻るようなルー
プの遷移は時間的前後関係を乱すため許されない。
…,SN ) K :ラベル数 (ラベルR=1,2,…,K) pij :遷移確率 Si からSj に遷移する確率 qij(k) :Si からSj への遷移の際にラベルkを出力
する確率 mi :初期状態確率 初期状態がSi である確率 F :最終状態の集合 次に、モデルMに対して音声の特徴を反映した遷移上の
制限を加える。音声では、一般的に状態Si から以前に
通過した状態(Si-1 ,Si-2 ,…)に戻るようなルー
プの遷移は時間的前後関係を乱すため許されない。
【0033】この種のHMMの構造としては、図3のよ
うな例が代表的である。
うな例が代表的である。
【0034】HMMの評価は、モデルMが第1位のラベ
ル系列O1 =o11,o21,…,oT1を出力する確率Pr
(O/M)を求めることである。認識時には、HMM認
識部5で各モデルを仮定してPr(O/M)が最大にな
るようなモデルMを探す。
ル系列O1 =o11,o21,…,oT1を出力する確率Pr
(O/M)を求めることである。認識時には、HMM認
識部5で各モデルを仮定してPr(O/M)が最大にな
るようなモデルMを探す。
【0035】また、HMMの学習は、予め学習データの
ラベル系列をHMMに与え、そこでPr(O/M)が最
大となるモデルMのパラメータを推定すればよい。そし
て、その推定パラメータをHMMパラメータ記憶部6に
登録しておく。
ラベル系列をHMMに与え、そこでPr(O/M)が最
大となるモデルMのパラメータを推定すればよい。そし
て、その推定パラメータをHMMパラメータ記憶部6に
登録しておく。
【0036】ここで、本発明に直接関係するワードスポ
ッティング方式について説明する。まず本実施例で適用
されるHMMの構造は、図4に示すようなレフト・ツウ
・ライト(left to right )型であり、10個の状態S
1 ,S2 ,…,S10を持ち、初期状態はS1 のみとす
る。このHMMは、8msecのフレーム周期で、ある遷移
確率で状態を遷移し、その遷移の際に、ある出力確率で
ラベルを出力するモデルである。
ッティング方式について説明する。まず本実施例で適用
されるHMMの構造は、図4に示すようなレフト・ツウ
・ライト(left to right )型であり、10個の状態S
1 ,S2 ,…,S10を持ち、初期状態はS1 のみとす
る。このHMMは、8msecのフレーム周期で、ある遷移
確率で状態を遷移し、その遷移の際に、ある出力確率で
ラベルを出力するモデルである。
【0037】さて、HMM認識部5は、図5にその詳細
を示すように、ラベルバッファ501、終端候補算出部
502、HMM確率演算部503、HMM確率正規化部
504、状態遷移記憶部505、終端検出部506およ
び正規化確率記憶部507から構成される。
を示すように、ラベルバッファ501、終端候補算出部
502、HMM確率演算部503、HMM確率正規化部
504、状態遷移記憶部505、終端検出部506およ
び正規化確率記憶部507から構成される。
【0038】音声量子化部3からHMM認識部5に出力
されるPS系列(ラベル系列)は、同認識部5内のラベ
ルバッファ501に蓄積される。認識処理起動部2によ
り認識処理が起動されて後の最初(第1回)のHMM認
識処理では、ラベルバッファ501に蓄積された第1番
目のフレームF1 のラベルを、HMMへ入力する始端フ
レームSF1 のラベルとする。このときのHMMへ入力
するラベル系列の終端候補は、終端候補算出部502
で、例えば各カテゴリ毎に予め設定した発声長の最小値
LMIN と最大値LMAX の条件を満たす範囲内の全フレー
ムFi (i=LMIN ,…,LMAX )として求められる。
されるPS系列(ラベル系列)は、同認識部5内のラベ
ルバッファ501に蓄積される。認識処理起動部2によ
り認識処理が起動されて後の最初(第1回)のHMM認
識処理では、ラベルバッファ501に蓄積された第1番
目のフレームF1 のラベルを、HMMへ入力する始端フ
レームSF1 のラベルとする。このときのHMMへ入力
するラベル系列の終端候補は、終端候補算出部502
で、例えば各カテゴリ毎に予め設定した発声長の最小値
LMIN と最大値LMAX の条件を満たす範囲内の全フレー
ムFi (i=LMIN ,…,LMAX )として求められる。
【0039】HMM確率演算部503は、SF1 を始端
とし、フレームFi (i=LMIN ,…,LMAX )を終端
と仮定したときのラベル系列に対する確率Pr(S
F1 ,Fi )を求める。
とし、フレームFi (i=LMIN ,…,LMAX )を終端
と仮定したときのラベル系列に対する確率Pr(S
F1 ,Fi )を求める。
【0040】また、HMM確率演算部503は、例えば
周知のビタービ(Viterbi )アルゴリズムを適用して、
入力ラベル系列に対する状態遷移系列の中から最大確率
を与える最適状態遷移系列を求め、後述の状態遷移位置
検出部7での使用のために、この最適状態遷移系列にお
ける状態Si への遷移がどの状態(ここでは同じ状態S
i または1つ前の状態Si-1 )から起きたかを状態遷移
記憶部505に蓄積しておく。
周知のビタービ(Viterbi )アルゴリズムを適用して、
入力ラベル系列に対する状態遷移系列の中から最大確率
を与える最適状態遷移系列を求め、後述の状態遷移位置
検出部7での使用のために、この最適状態遷移系列にお
ける状態Si への遷移がどの状態(ここでは同じ状態S
i または1つ前の状態Si-1 )から起きたかを状態遷移
記憶部505に蓄積しておく。
【0041】HMM確率正規化部504は、HMM確率
演算部503により求められた確率Prを(発声長に影
響されない)正規化確率NPrに発声長で正規化する。
演算部503により求められた確率Prを(発声長に影
響されない)正規化確率NPrに発声長で正規化する。
【0042】終端検出部506は、HMM確率正規化部
504により正規化された正規化確率NPr(SF1 ,
Fi )が最大となる終端候補フレームFi を始端フレー
ムSF1 に対する終端フレームEF1 とし、そのときの
始端フレームSF1 と終端フレームEF1 を正規化確率
記憶部507に蓄積する。また終端検出部506は、最
大の正規化確率NPr(SF1 ,Fi )、即ち正規化確
率NPr(SF1 ,EF1 )を、フレームF1 を始端フ
レームとした時のラベル系列がカテゴリcである確率と
して、正規化確率記憶部507に蓄積する。これらの一
連の処理を全てのカテゴリに対して行うことにより、正
規化確率記憶部507には、始端フレームSF1 、終端
フレームEF1 および正規化確率NPr(SF1 ,EF
1 )が、各カテゴリ毎に蓄積される。
504により正規化された正規化確率NPr(SF1 ,
Fi )が最大となる終端候補フレームFi を始端フレー
ムSF1 に対する終端フレームEF1 とし、そのときの
始端フレームSF1 と終端フレームEF1 を正規化確率
記憶部507に蓄積する。また終端検出部506は、最
大の正規化確率NPr(SF1 ,Fi )、即ち正規化確
率NPr(SF1 ,EF1 )を、フレームF1 を始端フ
レームとした時のラベル系列がカテゴリcである確率と
して、正規化確率記憶部507に蓄積する。これらの一
連の処理を全てのカテゴリに対して行うことにより、正
規化確率記憶部507には、始端フレームSF1 、終端
フレームEF1 および正規化確率NPr(SF1 ,EF
1 )が、各カテゴリ毎に蓄積される。
【0043】次に、認識処理が起動されて後の第2回目
以降の(HMM認識部5における)HMM認識処理で
は、後述の始端フレーム算出部8で求められた始端フレ
ームSFi (i=2,3,…)を始端フレームとして、
第1回目のHMM認識処理と同様に、状態遷移の様子が
状態遷移記憶部505に蓄積され、始端フレームS
Fi、終端フレームEFi および正規化確率NPr(S
Fi ,EFi )が各カテゴリ毎に正規化確率記憶部50
7に蓄積される。
以降の(HMM認識部5における)HMM認識処理で
は、後述の始端フレーム算出部8で求められた始端フレ
ームSFi (i=2,3,…)を始端フレームとして、
第1回目のHMM認識処理と同様に、状態遷移の様子が
状態遷移記憶部505に蓄積され、始端フレームS
Fi、終端フレームEFi および正規化確率NPr(S
Fi ,EFi )が各カテゴリ毎に正規化確率記憶部50
7に蓄積される。
【0044】図1の音声認識装置には、上記の音響分析
部1、認識処理起動部2、音声量子化部3、PS辞書記
憶部4、HMM認識部5およびHMMパラメータ記憶部
6の他に、状態Si から状態Si+1 に遷移したフレーム
を検出する状態遷移位置検出部7、HMM認識部5での
次の認識処理で使用する始端フレームを求める始端フレ
ーム算出部8、HMM認識処理の終了を判定する認識終
了判定部9、図5に示す正規化確率記憶部507に蓄積
されている正規化確率を対象とする比較処理を行う正規
化確率比較部10および同比較部10の各結果をもとに
音声認識結果を出力する認識結果出力部11が設けられ
ている。
部1、認識処理起動部2、音声量子化部3、PS辞書記
憶部4、HMM認識部5およびHMMパラメータ記憶部
6の他に、状態Si から状態Si+1 に遷移したフレーム
を検出する状態遷移位置検出部7、HMM認識部5での
次の認識処理で使用する始端フレームを求める始端フレ
ーム算出部8、HMM認識処理の終了を判定する認識終
了判定部9、図5に示す正規化確率記憶部507に蓄積
されている正規化確率を対象とする比較処理を行う正規
化確率比較部10および同比較部10の各結果をもとに
音声認識結果を出力する認識結果出力部11が設けられ
ている。
【0045】状態遷移位置検出部7は、HMM認識部5
内の状態遷移記憶部505(図5参照)に蓄積された始
端フレームSFi から終端フレームEFi に至るラベル
系列に対する状態遷移の様子を、終端フレームEFi か
ら始端フレームSFi に向かって逆にたどることによ
り、状態Si から状態Si+1 に遷移したフレームを検出
する。
内の状態遷移記憶部505(図5参照)に蓄積された始
端フレームSFi から終端フレームEFi に至るラベル
系列に対する状態遷移の様子を、終端フレームEFi か
ら始端フレームSFi に向かって逆にたどることによ
り、状態Si から状態Si+1 に遷移したフレームを検出
する。
【0046】始端フレーム算出部8は、HMM認識部5
での次の認識処理で使用するための始端フレームを、状
態遷移位置検出部7によって検出されたフレーム(状態
遷移位置)を基準として算出する。この始端フレーム算
出部8による始端フレーム算出処理の一例を、図6のフ
ローチャートを参照して説明する。
での次の認識処理で使用するための始端フレームを、状
態遷移位置検出部7によって検出されたフレーム(状態
遷移位置)を基準として算出する。この始端フレーム算
出部8による始端フレーム算出処理の一例を、図6のフ
ローチャートを参照して説明する。
【0047】まず始端フレーム算出部8は、状態遷移位
置検出部7の検出結果により、状態S1 から状態S2 へ
遷移するフレームTF1 を求める(ステップS1)。
置検出部7の検出結果により、状態S1 から状態S2 へ
遷移するフレームTF1 を求める(ステップS1)。
【0048】次に始端フレーム算出部8は、前回のHM
M認識処理で使用された始端フレームSFi とステップ
S1で求めたフレームTF1 (のフレーム番号)を比較
する(ステップS2)。
M認識処理で使用された始端フレームSFi とステップ
S1で求めたフレームTF1 (のフレーム番号)を比較
する(ステップS2)。
【0049】始端フレーム算出部8は、ステップS2で
の比較の結果、TF1 −SFi があるフレーム数を示す
閾値TMAX より大きい場合には、次の始端フレームSF
i+1をSFi+1 =TF1 −TMAX とする(ステップS
3)。
の比較の結果、TF1 −SFi があるフレーム数を示す
閾値TMAX より大きい場合には、次の始端フレームSF
i+1をSFi+1 =TF1 −TMAX とする(ステップS
3)。
【0050】また始端フレーム算出部8は、ステップS
2での比較の結果、TF1 −SFiが上記閾値TMAX 以
下でかつ0より大きい場合には、次の始端フレームSF
i+1をSFi+1 =TF1 とする(ステップS4)。
2での比較の結果、TF1 −SFiが上記閾値TMAX 以
下でかつ0より大きい場合には、次の始端フレームSF
i+1をSFi+1 =TF1 とする(ステップS4)。
【0051】また始端フレーム算出部8は、ステップS
2での比較の結果、TF1 −SFiが0、即ちTF1 =
SFi の場合には、TF1 にあるフレーム数を示す閾値
TMIN を加えて、次の始端フレームSFi+1 をSFi+1
=TF1 +TMIN とする(ステップS5)。
2での比較の結果、TF1 −SFiが0、即ちTF1 =
SFi の場合には、TF1 にあるフレーム数を示す閾値
TMIN を加えて、次の始端フレームSFi+1 をSFi+1
=TF1 +TMIN とする(ステップS5)。
【0052】このように本実施例では、HMM認識部5
で使用する始端フレームを、従来のように全てのフレー
ムとするのではないことに注意されたい。即ち本実施例
では、前回のHMM認識処理で正規化確率が最大となっ
たラベル系列において、状態S1 から状態S2 へ遷移し
たフレームを状態遷移位置検出部7にて検出し、次のH
MM認識処理で使用する始端フレームを、この検出され
たフレームをもとに始端フレーム算出部8にて算出する
ことにより、始端フレームとなるフレーム数を大幅に削
減することができ、高速にかつ精度良く入力音声中から
認識対象単語のみを認識することが可能となる。
で使用する始端フレームを、従来のように全てのフレー
ムとするのではないことに注意されたい。即ち本実施例
では、前回のHMM認識処理で正規化確率が最大となっ
たラベル系列において、状態S1 から状態S2 へ遷移し
たフレームを状態遷移位置検出部7にて検出し、次のH
MM認識処理で使用する始端フレームを、この検出され
たフレームをもとに始端フレーム算出部8にて算出する
ことにより、始端フレームとなるフレーム数を大幅に削
減することができ、高速にかつ精度良く入力音声中から
認識対象単語のみを認識することが可能となる。
【0053】なお、上記の始端フレーム算出部8で使用
される閾値TMAX ,TMIN は、値が大きい程、始端フレ
ームとなるフレーム数の削減効果が高くなるが、余り大
きくなると高精度で認識することができなくなる。そこ
で本実施例では、認識対象となる単語の平均的な発声長
を800msecとすると、1フレームの長さ(フレーム周
期)が8msec、HMMの状態数が10であり、したがっ
て1つの状態での平均的な滞留フレーム数が800/8
/10=10であることから、TMAX ,TMINを共に1
0(10フレーム)とすることで、始端フレームとなる
フレーム数の削減効果が高く、しかも高精度で認識でき
るようにしている。勿論、入力音声の発声長に応じてT
MAX ,TMIN を可変設定することも可能である。
される閾値TMAX ,TMIN は、値が大きい程、始端フレ
ームとなるフレーム数の削減効果が高くなるが、余り大
きくなると高精度で認識することができなくなる。そこ
で本実施例では、認識対象となる単語の平均的な発声長
を800msecとすると、1フレームの長さ(フレーム周
期)が8msec、HMMの状態数が10であり、したがっ
て1つの状態での平均的な滞留フレーム数が800/8
/10=10であることから、TMAX ,TMINを共に1
0(10フレーム)とすることで、始端フレームとなる
フレーム数の削減効果が高く、しかも高精度で認識でき
るようにしている。勿論、入力音声の発声長に応じてT
MAX ,TMIN を可変設定することも可能である。
【0054】始端フレーム算出部8により次の始端フレ
ーム(SFi+1 )が算出されると、認識終了判定部9
は、認識処理を終了するか否か(再度HMM認識処理を
行わせるか)を判定する。この判定条件としては、例え
ば、音響分析部1で求められた入力音声のパワーの値が
閾値を一定時間以上下回ったフレームに、上記算出され
た始端フレームが達したか否か、あるいは算出された始
端フレームが予め設定されたフレームに達したか否かな
どである。
ーム(SFi+1 )が算出されると、認識終了判定部9
は、認識処理を終了するか否か(再度HMM認識処理を
行わせるか)を判定する。この判定条件としては、例え
ば、音響分析部1で求められた入力音声のパワーの値が
閾値を一定時間以上下回ったフレームに、上記算出され
た始端フレームが達したか否か、あるいは算出された始
端フレームが予め設定されたフレームに達したか否かな
どである。
【0055】認識終了判定部9で認識処理を終了しない
と判定した場合、同判定部9は始端フレーム算出部8に
より求められたフレーム(SFi+1 )を始端とするラベ
ル系列をHMMへ入力して次の第(i+1)回目の認識
処理を行うように、HMM認識部5に要求する。
と判定した場合、同判定部9は始端フレーム算出部8に
より求められたフレーム(SFi+1 )を始端とするラベ
ル系列をHMMへ入力して次の第(i+1)回目の認識
処理を行うように、HMM認識部5に要求する。
【0056】これに対し、認識終了判定部9で認識処理
を終了すると判定した場合には、正規化確率比較部10
が起動される。これにより正規化確率比較部10は、H
MM認識部5内の正規化確率記憶部507(図5参照)
に蓄積された各始端フレームに対する正規化確率の比較
と、カテゴリ間の正規化確率の比較を行う。更に具体的
に述べるならば、まず正規化確率比較部10は、正規化
確率記憶部507に蓄積された各始端フレームに対する
正規化確率の比較を各カテゴリについて行い、各カテゴ
リ毎に最大の正規化確率を検出する。次に正規化確率比
較部10は、各カテゴリ毎の最大の正規化確率を比較し
て、全カテゴリの中で最大の正規化確率を検出する。認
識結果出力部11は、この正規化確率比較部10の比較
結果をもとに、正規化確率が最大となるカテゴリを入力
音声に対する認識結果として出力する。
を終了すると判定した場合には、正規化確率比較部10
が起動される。これにより正規化確率比較部10は、H
MM認識部5内の正規化確率記憶部507(図5参照)
に蓄積された各始端フレームに対する正規化確率の比較
と、カテゴリ間の正規化確率の比較を行う。更に具体的
に述べるならば、まず正規化確率比較部10は、正規化
確率記憶部507に蓄積された各始端フレームに対する
正規化確率の比較を各カテゴリについて行い、各カテゴ
リ毎に最大の正規化確率を検出する。次に正規化確率比
較部10は、各カテゴリ毎の最大の正規化確率を比較し
て、全カテゴリの中で最大の正規化確率を検出する。認
識結果出力部11は、この正規化確率比較部10の比較
結果をもとに、正規化確率が最大となるカテゴリを入力
音声に対する認識結果として出力する。
【0057】以上に実施例を挙げて本発明を説明した
が、本発明は前記実施例に限るものではない。即ち、本
発明の要旨とするところは、入力音声中から認識対象と
する単語のみを抽出して認識するために、始端フレーム
位置を変更してHMM認識処理を繰り返し行う際に、全
てのフレームを始端フレームとするのではなく、前回の
HMM認識処理で得られた状態遷移位置から次のHMM
認識処理で使用する始端フレームを求めることにあり、
したがって、HMMの構造、状態遷移位置検出方法など
は前記実施例で示したものに限らない。
が、本発明は前記実施例に限るものではない。即ち、本
発明の要旨とするところは、入力音声中から認識対象と
する単語のみを抽出して認識するために、始端フレーム
位置を変更してHMM認識処理を繰り返し行う際に、全
てのフレームを始端フレームとするのではなく、前回の
HMM認識処理で得られた状態遷移位置から次のHMM
認識処理で使用する始端フレームを求めることにあり、
したがって、HMMの構造、状態遷移位置検出方法など
は前記実施例で示したものに限らない。
【0058】また、前記実施例では、状態S1 から状態
S2 へ遷移するフレーム(TF1 )をもとに次の始端フ
レームを求めたが、状態S2 から状態S3 へ遷移するフ
レーム等、その他の状態遷移位置を用いてもよい。ま
た、状態遷移位置から始端フレームを算出する方法も前
記実施例で示したものに限らず、常に“状態遷移位置+
LMIN ”を次の始端フレームとするようにしてもよい。
S2 へ遷移するフレーム(TF1 )をもとに次の始端フ
レームを求めたが、状態S2 から状態S3 へ遷移するフ
レーム等、その他の状態遷移位置を用いてもよい。ま
た、状態遷移位置から始端フレームを算出する方法も前
記実施例で示したものに限らず、常に“状態遷移位置+
LMIN ”を次の始端フレームとするようにしてもよい。
【0059】また、前記実施例では、音声を量子化する
単位をPSとしたが、量子化の単位は音素、音節であっ
てもよく、更に音響学的分類とは異なるクラスタリング
手法を用いて量子化した単位を用いてもよい。その他、
本発明はその要旨を逸脱しない範囲で種々変形して実施
することができる。
単位をPSとしたが、量子化の単位は音素、音節であっ
てもよく、更に音響学的分類とは異なるクラスタリング
手法を用いて量子化した単位を用いてもよい。その他、
本発明はその要旨を逸脱しない範囲で種々変形して実施
することができる。
【0060】
【発明の効果】以上説明したように本発明によれば、入
力される音声信号から求められたラベル系列をカテゴリ
毎に用意されたHMMを用いて認識処理し、この認識処
理毎に、入力されたラベル系列に対してHMMの状態が
遷移したフレームを求めて、このHMMの状態が遷移し
たフレームから、次にHMMへ入力するラベル系列の始
端フレームを求め、このフレームを始端とするラベル系
列をHMMへ入力して次の認識処理を行う構成とするこ
とにより、始端フレームとなるフレーム数を大幅に減ら
して、認識対象とする音声区間を精度良く、かつ高速に
検出することが可能となり、音声を高精度に認識するこ
とができる等の実用上多大なる効果が奏せられる。
力される音声信号から求められたラベル系列をカテゴリ
毎に用意されたHMMを用いて認識処理し、この認識処
理毎に、入力されたラベル系列に対してHMMの状態が
遷移したフレームを求めて、このHMMの状態が遷移し
たフレームから、次にHMMへ入力するラベル系列の始
端フレームを求め、このフレームを始端とするラベル系
列をHMMへ入力して次の認識処理を行う構成とするこ
とにより、始端フレームとなるフレーム数を大幅に減ら
して、認識対象とする音声区間を精度良く、かつ高速に
検出することが可能となり、音声を高精度に認識するこ
とができる等の実用上多大なる効果が奏せられる。
【図1】本発明を適用する音声認識装置の一実施例を示
す基本ブロック構成図。
す基本ブロック構成図。
【図2】図1の装置における音響分析部1の構成を示す
ブロック図。
ブロック図。
【図3】HMMの構成の代表例を示す図。
【図4】図1の装置で適用されるHMMの構成を示す
図。
図。
【図5】図1の装置におけるHMM認識部5の構成を示
すブロック図。
すブロック図。
【図6】図1の装置における始端フレーム算出部8によ
る始端フレーム算出処理の一例を示すフローチャート。
る始端フレーム算出処理の一例を示すフローチャート。
1…音響分析部、2…認識処理起動部、3…音声量子化
部、5…HMM認識部、6…HMMパラメータ記憶部、
7…状態遷移位置検出部、8…始端フレーム算出部、9
…認識終了判定部、10…正規化確率比較部、11…認
識結果出力部、503…HMM確率演算部、505…状
態遷移記憶部、506…終端検出部、507…正規化確
率記憶部。
部、5…HMM認識部、6…HMMパラメータ記憶部、
7…状態遷移位置検出部、8…始端フレーム算出部、9
…認識終了判定部、10…正規化確率比較部、11…認
識結果出力部、503…HMM確率演算部、505…状
態遷移記憶部、506…終端検出部、507…正規化確
率記憶部。
Claims (1)
- 【請求項1】入力される音声信号を音響分析することに
より特徴パラメータを求める音響分析手段と、 この音響分析手段により求められた特徴パラメータから
フレーム毎にラベルを求める音声量子化手段と、 この音声量子化手段により求められたラベルの系列をカ
テゴリ毎に用意されたHMM(Hidden Markov Model )
を用いて認識する認識手段と、 この認識手段による認識処理の都度、前記HMMに入力
されたラベル系列に対して前記HMMの状態が遷移した
フレームを求める状態遷移位置検出手段と、 この状態遷移位置検出手段により求められた状態遷移フ
レームの位置を基準として、次の認識処理で前記HMM
へ入力するラベル系列の始端となるフレームを求める始
端フレーム算出手段と、 を具備し、前記始端フレーム算出手段により求められた
フレームを始端とするラベル系列を前記HMMへ入力し
て前記認識手段における次の認識処理を行うようにした
ことを特徴とする音声認識方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP18545292A JPH0635496A (ja) | 1992-07-13 | 1992-07-13 | 音声認識方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP18545292A JPH0635496A (ja) | 1992-07-13 | 1992-07-13 | 音声認識方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0635496A true JPH0635496A (ja) | 1994-02-10 |
Family
ID=16171049
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP18545292A Pending JPH0635496A (ja) | 1992-07-13 | 1992-07-13 | 音声認識方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0635496A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007057844A (ja) * | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | 音声認識システムおよび音声処理システム |
-
1992
- 1992-07-13 JP JP18545292A patent/JPH0635496A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007057844A (ja) * | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | 音声認識システムおよび音声処理システム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109155132B (zh) | 说话者验证方法和系统 | |
| JP4351385B2 (ja) | 連続および分離音声を認識するための音声認識システム | |
| EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
| US7089184B2 (en) | Speech recognition for recognizing speaker-independent, continuous speech | |
| JPH0968994A (ja) | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 | |
| KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
| JP4666129B2 (ja) | 発声速度正規化分析を用いた音声認識装置 | |
| JP4237713B2 (ja) | 音声処理装置 | |
| US7315819B2 (en) | Apparatus for performing speaker identification and speaker searching in speech or sound image data, and method thereof | |
| US20030220792A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
| JP4696418B2 (ja) | 情報検出装置及び方法 | |
| US20070136060A1 (en) | Recognizing entries in lexical lists | |
| JP2001195087A (ja) | 音声認識システム | |
| JPH0635496A (ja) | 音声認識方式 | |
| JP3615088B2 (ja) | 音声認識方法及び装置 | |
| JPH0997095A (ja) | 音声認識装置 | |
| JP4749990B2 (ja) | 音声認識装置 | |
| JPH05303391A (ja) | 音声認識装置 | |
| JP3357752B2 (ja) | パターンマッチング装置 | |
| JP3231365B2 (ja) | 音声認識装置 | |
| JPH0772899A (ja) | 音声認識装置 | |
| JP2003345384A (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
| JPH0627988A (ja) | 音声認識方法および装置 | |
| JPH11338492A (ja) | 話者認識装置 | |
| JPH06337695A (ja) | 音声認識装置 |