JPH04254897A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPH04254897A JPH04254897A JP3036706A JP3670691A JPH04254897A JP H04254897 A JPH04254897 A JP H04254897A JP 3036706 A JP3036706 A JP 3036706A JP 3670691 A JP3670691 A JP 3670691A JP H04254897 A JPH04254897 A JP H04254897A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- voice
- registered
- amount
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】本発明は、入力音声の特徴量と標
準パターンの特徴量とのマッチングを行なうことにより
入力音声を認識する音声認識方式に関する。
準パターンの特徴量とのマッチングを行なうことにより
入力音声を認識する音声認識方式に関する。
【0002】
【従来の技術】入力音声の特徴量と標準パターンの特徴
量とのマッチングを行なうことにより入力音声を認識さ
せようとする場合に、一般に、同じ話者の発声であって
も入力音声の時間的長さはその都度変動し、しかも非線
形に伸縮するので、入力音声と登録音声の標準パターン
との同じ音素同士が対応するように時間軸を非線形に伸
縮する時間正規化を行なう必要がある。このため、この
種の音声認識方式には動的計画法(DP:ダイナミック
プログラミング)を用いたマッチング(以下、DPマッ
チングと称す)が採用されている。
量とのマッチングを行なうことにより入力音声を認識さ
せようとする場合に、一般に、同じ話者の発声であって
も入力音声の時間的長さはその都度変動し、しかも非線
形に伸縮するので、入力音声と登録音声の標準パターン
との同じ音素同士が対応するように時間軸を非線形に伸
縮する時間正規化を行なう必要がある。このため、この
種の音声認識方式には動的計画法(DP:ダイナミック
プログラミング)を用いたマッチング(以下、DPマッ
チングと称す)が採用されている。
【0003】しかしながら、DPマッチングは、通常処
理量が多く、特に、騒音下での音声認識に適したワード
スポッティング法において用いられる連続DPでは、さ
らに多くの処理量が必要となる。
理量が多く、特に、騒音下での音声認識に適したワード
スポッティング法において用いられる連続DPでは、さ
らに多くの処理量が必要となる。
【0004】DPマッチングにおける処理量を削減する
のに、従来、例えば特開平1−283599号に開示さ
れているような音声認識方式が知られている。この音声
認識方式では、所定時間(フレーム)ごとに、BPF(
帯域通過フィルタ)出力値やLPC(線形予測)分析結
果などを入力音声の第1の特徴量として抽出し、また短
時間エネルギー(パワー)の増減傾向やホルマントの遷
移状態を第2の特徴量として抽出する。しかる後、DP
マッチングにおいては、入力音声の第1の特徴量と登録
音声の第1の特徴量とからこれらのフレーム間距離を算
出し、この際に、入力音声の第2の特徴量と登録音声の
第2の特徴量との局所的な似具合いに基づく入力音声と
登録音声とのパターン間の時間的対応付けの情報を用い
て、照合範囲が限定されたDPマッチングが実行され、
その照合値を基にして最終的な認識結果を得るようにな
っている。
のに、従来、例えば特開平1−283599号に開示さ
れているような音声認識方式が知られている。この音声
認識方式では、所定時間(フレーム)ごとに、BPF(
帯域通過フィルタ)出力値やLPC(線形予測)分析結
果などを入力音声の第1の特徴量として抽出し、また短
時間エネルギー(パワー)の増減傾向やホルマントの遷
移状態を第2の特徴量として抽出する。しかる後、DP
マッチングにおいては、入力音声の第1の特徴量と登録
音声の第1の特徴量とからこれらのフレーム間距離を算
出し、この際に、入力音声の第2の特徴量と登録音声の
第2の特徴量との局所的な似具合いに基づく入力音声と
登録音声とのパターン間の時間的対応付けの情報を用い
て、照合範囲が限定されたDPマッチングが実行され、
その照合値を基にして最終的な認識結果を得るようにな
っている。
【0005】
【発明が解決しようとする課題】このように上述した従
来の音声認識方式では、入力音声の第2の特徴量と登録
音声の第2の特徴量との局所的な似具合いに基づく入力
音声と登録音声とのパターン間の時間的対応付けの情報
により、第1の特徴量のDPマッチングのパスを局所的
に制限してDPマッチングにおける処理量をある程度は
削減できるが、第1の特徴量自体の情報量が多いので、
DPマッチングのパスを局所的に制限しても、処理量を
大幅に削減することができないという問題があった。
来の音声認識方式では、入力音声の第2の特徴量と登録
音声の第2の特徴量との局所的な似具合いに基づく入力
音声と登録音声とのパターン間の時間的対応付けの情報
により、第1の特徴量のDPマッチングのパスを局所的
に制限してDPマッチングにおける処理量をある程度は
削減できるが、第1の特徴量自体の情報量が多いので、
DPマッチングのパスを局所的に制限しても、処理量を
大幅に削減することができないという問題があった。
【0006】本発明は、入力音声の特徴量と登録音声の
特徴量とのDPマッチングにおける処理量を大幅に削減
することの可能な音声認識方式を提供することを目的と
している。
特徴量とのDPマッチングにおける処理量を大幅に削減
することの可能な音声認識方式を提供することを目的と
している。
【0007】
【課題を解決するための手段】上記目的を達成するため
に本発明は、入力音声の特徴量と予め登録された複数の
登録音声の特徴量とのマッチングを行なうことにより入
力音声を認識する音声認識方式において、前記入力音声
の特徴量と前記各登録音声の特徴量とは、いずれも、比
較的情報量の少ない第1の特徴量と、比較的情報量の多
い第2の特徴量とからなり、前記入力音声の第1の特徴
量と前記各登録音声の第1の特徴量とに基づき、動的計
画法を用いて入力音声と各登録音声とのマッチングパス
を決定し、該マッチングパスに時間的にそれぞれ対応す
る前記入力音声の第2の特徴量と前記各登録音声の第2
の特徴量とを用いて、入力音声と各登録音声との尤度を
求め、該尤度に基づき入力音声の認識結果を得るように
なっていることを特徴としている。また、前記入力音声
および前記各登録音声の第1の特徴量は、音声のパワー
の変化率を用いた特徴量であることを特徴としている。 また、前記入力音声の第1の特徴量を求める際に、入力
音声のパワーの値が予め定められたパワーの下限値に満
たない場合には、該パワーの下限値を入力音声のパワー
の値として用いるようになっていることを特徴としてい
る。また、入力音声の第1の特徴量と各登録音声の第1
の特徴量とに基づき、入力音声と各登録音声のマッチン
グパスを決定する際には、入力音声の第1の特徴量と各
登録音声の第1の特徴量との距離が求められ、該距離の
値に応じて候補の絞り込みを行ない、絞られた候補の登
録音声に対してのみ、第2の特徴量を用いて尤度が求め
られるようになっていることを特徴としている。
に本発明は、入力音声の特徴量と予め登録された複数の
登録音声の特徴量とのマッチングを行なうことにより入
力音声を認識する音声認識方式において、前記入力音声
の特徴量と前記各登録音声の特徴量とは、いずれも、比
較的情報量の少ない第1の特徴量と、比較的情報量の多
い第2の特徴量とからなり、前記入力音声の第1の特徴
量と前記各登録音声の第1の特徴量とに基づき、動的計
画法を用いて入力音声と各登録音声とのマッチングパス
を決定し、該マッチングパスに時間的にそれぞれ対応す
る前記入力音声の第2の特徴量と前記各登録音声の第2
の特徴量とを用いて、入力音声と各登録音声との尤度を
求め、該尤度に基づき入力音声の認識結果を得るように
なっていることを特徴としている。また、前記入力音声
および前記各登録音声の第1の特徴量は、音声のパワー
の変化率を用いた特徴量であることを特徴としている。 また、前記入力音声の第1の特徴量を求める際に、入力
音声のパワーの値が予め定められたパワーの下限値に満
たない場合には、該パワーの下限値を入力音声のパワー
の値として用いるようになっていることを特徴としてい
る。また、入力音声の第1の特徴量と各登録音声の第1
の特徴量とに基づき、入力音声と各登録音声のマッチン
グパスを決定する際には、入力音声の第1の特徴量と各
登録音声の第1の特徴量との距離が求められ、該距離の
値に応じて候補の絞り込みを行ない、絞られた候補の登
録音声に対してのみ、第2の特徴量を用いて尤度が求め
られるようになっていることを特徴としている。
【0008】
【作用】本発明では、比較的情報量の少ない第1の特徴
量を用いて、動的計画法で入力音声と各登録音声とのマ
ッチングパスを決定し、マッチングパスを大幅に制限し
てから、このマッチングパスに従って比較的情報量の多
い第2の特徴量を用いて入力音声と各登録音声との尤度
を求めるので、処理量を低減できる。
量を用いて、動的計画法で入力音声と各登録音声とのマ
ッチングパスを決定し、マッチングパスを大幅に制限し
てから、このマッチングパスに従って比較的情報量の多
い第2の特徴量を用いて入力音声と各登録音声との尤度
を求めるので、処理量を低減できる。
【0009】比較的情報量の少ない第1の特徴量として
は、音声のパワーの変化率を用いることができ、この場
合、入力音声のパワーの値が予め定められたパワーの下
限値に満たない場合には、このパワーの下限値を入力音
声のパワーの値として用いる。
は、音声のパワーの変化率を用いることができ、この場
合、入力音声のパワーの値が予め定められたパワーの下
限値に満たない場合には、このパワーの下限値を入力音
声のパワーの値として用いる。
【0010】また、入力音声と各登録音声とのマッチン
グパスを決定する際に、入力音声の第1の特徴量と各登
録音声の第1の特徴量との距離を求め、距離の値に応じ
て各登録音声,すなわち候補の絞り込みを行なった上で
、第2の特徴量を用いて尤度を求めるようにすれば、さ
らに処理量を低減できる。
グパスを決定する際に、入力音声の第1の特徴量と各登
録音声の第1の特徴量との距離を求め、距離の値に応じ
て各登録音声,すなわち候補の絞り込みを行なった上で
、第2の特徴量を用いて尤度を求めるようにすれば、さ
らに処理量を低減できる。
【0011】
【実施例】以下、本発明の一実施例を図面に基づいて説
明する。図1は本発明の一実施例のブロック図である。 図1を参照すると、本実施例では、入力音声から一定の
フレーム周期(10〜20ms)毎に特徴量を抽出する
特徴量抽出部1と、入力音声の音声区間を検出する音声
区間検出部2と、複数の登録音声の特徴量が予め記憶さ
れている登録音声メモリ3と、動的計画法(DP)を用
いて入力音声の特徴量と登録音声の特徴量とのDPマッ
チングを行なうマッチング部4とが設けられている。
明する。図1は本発明の一実施例のブロック図である。 図1を参照すると、本実施例では、入力音声から一定の
フレーム周期(10〜20ms)毎に特徴量を抽出する
特徴量抽出部1と、入力音声の音声区間を検出する音声
区間検出部2と、複数の登録音声の特徴量が予め記憶さ
れている登録音声メモリ3と、動的計画法(DP)を用
いて入力音声の特徴量と登録音声の特徴量とのDPマッ
チングを行なうマッチング部4とが設けられている。
【0012】特徴量抽出部1に入力する入力音声は、例
えばマイクアンプやアンチエリアスフィルタを介してA
/D変換器でデジタル化されたものであり、特徴量抽出
部1では、入力音声の特徴量として、比較的に情報量の
少ない第1の特徴量と、比較的に情報量の多い第2の特
徴量とを抽出するようになっている。
えばマイクアンプやアンチエリアスフィルタを介してA
/D変換器でデジタル化されたものであり、特徴量抽出
部1では、入力音声の特徴量として、比較的に情報量の
少ない第1の特徴量と、比較的に情報量の多い第2の特
徴量とを抽出するようになっている。
【0013】入力音声の第1の特徴量としては、例えば
、入力音声のパワーの変化率が用いられ、この場合には
、入力音声の第1の特徴量Px(i)は、各フレームの
入力音声のパワーをe(i)とすると、
、入力音声のパワーの変化率が用いられ、この場合には
、入力音声の第1の特徴量Px(i)は、各フレームの
入力音声のパワーをe(i)とすると、
【0014】
【数1】
として抽出される。ここで、iは、フレーム番号である
。
。
【0015】また、第2の特徴量としては、例えば、バ
ンドパスフィルタ(BPF)バンクで得られる公知の短
時間スペクトルSx(i,ω)が用いられる。
ンドパスフィルタ(BPF)バンクで得られる公知の短
時間スペクトルSx(i,ω)が用いられる。
【0016】音声区間検出部2は、例えば、入力音声の
パワーe(i)が予め定められている閾値を超えたか否
かにより音声区間を検出するようになっている。
パワーe(i)が予め定められている閾値を超えたか否
かにより音声区間を検出するようになっている。
【0017】また、登録音声メモリ3には、登録音声の
特徴量として、入力音声の第1,第2の特徴量と対応さ
せた形で、第1の特徴量Ptk(j),第2の特徴量S
tk(j,ω)が記憶されている。ここで、jはフレー
ム番号であり、kは登録音声番号である。
特徴量として、入力音声の第1,第2の特徴量と対応さ
せた形で、第1の特徴量Ptk(j),第2の特徴量S
tk(j,ω)が記憶されている。ここで、jはフレー
ム番号であり、kは登録音声番号である。
【0018】マッチング部4は、音声区間検出部2で検
出された音声区間の入力音声の第1の特徴量Px(i)
と各登録音声毎の第1の特徴量Ptk(j)とを用いて
、動的計画法(DP)によりDPマッチングを行ない、
最小の距離をPx(i)とPtk(j)との距離として
記憶し、またその距離を与えたマッチングパスを記憶す
るようになっており、このようにして全ての登録音声に
対する第1の特徴量の距離を求めた後、これらの距離の
うちで閾値以上の距離を与えた登録音声を認識対象から
除外し、候補の絞り込みを行なうようになっている。マ
ッチング部4は、次いで、入力音声の第2の特徴量Sx
(i,ω)と、絞り込まれた候補の各登録音声の第2の
特徴量Stk(j,ω)に対して、各登録音声毎に記憶
されているマッチングパスのみを用いて距離を計算し、
これを入力音声と各登録音声との距離とし、これらの距
離のうちで最小のものが予め定められた閾値以下の場合
に、その最小の距離を与えた登録音声のカテゴリーを認
識結果として出力するようになっている。
出された音声区間の入力音声の第1の特徴量Px(i)
と各登録音声毎の第1の特徴量Ptk(j)とを用いて
、動的計画法(DP)によりDPマッチングを行ない、
最小の距離をPx(i)とPtk(j)との距離として
記憶し、またその距離を与えたマッチングパスを記憶す
るようになっており、このようにして全ての登録音声に
対する第1の特徴量の距離を求めた後、これらの距離の
うちで閾値以上の距離を与えた登録音声を認識対象から
除外し、候補の絞り込みを行なうようになっている。マ
ッチング部4は、次いで、入力音声の第2の特徴量Sx
(i,ω)と、絞り込まれた候補の各登録音声の第2の
特徴量Stk(j,ω)に対して、各登録音声毎に記憶
されているマッチングパスのみを用いて距離を計算し、
これを入力音声と各登録音声との距離とし、これらの距
離のうちで最小のものが予め定められた閾値以下の場合
に、その最小の距離を与えた登録音声のカテゴリーを認
識結果として出力するようになっている。
【0019】次にこのような構成における音声認識処理
動作について説明する。本実施例では、入力音声の第1
の特徴量として、数1で示されるようなフレームiごと
のパワーの変動量Px(i)を用いる。これにより、入
力音声の第1の特徴量Pxは、
動作について説明する。本実施例では、入力音声の第1
の特徴量として、数1で示されるようなフレームiごと
のパワーの変動量Px(i)を用いる。これにより、入
力音声の第1の特徴量Pxは、
【0020】
【数2】
の時系列で表わされる。また、登録音声番号kの登録音
声の第1の特徴量Ptkは、
声の第1の特徴量Ptkは、
【0021】
【数3】
の時系列で表わされる。
【0022】図2で示すようなPx,Ptkからなる平
面を考えると、マッチングパスL,すなわち、PxとP
tkとの時間軸の対応付けは、この平面上の格子点C=
(i,j)の系列F,すなわち、
面を考えると、マッチングパスL,すなわち、PxとP
tkとの時間軸の対応付けは、この平面上の格子点C=
(i,j)の系列F,すなわち、
【0023】
【数4】
として表現することができる。2つの特徴量Px(i)
,Ptk(j)との距離をd(c)=d(i,j)で表
わすと、Fに沿った距離の総和Dk(F)は、
,Ptk(j)との距離をd(c)=d(i,j)で表
わすと、Fに沿った距離の総和Dk(F)は、
【002
4】
4】
【数5】
として表わすことができ、この値が小さい程、PxとP
tkとの対応付けが良いことを示す。ここで、wlはF
に関連した正の重み関数である。
tkとの対応付けが良いことを示す。ここで、wlはF
に関連した正の重み関数である。
【0025】マッチング部4では、動的計画法(DP)
を用い、数5を次のような制約条件の下でFに関して最
小化する。すなわち、単調性と連続性の条件として、
を用い、数5を次のような制約条件の下でFに関して最
小化する。すなわち、単調性と連続性の条件として、
【
0026】
0026】
【数6】
を設定し、境界条件として、
【0027】
【数7】
を設定し、整合窓Wの条件として(すなわち,極端な伸
縮を防ぐためrを定数として)、
縮を防ぐためrを定数として)、
【0028】
【数8】
を設定し、さらに数5で分母がFに依存しない定数にな
るようにwlを定めると、数5は簡単化される。例えば
、
るようにwlを定めると、数5は簡単化される。例えば
、
【0029】
【数9】
とすると、wlは碁盤の縦横の線に沿ったパス(経路)
,すなわち市街化距離となり、
,すなわち市街化距離となり、
【0030】
【数10】
となる。このとき、数5は、
【0031】
【数11】
となり、最小化する目的関数が加法的になる。動的計画
法では、この最小化を行なうのに、
法では、この最小化を行なうのに、
【0032】
【数12】
の部分和を考え、これを、数6乃至数8の条件と数9と
を用いて、
を用いて、
【0033】
【数13】
の漸化式で表わし、g(1,1)=2d(1,1),J
=1として、整合窓Wの範囲内でiを変えながら数13
を計算し、次にjを増加させて、j=Jとなるまで同様
の計算を繰り返せば、最後に入力音声の特徴量Px(i
)と登録音声の特徴量Ptk(j)との2つの時系列間
の時間正規化後の距離Dkを、
=1として、整合窓Wの範囲内でiを変えながら数13
を計算し、次にjを増加させて、j=Jとなるまで同様
の計算を繰り返せば、最後に入力音声の特徴量Px(i
)と登録音声の特徴量Ptk(j)との2つの時系列間
の時間正規化後の距離Dkを、
【0034】
【数14】
として求めることができる。
【0035】このようにして求められた距離Dkと、そ
の距離Dkを与えたマッチングパスL,すなわち数13
の演算で選択された(i,j)の履歴は、所定のメモリ
(図示せず)に記憶される。例えば、整合窓Wの定数r
を用いると、パスは最大(2r+1)個となり、また、
1つの最大長さは、(Imax+2r+1)となる。こ
こでImaxは、入力音声の最大フレーム長である。従
って、マッチングパスLを記憶するのに、メモリとして
は、(2r+1)(Imax+2r+1)個が必要であ
る。メモリへのマッチングパスMPの記憶法としては、
数13において(a)が選択された場合には、g(i,
j−1)のパスに(i,j)を加え、(b)が選択され
た場合には、g(i−1,j−1)のパスに(i,j)
と(i,j)を加え、(c)が選択された場合には、g
(i−1,j)のパスに(i,j)を加え、これらのい
ずれかをg(i−1,j−1)のパスが記憶されていた
メモリに記憶する。最終的なパスLは、g(I,J)の
パスであり、例えば、図3に示すように記憶される。な
お、各データは、iが増加するか否か、jが増加するか
否かの2ビット情報だけで表現されて記憶されていも良
い。
の距離Dkを与えたマッチングパスL,すなわち数13
の演算で選択された(i,j)の履歴は、所定のメモリ
(図示せず)に記憶される。例えば、整合窓Wの定数r
を用いると、パスは最大(2r+1)個となり、また、
1つの最大長さは、(Imax+2r+1)となる。こ
こでImaxは、入力音声の最大フレーム長である。従
って、マッチングパスLを記憶するのに、メモリとして
は、(2r+1)(Imax+2r+1)個が必要であ
る。メモリへのマッチングパスMPの記憶法としては、
数13において(a)が選択された場合には、g(i,
j−1)のパスに(i,j)を加え、(b)が選択され
た場合には、g(i−1,j−1)のパスに(i,j)
と(i,j)を加え、(c)が選択された場合には、g
(i−1,j)のパスに(i,j)を加え、これらのい
ずれかをg(i−1,j−1)のパスが記憶されていた
メモリに記憶する。最終的なパスLは、g(I,J)の
パスであり、例えば、図3に示すように記憶される。な
お、各データは、iが増加するか否か、jが増加するか
否かの2ビット情報だけで表現されて記憶されていも良
い。
【0036】しかる後、マッチング部4は、メモリに記
憶された各登録音声ごとの距離Dkのうちで、所定の閾
値以上の距離を与えた登録音声を認識対象から除外し、
候補の絞り込みを行なう。候補の絞り込みを行なうと、
次いで、絞られた候補のみについてその第2の特徴量S
tk(j,ω)と入力音声の第2の特徴量Sx(j,ω
)との距離D´(L)をそれぞれ、上記のようにして求
められたパスLを用いて、
憶された各登録音声ごとの距離Dkのうちで、所定の閾
値以上の距離を与えた登録音声を認識対象から除外し、
候補の絞り込みを行なう。候補の絞り込みを行なうと、
次いで、絞られた候補のみについてその第2の特徴量S
tk(j,ω)と入力音声の第2の特徴量Sx(j,ω
)との距離D´(L)をそれぞれ、上記のようにして求
められたパスLを用いて、
【0037】
【数15】
として求める。ここで、d´(ik(n),jk(n)
)は、
)は、
【0038】
【数16】
である。なお、ωは周波数に対応し、チャンネル数Eは
、例えば250Hzから6350Hzまでの1/3oc
tの15チャンネルである(一般的にチャンネル数Eは
、8〜30程度)。
、例えば250Hzから6350Hzまでの1/3oc
tの15チャンネルである(一般的にチャンネル数Eは
、8〜30程度)。
【0039】このようにして、入力音声の第2の特徴量
Sx(i,ω)と絞られた候補である各登録音声の第2
の特徴量Stk(j,ω)との距離D´(L)をそれぞ
れ計算し、これらの距離のうちで最小のものを求め、こ
れが所定の閾値以下の場合に、この最小距離を与えた候
補のカテゴリ−を認識結果として出力する。
Sx(i,ω)と絞られた候補である各登録音声の第2
の特徴量Stk(j,ω)との距離D´(L)をそれぞ
れ計算し、これらの距離のうちで最小のものを求め、こ
れが所定の閾値以下の場合に、この最小距離を与えた候
補のカテゴリ−を認識結果として出力する。
【0040】ところで、本実施例では、DPマッチング
の処理量は、第1の特徴量を用いてマッチングパスを求
める際の処理量と、第1の特徴量の距離D´(L)を求
める際の処理量との和になる。
の処理量は、第1の特徴量を用いてマッチングパスを求
める際の処理量と、第1の特徴量の距離D´(L)を求
める際の処理量との和になる。
【0041】第1の特徴量を用いてマッチングパスを求
める際には、先づd(i,j)の計算が必要となり、d
(i,j)の計算では、各i,jごとに、数1において
入力音声のパワーe(i)の割算演算{e(i)/e(
i−1)}が1回、その対数演算logが1回、また、
数1において算出された入力音声の第1の特徴量Px(
i)と登録音声の第1の特徴量Ptk(j)との減算演
算が1回、その絶対値演算が1回必要となり、合計で4
回の処理量となる。
める際には、先づd(i,j)の計算が必要となり、d
(i,j)の計算では、各i,jごとに、数1において
入力音声のパワーe(i)の割算演算{e(i)/e(
i−1)}が1回、その対数演算logが1回、また、
数1において算出された入力音声の第1の特徴量Px(
i)と登録音声の第1の特徴量Ptk(j)との減算演
算が1回、その絶対値演算が1回必要となり、合計で4
回の処理量となる。
【0042】また、このようにしてd(i,j)が計算
された後、g(i,j)の計算が必要となり、g(i,
j)の計算では、各i,jごとに、数13の(a)の加
算演算が1回、数13の(b)の加算演算が2回、数1
3の(c)の加算演算が1回、(a),(b),(c)
の比較演算が2回必要となり、合計で6回の処理量とな
る。
された後、g(i,j)の計算が必要となり、g(i,
j)の計算では、各i,jごとに、数13の(a)の加
算演算が1回、数13の(b)の加算演算が2回、数1
3の(c)の加算演算が1回、(a),(b),(c)
の比較演算が2回必要となり、合計で6回の処理量とな
る。
【0043】従って、各i,j毎に(4+6)回,すな
わち10回の処理量を要し、各i毎に〔10・(2r+
1)〕回の処理量となり、第1の特徴量の距離を求める
際には、合計〔10・(2R+1)・I〕回の処理量が
必要となる。
わち10回の処理量を要し、各i毎に〔10・(2r+
1)〕回の処理量となり、第1の特徴量の距離を求める
際には、合計〔10・(2R+1)・I〕回の処理量が
必要となる。
【0044】また、第2の特徴量の距離D´(L)を求
める際には、数16において、各チャンネル毎に、対数
演算Logが1回、減算演算が1回、絶対値演算が1回
必要となるので、チャンネル数がEであるとすると、こ
の段階で(3E)回の処理量を要する。さらにチャンネ
ル毎の処理結果を加算するのに、加算演算が(E−1)
回必要となる。従って、数16において各n毎に合計(
4E−1)回の処理量が必要となり、数15において、
第2の特徴量の距離D´(L)を求める際には、合計〔
(4E−1)・(I+J)〕回の処理量が必要となる。
める際には、数16において、各チャンネル毎に、対数
演算Logが1回、減算演算が1回、絶対値演算が1回
必要となるので、チャンネル数がEであるとすると、こ
の段階で(3E)回の処理量を要する。さらにチャンネ
ル毎の処理結果を加算するのに、加算演算が(E−1)
回必要となる。従って、数16において各n毎に合計(
4E−1)回の処理量が必要となり、数15において、
第2の特徴量の距離D´(L)を求める際には、合計〔
(4E−1)・(I+J)〕回の処理量が必要となる。
【0045】これにより、本実施例による全体の処理量
Qは、
Qは、
【0046】
【数17】
となる。
【0047】次に、このような本実施例の音声認識方式
での処理量を特開平1−283599号に開示されてい
るような従来の音声認識方式での処理量と比較する。従
来の音声認識方式では、d(i,j),g(i,j)を
それぞれ、
での処理量を特開平1−283599号に開示されてい
るような従来の音声認識方式での処理量と比較する。従
来の音声認識方式では、d(i,j),g(i,j)を
それぞれ、
【0048】
【数18】
【0049】
【数19】
のように演算すると、d(i,j)の演算には、各チャ
ンネルに、対数演算が1回、減算演算が1回、絶対値演
算が1回必要であり、チャンネル数がEであるとすると
、この段階で、(3E)回の処理量を要する。さらにチ
ャンネル毎の処理結果を加算するのに、加算演算が(E
−1)回必要となる。この結果、数18においてd(i
,j)を求めるのには、各i,j毎に合計(4E−1)
回の処理量が必要となる。
ンネルに、対数演算が1回、減算演算が1回、絶対値演
算が1回必要であり、チャンネル数がEであるとすると
、この段階で、(3E)回の処理量を要する。さらにチ
ャンネル毎の処理結果を加算するのに、加算演算が(E
−1)回必要となる。この結果、数18においてd(i
,j)を求めるのには、各i,j毎に合計(4E−1)
回の処理量が必要となる。
【0050】また、数19のg(i,j)の演算には、
加算演算が4回、比較演算が2回必要となるので、各i
,j毎に、合計6回の処理量が必要になる。
加算演算が4回、比較演算が2回必要となるので、各i
,j毎に、合計6回の処理量が必要になる。
【0051】これにより、各i毎に、〔(4E+5)・
(2r+1)〕回の処理量が必要となり、全体の処理量
Rは、
(2r+1)〕回の処理量が必要となり、全体の処理量
Rは、
【0052】
【数20】
となる。
【0053】いま、チャンネル数Eを“15”,整合窓
の定数rを“20”,IおよびJをそれぞれ“60”と
すると、従来の音声認識方式では、DPマッチングに要
する全体の処理量Rは、数20により約160,000
回となるのに対し、本実施例の音声認識方式では、DP
マッチングに要する全体の処理量Qは、数17により3
2,000回で済み、この例では、従来に比べて約1/
5程度に処理量を削減することが可能となる。
の定数rを“20”,IおよびJをそれぞれ“60”と
すると、従来の音声認識方式では、DPマッチングに要
する全体の処理量Rは、数20により約160,000
回となるのに対し、本実施例の音声認識方式では、DP
マッチングに要する全体の処理量Qは、数17により3
2,000回で済み、この例では、従来に比べて約1/
5程度に処理量を削減することが可能となる。
【0054】このように本実施例では、比較的に情報量
の少ない第1の特徴量を用いて、動的計画法で入力音声
と各登録音声とのマッチングパスを決定し、マッチング
パスを大幅に制限してから、このマッチングパスに従っ
て比較的に情報量の多い第2の特徴量を用いて入力音声
と各登録音声との距離を計算するようにしているので、
DPマッチングを用いるときにも、処理量の大幅な削減
が可能となる。
の少ない第1の特徴量を用いて、動的計画法で入力音声
と各登録音声とのマッチングパスを決定し、マッチング
パスを大幅に制限してから、このマッチングパスに従っ
て比較的に情報量の多い第2の特徴量を用いて入力音声
と各登録音声との距離を計算するようにしているので、
DPマッチングを用いるときにも、処理量の大幅な削減
が可能となる。
【0055】さらに本実施例では、マッチングパスの決
定の際に得られる第1の特徴量を用いた距離の値に応じ
て、候補の絞り込みを行なっているので、さらに処理量
を低減することができる。
定の際に得られる第1の特徴量を用いた距離の値に応じ
て、候補の絞り込みを行なっているので、さらに処理量
を低減することができる。
【0056】また、本実施例では、第1の特徴量として
、入力音声のパワーe(i)の変化率を用いているので
、入力される音声のレベルに違いがあっても、これによ
る影響を少なくすることができる。
、入力音声のパワーe(i)の変化率を用いているので
、入力される音声のレベルに違いがあっても、これによ
る影響を少なくすることができる。
【0057】なお、第1の特徴量としての入力音声のパ
ワーe(i)の変化率を求めるに際して、入力音声のパ
ワーe(i)の値が予め定められたパワーの下限値em
in (〉0)に満たない場合には、入力音声のパワー
e(i)の値として下限値eminを用いるのが良く、
これにより、入力音声のパワーe(i)が小さい場合の
第1の特徴量の誤差を低減することができる。あるいは
、この場合に、入力音声のパワーe(i)として、パワ
ーを数フレーム程度の平滑化をして用いても良い。
ワーe(i)の変化率を求めるに際して、入力音声のパ
ワーe(i)の値が予め定められたパワーの下限値em
in (〉0)に満たない場合には、入力音声のパワー
e(i)の値として下限値eminを用いるのが良く、
これにより、入力音声のパワーe(i)が小さい場合の
第1の特徴量の誤差を低減することができる。あるいは
、この場合に、入力音声のパワーe(i)として、パワ
ーを数フレーム程度の平滑化をして用いても良い。
【0058】また、第1の特徴量としては、最大パワー
で正規化された入力音声のパワーの対数値を用いても良
いし、これらの対数変換される前の値などを用いても良
い。あるいは、ゼロ交差点を用いても良い。
で正規化された入力音声のパワーの対数値を用いても良
いし、これらの対数変換される前の値などを用いても良
い。あるいは、ゼロ交差点を用いても良い。
【0059】また、上述の例における第1の特徴量とし
ての短時間スペクトルは、FFTによっても求めること
ができる。また、第2の特徴量として、LPC分析によ
るケプストラム,メルケプストラムなどの他の特徴量を
用いても良い。
ての短時間スペクトルは、FFTによっても求めること
ができる。また、第2の特徴量として、LPC分析によ
るケプストラム,メルケプストラムなどの他の特徴量を
用いても良い。
【0060】また、音声区間検出部2において音声区間
の検出を2閾値法などの他の方法で行なうこともできる
。
の検出を2閾値法などの他の方法で行なうこともできる
。
【0061】
【発明の効果】以上に説明したように本発明によれば、
比較的情報量の少ない第1の特徴量を用いて、動的計画
法で入力音声と各登録音声とのマッチングパスを決定し
、マッチングパスを大幅に制限してから、このマッチン
グパスに従って比較的情報量の多い第2の特徴量を用い
て入力音声と各登録音声との尤度を求めるようにしてい
るので、処理量を低減できる。
比較的情報量の少ない第1の特徴量を用いて、動的計画
法で入力音声と各登録音声とのマッチングパスを決定し
、マッチングパスを大幅に制限してから、このマッチン
グパスに従って比較的情報量の多い第2の特徴量を用い
て入力音声と各登録音声との尤度を求めるようにしてい
るので、処理量を低減できる。
【0062】また、比較的情報量の少ない第1の特徴量
として、音声のパワーの変化率を用いることにより、入
力音声のレベルに違いがあってもこれによる影響を防止
することができる。また、この場合、入力音声のパワー
の値が予め定められたパワーの下限値に満たない場合に
は、このパワーの下限値を入力音声のパワーの値として
用いることにより、入力音声のパワーが小さい場合の第
1の特徴量の誤差を低減できる。
として、音声のパワーの変化率を用いることにより、入
力音声のレベルに違いがあってもこれによる影響を防止
することができる。また、この場合、入力音声のパワー
の値が予め定められたパワーの下限値に満たない場合に
は、このパワーの下限値を入力音声のパワーの値として
用いることにより、入力音声のパワーが小さい場合の第
1の特徴量の誤差を低減できる。
【0063】また、入力音声と各登録音声とのマッチン
グパスを決定する際に、入力音声の第1の特徴量と各登
録音声の第1の特徴量との距離を求め、距離の値に応じ
て各登録音声,すなわち候補の絞り込みを行なった上で
、第2の特徴量を用いて尤度を求めるようにすれば、さ
らに処理量を低減できる。
グパスを決定する際に、入力音声の第1の特徴量と各登
録音声の第1の特徴量との距離を求め、距離の値に応じ
て各登録音声,すなわち候補の絞り込みを行なった上で
、第2の特徴量を用いて尤度を求めるようにすれば、さ
らに処理量を低減できる。
【図1】本発明の一実施例のブロック図である。
【図2】入力音声と登録音声とのマッチングパスを説明
するための図である。
するための図である。
【図3】入力音声と登録音声とのマッチングパスの具体
的なデータを示す図である。
的なデータを示す図である。
1 特徴量抽出部
2 音声区間検出部
3 登録音声メモリ
4 マッチング部
Claims (4)
- 【請求項1】 入力音声の特徴量と予め登録された複
数の登録音声の特徴量とのマッチングを行なうことによ
り入力音声を認識する音声認識方式において、前記入力
音声の特徴量と前記各登録音声の特徴量とは、いずれも
、比較的情報量の少ない第1の特徴量と、比較的情報量
の多い第2の特徴量とからなり、前記入力音声の第1の
特徴量と前記各登録音声の第1の特徴量とに基づき、動
的計画法を用いて入力音声と各登録音声とのマッチング
パスを決定し、該マッチングパスに時間的にそれぞれ対
応する前記入力音声の第2の特徴量と前記各登録音声の
第2の特徴量とを用いて、入力音声と各登録音声との尤
度を求め、該尤度に基づき入力音声の認識結果を得るよ
うになっていることを特徴とする音声認識方式。 - 【請求項2】 前記入力音声および前記各登録音声の
第1の特徴量は、音声のパワーの変化率を用いた特徴量
であることを特徴とする請求項1記載の音声認識方式。 - 【請求項3】 前記入力音声の第1の特徴量を求める
際に、入力音声のパワーの値が予め定められたパワーの
下限値に満たない場合には、該パワーの下限値を入力音
声のパワーの値として用いるようになっていることを特
徴とする請求項2記載の音声認識方式。 - 【請求項4】 入力音声の第1の特徴量と各登録音声
の第1の特徴量とに基づき、入力音声と各登録音声のマ
ッチングパスを決定する際には、入力音声の第1の特徴
量と各登録音声の第1の特徴量との距離が求められ、該
距離の値に応じて候補の絞り込みを行ない、絞られた候
補の登録音声に対してのみ、第2の特徴量を用いて尤度
が求められるようになっていることを特徴とする請求項
1,2または3記載の音声認識方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3036706A JPH04254897A (ja) | 1991-02-06 | 1991-02-06 | 音声認識方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3036706A JPH04254897A (ja) | 1991-02-06 | 1991-02-06 | 音声認識方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH04254897A true JPH04254897A (ja) | 1992-09-10 |
Family
ID=12477218
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3036706A Pending JPH04254897A (ja) | 1991-02-06 | 1991-02-06 | 音声認識方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH04254897A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010266722A (ja) * | 2009-05-15 | 2010-11-25 | National Institute Of Information & Communication Technology | 会話グループ把握装置、会話グループ把握方法、及びプログラム |
-
1991
- 1991-02-06 JP JP3036706A patent/JPH04254897A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010266722A (ja) * | 2009-05-15 | 2010-11-25 | National Institute Of Information & Communication Technology | 会話グループ把握装置、会話グループ把握方法、及びプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US4918732A (en) | Frame comparison method for word recognition in high noise environments | |
| US5555344A (en) | Method for recognizing patterns in time-variant measurement signals | |
| US4736429A (en) | Apparatus for speech recognition | |
| US5097509A (en) | Rejection method for speech recognition | |
| KR100925479B1 (ko) | 음성 인식 방법 및 장치 | |
| US20060136206A1 (en) | Apparatus, method, and computer program product for speech recognition | |
| US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
| Hogg et al. | Speaker change detection using fundamental frequency with application to multi-talker segmentation | |
| CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
| US5159637A (en) | Speech word recognizing apparatus using information indicative of the relative significance of speech features | |
| JPH0247760B2 (ja) | ||
| CA1301338C (en) | Frame comparison method for word recognition in high noise environments | |
| JPH04254897A (ja) | 音声認識方式 | |
| JP2853418B2 (ja) | 音声認識方法 | |
| Hussain et al. | Endpoint detection of speech signal using neural network | |
| JP3322536B2 (ja) | ニューラルネットワークの学習方法および音声認識装置 | |
| JPH0228160B2 (ja) | ||
| JP5136621B2 (ja) | 情報検索装置及び方法 | |
| Cevik et al. | Detection of repetitions in spontaneous speech in dialogue sessions. | |
| JPH1097269A (ja) | 音声検出装置及び方法 | |
| JP3251430B2 (ja) | 状態遷移モデル作成方法 | |
| JPS6129897A (ja) | パタ−ン比較装置 | |
| JPH0247758B2 (ja) | ||
| JP3009962B2 (ja) | 音声認識装置 | |
| JPH0632006B2 (ja) | 音声認識装置 |