JPH0646357B2 - 連続音声認識装置 - Google Patents
連続音声認識装置Info
- Publication number
- JPH0646357B2 JPH0646357B2 JP61034524A JP3452486A JPH0646357B2 JP H0646357 B2 JPH0646357 B2 JP H0646357B2 JP 61034524 A JP61034524 A JP 61034524A JP 3452486 A JP3452486 A JP 3452486A JP H0646357 B2 JPH0646357 B2 JP H0646357B2
- Authority
- JP
- Japan
- Prior art keywords
- syllable
- word
- input
- pattern
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000013598 vector Substances 0.000 claims description 30
- 239000003550 marker Substances 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 6
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 21
- 238000003860 storage Methods 0.000 description 15
- 230000001186 cumulative effect Effects 0.000 description 14
- 238000000034 method Methods 0.000 description 14
- 230000011218 segmentation Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Description
【発明の詳細な説明】 産業上の利用分野 本発明は、特徴ベクトルの系列で表わされた複数種類の
標準パターンと入力パターンとの比較を行ない、入力音
声の識別を行なう音声認識装置に関し、特に連続して発
声した単語音声の認識などに適用可能な音声認識装置に
関する。
標準パターンと入力パターンとの比較を行ない、入力音
声の識別を行なう音声認識装置に関し、特に連続して発
声した単語音声の認識などに適用可能な音声認識装置に
関する。
従来の技術 従来、音声認識装置としては特定話者登録方式によるも
のが実用化されている。即ち、認識装置を使用しようと
する話者が、予め、認識すべきすべての単語を自分の声
で特徴ベクトルの系列に変換し、単語辞書に標準パター
ンとして登録しておき、認識時に発声された音声を、同
様に特徴ベクトルの系列に変換し、前記単語辞書中のど
の単語に最も近いかを予め定められた規則によって計算
し、最も類似している単語を認識結果とするものであ
る。
のが実用化されている。即ち、認識装置を使用しようと
する話者が、予め、認識すべきすべての単語を自分の声
で特徴ベクトルの系列に変換し、単語辞書に標準パター
ンとして登録しておき、認識時に発声された音声を、同
様に特徴ベクトルの系列に変換し、前記単語辞書中のど
の単語に最も近いかを予め定められた規則によって計算
し、最も類似している単語を認識結果とするものであ
る。
ところが、この方法によると、認識単語数が少ないとき
は良いが、数百,数千単語といったように増加してくる
と、主として次の三つの問題が無視し得なくなる。
は良いが、数百,数千単語といったように増加してくる
と、主として次の三つの問題が無視し得なくなる。
(1) 登録時における話者の負担が著しく増大する。
(2) 認識時に発声された音声と標準パターンとの類似
度あるいは距離を計算するのに要する時間が著しく増大
し、認識装置の応答速度が遅くなる。
度あるいは距離を計算するのに要する時間が著しく増大
し、認識装置の応答速度が遅くなる。
(3) 前記単語辞書のために要するメモリが非常に大き
くなる。
くなる。
以上の欠点を回避するための方法として認識の単位を子
音+母音の単音節(以後それぞれCV,Vで表わす。C
は子音,Vは母音を意味する。)とする方法がある。即
ち、標準パターンとして単音節を特徴ベクトルの系列と
して登録しておき、認識時に特徴ベクトルの系列に変換
された入力音声を、前記単音節の標準パターンとマッチ
ングすることにより、単音節の系列に変換するものであ
る。日本語の場合、単音節は高々101種類であり、単
音節は仮名文字に対応しているから、この方法によれ
ば、日本語の任意の単語あるいは文章を単音節列に変換
する(認識する)事が出来、前記(1)〜(3)の問題はすべ
て解決されることになる。しかし、この場合の問題の一
つとしてセグメンテーションがある。即ち、セグメンテ
ーションは連続して発声された音声を単音節単位に区切
ることであるが、これを確実に行なう決定的な方法は未
だ見出されていない。この問題を解決するために、現在
のところ各単音節を区切って発声することが行なわれて
おり、実用化されている装置もある。
音+母音の単音節(以後それぞれCV,Vで表わす。C
は子音,Vは母音を意味する。)とする方法がある。即
ち、標準パターンとして単音節を特徴ベクトルの系列と
して登録しておき、認識時に特徴ベクトルの系列に変換
された入力音声を、前記単音節の標準パターンとマッチ
ングすることにより、単音節の系列に変換するものであ
る。日本語の場合、単音節は高々101種類であり、単
音節は仮名文字に対応しているから、この方法によれ
ば、日本語の任意の単語あるいは文章を単音節列に変換
する(認識する)事が出来、前記(1)〜(3)の問題はすべ
て解決されることになる。しかし、この場合の問題の一
つとしてセグメンテーションがある。即ち、セグメンテ
ーションは連続して発声された音声を単音節単位に区切
ることであるが、これを確実に行なう決定的な方法は未
だ見出されていない。この問題を解決するために、現在
のところ各単音節を区切って発声することが行なわれて
おり、実用化されている装置もある。
発明が解決しようとする問題点 しかし、単音節の離散発声により日本語の文章を入力す
るのは、話者にとって緊張を強いるものであり、連続発
声により入力出来ることが望ましい。
るのは、話者にとって緊張を強いるものであり、連続発
声により入力出来ることが望ましい。
本発明は、前記連続発声により入力された音声に対する
前記セグメンテーションの問題を解決した連続音声認識
装置を提供することを目的とする。
前記セグメンテーションの問題を解決した連続音声認識
装置を提供することを目的とする。
問題点を解決するための手段 本発明は、音節を連続発声して得られる単語・文節等の
入力音声信号を特徴ベクトルの系列に変換する特徴抽出
手段と、音節のそれぞれに対応した特徴ベクトルの系列
を前記音節名に対応ずけて記憶する標準パターン記憶手
段憶と、1音節発声する毎にそれに同期した信号である
セグメント・マーカを発生するセグメント・マーカ発生
手段と、前記標準パターンのそれぞれと前記入力パター
ンに対して得られた前記それぞれのセグメント・マーカ
の近傍のそれぞれのフレームから次のセグメント・マー
カの近傍のそれぞれのフレームまでの入力パターンの部
分区間とのマッチングを行って両者の距離(類似度)を
計算するマッチング手段と、認識されるべき各単語・文
節等を前記音節名の系列として表現した単語・文節等を
記憶する単語・文節辞書と、この認識されるべき単語・
文節と前記入力パターンとの距離を、前記単語・文節辞
書によって指定される音節名の系列に対応するように、
前記分区間群を隣会う区間が連続するように最適に定め
ることにより、前記各部分区間の始点と終点およびその
音節名に対応する距離(類似度)の総和を最小(最大)
となし、得られる最小値(最大値)を前記各単語・文節
に対する前記入力パターンの距離として出力する単語・
文節マッチング手段と、前記最小値(最大値)のなかで
最小値(最大値)を与える前記単語・文節を認識結果と
して判定する判定手段とを含むことを特徴とする連続音
声認識装置である。
入力音声信号を特徴ベクトルの系列に変換する特徴抽出
手段と、音節のそれぞれに対応した特徴ベクトルの系列
を前記音節名に対応ずけて記憶する標準パターン記憶手
段憶と、1音節発声する毎にそれに同期した信号である
セグメント・マーカを発生するセグメント・マーカ発生
手段と、前記標準パターンのそれぞれと前記入力パター
ンに対して得られた前記それぞれのセグメント・マーカ
の近傍のそれぞれのフレームから次のセグメント・マー
カの近傍のそれぞれのフレームまでの入力パターンの部
分区間とのマッチングを行って両者の距離(類似度)を
計算するマッチング手段と、認識されるべき各単語・文
節等を前記音節名の系列として表現した単語・文節等を
記憶する単語・文節辞書と、この認識されるべき単語・
文節と前記入力パターンとの距離を、前記単語・文節辞
書によって指定される音節名の系列に対応するように、
前記分区間群を隣会う区間が連続するように最適に定め
ることにより、前記各部分区間の始点と終点およびその
音節名に対応する距離(類似度)の総和を最小(最大)
となし、得られる最小値(最大値)を前記各単語・文節
に対する前記入力パターンの距離として出力する単語・
文節マッチング手段と、前記最小値(最大値)のなかで
最小値(最大値)を与える前記単語・文節を認識結果と
して判定する判定手段とを含むことを特徴とする連続音
声認識装置である。
作 用 本発明は以上の構成により、特徴抽出手段により、音節
を連続発声して得られる単語・文節等の入力音声信号を
特徴ベクトルの系列に変換し、セグメント・マーカ発生
手段により、1音節発声する毎にそれに同期した信号、
即ち、セグメント・マーカを発生し、マッチング手段に
より、標準パターン記憶手段にそれぞれの音節名に対応
ずけて記憶されている特徴ベクトルの系列のそれぞれ
と、前記入力パターンに対して得られた前記それぞれの
セグメント・マーカの近傍のそれぞれのフレームから次
のセグメント・マーカの近傍のそれぞれのフレームまで
の入力パターンの部分区間とのマッチングを行って両者
の距離(類似度)を計算し、単語・文節辞書に音節名の
系列として記憶された認識されるべき各単語・文節等と
前記入力パターンとの距離を、単語・文節マッチング手
段により、前記単語・文節辞書によって指定される音節
名の系列に対応するように、前記部分区間群を隣会う区
間が連続するように最適に定めることにより、前記各部
分区間の始点と終点およびその音節名に対応する距離
(類似度)の総和を最小(最大)となし、得られる最小
値(最大値)を前記各単語・文節に対する前記入力パタ
ーンの距離として出力し、判定手段により、前記最小値
(最大値)のなかで最小値(最大値)を与える前記単語
・文節を認識結果として判定する。
を連続発声して得られる単語・文節等の入力音声信号を
特徴ベクトルの系列に変換し、セグメント・マーカ発生
手段により、1音節発声する毎にそれに同期した信号、
即ち、セグメント・マーカを発生し、マッチング手段に
より、標準パターン記憶手段にそれぞれの音節名に対応
ずけて記憶されている特徴ベクトルの系列のそれぞれ
と、前記入力パターンに対して得られた前記それぞれの
セグメント・マーカの近傍のそれぞれのフレームから次
のセグメント・マーカの近傍のそれぞれのフレームまで
の入力パターンの部分区間とのマッチングを行って両者
の距離(類似度)を計算し、単語・文節辞書に音節名の
系列として記憶された認識されるべき各単語・文節等と
前記入力パターンとの距離を、単語・文節マッチング手
段により、前記単語・文節辞書によって指定される音節
名の系列に対応するように、前記部分区間群を隣会う区
間が連続するように最適に定めることにより、前記各部
分区間の始点と終点およびその音節名に対応する距離
(類似度)の総和を最小(最大)となし、得られる最小
値(最大値)を前記各単語・文節に対する前記入力パタ
ーンの距離として出力し、判定手段により、前記最小値
(最大値)のなかで最小値(最大値)を与える前記単語
・文節を認識結果として判定する。
実施例 第2図〜第3図は本発明の原理を説明する図である。以
後、誤解のない限り、ぁ単語」という言葉は「文節」も
含むものとして説明する。
後、誤解のない限り、ぁ単語」という言葉は「文節」も
含むものとして説明する。
第2図は、標準パターンRnと入力パターンとのマッチ
ングの方法を示す格子グラフである。即ち、横軸は入力
パターン、縦軸は標準パターンRn(音節nに対する特
徴ベクトルの系列)であって、入力パターンは、連続し
て発声された音節列を特徴ベクトルの系列に変換して得
られるものであり、標準パターンRnは、音節nを発声
して得られる特徴ベクトルの系列である。Iは入力パタ
ーンのフレーム数、Jnは標準パターンRnのフレーム
数である。ikは入力パターンの第K番と第K+1番の
音節の境界を示すフレームである。r1,r2は入力パタ
ーンの部分パターンに対するマッチングの始終端の自由
区間を規定するものであって、入力パターンの第K音節
に相当する部分パターンは始端点はik-1−r1〜ik-1
+r2、終端点はik−r1〜ik+r2に存在するもの
としている。
ングの方法を示す格子グラフである。即ち、横軸は入力
パターン、縦軸は標準パターンRn(音節nに対する特
徴ベクトルの系列)であって、入力パターンは、連続し
て発声された音節列を特徴ベクトルの系列に変換して得
られるものであり、標準パターンRnは、音節nを発声
して得られる特徴ベクトルの系列である。Iは入力パタ
ーンのフレーム数、Jnは標準パターンRnのフレーム
数である。ikは入力パターンの第K番と第K+1番の
音節の境界を示すフレームである。r1,r2は入力パタ
ーンの部分パターンに対するマッチングの始終端の自由
区間を規定するものであって、入力パターンの第K音節
に相当する部分パターンは始端点はik-1−r1〜ik-1
+r2、終端点はik−r1〜ik+r2に存在するもの
としている。
入力パターンに対しては検出された音節境界が確かな場
合は、1〜ikフレームの入力パターンの部分パターン
に最も良く整合する標準パターンに対応する音節列は、
式(1)によって求められる。
合は、1〜ikフレームの入力パターンの部分パターン
に最も良く整合する標準パターンに対応する音節列は、
式(1)によって求められる。
ここに、nk *は入力パターンに対して検出されたk番
目の音節に対応する部分パターンと最も良く整合する標
準パターンの音節名である。Dn(s:t)は入力パタ
ーンの第sフレームから第tフレームまでの部分パター
ンと標準パターンRnとのDPマッチングによる距離で
ある。また、式(1)における はf(x)を最小にするxのことを意味する。
目の音節に対応する部分パターンと最も良く整合する標
準パターンの音節名である。Dn(s:t)は入力パタ
ーンの第sフレームから第tフレームまでの部分パター
ンと標準パターンRnとのDPマッチングによる距離で
ある。また、式(1)における はf(x)を最小にするxのことを意味する。
第4図は、Dn(s:t)を計算するときの格子グラフ
における径路の拘束条件の一実施例であって、D
n(s:t)は次の漸化式により計算される。即ち、 i=s〜t,j=1〜jnについて 初期値Dn(s,1)=dn(s,1) を計算すれば Dn(s:t)=Dn(t,jn) となる。
における径路の拘束条件の一実施例であって、D
n(s:t)は次の漸化式により計算される。即ち、 i=s〜t,j=1〜jnについて 初期値Dn(s,1)=dn(s,1) を計算すれば Dn(s:t)=Dn(t,jn) となる。
ただし、dn(i,j)は入力パターンのフレームiと
標準パターンのフレームjとのベクトル間距離であり、
Dn(i,j)は、入力パターンのフレームs〜iの部
分パターンと標準パターンRnのフレーム1〜jの部分
パターンとの累積距離ということになる。
標準パターンのフレームjとのベクトル間距離であり、
Dn(i,j)は、入力パターンのフレームs〜iの部
分パターンと標準パターンRnのフレーム1〜jの部分
パターンとの累積距離ということになる。
式(1)は第2図における各ikが音節境界として確かな
ものであり、固定して考えることができる場合である
が、一般には入力パターンにおける音節境界は不明確で
あり、位置的に確定することは困難である。そこで、本
発明は、音節境界はikの前後数フレームの範囲にある
という場合に適用して効果のある方法を提供するもので
ある。実際、入力パターンから音節の境界を精密に検出
するのは困難な場合が多く、入力信号の波形やスペクト
ルから視察により境界を決定する場合でも、その境界は
明確でない。
ものであり、固定して考えることができる場合である
が、一般には入力パターンにおける音節境界は不明確で
あり、位置的に確定することは困難である。そこで、本
発明は、音節境界はikの前後数フレームの範囲にある
という場合に適用して効果のある方法を提供するもので
ある。実際、入力パターンから音節の境界を精密に検出
するのは困難な場合が多く、入力信号の波形やスペクト
ルから視察により境界を決定する場合でも、その境界は
明確でない。
この問題の解決には、自動的にあるいは手動により指定
された音節境界に対し、その前後数フレームの区間内で
重複を生じず、かつ、連続するように標準パターンを結
合し、系列全体として最もよく入力パターンに整合する
標準パターン列を求め、それに対応する音節列を認識結
果とすることが有効である。本発明においてはこの考え
方に基づく現実的かつ効果的な装置を提供した。
された音節境界に対し、その前後数フレームの区間内で
重複を生じず、かつ、連続するように標準パターンを結
合し、系列全体として最もよく入力パターンに整合する
標準パターン列を求め、それに対応する音節列を認識結
果とすることが有効である。本発明においてはこの考え
方に基づく現実的かつ効果的な装置を提供した。
本発明は、さらに、前記最適の音節列を求める際に、単
語辞書の知識を用いて拘束を加えることにより、より認
識率の向上を実現した所に特徴がある。
語辞書の知識を用いて拘束を加えることにより、より認
識率の向上を実現した所に特徴がある。
本発明を説明する前に、先ず、同出願人より先に出願し
た特願昭和61−15114号で述べた方法を簡単に説
明する。
た特願昭和61−15114号で述べた方法を簡単に説
明する。
この計算はは、動的計画法によって効率的に行うことが
できる。即ち、第2図において、ik−r1≦i≦ik
+r2に対し、 は式(3)を満足する i′,n をk=1〜Kについて計算すれば、 (イ) i=ik (ロ) n*=N(i) (ハ) B(i)≠0ならi=B(i)として(ロ)へ、B(i)=0
なら終了 という手順により、n*の系列として、求めるべき音節
列が入力と逆の順序でで求められる。ただし、io=
0,ik=I,B(0)=0,D(0)=0であって、k=1
のときは i′=0である。
できる。即ち、第2図において、ik−r1≦i≦ik
+r2に対し、 は式(3)を満足する i′,n をk=1〜Kについて計算すれば、 (イ) i=ik (ロ) n*=N(i) (ハ) B(i)≠0ならi=B(i)として(ロ)へ、B(i)=0
なら終了 という手順により、n*の系列として、求めるべき音節
列が入力と逆の順序でで求められる。ただし、io=
0,ik=I,B(0)=0,D(0)=0であって、k=1
のときは i′=0である。
ここで、D(i)は、入力パターンの第1〜iフレームの
部分パターンと、それと最も良く整合する標準パターン
の結合とのDPマッチング距離、N(i)は、入力パター
ンのフレームiを最終フレームとするときの最後尾音節
名、B(i)はその一つ手前の音節名の最終フレーム(バ
ック・ポインタ)ということになる。
部分パターンと、それと最も良く整合する標準パターン
の結合とのDPマッチング距離、N(i)は、入力パター
ンのフレームiを最終フレームとするときの最後尾音節
名、B(i)はその一つ手前の音節名の最終フレーム(バ
ック・ポインタ)ということになる。
第3図は以上の計算を具体的に行う方法を示している。
即ち、式(3)をそのまま実行する場合は、それぞれのn
についてDn(i′+1:i)の計算を始端点i′をi
k-1−r1〜ik-1+r2の範囲で一つずつ変えて計算をす
るか、終端点iをik−r1〜ik+r2の範囲で一つず
つ変えて計算をする必要があるが、本実施例の如き方法
を用いれば、式(3)の右辺を1パスで計算することがで
き、計算量は大幅に減少する。即ち、式(2)の漸化式の
計算を行う時に式(3)の計算も同時に行うものであっ
て、式(3)は式(2)によって先ずDn(i′+1:i)を
求め、しかる後にD(i′)+Dn(i′+1:i)の
i′に関する最少値を求めようとするものであるが、式
(2)の漸化式において、初期値を直前のフレームまでの
累積距離とすることによって、D(i)を直接求めること
が出来る。
即ち、式(3)をそのまま実行する場合は、それぞれのn
についてDn(i′+1:i)の計算を始端点i′をi
k-1−r1〜ik-1+r2の範囲で一つずつ変えて計算をす
るか、終端点iをik−r1〜ik+r2の範囲で一つず
つ変えて計算をする必要があるが、本実施例の如き方法
を用いれば、式(3)の右辺を1パスで計算することがで
き、計算量は大幅に減少する。即ち、式(2)の漸化式の
計算を行う時に式(3)の計算も同時に行うものであっ
て、式(3)は式(2)によって先ずDn(i′+1:i)を
求め、しかる後にD(i′)+Dn(i′+1:i)の
i′に関する最少値を求めようとするものであるが、式
(2)の漸化式において、初期値を直前のフレームまでの
累積距離とすることによって、D(i)を直接求めること
が出来る。
具体的には、入力フレームiにおける処理は次のように
なる。即ち、j=1〜Jnについて 初期値Dn(i-2,0)=Dn(i-1,0)=∞ ik-1−r1≦i≦ik-1+r2のとき Dn(i-1,0)=D(i-1) Bn(i-1,0)=i−1 ik-1−r2+1≦i≦ik+r2のとき Dn(i-1,0)=∞ を計算すれば B(i)=Bn*(i,Jn) N(i)=n* となる。ただし、dn(i,j)は入力パターンのフレ
ームiと標準パターンRnのフレームjとのベクトル間
距離であり、Dn(i,j)は入力パターンのフレーム
1〜iの部分パターンと、最後尾音節名をnとした場合
の最適の累積距離が最小となる)パターン列との累積距
離(最小累積照合距離)である。
なる。即ち、j=1〜Jnについて 初期値Dn(i-2,0)=Dn(i-1,0)=∞ ik-1−r1≦i≦ik-1+r2のとき Dn(i-1,0)=D(i-1) Bn(i-1,0)=i−1 ik-1−r2+1≦i≦ik+r2のとき Dn(i-1,0)=∞ を計算すれば B(i)=Bn*(i,Jn) N(i)=n* となる。ただし、dn(i,j)は入力パターンのフレ
ームiと標準パターンRnのフレームjとのベクトル間
距離であり、Dn(i,j)は入力パターンのフレーム
1〜iの部分パターンと、最後尾音節名をnとした場合
の最適の累積距離が最小となる)パターン列との累積距
離(最小累積照合距離)である。
ここで、漸化式(4)の初期値の設定を変更することによ
って、本発明装置を実現することが出来る。即ち、単語
wのk番目の音節をu(w,k)入力パターンの1〜iフレー
ムの部分パターンと単語wの1〜k音節の音節標準パタ
ーン列との最小累積照合距離をD(w,k)(i)とすれば、n
=u(w,k)とおいて 初期値 Dn(i-2,0)=Dn(i-1,0)=∞ ik-1−r1≦i≦ik-1+r2のとき Dn(i-1,0)=D(w,k)(i-1) ik-1−r2+1≦i≦ik+r2のとき Dn(i-1,0)=∞ を計算し、 D(w,k)(i)=Dn(i,Jn) を得る。この計算をi=1〜Iについて実行すれば、求
めるべき単語W*は となる。この場合Bn(i,j),B(i)等は不要であ
る。
って、本発明装置を実現することが出来る。即ち、単語
wのk番目の音節をu(w,k)入力パターンの1〜iフレー
ムの部分パターンと単語wの1〜k音節の音節標準パタ
ーン列との最小累積照合距離をD(w,k)(i)とすれば、n
=u(w,k)とおいて 初期値 Dn(i-2,0)=Dn(i-1,0)=∞ ik-1−r1≦i≦ik-1+r2のとき Dn(i-1,0)=D(w,k)(i-1) ik-1−r2+1≦i≦ik+r2のとき Dn(i-1,0)=∞ を計算し、 D(w,k)(i)=Dn(i,Jn) を得る。この計算をi=1〜Iについて実行すれば、求
めるべき単語W*は となる。この場合Bn(i,j),B(i)等は不要であ
る。
以上の説明において、j=1〜Jnに対するDn(i,
j)の計算は第4図からも明らかなように、フレームi
−1,フレームi−2のそれらの値とフレームi−1の
ベクトル間距離、即ち、j=1〜Jnに対するdn(i-
1,j)のみ記憶しておけば良いものである。また、フレ
ームiにおける計算をj=Jn〜1の順序で行うことに
すれば、Dn(i,j)の計算に用いたそれらの第i−2
フレームにおける値、およびdn(i-1,j)(j=1〜
Jn)の値は再び使うことはないから、Dn(i,j),d
n(i,j)の計算結果はそれぞれDn(i-2,j),d
n(i-1,j)を記憶していた場所に記憶することが出来
る。従って、Dn(i,j),dn(i,j)に対する必要記
憶容量はDn(i,j)に対しては2フレーム分、d
n(i,j)に対しては1フレーム分あれば良いことにな
る。
j)の計算は第4図からも明らかなように、フレームi
−1,フレームi−2のそれらの値とフレームi−1の
ベクトル間距離、即ち、j=1〜Jnに対するdn(i-
1,j)のみ記憶しておけば良いものである。また、フレ
ームiにおける計算をj=Jn〜1の順序で行うことに
すれば、Dn(i,j)の計算に用いたそれらの第i−2
フレームにおける値、およびdn(i-1,j)(j=1〜
Jn)の値は再び使うことはないから、Dn(i,j),d
n(i,j)の計算結果はそれぞれDn(i-2,j),d
n(i-1,j)を記憶していた場所に記憶することが出来
る。従って、Dn(i,j),dn(i,j)に対する必要記
憶容量はDn(i,j)に対しては2フレーム分、d
n(i,j)に対しては1フレーム分あれば良いことにな
る。
第1図は以上の原理による本発明の一実施例である。以
下、図面に従って本実施例を説明する。
下、図面に従って本実施例を説明する。
1は音声信号の入力端子であって、認識されるべき音声
が入力される。2は特徴抽出部であって、入力された音
声をフィルタバンクやLPC分析等によって特徴ベクト
ルの系列に変換するものである。3は入力バッファ・メ
モリであって、特徴抽出部2で得られた特徴ベクトルの
系列を一時記憶するものである。4は音声区間検出部で
あって、特徴抽出部2で得られた特徴ベクトルの系列に
対して、入力音声信号のレベル等から周知の方法によっ
て音声区間の開始終了フレームを検出する。5はセグメ
ント・マーカ発生部であって、入力音声の音節の発声に
同期してセグメント・マーカを発生するものであって、
最も簡単には手動スイッチを入力音声の音節の発声に同
期して押圧することによってられる。6は入力フレーム
・カウンタであって、音声区間検出部4で得られた音声
区間の開始フレームから終了フレームまでのフレーム数
を計数するものである。入力バッフア・メモリ3はこの
入力フレーム・カウンタ6の状態によってアドレッシン
グされる。7はマーカ位置記憶部であって、セグメント
・マーカ発生部5から得られるセグメント・マーカと入
力フレーム・カウンタ6の状態から得られるマーカ位置
を記憶するものである。8はマッチング範囲指定部であ
って、マーカ置記憶部7の出力からそれぞれのセグメン
トに対し、入力音声信号に対してマッチングすべき部分
区間を指定するものである。9は標準パターン記憶部で
あって、認識すべき音節に対する標準パターンが記憶さ
れているものである。16は単語辞書であって、認識さ
れるべき単語または文節が音節列の形で記憶されている
ものである。10はベクトル間距離計算部であって、入
力バッファ・メモリ3から読みだされたマッチング範囲
指定部8で指定される入力の部分パターンと標準パター
ン記憶部9に記憶されている標準パターンのそれぞれと
のベクトル間距離を計算するものである。このとき、ベ
クトル間距離の計算されるべき音節は、前記入力の部分
パターンに相当するセグメントに対応する前記単語辞書
16の任意の単語の音節と同一の音節に限ることによっ
て、計算量の大幅な削減が出来る。即ち、マッチング範
囲指定部8で指定される入力の部分パターンが第k番の
セグメントであったとすると、ベクトル間距離の計算さ
れるべき音節は、単語辞書16に含まれるそれぞれの単
語の第k音節として現われる音節に限られる。11はベ
クトル間距離記憶部であって、ベクトル間距離計算部1
0で計算された結果を前記説明に従って一時記憶するも
のである。12は累積距離計算部であってベクトル間距
離記憶部11に記憶されているベクトル間距離から前記
漸化式(4)に従って累積距離およびバック・ポインタを
計算するものである。13は累積距離記憶部であって、
累積距離計算部12で計算された累積距離D(w,k)(i)を
記憶するものである。14は最小値判定部であって、音
声区間検出部4が音声区間の終了を検出すると、式(5)
に従って、累積距離D(w,k)(I)のKに関する最小値を求
め、それを与えるW=W*を認識結果と判定し、その結
果を端子15に出力するものである。
が入力される。2は特徴抽出部であって、入力された音
声をフィルタバンクやLPC分析等によって特徴ベクト
ルの系列に変換するものである。3は入力バッファ・メ
モリであって、特徴抽出部2で得られた特徴ベクトルの
系列を一時記憶するものである。4は音声区間検出部で
あって、特徴抽出部2で得られた特徴ベクトルの系列に
対して、入力音声信号のレベル等から周知の方法によっ
て音声区間の開始終了フレームを検出する。5はセグメ
ント・マーカ発生部であって、入力音声の音節の発声に
同期してセグメント・マーカを発生するものであって、
最も簡単には手動スイッチを入力音声の音節の発声に同
期して押圧することによってられる。6は入力フレーム
・カウンタであって、音声区間検出部4で得られた音声
区間の開始フレームから終了フレームまでのフレーム数
を計数するものである。入力バッフア・メモリ3はこの
入力フレーム・カウンタ6の状態によってアドレッシン
グされる。7はマーカ位置記憶部であって、セグメント
・マーカ発生部5から得られるセグメント・マーカと入
力フレーム・カウンタ6の状態から得られるマーカ位置
を記憶するものである。8はマッチング範囲指定部であ
って、マーカ置記憶部7の出力からそれぞれのセグメン
トに対し、入力音声信号に対してマッチングすべき部分
区間を指定するものである。9は標準パターン記憶部で
あって、認識すべき音節に対する標準パターンが記憶さ
れているものである。16は単語辞書であって、認識さ
れるべき単語または文節が音節列の形で記憶されている
ものである。10はベクトル間距離計算部であって、入
力バッファ・メモリ3から読みだされたマッチング範囲
指定部8で指定される入力の部分パターンと標準パター
ン記憶部9に記憶されている標準パターンのそれぞれと
のベクトル間距離を計算するものである。このとき、ベ
クトル間距離の計算されるべき音節は、前記入力の部分
パターンに相当するセグメントに対応する前記単語辞書
16の任意の単語の音節と同一の音節に限ることによっ
て、計算量の大幅な削減が出来る。即ち、マッチング範
囲指定部8で指定される入力の部分パターンが第k番の
セグメントであったとすると、ベクトル間距離の計算さ
れるべき音節は、単語辞書16に含まれるそれぞれの単
語の第k音節として現われる音節に限られる。11はベ
クトル間距離記憶部であって、ベクトル間距離計算部1
0で計算された結果を前記説明に従って一時記憶するも
のである。12は累積距離計算部であってベクトル間距
離記憶部11に記憶されているベクトル間距離から前記
漸化式(4)に従って累積距離およびバック・ポインタを
計算するものである。13は累積距離記憶部であって、
累積距離計算部12で計算された累積距離D(w,k)(i)を
記憶するものである。14は最小値判定部であって、音
声区間検出部4が音声区間の終了を検出すると、式(5)
に従って、累積距離D(w,k)(I)のKに関する最小値を求
め、それを与えるW=W*を認識結果と判定し、その結
果を端子15に出力するものである。
第5図は、以上の実施例の動作をプログラムで表現した
ものであり、ソフトウエアで実現する場合もこれに従え
ばよい。なお、第5図において、 なる記法は、条件Aが成立する間Bを行うと言うことを
意味する。また、 なる記法は、条件Aが成立するまでBを行うと言うこと
を意味する。さらに なる記法は、条件Aが成立するときはBを実行し、条件
Aが成立しないときはCを実行すると言うことを意味す
る。
ものであり、ソフトウエアで実現する場合もこれに従え
ばよい。なお、第5図において、 なる記法は、条件Aが成立する間Bを行うと言うことを
意味する。また、 なる記法は、条件Aが成立するまでBを行うと言うこと
を意味する。さらに なる記法は、条件Aが成立するときはBを実行し、条件
Aが成立しないときはCを実行すると言うことを意味す
る。
ステッ201,202は累積距離D(w,k)(i)の初期化を
行う部分である。
行う部分である。
ステップ203はk番目のマーカにおける処理を示して
おり、ステップ206,207でマッチングすべき入力
パターンの部分区間の開始フレームsと終了フレームt
の値を設定している。ただし、頭語(k=1)において
はs=1、語尾(k=K)においてはt=Iであり、k
≠1かつk≠Kのときはs=ik-1−r1,t=fk+r
2となる。
おり、ステップ206,207でマッチングすべき入力
パターンの部分区間の開始フレームsと終了フレームt
の値を設定している。ただし、頭語(k=1)において
はs=1、語尾(k=K)においてはt=Iであり、k
≠1かつk≠Kのときはs=ik-1−r1,t=fk+r
2となる。
ステップ208は前記説明に従って音節n=1〜Nに対
する標準パターンのそれぞれと入力パターンの前記部分
区間とのマッチングを行っている。
する標準パターンのそれぞれと入力パターンの前記部分
区間とのマッチングを行っている。
ステップ209は前記説明に従って単語w=1〜Wに対
する標準パターンの結合と入力パターンとのマッチング
を行っている。
する標準パターンの結合と入力パターンとのマッチング
を行っている。
ステップ210は単語wのk番目の音節u(w,k)と音
節nとが一致するとき音節nの標準パターンと入力パタ
ーンのk番目の部分区間とのマッチングを、前記説明に
従って、セグメント・マーカ前後の数フレームを端点自
由区間として行っている。
節nとが一致するとき音節nの標準パターンと入力パタ
ーンのk番目の部分区間とのマッチングを、前記説明に
従って、セグメント・マーカ前後の数フレームを端点自
由区間として行っている。
ステップ211,212は前記部分区間におけるマッチ
ング計算に先だって初期化を行っている。
ング計算に先だって初期化を行っている。
ステップ213は前記入力パターンの部分区間s〜tと
音節標準パターンnとのマッチング計算を行っている。
音節標準パターンnとのマッチング計算を行っている。
ここで、ステップ211,214においては、前記説明
に従って、Dn(i,j)に対しては2フレーム分の、dn
(i,j)に対しては1フレーム分のメモリのみで済むも
のでであるから、このことを実際に行うために、iに対
してm=i mod2なる置き換えを行っている。また、i=
s〜tの間nは不変であるから、Dn(I,J),d
n(i,j)はn毎に持つ必要はなく、それらはD(i,
j),d(i,j)とすることができる。
に従って、Dn(i,j)に対しては2フレーム分の、dn
(i,j)に対しては1フレーム分のメモリのみで済むも
のでであるから、このことを実際に行うために、iに対
してm=i mod2なる置き換えを行っている。また、i=
s〜tの間nは不変であるから、Dn(I,J),d
n(i,j)はn毎に持つ必要はなく、それらはD(i,
j),d(i,j)とすることができる。
ステップ214,215,216は入力フレームiにお
ける処理に先だって初期化する部分である。
ける処理に先だって初期化する部分である。
ステップ217は前記説明に従ってフレームiにおける
漸化式の計算をj=Jn〜1について計算している。
漸化式の計算をj=Jn〜1について計算している。
ステップ219は入力パターンのik-1−r1≦i≦tの
フレームについてn=1〜nについてのD(m,j)の最
小値をD(w,k)(i)に代入している。
フレームについてn=1〜nについてのD(m,j)の最
小値をD(w,k)(i)に代入している。
ステップ220はD(w,k)(I)を最小にするW=W*を求
めており、W*が求めるべき認識結果である。
めており、W*が求めるべき認識結果である。
発明の効果 以上述べたように、本発明においては、音節を連続して
発声する際、音節入力に伴ってセグメント・マーカを付
加するようになしたとき、このマーカの位置を基準に前
後数フレームの曖味さを持たせて入力パターンに最も良
く整合する単語辞書のそれぞれの単語に対応する標準パ
ターン列をDPマッチングにより求めるようにしたの
で、セグメンテーション誤りを排除出来たばかりでな
く、高精度のセグメンテーションが可能となったもので
ある。
発声する際、音節入力に伴ってセグメント・マーカを付
加するようになしたとき、このマーカの位置を基準に前
後数フレームの曖味さを持たせて入力パターンに最も良
く整合する単語辞書のそれぞれの単語に対応する標準パ
ターン列をDPマッチングにより求めるようにしたの
で、セグメンテーション誤りを排除出来たばかりでな
く、高精度のセグメンテーションが可能となったもので
ある。
第1図は本発明の一実施例を示すブロック図、第2図は
本発明の基本原理を説明する基本原理図、第3図は本発
明におけるDPマッチング計算の詳細を説明するための
原理図、第4図は本発明の実施例で用いたDPマッチン
グの径路の拘束条件を示す説明図、第5図は前記実施例
における処理手順を詳細に説明するための処理手順図で
ある。 1……音声入力端子、2……特徴抽出部、3……入力バ
ッファ・メモリ、4……音声区間検出部、5……セグメ
ント・マーカ発生部、6……入力フレーム・カウンタ、
7……マーカ位置記憶部、8……マッチング範囲記憶
部、9……標準パターン記憶部、10……ベクトル間距
離計算部、11……ベクトル間距離記憶部、12……累
積距離計算部、13……累積距離記憶部、14……最小
値判定部、15……出力端子、16……単語辞書。
本発明の基本原理を説明する基本原理図、第3図は本発
明におけるDPマッチング計算の詳細を説明するための
原理図、第4図は本発明の実施例で用いたDPマッチン
グの径路の拘束条件を示す説明図、第5図は前記実施例
における処理手順を詳細に説明するための処理手順図で
ある。 1……音声入力端子、2……特徴抽出部、3……入力バ
ッファ・メモリ、4……音声区間検出部、5……セグメ
ント・マーカ発生部、6……入力フレーム・カウンタ、
7……マーカ位置記憶部、8……マッチング範囲記憶
部、9……標準パターン記憶部、10……ベクトル間距
離計算部、11……ベクトル間距離記憶部、12……累
積距離計算部、13……累積距離記憶部、14……最小
値判定部、15……出力端子、16……単語辞書。
Claims (1)
- 【請求項1】音節を連続発声して得られる単語・文節等
の入力音声信号を特徴ベクトルの系列に変換する特徴抽
出手段と、音節のそれぞれに対応した特徴ベクトルの系
列を前記音節名に対応づけて記憶する標準パターン記憶
手段と、1音節発声する毎にそれに同期した信号である
セグメント・マーカを発生するセグメント・マーカ発生
手段と、前記標準パターンのそれぞれと前記入力パター
ンに対して得られた前記それぞれのセグメント・マーカ
の近傍のそれぞれのフレームから次のセグメント・マー
カの近傍のそれぞれのフレームまでの入力パターンの部
分区間とのマッチングを行って両者の距離(類似度)を
計算するマッチング手段と、認識されるべき各単語・文
節等を前記音節名の系列として表現した単語・文節等を
記憶する単語・文節辞書と、この認識されるべき単語・
文節と前記入力パターンとの距離を、前記単語・文節辞
書によって指定される音節名の系列に対応するように、
前記部分区間を隣会う区間が連続するように最適に定め
ることにより、前記各部分区間の始点と終点およびその
音節名に対応する距離(類似度)の総和を最小(最大)
となし、得られる最小値(最大値)を前記各単語・文節
に対する前記入力パターンの距離として出力する単語・
文節マッチング手段と、前記最小値(最大値)のなかで
最小値(最大値)を与える前記単語・文節を認識結果と
して判定する判定手段とを含むことを特徴とする連続音
声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61034524A JPH0646357B2 (ja) | 1986-02-18 | 1986-02-18 | 連続音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61034524A JPH0646357B2 (ja) | 1986-02-18 | 1986-02-18 | 連続音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS62191894A JPS62191894A (ja) | 1987-08-22 |
| JPH0646357B2 true JPH0646357B2 (ja) | 1994-06-15 |
Family
ID=12416661
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP61034524A Expired - Fee Related JPH0646357B2 (ja) | 1986-02-18 | 1986-02-18 | 連続音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0646357B2 (ja) |
-
1986
- 1986-02-18 JP JP61034524A patent/JPH0646357B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JPS62191894A (ja) | 1987-08-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2001166789A (ja) | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 | |
| Abdo et al. | Semi-automatic segmentation system for syllables extraction from continuous Arabic audio signal | |
| JP3378547B2 (ja) | 音声認識方法及び装置 | |
| JPH0646357B2 (ja) | 連続音声認識装置 | |
| JPH0638198B2 (ja) | 連続音声認識装置 | |
| JPH0827638B2 (ja) | 音素を単位とした音声認識装置 | |
| JP2943445B2 (ja) | 音声認識方法 | |
| JP3277522B2 (ja) | 音声認識方法 | |
| JPH067346B2 (ja) | 音声認識装置 | |
| JP2001005483A (ja) | 単語音声認識方法及び単語音声認識装置 | |
| JP2692382B2 (ja) | 音声認識方法 | |
| JP2862306B2 (ja) | 音声認識装置 | |
| JPH067359B2 (ja) | 音声認識装置 | |
| JP2737122B2 (ja) | 音声辞書作成装置 | |
| JPS60164800A (ja) | 音声認識装置 | |
| JPS6180298A (ja) | 音声認識装置 | |
| JPH0619497A (ja) | 音声認識方法 | |
| JPH05303391A (ja) | 音声認識装置 | |
| JPH0361957B2 (ja) | ||
| KR19990050440A (ko) | 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법 및 음성인식장치 | |
| JPH0552516B2 (ja) | ||
| Pieraccini et al. | A coarticulation model for continuous digit recognition | |
| Wang et al. | Automatic segmentation and alignment of continuous speech based on the temporal decomposition model | |
| JPS60182499A (ja) | 音声認識装置 | |
| JPH0827640B2 (ja) | 音声認識装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |