JPH044600B2 - - Google Patents
Info
- Publication number
- JPH044600B2 JPH044600B2 JP56076472A JP7647281A JPH044600B2 JP H044600 B2 JPH044600 B2 JP H044600B2 JP 56076472 A JP56076472 A JP 56076472A JP 7647281 A JP7647281 A JP 7647281A JP H044600 B2 JPH044600 B2 JP H044600B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- point
- input
- matching
- termination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】
本発明は、音声認識などのパターン認識システ
ムに使用されるパターンマツチング装置に関する
ものである。
ムに使用されるパターンマツチング装置に関する
ものである。
現在、実用化が進められている音声認識等のパ
ターン認識システムでは、入力パターンを認識す
るために、あらかじめ記憶した各種の標準パター
ンと入力パターンを比較して認識を行うパターン
マツチング法が用いられている。例えば音声認識
では、標準パターンとして、認識したい単語分の
標準パターンを記憶して用いる。
ターン認識システムでは、入力パターンを認識す
るために、あらかじめ記憶した各種の標準パター
ンと入力パターンを比較して認識を行うパターン
マツチング法が用いられている。例えば音声認識
では、標準パターンとして、認識したい単語分の
標準パターンを記憶して用いる。
このような音声認識において、パターンマツチ
ング法を用いるとき問題になるのは、入力音声が
発声毎に時間軸に対して任意に伸縮することであ
る。すなわち、同一の話者が同一の単語を発声し
ても、全く同じ長さには発声できない。したがつ
て標準パターンとのマツチングにおいて、記憶さ
れている標準パターンが入力音声を発声した話者
のものであつても、発声速度が任意に変化するた
め類似度が発声毎に変化し、正しい認識結果が得
られない。この入力パターンと標準パターンの時
間軸のずれを整合しながらマツチングを行う方法
として、動的計画法(Dynamic P
rogramming以下DPと略す。)を用いたマツチン
グ法が広く用いられている(例えば特開昭47−
30242号公報参照)。次にDPの概要について説明
する。
ング法を用いるとき問題になるのは、入力音声が
発声毎に時間軸に対して任意に伸縮することであ
る。すなわち、同一の話者が同一の単語を発声し
ても、全く同じ長さには発声できない。したがつ
て標準パターンとのマツチングにおいて、記憶さ
れている標準パターンが入力音声を発声した話者
のものであつても、発声速度が任意に変化するた
め類似度が発声毎に変化し、正しい認識結果が得
られない。この入力パターンと標準パターンの時
間軸のずれを整合しながらマツチングを行う方法
として、動的計画法(Dynamic P
rogramming以下DPと略す。)を用いたマツチン
グ法が広く用いられている(例えば特開昭47−
30242号公報参照)。次にDPの概要について説明
する。
音声パターンは、特徴ベクトルAi=(a1i、a2i、
ani、……aoi)の時系列として A=A1、A2、A3、…、Ai、…、AI ……(1) と表わされる。この特徴ベクトルAiは音声信号を
時間領域でI個の区間に区切つたときの(この時
区切られた1つの区間をフレームと呼ぶ)i番目
のフレームの音声の特徴ベクトルであり、特徴ベ
クトルとしては、たとえば中心周波数の異なつた
n個の帯域フイルタ群の出力が考えられる。ani
とは、音声のi番目のフレームのn個の帯域フイ
ルタのうちm番目のフイルタ出力である。入力音
声パターンX、標準音声パターンYは、特徴ベク
トルの時系列として、 X=X1、X2、X3、…、Xi、…、XI Y=Y1、Y2、Y3、…、Yj、…、YJ ……(2) と表現される。
ani、……aoi)の時系列として A=A1、A2、A3、…、Ai、…、AI ……(1) と表わされる。この特徴ベクトルAiは音声信号を
時間領域でI個の区間に区切つたときの(この時
区切られた1つの区間をフレームと呼ぶ)i番目
のフレームの音声の特徴ベクトルであり、特徴ベ
クトルとしては、たとえば中心周波数の異なつた
n個の帯域フイルタ群の出力が考えられる。ani
とは、音声のi番目のフレームのn個の帯域フイ
ルタのうちm番目のフイルタ出力である。入力音
声パターンX、標準音声パターンYは、特徴ベク
トルの時系列として、 X=X1、X2、X3、…、Xi、…、XI Y=Y1、Y2、Y3、…、Yj、…、YJ ……(2) と表現される。
ここで入力パターンX、標準パターンYの類似
度を求めるため、両特徴ベクトルの距離を求める
必要があり、距離dは例えば、ユークリツド距離
として、 d(i,j)=(X1−Yj)2=o 〓 (xiu−yju)2 ……(3) で求められる。仮に入力パターンXと標準パター
ンYの時間軸の伸縮が全く無いとするとXとYは
1対1に対応し、類似度Sは、距離dの総和とし
て、 S={n 〓 (Xn−Yn)2}/m={n 〓 d(m,m)}/m ……(4) として求められる。ここでmは入力パターンと標
準パターンのそれぞれn個のフレームのうちいず
れかを指定するフレーム番号を示す。Sは小さい
ほど、類似度が高い、すなわち良く似たパターン
(単語)であることを示す。
度を求めるため、両特徴ベクトルの距離を求める
必要があり、距離dは例えば、ユークリツド距離
として、 d(i,j)=(X1−Yj)2=o 〓 (xiu−yju)2 ……(3) で求められる。仮に入力パターンXと標準パター
ンYの時間軸の伸縮が全く無いとするとXとYは
1対1に対応し、類似度Sは、距離dの総和とし
て、 S={n 〓 (Xn−Yn)2}/m={n 〓 d(m,m)}/m ……(4) として求められる。ここでmは入力パターンと標
準パターンのそれぞれn個のフレームのうちいず
れかを指定するフレーム番号を示す。Sは小さい
ほど、類似度が高い、すなわち良く似たパターン
(単語)であることを示す。
先に述べたように、音声は発声する毎に伸び縮
みしてしまうため、(4)式では正確に類似度Sを求
めることができない。したがつてDPでは、次の
ように時間軸を整合しながらSを求める。第1図
に時間軸上での入力パターンXと標準パターンY
の整合の過程を示し、第2図に入力パターンX、
標準パターンYを縦座標、横座標に変換したもの
を示す。矢印は整合過程を示したもので、時間軸
の伸縮を整合している様子を示している。矢印で
示す経路で距離を求めながら、類似度Sを求める
と、 S={d(1,1)+d(2,2)+d(2,
3)+…+d(8,7)}/9……(5) が求められる。
みしてしまうため、(4)式では正確に類似度Sを求
めることができない。したがつてDPでは、次の
ように時間軸を整合しながらSを求める。第1図
に時間軸上での入力パターンXと標準パターンY
の整合の過程を示し、第2図に入力パターンX、
標準パターンYを縦座標、横座標に変換したもの
を示す。矢印は整合過程を示したもので、時間軸
の伸縮を整合している様子を示している。矢印で
示す経路で距離を求めながら、類似度Sを求める
と、 S={d(1,1)+d(2,2)+d(2,
3)+…+d(8,7)}/9……(5) が求められる。
DPを用いたパターンマツチングには各種ある
が単語のように、時間軸の伸縮がある程度限定さ
れる場合の認識では、時間軸の整合の幅を限定し
たDP(以下、DPと呼ぶのは全てこのようなDPと
する。)が用いられる。本DPのバスの選択は次の
ようにして行なわれる。
が単語のように、時間軸の伸縮がある程度限定さ
れる場合の認識では、時間軸の整合の幅を限定し
たDP(以下、DPと呼ぶのは全てこのようなDPと
する。)が用いられる。本DPのバスの選択は次の
ようにして行なわれる。
すなわち、第3図の点Eに到る経過としては、
点F、G、Hの3方向が許されるが、点F、G、
Hに至るまでの距離dの累和をD(i、j−1)、
D(i−1、j−1)、D(i−1、j)とすると、
点Eの累和D(i、j)は3方向の内どこからく
るかによつて(6)式のようになる。累和D(i、j)
としては(6)式のうち、値が最小になる経過のもの
が選択される。
点F、G、Hの3方向が許されるが、点F、G、
Hに至るまでの距離dの累和をD(i、j−1)、
D(i−1、j−1)、D(i−1、j)とすると、
点Eの累和D(i、j)は3方向の内どこからく
るかによつて(6)式のようになる。累和D(i、j)
としては(6)式のうち、値が最小になる経過のもの
が選択される。
D(i、j−1)+d(i、j)
D(i−1、j−1)+W・d(i、j)
D(i−1、j)+d(i、j) ……(6)
但しWは対角線方向へのバス選択の重みを示し、
通常は2である。また点Eに到るまでの経過長L
(i、j)としては(6)式で選ばれた経過に応じた
経過長が(7)式にしたがつ選択される。点F、G、
Hまでの経過長をL(i、j−1)、L(i−1、
j−1)、L(i−1、j)とすると L(i、j−1)+1 L(i−1、j−1)+W L(i−1、j)+1 ……(7) なお初期値D(1、1)、L(1、1)は次のよ
うに表わされる。
通常は2である。また点Eに到るまでの経過長L
(i、j)としては(6)式で選ばれた経過に応じた
経過長が(7)式にしたがつ選択される。点F、G、
Hまでの経過長をL(i、j−1)、L(i−1、
j−1)、L(i−1、j)とすると L(i、j−1)+1 L(i−1、j−1)+W L(i−1、j)+1 ……(7) なお初期値D(1、1)、L(1、1)は次のよ
うに表わされる。
D(1、1)=d(1、1)
L(1、1)=1 ……(8)
また(6)式は次式の制約条件で計算される。
1iI、1jJ
j−γij+γ γ=整数 ……(9)
γは入力パターンXと標準パターンYの時間軸
の変化を吸収して整合するときの範囲すなわち整
合幅を決めるもので、γを大きくするにつれ、伸
縮の大きな、入力パターンと標準パターン間の整
合がとれることになる。しかし、γが大きすぎる
と処理量が増加し、また整合しすぎることにな
る。第2図の場合はl=2γ+1、γ=±1であ
り、l=3で整合できることを示している。第2
図において、最終的な類似度Sは、累和D(8、
7)と経過長L(8、7)によつて、 S=D(8、7)/L(8、7) ……(10) として求められ、これは(5)式に相当する。
の変化を吸収して整合するときの範囲すなわち整
合幅を決めるもので、γを大きくするにつれ、伸
縮の大きな、入力パターンと標準パターン間の整
合がとれることになる。しかし、γが大きすぎる
と処理量が増加し、また整合しすぎることにな
る。第2図の場合はl=2γ+1、γ=±1であ
り、l=3で整合できることを示している。第2
図において、最終的な類似度Sは、累和D(8、
7)と経過長L(8、7)によつて、 S=D(8、7)/L(8、7) ……(10) として求められ、これは(5)式に相当する。
このように本DPは、第2図のように点線内の
範囲のみマツチングを行えばよいため、距離計算
も点線内の処理のみでよい。したがつて、処理量
が少なく、多量の標準パターンのマツチングが可
能となる。
範囲のみマツチングを行えばよいため、距離計算
も点線内の処理のみでよい。したがつて、処理量
が少なく、多量の標準パターンのマツチングが可
能となる。
本DPにおいて問題になるのが入力音声の切出
しである。本DPは(8)式のように始端が固定され
ており、また(9)式のように整合可能な幅がγに限
定されている。したがつて、始端の切出しを間違
えると、始点がずれため、整合幅γでは整合でき
なくなることが考えられる。また終端の切出しを
間違えると入力音声の長さが本DPで許している
(±γ)をこえてしまい、異なつた単語と判断さ
れることが考えられる。DP処理を実時間で行う
場合、この入力音声の切出しも実時間で行う必要
がある。しかし入力音声の切出しを実時間で行う
ためには、色々な問題点が生じる。
しである。本DPは(8)式のように始端が固定され
ており、また(9)式のように整合可能な幅がγに限
定されている。したがつて、始端の切出しを間違
えると、始点がずれため、整合幅γでは整合でき
なくなることが考えられる。また終端の切出しを
間違えると入力音声の長さが本DPで許している
(±γ)をこえてしまい、異なつた単語と判断さ
れることが考えられる。DP処理を実時間で行う
場合、この入力音声の切出しも実時間で行う必要
がある。しかし入力音声の切出しを実時間で行う
ためには、色々な問題点が生じる。
つぎに、実時間でのDP処理、切出し処理にお
ける具体的な問題点について述べる。入力音声の
切出し、すなわち始端、終端の検出には例えば入
力音声のパワーが用いられる。音声が発声されて
いないときは、パワーが小さく(無音)、発声さ
れるとパワーが上がることを利用したものであ
る。
ける具体的な問題点について述べる。入力音声の
切出し、すなわち始端、終端の検出には例えば入
力音声のパワーが用いられる。音声が発声されて
いないときは、パワーが小さく(無音)、発声さ
れるとパワーが上がることを利用したものであ
る。
さて、終端の決定において、切手(キツテ)な
ど促音のある場合、ツのところが無音区間となつ
てしまい終端と間違う危険性が生じる(第4図A
点付近)。また語尾が無声化しやすい単語、例え
ば浜松(HAMAMATSU)などでは、終端で音
声信号の有無がはつきりしない場合がある(第4
図B−C点間)。両者とも終端らしい点が見つか
つても、その点以降数百msecの様子を見ないと、
その点が終端であると断定できない。すなわち第
4図のような入力音声があつた場合、実際の終端
はC点であるのにA、B点が終端と間違える恐れ
がある。またC点を終端と決定するためには、D
点まで入力音声の様子を見る必要がある。A点あ
るいはB点が終端と間違つて判定され、入力音声
が途中で切られた場合実際の入力音声より短かい
音声と判断される。これを避けるため数百msec
の無音区間を確認できた後、終端を決定する場合
にはD点で初めて終端が決定されることになる。
しかしDP処理を実時間で行うとD点までの入力
音声がすでにDP処理部で処理されている。すな
わち入力音声がD点までの長さの音声として処理
され、実際の入力音声より長い音声と判断され
る。前述したDP処理では、処理量を少なくする
ため時間軸の変動幅を、±γ(標準パターンの時間
長)と制限しているため、終端がA、Bあるいは
D点と間違つて判断されると、この変動幅以上の
入力となり、リジエクトされる。
ど促音のある場合、ツのところが無音区間となつ
てしまい終端と間違う危険性が生じる(第4図A
点付近)。また語尾が無声化しやすい単語、例え
ば浜松(HAMAMATSU)などでは、終端で音
声信号の有無がはつきりしない場合がある(第4
図B−C点間)。両者とも終端らしい点が見つか
つても、その点以降数百msecの様子を見ないと、
その点が終端であると断定できない。すなわち第
4図のような入力音声があつた場合、実際の終端
はC点であるのにA、B点が終端と間違える恐れ
がある。またC点を終端と決定するためには、D
点まで入力音声の様子を見る必要がある。A点あ
るいはB点が終端と間違つて判定され、入力音声
が途中で切られた場合実際の入力音声より短かい
音声と判断される。これを避けるため数百msec
の無音区間を確認できた後、終端を決定する場合
にはD点で初めて終端が決定されることになる。
しかしDP処理を実時間で行うとD点までの入力
音声がすでにDP処理部で処理されている。すな
わち入力音声がD点までの長さの音声として処理
され、実際の入力音声より長い音声と判断され
る。前述したDP処理では、処理量を少なくする
ため時間軸の変動幅を、±γ(標準パターンの時間
長)と制限しているため、終端がA、Bあるいは
D点と間違つて判断されると、この変動幅以上の
入力となり、リジエクトされる。
したがつて、従来の方法では、まず入力音声の
切出し処理をおこなつて入力音声をメモリに格納
しておき、切出し終了後、音声区間の入力音声を
メモリより読み出し、マツチング処理を行つてい
た。
切出し処理をおこなつて入力音声をメモリに格納
しておき、切出し終了後、音声区間の入力音声を
メモリより読み出し、マツチング処理を行つてい
た。
この従来法の問題点を明確にするため、まず第
5図を用いて音声などの認識処理装置の従来例の
概略を説明する。入力された音声は、特徴抽出部
1で特徴が抽出される。距離計算部2は、特徴抽
出された入力音声と、あらかじめ標準パターンメ
モリ3に格納されている複数の標準パターン(単
語)との間の距離を計算する。
5図を用いて音声などの認識処理装置の従来例の
概略を説明する。入力された音声は、特徴抽出部
1で特徴が抽出される。距離計算部2は、特徴抽
出された入力音声と、あらかじめ標準パターンメ
モリ3に格納されている複数の標準パターン(単
語)との間の距離を計算する。
DP処理部4では、距離計算部2からの距離を
時間軸整合しながらマツチングを行なう。判定部
5では、DP処理部4から出力される各標準パタ
ーンとの類似度から最大の類似度にたいする標準
パターンを解として出力する。従来の装置は、前
記の理由により特徴抽出部1の後に1単語分の入
力音声を格納するためのメモリ10を持ち、音声
切出し部6により検出された始端から終端までの
入力音声を格納する。メモリ10には正しく切出
された入力音声が格納される。終端検出後メモリ
10に格納されている入力音声に対して、距離演
算以降のマツチング処理を行う。
時間軸整合しながらマツチングを行なう。判定部
5では、DP処理部4から出力される各標準パタ
ーンとの類似度から最大の類似度にたいする標準
パターンを解として出力する。従来の装置は、前
記の理由により特徴抽出部1の後に1単語分の入
力音声を格納するためのメモリ10を持ち、音声
切出し部6により検出された始端から終端までの
入力音声を格納する。メモリ10には正しく切出
された入力音声が格納される。終端検出後メモリ
10に格納されている入力音声に対して、距離演
算以降のマツチング処理を行う。
従来の装置では実時間処理ができないが、第5
図におけるメモリ10の構成を、特徴抽出部1か
らの書込みと、距離計算部2からの読出しを同時
に行なえるようにすることにより実時間処理が可
能になる。この場合、メモリ10の容量は、第4
図のC点からD点までの数百msecにわたる情報
を格納可能なものでよく、メモリ容量は従来の装
置に比べて少なくできる。以下、第5図の装置に
ついて説明する。
図におけるメモリ10の構成を、特徴抽出部1か
らの書込みと、距離計算部2からの読出しを同時
に行なえるようにすることにより実時間処理が可
能になる。この場合、メモリ10の容量は、第4
図のC点からD点までの数百msecにわたる情報
を格納可能なものでよく、メモリ容量は従来の装
置に比べて少なくできる。以下、第5図の装置に
ついて説明する。
メモリ10により、特徴パラメータ抽出部1よ
り出力されたデータは、数百msec後に距離計算
部2に入力される。したがつて、D点の入力音声
が特徴抽出部1に入力して、音声切出し部6で終
端が検出された時、実際の終端であるC点のデー
タはまだメモリ10に格納されており、距離計算
部2には入力されていない。音声切出し部6は、
C点まで入力音声をメモリ10から、距離計算部
2に送つた後、D点でDP処理部4に終端検出信
号EEを送り、DP演算を完了させ、そのときの
DP演算結果を判定部5に転送し、判定部5でDP
演算結果にもとづき類似度最大の標準パターンを
見出し、解として出力することにより、ほぼ実時
間処理可能な装置を実現していた。しかし、従来
の装置では、メモリ10は、読出し書込みが競合
する回路となり、また実際の終端であるC点か
ら、C点を実際の終端と決定できるD点までの時
間も一定でないため、メモリ10の制御回路およ
び音声切出し部6の制御は共に複雑になつてしま
う。
り出力されたデータは、数百msec後に距離計算
部2に入力される。したがつて、D点の入力音声
が特徴抽出部1に入力して、音声切出し部6で終
端が検出された時、実際の終端であるC点のデー
タはまだメモリ10に格納されており、距離計算
部2には入力されていない。音声切出し部6は、
C点まで入力音声をメモリ10から、距離計算部
2に送つた後、D点でDP処理部4に終端検出信
号EEを送り、DP演算を完了させ、そのときの
DP演算結果を判定部5に転送し、判定部5でDP
演算結果にもとづき類似度最大の標準パターンを
見出し、解として出力することにより、ほぼ実時
間処理可能な装置を実現していた。しかし、従来
の装置では、メモリ10は、読出し書込みが競合
する回路となり、また実際の終端であるC点か
ら、C点を実際の終端と決定できるD点までの時
間も一定でないため、メモリ10の制御回路およ
び音声切出し部6の制御は共に複雑になつてしま
う。
したがつて、本発明の目的は上記問題点を解決
して、入力音声にたいして実時間処理をおこなえ
るようにした音声認識などに用いられるパターン
マツチング装置を提供することにある。この目的
を達成するため本発明においては、実時間処理を
おこないながら終端候補が検出されたときのDP
演算結果を順次メモリに格納し、上記終端候補が
真の終端であることが検出されたとき真の終端に
対応したDP演算結果をメモリより読み出し、こ
れを真のDP演算結果をする点に特徴がある。
して、入力音声にたいして実時間処理をおこなえ
るようにした音声認識などに用いられるパターン
マツチング装置を提供することにある。この目的
を達成するため本発明においては、実時間処理を
おこないながら終端候補が検出されたときのDP
演算結果を順次メモリに格納し、上記終端候補が
真の終端であることが検出されたとき真の終端に
対応したDP演算結果をメモリより読み出し、こ
れを真のDP演算結果をする点に特徴がある。
以下、実施例を参照して本発明を説明する。
本発明にもとづく音声認識装置のブロツク構成
図を第7図に、第4図の入力パターン(横軸)と
ある標準パターン(縦軸)との整合関係を第6図
に示す。
図を第7図に、第4図の入力パターン(横軸)と
ある標準パターン(縦軸)との整合関係を第6図
に示す。
第6図のA、B、CおよびD点は第4図の入力
音声の各時点A、B、CおよびDに対応する。
音声の各時点A、B、CおよびDに対応する。
第7図に示す装置では第5図に示す従来の装置
のDP処理部4と判定部5の間に新たにメモリ7
を設ける。このメモリ7は、標準パターンメモリ
3に格納されている単語数すなわち認識語数だけ
の容量を持つ。さらに本装置の音声切出し部6に
は、始端検出部60のほかに終端らしい点(終端
候補)を検出し、この情報をDP処理部4に伝え
る終端候補検出部61と、終端を検出し、DP処
理部4と判定部5にこの情報を伝える終端検出部
62がある。始端検出部60は入力パターンの始
端において始端信号SSを発生し、終端候補検出
部61は、第4図のA、B、C点で終端候補信号
SEを発生し、終端検出部8はD点で終端信号EE
を発生する。DP処理部4は終端候補信号SEを受
けると、その時点の各標準パターンと入力パター
ンとの類似度をメモリ7に書込む。また終端信号
EEを受けると処理を終了する。判定部5は、終
端信号EEを受けるとメモリ7の値を読出し、第
5図の場合と同様の判定処理を行う。
のDP処理部4と判定部5の間に新たにメモリ7
を設ける。このメモリ7は、標準パターンメモリ
3に格納されている単語数すなわち認識語数だけ
の容量を持つ。さらに本装置の音声切出し部6に
は、始端検出部60のほかに終端らしい点(終端
候補)を検出し、この情報をDP処理部4に伝え
る終端候補検出部61と、終端を検出し、DP処
理部4と判定部5にこの情報を伝える終端検出部
62がある。始端検出部60は入力パターンの始
端において始端信号SSを発生し、終端候補検出
部61は、第4図のA、B、C点で終端候補信号
SEを発生し、終端検出部8はD点で終端信号EE
を発生する。DP処理部4は終端候補信号SEを受
けると、その時点の各標準パターンと入力パター
ンとの類似度をメモリ7に書込む。また終端信号
EEを受けると処理を終了する。判定部5は、終
端信号EEを受けるとメモリ7の値を読出し、第
5図の場合と同様の判定処理を行う。
つぎに、第6図を用いて本装置の動作を説明す
る。本装置では、入力パターンより特徴抽出部1
で抽出された自己相関係数やパワーなどの特徴量
にもとづいて、まず始端を検出すると距離計算部
2以降の処理を開始する。処理が進み特徴抽出部
1にA点にあたる音声が入力すると、A点ではパ
ワーがほとんど無くなり終端である可能性がある
から終端候補検出部61はこのA点を終端候補と
して検出し、DP処理部4に終端候補信号SEを送
る。この信号SEにもとづきDP処理部4は、終端
候補検出部61が終端候補を検出した点すなわ
ち、A点までのDPマツチング結果をメモリ7に
退避するか否かの制御をおこなう。第6図の場
合、標準パターンの長さと、A点までの入力音声
の長さは大きく異り、整合幅l以内でおさまらな
いため、メモリ7に退避されるデータはマツチン
グ結果そのものではなく、リジエクトデータまた
は類似度が最低となるデータである。終端検出部
62は、終端候補検出部61が終端候補を検出し
た後数百msec以内に再び音声が入力されない、
すなわちパワーが無いとき終端を確認する回路で
A点からB点の間では数百msec以内にB点で再
び音声が入力するため、終端信号EEは出力され
ない。
る。本装置では、入力パターンより特徴抽出部1
で抽出された自己相関係数やパワーなどの特徴量
にもとづいて、まず始端を検出すると距離計算部
2以降の処理を開始する。処理が進み特徴抽出部
1にA点にあたる音声が入力すると、A点ではパ
ワーがほとんど無くなり終端である可能性がある
から終端候補検出部61はこのA点を終端候補と
して検出し、DP処理部4に終端候補信号SEを送
る。この信号SEにもとづきDP処理部4は、終端
候補検出部61が終端候補を検出した点すなわ
ち、A点までのDPマツチング結果をメモリ7に
退避するか否かの制御をおこなう。第6図の場
合、標準パターンの長さと、A点までの入力音声
の長さは大きく異り、整合幅l以内でおさまらな
いため、メモリ7に退避されるデータはマツチン
グ結果そのものではなく、リジエクトデータまた
は類似度が最低となるデータである。終端検出部
62は、終端候補検出部61が終端候補を検出し
た後数百msec以内に再び音声が入力されない、
すなわちパワーが無いとき終端を確認する回路で
A点からB点の間では数百msec以内にB点で再
び音声が入力するため、終端信号EEは出力され
ない。
同様にB、C点においても終端候補検出部61
は上記の理由により終端候補であると判断するた
め、B、C点では終端候補検出部61はDP処理
部4に終端候補信号SEを送る。ここでメモリ7
はDP処理部4からマツチング結果が送られる毎
に、新しいマツチング結果に書き換えられる。例
えば、A点においては、メモリ7にすでに書きこ
まれているA点での入力パターンと各標準パター
ンとのマツチング結果がB点においては、B点で
の入力パターンと各標準パターンのマツチング結
果に書き換えられる。同様に、B点でのマツチン
グ結果がC点においてはC点でのマツチング結果
に書き換えられる。ここで第6図の標準パターン
に対するC点のマツチング結果は、標準パターン
と音声(単語)の長さの変動が−γ〜+γの範囲
内におさまつているため、白丸の点までのDP処
理された結果としてある値をとる。終端検出部6
2は、B−C点間ではB点の終端候補検出後再び
音声が入力されるため、終端信号は出さない。し
かしC−D点間では、数百msecの間音声が入力
しないため、すでに音声の発声は終つたと判断で
きる。したがつて終端検出部はD点でDP処理部
4および判定部5に終端信号EEを送る。これに
より、DP処理部4は処理を停止し、判定部5は、
各標準パターンとの類似度をメモリ7より読出
し、最大の類似度を持つ標準パターンを検出し、
それを解として出力する。ここでメモリ7にはC
点以降音声の再入力は無いため、終端候補は現わ
れない。したがつてメモリ7には、実際の終端で
あるC点までのマツチング結果が格納されてい
る。このようにして、本発明によれば実時間で切
出し処理およびDPによるマツチング処理が実現
できる。
は上記の理由により終端候補であると判断するた
め、B、C点では終端候補検出部61はDP処理
部4に終端候補信号SEを送る。ここでメモリ7
はDP処理部4からマツチング結果が送られる毎
に、新しいマツチング結果に書き換えられる。例
えば、A点においては、メモリ7にすでに書きこ
まれているA点での入力パターンと各標準パター
ンとのマツチング結果がB点においては、B点で
の入力パターンと各標準パターンのマツチング結
果に書き換えられる。同様に、B点でのマツチン
グ結果がC点においてはC点でのマツチング結果
に書き換えられる。ここで第6図の標準パターン
に対するC点のマツチング結果は、標準パターン
と音声(単語)の長さの変動が−γ〜+γの範囲
内におさまつているため、白丸の点までのDP処
理された結果としてある値をとる。終端検出部6
2は、B−C点間ではB点の終端候補検出後再び
音声が入力されるため、終端信号は出さない。し
かしC−D点間では、数百msecの間音声が入力
しないため、すでに音声の発声は終つたと判断で
きる。したがつて終端検出部はD点でDP処理部
4および判定部5に終端信号EEを送る。これに
より、DP処理部4は処理を停止し、判定部5は、
各標準パターンとの類似度をメモリ7より読出
し、最大の類似度を持つ標準パターンを検出し、
それを解として出力する。ここでメモリ7にはC
点以降音声の再入力は無いため、終端候補は現わ
れない。したがつてメモリ7には、実際の終端で
あるC点までのマツチング結果が格納されてい
る。このようにして、本発明によれば実時間で切
出し処理およびDPによるマツチング処理が実現
できる。
つぎに、第5図の従来の回路と本発明の実施例
にあげた第7図の回路とのハードウエア量を比較
してみる。第7図で入力音声切出し部6の能力と
しては従来のものと全く同じで、ただ終端を決定
する途中で終端らしい点(終端候補)が求まつた
時、この情報をフラグの形で出力する機能を追加
するのみであるため、従来の回路に対するハード
ウエア量の増加はほとんど無いといえる。次にメ
モリ7にたいしてはDP処理部4からの書込み、
判定部5からの読出し処理があるが、同時にはア
クセスしない、すなわち競合は起きないため、従
来の実時間の回路に比べ制御は簡単でハードウエ
ア量も少なくなる。メモリ7の容量は標準パター
ンの単語数だけ必要となり、認識しない単語数が
増えるとメモリ容量も大きくなつてくる。しか
し、数百語以下の実用的な認識装置では、第5図
の従来の装置に用いられるメモリ10に比べて容
量は少なくてすむ。
にあげた第7図の回路とのハードウエア量を比較
してみる。第7図で入力音声切出し部6の能力と
しては従来のものと全く同じで、ただ終端を決定
する途中で終端らしい点(終端候補)が求まつた
時、この情報をフラグの形で出力する機能を追加
するのみであるため、従来の回路に対するハード
ウエア量の増加はほとんど無いといえる。次にメ
モリ7にたいしてはDP処理部4からの書込み、
判定部5からの読出し処理があるが、同時にはア
クセスしない、すなわち競合は起きないため、従
来の実時間の回路に比べ制御は簡単でハードウエ
ア量も少なくなる。メモリ7の容量は標準パター
ンの単語数だけ必要となり、認識しない単語数が
増えるとメモリ容量も大きくなつてくる。しか
し、数百語以下の実用的な認識装置では、第5図
の従来の装置に用いられるメモリ10に比べて容
量は少なくてすむ。
以上のように本発明によれば、従来の装置に比
べてハードウエア量が少なく、かつ実時間で入力
パターンの切出しおよび切出し後の処理をおこな
う装置が実現可能になり、その効果は大きい。
べてハードウエア量が少なく、かつ実時間で入力
パターンの切出しおよび切出し後の処理をおこな
う装置が実現可能になり、その効果は大きい。
第1図〜第3図はDPによるパターンマツチン
グの原理を説明する図、第4図は入力音声パター
ンのパワーの変化を示す図、第5図は従来のパタ
ーンマツチング装置のブロツク構成を示す図、第
6図は第4図の入力パターンと標準パターンとの
整合関係を示す図、第7図は本発明にもとづくパ
ターンマツチング装置の1実施例のブロツク構成
を示す図である。 6……音声切出し部。
グの原理を説明する図、第4図は入力音声パター
ンのパワーの変化を示す図、第5図は従来のパタ
ーンマツチング装置のブロツク構成を示す図、第
6図は第4図の入力パターンと標準パターンとの
整合関係を示す図、第7図は本発明にもとづくパ
ターンマツチング装置の1実施例のブロツク構成
を示す図である。 6……音声切出し部。
Claims (1)
- 1 実時間で有効信号区間を切り出しながら入力
パターンと複数の標準パターンとのマツチングを
行なうパターンマツチング装置において、前記有
効信号区間の始端を検出する手段と、前記有効信
号区間の終端候補を検出する手段と、前記有効信
号区間の終端を検出する手段と、前記始端の検出
に基づいて前記入力パターンと各標準パターンと
の類似度を求めるマツチング処理を開始し、前記
終端候補の検出に基づいて終端候補検出時におけ
る前記入力パターンと各標準パターンとの類似度
を出力するマツチング処理手段と、前記終端候補
検出時における前記マツチング処理手段の出力を
保持する記憶手段と、前記終端の検出に基づいて
前記終端に対応する終端候補検出時における前記
マツチング処理手段からの出力を前記記憶手段よ
り読出し、最大の類似度を持つ標準パターンを判
定して出力する判定手段とを備えたことを特徴と
するパターンマツチング装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP56076472A JPS57191699A (en) | 1981-05-22 | 1981-05-22 | Pattern matching apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP56076472A JPS57191699A (en) | 1981-05-22 | 1981-05-22 | Pattern matching apparatus |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS57191699A JPS57191699A (en) | 1982-11-25 |
| JPH044600B2 true JPH044600B2 (ja) | 1992-01-28 |
Family
ID=13606112
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP56076472A Granted JPS57191699A (en) | 1981-05-22 | 1981-05-22 | Pattern matching apparatus |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS57191699A (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS59195298A (ja) * | 1983-04-20 | 1984-11-06 | 富士通株式会社 | 音声認識装置 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS56104399A (en) * | 1980-01-23 | 1981-08-20 | Hitachi Ltd | Voice interval detection system |
| JPS576900A (en) * | 1980-06-16 | 1982-01-13 | Nippon Telegraph & Telephone | Voice pattern recognition system |
-
1981
- 1981-05-22 JP JP56076472A patent/JPS57191699A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS57191699A (en) | 1982-11-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0411290A2 (en) | Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns | |
| US5144672A (en) | Speech recognition apparatus including speaker-independent dictionary and speaker-dependent | |
| US5355432A (en) | Speech recognition system | |
| JP3069531B2 (ja) | 音声認識方法 | |
| JPH029359B2 (ja) | ||
| JPH044600B2 (ja) | ||
| JPS6123560B2 (ja) | ||
| JPS6312312B2 (ja) | ||
| US4794645A (en) | Continuous speech recognition apparatus | |
| JPH0361957B2 (ja) | ||
| JPS62109099A (ja) | 音声区間検出方式 | |
| JPH0421879B2 (ja) | ||
| JP2999479B2 (ja) | 音声認識装置の辞書更新方式 | |
| JPH0449954B2 (ja) | ||
| JPS6312000A (ja) | 音声認識装置 | |
| JPS59205680A (ja) | 音声パターン比較方法 | |
| JPS62111295A (ja) | 音声認識装置 | |
| JPH0469959B2 (ja) | ||
| JPS59111697A (ja) | 音声認識方式 | |
| JPS59195294A (ja) | 音声パタ−ン比較装置 | |
| JPH0134399B2 (ja) | ||
| JPS61123892A (ja) | 音声認識装置 | |
| JPH11119793A (ja) | 音声認識装置 | |
| JPS6257037B2 (ja) | ||
| JPS6383800A (ja) | 音声認識装置 |