JPH08248984A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH08248984A
JPH08248984A JP7726395A JP7726395A JPH08248984A JP H08248984 A JPH08248984 A JP H08248984A JP 7726395 A JP7726395 A JP 7726395A JP 7726395 A JP7726395 A JP 7726395A JP H08248984 A JPH08248984 A JP H08248984A
Authority
JP
Japan
Prior art keywords
value
frame
voice
pruning
collation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7726395A
Other languages
English (en)
Inventor
Takashi Miki
敬 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP7726395A priority Critical patent/JPH08248984A/ja
Publication of JPH08248984A publication Critical patent/JPH08248984A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 認識処理に必要なメモリ量が少なくし、計算
時間を短縮する。 【構成】 認識対象となる音声の特徴を表現した標準パ
ターンと、入力音声信号の特徴ベクトル系列を照合する
場合、先ず、既に照合が完了したフレームでの最適経路
上の点と予め定めた経路の制限条件とに基づいて次フレ
ームを照合し、この照合値から枝刈り判定値を設定す
る。次に、次フレームの他の点を照合すると同時に、設
定した判定値に基づいて、枝刈り処理を行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力した音声を自動認
識する音声認識方法に関し、特に、その認識照合を高速
化するビームサーチアルゴリズムの計算方法に関する。
【0002】
【従来の技術】今日、入力した音声を自動認識する音声
認識装置が用いられている。この音声認識装置における
認識方法は、入力した音声の特徴パターンを、予め用意
した標準パターンとを照合することによってその認識を
行うものである。ところで、音声パターンの照合におい
ては、入力パターンと標準パターンの時間長は揃ってい
ないため、両者の時間的な対応を取りながら照合する必
要があり、この方法として、例えば、「フレーム同期
化、ビームサーチ、ベクトル量子化の統合によるDPマ
ッチングの高速化 電子情報通信学会論文誌D Vo
l.J71−D No.9 pp1650−1659 1988年9月」
に示されるように、公知のDP(動的計画法)マッチン
グと呼ばれる照合法が用いられている。
【0003】
【発明が解決しようとする課題】このようなDPマッチ
ングにおいて、ビームサーチ法による計算方法がある。
このビームサーチ法とは、マッチングの途中で、最適経
路として可能性の低いものは以後の探索からは除外する
という、一種の枝刈り法である。そして、この枝刈りの
基準としての方法には、上記文献にも記載されているよ
うに、gmin(i)=min[g(n;i,j)]を用いてフレームiの
閾値Θ(i) =gmin(i)+λを定めている。この方法は、 (a)先ず、gmin(i)を決定するために、対象となるg
(n;i,j) を全て計算する。 (b)次に、Θ(i) より大なるg(n;i,j) を、次フレー
ムの計算から外す(枝刈りする)処理を行う。 といった2段階で計算を行う。
【0004】しかしながら、このような方法は、正確な
ビームサーチ計算のために、全てのg(n;i,j) に対し
て、(a)と(b)の処理をシーケンシャルに行う必要
があった。ここで、大語彙や連続音声認識のような、複
雑大規模な照合を行う場合等では、g(n;i,j) の数が多
く、かつ、ある程度の枝刈り幅を必要とし、これには以
下の問題点があった。 (1)上記(a)の計算結果、即ち、枝刈り前の結果を
一時記憶するためのメモリを必要とする点 (2)そのためのメモリ格納操作を必要とする点 特に、近年の高速CPUでは、内部の小規模な高速メモ
リ(キャッシュメモリ等)内での計算に比べ、外部記憶
メモリを介しての計算は、大幅に遅くなるケースが多
い。そのため、このようなワークメモリ量の大小が、計
算時間に関わる重要な点となっている。このような背景
から、メモリ量を少なくすることができ、計算時間の短
縮化を図ることのできる音声認識方法の実現が望まれて
いた。
【0005】
【課題を解決するための手段】本発明の音声認識方法
は、前述の課題を解決するために、あるフレームまでの
最適経路上の点から次フレームの照合を行い、この時の
照合値から枝刈りを行うための判定値を決め、次に、次
フレームの最適経路以外の点を照合すると同時に、この
判定値に基づいて枝刈り処理を行うようにしたものであ
る。
【0006】
【作用】本発明の音声認識方法においては、入力音声信
号の音声認識を行う場合、先ず、あるフレームでの標準
パターンと入力音声信号との最適経路上の点を求める。
次に、求めた最適経路上の点と予め定めた経路の制限条
件とに基づき、次のフレームの照合を行い、この照合し
た値から枝刈り判定値を設定する。そして、次のフレー
ムにおける他の点の照合を行うと同時に、枝刈り判定値
に基づいて枝刈り処理を行う。その結果、枝刈り処理を
行うための1フレーム分の照合結果を記憶する必要がな
い。
【0007】
【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。図1は本発明の音声認識方法の実施例を示す
説明図であるが、これに先立ち、本発明の音声認識方法
を実施するための構成を説明する。図2は、その音声認
識装置の構成図である。図の装置は、分析部101、特
徴ベクトル記憶部102、音声区間検出部103、標準
パターン記憶部104、マッチング部105からなり、
これらはコンピュータによって機能構成されている。
【0008】分析部101は、入力音声信号をフィルタ
バンク、周波数分析、LPC分析等によって特徴ベクト
ルの系列に変換する機能を有し、特徴ベクトル記憶部1
02は、分析部101にて変換された特徴ベクトルの時
系列(以下、入力パターンと呼ぶ)を格納する記憶部で
ある。また、音声区間検出部103は、特徴ベクトル系
列から音声区間、即ち音声の始端フレームAおよび音声
の終端フレームBを決定するものである。標準パターン
記憶部104は、予め認識対象となる単語の特徴ベクト
ル系列を標準パターンとして登録、記憶しておくための
記憶部である。そして、マッチング部105は、入力パ
ターンと標準パターンとを比較し、類似性を判定するも
ので、このパターン比較の結果、類似度が高い(パター
ン間距離が小さい)標準パターンに対応する単語を認識
結果として出力する機能を有している。
【0009】次に、上記装置における動作を説明する。
入力された音声信号は、分析部101にて音声信号をデ
ジタルサンプリングし、フレームと呼ばれる一定間隔毎
に、フィルタバンク、周波数分析、LPC分析等によっ
て特徴ベクトルを抽出する。ここでは、バンドパスフィ
ルタ群を使用する方法で説明する。音声の特徴を表現し
た各バンドパスフィルタによって、周波数帯域成分のみ
を抽出する。各バンドパスフィルタによって振り分けら
れたデータの系列をチャネルと称する。そして、各チャ
ネル毎に、フィルタの出力に対して整流して絶対値を取
り、フレームと呼ばれる一定間隔毎にその平均値を算出
する。この算出値を帯域パワーと呼ぶ。i番目のフレー
ム、j番目のチャネルの帯域パワーをFijと表現する。
次に、フレーム毎に、そのフレームのパワーPi を算出
する。パワーPi は以下のように与えられる。
【0010】図3は、音声パワーと特徴ベクトルを求め
るための演算説明図である。図中、式(1)がパワー
(Pi )を求めるための演算式を示し、図中のFijを対
数変換し、特徴ベクトルai を求めるのが式(2)であ
る。尚、式(2)中、pはチャネル数を示している。そ
して、特徴ベクトルaijは式(3)で与えられる。この
ような演算で求められた音声パワーPi と特徴ベクトル
ai は、特徴ベクトル記憶部102にストアされる。
【0011】次に、音声区間検出部103では、任意の
フレームのパワーPt に基づいて、音声区間、即ち、音
声の始端フレームAおよび終端フレームBを決定する。
この音声区間検出部103の処理を以下に示す。パワー
Pt がある一定時間Tv 以上、予め定めた音声検出しき
い値Pshを越える区間を見いだし、音声区間候補として
記憶する。音声候補区間検出後、ある一定時間Te 以上
音声検出しきい値を越える信号が入力されない場合、音
声の終了とみなす。そして、音声の終了後、記憶されて
いる音声区間候補から音声の始端と終端とを決定する。
尚、音声始端は音声候補区間中で最も時間的に早い候補
区間の始端Aとし、音声終端は最も遅い音声候補区間の
終端Bとする。尚、音声検出の処理は、上述の方法以外
にも様々な方法が知られており、その中で適切と思われ
る方法を選択して使用してもよい。
【0012】次に、マッチング部105で用いられるD
Pマッチングの原理を簡単に説明する。音声パターンの
照合においては、従来の技術の項でも述べたように、入
力パターンと標準パターンとの時間長は揃っていないた
め、両者の時間的な対応を取りながら照合する必要があ
り、このためにDPマッチングが用いられる。図4は、
このDPマッチング法の説明図である。図は、格子グラ
フを示し、横軸は入力パターンT=a1,a2,…,ai,
…,aIに対応するi座標であり、縦軸は標準パターン
Rn =bn1,bn2,…,bnj,…,bn Jn に対するj
座標である。ここで、ai とbnjは、それぞれのパター
ンの特徴ベクトルである。また、格子グラフ点(i,
j)は入力パターン中のaiとの標準パターン中のbnj
が時間的に対応していることを示し、この両者の距離を
dn(i,j)とする。
【0013】入力パターンTと標準パターンRn の時間
的な対応をとることは、この格子グラフ上のある一つの
経路を定めることである。そのためには、何らかの経路
の評価基準が必要である。良く用いられる評価値として
は、経路上の格子点(i,j)に対応するai とbnjと
のベクトル間距離(非類似度)dn(i,j)の累積和であ
る。累積和は両パターンの違いを表しており、この値が
小さい程両者は似ているとする。そして、最小の累積和
を持つ経路(以下、これを最適経路と呼ぶ)上の累積距
離が両パターンの時間的な対応をとった場合のパターン
間距離とみなす。
【0014】実際の計算では、音声の性質から、極端な
伸縮や逆戻りが起こらないように、図4中に示すような
経路の制限条件を設ける。その制限条件の一例として
は、 (1)経路は、格子点(1,1)から始まり、格子点
(I,Jn)で終るとする(始端終端条件)。 (2)ある格子点(i,j)に至る経路は、格子点(i-
1,j)から来る経路か、格子点(i-1, j-1)から来る経
路か、格子点(i-1, j-2)から来る経路の何れかに制限
する(傾斜制限条件)。
【0015】次に、図1を用いてDPマッチングに本発
明のビームサーチ計算法を組み合わせた具体的な処理内
容を説明する。図1において、各ステップの処理は以下
の通りである。 〈ステップ1〉以下の境界条件を設定する。 Dn(0,j)=Dn(i,0)=Dn(i,-1)=∞ …(4) 即ち、累積距離の境界条件を無限大とする。但し、上記
式(4)において、iは1,2,…,Iまでの範囲、jは−1
からJnまでの範囲とする。
【0016】また、照合開始点を(1,1)に、その他
の初期値を設定する。 Dn(0,0)=0 …(5) i=1 …(6) f=1 …(7) gmin(i)=∞ …(8) 尚、上記Dn は累積距離、fは後述するテーブル中の場
所を示すインデックスである。
【0017】また、ステップ2〜ステップ5までは先頭
フレームの処理である。 〈ステップ2〉このステップ2では、ステップ3を、n=
1,2,…,Nについて繰り返す。終了したらステップ10に
移行する。 〈ステップ3〉ステップ4をj=1,2,…,Jnについて繰り
返す。図5は、この繰り返し計算制御の演算説明図であ
る。 〈ステップ4〉このステップ4は、DP計算であり、式
(9)を用いて格子点(i,j)までの最小累積距離値
Dn(i,j)を求める。 〈ステップ5〉ステップ5はDP距離テーブルとDP距
離最小値の設定処理である。即ち、図5に示す式(9)
で得られた結果が、Dn(i,j)≦gmin(i)+λであれば、
式(10)〜(13)を実行し、更に、Dn(i,j)≦gmi
n(i)であれば、式(14)、(15)を実行する。
【0018】次に、ステップ10〜ステップ35は、そ
の他のフレームの処理である。 〈ステップ10〉ステップ11を、i=2,…,Iについて繰
り返した後、ステップ40に移行する。 〈ステップ11〉図6は、ステップ11の演算説明図で
ある。このステップ11はビーム判定用推定値の算出処
理である。
【0019】〈ステップ12〉このステップ12におい
ては、下記の式(19)〜(21)を、m=1,2,…,fにつ
いて繰り返す。 TableD1(m)=TableD(m) …(19) TableJ1(m)=TableJ(m) …(20) TableN1(m)=TableN(m) …(21) 即ち、上記の式(19)〜(21)はテーブルDをテー
ブルテーブルD1にコピーする処理である。また、ステ
ップ12では下記の値を設定する。 Nb1=0 …(22) Jb1=−2 …(23) Db1=∞ …(24) Db2=∞ …(25) f1=f …(26) f=1 …(27) 尚、Nb、Jb、Dbは、コピー先を示している。
【0020】〈ステップ20〉ステップ30を、k=1,2,
…,f1 について繰り返す。
【0021】〈ステップ30〉ステップ30では、下記
の値を、Nb0、Jb0、Db0に設定する。 Nb0=TableN1(k) …(28) Jb0=TableJ1(k) …(29) Db0=TableD1(k) …(30) そして、上記のNb0、Nb1、Jb0、Jb1の値に基づき、
下記のステップへ移行する。 もしNb0=Nb1かつJb0=Jb1+1なら〈ステップ31〉
へ もしNb0=Nb1かつJb0=Jb1+2なら〈ステップ32〉
へ もしNb0=Nb1かつJb0>Jb1+2なら〈ステップ33〉
へ もしNb0≠Nb1なら〈ステップ34〉へ
【0022】〈ステップ31〉 n=Nb0 …(31) j=Jb0 …(32) g=dn(i,j)+ min(Db0,Db1,Db2) …(33) ステップ35を実行 Db1=Db0 …(34) Db2=Db1 …(35) 〈ステップ32〉 n=Nb0 …(36) j=Jb0-1 …(37) g=dn(i,j)+ min(Db1,Db2) …(38) ステップ35を実行 j=Jb0 …(39) g=dn(i,j)+ min(Db0,Db1) …(40) ステップ35を実行 Db1=Db0 …(41) Db2=∞ …(42)
【0023】〈ステップ33〉 n=Nb0 …(43) j=Jb1+1 …(44) g=dn(i,j)+ min(Db1,Db2) …(45) ステップ35を実行 j=Jb1+2 …(46) g=dn(i,j)+Db1 …(47) ステップ35を実行 j=Jb0 …(48) g=dn(i,j)+Db0 …(49) ステップ35を実行 Db1=Db0 …(50) Db2=∞ …(51) 〈ステップ34〉 n=Nb1 …(52) j=Jb1+1 …(53) g=dn(i,j)+ min(Db1,Db2) …(54) ステップ35を実行 j=Jb1+2 …(55) g=dn(i,j)+Db1 …(56) ステップ35を実行 n=Nb0 …(57) j=Jb0 …(58) g=dn(i,j)+Db0 …(59) ステップ35を実行 Db1=Db0 …(60) Db2=∞ …(61)
【0024】〈ステップ35〉もしg≦gmin(i)+λな
ら、式(62)〜(64)を実行する。 TableD(f) =g …(62) TableJ(f) =j …(63) TableN(f) =n …(64) もしg≦gmin(i)なら、式(65)と(66)を実行す
る。 gmin(i)=g …(65) fmin =f …(66)
【0025】〈ステップ40〉 Wmin =∞ …(67) そして、ステップ41をm=1,2,…,fについて繰り返す。 〈ステップ41〉 n′=TableN(m) …(68) もしTableJ(m) =Jn′ならば、下記の式(69)を計
算する。 Wmin = min{Wmin ,TableD(m) } …(69) そして、このような計算の結果、マッチング最少距離W
min を与えた単語Wnが認識結果となる。
【0026】以上のように、本実施例は、最初にその時
点での最適経路上の点を先に照合し、この照合値から枝
刈り判定値を設定する。そして、それ以外の点の照合計
算において、計算と同時にビームサーチ法による枝刈り
処理を行うようにしたものである。従って、枝刈り後の
結果を記憶するメモリがあればよく、大幅に作業メモリ
を節約することができる。特に、近年の高速CPUを使
用したソフトウェアで実現する場合等では、内部の小規
模な高速メモリ(キャッシュメモリ等)内での計算が可
能となり、大幅な計算速度の向上も期待できる。
【0027】また、本発明の音声認識方法は上記実施例
に限定されるものではなく、全ての認識装置に適用する
ことができる。上記実施例では、DPの単語照合に適用
した場合を説明したが、連続音声認識にも簡単に拡張応
用することができる。また、確率表現モデルであるHM
M(隠れマルコフモデル)を用いた認識装置にも簡単に
適用することができるものである。
【0028】
【発明の効果】以上説明したように、本発明の音声認識
方法によれば、ある部分までの最適経路上の点から次フ
レームの照合を行い、この時の照合値からしきい値の推
定値を決め、最適経路以外の点の照合と枝刈り処理を行
うようにしたので、認識処理で必要とする作業メモリを
大幅に節約することができ、その結果、高速メモリを使
用することにより、計算速度の向上を図ることができ
る。
【図面の簡単な説明】
【図1】本発明の音声認識方法の処理説明図である。
【図2】本発明の音声認識方法を実施するための音声認
識装置の構成図である。
【図3】本発明の音声認識方法における音声パワーと特
徴ベクトルを求めるための演算説明図である。
【図4】本発明の音声認識方法が用いるDPマッチング
法の説明図である。
【図5】本発明の音声認識方法における繰り返し計算制
御の演算説明図である。
【図6】本発明の音声認識方法におけるステップ11の
演算説明図である。
【符号の説明】
101 分析部 102 特徴ベクトル記憶部 103 音声区間検出部 104 標準パターン記憶部 105 マッチング部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 予め、認識対象となる音声の特徴を複数
    のフレーム毎の値で表現した標準パターンと、入力音声
    信号パターンのフレーム毎の値とを、各フレーム毎に照
    合することで音声認識を行う音声認識方法において、 前記標準パターンと前記入力音声信号パターンとの時間
    軸を整合させた点の経路を最適経路とした場合、 先ず、前記標準パターンと前記入力音声信号パターンと
    の既に照合が完了したフレームでの前記最適経路上の点
    と、予め定めた経路の制限条件に基づき次フレームの照
    合を行うと共に、この照合値に基づき、以降の照合から
    除外するための枝刈り判定値を設定し、 次に、前記次フレームにおける他の点を照合すると同時
    に、前記判定値に基づいて、枝刈り処理を行うことを特
    徴とする音声認識方法。
JP7726395A 1995-03-08 1995-03-08 音声認識方法 Pending JPH08248984A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7726395A JPH08248984A (ja) 1995-03-08 1995-03-08 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7726395A JPH08248984A (ja) 1995-03-08 1995-03-08 音声認識方法

Publications (1)

Publication Number Publication Date
JPH08248984A true JPH08248984A (ja) 1996-09-27

Family

ID=13628965

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7726395A Pending JPH08248984A (ja) 1995-03-08 1995-03-08 音声認識方法

Country Status (1)

Country Link
JP (1) JPH08248984A (ja)

Similar Documents

Publication Publication Date Title
Ney The use of a one-stage dynamic programming algorithm for connected word recognition
US7447634B2 (en) Speech recognizing apparatus having optimal phoneme series comparing unit and speech recognizing method
KR100247969B1 (ko) 대용량패턴정합장치및방법
JP2808906B2 (ja) 音声認識装置
US5970450A (en) Speech recognition system using modifiable recognition threshold to reduce the size of the pruning tree
JP2870224B2 (ja) 音声認識方法
Hu et al. Acoustic span embeddings for multilingual query-by-example search
CN118098236B (zh) 确定语音识别窗口左右边界的方法、装置、设备及介质
US5577162A (en) Dynamic programming matching system for speech recognition
Brown et al. Dynamic time warping for isolated word recognition based on ordered graph searching techniques
JPH11282487A (ja) マッチング方法及び装置及び記憶媒体
JP2964881B2 (ja) 音声認識装置
JPH08248984A (ja) 音声認識方法
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
US6195639B1 (en) Matching algorithm for isolated speech recognition
JP2853418B2 (ja) 音声認識方法
EP1488410B1 (en) Distortion measure determination in speech recognition
JP3039095B2 (ja) 音声認識装置
JP2712856B2 (ja) 音声認識装置
JPH0577080B2 (ja)
JPS5972578A (ja) パタ−ン比較装置
JP3011984B2 (ja) パターン照合方法
JP2746803B2 (ja) 音声認識方法
JPH1091186A (ja) 音声認識方法
JPH07175493A (ja) 連続音声認識方法