JPH08248984A

JPH08248984A - 音声認識方法

Info

Publication number: JPH08248984A
Application number: JP7726395A
Authority: JP
Inventors: Takashi Miki; 敬三木
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1995-03-08
Filing date: 1995-03-08
Publication date: 1996-09-27

Abstract

(57)【要約】【目的】認識処理に必要なメモリ量が少なくし、計算
時間を短縮する。【構成】認識対象となる音声の特徴を表現した標準パ
ターンと、入力音声信号の特徴ベクトル系列を照合する
場合、先ず、既に照合が完了したフレームでの最適経路
上の点と予め定めた経路の制限条件とに基づいて次フレ
ームを照合し、この照合値から枝刈り判定値を設定す
る。次に、次フレームの他の点を照合すると同時に、設
定した判定値に基づいて、枝刈り処理を行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力した音声を自動認
識する音声認識方法に関し、特に、その認識照合を高速
化するビームサーチアルゴリズムの計算方法に関する。

【０００２】

【従来の技術】今日、入力した音声を自動認識する音声
認識装置が用いられている。この音声認識装置における
認識方法は、入力した音声の特徴パターンを、予め用意
した標準パターンとを照合することによってその認識を
行うものである。ところで、音声パターンの照合におい
ては、入力パターンと標準パターンの時間長は揃ってい
ないため、両者の時間的な対応を取りながら照合する必
要があり、この方法として、例えば、「フレーム同期
化、ビームサーチ、ベクトル量子化の統合によるＤＰマ
ッチングの高速化電子情報通信学会論文誌ＤＶｏ
ｌ．Ｊ７１−Ｄ No.９ｐｐ1650−1659 1988年９月」
に示されるように、公知のＤＰ（動的計画法）マッチン
グと呼ばれる照合法が用いられている。

【０００３】

【発明が解決しようとする課題】このようなＤＰマッチ
ングにおいて、ビームサーチ法による計算方法がある。
このビームサーチ法とは、マッチングの途中で、最適経
路として可能性の低いものは以後の探索からは除外する
という、一種の枝刈り法である。そして、この枝刈りの
基準としての方法には、上記文献にも記載されているよ
うに、ｇmin(i)＝min[ｇ(n;i,j)]を用いてフレームｉの
閾値Θ(i) ＝ｇmin(i)＋λを定めている。この方法は、（ａ）先ず、ｇmin(i)を決定するために、対象となるｇ
(n;i,j) を全て計算する。（ｂ）次に、Θ(i) より大なるｇ(n;i,j) を、次フレー
ムの計算から外す（枝刈りする）処理を行う。といった２段階で計算を行う。

【０００４】しかしながら、このような方法は、正確な
ビームサーチ計算のために、全てのｇ(n;i,j) に対し
て、（ａ）と（ｂ）の処理をシーケンシャルに行う必要
があった。ここで、大語彙や連続音声認識のような、複
雑大規模な照合を行う場合等では、ｇ(n;i,j) の数が多
く、かつ、ある程度の枝刈り幅を必要とし、これには以
下の問題点があった。（１）上記（ａ）の計算結果、即ち、枝刈り前の結果を
一時記憶するためのメモリを必要とする点（２）そのためのメモリ格納操作を必要とする点特に、近年の高速ＣＰＵでは、内部の小規模な高速メモ
リ（キャッシュメモリ等）内での計算に比べ、外部記憶
メモリを介しての計算は、大幅に遅くなるケースが多
い。そのため、このようなワークメモリ量の大小が、計
算時間に関わる重要な点となっている。このような背景
から、メモリ量を少なくすることができ、計算時間の短
縮化を図ることのできる音声認識方法の実現が望まれて
いた。

【０００５】

【課題を解決するための手段】本発明の音声認識方法
は、前述の課題を解決するために、あるフレームまでの
最適経路上の点から次フレームの照合を行い、この時の
照合値から枝刈りを行うための判定値を決め、次に、次
フレームの最適経路以外の点を照合すると同時に、この
判定値に基づいて枝刈り処理を行うようにしたものであ
る。

【０００６】

【作用】本発明の音声認識方法においては、入力音声信
号の音声認識を行う場合、先ず、あるフレームでの標準
パターンと入力音声信号との最適経路上の点を求める。
次に、求めた最適経路上の点と予め定めた経路の制限条
件とに基づき、次のフレームの照合を行い、この照合し
た値から枝刈り判定値を設定する。そして、次のフレー
ムにおける他の点の照合を行うと同時に、枝刈り判定値
に基づいて枝刈り処理を行う。その結果、枝刈り処理を
行うための１フレーム分の照合結果を記憶する必要がな
い。

【０００７】

【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。図１は本発明の音声認識方法の実施例を示す
説明図であるが、これに先立ち、本発明の音声認識方法
を実施するための構成を説明する。図２は、その音声認
識装置の構成図である。図の装置は、分析部１０１、特
徴ベクトル記憶部１０２、音声区間検出部１０３、標準
パターン記憶部１０４、マッチング部１０５からなり、
これらはコンピュータによって機能構成されている。

【０００８】分析部１０１は、入力音声信号をフィルタ
バンク、周波数分析、ＬＰＣ分析等によって特徴ベクト
ルの系列に変換する機能を有し、特徴ベクトル記憶部１
０２は、分析部１０１にて変換された特徴ベクトルの時
系列（以下、入力パターンと呼ぶ）を格納する記憶部で
ある。また、音声区間検出部１０３は、特徴ベクトル系
列から音声区間、即ち音声の始端フレームＡおよび音声
の終端フレームＢを決定するものである。標準パターン
記憶部１０４は、予め認識対象となる単語の特徴ベクト
ル系列を標準パターンとして登録、記憶しておくための
記憶部である。そして、マッチング部１０５は、入力パ
ターンと標準パターンとを比較し、類似性を判定するも
ので、このパターン比較の結果、類似度が高い（パター
ン間距離が小さい）標準パターンに対応する単語を認識
結果として出力する機能を有している。

【０００９】次に、上記装置における動作を説明する。
入力された音声信号は、分析部１０１にて音声信号をデ
ジタルサンプリングし、フレームと呼ばれる一定間隔毎
に、フィルタバンク、周波数分析、ＬＰＣ分析等によっ
て特徴ベクトルを抽出する。ここでは、バンドパスフィ
ルタ群を使用する方法で説明する。音声の特徴を表現し
た各バンドパスフィルタによって、周波数帯域成分のみ
を抽出する。各バンドパスフィルタによって振り分けら
れたデータの系列をチャネルと称する。そして、各チャ
ネル毎に、フィルタの出力に対して整流して絶対値を取
り、フレームと呼ばれる一定間隔毎にその平均値を算出
する。この算出値を帯域パワーと呼ぶ。ｉ番目のフレー
ム、ｊ番目のチャネルの帯域パワーをＦijと表現する。
次に、フレーム毎に、そのフレームのパワーＰi を算出
する。パワーＰi は以下のように与えられる。

【００１０】図３は、音声パワーと特徴ベクトルを求め
るための演算説明図である。図中、式（１）がパワー
（Ｐi ）を求めるための演算式を示し、図中のＦijを対
数変換し、特徴ベクトルａi を求めるのが式（２）であ
る。尚、式（２）中、ｐはチャネル数を示している。そ
して、特徴ベクトルａijは式（３）で与えられる。この
ような演算で求められた音声パワーＰi と特徴ベクトル
ａi は、特徴ベクトル記憶部１０２にストアされる。

【００１１】次に、音声区間検出部１０３では、任意の
フレームのパワーＰt に基づいて、音声区間、即ち、音
声の始端フレームＡおよび終端フレームＢを決定する。
この音声区間検出部１０３の処理を以下に示す。パワー
Ｐt がある一定時間Ｔv 以上、予め定めた音声検出しき
い値Ｐshを越える区間を見いだし、音声区間候補として
記憶する。音声候補区間検出後、ある一定時間Ｔe 以上
音声検出しきい値を越える信号が入力されない場合、音
声の終了とみなす。そして、音声の終了後、記憶されて
いる音声区間候補から音声の始端と終端とを決定する。
尚、音声始端は音声候補区間中で最も時間的に早い候補
区間の始端Ａとし、音声終端は最も遅い音声候補区間の
終端Ｂとする。尚、音声検出の処理は、上述の方法以外
にも様々な方法が知られており、その中で適切と思われ
る方法を選択して使用してもよい。

【００１２】次に、マッチング部１０５で用いられるＤ
Ｐマッチングの原理を簡単に説明する。音声パターンの
照合においては、従来の技術の項でも述べたように、入
力パターンと標準パターンとの時間長は揃っていないた
め、両者の時間的な対応を取りながら照合する必要があ
り、このためにＤＰマッチングが用いられる。図４は、
このＤＰマッチング法の説明図である。図は、格子グラ
フを示し、横軸は入力パターンＴ＝ａ1,ａ2,…，ａi,
…，ａIに対応するｉ座標であり、縦軸は標準パターン
Ｒn ＝ｂn1，ｂn2，…，ｂnj，…，ｂn Ｊn に対するｊ
座標である。ここで、ａi とｂnjは、それぞれのパター
ンの特徴ベクトルである。また、格子グラフ点（ｉ，
ｊ）は入力パターン中のａiとの標準パターン中のｂnj
が時間的に対応していることを示し、この両者の距離を
ｄn(i,j)とする。

【００１３】入力パターンＴと標準パターンＲn の時間
的な対応をとることは、この格子グラフ上のある一つの
経路を定めることである。そのためには、何らかの経路
の評価基準が必要である。良く用いられる評価値として
は、経路上の格子点（ｉ，ｊ）に対応するａi とｂnjと
のベクトル間距離（非類似度）ｄn(i,j)の累積和であ
る。累積和は両パターンの違いを表しており、この値が
小さい程両者は似ているとする。そして、最小の累積和
を持つ経路（以下、これを最適経路と呼ぶ）上の累積距
離が両パターンの時間的な対応をとった場合のパターン
間距離とみなす。

【００１４】実際の計算では、音声の性質から、極端な
伸縮や逆戻りが起こらないように、図４中に示すような
経路の制限条件を設ける。その制限条件の一例として
は、（１）経路は、格子点（１，１）から始まり、格子点
（Ｉ，Jn）で終るとする（始端終端条件）。（２）ある格子点（ｉ，ｊ）に至る経路は、格子点（i-
1,ｊ）から来る経路か、格子点（i-1, j-1）から来る経
路か、格子点（i-1, j-2）から来る経路の何れかに制限
する（傾斜制限条件）。

【００１５】次に、図１を用いてＤＰマッチングに本発
明のビームサーチ計算法を組み合わせた具体的な処理内
容を説明する。図１において、各ステップの処理は以下
の通りである。〈ステップ１〉以下の境界条件を設定する。Ｄn(0,j)＝Ｄn(i,0)＝Ｄn(i,-1)＝∞ …（４）即ち、累積距離の境界条件を無限大とする。但し、上記
式（４）において、ｉは1,2,…,Iまでの範囲、ｊは−１
からJnまでの範囲とする。

【００１６】また、照合開始点を（１，１）に、その他
の初期値を設定する。Ｄn(0,0)＝０ …（５）ｉ＝１ …（６）ｆ＝１ …（７）ｇmin(i)＝∞ …（８）尚、上記Ｄn は累積距離、ｆは後述するテーブル中の場
所を示すインデックスである。

【００１７】また、ステップ２〜ステップ５までは先頭
フレームの処理である。〈ステップ２〉このステップ２では、ステップ３を、n=
1,2,…,Nについて繰り返す。終了したらステップ１０に
移行する。〈ステップ３〉ステップ４をj=1,2,…,Jnについて繰り
返す。図５は、この繰り返し計算制御の演算説明図であ
る。〈ステップ４〉このステップ４は、ＤＰ計算であり、式
（９）を用いて格子点（ｉ，ｊ）までの最小累積距離値
Ｄn(i,j)を求める。〈ステップ５〉ステップ５はＤＰ距離テーブルとＤＰ距
離最小値の設定処理である。即ち、図５に示す式（９）
で得られた結果が、Ｄn(i,j)≦ｇmin(i)＋λであれば、
式（１０）〜（１３）を実行し、更に、Ｄn(i,j)≦ｇmi
n(i)であれば、式（１４）、（１５）を実行する。

【００１８】次に、ステップ１０〜ステップ３５は、そ
の他のフレームの処理である。〈ステップ１０〉ステップ１１を、i=2,…,Iについて繰
り返した後、ステップ４０に移行する。〈ステップ１１〉図６は、ステップ１１の演算説明図で
ある。このステップ１１はビーム判定用推定値の算出処
理である。

【００１９】〈ステップ１２〉このステップ１２におい
ては、下記の式（１９）〜（２１）を、m=1,2,…,fにつ
いて繰り返す。 TableD1(m)＝TableD(m) …（１９） TableJ1(m)＝TableJ(m) …（２０） TableN1(m)＝TableN(m) …（２１）即ち、上記の式（１９）〜（２１）はテーブルＤをテー
ブルテーブルＤ１にコピーする処理である。また、ステ
ップ１２では下記の値を設定する。Ｎb1＝０ …（２２）Ｊb1＝−２ …（２３）Ｄb1＝∞ …（２４）Ｄb2＝∞ …（２５）ｆ１＝ｆ …（２６）ｆ＝１ …（２７）尚、Ｎｂ、Ｊｂ、Ｄｂは、コピー先を示している。

【００２０】〈ステップ２０〉ステップ３０を、k=1,2,
…,f1 について繰り返す。

【００２１】〈ステップ３０〉ステップ３０では、下記
の値を、Ｎb0、Ｊb0、Ｄb0に設定する。Ｎb0＝TableN1(k) …（２８）Ｊb0＝TableJ1(k) …（２９）Ｄb0＝TableD1(k) …（３０）そして、上記のＮb0、Ｎb1、Ｊb0、Ｊb1の値に基づき、
下記のステップへ移行する。もしＮb0＝Ｎb1かつＪb0＝Ｊb1+1なら〈ステップ３１〉
へもしＮb0＝Ｎb1かつＪb0＝Ｊb1+2なら〈ステップ３２〉
へもしＮb0＝Ｎb1かつＪb0＞Ｊb1+2なら〈ステップ３３〉
へもしＮb0≠Ｎb1なら〈ステップ３４〉へ

【００２２】〈ステップ３１〉ｎ＝Ｎb0 …（３１）ｊ＝Ｊb0 …（３２）ｇ＝ｄn(i,j)＋ min（Ｄb0，Ｄb1，Ｄb2） …（３３）ステップ３５を実行Ｄb1＝Ｄb0 …（３４）Ｄb2＝Ｄb1 …（３５）〈ステップ３２〉ｎ＝Ｎb0 …（３６）ｊ＝Ｊb0-1 …（３７）ｇ＝ｄn(i,j)＋ min（Ｄb1，Ｄb2） …（３８）ステップ３５を実行ｊ＝Ｊb0 …（３９）ｇ＝ｄn(i,j)＋ min（Ｄb0，Ｄb1） …（４０）ステップ３５を実行Ｄb1＝Ｄb0 …（４１）Ｄb2＝∞ …（４２）

【００２３】〈ステップ３３〉ｎ＝Ｎb0 …（４３）ｊ＝Ｊb1＋１ …（４４）ｇ＝ｄn(i,j)＋ min（Ｄb1，Ｄb2） …（４５）ステップ３５を実行ｊ＝Ｊb1+2 …（４６）ｇ＝ｄn(i,j)＋Ｄb1 …（４７）ステップ３５を実行ｊ＝Ｊb0 …（４８）ｇ＝ｄn(i,j)＋Ｄb0 …（４９）ステップ３５を実行Ｄb1＝Ｄb0 …（５０）Ｄb2＝∞ …（５１）〈ステップ３４〉ｎ＝Ｎb1 …（５２）ｊ＝Ｊb1+1 …（５３）ｇ＝ｄn(i,j)＋ min（Ｄb1，Ｄb2） …（５４）ステップ３５を実行ｊ＝Ｊb1+2 …（５５）ｇ＝ｄn(i,j)＋Ｄb1 …（５６）ステップ３５を実行ｎ＝Ｎb0 …（５７）ｊ＝Ｊb0 …（５８）ｇ＝ｄn(i,j)＋Ｄb0 …（５９）ステップ３５を実行Ｄb1＝Ｄb0 …（６０）Ｄb2＝∞ …（６１）

【００２４】〈ステップ３５〉もしｇ≦ｇmin(i)＋λな
ら、式（６２）〜（６４）を実行する。 TableD(f) ＝ｇ …（６２） TableJ(f) ＝ｊ …（６３） TableN(f) ＝ｎ …（６４）もしｇ≦ｇmin(i)なら、式（６５）と（６６）を実行す
る。ｇmin(i)＝ｇ …（６５）ｆmin ＝ｆ …（６６）

【００２５】〈ステップ４０〉Ｗmin ＝∞ …（６７）そして、ステップ４１をm=1,2,…,fについて繰り返す。〈ステップ４１〉ｎ′＝TableN(m) …（６８）もしTableJ(m) ＝Ｊｎ′ならば、下記の式（６９）を計
算する。Ｗmin ＝ min｛Ｗmin ，TableD(m) ｝ …（６９）そして、このような計算の結果、マッチング最少距離Ｗ
min を与えた単語Ｗｎが認識結果となる。

【００２６】以上のように、本実施例は、最初にその時
点での最適経路上の点を先に照合し、この照合値から枝
刈り判定値を設定する。そして、それ以外の点の照合計
算において、計算と同時にビームサーチ法による枝刈り
処理を行うようにしたものである。従って、枝刈り後の
結果を記憶するメモリがあればよく、大幅に作業メモリ
を節約することができる。特に、近年の高速ＣＰＵを使
用したソフトウェアで実現する場合等では、内部の小規
模な高速メモリ（キャッシュメモリ等）内での計算が可
能となり、大幅な計算速度の向上も期待できる。

【００２７】また、本発明の音声認識方法は上記実施例
に限定されるものではなく、全ての認識装置に適用する
ことができる。上記実施例では、ＤＰの単語照合に適用
した場合を説明したが、連続音声認識にも簡単に拡張応
用することができる。また、確率表現モデルであるＨＭ
Ｍ（隠れマルコフモデル）を用いた認識装置にも簡単に
適用することができるものである。

【００２８】

【発明の効果】以上説明したように、本発明の音声認識
方法によれば、ある部分までの最適経路上の点から次フ
レームの照合を行い、この時の照合値からしきい値の推
定値を決め、最適経路以外の点の照合と枝刈り処理を行
うようにしたので、認識処理で必要とする作業メモリを
大幅に節約することができ、その結果、高速メモリを使
用することにより、計算速度の向上を図ることができ
る。

【図面の簡単な説明】

【図１】本発明の音声認識方法の処理説明図である。

【図２】本発明の音声認識方法を実施するための音声認
識装置の構成図である。

【図３】本発明の音声認識方法における音声パワーと特
徴ベクトルを求めるための演算説明図である。

【図４】本発明の音声認識方法が用いるＤＰマッチング
法の説明図である。

【図５】本発明の音声認識方法における繰り返し計算制
御の演算説明図である。

【図６】本発明の音声認識方法におけるステップ１１の
演算説明図である。

【符号の説明】

１０１分析部１０２特徴ベクトル記憶部１０３音声区間検出部１０４標準パターン記憶部１０５マッチング部

Claims

【特許請求の範囲】

【請求項１】予め、認識対象となる音声の特徴を複数
のフレーム毎の値で表現した標準パターンと、入力音声
信号パターンのフレーム毎の値とを、各フレーム毎に照
合することで音声認識を行う音声認識方法において、前記標準パターンと前記入力音声信号パターンとの時間
軸を整合させた点の経路を最適経路とした場合、先ず、前記標準パターンと前記入力音声信号パターンと
の既に照合が完了したフレームでの前記最適経路上の点
と、予め定めた経路の制限条件に基づき次フレームの照
合を行うと共に、この照合値に基づき、以降の照合から
除外するための枝刈り判定値を設定し、次に、前記次フレームにおける他の点を照合すると同時
に、前記判定値に基づいて、枝刈り処理を行うことを特
徴とする音声認識方法。