JPH0577079B2

JPH0577079B2 -

Info

Publication number: JPH0577079B2
Application number: JP62271148A
Authority: JP
Inventors: Hiromi Fujii
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1987-10-26
Filing date: 1987-10-26
Publication date: 1993-10-25
Also published as: JPH01112298A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、発声された音声を高速で認識する音
声認識装置の改良に関する。

（従来の技術）音声認識は、優れたマンマシンインターフエー
スを実現する技術として重要であり、すでにさま
ざまな分野で音声認識装置が使われている。現在
の装置のほとんどは、パターンマツチング法によ
る認識方式を採用している。この方式は、発声さ
れた認識対象の単語をあらかじめ標準パターンと
して保持しておき、入力された発声のパターン
（以下、入力パターンとする）と保持された標準
パターンとの比較を行い、最も類似した標準パタ
ーンの単語名を認識結果とするものである。この
時、２つのパターンの時間軸を対応づけてパター
ン間距離を求める方法としては、動的計画法によ
り非線形な対応付けを行うDPマツチング法が使
用されている。DPマツチングについては「連続
発声した単語音声を効率的に認識する２段DPマ
ツチング」、日計エレクトロニクス、1983年11月
７日号の171頁より208頁（以下、文献１とする）
に詳しく記述されている。この文献によると、パ
ターンＡ，Ｂ間の距離Ｄ（Ａ，Ｂ）は、以下のよ
うに定義されている。

Ｄ（Ａ，Ｂ）＝^min _j=j=(i)［_i=1 〓^I ｄ（ｉ，ｊ）］ｄ（ｉ，ｊ）はa_iとb_iのベクトル間距離である。
パターン間距離Ｄは、たとえば以下の漸化式計算
により求めることができる。

ｇ（ｉ，ｊ）＝ｄ（ｉ，ｊ）＋minｇ（ｉ
−１，ｊ）ｇ（ｉ−１，ｊ−１）ｇ（ｉ−１，ｊ−２） (イ) (ロ) (ハ) …(1)式ｇ（ｉ，ｊ）はｉ，ｊにより張られるij平面中
の点（１，１）から（ｉ，ｊ）までのベクトル間
距離ｄの累積値の最小値であり、以下、累積距離
と呼ぶことにする。Ｄ（Ａ，Ｂ）はこの漸化式計
算をｉ＝１…Ｉ，ｊ＝１…Ｊまで行つて得られる
ｇ（Ｉ，Ｊ）として求められる。

ここで、第２図に示すようなｉ，ｊ平面を考え
る。上記漸化式は、第２図に示すように、（ｉ−
１，ｊ），（ｉ−１，ｊ−１），（ｉ−１，ｊ−２）
から（ｉ，ｊ）に至る３本のパス(イ)，(ロ)，(ハ)を許
して、格子点（１，１）から（Ｉ，Ｊ）に至るベ
クトル間距離ｄ（ｉ，ｊ）の総和が最小を与える
（ｉ，ｊ，）の経路（以下、最適パスという）を求
めるものである。最適パスは、(1)式の計算の際に
(イ)，(ロ)，(ハ)のうちどのパスが選ばれたかのパス情
報ｈ（ｉ，ｊ）をすべて（ｉ，ｊ）に対して保持
しておき、Ｄが求められた後に（Ｉ，Ｊ）より保
持されたパスを（１，１）まで遡るバツクトラツ
クを行うことにより得られる。バツクトラツクに
より最適パスを求める方法については、「音声認
識における動的計画法の応用」、bit，Vol.15.No.８
の131頁より142頁に詳しく述べられている。

以上述べたDPマツチングによる認識アルゴリ
ズムには、多くの改良があるが、その１つとして
特開昭58−98796号に記載されているクロツクワ
イズDP法がある。この方法は、入力パターンの
時間軸ｉを最も外側のループにしてgⁿ（ｉ，ｊ）
の計算を行うことにより、特徴ベクトルa_iの入力
と同期したマツチング処理を実現し、実時間性を
高める方法である。すなわち、この方法では、入
力パターンの時刻ｉにおいて、全ての単語ｎと単
語ｎの標準パターン上の時刻ｊに対してgⁿ（ｉ，
ｊ）を求める。

また、上記のクロツクワイズDP法に枝刈の考
えを導入することにより処理を高速化したものが
特願昭62−61732号、特願昭62−219460号に述べ
られている。以下、これらの方法について簡単に
説明する。

特願昭62−61732号の方法は、クロツクワイズ
DP法において、時刻ｉでの累積距離gⁿ（ｉ，ｊ）
があるしきい値θ(i)以上のｎ，ｉ，ｊに対して
は、時刻ｉ＋１以降の漸化式計算を省略するもの
である。これは、gⁿ（ｉ，ｊ）が大きい（ｎ，ｉ，
ｊ）は最適パス上にある可能性が低いとみなして
漸化式計算を省略するものである。これにより計
算すべき漸化式計算回数が大幅に減少し、認識処
理が高速化される。θ(i)の設定法としては以下の
ものがある。

(イ) θ(i)＝αi＋β (ロ) θ(i)＝ｇ min(i)＋α（α，βは定数） (イ)は最適累積距離が増加するとしてθ(i)をｉの
一次単調増加関数として定めるもの、(ロ)は各ｉに
おける累積距離gⁿ（ｉ，ｊ），Ｊ＝ｉ，…Jn，ｎ＝
１，…，Ｎの最小値ｇ min(i)にαの余裕を持た
せてθを定めるものである。しかし、この方法に
おいて、しきい値を求めるためのしきい値パラメ
ータα，βは一定値であつたため、適切でないし
きい値θ(i)による認識エラーや計算量が低減され
ない場合があつた。

特願昭62−219460号の方法は、特願昭62−
61732号におけるこのような問題に対処できるも
のであり、過去の発声よりしきい値パラメータを
学習する機能を有する。しきい値パラメータは以
下の手順で学習する。まず、認識結果出力後、入
力パターンと認識結果を与えた標準パターンとの
間でマツチングを行い、バツクトラツクによつて
最適パスを求める。次に、最適パス上の累積距離
g_ppt(i)，ｉ＝１，…，１を求め、しきい値θ(i)が
全てのｉにおいてg_ppt(i)＜θ(i)を満足するように
しきい値パラメータα′，β′を求める。次の認識処
理に使用するα，βは、過去１回以上Ｘ回の発声
に対するしきい値パラメータα′(x)，β′(x)，ｘ＝
１，…，Ｘより求める。

（発明が解決しようとする問題点）従来法における枝刈では、認識結果が正解でも
エラーでも同様の方法でパラメータα，βの学習
を行つていた。しかし、誤認識の場合には最適パ
スを求める際に、発声された単語とは異なる標準
パターンとのマツチングが行われるため、正解単
語との正解パスは求められない。従つて、誤認識
が起きると、適切でないしきい値パラメータα，
βが学習されることがあり、さらに誤認識を生む
ことにつながつていた。

本発明の目的は、上記の問題点をなくし、常に
適切な枝刈のしきい値θを定めることのできる音
声認識装置を提供することである。

（問題点を解決するための手段）本発明による音声認識装置は次の各部を必要と
する。すなわち、各単語ｎの音声の特徴ベクトル
時系列Bⁿ＝bⁿ ₁…bⁿ _j…bⁿ _joを標準パターンとして
保持する標準パターン格納部と、枝刈のしきい値
を求めるパラメータであるしきい値パラメータを
格納するしきい値パラメータ格納部と、時刻ｉの
入力音声の特徴ベクトルa_iを逐次読み込み時系列
パターンＡ＝a₁…a_i…a_Iとして保持する入力パタ
ーン格納部と、各時刻ｉにおいて入力音声の特徴
a_iと前記標準パターン格納部の標準パターンbⁿ _jと
の距離dⁿ（ｉ，ｊ）の累計距離gⁿ（ｉ，ｊ）を前記
しきい値パラメータ格納部のパラメータで定めら
れる枝刈条件を満足する（ｎ，ｊ）の値に対して
求めるマツチング部と、マツチング部にて時刻Ｉ
に求められた累積距離gⁿ（ｉ，ｊ）の最小値を与
える単語ｎを認識結果として出力する判定部と、
認識結果の正否を与える結果確認部と、結果が正
解である場合に入力パターン格納部における入力
パターンＡと認識結果の標準パターンBnを読み
込み最適パスを求める最適パス計算部と、結果が
正解である場合には前記最適パス計算部にて得ら
れた最適パス上の累積距離の値を用いてしきい値
パラメータを更新し結果が誤りである場合にはし
きい値パラメータ格納部のしきい値パラメータを
しきい値を高くするように更新するしきい値パラ
メータ決定部の各部である。

（作用）本発明による音声認識装置は、過去に発声され
た音声と、認識結果の正否の情報を用いてしきい
値を学習することにより、話者や環境の変化に対
応して、枝刈を効率よく行い高速に認識処理を行
うことを特徴とする。

上述したように、枝刈は入力パターンの各時刻
ｉにおけるしきい値θ(i)を用いて行う。従つて、
θ(i)は正解の単語の最適パス上の累積距離を下回
らず、かつ、高すぎないように設定することが望
ましい。本発明の特徴は、過去の発声に対して最
適パス上の累積距離を求め、それらの値から適切
なしきい値θ(i)を求めるパラメータを学習するこ
とにある。さらに、最適パス上の累積距離を用い
た学習は認識結果が正解であるときのみ行い、認
識結果がエラーである場合には、枝刈のしきい値
を上げることにより連続したエラーを防ぐことを
特徴とする。以下に、その動作原理を説明する。

従来方式による認識処理が行われ、結果が出力
された後、認識結果が正解か否かの入力を促すプ
ロンプトに従つて、利用者が結果の正否を入力す
る。認識結果が正解である場合には、認識結果の
単語ｎの標準パターンBⁿと保持されている入力
パターンとの間で前記文献１に述べられている
DPマツチングを行う。マツチングでは、漸化式
計算において選択されたパスの情報ｈ（ｉ，ｊ）
と累積距離ｇ（ｉ，ｊ）を全ての（ｉ，ｊ）に対
して保持しておき、バツクトラツクにより最適パ
スを得る。最適パス上の累積距離g_ppt(i)は、最適
パスh_ppt(i)＝ｊ(1)…ｊ(i)…ｊ(I)における累積距離
ｇ（ｉ，ｊ(i)）として得られる。

このようにして得られた各ｉにおける最適パス
上の累積距離g_ppt(i)は、直前の入力音声の時刻ｉ
における枝刈のしきい値θ(i)の最適値と考えるこ
とができる。そのため、これらの情報を用いて、
現在のしきい値パラメータを補正することで、次
回の認識処理ではより適切なしきい値を設定する
ことができる。さらに、話者や環境が変化した場
合、それ以前と同じパラメータでは不適切なしき
い値θが設定される場合があるが、そのような場
合にも、上記の原理によつて、発声ごとにより適
切なθが設定できるようになる。

以上は、認識結果が正解である場合の処理であ
るが、誤認識の場合は正解単語に対する最適パス
が枝刈されてしまつた可能性が強いとみなして、
現在のしきい値θより高いしきい値が設定される
ようにしきい値パラメータα，βを更新する。

（実施例）以下に、本発明の実施例について図面を参照し
ながら詳細に説明する。第１図は、本発明の一実
施例を示すブロツク図である。

第１図における標準パターン格納部２には、あ
らかじめ発声された認識対象単語ｎの各時刻列デ
ータが標準パターンB_oとして格納されており、
しきい値パラメータ格納部３には、枝刈のしきい
値θ(i)を求めるためのしきい値α，βがあらかじ
め格納されている。発声された入力パターンＡは
実時間で分析され、特徴ベクトルa_iの時系列のデ
ータとして逐次マツチング部４に入力される。ま
た、a_iは同時に、入力パターン格納部１に逐次格
納され、次の入力があるまで保持される。マツチ
ング部４では入力されたa_iごとにｎ，ｊに対して
漸化式計算を行いgⁿ（ｉ，ｊ）を求める。マツチ
ングには、従来方式におけるクロツクワイズDP
法に枝刈の考えを導入した方式（特願昭62−
61732号）を用いる。枝刈のしきい値θの求め方
としては、ここでは、一次単調増加関数（θ(i)＝
αi＋β）を用いることとする。マツチング部４
は、ｉにおける累積距離計算後、しきい値パラメ
ータ格納部３のα，βを読み込みθ(i)を計算し、
gⁿ（ｉ，ｊ）＜θ(i)を満足する（ｎ，ｊ）を求め
る。a_i+1が入力されると、時刻ｉで求められた枝
刈基準を満足する（ｎ，ｊ）に対して漸化式計算
を行う。マツチング部４ではこのように枝刈をし
ながら時刻Ｉまでの処理を行い入力パターンＡと
全ての標準パターンBnとのパターン間距離を求
める。

判定部５では、マツチング部４にて得られた入
力パターンＡと全ての標準パターンBn，ｎ＝１
…Ｎとのパターン間距離のうち最小距離を与えた
標準パターンを結果として出力する。引続き、利
用者によつてこの認識結果の正否が結果確認部８
より入力される。結果確認部８は、正否を入力す
る手段を有し、例えば正否に対応する２つのキー
よりなる装置を用いることができる。このよう
に、結果の正否が入力されると、正否に応じてし
きい値パラメータの学習処理が行われる。

まず、結果が正解である場合について説明す
る。この場合の学習には、従来方法（特願昭62−
61732号）と同様に、入力パターンと認識結果を
与えた標準パターンとのマツチングにおける最適
パス上の累積距離を用いる。最適パス計算部６
は、利用者から結果が正解であるという入力を得
ると、入力パターンＡを入力パターン格納部１よ
り、結果を与えた標準パターンBnを標準パター
ン格納部２より読み込み、文献１に示されている
ようなDPマツチング法を用いて１対１のマツチ
ングを行う。マツチングの際には、（ｉ，ｊ）に
おける累積距離ｇ（ｉ，ｊ）と（ｉ，ｊ）に至る
パスｈ（ｉ，ｊ）を全ての（ｉ，ｊ）に対して保
持しておく。最適パスは、（Ｉ，Ｊ）より、パス
の情報ｈを溯るバツクトラツクにより得られる。
このようにして得られた最適パス上の累積距離を
g_ppt(i)，ｉ＝１，…，Ｉとする。その後、パラメ
ータ決定部７においてしきい値パラメータα，β
の学習を行う。g_pptは、最適パス上の累積距離で
あるから、マツチング時の枝刈のしきい値は常に
この値以上である必要がある。パラメータα，β
の値は例えば、g_pptの最小自乗近似直線の係数と
して求めることができる。第３図は、g_pptと求め
られたα，βによるθ(i)を示している。図におけ
るβは最小自乗近似直線の係数として求められた
値より余裕分Δβだけ大きくなつている。パラメ
ータ決定部７には、このようにして求められた
α，βを過去の発声Ｘ回分（Ｘ≧０）が格納され
ている。これらの値から、新たなしきい値パラメ
ータを求め、しきい値パラメータ格納部３に格納
する。しきい値パラメータの求め方としては、Ｘ
回のα，βの値の最大値をとる方法を用いる。し
きい値パラメータα，βの求め方としては、過去
Ｘ回の最大値をとる方法の他に、過去Ｘ回の平均
値をとる方法などを用いることができる。

次に、認識結果が誤認識の場合について説明す
る。利用者により、認識結果がエラーと入力され
た場合は、しきい値パラメータ格納部３より現在
設定されているしきい値パラメータα，βを読み
込み、それらをしきい値θ(i)が増加するように更
新する。αの更新値は例えば、α_oew＝ｋ・α_pld，
α_oew＝α_pld＋ＴまたＢの更新値も同様に、β_oew＝
ｋ・β_pld，β_oew＝β_pld＋Ｔなどの方法を用いること
ができる。θの求め方として一次単調増加関数を
用いる上記の例では、ｋとして１以上の値、また
は、正の値を持つＴを与えることによりθ_oew＞
θ_pldとなるα，βを設定することができる。

以上の実施例では、しきい値θの求め方として
一次単調増加関数を用いて説明したが、それ以外
の方法として、ｉにおける最小値を基にした場合
（θ(i)＝ｇ min(i)＋α）について説明する。こ
の場合には、以下のようにしてパラメータαを学
習することができる。まず、認識時にマツチング
部４における枝刈処理に使用された各ｉの累積距
離の最小値ｇ min(i)，ｉ＝１，…，Ｉを、各時
刻ｉにおいてパラメータ決定部７に格納してお
く。その後、上記の実施例と同様に処理し、最適
パス計算部６においてg_ppt(i)，ｉ＝１，…，Ｉを
求めた後、パラメータ決定部７において、g_diff(i)
＝g_ppt(i)−ｇ min(i)，ｉ＝１，…Ｉを計算しg_diff
の最大値を求める。パラメータ決定部７には、こ
のようにして求められたg_diffの最大値が過去の発
声Ｘ回分（Ｘ≧０）格納されている。αはこれら
の値の平均、または最大値に基づいて決定するこ
とができる。

（発明の効果）以上に説明した本発明による高速音声認識装置
では、誤認識が起きてもそれが誤認識の多発につ
ながることなく、枝刈における最適なしきい値を
学習することができる。そのため、話者や環境な
どの変化に適応したしきい値の設定が可能にな
る。それにより、しきい値が不適当であるために
起きていた従来の問題点が解決され、認識速度が
より高速になり、また、認識率が向上する。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロツク図、
第２図は従来方式におけるマツチングの様子を説
明するための図、第３図は第１図実施例における
パラメータ決定部で行なわれる処理を説明するた
めの図である。１……入力パターン格納部、２……標準パター
ン格納部、３……しきい値パラメータ格納部、４
……マツチング部、５……判定部、６……最適パ
ス計算部、７……パラメータ決定部、８……結果
確認部。

Claims

【特許請求の範囲】

１各単語ｎの音声の特徴ベクトル時系列Bⁿ＝
bⁿ _i…bⁿ _j…bⁿ _joを標準パターンとして保持する標準
パターン格納部と、枝刈のしきい値を求めるパラ
メータであるしきい値パラメータを格納するしき
い値パラメータ格納部と、時刻ｉの入力音声の特
徴ベクトルa_iを逐次読み込み時系列パターンＡ＝
a₁…a_i…a_Iとして保持する入力パターン格納部と、
各時刻ｉにおいて入力音声の特徴a_iと前記標準パ
ターン格納部の標準パターンbⁿ _jとの距離dⁿ（ｉ，
ｊ）の累積距離gⁿ（ｉ，ｊ）を前記しきい値パラ
メータ格納部のパラメータで定められる枝刈条件
を満足する（ｎ，ｊ）の値に対して求めるマツチ
ング部と、このマツチング部にて時刻Ｉに求めら
れた累積距離gⁿ（Ｉ，Ｊ）の最小値を与える単語
ｎを認識結果として出力する判定部と、認識結果
の正否を与える結果確認部と、結果が正解である
場合に前記入力パターン格納部における入力パタ
ーンＡと認識結果の標準パターンBnを読み込み
最適パスを求める最適パス計算部と、結果が正解
である場合には前記最適パス計算部にて得られた
最適パス上の累積距離の値を用いてしきい値パラ
メータを更新し結果が誤りである場合には前記し
きい値パラメータ格納部のしきい値パラメータを
しきい値を高くするように更新するしきい値パラ
メータ決定部とを有することを特徴とする音声認
識装置。