JPH0577079B2 - - Google Patents

Info

Publication number
JPH0577079B2
JPH0577079B2 JP62271148A JP27114887A JPH0577079B2 JP H0577079 B2 JPH0577079 B2 JP H0577079B2 JP 62271148 A JP62271148 A JP 62271148A JP 27114887 A JP27114887 A JP 27114887A JP H0577079 B2 JPH0577079 B2 JP H0577079B2
Authority
JP
Japan
Prior art keywords
threshold
result
optimal path
value
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62271148A
Other languages
English (en)
Other versions
JPH01112298A (ja
Inventor
Hiromi Fujii
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP62271148A priority Critical patent/JPH01112298A/ja
Publication of JPH01112298A publication Critical patent/JPH01112298A/ja
Publication of JPH0577079B2 publication Critical patent/JPH0577079B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、発声された音声を高速で認識する音
声認識装置の改良に関する。
(従来の技術) 音声認識は、優れたマンマシンインターフエー
スを実現する技術として重要であり、すでにさま
ざまな分野で音声認識装置が使われている。現在
の装置のほとんどは、パターンマツチング法によ
る認識方式を採用している。この方式は、発声さ
れた認識対象の単語をあらかじめ標準パターンと
して保持しておき、入力された発声のパターン
(以下、入力パターンとする)と保持された標準
パターンとの比較を行い、最も類似した標準パタ
ーンの単語名を認識結果とするものである。この
時、2つのパターンの時間軸を対応づけてパター
ン間距離を求める方法としては、動的計画法によ
り非線形な対応付けを行うDPマツチング法が使
用されている。DPマツチングについては「連続
発声した単語音声を効率的に認識する2段DPマ
ツチング」、日計エレクトロニクス、1983年11月
7日号の171頁より208頁(以下、文献1とする)
に詳しく記述されている。この文献によると、パ
ターンA,B間の距離D(A,B)は、以下のよ
うに定義されている。
D(A,B)=min j=j=(i)[i=1I d(i,j)] d(i,j)はaiとbiのベクトル間距離である。
パターン間距離Dは、たとえば以下の漸化式計算
により求めることができる。
g(i,j)=d(i,j)+ming(i
−1,j) g(i−1,j−1) g(i−1,j−2) (イ) (ロ) (ハ) …(1)式 g(i,j)はi,jにより張られるij平面中
の点(1,1)から(i,j)までのベクトル間
距離dの累積値の最小値であり、以下、累積距離
と呼ぶことにする。D(A,B)はこの漸化式計
算をi=1…I,j=1…Jまで行つて得られる
g(I,J)として求められる。
ここで、第2図に示すようなi,j平面を考え
る。上記漸化式は、第2図に示すように、(i−
1,j),(i−1,j−1),(i−1,j−2)
から(i,j)に至る3本のパス(イ),(ロ),(ハ)を許
して、格子点(1,1)から(I,J)に至るベ
クトル間距離d(i,j)の総和が最小を与える
(i,j,)の経路(以下、最適パスという)を求
めるものである。最適パスは、(1)式の計算の際に
(イ),(ロ),(ハ)のうちどのパスが選ばれたかのパス情
報h(i,j)をすべて(i,j)に対して保持
しておき、Dが求められた後に(I,J)より保
持されたパスを(1,1)まで遡るバツクトラツ
クを行うことにより得られる。バツクトラツクに
より最適パスを求める方法については、「音声認
識における動的計画法の応用」、bit,Vol.15.No.8
の131頁より142頁に詳しく述べられている。
以上述べたDPマツチングによる認識アルゴリ
ズムには、多くの改良があるが、その1つとして
特開昭58−98796号に記載されているクロツクワ
イズDP法がある。この方法は、入力パターンの
時間軸iを最も外側のループにしてgn(i,j)
の計算を行うことにより、特徴ベクトルaiの入力
と同期したマツチング処理を実現し、実時間性を
高める方法である。すなわち、この方法では、入
力パターンの時刻iにおいて、全ての単語nと単
語nの標準パターン上の時刻jに対してgn(i,
j)を求める。
また、上記のクロツクワイズDP法に枝刈の考
えを導入することにより処理を高速化したものが
特願昭62−61732号、特願昭62−219460号に述べ
られている。以下、これらの方法について簡単に
説明する。
特願昭62−61732号の方法は、クロツクワイズ
DP法において、時刻iでの累積距離gn(i,j)
があるしきい値θ(i)以上のn,i,jに対して
は、時刻i+1以降の漸化式計算を省略するもの
である。これは、gn(i,j)が大きい(n,i,
j)は最適パス上にある可能性が低いとみなして
漸化式計算を省略するものである。これにより計
算すべき漸化式計算回数が大幅に減少し、認識処
理が高速化される。θ(i)の設定法としては以下の
ものがある。
(イ) θ(i)=αi+β (ロ) θ(i)=g min(i)+α(α,βは定数) (イ)は最適累積距離が増加するとしてθ(i)をiの
一次単調増加関数として定めるもの、(ロ)は各iに
おける累積距離gn(i,j),J=i,…Jn,n=
1,…,Nの最小値g min(i)にαの余裕を持た
せてθを定めるものである。しかし、この方法に
おいて、しきい値を求めるためのしきい値パラメ
ータα,βは一定値であつたため、適切でないし
きい値θ(i)による認識エラーや計算量が低減され
ない場合があつた。
特願昭62−219460号の方法は、特願昭62−
61732号におけるこのような問題に対処できるも
のであり、過去の発声よりしきい値パラメータを
学習する機能を有する。しきい値パラメータは以
下の手順で学習する。まず、認識結果出力後、入
力パターンと認識結果を与えた標準パターンとの
間でマツチングを行い、バツクトラツクによつて
最適パスを求める。次に、最適パス上の累積距離
gppt(i),i=1,…,1を求め、しきい値θ(i)が
全てのiにおいてgppt(i)<θ(i)を満足するように
しきい値パラメータα′,β′を求める。次の認識処
理に使用するα,βは、過去1回以上X回の発声
に対するしきい値パラメータα′(x),β′(x),x=
1,…,Xより求める。
(発明が解決しようとする問題点) 従来法における枝刈では、認識結果が正解でも
エラーでも同様の方法でパラメータα,βの学習
を行つていた。しかし、誤認識の場合には最適パ
スを求める際に、発声された単語とは異なる標準
パターンとのマツチングが行われるため、正解単
語との正解パスは求められない。従つて、誤認識
が起きると、適切でないしきい値パラメータα,
βが学習されることがあり、さらに誤認識を生む
ことにつながつていた。
本発明の目的は、上記の問題点をなくし、常に
適切な枝刈のしきい値θを定めることのできる音
声認識装置を提供することである。
(問題点を解決するための手段) 本発明による音声認識装置は次の各部を必要と
する。すなわち、各単語nの音声の特徴ベクトル
時系列Bn=bn 1…bn j…bn joを標準パターンとして
保持する標準パターン格納部と、枝刈のしきい値
を求めるパラメータであるしきい値パラメータを
格納するしきい値パラメータ格納部と、時刻iの
入力音声の特徴ベクトルaiを逐次読み込み時系列
パターンA=a1…ai…aIとして保持する入力パタ
ーン格納部と、各時刻iにおいて入力音声の特徴
aiと前記標準パターン格納部の標準パターンbn j
の距離dn(i,j)の累計距離gn(i,j)を前記
しきい値パラメータ格納部のパラメータで定めら
れる枝刈条件を満足する(n,j)の値に対して
求めるマツチング部と、マツチング部にて時刻I
に求められた累積距離gn(i,j)の最小値を与
える単語nを認識結果として出力する判定部と、
認識結果の正否を与える結果確認部と、結果が正
解である場合に入力パターン格納部における入力
パターンAと認識結果の標準パターンBnを読み
込み最適パスを求める最適パス計算部と、結果が
正解である場合には前記最適パス計算部にて得ら
れた最適パス上の累積距離の値を用いてしきい値
パラメータを更新し結果が誤りである場合にはし
きい値パラメータ格納部のしきい値パラメータを
しきい値を高くするように更新するしきい値パラ
メータ決定部の各部である。
(作用) 本発明による音声認識装置は、過去に発声され
た音声と、認識結果の正否の情報を用いてしきい
値を学習することにより、話者や環境の変化に対
応して、枝刈を効率よく行い高速に認識処理を行
うことを特徴とする。
上述したように、枝刈は入力パターンの各時刻
iにおけるしきい値θ(i)を用いて行う。従つて、
θ(i)は正解の単語の最適パス上の累積距離を下回
らず、かつ、高すぎないように設定することが望
ましい。本発明の特徴は、過去の発声に対して最
適パス上の累積距離を求め、それらの値から適切
なしきい値θ(i)を求めるパラメータを学習するこ
とにある。さらに、最適パス上の累積距離を用い
た学習は認識結果が正解であるときのみ行い、認
識結果がエラーである場合には、枝刈のしきい値
を上げることにより連続したエラーを防ぐことを
特徴とする。以下に、その動作原理を説明する。
従来方式による認識処理が行われ、結果が出力
された後、認識結果が正解か否かの入力を促すプ
ロンプトに従つて、利用者が結果の正否を入力す
る。認識結果が正解である場合には、認識結果の
単語nの標準パターンBnと保持されている入力
パターンとの間で前記文献1に述べられている
DPマツチングを行う。マツチングでは、漸化式
計算において選択されたパスの情報h(i,j)
と累積距離g(i,j)を全ての(i,j)に対
して保持しておき、バツクトラツクにより最適パ
スを得る。最適パス上の累積距離gppt(i)は、最適
パスhppt(i)=j(1)…j(i)…j(I)における累積距離
g(i,j(i))として得られる。
このようにして得られた各iにおける最適パス
上の累積距離gppt(i)は、直前の入力音声の時刻i
における枝刈のしきい値θ(i)の最適値と考えるこ
とができる。そのため、これらの情報を用いて、
現在のしきい値パラメータを補正することで、次
回の認識処理ではより適切なしきい値を設定する
ことができる。さらに、話者や環境が変化した場
合、それ以前と同じパラメータでは不適切なしき
い値θが設定される場合があるが、そのような場
合にも、上記の原理によつて、発声ごとにより適
切なθが設定できるようになる。
以上は、認識結果が正解である場合の処理であ
るが、誤認識の場合は正解単語に対する最適パス
が枝刈されてしまつた可能性が強いとみなして、
現在のしきい値θより高いしきい値が設定される
ようにしきい値パラメータα,βを更新する。
(実施例) 以下に、本発明の実施例について図面を参照し
ながら詳細に説明する。第1図は、本発明の一実
施例を示すブロツク図である。
第1図における標準パターン格納部2には、あ
らかじめ発声された認識対象単語nの各時刻列デ
ータが標準パターンBoとして格納されており、
しきい値パラメータ格納部3には、枝刈のしきい
値θ(i)を求めるためのしきい値α,βがあらかじ
め格納されている。発声された入力パターンAは
実時間で分析され、特徴ベクトルaiの時系列のデ
ータとして逐次マツチング部4に入力される。ま
た、aiは同時に、入力パターン格納部1に逐次格
納され、次の入力があるまで保持される。マツチ
ング部4では入力されたaiごとにn,jに対して
漸化式計算を行いgn(i,j)を求める。マツチ
ングには、従来方式におけるクロツクワイズDP
法に枝刈の考えを導入した方式(特願昭62−
61732号)を用いる。枝刈のしきい値θの求め方
としては、ここでは、一次単調増加関数(θ(i)=
αi+β)を用いることとする。マツチング部4
は、iにおける累積距離計算後、しきい値パラメ
ータ格納部3のα,βを読み込みθ(i)を計算し、
gn(i,j)<θ(i)を満足する(n,j)を求め
る。ai+1が入力されると、時刻iで求められた枝
刈基準を満足する(n,j)に対して漸化式計算
を行う。マツチング部4ではこのように枝刈をし
ながら時刻Iまでの処理を行い入力パターンAと
全ての標準パターンBnとのパターン間距離を求
める。
判定部5では、マツチング部4にて得られた入
力パターンAと全ての標準パターンBn,n=1
…Nとのパターン間距離のうち最小距離を与えた
標準パターンを結果として出力する。引続き、利
用者によつてこの認識結果の正否が結果確認部8
より入力される。結果確認部8は、正否を入力す
る手段を有し、例えば正否に対応する2つのキー
よりなる装置を用いることができる。このよう
に、結果の正否が入力されると、正否に応じてし
きい値パラメータの学習処理が行われる。
まず、結果が正解である場合について説明す
る。この場合の学習には、従来方法(特願昭62−
61732号)と同様に、入力パターンと認識結果を
与えた標準パターンとのマツチングにおける最適
パス上の累積距離を用いる。最適パス計算部6
は、利用者から結果が正解であるという入力を得
ると、入力パターンAを入力パターン格納部1よ
り、結果を与えた標準パターンBnを標準パター
ン格納部2より読み込み、文献1に示されている
ようなDPマツチング法を用いて1対1のマツチ
ングを行う。マツチングの際には、(i,j)に
おける累積距離g(i,j)と(i,j)に至る
パスh(i,j)を全ての(i,j)に対して保
持しておく。最適パスは、(I,J)より、パス
の情報hを溯るバツクトラツクにより得られる。
このようにして得られた最適パス上の累積距離を
gppt(i),i=1,…,Iとする。その後、パラメ
ータ決定部7においてしきい値パラメータα,β
の学習を行う。gpptは、最適パス上の累積距離で
あるから、マツチング時の枝刈のしきい値は常に
この値以上である必要がある。パラメータα,β
の値は例えば、gpptの最小自乗近似直線の係数と
して求めることができる。第3図は、gpptと求め
られたα,βによるθ(i)を示している。図におけ
るβは最小自乗近似直線の係数として求められた
値より余裕分Δβだけ大きくなつている。パラメ
ータ決定部7には、このようにして求められた
α,βを過去の発声X回分(X≧0)が格納され
ている。これらの値から、新たなしきい値パラメ
ータを求め、しきい値パラメータ格納部3に格納
する。しきい値パラメータの求め方としては、X
回のα,βの値の最大値をとる方法を用いる。し
きい値パラメータα,βの求め方としては、過去
X回の最大値をとる方法の他に、過去X回の平均
値をとる方法などを用いることができる。
次に、認識結果が誤認識の場合について説明す
る。利用者により、認識結果がエラーと入力され
た場合は、しきい値パラメータ格納部3より現在
設定されているしきい値パラメータα,βを読み
込み、それらをしきい値θ(i)が増加するように更
新する。αの更新値は例えば、αoew=k・αpld
αoew=αpld+TまたBの更新値も同様に、βoew
k・βpld,βoew=βpld+Tなどの方法を用いること
ができる。θの求め方として一次単調増加関数を
用いる上記の例では、kとして1以上の値、また
は、正の値を持つTを与えることによりθoew
θpldとなるα,βを設定することができる。
以上の実施例では、しきい値θの求め方として
一次単調増加関数を用いて説明したが、それ以外
の方法として、iにおける最小値を基にした場合
(θ(i)=g min(i)+α)について説明する。こ
の場合には、以下のようにしてパラメータαを学
習することができる。まず、認識時にマツチング
部4における枝刈処理に使用された各iの累積距
離の最小値g min(i),i=1,…,Iを、各時
刻iにおいてパラメータ決定部7に格納してお
く。その後、上記の実施例と同様に処理し、最適
パス計算部6においてgppt(i),i=1,…,Iを
求めた後、パラメータ決定部7において、gdiff(i)
=gppt(i)−g min(i),i=1,…Iを計算しgdiff
の最大値を求める。パラメータ決定部7には、こ
のようにして求められたgdiffの最大値が過去の発
声X回分(X≧0)格納されている。αはこれら
の値の平均、または最大値に基づいて決定するこ
とができる。
(発明の効果) 以上に説明した本発明による高速音声認識装置
では、誤認識が起きてもそれが誤認識の多発につ
ながることなく、枝刈における最適なしきい値を
学習することができる。そのため、話者や環境な
どの変化に適応したしきい値の設定が可能にな
る。それにより、しきい値が不適当であるために
起きていた従来の問題点が解決され、認識速度が
より高速になり、また、認識率が向上する。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロツク図、
第2図は従来方式におけるマツチングの様子を説
明するための図、第3図は第1図実施例における
パラメータ決定部で行なわれる処理を説明するた
めの図である。 1……入力パターン格納部、2……標準パター
ン格納部、3……しきい値パラメータ格納部、4
……マツチング部、5……判定部、6……最適パ
ス計算部、7……パラメータ決定部、8……結果
確認部。

Claims (1)

    【特許請求の範囲】
  1. 1 各単語nの音声の特徴ベクトル時系列Bn
    bn i…bn j…bn joを標準パターンとして保持する標準
    パターン格納部と、枝刈のしきい値を求めるパラ
    メータであるしきい値パラメータを格納するしき
    い値パラメータ格納部と、時刻iの入力音声の特
    徴ベクトルaiを逐次読み込み時系列パターンA=
    a1…ai…aIとして保持する入力パターン格納部と、
    各時刻iにおいて入力音声の特徴aiと前記標準パ
    ターン格納部の標準パターンbn jとの距離dn(i,
    j)の累積距離gn(i,j)を前記しきい値パラ
    メータ格納部のパラメータで定められる枝刈条件
    を満足する(n,j)の値に対して求めるマツチ
    ング部と、このマツチング部にて時刻Iに求めら
    れた累積距離gn(I,J)の最小値を与える単語
    nを認識結果として出力する判定部と、認識結果
    の正否を与える結果確認部と、結果が正解である
    場合に前記入力パターン格納部における入力パタ
    ーンAと認識結果の標準パターンBnを読み込み
    最適パスを求める最適パス計算部と、結果が正解
    である場合には前記最適パス計算部にて得られた
    最適パス上の累積距離の値を用いてしきい値パラ
    メータを更新し結果が誤りである場合には前記し
    きい値パラメータ格納部のしきい値パラメータを
    しきい値を高くするように更新するしきい値パラ
    メータ決定部とを有することを特徴とする音声認
    識装置。
JP62271148A 1987-10-26 1987-10-26 音声認識装置 Granted JPH01112298A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62271148A JPH01112298A (ja) 1987-10-26 1987-10-26 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62271148A JPH01112298A (ja) 1987-10-26 1987-10-26 音声認識装置

Publications (2)

Publication Number Publication Date
JPH01112298A JPH01112298A (ja) 1989-04-28
JPH0577079B2 true JPH0577079B2 (ja) 1993-10-25

Family

ID=17495995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62271148A Granted JPH01112298A (ja) 1987-10-26 1987-10-26 音声認識装置

Country Status (1)

Country Link
JP (1) JPH01112298A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5143135A (en) * 1991-01-18 1992-09-01 Levolor Corporation Low profile headrail venetian blind

Also Published As

Publication number Publication date
JPH01112298A (ja) 1989-04-28

Similar Documents

Publication Publication Date Title
KR100697961B1 (ko) 반-지시된 화자 적응
US7415408B2 (en) Speech recognizing apparatus with noise model adapting processing unit and speech recognizing method
WO2020024646A1 (en) Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks
US8612235B2 (en) Method and system for considering information about an expected response when performing speech recognition
JP4531166B2 (ja) 信頼性尺度の評価を用いる音声認識方法
JPH0355837B2 (ja)
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
McDermott et al. Prototype-based minimum classification error/generalized probabilistic descent training for various speech units
CN112509560A (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
JPH0683388A (ja) 音声認識装置
JPH07219579A (ja) 音声認識装置
JP2852298B2 (ja) 標準パターン適応化方式
JPH0296800A (ja) 連続音声認識装置
US5828998A (en) Identification-function calculator, identification-function calculating method, identification unit, identification method, and speech recognition system
JPH0577079B2 (ja)
JPH01204099A (ja) 音声認識装置
JPH0962644A (ja) ニューラルネットワーク
JPH09258783A (ja) 音声認識装置
JP3400474B2 (ja) 音声認識装置および音声認識方法
JP3316352B2 (ja) 音声認識方法
JP3357752B2 (ja) パターンマッチング装置
JPH01138596A (ja) 音声認識装置
JPH11237893A (ja) 音声認識システムにおける音素認識方法
JPH07261790A (ja) 音声認識装置
JPH071440B2 (ja) 特徴パターン作成方式