JPS63226694A - 音声認識のパタ−ンマッチング方式 - Google Patents

音声認識のパタ−ンマッチング方式

Info

Publication number
JPS63226694A
JPS63226694A JP62061733A JP6173387A JPS63226694A JP S63226694 A JPS63226694 A JP S63226694A JP 62061733 A JP62061733 A JP 62061733A JP 6173387 A JP6173387 A JP 6173387A JP S63226694 A JPS63226694 A JP S63226694A
Authority
JP
Japan
Prior art keywords
time
pattern
word
equation
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62061733A
Other languages
English (en)
Other versions
JPH0465394B2 (ja
Inventor
迫江 博昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP62061733A priority Critical patent/JPS63226694A/ja
Publication of JPS63226694A publication Critical patent/JPS63226694A/ja
Publication of JPH0465394B2 publication Critical patent/JPH0465394B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (並業上の利用分野) 本発明は入閣が発声した音声を自JIEII認識する音
声m職におけるパターンマツチング方式に関するもので
ある。
(従来の技術) 音声認識のパターンマツチング方式に−しては種々の技
術が開発されているが、それらの中で最も確立された重
用されているものの一つとして「日本音書学会誌第42
巻9号(昭和61年9月発行)の第725頁」に記載さ
れるがごとさi)Pマツチング法がある。これは音声の
時間軸歪を整合する手法として極めて有効とされている
。また1)Pマツチング法を連続単相認識に拡張したも
のとして、上記文献の第727頁あるいは丑願昭、56
−199098、号明#1i1Fに記載されるが如きク
ロックワイズDP法が知られている。この手法は構文制
御を有する連続単語認識法として説明されているが、幽
然離敗単@認識にも適用可能である。
ここでは説明の簡拳のため、離散単語認識の形式で、ク
ロックワイズDP法の要部全説明する。
単語名1番号nで指定することとして (n l n =1 + 2 e ・・・N)なる単語
セットを認識対象とする。谷単給に標準パターン Bn=b” 、bn、”・b”!  ・ bnn12 
   J    J 金考える。ここにjrI′i時刻を示し、&jは標準パ
ターンBnの時刻jの特徴を意味する。入力音声パター
ンをI′W1様に A”” Ill 12 − &i −1゜と示す。
音声WaXは、入カバターン人と標準パターンBnとの
パターン間距離L) (A * B”)e求め、それが
最小となるn2定め″′C餡識紹米とすることによって
行なわれる。L)Pマツチングではこの距離の計算を次
のような漸化式計算によって行なう。
口初期条件 gn(1,1)=dn=(1,1)  −・−(1)O
漸化式 %式%(2) ここにdn(i、j)は%徴&jとibゴの距離dn(
i 、 j )=llal−bn、 II テhル。こ
れに対して(2)式で計算されるgn(i、J)を最適
累積距離と呼ぶ。
このDPマツチング処理は当初、単語ごとに実行されて
いた 、クロックワイズL)P法では各率甜に対して工
列的に実行する形式に改良された。
亀5図(a)φ)は従来方式を説明する図である。すな
わち、gs図(a)のような、1*jenが関係する空
間に2いて、入カバターンの各1j#E+iKj?いて
、各標準パターンBnの指定nとそれらの中の時刻jの
すべての組み合わせで指定さtLるn、jに対してgn
(i、j)なる最適累積距離を計算し、しかる後に時刻
iを進めて処理を続行するという方式となっている。
実際の計算は、gn(コ)=gn(i*j)+ gn(
jン=gn(i−1,J)なる表示を考え、これらを保
持するため、第5図(&)に参照数字1で示す2列のメ
モリを用意する。これらのメモリの間で、第1図(b)
に示すごとく なる演算r行なって、(2)式の漸化式it′i算を実
行する。
ここに、 d”(j)=  d n(i、j)    ・ ・ ・
 (5Jである。すべてのn、jの組み合せに対して、
(4)式の計算を実行し終ると時刻i全1クロック進め
、?(j) k gn(j)として以上の処理10シ返
す。かくしてi=Iまでの処理が終了した時点で、パタ
ーン間距離は D(A 、Bn)=gn(Jn) として、各nに対して並列的に求まる。クロック〔発明
が解決しようとする問題点〕 このような方法は入カバターンの時刻iに同期して処理
を進めることができるので、発声と並行して処理を進め
ることができ、実時間性が良いとされている。しかし、
この方法を人語いの音声認識に適用しようとすると計′
J4−菫か大となるという間地点がある。すなわち、(
4)式の漸化式計算は、jとnのすべての組み曾ぜにつ
いて実行しなくてはならない。標準パターン長がJ =
30で、1000胎を認識しようとすると、3 X 1
0’  点で(4)式を計算することになる。1点めた
シ10μsで実行したとしても300m8 ’に安する
。通常の音声認識でtよ入カバターンの%ffi&it
”サンプリングする同期は2Qms以下であるので、こ
のような人語いではとても実時間実行は不可能である。
本発明1tクロツクワイズ型のDPマツチングが有する
、計算量が多いという上記欠点を改良して、高速であり
ながら低ta格な音声認識装置のパターンマツチング方
式を提供することを目的としたものでおる。
〔問題点を解決する手段〕
、、、6n・°・6n として記憶′する手段と、入J
      Jn 力音声パターンの%慎JLi71i−一時保持する手段
と、との距離d”(itj)の最通累積値gn(i、j
)を動的計画法の漸化式によって算出する手段を有する
方式において、時刻(i−1)までの最適系積値gn(
1−1eJ)を容重@n及び時刻jに対応してQ n(
j)の形で記憶する手段と、時刻iまでのjIj!1通
累積値gn(i、j)に対応するgn(j)なる倉を記
憶する手段とを備え、時刻iK&いてg n(j)に距
離d”(j)=dn(i、j)全加算して新たな数値g
を得る第1の処理と、この数値が所定の枝刈り条件を満
足する(Jl、j)のセットに対してのみ、このjの近
傍のjに対応するgn(j)との大小比4!2を行ない
、g < gn(j)のときgを新たなgn(j)とし
て転写する第2の処理と、時1iJs iが1クロック
進行するごとにgn(j) ’r−新たなg n(j)
として@6己第1゜第2の処理を進行する方式である。
〔作用〕
本発明の第1の%徴はg n(j)がある基準より小な
n、jのみを対象として(4)式(吟価的に(2)式)
の動的計画法漸化式全実行するという枝刈りの考え方を
導入した点である。L)Pマツチングでの鯛的計画法漸
化式(2)あるいは(4)は最小値t!R索する形式の
ものであるので、gn(j)が大であるということは、
そのコが最迩経路上に存在する可能性が低いことを意味
する。そこで、このようなgn(j)は無視しようとい
う考え万を導入したのである。これにより、(4)式の
計算は第1図にハツチを付して示したg n(j)の近
辺で行なえばよいことになシ大幅な計算量低減が見込ま
れる。しかし、(4)式の漸化式をそのままの形で実行
するのは、せっかくの枝刈シの効果が薄い。なぜならば
(2)式の計算が省略できるのは、右辺のgn(j)、
gn(j−1)、gn(j−2)が総て大さかった場合
である。このため、3個の値それぞれの大きさを判定し
なくてはならず、かつ3個とも大きいという条件の論理
積が満足される確率は小さくなる。
そこで、本発明では(4)式の計at以下に述べるよう
に、前向きの東件吋代人処理として実行することを第2
の%徴とする。第2図はその処理を説明するための図で
ある。ここではgn(j)はと定義され%d(ilj)
が加鼻されていない、1時刻前Ct−X >までの累積
最適距離に対応している。以下の処理に先二つてgn(
j)には充分大な数・値ψが初期セットされているとす
る。特定のn+ Jに対する処理は次のようである。
・・・・・ (力 この手続きが(j−2)からjまで繰シ返されるとg 
n(j)に対して次の処理が行なわれたことになる。
・・・・・ (8) △ gn(j−2)+dn(j−2)−gn(i、j−2)
企”(j−x)十dn(j−1)=gn(i 、 j−
x>△ gn(j)十”(j)−gn(i*J)であることを考
慮して(8)式を総合するとと、(6)式のiが1クロ
ック進んだものか計算されたことになる。このことをま
とめると、(方式の条件付代入処理によって なる漸化式計算が達成できたことになるが、この企n(
j)は(6)式の定義よシ、gn(i、j)と△ gn (i 、 j )−dn(j)十gn(j)なる
関係でiはれているので、gn(j) *求める(方式
の処理はgn(i、j)k求める(2)式の計算と等価
なことになる。
このように、動的計画法の計算を前向きに実行すると枝
刈りに関して次のよりな^能率化が達成される。枝刈シ
の判定は(方式(2)のgのみのテストで実行されるの
で効率がよい。これによって枝刈りと判定された場合に
は、(3−1) 、 (3−2)。
(3−3)という漸化式計算に必要な処理が総べて省略
できる。
以上の第1と第2の特徴によって本発明によるパターン
マツチング方式は極めて効率良いものとなる。
本発明#i(方式の手続きを各時刻iで各単語n中のj
=1.2.・・・、Jnまでぞれぞれ実行し、時刻iの
サイクルを進めるという方式である。なお、(7)式(
2)の枝刈シの条件には徨々の変形が考えられる。最も
簡単な例はiの増加とともに最適累積距離g n(j)
が増加することt考慮し、θ(りをiの1次関叙(単調
増加)として(方式(1) t−適用する方法である。
別には全gn(j)の最小値gmint−建め、これに
αなる余裕を持たせ、θ(す=gmin+αとして(7
)式(2)ヲ適用すること+、考えられる。さらに別の
例としては閾値を用いるのではなく、全企当j)の中で
小さいものから何位以下という条件で枝刈りを行なって
もよい。
(実施例) 第3図は本発明を実施した単語音声認識装置のブロック
図である。マイクロホン10より入力された音声信号は
分析部20によっ1周波数分析されたのち標本化、ディ
ジタル化され%徴ベクトルi1  としてマイクロプロ
セッサ30に送られる。
このマイクロプロセッサにはメモリとして標準パターン
記憶部40と、Gメモリ50が接続されている。標準パ
ターン記憶部40には各単語nの標準パターンBnが特
徴ベクトル11nの時系列として記憶されている。Gメ
モリ50は第1図、第2図に示したgn(j)  gn
(j)のためのワークメモリでめる。これらの標準パタ
ーン記憶部40、Gメモリ50はマイクロプロセッサの
主記憶内にあって区別されるメモリエリアとして定義さ
れてもよい。
認識処理はマイクロプロセッサ30のプログラムによっ
て実行される。入カバターンの先頭のベクトル11 が
入力されると次のような初期設定が各nに対して行なわ
れる。
これtitl)式の初期条件に対応したものである。
以下、入カバターンの特徴ベクトルal が入力される
ごとに第4図のフローチャートに示すごとき処理がマイ
クロプロセッサ30によって実行される。図中の101
のブロックは(7)式の(1)の枝刈り判定に対応する
。同様にして102の2個のブロックは(2)の処理に
、103は(3−1)、(3−2)、(3−3)の処理
にそれぞれ対応する。
104のブロックはgn(j)の甑をすべてgn(j)
  として切り換えることを意味する。この処理はg 
’tj)を記憶するエリアとgJl(jノヲ記憶するエ
リアとの番地切り換えで央机される。105のブロック
はgn(j)のエリアを充分大な数値■でリセットする
ことを意味する。
以上の処理が終了すると、入カバターンの時刻が1クロ
ツク増加され、次の特徴ベクトルa1の入力を待って同
様の処理が行なわれる。音声パターンが終了して最後の
特徴ベクトルa!が入力されたとき、マイクロプロセッ
サ30の内部では次のような処理が行なわれる。この時
点でGメモリ50に記憶されている。gn(Jn)は(
6)式よシであることから D(A、Bn)=g(1、J )=gn(Jn)十a(
I 、J) ・・・(13)として、各車knごとにパ
ターン間距離L)(A、Bn)會得る。これら七ノ幀次
比較することによって、厳小埴を求め、これに対応する
n=nを認R結果とし出力する。
以上本発明の原Jl!!t−実施力に基づいて説明した
がこれらの記載は本発明の範囲に限定するものではない
。特に以上の記載ではパターン間の類似性を距離によっ
て評価するとしたが、これと大小関係か逆な菫によって
もよい。その場合は(7)式等の大小関係の判定を逆に
行なうことになる。また、本実施例では特徴為i、bj
をベクトルであるとしたが、ベクトル量子化を行なった
場合のコードブック中(1”)ヘク)ルを指定する番号
のようなスカラ量であってもよい。また、説明を簡単に
するため単語認識装置に適用した例を述べたが、クロッ
クワイズL)P式の連続音声認識装置にも本パターンマ
ツチング方式は利用できることは自明である。
(発明の効微) 以上述べた枝刈りの効果及び、漸化式計算を前向きの条
件付代入処理によって実行するという本発明の原理によ
って、DPマツチングの処理室を犬1陽に低減し、小屋
かつ低価格な音声g識装置の実現が可能となった。
【図面の簡単な説明】
第1図、第2図は本発明の原理説明図、第3図は本発明
の一災施例を示すブロック図、第4図は要部の処理を示
すフローチャート、第5図(a) 、 (b)は従来技
術説明図である。 10・・・・・・マイクロホン、20・・・・・・分析
部、30・・・・・マイクロプロセッサ、40・・・・
・標準パターン第2 口 宅   τ十1 区 α) 腺

Claims (1)

    【特許請求の範囲】
  1. 各単語nの標準パターンを特徴の時系列B^n=b^n
    _1…b^n_j…b^n_jnとして記憶する手段と
    、入力音声パターンの特徴a_iを一時保持する手段と
    、それぞれの単語nに対応して前記特徴a_iとb_i
    ^nとの距離d^n(i、j)の最適累積値g^n(i
    、j)を動的計画法の漸化式によって算出する手段とを
    有する音声認識のパターンマッチング方式において、時
    刻(i−1)までの最適累積値g^n(i−1、j)を
    各単語n及各時刻jに対応して■^n(j)の形で記憶
    する手段と、時刻iまでの最適累積値g^n(i、j)
    に対応するg^n(j)なる量を記憶する手段とを備え
    、時刻iにおいて■^n(j)に距離d^n(j)=d
    (i、j)を加算して新たな数値gを得る第1の処理を
    行ないこの値が所定の枝刈り条件を満足する(n、j)
    のセットに対してのみこのjの近傍のjに対応するg^
    n(j)との大小比較を行ない、g<g^n(j)のと
    きgを新たはg^n(j)として転写する第2の処理を
    行ない、時刻iが1クロック進行するごとにg^n(j
    )として前記第1、第2の処理を進行することを特徴と
    する音声認識のパターンマッチング方式。
JP62061733A 1987-03-16 1987-03-16 音声認識のパタ−ンマッチング方式 Granted JPS63226694A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62061733A JPS63226694A (ja) 1987-03-16 1987-03-16 音声認識のパタ−ンマッチング方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62061733A JPS63226694A (ja) 1987-03-16 1987-03-16 音声認識のパタ−ンマッチング方式

Publications (2)

Publication Number Publication Date
JPS63226694A true JPS63226694A (ja) 1988-09-21
JPH0465394B2 JPH0465394B2 (ja) 1992-10-19

Family

ID=13179696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62061733A Granted JPS63226694A (ja) 1987-03-16 1987-03-16 音声認識のパタ−ンマッチング方式

Country Status (1)

Country Link
JP (1) JPS63226694A (ja)

Also Published As

Publication number Publication date
JPH0465394B2 (ja) 1992-10-19

Similar Documents

Publication Publication Date Title
CN113327575B (zh) 一种语音合成方法、装置、计算机设备和存储介质
US8738379B2 (en) Multitask learning for spoken language understanding
US5651096A (en) Merging of language models from two or more application programs for a speech recognition system
JPS5991500A (ja) 音声分析器
CN113674733B (zh) 用于说话时间估计的方法和设备
US5073939A (en) Dynamic time warping (DTW) apparatus for use in speech recognition systems
US20060074662A1 (en) Three-stage word recognition
Wu et al. Encoding linear models as weighted finite-state transducers.
US8781825B2 (en) Reducing false positives in speech recognition systems
US4488243A (en) Dynamic time warping arrangement
CN114566156A (zh) 一种关键词的语音识别方法及装置
JPS60211498A (ja) 連続音声認識装置
US5121465A (en) Pattern matching system
CN112259084A (zh) 语音识别方法、装置和存储介质
CN111210830B (zh) 基于拼音的语音唤醒方法、装置和计算机设备
JPS63226694A (ja) 音声認識のパタ−ンマッチング方式
JP2871420B2 (ja) 音声対話システム
JP6716513B2 (ja) 音声区間検出装置、その方法、及びプログラム
CN116913267A (zh) 语音识别方法、装置、设备及存储介质
US20240144934A1 (en) Voice Data Generation Method, Voice Data Generation Apparatus And Computer-Readable Recording Medium
WO2022226782A1 (en) Keyword spotting method based on neural network
JPS63226693A (ja) 音声認識のパタ−ンマツチング方式
CN119559931B (zh) 语音合成方法、装置、计算机设备及存储介质
JP3226716B2 (ja) 音声認識装置
JPH04307664A (ja) 音声理解方式