JPH0556517B2

JPH0556517B2 -

Info

Publication number: JPH0556517B2
Application number: JP61064512A
Authority: JP
Inventors: Ryuichi Oka
Original assignee: Agency of Industrial Science and Technology
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 1986-03-22
Filing date: 1986-03-22
Publication date: 1993-08-19
Also published as: GB8706368D0; JPS62220998A; GB2188181A; US4975962A; GB2188181B

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、人が発声した音声を自動的に認識
し、その認識結果を例えば活字によつて表わす等
の用途に供される音声認識装置、殊にその認識単
位が単語より小さな音素等である音声認識装置に
関する。

［従来の技術］従来のこの種の装置における音声認識の方式と
しては、単語を認識単位として標準パターンを作
成し、それをダイナミツクプログラミング（動的
計画法、以下、DPと略称する）等を用いて、入
力パターンと整合をとることにより音声認識をす
る方法が広く用いられてきた。

［発明が解決しようとする問題点］この従来型のパターン整合方式では、標準パタ
ーンとして採用する単位が単語程度の大きなもの
であり、かつ単語の種類が百程度以下の少数であ
る場合には、高い識別率を与えてきた。しかし、
音素や音素片などのように認識単位が単語より小
さなもの（この場合、単語より短い区間で標準パ
ターンが作成される）に対しては、このパターン
整合方式は有効性を十分発揮しなかつた。この原
因は、標準パターンのパターンの長さが短いの
で、その前後の音素環境によつて種々の変形を受
ける音素の標準パターンの作成が困難であり、か
つ入力パターンとの整合も正しく行わないためで
あつた。

しかし、認識すべき単語の種類が実際には千種
類以上の多数であり、かつ連続音声でもある音声
認識系の構成のためには単語より小さな音素や音
素片を認識単位として用いなければならないこと
は明白である。

本発明は、以上の問題点に鑑み、パターン整合
方式の枠組の中で、単語より小さな音素または音
素片を認識単位とすることを可能にする音声認識
装置を提供することを目的とする。

［問題点を解決するための手段］本目的を達成するため、本発明は音声入力を電
気信号に変換する音声入力部と、音声入力部の出
力波形を分析する分析部と、標準パターンをあら
かじめ記憶する標準パターン記憶部と、分析部で
分析された入力パターンと標準パターンとの距離
を計算し、計算結果に応じて入力音声の音素名や
単語名を含む語彙を識別する音声認識部と、音声
認識部の識別結果を外部に出力する出力部とから
成る音声認識装置において、標準パターン記憶部
が少なくとも、音素または音素片を表わす特徴パ
ラメータ系列の複数個のつながりによつて作成さ
れた標準パターンを記憶しており、音声認識部
が、標準パターンと入力パターンとの整合を連続
ダイナミツクプログラミングによる整合方式によ
つて実行し、各標準パターンについての整合値と
音素または音素片の記号列で表わされた整合履歴
を表わすパラメータとを各入力フレーム毎に有す
る連続DP値を出力する連続DP部と、整合履歴を
表わすパラメータと前記連続DP値を用いて、時
刻を同じくしている同一音素または音素片記号に
よるその時刻の同定回数を累積し、各時刻におけ
る各音素または音素片カテゴリーの累積値を最大
とするものから、その時刻の識別候補を定める部
分整合演算部とを具備したことを特徴とする。

［実施例］以下、図面を参照して本発明の実施例を詳細に
説明する。

第１図は本発明実施例の音声認識装置の概略構
成を示す。

本図において、マイクロフオン等の音声入力部
１によつて入力された音声波形Ａはアナログデジ
タル変換器、FFT（高速フエーリエ変換器）やバ
ンドパスフイルタ等から成る分析部２により分析
されて、スペクトル等の特徴パラメータ（以下、
入力パターンと称する）Ｂとなる。一方、パター
ンマツチングアルゴリズム連続DPを行う連続DP
部３で用いる標準パターンとして、単語より小さ
いが音素よりは大きい／vcv／や／cvc／（但し
ｃ：子音、ｖ：母音）程度の識別単位の標準パタ
ーンＣが予め記憶部４に登録・記憶されており、
この標準パターンＣと入力パターンＢとを連続
DP部３によつてマツチングする。

連続DP部３によるマツチングの結果Ｄは部分
整合演算部５において集計・判定され、その判定
結果Ｅが外部のプリンタ等の出力部６へと出力さ
れる。

本実施例の音声認識系は上述のごとく連続DP
と深く関係しているので、まず連続DPについて
説明する。

連続DPの適用において入力音声の分析部２か
らの出力Ｂは、｛ｆ（ｔ，ｘ）：１≦ｔ＜∞，１≦ｘ≦Ｌ｝ …(1) なる式で表現される。ここで、ｔ＝１，２，…と
し、ｔの間隔は分析フレーム間隔（分析の行われ
る間隔）であり、例えば８〜10msecである。ま
た、ｘはスペクトル等のパラメータ次数である。
すなわち、Ｘは例えば分析部２がバンドパス・フ
イルタであるとすると、各バンドの番号を表わ
し、Ｌは既述の所から通常10乃至20である。この
時、上述のｆ（ｔ，ｘ）はｔ時刻のバンド番号ｘ
のパワー乃至大きさを示していることになる。

次に、記憶部４に登録・記憶され連続DPに用
いられる標準パターンを｛Ｚ（τ，ｘ）：１≦τ≦Ｔ，１≦ｘ≦Ｌ｝ …(2) とする。このとき、連続DPの式は、標準パター
ンＣと入力パターンＢのフレーム間距離をｄ（ｔ，τ）＝１／Ｌ_L 〓^X=1 (Q)ｆ（ｔ，ｘ）−Ｚ（τ，ｘ）(Q) …(3) と定めるとき、累積距離ｐ（ｔ，τ）を与える次
の式として表現される。

Ｐ（ｔ，１）＝３・ｄ（ｔ，１） …(a) Ｐ（ｔ，２）＝minＰ（ｔ−２，１）＋２・
ｄ（ｔ−１，２）＋ｄ（ｔ，２）Ｐ（ｔ−１，１）＋３・ｄ（ｔ，２）Ｐ（ｔ，１）＋３・ｄ（ｔ，２）…(b) …(c) …(d) Ｐ（ｔ，τ）＝min Ｐ（ｔ，τ）＝min （３≦τ≦Τ）Ｐ（ｔ−２，τ−１）＋２・ｄ（ｔ−１
，τ）＋ｄ（ｔ，τ）Ｐ（ｔ−１，τ−１）＋３・ｄ（ｔ，τ）Ｐ（ｔ−１，τ−１）＋３・ｄ（ｔ，τ）Ｐ（ｔ−１，τ−２）＋３・ｄ（ｔ，τ−１）＋３・ｄ
（ｔ，τ）…(e) …(f) …(g) ここで、Ｐ（ｔ，τ）の初期条件としては、Ｐ（−１，τ）＝Ｐ（０，τ）＝∞，（１≦τ≦Τ）で与えられる。連続DPの出力値Ｄ(t)は、Ｄ(t)＝Ｐ（ｔ，Τ）／３・Τ …(5) として定められ、このＤ(t)が最適整合値を意味し
ている。

連続音声の認識において、連続DPのみを用い
る場合には、通常上式(5)のＤ(t)の時間的な局所的
最低値を見出し、その時刻とその最低値を与える
認識単位名を出力としてきた。この際、従来では
標準パターンを作成した認識単位の大きさは単語
程度の大きさのものが用いられてきた。しかし、
先にも述べたように、大語彙・不特定話者・連続
音声認識系を構成するには認識の基本単位を単語
より小さくする必要があるが、単語より小さな単
位の標準パターンを用いる場合に、従来DPによ
る音声認識方法では高い識別率を与えない。この
理由も先に述べたごとく、識別の基本単位が小さ
くなると、それを表わす標準パターンの長さが短
くなり、前後にある音韻のパターンによつて大き
く変化するので、標準パターンが定まらなくな
り、かつマツチングも精度よく行われないためで
ある。そのため、従来では、音素のような小さな
単位の認識を行うのに、パターンマツチング的手
法を用いることの有効性が疑われてきた。

こうした状況において、本発明を成立させる前
提として、本発明者は以下のような特別の知見を
得ることに努力した。

即ち、大きな識別単位の標準パターンは小さな
識別単位の標準パターンより調音による音韻の変
動をよく表わすことができる。これは大きな識別
単位の標準パターンの利点をであるが、大きな識
別単位をとるほど識別の判定は単位的に荒くな
る。これは、大きな識別単位をパターンマツチン
グの単位にとる場合、部分的に正しく整合してい
ると思われる部分だけを取り出すということが行
われないためである。したがつて、まず連続DP
を用いて、その連続DPによる整合は比較的大き
な識別単位で行ない、その結果の集計と判定はよ
り小さな識別単位で行なうことができれば、大き
なマツチング単位をもつことの長所を生かし、そ
の弱点（小さな識別単位を出力としないこと）を
補う理想的なマツチング方式のものになるはずで
ある。

以上の知見に基づき、発明者は以下にのべる新
しい音声認識方式である「連続DPを用いた部分
整合方式」を発見した。本発明に係る「連続DP
を用いた部分整合方式」の概念説明図を第２図に
示す。

第２図においてのは連続DPのための標準パ
ターンの一例であり、本発明の方式では音素（ま
たは音素片）のカテゴリーを有するパターンが複
数個連結したもので構成される。第２図では標準
パターンとして３個の音素片Ａ，Ｂ，Ｃで構成さ
れるものが示してある。この例のように３つの音
素片から連続DPの標準パターン｛Ｚ（τ，ｘ）：１≦τ≦Τ，１≦ｘ≦Ｌ｝が構成されているときは、Ｚ（τ，ｘ）はＺ（τ，ｘ）＝z₁（τ，ｘ）１≦τ≦τ₁のとき z₂（τ−τ₁，ｘ） τ₁＋１≦τ≦τ₁＋τ₂のとき z₂（τ−τ₁，ｘ） τ₁＋１≦τ≦τ₁＋τ₂のとき z₃（τ−τ₁−τ₂，ｘ）τ₁＋τ₂＋１≦τ≦τ₁＋τ₂＋
τ₃のとき…(6) となる。ここで、｛z_i（τ，ｘ）：１≦τ≦τ_i，１≦ｘ≦Ｌ｝，ｉ＝
１，２，３ …(7) はそれぞれ音素片のパターンである。

ただし、式(6)の標準パターンは個別に作成され
た音素または音素片の標準パターンというものを
連結して作成するのではない。連続DPにかかる
標準パターンは、１）単語等の中で音素や音素片
の微視的カテゴリーのものが連続して巨視的カテ
ゴリーのパターンとなつているものを、巨視的単
位のサンプルとして切り出し、２）それについて
音素または音素片のカテゴリーでその区切り点
（τ₁，τ₂，τ₃等）を指定し、３）これらの巨視的
単位のサンプルを平均化操作する、ことで作成す
る。これにより、音素または音素片の標準パター
ンは式(6)の巨視的標準パターンの中に存在する形
で表現されることになる。

次に、連続DPによる上述の標準パターンを入
力パターンとのマツチング時において、入力パタ
ーンの各フレーム時刻がいかなる音素（または音
素片）に対応させられているかを示す整合履歴の
パラメータを考えるとする。この整合履歴パラメ
ータによつて大きな単位の連続DPのための標準
パターンであつても、その整合の様子をより小さ
な単位によつて調べることが可能となる。この整
合履歴を表わすパラメータは以下の式で定められ
る。

いま、σ（τ）を音素（または音素片）カテゴ
リーのラベル番号として、 σ（τ）＝ｋ，if｛Ｚ(τ,x)：１≦ｘ≦Ｌ｝∈S_K (8) と定める。ここで、｛Ｚ（τ，ｘ）：１≦ｘ≦Ｌ｝
は連続DPで用いる標準パターン（巨視的カテゴ
リー）の１フレーム部分とし、S_Kはｋ番目の音
素（または音素片）のパターン（微視的カテゴリ
ー）とする。次に、入力パターンについて、連続
DPによる標準パターンとの整合の履歴を考えよ
う。この整合の履歴は変数Ｅ（ｔ，τ，α）で表
すものとする。変数Ｅ（ｔ，τ，α）は連続DP値
Ｐ（ｔ，τ）に付属しているものである。それは、
連続DP値Ｐ（ｔ，τ）を定めている入力フレーム
区間の各フレームに、巨視的標準パターンを構成
している音素または音素片のラベル番号で番号づ
けを行つたのであるとする。言い換えると、Ｅ
（ｔ，τ，α），α＝１，２，…，Ｎ，は入力フレ
ーム区間の音素または音素片による同定履歴であ
る。ここでのパラメータＮについての説明は後述
する。変数Ｅ（ｔ，τ，α）は連続DPの式(a)〜(g)
に対応して以下の漸化式で定まる。

Ｅ（ｔ，１，１）ｋ…if｛Ｚ（１，ｘ）：１≦ｘ≦Ｌ
）〓S_K Ｅ（ｔ，１，α）＝０（２≦α≦Ｎ） (a) Ｅ（ｔ，２，１）＝Ｅ（ｔ，２，２）＝σ(2) Ｅ（ｔ，２，１）＝Ｅ（ｔ，２，２）＝σ(2) Ｅ（ｔ，２，α）＝Ｅ（ｔ−２，１，α−２）（３≦α
≦Ｎ）if(b) Ｅ（ｔ，２，１）＝σ(2) Ｅ（ｔ，２，１）＝σ(2) Ｅ（ｔ，２，α）＝Ｅ（ｔ−１，１，α−１）（２≦α
≦Ｎ）if(c) Ｅ（ｔ，２，α）＝Ｅ（ｔ，１，α）（１≦α≦Ｎ
）if(d) Ｅ（ｔ，τ，１）＝Ｅ（ｔ，τ，２）＝σ（τ）Ｅ（ｔ，τ，α）＝Ｅ（ｔ−２，τ−１，α−２）（３≦α≦Ｎ）（３≦τ≦Τ） if(e) Ｅ（ｔ，τ，１）＝σ（τ）Ｅ（ｔ，τ，α）＝Ｅ（ｔ−１，τ−１，α−１）（２≦α≦Ｎ）（３≦τ≦Τ） if(f) Ｅ（ｔ，τ，１）＝σ（τ）Ｅ（ｔ，τ，α）＝Ｅ（ｔ−１，τ−２，α−１）（２≦α≦Ｎ）（３≦τ≦Τ）if(g) (9) ここで、Ｅ（ｔ，τ，α）の初期条件をＥ（−１，τ，α）＝Ｅ（０，τ，α）＝０，（１≦τ≦Τ），（１≦α≦Ｎ） (10) とする。また、αは時刻ｔを基準にして、それよ
りα時間前の入力フレーム時刻を示し、α＝１が
ｔに対応し、α＝ｍがｔ−ｍ＋１に対応するもの
とする。このとき、式(9)のＥ（ｔ，τ，α）の時
刻ｔ、パラータτにおいて、その時刻より過去の
入力との整合履歴を表すことは明らかである。い
ま、例として、式(4)の(f)に対応する式(9)の部分
（if(f)で表される式）を考えてみよう。式(4)で(f)
の場合、最適マツチングパスは（ｔ−１，τ−
１）から（ｔ，τ）へと移るものである。このと
き（ｔ，τ）のτに対応する音素（または音素
片）カテゴリーはσ（τ）であるので、α＝１の
整合履歴はＥ（ｔ，τ，１）＝σ（τ）として定ま
る。それより過去の履歴Ｅ（ｔ，τ，α）（２≦α
≦Ｎ）は（ｔ−１，τ−１）における履歴Ｅ（ｔ
−１，τ−１，α−１）（２≦α≦Ｎ）を引き継
ぐとすればよい。これらのことが、式(9)の(f)で示
されている。また、Ｎはこのαの上限を意味し、
その値は巨視的標準パターン長の最大のものの
高々２倍でよい。なぜなら、連続DPの定義より、
標準パターンの２倍以上の長さの過去の入力フレ
ームとはマツチングの対象とはならないためであ
る。

式(9)で定まる｛Ｅ（ｔ，Τ，α），１≦α≦Ｎ｝
が第２図ので示される音素ラベルの系列であ
る。第２図のでは、時刻ｔの進行によつて形成
される音素ラベルの様子が示されている。

なお、変数Ｅ（ｔ，τ，α）は上記のように連
続DPの変数Ｐ（ｔ，τ）に付随するもので、連続
DP値Ｐ（ｔ，τ）を形成するに用いられた入力フ
レーム区間の音素または音素片記号列が｛Ｅ（ｔ，
τ，α），１αＮ｝によつて表される。従つ
て、αはこの記号列中の番号を示すパラメータで
ある。

さて、連続DPのための標パターンの総数がＭ
であるとすると、連続DP部３の連続DPの出力は｛D_i(t)：ｉ＝１，２，…，Ｍ｝ …(11) となり、また整合履歴のパラメータも｛E_i（ｔ，τ，α）：１≦τ≦T_i，１≦α≦Ｎ，
ｉ＝１，２，…，Ｍ｝ …(12) となる。そのとき、第２図ので示され各音素
（または音素片）カテゴリーが示す尤度（認識す
るためのもつともらしさ）をＧ（ｔ，α，ｋ）と
すると（ｋは音素（または音素片）のカテゴリー
番号、このＧ（ｔ，α，ｋ）は、Ｇ（ｔ，１，ｋ）＝_M 〓ⁱ⁼¹ Ii(t)・δ（ｋ−Ei（ｔ，Ti，１）） …(13) Ｇ（ｔ，２，ｋ）＝Ｇ（ｔ−１，１，ｋ）＋_M 〓ⁱ⁼¹ Ii(t)・δ（ｋ−Ei（ｔ，Ti，２）） … Ｇ（ｔ，α，ｋ）＝Ｇ（ｔ−１，α−１，ｋ）＋_M 〓ⁱ⁼¹ Ii(t)・δ（ｋ−Ei（ｔ，Ti，α）） … Ｇ（ｔ，Ｎ，ｋ）＝Ｇ（ｔ−１，Ｎ−１，ｋ）＋_M 〓ⁱ⁼¹ Ii(t)・δ（ｋ−Ei（ｔ，Ti，Ｎ））として定める。ここで、 Ii(t)＝１：Di(t)≦ｈのとき０：その他のとき …(14) であり、 δ(x)＝１：ｘ＝００：ｘ≠０である。

上式(13)は各フレームでの整合履歴の結果を音
素片カテゴリー別に累積してゆくことを意味して
いる。尤度Ｇ（ｔ，α，ｋ）はそのカテゴリーご
との累積の個数で定義されている。時刻ｔにおけ
る尤度は、ｔ＋Ｎ−１時刻までの履歴の生成を待
ち、ｔからｔ＋Ｎ−１までの履歴パラメータで定
められる。このとき、Ｎは遅延の程度を表わす
が、これは連続DPの最大の標準パターン長に依
存するので通常80程度となる。従つて、Ｇ（ｔ，
Ｎ，ｋ）は時刻ｔ−Ｎ＋１における音素ラベル番
号ｋの尤度の値を示す。Ｇ（ｔ，Ｎ，ｋ）が時刻
と共にどのように変化するかは、例えば、第２図
ので示されている。音素ラベルＡが番号ｋに対
応するとき、第２図のでの“Ａ”の部分がそれ
を表すことになる。

以上により、部分整合演算部５において入力音
声の時刻ｔ−Ｎ＋１におけるフレーム特徴を音素
（または音素片）カテゴリーで認識するとしたと
きは、第１位の候補は、 k₁ ^*（ｔ−Ｎ＋１）＝Arg｛^max _kＧ（ｔ，Ｎ，ｋ）｝
…(15) で与えられ、第２位の候補は、 k₂ ^*（ｔ−Ｎ＋１）＝Arg｛^max _k≠k1*Ｇ（ｔ，Ｎ，ｋ）
｝
…(16) で与えられ、第ｊ番目の候補は、 kj^*（ｔ−Ｎ＋１）＝Arg｛^max _k≠k1* ^G _k2*,…_k*j-1
Ｇ
（ｔ，Ｎ，ｋ）｝ …(17) で与えられる。

通常は、部分整合演算部５からk₁ ^*（ｔ−Ｎ＋
１）を認識の結果とした第１図の出力部６へ出力
することになる。

［発明の効果］以上説明したように、本発明によれば、連続DPにかける標準パターンを比較的大き
な識別単位にとることによつて、音素または音
素片の変動を十分表わすことにし、そのもとで連続DPパターンマツチングを行
ない、そのパターンマツチングの結果の集計・判定
に当つては、大きな識別単位のマツチングにお
いて、正しく整合していると考えられる部分だ
けをとり出し、その結果として小さな識別単位（音素や音素
片のカテゴリー）を出力とすることを可能なら
しめることができる。

従つて、本発明によれば、従来のパターンマツ
チング方式で極めて困難とされていた単語より小
さな単位を基本的認識単位とすることが可能とな
り、大語彙の連続音声認識システムの設計に大き
な道を開くことができる。

【図面の簡単な説明】

第１図は本発明実施例の音声認識装置の構成を
示すブロツク図、第２図は本発明に係る連続DP
を用いた部分整合方式の概念説明図である。１……音声入力部、２……分析部、３……連結
DP部、４……標準パターン記憶部、５……部分
整合演算部、６……出力部。

Claims

【特許請求の範囲】１ａ音声入力を電気信号に変換する音声入力
部と、該音声入力部の出力波形を分析する分析
部と、標準パターンをあらかじめ記憶する標準
パターン記憶部と、前記分析部で分析された入
力パターンと前記標準パターンとの距離を計算
し、該計算結果に応じて前記入力音声の音素名
や単語名を含む語彙を識別する音声認識部と、
該音声認識部の識別結果を外部に出力する出力
部とから成る音声認識装置において、ｂ前記標準パターン記憶部が少なくとも、音素
または音素片を表わす特徴パラメータ系列が複
数個のつながりによつて作成された標準パター
ンを記憶しており、ｃ前記音声認識部が、ｃ−１前記標準パターンと前記入力パターンと
の整合を連続ダイナミツクプログラミングによ
る整合方式によつて実行し、各前記標準パターンについての整合値と音素
または音素片の記号列で表わされた整合履歴を
表わすパラメータとを各入力フレーム毎に有す
る連続DP値を出力する連続DP部と、ｃ−２前記整合履歴を表わすパラメータと前記
連続DP値を用いて、時刻を同じくしている同
一音素または音素片記号を累積し、各前記時刻における各音素または音素片カテ
ゴリーの累積値を最大とするものから、その時
刻の識別候補を定める部分整合演算部とを具備
したことを特徴とする音声認識装置。