JPS6336675B2

JPS6336675B2 -

Info

Publication number: JPS6336675B2
Application number: JP56183635A
Authority: JP
Inventors: Tadao Nojiri; Hiroshige Asada; Nobuyuki Teraura
Original assignee: NipponDenso Co Ltd
Current assignee: Denso Corp
Priority date: 1981-11-18
Filing date: 1981-11-18
Publication date: 1988-07-21
Also published as: DE3274032D1; EP0079578B1; EP0079578A1; US4530110A; JPS5885499A; DE3237613A1

Description

【発明の詳細な説明】〔発明の技術分野〕この発明は、例えば数字等の単語を複数個連続
して発声した場合に、この発声音声を自動的に認
識し、その認識内容に応じた指令を発生させるよ
うにする連続音声認識装置に関する。

〔発明の背景〕

音声認識装置は、マンマシーンコミユニケーシ
ヨンの有力な手段として考えられているが、現在
までに実用化されている多くの装置は、区切つて
発生された弧立単語の認識しかできないものが主
体であり、データの入力速度が遅いという欠点が
あつた。これに代わるものとして、例えば特開昭
51−104204号公報に示される、いわゆる２段動的
計画法（以下２段DP法と略称する）を使用した
連続音声認識装置が考えられている。この２段
DP法の原理は、何個かの標準パターンをあらゆ
る順列で接続することによつて得られるパターン
を連続音声の標準パターンと考えて、入力パター
ン全体とのマツチングを行うもので、全体として
の類似度が最大となるように標準パターンの個数
と、配列を定めることによつて認識を行うもので
ある。実際には、上記最大化を単語単位での最大
化と、全体との最大化の２段階に分割し、それぞ
れの最大化を動的計画法を利用して実行してい
る。

この２段DP法についてさらに詳細に説明する
と以下のようになる。

いま、特徴ベクトルa_iを a_i＝（a_1i、a_2i、…、a_Qi） ……(1) とすると、音声パターンはa_iの時系列としてＡ＝（a₁、a₂、…、a_i、…、a_I） ……(2) として示される。ここでＩは音声パターンＡの時
間長に対応し、Ｑは特徴ベクトルの成分数であ
る。そして、このようなパターンＡが入力パター
ンとされる。

次に認識されるべき単語の集合として、Ｎ個の
標準パターン「Bⁿ（ｎ＝１、２、…、Ｎ）」を設
定すると、各標準パターンBⁿは、J_o個の特徴ベ
クトルより成り次式のように表現される。

Bⁿ＝（bⁿ ₁、bⁿ ₂、…、bⁿ _j、…、bⁿ _Jo） ……(3) ここでbⁿ _jはa_iと同様のベクトル bⁿ _j＝（bⁿ _1j、bⁿ _2j、…、bⁿ _Qj） ……(4) である。

入力パターンＡの時間点ｉ＝ｌを始点とし、ｉ
＝ｍを終端とする部分パターンは下式で表現され
る。

A_(l、_n)＝（a_l、a_l+1、…、a_i、…、a_n） ……(5) ただし、１≦ｌ＜ｍ≦Ｉそして、この２段DP法は上記部分パターン
A_(l、_n)と、標準パターンB_oとの間で、入力パタ
ーンの時間軸ｉと標準パターンの時間軸ｊを対応
させる関数ｊ（ｉ）を最適に定めて、このｉとｊ
（ｉ）の間で定義されるベクトル間類似度ｓ（a_i、
bⁿ _j）（以下の説明ではs_o（ｉ、ｊ）と略する）の和
の最大値Ｓ（A_(l、_n)、Bⁿ）を求める操作を動的計
画法によつて行う部分でマツチングを、始点ｌお
よび終端ｍを順次変化させて算出されるＳ
（A_(l、_n)、Bⁿ）のｎに関する最大値である部分類
似度Ｓ＜ｌ、ｍ＞および、その最大値を与えるｎ
である部分判定結果、ｎ＜ｌ、ｍ＞を決定する第
１段部と、入力パターンＡに含まれる単語の個数
Ｙおよび（Ｙ−１）個の区切り点l₍₁₎、l₍₂₎、…、
l_(Y-1)を最適に定めて連続し、かつ重複しない区
間の部分類似度の和Ｓ＜１、Ｉ＞＝Ｓ＜１、l₍₁₎＞＋Ｓ＜l₍₁₎ ＋１、l₍₂₎＞＋…Ｓ＜1_(Y-1)＋１、Ｉ＞ ……(6) を最大にする単語個数Y^および区切り点l^₍₁₎、l^₍₂₎、
…、l^_(Y-1)を求める動作を行う全体マツチングに
より決定された区切り点l^₍₁₎、l^₍₂₎、…、l^_(Y-1)と
部
分判定結果ｎ＜ｌ、ｍ＞からｎ＜１、l^＞、ｎ＜
l^₍₁₎＋１、l^₍₂₎＞、…、ｎ＜l^_(Y-1)＋１、Ｉ＞を決
定
する第２段部よりなる。

前記、類似度の定義としては、(2)式の入力パタ
ーンＡと、(3)式の標準パターンＢとの間の時間軸
のずれを補正するために、Ｂの時間軸ｊに対して
Ａの時間軸ｉを対応させる関数ｊ＝ｊ（ｉ） ……(7) を定義する。ベクトル間類似度ｓ（ｉ、ｊ）は一
例として、ｓ（ｉ、ｊ）＝_Q 〓^p=1 （a_pi・b_pj）／（a² _pi＋b² _pj） ……(8) によるものとすると、ＡおよびＢの類似度とし
て、Ｓ（Ａ、Ｂ）＝^MAX _j(i)〔_I 〓ⁱ⁼¹ ｓ（ｉ、j_(i)）〕 ……(9) と定義される。(9)式の最大化をｊ＝ｊ（ｉ）に関
する総当り法で処理したのでは計算量の点で不可
能で、次のような動的計画の手法で行う。すなわ
ち、初期条件ｇ（１、１）＝ｓ（１、１）ｇ（ｉ、１）＝０（ｉ≠１） ……(10) のもとに漸次式を「ｉ＝２〜Ｉ」、「ｊ＝１〜Ｊ」の範囲で計算
し、ｇ（Ｉ、Ｊ）を求めると、これは(9)式のＳ
（Ａ、Ｂ）となる。

Ｓ（Ａ、Ｂ）＝ｇ（Ｉ、Ｊ） ……(12) 実際の時間軸のずれは、通常50％もずれること
がないため、第１図の「ｉ＝ｊ」なる直線１５の
近傍に直線１１，１２で示す間の斜線領域内で考
えれば充分である。それ故ｊ−ｒ≦ｉ≦ｊ＋ｒ ……（13）の範囲で漸化式(11)の計算を実行することで充分で
あるとして、この領域を整合窓と称している。

また、１個の始点ｌに対して第１図の１４で示
す範囲の終端ｍに関する部分類似度が一度に求め
るとしている。第１図の斜線部分の大きさは
「（２＊ｒ＋１）＊J_o」であり、これが１個の始点
に対する計算量である。

〔存在する問題点〕

今、入力パターンの時間長Ｉ、標準パターンの
数Ｎ、標準パターンの平均時間長Ｊ、および時間
軸ｉ、ｊの整合範囲の条件として（13）式を用い
るとき、前記手段による部分類似度「Ｓ＜ｌ、ｍ
＞」を求めるだけでも、ベクトル間類似度ｓ（ｉ、
ｊ）および動的計画法における漸化式の計算回数
C₁は、近似的に次式のようになる。

C₁＝（２＊ｒ＋１）＊Ｊ＊Ｉ＊Ｎ ……（14）また、第２段目の全体マツチングを実行するた
めに、前記部分類似度「Ｓ＜ｌ、ｍ＞」および部
分判定結果「ｎ＜ｌ、ｍ＞」を記憶しておかなけ
ればいけないが、その記憶容量M₁は近似的に次
式のようになる。

M₁＝（２＊ｒ＋１）＊Ｉ＊２ ……（15）ここでＩ＝120、Ｎ＝50、Ｊ＝35、ｒ＝12 ……（16）とすると、計算回数 C₁＝5250000 記憶容量 M₁＝6000 ……（17）となり、発声終了後例えば0.5秒以内で認識結果
を応答する実時間音声認識装置を実現するために
は、前記時間長Ｉ、Ｊの単位を15ｍ秒とすると、
発声開始から応答までの時間すべてが計算に使用
できるとして、「0.5＋120×0.015＝2.3秒」間で上
記演算回数「5250000」を実行する必要があり、
１回当り約0.4μ秒という高速演算を必要とする。
ベクトル間類似度および漸化式計算を0.4μ秒で実
行するためには、非常に高速の処理装置を必要と
するが、並列に処理するとしても大規模なものと
なり、どちらにしても高価な装置となつてしま
う。

〔発明の目的〕

本発明は上記問題点に鑑みたもので、第１のス
テツプによる１段のD_p法により全体としての最
大類似度を得るようにして、記憶容量を従来のも
のよりも少なくした連続音声認識方法およびその
方法を適切に実施することができる装置を提供す
ることを第１の目的とし、第２のステツプの実行
により上記第１のステツプの結果を用いて入力音
声に対する認識単語を得ることができる連続音声
認識方法およびその方法を適切に実施することが
できる装置を提供することを第２の目的としてい
る。

〔発明の原理〕

今、Ｙ個の標準パターンBⁿ¹、Nⁿ²、…、
B^nx-1、B^nx、…、B^nyを接続した標準パターンを
B^とすると、 B^＝Bⁿ¹B_o2…B^nx-1B^nx…B^nY……（1
8）となる。ここで記号は各標準パターンの特徴ベ
クトルを時系列に並べることを示す。すなわち、 B^＝（bⁿ¹ ₁、bⁿ¹ ₂、…、bⁿ¹ _Jo1、bⁿ² ₁、bⁿ² ₂、…、bⁿ² _J
o2、…、b^nx-1 ₁、b^nx-1 ₂、…、b^nx-1 _Jox-1、b^nx ₁、b^nx ₂、…、 b^nx _Jox、…、b^ny ₁、b^nY ₂、…、b^nY _JoY） ……（19）となる。

この発明の原理は前記２段DP法と同じく、上
記（18）式のような、接続された標準パターンB^
と(2)式のような入力パターンＡとのマツチングを
行い、最適にマツチングが取れる「n₁、n₂、…、
n_x-1、n_x、…、n_Y」を決定することにより、入力
パターンＡは単語「n₁、n₂、…、n_X-1、n_X、…、
n_Y」から成つていると判定することにある。この
場合単語の個数Ｙも最適に決定する。

すなわち、入力パターンＡを最適に近似する標
準パターンの個数と、その単語種類を決定するこ
とによつて連続単語の認識を行うものである。

〔発明の概要〕

以下にその概要を、前記２段DP法と比較して
説明する。

前記２段DP法においては、始点、終端のすべ
ての組み合せによる部分類似度の計算および部分
判定結果を決定するという第１マツチングと、部
分判定結果の順列組み合せを動的計画法を利用す
ることにより全体としての最大の類似度を与える
区切り点を決定する第２段マツチングよりなる。
しかし、この発明では２段階で全体の類似度を最
大にするのではなく、第１段のマツチングで全体
としての最大の類似度を得るようにする。これ
は、入力パターンＡの時間点「ｉ＝Ｐ」（１Ｐ
Ｉ）を単語の区切り点と仮定し、入力パターン
の部分パターン「Ａ（１、Ｐ）」との標準単語を最
適に順列組合せしたものとの間で、最大の類似度
「D_p＝Ｓ＜１、Ｐ＞」が与えられているものと仮
定すると、時間点「ｉ＝ｑ」（１Ｐ＜ｑＩ）
を終端とする入力パターンの部分パターン「Ａ
（１、ｑ）」との最大の類似度D_qは D_q＝Ｓ＜１、ｑ＞＝ MAX ｎ，ｐ｛D_p＋Ｓ（A_(p+1、_q)、Bⁿ｝ ……（20）により与えられ、そのときｎをW_qとして記憶す
る。

W_q＝〔（20）式のD_qを与えるｎ〕 ……（21）「Ｓ（A_(p+1、_q)、Bⁿ）」は始点（Ｐ＋１）、終端
ｑとする部分パターン「A_(p+1、_q)」と単語ｎの標
準パターンBⁿとの類似度で、前記２段DP法によ
る部分類似度の計算と同じものであるが、それだ
けが独立して求められるものでなく、（20）式の
右辺の｛｝内の形で求められることに特徴があ
る。（20）（21）式を「D₀＝０」として「ｑ＝１」
から順次「ｑ＝Ｉ」まで求めると、「D_p（Ｐ＜
ｑ）」は先に決定しているからD_q、W_qはすべて
求まり、全体としての最大の類似度「Ｓ＜１、Ｉ
＞」はD_Iとして求まる。以上が第１ステツプで
あり、つぎに第２ステツプとして「Ｓ＜１、Ｉ
＞」を与える標準パターンの順列組合せ「Ｂ＝
Bⁿ¹Bⁿ²…B^nY」を構成する単語数Ｙおよび
単語「n₁、n₂、…、n_Y」を決定する手続である。
この手続で、最後の単語n_YはW_Iとして求まつて
いるが、第１ステツプの計算において、演算量な
らびに記憶量を大幅に減らすため、途中結果とし
ては、D_i、W_iしか記憶されていない。このため、
時間点「ｉ＝Ｉ」より逆方向にたどつて、各単語
「n_Y、n_Y-1、…、n₂、n₁」の強界を見つける。そ
の方法は入力パターンの時間点「ｉ＝Ｉ」を始点
ｕとしてW_uを認識単語として出力し、かつW_uに
ついてのみ逆方向にD_pマツチングを行つて、始
点ｕより終端ｖまでの逆方向部分パターン「₍
_ｕ、_ｖ）」（Ｉ≧ｕ＞ｖ≧１）と逆方向に並べた標準
パターン^wuとの類似度「Ｓ（_(u、_v)、^Wu）」
と、D_V-1との和を最大にするｖを求める。

v_nax＝ ARGMAX ｖ｛D_V-1＋Ｓ（_(u、_v)、^Wu）｝ ……（22）ここで ARGMAX ｖとは、上式の｛｝内の最大
値を与えるｖである。

このv_naxが単語W_uの始点（逆方向D_pマツチン
グでは終端）として決定される。つぎに、ｕ＝v_nax-1 ……（23）として、ｕを直前の単語の終端（逆方向D_pマツ
チングでは始点）とする。そこで、「ｕ＝０」ま
で以上を繰返せば、認識単語が逆順にすべて求ま
る。この求まつた認識単語列を逆順に並べかえれ
ば、入力された音声（単語列）が認識されたこと
になる。

以上がこの発明の概略であるが、第１ステツプ
の（20）式をすべてのｐ、ｑ、ｎについてそのま
ま実行することは計算量の点で不可能である。し
かし、（20）式は区切り点ｐについての最大化を
先に、実行すると、 D_q＝ MAX ｎ〔 MAX ｐ｛D_p＋Ｓ（A_(p+1、_q)、Bⁿ）｝〕 ……（24）と書き換えられる。（24）式の〔〕内は、始点
「（Ｐ＋１）」が自由で、始点における初期値をD_p
とし、終端をｑと固定した典型的な動的計画法
（始点自由、終端固定）の問題に置き換えること
ができる。

これを第２図で説明すると、時間点「ｉ＝Ｐ」
を終端とする区間の最大類似度D_pを初期値とし
て始点２８である（Ｐ＋１、１）から終端点２９
（ｑ、J_o）に至る経路２６の交点（ｉ、ｊ）のベ
クトルa_i、bⁿ _jの類似度s_o（ｉ、ｊ）の和を最大にす
る経路の積和値が、動点計画法によつて「｛D_p＋
Ｓ（A_(p+1、_q)、Bⁿ）｝」として与えられる。

前記２段DP法では、ベクトル間類似度ｓ（ｉ、
ｊ）を計算する（ｉ、ｊ）平面の範囲として、前
記(12)式で表わされる第１図の直線１１，１２で囲
まれる領域、いわゆる整合窓を設けて無駄な計算
と、急激な時間軸の整合を避けているが、この発
明では前述のような整合窓を設けるのではなく、
動的計画法における漸化式として、両側傾斜制限
を含んだものを使用する。傾斜制限を含んだもの
にはいろいろあるが一例として初期値ｇ（０、０）＝０ｇ（ｉ、０）＝−∞（ｉ≠０）ｇ（ｉ、−１）＝−∞ ｇ（０、ｊ）＝−∞（ｊ≠０）
……（30）（−∞とは、処理装置で実現できる負の最大値を示し、値の比較の対象となる場合必ず小さくな
ることを意図する。）のもとに次の漸化式を「ｉ＝１〜Ｉ」「ｊ＝１〜
Ｊ」の範囲で解く。

これは、第３図ｂの点３１（ｉ、ｊ）への経路
としては、点３２（ｉ−２、ｊ−１）から点３３
（ｉ−１、ｊ）経由による経路３７と、点３４
（ｉ−１、ｊ−１）からの経路３８と、点３５
（ｉ−１、ｊ−２）から点３６（ｉ、ｊ−１）経
由の経路３９の３通りがある、そのうちの最大の
ものを選択することを示す。

ここで、経路３７は入力パターンの時間軸ｉの
増加「２」に対して標準パターンの時間軸ｊの増
加は「１」で、点３２と点３１を結ぶ線分の傾き
は「１／２」である。同様に点３４と点３１を結ぶ線分の傾きは「１」、点３５と点３１を結ぶ線分
の傾きは「２」となる。

この漸次式（31）を用いると、第３図ａの始点
４５（１、１）から終端４６（Ｉ、ｊ）への最適
経路４０を求めるとき、前記のごとく（ｉ、ｊ）
平面の探索範囲は、線分の傾きが最小「１／２」の直線４２と、最大「２」の直線４１に挾まれる点
４５，４７，４８の三角形の領域となる。ここで
は、終端４６（Ｉ、Ｊ）が判明しているから、終
端４６にたどり着くためには、傾き「１／２」の直線４３と傾き「２」の直線４４にも制限され、結
局、直線４１，４２，４３，４４に囲まれる斜線
で示した平行四辺形の内側となる。このように漸
化式そのものに傾斜制限を持たせることにより、
整合窓なしで急激な時間軸の整合を避けることが
できる。

つぎに終端が固定で始点が自由な動的計画法に
ついて説明すると、第２図において終端２９
（ｑ、J_o）は固定であるから、終端２９にたどり
着くためには、前記の漸化式（31）を使用すると
傾き「１／２」の直線２４と、傾き「２」の直線２５に挾まれた斜線で示す領域のベクトル間類似度
「s_o（ｉ、ｊ）」を計算し、漸化式（31）にしたが
つて最適な経路を求めることになる。

始点としては、点２１（ｑ−２・J_o、１）から
点２２（ｑ−J_o／２、１）の間のすべての点２８（ｐ＋１、１）が候補となる。前記漸化式（31）
は、ｋ＝ｑ−２・J_o ……（32）とおくと、「ｉ＝ｋ」から出発して g_o（ｉ、０）＝D_i g_o（ｉ、−１）＝−∞ g_o（ｉ−１、０）＝−∞ ……（33）として式（31）を「ｊ＝１〜J_o」まで解くこと
を、ｉを１づつ増しながらｑまで実行すればよ
い。漸化式の最終結果g_o（ｇ、J_o）は、 g_o（ｑ、J_o）＝ MAX ｐ｛D_p＋Ｓ（A_(p+1、_q)、Bⁿ）｝ ……（34）を表している。

（31）〜（34）式を使つて、連続音声認識を
（20）式により実行するとき、各終端ｑ毎に（31）
式を第２図の斜線内で計算すると、全体としての
ベクトル間類似度および漸化式の計算回数C₂はJ_o
の平均値Ｊを用いて C₂＝３／４＊J²＊Ｉ＊Ｎ ……（35）となり、これは（14）式とほとんど変わらない
か、多いことになる。

ここで、第４図の終端を５０（ｑ、J_o）とした
場合、直線５２，５３で挾まれる領域の演算回数
が「３／４J² _o」回となつているが、終端を１個次の５１（ｑ＋１、J_o）とした場合でも、同様に直線
５４，５５で挾まれる領域となり、やはり「３／４ J² _o」回演算を必要とする。しかし、図から明らか
なごとく直線５４，５３で挾まれる斜線部は、終
端５０，５１とも全く同じベクトルの類似度を求
めている。つまり「（３／４J² _o）＊２」回の演算は実質は「（３／４J² _o＋J_o／２）」回でよいことになる。
このことはすべての終端について適用でき、結局重な
り合う部分を１回だけ演算すれば良いことにな
り、全体としての演算回数C₃は C₃＝（Ｊ＊Ｉ−J²／２）＊Ｎ ……（36）となる。これは、第５図ａの点６０（１、１）、
６１（J_o／２、J_o）、６２（Ｉ、J_o）、６３（Ｉ− J_o／２、１）を頂点とする平行四辺形の内側である。

これは、この図の点６０（１、１）から点６３
（Ｉ−J_o／２、１）までのすべての点P′（１≦P′≦Ｉ −J_o／２）が始点候補となり、点６１（J_o／２、J_o）から点６２（Ｉ、J_o）までのすべてのq′（J_o／２≦q′≦ Ｉ）を終端候補とする動的計画法となる。

各始点、終端の組み合せを各々独立に計算する
のではなく、並列に一度に計算することができる
ため、大幅に計算量を減らすことが可能となる。
また上記のように並列に演算を行つても、漸化式
が両側傾斜制限を含んでいるため、多数の始点、
終端候補の演算を同時に行つても急激な時間軸の
整合は起こらない。

上述した動的計画法の詳細を説明すると、まず
漸化式（31）は、先にすべての単語ｎについて各
標準パターンの時間軸ｊを１〜J_oまで変化させて
演算を進め、次に入力パターンの時間軸ｉについ
て演算を進めるものとする。

第５図ａにおいて、前記漸化式（31）の演算が
「ｉ＝ｐ」まで済んでいる、つまり点６０（１、
１）、６１（J_o／２、J_o）、６８（Ｐ、J_o）、６５（Ｐ、１）を頂点とする四角形の内側の漸化式の
演算は終了しており、また漸化式の途中結果のg_o
（ｉ、ｊ）、s_o（ｉ、ｊ）が記憶されており、また D_i＝ MAX ｎ｛g_o（ｉ、J_o）｝ ……（37）も「ｉ＝１〜Ｐ」まですべて求まつていることと
する。「ｉ＝Ｐ＋１」の演算を開始するとき、す
べての単語について初期値を（33）式よりD_pと
して g_o（Ｐ、０）＝D_p g_o（Ｐ−１、０）＝−∞ g_o（Ｐ、−１）＝−∞ ……（38）漸化式を「ｊ＝１〜J_o」まで演算すると「g_o（Ｐ＋１、
J_o）」が各単語毎に求まる。そこでｎについての
最大値をD_p+1とする。

D_p+1＝^MAX _o｛g_o（Ｐ＋１、J_o）｝ ……（40）以上の様子を第５図ｂに示す。この図はａ図の
交差した斜線部分を抜き出したもので、上辺と下
辺に同じD_iが並んでいるが、説明の都合上２列に
したもので、本来同じものである。

今、単語ｎについて考えると、時間「ｉ＝Ｐ」
まで終了しているから、第５図ｂのD_pおよび
（ｉ、ｊ）の各交点における「g_o（ｉ、ｊ）」およ
び「s_o（ｉ、ｊ）」は、「１≦ｉ≦Ｐ」「１≦ｊ≦
J_o」まで求まつている。

（38）式より g_o（Ｐ、０）＝D_p g_o（Ｐ−１、０）＝−∞ g_o（Ｐ、−１）＝−∞ ……（41）であるから「ｊ＝１」のとき、交点（Ｐ＋１、
１）の漸化式はとなり、「ｊ＝２」のとき交点（Ｐ＋１、２）の
漸化式は、となつていく。同様に「ｊ＝J_o」のときの交点
（Ｐ＋１、J_o）では、となる。以上の演算をＮ個の全標準パターンにつ
いて実行し、求まつた「g₁（Ｐ＋１、J₁）、g₂（Ｐ
＋１、J₂）、…、g_o（Ｐ＋１、J_o）、…、g_N（Ｐ＋
１、J_N）」のなかで最大のものをD_p+1とする D_p+1＝MAX｛g₁（Ｐ＋１、J₁）、 g₂（Ｐ＋１、J₂）、…、g_N（Ｐ＋１、J_N）｝ ……（46）以上の説明で１個のｉについては、「Ｊ＊Ｎ」
回でよいから全体の計算量C₃は「｛Ｉ＊Ｊ＊Ｎ｝」
にほぼ等しいこととなつた。また、使用記憶エリ
アの量は上記ではすべての「g_o（ｉ、ｊ）」「s_o
（ｉ、ｊ）」を記憶するとしたため M₃＝Ｉ＊（Ｊ＋１）＊Ｎ＊２＋２＊Ｉ
……（47）と非常に大きなものとなるが、前記漸化式（31）
を見ると、第ｉ段の漸化式を計算するのに必要な
ものは、「ｇ（ｉ−１、ｊ）」「ｇ（ｉ−２、ｊ）」お
よび「ｓ（ｉ−１、ｊ）」「ｓ（ｉ、ｊ）」と「ｇ
（ｉ、ｊ）」であるから記憶エリアM′₃は M′₃＝５＊（Ｊ＋１）＊Ｎ＊２＋２＊Ｉ
……（48）となる。しかしこれに少し工夫すると以下のよう
になる。今、「ｈ（ｉ、ｊ）」なるものを次の式で
定義する。

ｈ（ｉ、ｊ）＝ｇ（ｉ−１、ｊ−１）＋2s（ｉ、ｊ）
……（49）と、漸化式（31）は次の形に書き換えられる。

あるいはとなる。これを第６図で説明すると、（ｉ、ｊ）
の交点における「ｈ（ｉ、ｊ）」は式（19）で定義
されるように「ｇ（ｉ−１、ｊ−１）」に「ｓ（ｉ、
ｊ）」の２倍を足したもので矢印８４で示される。

式（31）の最大値の第１列目は「｛ｇ（ｉ−１、
ｊ−２）＋２・ｓ（ｉ、ｊ−１）｝」で、これは矢印
８６に示されるが、前記定義式（49）によれば、
「ｈ（ｉ、ｊ−１）」となる。また、式（31）の最
大値の第３列目は「｛ｇ（ｉ−２、ｊ−１）＋２・
ｓ（ｉ−１、ｊ）｝」でこれは矢印８１に示される
が、同様に「ｈ（ｉ−１、ｊ）」となる。したがつ
て、漸化式（51）は矢印８４で示される「｛ｈ
（ｉ、ｊ−１）＋ｓ（ｉ、ｊ）｝」と、矢印８３で示
される「ｈ（ｉ、ｊ）」と、矢印８２で示される
「｛ｈ（ｉ−１、ｊ）＋ｓ（ｉ、ｊ）｝」の３個のうち
最大のものを選択することを示している。

式（49）、（51）から、使用記憶エリアは「ｈ
（ｉ−１、ｊ）」「ｇ（ｉ、ｊ）」「ｈ（ｉ、ｊ）」（
ｊ
＝１〜J_o）の３種となるが、一時記憶レジスタ
TEMP1、TEMP2、TEMP3を導入すると、式
（49）、（51）は次のように分解できる。

(a) 「TEMP1＝ｇ（０）」「TEMP2＝ｈ（０）」と
初期値をもつて「ｊ＝１〜J_o」まで下記(b)〜(f)
を繰返す。

(b) TEMP3＝ｈ(j) (c) ｈ(j)＝TEMP1＋２＊ｓ（ｉ、ｊ） (d) TEMP1＝ｇ(i) (e) ｇ(j)＝MAXTEMP2＋ｓ（ｉ、ｊ）ｈ(j) TEMP3＋ｓ（ｉ、ｊ） (f) TEMP2＝ｈ(j) ここでｈ(j)は前記ｈ（ｉ−１、ｊ）およびｈ
（ｉ、ｊ）の両方に代わるものであり、ｇ（ｊ）は
ｇ（ｉ、ｊ）と同じものである。

以上で使用記憶エリアM″₃はｈ(j)、ｇ(j)の２種
であるから M″₃＝２＊（Ｊ＋１）＊Ｎ＋２＊Ｉ ……（52）となり、前記２段DP法による（15）式M₁より小
さくなる。

以上のステツプ１に関する部分をD_i、W_iのテ
ーブルを作成するまでの詳細を示すと次のように
なる。

（ステツプ１−１） D_iのテーブルを「ｉ＝１〜
Ｉ」まですべて「−∞」でクリアする「D₀＝
０」とする。また各単語毎の作業エリアをすべ
て「−∞」とする。

g_o(j)＝−∞ h_o(j)＝−∞ｎ＝１〜Ｎｊ＝１〜J_o 「ｉ＝１」とする（ステツプ１−２）ｎ＝１とする。

（ステツプ１−３） TEMP1＝D_i（＝g_o（０）） TEMP2＝−∞（＝h_o（０））とする。

（ステツプ１−４）「ｊ＝１」からJ_oまで（ス
テツプ１−５）を繰返す。

（ステツプ１−５） TEMP3＝h_o(j)とおき h_o(j)＝TEMP1＋２＊s_o（ｉ、ｊ） TEMP1＝g_o(j) g_o(j)＝MAXTEMP2＋s_o（ｉ、ｊ） h_o(j) TEMP3＋s_o（ｉ、ｊ） TEMP2＝h_o(j) （ステツプ１−６） g_o（J_o）＜D_iならば（ステツ
プ１−７）へ、そうすれば D_i＝g_o（J_o） W_i＝ｎとする。

（ステツプ１−７）ｎ＝ｎ＋１としｎ≦Ｎなら
ば（ステツプ１−３）へ（ステツプ１−８）ｉ＝ｉ＋１ｉ≦１ならば
（ステツプ１−２）へ以上（ステツプ１−１）〜（ステツプ１−８）
により、すべてのD_i、W_iが求まつた。

上記説明中のTEMP1、TEMP2、TEMP3は、
それぞれ一時記憶用のレジスタであり、s_o（ｉ、
ｊ）は入力ベクトルa_iと第ｎ単語の標準ベクトル
bⁿ _jとの類似度である。また、g_o(j)、h_o(j)は各単語
毎の長さ（J_o）の漸次式の途中結果を蓄える記憶
部である。

（ステツプ１−５）の類似度の計算および漸化式
の計算は、全体として第５図ａに示した直線６
８，６９による制限を使用しないと、 C₄＝Ｊ＊Ｉ＊Ｎ …（53）となる。必要とする記憶エリアM₄は M₄＝２＊Ｊ＊Ｎ＋２＊Ｉ ……（54）となる。これに（16）式の値を代入すると C₄＝210000 M₄＝3740 ……（55）となり、前記２段DPの（17）式と較べて、演算
量で１／25、記憶エリアで約１／２となる。

次に第２ステツプについて説明する。第１ステ
ツプによつて、D_i、W_iは「１≦ｉ≦Ｉ」におい
て既知であるから、全体としての最大類似度D_I
を与える標準パターンBⁿの順列組合せＢ＝Bⁿ¹Bⁿ²…B^nY-1B^nY ……（60）の最後を構成する単語n_YはW_Iである。単語n_Yと、
一つ前の単語n_Y-1との境界を決定すれば、直前の
単語はW_iより決まる。以上を入力パターンの始
点「ｉ＝１」まで繰返せば、入力された単語n₁、
n₂、…、n_Y-1、n_Yが逆順で求まる。

これを第７図によつて説明すると、入力パター
ンＡの終端「ｉ＝Ｉ」から９６で示す単語W_Iに
ついて逆方向にスタートし、今入力された単語列
のｘ番目の単語と（ｘ−１）番目の単語の区切点
が判明しており、（ｘ−１）番目の単語の終端
（逆方向動的計画法によるマツチングでは始点）
を「ｉ＝ｕ」とすると、（ｘ−１）番目の単語は
９５で示すW_uとなる。単語W_uの標準パターン
B^Wuを「ｊ＝J_Wu〜１」と逆方向に並べた標準パ
ターン^Wuと、入力パターンＡの始点ｕより終端
ｖまでの逆方向部分パターン（ｕ、ｖ）との部
分類似度を式（31）と同様の動的計画法により類
似度Ｓ（_(u、_v)、^Wu）を計算する。これは点９
１（ｕ、J_Wu）よりスタートし、範囲９９の中で
点９２（ｖ、１）に至る最大値を与える経路を探
すことで、求まつた類似度Ｓ（_(u、_v)、^Wu）
と、９３で示すD_V-1との和を最大にすること、
つまり、 MAX ｖ｛D_v-1＋Ｓ（_(u、_v)、^Wu）｝ …（61）を最大にするｖを範囲９９の「ｊ＝１」なるすべ
ての終端（ｖ、１）について探す。求められたｖ
をv_naxとし、この（ｘ−１）番目の単語と（ｘ−
２）番目の単語との境界とし、つぎにｕ＝v_nax−１ ……（62）とおいて、「ｕ＝０」になるまで、（61）、（62）式
を繰返せば認識単語はW_uとして順次、逆順に求
まる。式（61）は式（24）の〔〕内のｐ＝ｖ−１ｑ＝ｕｎ＝W_u ……（63）と置きかえたものであり、また式（24）を最大化
する単語ｎはW_uと決定しているから、式（61）
は90で示すD_uに等しいことになる。

実際には、使用する漸化式の種類（対称性等）
とか、認識装置の演算誤差を考慮すると等しくな
らない場合もあるため、最大値を求め、その最大
値を与えるｖを境界と決定する。

以上のステツプ２を詳細に示すと（ステツプ２−１）ｕ−Ｉｘ＝１とする。

（ステツプ２−２） W^uを認識単語n_xとして出
力する。

（ステツプ２−３）動的計画法の作業エリアをｇ(j)＝０（ｊ＝j_o＋１） −∞（ｊ＝１〜J_o）ｈ(j)＝−∞（ｊ＝１〜J_o＋１）と初期セツトし、 TEMP1＝ｇ（J_Wu＋１）＝０、D_MAX＝０とおく TEMP2＝ｈ（J_Wu＋１）＝−∞ （ステツプ２−４）ｉ＝ｕとおく（ステツプ２−５）「ｊ＝J_Wuから「１」まで
（ステツプ２−６）を繰返す。

（ステツプ２−６） TEMP3＝ｈ(j) ｈ(j)＝TEMP1＋２＊s_Wu（ｉ、ｊ） TEMP1＝ｇ(j) ｇ(j)＝MAXTEMP2＋s_Wu（ｉ、ｊ）ｈ(j) TEMP3＋s_Wu（ｉ、ｊ） TEMP2＝ｈ(j) （ステツプ２−７）ｇ(1)＋D_i-1＜D_AMXならば
（ステツプ２−８）へ D_MAX＝ｇ(1)−D_i-1 v_nax＝ｉ（ステツプ２−８）ｉ＝ｉ＋１ｉ≧ｕ−２−J_Wuならば（ステツプ２−５）へ（ステツプ２−９）単語の境界v_naxが判明した
から、次にｗ＝ｘ＋１ｕ＝v_nax−１とおき、ｕ＞０なら（ステツプ２−２）へ（ステツプ２−10）「＝ｘ−１」とすれば入力
パターン中の単語の個数Ｙが与えられる認識単
語として出力されたn_x（ｘ＝１〜Ｙ）を逆順に
並べ直す。「n_Y、n_Y-1、…、n₂、n₁」以上の説明でTEMP1、TEMP2、TEMP3は
（ステツプ１）で使用したものと同じで、ｇ(j)、
ｂ(j)は単語W_uに関する（ステツプ１）で使用し
たg_o(j)、h_o(j)と同じ、D_MAXは（61）式の最大値
を記憶するものである。

（ステツプ２）の演算量C₅は、境界を探索す
るときの単語が判明しているため、入力パターＡ
に含まれる単語数をＹとすると、 C5＝３／４J²＊Ｙ ……（64）前記（16）式および単語の個数の平均値として
「Ｙ＝４」を代入すると、 C₅＝3675 ……（65）となり、これは第１ステツプの演算量、すなわち
（55式）のC₄と比べて２％以下と非常に少く、こ
の発明における全体の演算量はほぼC₄で与えら
れる。

以上の説明において、ベクトルａ、ｂの類似度
として相関値等のようなベクトルａ、ｂがより似
ていればより大きな値をもつものとしたが、距離
「1a−b1」の場合は、似ていれば小さな値となる
ため、上記のすべての最大値は最小値に初期値の
「−∞」は「＋∞」に置きかえればよい。

、以上、この発明は第１ステツプで入力パター
ンＡと標準パターンの最適な組合せ（解）との間
の最大類似度が求まり、第２ステツプでは第１ス
テツプの中間給果D_i、W_iを利用して、入力パタ
ーンＡの終端から最大類似度を与えたマツチング
径路を逆戻りすることにより、単語の境界、番
号、個数を決定する連続音声認識手段を構成する
ものである。

〔発明の実施例〕

以下図面を参照してこの発明の一実施例を説明
する。第８図はその構成を示すもので、マイクロ
ホン１０１で音声入力を補捉するもので、この入
力音声信号は特徴抽出部１０２に供給し、入力音
声信号からＱチヤンネルの分析フイルタにより周
波数分析し、各チヤンネルの出力レベルを時間標
本化して特徴ベクトルa_i＝（a_1i、a_2i、…、a_Qi）を
作り出す。この特徴ベクトルa_iは入力パターンバ
ツフア１０３に供給し、ベクトルa_iを「ｉ＝１」
から終端Ｉまでの入力パターンＡとして蓄える。
ここで入力パターンＡに含まれるベクトルa_iの個
数Ｉは、特徴抽出部１０２で決定される。１０４
は標準パターン記憶部で、Ｎ個の標準パターン
「Bⁿ（ｎ−１…Ｎ）」を記憶するもので、このパタ
ーン「Bⁿ＝（bⁿ ₁、bⁿ ₂、…、bⁿ _Jo）」は、前記ベクト
ルａｉと同様にＱ次のベクトル「bⁿ _j＝（bⁿ _1j、bⁿ _2j、
…、bⁿ _Qj）」が各標準パターン長J_o個よりなる。前
記入力パターンバツフア１０３より信号ｉにした
がつて出力される特徴ベクトルa_iと、標準パター
ン記憶部１０４より信号ｊ、ｎにしたがつて出力
される特徴ベクトルbⁿ _jとは第１の漸化式計算部１
０５に供給されてベクトル間類似度s_o（ｉ、ｊ）
を計算する。また、初期値信号D_i-1を使つて
（51）式を「ｊ＝１〜J_o」まで計算し、終端をｉ
とした入力パターン「Ａ（１、ｉ）」に対する類似
度を各単語毎に「g_o（ｉ、J_o）」として出力する。
この前記第１の漸化式計算部１０５よりの「g_o
（ｉ、j_o）」は、前記（ステツプ１−６）を実行す
る第１判定部１０６に供給し、時間点ｉにおける
最大類似度D_iと比較し、もし「g_o（ｉ、J_o）」が大
きければD_iを書き直し、またそのときのｎをW_i
として記憶する。１０７は（24）式により定義さ
れる時間点ｉを終端とした最大類似度D_iを記憶す
る最大類似度記憶部で、第１判定部１０６より出
力される最大値が記憶される。また、第１の判定
部１０６より得られる最大類似度D_iを与える単語
番号ｎは終端単語記憶部１０８に書込み記憶され
る。

１０９は、第２の漸化式計算部で、逆方向によ
る類似度「Ｓ（_(u、_v)、^Wu）＝ｓ（ｖ、ａ）」を
計算するもので、この第２漸化式計算部１０９の
出力「ｇ（ｖ、１）」と、最大類似度記憶部１０７
よりのD_v-1から第２の判定部１１０で（61）式
を最大化する区切り点v_naxを判定し、出力する。
この第２判定部１１０の出力である区切り点v_nax
より得られる「ｕ＝v_nax−１」にもとずく単語番
号W_uは順序入替部１１１にn_x（ｘ＝１…Ｙ）とし
て記憶しておき、この入替部１１１では最後に時
間順序に入替えて_y（ｙ＝１…Ｙ）として出力
する。１１２は全体をコントロールする制御部
で、各種信号を発生し、上記特徴抽出部１０２〜
順序入替部１１１を制御する。

すなわち、上記のように構成される装置におい
て、マイクロホン１０１から入力された音声信号
は、特徴抽出部１０２において、Ｑチヤンネルの
周波数分析フイルタによる出力を制御部１１２よ
りの標本化信号ｔによつて標本化して、Ｑ次元の
ベクトル「ａ＝（a₁、a₂、…a_Q）」として出力す
る。また、この特徴抽出部１０２は、音声の始点
および終端の検出信号と、始点から終端までのベ
クトルａの個数Ｉを制御部１１２へ出力する。入
力パターンバツフア１０３は制御部１１２からの
信号「ｉ＝１〜Ｉ」にしたがつて、抽出部１０２
からの特徴ベクトルa_iを記憶する。ここで、説明
を簡単にするために、入力パターンバツフア１０
３にすべての入力パターンが入力し終つているも
のとする。制御部１１２では、まず（ステツプ１
−１）にしたがつて、第１の漸化式計算部１０５
内の途中結果記憶レジスタg_o(j)、h_o(j)および最大
類似度記憶部１０７を初期セツトする。次にこの
制御部１１２はは信号ｉを「１」から「Ｉ」まで
順次出力し、この各信号ｉにおいて、信号ｎを
「１」から「Ｎまで出力する。さらにこの各信号
ｎにおいて、信号ｊを「１」から各単語「ｎ」の
パターン長「J_o」まで順次出力する。

入力パターンバツフア１０３は、上記制御部１
１２からの信号ｉにより指定されたベクトルa_iを
出力し、標準パターンバツフア１０４は同じく制
御部１１２からの単語選択信号ｎおよび信号ｊに
より指定されたベクトルbⁿ _jを出力する。これらの
パターンバツフア１０３，１０４からの出力信号
が供給される第１の漸化式計算部１０５は、漸化
式の初期値を最大類似度記憶部１０７よりの１単
位時間前つまり「（ｉ−１）」にける最大値D_i-1と
して、各単語毎の途中結果記憶レジスタg_o(j)、h_o
(j)の過去値と、ベクトルa_i、bⁿ _jのベクトル間類似
度S_o（ｉ、ｊ）とにより、（51）式にしたがつて漸
化式を計算しg_o(j)、h_o(j)を更新する。そして、
「ｊ＝J_o」に達すると第１判定部１０６は、第１
の漸化式計算部１０５からのg_o（ｉ、J_o）と、単
語「（ｎ−１）」までの時間ｉを終端とした最大類
似度D_iとを比較し、ｇ（ｉ、J_o）のほうが大きけ
ればD_iをg_o（ｉ、J_o）で書き換える。また、その
ときの単語番号ｎをW_iとして終端単語記憶部１
０８に記憶する。

「ｎ＝１…Ｎ」について上記動作が終了する
と、ｉを「１」増して入力パターンの個数Ｉだけ
「（ｉ＝１…Ｉ）」繰返すと「ｉ＝１…Ｉ」につい
てのすべてのD_i、W_iが求まる。

制御部１１２は上記動作が終了すると、「ｕ＝
Ｉ」を初期値として出力し、終端単語記憶部１０
８より認識単語W_uを取り出す。また制御部１１
２は、第２の漸化式計算部１０９内の途中結果記
憶部ｇ(i)、ｈ(j)等と、第２判定部１１０内の
（61）式の最大値検出用レジスタD_MAXを（ステツ
プ２−３）にしたがつて初期化する。次に制御部
１１２は信号ｖをｕから１づつ減らしながら、
「（ｕ−２・J_Wu）」まで出力し、また各ｖにおいて
信号ｊをJ_Wuから「１」まで１づつ減らしながら
出力する。

入力パターンバツフア１０３は信号ｖによつて
指定されたベクトルa_vを出力し、標準パターン記
憶部１０４は、単語番号W_uおよび信号ｊによつ
て指定されたベクトルb^Wu _jを出力する。

第２漸化式計算部１０９は、途中結果記憶レジ
スタｇ(j)、ｈ(j)と、ベクトルa_v、b^Wu _jのベクトル
間類似度ｓ（ｖ、ｊ）とにより（ステツプ２−６）
を「ｊ＝１」まで実行する。そして、「ｊ＝１」
になると第２の判定部１１０は、第２の漸化式計
算部１０９の出力ｇ（ｖ、ｉ）と、時間点（ｖ−
１）を終端とした最大類似度D_v-1との和を、過
去「（ｖ＝ｕ〜（ｖ＋１））」の最大値D_MAXと比較
し、もし大きければこのD_MAXを「｛D_V-1＋ｇ（ｖ、
１）｝」と置き替え、そのときのｖをv_naxとして記
憶する。以上を「ｖ＝ｕ〜（ｕ−２・J_wu）」まで
実行する。そして、このようにして得られたv_nax
から「ｕ−v_nax−１」として、制御部１１２へ出
力する。この制御部１１２は「ｕ＝０」になるま
で上記動作を繰返す。順次得られた単語信号W_u
は、順序入替部１１１に「n_X（ｘ＝１…Ｙ）」とし
て記憶され、「ｕ＝０」になつたとき「、＝n_Y、
ｎ₂＝n_Y-1、…_Y＝n₁」と順序を入替えた_y（ｙ
＝１…Ｙ）として出力する。

上記実施例では、入力パターンＡが入力パター
ンバツフア１０３にすべて入力されてから認識動
作が始まるものとしたが、この発明は（ステツプ
１−１）〜（ステツプ１−８）で示したように入
力ベクトルａが１個入力されると同時に（ステツ
プ１−２）〜（ステツプ１−７）の演算を進める
ことができ、発声開始から認識結果応答までの全
時間を認識処理に利用することにより、応答時間
の短縮が可能である。また、第１の漸化式計算部
１０５は、単語ｎについて並列化することにより
高速化することができる。さらに第１の漸化式計
算部１０５と、第２の漸化式計算部１０９とは、
それぞれ（ステツプ１−５）、（ステツプ２−６）
で示すように同じ処理を実行しており、第２のス
テツプは第１のステツプの処理が完全に終了しな
ければ処理を開始することができないから、第２
のステツプの処理も第１の漸化計算部１０５で実
行することにより、第２の漸化式計算部１０９は
省略することができる。

また、マイクロホン１０１は電話の受話器等任
意のものが使用できる。さらに上記の実施例で
は、参照符号１０１〜１１２まですべてハードウ
エアで処理作動する例を示したが、一部分または
全部をプログラム制御で処理してもよい。また、
特徴抽出部１０２は周波数分析フイルタとした
が、これは音声信号の自己相関係数とか線形予測
係数とかパーコール／（PARCOR）係数等音声
の特徴を表わすことのできるパラメータを抽出す
ることができるものであればなんでもよい。ま
た、ベクトル間類似度としては、相関、距離等な
んでもよい。

次に上記実施例の最も重要な構成部である第１
の漸化式計算部１０５の構成例を第９図ａに示
す。第９図ａは（51）式を実行するもので、１２
０は、ベクトルa_iとbⁿ _jのベクトル間類似度s_o（ｉ、
ｊ）を計算し出力するベクトル間類度計算部、１
２１は、入力がg_o（ｉ−１、ｊ）、出力がg_o（ｉ−
１、ｊ−１）となる一時記憶用レジスタTEMP1
で「ｊ＝１」として計算がスタートするときは、
D_iが初期値としてプリセツトされる。１２２は、
入力がh_o（ｉ、ｊ）、出力がh_o（ｉ、ｊ−１）とな
る一時記憶用レジスタTEMP2で「ｊ＝１」とし
て計算がスタートするときには−∞がプリセツト
される。１２３はh_o（ｉ−１、ｊ）を一時保持す
るためのレジスタTEMP3である。

ベクトル間類似度計算部１２０の出力s_o（ｉ、
ｊ）は、２倍回路１２４に供給し、「２・s_o（ｉ、
ｊ）」として出力する。また、レジスタ１２１の
出力「g_o（ｉ−１、ｊ−１）」と、上記２倍回路１
２４の出力「２・s_o（ｉ、ｊ）」を加算器１２５で
加え、この加算器１２５は、「｛g_o（ｉ−１、ｊ−
１）＋２・s_o（ｉ、ｊ）｝」つまりh_o（ｉ、ｊ）を出
力する。また、レジスタ１２２の出力h_o（ｉ、ｊ
−１）と、類似度計算部１２０の出力s_o（ｉ、ｊ）
は加算器１２６で加算し、この加算器１２６は
「｛h_o（ｉ、ｊ−１）＋s_o（ｉ、ｊ）｝」を出力する。
さらに、レジスタ１２３の出力h_o（ｉ−１、ｊ）
と、類似度計算部１２０の出力s_o（ｉ、ｊ）は加
算器１２７で加え、この加算器１２７は「｛h_o（ｉ
−１、ｊ）＋s_o（ｉ、ｊ）｝」を出力する。１２８
は、後述するメモリ１３０の出力h_o（ｉ、ｊ）と、
加算器１２６，１２７の各出力の最大を選択、つ
まりg_o（ｉ、ｊ）を出力する最大値検出器で、こ
の検出器１２８の出力はメモリ１２９に供給す
る。このメモリ１２９は、 g_o（jj）＝g_o（ｌ、ｊ）…（１≦jj≦ｊ） g_o（jj）＝g_o（ｉ−１、ｊ）…（ｊ＜jj≦J_o）を記憶するもので、その読み出し出力は前記レジ
スタ１２１に供給する。前記加算器１２５の出力
h_o（ｉ、ｊ）はメモリ１３０に記憶するもので、 h_o（jj）＝h_o（ｉ、ｊ）…（１≦jj≦ｊ） h_o（jj）＝h_o（ｉ−ｊ、ｊ）…（ｊ＜jj≦J_o）を記憶する。このメモリ１３０の読み出し出力
は、レジスタ１２２および最大検出器１２８に供
給する。１３１は、上記漸化式計算部を制御する
漸化式制御部で、T₁、T₂、T₃、T₄、T₅の各タイ
ミング信号を、それぞれレジスタ１２１，１２
２，１２３の書込み、さらにメモリ１２９，１３
０の書込み信号として出力する。タイミング信号
T₁〜T₅は各ｊについて各々１個づつ第９図ｂで
示す順序で出力される。T₀はプリセツト信号で、
レジスタ１２１にはg_o（ｉ−１、０）に替わるD_i
を、レジスタ１２２にはh_o（ｉ、０）に替わる−
∞をそれぞれ「ｉ＝１」で計算がスタートする直
前にプリセツトする。

上記のように構成される漸化式計算部におい
て、第５図ｂの斜線部を実行する場合の動作を説
明すると、入力パターンＡの時間点「ｉ＝Ｐ」ま
ではすべてのｎについて演算が終了しており、D_i
は「０≦ｉ≦Ｐ」まで確定している。また、メモ
リ１２９は「g_o（Ｐ、ｊ）（ⁿ⁼¹…^N _j=1…_Jo）」を記憶
し、
メモリ１３０は「h_o（Ｐ、ｊ）（ⁿ⁼¹…^N _j=1…_Jo）」を
記憶
している。

単語番号ｎおよび標準パターンBⁿのベクトル
bⁿ _jをとり出すインデツクスｊは、第８図の制御部
１１２から指定される。第５図ｂの斜線部を実行
するにあたり、第９図ｂの時刻t₀でレジスタ１２
１および１２２はそれぞれD_pおよび−∞を信号
T₀で初期セツトされる。次に「ｊ＝１」として
時刻t₁でレジスタ１２３は、メモリ１３０よりの
「h_o(1)」つまりh_o（Ｐ、１）を信号T₃で書込まれ
る。次に「ｉ＝Ｐ＋１」および「ｊ＝１」で指定
されたベクトルa_p+1、bⁿ ₁のベクトル間類似度s_o
（Ｐ＋１、１）が類似計算部１２０で計算され、
その計算結果を２倍回路１２４で２倍した「２・
s_o（Ｐ＋１、１）」がレジスタ１２１の出力つまり
「g_o（Ｐ、０）＝D_p」と加算器１２５で加算して、
「h_o(p+1、₁₎）」とし、メモリ１３０のh_o(1)に時刻t₂
信号T₅で書込まれる。そして、時刻t₃においてメ
モリ１２９の出力g_o(1)つまりg_o（Ｐ、１）がレジ
スタ１２１に信号T₁で書込まれる。

またレジスタ１２２の出力、つまり「h_o（Ｐ、
０）＝−∞」は類似度計算部１２０の出力s_o（Ｐ＋
１、１）と加算器１２６で加算される。また、レ
ジスタ１２３の出力、つまり「h_o（Ｐ、１）」は、
同様に上記s_o（Ｐ＋１、１）と加算器１２７で加
算される。最大値検出器１２８は加算器１２６，
１２７および１３０の出力で最大のもの、つま
り、メモリ１３０の出力 h_o(1)＝h_o（Ｐ＋１、１）＝｛D_p＋２・s_o（Ｐ＋１、１）｝をメモリ１２９へ「g_o(1)＝g_o（Ｐ＋１、１）」とし
て時刻t₄に信号Ｔ４で書込む。時刻t₅では、メモ
リ１３０の出力「h_o(1)＝h_o（Ｐ＋１、１）」が信号
Ｔ２で書込まれて「ｊ＝１」のサイクルが終了す
る。

制御部１１２からの「ｊ＝２」で次のサイクル
がスタートする。すなわち、時刻t₆ではレジスタ
１２３にはメモリ１３０の出力h_o(2)つまりh_o（Ｐ、
２）が書込まれ、時刻t₇では、レジスタ１２１の
出力g_o（Ｐ、１）と２倍回路１２４の出力「２・
s_o（Ｐ＋１、２）」の和h_o（Ｐ＋１、２）がメモリ
１３０のh_o(2)として書込まれる。時刻t₈ではメモ
リ１２９の出力「g_o(2)＝g_o（Ｐ、２）」に書込ま
れ、時刻t₉ではメモリ１３０の出力「h_o(2)＝h_o
（Ｐ＋１、２）」と、加算器１２６からの出力
「｛h_o（Ｐ＋１、１）＋s_o（Ｐ＋１、２）｝」と加算器
１２７からの出力「h_o（Ｐ、２）＋s_o（Ｐ＋１、
２）｝」の最大値が、メモリ１２９へ「g_o(2)＝g_o
（Ｐ＋１、２）」として書込まれ、時刻t₁₀ではメ
モリ１３０出力「h_o(2)＝h_o（Ｐ＋１、２）」がレジ
スタ１２２に書込まれて「ｊ＝２」、のサイクル
が終了する。以上のサイクルをJ_oまで繰返すメモ
リ１２９の出力g_o（J_o）は、g_o（Ｐ＋１、J_o）を示
すようになる。これは第８図の第１の判定部１０
６の入力となる。

以上の例は、（31）式を変形した（51）式を実
行するものであるが、その他に両側傾斜制限をも
つた漸化式としては g_o（ｉ、ｊ）＝S_o（ｉ、ｊ）＋MAXg_o（ｉ−１、ｊ−２
）＋２・s_o（ｉ、ｊ−１）ｇ（ｉ−１、Ｊ−１）＋s_o（ｉ、ｊ）ｇ（ｉ−１、Ｊ−１）＋s_o（ｉ、ｊ）ｇ（ｉ−３、ｊ−２）＋２・s_o（ｉ−２、ｊ−１）＋２
・s_o（ｉ−１、ｊ） ……（70）など多くの変形が考えられる。

（70）式の傾斜は「２／３」と「１」、と「２」で、これは標準パターン長の「−50％」から「＋
50％」まで入力パターンの変化を許すものであ
り、（31）式の傾斜「１／２」「１」、「２」の「−50 ％」から「＋100％」よりも強い制限を含んでい
る。（31）式を（51）式と変形して第９図ａのよ
うに構成する場合と同様に f_o（ｉ、ｊ）＝g_o（ｉ−２、ｊ−２）＋２・s_o（ｉ−１、ｊ−１）＋２・s_o（ｉ、ｊ）
……（71）＝h_o（ｉ−１、ｊ−１）＋２・s_o（ｉ、ｊ）
……（72）と定義すると（70）式は g_o（ｉ、ｊ）＝s_o（ｉ、ｊ）＋MAXh_o（ｉ、ｊ−１） g_o（ｉ−１、ｊ
−１）＋s_o（ｉ、ｊ） f_o（ｉ−ｊ、ｊ） …(73) または g_o（ｉ、ｊ）＝MAXh_o（ｉ、ｊ−１）＋s_o（ｉ、ｊ） h_o（ｉ、ｊ） f_o（ｉ−１、ｊ）＋s_o（ｉ、ｊ） …(74) となり、これは第１ステツプを変形すれば（ステツプ1′−１）D₀＝０ D_i−∞（ｉ＝１〜Ｉ）とおき、ｉ＝１とする。

（ステツプ1′−２）ｎ＝１とする。

（ステツプ1′−３） TEMP1＝D_i-1（＝g_o（０）） TEMP2＝−∞（＝h_o（０））として（ステツプ1′−４）ｊ＝１からJ_oまで（ステツ
プ１−５）を繰返す。

（ステツプ1′−５） TEMP3＝h_o(j)（h_o(j)＝TEMP1＋２・s_o（ｉ、
ｊ） TEMP1＝g_o(j) g_o(j)＝MAXTEMP2＋s_o（ｉ、ｊ） h_o(j) f_o(j)＋s_o（ｉ、ｊ） TEMP2＝h_o(j) f_o(j)＝TEMP3＋２・s_o（ｉ、ｊ）（ステツプ1′−６） g_o（J_o）＜D_iならば（ステツ
プ1′−７）へそうでなければ D_i＝g_o（J_o） W_i＝ｎとおく。

（ステツプ1′−７）ｎ＝ｎ＋１としｎ≦Ｎならば（ステツプ1′−３）へ。

（ステツプ1′−８）ｉ＝ｉ＋１としｉ≦Ｉならば（ステツプ1′−２）へ。

以上をハードウエアで構成したのが第１０図
で、第９図ｂと同じタイミングで作動する。第１
０図において第９図ｂと同一部分は同一符号を付
してその説明は省略する。

ここで傾斜制限をもたない漸化式の例として、 g_o（ｉ、ｊ）＝s_o（ｉ、ｊ）＋MAXg_o（ｉ−１、ｊ） g_o（ｉ−１、ｊ
−１） g_o（ｉ、ｊ−１）あるいは g_o（ｉ、ｊ）＝s_o（ｉ、ｊ）＋MAXg_o（ｉ−１、ｊ） g_o（ｉ−１、ｊ
−１） g_o（ｉ−１、ｊ−２）などがある。上記の第２の例は、特開昭51−
104204号で使用されているが、傾斜制限をもたな
いために、急激な時間軸の整合を避けるために
は、第１図で直線１１，１２のような整合窓が必
要である。

上記のような漸化式の場合、整合窓があつても
部分的に極端な整合がおきるため、認識実験によ
ると、あまり良くないことが多く報告されてい
る。

〔他の実施例〕

第１１図はこの発明の他の実施例を示すもの
で、１０１は音声入力に用いるマイクロホンで、
このマイクロホン１０１からのアナログ状音声信
号はＡ／Ｄ変換器１４１でデイジタル値に変換す
る。１４２は入力パターンＡ、標準パターンＢ漸
化式の途中結果g_o(j)、h_o(j)、ｇ(j)、ｈ(j)および最
大類似度D_i、終端単語W_i等を記憶するデータメ
モリ、１４３はプログラムメモリで、前記デイジ
タル値に変換された音声信号はCPU１４４に結
合し、プログラムメモリ１４３のプログラムはこ
のCPU１４４で実行される。

すなわち、マイクロホン１０１から入力された
音声信号は、Ａ／Ｄ変換器１４１にてデイジタル
の数値となり、一定時間例えば100μ秒毎にCPU
１４４に読込まれ、データメモリ１４２に記憶さ
れる。CPU１４４は、この数値が一定個数例え
ば150個読込まれると高速フーリエ変換（FFT）
を実行し、電力スペクトラムを求め、それに16個
の三角形窓を乗じて、16チヤンネルのバンドパス
フイルタによる周波数分析と同様な結果を得、そ
れを入力ベクトルａとする。この150個のデータ
は、15ｍ秒毎にそろうものであるが、この15ｍ秒
を１フレームとする。

つぎに、プログラムメモリ１４３内のプログラ
ムによるCPU１４４の動作を第１２図〜１５図
のフローチヤートにしたがつて説明する。

まずフローチヤート内で使用する変数i₁は割り
込み処理内で計算されたベクトルａでストアする
ときのアドレスを示すインデツクス。変数ｌは同
じく割り込み処理内で使用される終端検出用の低
電力フレームを計数するカウンタ、変数I₁は始点
から終端までのベクトルａの個数を示し、変数i₂
は認識処理における入力ベクトルａの取り出し用
のインデツクスで、音声途中の低電力フレームに
おいては、処理２（前記の第１のステツプに相当）
を実行せずに先へ進む。変数i3は、処理２を実行
するときの入力ベクトルａを取り出すインデツク
ス、D_i、g_o(j)、h_o(j)、W_i、ｇ(j)、ｈ(j)はデータメ
モリ１４２に記憶されるもので、D_iは第ｉフレー
ムを終端とした最大類似度、g_o(j)、h_o(j)は単語ｎ
についての処理２における漸化式の途中結果を記
憶するためのもの、W_iはD_iを与える単語系列の
終端単語、ｇ(j)、ｈ(j)は処理３（前記の第２ステ
ツプに相当）における漸化式の途中結果を記憶す
るもの、変数ｊは標準パターンのベクトルb_jを取
り出すインデツクス、変数ｎは単語番号を示すも
ので、定数J_oは単語ｎの時間長（フレーム数）を
示し、定数Ｎは標準パターンの数を示す。変数
TEMP1、TEMP2、TEMP3は漸化式計算部に
おける一時記憶レジスタ、変数ｕは処理３におけ
る逆方向のパターンマツチングの部分パターン始
点を与えるインデツクス、変数ｖは逆方向パター
ンマツチングの部分パターンの終端を与えるイン
デツクス、D_naxは（61）式の最大値を検出し記
憶するためのレジスタ、v_naxはD_naxを与えたイン
デツクスｖを記憶するレジスタ、変数ｘは認識単
語番号n_xを記憶するインデツクス、s_o（ｉ、ｊ）
はベクトルa_iとbⁿ _jとのベクトル間類似度である。
記号−∞はCPU１４４内で実現できる負の最大
値を示す。

主プログラムはスタートステツプ200から始ま
りステツプ201で音声の始点、終端を検出したこ
とを示すフラグ「０」を初期セツトし、Ａ／Ｄ変
換器１４１からの100μ秒毎の割り込みを許可す
る。以下の処理はデータの取り込み、特徴ベクト
ルａの計算、始点、終端の検出等を行う割り込み
処理と、認識処理の２つが並行に処理される。

最初に、割り込み処理ステツプ220〜233につい
て説明すると、割り込みが発生すると、割り込み
処理のスタートステツプ220より処理を始めて、
ステツプ221でＡ／Ｄ変換器１４１からのデイジ
タルデータを取り込みデータメモリ１４２に記憶
する。データが150個に達したかどうかを判断ス
テツプ222で判断し、達していなければリターン
ステツプ223で割り込み処理を抜け出す。150個入
力されるとステツプ223で前記ベクトルａの計算
を実行する。次に判断ステツプ224で始点検出フ
ラグが「０」であるか否かをチエツクし、もし
「０」ならばこのベクトルの電力（例えばベクト
ルａの要素の和₁₆ 〓ａ）が閾値以上かどうかを判断
する。ステツプ227でチエツクし閾値以下であれ
ばリターンステツプ233より抜け出す。また閾値
以上のときは始点が検出されたとして、ステツプ
228で始点検出フラグを「１」としインデツクス
i₁を「１」と置き、ベクトルを「a_i1＝a₁」として
入力パターンバツフアＡにストアする。そして、
ステツプ229でカウンタｌを「０」としてリター
ンステツプ223で割り込みから抜け出す。

一方判断ステツプ224ですでに始点検出フラグ
が「１」となつているときは、ステツプ225でイ
ンデツクスi1を「１」増し入力ベクトルa_i1として
入力パターンバツフアＡにストアする。判断ステ
ツプ226にて入力ベクトルの電力が閾値以上であ
れば前記ステツプ229へ、また以下のときは低電
力フレームとしてステツプ230でカウンタｌを
「１」増す。

判断ステツプ231にてカウンタｌが「20」つま
り低電力フレームが20フレーム続いたか否かをチ
エツクし、「20」以下ならリターンステツプ223
へ、「20」以上であれば入力音声の終了とみなし
ステツプ232で始点から終端までの有効ベクトル
ａの個数をI₁と置き、終端検出フラグを「１」に
セツトし、Ａ／Ｄ変換器１４１からの割り込みを
禁止しリターンステツプ223にて割り込みから抜
け出す。

以上の割り込み処理により、入力パターンバツ
フアＡには15ｍ秒毎にベクトルａが取り込まれ
る。

つぎに、主プログラムのステツプ202以降を説
明すると、ステツプ202による処理１（第１３図の
ステツプ240〜245による）は、前記（ステツプ１
−１）相当の初期化を行う。

すなわち、判断部２０３で始点検出フラグが
「１」になるまで待ち、「１」になると、音声入力
が開始されたものとしてステツプ204でインデツ
クスi2、i3を「１」に初期化する。つぎに判断ス
テツプ205において割り込みで使用されいるイン
デツクスi1とi2を比較し、i2がi1に等しいか小さ
ければ判断ステツプ206進み、ベクトルa_i2の電力
が閾値より小さければ、音声途中の低電力フレー
ムとしてステツプ207でi2を「１」増して、判断
ステツプ208で終端検出フラグをチエツクする。
終端検出フラグが「０」であれば、まだ終端は検
出されていないものとして判断ステツプ205へも
どる。

前記判断ステツプ206で電力が閾値以上のとき
は、ステツプ212へ進んでi2を「１」増し、ステ
ツプ213の前記（ステツプ１−２）〜（ステツプ
１−７）に相当する処理２を実行する。つぎに、
ステツプ241でインデツクスi3を「１」増して、
判断ステツプ215によりインデツクスi3とi2を比
較する。そして、i3がi2より小さければステツプ
213へもどつて処理２を続け、大きいか等しけれ
ば判断ステツプ205へもどる。

判断ステツプ208で終端検出フラグが「１」に
なつていると、判断ステツプ209でインデツクス
i3とi1の大小関係をチエツクする。これは前記ス
テツプ213内の処理２が15ｍ秒以内に終了しない
と、ベクトルａの取り込みが先行することになる
ため、終端が検出されたとき、未評価の入力ベク
トルａが存在する可能性があるためである。そし
て、i3が入力ベクトルの個数I₁より小さいか等し
い場合、前記ステツプ213、214と同様の処理をス
テツプ210、211で実行する。判断ステツプ209で
i3がI₁より大きいと判断されればすべての入力ベ
クトルの評価が終了したものとして、ステツプ
216の処理３（前記第２ステツプ相当）を実行し、
認識単語として逆順に並んだn_xを得る。そして、
ステツプ217でn_xを逆に並べ直して_yとして出力
する。以上で連続音声の認識を終了したことにな
る。

前記処理２の詳細を第１４図に示す。すなわ
ち、ステツプ251は前記（ステツプ１−２）に相
当し、ステツプ252はステツプ（１−３）に、ス
テツプ253、256、257は（ステツプ１−４）に、
また漸化式のステツプ254、255はステツプ（１−
５）に、ステツプ258、259は（ステツプ１−６）
に、ステツプ261は（ステツプ１−７）にそれぞ
れ相当する。

第１５図は前記処理３の詳細を示すもので、ス
テツプ271は前記（ステツプ２−１）に、ステツ
プ272は（ステツプ２−２）に、ステツプ273、
274は（ステツプ２−３）に、ステツプ275は（ス
テツプ２−４）にそれぞれ相当する。第２のステ
ツプの説明で使用する記号ｉは第１５図のフロー
チヤートではｖと置きかえたものに等しい。また
ステツプ276および279、280は（ステツプ２−５）
に相当し、ステツプ277、278は（ステツプ２−
６）の漸化式計算に、ステツプ281、282は（ステ
ツプ２−７）の最大値検出に、ステツプ283、284
は（ステツプ２−８）に、ステツプ285は（ステ
ツプ２−９）に、ステツプ286は（ステツプ２−
10）に相当する。

以上の実施例においては、第２のステツプに相
当するステツプ216の処理３を低電力フレーム20
個継続による終端検出後としたが、これは１個目
の低電力フレーム検出と同時に実行してもよい。
終端検出する前に有効電力フレームが入力された
ときは、すでに終了している処理３の結果を無効
とする。このようにすれば、終端検出時には結果
n_x（または_y）は判明しており、より短時間に応
答することが可能となる。

この実施例における連続音声認識実験の結果
は、２桁〜５桁の各数値40個、計160個の数値に
対して96.3％、各数値の１桁を１単語とした合計
560単語に対しては99.2％の認識率を得ている。
これはこの実施例を離散発生の孤立単語音声認識
として実験した1000個の単語に対する認識率99.5
％とほぼ同じ成績を示しておりこの連続音声認識
手段が有効であることを示している。

〔実施例の効果〕

(1) 入力パターンＡの始点「ｉ＝１」終端「ｉ＝
ｑ」とする部分パターンＡ（１、ｑ）と、標準
パターンの最適な組み合せによるものとの最大
類似度D_qを求める手順として、部分パターン
Ａ（１、ｑ）をＡ（１、Ｐ）とＡ（Ｐ＋１、ｑ）
とに分解し、Ａ（１、Ｐ）が持つ最大類似度D_p
と、Ａ（Ｐ＋１、ｑ）と標準パターンBⁿとのマ
ツチングによる類似度Ｓ（A_(p+1、_q)、Bⁿ）の和
として計算し、その和をＰについて最大化する
ことを動的計画法によつて実行し、そのｎにつ
いて最大値をD_qとする手段は、ベクトル間類
似度ｓ（a_i、bⁿ _j）の計算を、ｉ、ｊ、ｎの組合
せに対して１回求めるだけでよいため、従来の
方法にくらべると約1/25の計算で求められる。

(2) また入力ベクトルa_q（１≦ｑ≦Ｉ）が１個入
力されると同時にすべての単語ｎ（１〜Ｎ）お
よび各単語の時間軸ｊ（１〜J_o）についての演
算をし、D_q、W_qを求めることができるから音
声入力の開始と同時に演算量全体の98％以上を
占める第１ステツプの演算を並行することがで
き、発声開始から応答までを認識処理時間とし
て有効に使用することができる。

(3) 第１ステツプで求められた最大類似度D_i、終
端単語W_i（１≦ｉ≦Ｉ）のテーブルにより、第
２ステツプは入力パターンの終端（ｉ＝Ｉ）を
第１の区切点とし区切点によつて一義的に決ま
る認識単語のみについて、時間軸を逆方向に動
的計画法を使用して、直前の単語との区切点を
求めることができる。

(4) 第２ステツプで区切点を求める動的計画法
は、区切点の片側（入力パターンの終端側）の
単語は一義的に定まつているため、計算量は非
常に少なくてよい。

(5) 前記のように第１ステツプは発声終了と同時
に演算終了とすることが可能であり、また第２
ステツプの演算量は第１ステツプに比較して２
％以下と少ないため、全体としては発声終了と
ほぼ同時に結果を応答することができる。

(6) 漸化式の途中結果記憶レジスタg_o(J)、h_o(j)
（f_o(j)）等と一時記憶レジスタTEMP1、２、３
等を構成要素とするパターンマツチング装置
は、g_o（ｉ、ｊ）およびs_o（ｉ、ｊ）をすべてま
たは一部記憶する場合の（47）式または（48）
式よりも（52）式または（54）式に示すよう
に、必要とする記憶エリアが小さくてすみ、ハ
ードウエアで実現するのに適している。

(7) 従来の方法に比べて、処理量が1/25ですむた
め低速な素子を使用することが可能で廉価とな
る。

(8) また従来の装置と同等の素子を使用すれば、
標準パターンの数を25倍とすることが可能で、
認識単語の種類を非常に多くすることができ
る。

(9) 使用メモリも従来の方法の半分でよいため、
それだけ低価格、小規模な装置となる。

(10) また処理を高速化する手法として、並列処理
が考えられるが、従来の方法における入力ベク
トル１個入力と同時にすべて処理を済す実時間
処理を実現する装置では、部分類似度計算部が
「｛（２＊ｒ＋１）＊Ｎ｝」個記憶量が「｛（２＊ｒ
＋１）²＊Ｎ＊２＋M₁｝」となるが、この発明を
並例化した場合は、（16）式の値を用いると類
似度計算部で1/25、記憶量では約1/17と非常に
有利である。

(11) また、音声認識率の向上には、特徴ベクトル
の次元Ｑを増すことと、入力パターン、標準パ
ターンの単位時間あたりのベクトルの個数を増
すことが一般的であるから、従来の方法を使用
した装置に、この発明の方法を適用すると、同
一の認識語数、応答時間であれば、ベクトルの
次元数Ｑと、単位時間当りのベクトルの個数と
の積を25倍に増加させることができ、それだけ
高い認識率を期待できる。

(12) 両側傾斜制限つきの漸化式を用いることによ
り、複数の始点、複数の終端の動的計画法を同
時に計算しても時間軸の急激な整合を避けるこ
とが可能で計算量の大幅な削減が可能である。

(13) 複数の始点における初期値として、各始点
（Ｐ＋１）の直前のフレームＰを終端とする入
力パターンの部分パターンＡ（１、Ｐ）と、最
適な標準パターンの組み合せとの最大類似度
D_pを用いることにより、ある終端ｑまでの部
分パターンＡ（１、ｑ）を最適に近似する標準
パターンの組み合せを決定する問題を、初期値
D_pと、部分パターンＡ（Ｐ＋１、ｑ）と各標準
パターンBⁿ単独との、類似度Ｓ（A_(p+1、_q)、
Bⁿ）の和の問題に置きかえることが可能で、
連続音声認識の問題を孤立単語音声認識とほぼ
同じ処理量で解くことができる。

〔発明の効果〕

以上述べたように、本願の第１番目の発明によ
れば、第１ステツプによる１段のD_p法により、
最大類似度D_q＝ MAX ｐ，ｎ｛D_p＋Ｓ（A_(p+1、_q)、Bⁿ）｝
を与える単語ｎおよびその類似度D_qをｑ＝１〜
Ｉについて得るとともに、ｑ＝Ｉの時点で全体と
しての最大類似度を得ることができるという優れ
た効果がある。

さらに、本願の第２番目の発明においては、上
記第１ステツプの結果を用いて入力音声に対する
認識単語を得ることができるという優れた効果が
ある。

さらに、本願の第３番目の発明においては、上
記第１番目の発明を適切に実施することができる
装置を提供することができるという優れた効果が
ある。

さらに、本願の第４番目の発明においては、上
記第２番目の発明を適切に実施することができる
装置を提供することができるという優れた効果が
ある。

【図面の簡単な説明】

第１図は従来の連続音声認識手段である２段
DP法の計算範囲を示す図、第２図はこの発明に
おける第１ステツプを説明するための図、第３図
ａは始点・終端が固定の場合の傾斜制限つき漸化
式の計算範囲を示す図、第３図ｂは傾斜制限つき
の漸化式の一例を説明するための図、第４図はこ
の発明の計算量の削減を説明するための図、第５
図ａはこの発明における第１ステツプの詳細を説
明するための図、第５図ｂはａ図の斜線部分を抜
き出して説明する図、第６図は漸化式の計算の詳
細を説明する図、第７図はこの発明における第２
ステツプを説明するための図、第８図はこの発明
の一実施例を示すブロツク図、第９図ａは上記実
施例の第１漸化式計算部の構成例を示すブロツク
図、第９図ｂはａ図の制御タイミング図、第１０
図は第１漸化式計算部の他の例を示すブロツク
図、第１１図はこの発明の他の実施例を示す図、
第１２図は上記実施例の動作を説明するためのフ
ローチヤート、第１３図は第１２図における処理
１を、第１４図は同じく処理２を、第１５図は同
じく処理３をそれぞれ説明するフローチヤートで
ある。１０１……マイクロホン、１０２……特徴抽出
部、１０３……入力パターンバツフア、１０４…
…標準パターン記憶部、１０５，１０９……漸化
式計算部、１０６，１１０……判定部、１０７…
…最大類似度記憶部、１０８……終端単語記憶
部、１１２……制御部。

Claims

【特許請求の範囲】１入力音声を電気信号に変換するマイクロホン
と、このマイクロホンからの前記入力音声に対応
する電気信号を時間点ｉにおける特徴を示す特徴
ベクトルa_i（１≦ｉ≦Ｉ）の時系列として入力パ
ターンＡ＝（a₁、a₂、…、a_i、…、a_I）に変換して
記憶する入力手段と、単語番号ｎ（１≦ｎ≦Ｎ）
についての特徴パラメータの時系列としてBⁿ＝
（bⁿ ₁、bⁿ ₂、…、bⁿ _j、…、bⁿ _Jo）を記憶する標準パタ
ーン記憶手段と、前記入力パターンＡと前記複数
の標準パターンBⁿとの間において動的計画法を
用いて前記入力音声に最も類似の一連の単語を決
定する決定手段とから成るものにおいて、前記決定手段は、前記入力パターンの時間点ｉ＝１を始点とし、
ｉ＝ｑを終端とする部分パターンA₍₁、_q)（但し、
１≦ｑ≦Ｉ）と標準パターンの最適な組合せとの
間の最大類似度D_qを記憶する最大類似度記憶手
段と、上記最大類似度D_qを与える標準パターンの組
合わせの最後の単語を示す単語番号をW_qとして
記憶する終端単語記憶手段と、時間点ｉ＝ｐ＋１を始点とし、ｉ＝ｑを終端と
する部分区間A_(p+1、_q)＝（a_p+1、a_p+2、…、a_i、
…、a_q）（但し１≦ｐ＋１＜ｑ≦Ｉ）と各ｎにつ
いての標準パターンBⁿとの間で、部分パターン
の時間軸ｉと標準パターンの時間軸ｊを対応させ
る関数j_(i)を最適に定めて、ｉとj_(i)の間で定義され
るベクトル間類似度ｓ（a_i、bⁿ _j）の和の最大値Ｓ
（A_(p+1、_q)、Bⁿ）と、前記最大類似度記憶手段に
て記憶している時間点ｉ＝ｐでの最大類似度D_p
との和をｐについて最大にする操作を、各時間点ｑについて、指定されたｑ、ｊ、ｎよ
り得られるa_q、bⁿ _jの間の類似度ｓ（a_p、bⁿ _j）を計
算し、その類似度ｓ（a_q、bⁿ _jと、経路点（ｑ、ｊ）
への到達径路に関する複数の経路情報とにより、
予め定めた漸化式を用いて最適経路を与える値を
求め、それを始点からの類似度g_o（ｑ、ｊ）とし、
各ｑ、ｎについて、ｐ＝０に対してg_o（ｐ、０）＝
０、ｐ＝１〜Ｉに対してg_o（ｐ、０）＝D_pと定義
される初期条件のもとにｊを標準パターンのベク
トル個数J_oまで演算した結果のg_o（ｑ、J_o）を終
端ｑとした部分パターンA₍₁、_q)と単語ｎを最終
単語とした標準パターンの最適な組合せによるも
のとの類似度D_p＋Ｓ（A_(1+p、_q)、Bⁿ）として得る動的計画法によつて実行するパターンマツチン
グ手段と、その結果の MAX ｐ｛D_p＋Ｓ（A_(p+1、_q)、Bⁿ）｝に
対し、すべてのｎに関する最大値 MAX ｐ，ｎ｛D_p＋
Ｓ（A_(p+1、_q)、Bⁿ）｝を前記D_qとして前記最大類
似度記憶手段に記憶させると同時に、その最大値
を与えるｎを前記終端単語W_qとして前記終端単
語記憶手段に記憶させる第１の判定手段を備えることを特徴とする連続音声認識装置。２入力音声を電気信号に変換するマイクロホン
と、このマイクロホンからの前記入力音声に対応
する電気信号を時間点ｉにおける特徴を示す特徴
ベクトルa_i（１≦ｉ≦Ｉ）の時系列として入力パ
ターンＡ＝（a₁、a₂、…、a_i、…、a_I）に変換して
記憶する入力手段と、単語番号ｎ（１≦ｎ≦Ｎ）
についての特徴パラメータ時系列としてBⁿ＝
（bⁿ ₁、bⁿ ₂、…、bⁿ _j、…、bⁿ _Jo）を記憶する標準パタ
ーン記憶手段と、前記入力パターンＡと前記複数
の標準パターンBⁿとの間において動的計画法を
用いて前記入力音声に最も類似の一連の単語を決
定する決定手段とから成るものにおいて、前記決定手段は、前記入力パターンの時間点ｉ＝１を始点とし、
ｉ＝ｑを終端とする部分パターンA₍₁、_q)（但し、
１≦ｑ≦Ｉ）と標準パターンの最適な組合せとの
間の最大類似度D_qを記憶する最大類似度記憶手
段と、上記最大類似度D_qを与える標準パターンの組
合せの最後の単語を示す単語番号をW_qとして記
憶する終端単語記憶手段と、時間点ｉ＝ｐ＋１を始点とし、ｉ＝ｑを終端と
する部分区間A_(p+1、_q)＝（a_p+1、a_p+2、…、a_i、
…、a_q）（但し１≦ｐ＋１＜ｑ≦Ｉ）と各ｎにつ
いての標準パターンBⁿとの間で部分パターンの
時間軸ｉと標準パターンの時間軸ｊを対応させる
関数j_(i)を最適に定めて、ｉとj_(i)の間で定義される
ベクトル間類似度ｓ（a_i、bⁿ _j）の和の最大値Ｓ
（A_(p+1、_q)、Bⁿ）と、前記最大類似度記憶手段に
て記憶している時間点ｉ＝ｐでの最大類似度D_p
との和をｐについて最大にする操作を各時間点ｑについて、指定されたｑ、ｊ、ｎよ
り得られるa_q、bⁿ _jの間の類似度ｓ（a_q、bⁿ _j）を計
算し、この類似度ｓ（a_q、bⁿ _j）と、経路点（ｑ、
ｊ）への到達経路に関する複類の経路情報とによ
り、予め定めた漸化式を用いて最適経路を与える
値を求め、それを始点からの類似度g_o（ｑ、ｊ）
とし、各ｑ、ｎについてｐ＝０に対してg_o（ｐ、
０）＝０、ｐ＝１〜Ｉに対してg_o（ｐ、０）＝D_pと
定義される初期条件のもとに、ｊを標準パターン
のベクトル個数J_oまで演算した結果のg_o（ｑ、J_o）
を、終端をｑとした部分パターンA₍₁、_q)と単語
ｎを最終単語とした標準パターンの最適な組合せ
によるものとの類似度D_p＋Ｓ（A_(1+p、_q)、Bⁿ）と
して得る動的計画法によつて実行するパターンマツチン
グ手段と、その結果の MAX ｐ｛D_p＋Ｓ（A_(p+1、_q)、Bⁿ）｝に
対し、すべてのｎに関する最大値M_pA_oＸ｛D_p＋
Ｓ（A_(p+1、_q)、Bⁿ）｝を前記D_qとして前記最大類
似度記憶手段に記憶させると同時に、その最大値
を与えるｎを前記終端単語W_qとして前記終端単
語記憶手段に記憶させる第１の判定手段と、入力パターンＡの時間点ｉ＝Ｉを始点ｕとし、
この始点ｕから終端ｖまでを時間的に逆方向にし
た逆方向部分パターン_(u、_v)＝（a_u、a_u-1、…
a_v+1、a_v）と始点ｕにおける前記終端単語W_uの
標準パターンB^wuを時間的に逆方向にした逆方向
パターン^wuとの間で動的計画法により類似度Ｓ
（_(u、_v)、^wu）を求め、この類似度Ｓ（_(u、_v)、
Ｂ^wu）と時間点ｉ＝ｖ−１における類似度D_v-1と
の和を最大にする区切り点ｖをV_naxとして決定
すると同時に直前の単語の逆方向の始点ｕ＝
V_nax−１とする動作を行ない、入力パターンＡ
の始点まで順次上記動作を繰返す第２の判定手段
と、順次得られる逆方向部分パターンの始点ｕの前
記終端単語W_uを逆順である音声の入力順に並べ
直して出力する順序入替手段とを備えることを特徴とする連続音声認識装置。３前記パターンマツチング手段は、前記入力手段にて記憶している入力パターンＡ
と、前記標準パターン記憶手段にて記憶している
標準パターンBⁿにより、時間点ｑにおいて、指
定されたｑ、ｊ、ｎより得られるa_q、bⁿ _jの間の類
似度ｓ（a_q、bⁿ _j）を計算するベクトル間類似度計
算手段と、このベクトル間類似度計算手段にて計算した類
似度ｓ（a_q、bⁿ _j）と、経路点（ｑ、ｊ）への到達
経路に関係する複数の経路情報により、予め定め
た漸化式を用いて最適経路を与える値を始点から
の類似度g_o（ｑ、ｊ）とし、各ｑ、ｎについてＰ
＝０に対してg_o（ｐ、０）＝０、Ｐ＝１〜Ｉに対し
てg_o（ｐ、０）＝D_pと定義される初期条件のもと
にｊを標準パターンのベクトル個数J_oまで演算し
た結果のg_o（ｑ、J_o）を、終端をｑとした部分パ
ターンA₍₁、_q)と単語ｎを最終単語とした標準パ
ターンの最適な組合せによるものとの類似度D_p
＋Ｓ（A_(1+p、_q)、Bⁿ）として出力する漸化式計算
手段とからなることを特徴とする特許請求の範囲第１項
若しくは第２項記載の連続音声認識装置。４前記漸化式計算手段は、時間点ｉにおいてh_o（ｉ、ｊ）＝g_o（ｉ−１、ｊ
−１）＋２・ｓ（a_i、bⁿ）で定義される、時間点ｑ
のh_o（ｑ、ｊ−１）、h_o（ｑ、ｊ）、h_o（ｑ−１、ｊ）
を前記複数の経路情報として出力する径路情報出
力手段と、前記ベクトル間類似度計算手段にて計算した類
似度ｓ（a_q、bⁿ _j）と、前記経路情報出力手段から
の出力h_o（ｑ、ｊ−１）、h_o（ｑ、ｊ）、h_o（ｑ−１、
ｊ）により、漸化式 g_o（ｑ、ｊ）＝MAXh_o（ｑ、ｊ−１）＋ｓ（a_q、bⁿ _j） h_o（ｑ、ｊ） h_o（ｑ−１、ｊ）＋ｓ（a_q、bⁿ _j）を実行し、ｊを標準パターンのベクトル個数J_oま
で演算した結果のg_o（ｑ、J_o）を終端をｑとした
部分パターンA₍₁、_q)と単語ｎを最終単語とした
標準パターンの最適な組合せによるものとの類似
度D_p＋Ｓ（A_(1+p、_q)、Bⁿ）として出力する漸化式
実行手段とからなることを特徴とする特許請求の範囲第３項
記載の連続音声認識装置。５前記漸化式計算手段は、時間点ｉにおいてh_o（ｉ、ｊ）＝g_o（ｉ−１、ｊ
−１）＋２・ｓ（a_i、bⁿ _j）で定義される、時間点ｑ
のh_o（ｑ、ｊ−１）、h_o（ｑ、ｊ）、および時間点ｉ
においてf_o（ｉ、ｊ）＝h_o（ｉ−１、ｊ−１）＋２・
ｓ（a_i、bⁿ _j）で定義される、時間点ｑのf_o（ｑ−１、
ｊ）を前記複数の経路情報として出力する経路情
報出力手段と、前記ベクトル間類似度計算手段にて計算した類
似度ｓ（a_i、bⁿ _j）と、前記経路情報出力手段から
の出力h_o（ｑ、ｊ−１）、h_o（ｑ、ｉ）、f_o（ｑ−１、
ｊ）により、漸化式 g_o（ｑ、ｊ）＝MAXh_o（ｑ、ｊ−１）＋ｓ（a_q、bⁿ _j） h_o（ｑ、ｊ） h_o（ｑ−１、ｊ）＋ｓ（a_q、bｎｊ）を実行し、ｊを標準パターンのベクトル個数J_oま
で演算した結果のg_o（ｑ、J_o）を、終端をｑとし
た部分パターンA₍₁、_q)と単語ｎを終端単語とし
た標準パターンの最適な組合せによるものとの類
似度D_p＋Ｓ（A_(1+p、_q)、Bⁿ）として出力する漸化
式実行手段と、からなることを特徴とする特許請求の範囲第３項
記載の連続音声認識装置。