JPS5938599B2

JPS5938599B2 - 連続音声認識装置

Info

Publication number: JPS5938599B2
Application number: JP50029891A
Authority: JP
Inventors: 博昭迫江
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1975-03-12
Filing date: 1975-03-12
Publication date: 1984-09-18
Also published as: JPS51104204A

Description

【発明の詳細な説明】本発明は１個以上の単語を連続して発声した音声、いわ
ゆる連続音声を自動的に認識する装置に関する。

音声認識装置は計算機へのデータ等の入力手段として、
または各種機械への制御情報の入力手段として人間工学
的にすぐれた特長を持つており、その実用化が各方面か
ら強く望まれている。

しか、し音声認識装置の開発の現状を見るに、実用的な
性能を持つたものは区切つて発生した単語音声のみを認
識できる装置に限られている。単語毎に区）一切りを入
れることは認識システムの動作速度を低下させ、また使
用者に余分な注意を要求することになり、結果として、
このような認識装置の大きな欠点となつている。

他方、連続音声を認識する装置の研究も行なわれている
が、連続音声のもつ複雑な性質のため、充分な認識率で
動作する装置はまだ開発されていない。従米試みられて
いる種々の連続音声認識法では認識動作に先だつて、ま
たは認識動作中に単語、音素、または母音＋子音＋母音
等の認識単位（以下では代表例として単語を認識単位と
する）への区分比が必要であつた。

しかし、２個以上の単語を連続発生して得られる音声パ
タンにおいては単語間の遷移は連続的であつて明確な区
分点を決定することは本質的に困難である。よつて、区
分化を行なつて認識する従来の方法には、区分化の段階
で生じる区分点の誤差に影響されて誤認識が生じる欠点
がある。単語を基本的な認識単位としたものではないが
、「日本音響学会研究発表会講演論文集（昭和４９年１
０月）のＰ２５５〜Ｐ２５６に゛ＶＣＶ音節を単位とし
た連続単語音声の認識゛と題して発表された論文］には
ＶＣＶ（Ｖは母音、Ｃは子音を意味する）音節を単位と
して連続単語音声を認識する手法が示されている。

確かに、この方法では単語間の区分点を陽に求める必要
はないが、ＶＣＶ音節としての区分点をあらかじめ定め
る必要があり、単語単位の区分を行う場合と同様の難問
を残している。本発明は区分化の操作を積極的に回避し
、区分点誤差に影響されないで良好な認識を行う連続音
声認識装置を実現することを目的としている。

本発明の構成を述べるに先だつて音声パタンの表現につ
いて説明する。いま第１時間点における音声の特徴を示
すパラメタをベクトルＡｉで示す。かくすると音声パタ
ンはＡｉの時系列としてと示される。ここにＩは音声パ
タンＡの時間長に対応する。このようなパタンＡを入力
パタンとする。

次に認識されるべき単語の集合として数字を例に取り０
、１、２・・・・・・ｎ、・・・・・・９の各数字に標
準パタンＢｎ（ｎ−０〜９）を設けるものとする。各標
準パタンＢｎはＪｎ個の特徴ベクトルより成り、のごと
く表現するものとする。ここに、ｂ！１はＪａｌと
同様な特徴ベクトルである。

また、以下の説明でぱ各ｎに対して一定の処理を行なう
ことが多いので、時としてｎを省略して標準パタンをで
代表することもある。

いま特徴ベクトルＡｉと１ｂｊとの類似性の尺度として
なる量を定義し、これをＡｉと１ｂｊとのベクトル間類
似度と称する。

Ｓ（１，ｊ）の具体的形としては、たとえば、Ａｉと１
ｂｊの内積によりとする例が考えられる。ベクトル間類
似度としては距離尺度のようにａ・とｂ・が似ている
′まど１Ｊ小になる量によることもできるがその場合に
は以下で述べる最大化の操作はすべて最小化の操作でお
きかえられる。

次にＹ個の標準パタンＢｎ（１），Ｂｎ（２），・・・
・・・Ｂｎ（Ｘ），・・・・・・Ｂｎ（Ｙ）を接続した
パタンをで示す。

ここに言う接続の操作？は単に各標準パタンの特徴ベク
トルを時系夕腋リとして続けて並べ・ることを意味する
。すなわち、このように接続したパタンを１個の時系列
として見た時と添字の一部を省略して示すこともある。

この場合当然Ｋ＝Ｊｎ（１）＋Ｊｎ（２）＋・・・
・・・＋Ｊｎ（Ｙ）となる。

本発明の原理はＱ８）式ａυ式のような接続された標準
パタンＢと（２）式のような入力パタンＡとのマツチン
グを行ない最適にマツチングが取れるｎ（１）＝宜（１
），ｎ（２）＝’匍２），・・・・・・，ｎ（Ｘ）＝玉
（Ｘ），・・・・・・，ｎ（Ｙ）＝雀（Ｙ）を決定する
ことにより入力パタンＡは単語６（１），６（２），・
・・・・・官（Ｘ）・・・・・・宙（Ｙ）より成つてい
ると判定することにある。この場合単語の個数Ｙも最適
に決定する。すなわち本発明では入力パタンＡを最適に
近似する標準パタンの個数とその種類を決定することに
よつて連続単語の認識を行なうものである。この原理に
よると連続音声の認識を通常の単語認識と同様の簡単な
考え方で処理できるが実際には以下に述べる２種類の困
難を伴なう。

第１の問題点は標準パタンＢｎを発声した時の速度と入
力パタンＡを発声するときの速さが異なることである。

このためＢの時間軸とＡの時間軸との間のずれとなつて
現われる。時間軸のずれの例を第１図に示している。図
の１には標準パタンＢ＝Ｂ３？Ｂ２４Ｂ５を時間軸ｊに
沿つて示している。Ｂは３，４，５の部分に分れていて
３は標準パタンＢ３に４はＢ２に５はＢ５に対応してい
る。２には入力パタンＡが時間軸ｉに沿つて示されてい
る。

入力パタンＡば゜３２５’’（／ＳａｎｎｉｇＯ／）を
連続発声したものであるとする。このように入力パタン
と標準パタンが同じ／ＳａｎｎｉｇＯ／であるとして
も両者の時間構造は異なつている。すなわち、／Ｓａ
ｎ／／Ｎｉ／／ＧＯ／の各部の長さは異なつて
おり、また各部をさらに細分した音声／ｓ／／ａ
／／ｎ／／ｎ／／ｉ／／ｇ／／ｏ／の各
部の長さも両者で異なる。よつて、たとえば／ａ／の部
分の位置は両者で異なる。このためｉとｊが等しいＡｉ
と１ｂｊの類似度ｓ（Ｉ，ｊ）−ｓ（Ｉ，ｉ）を全体と
して積分した量では有効な比較をすることができない。

すなわち、音声パタンにおいては各部（たとえば音素／
ｓ／／ａ／／ｎ／・・・・・・）の継続長
はあまり意味を持たずその生起順序が意味を持つから正
式のような各部の継続長に影響されやすい量は音声パタ
ンの比較の尺度として不適当である。

このため第１図に６，Ｔ，８，９１で示すように各単語
は対応する標準パタンに対応づけられるように、また１
０，１１で示すように各音素は標準パタンの対応する各
音素に対応づけられるようにして比較しなくてはいけな
い。

しかし、少なくとも入力パタンでは単語の種類と単語の
間の境界は不明でありこのような対応づけをあらかじめ
定めることはむずかしい。第２の問題点はＢが多種類で
きることである。

たとえば、５桁までの連続数字音声を扱うとすると１桁
で１０種、２桁で１００種、３桁で１０００種、４桁で
１００００種、５桁で１０００００種で、合計１１１１
１０種類のＢができるのでそれだけの回数Ａとｌのマッ
チングを行なう必要がある。いま入力パタンＡと、接続
された標準パタンＢとの類似の度合を何らかの尺度で決
定するとしてＳ（Ａ，Ｂ）と示し類似度と呼ぶ。

上に述べた認識法ではＢを（９）式で与えるとしてなる
操作を行なつて、その最適なパラメタｎ（１），ｎ（２
）・・・・・・ｎ（７）を求めることによつて判定を行
なうものである。

かくすると上に述べた２種の難点の第１はＳ（Ａ，Ｂ）
をどのようにして時間軸のずれに影響されないように定
義し、それをいかに計算するかということである。第２
はｎ（１），ｎ（２），・・・・・・，ｎ（′Ｙ）およ
びＹに関する最大化をいかにして行なうかということで
ある。本発明の特長は動的計画法を利用して上述２種の
問題点を処理していることにある。

先ず時間軸のずれの正規化に関して説明する。「日本音
響学会誌ＶＯｌ２７腐９Ｐ４８３〜Ｐ４９Ｏに゛動的計
画法を利用した音声の時間正規化に基づく連続単語認識
”と題して発表された論文」には動的計画法を利用した
時間軸正規化法が示されている。ここでは上述文献の方
法を改良して利用する。いま（２）式の入力パタンＡと
（５）式の標準パタンＢを比較する問題について説明す
る。Ｂの時間軸ｊに対してＡの時間軸１を対応させる関
数ｊ−ｊ（１）を定義してこの関数によつて１ｂｊをＡ
ｉに対応させる。ＡとＢの類似度をと定義する。

ここにベクトル間類似度ｓ（１，ｊ（１））は→１とし
て（８）式によるものとする。（１４）式はｊ−ｊ（１
）によつて対応づけられるＡｉとＢｊ（１）の間のベ
クトル間類似度ｓ（１，ｊ（１））をｉに関して積分し
た量を関数ｊ（１）に関して最大化したものとなつてい
る。このため最大化の結果として得られるｊ＝ｊ（１）
によつて対応づけられるＡｉと１ｂｊ（１）の間のベク
トル間類似度はｉ＝１〜Ｉの間で平均して見て最大にな
つている。よつてＡｉとＢｊ（１）は相互に類似した
ベクトルとなる。このことはＡｉと１ｂｊ（１）が同一
音素になるように対応づけられることになる。すなわち
第１図に直線６，１０，１１，７，８，９等で示したよ
うな対応づけが得られたことになる。なお本発明の実際
形態においては関数ｊ−ｊ（１）を陽の形で求める必要
はなく（自）式の最大値を得るだけで充分である。σ心
曳の最大化をｊ−ｊ（１）に関する総当り法で処理した
のでは計算量の点で不可能である。よつて次のような動
的計画の手法で行なう。すなわち、初期条件のもとに漸
化式をｉ−２〜１．．ｊ−１〜Ｊの範囲で計算しｇ（，Ｊ
）を求めるとこれはａ拭Ｓ（Ａ，Ｂ）となつている。

すなわちＡ５）、０６）、ａ試の計算の様子を第２図に
よつて説明する。

第２図ａは第１図のように時系列であられされるパタン
ＡとＢを互に直交するｉ軸とｊ軸に沿つて示したもので
ある。すなわち、１は標準パタンＢをＩｂｊの系列とし
てｊ軸に沿つて、２は入力パタンＡをＡｉの時系列とし
てｉ軸に沿つて示している。かくするとｉとｊの対応を
つけることは第２図のｉ−ｊ平面上に点（１，ｊ）の列
をとり２２に示す（１、１）点より始まつて２３に示す
（１．Ｊ）点に至るようにすることに対応する。Ａ３）
式に現われるｊ−ｊ（１）の一価性を保証するために隣
りあう点（１，ｊ（１））と（１−１，ｊ（１−１））
の間には第２図ＢＶＣ示すような３種の関係のみを許す
ものとする。

先のＡ５）式は第２図ａの点２２における初期条件を与
えるものである。０６）の漸化式ではｇ（１−１，ｊ）
とｇ（１−１，ｊ一１）とｇ（１−１，ｊ−２）の３種
の値を比較してその最大なものにｓ（１，ｊ）を加えて
新たにｇ（Ｉ，ｊ）とする手続きを行なうものである。

すなわち、第２図ｂで説明すると、３１，３２，３３の
点におけるｇの値を比較してそれらの最大値に３０にお
けるｓ（Ｉ，ｊ）の値を加算し新たに３０におけるｇ（
Ｉ，ｊ）としている。このような手続によつて（１、１
）点より（ｉ）ｊ）点に至る点列におけるｓ（Ｉ，ｊ
）の値の和を最大にした量が得られることは動的計画法
の原理によつて保証される。

すなわちがすべてのｉについて、ｊに関して漸化的に求
まる。

よつてｊ＝Ｊ，ｉ＝Ｉの点までＡ６）の漸化式を計
算し止式の値を求めて行くとが求まるがこれはｕ拭と一
致し目的とする類似度の値Ｓ（Ａ，Ｂ）となつている。

実際の時間軸のずれを観察して見ると通常５０％も時間
軸がずれることはない。

よつてｉ＝ｊなる直続の近傍に直線２５，２６で示す間
の領域内で考えると充分である。それ故の範囲で０ｅの
漸化式を計算するものとする。

以下ではこの領域を整合窓と称する。以上のごとくＵ４
）式によつて定義されａω、Ａ６）、Ａｎ）１２拭によ
つて計算される類似度Ｓ（Ａ，Ｂ）は音声の時間軸のず
れを正規化する方法として優れていることが実験的に確
かめられている。

しかし、この方法を直接１試に適用することは計算量の
点で大きな問題がある。それは、Ｑ３ｌ式の最大化を直
接行なおうとすると、先に第２の問題点として述べたよ
うに、Ｂの種類が多くなり、それだけＳ（Ａ，Ｂ）を計
算する処理量が増加するからである。本発明ではＱ試の
最大化を２段に分割して行なう。

いま入力パタンＡの第１時間点（ｉ＝１）より始まり第
ｍ時間点（ｉ＝ｍ）で終る部分をＡ（１，ｍ）で示す。
すなわち、以下では工を始点と称しｍを終点と称する。

入力パタンＡをＹ個の部分に分割すると、と表現される
。

ここに、４の演算子の意味は（９）式と同じである。Ｃ
９Ｏ式のＡをＡ９）式の毛と比較するときＢｎ（１）は
Ａ（１，１（１））に対応させ、−般にＢｎ閃はＡ（ｌ
（ｘ−，）＋１，１（殉）に対応させ最後にＢｎ（Ｙ）
はＡ（ｌ（Ｙ−１），Ｉ）に対応させるも＞のとする
。

このときｌ（１），ｌ（２）・・・・・・ｌ（Ｙ−１
）の区切り点は未定であるので、ＱＯ）、ロカ式を旦式
に代入するにあたつてはｌ（１），ｌ（２），・・・・
・・１（Ｙ−１）も最適化する必要があり、α』式は次
のように書きかえられる。すなわちＹ：ｎ（１），ｎ（
２），・・・・・・ｎ（Ｙ）：ｌ（１），１（２），・
・・・・・１（Ｙ−１）のすべてのパラメータについて
最適化を必要とすることになる。

しかしＩ式で定義した類似度Ｓ（Ａ，Ｂ）は加法的な量
であるの一四試は分解されて次のようになる。すなわち
、となる。

ここにｌ（ｏ）＝０１（Ｙ）＝Ｉとする。Ｆ２飢Ｃ２
５）式では最初に各Ａ（ｌ（Ｘ−，）月，１）の部分に
ついてＢｎ〆）（ｎ（ｘ）＝０〜９）との類似
度Ｓ（Ａ（ｌ（Ｘ −，）＋１，１（Ｘ）），Ｂｎ（
Ｘ））を計算し、その最大となるｎをｎ（Ｘとして求め
、次にＹ，ｌ（１），ｌ（２）・・・・・・Ｉ（Ｙ−１
）に関して類似度の総和を最大にすることになる。Ｓ（
Ａ（ｌ（Ｘ −，）＋１，１（Ｘ）），Ｂｎ内）なる
入力パタンの一部Ａ（Ｉ（ｘ−１）＋１，１（ｘ））
に関する類似度であるので以下では部分類似度と称する
。

本発明で用いる所の口ω式の計算手順は大路次のようで
ある。（Ｉ）１≦１＜ｍ≦Ｉなるすべての（１，ｍ）
の組合せについて、すべてのｎに関してＳ（Ａ（１，ｍ
），Ｂｎ）を計算しその最大となるｎをｎ＜Ｉ，ｍ＞（
以下部分判定結果と称する）とし、最大値をＳ＜１，ｍ
＞（以下部分類似度と称する）としてテーブル状に記憶
する（これですう固式のｎ（ｘ）に関する最大化を実行
したことになる）。

次に１（１），１（２）・・・・・・１（Ｙ−１）お
よびＹを最適に定めてを最大にする。

この最適パラメータｌ（１），ｌ（２）・・．・・．ｌ
（Ｙ−１）、およびＹを工（ｌ），Ｉ（２），．・
．．．．△八ｌ（Ｙ−１）、およびＹとして記憶す
る（これで（２５）式のＹ，工（Ｉ），１（２）・・・
・・・工（Ｙ−１）に関する最適化を行なつたことにな
る。

）以上の（Ｉ）、（ルの手続きによつて四式の最大化は
完了するのであるが認識結果を得るには次の手続きが必
要である。

（Ｉ！Ｊｎ＜１，ｍ＞のテーブルを参照してを認識結果
とする。

（Ｉ）、（Ｍ，佃の手続きによつて入力パタンＡを認識
することが本発明の大きな特徴である。

この方法によると全体の計算量はほぼ手続き（Ｉ）によ
つて占められるがその量は大体入力パタン長の自乗、す
なわち１２に比例し、かつカテゴリ数Ｎに比例すること
になる。しかし先のＱ争式を総当り法によつてｎ（１）
，ｎ（２）・・・・・・ｎ（Ｙ）に関して最適化する方
法では処理量はほぼＮＹに比例し、かつ入力パタン長Ｉ
と、それに含まれる単語数Ｙとがほぼ比例すると考える
とＮＩに比例することになり、ＮやＩが大なる場合には
本発明で採用した（Ｉ）、（１０、正の手続による方が
格段に少ない処理量で実行できる。本発明の別な大きな
特徴は手続田の計算量をさらに低減するものである。Ｓ
（Ａ（１，ｍ），Ｂｎ）の計算はＡ（１，ｍ）を（２）
式のＡに対応させＢｎを（５）式のＢに対応させてＱ５
）、０６）、Ｑｎの手続を実行することによつて求める
。このときＱω式の初期条件はとなり、Ａ６）式の漸化
式はの範囲で行なう。

また口ωの整合窓条件は、始点が（１，１）であること
から次のようになる。結局（２９）、（３０）．Ｇ１め
範囲で行なうことになる。これを第２図と同様な第３図
で示すと、図中に斜線で囲んで示した範囲の中のｉ＝ｌ
からｉ＝ｍの部分で行うということになる。すなわち、
この範囲で計算してｉ＝ｌ（図の４１点）を始点としｉ
＝ｍを終点とする入力パタンＡ（１，ｍ）とＢｎとの類
似度Ｓ（Ａ（１，ｍ），Ｂｎ）が１個求まる。いま、３
０の条件式を次のように変更して考える。かくすると、
凶、ＧＤ．（３試は第３図に斜線で囲んで示す範囲でＡ
ｅ式の漸化式を計算することになる。

以下ではこの斜線の部分を整合窓と称する。その結果ｊ
＝Ｊｎなる直線の点４６で示すｉ＝Ｊｎ−γ＋ｌ−
１から点４Ｔで示すｉ＝Ｊｎ＋γ＋ｌ−１までの区間４
５ではｇ（Ｉ，Ｊｎ）がすべて求まる。これらはＡ７成
の意味より明らかなようにＡ（１，ｉ）とＢｎの類似度
Ｓ（Ａ（１，ｉ），Ｂｎ）：（Ｊｎ−γ＋１−１≦ｉ≦
Ｊｎ＋γ＋ｌ−１）となつている。この変数ｉをｍに
対応させて考えるとＳ（Ａ（１，ｍ），Ｂｎ）がの範囲
ですべて求まつたことになる。

このように（３（ｊ）の条件をＧ試に変更して終端を開
放した結果１個の１に関して対応づけられる多数個（２
γ＋１個）のｍに対してＳ（Ａ（１，ｍ），Ｂｎ）が同
時に計算されることになり、（１，ｍ）を固定して（至
）の条件でＳ（Ａ（１，ｍ），Ｂｎ）を１個ずつ計算す
るのに比して必要な処理量は１／（２γ＋１）に低減さ
れた。

しかも１個のｌに対してはｏ試の範囲のｍだけを計算す
ればよいと考えられる。なぜならば、（３試は（３試よ
り、さらにさかのぼるとＦ２試より導かれたものである
が、Ｆ２゜式の説明で述べたごとく、音声の時間軸のず
れは±γ点以下と仮定しているので、Ｂｎに対応づけら
れるＡ（１，ｍ）の終端としては（３試の範囲で充分で
あると言えるからである。よつてｌを１より順次増加せ
しめて、すなわち第３図の整合窓を右にずらして、各１
に対応して酊ゆｍの範囲でｓ（Ａ（１，ｍ），Ｂｎ）
を順次求めると必要充分な（１，ｍ）に関してＳ（Ａ（
１，ｍ），Ｂｎ）が得られる。

ｌの上限は次のように決定される。

第３図に５０で示す点よりｌが大だとｍはすべてＩより
大となり無意味となるので１は点５０までで充分である
。この５０点のｉ座標はであるのでｌは１からＬ（Ｉ）まで考えればよい。

このような考えでＳ（Ａ（工，ｍ），Ｂｎ）を算出する
と、手続（Ｉ）の（至）、ＡＯで与えられる動的計画法
計算の処理量はだいたいＮ×工に比例することになり先
に示したＮＸＩ２に比すると大幅に低減される。以上の
手続（Ｉ）に関する部分を整理し、ｓ＜１，ｍ＞，ｎ＜
工，ｍ＞のテーブルを作成するまでの詳細を示すと次の
ようである。

（Ｉ−１）Ｓ＜１，ｍ＞のテーブルをすべてｏでクリ
アする。

ｎ＝０とする。

（Ｉ−２）ｌ＝１とする。

（Ｉ−３）（至）式を初期条件とし、凶、（３１１．
Ｃ３０の範囲で漸化式ＡＯを計算し、をＧ試の範囲のｍ
に関して求める。

ｍ＝Ｊｎ−γ＋ｌ−１とする。

（Ｉ−４）Ｓ（Ａ（１，ｍ），Ｂｎ）≦ｓ＜１，ｍ＞
ならば（Ｉ−５）へ行くＳ（Ａ（１，ｍ），Ｂｎ）＞
ｓ＜１，ｍ＞ならばｓ＜１，ｍ＞＝Ｓ（Ａ（１，ｍ），
Ｂｎ）ｎ＜１，ｍ＞＝ｎとする。

（Ｉ−５）ｍ＝ｍ＋１とする。

ｍ≦Ｊｎ＋γ＋ｌ−１ならば（Ｉ−４）へ行く。

ｍ＞Ｊｎ＋γ＋ｌ−１ならば（Ｉ−６）へ行く。（Ｉ
−６）ｌ＝１＋１とする。ｌ≦Ｌ（Ｉ）（Ｌ（Ｉ）は
（３拭）ならば（Ｉ−３）へ行く。

１＞Ｌ（Ｉ）ならば（Ｉ−７）へ行く。

（Ｉ−７）ｎ＝ｎ＋１とする。

ｎ＝９（数字の場合、一般にはＮ−１）ならば（Ｉ−２
）へ行く。

ｎ＞９（数字の場合、一般にはＮ−１）ならば手続（Ｉ
）は終了とする。

以上の手続（Ｉ−１）から（Ｉ−７）までは本発明の装
置の動作原理の一部の説明を明確にするために示したも
のであつて本発明が方法に関する発明であることを主張
するものではない。

また上εの手続（Ｉ−１）から（Ｉ−７）ではｌに関す
る繰返しをｎに関する繰返しより先にしたが、その逆で
あつてもさしつかえない。さらには各ｎすなわち各数字
に対して独立に動作するような手段で並列的に部分類似
度を算出する構成も可能である。次に手続（Ｗの詳細を
説明する。手続（ｍでは上に述べた手続（Ｉ）で得られ
た部分類似度のテーブルｓ＜１，ｍ＞をもとにして区切
り点ｌ（１）＝↑（１），・・・・・・，ｌ（ｘ）＝
ｌ（Ｘ），・・・・・・１（Ｙ−１）＝ｌ（Ｙ−
，）とその個数Ｙを最適に定めて口０式を最大にする。
Ｙが少ないと想定されるときは総当り法によつて行なつ
てもよいであろうが、Ｙが大、すなわちＡに含まれる単
語数が犬になると１（ｌ）・・・・・・１（Ｙ−１）の
組合せが大となり多大な処理量が必要となる。よつてこ
こでは前記の「日本音響学会研究発表会講演論文集、Ｐ
２５６（昭和４９年１０月）」に記載されている方法を
利用し、やはり動的計画法によつて処理する。いま、な
る量を定義する。

すなわち入力パタンＡの始端よりｉ＝ｋなる点までを最
適に区切つてＹ（Ｋ）個の区切り点ｌ（１），１（２）
，・・・・・・，ｌ（Ｙ（Ｋ））を定めてｓ＜ｌ（ｘ−
１），ｌ（ｘ）＞の総和を最大にした量をＴ（Ｋ）とす
る。ここにｌ（ｏ）＝１，１（Ｙ（Ｋ））＝Ｋとす
るのは四、Ｆ２Ｏ式のときと同様である。かくするとＴ
聞は初期条件漸化式によつて順次計算できｋ＝Ｉとなる最終状態において０
０式のＴの最大化が完了する。

ここで必要なのはＴの最大値ではなくて最適な，／ゝ、
／ゝｌ（ｌ），ｌ（２）・・・・・・ｌ（Ｙ−１
）であるがこれば，の漸化式の計算時に口試の右辺の最
適なｈをｈ（ｋ）（ｋ＝１、２、・・・・・・Ｉ
）として記憶しておくとを初期値としてとして順次逆順に１’（Ｘ）＝０となるまで求まる。

最後のＸがＹ＋１に対応するのでこれによつて単語数Ｙ
も定まる。よつてｌ’１，１），１９２）・・・・・・
工′（Ｙ＋１）の順序を逆転すると求める、ｌ（ｏ），
ｌ（１）・・・・・・ｌ（Ｙ）が得られる。なお、当
然↑（０）＝１，↑（Ｙ）＝Ｉとなる。以上で（Ｗの手
続が完了するが本発明では手続（１０単独に関しては何
ら新規性を主張しない。本発明の新規性は手続（Ｉ）の
部分にあり、さらには手続（Ｉ）、（Ｗ、叫の組合せに
あるのである。以上の手続（ＹＤによつて得られる１（
０），ｌ（１）・・・・・・↑（Ｙ）と手続（Ｉ）によ
つてすでに得られている部分判定結果テーブルｎ＜１，
ｍ＞をもとにして手続叫を実行することによつて最終的
には認式結果が得られる。たとえばＡの第Ｘ単語はとし
て得られる。

以上述べた手続（１）、（３）、を実行することが本発
明の骨子であるから、本発明の音声認識装置は次のよう
な各部を必要とする。

すなわち（１）入力パタンＡの全体または一部を保持す
るための入カパタンバツフア（２）標準パタンＢｎを所
用個数保持するための標準パタン記憶音艮（３）手続（
１）における類似度Ｓ（Ａ（１，ｍ），Ｂｎ）を（２８
）．Ａ６）、（３拭によつて（３試の範囲のｍに対して
算出する部分マツチング部、（４培じ分類似度Ｓ〈１，
ｍ〉の所用個数をテーブルとして記憶するための部分類
似度バツフア（４培じ分判定結果ｎ〈１，ｍ〉をテーブ
ルとして記憶するための部分判定結果バツフア、（５）
Ｓ（Ａ（１，ｍ），Ｂｎ）をもとに手続（１−４）、（
１−５）を実行してＳ〈１，ｍ〉のテーブルとｎ＜１，
ｍ〉のテーブルを作成するための部分判定部、（６）手
続（１）を実行するための全体マツチング部、（７）手
続を実行するための全体判定部をその主要部とし、別に
（８）以上の各部を制御するための制御部と、（９）入
力音声を分析して特徴ベクトルの時系列として入力パタ
ンＡを作成するための入力部とを有する。以上述べた原
理による認識方法は非常に有効であることが計算機実験
によつて確認されている。

第４図に示す第１の実施例には以上の各部の接続をプロ
ツク図で示している。図において６１は入力部であり、
信号１ｎで与えられる入力音声をＱチヤンネルの分析フ
イルタにより周波数分析して各チヤンネルの出力レベル
を時間標本化して特徴ベクトルＡｉ−（Ａｌｌ，．ａ２
ｌｌ゜゜゜゜゜゜ａＱｉ）を構成して信号ａ′としてｉ
＝１より順次出力する。６２は入カパタンバツフアであ
つて６１より順次与えられるＡｉの所用個数を一時保持
する。

ここでは簡単のために音声の始端においてｉ−１とし、
終端をｉ＝Ｉとするとき、Ａ＝ａ１、Ａ２・・・・・・
Ａｉ・・・・・・ａのすべての特徴ベクトルを保持する
ものとする。なお、Ａに含まれるベクトルＡｉの個数は
入力部６１によつて決定される。入力部は終端を決定す
ると信号ｕを発して入力パタンの分析が終了したことを
信号すると同時にベクトル個数Ｉも信号１１として出力
する。６３は標準パタン記憶部であつて（３）ｓ（４）
の形式で表現される標準パタンＢｎ（ｎ−０１１、・・
・・・・、９）を記憶しており、制闘信号ｎ１によつて
ｎが指定されるとｎに対応するＢｎを信号ｂｌとして出
力する。

６４は部分マツチング部であつて６２に保持されている
入力パタンＡと、６３より与えられる標準パタンＢｎの
間で、先に述べた手続（１−３）を実行して部分パタン
Ａ（１，ｍ）とＢｎとの類似度Ｓ（Ａ（１，ｍ），Ｂｎ
）を算出する。

なお、ｍの（３試に示す範囲ですべてのＳ（Ａ（１，ｍ
），Ｂｎ）が同時に求まることは手続（）に関する説明
に述べたとおりである。６５は部分判定部であつて６４
で計算されるＳ（Ａ（１，ｍ），Ｂｎ）をもとにして手
続（１−４）と（１−５）を実行する。

６６は部分類似度バツフアであつて６５で実行される手
続（１−４）で算出されるＳ＜１，ｍ〉を１，ｍに関す
るテーブル状に記憶する。

６７は部分判定結果バツフアであつてやはり６５で実行
される手続（１−４）で決定されるｎ＜１，ｍ〉を１，
ｍに関するテーブル状に記憶する。

６８は全体マツチング部であつて先に述べた手続（１０
を実行する。

６９は全体判定部であつて先に述べた手続を実行する。

６０は制御部であつて各種の信号を発することによつて
６１〜６９の各部の動作を制御する。

以上の各部の動作の概略は次のようである。

入力部６１と入カパタンバツフア６２の動作は先に述べ
たごとくであるので、入カパタンバツフア６２に入力パ
タンが入力され終つたことを示す信号ｕと入力パタン長
（ベクトルの個数）Ｉを示す信号１１が制御部６０に送
られた時点以後について述べる。制御部６０は最初に部
分類似度バツフア６７のすべてのＳく１，ｍ〉を制御信
号Ｃ１によつてＯにりセツトし、かつｎ−０、１、２・
・・・・・９を順次信号ｎｌとして指定する。

標準パタンバツフアは信号ｎｌで指定されるｎに対応し
て標準バタンＢｎを信号ｂ１として出力する。制御部６
０は各ｎに対してｌ−１、２、・・・・・・Ｌ（１）、
（Ｌ（１）は（財）式）を信号１１として指定する。部
分マツチング部６４は信号ａｌとして与えられる入力パ
タンＡと、信号ｂ１として与えられる標準パタンＢｎの
間で先に述べた手続（１−３）を実行して（３試の範囲
のｍに対してｓ（Ａ（１，ｍ），Ｂｎ）を算出する。部
分パタンＡ（１，ｍ）の始端を示すｌは信号１１として
与えられる。

部分判定部６５は６４より与えられるＳ（Ａ（１，ｍ）
，Ｂｎ）と信号ｎｌとして与えられるｎ１信号１１とし
て与えられる１１信号ｍｌとして（３試の範囲で与えら
れるｍおよび部分類似度バツフアより読み出されるＳ＜
１，ｍ〉をもとにして手続（１−４）、（１一５）を実
行し部分類似度バツフア６６のＳ〈１，ｍ〉と部分判定
結果テーブル６７のｎ＜１，ｍ〉を修正する。信号Ｖ１
として与えられるｌ＝１、２、・・・・・・Ｌ（１）の
すべてについて以上の処理が終了するとｎを１づつ変化
させる。ｎが９まで動作すると手続（１）がすべて終了
したことになる。制御部６０はｎ＝９までの動作がすべ
て終ると、そのことを示す信号Ｕ（第４図中省略）と入
力パタン長（ベクトルの個数１）を示す信号１２を全体
マツチング部６８に送る（第４図中省略）。６８は６６
に保持されるＳ＜１，ｍ〉のテーブルをもとにして獣を
初期値とし（３Ｖ．の漸化式をｋ＝１、２、・・・・・
・Ｉに関して計算しＴ（ｋ）のテーブルを作成し、それ
をもとにしてｌ′（ｘ）のテーブルおよび？を（４０）
．（４試によつて算出しその順序を逆転することによつ
て↑（０），↑（１），・・・・・・↑轟を算出し、信
号↑として全体判定部６９に送る。

先に述べたように↑（０）＝１↑間＝Ｉとなつているの
で、全体判定部では↑（Ｘ）と、部分判定結果バツフア
６７に記憶されるｎ＜１，ｍ〉をもとにして（５）式の
ごとくして認識結果を算出し賞として出力する。以上述
べた実施例は本発明の一構成例を示したものであつて何
ら本発明の範囲を限定するものではない。特に第４図の
６４，６５，６６、および６０，６２，６３の構成と動
作に関しては６４の部分をｎに関して並列化することに
より高速化することができる。また以上の説明では６２
には入力パタンＡの全体が保持され、その後認識のため
の動作が始まるものとして説明したが、入力パタンＡが
６２に入力されつつある時点で６３，６４，６５，６６
，６７の各部を実時間に動作させＡを処理することによ
り、入カパタンバツフア６２の容量を縮小できる。この
場合には、先に手続（１−１）〜（１−５）の説明のと
き述べたようにｎに関する繰り返しを１に関する繰り返
しより優先するか、または６４の部分をｎに関して並列
化する必要がある。また、部分類似度バツフア６６はＳ
＜１，ｍ〉をすべての１，ｍの組合せに関して記憶する
必要はない。

なぜならば１個のｌに対しては（３′Ｆ．の範囲のｍし
か必要でないからである。よつて６６では第５図に斜線
をほどこした範囲でＳ＜１，ｍ〉を記憶すればよい。な
お、第５図の７０の座標Ｍ１と、７１の座標Ｍ２は（３
試より次のように定まる。このようにして必要なＳ＜１
，ｍ〉のみを記憶することにすると６６の記憶容量は格
段に低減できる。

なお以上のことは部分判定結果バツフア６７に関しても
まつたく同様である。次に本発明の最も重要な構成部で
ある部分マツチング部の構成例を第６図に示す。

図において６２は入カパタンバツフアであつて第４図と
同じものである。ここでは簡単のため入力パタンＡの全
体が保持されているとする。６４０〜６４７が部分マ
ツチング部であつて第４図の６４に対応する。６４１は
標準パタンバツフアであつて第４図の標準パタン記憶部
より送られるＢｎを（５）式のようなパタンＢとして保
持する。

６４２はベクトル間類似度計算部であつて、１≦ｉ≦Ｉ
、１≦ｊ≦Ｊのすべての（１，ｊ）の組合せに関してＡ
ｉとｂ・をそれぞれ６２と６４１より読み出してＪ（
８）式によりベクトル間類似度ｓ（１，ｊ）を算出して
、ベクトル間類似度バツフア６４３に送りすべて記憶さ
せる。

６４３は制御信号１１，ｊ１によつて指定されるｓ（１
，ｊ）を信号ｓとして出力する。

６４４は漸化式計算部であつて入力Ｇｌ，ｇ２，ｇ，の
最大値を求めてそれにｓを加算する。

すなわち６４５は演算レジスタであつて順次計算される
ＧＯを所用個数惺持する。

６４６は部分マツチング制御部であつて第４図の制御部
より制御信号１１を受けた後、制御信号Ｉｌ，ｊｌ等に
よつて以上の各部を制御する。

６２，６４１，６４２の動作は簡単であるので６４２に
ｓ（Ｉ，ｊ）がすべて計算されたとして、それ以後の動
作について述べる。

まず最初、制御信号ΥＳを発して６４５に初期条作２印
を設定する。次に制御部はｊを１より順次増加し、ｊｌ
として出力しかつ各ｊに対してｉをｍ式の範囲で正方向
に１づつ変化させＪ２として出力する。６４３はＩｌ，
ｊｌで指定される（Ｉ，ｊ）に対応してｓ（Ｉ，ｊ）を
信号ｓとして出力する。

また６４５はやはりＩｌ，ｊｌで指定される（Ｉ，ｊ）
に対応しての３個の値を出力する。

６４４はこの３個の値とｓをもとにして（有）式を計算
するから結局ＡＯ式の漸化式を計算することになる。

よつて得られるＧ。をｇ（Ｉ，ｊ）として６４５に書き
込みながらＩ，ｊを先に述べたように変化させるとｊ＝
Ｊｎに関する演算が終つた時点ではｇ（Ｍ，Ｊｎ）が（
３試の範囲ですべて求まることになる。第６図に関する
以上の記述は本発明の主要部の原理を説明するための一
構成例を示したものであつて、本発明の範囲を限定する
ものではない。

特に、ＡＯ式より明らかなように演算レジスタにはｇ（
Ｉ，ｊ）の値は現在のｊに対応するものと、（ｊ−１）
に対応するもの、（ｊ−２）に対応するものがあれば充
分なのでｊ−３以下のものは記憶する必要はない。また
先に手続（Ｉ−１）〜（Ｉ−５）に関して補足説明した
ようにｎに関する繰返しをｌに関する繰返しよりも優先
した時には第６図とは別の構成が適したものとなる。さ
らに漸化式００自体にも種々の変形が可能である。たと
えばまたはとする方法はａ試の右辺〔〕内の第３式でｊ座標がへい
きなりｊ−２からｊに増加していることに起因する不連
続性を改善するのに有効であることが実験的に確認され
ている。

実施例を離れて、本明細書全体に関しても説明を簡単に
するために限定を加えて説明した点がいくつかあるが、
これらの記載は本発明の範囲を限定するものではない。

特に１，ｍの最小変化単位は１に限定しない。たとえば
１，ｍを２ずつ変化させると本認識装置の所用処理量お
よび部分類似度バツフアと部分判定結果バツフアに要求
される記憶量は約半減される。このように１，ｍを２ず
つ変化させても認識率が低下しないことは計算機による
シミユレーシヨン実験で確認している。

【図面の簡単な説明】

第１図は本発明の目的とする連続単語認識における問題
点を示す図で、１は３，４，５の３個の標準パタンを接
続した標準パタンＢをｊなる時間軸に沿つて示したもの
、２は入力パタンＡをｉなる時間軸に沿つて示したもの
、３は数字／Ｓａｎ×４は数字／Ｎｉ／、５は数字／
ＧＯ／の標準パタン、６，７，８，９は入力パタンと標
準パタンの単語の対応を示し、１０，１１は／Ｓａｎ／
の部分における音素／ｓ／，／ａ／，／ｎ／の対応を示
す。第２図λは本発明で採用している時間正規化の原理を説
明するための図で、１は縦軸ｊに沿つて並べた標準パタ
ン、２は横軸１に沿つて並べた入力パタン、２１はこの
ような点列を最適に定めることによつて時間軸の正規化
を行なうことを示し、２５，２６は本発明で言う所の整
合窓である。第２図ｂは第３図のｉ−ｊ平面の１部であ
つて、本明細書において一例として用いる動的計画法の
漸化式Ａ６）の計算の様子を示している。すなわち、３
０点のｇ（１，ｊ）は３１点のｇ（１−１，ｊ）と３２
点のｇ（１−１，ｊ−１）、３３点のｇ（１−１，ｊ−
２）と３０点のｓ（１−ｊ）を基にして計算される。第
３図は本発明で言う所の手続１）の実行原理を示す図で
、斜線をほどこした部分は整合窓であつて、４１はその
始点であり、４５は終点ｍの集合を示し、点５０はｌを
この点まで変化する必要があることを示す。第４図は本発明の一実施例を示すプロツク図で、６１は
入力部、６２は入カパタンバツフア、６３は標準パタン
バツフア、６４は部分マツチング部、６５は部分判定部
、６６は部分類似度バツフア、６７は部分判定結果バツ
フア、６８は全体マツチング部、６９は全体判定部、６
０は制御部である。第５図は部分判定結果バツフアおよび部分類似度バツフ
アの所用記憶容量を低減する工夫を示す図で、斜線をほ
どこした部分のみを記憶すればよいことを示す。第６図
は本発明の重要な一構成要素である部分マツチング部の
構成例を示し、６２は入力パタンバッファ、６４１は標
準パタンバツフア、６４２はベクトル間類似度計算部、
６４３はベクトル間類似度バツフア、６４４は漸化式計
算部、６４５は演算レジスタ、６４０は部分マツチング
制御部である。

Claims

【特許請求の範囲】

１特徴ベクトルの時系列として表現される入力パタン
Ａ＝ａ＿１、ａ＿２、・・・・・、ａ＿ｉ、・・・・・
、ａ＿Ｉの所用部分を一時記憶するための入力パタンバ
ッファと、各単語クラスｎ（ｎ＝１、２、・・・・・・
Ｎ）に対してあらかじめ設定される標準パタンＢ＾ｎ＝
｜ｂ＾ｎ＿１、｜ｂ＾ｎ＿２・・・・・・、｜ｂ＾ｎ＿
ｊ・・・・・・｜ｂ＾ｎ＿ｊ＿ｎを記憶するための標準
パタン記憶部と、各ｎに対して、入力パタンの時間点ｉ
＝ｌを始点としｉ＝ｍを終端とする部分パタンＡ（ｌ、
ｍ）＝ａ＿ｌ、ａ＿ｌ＿＋＿１、・・・・・・、ａ＿ｉ
、・・・・・・、ａ＿ｍ（１≦ｌ＜ｍ≦Ｉ）と標準パタ
ンＢ＾ｎの間で部分パタンの時間軸ｉに標準パタンの時
間軸ｊを対応させる関数ｊ（ｉ）を最適に定めてａ＿ｉ
と｜ｂ＿ｊ（ｉ）の間で定義されるベクトル間類似度Ｓ
（ｉ、ｊ）の和の最大値Ｓ（Ａ（ｌ、ｍ）、Ｂ＾ｎ）を
求める操作を動的計画法によつて行ない、各Ｉに対して
複数のｍの範囲で上記ＳＳ（Ａ（ｌ、ｍ）、Ｂ＾ｎ）を
出力する部分マッチング部と、始点ｌおよびそれに対応
して終端ｍを順次変化させて部分マッチング部で算出さ
れるＳ（Ａ（ｌ、ｍ）、Ｂ＾ｎ）のｎに関する最大値で
ある部分類似度Ｓ＜ｌ、ｍ＞およびその最大値を与える
ｎである部分判定結果ｎ＜ｌ、ｍ＞を決定するための部
分判定部と、上記部分類似度Ｓ＜ｌ、ｍ＞の所用個数を
テーブル状に記憶するための部分類似度バッファと、上
記部分判定結果ｎ＜ｌ、ｍ＞の所用個数をテーブル上に
記憶するための部分判定結果バッファと、入力パタンＡ
に含まれる単語の個数Ｙおよび（Ｙ−１）個の区切り点
ｌ＿（＿１＿）、ｌ＿（＿２＿）、・・・・・・、ｌ＿
（＿Ｘ＿）、・・・・・・ｌ＿（＿Ｙ＿−＿１＿）を最
適に定めて連続しかつ重複しない区間の部分類似度の和
Ｓ＜１、ｌ＿（＿１＿）＞＋Ｓ＜ｌ＿（＿１＿）＋１、
ｌ＿（＿２＿）＞・・・・・・＋Ｓ＜ｌ＿（＿Ｘ＿−＿
１＿）＋１、ｌ＿（＿Ｘ＿）＞・・・・・・＋Ｓ＜ｌ＿
（＿Ｙ＿−＿１＿）＋１、Ｉ＞を最大にする区切り点■
＿（＿１＿）、■＿（＿２＿）、・・・・・・、■＿（
＿Ｘ＿）、・・・・・・■＿（＿Ｙ＿−＿１＿）を求め
る操作を行なうための全体マッチング部と、全体マッチ
ング部によって決定される区切り点■＿（＿１＿）、■
＿（＿２＿）・・・・・・、■＿（＿Ｘ＿）、・・・・
・・■＿（＿Ｙ＿−＿１＿）と部分判定結果バッファに
保持されるｎ＜ｌ、ｍ＞によつてＹ個の認識結果ｎ＜１
、■＿（＿１＿）＞、ｎ＜■＿（＿１＿）＿＋＿１、■
＿（＿２＿）＞、・・・・・・ｎ＜ｌ＿（＿Ｘ＿−＿１
）＋１、Ｉ＿（＿Ｘ＿）＞、・・・・・・、ｎ＜ｌ＿（
＿Ｙ＿−＿１＿）＋１、Ｉ＞を決定する全体判定部とを
有することを特徴とする連続音声認識装置。