JPH0566599B2

JPH0566599B2 -

Info

Publication number: JPH0566599B2
Application number: JP59269955A
Authority: JP
Inventors: Hidekazu Tsuboka
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1984-12-21
Filing date: 1984-12-21
Publication date: 1993-09-22
Also published as: JPS61148498A

Description

【発明の詳細な説明】

産業上の利用分野本発明は連続発声された単語や文節を音節等の
音声素片単位で認識する音声認識装置に関する。従来の技術人間にとつて最も自然な情報発生手段である音
声が、人間−機械系の入力手段として使用できれ
ば、その効果は非常に大きい。従来、音声認識装置としては特定話者登録方式
によるものが実用化されている。即ち、認識装置
を使用しようとする話者が、予め、認識すべきす
べての単語を自分の声で特徴ベクトルの系列に変
換し単語辞書に標準パターンとして登録してお
き、認識時に発声された音声を、同様に特徴ベク
トルの系列に変換し、前記単語辞書中のどの単語
に最も近いかを予め定められた規即によつて計算
し、最も類似している単語を認識結果とするもの
である。ところが、この方法によると、認識単語数が少
いときには良いが、数百、数千単語といつたよう
に増加してくると、主として次の三つの問題が無
視し得なくなる。 (1) 登録時における話者の負担が著しく増大す
る。 (2) 認識時に発声された音声と標準パターンとの
類似度あるいは距離を計算するのに要する時間
が著しく増大し、認識装置の応答速度が遅くな
る。 (3) 前記単語辞書のために要するメモリが非常に
大きくなる。以上の欠点を回避するための方法として認識の
単位を子音＋母音および母音の単音節（以後それ
ぞれCV，Ｖで表す。Ｃは子音、Ｖは母音を意味
する。）とする方法がある。即ち、標準パターン
として単音節を特徴ベクトルの系列として登録し
ておき、認識時に特徴ベクトルの系列に変換され
た入力音声を、前記単音節の標準パターンとマツ
チングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか
101種類であり、単音節は仮名文字に対応してい
るから、この方法によれば、日本語の任意の単語
あるいは文章を単音節列に変換する（認識する）
ことができ、前記(1)〜(3)の問題はすべて解決され
ることになる。しかし、この場合の問題として調
音結合とセグメンテーシヨンがある。調音結合
は、音節を連続して発声すると各音節は前後の音
節の影響を受け、スペクトル構造が前後に接続さ
れる音節によつて変化する現象である。セグメン
テーシヨンは、連続して発声された音声を単音節
単位に区切ることであるが、これを確実に行う決
定的な方法は未だ見出されていない。この２つの
問題を解決するために、現在のところ各単音節を
区切つて、発声することが行われており、実用化
されている装置もある。しかし、単音節を離散的に発声するのは不自然
であり、話者に緊張を強いるものである。発明が解決しようとする問題点本発明は前記連続発声された音声に対するセグ
メンテーシヨンの不確実さを回避し、あわせて、
連続発声された単語または文節を認識することが
できる連続音声認識装置を提供することを目的と
する。問題点を解決するための手段本発明は、単語・文節等を連続発声して得られ
る入力音声信号を特徴ベクトルの系列に変換する
特徴抽出手段と母音、子音あるいはそれらの結合
したもの等として定義される音声素片のそれぞれ
に対応した特徴ベクトルの系列を前記音声素片名
に対応づけて記憶する標準パターン記憶手段と、
入力パターンに対して素片の境界を検出する素片
境界候補検出手段と標準パターンのそれぞれと前
記入力パターンから検出された前記素片境界候補
の任意または定められた種々の組合せによつて決
定される部分区間（第１の部分区間）とのマツチ
ングを行つて両者の距離（類似度）を計算する素
片マツチング手段と、認識さるべき各単語・文節
等を前記音声素片名の系列として表現した単語・
文節等を記憶する単語・文節辞書と、この認識さ
るべき各単語・文節と前記入力パターンの任意ま
たは定められた前記素片境界候補の種々の部分区
間（第２の部分区間）との距離（類似度）を、前
記単語・文節辞書によつて指定される素片名の系
列に対応するように、前記第２の部分区間に含ま
れる前記第１の部分区間群を隣り合う区間が連続
するように最適に定めることにより、前記第１の
各部分区間の始点と終点およびその部分区間の前
記素片名に対応する距離（類似度）の総和を最小
（最大）とし、得られる最小値（最大値）を各単
語・文節に対する前記第２の部分区間の距離とし
て出力する機能を有する単語・文節マツチング手
段と、前記第２の部分区間群を隣り合う区間が連
続するように最適に定めることにより、前記第２
の各部分区間の始点と終点およびその部分区間の
前記単語・文節名に対応する距離（類似度）の総
和を最小（最大）となし、そのときの単語・文節
列を認識結果として判定する連続単語・文節判定
手段とを備えた連続音声認識装置である。作用本発明は前記した構成により、単語・文節等を
連続発声して得られる入力音声信号を特徴ベクト
ルの系列に変換し、母音、子音あるいはそれらの
結合したもの等として定義される音声素片のそれ
ぞれに対応した特徴ベクトルの系列を前記音声素
片名に対応づけて記憶された標準パターンと、こ
の標準パターンのそれぞれと前記入力パターンか
ら検出された素片境界候補の任意または予め定め
られた種々の組合せによつて決定される部分区間
（第１の部分区間）とのマツチングを行つて両者
の距離（類似度）を計算し、認識さるべき各単
語・文節等を前記音声素片名の系列として表現し
た単語・文節等の認識さるべき各単語・文節と前
記入力パターンの任意または定められた前記素片
境界候補の種々の部分区間（第２の部分区間）と
の距離（類似度）を、前記単語・文節によつて指
定される素片名の系列に対応するように、前記第
２の部分区間に含まれる前記第１の部分区間群を
隣り合う区間が連続するように最適に定めること
により、前記第１の各部分区間の始点と終点およ
びその部分区間の前記素片名に対応する距離（類
似度）の総和を最小（最大）とし、得られる最小
値（最大値）を各単語・文節に対する前記第２の
部分区間の距離とし、前記第２の部分区間群を隣
り合う区間が連続するように最適に定めることに
より、前記第２の各部分区間の始点と終点および
その部分区間の前記単語・文節名に対応する距離
（類似度）の総和を最小（最大）となし、そのと
きの単語・文節列を認識結果として判定する。実施例以後、「単語」という言葉は「文節」という言
葉も代表するものとする。また、「類似度」は
「距離」で代表して説明する。即ち、距離が小さ
いとは類似度が大きいということである。先ず本
発明の基本であるDPマツチングについて述べる。第２図は離散単語の認識を行う場合のDPマツ
チングを説明する格子グラフである。即ち、入力
パターンＡ＝a₁，a₂…a_i…a_Iと標準パターンBⁿ＝
bⁿ ₁，bⁿ ₂…bⁿ _j…bⁿ _jｎとの距離を求める場合を示して
いる。横軸は入力パターン、縦軸は標準パターン
を示し、１は両者の特徴ベクトルの対応関係を示
す曲線である。DPマツチングは、この径路を最
適に定めることにより、その径路によつて対応づ
けられるa_iとbⁿ _jとの距離dⁿ（ｉ，ｊ）のこの径路
に沿う荷重平均を最小化し、その最小値を以つて
両者の距離とするものであつて、この計算を効率
的に行うものである。dⁿ（ｉ，ｊ）は例えば、dⁿ
（ｉ，ｊ）＝｜a_i−bⁿ _j｜等で表すことが可能であ
る。この場合、径路１を求めるについては、径路
選択のための拘束条件が設けられる。同図ｂは、
その径路拘束条件の一例である。即ち、点（ｉ，
ｊ）に至る前の点は、点（ｉ＋１，ｊ＋２）、点
（ｉ＋１，ｊ＋１）、点（ｉ＋２，ｊ＋１）であ
り、点（ｉ，ｊ）に至る径路は同図に示す径路に
限定される。同図の径路上に示した数字は、その径路が選ば
れたときの重み係数を示す。本例のような、径路
の拘束を行う場合は、図ａの格子グラフ上におい
て、任意の格子点間を結ぶ径路は、その選び方の
如何によらず荷重和は一定で、両点の間の入力パ
ターンの長さに等しくなる。従つて、この場合は
径路に沿う前記dⁿ（ｉ，ｊ）の総和を荷重和で平
均する必要はなく総和そのものを入力パターンと
標準パターンとの距離とすることができる。具体
的な計算は次の漸化式を解くことによつて実行さ
れる。即ち Dⁿ（ｉ，ｊ）＝minDⁿ（ｉ＋１，ｊ＋２）＋dⁿ（ｉ，ｊ
） Dⁿ（ｉ＋１，ｊ＋１）＋dⁿ（ｉ，ｊ） Dⁿ（ｉ＋１，ｊ＋１）＋dⁿ（ｉ，ｊ） Dⁿ（ｉ＋２，ｊ＋１）＋dⁿ（ｉ＋１，ｊ）＋dⁿ（ｉ，ｊ
）…(1) をｉ＝Ｉ，Ｉ−１，…，２，１，ｉ＝Jⁿ，Jⁿ−
１，…，２，１について初期値Dⁿ（Ｉ，Jⁿ）＝dⁿ
（Ｉ，Jⁿ）のもとで解き、Dⁿ（１，１）を両者の
距離とするものである。径路の拘束条件を同図ｂのように選ぶことによ
り実際に選択可能な径路は同図ａの斜線の内部に
制限される。このことは、パターンＡとパターン
Bⁿは、同じ単語に対するものであるときは、そ
れ程ずれるはずはなく、異つた単語に対するもの
であるときは、無理な対応付をして両パターンの
距離値を不当に小さくする虞れのないようにする
という目的に合致したものである。第３図、第４図は、DPマツチングによつて、
連続単語認識を行う場合の本発明の原理を説明す
る図である。第３図はｋ番目の音節境界を終点と
し、後述の範囲を始点とする入力パターンの部分
パターンと、Ｖ，CV，VV，VCV（Ｖは母音、Ｃ
は子音）等の音節（音声素片）標準パターンとの
DPマツチングの様子を説明する図であつて、横
軸を入力パターン、縦軸を標準パターンとする格
子グラフである。４はｊ＝１の直線、n₁，n₂はそ
れぞれ音声素片標準パターンの１例を示すもので
あり、素片ｎのフレーム数をJⁿとしている。い
ま、前記入力の部分パターンと素片n₁の標準パタ
ーンとマツチングする場合を考える。このとき、
第１図ｂの径路の拘束条件を適用すると第ｋ番の
素片境界候補をSt(k)（ｋ＝０は語頭）とすれば、
点（St(k)，Jⁿ¹）のマツチングの開始点に対して、
マツチングの範囲は直線５，６，４で囲まれる範
囲となり、点９〜点１０の間の素片境界候補点を
k′とすれば、漸化式(1)の計算に従つて、k′〜ｋの
入力パターンの部分パターンと、n₁の標準パター
ンRⁿ¹との素片累積照合距離Dⁿ¹（k′：ｋ）はDⁿ¹
（k′：ｋ）＝Dⁿ¹（St（k′），１）で与えられる。こ
こ
に、点９は直線５と直線４との交点、点１０は直
線６と直線４との交点であつて、直線５は傾き1/
２、直線６は傾き２である。この場合、第ｋ素片
境界候補点を終点とする入力パターンの部分パタ
ーンと、標準パターンRⁿ¹とのマツチングにおい
て、始点k′の範囲は、点９〜点１０の間というこ
とになり、漸化式１によりｊ＝Jⁿ，Jⁿ−１，…，
１のそれぞれに対して、i′＝max｛St(k)−２（jⁿ−
ｊ），１｝，｛St(k)−２（Jⁿ−ｊ）＋１，１｝，…，
max｛St(k)−〔（Jⁿ−ｊ＋１）／２〕，１｝について
Dⁿ¹（i′，ｊ）を順次計算してゆくことにより、点
９、点１０の間のk′に対するDⁿ¹（k′：ｋ）＝Dⁿ¹
（St（k′），１）は同時に求まる。ここで、max
｛ｘ，ｙ｝はｘ，ｙのうち大きい方の値を意味し、
〔ｘ〕はｘを越えない最大の整数を示す。またｊ
＝ｊにおけるi′の範囲は、Dⁿ（i′，ｊ）はi′０に
おいては定義されていないので、上記の如くな
る。同様に、標準パターンRⁿ²に対しては、点
（St(k)，Jⁿ²）を通る傾き1/2の直線２と直線４と
の交点７と、点（St(k)，Jⁿ²）を通る傾き２の直
線３と直線４との交点８の範囲のk′に対し、Dⁿ²
（k′：ｋ）＝Dⁿ²（St（k′），１）が求まる。入力の
各
境界候補フレームSt(k)において、ｎ＝１，２，
…，Ｎに対してこのようにして、Dⁿ（k′：ｋ）を
求める。第４図は、標準パターンを単語としたとき、前
記素片標準パターンに対するのと同様な計算を行
う方法を説明している。即ち、入力の第St(k)フレ
ームを終点とし、後述の範囲を始点とする入力パ
ターンの部分パターンと単語ｗに対する標準パタ
ーン^wとのDPマツチングの様子を説明してお
り、横軸を入力パターン、縦軸を標準パターンと
する格子グラフである。１１はj′＝１の直線、
^ｗ＝R^s(w,1)、R^s(w,2)，R^s(w,3)は単語標準パターン^w
の一例を示している。ここでj′は単語標準パター
ン^wの第１フレームから最終フレームまで通し
て付されたフレーム番号とし、ｓ（ｗ，）は単
語ｗの第番目の音声素片名を表す番号で、本例
では単語ｗは３つの素片名の系列からなり、単語
ｗの標準パターン^wはこれに対応する３つの素
片標準パターンR^s(w,1)、R^s(w,2)，R^s(w,3)の結合した
ものとして表わされている。この場合も第２図ｂ
の拘束条件を適用すると、単語ｗのフレーム数は
Ｊ^w＝J^s(w,1)＋J^s(w,2)，＋J^s(w,3)であつて、点（St(k
)，
Ｊ^w）のマツチングの開始点に対して、マツチン
グの範囲は、直線１２，１３，１１で囲まれる範
囲となり、点１４〜点１５の間の境界候補番号を
k′とすれば、漸化式(1)と同様な計算に従つて、
k′〜ｋの入力パターンの部分パターンと、^wと
の単語累積照合距離^w（k′：ｋ）が求まる。即
ち、この場合の漸化式は^w （i′，j′）＝min^w（i′＋１，j′＋２）＋^w（
i′，j′）^w （i′＋１，j′＋１）＋^w（i′，j′）^w （i′＋１，j′＋１）＋^w（i′，j′）^w （i′＋２，j′＋１）＋^w（i′＋１，j′）＋^w
（i′，j′）…(2) 初期値 ^w（St(k)，^w）＝^w（St(k)，^w）
となり、^w（i′，j′）をj′＝^w，^w−１，…，
２，１の各々に対しi′を直線１２〜１３の範囲で
逐次計算してゆくことにより、^w（k′：ｋ）＝
^ｗ（St（k′），１）として求めることができる。こ
こで、^w（i′，j′）は入力の第i′フレームの入力
パターンの特徴ベクトルa_i′と単語ｗの標準パタ
ーン^wの第j′フレームの特徴ベクトル^w _j′とのベ
クトル間距離であり前記dⁿ（ｉ，ｊ）と同様の定
義^w（i′，j′）＝｜a_i′−bⁿ _j′｜が用いられる。ま
た、
直線１２は点（St(k)，^w）を通る傾き1/2の、直
線１３は点（St(k)，^w）を通る傾き２の直線で
あり、点１４は直線１２と１１との、点１５は直
線１３と１１との交点である。次いでｗ∧＝arg
ｍｉｎｗ〔^w（k′：ｋ）〕を計算する。argｍｉｎｘ
in〔ｆ(x)〕はｆ(x)を最小にするｘを意味する。連
続発声された単語を認識するには、ｋ＝１，２，
…，Ｋについて以上の計算を行い、入力パターン
を個数、位置等に関して最適に分割し、分割され
たそれぞれの部分区間に対する前記最小の単語累
積照合距離を最小となし、そのときのそれぞれの
部分区間に対して求められた前記単語をそれぞれ
の区間に対する認識結果とすれば良いのである
が、単語数が厖大になつてくると前記方法で単語
累積照合距離^w（k′：ｋ）を求めるのは計算量
が厖大となる。そこで、本発明では、この単語累
積照合距離を求めるのに前記素片累積照合距離を
用いることによりこの計算量を大幅に削減してい
る点に特徴がある。即ち、本例においては、^w
の最後の素片標準パターンR^s(w,3)と入力パターン
のマツチングは直線１２，１３，１６で囲まれる
領域について行われ、その結果^w（St（k′），３）
は直線１６上、直線１２，１３で挾まれる部分に
既に素片累積照合距離D^s(w,3)（k′：ｋ）として求め
られている。k′は前記部分に含まれる素片境界候
補番号である。直線１６はj′＝^w−J^s(w,3)＋１で
ある。単語標準パターン^wの最終フレームから、
最後から２番目の素片R^s(w,2)までのマツチング
は、直線１２，１３，１７で囲まれる領域につい
て行われ、その結果^w（k′，２）は、直線１７
の、直線１２と１３で挾まれる部分に求められる
ものであるが、これは、動的計画法の原理に従つ
て^w （k′，２）＝min k″ 〔^w（k″，３）＋D^s(w,2)（k′：k″）〕として求められる。素片累積照合距離D^s(w,2)（k′：
k″）および途中累積照合距離^w（k′，３）は既
に求められているものである。ここで、直線１７
はj′＝^w−J^s(w,3)−J^s(w,2)＋１であつて、k′は直
線
１７の直線１２，１３に挾まれる部分に含まれる
入力パターンの素片境界候補番号である。また
k″は例えばk′が直線１７上の点２０のときは、直
線１６上の点であつて、点２０を通り直線１３に
平行な直線１８と直線１２に平行は直線１９に挾
まれる部分と直線１２と１３に挾まれる部分の共
通部分の素片境界候補番号である。k′が点２３の
ときも同様に、k″は、直線１６の点であつて、
点２３を通りそれぞれ直線１３，１２に平行な直
線２１，２２に挾まれる部分と、直線１２，１３
に挾まれる部分の共通部分の素片境界候補番号で
ある。これは、径路の拘束条件を図２ｂのように
したときは、点（St(k)，^w）から点２０へ至る
マツチングの径路は直線１２，１３，１８，１９
で囲まれる平行四辺形の内部に限定され、点（St
(k)，^w）から点２３へ至るマツチング径路は直
線１２，１３，２１，２２で囲まれる平行四辺形
の内部に限定されることを意味する。同様に、単
語標準パターンの最終フレームから、最後から３
番目までの素片（本例では単語ｗの最初の素片）
R^s(w,1)までのマツチングは直線１１，１２，１３
で囲まれる領域について行われ、その結果^w
（k′，１）は点１４〜点１５の部分について求め
られるものであるが、これも、動的計画法の原理
に従つて、^w （k′，１）＝min k″ 〔^w（k″，２）＋D^s(w,1)（k′：k″）〕として求められ、素片累積照合距離D^s(w,1)（k′：
k″）、単語途中累積照合距離^w（k″，２）は既
に求められているものである。以上のようにし
て、素片累積照合距離を予め求めておき、これか
ら単語累積照合距離^w（k′：ｋ）を^w（k′：
ｋ）＝^w（k′，１）として求めることができる。
それぞれの単語ｗをそれを構成する素片標準パタ
ーンの結合で表わし、それと入力パターンと直接
マツチングする場合は各フレームにおいて単語数
だけのマツチング計算が必要であるのに比べて、
本発明の方法によれば入力の各フレームにおいて
はたかだか素片数のマツチングのみすれば良いか
ら数千語にも及ぶような大語彙単語に対する認識
の場合ははるかに少い計算量で、等価な結果が得
られるものである。単語累積照合距離^w（k′：k″）が求まると、
第St(k)フレームを最終フレームと仮定したとき、
第１フレームから第St(k)フレーム迄の最適の単語
列は動的計画法の原理により次の漸化式により求
めることができる。即ち、Ｄ〜(k)を入力の第１フレ
ームから第St(k)フレーム迄の部分パターンとそれ
に対する最適の単語列に対する特徴ベクトルの系
列との累積照合距離、Ｂ〜（(k)を最後尾単語から１
つ手前の単語の最終境界候補番号、Ｎ〜(k)を最後尾
単語名とすれば、初期条件Ｄ〜(o)＝０，Ｂ〜(o)＝０と
してＤ〜(k)＝min k′，ｗ〔Ｄ〜（k′）＋Ｄ〜^w（k′：ｋ）〕Ｂ〜(k)＝ｋ＾′ Ｂ〜(k)＝ｋ＾′ Ｎ〜(k)＝ｗ＾（ｋ＾′，ｗ＾は上式を満足するk′，
ｗ）…(3) で与えられる。ｋ＝１，２，…，Ｋについて上記
計算を行えば、認識結果は次のように求まる。最後の単語：Ｎ〜（Ｋ）最後から２番目の単語：Ｎ〜（Ｂ（Ｋ））最後から３番目の単語：Ｎ〜（Ｂ（Ｂ（Ｋ））） … 最初の単語：Ｎ〜（Ｂ〜（Ｂ〜（…（Ｂ〜（Ｋ））…
）））でＢ〜（Ｂ〜（…（Ｂ〜（Ｋ））…）））＝０となつた
とき
終了する。第５図はＮ〜（Ｋ），Ｂ〜（Ｋ）から上の単語列を
求めるフローチヤートである。以上は単語数未知の場合の最適解を求める例で
あるが、単語数が既知の場合、オートマトン制御
による場合も式(3)の変更により簡単に本発明方法
を用いることができる。単語数既知の場合は、Ｘを単語数、Ｄ〜_x(k)を入
力パターンの第１フレームから第St(k)フレームま
での部分パターンと、ｘ個の単語標準パターンを
最適に連結した標準パターンとの累積照合距離、
Ｂ〜_x(k)を前記Ｄ〜_x(k)に対するバツクポインタ、Ｎ〜
_x
(k)を前記Ｄ〜_x(k)に対する最後尾単語とすれば、式
(3)の漸化式は、初期条件Ｄ〜_p（Ｏ）＝０，Ｂ〜_p（Ｏ
）
＝０としてＤ〜_x(k)＝min i′，ｗ〔Ｄ〜_x-1（k′）＋^w（k′：ｋ）〕Ｂ〜_x(k)＝ｋ＾′ Ｂ〜_x(k)＝ｋ＾′ Ｎ〜_x(k)＝ｗ＾（ｋ＾′，ｗ＾は上式を満足するk′
，ｗ）…(4) によつて与えられる。ｋ＝１，２，…，Ｋについて式(4)の計算を行え
ば、認識結果は次のように求まる。最後の単語：Ｎ〜_x（Ｋ）最後から２番目の単語：Ｎ〜_x-1（Ｂ〜_x（Ｋ））最後から３番目の単語：Ｎ〜_x-2（Ｂ〜_x-1（B_x
（Ｋ））） … 最初の単語：Ｎ〜₁（Ｂ〜₂（Ｂ〜₃（…（Ｂ〜_x（Ｋ）
）
…）））でＢ〜₁（Ｂ〜₂（Ｂ〜₃（…（Ｂ〜_x（Ｋ））…）））＝
０とな
つて終了する。第６図はＮ〜_x(k)，Ｂ〜_x(k)から上の単語列を求める
フローチヤートである。オートマトン制御の場合は次のようになる。通常のオートマトンの認識問題と異なる点は、
時間を表わすフレーム番号も変数として入つてい
る点であり、しかも単に受理、拒否の出力でな
く、受理可能な度合（累積距離）が出力される点
である。Ｄ〜_q(k)を状態ｑで入力のSt(k)フレームで終端す
ると仮定したあらゆる単語列のうちの最小累積距
離、Ｎ〜_q(k)をＤ〜_q(k)に対応する単語列の最後尾単語
名、Ｂ〜_q(k)をＮ〜_q(k)の始点位置マイナス１（Ｎ〜_q(
k)の
一つ前の単語の長終フレーム、即ちバツクポイン
タ）、Ｑ〜_q(k)をｑへの状態遷移によつてＤ〜_q(k)を満
たした状態名即ちΔを状態遷移規則とするときΔ
（Ｑ〜_q(k)，Ｎ〜_q(k)）＝ｑとするとき、次の漸化式を
解
くことで、オートマトン制御による解が得られ
る。即ち式(4)のｘを状態ｑと読み代えることによ
つて、Ｄ〜_q(k)を求める漸化式は次のようになる。初期条件Ｄ〜_p（Ｏ）＝０，Ｂ〜_p（Ｏ）＝０としてＤ〜_q(k)＝min k′，ｗ，ｐ〔Ｄ〜_p（k′）＋^w（k′：ｋ）〕，ｑ＝Δ（ｐ，ｎ）
…(5) をｑ＝１，２，…，｜ｓ｜−１について求め（ｓ
は状態ｑの有限集合）、この式を満たすk′，ｗ，
ｐをｋ＾′，ｗ＾，ｐ＾とするとき、Ｎ〜_q(k)＝ｗ＾，Ｂ〜_q(k)＝ｋ＾′，Ｑ〜_q(k)＝ｐ＾とする。ｋ＝Ｋまでこの計算を行えば、次のよう
にして最後尾の単語から逆順に単語が求まる。即
ち、ｋ＝Ｋ，ｑ＝ｍｉｎｑ_f Ｄ〜_qf∈Ｆ（Ｆは最終状
態の集合）としてｗ＾＝Ｎ〜_q(k) Ｂ〜_q(k)≠０なら、ｋ＝Ｂ〜_q(k)，ｑ＝Ｑ〜_q(k)と
し
てへ、Ｂ〜_q(k)＝０なら終了する。第７図はフローチヤートである。第１図は本発明の一実施例である。本実施例は
単語数未知の場合の例である。音声素片として
は、VCV音節、CV音節等を用いる場合について
説明する。この場合、音節の境界は母音定常部の
中心であるとする。１００は音声信号端子であ
る。１０１は特徴抽出部で、フイルタバンク等で
構成されており、入力音声信号を特徴ベクトルの
系列a₁，a₂，…，a_Iに変換する。１１６は母音標準パターン記憶部であつて、各
母音の標準パターンを記憶している。１１７は母
音認識部であつて、入力パターンの各フレームに
ついて母音標準パターン記憶部１１６の各母音標
準パターンと比較を行い、各フレームを母音とみ
なして母音認識を行う。これは例えば入力の各フ
レームと各母音標準パターンの距離を求めること
によつてできる。１１８は母音中心検出部であつ
て、母音認識部１１７の出力母音系列から、入力
パターンの各母音部の中心を検出する。例えば、
同一母音が連続する場合、その中心部をその母音
の母音中心とする等である。１１９は入力パター
ンから無音区間の検出、子音の大まかな分類を行
うものである。無音区間の検出は、入力パターン
から電力を求め、その値が予め定めた閾値より下
にあれば無音、上にあれば有音として判定でき
る。子音の大分類は、スペクトルの偏より等の周
知の方法を用いることにより、子音部の検出と摩
擦性、破裂性等の大まかな識別を行う。１２０は
特徴系列記憶部であつて、母音中心検出部１１８
で得られる母音中心の母音系列と、無音区間検
出・子音大分類部１１９で得られる無音、子音等
の系列を記憶するものである。１０２は素片標準
パターン記憶部であつて、CV，VCVのそれぞれ
に対応する特徴ベクトルの系列を標準パターンと
して記憶している。１０３は素片マツチング部で
あつて、入力パターンと、素片標準パターンとの
DPマツチングを行う。このとき例えば、ｋ番目
の母音中心における処理をする場合を考えるとｋ
番目の母音中心部の母音の認識結果をＶ(k)とすれ
ば、k′ｋ−１に対して入力パターンのフレーム
St（k′）からSt（ｋ）までの部分パターンと、先行
母音が、Ｖ（k′）、後続母音がＶ(k)、子音が特徴系
列記憶部１２０で記憶されている第k′番の母音中
心と第ｋ番の母音中心の間の子音大分粒結果を満
たすVCV音節標準パターンRⁿとのDPマツチング
を行い、素片累積照合距離Dⁿ（k′：ｋ）を計算す
る。ここにk′は前記第３図において説明し各音節
標準パターンに対して決定される三角形の底辺の
上に存在するもののみを考慮すれば良い。ただ
し、ｋ＝１，２，…，ｋに対し、max｛St(k)−２
（Jⁿ−１），１｝St（k′）max｛St(k)−〔（Jⁿ−
ｊ
＋１）／２〕，１｝，ｎは前記条件を満たすｎである。また、Dⁿ（k′：ｋ）はSt（k′）０においては定
義されていないので、St（k′）の範囲は第２図ｂ
の径路の拘束条件を用いるときはここに示した範
囲となる。１０４は素片マツチング部で計算され
た素片累積照合距離Dⁿ（k′：ｋ）を記憶する部分
である。１０５は単語辞書であつて、認識すべき
各単語ｗが音声素片名の系列として表わされたも
のが記憶されている。１２１は候補単語判定部であつて、単語辞書１
０５から読み出される単語がマツチングすべき単
語か否かを特徴系列記憶部１２０の記憶内容と比
較し、予め候補単語を予備選択するものである。
今、母音中心の検出は挿入はあつても脱落はない
ものとし、挿入は２つ続けては生じないものとす
れば、第８図ａに示すマツチング径路を用いて、
特徴系列同志のマツチングをとり、候補単語の選
出を行うものである。即ち、素片をVCV音節と
すれば単語辞書の単語の第＋１音節の特徴が、
入力パターンの第k′番の母音中心から第k′＋１あ
るいは第k′＋２番の母音中心までの特徴に含まれ
れば、両者の距離dd（k′，）＝０とし、含まれ
なければdd（k′，）＝１とし、漸化式 DD（k′，）＝minDD（k′＋１，＋１）＋dd（k′，
） DD（k′＋２，＋１）＋dd（k′，） …(6) 初期値DD（ｋ，L^w）＝０を＝L^w−１，L^w−２，…，１，０について繰
り返して計算し、ｋ−2L^wk′ｋ−L^wの範囲で
DD（k′：ｏ）の値が０であるか否かを判定し、
DD（k′，ｏ）＝０であればその単語は候補単語で
あり、単語マツチングの対象として採用しDD
（k′，ｏ）≠０であれば候補外の単語であるとし
て単語マツチングの対象から省くものである。即
ち、漸化式(6)は、DPマツチングの径路の正規化
係数が標準パターンの音節数に等しくなるもので
あつて、入力側の端点自由のマツチングを行つて
いることになる。これを図的に説明すると、３音
節の単語に対する例としてマツチングの範囲は第
８図ｂの傾き1/2の直線１２２と傾き２の直線１
２３で挾まれる領域となる。但し、同図におい
て、横軸は入力パターンの母音中心番号列、縦軸
はマツチングすべき単語の音節標準パターン列で
あつて、時間軸を伸縮することによつて、これら
は全て同じ間隔になるように画いてある。この図
においては、始端が、ｋ−６〜ｋ−３の何かから
終端が、ｋ迄の特徴系列の中に、単語ｗの可能性
のある特徴系列があればDD（k′，ｏ）＝０なる
k′が存在し、その可能性がない場合は、DD（k′，
ｏ）＝０なるk′は存在しないことになる。ここで、
L^wは単語ｗの素片数である。１０６は単語マツチング部であつて、候補単語
判定部１２１で選ばれた候補単語の各ｗに対し
て、入力パターンの第k′母音中心から第ｋ母音中
心までの部分パターンと単語標準パターン^w＝
R^s(w,1)，R^s(w,2)，…R^s(w,Lw)とのマツチングを、前
記素片累積照合距離を基に行い、単語累積照合距
離^w（k′：ｋ）を計算する部分である。本実施例の場合は、第９図にその例が図解され
る。これは第８図と同様に、入力パターンの母音
中心間の長さ、標準パターンの長さを同じ長さに
なるように、それぞれの軸を伸縮して画いてあ
り、３音節の単語とマツチングする場合である。
入力パターンの母音中心番号ｋと標準パターンの
音節番号の対応は第９図ａで表わされるから、
入力パターンと標準パターンのマツチングパスは
点ｐ＝（ｋ，３）を通り、傾き1/2と傾き１の直線
１２５，１２６で挾まれる範囲に限定される。こ
の場合、線分Ａを＝１なる直線の直線１２５と
直線１２６で挾まれる部分、線分Ｂを直線＝２
の直線１２５と直線１２６で挾まれる部分とし、
ｒを線分Ａ上の点、ｑを線分Ｂ上の点とすれば、
点ｐから点ｒまでの最小累積照合距離は点ｐから
線分Ｂ上の点ｑまでの最小累積照合距離と点ｑか
ら点ｒまでの最小累積照合距離の和を点ｑに関し
て最小にしたときの最小値とすることができる。
この場合、前記の説明から点ｐから点ｑまで、点
ｑから点ｒまでのそれぞれ最小累積照合距離が既
に求まつているから、点ｐから点ｒまでの最小累
積照合距離は、 ^w（ｋ−３，１）＝ min min k″＝ｋ−２，ｋ−１〔^w（k″，２）＋D^s(w,2)（ｋ−
３：ｋ）〕として求めることができる。^w（ｋ，３）＝０と
して、＝L^w−１，L^w−２，…，１，０につい
てこの操作を順次繰返すことにより入力パターン
の母音中心ｋ−６〜ｋ−３を始点、ｋを終点とす
る部分パターンと単語ｗのマツチング距離は^w
（k′：ｋ）＝^w（k′，１）として求まる。但し、
ｋ−６k′ｋ−３である。一般に、＝にお
いて^w（k′，）を計算するk′の範囲は、max
｛ｋ−２（L^w−），ｏ｝k′max｛ｋ−（L^w−
，ｏ｝となる。ここで、^w（k′：ｋ）はk′
−１では定義されていないので、k′の範囲はここ
に示したようになる。１０７は単語マツチング結果記憶部であつて単
語累積照合距離^w（k′：ｋ）を記憶する部分で
ある。１０８は終端累積距離計算部であつて、単
語マツチング結果記憶部１０７の内容と終端累積
距離記憶部１０８の内容から漸化式３に従つて、
Ｄ〜(k)，Ｎ〜(k)，Ｂ〜(k)を計算する。終端累積距離
記憶
部１０９は、終端累積距離計算部１０８で計算さ
れた終端累積距離Ｄ〜(k)を必要がなくなるまで記憶
する。このＤ〜(k)は終端累積距離計算部１０８にお
ける漸化式３の計算に用いられる。１１０はバツ
クポインタ記憶部であつて、終端累積距離計算部
１０８で計算されたバツクポインタＢ〜(k)を記憶す
る。１１１は最後尾単語記憶部で、終端累積距離
記憶部１０９で求められた第ｋ母音中心における
最後尾単語を記憶する。１１２は音声区間検出部
であつて、入力信号の大きさ等から音声区間を判
定するもので、この音声区間検出部１１２が音声
入力が開始されたことを検出すると、母音中心計
数部１１３は母音中心毎に計数を始める。前記の
処理はｋ母音中心についての処理であつたが、こ
の母音中心計数部１１３の計数値がこのｋを設定
している。従つて、前記と同様の処理が母音中心
が１進む毎に行われることになる。母音中心計数
部１１３は音声区間が検出されると計数を始め、
音声区間が終了するとリセツトされる。最後尾単
語記憶部１１１、バツクポインタ記憶部１００に
は、Ｎ〜(k)，Ｂ〜(k)がｋ＝１，２，…，Ｋについて記
憶されることになる。セグメンテーシヨン部１１
４はバツクポインタ記憶部１１０に対し、所定の
バツクポインタを読出すべき命令を発するもので
ある。即ち、セグメンテーシヨン部、１１４がｋ
なる値をバツクポインタ記憶部１１０に発する
と、バツクポインタ記憶部１１０からはバツクポ
インタＢ〜(k)が読出される。セグメンテーシヨン部
１１４はバツクポインタ記憶部１００からＢ〜(k)な
る値を受け取ると、その同じ値をバツクポインタ
記憶部１１０に発する。従つて、音声区間検出部
１１２が音声入力の終了が検知すると、母音中心
計数部１１３の最終値Ｋがセグメンテーシヨン部
１１４に供給され、セグメンテーシヨン部１１４
は先ずＫなる値をバツクポインタ記憶部１１０に
発する。以後、前記、説明の動作に従つて、バツ
クポインタ記憶部１１０Ｂ（Ｋ），Ｂ（Ｂ（Ｋ）），
…，Ｏなる出力が順次得られることになる。これ
らの値は、最後から２番目の単語の終りのフレー
ム、同３番目の終りのフレーム、同４番目のフレ
ーム、…というものであり、Ｎ〜(k)はｋフレームで
終る単語であつたから、この値をそのまま最後尾
単語記憶部１１１に与えると、最後の単語から逆
の順序で認識結果が得られることになる。この順
序を逆に（あたりまえの順序に）するには、順序
の変換をバツクポインタ記憶部１１０の出力か、
最後尾単語記憶部１１１の出力に対して行えばよ
い。第１０図は、以上の実施例の動作をプログラム
で表現したものであり、ソフトウエアで実現する
場合もこれに従えばよい。なお第１０図におい
て、

【表】なる記法は、条件Ａが成立する間Ｂを行うという
ことを意味する。また、

【表】なる記法は、条件Ａが成立するまでＢを行うとい
うことを意味する。ステツプ200は累積距離Ｄ〜(k)、バツクポインタ
Ｂ〜(k)，Dⁿ（ｋ−１：ｋ），Dⁿ（ｋ−２：ｋ）の初期
化を行う部分である。ステツプ201は第ｋ母音中心における処理を示
しており、大きくわけて素片累積照合距離Dⁿ
（k′：ｋ）を求める部分２０２と単語累積照合距
離^w（k′：ｋ）を求める部分２０３と終端累積
距離Ｄ〜(k)、終端バツクポインタＢ〜(k)、最後尾単語
Ｎ〜(k)を求める部分２１９に分かれる。ステツプ202はｎ＝１，２，…，Ｎについて素
片累積照合距離Dⁿ（k′：ｋ）を求める部分であつ
て、第１図１０３で行う動作に対応する。ステツ
プ204，205はステツプ206における計算の初期値
を与える部分、ステツプ209はステツプ211におけ
る計算の初期値を与える部分、ステツプ210はベ
クトル間距離dⁿ（i′，ｊ）を計算する部分、ステ
ツプ211は格子点（ｉ，ｊ）における素片累製照
合距離の途中結果Dⁿ（i′，ｊ）を求めている。本
実施例では第２図ｂの径路の拘束条件の場合を示
している。ステツプ207はDⁿ（k′，１）を素片累
積照合距離としてDⁿ（k′：ｋ）に置き換えてい
る。このDⁿ（k′：ｋ）が素片マツチング結果記憶
部１０９に記憶される。ステツプ204〜ステツプ207はｎがマツチングの
条件を満たす場合に限つて実行される。即ち、ｎ
の先行母音をVf(n)，ｎの後続母音をVr(n)，第ｋ
母音中心の母音認識結果をＶ(k)とするとき、Ｖ
（ｋ−１）orV（ｋ−２）＝Vf(n)，Ｖ(k)＝Vr(n)かつ
ｋ−１〜ｋあるいはｋ−２〜ｋの間の子音、無音
等の特徴が標準パターンRⁿの特徴と一致してい
る可能性があるときのみ実行される。ステツプ207′は、 max（St(k)−２（Jⁿ−１），１｝St（k′）max
｛St(k)−〔Jⁿ／２〕，１｝の場合にのみ実行される。ステツプ203はｗ＝１，２，…，Ｗについて単
語累積照合距離^w（k′：ｋ），ｗを最後尾単語と
するときの累積距離Ｄ〜^w(k)、バツクポインタＢ〜^w(k)
を計算する部分であつて、第１図の候補単語判定
部１２１、単語マツチング部１０６で行う動作に
対応する。ステツプ203′は前記説明に従つて、DD（k′，
ｏ）を求める部分であり、ステツプ203″は、DD
（k′，ｏ）＝０のときは^w（k′：ｋ）＝（k′，
ｏ），DD（k′，ｏ）≠０のときは^w（k′：ｋ）＝
∞とするものである。ステツプ213はステツプ214の計算を行うに当つ
て初期化を行う部分である。ステツプ214は単語
ｗに対応する素片系列の最終素片ｓ（ｗ，L^w）か
ら、最初の素片から番目の素片までに対応す
る標準パターンの系列R^s(w,Lw)，R^s(w,Lw-1)，…
R^s(w, ⁾と入力パターンの部分パターン^aSt(k)，^aSt
(k)−１，^aSt(k)−２，…，^aSt（k′）との累積照合距
離を既に求めた素片累積照合距離から求める部分
である。ただし、ステツプ216の漸化式において、
ｓ（ｗ，）は先行母音Ｖ（k″）後続CVはｗの第
１音節に等しいVCV音節である。ステツプ217，
217′は累積照合距離^w（k′，１）あるいは∞を
単語累積照合距離^w（k′：ｋ）に代入する部分
である。この^w（k′：ｋ）は第１図単語マツチ
ング結果記憶部１０７に記憶される。ステツプ
218はｗを最後尾単語とするときの累積距離Ｄ〜^w
(k)、バツクポインタＢ〜^w(k)を求める部分であある。ステツプ219は第７図の終端累積距離計算部１
０８で行う動作に対応しており、漸化式３を解い
て、Ｄ〜(k)，Ｎ〜(k)，Ｂ〜(k)を求める部分である。ステツプ220，221は、ステツプ201で得られた
ｋ＝１，２，…，ＫについてのＢ〜(k)，Ｎ〜(k)から認
識単語列を得る判定処理であつて、第７図のバツ
クポインタ記憶部１１０、セグメンテーシヨン部
１１４最後尾単語記憶部１１０で行う動作に対応
した処理を行つている。発明の効果本発明は、以上のように、CVやCCV音節のよ
うな音声素片を認識の単位としているので、標準
パターンの登録はいくら単語が増加してもこの音
声素片のみで済み、単語辞書はこれら素片名の系
列として表わされるので特徴ベクトルの系列とし
て記憶するのに比べて格段に少い記憶量で済み、
マツチングは前記各素片とのマツチングに費やさ
れるのがほとんどで、単語数がいくら増加しても
計算量の増加は僅かである。またDPマツチング
を行うに先立つて、母音中心、およびその認識結
果、子音、無音等に関して得られる情報のうち確
かなものを用いて、前記各素片のうちマツチング
すべき素片標準パターンを限定すること、マツチ
ングすべき単語を限定することができ、計算量は
非常に少くなる。さらに、セグメンテーシヨン
は、少々間違つていても、DPマツチングにより
最適化された結果として正しいセグメンテーシヨ
ンおよび認識が行われ、セグメンテーシヨンの不
完全さに基づく誤認識を避けることができる。以上のことから、本発明によれば、連続発声さ
れた単語を高精度に認識することが可能となり、
実用性の高い装置である。

【図面の簡単な説明】

第１図は本発明の一実施例を示す図、第２図は
DPマツチングの原理を説明する図、第３図、第
４図は本発明の原理を説明する図、第５図、第６
図、第７図はそれぞれ、単語数未知の場合、単語
数既知の場合、オートマトン制御の場合に本発明
を適用した場合の認識方法の一部の動作を説明す
る図、第８図、第９図は本発明の実施例の要部の
原理を説明する図、第１０図は本発明の原理をソ
フトウエア的に表現した図である。１００……音声信号入力端子、１０１……特徴
抽出部、１０２……音声素片標準パターン記憶
部、１０３……素片マツチング部、１０４……素
片マツチング結果記憶部１０５……単語辞書、１
０６……単語マツチング部、１０７……単語マツ
チング結果記憶部、１０８……終端累積距離計算
部、１０９……終端累積距離記憶部、１１０……
バツクポインタ記憶部、１１１……最後尾単語記
憶部、１１２……音声区間検出部、１１３……フ
レーム数計数部、１１４……セグメンテーシヨン
部、１１５……認識結果出力端子、１１６……母
音標準パターン記憶部、１１７……母音認識部、
１１８……母音中心検出部、１１９……無音区間
検出・子音大分類部、１２０……特徴系列記憶
部、１２１……候補単語判定部。

Claims

【特許請求の範囲】

１単語・文節等を連続発声して得られる入力音
声信号を特徴ベクトルの系列に変換する特徴抽出
手段と、母音、子音あるいはそれらの結合したも
の等として定義される音声素片のそれぞれに対応
した特徴ベクトルの系列を前記音声素片名に対応
づけて記憶する標準パターン記憶手段と、入力パ
ターンに対して素片の境界を検出する素片境界候
補検出手段と、標準パターンのそれぞれと前記入
力パターンから検出された前記素片境界候補の任
意または定められた種々の組合せによつて決定さ
れる部分区間（第１の部分区間）とのマツチング
を行つて両者の距離（類似度）を計算する素片マ
ツチング手段と、認識されるべき各単語・文節等
を前記音声素片名の系列として表現した単語・文
節等を記憶する単語・文節辞書と、前記認識され
るべき各単語・文節と前記入力パターンの任意ま
たは定められた前記素片境界候補の種々の部分区
間（第２の部分区間）との距離（類似度）を、前
記単語・文節辞書によつて指定される素片名の系
列に対応するように、前記第２の部分区間に含ま
れる前記第１の部分区間群を隣り合う区間が連続
するように最適に定めることにより、前記第１の
各部分区間の始点と終点およびその部分区間の前
記素片名に対応する距離（類似度）の総和を最小
（最大）とし、得られる最小値（最大値）を各単
語・文節に対する前記第２の部分区間の距離とし
て出力する機能を有する単語・文節マツチング手
段と、前記第２の部分区間群を隣り合う区間が連
続するように最適に定めることにより、前記第２
の各部分区間の始点と終点およびその部分区間の
前記単語・文節名に対応する距離（類似度）の総
和を最小（最大）となし、そのときの単語・文節
列を認識結果として判定する連続単語・文節判定
手段とを備えたことを特徴とする連続音声認識装
置。