JPH0535299A

JPH0535299A - 音声符号化方法及び装置

Info

Publication number: JPH0535299A
Application number: JP4003268A
Authority: JP
Inventors: David Nahamoo; デービツド・ナハモー; Souza Peter V De; ピーター・ヴインセント・デ・ソウザ; Lalit R Bahl; ラリツト・アール・バール; Michael A Picheny; マイケル・アラン・ピチエニー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1991-03-22
Filing date: 1992-01-10
Publication date: 1993-02-12
Anticipated expiration: 2017-10-21
Also published as: DE69129015T2; EP0504485A3; EP0504485B1; CA2060591C; JP3337233B2; DE69129015D1; US5182773A; EP0504485A2; CA2060591A1

Abstract

(57)【要約】【目的】音声認識システムの音声識別誤りの発生率を
大幅に低減する。【構成】音声信号から抽出した音韻特徴ベクトルに対
し所定の音韻を表わすラベルを付ける音声符号化方法を
改良する。複数の特徴ベクトル１２をベクトル空間内の
複数の領域１４、１５に区分し、各領域に１つずつのプ
ロトタイプ１６、１８を定める。音声音韻に対応した音
韻クラスの各々を少なくとも２つのプロトタイプによっ
て表わす。各プロトタイプを更に細分して複数の小区画
から成るようにしても良い。特徴ベクトルを識別するに
は、その特徴ベクトルの複数の特徴値のうちの少なくと
も１つの特徴値を、複数のプロトタイプないしはその小
区画の夫々の値と比較する。ある音韻クラスに付随する
一群のプロトタイプないしは少なくとも１つのプロトタ
イプの値がその特徴ベクトルの特徴値に対して最良の一
致を示したならば、その特徴ベクトルはその音韻クラス
に該当するものと識別する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、話者の発声を判別が容
易なフォーマットで表現する装置の改良に関し、より詳
しくは、与えられた単独単語ないし連続単語列が、ある
特定の音声特徴ベクトル集合を発生する確率を、統計的
に算出するための装置及び方法に関するものである。

【０００２】

【従来の技術】音声認識装置の目的は、発生している事
後確率が最大である連続単語列ｗ＾を出力することにあ
り、この確率の値は次の式１で表わすことができる。この式１において、Ｐ（ｗ）は、ある特定の連続単語列
が発生している確率、Ｐ（Ａ）は、ある音響特徴ベクト
ル集合が発生している確率、Ｐ（ｗ｜Ａ）は、ある音響
特徴ベクトル集合が発生していることを条件としたとき
の、ある連続単語列が発生している確率、そして、Ｐ
（Ａ｜ｗ）は、その連続単語列が発生していることを条
件としたときの、その音響特徴ベクトル集合が発生して
いる確率である。

【０００３】上式の各項のうち、Ｐ（ｗ）の項は、一般
的に、言語モデルと呼ばれているものであり、本発明に
は直接には関係しない。Ｐ（Ａ｜ｗ）の項は、音響モデ
ルと呼ばれているものであり、ある単語が与えられたと
きに、それによって、音響特徴部、即ちパラメータの、
連続した列が発生する確率を算出する際に用いられるも
のである（この音響特徴部、即ちパラメータを、音響特
徴ベクトル、または音声特徴ベクトル、或いは単に特徴
ベクトルとも呼んでいる）。別の言い方をするならば、
音響モデルを使用する目的は、ある連続単語列が与えら
れたときに、その連続単語列によってある特定の特徴ベ
クトル集合が発生される確率を表わすことにある。本発
明は、この音響モデルの幾つかの特質に関係したもので
ある。

【０００４】手短に説明するならば、例えば言葉を話す
ときには、その単語の発音も、また単語への強勢の置き
方も、一定ということはない。そのため、ある話者が発
するある決まった発声出力にに対して、常にただ１とお
りの音声特徴ベクトル列が対応するとは限らない。この
ことは、話者の発声出力が日によって変化しており、更
に、実際には時々刻々と変化していることを考えれば、
当然のことである。また、たとえ同一の単語の発音であ
っても、ある発声に含まれている特徴ベクトルが、それ
とは別の発声に含まれている特徴ベクトルと完全に一致
するということはあり得ない。

【０００５】従って、ある単語と、ある特徴ベクトル集
合とが与えられたときに、その単語によってその特徴ベ
クトルが発生される確率を、語彙中のありとあらゆる単
語に関して、表示することのできる音響モデルが望まれ
ている。より端的に述べるならば、ある連続特徴ベクト
ル列が装置に入力された場合に、その連続特徴ベクトル
列が、ある単語によって実際に発生されるであろう確率
を、計算によって求めることのできる装置及び方法が望
まれている。

【０００６】音響モデルを構築するための技法として最
も成功しているものの１つに、ヒドゥン・マルコフ・モ
デル（Hidden Markov Models）を利用した技法がある。
ヒドゥン・マルコフ・モデルの利用の仕方は、音声認識
の技術分野においては周知であるので、ここではその説
明は省略する。この技法については、例えば、ラリット
・Ｒ・バールらによる「連続音声認識のための最大確率
法」（A Maximum Like lihood Approach to Continuous
Speech Recognition, Lalit R. Bahl et al.,IEEE Tran
sactions On Pattern Analysis and Machine Intellige
nce, Vol. PAMI-5, No. 2, March 1983）を参照された
い。この文献は、この言及を持って本願の開示に包含す
るものとする。ただしこの技法に関しては次のことに注
目すべきである。それは、ヒドゥン・マルコフ・モデル
法を用いた場合には、その非常に重要な特質の１つとし
て、特徴ベクトルの各々を、少数の（典型的な例として
は５００種類以下の）ラベルのうちから選び出した、た
だ１つのラベルで置換することができるということであ
る。これによって、ヒドゥン・マルコフ・モデルの構成
要素が取り扱わねばならないデータの量が低減されてお
り、そのため、認識装置の後段を構成する、計算処理な
いしモデリングの機能段を、簡易化することができるよ
うになっている。

【０００７】特徴ベクトルに対してラベル付けする方法
として、従来から行なわれている方法は、ｎ次元空間に
存在している特徴ベクトルの複数のグループ（即ち複数
の特徴ベクトル群）によって、そのｎ次元空間を、複数
の凸領域に分割するというものである。それら領域の各
々の中に存在する複数の特徴ベクトルの値の平均値を求
めることによって、それら領域の各々を、１つのプロト
タイプ（即ちその平均値の位置）で表わすようにしてい
る。そして、音声から抽出した各々の特徴ベクトルを識
別するには、その空間内に存在している複数のプロトタ
イプのうち、その特徴ベクトルに最も近い位置にあるプ
ロトタイプをもって、その特徴ベクトルを識別するよう
にしている。従って、特徴ベクトルに対しては、その特
徴ベクトルに最も近い位置にあるプロトタイプの識別子
が、ラベルとして付けられることになる。

【０００８】

【発明が解決しようとする課題】以上の従来の方法に付
随する問題は次のとおりである。即ち、この方法では、
プロトタイプが指定された領域のいずれについても、そ
の領域の中に、その領域の本来の音韻に該当する特徴ベ
クトルに加えて、それとは異なった音韻に該当する特徴
ベクトルも、かなりの量が位置しているということであ
る。そのため従来の音声認識法では、認識誤りが高率で
発生していた。例えば、「ｓ」、「ｆ」、「ｓｈ」の夫
々に音韻に対して、同一のラベルが付与されることもま
れではなかった。

【０００９】従って、従来の技法では多く発生していた
誤りを、可及的に低減するために、音声認識に対してあ
る種の音声学上の知識を活用するようにした、方法並び
にその方法を実施するための装置が求められている。

【００１０】

【課題を解決するための手段】本発明は、発音された単
語から抽出される音韻クラスのうちの、ある１つの音韻
クラスに対応する様々な音声特徴ベクトルを夫々に包含
する、複数の異なった領域の全てを然るべく位置付ける
ようにした、新規な方法並びに装置を開示するものであ
る。基本的には、所与の空間を複数の領域に分割し、そ
れら領域の各々が、複数の異なった音韻に付随する可能
性のある音声特徴ベクトルを包含するようにする。それ
ら領域の各々は、平均値のベクトルと分散値のベクトル
と事前確率とを付随させたプロトタイプによって表わ
す。１つの音韻クラスは、少なくとも１つのプロトタイ
プで表わすことも可能である。尚、本明細書では、プロ
トタイプのことをプロトタイプ・ベクトルと呼ぶことも
あり、また、平均値ベクトルを単に平均値、分散値ベク
トルを単に分散値と呼ぶこともある。

【００１１】発音された単語から、複数の特徴値を有す
る１つの特徴ベクトルを抽出したならば、その特徴ベク
トルのそれら複数の特徴値のうちの少なくとも１つの特
徴値を複数のプロトタイプと比較して、それらのうちか
ら最良の一致を示すプロトタイプを判別する。これを行
なうには、各々のプロトタイプごとに、１つずつの値
（プロトタイプ値）を算出する。このプロトタイプ値
は、入力したその特徴ベクトルと、各プロトタイプの平
均値、分散値、及び事前確率値との関数である。複数の
音韻クラスの各々は、少なくとも２つのプロトタイプに
よって代表されるようにしておき、また、それら音韻ク
ラスの各々に識別子を付随させておく。ある特定の１つ
の（或いは複数の）プロトタイプと、その特徴ベクトル
との間に最良の一致が見出されたならば、その特定のプ
ロトタイプによって代表されている音韻クラスに付随し
ている識別子を用いて、その特徴ベクトルにラベル付け
を行なう。

【００１２】具体的な一実施例においては、ある特定の
１つの音韻クラスに対応している異なった複数のプロト
タイプの夫々の値を、例えばそれらの値の総和を取るこ
とによって結合した上で、互いに比較対照するようにし
ている。

【００１３】従って本発明の目的は、従来の技法に付随
していた高い誤り発生率を低減する（２分の１ないし３
分の１程度にまで低減し得る可能性がある）ことによっ
て、音声認識システムの動作性能を向上させるようにし
た、方法並びにその方法を実行するための装置を提供す
ることにある。本発明の以上の目的並びに利点は、添付
図面に沿った以下の本発明の説明を参照することによっ
て、より明瞭となり、また、それによって本発明をより
明確に理解することができる。

【００１４】

【実施例】第１図について説明すると（尚、図１は従来
例と本発明とのいずれの説明にも使用する）、音声信号
２は、与えられた連続単語列から取り出した信号であ
り、この信号は信号処理部４へ供給される。信号処理部
４は、例えばアナログ・ディジタル・コンバータとスペ
クトル解析器との組み合わせ等の、電子回路要素から構
成したものとすることができる。信号処理部４の機能
は、音声信号２から、パラメータ・ベクトル列、即ち、
音声（音響）特徴ベクトル列を抽出することにある。ま
た、図１に示した実施例のシステムにおいては、信号処
理部４は、例えば１秒間に１００個の特徴ベクトルを処
理することができる処理速度を持ったものである。従っ
てこの実施例のシステムでは、話者が１０秒間に亙って
発声を続ければ、引用符号６で示した特徴ベクトルが、
その間に１０００個発生される。本発明のこの実施例の
システムは更に、その構成要素としてベクトル量子化部
８とプロトタイプ記憶部１０とを備えている。

【００１５】音声信号２は、例えば「ザ・キャット・イ
ン・ザ・ハット（The Cat In The Hat）」等の、連続単
語列の一部分を表わしている信号である。また、信号処
理部４には、例えば、米国音響学会報に掲載されてい
る、ジョーダン・Ｒ・コーヘンによる「聴覚モデルの音
声認識への応用」（Application Of An Auditory Model
To Speech Recognition, Jordan R. Cohen, Jour. Acou
st. Soc. Am. 85(6), June 1989）に記載されている信
号処理装置等を用いることができ、この文献は、この言
及を持って本願の開示に包含するものとする。音声信号
２は、信号処理部４へ入力したならば、この信号処理部
４によって計測され、スペクトル解析される。このスペ
クトル解析は、本実施例においては、音声信号のエネル
ギを、異なった複数の周波数帯域において、時間の関数
として計測することによって行なうようにしており、こ
うして得られた出力を、図中に引用符号２０で示してあ
り、またそれら周波数帯域の数は「２０」である。この
周波数帯域の数は、信号の劣化を回避するために必要
な、周波数帯域の最少数と最多数との間のバランスを勘
案して決定した数である。

【００１６】これら「２０」とおりの周波数帯域は、例
えば約２００ヘルツから約７キロヘルツまでの周波数で
あり、それらの各々のエネルギ量を、１秒間に１００回
ずつ計測する。これによって、信号処理部４からの出力
は、各々が２０次元の複数の特徴ベクトルから成る、連
続特徴ベクトル列として得られ、これを図中に引用符号
６で示した。１つの特徴ベクトルは複数の（２０個の）
成分を持ち、それら成分の各々が、例えば、２００ヘル
ツ、３００ヘルツ、４００ヘルツ等の、複数の周波数の
うちの、１つの周波数のエネルギの大きさを表わす。こ
れら２０次元の特徴ベクトルの各々を表わすには、例え
ば図示の如く、ＦＶ₁ 、ＦＶ₂ 、ＦＶ₃等で表わせば良
い。

【００１７】一般的に、音声認識システムにおいては、
話者の発声から抽出した夫々の特徴ベクトルに対して、
様々な音韻クラスに属することを表わすラベル付けをす
るには、ベクトル量子化と呼ばれているプロセスによっ
てそれを行なっており、このベクトル量子化について以
下に説明する。

【００１８】説明を容易にするために、ここでは、２０
次元の空間について説明するかわりに、図２に示した２
次元空間を例にとって説明することにする。図２では、
多くの音声特徴ベクトルの１つ１つを、引用符号１２を
付した細かな点で表わしてある。従来のベクトル量子化
方法としては、例えば、ジョン・マクホールらによる
「音声符号化におけるベクトル量子化」（Vector Quant
ization In Speech Codi ng, John Makhoul et al., Pro
ceedings of IEEE, Vol. 73, No. 11, November1985）
の中に開示されているものがあり、その方法では、異な
った複数の音声特徴ベクトルを、空間内の異なった凝集
塊の中へ別々に入れることによって、それら音声特徴ベ
クトルを、複数の、凸領域と呼ばれる領域の中へ区分す
るようにしている。例えば、図示した２次元空間は、領
域１４や領域１５等の、互いに隣接した複数の凸領域に
区分されている。これ以上詳細には説明しないが、この
ように、異なった複数の特徴ベクトルを、複数の領域の
中に区分して凝集させることを、クラスタ形成と呼んで
いる。基本的に、このクラスタ形成の際に行なうこと
は、各凸領域の中に存在している複数の特徴ベクトルの
夫々の値を計算処理し、それによって、各領域ごとに、
その平均値を算出するという操作である。各領域におい
て算出した平均値は、図２には、太い点で示してあり、
この平均値のことを、プロトタイプ、ないしはプロトタ
イプ・ベクトルと呼んでいる。例えば領域１４にはプロ
トタイプ・ベクトル１６、また領域１５にはプロトタイ
プ・ベクトル１８を示してある。更に、プロトタイプ・
ベクトルには、その各々に識別子を付与してあり、この
識別子は、例えば所与の数を用いれば良い。また、これ
らのプロトタイプ・ベクトルの各々を、音韻クラスと呼
ぶこともできる。

【００１９】従来の方法では、ある特徴ベクトルが、ど
の音韻クラスに該当しているのかを判別するためには、
次の式２を用いて、その特徴ベクトルと各プロトタイプ
・ベクトルとの間の、ユークリッド距離を求めるように
していた。この式２において、Ｘは、特徴ベクトル、Ｐは、プロト
タイプ・ベクトル、そして、ｉは、特徴ベクトルないし
プロトタイプ・ベクトルの成分を表わしている。

【００２０】従来は、このユークリッド距離の式を用い
て、考察対象としている特徴ベクトルに最も近接してい
るプロトタイプ・ベクトルを判別し、そして、判別した
そのプロトタイプ・ベクトルの識別子を用いてその特徴
ベクトルにラベル付けをしていた。そして、このプロセ
スが、これまで「ベクトル量子化」ないしは「各々の特
徴ベクトルへのラベル付け」と呼ばれていたプロセスで
ある。

【００２１】また、以上のベクトル量子化は、例えば図
１に引用符号８で示したベクトル量子化部等によって行
なわれていた。（ここでは、ベクトル量子化部８は従来
のベクトル量子化部であるものとして説明を進める）。
この場合、ベクトル量子化部８の出力２０には、連続す
る複数のラベルから成る、連続ラベル列が出力する。そ
れらラベルの出力速度は、例えばこのシステムが毎秒１
００個の特徴ベクトルを処理する処理速度を持ったもの
であれば、１秒間にラベルが１００個出力する速度であ
る。それら出力ラベルの各々は、そのラベルによって識
別している夫々のプロトタイプ・ベクトルに対応した値
を持っている。

【００２２】以上に説明した従来の方法に付随している
問題は、異なった音韻クラスを包含している空間を一応
は複数の領域に区分してあるものの、実際には、それら
領域の各々の形状が、音韻それ自体とは無関係な形状で
あるということにある。換言すれば、ある１つの特定の
音韻クラスの領域として識別されている各領域は、その
領域の中に存在している特徴ベクトルの大部分が、その
音韻クラスに該当する特徴ベクトルであることは確かで
あるが、しかしながらそれと同時に、その領域の中に
は、その音韻クラスに該当しない特徴ベクトルもまた多
く存在しているのである。そのため、別個の音韻である
が互いに類似している音韻を表わしている別々の特徴ベ
クトルに対して、同一のラベルが付けられてしまうこと
がしばしばあり、それによって、音声認識において、そ
の誤り発生率が許容限度を超えてしまうことがある。

【００２３】本発明の基本概念は、図３のＡ及びＢの、
２次元で表わした説明図を参照することによって、明瞭
に理解することができる。尚、通常発声される音韻の種
類は３０種類ないし４０種類であるが、以下の説明で
は、理解が容易なように、音韻は「ｓ」と「ｆ」の２種
類だけが存在しているものとする。図３のＡに示した空
間には、音韻ｓも、また音韻ｆも、広く散らばって存在
している。

【００２４】空間内に、図３のＡに示した状態で音韻ｓ
と音韻ｆとが分布している場合に、ある特徴ベクトルの
位置が、図中に点２２で示した位置にあることが判明し
たときには、もし図１のシステムのベクトル量子化部
が、上で説明した従来の方法に従ったベクトル量子化部
であったならば、その特徴ベクトルが、はたして音韻ｓ
に該当するものか、それとも音韻ｆに該当するものかを
判定する際に非常な困難に遭遇することになる。そのた
め、従来のベクトル量子化部から出力される、その特徴
ベクトルを識別するためのラベルは、誤ったラベルとな
るおそれが高い。更にその結果として、何らかの有用な
情報が失われてしまうこともあり得る。

【００２５】図３のＢは、図１のベクトル量子化部８を
本発明に従って設計した場合の一例を示した図である。
この図３のＢでは、空間内に存在する音韻ｓに該当する
全ての特徴ベクトル、並びに、音韻ｆに該当する全ての
特徴ベクトルの、夫々の位置を判別した上で、それら特
徴ベクトルをグループに分けて、領域２４ａ〜２４ｃと
領域２６ａ〜２６ｃとに区分している。この図３のＢに
示した実施例では、このグループ分けによって、ｓの音
韻クラスに対応した３つの領域と、ｆの音韻クラスに対
応した３つの領域とが形成されていることが分かる。換
言すれば、この図３のＢの実施例では、ｆの音韻クラス
を表わすプロトタイプが３個形成されており、また、ｓ
の音韻クラスを表わすプロトタイプも３個形成されてい
る。これらプロトタイプは、その各々に複数の特徴ベク
トルが付随しており、また、その各々に、識別子と、後
に説明する適当な計算処理手順によって得られるプロト
タイプ値とを付与してある。

【００２６】入力したある特徴ベクトルが、いずれの音
韻クラスに該当するものであるかを判定するためには、
その特徴ベクトルの少なくとも１つの特徴値を、該当す
る可能性のある全てのプロトタイプの、夫々のプロトタ
イプ値と比較対照する。そして、その特徴ベクトルのそ
の特徴値に最も近いプロトタイプ値を持ったプロトタイ
プがｓであったならば、ベクトル量子化部が、その特徴
ベクトルに対して、音韻クラスｓの識別子をラベルとし
て付与する。これとは反対に、その特徴ベクトルのその
特徴値に最も近いプロトタイプ値を持ったプロトタイプ
がｆであったならば、その特徴ベクトルを、音韻クラス
ｆに該当するものと識別する。これによって分かるよう
に、本発明の土台を成している根本的な原理は、発声中
の各々の音韻を、２つ以上のプロトタイプから構成され
た１つのプロトタイプ集合によって表わすというもので
あり、しかも、それらプロトタイプは、その各々が空間
内の１つの凸領域に対応したプロトタイプである。ま
た、１つの音韻クラスに対して、空間中に存在する複数
のプロトタイプの組み合わせ（即ち複数のプロトタイプ
の混合物）を関連付けていることから、本発明の方法に
は、音声学上の知識を適用する余地があり、そのため、
本発明の方法によれば、従来の音声認識方法における誤
り発生率を、おそらくは２分の１ないしは３分の１にま
で、低減することが可能となっている。

【００２７】以上に概要を説明した本発明の発明概念を
実現するための、本発明の一実施例に係る方法を、以下
に説明して行く。この実施例の方法は、次の処理手順を
要件とした方法である。１．特徴ベクトルに対して施す付加的前処理。２．音声音韻と特徴ベクトルとの間の対応関係の確立処
理、即ち、音声音韻−特徴ベクトル対応付け処理。３．複数のプロトタイプについて、それらのプロトタイ
プ値と、それらプロトタイプの空間内の相対位置とを算
出する処理。尚、本発明の精度を向上させるためには、上記のステッ
プ２及びステップ３を反復して実行する必要がある。

【００２８】特徴ベクトルの付加的前処理をするために
は、先ずその前に、学習用発声に対応した複数の学習用
特徴ベクトルから成る学習用特徴ベクトル集合を求め、
そしてそれを記憶しておく必要がある。この学習用特徴
ベクトル集合を記憶しておくには、例えば、図１１に示
した音響特徴ベクトル記憶部６４に記憶するようにすれ
ば良く、この点については後に更に詳細に説明する。な
お、学習用特徴ベクトルの各々は、学習用発声の中の音
声音韻の１つに該当するものとして識別してある。

【００２９】音声認識においては、通常、各単語を、１
本の連続音声音韻列によって表わすようにしている。例
えば「キャット（cat ）」という単語であれば「ｋ／ａ
ｅ／ｔ」というモデルで表わすことができる。英語の綴
りは不規則であるため、単語の発音とその単語の綴りと
を知っているだけでは、その単語によって表わされる音
声音韻列がいかなるものかを即座に了解することは、必
ずしも可能とは限らない。そこで、本発明では、各々の
単語を、夫々１本の連続音声音韻列、即ち連続音素列
（即ち、複数の基本要素モデルから成る基本要素モデル
・ネットワーク）に、予め対応付けてある。即ち、各単
語を、複数の音素（複数の音声単音）で構成してある。
英語という言語を構成している種々の音韻を、ベクトル
量子化部に発生させるためには、約８０種類の音素から
成るインベントリが必要であることが知られている。い
うまでもなく、別の言語であれば、必要とされるインベ
ントリの音素の数は異なったものとなる。

【００３０】ここで説明している本発明の実施例では、
単語が発声される際に発生する複数の特徴ベクトルに対
して、複数の異なった音声単音を関連付けるための方法
として、公知の「ヴィタビ・アラインメント（Viterbi
Alignment ）」法を採用している。ヴィタビ・アライン
メント法の詳細な説明については、先に言及したバール
らの文献を参照されたい。その要点のみを述べるなら
ば、ヴィタビ・アラインメント法は、ヒドゥン・マルコ
フ・モデル法を利用したものであって、与えられたテキ
ストの中の各々の音韻を連携、即ち関連付けて、それら
各々の音韻がどのラベル（即ち、ベクトル量子化部から
の出力）に対応するかを、判別するものである。具体的
な一例として、図４に、「ザ・キャット・イン・ザ・ハ
ット（TheCat In The Hat）」という連続テキスト列
と、その連続テキスト列の音韻を表わした音声単音列と
を示してある。同図には更に、それら音声単音の各々
を、その音声単音に対応した複数のラベルで識別した結
果を、併せて示してある。例えば「ザ（the ）」という
単語では、その中の音声単音「ｄｈ」は、ラベル「ｌ
₁」と「ｌ ₂ 」とに対応しており、また、音声単音
「ｕｈｌ」は、ラベル「ｌ ₃」と「ｌ ₄ 」と「ｌ ₅ 」
とに対応している。複数のラベルと各々の音声単音との
間の対応関係が分かれば、その論理的帰結として、連続
単語列の中にある単語の各々のラベルに対応している特
徴ベクトルも分かることになる。従って、特徴ベクトル
と音声音韻との間の対応関係を、ヴィタビ・アラインメ
ント法を用いて確立することができるのである。

【００３１】図４に示した具体例において、例えば音韻
「ａｅ」は「キャット（cat ）」の中にも、また「ハッ
ト（hat ）」の中にも存在しており、このような、ある
１つの音韻の全ての属性を把握するためには、同一の音
韻を表わしている特徴ベクトルの全てを、１箇所にまと
めてプールしておく必要がある。また、約８０種類の音
韻から成るインベントリを提供するためには、充分な量
の音声単音を適切にグループ分けしてそのインベントリ
を形成することができるように、話者は充分多くのセン
テンスを発声する必要がある。更に、特徴ベクトルの付
加的前処理を行なうためには、先ずその前に、最初の学
習用音韻クラス集合が必要である。

【００３２】本発明における付加的前処理について理解
するためには、次のことを認識しておく必要がある。即
ちそれは、音声の中の、音声音韻を表わしている特徴ベ
クトルを観察するには、ある長さの時間に亙って観察す
る必要があるということである。例えば、図５は、時間
に対してプロットした「サット（sat ）」という単語の
出力周波数のグラフを示している。その幾つかの要点を
述べると、この図５に示すように、「サット」の中の音
韻「ｓ」の部分には、ある特定の周波数の大きなエネル
ギが存在している。また、「サット」の中の音韻「ａ」
は、複数の周波数へのエネルギの集中によって表わされ
ている。更に、この音韻「ａ」と、続く音韻「ｔ」との
間には、短い無音のギャップが存在しており、また「サ
ット」の中のこの音韻「ｔ」は、その末尾の部分に、高
い周波数のエネルギのバーストを持っている。これらの
ことから分かることは、音声において重要な意味を持つ
のは、ある特定の時刻における、ある特徴ベクトルの値
よりも、むしろ、ある長さを持った時間に亙って出現す
る、その単語の全体のパターンの方であるということで
ある（ここでいう、ある長さの時間とは、例えば１秒の
１０分の１ほどの時間である）。後者の方が重要な意味
を持つ理由は、実際に発声がなされるときには、複数の
音韻が互いに融合するために、例えば音韻「ａ」のよう
に、１つの音韻に対して、少なくとも複数の周波数から
成る周波数集合が対応することになるからである。

【００３３】従って、ある音韻の、そのエネルギ集中の
パターンは、その音韻に先行する音韻や、その音韻に後
続する音韻が、いかなる音韻であるのかによって異なっ
たものとなる。例えば音韻「ｓ」では、単語「スー（su
e ）」のように音韻「ｏｏ」が後続する場合と、単語
「シー（see ）」のように音韻「ｅ」が後続する場合と
では、そのエネルギ集中のパターンが異なったものとな
る。従って、音韻認識において重要な意味を持っている
のは、個別に見た、個々の特徴ベクトルそれ自体ではな
く、むしろ、その特徴ベクトルが時間の関数としてどの
ような挙動を示しているかという、特徴ベクトルの挙動
のパターンの方である。

【００３４】本発明者らが、以上のことを認識するに至
ったのは、従来の音声認識法に付随している問題のうち
の１つに、次の問題があることを理解したためである。
即ちその問題とは、従来の方法では、周波数の関数とし
てのエネルギの計測は、１秒間に何回も行なっているも
のの、ラベルの出力に関しては、特徴ベクトルの１つず
つに対応させて、１つずつのラベルを出力しているに過
ぎないということである。本発明者らが理解した、従来
の方法のもう１つの短所は、従来の方法では、ある１つ
の特徴ベクトルを処理する際に、その特徴ベクトルの前
後にくる特徴ベクトルに対して何ら考慮を払うことなし
に、その処理を行なっているということである。即ち、
１つの特徴ベクトルだけに注目して、その特徴ベクトル
だけに基づいて判断を行なうのでは、例えばその特徴ベ
クトルが単語「セイ（say ）」の中の「ａ」の音韻であ
るのか、それとも単語「サット（sat ）」の中の「ａ」
の音韻であるのかを判別することは、困難だということ
である。

【００３５】従来の技法におけるこれらの問題を解決す
るために、いわゆる「スプライス・アンド・ローテーシ
ョン法（つなぎ合わせ及び回転法）」を用いるようにし
ている。この方法の中の、スプライス（つなぎ合わせて
連結すること）の部分は公知であり、これは、サダオキ
・フルイ著「音声スペクトルの動的特徴を利用した話者
非依存性の単独単語認識（Speaker-Independent Isolat
ed Word Recognition Using Dynamic Features of Speec
h Spectrum, Sadaoki Furui, IEEE Transactions in Ac
oustics, Speech and Signal Processing, Vol. ASSP-3
4, No. 1, February 1986）に記載されており、同文献
は、この言及を持って本開示に包含するものとする。こ
の方法については、図６を参照して説明する。図６には
複数の特徴ベクトル２８ａ〜２８ｌを図示してあり、
本発明における方法では、それらの特徴ベクトルに対し
て、次のようにしてスプライス法を適用する。先ず、こ
こでは、それら特徴ベクトルのいずれもが、図１に関し
て説明したように、２０次元の特徴ベクトルであるもの
とする。一般的に、スプライス処理を実行するのは、隣
り合った複数のｍ次元特徴ベクトルを互いに連結して、
より大きな１つのｎ次元特徴ベクトルを形成する場合で
ある。図６に示した具体例では、先ず、複数の２０次元
特徴ベクトルの、その１つ１つに対し、その特徴ベクト
ルを形成している複数（２０個）の特徴値の夫々の二乗
値の総和を付加することよって、２１次元特徴ベクトル
を形成する。次に、こうして形成した複数の２１次元特
徴ベクトルのうち、連続した９個の２１次元特徴ベクト
ル（例えば、特徴ベクトル２８ａ〜２８ｉ）を、互いに
つなぎ合わせることによって、１個の１８９次元特徴ベ
クトル３０ａを形成する。続いて、１つずれた次の連続
した９個の特徴ベクトルの組を成している、２１次元特
徴ベクトル２８ｂ〜２８ｊを、互いにつなぎ合わせるこ
とによって、次の１個の１８９次元特徴ベクトル３０ｂ
を形成する。更にこのつなぎ合わせ（スプライス）の処
理を続行して、更に１つずれた、次の連続した９個の２
１次元特徴ベクトル２８ｃ〜２８ｋを連結して、１８９
次元特徴ベクトル３０ｃを形成し、以下同様にして、次
々と１８９次元特徴ベクトルを形成して行く。こうして
形成したそれら１８９次元特徴ベクトルは、その各々
が、連続した９個の２１次元特徴ベクトルを互いにつな
ぎ合わせて構成したものであることから、それら１８９
次元特徴ベクトルの各々の中には、ある長さの時間に亙
った充分な量の情報が含まれており、そのため、それら
各特徴ベクトルは、個々の２１次元特徴ベクトルではと
ても不可能なほど良好に、特定の音声音韻を表わすこと
ができる。しかしながら、１８９次元の特徴ベクトル
は、その次元数においても、また、処理せねばならない
データの量においても、余りにも大きなベクトルであ
る。

【００３６】一般的に、音声は時間と共にそれほど急速
には変動しないため、ある長さの時間の範囲内で発生し
ている、ある１つの特徴ベクトルと他の１つの特徴ベク
トルとの間には、大量の相関部分が存在しており、たと
えその時間の長さが、処理レベルにおける１００センチ
秒（＝１秒）程度の長さであっても、それらの間に存在
する相関部分はかなりの量になる。そのため、連続する
９個の２１次元特徴ベクトルをつなぎ合わせるようにし
た場合には、それによって得られる１８９次元の特徴ベ
クトルが、多くの冗長情報を包含するようになる。これ
は、そうならないことよりも、そうなることの方が多
く、その理由は、音声は比較的緩やかにしか変化しない
ため、ある時刻に既知の特徴ベクトルが存在していれ
ば、その後に続く特徴ベクトルも、その既知の特徴ベク
トルとそれほど異なることはないからである。本発明者
らは、１８９次元の特徴ベクトルの中には冗長情報が存
在しているという知識から、次のことを認識するに至っ
た。即ちそれは、その冗長情報を除去するようにすれ
ば、１８９次元の特徴ベクトルの次元数を低減して、よ
り小さな、従ってより扱い易い次元数を持った特徴ベク
トルにすることができるということである。

【００３７】本発明者らが本実施例に使用することに決
定した方法は、「一般化固有ベクトル法（Generalized
Eigenvectors technique）」という名で知られている公
知の方法であり、この方法について、以下に図７のＡ及
びＢを参照して説明することにする。この一般化固有ベ
クトル法に関しては、Ｋ・フクナガ著「統計的パターン
認識入門」（Introduction To Statistical Pattern Re
cognition, K. Fukunaga, Chapter 9: 258-281, Academ
ic Press, 1972）に説明がなされており、同文献は、こ
の言及をもって本開示に包含するものとする。本発明の
この実施例における、一般化固有ベクトル法の機能の仕
方は、次のとおりである。先ず、ここでもまた、２次元
の空間に、ｓとｆの２種類の音韻だけが存在しているも
のとし、ただしここでは、それらの音韻の特徴ベクトル
が、図７のＡに示したように分布しているものとする。
音声の中から抽出した、ある特徴ベクトルが、音韻ｓに
該当するものか、それとも音韻ｆに該当するものかを判
別する際には、図中に破線で示したように座標軸を回転
させれば、実際上、音韻クラスが持っている（２つの）
次元のうちの、一方だけの次元で事足りるようになる。
即ち、図示したようにＸ軸及びＹ軸を回転させると、そ
れによって、ｆとｓの両方の種類の特徴ベクトルがいず
れも、回転させた後の座標軸であるＸ’軸に沿って位置
するようになるため、Ｘ成分だけが、実際上の意味を持
った唯一の成分になることが分かる。そのため、ｆとｓ
のいずれの音韻の特徴ベクトルも、そのＹ成分には、殆
ど情報が含まれなくなる。こうして、殆ど情報を失うこ
となく、２次元空間の次元数を減少させて、それを１次
元空間にすることができる。

【００３８】図７のＢは、２次元の集合を形成している
複数の特徴ベクトルの、その一方の成分を一般化固有ベ
クトル法を用いて消去する場合の、図７のＡとは異なっ
た、別の想定状況を示したものである。この図７のＢの
想定状況においても、全ての特徴ベクトルは、回転させ
た後の座標軸であるＸ’軸に沿って位置している。ただ
しこの想定状況では、ｓの特徴ベクトルは全てこのＸ’
軸の上側にあり、またｆの特徴ベクトルは全てこのＸ’
軸の下側にあるため、ｓの音韻とｆの音韻とを判別する
ための有意の情報は、Ｘ’軸の方向に存在してはいな
い。それらの音韻を互いに判別するための有意の情報
は、この場合には、同じく回転させた後の座標軸であ
る、Ｙ’軸の方向に存在しているのである。確かに、個
々のｓの特徴ベクトルと、個々のｆの特徴ベクトルとに
着目すれば、それらの特徴ベクトルは、Ｘ’軸方向の位
置が異なっている。しかしながら、ここで重要なこと
は、ｓとｆの両方の特徴ベクトルが、略々Ｘ’軸に沿っ
て位置しており、しかも、ｓの特徴ベクトルはこのＸ’
軸の上側に、またｆの特徴ベクトルはこのＸ’軸の下側
に位置しているために、Ｘ’軸の方向から見たときに
は、ｓの特徴ベクトルとｆの特徴ベクトルとが、Ｙ’軸
に沿って位置しているように見えるということである。
従って、この図７のＢに示した想定状況では、ｓの音韻
とｆの音韻との判別に関する限り、有意の方向はあくま
でもＹ’軸の方向であり、Ｘ’軸の方向は実質的に意味
を持たない。

【００３９】要点を端的に述べるならば、一般化固有ベ
クトル法は、基本的に、ベクトルを特定の一方向へ（或
いは特定の幾つかの方向へ）射影するという方法であっ
て、その射影によって、有意義な判別情報を失うことな
く、ｍ次元データの次元数を減少させて、より次元数の
少ないｎ次元のデータにするという方法である。ただ
し、この一般化固有ベクトル法を利用するためには、互
いに判別すべき複数の音韻クラスが予め分かっていなけ
ればならない。それ故、本発明の方法を実施する際に
は、初期実行処理手順である、音声音韻−特徴ベクトル
対応付け処理手順を実行することによって、互いに判別
すべき複数の異なった音韻クラスを表わしている複数の
初期プロトタイプから成る、初期プロトタイプ集合を生
成するようにしているのである。

【００４０】一般化固有ベクトル法を利用するように
し、しかも初期インベントリとして、約８０種類の音韻
クラスから成る相関インベントリを備えておけば、先に
説明した１８９次元の特徴ベクトルに処理を施して、そ
の次元数を減少させ、その特徴ベクトルを、対応した５
０次元の特徴ベクトルにすることができる。この処理を
実行するには、所定個数の発声されたセンテンスから抽
出した全てのデータを、一旦プールしておき、そして、
プールしておいたそれらデータを５０次元の空間へ射影
するようにすれば良い。尚、以下の説明においては、特
に断らない限り、特徴ベクトルはいずれも５０次元のベ
クトルであるものとする。

【００４１】更に次のことも必要である。即ち、空間内
に存在する音韻のうちの所与の１つの音韻を表わす特徴
ベクトルの個数は極めて多数に及ぶため、約８０種類あ
る音韻クラスの各々について、その音韻クラスを表わす
ために幾つのプロトタイプ・ベクトルが必要かを、計算
によって求めなければならない。換言すれば、音韻クラ
スを表わすために必要なそれらプロトタイプの個数と、
空間内におけるそれらプロトタイプの互いの間の相対位
置関係がどのようになっているのか（即ち、それらプロ
トタイプに付随している平均値（或いは単に平均）、分
散値（或いは単に分散）、及び事前確率）とを、計算に
よって求めなければならないということである。こうす
ることによって、各々のプロトタイプの特質を、そのプ
ロトタイプに該当する複数の音響特徴ベクトルの間の平
均値（即ち算術平均値）を表わしている図心によって、
示すことができるようになる。

【００４２】このように、複数の図心から成る１つの図
心集合によって、所与の１つの音韻（例えば音韻ｓ）を
表わすようにしており、本発明の実施例においては、そ
の図心集合を求める方法は、次のような方法としてい
る。先ず、実験による研究の結果、ある１つの音韻を適
切に表わすために必要な図心の個数は、約５０個である
ことが判明している。そこで、空間内に存在している非
常に多くの特徴ベクトルに基づいて、この必要な約５０
個の図心を求めるために、「Ｋ平均クラスタ形成アルゴ
リズム（K-Means Clustering Algorithm）」を用いるよ
うにしている。

【００４３】要約して簡単に説明するならば、このＫ平
均クラスタ形成アルゴリズムとは、以下のことを行なう
アルゴリズムである。先ず、所与の個数の音声特徴ベク
トルをアトランダムに選び出す（例えば１００個のｓの
特徴ベクトルを選び出すものとする）。そして、選び出
したそれら１００個のｓの特徴ベクトルを、１００個の
図心であると見なす。また、それらのｓの見なし図心の
各々には番号を付けておく。図８では、それらの見なし
図心とした特徴ベクトルを、丸で囲んで示してあり、そ
れら丸で囲んだ特徴ベクトルを最初の図心として、その
周囲に位置している夫々のｓのベクトルを、そのｓのベ
クトルから距離的に近接している丸で囲んだ図心へ引き
込んで併合して行く。即ち、ある１つの丸で囲んだ図心
に最も近接している幾つかの特徴ベクトルを、その図心
と同じグループのものとして併合して行くのである。こ
うして、１００個の見なし図心の各々へ、夫々に複数の
特徴ベクトルを併合する。併合する際には、その併合に
よって１つになる特徴ベクトルどうしの間の平均値を算
出することによって、新たな図心の位置を算出すれば良
い。この処理手順を反復実行しているうちに、夫々の特
徴ベクトルとの間の平均距離が減少して行くが、それ
は、この処理手順の反復実行によって、図心がデータ
（即ち特徴ベクトル）の密集している場所へ向かって、
移動して行くからである。最終的には、特徴ベクトルと
の間の平均距離が、最早ほとんど変化しなくなり、略々
一定の値に落ち着くようになる。これをもって、図心が
収束するという。

【００４４】既述の如く、１つの音韻を良好に表わすた
めに必要な図心の個数は約５０個であることが判明して
いる。これに対して、収束した段階での図心の個数は、
なお１００個もあるため、それら図心の総数を減少させ
るための何らかの方法を講じる必要がある。それには、
それら図心のうちから、互いの間の距離が最も近接して
いる２個の図心を選び出し、それら２個の図心の間の平
均値を算出し、算出した平均値をその値として持つ１個
の新たな図心で、それら２個の図心を置換するようにし
ている。このように、互いの間の距離が最も近接してい
る２個の図心を併合して、それらの図心の間の平均値を
新たな図心とするプロセスを、残存する図心が５０個に
なるまで反復して実行する。このプロセスは、「ユーク
リッド・クラスタ形成法（Euclidean Clusteringtechni
que）」と呼ばれている方法である。このユークリッド
・クラスタ形成法を、音声音韻の各々に対して実行す
る。既述の如く、音声音韻の数（種類数）は、本発明の
この実施例では約８０種類である。この処理の全てが完
了したときには、それら約８０種類の音声音韻の各々
が、夫々５０個ずつの図心で表わされており、それら５
０個の図心によって、その音声音韻に付随する平均値が
表わされている。

【００４５】更に、それら複数の図心の夫々に付随する
体積を求め、また、こうして画成した空間内において、
それら図心が、それら図心の関係する音韻に対して、い
かなる相対的位置関係にあるのかを求めるために、それ
ら複数の図心の各々についてその分散値を求める必要が
ある。それには、本発明のこの実施例では、「ガウス・
クラスタ形成法（Gaussian Clusteringtechnique ）」
を用いるようにしている。ユークリッド・クラスタ形成
法においては、近接度は、ユークリッド距離によって定
義され、このユークリッド距離は、次の式３によって規
定される。この式３は、前出の式２と比較すると、式２ではＰであ
ったものがＣに換えられている以外は、式２と同一であ
ることが分かる。このＣは、図心を表わしており、その
添字のｉは、その図心のｉ番目の成分であることを表わ
している。ガウス・クラスタ形成法でも、式３が規定し
ている距離と類似した、一種の距離を使用する。しかし
ながら、ガウス・クラスタ法によって求める図心は、最
も高い確率を持った図心であり、その確率の値は次の式
４によって表わされる。この式４において、Ｐは事前確率、そして、δは分散で
ある。この式４が表わしている意味は、ある特定の１つ
の図心の確率［Ｐ（ｘ￣）］は、その図心の分散と事前
確率とを考慮に入れたガウス分布に従って算出される確
率の値で示されるということである。本明細書の説明に
おいては、事前確率の値は、推定評価した、即ちガウス
分布を使用せずに定めた、夫々の音韻クラスの相対的周
波数の値としても良い。

【００４６】計算を容易にするためには、式４を、その
ままの形で用いて図心を算出するよりも、確率の対数を
利用するようにするのが良い。対数を用いれば、例えば
ある図心の確率の値が最小であれば、その図心の確率の
対数の値もまた最小になる。そこで、確率の対数を取り
扱うようにし、また、全ての図心において、その確率の
値に等しく含まれる「２π」という係数を無視するよう
にすれば、次の式５が得られる。この式５が示しているものは、式３に示した、ユークリ
ッド距離に類似している。しかしながら式５では、ベク
トルと平均値との差分の二乗値の総和を取るようにして
いる。簡単に説明するならば、式５は式３と同様の計算
を表わしているのであるが、ただし式５では、各々の次
元に対して、分散の逆数と、分散の対数の総和に等しい
バイアス値と、事前確率とによって、重み付けを施して
いるのである。図心の各々は、ガウス分布であるものと
してモデル化してあり、それによって、最も大きな確率
を持った図心を求められるようにしてある。従って、式
５を用いて図心の再算出処理を行なうときには、その図
心に関係した複数の特徴ベクトルの平均値に等しい新た
な図心が求められるばかりでなく、その図心に関係した
各次元の分散も併せて求められる。こうして、特定の１
つの音韻クラスに関する１つのプロトタイプが求められ
る。

【００４７】以上のようにして、種々の音韻クラスを確
立した後には、更に、それら音韻クラスの各々に、特定
の識別子を１つずつ付与する必要がある。この識別子と
は、ある特徴ベクトルがある音韻クラスに対して最良の
一致を示した場合に、そのことを識別するためのラベル
である。そのラベル付けは、ラベル付与処理手順によっ
て行なう。

【００４８】ラベル付与処理手順について詳細に説明す
る前に、先ず、図９に示したヒストグラムについて説明
をしておく。このヒストグラムは、１次元の「ガウス分
布」を成している。その要点を説明すると、このヒスト
グラムを形成しているカウント値を表わしている複数本
の線分は、その各々が、複数の変数であり、それら変数
によって、このヒストグラム分布関数が、その略々中央
に、ある値の平均値を持ち、またその中央から両側に離
れた位置に夫々裾部を持つものであることが示されてい
る。この図９に示した種類の分布をモデル化する一般的
な方法は、伝統的なガウス分布の公式を使用する方法で
あり、その公式を次の式６に示す。この式６において、Ｐ（ｘ）は、ｘの確率である。この
式６を用いることによって、ｘの任意の特定の値に対す
る確率の値を算出することができる。また、この式６
を、無限大から負の無限大までの間で積分すると、その
積分値は「１」になる。次に、次元数が「２」以上のガ
ウス分布は、次の式７で表わすことができる。この式７において、ｘ￣は、ベクトルであるｘを表わし
ており、また、π_i ・δ_i は、第ｉ番目の成分について
の、各次元の夫々の分散の平方根の積である。この式７
は更に簡略化した形に書き直すことができ、それによっ
て次の式８の形にすることができる。この式８において、ｍは、第ｉ番目の成分の平均であ
り、δは、第ｉ番目の成分の分散である。

【００４９】ｎ次元のガウス分布における確率の値は、
その値をｎ個の次元の全てについて積分したときに、そ
の積分値が「１」になるように定められる。従って、あ
る音韻（例えば音韻ｓ）が、少なくとも１個の図心から
構成されているものとして表わされているときには、そ
の表わし方は、その図心の周辺の領域を、平均がその図
心の位置にあり分散が全ての方向に等しい基本的なガウ
ス分布を持った領域としてモデル化しているに等しい。
従って１つの図心に関する分散は円形である。また、そ
の領域においてはｍの値は「１」であり、これは、その
領域は平均の値が「１」であることを意味している。こ
のデータがあれば、ガウス分布法を用いて、プロトタイ
プ・ベクトルに対して確率論的解釈を施すことができ
る。尚、ここでは、本発明の実施例を説明するために、
ガウス分布法を例示したが、このガウス分布法は、利用
可能な多くの技法のうちの１つに過ぎないことに注意さ
れたい。

【００５０】確率論的な観点からいえば、ここで目的と
しているのは、ある入力音声ベクトルｘ￣が与えられた
ときに、その入力音声ベクトルに対して、最大の事後確
率を持った音韻クラスｃを求めることである。音韻クラ
スｃの事後確率ｃ＾は、次の式９で表わされる。この式９において、ｃは、音韻クラスを表わしており、
また、Ｐ（ｃ）は、その事前確率を表わしている。

【００５１】事前確率Ｐ（ｃ）は、学習用データを処理
して、各々の音韻クラスの相対的発生頻度を算出するこ
とによって、その確率の推定評価値（見積り値）を得る
ことができる。具体的な一例としては、学習用データの
中に各々の音韻クラスが出現する回数をカウントした上
で、そのカウント値を正規化するようにすれば良く、こ
の正規化は、各々の音韻クラスについて得たカウント値
を、全てのカウント値の総和で割ることによって、その
音韻クラスに対応した「０」と「１」との間の値を得る
という処理である。

【００５２】従って、個々の音韻（ここでは例えば音韻
ｓとする）について、次の式１０が成り立つ。この式１０において、Ｐ（ｘ￣｜ｓ）は、入力音声ベク
トル（即ち、特徴ベクトル）ｘ￣が、音韻ｓに該当する
特徴ベクトルであることの確率、Ｐ_Csは、所与の音韻ク
ラス（この式１０では、音韻クラスｓ）の、プロトタイ
プの事前確率、Σは、全ての図心（この場合は、音韻ｓ
の全ての図心）についての総和、Ｎは、正規分布、Ｍ_Cs
は、複数の平均値から成る１つのベクトル、そして、δ
_Csは、複数の分散値から成る１つのベクトルを表わして
いる。

【００５３】この式１０によれば、音韻ｓが発声された
結果、ある特徴ベクトルが発生する確率は、音韻ｓの全
ての図心について加え合わせた、平均値Ｍ_Csと分散値δ
_Csとを考慮に入れたそれら各図心の事前確率の総和とし
て求められる。また、ユークリッド距離が「１」であ
る、ユークリッド分布の場合には、図心の分散値δ_Csは
「１」になる。それゆえ、仮に、存在する音韻クラスが
２種類だけであるものとし（ここでは、それらはｓとｆ
であるとする）、それらｓとｆとを互いに判別する場合
には、先ず、音韻ｓが発声されたときに、その結果とし
て入力音声ベクトルである特徴ベクトルｘ￣が発生する
確率を、式１０によって算出する。更に、同様にして、
音韻ｆが発声されたときに、その結果として、その入力
音声ベクトルｘ￣が発生する確率を、次の式１１によっ
て算出する。

【００５４】即ち、仮に、存在する音韻がｓとｆの２種
類だけであるとした場合には、ある特徴ベクトルｘ￣が
入力してきたときに、その特徴ベクトルｘ￣が、ｓない
しはｆの音韻が発声された結果として発生したものであ
る確率を、式９、式１０、及び式１１を用いて算出すれ
ば良い。そして、式１０と式１１のうち、その入力特徴
ベクトルｘ￣が発生する確率の値として、より高い値を
出した方の式の音韻クラスに、その入力特徴ベクトルｘ
￣が該当していると判断するのである。

【００５５】１つ１つの音韻クラスを表わす図心の個数
を約５０個にした場合であっても、夫々の音韻クラスを
互いに識別するためのラベルどうしの間の区別の付け方
が、なお不充分であることが判明している。それが不充
分であるのは、様々な音韻の夫々が、複数の異なった音
の調子を持っているからである。例えば、同じｓの音韻
であっても、その中には種々の異形ともいうべき音があ
り、これは、ｆの音韻についても言えることである。従
って、もし本発明のシステムに、８０種類の音韻クラス
しか持たせなかったならば、即ち８０個のプロトタイプ
しか備えなかったならば、入力してくる特徴ベクトルの
評価が、良好に行なわれなくなるおそれがある。

【００５６】斯かる不都合をなくすために本発明者ら
は、任意選択の方策として、次の方策を取ることにし
た。即ちそれは、（反復して実行する）図心の算出処理
の、その第１回目の実行時に、５０個の図心を包含して
成る各々の音韻クラスを、スーパークラスタ（superclu
ster）と呼ぶ４つのグループに分割し、それら４つのス
ーパークラスタの各々が、約１２個の図心から成るよう
にすることである（このスーパークラスタは、サブクラ
スと呼んでも良く、小区画ないしは構成要素と呼んでも
良い）。このように、各音韻クラスを４つのサブクラス
（或いは小区画、ないしは構成要素）に分割したなら
ば、プロトタイプ記憶部１０（図１）に記憶させておく
プロトタイプ・ベクトルの個数は、８０個ではなく約３
２０個になる。また、ベクトル量子化部８から出力する
ラベルも、１種類の音韻クラスについて４とおりの異な
った異形の音のラベルを出力することが（例えば、同じ
ｓの音韻であっても、互いに異なった４とおりの音のラ
ベルを出力することが）できるようになる。尚、８０種
類の音韻クラス（それらの音韻クラスは、プロトタイプ
・ベクトルの基本集合であるということができる）の各
々を、４つの補助的なサブクラスに分割することは、あ
くまでも、本発明をそのようにしても良いという、任意
選択の方策であって、システムによっては、これと異な
るようにしても良いことはいうまでもない。例えばサブ
クラスの個数を４つよりも更に多くすれば、より良好な
出力を得ることができる。ただし、システムに備えるプ
ロトタイプ・ベクトルの個数を増加させると、それに対
応して必要な処理量も増大するため、サブクラスの個数
は、システムの動作性能に調和する個数にしておかなけ
ればならない。

【００５７】これまでの説明では、本発明の実施例の方
法は、以下の処理手順（ステップ）を含んだ方法となっ
ている。先ず最初に、複数の学習用プロトタイプ・ベク
トルを、例えば図１１に示した学習用プロトタイプ・ベ
クトル記憶部６８に記憶させる。次に、それら学習用プ
ロトタイプ・ベクトルを用いて、学習用発声に対するラ
ベル付けを行ない、そして学習用発声から発生させたそ
れらラベルを、ヴィタビ・アラインメント法を用いて音
声音韻に関連付ける。また、１つの音声音韻に対応した
複数の音響特徴ベクトルから成る音響特徴ベクトル集合
の、その各集合を利用して図心集合を生成し、このとき
の図心集合の生成には、ユークリッド・クラスタ形成法
を用いる。続いて、新たな図心集合を生成し、この新図
心集合の生成の際には、ガウス・クラスタ形成法を用い
るようにし、それによって、複数の図心を生成するばか
りでなく、それら図心に付随する複数の分散値と複数の
事前確率値とから成る、分散値及び確率値の集合を併せ
て生成する。この後、１つの発声音韻に対応した複数の
音響特徴ベクトルから成る音韻クラス（即ち、音響特徴
ベクトルの基本集合）の、その各音韻クラスに関して、
その音韻の４とおりの異形音（即ち、４つの部分集合）
を算出し、それら４つの部分集合の各々が、約１２個な
いし１３個ぐらいの図心を含んでいるようにする。この
ように、同じ１つの音韻の複数の異形音を各々が包含し
ているようにした、複数の補助的クラスを使用している
ため、より適切な数（種類数）のラベルを、ベクトル量
子化部から発生させることができるようになっている。

【００５８】このシステムを、更に精緻なものとして、
その誤り発生率を低下させるためには、上に列挙した処
理手順のうち、付加的な前処理のステップを除いたその
他の全ての処理手順を反復して実行するようにすれば良
い。それら処理手順を反復実行する際には、発声音韻−
特徴ベクトル対応付け処理手順も再度実行することにな
る。ただし、その第２回目の音声音韻−特徴ベクトル対
応付け処理手順においては、図４について説明した関連
付け処理と全く同一の処理を実行するのではなく、各々
の音声音韻が３種類の補助的構成要素を持っていると見
なして、その処理を実行するようにしている。それら３
種類の補助的構成要素とは音韻開始音、音韻中間音、音
韻終了音の３つである。例えば、単語「キャット（cat
）」の中の音韻「ａｅ」には、実際に、音韻開始部の
「ａｅ」と、音韻中間部の「ａｅ」と、音韻終了部の
「ａｅ」との、３種類の音が含まれている。また同様
に、単語「ザ（the ）」の中の音韻「ｄｈ」にも、音韻
開始部と、音韻中間部と、音韻終了部との、３種類の音
が含まれている。

【００５９】従って、第２回目の音声音韻−特徴ベクト
ル対応付け処理手順においては、ユークリッド・クラス
タ形成法を実行する必要のある音韻クラスの種類数を８
０種類とするのではなく、約２３０ないし約２５０種類
の音韻クラスを対象としてユークリッド・クラスタ形成
法を実行するようにし、それによって、より大きなサイ
ズの発声音韻のインベントリを形成するようにしてい
る。これによって、音声音韻のタイプ即ちレベルをより
きめ細かなものとし、そのタイプ即ちレベルが、入力し
てくる特徴ベクトルに対して、単に音声音韻を指定する
だけでなく、その音声音韻の音韻開始部、音韻中間部、
ないしは音韻終了部の種別までも指定できるようにして
いる。

【００６０】更に、第２回目の図心算出処理において
は、それら新たな音韻クラスの各々について、その音韻
クラスの図心集合を算出することになる。この第２回目
の図心算出処理を実行するときには、音韻クラスの個数
（種類数）が、約２３０ないし約２５０個になっている
ため、それら音韻クラスの各々を更に細分してスーパー
クラスタに分割することは最早不要になっている。より
具体的には、この段階では、それら音韻クラスは、その
各々が既に基本音韻の異形音（或いは、音韻の基本集合
の異形）であると見なされるため、それら音韻クラスを
更に細分することは不要なのである。更に加えて、この
再度実行するときの（即ち第２回目の）図心算出処理に
おいては、各プロトタイプ・ベクトルごとにＫ平均値ク
ラスタ形成法を用いてそのプロトタイプ・ベクトルの図
心の個数を減少させる際に、１００個の図心を５０個へ
減少させるのではなく、そのクラスタ形成によって５０
個の図心を約２０個へ減少させるようにしている。この
ように２０個にまで減少させるのは、この段階では、最
初のときよりも多くの音韻クラスが設定されているた
め、音韻クラスの各々を表わすのに５０個の図心を用い
る必要は最早ないからである。即ち、１種類の音韻の、
音韻開始部、音韻中間部、及び音韻終了部のうちの、そ
の各部分を表わすのであれば、図心の個数は２０個で充
分と考えられるのである。

【００６１】こうして全ての音声音韻に対応した夫々の
異形音に対して、その図心を決定するプロセスを完了し
たならば、最初に求めたプロトタイプ・ベクトルを廃棄
し、新たに求めたプロトタイプ・ベクトルを、プロトタ
イプ・ベクトル記憶部に記憶させる。

【００６２】以上に説明した方法の全体によって、本発
明が提供するシステムは、話者非従属性システムである
ということができるものとなっている。更に詳細に説明
すると、以上の方法の全体を実行した後には、ベクトル
量子化部８から出力するラベルは、音声音韻の種類を表
わすと共に、更に、その音が、その音声音韻の音韻開始
部、音韻中間部、及び音韻終了部のうちの、いずれの部
分の音であるかを表わすラベルになっている。従って、
例えば、このベクトル量子化部８から出力したラベル
が、「開始ｓ」というラベルであったならば、そのラベ
ルは音韻ｓの音韻開始部であると明確に解釈することが
できる。従って、このラベルは話者非従属性であり、何
故ならば、このラベルは、音声を発している話者が誰で
あるかにかかわらず、とにかく、音韻ｓの音韻開始部以
外のものには関係していないことが確かだからである。
換言すれば、話者が異なればその発声も異なったものと
なるが、その場合であってもベクトル量子化部からは特
定のラベルが出力するため、そのラベルを、異なった話
者が発声する様々な音声に対して等しく適用することが
できるのである。また、基本的に、ある一人の話者につ
いてのラベルと、別の話者についてのラベルとの間に対
応関係があるため、各ラベルに付随する確率の値は話者
の如何にかかわらず同一になる。従って、後の別の話者
についてラベルの再評価を行なうときには、最初の話者
についてラベルの評価を行なったとき程の時間はかから
ず、何故ならば、同じ音韻が発声される確率が、再評価
を行なうときにはすでに既知となっているからである。

【００６３】本発明の方法を実行する際に必要とされ
る、ハードウェアの構成要素の実施例を、図１０に示し
た。同示の如く、本発明のこのハードウェアの実施例
は、例えば図１に引用符号２で示した信号等の音声信号
を取り込むための、音響トランスデューサ４０を備えて
いる。この音響トランスデューサ４０からは、その音声
信号を表わすアナログ信号が、線４２を介して、アナロ
グ・ディジタル・コンバータ４４へ入力する。そのアナ
ログ信号はここでディジタル信号に変換され、更に線４
６を介して、スペクトル解析部４８へ入力する。このス
ペクトル解析部４８は、図１に示した信号処理部４の一
部分と考えれば良く、このスペクトル解析部４８によっ
てスペクトル解析を行なって、特徴ベクトル出力を、線
５０上へ送出する。送出された特徴ベクトルは、処理部
５２へ入力する。この処理部５２は、小区画一致度点数
値（一致度スコア）計算部５４と、プロトタイプ一致度
点数値計算部５６とから構成してある。小区画一致度点
数値計算部５４は、その他方の入力に、プロトタイプ・
ベクトル記憶部５８からの出力を受け取っている。プロ
トタイプ一致度点数値計算部５６からは、プロトタイプ
一致度点数値信号が出力し、出力したその信号は、特徴
ベクトル信号エンコーダ６０へ入力する。特徴ベクトル
信号エンコーダ６０の機能は、最良のプロトタイプ一致
度点数値を有するプロトタイプ・ベクトルに対応した特
徴ベクトルを識別することにある。こうして識別した特
徴ベクトルに対しては、続いてラベル付けを施す。この
ラベル付けは、ある１つの音韻クラスに対して定めてあ
る識別子、即ちラベルを付与することによって行なう。

【００６４】尚、この図１０の全体ブロック図について
の説明では、プロトタイプそのものが、１つの音韻クラ
スであるものとして説明をする。また更に、各々の音韻
クラスが複数のサブクラス持ち、それらサブクラスは、
ここでは例えばその音韻の、音韻開始部、音韻中間部、
及び音韻終了部であるものとする。これらサブクラス
は、小区画と呼ぶこともできる。

【００６５】更に図１０についての説明を続ける。図示
の如く、スペクトル解析部４８から処理部５２へ供給さ
れる特徴ベクトルは、先ず、小区画一致度点数値計算部
５４へ入力する。この小区画一致度点数値計算部５４
は、供給された特徴ベクトルの各々を、プロトタイプ・
ベクトル記憶部５８に記憶させてある夫々のプロトタイ
プ・ベクトルと比較することによって、小区画一致度点
数値を得るようにしたものであり、この小区画一致度点
数値は、夫々の小区画と、特徴ベクトル信号に含まれる
複数の特徴値のうちの少なくとも１つの特徴値との間
の、一致度の値を表わす点数値である。こうして得た夫
々の小区画一致度点数値の総和が、この小区画一致度点
数値計算部５４から、線５５を介して、プロトタイプ一
致度点数値計算部５６へ供給される。プロトタイプ一致
度点数値計算部５６は、小区画一致度点数値の総和を受
け取ったならば、各々の音韻クラスに対応した、プロト
タイプ一致度点数値を計算によって求める。このプロト
タイプ一致度点数値計算部５６へは、複数の小区画の小
区画一致度点数値の総和が供給されるため、各々のプロ
トタイプ一致度点数値は、該当する１つのプロトタイプ
即ち音韻クラスに所属する全ての小区画の小区画一致度
点数値の１つの関数を表わすものとなっている。そし
て、特徴ベクトルとの間の一致度を調べた結果、小区画
一致度点数値の総和に最も近い値を示した最良のプロト
タイプ一致度点数値を有するプロトタイプ・ベクトル
を、その特徴ベクトルが該当するプロトタイプ、即ち音
韻クラスとして指定する。この指定は、特徴ベクトル信
号エンコーダ６０において、そのプロトタイプ（即ち音
韻クラス）に対して定めてある識別子を用いて、その特
徴ベクトルを符号化することによって行ない、これによ
って、その音韻クラスに該当するラベルが出力されるこ
とになる。

【００６６】図１０の全体ブロック図についての以上の
説明に関して更に付言すると、小区画一致度点数値を算
出するには、例えば図９のヒストグラムに示したガウス
分布上の、どの位置に、その音響特徴ベクトルが位置し
ているかを求めるようにすれば良い。

【００６７】図１１には、これまでに図４、図６、図
７、及び図８について説明した様々な処理手順（ステッ
プ）を実行するための装置の、ブロック図である。本発
明の方法における全てのステップは、ラベル付与部６２
を中心としており、このラベル付与部６２は、その入力
として特徴ベクトルを、音響特徴ベクトル記憶部６４か
ら受け取っている。また、このラベル付与部６２から出
力するラベルは、認識部６６へ供給されている。この認
識部６６では、この音声認識システムのシステム全体に
ついての更なる処理が行なわれており、本明細書で説明
した音響モデルの音声認識の諸特徴は、このシステム全
体の処理の一部を成すものである。ラベル付与部６２は
更に、ラベル付け処理が実行できるように、プロトタイ
プ・ベクトル記憶部６８から、プロトタイプの集合を受
け取っており、このプロトタイプ・ベクトル記憶部６８
の中には、夫々に異なった音韻クラスを表わしている複
数のプロトタイプ・ベクトルを記憶させてある。

【００６８】プロトタイプ・ベクトル記憶部６８に記憶
させておく、複数のプロトタイプ・ベクトル（それらの
プロトタイプ・ベクトルは、複数の基本要素モデルから
成る１つの基本要素モデル・ネットワークであると見な
すことのできる、複数のプロトタイプ・ベクトル信号で
ある）を決定するためには、先ず第１に、音声音韻−特
徴ベクトル対応付け処理手順を実行する必要がある。音
声音韻−特徴ベクトル対応付け処理手順は、このブロッ
ク図の、学習用クラス・モデル記憶部７０、クラス・モ
デル記憶部７２、学習用テキスト・モデル選択部７４、
ラベル対モデル関連付け処理部７６、及びクラス・モデ
ル・パラメータ再計算部７８から成る経路の部分に関係
した処理である。既述の如く、学習用クラス・モデル記
憶部７０の中には、学習用クラス（或いは学習用テキス
ト、ないしは学習用基本要素モデル）の集合を記憶させ
てある。この集合は、例えば、８０個の音韻クラスから
成るインベントリである。ラベルをモデルに関連付ける
ラベル対モデル関連付け処理が完了したならば（この処
理は、例えば前述の音声音韻−特徴ベクトル対応付け処
理手順の中で説明した方法等を用いて行なう）、その段
階で、複数の特徴ベクトルが、夫々に個々の音韻モデル
に関連付けられている。更に、ある１つの音声音韻に対
応する全ての特徴ベクトルがプールされ、それら特徴ベ
クトルに対する、前述のユークリッド・クラスタ形成法
を用いたクラスタ形成処理が完了したならば、夫々の平
均値、分散値、及び事前確率を含んでいる複数のプロト
タイプ・ベクトルから成る新たなプロトタイプ・ベクト
ル集合が、ラベル対モデル関連付け処理部７６から、音
響特徴ベクトル選択部８０へ供給される。

【００６９】ある１つの音声音韻に対応した複数の音響
特徴ベクトルから成る集合は、特徴ベクトル信号の基礎
集合であると考えることができる。この音響特徴ベクト
ルの基礎集合は、音響特徴ベクトル部分集合選択部８２
の中で、複数の部分集合即ちサブクラスに分割すること
ができ、それらサブクラスは例えば、その音韻の、音韻
開始部、音韻中間部、音韻終了部等のサブクラスであ
る。それらサブクラスから成る複数のプロトタイプ・ベ
クトルは（それらプロトタイプ・ベクトルは、この段階
では、新プロトタイプ・ベクトルと呼ばれるものであ
る）、音響特徴ベクトル部分集合選択部８２から、プロ
トタイプ処理部８４へ送出され、そこで処理された上
で、新プロトタイプ・ベクトル記憶部８６に記憶され
る。この構成により、ラベル付与部６２は、入力してき
た特徴ベクトルと、プロトタイプ・ベクトル記憶部６８
に記憶してある様々なプロトタイプ・ベクトルとを、比
較することができるようになっている。また、音響特徴
ベクトル部分集合選択部８２、プロトタイプ処理部８
４、及び新プロトタイプ・ベクトル記憶部８６において
は、更にプロトタイプ・ベクトルの図心の算出処理も行
なっている。

【００７０】以上を要約して述べるならば、クラス・モ
デル記憶部７２、学習用テキスト・モデル選択部７４、
ラベル対モデル関連付け処理部７６、及びクラス・モデ
ル・パラメータ再計算部７８から成る経路の部分は、こ
のシステムに必要な、音声音韻モデルの学習作業を担当
している。この学習作業には、複数の単語モデルから成
る単語モデル集合が必要であり、この単語モデル集合
は、学習用クラス・モデル記憶部７０と、クラス・モデ
ル記憶部７２とから得られるようにしてある。更にこの
学習作業には、複数のラベルから成るラベル集合も必要
であり、このラベル集合は、ラベル対モデル関連付け処
理部７６が実行する関連付け処理によって得られる。ク
ラス・モデル・パラメータ再計算部７８は、それら複数
のラベルを使用し、ヴィタビ・アラインメント法に従っ
て、新たな複数の単語モデルを生成すると共に、特徴ベ
クトルと音声音韻とを連携させるアラインメント作業を
行なう。新たなラベルから成る新ラベル集合が得られた
ならば、このシステムは、それら新ラベルによって再学
習を実行した後に、新たな音声音韻−特徴ベクトル対応
付け処理手順を実行するようにしなければならない。

【００７１】図１２は、図心算出処理をどのように行な
うかを示した、簡単化したフローチャートである。その
基本的な点を説明すると、先ずブロック９０において、
特徴ベクトルを得る。続いてブロック９２において、音
声音韻−特徴ベクトル対応付け処理手順を実行する。こ
の後、ブロック９４において、前述のユークリッド・ク
ラスタ形成法を用いて、基本クラス（基本集合）を、少
なくとも２つの部分集合に分割する。ブロック９６で
は、それら部分集合の各々に対応した、プロトタイプ・
ベクトルを算出し、それによって、それら部分集合の各
々に対応した、平均値、分散値、及び事前確率値を得
る。

【００７２】図１３は、前述の付加的な前処理手順を示
した、簡単化したフローチャートである。先ず、図示の
如く、ブロック９８において音響特徴ベクトルを計測す
る。この後、ブロック１００において、音声音韻−特徴
ベクトル対応付け処理手順を実行する。次に、一般化固
有ベクトル法を用いて、ｍ次元の特徴ベクトルの方向転
換処理を行ってｎ次元の特徴ベクトルにし、それによっ
て、異なった音韻クラスどうしを最適に判別できるよう
にする。この後、ブロック１０４において、特徴ベクト
ルをｎ次元の空間へ射影する。

【００７３】図１４は、前述の音声音韻−特徴ベクトル
対応付け処理手順を、簡単化したフローチャートのフォ
ーマットで示した図である。その要点を述べるならば、
ブロック１０６からは、複数の音響特徴ベクトルから成
る音響特徴ベクトル集合を取り出し、取り出したその音
響特徴ベクトル集合を、ブロック１０８へ入力として供
給する。このブロック１０８では、複数のラベルから成
るラベル集合を生成する。続いて、生成したそれら複数
のラベルをブロック１１０へ供給し、このブロック１１
０では、ヴィタビ・アラインメント処理を実行して、発
声のモデルを複数の異なった特徴ベクトルに関連付け
る。このブロック１１０からの出力１１２は、図１２の
ブロック９２と、図１３のブロック１００とへ供給す
る。ブロック１１４とブロック１１６とは、ヴィタビ・
アラインメント処理に必要な、学習用の文章のテキスト
を供給するためのブロックである。

【００７４】本発明は、様々な別実施例ないし変更実施
例とすることができ、また細部における改変も可能なも
のである。従って本明細書中に記載し、ないしは添付図
面中に示した全ての事項は、あくまでも具体例の例示と
して解釈すべきものであり、本発明がそれらに限定され
ると解釈すべきものではない。

【図面の簡単な説明】

【図１】音声から抽出した特徴ベクトルにラベル付けを
行なうためのシステムの簡単化した模式図である。

【図２】空間内の複数の特徴ベクトルと、それら特徴ベ
クトルを複数の凸領域に区分する区分処理とを２次元的
に表わした説明図である。

【図３】Ａは、２種類の音声音韻を２次元的に表わし
た、本発明の基本的概念を説明するための図であり、Ｂ
は、Ａと同様の説明図であるが、ただし、同一の音声音
韻クラスの複数の異なったグループが、互いに別々の凸
領域に区画されているところを表わした、本発明の基本
的概念を説明するための図である。

【図４】連続テキスト列と様々な音韻との間の相関関係
を示した、簡単化した説明図である。

【図５】１つの単語の中に含まれる異なった複数の特徴
ベクトルを例示した、簡単化したスペクトル周波数の模
式図である。

【図６】複数の特徴ベクトルをつなぎ合わせてそれらに
対応した複数の異なったプロトタイプ・ベクトルを形成
する、スプライス法の具体例の説明図である。

【図７】Ａ及びＢは、２次元空間の中に分布している同
種の複数の音声音韻を、一般化固有ベクトル法を用いて
射影する、射影法を示した説明図である。

【図８】２次元空間の中に分布している複数の「ｓ」の
ベクトルの具体例を示した模式図である。

【図９】所与の１つの音声音韻の分布関数の具体例を示
した説明図である。

【図１０】本発明の技法を実行する上で必要な様々な構
成要素の具体例を示した、簡単化した全体ブロック図で
ある。

【図１１】本発明の装置の一実施例を示したブロック図
である。

【図１２】本発明の方法における図心算出処理のステッ
プを示した、簡単化したフローチャートである。

【図１３】本発明の方法における付加的な前処理のステ
ップを示した、簡単化したフローチャートである。

【図１４】本発明の方法における音声音韻−特徴ベクト
ル対応付け処理のステップを示した、簡単化したフロー
チャートである。

【符号の説明】

２音声信号４信号処理部６特徴ベクトル８ベクトル量子化部１０プロトタイプ記憶部１２音声特徴ベクトル１４、１５凸領域１６、１８プロトタイプ２４ａ〜２４ｃ領域２６ａ〜２６ｃ領域

───────────────────────────────────────────────────── フロントページの続き (72)発明者ピーター・ヴインセント・デ・ソウザアメリカ合衆国10541、ニユーヨーク州マホパツク、トミー・コート、ロツト・ナンバー５ (72)発明者ラリツト・アール・バールアメリカ合衆国10501、ニユーヨーク州アマウオーク、エリシヤ・パーデイー・ロード、アールデイーアイ、ボツクス 28 (72)発明者マイケル・アラン・ピチエニーアメリカ合衆国10606、ニユーヨーク州ホワイト・プレインズ、ラルフ・アベニユー 118番地

Claims

【特許請求の範囲】

【請求項１】音声符号化装置において、複数のクラスを記憶するためのクラス記憶手段であっ
て、記憶するそれら複数のクラスは、その各クラスが識
別子を有すると共に、その各クラスが複数のプロトタイ
プのうちの少なくとも２つのプロトタイプによって表わ
されるようにしてあり、前記複数のプロトタイプは、そ
の各々が少なくとも１つのプロトタイプ値を有してい
る、前記クラス記憶手段と、少なくとも１つの特徴値を有する特徴ベクトル信号を発
声の中から抽出する、特徴ベクトル信号抽出手段と、前記複数のプロトタイプのうちから、前記特徴ベクトル
信号の特徴値に対して最良の一致を示すプロトタイプ値
を有する少なくとも１つのプロトタイプを選択すること
によって、前記特徴ベクトル信号と前記複数のクラスの
うちの少なくとも１つのクラスとの間に対応関係を確立
する、対応関係確立手段と、選択した前記少なくとも１つのプロトタイプによって表
わされているクラスの識別子を用いて前記特徴ベクトル
信号を符号化する、符号化手段と、を備えたことを特徴とする音声符号化装置。
【請求項２】前記少なくとも１つのプロトタイプのプ
ロトタイプ値を、そのプロトタイプに関連した１つの集
合を成す複数の音響特徴ベクトルの夫々の、少なくとも
平均値と分散値と事前確率値とに基づいて算出するよう
にしてあることを特徴とする請求項１の音声符号化装
置。
【請求項３】前記少なくとも１つのプロトタイプのプ
ロトタイプ値を、そのプロトタイプの確率分布関数上に
おける、前記特徴ベクトル信号の特徴値の位置に基づい
て、算出するようにしてあることを特徴とする請求項１
の音声符号化装置。
【請求項４】前記複数のクラスのうちの各クラスを複
数のプロトタイプによって表わすようにしてあり、各ク
ラスを表わすそれら複数のプロトタイプの夫々のプロト
タイプ値は、それらプロトタイプ値の全体を前記特徴ベ
クトル信号の特徴値と比較対照して考察することによっ
て、前記特徴ベクトル信号がそのクラスに該当するもの
か否かを判別できるようにしたプロトタイプ値であるこ
とを特徴とする請求項１の音声符号化装置。
【請求項５】複数の学習用クラスを記憶するための学
習用クラス記憶手段と、学習用発声を計測して、その学習用発声を、各々が特徴
値を有する複数の学習用特徴ベクトルから成る学習用特
徴ベクトル列へと変換する、計測及び変換手段と、前記学習用特徴ベクトル列のうちの各学習用特徴ベクト
ルを、前記複数の学習用クラスのうちの１つの学習用ク
ラスに関連付けることによって、記憶する前記複数のク
ラスを生成する、関連付け手段と、を更に備えたことを
特徴とする請求項１の音声符号化装置。
【請求項６】連続した複数回の所定周期に亙って発声
を計測し、その発声からその発声に対応した連続した複
数の特徴ベクトル集合を抽出する、計測及び抽出手段で
あって、前記連続した複数の特徴ベクトル集合における
各特徴ベクトルは、少なくとも１つの特徴値に相当する
次元数を有する特徴ベクトルである、前記計測及び抽出
手段と、前記連続した複数の特徴ベクトル集合の中の各特徴ベク
トル集合に含まれている複数の特徴ベクトルを互いに併
合することによって複数の合併特徴ベクトルを形成す
る、特徴ベクトル併合手段であって、前記複数の合併特
徴ベクトルの夫々の次元数は、その合併特徴ベクトルに
対応する併合された元の特徴ベクトルの次元数の総和に
等しく、それら複数の合併特徴ベクトルは、記憶してあ
る前記複数の学習用クラスどうしの間の区別を行なうの
に、より適したものである、前記特徴ベクトル併合手段
と、前記複数の合併特徴ベクトルに対して空間的な方向転換
処理を施すことによって、それら複数の合併特徴ベクト
ルの次元数を減少させ、それによって、それら合併特徴
ベクトルの操作を容易化する、方向転換処理手段と、を
更に備えたことを特徴とする請求項５の音声符号化装
置。
【請求項７】前記複数の学習用クラスは、その各々の
学習用クラスを複数の学習用サブクラスに区分してあ
り、更に、前記複数の学習用サブクラスを、対応した平均値と分散
値と事前確率値とを有する複数の学習用分布関数のうち
の夫々の学習用分布関数として設定する、学習用サブク
ラス設定手段と、各々が１つの学習用プロトタイプを表わすようにした複
数の前記学習用分布関数を記憶するための、学習用分布
関数記憶手段と、を備えたことを特徴とする請求項６の音声符号化装置。
【請求項８】記憶してある前記複数のクラスは、その
各々のクラスが少なくとも１つの下位構成要素を有して
おり、前記関連付け手段は、前記連続特徴ベクトル列を前記少
なくとも１つの下位構成要素に関連付けることによっ
て、記憶しておく複数の構成要素クラスを生成するよう
にした手段である、ことを特徴とする請求項７の音声符
号化装置。
【請求項９】前記設定手段は、更に、前記複数の構成
要素クラスを、対応した平均値と分散値と事前確率値と
を各々が有する複数の分布関数のうちの夫々の分布関数
として設定する手段であり、更に、前記複数の構成要素クラスを表わしている前記複数の分
布関数を記憶するための分布関数記憶手段であって、そ
れら複数の構成要素クラスのそれら複数の分布関数の各
々が１つのプロトタイプを表わすようにした前記分布関
数記憶手段を備えたことを特徴とする請求項８の音声符
号化装置。
【請求項１０】前記符号化手段が、符号化を施した特
徴ベクトル信号に対応したラベルを出力する量子化手段
を備えていることを特徴とする請求項１の音声符号化装
置。
【請求項１１】前記対応関係確立手段が、複数の音声特徴ベクトルをグループ分けして、各々が夫
々に平均値と分散値と事前確率値とを有する所定数の複
数のプロトタイプに分ける、音声特徴ベクトルグループ
分け手段と、前記所定数の複数のプロトタイプのうちの各プロトタイ
プを、少なくとも２つのサブ・プロトタイプに区分し、
それによって、前記特徴ベクトル信号をその他の特徴ベ
クトル信号からより良好に区別できるようにする、プロ
トタイプ区分手段と、を含んでいることを特徴とする請
求項１の音声符号化装置。
【請求項１２】音声符号化装置において、複数のクラスを表わす複数のプロトタイプを記憶するた
めのプロトタイプ記憶手段であって、それら複数のクラ
スは、その各クラスが識別子を有すると共に、その各ク
ラスが前記複数のプロトタイプのうちの少なくとも２つ
のプロトタイプによって表わされるようにしてあり、前
記複数のプロトタイプは、その各々が少なくとも１つの
プロトタイプ値を有している、前記プロトタイプ記憶手
段と、少なくとも１つの特徴値を有する特徴ベクトル信号を発
声の中から抽出する、特徴ベクトル信号抽出手段と、前記特徴ベクトル信号の特徴値を、前記複数のプロトタ
イプの夫々のプロトタイプ値と比較対照することによっ
て、該特徴ベクトル信号と少なくとも１つのクラスとの
間に対応関係を確立する、対応関係確立手段と、前記複数のプロトタイプのうち、前記特徴ベクトル信号
の特徴値に対して最良の一致を示すプロトタイプ値を有
するプロトタイプによって表わされているクラスの識別
子を用いて該特徴ベクトル信号を符号化する、符号化手
段と、を備えたことを特徴とする音声符号化装置。
【請求項１３】前記複数のクラスのうちの各クラス
を、前記複数のプロトタイプのうちの複数のプロトタイ
プによって表わすようにしてあり、各クラスを表わして
いるそれら複数のプロトタイプの夫々のプロトタイプ値
は、それらプロトタイプ値の全体を前記特徴ベクトル信
号の特徴値と比較対照して考察することによって、前記
複数のクラスのうちのどのクラスに対して前記特徴ベク
トル信号が最良の一致を示すかを判別することができる
プロトタイプ値にしてあることを特徴とする請求項１２
の音声符号化装置。
【請求項１４】前記複数のプロトタイプのうちの各プ
ロトタイプのプロトタイプ値を、そのプロトタイプに関
連した１つの集合を成す複数の音響特徴ベクトルの夫々
の、少なくとも平均値と分散値と事前確率値とに基づい
て算出するようにしてあることを特徴とする請求項１２
の音声符号化装置。
【請求項１５】前記複数のプロトタイプのうちの各プ
ロトタイプのプロトタイプ値を、そのプロトタイプの確
率分布関数上における、前記特徴ベクトル信号の特徴値
の位置に基づいて、算出するようにしてあることを特徴
とする請求項１２の音声符号化装置。
【請求項１６】複数の学習用クラスを記憶するための
学習用クラス記憶手段と、学習用発声を計測して、その学習用発声を、各々が特徴
値を有する複数の学習用特徴ベクトルから成る学習用特
徴ベクトル列へと変換する、計測及び変換手段と、前記学習用特徴ベクトル列のうちの各学習用特徴ベクト
ルを、前記複数の学習用クラスのうちの１つの学習用ク
ラスに関連付けることによって、記憶する前記複数のク
ラスを生成する、関連付け手段と、を更に備えたことを
特徴とする請求項１２の音声符号化装置。
【請求項１７】連続した複数回の所定周期に亙って発
声を計測し、その発声からその発声に対応した連続した
複数の特徴ベクトル集合を抽出する、計測及び抽出手段
であって、前記連続した複数の特徴ベクトル集合におけ
る各特徴ベクトルは、次元数と、少なくとも１つの特徴
値とを有する特徴ベクトルである、前記計測及び抽出手
段と、前記連続した複数の特徴ベクトル集合の中の各特徴ベク
トル集合に含まれている複数の特徴ベクトルを互いに併
合することによって複数の合併特徴ベクトルを形成す
る、特徴ベクトル併合手段であって、前記複数の合併特
徴ベクトルの夫々の次元数は、その合併特徴ベクトルに
対応した併合された元の特徴ベクトルの次元数の総和に
等しく、それら複数の合併特徴ベクトルは、記憶してあ
る前記複数の学習用クラスどうしの間の区別を行なうの
に、より適したものである、前記特徴ベクトル併合手段
と、前記複数の合併特徴ベクトルに対して空間的な方向転換
処理を施すことによって、それら複数の合併特徴ベクト
ルの次元数を減少させ、それによって、それら合併特徴
ベクトルの操作を容易化する、方向転換処理手段と、を
更に備えたことを特徴とする請求項１６の音声符号化装
置。
【請求項１８】前記複数の学習用クラスは、その各々
の学習用クラスを複数の学習用サブクラスに区分してあ
り、更に、前記複数の学習用サブクラスを、対応した平均値と分散
値と事前確率値とを有する複数の学習用分布関数のうち
の夫々の学習用分布関数として設定する、学習用サブク
ラス設定手段と、各々が１つの学習用プロトタイプを表わすようにした複
数の前記学習用分布関数を記憶するための、学習用分布
関数記憶手段と、を備えたことを特徴とする請求項１７
の音声符号化装置。
【請求項１９】記憶してある前記複数のクラスは、そ
の各々のクラスが少なくとも１つの下位構成要素を有し
ており、前記関連付け手段は、前記連続特徴ベクトル列を前記少
なくとも１つの下位構成要素に関連付けることによっ
て、記憶しておく複数の構成要素クラスを生成するよう
にした手段である、ことを特徴とする請求項１８の音声
符号化装置。
【請求項２０】前記設定手段は、更に、前記複数の構
成要素クラスを、対応した平均値と分散値と事前確率値
とを各々が有する複数の分布関数のうちの夫々の分布関
数として設定する手段であり、更に、前記複数の構成要素クラスを表わしている前記複数の分
布関数を記憶するための分布関数記憶手段であって、そ
れら複数の構成要素クラスのそれら複数の分布関数の各
々が１つのプロトタイプを表わすようにした前記分布関
数記憶手段を備えたことを特徴とする請求項１９の音声
符号化装置。
【請求項２１】前記符号化手段が、符号化を施した特
徴ベクトル信号に対応したラベルを出力する量子化手段
を備えていることを特徴とする請求項１２の音声符号化
装置。
【請求項２２】前記対応関係確立手段が、複数の音声特徴ベクトルをグループ分けして、各々が夫
々に平均値と分散値と事前確率値とを有する所定数の複
数のプロトタイプに分ける、音声特徴ベクトルグループ
分け手段と、前記所定数の複数のプロトタイプのうちの各プロトタイ
プを、少なくとも２つのサブ・プロトタイプに区分し、
それによって、前記特徴ベクトル信号をその他の特徴ベ
クトル信号からより良好に区別できるようにする、プロ
トタイプ区分手段と、を備えていることを特徴とする請
求項１２の音声符号化装置。
【請求項２３】音声符号化方法において、 (a) 記憶手段の中に複数のクラスを記憶するクラス記憶
ステップであって、記憶するそれら複数のクラスは、そ
の各クラスが識別子を有すると共に、その各クラスが複
数のプロトタイプのうちの少なくとも２つのプロトタイ
プによって表わされるようにしてあり、前記複数のプロ
トタイプは、その各々が少なくとも１つのプロトタイプ
値を有している、前記クラス記憶ステップと、 (b) 少なくとも１つの特徴値を有する特徴ベクトル信号
を発声の中から抽出する、特徴ベクトル信号抽出ステッ
プと、 (c) 前記複数のプロトタイプのうちから、前記特徴ベク
トル信号の特徴値に対して最良の一致を示すプロトタイ
プ値を有する少なくとも１つのプロトタイプを選択する
ことによって、前記特徴ベクトル信号と前記複数のクラ
スのうちの少なくとも１つのクラスとの間に対応関係を
確立する、対応関係確立ステップと、 (d) 選択した前記少なくとも１つのプロトタイプによっ
て表わされているクラスの識別子を用いて前記特徴ベク
トル信号を符号化する、符号化ステップと、を含んでい
ることを特徴とする音声符号化方法。
【請求項２４】前記クラス記憶ステップに先立って実
行するステップとして、複数の学習用クラスから成るインベントリを確立する、
インベントリ確立ステップと、連続した学習用テキスト列から複数の学習用特徴ベクト
ルを抽出する、学習用特徴ベクトル抽出ステップと、前記複数の学習用特徴ベクトルの各々を、前記複数の学
習用クラスのうちの１つの学習用クラスに関連付ける、
関連付けステップと、を更に含んでいることを特徴とす
る請求項２３の方法。
【請求項２５】連続した複数回の所定周期に亙って発
声を計測し、その発声から、その発声に対応した連続し
た複数の特徴ベクトル集合を抽出する、計測及び抽出ス
テップであって、前記連続した複数の特徴ベクトル集合
における各特徴ベクトルは、少なくとも１つの特徴値に
相当する次元数を有する特徴ベクトルである、前記計測
及び抽出ステップと、前記連続した複数の特徴ベクトル集合の中の各特徴ベク
トル集合に含まれている複数の特徴ベクトルを互いに併
合することによって複数の合併特徴ベクトルを形成す
る、特徴ベクトル併合ステップであって、前記複数の合
併特徴ベクトルの夫々の次元数は、その合併特徴ベクト
ルに対応する併合された元の特徴ベクトルの次元数の総
和に等しく、それら複数の合併特徴ベクトルは、記憶し
てある前記複数の学習用クラスどうしの間の区別を行な
うのに、より適したものである、前記特徴ベクトル併合
ステップと、前記複数の合併特徴ベクトルに対して空間的な方向転換
処理を施すことによって、それら複数の合併特徴ベクト
ルの次元数を減少させ、それによって、それら合併特徴
ベクトルの操作を容易化する、方向転換処理ステップ
と、を更に含んでいることを特徴とする請求項２４の方
法。
【請求項２６】１つのクラスを適切に表わすために必
要な複数のプロトタイプを確立するプロトタイプ確立ス
テップを含んでおり、更に、前記複数の学習用クラスの
各々に関して実行するステップとして、複数の学習用プロトタイプを選択する学習用プロトタイ
プ選択ステップと、前記複数の学習用プロトタイプのうちの各学習用プロト
タイプに近接して位置している複数の特徴ベクトルの夫
々の値の平均値を求める処理を、それら複数の特徴ベク
トルの間の平均距離が実質的に不変になるまで続けるこ
とによって、夫々の新たな学習用プロトタイプを算出す
る、新学習用プロトタイプ算出ステップと、互いに最も近接している２つの新学習用プロトタイプ
を、それら２つの新学習用プロトタイプの夫々の値の平
均値をその値として持つ更なる新たな１つの学習用プロ
トタイプで置換する置換処理を連続して行ない、且つ、
置換されて残った更なる新たな学習用プロトタイプの個
数が所定個数となるまでその置換処理を続ける、学習用
プロトタイプ置換ステップと、を更に含んでいることを
特徴とする請求項２５の方法。
【請求項２７】前記所定個数の更なる新たな学習用プ
ロトタイプに対する分布解析を利用して、それら更なる
新たな学習用プロトタイプに対応した、その各々が評価
推定値である平均値と分散値と事前確率値とを有する複
数の新学習用プロトタイプから成る学習用プロトタイプ
集合を算出するステップと、前記複数の新学習用プロトタイプの各々を、その新学習
用プロトタイプに対応した複数の補助的学習用プロトタ
イプに区分するステップと、を更に含んでいることを特
徴とする請求項２６の方法。
【請求項２８】前記対応関係確立ステップが、１つの
クラスを適切に表わすために必要な複数のプロトタイプ
を確立するプロトタイプ確立ステップを含んでおり、且
つ、前記方法が、前記複数のクラスの各々に関して実行
するステップとして、複数のプロトタイプを選択するプロトタイプ選択ステッ
プと、前記複数のプロトタイプのうちの各プロトタイプに近接
して位置している複数の特徴ベクトルの夫々の値の平均
値を求める処理を、それら複数の特徴ベクトルの間の平
均距離が実質的に不変になるまで続けることによって、
夫々の新たなプロトタイプを算出する、新プロトタイプ
算出ステップと、互いに最も近接している２つの新プロトタイプを、それ
ら２つの新プロトタイプの夫々の値の平均値をその値と
して持つ更なる新たな１つのプロトタイプで置換する置
換処理を連続して行ない、且つ、置換されて残った更な
る新たなプロトタイプの個数が所定個数となるまでこの
置換処理を続ける、プロトタイプ置換ステップと、を更
に含んでいることを特徴とする請求項２３の方法。
【請求項２９】前記所定個数の更なる新たなプロトタ
イプに対する分布解析を利用して、それら更なる新たな
プロトタイプに対応したプロトタイプ集合であって各々
が評価推定値である平均値と分散値と事前確率値とを有
する複数のプロトタイプから成るプロトタイプ集合を、
算出するステップと、前記評価推定値である平均値と分散値と事前確率値とを
有する前記複数のプロトタイプの各々を、複数の補助的
プロトタイプに区分し、それによって、それら複数のプ
ロトタイプより多くの個数の、前記特徴ベクトル信号と
比較対照するためのプロトタイプを生成するステップ
と、を更に含んでいることを特徴とする請求項２８の方
法。
【請求項３０】前記関連付けステップが、ヴィタビ・
アラインメント法を用いるステップを含んでいることを
特徴とする請求項２４の方法。
【請求項３１】前記少なくとも１つのプロトタイプの
プロトタイプ値を、そのプロトタイプに関連した１つの
集合を成す複数の音響特徴ベクトルの夫々の平均値と分
散値と事前確率値とに基づいて算出することを特徴とす
る請求項２３の方法。
【請求項３２】前記少なくとも１つのプロトタイプの
プロトタイプ値を、そのプロトタイプの確率分布関数上
における、前記特徴ベクトル信号の特徴値の位置に基づ
いて、算出することを特徴とする請求項２３の方法。
【請求項３３】音声符号化方法において、 (a) 複数のクラスを表わす複数のプロトタイプ・ベクト
ルを記憶手段の中に記憶する、プロトタイプ・ベクトル
記憶ステップであって、前記複数のクラスは、その各ク
ラスが識別子を有すると共に、その各クラスが前記複数
のプロトタイプ・ベクトルのうちの少なくとも１つのプ
ロトタイプ・ベクトルによって表わされるようにしてあ
り、前記複数のプロトタイプ・ベクトルは、その各々が
少なくとも１つのプロトタイプ値を有しているようにす
る、前記プロトタイプ・ベクトル記憶ステップと、 (b) 特徴値を有する特徴ベクトル信号を発声の中から抽
出する、特徴ベクトル信号抽出ステップと、 (c) 前記特徴ベクトル信号の特徴値を、前記複数のプロ
トタイプ・ベクトルの夫々のプロトタイプ値と比較対照
することによって、該特徴ベクトル信号と少なくとも１
つのクラスとの間に対応関係を確立する、対応関係確立
ステップと、 (d) 前記複数のプロトタイプ・ベクトルのうち、前記特
徴ベクトル信号の特徴値に対して最良の一致を示すプロ
トタイプ値を有するプロトタイプ・ベクトルによって表
わされているクラスの識別子を用いて、該特徴ベクトル
信号を符号化する、符号化ステップと、を含んでいるこ
とを特徴とする音声符号化方法。
【請求項３４】前記複数のクラスのうちの各クラス
を、前記複数のプロトタイプ・ベクトルのうちの複数の
プロトタイプ・ベクトルによって表わすようにしてあ
り、更に前記方法が、各クラスを表わしているそれら複数の
プロトタイプ・ベクトルの夫々のプロトタイプ値に対す
る考察を、それらプロトタイプ値の全体を前記特徴ベク
トル信号の特徴値と比較対照することによって行ない、
それによって、前記特徴ベクトル信号が、前記複数のク
ラスのうちのどのクラスに対して最良の一致を示すかを
判別するステップを含んでいることを特徴とする請求項
３３の方法。
【請求項３５】前記プロトタイプ・ベクトル記憶ステ
ップに先立って実行するステップとして、複数の学習用クラスから成るインベントリを確立する、
インベントリ確立ステップと、連続した学習用テキスト列から複数の学習用特徴ベクト
ルを抽出する、学習用特徴ベクトル抽出ステップと、前記複数の学習用特徴ベクトルの各々を、前記複数の学
習用クラスのうちの１つの学習用クラスに関連付ける、
関連付けステップと、を更に含んでいることを特徴とす
る請求項３３の方法。
【請求項３６】連続した複数回の所定周期に亙って発
声を計測し、その発声からその発声に対応した連続した
複数の特徴ベクトル集合を抽出する、計測及び抽出ステ
ップであって、前記連続した複数の特徴ベクトル集合に
おける各特徴ベクトルは、少なくとも１つの特徴値に相
当する次元数を有する特徴ベクトルである、前記計測及
び抽出ステップと、前記連続した複数の特徴ベクトル集合のうちの各特徴ベ
クトル集合の中の複数の特徴ベクトルを互いに併合する
ことによって複数の合併特徴ベクトルを形成する、特徴
ベクトル併合ステップであって、前記複数の合併特徴ベ
クトルの夫々の次元数は、その合併特徴ベクトルに対応
した併合された元の特徴ベクトルの次元数の総和に等し
い次元数であり、それら複数の合併特徴ベクトルは、記
憶してある前記複数の学習用クラスどうしの間の区別を
行なうのに、より適したものである、前記特徴ベクトル
併合ステップと、前記複数の合併特徴ベクトルに対して空間的な方向転換
処理を施すことによって、それら複数の合併特徴ベクト
ルの次元数を減少させ、それによって、それら合併特徴
ベクトルの操作を容易化する、方向転換処理ステップ
と、を更に含んでいることを特徴とする請求項３５の方
法。
【請求項３７】１つのクラスを適切に表わすために必
要な複数のプロトタイプ・ベクトルを確立するプロトタ
イプ・ベクトル確立ステップを含んでおり、更に、前記
複数の学習用クラスの各々に関して実行するステップと
して、複数の学習用プロトタイプ・ベクトルを選択する学習用
プロトタイプ・ベクトル選択ステップと、前記複数の学習用プロトタイプ・ベクトルのうちの各学
習用プロトタイプ・ベクトルに近接して位置している複
数の特徴ベクトルの夫々の値の平均値を求める処理を、
それら複数の特徴ベクトルの間の平均距離が実質的に不
変になるまで続けることによって、夫々の新たな学習用
プロトタイプ・ベクトルを算出する、新学習用プロトタ
イプ・ベクトル算出ステップと、互いに最も近接している２つの新学習用プロトタイプ・
ベクトルを、それら２つの新学習用プロトタイプ・ベク
トルの夫々の値の平均値をその値として持つ更なる新た
な１つの学習用プロトタイプ・ベクトルで置換する置換
処理を連続して行ない、且つ、置換されて残った更なる
新たな学習用プロトタイプ・ベクトルの個数が所定個数
となるまでその置換処理を続ける、学習用プロトタイプ
・ベクトル置換ステップと、を更に含んでいることを特
徴とする請求項３６の方法。
【請求項３８】前記所定個数の更なる新たな学習用プ
ロトタイプ・ベクトルに対する分布解析を利用して、そ
れら更なる新たな学習用プロトタイプ・ベクトルに対応
した、その各々が評価推定値である平均値と分散値と事
前確率値とを有する複数の新学習用プロトタイプ・ベク
トルから成る学習用プロトタイプ・ベクトル集合を算出
するステップと、前記複数の新学習用プロトタイプ・ベクトルの各々を、
その新学習用プロトタイプ・ベクトルに対応した複数の
補助的学習用プロトタイプ・ベクトルに区分するステッ
プと、を更に含んでいることを特徴とする請求項３７の
方法。
【請求項３９】前記対応関係確立ステップが、１つの
クラスを適切に表わすために必要な複数のプロトタイプ
・ベクトルを確立するプロトタイプ・ベクトル確立ステ
ップを含んでおり、且つ、前記方法が、前記複数のクラ
スの各々に関して実行するステップとして、複数のプロトタイプ・ベクトルを選択する、プロトタイ
プ・ベクトル選択ステップと、前記複数のプロトタイプ・ベクトルのうちの各プロトタ
イプ・ベクトルに近接して位置している複数の特徴ベク
トルの夫々の値の平均値を求める処理を、それら複数の
特徴ベクトルの間の平均距離が実質的に不変になるまで
続けることによって、夫々の新たなプロトタイプ・ベク
トルを算出する、新プロトタイプ・ベクトル算出ステッ
プと、互いに最も近接している２つの新プロトタイプ・ベクト
ルを、それら２つの新プロトタイプ・ベクトルの夫々の
値の平均値をその値として持つ更なる新たな１つのプロ
トタイプ・ベクトルで置換する置換処理を連続して行な
い、且つ、置換されて残った更なる新たなプロトタイプ
・ベクトルの個数が所定個数となるまでこの置換処理を
続ける、プロトタイプ・ベクトル置換ステップと、を更
に含んでいることを特徴とする請求項３３の方法。
【請求項４０】前記所定個数の更なる新たなプロトタ
イプ・ベクトルに対する分布解析を利用して、それら更
なる新たなプロトタイプ・ベクトルに対応したプロトタ
イプ・ベクトル集合であって、その各々が評価推定値で
ある平均値と分散値と事前確率値とを有する複数のプロ
トタイプ・ベクトルから成るプロトタイプ・ベクトル集
合を、算出するステップと、前記評価推定値である平均値と分散値と事前確率値とを
有する前記複数のプロトタイプ・ベクトルの各々を、複
数の補助的プロトタイプ・ベクトルに区分し、それによ
って、それら複数のプロトタイプ・ベクトルより多くの
個数の、前記特徴ベクトル信号と比較対照するためのプ
ロトタイプ・ベクトルを生成するステップと、を更に含
んでいることを特徴とする請求項３９の方法。
【請求項４１】前記関連付けステップが、ヴィタビ・
アラインメント法を用いるステップを含んでいることを
特徴とする請求項３３の方法。
【請求項４２】前記少なくとも１つのプロトタイプ・
ベクトルのプロトタイプ値を、そのプロトタイプ・ベク
トルに関連した１つの集合を成す複数の音響特徴ベクト
ルの夫々の平均値と分散値と事前確率値とに基づいて算
出することを特徴とする請求項３３の方法。
【請求項４３】前記少なくとも１つのプロトタイプ・
ベクトルのプロトタイプ値を、そのプロトタイプ・ベク
トルの確率分布関数上における、前記特徴ベクトル信号
の特徴値の位置に基づいて、算出することを特徴とする
請求項３３の方法。
【請求項４４】音声符号化装置において、２つ以上のプロトタイプ・ベクトル信号を記憶する、プ
ロトタイプ・ベクトル信号記憶手段であって、それらプ
ロトタイプ・ベクトル信号の各々は、識別子と少なくと
も２つの小区画とを有するプロトタイプ・ベクトルを表
わしており、それら小区画の各々は、少なくとも１つの
小区画値を有するものである、前記プロトタイプ・ベク
トル信号記憶手段と、所定期間中に発声の少なくとも１つの特徴部の特徴値を
計測し、その発声のその少なくとも１つの特徴部のその
計測した特徴値を表わす特徴ベクトル信号を発生する、
特徴値計測及び特徴ベクトル信号発生手段と、前記小区画の各々の小区画一致度点数値を算出するため
の小区画一致度点数値算出手段であって、前記小区画一
致度点数値の各々は、その小区画一致度点数値に関連し
た小区画の小区画値と前記特徴ベクトル信号の前記特徴
値との間の一致度の値を表わすものである、前記小区画
一致度点数値算出手段と、前記プロトタイプ・ベクトルの各々のプロトタイプ一致
度点数値を算出するためのプロトタイプ一致度点数値算
出手段であって、前記プロトタイプ一致度点数値の各々
は、そのプロトタイプ一致度点数値に関連したプロトタ
イプ・ベクトルの中の全ての小区画の小区画一致度点数
値の関数を表わすものである、前記プロトタイプ一致度
点数値算出手段と、最良のプロトタイプ一致度点数値を有するプロトタイプ
・ベクトル信号の識別子を用いて前記特徴ベクトル信号
を符号化する、符号化手段と、を備えたことを特徴とす
る音声符号化装置。
【請求項４５】前記小区画一致度点数値の各々は、前
記特徴ベクトル信号の前記特徴値の発生確率と、その小
区画一致度点数値に関連した小区画の小区画値の発生確
率との、結合確率の値に比例した値であり、前記プロトタイプ一致度点数値は、そのプロトタイプ一
致度点数値に関連したプロトタイプ・ベクトルの中の全
ての小区画の小区画一致度点数値の総和を表わしている
値である、ことを特徴とする請求項４４の装置。
【請求項４６】プロトタイプ・ベクトル信号を発生す
る、プロトタイプ・ベクトル信号発生手段を更に備えて
おり、該プロトタイプ・ベクトル信号発生手段は、連続する複数の第１期間の各期間中に学習用発声の少な
くとも１つの特徴部の特徴値を計測し、連続する複数の
学習用特徴ベクトル信号から成る学習用特徴ベクトル信
号列を発生する、学習用特徴ベクトル信号列発生手段で
あって、それら複数の学習用特徴ベクトル信号の各々は
前記第１期間に対応しており、それら複数の学習用特徴
ベクトル信号の各々は対応している第１期間を包含して
いる第２期間の期間中は前記学習用発声の少なくとも１
つの特徴部の特徴値を表わしており、前記第２期間の各
々は対応している第１期間と等しいか或いはそれ以上の
長さを有するようにしてある、前記学習用特徴ベクトル
信号列発生手段と、前記学習用発声に対応した複数の基本要素モデルから成
る基本要素モデル・ネットワークを提供する、基本要素
モデル・ネットワーク提供手段と、前記学習用特徴ベクトル信号列の中の複数の学習用特徴
ベクトル信号を、前記学習用発声に対応した前記基本要
素モデル・ネットワークの中の複数の基本要素モデルに
関連付けることによって、前記学習用特徴ベクトル信号
列の中の各々の学習用特徴ベクトル信号が、前記学習用
発声に対応した前記基本要素モデル・ネットワークの中
の基本要素モデルの１つずつに対応するようにする、関
連付け手段と、前記学習用発声に対応した前記基本要素モデル・ネット
ワークの中の最初の基本要素モデルの出現の全てに対応
する、基本集合を構成する全ての学習用特徴ベクトルを
選択する、基本集合用学習用特徴ベクトル選択手段と、前記基本集合の少なくとも第１及び第２の異なった部分
集合を夫々に構成する複数の学習用特徴ベクトル信号を
選択することによって、第１ラベル集合を構成する複数
の学習用特徴ベクトル信号を決定する、部分集合用学習
用特徴ベクトル選択手段と、前記基本集合の前記第１部分集合及び第２部分集合の各
々について、その部分集合の複数の学習用特徴ベクトル
信号の特徴値の間の図心を算出する、図心算出手段と、前記第１ラベル集合を構成している複数の学習用特徴ベ
クトル信号に対応したベクトル信号である第１プロトタ
イプ・ベクトル信号を記憶するための、第１プロトタイ
プ・ベクトル信号記憶手段であって、前記第１プロトタ
イプ・ベクトル信号は、少なくとも第１小区画と第２小
区画とを有する第１プロトタイプ・ベクトルを表わして
おり、それら第１小区画と第２小区画とは各々が少なく
とも１つの小区画値を有しており、前記第１小区画は、
前記基本集合の前記第１部分集合に含まれる複数の学習
用特徴ベクトル信号の特徴値の間の図心の値に等しい小
区画値を有しており、前記第２小区画は、前記基本集合
の前記第２部分集合に含まれる複数の学習用特徴ベクト
ル信号の特徴値の間の図心の値に等しい小区画値を有し
ている、前記第１プロトタイプ・ベクトル信号記憶手段
と、を備えているプロトタイプ・ベクトル信号発生手段
であることを特徴とする請求項４５の装置。
【請求項４７】前記図心の値は、算術平均値であるこ
とを特徴とする請求項４６の装置。
【請求項４８】前記基本要素モデル・ネットワーク
は、複数の基本要素モデルから成る基本要素モデル列で
あることを特徴とする請求項４７の装置。
【請求項４９】前記基本集合を構成している複数の学
習用特徴ベクトル信号は、少なくとも第１、第２、及び
第３の異なった部分集合を構成する、夫々の複数の学習
用特徴ベクトルに区分してあり、前記図心算出手段は更に、前記基本集合の前記第３部分
集合に含まれる複数の学習用特徴ベクトル信号の特徴値
の間の図心を算出するようにしてあり、前記装置は更に、第２プロトタイプ・ベクトル信号を記
憶するための、第２プロトタイプ・ベクトル信号記憶手
段を備えており、前記第２プロトタイプ・ベクトル信号
は、前記基本集合の前記第３部分集合に含まれる複数の
学習用特徴ベクトル信号の特徴値の間の図心の値を表わ
す信号である、ことを特徴とする請求項４８の装置。
【請求項５０】前記基本集合の前記各部分集合の中に
含まれる複数の学習用特徴ベクトル信号の夫々の特徴値
には、特徴値に関する分散値と事前確率値とを含ませて
あり、前記装置は更に、前記基本集合の前記各部分集合に含ま
れる複数の学習用特徴ベクトル信号の夫々の特徴値の分
散値と事前確率値とを算出する手段を備えており、前記第１プロトタイプ・ベクトルの前記第１小区画は、
前記基本集合の前記第１部分集合に含まれる複数の学習
用特徴ベクトル信号の夫々の特徴値の分散値と事前確率
値とに等しい更なる小区画値を有しており、前記第１プロトタイプ・ベクトルの前記第２小区画は、
前記基本集合の前記第２部分集合に含まれる複数の学習
用特徴ベクトル信号の夫々の特徴値の分散値と事前確率
値とに等しい更なる小区画値を有しており、前記第２プロトタイプ・ベクトル信号は、前記基本集合
の前記第３部分集合に含まれる複数の学習用特徴ベクト
ル信号の夫々の特徴値の分散値と事前確率値とを表わし
ている、ことを特徴とする請求項４９の装置。
【請求項５１】前記装置は更に、前記第１ラベル集合
が発生していることを条件とした、前記基本集合の前記
各部分集合を成す夫々の複数の学習用特徴ベクトル信号
が発生していることの条件付確率の、確率値を評価推定
する手段を備えており、前記装置は更に、前記第１ラベル集合を成す複数の学習
用特徴ベクトル信号が発生している確率の、確率値を評
価推定する手段を備えており、前記第１プロトタイプ・ベクトル信号は更に、前記第１
ラベル集合を成す複数の学習用特徴ベクトル信号が発生
している確率の、評価推定した確率値を表わしており、前記第１プロトタイプ・ベクトルの前記第１小区画は、
前記第１ラベル集合が発生していることを条件とした、
前記基本集合の前記第１部分集合を成す複数の学習用特
徴ベクトル信号が発生していることの条件付確率の、評
価推定した確率値に等しい更なる小区画値を有してお
り、前記第１プロトタイプ・ベクトルの前記第２小区画は、
前記第１ラベル集合が発生していることを条件とした、
前記基本集合の前記第２部分集合を成す複数の学習用特
徴ベクトル信号が発生していることの条件付確率の、評
価推定した確率値に等しい更なる小区画値を有してい
る、ことを特徴とする請求項５０の装置。
【請求項５２】前記第２期間の各々は少なくとも前記
第１期間の２つ分の長さを持ち、前記特徴ベクトル信号の各々は、異なった２つの時刻に
おける、発声の少なくとも２つの特徴値を含んでいる、
ことを特徴とする請求項５１の装置。
【請求項５３】前記特徴ベクトル信号の各々は、ｍを
２またはそれより大きい整数とするとき、ｍ個の特徴部
の特徴値を表わすものであり、前記小区画の各々は、ｎ
をｍより小さい整数とするとき、ｎ個の小区画値を有す
るものであり、前記装置が更に、前記部分集合の前記図心と、前記部分
集合の分散値及び事前確率値とを算出するのに先立っ
て、各々の特徴ベクトル信号のｍ個の値をｎ個の値へと
変換する、変換手段を備えている、ことを特徴とする請
求項５２の装置。
【請求項５４】前記基本要素モデルは基本確率論モデ
ルであり、前記関連付け手段は、前記特徴ベクトル信号
と前記基本確率論モデルとを連携させる手段を備えてい
る、ことを特徴とする請求項５３の装置。
【請求項５５】音声符号化方法において、２つ以上のプロトタイプ・ベクトル信号を記憶する、プ
ロトタイプ・ベクトル信号記憶ステップであって、それ
らプロトタイプ・ベクトル信号の各々が、識別子と少な
くとも２つの小区画とを有するプロトタイプ・ベクトル
を表わし、それら小区画の各々が少なくとも１つの小区
画値を有するようにする、前記プロトタイプ・ベクトル
信号記憶ステップと、所定期間中に発声の少なくとも１つの特徴部の特徴値を
計測し、その発声のその少なくとも１つの特徴部のその
計測した特徴値を表わす特徴ベクトル信号を発生する、
特徴値計測及び特徴ベクトル信号発生ステップと、前記小区画の各々の小区画一致度点数値を算出する、小
区画一致度点数値算出ステップであって、前記小区画一
致度点数値の各々が、その小区画一致度点数値に関連し
た小区画の小区画値と前記特徴ベクトル信号の前記特徴
値との間の一致度の値を表わすようにする、前記小区画
一致度点数値算出ステップと、前記プロトタイプ・ベクトルの各々のプロトタイプ一致
度点数値を算出する、プロトタイプ一致度点数値算出ス
テップであって、前記プロトタイプ一致度点数値の各々
が、そのプロトタイプ一致度点数値に関連したプロトタ
イプ・ベクトルの中の全ての小区画の小区画一致度点数
値の関数を表わすようにする、前記プロトタイプ一致度
点数値算出ステップと、最良のプロトタイプ一致度点数値を有するプロトタイプ
・ベクトル信号の識別子を用いて前記特徴ベクトル信号
を符号化する、符号化ステップと、を含んでいることを
特徴とする音声符号化方法。
【請求項５６】前記小区画一致度点数値の各々を、前
記特徴ベクトル信号の前記特徴値の発生確率と、その小
区画一致度点数値に関連した小区画の小区画値の発生確
率との、結合確率の値に比例した値にし、前記プロトタイプ一致度点数値を、そのプロトタイプ一
致度点数値に関連したプロトタイプ・ベクトルの中の全
ての小区画の小区画一致度点数値の総和を表わしている
値にする、ことを特徴とする請求項５５の方法。
【請求項５７】プロトタイプ・ベクトル信号を発生す
る、プロトタイプ・ベクトル信号発生方法を更に含んで
おり、該プロトタイプ・ベクトル信号発生方法は、連続する複数の第１期間の各期間中に学習用発声の少な
くとも１つの特徴部の特徴値を計測して、連続する複数
の学習用特徴ベクトル信号から成る学習用特徴ベクトル
信号列を発生する、学習用特徴ベクトル信号列発生ステ
ップであって、それら複数の学習用特徴ベクトル信号の
各々が前記第１期間に対応し、それら複数の学習用特徴
ベクトル信号の各々が、それに対応している第１期間を
包含している第２期間の期間中は前記学習用発声の少な
くとも１つの特徴部の特徴値を表わしており、前記第２
期間の各々が、それに対応している第１期間と等しいか
或いはそれ以上の長さを有するようにする、前記学習用
特徴ベクトル信号列発生ステップと、前記学習用発声に対応した複数の基本要素モデルから成
る基本要素モデル・ネットワークを提供する、基本要素
モデル・ネットワーク提供ステップと、前記学習用特徴ベクトル信号列の中の複数の学習用特徴
ベクトル信号を、前記学習用発声に対応した前記基本要
素モデル・ネットワークの中の複数の基本要素モデルに
関連付けることによって、前記学習用特徴ベクトル信号
列の中の各々の学習用特徴ベクトル信号が、前記学習用
発声に対応した前記基本要素モデル・ネットワークの中
の基本要素モデルの１つずつに対応するようにする、関
連付けステップと、前記学習用発声に対応した前記基本要素モデル・ネット
ワークの中の最初の基本要素モデルの出現の全てに対応
する、基本集合を構成する全ての学習用特徴ベクトルを
選択する、基本集合用学習用特徴ベクトル選択ステップ
と、前記基本集合の少なくとも第１及び第２の異なった部分
集合を夫々に構成する複数の学習用特徴ベクトル信号を
選択することによって、第１ラベル集合を構成する複数
の学習用特徴ベクトル信号を決定する、部分集合用学習
用特徴ベクトル選択ステップと、前記基本集合の前記第１部分集合及び第２部分集合の各
々について、その部分集合の複数の学習用特徴ベクトル
信号の特徴値の間の図心を算出する、図心算出ステップ
と、前記第１ラベル集合を構成している複数の学習用特徴ベ
クトル信号に対応したベクトル信号である第１プロトタ
イプ・ベクトル信号を記憶する、第１プロトタイプ・ベ
クトル信号記憶ステップであって、前記第１プロトタイ
プ・ベクトル信号が、少なくとも第１小区画と第２小区
画とを有する第１プロトタイプ・ベクトルを表わし、そ
れら第１小区画及び第２小区画の各々が、少なくとも１
つの小区画値を有し、前記第１小区画が、前記基本集合
の前記第１部分集合に含まれる複数の学習用特徴ベクト
ル信号の特徴値の間の図心の値に等しい小区画値を有
し、前記第２小区画が、前記基本集合の前記第２部分集
合に含まれる複数の学習用特徴ベクトル信号の特徴値の
間の図心の値に等しい小区画値を有するようにする、前
記第１プロトタイプ・ベクトル信号記憶ステップと、を
含んでいるプロトタイプ・ベクトル信号発生方法である
ことを特徴とする請求項５６の方法。
【請求項５８】前記図心の値は、算術平均値であるこ
とを特徴とする請求項５７の方法。
【請求項５９】前記基本要素モデル・ネットワーク
は、複数の基本要素モデルから成る基本要素モデル列で
あることを特徴とする請求項５８の方法。
【請求項６０】前記基本集合を構成している複数の学
習用特徴ベクトル信号を、少なくとも第１、第２、及び
第３の異なった部分集合を構成する、夫々の複数の学習
用特徴ベクトルに区分し、前記図心算出ステップでは更に、前記基本集合の前記第
３部分集合に含まれる複数の学習用特徴ベクトル信号の
特徴値の間の図心を算出するようにし、前記方法は更に、第２プロトタイプ・ベクトル信号を記
憶する、第２プロトタイプ・ベクトル信号記憶ステップ
を含んでおり、前記第２プロトタイプ・ベクトル信号
は、前記基本集合の前記第３部分集合に含まれる複数の
学習用特徴ベクトル信号の特徴値の間の図心の値を表わ
す信号である、ことを特徴とする請求項５９の方法。
【請求項６１】前記基本集合の前記各部分集合に含ま
れる複数の学習用特徴ベクトル信号の夫々の特徴値に
は、特徴値に関する分散値と事前確率値とを含ませてあ
り、前記方法は更に、前記基本集合の前記各部分集合に含ま
れる複数の学習用特徴ベクトル信号の夫々の特徴値の分
散値と事前確率値とを算出するステップを含んでおり、前記第１プロトタイプ・ベクトル信号は、前記基本集合
の前記第１部分集合並びに前記第２部分集合に含まれる
複数の学習用特徴ベクトル信号の夫々の特徴値の分散値
と事前確率値とを表わしており、前記第２プロトタイプ・ベクトル信号は、前記基本集合
の前記第３部分集合に含まれる複数の学習用特徴ベクト
ル信号の夫々の特徴値の分散値と事前確率値とを表わし
ている、ことを特徴とする請求項６０の方法。
【請求項６２】前記方法は更に、前記第１ラベル集合
が発生していることを条件とした、前記基本集合の前記
各部分集合を成す夫々の複数の学習用特徴ベクトル信号
が発生していることの条件付確率の、確率値を評価推定
するステップを含んでおり、前記方法は更に、前記第１ラベル集合を成す複数の学習
用特徴ベクトル信号が発生している確率の、確率値を評
価推定するステップを含んでおり、前記第１プロトタイプ・ベクトル信号が更に、前記第１
ラベル集合を成す複数の学習用特徴ベクトル信号が発生
している確率の、評価推定した確率値を表わすように
し、前記第１プロトタイプ・ベクトルの前記第１小区画に、
前記第１ラベル集合が発生していることを条件とした、
前記基本集合の前記第１部分集合を成す複数の学習用特
徴ベクトル信号が発生していることの条件付確率の、評
価推定した確率値に等しい更なる小区画値を持たせ、前記第１プロトタイプ・ベクトルの前記第２小区画に、
前記第１ラベル集合が発生していることを条件とした、
前記基本集合の前記第２部分集合を成す複数の学習用特
徴ベクトル信号が発生していることの条件付確率の、評
価推定した確率値に等しい更なる小区画値を持たせる、
ことを特徴とする請求項６１の方法。
【請求項６３】前記第２期間の各々には、少なくとも
前記第１期間の２つ分の長さを持たせ、前記特徴ベクトル信号の各々には、異なった２つの時刻
における、発声の少なくとも２つの特徴値を含ませるよ
うにする、ことを特徴とする請求項６２の方法。
【請求項６４】前記特徴ベクトル信号の各々が、ｍを
２またはそれより大きい整数とするとき、ｍ個の特徴部
の特徴値を表わすようにし、前記小区画の各々が、ｎをｍより小さい整数とすると
き、ｎ個の小区画値を有するようにし、前記方法が更に、前記部分集合の前記図心と、前記部分
集合の分散値及び事前確率値とを算出するのに先立っ
て、各々の特徴ベクトル信号のｍ個の値をｎ個の値へと
変換する、変換ステップを含んでいる、ことを特徴とす
る請求項６３の方法。
【請求項６５】前記基本要素モデルは基本確率論モデ
ルであり、前記関連付けステップは、前記特徴ベクトル信号と前記
基本確率論モデルとを連携させるステップを含んでい
る、ことを特徴とする請求項６４の方法。
【請求項６６】音声符号化方法を実行させるべくマシ
ンを設定するための製品において、前記音声符号化方法
が、２つ以上のプロトタイプ・ベクトル信号を記憶する、プ
ロトタイプ・ベクトル信号記憶ステップであって、それ
らプロトタイプ・ベクトル信号の各々が、識別子と少な
くとも２つの小区画とを有するプロトタイプ・ベクトル
を表わし、それら小区画の各々が少なくとも１つの小区
画値を有するようにする、前記プロトタイプ・ベクトル
信号記憶ステップと、所定期間中に発声の少なくとも１つの特徴部の特徴値を
計測し、その発声のその少なくとも１つの特徴部のその
計測した特徴値を表わす特徴ベクトル信号を発生する、
特徴値計測及び特徴ベクトル信号発生ステップと、前記小区画の各々の小区画一致度点数値を算出する、小
区画一致度点数値算出ステップであって、前記小区画一
致度点数値の各々が、その小区画一致度点数値に関連し
た小区画の小区画値と前記特徴ベクトル信号の前記特徴
値との間の一致度の値を表わすようにする、前記小区画
一致度点数値算出ステップと、前記プロトタイプ・ベクトルの各々のプロトタイプ一致
度点数値を算出する、プロトタイプ一致度点数値算出ス
テップであって、前記プロトタイプ一致度点数値の各々
が、そのプロトタイプ一致度点数値に関連したプロトタ
イプ・ベクトルの中の全ての小区画の小区画一致度点数
値の関数を表わすようにする、前記プロトタイプ一致度
点数値算出ステップと、最良のプロトタイプ一致度点数値を有するプロトタイプ
・ベクトル信号の識別子を用いて前記特徴ベクトル信号
を符号化する、符号化ステップと、を含んでいる方法で
あることを特徴とする製品。
【請求項６７】前記小区画一致度点数値の各々を、前
記特徴ベクトル信号の前記特徴値の発生確率と、その小
区画一致度点数値に関連した小区画の小区画値の発生確
率との、結合確率の値に比例した値にし、前記プロトタイプ一致度点数値を、そのプロトタイプ一
致度点数値に関連したプロトタイプ・ベクトルの中の全
ての小区画の小区画一致度点数値の総和を表わしている
値にする、ことを特徴とする請求項６６の製品。
【請求項６８】プロトタイプ・ベクトル信号を発生す
る、プロトタイプ・ベクトル信号発生方法を更に含んで
おり、該プロトタイプ・ベクトル信号発生方法は、連続する複数の第１期間の各期間中に学習用発声の少な
くとも１つの特徴部の特徴値を計測して、連続する複数
の学習用特徴ベクトル信号から成る学習用特徴ベクトル
信号列を発生する、学習用特徴ベクトル信号列発生ステ
ップであって、それら複数の学習用特徴ベクトル信号の
各々が前記第１期間に対応し、それら複数の学習用特徴
ベクトル信号の各々が、それに対応している第１期間を
包含している第２期間の期間中は前記学習用発声の少な
くとも１つの特徴部の特徴値を表わしており、前記第２
期間の各々が、それに対応している第１期間と等しいか
或いはそれ以上の長さを有するようにする、前記学習用
特徴ベクトル信号列発生ステップと、前記学習用発声に対応した複数の基本要素モデルから成
る基本要素モデル・ネットワークを提供する、基本要素
モデル・ネットワーク提供ステップと、前記学習用特徴ベクトル信号列の中の複数の学習用特徴
ベクトル信号を、前記学習用発声に対応した前記基本要
素モデル・ネットワークの中の複数の基本要素モデルに
関連付けることによって、前記学習用特徴ベクトル信号
列の中の各々の学習用特徴ベクトル信号が、前記学習用
発声に対応した前記基本要素モデル・ネットワークの中
の基本要素モデルの１つずつに対応するようにする、関
連付けステップと、前記学習用発声に対応した前記基本要素モデル・ネット
ワークの中の最初の基本要素モデルの出現の全てに対応
する、基本集合を構成する全ての学習用特徴ベクトルを
選択する、基本集合用学習用特徴ベクトル選択ステップ
と、前記基本集合の少なくとも第１及び第２の異なった部分
集合を夫々に構成する複数の学習用特徴ベクトル信号を
選択することによって、第１ラベル集合を構成する複数
の学習用特徴ベクトル信号を決定する、部分集合用学習
用特徴ベクトル選択ステップと、前記基本集合の前記第１部分集合及び第２部分集合の各
々について、その部分集合の複数の学習用特徴ベクトル
信号の特徴値の間の図心を算出する、図心算出ステップ
と、前記第１ラベル集合を構成している複数の学習用特徴ベ
クトル信号に対応したベクトル信号である第１プロトタ
イプ・ベクトル信号を記憶する、第１プロトタイプ・ベ
クトル信号記憶ステップであって、前記第１プロトタイ
プ・ベクトル信号が、少なくとも第１小区画と第２小区
画とを有する第１プロトタイプ・ベクトルを表わし、そ
れら第１小区画及び第２小区画の各々が、少なくとも１
つの小区画値を有し、前記第１小区画が、前記基本集合
の前記第１部分集合に含まれる複数の学習用特徴ベクト
ル信号の特徴値の間の図心の値に等しい小区画値を有
し、前記第２小区画が、前記基本集合の前記第２部分集
合に含まれる複数の学習用特徴ベクトル信号の特徴値の
間の図心の値に等しい小区画値を有するようにする、前
記第１プロトタイプ・ベクトル信号記憶ステップと、を
含んでいるプロトタイプ・ベクトル信号発生方法である
ことを特徴とする請求項６７の製品。
【請求項６９】前記図心の値は、算術平均値であるこ
とを特徴とする請求項６８の製品。
【請求項７０】前記基本要素モデル・ネットワーク
は、複数の基本要素モデルから成る基本要素モデル列で
あることを特徴とする請求項６９の製品。
【請求項７１】前記基本集合を構成している複数の学
習用特徴ベクトル信号を、少なくとも第１、第２、及び
第３の異なった部分集合を構成する、夫々の複数の学習
用特徴ベクトルに区分し、前記図心算出ステップでは更に、前記基本集合の前記第
３部分集合に含まれる複数の学習用特徴ベクトル信号の
特徴値の間の図心を算出するようにし、前記方法は更に、第２プロトタイプ・ベクトル信号を記
憶する、第２プロトタイプ・ベクトル信号記憶ステップ
を含んでおり、前記第２プロトタイプ・ベクトル信号
は、前記基本集合の前記第３部分集合に含まれる複数の
学習用特徴ベクトル信号の特徴値の間の図心の値を表わ
す信号である、ことを特徴とする請求項７０の製品。
【請求項７２】前記基本集合の前記各部分集合に含ま
れる複数の学習用特徴ベクトル信号の夫々の特徴値に
は、特徴値に関する分散値と事前確率値とを含ませてあ
り、前記方法は更に、前記基本集合の前記各部分集合に含ま
れる複数の学習用特徴ベクトル信号の夫々の特徴値の分
散値と事前確率値とを算出するステップを含んでおり、前記第１プロトタイプ・ベクトル信号は、前記基本集合
の前記第１部分集合並びに前記第２部分集合に含まれる
複数の学習用特徴ベクトル信号の夫々の特徴値の分散値
と事前確率値とを表わしており、前記第２プロトタイプ・ベクトル信号は、前記基本集合
の前記第３部分集合に含まれる複数の学習用特徴ベクト
ル信号の夫々の特徴値の分散値と事前確率値とを表わし
ている、ことを特徴とする請求項７１の製品。
【請求項７３】前記方法は更に、前記第１ラベル集合
が発生していることを条件とした、前記基本集合の前記
各部分集合を成す夫々の複数の学習用特徴ベクトル信号
が発生していることの条件付確率の、確率値を評価推定
するステップを含んでおり、前記方法は更に、前記第１ラベル集合を成す複数の学習
用特徴ベクトル信号が発生している確率の、確率値を評
価推定するステップを含んでおり、前記第１プロトタイプ・ベクトル信号が更に、前記第１
ラベル集合を成す複数の学習用特徴ベクトル信号が発生
している確率の、評価推定した確率値を表わすように
し、前記第１プロトタイプ・ベクトルの前記第１小区画に、
前記第１ラベル集合が発生していることを条件とした、
前記基本集合の前記第１部分集合を成す複数の学習用特
徴ベクトル信号が発生していることの条件付確率の、評
価推定した確率値に等しい更なる小区画値を持たせ、前記第１プロトタイプ・ベクトルの前記第２小区画に、
前記第１ラベル集合が発生していることを条件とした、
前記基本集合の前記第２部分集合を成す複数の学習用特
徴ベクトル信号が発生していることの条件付確率の、評
価推定した確率値に等しい更なる小区画値を持たせる、
ことを特徴とする請求項７２の製品。
【請求項７４】前記第２期間の各々には、少なくとも
前記第１期間の２つ分の長さを持たせ、前記特徴ベクトル信号の各々には、異なった２つの時刻
における、発声の少なくとも２つの特徴値を含ませるよ
うにする、ことを特徴とする請求項７３の製品。
【請求項７５】前記特徴ベクトル信号の各々が、ｍを
２またはそれより大きい整数とするとき、ｍ個の特徴部
の特徴値を表わすようにし、前記小区画の各々が、ｎをｍより小さい整数とすると
き、ｎ個の小区画値を有するようにし、前記方法が更に、前記部分集合の前記図心と、前記部分
集合の分散値及び事前確率値とを算出するのに先立っ
て、各々の特徴ベクトル信号のｍ個の値をｎ個の値へと
変換する、変換ステップを含んでいる、ことを特徴とす
る請求項７４の製品。
【請求項７６】前記基本要素モデルは基本確率論モデ
ルであり、前記関連付けステップは、前記特徴ベクトル
信号と前記基本確率論モデルとを連携させるステップを
含んでいる、ことを特徴とする請求項７５の製品。