JPH0535299A - 音声符号化方法及び装置 - Google Patents
音声符号化方法及び装置Info
- Publication number
- JPH0535299A JPH0535299A JP4003268A JP326892A JPH0535299A JP H0535299 A JPH0535299 A JP H0535299A JP 4003268 A JP4003268 A JP 4003268A JP 326892 A JP326892 A JP 326892A JP H0535299 A JPH0535299 A JP H0535299A
- Authority
- JP
- Japan
- Prior art keywords
- prototype
- value
- feature
- learning
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3082—Vector coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
(57)【要約】
【目的】 音声認識システムの音声識別誤りの発生率を
大幅に低減する。 【構成】 音声信号から抽出した音韻特徴ベクトルに対
し所定の音韻を表わすラベルを付ける音声符号化方法を
改良する。複数の特徴ベクトル12をベクトル空間内の
複数の領域14、15に区分し、各領域に1つずつのプ
ロトタイプ16、18を定める。音声音韻に対応した音
韻クラスの各々を少なくとも2つのプロトタイプによっ
て表わす。各プロトタイプを更に細分して複数の小区画
から成るようにしても良い。特徴ベクトルを識別するに
は、その特徴ベクトルの複数の特徴値のうちの少なくと
も1つの特徴値を、複数のプロトタイプないしはその小
区画の夫々の値と比較する。ある音韻クラスに付随する
一群のプロトタイプないしは少なくとも1つのプロトタ
イプの値がその特徴ベクトルの特徴値に対して最良の一
致を示したならば、その特徴ベクトルはその音韻クラス
に該当するものと識別する。
大幅に低減する。 【構成】 音声信号から抽出した音韻特徴ベクトルに対
し所定の音韻を表わすラベルを付ける音声符号化方法を
改良する。複数の特徴ベクトル12をベクトル空間内の
複数の領域14、15に区分し、各領域に1つずつのプ
ロトタイプ16、18を定める。音声音韻に対応した音
韻クラスの各々を少なくとも2つのプロトタイプによっ
て表わす。各プロトタイプを更に細分して複数の小区画
から成るようにしても良い。特徴ベクトルを識別するに
は、その特徴ベクトルの複数の特徴値のうちの少なくと
も1つの特徴値を、複数のプロトタイプないしはその小
区画の夫々の値と比較する。ある音韻クラスに付随する
一群のプロトタイプないしは少なくとも1つのプロトタ
イプの値がその特徴ベクトルの特徴値に対して最良の一
致を示したならば、その特徴ベクトルはその音韻クラス
に該当するものと識別する。
Description
【0001】
【産業上の利用分野】本発明は、話者の発声を判別が容
易なフォーマットで表現する装置の改良に関し、より詳
しくは、与えられた単独単語ないし連続単語列が、ある
特定の音声特徴ベクトル集合を発生する確率を、統計的
に算出するための装置及び方法に関するものである。
易なフォーマットで表現する装置の改良に関し、より詳
しくは、与えられた単独単語ないし連続単語列が、ある
特定の音声特徴ベクトル集合を発生する確率を、統計的
に算出するための装置及び方法に関するものである。
【0002】
【従来の技術】音声認識装置の目的は、発生している事
後確率が最大である連続単語列w^を出力することにあ
り、この確率の値は次の式1で表わすことができる。 この式1において、P(w)は、ある特定の連続単語列
が発生している確率、P(A)は、ある音響特徴ベクト
ル集合が発生している確率、P(w|A)は、ある音響
特徴ベクトル集合が発生していることを条件としたとき
の、ある連続単語列が発生している確率、そして、P
(A|w)は、その連続単語列が発生していることを条
件としたときの、その音響特徴ベクトル集合が発生して
いる確率である。
後確率が最大である連続単語列w^を出力することにあ
り、この確率の値は次の式1で表わすことができる。 この式1において、P(w)は、ある特定の連続単語列
が発生している確率、P(A)は、ある音響特徴ベクト
ル集合が発生している確率、P(w|A)は、ある音響
特徴ベクトル集合が発生していることを条件としたとき
の、ある連続単語列が発生している確率、そして、P
(A|w)は、その連続単語列が発生していることを条
件としたときの、その音響特徴ベクトル集合が発生して
いる確率である。
【0003】上式の各項のうち、P(w)の項は、一般
的に、言語モデルと呼ばれているものであり、本発明に
は直接には関係しない。P(A|w)の項は、音響モデ
ルと呼ばれているものであり、ある単語が与えられたと
きに、それによって、音響特徴部、即ちパラメータの、
連続した列が発生する確率を算出する際に用いられるも
のである(この音響特徴部、即ちパラメータを、音響特
徴ベクトル、または音声特徴ベクトル、或いは単に特徴
ベクトルとも呼んでいる)。別の言い方をするならば、
音響モデルを使用する目的は、ある連続単語列が与えら
れたときに、その連続単語列によってある特定の特徴ベ
クトル集合が発生される確率を表わすことにある。本発
明は、この音響モデルの幾つかの特質に関係したもので
ある。
的に、言語モデルと呼ばれているものであり、本発明に
は直接には関係しない。P(A|w)の項は、音響モデ
ルと呼ばれているものであり、ある単語が与えられたと
きに、それによって、音響特徴部、即ちパラメータの、
連続した列が発生する確率を算出する際に用いられるも
のである(この音響特徴部、即ちパラメータを、音響特
徴ベクトル、または音声特徴ベクトル、或いは単に特徴
ベクトルとも呼んでいる)。別の言い方をするならば、
音響モデルを使用する目的は、ある連続単語列が与えら
れたときに、その連続単語列によってある特定の特徴ベ
クトル集合が発生される確率を表わすことにある。本発
明は、この音響モデルの幾つかの特質に関係したもので
ある。
【0004】手短に説明するならば、例えば言葉を話す
ときには、その単語の発音も、また単語への強勢の置き
方も、一定ということはない。そのため、ある話者が発
するある決まった発声出力にに対して、常にただ1とお
りの音声特徴ベクトル列が対応するとは限らない。この
ことは、話者の発声出力が日によって変化しており、更
に、実際には時々刻々と変化していることを考えれば、
当然のことである。また、たとえ同一の単語の発音であ
っても、ある発声に含まれている特徴ベクトルが、それ
とは別の発声に含まれている特徴ベクトルと完全に一致
するということはあり得ない。
ときには、その単語の発音も、また単語への強勢の置き
方も、一定ということはない。そのため、ある話者が発
するある決まった発声出力にに対して、常にただ1とお
りの音声特徴ベクトル列が対応するとは限らない。この
ことは、話者の発声出力が日によって変化しており、更
に、実際には時々刻々と変化していることを考えれば、
当然のことである。また、たとえ同一の単語の発音であ
っても、ある発声に含まれている特徴ベクトルが、それ
とは別の発声に含まれている特徴ベクトルと完全に一致
するということはあり得ない。
【0005】従って、ある単語と、ある特徴ベクトル集
合とが与えられたときに、その単語によってその特徴ベ
クトルが発生される確率を、語彙中のありとあらゆる単
語に関して、表示することのできる音響モデルが望まれ
ている。より端的に述べるならば、ある連続特徴ベクト
ル列が装置に入力された場合に、その連続特徴ベクトル
列が、ある単語によって実際に発生されるであろう確率
を、計算によって求めることのできる装置及び方法が望
まれている。
合とが与えられたときに、その単語によってその特徴ベ
クトルが発生される確率を、語彙中のありとあらゆる単
語に関して、表示することのできる音響モデルが望まれ
ている。より端的に述べるならば、ある連続特徴ベクト
ル列が装置に入力された場合に、その連続特徴ベクトル
列が、ある単語によって実際に発生されるであろう確率
を、計算によって求めることのできる装置及び方法が望
まれている。
【0006】音響モデルを構築するための技法として最
も成功しているものの1つに、ヒドゥン・マルコフ・モ
デル(Hidden Markov Models)を利用した技法がある。
ヒドゥン・マルコフ・モデルの利用の仕方は、音声認識
の技術分野においては周知であるので、ここではその説
明は省略する。この技法については、例えば、ラリット
・R・バールらによる「連続音声認識のための最大確率
法」(A Maximum Like lihood Approach to Continuous
Speech Recognition, Lalit R. Bahl et al.,IEEE Tran
sactions On Pattern Analysis and Machine Intellige
nce, Vol. PAMI-5, No. 2, March 1983)を参照された
い。この文献は、この言及を持って本願の開示に包含す
るものとする。ただしこの技法に関しては次のことに注
目すべきである。それは、ヒドゥン・マルコフ・モデル
法を用いた場合には、その非常に重要な特質の1つとし
て、特徴ベクトルの各々を、少数の(典型的な例として
は500種類以下の)ラベルのうちから選び出した、た
だ1つのラベルで置換することができるということであ
る。これによって、ヒドゥン・マルコフ・モデルの構成
要素が取り扱わねばならないデータの量が低減されてお
り、そのため、認識装置の後段を構成する、計算処理な
いしモデリングの機能段を、簡易化することができるよ
うになっている。
も成功しているものの1つに、ヒドゥン・マルコフ・モ
デル(Hidden Markov Models)を利用した技法がある。
ヒドゥン・マルコフ・モデルの利用の仕方は、音声認識
の技術分野においては周知であるので、ここではその説
明は省略する。この技法については、例えば、ラリット
・R・バールらによる「連続音声認識のための最大確率
法」(A Maximum Like lihood Approach to Continuous
Speech Recognition, Lalit R. Bahl et al.,IEEE Tran
sactions On Pattern Analysis and Machine Intellige
nce, Vol. PAMI-5, No. 2, March 1983)を参照された
い。この文献は、この言及を持って本願の開示に包含す
るものとする。ただしこの技法に関しては次のことに注
目すべきである。それは、ヒドゥン・マルコフ・モデル
法を用いた場合には、その非常に重要な特質の1つとし
て、特徴ベクトルの各々を、少数の(典型的な例として
は500種類以下の)ラベルのうちから選び出した、た
だ1つのラベルで置換することができるということであ
る。これによって、ヒドゥン・マルコフ・モデルの構成
要素が取り扱わねばならないデータの量が低減されてお
り、そのため、認識装置の後段を構成する、計算処理な
いしモデリングの機能段を、簡易化することができるよ
うになっている。
【0007】特徴ベクトルに対してラベル付けする方法
として、従来から行なわれている方法は、n次元空間に
存在している特徴ベクトルの複数のグループ(即ち複数
の特徴ベクトル群)によって、そのn次元空間を、複数
の凸領域に分割するというものである。それら領域の各
々の中に存在する複数の特徴ベクトルの値の平均値を求
めることによって、それら領域の各々を、1つのプロト
タイプ(即ちその平均値の位置)で表わすようにしてい
る。そして、音声から抽出した各々の特徴ベクトルを識
別するには、その空間内に存在している複数のプロトタ
イプのうち、その特徴ベクトルに最も近い位置にあるプ
ロトタイプをもって、その特徴ベクトルを識別するよう
にしている。従って、特徴ベクトルに対しては、その特
徴ベクトルに最も近い位置にあるプロトタイプの識別子
が、ラベルとして付けられることになる。
として、従来から行なわれている方法は、n次元空間に
存在している特徴ベクトルの複数のグループ(即ち複数
の特徴ベクトル群)によって、そのn次元空間を、複数
の凸領域に分割するというものである。それら領域の各
々の中に存在する複数の特徴ベクトルの値の平均値を求
めることによって、それら領域の各々を、1つのプロト
タイプ(即ちその平均値の位置)で表わすようにしてい
る。そして、音声から抽出した各々の特徴ベクトルを識
別するには、その空間内に存在している複数のプロトタ
イプのうち、その特徴ベクトルに最も近い位置にあるプ
ロトタイプをもって、その特徴ベクトルを識別するよう
にしている。従って、特徴ベクトルに対しては、その特
徴ベクトルに最も近い位置にあるプロトタイプの識別子
が、ラベルとして付けられることになる。
【0008】
【発明が解決しようとする課題】以上の従来の方法に付
随する問題は次のとおりである。即ち、この方法では、
プロトタイプが指定された領域のいずれについても、そ
の領域の中に、その領域の本来の音韻に該当する特徴ベ
クトルに加えて、それとは異なった音韻に該当する特徴
ベクトルも、かなりの量が位置しているということであ
る。そのため従来の音声認識法では、認識誤りが高率で
発生していた。例えば、「s」、「f」、「sh」の夫
々に音韻に対して、同一のラベルが付与されることもま
れではなかった。
随する問題は次のとおりである。即ち、この方法では、
プロトタイプが指定された領域のいずれについても、そ
の領域の中に、その領域の本来の音韻に該当する特徴ベ
クトルに加えて、それとは異なった音韻に該当する特徴
ベクトルも、かなりの量が位置しているということであ
る。そのため従来の音声認識法では、認識誤りが高率で
発生していた。例えば、「s」、「f」、「sh」の夫
々に音韻に対して、同一のラベルが付与されることもま
れではなかった。
【0009】従って、従来の技法では多く発生していた
誤りを、可及的に低減するために、音声認識に対してあ
る種の音声学上の知識を活用するようにした、方法並び
にその方法を実施するための装置が求められている。
誤りを、可及的に低減するために、音声認識に対してあ
る種の音声学上の知識を活用するようにした、方法並び
にその方法を実施するための装置が求められている。
【0010】
【課題を解決するための手段】本発明は、発音された単
語から抽出される音韻クラスのうちの、ある1つの音韻
クラスに対応する様々な音声特徴ベクトルを夫々に包含
する、複数の異なった領域の全てを然るべく位置付ける
ようにした、新規な方法並びに装置を開示するものであ
る。基本的には、所与の空間を複数の領域に分割し、そ
れら領域の各々が、複数の異なった音韻に付随する可能
性のある音声特徴ベクトルを包含するようにする。それ
ら領域の各々は、平均値のベクトルと分散値のベクトル
と事前確率とを付随させたプロトタイプによって表わ
す。1つの音韻クラスは、少なくとも1つのプロトタイ
プで表わすことも可能である。尚、本明細書では、プロ
トタイプのことをプロトタイプ・ベクトルと呼ぶことも
あり、また、平均値ベクトルを単に平均値、分散値ベク
トルを単に分散値と呼ぶこともある。
語から抽出される音韻クラスのうちの、ある1つの音韻
クラスに対応する様々な音声特徴ベクトルを夫々に包含
する、複数の異なった領域の全てを然るべく位置付ける
ようにした、新規な方法並びに装置を開示するものであ
る。基本的には、所与の空間を複数の領域に分割し、そ
れら領域の各々が、複数の異なった音韻に付随する可能
性のある音声特徴ベクトルを包含するようにする。それ
ら領域の各々は、平均値のベクトルと分散値のベクトル
と事前確率とを付随させたプロトタイプによって表わ
す。1つの音韻クラスは、少なくとも1つのプロトタイ
プで表わすことも可能である。尚、本明細書では、プロ
トタイプのことをプロトタイプ・ベクトルと呼ぶことも
あり、また、平均値ベクトルを単に平均値、分散値ベク
トルを単に分散値と呼ぶこともある。
【0011】発音された単語から、複数の特徴値を有す
る1つの特徴ベクトルを抽出したならば、その特徴ベク
トルのそれら複数の特徴値のうちの少なくとも1つの特
徴値を複数のプロトタイプと比較して、それらのうちか
ら最良の一致を示すプロトタイプを判別する。これを行
なうには、各々のプロトタイプごとに、1つずつの値
(プロトタイプ値)を算出する。このプロトタイプ値
は、入力したその特徴ベクトルと、各プロトタイプの平
均値、分散値、及び事前確率値との関数である。複数の
音韻クラスの各々は、少なくとも2つのプロトタイプに
よって代表されるようにしておき、また、それら音韻ク
ラスの各々に識別子を付随させておく。ある特定の1つ
の(或いは複数の)プロトタイプと、その特徴ベクトル
との間に最良の一致が見出されたならば、その特定のプ
ロトタイプによって代表されている音韻クラスに付随し
ている識別子を用いて、その特徴ベクトルにラベル付け
を行なう。
る1つの特徴ベクトルを抽出したならば、その特徴ベク
トルのそれら複数の特徴値のうちの少なくとも1つの特
徴値を複数のプロトタイプと比較して、それらのうちか
ら最良の一致を示すプロトタイプを判別する。これを行
なうには、各々のプロトタイプごとに、1つずつの値
(プロトタイプ値)を算出する。このプロトタイプ値
は、入力したその特徴ベクトルと、各プロトタイプの平
均値、分散値、及び事前確率値との関数である。複数の
音韻クラスの各々は、少なくとも2つのプロトタイプに
よって代表されるようにしておき、また、それら音韻ク
ラスの各々に識別子を付随させておく。ある特定の1つ
の(或いは複数の)プロトタイプと、その特徴ベクトル
との間に最良の一致が見出されたならば、その特定のプ
ロトタイプによって代表されている音韻クラスに付随し
ている識別子を用いて、その特徴ベクトルにラベル付け
を行なう。
【0012】具体的な一実施例においては、ある特定の
1つの音韻クラスに対応している異なった複数のプロト
タイプの夫々の値を、例えばそれらの値の総和を取るこ
とによって結合した上で、互いに比較対照するようにし
ている。
1つの音韻クラスに対応している異なった複数のプロト
タイプの夫々の値を、例えばそれらの値の総和を取るこ
とによって結合した上で、互いに比較対照するようにし
ている。
【0013】従って本発明の目的は、従来の技法に付随
していた高い誤り発生率を低減する(2分の1ないし3
分の1程度にまで低減し得る可能性がある)ことによっ
て、音声認識システムの動作性能を向上させるようにし
た、方法並びにその方法を実行するための装置を提供す
ることにある。本発明の以上の目的並びに利点は、添付
図面に沿った以下の本発明の説明を参照することによっ
て、より明瞭となり、また、それによって本発明をより
明確に理解することができる。
していた高い誤り発生率を低減する(2分の1ないし3
分の1程度にまで低減し得る可能性がある)ことによっ
て、音声認識システムの動作性能を向上させるようにし
た、方法並びにその方法を実行するための装置を提供す
ることにある。本発明の以上の目的並びに利点は、添付
図面に沿った以下の本発明の説明を参照することによっ
て、より明瞭となり、また、それによって本発明をより
明確に理解することができる。
【0014】
【実施例】第1図について説明すると(尚、図1は従来
例と本発明とのいずれの説明にも使用する)、音声信号
2は、与えられた連続単語列から取り出した信号であ
り、この信号は信号処理部4へ供給される。信号処理部
4は、例えばアナログ・ディジタル・コンバータとスペ
クトル解析器との組み合わせ等の、電子回路要素から構
成したものとすることができる。信号処理部4の機能
は、音声信号2から、パラメータ・ベクトル列、即ち、
音声(音響)特徴ベクトル列を抽出することにある。ま
た、図1に示した実施例のシステムにおいては、信号処
理部4は、例えば1秒間に100個の特徴ベクトルを処
理することができる処理速度を持ったものである。従っ
てこの実施例のシステムでは、話者が10秒間に亙って
発声を続ければ、引用符号6で示した特徴ベクトルが、
その間に1000個発生される。本発明のこの実施例の
システムは更に、その構成要素としてベクトル量子化部
8とプロトタイプ記憶部10とを備えている。
例と本発明とのいずれの説明にも使用する)、音声信号
2は、与えられた連続単語列から取り出した信号であ
り、この信号は信号処理部4へ供給される。信号処理部
4は、例えばアナログ・ディジタル・コンバータとスペ
クトル解析器との組み合わせ等の、電子回路要素から構
成したものとすることができる。信号処理部4の機能
は、音声信号2から、パラメータ・ベクトル列、即ち、
音声(音響)特徴ベクトル列を抽出することにある。ま
た、図1に示した実施例のシステムにおいては、信号処
理部4は、例えば1秒間に100個の特徴ベクトルを処
理することができる処理速度を持ったものである。従っ
てこの実施例のシステムでは、話者が10秒間に亙って
発声を続ければ、引用符号6で示した特徴ベクトルが、
その間に1000個発生される。本発明のこの実施例の
システムは更に、その構成要素としてベクトル量子化部
8とプロトタイプ記憶部10とを備えている。
【0015】音声信号2は、例えば「ザ・キャット・イ
ン・ザ・ハット(The Cat In The Hat)」等の、連続単
語列の一部分を表わしている信号である。また、信号処
理部4には、例えば、米国音響学会報に掲載されてい
る、ジョーダン・R・コーヘンによる「聴覚モデルの音
声認識への応用」(Application Of An Auditory Model
To Speech Recognition, Jordan R. Cohen, Jour. Acou
st. Soc. Am. 85(6), June 1989)に記載されている信
号処理装置等を用いることができ、この文献は、この言
及を持って本願の開示に包含するものとする。音声信号
2は、信号処理部4へ入力したならば、この信号処理部
4によって計測され、スペクトル解析される。このスペ
クトル解析は、本実施例においては、音声信号のエネル
ギを、異なった複数の周波数帯域において、時間の関数
として計測することによって行なうようにしており、こ
うして得られた出力を、図中に引用符号20で示してあ
り、またそれら周波数帯域の数は「20」である。この
周波数帯域の数は、信号の劣化を回避するために必要
な、周波数帯域の最少数と最多数との間のバランスを勘
案して決定した数である。
ン・ザ・ハット(The Cat In The Hat)」等の、連続単
語列の一部分を表わしている信号である。また、信号処
理部4には、例えば、米国音響学会報に掲載されてい
る、ジョーダン・R・コーヘンによる「聴覚モデルの音
声認識への応用」(Application Of An Auditory Model
To Speech Recognition, Jordan R. Cohen, Jour. Acou
st. Soc. Am. 85(6), June 1989)に記載されている信
号処理装置等を用いることができ、この文献は、この言
及を持って本願の開示に包含するものとする。音声信号
2は、信号処理部4へ入力したならば、この信号処理部
4によって計測され、スペクトル解析される。このスペ
クトル解析は、本実施例においては、音声信号のエネル
ギを、異なった複数の周波数帯域において、時間の関数
として計測することによって行なうようにしており、こ
うして得られた出力を、図中に引用符号20で示してあ
り、またそれら周波数帯域の数は「20」である。この
周波数帯域の数は、信号の劣化を回避するために必要
な、周波数帯域の最少数と最多数との間のバランスを勘
案して決定した数である。
【0016】これら「20」とおりの周波数帯域は、例
えば約200ヘルツから約7キロヘルツまでの周波数で
あり、それらの各々のエネルギ量を、1秒間に100回
ずつ計測する。これによって、信号処理部4からの出力
は、各々が20次元の複数の特徴ベクトルから成る、連
続特徴ベクトル列として得られ、これを図中に引用符号
6で示した。1つの特徴ベクトルは複数の(20個の)
成分を持ち、それら成分の各々が、例えば、200ヘル
ツ、300ヘルツ、400ヘルツ等の、複数の周波数の
うちの、1つの周波数のエネルギの大きさを表わす。こ
れら20次元の特徴ベクトルの各々を表わすには、例え
ば図示の如く、FV1 、FV2 、FV3等で表わせば良
い。
えば約200ヘルツから約7キロヘルツまでの周波数で
あり、それらの各々のエネルギ量を、1秒間に100回
ずつ計測する。これによって、信号処理部4からの出力
は、各々が20次元の複数の特徴ベクトルから成る、連
続特徴ベクトル列として得られ、これを図中に引用符号
6で示した。1つの特徴ベクトルは複数の(20個の)
成分を持ち、それら成分の各々が、例えば、200ヘル
ツ、300ヘルツ、400ヘルツ等の、複数の周波数の
うちの、1つの周波数のエネルギの大きさを表わす。こ
れら20次元の特徴ベクトルの各々を表わすには、例え
ば図示の如く、FV1 、FV2 、FV3等で表わせば良
い。
【0017】一般的に、音声認識システムにおいては、
話者の発声から抽出した夫々の特徴ベクトルに対して、
様々な音韻クラスに属することを表わすラベル付けをす
るには、ベクトル量子化と呼ばれているプロセスによっ
てそれを行なっており、このベクトル量子化について以
下に説明する。
話者の発声から抽出した夫々の特徴ベクトルに対して、
様々な音韻クラスに属することを表わすラベル付けをす
るには、ベクトル量子化と呼ばれているプロセスによっ
てそれを行なっており、このベクトル量子化について以
下に説明する。
【0018】説明を容易にするために、ここでは、20
次元の空間について説明するかわりに、図2に示した2
次元空間を例にとって説明することにする。図2では、
多くの音声特徴ベクトルの1つ1つを、引用符号12を
付した細かな点で表わしてある。従来のベクトル量子化
方法としては、例えば、ジョン・マクホールらによる
「音声符号化におけるベクトル量子化」(Vector Quant
ization In Speech Codi ng, John Makhoul et al., Pro
ceedings of IEEE, Vol. 73, No. 11, November1985)
の中に開示されているものがあり、その方法では、異な
った複数の音声特徴ベクトルを、空間内の異なった凝集
塊の中へ別々に入れることによって、それら音声特徴ベ
クトルを、複数の、凸領域と呼ばれる領域の中へ区分す
るようにしている。例えば、図示した2次元空間は、領
域14や領域15等の、互いに隣接した複数の凸領域に
区分されている。これ以上詳細には説明しないが、この
ように、異なった複数の特徴ベクトルを、複数の領域の
中に区分して凝集させることを、クラスタ形成と呼んで
いる。基本的に、このクラスタ形成の際に行なうこと
は、各凸領域の中に存在している複数の特徴ベクトルの
夫々の値を計算処理し、それによって、各領域ごとに、
その平均値を算出するという操作である。各領域におい
て算出した平均値は、図2には、太い点で示してあり、
この平均値のことを、プロトタイプ、ないしはプロトタ
イプ・ベクトルと呼んでいる。例えば領域14にはプロ
トタイプ・ベクトル16、また領域15にはプロトタイ
プ・ベクトル18を示してある。更に、プロトタイプ・
ベクトルには、その各々に識別子を付与してあり、この
識別子は、例えば所与の数を用いれば良い。また、これ
らのプロトタイプ・ベクトルの各々を、音韻クラスと呼
ぶこともできる。
次元の空間について説明するかわりに、図2に示した2
次元空間を例にとって説明することにする。図2では、
多くの音声特徴ベクトルの1つ1つを、引用符号12を
付した細かな点で表わしてある。従来のベクトル量子化
方法としては、例えば、ジョン・マクホールらによる
「音声符号化におけるベクトル量子化」(Vector Quant
ization In Speech Codi ng, John Makhoul et al., Pro
ceedings of IEEE, Vol. 73, No. 11, November1985)
の中に開示されているものがあり、その方法では、異な
った複数の音声特徴ベクトルを、空間内の異なった凝集
塊の中へ別々に入れることによって、それら音声特徴ベ
クトルを、複数の、凸領域と呼ばれる領域の中へ区分す
るようにしている。例えば、図示した2次元空間は、領
域14や領域15等の、互いに隣接した複数の凸領域に
区分されている。これ以上詳細には説明しないが、この
ように、異なった複数の特徴ベクトルを、複数の領域の
中に区分して凝集させることを、クラスタ形成と呼んで
いる。基本的に、このクラスタ形成の際に行なうこと
は、各凸領域の中に存在している複数の特徴ベクトルの
夫々の値を計算処理し、それによって、各領域ごとに、
その平均値を算出するという操作である。各領域におい
て算出した平均値は、図2には、太い点で示してあり、
この平均値のことを、プロトタイプ、ないしはプロトタ
イプ・ベクトルと呼んでいる。例えば領域14にはプロ
トタイプ・ベクトル16、また領域15にはプロトタイ
プ・ベクトル18を示してある。更に、プロトタイプ・
ベクトルには、その各々に識別子を付与してあり、この
識別子は、例えば所与の数を用いれば良い。また、これ
らのプロトタイプ・ベクトルの各々を、音韻クラスと呼
ぶこともできる。
【0019】従来の方法では、ある特徴ベクトルが、ど
の音韻クラスに該当しているのかを判別するためには、
次の式2を用いて、その特徴ベクトルと各プロトタイプ
・ベクトルとの間の、ユークリッド距離を求めるように
していた。 この式2において、Xは、特徴ベクトル、Pは、プロト
タイプ・ベクトル、そして、iは、特徴ベクトルないし
プロトタイプ・ベクトルの成分を表わしている。
の音韻クラスに該当しているのかを判別するためには、
次の式2を用いて、その特徴ベクトルと各プロトタイプ
・ベクトルとの間の、ユークリッド距離を求めるように
していた。 この式2において、Xは、特徴ベクトル、Pは、プロト
タイプ・ベクトル、そして、iは、特徴ベクトルないし
プロトタイプ・ベクトルの成分を表わしている。
【0020】従来は、このユークリッド距離の式を用い
て、考察対象としている特徴ベクトルに最も近接してい
るプロトタイプ・ベクトルを判別し、そして、判別した
そのプロトタイプ・ベクトルの識別子を用いてその特徴
ベクトルにラベル付けをしていた。そして、このプロセ
スが、これまで「ベクトル量子化」ないしは「各々の特
徴ベクトルへのラベル付け」と呼ばれていたプロセスで
ある。
て、考察対象としている特徴ベクトルに最も近接してい
るプロトタイプ・ベクトルを判別し、そして、判別した
そのプロトタイプ・ベクトルの識別子を用いてその特徴
ベクトルにラベル付けをしていた。そして、このプロセ
スが、これまで「ベクトル量子化」ないしは「各々の特
徴ベクトルへのラベル付け」と呼ばれていたプロセスで
ある。
【0021】また、以上のベクトル量子化は、例えば図
1に引用符号8で示したベクトル量子化部等によって行
なわれていた。(ここでは、ベクトル量子化部8は従来
のベクトル量子化部であるものとして説明を進める)。
この場合、ベクトル量子化部8の出力20には、連続す
る複数のラベルから成る、連続ラベル列が出力する。そ
れらラベルの出力速度は、例えばこのシステムが毎秒1
00個の特徴ベクトルを処理する処理速度を持ったもの
であれば、1秒間にラベルが100個出力する速度であ
る。それら出力ラベルの各々は、そのラベルによって識
別している夫々のプロトタイプ・ベクトルに対応した値
を持っている。
1に引用符号8で示したベクトル量子化部等によって行
なわれていた。(ここでは、ベクトル量子化部8は従来
のベクトル量子化部であるものとして説明を進める)。
この場合、ベクトル量子化部8の出力20には、連続す
る複数のラベルから成る、連続ラベル列が出力する。そ
れらラベルの出力速度は、例えばこのシステムが毎秒1
00個の特徴ベクトルを処理する処理速度を持ったもの
であれば、1秒間にラベルが100個出力する速度であ
る。それら出力ラベルの各々は、そのラベルによって識
別している夫々のプロトタイプ・ベクトルに対応した値
を持っている。
【0022】以上に説明した従来の方法に付随している
問題は、異なった音韻クラスを包含している空間を一応
は複数の領域に区分してあるものの、実際には、それら
領域の各々の形状が、音韻それ自体とは無関係な形状で
あるということにある。換言すれば、ある1つの特定の
音韻クラスの領域として識別されている各領域は、その
領域の中に存在している特徴ベクトルの大部分が、その
音韻クラスに該当する特徴ベクトルであることは確かで
あるが、しかしながらそれと同時に、その領域の中に
は、その音韻クラスに該当しない特徴ベクトルもまた多
く存在しているのである。そのため、別個の音韻である
が互いに類似している音韻を表わしている別々の特徴ベ
クトルに対して、同一のラベルが付けられてしまうこと
がしばしばあり、それによって、音声認識において、そ
の誤り発生率が許容限度を超えてしまうことがある。
問題は、異なった音韻クラスを包含している空間を一応
は複数の領域に区分してあるものの、実際には、それら
領域の各々の形状が、音韻それ自体とは無関係な形状で
あるということにある。換言すれば、ある1つの特定の
音韻クラスの領域として識別されている各領域は、その
領域の中に存在している特徴ベクトルの大部分が、その
音韻クラスに該当する特徴ベクトルであることは確かで
あるが、しかしながらそれと同時に、その領域の中に
は、その音韻クラスに該当しない特徴ベクトルもまた多
く存在しているのである。そのため、別個の音韻である
が互いに類似している音韻を表わしている別々の特徴ベ
クトルに対して、同一のラベルが付けられてしまうこと
がしばしばあり、それによって、音声認識において、そ
の誤り発生率が許容限度を超えてしまうことがある。
【0023】本発明の基本概念は、図3のA及びBの、
2次元で表わした説明図を参照することによって、明瞭
に理解することができる。尚、通常発声される音韻の種
類は30種類ないし40種類であるが、以下の説明で
は、理解が容易なように、音韻は「s」と「f」の2種
類だけが存在しているものとする。図3のAに示した空
間には、音韻sも、また音韻fも、広く散らばって存在
している。
2次元で表わした説明図を参照することによって、明瞭
に理解することができる。尚、通常発声される音韻の種
類は30種類ないし40種類であるが、以下の説明で
は、理解が容易なように、音韻は「s」と「f」の2種
類だけが存在しているものとする。図3のAに示した空
間には、音韻sも、また音韻fも、広く散らばって存在
している。
【0024】空間内に、図3のAに示した状態で音韻s
と音韻fとが分布している場合に、ある特徴ベクトルの
位置が、図中に点22で示した位置にあることが判明し
たときには、もし図1のシステムのベクトル量子化部
が、上で説明した従来の方法に従ったベクトル量子化部
であったならば、その特徴ベクトルが、はたして音韻s
に該当するものか、それとも音韻fに該当するものかを
判定する際に非常な困難に遭遇することになる。そのた
め、従来のベクトル量子化部から出力される、その特徴
ベクトルを識別するためのラベルは、誤ったラベルとな
るおそれが高い。更にその結果として、何らかの有用な
情報が失われてしまうこともあり得る。
と音韻fとが分布している場合に、ある特徴ベクトルの
位置が、図中に点22で示した位置にあることが判明し
たときには、もし図1のシステムのベクトル量子化部
が、上で説明した従来の方法に従ったベクトル量子化部
であったならば、その特徴ベクトルが、はたして音韻s
に該当するものか、それとも音韻fに該当するものかを
判定する際に非常な困難に遭遇することになる。そのた
め、従来のベクトル量子化部から出力される、その特徴
ベクトルを識別するためのラベルは、誤ったラベルとな
るおそれが高い。更にその結果として、何らかの有用な
情報が失われてしまうこともあり得る。
【0025】図3のBは、図1のベクトル量子化部8を
本発明に従って設計した場合の一例を示した図である。
この図3のBでは、空間内に存在する音韻sに該当する
全ての特徴ベクトル、並びに、音韻fに該当する全ての
特徴ベクトルの、夫々の位置を判別した上で、それら特
徴ベクトルをグループに分けて、領域24a〜24cと
領域26a〜26cとに区分している。この図3のBに
示した実施例では、このグループ分けによって、sの音
韻クラスに対応した3つの領域と、fの音韻クラスに対
応した3つの領域とが形成されていることが分かる。換
言すれば、この図3のBの実施例では、fの音韻クラス
を表わすプロトタイプが3個形成されており、また、s
の音韻クラスを表わすプロトタイプも3個形成されてい
る。これらプロトタイプは、その各々に複数の特徴ベク
トルが付随しており、また、その各々に、識別子と、後
に説明する適当な計算処理手順によって得られるプロト
タイプ値とを付与してある。
本発明に従って設計した場合の一例を示した図である。
この図3のBでは、空間内に存在する音韻sに該当する
全ての特徴ベクトル、並びに、音韻fに該当する全ての
特徴ベクトルの、夫々の位置を判別した上で、それら特
徴ベクトルをグループに分けて、領域24a〜24cと
領域26a〜26cとに区分している。この図3のBに
示した実施例では、このグループ分けによって、sの音
韻クラスに対応した3つの領域と、fの音韻クラスに対
応した3つの領域とが形成されていることが分かる。換
言すれば、この図3のBの実施例では、fの音韻クラス
を表わすプロトタイプが3個形成されており、また、s
の音韻クラスを表わすプロトタイプも3個形成されてい
る。これらプロトタイプは、その各々に複数の特徴ベク
トルが付随しており、また、その各々に、識別子と、後
に説明する適当な計算処理手順によって得られるプロト
タイプ値とを付与してある。
【0026】入力したある特徴ベクトルが、いずれの音
韻クラスに該当するものであるかを判定するためには、
その特徴ベクトルの少なくとも1つの特徴値を、該当す
る可能性のある全てのプロトタイプの、夫々のプロトタ
イプ値と比較対照する。そして、その特徴ベクトルのそ
の特徴値に最も近いプロトタイプ値を持ったプロトタイ
プがsであったならば、ベクトル量子化部が、その特徴
ベクトルに対して、音韻クラスsの識別子をラベルとし
て付与する。これとは反対に、その特徴ベクトルのその
特徴値に最も近いプロトタイプ値を持ったプロトタイプ
がfであったならば、その特徴ベクトルを、音韻クラス
fに該当するものと識別する。これによって分かるよう
に、本発明の土台を成している根本的な原理は、発声中
の各々の音韻を、2つ以上のプロトタイプから構成され
た1つのプロトタイプ集合によって表わすというもので
あり、しかも、それらプロトタイプは、その各々が空間
内の1つの凸領域に対応したプロトタイプである。ま
た、1つの音韻クラスに対して、空間中に存在する複数
のプロトタイプの組み合わせ(即ち複数のプロトタイプ
の混合物)を関連付けていることから、本発明の方法に
は、音声学上の知識を適用する余地があり、そのため、
本発明の方法によれば、従来の音声認識方法における誤
り発生率を、おそらくは2分の1ないしは3分の1にま
で、低減することが可能となっている。
韻クラスに該当するものであるかを判定するためには、
その特徴ベクトルの少なくとも1つの特徴値を、該当す
る可能性のある全てのプロトタイプの、夫々のプロトタ
イプ値と比較対照する。そして、その特徴ベクトルのそ
の特徴値に最も近いプロトタイプ値を持ったプロトタイ
プがsであったならば、ベクトル量子化部が、その特徴
ベクトルに対して、音韻クラスsの識別子をラベルとし
て付与する。これとは反対に、その特徴ベクトルのその
特徴値に最も近いプロトタイプ値を持ったプロトタイプ
がfであったならば、その特徴ベクトルを、音韻クラス
fに該当するものと識別する。これによって分かるよう
に、本発明の土台を成している根本的な原理は、発声中
の各々の音韻を、2つ以上のプロトタイプから構成され
た1つのプロトタイプ集合によって表わすというもので
あり、しかも、それらプロトタイプは、その各々が空間
内の1つの凸領域に対応したプロトタイプである。ま
た、1つの音韻クラスに対して、空間中に存在する複数
のプロトタイプの組み合わせ(即ち複数のプロトタイプ
の混合物)を関連付けていることから、本発明の方法に
は、音声学上の知識を適用する余地があり、そのため、
本発明の方法によれば、従来の音声認識方法における誤
り発生率を、おそらくは2分の1ないしは3分の1にま
で、低減することが可能となっている。
【0027】以上に概要を説明した本発明の発明概念を
実現するための、本発明の一実施例に係る方法を、以下
に説明して行く。この実施例の方法は、次の処理手順を
要件とした方法である。 1.特徴ベクトルに対して施す付加的前処理。 2.音声音韻と特徴ベクトルとの間の対応関係の確立処
理、即ち、音声音韻−特徴ベクトル対応付け処理。 3.複数のプロトタイプについて、それらのプロトタイ
プ値と、それらプロトタイプの空間内の相対位置とを算
出する処理。 尚、本発明の精度を向上させるためには、上記のステッ
プ2及びステップ3を反復して実行する必要がある。
実現するための、本発明の一実施例に係る方法を、以下
に説明して行く。この実施例の方法は、次の処理手順を
要件とした方法である。 1.特徴ベクトルに対して施す付加的前処理。 2.音声音韻と特徴ベクトルとの間の対応関係の確立処
理、即ち、音声音韻−特徴ベクトル対応付け処理。 3.複数のプロトタイプについて、それらのプロトタイ
プ値と、それらプロトタイプの空間内の相対位置とを算
出する処理。 尚、本発明の精度を向上させるためには、上記のステッ
プ2及びステップ3を反復して実行する必要がある。
【0028】特徴ベクトルの付加的前処理をするために
は、先ずその前に、学習用発声に対応した複数の学習用
特徴ベクトルから成る学習用特徴ベクトル集合を求め、
そしてそれを記憶しておく必要がある。この学習用特徴
ベクトル集合を記憶しておくには、例えば、図11に示
した音響特徴ベクトル記憶部64に記憶するようにすれ
ば良く、この点については後に更に詳細に説明する。な
お、学習用特徴ベクトルの各々は、学習用発声の中の音
声音韻の1つに該当するものとして識別してある。
は、先ずその前に、学習用発声に対応した複数の学習用
特徴ベクトルから成る学習用特徴ベクトル集合を求め、
そしてそれを記憶しておく必要がある。この学習用特徴
ベクトル集合を記憶しておくには、例えば、図11に示
した音響特徴ベクトル記憶部64に記憶するようにすれ
ば良く、この点については後に更に詳細に説明する。な
お、学習用特徴ベクトルの各々は、学習用発声の中の音
声音韻の1つに該当するものとして識別してある。
【0029】音声認識においては、通常、各単語を、1
本の連続音声音韻列によって表わすようにしている。例
えば「キャット(cat )」という単語であれば「k/a
e/t」というモデルで表わすことができる。英語の綴
りは不規則であるため、単語の発音とその単語の綴りと
を知っているだけでは、その単語によって表わされる音
声音韻列がいかなるものかを即座に了解することは、必
ずしも可能とは限らない。そこで、本発明では、各々の
単語を、夫々1本の連続音声音韻列、即ち連続音素列
(即ち、複数の基本要素モデルから成る基本要素モデル
・ネットワーク)に、予め対応付けてある。即ち、各単
語を、複数の音素(複数の音声単音)で構成してある。
英語という言語を構成している種々の音韻を、ベクトル
量子化部に発生させるためには、約80種類の音素から
成るインベントリが必要であることが知られている。い
うまでもなく、別の言語であれば、必要とされるインベ
ントリの音素の数は異なったものとなる。
本の連続音声音韻列によって表わすようにしている。例
えば「キャット(cat )」という単語であれば「k/a
e/t」というモデルで表わすことができる。英語の綴
りは不規則であるため、単語の発音とその単語の綴りと
を知っているだけでは、その単語によって表わされる音
声音韻列がいかなるものかを即座に了解することは、必
ずしも可能とは限らない。そこで、本発明では、各々の
単語を、夫々1本の連続音声音韻列、即ち連続音素列
(即ち、複数の基本要素モデルから成る基本要素モデル
・ネットワーク)に、予め対応付けてある。即ち、各単
語を、複数の音素(複数の音声単音)で構成してある。
英語という言語を構成している種々の音韻を、ベクトル
量子化部に発生させるためには、約80種類の音素から
成るインベントリが必要であることが知られている。い
うまでもなく、別の言語であれば、必要とされるインベ
ントリの音素の数は異なったものとなる。
【0030】ここで説明している本発明の実施例では、
単語が発声される際に発生する複数の特徴ベクトルに対
して、複数の異なった音声単音を関連付けるための方法
として、公知の「ヴィタビ・アラインメント(Viterbi
Alignment )」法を採用している。ヴィタビ・アライン
メント法の詳細な説明については、先に言及したバール
らの文献を参照されたい。その要点のみを述べるなら
ば、ヴィタビ・アラインメント法は、ヒドゥン・マルコ
フ・モデル法を利用したものであって、与えられたテキ
ストの中の各々の音韻を連携、即ち関連付けて、それら
各々の音韻がどのラベル(即ち、ベクトル量子化部から
の出力)に対応するかを、判別するものである。具体的
な一例として、図4に、「ザ・キャット・イン・ザ・ハ
ット(TheCat In The Hat)」という連続テキスト列
と、その連続テキスト列の音韻を表わした音声単音列と
を示してある。同図には更に、それら音声単音の各々
を、その音声単音に対応した複数のラベルで識別した結
果を、併せて示してある。例えば「ザ(the )」という
単語では、その中の音声単音「dh」は、ラベル「l
1」と「l 2 」とに対応しており、また、音声単音
「uhl」は、ラベル「l 3」と「l 4 」と「l 5 」
とに対応している。複数のラベルと各々の音声単音との
間の対応関係が分かれば、その論理的帰結として、連続
単語列の中にある単語の各々のラベルに対応している特
徴ベクトルも分かることになる。従って、特徴ベクトル
と音声音韻との間の対応関係を、ヴィタビ・アラインメ
ント法を用いて確立することができるのである。
単語が発声される際に発生する複数の特徴ベクトルに対
して、複数の異なった音声単音を関連付けるための方法
として、公知の「ヴィタビ・アラインメント(Viterbi
Alignment )」法を採用している。ヴィタビ・アライン
メント法の詳細な説明については、先に言及したバール
らの文献を参照されたい。その要点のみを述べるなら
ば、ヴィタビ・アラインメント法は、ヒドゥン・マルコ
フ・モデル法を利用したものであって、与えられたテキ
ストの中の各々の音韻を連携、即ち関連付けて、それら
各々の音韻がどのラベル(即ち、ベクトル量子化部から
の出力)に対応するかを、判別するものである。具体的
な一例として、図4に、「ザ・キャット・イン・ザ・ハ
ット(TheCat In The Hat)」という連続テキスト列
と、その連続テキスト列の音韻を表わした音声単音列と
を示してある。同図には更に、それら音声単音の各々
を、その音声単音に対応した複数のラベルで識別した結
果を、併せて示してある。例えば「ザ(the )」という
単語では、その中の音声単音「dh」は、ラベル「l
1」と「l 2 」とに対応しており、また、音声単音
「uhl」は、ラベル「l 3」と「l 4 」と「l 5 」
とに対応している。複数のラベルと各々の音声単音との
間の対応関係が分かれば、その論理的帰結として、連続
単語列の中にある単語の各々のラベルに対応している特
徴ベクトルも分かることになる。従って、特徴ベクトル
と音声音韻との間の対応関係を、ヴィタビ・アラインメ
ント法を用いて確立することができるのである。
【0031】図4に示した具体例において、例えば音韻
「ae」は「キャット(cat )」の中にも、また「ハッ
ト(hat )」の中にも存在しており、このような、ある
1つの音韻の全ての属性を把握するためには、同一の音
韻を表わしている特徴ベクトルの全てを、1箇所にまと
めてプールしておく必要がある。また、約80種類の音
韻から成るインベントリを提供するためには、充分な量
の音声単音を適切にグループ分けしてそのインベントリ
を形成することができるように、話者は充分多くのセン
テンスを発声する必要がある。更に、特徴ベクトルの付
加的前処理を行なうためには、先ずその前に、最初の学
習用音韻クラス集合が必要である。
「ae」は「キャット(cat )」の中にも、また「ハッ
ト(hat )」の中にも存在しており、このような、ある
1つの音韻の全ての属性を把握するためには、同一の音
韻を表わしている特徴ベクトルの全てを、1箇所にまと
めてプールしておく必要がある。また、約80種類の音
韻から成るインベントリを提供するためには、充分な量
の音声単音を適切にグループ分けしてそのインベントリ
を形成することができるように、話者は充分多くのセン
テンスを発声する必要がある。更に、特徴ベクトルの付
加的前処理を行なうためには、先ずその前に、最初の学
習用音韻クラス集合が必要である。
【0032】本発明における付加的前処理について理解
するためには、次のことを認識しておく必要がある。即
ちそれは、音声の中の、音声音韻を表わしている特徴ベ
クトルを観察するには、ある長さの時間に亙って観察す
る必要があるということである。例えば、図5は、時間
に対してプロットした「サット(sat )」という単語の
出力周波数のグラフを示している。その幾つかの要点を
述べると、この図5に示すように、「サット」の中の音
韻「s」の部分には、ある特定の周波数の大きなエネル
ギが存在している。また、「サット」の中の音韻「a」
は、複数の周波数へのエネルギの集中によって表わされ
ている。更に、この音韻「a」と、続く音韻「t」との
間には、短い無音のギャップが存在しており、また「サ
ット」の中のこの音韻「t」は、その末尾の部分に、高
い周波数のエネルギのバーストを持っている。これらの
ことから分かることは、音声において重要な意味を持つ
のは、ある特定の時刻における、ある特徴ベクトルの値
よりも、むしろ、ある長さを持った時間に亙って出現す
る、その単語の全体のパターンの方であるということで
ある(ここでいう、ある長さの時間とは、例えば1秒の
10分の1ほどの時間である)。後者の方が重要な意味
を持つ理由は、実際に発声がなされるときには、複数の
音韻が互いに融合するために、例えば音韻「a」のよう
に、1つの音韻に対して、少なくとも複数の周波数から
成る周波数集合が対応することになるからである。
するためには、次のことを認識しておく必要がある。即
ちそれは、音声の中の、音声音韻を表わしている特徴ベ
クトルを観察するには、ある長さの時間に亙って観察す
る必要があるということである。例えば、図5は、時間
に対してプロットした「サット(sat )」という単語の
出力周波数のグラフを示している。その幾つかの要点を
述べると、この図5に示すように、「サット」の中の音
韻「s」の部分には、ある特定の周波数の大きなエネル
ギが存在している。また、「サット」の中の音韻「a」
は、複数の周波数へのエネルギの集中によって表わされ
ている。更に、この音韻「a」と、続く音韻「t」との
間には、短い無音のギャップが存在しており、また「サ
ット」の中のこの音韻「t」は、その末尾の部分に、高
い周波数のエネルギのバーストを持っている。これらの
ことから分かることは、音声において重要な意味を持つ
のは、ある特定の時刻における、ある特徴ベクトルの値
よりも、むしろ、ある長さを持った時間に亙って出現す
る、その単語の全体のパターンの方であるということで
ある(ここでいう、ある長さの時間とは、例えば1秒の
10分の1ほどの時間である)。後者の方が重要な意味
を持つ理由は、実際に発声がなされるときには、複数の
音韻が互いに融合するために、例えば音韻「a」のよう
に、1つの音韻に対して、少なくとも複数の周波数から
成る周波数集合が対応することになるからである。
【0033】従って、ある音韻の、そのエネルギ集中の
パターンは、その音韻に先行する音韻や、その音韻に後
続する音韻が、いかなる音韻であるのかによって異なっ
たものとなる。例えば音韻「s」では、単語「スー(su
e )」のように音韻「oo」が後続する場合と、単語
「シー(see )」のように音韻「e」が後続する場合と
では、そのエネルギ集中のパターンが異なったものとな
る。従って、音韻認識において重要な意味を持っている
のは、個別に見た、個々の特徴ベクトルそれ自体ではな
く、むしろ、その特徴ベクトルが時間の関数としてどの
ような挙動を示しているかという、特徴ベクトルの挙動
のパターンの方である。
パターンは、その音韻に先行する音韻や、その音韻に後
続する音韻が、いかなる音韻であるのかによって異なっ
たものとなる。例えば音韻「s」では、単語「スー(su
e )」のように音韻「oo」が後続する場合と、単語
「シー(see )」のように音韻「e」が後続する場合と
では、そのエネルギ集中のパターンが異なったものとな
る。従って、音韻認識において重要な意味を持っている
のは、個別に見た、個々の特徴ベクトルそれ自体ではな
く、むしろ、その特徴ベクトルが時間の関数としてどの
ような挙動を示しているかという、特徴ベクトルの挙動
のパターンの方である。
【0034】本発明者らが、以上のことを認識するに至
ったのは、従来の音声認識法に付随している問題のうち
の1つに、次の問題があることを理解したためである。
即ちその問題とは、従来の方法では、周波数の関数とし
てのエネルギの計測は、1秒間に何回も行なっているも
のの、ラベルの出力に関しては、特徴ベクトルの1つず
つに対応させて、1つずつのラベルを出力しているに過
ぎないということである。本発明者らが理解した、従来
の方法のもう1つの短所は、従来の方法では、ある1つ
の特徴ベクトルを処理する際に、その特徴ベクトルの前
後にくる特徴ベクトルに対して何ら考慮を払うことなし
に、その処理を行なっているということである。即ち、
1つの特徴ベクトルだけに注目して、その特徴ベクトル
だけに基づいて判断を行なうのでは、例えばその特徴ベ
クトルが単語「セイ(say )」の中の「a」の音韻であ
るのか、それとも単語「サット(sat )」の中の「a」
の音韻であるのかを判別することは、困難だということ
である。
ったのは、従来の音声認識法に付随している問題のうち
の1つに、次の問題があることを理解したためである。
即ちその問題とは、従来の方法では、周波数の関数とし
てのエネルギの計測は、1秒間に何回も行なっているも
のの、ラベルの出力に関しては、特徴ベクトルの1つず
つに対応させて、1つずつのラベルを出力しているに過
ぎないということである。本発明者らが理解した、従来
の方法のもう1つの短所は、従来の方法では、ある1つ
の特徴ベクトルを処理する際に、その特徴ベクトルの前
後にくる特徴ベクトルに対して何ら考慮を払うことなし
に、その処理を行なっているということである。即ち、
1つの特徴ベクトルだけに注目して、その特徴ベクトル
だけに基づいて判断を行なうのでは、例えばその特徴ベ
クトルが単語「セイ(say )」の中の「a」の音韻であ
るのか、それとも単語「サット(sat )」の中の「a」
の音韻であるのかを判別することは、困難だということ
である。
【0035】従来の技法におけるこれらの問題を解決す
るために、いわゆる「スプライス・アンド・ローテーシ
ョン法(つなぎ合わせ及び回転法)」を用いるようにし
ている。この方法の中の、スプライス(つなぎ合わせて
連結すること)の部分は公知であり、これは、サダオキ
・フルイ著「音声スペクトルの動的特徴を利用した話者
非依存性の単独単語認識(Speaker-Independent Isolat
ed Word Recognition Using Dynamic Features of Speec
h Spectrum, Sadaoki Furui, IEEE Transactions in Ac
oustics, Speech and Signal Processing, Vol. ASSP-3
4, No. 1, February 1986)に記載されており、同文献
は、この言及を持って本開示に包含するものとする。こ
の方法については、図6を参照して説明する。図6には
複数の特徴ベクトル28a〜28l を図示してあり、
本発明における方法では、それらの特徴ベクトルに対し
て、次のようにしてスプライス法を適用する。先ず、こ
こでは、それら特徴ベクトルのいずれもが、図1に関し
て説明したように、20次元の特徴ベクトルであるもの
とする。一般的に、スプライス処理を実行するのは、隣
り合った複数のm次元特徴ベクトルを互いに連結して、
より大きな1つのn次元特徴ベクトルを形成する場合で
ある。図6に示した具体例では、先ず、複数の20次元
特徴ベクトルの、その1つ1つに対し、その特徴ベクト
ルを形成している複数(20個)の特徴値の夫々の二乗
値の総和を付加することよって、21次元特徴ベクトル
を形成する。次に、こうして形成した複数の21次元特
徴ベクトルのうち、連続した9個の21次元特徴ベクト
ル(例えば、特徴ベクトル28a〜28i)を、互いに
つなぎ合わせることによって、1個の189次元特徴ベ
クトル30aを形成する。続いて、1つずれた次の連続
した9個の特徴ベクトルの組を成している、21次元特
徴ベクトル28b〜28jを、互いにつなぎ合わせるこ
とによって、次の1個の189次元特徴ベクトル30b
を形成する。更にこのつなぎ合わせ(スプライス)の処
理を続行して、更に1つずれた、次の連続した9個の2
1次元特徴ベクトル28c〜28kを連結して、189
次元特徴ベクトル30cを形成し、以下同様にして、次
々と189次元特徴ベクトルを形成して行く。こうして
形成したそれら189次元特徴ベクトルは、その各々
が、連続した9個の21次元特徴ベクトルを互いにつな
ぎ合わせて構成したものであることから、それら189
次元特徴ベクトルの各々の中には、ある長さの時間に亙
った充分な量の情報が含まれており、そのため、それら
各特徴ベクトルは、個々の21次元特徴ベクトルではと
ても不可能なほど良好に、特定の音声音韻を表わすこと
ができる。しかしながら、189次元の特徴ベクトル
は、その次元数においても、また、処理せねばならない
データの量においても、余りにも大きなベクトルであ
る。
るために、いわゆる「スプライス・アンド・ローテーシ
ョン法(つなぎ合わせ及び回転法)」を用いるようにし
ている。この方法の中の、スプライス(つなぎ合わせて
連結すること)の部分は公知であり、これは、サダオキ
・フルイ著「音声スペクトルの動的特徴を利用した話者
非依存性の単独単語認識(Speaker-Independent Isolat
ed Word Recognition Using Dynamic Features of Speec
h Spectrum, Sadaoki Furui, IEEE Transactions in Ac
oustics, Speech and Signal Processing, Vol. ASSP-3
4, No. 1, February 1986)に記載されており、同文献
は、この言及を持って本開示に包含するものとする。こ
の方法については、図6を参照して説明する。図6には
複数の特徴ベクトル28a〜28l を図示してあり、
本発明における方法では、それらの特徴ベクトルに対し
て、次のようにしてスプライス法を適用する。先ず、こ
こでは、それら特徴ベクトルのいずれもが、図1に関し
て説明したように、20次元の特徴ベクトルであるもの
とする。一般的に、スプライス処理を実行するのは、隣
り合った複数のm次元特徴ベクトルを互いに連結して、
より大きな1つのn次元特徴ベクトルを形成する場合で
ある。図6に示した具体例では、先ず、複数の20次元
特徴ベクトルの、その1つ1つに対し、その特徴ベクト
ルを形成している複数(20個)の特徴値の夫々の二乗
値の総和を付加することよって、21次元特徴ベクトル
を形成する。次に、こうして形成した複数の21次元特
徴ベクトルのうち、連続した9個の21次元特徴ベクト
ル(例えば、特徴ベクトル28a〜28i)を、互いに
つなぎ合わせることによって、1個の189次元特徴ベ
クトル30aを形成する。続いて、1つずれた次の連続
した9個の特徴ベクトルの組を成している、21次元特
徴ベクトル28b〜28jを、互いにつなぎ合わせるこ
とによって、次の1個の189次元特徴ベクトル30b
を形成する。更にこのつなぎ合わせ(スプライス)の処
理を続行して、更に1つずれた、次の連続した9個の2
1次元特徴ベクトル28c〜28kを連結して、189
次元特徴ベクトル30cを形成し、以下同様にして、次
々と189次元特徴ベクトルを形成して行く。こうして
形成したそれら189次元特徴ベクトルは、その各々
が、連続した9個の21次元特徴ベクトルを互いにつな
ぎ合わせて構成したものであることから、それら189
次元特徴ベクトルの各々の中には、ある長さの時間に亙
った充分な量の情報が含まれており、そのため、それら
各特徴ベクトルは、個々の21次元特徴ベクトルではと
ても不可能なほど良好に、特定の音声音韻を表わすこと
ができる。しかしながら、189次元の特徴ベクトル
は、その次元数においても、また、処理せねばならない
データの量においても、余りにも大きなベクトルであ
る。
【0036】一般的に、音声は時間と共にそれほど急速
には変動しないため、ある長さの時間の範囲内で発生し
ている、ある1つの特徴ベクトルと他の1つの特徴ベク
トルとの間には、大量の相関部分が存在しており、たと
えその時間の長さが、処理レベルにおける100センチ
秒(=1秒)程度の長さであっても、それらの間に存在
する相関部分はかなりの量になる。そのため、連続する
9個の21次元特徴ベクトルをつなぎ合わせるようにし
た場合には、それによって得られる189次元の特徴ベ
クトルが、多くの冗長情報を包含するようになる。これ
は、そうならないことよりも、そうなることの方が多
く、その理由は、音声は比較的緩やかにしか変化しない
ため、ある時刻に既知の特徴ベクトルが存在していれ
ば、その後に続く特徴ベクトルも、その既知の特徴ベク
トルとそれほど異なることはないからである。本発明者
らは、189次元の特徴ベクトルの中には冗長情報が存
在しているという知識から、次のことを認識するに至っ
た。即ちそれは、その冗長情報を除去するようにすれ
ば、189次元の特徴ベクトルの次元数を低減して、よ
り小さな、従ってより扱い易い次元数を持った特徴ベク
トルにすることができるということである。
には変動しないため、ある長さの時間の範囲内で発生し
ている、ある1つの特徴ベクトルと他の1つの特徴ベク
トルとの間には、大量の相関部分が存在しており、たと
えその時間の長さが、処理レベルにおける100センチ
秒(=1秒)程度の長さであっても、それらの間に存在
する相関部分はかなりの量になる。そのため、連続する
9個の21次元特徴ベクトルをつなぎ合わせるようにし
た場合には、それによって得られる189次元の特徴ベ
クトルが、多くの冗長情報を包含するようになる。これ
は、そうならないことよりも、そうなることの方が多
く、その理由は、音声は比較的緩やかにしか変化しない
ため、ある時刻に既知の特徴ベクトルが存在していれ
ば、その後に続く特徴ベクトルも、その既知の特徴ベク
トルとそれほど異なることはないからである。本発明者
らは、189次元の特徴ベクトルの中には冗長情報が存
在しているという知識から、次のことを認識するに至っ
た。即ちそれは、その冗長情報を除去するようにすれ
ば、189次元の特徴ベクトルの次元数を低減して、よ
り小さな、従ってより扱い易い次元数を持った特徴ベク
トルにすることができるということである。
【0037】本発明者らが本実施例に使用することに決
定した方法は、「一般化固有ベクトル法(Generalized
Eigenvectors technique)」という名で知られている公
知の方法であり、この方法について、以下に図7のA及
びBを参照して説明することにする。この一般化固有ベ
クトル法に関しては、K・フクナガ著「統計的パターン
認識入門」(Introduction To Statistical Pattern Re
cognition, K. Fukunaga, Chapter 9: 258-281, Academ
ic Press, 1972)に説明がなされており、同文献は、こ
の言及をもって本開示に包含するものとする。本発明の
この実施例における、一般化固有ベクトル法の機能の仕
方は、次のとおりである。先ず、ここでもまた、2次元
の空間に、sとfの2種類の音韻だけが存在しているも
のとし、ただしここでは、それらの音韻の特徴ベクトル
が、図7のAに示したように分布しているものとする。
音声の中から抽出した、ある特徴ベクトルが、音韻sに
該当するものか、それとも音韻fに該当するものかを判
別する際には、図中に破線で示したように座標軸を回転
させれば、実際上、音韻クラスが持っている(2つの)
次元のうちの、一方だけの次元で事足りるようになる。
即ち、図示したようにX軸及びY軸を回転させると、そ
れによって、fとsの両方の種類の特徴ベクトルがいず
れも、回転させた後の座標軸であるX’軸に沿って位置
するようになるため、X成分だけが、実際上の意味を持
った唯一の成分になることが分かる。そのため、fとs
のいずれの音韻の特徴ベクトルも、そのY成分には、殆
ど情報が含まれなくなる。こうして、殆ど情報を失うこ
となく、2次元空間の次元数を減少させて、それを1次
元空間にすることができる。
定した方法は、「一般化固有ベクトル法(Generalized
Eigenvectors technique)」という名で知られている公
知の方法であり、この方法について、以下に図7のA及
びBを参照して説明することにする。この一般化固有ベ
クトル法に関しては、K・フクナガ著「統計的パターン
認識入門」(Introduction To Statistical Pattern Re
cognition, K. Fukunaga, Chapter 9: 258-281, Academ
ic Press, 1972)に説明がなされており、同文献は、こ
の言及をもって本開示に包含するものとする。本発明の
この実施例における、一般化固有ベクトル法の機能の仕
方は、次のとおりである。先ず、ここでもまた、2次元
の空間に、sとfの2種類の音韻だけが存在しているも
のとし、ただしここでは、それらの音韻の特徴ベクトル
が、図7のAに示したように分布しているものとする。
音声の中から抽出した、ある特徴ベクトルが、音韻sに
該当するものか、それとも音韻fに該当するものかを判
別する際には、図中に破線で示したように座標軸を回転
させれば、実際上、音韻クラスが持っている(2つの)
次元のうちの、一方だけの次元で事足りるようになる。
即ち、図示したようにX軸及びY軸を回転させると、そ
れによって、fとsの両方の種類の特徴ベクトルがいず
れも、回転させた後の座標軸であるX’軸に沿って位置
するようになるため、X成分だけが、実際上の意味を持
った唯一の成分になることが分かる。そのため、fとs
のいずれの音韻の特徴ベクトルも、そのY成分には、殆
ど情報が含まれなくなる。こうして、殆ど情報を失うこ
となく、2次元空間の次元数を減少させて、それを1次
元空間にすることができる。
【0038】図7のBは、2次元の集合を形成している
複数の特徴ベクトルの、その一方の成分を一般化固有ベ
クトル法を用いて消去する場合の、図7のAとは異なっ
た、別の想定状況を示したものである。この図7のBの
想定状況においても、全ての特徴ベクトルは、回転させ
た後の座標軸であるX’軸に沿って位置している。ただ
しこの想定状況では、sの特徴ベクトルは全てこのX’
軸の上側にあり、またfの特徴ベクトルは全てこのX’
軸の下側にあるため、sの音韻とfの音韻とを判別する
ための有意の情報は、X’軸の方向に存在してはいな
い。それらの音韻を互いに判別するための有意の情報
は、この場合には、同じく回転させた後の座標軸であ
る、Y’軸の方向に存在しているのである。確かに、個
々のsの特徴ベクトルと、個々のfの特徴ベクトルとに
着目すれば、それらの特徴ベクトルは、X’軸方向の位
置が異なっている。しかしながら、ここで重要なこと
は、sとfの両方の特徴ベクトルが、略々X’軸に沿っ
て位置しており、しかも、sの特徴ベクトルはこのX’
軸の上側に、またfの特徴ベクトルはこのX’軸の下側
に位置しているために、X’軸の方向から見たときに
は、sの特徴ベクトルとfの特徴ベクトルとが、Y’軸
に沿って位置しているように見えるということである。
従って、この図7のBに示した想定状況では、sの音韻
とfの音韻との判別に関する限り、有意の方向はあくま
でもY’軸の方向であり、X’軸の方向は実質的に意味
を持たない。
複数の特徴ベクトルの、その一方の成分を一般化固有ベ
クトル法を用いて消去する場合の、図7のAとは異なっ
た、別の想定状況を示したものである。この図7のBの
想定状況においても、全ての特徴ベクトルは、回転させ
た後の座標軸であるX’軸に沿って位置している。ただ
しこの想定状況では、sの特徴ベクトルは全てこのX’
軸の上側にあり、またfの特徴ベクトルは全てこのX’
軸の下側にあるため、sの音韻とfの音韻とを判別する
ための有意の情報は、X’軸の方向に存在してはいな
い。それらの音韻を互いに判別するための有意の情報
は、この場合には、同じく回転させた後の座標軸であ
る、Y’軸の方向に存在しているのである。確かに、個
々のsの特徴ベクトルと、個々のfの特徴ベクトルとに
着目すれば、それらの特徴ベクトルは、X’軸方向の位
置が異なっている。しかしながら、ここで重要なこと
は、sとfの両方の特徴ベクトルが、略々X’軸に沿っ
て位置しており、しかも、sの特徴ベクトルはこのX’
軸の上側に、またfの特徴ベクトルはこのX’軸の下側
に位置しているために、X’軸の方向から見たときに
は、sの特徴ベクトルとfの特徴ベクトルとが、Y’軸
に沿って位置しているように見えるということである。
従って、この図7のBに示した想定状況では、sの音韻
とfの音韻との判別に関する限り、有意の方向はあくま
でもY’軸の方向であり、X’軸の方向は実質的に意味
を持たない。
【0039】要点を端的に述べるならば、一般化固有ベ
クトル法は、基本的に、ベクトルを特定の一方向へ(或
いは特定の幾つかの方向へ)射影するという方法であっ
て、その射影によって、有意義な判別情報を失うことな
く、m次元データの次元数を減少させて、より次元数の
少ないn次元のデータにするという方法である。ただ
し、この一般化固有ベクトル法を利用するためには、互
いに判別すべき複数の音韻クラスが予め分かっていなけ
ればならない。それ故、本発明の方法を実施する際に
は、初期実行処理手順である、音声音韻−特徴ベクトル
対応付け処理手順を実行することによって、互いに判別
すべき複数の異なった音韻クラスを表わしている複数の
初期プロトタイプから成る、初期プロトタイプ集合を生
成するようにしているのである。
クトル法は、基本的に、ベクトルを特定の一方向へ(或
いは特定の幾つかの方向へ)射影するという方法であっ
て、その射影によって、有意義な判別情報を失うことな
く、m次元データの次元数を減少させて、より次元数の
少ないn次元のデータにするという方法である。ただ
し、この一般化固有ベクトル法を利用するためには、互
いに判別すべき複数の音韻クラスが予め分かっていなけ
ればならない。それ故、本発明の方法を実施する際に
は、初期実行処理手順である、音声音韻−特徴ベクトル
対応付け処理手順を実行することによって、互いに判別
すべき複数の異なった音韻クラスを表わしている複数の
初期プロトタイプから成る、初期プロトタイプ集合を生
成するようにしているのである。
【0040】一般化固有ベクトル法を利用するように
し、しかも初期インベントリとして、約80種類の音韻
クラスから成る相関インベントリを備えておけば、先に
説明した189次元の特徴ベクトルに処理を施して、そ
の次元数を減少させ、その特徴ベクトルを、対応した5
0次元の特徴ベクトルにすることができる。この処理を
実行するには、所定個数の発声されたセンテンスから抽
出した全てのデータを、一旦プールしておき、そして、
プールしておいたそれらデータを50次元の空間へ射影
するようにすれば良い。尚、以下の説明においては、特
に断らない限り、特徴ベクトルはいずれも50次元のベ
クトルであるものとする。
し、しかも初期インベントリとして、約80種類の音韻
クラスから成る相関インベントリを備えておけば、先に
説明した189次元の特徴ベクトルに処理を施して、そ
の次元数を減少させ、その特徴ベクトルを、対応した5
0次元の特徴ベクトルにすることができる。この処理を
実行するには、所定個数の発声されたセンテンスから抽
出した全てのデータを、一旦プールしておき、そして、
プールしておいたそれらデータを50次元の空間へ射影
するようにすれば良い。尚、以下の説明においては、特
に断らない限り、特徴ベクトルはいずれも50次元のベ
クトルであるものとする。
【0041】更に次のことも必要である。即ち、空間内
に存在する音韻のうちの所与の1つの音韻を表わす特徴
ベクトルの個数は極めて多数に及ぶため、約80種類あ
る音韻クラスの各々について、その音韻クラスを表わす
ために幾つのプロトタイプ・ベクトルが必要かを、計算
によって求めなければならない。換言すれば、音韻クラ
スを表わすために必要なそれらプロトタイプの個数と、
空間内におけるそれらプロトタイプの互いの間の相対位
置関係がどのようになっているのか(即ち、それらプロ
トタイプに付随している平均値(或いは単に平均)、分
散値(或いは単に分散)、及び事前確率)とを、計算に
よって求めなければならないということである。こうす
ることによって、各々のプロトタイプの特質を、そのプ
ロトタイプに該当する複数の音響特徴ベクトルの間の平
均値(即ち算術平均値)を表わしている図心によって、
示すことができるようになる。
に存在する音韻のうちの所与の1つの音韻を表わす特徴
ベクトルの個数は極めて多数に及ぶため、約80種類あ
る音韻クラスの各々について、その音韻クラスを表わす
ために幾つのプロトタイプ・ベクトルが必要かを、計算
によって求めなければならない。換言すれば、音韻クラ
スを表わすために必要なそれらプロトタイプの個数と、
空間内におけるそれらプロトタイプの互いの間の相対位
置関係がどのようになっているのか(即ち、それらプロ
トタイプに付随している平均値(或いは単に平均)、分
散値(或いは単に分散)、及び事前確率)とを、計算に
よって求めなければならないということである。こうす
ることによって、各々のプロトタイプの特質を、そのプ
ロトタイプに該当する複数の音響特徴ベクトルの間の平
均値(即ち算術平均値)を表わしている図心によって、
示すことができるようになる。
【0042】このように、複数の図心から成る1つの図
心集合によって、所与の1つの音韻(例えば音韻s)を
表わすようにしており、本発明の実施例においては、そ
の図心集合を求める方法は、次のような方法としてい
る。先ず、実験による研究の結果、ある1つの音韻を適
切に表わすために必要な図心の個数は、約50個である
ことが判明している。そこで、空間内に存在している非
常に多くの特徴ベクトルに基づいて、この必要な約50
個の図心を求めるために、「K平均クラスタ形成アルゴ
リズム(K-Means Clustering Algorithm)」を用いるよ
うにしている。
心集合によって、所与の1つの音韻(例えば音韻s)を
表わすようにしており、本発明の実施例においては、そ
の図心集合を求める方法は、次のような方法としてい
る。先ず、実験による研究の結果、ある1つの音韻を適
切に表わすために必要な図心の個数は、約50個である
ことが判明している。そこで、空間内に存在している非
常に多くの特徴ベクトルに基づいて、この必要な約50
個の図心を求めるために、「K平均クラスタ形成アルゴ
リズム(K-Means Clustering Algorithm)」を用いるよ
うにしている。
【0043】要約して簡単に説明するならば、このK平
均クラスタ形成アルゴリズムとは、以下のことを行なう
アルゴリズムである。先ず、所与の個数の音声特徴ベク
トルをアトランダムに選び出す(例えば100個のsの
特徴ベクトルを選び出すものとする)。そして、選び出
したそれら100個のsの特徴ベクトルを、100個の
図心であると見なす。また、それらのsの見なし図心の
各々には番号を付けておく。図8では、それらの見なし
図心とした特徴ベクトルを、丸で囲んで示してあり、そ
れら丸で囲んだ特徴ベクトルを最初の図心として、その
周囲に位置している夫々のsのベクトルを、そのsのベ
クトルから距離的に近接している丸で囲んだ図心へ引き
込んで併合して行く。即ち、ある1つの丸で囲んだ図心
に最も近接している幾つかの特徴ベクトルを、その図心
と同じグループのものとして併合して行くのである。こ
うして、100個の見なし図心の各々へ、夫々に複数の
特徴ベクトルを併合する。併合する際には、その併合に
よって1つになる特徴ベクトルどうしの間の平均値を算
出することによって、新たな図心の位置を算出すれば良
い。この処理手順を反復実行しているうちに、夫々の特
徴ベクトルとの間の平均距離が減少して行くが、それ
は、この処理手順の反復実行によって、図心がデータ
(即ち特徴ベクトル)の密集している場所へ向かって、
移動して行くからである。最終的には、特徴ベクトルと
の間の平均距離が、最早ほとんど変化しなくなり、略々
一定の値に落ち着くようになる。これをもって、図心が
収束するという。
均クラスタ形成アルゴリズムとは、以下のことを行なう
アルゴリズムである。先ず、所与の個数の音声特徴ベク
トルをアトランダムに選び出す(例えば100個のsの
特徴ベクトルを選び出すものとする)。そして、選び出
したそれら100個のsの特徴ベクトルを、100個の
図心であると見なす。また、それらのsの見なし図心の
各々には番号を付けておく。図8では、それらの見なし
図心とした特徴ベクトルを、丸で囲んで示してあり、そ
れら丸で囲んだ特徴ベクトルを最初の図心として、その
周囲に位置している夫々のsのベクトルを、そのsのベ
クトルから距離的に近接している丸で囲んだ図心へ引き
込んで併合して行く。即ち、ある1つの丸で囲んだ図心
に最も近接している幾つかの特徴ベクトルを、その図心
と同じグループのものとして併合して行くのである。こ
うして、100個の見なし図心の各々へ、夫々に複数の
特徴ベクトルを併合する。併合する際には、その併合に
よって1つになる特徴ベクトルどうしの間の平均値を算
出することによって、新たな図心の位置を算出すれば良
い。この処理手順を反復実行しているうちに、夫々の特
徴ベクトルとの間の平均距離が減少して行くが、それ
は、この処理手順の反復実行によって、図心がデータ
(即ち特徴ベクトル)の密集している場所へ向かって、
移動して行くからである。最終的には、特徴ベクトルと
の間の平均距離が、最早ほとんど変化しなくなり、略々
一定の値に落ち着くようになる。これをもって、図心が
収束するという。
【0044】既述の如く、1つの音韻を良好に表わすた
めに必要な図心の個数は約50個であることが判明して
いる。これに対して、収束した段階での図心の個数は、
なお100個もあるため、それら図心の総数を減少させ
るための何らかの方法を講じる必要がある。それには、
それら図心のうちから、互いの間の距離が最も近接して
いる2個の図心を選び出し、それら2個の図心の間の平
均値を算出し、算出した平均値をその値として持つ1個
の新たな図心で、それら2個の図心を置換するようにし
ている。このように、互いの間の距離が最も近接してい
る2個の図心を併合して、それらの図心の間の平均値を
新たな図心とするプロセスを、残存する図心が50個に
なるまで反復して実行する。このプロセスは、「ユーク
リッド・クラスタ形成法(Euclidean Clusteringtechni
que)」と呼ばれている方法である。このユークリッド
・クラスタ形成法を、音声音韻の各々に対して実行す
る。既述の如く、音声音韻の数(種類数)は、本発明の
この実施例では約80種類である。この処理の全てが完
了したときには、それら約80種類の音声音韻の各々
が、夫々50個ずつの図心で表わされており、それら5
0個の図心によって、その音声音韻に付随する平均値が
表わされている。
めに必要な図心の個数は約50個であることが判明して
いる。これに対して、収束した段階での図心の個数は、
なお100個もあるため、それら図心の総数を減少させ
るための何らかの方法を講じる必要がある。それには、
それら図心のうちから、互いの間の距離が最も近接して
いる2個の図心を選び出し、それら2個の図心の間の平
均値を算出し、算出した平均値をその値として持つ1個
の新たな図心で、それら2個の図心を置換するようにし
ている。このように、互いの間の距離が最も近接してい
る2個の図心を併合して、それらの図心の間の平均値を
新たな図心とするプロセスを、残存する図心が50個に
なるまで反復して実行する。このプロセスは、「ユーク
リッド・クラスタ形成法(Euclidean Clusteringtechni
que)」と呼ばれている方法である。このユークリッド
・クラスタ形成法を、音声音韻の各々に対して実行す
る。既述の如く、音声音韻の数(種類数)は、本発明の
この実施例では約80種類である。この処理の全てが完
了したときには、それら約80種類の音声音韻の各々
が、夫々50個ずつの図心で表わされており、それら5
0個の図心によって、その音声音韻に付随する平均値が
表わされている。
【0045】更に、それら複数の図心の夫々に付随する
体積を求め、また、こうして画成した空間内において、
それら図心が、それら図心の関係する音韻に対して、い
かなる相対的位置関係にあるのかを求めるために、それ
ら複数の図心の各々についてその分散値を求める必要が
ある。それには、本発明のこの実施例では、「ガウス・
クラスタ形成法(Gaussian Clusteringtechnique )」
を用いるようにしている。ユークリッド・クラスタ形成
法においては、近接度は、ユークリッド距離によって定
義され、このユークリッド距離は、次の式3によって規
定される。 この式3は、前出の式2と比較すると、式2ではPであ
ったものがCに換えられている以外は、式2と同一であ
ることが分かる。このCは、図心を表わしており、その
添字のiは、その図心のi番目の成分であることを表わ
している。ガウス・クラスタ形成法でも、式3が規定し
ている距離と類似した、一種の距離を使用する。しかし
ながら、ガウス・クラスタ法によって求める図心は、最
も高い確率を持った図心であり、その確率の値は次の式
4によって表わされる。 この式4において、Pは事前確率、そして、δは分散で
ある。この式4が表わしている意味は、ある特定の1つ
の図心の確率[P(x ̄)]は、その図心の分散と事前
確率とを考慮に入れたガウス分布に従って算出される確
率の値で示されるということである。本明細書の説明に
おいては、事前確率の値は、推定評価した、即ちガウス
分布を使用せずに定めた、夫々の音韻クラスの相対的周
波数の値としても良い。
体積を求め、また、こうして画成した空間内において、
それら図心が、それら図心の関係する音韻に対して、い
かなる相対的位置関係にあるのかを求めるために、それ
ら複数の図心の各々についてその分散値を求める必要が
ある。それには、本発明のこの実施例では、「ガウス・
クラスタ形成法(Gaussian Clusteringtechnique )」
を用いるようにしている。ユークリッド・クラスタ形成
法においては、近接度は、ユークリッド距離によって定
義され、このユークリッド距離は、次の式3によって規
定される。 この式3は、前出の式2と比較すると、式2ではPであ
ったものがCに換えられている以外は、式2と同一であ
ることが分かる。このCは、図心を表わしており、その
添字のiは、その図心のi番目の成分であることを表わ
している。ガウス・クラスタ形成法でも、式3が規定し
ている距離と類似した、一種の距離を使用する。しかし
ながら、ガウス・クラスタ法によって求める図心は、最
も高い確率を持った図心であり、その確率の値は次の式
4によって表わされる。 この式4において、Pは事前確率、そして、δは分散で
ある。この式4が表わしている意味は、ある特定の1つ
の図心の確率[P(x ̄)]は、その図心の分散と事前
確率とを考慮に入れたガウス分布に従って算出される確
率の値で示されるということである。本明細書の説明に
おいては、事前確率の値は、推定評価した、即ちガウス
分布を使用せずに定めた、夫々の音韻クラスの相対的周
波数の値としても良い。
【0046】計算を容易にするためには、式4を、その
ままの形で用いて図心を算出するよりも、確率の対数を
利用するようにするのが良い。対数を用いれば、例えば
ある図心の確率の値が最小であれば、その図心の確率の
対数の値もまた最小になる。そこで、確率の対数を取り
扱うようにし、また、全ての図心において、その確率の
値に等しく含まれる「2π」という係数を無視するよう
にすれば、次の式5が得られる。 この式5が示しているものは、式3に示した、ユークリ
ッド距離に類似している。しかしながら式5では、ベク
トルと平均値との差分の二乗値の総和を取るようにして
いる。簡単に説明するならば、式5は式3と同様の計算
を表わしているのであるが、ただし式5では、各々の次
元に対して、分散の逆数と、分散の対数の総和に等しい
バイアス値と、事前確率とによって、重み付けを施して
いるのである。図心の各々は、ガウス分布であるものと
してモデル化してあり、それによって、最も大きな確率
を持った図心を求められるようにしてある。従って、式
5を用いて図心の再算出処理を行なうときには、その図
心に関係した複数の特徴ベクトルの平均値に等しい新た
な図心が求められるばかりでなく、その図心に関係した
各次元の分散も併せて求められる。こうして、特定の1
つの音韻クラスに関する1つのプロトタイプが求められ
る。
ままの形で用いて図心を算出するよりも、確率の対数を
利用するようにするのが良い。対数を用いれば、例えば
ある図心の確率の値が最小であれば、その図心の確率の
対数の値もまた最小になる。そこで、確率の対数を取り
扱うようにし、また、全ての図心において、その確率の
値に等しく含まれる「2π」という係数を無視するよう
にすれば、次の式5が得られる。 この式5が示しているものは、式3に示した、ユークリ
ッド距離に類似している。しかしながら式5では、ベク
トルと平均値との差分の二乗値の総和を取るようにして
いる。簡単に説明するならば、式5は式3と同様の計算
を表わしているのであるが、ただし式5では、各々の次
元に対して、分散の逆数と、分散の対数の総和に等しい
バイアス値と、事前確率とによって、重み付けを施して
いるのである。図心の各々は、ガウス分布であるものと
してモデル化してあり、それによって、最も大きな確率
を持った図心を求められるようにしてある。従って、式
5を用いて図心の再算出処理を行なうときには、その図
心に関係した複数の特徴ベクトルの平均値に等しい新た
な図心が求められるばかりでなく、その図心に関係した
各次元の分散も併せて求められる。こうして、特定の1
つの音韻クラスに関する1つのプロトタイプが求められ
る。
【0047】以上のようにして、種々の音韻クラスを確
立した後には、更に、それら音韻クラスの各々に、特定
の識別子を1つずつ付与する必要がある。この識別子と
は、ある特徴ベクトルがある音韻クラスに対して最良の
一致を示した場合に、そのことを識別するためのラベル
である。そのラベル付けは、ラベル付与処理手順によっ
て行なう。
立した後には、更に、それら音韻クラスの各々に、特定
の識別子を1つずつ付与する必要がある。この識別子と
は、ある特徴ベクトルがある音韻クラスに対して最良の
一致を示した場合に、そのことを識別するためのラベル
である。そのラベル付けは、ラベル付与処理手順によっ
て行なう。
【0048】ラベル付与処理手順について詳細に説明す
る前に、先ず、図9に示したヒストグラムについて説明
をしておく。このヒストグラムは、1次元の「ガウス分
布」を成している。その要点を説明すると、このヒスト
グラムを形成しているカウント値を表わしている複数本
の線分は、その各々が、複数の変数であり、それら変数
によって、このヒストグラム分布関数が、その略々中央
に、ある値の平均値を持ち、またその中央から両側に離
れた位置に夫々裾部を持つものであることが示されてい
る。この図9に示した種類の分布をモデル化する一般的
な方法は、伝統的なガウス分布の公式を使用する方法で
あり、その公式を次の式6に示す。 この式6において、P(x)は、xの確率である。この
式6を用いることによって、xの任意の特定の値に対す
る確率の値を算出することができる。また、この式6
を、無限大から負の無限大までの間で積分すると、その
積分値は「1」になる。次に、次元数が「2」以上のガ
ウス分布は、次の式7で表わすことができる。 この式7において、x ̄は、ベクトルであるxを表わし
ており、また、πi ・δi は、第i番目の成分について
の、各次元の夫々の分散の平方根の積である。この式7
は更に簡略化した形に書き直すことができ、それによっ
て次の式8の形にすることができる。 この式8において、mは、第i番目の成分の平均であ
り、δは、第i番目の成分の分散である。
る前に、先ず、図9に示したヒストグラムについて説明
をしておく。このヒストグラムは、1次元の「ガウス分
布」を成している。その要点を説明すると、このヒスト
グラムを形成しているカウント値を表わしている複数本
の線分は、その各々が、複数の変数であり、それら変数
によって、このヒストグラム分布関数が、その略々中央
に、ある値の平均値を持ち、またその中央から両側に離
れた位置に夫々裾部を持つものであることが示されてい
る。この図9に示した種類の分布をモデル化する一般的
な方法は、伝統的なガウス分布の公式を使用する方法で
あり、その公式を次の式6に示す。 この式6において、P(x)は、xの確率である。この
式6を用いることによって、xの任意の特定の値に対す
る確率の値を算出することができる。また、この式6
を、無限大から負の無限大までの間で積分すると、その
積分値は「1」になる。次に、次元数が「2」以上のガ
ウス分布は、次の式7で表わすことができる。 この式7において、x ̄は、ベクトルであるxを表わし
ており、また、πi ・δi は、第i番目の成分について
の、各次元の夫々の分散の平方根の積である。この式7
は更に簡略化した形に書き直すことができ、それによっ
て次の式8の形にすることができる。 この式8において、mは、第i番目の成分の平均であ
り、δは、第i番目の成分の分散である。
【0049】n次元のガウス分布における確率の値は、
その値をn個の次元の全てについて積分したときに、そ
の積分値が「1」になるように定められる。従って、あ
る音韻(例えば音韻s)が、少なくとも1個の図心から
構成されているものとして表わされているときには、そ
の表わし方は、その図心の周辺の領域を、平均がその図
心の位置にあり分散が全ての方向に等しい基本的なガウ
ス分布を持った領域としてモデル化しているに等しい。
従って1つの図心に関する分散は円形である。また、そ
の領域においてはmの値は「1」であり、これは、その
領域は平均の値が「1」であることを意味している。こ
のデータがあれば、ガウス分布法を用いて、プロトタイ
プ・ベクトルに対して確率論的解釈を施すことができ
る。尚、ここでは、本発明の実施例を説明するために、
ガウス分布法を例示したが、このガウス分布法は、利用
可能な多くの技法のうちの1つに過ぎないことに注意さ
れたい。
その値をn個の次元の全てについて積分したときに、そ
の積分値が「1」になるように定められる。従って、あ
る音韻(例えば音韻s)が、少なくとも1個の図心から
構成されているものとして表わされているときには、そ
の表わし方は、その図心の周辺の領域を、平均がその図
心の位置にあり分散が全ての方向に等しい基本的なガウ
ス分布を持った領域としてモデル化しているに等しい。
従って1つの図心に関する分散は円形である。また、そ
の領域においてはmの値は「1」であり、これは、その
領域は平均の値が「1」であることを意味している。こ
のデータがあれば、ガウス分布法を用いて、プロトタイ
プ・ベクトルに対して確率論的解釈を施すことができ
る。尚、ここでは、本発明の実施例を説明するために、
ガウス分布法を例示したが、このガウス分布法は、利用
可能な多くの技法のうちの1つに過ぎないことに注意さ
れたい。
【0050】確率論的な観点からいえば、ここで目的と
しているのは、ある入力音声ベクトルx ̄が与えられた
ときに、その入力音声ベクトルに対して、最大の事後確
率を持った音韻クラスcを求めることである。音韻クラ
スcの事後確率c^は、次の式9で表わされる。 この式9において、cは、音韻クラスを表わしており、
また、P(c)は、その事前確率を表わしている。
しているのは、ある入力音声ベクトルx ̄が与えられた
ときに、その入力音声ベクトルに対して、最大の事後確
率を持った音韻クラスcを求めることである。音韻クラ
スcの事後確率c^は、次の式9で表わされる。 この式9において、cは、音韻クラスを表わしており、
また、P(c)は、その事前確率を表わしている。
【0051】事前確率P(c)は、学習用データを処理
して、各々の音韻クラスの相対的発生頻度を算出するこ
とによって、その確率の推定評価値(見積り値)を得る
ことができる。具体的な一例としては、学習用データの
中に各々の音韻クラスが出現する回数をカウントした上
で、そのカウント値を正規化するようにすれば良く、こ
の正規化は、各々の音韻クラスについて得たカウント値
を、全てのカウント値の総和で割ることによって、その
音韻クラスに対応した「0」と「1」との間の値を得る
という処理である。
して、各々の音韻クラスの相対的発生頻度を算出するこ
とによって、その確率の推定評価値(見積り値)を得る
ことができる。具体的な一例としては、学習用データの
中に各々の音韻クラスが出現する回数をカウントした上
で、そのカウント値を正規化するようにすれば良く、こ
の正規化は、各々の音韻クラスについて得たカウント値
を、全てのカウント値の総和で割ることによって、その
音韻クラスに対応した「0」と「1」との間の値を得る
という処理である。
【0052】従って、個々の音韻(ここでは例えば音韻
sとする)について、次の式10が成り立つ。 この式10において、P(x ̄|s)は、入力音声ベク
トル(即ち、特徴ベクトル)x ̄が、音韻sに該当する
特徴ベクトルであることの確率、PCsは、所与の音韻ク
ラス(この式10では、音韻クラスs)の、プロトタイ
プの事前確率、Σは、全ての図心(この場合は、音韻s
の全ての図心)についての総和、Nは、正規分布、MCs
は、複数の平均値から成る1つのベクトル、そして、δ
Csは、複数の分散値から成る1つのベクトルを表わして
いる。
sとする)について、次の式10が成り立つ。 この式10において、P(x ̄|s)は、入力音声ベク
トル(即ち、特徴ベクトル)x ̄が、音韻sに該当する
特徴ベクトルであることの確率、PCsは、所与の音韻ク
ラス(この式10では、音韻クラスs)の、プロトタイ
プの事前確率、Σは、全ての図心(この場合は、音韻s
の全ての図心)についての総和、Nは、正規分布、MCs
は、複数の平均値から成る1つのベクトル、そして、δ
Csは、複数の分散値から成る1つのベクトルを表わして
いる。
【0053】この式10によれば、音韻sが発声された
結果、ある特徴ベクトルが発生する確率は、音韻sの全
ての図心について加え合わせた、平均値MCsと分散値δ
Csとを考慮に入れたそれら各図心の事前確率の総和とし
て求められる。また、ユークリッド距離が「1」であ
る、ユークリッド分布の場合には、図心の分散値δCsは
「1」になる。それゆえ、仮に、存在する音韻クラスが
2種類だけであるものとし(ここでは、それらはsとf
であるとする)、それらsとfとを互いに判別する場合
には、先ず、音韻sが発声されたときに、その結果とし
て入力音声ベクトルである特徴ベクトルx ̄が発生する
確率を、式10によって算出する。更に、同様にして、
音韻fが発声されたときに、その結果として、その入力
音声ベクトルx ̄が発生する確率を、次の式11によっ
て算出する。
結果、ある特徴ベクトルが発生する確率は、音韻sの全
ての図心について加え合わせた、平均値MCsと分散値δ
Csとを考慮に入れたそれら各図心の事前確率の総和とし
て求められる。また、ユークリッド距離が「1」であ
る、ユークリッド分布の場合には、図心の分散値δCsは
「1」になる。それゆえ、仮に、存在する音韻クラスが
2種類だけであるものとし(ここでは、それらはsとf
であるとする)、それらsとfとを互いに判別する場合
には、先ず、音韻sが発声されたときに、その結果とし
て入力音声ベクトルである特徴ベクトルx ̄が発生する
確率を、式10によって算出する。更に、同様にして、
音韻fが発声されたときに、その結果として、その入力
音声ベクトルx ̄が発生する確率を、次の式11によっ
て算出する。
【0054】即ち、仮に、存在する音韻がsとfの2種
類だけであるとした場合には、ある特徴ベクトルx ̄が
入力してきたときに、その特徴ベクトルx ̄が、sない
しはfの音韻が発声された結果として発生したものであ
る確率を、式9、式10、及び式11を用いて算出すれ
ば良い。そして、式10と式11のうち、その入力特徴
ベクトルx ̄が発生する確率の値として、より高い値を
出した方の式の音韻クラスに、その入力特徴ベクトルx
 ̄が該当していると判断するのである。
類だけであるとした場合には、ある特徴ベクトルx ̄が
入力してきたときに、その特徴ベクトルx ̄が、sない
しはfの音韻が発声された結果として発生したものであ
る確率を、式9、式10、及び式11を用いて算出すれ
ば良い。そして、式10と式11のうち、その入力特徴
ベクトルx ̄が発生する確率の値として、より高い値を
出した方の式の音韻クラスに、その入力特徴ベクトルx
 ̄が該当していると判断するのである。
【0055】1つ1つの音韻クラスを表わす図心の個数
を約50個にした場合であっても、夫々の音韻クラスを
互いに識別するためのラベルどうしの間の区別の付け方
が、なお不充分であることが判明している。それが不充
分であるのは、様々な音韻の夫々が、複数の異なった音
の調子を持っているからである。例えば、同じsの音韻
であっても、その中には種々の異形ともいうべき音があ
り、これは、fの音韻についても言えることである。従
って、もし本発明のシステムに、80種類の音韻クラス
しか持たせなかったならば、即ち80個のプロトタイプ
しか備えなかったならば、入力してくる特徴ベクトルの
評価が、良好に行なわれなくなるおそれがある。
を約50個にした場合であっても、夫々の音韻クラスを
互いに識別するためのラベルどうしの間の区別の付け方
が、なお不充分であることが判明している。それが不充
分であるのは、様々な音韻の夫々が、複数の異なった音
の調子を持っているからである。例えば、同じsの音韻
であっても、その中には種々の異形ともいうべき音があ
り、これは、fの音韻についても言えることである。従
って、もし本発明のシステムに、80種類の音韻クラス
しか持たせなかったならば、即ち80個のプロトタイプ
しか備えなかったならば、入力してくる特徴ベクトルの
評価が、良好に行なわれなくなるおそれがある。
【0056】斯かる不都合をなくすために本発明者ら
は、任意選択の方策として、次の方策を取ることにし
た。即ちそれは、(反復して実行する)図心の算出処理
の、その第1回目の実行時に、50個の図心を包含して
成る各々の音韻クラスを、スーパークラスタ(superclu
ster)と呼ぶ4つのグループに分割し、それら4つのス
ーパークラスタの各々が、約12個の図心から成るよう
にすることである(このスーパークラスタは、サブクラ
スと呼んでも良く、小区画ないしは構成要素と呼んでも
良い)。このように、各音韻クラスを4つのサブクラス
(或いは小区画、ないしは構成要素)に分割したなら
ば、プロトタイプ記憶部10(図1)に記憶させておく
プロトタイプ・ベクトルの個数は、80個ではなく約3
20個になる。また、ベクトル量子化部8から出力する
ラベルも、1種類の音韻クラスについて4とおりの異な
った異形の音のラベルを出力することが(例えば、同じ
sの音韻であっても、互いに異なった4とおりの音のラ
ベルを出力することが)できるようになる。尚、80種
類の音韻クラス(それらの音韻クラスは、プロトタイプ
・ベクトルの基本集合であるということができる)の各
々を、4つの補助的なサブクラスに分割することは、あ
くまでも、本発明をそのようにしても良いという、任意
選択の方策であって、システムによっては、これと異な
るようにしても良いことはいうまでもない。例えばサブ
クラスの個数を4つよりも更に多くすれば、より良好な
出力を得ることができる。ただし、システムに備えるプ
ロトタイプ・ベクトルの個数を増加させると、それに対
応して必要な処理量も増大するため、サブクラスの個数
は、システムの動作性能に調和する個数にしておかなけ
ればならない。
は、任意選択の方策として、次の方策を取ることにし
た。即ちそれは、(反復して実行する)図心の算出処理
の、その第1回目の実行時に、50個の図心を包含して
成る各々の音韻クラスを、スーパークラスタ(superclu
ster)と呼ぶ4つのグループに分割し、それら4つのス
ーパークラスタの各々が、約12個の図心から成るよう
にすることである(このスーパークラスタは、サブクラ
スと呼んでも良く、小区画ないしは構成要素と呼んでも
良い)。このように、各音韻クラスを4つのサブクラス
(或いは小区画、ないしは構成要素)に分割したなら
ば、プロトタイプ記憶部10(図1)に記憶させておく
プロトタイプ・ベクトルの個数は、80個ではなく約3
20個になる。また、ベクトル量子化部8から出力する
ラベルも、1種類の音韻クラスについて4とおりの異な
った異形の音のラベルを出力することが(例えば、同じ
sの音韻であっても、互いに異なった4とおりの音のラ
ベルを出力することが)できるようになる。尚、80種
類の音韻クラス(それらの音韻クラスは、プロトタイプ
・ベクトルの基本集合であるということができる)の各
々を、4つの補助的なサブクラスに分割することは、あ
くまでも、本発明をそのようにしても良いという、任意
選択の方策であって、システムによっては、これと異な
るようにしても良いことはいうまでもない。例えばサブ
クラスの個数を4つよりも更に多くすれば、より良好な
出力を得ることができる。ただし、システムに備えるプ
ロトタイプ・ベクトルの個数を増加させると、それに対
応して必要な処理量も増大するため、サブクラスの個数
は、システムの動作性能に調和する個数にしておかなけ
ればならない。
【0057】これまでの説明では、本発明の実施例の方
法は、以下の処理手順(ステップ)を含んだ方法となっ
ている。先ず最初に、複数の学習用プロトタイプ・ベク
トルを、例えば図11に示した学習用プロトタイプ・ベ
クトル記憶部68に記憶させる。次に、それら学習用プ
ロトタイプ・ベクトルを用いて、学習用発声に対するラ
ベル付けを行ない、そして学習用発声から発生させたそ
れらラベルを、ヴィタビ・アラインメント法を用いて音
声音韻に関連付ける。また、1つの音声音韻に対応した
複数の音響特徴ベクトルから成る音響特徴ベクトル集合
の、その各集合を利用して図心集合を生成し、このとき
の図心集合の生成には、ユークリッド・クラスタ形成法
を用いる。続いて、新たな図心集合を生成し、この新図
心集合の生成の際には、ガウス・クラスタ形成法を用い
るようにし、それによって、複数の図心を生成するばか
りでなく、それら図心に付随する複数の分散値と複数の
事前確率値とから成る、分散値及び確率値の集合を併せ
て生成する。この後、1つの発声音韻に対応した複数の
音響特徴ベクトルから成る音韻クラス(即ち、音響特徴
ベクトルの基本集合)の、その各音韻クラスに関して、
その音韻の4とおりの異形音(即ち、4つの部分集合)
を算出し、それら4つの部分集合の各々が、約12個な
いし13個ぐらいの図心を含んでいるようにする。この
ように、同じ1つの音韻の複数の異形音を各々が包含し
ているようにした、複数の補助的クラスを使用している
ため、より適切な数(種類数)のラベルを、ベクトル量
子化部から発生させることができるようになっている。
法は、以下の処理手順(ステップ)を含んだ方法となっ
ている。先ず最初に、複数の学習用プロトタイプ・ベク
トルを、例えば図11に示した学習用プロトタイプ・ベ
クトル記憶部68に記憶させる。次に、それら学習用プ
ロトタイプ・ベクトルを用いて、学習用発声に対するラ
ベル付けを行ない、そして学習用発声から発生させたそ
れらラベルを、ヴィタビ・アラインメント法を用いて音
声音韻に関連付ける。また、1つの音声音韻に対応した
複数の音響特徴ベクトルから成る音響特徴ベクトル集合
の、その各集合を利用して図心集合を生成し、このとき
の図心集合の生成には、ユークリッド・クラスタ形成法
を用いる。続いて、新たな図心集合を生成し、この新図
心集合の生成の際には、ガウス・クラスタ形成法を用い
るようにし、それによって、複数の図心を生成するばか
りでなく、それら図心に付随する複数の分散値と複数の
事前確率値とから成る、分散値及び確率値の集合を併せ
て生成する。この後、1つの発声音韻に対応した複数の
音響特徴ベクトルから成る音韻クラス(即ち、音響特徴
ベクトルの基本集合)の、その各音韻クラスに関して、
その音韻の4とおりの異形音(即ち、4つの部分集合)
を算出し、それら4つの部分集合の各々が、約12個な
いし13個ぐらいの図心を含んでいるようにする。この
ように、同じ1つの音韻の複数の異形音を各々が包含し
ているようにした、複数の補助的クラスを使用している
ため、より適切な数(種類数)のラベルを、ベクトル量
子化部から発生させることができるようになっている。
【0058】このシステムを、更に精緻なものとして、
その誤り発生率を低下させるためには、上に列挙した処
理手順のうち、付加的な前処理のステップを除いたその
他の全ての処理手順を反復して実行するようにすれば良
い。それら処理手順を反復実行する際には、発声音韻−
特徴ベクトル対応付け処理手順も再度実行することにな
る。ただし、その第2回目の音声音韻−特徴ベクトル対
応付け処理手順においては、図4について説明した関連
付け処理と全く同一の処理を実行するのではなく、各々
の音声音韻が3種類の補助的構成要素を持っていると見
なして、その処理を実行するようにしている。それら3
種類の補助的構成要素とは音韻開始音、音韻中間音、音
韻終了音の3つである。例えば、単語「キャット(cat
)」の中の音韻「ae」には、実際に、音韻開始部の
「ae」と、音韻中間部の「ae」と、音韻終了部の
「ae」との、3種類の音が含まれている。また同様
に、単語「ザ(the )」の中の音韻「dh」にも、音韻
開始部と、音韻中間部と、音韻終了部との、3種類の音
が含まれている。
その誤り発生率を低下させるためには、上に列挙した処
理手順のうち、付加的な前処理のステップを除いたその
他の全ての処理手順を反復して実行するようにすれば良
い。それら処理手順を反復実行する際には、発声音韻−
特徴ベクトル対応付け処理手順も再度実行することにな
る。ただし、その第2回目の音声音韻−特徴ベクトル対
応付け処理手順においては、図4について説明した関連
付け処理と全く同一の処理を実行するのではなく、各々
の音声音韻が3種類の補助的構成要素を持っていると見
なして、その処理を実行するようにしている。それら3
種類の補助的構成要素とは音韻開始音、音韻中間音、音
韻終了音の3つである。例えば、単語「キャット(cat
)」の中の音韻「ae」には、実際に、音韻開始部の
「ae」と、音韻中間部の「ae」と、音韻終了部の
「ae」との、3種類の音が含まれている。また同様
に、単語「ザ(the )」の中の音韻「dh」にも、音韻
開始部と、音韻中間部と、音韻終了部との、3種類の音
が含まれている。
【0059】従って、第2回目の音声音韻−特徴ベクト
ル対応付け処理手順においては、ユークリッド・クラス
タ形成法を実行する必要のある音韻クラスの種類数を8
0種類とするのではなく、約230ないし約250種類
の音韻クラスを対象としてユークリッド・クラスタ形成
法を実行するようにし、それによって、より大きなサイ
ズの発声音韻のインベントリを形成するようにしてい
る。これによって、音声音韻のタイプ即ちレベルをより
きめ細かなものとし、そのタイプ即ちレベルが、入力し
てくる特徴ベクトルに対して、単に音声音韻を指定する
だけでなく、その音声音韻の音韻開始部、音韻中間部、
ないしは音韻終了部の種別までも指定できるようにして
いる。
ル対応付け処理手順においては、ユークリッド・クラス
タ形成法を実行する必要のある音韻クラスの種類数を8
0種類とするのではなく、約230ないし約250種類
の音韻クラスを対象としてユークリッド・クラスタ形成
法を実行するようにし、それによって、より大きなサイ
ズの発声音韻のインベントリを形成するようにしてい
る。これによって、音声音韻のタイプ即ちレベルをより
きめ細かなものとし、そのタイプ即ちレベルが、入力し
てくる特徴ベクトルに対して、単に音声音韻を指定する
だけでなく、その音声音韻の音韻開始部、音韻中間部、
ないしは音韻終了部の種別までも指定できるようにして
いる。
【0060】更に、第2回目の図心算出処理において
は、それら新たな音韻クラスの各々について、その音韻
クラスの図心集合を算出することになる。この第2回目
の図心算出処理を実行するときには、音韻クラスの個数
(種類数)が、約230ないし約250個になっている
ため、それら音韻クラスの各々を更に細分してスーパー
クラスタに分割することは最早不要になっている。より
具体的には、この段階では、それら音韻クラスは、その
各々が既に基本音韻の異形音(或いは、音韻の基本集合
の異形)であると見なされるため、それら音韻クラスを
更に細分することは不要なのである。更に加えて、この
再度実行するときの(即ち第2回目の)図心算出処理に
おいては、各プロトタイプ・ベクトルごとにK平均値ク
ラスタ形成法を用いてそのプロトタイプ・ベクトルの図
心の個数を減少させる際に、100個の図心を50個へ
減少させるのではなく、そのクラスタ形成によって50
個の図心を約20個へ減少させるようにしている。この
ように20個にまで減少させるのは、この段階では、最
初のときよりも多くの音韻クラスが設定されているた
め、音韻クラスの各々を表わすのに50個の図心を用い
る必要は最早ないからである。即ち、1種類の音韻の、
音韻開始部、音韻中間部、及び音韻終了部のうちの、そ
の各部分を表わすのであれば、図心の個数は20個で充
分と考えられるのである。
は、それら新たな音韻クラスの各々について、その音韻
クラスの図心集合を算出することになる。この第2回目
の図心算出処理を実行するときには、音韻クラスの個数
(種類数)が、約230ないし約250個になっている
ため、それら音韻クラスの各々を更に細分してスーパー
クラスタに分割することは最早不要になっている。より
具体的には、この段階では、それら音韻クラスは、その
各々が既に基本音韻の異形音(或いは、音韻の基本集合
の異形)であると見なされるため、それら音韻クラスを
更に細分することは不要なのである。更に加えて、この
再度実行するときの(即ち第2回目の)図心算出処理に
おいては、各プロトタイプ・ベクトルごとにK平均値ク
ラスタ形成法を用いてそのプロトタイプ・ベクトルの図
心の個数を減少させる際に、100個の図心を50個へ
減少させるのではなく、そのクラスタ形成によって50
個の図心を約20個へ減少させるようにしている。この
ように20個にまで減少させるのは、この段階では、最
初のときよりも多くの音韻クラスが設定されているた
め、音韻クラスの各々を表わすのに50個の図心を用い
る必要は最早ないからである。即ち、1種類の音韻の、
音韻開始部、音韻中間部、及び音韻終了部のうちの、そ
の各部分を表わすのであれば、図心の個数は20個で充
分と考えられるのである。
【0061】こうして全ての音声音韻に対応した夫々の
異形音に対して、その図心を決定するプロセスを完了し
たならば、最初に求めたプロトタイプ・ベクトルを廃棄
し、新たに求めたプロトタイプ・ベクトルを、プロトタ
イプ・ベクトル記憶部に記憶させる。
異形音に対して、その図心を決定するプロセスを完了し
たならば、最初に求めたプロトタイプ・ベクトルを廃棄
し、新たに求めたプロトタイプ・ベクトルを、プロトタ
イプ・ベクトル記憶部に記憶させる。
【0062】以上に説明した方法の全体によって、本発
明が提供するシステムは、話者非従属性システムである
ということができるものとなっている。更に詳細に説明
すると、以上の方法の全体を実行した後には、ベクトル
量子化部8から出力するラベルは、音声音韻の種類を表
わすと共に、更に、その音が、その音声音韻の音韻開始
部、音韻中間部、及び音韻終了部のうちの、いずれの部
分の音であるかを表わすラベルになっている。従って、
例えば、このベクトル量子化部8から出力したラベル
が、「開始s」というラベルであったならば、そのラベ
ルは音韻sの音韻開始部であると明確に解釈することが
できる。従って、このラベルは話者非従属性であり、何
故ならば、このラベルは、音声を発している話者が誰で
あるかにかかわらず、とにかく、音韻sの音韻開始部以
外のものには関係していないことが確かだからである。
換言すれば、話者が異なればその発声も異なったものと
なるが、その場合であってもベクトル量子化部からは特
定のラベルが出力するため、そのラベルを、異なった話
者が発声する様々な音声に対して等しく適用することが
できるのである。また、基本的に、ある一人の話者につ
いてのラベルと、別の話者についてのラベルとの間に対
応関係があるため、各ラベルに付随する確率の値は話者
の如何にかかわらず同一になる。従って、後の別の話者
についてラベルの再評価を行なうときには、最初の話者
についてラベルの評価を行なったとき程の時間はかから
ず、何故ならば、同じ音韻が発声される確率が、再評価
を行なうときにはすでに既知となっているからである。
明が提供するシステムは、話者非従属性システムである
ということができるものとなっている。更に詳細に説明
すると、以上の方法の全体を実行した後には、ベクトル
量子化部8から出力するラベルは、音声音韻の種類を表
わすと共に、更に、その音が、その音声音韻の音韻開始
部、音韻中間部、及び音韻終了部のうちの、いずれの部
分の音であるかを表わすラベルになっている。従って、
例えば、このベクトル量子化部8から出力したラベル
が、「開始s」というラベルであったならば、そのラベ
ルは音韻sの音韻開始部であると明確に解釈することが
できる。従って、このラベルは話者非従属性であり、何
故ならば、このラベルは、音声を発している話者が誰で
あるかにかかわらず、とにかく、音韻sの音韻開始部以
外のものには関係していないことが確かだからである。
換言すれば、話者が異なればその発声も異なったものと
なるが、その場合であってもベクトル量子化部からは特
定のラベルが出力するため、そのラベルを、異なった話
者が発声する様々な音声に対して等しく適用することが
できるのである。また、基本的に、ある一人の話者につ
いてのラベルと、別の話者についてのラベルとの間に対
応関係があるため、各ラベルに付随する確率の値は話者
の如何にかかわらず同一になる。従って、後の別の話者
についてラベルの再評価を行なうときには、最初の話者
についてラベルの評価を行なったとき程の時間はかから
ず、何故ならば、同じ音韻が発声される確率が、再評価
を行なうときにはすでに既知となっているからである。
【0063】本発明の方法を実行する際に必要とされ
る、ハードウェアの構成要素の実施例を、図10に示し
た。同示の如く、本発明のこのハードウェアの実施例
は、例えば図1に引用符号2で示した信号等の音声信号
を取り込むための、音響トランスデューサ40を備えて
いる。この音響トランスデューサ40からは、その音声
信号を表わすアナログ信号が、線42を介して、アナロ
グ・ディジタル・コンバータ44へ入力する。そのアナ
ログ信号はここでディジタル信号に変換され、更に線4
6を介して、スペクトル解析部48へ入力する。このス
ペクトル解析部48は、図1に示した信号処理部4の一
部分と考えれば良く、このスペクトル解析部48によっ
てスペクトル解析を行なって、特徴ベクトル出力を、線
50上へ送出する。送出された特徴ベクトルは、処理部
52へ入力する。この処理部52は、小区画一致度点数
値(一致度スコア)計算部54と、プロトタイプ一致度
点数値計算部56とから構成してある。小区画一致度点
数値計算部54は、その他方の入力に、プロトタイプ・
ベクトル記憶部58からの出力を受け取っている。プロ
トタイプ一致度点数値計算部56からは、プロトタイプ
一致度点数値信号が出力し、出力したその信号は、特徴
ベクトル信号エンコーダ60へ入力する。特徴ベクトル
信号エンコーダ60の機能は、最良のプロトタイプ一致
度点数値を有するプロトタイプ・ベクトルに対応した特
徴ベクトルを識別することにある。こうして識別した特
徴ベクトルに対しては、続いてラベル付けを施す。この
ラベル付けは、ある1つの音韻クラスに対して定めてあ
る識別子、即ちラベルを付与することによって行なう。
る、ハードウェアの構成要素の実施例を、図10に示し
た。同示の如く、本発明のこのハードウェアの実施例
は、例えば図1に引用符号2で示した信号等の音声信号
を取り込むための、音響トランスデューサ40を備えて
いる。この音響トランスデューサ40からは、その音声
信号を表わすアナログ信号が、線42を介して、アナロ
グ・ディジタル・コンバータ44へ入力する。そのアナ
ログ信号はここでディジタル信号に変換され、更に線4
6を介して、スペクトル解析部48へ入力する。このス
ペクトル解析部48は、図1に示した信号処理部4の一
部分と考えれば良く、このスペクトル解析部48によっ
てスペクトル解析を行なって、特徴ベクトル出力を、線
50上へ送出する。送出された特徴ベクトルは、処理部
52へ入力する。この処理部52は、小区画一致度点数
値(一致度スコア)計算部54と、プロトタイプ一致度
点数値計算部56とから構成してある。小区画一致度点
数値計算部54は、その他方の入力に、プロトタイプ・
ベクトル記憶部58からの出力を受け取っている。プロ
トタイプ一致度点数値計算部56からは、プロトタイプ
一致度点数値信号が出力し、出力したその信号は、特徴
ベクトル信号エンコーダ60へ入力する。特徴ベクトル
信号エンコーダ60の機能は、最良のプロトタイプ一致
度点数値を有するプロトタイプ・ベクトルに対応した特
徴ベクトルを識別することにある。こうして識別した特
徴ベクトルに対しては、続いてラベル付けを施す。この
ラベル付けは、ある1つの音韻クラスに対して定めてあ
る識別子、即ちラベルを付与することによって行なう。
【0064】尚、この図10の全体ブロック図について
の説明では、プロトタイプそのものが、1つの音韻クラ
スであるものとして説明をする。また更に、各々の音韻
クラスが複数のサブクラス持ち、それらサブクラスは、
ここでは例えばその音韻の、音韻開始部、音韻中間部、
及び音韻終了部であるものとする。これらサブクラス
は、小区画と呼ぶこともできる。
の説明では、プロトタイプそのものが、1つの音韻クラ
スであるものとして説明をする。また更に、各々の音韻
クラスが複数のサブクラス持ち、それらサブクラスは、
ここでは例えばその音韻の、音韻開始部、音韻中間部、
及び音韻終了部であるものとする。これらサブクラス
は、小区画と呼ぶこともできる。
【0065】更に図10についての説明を続ける。図示
の如く、スペクトル解析部48から処理部52へ供給さ
れる特徴ベクトルは、先ず、小区画一致度点数値計算部
54へ入力する。この小区画一致度点数値計算部54
は、供給された特徴ベクトルの各々を、プロトタイプ・
ベクトル記憶部58に記憶させてある夫々のプロトタイ
プ・ベクトルと比較することによって、小区画一致度点
数値を得るようにしたものであり、この小区画一致度点
数値は、夫々の小区画と、特徴ベクトル信号に含まれる
複数の特徴値のうちの少なくとも1つの特徴値との間
の、一致度の値を表わす点数値である。こうして得た夫
々の小区画一致度点数値の総和が、この小区画一致度点
数値計算部54から、線55を介して、プロトタイプ一
致度点数値計算部56へ供給される。プロトタイプ一致
度点数値計算部56は、小区画一致度点数値の総和を受
け取ったならば、各々の音韻クラスに対応した、プロト
タイプ一致度点数値を計算によって求める。このプロト
タイプ一致度点数値計算部56へは、複数の小区画の小
区画一致度点数値の総和が供給されるため、各々のプロ
トタイプ一致度点数値は、該当する1つのプロトタイプ
即ち音韻クラスに所属する全ての小区画の小区画一致度
点数値の1つの関数を表わすものとなっている。そし
て、特徴ベクトルとの間の一致度を調べた結果、小区画
一致度点数値の総和に最も近い値を示した最良のプロト
タイプ一致度点数値を有するプロトタイプ・ベクトル
を、その特徴ベクトルが該当するプロトタイプ、即ち音
韻クラスとして指定する。この指定は、特徴ベクトル信
号エンコーダ60において、そのプロトタイプ(即ち音
韻クラス)に対して定めてある識別子を用いて、その特
徴ベクトルを符号化することによって行ない、これによ
って、その音韻クラスに該当するラベルが出力されるこ
とになる。
の如く、スペクトル解析部48から処理部52へ供給さ
れる特徴ベクトルは、先ず、小区画一致度点数値計算部
54へ入力する。この小区画一致度点数値計算部54
は、供給された特徴ベクトルの各々を、プロトタイプ・
ベクトル記憶部58に記憶させてある夫々のプロトタイ
プ・ベクトルと比較することによって、小区画一致度点
数値を得るようにしたものであり、この小区画一致度点
数値は、夫々の小区画と、特徴ベクトル信号に含まれる
複数の特徴値のうちの少なくとも1つの特徴値との間
の、一致度の値を表わす点数値である。こうして得た夫
々の小区画一致度点数値の総和が、この小区画一致度点
数値計算部54から、線55を介して、プロトタイプ一
致度点数値計算部56へ供給される。プロトタイプ一致
度点数値計算部56は、小区画一致度点数値の総和を受
け取ったならば、各々の音韻クラスに対応した、プロト
タイプ一致度点数値を計算によって求める。このプロト
タイプ一致度点数値計算部56へは、複数の小区画の小
区画一致度点数値の総和が供給されるため、各々のプロ
トタイプ一致度点数値は、該当する1つのプロトタイプ
即ち音韻クラスに所属する全ての小区画の小区画一致度
点数値の1つの関数を表わすものとなっている。そし
て、特徴ベクトルとの間の一致度を調べた結果、小区画
一致度点数値の総和に最も近い値を示した最良のプロト
タイプ一致度点数値を有するプロトタイプ・ベクトル
を、その特徴ベクトルが該当するプロトタイプ、即ち音
韻クラスとして指定する。この指定は、特徴ベクトル信
号エンコーダ60において、そのプロトタイプ(即ち音
韻クラス)に対して定めてある識別子を用いて、その特
徴ベクトルを符号化することによって行ない、これによ
って、その音韻クラスに該当するラベルが出力されるこ
とになる。
【0066】図10の全体ブロック図についての以上の
説明に関して更に付言すると、小区画一致度点数値を算
出するには、例えば図9のヒストグラムに示したガウス
分布上の、どの位置に、その音響特徴ベクトルが位置し
ているかを求めるようにすれば良い。
説明に関して更に付言すると、小区画一致度点数値を算
出するには、例えば図9のヒストグラムに示したガウス
分布上の、どの位置に、その音響特徴ベクトルが位置し
ているかを求めるようにすれば良い。
【0067】図11には、これまでに図4、図6、図
7、及び図8について説明した様々な処理手順(ステッ
プ)を実行するための装置の、ブロック図である。本発
明の方法における全てのステップは、ラベル付与部62
を中心としており、このラベル付与部62は、その入力
として特徴ベクトルを、音響特徴ベクトル記憶部64か
ら受け取っている。また、このラベル付与部62から出
力するラベルは、認識部66へ供給されている。この認
識部66では、この音声認識システムのシステム全体に
ついての更なる処理が行なわれており、本明細書で説明
した音響モデルの音声認識の諸特徴は、このシステム全
体の処理の一部を成すものである。ラベル付与部62は
更に、ラベル付け処理が実行できるように、プロトタイ
プ・ベクトル記憶部68から、プロトタイプの集合を受
け取っており、このプロトタイプ・ベクトル記憶部68
の中には、夫々に異なった音韻クラスを表わしている複
数のプロトタイプ・ベクトルを記憶させてある。
7、及び図8について説明した様々な処理手順(ステッ
プ)を実行するための装置の、ブロック図である。本発
明の方法における全てのステップは、ラベル付与部62
を中心としており、このラベル付与部62は、その入力
として特徴ベクトルを、音響特徴ベクトル記憶部64か
ら受け取っている。また、このラベル付与部62から出
力するラベルは、認識部66へ供給されている。この認
識部66では、この音声認識システムのシステム全体に
ついての更なる処理が行なわれており、本明細書で説明
した音響モデルの音声認識の諸特徴は、このシステム全
体の処理の一部を成すものである。ラベル付与部62は
更に、ラベル付け処理が実行できるように、プロトタイ
プ・ベクトル記憶部68から、プロトタイプの集合を受
け取っており、このプロトタイプ・ベクトル記憶部68
の中には、夫々に異なった音韻クラスを表わしている複
数のプロトタイプ・ベクトルを記憶させてある。
【0068】プロトタイプ・ベクトル記憶部68に記憶
させておく、複数のプロトタイプ・ベクトル(それらの
プロトタイプ・ベクトルは、複数の基本要素モデルから
成る1つの基本要素モデル・ネットワークであると見な
すことのできる、複数のプロトタイプ・ベクトル信号で
ある)を決定するためには、先ず第1に、音声音韻−特
徴ベクトル対応付け処理手順を実行する必要がある。音
声音韻−特徴ベクトル対応付け処理手順は、このブロッ
ク図の、学習用クラス・モデル記憶部70、クラス・モ
デル記憶部72、学習用テキスト・モデル選択部74、
ラベル対モデル関連付け処理部76、及びクラス・モデ
ル・パラメータ再計算部78から成る経路の部分に関係
した処理である。既述の如く、学習用クラス・モデル記
憶部70の中には、学習用クラス(或いは学習用テキス
ト、ないしは学習用基本要素モデル)の集合を記憶させ
てある。この集合は、例えば、80個の音韻クラスから
成るインベントリである。ラベルをモデルに関連付ける
ラベル対モデル関連付け処理が完了したならば(この処
理は、例えば前述の音声音韻−特徴ベクトル対応付け処
理手順の中で説明した方法等を用いて行なう)、その段
階で、複数の特徴ベクトルが、夫々に個々の音韻モデル
に関連付けられている。更に、ある1つの音声音韻に対
応する全ての特徴ベクトルがプールされ、それら特徴ベ
クトルに対する、前述のユークリッド・クラスタ形成法
を用いたクラスタ形成処理が完了したならば、夫々の平
均値、分散値、及び事前確率を含んでいる複数のプロト
タイプ・ベクトルから成る新たなプロトタイプ・ベクト
ル集合が、ラベル対モデル関連付け処理部76から、音
響特徴ベクトル選択部80へ供給される。
させておく、複数のプロトタイプ・ベクトル(それらの
プロトタイプ・ベクトルは、複数の基本要素モデルから
成る1つの基本要素モデル・ネットワークであると見な
すことのできる、複数のプロトタイプ・ベクトル信号で
ある)を決定するためには、先ず第1に、音声音韻−特
徴ベクトル対応付け処理手順を実行する必要がある。音
声音韻−特徴ベクトル対応付け処理手順は、このブロッ
ク図の、学習用クラス・モデル記憶部70、クラス・モ
デル記憶部72、学習用テキスト・モデル選択部74、
ラベル対モデル関連付け処理部76、及びクラス・モデ
ル・パラメータ再計算部78から成る経路の部分に関係
した処理である。既述の如く、学習用クラス・モデル記
憶部70の中には、学習用クラス(或いは学習用テキス
ト、ないしは学習用基本要素モデル)の集合を記憶させ
てある。この集合は、例えば、80個の音韻クラスから
成るインベントリである。ラベルをモデルに関連付ける
ラベル対モデル関連付け処理が完了したならば(この処
理は、例えば前述の音声音韻−特徴ベクトル対応付け処
理手順の中で説明した方法等を用いて行なう)、その段
階で、複数の特徴ベクトルが、夫々に個々の音韻モデル
に関連付けられている。更に、ある1つの音声音韻に対
応する全ての特徴ベクトルがプールされ、それら特徴ベ
クトルに対する、前述のユークリッド・クラスタ形成法
を用いたクラスタ形成処理が完了したならば、夫々の平
均値、分散値、及び事前確率を含んでいる複数のプロト
タイプ・ベクトルから成る新たなプロトタイプ・ベクト
ル集合が、ラベル対モデル関連付け処理部76から、音
響特徴ベクトル選択部80へ供給される。
【0069】ある1つの音声音韻に対応した複数の音響
特徴ベクトルから成る集合は、特徴ベクトル信号の基礎
集合であると考えることができる。この音響特徴ベクト
ルの基礎集合は、音響特徴ベクトル部分集合選択部82
の中で、複数の部分集合即ちサブクラスに分割すること
ができ、それらサブクラスは例えば、その音韻の、音韻
開始部、音韻中間部、音韻終了部等のサブクラスであ
る。それらサブクラスから成る複数のプロトタイプ・ベ
クトルは(それらプロトタイプ・ベクトルは、この段階
では、新プロトタイプ・ベクトルと呼ばれるものであ
る)、音響特徴ベクトル部分集合選択部82から、プロ
トタイプ処理部84へ送出され、そこで処理された上
で、新プロトタイプ・ベクトル記憶部86に記憶され
る。この構成により、ラベル付与部62は、入力してき
た特徴ベクトルと、プロトタイプ・ベクトル記憶部68
に記憶してある様々なプロトタイプ・ベクトルとを、比
較することができるようになっている。また、音響特徴
ベクトル部分集合選択部82、プロトタイプ処理部8
4、及び新プロトタイプ・ベクトル記憶部86において
は、更にプロトタイプ・ベクトルの図心の算出処理も行
なっている。
特徴ベクトルから成る集合は、特徴ベクトル信号の基礎
集合であると考えることができる。この音響特徴ベクト
ルの基礎集合は、音響特徴ベクトル部分集合選択部82
の中で、複数の部分集合即ちサブクラスに分割すること
ができ、それらサブクラスは例えば、その音韻の、音韻
開始部、音韻中間部、音韻終了部等のサブクラスであ
る。それらサブクラスから成る複数のプロトタイプ・ベ
クトルは(それらプロトタイプ・ベクトルは、この段階
では、新プロトタイプ・ベクトルと呼ばれるものであ
る)、音響特徴ベクトル部分集合選択部82から、プロ
トタイプ処理部84へ送出され、そこで処理された上
で、新プロトタイプ・ベクトル記憶部86に記憶され
る。この構成により、ラベル付与部62は、入力してき
た特徴ベクトルと、プロトタイプ・ベクトル記憶部68
に記憶してある様々なプロトタイプ・ベクトルとを、比
較することができるようになっている。また、音響特徴
ベクトル部分集合選択部82、プロトタイプ処理部8
4、及び新プロトタイプ・ベクトル記憶部86において
は、更にプロトタイプ・ベクトルの図心の算出処理も行
なっている。
【0070】以上を要約して述べるならば、クラス・モ
デル記憶部72、学習用テキスト・モデル選択部74、
ラベル対モデル関連付け処理部76、及びクラス・モデ
ル・パラメータ再計算部78から成る経路の部分は、こ
のシステムに必要な、音声音韻モデルの学習作業を担当
している。この学習作業には、複数の単語モデルから成
る単語モデル集合が必要であり、この単語モデル集合
は、学習用クラス・モデル記憶部70と、クラス・モデ
ル記憶部72とから得られるようにしてある。更にこの
学習作業には、複数のラベルから成るラベル集合も必要
であり、このラベル集合は、ラベル対モデル関連付け処
理部76が実行する関連付け処理によって得られる。ク
ラス・モデル・パラメータ再計算部78は、それら複数
のラベルを使用し、ヴィタビ・アラインメント法に従っ
て、新たな複数の単語モデルを生成すると共に、特徴ベ
クトルと音声音韻とを連携させるアラインメント作業を
行なう。新たなラベルから成る新ラベル集合が得られた
ならば、このシステムは、それら新ラベルによって再学
習を実行した後に、新たな音声音韻−特徴ベクトル対応
付け処理手順を実行するようにしなければならない。
デル記憶部72、学習用テキスト・モデル選択部74、
ラベル対モデル関連付け処理部76、及びクラス・モデ
ル・パラメータ再計算部78から成る経路の部分は、こ
のシステムに必要な、音声音韻モデルの学習作業を担当
している。この学習作業には、複数の単語モデルから成
る単語モデル集合が必要であり、この単語モデル集合
は、学習用クラス・モデル記憶部70と、クラス・モデ
ル記憶部72とから得られるようにしてある。更にこの
学習作業には、複数のラベルから成るラベル集合も必要
であり、このラベル集合は、ラベル対モデル関連付け処
理部76が実行する関連付け処理によって得られる。ク
ラス・モデル・パラメータ再計算部78は、それら複数
のラベルを使用し、ヴィタビ・アラインメント法に従っ
て、新たな複数の単語モデルを生成すると共に、特徴ベ
クトルと音声音韻とを連携させるアラインメント作業を
行なう。新たなラベルから成る新ラベル集合が得られた
ならば、このシステムは、それら新ラベルによって再学
習を実行した後に、新たな音声音韻−特徴ベクトル対応
付け処理手順を実行するようにしなければならない。
【0071】図12は、図心算出処理をどのように行な
うかを示した、簡単化したフローチャートである。その
基本的な点を説明すると、先ずブロック90において、
特徴ベクトルを得る。続いてブロック92において、音
声音韻−特徴ベクトル対応付け処理手順を実行する。こ
の後、ブロック94において、前述のユークリッド・ク
ラスタ形成法を用いて、基本クラス(基本集合)を、少
なくとも2つの部分集合に分割する。ブロック96で
は、それら部分集合の各々に対応した、プロトタイプ・
ベクトルを算出し、それによって、それら部分集合の各
々に対応した、平均値、分散値、及び事前確率値を得
る。
うかを示した、簡単化したフローチャートである。その
基本的な点を説明すると、先ずブロック90において、
特徴ベクトルを得る。続いてブロック92において、音
声音韻−特徴ベクトル対応付け処理手順を実行する。こ
の後、ブロック94において、前述のユークリッド・ク
ラスタ形成法を用いて、基本クラス(基本集合)を、少
なくとも2つの部分集合に分割する。ブロック96で
は、それら部分集合の各々に対応した、プロトタイプ・
ベクトルを算出し、それによって、それら部分集合の各
々に対応した、平均値、分散値、及び事前確率値を得
る。
【0072】図13は、前述の付加的な前処理手順を示
した、簡単化したフローチャートである。先ず、図示の
如く、ブロック98において音響特徴ベクトルを計測す
る。この後、ブロック100において、音声音韻−特徴
ベクトル対応付け処理手順を実行する。次に、一般化固
有ベクトル法を用いて、m次元の特徴ベクトルの方向転
換処理を行ってn次元の特徴ベクトルにし、それによっ
て、異なった音韻クラスどうしを最適に判別できるよう
にする。この後、ブロック104において、特徴ベクト
ルをn次元の空間へ射影する。
した、簡単化したフローチャートである。先ず、図示の
如く、ブロック98において音響特徴ベクトルを計測す
る。この後、ブロック100において、音声音韻−特徴
ベクトル対応付け処理手順を実行する。次に、一般化固
有ベクトル法を用いて、m次元の特徴ベクトルの方向転
換処理を行ってn次元の特徴ベクトルにし、それによっ
て、異なった音韻クラスどうしを最適に判別できるよう
にする。この後、ブロック104において、特徴ベクト
ルをn次元の空間へ射影する。
【0073】図14は、前述の音声音韻−特徴ベクトル
対応付け処理手順を、簡単化したフローチャートのフォ
ーマットで示した図である。その要点を述べるならば、
ブロック106からは、複数の音響特徴ベクトルから成
る音響特徴ベクトル集合を取り出し、取り出したその音
響特徴ベクトル集合を、ブロック108へ入力として供
給する。このブロック108では、複数のラベルから成
るラベル集合を生成する。続いて、生成したそれら複数
のラベルをブロック110へ供給し、このブロック11
0では、ヴィタビ・アラインメント処理を実行して、発
声のモデルを複数の異なった特徴ベクトルに関連付け
る。このブロック110からの出力112は、図12の
ブロック92と、図13のブロック100とへ供給す
る。ブロック114とブロック116とは、ヴィタビ・
アラインメント処理に必要な、学習用の文章のテキスト
を供給するためのブロックである。
対応付け処理手順を、簡単化したフローチャートのフォ
ーマットで示した図である。その要点を述べるならば、
ブロック106からは、複数の音響特徴ベクトルから成
る音響特徴ベクトル集合を取り出し、取り出したその音
響特徴ベクトル集合を、ブロック108へ入力として供
給する。このブロック108では、複数のラベルから成
るラベル集合を生成する。続いて、生成したそれら複数
のラベルをブロック110へ供給し、このブロック11
0では、ヴィタビ・アラインメント処理を実行して、発
声のモデルを複数の異なった特徴ベクトルに関連付け
る。このブロック110からの出力112は、図12の
ブロック92と、図13のブロック100とへ供給す
る。ブロック114とブロック116とは、ヴィタビ・
アラインメント処理に必要な、学習用の文章のテキスト
を供給するためのブロックである。
【0074】本発明は、様々な別実施例ないし変更実施
例とすることができ、また細部における改変も可能なも
のである。従って本明細書中に記載し、ないしは添付図
面中に示した全ての事項は、あくまでも具体例の例示と
して解釈すべきものであり、本発明がそれらに限定され
ると解釈すべきものではない。
例とすることができ、また細部における改変も可能なも
のである。従って本明細書中に記載し、ないしは添付図
面中に示した全ての事項は、あくまでも具体例の例示と
して解釈すべきものであり、本発明がそれらに限定され
ると解釈すべきものではない。
【図1】音声から抽出した特徴ベクトルにラベル付けを
行なうためのシステムの簡単化した模式図である。
行なうためのシステムの簡単化した模式図である。
【図2】空間内の複数の特徴ベクトルと、それら特徴ベ
クトルを複数の凸領域に区分する区分処理とを2次元的
に表わした説明図である。
クトルを複数の凸領域に区分する区分処理とを2次元的
に表わした説明図である。
【図3】Aは、2種類の音声音韻を2次元的に表わし
た、本発明の基本的概念を説明するための図であり、B
は、Aと同様の説明図であるが、ただし、同一の音声音
韻クラスの複数の異なったグループが、互いに別々の凸
領域に区画されているところを表わした、本発明の基本
的概念を説明するための図である。
た、本発明の基本的概念を説明するための図であり、B
は、Aと同様の説明図であるが、ただし、同一の音声音
韻クラスの複数の異なったグループが、互いに別々の凸
領域に区画されているところを表わした、本発明の基本
的概念を説明するための図である。
【図4】連続テキスト列と様々な音韻との間の相関関係
を示した、簡単化した説明図である。
を示した、簡単化した説明図である。
【図5】1つの単語の中に含まれる異なった複数の特徴
ベクトルを例示した、簡単化したスペクトル周波数の模
式図である。
ベクトルを例示した、簡単化したスペクトル周波数の模
式図である。
【図6】複数の特徴ベクトルをつなぎ合わせてそれらに
対応した複数の異なったプロトタイプ・ベクトルを形成
する、スプライス法の具体例の説明図である。
対応した複数の異なったプロトタイプ・ベクトルを形成
する、スプライス法の具体例の説明図である。
【図7】A及びBは、2次元空間の中に分布している同
種の複数の音声音韻を、一般化固有ベクトル法を用いて
射影する、射影法を示した説明図である。
種の複数の音声音韻を、一般化固有ベクトル法を用いて
射影する、射影法を示した説明図である。
【図8】2次元空間の中に分布している複数の「s」の
ベクトルの具体例を示した模式図である。
ベクトルの具体例を示した模式図である。
【図9】所与の1つの音声音韻の分布関数の具体例を示
した説明図である。
した説明図である。
【図10】本発明の技法を実行する上で必要な様々な構
成要素の具体例を示した、簡単化した全体ブロック図で
ある。
成要素の具体例を示した、簡単化した全体ブロック図で
ある。
【図11】本発明の装置の一実施例を示したブロック図
である。
である。
【図12】本発明の方法における図心算出処理のステッ
プを示した、簡単化したフローチャートである。
プを示した、簡単化したフローチャートである。
【図13】本発明の方法における付加的な前処理のステ
ップを示した、簡単化したフローチャートである。
ップを示した、簡単化したフローチャートである。
【図14】本発明の方法における音声音韻−特徴ベクト
ル対応付け処理のステップを示した、簡単化したフロー
チャートである。
ル対応付け処理のステップを示した、簡単化したフロー
チャートである。
2 音声信号
4 信号処理部
6 特徴ベクトル
8 ベクトル量子化部
10 プロトタイプ記憶部
12 音声特徴ベクトル
14、15 凸領域
16、18 プロトタイプ
24a〜24c 領域
26a〜26c 領域
─────────────────────────────────────────────────────
フロントページの続き
(72)発明者 ピーター・ヴインセント・デ・ソウザ
アメリカ合衆国10541、ニユーヨーク州
マホパツク、トミー・コート、ロツト・ナ
ンバー 5
(72)発明者 ラリツト・アール・バール
アメリカ合衆国10501、ニユーヨーク州
アマウオーク、エリシヤ・パーデイー・ロ
ード、アールデイーアイ、ボツクス 28
(72)発明者 マイケル・アラン・ピチエニー
アメリカ合衆国10606、ニユーヨーク州
ホワイト・プレインズ、ラルフ・アベニユ
ー 118番地
Claims (76)
- 【請求項1】 音声符号化装置において、 複数のクラスを記憶するためのクラス記憶手段であっ
て、記憶するそれら複数のクラスは、その各クラスが識
別子を有すると共に、その各クラスが複数のプロトタイ
プのうちの少なくとも2つのプロトタイプによって表わ
されるようにしてあり、前記複数のプロトタイプは、そ
の各々が少なくとも1つのプロトタイプ値を有してい
る、前記クラス記憶手段と、 少なくとも1つの特徴値を有する特徴ベクトル信号を発
声の中から抽出する、特徴ベクトル信号抽出手段と、 前記複数のプロトタイプのうちから、前記特徴ベクトル
信号の特徴値に対して最良の一致を示すプロトタイプ値
を有する少なくとも1つのプロトタイプを選択すること
によって、前記特徴ベクトル信号と前記複数のクラスの
うちの少なくとも1つのクラスとの間に対応関係を確立
する、対応関係確立手段と、 選択した前記少なくとも1つのプロトタイプによって表
わされているクラスの識別子を用いて前記特徴ベクトル
信号を符号化する、符号化手段と、 を備えたことを特徴とする音声符号化装置。 - 【請求項2】 前記少なくとも1つのプロトタイプのプ
ロトタイプ値を、そのプロトタイプに関連した1つの集
合を成す複数の音響特徴ベクトルの夫々の、少なくとも
平均値と分散値と事前確率値とに基づいて算出するよう
にしてあることを特徴とする請求項1の音声符号化装
置。 - 【請求項3】 前記少なくとも1つのプロトタイプのプ
ロトタイプ値を、そのプロトタイプの確率分布関数上に
おける、前記特徴ベクトル信号の特徴値の位置に基づい
て、算出するようにしてあることを特徴とする請求項1
の音声符号化装置。 - 【請求項4】 前記複数のクラスのうちの各クラスを複
数のプロトタイプによって表わすようにしてあり、各ク
ラスを表わすそれら複数のプロトタイプの夫々のプロト
タイプ値は、それらプロトタイプ値の全体を前記特徴ベ
クトル信号の特徴値と比較対照して考察することによっ
て、前記特徴ベクトル信号がそのクラスに該当するもの
か否かを判別できるようにしたプロトタイプ値であるこ
とを特徴とする請求項1の音声符号化装置。 - 【請求項5】 複数の学習用クラスを記憶するための学
習用クラス記憶手段と、 学習用発声を計測して、その学習用発声を、各々が特徴
値を有する複数の学習用特徴ベクトルから成る学習用特
徴ベクトル列へと変換する、計測及び変換手段と、 前記学習用特徴ベクトル列のうちの各学習用特徴ベクト
ルを、前記複数の学習用クラスのうちの1つの学習用ク
ラスに関連付けることによって、記憶する前記複数のク
ラスを生成する、関連付け手段と、を更に備えたことを
特徴とする請求項1の音声符号化装置。 - 【請求項6】 連続した複数回の所定周期に亙って発声
を計測し、その発声からその発声に対応した連続した複
数の特徴ベクトル集合を抽出する、計測及び抽出手段で
あって、前記連続した複数の特徴ベクトル集合における
各特徴ベクトルは、少なくとも1つの特徴値に相当する
次元数を有する特徴ベクトルである、前記計測及び抽出
手段と、 前記連続した複数の特徴ベクトル集合の中の各特徴ベク
トル集合に含まれている複数の特徴ベクトルを互いに併
合することによって複数の合併特徴ベクトルを形成す
る、特徴ベクトル併合手段であって、前記複数の合併特
徴ベクトルの夫々の次元数は、その合併特徴ベクトルに
対応する併合された元の特徴ベクトルの次元数の総和に
等しく、それら複数の合併特徴ベクトルは、記憶してあ
る前記複数の学習用クラスどうしの間の区別を行なうの
に、より適したものである、前記特徴ベクトル併合手段
と、 前記複数の合併特徴ベクトルに対して空間的な方向転換
処理を施すことによって、それら複数の合併特徴ベクト
ルの次元数を減少させ、それによって、それら合併特徴
ベクトルの操作を容易化する、方向転換処理手段と、を
更に備えたことを特徴とする請求項5の音声符号化装
置。 - 【請求項7】 前記複数の学習用クラスは、その各々の
学習用クラスを複数の学習用サブクラスに区分してあ
り、更に、 前記複数の学習用サブクラスを、対応した平均値と分散
値と事前確率値とを有する複数の学習用分布関数のうち
の夫々の学習用分布関数として設定する、学習用サブク
ラス設定手段と、 各々が1つの学習用プロトタイプを表わすようにした複
数の前記学習用分布関数を記憶するための、学習用分布
関数記憶手段と、 を備えたことを特徴とする請求項6の音声符号化装置。 - 【請求項8】 記憶してある前記複数のクラスは、その
各々のクラスが少なくとも1つの下位構成要素を有して
おり、 前記関連付け手段は、前記連続特徴ベクトル列を前記少
なくとも1つの下位構成要素に関連付けることによっ
て、記憶しておく複数の構成要素クラスを生成するよう
にした手段である、ことを特徴とする請求項7の音声符
号化装置。 - 【請求項9】 前記設定手段は、更に、前記複数の構成
要素クラスを、対応した平均値と分散値と事前確率値と
を各々が有する複数の分布関数のうちの夫々の分布関数
として設定する手段であり、更に、 前記複数の構成要素クラスを表わしている前記複数の分
布関数を記憶するための分布関数記憶手段であって、そ
れら複数の構成要素クラスのそれら複数の分布関数の各
々が1つのプロトタイプを表わすようにした前記分布関
数記憶手段を備えたことを特徴とする請求項8の音声符
号化装置。 - 【請求項10】 前記符号化手段が、符号化を施した特
徴ベクトル信号に対応したラベルを出力する量子化手段
を備えていることを特徴とする請求項1の音声符号化装
置。 - 【請求項11】 前記対応関係確立手段が、 複数の音声特徴ベクトルをグループ分けして、各々が夫
々に平均値と分散値と事前確率値とを有する所定数の複
数のプロトタイプに分ける、音声特徴ベクトルグループ
分け手段と、 前記所定数の複数のプロトタイプのうちの各プロトタイ
プを、少なくとも2つのサブ・プロトタイプに区分し、
それによって、前記特徴ベクトル信号をその他の特徴ベ
クトル信号からより良好に区別できるようにする、プロ
トタイプ区分手段と、を含んでいることを特徴とする請
求項1の音声符号化装置。 - 【請求項12】 音声符号化装置において、 複数のクラスを表わす複数のプロトタイプを記憶するた
めのプロトタイプ記憶手段であって、それら複数のクラ
スは、その各クラスが識別子を有すると共に、その各ク
ラスが前記複数のプロトタイプのうちの少なくとも2つ
のプロトタイプによって表わされるようにしてあり、前
記複数のプロトタイプは、その各々が少なくとも1つの
プロトタイプ値を有している、前記プロトタイプ記憶手
段と、 少なくとも1つの特徴値を有する特徴ベクトル信号を発
声の中から抽出する、特徴ベクトル信号抽出手段と、 前記特徴ベクトル信号の特徴値を、前記複数のプロトタ
イプの夫々のプロトタイプ値と比較対照することによっ
て、該特徴ベクトル信号と少なくとも1つのクラスとの
間に対応関係を確立する、対応関係確立手段と、 前記複数のプロトタイプのうち、前記特徴ベクトル信号
の特徴値に対して最良の一致を示すプロトタイプ値を有
するプロトタイプによって表わされているクラスの識別
子を用いて該特徴ベクトル信号を符号化する、符号化手
段と、を備えたことを特徴とする音声符号化装置。 - 【請求項13】 前記複数のクラスのうちの各クラス
を、前記複数のプロトタイプのうちの複数のプロトタイ
プによって表わすようにしてあり、各クラスを表わして
いるそれら複数のプロトタイプの夫々のプロトタイプ値
は、それらプロトタイプ値の全体を前記特徴ベクトル信
号の特徴値と比較対照して考察することによって、前記
複数のクラスのうちのどのクラスに対して前記特徴ベク
トル信号が最良の一致を示すかを判別することができる
プロトタイプ値にしてあることを特徴とする請求項12
の音声符号化装置。 - 【請求項14】 前記複数のプロトタイプのうちの各プ
ロトタイプのプロトタイプ値を、そのプロトタイプに関
連した1つの集合を成す複数の音響特徴ベクトルの夫々
の、少なくとも平均値と分散値と事前確率値とに基づい
て算出するようにしてあることを特徴とする請求項12
の音声符号化装置。 - 【請求項15】 前記複数のプロトタイプのうちの各プ
ロトタイプのプロトタイプ値を、そのプロトタイプの確
率分布関数上における、前記特徴ベクトル信号の特徴値
の位置に基づいて、算出するようにしてあることを特徴
とする請求項12の音声符号化装置。 - 【請求項16】 複数の学習用クラスを記憶するための
学習用クラス記憶手段と、 学習用発声を計測して、その学習用発声を、各々が特徴
値を有する複数の学習用特徴ベクトルから成る学習用特
徴ベクトル列へと変換する、計測及び変換手段と、 前記学習用特徴ベクトル列のうちの各学習用特徴ベクト
ルを、前記複数の学習用クラスのうちの1つの学習用ク
ラスに関連付けることによって、記憶する前記複数のク
ラスを生成する、関連付け手段と、を更に備えたことを
特徴とする請求項12の音声符号化装置。 - 【請求項17】 連続した複数回の所定周期に亙って発
声を計測し、その発声からその発声に対応した連続した
複数の特徴ベクトル集合を抽出する、計測及び抽出手段
であって、前記連続した複数の特徴ベクトル集合におけ
る各特徴ベクトルは、次元数と、少なくとも1つの特徴
値とを有する特徴ベクトルである、前記計測及び抽出手
段と、 前記連続した複数の特徴ベクトル集合の中の各特徴ベク
トル集合に含まれている複数の特徴ベクトルを互いに併
合することによって複数の合併特徴ベクトルを形成す
る、特徴ベクトル併合手段であって、前記複数の合併特
徴ベクトルの夫々の次元数は、その合併特徴ベクトルに
対応した併合された元の特徴ベクトルの次元数の総和に
等しく、それら複数の合併特徴ベクトルは、記憶してあ
る前記複数の学習用クラスどうしの間の区別を行なうの
に、より適したものである、前記特徴ベクトル併合手段
と、 前記複数の合併特徴ベクトルに対して空間的な方向転換
処理を施すことによって、それら複数の合併特徴ベクト
ルの次元数を減少させ、それによって、それら合併特徴
ベクトルの操作を容易化する、方向転換処理手段と、を
更に備えたことを特徴とする請求項16の音声符号化装
置。 - 【請求項18】 前記複数の学習用クラスは、その各々
の学習用クラスを複数の学習用サブクラスに区分してあ
り、更に、 前記複数の学習用サブクラスを、対応した平均値と分散
値と事前確率値とを有する複数の学習用分布関数のうち
の夫々の学習用分布関数として設定する、学習用サブク
ラス設定手段と、 各々が1つの学習用プロトタイプを表わすようにした複
数の前記学習用分布関数を記憶するための、学習用分布
関数記憶手段と、を備えたことを特徴とする請求項17
の音声符号化装置。 - 【請求項19】 記憶してある前記複数のクラスは、そ
の各々のクラスが少なくとも1つの下位構成要素を有し
ており、 前記関連付け手段は、前記連続特徴ベクトル列を前記少
なくとも1つの下位構成要素に関連付けることによっ
て、記憶しておく複数の構成要素クラスを生成するよう
にした手段である、ことを特徴とする請求項18の音声
符号化装置。 - 【請求項20】 前記設定手段は、更に、前記複数の構
成要素クラスを、対応した平均値と分散値と事前確率値
とを各々が有する複数の分布関数のうちの夫々の分布関
数として設定する手段であり、更に、 前記複数の構成要素クラスを表わしている前記複数の分
布関数を記憶するための分布関数記憶手段であって、そ
れら複数の構成要素クラスのそれら複数の分布関数の各
々が1つのプロトタイプを表わすようにした前記分布関
数記憶手段を備えたことを特徴とする請求項19の音声
符号化装置。 - 【請求項21】 前記符号化手段が、符号化を施した特
徴ベクトル信号に対応したラベルを出力する量子化手段
を備えていることを特徴とする請求項12の音声符号化
装置。 - 【請求項22】 前記対応関係確立手段が、 複数の音声特徴ベクトルをグループ分けして、各々が夫
々に平均値と分散値と事前確率値とを有する所定数の複
数のプロトタイプに分ける、音声特徴ベクトルグループ
分け手段と、 前記所定数の複数のプロトタイプのうちの各プロトタイ
プを、少なくとも2つのサブ・プロトタイプに区分し、
それによって、前記特徴ベクトル信号をその他の特徴ベ
クトル信号からより良好に区別できるようにする、プロ
トタイプ区分手段と、を備えていることを特徴とする請
求項12の音声符号化装置。 - 【請求項23】 音声符号化方法において、 (a) 記憶手段の中に複数のクラスを記憶するクラス記憶
ステップであって、記憶するそれら複数のクラスは、そ
の各クラスが識別子を有すると共に、その各クラスが複
数のプロトタイプのうちの少なくとも2つのプロトタイ
プによって表わされるようにしてあり、前記複数のプロ
トタイプは、その各々が少なくとも1つのプロトタイプ
値を有している、前記クラス記憶ステップと、 (b) 少なくとも1つの特徴値を有する特徴ベクトル信号
を発声の中から抽出する、特徴ベクトル信号抽出ステッ
プと、 (c) 前記複数のプロトタイプのうちから、前記特徴ベク
トル信号の特徴値に対して最良の一致を示すプロトタイ
プ値を有する少なくとも1つのプロトタイプを選択する
ことによって、前記特徴ベクトル信号と前記複数のクラ
スのうちの少なくとも1つのクラスとの間に対応関係を
確立する、対応関係確立ステップと、 (d) 選択した前記少なくとも1つのプロトタイプによっ
て表わされているクラスの識別子を用いて前記特徴ベク
トル信号を符号化する、符号化ステップと、を含んでい
ることを特徴とする音声符号化方法。 - 【請求項24】 前記クラス記憶ステップに先立って実
行するステップとして、 複数の学習用クラスから成るインベントリを確立する、
インベントリ確立ステップと、 連続した学習用テキスト列から複数の学習用特徴ベクト
ルを抽出する、学習用特徴ベクトル抽出ステップと、 前記複数の学習用特徴ベクトルの各々を、前記複数の学
習用クラスのうちの1つの学習用クラスに関連付ける、
関連付けステップと、を更に含んでいることを特徴とす
る請求項23の方法。 - 【請求項25】 連続した複数回の所定周期に亙って発
声を計測し、その発声から、その発声に対応した連続し
た複数の特徴ベクトル集合を抽出する、計測及び抽出ス
テップであって、前記連続した複数の特徴ベクトル集合
における各特徴ベクトルは、少なくとも1つの特徴値に
相当する次元数を有する特徴ベクトルである、前記計測
及び抽出ステップと、 前記連続した複数の特徴ベクトル集合の中の各特徴ベク
トル集合に含まれている複数の特徴ベクトルを互いに併
合することによって複数の合併特徴ベクトルを形成す
る、特徴ベクトル併合ステップであって、前記複数の合
併特徴ベクトルの夫々の次元数は、その合併特徴ベクト
ルに対応する併合された元の特徴ベクトルの次元数の総
和に等しく、それら複数の合併特徴ベクトルは、記憶し
てある前記複数の学習用クラスどうしの間の区別を行な
うのに、より適したものである、前記特徴ベクトル併合
ステップと、 前記複数の合併特徴ベクトルに対して空間的な方向転換
処理を施すことによって、それら複数の合併特徴ベクト
ルの次元数を減少させ、それによって、それら合併特徴
ベクトルの操作を容易化する、方向転換処理ステップ
と、を更に含んでいることを特徴とする請求項24の方
法。 - 【請求項26】 1つのクラスを適切に表わすために必
要な複数のプロトタイプを確立するプロトタイプ確立ス
テップを含んでおり、更に、前記複数の学習用クラスの
各々に関して実行するステップとして、 複数の学習用プロトタイプを選択する学習用プロトタイ
プ選択ステップと、 前記複数の学習用プロトタイプのうちの各学習用プロト
タイプに近接して位置している複数の特徴ベクトルの夫
々の値の平均値を求める処理を、それら複数の特徴ベク
トルの間の平均距離が実質的に不変になるまで続けるこ
とによって、夫々の新たな学習用プロトタイプを算出す
る、新学習用プロトタイプ算出ステップと、 互いに最も近接している2つの新学習用プロトタイプ
を、それら2つの新学習用プロトタイプの夫々の値の平
均値をその値として持つ更なる新たな1つの学習用プロ
トタイプで置換する置換処理を連続して行ない、且つ、
置換されて残った更なる新たな学習用プロトタイプの個
数が所定個数となるまでその置換処理を続ける、学習用
プロトタイプ置換ステップと、を更に含んでいることを
特徴とする請求項25の方法。 - 【請求項27】 前記所定個数の更なる新たな学習用プ
ロトタイプに対する分布解析を利用して、それら更なる
新たな学習用プロトタイプに対応した、その各々が評価
推定値である平均値と分散値と事前確率値とを有する複
数の新学習用プロトタイプから成る学習用プロトタイプ
集合を算出するステップと、 前記複数の新学習用プロトタイプの各々を、その新学習
用プロトタイプに対応した複数の補助的学習用プロトタ
イプに区分するステップと、を更に含んでいることを特
徴とする請求項26の方法。 - 【請求項28】 前記対応関係確立ステップが、1つの
クラスを適切に表わすために必要な複数のプロトタイプ
を確立するプロトタイプ確立ステップを含んでおり、且
つ、前記方法が、前記複数のクラスの各々に関して実行
するステップとして、 複数のプロトタイプを選択するプロトタイプ選択ステッ
プと、 前記複数のプロトタイプのうちの各プロトタイプに近接
して位置している複数の特徴ベクトルの夫々の値の平均
値を求める処理を、それら複数の特徴ベクトルの間の平
均距離が実質的に不変になるまで続けることによって、
夫々の新たなプロトタイプを算出する、新プロトタイプ
算出ステップと、 互いに最も近接している2つの新プロトタイプを、それ
ら2つの新プロトタイプの夫々の値の平均値をその値と
して持つ更なる新たな1つのプロトタイプで置換する置
換処理を連続して行ない、且つ、置換されて残った更な
る新たなプロトタイプの個数が所定個数となるまでこの
置換処理を続ける、プロトタイプ置換ステップと、を更
に含んでいることを特徴とする請求項23の方法。 - 【請求項29】 前記所定個数の更なる新たなプロトタ
イプに対する分布解析を利用して、それら更なる新たな
プロトタイプに対応したプロトタイプ集合であって各々
が評価推定値である平均値と分散値と事前確率値とを有
する複数のプロトタイプから成るプロトタイプ集合を、
算出するステップと、 前記評価推定値である平均値と分散値と事前確率値とを
有する前記複数のプロトタイプの各々を、複数の補助的
プロトタイプに区分し、それによって、それら複数のプ
ロトタイプより多くの個数の、前記特徴ベクトル信号と
比較対照するためのプロトタイプを生成するステップ
と、を更に含んでいることを特徴とする請求項28の方
法。 - 【請求項30】 前記関連付けステップが、ヴィタビ・
アラインメント法を用いるステップを含んでいることを
特徴とする請求項24の方法。 - 【請求項31】 前記少なくとも1つのプロトタイプの
プロトタイプ値を、そのプロトタイプに関連した1つの
集合を成す複数の音響特徴ベクトルの夫々の平均値と分
散値と事前確率値とに基づいて算出することを特徴とす
る請求項23の方法。 - 【請求項32】 前記少なくとも1つのプロトタイプの
プロトタイプ値を、そのプロトタイプの確率分布関数上
における、前記特徴ベクトル信号の特徴値の位置に基づ
いて、算出することを特徴とする請求項23の方法。 - 【請求項33】 音声符号化方法において、 (a) 複数のクラスを表わす複数のプロトタイプ・ベクト
ルを記憶手段の中に記憶する、プロトタイプ・ベクトル
記憶ステップであって、前記複数のクラスは、その各ク
ラスが識別子を有すると共に、その各クラスが前記複数
のプロトタイプ・ベクトルのうちの少なくとも1つのプ
ロトタイプ・ベクトルによって表わされるようにしてあ
り、前記複数のプロトタイプ・ベクトルは、その各々が
少なくとも1つのプロトタイプ値を有しているようにす
る、前記プロトタイプ・ベクトル記憶ステップと、 (b) 特徴値を有する特徴ベクトル信号を発声の中から抽
出する、特徴ベクトル信号抽出ステップと、 (c) 前記特徴ベクトル信号の特徴値を、前記複数のプロ
トタイプ・ベクトルの夫々のプロトタイプ値と比較対照
することによって、該特徴ベクトル信号と少なくとも1
つのクラスとの間に対応関係を確立する、対応関係確立
ステップと、 (d) 前記複数のプロトタイプ・ベクトルのうち、前記特
徴ベクトル信号の特徴値に対して最良の一致を示すプロ
トタイプ値を有するプロトタイプ・ベクトルによって表
わされているクラスの識別子を用いて、該特徴ベクトル
信号を符号化する、符号化ステップと、を含んでいるこ
とを特徴とする音声符号化方法。 - 【請求項34】 前記複数のクラスのうちの各クラス
を、前記複数のプロトタイプ・ベクトルのうちの複数の
プロトタイプ・ベクトルによって表わすようにしてあ
り、 更に前記方法が、各クラスを表わしているそれら複数の
プロトタイプ・ベクトルの夫々のプロトタイプ値に対す
る考察を、それらプロトタイプ値の全体を前記特徴ベク
トル信号の特徴値と比較対照することによって行ない、
それによって、前記特徴ベクトル信号が、前記複数のク
ラスのうちのどのクラスに対して最良の一致を示すかを
判別するステップを含んでいることを特徴とする請求項
33の方法。 - 【請求項35】 前記プロトタイプ・ベクトル記憶ステ
ップに先立って実行するステップとして、 複数の学習用クラスから成るインベントリを確立する、
インベントリ確立ステップと、 連続した学習用テキスト列から複数の学習用特徴ベクト
ルを抽出する、学習用特徴ベクトル抽出ステップと、 前記複数の学習用特徴ベクトルの各々を、前記複数の学
習用クラスのうちの1つの学習用クラスに関連付ける、
関連付けステップと、を更に含んでいることを特徴とす
る請求項33の方法。 - 【請求項36】 連続した複数回の所定周期に亙って発
声を計測し、その発声からその発声に対応した連続した
複数の特徴ベクトル集合を抽出する、計測及び抽出ステ
ップであって、前記連続した複数の特徴ベクトル集合に
おける各特徴ベクトルは、少なくとも1つの特徴値に相
当する次元数を有する特徴ベクトルである、前記計測及
び抽出ステップと、 前記連続した複数の特徴ベクトル集合のうちの各特徴ベ
クトル集合の中の複数の特徴ベクトルを互いに併合する
ことによって複数の合併特徴ベクトルを形成する、特徴
ベクトル併合ステップであって、前記複数の合併特徴ベ
クトルの夫々の次元数は、その合併特徴ベクトルに対応
した併合された元の特徴ベクトルの次元数の総和に等し
い次元数であり、それら複数の合併特徴ベクトルは、記
憶してある前記複数の学習用クラスどうしの間の区別を
行なうのに、より適したものである、前記特徴ベクトル
併合ステップと、 前記複数の合併特徴ベクトルに対して空間的な方向転換
処理を施すことによって、それら複数の合併特徴ベクト
ルの次元数を減少させ、それによって、それら合併特徴
ベクトルの操作を容易化する、方向転換処理ステップ
と、を更に含んでいることを特徴とする請求項35の方
法。 - 【請求項37】 1つのクラスを適切に表わすために必
要な複数のプロトタイプ・ベクトルを確立するプロトタ
イプ・ベクトル確立ステップを含んでおり、更に、前記
複数の学習用クラスの各々に関して実行するステップと
して、 複数の学習用プロトタイプ・ベクトルを選択する学習用
プロトタイプ・ベクトル選択ステップと、 前記複数の学習用プロトタイプ・ベクトルのうちの各学
習用プロトタイプ・ベクトルに近接して位置している複
数の特徴ベクトルの夫々の値の平均値を求める処理を、
それら複数の特徴ベクトルの間の平均距離が実質的に不
変になるまで続けることによって、夫々の新たな学習用
プロトタイプ・ベクトルを算出する、新学習用プロトタ
イプ・ベクトル算出ステップと、 互いに最も近接している2つの新学習用プロトタイプ・
ベクトルを、それら2つの新学習用プロトタイプ・ベク
トルの夫々の値の平均値をその値として持つ更なる新た
な1つの学習用プロトタイプ・ベクトルで置換する置換
処理を連続して行ない、且つ、置換されて残った更なる
新たな学習用プロトタイプ・ベクトルの個数が所定個数
となるまでその置換処理を続ける、学習用プロトタイプ
・ベクトル置換ステップと、を更に含んでいることを特
徴とする請求項36の方法。 - 【請求項38】 前記所定個数の更なる新たな学習用プ
ロトタイプ・ベクトルに対する分布解析を利用して、そ
れら更なる新たな学習用プロトタイプ・ベクトルに対応
した、その各々が評価推定値である平均値と分散値と事
前確率値とを有する複数の新学習用プロトタイプ・ベク
トルから成る学習用プロトタイプ・ベクトル集合を算出
するステップと、 前記複数の新学習用プロトタイプ・ベクトルの各々を、
その新学習用プロトタイプ・ベクトルに対応した複数の
補助的学習用プロトタイプ・ベクトルに区分するステッ
プと、を更に含んでいることを特徴とする請求項37の
方法。 - 【請求項39】 前記対応関係確立ステップが、1つの
クラスを適切に表わすために必要な複数のプロトタイプ
・ベクトルを確立するプロトタイプ・ベクトル確立ステ
ップを含んでおり、且つ、前記方法が、前記複数のクラ
スの各々に関して実行するステップとして、 複数のプロトタイプ・ベクトルを選択する、プロトタイ
プ・ベクトル選択ステップと、 前記複数のプロトタイプ・ベクトルのうちの各プロトタ
イプ・ベクトルに近接して位置している複数の特徴ベク
トルの夫々の値の平均値を求める処理を、それら複数の
特徴ベクトルの間の平均距離が実質的に不変になるまで
続けることによって、夫々の新たなプロトタイプ・ベク
トルを算出する、新プロトタイプ・ベクトル算出ステッ
プと、 互いに最も近接している2つの新プロトタイプ・ベクト
ルを、それら2つの新プロトタイプ・ベクトルの夫々の
値の平均値をその値として持つ更なる新たな1つのプロ
トタイプ・ベクトルで置換する置換処理を連続して行な
い、且つ、置換されて残った更なる新たなプロトタイプ
・ベクトルの個数が所定個数となるまでこの置換処理を
続ける、プロトタイプ・ベクトル置換ステップと、を更
に含んでいることを特徴とする請求項33の方法。 - 【請求項40】 前記所定個数の更なる新たなプロトタ
イプ・ベクトルに対する分布解析を利用して、それら更
なる新たなプロトタイプ・ベクトルに対応したプロトタ
イプ・ベクトル集合であって、その各々が評価推定値で
ある平均値と分散値と事前確率値とを有する複数のプロ
トタイプ・ベクトルから成るプロトタイプ・ベクトル集
合を、算出するステップと、 前記評価推定値である平均値と分散値と事前確率値とを
有する前記複数のプロトタイプ・ベクトルの各々を、複
数の補助的プロトタイプ・ベクトルに区分し、それによ
って、それら複数のプロトタイプ・ベクトルより多くの
個数の、前記特徴ベクトル信号と比較対照するためのプ
ロトタイプ・ベクトルを生成するステップと、を更に含
んでいることを特徴とする請求項39の方法。 - 【請求項41】 前記関連付けステップが、ヴィタビ・
アラインメント法を用いるステップを含んでいることを
特徴とする請求項33の方法。 - 【請求項42】 前記少なくとも1つのプロトタイプ・
ベクトルのプロトタイプ値を、そのプロトタイプ・ベク
トルに関連した1つの集合を成す複数の音響特徴ベクト
ルの夫々の平均値と分散値と事前確率値とに基づいて算
出することを特徴とする請求項33の方法。 - 【請求項43】 前記少なくとも1つのプロトタイプ・
ベクトルのプロトタイプ値を、そのプロトタイプ・ベク
トルの確率分布関数上における、前記特徴ベクトル信号
の特徴値の位置に基づいて、算出することを特徴とする
請求項33の方法。 - 【請求項44】 音声符号化装置において、 2つ以上のプロトタイプ・ベクトル信号を記憶する、プ
ロトタイプ・ベクトル信号記憶手段であって、それらプ
ロトタイプ・ベクトル信号の各々は、識別子と少なくと
も2つの小区画とを有するプロトタイプ・ベクトルを表
わしており、それら小区画の各々は、少なくとも1つの
小区画値を有するものである、前記プロトタイプ・ベク
トル信号記憶手段と、 所定期間中に発声の少なくとも1つの特徴部の特徴値を
計測し、その発声のその少なくとも1つの特徴部のその
計測した特徴値を表わす特徴ベクトル信号を発生する、
特徴値計測及び特徴ベクトル信号発生手段と、 前記小区画の各々の小区画一致度点数値を算出するため
の小区画一致度点数値算出手段であって、前記小区画一
致度点数値の各々は、その小区画一致度点数値に関連し
た小区画の小区画値と前記特徴ベクトル信号の前記特徴
値との間の一致度の値を表わすものである、前記小区画
一致度点数値算出手段と、 前記プロトタイプ・ベクトルの各々のプロトタイプ一致
度点数値を算出するためのプロトタイプ一致度点数値算
出手段であって、前記プロトタイプ一致度点数値の各々
は、そのプロトタイプ一致度点数値に関連したプロトタ
イプ・ベクトルの中の全ての小区画の小区画一致度点数
値の関数を表わすものである、前記プロトタイプ一致度
点数値算出手段と、 最良のプロトタイプ一致度点数値を有するプロトタイプ
・ベクトル信号の識別子を用いて前記特徴ベクトル信号
を符号化する、符号化手段と、を備えたことを特徴とす
る音声符号化装置。 - 【請求項45】 前記小区画一致度点数値の各々は、前
記特徴ベクトル信号の前記特徴値の発生確率と、その小
区画一致度点数値に関連した小区画の小区画値の発生確
率との、結合確率の値に比例した値であり、 前記プロトタイプ一致度点数値は、そのプロトタイプ一
致度点数値に関連したプロトタイプ・ベクトルの中の全
ての小区画の小区画一致度点数値の総和を表わしている
値である、ことを特徴とする請求項44の装置。 - 【請求項46】 プロトタイプ・ベクトル信号を発生す
る、プロトタイプ・ベクトル信号発生手段を更に備えて
おり、該プロトタイプ・ベクトル信号発生手段は、 連続する複数の第1期間の各期間中に学習用発声の少な
くとも1つの特徴部の特徴値を計測し、連続する複数の
学習用特徴ベクトル信号から成る学習用特徴ベクトル信
号列を発生する、学習用特徴ベクトル信号列発生手段で
あって、それら複数の学習用特徴ベクトル信号の各々は
前記第1期間に対応しており、それら複数の学習用特徴
ベクトル信号の各々は対応している第1期間を包含して
いる第2期間の期間中は前記学習用発声の少なくとも1
つの特徴部の特徴値を表わしており、前記第2期間の各
々は対応している第1期間と等しいか或いはそれ以上の
長さを有するようにしてある、前記学習用特徴ベクトル
信号列発生手段と、 前記学習用発声に対応した複数の基本要素モデルから成
る基本要素モデル・ネットワークを提供する、基本要素
モデル・ネットワーク提供手段と、 前記学習用特徴ベクトル信号列の中の複数の学習用特徴
ベクトル信号を、前記学習用発声に対応した前記基本要
素モデル・ネットワークの中の複数の基本要素モデルに
関連付けることによって、前記学習用特徴ベクトル信号
列の中の各々の学習用特徴ベクトル信号が、前記学習用
発声に対応した前記基本要素モデル・ネットワークの中
の基本要素モデルの1つずつに対応するようにする、関
連付け手段と、 前記学習用発声に対応した前記基本要素モデル・ネット
ワークの中の最初の基本要素モデルの出現の全てに対応
する、基本集合を構成する全ての学習用特徴ベクトルを
選択する、基本集合用学習用特徴ベクトル選択手段と、 前記基本集合の少なくとも第1及び第2の異なった部分
集合を夫々に構成する複数の学習用特徴ベクトル信号を
選択することによって、第1ラベル集合を構成する複数
の学習用特徴ベクトル信号を決定する、部分集合用学習
用特徴ベクトル選択手段と、 前記基本集合の前記第1部分集合及び第2部分集合の各
々について、その部分集合の複数の学習用特徴ベクトル
信号の特徴値の間の図心を算出する、図心算出手段と、 前記第1ラベル集合を構成している複数の学習用特徴ベ
クトル信号に対応したベクトル信号である第1プロトタ
イプ・ベクトル信号を記憶するための、第1プロトタイ
プ・ベクトル信号記憶手段であって、前記第1プロトタ
イプ・ベクトル信号は、少なくとも第1小区画と第2小
区画とを有する第1プロトタイプ・ベクトルを表わして
おり、それら第1小区画と第2小区画とは各々が少なく
とも1つの小区画値を有しており、前記第1小区画は、
前記基本集合の前記第1部分集合に含まれる複数の学習
用特徴ベクトル信号の特徴値の間の図心の値に等しい小
区画値を有しており、前記第2小区画は、前記基本集合
の前記第2部分集合に含まれる複数の学習用特徴ベクト
ル信号の特徴値の間の図心の値に等しい小区画値を有し
ている、前記第1プロトタイプ・ベクトル信号記憶手段
と、を備えているプロトタイプ・ベクトル信号発生手段
であることを特徴とする請求項45の装置。 - 【請求項47】 前記図心の値は、算術平均値であるこ
とを特徴とする請求項46の装置。 - 【請求項48】 前記基本要素モデル・ネットワーク
は、複数の基本要素モデルから成る基本要素モデル列で
あることを特徴とする請求項47の装置。 - 【請求項49】 前記基本集合を構成している複数の学
習用特徴ベクトル信号は、少なくとも第1、第2、及び
第3の異なった部分集合を構成する、夫々の複数の学習
用特徴ベクトルに区分してあり、 前記図心算出手段は更に、前記基本集合の前記第3部分
集合に含まれる複数の学習用特徴ベクトル信号の特徴値
の間の図心を算出するようにしてあり、 前記装置は更に、第2プロトタイプ・ベクトル信号を記
憶するための、第2プロトタイプ・ベクトル信号記憶手
段を備えており、前記第2プロトタイプ・ベクトル信号
は、前記基本集合の前記第3部分集合に含まれる複数の
学習用特徴ベクトル信号の特徴値の間の図心の値を表わ
す信号である、ことを特徴とする請求項48の装置。 - 【請求項50】 前記基本集合の前記各部分集合の中に
含まれる複数の学習用特徴ベクトル信号の夫々の特徴値
には、特徴値に関する分散値と事前確率値とを含ませて
あり、 前記装置は更に、前記基本集合の前記各部分集合に含ま
れる複数の学習用特徴ベクトル信号の夫々の特徴値の分
散値と事前確率値とを算出する手段を備えており、 前記第1プロトタイプ・ベクトルの前記第1小区画は、
前記基本集合の前記第1部分集合に含まれる複数の学習
用特徴ベクトル信号の夫々の特徴値の分散値と事前確率
値とに等しい更なる小区画値を有しており、 前記第1プロトタイプ・ベクトルの前記第2小区画は、
前記基本集合の前記第2部分集合に含まれる複数の学習
用特徴ベクトル信号の夫々の特徴値の分散値と事前確率
値とに等しい更なる小区画値を有しており、 前記第2プロトタイプ・ベクトル信号は、前記基本集合
の前記第3部分集合に含まれる複数の学習用特徴ベクト
ル信号の夫々の特徴値の分散値と事前確率値とを表わし
ている、ことを特徴とする請求項49の装置。 - 【請求項51】 前記装置は更に、前記第1ラベル集合
が発生していることを条件とした、前記基本集合の前記
各部分集合を成す夫々の複数の学習用特徴ベクトル信号
が発生していることの条件付確率の、確率値を評価推定
する手段を備えており、 前記装置は更に、前記第1ラベル集合を成す複数の学習
用特徴ベクトル信号が発生している確率の、確率値を評
価推定する手段を備えており、 前記第1プロトタイプ・ベクトル信号は更に、前記第1
ラベル集合を成す複数の学習用特徴ベクトル信号が発生
している確率の、評価推定した確率値を表わしており、 前記第1プロトタイプ・ベクトルの前記第1小区画は、
前記第1ラベル集合が発生していることを条件とした、
前記基本集合の前記第1部分集合を成す複数の学習用特
徴ベクトル信号が発生していることの条件付確率の、評
価推定した確率値に等しい更なる小区画値を有してお
り、 前記第1プロトタイプ・ベクトルの前記第2小区画は、
前記第1ラベル集合が発生していることを条件とした、
前記基本集合の前記第2部分集合を成す複数の学習用特
徴ベクトル信号が発生していることの条件付確率の、評
価推定した確率値に等しい更なる小区画値を有してい
る、ことを特徴とする請求項50の装置。 - 【請求項52】 前記第2期間の各々は少なくとも前記
第1期間の2つ分の長さを持ち、 前記特徴ベクトル信号の各々は、異なった2つの時刻に
おける、発声の少なくとも2つの特徴値を含んでいる、
ことを特徴とする請求項51の装置。 - 【請求項53】 前記特徴ベクトル信号の各々は、mを
2またはそれより大きい整数とするとき、m個の特徴部
の特徴値を表わすものであり、前記小区画の各々は、n
をmより小さい整数とするとき、n個の小区画値を有す
るものであり、 前記装置が更に、前記部分集合の前記図心と、前記部分
集合の分散値及び事前確率値とを算出するのに先立っ
て、各々の特徴ベクトル信号のm個の値をn個の値へと
変換する、変換手段を備えている、ことを特徴とする請
求項52の装置。 - 【請求項54】 前記基本要素モデルは基本確率論モデ
ルであり、前記関連付け手段は、前記特徴ベクトル信号
と前記基本確率論モデルとを連携させる手段を備えてい
る、ことを特徴とする請求項53の装置。 - 【請求項55】 音声符号化方法において、 2つ以上のプロトタイプ・ベクトル信号を記憶する、プ
ロトタイプ・ベクトル信号記憶ステップであって、それ
らプロトタイプ・ベクトル信号の各々が、識別子と少な
くとも2つの小区画とを有するプロトタイプ・ベクトル
を表わし、それら小区画の各々が少なくとも1つの小区
画値を有するようにする、前記プロトタイプ・ベクトル
信号記憶ステップと、 所定期間中に発声の少なくとも1つの特徴部の特徴値を
計測し、その発声のその少なくとも1つの特徴部のその
計測した特徴値を表わす特徴ベクトル信号を発生する、
特徴値計測及び特徴ベクトル信号発生ステップと、 前記小区画の各々の小区画一致度点数値を算出する、小
区画一致度点数値算出ステップであって、前記小区画一
致度点数値の各々が、その小区画一致度点数値に関連し
た小区画の小区画値と前記特徴ベクトル信号の前記特徴
値との間の一致度の値を表わすようにする、前記小区画
一致度点数値算出ステップと、 前記プロトタイプ・ベクトルの各々のプロトタイプ一致
度点数値を算出する、プロトタイプ一致度点数値算出ス
テップであって、前記プロトタイプ一致度点数値の各々
が、そのプロトタイプ一致度点数値に関連したプロトタ
イプ・ベクトルの中の全ての小区画の小区画一致度点数
値の関数を表わすようにする、前記プロトタイプ一致度
点数値算出ステップと、 最良のプロトタイプ一致度点数値を有するプロトタイプ
・ベクトル信号の識別子を用いて前記特徴ベクトル信号
を符号化する、符号化ステップと、を含んでいることを
特徴とする音声符号化方法。 - 【請求項56】 前記小区画一致度点数値の各々を、前
記特徴ベクトル信号の前記特徴値の発生確率と、その小
区画一致度点数値に関連した小区画の小区画値の発生確
率との、結合確率の値に比例した値にし、 前記プロトタイプ一致度点数値を、そのプロトタイプ一
致度点数値に関連したプロトタイプ・ベクトルの中の全
ての小区画の小区画一致度点数値の総和を表わしている
値にする、ことを特徴とする請求項55の方法。 - 【請求項57】 プロトタイプ・ベクトル信号を発生す
る、プロトタイプ・ベクトル信号発生方法を更に含んで
おり、該プロトタイプ・ベクトル信号発生方法は、 連続する複数の第1期間の各期間中に学習用発声の少な
くとも1つの特徴部の特徴値を計測して、連続する複数
の学習用特徴ベクトル信号から成る学習用特徴ベクトル
信号列を発生する、学習用特徴ベクトル信号列発生ステ
ップであって、それら複数の学習用特徴ベクトル信号の
各々が前記第1期間に対応し、それら複数の学習用特徴
ベクトル信号の各々が、それに対応している第1期間を
包含している第2期間の期間中は前記学習用発声の少な
くとも1つの特徴部の特徴値を表わしており、前記第2
期間の各々が、それに対応している第1期間と等しいか
或いはそれ以上の長さを有するようにする、前記学習用
特徴ベクトル信号列発生ステップと、 前記学習用発声に対応した複数の基本要素モデルから成
る基本要素モデル・ネットワークを提供する、基本要素
モデル・ネットワーク提供ステップと、 前記学習用特徴ベクトル信号列の中の複数の学習用特徴
ベクトル信号を、前記学習用発声に対応した前記基本要
素モデル・ネットワークの中の複数の基本要素モデルに
関連付けることによって、前記学習用特徴ベクトル信号
列の中の各々の学習用特徴ベクトル信号が、前記学習用
発声に対応した前記基本要素モデル・ネットワークの中
の基本要素モデルの1つずつに対応するようにする、関
連付けステップと、 前記学習用発声に対応した前記基本要素モデル・ネット
ワークの中の最初の基本要素モデルの出現の全てに対応
する、基本集合を構成する全ての学習用特徴ベクトルを
選択する、基本集合用学習用特徴ベクトル選択ステップ
と、 前記基本集合の少なくとも第1及び第2の異なった部分
集合を夫々に構成する複数の学習用特徴ベクトル信号を
選択することによって、第1ラベル集合を構成する複数
の学習用特徴ベクトル信号を決定する、部分集合用学習
用特徴ベクトル選択ステップと、 前記基本集合の前記第1部分集合及び第2部分集合の各
々について、その部分集合の複数の学習用特徴ベクトル
信号の特徴値の間の図心を算出する、図心算出ステップ
と、 前記第1ラベル集合を構成している複数の学習用特徴ベ
クトル信号に対応したベクトル信号である第1プロトタ
イプ・ベクトル信号を記憶する、第1プロトタイプ・ベ
クトル信号記憶ステップであって、前記第1プロトタイ
プ・ベクトル信号が、少なくとも第1小区画と第2小区
画とを有する第1プロトタイプ・ベクトルを表わし、そ
れら第1小区画及び第2小区画の各々が、少なくとも1
つの小区画値を有し、前記第1小区画が、前記基本集合
の前記第1部分集合に含まれる複数の学習用特徴ベクト
ル信号の特徴値の間の図心の値に等しい小区画値を有
し、前記第2小区画が、前記基本集合の前記第2部分集
合に含まれる複数の学習用特徴ベクトル信号の特徴値の
間の図心の値に等しい小区画値を有するようにする、前
記第1プロトタイプ・ベクトル信号記憶ステップと、を
含んでいるプロトタイプ・ベクトル信号発生方法である
ことを特徴とする請求項56の方法。 - 【請求項58】 前記図心の値は、算術平均値であるこ
とを特徴とする請求項57の方法。 - 【請求項59】 前記基本要素モデル・ネットワーク
は、複数の基本要素モデルから成る基本要素モデル列で
あることを特徴とする請求項58の方法。 - 【請求項60】 前記基本集合を構成している複数の学
習用特徴ベクトル信号を、少なくとも第1、第2、及び
第3の異なった部分集合を構成する、夫々の複数の学習
用特徴ベクトルに区分し、 前記図心算出ステップでは更に、前記基本集合の前記第
3部分集合に含まれる複数の学習用特徴ベクトル信号の
特徴値の間の図心を算出するようにし、 前記方法は更に、第2プロトタイプ・ベクトル信号を記
憶する、第2プロトタイプ・ベクトル信号記憶ステップ
を含んでおり、前記第2プロトタイプ・ベクトル信号
は、前記基本集合の前記第3部分集合に含まれる複数の
学習用特徴ベクトル信号の特徴値の間の図心の値を表わ
す信号である、ことを特徴とする請求項59の方法。 - 【請求項61】 前記基本集合の前記各部分集合に含ま
れる複数の学習用特徴ベクトル信号の夫々の特徴値に
は、特徴値に関する分散値と事前確率値とを含ませてあ
り、 前記方法は更に、前記基本集合の前記各部分集合に含ま
れる複数の学習用特徴ベクトル信号の夫々の特徴値の分
散値と事前確率値とを算出するステップを含んでおり、 前記第1プロトタイプ・ベクトル信号は、前記基本集合
の前記第1部分集合並びに前記第2部分集合に含まれる
複数の学習用特徴ベクトル信号の夫々の特徴値の分散値
と事前確率値とを表わしており、 前記第2プロトタイプ・ベクトル信号は、前記基本集合
の前記第3部分集合に含まれる複数の学習用特徴ベクト
ル信号の夫々の特徴値の分散値と事前確率値とを表わし
ている、ことを特徴とする請求項60の方法。 - 【請求項62】 前記方法は更に、前記第1ラベル集合
が発生していることを条件とした、前記基本集合の前記
各部分集合を成す夫々の複数の学習用特徴ベクトル信号
が発生していることの条件付確率の、確率値を評価推定
するステップを含んでおり、 前記方法は更に、前記第1ラベル集合を成す複数の学習
用特徴ベクトル信号が発生している確率の、確率値を評
価推定するステップを含んでおり、 前記第1プロトタイプ・ベクトル信号が更に、前記第1
ラベル集合を成す複数の学習用特徴ベクトル信号が発生
している確率の、評価推定した確率値を表わすように
し、 前記第1プロトタイプ・ベクトルの前記第1小区画に、
前記第1ラベル集合が発生していることを条件とした、
前記基本集合の前記第1部分集合を成す複数の学習用特
徴ベクトル信号が発生していることの条件付確率の、評
価推定した確率値に等しい更なる小区画値を持たせ、 前記第1プロトタイプ・ベクトルの前記第2小区画に、
前記第1ラベル集合が発生していることを条件とした、
前記基本集合の前記第2部分集合を成す複数の学習用特
徴ベクトル信号が発生していることの条件付確率の、評
価推定した確率値に等しい更なる小区画値を持たせる、
ことを特徴とする請求項61の方法。 - 【請求項63】 前記第2期間の各々には、少なくとも
前記第1期間の2つ分の長さを持たせ、 前記特徴ベクトル信号の各々には、異なった2つの時刻
における、発声の少なくとも2つの特徴値を含ませるよ
うにする、ことを特徴とする請求項62の方法。 - 【請求項64】 前記特徴ベクトル信号の各々が、mを
2またはそれより大きい整数とするとき、m個の特徴部
の特徴値を表わすようにし、 前記小区画の各々が、nをmより小さい整数とすると
き、n個の小区画値を有するようにし、 前記方法が更に、前記部分集合の前記図心と、前記部分
集合の分散値及び事前確率値とを算出するのに先立っ
て、各々の特徴ベクトル信号のm個の値をn個の値へと
変換する、変換ステップを含んでいる、ことを特徴とす
る請求項63の方法。 - 【請求項65】 前記基本要素モデルは基本確率論モデ
ルであり、 前記関連付けステップは、前記特徴ベクトル信号と前記
基本確率論モデルとを連携させるステップを含んでい
る、ことを特徴とする請求項64の方法。 - 【請求項66】 音声符号化方法を実行させるべくマシ
ンを設定するための製品において、前記音声符号化方法
が、 2つ以上のプロトタイプ・ベクトル信号を記憶する、プ
ロトタイプ・ベクトル信号記憶ステップであって、それ
らプロトタイプ・ベクトル信号の各々が、識別子と少な
くとも2つの小区画とを有するプロトタイプ・ベクトル
を表わし、それら小区画の各々が少なくとも1つの小区
画値を有するようにする、前記プロトタイプ・ベクトル
信号記憶ステップと、 所定期間中に発声の少なくとも1つの特徴部の特徴値を
計測し、その発声のその少なくとも1つの特徴部のその
計測した特徴値を表わす特徴ベクトル信号を発生する、
特徴値計測及び特徴ベクトル信号発生ステップと、 前記小区画の各々の小区画一致度点数値を算出する、小
区画一致度点数値算出ステップであって、前記小区画一
致度点数値の各々が、その小区画一致度点数値に関連し
た小区画の小区画値と前記特徴ベクトル信号の前記特徴
値との間の一致度の値を表わすようにする、前記小区画
一致度点数値算出ステップと、 前記プロトタイプ・ベクトルの各々のプロトタイプ一致
度点数値を算出する、プロトタイプ一致度点数値算出ス
テップであって、前記プロトタイプ一致度点数値の各々
が、そのプロトタイプ一致度点数値に関連したプロトタ
イプ・ベクトルの中の全ての小区画の小区画一致度点数
値の関数を表わすようにする、前記プロトタイプ一致度
点数値算出ステップと、 最良のプロトタイプ一致度点数値を有するプロトタイプ
・ベクトル信号の識別子を用いて前記特徴ベクトル信号
を符号化する、符号化ステップと、を含んでいる方法で
あることを特徴とする製品。 - 【請求項67】 前記小区画一致度点数値の各々を、前
記特徴ベクトル信号の前記特徴値の発生確率と、その小
区画一致度点数値に関連した小区画の小区画値の発生確
率との、結合確率の値に比例した値にし、 前記プロトタイプ一致度点数値を、そのプロトタイプ一
致度点数値に関連したプロトタイプ・ベクトルの中の全
ての小区画の小区画一致度点数値の総和を表わしている
値にする、ことを特徴とする請求項66の製品。 - 【請求項68】 プロトタイプ・ベクトル信号を発生す
る、プロトタイプ・ベクトル信号発生方法を更に含んで
おり、該プロトタイプ・ベクトル信号発生方法は、 連続する複数の第1期間の各期間中に学習用発声の少な
くとも1つの特徴部の特徴値を計測して、連続する複数
の学習用特徴ベクトル信号から成る学習用特徴ベクトル
信号列を発生する、学習用特徴ベクトル信号列発生ステ
ップであって、それら複数の学習用特徴ベクトル信号の
各々が前記第1期間に対応し、それら複数の学習用特徴
ベクトル信号の各々が、それに対応している第1期間を
包含している第2期間の期間中は前記学習用発声の少な
くとも1つの特徴部の特徴値を表わしており、前記第2
期間の各々が、それに対応している第1期間と等しいか
或いはそれ以上の長さを有するようにする、前記学習用
特徴ベクトル信号列発生ステップと、 前記学習用発声に対応した複数の基本要素モデルから成
る基本要素モデル・ネットワークを提供する、基本要素
モデル・ネットワーク提供ステップと、 前記学習用特徴ベクトル信号列の中の複数の学習用特徴
ベクトル信号を、前記学習用発声に対応した前記基本要
素モデル・ネットワークの中の複数の基本要素モデルに
関連付けることによって、前記学習用特徴ベクトル信号
列の中の各々の学習用特徴ベクトル信号が、前記学習用
発声に対応した前記基本要素モデル・ネットワークの中
の基本要素モデルの1つずつに対応するようにする、関
連付けステップと、 前記学習用発声に対応した前記基本要素モデル・ネット
ワークの中の最初の基本要素モデルの出現の全てに対応
する、基本集合を構成する全ての学習用特徴ベクトルを
選択する、基本集合用学習用特徴ベクトル選択ステップ
と、 前記基本集合の少なくとも第1及び第2の異なった部分
集合を夫々に構成する複数の学習用特徴ベクトル信号を
選択することによって、第1ラベル集合を構成する複数
の学習用特徴ベクトル信号を決定する、部分集合用学習
用特徴ベクトル選択ステップと、 前記基本集合の前記第1部分集合及び第2部分集合の各
々について、その部分集合の複数の学習用特徴ベクトル
信号の特徴値の間の図心を算出する、図心算出ステップ
と、 前記第1ラベル集合を構成している複数の学習用特徴ベ
クトル信号に対応したベクトル信号である第1プロトタ
イプ・ベクトル信号を記憶する、第1プロトタイプ・ベ
クトル信号記憶ステップであって、前記第1プロトタイ
プ・ベクトル信号が、少なくとも第1小区画と第2小区
画とを有する第1プロトタイプ・ベクトルを表わし、そ
れら第1小区画及び第2小区画の各々が、少なくとも1
つの小区画値を有し、前記第1小区画が、前記基本集合
の前記第1部分集合に含まれる複数の学習用特徴ベクト
ル信号の特徴値の間の図心の値に等しい小区画値を有
し、前記第2小区画が、前記基本集合の前記第2部分集
合に含まれる複数の学習用特徴ベクトル信号の特徴値の
間の図心の値に等しい小区画値を有するようにする、前
記第1プロトタイプ・ベクトル信号記憶ステップと、を
含んでいるプロトタイプ・ベクトル信号発生方法である
ことを特徴とする請求項67の製品。 - 【請求項69】 前記図心の値は、算術平均値であるこ
とを特徴とする請求項68の製品。 - 【請求項70】 前記基本要素モデル・ネットワーク
は、複数の基本要素モデルから成る基本要素モデル列で
あることを特徴とする請求項69の製品。 - 【請求項71】 前記基本集合を構成している複数の学
習用特徴ベクトル信号を、少なくとも第1、第2、及び
第3の異なった部分集合を構成する、夫々の複数の学習
用特徴ベクトルに区分し、 前記図心算出ステップでは更に、前記基本集合の前記第
3部分集合に含まれる複数の学習用特徴ベクトル信号の
特徴値の間の図心を算出するようにし、 前記方法は更に、第2プロトタイプ・ベクトル信号を記
憶する、第2プロトタイプ・ベクトル信号記憶ステップ
を含んでおり、前記第2プロトタイプ・ベクトル信号
は、前記基本集合の前記第3部分集合に含まれる複数の
学習用特徴ベクトル信号の特徴値の間の図心の値を表わ
す信号である、ことを特徴とする請求項70の製品。 - 【請求項72】 前記基本集合の前記各部分集合に含ま
れる複数の学習用特徴ベクトル信号の夫々の特徴値に
は、特徴値に関する分散値と事前確率値とを含ませてあ
り、 前記方法は更に、前記基本集合の前記各部分集合に含ま
れる複数の学習用特徴ベクトル信号の夫々の特徴値の分
散値と事前確率値とを算出するステップを含んでおり、 前記第1プロトタイプ・ベクトル信号は、前記基本集合
の前記第1部分集合並びに前記第2部分集合に含まれる
複数の学習用特徴ベクトル信号の夫々の特徴値の分散値
と事前確率値とを表わしており、 前記第2プロトタイプ・ベクトル信号は、前記基本集合
の前記第3部分集合に含まれる複数の学習用特徴ベクト
ル信号の夫々の特徴値の分散値と事前確率値とを表わし
ている、ことを特徴とする請求項71の製品。 - 【請求項73】 前記方法は更に、前記第1ラベル集合
が発生していることを条件とした、前記基本集合の前記
各部分集合を成す夫々の複数の学習用特徴ベクトル信号
が発生していることの条件付確率の、確率値を評価推定
するステップを含んでおり、 前記方法は更に、前記第1ラベル集合を成す複数の学習
用特徴ベクトル信号が発生している確率の、確率値を評
価推定するステップを含んでおり、 前記第1プロトタイプ・ベクトル信号が更に、前記第1
ラベル集合を成す複数の学習用特徴ベクトル信号が発生
している確率の、評価推定した確率値を表わすように
し、 前記第1プロトタイプ・ベクトルの前記第1小区画に、
前記第1ラベル集合が発生していることを条件とした、
前記基本集合の前記第1部分集合を成す複数の学習用特
徴ベクトル信号が発生していることの条件付確率の、評
価推定した確率値に等しい更なる小区画値を持たせ、 前記第1プロトタイプ・ベクトルの前記第2小区画に、
前記第1ラベル集合が発生していることを条件とした、
前記基本集合の前記第2部分集合を成す複数の学習用特
徴ベクトル信号が発生していることの条件付確率の、評
価推定した確率値に等しい更なる小区画値を持たせる、
ことを特徴とする請求項72の製品。 - 【請求項74】 前記第2期間の各々には、少なくとも
前記第1期間の2つ分の長さを持たせ、 前記特徴ベクトル信号の各々には、異なった2つの時刻
における、発声の少なくとも2つの特徴値を含ませるよ
うにする、ことを特徴とする請求項73の製品。 - 【請求項75】 前記特徴ベクトル信号の各々が、mを
2またはそれより大きい整数とするとき、m個の特徴部
の特徴値を表わすようにし、 前記小区画の各々が、nをmより小さい整数とすると
き、n個の小区画値を有するようにし、 前記方法が更に、前記部分集合の前記図心と、前記部分
集合の分散値及び事前確率値とを算出するのに先立っ
て、各々の特徴ベクトル信号のm個の値をn個の値へと
変換する、変換ステップを含んでいる、ことを特徴とす
る請求項74の製品。 - 【請求項76】 前記基本要素モデルは基本確率論モデ
ルであり、前記関連付けステップは、前記特徴ベクトル
信号と前記基本確率論モデルとを連携させるステップを
含んでいる、ことを特徴とする請求項75の製品。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US673810 | 1984-11-21 | ||
| US07/673,810 US5182773A (en) | 1991-03-22 | 1991-03-22 | Speaker-independent label coding apparatus |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0535299A true JPH0535299A (ja) | 1993-02-12 |
| JP3337233B2 JP3337233B2 (ja) | 2002-10-21 |
Family
ID=24704198
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP00326892A Expired - Fee Related JP3337233B2 (ja) | 1991-03-22 | 1992-01-10 | 音声符号化方法及び装置 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US5182773A (ja) |
| EP (1) | EP0504485B1 (ja) |
| JP (1) | JP3337233B2 (ja) |
| CA (1) | CA2060591C (ja) |
| DE (1) | DE69129015T2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2023054632A1 (ja) * | 2021-09-29 | 2023-04-06 |
Families Citing this family (31)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5276766A (en) * | 1991-07-16 | 1994-01-04 | International Business Machines Corporation | Fast algorithm for deriving acoustic prototypes for automatic speech recognition |
| US5280562A (en) * | 1991-10-03 | 1994-01-18 | International Business Machines Corporation | Speech coding apparatus with single-dimension acoustic prototypes for a speech recognizer |
| US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
| US5497447A (en) * | 1993-03-08 | 1996-03-05 | International Business Machines Corporation | Speech coding apparatus having acoustic prototype vectors generated by tying to elementary models and clustering around reference vectors |
| CA2115210C (en) * | 1993-04-21 | 1997-09-23 | Joseph C. Andreshak | Interactive computer system recognizing spoken commands |
| US5465317A (en) * | 1993-05-18 | 1995-11-07 | International Business Machines Corporation | Speech recognition system with improved rejection of words and sounds not in the system vocabulary |
| US5544277A (en) * | 1993-07-28 | 1996-08-06 | International Business Machines Corporation | Speech coding apparatus and method for generating acoustic feature vector component values by combining values of the same features for multiple time intervals |
| US5522011A (en) * | 1993-09-27 | 1996-05-28 | International Business Machines Corporation | Speech coding apparatus and method using classification rules |
| US5539861A (en) * | 1993-12-22 | 1996-07-23 | At&T Corp. | Speech recognition using bio-signals |
| US5539860A (en) * | 1993-12-22 | 1996-07-23 | At&T Corp. | Speech recognition using bio-signals |
| JP3321976B2 (ja) * | 1994-04-01 | 2002-09-09 | 富士通株式会社 | 信号処理装置および信号処理方法 |
| DE4417557A1 (de) * | 1994-05-19 | 1995-11-23 | Daimler Benz Aerospace Ag | Verfahren zur Erkennung von Sprachsignalen und Anordnung zum Durchführen des Verfahrens |
| FR2738383B1 (fr) * | 1995-09-05 | 1997-10-03 | Thomson Csf | Procede de quantification vectorielle de vocodeurs bas debit |
| US5963903A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Method and system for dynamically adjusted training for speech recognition |
| US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
| US6224636B1 (en) | 1997-02-28 | 2001-05-01 | Dragon Systems, Inc. | Speech recognition using nonparametric speech models |
| US6023673A (en) * | 1997-06-04 | 2000-02-08 | International Business Machines Corporation | Hierarchical labeler in a speech recognition system |
| US5946653A (en) * | 1997-10-01 | 1999-08-31 | Motorola, Inc. | Speaker independent speech recognition system and method |
| HK1040312A1 (en) * | 1998-09-09 | 2002-05-31 | Asahi Kasei Kabushiki Kaisha | Speech recognizer |
| US6418409B1 (en) * | 1999-10-26 | 2002-07-09 | Persay Inc. | Error derived scores for detection systems |
| US6978274B1 (en) * | 2001-08-31 | 2005-12-20 | Attenex Corporation | System and method for dynamically evaluating latent concepts in unstructured documents |
| US7016839B2 (en) * | 2002-01-31 | 2006-03-21 | International Business Machines Corporation | MVDR based feature extraction for speech recognition |
| US20040117186A1 (en) * | 2002-12-13 | 2004-06-17 | Bhiksha Ramakrishnan | Multi-channel transcription-based speaker separation |
| US7571097B2 (en) * | 2003-03-13 | 2009-08-04 | Microsoft Corporation | Method for training of subspace coded gaussian models |
| EP1709743A1 (fr) * | 2004-01-30 | 2006-10-11 | France Telecom S.A. | Quantification vectorielle en dimension et resolution variables |
| US7191175B2 (en) | 2004-02-13 | 2007-03-13 | Attenex Corporation | System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space |
| KR100629997B1 (ko) * | 2004-02-26 | 2006-09-27 | 엘지전자 주식회사 | 오디오 신호의 인코딩 방법 |
| US8572084B2 (en) | 2009-07-28 | 2013-10-29 | Fti Consulting, Inc. | System and method for displaying relationships between electronically stored information to provide classification suggestions via nearest neighbor |
| US8612446B2 (en) | 2009-08-24 | 2013-12-17 | Fti Consulting, Inc. | System and method for generating a reference set for use during document review |
| US11068546B2 (en) | 2016-06-02 | 2021-07-20 | Nuix North America Inc. | Computer-implemented system and method for analyzing clusters of coded documents |
| US11341185B1 (en) * | 2018-06-19 | 2022-05-24 | Amazon Technologies, Inc. | Systems and methods for content-based indexing of videos at web-scale |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0219480A (ja) * | 1988-07-06 | 1990-01-23 | Nippon Yakin Kogyo Co Ltd | メカニカルプレーティング方法 |
| JPH0332228A (ja) * | 1989-06-29 | 1991-02-12 | Fujitsu Ltd | ゲイン―シェイプ・ベクトル量子化方式 |
Family Cites Families (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4032711A (en) * | 1975-12-31 | 1977-06-28 | Bell Telephone Laboratories, Incorporated | Speaker recognition arrangement |
| JPS5722295A (en) * | 1980-07-15 | 1982-02-05 | Nippon Electric Co | Speaker recognizing system |
| JPH0792673B2 (ja) * | 1984-10-02 | 1995-10-09 | 株式会社東芝 | 認識用辞書学習方法 |
| US4773093A (en) * | 1984-12-31 | 1988-09-20 | Itt Defense Communications | Text-independent speaker recognition system and method based on acoustic segment matching |
| CA1232686A (en) * | 1985-01-30 | 1988-02-09 | Northern Telecom Limited | Speech recognition |
| US4748670A (en) * | 1985-05-29 | 1988-05-31 | International Business Machines Corporation | Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor |
| US4819271A (en) * | 1985-05-29 | 1989-04-04 | International Business Machines Corporation | Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments |
| CA1261472A (en) * | 1985-09-26 | 1989-09-26 | Yoshinao Shiraki | Reference speech pattern generating method |
| JPH0792737B2 (ja) * | 1986-01-29 | 1995-10-09 | 株式会社ピーエフユー | ビデオ信号表示制御装置 |
| JPS62231993A (ja) * | 1986-03-25 | 1987-10-12 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声認識方法 |
| US4847906A (en) * | 1986-03-28 | 1989-07-11 | American Telephone And Telegraph Company, At&T Bell Laboratories | Linear predictive speech coding arrangement |
| US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
| US4805219A (en) * | 1987-04-03 | 1989-02-14 | Dragon Systems, Inc. | Method for speech recognition |
| US4926488A (en) * | 1987-07-09 | 1990-05-15 | International Business Machines Corporation | Normalization of speech by adaptive labelling |
| US4817156A (en) * | 1987-08-10 | 1989-03-28 | International Business Machines Corporation | Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker |
| CA1337217C (en) * | 1987-08-28 | 1995-10-03 | Daniel Kenneth Freeman | Speech coding |
| JP2739950B2 (ja) * | 1988-03-31 | 1998-04-15 | 株式会社東芝 | パターン認識装置 |
| JPH0636156B2 (ja) * | 1989-03-13 | 1994-05-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置 |
-
1991
- 1991-03-22 US US07/673,810 patent/US5182773A/en not_active Expired - Lifetime
- 1991-12-10 DE DE69129015T patent/DE69129015T2/de not_active Expired - Fee Related
- 1991-12-10 EP EP91121180A patent/EP0504485B1/en not_active Expired - Lifetime
-
1992
- 1992-01-10 JP JP00326892A patent/JP3337233B2/ja not_active Expired - Fee Related
- 1992-02-04 CA CA002060591A patent/CA2060591C/en not_active Expired - Fee Related
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0219480A (ja) * | 1988-07-06 | 1990-01-23 | Nippon Yakin Kogyo Co Ltd | メカニカルプレーティング方法 |
| JPH0332228A (ja) * | 1989-06-29 | 1991-02-12 | Fujitsu Ltd | ゲイン―シェイプ・ベクトル量子化方式 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2023054632A1 (ja) * | 2021-09-29 | 2023-04-06 |
Also Published As
| Publication number | Publication date |
|---|---|
| DE69129015D1 (de) | 1998-04-09 |
| EP0504485B1 (en) | 1998-03-04 |
| US5182773A (en) | 1993-01-26 |
| JP3337233B2 (ja) | 2002-10-21 |
| DE69129015T2 (de) | 1998-10-29 |
| CA2060591C (en) | 1996-08-13 |
| EP0504485A2 (en) | 1992-09-23 |
| CA2060591A1 (en) | 1992-09-23 |
| EP0504485A3 (en) | 1993-05-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH0535299A (ja) | 音声符号化方法及び装置 | |
| JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
| EP0535146B1 (en) | Continuous speech processing system | |
| JP4176169B2 (ja) | 言語合成のためのランタイムアコースティックユニット選択方法及び装置 | |
| JP2986313B2 (ja) | 音声コード化装置及びその方法並びに音声認識装置及びその方法 | |
| US10692484B1 (en) | Text-to-speech (TTS) processing | |
| CN113470662A (zh) | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 | |
| JP3037864B2 (ja) | 音声コード化装置及び方法 | |
| CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
| JPH0554959B2 (ja) | ||
| JPH05216490A (ja) | 音声コード化装置及び方法並びに音声認識装置及び方法 | |
| JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
| CN114420083B (zh) | 音频生成方法以及相关模型的训练方法和相关装置 | |
| JPH07110695A (ja) | 音声符号化装置および方法 | |
| JPH01113798A (ja) | 低コストの音声認識システムとその方法 | |
| Wu et al. | The NU non-parallel voice conversion system for the voice conversion challenge 2018 | |
| JPH086587A (ja) | 動的特徴を使用した音声認識方法及び装置 | |
| JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
| JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
| JP2005156593A (ja) | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 | |
| JPH07160287A (ja) | 標準パターン作成装置 | |
| Gujral et al. | Various Issues In Computerized Speech Recognition Systems | |
| JPH1097270A (ja) | 音声認識装置 | |
| JPH11122114A (ja) | コードブック作成装置およびコードブック作成方法、並びにベクトル量子化装置およびベクトル量子化方法 | |
| JPH0619497A (ja) | 音声認識方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080809 Year of fee payment: 6 |
|
| LAPS | Cancellation because of no payment of annual fees |