JPH086587A

JPH086587A - 動的特徴を使用した音声認識方法及び装置

Info

Publication number: JPH086587A
Application number: JP7071226A
Authority: JP
Inventors: Lahit R Bahl; ラヒト・ライ・バール; Peter V Desouza; ピーター・ヴィンセント・デソウザ; Ponani Gopalakrishnan; ポナン・ゴパラクリッシュナン; Michael A Picheny; ミカエル・アラン・ピッチェニー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1994-06-20
Filing date: 1995-03-29
Publication date: 1996-01-12
Anticipated expiration: 2017-07-08
Also published as: EP0689193A1; US5615299A; SG43736A1; JP3299408B2

Abstract

(57)【要約】【目的】プロジェクションを動的に変化させる音声認識
方法及びシステムを提供する。【構成】この音声認識技法は一組のＮ個の相異なる基本
判別マトリクスを利用する。各基本判別マトリクスはそ
れに独特のクラスと関連している。そのクラスは隣接の
音素に対する音声セグメントの近似度を表すものであ
る。音声エンコードのための技法は音声信号を一連のフ
レームに配列することを含む。各フレームに対して１つ
の又は一連の音声セグメントに対する音声信号を表す特
徴ベクトルが取り出される。基本判別マトリクスにその
ベクトルを掛け算することによって、各フレームに対す
るＮ個の相異なるプロジェクトされたベクトルが生成さ
れる。プロジェクトされたベクトルは対応するタグと共
に利用されて、少なくとも１つの特定の音声部分が上記
フレームに存在する確率を計算する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識に関するもの
であり、更に詳しく云えば、隣接した音素（ｐｈｏｎ
ｅ）又はフェノン（ｆｅｎｏｎｅ）が如何に近接した間
隔で１つの発音内に位置づけられているかに基づいて動
的に変化する特徴抽出技法を使用した音声認識システム
及び方法に関するものである。その特徴抽出プロセス
は、その発音における音素の変化率に応答して修正さ
れ、従って、従来の技法よりも更に効果的な音声モデル
化を可能にする。

【０００２】

【従来の技術】言語処理では、ワードを一連の音声素子
にセグメント化することは、音声学者にとって一般的な
ことである。それら音声素子は国際音声字母（Internat
ionalPhonetic Alphabet ）から選択される。音素は、
トレーニングした言語学者が１つにワードのうちの異な
る音響セグメントとして認識することができる比較的小
さいワード・セグメントである（例えば、ｉ、ｅ、ａ
ｅ、ｓはすべて音素を表す）。典型的には、言語学者は
１つのワードに耳を傾け、自らの経験に基づいて連続部
分とそれぞれの音声素子とを照合し、１つの発音された
ワードの適当な表音式綴りを決定する。

【０００３】そのような音声シーケンスは標準的な辞書
に用いられている。又、音声シーケンスは、一般的に
は、音声認識に適用されており、特に、ヒドン・マルコ
フ・モデル（以下、「ＨＭＭ」と呼ぶ）を利用した音声
認識に適用されている。ＨＭＭ音声認識の場合、種々の
音声素子がそれぞれのＨＭＭによって表される。その場
合、各ワードが一連の音素ＨＭＭに対応する。

【０００４】１つの音素のサブエレメントがフェノンで
ある。フェノンは、トレーニングされた聞き手でもそれ
らの発生を必ずしも認識し得ないほど急速に変化するこ
とが多い。例えば、ワード「ｂｅａｔ」が発音される
時、音素は「ｂ」、「ｅ」、及び「ｔ」として認識され
る。各音素におけるフェノンは急速に変化し、単一の音
素は、一連のいくつかのフェノンであるとみなすことが
できる。ワード「ｂｅａｔ」における音素「ｔ」はいく
つかのフェノン、例えば５つのフェノンを含むことが可
能である。

【０００５】音素及びフェノンのようなサブワード構成
ブロックを使用したことによる重要な成果は、比較的少
量のデータを使用して自動音声認識システムがトレーニ
ング可能であるということである。トレーニング・デー
タは、各ワードのいくつかのサンプルの代わりに、各音
素又はフェノンのサンプルを含む必要があるだけであ
る。しかし、各音素が文脈依存性又は同時調音（co-art
iculation)の効果に関係なく独立してモデル化される場
合、その結果生じる音響モデルは、１つの音素の発音が
隣接の音素に依存するという事実のために不正確となる
ことがある。

【発明が解決しようとする課題】

【０００６】従って、本発明の目的は、プロジェクショ
ンを動的に変化させる音声認識方法及びシステムを提供
することにある。

【０００７】本発明のもう１つの目的は、隣接の音素又
はフェノンに関する当該音素又はフェノンの位置に基づ
いて特徴抽出を行うことによって、より正確な音声認識
を行う非常に有用な方法及び装置を提供することにあ
る。

【０００８】

【課題を解決するための手段】本発明の１つの音声エン
コーディング技法の実施例は、Ｎ個の異なる基本判別マ
トリクスのセットを利用する。各基本判別マトリクスは
それぞれ独特のクラスと関連しており、そのクラスは隣
接の音声部分に対する当該音声部分の近似度を表すもの
である。その音声エンコーディングの技法は、音声信号
を一連のフレームの形に配列することを含む。各フレー
ムに対する音声信号を表すパラメータ・ベクトルが取り
出される。いくつかの隣接したパラメータ・ベクトルを
スプライスすることによって、各フレームに対して１つ
のスプライスしたパラメータ・ベクトルが発生される。
Ｎ個の異なる基本判別マトリクスの各々にそれらスプラ
イスしたベクトルを掛け算することによって、各フレー
ムに対してＮ個の異なるプロジェクトされたベクトルの
セットが発生される。この音声エンコーディング技法
は、音声認識システムにおける使用に十分適する。

【０００９】

【実施例】下記の特殊な構成、数値、及び他のパラメー
タは、本来、説明上のものであって、技術範囲を限定す
ることを意図するものではない。本発明は、フェノン及
び音素を同じように利用することが可能である。

【００１０】以下では、詳細に後述する本発明の一実施
例の技法を使用し得る音声信号処理システムの詳細な説
明を行う。

【００１１】図１は音声認識システム３９のブロック図
である。その自動音声認識システム３９は２つの主要な
サブシステム、即ち、音響プロセッサ４２及び言語デコ
ーダ４３を含む。音響プロセッサ４２のタスクは、発話
（話し手によって発声された音声信号４０により表され
る）に応答して、各時間フレームに対して、特徴ベクト
ルと呼ばれる５０次元ベクトル４４を発生することであ
る。５０次元ベクトルのパラメータ値の各々は多次元座
標システムで配列される。このプロセスは特徴抽出とも
呼ばれる。音響プロセッサ４２の機能及びオペレーショ
ンは、図２を参照して、以下で更に詳細に示すことにす
る。言語デコーダ４３は５０次元ベクトル４４を受け取
り、ワードを作成する。図１には、２つのタイプの言語
デコーダが示される。第１のタイプの言語デコーダ４１
ａは認識装置４６ａを介して５０次元ベクトル４４を直
接に処理し、ワード・シーケンスを出力する。このタイ
プのデコーダは連続的パラメータＨＭＭを使用する。第
２のタイプの言語デコーダ４１ｂはベクトル量子化器４
８を利用して、先ず、５０次元ベクトルをラベル５０に
変換し、しかる後、それらラベルが認識装置４６ｂに入
力されて、そこからワード・シーケンスを出力させる。
その第２のタイプの言語デコーダ４６ｂは別々のＨＭＭ
を使用する。

【００１２】言語デコーダ４３は、各フレームに対して
その音響プロセッサ４２からの出力を利用し、ベクトル
量子化器４８からのラベルのシーケンス又は５０次元特
徴ベクトル４４のシーケンスを与えられた最大の後次確
率(posteriori probability)を持つワード・シーケンス
〈Ｗ〉を見つけようとする。言語デコーダは別々のワー
ドの蓋然性あるモデルとしてＨＭＭを利用し、最大の確
率を生じるワード・シーケンスを選択する。

【００１３】言語デコーダのオペレーションは次のよう
な音声認識の基本方程式によって指定される。

【数１】

【００１４】但し、Ｗはその語彙からの任意のワード・
シーケンスであり、Ａは観察されたラベル又は特徴ベク
トルのシーケンスである。この方程式における最終的な
相等は確率に関するベイズの法則及びＰｒ(Ａ)がＷに無
関係であるという事実に従っている。そのようにして得
られた最適なデコーダは、シーケンス・エラー率を最小
にする。

【００１５】この方法は、音響チャネル確率Ｐｒ(Ａ／
Ｗ)及び言語前の確率Ｐｒ(Ｗ)を推定するための蓋然性
あるモデルを必要とする。本発明の１つの観点は、音響
チャネル確率Ｐｒ(Ａ／Ｗ)の決定である。

【００１６】図２に動作的に示される音響プロセッサ４
４は、アナログ音声信号をサンプルし、Ａ／Ｄ変換及び
他の信号処理ステップを遂行して、その音声信号のディ
ジタル表示を発生する（典型的には、アナログ信号は同
期的態様で、毎秒２万回サンプルされる）。フレームと
呼ばれる規則的な間隔で（典型的には、１／１００
秒）、１ブロックのディジタル化した音声が高速フーリ
エ変換６６ステップ（以下、「ＦＦＴ」と呼ぶ）を使用
してその周波数ドメインに変換され、種々の周波数帯域
におけるスペクトル・エネルギのベクトルを発生する
（ステップ６８）。周波数帯域の数は、典型的には２０
である。ステップ６６及び６８は、各時間フレーム当た
り１回遂行される。

【００１７】選択的なものとして、人の耳のモデル７０
を使用して異なる周波数帯域６８が更に変換される。そ
の耳のモデルの概念は、周波数帯域の強度が変化する
時、人の耳は実際に生じた音の強度とは異なる音の強度
を知覚するであろうと云う実感に基づいている。例え
ば、特殊な周波数における信号の突然のステップ増加
（更に大きい強度）がある場合、人の耳は、そのステッ
プの始めでは、わずかな時間の後よりも高い強度を知覚
するであろう（たとえ、両方の時間フレームがすべての
検出可能な周波数帯域にわたって等しい強度を持つとし
ても）。その耳のモデル７０は、或周波数の信号の動的
特性がその耳によって知覚される方法に関連し、そして
人の耳が各時間フレーム及び各周波数帯域に対する信号
の強度を検出する方法を表すモデルを作る。それ以上の
処理はすべて種々のスペクトル・エネルギ６８又は耳の
モデル７０に基づくものであり、ベクトル６８又は７０
が利用される時にはいつも２０コンポーネントのベクト
ル７２とみなされる。２０コンポーネント・ベクトル７
２の周波数範囲は、典型的な人の耳が検出できる周波数
範囲のそれにほぼ対応する。

【００１８】いくつかの、しかし、すべてではない音響
プロセッサ４２は、多くの２０コンポーネント・ベクト
ル（通常は、考察した２０コンポーネント・ベクトルの
前の４つの２０コンポーネント・ベクトル及びそれの後
の４つの２０コンポーネント・ベクトル）をスプライス
して、１つのスプライスした（又は、１８０コンポーネ
ント）ベクトル７４を生じさせる。そこで、そのスプラ
イスしたベクトルはプロジェクトされ（即ち、同じプロ
セスに対して別の用語を使用すれば、回転させられ）、
図１及び図２に示された５０次元の特徴ベクトル４４を
発生する。５０次元の（プロジェクトされた）特徴ベク
トル４４を得るプロセスは、５０＊１８０マトリクスで
あって且つ後述のようにして取り出された基本判別マト
リックス７６に１８０コンポーネントの（スプライスし
た）ベクトル７４を掛け算して５０次元の（スプライス
した）ベクトル４４を生じさせることに関連する。その
５０次元の特徴ベクトルは、直ちに図１の言語デコーダ
４３によって利用される。スプライスを使用しない音響
プロセッサでは、２０コンポーネントのベクトルが他の
下位次元のスペースに直接にプロジェクト可能であり、
その場合、プロジェクトされたベクトル４４は２０又は
もっと少ない次元を持つであろう。

【００１９】音響プロセッサ４２によって発生された特
徴ベクトル、又は図１のベクトル量子化器４８によって
発生されたラベルは、ＨＭＭのアークに沿って出力とし
て発生可能な同じベクトル又はラベルである。アーク確
率及び出力確率がトレーニングプロシージャ時に割り当
てられた後、発音が１つのＨＭＭ又は一連のＨＭＭ（そ
のシーケンスは音素又はワード・ベースフォームに対応
する）に対応する可能性を決定するための認識プロシー
ジャがそれに続くであろう。即ち、特徴ベクトルＶ₁Ｖ₂
Ｖ₃・・・・又はラベルｆ₁ｆ₂ｆ₃・・・・等が、複数の
連続した音声期間の間、音響プロセッサ又はベクトル量
子化器によって発生されたとすれば、１つのＨＭＭ又は
一連のＨＭＭの各パスを通して進行しそして特徴ベクト
ルＶ₁Ｖ_2Ｖ ₃・・・・又はラベルｆ₁ｆ₂ｆ₃・・・・の特
殊ストリングを発生する可能性を決定することが可能で
ある。１つの語彙における１つのワードに対してこの計
算を行うことはそのワードの可能性を測定するものであ
る。

【００２０】一般的には、音響プロセッサが効率的にな
ればなるほど、音声認識システムは信頼性が高くなる。
ワードの構成部分を定義するために音声学者（及び音素
の代表的な適用例）を信頼することは、その結果とし
て、モデル化を任意なものにし、ワードのベースフォー
ム（即ち、ワード形成する構成部分のシーケンス）の一
様性に不足を生じることがあることがわかった。

【００２１】Ａ．ベクトル量子化図１の２０又は５０コンポーネントの特徴ベクトル４４
が量子化器４８を通して送られてラベルを発生させる音
声認識システムをこの項で説明する。ベクトル量子化器
４８に続くＨＭＭベースの認識装置４６ｂは、そのラベ
ル・ストリームを与えられる可能性が最も高いワード・
シーケンスを計算する。典型的には、その音声認識シス
テムの新しい各ユーザに対する登録プロセスの一部分と
して遂行される認識装置のトレーニングは、通常は、Ｋ
平均クラスタリングのような反復手順及び順方向・逆方
向アルゴリズムを使用してＨＭＭ遷移及び出力確率を見
積ることによるＶＱプロトタイプの計算を伴う。

【００２２】座標空間として音声を見ると、各ラベルは
Ｎ次元空間における別々のクラスタを識別する。但し、
Ｎは、ベクトル・コンポーネントの数に対応する整数で
ある。音声入力に対して、音響プロセッサは、各ラベル
が別々の音声期間に対応する一連のラベルを発生する。
基本的には、音響プロセッサは音声入力を、連続したフ
レームで発生される連続した特徴ベクトルに変換し、連
続した特徴ベクトルの各々にラベルを割り当てる。決定
されたクラスタを識別するラベルが、そのフレームに対
する出力として与えられる。

【００２３】Ｂ．スプライスされプロジェクトされた特
徴ベクトルを利用するベクトル量子化一般に、スプライスされプロジェクトされた特徴ベクト
ルを利用するベクトル量子化器は、ベクトル量子化プロ
セスにおいて、単一ベクトルを利用するベクトル量子化
器よりも更に正確なラベルを発生する。スプライスされ
プロジェクトされたベクトルを生成しそしてそれらとラ
ベルを関連づけるステップを以下で説明する。それらス
テップを遂行する場合、多数の話し手に対するトレーニ
ング・データが、スプライスされたベクトルを使用した
既存のワード・ベースフォームに抗して収集されそして
配列される（音声認識システムにおいてはよく知られ、
本願ではこれ以上詳述しない「ビタービ（Ｖｉｔｅｒｂ
ｉ）配列」による）ものと仮定する。好ましくは、既存
の各ベースフォームは一連の音素ＨＭＭ又はフェノニッ
ク（ｆｅｎｏｎｉｃ）ＨＭＭである。本願では、用語
「ベクトル」及び「パラメータ・ベクトル」は同義語で
ある。下記のステップ１乃至５は学習プロセス記述し、
プロジェクトされた特徴ベクトルを構成する方法を記述
する。残りのステップは、入力される逐語的発話を認識
するために、図１の音声認識装置がそのトレーニングさ
れ、スプライスされ、プロジェクトされた特徴ベクトル
を使用する方法に関するものでる。

【００２４】ステップ１：トレーニング・データにおけ
る各２０コンポーネントのベクトル（「標準」ベクトル
としても知られている）に対して、考慮中の２０コンポ
ーネントのベクトルの各々をＫ個の先行ベクトル及びＫ
個の後続ベクトルと連結して１８０コンポーネントのベ
クトルを形成することによって、新しい１８０コンポー
ネントのベクトル作成する。Ｋ＝４を使うことが最もよ
く動作することがわかっている。ステップ２：ビタービ配列を使用して、各時間フレーム
に対し、元の２０コンポーネントのベクトルの時間フレ
ームと整列した音素又はフェノンの名前でもってその対
応する１８０コンポーネントのベクトルをタグ付けす
る。従って、スプライスされたベクトルは、音声字母又
はフェノン字母における音素又はフェノンの１つに割り
振られる。ステップ３：ステップ２において決定された音素のタイ
プ又はフェノンのタイプを区別するためのＰ個の（典型
的には、５０個の）最も相互に相関しない基本判別マト
リクスを、そのスプライスされたパラメータ・ベクトル
を使用して計算する。即ち、Ｍ個の音素又はフェノンの
タイプから取り出されたＮ個のスプライスされたベクト
ルを考察する。ｋ番目のベクトルのうちのｉ番目の素子
をｘ_ikと表すことにする。そこで、データＳのサンプル
共分散マトリクスが次のように定義される。

【００２５】

【数２】におけるベクトルの数をｎ_i と表すことにする。そこ
で、サンプルのクラス内の共分散マトリクスＷは次のよ
うに定義される。

【数３】但し、Ｗ_i は音素又はフェノンのタイプｉにおけるデー
タのサンプル共分散マトリクスである。クラス相互間の
相違を最大にするために、比（ｖ'Ｓｖ／ｖ'Ｗｖ）を最
大にし且つ相互に相関しない線形判別関数ｖが求められ
る。必要なベクトルは、マトリクスＷ^-IＳのうちの最初
のＰ個の基本判別マトリクスとして得られる。これら
は,基本判別マトリクスと呼ばれるマトリクス列として
配列される。ステップ４：計算された基本判別マトリクスを使用し
て、１８０コンポーネントのベクトルをＰ次元ベクトル
にプロジェクトし、そのプロジェクトされたベクトル
を、対応する１８０コンポーネントのベクトルの音素又
はフェノンでもってタグする。ステップ５：個々の各音素又はフェノンに対して、Ｐ次
元のプロジェクトされたベクトルの各々の平均及び平方
偏差を計算する。これら平均及び平方偏差は対角ガウス
のプロトタイプ・マトリクスで形成され、スプライスさ
れたプロジェクトされた特徴ベクトルをラベル付けする
場合に使用される。従って、各プロトタイプは,それと
関連した音素ラベル又はフェノン・ラベルを有する。

【００２６】従って、ラベルに対するプロトタイプを計
算してしまうと、新しいデータは次のようにラベル付け
される。ステップ６：通常の方法で２０コンポーネントのベクト
ルを得る。ステップ７：ステップ１において前述したように、２０
コンポーネントのベクトルを連結することによって１８
０コンポーネント・ベクトルを作成する。ステップ８：ステップ３において得られた基本判別マト
リクスを使用して１８０コンポーネントのベクトルをＰ
次元ベクトルにプロジェクトする。ステップ９：ステップ５の対角ガウスのプロトタイプを
使用して回転ベクトルをラベル付けする。即ち、所与の
回転ベクトルに対して、その可能性を最大にするプロト
タイプを見つけ、そのプロトタイプと関連したラベルを
出力する。

【００２７】Ｃ．プロジェクションの使用に関するコメ
ントエネルギ６８のスペクトル又は耳のモデル７０（それら
の両方ともコンポーネント・ベクトル７２であると考え
られる）は、特殊なスペクトル周波数によってカバーさ
れる周波数範囲内のフレームにおける時間波形のエネル
ギに対応した複数個の値を含む。例えば、母音は低い周
波数範囲におけるそれらのエネルギの殆どを発生する傾
向があり、それによって、それらの２０コンポーネント
のベクトルにおける低い周波数範囲にそれらのエネルギ
の殆どを集中させる。それに比べて、摩擦音は、それら
のエネルギの殆どを高い周波数において発生する。各２
０次元ベクトルは、そのフレームにおける音声信号の瞬
間的な特徴に関する情報を含んでいる。動的な特徴は、
いくつかの連続したフレームに対するベクトルを利用す
ることによって得ることが可能である。

【００２８】９個の連続した２０コンポーネントのベク
トル７２が一緒にスプライスされて１８０コンポーネン
トのベクトル７４を形成する。連続した１８０コンポー
ネントのベクトルにはスペクトルの特徴のオーバラップ
がある。そのオーバラップのうちのいくつかを除去する
ために、従って、スプライスされたベクトルにおける冗
長性を減少させるために、各ベクトルは、５０＊１８０
マトリクスをそのベクトルに乗ずることによって低い次
元（例えば、５０次元）空間にプロジェクトされる。こ
のプロジェクション・マトリクスの列は基本判別マトリ
クスである。本願を通して使用される用語「基本判別マ
トリクス」は用語「固有ベクトル」と同義であり、それ
と相互交換可能であると考えられる。１８０コンポーネ
ントのベクトルは、各１８０コンポーネントのベクトル
に基本判別マトリクスを掛け算することによって処理さ
れる。

【００２９】上記の説明では、すべてのスプライスされ
たベクトルに対して一定のウインドウ・サイズ及び一定
のプロジェクションが仮定された。適当な音声認識シス
テムが５０個の基本判別マトリクスのコンパイルによっ
て機能することができる。同じ発音のプロジェクトされ
た値も、理論的には、同じでなければならない。しか
し、発音及び雑音における相違のために、同じ発音が異
なる人によって、又は異なる時間に同じ人によって行わ
れた時、そのプロジェクトされた値にわずかな相違があ
るであろう。スプライス・ベクトル・ステップ１８の１
８０コンポーネントのベクトルは、図１に示されたよう
なベクトル量子化器を通して動作する場合、５０次元ベ
クトル４４又はラベル５０を発生するためにプロジェク
トされる。

【００３０】発音の変化率に従ってウインドウ・サイズ
を修正することが望ましい。音素又はフェノンがいくつ
かのフレームに対して同じままであるその信号の部分の
間、その音素又はフェノンの静的特性のより良い評価を
与えるために、一緒にスプライスされたフレームのウイ
ンドウＷのサイズを拡大することが望ましい。しかし、
音素又はフェノンが急速に変化する簡単な音響的事象の
間、急速に変化しようとしている先行の又は後続の音素
又はフェノンにより簡単な事象の効果を消滅させること
を回避するために、ウインドウＷのサイズを小さくする
ことが望ましい。一般的には、ウインドウＷのサイズ
は、先行の又は後続の音素又はフェノンの境界の近似度
に依存することが望ましい。

【００３１】この動的に変化するウインドウを達成する
ために都合のよい方法は、ウインドウＷを大きく且つ一
定に保つことであるが、その代わりに、動的に変化する
プロジェクションを持つことである。ウインドウのサイ
ズを減少させることは、基本判別マトリクスのプロジェ
クション・マトリクスにおける値のうちのいくつかをゼ
ロにセットすることに等価である。隣接の音素又はフェ
ノンの近似度に従って、動的に変化するプロジェクショ
ンを構成するための方法については後述する。ウインド
ウ・サイズを変化させることは、この技法の特別なケー
スである。

【００３２】次に、前述の音声信号処理システムに適用
可能な本発明の音声信号処理システムの一実施例を説明
する。

【００３３】フェノン字母をτ＝（１，２，・・・・，
Ｆ）と表し、ラベル字母をφ＝（１，２，・・・・，
Ｌ）と表す。各フェノンｆ∈τに対して、図３に示され
たタイプの簡単なＨＭＭがある。そのモデルは、２つの
状態、即ち、σ＝［ｆ,１］及びσ＝［ｆ,２］を有す
る。但し、第１インデックスはフェノンｆを表し、第２
インデックスはそのフェノンの最初及び最後の状態を表
す。σ＝［ｆ,１］からσ＝［ｆ,２］への１つのヌル遷
移があり、ｐ(ｆ,ｎ)によって表される。但し、記号ｎ
はヌルを表す。２つの出力発生の遷移（実線）があり、
ψ＝［ｆ,ｓ］及びψ＝［ｆ,ｄ］によって表される。記
号ｓは自己ループを表し、σ＝［ｆ,１］からσ＝［ｆ,
１］への遷移を表す（それは、フェノンが同じままであ
るワード発音における期間にそのモデルを適応させ
る）。記号ｄは直接パスを表し、σ＝［ｆ,１］からσ
＝［ｆ,２］への遷移を表す。ＨＭＭのパラメータは次
のような３つの遷移確率、

【数４】ｐ(ｆ,ｎ)；ｐ(ｆ,ｓ)；ａｎｄｐ(ｆ,ｄ) 及び次のような２つの出力分布

【数５】ｑ(ｆ,ｓ,ζ) ａｎｄｑ(ｆ,ｄ,ζ), ζ∈ξ である。数式（４）及び（５）におけるパラメータはフ
ェノニック・パラメータである。

【００３４】Ｆ個の基本的フェノニックＨＭＭが数式
（４）及び（５）において定義される場合、ワード、音
素、音節等のようなそれぞれの音響単位がモデル化され
るために、フェノニックＨＭＭを構成することが可能で
ある。そのような音響単位の各々に対して、多数のラベ
ル・シーケンス、即ち、Ｙ₁，Ｙ₂，・・・、Ｙ_N がトレ
ーニング・データのサンプルから抽出され、これら観察
されたラベル・シーケンスを最もよくモデル化するフェ
ノンＢのシーケンスが探索される。観察されたラベル・
シーケンスのセットを生成する最高の確率を持ったフェ
ノン・シーケンスＢは、次のように記述可能である。

【数６】

【００３５】すべての可能なフェノン・シーケンスＢ_j
における上記最大化はスタック・サーチ手順を使用して
実行される。そのシーケンス法は、考察された音響単位
に対するフェノン・ベースフォームと呼ばれる。

【００３６】例えば、ワードは音響単位であると仮定す
る。その場合、各ワードｗに対するフェノニック・ベー
スフォームは、次のような長さＮ(ｗ)の線形シーケンス
によって表される。

【数７】Ｂ(ｗ) ＝［ｆ(ｗ,１)，ｆ(ｗ,２)，・・・
・，ｆ(ｗ,Ｎ(ｗ))］但し、各フェノンｆ(ｗ,ｉ)はＦ内にある。この表記で
は、第１インデックスはワードｗを表し、第２インデッ
クスはベースフォームにおける位置を表す。ｗに対する
ワードＨＭＭは、Ｂ(ｗ)において存在する基本的フェノ
ンＨＭＭを連結することによって構成される。ワードＨ
ＭＭの例が図４に示される。このモデルの状態は、ｉ＝
１，２，・・・、Ｎ(ｗ)＋１に対してσ＝［ｗ,ｉ］に
よって示される。その場合、インデックスはワード及び
ワード内の位置をそれぞれ表す。最後の状態位置インデ
ックスが値Ｎ(ｗ)＋１を有することに留意してほしい。
このモデルを通した直接路はそのワードの平均的発音を
表すように構成されなければならず、一方、ループ又は
ヌル遷移は、話し手により発音をそれぞれ長くしたり或
いは短くすることを可能にする。

【００３７】音声処理と関連した２つの関連プロセスが
ある。第１のプロセスは、既知の入力が音響プロセッサ
に読み込まれる時にパラメータが学習される「学習プロ
セス」である。第２のプロセスは、学習プロセス後に遂
行される「認識プロセス」であり、そのプロセスでは、
未知のワードが音声入力プログラムに読み込まれ、発音
されたものと同等な英数字が表示される。

【００３８】１つの関連特許は、１９９１年１２月１０
日発行の米国特許第５,０７２,４５２号である。認識プ
ロセス及び学習プロセスの両方に関連する本願の図５を
参照すると、音響プロセッサ２０２に入る音声入力が示
される。音声入力は音響波形の形のものである。例え
ば、２００個のラベルＬ１，Ｌ２，Ｌ３，・・・・，Ｌ
２００（別々の言語デコーダが使用されるものと仮定す
る）の字母のパラメータ又はベクトル（連続した言語デ
コーダに対する）は音響プロセッサ２０２に記憶され
る。

【００３９】ラベルを連続フレームに割り当てるプロセ
スのための音響波形を作成する場合、音声アナログ波形
がディジタル化され、タイム・インターバルが生成さ
れ、そしてその分野では周知のように、ディジタル信号
が高速フーリエ変換を通して送られる。音響プロセッサ
２０２の出力はラベルｆ₁ｆ₂ｆ₃ｆ₄・・・等及び特徴ベ
クトルｙ₁ｙ₂ｙ₃ｙ₄・・・等を含む。換言すれば、各フ
レームに対応した特徴ベクトル及びラベルが音響プロセ
ッサから出力される。

【００４０】音響プロセッサ２０２からのラベルｆ₁ｆ₂
ｆ₃ｆ₄・・・等はベースフォーム・トレーナ２０４に入
る。ベースフォーム・トレーナ２０４は、各ワード・ベ
ースフォームにおけるＨＭＭに適用されるべき確率を決
定するために使用される。この場合、各「ワード・ベー
スフォーム」は、規定されたシーケンスのＨＭＭを表
す。各ＨＭＭは、アーク確率及びラベル確率としてメモ
リに記憶される。

【００４１】それら確率は、既知のテキストが発声され
るトレーニング期間中に計算される。その既知のテキス
トに対して、１つの対応した既知のＨＭＭシーケンスが
ある。その既知のテキストが話し手によって音響プロセ
ッサ（例えば、プロセッサ２０２）へ発声される時、ラ
ベルのストリングが生成される。よく知られたフォワー
ド・バックワード・アルゴリズムを使用することによっ
て、アークに対する確率及びＨＭＭの非ヌル・アークに
おいて発生されたラベルに対する確率がベースフォーム
・トレーナ２０４によって計算される。ベースフォーム
・トレーナ２０４によって計算された確率統計はベース
フォーム構成装置２０６に入る。そのベースフォーム構
成装置２０６は、各ワードに対するＨＭＭのシーケンス
を決定する。各ワードに対するＨＭＭのシーケンス及び
ＨＭＭの各非ヌル・アークに対するアーク確率及びラベ
ル出力確率は、ベースフォーム辞書２０８に記憶され
る。

【００４２】更に詳しく云えば、ベースフォーム・ディ
クショナリ２０８は次のようなタイプのデータ項目を記
憶する。ＮＮＯＤＥＳ_x ＝ｘワード・ベースフォームにおけるノ
ードの数。ＮＩＤ_ij ＝ｉ番目のワード・ベースフォームにおける
ｊ番目のノードのノード識別子。ＮＴ_ij ＝ノードＮＩＤ_ij からのアーク（遷移）の数。Ｔ_ijk ＝ノードＮＩＤ_ij からのアーク（遷移的）の
数。Ｓ_ijk ＝アーク（遷移）Ｔ_ijk に対する統計ポインタ

【００４３】トレーニング中、ベースフォーム・データ
（即ち、ＨＭＭシーケンス及び確率統計）及び連続的な
音声期間に対応した特徴ベクトルがラベル再指定装置２
１０に入る。ラベル再指定装置２１０は、ワード・ベー
スフォーム構成時に生成されたデータに基づいてそれら
ラベルと関連したプロトタイプ・ベクトル及びクラスタ
を再定義する。

【００４４】図５の装置の動作は、ベースフォームを
「成長」させる４つの主要なステップを示した図６に表
される。トレーニング期間中、ワードは既知の順序で発
声され、ラベルのストリングは、「ワード・ベースフォ
ームを成長させるステップ」３０２における発音に応答
して生成される。照合プロシージャ・ステップ３０４
（「ビタービ配列を得る」として参照される）では、ト
レーニング・テキストの発音に応答して生成されるラベ
ルの連続的なサブストリングがワード・ベースフォーム
における各ＨＭＭと関連づけられる。従って、トレーニ
ング・テキストにおいて発音された第１ワードにおける
第１ＨＭＭに対して、整列したラベル・サブストリング
がある。第２ＨＭＭに対しては、第２サブストリングが
あり、そのプロセスは、すべてのＨＭＭが第２サブスト
リングを持つまで継続する。

【００４５】各ラベルはプロトタイプ・ベクトルに対応
する。各ラベルは、音声の期間中に入力された特徴ベク
トルと各プロトタイプ・ベクトルとを比較することによ
って選択される。最も近接したプロトタイプ・ベクトル
のラベルがそのフレームに割り当てられる。ＨＭＭのセ
ットにおける各ＨＭＭはラベル字母におけるラベルに対
応し、好ましくは、発音ベースのＨＭＭよりも簡単な構
造を有する。フェネミック（ｆｅｎｅｍｉｃ）ＨＭＭが
図３に示されている。「フェニーム（ｆｅｎｅｍｅ）」
は、「ラベル」に対する別の表記である。更に詳しく云
えば、図３のフェノンτのフェネミックＨＭＭは２つの
状態、［ｆ,１］及び［ｆ,２］を有する。１つの非ヌル
・ループは、状態［ｆ,１］から延びてそれ自身に戻
る。１つの非ヌル・ループは状態［ｆ,１］から状態
［ｆ,２］に延び、ヌル・アークは状態［ｆ,１］から状
態［ｆ,２］に延びる。３つのアークの各々は、ｐ(ｆ,
ｓ)、ｐ(ｆ,ｄ)、及びｐ(ｆ,ｎ)が後続するそれぞれの
確率を有する。

【００４６】図６において、ステップ３０２のベースフ
ォームは、好ましくは、フェネミックＨＭＭのシーケン
スであり、ビタービ配列ステップ３０４は各フェネミッ
ク・モデルとラベルとの関連づけに関するものである。
ステップ３０４では、所与のＨＭＭと整列させられ且つ
関連づけられたラベルが識別される。ラベル（フェネミ
ックＨＭＭに対応する）が取り出される特徴ベクトルも
識別される。各フェネミックＨＭＭに対して、それと関
連した０個、１個、２個、又はそれ以上の特徴ベクトル
がある。ステップ３０６では、各フェネミックＨＭＭに
対して識別された特徴ベクトルが平均値及び共分散値を
推定するために結合される。

【００４７】各フェネミックＨＭＭに対する計算された
平均値及び共分散値は、ステップ３０８に従って入力音
声データを再ラベル付けする場合に使用される。更に詳
しく云えば、所与の音声間隔に対応したラベルを選択す
る場合、それのために生成された特徴ベクトルがその平
均値に比較され、その共分散値が各ラベルに対して指定
される。即ち、ラベルｊに対応したフェネミックＨＭＭ
に対する平均値及び共分散値は、入力された特徴ベクト
ル及びラベルｊの間の距離を決定するために使用され
る。簡単に云えば、各ｊ番目のラベルは、そのｊ番目の
ラベルに対応したフェネミックＨＭＭの平均値及び共分
散値に基づいて再指定されるラベルの新しい仕様が図３
の音響プロセッサ２０２に入れられる。音響プロセッサ
２０２はその再指定されたラベルに基づいて音声をラベ
ル付けする。

【００４８】Ｄ．ラベル／フェノン字母音素は長さが規則的に変化することがある。例えば、ワ
ード「ｂｅａｔ」は音素ｂ，ｅ、及びｔを含む。「ｂ」
及び「ｔ」は比較的速く発音される音素であり、一方、
音素「ｅ」は他の２つのものよりもずっと長く引き伸ば
される。音素「ｂ」及び「ｔ」の短い期間にわたる特徴
ベクトルは、音素「ｅ」の比較的長い期間にまたがる特
徴ベクトルよりも変化のないことも真である。

【００４９】トレーニング・データがトレーニング・ス
クリプトの発音表示に揃えられているものと仮定する。
話された言葉における音素が如何に速く変化しようとし
ているかを決定するために、ラベル／フェノン字母が使
用される。そのラベル／フェノン字母は、各ラベル又は
フェノンと関連したクラス及び基本的フェノンのセット
より成る。クラスは、音素が如何に速く変化しようとし
ているかに関する表示を与える。次のようなクラス（１
乃至６）は各音素にタグ付けされる。このセグメントを
音素のタグ付けに関連して説明するけれども、フェノン
のタグ付けに同様のステップを適用することも可能であ
る。

【００５０】１．フレームＦがＭフレーム以下の期間を
有する音素に属する場合、その音素における各フレーム
に対してタグを１にセットする。そうでない場合、ステ
ップ２に進む。Ｍに対する妥当な値は５である。Ｍは、
比較的短い音素の上側の期間を定義する値である。２．フレームＦのウインドウが先行の音素にＮフレーム
以上だけ重畳する（そのウインドウには両方の音素の特
性がある）場合、タグの値を２にセットする。換言すれ
ば、音素ウインドウにおける最初の１つ又は２つのフレ
ームのタグ値は２にセットされるであろう。そうでない
場合、ステップ３に進む。Ｎに対する妥当な値は３であ
る。３．ウインドウが後続の音素にＮフレーム以上だけ重畳
する（そのウインドウには現在の音素及び後続の音素の
両方の特性がある）場合、フレーム・タグを６にセット
する。そうでない場合、ステップ４に進む。４．ウインドウが先行の音素に完全に重畳する場合、タ
グを３にセットする。そうでない場合、ステップ５に進
む。５．ウインドウが後続の音素に完全に重畳する場合、タ
グを５にセットする。そうでない場合、ステップ６に進
む。６．タグを４にセットする。

【００５１】図形的には、Ｍ＝５及びＮ＝２の場合の９
フレームのウインドウに対して、単一の音素の発音と関
連したタグが下記の表１に示されるように構成可能であ
る。表１及び上記記述は、ラベル／フェノン字母を構成
する方法に関して説明することを意図しており、技術範
囲を限定することを意図するものではない。単一の音素
が４フレームより少なく続く時、それら特徴ベクトル
は、更に長い期間の音素よりもこれらのフレームの期間
にわたってもっと変化のないものと仮定する。従って、
比較的長い期間の間続く音素は、それらの期間にわたっ
てかなり変動する傾向がある。

【表１】

【００５２】上記の技法に続いて、比較的遅い話し手に
より行われ発音に対して出力されたタグは、比較的速い
話し手によって行われた同じ言葉の発音に比べると異な
るであろう。例えば、遅い話し手が「Ｍａｒｙ」の
「Ｍ」を発音する時、音素／タグの組合せの連続は次の
ものと同じになるであろう。即ち、Ｍ２Ｍ２Ｍ３
Ｍ３Ｍ５Ｍ５Ｍ６Ｍ６一方、速い話し手が同じ
ワードを発音する時には、その「Ｍ」は、次のように見
える。即ち、Ｍ１Ｍ１Ｍ１Ｍ１

【００５３】音素／タグの組合せは６Ｐ個のカテゴリの
可能な集合体を定義する。但し、Ｐは音素の数である。
その６Ｐ個のカテゴリの各々を別々の音響事象として扱
うことは、サイズ６Ｐ（ラベルの数に対応する）の音響
的字母に通じる。各カテゴリと関連したフレームは、ラ
ベル・プロトタイプを構成し得る所与のラベルのサンプ
ルとして関連する。これらラベルとの１対１の対応でフ
ェノン又は音素を通常の方法で定義することは、６Ｐ個
のフェノンの字母に通じる。

【００５４】Ｅ．基本判別を利用したウインドウ・サイ
ズの変更音声の特性に基づくウインドウの動的変更を行う本発明
の技法の一実施例は、動的に変化してウインドウの幅を
効果的に変更する基本判別マトリクスを使うけれども、
ウインドウ・サイズを大きいまま保持する。これは、マ
トリクスにおけるエントリのいくつかをゼロにセットす
ることによって、基本判別マトリクスにおいて達成可能
である。

【００５５】次の説明は、前述の６つのタグ・クラスの
各々に対する種々のプロジェクションを構成するための
技法を与える。基本判別マトリクスは、次のようにして
計算される。１．各フェノンを特定の音素及びタグ（同じ音素が伸び
ているその音素の数に依存する）と関連づけるラベル／
フェノン字母を構成する。これは、本願のラベル／フェ
ノン字母の項において前述したようにして達成される。２．ビタービ配列を使用して、いくつかのトレーニング
・データをトレーニング・スクリプトの音響ＨＭＭと整
列させ、それによって、トレーニング・データの各フレ
ームを、その配列により決定された真のラベルの識別で
もってタグ付けする。ビタービ配列は音声認識システム
においてはよく知られており、ここではこれ以上詳述し
ない。３．ラベル／フェノン字母において表された各個々のフ
レーム・タグに対して、ステップ４及び５を遂行する。４．フレーム・タグＦと関連したステップ２からの真の
ラベルを有するトレーニング・データのすべてのフレー
ムを収集する。５．ステップ４において収集されたフレームのサブセッ
トを使用して、そのデータに存在するラベル・セット
（即ち、フレーム・タグＦと関連したすべてのラベル）
の間を最大限度に区別する基本判別マトリクスを計算す
る。

【００５６】ステップ５の終了時には、ステップ１のラ
ベル／フェノン字母で表された各フレーム・タグに対し
て、独特の基本判別マトリクス（６個あるであろう）が
構成されているであろう。フレーム・タグＦと関連した
基本判別マトリクスは、値Ｆを持ったタグ相互間を区別
するように最適化される。ラベル／フェノン字母を構成
する方法のために、基本判別マトリクスの各セットは、
（すべての音素がラベル／フェノン字母の各サブセット
Ｆにおいて表されるので）すべての生じうる音素相互間
を識別する。

【００５７】各クラスは、詳しく前述したように、音素
境界に関して異なるフレーム位置を表す。その結果、異
なるクラスから異なる基本判別マトリクスのプロジェク
ションが生じる。従って、基本判別マトリクスのプロジ
ェクションは音素境界に関して種々のフレーム位置で変
わる。

【００５８】基本判別マトリクスは、次のようなフェノ
ン・ベースの格子計算中に使用される。Ｘは、時間Ｔに
おけるプロジェクトされたないの音響ベクトルを示すも
のとする。Ａは、Ｘを出力するための候補であるアーク
を示すものとし、そしてＢは、Ａが属するフェノンを示
すものとする。Ｆは、ステップ１において決定されたフ
ェノンＢと関連したフレーム位置であるとする。Ｅは、
前述の基本判別マトリクス計算のステップ５において構
成されたフレーム部分Ｆと関連した基本判別マトリクス
であるとする。基本判別マトリクスＥを使用してＸをプ
ロジェクトし、そしてＹ(Ａ)はそのプロジェクトされた
ベクトルを示すものとする。時間ＴにおけるアークＡと
関連した可能性、即ち、出力確率は、アーク依存のプロ
ジェクトされたベクトルＹ(Ａ)を使用して通常の方法で
決定される。

【００５９】図７は、本発明の音声認識システムの一実
施例のブロック図である。図１の音響プロセッサ４２に
よって発生される単一の５０次元ベクトル４４の代わり
に、図７の実施例は、添字でもってクラスを示された６
個の異なる５０次元ベクトル４４₁、４４₂、・・・、４
４₆ を発生する６個の異なる基本判別マトリクスを利用
する。

【００６０】６個の異なる５０次元ベクトル４４₁乃至
４４₆は図７の音響プロセッサ４２によって発生される
ので、それら５０次元ベクトルの各々を、６個の別々の
ラベルＬ₁乃至Ｌ₆を発生するためのベクトル量子化器４
８に入力することが可能である。６個の相異なる５０次
元ベクトル４４₁乃至４４₆は出力ワード・シーケンス４
７ａを発生するように認識装置４６ａを通して処理可能
であり、６個の相異なるラベルＬ１乃至Ｌ６は出力ワー
ド・シーケンス４７ｂを発生するように認識装置４６ｂ
を通して処理可能である。本発明の音素の更に正確な分
類技法を使用して、その認識装置は、従来技術のシステ
ムにおけるよりも更に正確に機能することができる。

【００６１】５０００ワードの語彙によってカバーされ
る５０個の文を読む話し手に関して、連続的な音声認識
実験が行われた。基本判別マトリクスの単一の包括的な
セットを、上記のように構成された６セットによって置
換したら認識エラーの数は大きく低下した。

【００６２】ラベル／フェノン字母は、予期し得るエッ
ジ誘導歪みの程度を数量化する技法を与える（例えば、
４の値をタグ付けされるフレームは重畳することがな
い）。本発明の１つの観点によれば、各フレームに対し
て厳しい、或いは軽い、或いはエッジ誘導のない歪みで
もってラベルを分離することによって、優れた音響的モ
デル化が達成される。

【００６３】以上は、１つの音声認識システムの一実施
例を提供するものである。この実施例は、本発明の技術
範囲内に留まったまま修正可能である。本願明細書の記
載は主として音素に関して記述されているけれども、フ
ェノンに基づいて同様の音声認識システムを構成するこ
とも可能である。このため、特許請求の範囲における用
語「音声セグメント」は音素と同様にフェノンもカバー
することを意図するものでる。

【００６４】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００６５】（１）Ｎ個の異なる基本判別マトリクスを
作成するステップであって、各基本判別マトリクスは相
異なるクラスと関連付けられ、各クラスは１つ又は複数
個の隣接した音声セグメントに対する１つの音声セグメ
ントの近似度の表示であるステップと、音声信号を一連
のフレームに配列するステップと、各フレームに対して
前記音声信号を表す特徴ベクトルを得るステップと、前
記Ｎ個の異なる基本判別マトリクスの各々に前記特徴ベ
クトルを掛け算することによって各フレームに対するＮ
個の相異なるプロジェクトされたベクトルのセットを生
成するステップと、を含む音声をエンコードするための
方法。（２）一連の隣接した特徴ベクトルをスプライスしてス
プライス・ベクトルを得るステップを含むことを特徴と
する上記（１）に記載の方法。（３）各フレームを前記クラスの１つでもってタグ付け
するステップを含むことを特徴とする上記（１）に記載
の方法。（４）前記相異なるクラスは隣接の音声セグメントとの
種々な量の重畳を生じることを特徴とする上記（１）に
記載の方法。（５）Ｎ個の異なる変換体を得るステップであって、各
変換体はＮ個のクラスの１つとそれぞれ関連付けられ、
各クラスは隣接の音声セグメントに対する１つの音声セ
グメントの近似度の表示を与えるステップと、音声信号
を一連のフレームに配列するステップと、前記フレーム
の各々において、前記音声信号を表すベクトルを得るス
テップと、前記変換体に前記ベクトルを掛け算すること
によって各フレームに対するＮ個の相異なるプロジェク
トされたベクトルのセットを生成するステップと、各モ
デル遷移を前記Ｎ個のクラスの１つでもってタグ付けす
るためにモデルを利用するステップと、少なくとも１つ
の特定の音声セグメントが前記フレームに存在する確率
を計算するために対応のタグを持ったプロジェクトされ
たベクトルを利用するステップと、を含む音声認識方
法。（６）前記モデルは複数個のフェノンに基づいているこ
と及び各フェノンは前記タグの１つと関連付けられてい
ることを特徴とする上記（５）に記載の方法。（７）前記モデルは複数個の音素に基づいていること及
び各音素は前記タグの１つと関連付けられていることを
特徴とする上記（５）に記載の方法。（８）一連の隣接したベクトルをスプライスしてスプラ
イス・ベクトルを得るステップを含むことを特徴とする
上記（５）に記載の方法。（９）前記相異なるクラスは隣接の音声セグメントとの
種々な量の重畳を生じることを特徴とする上記（５）に
記載の方法。（１０）前記変換体は基本判別マトリクスであることを
特徴とする上記（５）に記載の方法。（１１）Ｎ個の異なる基本判別マトリクスを作成するた
めの手段であって、各基本判別マトリクスは相異なるク
ラスと関連付けられ、前記クラスは１つ又は複数個の隣
接した音声セグメントに対する１つの音声セグメントの
近似度の表示である手段と、音声信号を一連のフレーム
に配列するための手段と、各フレームに対して前記音声
信号を表す特徴ベクトルを得るための手段と、前記Ｎ個
の異なる基本判別マトリクスの各々に前記特徴ベクトル
を掛け算することによって各フレームに対するＮ個の相
異なるプロジェクトされたベクトルのセットを生成する
ための手段と、を含む音声をエンコードするための装
置。（１２）一連の隣接した特徴ベクトルをスプライスして
スプライス・ベクトルを得るための手段を含むことを特
徴とする上記（１１）に記載の装置。（１３）各フレームを前記クラスの１つでもってタグ付
けするための手段を含むことを特徴とする上記（１１）
に記載の装置。（１４）前記相異なるクラスは隣接の音声セグメントと
の種々な量の重畳を生じることを特徴とする上記（１
１）に記載の装置。（１５）音声セグメントを一連のフレームに配列するた
めの手段と、前記フレームの各々において、前記音声信
号を表すベクトルを得るための手段と、Ｎ個の異なる変
換体を得るための手段であって、各変換体はＮ個のクラ
スの１つとそれぞれ関連付けられ、各クラスは隣接の音
声部分に対する１つの音声部分の近似度の表示を与える
手段と、前記変換体に前記ベクトルを掛け算することに
よって各フレームに対するＮ個の相異なるプロジェクト
されたベクトルのセットを生成するための手段、各モデ
ル遷移を前記Ｎ個のクラスの１つでもってタグ付けする
ためにモデルを利用するための手段と、少なくとも１
つの特定の音声セグメントが前記フレームに存在する確
率を計算するために対応のタグを持った前記プロジェク
トされたベクトルを利用するための手段と、を含む音声
認識装置。（１６）前記モデルは複数個のフェノンに基づいている
こと及び各フェノンは前記タグの１つと関連付けられて
いることを特徴とする上記（１５）に記載の装置。（１７）前記モデルは複数個の音素に基づいていること
及び各音素は前記タグの１つと関連付けられていること
を特徴とする上記（１５）に記載の装置。（１８）一連の隣接したベクトルをスプライスしてスプ
ライス・ベクトルを得るための手段を含むことを特徴と
する上記（１５）に記載の装置。（１９）前記相異なるクラスは隣接の音声セグメントと
の種々な量の重畳を生じることを特徴とする上記（１
５）に記載の装置。（２０）前記変換体は基本判別マトリクスであることを
特徴とする上記（１５）に記載の装置。（２１）音声信号を一連のフレームに配列するステップ
と、基本判別マトリクスに従って１つ又は複数個のウイ
ンドウの幅を音声エンコード・システムのために利用さ
れるように変更するステップであって、各ウインドウ
は、各フレームに対して前記音声信号を表す特徴ベクト
ルを得る同じ音声セグメントを関連づけられた多数の連
続フレームとして定義されるステップと、前記基本判別
マトリクスに前記特徴ベクトルを掛け算することによっ
て各フレームに対するプロジェクトされたベクトルを生
成するステップと、を含み、以て、前記基本判別マトリ
クスは前記音声信号を表すプロジェクトされたベクトル
の値を示すことを特徴とする音声認識方法。（２２）前記音声セグメントのそれの隣接の音声セグメ
ントに対する近似度を表すＮ個の異なるクラスと関連づ
けられたＮ個の基本判別マトリクスが存在することを特
徴とする上記（２１）に記載の方法。（２３）音声信号を一連のフレームに配列するための手
段と、基本判別マトリクスに従って１つ又は複数個のウ
インドウの幅を音声エンコード・システムのために利用
されるように変更するための手段であって、各ウインド
ウは、同じ音声セグメントを関連づけられた多数の連続
フレームとして定義される手段と、各フレームに対する
１つの音声セグメント又は一連の音声セグメントに対し
て、前記音声信号を表す特徴ベクトルを得るための手段
と、前記基本判別マトリクスに前記特徴ベクトルを掛け
算することによって各フレームに対するプロジェクトさ
れたベクトルを生成するするための手段と、を含み、以
て、前記基本判別マトリクスは前記音声信号を表すプロ
ジェクトされたベクトルの値を示すことを特徴とする装
置。（２４）前記音声セグメントのそれの隣接の音声セグメ
ントに対する近似度を表すＮ個の異なるクラスと関連づ
けられたＮ個の基本判別マトリクスが存在することを特
徴とする上記（２３）に記載の装置。（２５）音声認識アプリケーションにおいて利用される
べき値を一連のタグから各タグに適用するための方法で
あって、フレームＦのウインドウがＭ個以下のフレーム
の期間を持った音素に属するかどうかを決定し、それが
肯定された場合には前記音素における各フレームに対す
るタグを第１の値にセットし、それが否定された場合に
は次のステップに進むステップと、前記ウインドウがＮ
個以上のフレームだけ先行の音素に重畳するかどうかを
決定し、それが肯定された場合には、前記タグの値を第
２の値にセットし、それが否定された場合には次のステ
ップに進むステップと、前記ウインドウがＮ個以上のフ
レームだけ後続の音素に重畳するかどうかを決定し、そ
れが肯定された場合には、前記タグの値を第３の値にセ
ットし、それが否定された場合には次のステップに進む
ステップと、前記ウインドウが完全に先行の音素に重畳
するかどうかを決定し、それが肯定された場合には、前
記タグの値を第４の値にセットし、それが否定された場
合には次のステップに進むステップと、前記ウインド
ウが完全に後続の音素に重畳するかどうかを決定し、そ
れが肯定された場合には、前記タグの値を第５の値にセ
ットし、それが否定された場合には次のステップに進む
ステップと、前記タグの値を第６の値にセットするステ
ップと、を含む方法。

【００６６】

【発明の効果】本発明により、プロジェクションを動的
に変化しうる音声認識方法及びシステムが得られる。

【図面の簡単な説明】

【図１】音声認識システムのブロック図である。

【図２】図１に示された音声認識システムによって利用
されるロジックのフローチャートである。

【図３】フェノンのためのヒドン・マルコフ・モデル
（ＨＭＭ）の一実施例を示す。

【図４】ワードに対するＨＭＭの一実施例であって、フ
ェノンのための複数個のＨＭＭが連結されたものを示
す。

【図５】本発明に従って、相互依存してラベルを指定で
き且つＨＭＭワード・ベースフォームを構成できるブロ
ック図である。

【図６】本発明に従って、相互依存してラベルを再指定
し且つＨＭＭワード・ベースフォームを構成する場合に
遂行される一般的なステップを示すフローチャートであ
る。

【図７】本発明の音声認識システムの一実施例のブロッ
ク図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ピーター・ヴィンセント・デソウザアメリカ合衆国カリフォルニア州、サン・ノゼ、ビスタ・ループ 6001 (72)発明者ポナン・ゴパラクリッシュナンアメリカ合衆国ニューヨーク州、ヨークタウン・ハイツ、ラドクリッフ・ドライブ 3073 (72)発明者ミカエル・アラン・ピッチェニーアメリカ合衆国ニューヨーク州、ホワイト・プレインズ、ラルフ・アベニュー 118

Claims

【特許請求の範囲】

【請求項１】Ｎ個の異なる基本判別マトリクスを作成す
るステップであって、各基本判別マトリクスは相異なる
クラスと関連付けられ、各クラスは１つ又は複数個の隣
接した音声セグメントに対する１つの音声セグメントの
近似度の表示であるステップと、音声信号を一連のフレームに配列するステップと、各フレームに対して前記音声信号を表す特徴ベクトルを
得るステップと、前記Ｎ個の異なる基本判別マトリクスの各々に前記特徴
ベクトルを掛け算することによって各フレームに対する
Ｎ個の相異なるプロジェクトされたベクトルのセットを
生成するステップと、を含む音声をエンコードするための方法。
【請求項２】一連の隣接した特徴ベクトルをスプライス
してスプライス・ベクトルを得るステップを含むことを
特徴とする請求項１に記載の方法。
【請求項３】各フレームを前記クラスの１つでもってタ
グ付けするステップを含むことを特徴とする請求項１に
記載の方法。
【請求項４】前記相異なるクラスは隣接の音声セグメン
トとの種々な量の重畳を生じることを特徴とする請求項
１に記載の方法。
【請求項５】Ｎ個の異なる変換体を得るステップであっ
て、各変換体はＮ個のクラスの１つとそれぞれ関連付け
られ、各クラスは隣接の音声セグメントに対する１つの
音声セグメントの近似度の表示を与えるステップと、音声信号を一連のフレームに配列するステップと、前記フレームの各々において、前記音声信号を表すベク
トルを得るステップと、前記変換体に前記ベクトルを掛け算することによって各
フレームに対するＮ個の相異なるプロジェクトされたベ
クトルのセットを生成するステップと、各モデル遷移を前記Ｎ個のクラスの１つでもってタグ付
けするためにモデルを利用するステップと、少なくとも１つの特定の音声セグメントが前記フレーム
に存在する確率を計算するために対応のタグを持ったプ
ロジェクトされたベクトルを利用するステップと、を含む音声認識方法。
【請求項６】前記モデルは複数個のフェノンに基づいて
いること及び各フェノンは前記タグの１つと関連付けら
れていることを特徴とする請求項５に記載の方法。
【請求項７】前記モデルは複数個の音素に基づいている
こと及び各音素は前記タグの１つと関連付けられている
ことを特徴とする請求項５に記載の方法。
【請求項８】一連の隣接したベクトルをスプライスして
スプライス・ベクトルを得るステップを含むことを特徴
とする請求項５に記載の方法。
【請求項９】前記相異なるクラスは隣接の音声セグメン
トとの種々な量の重畳を生じることを特徴とする請求項
５に記載の方法。
【請求項１０】前記変換体は基本判別マトリクスである
ことを特徴とする請求項５に記載の方法。
【請求項１１】Ｎ個の異なる基本判別マトリクスを作成
するための手段であって、各基本判別マトリクスは相異
なるクラスと関連付けられ、前記クラスは１つ又は複数
個の隣接した音声セグメントに対する１つの音声セグメ
ントの近似度の表示である手段と、音声信号を一連のフレームに配列するための手段と、各フレームに対して前記音声信号を表す特徴ベクトルを
得るための手段と、前記Ｎ個の異なる基本判別マトリクスの各々に前記特徴
ベクトルを掛け算することによって各フレームに対する
Ｎ個の相異なるプロジェクトされたベクトルのセットを
生成するための手段と、を含む音声をエンコードするための装置。
【請求項１２】一連の隣接した特徴ベクトルをスプライ
スしてスプライス・ベクトルを得るための手段を含むこ
とを特徴とする請求項１１に記載の装置。
【請求項１３】各フレームを前記クラスの１つでもって
タグ付けするための手段を含むことを特徴とする請求項
１１に記載の装置。
【請求項１４】前記相異なるクラスは隣接の音声セグメ
ントとの種々な量の重畳を生じることを特徴とする請求
項１１に記載の装置。
【請求項１５】音声セグメントを一連のフレームに配列
するための手段と、前記フレームの各々において、前記音声信号を表すベク
トルを得るための手段と、Ｎ個の異なる変換体を得るための手段であって、各変換
体はＮ個のクラスの１つとそれぞれ関連付けられ、各ク
ラスは隣接の音声部分に対する１つの音声部分の近似度
の表示を与える手段と、前記変換体に前記ベクトルを掛け算することによって各
フレームに対するＮ個の相異なるプロジェクトされたベ
クトルのセットを生成するための手段、各モデル遷移を前記Ｎ個のクラスの１つでもってタグ付
けするためにモデルを利用するための手段と、少なくとも１つの特定の音声セグメントが前記フレーム
に存在する確率を計算するために対応のタグを持った前
記プロジェクトされたベクトルを利用するための手段
と、を含む音声認識装置。
【請求項１６】前記モデルは複数個のフェノンに基づい
ていること及び各フェノンは前記タグの１つと関連付け
られていることを特徴とする請求項１５に記載の装置。
【請求項１７】前記モデルは複数個の音素に基づいてい
ること及び各音素は前記タグの１つと関連付けられてい
ることを特徴とする請求項１５に記載の装置。
【請求項１８】一連の隣接したベクトルをスプライスし
てスプライス・ベクトルを得るための手段を含むことを
特徴とする請求項１５に記載の装置。
【請求項１９】前記相異なるクラスは隣接の音声セグメ
ントとの種々な量の重畳を生じることを特徴とする請求
項１５に記載の装置。
【請求項２０】前記変換体は基本判別マトリクスである
ことを特徴とする請求項１５に記載の装置。
【請求項２１】音声信号を一連のフレームに配列するス
テップと、基本判別マトリクスに従って１つ又は複数個のウインド
ウの幅を音声エンコード・システムのために利用される
ように変更するステップであって、各ウインドウは、各
フレームに対して前記音声信号を表す特徴ベクトルを得
る同じ音声セグメントを関連づけられた多数の連続フレ
ームとして定義されるステップと、前記基本判別マトリクスに前記特徴ベクトルを掛け算す
ることによって各フレームに対するプロジェクトされた
ベクトルを生成するステップと、を含み、以て、前記基本判別マトリクスは前記音声信号を表すプ
ロジェクトされたベクトルの値を示すことを特徴とする
音声認識方法。
【請求項２２】前記音声セグメントのそれの隣接の音声
セグメントに対する近似度を表すＮ個の異なるクラスと
関連づけられたＮ個の基本判別マトリクスが存在するこ
とを特徴とする請求項２１に記載の方法。
【請求項２３】音声信号を一連のフレームに配列するた
めの手段と、基本判別マトリクスに従って１つ又は複数個のウインド
ウの幅を音声エンコード・システムのために利用される
ように変更するための手段であって、各ウインドウは、
同じ音声セグメントを関連づけられた多数の連続フレー
ムとして定義される手段と、各フレームに対する１つの音声セグメント又は一連の音
声セグメントに対して、前記音声信号を表す特徴ベクト
ルを得るための手段と、前記基本判別マトリクスに前記特徴ベクトルを掛け算す
ることによって各フレームに対するプロジェクトされた
ベクトルを生成するするための手段と、を含み、以て、前記基本判別マトリクスは前記音声信号を表すプ
ロジェクトされたベクトルの値を示すことを特徴とする
装置。
【請求項２４】前記音声セグメントのそれの隣接の音声
セグメントに対する近似度を表すＮ個の異なるクラスと
関連づけられたＮ個の基本判別マトリクスが存在するこ
とを特徴とする請求項２３に記載の装置。
【請求項２５】音声認識アプリケーションにおいて利用
されるべき値を一連のタグから各タグに適用するための
方法であって、フレームＦのウインドウがＭ個以下のフレームの期間を
持った音素に属するかどうかを決定し、それが肯定され
た場合には前記音素における各フレームに対するタグを
第１の値にセットし、それが否定された場合には次のス
テップに進むステップと、前記ウインドウがＮ個以上のフレームだけ先行の音素に
重畳するかどうかを決定し、それが肯定された場合に
は、前記タグの値を第２の値にセットし、それが否定さ
れた場合には次のステップに進むステップと、前記ウインドウがＮ個以上のフレームだけ後続の音素に
重畳するかどうかを決定し、それが肯定された場合に
は、前記タグの値を第３の値にセットし、それが否定さ
れた場合には次のステップに進むステップと、前記ウインドウが完全に先行の音素に重畳するかどうか
を決定し、それが肯定された場合には、前記タグの値を
第４の値にセットし、それが否定された場合には次のス
テップに進むステップと、前記ウインドウが完全に後続の音素に重畳するかどうか
を決定し、それが肯定された場合には、前記タグの値を
第５の値にセットし、それが否定された場合には次のス
テップに進むステップと、前記タグの値を第６の値にセットするステップと、を含む方法。