JPH086587A - 動的特徴を使用した音声認識方法及び装置 - Google Patents
動的特徴を使用した音声認識方法及び装置Info
- Publication number
- JPH086587A JPH086587A JP7071226A JP7122695A JPH086587A JP H086587 A JPH086587 A JP H086587A JP 7071226 A JP7071226 A JP 7071226A JP 7122695 A JP7122695 A JP 7122695A JP H086587 A JPH086587 A JP H086587A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- vector
- frame
- different
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 239000013598 vector Substances 0.000 claims abstract description 192
- 239000011159 matrix material Substances 0.000 claims abstract description 51
- 230000005236 sound signal Effects 0.000 claims abstract description 22
- 230000008859 change Effects 0.000 claims abstract description 12
- 230000007704 transition Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 description 17
- 238000012549 training Methods 0.000 description 17
- 230000000875 corresponding effect Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000006260 foam Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Image Analysis (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
方法及びシステムを提供する。 【構成】この音声認識技法は一組のN個の相異なる基本
判別マトリクスを利用する。各基本判別マトリクスはそ
れに独特のクラスと関連している。そのクラスは隣接の
音素に対する音声セグメントの近似度を表すものであ
る。音声エンコードのための技法は音声信号を一連のフ
レームに配列することを含む。各フレームに対して1つ
の又は一連の音声セグメントに対する音声信号を表す特
徴ベクトルが取り出される。基本判別マトリクスにその
ベクトルを掛け算することによって、各フレームに対す
るN個の相異なるプロジェクトされたベクトルが生成さ
れる。プロジェクトされたベクトルは対応するタグと共
に利用されて、少なくとも1つの特定の音声部分が上記
フレームに存在する確率を計算する。
Description
であり、更に詳しく云えば、隣接した音素(phon
e)又はフェノン(fenone)が如何に近接した間
隔で1つの発音内に位置づけられているかに基づいて動
的に変化する特徴抽出技法を使用した音声認識システム
及び方法に関するものである。その特徴抽出プロセス
は、その発音における音素の変化率に応答して修正さ
れ、従って、従来の技法よりも更に効果的な音声モデル
化を可能にする。
にセグメント化することは、音声学者にとって一般的な
ことである。それら音声素子は国際音声字母(Internat
ionalPhonetic Alphabet ) から選択される。音素は、
トレーニングした言語学者が1つにワードのうちの異な
る音響セグメントとして認識することができる比較的小
さいワード・セグメントである(例えば、i、e、a
e、sはすべて音素を表す)。典型的には、言語学者は
1つのワードに耳を傾け、自らの経験に基づいて連続部
分とそれぞれの音声素子とを照合し、1つの発音された
ワードの適当な表音式綴りを決定する。
に用いられている。又、音声シーケンスは、一般的に
は、音声認識に適用されており、特に、ヒドン・マルコ
フ・モデル(以下、「HMM」と呼ぶ)を利用した音声
認識に適用されている。HMM音声認識の場合、種々の
音声素子がそれぞれのHMMによって表される。その場
合、各ワードが一連の音素HMMに対応する。
ある。フェノンは、トレーニングされた聞き手でもそれ
らの発生を必ずしも認識し得ないほど急速に変化するこ
とが多い。例えば、ワード「beat」が発音される
時、音素は「b」、「e」、及び「t」として認識され
る。各音素におけるフェノンは急速に変化し、単一の音
素は、一連のいくつかのフェノンであるとみなすことが
できる。ワード「beat」における音素「t」はいく
つかのフェノン、例えば5つのフェノンを含むことが可
能である。
ブロックを使用したことによる重要な成果は、比較的少
量のデータを使用して自動音声認識システムがトレーニ
ング可能であるということである。トレーニング・デー
タは、各ワードのいくつかのサンプルの代わりに、各音
素又はフェノンのサンプルを含む必要があるだけであ
る。しかし、各音素が文脈依存性又は同時調音(co-art
iculation)の効果に関係なく独立してモデル化される場
合、その結果生じる音響モデルは、1つの音素の発音が
隣接の音素に依存するという事実のために不正確となる
ことがある。
ンを動的に変化させる音声認識方法及びシステムを提供
することにある。
はフェノンに関する当該音素又はフェノンの位置に基づ
いて特徴抽出を行うことによって、より正確な音声認識
を行う非常に有用な方法及び装置を提供することにあ
る。
コーディング技法の実施例は、N個の異なる基本判別マ
トリクスのセットを利用する。各基本判別マトリクスは
それぞれ独特のクラスと関連しており、そのクラスは隣
接の音声部分に対する当該音声部分の近似度を表すもの
である。その音声エンコーディングの技法は、音声信号
を一連のフレームの形に配列することを含む。各フレー
ムに対する音声信号を表すパラメータ・ベクトルが取り
出される。いくつかの隣接したパラメータ・ベクトルを
スプライスすることによって、各フレームに対して1つ
のスプライスしたパラメータ・ベクトルが発生される。
N個の異なる基本判別マトリクスの各々にそれらスプラ
イスしたベクトルを掛け算することによって、各フレー
ムに対してN個の異なるプロジェクトされたベクトルの
セットが発生される。この音声エンコーディング技法
は、音声認識システムにおける使用に十分適する。
タは、本来、説明上のものであって、技術範囲を限定す
ることを意図するものではない。本発明は、フェノン及
び音素を同じように利用することが可能である。
例の技法を使用し得る音声信号処理システムの詳細な説
明を行う。
である。その自動音声認識システム39は2つの主要な
サブシステム、即ち、音響プロセッサ42及び言語デコ
ーダ43を含む。音響プロセッサ42のタスクは、発話
(話し手によって発声された音声信号40により表され
る)に応答して、各時間フレームに対して、特徴ベクト
ルと呼ばれる50次元ベクトル44を発生することであ
る。50次元ベクトルのパラメータ値の各々は多次元座
標システムで配列される。このプロセスは特徴抽出とも
呼ばれる。音響プロセッサ42の機能及びオペレーショ
ンは、図2を参照して、以下で更に詳細に示すことにす
る。言語デコーダ43は50次元ベクトル44を受け取
り、ワードを作成する。図1には、2つのタイプの言語
デコーダが示される。第1のタイプの言語デコーダ41
aは認識装置46aを介して50次元ベクトル44を直
接に処理し、ワード・シーケンスを出力する。このタイ
プのデコーダは連続的パラメータHMMを使用する。第
2のタイプの言語デコーダ41bはベクトル量子化器4
8を利用して、先ず、50次元ベクトルをラベル50に
変換し、しかる後、それらラベルが認識装置46bに入
力されて、そこからワード・シーケンスを出力させる。
その第2のタイプの言語デコーダ46bは別々のHMM
を使用する。
その音響プロセッサ42からの出力を利用し、ベクトル
量子化器48からのラベルのシーケンス又は50次元特
徴ベクトル44のシーケンスを与えられた最大の後次確
率(posteriori probability)を持つワード・シーケンス
〈W〉を見つけようとする。言語デコーダは別々のワー
ドの蓋然性あるモデルとしてHMMを利用し、最大の確
率を生じるワード・シーケンスを選択する。
な音声認識の基本方程式によって指定される。
シーケンスであり、Aは観察されたラベル又は特徴ベク
トルのシーケンスである。この方程式における最終的な
相等は確率に関するベイズの法則及びPr(A)がWに無
関係であるという事実に従っている。そのようにして得
られた最適なデコーダは、シーケンス・エラー率を最小
にする。
W)及び言語前の確率Pr(W)を推定するための蓋然性
あるモデルを必要とする。本発明の1つの観点は、音響
チャネル確率Pr(A/W)の決定である。
4は、アナログ音声信号をサンプルし、A/D変換及び
他の信号処理ステップを遂行して、その音声信号のディ
ジタル表示を発生する(典型的には、アナログ信号は同
期的態様で、毎秒2万回サンプルされる)。フレームと
呼ばれる規則的な間隔で(典型的には、1/100
秒)、1ブロックのディジタル化した音声が高速フーリ
エ変換66ステップ(以下、「FFT」と呼ぶ)を使用
してその周波数ドメインに変換され、種々の周波数帯域
におけるスペクトル・エネルギのベクトルを発生する
(ステップ68)。周波数帯域の数は、典型的には20
である。ステップ66及び68は、各時間フレーム当た
り1回遂行される。
を使用して異なる周波数帯域68が更に変換される。そ
の耳のモデルの概念は、周波数帯域の強度が変化する
時、人の耳は実際に生じた音の強度とは異なる音の強度
を知覚するであろうと云う実感に基づいている。例え
ば、特殊な周波数における信号の突然のステップ増加
(更に大きい強度)がある場合、人の耳は、そのステッ
プの始めでは、わずかな時間の後よりも高い強度を知覚
するであろう(たとえ、両方の時間フレームがすべての
検出可能な周波数帯域にわたって等しい強度を持つとし
ても)。その耳のモデル70は、或周波数の信号の動的
特性がその耳によって知覚される方法に関連し、そして
人の耳が各時間フレーム及び各周波数帯域に対する信号
の強度を検出する方法を表すモデルを作る。それ以上の
処理はすべて種々のスペクトル・エネルギ68又は耳の
モデル70に基づくものであり、ベクトル68又は70
が利用される時にはいつも20コンポーネントのベクト
ル72とみなされる。20コンポーネント・ベクトル7
2の周波数範囲は、典型的な人の耳が検出できる周波数
範囲のそれにほぼ対応する。
プロセッサ42は、多くの20コンポーネント・ベクト
ル(通常は、考察した20コンポーネント・ベクトルの
前の4つの20コンポーネント・ベクトル及びそれの後
の4つの20コンポーネント・ベクトル)をスプライス
して、1つのスプライスした(又は、180コンポーネ
ント)ベクトル74を生じさせる。そこで、そのスプラ
イスしたベクトルはプロジェクトされ(即ち、同じプロ
セスに対して別の用語を使用すれば、回転させられ)、
図1及び図2に示された50次元の特徴ベクトル44を
発生する。50次元の(プロジェクトされた)特徴ベク
トル44を得るプロセスは、50*180マトリクスで
あって且つ後述のようにして取り出された基本判別マト
リックス76に180コンポーネントの(スプライスし
た)ベクトル74を掛け算して50次元の(スプライス
した)ベクトル44を生じさせることに関連する。その
50次元の特徴ベクトルは、直ちに図1の言語デコーダ
43によって利用される。スプライスを使用しない音響
プロセッサでは、20コンポーネントのベクトルが他の
下位次元のスペースに直接にプロジェクト可能であり、
その場合、プロジェクトされたベクトル44は20又は
もっと少ない次元を持つであろう。
徴ベクトル、又は図1のベクトル量子化器48によって
発生されたラベルは、HMMのアークに沿って出力とし
て発生可能な同じベクトル又はラベルである。アーク確
率及び出力確率がトレーニングプロシージャ時に割り当
てられた後、発音が1つのHMM又は一連のHMM(そ
のシーケンスは音素又はワード・ベースフォームに対応
する)に対応する可能性を決定するための認識プロシー
ジャがそれに続くであろう。即ち、特徴ベクトルV1V2
V3・・・・又はラベルf1f2f3・・・・等が、複数の
連続した音声期間の間、音響プロセッサ又はベクトル量
子化器によって発生されたとすれば、1つのHMM又は
一連のHMMの各パスを通して進行しそして特徴ベクト
ルV1V2V 3・・・・又はラベルf1f2f3・・・・の特
殊ストリングを発生する可能性を決定することが可能で
ある。1つの語彙における1つのワードに対してこの計
算を行うことはそのワードの可能性を測定するものであ
る。
ればなるほど、音声認識システムは信頼性が高くなる。
ワードの構成部分を定義するために音声学者(及び音素
の代表的な適用例)を信頼することは、その結果とし
て、モデル化を任意なものにし、ワードのベースフォー
ム(即ち、ワード形成する構成部分のシーケンス)の一
様性に不足を生じることがあることがわかった。
が量子化器48を通して送られてラベルを発生させる音
声認識システムをこの項で説明する。ベクトル量子化器
48に続くHMMベースの認識装置46bは、そのラベ
ル・ストリームを与えられる可能性が最も高いワード・
シーケンスを計算する。典型的には、その音声認識シス
テムの新しい各ユーザに対する登録プロセスの一部分と
して遂行される認識装置のトレーニングは、通常は、K
平均クラスタリングのような反復手順及び順方向・逆方
向アルゴリズムを使用してHMM遷移及び出力確率を見
積ることによるVQプロトタイプの計算を伴う。
N次元空間における別々のクラスタを識別する。但し、
Nは、ベクトル・コンポーネントの数に対応する整数で
ある。音声入力に対して、音響プロセッサは、各ラベル
が別々の音声期間に対応する一連のラベルを発生する。
基本的には、音響プロセッサは音声入力を、連続したフ
レームで発生される連続した特徴ベクトルに変換し、連
続した特徴ベクトルの各々にラベルを割り当てる。決定
されたクラスタを識別するラベルが、そのフレームに対
する出力として与えられる。
徴ベクトルを利用するベクトル量子化 一般に、スプライスされプロジェクトされた特徴ベクト
ルを利用するベクトル量子化器は、ベクトル量子化プロ
セスにおいて、単一ベクトルを利用するベクトル量子化
器よりも更に正確なラベルを発生する。スプライスされ
プロジェクトされたベクトルを生成しそしてそれらとラ
ベルを関連づけるステップを以下で説明する。それらス
テップを遂行する場合、多数の話し手に対するトレーニ
ング・データが、スプライスされたベクトルを使用した
既存のワード・ベースフォームに抗して収集されそして
配列される(音声認識システムにおいてはよく知られ、
本願ではこれ以上詳述しない「ビタービ(Viterb
i)配列」による)ものと仮定する。好ましくは、既存
の各ベースフォームは一連の音素HMM又はフェノニッ
ク(fenonic)HMMである。本願では、用語
「ベクトル」及び「パラメータ・ベクトル」は同義語で
ある。下記のステップ1乃至5は学習プロセス記述し、
プロジェクトされた特徴ベクトルを構成する方法を記述
する。残りのステップは、入力される逐語的発話を認識
するために、図1の音声認識装置がそのトレーニングさ
れ、スプライスされ、プロジェクトされた特徴ベクトル
を使用する方法に関するものでる。
る各20コンポーネントのベクトル(「標準」ベクトル
としても知られている)に対して、考慮中の20コンポ
ーネントのベクトルの各々をK個の先行ベクトル及びK
個の後続ベクトルと連結して180コンポーネントのベ
クトルを形成することによって、新しい180コンポー
ネントのベクトル作成する。K=4を使うことが最もよ
く動作することがわかっている。 ステップ2:ビタービ配列を使用して、各時間フレーム
に対し、元の20コンポーネントのベクトルの時間フレ
ームと整列した音素又はフェノンの名前でもってその対
応する180コンポーネントのベクトルをタグ付けす
る。従って、スプライスされたベクトルは、音声字母又
はフェノン字母における音素又はフェノンの1つに割り
振られる。 ステップ3:ステップ2において決定された音素のタイ
プ又はフェノンのタイプを区別するためのP個の(典型
的には、50個の)最も相互に相関しない基本判別マト
リクスを、そのスプライスされたパラメータ・ベクトル
を使用して計算する。即ち、M個の音素又はフェノンの
タイプから取り出されたN個のスプライスされたベクト
ルを考察する。k番目のベクトルのうちのi番目の素子
をxikと表すことにする。そこで、データSのサンプル
共分散マトリクスが次のように定義される。
で、サンプルのクラス内の共分散マトリクスWは次のよ
うに定義される。
タのサンプル共分散マトリクスである。クラス相互間の
相違を最大にするために、比(v'Sv/v'Wv)を最
大にし且つ相互に相関しない線形判別関数vが求められ
る。必要なベクトルは、マトリクスW-ISのうちの最初
のP個の基本判別マトリクスとして得られる。これら
は,基本判別マトリクスと呼ばれるマトリクス列として
配列される。 ステップ4:計算された基本判別マトリクスを使用し
て、180コンポーネントのベクトルをP次元ベクトル
にプロジェクトし、そのプロジェクトされたベクトル
を、対応する180コンポーネントのベクトルの音素又
はフェノンでもってタグする。 ステップ5:個々の各音素又はフェノンに対して、P次
元のプロジェクトされたベクトルの各々の平均及び平方
偏差を計算する。これら平均及び平方偏差は対角ガウス
のプロトタイプ・マトリクスで形成され、スプライスさ
れたプロジェクトされた特徴ベクトルをラベル付けする
場合に使用される。従って、各プロトタイプは,それと
関連した音素ラベル又はフェノン・ラベルを有する。
算してしまうと、新しいデータは次のようにラベル付け
される。 ステップ6:通常の方法で20コンポーネントのベクト
ルを得る。 ステップ7:ステップ1において前述したように、20
コンポーネントのベクトルを連結することによって18
0コンポーネント・ベクトルを作成する。 ステップ8:ステップ3において得られた基本判別マト
リクスを使用して180コンポーネントのベクトルをP
次元ベクトルにプロジェクトする。 ステップ9:ステップ5の対角ガウスのプロトタイプを
使用して回転ベクトルをラベル付けする。即ち、所与の
回転ベクトルに対して、その可能性を最大にするプロト
タイプを見つけ、そのプロトタイプと関連したラベルを
出力する。
ント エネルギ68のスペクトル又は耳のモデル70(それら
の両方ともコンポーネント・ベクトル72であると考え
られる)は、特殊なスペクトル周波数によってカバーさ
れる周波数範囲内のフレームにおける時間波形のエネル
ギに対応した複数個の値を含む。例えば、母音は低い周
波数範囲におけるそれらのエネルギの殆どを発生する傾
向があり、それによって、それらの20コンポーネント
のベクトルにおける低い周波数範囲にそれらのエネルギ
の殆どを集中させる。それに比べて、摩擦音は、それら
のエネルギの殆どを高い周波数において発生する。各2
0次元ベクトルは、そのフレームにおける音声信号の瞬
間的な特徴に関する情報を含んでいる。動的な特徴は、
いくつかの連続したフレームに対するベクトルを利用す
ることによって得ることが可能である。
トル72が一緒にスプライスされて180コンポーネン
トのベクトル74を形成する。連続した180コンポー
ネントのベクトルにはスペクトルの特徴のオーバラップ
がある。そのオーバラップのうちのいくつかを除去する
ために、従って、スプライスされたベクトルにおける冗
長性を減少させるために、各ベクトルは、50*180
マトリクスをそのベクトルに乗ずることによって低い次
元(例えば、50次元)空間にプロジェクトされる。こ
のプロジェクション・マトリクスの列は基本判別マトリ
クスである。本願を通して使用される用語「基本判別マ
トリクス」は用語「固有ベクトル」と同義であり、それ
と相互交換可能であると考えられる。180コンポーネ
ントのベクトルは、各180コンポーネントのベクトル
に基本判別マトリクスを掛け算することによって処理さ
れる。
たベクトルに対して一定のウインドウ・サイズ及び一定
のプロジェクションが仮定された。適当な音声認識シス
テムが50個の基本判別マトリクスのコンパイルによっ
て機能することができる。同じ発音のプロジェクトされ
た値も、理論的には、同じでなければならない。しか
し、発音及び雑音における相違のために、同じ発音が異
なる人によって、又は異なる時間に同じ人によって行わ
れた時、そのプロジェクトされた値にわずかな相違があ
るであろう。スプライス・ベクトル・ステップ18の1
80コンポーネントのベクトルは、図1に示されたよう
なベクトル量子化器を通して動作する場合、50次元ベ
クトル44又はラベル50を発生するためにプロジェク
トされる。
を修正することが望ましい。音素又はフェノンがいくつ
かのフレームに対して同じままであるその信号の部分の
間、その音素又はフェノンの静的特性のより良い評価を
与えるために、一緒にスプライスされたフレームのウイ
ンドウWのサイズを拡大することが望ましい。しかし、
音素又はフェノンが急速に変化する簡単な音響的事象の
間、急速に変化しようとしている先行の又は後続の音素
又はフェノンにより簡単な事象の効果を消滅させること
を回避するために、ウインドウWのサイズを小さくする
ことが望ましい。一般的には、ウインドウWのサイズ
は、先行の又は後続の音素又はフェノンの境界の近似度
に依存することが望ましい。
ために都合のよい方法は、ウインドウWを大きく且つ一
定に保つことであるが、その代わりに、動的に変化する
プロジェクションを持つことである。ウインドウのサイ
ズを減少させることは、基本判別マトリクスのプロジェ
クション・マトリクスにおける値のうちのいくつかをゼ
ロにセットすることに等価である。隣接の音素又はフェ
ノンの近似度に従って、動的に変化するプロジェクショ
ンを構成するための方法については後述する。ウインド
ウ・サイズを変化させることは、この技法の特別なケー
スである。
可能な本発明の音声信号処理システムの一実施例を説明
する。
F)と表し、ラベル字母をφ=(1,2,・・・・,
L)と表す。各フェノンf∈τに対して、図3に示され
たタイプの簡単なHMMがある。そのモデルは、2つの
状態、即ち、σ=[f,1]及びσ=[f,2]を有す
る。但し、第1インデックスはフェノンfを表し、第2
インデックスはそのフェノンの最初及び最後の状態を表
す。σ=[f,1]からσ=[f,2]への1つのヌル遷
移があり、p(f,n)によって表される。但し、記号n
はヌルを表す。2つの出力発生の遷移(実線)があり、
ψ=[f,s]及びψ=[f,d]によって表される。記
号sは自己ループを表し、σ=[f,1]からσ=[f,
1]への遷移を表す(それは、フェノンが同じままであ
るワード発音における期間にそのモデルを適応させ
る)。記号dは直接パスを表し、σ=[f,1]からσ
=[f,2]への遷移を表す。HMMのパラメータは次
のような3つの遷移確率、
ェノニック・パラメータである。
(4)及び(5)において定義される場合、ワード、音
素、音節等のようなそれぞれの音響単位がモデル化され
るために、フェノニックHMMを構成することが可能で
ある。そのような音響単位の各々に対して、多数のラベ
ル・シーケンス、即ち、Y1,Y2,・・・、YN がトレ
ーニング・データのサンプルから抽出され、これら観察
されたラベル・シーケンスを最もよくモデル化するフェ
ノンBのシーケンスが探索される。観察されたラベル・
シーケンスのセットを生成する最高の確率を持ったフェ
ノン・シーケンスBは、次のように記述可能である。
における上記最大化はスタック・サーチ手順を使用して
実行される。そのシーケンス法は、考察された音響単位
に対するフェノン・ベースフォームと呼ばれる。
る。その場合、各ワードwに対するフェノニック・ベー
スフォームは、次のような長さN(w)の線形シーケンス
によって表される。
・,f(w,N(w))] 但し、各フェノンf(w,i)はF内にある。この表記で
は、第1インデックスはワードwを表し、第2インデッ
クスはベースフォームにおける位置を表す。wに対する
ワードHMMは、B(w)において存在する基本的フェノ
ンHMMを連結することによって構成される。ワードH
MMの例が図4に示される。このモデルの状態は、i=
1,2,・・・、N(w)+1に対してσ=[w,i]に
よって示される。その場合、インデックスはワード及び
ワード内の位置をそれぞれ表す。最後の状態位置インデ
ックスが値N(w)+1を有することに留意してほしい。
このモデルを通した直接路はそのワードの平均的発音を
表すように構成されなければならず、一方、ループ又は
ヌル遷移は、話し手により発音をそれぞれ長くしたり或
いは短くすることを可能にする。
ある。第1のプロセスは、既知の入力が音響プロセッサ
に読み込まれる時にパラメータが学習される「学習プロ
セス」である。第2のプロセスは、学習プロセス後に遂
行される「認識プロセス」であり、そのプロセスでは、
未知のワードが音声入力プログラムに読み込まれ、発音
されたものと同等な英数字が表示される。
日発行の米国特許第5,072,452号である。認識プ
ロセス及び学習プロセスの両方に関連する本願の図5を
参照すると、音響プロセッサ202に入る音声入力が示
される。音声入力は音響波形の形のものである。例え
ば、200個のラベルL1,L2,L3,・・・・,L
200(別々の言語デコーダが使用されるものと仮定す
る)の字母のパラメータ又はベクトル(連続した言語デ
コーダに対する)は音響プロセッサ202に記憶され
る。
スのための音響波形を作成する場合、音声アナログ波形
がディジタル化され、タイム・インターバルが生成さ
れ、そしてその分野では周知のように、ディジタル信号
が高速フーリエ変換を通して送られる。音響プロセッサ
202の出力はラベルf1f2f3f4・・・等及び特徴ベ
クトルy1y2y3y4・・・等を含む。換言すれば、各フ
レームに対応した特徴ベクトル及びラベルが音響プロセ
ッサから出力される。
f3f4・・・等はベースフォーム・トレーナ204に入
る。ベースフォーム・トレーナ204は、各ワード・ベ
ースフォームにおけるHMMに適用されるべき確率を決
定するために使用される。この場合、各「ワード・ベー
スフォーム」は、規定されたシーケンスのHMMを表
す。各HMMは、アーク確率及びラベル確率としてメモ
リに記憶される。
るトレーニング期間中に計算される。その既知のテキス
トに対して、1つの対応した既知のHMMシーケンスが
ある。その既知のテキストが話し手によって音響プロセ
ッサ(例えば、プロセッサ202)へ発声される時、ラ
ベルのストリングが生成される。よく知られたフォワー
ド・バックワード・アルゴリズムを使用することによっ
て、アークに対する確率及びHMMの非ヌル・アークに
おいて発生されたラベルに対する確率がベースフォーム
・トレーナ204によって計算される。ベースフォーム
・トレーナ204によって計算された確率統計はベース
フォーム構成装置206に入る。そのベースフォーム構
成装置206は、各ワードに対するHMMのシーケンス
を決定する。各ワードに対するHMMのシーケンス及び
HMMの各非ヌル・アークに対するアーク確率及びラベ
ル出力確率は、ベースフォーム辞書208に記憶され
る。
クショナリ208は次のようなタイプのデータ項目を記
憶する。 NNODESx =xワード・ベースフォームにおけるノ
ードの数。 NIDij =i番目のワード・ベースフォームにおける
j番目のノードのノード識別子。 NTij =ノードNIDij からのアーク(遷移)の数。 Tijk =ノードNIDij からのアーク(遷移的)の
数。 Sijk =アーク(遷移)Tijk に対する統計ポインタ
(即ち、HMMシーケンス及び確率統計)及び連続的な
音声期間に対応した特徴ベクトルがラベル再指定装置2
10に入る。ラベル再指定装置210は、ワード・ベー
スフォーム構成時に生成されたデータに基づいてそれら
ラベルと関連したプロトタイプ・ベクトル及びクラスタ
を再定義する。
「成長」させる4つの主要なステップを示した図6に表
される。トレーニング期間中、ワードは既知の順序で発
声され、ラベルのストリングは、「ワード・ベースフォ
ームを成長させるステップ」302における発音に応答
して生成される。照合プロシージャ・ステップ304
(「ビタービ配列を得る」として参照される)では、ト
レーニング・テキストの発音に応答して生成されるラベ
ルの連続的なサブストリングがワード・ベースフォーム
における各HMMと関連づけられる。従って、トレーニ
ング・テキストにおいて発音された第1ワードにおける
第1HMMに対して、整列したラベル・サブストリング
がある。第2HMMに対しては、第2サブストリングが
あり、そのプロセスは、すべてのHMMが第2サブスト
リングを持つまで継続する。
する。各ラベルは、音声の期間中に入力された特徴ベク
トルと各プロトタイプ・ベクトルとを比較することによ
って選択される。最も近接したプロトタイプ・ベクトル
のラベルがそのフレームに割り当てられる。HMMのセ
ットにおける各HMMはラベル字母におけるラベルに対
応し、好ましくは、発音ベースのHMMよりも簡単な構
造を有する。フェネミック(fenemic)HMMが
図3に示されている。「フェニーム(feneme)」
は、「ラベル」に対する別の表記である。更に詳しく云
えば、図3のフェノンτのフェネミックHMMは2つの
状態、[f,1]及び[f,2]を有する。1つの非ヌル
・ループは、状態[f,1]から延びてそれ自身に戻
る。1つの非ヌル・ループは状態[f,1]から状態
[f,2]に延び、ヌル・アークは状態[f,1]から状
態[f,2]に延びる。3つのアークの各々は、p(f,
s)、p(f,d)、及びp(f,n)が後続するそれぞれの
確率を有する。
ォームは、好ましくは、フェネミックHMMのシーケン
スであり、ビタービ配列ステップ304は各フェネミッ
ク・モデルとラベルとの関連づけに関するものである。
ステップ304では、所与のHMMと整列させられ且つ
関連づけられたラベルが識別される。ラベル(フェネミ
ックHMMに対応する)が取り出される特徴ベクトルも
識別される。各フェネミックHMMに対して、それと関
連した0個、1個、2個、又はそれ以上の特徴ベクトル
がある。ステップ306では、各フェネミックHMMに
対して識別された特徴ベクトルが平均値及び共分散値を
推定するために結合される。
平均値及び共分散値は、ステップ308に従って入力音
声データを再ラベル付けする場合に使用される。更に詳
しく云えば、所与の音声間隔に対応したラベルを選択す
る場合、それのために生成された特徴ベクトルがその平
均値に比較され、その共分散値が各ラベルに対して指定
される。即ち、ラベルjに対応したフェネミックHMM
に対する平均値及び共分散値は、入力された特徴ベクト
ル及びラベルjの間の距離を決定するために使用され
る。簡単に云えば、各j番目のラベルは、そのj番目の
ラベルに対応したフェネミックHMMの平均値及び共分
散値に基づいて再指定されるラベルの新しい仕様が図3
の音響プロセッサ202に入れられる。音響プロセッサ
202はその再指定されたラベルに基づいて音声をラベ
ル付けする。
ード「beat」は音素b,e、及びtを含む。「b」
及び「t」は比較的速く発音される音素であり、一方、
音素「e」は他の2つのものよりもずっと長く引き伸ば
される。音素「b」及び「t」の短い期間にわたる特徴
ベクトルは、音素「e」の比較的長い期間にまたがる特
徴ベクトルよりも変化のないことも真である。
クリプトの発音表示に揃えられているものと仮定する。
話された言葉における音素が如何に速く変化しようとし
ているかを決定するために、ラベル/フェノン字母が使
用される。そのラベル/フェノン字母は、各ラベル又は
フェノンと関連したクラス及び基本的フェノンのセット
より成る。クラスは、音素が如何に速く変化しようとし
ているかに関する表示を与える。次のようなクラス(1
乃至6)は各音素にタグ付けされる。このセグメントを
音素のタグ付けに関連して説明するけれども、フェノン
のタグ付けに同様のステップを適用することも可能であ
る。
有する音素に属する場合、その音素における各フレーム
に対してタグを1にセットする。そうでない場合、ステ
ップ2に進む。Mに対する妥当な値は5である。Mは、
比較的短い音素の上側の期間を定義する値である。 2.フレームFのウインドウが先行の音素にNフレーム
以上だけ重畳する(そのウインドウには両方の音素の特
性がある)場合、タグの値を2にセットする。換言すれ
ば、音素ウインドウにおける最初の1つ又は2つのフレ
ームのタグ値は2にセットされるであろう。そうでない
場合、ステップ3に進む。Nに対する妥当な値は3であ
る。 3.ウインドウが後続の音素にNフレーム以上だけ重畳
する(そのウインドウには現在の音素及び後続の音素の
両方の特性がある)場合、フレーム・タグを6にセット
する。そうでない場合、ステップ4に進む。 4.ウインドウが先行の音素に完全に重畳する場合、タ
グを3にセットする。そうでない場合、ステップ5に進
む。 5.ウインドウが後続の音素に完全に重畳する場合、タ
グを5にセットする。そうでない場合、ステップ6に進
む。 6.タグを4にセットする。
フレームのウインドウに対して、単一の音素の発音と関
連したタグが下記の表1に示されるように構成可能であ
る。表1及び上記記述は、ラベル/フェノン字母を構成
する方法に関して説明することを意図しており、技術範
囲を限定することを意図するものではない。単一の音素
が4フレームより少なく続く時、それら特徴ベクトル
は、更に長い期間の音素よりもこれらのフレームの期間
にわたってもっと変化のないものと仮定する。従って、
比較的長い期間の間続く音素は、それらの期間にわたっ
てかなり変動する傾向がある。
より行われ発音に対して出力されたタグは、比較的速い
話し手によって行われた同じ言葉の発音に比べると異な
るであろう。例えば、遅い話し手が「Mary」の
「M」を発音する時、音素/タグの組合せの連続は次の
ものと同じになるであろう。即ち、M2 M2 M3
M3 M5 M5 M6 M6一方、速い話し手が同じ
ワードを発音する時には、その「M」は、次のように見
える。即ち、M1 M1 M1 M1
可能な集合体を定義する。但し、Pは音素の数である。
その6P個のカテゴリの各々を別々の音響事象として扱
うことは、サイズ6P(ラベルの数に対応する)の音響
的字母に通じる。各カテゴリと関連したフレームは、ラ
ベル・プロトタイプを構成し得る所与のラベルのサンプ
ルとして関連する。これらラベルとの1対1の対応でフ
ェノン又は音素を通常の方法で定義することは、6P個
のフェノンの字母に通じる。
ズの変更 音声の特性に基づくウインドウの動的変更を行う本発明
の技法の一実施例は、動的に変化してウインドウの幅を
効果的に変更する基本判別マトリクスを使うけれども、
ウインドウ・サイズを大きいまま保持する。これは、マ
トリクスにおけるエントリのいくつかをゼロにセットす
ることによって、基本判別マトリクスにおいて達成可能
である。
各々に対する種々のプロジェクションを構成するための
技法を与える。基本判別マトリクスは、次のようにして
計算される。 1.各フェノンを特定の音素及びタグ(同じ音素が伸び
ているその音素の数に依存する)と関連づけるラベル/
フェノン字母を構成する。これは、本願のラベル/フェ
ノン字母の項において前述したようにして達成される。 2.ビタービ配列を使用して、いくつかのトレーニング
・データをトレーニング・スクリプトの音響HMMと整
列させ、それによって、トレーニング・データの各フレ
ームを、その配列により決定された真のラベルの識別で
もってタグ付けする。ビタービ配列は音声認識システム
においてはよく知られており、ここではこれ以上詳述し
ない。 3.ラベル/フェノン字母において表された各個々のフ
レーム・タグに対して、ステップ4及び5を遂行する。 4.フレーム・タグFと関連したステップ2からの真の
ラベルを有するトレーニング・データのすべてのフレー
ムを収集する。 5.ステップ4において収集されたフレームのサブセッ
トを使用して、そのデータに存在するラベル・セット
(即ち、フレーム・タグFと関連したすべてのラベル)
の間を最大限度に区別する基本判別マトリクスを計算す
る。
ベル/フェノン字母で表された各フレーム・タグに対し
て、独特の基本判別マトリクス(6個あるであろう)が
構成されているであろう。フレーム・タグFと関連した
基本判別マトリクスは、値Fを持ったタグ相互間を区別
するように最適化される。ラベル/フェノン字母を構成
する方法のために、基本判別マトリクスの各セットは、
(すべての音素がラベル/フェノン字母の各サブセット
Fにおいて表されるので)すべての生じうる音素相互間
を識別する。
境界に関して異なるフレーム位置を表す。その結果、異
なるクラスから異なる基本判別マトリクスのプロジェク
ションが生じる。従って、基本判別マトリクスのプロジ
ェクションは音素境界に関して種々のフレーム位置で変
わる。
ン・ベースの格子計算中に使用される。Xは、時間Tに
おけるプロジェクトされたないの音響ベクトルを示すも
のとする。Aは、Xを出力するための候補であるアーク
を示すものとし、そしてBは、Aが属するフェノンを示
すものとする。Fは、ステップ1において決定されたフ
ェノンBと関連したフレーム位置であるとする。Eは、
前述の基本判別マトリクス計算のステップ5において構
成されたフレーム部分Fと関連した基本判別マトリクス
であるとする。基本判別マトリクスEを使用してXをプ
ロジェクトし、そしてY(A)はそのプロジェクトされた
ベクトルを示すものとする。時間TにおけるアークAと
関連した可能性、即ち、出力確率は、アーク依存のプロ
ジェクトされたベクトルY(A)を使用して通常の方法で
決定される。
施例のブロック図である。図1の音響プロセッサ42に
よって発生される単一の50次元ベクトル44の代わり
に、図7の実施例は、添字でもってクラスを示された6
個の異なる50次元ベクトル441、442、・・・、4
46 を発生する6個の異なる基本判別マトリクスを利用
する。
446は図7の音響プロセッサ42によって発生される
ので、それら50次元ベクトルの各々を、6個の別々の
ラベルL1乃至L6を発生するためのベクトル量子化器4
8に入力することが可能である。6個の相異なる50次
元ベクトル441乃至446は出力ワード・シーケンス4
7aを発生するように認識装置46aを通して処理可能
であり、6個の相異なるラベルL1乃至L6は出力ワー
ド・シーケンス47bを発生するように認識装置46b
を通して処理可能である。本発明の音素の更に正確な分
類技法を使用して、その認識装置は、従来技術のシステ
ムにおけるよりも更に正確に機能することができる。
る50個の文を読む話し手に関して、連続的な音声認識
実験が行われた。基本判別マトリクスの単一の包括的な
セットを、上記のように構成された6セットによって置
換したら認識エラーの数は大きく低下した。
ジ誘導歪みの程度を数量化する技法を与える(例えば、
4の値をタグ付けされるフレームは重畳することがな
い)。本発明の1つの観点によれば、各フレームに対し
て厳しい、或いは軽い、或いはエッジ誘導のない歪みで
もってラベルを分離することによって、優れた音響的モ
デル化が達成される。
例を提供するものである。この実施例は、本発明の技術
範囲内に留まったまま修正可能である。本願明細書の記
載は主として音素に関して記述されているけれども、フ
ェノンに基づいて同様の音声認識システムを構成するこ
とも可能である。このため、特許請求の範囲における用
語「音声セグメント」は音素と同様にフェノンもカバー
することを意図するものでる。
の事項を開示する。
作成するステップであって、各基本判別マトリクスは相
異なるクラスと関連付けられ、各クラスは1つ又は複数
個の隣接した音声セグメントに対する1つの音声セグメ
ントの近似度の表示であるステップと、音声信号を一連
のフレームに配列するステップと、各フレームに対して
前記音声信号を表す特徴ベクトルを得るステップと、前
記N個の異なる基本判別マトリクスの各々に前記特徴ベ
クトルを掛け算することによって各フレームに対するN
個の相異なるプロジェクトされたベクトルのセットを生
成するステップと、を含む音声をエンコードするための
方法。 (2)一連の隣接した特徴ベクトルをスプライスしてス
プライス・ベクトルを得るステップを含むことを特徴と
する上記(1)に記載の方法。 (3)各フレームを前記クラスの1つでもってタグ付け
するステップを含むことを特徴とする上記(1)に記載
の方法。 (4)前記相異なるクラスは隣接の音声セグメントとの
種々な量の重畳を生じることを特徴とする上記(1)に
記載の方法。 (5)N個の異なる変換体を得るステップであって、各
変換体はN個のクラスの1つとそれぞれ関連付けられ、
各クラスは隣接の音声セグメントに対する1つの音声セ
グメントの近似度の表示を与えるステップと、音声信号
を一連のフレームに配列するステップと、前記フレーム
の各々において、前記音声信号を表すベクトルを得るス
テップと、前記変換体に前記ベクトルを掛け算すること
によって各フレームに対するN個の相異なるプロジェク
トされたベクトルのセットを生成するステップと、各モ
デル遷移を前記N個のクラスの1つでもってタグ付けす
るためにモデルを利用するステップと、少なくとも1つ
の特定の音声セグメントが前記フレームに存在する確率
を計算するために対応のタグを持ったプロジェクトされ
たベクトルを利用するステップと、を含む音声認識方
法。 (6)前記モデルは複数個のフェノンに基づいているこ
と及び各フェノンは前記タグの1つと関連付けられてい
ることを特徴とする上記(5)に記載の方法。 (7)前記モデルは複数個の音素に基づいていること及
び各音素は前記タグの1つと関連付けられていることを
特徴とする上記(5)に記載の方法。 (8)一連の隣接したベクトルをスプライスしてスプラ
イス・ベクトルを得るステップを含むことを特徴とする
上記(5)に記載の方法。 (9)前記相異なるクラスは隣接の音声セグメントとの
種々な量の重畳を生じることを特徴とする上記(5)に
記載の方法。 (10)前記変換体は基本判別マトリクスであることを
特徴とする上記(5)に記載の方法。 (11)N個の異なる基本判別マトリクスを作成するた
めの手段であって、各基本判別マトリクスは相異なるク
ラスと関連付けられ、前記クラスは1つ又は複数個の隣
接した音声セグメントに対する1つの音声セグメントの
近似度の表示である手段と、音声信号を一連のフレーム
に配列するための手段と、各フレームに対して前記音声
信号を表す特徴ベクトルを得るための手段と、前記N個
の異なる基本判別マトリクスの各々に前記特徴ベクトル
を掛け算することによって各フレームに対するN個の相
異なるプロジェクトされたベクトルのセットを生成する
ための手段と、を含む音声をエンコードするための装
置。 (12)一連の隣接した特徴ベクトルをスプライスして
スプライス・ベクトルを得るための手段を含むことを特
徴とする上記(11)に記載の装置。 (13)各フレームを前記クラスの1つでもってタグ付
けするための手段を含むことを特徴とする上記(11)
に記載の装置。 (14)前記相異なるクラスは隣接の音声セグメントと
の種々な量の重畳を生じることを特徴とする上記(1
1)に記載の装置。 (15)音声セグメントを一連のフレームに配列するた
めの手段と、前記フレームの各々において、前記音声信
号を表すベクトルを得るための手段と、N個の異なる変
換体を得るための手段であって、各変換体はN個のクラ
スの1つとそれぞれ関連付けられ、各クラスは隣接の音
声部分に対する1つの音声部分の近似度の表示を与える
手段と、前記変換体に前記ベクトルを掛け算することに
よって各フレームに対するN個の相異なるプロジェクト
されたベクトルのセットを生成するための手段、各モデ
ル遷移を前記N個のクラスの1つでもってタグ付けする
ためにモデルを利用するための手段と、 少なくとも1
つの特定の音声セグメントが前記フレームに存在する確
率を計算するために対応のタグを持った前記プロジェク
トされたベクトルを利用するための手段と、を含む音声
認識装置。 (16)前記モデルは複数個のフェノンに基づいている
こと及び各フェノンは前記タグの1つと関連付けられて
いることを特徴とする上記(15)に記載の装置。 (17)前記モデルは複数個の音素に基づいていること
及び各音素は前記タグの1つと関連付けられていること
を特徴とする上記(15)に記載の装置。 (18)一連の隣接したベクトルをスプライスしてスプ
ライス・ベクトルを得るための手段を含むことを特徴と
する上記(15)に記載の装置。 (19)前記相異なるクラスは隣接の音声セグメントと
の種々な量の重畳を生じることを特徴とする上記(1
5)に記載の装置。 (20)前記変換体は基本判別マトリクスであることを
特徴とする上記(15)に記載の装置。 (21)音声信号を一連のフレームに配列するステップ
と、基本判別マトリクスに従って1つ又は複数個のウイ
ンドウの幅を音声エンコード・システムのために利用さ
れるように変更するステップであって、各ウインドウ
は、各フレームに対して前記音声信号を表す特徴ベクト
ルを得る同じ音声セグメントを関連づけられた多数の連
続フレームとして定義されるステップと、前記基本判別
マトリクスに前記特徴ベクトルを掛け算することによっ
て各フレームに対するプロジェクトされたベクトルを生
成するステップと、を含み、以て、前記基本判別マトリ
クスは前記音声信号を表すプロジェクトされたベクトル
の値を示すことを特徴とする音声認識方法。 (22)前記音声セグメントのそれの隣接の音声セグメ
ントに対する近似度を表すN個の異なるクラスと関連づ
けられたN個の基本判別マトリクスが存在することを特
徴とする上記(21)に記載の方法。 (23)音声信号を一連のフレームに配列するための手
段と、基本判別マトリクスに従って1つ又は複数個のウ
インドウの幅を音声エンコード・システムのために利用
されるように変更するための手段であって、各ウインド
ウは、同じ音声セグメントを関連づけられた多数の連続
フレームとして定義される手段と、各フレームに対する
1つの音声セグメント又は一連の音声セグメントに対し
て、前記音声信号を表す特徴ベクトルを得るための手段
と、前記基本判別マトリクスに前記特徴ベクトルを掛け
算することによって各フレームに対するプロジェクトさ
れたベクトルを生成するするための手段と、を含み、以
て、前記基本判別マトリクスは前記音声信号を表すプロ
ジェクトされたベクトルの値を示すことを特徴とする装
置。 (24)前記音声セグメントのそれの隣接の音声セグメ
ントに対する近似度を表すN個の異なるクラスと関連づ
けられたN個の基本判別マトリクスが存在することを特
徴とする上記(23)に記載の装置。 (25)音声認識アプリケーションにおいて利用される
べき値を一連のタグから各タグに適用するための方法で
あって、フレームFのウインドウがM個以下のフレーム
の期間を持った音素に属するかどうかを決定し、それが
肯定された場合には前記音素における各フレームに対す
るタグを第1の値にセットし、それが否定された場合に
は次のステップに進むステップと、前記ウインドウがN
個以上のフレームだけ先行の音素に重畳するかどうかを
決定し、それが肯定された場合には、前記タグの値を第
2の値にセットし、それが否定された場合には次のステ
ップに進むステップと、前記ウインドウがN個以上のフ
レームだけ後続の音素に重畳するかどうかを決定し、そ
れが肯定された場合には、前記タグの値を第3の値にセ
ットし、それが否定された場合には次のステップに進む
ステップと、前記ウインドウが完全に先行の音素に重畳
するかどうかを決定し、それが肯定された場合には、前
記タグの値を第4の値にセットし、それが否定された場
合には次のステップに進むステップと、 前記ウインド
ウが完全に後続の音素に重畳するかどうかを決定し、そ
れが肯定された場合には、前記タグの値を第5の値にセ
ットし、それが否定された場合には次のステップに進む
ステップと、前記タグの値を第6の値にセットするステ
ップと、を含む方法。
に変化しうる音声認識方法及びシステムが得られる。
されるロジックのフローチャートである。
(HMM)の一実施例を示す。
ェノンのための複数個のHMMが連結されたものを示
す。
き且つHMMワード・ベースフォームを構成できるブロ
ック図である。
し且つHMMワード・ベースフォームを構成する場合に
遂行される一般的なステップを示すフローチャートであ
る。
ク図である。
Claims (25)
- 【請求項1】N個の異なる基本判別マトリクスを作成す
るステップであって、各基本判別マトリクスは相異なる
クラスと関連付けられ、各クラスは1つ又は複数個の隣
接した音声セグメントに対する1つの音声セグメントの
近似度の表示であるステップと、 音声信号を一連のフレームに配列するステップと、 各フレームに対して前記音声信号を表す特徴ベクトルを
得るステップと、 前記N個の異なる基本判別マトリクスの各々に前記特徴
ベクトルを掛け算することによって各フレームに対する
N個の相異なるプロジェクトされたベクトルのセットを
生成するステップと、 を含む音声をエンコードするための方法。 - 【請求項2】一連の隣接した特徴ベクトルをスプライス
してスプライス・ベクトルを得るステップを含むことを
特徴とする請求項1に記載の方法。 - 【請求項3】各フレームを前記クラスの1つでもってタ
グ付けするステップを含むことを特徴とする請求項1に
記載の方法。 - 【請求項4】前記相異なるクラスは隣接の音声セグメン
トとの種々な量の重畳を生じることを特徴とする請求項
1に記載の方法。 - 【請求項5】N個の異なる変換体を得るステップであっ
て、各変換体はN個のクラスの1つとそれぞれ関連付け
られ、各クラスは隣接の音声セグメントに対する1つの
音声セグメントの近似度の表示を与えるステップと、 音声信号を一連のフレームに配列するステップと、 前記フレームの各々において、前記音声信号を表すベク
トルを得るステップと、 前記変換体に前記ベクトルを掛け算することによって各
フレームに対するN個の相異なるプロジェクトされたベ
クトルのセットを生成するステップと、 各モデル遷移を前記N個のクラスの1つでもってタグ付
けするためにモデルを利用するステップと、 少なくとも1つの特定の音声セグメントが前記フレーム
に存在する確率を計算するために対応のタグを持ったプ
ロジェクトされたベクトルを利用するステップと、 を含む音声認識方法。 - 【請求項6】前記モデルは複数個のフェノンに基づいて
いること及び各フェノンは前記タグの1つと関連付けら
れていることを特徴とする請求項5に記載の方法。 - 【請求項7】前記モデルは複数個の音素に基づいている
こと及び各音素は前記タグの1つと関連付けられている
ことを特徴とする請求項5に記載の方法。 - 【請求項8】一連の隣接したベクトルをスプライスして
スプライス・ベクトルを得るステップを含むことを特徴
とする請求項5に記載の方法。 - 【請求項9】前記相異なるクラスは隣接の音声セグメン
トとの種々な量の重畳を生じることを特徴とする請求項
5に記載の方法。 - 【請求項10】前記変換体は基本判別マトリクスである
ことを特徴とする請求項5に記載の方法。 - 【請求項11】N個の異なる基本判別マトリクスを作成
するための手段であって、各基本判別マトリクスは相異
なるクラスと関連付けられ、前記クラスは1つ又は複数
個の隣接した音声セグメントに対する1つの音声セグメ
ントの近似度の表示である手段と、 音声信号を一連のフレームに配列するための手段と、 各フレームに対して前記音声信号を表す特徴ベクトルを
得るための手段と、 前記N個の異なる基本判別マトリクスの各々に前記特徴
ベクトルを掛け算することによって各フレームに対する
N個の相異なるプロジェクトされたベクトルのセットを
生成するための手段と、 を含む音声をエンコードするための装置。 - 【請求項12】一連の隣接した特徴ベクトルをスプライ
スしてスプライス・ベクトルを得るための手段を含むこ
とを特徴とする請求項11に記載の装置。 - 【請求項13】各フレームを前記クラスの1つでもって
タグ付けするための手段を含むことを特徴とする請求項
11に記載の装置。 - 【請求項14】前記相異なるクラスは隣接の音声セグメ
ントとの種々な量の重畳を生じることを特徴とする請求
項11に記載の装置。 - 【請求項15】音声セグメントを一連のフレームに配列
するための手段と、 前記フレームの各々において、前記音声信号を表すベク
トルを得るための手段と、 N個の異なる変換体を得るための手段であって、各変換
体はN個のクラスの1つとそれぞれ関連付けられ、各ク
ラスは隣接の音声部分に対する1つの音声部分の近似度
の表示を与える手段と、 前記変換体に前記ベクトルを掛け算することによって各
フレームに対するN個の相異なるプロジェクトされたベ
クトルのセットを生成するための手段、 各モデル遷移を前記N個のクラスの1つでもってタグ付
けするためにモデルを利用するための手段と、 少なくとも1つの特定の音声セグメントが前記フレーム
に存在する確率を計算するために対応のタグを持った前
記プロジェクトされたベクトルを利用するための手段
と、 を含む音声認識装置。 - 【請求項16】前記モデルは複数個のフェノンに基づい
ていること及び各フェノンは前記タグの1つと関連付け
られていることを特徴とする請求項15に記載の装置。 - 【請求項17】前記モデルは複数個の音素に基づいてい
ること及び各音素は前記タグの1つと関連付けられてい
ることを特徴とする請求項15に記載の装置。 - 【請求項18】一連の隣接したベクトルをスプライスし
てスプライス・ベクトルを得るための手段を含むことを
特徴とする請求項15に記載の装置。 - 【請求項19】前記相異なるクラスは隣接の音声セグメ
ントとの種々な量の重畳を生じることを特徴とする請求
項15に記載の装置。 - 【請求項20】前記変換体は基本判別マトリクスである
ことを特徴とする請求項15に記載の装置。 - 【請求項21】音声信号を一連のフレームに配列するス
テップと、 基本判別マトリクスに従って1つ又は複数個のウインド
ウの幅を音声エンコード・システムのために利用される
ように変更するステップであって、各ウインドウは、各
フレームに対して前記音声信号を表す特徴ベクトルを得
る同じ音声セグメントを関連づけられた多数の連続フレ
ームとして定義されるステップと、 前記基本判別マトリクスに前記特徴ベクトルを掛け算す
ることによって各フレームに対するプロジェクトされた
ベクトルを生成するステップと、 を含み、 以て、前記基本判別マトリクスは前記音声信号を表すプ
ロジェクトされたベクトルの値を示すことを特徴とする
音声認識方法。 - 【請求項22】前記音声セグメントのそれの隣接の音声
セグメントに対する近似度を表すN個の異なるクラスと
関連づけられたN個の基本判別マトリクスが存在するこ
とを特徴とする請求項21に記載の方法。 - 【請求項23】音声信号を一連のフレームに配列するた
めの手段と、 基本判別マトリクスに従って1つ又は複数個のウインド
ウの幅を音声エンコード・システムのために利用される
ように変更するための手段であって、各ウインドウは、
同じ音声セグメントを関連づけられた多数の連続フレー
ムとして定義される手段と、 各フレームに対する1つの音声セグメント又は一連の音
声セグメントに対して、前記音声信号を表す特徴ベクト
ルを得るための手段と、 前記基本判別マトリクスに前記特徴ベクトルを掛け算す
ることによって各フレームに対するプロジェクトされた
ベクトルを生成するするための手段と、 を含み、 以て、前記基本判別マトリクスは前記音声信号を表すプ
ロジェクトされたベクトルの値を示すことを特徴とする
装置。 - 【請求項24】前記音声セグメントのそれの隣接の音声
セグメントに対する近似度を表すN個の異なるクラスと
関連づけられたN個の基本判別マトリクスが存在するこ
とを特徴とする請求項23に記載の装置。 - 【請求項25】音声認識アプリケーションにおいて利用
されるべき値を一連のタグから各タグに適用するための
方法であって、 フレームFのウインドウがM個以下のフレームの期間を
持った音素に属するかどうかを決定し、それが肯定され
た場合には前記音素における各フレームに対するタグを
第1の値にセットし、それが否定された場合には次のス
テップに進むステップと、 前記ウインドウがN個以上のフレームだけ先行の音素に
重畳するかどうかを決定し、それが肯定された場合に
は、前記タグの値を第2の値にセットし、それが否定さ
れた場合には次のステップに進むステップと、 前記ウインドウがN個以上のフレームだけ後続の音素に
重畳するかどうかを決定し、それが肯定された場合に
は、前記タグの値を第3の値にセットし、それが否定さ
れた場合には次のステップに進むステップと、 前記ウインドウが完全に先行の音素に重畳するかどうか
を決定し、それが肯定された場合には、前記タグの値を
第4の値にセットし、それが否定された場合には次のス
テップに進むステップと、 前記ウインドウが完全に後続の音素に重畳するかどうか
を決定し、それが肯定された場合には、前記タグの値を
第5の値にセットし、それが否定された場合には次のス
テップに進むステップと、 前記タグの値を第6の値にセットするステップと、 を含む方法。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US262093 | 1981-05-11 | ||
| US08/262,093 US5615299A (en) | 1994-06-20 | 1994-06-20 | Speech recognition using dynamic features |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH086587A true JPH086587A (ja) | 1996-01-12 |
| JP3299408B2 JP3299408B2 (ja) | 2002-07-08 |
Family
ID=22996124
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP07122695A Expired - Lifetime JP3299408B2 (ja) | 1994-06-20 | 1995-03-29 | 動的特徴を使用した音声認識方法及び装置 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US5615299A (ja) |
| EP (1) | EP0689193A1 (ja) |
| JP (1) | JP3299408B2 (ja) |
| SG (1) | SG43736A1 (ja) |
Families Citing this family (22)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5615299A (en) | 1994-06-20 | 1997-03-25 | International Business Machines Corporation | Speech recognition using dynamic features |
| US5970239A (en) * | 1997-08-11 | 1999-10-19 | International Business Machines Corporation | Apparatus and method for performing model estimation utilizing a discriminant measure |
| US6317716B1 (en) * | 1997-09-19 | 2001-11-13 | Massachusetts Institute Of Technology | Automatic cueing of speech |
| US6233555B1 (en) * | 1997-11-25 | 2001-05-15 | At&T Corporation | Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models |
| JP3607107B2 (ja) * | 1998-03-13 | 2005-01-05 | 株式会社東芝 | データ管理装置 |
| US6438523B1 (en) | 1998-05-20 | 2002-08-20 | John A. Oberteuffer | Processing handwritten and hand-drawn input and speech input |
| JP3252815B2 (ja) * | 1998-12-04 | 2002-02-04 | 日本電気株式会社 | 連続音声認識装置及び方法 |
| US6622121B1 (en) | 1999-08-20 | 2003-09-16 | International Business Machines Corporation | Testing speech recognition systems using test data generated by text-to-speech conversion |
| FR2801716B1 (fr) * | 1999-11-30 | 2002-01-04 | Thomson Multimedia Sa | Dispositif de reconnaissance vocale mettant en oeuvre une regle syntaxique de permutation |
| US6609094B1 (en) * | 2000-05-22 | 2003-08-19 | International Business Machines Corporation | Maximum entropy and maximum likelihood criteria for feature selection from multivariate data |
| GB0103242D0 (en) * | 2001-02-09 | 2001-03-28 | Radioscape Ltd | Method of analysing a compressed signal for the presence or absence of information content |
| US6928409B2 (en) * | 2001-05-31 | 2005-08-09 | Freescale Semiconductor, Inc. | Speech recognition using polynomial expansion and hidden markov models |
| US7389230B1 (en) * | 2003-04-22 | 2008-06-17 | International Business Machines Corporation | System and method for classification of voice signals |
| FI20045146A0 (fi) * | 2004-04-22 | 2004-04-22 | Nokia Corp | Audioaktiivisuuden ilmaisu |
| US7885812B2 (en) * | 2006-11-15 | 2011-02-08 | Microsoft Corporation | Joint training of feature extraction and acoustic model parameters for speech recognition |
| TWI312981B (en) * | 2006-11-30 | 2009-08-01 | Inst Information Industr | Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically |
| MX2009006201A (es) | 2006-12-12 | 2009-06-22 | Fraunhofer Ges Forschung | Codificador, decodificador y metodos para codificar y decodificar segmentos de datos que representan una corriente de datos del dominio temporal. |
| WO2010067118A1 (en) * | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
| US9129605B2 (en) | 2012-03-30 | 2015-09-08 | Src, Inc. | Automated voice and speech labeling |
| US9520128B2 (en) * | 2014-09-23 | 2016-12-13 | Intel Corporation | Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition |
| CN111341299B (zh) * | 2018-11-30 | 2021-10-15 | 阿里巴巴集团控股有限公司 | 一种语音处理方法及装置 |
| CN110349564B (zh) * | 2019-07-22 | 2021-09-24 | 思必驰科技股份有限公司 | 一种跨语言语音识别方法和装置 |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4741036A (en) * | 1985-01-31 | 1988-04-26 | International Business Machines Corporation | Determination of phone weights for markov models in a speech recognition system |
| US4852180A (en) * | 1987-04-03 | 1989-07-25 | American Telephone And Telegraph Company, At&T Bell Laboratories | Speech recognition by acoustic/phonetic system and technique |
| US5072452A (en) * | 1987-10-30 | 1991-12-10 | International Business Machines Corporation | Automatic determination of labels and Markov word models in a speech recognition system |
| JPH0636156B2 (ja) * | 1989-03-13 | 1994-05-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置 |
| EP0515709A1 (en) * | 1991-05-27 | 1992-12-02 | International Business Machines Corporation | Method and apparatus for segmental unit representation in text-to-speech synthesis |
| US5615299A (en) | 1994-06-20 | 1997-03-25 | International Business Machines Corporation | Speech recognition using dynamic features |
-
1994
- 1994-06-20 US US08/262,093 patent/US5615299A/en not_active Expired - Lifetime
-
1995
- 1995-02-20 EP EP95102320A patent/EP0689193A1/en not_active Withdrawn
- 1995-02-20 SG SG1996000335A patent/SG43736A1/en unknown
- 1995-03-29 JP JP07122695A patent/JP3299408B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| EP0689193A1 (en) | 1995-12-27 |
| US5615299A (en) | 1997-03-25 |
| SG43736A1 (en) | 1997-11-14 |
| JP3299408B2 (ja) | 2002-07-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3299408B2 (ja) | 動的特徴を使用した音声認識方法及び装置 | |
| CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
| US9466292B1 (en) | Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition | |
| US7366669B2 (en) | Acoustic model creation method as well as acoustic model creation apparatus and speech recognition apparatus | |
| EP2888669B1 (en) | Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems | |
| CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
| JPH06175696A (ja) | 音声コード化装置及びその方法並びに音声認識装置及びその方法 | |
| JP2003308090A (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
| Ashraf et al. | Speaker independent Urdu speech recognition using HMM | |
| Liu et al. | Mongolian text-to-speech system based on deep neural network | |
| JPH05265483A (ja) | 複数の出力を与える音声認識法 | |
| Gulzar et al. | A systematic analysis of automatic speech recognition: an overview | |
| Paliwal | Lexicon-building methods for an acoustic sub-word based speech recognizer | |
| Ostendorf et al. | The impact of speech recognition on speech synthesis | |
| JP2006215564A (ja) | 自動音声認識システムにおける単語精度予測方法、及び装置 | |
| Manasa et al. | Comparison of acoustical models of GMM-HMM based for speech recognition in Hindi using PocketSphinx | |
| US5764851A (en) | Fast speech recognition method for mandarin words | |
| Kuo et al. | Improved HMM/SVM methods for automatic phoneme segmentation. | |
| CN114360525A (zh) | 一种语音识别方法及系统 | |
| Shaikh Naziya et al. | Speech recognition system—a review | |
| Demeechai et al. | Recognition of syllables in a tone language | |
| JP2938865B1 (ja) | 音声認識装置 | |
| JP2005234504A (ja) | 音声認識装置及びhmm発音モデルをトレーニングする方法 | |
| Barman et al. | State of the art review of speech recognition using genetic algorithm | |
| Han et al. | Trajectory clustering for solving the trajectory folding problem in automatic speech recognition |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080419 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080419 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090419 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090419 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100419 Year of fee payment: 8 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100419 Year of fee payment: 8 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100419 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110419 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110419 Year of fee payment: 9 |
|
| S202 | Request for registration of non-exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R315201 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110419 Year of fee payment: 9 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120419 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120419 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130419 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130419 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140419 Year of fee payment: 12 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| EXPY | Cancellation because of completion of term |