JPH075894A - パターン長正規化装置 - Google Patents
パターン長正規化装置Info
- Publication number
- JPH075894A JPH075894A JP5146260A JP14626093A JPH075894A JP H075894 A JPH075894 A JP H075894A JP 5146260 A JP5146260 A JP 5146260A JP 14626093 A JP14626093 A JP 14626093A JP H075894 A JPH075894 A JP H075894A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- layer
- input
- length
- neurons
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 210000002569 neuron Anatomy 0.000 claims abstract description 54
- 238000010606 normalization Methods 0.000 claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 abstract description 7
- 230000005236 sound signal Effects 0.000 abstract description 4
- 230000001537 neural effect Effects 0.000 abstract description 3
- 239000013598 vector Substances 0.000 description 75
- 238000013507 mapping Methods 0.000 description 23
- 230000006835 compression Effects 0.000 description 15
- 238000007906 compression Methods 0.000 description 15
- 238000003062 neural network model Methods 0.000 description 13
- 238000000034 method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 206010011732 Cyst Diseases 0.000 description 1
- 241001212789 Dynamis Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 208000031513 cyst Diseases 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Abstract
(57)【要約】
【目的】 パタンの情報の損失が少ないように圧縮する
ことのできるパタン長の正規化装置を提供することを目
的とする。 【構成】 マイク1より入力された音声信号(入力パタ
ン)は、ローパスフィルタ2と、A/D変換器3と、単
語切り出し部4と、周波数分析部5とを経てパタン長正
規化部7に入力される。パタン長正規化部7は、パタン
が入力される入力層と、この入力層のニューロン数より
も少ないニューロン数で構成された第2隠れ層と、出力
層とを備える神経回路網にて構成されており、この神経
回路網の非線形性を利用して音声信号がパタン長になる
まで、繰り返し非線形圧縮される。正規化されたパタン
は、類似度計算部にて予め登録された登録パタンと比較
計算される。
ことのできるパタン長の正規化装置を提供することを目
的とする。 【構成】 マイク1より入力された音声信号(入力パタ
ン)は、ローパスフィルタ2と、A/D変換器3と、単
語切り出し部4と、周波数分析部5とを経てパタン長正
規化部7に入力される。パタン長正規化部7は、パタン
が入力される入力層と、この入力層のニューロン数より
も少ないニューロン数で構成された第2隠れ層と、出力
層とを備える神経回路網にて構成されており、この神経
回路網の非線形性を利用して音声信号がパタン長になる
まで、繰り返し非線形圧縮される。正規化されたパタン
は、類似度計算部にて予め登録された登録パタンと比較
計算される。
Description
【0001】
【産業上の利用分野】本発明は、パターン長の正規化に
神経回路網を用いたパターン長正規化装置に関し、特
に、音声認識、画像認識、文字認識、多次元データ認識
等の各種のパターン認識に用いて有効である。
神経回路網を用いたパターン長正規化装置に関し、特
に、音声認識、画像認識、文字認識、多次元データ認識
等の各種のパターン認識に用いて有効である。
【0002】
【従来の技術】パターン認識において、パターンの長さ
を正規化する従来技術として、動的計画法DP(Dynami
c Programming )がある。以下に、この動的計画法DP
を音声認識に用いた例について説明する。例えば、認識
装置に「いきおい」という単語に対応する特徴ベクトル
列{a(n)}(n=0,1,…,M−1)が登録され
ているとする。ある特定の人(以下、話者と呼ぶ)は、
「いきおい」という単語を認識させるために、認識装置
に向かって、「いきおい」と発声する。しかしながら、
人間は機械ではないので、この発声により得られる特徴
ベクトル列の長さは、一般に登録されている特徴ベクト
ル列の長さMとは一致しない。従って、登録してある特
徴ベクトル列との類似度を計算するには、お互いのベク
トル列の長さを合わせる必要がある。
を正規化する従来技術として、動的計画法DP(Dynami
c Programming )がある。以下に、この動的計画法DP
を音声認識に用いた例について説明する。例えば、認識
装置に「いきおい」という単語に対応する特徴ベクトル
列{a(n)}(n=0,1,…,M−1)が登録され
ているとする。ある特定の人(以下、話者と呼ぶ)は、
「いきおい」という単語を認識させるために、認識装置
に向かって、「いきおい」と発声する。しかしながら、
人間は機械ではないので、この発声により得られる特徴
ベクトル列の長さは、一般に登録されている特徴ベクト
ル列の長さMとは一致しない。従って、登録してある特
徴ベクトル列との類似度を計算するには、お互いのベク
トル列の長さを合わせる必要がある。
【0003】このベクトル列の長さを合わせる方法につ
いて、以下に数式を用いて詳細に説明する。登録されて
いる特徴ベクトルを、 {a(n)}(n=0,1,…,M−1) 認識時に、話者の発声から得られる特徴ベクトルを、 {b(n)}(n=0,1,…,N−1) とする。もし、N=Mであれば、登録されている特徴ベ
クトル列に対して、話者の発声特徴ベクトル列がどれだ
け似ているかを示す類似度は、以下の数式1のように簡
単に計算できる。
いて、以下に数式を用いて詳細に説明する。登録されて
いる特徴ベクトルを、 {a(n)}(n=0,1,…,M−1) 認識時に、話者の発声から得られる特徴ベクトルを、 {b(n)}(n=0,1,…,N−1) とする。もし、N=Mであれば、登録されている特徴ベ
クトル列に対して、話者の発声特徴ベクトル列がどれだ
け似ているかを示す類似度は、以下の数式1のように簡
単に計算できる。
【0004】
【数1】 この類似度は、小さければ小さい程良く似ていることを
示す。‖‖は二つのベクトル間の距離を示し、ユークリ
ッド距離をとれば、次の数式2で計算されることにな
る。
示す。‖‖は二つのベクトル間の距離を示し、ユークリ
ッド距離をとれば、次の数式2で計算されることにな
る。
【0005】
【数2】 SQRT( )は平方根をとることを意味し、また、a
i(n)はベクトルa(n)の第i番目の成分を示す。
i(n)はベクトルa(n)の第i番目の成分を示す。
【0006】特徴ベクトル列の長さMとNが異なる際に
類似度を計算するには、たとえば、登録特徴ベクトル列
の長さMを、ベクトル列の部分部分を伸ばしたり、縮め
たりすることで、話者の特徴ベクトル列Nに等しくする
必要がある。ここで、たとえばと言ったのは、話者の発
声時の特徴ベクトル列の長さNを調節して、登録特徴ベ
クトル列の長さMに等しくしても良いからである。以下
の説明では登録特徴ベクトル列の長さMを、話者の発声
時の特徴ベクトル列の長さNに揃えるものとして説明す
る。
類似度を計算するには、たとえば、登録特徴ベクトル列
の長さMを、ベクトル列の部分部分を伸ばしたり、縮め
たりすることで、話者の特徴ベクトル列Nに等しくする
必要がある。ここで、たとえばと言ったのは、話者の発
声時の特徴ベクトル列の長さNを調節して、登録特徴ベ
クトル列の長さMに等しくしても良いからである。以下
の説明では登録特徴ベクトル列の長さMを、話者の発声
時の特徴ベクトル列の長さNに揃えるものとして説明す
る。
【0007】ところで、動的計画法DPでは、この長さ
を揃える操作を、登録特徴ベクトル列と話者発声特徴ベ
クトル列間の順番の添え字の写像とみなしている。(登
録特徴ベクトル列の添え字)=g(n)(n=0,1,
2,…,N)と表され、nは話者発声特徴ベクトル列の
添え字とみなす。添え字とは、a(n)のnのことあ
り、ここで、g(0)=0、g(N)=Mです。これ
は、単語の始まりと終りを合わせるということに対応す
る。Nは話者発声時の特徴ベクトル列の長さです。nが
0からNまで動くため、g(n)は、登録特徴ベクトル
列の添え字の集合{0,1,2,…,M}のなかのN個
の数字をとる。類似度の計算は以下の数式3のようにな
る。
を揃える操作を、登録特徴ベクトル列と話者発声特徴ベ
クトル列間の順番の添え字の写像とみなしている。(登
録特徴ベクトル列の添え字)=g(n)(n=0,1,
2,…,N)と表され、nは話者発声特徴ベクトル列の
添え字とみなす。添え字とは、a(n)のnのことあ
り、ここで、g(0)=0、g(N)=Mです。これ
は、単語の始まりと終りを合わせるということに対応す
る。Nは話者発声時の特徴ベクトル列の長さです。nが
0からNまで動くため、g(n)は、登録特徴ベクトル
列の添え字の集合{0,1,2,…,M}のなかのN個
の数字をとる。類似度の計算は以下の数式3のようにな
る。
【0008】
【数3】 例をあげて、この写像について説明すると、大きく分け
て二つの場合がある。それは、M<Nの時と、M>Nの
時との二つであり、それぞれMとNに具体的な数字を与
えて以下に説明する。 (1)M=5<N=10 これは、登録特徴ベクトル列が話者発声時の特徴ベクト
ル列よりも短い場合である。写像g( )の入力は、0
から9までを動き、この時、登録特徴ベクトルの添え字
の集合は、{0,1,2,3,4}の5個である。写像
の入力が10個あるのに、写像の行き先は5個しかない
ので、全部で10個の写像の出力の中に、必ず同じ数字
があることを意味する。つまり、この場合は、特徴ベク
トル列の長さを伸ばす操作が行われており、例えば、a
(2)を二回使うように同じ特徴ベクトルを繰り返して
使うことで長さを伸ばしている。イメージをつかむため
に、写像出力の例を示すと、例えば、{0,1,2,
2,2,2,3,3,4,4}と示される。この場合、
類似度を計算する上で、a(2)を四回、a(3)を二
回、a(4)を二回繰り返して使用している。 (2)M=10>N=5 これは、登録特徴ベクトル列が話者発声時の特徴ベクト
ル列よりも長い場合である。写像g( )の入力は、0
から4までを動き、この時、登録特徴ベクトルの添え字
の集合は、{0,1,2,3,4,5,6,7,8,
9}の10個です。写像の入力が5個しかないのに、写
像の行き先は10個もあり、これは、5個の写像の出力
の中に現れない写像の行き先の数字があることを意味す
る。つまり、この場合は、特徴ベクトル列の長さを縮め
る操作が行われており、例えば、a(2)を使わないと
いうように、特徴ベクトルを使わないことで長さを縮め
ている。イメージをつかむために、写像出力の例を示す
と、例えば、{0,1,5,7,9}と示される。
て二つの場合がある。それは、M<Nの時と、M>Nの
時との二つであり、それぞれMとNに具体的な数字を与
えて以下に説明する。 (1)M=5<N=10 これは、登録特徴ベクトル列が話者発声時の特徴ベクト
ル列よりも短い場合である。写像g( )の入力は、0
から9までを動き、この時、登録特徴ベクトルの添え字
の集合は、{0,1,2,3,4}の5個である。写像
の入力が10個あるのに、写像の行き先は5個しかない
ので、全部で10個の写像の出力の中に、必ず同じ数字
があることを意味する。つまり、この場合は、特徴ベク
トル列の長さを伸ばす操作が行われており、例えば、a
(2)を二回使うように同じ特徴ベクトルを繰り返して
使うことで長さを伸ばしている。イメージをつかむため
に、写像出力の例を示すと、例えば、{0,1,2,
2,2,2,3,3,4,4}と示される。この場合、
類似度を計算する上で、a(2)を四回、a(3)を二
回、a(4)を二回繰り返して使用している。 (2)M=10>N=5 これは、登録特徴ベクトル列が話者発声時の特徴ベクト
ル列よりも長い場合である。写像g( )の入力は、0
から4までを動き、この時、登録特徴ベクトルの添え字
の集合は、{0,1,2,3,4,5,6,7,8,
9}の10個です。写像の入力が5個しかないのに、写
像の行き先は10個もあり、これは、5個の写像の出力
の中に現れない写像の行き先の数字があることを意味す
る。つまり、この場合は、特徴ベクトル列の長さを縮め
る操作が行われており、例えば、a(2)を使わないと
いうように、特徴ベクトルを使わないことで長さを縮め
ている。イメージをつかむために、写像出力の例を示す
と、例えば、{0,1,5,7,9}と示される。
【0009】この場合、類似度を計算する上で、a
(2),a(3),a(4),a(6),a(8)が使
われないことになる。従って、上記の如くパターン認識
における標準パターンもしくは入力パターンにおけるパ
ターンの長さを一定に揃える際に、パターンの部分部分
を伸ばしたり、縮めたりできるので、パターン長を初め
から終わりまで、ある一定の割合で伸ばすか、縮めるか
を行う線形伸縮法よりも認識性能の良いパターンとする
ことができる。
(2),a(3),a(4),a(6),a(8)が使
われないことになる。従って、上記の如くパターン認識
における標準パターンもしくは入力パターンにおけるパ
ターンの長さを一定に揃える際に、パターンの部分部分
を伸ばしたり、縮めたりできるので、パターン長を初め
から終わりまで、ある一定の割合で伸ばすか、縮めるか
を行う線形伸縮法よりも認識性能の良いパターンとする
ことができる。
【0010】
【発明が解決しようとする課題】しかしながら、上記従
来のパターン長の正規化の方法である動的計画法DPに
おいては、特徴ベクトル列の長さを揃えるために、特徴
ベクトルを繰り返して使ったり、また、全く使わない
(捨てる)といったことが行われることになる。この方
法では、伸ばす場合は単にデータを繰り返しており、縮
める場合も、ただ、データを捨てているだけなので、情
報量論的にいって、たいへん好ましくないことが行われ
ていることがわかる。
来のパターン長の正規化の方法である動的計画法DPに
おいては、特徴ベクトル列の長さを揃えるために、特徴
ベクトルを繰り返して使ったり、また、全く使わない
(捨てる)といったことが行われることになる。この方
法では、伸ばす場合は単にデータを繰り返しており、縮
める場合も、ただ、データを捨てているだけなので、情
報量論的にいって、たいへん好ましくないことが行われ
ていることがわかる。
【0011】また、情報圧縮には、線形と非線形の2種
類があるが、自然界に存在するデータで、線形情報圧縮
によって最適に情報圧縮できるものはなく、音声データ
などの複雑なデータを情報圧縮するには、非線形でなけ
れば、満足する最適な情報圧縮はできない。そこで、本
発明は、神経回路網が任意の連続写像を実現可能である
と言う事に着目し、この神経回路網を非線形情報圧縮器
として用いることで、パタンの情報の損失が少ないよう
に圧縮することのできるパターン長の正規化装置を提供
することを目的とする。
類があるが、自然界に存在するデータで、線形情報圧縮
によって最適に情報圧縮できるものはなく、音声データ
などの複雑なデータを情報圧縮するには、非線形でなけ
れば、満足する最適な情報圧縮はできない。そこで、本
発明は、神経回路網が任意の連続写像を実現可能である
と言う事に着目し、この神経回路網を非線形情報圧縮器
として用いることで、パタンの情報の損失が少ないよう
に圧縮することのできるパターン長の正規化装置を提供
することを目的とする。
【0012】
【課題を解決するための手段】本発明は、上記目的を達
成するために、パターンを入力する入力手段と、この入
力手段により入力された入力パターンの長さを所定の長
さに正規化するパターン長正規化部と、を備え、前記パ
ターン長正規化部は、所定数のニューロンよりなり各々
のニューロンに前記入力パターンが入力される第1の層
と、この第1の層の各々のニューロンと重み付けして結
合され前記所定数より少ないニューロンよりなり圧縮さ
れた出力パターンを出力する第2の層とを有する神経回
路網にて構成されるパターン長正規化装置を採用するも
のである。
成するために、パターンを入力する入力手段と、この入
力手段により入力された入力パターンの長さを所定の長
さに正規化するパターン長正規化部と、を備え、前記パ
ターン長正規化部は、所定数のニューロンよりなり各々
のニューロンに前記入力パターンが入力される第1の層
と、この第1の層の各々のニューロンと重み付けして結
合され前記所定数より少ないニューロンよりなり圧縮さ
れた出力パターンを出力する第2の層とを有する神経回
路網にて構成されるパターン長正規化装置を採用するも
のである。
【0013】また、請求項2記載の本発明によれば、前
記神経回路網よりなるパターン長正規化部は、前記第2
の層の各々のニューロンと重み付けして結合され前記第
1の層と同数のニューロン数よりなる第3の層を有し、
前記入力手段により入力された入力パターンを前記第1
の層及び前記第3の層の教師データとして用いて、隣合
う層のニューロン間の結合の重み付けを学習する請求項
1記載のパターン長正規化装置を採用するものである。
記神経回路網よりなるパターン長正規化部は、前記第2
の層の各々のニューロンと重み付けして結合され前記第
1の層と同数のニューロン数よりなる第3の層を有し、
前記入力手段により入力された入力パターンを前記第1
の層及び前記第3の層の教師データとして用いて、隣合
う層のニューロン間の結合の重み付けを学習する請求項
1記載のパターン長正規化装置を採用するものである。
【0014】
【作用】上記構成よりなる本発明のパターン長正規化装
置によれば、入力手段により入力されたパターンの情報
が、神経回路網を非線形情報圧縮器として用いたパター
ン長正規化部の第1の層のニューロンに入力される。こ
の第1の層に入力されたパターンは、第1の層よりも少
ないニューロン数にて形成された第2の層に非線形的に
圧縮される。このように非線形的に圧縮されることで、
パターンの特徴を示すデータの損失が少ないようにパタ
ーンの長さを正規化することができる。
置によれば、入力手段により入力されたパターンの情報
が、神経回路網を非線形情報圧縮器として用いたパター
ン長正規化部の第1の層のニューロンに入力される。こ
の第1の層に入力されたパターンは、第1の層よりも少
ないニューロン数にて形成された第2の層に非線形的に
圧縮される。このように非線形的に圧縮されることで、
パターンの特徴を示すデータの損失が少ないようにパタ
ーンの長さを正規化することができる。
【0015】また、請求項2記載の本発明によれば、第
1の層のニューロン数と同数のニューロン数である第3
の層が第2の層に連結して設けられており、第1の層と
第3の層に同じ入力パターンを教師データとして用い
て、結合の重みを学習する。従って、入力パターンに基
づいた学習を行うことができ、第1の層のニューロンと
第2の層のニューロンとの結合の重みを入力パターンに
則したものとする事ができる。
1の層のニューロン数と同数のニューロン数である第3
の層が第2の層に連結して設けられており、第1の層と
第3の層に同じ入力パターンを教師データとして用い
て、結合の重みを学習する。従って、入力パターンに基
づいた学習を行うことができ、第1の層のニューロンと
第2の層のニューロンとの結合の重みを入力パターンに
則したものとする事ができる。
【0016】
【実施例】以下、本発明のパターン長正規化装置を特定
話者単語音声認識システムに用いた際の実施例について
図面と共に説明する。図2に、特定話者単語音声認識シ
ステムのブロック図を示す。本システムは、マイク1
と、ローパスフィルタ2と、A/D(Analogue to Digi
tal )変換器3と、単語切り出し部4と、周波数分析部
5と、パターン長正規化部7と、類似度計算部8と、単
語認識部9と、認識結果表示部10とが、電気的に直列
に連結されている。周波数分析部5とパターン長正規化
部7との間にはスイッチSW3が介され、各々を切り離
し可能に構成してあると共に、パターン長正規化部7と
類似度計算部8との間にもスイッチSW5が介され、各
々を切り離し可能に構成してある。周波数分析部5に
は、スイッチSW2を介して単語パターン記憶部6が連
結されており、この単語パターン記憶部6内の信号を送
出可能なように、スイッチSW1を介して、入力単語表
示部11が連結されている。また、単語登録パターン記
憶部6はスイッチSW4、SW6を介してパターン長正
規化部7と類似度計算部8とに連結されている。
話者単語音声認識システムに用いた際の実施例について
図面と共に説明する。図2に、特定話者単語音声認識シ
ステムのブロック図を示す。本システムは、マイク1
と、ローパスフィルタ2と、A/D(Analogue to Digi
tal )変換器3と、単語切り出し部4と、周波数分析部
5と、パターン長正規化部7と、類似度計算部8と、単
語認識部9と、認識結果表示部10とが、電気的に直列
に連結されている。周波数分析部5とパターン長正規化
部7との間にはスイッチSW3が介され、各々を切り離
し可能に構成してあると共に、パターン長正規化部7と
類似度計算部8との間にもスイッチSW5が介され、各
々を切り離し可能に構成してある。周波数分析部5に
は、スイッチSW2を介して単語パターン記憶部6が連
結されており、この単語パターン記憶部6内の信号を送
出可能なように、スイッチSW1を介して、入力単語表
示部11が連結されている。また、単語登録パターン記
憶部6はスイッチSW4、SW6を介してパターン長正
規化部7と類似度計算部8とに連結されている。
【0017】マイク1は、本発明の入力手段に相当し、
話者が発声した音声を電気信号に変換する。A/D変換
器3は、1/12000秒毎に入力された信号の振幅値
を測定(サンプリング)すると共に、デジタル処理が可
能な16ビットの整数(−215〜2 15−1)に表現した
数列{x(n)}(n=0,1,2,3,…)のデータ
に変換する。
話者が発声した音声を電気信号に変換する。A/D変換
器3は、1/12000秒毎に入力された信号の振幅値
を測定(サンプリング)すると共に、デジタル処理が可
能な16ビットの整数(−215〜2 15−1)に表現した
数列{x(n)}(n=0,1,2,3,…)のデータ
に変換する。
【0018】パターン長正規化部7は、図1に示すよう
に、神経回路網にて構成されている。このパターン長正
規化部7の一つの例として、入力されたパターンを圧縮
する際に用いるパターン圧縮神経回路網モデルについて
説明する。入力層21及び出力層25は、各々32個の
線形ニューロン30から成り、第2隠れ層23は16個
の線形ニューロン30から成る。第1隠れ層22と第3
隠れ層24は、各々64個の非線形ニューロン31から
成り、非線形要素として各ニューロン31はシグモイド
関数s(x)を持つ。
に、神経回路網にて構成されている。このパターン長正
規化部7の一つの例として、入力されたパターンを圧縮
する際に用いるパターン圧縮神経回路網モデルについて
説明する。入力層21及び出力層25は、各々32個の
線形ニューロン30から成り、第2隠れ層23は16個
の線形ニューロン30から成る。第1隠れ層22と第3
隠れ層24は、各々64個の非線形ニューロン31から
成り、非線形要素として各ニューロン31はシグモイド
関数s(x)を持つ。
【0019】上記の入力層21のそれぞれのニューロン
は第1隠れ層22のニューロン全てと結合されており、
同様にして、第1隠れ層22のそれぞれのニューロンは
第2隠れ層23のニューロン全てと結合されている。ま
た、第2隠れ層23のニューロンと第3隠れ層24のニ
ューロンとが同様に結合され、第3隠れ層24のニュー
ロンと出力層25のニューロンとが同様に結合されてい
る。なお、第1隠れ層22と第3隠れ層24のニューロ
ン数は、入力層21に入力されて出力層25から出力さ
れる値が、希望する出力値となるように精度良く学習す
ることが可能なニューロン数であれば良い。
は第1隠れ層22のニューロン全てと結合されており、
同様にして、第1隠れ層22のそれぞれのニューロンは
第2隠れ層23のニューロン全てと結合されている。ま
た、第2隠れ層23のニューロンと第3隠れ層24のニ
ューロンとが同様に結合され、第3隠れ層24のニュー
ロンと出力層25のニューロンとが同様に結合されてい
る。なお、第1隠れ層22と第3隠れ層24のニューロ
ン数は、入力層21に入力されて出力層25から出力さ
れる値が、希望する出力値となるように精度良く学習す
ることが可能なニューロン数であれば良い。
【0020】ところで、シグモイド関数s(x)は以下
の数式4にて表される。
の数式4にて表される。
【0021】
【数4】s(x)=1/(1+exp(−x)) 各ニューロン30、31には適当に番号が付けられてい
るとして、線形ニューロン30の動作は以下の数式5で
表され、非線形ニューロン31の動作は数式6で表され
る。
るとして、線形ニューロン30の動作は以下の数式5で
表され、非線形ニューロン31の動作は数式6で表され
る。
【0022】
【数5】
【0023】
【数6】 ここで、W(i)(j)はニューロンjからニューロンi
への重み係数を表し、O(j)はニューロンjの出力、
Θ(i)はニューロンiの持つバイアス値である。
への重み係数を表し、O(j)はニューロンjの出力、
Θ(i)はニューロンiの持つバイアス値である。
【0024】従って、これらの数式5、数式6にて、各
ニューロンは隣合う層のニューロンとの重み付けを決定
されている。上記の如く構成された特定話者単語音声認
識システムは、(1)単語登録モード、(2)学習モー
ド、(3)単語認識モードの3つの動作モードからな
り、単語登録モード(1)の動作の後、学習モード
(2)の動作に移り、学習モード(2)の動作終了後、
特定話者単語認識システムとして単語認識モード(3)
の動作を恒常的に行う。以下に各々のモードの作動につ
いて述べる。
ニューロンは隣合う層のニューロンとの重み付けを決定
されている。上記の如く構成された特定話者単語音声認
識システムは、(1)単語登録モード、(2)学習モー
ド、(3)単語認識モードの3つの動作モードからな
り、単語登録モード(1)の動作の後、学習モード
(2)の動作に移り、学習モード(2)の動作終了後、
特定話者単語認識システムとして単語認識モード(3)
の動作を恒常的に行う。以下に各々のモードの作動につ
いて述べる。
【0025】(1)単語登録モード 図2の特定話者単語音声認識システムにおいて、スイッ
チSW1とSW2が閉じられ、スイッチSW3からSW
6までは開かれている。単語パターン記憶部6は、入力
単語表示部11に、認識すべき全単語を、ある順序で、
一つずつ、ひらがなの文字で表示する。話者はその単語
を3回、本システムに対し発声する。発声された音声
は、マイク1によって電気信号に変換された後、カット
オフ周波数5.5kHzのローパスフィルタ2を通っ
て、A/D(アナログtoデジタル)変換器3で、12
kHzのサンプリング周波数でサンプリングされ、デジ
タル処理可能なデータに変換される。
チSW1とSW2が閉じられ、スイッチSW3からSW
6までは開かれている。単語パターン記憶部6は、入力
単語表示部11に、認識すべき全単語を、ある順序で、
一つずつ、ひらがなの文字で表示する。話者はその単語
を3回、本システムに対し発声する。発声された音声
は、マイク1によって電気信号に変換された後、カット
オフ周波数5.5kHzのローパスフィルタ2を通っ
て、A/D(アナログtoデジタル)変換器3で、12
kHzのサンプリング周波数でサンプリングされ、デジ
タル処理可能なデータに変換される。
【0026】単語切り出し部4は、A/D変換器3から
のデータを受け取って、単語音声の始まりと終わりの時
点を検出し、始まりから終わりまでの区間のデータを取
り出して周波数分析部5へ送る。周波数分析部5では、
音声信号を長さ200ミリ秒、シスト幅5ミリ秒のハミ
ング窓で切り出して周波数分析を行い、16個の特徴パ
ラメータに変換する。こうして、単語音声は長さLの1
6次元のベクトル列、x(0),x(1),…,x(L
−1)に変換される。
のデータを受け取って、単語音声の始まりと終わりの時
点を検出し、始まりから終わりまでの区間のデータを取
り出して周波数分析部5へ送る。周波数分析部5では、
音声信号を長さ200ミリ秒、シスト幅5ミリ秒のハミ
ング窓で切り出して周波数分析を行い、16個の特徴パ
ラメータに変換する。こうして、単語音声は長さLの1
6次元のベクトル列、x(0),x(1),…,x(L
−1)に変換される。
【0027】上記の処理について、簡単のために、図5
及び図6に基づき説明する。図5のデジタル信号処理の
イメージ図に示すように得られた数列{x(n)}(n
=0,1,2,3,‥)に対して、音声分析処理を行
う。L個の数から成る(以下、長さLと記述する)数列
{x(n)}(n=0,1,2,3,…,L−1)が、
たとえば「いきおい」と言う単語に対応しているとす
る。図6に、単語「いきおい」の音声波形を示すと、図
6に印してある、i,k,i,o,iの区間が我々が聴
覚上、「い」「き」「お」「い」とかんじる波形部分で
す。その時間長は約100〜200ミリ秒です。
及び図6に基づき説明する。図5のデジタル信号処理の
イメージ図に示すように得られた数列{x(n)}(n
=0,1,2,3,‥)に対して、音声分析処理を行
う。L個の数から成る(以下、長さLと記述する)数列
{x(n)}(n=0,1,2,3,…,L−1)が、
たとえば「いきおい」と言う単語に対応しているとす
る。図6に、単語「いきおい」の音声波形を示すと、図
6に印してある、i,k,i,o,iの区間が我々が聴
覚上、「い」「き」「お」「い」とかんじる波形部分で
す。その時間長は約100〜200ミリ秒です。
【0028】音声分析が対象にする分析区間は、この約
100〜200ミリ秒よりも短く、20ミリ秒前後の区
間を対象にする。これは、20ミリ前後くらいに分析区
間が短いと、定常波形(スペクトルの特性が一定とみな
せる)と考えられるので、FFTなどの周波数分析が適
用可能になるからです。具体的に説明すると、まず、数
列{x(n)}(n=0,1,2,…,L−1)の初め
から240個(20ミリ秒に対応)の連続する部分数列
を取り出す。これを数列{y(n)}(n=0,2,
…,239)とすると、これを、FFTによって、周波
数領域のデータに変換し、120個の周波数振幅情報を
作る。さらに、この振幅情報を統合して、16個の周波
数振幅情報とする。
100〜200ミリ秒よりも短く、20ミリ秒前後の区
間を対象にする。これは、20ミリ前後くらいに分析区
間が短いと、定常波形(スペクトルの特性が一定とみな
せる)と考えられるので、FFTなどの周波数分析が適
用可能になるからです。具体的に説明すると、まず、数
列{x(n)}(n=0,1,2,…,L−1)の初め
から240個(20ミリ秒に対応)の連続する部分数列
を取り出す。これを数列{y(n)}(n=0,2,
…,239)とすると、これを、FFTによって、周波
数領域のデータに変換し、120個の周波数振幅情報を
作る。さらに、この振幅情報を統合して、16個の周波
数振幅情報とする。
【0029】まとめると、240個の数値から16個の
数値が作られたことになり、この16個の数値が、もと
の20ミリ秒の区間の音声波形の特徴を表す。この16
個の数値はまとめて書くことで16次元のベクトルとみ
なす。以下、この16次元のベクトルを特徴ベクトルと
呼ぶ。このように初めの区間の分析が終了すると次の分
析区間へと進む。この時、つぎの分析区間は、{y
(n)}(n=240,242,…,479)の240
個をとるのではなく、初めの分析区間の頭を5ミリ秒だ
け後ろにずらした区間{y(n)}(n=59,61,
…,298)とする。。こうすることで、分析区間のス
ペクトル特性の急激な変化をさけることができ、きめの
細かい分析を行うことができる。このようにして、単語
「いきおい」の分析を数列の終りまで続ける。
数値が作られたことになり、この16個の数値が、もと
の20ミリ秒の区間の音声波形の特徴を表す。この16
個の数値はまとめて書くことで16次元のベクトルとみ
なす。以下、この16次元のベクトルを特徴ベクトルと
呼ぶ。このように初めの区間の分析が終了すると次の分
析区間へと進む。この時、つぎの分析区間は、{y
(n)}(n=240,242,…,479)の240
個をとるのではなく、初めの分析区間の頭を5ミリ秒だ
け後ろにずらした区間{y(n)}(n=59,61,
…,298)とする。。こうすることで、分析区間のス
ペクトル特性の急激な変化をさけることができ、きめの
細かい分析を行うことができる。このようにして、単語
「いきおい」の分析を数列の終りまで続ける。
【0030】上記のようにして、単語「いきおい」に対
応する長さLの数列が、重なり合う部分数列(この例で
は、長さ240、重なり合う部分の長さ180)に分け
られる。そして、その各々の部分数列が、FFTを使っ
て周波数領域のデータに変換され、16次元の特徴ベク
トルに統合される。したがって、単語「いきおい」の数
列は、音声分析を受けて、特徴ベクトル列{a(n)}
(n=0,1,…,M−1)(a(n)は16次元の特
徴ベクトル)に変換される。ところで、特徴ベクトル列
の長さMは、部分数列の長さと、部分数列同志の重なり
合う部分の長さによって変わる。音声認識処理は、この
特徴ベクトル列に対して行う。
応する長さLの数列が、重なり合う部分数列(この例で
は、長さ240、重なり合う部分の長さ180)に分け
られる。そして、その各々の部分数列が、FFTを使っ
て周波数領域のデータに変換され、16次元の特徴ベク
トルに統合される。したがって、単語「いきおい」の数
列は、音声分析を受けて、特徴ベクトル列{a(n)}
(n=0,1,…,M−1)(a(n)は16次元の特
徴ベクトル)に変換される。ところで、特徴ベクトル列
の長さMは、部分数列の長さと、部分数列同志の重なり
合う部分の長さによって変わる。音声認識処理は、この
特徴ベクトル列に対して行う。
【0031】上記の如く周波数分析部5で周波数分析さ
れたデータは、単語パターン記憶部6へ送られる。単語
パターン記憶部6は、このデータを、入力単語表示部1
1に表示した単語のパターンとして記憶する。この時、
話者は、一つの単語につき3回発声するので、一つの単
語につき3つのパターンが登録される。この動作を、認
識すべき全ての単語について繰り返す。
れたデータは、単語パターン記憶部6へ送られる。単語
パターン記憶部6は、このデータを、入力単語表示部1
1に表示した単語のパターンとして記憶する。この時、
話者は、一つの単語につき3回発声するので、一つの単
語につき3つのパターンが登録される。この動作を、認
識すべき全ての単語について繰り返す。
【0032】(2)学習モード 図2のスイッチSW4が閉じられ、残りのスイッチは全
て開かれている。単語パターン記憶部6に記憶された全
ての単語パターンがパターン長正規化部7に送られる。
パターン長正規化部7は、図1に示すパターン圧縮神経
回路網モデルにより構成されており、このモデルは、ま
ず第1のモードである学習モードになり、記憶部に記憶
されていたパターンを使って非線形情報圧縮機能を以下
の如く学習する。ここで、非線形情報圧縮機能とは、パ
ターン圧縮神経回路網モデルの各層のニューロン間の結
合の重みを、入力されたパターンに従った重み付けとす
ることである。
て開かれている。単語パターン記憶部6に記憶された全
ての単語パターンがパターン長正規化部7に送られる。
パターン長正規化部7は、図1に示すパターン圧縮神経
回路網モデルにより構成されており、このモデルは、ま
ず第1のモードである学習モードになり、記憶部に記憶
されていたパターンを使って非線形情報圧縮機能を以下
の如く学習する。ここで、非線形情報圧縮機能とは、パ
ターン圧縮神経回路網モデルの各層のニューロン間の結
合の重みを、入力されたパターンに従った重み付けとす
ることである。
【0033】神経回路網モデル7への入力は、単語音声
ベクトル列の隣接する2つのベクトルx(i),x(i
+1)(i=0,1,…,L−2)、教師出力は、入力
に用いた2つのベクトルである。神経回路網モデルは、
入力と同じ出力を作り出すように、バックプロパゲーシ
ョン学習則によって重み係数とバイアス値を調整する。
ベクトル列の隣接する2つのベクトルx(i),x(i
+1)(i=0,1,…,L−2)、教師出力は、入力
に用いた2つのベクトルである。神経回路網モデルは、
入力と同じ出力を作り出すように、バックプロパゲーシ
ョン学習則によって重み係数とバイアス値を調整する。
【0034】神経回路網の理論から、3層の神経回路網
は、任意の連続写像を実現できることが知られており、
入力層21から第2隠れ層23までの3層神経回路網
と、第2隠れ層23から出力層25までの3層神経回路
網とは、それぞれ、原理的には任意の連続写像を実現で
きる。ところで、32個のニューロンから成る入力層に
入れられたパターン(情報)は、出力層に行き着くまで
に、16個のニューロンで構成される第2隠れ層23を
通らねばならず、したがって、学習完了後には、第2隠
れ層23に、学習データに対し最適に32次元から16
次元へと非線形に情報圧縮された16次元の特徴ベクト
ルが表われる。
は、任意の連続写像を実現できることが知られており、
入力層21から第2隠れ層23までの3層神経回路網
と、第2隠れ層23から出力層25までの3層神経回路
網とは、それぞれ、原理的には任意の連続写像を実現で
きる。ところで、32個のニューロンから成る入力層に
入れられたパターン(情報)は、出力層に行き着くまで
に、16個のニューロンで構成される第2隠れ層23を
通らねばならず、したがって、学習完了後には、第2隠
れ層23に、学習データに対し最適に32次元から16
次元へと非線形に情報圧縮された16次元の特徴ベクト
ルが表われる。
【0035】上記のように、各層のニューロン間の結合
の重みを学習した後、神経回路網モデル7は、第2のモ
ードであるパターン情報圧縮モードに移り、単語パター
ン記憶部6から送られた全てのパターンのパターン長を
以下の如く正規化する。パターン情報圧縮モードでは、
入力層21から第2隠れ層23までの3層の神経回路網
モデルが使われる。神経回路網モデル7は、周波数分析
部5で得られる長さLの16次元のベクトル列x
(0),x(1),…,x(L−1)の隣接する2つの
ベクトルx(i),x(i+1)(i=0,1,…,L
−2)を入力として取り、それを非線形に情報圧縮し、
16次元ベクトルx’(i)(i=0,1,…,L−
2)に変換する。このように得られた長さL−1のベク
トル列x’(i),x’(1),…,x’(L−2)に
対して、さらに、上記の操作を適用して、長さL−2の
ベクトル列を得る。この操作を、ベクトル列の長さが正
規化長Mになるまで繰り返す。
の重みを学習した後、神経回路網モデル7は、第2のモ
ードであるパターン情報圧縮モードに移り、単語パター
ン記憶部6から送られた全てのパターンのパターン長を
以下の如く正規化する。パターン情報圧縮モードでは、
入力層21から第2隠れ層23までの3層の神経回路網
モデルが使われる。神経回路網モデル7は、周波数分析
部5で得られる長さLの16次元のベクトル列x
(0),x(1),…,x(L−1)の隣接する2つの
ベクトルx(i),x(i+1)(i=0,1,…,L
−2)を入力として取り、それを非線形に情報圧縮し、
16次元ベクトルx’(i)(i=0,1,…,L−
2)に変換する。このように得られた長さL−1のベク
トル列x’(i),x’(1),…,x’(L−2)に
対して、さらに、上記の操作を適用して、長さL−2の
ベクトル列を得る。この操作を、ベクトル列の長さが正
規化長Mになるまで繰り返す。
【0036】なお、分析のハミング窓のシフト幅は、充
分に短く設定してあるため、周波数分析で得られるベク
トル列の長さLが正規化長Mよりも小さくなることはな
い。更に詳細にパターン情報圧縮モード、即ち、パター
ン長の正規化方法について説明する。本発明では、音声
分析において、部分数列同志の重なり合う部分を充分に
広くとっているために、音声分析による情報の損失が少
ない特徴ベクトル列が得られる。また、音声分析によっ
て得られる特徴ベクトル列は、常にかなり長いものとな
る。したがって、特徴ベクトル列の正規化とは、音声分
析で得られた特徴ベクトル列を、より短い、一定の長さ
の特徴ベクトル列に変換することになる。従来の方法で
ある動的計画法DPによる音声認識では、これは、デー
タを捨て去ることで実現している。しかし、本発明で
は、ここに、神経回路網モデル7を用いて非線形情報圧
縮機構を使う。
分に短く設定してあるため、周波数分析で得られるベク
トル列の長さLが正規化長Mよりも小さくなることはな
い。更に詳細にパターン情報圧縮モード、即ち、パター
ン長の正規化方法について説明する。本発明では、音声
分析において、部分数列同志の重なり合う部分を充分に
広くとっているために、音声分析による情報の損失が少
ない特徴ベクトル列が得られる。また、音声分析によっ
て得られる特徴ベクトル列は、常にかなり長いものとな
る。したがって、特徴ベクトル列の正規化とは、音声分
析で得られた特徴ベクトル列を、より短い、一定の長さ
の特徴ベクトル列に変換することになる。従来の方法で
ある動的計画法DPによる音声認識では、これは、デー
タを捨て去ることで実現している。しかし、本発明で
は、ここに、神経回路網モデル7を用いて非線形情報圧
縮機構を使う。
【0037】情報圧縮に使う神経回路網モデル7は、図
1の入力層21から第2隠れ層23までの3つの神経回
路網で、この神経回路網は、上記にて説明したように、
隣接する2つの特徴ベクトルを入力として取り、非線形
に最適に情報圧縮した1つの(16次元の)特徴ベクト
ルを出力する。簡単のために、以後、この神経回路をマ
ッピングfとする。マッピングfは、次のように表され
る。
1の入力層21から第2隠れ層23までの3つの神経回
路網で、この神経回路網は、上記にて説明したように、
隣接する2つの特徴ベクトルを入力として取り、非線形
に最適に情報圧縮した1つの(16次元の)特徴ベクト
ルを出力する。簡単のために、以後、この神経回路をマ
ッピングfとする。マッピングfは、次のように表され
る。
【0038】
【表1】f:(2つの隣接特徴ベクトル)→(1つの情
報圧縮された特徴ベクトル) いま、正規化特徴ベクトル列の長さをPとして、話者発
声時の特徴ベクトル列{x(n)}(n=0,1,2,
…,N−1)が与えられたとする。なお、N>Pとす
る。
報圧縮された特徴ベクトル) いま、正規化特徴ベクトル列の長さをPとして、話者発
声時の特徴ベクトル列{x(n)}(n=0,1,2,
…,N−1)が与えられたとする。なお、N>Pとす
る。
【0039】マッピングfを{x(n)}に1回適用す
ると、{x(n)}は非線形に情報圧縮されて、1つだ
け長さの短い特徴ベクトル列に変換される。マッピング
fを{x(n)}に1回適用するとは、次の表2の如く
手続きを行うことを意味する。
ると、{x(n)}は非線形に情報圧縮されて、1つだ
け長さの短い特徴ベクトル列に変換される。マッピング
fを{x(n)}に1回適用するとは、次の表2の如く
手続きを行うことを意味する。
【0040】
【表2】
【0041】従って、この話者発声特徴ベクトル列を正
規化するには、マッピングfをN−P回適用すれば良い
ことになる。ここで、マッピングfを複数回適用すると
は、一番初めのマッピングfはもとの話者発声特徴ベク
トルに、2番目以降のマッピングfは、1つまえのマッ
ピングfによる出力特徴ベクトル列に適用することを意
味する。図3に正規化時の制御フローチャートを示す
と、このフローチャートに示されたように、ベクトル列
の長さが正規化長になるまでマッピングfを行う。
規化するには、マッピングfをN−P回適用すれば良い
ことになる。ここで、マッピングfを複数回適用すると
は、一番初めのマッピングfはもとの話者発声特徴ベク
トルに、2番目以降のマッピングfは、1つまえのマッ
ピングfによる出力特徴ベクトル列に適用することを意
味する。図3に正規化時の制御フローチャートを示す
と、このフローチャートに示されたように、ベクトル列
の長さが正規化長になるまでマッピングfを行う。
【0042】パターン長正規化部7は、このように正規
化されたパターンを単語パターン記憶部6へ送る。単語
パターン記憶部6は、単語登録パターンを、このパター
ン長が正規化されたパターンで置き換える。この時点
で、単語パターン記憶部6には一つの単語につき3つの
正規化パターンが登録されており、全てのパターンは同
じ長さになっている。
化されたパターンを単語パターン記憶部6へ送る。単語
パターン記憶部6は、単語登録パターンを、このパター
ン長が正規化されたパターンで置き換える。この時点
で、単語パターン記憶部6には一つの単語につき3つの
正規化パターンが登録されており、全てのパターンは同
じ長さになっている。
【0043】(3)単語認識モード 図2のスイッチSW3、SW5とSW6が閉じられ、残
りは開かれている。動作(1)、(2)の対象となった
話者が、システムに対して、ある単語を発声する。発声
された単語音声は、図2のマイク1、ローパスフィルタ
2、A/D変換器3、単語切り出し部4、周波数分析部
5を通り、単語登録モード(1)で述べた処理を受け
る。パターン長正規化部7は、このデータを受け取り、
神経回路網モデルを用いて長さの正規化を行う。単語パ
ターン記憶部6に登録されているパターンと同じ長さに
正規化された入力パターンは、類似度計算部8で、単語
パターン記憶部6に登録されている全てのパターンとの
類似度が計算される。これは、入力パターンと登録パタ
ーン間のユークリッド距離を求めることによって行われ
る。したがって、類似度は常に正またはゼロであり、小
さい程パターン同志は似ていることになる。単語認識部
9は、類似度間の比較を行い、最も小さい類似度に対応
する登録パターンが代表する単語を認識結果と判定す
る。認識結果表示部10は、この認識結果を、漢字とひ
らがなを使って表示する。
りは開かれている。動作(1)、(2)の対象となった
話者が、システムに対して、ある単語を発声する。発声
された単語音声は、図2のマイク1、ローパスフィルタ
2、A/D変換器3、単語切り出し部4、周波数分析部
5を通り、単語登録モード(1)で述べた処理を受け
る。パターン長正規化部7は、このデータを受け取り、
神経回路網モデルを用いて長さの正規化を行う。単語パ
ターン記憶部6に登録されているパターンと同じ長さに
正規化された入力パターンは、類似度計算部8で、単語
パターン記憶部6に登録されている全てのパターンとの
類似度が計算される。これは、入力パターンと登録パタ
ーン間のユークリッド距離を求めることによって行われ
る。したがって、類似度は常に正またはゼロであり、小
さい程パターン同志は似ていることになる。単語認識部
9は、類似度間の比較を行い、最も小さい類似度に対応
する登録パターンが代表する単語を認識結果と判定す
る。認識結果表示部10は、この認識結果を、漢字とひ
らがなを使って表示する。
【0044】上記の如く装置を構成することで、パター
ン長の正規化を情報の欠落が無いように行うことができ
るので、パターンの認識を正確に行うことができる。な
お、上記の実施例では、図1に示すパターン縮小神経回
路網モデルにおいて、第2隠れ層23のニューロン30
の数を、入力層21のニューロン30の数の半分とし
て、連続する2つの部分数列から、非線形圧縮された1
つの部分数列を作る構成としたが、これに限らず、入力
層21のニューロン数を48個とし、第2隠れ層23の
ニューロン数は16個のままとすることで、連続する3
つの部分数列から1つの部分数列を作る構成としても良
い。また、同様に入力層21に、4つ以上の部分数列が
入力され、一度に一つの部分数列に圧縮する構成として
も良い。この際にも、非線形情報圧縮機能を学習するた
めに、入力層21のニューロン数と、出力層25のニュ
ーロン数を同じ数とする。
ン長の正規化を情報の欠落が無いように行うことができ
るので、パターンの認識を正確に行うことができる。な
お、上記の実施例では、図1に示すパターン縮小神経回
路網モデルにおいて、第2隠れ層23のニューロン30
の数を、入力層21のニューロン30の数の半分とし
て、連続する2つの部分数列から、非線形圧縮された1
つの部分数列を作る構成としたが、これに限らず、入力
層21のニューロン数を48個とし、第2隠れ層23の
ニューロン数は16個のままとすることで、連続する3
つの部分数列から1つの部分数列を作る構成としても良
い。また、同様に入力層21に、4つ以上の部分数列が
入力され、一度に一つの部分数列に圧縮する構成として
も良い。この際にも、非線形情報圧縮機能を学習するた
めに、入力層21のニューロン数と、出力層25のニュ
ーロン数を同じ数とする。
【0045】また、上記の実施例では、パターン長正規
化部7を5層の神経回路網により構成したが、少なくと
も入力層21と第2隠れ層23と出力層25の3層の神
経回路網で構成されていれば良い。また、学習済みの神
経回路網を用いれば、少なくとも入力層21と第2隠れ
層23の2層の神経回路網で構成されていれば良い。
化部7を5層の神経回路網により構成したが、少なくと
も入力層21と第2隠れ層23と出力層25の3層の神
経回路網で構成されていれば良い。また、学習済みの神
経回路網を用いれば、少なくとも入力層21と第2隠れ
層23の2層の神経回路網で構成されていれば良い。
【0046】また、上記の実施例では、本発明のパター
ン長正規化装置を音声認識に適用した例について説明し
たが、例えば、オンライン手書きの数字や文字の認識に
も適用できる。手書き文字は、書く度にその形と大きさ
が微妙に異なるので、音声認識時と同様にしてパターン
の正規化が必要になる。図4の手書き文字の特徴数列の
抽出図に示すように、手書き文字の特徴量として、文字
線の移動方向を示す接近ベクトルの角度をサンプリング
した数列をつかいます。特徴数列が抽出できれば、後は
音声認識の場合と同じ処理を適用することができる。
ン長正規化装置を音声認識に適用した例について説明し
たが、例えば、オンライン手書きの数字や文字の認識に
も適用できる。手書き文字は、書く度にその形と大きさ
が微妙に異なるので、音声認識時と同様にしてパターン
の正規化が必要になる。図4の手書き文字の特徴数列の
抽出図に示すように、手書き文字の特徴量として、文字
線の移動方向を示す接近ベクトルの角度をサンプリング
した数列をつかいます。特徴数列が抽出できれば、後は
音声認識の場合と同じ処理を適用することができる。
【0047】
【発明の効果】以上説明したように、本発明のパターン
長正規化装置によれば、パターン長正規化部により入力
されたパターンを非線形に情報圧縮することができるた
めに、情報の欠落が無いようにパターンの長さを正規化
することができる。
長正規化装置によれば、パターン長正規化部により入力
されたパターンを非線形に情報圧縮することができるた
めに、情報の欠落が無いようにパターンの長さを正規化
することができる。
【図1】本発明のパターン長正規化装置に用いるパター
ン縮小神経回路網モデルを示す図である。
ン縮小神経回路網モデルを示す図である。
【図2】特定話者単語音声認識システムのブロック図を
示す。
示す。
【図3】パターン長正規化部における制御を示すフロー
チャートである。
チャートである。
【図4】他の実施例である手書き文字の特徴数列の抽出
方法を示す図である。
方法を示す図である。
【図5】音声信号波形の一例を示すイメージ図である。
【図6】音声信号波形の一例を示す図である。
1 マイク(入力手段) 5 周波数分析部 6 単語記憶部 7 パターン長正規化部 8 類似度計算部 9 単語認識部 10 認識結果表示部 21 入力層(第1の層) 22 第1隠れ層 23 第2隠れ層(第2の層) 24 第3隠れ層 25 出力層(第3の層)
Claims (2)
- 【請求項1】 パターンを入力する入力手段と、 この入力手段により入力された入力パターンの長さを所
定の長さに正規化するパターン長正規化部と、 を備え、前記パターン長正規化部は、所定数のニューロ
ンよりなり各々のニューロンに前記入力パターンが入力
される第1の層と、この第1の層の各々のニューロンと
重み付けして結合され前記所定数より少ないニューロン
よりなり圧縮された出力パターンを出力する第2の層と
を有する神経回路網にて構成されるパターン長正規化装
置。 - 【請求項2】 前記神経回路網よりなるパターン長正規
化部は、前記第2の層の各々のニューロンと重み付けし
て結合され前記第1の層と同数のニューロン数よりなる
第3の層を有し、前記入力手段により入力された入力パ
ターンを前記第1の層及び前記第3の層の教師データと
して用いて、隣合う層のニューロン間の結合の重み付け
を学習する請求項1記載のパターン長正規化装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5146260A JPH075894A (ja) | 1993-06-17 | 1993-06-17 | パターン長正規化装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5146260A JPH075894A (ja) | 1993-06-17 | 1993-06-17 | パターン長正規化装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH075894A true JPH075894A (ja) | 1995-01-10 |
Family
ID=15403723
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5146260A Withdrawn JPH075894A (ja) | 1993-06-17 | 1993-06-17 | パターン長正規化装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH075894A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8989967B2 (en) | 2011-05-25 | 2015-03-24 | Aisin Seiki Kabushiki Kaisha | Vehicle seat device |
| CN113945253A (zh) * | 2021-10-18 | 2022-01-18 | 成都天仁民防科技有限公司 | 一种轨道交通轨行区的水位测量方法 |
-
1993
- 1993-06-17 JP JP5146260A patent/JPH075894A/ja not_active Withdrawn
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8989967B2 (en) | 2011-05-25 | 2015-03-24 | Aisin Seiki Kabushiki Kaisha | Vehicle seat device |
| CN113945253A (zh) * | 2021-10-18 | 2022-01-18 | 成都天仁民防科技有限公司 | 一种轨道交通轨行区的水位测量方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5457770A (en) | Speaker independent speech recognition system and method using neural network and/or DP matching technique | |
| CN112466326A (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
| JP2002328695A (ja) | テキストからパーソナライズ化音声を生成する方法 | |
| JPH07306691A (ja) | 不特定話者音声認識装置およびその方法 | |
| JP2870224B2 (ja) | 音声認識方法 | |
| JPH075894A (ja) | パターン長正規化装置 | |
| JPH1165590A (ja) | 音声認識ダイアル装置 | |
| JPH10509526A (ja) | ヒドンマルコフモデルを使用して設計された決定木分類子 | |
| JPH08123469A (ja) | 句境界確率計算装置および句境界確率利用連続音声認識装置 | |
| JPH01204099A (ja) | 音声認識装置 | |
| JPH09212197A (ja) | ニューラルネットワーク | |
| JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
| Polur et al. | Isolated speech recognition using artificial neural networks | |
| JPH0962644A (ja) | ニューラルネットワーク | |
| JP2983364B2 (ja) | 隠れマルコフモデルと音声信号との類似度計算方法 | |
| JP2010072446A (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
| JPH0211919B2 (ja) | ||
| CN119025901B (zh) | 基于联合交叉注意力的钢琴音乐情感识别方法及系统 | |
| JP2002244697A (ja) | 音声認証装置、音声認証方法、及びプログラム | |
| JP3357752B2 (ja) | パターンマッチング装置 | |
| JP2709935B2 (ja) | スペクトログラムの正規化方法 | |
| JPH06324696A (ja) | 音声認識装置及び方法 | |
| JPH0562359B2 (ja) | ||
| JPS62111293A (ja) | 音声認識方法 | |
| JPS62226196A (ja) | 標準パタン逐次学習方式 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20000905 |