JPH075894A

JPH075894A - パターン長正規化装置

Info

Publication number: JPH075894A
Application number: JP5146260A
Authority: JP
Inventors: Shinichi Tamura; 震一田村
Original assignee: NipponDenso Co Ltd
Current assignee: Denso Corp
Priority date: 1993-06-17
Filing date: 1993-06-17
Publication date: 1995-01-10

Abstract

(57)【要約】【目的】パタンの情報の損失が少ないように圧縮する
ことのできるパタン長の正規化装置を提供することを目
的とする。【構成】マイク１より入力された音声信号（入力パタ
ン）は、ローパスフィルタ２と、Ａ／Ｄ変換器３と、単
語切り出し部４と、周波数分析部５とを経てパタン長正
規化部７に入力される。パタン長正規化部７は、パタン
が入力される入力層と、この入力層のニューロン数より
も少ないニューロン数で構成された第２隠れ層と、出力
層とを備える神経回路網にて構成されており、この神経
回路網の非線形性を利用して音声信号がパタン長になる
まで、繰り返し非線形圧縮される。正規化されたパタン
は、類似度計算部にて予め登録された登録パタンと比較
計算される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、パターン長の正規化に
神経回路網を用いたパターン長正規化装置に関し、特
に、音声認識、画像認識、文字認識、多次元データ認識
等の各種のパターン認識に用いて有効である。

【０００２】

【従来の技術】パターン認識において、パターンの長さ
を正規化する従来技術として、動的計画法ＤＰ（Dynami
c Programming ）がある。以下に、この動的計画法ＤＰ
を音声認識に用いた例について説明する。例えば、認識
装置に「いきおい」という単語に対応する特徴ベクトル
列｛ａ（ｎ）｝（ｎ＝０，１，…，Ｍ−１）が登録され
ているとする。ある特定の人（以下、話者と呼ぶ）は、
「いきおい」という単語を認識させるために、認識装置
に向かって、「いきおい」と発声する。しかしながら、
人間は機械ではないので、この発声により得られる特徴
ベクトル列の長さは、一般に登録されている特徴ベクト
ル列の長さＭとは一致しない。従って、登録してある特
徴ベクトル列との類似度を計算するには、お互いのベク
トル列の長さを合わせる必要がある。

【０００３】このベクトル列の長さを合わせる方法につ
いて、以下に数式を用いて詳細に説明する。登録されて
いる特徴ベクトルを、｛ａ（ｎ）｝（ｎ＝０，１，…，Ｍ−１）認識時に、話者の発声から得られる特徴ベクトルを、｛ｂ（ｎ）｝（ｎ＝０，１，…，Ｎ−１）とする。もし、Ｎ＝Ｍであれば、登録されている特徴ベ
クトル列に対して、話者の発声特徴ベクトル列がどれだ
け似ているかを示す類似度は、以下の数式１のように簡
単に計算できる。

【０００４】

【数１】この類似度は、小さければ小さい程良く似ていることを
示す。‖‖は二つのベクトル間の距離を示し、ユークリ
ッド距離をとれば、次の数式２で計算されることにな
る。

【０００５】

【数２】ＳＱＲＴ（）は平方根をとることを意味し、また、ａ
ｉ（ｎ）はベクトルａ（ｎ）の第ｉ番目の成分を示す。

【０００６】特徴ベクトル列の長さＭとＮが異なる際に
類似度を計算するには、たとえば、登録特徴ベクトル列
の長さＭを、ベクトル列の部分部分を伸ばしたり、縮め
たりすることで、話者の特徴ベクトル列Ｎに等しくする
必要がある。ここで、たとえばと言ったのは、話者の発
声時の特徴ベクトル列の長さＮを調節して、登録特徴ベ
クトル列の長さＭに等しくしても良いからである。以下
の説明では登録特徴ベクトル列の長さＭを、話者の発声
時の特徴ベクトル列の長さＮに揃えるものとして説明す
る。

【０００７】ところで、動的計画法ＤＰでは、この長さ
を揃える操作を、登録特徴ベクトル列と話者発声特徴ベ
クトル列間の順番の添え字の写像とみなしている。（登
録特徴ベクトル列の添え字）＝ｇ（ｎ）（ｎ＝０，１，
２，…，Ｎ）と表され、ｎは話者発声特徴ベクトル列の
添え字とみなす。添え字とは、ａ（ｎ）のｎのことあ
り、ここで、ｇ（０）＝０、ｇ（Ｎ）＝Ｍです。これ
は、単語の始まりと終りを合わせるということに対応す
る。Ｎは話者発声時の特徴ベクトル列の長さです。ｎが
０からＮまで動くため、ｇ（ｎ）は、登録特徴ベクトル
列の添え字の集合｛０，１，２，…，Ｍ｝のなかのＮ個
の数字をとる。類似度の計算は以下の数式３のようにな
る。

【０００８】

【数３】例をあげて、この写像について説明すると、大きく分け
て二つの場合がある。それは、Ｍ＜Ｎの時と、Ｍ＞Ｎの
時との二つであり、それぞれＭとＮに具体的な数字を与
えて以下に説明する。（１）Ｍ＝５＜Ｎ＝１０これは、登録特徴ベクトル列が話者発声時の特徴ベクト
ル列よりも短い場合である。写像ｇ（）の入力は、０
から９までを動き、この時、登録特徴ベクトルの添え字
の集合は、｛０，１，２，３，４｝の５個である。写像
の入力が１０個あるのに、写像の行き先は５個しかない
ので、全部で１０個の写像の出力の中に、必ず同じ数字
があることを意味する。つまり、この場合は、特徴ベク
トル列の長さを伸ばす操作が行われており、例えば、ａ
（２）を二回使うように同じ特徴ベクトルを繰り返して
使うことで長さを伸ばしている。イメージをつかむため
に、写像出力の例を示すと、例えば、｛０，１，２，
２，２，２，３，３，４，４｝と示される。この場合、
類似度を計算する上で、ａ（２）を四回、ａ（３）を二
回、ａ（４）を二回繰り返して使用している。（２）Ｍ＝１０＞Ｎ＝５これは、登録特徴ベクトル列が話者発声時の特徴ベクト
ル列よりも長い場合である。写像ｇ（）の入力は、０
から４までを動き、この時、登録特徴ベクトルの添え字
の集合は、｛０，１，２，３，４，５，６，７，８，
９｝の１０個です。写像の入力が５個しかないのに、写
像の行き先は１０個もあり、これは、５個の写像の出力
の中に現れない写像の行き先の数字があることを意味す
る。つまり、この場合は、特徴ベクトル列の長さを縮め
る操作が行われており、例えば、ａ（２）を使わないと
いうように、特徴ベクトルを使わないことで長さを縮め
ている。イメージをつかむために、写像出力の例を示す
と、例えば、｛０，１，５，７，９｝と示される。

【０００９】この場合、類似度を計算する上で、ａ
（２），ａ（３），ａ（４），ａ（６），ａ（８）が使
われないことになる。従って、上記の如くパターン認識
における標準パターンもしくは入力パターンにおけるパ
ターンの長さを一定に揃える際に、パターンの部分部分
を伸ばしたり、縮めたりできるので、パターン長を初め
から終わりまで、ある一定の割合で伸ばすか、縮めるか
を行う線形伸縮法よりも認識性能の良いパターンとする
ことができる。

【００１０】

【発明が解決しようとする課題】しかしながら、上記従
来のパターン長の正規化の方法である動的計画法ＤＰに
おいては、特徴ベクトル列の長さを揃えるために、特徴
ベクトルを繰り返して使ったり、また、全く使わない
（捨てる）といったことが行われることになる。この方
法では、伸ばす場合は単にデータを繰り返しており、縮
める場合も、ただ、データを捨てているだけなので、情
報量論的にいって、たいへん好ましくないことが行われ
ていることがわかる。

【００１１】また、情報圧縮には、線形と非線形の２種
類があるが、自然界に存在するデータで、線形情報圧縮
によって最適に情報圧縮できるものはなく、音声データ
などの複雑なデータを情報圧縮するには、非線形でなけ
れば、満足する最適な情報圧縮はできない。そこで、本
発明は、神経回路網が任意の連続写像を実現可能である
と言う事に着目し、この神経回路網を非線形情報圧縮器
として用いることで、パタンの情報の損失が少ないよう
に圧縮することのできるパターン長の正規化装置を提供
することを目的とする。

【００１２】

【課題を解決するための手段】本発明は、上記目的を達
成するために、パターンを入力する入力手段と、この入
力手段により入力された入力パターンの長さを所定の長
さに正規化するパターン長正規化部と、を備え、前記パ
ターン長正規化部は、所定数のニューロンよりなり各々
のニューロンに前記入力パターンが入力される第１の層
と、この第１の層の各々のニューロンと重み付けして結
合され前記所定数より少ないニューロンよりなり圧縮さ
れた出力パターンを出力する第２の層とを有する神経回
路網にて構成されるパターン長正規化装置を採用するも
のである。

【００１３】また、請求項２記載の本発明によれば、前
記神経回路網よりなるパターン長正規化部は、前記第２
の層の各々のニューロンと重み付けして結合され前記第
１の層と同数のニューロン数よりなる第３の層を有し、
前記入力手段により入力された入力パターンを前記第１
の層及び前記第３の層の教師データとして用いて、隣合
う層のニューロン間の結合の重み付けを学習する請求項
１記載のパターン長正規化装置を採用するものである。

【００１４】

【作用】上記構成よりなる本発明のパターン長正規化装
置によれば、入力手段により入力されたパターンの情報
が、神経回路網を非線形情報圧縮器として用いたパター
ン長正規化部の第１の層のニューロンに入力される。こ
の第１の層に入力されたパターンは、第１の層よりも少
ないニューロン数にて形成された第２の層に非線形的に
圧縮される。このように非線形的に圧縮されることで、
パターンの特徴を示すデータの損失が少ないようにパタ
ーンの長さを正規化することができる。

【００１５】また、請求項２記載の本発明によれば、第
１の層のニューロン数と同数のニューロン数である第３
の層が第２の層に連結して設けられており、第１の層と
第３の層に同じ入力パターンを教師データとして用い
て、結合の重みを学習する。従って、入力パターンに基
づいた学習を行うことができ、第１の層のニューロンと
第２の層のニューロンとの結合の重みを入力パターンに
則したものとする事ができる。

【００１６】

【実施例】以下、本発明のパターン長正規化装置を特定
話者単語音声認識システムに用いた際の実施例について
図面と共に説明する。図２に、特定話者単語音声認識シ
ステムのブロック図を示す。本システムは、マイク１
と、ローパスフィルタ２と、Ａ／Ｄ（Analogue to Digi
tal ）変換器３と、単語切り出し部４と、周波数分析部
５と、パターン長正規化部７と、類似度計算部８と、単
語認識部９と、認識結果表示部１０とが、電気的に直列
に連結されている。周波数分析部５とパターン長正規化
部７との間にはスイッチＳＷ３が介され、各々を切り離
し可能に構成してあると共に、パターン長正規化部７と
類似度計算部８との間にもスイッチＳＷ５が介され、各
々を切り離し可能に構成してある。周波数分析部５に
は、スイッチＳＷ２を介して単語パターン記憶部６が連
結されており、この単語パターン記憶部６内の信号を送
出可能なように、スイッチＳＷ１を介して、入力単語表
示部１１が連結されている。また、単語登録パターン記
憶部６はスイッチＳＷ４、ＳＷ６を介してパターン長正
規化部７と類似度計算部８とに連結されている。

【００１７】マイク１は、本発明の入力手段に相当し、
話者が発声した音声を電気信号に変換する。Ａ／Ｄ変換
器３は、１／１２０００秒毎に入力された信号の振幅値
を測定（サンプリング）すると共に、デジタル処理が可
能な１６ビットの整数（−２¹⁵〜２ ¹⁵−１）に表現した
数列｛ｘ（ｎ）｝（ｎ＝０，１，２，３，…）のデータ
に変換する。

【００１８】パターン長正規化部７は、図１に示すよう
に、神経回路網にて構成されている。このパターン長正
規化部７の一つの例として、入力されたパターンを圧縮
する際に用いるパターン圧縮神経回路網モデルについて
説明する。入力層２１及び出力層２５は、各々３２個の
線形ニューロン３０から成り、第２隠れ層２３は１６個
の線形ニューロン３０から成る。第１隠れ層２２と第３
隠れ層２４は、各々６４個の非線形ニューロン３１から
成り、非線形要素として各ニューロン３１はシグモイド
関数ｓ（ｘ）を持つ。

【００１９】上記の入力層２１のそれぞれのニューロン
は第１隠れ層２２のニューロン全てと結合されており、
同様にして、第１隠れ層２２のそれぞれのニューロンは
第２隠れ層２３のニューロン全てと結合されている。ま
た、第２隠れ層２３のニューロンと第３隠れ層２４のニ
ューロンとが同様に結合され、第３隠れ層２４のニュー
ロンと出力層２５のニューロンとが同様に結合されてい
る。なお、第１隠れ層２２と第３隠れ層２４のニューロ
ン数は、入力層２１に入力されて出力層２５から出力さ
れる値が、希望する出力値となるように精度良く学習す
ることが可能なニューロン数であれば良い。

【００２０】ところで、シグモイド関数ｓ（ｘ）は以下
の数式４にて表される。

【００２１】

【数４】ｓ（ｘ）＝１／（１＋ｅｘｐ（−ｘ））各ニューロン３０、３１には適当に番号が付けられてい
るとして、線形ニューロン３０の動作は以下の数式５で
表され、非線形ニューロン３１の動作は数式６で表され
る。

【００２２】

【数５】

【００２３】

【数６】ここで、Ｗ（ｉ)(ｊ）はニューロンｊからニューロンｉ
への重み係数を表し、Ｏ（ｊ）はニューロンｊの出力、
Θ（ｉ）はニューロンｉの持つバイアス値である。

【００２４】従って、これらの数式５、数式６にて、各
ニューロンは隣合う層のニューロンとの重み付けを決定
されている。上記の如く構成された特定話者単語音声認
識システムは、（１）単語登録モード、（２）学習モー
ド、（３）単語認識モードの３つの動作モードからな
り、単語登録モード（１）の動作の後、学習モード
（２）の動作に移り、学習モード（２）の動作終了後、
特定話者単語認識システムとして単語認識モード（３）
の動作を恒常的に行う。以下に各々のモードの作動につ
いて述べる。

【００２５】（１）単語登録モード図２の特定話者単語音声認識システムにおいて、スイッ
チＳＷ１とＳＷ２が閉じられ、スイッチＳＷ３からＳＷ
６までは開かれている。単語パターン記憶部６は、入力
単語表示部１１に、認識すべき全単語を、ある順序で、
一つずつ、ひらがなの文字で表示する。話者はその単語
を３回、本システムに対し発声する。発声された音声
は、マイク１によって電気信号に変換された後、カット
オフ周波数５．５ｋＨｚのローパスフィルタ２を通っ
て、Ａ／Ｄ（アナログｔｏデジタル）変換器３で、１２
ｋＨｚのサンプリング周波数でサンプリングされ、デジ
タル処理可能なデータに変換される。

【００２６】単語切り出し部４は、Ａ／Ｄ変換器３から
のデータを受け取って、単語音声の始まりと終わりの時
点を検出し、始まりから終わりまでの区間のデータを取
り出して周波数分析部５へ送る。周波数分析部５では、
音声信号を長さ２００ミリ秒、シスト幅５ミリ秒のハミ
ング窓で切り出して周波数分析を行い、１６個の特徴パ
ラメータに変換する。こうして、単語音声は長さＬの１
６次元のベクトル列、ｘ（０），ｘ（１），…，ｘ（Ｌ
−１）に変換される。

【００２７】上記の処理について、簡単のために、図５
及び図６に基づき説明する。図５のデジタル信号処理の
イメージ図に示すように得られた数列｛ｘ（ｎ）｝（ｎ
＝０，１，２，３，‥）に対して、音声分析処理を行
う。Ｌ個の数から成る（以下、長さＬと記述する）数列
｛ｘ（ｎ）｝（ｎ＝０，１，２，３，…，Ｌ−１）が、
たとえば「いきおい」と言う単語に対応しているとす
る。図６に、単語「いきおい」の音声波形を示すと、図
６に印してある、ｉ，ｋ，ｉ，ｏ，ｉの区間が我々が聴
覚上、「い」「き」「お」「い」とかんじる波形部分で
す。その時間長は約１００〜２００ミリ秒です。

【００２８】音声分析が対象にする分析区間は、この約
１００〜２００ミリ秒よりも短く、２０ミリ秒前後の区
間を対象にする。これは、２０ミリ前後くらいに分析区
間が短いと、定常波形（スペクトルの特性が一定とみな
せる）と考えられるので、ＦＦＴなどの周波数分析が適
用可能になるからです。具体的に説明すると、まず、数
列｛ｘ（ｎ）｝（ｎ＝０，１，２，…，Ｌ−１）の初め
から２４０個（２０ミリ秒に対応）の連続する部分数列
を取り出す。これを数列｛ｙ（ｎ）｝（ｎ＝０，２，
…，２３９）とすると、これを、ＦＦＴによって、周波
数領域のデータに変換し、１２０個の周波数振幅情報を
作る。さらに、この振幅情報を統合して、１６個の周波
数振幅情報とする。

【００２９】まとめると、２４０個の数値から１６個の
数値が作られたことになり、この１６個の数値が、もと
の２０ミリ秒の区間の音声波形の特徴を表す。この１６
個の数値はまとめて書くことで１６次元のベクトルとみ
なす。以下、この１６次元のベクトルを特徴ベクトルと
呼ぶ。このように初めの区間の分析が終了すると次の分
析区間へと進む。この時、つぎの分析区間は、｛ｙ
（ｎ）｝（ｎ＝２４０，２４２，…，４７９）の２４０
個をとるのではなく、初めの分析区間の頭を５ミリ秒だ
け後ろにずらした区間｛ｙ（ｎ）｝（ｎ＝５９，６１，
…，２９８）とする。。こうすることで、分析区間のス
ペクトル特性の急激な変化をさけることができ、きめの
細かい分析を行うことができる。このようにして、単語
「いきおい」の分析を数列の終りまで続ける。

【００３０】上記のようにして、単語「いきおい」に対
応する長さＬの数列が、重なり合う部分数列（この例で
は、長さ２４０、重なり合う部分の長さ１８０）に分け
られる。そして、その各々の部分数列が、ＦＦＴを使っ
て周波数領域のデータに変換され、１６次元の特徴ベク
トルに統合される。したがって、単語「いきおい」の数
列は、音声分析を受けて、特徴ベクトル列｛ａ（ｎ）｝
（ｎ＝０，１，…，Ｍ−１）（ａ（ｎ）は１６次元の特
徴ベクトル）に変換される。ところで、特徴ベクトル列
の長さＭは、部分数列の長さと、部分数列同志の重なり
合う部分の長さによって変わる。音声認識処理は、この
特徴ベクトル列に対して行う。

【００３１】上記の如く周波数分析部５で周波数分析さ
れたデータは、単語パターン記憶部６へ送られる。単語
パターン記憶部６は、このデータを、入力単語表示部１
１に表示した単語のパターンとして記憶する。この時、
話者は、一つの単語につき３回発声するので、一つの単
語につき３つのパターンが登録される。この動作を、認
識すべき全ての単語について繰り返す。

【００３２】（２）学習モード図２のスイッチＳＷ４が閉じられ、残りのスイッチは全
て開かれている。単語パターン記憶部６に記憶された全
ての単語パターンがパターン長正規化部７に送られる。
パターン長正規化部７は、図１に示すパターン圧縮神経
回路網モデルにより構成されており、このモデルは、ま
ず第１のモードである学習モードになり、記憶部に記憶
されていたパターンを使って非線形情報圧縮機能を以下
の如く学習する。ここで、非線形情報圧縮機能とは、パ
ターン圧縮神経回路網モデルの各層のニューロン間の結
合の重みを、入力されたパターンに従った重み付けとす
ることである。

【００３３】神経回路網モデル７への入力は、単語音声
ベクトル列の隣接する２つのベクトルｘ（ｉ），ｘ（ｉ
＋１）（ｉ＝０，１，…，Ｌ−２）、教師出力は、入力
に用いた２つのベクトルである。神経回路網モデルは、
入力と同じ出力を作り出すように、バックプロパゲーシ
ョン学習則によって重み係数とバイアス値を調整する。

【００３４】神経回路網の理論から、３層の神経回路網
は、任意の連続写像を実現できることが知られており、
入力層２１から第２隠れ層２３までの３層神経回路網
と、第２隠れ層２３から出力層２５までの３層神経回路
網とは、それぞれ、原理的には任意の連続写像を実現で
きる。ところで、３２個のニューロンから成る入力層に
入れられたパターン（情報）は、出力層に行き着くまで
に、１６個のニューロンで構成される第２隠れ層２３を
通らねばならず、したがって、学習完了後には、第２隠
れ層２３に、学習データに対し最適に３２次元から１６
次元へと非線形に情報圧縮された１６次元の特徴ベクト
ルが表われる。

【００３５】上記のように、各層のニューロン間の結合
の重みを学習した後、神経回路網モデル７は、第２のモ
ードであるパターン情報圧縮モードに移り、単語パター
ン記憶部６から送られた全てのパターンのパターン長を
以下の如く正規化する。パターン情報圧縮モードでは、
入力層２１から第２隠れ層２３までの３層の神経回路網
モデルが使われる。神経回路網モデル７は、周波数分析
部５で得られる長さＬの１６次元のベクトル列ｘ
（０），ｘ（１），…，ｘ（Ｌ−１）の隣接する２つの
ベクトルｘ（ｉ），ｘ（ｉ＋１）（ｉ＝０，１，…，Ｌ
−２）を入力として取り、それを非線形に情報圧縮し、
１６次元ベクトルｘ’（ｉ）（ｉ＝０，１，…，Ｌ−
２）に変換する。このように得られた長さＬ−１のベク
トル列ｘ’（ｉ），ｘ’（１），…，ｘ’（Ｌ−２）に
対して、さらに、上記の操作を適用して、長さＬ−２の
ベクトル列を得る。この操作を、ベクトル列の長さが正
規化長Ｍになるまで繰り返す。

【００３６】なお、分析のハミング窓のシフト幅は、充
分に短く設定してあるため、周波数分析で得られるベク
トル列の長さＬが正規化長Ｍよりも小さくなることはな
い。更に詳細にパターン情報圧縮モード、即ち、パター
ン長の正規化方法について説明する。本発明では、音声
分析において、部分数列同志の重なり合う部分を充分に
広くとっているために、音声分析による情報の損失が少
ない特徴ベクトル列が得られる。また、音声分析によっ
て得られる特徴ベクトル列は、常にかなり長いものとな
る。したがって、特徴ベクトル列の正規化とは、音声分
析で得られた特徴ベクトル列を、より短い、一定の長さ
の特徴ベクトル列に変換することになる。従来の方法で
ある動的計画法ＤＰによる音声認識では、これは、デー
タを捨て去ることで実現している。しかし、本発明で
は、ここに、神経回路網モデル７を用いて非線形情報圧
縮機構を使う。

【００３７】情報圧縮に使う神経回路網モデル７は、図
１の入力層２１から第２隠れ層２３までの３つの神経回
路網で、この神経回路網は、上記にて説明したように、
隣接する２つの特徴ベクトルを入力として取り、非線形
に最適に情報圧縮した１つの（１６次元の）特徴ベクト
ルを出力する。簡単のために、以後、この神経回路をマ
ッピングｆとする。マッピングｆは、次のように表され
る。

【００３８】

【表１】ｆ：（２つの隣接特徴ベクトル）→（１つの情
報圧縮された特徴ベクトル）いま、正規化特徴ベクトル列の長さをＰとして、話者発
声時の特徴ベクトル列｛ｘ（ｎ）｝（ｎ＝０，１，２，
…，Ｎ−１）が与えられたとする。なお、Ｎ＞Ｐとす
る。

【００３９】マッピングｆを｛ｘ（ｎ）｝に１回適用す
ると、｛ｘ（ｎ）｝は非線形に情報圧縮されて、１つだ
け長さの短い特徴ベクトル列に変換される。マッピング
ｆを｛ｘ（ｎ）｝に１回適用するとは、次の表２の如く
手続きを行うことを意味する。

【００４０】

【表２】

【００４１】従って、この話者発声特徴ベクトル列を正
規化するには、マッピングｆをＮ−Ｐ回適用すれば良い
ことになる。ここで、マッピングｆを複数回適用すると
は、一番初めのマッピングｆはもとの話者発声特徴ベク
トルに、２番目以降のマッピングｆは、１つまえのマッ
ピングｆによる出力特徴ベクトル列に適用することを意
味する。図３に正規化時の制御フローチャートを示す
と、このフローチャートに示されたように、ベクトル列
の長さが正規化長になるまでマッピングｆを行う。

【００４２】パターン長正規化部７は、このように正規
化されたパターンを単語パターン記憶部６へ送る。単語
パターン記憶部６は、単語登録パターンを、このパター
ン長が正規化されたパターンで置き換える。この時点
で、単語パターン記憶部６には一つの単語につき３つの
正規化パターンが登録されており、全てのパターンは同
じ長さになっている。

【００４３】（３）単語認識モード図２のスイッチＳＷ３、ＳＷ５とＳＷ６が閉じられ、残
りは開かれている。動作（１）、（２）の対象となった
話者が、システムに対して、ある単語を発声する。発声
された単語音声は、図２のマイク１、ローパスフィルタ
２、Ａ／Ｄ変換器３、単語切り出し部４、周波数分析部
５を通り、単語登録モード（１）で述べた処理を受け
る。パターン長正規化部７は、このデータを受け取り、
神経回路網モデルを用いて長さの正規化を行う。単語パ
ターン記憶部６に登録されているパターンと同じ長さに
正規化された入力パターンは、類似度計算部８で、単語
パターン記憶部６に登録されている全てのパターンとの
類似度が計算される。これは、入力パターンと登録パタ
ーン間のユークリッド距離を求めることによって行われ
る。したがって、類似度は常に正またはゼロであり、小
さい程パターン同志は似ていることになる。単語認識部
９は、類似度間の比較を行い、最も小さい類似度に対応
する登録パターンが代表する単語を認識結果と判定す
る。認識結果表示部１０は、この認識結果を、漢字とひ
らがなを使って表示する。

【００４４】上記の如く装置を構成することで、パター
ン長の正規化を情報の欠落が無いように行うことができ
るので、パターンの認識を正確に行うことができる。な
お、上記の実施例では、図１に示すパターン縮小神経回
路網モデルにおいて、第２隠れ層２３のニューロン３０
の数を、入力層２１のニューロン３０の数の半分とし
て、連続する２つの部分数列から、非線形圧縮された１
つの部分数列を作る構成としたが、これに限らず、入力
層２１のニューロン数を４８個とし、第２隠れ層２３の
ニューロン数は１６個のままとすることで、連続する３
つの部分数列から１つの部分数列を作る構成としても良
い。また、同様に入力層２１に、４つ以上の部分数列が
入力され、一度に一つの部分数列に圧縮する構成として
も良い。この際にも、非線形情報圧縮機能を学習するた
めに、入力層２１のニューロン数と、出力層２５のニュ
ーロン数を同じ数とする。

【００４５】また、上記の実施例では、パターン長正規
化部７を５層の神経回路網により構成したが、少なくと
も入力層２１と第２隠れ層２３と出力層２５の３層の神
経回路網で構成されていれば良い。また、学習済みの神
経回路網を用いれば、少なくとも入力層２１と第２隠れ
層２３の２層の神経回路網で構成されていれば良い。

【００４６】また、上記の実施例では、本発明のパター
ン長正規化装置を音声認識に適用した例について説明し
たが、例えば、オンライン手書きの数字や文字の認識に
も適用できる。手書き文字は、書く度にその形と大きさ
が微妙に異なるので、音声認識時と同様にしてパターン
の正規化が必要になる。図４の手書き文字の特徴数列の
抽出図に示すように、手書き文字の特徴量として、文字
線の移動方向を示す接近ベクトルの角度をサンプリング
した数列をつかいます。特徴数列が抽出できれば、後は
音声認識の場合と同じ処理を適用することができる。

【００４７】

【発明の効果】以上説明したように、本発明のパターン
長正規化装置によれば、パターン長正規化部により入力
されたパターンを非線形に情報圧縮することができるた
めに、情報の欠落が無いようにパターンの長さを正規化
することができる。

【図面の簡単な説明】

【図１】本発明のパターン長正規化装置に用いるパター
ン縮小神経回路網モデルを示す図である。

【図２】特定話者単語音声認識システムのブロック図を
示す。

【図３】パターン長正規化部における制御を示すフロー
チャートである。

【図４】他の実施例である手書き文字の特徴数列の抽出
方法を示す図である。

【図５】音声信号波形の一例を示すイメージ図である。

【図６】音声信号波形の一例を示す図である。

【符号の説明】

１マイク（入力手段）５周波数分析部６単語記憶部７パターン長正規化部８類似度計算部９単語認識部１０認識結果表示部２１入力層（第１の層）２２第１隠れ層２３第２隠れ層（第２の層）２４第３隠れ層２５出力層（第３の層）

Claims

【特許請求の範囲】

【請求項１】パターンを入力する入力手段と、この入力手段により入力された入力パターンの長さを所
定の長さに正規化するパターン長正規化部と、を備え、前記パターン長正規化部は、所定数のニューロ
ンよりなり各々のニューロンに前記入力パターンが入力
される第１の層と、この第１の層の各々のニューロンと
重み付けして結合され前記所定数より少ないニューロン
よりなり圧縮された出力パターンを出力する第２の層と
を有する神経回路網にて構成されるパターン長正規化装
置。
【請求項２】前記神経回路網よりなるパターン長正規
化部は、前記第２の層の各々のニューロンと重み付けし
て結合され前記第１の層と同数のニューロン数よりなる
第３の層を有し、前記入力手段により入力された入力パ
ターンを前記第１の層及び前記第３の層の教師データと
して用いて、隣合う層のニューロン間の結合の重み付け
を学習する請求項１記載のパターン長正規化装置。