JPH02275996A

JPH02275996A - 単語認識方式

Info

Publication number: JPH02275996A
Application number: JP1098376A
Authority: JP
Inventors: Kazuhiko Okashita; 和彦岡下; Shingo Nishimura; 新吾西村; Masayuki Unno; 海野　雅幸; Masashi Miyagawa; 宮川　正志
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1989-04-18
Filing date: 1989-04-18
Publication date: 1990-11-09

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、電気錠、ＩＣカード等のオンライン端末等て
入力音声からその単語を認識するに好適な単語認識方式
に関する。

［従来の技術］従来の単語認識方式は、例えば特公昭６３−４２００号
公報、特開昭６２−２２０９９８号公報に記載される如
く、以下の手順による。

■入力音声に含まれる単語に関する特徴量を抽出する。

■予め上記■と同様にして抽出しておいた標準パターン
と上記■て抽出した特徴量との距離を計算する。

■計算結果より、上記距離か最小の標準パターンの単語
を入力音声の単語と判定する。

［発明が解決しようとする課題］然しなから、上記従来の単語認識方式では、以下の問題
点がある。

■標準パターン作成時から時間か経過するにつれ、認識
率が劣化する。

■実時間処理が困難である。即ち、従来の単語認識方式
において一定以上の認識率を確保するためには複雑な特
徴量を用いる必要かあるが、複雑な特徴量を抽出するに
は複雑な処理装置が必要てあり、処理時間も多大となる
。

本発明は、高い認識率を確保し、かつ容易に実時間処理
てきる単語認識方式を得ることを目的とする。

［課題を解決するための手段］請求項１に記載の本発明は、ニューラルネットワークを
用いて入力音声からその単語を認識する単語認識方式で
あって、ニューラルネットワークへの入力として、音声
の周波数特性の時間的変化を用いるようにしたものであ
る。

請求項２に記載の本発明は、前記ニューラルネットワー
クへの入力として、音声の一定時間内における平均的な
周波数特性の時間的変化を用いるようにしたものである
。

請求項３に記載の本発明は、前記ニューラルネットワー
クが階層的なニューラルネットワークであるようにした
ものである。

［作用］請求項１に記載の本発明によれば以下の■〜■の作用効
果がある。

■経時的な認識率の劣化か極めて少ない。このことは、
ニューラルネットワークが音声の時期差による変動の影
響を受けにくい構造をとることか可能なためと推定され
る。

■ニューラルネットワークへの入力として、「音声の周
波数特性の時間的変化」を用いたから、入力を得るため
の前処理が、従来の複雑な特徴量抽出に比して、単純と
なり、この前処理に要する時間が短くて足りる。

■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理か単純且つ迅速である。

■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットが独立に動作しており、並列的な演算
処理が可能である。従って、演算処理か迅速である。

■上記■〜■により、単語認識処理を複雑な処理装置に
よることなく容易に実時間処理できる。

又、請求項２に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。

■ニューラルネットワークへの入力として、「音声の一
定時間内における平均的な周波数特性の時間的変化」を
用いたから、ニューラルネットワークにおける処理が単
純となり、この処理に要する時間がより短くて足りる。

又、請求項３に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。

■階層的なニューラルネットワークにあっては、現在、
後述する如くの簡単な学習アルゴリズム（パックプロパ
ゲーション）が確立されており、高い認識率を実現でき
るニューラルネットワークを容易に形成できる。

［実施例］第１図は本発明が適用された単語認識システムの一例を
示す模式図、第２図は入力音声を示す模式図、第３図は
バンドパスフィルタの出力を示す模式図、第４図はニュ
ーラルネットワークを示す模式図、第５図は階層的なニ
ューラルネットワークを示す模式図、第６図はユニッＩ
への構造を示す模式図である。

本発明の具体的実施例の説明に先立ち、ニューラルネッ
トワークの構成、学習アルゴリズムについて説明する。

（１）ニューラルネットワークは、その構造から、第４
図（Ａ）に示す階層的ネットワークと第４図（Ｂ）に示
す相互結合ネットワークの２種に大別できる。本発明は
、両ネットワークのいずれを用いて構成するものであっ
ても良いが、階層的ネットワークは後述する如くの簡単
な学習アルゴリスムが確立されているためより有用であ
る。

（２）ネットワークの構造階層的ネットワークは、第５図に示す如く、入力層、中
間層、出力層からなる階層構造をとる。

各層は１以上のユニットから構成される。結合は、人力
層→中間層→出力層という前向きの結合たけて、各層内
での結合はない。

（３）ユニットの構造ユニットは第６図に示す如く脳のニューロンのモデル化
であり構造は簡単である。他のユニットから入力を受け
、その総和をとり一定の規則（変換関数）で変換し、結
果を出力する。他のユニットとの結合には、それぞれ結
合の強さを表わす可変の重みを付ける。

（４）学習（パックプロパゲーション）ネットワークの
学習とは、実際の出力を目標値（望ましい出力）に近づ
けることてあり、−Ｓ的には第６図に示した各ユニット
の変換関数及び重みを変化させて学習を行なう。

又、学習のアルゴリズムとしては、例えば、Ｒｕｍｅｌ
ｈａｒｔ、　Ｄ、Ｅ、、ＭｃＣｌｅｌｌａｎｄ、　Ｊ、
Ｌ、　ａｎｄ　ｔｈｅＰＤＰ　Ｒｅ５ｅａｒｃｈ　Ｇｒ
ｏｕｐ、　ＰＡＲＡＬＬＥＬ　ＤＩＳＴＲＩＢＵＴＥＤ
ＰＲＯＣＥＳＳＩＮＧ、　ｔｈｅ　ＭＩＴ　Ｐｒｅｓｓ
、　１９８６．　（文献２）に記載されているバックプ
ロパゲーションを用いることかできる。

以下、本発明の具体的な実施例について説明する。尚、
この実施例の認識システム１は、ｎチャンネルのバンド
パスフィルタ１０．平均化回路１５、ニューラルネット
ワーク２０、判定回路３０の結合にて構成される（第１
図参照）（Ａ）学習単語を「ショウメイ」　「エアコン
」、「カーテン」、「テレビ」、「ドア」の５単語とし
、入力単語を「ショウメイ」、「エアコン」、「カーテ
ン」、「テレビ」、「ドア」の５単語とした。

（Ｂ）前処理 ■入力音声（５単語）を、第２図に示す如く、４つのブ
ロックに時間的に等分割する。

■各ブロックの音声波形を第１図に示す如く、複数（ｎ
個）（この実施例てはｎ＝８）チャンネルのバンドパス
フィルタ１０に通し、各ブロック即ち各一定時間毎に第
３図（Ａ）〜（Ｄ）のそれぞれに示す如くの周波数特性
を得る。

この時、バンドパスフィルタ１０の出力は各ブロック毎
に平均化回路１５て平均化される。

（Ｃ）ニューラルネットワークによる処理及び判定 ■前処理の結果（ブロック毎のバントパスフィルタ１０
の出力）を、第１図に示す如く、３層の階層的なニュー
ラルネットワーク２０に入力する。入力層２１は、前処
理の４ブロツク、ｎチャンネルに対応する、４Ｘｎユニ
ツト（この実施例ではｎ＝８　３２ユニツト）にて構成
される。出力層２２は、５単語のそれそ゛れについて登
録単語とその他の単語とに対応する２ユニツトを設り、
全体を１０ユニットにて構成される。

■ニューラルネットワーク２０の出力を判定回路３０に
入力し、今回入力音声の単語を認識する。但し、本発明
の実施において、ニューラルネットワーク２０の出力は
判定回路３０の如くにて機械的に判定処理されず、ニュ
ーラルネットワーク２０の出力を得た人間の知力にて判
定処理されるものてあっても良い。

■前述した学習アルゴリズムのバックプロパゲーション
により、入力に対する出力のエラーが一定レベルに収束
するまで　１，０００回学習させ、一定認識率を保証し
得るネットワークを構築する。尚、出力としては、各登
録単語に対応したユニットが「１」、その他の単語に対
応したユニットが「０」となるように学習した。

（Ｄ）実験上記認識システム１を用いて、単語認識を実験した。

入力音声は、パックプロパゲーションにより学習した５
単語（「ショウメイ」、「エアコン」、「カーテン」、
「テレビ」、「ドア」）とした。

（ａ）認識率結果、認識率は　１００％であることが認められた。

（ｂ）処理速度又、処理速度（１単語の発声に対する認識に要した時間
）は１秒以内であり、極めて迅速処理できることが認め
られた。

即ち、上記認識システム１にあっては、」−記（ａ）の
結果が示すように認識率が極めて高い。

又、上記認識システム１にあっては、上記　（ｂ）の結
果が示すように話者認識処理を複雑な処理装置によるこ
となく迅速処理でき、容易に実時間処理できる。

尚、上記認識システム１にあっては、ニューラルネット
ワーク２０への入力として、平均化回路１５を用いて音
声の「一定時間における平均的な」周波数特性の時間的
変化を用いることとしたが、本発明の実施においては、
ニューラルネットワークへの入力として、単に「音声の
周波数特性の時間的変化」を用いるものであっても良い
。

［発明の効果］以上のように本発明によれば、高い認識率を確保し、且
つ容易に実時間処理てきる単語認識方式％式％

【図面の簡単な説明】

第１図は本発明が適用された単語認識システムの一例を
示す模式図、第２図は入力音声を示す模式図、第３図は
バンドパスフィルタの出力を示す模式図、第４図はニュ
ーラルネットワークを示す模式図、第５図は階層的なニ
ューラルネットワークを示す模式図、第６図はユニット
の構造を示す模式図である。１・・・認識システム、１０・・・バンドパスフィルタ、１５・・・平均化回路、２０・・・ニューラルネットワーク、２１・・・入力層２２・・・出力層、３０・・・判定回路（単語認識部）。特許出願人　積水化学工業株式会社代表者　　廣１）馨慣田Δ゛（よ、き−

Claims

【特許請求の範囲】

（１）ニューラルネットワークを用いて入力音声からそ
の単語を認識する単語認識方式であって、ニューラルネ
ットワークへの入力として、音声の周波数特性の時間的
変化を用いる単語認識方式。
（２）前記ニューラルネットワークへの入力として、音
声の一定時間内における平均的な周波数特性の時間的変
化を用いる請求項１記載の単語認識方式。
（３）前記ニューラルネットワークが階層的なニューラ
ルネットワークである請求項１又は２記載の単語認識方
式。