JPH02304500A

JPH02304500A - 単語認識方式

Info

Publication number: JPH02304500A
Application number: JP1126318A
Authority: JP
Inventors: Kazuhiko Okashita; 和彦岡下; Shingo Nishimura; 新吾西村; Masayuki Unno; 海野　雅幸; Masashi Miyagawa; 宮川　正志
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1989-05-18
Filing date: 1989-05-18
Publication date: 1990-12-18

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、電気錠、ＩＣカード等のオンライン端末等で
入力音声からその単語を認識するに好適な単語圧、識方
式に関する。

［従来の技術］従来の（１１語Ｒ３識方式は、例えは特公昭６３−４２
００号公報、特開昭６２−２２０９９８号公報に記載さ
れる如く、以ドの手順による。

■人力音声に含まれる単語に関する特徴はを抽出する。

■予め上記■と同様にして抽出しておいた＜＝　Ｖ＜＝
パターンと上記■て抽出した特徴量との距離を計算する
。

■計算結果より、上記距離か最小の標準パターンの単語
を入力１１声の（１１語と判定する。

［発明か解決しようどする課題］然しなから、上記従来の単語認識方式ては、以下の問題
点がある。

実時間処理か困難′Ｃある。即ち、従来の単語詔。

織方式におい゛ｒ一定以−ｌこの認識率を確保するため
には複雑な特徴量を用いる必要かあるが、複雑な特徴ｉ
ｔを抽出するには複雑な処理装置が必要てあり、処理時
間も多大となる。

本発明は、高い認識率を硲保し、かつ容易に実時間処理
できる小話認識方式を得ることを目的とする。

［課題を解決するだめの手段］請求項１に記載の本発明は、ニューラルネッ１へワーク
を用いて人力音声からその９１語を認識する、＋ｉｉ語
設、織方式゛Ｃあって、ニューラルネットワークへの入
力として、高域強調を施された音声波形の平均的な周波
数特性を用いるようにしたものである。

請求項２に記載の本発明は、前記ニューラルネタ１〜ワ
ークへの入力として、高域強調を施された８声波形の一
定時間内における゛Ｙ均的な周波数特性の時間的変化を
用いるようにしたものである。

請求項：３に記載の本発明は、前記ニューラルネットワ
ークか階層的なニューラルネットワークであるようにし
たものである。

尚、高域強調とは、音声波形のスペクトルの平均的な傾
きを補償して、低域にエネルギか集中ずことを防Ｗする
ことである。

［作用コＪｌｆｆｌｆｆ求肥１の本発明によれば以下の■〜■の
作用効果かある。

■ニューラルネットワークへの人力として、「高域強調
を施された音声波形の平均的な周波数特性」を用いたか
ら、入力を得るための前処理か、従来の複雑な特徴量抽
出に比して、ｉｉ純となり、この前処理に要する時間か
短くて足りる。

即ち、音ｊ１ｉ波形のスペクトルの平均的な傾きは！ｉ
ｉ　、ｉ７ｉに共通のものであり、１１１語の２１懺に
はあまり有効な情報は含まれていない。ところか、この
スペクトルの平均的な傾きか補償されていないγ１声波
形をそのままニューラルネットワークへ人力する場合に
は、二ＪＬ−ラルネットワークか学習する時にスペクト
ルの平均的な傾きの特徴の方を抽出してしまい、単語の
認識に必要なスベク１ヘルの山と谷を抽出するのに時間
がかかる。これに対し、ニューラルネットワークへの入
力を高域強調する場合には、単語に共通”Ｃ，認、識に
は無関係でありなから、学習に影響を及ぼすスペクトル
の平均的な傾きを補償できるため、学習速度か速くなる
のである。

■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理か単純且つ迅速である。

■ニューラルネ・ントワークは、原理的に、それを構成
し′Ｃいる各ユニッ１〜が独ｑに動作しており、並列的
な演算処理が可能である。従って、演算処理か迅速であ
る。

■ト記■〜■により、単語認１識処理を複雑な処理袋）
ｎによることなく容易に実時間処理てきる。

又、請求項２に記載の本発明によれは上記■〜■の作用
効果に加えて、以ｒの■の作用効果かある。

■ニューラルネットワークへの入力として、「高域強調
を施された音声波形の一定時間内における平均的な周波
数特性の時間的変化」を用いたから、ニューラルネット
ワークにおける処理か単純゛となり、この処理に要する
時間がより短くて足りる。

又、請求項３に記載の本発明によれば［記■〜■の作用
効果に加えて、以下の■の作用効果かある。

０階層的なニューラルネットワークにあっては、現在、
後述する如くの簡単な学習アルゴリズム（ハックプロバ
ケーション）が６７１　ｒＺされており、高い認識室を
実現てきるニューラルネットワークを容易に形成てきる
。

［実施例］第１図は本発明か適用された単語認識システムの一例を
示す模式図、第２図は人力音声を示す模式図、第３図は
バントパスフィルタの出力を示す模式図、第４図はニュ
ーラルネットワークを示す模式図、第５図は階層的なニ
ューラルネットワークを示す模式図、第６図はユニット
の構造を示す模式図である。

本発明の具体的実施例の説明に先立ち、ニューラルネッ
トワークの構成、学習アルゴリズムについて説明する。

（１）ニューラルネッ１−ワークは、そのＭ’Ｓがら、
第４図（Ａ）に示す階層的ネットワークと第４図（１３
）に示す相互結合ネットワークの２種に大別できる。本
発明は、両ネットワークのいずれを用いて構成するもの
であっても良いか、階層的ネットワークは後述する如く
の簡単な学；１１１アルゴリスノ＼か確立されているた
めより有用である。

（２）ネッ１−ワークの構造階層的ネットワークは、第５図に示す如く、入力ＩＡ、
中間層、出力層からなるＦ！Ｎ　層構造をとる。

各層はｌ以」二のユニットから構成される。結合は、人
力層−中間層→出力層という前向きの結合たけて、各層
内ての結合はない。

（３）ユニットの構造ユニットハ第６Ｉ２Ｉに示す如く脳のニューロンのモデ
ル化てありｍ造は簡単である。他のユニッＩ〜から人力
を受け、その総和をとり一定の規則（変換関数）で変換
し、結果を出力する。他のユニットとの結合には、それ
ぞれ結合の強さを表わす可変のｊ［みな付ける。

（４）学習（ハックプロパゲーション）ネッ１−ワーク
の学習とは、実際の出力を目標イ直（望ましい出力）に
近づけることてあり、−ｆ役向には第６図に示した各ユ
ニッ１〜の変換関数及び重みを変化させて学習を行なう
。

又、学習のアルゴリスムとしては、例えは、ｌ（ｕｍｃ
ｌｈａｒＬ、　Ｄ、Ｉｉ、、ＭｃＣｌｅｌｌａｎｄ、　
　Ｊ、Ｌ、ａｎｄ　　ｔｈｅＰ　Ｄ　Ｐ　　Ｒｅ　ｓ　
ｅ　ａ　ｒ　ｃ　ｂ　　Ｇ　ｒ　ｏ　ｕ　Ｉ）　、　　
Ｐ　Ａ　Ｉｔ　Ａ　ＣＬ　Ｅ　Ｌ　　Ｄ　Ｉ　Ｓ　Ｔ　
Ｒh　Ｂ　（Ｉ　ＴＥ　Ｄ丁’１（ＯＣ１４ＳＳＩＮＧ、　　ｔｈｅ　Ｍｌｉ’　
Ｐｒｅｓｓ、　　１９Ｌ１６．ｌこｔ２載されているハ
ックプロパゲーションを用いることがてきる。

以−１、本発明の具体的な実施例について説明する。尚
、この実施例の認識システム１は、高域強調部１０Ａ、
バントパスフィルタ１０、平均化回路１５、ニューラル
ネットワーク２０、↑り窓回路３０の結合にて構成され
る（第１図参照）。

（Ａ）学習用語を［ショウメイＪ、「エアコン」、「カ
ーテン」、「テレビ」、「ドア」の５単語とし、入力単
語を「ショウメイ」、「エアコン」、「カーテン」、「
テレビ」、「ｌ−ア」の５単ムハとした。

（１３）前処理 ■人力音声（５単語のそれぞれ）を、第２図に示す如く
、４つのブロックに時間的に等分割する。

■音声波形を、第１図に示す如く、高域強調フィルタか
らなる高域強調部１０Ａに通して高域強調を施す。

次に、上記高域強調後の音声波形を、複数（ｎ個）（こ
の実施例てはｎ＝８）チャンネルのバンドパスフィルタ
１０に通し、各ツロツク即ち各一定時間毎に第３図（Ａ
）〜（１））のそれぞれに示す如くの周波数特性を得る
。

この時、バンドパスフィルタ１０の出力は各ブロック毎
に平均化回路１５て平均化される。

尚、本発明の高域強調操作は、」−述の如くバントパス
フィルタ１０への入力前てなく、バンドパスフィルタ１
０からの出力後に施すものであっても良い。

（Ｃ）ニューラルネッ１へワークによる処理及び判定 ■前処理の結果（ブロック毎のバントパスフィルタ１０
、平均化回路１５の出力）を、第１図に示す如く、３層
の階層的なニューラルネットワーク２０に入力する。入
力層２１は、前処理の４ツロツク、ｒ）チャンネルに対
応する、４×ｒ１ユニツ１〜（この実施例゛（はｎ＝’
８．３３２ユニツト）にて構成される。出力層２２は、
５単語のそれぞれについて登録単語とその他の単語とに
対応する２ユニツトを設け、全体を１０ユニツトにて構
成される。

■ニューラルネットワーク２０の出力を判定回路３０に
入力し、今回入力音声の単語を認識する。但し、本発明
の実施において、ニューラルネットワーク２０の出力は
判定回路３０の如くにて機、械的に１１定処ｆ！Ｊ！さ
れず、ニューラルネットワーク２０の出力を得た人間の
知力にてヤ１定処理されるものてあっても良い。

■前述した学習アルゴリスムのハックブロバケーション
により、人力に対する出力のエラーが一定レベルに収束
するまて　１，０００回学習させ、一定コ２識率を保証
し得るネットワークを構築する。尚、出力としては、各
登録単語に対応したユニットが「１」、その他の単語に
対応したユニットが「０」となるように学習した。

（Ｄ）実験上記認識システム１を用いて、単語認識を実験した。

人力音声は、バックプロパゲーションにより学習した５
単語（「ショウメイ」、「エアコン」、「カーテシ」、
「テレビ」、「ドア」）とした。

（ａ）認Ｉ＆率結果、認−率は　１００％であることが認められた。

（ｂ）処理速度又、処理速度（１単語の発声に対する認識に要した時間
）は１秒以内であり、極めて迅速処理できることか認め
られた。

即ち、上記コ２．識システム１にあっては、上記（ａ）
の結果か示すように認識率が極めて高い。

又、上記認識システム１にあっては、上記　（ｂ）の結
果が示すように単語認識処理を複雑な処理袋：ｉＴによ
ることなく迅速処理でき、容易に実時間処理“できる。

できる。

尚１本発明の実施において、ニューラルネットワークへ
の入力として、高域強調を施された音声波形の一定時間
内における平均的な周波数特性の時間的変化を用いるも
のでなく、単に［高域強調を施された音声波形の平均的
な周波数特性」を用いるものであっても良い。

［発明の効果］以上のように本発明によれば、高い認識率を確保し、ｈ
）−２容易に実時間処理できる単語認識方式％式％

【図面の簡単な説明】

第１図は本発明か適用された単語認識システムの一例を
示す模式図、第２図は入力音声を示す模式図、第３図は
バントパスフィルタの出力を示す模式図、第４図はニュ
ーラルネットワークを示す模式図、第５図は附ノΔ的な
ニューラルネットワークを示す模式図、第６図はユニッ
トの構造を示す模式図である。１・・・認識システム、１０Ａ・・・高域強調部、１０・・・バントパスフィルタ、】５・・・平均化回路、２０・・・ニューラルネットワーク、２１・・・入力層２２・・・出力層、３０・・・判定回路。特許出願人　積水化学工業株式会社代表者　　廣１）馨第２図時間第３図（Ａ）　　　（Ｂ）　　　（Ｃ）　　　（Ｄ）第４図第５図を入カバターン第６図ユニソト

Claims

【特許請求の範囲】

（１）ニューラルネットワークを用いて入力音声からそ
の単語を認識する単語認識方式であって、ニューラルネ
ットワークへの入力として、高域強調を施された音声波
形の平均的な周波数特性を用いる単語認識方式。
（２）前記ニューラルネットワークへの入力として、高
域強調を施された音声波形の一定時間内における平均的
な周波数特性の時間的変化を用いる請求項１記載の単語
認識方式。
（３）前記ニューラルネットワークが階層的なニューラ
ルネットワークである請求項１又は２記載の単語認識方
式。