JPH02275996A - 単語認識方式 - Google Patents

単語認識方式

Info

Publication number
JPH02275996A
JPH02275996A JP1098376A JP9837689A JPH02275996A JP H02275996 A JPH02275996 A JP H02275996A JP 1098376 A JP1098376 A JP 1098376A JP 9837689 A JP9837689 A JP 9837689A JP H02275996 A JPH02275996 A JP H02275996A
Authority
JP
Japan
Prior art keywords
neural network
input
time
processing
word recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1098376A
Other languages
English (en)
Inventor
Kazuhiko Okashita
和彦 岡下
Shingo Nishimura
新吾 西村
Masayuki Unno
海野 雅幸
Masashi Miyagawa
宮川 正志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP1098376A priority Critical patent/JPH02275996A/ja
Publication of JPH02275996A publication Critical patent/JPH02275996A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、電気錠、ICカード等のオンライン端末等て
入力音声からその単語を認識するに好適な単語認識方式
に関する。
[従来の技術] 従来の単語認識方式は、例えば特公昭63−4200号
公報、特開昭62−220998号公報に記載される如
く、以下の手順による。
■入力音声に含まれる単語に関する特徴量を抽出する。
■予め上記■と同様にして抽出しておいた標準パターン
と上記■て抽出した特徴量との距離を計算する。
■計算結果より、上記距離か最小の標準パターンの単語
を入力音声の単語と判定する。
[発明が解決しようとする課題] 然しなから、上記従来の単語認識方式では、以下の問題
点がある。
■標準パターン作成時から時間か経過するにつれ、認識
率が劣化する。
■実時間処理が困難である。即ち、従来の単語認識方式
において一定以上の認識率を確保するためには複雑な特
徴量を用いる必要かあるが、複雑な特徴量を抽出するに
は複雑な処理装置が必要てあり、処理時間も多大となる
本発明は、高い認識率を確保し、かつ容易に実時間処理
てきる単語認識方式を得ることを目的とする。
[課題を解決するための手段] 請求項1に記載の本発明は、ニューラルネットワークを
用いて入力音声からその単語を認識する単語認識方式で
あって、ニューラルネットワークへの入力として、音声
の周波数特性の時間的変化を用いるようにしたものであ
る。
請求項2に記載の本発明は、前記ニューラルネットワー
クへの入力として、音声の一定時間内における平均的な
周波数特性の時間的変化を用いるようにしたものである
請求項3に記載の本発明は、前記ニューラルネットワー
クが階層的なニューラルネットワークであるようにした
ものである。
[作用] 請求項1に記載の本発明によれば以下の■〜■の作用効
果がある。
■経時的な認識率の劣化か極めて少ない。このことは、
ニューラルネットワークが音声の時期差による変動の影
響を受けにくい構造をとることか可能なためと推定され
る。
■ニューラルネットワークへの入力として、「音声の周
波数特性の時間的変化」を用いたから、入力を得るため
の前処理が、従来の複雑な特徴量抽出に比して、単純と
なり、この前処理に要する時間が短くて足りる。
■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理か単純且つ迅速である。
■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットが独立に動作しており、並列的な演算
処理が可能である。従って、演算処理か迅速である。
■上記■〜■により、単語認識処理を複雑な処理装置に
よることなく容易に実時間処理できる。
又、請求項2に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。
■ニューラルネットワークへの入力として、「音声の一
定時間内における平均的な周波数特性の時間的変化」を
用いたから、ニューラルネットワークにおける処理が単
純となり、この処理に要する時間がより短くて足りる。
又、請求項3に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。
■階層的なニューラルネットワークにあっては、現在、
後述する如くの簡単な学習アルゴリズム(パックプロパ
ゲーション)が確立されており、高い認識率を実現でき
るニューラルネットワークを容易に形成できる。
[実施例] 第1図は本発明が適用された単語認識システムの一例を
示す模式図、第2図は入力音声を示す模式図、第3図は
バンドパスフィルタの出力を示す模式図、第4図はニュ
ーラルネットワークを示す模式図、第5図は階層的なニ
ューラルネットワークを示す模式図、第6図はユニッI
への構造を示す模式図である。
本発明の具体的実施例の説明に先立ち、ニューラルネッ
トワークの構成、学習アルゴリズムについて説明する。
(1)ニューラルネットワークは、その構造から、第4
図(A)に示す階層的ネットワークと第4図(B)に示
す相互結合ネットワークの2種に大別できる。本発明は
、両ネットワークのいずれを用いて構成するものであっ
ても良いが、階層的ネットワークは後述する如くの簡単
な学習アルゴリスムが確立されているためより有用であ
る。
(2)ネットワークの構造 階層的ネットワークは、第5図に示す如く、入力層、中
間層、出力層からなる階層構造をとる。
各層は1以上のユニットから構成される。結合は、人力
層→中間層→出力層という前向きの結合たけて、各層内
での結合はない。
(3)ユニットの構造 ユニットは第6図に示す如く脳のニューロンのモデル化
であり構造は簡単である。他のユニットから入力を受け
、その総和をとり一定の規則(変換関数)で変換し、結
果を出力する。他のユニットとの結合には、それぞれ結
合の強さを表わす可変の重みを付ける。
(4)学習(パックプロパゲーション)ネットワークの
学習とは、実際の出力を目標値(望ましい出力)に近づ
けることてあり、−S的には第6図に示した各ユニット
の変換関数及び重みを変化させて学習を行なう。
又、学習のアルゴリズムとしては、例えば、Rumel
hart、 D、E、、McClelland、 J、
L、 and thePDP Re5earch Gr
oup、 PARALLEL DISTRIBUTED
PROCESSING、 the MIT Press
、 1986. (文献2)に記載されているバックプ
ロパゲーションを用いることかできる。
以下、本発明の具体的な実施例について説明する。尚、
この実施例の認識システム1は、nチャンネルのバンド
パスフィルタ10.平均化回路15、ニューラルネット
ワーク20、判定回路30の結合にて構成される(第1
図参照)(A)学習単語を「ショウメイ」 「エアコン
」、「カーテン」、「テレビ」、「ドア」の5単語とし
、入力単語を「ショウメイ」、「エアコン」、「カーテ
ン」、「テレビ」、「ドア」の5単語とした。
(B)前処理 ■入力音声(5単語)を、第2図に示す如く、4つのブ
ロックに時間的に等分割する。
■各ブロックの音声波形を第1図に示す如く、複数(n
個)(この実施例てはn=8)チャンネルのバンドパス
フィルタ10に通し、各ブロック即ち各一定時間毎に第
3図(A)〜(D)のそれぞれに示す如くの周波数特性
を得る。
この時、バンドパスフィルタ10の出力は各ブロック毎
に平均化回路15て平均化される。
(C)ニューラルネットワークによる処理及び判定 ■前処理の結果(ブロック毎のバントパスフィルタ10
の出力)を、第1図に示す如く、3層の階層的なニュー
ラルネットワーク20に入力する。入力層21は、前処
理の4ブロツク、nチャンネルに対応する、4Xnユニ
ツト(この実施例ではn=8 32ユニツト)にて構成
される。出力層22は、5単語のそれそ゛れについて登
録単語とその他の単語とに対応する2ユニツトを設り、
全体を10ユニットにて構成される。
■ニューラルネットワーク20の出力を判定回路30に
入力し、今回入力音声の単語を認識する。但し、本発明
の実施において、ニューラルネットワーク20の出力は
判定回路30の如くにて機械的に判定処理されず、ニュ
ーラルネットワーク20の出力を得た人間の知力にて判
定処理されるものてあっても良い。
■前述した学習アルゴリズムのバックプロパゲーション
により、入力に対する出力のエラーが一定レベルに収束
するまで 1,000回学習させ、一定認識率を保証し
得るネットワークを構築する。尚、出力としては、各登
録単語に対応したユニットが「1」、その他の単語に対
応したユニットが「0」となるように学習した。
(D)実験 上記認識システム1を用いて、単語認識を実験した。
入力音声は、パックプロパゲーションにより学習した5
単語(「ショウメイ」、「エアコン」、「カーテン」、
「テレビ」、「ドア」)とした。
(a)認識率 結果、認識率は 100%であることが認められた。
(b)処理速度 又、処理速度(1単語の発声に対する認識に要した時間
)は1秒以内であり、極めて迅速処理できることが認め
られた。
即ち、上記認識システム1にあっては、」−記(a)の
結果が示すように認識率が極めて高い。
又、上記認識システム1にあっては、上記 (b)の結
果が示すように話者認識処理を複雑な処理装置によるこ
となく迅速処理でき、容易に実時間処理できる。
尚、上記認識システム1にあっては、ニューラルネット
ワーク20への入力として、平均化回路15を用いて音
声の「一定時間における平均的な」周波数特性の時間的
変化を用いることとしたが、本発明の実施においては、
ニューラルネットワークへの入力として、単に「音声の
周波数特性の時間的変化」を用いるものであっても良い
[発明の効果] 以上のように本発明によれば、高い認識率を確保し、且
つ容易に実時間処理てきる単語認識方式%式%
【図面の簡単な説明】
第1図は本発明が適用された単語認識システムの一例を
示す模式図、第2図は入力音声を示す模式図、第3図は
バンドパスフィルタの出力を示す模式図、第4図はニュ
ーラルネットワークを示す模式図、第5図は階層的なニ
ューラルネットワークを示す模式図、第6図はユニット
の構造を示す模式図である。 1・・・認識システム、 10・・・バンドパスフィルタ、 15・・・平均化回路、 20・・・ニューラルネットワーク、 21・・・入力層 22・・・出力層、 30・・・判定回路(単語認識部)。 特許出願人 積水化学工業株式会社 代表者  廣1)馨 慣田Δ゛(よ 、き−

Claims (3)

    【特許請求の範囲】
  1. (1)ニューラルネットワークを用いて入力音声からそ
    の単語を認識する単語認識方式であって、ニューラルネ
    ットワークへの入力として、音声の周波数特性の時間的
    変化を用いる単語認識方式。
  2. (2)前記ニューラルネットワークへの入力として、音
    声の一定時間内における平均的な周波数特性の時間的変
    化を用いる請求項1記載の単語認識方式。
  3. (3)前記ニューラルネットワークが階層的なニューラ
    ルネットワークである請求項1又は2記載の単語認識方
    式。
JP1098376A 1989-04-18 1989-04-18 単語認識方式 Pending JPH02275996A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1098376A JPH02275996A (ja) 1989-04-18 1989-04-18 単語認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1098376A JPH02275996A (ja) 1989-04-18 1989-04-18 単語認識方式

Publications (1)

Publication Number Publication Date
JPH02275996A true JPH02275996A (ja) 1990-11-09

Family

ID=14218161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1098376A Pending JPH02275996A (ja) 1989-04-18 1989-04-18 単語認識方式

Country Status (1)

Country Link
JP (1) JPH02275996A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5497448A (en) * 1992-04-30 1996-03-05 Matsushita Electric Industrial Co., Ltd. Learning type waveform recognizer
JP2023089116A (ja) * 2018-07-13 2023-06-27 グーグル エルエルシー エンドツーエンドストリーミングキーワードスポッティング

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5497448A (en) * 1992-04-30 1996-03-05 Matsushita Electric Industrial Co., Ltd. Learning type waveform recognizer
JP2023089116A (ja) * 2018-07-13 2023-06-27 グーグル エルエルシー エンドツーエンドストリーミングキーワードスポッティング
US12334058B2 (en) 2018-07-13 2025-06-17 Google Llc End-to-end streaming keyword spotting

Similar Documents

Publication Publication Date Title
CN109243467B (zh) 声纹模型构建方法、声纹识别方法及系统
DE4317372C2 (de) Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-Netzwerkes
CN113128552B (zh) 一种基于深度可分离因果图卷积网络的脑电情绪识别方法
CN110379441A (zh) 一种基于对抗型人工智能网络的语音服务方法与系统
WO2006000103A1 (en) Spiking neural network and use thereof
JPH06161496A (ja) 家電製品のリモコン命令語を認識するための音声認識システム
JPH02275996A (ja) 単語認識方式
CN110363074A (zh) 一种针对复杂抽象化事物的类人化识别交互方法
JPH03230200A (ja) 音声認識方法
JPH02273798A (ja) 話者認識方式
JP2510301B2 (ja) 話者認識システム
JPH03157697A (ja) 単語認識システム
CA2003183C (en) Speaker recognition system
JP2518939B2 (ja) 話者照合システム
JPH02135500A (ja) 話者認識方式
JPH02304498A (ja) 単語認識方式
JPH02304497A (ja) 単語認識方式
JPH05143094A (ja) 話者認識システム
JPH02273800A (ja) 話者認識方式
JPH02273799A (ja) 話者認識方式
JPH03230255A (ja) 音声認識方法
CN121587726B (zh) 基于自适应模糊域对抗的跨被试脑电情绪识别方法及系统
JPH03230256A (ja) 音声認識方法
Park et al. Advancing Temporal Spike Encoding for Efficient Speech Recognition
JPH02273797A (ja) 話者認識方式