JPH02304500A - 単語認識方式 - Google Patents
単語認識方式Info
- Publication number
- JPH02304500A JPH02304500A JP1126318A JP12631889A JPH02304500A JP H02304500 A JPH02304500 A JP H02304500A JP 1126318 A JP1126318 A JP 1126318A JP 12631889 A JP12631889 A JP 12631889A JP H02304500 A JPH02304500 A JP H02304500A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- input
- word
- frequency
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は、電気錠、ICカード等のオンライン端末等で
入力音声からその単語を認識するに好適な単語圧、識方
式に関する。
入力音声からその単語を認識するに好適な単語圧、識方
式に関する。
[従来の技術]
従来の(11語R3識方式は、例えは特公昭63−42
00号公報、特開昭62−220998号公報に記載さ
れる如く、以ドの手順による。
00号公報、特開昭62−220998号公報に記載さ
れる如く、以ドの手順による。
■人力音声に含まれる単語に関する特徴はを抽出する。
■予め上記■と同様にして抽出しておいた<= V<=
パターンと上記■て抽出した特徴量との距離を計算する
。
パターンと上記■て抽出した特徴量との距離を計算する
。
■計算結果より、上記距離か最小の標準パターンの単語
を入力11声の(11語と判定する。
を入力11声の(11語と判定する。
[発明か解決しようどする課題]
然しなから、上記従来の単語認識方式ては、以下の問題
点がある。
点がある。
実時間処理か困難′Cある。即ち、従来の単語詔。
織方式におい゛r一定以−lこの認識率を確保するため
には複雑な特徴量を用いる必要かあるが、複雑な特徴i
tを抽出するには複雑な処理装置が必要てあり、処理時
間も多大となる。
には複雑な特徴量を用いる必要かあるが、複雑な特徴i
tを抽出するには複雑な処理装置が必要てあり、処理時
間も多大となる。
本発明は、高い認識率を硲保し、かつ容易に実時間処理
できる小話認識方式を得ることを目的とする。
できる小話認識方式を得ることを目的とする。
[課題を解決するだめの手段]
請求項1に記載の本発明は、ニューラルネッ1へワーク
を用いて人力音声からその91語を認識する、+ii語
設、織方式゛Cあって、ニューラルネットワークへの入
力として、高域強調を施された音声波形の平均的な周波
数特性を用いるようにしたものである。
を用いて人力音声からその91語を認識する、+ii語
設、織方式゛Cあって、ニューラルネットワークへの入
力として、高域強調を施された音声波形の平均的な周波
数特性を用いるようにしたものである。
請求項2に記載の本発明は、前記ニューラルネタ1〜ワ
ークへの入力として、高域強調を施された8声波形の一
定時間内における゛Y均的な周波数特性の時間的変化を
用いるようにしたものである。
ークへの入力として、高域強調を施された8声波形の一
定時間内における゛Y均的な周波数特性の時間的変化を
用いるようにしたものである。
請求項:3に記載の本発明は、前記ニューラルネットワ
ークか階層的なニューラルネットワークであるようにし
たものである。
ークか階層的なニューラルネットワークであるようにし
たものである。
尚、高域強調とは、音声波形のスペクトルの平均的な傾
きを補償して、低域にエネルギか集中ずことを防Wする
ことである。
きを補償して、低域にエネルギか集中ずことを防Wする
ことである。
[作用コ
Jlfflff求肥1の本発明によれば以下の■〜■の
作用効果かある。
作用効果かある。
■ニューラルネットワークへの人力として、「高域強調
を施された音声波形の平均的な周波数特性」を用いたか
ら、入力を得るための前処理か、従来の複雑な特徴量抽
出に比して、ii純となり、この前処理に要する時間か
短くて足りる。
を施された音声波形の平均的な周波数特性」を用いたか
ら、入力を得るための前処理か、従来の複雑な特徴量抽
出に比して、ii純となり、この前処理に要する時間か
短くて足りる。
即ち、音j1i波形のスペクトルの平均的な傾きは!i
i 、i7iに共通のものであり、111語の21懺に
はあまり有効な情報は含まれていない。ところか、この
スペクトルの平均的な傾きか補償されていないγ1声波
形をそのままニューラルネットワークへ人力する場合に
は、二JL−ラルネットワークか学習する時にスペクト
ルの平均的な傾きの特徴の方を抽出してしまい、単語の
認識に必要なスベク1ヘルの山と谷を抽出するのに時間
がかかる。これに対し、ニューラルネットワークへの入
力を高域強調する場合には、単語に共通”C,認、識に
は無関係でありなから、学習に影響を及ぼすスペクトル
の平均的な傾きを補償できるため、学習速度か速くなる
のである。
i 、i7iに共通のものであり、111語の21懺に
はあまり有効な情報は含まれていない。ところか、この
スペクトルの平均的な傾きか補償されていないγ1声波
形をそのままニューラルネットワークへ人力する場合に
は、二JL−ラルネットワークか学習する時にスペクト
ルの平均的な傾きの特徴の方を抽出してしまい、単語の
認識に必要なスベク1ヘルの山と谷を抽出するのに時間
がかかる。これに対し、ニューラルネットワークへの入
力を高域強調する場合には、単語に共通”C,認、識に
は無関係でありなから、学習に影響を及ぼすスペクトル
の平均的な傾きを補償できるため、学習速度か速くなる
のである。
■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理か単純且つ迅速である。
全体の演算処理か単純且つ迅速である。
■ニューラルネ・ントワークは、原理的に、それを構成
し′Cいる各ユニッ1〜が独qに動作しており、並列的
な演算処理が可能である。従って、演算処理か迅速であ
る。
し′Cいる各ユニッ1〜が独qに動作しており、並列的
な演算処理が可能である。従って、演算処理か迅速であ
る。
■ト記■〜■により、単語認1識処理を複雑な処理袋)
nによることなく容易に実時間処理てきる。
nによることなく容易に実時間処理てきる。
又、請求項2に記載の本発明によれは上記■〜■の作用
効果に加えて、以rの■の作用効果かある。
効果に加えて、以rの■の作用効果かある。
■ニューラルネットワークへの入力として、「高域強調
を施された音声波形の一定時間内における平均的な周波
数特性の時間的変化」を用いたから、ニューラルネット
ワークにおける処理か単純゛となり、この処理に要する
時間がより短くて足りる。
を施された音声波形の一定時間内における平均的な周波
数特性の時間的変化」を用いたから、ニューラルネット
ワークにおける処理か単純゛となり、この処理に要する
時間がより短くて足りる。
又、請求項3に記載の本発明によれば[記■〜■の作用
効果に加えて、以下の■の作用効果かある。
効果に加えて、以下の■の作用効果かある。
0階層的なニューラルネットワークにあっては、現在、
後述する如くの簡単な学習アルゴリズム(ハックプロバ
ケーション)が671 rZされており、高い認識室を
実現てきるニューラルネットワークを容易に形成てきる
。
後述する如くの簡単な学習アルゴリズム(ハックプロバ
ケーション)が671 rZされており、高い認識室を
実現てきるニューラルネットワークを容易に形成てきる
。
[実施例]
第1図は本発明か適用された単語認識システムの一例を
示す模式図、第2図は人力音声を示す模式図、第3図は
バントパスフィルタの出力を示す模式図、第4図はニュ
ーラルネットワークを示す模式図、第5図は階層的なニ
ューラルネットワークを示す模式図、第6図はユニット
の構造を示す模式図である。
示す模式図、第2図は人力音声を示す模式図、第3図は
バントパスフィルタの出力を示す模式図、第4図はニュ
ーラルネットワークを示す模式図、第5図は階層的なニ
ューラルネットワークを示す模式図、第6図はユニット
の構造を示す模式図である。
本発明の具体的実施例の説明に先立ち、ニューラルネッ
トワークの構成、学習アルゴリズムについて説明する。
トワークの構成、学習アルゴリズムについて説明する。
(1)ニューラルネッ1−ワークは、そのM’Sがら、
第4図(A)に示す階層的ネットワークと第4図(13
)に示す相互結合ネットワークの2種に大別できる。本
発明は、両ネットワークのいずれを用いて構成するもの
であっても良いか、階層的ネットワークは後述する如く
の簡単な学;111アルゴリスノ\か確立されているた
めより有用である。
第4図(A)に示す階層的ネットワークと第4図(13
)に示す相互結合ネットワークの2種に大別できる。本
発明は、両ネットワークのいずれを用いて構成するもの
であっても良いか、階層的ネットワークは後述する如く
の簡単な学;111アルゴリスノ\か確立されているた
めより有用である。
(2)ネッ1−ワークの構造
階層的ネットワークは、第5図に示す如く、入力IA、
中間層、出力層からなるF!N 層構造をとる。
中間層、出力層からなるF!N 層構造をとる。
各層はl以」二のユニットから構成される。結合は、人
力層−中間層→出力層という前向きの結合たけて、各層
内ての結合はない。
力層−中間層→出力層という前向きの結合たけて、各層
内ての結合はない。
(3)ユニットの構造
ユニットハ第6I2Iに示す如く脳のニューロンのモデ
ル化てありm造は簡単である。他のユニッI〜から人力
を受け、その総和をとり一定の規則(変換関数)で変換
し、結果を出力する。他のユニットとの結合には、それ
ぞれ結合の強さを表わす可変のj[みな付ける。
ル化てありm造は簡単である。他のユニッI〜から人力
を受け、その総和をとり一定の規則(変換関数)で変換
し、結果を出力する。他のユニットとの結合には、それ
ぞれ結合の強さを表わす可変のj[みな付ける。
(4)学習(ハックプロパゲーション)ネッ1−ワーク
の学習とは、実際の出力を目標イ直(望ましい出力)に
近づけることてあり、−f役向には第6図に示した各ユ
ニッ1〜の変換関数及び重みを変化させて学習を行なう
。
の学習とは、実際の出力を目標イ直(望ましい出力)に
近づけることてあり、−f役向には第6図に示した各ユ
ニッ1〜の変換関数及び重みを変化させて学習を行なう
。
又、学習のアルゴリスムとしては、例えは、l(umc
lharL、 D、Ii、、McClelland、
J、L、and theP D P Re s
e a r c b G r o u I) 、
P A It A CL E L D I S T
Rh B (I TE D 丁’1(OC14SSING、 the Mli’
Press、 19L16.lこt2載されているハ
ックプロパゲーションを用いることがてきる。
lharL、 D、Ii、、McClelland、
J、L、and theP D P Re s
e a r c b G r o u I) 、
P A It A CL E L D I S T
Rh B (I TE D 丁’1(OC14SSING、 the Mli’
Press、 19L16.lこt2載されているハ
ックプロパゲーションを用いることがてきる。
以−1、本発明の具体的な実施例について説明する。尚
、この実施例の認識システム1は、高域強調部10A、
バントパスフィルタ10、平均化回路15、ニューラル
ネットワーク20、↑り窓回路30の結合にて構成され
る(第1図参照)。
、この実施例の認識システム1は、高域強調部10A、
バントパスフィルタ10、平均化回路15、ニューラル
ネットワーク20、↑り窓回路30の結合にて構成され
る(第1図参照)。
(A)学習用語を[ショウメイJ、「エアコン」、「カ
ーテン」、「テレビ」、「ドア」の5単語とし、入力単
語を「ショウメイ」、「エアコン」、「カーテン」、「
テレビ」、「l−ア」の5単ムハとした。
ーテン」、「テレビ」、「ドア」の5単語とし、入力単
語を「ショウメイ」、「エアコン」、「カーテン」、「
テレビ」、「l−ア」の5単ムハとした。
(13)前処理
■人力音声(5単語のそれぞれ)を、第2図に示す如く
、4つのブロックに時間的に等分割する。
、4つのブロックに時間的に等分割する。
■音声波形を、第1図に示す如く、高域強調フィルタか
らなる高域強調部10Aに通して高域強調を施す。
らなる高域強調部10Aに通して高域強調を施す。
次に、上記高域強調後の音声波形を、複数(n個)(こ
の実施例てはn=8)チャンネルのバンドパスフィルタ
10に通し、各ツロツク即ち各一定時間毎に第3図(A
)〜(1))のそれぞれに示す如くの周波数特性を得る
。
の実施例てはn=8)チャンネルのバンドパスフィルタ
10に通し、各ツロツク即ち各一定時間毎に第3図(A
)〜(1))のそれぞれに示す如くの周波数特性を得る
。
この時、バンドパスフィルタ10の出力は各ブロック毎
に平均化回路15て平均化される。
に平均化回路15て平均化される。
尚、本発明の高域強調操作は、」−述の如くバントパス
フィルタ10への入力前てなく、バンドパスフィルタ1
0からの出力後に施すものであっても良い。
フィルタ10への入力前てなく、バンドパスフィルタ1
0からの出力後に施すものであっても良い。
(C)ニューラルネッ1へワークによる処理及び判定
■前処理の結果(ブロック毎のバントパスフィルタ10
、平均化回路15の出力)を、第1図に示す如く、3層
の階層的なニューラルネットワーク20に入力する。入
力層21は、前処理の4ツロツク、r)チャンネルに対
応する、4×r1ユニツ1〜(この実施例゛(はn=’
8.332ユニツト)にて構成される。出力層22は、
5単語のそれぞれについて登録単語とその他の単語とに
対応する2ユニツトを設け、全体を10ユニツトにて構
成される。
、平均化回路15の出力)を、第1図に示す如く、3層
の階層的なニューラルネットワーク20に入力する。入
力層21は、前処理の4ツロツク、r)チャンネルに対
応する、4×r1ユニツ1〜(この実施例゛(はn=’
8.332ユニツト)にて構成される。出力層22は、
5単語のそれぞれについて登録単語とその他の単語とに
対応する2ユニツトを設け、全体を10ユニツトにて構
成される。
■ニューラルネットワーク20の出力を判定回路30に
入力し、今回入力音声の単語を認識する。但し、本発明
の実施において、ニューラルネットワーク20の出力は
判定回路30の如くにて機、械的に11定処f!J!さ
れず、ニューラルネットワーク20の出力を得た人間の
知力にてヤ1定処理されるものてあっても良い。
入力し、今回入力音声の単語を認識する。但し、本発明
の実施において、ニューラルネットワーク20の出力は
判定回路30の如くにて機、械的に11定処f!J!さ
れず、ニューラルネットワーク20の出力を得た人間の
知力にてヤ1定処理されるものてあっても良い。
■前述した学習アルゴリスムのハックブロバケーション
により、人力に対する出力のエラーが一定レベルに収束
するまて 1,000回学習させ、一定コ2識率を保証
し得るネットワークを構築する。尚、出力としては、各
登録単語に対応したユニットが「1」、その他の単語に
対応したユニットが「0」となるように学習した。
により、人力に対する出力のエラーが一定レベルに収束
するまて 1,000回学習させ、一定コ2識率を保証
し得るネットワークを構築する。尚、出力としては、各
登録単語に対応したユニットが「1」、その他の単語に
対応したユニットが「0」となるように学習した。
(D)実験
上記認識システム1を用いて、単語認識を実験した。
人力音声は、バックプロパゲーションにより学習した5
単語(「ショウメイ」、「エアコン」、「カーテシ」、
「テレビ」、「ドア」)とした。
単語(「ショウメイ」、「エアコン」、「カーテシ」、
「テレビ」、「ドア」)とした。
(a)認I&率
結果、認−率は 100%であることが認められた。
(b)処理速度
又、処理速度(1単語の発声に対する認識に要した時間
)は1秒以内であり、極めて迅速処理できることか認め
られた。
)は1秒以内であり、極めて迅速処理できることか認め
られた。
即ち、上記コ2.識システム1にあっては、上記(a)
の結果か示すように認識率が極めて高い。
の結果か示すように認識率が極めて高い。
又、上記認識システム1にあっては、上記 (b)の結
果が示すように単語認識処理を複雑な処理袋:iTによ
ることなく迅速処理でき、容易に実時間処理“できる。
果が示すように単語認識処理を複雑な処理袋:iTによ
ることなく迅速処理でき、容易に実時間処理“できる。
できる。
尚1本発明の実施において、ニューラルネットワークへ
の入力として、高域強調を施された音声波形の一定時間
内における平均的な周波数特性の時間的変化を用いるも
のでなく、単に[高域強調を施された音声波形の平均的
な周波数特性」を用いるものであっても良い。
の入力として、高域強調を施された音声波形の一定時間
内における平均的な周波数特性の時間的変化を用いるも
のでなく、単に[高域強調を施された音声波形の平均的
な周波数特性」を用いるものであっても良い。
[発明の効果]
以上のように本発明によれば、高い認識率を確保し、h
)−2容易に実時間処理できる単語認識方式%式%
)−2容易に実時間処理できる単語認識方式%式%
第1図は本発明か適用された単語認識システムの一例を
示す模式図、第2図は入力音声を示す模式図、第3図は
バントパスフィルタの出力を示す模式図、第4図はニュ
ーラルネットワークを示す模式図、第5図は附ノΔ的な
ニューラルネットワークを示す模式図、第6図はユニッ
トの構造を示す模式図である。 1・・・認識システム、 10A・・・高域強調部、 10・・・バントパスフィルタ、 】5・・・平均化回路、 20・・・ニューラルネットワーク、 21・・・入力層 22・・・出力層、 30・・・判定回路。 特許出願人 積水化学工業株式会社 代表者 廣1)馨 第2図 時間 第3図 (A) (B) (C) (D)第4図 第5図 を 入カバターン 第6図 ユニソト
示す模式図、第2図は入力音声を示す模式図、第3図は
バントパスフィルタの出力を示す模式図、第4図はニュ
ーラルネットワークを示す模式図、第5図は附ノΔ的な
ニューラルネットワークを示す模式図、第6図はユニッ
トの構造を示す模式図である。 1・・・認識システム、 10A・・・高域強調部、 10・・・バントパスフィルタ、 】5・・・平均化回路、 20・・・ニューラルネットワーク、 21・・・入力層 22・・・出力層、 30・・・判定回路。 特許出願人 積水化学工業株式会社 代表者 廣1)馨 第2図 時間 第3図 (A) (B) (C) (D)第4図 第5図 を 入カバターン 第6図 ユニソト
Claims (3)
- (1)ニューラルネットワークを用いて入力音声からそ
の単語を認識する単語認識方式であって、ニューラルネ
ットワークへの入力として、高域強調を施された音声波
形の平均的な周波数特性を用いる単語認識方式。 - (2)前記ニューラルネットワークへの入力として、高
域強調を施された音声波形の一定時間内における平均的
な周波数特性の時間的変化を用いる請求項1記載の単語
認識方式。 - (3)前記ニューラルネットワークが階層的なニューラ
ルネットワークである請求項1又は2記載の単語認識方
式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1126318A JPH02304500A (ja) | 1989-05-18 | 1989-05-18 | 単語認識方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1126318A JPH02304500A (ja) | 1989-05-18 | 1989-05-18 | 単語認識方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH02304500A true JPH02304500A (ja) | 1990-12-18 |
Family
ID=14932219
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1126318A Pending JPH02304500A (ja) | 1989-05-18 | 1989-05-18 | 単語認識方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH02304500A (ja) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6014300A (ja) * | 1983-07-06 | 1985-01-24 | シャープ株式会社 | 音声の特徴抽出方法 |
| JPS62149000A (ja) * | 1985-12-23 | 1987-07-02 | 日本電気株式会社 | 音声分析装置 |
| JPS63261400A (ja) * | 1987-04-20 | 1988-10-28 | 富士通株式会社 | 音声認識方式 |
-
1989
- 1989-05-18 JP JP1126318A patent/JPH02304500A/ja active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6014300A (ja) * | 1983-07-06 | 1985-01-24 | シャープ株式会社 | 音声の特徴抽出方法 |
| JPS62149000A (ja) * | 1985-12-23 | 1987-07-02 | 日本電気株式会社 | 音声分析装置 |
| JPS63261400A (ja) * | 1987-04-20 | 1988-10-28 | 富士通株式会社 | 音声認識方式 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH0449717B2 (ja) | ||
| Zhu et al. | Contribution of modulation spectral features on the perception of vocal-emotion using noise-vocoded speech | |
| CN121148370A (zh) | 一种基于梯度智调子网池的人机交互语音感知方法及系统 | |
| Partila et al. | Speech emotions recognition using 2-d neural classifier | |
| JPH02304500A (ja) | 単語認識方式 | |
| CN117273747B (zh) | 基于人脸图像识别的支付方法、装置、存储介质和设备 | |
| JPH03157697A (ja) | 単語認識システム | |
| JPH02275996A (ja) | 単語認識方式 | |
| JP2510301B2 (ja) | 話者認識システム | |
| JPH03230200A (ja) | 音声認識方法 | |
| JP2564200B2 (ja) | 話者認識方法 | |
| JPH02273798A (ja) | 話者認識方式 | |
| JPH02304498A (ja) | 単語認識方式 | |
| CN115862636B (zh) | 一种基于语音识别技术的互联网人机验证方法 | |
| CN121587726B (zh) | 基于自适应模糊域对抗的跨被试脑电情绪识别方法及系统 | |
| JPH06161495A (ja) | 音声認識装置 | |
| JPH05143094A (ja) | 話者認識システム | |
| JPH02273799A (ja) | 話者認識方式 | |
| JPH02304497A (ja) | 単語認識方式 | |
| JPH02253300A (ja) | 音声通過フィルタ | |
| JPH02273796A (ja) | 話者認識方式 | |
| JPH02135500A (ja) | 話者認識方式 | |
| JPH02304496A (ja) | 単語認識方式 | |
| JPH04121794A (ja) | 音声認識方法 | |
| JPH0494000A (ja) | 音声認識装置 |