JPH03230255A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH03230255A
JPH03230255A JP2026671A JP2667190A JPH03230255A JP H03230255 A JPH03230255 A JP H03230255A JP 2026671 A JP2026671 A JP 2026671A JP 2667190 A JP2667190 A JP 2667190A JP H03230255 A JPH03230255 A JP H03230255A
Authority
JP
Japan
Prior art keywords
neural network
input
block
speech
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2026671A
Other languages
English (en)
Inventor
Kazuhiko Okashita
和彦 岡下
Shingo Nishimura
新吾 西村
Masashi Miyagawa
宮川 正志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP2026671A priority Critical patent/JPH03230255A/ja
Publication of JPH03230255A publication Critical patent/JPH03230255A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、電気錠、ICカード等のオンライン端末等で
入力音声からその単語を認識するに好適な音声認識方法
に関する。
[従来の技術] 従来、雑音の影響、回線等の入力系の相違等に対して高
い認識率を確保できる音声認識方法として、特開平1−
260490号公報に記載の如くのものが提案されてい
る。この音声認識方法は、音声をLPC分析して1フレ
ーム毎にLPCケプストラムを算出し、フレーム間のL
PCケプストラムの差分値を入力パラメータとして作成
する。他方、各音声の標準パターンも同様の差分値にて
作成してオく、そして、入力パラメータと標準パターン
との類似度を統計的尺度により計算し、類似度が最大と
なる標準パターンに対応する音声を認識結果とする。
[発明が解決しようとする課題] 然しなから、従来技術には下記■〜■の問題点がある。
■LPG分析は、音声を時系列的に多数区分したフレー
ム毎に順次行なうものであるため、処理時間が多大であ
る。
■入力パラメータの算出後の類似度の計算もフレーム毎
に順次行なうものであるため、処理時間が多大である。
■上記■、■により、実時間処理を行なうためには、高
級で複雑な処理が必要となる。
本発明は、容易に実時間処理てき、かつ高い認識率を確
保できる音声認識方法を提供することを目的とする。
[課題を解決するための手段] 請求項1に記載の本発明は、ニューラルネットワークを
用いて入力音声からその単語を認識する単語認識方法で
あって、入力音声の周波数特性を算出し、各帯域のそれ
ぞれにおいて時間的に等分割した音声区間のそれぞれを
1つのブロックとして、各ブロックの中で周波数特性の
平均を算出し、それらの平均を対応する帯域内のブロッ
ク間で差分した値を、ニューラルネットワークへの入力
として用いるようにしたものである。
請求項2に記載の本発明は、前記ニューラルネットワー
クが階層的なニューラルネットワークであるようにした
ものである。
[作用] 請求項1に記載の本発明によれば、下記■〜■の作用効
果がある。
■ニューラルネットワークへ入力する特徴パラメータと
して「周波数特性」を用いたから、入力を得るための前
処理が、LPG相関やLPCケプストラムの如くの複雑
な特徴量抽出に比して単純で並列的に周波数分析でき、
その前処理に要する時間が短くて足りる。
■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理が単純かつ迅速である。
■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットが独立に動作しており、並列的な演算
処理が可能である。従って、演算処理が迅速である。
■上記■〜■により、音声認識処理を複雑な処理装置に
よることなく容易に実時間処理できる。
■定常的なスペクトル歪に強く、高い認識率を維持でき
る。これは、以下に解析する如く、入力音声の各ブロッ
クでの周波数特性の平均を同一帯域内のブロック内で差
分するものであるため、スペクトル歪を消去できること
による。即ち、lをブロック番号、kを帯域番号、Ak
をに帯域の周波数伝送特性、S mikを学習段階での
に帯域lブロックの音声信号、S tikを評価段階で
電話回線を通した後における如く、定常的な周波数伝送
特性Akの影響によりスペクトルが歪んだ、k帯域lブ
ロックの音声信号とする時、 5tik=Ak  ・ Smi である、そして、評価段階での各音声信号S tikを
単語のパワー全体で正規化したものは、である、そして
、上記(1)式の対数を取り、例えば隣の(i+1)ブ
ロックとの差分な取る。この差分値Hは、 = log(S tik) −1og(ΣΣS tik
)−1og(S t(i+1)k)+ log(ΣΣS
 tik)= log(S tik) −1og(S 
t(i+1)k)     ・・−(2)= log(
A k−8m1k) −1og(A k−8m(i+1
)k)= log(A k) + log(S m1k
)−log(A k)−log(S m(i+1)k)
= log(S miN −log(S m(i+1)
k)      = (3)である。
上記差分値Hの(2)式は評価段階における音声信号の
差分値を表わし、(3)式は学習段階における音声信号
の差分値を表わす。即ち、(2)式の評価段階における
音声信号の差分値は、周波数伝送特性Akを消去されて
、(3)式の学習段階の差分値と同等になる、即ちスペ
クトル歪を消去できるのである。
請求項2に記載の本発明によれば、下記■の作用効果が
ある。
0階層的なニューラルネットワークにあっては、現在、
後述する如くの簡単な学習アルゴリズム(パックプロパ
ゲーション)が確立されており、高い認識率を実現でき
るニューラルネットワークを容易に形成できる。
[実施例] 第1図は本発明が適用された音声認識システムの一例を
示す模式図、第2図はニューラルネットワークを示す模
式図、第3図は階層的なニューラルネットワークを示す
模式図、第4図はユニットの構造を示す模式図である。
本発明の具体的実施例の説明に先立ち、ニューラルネッ
トワークの構成、学習アルゴリズムについて説明する。
(1)ニューラルネットワークは、その構造から、第2
図(A)に示す階層的ネットワークと第2図(B)に示
す相互結合ネットワークの2種に大別できる0本発明は
、両ネットワークのいずれを用いて構成するものであっ
ても良いが、階層的ネットワークは後述する如くの簡単
な学習アルゴリズムが確立されているためより有用であ
る。
(2)ネットワークの構造 階層的ネットワークは、第3図に示す如く、入力層、中
間層、出力層からなる階層構造をとる。
各層は1以上のユニットから構成される。結合は、入力
層→中間層→出力層という前向きの結合たけで、各層内
での結合はない。
(3)ユニットの構造 ユニットは第4図に示す如く脳のニューロンのモデル化
であり構造は簡単である。他のユニットから入力を受け
、その総和をとり一定の規則(変換関数)で変換し、結
果を出力する。他のユニットとの結合には、それぞれ結
合の強さを表わす可変の重みを付ける。
(4)学習(パックプロパゲーション)ネットワークの
学習とは、実際の出力を目標値(望ましい出力)に近づ
けることであり、−船釣には第4図に示した各ユニット
の変換関数及び重みを変化させて学習を行なう。
又、学習のアルゴリズムとしては、例えば、Rumel
hart、 D、E、、McClelland、 J、
L、 and thePDP Re5earch Gr
oup、 PARALLEL DISTRIBUTED
PROCESSING、 the MIT l’res
s、 198B、に記載されているパックプロパゲーシ
ョンを用いることができる。
以下、本発明の具体的な実施例について説明する。
認識システム1は、16チヤンネルのバンドパスフィル
タ11、平均化回路12、ブロック差分回路13、ニュ
ーラルネットワーク20.判定回路30の結合にて構成
される(第1図参照)。
この認識システム1にあっては、認識単語を47都道府
県名、特定話者を1名とした。以下、認識システム1の
学習動作と評価動作について詳述する。
(学習) 1、入力作成 ■各認識単語の既知入力音声波形を16チヤンネルのバ
ンドパスフィルタ11に通し、入力音声の周波数特性を
算出する。
■バンドパスフィルタ11の各帯域のそれぞれにおいて
音声波形を時間的に8等分割した音声区間のそれぞれを
1つのブロックとして、平均化回路12により、各ブロ
ックの中で、上記■で求めた周波数特性の平均を算出す
る。この学習段階における音声信号のに帯域lブロック
での周波数特性の平均を、S mikとする。
■上記■で各帯域にて求めた各ブロックの周除算して正
規化し、次に対数を取り、隣の(i+1)ブロックとの
差分を取り、前記(3)式の如くの差分値Hを算出する
■上記■で求めた値をニューラルネットワーク20への
入力とする。入力個数は16チヤンネル×8ブロック;
128個となる。
2、学習 ■ 128個の入力層と48個の出力層をもつニューラ
ルネットワーク20を用いる。
047個の認識単語のそれぞれに番号付けし、47個の
出力層と対応させ、各認識単語について上記1の■で求
めた入力に対し、その単語に対応した出力層か「1」、
その他の出力層が「0」という値(目標値)になるよう
に、パックプロパゲーションにより5000回学習する
。これにより、一定認識率を保証し得るニューラルネッ
トワーク20を構築する。
(評価) 1、入力作成 ■各認識単語の未知入力音声波形を16チヤンネルのバ
ンドパスフィルタ11に通し、入力音声の周波数特性を
算出する。
■バンドパスフィルタ11の各帯域のそれぞれにおいて
音声波形を時間的に8等分割した音声区間のそれぞれを
1つのブロックとして、平均化回路12により、各ブロ
ックの中で、上記■で求めた周波数特性の平均を算出す
る。この評価段階における音声信号のに帯域1ブロツク
での周波数特性の平均を、S tikとする。
■上記■で各帯域にて求めた各ブロックの周波数特性の
平均を、単語の全パワーΣΣS tikで除算して前記
(1)式の如く正規化し、次に対数を取り、隣の (i
+1)ブロックとの差分を取り、前記(2)式の如くの
差分値Hを算出する。
2、学習 ■上記■で求めた値をニューラルネットワーク20へ入
力する。
■ニューラルネットワーク20の出力層の値より判定回
路30にて入力単語を判定する。
以下、本発明の実験結果について説明する。
(実験1) 本発明例として、周波数特性の平均をブロック間で差分
したものをニューラルネットワーク20への入力とした
。認識単語を47都道府県名、特定話者を1名とした。
結果、認識率は90.6%、処理速度は1秒以内(1単
語平均認識時間)であった。
(実験2) 比較例として、LPG相関とLPCケプストラムのフレ
ーム間差分値にて、入力パラメータと標準パターンのそ
れぞれを作成し、両者の類似度を統計的尺度により計算
した。認識単語を47都道府県名、特定話者を1名とし
た。
結果、認識率は93.2%、処理速度は1秒以上(1単
語平均認識時間)であった。
以下、上記実施例の作用について説明する。
■ニューラルネットワーク20へ入力する特徴パラメー
タとして「周波数特性」を用いたから、入力を得るため
の前処理が、LPG相関やLPCケプストラムの如くの
複雑な特徴量抽出に比して単純で並列的に周波数分析で
き、その前処理に要する時間か短くて足りる。
■ニューラルネットワーク20は、原理的に、ネットワ
ーク全体の演算処理が単純かつ迅速である。
■ニューラルネットワーク20は、原理的に、それを構
成している各ユニットが独立に動作しており、並列的な
演算処理が可能である。従つて、演算処理が迅速である
■上記■〜■により、音声認識処理を複雑な処理装置に
よることなく容易に実時間処理できる。
■定常的なスペクトル歪に強く、高い認識率を維持でき
る。これは、[作用コの■にて前述の如く、評価段階で
算出した(2)式の如くの差分値が、周波数伝送特性A
kを消去されて、学習段階で算出した(3)式の如くの
差分値と同等となり、雑音の影響や回線等の入力系の相
違に起因するスペクトル歪を消去できるからである。
0階層的なニューラルネットワーク2oにあっては、現
在、前述の如くの簡単な学習アルゴリズム(パックプロ
パゲーション)が確立されており、高い認識率を実現で
きるニューラルネットワーク20を容易に形成できる。
[発明の効果] 以上のように本発明によれば、容易に実時間処理でき、
かつ高い認識率を確保できる音声認識方法を得ることが
できる。
【図面の簡単な説明】
第1図は本発明が適用された音声認識システムの一例を
示す模式図、第2図はニューラルネットワークを示す模
式図、第3図は階層的なニューラルネットワークを示す
模式図、第4図はユニットの構造を示す模式図である。 1・・・認識システム、 10・・・バンドパスフィルタ、 12・・・平均化回路、 13・・・ブロック差分回路、 20・・・ニューラルネットワーク、 30・・・判定回路。

Claims (2)

    【特許請求の範囲】
  1. (1)ニューラルネットワークを用いて入力音声からそ
    の単語を認識する単語認識方法であって、入力音声の周
    波数特性を算出し、各帯域のそれぞれにおいて時間的に
    等分割した音声区間のそれぞれを1つのブロックとして
    、各ブロックの中で周波数特性の平均を算出し、それら
    の平均を対応する帯域内のブロック間で差分した値を、
    ニューラルネットワークへの入力として用いる音声認識
    方法。
  2. (2)前記ニューラルネットワークが階層的なニューラ
    ルネットワークである請求項1記載の音声認識方法。
JP2026671A 1990-02-05 1990-02-05 音声認識方法 Pending JPH03230255A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2026671A JPH03230255A (ja) 1990-02-05 1990-02-05 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2026671A JPH03230255A (ja) 1990-02-05 1990-02-05 音声認識方法

Publications (1)

Publication Number Publication Date
JPH03230255A true JPH03230255A (ja) 1991-10-14

Family

ID=12199865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2026671A Pending JPH03230255A (ja) 1990-02-05 1990-02-05 音声認識方法

Country Status (1)

Country Link
JP (1) JPH03230255A (ja)

Similar Documents

Publication Publication Date Title
US5461697A (en) Speaker recognition system using neural network
CN113823293A (zh) 一种基于语音增强的说话人识别方法及系统
US5963904A (en) Phoneme dividing method using multilevel neural network
JPH03273722A (ja) 音声・モデム信号識別回路
CN109308903B (zh) 语音模仿方法、终端设备及计算机可读存储介质
JPH03230200A (ja) 音声認識方法
JPH03230255A (ja) 音声認識方法
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
Sailor et al. Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection.
EP0369485B1 (en) Speaker recognition system
JPH03230256A (ja) 音声認識方法
Sunny et al. Development of a speech recognition system for speaker independent isolated Malayalam words
JP2510301B2 (ja) 話者認識システム
JPH03157697A (ja) 単語認識システム
JPH04276523A (ja) 音識別装置
JPH02275996A (ja) 単語認識方式
Moonasar et al. A committee of neural networks for automatic speaker recognition (ASR) systems
JPH02273798A (ja) 話者認識方式
JPH04163600A (ja) 話者認識方法
JP2518939B2 (ja) 話者照合システム
Park et al. Advancing Temporal Spike Encoding for Efficient Speech Recognition
JPH05143094A (ja) 話者認識システム
JPH02304498A (ja) 単語認識方式
Ranjan et al. Text dependent speaker identification from disguised voice using feature extraction and classification
JPH04121799A (ja) 音声認識方法