JPH0449958B2 - - Google Patents
Info
- Publication number
- JPH0449958B2 JPH0449958B2 JP58240415A JP24041583A JPH0449958B2 JP H0449958 B2 JPH0449958 B2 JP H0449958B2 JP 58240415 A JP58240415 A JP 58240415A JP 24041583 A JP24041583 A JP 24041583A JP H0449958 B2 JPH0449958 B2 JP H0449958B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- similarity
- recognition
- sequence
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000003595 spectral effect Effects 0.000 claims description 30
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000010183 spectrum analysis Methods 0.000 claims description 6
- 238000012300 Sequence Analysis Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 1
Description
産業上の利用分野
本発明は、スペクトル類似度評価に基づく音声
認識装置に関するものである。 従来例の構成とその問題点 従来の音声認識装置の問題点を、単語認識方法
を例にとつて説明する。 第1図において、入力音声はスペクトル分析手
段1でフレーム毎に分析され、エネルギ正規化手
段2で発声強度のばらつきを補正するためのエネ
ルギ正規化を受けた後、予め同様の手段で処理さ
れ蓄えられていた標準パターン6との間のスペク
トル的な類似度がスペクトル類似度計算手段3で
計算され、このようにして得られたフレーム毎の
スペクトル類似性が類似度累積手段4により単語
全長にわたつて累積され、判定手段5により最終
の判定が行なわれるしくみとなつている。 一般に人間の発声強度は、同一の単語を発音す
る場合でもその都度異なる。エネルギ正規化手段
3はこのような発声強度のばらつきを補正するた
めに有効であるが、反面、音声の本質からしてエ
ネルギ強度に違いがあるべき区間〔例えば母音区
間と無声子音区間など〕についても、その性質に
かかわりなくエネルギ正規化を行なつてしまうと
いう欠点がある。第2図はその様子を具体的に示
したものである。 第2図Aにおいて、実線は母音のスペクトル強
度を、破線は子音のスペクトル強度をそれぞれ表
わしている。また両スペクトルの間の縦縞部分は
スペクトル非類似度〔類似度の逆の概念〕を示し
ており、本来のスペクトル的距離を表わしている
と考えることができる。一方、第2図Bは上記の
母音と子音とのスペクトルがエネルギ正規化処理
を受けた後のスペクトルを示している。同図で
は、本来エネルギの小さかつた子音のスペクトル
が拡大され、母音のスペクトルエネルギと同程度
になつたため、同図中の縦縞部分で示されたスペ
クトル非類似度は第2図Aの場合よりも小さくな
つている。即ち、エネルギ正規化処理によると、
本来明らかにエネルギ強度が異なり、同時にスペ
クトル非類似度が大きかつた母音と子音とのスペ
クトルが、比較的エネルギ強度が等しく、同時に
スペクトル非類似度が小さいものとして評価され
ることになる。 ところで、単語認識を行なう場合には、登録音
声テンプレートと認識対象音声との間でフレーム
毎に正規化スペクトル類似度を累積していく。従
つて言語的に明らかに異なつていると考えられる
音声区間〔例えば上記例の母音区間と子音区間〕
の非類似度は、言語的に似通つていると考えられ
る音声区間〔例えば同一種の母音であり、発声強
度のみが若干異なる母音区間〕の非類似度に比
べ、より大きな重みづけをもつて評価される方
が、最終の認識結果において明らかに言語的に異
なつていると考えられる言語間での誤認識が発生
することを防ぐことができる。 即ち、エネルギ正規化処理によると、発声時の
エネルギ強度的不安定要因が除外できる反面、言
語的に明確かつ支配的であるべき相違点をあいま
いにしてしまうという問題点があつた。 発明の目的 本発明は上記従来の欠点を解消するもので、エ
ネルギ正規化処理のもつ上記長所を生かしつつ、
同時に言語的に明らかに不都合と考えられるよう
な誤認識の発生をできるだけ阻止し、認識率の向
上を図ることのできる音声認識装置を提供するこ
とを目的とする。 発明の構成 上記目的を達成するため、本発明の音声認識装
置は、入力音声の周波数的特徴をフレーム毎に分
析するスペクトル分析手段と、このスペクトル分
析手段で得られたスペクトル特徴から音声のエネ
ルギの強弱に起因する要素を除外して正規化スペ
クトルを得るエネルギを正規化手段と、登録音声
の正規化スペクトルと認識用音声の正規化スペク
トルとの間の類似度をフレーム毎に求めるスペク
トル類似度計算手段と、このスペクトル類似度計
算手段から得られるフレーム毎の類似度を認識し
ようとする音声単位長の全体にわたつて累積する
類似度累積手段と、入力音声の音韻系列を求める
音韻系列分析手段と、登録音声の音韻系列と認識
用音声の音韻系列との間の類似度を認識しようと
する音声単位長の全体にわたつて評価する音韻類
似度評価手段と、前記類似度累積手段から得られ
るスペクトル類似度と前記音韻類似度評価手段か
ら得られる音韻類似度との両者を用いて最終の判
定を下す判定手段とを備えた構成である。 実施例の説明 以下、本発明の一実施例について、図面に基づ
いて説明する。 第3図は本発明の一実施例における音声認識装
置の構成図であり、第1図に示す構成要素と同一
の構成要素には同一の符号を付してその説明を省
略する。第3図において、7は音韻系列分析手
段、8は音韻類似度評価手段、9は音韻系列標準
パターンである。 入力音声はスペクトル分析手段1でフレーム毎
に分析され、エネルギ正規化手段2で発生強度の
ばらつきの補正を受けた後、予め同様の手段で処
理され蓄えられていたスペクトル標準パターン6
との間のスペクトル的な類似度がスペクトル類似
度計算手段3で計算され、このようにして得られ
たフレーム毎のスペクトル類似度が類似度累積手
段4により単語全長にわたつて累積されていく。
一方、前記入力音声は音韻系列分析手段7にも入
力されここで得られた音韻系列と、予め同様の手
段で処理され蓄えられていた音韻系列標準パター
ン9とが音韻類似度評価手段8に入力され、ここ
で音韻類似度が求められる。さらに、前記単語全
長にわたつて累積されたスペクトル類似度と、音
韻類似度とは判定手段5に入力される。 判定手段5における判定は次のように行なわれ
る。なお以下の説明では便宜上類似度と逆の概念
である非類似度を考え、これを距離と呼ぶことに
する。さて下記表は各登録音声と認識用音声との
組み合わせから得られた複数のスペクトル距離の
うち最も小さい距離〔以下第1候補距離(d1)と
呼ぶ〕と、最も小さい距離と2番目に小さい距離
との差〔以下第2候補距離差Δ2と呼ぶ〕との2
つの値について、それらが、予め別に定めたしき
い値〔以下第1候補距離しきい値(θ1)および第
2候補距離差しきい値(θ2)と呼ぶ〕に対してと
り得る大小関係の組み合わせの各場合を示してい
る。
認識装置に関するものである。 従来例の構成とその問題点 従来の音声認識装置の問題点を、単語認識方法
を例にとつて説明する。 第1図において、入力音声はスペクトル分析手
段1でフレーム毎に分析され、エネルギ正規化手
段2で発声強度のばらつきを補正するためのエネ
ルギ正規化を受けた後、予め同様の手段で処理さ
れ蓄えられていた標準パターン6との間のスペク
トル的な類似度がスペクトル類似度計算手段3で
計算され、このようにして得られたフレーム毎の
スペクトル類似性が類似度累積手段4により単語
全長にわたつて累積され、判定手段5により最終
の判定が行なわれるしくみとなつている。 一般に人間の発声強度は、同一の単語を発音す
る場合でもその都度異なる。エネルギ正規化手段
3はこのような発声強度のばらつきを補正するた
めに有効であるが、反面、音声の本質からしてエ
ネルギ強度に違いがあるべき区間〔例えば母音区
間と無声子音区間など〕についても、その性質に
かかわりなくエネルギ正規化を行なつてしまうと
いう欠点がある。第2図はその様子を具体的に示
したものである。 第2図Aにおいて、実線は母音のスペクトル強
度を、破線は子音のスペクトル強度をそれぞれ表
わしている。また両スペクトルの間の縦縞部分は
スペクトル非類似度〔類似度の逆の概念〕を示し
ており、本来のスペクトル的距離を表わしている
と考えることができる。一方、第2図Bは上記の
母音と子音とのスペクトルがエネルギ正規化処理
を受けた後のスペクトルを示している。同図で
は、本来エネルギの小さかつた子音のスペクトル
が拡大され、母音のスペクトルエネルギと同程度
になつたため、同図中の縦縞部分で示されたスペ
クトル非類似度は第2図Aの場合よりも小さくな
つている。即ち、エネルギ正規化処理によると、
本来明らかにエネルギ強度が異なり、同時にスペ
クトル非類似度が大きかつた母音と子音とのスペ
クトルが、比較的エネルギ強度が等しく、同時に
スペクトル非類似度が小さいものとして評価され
ることになる。 ところで、単語認識を行なう場合には、登録音
声テンプレートと認識対象音声との間でフレーム
毎に正規化スペクトル類似度を累積していく。従
つて言語的に明らかに異なつていると考えられる
音声区間〔例えば上記例の母音区間と子音区間〕
の非類似度は、言語的に似通つていると考えられ
る音声区間〔例えば同一種の母音であり、発声強
度のみが若干異なる母音区間〕の非類似度に比
べ、より大きな重みづけをもつて評価される方
が、最終の認識結果において明らかに言語的に異
なつていると考えられる言語間での誤認識が発生
することを防ぐことができる。 即ち、エネルギ正規化処理によると、発声時の
エネルギ強度的不安定要因が除外できる反面、言
語的に明確かつ支配的であるべき相違点をあいま
いにしてしまうという問題点があつた。 発明の目的 本発明は上記従来の欠点を解消するもので、エ
ネルギ正規化処理のもつ上記長所を生かしつつ、
同時に言語的に明らかに不都合と考えられるよう
な誤認識の発生をできるだけ阻止し、認識率の向
上を図ることのできる音声認識装置を提供するこ
とを目的とする。 発明の構成 上記目的を達成するため、本発明の音声認識装
置は、入力音声の周波数的特徴をフレーム毎に分
析するスペクトル分析手段と、このスペクトル分
析手段で得られたスペクトル特徴から音声のエネ
ルギの強弱に起因する要素を除外して正規化スペ
クトルを得るエネルギを正規化手段と、登録音声
の正規化スペクトルと認識用音声の正規化スペク
トルとの間の類似度をフレーム毎に求めるスペク
トル類似度計算手段と、このスペクトル類似度計
算手段から得られるフレーム毎の類似度を認識し
ようとする音声単位長の全体にわたつて累積する
類似度累積手段と、入力音声の音韻系列を求める
音韻系列分析手段と、登録音声の音韻系列と認識
用音声の音韻系列との間の類似度を認識しようと
する音声単位長の全体にわたつて評価する音韻類
似度評価手段と、前記類似度累積手段から得られ
るスペクトル類似度と前記音韻類似度評価手段か
ら得られる音韻類似度との両者を用いて最終の判
定を下す判定手段とを備えた構成である。 実施例の説明 以下、本発明の一実施例について、図面に基づ
いて説明する。 第3図は本発明の一実施例における音声認識装
置の構成図であり、第1図に示す構成要素と同一
の構成要素には同一の符号を付してその説明を省
略する。第3図において、7は音韻系列分析手
段、8は音韻類似度評価手段、9は音韻系列標準
パターンである。 入力音声はスペクトル分析手段1でフレーム毎
に分析され、エネルギ正規化手段2で発生強度の
ばらつきの補正を受けた後、予め同様の手段で処
理され蓄えられていたスペクトル標準パターン6
との間のスペクトル的な類似度がスペクトル類似
度計算手段3で計算され、このようにして得られ
たフレーム毎のスペクトル類似度が類似度累積手
段4により単語全長にわたつて累積されていく。
一方、前記入力音声は音韻系列分析手段7にも入
力されここで得られた音韻系列と、予め同様の手
段で処理され蓄えられていた音韻系列標準パター
ン9とが音韻類似度評価手段8に入力され、ここ
で音韻類似度が求められる。さらに、前記単語全
長にわたつて累積されたスペクトル類似度と、音
韻類似度とは判定手段5に入力される。 判定手段5における判定は次のように行なわれ
る。なお以下の説明では便宜上類似度と逆の概念
である非類似度を考え、これを距離と呼ぶことに
する。さて下記表は各登録音声と認識用音声との
組み合わせから得られた複数のスペクトル距離の
うち最も小さい距離〔以下第1候補距離(d1)と
呼ぶ〕と、最も小さい距離と2番目に小さい距離
との差〔以下第2候補距離差Δ2と呼ぶ〕との2
つの値について、それらが、予め別に定めたしき
い値〔以下第1候補距離しきい値(θ1)および第
2候補距離差しきい値(θ2)と呼ぶ〕に対してと
り得る大小関係の組み合わせの各場合を示してい
る。
【表】
Claims (1)
- 【特許請求の範囲】 1 入力音声の周波数的特徴をフレーム毎に分析
するスペクトル分析手段と、このスペクトル分析
手段で得られたスペクトル特徴から音声のエネル
ギの強弱に起因する要素を除外して正規化スペク
トルを得るエネルギ正規化手段と、登録音声の正
規化スペクトルと認識用音声の正規化スペクトル
との間の類似度をフレーム毎に求めるスペクトル
類似度計算手段と、このスペクトル類似度計算手
段から得られるフレーム毎の類似度を認識しよう
とする音声単位長の全体にわたつて累積する類似
度累積手段と、入力音声の音韻系列を求める音韻
系列分析手段と、登録音声の音韻系列と認識用音
声の音韻系列との間の類似度を認識しようとする
音声単位長の全体にわたつて評価する音韻類似度
評価手段と、前記類似度累積手段から得られるス
ペクトル類似度と前記音韻類似度評価手段から得
られる音韻類似度との両者を用いて最終の判定を
下す判定手段とを備えた音声認識装置。 2 判定手段は、登録音声のそれぞれと認識用音
声との間から得られた複数のスペクトル類似度の
うち、最も大きい類似度と、最も大きい類似度と
2番目に大きい類似度との類似度差と、音韻類似
度との三者を用いて判定を下す構成とした特許請
求の範囲第1項記載の音声認識装置。 3 判定手段は、最も大きい類似度が予め定めら
れた第1のしきい値より大きくなり、かつ類似度
差が予め定められた第2のしきい値より小さくな
つた時に判定を下す構成とした特許請求の範囲第
2項記載の音声認識装置。 4 判定手段は、最も大きいスペクトル類似度を
与えた登録音声の音韻系列と、2番目に大きいス
ペクトル類似度を与えた登録音声の音韻系列と
を、認識用音声の音韻系列と比較し、予め定めた
規則によつて音韻系列がより類似していると評価
された方の登録音声をもつて認識結果とする構成
とした特許請求の範囲第3項記載の音声認識装
置。 5 判定手段は、最も大きいスペクトル類似度を
与えた登録音声の音韻系列と、2番目に大きいス
ペクトル類似度を与えた登録音声の音韻系列と
を、認識用音声の音韻系列と比較し、予め定めた
規則に基づいて、双方の音韻系列がともに認識用
音声の音韻系列と類似していると評価された時に
は最も大きいスペクトル類似度を与えた登録音声
をもつて認識結果とし、いずれか一方の音韻系列
が認識用音声の音韻系列に類似しかつ他方の音韻
系列が認識用音声の音韻系列に類似していないと
評価された時には類似していると評価された音韻
系列を与えた登録音声をもつて認識結果とし、双
方の音韻系列がともに認識用音声の音韻系列と類
似していないと評価された時には満足すべき認識
が行なえなかつたとして認識結果を出力しない構
成とした特許請求の範囲第3項記載の音声認識装
置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58240415A JPS60130800A (ja) | 1983-12-19 | 1983-12-19 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58240415A JPS60130800A (ja) | 1983-12-19 | 1983-12-19 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60130800A JPS60130800A (ja) | 1985-07-12 |
| JPH0449958B2 true JPH0449958B2 (ja) | 1992-08-12 |
Family
ID=17059130
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58240415A Granted JPS60130800A (ja) | 1983-12-19 | 1983-12-19 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60130800A (ja) |
-
1983
- 1983-12-19 JP JP58240415A patent/JPS60130800A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60130800A (ja) | 1985-07-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0237934B1 (en) | Speech recognition system | |
| EP2482277B1 (en) | Method for identifying a speaker using formant equalization | |
| Silipo et al. | Automatic transcription of prosodic stress for spontaneous English discourse | |
| WO2002007145A3 (en) | Method and apparatus for constructing voice templates for a speaker-independent voice recognition system | |
| US4882755A (en) | Speech recognition system which avoids ambiguity when matching frequency spectra by employing an additional verbal feature | |
| JPH04362699A (ja) | 音声認識方法及び装置 | |
| JPS62232691A (ja) | 音声認識装置 | |
| US6996527B2 (en) | Linear discriminant based sound class similarities with unit value normalization | |
| JPH0449958B2 (ja) | ||
| EP0109140B1 (en) | Recognition of continuous speech | |
| Niyogi et al. | A detection framework for locating phonetic events. | |
| JPH0558553B2 (ja) | ||
| Nagesh et al. | A robust speech rate estimation based on the activation profile from the selected acoustic unit dictionary | |
| Shankar et al. | Weakly Supervised Syllable Segmentation by Vowel-Consonant Peak Classification. | |
| Lamel et al. | Performance improvement in a dynamic-programming-based isolated word recognition system for the alpha-digit task | |
| JPS5936759B2 (ja) | 音声認識方法 | |
| JPS6136797A (ja) | 音声セグメンテ−シヨン法 | |
| JPH0585918B2 (ja) | ||
| JPH0458638B2 (ja) | ||
| Vysotsky | Speaker-independent isolated word recognition using a one-pass analysis | |
| JPS60147797A (ja) | 音声認識装置 | |
| Martens | 9000 Gent, Belgium | |
| JPH0458636B2 (ja) | ||
| JPH045395B2 (ja) | ||
| Martens | Phonetic segmentation using psychoacoustic speech parameters |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EXPY | Cancellation because of completion of term |