JPS6039697A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPS6039697A JPS6039697A JP58147310A JP14731083A JPS6039697A JP S6039697 A JPS6039697 A JP S6039697A JP 58147310 A JP58147310 A JP 58147310A JP 14731083 A JP14731083 A JP 14731083A JP S6039697 A JPS6039697 A JP S6039697A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- diagram
- discriminant
- segmentation
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010586 diagram Methods 0.000 claims description 35
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000000034 method Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims 1
- 238000001514 detection method Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は入力音声の音素認識を行ないその結果を用いて
音節、単語、文章等を認識する音声認識方法に関するも
のである。
音節、単語、文章等を認識する音声認識方法に関するも
のである。
従来例の構成とその問題点
第1図は従来の方法を実施するための音声認識装置を示
している。以下この従来例の構成について第1図ととも
に説明する。第1図において、音声は単位時間(以後フ
レームと称す)毎に音素識別を行う音素識別処理部1、
高域帯域フィルタ2、低域帯域フィルタ3へ入力される
。音素識別処理部1は10m5単位に母音第1候補、母
音第2候補、子音第1候補を出力する。一方高域帯域フ
ィルタ2、低域帯域フィルタ3の出力はパワーディッゾ
検出部4.5へ送られる。
している。以下この従来例の構成について第1図ととも
に説明する。第1図において、音声は単位時間(以後フ
レームと称す)毎に音素識別を行う音素識別処理部1、
高域帯域フィルタ2、低域帯域フィルタ3へ入力される
。音素識別処理部1は10m5単位に母音第1候補、母
音第2候補、子音第1候補を出力する。一方高域帯域フ
ィルタ2、低域帯域フィルタ3の出力はパワーディッゾ
検出部4.5へ送られる。
・ぞワーディッグ検出部4.5′では各々・ぐワーの時
間的変化からパワーの凹部(以後/fワーディッゾと表
記する)を検出し出力する。
間的変化からパワーの凹部(以後/fワーディッゾと表
記する)を検出し出力する。
次いで、・クワーディッゾ検出部4.5の出力を判別図
6とセグメント判定部7で比較し、ノクワーディッゾの
位置から子音区間を検出する。
6とセグメント判定部7で比較し、ノクワーディッゾの
位置から子音区間を検出する。
上記の如く検出された子音区間と前述したフレーム毎の
音素識別処理部1の出力を用いて音素認識部8で最終的
な音素認識を行う。
音素識別処理部1の出力を用いて音素認識部8で最終的
な音素認識を行う。
この方法の原理は母音−子音−母音とつながる単語が発
声された場合、一般に、子音区間においては母音区間に
比してノeワーが小さくなるために生じるパワーディッ
プに着目して子音区間を検出しようとするものであるが
、音声はそのパワーの変動様態が多様なために、同一音
素中に生じる小さなパワーディップを誤って検出してし
まうために生じる音素の付加(1つの音素を2つ以上の
音素と誤認識する)又はノeワーディップの大きさが小
さいために子音音素の存在を見落してしまうために生じ
る音素の脱落等の誤りが生じる場合がある。
声された場合、一般に、子音区間においては母音区間に
比してノeワーが小さくなるために生じるパワーディッ
プに着目して子音区間を検出しようとするものであるが
、音声はそのパワーの変動様態が多様なために、同一音
素中に生じる小さなパワーディップを誤って検出してし
まうために生じる音素の付加(1つの音素を2つ以上の
音素と誤認識する)又はノeワーディップの大きさが小
さいために子音音素の存在を見落してしまうために生じ
る音素の脱落等の誤りが生じる場合がある。
これらの誤りを最小限に押えるためにノやワーディッゾ
の大きさに関する閾値を設け、その閾値の範囲内に属す
るパワーディップにより子音区間を検出する方法がとら
れる。
の大きさに関する閾値を設け、その閾値の範囲内に属す
るパワーディップにより子音区間を検出する方法がとら
れる。
本従来例では、その閾値に対応するものとして2次元判
別図を使用している。
別図を使用している。
第2図に2次元判別図の例を示す。
この判別図の作成は、種々の音素を含む多数の音声デー
タの分析から統計的にめた各種子音の平均的なパワーデ
ィップの大きさをもとにして行なわれるのが一般的であ
る。
タの分析から統計的にめた各種子音の平均的なパワーデ
ィップの大きさをもとにして行なわれるのが一般的であ
る。
しかしながら、上記した従来例では以下に述べる欠点が
ある。
ある。
即ち、判別図が各種音素で生じる平均的なパワーディッ
プの大きさで作成されているために、ある音素では前後
の音素の条件によって、その判別図との整合性が悪くな
り、検出誤シが生じやすくなる場合が生ずる。
プの大きさで作成されているために、ある音素では前後
の音素の条件によって、その判別図との整合性が悪くな
り、検出誤シが生じやすくなる場合が生ずる。
たとえば「サラポロ(/5AQPORO/ ) Jと発
声した場合の10RO/の部分の/R/では他の音素に
比してディップの大きさが小さいために/R/の脱落が
生じ10RO/の部分が10/又は長母音100/と誤
認識される場合が多い。
声した場合の10RO/の部分の/R/では他の音素に
比してディップの大きさが小さいために/R/の脱落が
生じ10RO/の部分が10/又は長母音100/と誤
認識される場合が多い。
発明の目的
本発明は上記従来例の欠点を除去し、音素のセグメンテ
ーション精度を向上させ、音素誤認識を減少させるもの
である。
ーション精度を向上させ、音素誤認識を減少させるもの
である。
発明の構成
本発明は上記目的を達成するために、セグメント判定及
び音素認識を2回以上くり返して行なうものであり、セ
グメント判定に使用するi4ワーディッゾ判別図をあら
かじめ多数用意しておき、前段の音素認識結果に応じて
後段で使用する判別図を選択するものである。これによ
り認識すべき音素、コンテキスト(音素の並び型)に応
じた最適なセグメンテーションを行ない音素誤認識を減
少させるものである。
び音素認識を2回以上くり返して行なうものであり、セ
グメント判定に使用するi4ワーディッゾ判別図をあら
かじめ多数用意しておき、前段の音素認識結果に応じて
後段で使用する判別図を選択するものである。これによ
り認識すべき音素、コンテキスト(音素の並び型)に応
じた最適なセグメンテーションを行ない音素誤認識を減
少させるものである。
実施例の説明
以下に本発明の一実施例の構成について、図面とともに
説明する。第3図は本発明の一実施例の方法を実行する
装置のブロック図であり、フレーム毎の音素識別処理部
1、高域帯域フィルタ2、低域帯域フィルタ3、パワー
ディップ検出部4゜5は第1図の従来例と同じである。
説明する。第3図は本発明の一実施例の方法を実行する
装置のブロック図であり、フレーム毎の音素識別処理部
1、高域帯域フィルタ2、低域帯域フィルタ3、パワー
ディップ検出部4゜5は第1図の従来例と同じである。
セグメント判定部、音素認識部は各々2個設定されてお
り、前段が第1次セグメント判定部7、第1次音素認識
部8、後段が第2次セグメント判定部10、第2次音素
認識部11である。判別図■6−1、判別図■6−2、
・・・判別図■6−nは認識すべき音素又はコンテキス
トに応じて設定した高域のディップ、低域のディップの
2次元の判別図である。判別図選択論理は第1次音素認
識結果に応じて判別図を選択するだめの処理を行う。
り、前段が第1次セグメント判定部7、第1次音素認識
部8、後段が第2次セグメント判定部10、第2次音素
認識部11である。判別図■6−1、判別図■6−2、
・・・判別図■6−nは認識すべき音素又はコンテキス
トに応じて設定した高域のディップ、低域のディップの
2次元の判別図である。判別図選択論理は第1次音素認
識結果に応じて判別図を選択するだめの処理を行う。
次に1記実施例の動作について説明する。第3図におい
て第1次セグメント判定は第1図従来例と全く同じであ
シ、第1次判別図12は全音素について大量データから
作成した最適判別図である。
て第1次セグメント判定は第1図従来例と全く同じであ
シ、第1次判別図12は全音素について大量データから
作成した最適判別図である。
従って音素又はコンテキストによっては不適用になる場
合がある。
合がある。
判別図■6−2は同一母音にはさまれた/R/のセグメ
ンテーション用の判別図とする。第4図に判別図の例を
示し、第6図に判別図■6−2を選択するだめの論理を
示す。第5図に「サラポロ」と発声した場合の=/ O
RO/の部分の適用例を示す。
ンテーション用の判別図とする。第4図に判別図の例を
示し、第6図に判別図■6−2を選択するだめの論理を
示す。第5図に「サラポロ」と発声した場合の=/ O
RO/の部分の適用例を示す。
同一母音にはさまれた/R/は第5図の「高域ノeワー
」、「低域ノeワー」に示すようにパワーの変化が少な
い。従って第4図に示す判別図も第2図の例に比べて子
音区間とみなすディップの大きさの範囲を大きくとって
おく。判別図■6−2を適用するだめの論理は第6図に
示すように、まず第1次音素認識結果が母音で、音素長
が15フレ一ム以上の場合、上記母音区間内に子音第1
候補が/R/のフレームが存在する時は判別図■6−2
を適用して第2次セグメント判定及び第2次音素認識を
行う。第5図の例では第1次セグメント判定では子音区
間と判定されないため音素認識結果は10/となってい
るが第2次セグメント判定では判別図■6−2を適用す
ることによりフレームN055からフレームN059ま
でを子音区間と判定している。従ってその区間における
子音第1候補から/R/を認識し、従来10/又は10
0/と区別できなかった/ ORO/が認、識されたこ
とになる。
」、「低域ノeワー」に示すようにパワーの変化が少な
い。従って第4図に示す判別図も第2図の例に比べて子
音区間とみなすディップの大きさの範囲を大きくとって
おく。判別図■6−2を適用するだめの論理は第6図に
示すように、まず第1次音素認識結果が母音で、音素長
が15フレ一ム以上の場合、上記母音区間内に子音第1
候補が/R/のフレームが存在する時は判別図■6−2
を適用して第2次セグメント判定及び第2次音素認識を
行う。第5図の例では第1次セグメント判定では子音区
間と判定されないため音素認識結果は10/となってい
るが第2次セグメント判定では判別図■6−2を適用す
ることによりフレームN055からフレームN059ま
でを子音区間と判定している。従ってその区間における
子音第1候補から/R/を認識し、従来10/又は10
0/と区別できなかった/ ORO/が認、識されたこ
とになる。
発明の効果
本発明によれば音素やコンテキストに応じた精密な音素
のセグメンテーションができ、音声認識誤まりの減少に
有効である。
のセグメンテーションができ、音声認識誤まりの減少に
有効である。
第1図は従来の音声認識方法を実施する装置のブロック
図、第2図は従来例における2次元のセグメンテーショ
ン判別図、第3図は本発明の一実施例における音声認識
方法を実施する装置のブロック図、第4図は本発明にお
ける同一母音にはさまれた/R/のセグメンテーション
を行う判別図の例、第5図は本発明の動作説明図、第6
図は本発明における判別図選択論理の動作例を示すフロ
ーチャートである。 第1図 島威肴ッデ9Kg 第3図 第4図 缶威残ッ1°のKきン 第5図 神話 第6図
図、第2図は従来例における2次元のセグメンテーショ
ン判別図、第3図は本発明の一実施例における音声認識
方法を実施する装置のブロック図、第4図は本発明にお
ける同一母音にはさまれた/R/のセグメンテーション
を行う判別図の例、第5図は本発明の動作説明図、第6
図は本発明における判別図選択論理の動作例を示すフロ
ーチャートである。 第1図 島威肴ッデ9Kg 第3図 第4図 缶威残ッ1°のKきン 第5図 神話 第6図
Claims (1)
- 入力音声を単位時間毎に音素識別を行うと共、に、音声
スにクトルの複数の帯域パワーをめ、その時間変化によ
って生じるディップの大きさを各帯域毎の多次元判別図
に適用して音素のセグメンテーションを行ない、音素識
別結果とセグメンテーション結果を併用して音素認識を
行う方法において、セグメンテーション及び音素認識を
複数回行ない、前回の音素認識結果に応じて、次回のセ
グメンテーションに適用する判別図又は判別条件を選択
することを特徴とする音声認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58147310A JPS6039697A (ja) | 1983-08-13 | 1983-08-13 | 音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58147310A JPS6039697A (ja) | 1983-08-13 | 1983-08-13 | 音声認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6039697A true JPS6039697A (ja) | 1985-03-01 |
| JPH0155480B2 JPH0155480B2 (ja) | 1989-11-24 |
Family
ID=15427299
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58147310A Granted JPS6039697A (ja) | 1983-08-13 | 1983-08-13 | 音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6039697A (ja) |
-
1983
- 1983-08-13 JP JP58147310A patent/JPS6039697A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0155480B2 (ja) | 1989-11-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPS5972496A (ja) | 単音識別装置 | |
| Kim et al. | Ada-vad: Unpaired adversarial domain adaptation for noise-robust voice activity detection | |
| Vydana et al. | Detection of fricatives using S-transform | |
| JPS6039697A (ja) | 音声認識方法 | |
| JPH0155479B2 (ja) | ||
| Vysotsky | A speaker-independent discrete utterance recognition system, combining deterministic and probabilistic strategies | |
| JPS5925237B2 (ja) | 音声分析合成方式の音声区間判定方法 | |
| WO2018049391A1 (en) | Method and apparatus for exemplary segment classification | |
| Seman et al. | Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation | |
| Elghonemy et al. | Speaker independent isolated Arabic word recognition system | |
| JPH026079B2 (ja) | ||
| Mengistu et al. | Text independent amharic language dialect recognition using neuro-fuzzy gaussian membership function | |
| JPS6363919B2 (ja) | ||
| JPS59214900A (ja) | 音声認識装置 | |
| JPH026078B2 (ja) | ||
| JPS5915298A (ja) | 音韻識別方式 | |
| JPS6293000A (ja) | 音声認識方法 | |
| JPS6059394A (ja) | 音声認識装置 | |
| Hemdal et al. | Automatic analysis of speech using parallel cellular pipelined processor | |
| JPS63221397A (ja) | 単音節音声認識装置 | |
| Chang et al. | Automatic target generation for vowels | |
| Smith | Negative binomial probability models for speech intelligibility data | |
| Selim | A method for automatic phoneme boundary detection | |
| JPS6242200A (ja) | 音声認識装置 | |
| JPS6363920B2 (ja) |