JPS61177497A - 子音のセグメンテ−シヨン法 - Google Patents
子音のセグメンテ−シヨン法Info
- Publication number
- JPS61177497A JPS61177497A JP60019464A JP1946485A JPS61177497A JP S61177497 A JPS61177497 A JP S61177497A JP 60019464 A JP60019464 A JP 60019464A JP 1946485 A JP1946485 A JP 1946485A JP S61177497 A JPS61177497 A JP S61177497A
- Authority
- JP
- Japan
- Prior art keywords
- consonant
- segmentation
- dip
- parameter
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は音素認識を行なうことを特徴とする音素認識方
法における子音のセグメンテーション法に関するもので
ある。
法における子音のセグメンテーション法に関するもので
ある。
従来の技術
最近、子音のセグメンテーション法は音声認識の分野で
盛んに利用されるようになってきた。この子音セグメン
テーション法は例えば「音声スペクトルの概略形とその
動特性を利用した単語音声認識システム」(日本音響学
会誌34巻、3号。
盛んに利用されるようになってきた。この子音セグメン
テーション法は例えば「音声スペクトルの概略形とその
動特性を利用した単語音声認識システム」(日本音響学
会誌34巻、3号。
197g)K記載されている構成が知られている。
以下、第2図及び第3図を参照して従来の子音セグメン
テーション法について説明する。
テーション法について説明する。
まず最初に、入力音声を音素単位に分けて音素の組合せ
として認識しく音素認識と呼ぶ)音素単位で表記された
単語辞書との類似度を求めて認識結果を出力する従来の
単語認識システムのブロック図を第2図に示す。まず、
あらかじめ多数話者の音声を1フレーム(1フレームは
10 !11160とする)毎に音響分析部1によって
フィルタ・バンクを用いて分析し、得られたスペクトル
情報をもとに特徴抽出部2によって特徴パラメータを求
める。
として認識しく音素認識と呼ぶ)音素単位で表記された
単語辞書との類似度を求めて認識結果を出力する従来の
単語認識システムのブロック図を第2図に示す。まず、
あらかじめ多数話者の音声を1フレーム(1フレームは
10 !11160とする)毎に音響分析部1によって
フィルタ・バンクを用いて分析し、得られたスペクトル
情報をもとに特徴抽出部2によって特徴パラメータを求
める。
この特徴パラメータから6母音や子音の音素グループ毎
に標準パターンを作成して標準パターン登録部3に登録
しておく。次に、入力音声に対し特徴抽出部2によって
求められた特徴パラメータを用いてセグメンテーション
部4においてセグメンテーションを行なう。この結果を
もとに、音素判別部5において、標準パターン登録部3
の標準パターンと照合することによって、音素を決定す
る。
に標準パターンを作成して標準パターン登録部3に登録
しておく。次に、入力音声に対し特徴抽出部2によって
求められた特徴パラメータを用いてセグメンテーション
部4においてセグメンテーションを行なう。この結果を
もとに、音素判別部5において、標準パターン登録部3
の標準パターンと照合することによって、音素を決定す
る。
最後に、この結果作成した音素の時系列を単語認識部6
に送シ、同様に音素の時系列で表現された単語辞書7と
最も類似度の大きい項目に該当する単語を認識結果とし
て出力する。
に送シ、同様に音素の時系列で表現された単語辞書7と
最も類似度の大きい項目に該当する単語を認識結果とし
て出力する。
ここで、セグメンテーションは次のようにして行ってい
た。すなわち第3図のように全域パワーの時間的変化の
形8が凹状の形をしている時(これをディップと呼ぶ)
、パワーが極小値を示すフレームをnlとし、n、の前
後のフレームでパワーの時間による変化速度(これをパ
ワーの差分値と呼ぶ)9が負および正の極大値を示すフ
レームラn2.n3とする。そこで、あるフレームnに
おける差分値をwD(n) とすると、WD(n2)
。
た。すなわち第3図のように全域パワーの時間的変化の
形8が凹状の形をしている時(これをディップと呼ぶ)
、パワーが極小値を示すフレームをnlとし、n、の前
後のフレームでパワーの時間による変化速度(これをパ
ワーの差分値と呼ぶ)9が負および正の極大値を示すフ
レームラn2.n3とする。そこで、あるフレームnに
おける差分値をwD(n) とすると、WD(n2)
。
WD (n3)が
WD(n2)≦ −θ1
WD(n、)≦ θW
の条件を満足する時、n2〜n3 までの区間を子音
区間とすることによシセグメンテーシコンヲ行う。ここ
で01は子音の付加を防ぐためのいき値である。
区間とすることによシセグメンテーシコンヲ行う。ここ
で01は子音の付加を防ぐためのいき値である。
発明が解決しようとする問題点
しかし1以上のような構成では母音区間を誤って子音区
間としてセグメンテーションする付加や子音区間である
のにかかわらずセグメンテーション出来ない脱落の割合
が多くなシ精度良く子音のセグメンテーションが出来な
いという問題を有していた。
間としてセグメンテーションする付加や子音区間である
のにかかわらずセグメンテーション出来ない脱落の割合
が多くなシ精度良く子音のセグメンテーションが出来な
いという問題を有していた。
本発明は上記問題を解決するもので子音セグメンテーシ
ョン精度を向上させるものである。
ョン精度を向上させるものである。
問題点を解決するための手段
本発明は、入力音声スペクトルのパワーとスさり)A/
の定常性パラメータを併用して子音セグメンテーション
を行うことによシ、上記目的を達成するものである。
の定常性パラメータを併用して子音セグメンテーション
を行うことによシ、上記目的を達成するものである。
作用
本発明は上記のように、セグメンテーションを行うに際
し、パワーディップに加え、定常性パラメータをも併用
して使用するために、子音の付加。
し、パワーディップに加え、定常性パラメータをも併用
して使用するために、子音の付加。
脱落の少ないセグメンテーションを行えるようにしたも
のである。
のである。
実施例
第1図は本発明の一実施例における子音セグメンテーシ
ョン法の説明図である。第1図(&)において10はパ
ワーの時間的変化、11はパワーの時間的変化速度、第
1図(b)において12は定常性パラメータの時間的変
化、13は定常性パラメータの時間的変化速度を示して
いる。
ョン法の説明図である。第1図(&)において10はパ
ワーの時間的変化、11はパワーの時間的変化速度、第
1図(b)において12は定常性パラメータの時間的変
化、13は定常性パラメータの時間的変化速度を示して
いる。
上記図を用いて、以下その動作について説明する。
入力音声の子音区部において、10のようにパワーの時
間的変化の形が凹状(これをディップと呼ぶ)になって
いる。このディップの区間においてパワーの時間的変化
速度11が極小と極大になるフ“レーム(1フレームは
1oms+ec)を求め。
間的変化の形が凹状(これをディップと呼ぶ)になって
いる。このディップの区間においてパワーの時間的変化
速度11が極小と極大になるフ“レーム(1フレームは
1oms+ec)を求め。
それぞれの値をPMXM # PMaXとし” PMJ
I!−PMIN)の値をディップの大きさと定義する。
I!−PMIN)の値をディップの大きさと定義する。
次に定常性バフメータについて説明する。定常性ハラメ
ータとしては例えばLPGケブヌトラム係数の時間変化
パターンを用いる。いま1フレームあたシの特徴パラメ
ータの数をdとし、使用するフレーム数をlとすると、
パラメータ系11Jtは(1) (1) (1)
(2) (4(カ (tに=(!1 #
12 m ”・Xd# !1 * ””・・m Zt
、 12 m ”・、r4 )で表わされる。X?
)は第j番目フレームにおける1番目のLPCケプスト
フム係数である。
ータとしては例えばLPGケブヌトラム係数の時間変化
パターンを用いる。いま1フレームあたシの特徴パラメ
ータの数をdとし、使用するフレーム数をlとすると、
パラメータ系11Jtは(1) (1) (1)
(2) (4(カ (tに=(!1 #
12 m ”・Xd# !1 * ””・・m Zt
、 12 m ”・、r4 )で表わされる。X?
)は第j番目フレームにおける1番目のLPCケプスト
フム係数である。
多くのデータの母音区間の中心部においてパラメータ系
列にを求め、各要素の平均値ベクトルμと要素間の共分
散行列Σを求め標準パターンとする。
列にを求め、各要素の平均値ベクトルμと要素間の共分
散行列Σを求め標準パターンとする。
距離尺度としてはベイズ判定に基づく距離(2π)2・
1Σ12 を使用する。この距離尺度を使用して1フレームずつシ
フトさせながらPの値を求めていくと定常性パラメータ
の時間的変化12は第1図(b)のように、母音から子
音へ変化したり、子音から母音へ変化する場合にPの値
が小さくなシディップ状に変化する。この時の変化速度
13の極小値と極大値との差を定常性パラメータにおけ
るディップの大きさく非定常性の大きさ)とする。
1Σ12 を使用する。この距離尺度を使用して1フレームずつシ
フトさせながらPの値を求めていくと定常性パラメータ
の時間的変化12は第1図(b)のように、母音から子
音へ変化したり、子音から母音へ変化する場合にPの値
が小さくなシディップ状に変化する。この時の変化速度
13の極小値と極大値との差を定常性パラメータにおけ
るディップの大きさく非定常性の大きさ)とする。
本実施例では上記のパワーディップの大きさと定常性パ
ラメータにおけるディップの大きさの2つを併用して子
音のセグメンテーションを行なう。
ラメータにおけるディップの大きさの2つを併用して子
音のセグメンテーションを行なう。
パワーディップの区間に対して定常性パターンのディッ
プは第1図のように2個表われたシするが本実施例では
ディップの1番大きいものを定常性パラメータにおける
ディップの大きさとする。このパワーディップの大きさ
と定常性パラメータにおけるディップの大きさの2つの
パラメータを使用してあらかじめ子音区間に表われたも
のと母音・半母音区間に表われたものに対して平均値と
共分散行列の標準パターンを多数話者の音声から作成し
ておき、この2つの標準パターンと入力音声のデータを
比較することによって入力データを子音区間としてセグ
メンテーションするかどうかを判定する。
プは第1図のように2個表われたシするが本実施例では
ディップの1番大きいものを定常性パラメータにおける
ディップの大きさとする。このパワーディップの大きさ
と定常性パラメータにおけるディップの大きさの2つの
パラメータを使用してあらかじめ子音区間に表われたも
のと母音・半母音区間に表われたものに対して平均値と
共分散行列の標準パターンを多数話者の音声から作成し
ておき、この2つの標準パターンと入力音声のデータを
比較することによって入力データを子音区間としてセグ
メンテーションするかどうかを判定する。
この場合、パワーディップの大きさと定常性パラメータ
におけるディップの大きさとを二次元判別図に適用して
セグメンテーションを行っても良いことはもちろんであ
る。
におけるディップの大きさとを二次元判別図に適用して
セグメンテーションを行っても良いことはもちろんであ
る。
以上本実施例によれば、パワーディップの大きさと定常
性パラメータにおけるディップを併用し標準パターンと
のマツチングによシセグメンテーションをすることによ
シ、子音の付加・脱落の少ない精度の良い子音セグメン
テーションを行うことが出来る。
性パラメータにおけるディップを併用し標準パターンと
のマツチングによシセグメンテーションをすることによ
シ、子音の付加・脱落の少ない精度の良い子音セグメン
テーションを行うことが出来る。
発明の効果
以上のように本発明は、パワーディップの大きさと定常
性パラメータのディップの大きさを併用することによシ
、従来では子音区間にディップが表われたにもかかわら
ずディップが小さいために脱落したシ、母音区間である
にもかかわGず子音区間として付加されたシすることが
少なくなシ精度良くセグメンテーションを行なうことが
できる。
性パラメータのディップの大きさを併用することによシ
、従来では子音区間にディップが表われたにもかかわら
ずディップが小さいために脱落したシ、母音区間である
にもかかわGず子音区間として付加されたシすることが
少なくなシ精度良くセグメンテーションを行なうことが
できる。
これはパワーディップに定常性パラメータを併用するこ
とによシバワーのみの大まかな動きによるセグメンテー
ション法にスペクトルの変化をと夛入れるようになった
ためであシ、その効果も大きい。
とによシバワーのみの大まかな動きによるセグメンテー
ション法にスペクトルの変化をと夛入れるようになった
ためであシ、その効果も大きい。
第1図は本発明の一実施例における子音セグメンテーシ
ョン法の説明図、第2図は単語認識システムのブロック
図、第3図は従来の子音セグメンテーション法の説明図
である。 10・・・・・・パワーの時間的動き、11・・・・・
・パワーの時間的変化速度、12・・・・・・定常性パ
ラメータの時間的動き、13・・・・・・定常性パラメ
ータの時間的変化速度。 代理人の氏名 弁理士 中 尾 敏 男 はが1名第1
図 1θ
ョン法の説明図、第2図は単語認識システムのブロック
図、第3図は従来の子音セグメンテーション法の説明図
である。 10・・・・・・パワーの時間的動き、11・・・・・
・パワーの時間的変化速度、12・・・・・・定常性パ
ラメータの時間的動き、13・・・・・・定常性パラメ
ータの時間的変化速度。 代理人の氏名 弁理士 中 尾 敏 男 はが1名第1
図 1θ
Claims (2)
- (1)入力音声スペクトルのパワーの時間的変化速度の
極大値と極小値との差で表わされるパワーディップの大
きさと、定常性パラメータの時間的変化速度の極大値と
極小値との差で表わされる定常性パラメータにおけるデ
ィップの大きさとを用いることによって子音区間のセグ
メンテーションを行うことを特徴とする子音のセグメン
テーション法。 - (2)母音の中心付近の時間的な動きを考慮した標準パ
ターンを作成し、統計的距離尺度を使用して定常性パラ
メータの時間的変化を求めることを特徴とする特許請求
の範囲第1項記載の子音のセグメンテーション法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP60019464A JPS61177497A (ja) | 1985-02-04 | 1985-02-04 | 子音のセグメンテ−シヨン法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP60019464A JPS61177497A (ja) | 1985-02-04 | 1985-02-04 | 子音のセグメンテ−シヨン法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS61177497A true JPS61177497A (ja) | 1986-08-09 |
Family
ID=12000043
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP60019464A Pending JPS61177497A (ja) | 1985-02-04 | 1985-02-04 | 子音のセグメンテ−シヨン法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS61177497A (ja) |
-
1985
- 1985-02-04 JP JP60019464A patent/JPS61177497A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Schuller et al. | Emotion recognition in the noise applying large acoustic feature sets | |
| US6842734B2 (en) | Method and apparatus for producing acoustic model | |
| Scanlon et al. | Using broad phonetic group experts for improved speech recognition | |
| JPH02195400A (ja) | 音声認識装置 | |
| Bandela et al. | Emotion recognition of stressed speech using teager energy and linear prediction features | |
| Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
| JPS63158596A (ja) | 音韻類似度計算装置 | |
| JPS61177497A (ja) | 子音のセグメンテ−シヨン法 | |
| Smietanka et al. | Interpreting convolutional layers in DNN model based on time–frequency representation of emotional speech | |
| Bansod et al. | Speaker Recognition using Marathi (Varhadi) Language | |
| JPS61177498A (ja) | 子音のセグメンテ−シヨン法 | |
| JPH07210197A (ja) | 話者識別方法 | |
| Mengistu et al. | Text independent amharic language dialect recognition using neuro-fuzzy gaussian membership function | |
| Amarakeerthi et al. | Cascaded subband energy-based emotion classification | |
| Sathe et al. | RECOGNITION AND DIFFERENTIATION BETWEEN NATIVE AND NON-NATIVE URDU LANGUAGE SPEAKER’S–A REVIEW | |
| JPS5915993A (ja) | 音声認識装置 | |
| Amornkul et al. | Addable stress speech recognition with multiplexing hmm: Training and non-training decision | |
| JPS6310840B2 (ja) | ||
| RA et al. | Comparative Analysis of Pitch and Formant for Recognizing Emotions of Isolated Marathi Speech | |
| Pfitzinger | Reducing Segmental Duration Variation by Local Speech Rate Normalization of Large Spoken Language Resources. | |
| JPH07113838B2 (ja) | 音声認識方法 | |
| JPS6136797A (ja) | 音声セグメンテ−シヨン法 | |
| JPH067353B2 (ja) | 音声認識装置 | |
| JPH0323920B2 (ja) | ||
| JPS61162099A (ja) | 音声認識装置 |