JPH0455520B2 - - Google Patents
Info
- Publication number
- JPH0455520B2 JPH0455520B2 JP59174325A JP17432584A JPH0455520B2 JP H0455520 B2 JPH0455520 B2 JP H0455520B2 JP 59174325 A JP59174325 A JP 59174325A JP 17432584 A JP17432584 A JP 17432584A JP H0455520 B2 JPH0455520 B2 JP H0455520B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- consonants
- standard pattern
- consonant
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 claims description 66
- 230000011218 segmentation Effects 0.000 claims description 17
- 230000002123 temporal effect Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000011179 visual inspection Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Description
【発明の詳細な説明】
産業上の利用分野
本発明は音素認識を行うことを特徴とする音声
認識方法における音素認識方法に関するものであ
る。
認識方法における音素認識方法に関するものであ
る。
従来例の構成とその問題点
入力音声を音素単位に分けて音素の組合せとし
て認識し(音素認識とよぶ)音素単位で表記され
た単記辞書との類似度を求めて認識結果を出力す
る従来の単語認識システムのブロツク図を第1図
に示す。
て認識し(音素認識とよぶ)音素単位で表記され
た単記辞書との類似度を求めて認識結果を出力す
る従来の単語認識システムのブロツク図を第1図
に示す。
まず、あらかじめ多数話者の音声を10msの分
析区間毎に音響分析部1によつてフイルタバンク
を用いて分析し、得られたスペクトル情報をもと
に特徴抽出部2によつて特徴パラメータを求め
る。この特徴パラメータから/a/、/o/等の
母音や、/m/、/b/等の子音に代表される音
素毎又は音素グループ毎に標準パターンを作成し
て標準パターン登録部5に登録しておく。次に、
入力された不特定話者の音声を、同様に分析区間
毎に音響分析部1によつて分析し、特徴抽出部2
によつて特徴パラメータを求める。この特徴パラ
メータと標準パターン登録部5の標準パターンを
用いてセグメンテーシヨン部3において母音と子
音の区切り作業(以下セグメンテーシヨンと呼
ぶ)を行なう。この結果をもとに、音素判別部4
において、標準パターン登録部5の標準パターン
と照合することによつて、最も類似度の高い標準
パターンに該当する音素をその区間における音素
と決定する。最後に、この結果作成した音素の時
系列(以下音素系列と呼ぶ)を単語認識部6に送
り、同様に音素系列で表現された単語辞書7と最
も類似度の大きい項目に該当する単語を認識結果
として出力する。
析区間毎に音響分析部1によつてフイルタバンク
を用いて分析し、得られたスペクトル情報をもと
に特徴抽出部2によつて特徴パラメータを求め
る。この特徴パラメータから/a/、/o/等の
母音や、/m/、/b/等の子音に代表される音
素毎又は音素グループ毎に標準パターンを作成し
て標準パターン登録部5に登録しておく。次に、
入力された不特定話者の音声を、同様に分析区間
毎に音響分析部1によつて分析し、特徴抽出部2
によつて特徴パラメータを求める。この特徴パラ
メータと標準パターン登録部5の標準パターンを
用いてセグメンテーシヨン部3において母音と子
音の区切り作業(以下セグメンテーシヨンと呼
ぶ)を行なう。この結果をもとに、音素判別部4
において、標準パターン登録部5の標準パターン
と照合することによつて、最も類似度の高い標準
パターンに該当する音素をその区間における音素
と決定する。最後に、この結果作成した音素の時
系列(以下音素系列と呼ぶ)を単語認識部6に送
り、同様に音素系列で表現された単語辞書7と最
も類似度の大きい項目に該当する単語を認識結果
として出力する。
本構成において音素判別部4で音素の判別を行
う場合、従来では、子音区間と判定された区間に
ついてフレーム毎に音素の特徴を示す特徴パラメ
ータを求めあらかじめ用意されている各音素また
は音素群の標準パターンと比較してフレーム毎に
子音分類を行なう。この結果を子音分類ツリーに
適用して条件の一致したものを認識された子音と
する しかし、この場合語頭子音は明確な判定を行な
わずに音素群の判定にとどまつている。たとえ
ぱ/b/、/d/、/g/を有声破裂音群として
いる。
う場合、従来では、子音区間と判定された区間に
ついてフレーム毎に音素の特徴を示す特徴パラメ
ータを求めあらかじめ用意されている各音素また
は音素群の標準パターンと比較してフレーム毎に
子音分類を行なう。この結果を子音分類ツリーに
適用して条件の一致したものを認識された子音と
する しかし、この場合語頭子音は明確な判定を行な
わずに音素群の判定にとどまつている。たとえ
ぱ/b/、/d/、/g/を有声破裂音群として
いる。
有声破裂音群の判別については、たとえば「日
本語有声破裂音の分析」細谷、藤崎、日本音響学
会音声研究会(S80−67)などで報告されてい
る。しかし、これらの方法は分析時間、アルゴリ
ズムの複雑さのために、実際の単語認識システム
に使用された例は報告されていない。
本語有声破裂音の分析」細谷、藤崎、日本音響学
会音声研究会(S80−67)などで報告されてい
る。しかし、これらの方法は分析時間、アルゴリ
ズムの複雑さのために、実際の単語認識システム
に使用された例は報告されていない。
以上述べたように、従来の方法では、語頭子音
については音素群の判別にとどまつており認識対
象単語によつては問題が生じる。また、音素群内
での判別方法も報告されているが、まだ、分析時
間、アルゴリズムの複雑さなどの問題があり実際
のシステムに使用されていない。
については音素群の判別にとどまつており認識対
象単語によつては問題が生じる。また、音素群内
での判別方法も報告されているが、まだ、分析時
間、アルゴリズムの複雑さなどの問題があり実際
のシステムに使用されていない。
発明の目的
本発明は、以上のような従来の問題点を解決す
るためになれたもので、語頭子音の認識を分析時
間、アルゴリズムを考慮して実際のシステムで使
用出来るようにした音素認識方法を提供すること
を目的とする 本発の構成 本発明は上記目的を達成するもので、入力音声
の語頭子音のセグメンテーシヨンを、有声無声判
定による方法、母音鼻音判定による方法、パワー
変化による方法、ケプストラム距離による方法の
4つの方法を任意に適用して行い、どの方法でセ
グメンテーシヨンされたかによつて語頭子音を無
声子音群、有声子音群、パワー変化に特徴がある
子音群、持続時間の短かい子音群などの複数個の
音素群として認識し、次に前記音素区間中で特徴
部(音素の判別に有効な部分)を自動的に検出
し、前記特徴部に対して前に認識された音素群に
属する個々の音素の標準パターンとの類似度計算
を行なつて音素を判別することを特徴とする語頭
子音認識方法を提供するものである。
るためになれたもので、語頭子音の認識を分析時
間、アルゴリズムを考慮して実際のシステムで使
用出来るようにした音素認識方法を提供すること
を目的とする 本発の構成 本発明は上記目的を達成するもので、入力音声
の語頭子音のセグメンテーシヨンを、有声無声判
定による方法、母音鼻音判定による方法、パワー
変化による方法、ケプストラム距離による方法の
4つの方法を任意に適用して行い、どの方法でセ
グメンテーシヨンされたかによつて語頭子音を無
声子音群、有声子音群、パワー変化に特徴がある
子音群、持続時間の短かい子音群などの複数個の
音素群として認識し、次に前記音素区間中で特徴
部(音素の判別に有効な部分)を自動的に検出
し、前記特徴部に対して前に認識された音素群に
属する個々の音素の標準パターンとの類似度計算
を行なつて音素を判別することを特徴とする語頭
子音認識方法を提供するものである。
実施例の説明
本実施例の概要は、以下の通りである。
イ 4つのセグメンテーシヨン法による結果を利
用して、語頭子音の無声子音群、有声子音群、
パワー変化に特徴がある子音群、持続時間の短
かい子音群の4つに大分類する。
用して、語頭子音の無声子音群、有声子音群、
パワー変化に特徴がある子音群、持続時間の短
かい子音群の4つに大分類する。
ロ 多音素群ごとに特徴部を設定し、その特徴部
に対して多音素の標準パターンを、あらかじめ
作成しておく、音素標準パターンは、目視によ
つて正確にラベル付けした多くのデータを使用
して作成する。また、音素標準パターンの他
に、各音素群に対して、特徴部の周囲情報の標
準パターンを1種類作成しておく。
に対して多音素の標準パターンを、あらかじめ
作成しておく、音素標準パターンは、目視によ
つて正確にラベル付けした多くのデータを使用
して作成する。また、音素標準パターンの他
に、各音素群に対して、特徴部の周囲情報の標
準パターンを1種類作成しておく。
ハ 音素の判別
入力音声の語頭子音セグメンテーシヨンを行な
い、子音区間を求める。そして子音区間の一部
(たとえば端点)を基準点として設定する。一方、
この子音区間が上記イにおける大分類のうち、ど
の音素群に属するかを決定する。次に、この決定
された音素群に属する標準パターンを音素区間に
おける特徴部に対して適用して音素の判別を行な
う。ところで、特徴部を自動的にしかも正確に求
めることは一般には困難であるため、次のように
する。すなわち上記の基準点を参照して、多少の
幅を持つて特徴部の候補区間を求めておき、候補
区間の全範囲に対して周囲情報標準パターンを適
用して各音素との類似度を計算する。各音素との
類似度計算に当つては、音素標準パターンと未知
人力との類似度から、上記イに述べた音素群の周
囲情報の標準パターンとの類似度を除去する。こ
のようにすることによつて、特徴部の候補区間の
うち特徴部に相当しない部分(すなわち特徴部の
周囲に相当する部分)の情報を除去することがで
き、正確な特徴部をとらえて音素の判別を行なう
ことができる。
い、子音区間を求める。そして子音区間の一部
(たとえば端点)を基準点として設定する。一方、
この子音区間が上記イにおける大分類のうち、ど
の音素群に属するかを決定する。次に、この決定
された音素群に属する標準パターンを音素区間に
おける特徴部に対して適用して音素の判別を行な
う。ところで、特徴部を自動的にしかも正確に求
めることは一般には困難であるため、次のように
する。すなわち上記の基準点を参照して、多少の
幅を持つて特徴部の候補区間を求めておき、候補
区間の全範囲に対して周囲情報標準パターンを適
用して各音素との類似度を計算する。各音素との
類似度計算に当つては、音素標準パターンと未知
人力との類似度から、上記イに述べた音素群の周
囲情報の標準パターンとの類似度を除去する。こ
のようにすることによつて、特徴部の候補区間の
うち特徴部に相当しない部分(すなわち特徴部の
周囲に相当する部分)の情報を除去することがで
き、正確な特徴部をとらえて音素の判別を行なう
ことができる。
以下、子音認識を例として、本発明の一実施例
を図面を参照しながら詳細に説明する。
を図面を参照しながら詳細に説明する。
本実施例は次に示す4つのセグメンテーシヨン
法の結果を利用して語頭子音を(1)無声子音群、(2)
有声子音群、(3)パワー変化に特徴がある子音群、
(4)持続時間の短かい子音群の4つに大分類する。
法の結果を利用して語頭子音を(1)無声子音群、(2)
有声子音群、(3)パワー変化に特徴がある子音群、
(4)持続時間の短かい子音群の4つに大分類する。
フレーム毎(本実施例では1フレームは10m
sec)の有声・無声判定による方法 フレーム毎の母音・鼻音判定による方法 パワーの時間的変化をとらえる方法 ケプストラム距離による方法 〜までの方法を併用し、語頭子音が検出さ
れた時には、以後の方法を適用せず、検出結果に
基づいてセグメンテーシヨンを行なう。以下に
〜までの方法について説明する。
sec)の有声・無声判定による方法 フレーム毎の母音・鼻音判定による方法 パワーの時間的変化をとらえる方法 ケプストラム距離による方法 〜までの方法を併用し、語頭子音が検出さ
れた時には、以後の方法を適用せず、検出結果に
基づいてセグメンテーシヨンを行なう。以下に
〜までの方法について説明する。
最初にの方法である有声・無声判定による方
法について述べる。
法について述べる。
語頭の無声子音のセグメンテーシヨンは、各フ
レーム毎に行なう有声・無声判定結果を利用する
ことによつて、正確に行なうことが出来る。
レーム毎に行なう有声・無声判定結果を利用する
ことによつて、正確に行なうことが出来る。
有声・無声判定の方法は零交差波、スペクトル
の傾き、第1次の自己相関係数の値等を利用する
方法があるが、どの方法を用いてもよい。本実施
例では、有声・無声判定の標準パターンと比較す
ることによつて判定している。
の傾き、第1次の自己相関係数の値等を利用する
方法があるが、どの方法を用いてもよい。本実施
例では、有声・無声判定の標準パターンと比較す
ることによつて判定している。
ここで、語頭から無声の判定があるフレーム数
以上連続する時(例えば4フレーム以上)この区
間を子音区間と判定する。この方法は、すべての
無声子音に対して有効である。
以上連続する時(例えば4フレーム以上)この区
間を子音区間と判定する。この方法は、すべての
無声子音に対して有効である。
次に、の方法である母音・鼻音判定による方
法について説明する。
法について説明する。
フレーム毎の音素認識は本実施例ではLPCケ
プストラム係数を用いて、あらかじめ用意してあ
る各音素の標準パターンとの比較によつて行な
う。標準パターンとしては5母音(/a//
i/、/u/、/e/、/o/)・鼻音(/N/
で表わす)と無声子音(/s/で表わす)を用い
た。このようにして、各フレーム毎に類似度の最
も大きい音素(第1候補音素)と2番目に類似度
の大きい音素(第2候補音素)を求める。フレー
ム毎の第1候補音素と第2候補音素をそれぞれフ
レーム番号の順に並べた系列を第1候補音素時系
列、第2候補音素系列とする。上記音素系列を語
頭から順に見た時/N/が第1候補または第2候
補音素系列を含めてあるフレーム数以上(例えば
4フレーム以上)連続した時この区間を子音区間
であると判定する。
プストラム係数を用いて、あらかじめ用意してあ
る各音素の標準パターンとの比較によつて行な
う。標準パターンとしては5母音(/a//
i/、/u/、/e/、/o/)・鼻音(/N/
で表わす)と無声子音(/s/で表わす)を用い
た。このようにして、各フレーム毎に類似度の最
も大きい音素(第1候補音素)と2番目に類似度
の大きい音素(第2候補音素)を求める。フレー
ム毎の第1候補音素と第2候補音素をそれぞれフ
レーム番号の順に並べた系列を第1候補音素時系
列、第2候補音素系列とする。上記音素系列を語
頭から順に見た時/N/が第1候補または第2候
補音素系列を含めてあるフレーム数以上(例えば
4フレーム以上)連続した時この区間を子音区間
であると判定する。
この方法は、特に鼻音を中心とする有声子音に
対して有効である。
対して有効である。
次に、の方法であるパワーの時間的変化によ
る方法について説明する。
る方法について説明する。
語頭が主に破裂性の子音で始まる時、パワー値
の時間的変化をプロツトすると第2図のaのよう
になる。これは破裂性のためにパワーが急激に立
上がり、後続の母音との渡りの部分においてaの
ように凹状になるからである。
の時間的変化をプロツトすると第2図のaのよう
になる。これは破裂性のためにパワーが急激に立
上がり、後続の母音との渡りの部分においてaの
ように凹状になるからである。
bはaのパワーの時間的変化の値を微分したも
のである。P1〜P3はaの変曲点のフレーム番号
を示している。ここでは有声区間の始まるフレー
ム番号を1にしている。ここで、a,bのように
P1,P3の微分値が正、P2の微分値が負、かつP3
<m(mはフレーム番号を示すいき値)を満足す
る時、語頭からP3までを語頭子音区間として判
定する。
のである。P1〜P3はaの変曲点のフレーム番号
を示している。ここでは有声区間の始まるフレー
ム番号を1にしている。ここで、a,bのように
P1,P3の微分値が正、P2の微分値が負、かつP3
<m(mはフレーム番号を示すいき値)を満足す
る時、語頭からP3までを語頭子音区間として判
定する。
最後に、の方法であるケプストラム距離によ
る方法について説明する。
る方法について説明する。
ケプストラム距離の使い方としては、ある基準
フレームのスペクトル・パターンと語頭から基準
フレームまでの各フレームのスペクトル・パター
ンとを比較する方法を用いる。
フレームのスペクトル・パターンと語頭から基準
フレームまでの各フレームのスペクトル・パター
ンとを比較する方法を用いる。
本実施例において、スペクトル・パターンの特
徴を表わすパラメータとしてLPCケプストラム
係数C1〜Co(ただし、nは正の整数)を用いる。
スペクトルが安定して現われる基準フレームの選
び方として、語頭からmフレーム目(本実施例で
はm=7)と固定する。これは、比較的持続時間
の長い子音(持続時間がmフレーム以上)は〜
の方法で検出できるからである。
徴を表わすパラメータとしてLPCケプストラム
係数C1〜Co(ただし、nは正の整数)を用いる。
スペクトルが安定して現われる基準フレームの選
び方として、語頭からmフレーム目(本実施例で
はm=7)と固定する。これは、比較的持続時間
の長い子音(持続時間がmフレーム以上)は〜
の方法で検出できるからである。
ある2フレーム間のスペクトル・パターンを比
較する方法として、式1を用いる。
較する方法として、式1を用いる。
〓(i,j)=o
〓l=1
(Cl(i)−Cl(j))2 …式1
式1においてCl(i)は語頭からiフレーム目におけ
るl番目のLPCケプストラム係数を表わしてい
る。同様にCl(j)はjフレーム目におけるl番目の
LPCケプストラム係数を表わしている。〓(i,
j)が大きいほど2つのフレームのスペクトル・
パターンが異なつていることになる。
るl番目のLPCケプストラム係数を表わしてい
る。同様にCl(j)はjフレーム目におけるl番目の
LPCケプストラム係数を表わしている。〓(i,
j)が大きいほど2つのフレームのスペクトル・
パターンが異なつていることになる。
この式1を用いて基準フレームと語頭から基準
フレームまでの各フレームとの〓(i,m)(た
だし1≦i≦m−1)を計算し、最大値を〓nax
とする。この〓naxの値があるいき値より大きい
か小さいかによつて語頭子音の有無を判定する。
この方法で検出された場合、語頭子音区間として
は〓(i,m)の値の変化が一番大きいフレーム
までを子音区間とする。この方法は、持続時間の
短かい子音を検出するのに有効である。
フレームまでの各フレームとの〓(i,m)(た
だし1≦i≦m−1)を計算し、最大値を〓nax
とする。この〓naxの値があるいき値より大きい
か小さいかによつて語頭子音の有無を判定する。
この方法で検出された場合、語頭子音区間として
は〓(i,m)の値の変化が一番大きいフレーム
までを子音区間とする。この方法は、持続時間の
短かい子音を検出するのに有効である。
以上説明した〜までの方法によつて語頭子
音のセグメンテーシヨンを行ないの方法で検出
された子音を無声子音群(/z/、/h/、/
s/、/c/、/p/、/t/、/k/)の方
法によつて検出された子音を有声子音群(/
m/、/n/、/b/、/d/、/g/、/
r/、/z/)の方法で検出された子音をパワ
ー変化に特徴がある子音群(/b/、/d/、/
g/、/z/、/p/、/t/、/k/)の方
法で検出された子音を持続時間の短かい子音群
(/m/、/n/、/b/、/d/、/g/、/
r/、/z/、/h/、/p/、/t/、/
k/)というような4つの子音群に大分類を行な
う。
音のセグメンテーシヨンを行ないの方法で検出
された子音を無声子音群(/z/、/h/、/
s/、/c/、/p/、/t/、/k/)の方
法によつて検出された子音を有声子音群(/
m/、/n/、/b/、/d/、/g/、/
r/、/z/)の方法で検出された子音をパワ
ー変化に特徴がある子音群(/b/、/d/、/
g/、/z/、/p/、/t/、/k/)の方
法で検出された子音を持続時間の短かい子音群
(/m/、/n/、/b/、/d/、/g/、/
r/、/z/、/h/、/p/、/t/、/
k/)というような4つの子音群に大分類を行な
う。
このようにして大分類によつて候補を絞つた
後、各子音群内で細分類を行なう。細分類の方法
としては、音素標準パターンとの類似度を求め、
各音素に対する類似度を比較することによつて子
音を判別する。
後、各子音群内で細分類を行なう。細分類の方法
としては、音素標準パターンとの類似度を求め、
各音素に対する類似度を比較することによつて子
音を判別する。
無声破裂音、有声破裂音は破裂点から後続母音
へ遷移する部分に特徴がある。したがつて無声破
裂音群内または有声破裂音群内で細分類を行なう
には破裂点付近の時間的な動きを考慮した類似度
計算を行なうことが必要である。鼻音は母音への
わたりの部分に特徴があり、この部分の時間的動
きを考慮した類似度計算が必要である。流音/
r/は区間全体のスペクトル変化と持続時間に特
徴がある。/z/はバズ部とそれに続く摩擦部を
有することに特徴がある。
へ遷移する部分に特徴がある。したがつて無声破
裂音群内または有声破裂音群内で細分類を行なう
には破裂点付近の時間的な動きを考慮した類似度
計算を行なうことが必要である。鼻音は母音への
わたりの部分に特徴があり、この部分の時間的動
きを考慮した類似度計算が必要である。流音/
r/は区間全体のスペクトル変化と持続時間に特
徴がある。/z/はバズ部とそれに続く摩擦部を
有することに特徴がある。
このように各子音群によつて特徴部には差異が
あるが、特徴点を基準とした時間的な動きが重要
な情報であることは共通している。特徴点を自動
検出する方法としては、無声子音群は音素の始端
である語頭フレーム、有声子音群は鼻音判定から
母音判定へ変わるフレーム・パワー変化に特徴が
ある子音群はパワーの立上りフレーム、持続時間
の短かい子音群は音素の終端とする。しかし、正
確に特徴フレームを自動検出することは容易では
ない。そこで、自動検出の誤差による誤認識を減
少させるために自動検出した特徴フレームの前後
数フレームにわたつて類似度を計算し、類似度が
最大となるフレームの値をその音素に対する類似
度とする。
あるが、特徴点を基準とした時間的な動きが重要
な情報であることは共通している。特徴点を自動
検出する方法としては、無声子音群は音素の始端
である語頭フレーム、有声子音群は鼻音判定から
母音判定へ変わるフレーム・パワー変化に特徴が
ある子音群はパワーの立上りフレーム、持続時間
の短かい子音群は音素の終端とする。しかし、正
確に特徴フレームを自動検出することは容易では
ない。そこで、自動検出の誤差による誤認識を減
少させるために自動検出した特徴フレームの前後
数フレームにわたつて類似度を計算し、類似度が
最大となるフレームの値をその音素に対する類似
度とする。
次に類似度の計算に関しては、下記式2または
式3 ベイズ判定に基づく距離: Pi=1/(2π)d/2・|Σ|1/2・exp{−1/
2(〓−〓i)T・Σ-1・(〓−〓i)}…式2 マハラノビス距離: Li=(〓−〓i)T・Σ-1・(〓−〓i) …式3 を使用して、時間的な動きを考慮した類似度を計
算する。すなわち、類似度計算に使用するデータ
として単一フレームの特徴パラメータでなく、複
数フレーム(いまlフレームとする)の特徴パラ
メータを使用する。式1または式2で 入力特徴パラメータ 〓=(x1 (1),x2 (1)…xd (1),x1 (2),x2 (2)…xd (2)…
,
x1(l),x2(l),…xd(l)) 標準パターンの平均値 μ=(μ1 (1),μ2 (1),…μd (1),μ1 (2),μ2 (2),
…μd (2),
…,μ1(l),μ2(l),…μd(l)) のようにd×l次元のデータを用いる。共分散行
列Σも同様にd×l次元とする(複雑になるので
記さない)。このように複数フレームのデータを
用いることによつて、パラメータが持つスペクト
ルの特徴とその時間的な変動の特徴を同時に音素
標準パターンと比較することができる。
式3 ベイズ判定に基づく距離: Pi=1/(2π)d/2・|Σ|1/2・exp{−1/
2(〓−〓i)T・Σ-1・(〓−〓i)}…式2 マハラノビス距離: Li=(〓−〓i)T・Σ-1・(〓−〓i) …式3 を使用して、時間的な動きを考慮した類似度を計
算する。すなわち、類似度計算に使用するデータ
として単一フレームの特徴パラメータでなく、複
数フレーム(いまlフレームとする)の特徴パラ
メータを使用する。式1または式2で 入力特徴パラメータ 〓=(x1 (1),x2 (1)…xd (1),x1 (2),x2 (2)…xd (2)…
,
x1(l),x2(l),…xd(l)) 標準パターンの平均値 μ=(μ1 (1),μ2 (1),…μd (1),μ1 (2),μ2 (2),
…μd (2),
…,μ1(l),μ2(l),…μd(l)) のようにd×l次元のデータを用いる。共分散行
列Σも同様にd×l次元とする(複雑になるので
記さない)。このように複数フレームのデータを
用いることによつて、パラメータが持つスペクト
ルの特徴とその時間的な変動の特徴を同時に音素
標準パターンと比較することができる。
次に標準パターンの作成法を述べる。標準パタ
ーンは目視によつて音声中から正確に切出した多
くのデータを使用して作成する。
ーンは目視によつて音声中から正確に切出した多
くのデータを使用して作成する。
音素標準パターンは、同一音素の多くのデータ
に対し、特徴部に相当するlフレームのデータを
切り出してd×l次元の特徴ベクトルを求め、多
くのデータの平均値と共分散行列を求めることに
よつて音素ごとに作成しておく。
に対し、特徴部に相当するlフレームのデータを
切り出してd×l次元の特徴ベクトルを求め、多
くのデータの平均値と共分散行列を求めることに
よつて音素ごとに作成しておく。
周囲情報の標準パターンは音素群ごとに1種類
ずつ作成する。これは音素群内においては、周囲
情報が各音素に対して共通していることによる。
周囲情報の標準パターンは、このようにその音素
群に対して普遍的な周囲の情報を標準パターン化
したものである。第3図にその作成方法を示す。
特徴部(図の斜線部)の近傍に対し、特徴部に比
較して時間的に十分に長い区間を周囲情報区間L
として設定する。この中間に対し、図に示すよう
に、lフレームの特徴パラメータ(d×l次元)
を1フレームずつシフトさせながら全区間にわた
つて取り出す。このような手続を同一音素群に属
する多くのデータに対して適用し、平均値ベクト
ルと共分散行列を求め、これを周囲情報の標準パ
ターンとする。このように周囲情報の標準パター
ンには特徴部のデータも含まれているが、それよ
りも特徴部の近傍のデータの比重が格段に大きい
ものになつている。
ずつ作成する。これは音素群内においては、周囲
情報が各音素に対して共通していることによる。
周囲情報の標準パターンは、このようにその音素
群に対して普遍的な周囲の情報を標準パターン化
したものである。第3図にその作成方法を示す。
特徴部(図の斜線部)の近傍に対し、特徴部に比
較して時間的に十分に長い区間を周囲情報区間L
として設定する。この中間に対し、図に示すよう
に、lフレームの特徴パラメータ(d×l次元)
を1フレームずつシフトさせながら全区間にわた
つて取り出す。このような手続を同一音素群に属
する多くのデータに対して適用し、平均値ベクト
ルと共分散行列を求め、これを周囲情報の標準パ
ターンとする。このように周囲情報の標準パター
ンには特徴部のデータも含まれているが、それよ
りも特徴部の近傍のデータの比重が格段に大きい
ものになつている。
次に、上記の方法で作成した標準パターンを使
用して、大分類されたデータを細分類する具体的
な方法を述べる。
用して、大分類されたデータを細分類する具体的
な方法を述べる。
なお、今後の説明では簡単のために式2の距離
尺度を使用し、1つの音素群が2音素(音素1,
音素2)で構成される場合を取りあげる。音素数
が増しても考え方は同様である。
尺度を使用し、1つの音素群が2音素(音素1,
音素2)で構成される場合を取りあげる。音素数
が増しても考え方は同様である。
特徴部は前に述べた方法で特徴フレームを検出
し、そのフレームを基準にして大まかな候補区間
を求める。この区間を時間的にt1〜t2とする。い
ま時間tにおける未知入力ベクトル(細分類され
るべきデータ)を 〓t(t=t1〜t2) 音素1の標準パターン(平均値)を〓1 音素2の標準パターン(平均値)を〓2 周囲情報の標準パターン(平均値)を〓e とし、音素1、音素2および周囲情報の全てに共
通な共分散行列をΣとする。Σは各々の共分散行
列を平均することによつて作成する。
し、そのフレームを基準にして大まかな候補区間
を求める。この区間を時間的にt1〜t2とする。い
ま時間tにおける未知入力ベクトル(細分類され
るべきデータ)を 〓t(t=t1〜t2) 音素1の標準パターン(平均値)を〓1 音素2の標準パターン(平均値)を〓2 周囲情報の標準パターン(平均値)を〓e とし、音素1、音素2および周囲情報の全てに共
通な共分散行列をΣとする。Σは各々の共分散行
列を平均することによつて作成する。
時間tにおける未知入力の音素1との類似度
(距離)をL1・tとすると L1・t=(〓t−〓1)T・Σ-1・(〓t−〓1)−(
〓t−〓e)T・Σ-1・(〓t−〓e)…式4 同様に音素2との距離をL2・tとすると L2・t=(〓t−〓2)T・Σ-1・(〓t−〓2)−(
〓t−〓e)T・Σ-1・(Xt−Ue)…式5 とする。これらの式の意味するところは、時間t
における未知入力と音素標準パターンとの類似度
から周囲情報に対する類似度を減じたものを新た
に音素との類似度とすることである。そして式4
および式5の計算をt1〜t2の期間を対象として行
ない、L1・t、L2・tのうち、この期間に最小
となつた方の音素の認識音素とする。
(距離)をL1・tとすると L1・t=(〓t−〓1)T・Σ-1・(〓t−〓1)−(
〓t−〓e)T・Σ-1・(〓t−〓e)…式4 同様に音素2との距離をL2・tとすると L2・t=(〓t−〓2)T・Σ-1・(〓t−〓2)−(
〓t−〓e)T・Σ-1・(Xt−Ue)…式5 とする。これらの式の意味するところは、時間t
における未知入力と音素標準パターンとの類似度
から周囲情報に対する類似度を減じたものを新た
に音素との類似度とすることである。そして式4
および式5の計算をt1〜t2の期間を対象として行
ない、L1・t、L2・tのうち、この期間に最小
となつた方の音素の認識音素とする。
実際には式4、式5は次のように簡単な式に展
開できる(導出は略す)。
開できる(導出は略す)。
L1・t=〓1・〓t−B1 式4′
L2・t=〓2・〓t−B2 式5′
〓1、〓2、B1、B2が周囲情報を含んだ標準パタ
ーンである。
ーンである。
上記の方法の意味を第4図によつて概念的に説
明する。
明する。
音素区間が第4図aに示す状況において、子音
の判別を行なう場合を考える。この子音の真の特
徴部(斜線部)に対し、特徴部候補区間Tが時間
t1〜t2として求められたものとする。bは式3に
よつて求めた。音素1(実線)、音素2(斜線)
に対する類似度の時間的変動を示したものであ
る。A,B,Cは類似度が極小となる位置を示
す。真の特徴部(B点)においては音素1の方が
音素2よりも小さく、この子音は音素1として判
別されるべきである。しかるに、セグメンテーシ
ヨンパラメータによつて自動的に求めた特徴部候
補区間内においては、音素2がA点において最小
となるため、このままでは音素2に誤判別されて
しまう。第6図cは未知入力の周囲情報の標準パ
ターンと距離を示したものであり、真の特徴部付
近で値が大きくなる。これは、標準パターンが主
に周辺の情報によつて作成されているためであ
る。第6図dは周囲情報を含んだ音素標準パター
ンとの距離であり、bからcを減じたものと等価
である。dではA点よりもB点の値が小さくなつ
ており、この子音は正しく音素1として判別され
ることになる。
の判別を行なう場合を考える。この子音の真の特
徴部(斜線部)に対し、特徴部候補区間Tが時間
t1〜t2として求められたものとする。bは式3に
よつて求めた。音素1(実線)、音素2(斜線)
に対する類似度の時間的変動を示したものであ
る。A,B,Cは類似度が極小となる位置を示
す。真の特徴部(B点)においては音素1の方が
音素2よりも小さく、この子音は音素1として判
別されるべきである。しかるに、セグメンテーシ
ヨンパラメータによつて自動的に求めた特徴部候
補区間内においては、音素2がA点において最小
となるため、このままでは音素2に誤判別されて
しまう。第6図cは未知入力の周囲情報の標準パ
ターンと距離を示したものであり、真の特徴部付
近で値が大きくなる。これは、標準パターンが主
に周辺の情報によつて作成されているためであ
る。第6図dは周囲情報を含んだ音素標準パター
ンとの距離であり、bからcを減じたものと等価
である。dではA点よりもB点の値が小さくなつ
ており、この子音は正しく音素1として判別され
ることになる。
このように、本実施例の方法を用いることによ
つて、セグメンテーシヨンパラメータで求めた大
まかな特徴部候補区間から、正確に真の特徴部を
自動的に抽出して音素を判別することができる。
つて、セグメンテーシヨンパラメータで求めた大
まかな特徴部候補区間から、正確に真の特徴部を
自動的に抽出して音素を判別することができる。
なお、上記においては式3を基本とするマハラ
ノビス距離で説明したが、その他の距離において
も同様な方法が使用できる。
ノビス距離で説明したが、その他の距離において
も同様な方法が使用できる。
また、上記では子音によつて説明したが、時間
的に変動する音素、たとえば半母音に対しても同
様な方法が適用できる。
的に変動する音素、たとえば半母音に対しても同
様な方法が適用できる。
このように、大分類によつて候補数を絞り、細
分類には自動的に抽出した特徴部を基本として時
間的な動きを考慮した統計的距離尺度で音素を判
別する方法は、音素(特に子音や半母音)の音声
学的な性質を利用した合理的な認識法である。
分類には自動的に抽出した特徴部を基本として時
間的な動きを考慮した統計的距離尺度で音素を判
別する方法は、音素(特に子音や半母音)の音声
学的な性質を利用した合理的な認識法である。
本実施例によつて、〜の方法でセグメンテ
ーシヨンすることが出来た全語頭子音(/
p/、/t/、/k/、/c/、/b/、/
d/、/g/、/m/、/n/、/r/、/
z/、/s/、/h/)を対象として、平均で約
70.3%の認識率を得た。データは男女計20名がそ
れぞれ発声した212単セツトを使用しており、十
分な信頼性がある。また従来法では子音群内での
細分化が行われていないことを考慮すれば、本発
明による実施例の効果が大きいことがわかる。
ーシヨンすることが出来た全語頭子音(/
p/、/t/、/k/、/c/、/b/、/
d/、/g/、/m/、/n/、/r/、/
z/、/s/、/h/)を対象として、平均で約
70.3%の認識率を得た。データは男女計20名がそ
れぞれ発声した212単セツトを使用しており、十
分な信頼性がある。また従来法では子音群内での
細分化が行われていないことを考慮すれば、本発
明による実施例の効果が大きいことがわかる。
発明の効果
以上要約すると、本発明は入力単語の語頭子音
のセグメンテーシヨンを4つの方法を併用して行
ない、これら4つの方法のどの方法によつてセグ
メンテーシヨンされたかによつて語頭子音を無声
子音群、有声子音群、パワー変化に特徴がある子
音群、持続時間の短かい子音群などの複数個の音
素群として認識し、次に前記音素区間中で特徴部
(音素の判別に有効な部分)を自動的に検出し、
前記特徴部に対して前に認識された音素群に属す
る個々の音素の標準パターンとの類似度計算を行
なつて音素を判別することを特徴とする語頭子音
認識方法を提供するもので、 イ 語頭子音の自動セグメンテーシヨンを行つて
高い精度で音素を認識することができる。
のセグメンテーシヨンを4つの方法を併用して行
ない、これら4つの方法のどの方法によつてセグ
メンテーシヨンされたかによつて語頭子音を無声
子音群、有声子音群、パワー変化に特徴がある子
音群、持続時間の短かい子音群などの複数個の音
素群として認識し、次に前記音素区間中で特徴部
(音素の判別に有効な部分)を自動的に検出し、
前記特徴部に対して前に認識された音素群に属す
る個々の音素の標準パターンとの類似度計算を行
なつて音素を判別することを特徴とする語頭子音
認識方法を提供するもので、 イ 語頭子音の自動セグメンテーシヨンを行つて
高い精度で音素を認識することができる。
ロ 音素判別に対して有効な部分(特徴部)を自
動的にしかも正確に抽出し、マツチングを行な
うことができる。
動的にしかも正確に抽出し、マツチングを行な
うことができる。
ハ 従来、判別が難しいとされていた有声破裂音
群内、無声破裂音群内、鼻音群内の細分類を自
動セグメンテーシヨンと組合わせて行なうこと
ができる。
群内、無声破裂音群内、鼻音群内の細分類を自
動セグメンテーシヨンと組合わせて行なうこと
ができる。
ニ 4つの語頭子音セグメンテーシヨン法の結果
を利用して子音の大分類を行なうためにアルゴ
リズムを簡単にすることが出来る。
を利用して子音の大分類を行なうためにアルゴ
リズムを簡単にすることが出来る。
等の利点がある。
第1図は従来の音声認識システムの機能ブロツ
ク図、第2図は本発明の一実施例における語頭子
音をパワー変化によつて検出する方法の説明図、
第3図は同実施例の周囲情報標準パターンの作成
法を説明する図、第4図は同実施例の特徴部の検
出及び音素判別を行う方法を説明する図である。 1……音響分析部、2……特徴抽出部、3……
セグメンテーシヨン部、4……音素判別部、5…
…標準パターン登録部、6……単語認識部、7…
…単語辞書。
ク図、第2図は本発明の一実施例における語頭子
音をパワー変化によつて検出する方法の説明図、
第3図は同実施例の周囲情報標準パターンの作成
法を説明する図、第4図は同実施例の特徴部の検
出及び音素判別を行う方法を説明する図である。 1……音響分析部、2……特徴抽出部、3……
セグメンテーシヨン部、4……音素判別部、5…
…標準パターン登録部、6……単語認識部、7…
…単語辞書。
Claims (1)
- 【特許請求の範囲】 1 音声無声判定により語頭子音を検出する第1
の方法と、母音鼻音判定により語頭子音を検出す
る第2の方法と、パワーの時間的変化を捕らえて
語頭子音を検出する第3の方法と、ケプストラム
距離により語頭子音を検出する第4の方法とを任
意の順序で適用して入力音声のセグメンテーシヨ
ンを行うことにより語頭子音を無声子音群、有声
子音群、パワー変化に特徴がある子音群、持続時
間の短かい子音群の4つの音素区間として認識
し、前記音素区間中で特徴部(音素の判別に有効
な部分)を自動的に抽出し、前記特徴部に対して
前に認識された音素群に属する個々の音素の標準
パターンとの類似度計算を行なつて音素を判別す
ることを特徴とする音素認識方法。 2 先ずセグメンテーシヨン用パラメータを使つ
て特徴部の候補区間を決め、次にその候補区間に
対して、音素群の周囲情報を含む音素標準パター
ンを適用することによつて、特徴部の抽出と音素
の判別を行なうことを特徴とする特許請求の範囲
第1項記載の音素認識方法。 3 標準パターンの類似度計算を、統計的な距離
尺度を用い、音素の時間的な動きを含む標準パタ
ーンを使用することを特徴とする特許請求の範囲
第1項記載の音素認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59174325A JPS6152700A (ja) | 1984-08-22 | 1984-08-22 | 音素認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59174325A JPS6152700A (ja) | 1984-08-22 | 1984-08-22 | 音素認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6152700A JPS6152700A (ja) | 1986-03-15 |
| JPH0455520B2 true JPH0455520B2 (ja) | 1992-09-03 |
Family
ID=15976664
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59174325A Granted JPS6152700A (ja) | 1984-08-22 | 1984-08-22 | 音素認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6152700A (ja) |
-
1984
- 1984-08-22 JP JP59174325A patent/JPS6152700A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6152700A (ja) | 1986-03-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1083542B1 (en) | A method and apparatus for speech detection | |
| US8566088B2 (en) | System and method for automatic speech to text conversion | |
| JPS6336676B2 (ja) | ||
| CN102222498B (zh) | 声音判别系统、声音判别方法以及声音判别用程序 | |
| JP3444108B2 (ja) | 音声認識装置 | |
| Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
| Sawakare et al. | Speech recognition techniques: a review | |
| JPH0455520B2 (ja) | ||
| Drakshayini et al. | Repetition detection using spectral parameters and multi tapering features | |
| Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
| JPH0455518B2 (ja) | ||
| JPS6336678B2 (ja) | ||
| JPH0316040B2 (ja) | ||
| JPH042199B2 (ja) | ||
| Kuriakose | New Features for Discriminative Keyword Spotting | |
| JP2744622B2 (ja) | 破裂子音識別方式 | |
| JPH0682275B2 (ja) | 音声認識装置 | |
| JPS6068393A (ja) | 音素判別方法 | |
| Heinrich | Speech identification using a sequence-based heuristic | |
| Rabiner et al. | Some preliminary experiments in the recognition of connected digits | |
| JPH0120440B2 (ja) | ||
| JPS6069694A (ja) | 語頭子音のセグメンテ−ション法 | |
| JPH01260499A (ja) | 子音認識法 | |
| JPS6068396A (ja) | 音素分類方法 | |
| Baker | On the similarity of noisy phonetic strings produced by different words |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EXPY | Cancellation because of completion of term |