JPS6152700A - 音素認識方法 - Google Patents
音素認識方法Info
- Publication number
- JPS6152700A JPS6152700A JP59174325A JP17432584A JPS6152700A JP S6152700 A JPS6152700 A JP S6152700A JP 59174325 A JP59174325 A JP 59174325A JP 17432584 A JP17432584 A JP 17432584A JP S6152700 A JPS6152700 A JP S6152700A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- consonants
- word
- consonant
- standard pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は音素認識を行うこ−とを特徴とする音声認識方
法における音素認識方法に関するものである。
法における音素認識方法に関するものである。
従来例の構成とその問題点
入力音声を音素jl′i位に分けて音素の組合せとして
認識しく音素認識とよぶ)音素単位で表記された単記辞
書との類似度を求めて認識結果を出力する従来の単語認
識システムのブロック図を第1図に示す。
認識しく音素認識とよぶ)音素単位で表記された単記辞
書との類似度を求めて認識結果を出力する従来の単語認
識システムのブロック図を第1図に示す。
まず、あらかじめ多数話者の音声を10m5の分析区間
毎に音響分析部1によってフィルツクバンクを用いて分
析し、得られたスペクトル情報をもとに特徴抽出部2に
よって特徴パラメータを′:1りめる。この特徴パラメ
ータから/a、/、10./等の母音や、/m/、/b
/等の子音に代表される音素毎又は音素グループ毎に標
準パターンを作成して標?+11(パターン登録部5に
kFMし−Cおく。次に、入力された不特定話者の音声
を、同様に分析区間毎に音響分析部1によって分析し、
特徴抽出部2によって特?llパラメータを求める。こ
の特徴パラメータと標準パターン登録部らの標準パター
ンを用いてセグメンテーション部3において母音と子音
の区切り作業(以下セグメンテーションと呼ぶ)を行な
う。この結果をもとに、音素判別部4において、標7j
f5パターン登録部5の標II/L、バクーンと照合す
ることによって、最も類似度の高い標準パターンに該当
する音素をその区間における音素と決定する。最後に、
この、結果作成した音素の時系列C以下音素系列と呼ぶ
)を単語認識部6に送シ、同様に音素系列で表現された
単語辞書7と最も類似度の大きい項目に該当する単語を
認識結果として出力する。
毎に音響分析部1によってフィルツクバンクを用いて分
析し、得られたスペクトル情報をもとに特徴抽出部2に
よって特徴パラメータを′:1りめる。この特徴パラメ
ータから/a、/、10./等の母音や、/m/、/b
/等の子音に代表される音素毎又は音素グループ毎に標
準パターンを作成して標?+11(パターン登録部5に
kFMし−Cおく。次に、入力された不特定話者の音声
を、同様に分析区間毎に音響分析部1によって分析し、
特徴抽出部2によって特?llパラメータを求める。こ
の特徴パラメータと標準パターン登録部らの標準パター
ンを用いてセグメンテーション部3において母音と子音
の区切り作業(以下セグメンテーションと呼ぶ)を行な
う。この結果をもとに、音素判別部4において、標7j
f5パターン登録部5の標II/L、バクーンと照合す
ることによって、最も類似度の高い標準パターンに該当
する音素をその区間における音素と決定する。最後に、
この、結果作成した音素の時系列C以下音素系列と呼ぶ
)を単語認識部6に送シ、同様に音素系列で表現された
単語辞書7と最も類似度の大きい項目に該当する単語を
認識結果として出力する。
本構成において音素判別部4で音素の判別を行う場合、
従来では、子音区間と判定された区間についてフレーム
毎に音素の特徴を示す特徴バラメーりを求めあらかじめ
用意されている各1イ素または音素群の標準パターンと
比較してフレーム毎に子音分類を行なう。この結果を子
音分類ツリーに適用して条件の一致したものを認識され
た子音とする。
従来では、子音区間と判定された区間についてフレーム
毎に音素の特徴を示す特徴バラメーりを求めあらかじめ
用意されている各1イ素または音素群の標準パターンと
比較してフレーム毎に子音分類を行なう。この結果を子
音分類ツリーに適用して条件の一致したものを認識され
た子音とする。
しかし、この場合語頭子音は明確な判定を行なわずに音
素群の判定にとどまっている。たとえば −/
b/、/d/、/g/を有声破裂音群としている。
素群の判定にとどまっている。たとえば −/
b/、/d/、/g/を有声破裂音群としている。
有声破裂音?1T−の判別については、たとえば「日本
語有声破裂音の分析」細谷、藤崎2日本音響学会音声研
究会(S80−67)などで報告されて 1
いる。しかし、これらの方法は分析時間、アルゴリズム
の複雑さのだめに、実際の単語認識システムに使用され
た例は報告されていない。
語有声破裂音の分析」細谷、藤崎2日本音響学会音声研
究会(S80−67)などで報告されて 1
いる。しかし、これらの方法は分析時間、アルゴリズム
の複雑さのだめに、実際の単語認識システムに使用され
た例は報告されていない。
以上述べたように、従来の方法では、語頭子音について
は音素群の判別にとどまっており認識対象単語によって
は問題が生じる。まだ、音素群内での判別方法も報告さ
れているが、寸だ、分析時間、アルゴリズムの複雑さな
どの問題があり実際のシステムに使用されていない。
は音素群の判別にとどまっており認識対象単語によって
は問題が生じる。まだ、音素群内での判別方法も報告さ
れているが、寸だ、分析時間、アルゴリズムの複雑さな
どの問題があり実際のシステムに使用されていない。
発明の目的
本発明は、以上のような従来の問題点を解決するだめに
なされたもので、語頭子音の認識を分析時間、アルゴリ
ズムを考慮して実際のシステムで使用出来るようにした
音素認識方法を提供することを目1′白とする。
なされたもので、語頭子音の認識を分析時間、アルゴリ
ズムを考慮して実際のシステムで使用出来るようにした
音素認識方法を提供することを目1′白とする。
発明の構成
本発明は上記目的を達成するもので、入力音声の、i、
lr卵子高のセグメンテーションを、有声無声判定によ
る方法、母音病・音判定による方法、パワー変化による
方法、ケプストラム距離による方法の4つの方法を任意
に適用して行い、どの方法でセグメンテーションされた
かによって語頭子音を無声子音群、有声子音群、パワー
変化に特徴がある子音群、持続時間の短かい子音群など
の複数個の音素群として認識し、次に前記音素区間中で
特徴部(音素の判別に有効な部分)を自動的に検出し、
前記特徴部に対して前に認識された音素群に属する個々
の音素の標準パターンとの類似度計算を行なって音素を
判別することを特徴とする語頭子音認識方法を提供する
ものである。
lr卵子高のセグメンテーションを、有声無声判定によ
る方法、母音病・音判定による方法、パワー変化による
方法、ケプストラム距離による方法の4つの方法を任意
に適用して行い、どの方法でセグメンテーションされた
かによって語頭子音を無声子音群、有声子音群、パワー
変化に特徴がある子音群、持続時間の短かい子音群など
の複数個の音素群として認識し、次に前記音素区間中で
特徴部(音素の判別に有効な部分)を自動的に検出し、
前記特徴部に対して前に認識された音素群に属する個々
の音素の標準パターンとの類似度計算を行なって音素を
判別することを特徴とする語頭子音認識方法を提供する
ものである。
実施例の説明
本実施例の概要は、以下の通りである。
イ、4つのセグメンテーション法による結果を利用して
、語頭子音を無声子音群、有声子音群。
、語頭子音を無声子音群、有声子音群。
パワー変化に特徴がある子音群、持続時間の短かい子音
群の4つに大分類する。
群の4つに大分類する。
口、多音素群ごとに特徴部を設定し、その特徴部に対し
て多音素の標準パターンを、あらかじめ作成しておく。
て多音素の標準パターンを、あらかじめ作成しておく。
音素標準パターンは、目視によって正確に、ラベル付け
した多くのデータを使用して作成する。また、音素標準
パターンの他に、各音素群に対して、特徴部の周囲情報
の標阜ノ<ターンを1種類作成しておく。
した多くのデータを使用して作成する。また、音素標準
パターンの他に、各音素群に対して、特徴部の周囲情報
の標阜ノ<ターンを1種類作成しておく。
ハ、音素の判別
入力音声の語頭子音セグメンテーションを行ない、子音
区間を求める。そして子音区間の一部(たとえば端点)
を基鵠点として設定する。
区間を求める。そして子音区間の一部(たとえば端点)
を基鵠点として設定する。
一方、この子音区間が上記イにおける大分類のうち、ど
の音素群に属するかを決定する。次に、この決定された
音素群に属する標弗パターンを音素区間における特徴部
に対して適用して音素の判別を行なう。ところで、特徴
部を自動的にしかも正確に求めることは一般には困・雌
であるだめ、次のようにする。すなわち上記の基仏点を
参照して、多少の幅を持って特徴部の1吹補区間を求め
ておき、11芙袖区間の全範囲に対して周囲情報標準パ
ターンを適用して各盲素との類似度を計算する。各音素
との頚貝度計算に当っては、音素漂鴎パターンと未知人
力との類似度から、上記イに述べた音素群の周囲は報の
標準パターンとの類似度を除去する。このようにするこ
とによって、特徴部の候補区間のうち特徴部に相当しな
い部分(すなわち特徴部の周囲に相当する部分)の情報
を除去することができ、正確な特徴部をとらえて音素の
判別を行なうことができる。
の音素群に属するかを決定する。次に、この決定された
音素群に属する標弗パターンを音素区間における特徴部
に対して適用して音素の判別を行なう。ところで、特徴
部を自動的にしかも正確に求めることは一般には困・雌
であるだめ、次のようにする。すなわち上記の基仏点を
参照して、多少の幅を持って特徴部の1吹補区間を求め
ておき、11芙袖区間の全範囲に対して周囲情報標準パ
ターンを適用して各盲素との類似度を計算する。各音素
との頚貝度計算に当っては、音素漂鴎パターンと未知人
力との類似度から、上記イに述べた音素群の周囲は報の
標準パターンとの類似度を除去する。このようにするこ
とによって、特徴部の候補区間のうち特徴部に相当しな
い部分(すなわち特徴部の周囲に相当する部分)の情報
を除去することができ、正確な特徴部をとらえて音素の
判別を行なうことができる。
以下、子音認識を例として、本発明の一実施例を図面を
参照しながら詳細に説明する。
参照しながら詳細に説明する。
本実施例は次に示す4つのセグメンテーション法の結果
を利用して語頭子音を(1)無声子音群、12)有声子
音群、(3)パワー変化に特徴がある子音群。
を利用して語頭子音を(1)無声子音群、12)有声子
音群、(3)パワー変化に特徴がある子音群。
(4)持続時間の短かい子音群の4つに大分類する。
■ フレーム毎c本実施例では1フレームは10m 5
ec)の有声・無声判定による方法■ フレーム毎の母
音・鼻音判定による方法■ パワーの時間的変化をとら
える方法■ ケプストラム距離による方法 ■〜■までの方法を併用し、語頭子音が検出された時に
は、以後の方法を適用せず、検出結果に基づいてセグメ
ンテーションを行なう。以下に■〜■までの方法につい
て説明する。
ec)の有声・無声判定による方法■ フレーム毎の母
音・鼻音判定による方法■ パワーの時間的変化をとら
える方法■ ケプストラム距離による方法 ■〜■までの方法を併用し、語頭子音が検出された時に
は、以後の方法を適用せず、検出結果に基づいてセグメ
ンテーションを行なう。以下に■〜■までの方法につい
て説明する。
最初に■の方法である有声・無声判定による方法につい
て述べる。
て述べる。
語頭の無声子音のセグメンテーションは、各フレーム毎
に行なう有声・無声判定結果を利用することによって、
正確に行なうことが出来る。
に行なう有声・無声判定結果を利用することによって、
正確に行なうことが出来る。
有声・無声判定の方法は零交差波、スペクトルの傾き、
第1次の自己相関係数の値等を利用する方法があるが、
どの方法を用いてもよい。本実施例では、有声・無声判
定の漂準パターンと比較することによって判定している
。
第1次の自己相関係数の値等を利用する方法があるが、
どの方法を用いてもよい。本実施例では、有声・無声判
定の漂準パターンと比較することによって判定している
。
ここで、語頭からヌハ(声の判定があるフレーム数以上
連続する時C例えば4フレーム以−ヒ)この区間を子音
区間と判定する。この方法は、すべての無声子音に対し
て有効である。
連続する時C例えば4フレーム以−ヒ)この区間を子音
区間と判定する。この方法は、すべての無声子音に対し
て有効である。
次K、■の方法である母音・鼻音判定による方法につい
て説明する。
て説明する。
フレーム毎の音素認識は本実施例ではLPGケプストラ
ム係数を用いて、あらかじめ用意しである各音素の標準
パターンとの比較によって行なう。
ム係数を用いて、あらかじめ用意しである各音素の標準
パターンとの比較によって行なう。
標Q/iパターンとしては5[音(/a/、/i/。
/u/、/6/、10/)、鼻音(/N/で表わす)と
無声子音(/S/で表わす)を用いた。このようにして
、各フレーム毎に類似度の最も大きい音素(第1侯補音
素)と2番目に類似度の大きい音素(第2候補音素)を
求める。フレーム毎の第1候補音素と第2侯補音素をそ
れぞれフレーム番号の順に並べた系列を第1侯補音素時
系列、第2侯補音素系列とする。上記音素系列を語頭か
ら順に見た時/N/が第1113Ffliまたは第2侯
補音素系列を含めであるフレーム数以上(例えば4フレ
一ム以上)連続した時この区間を子音区間であると判定
する。
無声子音(/S/で表わす)を用いた。このようにして
、各フレーム毎に類似度の最も大きい音素(第1侯補音
素)と2番目に類似度の大きい音素(第2候補音素)を
求める。フレーム毎の第1候補音素と第2侯補音素をそ
れぞれフレーム番号の順に並べた系列を第1侯補音素時
系列、第2侯補音素系列とする。上記音素系列を語頭か
ら順に見た時/N/が第1113Ffliまたは第2侯
補音素系列を含めであるフレーム数以上(例えば4フレ
一ム以上)連続した時この区間を子音区間であると判定
する。
この方法は、特に、1>、音を中1しとする有声子音に
対して有効である。
対して有効である。
次に、■の方法であるパワーの時間的変化による方法に
ついて説明する。
ついて説明する。
語頭が主に破裂性の子音で始する時、パワー値の時間的
変化をプロットすると第2図の(a)のようになる。こ
れは破裂性のだめにパワーが急激に立上がり、後続の母
音との渡りの部分において(a)のように凹状になるか
らである。
変化をプロットすると第2図の(a)のようになる。こ
れは破裂性のだめにパワーが急激に立上がり、後続の母
音との渡りの部分において(a)のように凹状になるか
らである。
(b)は(2L)のパワーの時間的変化の値を微分した
ものである。P、〜P3 は(a)の変曲点のフレー
ム番号を示している。ここでは音声区間の始まるフレー
ム番号を1にしている。ここで、(a) 、 (blの
ようにp、 、 p3の微分値が正、P2の微分値が負
、かつP5<m(mはフレーム番号を示すいき値)を満
足する時、語頭からP3までを語1jfi子音区間とし
て判定する。
ものである。P、〜P3 は(a)の変曲点のフレー
ム番号を示している。ここでは音声区間の始まるフレー
ム番号を1にしている。ここで、(a) 、 (blの
ようにp、 、 p3の微分値が正、P2の微分値が負
、かつP5<m(mはフレーム番号を示すいき値)を満
足する時、語頭からP3までを語1jfi子音区間とし
て判定する。
最後に、■の方法であるケプストラム距141Fによる
方法について説明する。
方法について説明する。
ケプストラム距1懺の使い方としては、ある基準フレー
ムのスペクトル・パターンと語頭カラ基飴フレームまで
の各フレームのスペクトル・パターンとを比較する方法
を用いる。
ムのスペクトル・パターンと語頭カラ基飴フレームまで
の各フレームのスペクトル・パターンとを比較する方法
を用いる。
本実施例において、ヌベクト〜・パターンノ特徴を表わ
すパラメータとしてLPGケプストラム係Q C,〜C
n(ただし、nは正の整数)を用いる。スペクトルが安
定して現われる基飴フレームの選び方として、語頭から
mフレーム目(本実線側ではm=7)と固定する。これ
は、比較的持続時間の長い子音(持続時間がmフレーム
以上)は■〜■の方法で検出できるからである。
すパラメータとしてLPGケプストラム係Q C,〜C
n(ただし、nは正の整数)を用いる。スペクトルが安
定して現われる基飴フレームの選び方として、語頭から
mフレーム目(本実線側ではm=7)と固定する。これ
は、比較的持続時間の長い子音(持続時間がmフレーム
以上)は■〜■の方法で検出できるからである。
、Sる2フレ一ム間のスペクトル・パターンヲ比1mす
る方法として、式1を用いる。
る方法として、式1を用いる。
式1においてG t (1>は語頭から1フレームロに
おける4番目のLPGケプストラム係数を表わしている
。同様にCt(j)はjフレーム目における1番目のL
PGケプストラム係数を表わしている。
おける4番目のLPGケプストラム係数を表わしている
。同様にCt(j)はjフレーム目における1番目のL
PGケプストラム係数を表わしている。
f(i、コ)カ大キいほど2つのフレームのスペクトル
・パターンが異なっていることになる。
・パターンが異なっていることになる。
この式1を用いて基準フレームと語頭から基飴フレーム
までの各フレームとのf(i、m)(ただし1≦i≦m
−1)を計算し、最大値を’ maxとする。このf1
112Lxの値があるいき値より大きいか小さいかによ
って語頭子音の有力((を判定する。
までの各フレームとのf(i、m)(ただし1≦i≦m
−1)を計算し、最大値を’ maxとする。このf1
112Lxの値があるいき値より大きいか小さいかによ
って語頭子音の有力((を判定する。
この方法で検出された場合、語頭子音区間としてはf(
i、m)の値の変化が一番大きいフレームまでを子音区
間とする。この方法は、持続時間の短かい子音を検出す
るのに有効である。
i、m)の値の変化が一番大きいフレームまでを子音区
間とする。この方法は、持続時間の短かい子音を検出す
るのに有効である。
以上説明した■〜■〕tでの方法によって語ソエ1子音
のセグメンテーションを行ない■の方法で検出された子
音を無声子音群(/Z/、/h/、/S/。
のセグメンテーションを行ない■の方法で検出された子
音を無声子音群(/Z/、/h/、/S/。
/c/、/p/、/l/、/に/)■の方法によって検
出された子音を有声子音群(/m/、/n/。
出された子音を有声子音群(/m/、/n/。
/b/、/d/、/g/、/r/、/z/)■の方法で
検出された子音をパワー変化に特徴がある子音群(/b
/ /d/、/g/、/z/、/p/、/l/。
検出された子音をパワー変化に特徴がある子音群(/b
/ /d/、/g/、/z/、/p/、/l/。
/に/)■の方法で検出された子音を持続時間の短かい
子音群(/m/、/n/、/b/、/d/。
子音群(/m/、/n/、/b/、/d/。
/g/、/r/、/z/、/h/、/p/、/l/。
/に/)というような4つの子音群に大分類を行なう。
゛ 1このよう
にして大分類によって候袖を絞った後、各子音群内で細
分類を行なう。細分類の方法としては、音素標準パター
ンとの類似度を求め、各音素に対する類似度を比較する
ことによって子音を判別する。
にして大分類によって候袖を絞った後、各子音群内で細
分類を行なう。細分類の方法としては、音素標準パター
ンとの類似度を求め、各音素に対する類似度を比較する
ことによって子音を判別する。
無声破裂音、有声破裂音は破裂点から後続母音へ遷移す
る部分に特徴がある。したがって無声破裂音群内または
イJ声破裂γ冒tF内で細分類を行なうには破裂点付近
の時間的な動きを考慮した類似度計算を行なうことが必
要である。鼻音は母音へのわたりの部分に特徴があり、
この部分の時間的動きを考慮した類似度計算が必要であ
る。原音/r/は区間全体のスベクl−/し変化と持続
時間に特徴がある。/Z/はバズ部とそれに続く摩擦部
を有することに特徴がある。
る部分に特徴がある。したがって無声破裂音群内または
イJ声破裂γ冒tF内で細分類を行なうには破裂点付近
の時間的な動きを考慮した類似度計算を行なうことが必
要である。鼻音は母音へのわたりの部分に特徴があり、
この部分の時間的動きを考慮した類似度計算が必要であ
る。原音/r/は区間全体のスベクl−/し変化と持続
時間に特徴がある。/Z/はバズ部とそれに続く摩擦部
を有することに特徴がある。
このように各子音群によって特徴部には差異があるが、
特徴点を基準としだ時間的な動きが重要な情報であるこ
とは共通している。特徴点を自動検出する方法としては
、無声子音群は音素の始端である語頭フレーム、有声子
音群はIA音判定から母音判定へ変わるフV−ム、パワ
ー変化に特徴がある子音群はパワーの立上りフレーム、
持続時間の短かい子音群は音素の終端とする。しかし、
正確に特徴フレームを自動検出することは容易ではない
。そこで、自動検出の誤差による誤認識を減少させるだ
めに自動検出した特徴フレームの前後数フレームにわた
って類似度を計算し、類似度が最大となるフレームの値
をその音素に対する類似度とする。
特徴点を基準としだ時間的な動きが重要な情報であるこ
とは共通している。特徴点を自動検出する方法としては
、無声子音群は音素の始端である語頭フレーム、有声子
音群はIA音判定から母音判定へ変わるフV−ム、パワ
ー変化に特徴がある子音群はパワーの立上りフレーム、
持続時間の短かい子音群は音素の終端とする。しかし、
正確に特徴フレームを自動検出することは容易ではない
。そこで、自動検出の誤差による誤認識を減少させるだ
めに自動検出した特徴フレームの前後数フレームにわた
って類似度を計算し、類似度が最大となるフレームの値
をその音素に対する類似度とする。
次にバ1似度の計〕、′Jに関しては、下゛記式2また
は式3 ベイズ判定に基づく距離: Σ ・(K−tt、))・・・式2 マハラノビス距離: Li=(K−μよ)T・Σ−1・(X−μ、) ・・・
・・・式3を使用して、時間的な動きを考慮した類似度
を計算する。すなわち、類似度計算に使用するデータと
して単一フレームの特徴パラメータでなく、複数フレー
ム(いま召フレームとする)の特徴パラメータを使用す
る。式1まだは式2で 入力特徴パラメータ +11 +11 Fit (2) (21
+21 の (ト) ωに=(、:C1,j
c2 =・l−6、z、 、 Z2.、、 jc6−、
jc、 、 jc2、−1d)標(1,ヘパターンの
平均値 のようにdx1次尤のデータを用いる。共分散行列Σも
同様にdX4次元とする(複雑になるので記さない)。
は式3 ベイズ判定に基づく距離: Σ ・(K−tt、))・・・式2 マハラノビス距離: Li=(K−μよ)T・Σ−1・(X−μ、) ・・・
・・・式3を使用して、時間的な動きを考慮した類似度
を計算する。すなわち、類似度計算に使用するデータと
して単一フレームの特徴パラメータでなく、複数フレー
ム(いま召フレームとする)の特徴パラメータを使用す
る。式1まだは式2で 入力特徴パラメータ +11 +11 Fit (2) (21
+21 の (ト) ωに=(、:C1,j
c2 =・l−6、z、 、 Z2.、、 jc6−、
jc、 、 jc2、−1d)標(1,ヘパターンの
平均値 のようにdx1次尤のデータを用いる。共分散行列Σも
同様にdX4次元とする(複雑になるので記さない)。
このように複数フレームのデータを用いることによって
、パラメータが持つスペクトルの特徴とその時間的な変
動の特徴を同時に音素標準パターンと比1咬することが
できる。
、パラメータが持つスペクトルの特徴とその時間的な変
動の特徴を同時に音素標準パターンと比1咬することが
できる。
次に標準パターンの作成法を述べる。標準パターンは目
視罠よって音声中から正確に切出した多くのデータを使
用して作成する。
視罠よって音声中から正確に切出した多くのデータを使
用して作成する。
音素標準パターンは、同一音素の多くのターンに対し、
特徴部に相当するβフレームのデータを切り出してdX
fi次元の特徴ベクトルを求め、多くのデータの平均値
と共分散行列を求めることによって音素ごとに作成して
おく。
特徴部に相当するβフレームのデータを切り出してdX
fi次元の特徴ベクトルを求め、多くのデータの平均値
と共分散行列を求めることによって音素ごとに作成して
おく。
周囲情報の標準パターンは音素群ごとに1種類ずつ作成
する。これは音素群内においては、周囲情報が各音素に
対して共通していることによる。
する。これは音素群内においては、周囲情報が各音素に
対して共通していることによる。
周囲情報の標準パターンは、このようにその音素群に対
して普遍的な周囲の情報を標準パターン化したものであ
る。第3図にその作成方法を示す。
して普遍的な周囲の情報を標準パターン化したものであ
る。第3図にその作成方法を示す。
特徴部(図の斜線部)の近傍に対し、特徴部に比較して
時間的に十分長い区間を周囲情報区間りとして設定する
。この区間に対し、図に示すように、βフレームの特徴
パラメータ(dx4次元)を1フレームずつシフトさせ
ながら全区間にわたって取シ出す。このような手続を同
−音素群に属する多くのデータに対して適用し、平均1
直ベクトルと共分散行列を求め、これを周囲情報の標準
パターンとする。このように周囲情報の標準パターンに
は特徴部のデータも含まれているが、それよりも特徴部
の近傍のデータの比重が格段に大きいものになっている
。
時間的に十分長い区間を周囲情報区間りとして設定する
。この区間に対し、図に示すように、βフレームの特徴
パラメータ(dx4次元)を1フレームずつシフトさせ
ながら全区間にわたって取シ出す。このような手続を同
−音素群に属する多くのデータに対して適用し、平均1
直ベクトルと共分散行列を求め、これを周囲情報の標準
パターンとする。このように周囲情報の標準パターンに
は特徴部のデータも含まれているが、それよりも特徴部
の近傍のデータの比重が格段に大きいものになっている
。
次に、上記の方法で作成した標fI/−パターンを使用
して、大分類されたデータを細分類する具体的な方法を
述べる。
して、大分類されたデータを細分類する具体的な方法を
述べる。
なお、今後の説明では簡単のために式2の距離尺度を使
用し、1つの音素群が2音素(音素1.音素2)で構成
される場合を取りあげる。音素数が増しても考え方は同
様である。
用し、1つの音素群が2音素(音素1.音素2)で構成
される場合を取りあげる。音素数が増しても考え方は同
様である。
特徴部は前に述べた方法で特徴フレー1−を検出し、そ
のフレームを基準にして大まかな侯補区間を求める。こ
の区間を時間的にt、〜t2とする。
のフレームを基準にして大まかな侯補区間を求める。こ
の区間を時間的にt、〜t2とする。
いま時間tにおける未知人力ペクト/I/(細分類され
るべきデータ)を X (t=t −t2) 音素1の標準パターン(平均値)を//11音素2の漂
亭パターン(平均値)を広。
るべきデータ)を X (t=t −t2) 音素1の標準パターン(平均値)を//11音素2の漂
亭パターン(平均値)を広。
周囲情報の標準パターン(平均値)を#8とし、音素1
.音素2および周囲情報の全てに共通な共分散行列をΣ
とする。Σは各々の共分散行列を平均することによって
作成する。
.音素2および周囲情報の全てに共通な共分散行列をΣ
とする。Σは各々の共分散行列を平均することによって
作成する。
時間tにおける未知入力の音素1との類似度(距離)を
り、・tとすると り、−t= (Xt−#、 )”−Σ−’ ・(Xt−
#、 )−(Xt−#、 )”−Σ−’−(xt−tt
t。)・・・式4同(重に音素2との距よIFをA2・
tとするとL −t=(X −ttt )T−Σ−1・
(xt−#2)2 t2 (Xt //−1゜) ・Σ ・(XI #6L
・一式5とする。これらの式の意味するところは、時間
tにおける未知入力と音素標準パターンとの)4′1似
度から周囲情報に対する1(i似1隻を減じたものを新
たに音素との類似IWとすることである。そして式4お
よび式5の計算をt、〜t2の期間を対象として行ない
、Ll・t 、 L、、・tのうち、この期間に最小と
なった方の音素を認識音素とする。
り、・tとすると り、−t= (Xt−#、 )”−Σ−’ ・(Xt−
#、 )−(Xt−#、 )”−Σ−’−(xt−tt
t。)・・・式4同(重に音素2との距よIFをA2・
tとするとL −t=(X −ttt )T−Σ−1・
(xt−#2)2 t2 (Xt //−1゜) ・Σ ・(XI #6L
・一式5とする。これらの式の意味するところは、時間
tにおける未知入力と音素標準パターンとの)4′1似
度から周囲情報に対する1(i似1隻を減じたものを新
たに音素との類似IWとすることである。そして式4お
よび式5の計算をt、〜t2の期間を対象として行ない
、Ll・t 、 L、、・tのうち、この期間に最小と
なった方の音素を認識音素とする。
実際には式41式6は次のように簡単な式に展開できる
(導出は略す)。
(導出は略す)。
L−t=A、・Xt−IB 、 式4L
−t=A2・Zt−IB2 式5A1.
A2. IB、、 IB2 が周囲情報を含んだ標
準パターンである。
−t=A2・Zt−IB2 式5A1.
A2. IB、、 IB2 が周囲情報を含んだ標
準パターンである。
上記の方法の意味を第4図によって概念的に説明する。
音素区間が第4図(a)に示す状況において、子音の判
別を行なう場合を考える。この子音の真の特徴部(斜線
部)に対し、特徴部(閃補区間Tが時間t、〜t2とし
て求められたものとする。(′b)は式3によって求め
た。音素1(実線)、音素2(斜線)に対する類似度の
時間的変動を示しだものである。
別を行なう場合を考える。この子音の真の特徴部(斜線
部)に対し、特徴部(閃補区間Tが時間t、〜t2とし
て求められたものとする。(′b)は式3によって求め
た。音素1(実線)、音素2(斜線)に対する類似度の
時間的変動を示しだものである。
A、B、Cは類似度が極小となる位置を示す。真の特徴
部(B点)においては音素1の方が音素2よりも小さく
、この子音は音素1として判別されるべきである。しか
るに、セグメンテーションパラメータによって自動的に
求めた特徴部候補区間内においては、音素2がA点にお
いて最小となるため、このままでは音素2に誤判別され
てしまう。
部(B点)においては音素1の方が音素2よりも小さく
、この子音は音素1として判別されるべきである。しか
るに、セグメンテーションパラメータによって自動的に
求めた特徴部候補区間内においては、音素2がA点にお
いて最小となるため、このままでは音素2に誤判別され
てしまう。
第6図(C)は未知入力の周囲情報の標準パターンとの
距離を示したものであり、真の特徴部付近で値が大きく
なる。これは、標準パターンが主に周辺の情報によって
作成されているだめである。第6図(d)は周囲情報を
含んだ音素標準パターンとの距離であり、申)から(C
)を減じたものと等価である。
距離を示したものであり、真の特徴部付近で値が大きく
なる。これは、標準パターンが主に周辺の情報によって
作成されているだめである。第6図(d)は周囲情報を
含んだ音素標準パターンとの距離であり、申)から(C
)を減じたものと等価である。
(d)ではA点よシもB点の値が小さくなっておシ。
この子音は正しく音素1として判別されることになる。
このように、本実施例の方法を用いることによって、セ
グメンテーションパラメータで求メタ大まかな特徴部挨
補区間から、正確に真の特徴部を自動的に抽出して音素
を判別することができる。
グメンテーションパラメータで求メタ大まかな特徴部挨
補区間から、正確に真の特徴部を自動的に抽出して音素
を判別することができる。
なお、上記においては式3を基本とするマハラノビス距
離で説明したが、その他の距離においても同様な方法が
使用できる。
離で説明したが、その他の距離においても同様な方法が
使用できる。
まだ、上記では子音によって説明したが、時間的に変動
する音素、たとえば半母音に対しても同様な方法が必用
できる。
する音素、たとえば半母音に対しても同様な方法が必用
できる。
このように、大分類によって代補数を絞り、細分頑には
自動的に抽出した特徴部を基本として時間的な動きを考
慮した統計的距離尺度で音素を判別する方法は、音素(
特に子音や半母音)の音声学的な性質を利用した合理的
な認識法である。
自動的に抽出した特徴部を基本として時間的な動きを考
慮した統計的距離尺度で音素を判別する方法は、音素(
特に子音や半母音)の音声学的な性質を利用した合理的
な認識法である。
本実施例によって、■〜■の方法でセグメンテーション
することが出来た全語頭子音(/p/。
することが出来た全語頭子音(/p/。
/l/、/に/、/c/、/b/、/d/、/g/。
/m/、/n/、/r/、/Z/、/S/、/11/)
を対象として、平均で約7o、3%の認識率を得だ。
を対象として、平均で約7o、3%の認識率を得だ。
データは男女計20名がそれぞれ発声した212単セツ
トを使用しており、十分な信頼性がある。
トを使用しており、十分な信頼性がある。
まだ従来法では子音群内での細分化が行われていないこ
とを考慮すれば、本発明による実施例の効果が大きいこ
とがわかる。
とを考慮すれば、本発明による実施例の効果が大きいこ
とがわかる。
発明の効果
以上要約すると、本発明は入力単語の語頭子音のセグメ
ンテーションを4つの方法を併用して行ない、これら4
つの方法のどの方法によってセグメンテーションされた
かによって語頭子音を無声子音群、有声子音群、パワー
変化に特徴がある子音群、持続時間の短かい子音群など
の複数個の音素群として認識し、次に前記音素区間中で
特徴部(音素の判別に有効な部分)を自動的に検出し、
前記特徴部に対して前に認識された音素群に属する個々
の音素の標準パターンとの類似度計算を行なって音素を
判別することを特徴とする語頭子音認識方法を提供する
もので、 40語頭子音の自動セグメンテーションを行って高い精
度で音素を認識することができる。
ンテーションを4つの方法を併用して行ない、これら4
つの方法のどの方法によってセグメンテーションされた
かによって語頭子音を無声子音群、有声子音群、パワー
変化に特徴がある子音群、持続時間の短かい子音群など
の複数個の音素群として認識し、次に前記音素区間中で
特徴部(音素の判別に有効な部分)を自動的に検出し、
前記特徴部に対して前に認識された音素群に属する個々
の音素の標準パターンとの類似度計算を行なって音素を
判別することを特徴とする語頭子音認識方法を提供する
もので、 40語頭子音の自動セグメンテーションを行って高い精
度で音素を認識することができる。
口、音素判別に対して有効な部分(特徴部)を自動的に
しかも正確に抽出し、マツチングを行なうことができる
。
しかも正確に抽出し、マツチングを行なうことができる
。
ハ、従来、判別が一’!’l Lいとされていた有声破
裂音群内、無声破裂音群内、録音群内の細分3’Rを自
動セグメンテー/ヨンと組合わせて行なうことができる
。
裂音群内、無声破裂音群内、録音群内の細分3’Rを自
動セグメンテー/ヨンと組合わせて行なうことができる
。
二、4つの語頭子音セグメンテーション法の結果を利用
して子音の大分類を行なうためにアlレゴリズムを簡単
にすることが出来る。
して子音の大分類を行なうためにアlレゴリズムを簡単
にすることが出来る。
等の利点がある。
第1図は従来の音声認識ンステムの機能ブロック図、第
2図は本発明の一実施例における語頭子音をパワー変化
によって検出する方法の説明図、第3図は同実施例の周
囲情報標準パターンの作成法を説明する図、第4図は同
実施例の特徴部の検出及び音素判別を行う方法を説明す
る図である。 1・・・・・・音凝分析部、2・・・・・特徴抽出部、
3・・・・・セグメンテーション部、4・・・・音素I
’ll 刷部、5・・・・標準パターン登録部、6・・
・・・単語認識部、7・・・・・単語辞書。 代理人の氏名 弁理士 中 尾 敏 男 はが1名第
1 図 入カ音、声 認う飯、幼釆 第2図 (a)
2図は本発明の一実施例における語頭子音をパワー変化
によって検出する方法の説明図、第3図は同実施例の周
囲情報標準パターンの作成法を説明する図、第4図は同
実施例の特徴部の検出及び音素判別を行う方法を説明す
る図である。 1・・・・・・音凝分析部、2・・・・・特徴抽出部、
3・・・・・セグメンテーション部、4・・・・音素I
’ll 刷部、5・・・・標準パターン登録部、6・・
・・・単語認識部、7・・・・・単語辞書。 代理人の氏名 弁理士 中 尾 敏 男 はが1名第
1 図 入カ音、声 認う飯、幼釆 第2図 (a)
Claims (3)
- (1)音声無声判定により語頭子音を検出する第1の方
法と、母音鼻音判定により語頭子音を検出する第2の方
法と、パワーの時間的変化を捕らえて語頭子音を検出す
る第3の方法と、ケプストラム距離により語頭子音を検
出する第4の方法とを任意の順序で適用して入力音声の
セグメンテーションを行うことにより語頭子音を無声子
音群、有声子音群、パワー変化に特徴がある子音群、持
続時間の短かい子音群の4つの音素区間として認識し、
前記音素区間中で特徴部(音素の判別に有効な部分)を
自動的に抽出し、前記特徴部に対して前に認識された音
素群に属する個々の音素の標準パターンとの類似度計算
を行なって音素を判別することを特徴とする音素認識方
法。 - (2)先ずセグメンテーション用パラメータを使って特
徴部の候補区間を決め、次にその候補区間に対して、音
素群の周囲情報を含む音素標準パターンを適用すること
によって、特徴部の抽出と音素の判別を行なうことを特
徴とする特許請求の範囲第1項記載の音素認識方法。 - (3)標準パターンの類似度計算を、統計的な距離尺度
を用い、音素の時間的な動きを含む標準パターンを使用
することを特徴とする特許請求の範囲第1項記載の音素
認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59174325A JPS6152700A (ja) | 1984-08-22 | 1984-08-22 | 音素認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59174325A JPS6152700A (ja) | 1984-08-22 | 1984-08-22 | 音素認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6152700A true JPS6152700A (ja) | 1986-03-15 |
| JPH0455520B2 JPH0455520B2 (ja) | 1992-09-03 |
Family
ID=15976664
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59174325A Granted JPS6152700A (ja) | 1984-08-22 | 1984-08-22 | 音素認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6152700A (ja) |
-
1984
- 1984-08-22 JP JP59174325A patent/JPS6152700A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0455520B2 (ja) | 1992-09-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5805771A (en) | Automatic language identification method and system | |
| Parris et al. | Language independent gender identification | |
| US8352263B2 (en) | Method for speech recognition on all languages and for inputing words using speech recognition | |
| Sharma et al. | Acoustic model adaptation using in-domain background models for dysarthric speech recognition | |
| Levitan et al. | Combining acoustic-prosodic, lexical, and phonotactic features for automatic deception detection | |
| Pruthi | Analysis, vocal-tract modeling and automatic detection of vowel nasalization | |
| Campbell et al. | Alzheimer's Dementia Detection from Audio and Language Modalities in Spontaneous Speech. | |
| JPH0250198A (ja) | 音声認識システム | |
| Bitar | Acoustic analysis and modeling of speech based on phonetic features | |
| JP3444108B2 (ja) | 音声認識装置 | |
| Glass et al. | Detection and recognition of nasal consonants in American English | |
| JPS6152700A (ja) | 音素認識方法 | |
| JPS58108590A (ja) | 音声認識装置 | |
| Bhattachajee et al. | An experimental analysis of speech features for tone speech recognition | |
| Sonmez et al. | Consonant discrimination in elicited and spontaneous speech: A case for signal-adaptive front ends in ASR | |
| Chang | Improving wordspotting performance with limited training data | |
| JPS6148897A (ja) | 音声認識装置 | |
| Hamzah et al. | Impact of acoustical voice activity detection on spontaneous filled pause classification | |
| JPS63236098A (ja) | ラベリングシステム | |
| Seman et al. | Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation | |
| JPH0682275B2 (ja) | 音声認識装置 | |
| KR100349656B1 (ko) | 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및그 방법 | |
| JP2744622B2 (ja) | 破裂子音識別方式 | |
| JPS6068393A (ja) | 音素判別方法 | |
| JP2760096B2 (ja) | 音声認識方式 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EXPY | Cancellation because of completion of term |