JPS6152700A

JPS6152700A - 音素認識方法

Info

Publication number: JPS6152700A
Application number: JP59174325A
Authority: JP
Inventors: 昌克星見; 二矢田　勝行
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1984-08-22
Filing date: 1984-08-22
Publication date: 1986-03-15
Also published as: JPH0455520B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音素認識を行うこ−とを特徴とする音声認識方
法における音素認識方法に関するものである。

従来例の構成とその問題点入力音声を音素ｊｌ′ｉ位に分けて音素の組合せとして
認識しく音素認識とよぶ）音素単位で表記された単記辞
書との類似度を求めて認識結果を出力する従来の単語認
識システムのブロック図を第１図に示す。

まず、あらかじめ多数話者の音声を１０ｍ５の分析区間
毎に音響分析部１によってフィルツクバンクを用いて分
析し、得られたスペクトル情報をもとに特徴抽出部２に
よって特徴パラメータを′：１りめる。この特徴パラメ
ータから／ａ、／、１０．／等の母音や、／ｍ／、／ｂ
／等の子音に代表される音素毎又は音素グループ毎に標
準パターンを作成して標？＋１１（パターン登録部５に
ｋＦＭし−Ｃおく。次に、入力された不特定話者の音声
を、同様に分析区間毎に音響分析部１によって分析し、
特徴抽出部２によって特？ｌｌパラメータを求める。こ
の特徴パラメータと標準パターン登録部らの標準パター
ンを用いてセグメンテーション部３において母音と子音
の区切り作業（以下セグメンテーションと呼ぶ）を行な
う。この結果をもとに、音素判別部４において、標７ｊ
ｆ５パターン登録部５の標ＩＩ／Ｌ、バクーンと照合す
ることによって、最も類似度の高い標準パターンに該当
する音素をその区間における音素と決定する。最後に、
この、結果作成した音素の時系列Ｃ以下音素系列と呼ぶ
）を単語認識部６に送シ、同様に音素系列で表現された
単語辞書７と最も類似度の大きい項目に該当する単語を
認識結果として出力する。

本構成において音素判別部４で音素の判別を行う場合、
従来では、子音区間と判定された区間についてフレーム
毎に音素の特徴を示す特徴バラメーりを求めあらかじめ
用意されている各１イ素または音素群の標準パターンと
比較してフレーム毎に子音分類を行なう。この結果を子
音分類ツリーに適用して条件の一致したものを認識され
た子音とする。

しかし、この場合語頭子音は明確な判定を行なわずに音
素群の判定にとどまっている。たとえば　　　　　−／
ｂ／、／ｄ／、／ｇ／を有声破裂音群としている。

有声破裂音？１Ｔ−の判別については、たとえば「日本
語有声破裂音の分析」細谷、藤崎２日本音響学会音声研
究会（Ｓ８０−６７）などで報告されて　　　　　　１
いる。しかし、これらの方法は分析時間、アルゴリズム
の複雑さのだめに、実際の単語認識システムに使用され
た例は報告されていない。

以上述べたように、従来の方法では、語頭子音について
は音素群の判別にとどまっており認識対象単語によって
は問題が生じる。まだ、音素群内での判別方法も報告さ
れているが、寸だ、分析時間、アルゴリズムの複雑さな
どの問題があり実際のシステムに使用されていない。

発明の目的本発明は、以上のような従来の問題点を解決するだめに
なされたもので、語頭子音の認識を分析時間、アルゴリ
ズムを考慮して実際のシステムで使用出来るようにした
音素認識方法を提供することを目１′白とする。

発明の構成本発明は上記目的を達成するもので、入力音声の、ｉ、
ｌｒ卵子高のセグメンテーションを、有声無声判定によ
る方法、母音病・音判定による方法、パワー変化による
方法、ケプストラム距離による方法の４つの方法を任意
に適用して行い、どの方法でセグメンテーションされた
かによって語頭子音を無声子音群、有声子音群、パワー
変化に特徴がある子音群、持続時間の短かい子音群など
の複数個の音素群として認識し、次に前記音素区間中で
特徴部（音素の判別に有効な部分）を自動的に検出し、
前記特徴部に対して前に認識された音素群に属する個々
の音素の標準パターンとの類似度計算を行なって音素を
判別することを特徴とする語頭子音認識方法を提供する
ものである。

実施例の説明本実施例の概要は、以下の通りである。

イ、４つのセグメンテーション法による結果を利用して
、語頭子音を無声子音群、有声子音群。

パワー変化に特徴がある子音群、持続時間の短かい子音
群の４つに大分類する。

口、多音素群ごとに特徴部を設定し、その特徴部に対し
て多音素の標準パターンを、あらかじめ作成しておく。

音素標準パターンは、目視によって正確に、ラベル付け
した多くのデータを使用して作成する。また、音素標準
パターンの他に、各音素群に対して、特徴部の周囲情報
の標阜ノ＜ターンを１種類作成しておく。

ハ、音素の判別入力音声の語頭子音セグメンテーションを行ない、子音
区間を求める。そして子音区間の一部（たとえば端点）
を基鵠点として設定する。

一方、この子音区間が上記イにおける大分類のうち、ど
の音素群に属するかを決定する。次に、この決定された
音素群に属する標弗パターンを音素区間における特徴部
に対して適用して音素の判別を行なう。ところで、特徴
部を自動的にしかも正確に求めることは一般には困・雌
であるだめ、次のようにする。すなわち上記の基仏点を
参照して、多少の幅を持って特徴部の１吹補区間を求め
ておき、１１芙袖区間の全範囲に対して周囲情報標準パ
ターンを適用して各盲素との類似度を計算する。各音素
との頚貝度計算に当っては、音素漂鴎パターンと未知人
力との類似度から、上記イに述べた音素群の周囲は報の
標準パターンとの類似度を除去する。このようにするこ
とによって、特徴部の候補区間のうち特徴部に相当しな
い部分（すなわち特徴部の周囲に相当する部分）の情報
を除去することができ、正確な特徴部をとらえて音素の
判別を行なうことができる。

以下、子音認識を例として、本発明の一実施例を図面を
参照しながら詳細に説明する。

本実施例は次に示す４つのセグメンテーション法の結果
を利用して語頭子音を（１）無声子音群、１２）有声子
音群、（３）パワー変化に特徴がある子音群。

（４）持続時間の短かい子音群の４つに大分類する。

■　フレーム毎ｃ本実施例では１フレームは１０ｍ　５
ｅｃ）の有声・無声判定による方法■　フレーム毎の母
音・鼻音判定による方法■　パワーの時間的変化をとら
える方法■　ケプストラム距離による方法 ■〜■までの方法を併用し、語頭子音が検出された時に
は、以後の方法を適用せず、検出結果に基づいてセグメ
ンテーションを行なう。以下に■〜■までの方法につい
て説明する。

最初に■の方法である有声・無声判定による方法につい
て述べる。

語頭の無声子音のセグメンテーションは、各フレーム毎
に行なう有声・無声判定結果を利用することによって、
正確に行なうことが出来る。

有声・無声判定の方法は零交差波、スペクトルの傾き、
第１次の自己相関係数の値等を利用する方法があるが、
どの方法を用いてもよい。本実施例では、有声・無声判
定の漂準パターンと比較することによって判定している
。

ここで、語頭からヌハ（声の判定があるフレーム数以上
連続する時Ｃ例えば４フレーム以−ヒ）この区間を子音
区間と判定する。この方法は、すべての無声子音に対し
て有効である。

次Ｋ、■の方法である母音・鼻音判定による方法につい
て説明する。

フレーム毎の音素認識は本実施例ではＬＰＧケプストラ
ム係数を用いて、あらかじめ用意しである各音素の標準
パターンとの比較によって行なう。

標Ｑ／ｉパターンとしては５［音（／ａ／、／ｉ／。

／ｕ／、／６／、１０／）、鼻音（／Ｎ／で表わす）と
無声子音（／Ｓ／で表わす）を用いた。このようにして
、各フレーム毎に類似度の最も大きい音素（第１侯補音
素）と２番目に類似度の大きい音素（第２候補音素）を
求める。フレーム毎の第１候補音素と第２侯補音素をそ
れぞれフレーム番号の順に並べた系列を第１侯補音素時
系列、第２侯補音素系列とする。上記音素系列を語頭か
ら順に見た時／Ｎ／が第１１１３Ｆｆｌｉまたは第２侯
補音素系列を含めであるフレーム数以上（例えば４フレ
一ム以上）連続した時この区間を子音区間であると判定
する。

この方法は、特に、１＞、音を中１しとする有声子音に
対して有効である。

次に、■の方法であるパワーの時間的変化による方法に
ついて説明する。

語頭が主に破裂性の子音で始する時、パワー値の時間的
変化をプロットすると第２図の（ａ）のようになる。こ
れは破裂性のだめにパワーが急激に立上がり、後続の母
音との渡りの部分において（ａ）のように凹状になるか
らである。

（ｂ）は（２Ｌ）のパワーの時間的変化の値を微分した
ものである。Ｐ、〜Ｐ３　　は（ａ）の変曲点のフレー
ム番号を示している。ここでは音声区間の始まるフレー
ム番号を１にしている。ここで、（ａ）　、　（ｂｌの
ようにｐ、　、　ｐ３の微分値が正、Ｐ２の微分値が負
、かつＰ５＜ｍ（ｍはフレーム番号を示すいき値）を満
足する時、語頭からＰ３までを語１ｊｆｉ子音区間とし
て判定する。

最後に、■の方法であるケプストラム距１４１Ｆによる
方法について説明する。

ケプストラム距１懺の使い方としては、ある基準フレー
ムのスペクトル・パターンと語頭カラ基飴フレームまで
の各フレームのスペクトル・パターンとを比較する方法
を用いる。

本実施例において、ヌベクト〜・パターンノ特徴を表わ
すパラメータとしてＬＰＧケプストラム係Ｑ　Ｃ，〜Ｃ
ｎ（ただし、ｎは正の整数）を用いる。スペクトルが安
定して現われる基飴フレームの選び方として、語頭から
ｍフレーム目（本実線側ではｍ＝７）と固定する。これ
は、比較的持続時間の長い子音（持続時間がｍフレーム
以上）は■〜■の方法で検出できるからである。

、Ｓる２フレ一ム間のスペクトル・パターンヲ比１ｍす
る方法として、式１を用いる。

式１においてＧ　ｔ　（１＞は語頭から１フレームロに
おける４番目のＬＰＧケプストラム係数を表わしている
。同様にＣｔ（ｊ）はｊフレーム目における１番目のＬ
ＰＧケプストラム係数を表わしている。

ｆ（ｉ、コ）カ大キいほど２つのフレームのスペクトル
・パターンが異なっていることになる。

この式１を用いて基準フレームと語頭から基飴フレーム
までの各フレームとのｆ（ｉ、ｍ）（ただし１≦ｉ≦ｍ
−１）を計算し、最大値を’　ｍａｘとする。このｆ１
１１２Ｌｘの値があるいき値より大きいか小さいかによ
って語頭子音の有力（（を判定する。

この方法で検出された場合、語頭子音区間としてはｆ（
ｉ、ｍ）の値の変化が一番大きいフレームまでを子音区
間とする。この方法は、持続時間の短かい子音を検出す
るのに有効である。

以上説明した■〜■〕ｔでの方法によって語ソエ１子音
のセグメンテーションを行ない■の方法で検出された子
音を無声子音群（／Ｚ／、／ｈ／、／Ｓ／。

／ｃ／、／ｐ／、／ｌ／、／に／）■の方法によって検
出された子音を有声子音群（／ｍ／、／ｎ／。

／ｂ／、／ｄ／、／ｇ／、／ｒ／、／ｚ／）■の方法で
検出された子音をパワー変化に特徴がある子音群（／ｂ
／　／ｄ／、／ｇ／、／ｚ／、／ｐ／、／ｌ／。

／に／）■の方法で検出された子音を持続時間の短かい
子音群（／ｍ／、／ｎ／、／ｂ／、／ｄ／。

／ｇ／、／ｒ／、／ｚ／、／ｈ／、／ｐ／、／ｌ／。

／に／）というような４つの子音群に大分類を行なう。

　　　　　　　　　　　　　　　　　　゛　１このよう
にして大分類によって候袖を絞った後、各子音群内で細
分類を行なう。細分類の方法としては、音素標準パター
ンとの類似度を求め、各音素に対する類似度を比較する
ことによって子音を判別する。

無声破裂音、有声破裂音は破裂点から後続母音へ遷移す
る部分に特徴がある。したがって無声破裂音群内または
イＪ声破裂γ冒ｔＦ内で細分類を行なうには破裂点付近
の時間的な動きを考慮した類似度計算を行なうことが必
要である。鼻音は母音へのわたりの部分に特徴があり、
この部分の時間的動きを考慮した類似度計算が必要であ
る。原音／ｒ／は区間全体のスベクｌ−／し変化と持続
時間に特徴がある。／Ｚ／はバズ部とそれに続く摩擦部
を有することに特徴がある。

このように各子音群によって特徴部には差異があるが、
特徴点を基準としだ時間的な動きが重要な情報であるこ
とは共通している。特徴点を自動検出する方法としては
、無声子音群は音素の始端である語頭フレーム、有声子
音群はＩＡ音判定から母音判定へ変わるフＶ−ム、パワ
ー変化に特徴がある子音群はパワーの立上りフレーム、
持続時間の短かい子音群は音素の終端とする。しかし、
正確に特徴フレームを自動検出することは容易ではない
。そこで、自動検出の誤差による誤認識を減少させるだ
めに自動検出した特徴フレームの前後数フレームにわた
って類似度を計算し、類似度が最大となるフレームの値
をその音素に対する類似度とする。

次にバ１似度の計〕、′Ｊに関しては、下゛記式２また
は式３ベイズ判定に基づく距離： Σ　・（Ｋ−ｔｔ、））・・・式２マハラノビス距離：Ｌｉ＝（Ｋ−μよ）Ｔ・Σ−１・（Ｘ−μ、）　・・・
・・・式３を使用して、時間的な動きを考慮した類似度
を計算する。すなわち、類似度計算に使用するデータと
して単一フレームの特徴パラメータでなく、複数フレー
ム（いま召フレームとする）の特徴パラメータを使用す
る。式１まだは式２で入力特徴パラメータ＋１１　　　＋１１　　　Ｆｉｔ　　（２）　　（２１
＋２１　　　　の　（ト）　　　ωに＝（、：Ｃ１，ｊ
ｃ２　＝・ｌ−６、ｚ、　、　Ｚ２．、、　ｊｃ６−、
　ｊｃ、　、　ｊｃ２、−１ｄ）標（１，ヘパターンの
平均値のようにｄｘ１次尤のデータを用いる。共分散行列Σも
同様にｄＸ４次元とする（複雑になるので記さない）。

このように複数フレームのデータを用いることによって
、パラメータが持つスペクトルの特徴とその時間的な変
動の特徴を同時に音素標準パターンと比１咬することが
できる。

次に標準パターンの作成法を述べる。標準パターンは目
視罠よって音声中から正確に切出した多くのデータを使
用して作成する。

音素標準パターンは、同一音素の多くのターンに対し、
特徴部に相当するβフレームのデータを切り出してｄＸ
ｆｉ次元の特徴ベクトルを求め、多くのデータの平均値
と共分散行列を求めることによって音素ごとに作成して
おく。

周囲情報の標準パターンは音素群ごとに１種類ずつ作成
する。これは音素群内においては、周囲情報が各音素に
対して共通していることによる。

周囲情報の標準パターンは、このようにその音素群に対
して普遍的な周囲の情報を標準パターン化したものであ
る。第３図にその作成方法を示す。

特徴部（図の斜線部）の近傍に対し、特徴部に比較して
時間的に十分長い区間を周囲情報区間りとして設定する
。この区間に対し、図に示すように、βフレームの特徴
パラメータ（ｄｘ４次元）を１フレームずつシフトさせ
ながら全区間にわたって取シ出す。このような手続を同
−音素群に属する多くのデータに対して適用し、平均１
直ベクトルと共分散行列を求め、これを周囲情報の標準
パターンとする。このように周囲情報の標準パターンに
は特徴部のデータも含まれているが、それよりも特徴部
の近傍のデータの比重が格段に大きいものになっている
。

次に、上記の方法で作成した標ｆＩ／−パターンを使用
して、大分類されたデータを細分類する具体的な方法を
述べる。

なお、今後の説明では簡単のために式２の距離尺度を使
用し、１つの音素群が２音素（音素１．音素２）で構成
される場合を取りあげる。音素数が増しても考え方は同
様である。

特徴部は前に述べた方法で特徴フレー１−を検出し、そ
のフレームを基準にして大まかな侯補区間を求める。こ
の区間を時間的にｔ、〜ｔ２とする。

いま時間ｔにおける未知人力ペクト／Ｉ／（細分類され
るべきデータ）をＸ　　（ｔ＝ｔ　　−ｔ２）音素１の標準パターン（平均値）を／／１１音素２の漂
亭パターン（平均値）を広。

周囲情報の標準パターン（平均値）を＃８とし、音素１
．音素２および周囲情報の全てに共通な共分散行列をΣ
とする。Σは各々の共分散行列を平均することによって
作成する。

時間ｔにおける未知入力の音素１との類似度（距離）を
り、・ｔとするとり、−ｔ＝　（Ｘｔ−＃、　）”−Σ−’　・（Ｘｔ−
＃、　）−（Ｘｔ−＃、　）”−Σ−’−（ｘｔ−ｔｔ
ｔ。）・・・式４同（重に音素２との距よＩＦをＡ２・
ｔとするとＬ　−ｔ＝（Ｘ　−ｔｔｔ　）Ｔ−Σ−１・
（ｘｔ−＃２）２　　　　　　　　ｔ２（Ｘｔ　／／−１゜）　　・Σ　・（ＸＩ　　　＃６Ｌ
・一式５とする。これらの式の意味するところは、時間
ｔにおける未知入力と音素標準パターンとの）４′１似
度から周囲情報に対する１（ｉ似１隻を減じたものを新
たに音素との類似ＩＷとすることである。そして式４お
よび式５の計算をｔ、〜ｔ２の期間を対象として行ない
、Ｌｌ・ｔ　、　Ｌ、、・ｔのうち、この期間に最小と
なった方の音素を認識音素とする。

実際には式４１式６は次のように簡単な式に展開できる
（導出は略す）。

Ｌ−ｔ＝Ａ、・Ｘｔ−ＩＢ　、　　　　　　　　式４Ｌ
−ｔ＝Ａ２・Ｚｔ−ＩＢ２　　　　　　　　式５Ａ１．
　Ａ２．　ＩＢ、、　ＩＢ２　　が周囲情報を含んだ標
準パターンである。

上記の方法の意味を第４図によって概念的に説明する。

音素区間が第４図（ａ）に示す状況において、子音の判
別を行なう場合を考える。この子音の真の特徴部（斜線
部）に対し、特徴部（閃補区間Ｔが時間ｔ、〜ｔ２とし
て求められたものとする。（′ｂ）は式３によって求め
た。音素１（実線）、音素２（斜線）に対する類似度の
時間的変動を示しだものである。

Ａ、Ｂ、Ｃは類似度が極小となる位置を示す。真の特徴
部（Ｂ点）においては音素１の方が音素２よりも小さく
、この子音は音素１として判別されるべきである。しか
るに、セグメンテーションパラメータによって自動的に
求めた特徴部候補区間内においては、音素２がＡ点にお
いて最小となるため、このままでは音素２に誤判別され
てしまう。

第６図（Ｃ）は未知入力の周囲情報の標準パターンとの
距離を示したものであり、真の特徴部付近で値が大きく
なる。これは、標準パターンが主に周辺の情報によって
作成されているだめである。第６図（ｄ）は周囲情報を
含んだ音素標準パターンとの距離であり、申）から（Ｃ
）を減じたものと等価である。

（ｄ）ではＡ点よシもＢ点の値が小さくなっておシ。

この子音は正しく音素１として判別されることになる。

このように、本実施例の方法を用いることによって、セ
グメンテーションパラメータで求メタ大まかな特徴部挨
補区間から、正確に真の特徴部を自動的に抽出して音素
を判別することができる。

なお、上記においては式３を基本とするマハラノビス距
離で説明したが、その他の距離においても同様な方法が
使用できる。

まだ、上記では子音によって説明したが、時間的に変動
する音素、たとえば半母音に対しても同様な方法が必用
できる。

このように、大分類によって代補数を絞り、細分頑には
自動的に抽出した特徴部を基本として時間的な動きを考
慮した統計的距離尺度で音素を判別する方法は、音素（
特に子音や半母音）の音声学的な性質を利用した合理的
な認識法である。

本実施例によって、■〜■の方法でセグメンテーション
することが出来た全語頭子音（／ｐ／。

／ｌ／、／に／、／ｃ／、／ｂ／、／ｄ／、／ｇ／。

／ｍ／、／ｎ／、／ｒ／、／Ｚ／、／Ｓ／、／１１／）
を対象として、平均で約７ｏ、３％の認識率を得だ。

データは男女計２０名がそれぞれ発声した２１２単セツ
トを使用しており、十分な信頼性がある。

まだ従来法では子音群内での細分化が行われていないこ
とを考慮すれば、本発明による実施例の効果が大きいこ
とがわかる。

発明の効果以上要約すると、本発明は入力単語の語頭子音のセグメ
ンテーションを４つの方法を併用して行ない、これら４
つの方法のどの方法によってセグメンテーションされた
かによって語頭子音を無声子音群、有声子音群、パワー
変化に特徴がある子音群、持続時間の短かい子音群など
の複数個の音素群として認識し、次に前記音素区間中で
特徴部（音素の判別に有効な部分）を自動的に検出し、
前記特徴部に対して前に認識された音素群に属する個々
の音素の標準パターンとの類似度計算を行なって音素を
判別することを特徴とする語頭子音認識方法を提供する
もので、４０語頭子音の自動セグメンテーションを行って高い精
度で音素を認識することができる。

口、音素判別に対して有効な部分（特徴部）を自動的に
しかも正確に抽出し、マツチングを行なうことができる
。

ハ、従来、判別が一’！’ｌ　Ｌいとされていた有声破
裂音群内、無声破裂音群内、録音群内の細分３’Ｒを自
動セグメンテー／ヨンと組合わせて行なうことができる
。

二、４つの語頭子音セグメンテーション法の結果を利用
して子音の大分類を行なうためにアｌレゴリズムを簡単
にすることが出来る。

等の利点がある。

【図面の簡単な説明】

第１図は従来の音声認識ンステムの機能ブロック図、第
２図は本発明の一実施例における語頭子音をパワー変化
によって検出する方法の説明図、第３図は同実施例の周
囲情報標準パターンの作成法を説明する図、第４図は同
実施例の特徴部の検出及び音素判別を行う方法を説明す
る図である。１・・・・・・音凝分析部、２・・・・・特徴抽出部、
３・・・・・セグメンテーション部、４・・・・音素Ｉ
’ｌｌ　刷部、５・・・・標準パターン登録部、６・・
・・・単語認識部、７・・・・・単語辞書。代理人の氏名　弁理士　中　尾　敏　男　はが１名第　
１　図入カ音、声認う飯、幼釆第２図（ａ）

Claims

【特許請求の範囲】

（１）音声無声判定により語頭子音を検出する第１の方
法と、母音鼻音判定により語頭子音を検出する第２の方
法と、パワーの時間的変化を捕らえて語頭子音を検出す
る第３の方法と、ケプストラム距離により語頭子音を検
出する第４の方法とを任意の順序で適用して入力音声の
セグメンテーションを行うことにより語頭子音を無声子
音群、有声子音群、パワー変化に特徴がある子音群、持
続時間の短かい子音群の４つの音素区間として認識し、
前記音素区間中で特徴部（音素の判別に有効な部分）を
自動的に抽出し、前記特徴部に対して前に認識された音
素群に属する個々の音素の標準パターンとの類似度計算
を行なって音素を判別することを特徴とする音素認識方
法。
（２）先ずセグメンテーション用パラメータを使って特
徴部の候補区間を決め、次にその候補区間に対して、音
素群の周囲情報を含む音素標準パターンを適用すること
によって、特徴部の抽出と音素の判別を行なうことを特
徴とする特許請求の範囲第１項記載の音素認識方法。
（３）標準パターンの類似度計算を、統計的な距離尺度
を用い、音素の時間的な動きを含む標準パターンを使用
することを特徴とする特許請求の範囲第１項記載の音素
認識方法。