JPH01260499A

JPH01260499A - 子音認識法

Info

Publication number: JPH01260499A
Application number: JP63089829A
Authority: JP
Inventors: Masakatsu Hoshimi; 昌克星見; Katsuyuki Futayada; 二矢田　勝行
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1988-04-12
Filing date: 1988-04-12
Publication date: 1989-10-17

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音素認識を行なうことを特徴とする音素認識方
法における子音の認識法に関するものである。

従来の技術最近、子音の認識法は音声認識の分野で盛んに利用され
るようになってきた。この子音認識法は、例、ｔ、ば「
音声スペクトルの概略形とその動特性を利用した単語音
声認識システム」（日本音響学会誌３４巻３号１９７Ｂ
　）に記載されている構成が知られている。

以下、第１３図及び第１４図を参照して従来の子音認識
法について説明する。

まず最初に入力音声を音素単位に分けて音素の１組合わ
せとして認識しく音素認識と呼ぶ）音素単位で表記され
た単語辞書との類似度を求めて認識結果を出力する従来
の単語認識装置の機能ブロック図を第１３図に示す。ま
ず、あらかじめ多数話者の音声を１フレーム（１フレー
ムは１０ｒｎｓ・Ｃとする）毎に音響分析部１によって
フィルタ・バンクを用いて分析し、得られたスペクトル
情報をもとに特徴抽出部２によって特徴パラメータを求
める。この特徴パラメータから５母音や子音の音素グル
ープ毎に標準パターンを作成して標準パターン登録部３
に登録しておく。実際に認識を行なう場合においては、
特徴抽出部２によって求められた特徴パラメータを用い
てセグメンテーション部４において子音のセグメンテー
ションを行なう。

この結果をもとに、音素判別部５において、標準パター
ン登錬部３の標準パターンと照合することによって音素
を決定する。最後に、この結果作成した音素の時系列を
単語認識部６に送り、同様に音素の時系列で表現された
単語辞書７と最も類似度の大きい項目に該当する単語を
認識結果として出力する。

ここで、セグメンテーションは第１４図のように全域パ
ワーの時間的変化８の形が凹状の形をしている時（これ
をデイツプと呼ぶ）、パワーが極小値を示すフレームを
０１　とし、ｎｌ　の前後のフレームでパワーの時間に
よる変化速度９（これをパワーの差分値と呼ぶ）が負お
よび正の極大値を示すフレームをｎ２．ｎ３とする。ま
た、あるフレームｎにおける差分値をＷＤ（ｎ）とする
と、ｗｏ　　（ｎ　　　　）、　　ｗｏ（ｎ　　３　）
がノＷ　Ｄ　（ｎ　２　）≦θＷＷ　Ｄ　（ｎ　３　）≦θＷの条件を満足する時、ｎ２〜ｎ３までの区間を子音区間
とする。ここで、Ｏｗは子音の付加を防ぐためのいき値
である。

つぎに、この子音区間に対してフレーム毎に音素の特徴
を示す特徴パラメータを求め、あらかし用意されている
各音素の標準パターンと比較してフレーム毎に子音分類
を行なう。この結果を子音分類ツリーに適用して、条件
の一致したものに子音を分類する。

発明が解決しようとする課題しかし、以上のような構成では、最初にパワーディップ
を用いて語中子音のセグメンテーションを行ない、つぎ
にフレーム毎に子音分類を行なう。

そして、最後にフレーム毎の子音分類の結果を子音分類
ツリーにあてはめて、条件の一致したものに子音を分類
するために非常にアルゴリズムも複雑で手間のかかると
いう課題があった。また、パワー情報として全域パワー
だけを使用しているために子音のセグメンテーション精
度も悪いという課題もあった。

本発明は従来技術の以上のような課題を解決するもので
、入力音声の子音の大分類と認識をきわめて簡単に精度
良く行なうことを目的とするものである。

課題を解決するための手段本発明は、入力音声スペクトルの低域パワーと高域パワ
ーのデイツプの大きさを後続母音別の判別図に適用し４
つの子音群といくつかの中間領域に分類することによっ
て上記目的を達成するものである。

作　　用本発明は上記構成により、低域パワーと高域パワーのデ
イツプの大きさを後続母音別の判別図に適用することに
よって、子音の大分類が簡単に精度良く行なえ、しかも
認識率を向上させることができる。

実施例以下、図面を参照しながら本発明の実施例について説明
する。

本実施例では、音素／ｐ／、／ｌ／、／に／、／ｃ／。

／ｂ／、／ｄ／、／ｍ／、／ｎ／、／ｓ／、／ｈ／を無
音破裂音（／ｐ／、／ｌ／、／に／、／ｃ／）、有音破
裂音（／ｂ／。

／ｄ／’ｔ、鼻音（／ｒｎ／　、　／ｎ／　）　、無声
摩擦音（／、／。

／ｈ／）の４つの音素群と、各音素群の境界付近は中間
領域として子音を大分類認識する場合の例を説明する。

以下、図面を参照しながら本発明の実施例について説明
する。

第１図は本発明の一実施例における子音認識法を具現化
する機能ブロック図である。第１図において、１０はパ
ワーディップ検出部、１１はパワーディップの大きさ抽
出部で、パワーディップ検出部１０により検出されたデ
イツプの大きさを求める。１２はフレーム毎の母音認識
部で、パワーディップ検出部１０により検出されたデイ
ツプの終端からフレーム毎に母音認識を行なう。１３は
後続母音認識部で、フレーム毎の母音認識部１２により
得られたフレーム毎の母音認識結果から後続母音の認識
を行なう。１４は判別図選択部で、後続母音認識部１３
で認識した後続母音用の判別図を後続母音別判別図格納
部１５から選択する。

１６は大分類判定部で、判別図選択部１４で選択された
判別図を用いて子音の大分類の判定を行なう。標準パタ
ーン選択部１７では、大分類判定部１６の大分類の結果
から必要な標準パターンを標準パターン格納部１８から
取り出して子音認識部１９で標準パターンとマツチング
を行ない子音の認識を行なう。

以上のような構成において、以下その動作を説明する。

本発明では、特徴パラメータとして低域パワー・高域パ
ワーを使用する。有声子音は高域パワーに、無声子音は
低域パワーにパワーディップが現われやすい。

したがって、低域・高域パワーを併用することによりす
べての子音に対応出来るようになる。また、パワーディ
ップの大きさは後続母音の影響をを受けるので、後続母
音別に判別図を作成すると精度が向上する。

次に具体的に説明をすると、まず最初に低域パワーと高
域パワーからパワーディップを検出しデイツプの大きさ
を求める。このパワーディップの大きさの求め方を第２
図（ａ）、　（ｂ）で説明する。図において高域パワー
の時間的変化速度２１が正の極大値になるフレームをｎ
ｌ　％低域パワーの時間的変化速度２３が正の極大値に
なるフレームをｎ２とする。この各フレームにおける変
化速度の大きさをＷＤ　（ｎ　１）　、ＷＤ　（ｎ　２
　）とする。低域パワーディップの大きさＰＬと高域パ
ワーディップの大きさＰＨをＰＨ＝　ＷＤ　（ｎｌ　）ＰＬ＝ＷＤ（ｎ２）のように定義をする。

このデイツプの大きさを用いて、無声破裂音（／ｐ／、
／ｌ／、／に／、／ｃ／）、有声破裂音（／ｂ／。

／ｄ／）、鼻音Ｃ／ｍ／、／、／＞、無声摩擦音Ｃ／ｍ
／。

／ｈ／）の場合のＰＬとＰＨの分布を調べると第３図〜
第６図のようになる。図において横軸がＰＬ縦軸がＰＨ
で図中の数字は音素の出現個数を表わしている。図から
明らかなように破裂性を示す音素はＰＬ、ＰＨともに大
きく、とくに無声破裂音はＰＬが大きく、有声破裂音は
ＰＨが大きい。また、破裂性を示さない音素はＰＬ、Ｐ
Ｈとも小さいが、有声子音か無声子音かによって第５図
、第６図のように分かれる。

したがって、低域と高域のパワーディップの大きさを使
用することによって子音の大分類を行なうことが出来る
。各音素群に対して、ＰＬ　−ＰＨをパラメータとして
分散共分散、平均値からなる標準パターンを作成し、あ
らかじめ各入力に対して最も類似度の高い音素群に判別
を行なう判別図を作成する。この判別図を用いて子音を
４つの音素群に大分類をすると判別図の境界付近で誤分
類ができる。この例の場合（／ｐ／、／ｉ／、／に／、
／ｃ／）が（／ｂ／、／ｄ／）に約７％、（／ｂ／、／
４／）が（、’ｐ／、／ｌ／、／に／、／ｃ／）　　に
約８．３％程度誤まって分類される。このままでは、判
別図で大分類を誤まると誤まった音素群で標準パターン
とマツチングを行なうので正しく認識が出来なくなる。

そこで、音素群の境界付近に中間領域を設定し、この中
間領域に分類された子音は隣接する音素群の両方の標準
パターンとマツチングを行ない子音の認識を行なうこと
によって認識率を向上させる。

第７図に判別図の例を示す。図において横軸が低域、縦
軸が高域パワーディップの大きさである。

実線で４つの領域に区切ったのが中間減額のない場合の
判別境界である。点線で囲んだＩ−４の領域が中間領域
である。子音区間のパワーディップの大きさがこの中間
領域に入った場合は、隣接する音素群の音素標準パター
ンとマツチングを行なう。中間領域Ｉは（／ｐ／、／ｌ
／、／に／、／ｃ／、／ｂ／。

／ｄ／）、１は（／ｐ／　、／ｌ／　、／に／　、／ｃ
／　、／ｓ／　。

／ｈ／）　、　Ｉｔは（／ｂ／、／ｄ／、／、／、／ｈ
／）、　ＩＶは（／ｂ／、／ｃ＋／、／ｍ／、／ｎ／）
　　、Ｖ　　は　（／ｍ／、／、／。

／３／、／ｈ／）の音素標準パターンとマツチングを行
なう。中間領域以外の４つの音素群ｌζ対しては、それ
ぞれの音素群の標準パターンとマツチングを行なう。

また、後続母音別にパワーディップの大きさを調べてみ
ると同じ子音でもデイツプの大きさが違うことがわかる
。そこで、子音セグメンテーション精度を向上させるた
めに後続母音情報を利用し、後続母音別に子音の大分類
を行なう。例として音素／　ｒ　／の場合の後続母音別
のパワーの時間的変化パターンを第８図〜第１２図に示
す。第８図は／、ａ／、第９図は／ｒｌ／、第１０図は
／、ｕ／、　　第１１図は／、６／、第１２図は／「０
／の場合を示す。

図において横軸が時間、縦軸がパワーの大きさ、実線が
パワーの時間的変化、点線がパワーの時間的変化速度、
ＰＬが低域パワー、ＰＨが高域パワーの動きを示す。ま
た第３図から順に後続母音が／ａ／、／Ｉ／、／、／、
／、ｓ／、１０／になっている。デイツプの大きさを後
続母音別に見ると、／Ｕ／。

１０／（第１０図、第１２図）の時の高域パワーディッ
プの大きさが他の後続母音（／ａ／、／Ｉ／。

／ｅ／）よりも小さいことがわかる。これは、母音によ
ってパワーが少しずつ違うために子音から母音へのパワ
ーの時間的変化速度に差が出てくるためである。／「／
以外の子音についても同様にパワーの時間的変化を調べ
てみると、後続母音によってパワーディップの大きさが
違うことがわかる。

したがって、低域と高域のパワーディップの大きさを使
用し後続母音別に子音の大分類を行なえば精度が向上す
る。後続母音の認識は、入力音声データと、あらかじめ
多くのデータから作成した５母音の標準パターンとの類
似度計算によりフレームごとに認識している。第２図（
０）にフレーム毎の第１位と２位の母音認識結果を示す
。簡単に後続母音を判定するために、例えば子音区間候
補の後５フレームにおける母音認識結果を使用し、第１
位に認識された場合２点、第２位で認識された場合１点
として、５フレームの中で各母音別に集計し最も点数の
高い音素を認識結果とする。（第２図では／ｅ／が最も
点数が高い）以上述べた方法により、特徴パラメータである低域パワ
ーと高域パワーディップの大きさを、あらかじめ多くの
音声データからサンプルを求め４つの各音素群に判別す
る判別図を作成する。この判別図の各音素群の境界に中
間領域を設定し、この中間領域に入った場合には、隣接
する両方の音素群の標準パターンとマツチングを行ない
子音の認識を行なう。またフレーム毎の母音認識結果か
ら後続母音の判定を行ない、その母音用の判別図を適用
する。

発明の効果以上のように本発明は低域パワーディップと高域パワー
ディップの大きさを判別図に適用し４つの音素群と中間
領域に分類し、認識の対象となる音素標準パターンとマ
ツチングすることにより精度良く子音の認識を行なうこ
とが出来る。これは、パラメータとして低域パワーと高
域パワーを併用しているので、高域パワーにパワーディ
ップのあられれやすい有声子音と低減パワーにパワーデ
ィップのあられれやすい無声子音の両方に対して有効に
作用しているためである。判別図の中に中間領域を設定
しこの領域に判別された子音については隣接する音素群
の両方の音素標準パターンと認識することによって、判
別図の境界付近で誤まって分類される子音の認識率を向
上させることができるようになった。また、後続母音別
に判別図を作成しているのでより精度の高い判別図の作
成ができる。以上述べたように、本発明の方法を用いる
ことにより子音の認識を精度良く行なえるようになり、
その効果も大きい。

【図面の簡単な説明】

第１図は、本発明の一実施例における子音認識法を具現
化する機能のブロック図、第２図は、本実施例のパワー
ディップの説明図、第３図〜第７図は本実施例における
無声破裂音・有声破裂音・鼻音・無声摩擦音のパワーデ
ィップの分布図、第８図〜第１２図は、本実施例におけ
る／ｒ　ａ／　、　／ｒ　＋／。／、ｕ／、／、ｅ／、／ｒｏ／とそれぞれ語中で発声し
たパワーの時間的変化と変化速度を示した図、第１３図
は従来の単語認識システムのブロック図、第１４図は従
来の子音セグメンテーション法の説明図である。１０・・・・・・パワーディップ検出部、１１・・・・
・・パワーディップの大きさ抽出部、１２・・・・・・
フレーム毎の母音認識部、１３・・・・・・後続母音認
識部、１４・・・・・・判別図選択部、１５・・・・・
・後続母音側判別図格納部、１６・・・・・・大分類判
定部、１７・・・・・・標準パターン選択部、１８・・
・・・・標準パターン格納部、１９・・・・・・子音認
識部。代理人の氏名　弁理士　中　尾　敏　男　ほか１名第１
図第７図ＰＬ→ 第８図第９１ｍ第１０図第１１０第１２図

Claims

【特許請求の範囲】

（１）音素認識を行なうことを特徴とする音声認識方法
において、音声スペクトルの低域パワーと高域パワーを
求めそれぞれの時間的変化によって生じるパワーディッ
プの大きさを抽出し、これらを後続母音別にあらかじめ
作成してある判別図に適用することによって子音をいく
つかの子音群と中間領域に分類し、子音群に対しては各
子音群の音素標準パターンとマッチングを行ない、中間
領域に対しては隣接する子音群の両方の音素標準パター
ンとマッチングを行なうことを特徴とする子音認識法。
（２）パワーディップの大きさとして、パワーが子音か
ら後続母音へと変化する時の時間的変化速度の大きさを
パワーディップの大きさとして抽出することを特徴とす
る請求項１記載の子音認識法。
（３）判別図の作成方法としては、あらかじめ多くのデ
ータに基づき各子音群に現われたパワーディップの大き
さから分布を求め、あらかじめ予想される入力データす
べてに対して判別結果を判別図として表現して使用する
ことを特徴とする請求項１記載の子音認識法。
（４）判別図の境界付近には中間領域を設定し判別図に
よる誤まりを減少させることを特徴とする請求項１記載
の子音認識法。