JPS61177497A

JPS61177497A - 子音のセグメンテ−シヨン法

Info

Publication number: JPS61177497A
Application number: JP60019464A
Authority: JP
Inventors: 昌克星見; 二矢田　勝行
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1985-02-04
Filing date: 1985-02-04
Publication date: 1986-08-09

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音素認識を行なうことを特徴とする音素認識方
法における子音のセグメンテーション法に関するもので
ある。

従来の技術最近、子音のセグメンテーション法は音声認識の分野で
盛んに利用されるようになってきた。この子音セグメン
テーション法は例えば「音声スペクトルの概略形とその
動特性を利用した単語音声認識システム」（日本音響学
会誌３４巻、３号。

１９７ｇ）Ｋ記載されている構成が知られている。

以下、第２図及び第３図を参照して従来の子音セグメン
テーション法について説明する。

まず最初に、入力音声を音素単位に分けて音素の組合せ
として認識しく音素認識と呼ぶ）音素単位で表記された
単語辞書との類似度を求めて認識結果を出力する従来の
単語認識システムのブロック図を第２図に示す。まず、
あらかじめ多数話者の音声を１フレーム（１フレームは
１０　！１１１６０とする）毎に音響分析部１によって
フィルタ・バンクを用いて分析し、得られたスペクトル
情報をもとに特徴抽出部２によって特徴パラメータを求
める。

この特徴パラメータから６母音や子音の音素グループ毎
に標準パターンを作成して標準パターン登録部３に登録
しておく。次に、入力音声に対し特徴抽出部２によって
求められた特徴パラメータを用いてセグメンテーション
部４においてセグメンテーションを行なう。この結果を
もとに、音素判別部５において、標準パターン登録部３
の標準パターンと照合することによって、音素を決定す
る。

最後に、この結果作成した音素の時系列を単語認識部６
に送シ、同様に音素の時系列で表現された単語辞書７と
最も類似度の大きい項目に該当する単語を認識結果とし
て出力する。

ここで、セグメンテーションは次のようにして行ってい
た。すなわち第３図のように全域パワーの時間的変化の
形８が凹状の形をしている時（これをディップと呼ぶ）
、パワーが極小値を示すフレームをｎｌとし、ｎ、の前
後のフレームでパワーの時間による変化速度（これをパ
ワーの差分値と呼ぶ）９が負および正の極大値を示すフ
レームラｎ２．ｎ３とする。そこで、あるフレームｎに
おける差分値をｗＤ（ｎ）　　とすると、ＷＤ（ｎ２）
。

ＷＤ　（ｎ３）がＷＤ（ｎ２）≦　−θ１ＷＤ（ｎ、）≦　　θＷの条件を満足する時、ｎ２〜ｎ３　　までの区間を子音
区間とすることによシセグメンテーシコンヲ行う。ここ
で０１は子音の付加を防ぐためのいき値である。

発明が解決しようとする問題点しかし１以上のような構成では母音区間を誤って子音区
間としてセグメンテーションする付加や子音区間である
のにかかわらずセグメンテーション出来ない脱落の割合
が多くなシ精度良く子音のセグメンテーションが出来な
いという問題を有していた。

本発明は上記問題を解決するもので子音セグメンテーシ
ョン精度を向上させるものである。

問題点を解決するための手段本発明は、入力音声スペクトルのパワーとスさり）Ａ／
の定常性パラメータを併用して子音セグメンテーション
を行うことによシ、上記目的を達成するものである。

作用本発明は上記のように、セグメンテーションを行うに際
し、パワーディップに加え、定常性パラメータをも併用
して使用するために、子音の付加。

脱落の少ないセグメンテーションを行えるようにしたも
のである。

実施例第１図は本発明の一実施例における子音セグメンテーシ
ョン法の説明図である。第１図（＆）において１０はパ
ワーの時間的変化、１１はパワーの時間的変化速度、第
１図（ｂ）において１２は定常性パラメータの時間的変
化、１３は定常性パラメータの時間的変化速度を示して
いる。

上記図を用いて、以下その動作について説明する。

入力音声の子音区部において、１０のようにパワーの時
間的変化の形が凹状（これをディップと呼ぶ）になって
いる。このディップの区間においてパワーの時間的変化
速度１１が極小と極大になるフ“レーム（１フレームは
１ｏｍｓ＋ｅｃ）を求め。

それぞれの値をＰＭＸＭ　＃　ＰＭａＸとし”　ＰＭＪ
Ｉ！−ＰＭＩＮ）の値をディップの大きさと定義する。

次に定常性バフメータについて説明する。定常性ハラメ
ータとしては例えばＬＰＧケブヌトラム係数の時間変化
パターンを用いる。いま１フレームあたシの特徴パラメ
ータの数をｄとし、使用するフレーム数をｌとすると、
パラメータ系１１Ｊｔは（１）　　（１）　　　（１）
　　（２）　　　　（４（カ　　　（ｔに＝（！１　＃
　１２　ｍ　”・Ｘｄ＃　！１　＊　””・・ｍ　Ｚｔ
　、　１２　ｍ　”・、ｒ４　　）で表わされる。Ｘ？
）は第ｊ番目フレームにおける１番目のＬＰＣケプスト
フム係数である。

多くのデータの母音区間の中心部においてパラメータ系
列にを求め、各要素の平均値ベクトルμと要素間の共分
散行列Σを求め標準パターンとする。

距離尺度としてはベイズ判定に基づく距離（２π）２・
１Σ１２を使用する。この距離尺度を使用して１フレームずつシ
フトさせながらＰの値を求めていくと定常性パラメータ
の時間的変化１２は第１図（ｂ）のように、母音から子
音へ変化したり、子音から母音へ変化する場合にＰの値
が小さくなシディップ状に変化する。この時の変化速度
１３の極小値と極大値との差を定常性パラメータにおけ
るディップの大きさく非定常性の大きさ）とする。

本実施例では上記のパワーディップの大きさと定常性パ
ラメータにおけるディップの大きさの２つを併用して子
音のセグメンテーションを行なう。

パワーディップの区間に対して定常性パターンのディッ
プは第１図のように２個表われたシするが本実施例では
ディップの１番大きいものを定常性パラメータにおける
ディップの大きさとする。このパワーディップの大きさ
と定常性パラメータにおけるディップの大きさの２つの
パラメータを使用してあらかじめ子音区間に表われたも
のと母音・半母音区間に表われたものに対して平均値と
共分散行列の標準パターンを多数話者の音声から作成し
ておき、この２つの標準パターンと入力音声のデータを
比較することによって入力データを子音区間としてセグ
メンテーションするかどうかを判定する。

この場合、パワーディップの大きさと定常性パラメータ
におけるディップの大きさとを二次元判別図に適用して
セグメンテーションを行っても良いことはもちろんであ
る。

以上本実施例によれば、パワーディップの大きさと定常
性パラメータにおけるディップを併用し標準パターンと
のマツチングによシセグメンテーションをすることによ
シ、子音の付加・脱落の少ない精度の良い子音セグメン
テーションを行うことが出来る。

発明の効果以上のように本発明は、パワーディップの大きさと定常
性パラメータのディップの大きさを併用することによシ
、従来では子音区間にディップが表われたにもかかわら
ずディップが小さいために脱落したシ、母音区間である
にもかかわＧず子音区間として付加されたシすることが
少なくなシ精度良くセグメンテーションを行なうことが
できる。

これはパワーディップに定常性パラメータを併用するこ
とによシバワーのみの大まかな動きによるセグメンテー
ション法にスペクトルの変化をと夛入れるようになった
ためであシ、その効果も大きい。

【図面の簡単な説明】

第１図は本発明の一実施例における子音セグメンテーシ
ョン法の説明図、第２図は単語認識システムのブロック
図、第３図は従来の子音セグメンテーション法の説明図
である。１０・・・・・・パワーの時間的動き、１１・・・・・
・パワーの時間的変化速度、１２・・・・・・定常性パ
ラメータの時間的動き、１３・・・・・・定常性パラメ
ータの時間的変化速度。代理人の氏名　弁理士　中　尾　敏　男　はが１名第１
図１θ

Claims

【特許請求の範囲】

（１）入力音声スペクトルのパワーの時間的変化速度の
極大値と極小値との差で表わされるパワーディップの大
きさと、定常性パラメータの時間的変化速度の極大値と
極小値との差で表わされる定常性パラメータにおけるデ
ィップの大きさとを用いることによって子音区間のセグ
メンテーションを行うことを特徴とする子音のセグメン
テーション法。
（２）母音の中心付近の時間的な動きを考慮した標準パ
ターンを作成し、統計的距離尺度を使用して定常性パラ
メータの時間的変化を求めることを特徴とする特許請求
の範囲第１項記載の子音のセグメンテーション法。