JPH0451036B2

JPH0451036B2 -

Info

Publication number: JPH0451036B2
Application number: JP59170655A
Authority: JP
Inventors: Katsuyuki Futayada; Ikuo Inoe; Masakatsu Hoshimi
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1984-08-16
Filing date: 1984-08-16
Publication date: 1992-08-17
Also published as: JPS6148896A

Description

【発明の詳細な説明】産業上の利用分野本発明は音声認識装置における、音声のセグメ
ンテーシヨン方法に関するものである。

従来例の構成とその問題点近年、音素または音節を基本単位とする音声認
識方法の開発が活発になつている。この方法にお
いては、音声を音素または音節の単位に区切るこ
と（セグメンテーシヨン）が、音声認識率を向上
させるための重要な技術要素である。

従来、音素または音節のセグメンテーシヨンに
は、スペクトルの全域または帯域パワーを利用す
る方法が知られている。ここでは従来例の一例と
して、スペクトルの帯域パワーの時間的な動きを
使用し、パワー値の時間的な凹み（パワーデイツ
プ）による子音のセグメンテーシヨン法について
述べる。

以下図面を参照しながら、従来の方法について
説明する。第１図は従来のセグメンテーシヨン法
の機能ブロツク図である。１はAD変換部で、入
力音声を12KHzでサンプリングし、帯域パワー計
算部２で帯域フイルタによつて、１フレーム
（10msec）ごとに高域パワーと低域パワーを求め
る。３はパワー値バツフア部であり、高域パワー
と低域パワーを蓄積して、パワー値の時系列情報
を求める。そして、パワーデイツプ抽出部４で
は、パワー値の時系列情報からパワーデイツプを
抽出し、音素区間決定部５によつて、パワーデイ
ツプ区間を子音区間としてセグメンテーシヨンを
行なう。

従来例の方法は、子音の方が母音よりもパワー
が小さいために、子音部でパワーの凹みができや
すいという性質を利用したものである。すなわ
ち、第２図において、ａで示すパワー値の時系列
情報が周囲よりも小さい値をとる時、パワー値の
立下りから立上り付近までを子音としてｂで示す
ようにセグメンテーシヨンする。高域（1500〜
4000Hz）パワーは有声子音のデイツプをとらえや
すく、低域（250〜600Hz）パワーは無声子音のデ
イツプをとらえやすいので、両方を併用すると広
い範囲の子音のセグメンテーシヨンを行なうこと
ができる。

しかし、従来例における欠点は、スペクトルが
母音に類似していて母音とのパワー差が少ない音
素、特に鼻音（／ｍ／，／ｎ／，／〓／，はつ
音）の検出率が低いことである。鼻音性情報を用
いてこれを補う方法もあるが（星見、二矢田：語
頭子音のセグメンテーシヨン法、音学講論昭59
年３月）、鼻音性情報はノイズや調音結合の影響
を受けやすく、安定したセグメンテーシヨンがで
きない。

発明の目的本発明は従来技術のもつ以上のような欠点を解
消するもので、鼻音を含めあらゆる種類の音素の
セグメンテーシヨンを精度よく行なう音声のセグ
メンテーシヨン方法を提供するものである。

発明の構成上記の目的を達成するために、本発明は特徴パ
ラメータと定常性パターンとの類似度をフレーム
ごとに計算し、類似度の時間情報の変化をとらえ
ることによつて音素区間のセグメンテーシヨンを
行う方法を提供するものである。

実施例の説明以下本発明の一実施例について説明する。

本発明は入力パラメータと定常性パターンを比
較することによつて、入力パラメータの時間的な
変化をとらえることを原理とする。そこで先ず時
間的な定常性標準パターンの作成方法について説
明する。定常性パターンは音声信号中で時間的に
定常な部分、例えば母音やはつ音の中心部の複数
フレーム（ｍフレーム、本実施例てはｍ＝３）を
使用して多くのサンプルによつて作成する。１フ
レームあたりの特徴パラメータの数をｎとする。
本実施例ではLPCケプストラム係数の低次のパ
ラメータ（C₀〜C₄）を特徴パラメータとして使
用している。したがつて特徴パラメータの数ｎ＝
５である。

ｍ×ｎ（15）個のパラメータを次のように並べ
て特徴パラメータベクトルＣを作成する。

Ｃ＝（C₀ ¹，C₁ ¹，……C₄ ¹，C₀ ²，C₁ ²，……C₄
^２，C₀ ³，C₁ ³……C₄ ³）（式１）ただし、C^j/iにおいてｉは次数ナンバー、ｊは
フレームナンバーである。便宜的にＣを次のよう
に表記する。

Ｃ＝（C¹，C²，C³……C¹⁵） ……（式２）多くのサンプルを使用してＣの平均値μと分散
共分散行列Ｗを計算する。μの要素をμ_i，Ｗの要
素をW_i,jとする。サンプル数をｎとすると、 μ_i＝１／Ｎ_N 〓^K=1 C^i/k ……（式３） W_i,j＝１／Ｎ−１_N 〓^K=1 （C^i/k−μ_i）（C^i/k−μ_j） ……（式４）で定常性パターン（標準パターン）を作成でき
る。

次に入力特徴パラメータと定常性パターンとの
類似度の計算方法を説明する。

入力音声の特徴パラメータ（LPCケプストラ
ム係数）を（式１）と同じように時系列に並べ、
これをＸとする。

Ｘ＝（X₁，X₂，X₃……X₁₅）（式５）Ｘの平坦性パターンに対する確率密度Ｐは次式
で表わされる。

Ｐ＝（2π）^-15/2｜Ｗ｜^-1/2exp｛−１／２（Ｘ− μ）′W^-1・（Ｘ−μ）｝ ……（式６）ただし、′は転置を表わす。

（式６）の対数をとり、これを２倍してＬとする
と、Ｌ＝−（Ｘ−μ）′・W^-1・（Ｘ−μ）＋Ａ
（式７）Ａは定数でありＡ＝２・log｛（2π）^-15/2・｜Ｗ｜^-1/2｝
……（式８）である。

音声区間に対して、１フレームずつシフトしな
がらＸを求め、これによつて（式７）で類似度を
求めると、定常部では（式７）の値（類似度）は
大きくなり、スペクトルの変化またはパワーの変
化がある場合は（式７）の値は小さくなる。類似
度が小さい部分は音素の境界や単語の境界に相当
するので、これをとらえることによつて、セグメ
ンテーシヨンを行なうことができる。

第３図は例として王様（／oosama／）と発声
した場合の類似度の変化ｂを示したものである。
図には参考として、従来例によるパワーの変化ａ
と目視によつて付した音素ラベルｃも付記してあ
る。第３図によると類似度の変化ｂは単語境界と
音素境界で極小値を形成しており、これによつて
音素のセグメンテーシヨンを容易に行なうことが
できる。目視ラベルｃと比較すると、うまく区間
を検出できていることがわかる。一方、従来例に
よるパワー変化ａは、／ｓ／は検出できているが
鼻音／ｍ／は検出できていない。

第４図は他の例を示したものであり、稲穂（／
inaho／）と発声した場合である。この場合も類
似度の変化ｂには語境界、音素境界に極小値が現
われており、鼻音も含め正確にセグメンテーシヨ
ンが行なわれている。従来のパワー変化ａの場合
では、セグメンテーシヨンは無理である。

次に以上に説明した方法を実現するための、機
能ブロツク図を第５図に示す。

第５図においてAD変換部１は従来例と同じ機
能であるので説明を省略する。１０は音響分析部
で音声信号を分析する部分であり、本実施例では
LPC分析法を使用している。分析窓はハミング
窓、フレーム周期は10msecであり、分析次数は
15である。１１は特徴パラメータ抽出部であり、
パワー項C₀と低次の４つのパラメータ（C₁〜C₄）
を計算する。１２は類似度計算部であり、入力特
徴パラメータと定常性パターンの類似度を（式
７）によつて計算する。

１３は定常性パターン格納部であり、（式３）、
（式４）および（式８）の値が入つている。時系
列バツフア１４は類似度情報を時系列として蓄積
する。音素区間決定部１５は、類似度の時間情報
から、類似度が小さい部分を検出し、第３図およ
び第４図に例示したようにして、音素区間を決定
する。

このように本実施例のセグメンテーシヨン方法
は、音素境界でのスペクトルの時間変化を類似度
情報としてとらえるので、鼻音のようにパワー値
が母音とあまり変わらない音素も正確にセグメン
テーシヨンを行なうことができる。また類似度の
時間変化を相対値として（すなわち極小値の検出
という方法で）利用しているので、ノイズや調音
結合の影響を受けにくい特徴がある。

なお、上記の例では特徴パラメータとして
LPCケプストラム係数を使用したが、これは帯
域スペクトルパワー、PARCOR係数、自己相関
関数、自己相関係数など他の特徴パラメータを使
用することも可能である。またLPCケプストラ
ム係数の次数はC₀〜C₄に限定する必要はない。
またフレーム数は上記の例では３フレームを用い
たが、複数フレームならば３フレームに限定はさ
れない。

距離尺度に関しても、他の統計的な距離尺度、
たとえばマハラノビス距離を用いてもよい。この
場合、第５図の音素区間決定部１５において極大
値を検出してセグメンテーシヨンを行なうことに
なる。

また時間的な定常性パターンを作成する場合に
母音、はつ音の中心部のサンプルで作成すると述
べたが、実際には、全有声音区間または全音声区
間で１フレームずつずらせながら作成してもよい
（一般の音声では、スペクトルが変化している部
分に比べて、定常な部分の方が多い。）発明の効果以上要するに本発明は特徴パラメータと定常性
パターンとの類似度をフレームごとに計算し、類
似度の時間情報の変化をとらえることによつて音
素区間のセグメンテーシヨンを行う方法を提供す
るもので、鼻音など従来の方法では正確にセグメ
ンテーシヨンができなかつた音素に対しても精度
よくセグメンテーシヨンを行なうことができ、ま
た、類似度情報の相対値によつてスペクトルの変
化を検出するので、ノイズや調音結合などの変動
要因の影響を受けにくい利点を有する。更に、類
似度計算は全て積和計算であるので、ハードウエ
ア化が容易である利点も有する。

【図面の簡単な説明】

第１図は従来の音声のセグメンテーシヨン方法
を説明するための機能ブロツク図、第２図は従来
のパワー変化によりセグメンテーシヨンを行う方
法を説明するための図、第３図と第４図は本発明
の一実施例における音声のセグメンテーシヨン方
法の有効性を示すために具体例を示した図、第５
図は本実施例を具現化するための機能ブロツク図
である。１……AD変換部、１０……音響分析部、１１
……特徴パラメータ抽出部、１２……類似度計算
部、１３……定常性パターン格納部、１４……時
系列バツフア、１５……音素区間決定部。

Claims

【特許請求の範囲】１入力音声を分析区間（フレーム）毎に分析し
特徴パラメータを求め、前記特徴パラメータの時
間パターンと、時間的な定常性を表現する標準パ
ターンとの類似度を統計的な距離尺度によつて計
算し、前記類似度の時系列情報を音声区間につい
て作成し、前記時系列情報の時間的な動きを利用
して音声の境界を検出することによつて音声のセ
グメンテーシヨンを行なうことを特徴とする音声
のセグメンテーシヨン方法。２時間的な定常性を表現する標準パターンが、
多数のサンプルの複数フレームの特徴パラメータ
を用いて、平均値と分散共分散行列で構成される
ことを特徴とする特許請求の範囲第１項記載の音
声のセグメンテーシヨン方法。３特徴パラメータがLPCケプストラム係数、
帯域スペクトルパワー、PARCOR係数、自己相
関関数から選ばれたいずれかである特許請求の範
囲第１項記載の音声のセグメンテーシヨン方法。４統計的距離尺度が、確率密度、対数尤度また
はマハラノビス距離のいずれかである特許請求の
範囲第１項記載の音声のセグメンテーシヨン方
法。５時間的な定常性の標準パターンを音声の定常
部、有声音区間、全音声区間のうちいずれかを使
用して作成することを特徴とする特許請求の範囲
第１項又は第２項記載の音声のセグメンテーシヨ
ン方法。