JPH0451036B2 - - Google Patents

Info

Publication number
JPH0451036B2
JPH0451036B2 JP59170655A JP17065584A JPH0451036B2 JP H0451036 B2 JPH0451036 B2 JP H0451036B2 JP 59170655 A JP59170655 A JP 59170655A JP 17065584 A JP17065584 A JP 17065584A JP H0451036 B2 JPH0451036 B2 JP H0451036B2
Authority
JP
Japan
Prior art keywords
speech
similarity
segmentation method
temporal
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP59170655A
Other languages
English (en)
Other versions
JPS6148896A (ja
Inventor
Katsuyuki Futayada
Ikuo Inoe
Masakatsu Hoshimi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP59170655A priority Critical patent/JPS6148896A/ja
Publication of JPS6148896A publication Critical patent/JPS6148896A/ja
Publication of JPH0451036B2 publication Critical patent/JPH0451036B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識装置における、音声のセグメ
ンテーシヨン方法に関するものである。
従来例の構成とその問題点 近年、音素または音節を基本単位とする音声認
識方法の開発が活発になつている。この方法にお
いては、音声を音素または音節の単位に区切るこ
と(セグメンテーシヨン)が、音声認識率を向上
させるための重要な技術要素である。
従来、音素または音節のセグメンテーシヨンに
は、スペクトルの全域または帯域パワーを利用す
る方法が知られている。ここでは従来例の一例と
して、スペクトルの帯域パワーの時間的な動きを
使用し、パワー値の時間的な凹み(パワーデイツ
プ)による子音のセグメンテーシヨン法について
述べる。
以下図面を参照しながら、従来の方法について
説明する。第1図は従来のセグメンテーシヨン法
の機能ブロツク図である。1はAD変換部で、入
力音声を12KHzでサンプリングし、帯域パワー計
算部2で帯域フイルタによつて、1フレーム
(10msec)ごとに高域パワーと低域パワーを求め
る。3はパワー値バツフア部であり、高域パワー
と低域パワーを蓄積して、パワー値の時系列情報
を求める。そして、パワーデイツプ抽出部4で
は、パワー値の時系列情報からパワーデイツプを
抽出し、音素区間決定部5によつて、パワーデイ
ツプ区間を子音区間としてセグメンテーシヨンを
行なう。
従来例の方法は、子音の方が母音よりもパワー
が小さいために、子音部でパワーの凹みができや
すいという性質を利用したものである。すなわ
ち、第2図において、aで示すパワー値の時系列
情報が周囲よりも小さい値をとる時、パワー値の
立下りから立上り付近までを子音としてbで示す
ようにセグメンテーシヨンする。高域(1500〜
4000Hz)パワーは有声子音のデイツプをとらえや
すく、低域(250〜600Hz)パワーは無声子音のデ
イツプをとらえやすいので、両方を併用すると広
い範囲の子音のセグメンテーシヨンを行なうこと
ができる。
しかし、従来例における欠点は、スペクトルが
母音に類似していて母音とのパワー差が少ない音
素、特に鼻音(/m/,/n/,/〓/,はつ
音)の検出率が低いことである。鼻音性情報を用
いてこれを補う方法もあるが(星見、二矢田:語
頭子音のセグメンテーシヨン法、音学講論 昭59
年3月)、鼻音性情報はノイズや調音結合の影響
を受けやすく、安定したセグメンテーシヨンがで
きない。
発明の目的 本発明は従来技術のもつ以上のような欠点を解
消するもので、鼻音を含めあらゆる種類の音素の
セグメンテーシヨンを精度よく行なう音声のセグ
メンテーシヨン方法を提供するものである。
発明の構成 上記の目的を達成するために、本発明は特徴パ
ラメータと定常性パターンとの類似度をフレーム
ごとに計算し、類似度の時間情報の変化をとらえ
ることによつて音素区間のセグメンテーシヨンを
行う方法を提供するものである。
実施例の説明 以下本発明の一実施例について説明する。
本発明は入力パラメータと定常性パターンを比
較することによつて、入力パラメータの時間的な
変化をとらえることを原理とする。そこで先ず時
間的な定常性標準パターンの作成方法について説
明する。定常性パターンは音声信号中で時間的に
定常な部分、例えば母音やはつ音の中心部の複数
フレーム(mフレーム、本実施例てはm=3)を
使用して多くのサンプルによつて作成する。1フ
レームあたりの特徴パラメータの数をnとする。
本実施例ではLPCケプストラム係数の低次のパ
ラメータ(C0〜C4)を特徴パラメータとして使
用している。したがつて特徴パラメータの数n=
5である。
m×n(15)個のパラメータを次のように並べ
て特徴パラメータベクトルCを作成する。
C=(C0 1,C1 1,……C4 1,C0 2,C1 2,……C4
,C0 3,C1 3……C4 3) (式1) ただし、Cj/iにおいてiは次数ナンバー、jは
フレームナンバーである。便宜的にCを次のよう
に表記する。
C=(C1,C2,C3……C15) ……(式2) 多くのサンプルを使用してCの平均値μと分散
共分散行列Wを計算する。μの要素をμi,Wの要
素をWi,jとする。サンプル数をnとすると、 μi=1/NNK=1 Ci/k ……(式3) Wi,j=1/N−1NK=1 (Ci/k−μi)(Ci/k−μj) ……(式4) で定常性パターン(標準パターン)を作成でき
る。
次に入力特徴パラメータと定常性パターンとの
類似度の計算方法を説明する。
入力音声の特徴パラメータ(LPCケプストラ
ム係数)を(式1)と同じように時系列に並べ、
これをXとする。
X=(X1,X2,X3……X15) (式5) Xの平坦性パターンに対する確率密度Pは次式
で表わされる。
P=(2π)-15/2|W|-1/2exp{−1/2(X− μ)′W-1・(X−μ)} ……(式6) ただし、′は転置を表わす。
(式6)の対数をとり、これを2倍してLとする
と、 L=−(X−μ)′・W-1・(X−μ)+A
(式7) Aは定数であり A=2・log{(2π)-15/2・|W|-1/2
……(式8) である。
音声区間に対して、1フレームずつシフトしな
がらXを求め、これによつて(式7)で類似度を
求めると、定常部では(式7)の値(類似度)は
大きくなり、スペクトルの変化またはパワーの変
化がある場合は(式7)の値は小さくなる。類似
度が小さい部分は音素の境界や単語の境界に相当
するので、これをとらえることによつて、セグメ
ンテーシヨンを行なうことができる。
第3図は例として王様(/oosama/)と発声
した場合の類似度の変化bを示したものである。
図には参考として、従来例によるパワーの変化a
と目視によつて付した音素ラベルcも付記してあ
る。第3図によると類似度の変化bは単語境界と
音素境界で極小値を形成しており、これによつて
音素のセグメンテーシヨンを容易に行なうことが
できる。目視ラベルcと比較すると、うまく区間
を検出できていることがわかる。一方、従来例に
よるパワー変化aは、/s/は検出できているが
鼻音/m/は検出できていない。
第4図は他の例を示したものであり、稲穂(/
inaho/)と発声した場合である。この場合も類
似度の変化bには語境界、音素境界に極小値が現
われており、鼻音も含め正確にセグメンテーシヨ
ンが行なわれている。従来のパワー変化aの場合
では、セグメンテーシヨンは無理である。
次に以上に説明した方法を実現するための、機
能ブロツク図を第5図に示す。
第5図においてAD変換部1は従来例と同じ機
能であるので説明を省略する。10は音響分析部
で音声信号を分析する部分であり、本実施例では
LPC分析法を使用している。分析窓はハミング
窓、フレーム周期は10msecであり、分析次数は
15である。11は特徴パラメータ抽出部であり、
パワー項C0と低次の4つのパラメータ(C1〜C4
を計算する。12は類似度計算部であり、入力特
徴パラメータと定常性パターンの類似度を(式
7)によつて計算する。
13は定常性パターン格納部であり、(式3)、
(式4)および(式8)の値が入つている。時系
列バツフア14は類似度情報を時系列として蓄積
する。音素区間決定部15は、類似度の時間情報
から、類似度が小さい部分を検出し、第3図およ
び第4図に例示したようにして、音素区間を決定
する。
このように本実施例のセグメンテーシヨン方法
は、音素境界でのスペクトルの時間変化を類似度
情報としてとらえるので、鼻音のようにパワー値
が母音とあまり変わらない音素も正確にセグメン
テーシヨンを行なうことができる。また類似度の
時間変化を相対値として(すなわち極小値の検出
という方法で)利用しているので、ノイズや調音
結合の影響を受けにくい特徴がある。
なお、上記の例では特徴パラメータとして
LPCケプストラム係数を使用したが、これは帯
域スペクトルパワー、PARCOR係数、自己相関
関数、自己相関係数など他の特徴パラメータを使
用することも可能である。またLPCケプストラ
ム係数の次数はC0〜C4に限定する必要はない。
またフレーム数は上記の例では3フレームを用い
たが、複数フレームならば3フレームに限定はさ
れない。
距離尺度に関しても、他の統計的な距離尺度、
たとえばマハラノビス距離を用いてもよい。この
場合、第5図の音素区間決定部15において極大
値を検出してセグメンテーシヨンを行なうことに
なる。
また時間的な定常性パターンを作成する場合に
母音、はつ音の中心部のサンプルで作成すると述
べたが、実際には、全有声音区間または全音声区
間で1フレームずつずらせながら作成してもよい
(一般の音声では、スペクトルが変化している部
分に比べて、定常な部分の方が多い。) 発明の効果 以上要するに本発明は特徴パラメータと定常性
パターンとの類似度をフレームごとに計算し、類
似度の時間情報の変化をとらえることによつて音
素区間のセグメンテーシヨンを行う方法を提供す
るもので、鼻音など従来の方法では正確にセグメ
ンテーシヨンができなかつた音素に対しても精度
よくセグメンテーシヨンを行なうことができ、ま
た、類似度情報の相対値によつてスペクトルの変
化を検出するので、ノイズや調音結合などの変動
要因の影響を受けにくい利点を有する。更に、類
似度計算は全て積和計算であるので、ハードウエ
ア化が容易である利点も有する。
【図面の簡単な説明】
第1図は従来の音声のセグメンテーシヨン方法
を説明するための機能ブロツク図、第2図は従来
のパワー変化によりセグメンテーシヨンを行う方
法を説明するための図、第3図と第4図は本発明
の一実施例における音声のセグメンテーシヨン方
法の有効性を示すために具体例を示した図、第5
図は本実施例を具現化するための機能ブロツク図
である。 1……AD変換部、10……音響分析部、11
……特徴パラメータ抽出部、12……類似度計算
部、13……定常性パターン格納部、14……時
系列バツフア、15……音素区間決定部。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声を分析区間(フレーム)毎に分析し
    特徴パラメータを求め、前記特徴パラメータの時
    間パターンと、時間的な定常性を表現する標準パ
    ターンとの類似度を統計的な距離尺度によつて計
    算し、前記類似度の時系列情報を音声区間につい
    て作成し、前記時系列情報の時間的な動きを利用
    して音声の境界を検出することによつて音声のセ
    グメンテーシヨンを行なうことを特徴とする音声
    のセグメンテーシヨン方法。 2 時間的な定常性を表現する標準パターンが、
    多数のサンプルの複数フレームの特徴パラメータ
    を用いて、平均値と分散共分散行列で構成される
    ことを特徴とする特許請求の範囲第1項記載の音
    声のセグメンテーシヨン方法。 3 特徴パラメータがLPCケプストラム係数、
    帯域スペクトルパワー、PARCOR係数、自己相
    関関数から選ばれたいずれかである特許請求の範
    囲第1項記載の音声のセグメンテーシヨン方法。 4 統計的距離尺度が、確率密度、対数尤度また
    はマハラノビス距離のいずれかである特許請求の
    範囲第1項記載の音声のセグメンテーシヨン方
    法。 5 時間的な定常性の標準パターンを音声の定常
    部、有声音区間、全音声区間のうちいずれかを使
    用して作成することを特徴とする特許請求の範囲
    第1項又は第2項記載の音声のセグメンテーシヨ
    ン方法。
JP59170655A 1984-08-16 1984-08-16 音声のセグメンテ−シヨン方法 Granted JPS6148896A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59170655A JPS6148896A (ja) 1984-08-16 1984-08-16 音声のセグメンテ−シヨン方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59170655A JPS6148896A (ja) 1984-08-16 1984-08-16 音声のセグメンテ−シヨン方法

Publications (2)

Publication Number Publication Date
JPS6148896A JPS6148896A (ja) 1986-03-10
JPH0451036B2 true JPH0451036B2 (ja) 1992-08-17

Family

ID=15908905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59170655A Granted JPS6148896A (ja) 1984-08-16 1984-08-16 音声のセグメンテ−シヨン方法

Country Status (1)

Country Link
JP (1) JPS6148896A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6275700A (ja) * 1985-09-30 1987-04-07 シャープ株式会社 音声認識方式

Also Published As

Publication number Publication date
JPS6148896A (ja) 1986-03-10

Similar Documents

Publication Publication Date Title
US8831942B1 (en) System and method for pitch based gender identification with suspicious speaker detection
JPH0441356B2 (ja)
JPS6336676B2 (ja)
WO2003098597A1 (en) Syllabic kernel extraction apparatus and program product thereof
JPH0222960B2 (ja)
KR100744288B1 (ko) 음성 신호에서 음소를 분절하는 방법 및 그 시스템
JPH0451036B2 (ja)
Baghel et al. Excitation source feature for discriminating shouted and normal speech
KR20070045772A (ko) 성대신호 인식 장치 및 그 방법
Kadiri et al. Formant Tracking by Combining Deep Neural Network and Linear Prediction
JPH04130499A (ja) 音声のセグメンテーション方法
Singh et al. Effect of MFCC based features for speech signal alignments
JP2744622B2 (ja) 破裂子音識別方式
JPH0451039B2 (ja)
Thirumuru et al. Automatic detection of retroflex approximants in a continuous Tamil speech
Najnin et al. Detection and classification of nasalized vowels in noise based on cepstra derived from differential product spectrum
JPH026078B2 (ja)
Almajai Audio Visual Speech Enhancement
JPH026079B2 (ja)
JPS6136798A (ja) 音声セグメンテ−シヨン法
JPS6227798A (ja) 音声認識装置
Gayvert et al. Statistical approaches to formant tracking
Takagi et al. Formant frequency estimation by moment calculation of the speech spectrum
Mistry et al. Speech Recognition using MFCC and Neural Networks
Mito et al. Real‐time pitch detection with a digital signal processor

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term