JPH026078B2 - - Google Patents
Info
- Publication number
- JPH026078B2 JPH026078B2 JP58178547A JP17854783A JPH026078B2 JP H026078 B2 JPH026078 B2 JP H026078B2 JP 58178547 A JP58178547 A JP 58178547A JP 17854783 A JP17854783 A JP 17854783A JP H026078 B2 JPH026078 B2 JP H026078B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- beginning
- frame
- initial
- consonant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 claims description 51
- 238000001514 detection method Methods 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 14
- 230000003595 spectral effect Effects 0.000 claims description 13
- 230000002123 temporal effect Effects 0.000 claims description 8
- 238000007792 addition Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Description
産業上の利用分野
本発明は、音声認識装置等に使用される語頭子
音のセグメンテーシヨン法に関するものである。 従来の構成とその問題点 従来研究され、あるいは発表されている音声認
識システムの動作原理としてはパタンマツチング
法が多く採用されている。この方法は認識される
必要がある全種類の単語に対して標準パターンを
あらかじめ記憶しておき、入力される未知の入力
パターンと比較することによつて一致の度合(以
下類似度と呼ぶ)を計算し、最大類似度が得られ
る標準パターンと同一の単語であると判定するも
のである。このパタンマツチング法では認識され
るべき全ての単語に対して標準パターンを用意し
なければならないため、発声者が変わつた場合に
は新しく標準パターンを入力して記憶させる必要
がある。従つて日本全国の都市名のように数百種
類以上の単語を認識対象とするような場合、全種
類の単語を発声して登録するには膨大な時間と労
力を必要とし、又登録に要するメモリ容量も膨大
になることが予想される。さらに入力パターンと
標準パターンのパタンマツチングに要する時間も
単語数が多くなると長くなつてしまう欠点があ
る。 これに対して、入力音声を音素単位に分けて音
素の組合せとして認識し(以下音素認識と呼ぶ)
音素単位で表記された単語辞書との類似度を求め
る方法は単語辞書に要するメモリ容量が大巾に少
なくて済みパタンマツチングに要する時間が短か
くでき、辞書の内容変更も容易であるという特長
を持つている。この方法の例は「音声スペクトル
の概略形とその動特性を利用した単語音声認識シ
ステム」三輪他、日本音響学会誌34(1978)に述
べてある。 この方法における単語認識システムのブロツク
図を第1図に示す。まず、あらかじめ多数話者の
音声を10msの分析区間毎に音響分析部1によつ
てフイルタを用いて分析し、得られたスペクトル
情報をもとに特徴抽出部2によつて特徴パラメー
タを求める。この特徴パラメータから/a/、/
o/等の母音や、/n/、/b/等の子音に代表
される音素毎又は音素グループ毎に標準パターン
を作成して標準パターン登録部3に登録してお
く。次に、入力された不特定話者の音声を、同様
に分析区間毎に音響分析部1によつて分析し、特
徴抽出部2によつて特徴パラメータを求める。こ
の特徴パラメータと標準パターン登録部3の標準
パターンを用いてセグメンテーシヨン部4におい
てセグメンテーシヨンを行なう。この結果をもと
に、音素判別部5において、標準パターン登録部
3の標準パターンと照合することによつて、最も
類似度の高い標準パターンに該当する音素をその
区間における音素と決定する。最後に、この結果
作成した音素の時系列(以下音素系列と呼ぶ)を
単語認識部6に送り、同様に音素系列で表現され
た単語辞書7と最も類似度の大きい項目に該当す
る単語を認識結果として出力する。 次にセグメンテーシヨン4における語頭子音の
セグメンテーシヨン法について述べる。 従来、語頭子音のセグメンテーシヨン法として
は、語頭の有声子音のスペクトルが鼻音のスペク
トルに類似していることを利用して、フレーム毎
に5母音と鼻音で音素認識を行ない鼻音/N/の
音素認識の結果の有無によつて判定していた。例
えば、語頭の/ma/はフレーム毎に音素認素を
行なうと/NNNNAAAA/という音素系列とし
て現われることがしばしばあり、この中で/
NNNN/の部分を有声子音とすることによ
り、/m/と/i/を区別する方法をとつてい
た。 また、語音の短い無声子音の存在はスペクトル
の傾きが顕著に変動する現象を見つけることによ
つて子音を区別していた。例えば語頭の/pa/
は/p/から/a/へ移る部分でスペクトルの傾
きが急激に変化することがしばしばあるために、
それを使つて/p/と/a/を区別する方法をと
つていた。 しかし、上記方法では必ずしも子音の存在をと
らえることが出来ず、しばしば語頭子音を見過ご
したり(以下子音の脱落と呼ぶ)、語頭は母音で
始まるけれど子音区間とする誤り(以下子音の付
加と呼ぶ)が多い。それは、有声子音の中で/
r/、/b/、/d/等の子音は必ずしも鼻音性
を示さないからである。また、/p/、/t/等
の持続時間の短い無声子音は必ずしもスペクトル
の傾きの顕著な時間変化を現わすとは限らないか
らである。 発明の目的 本発明は上記欠点を解消するもので、語頭子音
の脱落と付加の少ない精度の良い語頭子音のセグ
メンテーシヨン法を提供することを目的とする。 発明の構成 この目的を達成するため本発明は、次に示す4
つの方法 ●音声スペクトルの低域パワーと高域パワーの語
頭における時間的変動をとらえることにより語
頭子音を検出する第1の方法 ●語頭における鼻音性を使用して語頭子音を検出
する第2の方法 ●語頭における無性子音性を使用して語頭子音を
検出する第3の方法 ●語頭から最初に母音スペクトルが時間的に安定
して現われるフレームを基準フレームとし、こ
の基準フレームのスペクトル・パターンと語頭
から基準フレームまでの各フレームのスペクト
ル・パータンとを比較することによつて語頭子
音を検出する第4の方法 を任意の順序で適用し、子音が検出された時には
以後の方法を適用せず、検出結果に基づいて語頭
子音のセグメンテーシヨンを行うことを特徴とす
る語頭子音のセグメンテーシヨン法を提供するも
のである。 実施例の説明 本発明の語頭子音のセグメンテーシヨン法の一
実施例を以下に示す。 本実施例は、音声スペクトルの低域パワーと高
域パワーの語頭における時間的変動をとらえる第
1の語頭子音検出法と、音声区間に対してフレー
ム毎に有声・無声判定を行い、その結果を使用す
る第2の語頭子音検出法と、フレーム毎に5母音
と鼻音を対象として音素の認識を行い、その結果
を使用する第3の語頭子音検出法と、基準フレー
ムのスペクトル・パターンと語頭から基準フレー
ムまでの各フレームのスペクトル・パターンとを
比較することによつて検出する第4の語頭子音検
出法とをこの順序に適用し子音が検出された時に
は以後の方法を適用せず、検出結果に基づいて語
頭子音のセグメンテーシヨンを行うものである。
以下に各語頭子音検出法について詳細に説明す
る。 まず、低域、高域パワー情報を利用する第1の
語頭子音検出法について述べる。本実施例で低域
パワーと高域パワーを併用するのは有声子音は高
域パワーに、無声子音は低域パワーに特徴が現わ
れやすいためである。低域パワーは音声信号を低
域の帯域フイルタに通しフレーム毎にパワー値を
求めそれを平滑化して得る。又、高域パワーは高
域の帯域フイルタによつて同様にして得る。 第2図には、低域または高域パワーの語頭にお
ける時間的変化の例を示している。語頭が主に破
裂性の子音で始まる時、パワー値の時間的変化を
プロツトすると第2図のaのようになる。これは
破裂性のためにパワーが急激に立上がり、後続の
母音との渡りの部分においてaのように凹状にな
るからである。 bはaのパワーの時間的変化の値を微分したも
のである。P1〜P3はaの変曲点のフレーム番号
を示している。ここでは音声区間の始まるフレー
ム番号を1にしている。ここで、a,bのように
P1,P3の微分値が正、P2の微分値が負、かつP3
<m(mはフレーム番号を示すいき値)を満足す
る時、語頭からP3までを語頭子音区間として判
定する。 以上の方法を低域パワー、高域パワーに対して
適用し、いずれか一方にaの傾向が表われれば、
その区間を子音と判定する。この方法は、無声破
裂音は低域パワーに、又有声破裂音は高域パワー
に特徴が現われやすいため、破裂音全体に対して
有効である。 次に、語頭における鼻音性を使用する第2の語
頭子音検出法について述べる。本実施例の音素認
識は、各フレーム(例えば1フレームは10msec
とする)毎に行なう。フレーム毎の音素認識は本
実施例ではLPCケプストラム係数を用いて、あ
らかじめ用意してある各音素の標準パターンとの
比較によつて行なう。標準パターンとしては5母
音(/a/、/i/、/u/、/e/、/o/)、
鼻音(/N/で表わす)と無声子音(/s/で表
わす)を用いた。このようにして、各フレーム毎
に類似度の最も大きい音素(第1候補音素)と2
番目に類似度の大きい音素(第2候補音素)を求
める。フレーム毎の第1候補音素と第2候補音素
をそれぞれ番号の順に並べた系列を第1候補音素
時系列、第2候補音素時系列とする。上記音素系
列を語頭から順に見た時/N/が第1候補または
第2候補音素系列を含めてあるフレーム数以上
(例えば4フレーム以上)連続した時この区間を
子音区間であると判定する。例えば/ma/をフ
レーム毎に音素認識した時、音素認識の結果が第
3図のようになつたとすると/N/が第1、2候
補を含めて5フレーム連続しているので、1〜5
フレームまでを語頭子音区間とする。この方法
は、特に/m/、/n/、/b/、/d/、/
g/等に対して有効である。 次に、無声子音性を利用する第3の語頭子音検
出法について述べる。 語頭の無声子音のセグメンテーシヨンは、各フ
レーム毎に行なう有声・無声判定結果を利用する
ことによつて、正確に行なうことが出来る。 有無・無声判定の方法は零交差波、スペクトル
の傾き、第1次の自己相関係数の値等を利用する
方法があるが、どの方法を用いてもよい。本実施
例では、有声・無声判定の標準パターンと比較す
ることによつて判定している。ここで、語頭から
無声の判定があるフレーム数以上連続する時(例
えば4フレーム以上)この区間を子音区間と判定
する。この方法は、すべての無声子音に対して有
効である。 次に/z/のように、音素の前半部分は有声性
をもち、後半の部分は無声性をもつ音素があるの
で、語頭からある時間長以下有声フレームの後、
無声フレームが続く時この区間を子音とする。例
えば/zu/をフレーム毎に判定を行ない/
VVVVUUUVVVV/(ただし/V/は音
声、/U/は無声を表わす)となつた時、無声フ
レームが終わるところまでを語頭子音とする。 次に、基準フレームのスペクトル・パターンと
語頭から基準フレームまでの各フレームのスペク
トル・パターンとを比較する第4の語頭子音検出
法について述べる。 本実施例において、スペクトル・パターンの特
徴を表わすパラメータとしてLPCケプストラム
係数C1〜Co(ただし、nは正の整数)を用いる。
スペクスルが安定して現われる基準フレームの選
び方として、語頭からmフレーム目(本実施例で
はm=7)と固定する。これは、比較的持続時間
の短い子音を主に検出するためである。 ある2フレーム間のスペクトル・パターンを比
較する方法として、(1)式を用いる。 f(i、j)=o 〓l=1 (Cl(i)−Cl(j))2 ………(1) (1)式においてCl(i)は語頭からiフレーム目にお
けるl番目のLPCケプストラム係数を表わして
いる。同様にCl(j)はjフレーム目におけるl番目
のLPCケプストラム係数を表わしている。f
(i、j)の値が大きいほど2つのフレームのス
ペクトル・パターンが異なつていることになる。 この(1)式を用いて基準フレームと語頭から基準
フレームまでの各フレームとのf(i、m)(ただ
し1≦i≦m−1)を計算し、最大値をfnaxとす
る。このfnaxの値があるいき値より大きいか小さ
いかによつて語頭子音の有無を判定する。この方
法で検出された場合、語頭子音区間としてはf
(i、m)の値の変化が一番大きいフレームまで
を子音区間とする。 第4図に例を示す。横軸は語頭のフレーム番号
を1とした時の時間軸、縦軸はフレーム番号mを
基準とした時のf(i、m)(ただし1≦i≦m−
1)の値を表わしている。図においてf(i、m)
の最大値fnax=f(1、m)の値が、いき値θよ
りも大きいため語頭子音を検出したことになり、
語頭子音の区間としてはf(i、m)の変化が最
も大きいフレーム番号3までとし、1〜3フレー
ムまでを語頭子音区間lとしてセグメンテーシヨ
ンを行なう。 本実施例と従来法について、男性10名がそれぞ
れ212単語を発声したデータ(約2100単語)を用
いて比較を行なつた。 表に従来の方法による語頭子音の検出率と本実
施例の方法を用いた語頭子音の検出率を示してい
る。本実施例の方法では第1と第4の語頭子音検
出法によつて破裂音(/p/、/t/、/
k/、/b/、/d/)の検出率が向上し、第2
の語頭子音検出法によつて無声子音(/h/、/
s/、/c/)の検出率が向上し、第3の語頭子
音検出法によつて有声子音全体に渡つて検出率が
向上している。平均として語頭子音検出率が従来
と比べて85%から96%への向上が見られる。 また、語頭は母音で始まるけれど誤つて子音で
あると判定する(子音付加)割合は従来例では24
%であつたが、本実施例の方法では約20%へと減
少している。 なお、第1〜第4の語頭子音検出法の適用順は
任意に選べるものであり、いずれの場合も子音が
検出された時には以後の方法を適用せずに、検出
結果に基づいて語頭子音のセグメンテーシヨンを
行なうことにより同様の効果が得られる。
音のセグメンテーシヨン法に関するものである。 従来の構成とその問題点 従来研究され、あるいは発表されている音声認
識システムの動作原理としてはパタンマツチング
法が多く採用されている。この方法は認識される
必要がある全種類の単語に対して標準パターンを
あらかじめ記憶しておき、入力される未知の入力
パターンと比較することによつて一致の度合(以
下類似度と呼ぶ)を計算し、最大類似度が得られ
る標準パターンと同一の単語であると判定するも
のである。このパタンマツチング法では認識され
るべき全ての単語に対して標準パターンを用意し
なければならないため、発声者が変わつた場合に
は新しく標準パターンを入力して記憶させる必要
がある。従つて日本全国の都市名のように数百種
類以上の単語を認識対象とするような場合、全種
類の単語を発声して登録するには膨大な時間と労
力を必要とし、又登録に要するメモリ容量も膨大
になることが予想される。さらに入力パターンと
標準パターンのパタンマツチングに要する時間も
単語数が多くなると長くなつてしまう欠点があ
る。 これに対して、入力音声を音素単位に分けて音
素の組合せとして認識し(以下音素認識と呼ぶ)
音素単位で表記された単語辞書との類似度を求め
る方法は単語辞書に要するメモリ容量が大巾に少
なくて済みパタンマツチングに要する時間が短か
くでき、辞書の内容変更も容易であるという特長
を持つている。この方法の例は「音声スペクトル
の概略形とその動特性を利用した単語音声認識シ
ステム」三輪他、日本音響学会誌34(1978)に述
べてある。 この方法における単語認識システムのブロツク
図を第1図に示す。まず、あらかじめ多数話者の
音声を10msの分析区間毎に音響分析部1によつ
てフイルタを用いて分析し、得られたスペクトル
情報をもとに特徴抽出部2によつて特徴パラメー
タを求める。この特徴パラメータから/a/、/
o/等の母音や、/n/、/b/等の子音に代表
される音素毎又は音素グループ毎に標準パターン
を作成して標準パターン登録部3に登録してお
く。次に、入力された不特定話者の音声を、同様
に分析区間毎に音響分析部1によつて分析し、特
徴抽出部2によつて特徴パラメータを求める。こ
の特徴パラメータと標準パターン登録部3の標準
パターンを用いてセグメンテーシヨン部4におい
てセグメンテーシヨンを行なう。この結果をもと
に、音素判別部5において、標準パターン登録部
3の標準パターンと照合することによつて、最も
類似度の高い標準パターンに該当する音素をその
区間における音素と決定する。最後に、この結果
作成した音素の時系列(以下音素系列と呼ぶ)を
単語認識部6に送り、同様に音素系列で表現され
た単語辞書7と最も類似度の大きい項目に該当す
る単語を認識結果として出力する。 次にセグメンテーシヨン4における語頭子音の
セグメンテーシヨン法について述べる。 従来、語頭子音のセグメンテーシヨン法として
は、語頭の有声子音のスペクトルが鼻音のスペク
トルに類似していることを利用して、フレーム毎
に5母音と鼻音で音素認識を行ない鼻音/N/の
音素認識の結果の有無によつて判定していた。例
えば、語頭の/ma/はフレーム毎に音素認素を
行なうと/NNNNAAAA/という音素系列とし
て現われることがしばしばあり、この中で/
NNNN/の部分を有声子音とすることによ
り、/m/と/i/を区別する方法をとつてい
た。 また、語音の短い無声子音の存在はスペクトル
の傾きが顕著に変動する現象を見つけることによ
つて子音を区別していた。例えば語頭の/pa/
は/p/から/a/へ移る部分でスペクトルの傾
きが急激に変化することがしばしばあるために、
それを使つて/p/と/a/を区別する方法をと
つていた。 しかし、上記方法では必ずしも子音の存在をと
らえることが出来ず、しばしば語頭子音を見過ご
したり(以下子音の脱落と呼ぶ)、語頭は母音で
始まるけれど子音区間とする誤り(以下子音の付
加と呼ぶ)が多い。それは、有声子音の中で/
r/、/b/、/d/等の子音は必ずしも鼻音性
を示さないからである。また、/p/、/t/等
の持続時間の短い無声子音は必ずしもスペクトル
の傾きの顕著な時間変化を現わすとは限らないか
らである。 発明の目的 本発明は上記欠点を解消するもので、語頭子音
の脱落と付加の少ない精度の良い語頭子音のセグ
メンテーシヨン法を提供することを目的とする。 発明の構成 この目的を達成するため本発明は、次に示す4
つの方法 ●音声スペクトルの低域パワーと高域パワーの語
頭における時間的変動をとらえることにより語
頭子音を検出する第1の方法 ●語頭における鼻音性を使用して語頭子音を検出
する第2の方法 ●語頭における無性子音性を使用して語頭子音を
検出する第3の方法 ●語頭から最初に母音スペクトルが時間的に安定
して現われるフレームを基準フレームとし、こ
の基準フレームのスペクトル・パターンと語頭
から基準フレームまでの各フレームのスペクト
ル・パータンとを比較することによつて語頭子
音を検出する第4の方法 を任意の順序で適用し、子音が検出された時には
以後の方法を適用せず、検出結果に基づいて語頭
子音のセグメンテーシヨンを行うことを特徴とす
る語頭子音のセグメンテーシヨン法を提供するも
のである。 実施例の説明 本発明の語頭子音のセグメンテーシヨン法の一
実施例を以下に示す。 本実施例は、音声スペクトルの低域パワーと高
域パワーの語頭における時間的変動をとらえる第
1の語頭子音検出法と、音声区間に対してフレー
ム毎に有声・無声判定を行い、その結果を使用す
る第2の語頭子音検出法と、フレーム毎に5母音
と鼻音を対象として音素の認識を行い、その結果
を使用する第3の語頭子音検出法と、基準フレー
ムのスペクトル・パターンと語頭から基準フレー
ムまでの各フレームのスペクトル・パターンとを
比較することによつて検出する第4の語頭子音検
出法とをこの順序に適用し子音が検出された時に
は以後の方法を適用せず、検出結果に基づいて語
頭子音のセグメンテーシヨンを行うものである。
以下に各語頭子音検出法について詳細に説明す
る。 まず、低域、高域パワー情報を利用する第1の
語頭子音検出法について述べる。本実施例で低域
パワーと高域パワーを併用するのは有声子音は高
域パワーに、無声子音は低域パワーに特徴が現わ
れやすいためである。低域パワーは音声信号を低
域の帯域フイルタに通しフレーム毎にパワー値を
求めそれを平滑化して得る。又、高域パワーは高
域の帯域フイルタによつて同様にして得る。 第2図には、低域または高域パワーの語頭にお
ける時間的変化の例を示している。語頭が主に破
裂性の子音で始まる時、パワー値の時間的変化を
プロツトすると第2図のaのようになる。これは
破裂性のためにパワーが急激に立上がり、後続の
母音との渡りの部分においてaのように凹状にな
るからである。 bはaのパワーの時間的変化の値を微分したも
のである。P1〜P3はaの変曲点のフレーム番号
を示している。ここでは音声区間の始まるフレー
ム番号を1にしている。ここで、a,bのように
P1,P3の微分値が正、P2の微分値が負、かつP3
<m(mはフレーム番号を示すいき値)を満足す
る時、語頭からP3までを語頭子音区間として判
定する。 以上の方法を低域パワー、高域パワーに対して
適用し、いずれか一方にaの傾向が表われれば、
その区間を子音と判定する。この方法は、無声破
裂音は低域パワーに、又有声破裂音は高域パワー
に特徴が現われやすいため、破裂音全体に対して
有効である。 次に、語頭における鼻音性を使用する第2の語
頭子音検出法について述べる。本実施例の音素認
識は、各フレーム(例えば1フレームは10msec
とする)毎に行なう。フレーム毎の音素認識は本
実施例ではLPCケプストラム係数を用いて、あ
らかじめ用意してある各音素の標準パターンとの
比較によつて行なう。標準パターンとしては5母
音(/a/、/i/、/u/、/e/、/o/)、
鼻音(/N/で表わす)と無声子音(/s/で表
わす)を用いた。このようにして、各フレーム毎
に類似度の最も大きい音素(第1候補音素)と2
番目に類似度の大きい音素(第2候補音素)を求
める。フレーム毎の第1候補音素と第2候補音素
をそれぞれ番号の順に並べた系列を第1候補音素
時系列、第2候補音素時系列とする。上記音素系
列を語頭から順に見た時/N/が第1候補または
第2候補音素系列を含めてあるフレーム数以上
(例えば4フレーム以上)連続した時この区間を
子音区間であると判定する。例えば/ma/をフ
レーム毎に音素認識した時、音素認識の結果が第
3図のようになつたとすると/N/が第1、2候
補を含めて5フレーム連続しているので、1〜5
フレームまでを語頭子音区間とする。この方法
は、特に/m/、/n/、/b/、/d/、/
g/等に対して有効である。 次に、無声子音性を利用する第3の語頭子音検
出法について述べる。 語頭の無声子音のセグメンテーシヨンは、各フ
レーム毎に行なう有声・無声判定結果を利用する
ことによつて、正確に行なうことが出来る。 有無・無声判定の方法は零交差波、スペクトル
の傾き、第1次の自己相関係数の値等を利用する
方法があるが、どの方法を用いてもよい。本実施
例では、有声・無声判定の標準パターンと比較す
ることによつて判定している。ここで、語頭から
無声の判定があるフレーム数以上連続する時(例
えば4フレーム以上)この区間を子音区間と判定
する。この方法は、すべての無声子音に対して有
効である。 次に/z/のように、音素の前半部分は有声性
をもち、後半の部分は無声性をもつ音素があるの
で、語頭からある時間長以下有声フレームの後、
無声フレームが続く時この区間を子音とする。例
えば/zu/をフレーム毎に判定を行ない/
VVVVUUUVVVV/(ただし/V/は音
声、/U/は無声を表わす)となつた時、無声フ
レームが終わるところまでを語頭子音とする。 次に、基準フレームのスペクトル・パターンと
語頭から基準フレームまでの各フレームのスペク
トル・パターンとを比較する第4の語頭子音検出
法について述べる。 本実施例において、スペクトル・パターンの特
徴を表わすパラメータとしてLPCケプストラム
係数C1〜Co(ただし、nは正の整数)を用いる。
スペクスルが安定して現われる基準フレームの選
び方として、語頭からmフレーム目(本実施例で
はm=7)と固定する。これは、比較的持続時間
の短い子音を主に検出するためである。 ある2フレーム間のスペクトル・パターンを比
較する方法として、(1)式を用いる。 f(i、j)=o 〓l=1 (Cl(i)−Cl(j))2 ………(1) (1)式においてCl(i)は語頭からiフレーム目にお
けるl番目のLPCケプストラム係数を表わして
いる。同様にCl(j)はjフレーム目におけるl番目
のLPCケプストラム係数を表わしている。f
(i、j)の値が大きいほど2つのフレームのス
ペクトル・パターンが異なつていることになる。 この(1)式を用いて基準フレームと語頭から基準
フレームまでの各フレームとのf(i、m)(ただ
し1≦i≦m−1)を計算し、最大値をfnaxとす
る。このfnaxの値があるいき値より大きいか小さ
いかによつて語頭子音の有無を判定する。この方
法で検出された場合、語頭子音区間としてはf
(i、m)の値の変化が一番大きいフレームまで
を子音区間とする。 第4図に例を示す。横軸は語頭のフレーム番号
を1とした時の時間軸、縦軸はフレーム番号mを
基準とした時のf(i、m)(ただし1≦i≦m−
1)の値を表わしている。図においてf(i、m)
の最大値fnax=f(1、m)の値が、いき値θよ
りも大きいため語頭子音を検出したことになり、
語頭子音の区間としてはf(i、m)の変化が最
も大きいフレーム番号3までとし、1〜3フレー
ムまでを語頭子音区間lとしてセグメンテーシヨ
ンを行なう。 本実施例と従来法について、男性10名がそれぞ
れ212単語を発声したデータ(約2100単語)を用
いて比較を行なつた。 表に従来の方法による語頭子音の検出率と本実
施例の方法を用いた語頭子音の検出率を示してい
る。本実施例の方法では第1と第4の語頭子音検
出法によつて破裂音(/p/、/t/、/
k/、/b/、/d/)の検出率が向上し、第2
の語頭子音検出法によつて無声子音(/h/、/
s/、/c/)の検出率が向上し、第3の語頭子
音検出法によつて有声子音全体に渡つて検出率が
向上している。平均として語頭子音検出率が従来
と比べて85%から96%への向上が見られる。 また、語頭は母音で始まるけれど誤つて子音で
あると判定する(子音付加)割合は従来例では24
%であつたが、本実施例の方法では約20%へと減
少している。 なお、第1〜第4の語頭子音検出法の適用順は
任意に選べるものであり、いずれの場合も子音が
検出された時には以後の方法を適用せずに、検出
結果に基づいて語頭子音のセグメンテーシヨンを
行なうことにより同様の効果が得られる。
【表】
【表】
発明の効果
以上のように本発明は、音声スペクトルの低域
と高域パワーの語頭における時間的変動をとらえ
る第1の方法と、語頭における鼻音性を使用する
第2の方法と、語頭における無性子音性を使用す
る第3の方法と、基準フレームのスペクトル・パ
ターンと語頭から基準フレームまでの各フレーム
のスペクトル・パターンを比較する第4の方法と
を任意の順序で適用し、子音が検出された時には
以後の方法を適用せず、検出結果にもとづいて語
頭子音のセグメンテーシヨンを行なうことを特徴
とする語頭子音のセグメンテーシヨン法を提供す
るもので、語頭子音検出率および母音に対する子
音に付加率を向上させ、精度の高い語頭子音のセ
グメンテーシヨンが行なえる利点を有する。
と高域パワーの語頭における時間的変動をとらえ
る第1の方法と、語頭における鼻音性を使用する
第2の方法と、語頭における無性子音性を使用す
る第3の方法と、基準フレームのスペクトル・パ
ターンと語頭から基準フレームまでの各フレーム
のスペクトル・パターンを比較する第4の方法と
を任意の順序で適用し、子音が検出された時には
以後の方法を適用せず、検出結果にもとづいて語
頭子音のセグメンテーシヨンを行なうことを特徴
とする語頭子音のセグメンテーシヨン法を提供す
るもので、語頭子音検出率および母音に対する子
音に付加率を向上させ、精度の高い語頭子音のセ
グメンテーシヨンが行なえる利点を有する。
第1図は従来の音声認識システムのブロツク
図、第2図は本発明の一実施例における語頭子音
のセグメンテーシヨン法のパワー情報による基準
フレーム検出法を示す図、第3図は本発明の同法
の音素認識結果による基準フレーム検出法を示す
図、第4図は本発明の同法の基準フレームのスペ
クトル・パターンと語頭から基準フレームまでの
各スペクトル・パターンとの比較結果を示す図で
ある。 1……音響分析部、2……特徴抽出部、3……
標準パターン登録部、4……セグメンテーシヨ
ン、5……音素判別部、6……単語認識部、7…
…単語辞書。
図、第2図は本発明の一実施例における語頭子音
のセグメンテーシヨン法のパワー情報による基準
フレーム検出法を示す図、第3図は本発明の同法
の音素認識結果による基準フレーム検出法を示す
図、第4図は本発明の同法の基準フレームのスペ
クトル・パターンと語頭から基準フレームまでの
各スペクトル・パターンとの比較結果を示す図で
ある。 1……音響分析部、2……特徴抽出部、3……
標準パターン登録部、4……セグメンテーシヨ
ン、5……音素判別部、6……単語認識部、7…
…単語辞書。
Claims (1)
- 1 音声スペクトルの低域パワーと高域パワーの
語頭における時間的変動をとらえることにより語
頭子音を検出する第1の方法と、語頭における鼻
音性を使用して語頭子音を検出する第2の方法
と、語頭における無声子音性を使用して語頭子音
を検出する第3の方法と、語頭から最初に母音ス
ペクトルが時間的に安定して現われるフレームを
基準フレームとし、この基準フレームのスペクト
ル・パターンと語頭から基準フレームまでの各フ
レームのスペクトルパターンとを比較することに
よつて語頭子音を検出する第4の方法とを任意の
順序で適用し、子音が検出された時には以後の方
法を適用せず、検出結果にもとづいて語頭子音の
セグメンテーシヨンを行うことを特徴とする語頭
子音のセグメンテーシヨン法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58178547A JPS6069694A (ja) | 1983-09-27 | 1983-09-27 | 語頭子音のセグメンテ−ション法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58178547A JPS6069694A (ja) | 1983-09-27 | 1983-09-27 | 語頭子音のセグメンテ−ション法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6069694A JPS6069694A (ja) | 1985-04-20 |
| JPH026078B2 true JPH026078B2 (ja) | 1990-02-07 |
Family
ID=16050386
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58178547A Granted JPS6069694A (ja) | 1983-09-27 | 1983-09-27 | 語頭子音のセグメンテ−ション法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6069694A (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH01219624A (ja) * | 1988-02-29 | 1989-09-01 | Nec Home Electron Ltd | 自動採譜方法及び装置 |
-
1983
- 1983-09-27 JP JP58178547A patent/JPS6069694A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6069694A (ja) | 1985-04-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8566088B2 (en) | System and method for automatic speech to text conversion | |
| JP3162994B2 (ja) | 音声のワードを認識する方法及び音声のワードを識別するシステム | |
| Bezoui et al. | Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC) | |
| JPS6336676B2 (ja) | ||
| JPH0990974A (ja) | 信号処理方法 | |
| CN102222498B (zh) | 声音判别系统、声音判别方法以及声音判别用程序 | |
| Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
| Gupta et al. | Implicit language identification system based on random forest and support vector machine for speech | |
| JP2006171750A (ja) | 音声認識のための特徴ベクトル抽出方法 | |
| JPH0854891A (ja) | 音響分類処理装置及び方法、話者分類処理装置及び方法 | |
| JPH026078B2 (ja) | ||
| JPH026079B2 (ja) | ||
| Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
| JPS6363919B2 (ja) | ||
| JPS63217399A (ja) | 音声区間検出装置 | |
| Seman et al. | Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation | |
| JPH0114600B2 (ja) | ||
| Ruinskiy et al. | A multistage algorithm for fricative spotting | |
| JPH0120440B2 (ja) | ||
| JPS61177000A (ja) | 音声パタ−ン登録方式 | |
| Tolba et al. | Towards the improvement of automatic speech recognition by integrating dynamic and static Auditory-Based Acoustic Distinctive Features and spectral Cue | |
| JPH0431897A (ja) | 音声認識方式 | |
| JPH0316039B2 (ja) | ||
| JPS61180300A (ja) | 音声認識装置 | |
| JPS6363920B2 (ja) |