JPS60262199A - 母音区間検出装置 - Google Patents

母音区間検出装置

Info

Publication number
JPS60262199A
JPS60262199A JP59118855A JP11885584A JPS60262199A JP S60262199 A JPS60262199 A JP S60262199A JP 59118855 A JP59118855 A JP 59118855A JP 11885584 A JP11885584 A JP 11885584A JP S60262199 A JPS60262199 A JP S60262199A
Authority
JP
Japan
Prior art keywords
values
vowel
frame
energy
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59118855A
Other languages
English (en)
Inventor
吉村 元一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP59118855A priority Critical patent/JPS60262199A/ja
Publication of JPS60262199A publication Critical patent/JPS60262199A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野1 本発明は音声波形の時間変化に対する振幅変化に対して
サンプリングやその他の処理を行うことにより、母音区
間に対応する区間を検出して出力する母音区間検出装置
に関Jる。
[従来の技術] 従来、この種の母音区間検出装置は、まず音声波形の時
間変化に対する振幅の連続変化をサンプリングして複数
の値の列に変換づる。次に、このそれぞれの値を2乗し
て音声の短時間エネルギーの値の列に変換する。一般に
、音声のエネルーV−は母音区間に比較して子音区間は
低くなっているため、次に、複数の閾値を設定してこの
短時間エネルギーの値の列が閾値を上下する時点を検出
して母音区間の始端及び終端を決定していた。ここにお
いて非常に重要な意味をもつこの閾値は、予め音声を入
力する際の周囲の雑音や共鳴状態の複雑な音響環境等を
考慮して設定する必要があった。
しかし、一定であることを前提としている雑音1ノベル
に予期しない変動が生じること等により、雑音レベルと
音声レベルとの区別が不可能になる問題点があった。
この問題点を解決するため、ただ単に音声波形の短時間
エネルギーの値の列が定められた閾値を上下することの
検出によるだけでなく、他の処理との組み合わせによる
母音区間の決定が行なわれていた。他の処理としC例え
ば、音声波形の符号のみを残して振幅を1ビツトに量子
化する雪女差波分析がある。この分析と前記1!l値に
関する分析とを組み合わせることによって一時的な増大
により定常的な音声レベルに達した雑音と音声との区別
を行っていた。
また、音声波形に対して各種演算等の多数の処理を実行
し、周波数とエネルギーとの関係をめて周波数スペクト
ル分析により母音区間を決定することも行われていた。
[発明が解決しようと覆る問題点] 音声の短時間エネルギーの値と予め設定されIこ閾値と
の関係の分析における閾値の設定は、周囲の雑音や共鳴
状態の音響環境等を考慮しなければならず、最適な値を
めるのが非常に難しい作業であった。まIこ、このよう
にして様々な条件を検問して設定した閾値も、音声入力
時にお(プる話各の動作や周囲の状況の変化等により予
期しない雑音が混入した場合には不適当な値どなってし
まい、誤認の原因どなっていた。また、このような雑音
の影響を除去するために例えば雪女差波分析等の他の分
析を併用することが行われたが、非常に複11な処理ど
なり処理時間の増大につながっていた。
また、別の手段として音声波形の周波数スペクトル分析
が行われたが、やはり処理が非常に複雑になり、膨大な
量の演算を実行する必要を生じるため処理時間が長かっ
た。従って、何れの手段も音声認識の実時間処理に6け
る一過程としての母音区間検出には時間がかかり過ぎて
満足のいくものではなかった。また、一般に日本語の“
′ば″という発音のように子音区間から母音区間への移
行部にバーストのような現象が生じる場合は、音声のエ
ネルギーが子音区間から母音区間へか【)て単調増加を
するとは限らず、一旦減少した後再び増加するといった
ことが起こり得る。特にこのような\ 発音に対しては、そのエネルギーと予め定めた閾値どの
上下関係により中純に母音区間を決定するのは非常に不
都合なことであつIこ。
[発明の目的] 本発明の目的は上記従来の問題点を解消し、バースト等
を含む音声のようにエネルギーに逆転が生じたり、予期
し得ない雑音が一時的に混入したりしても、これらのエ
ネルギーの変動の影響を極力低く抑え、しかも簡潔な短
時間の処理により母音区間を検出することのできる母音
区間検出装置を提供することにある。
[問題点を解決するための手段] 本発明においては、入力されIこ音声の前記短時間エネ
ルギーの値の列を一部重複する値を含む複数のフレーム
に区分してそのそれぞl’tのフレームを代表するフレ
ーム値を設定し、次にこのフレーム値の列が所定の値以
」二である区間に対応するデータ信号を母音区間として
出力している。
[作用] 短時間エネルギーの値の列を一部重複する値を含む複数
のフレームに区分してそのそれぞれのフレームを代表り
−るフレーム値を設定することにより、バーストや予期
しない短時間の雑音の混入等の影響による短時間エネル
ギーの急激な変化、例えば子音区間から母音区間へかけ
ての短時間エネルギーの逆転等の変化が吸収される1、
しかし、子音区間と母音区間とにおける音声のエネルギ
ーの差は十分に現われるため、闇値を設定しにの闇値と
フレーム値との関係を判断することにより、演算量も少
なく短い処理時間で容易に母音区間を検出することがで
きる。
[実施例] 以下、第1図乃至第5図を参照し−C本発明の一実施例
を説明する。
第2図において膠者の発音し/j音声が収音されるマイ
クロフォン1は、増幅器2を介してへ/D変換器3に接
続されている。ここで、増幅器2はマイクロフォン1で
収音した音声のレベルを以後の処理に適するレベルに増
幅するものである。また、A/D変換器3は中央処理装
置(以下CI−’ LJと称す)4に接続されでいる。
またCPLI=lIには各処理のプログラム等が書き込
まれているROM(読み出し専用メモリ)5及びRAM
(読み出し円き込み可能なメモリ)6が接続されている
。ここで、RAM6は、A/D変換器3でサンプリング
された音声波形の振幅値が次々に書き込まれていく振幅
バッファ5a、前記振幅値に基づいて算出された短時間
エネルギー値が書き込まれていくエネルギーバッファ6
b、前記短時間エネルギー値に基づいて算出されたフレ
ーム値が出き込まれていくフレームバッファ6C等とし
てのワーキング用としてはたらくようになっている。
上記構成にd3いて、次にその動作を話者が日本語の゛
ばパを発音し/j場合に′ついて説明づ゛る。
話者が発音した°゛ば″の音声は、まずマイクロフォン
1で収音され増幅器2で適止なレベルに増幅された後、
A/D変換器3でのサンプリングにより時間変化に対す
る音声波形の振幅の変化を示1 す複数の値の列として
のデータに変換されてCPU4へ入力される。ここで、
第1図ステップ21で示すA/D変換は4k Hzまで
の音声波形の情報を冑るためにサンプリングの定押より
ザンブリング周波数を8kl−12として行っている。
従って、音声波形の振幅データが1秒間に8000個、
言い換えれば125マイクロ秒毎に1個の振幅データが
得られ、順次振幅バッファ6aへ書き込まれていく。口
の各振幅データのうち隣接するものをそれぞれ直線で結
び、横軸に時間、縦軸に電圧をとって図示すると第3図
(a )に示すような波形図となる。また、このA/D
変換は、マイクロフォン1のスイッチがONされたこと
をCPU4が検出することにより開始され、ONされて
いる間実行される。従って、波形図には音声区間の前後
に雑音のみの区間が現われている。この125マイクロ
秒ごとの振幅データのうち1番目の振幅データをA (
q )で表わすことにする。ここで、qは1からnまで
の整数であり、nは振幅データの総数である。また、q
が1増加すると時間は125マイクロ秒経過する。次に
ステップ22へ進み、ステップ21で得られたn個の振
幅データ△(q )のそれぞれを2乗してn個の2乗値
5(q)の算出を(うい、順次2乗バッノア6bへV〕
き込んCいく。次にステップ23へ進み、2乗値5((
1)の64個毎、ダなわら、8ミリ秒ごとの和をとって
短時間エネルギー値E(j)とする。つまり、と表わさ
れる。ここC1jは1から(n/64)までの整数をど
る。横軸に時間をとり、縦軸にEく、j)をその最大値
を基準にして対数表示すると第33図(1))のように
なる。次にステップ24へ進み、ステップ23で算出し
た短時間エネルギーIUE(j>の列を隣り合うフレー
ム同志で3個の短時間エネルギー値E(j)が重複する
ようにフレーム化し、での−でれぞれのフレームにおい
τり、11時間エネルギー値F (j )の和を算出し
てこれをそのフレームのフレーム+1tJF(t)とす
る。これを式で表わすと、 ここで1は1から(’+1./64−3 )までの整数
をどる。横軸に時間、縦軸にこのフレーム値F([)の
列をその最大値を基準に正規化したものをとって図示す
ると、第3図(C)のようになる。次にステップ25へ
進み、フレーム値1=(t)の列が予め設定してあった
閾値T=0.3を上回る時点t1および閾値T=0.3
を下回る時点t2に対応するデータ信号7を出力する。
この2個の時点により区切られた区間とこれより前の区
間とでは、第3図(a )かられかるように、音声のエ
ネルギーが大きく異なる。すなわち、後の区間の音声の
エネルギーの方が前の区間の音声のエネルギーよりも高
くなっており、この区間が母音区間であることが確認で
きる。また、この区間は、同一の音声のデータから得ら
れたスペクトルグラム(図示していない)において母音
区間と判断される区間ともほぼ一致する。また、全く同
様な処理によって゛き″及び゛ず″と発音した音声につ
いて母音区間を検出した例を第4図及び第5図にそれぞ
れ示す。これらの例においてもフレーム値F(t)の列
が閾値r=0.3を上回るIf”j 17i L3 、
1’、s及び閾値T=0.3をト回る時点t4. ts
に対応するデータ信号が出力され、これらの時点により
区分された区間はやはり母音区間どなっている。
1発明の効果] 以上に詳述した通り、本発明に係る母音区間検出’A’
PIは、周囲の雑音レベルや音響特性に一時的変動が起
きる場合、また、パーストを含む日本語のパば′の発音
のように時間に対する音声のエネルギーの変化に逆転を
生じる場合等においてもこれらの変化の影響を極めて低
く抑えることができるため、音声のl」音区間のエネル
ギーの閾値を容易に設定することができる。また、簡紫
な構成による処理で演算用を少なくできるため、母音区
間を検出するまでの処理時間を極力短く抑えることが可
a−Cある。従って、他の処理との絹み合わせににり母
音区間をより一層高い精度で検出する場]・□ 合や音
1識の一過程として応用する場合においても、本発明に
係る母音区間検出装置はもともと処理時間が知いため全
体としての処理時間の短縮に非常に有効である。まl:
、p本的に、音声のエネルギーの変化に注目した処理を
行っているため、母音区間の検出に限らず、例えば1゛
っの母音にJ3けるエネルギーの変化の解析や、音声の
エネルギーが大きく変化する調音結合部等の検出にも容
易に応用することが可能である。
【図面の簡単な説明】
第1図は本発明の一実施例のフローヂ1y −、l−1
第2図はそのブロック図、第3図(a )乃至(G )
は゛ば”°と発音した音声に各処理を実行しi=結果を
示す図、第4図(a )乃至(C)はパぎ″と発音した
音声に各処理を実行した結果を示す図、第5図(a )
乃至(C)は′ず″と発音した音声に各処理を実行した
結果を示す図である。 図中、1はマイクロフォン、2は増幅器、3はA/D変
換器、4はCPU、5はROM、6は1くAMである。 特許出願人 ブラザー工業株式会社 取締役社長 河嶋勝二 第1図 第2図 第3図 (C) 第4図

Claims (1)

  1. 【特許請求の範囲】 1、音声の時間変化に対する振幅変化をリンブリングし
    て複数の値の列に変換するサンプリング手段と、 前記複数の値をそれぞれ2乗した値の列に変換する2条
    変換手段と、 前記2乗した値の列を一部重複する値を含むフレームに
    区分づるフレーム化手段と、 前記各フレームを代表するフレーム値を設定するフレー
    ム値設定手段と、 前記フレーム値の列が所定の値以上である区間に対応す
    るデータ信号を母音区間として出ツノするデータ信号出
    力手段とを有することを特徴とする母音区間検出装置。
JP59118855A 1984-06-08 1984-06-08 母音区間検出装置 Pending JPS60262199A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59118855A JPS60262199A (ja) 1984-06-08 1984-06-08 母音区間検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59118855A JPS60262199A (ja) 1984-06-08 1984-06-08 母音区間検出装置

Publications (1)

Publication Number Publication Date
JPS60262199A true JPS60262199A (ja) 1985-12-25

Family

ID=14746804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59118855A Pending JPS60262199A (ja) 1984-06-08 1984-06-08 母音区間検出装置

Country Status (1)

Country Link
JP (1) JPS60262199A (ja)

Similar Documents

Publication Publication Date Title
JPS5844500A (ja) 音声認識方式
JP3354252B2 (ja) 音声認識装置
JPS60262199A (ja) 母音区間検出装置
JP2564821B2 (ja) 音声判定検出装置
JPH03114100A (ja) 音声区間検出装置
JPH0558551B2 (ja)
JP3032215B2 (ja) 有音検出装置及びその方法
JP3125928B2 (ja) 音声認識装置
JPS60262198A (ja) 子音区間検出装置
JPS63235999A (ja) 音声始端検出装置
JP3008404B2 (ja) 音声認識装置
JPS6136240B2 (ja)
JPS6146998A (ja) 音声始端検出装置
JPS6227798A (ja) 音声認識装置
JPS6217800A (ja) 音声区間判定方式
JP2643202B2 (ja) 入力音声の定常部、過渡部、不確定部の検出装置
JPS59143199A (ja) ピツチ抽出方法
JPH0690631B2 (ja) 音声認識方法
JPS63257797A (ja) 音声始端検出装置
JPS62191893A (ja) ピツチ抽出装置
JPH02165198A (ja) 音声認識装置
JPH04251299A (ja) 音声区間検出方法
JPH01165000A (ja) 音韻区間情報形成装置
JPS63223696A (ja) 音声パタ−ン作成方式
JPS62238598A (ja) 音声認識装置