JPH02232699A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH02232699A
JPH02232699A JP5324589A JP5324589A JPH02232699A JP H02232699 A JPH02232699 A JP H02232699A JP 5324589 A JP5324589 A JP 5324589A JP 5324589 A JP5324589 A JP 5324589A JP H02232699 A JPH02232699 A JP H02232699A
Authority
JP
Japan
Prior art keywords
peak
information
phoneme
point
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5324589A
Other languages
English (en)
Inventor
Makoto Akune
誠 阿久根
Makoto Akaha
誠 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP5324589A priority Critical patent/JPH02232699A/ja
Publication of JPH02232699A publication Critical patent/JPH02232699A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、音声認識装置、特に入力音声のパワースペ
クトルのピークに対しピークエッジを設定し、このピー
クエッジに基づいて得られる情報を音韻認識に有用な音
鎖特徴情報とすることを意図した音声認識装置に関する
. 〔発明の概要〕 この発明は、゛音゛声認識装置において、入力音声のパ
ワーの周波数的変化のピークを検出し、ビークに対して
パワーが所定量小さいピークエッジを検出し、ピークエ
ッジに基づいて得られる情報を入力音声の音韻的特徴と
するようにしたことにより、ピークエッジに基づいて入
力音声の音韻特徴情報を得ることができ、音fil認識
の精度を向上できるようにしたものである. 〔従来の技術〕 従来から音韻認識、音声認識ではホルマントは有用なパ
ラメータであることが知られており、例えば、バンドバ
スフィルタバンクによって得られた入力音声のパワース
ペクトルに於ける複数のピーク周波数がホルマントとし
て用いられていた.このような従来技術では、パワース
ペクトルは、主にピーク位置の検出に用いられるに止ま
っていた. 〔発明が解決しようとする課題〕 しかしながら、上述のようにパワースペクトルからピー
ク位置情報を検出して用いるだけでは、音鱈認識に際し
ての情報が十分とはいい難《、音韻認識の精度が不十分
になる場合があるという問題点があった. 従ってこの発明の目的は、ピークエッジに基づいて音s
i!識に有用な情報を得られる音声認識装置を提供する
ことにある. C諜題を解決するための手段) この発明は、入力音声のパワーの周波数的変化のピーク
を検出し、ピークに対してパワーが所定量小さいピーク
エッジを検出し、ピークエッジに基づいて得られる情報
を入力音声の音韻的特徴とした構成としている。
C作用〕 入力音声のパワースペクトルを求め、パワースペクトル
におけるピークを全て検出する.そして、このピークレ
ベルに対してパワーが所定量小さい点、即ちピークエッ
ジを検出する.このピークエッジに基づいて、音韻認識
に有用な音韻特徴情報、例えば、帯域幅、エネルギー集
中帯域、カットオフ周波数等を得ることができる.この
結果、音鑵lm!識の精度を向上させることができる.
(実施例〕 以下、この発明の一実施例について第1図乃至第10図
を参照して説明する. 第1図は、この発明に係る音声認識装置の例を示す. マイクロホン1からの音声信号が、アンブ2及びローバ
スフィルタ3を介して、AID変換回路4に供給される
.上述の音声信号は、A/D変換回路4にて、例えば、
12.5 K}fzのサンプリング周波数で12ビット
のデジタル音声信号に変換される.このデジタル音声信
号は、音響分析手段5に供給される. 音響分析手段5は、バンドバスフィルタバンクを有する
過渡検出パラメータ生成手段51と、音声パワーを検出
する対数パワー検出手段52と、ゼロクロスレート演算
手段53と、隣接サンプルの相間関係をみるための1次
のバーコール係数の演算手段54と、パワースペクトル
の傾きの演算手段55と、音声の基本周期の検出手段5
6を備える. 過渡検出パラメータは、入力音声の過渡性及び定常性を
検出するためのもので、この過渡検出パラメータは、音
声スペクトルの変化量を各チャンネル(周波数)の時間
方向のブロック内の分散の和として定義される.即ち、
音声スペクトルSi(r+)を周波数方向の以下に示す
平均値Savg(n)でゲインを正規化する. ここで、1はチャンネル番号、qはチャンネル数(バン
ドパスフィルタ数)を示す.また、qチャンネルの各チ
ャンネルの情報は時間方向にサンプリングされるが、同
一時点のqチャンネルの情報のブロックをフレームとい
い、nはI’llに使用されるフレームの番号を示して
いる. ゲイン正規化の行われた音声スペクトルSi(n)は、 S l (n)= S i (n) 一S avg(n
)・−=−{2)となり、過渡検出パラメータT (n
)は、そのフレームの前後のhフレームの合計(2M÷
1)である(n−M,IM )ブロック内の各チャンネ
ルの時間方向の分散の和として定義される. ここで、 A i (n) =−Σ S I(y+j)/ (2M
+1) ・−=−(4)J−一関 であり、各チャンネルのブロック内の時間方向の平均値
である. 実際的には、(n−Ln+M )ブロック中心付近の変
化は、音の揺らぎ或いはノイズを拾い易いので、過渡検
出パラメータT (n)の計算から取や除くこととし、
第(3)式は次のように変形される.そして、第(5)
式において、a=1、M−28、I−3、q−32とし
て過渡検出パラメータT(n)が求められる.例えば、
「あさ(asa) Jという入力音声の場合、第2図A
のような過渡検出パラメータT (n)が得られる. 他のパラメータ、例えば、第2図Bに示される対数パワ
ー、第2図Cに示されるゼロクロスレート、第2図Dに
示される1次のバーコール係数、第2図Eに示されるパ
ワースペクトルの傾き、第2図Fに示される基本周期等
のパラメータの演算も過渡検出パラメータT (n) 
と同様に、或′る時点(フレーム)を中心としてその前
後にhフレーム分の時間幅を有するウインドーを考え、
ウインドーを順次、1サンプル点ずつ時間方向に移動さ
せ、各ウインドー内で夫々演算を行うことにより得られ
る.尚、第2図Gには、入力音声「あさ(asa)」の
音声波形と、音韻境界候補の例を示す.音響分析手段5
から得られた各パラメータは認識処理用パラメータとし
て、音韻認識手段8に供給される.また、手段51〜5
5から出力される各パラメータはセグメンテーシジン用
パラメータとして第1セグメンテーシゴン手段6の特徴
点抽出手段6lに供給される.そして、手段5lにおけ
るバンドバスフィルタバンクからの出力がビーキング処
理回路l1に供給される. ピーキング処理回路11は、第3図に示されるように、
ピーク検出回路12と、ピークエッジ検出回路13とか
ら構成される. バンドパスフィルタバンク51からの出力がパワースペ
クトルとして単位時間毎にピーク検出回路12に供給さ
れると、周波数軸方向でパワースペクトルのピークが検
出される.得られたパワースペクトルが、例えば第4図
に示されるようなものである場合、ビークPPI,PP
2が検出される.このビークPPI、PP2及びパワー
スペクトルの周波数変化が次段のピークエッジ検出回路
13に供給されると、ビークPPの両側に、パワーが所
定レベル低下している点、例えば3dB低下している点
がピークエッジPHI、PE2、PE3として検出され
、端子14から取出される。ピークエッジPεを設定す
ることにより、パワースペクトルの波形に対応して種々
の音頷特徴情報が得られる.第5図に示される波形では
、ピークPP5に対して3dB低下した点がピークエッ
ジPE51、PH52として検出される.これから、両
ピークエッジPE51、PH52間の帯域幅〔例えばホ
ルマントの帯域幅〕Wfの情報が得られる. 第6図に示される波形では、ピークPP6に対し第5図
と同様にして、ピークエッジPE61、PE62が検出
される.これから、両ピークエツジPE61, Pε6
2間にエネルギー集中9MWEの情報が得られる.これ
は特に子音rsaSshi 、su, ses 50J
のように高域にエネルギが集中する音鎖の判別を可能と
する. 第7図に示される波形では、ビークPP7に対して3d
B低下した点がピークエッジPH7として検出される.
これから、ピークエッジPH7に対応する周波数がカッ
トオフ周波数fCの情報として得られる.これは、特に
音声エネルギの偏りの判別に使用でき、例えば’s S
sh, shi Jのような子音の判別に使用できる. この例では、ビークPPから3dB低下した点をピーク
エッジPHとして検出する例を示しているが、例えば、
第8図に示すように、若し、ビークPP8から3dB低
下している点の無い場合には、3dB以上低下している
点、例えば4.5 dB低下した点BをピークエッジP
H8とする.但し、この例に限定されることはな<、3
dBを基準として差の少ない方をピークエッジPεとし
て検出してもよい.例えば、第8図には、2.5dB低
下した点Aと、4.5 dB低下した点Bがあるが、3
dBとの差の少ない点AをピークエッジPH8としても
よい.尚、ピークエッジPgを時間軸方向にトラッキン
グし、その情報を音韻認識に用いても良い. このように、入力音声のパワースペクトルから得られる
ピークPPに対してパワーが3dB小さいピークエッジ
PEを検出することにより、ピークエッジPHに基づい
て音餞特徴情報、例えば帯域幅Wf、エネルギ集中帯域
WE、カットオフ周波数fC等を得ることができる.ビ
ークPP及びビークエッジPHの情報、そして帯域幅W
f、エネルギー集中帯域WE 、カットオフ周波数fC
等の情報は音韻特徴情報として音韻認識手段8に供給さ
れる.これによって、音韻Llwiの精度を向上できる
.ところで、ピークエッジを求める他の方法として、近
似がある.第9図及び第10図には、2次曲線で近似す
る例を示す. 第9図に示される例では、ビークPP9と、その前後の
2点C,Dから2次曲線を求めて近偵し、この2次曲線
から新たなビークPP91と、ピークエッジPH91,
 PE92を求めるものである.第lO図に示される例
も、ビークPPIOと、その前後の2点E,Fから2次
曲線を求めて近似し、この2次曲線から新たなビークP
PIOI と、ピークエッジPIl’l01 、PE1
02を求めるものである.しかしながら、このような近
似によるピークエッジPEの検出は、誤差が多くなり、
特に第10図のように3点が平坦に近くなると、第10
図実線に示される近似して求めたピークエッジPHIO
I、PI!102と、第10図一点鎖線に示される実際
のビークエッジPE105 、PH106のズレが大き
くなり、ピークエッジPEによって規定される帯域幅W
fRWfNの差が増大してしまうことがある.第1セグ
メンテーシ町ン手段6では、セグメンテーシゴン用パラ
メータから音韻境界候補を求めるために、一般的な特徴
点を抽出する.この例では、特徴点として次の7種を用
いる. ■立上がり点一平坦な部分から増加方向に変化する点 ■立下がり点一減少方向に変化した後、平坦になる部分
の点 ■増加変化点一増加率が変化する点 ■減少変化点一減少率が変化する点 ■ピーク点一ビークの位置 ■正のゼロクロス点一増加方向で零レベルと交差する点 ■負のゼロクロス点一減少方向で零レベルと交差する点 特徴点抽出手段6lでは、特徴点情報記憶手段62から
の特徴点情報を参照して各パラメータ毎に特徴点を抽出
する.第2図A−Eの各パラメータ中、時間軸方向に対
し縦線で示す位置が各特徴点の位置である.第1セグメ
ンテーシジン手段6から得られ、特徴点の付された各パ
ラメータは、第2セグメンテーシッン手段7の特徴点統
合処理手段71に供給される. 第2セグメンテーシゴン手段7は、特徴点統合処理手段
7lと、音韻境界特徴検出手段72と、特徴点統合情報
記憶手段73と、音韻境界特徴情報記憶手段74とから
なる. 第1セグメンテーシゴン手段6で求めた特徴点はパラメ
ータ毎に位置ズレ、未検出等があるので、特徴点統合処
理手段71にて特徴点統合情報記憶手段73からの特徴
点統合情報を参照し各パラメータの特徴点をまとめ音韻
境界候補を決定する.特徴点統合情報は、どのパラメー
タの特徴点を優先するかについての情報である. 音韻境界特徴検出手段72では、各音韻境界候補の音韻
境界特徴を求める.この例では8種類の音韻境界特徴が
用いられている. ■無音からの立上がり(S−R) ■子音性→母音性(C−V) ■子音性→子音性(C−C) ■母音性→母音性(V−V) ■母音性への立下がり(V−F) ■母音性→子音性(V−C) ■無音への立下がり(F−S) ■有音→無音(S−S) 音韻境界特徴情報記憶手段74には、これら8種類の音
韻境界特徴情報が記憶されており、音韻境界特徴検出手
段72では、音韻境界特徴情報記憶手段74からの情報
を参照して各音韻境界候補の音韻境界特徴を検出する.
この結果、第2図Gに示されるように音韻境界特徴が音
韻境界候補の縦線の近傍に示されている. 第2セグメンテーシッン手段7からは、音韻区間情報と
して、音韻境界候補情報と、その音韻境界特徴情報が得
られ、この音韻区間情報が音a認識手段8に供給される
. 音韻認識手段8では、音響分析手段5から供給される各
パラメータを認識処理用パラメータとし、ビーキング処
理回路11からの音韻特徴情報と第2セグメンテーシッ
ン手段7からの音韻区間情報を参照しながら音flvA
!Itを実行する.そして、音n!!識手段8からは、
認識された音韻記号が得られ、これが後段の連続音声、
大語霊音声!!識手段に供給される. この実施例では、ハードウエアで構成する例について説
明しているが、第1、第2セグメンテーシッン手段6、
7、音響分析手段5の演算部分、ビーキング処理回路1
1、音韻認識手段8等はコンピュータにより実現しても
よい. 〔発明の効果〕 この発明によれば、入力音声のパワースペクトルのピー
クの特徴量としてピークエッジを新たに抽出でき、この
ピークエッジに基づいて入力音声の音鎮特徴情報、例え
ば帯域幅、エネルギー集中帯域、カットオフ周波数等が
得られるという効果がある.また、音韻認識に際して、
音韻特徴情報を用いることかできるので、音韻認識の精
度を向上できるという効果がある.
【図面の簡単な説明】
第1図はこの発明の一実施例を示すブロック図、第2図
は夫々実施例を説明するための波形図、第3図はピーキ
ング処理回路を示すブロック図、第4図乃至第8図は夫
々実施例を説明するための説明図、第9図及び第10図
は夫々曲線近似を説明するための説明図である. 図面における主要な符号の説明 8:音!lIa!識手段、1 1 : ヒ−−+7ク処
理a路、l2:ビーク検出回路、l3:ピークエッジ検
出回路.

Claims (1)

    【特許請求の範囲】
  1. 入力音声のパワーの周波数的変化のピークを検出し、上
    記ピークに対してパワーが所定量小さいピークエッジを
    検出し、上記ピークエッジに基づいて得られる情報を上
    記入力音声の音韻的特徴とするようになした音声認識装
    置。
JP5324589A 1989-03-06 1989-03-06 音声認識装置 Pending JPH02232699A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5324589A JPH02232699A (ja) 1989-03-06 1989-03-06 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5324589A JPH02232699A (ja) 1989-03-06 1989-03-06 音声認識装置

Publications (1)

Publication Number Publication Date
JPH02232699A true JPH02232699A (ja) 1990-09-14

Family

ID=12937411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5324589A Pending JPH02232699A (ja) 1989-03-06 1989-03-06 音声認識装置

Country Status (1)

Country Link
JP (1) JPH02232699A (ja)

Similar Documents

Publication Publication Date Title
EP0219712B1 (en) Method of and system for speech recognition
US20070129941A1 (en) Preprocessing system and method for reducing FRR in speaking recognition
JPH0312319B2 (ja)
US11790931B2 (en) Voice activity detection using zero crossing detection
US20220130405A1 (en) Low Complexity Voice Activity Detection Algorithm
JPH02232699A (ja) 音声認識装置
JPH0449952B2 (ja)
JP2992324B2 (ja) 音声区間検出方法
US12118987B2 (en) Dialog detector
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
US20060178881A1 (en) Method and apparatus for detecting voice region
JP3008404B2 (ja) 音声認識装置
JPH04100099A (ja) 音声検出装置
JP2666296B2 (ja) 音声認識装置
JP3032215B2 (ja) 有音検出装置及びその方法
JPH0114599B2 (ja)
Gulzar et al. An improved endpoint detection algorithm using bit wise approach for isolated, spoken paired and Hindi hybrid paired words
JPH0556520B2 (ja)
JPS61233791A (ja) 音声認識装置における音声区間検出方式
JP2643202B2 (ja) 入力音声の定常部、過渡部、不確定部の検出装置
JPS62159195A (ja) 音声パタン作成方法
JPH0376471B2 (ja)
WO2022093702A1 (en) Improved voice activity detection using zero crossing detection
JP2608702B2 (ja) 音声認識における音声区間検出方法
JPH02232698A (ja) 音声認識装置