JPH02232699A

JPH02232699A - 音声認識装置

Info

Publication number: JPH02232699A
Application number: JP5324589A
Authority: JP
Inventors: Makoto Akune; 誠阿久根; Makoto Akaha; 誠赤羽
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1989-03-06
Filing date: 1989-03-06
Publication date: 1990-09-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は、音声認識装置、特に入力音声のパワースペ
クトルのピークに対しピークエッジを設定し、このピー
クエッジに基づいて得られる情報を音韻認識に有用な音
鎖特徴情報とすることを意図した音声認識装置に関する
．〔発明の概要〕この発明は、゛音゛声認識装置において、入力音声のパ
ワーの周波数的変化のピークを検出し、ビークに対して
パワーが所定量小さいピークエッジを検出し、ピークエ
ッジに基づいて得られる情報を入力音声の音韻的特徴と
するようにしたことにより、ピークエッジに基づいて入
力音声の音韻特徴情報を得ることができ、音ｆｉｌ認識
の精度を向上できるようにしたものである．〔従来の技術〕従来から音韻認識、音声認識ではホルマントは有用なパ
ラメータであることが知られており、例えば、バンドバ
スフィルタバンクによって得られた入力音声のパワース
ペクトルに於ける複数のピーク周波数がホルマントとし
て用いられていた．このような従来技術では、パワース
ペクトルは、主にピーク位置の検出に用いられるに止ま
っていた．〔発明が解決しようとする課題〕しかしながら、上述のようにパワースペクトルからピー
ク位置情報を検出して用いるだけでは、音鱈認識に際し
ての情報が十分とはいい難《、音韻認識の精度が不十分
になる場合があるという問題点があった．従ってこの発明の目的は、ピークエッジに基づいて音ｓ
ｉ！識に有用な情報を得られる音声認識装置を提供する
ことにある．Ｃ諜題を解決するための手段）この発明は、入力音声のパワーの周波数的変化のピーク
を検出し、ピークに対してパワーが所定量小さいピーク
エッジを検出し、ピークエッジに基づいて得られる情報
を入力音声の音韻的特徴とした構成としている。

Ｃ作用〕入力音声のパワースペクトルを求め、パワースペクトル
におけるピークを全て検出する．そして、このピークレ
ベルに対してパワーが所定量小さい点、即ちピークエッ
ジを検出する．このピークエッジに基づいて、音韻認識
に有用な音韻特徴情報、例えば、帯域幅、エネルギー集
中帯域、カットオフ周波数等を得ることができる．この
結果、音鑵ｌｍ！識の精度を向上させることができる．
（実施例〕以下、この発明の一実施例について第１図乃至第１０図
を参照して説明する．第１図は、この発明に係る音声認識装置の例を示す．マイクロホン１からの音声信号が、アンブ２及びローバ
スフィルタ３を介して、ＡＩＤ変換回路４に供給される
．上述の音声信号は、Ａ／Ｄ変換回路４にて、例えば、
１２．５　Ｋ｝ｆｚのサンプリング周波数で１２ビット
のデジタル音声信号に変換される．このデジタル音声信
号は、音響分析手段５に供給される．音響分析手段５は、バンドバスフィルタバンクを有する
過渡検出パラメータ生成手段５１と、音声パワーを検出
する対数パワー検出手段５２と、ゼロクロスレート演算
手段５３と、隣接サンプルの相間関係をみるための１次
のバーコール係数の演算手段５４と、パワースペクトル
の傾きの演算手段５５と、音声の基本周期の検出手段５
６を備える．過渡検出パラメータは、入力音声の過渡性及び定常性を
検出するためのもので、この過渡検出パラメータは、音
声スペクトルの変化量を各チャンネル（周波数）の時間
方向のブロック内の分散の和として定義される．即ち、
音声スペクトルＳｉ（ｒ＋）を周波数方向の以下に示す
平均値Ｓａｖｇ（ｎ）でゲインを正規化する．ここで、１はチャンネル番号、ｑはチャンネル数（バン
ドパスフィルタ数）を示す．また、ｑチャンネルの各チ
ャンネルの情報は時間方向にサンプリングされるが、同
一時点のｑチャンネルの情報のブロックをフレームとい
い、ｎはＩ’ｌｌに使用されるフレームの番号を示して
いる．ゲイン正規化の行われた音声スペクトルＳｉ（ｎ）は、Ｓ　ｌ　（ｎ）＝　Ｓ　ｉ　（ｎ）　一Ｓ　ａｖｇ（ｎ
）・−＝−｛２）となり、過渡検出パラメータＴ　（ｎ
）は、そのフレームの前後のｈフレームの合計（２Ｍ÷
１）である（ｎ−Ｍ，ＩＭ　）ブロック内の各チャンネ
ルの時間方向の分散の和として定義される．ここで、Ａ　ｉ　（ｎ）　＝−Σ　Ｓ　Ｉ（ｙ＋ｊ）／　（２Ｍ
＋１）　・−＝−（４）Ｊ−一関であり、各チャンネルのブロック内の時間方向の平均値
である．実際的には、（ｎ−Ｌｎ＋Ｍ　）ブロック中心付近の変
化は、音の揺らぎ或いはノイズを拾い易いので、過渡検
出パラメータＴ　（ｎ）の計算から取や除くこととし、
第（３）式は次のように変形される．そして、第（５）
式において、ａ＝１、Ｍ−２８、Ｉ−３、ｑ−３２とし
て過渡検出パラメータＴ（ｎ）が求められる．例えば、
「あさ（ａｓａ）　Ｊという入力音声の場合、第２図Ａ
のような過渡検出パラメータＴ　（ｎ）が得られる．他のパラメータ、例えば、第２図Ｂに示される対数パワ
ー、第２図Ｃに示されるゼロクロスレート、第２図Ｄに
示される１次のバーコール係数、第２図Ｅに示されるパ
ワースペクトルの傾き、第２図Ｆに示される基本周期等
のパラメータの演算も過渡検出パラメータＴ　（ｎ）　
と同様に、或′る時点（フレーム）を中心としてその前
後にｈフレーム分の時間幅を有するウインドーを考え、
ウインドーを順次、１サンプル点ずつ時間方向に移動さ
せ、各ウインドー内で夫々演算を行うことにより得られ
る．尚、第２図Ｇには、入力音声「あさ（ａｓａ）」の
音声波形と、音韻境界候補の例を示す．音響分析手段５
から得られた各パラメータは認識処理用パラメータとし
て、音韻認識手段８に供給される．また、手段５１〜５
５から出力される各パラメータはセグメンテーシジン用
パラメータとして第１セグメンテーシゴン手段６の特徴
点抽出手段６ｌに供給される．そして、手段５ｌにおけ
るバンドバスフィルタバンクからの出力がビーキング処
理回路ｌ１に供給される．ピーキング処理回路１１は、第３図に示されるように、
ピーク検出回路１２と、ピークエッジ検出回路１３とか
ら構成される．バンドパスフィルタバンク５１からの出力がパワースペ
クトルとして単位時間毎にピーク検出回路１２に供給さ
れると、周波数軸方向でパワースペクトルのピークが検
出される．得られたパワースペクトルが、例えば第４図
に示されるようなものである場合、ビークＰＰＩ，ＰＰ
２が検出される．このビークＰＰＩ、ＰＰ２及びパワー
スペクトルの周波数変化が次段のピークエッジ検出回路
１３に供給されると、ビークＰＰの両側に、パワーが所
定レベル低下している点、例えば３ｄＢ低下している点
がピークエッジＰＨＩ、ＰＥ２、ＰＥ３として検出され
、端子１４から取出される。ピークエッジＰεを設定す
ることにより、パワースペクトルの波形に対応して種々
の音頷特徴情報が得られる．第５図に示される波形では
、ピークＰＰ５に対して３ｄＢ低下した点がピークエッ
ジＰＥ５１、ＰＨ５２として検出される．これから、両
ピークエッジＰＥ５１、ＰＨ５２間の帯域幅〔例えばホ
ルマントの帯域幅〕Ｗｆの情報が得られる．第６図に示される波形では、ピークＰＰ６に対し第５図
と同様にして、ピークエッジＰＥ６１、ＰＥ６２が検出
される．これから、両ピークエツジＰＥ６１，　Ｐε６
２間にエネルギー集中９ＭＷＥの情報が得られる．これ
は特に子音ｒｓａＳｓｈｉ　、ｓｕ，　ｓｅｓ　５０Ｊ
のように高域にエネルギが集中する音鎖の判別を可能と
する．第７図に示される波形では、ビークＰＰ７に対して３ｄ
Ｂ低下した点がピークエッジＰＨ７として検出される．
これから、ピークエッジＰＨ７に対応する周波数がカッ
トオフ周波数ｆＣの情報として得られる．これは、特に
音声エネルギの偏りの判別に使用でき、例えば’ｓ　Ｓ
ｓｈ，　ｓｈｉ　Ｊのような子音の判別に使用できる．この例では、ビークＰＰから３ｄＢ低下した点をピーク
エッジＰＨとして検出する例を示しているが、例えば、
第８図に示すように、若し、ビークＰＰ８から３ｄＢ低
下している点の無い場合には、３ｄＢ以上低下している
点、例えば４．５　ｄＢ低下した点ＢをピークエッジＰ
Ｈ８とする．但し、この例に限定されることはな＜、３
ｄＢを基準として差の少ない方をピークエッジＰεとし
て検出してもよい．例えば、第８図には、２．５ｄＢ低
下した点Ａと、４．５　ｄＢ低下した点Ｂがあるが、３
ｄＢとの差の少ない点ＡをピークエッジＰＨ８としても
よい．尚、ピークエッジＰｇを時間軸方向にトラッキン
グし、その情報を音韻認識に用いても良い．このように、入力音声のパワースペクトルから得られる
ピークＰＰに対してパワーが３ｄＢ小さいピークエッジ
ＰＥを検出することにより、ピークエッジＰＨに基づい
て音餞特徴情報、例えば帯域幅Ｗｆ、エネルギ集中帯域
ＷＥ、カットオフ周波数ｆＣ等を得ることができる．ビ
ークＰＰ及びビークエッジＰＨの情報、そして帯域幅Ｗ
ｆ、エネルギー集中帯域ＷＥ　、カットオフ周波数ｆＣ
等の情報は音韻特徴情報として音韻認識手段８に供給さ
れる．これによって、音韻Ｌｌｗｉの精度を向上できる
．ところで、ピークエッジを求める他の方法として、近
似がある．第９図及び第１０図には、２次曲線で近似す
る例を示す．第９図に示される例では、ビークＰＰ９と、その前後の
２点Ｃ，Ｄから２次曲線を求めて近偵し、この２次曲線
から新たなビークＰＰ９１と、ピークエッジＰＨ９１，
　ＰＥ９２を求めるものである．第ｌＯ図に示される例
も、ビークＰＰＩＯと、その前後の２点Ｅ，Ｆから２次
曲線を求めて近似し、この２次曲線から新たなビークＰ
ＰＩＯＩ　と、ピークエッジＰＩｌ’ｌ０１　、ＰＥ１
０２を求めるものである．しかしながら、このような近
似によるピークエッジＰＥの検出は、誤差が多くなり、
特に第１０図のように３点が平坦に近くなると、第１０
図実線に示される近似して求めたピークエッジＰＨＩＯ
Ｉ、ＰＩ！１０２と、第１０図一点鎖線に示される実際
のビークエッジＰＥ１０５　、ＰＨ１０６のズレが大き
くなり、ピークエッジＰＥによって規定される帯域幅Ｗ
ｆＲＷｆＮの差が増大してしまうことがある．第１セグ
メンテーシ町ン手段６では、セグメンテーシゴン用パラ
メータから音韻境界候補を求めるために、一般的な特徴
点を抽出する．この例では、特徴点として次の７種を用
いる． ■立上がり点一平坦な部分から増加方向に変化する点 ■立下がり点一減少方向に変化した後、平坦になる部分
の点 ■増加変化点一増加率が変化する点 ■減少変化点一減少率が変化する点 ■ピーク点一ビークの位置 ■正のゼロクロス点一増加方向で零レベルと交差する点 ■負のゼロクロス点一減少方向で零レベルと交差する点特徴点抽出手段６ｌでは、特徴点情報記憶手段６２から
の特徴点情報を参照して各パラメータ毎に特徴点を抽出
する．第２図Ａ−Ｅの各パラメータ中、時間軸方向に対
し縦線で示す位置が各特徴点の位置である．第１セグメ
ンテーシジン手段６から得られ、特徴点の付された各パ
ラメータは、第２セグメンテーシッン手段７の特徴点統
合処理手段７１に供給される．第２セグメンテーシゴン手段７は、特徴点統合処理手段
７ｌと、音韻境界特徴検出手段７２と、特徴点統合情報
記憶手段７３と、音韻境界特徴情報記憶手段７４とから
なる．第１セグメンテーシゴン手段６で求めた特徴点はパラメ
ータ毎に位置ズレ、未検出等があるので、特徴点統合処
理手段７１にて特徴点統合情報記憶手段７３からの特徴
点統合情報を参照し各パラメータの特徴点をまとめ音韻
境界候補を決定する．特徴点統合情報は、どのパラメー
タの特徴点を優先するかについての情報である．音韻境界特徴検出手段７２では、各音韻境界候補の音韻
境界特徴を求める．この例では８種類の音韻境界特徴が
用いられている． ■無音からの立上がり（Ｓ−Ｒ） ■子音性→母音性（Ｃ−Ｖ） ■子音性→子音性（Ｃ−Ｃ） ■母音性→母音性（Ｖ−Ｖ） ■母音性への立下がり（Ｖ−Ｆ） ■母音性→子音性（Ｖ−Ｃ） ■無音への立下がり（Ｆ−Ｓ） ■有音→無音（Ｓ−Ｓ）音韻境界特徴情報記憶手段７４には、これら８種類の音
韻境界特徴情報が記憶されており、音韻境界特徴検出手
段７２では、音韻境界特徴情報記憶手段７４からの情報
を参照して各音韻境界候補の音韻境界特徴を検出する．
この結果、第２図Ｇに示されるように音韻境界特徴が音
韻境界候補の縦線の近傍に示されている．第２セグメンテーシッン手段７からは、音韻区間情報と
して、音韻境界候補情報と、その音韻境界特徴情報が得
られ、この音韻区間情報が音ａ認識手段８に供給される
．音韻認識手段８では、音響分析手段５から供給される各
パラメータを認識処理用パラメータとし、ビーキング処
理回路１１からの音韻特徴情報と第２セグメンテーシッ
ン手段７からの音韻区間情報を参照しながら音ｆｌｖＡ
！Ｉｔを実行する．そして、音ｎ！！識手段８からは、
認識された音韻記号が得られ、これが後段の連続音声、
大語霊音声！！識手段に供給される．この実施例では、ハードウエアで構成する例について説
明しているが、第１、第２セグメンテーシッン手段６、
７、音響分析手段５の演算部分、ビーキング処理回路１
１、音韻認識手段８等はコンピュータにより実現しても
よい．〔発明の効果〕この発明によれば、入力音声のパワースペクトルのピー
クの特徴量としてピークエッジを新たに抽出でき、この
ピークエッジに基づいて入力音声の音鎮特徴情報、例え
ば帯域幅、エネルギー集中帯域、カットオフ周波数等が
得られるという効果がある．また、音韻認識に際して、
音韻特徴情報を用いることかできるので、音韻認識の精
度を向上できるという効果がある．

【図面の簡単な説明】

第１図はこの発明の一実施例を示すブロック図、第２図
は夫々実施例を説明するための波形図、第３図はピーキ
ング処理回路を示すブロック図、第４図乃至第８図は夫
々実施例を説明するための説明図、第９図及び第１０図
は夫々曲線近似を説明するための説明図である．図面における主要な符号の説明８：音！ｌＩａ！識手段、１　１　：　ヒ−−＋７ク処
理ａ路、ｌ２：ビーク検出回路、ｌ３：ピークエッジ検
出回路．

Claims

【特許請求の範囲】

入力音声のパワーの周波数的変化のピークを検出し、上
記ピークに対してパワーが所定量小さいピークエッジを
検出し、上記ピークエッジに基づいて得られる情報を上
記入力音声の音韻的特徴とするようになした音声認識装
置。