JPS5995597A

JPS5995597A - 音声特徴パラメ−タ作成方式

Info

Publication number: JPS5995597A
Application number: JP57207179A
Authority: JP
Inventors: 徹上田; 厚夫田中
Original assignee: Computer Basic Technology Research Association Corp
Current assignee: Computer Basic Technology Research Association Corp
Priority date: 1982-11-25
Filing date: 1982-11-25
Publication date: 1984-06-01

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】く技術分野〉本発明は音声認識装置等において用いられる特徴パラメ
ータの作成方式に関し、更に詳細には特徴ベクトルの時
系列の長さの正規化に改良を加えたものである。

〈従来技術〉従来、特徴ベクトルの時系列を正規化する場合には全体
を線形に伸縮させる方法が一般にとられている。

しかし、単音節音声を認識する場合、入力音声から抽出
された特徴ベクトルの時系列の前端部に出現する子音及
び子音から母音へのわたりといわれる部分に他の音節と
区別される情報が多く含まれており、従来の如く線形に
伸縮すると、その部分の情報が太き《損われてしまう問
題点があった。

この事は、また単音節音声だけでなく、アルファベット
等の音節長の短かい音声の場合にも同様の問題が生じる
。

く目的〉本発明は、このような従来の問題点を除去した音声特徴
パラメータ作成方式を提供することを目的として成され
たもので、本発明は入力音声が音声区間抽出部及び特徴
パラメータ抽出部を通って特徴ベクトルの時系列となっ
たものに対して，全体の長さを圧縮または伸長して時間
軸を正規化する場合、特徴ベクトルの時系列の前端の複
数フレームをそのまま取り入れ、後方を伸縮させて、前
端部に重みを持たせるようにして、認識率の向上を図る
ことが出来るようにしたものである。

〈実施例〉以下、本発明の詳細な説明する。

第１図は本発明の音声特徴パラメータ作成方式の適用可
能な音声認識装置の一例を示すブロック図である。

第１図において、発声された入力音声はマイクロホン等
の検出器１により電気信号に変換される。

この検出器１は、人の可聴周波数である２０数Ｈｚ〜１
５ＫＨｚ程度の周波数を検出することが出来、特に人の
会話音声領域の周波数を歪なく検出し得るものが好まし
い。この検出器１の出力側には増幅器２が接続される。

この増幅器２は前記の音声周波数を歪なく増″幅し得る
ものが好ましい。この増幅器２の出力側に音声区間抽出
部３が接続され、この音声区間抽出部３により音声の識
別開始タイミングと識別終了タイミングが与えられ、こ
の音声区間内の音声信号が次段の特徴パラメータ抽出部
４に与えられる。

特徴パラメータ抽出部４は例えば互に籾通過帯域を異な
らせた複数個の帯域フィルタと各帯域フィルタの出力を
ホールドするサンプルホールド回路と、このサンプルホ
ールド回路の出力を順次１０ミリ程度の間隔でサンプリ
ングするアナログスイッチと、このアナログスイッチの
出力を例えば１２ビツトのデジタル信号に変換して特徴
パラメータＰ１を出力するＡ／Ｄ変換器と、このＡ／Ｄ
変換器の出力を対数変換する対数化部より構成されてい
る。

また上記特徴パラメータ抽出部４により抽出された対数
変換された特徴パラメータが次段のパワー正規化部５及
び時間軸正規化部６を通って正規化され、この正規化さ
れた特徴パラメータと標準パターンメモリ７に記憶され
た標準特徴パラメータトカマッチング部８により比較さ
れて入力音声が認識され、その結果が出力部１ｏに出力
されるように構成されている。

上記時間軸正規化部６は上記特徴パラメータ抽出部４に
より抽出された複数フレームの特徴パラメータを固定フ
レーム数に変換するように動作し、例えばマイクロプロ
セッサにより第２図に示す如き正規化処理動作を実行す
るように構成されている。

即ち、今音声区間抽出部２により区切られた音声区間が
Ｍフレームあったとする（ステップｎ１〜ｎ３）。また
各フレームにおける特徴ベクトルをト（１）で表わし、
正規化された特徴ベクトルをｌｂ　（ｉ）で表わし、正
規化前のフレーム番号を工、正規化後のフレーム番号を
Ｊ、正規化フレーム数をＮとすると１次の如き過程（第
２図参照）により正規化処理が実行される。

（ｉ）Ｍ＞Ｎの場合第にフレームまでは無条件に採用する（−ｎ４〜ｎ８の
繰返し〕。

残りの（Ｍ−Ｋ）フレームを（Ｎ−Ｋ）個の区間に分け
る（ｎ４〜ｎ７．ｎ９の繰返し）。

（ｉｔ）　　Ｍ　＜　Ｎの場合第にフレームまでは無条件に採用する（ｎ４〜ｎ６．ｎ
ｌＯ，ｎ＋２．ｎｌｌの繰返し）。

残りの（Ｍ−Ｋ　）フレームを（Ｎ　−Ｋ　’）個の区
間に分ける（ｎ４〜０６．ｎｌＯ，ｎ１２．ｎ１３の繰
返し〕。

（ｆｉｉ）　　Ｍ　＝　Ｎの場合全てのフレームを無条件に採用する（ｎ４〜ｎ５゜ｎｌ
Ｏ，ｎ、１１の繰返し）。

上記の如き処理によりＮ個の区間の前にあるいはに′個
についての各フレームを無条件に採用し、後（Ｎ−Ｋ）
あるいはＣＮ−に’；個については各区間の先頭フレー
ムを各特徴ベクトルとして採用することニ方り、全体と
してＭフレームをＮフレームに伸縮することが出来る。

例えば第３図の例では音声区間が３５フレームの時にに
−８として２４フレームに正規化した様子を示しており
、Ｆｌは元のフレーム番号、Ｆ２は伸縮時のフレーム番
号を示している。またフレー４番Ｗ中のＸ印のフレーム
は採用しないフレームを示している。

また第４図の例では音声区間が１６フレームの時にに′
−８として２４フレームに正規化した様子を示しており
、上記第３図と同様Ｆ１は元のフレーム番号、Ｆ２は伸
縮時のフレーム番号を示し、またフレーム番号中のＸ印
のフレームは採用しなイフレームであり、このように２
４フレームより少ないフレーム数の場合には同一フレー
ムが２度以上採用される場合が生じる。

第５図は単音節［ＫＡＪの波形における正規化処理の様
子を図示したものである。

同図において、波形ａは単音節「Ｋ　Ａ　Ｊの波形例を
示し、この波形の例により前端部の変化が大きく、後方
は定常的になっている。

従来の正規化の方法では前端の情報量の多い所を失なっ
ていたが、本発明の実施例によればフレームＦ１からフ
レームＦ２への変換の例からも明らかなように情報量の
少ない定常的な部分のフレームを除くことになる。

〈効果〉以上の如く、本発明によれば入力音声か音声区間抽出部
及び特徴パラメータ抽出部を通って特徴ベクトルの時系
列となったものに対して、全体の長さを圧縮イたは伸長
して時間軸を正規化する場合、特徴ベクトルの時系列の
前端の複数フレームをそのまま取り入れ、後方を伸縮さ
せて、前端部に重みを持たせるようにしているため、情
報量の多い部分を失うことなく正規化することが出来、
その結果認識率の向上を図ることか可能となる。

【図面の簡単な説明】

第１図は本発明の音声特徴パラメータ作成方式の適用可
能な音声認識装置の構成を示すブロック図、第２図は本
発明方式の処理過程を示すフロー図　第３図及び第４図
はフレームの正規化例を示す図、第５図は音声波形及び
その分析フレームの正規化の説明に供する図である。３・・・音声区間抽出部、４・・・特徴、ｓｏラメータ
ｔＩＩ］出部、６・・・時間軸正規化部、Ｆｌ・・・正
規化前フレーム番号、Ｆ２・・・正規化後フレーム番号
。代理人　弁理士　福　士　愛　彦（他２名）５

Claims

【特許請求の範囲】

１、入力音声から抽出された特徴ベクトルの時系列に対
して全体の長さを圧縮または伸長して時間軸を正規化す
る際、上記特徴ベクトルの時系列の前端部分はそのまま
採用し、後方部分を伸縮させて前端部に重みをもたせる
ように成したことを特徴とする特許