JPS628800B2

JPS628800B2 -

Info

Publication number: JPS628800B2
Application number: JP54165578A
Authority: JP
Inventors: Nobuo Hataoka; Hiroshi Ichikawa; Yoshiaki Kitatsume; Eiji Oohira
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1979-12-21
Filing date: 1979-12-21
Publication date: 1987-02-24
Also published as: JPS5688199A; DE3048107A1

Description

【発明の詳細な説明】本発明は、音声認識装置において、音声パタン
における、特徴ベクトルの時系列として表現され
る特徴パタンの個人差による変動を大局的に正規
化または補正するパタンの前処理装置に関する。

音声パタンの特徴ベクトルの各成分の大きさを
表わす特徴パラメータとしては、 (i) 音声の周波数帯域をいくつかのチヤネルに分
割したときの各チヤネルに対応するフイルタバ
ンクの出力値 (ii) 自己相関係数 (iii) 偏自己相関係数｛………PARTIAL AUTO
−CORRELATION COEFFICIENT（以下、
PARCOR係数と呼ぶ）｝など種々の量を用いることが可能である。

しかし、いづれの量を用いても、音声情報の個
人差にもとづいて特徴パラメータに種々の変動が
生ずる結果、抽出された特徴パラメータの誤差も
大きくなり、音声パタンの正しい認識が困難にな
る問題があつた。

音声パタンの場合、個人差にもとづく変動の代
表例としては、 (1) 入力レベルの変動にもとづく特徴パラメータ
の絶対レベルの変動 (2) フイルタバンクの出力値を特徴パラメータと
した場合におけるフオルマント周波数の変動な
どがあり、これらの変動にもとづく認識精度の
低下を防止するために次のような方法が考えら
れている。

(1)に対しては、たとえばフイルタバンクの出力
値を特徴パラメータとした場合における各時刻で
の周波数方向の正規化（フイルタ出力の相対値
化）がおこなわれている。

(2)に対しては、フオルマント周波数の変動が各
個人の声道長の違いによることから、音声情報よ
り声道長を推定して、この声道長を正規化するこ
とがおこなわれている。

しかし、(1)に対する従来の正規化方法では、た
とえば特徴パラメータの時間方向における絶対的
な大小関係に関する構造が破壊され、その結果と
して音声情報の有する本質的情報の一部が失なわ
れてしまう欠点があつた。

また、(2)に対する従来の方法では声道長を正確
に推定することが困難で、推定にともなう誤差が
生ずるために正しい正規化が不可能になる欠点が
あつた。

したがつて、本発明の第１の目的は音声パタン
の有する本質的情報を失なうことなく、音声パタ
ンから抽出された特徴パラメータに存在する個人
差にもとづく特性の変動を吸収するパタン前処理
方法を提供することにある。

さらに、本発明の第２の目的は前記特徴パラメ
ータの時間方向における構造を保持しつつ、終局
的には個人差にもとづく周波数特性の変動として
のホルマント周波数の変動をも吸収するパタン前
処理方法を提供することにある。

上記の目的を達成するため本発明においては、
２次元平面を構成する座標軸の一方を時間軸と
し、他方を周波数軸としておき、この周波数軸上
の一点に対する上記時間軸上の一連の点における
特徴パラメータについて、 (a) 上記一連の特徴パラメータの最大値による各
特徴パラメータの除算をおこなう。

(b) 対数による非線形な補正をおこなう (c) 対数による非線形な補正をおこなつた一連の
特徴パラメータに対してその最大値による除算
をおこなうなど、特徴パラメータの時間軸方向における値の
大小関係を保持した前処理をおこなう。

以下、第１図を参照して本発明の原理を説明す
る。

第１図は、音声のフイルタバンク出力値を特徴
パラメータとした場合のある特定のチヤネルにお
ける異なる話者が発する同一音声内容によるフイ
ルタバンク出力値の相違を示したものである。

第１図によれば、極大点や極小点を与える時間
軸上の位置は類似しているが、振巾値は大巾に異
なつていることがわかる。上記異なる話者による
音声パタンＡ，Ｂ間の類似度を通常のユークリツ
ド距離を尺度として求めると、話者の相意にもと
づく変動が音声パタンそのものの相違にもとづく
変動よりも大きくなつてしまうから、音声パタン
の差を正しく検出することができないことになつ
てしまう。

したがつて、上記振巾値を正規化または補正し
て話者の相違にもとづく変動を小さくすることが
必要になる。本発明では上記振巾値を正規化また
は補正するために、以下に述べる２ステツプのい
づれか一方またはこれらを組み合わせた方法をと
る。

以下、たとえば２ステツプを組み合わせた前処
理法について説明するが、ステツプ１のみによる
前処理法やステツプを省略した前処理法も可能で
ある。

音声パタンから抽出された、時刻ｉ（ｉ＝１、
２、………、Ｉ）における特徴ベクトルa₁と、a₁
の時系列として表現される特徴パタンＡとをつぎ
のように定義しておく。

〓〓＝（ａ_i1、ａ_i2、………、ａ_iJ）Ａ＝a₁、a₂、………、ａここで、ａ_ij（ｊ＝１、２、………Ｊ）は時刻
ｉにおける第ｊ番目のチヤネルのフイルタバンク
出力値に相当する特徴パラメータ量である。

ステツプ１：対数による補正人間の聴特性を近似した振巾の補正のために、
10またはｅなどを底とする対数によるａ_ijの非線
形な補正をおこなう。

補正後の特徴パラメータに対応する量ａ′_ｉｊは次
の(1)式により与えられる。

ａ′_ｉｊ＝log（１＋ａ_ij／A₀）A₀：定数 (1) (1)式における１はａ_ij／A₀が０に近い値になつ
たときのａ′_ｉｊの急峻な変動を防止するために加算
されたものである。

ステツプ２：時間軸方向の正規化周波数軸方向の各チヤネル毎に時間軸方向の大
局的正規化をおこなう。

周波数軸方向の第ｊチヤネルにおける前記ａ
′_１ｊ、ａ′_２ｊ、………、ａ′_Ｉｊのうちの最大値を
Ｍ_jとす
るとき、前記特徴パラメータａ_ijに対応する正規
化後の特徴パラメータａ″_ｉｊは(2)式により与えられ
る。

ａ″_ｉｊ＝ａ′_ｉｊ／Ｍ_j (2) ただし、Ｍ_j＝Max（ａ′_ｉｊ、ａ_2j………、ａ′_Ｉｊ） (3) 上記２ステツプからなる正規化または補正法
は、前述のごとく、特徴パラメータの時間方向に
おける大小関係を保持し、かつ原音声情報の有す
る本質的特徴を明確に表現している新たな特徴パ
ラメータａ″_ｉｊを得ることを可能にするものであ
る。

このａ″_ｉｊは下記の点で前記特徴パラメータａ_ij
よりもすぐれた特徴パラメータといえる。

(α) 周波数軸方向の各チヤネル毎に、特徴パラ
メータの時間軸方向の最大値を同一レベル（た
とえば０〜１のレベルに正規化する場合の最大
レベル１）へ変換する写像であるため、従来問
題となつていた特徴パラメータの絶対レベルの
変動を吸収したことになる。

特に上記ステツプ２だけによる正規化、すな
わちａ″_ｉｊ＝ａ_ij／Max（ａ_1j、ａ_2j、………、ａ_Ij）によると、ａ_ijの振巾値が小さい範囲において
は絶対レベルの変動が小さいのに、正規化後の
相対レベルでみると変動が拡大されるという不
都合が生じ得るが、ステツプ１による補正はこ
の不都合を除去する点で有効である。

(β) 上記ステツプ２の正規化は、話者が異なつ
た場合でも、同一内容の音声の特徴パラメータ
を従来よりも大局的かつ明確に抽出する写像と
なつている。

たとえば、周波数軸上の各チヤネル毎の特徴
パラメータの変化を強調したり、全時間にわた
り値の小さい特徴パラメータを有するチヤネル
においては、逆に値の小さいことが特徴となつ
てａ″_ｉｊの値を大きくする変換になつている。

(γ) とくにフイルタバンクの出力値を特徴パラ
メータとした場合における上記ステツプ２の正
規化は、話者間の差にもとづく周波数軸方向に
おける変動（たとえば話者間のホルマント周波
数の隣接チヤネルへの変動）を吸収する効果が
ある。

これは、周波数軸上の第ｊチヤネルにおける
特徴パラメータの最大値を与える時刻ｉにおい
ては、隣接する第（ｊ−１）チヤネルや第（ｊ
＋１）チヤネルにおける特徴パラメータが最大
になる確率が大きいので、ステツプ２で得られ
る特徴パラメータは周波数分析におけるＱ（共
振尖鋭度）を下げたことに相当する。これは、
話者間の差にもとづく特徴パラメータの変動を
小さくしたことに相当し、前記(2)に対する解決
策を与えるものである。

なお、これまでは、本発明による前処理を音
声パタンのフイルタバンク出力値に適用する場
合を主にして説明をおこなつてきたが、自己相
関係数PARCOR係数に適用することも可能で
あり、またPARCOR係数に適用する場合には
たとえばPARCOR係数に対して適応逆フイル
タリング処理を施して反射係数に相当する量に
変換することにより絶対レベル変動に対する線
形性がなりたつようにすればよい。

以下、本発明を実施例を参照して詳細に説明す
る。

第２図は、本発明による前処理方法を実現する
回路の一実施例を示すブロツク構成図で、入力音
声から求められた前記特徴パラメータａ_ijは各チ
ヤネルｊ毎に（ａ_1j，ａ_2j，………，ａ_Ij）を１
ブロツクデータとして入力バツフア２１から読み
出されて対数変換・正規化部２２の対数変換部２
２１へ入力される。対数変換部２２１において
は、前記(1)式の演算が行され、その結果得られた
ブロツクデータａ′_１ｊ，ａ′_２ｊ，………，ａ′_Ｉｊが出力
線２２２を通して、最大値検出部２２３と正規化
部２２４へ入力される。最大値検出部２２３にお
いては前記(3)式の演算が実行され、その結果得ら
れたＭ_jがまた前記正規化部２２４へ入力され
る。正規化部２２４においては前記(2)式の演算が
実行され、その結果得られたブロツクデータａ
″_１ｊ，ａ″_２ｊ，………，ａ″_Ｉｊが出力バツフア２
３へ格
納される。

上記の演算処理が、たとえばｊ＝１、２、……
…、Ｊの順に制御部２４から出力される制御信号
にしたがつて実行される。

第２図における対数変換部２２１はたとえば読
み出し専用メモリ（ROM）により構成すること
ができる。

この場合、入力バツフア２１の出力信号をその
アドレス信号として、アドレスａ_1j，ａ_2j，……
…，ａ_Ijに(1)式の演算結果であるデータａ′_１ｊ，ａ
′_２ｊ，………，ａ′_Ｉｊを書きこんでおき、制御部２
４
から与えられる読み出し信号にしたがつてこれを
読み出すようにすればよい。

また、最大値検出部２２３は演算回路と、演算
結果を格納するレジスタから構成され、たとえば
ａ′_１ｊ，ａ′_２ｊ………，ａ′_Ｉｊの順にデータａ′
_ｉｊを減算回
路に入力し、レジスタに格納されているデータＲ
との減算をおこない、ａ′_ｉｊ−Ｒ＞０のときに限
り、レジスタの内容を更新し、新たにａ′_ｉｊを上記
レジスタに格納する処理をｉ＝１、２、……、Ｉ
について実行すればよい。

正規化部２２４は通常の除算器で構成できる。

なお、対数変換・正規化部２２における上記演
算はソフトウエアにより実行するこも可能であ
る。

第３図は第２図における本発明の回路を含む音
声認識システムの一実施例を示すブロツク構成図
で、第２図に記載された部分には同一番号を付し
てある。

入力音声は特徴抽出部３１において周波数分析
され、その結果抽出された特徴ベクトルa₁，a₂，
………，ａが時系列的に順次、前記入力バツフ
ア２１へ格納される。

第２図において述べた過程の実行により出力バ
ツフア２３に格納された正規化データは認識部３
４に入力される。一方、音声の正規化された標準
パタンが標準パタンメモリ３２より順次読み出さ
れ、そのうちの１個が標準パタンバツフア３３を
通して、上記認識部３４に入力される。

認識部３４において、入力音声パタンに対応し
正規化データと、正規化された標準パタンとの類
似度が計算されて認識がこおこなわれ、認識結果
が端子３５に出力される。

第４図は本発明の前処理法を用いた場合と、従
来の前処理法を用いた場合との音声認識の結果の
分離度の差に関する実験データを示す。

第４図において、横軸は認識の際に付与される
重み量とし、縦軸は正しい認識結果が得られたと
きの最大類似度S₁と次大類似度S₂との比（S₁／
S₂）で与えられる分離度としたとき、（）〜
（）はそれぞれ下記の前処理をおこなつた場合
を示し、（）は従来の方法による場合を示す。

（）：ａ″_ｉｊ＝log（１＋ａ_ij／A₀）／Ｍ_j ただし、Ｍ_j＝Max｛log（１＋ａ_1j／A₀）、log（１＋ａ_2j／A₀、………、log（１＋ａ_Ij／A₀）｝（）：ａ″_ｉｊ＝log（１＋ａ_ij／A₀）（）：ａ″_ｉｊ＝ａ_ij／Max（ａ_1j，ａ_2j，………，ａ_Ij）第４図の実験結果から、本発明の前処理法によ
れば、類似度計算における重み量を適当に設定す
ることにより、他の方法より大きい分離度が得ら
れることがわかる。

以上述べたように、本発明による前処理法は上
記特徴パタンの特徴を明確に抽出した新たな特徴
パタンへの変換を可能にするもので、上記前処理
法で得られた特徴パラメータは分離性が良く（級
内特徴が明確）、認識の信頼性を向上させる効果
があり有効である。上記の効果は、上記前処理正
規化法を組み入れた音声認識装置において認識率
が向上したという結果からも実証されている。

【図面の簡単な説明】

第１図は同一音声の話者による差をフイルタバ
ンク出力値により示す図、第２図は本発明の前処
理法を実現する回路の一実施例を示す図、第３図
は本発明の前処理法を用いた音声認識装置の一構
成例を示す図、第４図は入力音声パタンの分離度
に関する実験データを示す図である。２１：入力バツフア、２２：対数変換・正規化
部、２３：出力バツフア、２４：制御部。

Claims

【特許請求の範囲】

１入力音声を分析し求められた特徴パラメータ
ーａ_ij（ｉ＝１、２、………、Ｉ、ｊ＝１、２、
………Ｊ）を格納する手段と、該手段からチヤネ
ルｊ毎に（ａ_1j、ａ_2j、………ａ_Ij）を１ブロツ
クデータとして入力し、該ブロツク内の各パラメ
ータの値に対し所定の対数変換補正を行う補正手
段と、該補正手段により補正された１ブロツクデ
ータ内でのパラメータの量大値を検出する最大値
検出手段と、該最大値検出手段により得られる１
ブロツク毎のパラメータの最大値により該当する
上記補正された１ブロツクデータを正規化する正
規化手段とを有することを特徴とする音声認識に
おける前処理装置。