JPH0426480B2

JPH0426480B2 -

Info

Publication number: JPH0426480B2
Application number: JP59264782A
Authority: JP
Inventors: Sadahiro Furui
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1984-12-14
Filing date: 1984-12-14
Publication date: 1992-05-07
Also published as: JPS61141500A

Description

【発明の詳細な説明】「産業上の利用分野」この発明は入力音声の特徴量の時系列と、対応
する標準パタン音声の時系列との間の類似度を、
これらの時系列の要素間の距離を計算することに
基づき求める音声認識装置に関するものである。

「従来の技術」従来のこの種の音声認識装置では、入力音声の
特徴量の時系列〓＝〓₁，〓₂，……〓_lとパターン
音声の特徴量の時系列〓＝〓₁，〓₂，……〓_nと
に対し、その要素〓_iと〓_jとの間の距離尺度を各
要素における全パワーを一定に正規化したスペク
トルを用いて求めていた。このため要素〓_iが母
音で、要素〓_jが子音というように音声パワーが
極端に異なる要素間でも距離がかなり小さくなる
ということが起こり得るという欠点があつた。

音声認識においては一つの標準パタンを用いて
なるべく多く人の音声を認識できることが望まし
いが、従来の方法の多くは、個人差の影響の出や
すいスペクトルに基づいた距離を用いていたた
め、母音と子音との誤認識等の誤りが起こりやす
く、特に入力音声が標準パタンと同一の話者のも
のでない場合には認識率の大幅な低下が見られ
た。

この問題に対処するため、スペクトル情報とパ
ワー情報とを併用した音声時系列の要素間マツチ
ング距離尺度を用いる試みも行われている（例え
ば文献、相川、鹿野、古井：パワー情報で重みづ
けた距離による単語音声認識、日本音響学会音声
研究会資料、S81−59，1981参照）。しかしこの
方法では音声の入力レベルによるパワー情報の変
動に対処する必要性から、音声区間全体のパワー
の最大値と最小値とを調べて、これが一定値とな
るように音声パワーを正規化する必要があつた。
このため音声区間が終了するまで、あるいは数秒
間にわたつて音声パワーの変化を調べ、こののち
に距離尺度の計算を開始する必要があり、認識結
果が得られるまでに時間遅れが生じたり、距離尺
度の算出に高速の素子を用いなければならなくな
るという欠点があつた。

この発明の目的は不特定話者の音声に対しても
従来の方法に比べ、より正確かつ遅れ時間なしで
音声認識ができるようにした単語音声認識装置を
提供することにある。

「問題点を解決するための手段」この発明によれば個人差が少なく、しかも音声
の入力レベルの変動の影響を受けない、音声パワ
ーの時間波形の線形回帰係数の距離をスペクトル
距離と併用する。すなわち入力音声と標準パタン
音声とのそれぞれの特徴量時系列の要素間スペク
トル距離D_sを求めると共に、入力音声と標準パ
タン音声とについてそれぞれ音声パワーの時間波
形から線形回帰係数の時間波形を全時点について
算出し、これら線形回帰係数を用いて入力音声と
標準パタンとの要素間のパワー回帰係数距離D_p
を求める。これらスペクトル距離D_sとパワー回
帰係数距離D_pとから求まる要素間マツチング距
離を用いて、入力音声と標準パタン音声との類似
度を時間正規化マツチングにより計算する。

「実施例」第１図はこの発明の実施例を示し、音声入力端
子１に加えられた入力音声信号はまず音声区間検
出回路２によつて無音（雑音）区間が除去されて
実際の音声区間だけが抽出される。この音声区間
の検出にはすでによく知られているいくつかの方
法、例えば入力音声信号波の短時間パワー、ある
一定値以上のパワーが継続する時間等を用いるこ
とができる。検出された音声区間の信号波は線形
予測分析回路３に送られ、線形予測係数とパワー
の時間波形とに変換される。この技術はすでに公
知であるので（例えば文献、板倉、斎藤：統計的
手法による音声スペクトル密度とホルマント周波
数の推定、電子通信学会論文誌、53−Ａ，１，
P35，1970参照）、詳細は省略するが、基本的に
はまず低域フイルタに通したのち標本化及び量子
化を行い、一定時間毎に短区間の波形ハミング窓
等を乗じて切り出し、積和の演算によつてパワー
と相関係数とを計算する。ハミング窓の長さとし
ては例えば30ms、これを更新する周期としては
例えば10msのような値が用いられる。この相関
係数から繰返し演算処理によつて代数方程式を解
くことにより線形予測係数が抽出される。この線
形予測係数は例えば第１次から第10次までの値を
計算する。

抽出された線形予測係数の時間波形は、ケプス
トラム変換回路４により線形予測ケプストラム係
数に変換される。この技術もすでに公知であるの
で（例えば文献、斎藤、中田：音声情報処理の基
礎、オーム社、第７章、P102，1981参照）詳細
は省略するが、線形予測係数を用いた再帰式の演
算により、線形予測ケプストラム係数（以下簡単
のため単にケプストラム係数と呼ぶ）を容易に得
ることができる。抽出されたケプストラム係数は
特徴パラメータレジスタ５に一たん蓄えられる。

一方、線形予測分析回路３で抽出されたもう一
方の特性であるパワーの時間波形は、その抽出周
期（上述の例では10ms）毎に一定の時間長の区
間の波形が対数変換されたのちパワーレジスタ６
に一たん蓄えられ、このレジスタ６の内容は回帰
係数計算回路７に送られて、線形回帰係数が演算
される。このレジスタ６および回帰係数計算回路
７に入力される時間波形の長さとしては、例えば
50msのような値を用いる。対数パワーの時間波
形x_j（ｊ＝−Ｍ，……Ｍ）であらわすと、この線
形回帰係数ａ（以下ではこれをパワー回帰係数と
呼ぶ）は次の演算で求めることができる。

ａ＝（_M Σ^j=-M x_j・ｊ）／（_M Σ^j=-M j²） ……(1) パワー回帰係数は上述の周期毎に更新される回
帰係数計算回路７の入力に応じて計算され、ケプ
ストラム係数とあわせて特徴パラメータレジスタ
５に蓄えられる。

スイツチ８は学習モードと認識モードとを選択
するスイツチであつて、最初にスイツチ８を端子
８ａに接続しておいて、後に認識すべき音声を入
力する本人、あるいはその本人とは異なる複数人
の音声から、各認識対象語彙に対してケプストラ
ム係数とパワー回帰係数からなる特徴パラメータ
波形を求め、特徴パラメータレジスタ５に蓄えた
のち標準パタン蓄積部９に入力し、その語彙の標
準パタンとして蓄える。

その後の認識すべき音声に対してはスイツチ８
を端子８ｂに接続しておいて、特徴パラメータレ
ジスタ５の内容を時間正規化マツチング回路１０
に入力する。同時に各語彙に対応した標準パタン
を標準パタン蓄積部９から一つ一つ読出し、時間
正規化マツチング回路１０に入力する。時間正規
化マツチング回路１０では、標準パタンと入力音
声との特徴パラメータの類似性の度合いを計算す
る。

音声の発声速度は同じ話者が同じ言葉を繰返し
発声してもその度ごとに部分的及び全体的に変化
するので、両者を比較するには共通の音（音韻）
が対応するように、一方の時間軸を適当に非線形
に伸縮して他方の時間軸にあわせ、対応する時点
の特徴パラメータどうしを比較する必要がある。
一方を基準にして、両者が最もよくあうように
（両者の類似度が最も大きくなるように）他方の
時間軸を非線形に伸縮する技術としては、動的計
画法による最適化の手法を使用できることが知ら
れている（文献：迫江、千葉：動的計画法を利用
した音声の時間正規化に基づく連続単語認識、日
本音響学会誌、27，９，P483，1971）。

この発明の装置においても、時間正規化マツチ
ング回路１０では動的計画法の演算を行う。標準
パターンのある時点ｋにおけるケプストラム係数
をC^R _ki（１ｉｐ，ｐとしては前述のように10の
ような値を用いる）、パワー回帰係数をa^R _k、入力
音声のある時点ｌにおけるケプストラム係数を
C^I _li（１ｉｐ）、パワー回帰係数をa^I _lであらわす
と、ここではケプストラム係数、パワー回帰係数
のそれぞれに関する時点ｋの標準パタンと時点ｌ
の入力音声との距離（小さくなるほど類似度が大
きいことを示す数値）D_s（ｋ，ｌ），D_p（ｋ，ｌ）
として次のような値を用いる。

D_s（ｋ，ｌ）＝_p Σⁱ⁼¹ （C^R _ki−C^I _li）² ……(2) D_p（ｋ，ｌ）＝（a^R _k−a^I _l）² ……(3) 次にこの両者を次のように重みつき加算平均し
たＤ（ｋ，ｌ）を求め、この値を時点との標準パ
タンと時点ｌの入力音声の要素間マツチング距離
として、動的計画法の演算を行う。

Ｄ（ｋ，ｌ）＝ √_s（，）＋（１−）_p（，）
……(4) この式で用いる重みＷは０以上１以下の値を有
し、この値は予備実験の結果にもとづいて比較的
高い認識精度が得られるように適切な値に定めて
重みレジスタ１１に蓄えておく。

動的計画法の演算によつて標準パターンと入力
音声の一致度が最もよくなるように時間軸を対応
づけたときの対応する時点どうしの標準パタンと
入力音声との要素間マツチング距離を全音声区間
について平均した値を計算する。この値を標準パ
タンと入力音声の総合的距離と呼ぶことにする。
各語彙に対応した標準パタンと入力音声との総合
的距離を比較回路１２に入力し、論理回路により
これらすべての総合的距離のうち、最も総合的距
離の小さい語彙を判定する。この判定結果は、出
力端子１３から出力される。

ところで音声パワーの時間波形は母音部では高
く、子音部では低くなるという基本的性質があ
り、この性質は話者が異なつても不変である。第
２図は４人の話者がそれぞれ２回ずつ発声した
「札幌」という単語の対数パワーの時間波形であ
り、対数パワー時間波形を最大値と最小値とが一
定になるように正規化して示している。この第２
図から理解されるようにパワー時間波形は話者が
変わつてもあまり差異がなく、しかも時間的に比
較的なめらかに変化するので50ms程度の一定区
間を10ms程度ずつずらしながらその一定区間内
の時間波形の線形回帰係数、つまり線形近似した
時の傾斜を求めれば、この値は線形回帰係数の原
理から時間波形が全体的に一定量増減してもその
影響を受けないため、異なる話者に共通し発声レ
ベルの変動の影響を受けない安定した単語の特徴
を抽出することができる。従つてこの実施例のよ
うにパワー回帰係数をケプストラム係数とあわせ
て標準パタンと入力音声の時間正規化マツチング
を行えば、スペクトル（ケプストラム）とパワー
の両方が共に類似した部分どうしがマツチング
し、母音と子音とのマツチングを避けることがで
き、認識率向上をはかることができる。このよう
な構造になつているからその結果として音声区間
全体におけるパワーの最大値と最小値を調べてパ
ワーの時間波形を正規化することなく、パワーの
時間波形に含まれる安定した特徴を用いることに
より、音声が入力されるとただちに認識のための
演算を開始して時間遅れなしに、誰の声に対して
も高い精度で認識結果を出力できる単語音声認識
装置を実現することができる。これまでの実験に
よれば都市名100単語を認識対象として、本人と
異なる話者１名の音声を標準パタンとしたときに
ケプストラム係数のみを用いた従来の装置による
認識率が85.5％であつたのに対し、この実施例の
装置では89.3％の認識率が得られ、この発明が優
れたものであることが確認された。

ケプストラム係数の線形回帰係数ｂ（ケプスト
ラム回帰係数と呼ぶ）を計算し、ケプストラム係
数とケプストラム回帰係数とパワー回帰係数とを
用いて入力音声と標準パタン音声との類似度を時
間正規化マツチングすることにより、更に高い認
識率を得ることができる。

第３図はこの例を示し、第１図と対応する部分
に同一符号を付けて示す。ケプストラム変換回路
４で計算されたケプストラム係数C_oは特徴パラ
メータレジスタ５に直接供給されると共に、この
ケプストラム係数C_oの時間波形は、一定間隔ご
とに一定の時間長の区間がケプストラムレジスタ
１４に一旦蓄えられ、このレジスタ１４の内容は
回帰係数計算回路１５に送られて、線形回帰係数
（ケプストラム回帰係数）が演算される。このケ
プストラムレジスタ１４及び回帰係数計算回路１
５に入力される時間波形の長さとしては、例えば
50ms、これを更新する周期としては、例えば
10msのような値を用いる。ケプストラム係数の
時間波形をy_j（ｊ＝−Ｍ，……Ｍ）であらわすと、
このケプストラム回帰係数ｂは次の演算で求める
ことができる。

ｂ＝（_M Σ^j=M y_j・ｊ）／（_M Σ^j=M j²） ……(5) ケプストラム回帰係数ｂは、各次数のケプスト
ラム係数に対して、10ms毎に更新される回帰係
数計算回路１５の入力に応じて計算され、このケ
プストラム回帰係数ｂはケプストラム係数とあわ
せて2p次元の特徴パラメータとして特徴パラメ
ータレジスタ７に送られて蓄えられる。時間正規
化マツチング回路１０では標準パタンのある時点
ｋにおけるケプストラム係数及びケプストラム回
帰係数をr_ki（１ｉ2p）、入力音声のある時点
ｌにおけるケプストラム係数及びケプストラム回
帰係数をx_li（１ｉ2p）であらわすと、ここで
両者の距離（小さくなるほど類似度が大きいこと
を示す数値）として次のような値を用いる。

ｄ＝１／2p_2p Σⁱ⁼¹ w_i ²（r_ki−x_li）² ……(6) ｉ＝2pまでとするのはケプストラム係数の次
数がＰ、ケプストラム回帰係数の次数がＰであ
り、両者合せて2Pの次数となるためである。こ
こでw_iは各係数に対してあらかじめ定められてい
る重みを示す数値で、この値は予備実験の結果に
もとづいて比較的高い認識精度が得られるように
適切な値に定め、重みレジスタ１６に蓄えてお
く。距離ｄの計算は(6)式に示すように同一時点の
Ｐ次のケプストラム係数とＰ次のケプストラム回
帰係数とについて入力音声と標準パタンとの差の
二乗和として計算しており、つまりケプストラム
係数とケプストラム回帰係数との互に性質が異な
るものを一緒に使つており、これらの平衡をとる
ためにw_iの重み付けを行うものであり、従つてw_i
の値としてはケプストラム係数について演算する
際に用いるw_aと、ケプストラム回帰係数につい
て演算する際に用いるw_bとの少くとも二つの値
を用いる。これら重みw_a〜w_bは重みレジスタ１
６に蓄えておく。

時間正規化マツチング回路１０では、更に(6)式
で得た時点ｋの標準パタンと時点ｌの入力音声と
の距離ｄ（ｋ，ｌ）を(4)式におけるD_s（ｋ，ｌ）
として用いて、この(4)式を演算する。その他の動
作は第１図の場合と同様である。

なお音声特徴量としてケプストラム係数を用い
たが、線形予測係数、ホルマント周波数、パーコ
ール係数、対数断面積比、零交差数などを用いて
もよい。

「発明の効果」以上説明したように、この発明によればパワー
回帰係数とスペクトル距離とから成る距離を用い
て入力音声と標準パタン音声とのマツチングを行
うため、スペクトル距離のみでは認識誤りを生じ
やすい不特定話者単語音声認識において認識能力
を向上でき、しかもパワーの絶対値の正規化演算
を必要としないため認識演算の時間遅れを生じな
いという利点がある。

【図面の簡単な説明】

第１図はこの発明の単語音声認識装置の実施例
を機能的に示すブロツク図、第２図は単語「札
幌」の音声対数パワーの時間パタンを示す図、第
３図はこの発明の他の実施例を機能的に示すブロ
ツク図である。１：音声入力端子、２：音声区間検出回路、
３：線形予測分析回路、４：ケプストラム変換回
路、５：特徴パラメータレジスタ、６：パワーレ
ジスタ、７：回帰係数計算回路、８：スイツチ、
９：標準パターン蓄積部、１０：時間正規化マツ
チング回路、１１：重みレジスタ、１２：比較回
路、１３：出力端子。

Claims

【特許請求の範囲】１入力音声と標準パタン音声とのそれぞれの特
徴量時系列の要素間のスペクトル距離D_sを求め
る手段と、前記入力音声と標準パタン音声とについてそれ
ぞれ音声パワーの時間波形から線形回帰係数の時
間波形を全時点について導出する手段と、その線形回帰係数を用いて入力音声と標準パタ
ンとの要素間のパワー回帰係数距離D_pを求める
手段と、前記スペクトル距離D_sと前記パワー回帰係数
距離D_pから求まる要素間マツチング距離を用い
て前記入力音声と標準パタン音声との類似度を時
間正規化マツチングによつて計算する手段とを有
する単語音声認識装置。