JPH067358B2

JPH067358B2 - 相対関係に基づく音声認識方式

Info

Publication number: JPH067358B2
Application number: JP63205684A
Authority: JP
Inventors: 正行木村; 博下平
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1988-08-20
Filing date: 1988-08-20
Publication date: 1994-01-26
Anticipated expiration: 2009-01-26
Also published as: JPH0255398A

Description

【発明の詳細な説明】〔概要〕連続音声中における母音等の認識基本単位の認識方式に
係り、特に不特定話者にも適用可能な相対関係に基づく
音声認識方式に関し、話者の変動及び調音結合の影響等を受けにくく、かつ、
簡単な構成によって高い認識率で、母音又は子音等の認
識基本単位の認識を可能とすることを目的とし、同一のものを含む所定複数種類の認識基本単位の組の各
々につき、その組の各認識基本単位から得られる各特徴
量間の特徴空間上の相対的な位置関係の標準パターンを
記憶する相対関係標準パターン記憶手段と、未知入力音
声から各々複数候補ずつの認識基本単位候補系列群を抽
出する予備識別手段と、該認識基本単位候補系列群から
選択される前記所定複数種類の認識基本単位候補の組の
各々につき、その組内の各特徴量と前記相対関係標準パ
ターン記憶手段上のその組に相対する前記相対関係標準
パターンとの整合度を演算し、該各整合度に基づいて前
記認識基本単位候補系列群の中から前記未知入力音声に
対応する最適認識基本単位候補系列を認識する最適認識
基本単位候補系列認識手段とを有するように構成する。

〔産業上の利用分野〕

本発明は、連続音声中における母音等の認識基本単位の
認識方式に係り、特に不特定話者にも適用可能な相対関
係に基づく音声認識方式に関する。

〔従来の技術〕

音声認識を行う場合、通常は、音声を短いフレーム（数
十msec）に分割し、各フレーム毎に特徴ベクトル（特徴
量）を抽出し、その特徴ベクトルに基づいて認識を行
う。そして、この特徴ベクトルにつき、典型的な標準パ
ターン（例えば母音の場合、５母音）を予め辞書として
記憶させておき、未知入力音声の特徴ベクトルを、辞書
内の各標準パターンと距離尺度を用いてマッチングさせ
ることにより、音声の各部分の認識を行っている。この
ような認識方式を個別認識方式と呼ぶ。

一方、母音等に対応する特徴ベクトル間の相対的な距離
関係、すなわち、例えば５母音から選択可能な３母音の
組み合わせの各々につき、３母音の特徴ベクトルの相互
の距離の大小関係を標準パターンとして記憶させてお
き、その相対距離に基づいて認識を行う方式も提案され
ている。

〔発明が解決しようとする課題〕

しかし、一般に、連続音声中から抽出される特徴量は、
音韻性の情報の他に、個人性及び前後の音韻による調音
結合の影響が混在する複雑な形態を示すため、例えば不
特定多数話者を対象とする音声認識では、音韻情報の分
離が困難である。

例えば、母音について考案してみると、まず、母音は一
般に周波数軸上の特定の２〜３個の周波数位置にピーク
をもち、このうち低周波数領域の２つの周波数は、第１
ホルマント周波数Ｆ１及び第２ホルマント周波数Ｆ２と
呼ばれている。そして、Ｆ１を横軸、Ｆ２を縦軸にとっ
て、５種類の母音｛/I/,/E/,/A/,/O/,/U/｝の各々につ
いてプロットすると、５母音は第６図の実線で示した５
角形を形成する。従って、このようなホルマント周波数
に良く対応する特徴ベクトルを辞書として持っておけば
認識ができることになるが、実際には、例えば話者が異
なった場合の５種類の母音の形成する５角形は、第６図
の破線及び小文字で示したように変動する。そしてこの
とき、実線の方の母音/0/と、破線の方の母音/u/及び/o
/とが接近し、従って、片方のみの標準パターンを持っ
ているだけでは、これらの母音が相互に誤認識されてし
まう。この問題は、連続音声中の母音が前後の音韻の調
音結合の影響を受ける場合にも同様に発生する。このよ
うに、従来の個別識別法では、話者の変動又は調音結合
の影響等により、認識率が悪くなるという問題点を有し
ている。

上記問題点のうち、個人性の問題を解決するためには、
個人性の変動に強い特徴量・距離尺度の選択、変動
に強い標準パターン・認識関数の選択、個人差への適
応化等の解決策が考えられる。，は、統計的手法に
代表され、高い認識率を示すが、標準パターンの設計に
用いた集団の分布から外れた話者に対して、著しく誤り
が多くなる。従って、多数話者を対象とする場合には、
標準パターンの複数化や、学習による適応が必要にな
る。については、予め用意してある標準パターンを話
者の発声に適応して教師なしで修正していく方式がある
が、次のような問題点がある。まず、初期標準パターン
による認識結果をもとにして、その時々の入力音声を修
正に用いるか否かを判断して５母音を個別に修正する
と、誤った方向に修正が行われる危険性がある。また、
修正の方向は正しくても、認識率は必ずしも向上しない
可能性もある。そして、教師なし学習は、このような問
題点を避けるために複雑な認識系を構成する必要があ
る。

一方、調音結合の問題では、主に連続母音について、前
後の音韻の影響を考慮した方式が考えられるが、通常の
単語音声中の子音に後続する母音はより複雑な挙動を示
し、その解析も困難である。

また、前記した特徴ベクトル間の相対的な距離関係に基
づいて母音等の認識を行う方式は、第６図の５母音の５
角形は、移動することはあっても、その形自体は話者の
変動等があってもあまり変化しないという事実に基づ
き、５母音の相対的な関係を認識に利用しようという方
式であり、個人性又は調音結合の影響等に比較的強いと
いう利点を有する。しかし、特徴ベクトル間の単純な距
離関係だけでは、情報量が少なすぎ、認識率が必ずしも
高くないという問題点を有している。

本発明は、話者の変動及び調音結合の影響等を受けにく
く、かつ、簡単な構成によって高い認識率で、母音又は
子音等の認識基本単位の認識を可能とすることを目的と
する。

〔課題を解決するための手段〕

第１図は、本発明による相対関係に基づく音声認識方式
のブロック図である。

相対関係標準パターン記憶手段１０５は、同一のものを
含む所定複数種類の認識基本単位の組の各々につき、そ
の組の各認識基本単位から得られる各特徴量間の特徴空
間上の相対的な位置関係の標準パターン１０６を記憶す
る。同手段は、例えば同一のものを含む２種類の母音の
組の各々につき、その組の各母音から得られる各特徴ベ
クトルの差ベクトルの標準パターンを記憶する差ベクト
ル標準パターン記憶手段により実現される。そして、こ
の差ベクトル標準パターン記憶手段には、例えば２種類
の母音の組の各々につき、その組の複数の学習のサンプ
ルから得られる差ベクトルの平均差ベクトルと共分散行
列が前記差ベクトル標準パターンとして記憶される。

予備識別手段１０２は、未知入力音声１０１から各々複
数候補ずつの認識基本単位候補系列群１０３を抽出す
る。同手段は、例えば５母音の各母音毎の特徴量の標準
パターンを記憶する母音別標準パターン記憶手段と、未
知入力単語音声１０１を時間軸方向に分割した複数フレ
ームから複数の母音区間とその区間の特徴量を抽出する
母音区間抽出手段と、各母音区間毎に、その区間の特徴
量と母音別標準パターン記憶手段上の各標準パターンと
のマッチングをとることにより、各母音区間毎に３位ま
での母音候補を識別し、３候補ずつの母音候補系列群と
して出力する母音候補系列群生成手段とによって実現さ
れる。

最適認識基本単位候補系列認識手段１０４は、認識基本
単位候補系列群１０３から選択される前記所定複数種類
の認識基本単位候補の組の各々につき、その組内の各特
徴量と相対関係標準パターン記憶手段１０５上のその組
に対応する相対関係標準パターン１０６との整合度を演
算し、該各整合度に基づいて認識基本単位候補系列群１
０３の中から未知入力音声１０１に対応する最適認識基
本単位候補系列１０７を認識する。同手段は、例えば前
記母音候補系列群から選択される前記２種類の母音の組
の各々につき、その組内の各特徴ベクトルの差ベクトル
を演算し該差ベクトルと前記差ベクトル標準パターン記
憶手段上のその組に対応する前記差ベクトル標準パター
ンとの整合度を演算し、その整合度に基づいて前記母音
候補系列群の中から前記未知入力音声１０１に対応する
最適母音候補系列を認識する手段により実現される。そ
して、そのときの整合度の演算は、２種類の母音の各組
の生起確率が等しく、整合を行うべき組における差ベク
トルの確率分布が、前記差ベクトル標準パターン記憶手
段上のその組に対応する前記平均差ベクトルと前記共分
散行列とで定まる多次元正規分布に従うと仮定した場合
の、整合を行うべき差ベクトルを入力とするベイズ識別
関数を求める演算により実現される。そして、各整合度
からの最適母音候補系列の認識は、確率的弛緩法により
前記母音候補系列群の各母音候補の確率を各整合度に基
づいて更新し、所定回数の更新動作の後、各母音候補毎
に各々の確率が最も高くなった母音候補を選択して母音
候補系列を認識する動作により実現される。

〔作用〕

以上の手段において、まず、認識の基本となる整合度の
計算において、所定複数種類の認識基本単位の組の各々
につき、その組の各認識基本単位から得られる各特徴量
間の特徴空間上の相対的な位置関係を用いることによ
り、話者の変動や調音結合の影響に左右されにくい整合
度の演算が可能となる。これにより、単純に特徴量間の
距離によって認識基本単位間の相対関係を表現する方式
等に比較して、認識基本単位間の相対関係に関する情報
がはるかに多く抽出され、精度の高い認識処理が実現さ
れる。

次に、本発明では、予備識別手段１０２で抽出される各
々複数候補ずつの認識基本単位候補系列群１０３を認識
に使用することにより、真の認識基本単位候補が除外さ
れてしまうのを防いでいる。

更に、本発明では、認識対象を認識基本単位候補系列群
とし、そのような系列群に対して、そこから選択される
前記所定複数種類の認識基本単位候補の組の整合度を順
次評価し、それらを総合して全体的に高く評価された系
列を最適認識基本単位候補系列として認識している。従
って、本発明では、多くの認識基本単位候補を用いて総
合的な評価を行うことにより、個人性や調音結合の影響
による個々の認識基本単位の曖味性を減少させ、前記整
合度の利用による効果とあいまって、安定かつ精度の高
い認識が行われる。

特にこの場合、最適認識基本単位候補系列の選択のため
に確率的弛緩法を採用することにより、認識基本単位候
補系列群の全ての系列の組み合わせについて計算を行う
必要性を回避し、効率の高い処理を実現している。

〔実施例〕

以下、本発明の実施例につき詳細に説明を行う。

｛本発明の実施例の構成｝第２図は、本発明の実施例の構成図である。未知入力音
声２０１は、特徴ベクトル抽出部２０２に入力し、ここ
で１０次のメル・ケプストラム係数である特徴ベクトル
が抽出される。

次に、その特徴ベクトル及び同時に求まる対数パワー
（後述する）は母音特徴ベクトル系列抽出部２０３に入
力し、ここで未知入力音声２０１の母音区間が抽出さ
れ、その区間の母音特徴ベクトル系列（後述する）が抽
出される。

続いて、母音特徴ベクトル系列は予備識別部２０４に入
力する。ここでは、上記母音特徴ベクトル系列の各特徴
ベクトルと、母音別標準パターン記憶部２０５に予め記
憶されている５母音別の各特徴ベクトルの標準パターン
とがパターンマッチングされ、各々第３位までの候補か
らなる母音候補系列群が識別される。

母音候補系列群は、更に最適母音候補系列抽出部２０６
に入力する。ここでは、相対関係標準パターン記憶部２
０７に予め記憶されている相対関係標準パターンに基づ
いて、母音候補系列群の中から最も良く相対関係を満た
す母音候補系列を最適母音候補系列として出力して、未
知入力音声２０１の最適認識結果とする。

｛本発明の実施例の動作｝上記実施例の動作につき以下に説明を行う。

整合度演算方式の第１の実施例の動作まず、第２図の実施例の説明を行う前に、本実施例の全
体動作の基本となる整合度演算方式の第１の実施例につ
き説明を行う。

機械による母音認識は、入力の母音を個別・独立に認識
する方式が一般的である。しかし、母音を個別に見た場
合、「発明が解決しようとする課題」の項で説明したよ
うに、話者の個人差及び前後の音韻による調音結合の影
響を受けて、各母音の特徴空間上の特性は複雑に変化す
る。

一方、母音間に何らかの相関があるとすれば、母音を系
列として捉え、総合的に評価することにより、認識の精
度を高めることができる。ここで、第６図で説明したよ
うに、母音の第１、第２ホルマント平面における５母音
の５角形は話者の変動や発声の変動に対して、その相対
的な位置関係を良く保存している。

そこで、本実施例では、まず、５母音から選択される各
２母音間の相対的な位置関係を表す２項関係の整合度を
以下のようにして定義する。

今、入力として２母音（特徴ベクトルx_p,x_q,次元数ｍ）
が与えられた場合、それらが母音組(v_i,v_j)である確か
らしさ、すなわち、母音組(v_i,v_j)に対する特徴ベクト
ル(x_p,x_q)の整合度をＲvivj(x_p,x_q)で表し、２項関数の
整合度と呼ぶことにする。但し、v_i,v_j∈Ｖで、Ｖ＝{/i
/,/e/,/a/,/o/,/u/}とする。

ここで、２母音の特徴ベクトルx_p,x_qの差ベクトルを、 Δpq＝x_p-x_q としたとき、２項関係の整合度Ｒv_iv_jを以下のように定
義する。

ここで、Δv_iv_jは、母音組（v_i,v_j)に対する特徴ベクト
ルを各々x_vi,x_vjとするとき、 Δv_iv_j＝x_vi−x_vjの平均ベクトル、Σv_iv_jは、次に述べ
るようにして求まる共分散行列であり、｛Σv_iv_j｝^−１
はその逆行列である。

まず、複雑の話者による学習用母音をＭ個のグループに
分割し、各グループ内には５母音が各々Ｎ個あるものと
する。グループ番号ｇ(1≦ｇ≦N)における母音v_kの第ｐ
番目(1≦ｐ≦N)の学習資料をｘ^(g)vkpとおいたとき、母
音組(v_i,v_j)の共分散行列Σv_iv_jを次式で定義する。

一般に、グループ数Ｍは学習資料に使われる話者数に等
しくするのが妥当である。

ここで、前記(1)式は、母音組(v_i,v_j)において、その特
徴ベクトルx_vi,x_vjの差ベクトルΔv_iv_j＝x_vi−x_vjの確
率分布が、多次元の正規分布に従うと仮定した場合の、未知入力である差ベクトルΔ
pqを入力するベイズ識別関数を対数表現したものであ
る。

ベイズ識別関数は、一般にカゲゴリΩ_ｉにつき、 G_i(x)＝Ｐ(x|Ω_i)・P(Ω_i) ・・・(2) として与えられる。この式は、入力ｘがカゲゴリΩ_ｉに
含まれる確率に示している。上記(2)式について対数表
現をしても大小関係は不変であるので、一般にベイズ識
別関数G_i(x)は、(2)式の対数をとって、 G_i(x)＝logＰ(x|Ω_i)＋logＰ(Ω_i) ・・・(3) で与えられる。上記(3)式において、未知入力ｘが前記
の差ベクトルΔpqで、また、カテゴリΩ_ｉが母音組(v_i,
v_j)で、その特徴ベクトルx_vi,x_vjの差ベクトルΔv_iv_j＝
x_vi,x_vjの確率分布が、多次元の正規分布に従うと仮定し、かつ、母音組(v_i,v_j)の生起確率が他
の母音組のそれと等しいと仮定して(3)式の左辺第２項
を省略することにより、前記(1)式が得られる。従っ
て、(1)式の意味を前記(2)式と同様に考えると、差ベク
トルΔpqに対応する未知入力の母音組が、母音組(v_i,
v_j)である確からしさを整合度Ｒv_iv_jと定義しているこ
とにほかならない。

上記考案より、２母音の次元数ｍの特徴ベクトルx_p,x_q
の母音組(v_i,v_j)に対する整合度Ｒv_iv_j(x_p,x_q)は、２母
音の特徴ベクトルの差ベクトルとして表現される特徴空
間上でのｍ次元の相対的な位置関係を評価尺度とした場
合に、入力した母音組が母音組(v_i,v_j)にどの程度似て
いるかということを表現している。

そして、この相対的な位置関係は、話者の変動や発声の
変動に対して良く保存され、従って、不特定話者の音声
認識装置を構成する上で、有効な評価尺度となる。

従って、５母音から同一のものを含む２母音ずつを選択
して得た各母音組(v_i,v_j)に対応するを辞書として記憶させ、未知入力の母音組について、辞
書の各母音組に対する整合度を計算することにより、そ
の整合度の高さを母音認識のための有効な評価尺度とす
ることができる。

なお、本実施例では、上記各母音組(v_i,v_j)に対応するを相対関係標準パターンとして、第２図の相対関係標準
パターン記憶部２０７にあらかじめ記憶させておくが、であるから、同一母音関係を含めて全部で１５組準備し
ておけばよいことになる。

母音系列の認識動作上記２項関係の整合度を利用して、母音系列の認識を行
う第２図の実施例の動作につき、以下に説明を行う。

まず、未知入力音声２０１は、第２図の特徴ベクトル抽
出部２０２に入力する。ここでの動作フローチャートを
第３図に示す。以下、これに従って動作説明を行う。

まず、未知入力音声２０１は、カットオフ周波数９ｋH
z、−４０ｄＢ／octのローパスフィルタ（ＬＰＦ）に通
される（Ｓ３０１）。

続いて、２０ｋHz、１２ｂｉｔの符号付きでＡ／Ｄ変換
され、ディジタル音声信号に変換される（Ｓ３０２）。

次に、この信号に対して、パワーの時間的な変化が演算
され、一定閾値を設定することにより、単語区間が自動
的に切り出される（Ｓ３０３）。

続いて、このようにして切り出された単語区間の先頭か
ら順に、１次差分による高域強調の後、窓長25.6msec(H
amming Window)、更新周期12.8msecで各フレームのディ
ジタル音声信号が切り出される（Ｓ３０４）。

その後、そのフレームのディジタル音声信号に対して、
５１２ポイントのＦＦＴ（高速フーリエ変換）分析を行
い、対数化して対数パワースペクトルに変換する（Ｓ３
０５）。

上記処理により求められた５１２ポイントパワースペク
トルに対して、メル周波数上を５０チャネルに等分割し
たバンドパスフィルタ（ＢＰＦ）を構成し、周波数軸を
メル尺度に変換して５０チャネルのメル化した対数パワ
ースペクトルを求める（Ｓ３０６）。

次のケプストラム分析（Ｓ３０７）は、上記５０チャネ
ルのうち、１〜４０チャネルまでの出力を２０チャネル
に圧縮した後、次式のコサイン展開を行う。

ここで、Ｃ_ｉはｉ次のメル・ケプストラム係数、Ｘ_ｋは
圧縮後のｋチャネルのパワースペクトルである。母音認
識においては、直流分（Ｃ_ｏ）は必要なく、また、各係
数は正規化されていた方が取扱が簡単で、かつ、識別結
果にほとんど影響を及ぼさないので、以下のようにノル
ムを１にする正規化を行う。

更に、後述する認識処理には２０次までのメル・ケプス
トラム係数のうち低次の１〜１０次までの係数を使用す
る。

上記処理を、１単語区間の全フレームについて繰り返し
（Ｓ３０８→Ｓ３０４）、これにより得られる全フレー
ム分の正規化されたメル・ケプストラム係数を、特徴ベ
クトルとして第２図の特徴ベクトル抽出部２０２から出
力する（Ｓ３０９）。

次に、第２図の母音特徴ベクトル系列抽出部２０３の動
作について説明を行う。

ここでは、未知入力音声２０１から母音区間を抽出し、
前記処理により抽出された特徴ベクトルのうち母音区間
に対応するものから母音特徴ベクトル系列を抽出する。
そのためのアルゴリズムを以下に示す。

前記特徴ベクトル抽出部２０２から出力された特徴ベ
クトルと、前記第３図のＳ３０５で求まる対数パワーを
用い、主にその時間変化の極大点を区間（ゼグメント）
の境界とする。

区間毎に、無声化、パワー・ディップ、過渡部等のラ
ベル付けを行い、それを基に、母音区間の判別を行う。

母音区間内で最も変化の小さい安定なフレームを母音
の中心フレームとする。そして、中心フレームを含む３
フレームを切り出し、そのメル・ケプストラム係数の平
均値をもって、この区間の代表値とし、後述する認識処
理に使用する。

以上のアルゴリズムにより求まる長さｎの母音特徴ベク
トル系列を（x₁,x₂,・・・,x_n）とする。ここで、ｘ_ｐ(p＝
1,2,・・・,n)は、各々１０次のメル・ケプストラム係
数からなる特徴ベクトルであり、各母音区間の周波数包
絡特性をパラメータ化したものである。

続いて、第２図の予備識別部２０４の動作につき説明を
行う。

ここでは、母音特徴ベクトル系列抽出部２０３で求まる
上記母音特徴ベクトル系列の各々にちき、パターンマッ
チングによる予備識別を行う。

そのために、第２図の母音別標準パターン記憶部２０５
に、予め５母音の特徴ベクトルの代表的な標準パターン
が記憶されている。

そして、母音特徴ベクトル系列抽出部２０３では母音特
徴ベクトル系列（（x₁,x₂,・・・,x_n）を順次入力し、各ｘ
_ｐ(p＝1,2,・・・,n)毎に、母音識別標準パターン記憶
部２０５上の各母音別標準パターンとパターンマッチン
グを行い、第３位まで候補を求めて、母音候補系列群を
作成する。このとき、ｐ番目の母音特徴ベクトルｘ_ｐ(p
＝1,2,・・・,n)の母音候補を c^(p)＝（c^(p) ₁,c^(p) ₂,c^(p) ₃)^ｔで表す。但し、第ｉ候補c^(p) _iは５母音のいずれかを指
すものとする。すなわち、c^(p) _i∈Ｖ、Ｖ＝{/i/,/e/,/a/,/o/,/u/}，(i=1,2,3)である。また、
ｔは転置を表す。ここで、母音候補として第３候補まで
考慮するのは、５つの母音候補のうち第３候補までとれ
ば、その中に正しい候補が含まれていると考えられるか
らである。実際、上記のような簡単な予備識別処理で
も、第３位までに正しい母音が入る割合は９９．５％程
度にまでなり、実用上問題ない。以上の処理により、第
２図に示すような母音候補系列群が出力される。

次に、第２図の最適母音候補系列抽出部２０６の動作に
つき説明を行う。

ここでは、第２図の予備識別部２０４で得られた母音候
補系列群に対し、個別に認識を行うのではなく、母音系
列全体で一括して認識を行うことを特徴とする。すなわ
ち、各母音系列から選択される２母音の組に対して、既
に説明した整合度を評価しながら、系列全体として認識
を行い、このように大局的に相互間の情報を利用するこ
とにより、個々の母音のゆらぎを吸収し、認識により確
実に行うように動作する。

まず、最適母音候補系列抽出部２０６の具体的な動作の
説明の前に、最適母音候補系列抽出のための理論的動作
につき説明を行う。

第２図の予備識別部２０４で求まる長さｎの母音候補系
列群から得られる可能な母音候補系列は３^ｎ通りあり、
この中に正しい母音系列が含まれているとする。

今、任意の母音候補系列をで表し、その集合をＣ_ｓ＝｛ｃ_ｓ｝とする。ここで、添
え字ｍ_ｐはc^(p)の第ｍ_ｐ要素（候補）を表す。今、母音
候補系列c_sに含まれる長さ２の部分列の任意の１つを、としたとき、その部分列における相対関係の整合度を▲
ｒ^(p,q) _{mp mq}で表せば、母音候補系列ｃ_ｓの全体として
の整合度Ｒ(c_s)は、全ての部分列の整合度の和として、で与えられる。なお、整合度の定義式である前記(1)の
表現を用いれば、である。従って、第２図の相対関係標準パターン記憶部
２０７には、母音候補系列c_sから選択しうる長さ２の部
分列ｃ_ｓｕｂの全ての可能な組み合わせに対して、前記
(1)、(4)、(5)式の整合度を計算できるように、５母音
から同一のものを含む２母音ずつを選択して得られる部
分列（母音組）のすべての組み合わせに対して、前記
(1)式の計算のための、v_iv_jと｛Σv_iv_j｝^−１を相対
関係標準パターンとして記憶させておけばよく、その組
み合わせは既に説明したように１５組でよい。

ここで、Ｒ(c_s)は、純粋に相対関係に基づく整合度を与
えるが、個別認識による母音個々の信頼度も考慮に入れ
るために以下のようなＡ(c_s)を導入する。

ａ（▲ｃ^(p) _mp▼）は母音候補▲ｃ^(p) _mp▼の確からしさ
を示すもので、第２図の予備識別部２０４における予備
識別の結果に基づいて与えられるものとする。上記(6)
式で定義されるＡ(c_s)を使うことにより、母音候補系列
の得点はＲ(c_s)とＡ(c_s)の重み付き線形和、で定義することができる。従って、求める最適母音候補
系列、は、Ｓ(c_s)を最大にする系列として定義される。すなわ
ち、である。これにより、第２図の最適母音候補系列抽出部
２０６から、最適母音候補系列c_s ^ｏｐｔが出力される。

以上の最適母音候補系列抽出動作において、第２図の予
備識別部２０４で求まる長さｎの母音候補系列群から得
られる可能な母音候補系列は３^ｎ通りあり、この中から
長さ２の部分列を選択する組み合わせはnC₂通りであ
る。従って、単純に計算を行うと、最適母音候補系列を
求めるために必要な計算量は、nC₂・３^ｎ通り程度の膨
大な組み合わせ計算が必要となり、実用的でない。例え
ば、ｎ＝１０のとき、2,657,205通りとなってしまう。
このような計算方式は、全ての組み合わせについて行う
方式のため、枚挙法と呼ばれる。

そこで、第２図の最適母音候補系列抽出部２０６におい
ては、計算量を減らすために、枚挙法で厳密な最適解の
みを求めることにこだわらず、近似解を求める手法とし
て、弛緩整合法を採用する。弛緩法は、各母音候補に初
期確率を与えた後、相対関係の整合度を利用して各候補
の確率を修正する操作を繰り返し、最終的に最も整合度
の高い候補の確率を最大にする手法である。以下に、第
２図の最適母音候補系列抽出部２０６の動作アルゴリズ
ムを詳細に説明する。ここでの動作アルゴリズムは、次
の(STEP1)〜(STEP3)の繰り返し動作からなっている。

(STEP1)第２図の母音特徴ベクトル系列抽出部２０３か
ら出力される母音特徴ベクトル系列x_p(p＝1,2,・・,n)に
対して、第２図の予備識別部２０４での予備識別の結果
に基づき、第３位までの各母音候補ｃ^(p)ｉに、その確
からしさを表す候補確率ｓ^(p)ｉを、次式により第４図
に示すように与える。

ここで、予備識別の結果、１位から３位までの候補に対
する順序付けが数量的に、ｇ^(p) _１≧ｇ^(p) _２≧ｇ^(p) _３＞０の形で与えられたとすると、ｓ^(p) _ｉi(i=1,2,3)に与え
られる初期確率は、となる。また、count＝0とおく。

(STEP2)各候補の確率s^pｉを次式の修正公式で更新す
る。

s^(p) _ｉ←s^(p) _ｉ＋Λ(s^p，ｕ (STEP3)（終了条件の判定） count←count＋１ STEP2において全てのs^(p) _ｉが変化しないか、又は、cou
nt≧Ｌ（最大修正回数）ならば、終了そうでないときは、STEP2に戻る。

STEPZにおいて、初期確率の設定方法として前記(10)式
を使用しているが、弛緩法における初期確率の与え方と
して、各候補に等確率(1/3)を与える方法と収束を早
め、誤りを少なくするために何らかの異なる初期確率を
与える方法が考えられる。一般に、パターンマッチング
による個別識別では、母音候補間の距離（尤度）が近い
（高い）場合には認識の信頼性が高く、大きい（低い）
場合には信頼性が低い。従って、個別識別である予備識
別の結果を弛緩法の初期確率に反映させることは有効で
ある。

前記STEP2において、ｕ^(p) _ｉは候補ｃ^(p) _ｉについて、ｘ_ｐの近傍入力｛ｘ_ｑ｝ｑ≠ｐとの整合性の
良さを表すもので、次式で与える。

ここで、▲ｒ^(p,q) _ijは、母音候補ｃ^(p)ｉとｃ^（ｑ）ｊ
で定まる長さＺの２の部分列の整合度であり、前記(1)
及び(5)式で与えられる。また、Ｎ^(p) _ｂはｐの近傍を意
味し、ｓ^(p) _ｉに直接影響を及ぼす範囲を決めるもの
で、その幅をＷ_Ｎとすれば、Ｎ^(p) _ｂ＝｛ｑ｜｜ｑ−ｐ｜≦Ｗ_Ｎ，ｑ≠ｐ，１≦ｑ≦ｎ｝・・・(B) である。次に前記(11)式において、Λ(s,u)は正規化関
数であり、候補確率ｓ^(p) _ｉが０と１の間に収まるよう
に正規化をかける関数である。また、(s)は弛緩法に
おける収束を早めるために強調をかける関数であり、
(0)＝０を満たす滑らかな非負関数で、次式で与えられ
る。

但し、ηは０＜η≦１なる定数である。

次に、前記(7)式で定義したように、個別識別に基づく
各候補の信頼度を弛緩法に導入することを考える。前記
(7)式の直接表現する代わりに、ここでは各候補の近傍
との整合性の良さを示すｕ^(p) _ｉに自分自身の個別識別
の信頼度を加える事によって間接的に表現する。すなわ
ち、ｕ^(p) _ｉの計算に自己ループの特性を加え、以下の
ように前記(12)式を修正する。

ここで、λは正規化係数で、 λ＝Σｌで与えられる。なお、ｌは前記STEP1〜STEP3の現在まで
の更新の回数である。この(15)式と前記(12)式のどちら
を用いるかによって、認識結果にどのような影響を及ぼ
すかについては、後に検討することとする。

以上に示したSTEP1〜STEP3のアリゴリズムをを繰り返し
ながら、第２図の相対関係標準パターン記憶部２０７に
記憶されている相対関係標準パターンを用いて、前記
(1)、(5)式の整合度、続いて前記(12)式又は前記(15)式
のｕ^(p) _ｉを求め、それに基づいて前記(11)式の各候補
確率ｓ^(p) _ｉを更新する。そして、所定回数Ｌ回繰り返
した後に、各母音特徴ベクトルｘ_ｐ(p=1,2・・,n)に対
応する第３位までの各母音候補ｃ^(p) _ｉのうち、、その
候補確率ｓ^(p) _ｉが最も高い候補を選択し、P＝１〜ｎに
ついて選択したもの全体を、最適母音候補系列、として出力する。

第５図に、上記アルゴリズムにより母音候補系列群の各
候補確率が更新されてゆく例を示す。但し、初期確率は
簡単のため全て0.33にしてある。この結果、３回程度の
更新で、最終的に下線を付した確率が非常に高くなり、
それに対応する下線を付した各母音候補が、最適母音候
補系列として出力されることになる。

以上に示した母音認識処理の認識性能につき、簡単に説
明する。

まず、認識環境について説明を行う。始めに、弛緩法に
おける前記整合性ｕ^(p) _ｉの計算において、前記(12)式
と前記(6)式に基づく前記(15)式のどちらを用いるかに
ついて検討すると、実験的に、前記(15)式を用いてα＝
0.5〜0.7程度に設定するのが最も高い認識結果が得られ
る。しかし、(15)式でα＝０（(6)ではα＝１）とし
て、相対関係の整合度のみの情報を用いて決定した場合
と比較して、認識率の差は0.1〜0.4%程度にすぎないた
め、実用上は前記(12)式を用いても問題はない。次に、
前記(13)式の近傍幅Ｗ_Ｎはｎ−１、すなわち長さｎの母
音系列のうち自分を除いた全体とするのが望ましいが、
Ｎ＝２程度に狭くしても認識率は、１％以下程度しか下
がらず、その場合、計算量を1/2程度に削減できる。ま
た、前記(14)式の弛緩法の修正式においては、実験的に
ｂ＝２、η＝0.67程度、弛緩法の最大修正回数Ｌ＝２０
回程度がよい。

次に、第２図の未知入力音声１０１に含まれる母音系列
の影響について検討する。本実施例による認識方式は、
母音を系列として認識する方式であるため、認識精度は
系列長の影響を受ける。系列の長さが極端に短い場合に
は、２項関係を調べる母音組が少なく、また、母音の種
類も少なくなるが、実験的には、系列長ｎ（第２図参
照）は、１０〜２０程度あれば十分高い認識率が得ら
れ、従って、単音節でない単語であればそれほど問題は
なく、また、単音節であっても、いくつかをまとめて認
識することにより、認識率の低下を防ぐことができる。
なお、本実施例による方法では、単語の順序を入れ換え
ても、認識率の変動はほとんどないことが実験的に確か
められている。

続いて、個人的の影響について検討する。一般に、単語
中では個人性の影響と、前後の音韻による影響とを分離
するのは困難であるため、単音節母音を複数個合わせた
ものを用いて個人性の影響を検討する。これによると、
本実施例は従来の個別識別法と比較して、平均認識率が
高く、個人性による変動に強いことが確かめられてい
る。これは、本実施例が母音間の相関的な位置関係を整
合度として認識に用いたためであり、上記位置関係は個
人性の影響を受けにくいということがいえる。

一方、音韻性の影響について検討すると、本実施例によ
る認識方式では、単語の語頭、語尾、連鎖部分のいずれ
においても、全体的に高い認識率を示すことが実験的に
確認されている。従って、調音結合の影響を受けた母音
系列においても本実施例の認識方式は有効である。すな
わち、母音間の相対的な位置関係は調音結合の影響も受
けにくいということがいえる。

次に、最適母音候補系列を求めるためのアルゴリズムで
ある弛緩法の信頼性について検討する。既に説明したよ
うに、弛緩法は、近似解を求める手法であるため、得ら
れた最適母音候補系列が真に最適なものであるという保
証はない。従って、本実施例による認識方式の誤認識の
原因が、弛緩法に誤りによるのか、相対関係の与え方の
問題によるのかどうかを明らかにしておくことは重要で
ある。弛緩法による誤りを調べるには、前記(4)〜(8)式
による枚挙法で得られる最適母音候補系列と、前記(9)
式〜(15)式による弛緩法で得られる最適母音候補系列と
の比較をすればよいが、枚挙法は前記したように膨大な
計算量が必要なため、実現困難である。そこで、あらか
じめ視察ラベリングにより抽出した正しい母音系列を含
む母音候補系列群について、まず、前記(7)式で正しい
母音系列の得点Ｓ(c_s)を計算し、一方、上記母音候補系
列群から弛緩法により抽出した最適母音候補系列の得点
を同様に前記(7)式で計算する。そして、もし、弛緩法
による系列の得点の方が低ければ、弛緩法が誤ったこと
を示している。このようにして、弛緩法の信頼性を実験
的に検討すると、弛緩法により認識誤りの確率は、本実
施例全体の認識誤り数を100としたときに、そのうちの
わずか１％前後にすぎない。従って、弛緩法の信頼性は
非常に高いということがわかる。

なお、第２図の母音特徴ベクトル系列抽出部２０３にお
いて、母音区間を抽出する場合の抽出精度も全体の認識
結果に影響を及ぼすが、母音区間の認識方式としては、
本実施例で示したアルゴリズムの他にも抽出精度の高い
様々な方式が提案されているため、特には言及しないこ
とにする。

計算量は、枚挙法による場合、ｎＣ_２・３^ｎものの組み
合わせ計算が必要であるが、弛緩法を適用するとｎＣ_２
・３^ｎものの組み合わせ計算が必要であるが、弛緩法を
適用するとｎＣ_２・ｎＣ_２・ｎ_３・，程度で済む。こ
こで、ｌ（１≦ｌ≦Ｌ）は更新の回数である。

整合度演算方式の第２の実施例の動作上記実施例においては、第２図の最適母音候補系列抽出
部２０６での認識動作に用いた整合度は、２母音間の相
対的な位置関係として、２母音の特徴ベクトルx_p,x_qの
差ベクトルとして、 ΔpC＝ｘ_ｐ−ｘ_ｑを用いたものに基づく、前記(1)式で定義されるもので
あった。

しかし、本発明による相対的な位置関係は、上記のよう
な２母音間の差ベクトルに限られるものではなく、特徴
空間上の相対的な位置関係を示すものであれば他のもの
でも利用可能であり、更に、２母音以上の例えば３母音
の関係も規定できる。ここでは、整合度演算方式の第２
の実施例として、母音推定を用いた方式について説明す
る。

この方式は、話者の変動や発声の変動に対して、母音の
相対的な位置関係が良く保存されることから、既知の２
母音又は３母音の組につき、１つの母音を他の母音から
推定する場合のパラメータを、第２図の相対関係標準パ
ターン記憶部２０７に相対関係標準パターンとして記憶
する方式である。

今、２つの母音組の特徴ベクトルｘ_ｖ，ｘ_ｖ′、又は３
つの母音組の特徴ベクトルｘ_ｖ，ｘ_ｖ′，ｘ_ｖ″がある
とき、そのうちの１つの特徴ベクトルx_vを他の特徴ベク
トルｘ_ｖ′又はｘ_ｖ′，ｘ_ｖ″から推定するための、次
式に示す２項関係及び３項関係の線形モデルを定義す
る。

ここで、ｘ_ｖは、特徴ベクトルx_vの推定値（ベクトル）
であり、添え字ｖ，ｖ′，ｖ″は５母音のうちいずれか
を指す。また、Ａ、Ｂは推定係数行列、ａ、ｂは定数ベ
クトルで、いずれも重回帰分析によって決定する。そし
て、これらの推定係数行列及び定数ベクトルは、５母音
の中から選択される２母音又は３母音の各組み合わせ毎
に求め、第２回の相対関係標準パターン記憶部２０７に
相対関係標準パターンとして記憶させる。従って、２項
関係用に２５組（同一母音関係を含む）、３項関係用に
３０組（全て異なる母音の組み合わせ）を用意すればよ
い。

次に、上記(16)式で定義される母音推定モデルを用い
て、第２図の最適母音候補系列抽出部２０６において、
第１の実施例の整合度を与える前記(1)式に対応する第
２の実施例の整合度を与える式を以下のように定義す
る。すなわち、２母音（特徴ベクトルx_p,x_q）が与えら
れた場合に、それに対応する２項関係の整合度Ｒv_iv_j(x
_p,x_q)を次式で定義する。但し、v_iv_j∈Ｖであって、Ｖ＝{/i/,/e/./a/,/o/,/u/} とする。

ここで、‖・‖はベクトルのノルムを意味し、次式のよ
うに定義する。

‖ｘ‖^２＝ｘ^ｔＷv_iv_j・・・(18) 上記(18)で、Ｗv_iv_jは重み係数行列で、Ｗv_iv_j＝Ｉ（単
位行列）のときは、いわゆるユークリッド距離になる。

上記(17)、(18)式は、２項関係の整合度Ｒv_iv_j(x_p,x_q)
を演算するための式であるが、３項関係の整合度Ｒv_iv_j
v_k(x_p,x_q,x_r)も同様に定義できる。

以上のような母音推定モデルを用いた２項関係又は２項
関係の整合度を、前記(4)〜(15)式で示した母音系列認
識に適用することにより、前記差ベクトルに基づく整合
度を用いたものと同様に母音系列の認識を実現すること
ができる。この場合、２項関係と共に３項関係も用いて
いるが、３項関係に基づく母音系列認識は、前記(4)式
のもとになる長さ２の部分列の代わりに、長さ３の部分
列をとって行えばよく、また、弛緩法のアルゴリズムに
３項関係を適用する場合、前記(12)の代わりに、次の(1
9)式の用いればよい。

本発明の他の実施例以上、第１及び第２の整合度の演算方式につき説明を行
ってきたが、そのほかにも、例えば前記差ベクトルを３
項関係に適用することも可能である。すなわち、３つの
母音組から２母音ずつとった組み合わせの各差ベクトル
同士につき、更に差ベクトルをとったもの等によっても
整合度を演算することができる。ここで、２項関係の整
合度を用いた弛緩法の計算では、既に説明したように、
nC₂・ｎ^３・ｌ程度の組み合わせ計算となるが、上記３
項関係の場合には、nC₂・ｎ^３・ｌ程度となる。

一方、前記差ベクトルを用いた第１の実施例における整
合度演算方式において相対関係標準パターンとの整合度
を評価する場合、(1)式に示したようにベイズ識別関数
を利用しているが、そのほかにユークリッド距離又はマ
ハラノビス距離等の評価尺度を用いても実現可能であ
る。

また、上記実施例では、本発明による相対関係を用いた
系列認識方式を、母音系列の認識に適用した例を示した
が、母音認識以外の例えば子音認識に適用することも可
能である。

いずれにしても、本発明では、２母音等の各認識基本単
位の特徴量間の単純な距離ではなく、多次元の特徴量空
間上の相対的な位置関係を整合度演算のために用いるこ
とにより、高い認識率を実現することができる。

〔発明の効果〕

本発明によれば、認識の基本となる整合度の計算におい
て、所定複数種類の認識基本単位の組の各々につき、そ
の組の各認識基本単位から得られる各特徴量間の特徴空
間上の相対的な位置関係を用いることにより、話者の変
動や調音結合の影響に左右されにくい整合度の演算が可
能となる。これにより、単純に特徴量間の距離によって
認識基本単位間の相対関係に関する情報がはるかに多く
抽出され、精度の高い認識処理が実現される。

特に、２種類の認識基本単位の組の各特徴ベクトルの差
ベクトルを用いることにより、少ない計算量で多くの相
対関係の情報を得ることが可能となる。

更に、この場合、相対関係標準パターンである差ベクト
ル標準パターンとして、平均差ベクトルと共分散行列を
記憶させ、べイズ識別を用いて整合度を計算することに
より、精度の高い整合度の計算が可能となる。

次に、本発明では、予備識別手段で抽出される各々複数
候補ずつの認識基本単位候補系列群を認識に使用するこ
とにより、真の認識基本単位候補が除外されてしまうの
を防ぐことができる。

更に、本発明では、認識基本単位候補系列群を入力と
し、前記整合度をもとにして、多くの認識基本単位候補
を用いて総合的な評価を行うことにより、個人的や調音
結合の影響による個々の認識基本単位の曖味性を減少さ
せ、前記整合度の利用による効果とあいまって、安定か
つ精度の高い認識が行われる。すなわち、本発明では、
情報量の多い相対関係に基づく整合度演算と、曖味性を
減少させることのできる系列認識とを組み合わせること
により、相乗効果的な認識性能の向上を実現している。
そして、全体的な構成は、基本的にはこの２つの構成の
組み合わせからなる簡単な構成とすることができるとい
う効果も有する。

そして、特に上記の場合、最適認識基本単位母音候補系
列の選択のために確率的弛緩法を採用することにより、
認識基本単位候補系列群の全ての系列の組み合わせにつ
いて計算を行う必要性を回避し、効率の高い処理を実現
している。

一方、２種類の認識基本単位の組の各特徴ベクトルを線
形モデルで互いに推定する場合の推定行列及びに定数ベ
クトルを相対関係として用いる整合度を演算し、前記系
列認識と組み合わせることによっても精度の高い音声認
識を実現することができる。

【図面の簡単な説明】

第１図は、本発明のブロック図、第２図は、本発明の実施例の構成図、第３図は、特徴ベクトル抽出部の動作フローチャートを
示した図、第４図は、弛緩法の説明図、第５図は、弛緩法による候補確率の変化例を示した図、第６図は、従来例の問題点の説明図である。１０１……未知入力音声、１０２……予備識別半段、１０３……認識基本単位候補系列群、１０４……最適認識基本単位候補系列認識手段、１０５……相対関係標準パターン記憶手段、１０６……相対関係標準パターン、１０７……最適認識基本単位候補系列．

フロントページの続き (56)参考文献特開平３−101799（ＪＰ，Ａ) 特公平４−27560（ＪＰ，Ｂ２) 特公平２−28160（ＪＰ，Ｂ２) 日本音響学会講演論文集昭和57年10月２−７−７Ｐ．103−104 日本音響学会講演論文集昭和60年９〜 10月２−４−17 Ｐ．83−84 電子情報通信学会技術研究報告ＳＰ87 −20 Ｐ．33−39（1987／６／25)

Claims

【特許請求の範囲】

【請求項１】同一のものを含む所定複数種類の認識基本
単位候補の組の各々につき、その組の各種類の認識基本
単位候補の特徴ベクトルをその種類を除くその組の他の
認識基本単位候補の特徴ベクトルから線形モデルで推定
する場合の推定係数行列及び定数ベクトルを各々その組
の複数の学習サンプルから重回帰分析により演算して求
めたものを相対関係標準パターンとして記憶する相対関
係標準パターン記憶手段と、未知入力音声から各々複数候補ずつの認識基本単位候補
系列群を抽出する予備識別手段と、該認識基本単位候補系列群から選択される前記所定複数
種類の認識基本単位候補の組の各々につき、その組の各
種類の認識基本単位候補の特徴ベクトルとそれを前記相
対関係標準パターン記憶手段上のその組に対応する前記
推定係数行列及び定数ベクトルを用いて前記線形モデル
で推定したものとの差ベクトルのノルムのその組の全種
類についての総和の負符号を付した値を演算することに
より整合度を求め、該各整合度に基づいて前記認識基本
単位候補系列群の中から前記未知入力音声に対応する最
適認識基本単位候補系列を認識する最適認識基本単位候
補系列認識手段とを有することを特徴とする相対関係に
基づく音声認識方式。
【請求項２】前記認識基本単位は母音であり、前記予備識別手段は、５母音の各母音毎の特徴量の標準パターンを記憶する母
音別標準パターン記憶手段と、前記未知入力単語音声を時間軸方向に分割した複数フレ
ームから複数の母音区間とその区間の特徴量を抽出する
母音区間抽出手段と、該各母音区間毎に、その区間の特徴量と前記母音別標準
パターン記憶手段上の前記各標準パターンとのマッチン
グをとることにより、前記各母音区間毎に３位までの母
音候補を識別し、３候補ずつの母音候補系列群として出
力する母音候補系列群生成手段とによって構成されるこ
とを特徴とする請求項１記載の相対関係に基づく音声認
識方式。
【請求項３】前記母音区間抽出手段は、前記複数フレームのそれぞれについて、対数パワースペ
クトル値を演算し、該演算した対数パワースペクトル値のうちの所定の値に
基づいて前記複数の母音区間を決定し、該母音区間のそれぞれについて、前記所定の対数パワー
スペクトル値の変化が最も小さい安定なフレームを該母
音区間の中心フレームとし、該中心フレームを含む前後
所定フレームの特徴量の平均値として該母音区間の特徴
量を算出することを特徴とする請求項２記載の相対関係
に基づく音声認識方式。
【請求項４】前記最適認識基本単位候補系列認識手段
は、確率的弛緩法により前記認識基本単位候補系列群の
各認識基本単位候補の確率を前記各整合度に基づいて更
新し、所定回数の更新動作の後、各認識基本単位候補毎
に各々の確率が最も高くなった認識基本単位候補を選択
して前記最適認識基本単位候補系列を認識することを特
徴とする請求項１、２又は３記載の相対関係に基づく音
声認識方式。