JPS6335997B2

JPS6335997B2 -

Info

Publication number: JPS6335997B2
Application number: JP55174340A
Authority: JP
Inventors: Hidekazu Tsuboka; Yoshiteru Mifune; Satoru Kabasawa
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1980-12-10
Filing date: 1980-12-10
Publication date: 1988-07-18
Also published as: JPS5797598A

Description

【発明の詳細な説明】

本発明は、入力音声信号を一定期間毎にサンプ
リングして音韻の系列に変換し、しかる後に予め
音韻記号で登録されている単語辞書の各単語と比
較し、最も類似度の高い単語を認識結果とする音
声認識装置において、前記変換された音韻系列を
マージングすることにより前記単語辞書との比較
照合の速度を上げることを目的とするものであ
る。第１図は、入力音声信号を一たん音韻の系列に
分解してから、単語認識を行う音声認識装置の従
来構成を示すブロツク図である。１は音声信号入
力端子、２は例えばｎチヤンネルのフイルタバン
クからなり、入力音声信号の周波数分析を行う周
波数分析部である。すなわち、入力される音声信
号に対し、前記フイルタバンクを構成する各帯域
フイルタの出力の大きさに対応した電圧が、それ
ぞれの周波数成分の大きさとして出力される。こ
れを例えば10msec毎にサンプリングすれば、
10msec毎にｎ次元のベクトル系列に前記音声信
号が変換されることになる。（ここでそれぞれの
10msecをフレームという）３は音韻の標準パタ
ーンを記憶している標準パターン記憶部であつ
て、各音韻を前記フイルタバンクで周波数分析し
た結果得られたｎ次元のベクトルとして各音韻が
記憶されている。４は音韻認識部であつて、周波
数分析部２から出力されるｎ次元ベクトルの系列
のそれぞれが、標準パターン記憶部３のどの音韻
のパターンに最も近いかを計算し、最も近い標準
パターンに対応する音韻を認識結果として出力す
る。この時点で入力音声は、音韻系列に変換され
たことになる。５は単語辞書であつて、認識すべ
き語彙を構成する各単語が、略ローマ字書きのよ
うに音韻の組合せの形で予め登録されている。６
は単語認識部であつて、予め各音韻間で実験的あ
るいは理論的に求められた音韻間類似度に基づ
き、音韻認識部４で得られた音韻系列と、単語辞
書５のそれぞれの単語と比較照合を行い、最も類
似度の高い単語を認識結果として出力する。７は
判定結果の出力端子である。この場合、音韻認識部４によつて認識される音
韻列は、間違いを多く含んでいるので、入力され
るｎ次元のベクトルのそれぞれに、唯一の音韻を
対応させるのではなく、第１候補音韻、第２候補
音韻、第１候補音韻の信頼度の組として出力され
る。第２図はこの例を示す。すなわち、ｉ番目の
ベクトルViに対しA_iが第１候補音韻、B_iが第２
候補音韻、r_iが第１候補の信頼度である。これら
音韻と、信頼度の決定は、各標準パターンベクト
ルとViとの距離を計算し、最も距離の小さい標
準パターンを第１候補、次に距離の小さい標準パ
ターンを第２候補とし、前者の距離をd_i1、後者
の距離をd_i2とするとき信頼度r_iとしてr_i＝d_i2／
（d_i1＋d_i2）で求められる。音韻A_i，B_iに対する標
準パターンベクトルAi，Biと入力ベクトルV_iの
距離は通常のベクトル間の距離として定義でき
る。例えば、この距離をユークリツド距離で定義
すれば Ai＝（A_i1，A_i2，……，A_io） Bi＝（B_i1，B_i2，……，B_io） Vi＝（V_i1，V_i2，……，V_io）とするときになる。このようにすれば、AiとBiの確からし
さが同程度のときはri＝0.5で、Aiの確からしさ
が増大するにつれてriは１に近づくことになる。このようにして得られた音韻系列と単語辞書の
各単語との比較を行うためには、この音韻系列の
それぞれと各単語を構成する音韻との間の類似度
を定義しておく必要がある。音韻間の類似度例え
ば音韻ＰとＱの類似度は、音韻ＰとＱに対応する
ｎ次元ベクトルとして集められた多数のデータか
ら統計的に処理することによつて求められた両音
韻間の距離を線形変換することにより求められ
る。これを類似度S₀（Ｐ，Ｑ）とする。このとき、
前記音韻系列のｉ番目の音韻の組と単語辞書の比
較の対称となつているｋ番目の単語W_kのｊ番目
の音韻D_jとの類似度Ｓ（ｉ，ｊ）は、例えばＳ（ｉ，ｊ）＝riS₀（A_i，D_j）＋（１−ri）S₀（B_i，D_j）で与えることができる。前記入力音韻系列と単語W_kの類似度は、この
Ｓ（ｉ，ｊ）を基にして、縦軸ｊ、横軸ｉの格子
グラフ上で周知の動的計画法により求めることが
できる。以上の認識において、音韻認識部４の出力音韻
系列はそのまま単語認識部６へ入力されるのでは
なく、マージングして音韻数を減らすことが普通
行われる。これは、10msec程度のサンプリング
であると、同一の音韻が連続する場合が多く、冗
長度が高いため、そのまま単語辞書と照合をする
のは非能率であることから、認識速度を上げるた
めと、音韻のわたりの部分などの不安定なところ
では音韻の認識結果が誤つていることが多く、こ
れを取り除くために行われる。本発明は、以上の認識方式において、新しいマ
ージングの方式を備えた音声認識装置を提供する
ものである。第２図の説明のように第ｉフレームの第１候補
音韻をA_i、第２候補音韻をB_i，A_iの信頼度をriと
すれば、B_iの信頼度は１−riとなる。いま、第ｊ
フレームから第ｊ＋ｋフレームまでの音韻系列を
マージングして、第１候補音韻Fl、第２候補音韻
Sl、信頼度Rlを求める方法について述べる。こ
の範囲に含まれる音韻はA_j，A_(j+1)，……，
A_(j+k)，B_j，B_(j+1)，……，B_(j+k)であり、それぞ
れには前記説明における信頼度rj，ｒ（ｊ＋１），
……，ｒ（ｊ＋ｋ），１−rj，１−ｒ（ｊ＋１），…
…，１−ｒ（ｊ＋ｋ）が付随している。この中に
ｍ種の異なつた音韻が存在しているものとし、そ
れぞれをX₁，X₂，……，X_nとすれば、前記A_j，
……，B_(j+k)のそれぞれはX₁，……，X_nの何れか
に含まれることになる。このとき、A_j，……，
B_(j+k)のうち、X_iに含まれるものに対応する前記
信頼度の合計をuiとする。u₁，u₂，……，u_nの最
大のものをuλ、２番目に大きいものをuμとすれ
ば第１候補音韻Fl＝Xλ、第２候補音韻Sl＝Xμ、
信頼度Rl＝uλ／（uλ＋uμ）で与えることができ
る。第３図は、本発明になるマージング方式を導入
した音声認識装置の構成を示し、１〜７は前記従
来例と同様な動作を行うもので、８が本発明によ
る前記マージングを行う音韻列修正部である。マージングの範囲としては、実験的に３フレー
ム単位（すなわちｍ＝３）で固定して行うのが最
も簡単な方法で、比較的効果が高い。例として、ｉ−１フレームからｉ＋１フレーム
までをマージングする場合を述べる（ｋ＝２の場
合）第２図においてこのフレームに含まれる各音
韻の信頼度は下表のようになる。

【表】

【表】いま例えば、A_(i-1)，A_i，B_(i+1)が音韻X₁，
B_(i-1)，B_iが音韻X₂，A_(i+1)が音韻X₃であつたとす
れば（ｍ＝３の場合）、このとき、 u₁＝ｒ（ｉ−１）＋ri＋（１−r_(i+1)） u₂＝（１−r_(i-1)）＋（１−ri） u₃＝r_(i+1) となる。従つてu₁≧u₂≧u₃であつたとすれば uλ＝u₁，uμ＝u₂ となるから、マージングされた結果は、 Fl＝X₁，Sl＝X₂，Rl＝u1／（u₁＋u₂）となる。以上のように本発明によれば、マージングすべ
き範囲に含まれる同一音韻の数と、それぞれの信
頼度から合理的にそれらのフレームをマージング
することができ、すなわち冗長度を低減して単語
辞書との照合が可能となることから、従来よりも
効率的に認識速度を向上させ、あわせて正確さも
実現できるものである。

【図面の簡単な説明】

第１図は音韻分析を行う従来の音声認識装置の
ブロツク図、第２図は音韻認識の結果得られる音
韻列を説明する図、第３図は本発明の音声認識装
置の一実施例を示すブロツク図である。２……周波数分析部、３……標準パタン記憶
部、４……音韻認識部、５……単語辞書、６……
単語認識部、８……音韻列修正部。

Claims

【特許請求の範囲】

１入力音声信号を特徴ベクトルの系列に変換す
る手段と、該ベクトル系列を構成するそれぞれの
特徴ベクトルを第１候補音韻、第２候補音韻、第
１候補音韻と第２候補音韻が、同様の確からしさ
を有するときは0.5で、第１候補音韻の確からし
さが増大するにつれて１に近づくように定義した
第１候補音韻の信頼度の組に変換する音韻認識手
段と、該音韻認識手段により得られた第１候補音
韻、第２候補音韻、第１候補音韻の信頼度の組の
系列の連続する数組をマージングする手段とを備
え、該マージング手段の出力系列と、認識語彙を
構成する各単語を音韻の組合せで表現した単語辞
書の各単語と比較照合し、最も類似度の高い単語
を認識結果として出力する音声認識装置におい
て、前記マージング手段として、前記音韻認識手
段の出力系列の第ｉ番の組の第１候補音韻をA_i、
第２候補音韻をB_i、第１候補音韻の信頼度をri従
つて第２候補音韻の信頼度を１−riとするとき、
第ｊ番の組から第ｊ＋ｋ番までの組をマージング
する場合、この中に含まれるｍ種類の音韻X₁，
X₂，……，X_nに対し、前記A_j，A_j＋１，……，
A_j＋ｋ，B_j，B_j＋１，……，B_j+kのうち、音韻
X_iに等しいもののそれぞれに対応する信頼度の合
計をu_iとし、u₁，u₂，……，u_nの最大のものを
uλ、その次に大きなものをuμとすれば、マージ
ング後の第１候補音韻をXλ、第２候補音韻を
Xμ、第１候補音韻の信頼度をuλ／（uλ＋uμ）と
する手段を有することを特徴とする音声認識装
置。