JPS6335997B2 - - Google Patents
Info
- Publication number
- JPS6335997B2 JPS6335997B2 JP55174340A JP17434080A JPS6335997B2 JP S6335997 B2 JPS6335997 B2 JP S6335997B2 JP 55174340 A JP55174340 A JP 55174340A JP 17434080 A JP17434080 A JP 17434080A JP S6335997 B2 JPS6335997 B2 JP S6335997B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- candidate phoneme
- candidate
- reliability
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 239000013598 vector Substances 0.000 claims description 13
- 238000013459 approach Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Description
本発明は、入力音声信号を一定期間毎にサンプ
リングして音韻の系列に変換し、しかる後に予め
音韻記号で登録されている単語辞書の各単語と比
較し、最も類似度の高い単語を認識結果とする音
声認識装置において、前記変換された音韻系列を
マージングすることにより前記単語辞書との比較
照合の速度を上げることを目的とするものであ
る。 第1図は、入力音声信号を一たん音韻の系列に
分解してから、単語認識を行う音声認識装置の従
来構成を示すブロツク図である。1は音声信号入
力端子、2は例えばnチヤンネルのフイルタバン
クからなり、入力音声信号の周波数分析を行う周
波数分析部である。すなわち、入力される音声信
号に対し、前記フイルタバンクを構成する各帯域
フイルタの出力の大きさに対応した電圧が、それ
ぞれの周波数成分の大きさとして出力される。こ
れを例えば10msec毎にサンプリングすれば、
10msec毎にn次元のベクトル系列に前記音声信
号が変換されることになる。(ここでそれぞれの
10msecをフレームという)3は音韻の標準パタ
ーンを記憶している標準パターン記憶部であつ
て、各音韻を前記フイルタバンクで周波数分析し
た結果得られたn次元のベクトルとして各音韻が
記憶されている。4は音韻認識部であつて、周波
数分析部2から出力されるn次元ベクトルの系列
のそれぞれが、標準パターン記憶部3のどの音韻
のパターンに最も近いかを計算し、最も近い標準
パターンに対応する音韻を認識結果として出力す
る。この時点で入力音声は、音韻系列に変換され
たことになる。5は単語辞書であつて、認識すべ
き語彙を構成する各単語が、略ローマ字書きのよ
うに音韻の組合せの形で予め登録されている。6
は単語認識部であつて、予め各音韻間で実験的あ
るいは理論的に求められた音韻間類似度に基づ
き、音韻認識部4で得られた音韻系列と、単語辞
書5のそれぞれの単語と比較照合を行い、最も類
似度の高い単語を認識結果として出力する。7は
判定結果の出力端子である。 この場合、音韻認識部4によつて認識される音
韻列は、間違いを多く含んでいるので、入力され
るn次元のベクトルのそれぞれに、唯一の音韻を
対応させるのではなく、第1候補音韻、第2候補
音韻、第1候補音韻の信頼度の組として出力され
る。第2図はこの例を示す。すなわち、i番目の
ベクトルViに対しAiが第1候補音韻、Biが第2
候補音韻、riが第1候補の信頼度である。これら
音韻と、信頼度の決定は、各標準パターンベクト
ルとViとの距離を計算し、最も距離の小さい標
準パターンを第1候補、次に距離の小さい標準パ
ターンを第2候補とし、前者の距離をdi1、後者
の距離をdi2とするとき信頼度riとしてri=di2/
(di1+di2)で求められる。音韻Ai,Biに対する標
準パターンベクトルAi,Biと入力ベクトルViの
距離は通常のベクトル間の距離として定義でき
る。例えば、この距離をユークリツド距離で定義
すれば Ai=(Ai1,Ai2,……,Aio) Bi=(Bi1,Bi2,……,Bio) Vi=(Vi1,Vi2,……,Vio) とするとき になる。このようにすれば、AiとBiの確からし
さが同程度のときはri=0.5で、Aiの確からしさ
が増大するにつれてriは1に近づくことになる。 このようにして得られた音韻系列と単語辞書の
各単語との比較を行うためには、この音韻系列の
それぞれと各単語を構成する音韻との間の類似度
を定義しておく必要がある。音韻間の類似度例え
ば音韻PとQの類似度は、音韻PとQに対応する
n次元ベクトルとして集められた多数のデータか
ら統計的に処理することによつて求められた両音
韻間の距離を線形変換することにより求められ
る。これを類似度S0(P,Q)とする。このとき、
前記音韻系列のi番目の音韻の組と単語辞書の比
較の対称となつているk番目の単語Wkのj番目
の音韻Djとの類似度S(i,j)は、例えば S(i,j)=riS0(Ai,Dj) +(1−ri)S0(Bi,Dj) で与えることができる。 前記入力音韻系列と単語Wkの類似度は、この
S(i,j)を基にして、縦軸j、横軸iの格子
グラフ上で周知の動的計画法により求めることが
できる。 以上の認識において、音韻認識部4の出力音韻
系列はそのまま単語認識部6へ入力されるのでは
なく、マージングして音韻数を減らすことが普通
行われる。これは、10msec程度のサンプリング
であると、同一の音韻が連続する場合が多く、冗
長度が高いため、そのまま単語辞書と照合をする
のは非能率であることから、認識速度を上げるた
めと、音韻のわたりの部分などの不安定なところ
では音韻の認識結果が誤つていることが多く、こ
れを取り除くために行われる。 本発明は、以上の認識方式において、新しいマ
ージングの方式を備えた音声認識装置を提供する
ものである。 第2図の説明のように第iフレームの第1候補
音韻をAi、第2候補音韻をBi,Aiの信頼度をriと
すれば、Biの信頼度は1−riとなる。いま、第j
フレームから第j+kフレームまでの音韻系列を
マージングして、第1候補音韻Fl、第2候補音韻
Sl、信頼度Rlを求める方法について述べる。こ
の範囲に含まれる音韻はAj,A(j+1),……,
A(j+k),Bj,B(j+1),……,B(j+k)であり、それぞ
れには前記説明における信頼度rj,r(j+1),
……,r(j+k),1−rj,1−r(j+1),…
…,1−r(j+k)が付随している。この中に
m種の異なつた音韻が存在しているものとし、そ
れぞれをX1,X2,……,Xnとすれば、前記Aj,
……,B(j+k)のそれぞれはX1,……,Xnの何れか
に含まれることになる。このとき、Aj,……,
B(j+k)のうち、Xiに含まれるものに対応する前記
信頼度の合計をuiとする。u1,u2,……,unの最
大のものをuλ、2番目に大きいものをuμとすれ
ば第1候補音韻Fl=Xλ、第2候補音韻Sl=Xμ、
信頼度Rl=uλ/(uλ+uμ)で与えることができ
る。 第3図は、本発明になるマージング方式を導入
した音声認識装置の構成を示し、1〜7は前記従
来例と同様な動作を行うもので、8が本発明によ
る前記マージングを行う音韻列修正部である。 マージングの範囲としては、実験的に3フレー
ム単位(すなわちm=3)で固定して行うのが最
も簡単な方法で、比較的効果が高い。 例として、i−1フレームからi+1フレーム
までをマージングする場合を述べる(k=2の場
合)第2図においてこのフレームに含まれる各音
韻の信頼度は下表のようになる。
リングして音韻の系列に変換し、しかる後に予め
音韻記号で登録されている単語辞書の各単語と比
較し、最も類似度の高い単語を認識結果とする音
声認識装置において、前記変換された音韻系列を
マージングすることにより前記単語辞書との比較
照合の速度を上げることを目的とするものであ
る。 第1図は、入力音声信号を一たん音韻の系列に
分解してから、単語認識を行う音声認識装置の従
来構成を示すブロツク図である。1は音声信号入
力端子、2は例えばnチヤンネルのフイルタバン
クからなり、入力音声信号の周波数分析を行う周
波数分析部である。すなわち、入力される音声信
号に対し、前記フイルタバンクを構成する各帯域
フイルタの出力の大きさに対応した電圧が、それ
ぞれの周波数成分の大きさとして出力される。こ
れを例えば10msec毎にサンプリングすれば、
10msec毎にn次元のベクトル系列に前記音声信
号が変換されることになる。(ここでそれぞれの
10msecをフレームという)3は音韻の標準パタ
ーンを記憶している標準パターン記憶部であつ
て、各音韻を前記フイルタバンクで周波数分析し
た結果得られたn次元のベクトルとして各音韻が
記憶されている。4は音韻認識部であつて、周波
数分析部2から出力されるn次元ベクトルの系列
のそれぞれが、標準パターン記憶部3のどの音韻
のパターンに最も近いかを計算し、最も近い標準
パターンに対応する音韻を認識結果として出力す
る。この時点で入力音声は、音韻系列に変換され
たことになる。5は単語辞書であつて、認識すべ
き語彙を構成する各単語が、略ローマ字書きのよ
うに音韻の組合せの形で予め登録されている。6
は単語認識部であつて、予め各音韻間で実験的あ
るいは理論的に求められた音韻間類似度に基づ
き、音韻認識部4で得られた音韻系列と、単語辞
書5のそれぞれの単語と比較照合を行い、最も類
似度の高い単語を認識結果として出力する。7は
判定結果の出力端子である。 この場合、音韻認識部4によつて認識される音
韻列は、間違いを多く含んでいるので、入力され
るn次元のベクトルのそれぞれに、唯一の音韻を
対応させるのではなく、第1候補音韻、第2候補
音韻、第1候補音韻の信頼度の組として出力され
る。第2図はこの例を示す。すなわち、i番目の
ベクトルViに対しAiが第1候補音韻、Biが第2
候補音韻、riが第1候補の信頼度である。これら
音韻と、信頼度の決定は、各標準パターンベクト
ルとViとの距離を計算し、最も距離の小さい標
準パターンを第1候補、次に距離の小さい標準パ
ターンを第2候補とし、前者の距離をdi1、後者
の距離をdi2とするとき信頼度riとしてri=di2/
(di1+di2)で求められる。音韻Ai,Biに対する標
準パターンベクトルAi,Biと入力ベクトルViの
距離は通常のベクトル間の距離として定義でき
る。例えば、この距離をユークリツド距離で定義
すれば Ai=(Ai1,Ai2,……,Aio) Bi=(Bi1,Bi2,……,Bio) Vi=(Vi1,Vi2,……,Vio) とするとき になる。このようにすれば、AiとBiの確からし
さが同程度のときはri=0.5で、Aiの確からしさ
が増大するにつれてriは1に近づくことになる。 このようにして得られた音韻系列と単語辞書の
各単語との比較を行うためには、この音韻系列の
それぞれと各単語を構成する音韻との間の類似度
を定義しておく必要がある。音韻間の類似度例え
ば音韻PとQの類似度は、音韻PとQに対応する
n次元ベクトルとして集められた多数のデータか
ら統計的に処理することによつて求められた両音
韻間の距離を線形変換することにより求められ
る。これを類似度S0(P,Q)とする。このとき、
前記音韻系列のi番目の音韻の組と単語辞書の比
較の対称となつているk番目の単語Wkのj番目
の音韻Djとの類似度S(i,j)は、例えば S(i,j)=riS0(Ai,Dj) +(1−ri)S0(Bi,Dj) で与えることができる。 前記入力音韻系列と単語Wkの類似度は、この
S(i,j)を基にして、縦軸j、横軸iの格子
グラフ上で周知の動的計画法により求めることが
できる。 以上の認識において、音韻認識部4の出力音韻
系列はそのまま単語認識部6へ入力されるのでは
なく、マージングして音韻数を減らすことが普通
行われる。これは、10msec程度のサンプリング
であると、同一の音韻が連続する場合が多く、冗
長度が高いため、そのまま単語辞書と照合をする
のは非能率であることから、認識速度を上げるた
めと、音韻のわたりの部分などの不安定なところ
では音韻の認識結果が誤つていることが多く、こ
れを取り除くために行われる。 本発明は、以上の認識方式において、新しいマ
ージングの方式を備えた音声認識装置を提供する
ものである。 第2図の説明のように第iフレームの第1候補
音韻をAi、第2候補音韻をBi,Aiの信頼度をriと
すれば、Biの信頼度は1−riとなる。いま、第j
フレームから第j+kフレームまでの音韻系列を
マージングして、第1候補音韻Fl、第2候補音韻
Sl、信頼度Rlを求める方法について述べる。こ
の範囲に含まれる音韻はAj,A(j+1),……,
A(j+k),Bj,B(j+1),……,B(j+k)であり、それぞ
れには前記説明における信頼度rj,r(j+1),
……,r(j+k),1−rj,1−r(j+1),…
…,1−r(j+k)が付随している。この中に
m種の異なつた音韻が存在しているものとし、そ
れぞれをX1,X2,……,Xnとすれば、前記Aj,
……,B(j+k)のそれぞれはX1,……,Xnの何れか
に含まれることになる。このとき、Aj,……,
B(j+k)のうち、Xiに含まれるものに対応する前記
信頼度の合計をuiとする。u1,u2,……,unの最
大のものをuλ、2番目に大きいものをuμとすれ
ば第1候補音韻Fl=Xλ、第2候補音韻Sl=Xμ、
信頼度Rl=uλ/(uλ+uμ)で与えることができ
る。 第3図は、本発明になるマージング方式を導入
した音声認識装置の構成を示し、1〜7は前記従
来例と同様な動作を行うもので、8が本発明によ
る前記マージングを行う音韻列修正部である。 マージングの範囲としては、実験的に3フレー
ム単位(すなわちm=3)で固定して行うのが最
も簡単な方法で、比較的効果が高い。 例として、i−1フレームからi+1フレーム
までをマージングする場合を述べる(k=2の場
合)第2図においてこのフレームに含まれる各音
韻の信頼度は下表のようになる。
【表】
【表】
いま例えば、A(i-1),Ai,B(i+1)が音韻X1,
B(i-1),Biが音韻X2,A(i+1)が音韻X3であつたとす
れば(m=3の場合)、このとき、 u1=r(i−1)+ri+(1−r(i+1)) u2=(1−r(i-1))+(1−ri) u3=r(i+1) となる。従つてu1≧u2≧u3であつたとすれば uλ=u1,uμ=u2 となるから、マージングされた結果は、 Fl=X1,Sl=X2,Rl=u1/(u1+u2) となる。 以上のように本発明によれば、マージングすべ
き範囲に含まれる同一音韻の数と、それぞれの信
頼度から合理的にそれらのフレームをマージング
することができ、すなわち冗長度を低減して単語
辞書との照合が可能となることから、従来よりも
効率的に認識速度を向上させ、あわせて正確さも
実現できるものである。
B(i-1),Biが音韻X2,A(i+1)が音韻X3であつたとす
れば(m=3の場合)、このとき、 u1=r(i−1)+ri+(1−r(i+1)) u2=(1−r(i-1))+(1−ri) u3=r(i+1) となる。従つてu1≧u2≧u3であつたとすれば uλ=u1,uμ=u2 となるから、マージングされた結果は、 Fl=X1,Sl=X2,Rl=u1/(u1+u2) となる。 以上のように本発明によれば、マージングすべ
き範囲に含まれる同一音韻の数と、それぞれの信
頼度から合理的にそれらのフレームをマージング
することができ、すなわち冗長度を低減して単語
辞書との照合が可能となることから、従来よりも
効率的に認識速度を向上させ、あわせて正確さも
実現できるものである。
第1図は音韻分析を行う従来の音声認識装置の
ブロツク図、第2図は音韻認識の結果得られる音
韻列を説明する図、第3図は本発明の音声認識装
置の一実施例を示すブロツク図である。 2……周波数分析部、3……標準パタン記憶
部、4……音韻認識部、5……単語辞書、6……
単語認識部、8……音韻列修正部。
ブロツク図、第2図は音韻認識の結果得られる音
韻列を説明する図、第3図は本発明の音声認識装
置の一実施例を示すブロツク図である。 2……周波数分析部、3……標準パタン記憶
部、4……音韻認識部、5……単語辞書、6……
単語認識部、8……音韻列修正部。
Claims (1)
- 1 入力音声信号を特徴ベクトルの系列に変換す
る手段と、該ベクトル系列を構成するそれぞれの
特徴ベクトルを第1候補音韻、第2候補音韻、第
1候補音韻と第2候補音韻が、同様の確からしさ
を有するときは0.5で、第1候補音韻の確からし
さが増大するにつれて1に近づくように定義した
第1候補音韻の信頼度の組に変換する音韻認識手
段と、該音韻認識手段により得られた第1候補音
韻、第2候補音韻、第1候補音韻の信頼度の組の
系列の連続する数組をマージングする手段とを備
え、該マージング手段の出力系列と、認識語彙を
構成する各単語を音韻の組合せで表現した単語辞
書の各単語と比較照合し、最も類似度の高い単語
を認識結果として出力する音声認識装置におい
て、前記マージング手段として、前記音韻認識手
段の出力系列の第i番の組の第1候補音韻をAi、
第2候補音韻をBi、第1候補音韻の信頼度をri従
つて第2候補音韻の信頼度を1−riとするとき、
第j番の組から第j+k番までの組をマージング
する場合、この中に含まれるm種類の音韻X1,
X2,……,Xnに対し、前記Aj,Aj+1,……,
Aj+k,Bj,Bj+1,……,Bj+kのうち、音韻
Xiに等しいもののそれぞれに対応する信頼度の合
計をuiとし、u1,u2,……,unの最大のものを
uλ、その次に大きなものをuμとすれば、マージ
ング後の第1候補音韻をXλ、第2候補音韻を
Xμ、第1候補音韻の信頼度をuλ/(uλ+uμ)と
する手段を有することを特徴とする音声認識装
置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP55174340A JPS5797598A (en) | 1980-12-10 | 1980-12-10 | Voice recognizer |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP55174340A JPS5797598A (en) | 1980-12-10 | 1980-12-10 | Voice recognizer |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5797598A JPS5797598A (en) | 1982-06-17 |
| JPS6335997B2 true JPS6335997B2 (ja) | 1988-07-18 |
Family
ID=15976920
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP55174340A Granted JPS5797598A (en) | 1980-12-10 | 1980-12-10 | Voice recognizer |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5797598A (ja) |
-
1980
- 1980-12-10 JP JP55174340A patent/JPS5797598A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS5797598A (en) | 1982-06-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US4400828A (en) | Word recognizer | |
| EP0435282B1 (en) | Voice recognition apparatus | |
| JP2815579B2 (ja) | 音声認識における単語候補削減装置 | |
| EP0109190A1 (en) | Monosyllable recognition apparatus | |
| JPH07306691A (ja) | 不特定話者音声認識装置およびその方法 | |
| US4581756A (en) | Recognition of speech or speech-like sounds using associative memory | |
| EP0108609B1 (en) | Method and apparatus for the phonetic recognition of words | |
| JPH0247760B2 (ja) | ||
| JPS6335997B2 (ja) | ||
| Rabiner et al. | On the application of embedded training to connected letter recognition for directory listing retrieval | |
| JP2813209B2 (ja) | 大語彙音声認識装置 | |
| JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
| JP3503862B2 (ja) | 音声認識方法及び音声認識プログラムを格納した記録媒体 | |
| JP3438293B2 (ja) | 音声認識における単語テンプレートの自動作成方法 | |
| JPH0449719B2 (ja) | ||
| JP2520392B2 (ja) | 単語音声認識装置 | |
| JP2577891B2 (ja) | 単語音声予備選択装置 | |
| JPS599080B2 (ja) | 音声認識方法 | |
| JPS62111295A (ja) | 音声認識装置 | |
| JP2655637B2 (ja) | 音声パターン照合方式 | |
| Nakatsu | A speech recognition machine for connected words | |
| Raman et al. | Performance of isolated word recognition system for confusable vocabulary | |
| JPS63161498A (ja) | 音声情報入力装置 | |
| JPS60159798A (ja) | 音声認識装置 | |
| JPH01177094A (ja) | データ検索装置 |