JPH0120439B2

JPH0120439B2 -

Info

Publication number: JPH0120439B2
Application number: JP58056717A
Authority: JP
Inventors: Takayuki Fujimoto; Yasuo Sato; Mitsuo Furumura; Hiroo Tanaka; Koji Tajima; Takahisa Kimura
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-03-31
Filing date: 1983-03-31
Publication date: 1989-04-17
Also published as: JPS59181399A

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は、複数個の単語あるいは音節が連続し
ている入力音声の認識方式に関し、特に単語ある
いは音節間に調音結合が生じている場合の認識精
度を改善するための方式に関する。

〔技術の背景〕

一般に複数個の単語あるいは音節が連続して発
声される場合、特に早口で発声されるほど隣合う
単語あるいは音節の端部に、調音結合と呼ばれる
変形が生じる。たとえば、〔aKa〕と〔aSa〕と
を続けて発声すると〔aKaaSa〕となり、中間の
２つのaaが結合して短くなる傾向を示す。その
ため、用意されている標準パターンとのマツチン
グ精度が低下するという問題があつた。この場合
の解決方法として、すべての標準パターンについ
て、予め調音結合による変化を登録しておくこと
が考えられるが、調音結合を生じる標準パターン
同士の組合わせと、調音結合の深さによる変化が
多いことから、実際上困難であつた。

〔発明の目的および構成〕

本発明の目的は、調音給合を含む連続音声入力
パターンの認識において、簡易な方法で擬似的な
調音結合変化の標準パターンを作成し、入力パタ
ーンとのマツチング精度を向上させることにあ
る。

本発明は、そのための構成として、複数個の単
語あるいは音節を連続して発声した未知入力音声
を分析して得られた音響的特徴を表す入力パター
ンの各部分に、前以つて記憶しておいた単語／音
節音声の標準パターンを必要な個数だけマツチン
グさせる連続音声認識方式において、該マツチン
グに際して、各隣合う標準パターンの端部同志が
その境界で離隔している場合、該離隔部の標準パ
ターンとして標準パターンの端部同士から求めた
補間パターンを適用することにより、入力パター
ンとの類似度を算出し、該類似度が最大となる標
準パターン系列をもとめ、得られた標準パターン
系列に対応する単語あるいは音節系列を認識結果
として出力することを特徴としている。

〔発明の実施例〕

以下に、本発明の詳細を図にしたがつて説明す
る。

第１図は、連続音声入力パターンにおける調音
給合変化の説明図である。横軸が入力パターン、
縦軸が標準パターン系列を示している。入力パタ
ーン中の部分パターンC₁およびC₂同士の隣接す
る幅Ｐの区間（m₁、l₂間）は、調音結合により変
形し、かつ短縮されておりそのため、本来入力部
分パターンC₁，C₂にそれぞれマツチングさせる
べく用意されている標準パターンＡ，Ｂは、その
端部同士が重複した形となり、しかもパターンＡ
の終端部P_eAあるいはパターンＢの始端部P_SBは、
いずれも入力パターン中の調音給合変形部分m₁，
l₂に対するマツチング特性が悪くなり、曖昧さを
増やす原因となる。

本発明では、このため標準パターンとして、調
音結合にもとづく変形を強く受けやすいパターン
端部、すなわち、たとえば第１図の標準パターン
ＢについてはP_SBおよびB_eBを予め除去し、中央部
のみの幅の狭いパターンを使用するものである。
しかし、その結果パターンマツチングを行なうと
き、各標準パターン間に空隙部が生じる。これは
入力パターン中の調音結合で変形した区間Ｑに対
応している。そこで、調音結合区間に対する標準
パターンを予め擬似的に作成する。すなわち、２
つの幅の狭い標準パターンのすべての組み合わせ
について、それらの端部同士を結ぶ補間パターン
を作成しておき、パターンマツチング時に、幅の
狭い標準パターン間の空隙部に、適合する補間パ
ターンを選択して嵌めこむようにするものであ
る。

第２図は、本発明による補間パターンの説明図
であり、ｎ，n₂は幅の狭い標準パターン、n_cは補
間パターンである。補間の方法は、直線補間ある
いは２次補間等の適当なものが使用できる。また
補間パターンの長さは、（n₁，n₂）により変化さ
せてもよい。

次に、このような補間パターンを用いた連続音
声認識の実施例について説明する。

第３図に示すように、両端を除いた標準パター
ンn_iと入力の部分パターンC_i（ｌ、ｍ）との距離
をＤ（ｌ、ｍ、n_i）とし、補間パターンn_i′と入力
パターンの対応する調音結合区間C_i′（l′、m′）
との距離をD_n（l′、m′、n_i−１、n_i）とする。この
とき、最小累積距離をS₀とし、ｌ、ｍ、l′、m′を
それぞれl_i′＋１、l_i、l_i-1＋１、l_i′で一般化する
と、次式によつて求められる。

S₀＝ min ｋ _k 〓_i-1 min min li，l′i，ni〔D_n（l_i-1＋１、l_i′、n_i−１、n_i）＋Ｄ
（l_i′＋１、l_i、n_i）〕……(1) そして、このS₀を与えるn_i（ｉ＝１、２、…、
ｋ）を、認識結果とする。

第４図は実施例システムの構成図であり、図
中、１は標準パターン記憶部、２は標準パターン
n_iから前処理で作成した補間バターンの記憶部、
３は認識対象の入力パターンの記憶部、４は(1)式
の〔〕内のD_n＋Ｄを計算する距離計算部、５
はその距離計算結果の最小値計算部、６は最小累
積距離S₀を与えるn_i（ｉ＝１、２、３、…、ｋ）
を決定する類似度計算部である。類似度計算部６
の処理結果は認識出力として取り出される。

次に(1)式の計算手順の１例について述べる。ま
ず、最小距離 D^（ｌ、ｍ、n₁、n₂）＝ min min ｊ〔D_n（ｌ、ｊ、n_i、n₂）＋Ｄ（ｊ＋1m、n₂）〕……(2
) を求め、記憶する。

次に、Ｓ（１、ｉ、ｎ）＝Ｄ（１、ｉ、ｎ） ……(3) を初期値として、以下の漸化式を解く。

Ｓ（ｋ、ｉ、ｎ）＝ min min ｊ，n′〔Ｓ（ｋ−１、ｊ、n′）＋D^（ｊ＋１、ｉ、n
′、ｎ）〕……(4) この時、同時にＢ（ｋ、ｉ、ｎ）＝ argmin ｊ min min n′〔Ｓ（ｋ−１、ｊ、n′）＋D^（ｊ＋１、ｉ、n′、
ｎ）〕……(5) Ｎ（ｋ−１、ｉ、ｎ）＝ argmin n′ min min ｊ〔Ｓ（ｋ−１、ｉ、n′＋D^（ｊ＋１、ｉ、n′、ｎ）
〕……(6) を求め、記憶しておく。

最小累積距離は、 S₀＝ min ｋ，ｎＳ（ｋ、Ｉ、ｎ） ……(7) により与えられる。

さらに認識結果を得るためには、 k₀＝ argmin ｋ min ｎＳ（ｋ、Ｉ、ｎ） ……(8) N_k0＝ argmin ｎＳ（k₀、Ｉ、ｎ） ……(9) とし、次にｋ＝k₀ ｉ＝Ｉ ……(10) を初期値として、 N_k-1＝Ｎ（ｋ−１、ｉ、N_k） ……(11) ｉ、ｋを以下のように置き換える。

ｉ←Ｂ（ｋ、ｉ、N_k）ｋ←ｋ−１ ……(12) ｋ２ならば、(11)式から繰り返す。このように
して得られる N₁、N₂、…、Nk0が認識結果である。

〔発明の効果〕

以上のように、本発明によれば、標準パターン
を、調音結合に対して安定なパターン中央部分で
主として構成し、調音結合により変動しやすいパ
ターン端部は、擬似的に補間して作成したものを
用いることにより、比較的簡単な構成で効率的な
連続音声認識システムを実現することができる。

【図面の簡単な説明】

第１図は入力パターンに調音結合を含む場合の
従来のパターンマツチングの説明図、第２図は本
発明による補間パターンの説明図、第３図は補間
パターンを用いたパターンマツチングの説明図、
第４図は本発明実施例システムの構成図である。図中、１は標準パターン記憶部、２は補間パタ
ーン記憶部、３は入力パターン記憶部、４は距離
計算部、５は最小値計算部、６は類似度計算部を
表わす。

Claims

【特許請求の範囲】１複数個の単語あるいは音節を連続して発声し
た末知入力音声を分析して得られた音響的特徴を
表す入力パターンの各部分に、前以つて記憶して
おいた単語／音節音声の標準パターンを必要な個
数だけマツチングさせる連続音声認識方式におい
て、該マツチングに際して、各隣合う標準パター
ンの端部同士がその境界で離隔している場合、該
離隔部の標準パターンとして構準パターンの端部
同士から求めた補間パターンを適用することに依
り、入力パターンとの類似度を算出し、該類似度
が最大となる標準パターン系列をもとめ、得られ
た標準パターン系列に対応する単語あるいは音節
系列を認識結果として出力することを特徴とする
連続音声認識方式。２前記第１項記載の連続音声認識方式におい
て、マツチングの際に、予め各標準パターンと入
力の任意長の総ての部分パターンとの部分類似度
と、総ての標準パターンの終端部と始端部同士か
ら求められるあらゆる補間パターンと、入力の任
意長の総ての部分パターンとの補間パターン部類
似度とを算出した後、動的計画法を用いて最適標
準パターン系列を求めることを特徴とする連続音
声認識方式。