JPS6358400A - 連続単語音声認識装置 - Google Patents
連続単語音声認識装置Info
- Publication number
- JPS6358400A JPS6358400A JP61203019A JP20301986A JPS6358400A JP S6358400 A JPS6358400 A JP S6358400A JP 61203019 A JP61203019 A JP 61203019A JP 20301986 A JP20301986 A JP 20301986A JP S6358400 A JPS6358400 A JP S6358400A
- Authority
- JP
- Japan
- Prior art keywords
- word
- pattern
- continuous
- isolated
- partial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 241000257465 Echinoidea Species 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、特定話者が連続的に発声した単語列の認識を
実現する連続単語音声認識装置に関する。
実現する連続単語音声認識装置に関する。
(従来の技術〕
従来、この種の連続単語音声認識装置(以下、認識装置
と略す)は、まず利用者にあらかじめ認識させる単語を
ひと通り単独に区切って発声させ(以下、孤立単語と呼
ぶ)、単語毎の音声パタンを標準パタンとして認識装置
内に記憶させ(ト記操作を標準パタンの登録と呼ぶ)、
次に、人力される連続41語音声(以下、人力パタンと
呼ぶ)に対して、各標準パタンとの間で比較操作(パタ
ンマツチング)を行い、両者の一致の度合(類似度)を
調べ、最大一致の得られる標準パタンの組合せを決定し
、これと同じ単語に属すると判定する方法を用いていた
。この方法を能率よく、かつ粒度よく実現する方法とし
て、動的計画法(ダイナミックプログラミング、以下、
DPと略ず)を利用した認識技術(特願昭50−1:1
2003およびl:]22004号以下、引用文献と称
す)が知られている。本引用文献には上記パタンマツチ
ング法による認識装置の動作原理が記載されている。こ
の原理の概要は次の通りである。何個かの単語が連続し
ている入力パタンに対し、何個かの標準パタンをあらゆ
る順列で接続することによって得られるパタンを人力パ
タンの標準パタンと考えて、大カパタン全体とのマツチ
ングを行なう。この結果得られた類似度が最大となるよ
うな標準パタンの個数と順列組合せを定めることによフ
て認識を行なう。実際には上記最大化を単語単位での最
大化処理と全体レベルでの最大化処理に分割し、各最大
化処理をDPを利用して実行することにより、処理量を
低減し実用的な処理速度を達成している。以ト述へた引
用文献記載の方法が、従来では最も有効な認識法である
と考えられる。
と略す)は、まず利用者にあらかじめ認識させる単語を
ひと通り単独に区切って発声させ(以下、孤立単語と呼
ぶ)、単語毎の音声パタンを標準パタンとして認識装置
内に記憶させ(ト記操作を標準パタンの登録と呼ぶ)、
次に、人力される連続41語音声(以下、人力パタンと
呼ぶ)に対して、各標準パタンとの間で比較操作(パタ
ンマツチング)を行い、両者の一致の度合(類似度)を
調べ、最大一致の得られる標準パタンの組合せを決定し
、これと同じ単語に属すると判定する方法を用いていた
。この方法を能率よく、かつ粒度よく実現する方法とし
て、動的計画法(ダイナミックプログラミング、以下、
DPと略ず)を利用した認識技術(特願昭50−1:1
2003およびl:]22004号以下、引用文献と称
す)が知られている。本引用文献には上記パタンマツチ
ング法による認識装置の動作原理が記載されている。こ
の原理の概要は次の通りである。何個かの単語が連続し
ている入力パタンに対し、何個かの標準パタンをあらゆ
る順列で接続することによって得られるパタンを人力パ
タンの標準パタンと考えて、大カパタン全体とのマツチ
ングを行なう。この結果得られた類似度が最大となるよ
うな標準パタンの個数と順列組合せを定めることによフ
て認識を行なう。実際には上記最大化を単語単位での最
大化処理と全体レベルでの最大化処理に分割し、各最大
化処理をDPを利用して実行することにより、処理量を
低減し実用的な処理速度を達成している。以ト述へた引
用文献記載の方法が、従来では最も有効な認識法である
と考えられる。
〔発明が解決しようとする問題点〕
たとえば数字“3”、rSanJを発声した場合、次に
続く数字によフてrSanJのrnJの周波数構造か大
きく変化したり、「n」のエネルギーが極端に低く(無
声化)なる場合かある。ところかrsanJのr Sa
Jは「n」に比較して周波数の変動も少なくエネルギー
値も安定して高い。しかし、従来の装置では’SaJも
rnJも同じ重みでマツチングを行なっていたため、マ
ツチングの効果が十分でなく誤認識や認識不能(マツチ
ング値が非富に悪い)となる。
続く数字によフてrSanJのrnJの周波数構造か大
きく変化したり、「n」のエネルギーが極端に低く(無
声化)なる場合かある。ところかrsanJのr Sa
Jは「n」に比較して周波数の変動も少なくエネルギー
値も安定して高い。しかし、従来の装置では’SaJも
rnJも同じ重みでマツチングを行なっていたため、マ
ツチングの効果が十分でなく誤認識や認識不能(マツチ
ング値が非富に悪い)となる。
上述した従来の認識装置は、標準パタンの特徴と大カパ
タンの特徴を利用しないで、標準パタンと大カパタンの
比較操作を行っていたので、実用に供する場合に、種々
の要因により誤認識が生ずるという欠点がある。
タンの特徴を利用しないで、標準パタンと大カパタンの
比較操作を行っていたので、実用に供する場合に、種々
の要因により誤認識が生ずるという欠点がある。
本発明の連続Qi語音声認識装置は、単3Δ毎に区切っ
て発声された音声パタンを孤立単語パタンとして保持し
、連続して発声された連続Q’−語バツパタンし、孤立
単語パタンをあらゆる順列で接続し、この接続された孤
立歌語パタンと連続単語パタンとの間で比較操作を行な
い、両者の一致の度合を調へ、最大の一致の得られる孤
立単語パタンの組合せを決定して、連続!…語音声を認
識する連続四ツ音声認識装置において、組合わされる孤
立単語パタンそれぞれが持つ時間−特徴情報の特徴を、
面記比較操作の際、強調する重みを記憶する重み関数記
憶部と、認識対象となる連続単語パタンが持つ時間−特
徴情報に従って、前記の比較操作の際、連続単語パタン
か持つ時間−特徴情報の特徴を強調する重みを発生する
重み関数発生部とを有することを特徴とする。
て発声された音声パタンを孤立単語パタンとして保持し
、連続して発声された連続Q’−語バツパタンし、孤立
単語パタンをあらゆる順列で接続し、この接続された孤
立歌語パタンと連続単語パタンとの間で比較操作を行な
い、両者の一致の度合を調へ、最大の一致の得られる孤
立単語パタンの組合せを決定して、連続!…語音声を認
識する連続四ツ音声認識装置において、組合わされる孤
立単語パタンそれぞれが持つ時間−特徴情報の特徴を、
面記比較操作の際、強調する重みを記憶する重み関数記
憶部と、認識対象となる連続単語パタンが持つ時間−特
徴情報に従って、前記の比較操作の際、連続単語パタン
か持つ時間−特徴情報の特徴を強調する重みを発生する
重み関数発生部とを有することを特徴とする。
すなわち、本発明は、認識対象とする各々の単語の特徴
的周波数部分を前もって調べて、その結果を重み関数と
して標準パタンと同様に各単語毎に用意し、また人力パ
タンの特徴的周波数部分も同様に調べて重み関数として
用意し、大カパタンと任意の標準パタンのマツチングの
際にト記重み関数に従ってマツチング結果を得ることに
より、単語単位でのマツチング精度を向トさせると共に
連続Q1語認識レベルにおける全体マツチングの性能を
向トさせたものである。
的周波数部分を前もって調べて、その結果を重み関数と
して標準パタンと同様に各単語毎に用意し、また人力パ
タンの特徴的周波数部分も同様に調べて重み関数として
用意し、大カパタンと任意の標準パタンのマツチングの
際にト記重み関数に従ってマツチング結果を得ることに
より、単語単位でのマツチング精度を向トさせると共に
連続Q1語認識レベルにおける全体マツチングの性能を
向トさせたものである。
次に、本発明の実施例について図面を参照して説明をす
る。
る。
第1図は本発明の連続9語&声認識装置の一実施例を示
すブロック図である。
すブロック図である。
本実施例は、マイクロホン10より人力した音声111
号を周波数分析する分析部11と、分析部11の出力を
特徴ベクトルの時系列として一時保持する大カパタンバ
ッファ12と、孤立A語パタンbjを標準パタンとして
保持する標準パタン記憶部13と、標準パタン記憶部1
3の孤立rIi語バツパタンの特徴を強調する重みW
(j)を記憶する重み関数記憶部22と、人力パタンバ
ッファ12に保持された連続単語パタンの特徴を強調す
るIRみW(i)を発生する重み関数発生部23と、重
み関数記憶部22の重みW(j)を標準パタン記憶部1
3の孤立単語パタンbjに付加し、重み関数発生部23
からの重みW(i)を入力パタンバッファ12からの連
続rlL ’5f)パタンに付加し、工1みを付加され
た孤立単語パタンと連続単語パタンとを比較操作して連
続単語パタンの部分パタンに対する各孤立単語パタンの
部分類似度と部分パタンをどの孤立単語パタンと判定し
たかの部分判定を行う第1のマツチング部14と、部分
パタンの始端と終端とに対応させて部分類似度を記憶す
る部分類似度記憶部15と、部分判定を記憶する部分判
定結果記憶部16と、漸化式値記憶部18と、部分類似
度記憶部15と部分判定結果記憶部16とのデータを入
力し、単語数設定端子1fkより入力される値に基づき
、連続単語パタンの第1の時間点までの部分類似度の総
和の最大値を第1の漸化式値として漸化式値記憶部18
に記憶し、漸化式値と第1の時間点から第2の時間点ま
での部分類似度との和の最大値を′f、2の漸化式値と
して漸化式値記憶部18に記憶し、第1の時間点を順次
変化させて館記操作を経返し、第1の時間点を仮区分点
として出力し、第1の時間点から第2の時間点までの部
分判定結果を仮判定結果として出力する第2のマツチン
グ部17と、第2のマツチング部17から出力される仮
区分点を記憶する仮区分点記憶部19と、仮判定結果を
記憶する仮判定結果記憶部20と、仮区分点記憶部j9
内の仮区分点と仮f’lJ定結果記憶部20内の仮判定
結果とを参照して各単語の区分点と単語名を決定する判
定部21とから構成されている。
号を周波数分析する分析部11と、分析部11の出力を
特徴ベクトルの時系列として一時保持する大カパタンバ
ッファ12と、孤立A語パタンbjを標準パタンとして
保持する標準パタン記憶部13と、標準パタン記憶部1
3の孤立rIi語バツパタンの特徴を強調する重みW
(j)を記憶する重み関数記憶部22と、人力パタンバ
ッファ12に保持された連続単語パタンの特徴を強調す
るIRみW(i)を発生する重み関数発生部23と、重
み関数記憶部22の重みW(j)を標準パタン記憶部1
3の孤立単語パタンbjに付加し、重み関数発生部23
からの重みW(i)を入力パタンバッファ12からの連
続rlL ’5f)パタンに付加し、工1みを付加され
た孤立単語パタンと連続単語パタンとを比較操作して連
続単語パタンの部分パタンに対する各孤立単語パタンの
部分類似度と部分パタンをどの孤立単語パタンと判定し
たかの部分判定を行う第1のマツチング部14と、部分
パタンの始端と終端とに対応させて部分類似度を記憶す
る部分類似度記憶部15と、部分判定を記憶する部分判
定結果記憶部16と、漸化式値記憶部18と、部分類似
度記憶部15と部分判定結果記憶部16とのデータを入
力し、単語数設定端子1fkより入力される値に基づき
、連続単語パタンの第1の時間点までの部分類似度の総
和の最大値を第1の漸化式値として漸化式値記憶部18
に記憶し、漸化式値と第1の時間点から第2の時間点ま
での部分類似度との和の最大値を′f、2の漸化式値と
して漸化式値記憶部18に記憶し、第1の時間点を順次
変化させて館記操作を経返し、第1の時間点を仮区分点
として出力し、第1の時間点から第2の時間点までの部
分判定結果を仮判定結果として出力する第2のマツチン
グ部17と、第2のマツチング部17から出力される仮
区分点を記憶する仮区分点記憶部19と、仮判定結果を
記憶する仮判定結果記憶部20と、仮区分点記憶部j9
内の仮区分点と仮f’lJ定結果記憶部20内の仮判定
結果とを参照して各単語の区分点と単語名を決定する判
定部21とから構成されている。
次に、本実施例の動作原理について説明する。
本実施例の装置が実行する動作原理を数式的に表現する
と次のようになる。マイクロホンlOにより人力される
音声信号は分析部1】により分析処理され、周波数構造
等を表わす多次元特徴ベクトルa1の時系列パタンAと
して表わすことかできる。
と次のようになる。マイクロホンlOにより人力される
音声信号は分析部1】により分析処理され、周波数構造
等を表わす多次元特徴ベクトルa1の時系列パタンAと
して表わすことかできる。
k= al+ a2.・−、aH、・−、aj −
−−−(])一方、単独に発声された各単語(孤立1…
語)パタンも同様に分析され、時系列パタンBとして表
わすことができる。
−−−(])一方、単独に発声された各単語(孤立1…
語)パタンも同様に分析され、時系列パタンBとして表
わすことができる。
B” = br、 b2.−−−、b’7 、 ・=
−−−−(2)nは単語を識別するための添字
、 kを連続単語に含まれる単語数として最大問題T=
(m(k) (S(^9口(1) ■ a n (
2) ■・・・■Bn(” ) ) )
−−−−(3)を計算し、最適なパラメータ(単語名
)n(k)=n (k) (k=1.2.−、 K)を
求め同時に区分点1(k)点を求める。ここで■はパタ
ンの接続を表わす演算fである。例えばBn■amは B” Ctl ”” = br+ br、””” 1)
Ul、b7’、 b’;’。
−−−−(2)nは単語を識別するための添字
、 kを連続単語に含まれる単語数として最大問題T=
(m(k) (S(^9口(1) ■ a n (
2) ■・・・■Bn(” ) ) )
−−−−(3)を計算し、最適なパラメータ(単語名
)n(k)=n (k) (k=1.2.−、 K)を
求め同時に区分点1(k)点を求める。ここで■はパタ
ンの接続を表わす演算fである。例えばBn■amは B” Ctl ”” = br+ br、””” 1)
Ul、b7’、 b’;’。
b″J1 −−−−(4)
(3)式の最大化をkおよびn(k)に関する総当り法
で計算すると膨大な計算量が必要となるが、引用文献と
同様に (3)式の最大化計算をlli語単位での処理
と全体としての処理の2段階に分割することで実用的な
処理速度を可能とする。すなわち、(+)式で表わされ
る人力パタンAの1=11よりi=mまでの部分区間と
して部分パタンA(1,m)を定義する。
で計算すると膨大な計算量が必要となるが、引用文献と
同様に (3)式の最大化計算をlli語単位での処理
と全体としての処理の2段階に分割することで実用的な
処理速度を可能とする。すなわち、(+)式で表わされ
る人力パタンAの1=11よりi=mまでの部分区間と
して部分パタンA(1,m)を定義する。
A(fl、 m)= a、、1.x+2. 、、、、
B、。
B、。
以下では、lを始点、mを終点と称する。いま人カパタ
ンAニ(K−1)個の区分点fi (1) 、 l (
2) 、””1(k)・・・、ff1(K−1)を設け
、1<fi(+)<ρ(2)〈・・・・・・< 1 (
K−1) < ll(K) =■を仮定して、大カパタ
ンAをに個の部分パタンに分割する。
ンAニ(K−1)個の区分点fi (1) 、 l (
2) 、””1(k)・・・、ff1(K−1)を設け
、1<fi(+)<ρ(2)〈・・・・・・< 1 (
K−1) < ll(K) =■を仮定して、大カパタ
ンAをに個の部分パタンに分割する。
A =A(+、f (1))ΦA(j2 (+) 、j
2 (2))■・・・■A(,12(k−1)!! (
k) ) ■−・・−0+八(R(K−1)、 I
)、一方、パタン間の時間軸正規化類似度を定義する
と、類似度S (八、B)はパタンの接続分解に関して
次の性質を存する。
2 (2))■・・・■A(,12(k−1)!! (
k) ) ■−・・−0+八(R(K−1)、 I
)、一方、パタン間の時間軸正規化類似度を定義する
と、類似度S (八、B)はパタンの接続分解に関して
次の性質を存する。
S(A・8”■8パ)“T°゛(耶)す・、x、3ニド
(T(3)式に (5)式を代入し、さらに (6)式
の関係を繰返し適用し整理すると、 となり、 (7)式の最大化問題は次のように分解して
計算することができる。
(T(3)式に (5)式を代入し、さらに (6)式
の関係を繰返し適用し整理すると、 となり、 (7)式の最大化問題は次のように分解して
計算することができる。
[11類似Jff S (八(42、m)、 [1
” ) −−−−(8)をすべてのQ<mなる部分区
間 A(n、+n)と孤立、Qt詰パタンBτ1に関して算
出する。
” ) −−−−(8)をすべてのQ<mなる部分区
間 A(n、+n)と孤立、Qt詰パタンBτ1に関して算
出する。
[21部分類似度
S (Q、 m)=max (S (八(Qlm
)、 Rn ) )部分判定結果 N (11,m)=arg max (S(八<l
、 m)、B” ) 3を計算し、テーブルに
記憶する。ここで、arg−max [・1なる記号は
[]の最大を僕える変数nを算出することを、a、味
する。
)、 Rn ) )部分判定結果 N (11,m)=arg max (S(八<l
、 m)、B” ) 3を計算し、テーブルに
記憶する。ここで、arg−max [・1なる記号は
[]の最大を僕える変数nを算出することを、a、味
する。
−−−−(+1)
なる最大問題を計算し、最適なパラメータ(+7゜分点
) fl(k) = l (k)、 k= 1.2.・
・・、Kを求める。
) fl(k) = l (k)、 k= 1.2.・
・・、Kを求める。
(11)式の最大問題は次の漸化式により計算できる。
初期値 To(fl、) =O,R=1,2.・・・、
■。
■。
k= 1.2.・・・、に
漸化式 m=l、2.−.1 、 k=I、2.・・、
に仮置分点 L’(m)=arg max (Tk−’ (M)
+S (、Q、 m))! −−−−(+3) 仮判定結果 N ’(111) = N (Lしくm)、 m)
−−−−(14)(+2)、 (+3)、 (目
)式の計算はに、mに関して増加する方向に計算する。
に仮置分点 L’(m)=arg max (Tk−’ (M)
+S (、Q、 m))! −−−−(+3) 仮判定結果 N ’(111) = N (Lしくm)、 m)
−−−−(14)(+2)、 (+3)、 (目
)式の計算はに、mに関して増加する方向に計算する。
以−4二のJA埋が終了すると、(13)式のし−(m
)から区分点fl (x)か次のように決定される。
)から区分点fl (x)か次のように決定される。
fl(に−1) −LX(+) より順次通合って仮
置分点ffi (k)を ffi (k) = L”’ Q (k+1) )、
(k= 1.2.・・・、に−1)として、仮置分点L
’(m)のテーブルを参照して求め、それに従って、判
定結果n (k)が、(14)式の仮判定結果より n (k) = N ’(fl (k))、 (k=
1.2.− 、K) −−−−(15)として参照する
ことで得られる。
置分点ffi (k)を ffi (k) = L”’ Q (k+1) )、
(k= 1.2.・・・、に−1)として、仮置分点L
’(m)のテーブルを参照して求め、それに従って、判
定結果n (k)が、(14)式の仮判定結果より n (k) = N ’(fl (k))、 (k=
1.2.− 、K) −−−−(15)として参照する
ことで得られる。
以トの操作により、連続単1悟を構成する各単語の区分
点とC1i語名が旦(k)、 (k=+、2.・・・、
に−1) 。
点とC1i語名が旦(k)、 (k=+、2.・・・、
に−1) 。
n (k) 、 (k = I、2.・・、k)として
決定される。
決定される。
次に1本実施例の動作について説明する。単11Δ毎に
区切って発声された音声がマイクロホン1oがら孤立中
−1iΔパタンとして分析部11に入力される。
区切って発声された音声がマイクロホン1oがら孤立中
−1iΔパタンとして分析部11に入力される。
分析部11で周波数分析された孤ダL昨語パタンは(2
)式で示される特徴ベクトルb」の時系列を仔するに〒
準パタンllnとして人カバターンバッファ12を介し
て標i+(パタン記憶部13に記憶される。連続的に発
声された7g声はマイクロホン1o、分析部11を軒て
(1)式で示される特徴ベクトルaiの時系列を44
−する連続’l’ +EΔパタンAとして入力パタンバ
ッファ12に記憶される。また、(瓜ウニ単語の標準パ
タン11 Tlの特徴を表現する重み関数wnU)(j
・1.2.:II、・・・1.J)か市み関2友8己憶
部22に11己憶されている。連続m1:Δパタン(人
力パタン)Aの特徴(各?11−語か持つイ〕意な特徴
成分に着[」シた)を強調1− ルrl’i、 ミ閏?
fi Wn(i) (i=1.2.3. ・・・、
I ) ’ti +lミ関数発生部23で作られて第1
のマツチング部14へ送られる。
)式で示される特徴ベクトルb」の時系列を仔するに〒
準パタンllnとして人カバターンバッファ12を介し
て標i+(パタン記憶部13に記憶される。連続的に発
声された7g声はマイクロホン1o、分析部11を軒て
(1)式で示される特徴ベクトルaiの時系列を44
−する連続’l’ +EΔパタンAとして入力パタンバ
ッファ12に記憶される。また、(瓜ウニ単語の標準パ
タン11 Tlの特徴を表現する重み関数wnU)(j
・1.2.:II、・・・1.J)か市み関2友8己憶
部22に11己憶されている。連続m1:Δパタン(人
力パタン)Aの特徴(各?11−語か持つイ〕意な特徴
成分に着[」シた)を強調1− ルrl’i、 ミ閏?
fi Wn(i) (i=1.2.3. ・・・、
I ) ’ti +lミ関数発生部23で作られて第1
のマツチング部14へ送られる。
第2図は屯み関数Wn(、i)の−例を示す図である。
この図はrO5八Kへ Jの標準パタン[lI+に対す
る!nみ関数の一例であり、Iυff−1子音の結合部
のマツチング効果を下げ、r−a部(キ、rに摩擦音、
破’Q :’r )のマツチング効果を上げる様に重み
関数W(j)が決められている。本例ではこのようにし
てl[み関数WnU)か時間’pHl j方向にのみ決
めら打ているが、時111卜kb方向jたけてなく周波
数軸方向fに関しても特徴を統計的に調へて、市み関数
Wn(j、f)を決める方法などか考えらね、第2図の
例に限定されるものではない。
る!nみ関数の一例であり、Iυff−1子音の結合部
のマツチング効果を下げ、r−a部(キ、rに摩擦音、
破’Q :’r )のマツチング効果を上げる様に重み
関数W(j)が決められている。本例ではこのようにし
てl[み関数WnU)か時間’pHl j方向にのみ決
めら打ているが、時111卜kb方向jたけてなく周波
数軸方向fに関しても特徴を統計的に調へて、市み関数
Wn(j、f)を決める方法などか考えらね、第2図の
例に限定されるものではない。
゛)
以下余白 J
表 1
表1は重み関数発生部23で重み関数Wn(i)を発生
する際に参照する特徴−重み値テーブルの一例である。
する際に参照する特徴−重み値テーブルの一例である。
たとえば人力パタンのiフレーム目の特徴がSの摩擦音
であった場合、マツチングの対象が大阪の場合は重み関
数W(i) =1.9が選ばれ、東京の場合用み関数W
(i) −1,0か選ばハて各々(111)式の漸化式
に従って類似度が計算される。また屯み関数Wn(i)
も重み関数Wn(j)と同様に周波数軸方向fに関して
の特徴を統計的に調べて、重み関数Wn(i、f)を決
めることも可能である。第1のマツチング部14では次
式で定義される漸化式を各孤立単語パタンBnとパタン
Aの部分パタンA(ffi、m)に関し大カパタンベク
トルal11が人力される毎に (8)式の類似度Sを
算出する。即ち初期条件 g(!、 j” ) = S
(am 、bp )i= m=Oiミm −−−−(+7) 漸化式 %式%(18) なる漸化式計算をj = j” 、 j” −I、
jn−2゜・・・、1の順序で実行し、類似度 S (A(Q、 m)、 B” ) =gC(1+1
.1)−(20)を m−J”−r≦2≦m−J”
+r −−−−(21)なる範囲で算
出する。
であった場合、マツチングの対象が大阪の場合は重み関
数W(i) =1.9が選ばれ、東京の場合用み関数W
(i) −1,0か選ばハて各々(111)式の漸化式
に従って類似度が計算される。また屯み関数Wn(i)
も重み関数Wn(j)と同様に周波数軸方向fに関して
の特徴を統計的に調べて、重み関数Wn(i、f)を決
めることも可能である。第1のマツチング部14では次
式で定義される漸化式を各孤立単語パタンBnとパタン
Aの部分パタンA(ffi、m)に関し大カパタンベク
トルal11が人力される毎に (8)式の類似度Sを
算出する。即ち初期条件 g(!、 j” ) = S
(am 、bp )i= m=Oiミm −−−−(+7) 漸化式 %式%(18) なる漸化式計算をj = j” 、 j” −I、
jn−2゜・・・、1の順序で実行し、類似度 S (A(Q、 m)、 B” ) =gC(1+1
.1)−(20)を m−J”−r≦2≦m−J”
+r −−−−(21)なる範囲で算
出する。
上述の方法により結果として (9)式で示される部分
類似度S(1,+n)および(10)式で示される部分
判定結果N(fi、m)をそれぞれ部分類似度記憶部1
51部分判定結果記憶部16に出力する。第2のマツチ
ング部17では、部分類似度記憶部15より上記部分類
似度S(f、m)を読み出し、同時に漸化式値記憶部1
8から、l<mなる(12)式の漸化式値Tkl(2)
を、kを一定として、読み出しながら漸化式値T’(m
)を算出し、漸化式値記憶部18に出力する。同様に仮
置分点L’(m)を(13)式で算出して、仮置分点記
憶部19に出力する。仮判定結果N ’(m)は(14
)式にもとづいて部分判定結果N(42,m)と、仮置
分点L ’(m)を参照して算出され、仮判定結果記憶
部20に出力される。
類似度S(1,+n)および(10)式で示される部分
判定結果N(fi、m)をそれぞれ部分類似度記憶部1
51部分判定結果記憶部16に出力する。第2のマツチ
ング部17では、部分類似度記憶部15より上記部分類
似度S(f、m)を読み出し、同時に漸化式値記憶部1
8から、l<mなる(12)式の漸化式値Tkl(2)
を、kを一定として、読み出しながら漸化式値T’(m
)を算出し、漸化式値記憶部18に出力する。同様に仮
置分点L’(m)を(13)式で算出して、仮置分点記
憶部19に出力する。仮判定結果N ’(m)は(14
)式にもとづいて部分判定結果N(42,m)と、仮置
分点L ’(m)を参照して算出され、仮判定結果記憶
部20に出力される。
7J、2のマツチング部17では上記操作を単語数設定
端%ilkより入力される値を基にに=1から始め、k
=Kまで順次kを増加させながら実行する。
端%ilkより入力される値を基にに=1から始め、k
=Kまで順次kを増加させながら実行する。
かくのごとく構成された装置において、単語系列の既知
なる連続単語パタンAの始点a1がら終点a、までを順
次人力させて上述の動作を実行させることで、区分点に
関する値L’(m)と単語名を決定する値Nしくm)が
すべてのm= (+、 2.−、 I )+’に=(
1,2,・・・、K)について得られる。判定部21で
は、それぞれ仮置分点記憶部19内の仮置分点L’(m
)と仮判定結果記憶部20内の仮判定結果N ’(m)
とを参照して、(15)式に従ってkを1つづつデクリ
メントしながら順次1 (k−]) 、 j2 (k−
2) 。
なる連続単語パタンAの始点a1がら終点a、までを順
次人力させて上述の動作を実行させることで、区分点に
関する値L’(m)と単語名を決定する値Nしくm)が
すべてのm= (+、 2.−、 I )+’に=(
1,2,・・・、K)について得られる。判定部21で
は、それぞれ仮置分点記憶部19内の仮置分点L’(m
)と仮判定結果記憶部20内の仮判定結果N ’(m)
とを参照して、(15)式に従ってkを1つづつデクリ
メントしながら順次1 (k−]) 、 j2 (k−
2) 。
・・・、+2(1)を決定する。同様にして(16)式
に従って各単語名n (k−1) 、 n (k−2)
、・” 、 n (])を決定する。
に従って各単語名n (k−1) 、 n (k−2)
、・” 、 n (])を決定する。
以上本発明の実力’fr例を説明したが、これらの記載
は本発明の範囲を限定するものではない。例えば本明細
書では類似度を基にして動作を説明したが、距離のよう
に大小関係が逆の尺度によっても同様な処理が可能であ
る。また、抽出する部分を単語として説明したが複数の
a節からなる語句でも同様に処理することができる。さ
らに、入力音声パタンと標準パタンとの類似度を動的計
画法で説明したが、動的計画法に限定するものではない
。
は本発明の範囲を限定するものではない。例えば本明細
書では類似度を基にして動作を説明したが、距離のよう
に大小関係が逆の尺度によっても同様な処理が可能であ
る。また、抽出する部分を単語として説明したが複数の
a節からなる語句でも同様に処理することができる。さ
らに、入力音声パタンと標準パタンとの類似度を動的計
画法で説明したが、動的計画法に限定するものではない
。
以北連続竿語を認識する方法を説明したが、(19)式
の制約下で表1や第2図に示す様な値の重み関数Wn(
i)、 Wn(j)で(20)式の類似度計算を実行す
ることにより、重み関数Wn(i)、 Wn(j)の極
大値近傍、つまりその孤立単語を特徴づける周波数区間
に重みか付けられてパタンマツチングが行なわれ、かつ
母音部と子(母)音部のわたり部分で比較的不安定な部
分のマツチング効果が軽減できるため、孤立単語レベル
でのマツチングの性能か向上することにより、高鯖度な
連続単語認識が実現できる。
の制約下で表1や第2図に示す様な値の重み関数Wn(
i)、 Wn(j)で(20)式の類似度計算を実行す
ることにより、重み関数Wn(i)、 Wn(j)の極
大値近傍、つまりその孤立単語を特徴づける周波数区間
に重みか付けられてパタンマツチングが行なわれ、かつ
母音部と子(母)音部のわたり部分で比較的不安定な部
分のマツチング効果が軽減できるため、孤立単語レベル
でのマツチングの性能か向上することにより、高鯖度な
連続単語認識が実現できる。
以上説明したように本発明は、連続単語パタンを接続さ
れた孤立単語パタンとして認識する際、孤ずL中1語パ
タン、連続単語パタンの仔する時間−特徴+l11報に
特徴を強調する重みを付加して比較操作することにより
、+1!−語?林位でのマツチング粒度を向トさせると
共に連続単語認識レベルにおける全体マツチングの性能
を向上させる効果がある。
れた孤立単語パタンとして認識する際、孤ずL中1語パ
タン、連続単語パタンの仔する時間−特徴+l11報に
特徴を強調する重みを付加して比較操作することにより
、+1!−語?林位でのマツチング粒度を向トさせると
共に連続単語認識レベルにおける全体マツチングの性能
を向上させる効果がある。
第1図は本発明の連続単語音声認識装置の一実施例を示
すブロック図、第2図は重み関数記憶部22に記憶され
ている任意の単語の標準パタンに対する重み関数W (
j)の−例を示す図である。 10・・・マイクロホン、 11・・・分析部、1
2・・・人力パタンバッファ、 13・・・標準パタン記憶部、 14・・・第1のマツチング部、 15・・・部分類似度記憶部、 16・・・部分判定結果記憶部、 17・・・第2のマツチング部、18・・・漸化式値記
憶部、19・・・仮置分点記憶部、 20・・・仮判定
結果記憶部、21・・・判定部、 22・・・
重み関数記憶部、23・・・重み関数発生部、 Wk・
・・単語数設定端子。
すブロック図、第2図は重み関数記憶部22に記憶され
ている任意の単語の標準パタンに対する重み関数W (
j)の−例を示す図である。 10・・・マイクロホン、 11・・・分析部、1
2・・・人力パタンバッファ、 13・・・標準パタン記憶部、 14・・・第1のマツチング部、 15・・・部分類似度記憶部、 16・・・部分判定結果記憶部、 17・・・第2のマツチング部、18・・・漸化式値記
憶部、19・・・仮置分点記憶部、 20・・・仮判定
結果記憶部、21・・・判定部、 22・・・
重み関数記憶部、23・・・重み関数発生部、 Wk・
・・単語数設定端子。
Claims (1)
- 【特許請求の範囲】 単語毎に区切って発声された音声パタンを孤立単語パタ
ンとして保持し、連続して発声された連続単語パタンに
対し、孤立単語パタンをあらゆる順列で接続し、この接
続された孤立単語パタンと連続単語パタンとの間で比較
操作を行ない、両者の一致の度合を調べ、最大の一致の
得られる孤立単語パタンの組合せを決定して、連続単語
音声を認識する連続単語音声認識装置において、 組合わされる孤立単語パタンそれぞれが持つ時間−特徴
情報の特徴を、前記比較操作の際、強調する重みを記憶
する重み関数記憶部と、 認識対象となる連続単語パタンが持つ時間−特徴情報に
従って、前記比較操作の際、連続単語パタンが持つ時間
−特徴情報の特徴を強調する重みを発生する重み関数発
生部とを有することを特徴とする連続単語音声認識装置
。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61203019A JPS6358400A (ja) | 1986-08-28 | 1986-08-28 | 連続単語音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61203019A JPS6358400A (ja) | 1986-08-28 | 1986-08-28 | 連続単語音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS6358400A true JPS6358400A (ja) | 1988-03-14 |
Family
ID=16466999
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP61203019A Pending JPS6358400A (ja) | 1986-08-28 | 1986-08-28 | 連続単語音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6358400A (ja) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS58224394A (ja) * | 1982-06-22 | 1983-12-26 | 日本電気株式会社 | 連続単語音声認識装置 |
| JPS59198A (ja) * | 1982-06-25 | 1984-01-05 | 中川 聖一 | パタ−ン比較装置 |
| JPS5972498A (ja) * | 1982-10-19 | 1984-04-24 | 松下電器産業株式会社 | パタ−ン比較装置 |
| JPS59173883A (ja) * | 1983-03-22 | 1984-10-02 | Matsushita Electric Ind Co Ltd | パタ−ン比較装置 |
-
1986
- 1986-08-28 JP JP61203019A patent/JPS6358400A/ja active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS58224394A (ja) * | 1982-06-22 | 1983-12-26 | 日本電気株式会社 | 連続単語音声認識装置 |
| JPS59198A (ja) * | 1982-06-25 | 1984-01-05 | 中川 聖一 | パタ−ン比較装置 |
| JPS5972498A (ja) * | 1982-10-19 | 1984-04-24 | 松下電器産業株式会社 | パタ−ン比較装置 |
| JPS59173883A (ja) * | 1983-03-22 | 1984-10-02 | Matsushita Electric Ind Co Ltd | パタ−ン比較装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3683177B2 (ja) | 音声認識のための文脈依存モデルの作成方法 | |
| JP3114975B2 (ja) | 音素推定を用いた音声認識回路 | |
| JP3412496B2 (ja) | 話者適応化装置と音声認識装置 | |
| JPS58130393A (ja) | 音声認識装置 | |
| JPH05216490A (ja) | 音声コード化装置及び方法並びに音声認識装置及び方法 | |
| CN110931045A (zh) | 基于卷积神经网络的音频特征生成方法 | |
| CN110047501A (zh) | 基于beta-VAE的多对多语音转换方法 | |
| Ali et al. | Gender recognition system using speech signal | |
| JPH0638199B2 (ja) | 音声認識装置 | |
| JP2955297B2 (ja) | 音声認識システム | |
| CN107785030B (zh) | 一种语音转换方法 | |
| CN112967734B (zh) | 基于多声部的音乐数据识别方法、装置、设备及存储介质 | |
| JPS6358400A (ja) | 連続単語音声認識装置 | |
| JP6827004B2 (ja) | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム | |
| CN115862590A (zh) | 一种基于特征金字塔的文本驱动语音合成方法 | |
| JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
| JP2923243B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
| JPH0823758B2 (ja) | 話者適応形音声認識装置 | |
| Xu et al. | Voice conversion based on state-space model for modelling spectral trajectory | |
| JP3098157B2 (ja) | 話者照合方法及び装置 | |
| Das | Some dimensionality reduction studies in continuous speech recognition | |
| JP2989231B2 (ja) | 音声認識装置 | |
| JP2014197072A (ja) | 音声合成システム、及び音声合成方法 | |
| JPH08263520A (ja) | 音声ファイル構成方式及び方法 | |
| CN118098272A (zh) | 一种音频的解耦方法及装置、存储介质、计算机设备 |