JPH0566596B2 - - Google Patents
Info
- Publication number
- JPH0566596B2 JPH0566596B2 JP59104786A JP10478684A JPH0566596B2 JP H0566596 B2 JPH0566596 B2 JP H0566596B2 JP 59104786 A JP59104786 A JP 59104786A JP 10478684 A JP10478684 A JP 10478684A JP H0566596 B2 JPH0566596 B2 JP H0566596B2
- Authority
- JP
- Japan
- Prior art keywords
- vowel
- string
- input
- standard
- syllable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は音声認識装置、特に単語あるいは文節
等音節を連続して発声した音声の認識装置に関す
る。
等音節を連続して発声した音声の認識装置に関す
る。
(従来例の構成とその問題点)
人間にとつて最も自然な情報発生手段である音
声が、人間−機械系の入力手段として使用できれ
ば、その効果な非常に大きい。
声が、人間−機械系の入力手段として使用できれ
ば、その効果な非常に大きい。
従来、音声認識装置としては特定話者登録方式
によるものが実用化されている。即ち、認識装置
を使用しようとする話者が、予め、認識すべきす
べての単語を自分の声で特徴ベクトルの系列に変
換し単語辞書に標準パターンとして登録してお
き、認識時に発声された音声を、同様に特徴ベク
トルの系列に変換し、前記単語辞書中のどの単語
に最も近いかを予め定められた規則によつて計算
し、最も類似している単語を認識結果とするもの
である。
によるものが実用化されている。即ち、認識装置
を使用しようとする話者が、予め、認識すべきす
べての単語を自分の声で特徴ベクトルの系列に変
換し単語辞書に標準パターンとして登録してお
き、認識時に発声された音声を、同様に特徴ベク
トルの系列に変換し、前記単語辞書中のどの単語
に最も近いかを予め定められた規則によつて計算
し、最も類似している単語を認識結果とするもの
である。
ところが、この方法によると、認識単語数が少
いときは良いが、数百、数千単語といつたように
増加してくると、主として次の三つの問題が無視
し得なくなる。
いときは良いが、数百、数千単語といつたように
増加してくると、主として次の三つの問題が無視
し得なくなる。
(1) 登録時における話者の負担が著しく増大す
る。
る。
(2) 認識時に発声された音声と標準パターンとの
類似度あるいは距離を計算するのに要する時間
が著しく増大し、認識装置の応答速度が遅くな
る。
類似度あるいは距離を計算するのに要する時間
が著しく増大し、認識装置の応答速度が遅くな
る。
(3) 前記単語辞書のために要するメモリが非常に
大きくなる。
大きくなる。
以上の欠点を回避するための方法として認識の
単位を子音+母音および母音の単音節(以後それ
ぞれCV,Vで表す。Cは子音、Vは母音を意味
する。)とする方法がある。即ち、標準パターン
として単音節を特徴ベクトルの系列として登録し
ておき、認識時に特徴ベクトルの系列に変換され
た入力音声を、前記単音節の標準パターンとマツ
チングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか
101種類であり、単音節は仮名文字に対応してい
るから、この方法によれば、日本語の任意の単語
あるいは文章を単音節列に変換する(認識する)
ことができ、前記(1)〜(3)の問題はすべて解決され
ることになる。しかし、この場合の問題として調
音結合とセグメンテーシヨンがある。調音結合
は、音節を連続して発声すると各音節は前後の音
節の影響を受け、スペクトル構造が前後に接続さ
れる音節によつて変化する現象である。セグメン
テーシヨンは、連続して発声された音声を単音節
単位に区切ることであるが、これを確実に行う決
定的な方法は未だ見出されていない。この2つの
問題を解決するために、現在のところ各単音節を
区切つて、発声することが行われており、実用化
されている装置もある。
単位を子音+母音および母音の単音節(以後それ
ぞれCV,Vで表す。Cは子音、Vは母音を意味
する。)とする方法がある。即ち、標準パターン
として単音節を特徴ベクトルの系列として登録し
ておき、認識時に特徴ベクトルの系列に変換され
た入力音声を、前記単音節の標準パターンとマツ
チングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか
101種類であり、単音節は仮名文字に対応してい
るから、この方法によれば、日本語の任意の単語
あるいは文章を単音節列に変換する(認識する)
ことができ、前記(1)〜(3)の問題はすべて解決され
ることになる。しかし、この場合の問題として調
音結合とセグメンテーシヨンがある。調音結合
は、音節を連続して発声すると各音節は前後の音
節の影響を受け、スペクトル構造が前後に接続さ
れる音節によつて変化する現象である。セグメン
テーシヨンは、連続して発声された音声を単音節
単位に区切ることであるが、これを確実に行う決
定的な方法は未だ見出されていない。この2つの
問題を解決するために、現在のところ各単音節を
区切つて、発声することが行われており、実用化
されている装置もある。
しかし、単音節を離散的に発声するのは不自然
であり、話者に緊張を強いるものである。
であり、話者に緊張を強いるものである。
(発明の目的)
本発明は、認識されるべき単語または文節に対
し、それらの数が多い場合でも小形低価格かつ標
準パターンの登録操作が簡単であつて、認識精度
および処理速度の向上が可能な音声認識装置を実
現することを目的とする。
し、それらの数が多い場合でも小形低価格かつ標
準パターンの登録操作が簡単であつて、認識精度
および処理速度の向上が可能な音声認識装置を実
現することを目的とする。
(発明の構成)
本発明は、V,CV,VV,VCV等の音節を予
め登録しておき、これらを連続発声して入力され
た単語または文節を、単語辞書を用いて、これら
音節列として認識するものであつて、その構成
は、入力音声信号を特徴パタンの系列Aに変換す
る特徴抽出手段と、前記入力信号の定常点を抽出
する定常点抽出手段と、抽出されたそれぞれの定
常点を母音と見做して母音識別して入力母音列X
を得る母音識別手段と、前記母音識別手段で得ら
れる入力母音列Xと認識されるべき単語あるいは
文節の母音列Yn(n=1,2,…,N)とのマツ
チングを行つて前記入力母音列Xに最も近に標準
母音列Ynoを識別する母音列識別手段と、前記入
力母音列Xと前記識別結果母音列Ynoとのマツチ
ング結果に基づいて前記母音列Xと前記識別結果
母音列Ynoの母音の対応関係を決定する母音列対
応決定手段と、前記対応関係に基づいて決定され
た前記入力母音列Xの部分区間に対応した前記
入力信号の部分系列について、前記母音列識別
手段で得られる前記識別結果母音列Ynoのうち前
記部分区間に対応した特定部分Yno=(yno j1,…,
yno j2)(j1<j2)の母音列で定義されるyno j1Cyno j1+1
,
yno j1+1Cyno j1+2,…,yno j2-1Cyno j2(C:子音)等の
それ
ぞれの音節に対応する標準パタンとのマツチング
を行つて、前記特定部分特徴パタン系列に対応す
る音節列を識別し、識別された音節列に基づいて
単語あるいは文節を判定して認識結果として出力
する判定手段とを備えた音声認識装置であり、認
識されるべき単語または文節に対して、それらの
数が多い場合でも小形低価かつ標準パタンの登録
操作が簡単であつて、認識精度及び処理速度を向
上することのできるものである。
め登録しておき、これらを連続発声して入力され
た単語または文節を、単語辞書を用いて、これら
音節列として認識するものであつて、その構成
は、入力音声信号を特徴パタンの系列Aに変換す
る特徴抽出手段と、前記入力信号の定常点を抽出
する定常点抽出手段と、抽出されたそれぞれの定
常点を母音と見做して母音識別して入力母音列X
を得る母音識別手段と、前記母音識別手段で得ら
れる入力母音列Xと認識されるべき単語あるいは
文節の母音列Yn(n=1,2,…,N)とのマツ
チングを行つて前記入力母音列Xに最も近に標準
母音列Ynoを識別する母音列識別手段と、前記入
力母音列Xと前記識別結果母音列Ynoとのマツチ
ング結果に基づいて前記母音列Xと前記識別結果
母音列Ynoの母音の対応関係を決定する母音列対
応決定手段と、前記対応関係に基づいて決定され
た前記入力母音列Xの部分区間に対応した前記
入力信号の部分系列について、前記母音列識別
手段で得られる前記識別結果母音列Ynoのうち前
記部分区間に対応した特定部分Yno=(yno j1,…,
yno j2)(j1<j2)の母音列で定義されるyno j1Cyno j1+1
,
yno j1+1Cyno j1+2,…,yno j2-1Cyno j2(C:子音)等の
それ
ぞれの音節に対応する標準パタンとのマツチング
を行つて、前記特定部分特徴パタン系列に対応す
る音節列を識別し、識別された音節列に基づいて
単語あるいは文節を判定して認識結果として出力
する判定手段とを備えた音声認識装置であり、認
識されるべき単語または文節に対して、それらの
数が多い場合でも小形低価かつ標準パタンの登録
操作が簡単であつて、認識精度及び処理速度を向
上することのできるものである。
(実施例の説明)
以後、「単語」という言葉は「文節」という言
葉も代表するものとする。
葉も代表するものとする。
さて、第1図は本発明の第1の実施例を示す機
能ブロツク図である。1は音声信号入力端子であ
る。2は特徴抽出部であつて、例えば20チヤネル
のフイルタバンクを用い、1フレームを10msec
とすれば、その出力には10msec毎に20個の数値
(特徴パタン)が得られる。即ち、入力音声信号
は特徴パタンの系列A=(a1,a2,…,a,…,
aL)に変換される。ここで、a=(a1,a2,
…,a20)は第フレームで得られる特徴パタ
ン、Lは入力音声のフレーム数である。3は電力
計算部であつて、第フレームの電力をPとす
れば、フレーム毎にP=√2 1+2 2+…+
a2 20が計算される。4は音声区間検出部であつ
て、このPの変化パタンから入力音声信号の始
終端を検出する。即ち、無音・有音を判別する閾
値を定め、この閾値以上の区間が予め定めた一定
時間(例えば30msec)以上続いたとき、この閾
値を越えた時点を音声の開始時点とし、この閾値
以下の期間が予め定めたある一定時間(例えば
300msec)以上続いたとき、この閾値以下となつ
た時点を音声の終端とする等の方法が可能であ
る。5は母音標準パタン記憶部であつて、各母音
の定常部の特徴パタンを予め記憶しておくもので
ある。6はバツフアメモリで、入力音声信号の特
徴パタンについて音声区間検出部4で検出される
始端から終端までを一時的に記憶するものであ
る。7は定常点検出部であつて、バツフアメモリ
6の内容を読み出し、定常点を検出するものであ
る。定常点の検出は、例えば、各フレームに対し
て前後数フレーム(例えば5フレーム)の特徴パ
タンの分散を計算し、これが最小となるフレーム
として検出できる。即ち、第フレームにおける
この分散をσ2とすると、前記入力信号の特徴パ
タンの系列A=(a1,a2,…,a,…,aL),a
=(a1,a2,…,a20)に対して、 σ2=20 〓k=1 1+N 〓q=l-N (aqk−k)2 (1)k =1/2N+11+N 〓q=l-N akq (2) N=5 (3) として与えられる。8は定常点(フレーム)記憶
部であつて、前記定常点検出部7で検出された定
常点(フレーム)列を記憶する。9は母音パター
ン比較部であつて、前記定常点(フレーム)記憶
部8で記憶されている前記定常点(フレーム)列
のそれぞれを母音中心フレームと見做して、定常
点(フレーム)の特徴パタンと前記母音標準パタ
ン記憶部5の各母音に対応する標準パタン(特徴
パタン)との距離(または類似度、以下では、
「類似度」は「距離」で代表することとする。即
ち、「距離が小さい」とは「類似度が大きい」と
いうことである)を計算するものである。10は
母音識別部であつて、前記母音パタン比較部9の
出力のうち、最小値を与える前記母音を前記定常
点(フレーム)の母音識別結果とするものであ
る。11は母音・促音判定結果記憶部であつて、
前記母音識別部10で得られた母音列(入力母音
列)、前記音声区間検出部4で検出された無音区
間のうち促音と判定される部分を記憶するもので
ある。ここで、促音の検出は、前記定義に基づく
無音区間の時間長によつて判定されるものであ
る。例えば、この区間が100msec〜250msecを促
音とする等である。さらに、母音・促音判定結果
記憶部11は、後述の母音列識別部15で識別さ
れた母音列も記憶する。12は標準母音列記憶部
であつて、認識されるべき単語、即ち、後述の単
語辞書部22に記憶されている単語の母音列(標
準母音列)(以後、母音列は促音も含むものとす
る)が重複を避けて記憶されている。13は母音
間距離記憶部であつて、前記母音標準パタン記憶
部5で記憶されている前記母音標準パタンを用い
て予め求めた母音間距離が記憶されている。14
は母音列比較部であつて、前記母音・促音判定結
果記憶部11に記憶されている前記入力母音列を
読み出して、前記標準母音列記憶部12で記憶さ
れている各標準母音列とのマツチングを行うもの
である。ここで、マツチングは周知のDPマツチ
ングで行うことが可能である。即ち、n番目の標
準母音列をYn=(yn 1,yn 2,…,yn j,…,yn Jo)、前
記入力母音列をX=(x1,x2,…,xi,…,xI)
(Jn,Iはそれぞれ標準母音列の母音数および入
力母音列の定常点の個数)とし、dn(i,j)を
i番目の入力母音xiとj番目の標準母音yn jとの距
離とするとき、 g(i,j)=ming(i−3,j−1)+3・dn(
i,j) g(i−2,j−1)+2dn(i,j) g(i−1,j−1)+dn(i,j) g(i−2,j−2)+2dn(i,j) g(i−1,j−2)+dn(i,j) なる漸化式を、gn(1,1)=dn(1,1)として
解けば、XとYnの距離D(X,Yn)は、 D(X,Yn)=g(I,Jn) (5) となる。ここで、dn(i,j)は前記母音間距離
記憶部13の内容のうち前記入力母音列Xのi番
目の母音xiと前記n番目の標準母音列Ynのj番目
の母音yjとの母音間距離を読み出すことにより与
えられる。以上の様にして、前記入力母音列Xと
前記標準母音列Ynの距離D(X,Yn)が求めら
れ、出力される。また、前記母音列比較部14
は、式(4)で与えられるg(i,j)が、格子点
(i−3,j−1),(i−2,j−1),(i−1,
j−1),(i−2),j−2),(i−1,j−2)
のうちのどの格子点からの遷移であるかを順次記
憶し、式(5)が求まつた段階で、始点gn(1,1)
から終点gn(I,Jn)に至つた経路(以後、「最適
パス」と呼ぶことにする)を、式(5)で与えられる
前記距離D(X,Yn)と共に出力する。なお、前
記漸化式(5)については種々の形が提案されてお
り、ここではその一例を示したにすぎない。前記
母音列比較部14では、以上の様にして、前記入
力母音列について、すべての標準母音列Yn(n=
1,2,…,N)とのマツチングを順次行つて距
離および最適パスを出力する。15は母音列識別
部であつて、前記母音列比較部14の出力のう
ち、最小値を与える前記標準母音列Ynoを識別し
て識別結果母音列Ynoとし、Yno及び付帯する最
適パス(識別結果最適パス)を出力する。16は
母音対応決定部であつて、前記識別結果最適パス
を、終点の格子点(I,Jno)より順に逆上り、
前記識別結果最適パス上の格子点(ino,jno)が
前記定常点列の何番目の定常点(即ち母音)に該
当するかを決定する。ところで、第2図は、「A
I ZU WA KA MA TSU」と発声し、前記
定常点検出部7において、8ケの定常点が検出さ
れ、それぞれの定常点について前記母音比較部9
および前記母音識別部10において母音識別し、
「A I U I U I A U」という入力
母音列Xが得られ、前記母音列比較部14および
前記母音列識別部15において「A I U A
A A U」という識別結果母音列Ynoが得ら
れた時の格子点の遷移の様子を示す図である。前
記母音対応決定部16では、この遷移を逆にたど
るわけである。即ち、先ず格子点(I,Jno)=
(8,7)への遷移の始点は格子点(7,5)で
あり、格子点(7,5)へは格子点(5,3)よ
り、格子点(5,3)へは格子点(2,2)よ
り、格子点(2,2)へは格子点(1,1)より
の遷移であることを順にたどりながら、前記識別
結果母音列Ynoの各母音と前記入力母音列Xの各
母音との対応を決定する。即ち、前記入力母音列
Xの第1番目の母音「A」、第2番目の母音
「I」、第5番目の母音「U」、第7番目の母音
「A」、第8番目の母音「U」のそれぞれは、前記
識別結果母音列Ynoの第1番目の母音「A」、第
2番目の母音「I」、第3番目の母音「U」、第5
番目の母音「A」、第7番目の母音「U」に対応
し、前記入力母音列Xの第3番目の母音「U」お
よび第4番目の母音「I」に対応する前記識別結
果母音列Ynoの母音はなく(挿入)、前記識別結
果母音列Ynoの第6番目の母音「A」に対応する
前記入力母音列Xの母音はない(脱落)こと、ま
た、前記入力母音列Xの第6番目の母音「I」に
対応する前記識別結果母音列Ynoの母音はないと
同時に前記識別結果母音列Ynoの第4番目の母音
「A」に対応する前記入力母音列Xの母音もない
(挿入と脱落が同時に発生)ことが決定される。
(ここで、「挿入と脱落が同時に発生」している場
合と、前記識別結果母音列Yno中の「脱落」と決
定された母音が前記入力母音列X中の「挿入」と
決定された母音に前記母音識別部10において誤
識別された場合とは、前記最適パスの遷移状態に
より区別される。即ち、格子点(5,3)から格
子点(7,5)への遷移に関して、第2図の如
く、格子点(5,3)から格子点(7,5)へ直
接遷移する場合が「挿入と脱落が同時に発生」し
た場合であり、格子点(5,3)→格子点(6,
4)→格子点(7,5)と遷移する場合が「格子
点(6,4)において誤識別が発生」した場合で
ある。)以上の様にして決定された前記入力母音
列Xと前記識別結果母音列Ynoの各母音の対応関
係及び前記識別結果母音列Ynoは前記母音・促音
判定結果記憶部11に記憶される。17は特定部
分決定部であつて、前記母音・促音判定結果記憶
部11で記憶されている前記入力母音列Xと前記
識別結果母音列Ynoの各母音の対応関係及び前記
識別結果母音列Ynoを読み出し、前記入力母音列
Xと前記識別結果母音列Ynoとが正しく対応して
いる(識別された)母音(即ち、前記脱落母音、
前記挿入母音、前記誤識別母音以外の母音)の隣
合つた区間、例えば、第2図において、前記入力
母音列の第1番目の母音「A」から第2番目の母
音「I」までの区間、第2番目の母音「I」から
第5番目の母音「U」までの区間、第5番目の母
音から第7番目の母音「A」までの区間、第7番
目の母音「A」から第8番目の母音「U」までの
区間のそれぞれを特定部分と決定する。ただし、
語頭母音が誤つている場合には、語頭から正しく
識別された母音までの区間を前記特定部分とし、
語尾母音が誤つている場合には、正しく識別され
た母音のうち最後尾の母音から語尾母音までの区
間を前記特定部分Yno とする。18は音節標準パ
タン記憶部であつて、V,CV,VV,VCV等の
音節に対する特徴パタンの系列を、V,CVにつ
いては語頭から母音定常部まで、VV,VCVにつ
いては先行母音の定常部から後続母音の定常部ま
でを標準パタンとして予め話者が発声し、登録し
ておく。19は音節パタン比較部であつて、前記
特定部分決定部17において決定された前記特定
部分Yno について、その特定部分を定義する先行
母音yno j1が対応するフレームを始点とし、後続母
音yno j2が対応するフレームを終点とする部分特徴
パターン系列を前記バツフアメモリ6より読み
出して、前記音節標準パタン記憶部18で記憶さ
れているところの、前記特定部分Yno=yno j1,…,
yno j2(j1<j2)で定義されるyno j1Cyno j1+1,yno j1+1C
yno j1+2,
…,yno j2-1Cyno j2,yno j1yno j1+1,yno j1+1yno j1+2,
…,yno j2-1
yno j2(C:子音)等のそれぞれの音節に対応する標
準パタンを前記特定部分noの母音列に対応する
様に種々組み合わせた音節標準パタン系列(複合
音節標準パタン系列)(例えば、yno j1Cyno j2,yno j1yn
o j2,
yno j1C1yno j1+1C2yno j2,yno j1Cyno j1+1yno j2など)と
のマツチ
ングを行うものである。例えば、第2図におい
て、前記入力母音列の第1番目の母音「A」から
第2番目の母音「I」までの特定部分に対応する
部分特徴パタン系列は、複合音節標準パタン
「A・C・I」(C:子音)とマツチングされる。
これは、周知のDPマツチングで行うことが可能
である。即ち、前記複合音節標準パタン「A・
C・I」に対応する複合音節標準パタン系列をR
=(r1,r2,…,r〓,…,r〓)とし、前記部分特徴
パタン系列1=(a1 1,a1 2,…,a1〓,…,a1〓とし
、
δ(τ,λ)を前記部分特徴パタン系列1の第τ
番目の特徴パタンa1〓と前記複合音節標準パタン系
列Rの第λ番目の標準特徴パタンr〓との距離とす
るとき、 (τ,λ)=min(τ−1,λ−2)+δ(τ,
λ−1)+δ(τ,λ) (τ−1,λ−1)+δ(τ,λ) (τ−2,λ−1)+δ(τ,λ) (6) なる漸化式を(1,1)=2δ(1,1)として解
けば、1とRの距離Δ(1,R)は、 Δ(1,R)=(Τ,Λ) (7) となる。ここで、δ(τ,λ)は、a〓=(a〓1,a〓2
,
…,a〓20),r〓=(r〓1,r〓2,…,r〓20)に関し
て、
δ(τ,λ)=20 〓p=1 |a〓〓−r〓〓| (8) で与えられるのが一般的である。また、上記漸化
式も種々の形が提案されており、ここではその一
例を示したにすぎない。以上の様にして、前記部
分特徴パタン系列の先行母音「A」と後続母音
「I」のにはさまれる種々な子音C(Cが無い場合
もあるがこれを含めて子音Cと呼ぶ)をもつ前記
複合音節標準パタン系列Rについての距離が求め
られ、対応する前記複合音節標準パタン系列を構
成する標準音節の番号と共に出力される。以下同
様にして、前記入力母音列の第2番目の母音
「I」と第5番目の母音「U」の特定部分、第5
番目の母音「U」と第7番目の母音「A」の特定
部分、第7番目の母音「A」と第8番目の母音
「U」の特定部分について、それぞれ前記複合音
節標準パタン系列との距離が求められ、対応する
前記複合音節標準パタン系列を構成する標準音節
の番号と共に出力される。20は音節識別部であ
つて、前記特定部分のそれぞれについて、前記音
節パタン比較部19から出力される距離のうち最
小値を求め、最小値を与える前記複合音節標準パ
タン系列を構成する標準音節番号(識別音節番
号)を識別する。21は音節列記憶部であつて、
前記音節識別部20で得られた前記識別音節番号
を記憶する。22は単語辞書部であつて、認識す
べき単語を構成する音節番号の系列を記憶してい
る。例えば、「オオサカ」という単語に対しては、
「OO」,「OSA」,「AKA」という3つの音節の対
応する番号の系列を記憶している。23は単語間
距離計算部であつて、前記音節列記憶部21で記
憶されあいる識別音節番号列と、前記単語辞書部
22で記憶されている単語音節番号列とのマツチ
ングを行う。これは、例えば以下の様になる。即
ち、前記識別音節番号列と前記単語音節番号列で
対応する位置に同じ番号の音節が存在する場合を
「1」とし、違つた番号の音節が存在する場合を
「0」として、前記識別音節番号列に関して和を
求め、単語を構成する音節数で正規化して単語間
距離とする。前記単語間距離23は、前記単語間
距離と対応する単語番号を出力する。24は単語
判定部24であつて、前記単語間距離の最小値を
求め、最小値を与える単語番号を判定結果として
出力する。25は出力端子であり、前記判定結果
は出力端子25より出力される。
能ブロツク図である。1は音声信号入力端子であ
る。2は特徴抽出部であつて、例えば20チヤネル
のフイルタバンクを用い、1フレームを10msec
とすれば、その出力には10msec毎に20個の数値
(特徴パタン)が得られる。即ち、入力音声信号
は特徴パタンの系列A=(a1,a2,…,a,…,
aL)に変換される。ここで、a=(a1,a2,
…,a20)は第フレームで得られる特徴パタ
ン、Lは入力音声のフレーム数である。3は電力
計算部であつて、第フレームの電力をPとす
れば、フレーム毎にP=√2 1+2 2+…+
a2 20が計算される。4は音声区間検出部であつ
て、このPの変化パタンから入力音声信号の始
終端を検出する。即ち、無音・有音を判別する閾
値を定め、この閾値以上の区間が予め定めた一定
時間(例えば30msec)以上続いたとき、この閾
値を越えた時点を音声の開始時点とし、この閾値
以下の期間が予め定めたある一定時間(例えば
300msec)以上続いたとき、この閾値以下となつ
た時点を音声の終端とする等の方法が可能であ
る。5は母音標準パタン記憶部であつて、各母音
の定常部の特徴パタンを予め記憶しておくもので
ある。6はバツフアメモリで、入力音声信号の特
徴パタンについて音声区間検出部4で検出される
始端から終端までを一時的に記憶するものであ
る。7は定常点検出部であつて、バツフアメモリ
6の内容を読み出し、定常点を検出するものであ
る。定常点の検出は、例えば、各フレームに対し
て前後数フレーム(例えば5フレーム)の特徴パ
タンの分散を計算し、これが最小となるフレーム
として検出できる。即ち、第フレームにおける
この分散をσ2とすると、前記入力信号の特徴パ
タンの系列A=(a1,a2,…,a,…,aL),a
=(a1,a2,…,a20)に対して、 σ2=20 〓k=1 1+N 〓q=l-N (aqk−k)2 (1)k =1/2N+11+N 〓q=l-N akq (2) N=5 (3) として与えられる。8は定常点(フレーム)記憶
部であつて、前記定常点検出部7で検出された定
常点(フレーム)列を記憶する。9は母音パター
ン比較部であつて、前記定常点(フレーム)記憶
部8で記憶されている前記定常点(フレーム)列
のそれぞれを母音中心フレームと見做して、定常
点(フレーム)の特徴パタンと前記母音標準パタ
ン記憶部5の各母音に対応する標準パタン(特徴
パタン)との距離(または類似度、以下では、
「類似度」は「距離」で代表することとする。即
ち、「距離が小さい」とは「類似度が大きい」と
いうことである)を計算するものである。10は
母音識別部であつて、前記母音パタン比較部9の
出力のうち、最小値を与える前記母音を前記定常
点(フレーム)の母音識別結果とするものであ
る。11は母音・促音判定結果記憶部であつて、
前記母音識別部10で得られた母音列(入力母音
列)、前記音声区間検出部4で検出された無音区
間のうち促音と判定される部分を記憶するもので
ある。ここで、促音の検出は、前記定義に基づく
無音区間の時間長によつて判定されるものであ
る。例えば、この区間が100msec〜250msecを促
音とする等である。さらに、母音・促音判定結果
記憶部11は、後述の母音列識別部15で識別さ
れた母音列も記憶する。12は標準母音列記憶部
であつて、認識されるべき単語、即ち、後述の単
語辞書部22に記憶されている単語の母音列(標
準母音列)(以後、母音列は促音も含むものとす
る)が重複を避けて記憶されている。13は母音
間距離記憶部であつて、前記母音標準パタン記憶
部5で記憶されている前記母音標準パタンを用い
て予め求めた母音間距離が記憶されている。14
は母音列比較部であつて、前記母音・促音判定結
果記憶部11に記憶されている前記入力母音列を
読み出して、前記標準母音列記憶部12で記憶さ
れている各標準母音列とのマツチングを行うもの
である。ここで、マツチングは周知のDPマツチ
ングで行うことが可能である。即ち、n番目の標
準母音列をYn=(yn 1,yn 2,…,yn j,…,yn Jo)、前
記入力母音列をX=(x1,x2,…,xi,…,xI)
(Jn,Iはそれぞれ標準母音列の母音数および入
力母音列の定常点の個数)とし、dn(i,j)を
i番目の入力母音xiとj番目の標準母音yn jとの距
離とするとき、 g(i,j)=ming(i−3,j−1)+3・dn(
i,j) g(i−2,j−1)+2dn(i,j) g(i−1,j−1)+dn(i,j) g(i−2,j−2)+2dn(i,j) g(i−1,j−2)+dn(i,j) なる漸化式を、gn(1,1)=dn(1,1)として
解けば、XとYnの距離D(X,Yn)は、 D(X,Yn)=g(I,Jn) (5) となる。ここで、dn(i,j)は前記母音間距離
記憶部13の内容のうち前記入力母音列Xのi番
目の母音xiと前記n番目の標準母音列Ynのj番目
の母音yjとの母音間距離を読み出すことにより与
えられる。以上の様にして、前記入力母音列Xと
前記標準母音列Ynの距離D(X,Yn)が求めら
れ、出力される。また、前記母音列比較部14
は、式(4)で与えられるg(i,j)が、格子点
(i−3,j−1),(i−2,j−1),(i−1,
j−1),(i−2),j−2),(i−1,j−2)
のうちのどの格子点からの遷移であるかを順次記
憶し、式(5)が求まつた段階で、始点gn(1,1)
から終点gn(I,Jn)に至つた経路(以後、「最適
パス」と呼ぶことにする)を、式(5)で与えられる
前記距離D(X,Yn)と共に出力する。なお、前
記漸化式(5)については種々の形が提案されてお
り、ここではその一例を示したにすぎない。前記
母音列比較部14では、以上の様にして、前記入
力母音列について、すべての標準母音列Yn(n=
1,2,…,N)とのマツチングを順次行つて距
離および最適パスを出力する。15は母音列識別
部であつて、前記母音列比較部14の出力のう
ち、最小値を与える前記標準母音列Ynoを識別し
て識別結果母音列Ynoとし、Yno及び付帯する最
適パス(識別結果最適パス)を出力する。16は
母音対応決定部であつて、前記識別結果最適パス
を、終点の格子点(I,Jno)より順に逆上り、
前記識別結果最適パス上の格子点(ino,jno)が
前記定常点列の何番目の定常点(即ち母音)に該
当するかを決定する。ところで、第2図は、「A
I ZU WA KA MA TSU」と発声し、前記
定常点検出部7において、8ケの定常点が検出さ
れ、それぞれの定常点について前記母音比較部9
および前記母音識別部10において母音識別し、
「A I U I U I A U」という入力
母音列Xが得られ、前記母音列比較部14および
前記母音列識別部15において「A I U A
A A U」という識別結果母音列Ynoが得ら
れた時の格子点の遷移の様子を示す図である。前
記母音対応決定部16では、この遷移を逆にたど
るわけである。即ち、先ず格子点(I,Jno)=
(8,7)への遷移の始点は格子点(7,5)で
あり、格子点(7,5)へは格子点(5,3)よ
り、格子点(5,3)へは格子点(2,2)よ
り、格子点(2,2)へは格子点(1,1)より
の遷移であることを順にたどりながら、前記識別
結果母音列Ynoの各母音と前記入力母音列Xの各
母音との対応を決定する。即ち、前記入力母音列
Xの第1番目の母音「A」、第2番目の母音
「I」、第5番目の母音「U」、第7番目の母音
「A」、第8番目の母音「U」のそれぞれは、前記
識別結果母音列Ynoの第1番目の母音「A」、第
2番目の母音「I」、第3番目の母音「U」、第5
番目の母音「A」、第7番目の母音「U」に対応
し、前記入力母音列Xの第3番目の母音「U」お
よび第4番目の母音「I」に対応する前記識別結
果母音列Ynoの母音はなく(挿入)、前記識別結
果母音列Ynoの第6番目の母音「A」に対応する
前記入力母音列Xの母音はない(脱落)こと、ま
た、前記入力母音列Xの第6番目の母音「I」に
対応する前記識別結果母音列Ynoの母音はないと
同時に前記識別結果母音列Ynoの第4番目の母音
「A」に対応する前記入力母音列Xの母音もない
(挿入と脱落が同時に発生)ことが決定される。
(ここで、「挿入と脱落が同時に発生」している場
合と、前記識別結果母音列Yno中の「脱落」と決
定された母音が前記入力母音列X中の「挿入」と
決定された母音に前記母音識別部10において誤
識別された場合とは、前記最適パスの遷移状態に
より区別される。即ち、格子点(5,3)から格
子点(7,5)への遷移に関して、第2図の如
く、格子点(5,3)から格子点(7,5)へ直
接遷移する場合が「挿入と脱落が同時に発生」し
た場合であり、格子点(5,3)→格子点(6,
4)→格子点(7,5)と遷移する場合が「格子
点(6,4)において誤識別が発生」した場合で
ある。)以上の様にして決定された前記入力母音
列Xと前記識別結果母音列Ynoの各母音の対応関
係及び前記識別結果母音列Ynoは前記母音・促音
判定結果記憶部11に記憶される。17は特定部
分決定部であつて、前記母音・促音判定結果記憶
部11で記憶されている前記入力母音列Xと前記
識別結果母音列Ynoの各母音の対応関係及び前記
識別結果母音列Ynoを読み出し、前記入力母音列
Xと前記識別結果母音列Ynoとが正しく対応して
いる(識別された)母音(即ち、前記脱落母音、
前記挿入母音、前記誤識別母音以外の母音)の隣
合つた区間、例えば、第2図において、前記入力
母音列の第1番目の母音「A」から第2番目の母
音「I」までの区間、第2番目の母音「I」から
第5番目の母音「U」までの区間、第5番目の母
音から第7番目の母音「A」までの区間、第7番
目の母音「A」から第8番目の母音「U」までの
区間のそれぞれを特定部分と決定する。ただし、
語頭母音が誤つている場合には、語頭から正しく
識別された母音までの区間を前記特定部分とし、
語尾母音が誤つている場合には、正しく識別され
た母音のうち最後尾の母音から語尾母音までの区
間を前記特定部分Yno とする。18は音節標準パ
タン記憶部であつて、V,CV,VV,VCV等の
音節に対する特徴パタンの系列を、V,CVにつ
いては語頭から母音定常部まで、VV,VCVにつ
いては先行母音の定常部から後続母音の定常部ま
でを標準パタンとして予め話者が発声し、登録し
ておく。19は音節パタン比較部であつて、前記
特定部分決定部17において決定された前記特定
部分Yno について、その特定部分を定義する先行
母音yno j1が対応するフレームを始点とし、後続母
音yno j2が対応するフレームを終点とする部分特徴
パターン系列を前記バツフアメモリ6より読み
出して、前記音節標準パタン記憶部18で記憶さ
れているところの、前記特定部分Yno=yno j1,…,
yno j2(j1<j2)で定義されるyno j1Cyno j1+1,yno j1+1C
yno j1+2,
…,yno j2-1Cyno j2,yno j1yno j1+1,yno j1+1yno j1+2,
…,yno j2-1
yno j2(C:子音)等のそれぞれの音節に対応する標
準パタンを前記特定部分noの母音列に対応する
様に種々組み合わせた音節標準パタン系列(複合
音節標準パタン系列)(例えば、yno j1Cyno j2,yno j1yn
o j2,
yno j1C1yno j1+1C2yno j2,yno j1Cyno j1+1yno j2など)と
のマツチ
ングを行うものである。例えば、第2図におい
て、前記入力母音列の第1番目の母音「A」から
第2番目の母音「I」までの特定部分に対応する
部分特徴パタン系列は、複合音節標準パタン
「A・C・I」(C:子音)とマツチングされる。
これは、周知のDPマツチングで行うことが可能
である。即ち、前記複合音節標準パタン「A・
C・I」に対応する複合音節標準パタン系列をR
=(r1,r2,…,r〓,…,r〓)とし、前記部分特徴
パタン系列1=(a1 1,a1 2,…,a1〓,…,a1〓とし
、
δ(τ,λ)を前記部分特徴パタン系列1の第τ
番目の特徴パタンa1〓と前記複合音節標準パタン系
列Rの第λ番目の標準特徴パタンr〓との距離とす
るとき、 (τ,λ)=min(τ−1,λ−2)+δ(τ,
λ−1)+δ(τ,λ) (τ−1,λ−1)+δ(τ,λ) (τ−2,λ−1)+δ(τ,λ) (6) なる漸化式を(1,1)=2δ(1,1)として解
けば、1とRの距離Δ(1,R)は、 Δ(1,R)=(Τ,Λ) (7) となる。ここで、δ(τ,λ)は、a〓=(a〓1,a〓2
,
…,a〓20),r〓=(r〓1,r〓2,…,r〓20)に関し
て、
δ(τ,λ)=20 〓p=1 |a〓〓−r〓〓| (8) で与えられるのが一般的である。また、上記漸化
式も種々の形が提案されており、ここではその一
例を示したにすぎない。以上の様にして、前記部
分特徴パタン系列の先行母音「A」と後続母音
「I」のにはさまれる種々な子音C(Cが無い場合
もあるがこれを含めて子音Cと呼ぶ)をもつ前記
複合音節標準パタン系列Rについての距離が求め
られ、対応する前記複合音節標準パタン系列を構
成する標準音節の番号と共に出力される。以下同
様にして、前記入力母音列の第2番目の母音
「I」と第5番目の母音「U」の特定部分、第5
番目の母音「U」と第7番目の母音「A」の特定
部分、第7番目の母音「A」と第8番目の母音
「U」の特定部分について、それぞれ前記複合音
節標準パタン系列との距離が求められ、対応する
前記複合音節標準パタン系列を構成する標準音節
の番号と共に出力される。20は音節識別部であ
つて、前記特定部分のそれぞれについて、前記音
節パタン比較部19から出力される距離のうち最
小値を求め、最小値を与える前記複合音節標準パ
タン系列を構成する標準音節番号(識別音節番
号)を識別する。21は音節列記憶部であつて、
前記音節識別部20で得られた前記識別音節番号
を記憶する。22は単語辞書部であつて、認識す
べき単語を構成する音節番号の系列を記憶してい
る。例えば、「オオサカ」という単語に対しては、
「OO」,「OSA」,「AKA」という3つの音節の対
応する番号の系列を記憶している。23は単語間
距離計算部であつて、前記音節列記憶部21で記
憶されあいる識別音節番号列と、前記単語辞書部
22で記憶されている単語音節番号列とのマツチ
ングを行う。これは、例えば以下の様になる。即
ち、前記識別音節番号列と前記単語音節番号列で
対応する位置に同じ番号の音節が存在する場合を
「1」とし、違つた番号の音節が存在する場合を
「0」として、前記識別音節番号列に関して和を
求め、単語を構成する音節数で正規化して単語間
距離とする。前記単語間距離23は、前記単語間
距離と対応する単語番号を出力する。24は単語
判定部24であつて、前記単語間距離の最小値を
求め、最小値を与える単語番号を判定結果として
出力する。25は出力端子であり、前記判定結果
は出力端子25より出力される。
なお本実施例では、V,VV,CV,VCV等の
音節を単位として認識を行つているが、本発明
は、デミ・シラブル、ダイフオーン等の音声単位
にも適用が可能である。
音節を単位として認識を行つているが、本発明
は、デミ・シラブル、ダイフオーン等の音声単位
にも適用が可能である。
(発明の効果)
本発明によれば、単音節を連続して発声した場
合でも、定常点を抽出し、定常点を母音と見做し
て母音識別をし、識別された母音の系列と認識す
べき単語を構成する母音列とのマツチングを行つ
て、前記母音列中の誤識別・挿入・脱落等を訂正
して、入力部分パタンとV,CV,VCV,VV等
の音節標準パタンとマツチングすることにより、
比較照合すべき単語と音節標準パタンを適切に限
定することができ、認識率・照合速度において大
幅な改善が得られる。
合でも、定常点を抽出し、定常点を母音と見做し
て母音識別をし、識別された母音の系列と認識す
べき単語を構成する母音列とのマツチングを行つ
て、前記母音列中の誤識別・挿入・脱落等を訂正
して、入力部分パタンとV,CV,VCV,VV等
の音節標準パタンとマツチングすることにより、
比較照合すべき単語と音節標準パタンを適切に限
定することができ、認識率・照合速度において大
幅な改善が得られる。
第1図は、本発明の一実施例の構成を示すブロ
ツク図、第2図は、母音列比較部の動作を説明す
るための図である。 1……音声信号入力端子、2……特徴抽出部、
3……電力計算部、4……音声区間検出部、5…
…母音標準パタン記憶部、6……バツフアメモ
リ、7……定常点検出部、8……定常点(フレー
ム)記憶部、9……母音パタン比較部、10……
母音識別部、11……母音・促音判定結果記憶
部、12……標準母音列記憶部、13……母音間
距離記憶部、14……母音列比較部、15……母
音列識別部、16……母音対応決定部、17……
特定部分決定部、18……音節標準パタン記憶
部、19……音節パタン比較部、20……音節識
別部、21……音節列記憶部、22……単語辞書
部、23……単語間距離計算部、24……単語判
定部、25……出力端子。
ツク図、第2図は、母音列比較部の動作を説明す
るための図である。 1……音声信号入力端子、2……特徴抽出部、
3……電力計算部、4……音声区間検出部、5…
…母音標準パタン記憶部、6……バツフアメモ
リ、7……定常点検出部、8……定常点(フレー
ム)記憶部、9……母音パタン比較部、10……
母音識別部、11……母音・促音判定結果記憶
部、12……標準母音列記憶部、13……母音間
距離記憶部、14……母音列比較部、15……母
音列識別部、16……母音対応決定部、17……
特定部分決定部、18……音節標準パタン記憶
部、19……音節パタン比較部、20……音節識
別部、21……音節列記憶部、22……単語辞書
部、23……単語間距離計算部、24……単語判
定部、25……出力端子。
Claims (1)
- 1 入力音声信号を特徴パタンの系列A=(a1,
a2,…,a,…,aL)に変換する特徴抽出手段
と、前記入力信号の定常点を抽出する定常点抽出
手段と、抽出されたそれぞれの定常点を母音と見
做して母音識別して入力母音列X=(x1,x2,…,
xi,…,xI)(但し、Iは入力音声の定常点の個
数)を得る母音識別手段と、前記母音識別手段で
得られる入力母音列Xと認識されるべき単語ある
いは文節の母音列(以下、標準母音列と呼ぶ)
Yn=(yn 1,yn 2,…,yn j,…,yn Jn)(但し、n(=
1,2,…,N)は標準母音列のクラス、Jは標
準母音列の個数)とのマツチングを行つて前記入
力母音列Xに最も近い標準母音列Yno(識別結果
母音列)を識別する母音列識別手段と、前記入力
母音列Xと前記識別結果母音列Ynoとのマツチン
グ結果に基づいて前記入力母音列Xと前記識別結
果母音列Ynoの母音の対応関係を決定する母音対
応決定手段と、前記対応関係に基づいて決定され
た前記入力母音列Xの部分区間=(xi1,…,
xi2)(i1<i2)に対応した前記入力信号の特徴パ
タンの部分系列(特定部分特徴パタン系列)=
(at1,…,at2)(t1<t2)について、前記母音列識
別手段で得られる前記識別結果母音列Ynoのうち
前記部分区間に対応した特定部分no=(yno j1,
…,yno j2)(j1<j2)の母音列で定義されるyno j1Cyno
j1+
1,yno j1+1Cyno j1+2,…,yno j2-1Cyno j2,yno j1yno j1
+1,yno j1+1
yno j1+2,…,yno j2+1yno j2(C:子音)等のそれぞれ
の
音節に対応する標準パタンとのマツチングを行つ
て、前記特定部分特徴パタン系列に対応する音節
列を識別し、得られた識別された音節列に基づい
て単語あるいは文節を判定して認識結果として出
力する判定手段とを備えたことを特徴とする音声
認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59104786A JPS60249197A (ja) | 1984-05-25 | 1984-05-25 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59104786A JPS60249197A (ja) | 1984-05-25 | 1984-05-25 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60249197A JPS60249197A (ja) | 1985-12-09 |
| JPH0566596B2 true JPH0566596B2 (ja) | 1993-09-22 |
Family
ID=14390147
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59104786A Granted JPS60249197A (ja) | 1984-05-25 | 1984-05-25 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60249197A (ja) |
-
1984
- 1984-05-25 JP JP59104786A patent/JPS60249197A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60249197A (ja) | 1985-12-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2955297B2 (ja) | 音声認識システム | |
| JPH0261700A (ja) | 音声認識装置 | |
| JPH0566596B2 (ja) | ||
| JPS60182499A (ja) | 音声認識装置 | |
| JP3438293B2 (ja) | 音声認識における単語テンプレートの自動作成方法 | |
| JP2760096B2 (ja) | 音声認識方式 | |
| JPS6180298A (ja) | 音声認識装置 | |
| JPH0736481A (ja) | 補完音声認識装置 | |
| Lee | Incremental network generation in word recognition | |
| JP3231365B2 (ja) | 音声認識装置 | |
| JPS6312000A (ja) | 音声認識装置 | |
| JPS60164800A (ja) | 音声認識装置 | |
| JPS60150098A (ja) | 音声認識装置 | |
| JPH067359B2 (ja) | 音声認識装置 | |
| JPH045398B2 (ja) | ||
| JPH0573039B2 (ja) | ||
| JPH0585918B2 (ja) | ||
| JPH0552516B2 (ja) | ||
| JPH10333692A (ja) | 音韻テーブルと音声認識方法及び音声認識プログラムを格納した記録媒体 | |
| Yanagida et al. | Detection and Identification of Plosive Sounds in Japanese Words | |
| JPH0744188A (ja) | 音声認識装置 | |
| JPS6335996B2 (ja) | ||
| JPH03278097A (ja) | 音声認識装置 | |
| JPH10143189A (ja) | 音声認識装置 | |
| JPH0719159B2 (ja) | 音声認識装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EXPY | Cancellation because of completion of term |