JPS6237797B2

JPS6237797B2 -

Info

Publication number: JPS6237797B2
Application number: JP18875680A
Authority: JP
Inventors: Kyoshi Iwata; Yasuhiro Nara; Akihiro Kimura
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1980-12-26
Filing date: 1980-12-26
Publication date: 1987-08-14
Also published as: JPS57110000A

Description

【発明の詳細な説明】本発明は音声認識方式に関し、特に周波数スペ
クトル−時間の二次元スペクトルパターンをマス
ク演算を行なうことによりその特徴成分を抽出し
て得られた特徴パターンを使用して音声認識を行
うようにした音声認識方式に関する。

従来、音声認識においては、第１図に示す如き
音声特性曲線（第１図はイエアオウンと発声した
場合を示す）、すなわち、平面軸に周波数と時間
をとり、縦軸に音響パワーを示した周波数スペク
トル−時間曲線を、例えば８ｍｓのフレーム単位
毎にそのスペクトル分布から、フオルマント成分
を抽出したり、あるいはあるスペクトルパターン
を標準とした音種に変換し、音種系列として単語
標準パターンとのマツチングを行うこと等により
音声認識を行なつていた。

しかしながらこのような従来の方式では次のよ
うな欠点が存在する。

(1) 大きな声や小さな声といつたパワーの大小に
より大きく影響を受ける。しかも第３フオルマ
ント成分や第４フオルマント成分は個人差が大
きい。したがつて正規化が必要になる。

(2) 孤立した単独フレーム単位での音声認識処理
のために、期待通りの音素に変換することが難
かしい。例えばイエアと連続的に発音した場合
には、「IIIEIEEAEAEAA」と混合して音韻系
列に変換されることが多く、この単独フレーム
単位でとらえる場合「Ｉ…Ｅ…Ａ…」という期
待通りの変換がむづかしい。

(3) 音素は上記(2)に示した如くその前後のフレー
ムの影響を受けるが、この点が全く考慮されて
いない。

(4) 第１図に示すように、周波数のピーク（フオ
ルマント）も周波数方向および時間方向のスペ
クトルの変化を有するのに、従来のフレーム単
位の認識方式ではこの点が考慮されていない。

したがつて本発明は上記の如き欠点を改善する
ことを目的とするものであつて、このために本発
明における音声認識方式では音声入力を周波数ス
ペクトルにもとづき分析しこの分析結果を辞書と
照合して音声認識を行う音声認識方式において、
音声入力を周波数成分およびそのパワーの大小を
表示するスペクトルを作成するスペクトル変換手
段と、このスペクトルをマスク演算するマスク演
算手段と、このマスク演算にもとづき少なくとも
上記スペクトルの縦方向のパターン変化を示す縦
方向成分と横方向のパターン変化を示す横方向成
分を抽出する成分抽出手段を有し、この縦方向成
分および横方向成分にもとづき得られたパターン
により辞書を照合するようにしたことを特徴とす
る。

本発明を具体的に説明するに先立ち本発明に使
用する周波数スペクトルパターンについて第１
図、第２図および第３図にもとづき説明する。

上記の如く、第１図では、「イエアオウン」と
発声したときの周波数スペクトルの時間変化を立
体的に示している。この第１図より明らかなよう
に、フオルマント部分に急激なピークが存在し、
エネルギーが集中していることがわかる。このパ
ワースペクトルを二次元的な形で濃淡表示したも
のが第２図である。第２図ではパワーの大きい部
分程濃く表示している。ただし第２図は、第１図
とは異なり、「ダイ」と発声したものの一部分を
示している。この第２図からフオルマント部分が
次第に移動していることがわかり、この動きを捉
えることが音声認識における有用な情報となる。
そしてこの濃淡表示部分は閾値を設けてあるレベ
ル以上のところのみを表示すると、例えば第３図
の如きものが得られる。ただしこの第３図は「メ
キシコ」と発声したときのスペクトルデータの例
を示したものである。

この第３図により次のことがわかる。

(1) 同一音が続く場合には、ほぼ時間的に一様な
スペクトルパターンになる。

(2) 母音部は、はつきりとしたフオルマント特性
がある。

(3) 異なつた音節が続く場合、その境界部分でス
ペクトルパターンが大きく変化する。（但し連
続母音の場合はあまりはつきりしない。）本発明はこのスペクトルパターンをマスク演算
を行ない、これにより得られた変化分情報にもと
づき音声認識を行なうものである。

本発明において使用されるマスクの一例および
変化分検出のための半別の一例を第４図にもとづ
き説明する。

第４図イは本発明において使用するマスクパタ
ーンの一例であり、マスクを３×３のa₁〜a₉の９
つの領域に分けたものを使用する。そして第４図
ロに示すようにその左側の領域に＋１を乗算し、
右側の領域に−１を乗算してその和を求めたと
き、これが正ならば中央の領域ａにおいて、横方
向（周波数方向）に左側からパワーが大→小に変
化することを意味し、負ならば逆に小→大に変化
することを意味する。すなわち、マスク演算の絶
対値が大きい場合には時間方向にスペクトルが定
常状態にある。同様にハのマスクにより演算され
た結果が正ならば中央の領域ａが縦方向（時間方
向）においてパワーが大→小に変化することを示
し負ならば小→大に変化することを示す。すなわ
ち、結果の絶対値が大きいときは時間方向にスペ
クトルが変動状態にあることを示す。またニのマ
スクにより演算された結果が正ならば中央の領域
ａは右下斜方向にパワーが大→小に変化すること
を示し負ならば小→大に変化することを示す。す
なわち、スペクトルピークが時間とともに周波数
の低い方に移動する状態を示す。そしてホのマス
クにより演算された結果が正ならば中央の領域ａ
は左下斜方向にパワーが大→小に変化することを
示し負ならば小→大に変化することを示す。すな
わち、スペクトルピークが時間とともに周波数の
高い方に移動する状態を示す。すなわち第４図ロ
〜ホの各マスクはパワースペクトルの一次微分を
表示するものとみることができる。

また、第５図イに示すようにマスクを左側およ
び右側の領域に−１を乗し、中央の縦列に＋２を
乗じて加算するものを使用する場合には、同ホに
示すように中央のの列を２分してとおよび
ととの１次微分の変化分を求めたものを得る
ことができる。すなわちパワースペクトルの変化
の割合、つまり２次微分を求めることができる。
このようなことを第５図イのみでなくロ〜ニに示
すマスクを使用して演算することにより、横、
縦、斜方向のパワースペクトルの変化分を検出す
ることができる。

そして第４図ロ〜ホのマスクを使用して、第３
図に示す如きスペクトルパターンを分析してある
閾値以上の成分を残すような処理を行なうことに
より第６図に示すようなパターンを得ることがで
きる。この図において、縦、横、斜方向の線は、
縦、横、斜方向にある閾値以上の変化のあること
を示している。この第６図から次のようなことが
わかる。

母音部分のようにフオルマント部分には縦成
分がはつきりとあらわれる。

子音、母音の境界部分には横成分が検出され
る。（時間軸方向の変化がある。）斜め成分の存在によつてフオルマント周波数
の動きが検出できる。

パワーの絶対値を使わないで音声部分を分析
できる。

したがつて、このような性質を利用して、母音
や子音の割出しを明確に行なうことができる。そ
してこのパターンにより辞書と比較すれば、これ
にもとづき正確に音韻識別することができ、特に
パワーの大きい母音部の識別を明確に行なうこと
ができる。

次に第７図および第８図にもとづき本発明の一
実施例構成を説明する。

第７図は本発明の一実施例構成を示すブロツク
図であり、第８図はその動作を説明するフローチ
ヤートである。

図中、１は音声入力部、２はスペクトル変換
部、３は第１フレームバツフア、４は第２フレー
ムバツフア、５は第３フレームバツフア、６はマ
スク演算回路、７は４方向成分抽出回路、８は有
音部始端・終端検出回路、９は母音・子音判定回
路、１０は辞書部、１１は照合部、１２は音韻識
別部である。

音声入力部は識別すべき音声が入力されたとき
これを例えば第１図に示す如き電気信号に変換す
るものである。スペクトル変換部２は、音声入力
部１から伝達された電気信号にもとづきこれを第
３図に示す如きスペクトルパターンを作成するも
のである。

第１フレームバツフア３、第２フレームバツフ
ア４および第３フレームバツフア５は、例えばシ
フトレジスタで構成されており、３×３のマスク
演算を行なうためのバツフアである。これによ
り、マスクの上段のデータは第１フレームバツフ
ア５に保持され、マスクの中段のデータは第２フ
レームバツフア４に保持され、マスクの下段のデ
ータは第３フレームバツフア３に保持されること
になる。

マスク演算回路６は、マスクに応じた演算を行
なうものであつて、第４図ロのマスクに応じた演
算、同ハのマスクに応じた演算、同ニのマスクに
応じた演算および同ホのマスクに応じた演算をそ
れぞれ行なうものである。

４方向成分抽出回路７は、上記マスク演算回路
６における演算結果にもとづき、縦、横、斜の４
方向における変化状態を検出して、その変化状態
がそれぞれある閾値以上のものを抽出する回路で
ある。

有意部始端・終端検出回路８は、４方向成分抽
出回路７から伝達された信号にもとづき音声入力
信号の有音部分の範囲を検出するものであり、音
節の区切りや母音部の区切り等に使用するもので
ある。

母音・子音判定回路９は、母音か子音かを判定
するものであり、無音部があれば子音とか、構成
分が多く存在する場合には子音とか、縦成分が多
く存在する場合には母音とかといつた判定を行な
い、辞書の検索を容易にするものである。

辞書部１０は、音素の各種パターンが格納され
ている辞書であつて、上記の如き分析されたパタ
ーンがこの辞書部１０に格納されたパターンと比
較されることにより、音韻識別を行なうものであ
る。

照合部１１は母音・子音判定回路９から伝達さ
れたパターンを辞書部１０に格納されているパタ
ーンと照合するものである。この際、母音・子音
判定回路９から伝達されるパターンには、子音部
（無音部）か母音部（有声子音部）かに区分され
て伝達されるので、辞書を検索する手数が節約さ
れるものである。

音韻識別部１２は照合部１１における照合状態
にもとづき、音声入力信号がどの音素であるかを
識別するものである。なお、最終的な音声の認識
は各フレーム毎の音韻識別部１２の出力に基づい
て時間的な非線形マツチングにより単語辞書と照
合することにより行なわれる。

以下第７図の動作について簡単に説明する。

音声入力が音薦入力部１に伝達されたとき、ス
ペクトル変換部２はこれにもとづき、第３図に示
すようなスペクトルパターンを作成し、これを第
１フレームバツフア３〜第３フレームバツフア５
に伝達する。そしてこのスペクトル変換部２から
伝達されたスペクトルパターンにもとづき３×３
のマスクを使用し、第４図ロ〜ホに示した状態の
マスク演算をマスク演算回路６で行なう。そして
４方向成分抽出回路７において、この演算結果に
対して閾値を設定し、一定値以上の変化分のみを
抽出して、縦、横、左右斜方向の変化分にもとづ
き、第６図に示す如きパターンを作成する。そし
てこの場合、母音・子音判定回路９で各フレーム
単位毎に先ず横成分が存在するか否かを検出し、
これがあれば音の最初の部分であるので次に縦方
向成分の有無を検出し、縦方向成分が存在する場
合にはこれを母音部あるいは有声子音部と識別
し、照合部１１にこれを伝達して辞書部１０を検
索する。縦方向成分が存在しなければ子音部ある
いは無音部と識別し、照合部１１はこれを参考に
して辞書部１０を検索する。そしてこれらの検索
結果を音韻識別部１２が判別して音声の識別が行
なわれることになる。そしてこれが終れば次のフ
レームに対して行なわれたマスク演算回路６から
得られた４方向成分にもとづき同様の識別を行な
う。

もしも横成分が検出されない場合には、次のフ
レームに対して同様の分析が行なわれる。このよ
うにして全フレームの分析が行なわれたときにこ
の音声認識処理が終了されることになる。

以上説明の如く、本発明によればマスク演算に
よりその変化分を検出してパターン認識を行なう
ようにしたので、パワーの大小による影響を受け
ることなく、しかも前後のフレームの影響を考慮
した分析ができる。そしてしかも上記〜に示
すような、従来のものにはないすぐれた分析を行
うことができる。

なお上記説明では３×３のマスクを使用した場
合について説明したがマスクの大きさは勿論これ
に限定されるものではない。

【図面の簡単な説明】

第１図は音声の周波数スペクトル特性図、第２
図はそのパワーの大小を濃淡で示した周波数スペ
クトル特性図、第３図はその周波数スペクトル特
性図の特徴を明確にするために閾値を設けて作成
した周波数スペクトル特性図、第４図は本発明に
おいて使用するマスクの説明図、第５図は本発明
において使用される他のマスクの説明図、第６図
は第４図のマスクにより分析された周波数スペク
トル特性図、第７図は本発明の一実施例構成図、
第８図はその動作状態を示すフローチヤートであ
る。図中、１は音声入力部、２はスペクトル変換
部、３は第１フレームバツフア、４は第２フレー
ムバツフア、５は第３フレームバツフア、６はマ
スク演算回路、７は４方向成分抽出回路、８は有
音部始端・終端検出回路、９は母音・子音判定回
路、１０は辞書部、１１は照合部、１２は音韻識
別部である。

Claims

【特許請求の範囲】

１音声入力を周波数スペクトルにもとづき分析
しこの分析結果を辞書と照合して音声認識を行う
音声認識方式において、音声入力を周波数成分お
よびそのパワーの大小を表示するスペクトルを作
成するスペクトル変換手段と、このスペクトルを
マスク演算するマスク演算手段と、このマスク演
算にもとづき少なくとも上記スペクトルの縦方向
のパターン変化を示す縦方向成分と横方向のパタ
ーン変化を示す横方向成分を抽出する成分抽出手
段を有し、この縦方向成分および横方向成分にも
とづき得られたパターンにより辞書を照合するよ
うにしたことを特徴とする音声認識方式。