JPH03111900A

JPH03111900A - 音声認識方法

Info

Publication number: JPH03111900A
Application number: JP1251170A
Authority: JP
Inventors: Ryuichi Oka; 隆一岡; Hiroshi Matsumura; 松村　博
Original assignee: Agency of Industrial Science and Technology; Sanyo Electric Co Ltd
Current assignee: National Institute of Advanced Industrial Science and Technology AIST; Sanyo Electric Co Ltd
Priority date: 1989-09-27
Filing date: 1989-09-27
Publication date: 1991-05-13
Anticipated expiration: 2012-05-21
Also published as: JP2613108B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は音声認識方式に関し、更に詳述すればベクトル
場のパターンを利用して得た標準パターンと、同じく認
識対象音声に対応する特徴パターンとの類似度の計算に
係るものである。

〔従来技術〕

音声認識は、一般に、認識させるべき単語から特徴を抽
出して得た音声の標準パターンを単語夫々に用意してお
き、認識対象として入力された音声から同様にして抽出
した特徴パターンと複数の標準パターンとを整合し、最
も類偵性が高い標準パターンを求め、この標準パターン
に係る単語が入力されたものと判定する方式をとってい
る。そして、従来は上記特徴パターンとして、音声信号
を分析して得られる、時間軸を横軸、空間軸を縦軸とす
るスカラー場の時空間パターンそのものを用いていた。

このようなスカラー場の時空間パターンとしては、周波
数を空間軸とするスペクトルが代表的なものであり、こ
の他、ケフレンシーを空間軸とするケプストラム、ＰＡ
ＲＣＯＲ係数、ＬＳＰ　係数、声道断面積関数等種々の
時空間パターンが用いられていた。

また、音声認識の分野において解決すべき課題の１つと
して多数話者又は不特定話者への対応があり、これには
１つの単語に多数の標準パターンを用意することで認識
率の向上を図っていた。更に、話者が同一であっても発
音速度が異なることがあり、このような場合にも対応で
きるように時間軸変動を吸収し得るＤＰマツチング法が
開発されていた。

スカラー場での時空間パターンそのものを用いる従来の
方式では、大語粟又は不特定話者を対象とした場合、必
ずしも十分な認識率が得られておらず、たとえ、上述の
如く１つの単語に多数の標準パターンを用意したり、あ
るいは叶マツチング法を用いても、これらは本格的な解
決にはならなかった。

従って、大語霊又は不特定話者を対象とした音声認識シ
ステムの実用化が停滞しているのである。

そこで、本発明者の１人は、特開昭６０−５９３９４号
公報において、時間−周波数の時空間パターンであるス
カラー場のスペクトルを空間微分してスペクトルベクト
ル場パターンを得、このパターンを音声の特徴として用
いる手法を提案した。そしてそれを更に一歩進め音節認
識、単語認識に適し、また高い認識率が得られるような
音声の特徴抽出方式、音声認識方式を、本発明者等は特
願昭６２−２４８９１５号、特願昭６２−１３６３７７
号によって提案した。

この音声認識方式の基本適な特徴は、音声信号から時間
軸及び空間軸で規定されるスカラー場の時空間パターン
を得、該時空間パターンを空間機。

分することにより空間の各格子点で大きさと方向をもつ
ベクトル場パターンに変換し、該ベクトル場パターンの
ベクトルについて、その方向パラメータをＮ個（Ｎ：整
数）に量子化し、この量子化値を同じくするベクトル毎
に各々分離して、そのベクトル、の大きさを各格子点の
値としたＮ個の方向別２次元パターンを作成し、該方向
別２次元パターンによって予め作成しておいた標準パタ
ーンと、認識対象として入力された音声信号によって得
た前記方向別２次元パターンである特徴パターンとの類
似度を計算して入力音声を識別する点にある。

〔発明が解決しようとする課題〕

上述の音声認識方式は高い単語認識率を得ることができ
るが、より困難な単音節認識を高認識率で行わせること
が課題となっていた。

本発明は斯かる課題を達成することを目的としてなされ
たものである。

〔課題を解決するための手段〕

本発明に係る音声認識方式は、音声信号から時間軸及び
空間軸で規定されるスカラー場の時空間パターンを得、
該時空間パターンを空間微分することにより空間の各格
子点で大きさと方向をもっベクトル場パターンに変換し
、該ベクトル場パターンのベクトルについて、その方向
パラメータをＮ個（Ｎ：整数）に量子化し、この量子化
値を同じくするベクトル毎に各々分離して、そのベクト
ルの大きさを各格子点の値としたＮ個の方向別２次元パ
ターンを作成し、該方向別２次元パターンによって予め
作成しておいた標準パターンと、認識対象として入力さ
れた音声信号によって得た前記方向別２次元パターンで
ある特徴パターンとの類似度を計算して入力音声を識別
する音声認識方式において、標準パターン及び特徴パタ
ーン夫々の前記方向ごとに類似度の計算を行うことを特
徴とする。

また、この方向ごとの計算を方向別２次元パターンの時
間軸方向の単位ごとに行うことを特徴とする。

〔作用〕

特徴抽出は方向別に分離して行われている。従って方向
別のスペクトルベクトル場ではスペクトルの同様の変化
が抽出されていることになる。従って方向別に類似度計
算を行うと、標準パターンと特徴パターンの類似度をよ
り正確に求めることができる。更に時間軸方向の単位ご
とに類似度計算を行うと、特徴抽出の際の処理に際して
行われる正規化のくずれの影響が少なくなり、これによ
り正確な類似度が求められる。

〔実施例〕

以下本発明をその実施例を示す図面に基づいて詳述する
。

第１図は本発明方式を実施するための装置の構成を示す
ブロック図である。この実施例では分析部で音声信号を
スペクトル分析してスカラー場の時空間パターンとして
、周波数軸を空間軸とするスペクトルを用いている。

標準パターン作成のための音声の入力又は認識対象の音
声の入力はマイクロホン等の音声検出器及びＡ／Ｄ　＆
換器からなる音声入力部１によって行われ、これによっ
て得られた音声信号は通過周波数帯域を夫々に異にする
複数チャネル（例えば１０〜３０）のバンドパスフィル
タを並列的に接続してなる分析部２に入力される。分析
部では、分析の結果、時空間パターンが得られ、このパ
ターンが単語区間切出部３によって認識単位の単語ごと
に区分されて特徴抽出部４へ与えられる。単語区間切出
部３としては従来から知られているものを用いればよい
。

なお周波数帯域ごとに音声信号を分割する分析部として
、以後の説明においては、上記した如くバンドパスフィ
ルタ群を用いることとするが、高速フーリエ変換器を用
いてもよい。

特徴抽出部４への入カバターンは横軸を時間軸、縦軸を
周波数とする時空間パターンであり、単語区間切出部３
によって切出された第２図に示す時空間パターンをｒ　
（ｔ、ｘ）　　（但しｔはサンプリングの時刻を示す番
号、Ｘはバンドパスフィルタのチャネル番号又は周波数
帯域を特定する番号。

１≦ｔ≦Ｔ、１≦Ｘ≦Ｌ）と表す。

単語区間切出部３出力は特徴抽出部４の正規化部４１へ
入力され、正規化部４１は時間軸の線形正規化をする。

これは単語の長短１人力音声の長短等をある程度吸収す
るためであり、時間軸をＴフレームからＭフレーム（例
えば１６〜３２フレ一ム程度）にする。具体的にはＭ≦
Ｔの場合は、正規化した時空間パターンＦ（ｔ、ｘ）は
下記（１）弐で求められる。

但し１≦Ｌ≦Ｍそして、Ｍ＞Ｔである場合はＦ　（ｔ、ｘ）　＝　ｆ　ｌ、ｘ）　　　”（２）但し
ｊ　＝　（Ｔ／Ｍ）　　・ｔとしてｔ＝１〜Ｍまで計算すればよい。

第３図はこのようにして正規化した時空間パターンＦ（
ｔ、ｘ）を示す。

なお上記実施例は線形正規化の場合であるが、非線形正
規化を行う場合は例えばｆ　（ｔ、ｘ）のスペクトルベ
クトル場を次に説明するのと同様の方法で求め、このベ
クトル場密度を一定とするヘクトル場密度イコライゼイ
ション等を用いればよい。

正規化した時空間パターンはスペクトル場抽出部４２に
おいて下記のようにしてスペクトルベクトル場の抽出が
行われる。このスペクトルベクトル場は第１表に示す如
き正規化された時空間パターンの各格子点（ｔ、ｘ）の
８近傍の値を用いて算出される。

第　　１　　表Ｘ　＝　Ｆ　（ｔ＋１．ｘ＋１）　　＋２Ｆ（ｔ＋１．
ｘ）　　＋　Ｆ　（ｔ＋１．ｘ−１）−Ｆ　（ｔ−１，
ｘ＋１）　−２Ｐ（ｔ−１，ｘ）　　−Ｆ　（ｔ−１，
ｘ−１）Ｙ　＝　Ｆ　（ｔ−１，ｘ＋１）　　＋２Ｆ（
ｔ、ｘ＋１）　　＋　Ｆ　（ｔ＋１．ｘ＋１）Ｆ（ｔ−
１，ｘ−１）　−２Ｐ（ｔ、ｘ−１）　　−Ｆ（ｔ＋１
．ｘ−１）ｒ　＝Ｊ　Ｘ２＋Ｙ”　　　　−（５）・・
・（３）・・・（４） θ＝　　ｊａｎ−’　　　　　　　　　・・・（６）と
して３　（ｒ、　　θ）で示されるのがスペクトルベク
トル場パターンである。

（３）〜（６）式について少し説明を加えるとＸは対象
データの時間軸方向の増分を周波数軸方向に重み付けを
して求めた値であり、時間軸方向の微分値、つまり時間
軸方向の変化指標と言うことができる。

Ｙは同様に周波数軸方向の微分値、つまり周波数軸方向
の変化指標と言うことができる。

これらの２つの指標を直交座標とするベクトル場におい
て、ｒはベクトルの大きさ、θはベクトルの方向を表す
。

次にこのスペクトルベクトル場パターンＳ（ｒ。

θ）から方向別２次元パターン作成部４３において方向
別２次元パターンが作成される。即ち、先ず、ベクトル
場パターンの全ての格子点のベクトルについて、その方
向パラメータθをＮ値に量子化する。第４図はＮ＝８の
場合の量子化例を説明するための図であり、第２表のよ
うにθとＮは対応する。

（以　下　余　白）第表次に全ての格子点のベクトルがら、方向の量子化値であ
るＮ値を同じくするベクトルを、Ｎ値毎に分離して各々
取り出し、そのベクトルの大きさを各格子点の値とした
Ｎ個の方向別２次元パター７　Ｈ（１＋Ｌ　θ）を作成
する。第５図がこの方向別２次元パターンの模式図であ
って、Ｎの値が該当する位置にのみｒが存在し、他の位
置は０となっている。（３）、　（４）式から理解され
るようにＸ、　Ｙの算出には８近傍が必要であるので、
算出されるＳ（ｒ、　　θ）は第３図におけるｔ＝１．
ｔ＝Ｍの列、及びｘ＝１．ｘ＝Ｌの行については算出さ
れない。

従ってこの方向別２次元パターンＨ（ｔ、ｘ、θ）では
時間軸方向はＭ−２列、周波数軸方向はＬ−２行となる
。

なお、Ｎの値は８に限るものではない。

さて以上のように作成した方向別２次元パターンＨ（ｔ
、χ、θ）に対してボカシ処理部５にてボカシ処理を行
う。ボカシ処理は、処理対象のパターンを、その位置に
応じて重みづけした９近傍のマスクパターンを乗するこ
とにより行われボカシ処理後の方向別２次元パターンをＨ（ｔ、ｘ、　　θ）とすると・・・（７）として表すことができる。

ここにおいてωｊ（Ｊ・θ〜８）はボカシ処理のマスク
パターンであり、例えば下記（８）　（９）の如き値を
有し、中心のω。が処理対象データの位置に、またω１
〜ω６が８近傍位置のデータに対応する。

時間時間また（α。

β、）ｊ・θ〜８は第３表のとおりである。

（以下余白）第３表この（αｊ、βＪ）は、ω。を対応させる対象データの
位置、鮪〜ω８を、対応させる８近傍のデータの位置を
各特定するものである。

（８）、　（９）式の意味する処は時間軸方向のボヵシ
処理を周波数軸方向のボヵシ処理に比して積極的に行う
にある。

そして男性又は女性の一方の性のみの音声の特徴抽出を
行うのに用いる場合には（８）式のように周波数軸方向
のボカシ処理は行わず、男性５女性の両方の性の音声の
特徴抽出を行う場合は（９）式のように周波数軸方向の
ボカシ処理も少し行う。

ポカシ処理をすることで抽出した特徴はその抽出に用い
た音声固有の特徴の変動が小さくなったものとなる。つ
まり、話者が異なることや、発生速度の異なりによって
生ずる特徴の時空間的変動の安定化が図れるのである。

従ってこれを標準パターンとし、或いは未認識パターン
とする場合には音声認識率の向上が図れるのである。

然るところ時間軸方向のボカシ処理を積極的に行うのは
時間軸は発声速度に係り、発声時及び発声者によって大
きく変動するからであり、この変動の悪影響を排除する
ためである。

また両方の性の音声の場合は男性と女性とで周波数分布
が異なり、これによる変動の悪影響を周波数軸も同時に
ボカシ処理することによって排除するためである。

なおボカシ処理は（７）式に従い複数回反復するのがよ
いが、一方の性のみの場合は（８）式に示されるように
時間軸のみのボカシ効果をもつボカシ処理を４〜７回程
度、両方の性の場合は（９）弐に示されるように時間軸
へのボカシの重みの１７４〜１／８程度の空間軸の重み
を同時にもつ時空間のボカシ処理を、それぞれ、４回程
度繰り返し行うことが適当である。

このようにして予め各種単語について抽出した特徴は標
準パターンとしてこれを特定するデータと共に標準パタ
ーン格納部６へ格納される。そして認識の際には認識対
象として入力された音声について得られたボカシ処理部
５出力の特徴パターンと、標準パターン格納部６内の標
準パターンの夫々とにつき計算部７において類似度の計
算を行い、最も類僚する標準パターンを特定するデータ
を認識結果として出力する。

而して本発明の第１の方式は次に述べる類似度計算に特
徴を有している。これを要約すると、まず第５図に示す
如きＮのパターンの夫々について、特徴パターンと標準
パターンとの類似度計算を行う。この計算には市街地距
離Ｄｃ、ユークリッド距離り０．相関係数Ｃが類似度判
定の指標として用いられる。限定するものではないが相
関係数Ｃによる場合は最も高い認識率が得られる。更に
本発明の第２の方式ではＮの方向ごとに、更に時間軸の
単位、っまり１フレームごとに同様の計算を行う。

次にＤＣ，Ｄ、、Ｃについて説明する。

市街地路！ＩＤｃは比較するパターン同士の同位置の差
の絶対値の総和であり、計算が簡単であるという利点を
有している。

ユークリッド距離り、は比較するパターン同士の数学的
に正確な距離を指す。

相関係数Ｃは比較するパターンのＲ４Ｑ度を表す指標で
ある。

標準パターンをＺ！　　（ｕｎ　　Ｘ＊　θ）、認識対
象音声の特徴パターンを１　（ｔ、Ｘ、θ）とすると本
発明の第１方式に係るＮ方向ごとの計算では以下のよう
に表される。

Ｄ、＝Σ４Σ　（１（ｔ、Ｘ、　　θ）−Ｚ！　　（ｔ
、Ｘ。

＠　　　　ＬＩＫ θ））２また第２方式に係るフレームごとの計算は以下のように
表せる。

但し、Ｔ′はフレーム総数（−Ｍ−２）更にＴ’　ｘＸ
ｘＮ次元ベクトルとしての計算を行う（以下第１比較方
式という）場合は以下のように表せる。（但しＸはＸの
総数（−Ｌ−２））この場合は市街地距離も計算でき、Ｄ＝−、Ｅ、ｊノ（ｔ、　Ｘ、θ）−Ｚ＋（Ｌ、χ・θ
）また、Ｔ′個のフレームごとに計算する（以下第２比
較方式という）場合は以下のように表せる。

次にこれら４つの方式の優劣を比較するために行った実
験について説明する。実験は離散発生された日本語の単
音節１０１種類について行われた。

発声は成人男性によって行われたものであり、平。

均発声長は４４０ｍ５ｅｃである。

音声入力部１におけるＡ／Ｄ変換は１２ｂｉｔの精度、
またサンプリング周波数１２．５ｋＨｚで行った。

分析部２におけるフィルタは２０チヤンネルのバンドパ
スフィルタによる。またフレーム間隔ハ５．１２ｎ＋ｓ
ｅｃである。これらの仕様により正規化して得た２次元
音声パターンは３２　（＝Ｔ’　）　ｘｌＢ　（＝Ｘ）　ｘ８　（＝Ｎ
）である。

実験１　１０人のデータで標準パターンを１個作り、同
じ１０人が発声した音声の認識を行わせるクローズ（ｃ
ｌｏｓｅ）話者実験実験ｎ　　２９人分のデータで標準
パターンを１個作り、これとは別の１人が発声した音声の認識を行わせるオープン（ｏｐｅｎ）話者実験実験■　１人が発声した１０回分のデータで標準パター
ンを１個つくり、同じ１０回分のデータを認識する特定
話者のクローズデータの実験（但し話者２名分）実験ＩＶＩ人が発声した９回分のデ、−夕で標準パター
ン、を１個作り、別の１人が発声した音声の認識を行う
特定話者２名のオーブンデータの実験これらの実験■〜■について前述の類似度計算の結果を
第４表に示す。

（以　下　余　白）第麦以上の実験結果によれば同計算式による市街地距離Ｄｃ
を除き、実験１〜Ｎのいずれにおいても本発明の第１．
第２方式が第１．第２比較方式より高い認識率を得てお
り、また、実験■の相関係数Ｃを除き第２方式か第１方
式より高い認識率を得ている。

更に本発明の第１．第２方式においては、ユークリッド
距離り、よりも相関係数Ｃの方が認識率が高い。

本発明方式の基礎となる特願昭６２−２４８９１５号。

同６２−１３６３７７号の音声認識方式は第１．第２比
較方式の結果に示すように単音節においても高い認識率
を得させるものであるが、本発明の第１．第２方式によ
れば、−層高い認識率が実現できるものである。

本発明の如く方向ごとに類僚度計算を行うことで、高い
認識率が得られるのは前述したようにスペクトルベクト
ル場が方向別のものとなっているためであると考えられ
る。また更にフレームごとに計算を行うと高い認識率が
得られるのは前述のボカシ処理の影響を回避できるから
と考えられる。

即ち、フレーム毎の処理による方がボカシ処理に伴う正
規化のくずれによる影響が少ないと考えられる。

さらに相関係数Ｃにより高い認識率が得られるのは単音
節認識特存の効果であると考えられる。

即ち、一般にスペクトルで音声認識を行う場合には、ス
ペクトルパターンを求める段階で音の大きさの正規化を
フレームごとに行っている。これによって直流分が除去
される。前述の実験では以下のような計算でこれを行っ
ている。

フレームごとに１ｏｇＡ、　　＋ｌｏｇＡ２　　＋＝　　　＋ｌｏｇＡ
、）　　／２０＝八八（但し＾１〜Ａ、。は２０チヤネ
ルのフィルタ夫々の原出力）として、　Ｂ＋＝ＩｏｇＡ＋　　　ＡＡＢ２＝ＩｏｇＡ
２　　　　ＡＡＢｚｏ＝１０ｇＡｚｏ−八Ａを１つのフレームの２０のチャネルのフィルタの各出力
としている。即ち、第２図のスペクトルの時空間パター
ンｆ　（ｔ、ｘ）はＢｔ−Ｂｚｏがｔフレーム分集まっ
たものである。

この処理を行えば、スペクトルを用いて音声認識する場
合はＤＣ，Ｄ、、Ｃのいずれを用いてもほぼ同様の結果
となる。ところが、方向別に分離して、更にはボカシ処
理を行うので、前記正規化でフレームごとに正規化され
ている状態がくずれてしまう。この傾向は、単語認識よ
りも単音節認識のときに顕著である。

即ち、単語認識では母音部（安定状態）が長い（多い）
ため、ボカシ処理の影響が出にくいが、単音節では、前
に位置する子音部即ち、ベクトル場が変化する部分が、
単語よりも時間的に多いためと考えられる。そこで、類
似性を計算する相関係数が単音節認識でよい結果が得ら
れるのである。

〔発明の効果〕

以上の如く本発明方式による場合は極めて認識が困難な
単音節認識、しかも成人男性の発声による場合も極めて
高い認識等が得られることとなる。

【図面の簡単な説明】

第１図は本発明方式を実施するための装置の構成を示す
ブロック図、第２図は時空間パターンの模式図、第３図
は正規化された時空間パターンを示す模式図、第４図は
ベクトル方向量子化の説明図、第５図は方向別２次元パ
ターンの模式図である。４・・・特徴抽出部　５・・・ボカシ処理部　６・・・
標準パターン格納部　７・・・計算部　４１・・・正規
化部４２・・・スペクトルベクトル場抽出部　４３・・
・方向別２次元パターン作成部特　許　出願人　工業技術院長　杉浦　　賢　外１名復
代理人並びに代理人　弁理士　　河　野　登　夫１第図第図第図 −２第図

Claims

【特許請求の範囲】１、音声信号から時間軸及び空間軸で規定されるスカラ
ー場の時空間パターンを得、該時空間パターンを空間微
分することにより空間の各格子点で大きさと方向をもつ
ベクトル場パターンに変換し、該ベクトル場パターンの
ベクトルについて、その方向パラメータをＮ値（Ｎ：整
数）に量子化し、この量子化値を同じくするベクトル毎
に各々分離して、そのベクトルの大きさを各格子点の値
としたＮ個の方向別２次元パターンを作成し、該方向別
２次元パターンによって予め作成しておいた標準パター
ンと、認識対象として入力された音声信号によって得た
前記方向別２次元パターンである特徴パターンとの類似
度を計算して入力音声を識別する音声認識方式において
、標準パターン及び特徴パターン夫々の前記方向ごとに
類似度の計算を行うことを特徴とする音声認識方式。２、前記方向ごとの類似度計算を前記方向別２次元パタ
ーンの時間軸方向の単位ごとに行うことを特徴とする請
求項１記載の音声認識方式。