JPS60202489A

JPS60202489A - 音声認識方法

Info

Publication number: JPS60202489A
Application number: JP59058709A
Authority: JP
Inventors: 藤井　諭; 二矢田　勝行
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1984-03-27
Filing date: 1984-03-27
Publication date: 1985-10-12
Also published as: JPH0344317B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音声の内容を自動的に認識するだめの音声認識
方法に関するものである。

従来例の構成とその問題点近年、不特定話者、多数語を対象とする音声認識に対す
る研究開発が盛んになってきた。

音素認識を行うことを特徴とする音声認識における従来
の音素判別は、井出他：「スペクトルの動的特徴による
子音認識の検討」１日本音響学会講論集、１９８１．６
．２−１−２に述べられている。そのフローチャートを
第１図に示す。

まず標準パターンの作成手順について述べる。

音声中の子音及び半母音を対象として１０ｍ５毎に２９
チャネル帯域フィルタ群（Ｑ＝６　、中心周波数２６０
〜６３００Ｈ２で晃オクターブ間隔）の出力を得る。さ
らに周波数軸に沿って連続する数帯域をまとめて６チヤ
ネルとする。この６テヤネルを１フレームとし、このフ
レームを連続して６フレーム取り出し、６Ｘ５＝３０次
元ベクトルとする。これを音素毎に集計し、音素ｉに対
する平均値をＩｍｉ、共分散行列をＸｗｉとし、逆行列
を町−１として、ＩｍｉとＸｗＩ−’を標準パターンと
して標準パターン格納部に予め入れておく。

次に入力された未知音声を音響分析して第１図の処理イ
に示すように２９チヤネル帯域フイルタの出力た’ｊ（
Ｊｃ″１，１＋都、２．°・曲、ｘｌ、′シ９）を得、
次に処理口に示すように前記出力を数帯域毎にまとめて
６チヤネル＆＜　（、Ｚｌ：１　、　ＪＣｌ、’２　、
・・・・・・、　Ｌ、テロ　）にし、処理ハに示すよう
に得られたスペクトルの連続する５　７　Ｌ／　−ム分
１ｔ’４．　ＪＣ’２　ＨＬ’５　、　ｊ４１　！’５
を計算し、処理二のように６Ｘ５＝３０次元ベクトルｔ
ｒ、＜、ｘ、。

”２＋・・・・・・、Ｊｌ：３ｏ）に変換する。さらに
このベクトルについて、前述した標準パターンを用いて
処理ホに示すようにベイズ判定による類似度割算を行う
。

音素ｉに対する類似度Ｐ、ｉは次式でめることかで　゛
きる。

このＰｉを音素毎にめ、最も類似度の高い音素をめるこ
とにより音素判別を行い（処理へ）その結果を音素認識
部に転送する。

この方法は、子音や半ｍ音のようにスペクトルの時間変
化に特徴のある音素に対して、変化の動きを積極的にと
らえる考え方である。

第２図は半母音、拗音のスペクトル変化の例を示したも
のである。ａは前記従来例と類似の場合を表わし、横軸
に時間をフレーム＋、１を信で示す。また縦軸に隣接す
るスペクトルの距離をＬＰＧケプ６　゛ストラム係数のユークリッド距離で示す。この距離曲線
はフレーム数１３の間、あるいき値（ＴＨ）以下の小さ
い値で接続し、半母音、拗音が１３０ｍ５の長い時間接
続していることを示す。しかし前記従来例では類似度計
算に必要な演算量が膨大になる理由から、○印で示す６
フレームのみ使用している。このため、半母音、拗音の
特徴を十分にとらえ切れず、判別の精度が悪い欠点があ
る。

この欠点を解消するために第２図すに示すように１３個
のフレームを用いることが考えられる。

第２図すは第２図ａと同じ半母音、拗音についてフレー
ム数１３を用いる場合を○印で示したものである。この
場合半母音、拗音の特徴を十分にとらえることが可能で
あるが、類似度計算のために膨大々演算量を必要とし、
装置にした場合に高価となる欠点があった。

発明の目的本発明は前記欠点を解消し、音声の自動認識において、
音素又は音節の判別を高い判別精度で、かつ少ない演算
量で実現するための音声認識方法６　で　。

を提供することを目的とする。

発明の構成本発明は前記目的を達成するもので、多数話者の音声か
ら作成された標準パターンを予め用意しておき、入力未
知音声を連続するｎ個の一定時間区間（フレーム）に分
割し、前記各フレーム毎に音声を分析してスペクトル情
報をめ、前記ｎ個のフレームより、連続しないフレーム
を少々くとも含むＸ個（ｎ＞Ｘ　）のフレームを抽出し
、前記Ｘ個のフレームのスペクトル情報と前記標準パタ
ーンとの類似度を計算することにより音素又は音節の判
別を行うことを特徴とする音声認識方法を提供するもの
である。

実施例の説明以下に本発明の実施例を図面を用いて説明する。

第３図は本発明の音声認識方法を具現化する装置の一実
施例を示すブロック図である。

図にオイて１は音響分析部で、マイク等で入力すれた音
声の分析を行う。分析方法としては線形予測分析を行な
い、フレーム周期（１ｏｍｓ程ｉ）毎にＬＰＣケプスト
ラム係数を得る。

２は音素判別部で、音響分析部１で得たＬＰＣケプスト
ラム係数によってフレーム毎の音素判別を行う。

３は標準パターン格納部で、予め多数話者の音声によシ
音素毎にめた標準パターンを格納しておく。

４はセグメンテーション部で、音響分析部１０分析出力
をもとに音声区間の検出と音素毎の境界決定（以下セグ
メンテーションと呼ぶ）を行う。

６は音素認識部で、セグメンテーション部４と音素判別
部２の結果をもとに１つの音素区間毎に何という音素で
あるかを決定する作業を行う。この結果として音素の系
列が完成する。

６は単語認識部で、前記音素系列を、同様に音素系列で
表記された単語辞書７と照合し、最も類似度の高い単語
を認識結果として出力する。

７は前述した単語辞書である。

次に半母音、拗音の認識方法を例に第４図のフローチャ
ートを用いてさらに詳細に説明する。本方法は半母音、
拗音に限らず、母音、鼻音、摩擦子音等のスペクトルの
時間変化のゆっくりした音素に対して効果のある方法で
ある。

統計的距離尺度としてベイズ判定、マハラノビス距離等
があるが、本実施例ではマノ・マノビス距離で説明する
。又、スペクトル情報にはＬＰＣケプヌトラム係数を用
いた場合について述べる。

あらかじめ多数話者の単語音声の６母音と半母音。

拗音の区間を決定しておく。この音声を用いて標準バタ
ンを作成する手順を説明する。各音素の始端から連続す
るｎフレームそれぞれについてＨ次までのＬＰＧケプス
トラム係数をめ、その中のｍ次（Ｎ２ｍ）まで、すなわ
ちｅ　＋　（Ｃ＋’、　０２’。

・・・・・・＋　Ｃｍ　）を抽出する。次に連続するｎ
フレームより、連続しないフレームを少なくとも含むよ
うに（本実施例では１フレ一ム間隔で）Ｘ個のフレーム
（Ｘ（ｎ）を抽出（７、ｃ？（Ｃ＜、す、・・・・・、
ＱＩＩｌ／）を用いてベクトル（Ｂ（０，、Ｃ２，・・
・・・・ＣＭ）を作成する（Ｍ＝ＸＸｍ）。

こののによって各音素毎の平均値１ｍ１（ｉは音素基）
９　。

と対象とする全音素に共通の共分散共列菌をめる。その
逆行列を−Ｗ−１とし、その（ｊ、ｊ’）要素をａｉｊ
７とすると、Ｏｊ　に対する音素ｉの重み係数ａ　ｉｊ
はでまる。又、音素ｉに対する平均距離（１１をｄｉ＝Ｉ
ｍｉｔＶｌｌ−１ｍｉ（ａｌでめる。

このａｉｊおよびｄｉ　を標準バタンとして第３図の標
準バタン格納部３に入れておく。

次に、第３図の音響分析部１に入力された未知音声を、
フレーム毎に線形予測分析し連続するｎフレームそれぞ
れについてＮ次のＬＰＣケブヌトラム係数をめ、そのな
かから第４図処理トに示すｍ次（Ｎ２ｍ）までのＬＰＣ
ｉケプストラム係数ｌｒ、１（ｘｌｔ、ｘ２’、・−−
−、ｘｍ’）を抽出する。

次に連続するｎフレームより、連続し攻いフレー１゜ムを少なくとも含むように（例えば本実施例では１フレ
一ム間隔で）Ｘ個のフレームを抽出し、処理チに示すよ
うにＸフレーム分ハ、＃≦、・・・・・・、／ｌ’ｙ（
計算する。

さらに処理トと処理チの結果を用いて、処理りに示すよ
うにＸＸｍ＝Ｍ次元ベクトルＩ’　（ｘ、＋　−”　２
＋・・・・・・、ｘＭ）に変換する。

このμを用いて、標準パターン格納部３の標準パターン
によって次式で類似度／ｉをめる。

〜このｌｉを入力音声の各フレーム毎にめ（処理ヌ）、類
似度最大となる音素を判別結果として（処理ル）音素認
識部６に転送する。音素認識部６はこの結果とセグメン
テーション部４の結果を　゛組合せて音素の時系列を作
成し、単語認識部６に送る。単語認識部６はあらかじめ
音素の時系列で表記されている単語辞書７を照合し、最
も類似度の高い単語名を堅識結果として出力する。

１１第５図に具体例を示す第６図ａに半母音、拗音のスペクトル変化の例を示す。

横軸に時間をフレーム単位で示す。縦軸に隣接するスペ
クトルの距離をＬＰＧケプストラム係数のユークリッド
距離で示す。この距離曲線は１３フレーム中でいき値（
’ｌ’Ｈで示す）を越えず、スペクトルの時間変化がゆ
っくりしていることを示す。ここで、いき値は目的とす
る音素（ここでは半母音、拗音）の認識率の最大値が得
られる値に設定する。このため、スペクトルの時間変化
をとらえるのに必ずしも全てのフレームを用いる必要は
ない。本実施例では一つおきに間びいて○印で示すフレ
ームの番号の計７個を使用する。この場合、音素の判別
に必要々ＬＰ（３ケプヌトラム係数ノベクトルは６Ｘ７
＝４２となる。標準パターン１個あたりの積と和の演算
量の比較を第１表に示す。

第２図すに示した従来法と本実施例とについて、（１）
式によるベイズ判定と（−４１式によるマハラノビス°
距離とに分けて示す。

第１表第１表かられかるように本実施例は、ベイズ判定では従
来法の約３０％と大幅に減らすことができる。またマノ
・マノビス距離では従来法の半分に減らすことができる
。

また第２図すに示した従来法と第６図ａに示した本実施
例について、半母音、拗音の判別精度を比較した結果を
第２表に示す。

第２表１３　ミすなわち、従来法に比較して本実施例は認識率。

バラツキを表わす標準偏差ともに向上する。その理由と
して、ゆりくシしたスペクトルの時間変化を、使用フレ
ームを間びくことによって大局的にとらえることにより
、効率良く特徴をとらえることができるためと考えられ
る。又、余分なスペクトル情報を除くことにより、話者
やコンテキスト等の変動要因によるバラツキを減らすこ
とができるためと考えられる。

なお、本発明は連続しない複数のフレームのスペクトル
情報を音素又は音節の判別に使用することを特徴とし、
フレーム数１３の場合を例にとると、音素又は音節の種
類によっては第６図す、ｃの方法も適用される。

すなわち第５図すに示す曲線は子音／Ｓ／の隣接スルス
ペクトル距離をＬＰＣケプヌトラム係数を用いて表わし
たもので、いき値（ＴＨ）を越えるフレーム１，２．３
とフレーム１２．１３は連続して使用し、いき値を越え
ない区間は間びいて使用する。この方法は子音／Ｓ／と
／ｈ／のような、４境界の動きと摩擦部のスペクトルに差のある音素や音節
に対して有効である。

また第６図Ｃに示す曲線は子音／Ｚ／の隣接するスペク
トル距離をＬＰＣケプヌトラム係数を用いて表わしたも
ので、いき値を越えるフレーム１゜２．３．４は連続し
て使用し、いき値を越えない区間は間びいて使用する。

子音／Ｚ／や／Ｃ／。

／に／のよう彦、破裂部の動きと摩擦部のスペクトルに
差のある音素や音節に対して有効である。

なお上記実施例ではいき値を越えた領域には連続フレー
ムを使用する場合について述べたが必ずしも連続である
必要はない。

また本発明スペクトル情報としては、線形予測分析、帯
域フィルタ群による分析、高速フーリエ変換（ＦＦＴ）
分析のいずれによっても得ることができる。

さらに本発明の類似度計算は統計的距離尺度を用いて計
算するのが良く、統計的距離尺度としては、ベイズ判定
に基づく距離、マハラノピス距離１、騨形判別関数等が
より好適である。

１６発明の効果以上要するに本発明は、音声を連続するｎ個のフレーム
に分割し、この各フレーム毎に音声を分析してスペクト
ル情報をめ、前記ｎ個のフレームの中から、連続しない
フレームを少々くとも含むＸ個のフレーム（Ｘ（ｎ）を
抽出し、このＸ個のフレームのスペクトル情報を用いて
音素又は音節の判別を行うことを特徴として含む音声認
識方法を提供するものであり、 ■　対象とする音素又は音節のスペクトルの時間変化の
特徴を効率良くとらえることにより、バラツキの少ない
、かつ高い鯵識性能を得ることができる。

■　音素又は音節の判別に必要な演算量を従来の］／！
〜１４に減らすことができ、装置としての低価格化をは
かることができる。

等の利点を有する。

【図面の簡単な説明】

第１図は従来の音声し織方法における音素判別を説明す
るフローチャート、第２図は従来におけるフレーム抽出
法を説明する図、第３図は本発明の音声認識方法を具現
化する音声認識方法の一実施例を示すブロック図、第４
図は本発明の一実施例における音声認識方法の音素判別
を説明するフローチャート、第５図は本発明におけるフ
レーム抽出法を説明する図である。１・、・・・音響分析部、２・・・・・・音素判別部、
３・・・・・・標準ハターン格納部、４・・・・・・セ
グメンテーション部、６・・・・・・音素認３％部、６
・・・・・・弔語し識部、７・・・・・・単語辞書。代理人の氏名　弁理士　中　尾　敏　男　ほか１名第１
図第　２　図１第４歯５５図

Claims

【特許請求の範囲】１）音声を連続するｎ個の一定時間区間（フレーム）に
分割し、前記各フレーム毎に音声を分析してスペクトル
情報をめ、前記ｎ個のフレームより、連続しないフレー
ムを少なくとも含むＸ個のフレーム（Ｘ＜ｎ）を抽出し
、前記Ｘ個のフレームのスペクトル情報と予め多数話者
の音声から作成された標準パターンとの類似度を計算す
ることにより音素又は音節の判別を行うことを特徴とす
る音声認識方法。２）ｎ個のフレームからＸ個のフレームを抽出する際に
、スペクトル情報の時間的変化速度が閾値を越えない領
域は少々くとも不連続抽出としたことを特徴とする特許
請求の範囲第１項記載の音声認識方法。３）スペクトル情報を、線形予測分析、帯域フィルタ群
、高速フーリエ変換分析のいずれかによって得ることを
特徴とする特許請求の範囲第１項記載の音声認識方法。４）類似度計算を統計的距離尺度を用いて行うことを特
徴とする特許請求の範囲第１項記載の音声認識方法。６）統計的距離尺度が、ベイズ判定に基づく距離。マハラノビス距離、線形判別関数のいずれかであること
を特徴とする特許請求の範囲第４項記載の音声認識方法
。