JPH0344320B2 - - Google Patents

Info

Publication number
JPH0344320B2
JPH0344320B2 JP58175304A JP17530483A JPH0344320B2 JP H0344320 B2 JPH0344320 B2 JP H0344320B2 JP 58175304 A JP58175304 A JP 58175304A JP 17530483 A JP17530483 A JP 17530483A JP H0344320 B2 JPH0344320 B2 JP H0344320B2
Authority
JP
Japan
Prior art keywords
phoneme
standard pattern
speech recognition
learning
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58175304A
Other languages
English (en)
Other versions
JPS6067996A (ja
Inventor
Satoshi Fujii
Katsuyuki Futayada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58175304A priority Critical patent/JPS6067996A/ja
Publication of JPS6067996A publication Critical patent/JPS6067996A/ja
Priority to US07/501,386 priority patent/US4991216A/en
Publication of JPH0344320B2 publication Critical patent/JPH0344320B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は人間の声によつて発声された音声信号
を自動的に認識するため、音声認識方法に関する
ものである。
従来例の構成とその問題点 音声を自動的に認識する音声認識装置は人間か
ら電子計算機や各種機械へデータや命令を与える
手段として非常に有効と考えられる。
従来研究あるいは発表されている音声認識装置
の動作原理としてはパターンマツチング法が多く
採用されている。この方法は認識される必要があ
る全種類の単語に対して標準パターンをあらかじ
め記憶しておき、入力される未知の入力パターン
と比較することによつて一致の度合(以下類似度
と呼ぶ)を計算し、最大一致が得られる標準パタ
ーンと同一の単語であると判定するものである。
このパターンマツチング法では認識されるべき全
ての単語に対して標準パターンを用意しなければ
ならないため、発声者が変つた場合には新しく標
準パターンを入力して記憶させる必要がある。従
つてこの方法は原理が簡単であり、少数語いには
有効な方法であるが、数百種類以上の単語を認識
対象とするような場合、全種類の単語を発声して
登録するには時間と労力を必要とし、又登録に要
するメモリ容量も膨大になることが予想される。
さらに入力パターンと標準パターンのパターンマ
ツチングに要する時間も単語数が多くなると長く
なつてしまう欠点がある。
これに対して、入力音声を音素単位に分けて音
素の組合せとして認識し(以下音素認識と呼ぶ)
音素単位で表記された単語辞書との類似度を求め
る方法は単語辞書に要するメモリ容量が大幅に少
なくて済み、パターンマツチングに要する時間が
短く又辞書の内容変更も容易であるという特長を
持つている。例えば「赤い」という発声は/
a/,/k/,/i/という三つの音素を組合せ
てAKAIという極めて簡単の形式で表現できるた
め、不特定話者で多数語の音声に対処することが
容易である。
第1図に音素認識を行うことを特徴とする音声
認識方法のブロツク図を示す。マイク等で入力さ
れた音声は音響分析部1によつて分析を行なう。
分析方法としては帯域フイルタ郡や線形予測分析
を思い、フレーム周期(10mS程度)毎にスペク
トル情報を得る。音素判別部2では、音響分析部
1で得たスペクトル情報を用い、標準パターン格
納部3のデータによつてフレーム毎の音素判別を
行なう。標準パターン格納部3に格納された標準
パターンは、あらかじめ多数話者の音声より音素
毎に求めておく。セグメンテーシヨン部4では、
音響分析部1の分析出力をもとに音声区間の検出
と音素毎の境界決定(以下セグメンテーシヨンと
呼ぶ)を行なう。音素認識部5ではセグメンテー
シヨン部4の音素判別部2の結果をもとに1つの
音素区間毎に何という音素であるかを決定する作
業を行なう。この結果として音素の系列が完成す
る。単語認識部6では、この音素系列を、同様に
音素系列で表記された単語辞書7と照合し、最も
類似度の高い単語を認識結果として出力する。
前記方法で不特定話者を対象とする場合に最も
重要な点は、高い音声認識精度を、どういう話
者、環境に対しても安定して得ることである。
又、そのために話者に負担をかけすぎたり音声認
識装置にした場合に高価な部分を要するようであ
つてはならない。
しかし従来発表又は試作されている音声認識装
置は前記条件が不十分であるという欠点があつ
た。従来例として、予測残差を対象とする方式
(鹿野、好田「会話音声中の母音認識を目的とし
たLPC距離尺度の評価」電子通信学会誌80/5、
VOLJ−63D、No.5参照)では、あらかじめ多数
話者の音声より線形予測分析によつて音素iの最
尤パラメータAij(j=1、2、……、p)(pは
分析次数)を求めておき、予測残差を次式で求め
る。
NiPj=1 AijSj ここでSjは未知な入力音声から求めた自己相関
係数である。この予測残差Niを、対象とする音
素毎に求めこれを距離尺度として、Niが最少と
なる音素を判別結果とする。
しかしこの方法は音素の標準パターンに相当す
る最尤パラメータAijが単なる平均値であるため、
たとえ使用者にあわせてAijを作り直すという学
習機能を設けたとしても、調音結合による発声の
変動に対処することができず、認識率が低いとい
う欠点があつた。
又、母音、半母音等の音素をフレーム単位の標
準パターンで判別し、判別結果の組合せとしてセ
グメンテーシヨン、音素認識をするために、時間
的な働きを十分にとらえきれず、認識度が上がら
ないという欠点があつた。
発明の目的 本発明は前記欠点を解消し、不特定話者に対処
するとともに、話者、言葉のちがいに影響される
ことなく安定に、高い音声認識精度を得ることの
できる音声認識方法を提供することを目的とす
る。
発明の構成 本発明は上記目的を達成するもので、多数話者
の音声から、音素内の時間的動きを表現する複数
個のフレームのLPCケプストラム係数よりなる
標準パターンを音素ごとに作成し、前記標準パタ
ーンと未知音声の複数個のフレームのLPCケプ
ストラム係数とを用いて統計的距離尺度に基づい
て求めた類似度または音素系列により音声認識を
行なうことを特徴とする音声認識方法を提供する
ものである。
実施例の説明 本発明の音声認識方法は、母音と半母音、又は
母音同志のスペクトルの時間−周波数特性に相異
のあることを利用するものである。
母音と半母音の認識法を例に説明する。
第2図AにOOSAMAと発声したときの母音/
a/のスペクトルを、第2図Bに YASUMONOと発声したときの/ja/の部分の
半母音/j/からの母音/a/への遷移スペクト
ルを示す。縦軸は周波数を表わし、横軸は時間を
10mS単位のフレームで表わす。また横軸はスペ
クトル強度を同時に表わす。スペクトルの右方向
のピークがホルマントを表わし、ホルマントの動
きを破線で示す。
AとBとを比較すると、母音と半母音の違いは
音素のはじまりから母音(この場合/a/)の中
心(図Aで示す。)へ向つて移動するホルマント
の働きが異なることである。すなわち/a/は音
素中心までの時間が5フレームであるのに対
し、/ja/は10フレームである。またホルマント
の位置が/a/は500〜1000Hzの間にあるのに対
し、/ja/は250〜1000Hzの間に広く存在する。
この傾向は母音間においても同様である。
例えば/a/と/o/を比較しても、その中心
へ向かう、又中心から離れる時のスペクトル変化
の状態は異なる。
本発明はこの現象に着目し、母音や半母音の標
準パータンを複数個のフレームの周波数スペクト
ルにて構成し、従来のフレーム単位で音素を区別
する方法に比し、/a/,/i/,/u/,/
e/,/o/,/j/,/w/等の音素同志の区
別を精度良く実現しようとするものである。
本発明における距離尺度としては、高い音声認
識精度を得るために、ベイズ判定に基づく距離、
マハラノビスの汎距離、線形判別関数等の統計的
距離尺度が好適である。
計算量の削減という面からは例えばマハラノビ
スの汎距離を基本としてこれを一次判別関数とし
て展開したもの(簡易型マハラノビス距離と呼
ぶ)が望ましく、以下の実施例では一例として簡
易型マハラノビス距離を用いた場合について説明
する。マハラノビスの汎距離はマトリクス演算を
必要とするが、対象とする音素間の分散が大きく
ちがわない場合には共分数行列を共通化すること
ができ、計算量の少ない簡易型マハラノビス距離
に展開することができる。
上記考え方に基づき本発明に係る音声認識方法
の一実施例を第3図により説明する。
まず、標準パターン作成のための多数話者の音
素iに相当する音声を入力し、ブロツク11にて
スペクトル情報として分析次数pでフレーム数n
個の複数の周波数スペクトルからなるLPCケプ
ストラム係数の2次元配列を求める。
〓i=Ci11、Ci12、…、Ci1p Ci21、Ci22、…、Ci2p 〓 Cio1、Cio2、…、Ciop これをブロツク12にてM=n×P次元のベク
トル〓iにする。
i=(Ci11、Ci12、…、Ci1p、Ci21、…、Ci2
p
、Cio11、…、Ciop) この〓iを用いてブロツク13にて音素iの標
準パターンを作成する。以上を各音素毎に行な
う。
次に学習の必要がある場合には、ブロツク14
にて使用者の音声を学習し、上記標準パターンの
修正を行なう。学習の過程は必要に応じて設けれ
ば良い。
これに対し、未知音声をブロツク15にて分析
して分析次数pでフレーム数n個からなるLPC
ケスプスラム係数の2次元配列〓を求める。
i=C11、C12、…、C1p C21、C22、…、C2p 〓 Co1、Co2、…、Cop これをブロツク16にてM次元ベクトル〓に変
換する。
〓=(C11、C12、…、C1p、C21、…、C2p、Co1
、…、Cop) この〓と標準パターンを用いて、ブロツク17
にて各音素毎に、簡易型マハラノビス距離によつ
て類似度を求め、判別する。
上記考え方に基づき、一例として学習がある場
合の母音、半母音の標準パターン作成の手順を第
4図に示す。音素iに相当する入力音声をブロツ
ク21にて線形予測分析し、標準パターンとして
使用すべきn個のLPCケプストラム係数のCij1
らCijpまでを周波数軸として2次元パターンを構
成する。iは音素の種類を、jはフレームの順番
を表わす。pは分析次数である。次にブロツク2
2にてパラメータを並べかえて 〓i=(Ci11、Ci12、…、Ci1p、Ci21、…、Ci3
1
、…、Cio1、Ciop) とする。
さらにブロツク23にて多数の音声による〓i
を集計し、〓iの平均値を〓i(〓iはM次元のベク
トル)とする。ブロツク24で求める共分散行列
は音素の種類にかかららず共通とし、〓で表わ
す。ブロツク25にて〓の逆行列を〓-1とし、
(j、j′)要素をブロツク26にてσj、j′とする
と、音素iのj番目のパラメータに対する判別係
数aijはブロツク27にて aij=2Mj=1σij′mij′ (1) で表わすことができる。ここでmij′は〓iの第j′成
分である。
一方、音素によつて決まる定数diはブロツク2
8にて di=〓i t-1i (2) で求めることができる。ここでtは転置行列を表
わす。
以上により求めたaij、diを音素標準パターンと
してブロツク29に示す係数メモリに蓄える。
又、ブロツク23で求めた平均値〓iとブロツ
ク25で求めた逆行列〓-1は学習に使用するた
め、ブロツク30に示す学習部に蓄える。
以上のようにして作成された標準パターンは学
習により修正される。しかる後、未知の入力音声
と前記修正後の標準パターンとの間の類似度を簡
易型マハラノビス距離を用いて計算し音素判別を
行なう。
入力されたパラメータ〓=(x1、x2、…、xo
の音素iの分布に対するマハラノビス距離Di 2は Di 2=〓t-1〓−Mj=1 aijχj +〓i t-1i (3) で表わされる。
tは転値行列を表わす。
(3)式の第1項は音素の種類に依存しないため、
類似度Liを簡易的に LiMj=1 aijχj−〓i t−〓-1i (4) で表わすことができる。(4)式の第2項は音素の種
類によつて決まる定数であり、これを(2)式に基づ
いてdiで表わすと、類似度Liは LiMj=1 aijχj−di (5) で求めることができる。ここでaij、diは標準パタ
ーンとしてすでに求めたものを使用する。
(5)式を簡易型マハラノビス距離と呼ぶ。
学習を行なう場合と認識手順を第5図に示す装
置のブロツク図を用いて説明する。まず第4図に
述べた手順で作成された標準パターンaij、diを係
数メモリ31に蓄えておく。又、〓、〓-1を学習
部32に蓄えておく。
次に学習による標準パターンの修正について述
べる。
すなわち使用者に母音、半母音をマイク33に
向かつて発生させ、A/D変換器34でA/D変
換し、信号処理回路35でハミング窓をかけ、プ
リエンフアシスを行なう。線形予測分析プロセツ
サ36にてLPCケプストラム係数を求め、係数
の並べかえを行なつて、χiとし学習部32に転送
する。この場合必要に応じて帯域フイルタ39か
らのパラメータ情報を使用することもある。さら
にχiは類似度計算部37にも転送する。類似度計
算部37は、係数メモリ31の標準パターンによ
つて前記(5)式に示した類似度Liを求める。
これをメインメモリ38に転送する。一方、帯
域フイルタ39にてセグメンテーシヨンのための
パラメータ(帯域パワーおよび全パワー)を求
め、メインメモリ38に転送する。類似度計算部
37の結果と帯域フイルタ39の結果からメンイ
プロセツサ40にて、学習すべき時間軸上の位置
を決定し、出力部41を通して学習部32に指定
してやる。学習部32は蓄えてある平均値〓i
共分散逆行列〓-1を用いて次の手順で標準パター
ンの話者適合を行なう。求める平均値を〓′iとす
ると、 〓i′=(α〓i+〓i)/(α+1) (6) となる。ここでαは重み係数である。
この〓′iを用い、適合すべきa′ijは(1)式により、 a′ij=2Mj=1 σij′m′ij′ (7) となる。ただしm′ij′は〓′iの第j′成分である。
又、適合すべきdi′は(2)式により d′i=〓′i t-1〓′i (8) となり、このa′ij、d′iを話者適合した標準パター
ンとして係数メモリ31を書き換える。
以上で学習を終了し、実際の音声の認識を次の
手順で行なう。
入力された音声をAD変換器34、信号処理回
路35を経て線形予測分析プロセツサ36で線形
予測分析してP個LPCケプストラム係数を求め、
nフレーム分のLPCケプストラム係数を並べか
えてのM次元の入力ベクトル〓を求める。このχ
と係数メモリ31に格納されている修正済の標準
パターンa′ij、d′iとを用い、判別フイルタ37に
て類似度Liを次式で計算する。
LiMj=1 a′ijχj−d′i (9) ただし、χjは入力ベクトル〓の第j成分であ
る。
このLiと、帯域フイルタ39の結果をメインメ
モリ38に転送する。メンインプロセツサ40は
これらのデータによつて音声区間の検出、セグメ
ンテーシヨン、音素認識を行ない、音素系列を作
成する。この音素系列を、同様に音素系列で表記
された単語辞書メモリ42と照合し、最も類似度
の大きい単語名を認識結果として出力部41に出
力する。
以上述べたように、本実施例による方法は音素
認識を基本とする音声認識方法において、音素の
標準パターンを複数個のフレームの周波数スプク
トルで構成することによつて音素内での時間的動
きを十分に考慮し、さらに学習によつて音素標準
パターンを自動作成して話者適合させ、高い音声
認識性能を持たせることができる。又、マハラノ
ビスの汎距離を距離尺度として使用し、さらに簡
易化をはかつたため音素の類似度計算および学習
のための演算は簡単であり、高い演算制度を持つ
計算回路を要することなく実現することができ
る。
第6図は成人女子10人を対象として、母音、鼻
音の認識率を従来のフレーム単位で音素判別を行
なう方法で学習のない場合51、学習のある場合
52と本実施例の方法53とを比較したものであ
る。フレーム単位での判別でも学習すればかなり
改善されるが本実施例ほどの効果はない。
このように標準パターンを複数個のフレームの
周波数スペクトルで構成することによつて全ての
話者に対して顕著に改善され、平均で誤り率は
6.7%となり、フレーム単位の判別で学習ありの
場合52の70%に圧縮されている。
第7図は半母音の認識率について、従来のフレ
ーム単位の判別で学習ありの場合61と本実施例
の方法62とを比較したものである。従来法で認
識すると平均で68.5%しかできたかつたものが、
本実施例を用いると84.4%に向上した。認識率は
15.9%向上し、誤り率は1/2に減少できる。
まとめると、本実施例による特徴は次の通りで
ある。
(1) 音素の標準パターンを複数個のフレームのス
ペクトル又はそれに類似する情報を用いて構成
することにより、高い音素認識率を得ることが
できる。
(2) 学習によつて音素標準パターンを自動作成
し、話者適合させるこにより、従来認識できな
かつた話者(たとえば第6図の話者YM、YI)
に対しても精度の良い音素認識ができる。
(3) (1)、(2)の効果により、高性能の音声認識装置
を構成することができ、高い単語認識率が期待
できる。
なお前記実施例は学習のある場合について述
べたが、本発明の特徴は音素内の時間的動きを
表現する複数個のフレームのLPCケプストラ
ム係数からなる標準パターンを構成し、統計的
距離尺度に基づいて類似度を算出するところに
あるので、学習しない場合においても良好な音
素認識率を得ることができる。
発明の効果 以上要するに本発明は多数話者の音声から、音
素内での時間的動きを表現するために複数個のフ
レームのLPCケプストラム係数よりなる標準パ
ターンを音素ごとに作成し、前記標準パターンと
未知音声の複数個のフレームのLPCケプストラ
ム係数とを用いて統計的距離尺度に基づいて求め
た類似度または音素系列により音声認識を行なう
ことを特徴とする音声認識方法を提供するもの
で、極めて高い音素認識率を得ることができ、性
能の優れた音声認識装置を実現することができ
る。
【図面の簡単な説明】
第1図は音素認識を基本とする従来の音声認識
方法のブロツク図、第2図は本発明の方法に係わ
るスペクトルパターンの例を示す図、第3図は本
発明の一実施例にいよる音声認識方法を示すブロ
ツク図、第4図は本発明の標準パターンの作成法
を示すブロツク図、第5図は本発明の音声認識方
法を具限化する音声認識装置の一構成例を示すブ
ロツク図、第6図及び第7図は本実施例の効果を
話者毎の音声認識率で示した図である。 31……係数メモリ、32……学習部、36…
…線形予測分析プロセツサ、37……類似度計算
部、38……メインメモリ、39……帯域フイル
タ、40……メインプロセツサ、41……出力
部。

Claims (1)

    【特許請求の範囲】
  1. 1 多数話者の音声から、音素内の時間的動きを
    表現する複数個のフレームのLPCケプストラム
    係数よりなる標準パターンを音素ごとに作成し、
    前記標準パターンと未知音声の複数個のフレーム
    のLPCケプストラム係数とを用いて統計的距離
    尺度に基づいて求めた類似度または音素系列によ
    り音声認識を行なうことを特徴とする音声認識方
    法。
JP58175304A 1983-09-22 1983-09-22 音声認識方法 Granted JPS6067996A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP58175304A JPS6067996A (ja) 1983-09-22 1983-09-22 音声認識方法
US07/501,386 US4991216A (en) 1983-09-22 1990-03-23 Method for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58175304A JPS6067996A (ja) 1983-09-22 1983-09-22 音声認識方法

Publications (2)

Publication Number Publication Date
JPS6067996A JPS6067996A (ja) 1985-04-18
JPH0344320B2 true JPH0344320B2 (ja) 1991-07-05

Family

ID=15993754

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58175304A Granted JPS6067996A (ja) 1983-09-22 1983-09-22 音声認識方法

Country Status (1)

Country Link
JP (1) JPS6067996A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63161497A (ja) * 1986-12-24 1988-07-05 松下電器産業株式会社 音声認識装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59131999A (ja) * 1983-01-19 1984-07-28 松下電器産業株式会社 音声認識装置
JPS59223499A (ja) * 1983-06-02 1984-12-15 松下電器産業株式会社 音素認識装置
JPS6053998A (ja) * 1983-09-05 1985-03-28 松下電器産業株式会社 音声認識装置
JPS6336678A (ja) * 1986-07-31 1988-02-17 Matsushita Electric Ind Co Ltd 復調装置

Also Published As

Publication number Publication date
JPS6067996A (ja) 1985-04-18

Similar Documents

Publication Publication Date Title
Sefara The effects of normalisation methods on speech emotion recognition
JP2017097162A (ja) キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
Nasereddin et al. Classification techniques for automatic speech recognition (ASR) algorithms used with real time speech translation
Gulzar et al. A systematic analysis of automatic speech recognition: an overview
US12488805B2 (en) Using optimal articulatory event-types for computer analysis of speech
El Kourd et al. Arabic isolated word speaker dependent recognition system
Unnibhavi et al. LPC based speech recognition for Kannada vowels
US12518774B2 (en) Identifying optimal articulatory event-types for computer analysis of speech
Oprea et al. An artificial neural network-based isolated word speech recognition system for the Romanian language
IL322559A (en) Identification of expressive event types for computer speech analysis
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
Sangeetha et al. Automatic continuous speech recogniser for Dravidian languages using the auto associative neural network
JPH0344320B2 (ja)
Savchenko et al. Optimization of gain in symmetrized itakura-saito discrimination for pronunciation learning
Joshi et al. Mfcc-based voice recognition system for home automation using dynamic programming
Lee et al. Speaker‐independent phoneme recognition using hidden Markov models
Lee Automatic recognition of isolated cantonese syllables using neural networks
Hamandouche Speech Detection for noisy audio files
Gujral et al. Various Issues In Computerized Speech Recognition Systems
JPH0772899A (ja) 音声認識装置
JPH042197B2 (ja)
Viana et al. Self-organizing speech recognition that processes acoustic and articulatory features
Kumar et al. Detection of vowels in speech signals degraded by speech-like noise
JPH0455518B2 (ja)
JP3231365B2 (ja) 音声認識装置