JPH042197B2

JPH042197B2 -

Info

Publication number: JPH042197B2
Application number: JP58163537A
Authority: JP
Priority date: 1983-09-05
Filing date: 1983-09-05
Publication date: 1992-01-16
Also published as: JPS6053998A

Description

【発明の詳細な説明】産業上の利用分野本発明は人間の声によつて発声された音声信号
を自動的に認識するための、音声認識装置に関す
るものである。

従来例の構成とその問題点音声を自動的に認識する音声認識装置は人間か
ら電子計算機や各種機械へデータや命令を与える
手段として非常に有効と考えられる。

従来研究あるいは発表されている音声認識装置
の動作原理としてはパタンマツチング法が多く採
用されている。この方法は認識される必要がある
全種類の単語に対して標準パターンをあらかじめ
記憶しておき、入力される未知の入力パタンと比
較することによつて一致の度合（以下類似度と呼
ぶ）を計算し、最大一致が得られる標準パタンと
同一の単語であると判定するものである。このパ
タンマツチング法では認識されるべき全ての単語
に対して標準パタンを用意しなければならないた
め、発声音が変つた場合には新しく標準パタンを
入力して記憶させる必要がある。したがつて数百
種類以上の単語を認識対象とするような場合、全
種類の単語を発声して登録するには時間と労力を
必要とし、また登録に要するメモリー容量も膨大
になることが予想される。さらに入力パタンと標
準パタンのパタンマツチングに要する時間も単語
数が多くなると長くなつてしまう欠点がある。

これに対して、入力音声を音素単位に分けて音
素の組合せとして認識し（以下音素認識と呼ぶ）
音素単位で表記された単語辞書との類似度を求め
る方法は単語辞書に要するメモリー容量が大幅に
少なくて済み、パタンマツチングに要する時間が
短く、辞書の内容変更も容易であるという特長を
持つている。例えば「赤い」という発声は／
ａ／，／Ｋ／，／ｉ／という三つの音素を組合せ
てAKAIという極めて簡単な形式で表現すること
ができるため、不特定話者で多数語の音声に対処
することが容易である。

第１図に音素認識を行うことを特徴とする音声
認識方式のブロツク図を示す。マイク等で入力さ
れた音声は音響分析部１によつて分析を行なう。
分析方法としては帯域フイルタ群や線形予測分析
を用い、フレーム周期（10mS程度）毎にスペク
トル情報を得る。音素判別部２では、音響分析部
１で得たスペクトル情報を用い、標準パターン格
納部３のデータによつてフレーム毎の音素判別を
行なう。標準パターン格納部３に格納された標準
パターンは、あらかじめ多数話者の音声より音素
毎に求めておく。セグメンテーシヨン部４では音
響分析部１の分析出力をもとに音声区間の検出と
音素毎の境界決定（以下セグメンテーシヨンと呼
ぶ）を行う。音素認識部５ではセグメンテーシヨ
ン部４と音素判別部２の結果をもとに１つの音素
区間毎に何という音素であるかを決定する作業を
行なう。この結果として音素の系列が完成する。
単語認識部６では、この音素系列を同様に音素系
列で表記された単語辞書７と照合し、最も類似度
の高い単語を認識結果として出力する。

前記方法で不特定話者を対象とする場合に最も
重要な点は、高い音声認識精度を、どういう話者
環境に対しても安定して得ることである。また、
そのために話者に負担をかけすぎたり音声認識装
置にした場合に高価な部分を要するようであつて
はならない。

しかし従来発表または試作されている音声認識
装置は前記条件が不十分であるという欠点があつ
た。

従来例として、予測残差を対象とする方式（鹿
野，好用「会話音声中の母音認識を目的とした
LPC距離尺度の評価」電子通信学会誌80／５，
VOLJ−63D，No.５参照）では、あらかじめ多数
話者の音声より線形予測分析によつて音素ｉの最
大パラメータA_ij（ｊ＝１，２，……，Ｐ）（Ｐは
分析次数）を求めておき、予測残差を次式で求め
る。

N_i＝_p 〓^j=1 A_ijS_j …(1) ここでS_jは未知な入力音声から求めた自己相関
係数である。この予測残差N_iを、対象とする音
素毎に求めこれを距離尺度として、N_iが最小と
なる音素を判別結果とする。

しかしこの方法は音素の標準パタンに相当する
最大パラメータA_ijが単なる平均値であるため、
たとえ使用者にあわせてA_ijを作り直すという学
習機能を設けたとしても、調音結合による発声の
変動に対処することができず、認識率が低いとい
う欠点があつた。

発明の目的本発明は前記欠点を解消し、不特定話者に対処
できるとともに話者，環境，言葉のちがいに影響
されることなく安定に高い音声認識精度を得るこ
とのできる音声認識装置を提供することを目的と
する。

発明の構成本発明は上記目的を達成するためになされたも
ので、音声信号からスペクトルまたはそれに類似
する情報（以下スペクトル情報と記す）を算出す
る音響分析部と、多数話者からなる標準音声信号
から得られた、スペクトル情報の分散・共分散行
列および平均値を少なくとも含む標準パターンと
を用いて音素毎の類似度を求める類似度計算部
と、類似度または音素系列で表記された単語辞書
を格納する単語辞書記憶部と、前記類似度計算部
を経て作成された類似度または音素系列を単語辞
書と照合し最も類似度の高い単語を認識結果とし
て出力する出力部と、前記出力部の結果と前記音
響分析部のスペクトル情報とから新しい平均値を
作成しその結果に基づき前記係数記憶部の内容を
書き替える学習部とを具備するものである。

実施例の説明第２図に本発明の音声認識装置の構成の一実施
例を示す。マイク３１から入つた音声信号はAD
変換器２１で、12kHzサンプリングで12ビツトに
変換する。これを信号処理回路でプリエンフアシ
スおよび20mSのハミング窓をかけ、10mS毎に線
形予測分析プロセツサ２３にてLPCケプストラ
ム係数を算出する。このLPCケプストラム係数
を類似度計算部２４に通し、各音素に対する類似
度をフレーム毎に算出し、メインメモリ２７に転
送する。係数メモリ２５は各音素毎のフイルタ係
数を格納している。

一方、帯域フイルタ２６では３チヤネル程度の
帯域パワーおよび全パワーを算出し、音素のセグ
メンテーシヨン用のデータとしてメインメモリ２
７に転送する。メインプロセツサ２８では類似度
計算部２４および帯域フイルタ２６の結果を用い
て音声区間の検出と音素毎のセグメンテーシヨン
を行つた後、類似度計算部２４の音素毎の類似度
から類似度の最も高い音素を区間毎に決定し、音
素系列を作成する。この音素系列を同様に音素系
列で表記された単語辞書メモリ２９と照合するこ
とによつて最も類似度の大きい単語名を認識結果
として出力部３０に出力する。

しかし、これだけでは不特定話者に対して使用
は可能であるが、標準パターンに相当する係数メ
モリ２５が固定されるため、話者による認識性能
のバラツキが大きく、認識率がかなり低くなつて
しまう場合が生ずる。そこで、新しく学習機能を
もたせるために学習部３２を設ける。この学習部
３２は線形予測分析プロセツサ２３で得たLPC
ケプストラム係数を受け、出力部３０から得た結
果を参照に学習データを作成し、あらかじめ求め
ておいた分散，共分散行列をもとにその話者に最
もふさわしい音素毎の判別係数を計算し直し、係
数メモリ２５に転送するための動作を行う。

次に本発明に係る音素認識装置の動作について
第２図を参照にしながら詳しく説明する。

あらかじめマスク３１から入力された多数話者
の発声した多数の単語音声からAD変換器２１を
介して母音／ａ／，／ｏ／，／ｕ／，／ｉ／，／
ｅ／と鼻音の切出しを行つておく。この音声デー
タを用いて信号処理回路２２および線形予測分析
プロセツサ２３により10mSの分析区間毎に線形
予測分析を行い、ｐ次元のLPCケプストラム係
数を算出する。このLPCケプストラム係数を用
いて全音素を対象とした共分散行列Ｗと、各音素
毎の平均値m_i（ｉは音素の種類を表わす）を求め
る。この結果より、音素ｉに対する判別係数a_ij
（ｊ＝１，２，……，ｐ）は共分散行列Ｗの逆行
列W^-1の（ｊ，j′）要素をδ^jj′とすると、 a_ij＝２_p 〓^j=1 δ^jj′m_ij′ …(2) で表わすことができる。

各音素毎にa_ij，m_ij′，δ^ij′，m_i ^tW^-1m_i（後逆）を
求め標準パターンとして係数メモリ２５に格納し
ておく。

次に使用者に内容のあらかじめわかつている音
声（たとえば／ａ／，／ｉ／，／ｕ／，／
ｅ／，／ｏ／）を発声させ、音声区間中の分析区
間毎のLPCケプストラム係数を線形予測分析プ
ロセツサ２３で求め、学習部３２に転送する。一
方予め格納されている係数メモリ２５の標準パタ
ーンを用いて、判別フイルタ２４で類似度を求め
る。類似度計算部２４では入力信号のLPCケプ
ストラム係数ｘに対するマハラノビス距離D_i ²は D_i ²＝x^tW^-1x−_p 〓^j=1 a_ijx_j＋m_i ^tW^-1m_i …(3) （ｔは転置行列を示す）で表わすことができるが、第１項は音素の種類に
依存しないため、類似度L_iを簡易的に L_i＝_p 〓^j=1 a_ijx_j−m_i ^tW^-1m_i …(4) で表わし、(4)式を用いて類似度を計算する。その
結果をメインメモリ２７に転送し、メインプロセ
ツサ２８を通して音素系列を作成する。次に、学
習すべき音素の時間軸上の位置を示す値を出力部
３０より学習部３２にもどし、学習すべき音素の
LPCケプストラム係数の平均値を求める。以上
を音声の種類を変えながら必要な回数くり返す。
各音素毎の平均値に適度な重み付けをしたものを
学習しない場合のもとの平均値（m_ij′）に加え、
新しい音素毎の平均値を作成し係数メモリ２５の
平均値m_ij′を置き換える。さらにこの平均値を使
用して判別係数a_ijおよび(4)式の定数項（第２項）
を音素ごとに修正し、これらを新しい標準パター
ンとして係数メモリ２５に転送し、標準パターン
の書替えを行う。

次に実際に音声認識を行う場合について説明す
る。マイク１０から入力された未知な音声信号に
ついて、信号処理回路２２および線形予測分析プ
ロセツサ２３を使用してLPCケプストラム係数
ｘ（x₁，x₂，……，x_p）を求め、類似度計算部２
４に転送し、予め求めて係数メモリ２５に収納し
てある標準パターンを用いて(4)式より音素ｉの類
似度L_iを求める。

これを音素毎（ｉ＝１，２，……，ｎ）（ｎは
音素数）に求め、メインメモリ２７に転送する。
メインプロセツサ２８ではこの類似度と帯域フイ
ルタ２６の出力をもとにセグメンテーシヨンを行
つた結果とを組合わせることにより音素認識を行
い音素系列を作成する。

最後に音素系列を単語辞書メモリ２９と照合
し、最も類似度の高い単語を認識結果として出力
部３０に転送する。

上記実施例は音声認識を行う前に、内容の予め
わかつている音声を入力し、その結果に基づいて
係数メモリ２５内の標準パターンの修正を行う場
合について述べたが、音声認識の途中に音声の認
識結果に基づいて係数メモリ２５内の標準パター
ンの修正を行つても良いことはもちろんである。

この場合には内容のわかつている音声を予め学
習しなくても良く、環境の変化、入力者の音声の
変化等に対して自動的に追随することができる。

このように、本実施例は音声認識を基本とする
音声認識装置において、各音素の標準パタンをあ
らかじめ簡単な学習によつて使用者に合うように
作成する学習機能を持つことを特徴とし、高い音
声認識性能を持たせることができる。また、学習
のための計算は極めて簡単であり、特別な高い演
算精度を持つ計算回路を要することなく、すぐに
新しい標準パタンを作成することができる。

第３図は成人男子10人を対象として、学習のな
い場合と行つた場合の音素認識率の比較を行つた
ものである。学習は評価用の全単語で行つた場合
34と、20語程度の少数語で行つた場合35を示し
た。いずれも、学習のない場合33に比して音声認
識率は向上し、特に従来極端に認識率の低かつた
話者（NS，KS，SMなど）に対して大きな効果
のあることを示している。

第４図は音素毎の認識率の標準偏差を示したも
ので、学習のない場合41に比して学習を全単語で
行つた場合42、少数語で行つた場合43ともにバラ
ツキが減少し、後段の単語マツチングの性能を向
上させる効果を与えることを示している。

本実施例は以下に示すような効果を有する。

音声認識装置に学習機能を持たせることによ
り、使用者に適合した標準パタンを自動作成
し、環境の変化や話者の個人差によるバラツキ
の少ない良好な音声認識精度を持たせることが
できる。

学習は使用前あるいは使用途中に、少数の音
声を発声することによつて自動的に行うことが
でき、標準パタンの作成も特別な装置を要する
ことなく極めて簡単，高速に行うことができ
る。

発明の効果以上要するに本発明は音声信号からスペクトル
またはそれに類似する情報（以下スペクトル情報
と記す）を算出する音響分析部と、多数話者から
なる標準音声信号から得られた、スペクトル情報
の分散・共分散行列および平均値を少なくとも含
む標準パターンを予め格納する係数記憶部と、前
記スペクトル情報と標準パターンとを用いて音素
毎の類似度を求める類似度計算部と、類似度また
は音素系列で表記された単語辞書を格納する単語
辞書記憶部と、前記類似度計算部を経て作成され
た類似度または音素系列を単語辞書と照合し最も
類似度の高い単語を認識結果として出力する出力
部と、前記出力部の結果と前記音響分析部のスペ
クトル情報とから新しい平均値を作成しその結果
に基づき前記係数記憶部の内容を書き替える学習
部とを具備することを特徴とする音声認識装置を
提供するもので、話者による音声認識精度のバラ
ツキを大幅に改善し、不特定話者に対して安定し
て使うことができる利点を有する。

【図面の簡単な説明】

第１図は音素認識を基本とする従来の音声認識
装置のブロツク図、第２図は本発明の一実施例に
おける音声認識装置のブロツク図、第３図は本発
明の音声認識装置の効果を話者毎に示した図、第
４図は本発明の音声認識装置の効果を音素毎の標
準偏差として表わした図である。２１……AD変換器、２２……信号処理回路、
２３……線形予測分析プロセツサ、２４……類似
度計算部、２５……係数メモリ、２７……メイン
メモリ、２８……メインプロセツサ、２９……単
語辞書メモリ、３０……出力部、３２……学習
部。

Claims

【特許請求の範囲】

１音声信号からスペクトルまたはそれに類似す
る情報（以下スペクトル情報と記す）を算出する
音響分析部と、多数話者からなる標準音声信号か
ら得られた、スペクトル情報の分散・共分散行列
および平均値を少なくとも含む標準パターンを予
め格納する係数記憶部と、前記スペクトル情報と
標準パターンとを用いて音素毎の類似度を求める
類似度計算部と、類似度または音素系列で表記さ
れた単語辞書を格納する単語辞書記憶部と、前記
類似度計算部を経て作成された類似度または音素
系列を単語辞書と照合し最も類似度の高い単語を
認識結果として出力する出力部と、前記出力部の
結果と前記音響分析部のスペクトル情報とから新
しい平均値を作成しその結果に基づき前記係数記
憶部の内容を書き替える学習部とを具備すること
を特徴とする音声認識装置。