JPH042197B2 - - Google Patents
Info
- Publication number
- JPH042197B2 JPH042197B2 JP58163537A JP16353783A JPH042197B2 JP H042197 B2 JPH042197 B2 JP H042197B2 JP 58163537 A JP58163537 A JP 58163537A JP 16353783 A JP16353783 A JP 16353783A JP H042197 B2 JPH042197 B2 JP H042197B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- similarity
- section
- calculates
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】
産業上の利用分野
本発明は人間の声によつて発声された音声信号
を自動的に認識するための、音声認識装置に関す
るものである。
を自動的に認識するための、音声認識装置に関す
るものである。
従来例の構成とその問題点
音声を自動的に認識する音声認識装置は人間か
ら電子計算機や各種機械へデータや命令を与える
手段として非常に有効と考えられる。
ら電子計算機や各種機械へデータや命令を与える
手段として非常に有効と考えられる。
従来研究あるいは発表されている音声認識装置
の動作原理としてはパタンマツチング法が多く採
用されている。この方法は認識される必要がある
全種類の単語に対して標準パターンをあらかじめ
記憶しておき、入力される未知の入力パタンと比
較することによつて一致の度合(以下類似度と呼
ぶ)を計算し、最大一致が得られる標準パタンと
同一の単語であると判定するものである。このパ
タンマツチング法では認識されるべき全ての単語
に対して標準パタンを用意しなければならないた
め、発声音が変つた場合には新しく標準パタンを
入力して記憶させる必要がある。したがつて数百
種類以上の単語を認識対象とするような場合、全
種類の単語を発声して登録するには時間と労力を
必要とし、また登録に要するメモリー容量も膨大
になることが予想される。さらに入力パタンと標
準パタンのパタンマツチングに要する時間も単語
数が多くなると長くなつてしまう欠点がある。
の動作原理としてはパタンマツチング法が多く採
用されている。この方法は認識される必要がある
全種類の単語に対して標準パターンをあらかじめ
記憶しておき、入力される未知の入力パタンと比
較することによつて一致の度合(以下類似度と呼
ぶ)を計算し、最大一致が得られる標準パタンと
同一の単語であると判定するものである。このパ
タンマツチング法では認識されるべき全ての単語
に対して標準パタンを用意しなければならないた
め、発声音が変つた場合には新しく標準パタンを
入力して記憶させる必要がある。したがつて数百
種類以上の単語を認識対象とするような場合、全
種類の単語を発声して登録するには時間と労力を
必要とし、また登録に要するメモリー容量も膨大
になることが予想される。さらに入力パタンと標
準パタンのパタンマツチングに要する時間も単語
数が多くなると長くなつてしまう欠点がある。
これに対して、入力音声を音素単位に分けて音
素の組合せとして認識し(以下音素認識と呼ぶ)
音素単位で表記された単語辞書との類似度を求め
る方法は単語辞書に要するメモリー容量が大幅に
少なくて済み、パタンマツチングに要する時間が
短く、辞書の内容変更も容易であるという特長を
持つている。例えば「赤い」という発声は/
a/,/K/,/i/という三つの音素を組合せ
てAKAIという極めて簡単な形式で表現すること
ができるため、不特定話者で多数語の音声に対処
することが容易である。
素の組合せとして認識し(以下音素認識と呼ぶ)
音素単位で表記された単語辞書との類似度を求め
る方法は単語辞書に要するメモリー容量が大幅に
少なくて済み、パタンマツチングに要する時間が
短く、辞書の内容変更も容易であるという特長を
持つている。例えば「赤い」という発声は/
a/,/K/,/i/という三つの音素を組合せ
てAKAIという極めて簡単な形式で表現すること
ができるため、不特定話者で多数語の音声に対処
することが容易である。
第1図に音素認識を行うことを特徴とする音声
認識方式のブロツク図を示す。マイク等で入力さ
れた音声は音響分析部1によつて分析を行なう。
分析方法としては帯域フイルタ群や線形予測分析
を用い、フレーム周期(10mS程度)毎にスペク
トル情報を得る。音素判別部2では、音響分析部
1で得たスペクトル情報を用い、標準パターン格
納部3のデータによつてフレーム毎の音素判別を
行なう。標準パターン格納部3に格納された標準
パターンは、あらかじめ多数話者の音声より音素
毎に求めておく。セグメンテーシヨン部4では音
響分析部1の分析出力をもとに音声区間の検出と
音素毎の境界決定(以下セグメンテーシヨンと呼
ぶ)を行う。音素認識部5ではセグメンテーシヨ
ン部4と音素判別部2の結果をもとに1つの音素
区間毎に何という音素であるかを決定する作業を
行なう。この結果として音素の系列が完成する。
単語認識部6では、この音素系列を同様に音素系
列で表記された単語辞書7と照合し、最も類似度
の高い単語を認識結果として出力する。
認識方式のブロツク図を示す。マイク等で入力さ
れた音声は音響分析部1によつて分析を行なう。
分析方法としては帯域フイルタ群や線形予測分析
を用い、フレーム周期(10mS程度)毎にスペク
トル情報を得る。音素判別部2では、音響分析部
1で得たスペクトル情報を用い、標準パターン格
納部3のデータによつてフレーム毎の音素判別を
行なう。標準パターン格納部3に格納された標準
パターンは、あらかじめ多数話者の音声より音素
毎に求めておく。セグメンテーシヨン部4では音
響分析部1の分析出力をもとに音声区間の検出と
音素毎の境界決定(以下セグメンテーシヨンと呼
ぶ)を行う。音素認識部5ではセグメンテーシヨ
ン部4と音素判別部2の結果をもとに1つの音素
区間毎に何という音素であるかを決定する作業を
行なう。この結果として音素の系列が完成する。
単語認識部6では、この音素系列を同様に音素系
列で表記された単語辞書7と照合し、最も類似度
の高い単語を認識結果として出力する。
前記方法で不特定話者を対象とする場合に最も
重要な点は、高い音声認識精度を、どういう話者
環境に対しても安定して得ることである。また、
そのために話者に負担をかけすぎたり音声認識装
置にした場合に高価な部分を要するようであつて
はならない。
重要な点は、高い音声認識精度を、どういう話者
環境に対しても安定して得ることである。また、
そのために話者に負担をかけすぎたり音声認識装
置にした場合に高価な部分を要するようであつて
はならない。
しかし従来発表または試作されている音声認識
装置は前記条件が不十分であるという欠点があつ
た。
装置は前記条件が不十分であるという欠点があつ
た。
従来例として、予測残差を対象とする方式(鹿
野,好用「会話音声中の母音認識を目的とした
LPC距離尺度の評価」電子通信学会誌80/5,
VOLJ−63D,No.5参照)では、あらかじめ多数
話者の音声より線形予測分析によつて音素iの最
大パラメータAij(j=1,2,……,P)(Pは
分析次数)を求めておき、予測残差を次式で求め
る。
野,好用「会話音声中の母音認識を目的とした
LPC距離尺度の評価」電子通信学会誌80/5,
VOLJ−63D,No.5参照)では、あらかじめ多数
話者の音声より線形予測分析によつて音素iの最
大パラメータAij(j=1,2,……,P)(Pは
分析次数)を求めておき、予測残差を次式で求め
る。
Ni=p
〓j=1
AijSj …(1)
ここでSjは未知な入力音声から求めた自己相関
係数である。この予測残差Niを、対象とする音
素毎に求めこれを距離尺度として、Niが最小と
なる音素を判別結果とする。
係数である。この予測残差Niを、対象とする音
素毎に求めこれを距離尺度として、Niが最小と
なる音素を判別結果とする。
しかしこの方法は音素の標準パタンに相当する
最大パラメータAijが単なる平均値であるため、
たとえ使用者にあわせてAijを作り直すという学
習機能を設けたとしても、調音結合による発声の
変動に対処することができず、認識率が低いとい
う欠点があつた。
最大パラメータAijが単なる平均値であるため、
たとえ使用者にあわせてAijを作り直すという学
習機能を設けたとしても、調音結合による発声の
変動に対処することができず、認識率が低いとい
う欠点があつた。
発明の目的
本発明は前記欠点を解消し、不特定話者に対処
できるとともに話者,環境,言葉のちがいに影響
されることなく安定に高い音声認識精度を得るこ
とのできる音声認識装置を提供することを目的と
する。
できるとともに話者,環境,言葉のちがいに影響
されることなく安定に高い音声認識精度を得るこ
とのできる音声認識装置を提供することを目的と
する。
発明の構成
本発明は上記目的を達成するためになされたも
ので、音声信号からスペクトルまたはそれに類似
する情報(以下スペクトル情報と記す)を算出す
る音響分析部と、多数話者からなる標準音声信号
から得られた、スペクトル情報の分散・共分散行
列および平均値を少なくとも含む標準パターンと
を用いて音素毎の類似度を求める類似度計算部
と、類似度または音素系列で表記された単語辞書
を格納する単語辞書記憶部と、前記類似度計算部
を経て作成された類似度または音素系列を単語辞
書と照合し最も類似度の高い単語を認識結果とし
て出力する出力部と、前記出力部の結果と前記音
響分析部のスペクトル情報とから新しい平均値を
作成しその結果に基づき前記係数記憶部の内容を
書き替える学習部とを具備するものである。
ので、音声信号からスペクトルまたはそれに類似
する情報(以下スペクトル情報と記す)を算出す
る音響分析部と、多数話者からなる標準音声信号
から得られた、スペクトル情報の分散・共分散行
列および平均値を少なくとも含む標準パターンと
を用いて音素毎の類似度を求める類似度計算部
と、類似度または音素系列で表記された単語辞書
を格納する単語辞書記憶部と、前記類似度計算部
を経て作成された類似度または音素系列を単語辞
書と照合し最も類似度の高い単語を認識結果とし
て出力する出力部と、前記出力部の結果と前記音
響分析部のスペクトル情報とから新しい平均値を
作成しその結果に基づき前記係数記憶部の内容を
書き替える学習部とを具備するものである。
実施例の説明
第2図に本発明の音声認識装置の構成の一実施
例を示す。マイク31から入つた音声信号はAD
変換器21で、12kHzサンプリングで12ビツトに
変換する。これを信号処理回路でプリエンフアシ
スおよび20mSのハミング窓をかけ、10mS毎に線
形予測分析プロセツサ23にてLPCケプストラ
ム係数を算出する。このLPCケプストラム係数
を類似度計算部24に通し、各音素に対する類似
度をフレーム毎に算出し、メインメモリ27に転
送する。係数メモリ25は各音素毎のフイルタ係
数を格納している。
例を示す。マイク31から入つた音声信号はAD
変換器21で、12kHzサンプリングで12ビツトに
変換する。これを信号処理回路でプリエンフアシ
スおよび20mSのハミング窓をかけ、10mS毎に線
形予測分析プロセツサ23にてLPCケプストラ
ム係数を算出する。このLPCケプストラム係数
を類似度計算部24に通し、各音素に対する類似
度をフレーム毎に算出し、メインメモリ27に転
送する。係数メモリ25は各音素毎のフイルタ係
数を格納している。
一方、帯域フイルタ26では3チヤネル程度の
帯域パワーおよび全パワーを算出し、音素のセグ
メンテーシヨン用のデータとしてメインメモリ2
7に転送する。メインプロセツサ28では類似度
計算部24および帯域フイルタ26の結果を用い
て音声区間の検出と音素毎のセグメンテーシヨン
を行つた後、類似度計算部24の音素毎の類似度
から類似度の最も高い音素を区間毎に決定し、音
素系列を作成する。この音素系列を同様に音素系
列で表記された単語辞書メモリ29と照合するこ
とによつて最も類似度の大きい単語名を認識結果
として出力部30に出力する。
帯域パワーおよび全パワーを算出し、音素のセグ
メンテーシヨン用のデータとしてメインメモリ2
7に転送する。メインプロセツサ28では類似度
計算部24および帯域フイルタ26の結果を用い
て音声区間の検出と音素毎のセグメンテーシヨン
を行つた後、類似度計算部24の音素毎の類似度
から類似度の最も高い音素を区間毎に決定し、音
素系列を作成する。この音素系列を同様に音素系
列で表記された単語辞書メモリ29と照合するこ
とによつて最も類似度の大きい単語名を認識結果
として出力部30に出力する。
しかし、これだけでは不特定話者に対して使用
は可能であるが、標準パターンに相当する係数メ
モリ25が固定されるため、話者による認識性能
のバラツキが大きく、認識率がかなり低くなつて
しまう場合が生ずる。そこで、新しく学習機能を
もたせるために学習部32を設ける。この学習部
32は線形予測分析プロセツサ23で得たLPC
ケプストラム係数を受け、出力部30から得た結
果を参照に学習データを作成し、あらかじめ求め
ておいた分散,共分散行列をもとにその話者に最
もふさわしい音素毎の判別係数を計算し直し、係
数メモリ25に転送するための動作を行う。
は可能であるが、標準パターンに相当する係数メ
モリ25が固定されるため、話者による認識性能
のバラツキが大きく、認識率がかなり低くなつて
しまう場合が生ずる。そこで、新しく学習機能を
もたせるために学習部32を設ける。この学習部
32は線形予測分析プロセツサ23で得たLPC
ケプストラム係数を受け、出力部30から得た結
果を参照に学習データを作成し、あらかじめ求め
ておいた分散,共分散行列をもとにその話者に最
もふさわしい音素毎の判別係数を計算し直し、係
数メモリ25に転送するための動作を行う。
次に本発明に係る音素認識装置の動作について
第2図を参照にしながら詳しく説明する。
第2図を参照にしながら詳しく説明する。
あらかじめマスク31から入力された多数話者
の発声した多数の単語音声からAD変換器21を
介して母音/a/,/o/,/u/,/i/,/
e/と鼻音の切出しを行つておく。この音声デー
タを用いて信号処理回路22および線形予測分析
プロセツサ23により10mSの分析区間毎に線形
予測分析を行い、p次元のLPCケプストラム係
数を算出する。このLPCケプストラム係数を用
いて全音素を対象とした共分散行列Wと、各音素
毎の平均値mi(iは音素の種類を表わす)を求め
る。この結果より、音素iに対する判別係数aij
(j=1,2,……,p)は共分散行列Wの逆行
列W-1の(j,j′)要素をδjj′とすると、 aij=2p 〓j=1 δjj′mij′ …(2) で表わすことができる。
の発声した多数の単語音声からAD変換器21を
介して母音/a/,/o/,/u/,/i/,/
e/と鼻音の切出しを行つておく。この音声デー
タを用いて信号処理回路22および線形予測分析
プロセツサ23により10mSの分析区間毎に線形
予測分析を行い、p次元のLPCケプストラム係
数を算出する。このLPCケプストラム係数を用
いて全音素を対象とした共分散行列Wと、各音素
毎の平均値mi(iは音素の種類を表わす)を求め
る。この結果より、音素iに対する判別係数aij
(j=1,2,……,p)は共分散行列Wの逆行
列W-1の(j,j′)要素をδjj′とすると、 aij=2p 〓j=1 δjj′mij′ …(2) で表わすことができる。
各音素毎にaij,mij′,δij′,mi tW-1mi(後逆)を
求め標準パターンとして係数メモリ25に格納し
ておく。
求め標準パターンとして係数メモリ25に格納し
ておく。
次に使用者に内容のあらかじめわかつている音
声(たとえば/a/,/i/,/u/,/
e/,/o/)を発声させ、音声区間中の分析区
間毎のLPCケプストラム係数を線形予測分析プ
ロセツサ23で求め、学習部32に転送する。一
方予め格納されている係数メモリ25の標準パタ
ーンを用いて、判別フイルタ24で類似度を求め
る。類似度計算部24では入力信号のLPCケプ
ストラム係数xに対するマハラノビス距離Di 2は Di 2=xtW-1x−p 〓j=1 aijxj+mi tW-1mi …(3) (tは転置行列を示す) で表わすことができるが、第1項は音素の種類に
依存しないため、類似度Liを簡易的に Li=p 〓j=1 aijxj−mi tW-1mi …(4) で表わし、(4)式を用いて類似度を計算する。その
結果をメインメモリ27に転送し、メインプロセ
ツサ28を通して音素系列を作成する。次に、学
習すべき音素の時間軸上の位置を示す値を出力部
30より学習部32にもどし、学習すべき音素の
LPCケプストラム係数の平均値を求める。以上
を音声の種類を変えながら必要な回数くり返す。
各音素毎の平均値に適度な重み付けをしたものを
学習しない場合のもとの平均値(mij′)に加え、
新しい音素毎の平均値を作成し係数メモリ25の
平均値mij′を置き換える。さらにこの平均値を使
用して判別係数aijおよび(4)式の定数項(第2項)
を音素ごとに修正し、これらを新しい標準パター
ンとして係数メモリ25に転送し、標準パターン
の書替えを行う。
声(たとえば/a/,/i/,/u/,/
e/,/o/)を発声させ、音声区間中の分析区
間毎のLPCケプストラム係数を線形予測分析プ
ロセツサ23で求め、学習部32に転送する。一
方予め格納されている係数メモリ25の標準パタ
ーンを用いて、判別フイルタ24で類似度を求め
る。類似度計算部24では入力信号のLPCケプ
ストラム係数xに対するマハラノビス距離Di 2は Di 2=xtW-1x−p 〓j=1 aijxj+mi tW-1mi …(3) (tは転置行列を示す) で表わすことができるが、第1項は音素の種類に
依存しないため、類似度Liを簡易的に Li=p 〓j=1 aijxj−mi tW-1mi …(4) で表わし、(4)式を用いて類似度を計算する。その
結果をメインメモリ27に転送し、メインプロセ
ツサ28を通して音素系列を作成する。次に、学
習すべき音素の時間軸上の位置を示す値を出力部
30より学習部32にもどし、学習すべき音素の
LPCケプストラム係数の平均値を求める。以上
を音声の種類を変えながら必要な回数くり返す。
各音素毎の平均値に適度な重み付けをしたものを
学習しない場合のもとの平均値(mij′)に加え、
新しい音素毎の平均値を作成し係数メモリ25の
平均値mij′を置き換える。さらにこの平均値を使
用して判別係数aijおよび(4)式の定数項(第2項)
を音素ごとに修正し、これらを新しい標準パター
ンとして係数メモリ25に転送し、標準パターン
の書替えを行う。
次に実際に音声認識を行う場合について説明す
る。マイク10から入力された未知な音声信号に
ついて、信号処理回路22および線形予測分析プ
ロセツサ23を使用してLPCケプストラム係数
x(x1,x2,……,xp)を求め、類似度計算部2
4に転送し、予め求めて係数メモリ25に収納し
てある標準パターンを用いて(4)式より音素iの類
似度Liを求める。
る。マイク10から入力された未知な音声信号に
ついて、信号処理回路22および線形予測分析プ
ロセツサ23を使用してLPCケプストラム係数
x(x1,x2,……,xp)を求め、類似度計算部2
4に転送し、予め求めて係数メモリ25に収納し
てある標準パターンを用いて(4)式より音素iの類
似度Liを求める。
これを音素毎(i=1,2,……,n)(nは
音素数)に求め、メインメモリ27に転送する。
メインプロセツサ28ではこの類似度と帯域フイ
ルタ26の出力をもとにセグメンテーシヨンを行
つた結果とを組合わせることにより音素認識を行
い音素系列を作成する。
音素数)に求め、メインメモリ27に転送する。
メインプロセツサ28ではこの類似度と帯域フイ
ルタ26の出力をもとにセグメンテーシヨンを行
つた結果とを組合わせることにより音素認識を行
い音素系列を作成する。
最後に音素系列を単語辞書メモリ29と照合
し、最も類似度の高い単語を認識結果として出力
部30に転送する。
し、最も類似度の高い単語を認識結果として出力
部30に転送する。
上記実施例は音声認識を行う前に、内容の予め
わかつている音声を入力し、その結果に基づいて
係数メモリ25内の標準パターンの修正を行う場
合について述べたが、音声認識の途中に音声の認
識結果に基づいて係数メモリ25内の標準パター
ンの修正を行つても良いことはもちろんである。
わかつている音声を入力し、その結果に基づいて
係数メモリ25内の標準パターンの修正を行う場
合について述べたが、音声認識の途中に音声の認
識結果に基づいて係数メモリ25内の標準パター
ンの修正を行つても良いことはもちろんである。
この場合には内容のわかつている音声を予め学
習しなくても良く、環境の変化、入力者の音声の
変化等に対して自動的に追随することができる。
習しなくても良く、環境の変化、入力者の音声の
変化等に対して自動的に追随することができる。
このように、本実施例は音声認識を基本とする
音声認識装置において、各音素の標準パタンをあ
らかじめ簡単な学習によつて使用者に合うように
作成する学習機能を持つことを特徴とし、高い音
声認識性能を持たせることができる。また、学習
のための計算は極めて簡単であり、特別な高い演
算精度を持つ計算回路を要することなく、すぐに
新しい標準パタンを作成することができる。
音声認識装置において、各音素の標準パタンをあ
らかじめ簡単な学習によつて使用者に合うように
作成する学習機能を持つことを特徴とし、高い音
声認識性能を持たせることができる。また、学習
のための計算は極めて簡単であり、特別な高い演
算精度を持つ計算回路を要することなく、すぐに
新しい標準パタンを作成することができる。
第3図は成人男子10人を対象として、学習のな
い場合と行つた場合の音素認識率の比較を行つた
ものである。学習は評価用の全単語で行つた場合
34と、20語程度の少数語で行つた場合35を示し
た。いずれも、学習のない場合33に比して音声認
識率は向上し、特に従来極端に認識率の低かつた
話者(NS,KS,SMなど)に対して大きな効果
のあることを示している。
い場合と行つた場合の音素認識率の比較を行つた
ものである。学習は評価用の全単語で行つた場合
34と、20語程度の少数語で行つた場合35を示し
た。いずれも、学習のない場合33に比して音声認
識率は向上し、特に従来極端に認識率の低かつた
話者(NS,KS,SMなど)に対して大きな効果
のあることを示している。
第4図は音素毎の認識率の標準偏差を示したも
ので、学習のない場合41に比して学習を全単語で
行つた場合42、少数語で行つた場合43ともにバラ
ツキが減少し、後段の単語マツチングの性能を向
上させる効果を与えることを示している。
ので、学習のない場合41に比して学習を全単語で
行つた場合42、少数語で行つた場合43ともにバラ
ツキが減少し、後段の単語マツチングの性能を向
上させる効果を与えることを示している。
本実施例は以下に示すような効果を有する。
音声認識装置に学習機能を持たせることによ
り、使用者に適合した標準パタンを自動作成
し、環境の変化や話者の個人差によるバラツキ
の少ない良好な音声認識精度を持たせることが
できる。
り、使用者に適合した標準パタンを自動作成
し、環境の変化や話者の個人差によるバラツキ
の少ない良好な音声認識精度を持たせることが
できる。
学習は使用前あるいは使用途中に、少数の音
声を発声することによつて自動的に行うことが
でき、標準パタンの作成も特別な装置を要する
ことなく極めて簡単,高速に行うことができ
る。
声を発声することによつて自動的に行うことが
でき、標準パタンの作成も特別な装置を要する
ことなく極めて簡単,高速に行うことができ
る。
発明の効果
以上要するに本発明は音声信号からスペクトル
またはそれに類似する情報(以下スペクトル情報
と記す)を算出する音響分析部と、多数話者から
なる標準音声信号から得られた、スペクトル情報
の分散・共分散行列および平均値を少なくとも含
む標準パターンを予め格納する係数記憶部と、前
記スペクトル情報と標準パターンとを用いて音素
毎の類似度を求める類似度計算部と、類似度また
は音素系列で表記された単語辞書を格納する単語
辞書記憶部と、前記類似度計算部を経て作成され
た類似度または音素系列を単語辞書と照合し最も
類似度の高い単語を認識結果として出力する出力
部と、前記出力部の結果と前記音響分析部のスペ
クトル情報とから新しい平均値を作成しその結果
に基づき前記係数記憶部の内容を書き替える学習
部とを具備することを特徴とする音声認識装置を
提供するもので、話者による音声認識精度のバラ
ツキを大幅に改善し、不特定話者に対して安定し
て使うことができる利点を有する。
またはそれに類似する情報(以下スペクトル情報
と記す)を算出する音響分析部と、多数話者から
なる標準音声信号から得られた、スペクトル情報
の分散・共分散行列および平均値を少なくとも含
む標準パターンを予め格納する係数記憶部と、前
記スペクトル情報と標準パターンとを用いて音素
毎の類似度を求める類似度計算部と、類似度また
は音素系列で表記された単語辞書を格納する単語
辞書記憶部と、前記類似度計算部を経て作成され
た類似度または音素系列を単語辞書と照合し最も
類似度の高い単語を認識結果として出力する出力
部と、前記出力部の結果と前記音響分析部のスペ
クトル情報とから新しい平均値を作成しその結果
に基づき前記係数記憶部の内容を書き替える学習
部とを具備することを特徴とする音声認識装置を
提供するもので、話者による音声認識精度のバラ
ツキを大幅に改善し、不特定話者に対して安定し
て使うことができる利点を有する。
第1図は音素認識を基本とする従来の音声認識
装置のブロツク図、第2図は本発明の一実施例に
おける音声認識装置のブロツク図、第3図は本発
明の音声認識装置の効果を話者毎に示した図、第
4図は本発明の音声認識装置の効果を音素毎の標
準偏差として表わした図である。 21……AD変換器、22……信号処理回路、
23……線形予測分析プロセツサ、24……類似
度計算部、25……係数メモリ、27……メイン
メモリ、28……メインプロセツサ、29……単
語辞書メモリ、30……出力部、32……学習
部。
装置のブロツク図、第2図は本発明の一実施例に
おける音声認識装置のブロツク図、第3図は本発
明の音声認識装置の効果を話者毎に示した図、第
4図は本発明の音声認識装置の効果を音素毎の標
準偏差として表わした図である。 21……AD変換器、22……信号処理回路、
23……線形予測分析プロセツサ、24……類似
度計算部、25……係数メモリ、27……メイン
メモリ、28……メインプロセツサ、29……単
語辞書メモリ、30……出力部、32……学習
部。
Claims (1)
- 1 音声信号からスペクトルまたはそれに類似す
る情報(以下スペクトル情報と記す)を算出する
音響分析部と、多数話者からなる標準音声信号か
ら得られた、スペクトル情報の分散・共分散行列
および平均値を少なくとも含む標準パターンを予
め格納する係数記憶部と、前記スペクトル情報と
標準パターンとを用いて音素毎の類似度を求める
類似度計算部と、類似度または音素系列で表記さ
れた単語辞書を格納する単語辞書記憶部と、前記
類似度計算部を経て作成された類似度または音素
系列を単語辞書と照合し最も類似度の高い単語を
認識結果として出力する出力部と、前記出力部の
結果と前記音響分析部のスペクトル情報とから新
しい平均値を作成しその結果に基づき前記係数記
憶部の内容を書き替える学習部とを具備すること
を特徴とする音声認識装置。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58163537A JPS6053998A (ja) | 1983-09-05 | 1983-09-05 | 音声認識装置 |
| US07/441,225 US5131043A (en) | 1983-09-05 | 1989-11-20 | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58163537A JPS6053998A (ja) | 1983-09-05 | 1983-09-05 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6053998A JPS6053998A (ja) | 1985-03-28 |
| JPH042197B2 true JPH042197B2 (ja) | 1992-01-16 |
Family
ID=15775762
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58163537A Granted JPS6053998A (ja) | 1983-09-05 | 1983-09-05 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6053998A (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6067996A (ja) * | 1983-09-22 | 1985-04-18 | 松下電器産業株式会社 | 音声認識方法 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS53114601A (en) * | 1977-03-17 | 1978-10-06 | Fujitsu Ltd | Voice recognition system |
| JPS5681899A (en) * | 1979-12-07 | 1981-07-04 | Sanyo Electric Co | Voice indentifier |
| JPS58123598A (ja) * | 1982-01-19 | 1983-07-22 | 松下電器産業株式会社 | 音声認識装置 |
-
1983
- 1983-09-05 JP JP58163537A patent/JPS6053998A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6053998A (ja) | 1985-03-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH02195400A (ja) | 音声認識装置 | |
| JPH0422276B2 (ja) | ||
| JPS6247320B2 (ja) | ||
| US12488805B2 (en) | Using optimal articulatory event-types for computer analysis of speech | |
| US12518774B2 (en) | Identifying optimal articulatory event-types for computer analysis of speech | |
| IL322559A (en) | Identification of expressive event types for computer speech analysis | |
| JPH042197B2 (ja) | ||
| Raghudathesh et al. | Review of toolkit to build automatic speech recognition models | |
| JP4236502B2 (ja) | 音声認識装置 | |
| JPH07210197A (ja) | 話者識別方法 | |
| JPH0344320B2 (ja) | ||
| JP3299170B2 (ja) | 音声登録認識装置 | |
| JPH0772899A (ja) | 音声認識装置 | |
| JP3231365B2 (ja) | 音声認識装置 | |
| JPH0455518B2 (ja) | ||
| Nair et al. | A Study on Automatic Speech Recognition | |
| JPH054678B2 (ja) | ||
| JPS6336678B2 (ja) | ||
| JPH0333280B2 (ja) | ||
| JPS59133600A (ja) | 音声認識装置 | |
| Mandal et al. | Accoustic Modeling for Development of Accented Indian English ASR | |
| Mistry et al. | Speech Recognition using MFCC and Neural Networks | |
| JPH0469800B2 (ja) | ||
| JPS6140686A (ja) | 標準パタ−ン登録方式 | |
| JPH053596B2 (ja) |