JPH0225899A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH0225899A JPH0225899A JP63176704A JP17670488A JPH0225899A JP H0225899 A JPH0225899 A JP H0225899A JP 63176704 A JP63176704 A JP 63176704A JP 17670488 A JP17670488 A JP 17670488A JP H0225899 A JPH0225899 A JP H0225899A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- orthogonalized
- orthogonal
- axis
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[発明の目的]
(産業上の利用分野)
本発明は特定のグループ構成員により共通に利用でき、
上記グループ構成員からの少ない学習パターンで高い認
識性能を得ることのできる音声認識装置に関する。
上記グループ構成員からの少ない学習パターンで高い認
識性能を得ることのできる音声認識装置に関する。
(従来の技術)
音声による情報の入出力は人間にとって自然性が高く、
マン◆マシン・インターフェースとして優れた利点を有
することから従来より種々研究されている。現在、実用
化されている音声認識装置の殆んどは単語音声を認識す
る方式のもので、一般的には第4図に示すように構成さ
れている。
マン◆マシン・インターフェースとして優れた利点を有
することから従来より種々研究されている。現在、実用
化されている音声認識装置の殆んどは単語音声を認識す
る方式のもので、一般的には第4図に示すように構成さ
れている。
この装置は発声入力された音声を電気信号に変換して取
込み、バンド・バス・フィルタ等からなる音響分析部1
にて音響分析し、始端・終端検出部2にてその単語音声
区間を検出する。そして入力音声の上記単語音声区間の
音響分析データ(特徴情報;音声パターン)と、標準パ
ターン辞書3に予め登録されている認識対象単語の各標
準パターンとの類似度や距離等をパターン・マツチング
部4にて計算し、その計算結果を判定部5にて判定して
、例えば類似度値の最も高い標準パターンのカテゴリ名
を前記入力音声に対する認識結果として求めるものとな
っている。
込み、バンド・バス・フィルタ等からなる音響分析部1
にて音響分析し、始端・終端検出部2にてその単語音声
区間を検出する。そして入力音声の上記単語音声区間の
音響分析データ(特徴情報;音声パターン)と、標準パ
ターン辞書3に予め登録されている認識対象単語の各標
準パターンとの類似度や距離等をパターン・マツチング
部4にて計算し、その計算結果を判定部5にて判定して
、例えば類似度値の最も高い標準パターンのカテゴリ名
を前記入力音声に対する認識結果として求めるものとな
っている。
しかしこのようにパターン・マツチング法による音声認
識では入力音声パターンと予め登録されている標準パタ
ーンとの時間軸方向のずれ(パターン変形)が問題とな
る。そこで従来では、専ら線形伸縮や動的計画法(DP
)に代表される非線形伸縮等により、上述した時間軸方
向のずれに対する課題を解消している。
識では入力音声パターンと予め登録されている標準パタ
ーンとの時間軸方向のずれ(パターン変形)が問題とな
る。そこで従来では、専ら線形伸縮や動的計画法(DP
)に代表される非線形伸縮等により、上述した時間軸方
向のずれに対する課題を解消している。
一方、このようなパターン・マツチング法とは別に、予
め収集された学習パターンから直交化辞書を作成し、こ
の直交化辞書を用いて音声認識する方式(部分空間法)
が提唱されている。この方式は第5図にその構成例を示
すように、音響分析されて音声区間検出された音声パタ
ーンから、標本点抽出部6にて上記音声区間を等分割し
た所定点数の標本点を抽出して[特徴ベクトルの数X標
本点数]で示される標本パターンを求める。このような
標本パターンを認識対象とするカテゴリ毎に所定数ずつ
収集してパターン蓄積部7に格納する。そしてグラム・
シュミツI−(GS)直交化部8において、上記パター
ン蓄積部7に収集された所定数(3個以上)の標本パタ
ーンを用い、以下に示す手順で直交化辞書9を作成する
。
め収集された学習パターンから直交化辞書を作成し、こ
の直交化辞書を用いて音声認識する方式(部分空間法)
が提唱されている。この方式は第5図にその構成例を示
すように、音響分析されて音声区間検出された音声パタ
ーンから、標本点抽出部6にて上記音声区間を等分割し
た所定点数の標本点を抽出して[特徴ベクトルの数X標
本点数]で示される標本パターンを求める。このような
標本パターンを認識対象とするカテゴリ毎に所定数ずつ
収集してパターン蓄積部7に格納する。そしてグラム・
シュミツI−(GS)直交化部8において、上記パター
ン蓄積部7に収集された所定数(3個以上)の標本パタ
ーンを用い、以下に示す手順で直交化辞書9を作成する
。
即ち、上記直交化辞書9の作成は、各カテゴリ毎にその
カテゴリのm回目の学習パターンをal、lとし、3回
発声された学習パターンを用いる場合には、 ■ 1回目の学習データa1を第1軸の辞書b1とし、 b 1−a t ・・・
(1)これを直交化辞書9に登録する。
カテゴリのm回目の学習パターンをal、lとし、3回
発声された学習パターンを用いる場合には、 ■ 1回目の学習データa1を第1軸の辞書b1とし、 b 1−a t ・・・
(1)これを直交化辞書9に登録する。
■ 2回目の学習データa2からグラム・シュミットの
直交化式を用い、 なる計算を行い、1lb211が一定値より大きい場合
、これを第2軸の辞書b2として前記直交化辞書9に登
録する。但し、(・)は内積、1111はノ゛ルムを示
す。
直交化式を用い、 なる計算を行い、1lb211が一定値より大きい場合
、これを第2軸の辞書b2として前記直交化辞書9に登
録する。但し、(・)は内積、1111はノ゛ルムを示
す。
■ そして3回目の学習データa3から、なる計算を行
い、1lb311が一定値より大きい場合、これを第3
軸の辞書b3として前記直交化辞書9に登録する。但し
、第2軸の辞書が求められていない場合には、上記(2
)式の計算を行う。
い、1lb311が一定値より大きい場合、これを第3
軸の辞書b3として前記直交化辞書9に登録する。但し
、第2軸の辞書が求められていない場合には、上記(2
)式の計算を行う。
以上の■〜■の処理を各カテゴリについて繰返し実行し
て直交化辞書9を予め形成しておく。
て直交化辞書9を予め形成しておく。
類似度計算部lOは上述した如く作成された直交化部@
9と、人力音声パターンXとの間でとして、カテゴリi
の直交化辞書b との間の工・r 類似度を計算するものである。これらの各カテゴリiに
ついて求められた類似度値に従って上記入力音声パター
ンXが認識される。尚、上記カテゴリiの直交化辞書b
は予め正規化されたもの1、「 であり、K1はカテゴリiの辞書の個数(軸数)を示し
ている。
9と、人力音声パターンXとの間でとして、カテゴリi
の直交化辞書b との間の工・r 類似度を計算するものである。これらの各カテゴリiに
ついて求められた類似度値に従って上記入力音声パター
ンXが認識される。尚、上記カテゴリiの直交化辞書b
は予め正規化されたもの1、「 であり、K1はカテゴリiの辞書の個数(軸数)を示し
ている。
このようなGS直交化を用いることにより、その認識性
能の大幅な向りが図られている。また微分フィルタを用
いて時間軸方向および周波数方向の変動を吸収した直交
化辞書を作成し、更にその認識性能の向上を図ることも
試みられている。
能の大幅な向りが図られている。また微分フィルタを用
いて時間軸方向および周波数方向の変動を吸収した直交
化辞書を作成し、更にその認識性能の向上を図ることも
試みられている。
ところがこの種の装置にあっては、専ら特定の話者に対
して標準音声辞書の作成が行なわれる。
して標準音声辞書の作成が行なわれる。
この為、別の話者が上記音声認識装置を利用17ようと
する場合には、その都度、音声辞書を変更する必要が生
じた。そこで多数の話者から数多くの学習パターンを収
集して直交化辞書を作成することが考えられているが、
その辞書作成が徒に複雑化し、認識性能の高い辞書を得
ることが困難化する等の不具合が生じた。
する場合には、その都度、音声辞書を変更する必要が生
じた。そこで多数の話者から数多くの学習パターンを収
集して直交化辞書を作成することが考えられているが、
その辞書作成が徒に複雑化し、認識性能の高い辞書を得
ることが困難化する等の不具合が生じた。
(発明が解決しようとする問題点)
このように従来の直交化辞書を用いた部分空間法による
音声認識にあっては、複数の話者から収集された学習パ
ターンから如何にして性能の高い直交化辞書を効率良く
作成するかと云う点で課迦が残されている。また直交化
辞書の作成に必要な複数の話者の学習パターンを如何に
して効率良く収集し、直交化辞書を作成するかと云う点
でも問題があった。
音声認識にあっては、複数の話者から収集された学習パ
ターンから如何にして性能の高い直交化辞書を効率良く
作成するかと云う点で課迦が残されている。また直交化
辞書の作成に必要な複数の話者の学習パターンを如何に
して効率良く収集し、直交化辞書を作成するかと云う点
でも問題があった。
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、複数の話者から収集される少な
い学習パターンにて認識性能の高い直交化辞書を効率的
に作成I2、複数の利用者にて共通に利用可能な認識性
能の高い音声認識装置を提供することにある。
の目的とするところは、複数の話者から収集される少な
い学習パターンにて認識性能の高い直交化辞書を効率的
に作成I2、複数の利用者にて共通に利用可能な認識性
能の高い音声認識装置を提供することにある。
[発明の構成]
(問題点を解決するための手段)
本発明は入力音声を分析処理して求められる入力音声パ
ターンと、予め収集された学習パターンに基いて作成さ
れて1.する直交化辞書との間で類似度を計算して上記
入力音声を認識する音声認識装置において、 上記直交化辞書として複数話者の学習パターンから基本
となる直交軸を決定して基準となる辞書を作成して辞書
登録した後、個別話者の学習パターンからの辞書作成に
ついては、既に登録されている辞書の幀ど直交する新た
な軸を決定しながら、この新たな軸の辞書を追加辞書登
録するか否かを、例えばその軸のノルムの値から判定し
、前記直交化辞書を順次構築していくようにしたことを
特徴とするものである。
ターンと、予め収集された学習パターンに基いて作成さ
れて1.する直交化辞書との間で類似度を計算して上記
入力音声を認識する音声認識装置において、 上記直交化辞書として複数話者の学習パターンから基本
となる直交軸を決定して基準となる辞書を作成して辞書
登録した後、個別話者の学習パターンからの辞書作成に
ついては、既に登録されている辞書の幀ど直交する新た
な軸を決定しながら、この新たな軸の辞書を追加辞書登
録するか否かを、例えばその軸のノルムの値から判定し
、前記直交化辞書を順次構築していくようにしたことを
特徴とするものである。
(作用)
本発明によれば、複数の話者からそれぞれ求められた学
習パターンから直交化辞書の基本となる直交軸が決定さ
れて辞書の作成が行なわれ、その辞書登録がなされた後
、個別話者からの学習パターンに基づく辞書作成に際し
ては、既に作成されて辞書登録されている辞書の軸と直
交する軸が求められ、この新たな軸についての辞書が上
記個別話者の学習パターンから求められる。そしてその
ノルムの値を判定することによ・)で辞書に追加登録す
るか否かが調べられ、辞書として有用な場合にのみ前記
直交化辞書・\の追加辞書登録が行なわれる。
習パターンから直交化辞書の基本となる直交軸が決定さ
れて辞書の作成が行なわれ、その辞書登録がなされた後
、個別話者からの学習パターンに基づく辞書作成に際し
ては、既に作成されて辞書登録されている辞書の軸と直
交する軸が求められ、この新たな軸についての辞書が上
記個別話者の学習パターンから求められる。そしてその
ノルムの値を判定することによ・)で辞書に追加登録す
るか否かが調べられ、辞書として有用な場合にのみ前記
直交化辞書・\の追加辞書登録が行なわれる。
この結果、複数の話者の学習パターンから、そのパター
ン変動要素を効率良く表現した直交化辞書を構築してい
くことが可能となり、認識性能の高い直交化辞書を得る
ことが可能となる。しかも基本となる直交軸の辞書に対
して、個別話者の変動パターンを直交ベクトルの組に効
率良く組入れて辞書表現することが可能となるので、そ
の計算量を少なくし、簡易に効率良く辞書を作成してい
くことが可能となる。
ン変動要素を効率良く表現した直交化辞書を構築してい
くことが可能となり、認識性能の高い直交化辞書を得る
ことが可能となる。しかも基本となる直交軸の辞書に対
して、個別話者の変動パターンを直交ベクトルの組に効
率良く組入れて辞書表現することが可能となるので、そ
の計算量を少なくし、簡易に効率良く辞書を作成してい
くことが可能となる。
(実施例)
以下、図面を3照して本発明の一実施例につき説明する
。
。
第1図は本発明の一実施例に係る音声認識装置の概略構
成図で、第5図に示した従来装置と同一部分には同一符
号を付して示しである。
成図で、第5図に示した従来装置と同一部分には同一符
号を付して示しである。
この実施例装置が特徴とするところは、パターン蓄積部
7に蓄積された学習パターンを用いて直交化辞書9を作
成する手段として、直交ベクトル計算部8a、直交ベク
トル登録判定部8b、および残差ノルムメモリ8cとか
らなる直交化辞書作成部8を設け、第2図にこの直交化
辞書作成部8における処理概念を模式的に示すように、
先ず複数の話者からそれぞれ求められた学習パターンに
従って、基本となる直交軸を決定して最初の辞書を作成
して直交化部w9に辞書登録した後、個別話者から求め
られる学習パターンに従う辞書作成については、上記基
本軸に直交する軸(既に登録されている辞書の各軸にそ
れぞれ直交する軸)の辞書を求め、この辞書を登録する
か否かを逐次判定しながら前言コ直交化辞書9に追加登
録して行くことで、認識性能の高い直交化辞書9を構築
していくようにした点を特徴としている。
7に蓄積された学習パターンを用いて直交化辞書9を作
成する手段として、直交ベクトル計算部8a、直交ベク
トル登録判定部8b、および残差ノルムメモリ8cとか
らなる直交化辞書作成部8を設け、第2図にこの直交化
辞書作成部8における処理概念を模式的に示すように、
先ず複数の話者からそれぞれ求められた学習パターンに
従って、基本となる直交軸を決定して最初の辞書を作成
して直交化部w9に辞書登録した後、個別話者から求め
られる学習パターンに従う辞書作成については、上記基
本軸に直交する軸(既に登録されている辞書の各軸にそ
れぞれ直交する軸)の辞書を求め、この辞書を登録する
か否かを逐次判定しながら前言コ直交化辞書9に追加登
録して行くことで、認識性能の高い直交化辞書9を構築
していくようにした点を特徴としている。
この直交化辞書作成部8における直交化辞書の作成につ
いて、第3図に示す処理手続きに従って更に詳しく説明
する。
いて、第3図に示す処理手続きに従って更に詳しく説明
する。
尚、ここではパターン蓄積部7に収集される学習パター
ンとしては、例えばj (−1,2,〜8)で示され
る6点の音響分析された特徴ベクトルからなり、その音
声区間をk (−0,1,2,〜l l)とし5て11
等分する12個の標本点に亙って採取したデータ系列と
して与えられるものとして説明する。
ンとしては、例えばj (−1,2,〜8)で示され
る6点の音響分析された特徴ベクトルからなり、その音
声区間をk (−0,1,2,〜l l)とし5て11
等分する12個の標本点に亙って採取したデータ系列と
して与えられるものとして説明する。
前記直交化辞書作成部8は、先ず辞書登録対象とするカ
テゴリiについて複数(L人)の話者からそれぞれ3個
づつ学習パターンを収集する(ステップa)。しかる後
、これらの複数話者からそれぞれ収集した学習パターン
中のm番目([T1−1゜2.3.〜M ; M −3
x L)の学習パターンをam(j、k)とし、たとき
、基本となる直交化辞書9を次のようにして作成してい
る。
テゴリiについて複数(L人)の話者からそれぞれ3個
づつ学習パターンを収集する(ステップa)。しかる後
、これらの複数話者からそれぞれ収集した学習パターン
中のm番目([T1−1゜2.3.〜M ; M −3
x L)の学習パターンをam(j、k)とし、たとき
、基本となる直交化辞書9を次のようにして作成してい
る。
■ 先ず、カテゴリiの学習パターンam(j−k)か
ら、その平均パターンA を (j、k) [j−1,2,〜1B、に−0,1,2,〜17]とし
て求める(ステップb)。
ら、その平均パターンA を (j、k) [j−1,2,〜1B、に−0,1,2,〜17]とし
て求める(ステップb)。
■ し5かる後、上述した如くして求めた平均パターン
A(j、k)を用いて、 −A +2*A +Abl(j、k
) (j、に−1) (j、k)
(j、に+1)[j=1,2.〜16. k−L2
.〜16コ ・・・(6)な
る演算にて第1軸の辞書bl(j、k)を求め(ステッ
プc)、これを直交化辞書9に登録する(ステップd)
。この辞書b は前記平均パターン10、k) A(j、k)を時間軸方向に平滑化したものとして求め
られ、直交化辞書9の基準となる第1軸の辞書データと
なる。
A(j、k)を用いて、 −A +2*A +Abl(j、k
) (j、に−1) (j、k)
(j、に+1)[j=1,2.〜16. k−L2
.〜16コ ・・・(6)な
る演算にて第1軸の辞書bl(j、k)を求め(ステッ
プc)、これを直交化辞書9に登録する(ステップd)
。この辞書b は前記平均パターン10、k) A(j、k)を時間軸方向に平滑化したものとして求め
られ、直交化辞書9の基準となる第1軸の辞書データと
なる。
■ I2かる後、前記平均パターンA(j=k)を用い
、謬−A +A b2(j、k) (j、に−1) (j、に
+1)[j=1,2.〜1B、 k−1,2,〜16]
・・・(7)なる演算に゛C第2軸の辞書
b2(j、k)を求め(ステップe)、これを正規化し
た後に前記直交化辞書9に登録する(ステップf)。こ
の第2軸の辞書b2(j、k)は前記平均パターンA(
j、k)を時間軸方向に微分したものとしC求められる
。
、謬−A +A b2(j、k) (j、に−1) (j、に
+1)[j=1,2.〜1B、 k−1,2,〜16]
・・・(7)なる演算に゛C第2軸の辞書
b2(j、k)を求め(ステップe)、これを正規化し
た後に前記直交化辞書9に登録する(ステップf)。こ
の第2軸の辞書b2(j、k)は前記平均パターンA(
j、k)を時間軸方向に微分したものとしC求められる
。
尚、このようにして4算される第2軸の辞書b2(j、
k)は、前記第1軸の辞書b1(j、k)に対して完全
には直交していないことから、 ”2U、k)”b2(j、k) (b2(j、k) 1(、i、k))bl(j、k
)争 b なる再直交化処理を施し、この再直交化された辞書デー
タB2(j、k)を正規化後、新たな第2軸の辞書b
として前記直交化辞書9に登録するよ2(j、k) うにしても良い。
k)は、前記第1軸の辞書b1(j、k)に対して完全
には直交していないことから、 ”2U、k)”b2(j、k) (b2(j、k) 1(、i、k))bl(j、k
)争 b なる再直交化処理を施し、この再直交化された辞書デー
タB2(j、k)を正規化後、新たな第2軸の辞書b
として前記直交化辞書9に登録するよ2(j、k) うにしても良い。
またここでは第2軸まで作成する例を示したが、更に2
次微分を行なう等して3軸以降の辞書を基本軸の直交化
辞書とし、て作成することも勿論可能である。
次微分を行なう等して3軸以降の辞書を基本軸の直交化
辞書とし、て作成することも勿論可能である。
■ しかる後、上述した如く求められた直交化辞書を基
本とし、直交ベクトル計算部8aに”C前記パターン蓄
積部7に格納されている複数の話者の個々の学習パター
ンを順に抽出しくステップg)、その学習パターンに従
って上記直交化辞書に直交する付加辞書を次のように1
7で作成する。
本とし、直交ベクトル計算部8aに”C前記パターン蓄
積部7に格納されている複数の話者の個々の学習パター
ンを順に抽出しくステップg)、その学習パターンに従
って上記直交化辞書に直交する付加辞書を次のように1
7で作成する。
即ち、この付加辞書の作成は、前記パターン蓄積部7に
収集された学習パターンal(j、k)について、既に
求められている直交化辞書の軸数をPとしたとき [n = 1.2.〜p 、 m −1,2,〜M
lなるグラムシュミットの直交化式を演算して行われる
(ステップh)。そしてこの新しく求められた個々の話
者の特徴的変動を表現する直交ベクトル(付加辞書)b
を直交ベクトル登録判定部P十踵 8bに4え、そのノルムllb IIが所定値より
もhi 大きいか否かを判定す、る(ステップi)。そしてその
ノルム値が所定値よりも大きい場合、これを付加辞書と
してパターン正規化処理を施した後に前記直交化辞書9
に登録する(ステップj)。この際、上記ノルムllb
11の値を残差ツルムチpm −ツル8cに登録する(ステップk)。
収集された学習パターンal(j、k)について、既に
求められている直交化辞書の軸数をPとしたとき [n = 1.2.〜p 、 m −1,2,〜M
lなるグラムシュミットの直交化式を演算して行われる
(ステップh)。そしてこの新しく求められた個々の話
者の特徴的変動を表現する直交ベクトル(付加辞書)b
を直交ベクトル登録判定部P十踵 8bに4え、そのノルムllb IIが所定値より
もhi 大きいか否かを判定す、る(ステップi)。そしてその
ノルム値が所定値よりも大きい場合、これを付加辞書と
してパターン正規化処理を施した後に前記直交化辞書9
に登録する(ステップj)。この際、上記ノルムllb
11の値を残差ツルムチpm −ツル8cに登録する(ステップk)。
以上の■〜■の処理を複数の話者から求められた個々の
学習パターン毎に繰返し実行することによってカテゴリ
iについての直交化辞書9が作成される。
学習パターン毎に繰返し実行することによってカテゴリ
iについての直交化辞書9が作成される。
尚、新たに求められた軸の辞書の前記直交化部lf9へ
の登録に際しては、直交化辞書9として予め定められて
いる軸数を越えることがある。このような場合、新たな
軸の辞書登録を中止すると、その辞書を得た話者に対す
る認識性能が劣化する虞れがある。そこでこのような場
合には、前記残差ノルムメモリ8cからそのカテゴリi
についての各軸での残差ノルムllb IIをそれ
ぞれ読出し、P++11 新たな軸の残差ノルムの値と比較する。そして既に登録
された辞書の中で、その残差ノルムの値が小さいものが
あれば、その残差ノルムに対応する辞書(直交ベクトル
)を前記直交化辞書9から抹消し、代わりに前述した新
しく求められた辞書(直交ベクトル)を辞書登録する。
の登録に際しては、直交化辞書9として予め定められて
いる軸数を越えることがある。このような場合、新たな
軸の辞書登録を中止すると、その辞書を得た話者に対す
る認識性能が劣化する虞れがある。そこでこのような場
合には、前記残差ノルムメモリ8cからそのカテゴリi
についての各軸での残差ノルムllb IIをそれ
ぞれ読出し、P++11 新たな軸の残差ノルムの値と比較する。そして既に登録
された辞書の中で、その残差ノルムの値が小さいものが
あれば、その残差ノルムに対応する辞書(直交ベクトル
)を前記直交化辞書9から抹消し、代わりに前述した新
しく求められた辞書(直交ベクトル)を辞書登録する。
この場合、残差ノルムメモリ8cにおける対応ノルムの
値も書替えることは勿論のことである。
値も書替えることは勿論のことである。
以l二のよ・うにして複数の話者の学習パターンから最
初に求められる直交軸の辞書を基本として、個々の話者
から求められる学習パターンに従う直交ベクトルを順次
辞書登録して直交化辞書9を構築していく。この結果、
一定の人数範囲内であれば、その全ての登録話者の入力
音声パターンに対して認識性能の高い直交化辞書9を得
ることが可能となり、その認識性能の向」ニを図ること
が可能となる。
初に求められる直交軸の辞書を基本として、個々の話者
から求められる学習パターンに従う直交ベクトルを順次
辞書登録して直交化辞書9を構築していく。この結果、
一定の人数範囲内であれば、その全ての登録話者の入力
音声パターンに対して認識性能の高い直交化辞書9を得
ることが可能となり、その認識性能の向」ニを図ること
が可能となる。
まh−上述したように簡単な演算処理によって新たな軸
の辞書を逐次作成していくので、その処理負担が非常に
軽く、複数の話者に適応し得る直交化辞書9を効率的に
作成することが可能となる等の効果が奏せられる。
の辞書を逐次作成していくので、その処理負担が非常に
軽く、複数の話者に適応し得る直交化辞書9を効率的に
作成することが可能となる等の効果が奏せられる。
次表は男性5名2女性3名から数字音声と人名からなる
30語の音声データをそれぞれ13回に亙って収集し、
そのうちの3回分を学習用、残り10回分を認忠性能評
価に用いた実験例を示すものである。
30語の音声データをそれぞれ13回に亙って収集し、
そのうちの3回分を学習用、残り10回分を認忠性能評
価に用いた実験例を示すものである。
表
尚、この表における話者Aは比較的性能の悪い話者であ
り、話者Bは性能の良い話者である。またこれらの結果
は、10名の話者の全てが辞書登録を終えた時点での直
交化辞書セ・ノドを用いたときの認識性能を示している
。尚、参考として上記話者A、Bが単独で、所謂特定話
者で直交化辞書(4軸)を作成したときの認識性能は、
それぞれ92.5%、 98.3%であった。
り、話者Bは性能の良い話者である。またこれらの結果
は、10名の話者の全てが辞書登録を終えた時点での直
交化辞書セ・ノドを用いたときの認識性能を示している
。尚、参考として上記話者A、Bが単独で、所謂特定話
者で直交化辞書(4軸)を作成したときの認識性能は、
それぞれ92.5%、 98.3%であった。
この実験データに示されるように、本方式によれば10
名程度の登録話者に対して上述した如く直交化辞書9を
作成することで、その登録順序に拘らず全ての登録話者
に対して安定に、また比較的高い性能で音声認識し得る
ことが明らかとなった。
名程度の登録話者に対して上述した如く直交化辞書9を
作成することで、その登録順序に拘らず全ての登録話者
に対して安定に、また比較的高い性能で音声認識し得る
ことが明らかとなった。
尚、本発明は上述17た実施例に限定されるものではな
い。ここでは最初に複数の登録話者から2軸の直交化辞
書を作成する例について説明lまたが、更に多くの軸数
の基本直交化辞書を作成することも可能である。この場
合、直交化フィルタの係数としては幾つかのバリエーシ
ョンが考えられるが、要は学習パターンを平滑、1次微
分、2次微分。
い。ここでは最初に複数の登録話者から2軸の直交化辞
書を作成する例について説明lまたが、更に多くの軸数
の基本直交化辞書を作成することも可能である。この場
合、直交化フィルタの係数としては幾つかのバリエーシ
ョンが考えられるが、要は学習パターンを平滑、1次微
分、2次微分。
・・・すれば良いものであり、種々変形して実施するこ
とができる。また学習パターンの次元数等も特に限定さ
れるものでもない。更には新たに作成する辞書の軸数も
学習パターン数に応じて定めれば良く、グラムシュミッ
ト以外の直交化法を用いて辞書を作成することも可能で
ある。その他、本発明はその要旨を逸脱しない範囲で変
形して実施可能である。
とができる。また学習パターンの次元数等も特に限定さ
れるものでもない。更には新たに作成する辞書の軸数も
学習パターン数に応じて定めれば良く、グラムシュミッ
ト以外の直交化法を用いて辞書を作成することも可能で
ある。その他、本発明はその要旨を逸脱しない範囲で変
形して実施可能である。
[発明の効果]
以上説明したように本発明によれば複数の話者から収集
した学習パターンを用いて、これらの話者に対応可能な
直交化辞書を簡易に、nつ性能良く生成していくことが
可能なので、少ない学習パターンでパターンの変動を効
果的に表現した辞書を得ることができ、その認識性能の
向上を図り得る等の実用上多大なる効果を奏する。
した学習パターンを用いて、これらの話者に対応可能な
直交化辞書を簡易に、nつ性能良く生成していくことが
可能なので、少ない学習パターンでパターンの変動を効
果的に表現した辞書を得ることができ、その認識性能の
向上を図り得る等の実用上多大なる効果を奏する。
第1図は本発明の一実施例に係る音声認識装置の概略構
成図、第2図は実施例装置における直交化辞書作成の概
念を模式的に示す図、第3図は直交化辞書作成の処理手
続きの例を示す図、第4図および第5図はそれぞれ従来
の音声認識装置の概略構成を示す図である。 ■・・・音響分析部、2・・・始端・終端検出部、5・
・・判定部、6・・・標本点抽出部、7・・・パターン
蓄積部、8・・・直交化辞書作成部、9・・・直交化辞
書、10・・・類似度演算部、8a・・・直交ベクトル
計算部、8b・・・直交ベク トル登録判定部、 8c・・・残差ノルムメ そり。
成図、第2図は実施例装置における直交化辞書作成の概
念を模式的に示す図、第3図は直交化辞書作成の処理手
続きの例を示す図、第4図および第5図はそれぞれ従来
の音声認識装置の概略構成を示す図である。 ■・・・音響分析部、2・・・始端・終端検出部、5・
・・判定部、6・・・標本点抽出部、7・・・パターン
蓄積部、8・・・直交化辞書作成部、9・・・直交化辞
書、10・・・類似度演算部、8a・・・直交ベクトル
計算部、8b・・・直交ベク トル登録判定部、 8c・・・残差ノルムメ そり。
Claims (1)
- 【特許請求の範囲】 入力音声を分析処理して求められる入力音声パターンと
、予め収集された複数話者の学習パターンに基いて作成
されている直交化辞書との間で類似度を計算して上記入
力音声を認識する音声認識装置において、 複数話者の学習パターンから上記直交化辞書としての基
本となる直交軸を決定した後、個別話者の学習パターン
からの辞書作成は、既に登録されている辞書の軸と直交
する新たな軸を決定し、この新たな軸の辞書を登録する
か否かを判定して前記直交化辞書を構築することを特徴
とする音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63176704A JPH0225899A (ja) | 1988-07-15 | 1988-07-15 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63176704A JPH0225899A (ja) | 1988-07-15 | 1988-07-15 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0225899A true JPH0225899A (ja) | 1990-01-29 |
Family
ID=16018291
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63176704A Pending JPH0225899A (ja) | 1988-07-15 | 1988-07-15 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0225899A (ja) |
-
1988
- 1988-07-15 JP JP63176704A patent/JPH0225899A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Yogesh et al. | A new hybrid PSO assisted biogeography-based optimization for emotion and stress recognition from speech signal | |
| JP2739950B2 (ja) | パターン認識装置 | |
| Mansour et al. | Voice recognition using dynamic time warping and mel-frequency cepstral coefficients algorithms | |
| Bharali et al. | Speech recognition with reference to Assamese language using novel fusion technique | |
| JPH04369696A (ja) | 音声認識方法 | |
| JPS6273391A (ja) | パタ−ン認識学習装置 | |
| JPH02165388A (ja) | パターン認識方式 | |
| JPH0225898A (ja) | 音声認識装置 | |
| Abdullaeva et al. | Formant set as a main parameter for recognizing vowels of the Uzbek language | |
| Safie | Spoken digit recognition using convolutional neural network | |
| Sunny et al. | Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam | |
| JPH0225899A (ja) | 音声認識装置 | |
| Telembici et al. | Optimizing Audio Recognition for Assistive Robotics with Feature Optimization, Machine Learning and Data Augmentation | |
| Suryawanshi et al. | Hardware implementation of speech recognition using mfcc and euclidean distance | |
| JPH01277297A (ja) | 音声認識装置 | |
| JPH0194396A (ja) | 音声認識方式 | |
| Alex et al. | Performance analysis of SOFM based reduced complexity feature extraction methods with back propagation neural network for multilingual digit recognition | |
| JP2856429B2 (ja) | 音声認識方式 | |
| JPH0194394A (ja) | 音声認識方式 | |
| JPH0194397A (ja) | 音声認識方式 | |
| Pentapati et al. | Log-melspectrum and excitation features based speaker identification using deep learning | |
| JPH054678B2 (ja) | ||
| ALTAF et al. | ELEVATING VOICE DIAGNOSTICS: SAVA UNLEASHES NEW FRONTIERS IN HEALTHY AND PATHOLOGICAL VOICE DETECTION | |
| JPH0194395A (ja) | 音声認識方式 | |
| Medjani et al. | Automatic Detection Of Voice Disorders Using Self-Supervised Representation Learning Models |