JPH02226200A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH02226200A JPH02226200A JP4588389A JP4588389A JPH02226200A JP H02226200 A JPH02226200 A JP H02226200A JP 4588389 A JP4588389 A JP 4588389A JP 4588389 A JP4588389 A JP 4588389A JP H02226200 A JPH02226200 A JP H02226200A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- template
- similar
- section
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、ディジタル音声処理の音声認識装置に利用す
る。特に、マルチテンプレート方式による不特定話者用
および多数話者用の音声認識装置に関するものである。
る。特に、マルチテンプレート方式による不特定話者用
および多数話者用の音声認識装置に関するものである。
本発明は音声認識装置において、
1回前のマツチング処理の結果から得られた人力パタン
に最も類似したテンプレートの情報に基づいて類似話者
クラスタを推定し次にマッチング処理を行う際に用いる
テンプレートを選択することにより、 限られた量のテンプレートの利用価値を話者に適応して
最大限に高めることができ、認識率を向上するようにし
たものである。
に最も類似したテンプレートの情報に基づいて類似話者
クラスタを推定し次にマッチング処理を行う際に用いる
テンプレートを選択することにより、 限られた量のテンプレートの利用価値を話者に適応して
最大限に高めることができ、認識率を向上するようにし
たものである。
従来、不特定話者用および多数話者用の音声認識装置は
、マルチテンプレート方式を用いるものが多いが、この
方式はカテゴリごとにあらかじめ用意された複数のテン
プレートを常時すべてマツチングに使用していた。
、マルチテンプレート方式を用いるものが多いが、この
方式はカテゴリごとにあらかじめ用意された複数のテン
プレートを常時すべてマツチングに使用していた。
しかし、このような音声tRm装置では、テンプレート
の質と量とによって認識性能が大きく左右される。この
うちテンプレートの量に関してはハードウェアの制限を
受けるために、限られたテンプレートの量で多くの話者
に適用させる場合に、認識性能に限界が生じる欠点があ
った。すなわち、相異度の高い話者がそれぞれ発声した
別々の内容の音声が高い類似度を示す場合がある。その
ために別々の内容の音声が同じ識別結果となったり、逆
に同じ内容の音声が別々の識別結果となる場合があり、
結果として認識性能の低下を招く欠点があった。
の質と量とによって認識性能が大きく左右される。この
うちテンプレートの量に関してはハードウェアの制限を
受けるために、限られたテンプレートの量で多くの話者
に適用させる場合に、認識性能に限界が生じる欠点があ
った。すなわち、相異度の高い話者がそれぞれ発声した
別々の内容の音声が高い類似度を示す場合がある。その
ために別々の内容の音声が同じ識別結果となったり、逆
に同じ内容の音声が別々の識別結果となる場合があり、
結果として認識性能の低下を招く欠点があった。
本発明は上記の欠点を解決するもので、限られた量のテ
ンプレートの質を話者に適応して最大限に高めることが
でき、認識率を向上できる音声δ忍識装置を提供するこ
とを目的とする。
ンプレートの質を話者に適応して最大限に高めることが
でき、認識率を向上できる音声δ忍識装置を提供するこ
とを目的とする。
本発明は、あらかじめ定められた標準パタンの音声を発
声した話者に対してクラスタリングした話者クラスタご
とに対応し所定のカテゴリごとに分割されたテンプレー
トが格納されたカテゴリテーブルを含む標準パタン部と
、入力信号を分析して人力パタンに変換する分析部と、
この分析部の出力と上記カテゴリテーブルの内容とのマ
ツチング処理を行うマツチング部とを備えた音声認識装
置において、上記標準パタン部は、上記話者クラスタご
とに対応して上記あらかじめ定められた標準パタンとし
て発声した音声が自話者クラスタに最も類似した他の複
数の話者クラスタおよび自話者クラスタが格納された類
似話者クラスタテーブルを設けておき、上記マツチング
部の出力に基づいて上記人力パタンに最も類似したテン
プレート情報を得て上記二つのテーブルを参照して該当
する類似話者クラスタのテンプレートを選択して上記マ
ツチング処理部に与えるテンプレート選択部を備えたこ
とを特徴とする。
声した話者に対してクラスタリングした話者クラスタご
とに対応し所定のカテゴリごとに分割されたテンプレー
トが格納されたカテゴリテーブルを含む標準パタン部と
、入力信号を分析して人力パタンに変換する分析部と、
この分析部の出力と上記カテゴリテーブルの内容とのマ
ツチング処理を行うマツチング部とを備えた音声認識装
置において、上記標準パタン部は、上記話者クラスタご
とに対応して上記あらかじめ定められた標準パタンとし
て発声した音声が自話者クラスタに最も類似した他の複
数の話者クラスタおよび自話者クラスタが格納された類
似話者クラスタテーブルを設けておき、上記マツチング
部の出力に基づいて上記人力パタンに最も類似したテン
プレート情報を得て上記二つのテーブルを参照して該当
する類似話者クラスタのテンプレートを選択して上記マ
ツチング処理部に与えるテンプレート選択部を備えたこ
とを特徴とする。
標準パタン部に話者クラスタごとに対応してあらかじめ
定められた標準パタンとして発声した音声が自話者クラ
スタに最も類似した他の複数の話者クラスタおよび自話
者クラスタが格納された類似話者タラスタテーブルを設
ける。テンプレート選択部はマツチング部の出力に基づ
いて入力パタンに最も類似したテンプレート情報を得て
カテゴリテーブルおよび類似話者クラスタテーブルを参
照して該当する類似話者クラスタのテンプレートを選択
してマツチング処理部に与える。以上の動作により限ら
れた量のテンプレートの質を話者に適応して最大限に高
めることができ、認識率を向上できる。
定められた標準パタンとして発声した音声が自話者クラ
スタに最も類似した他の複数の話者クラスタおよび自話
者クラスタが格納された類似話者タラスタテーブルを設
ける。テンプレート選択部はマツチング部の出力に基づ
いて入力パタンに最も類似したテンプレート情報を得て
カテゴリテーブルおよび類似話者クラスタテーブルを参
照して該当する類似話者クラスタのテンプレートを選択
してマツチング処理部に与える。以上の動作により限ら
れた量のテンプレートの質を話者に適応して最大限に高
めることができ、認識率を向上できる。
本発明の実施例について図面を参照して説明する。第1
図は本発明一実施例音声認識装置のブロック構成図であ
る。第1図において、音声認識装置は、あらかじめ定め
られた標準パタンとして音声を発声した話者に対してク
ラスタリングした話者クラスタごとに対応し所定のカテ
ゴリごとに分割されたテンプレートが格納されたカテゴ
リテーブルを含む標準パタン部4と、入力信号11を分
析して人力パタンに変換する分析部1と、この分析部1
の出力人力パタン12と上記カテゴリテーブルの内容と
のマツチング処理を行うマツチング部2と、マツチング
部2のマツチング結果に基づいて識別結果14を出力す
る識別部3とを備える。
図は本発明一実施例音声認識装置のブロック構成図であ
る。第1図において、音声認識装置は、あらかじめ定め
られた標準パタンとして音声を発声した話者に対してク
ラスタリングした話者クラスタごとに対応し所定のカテ
ゴリごとに分割されたテンプレートが格納されたカテゴ
リテーブルを含む標準パタン部4と、入力信号11を分
析して人力パタンに変換する分析部1と、この分析部1
の出力人力パタン12と上記カテゴリテーブルの内容と
のマツチング処理を行うマツチング部2と、マツチング
部2のマツチング結果に基づいて識別結果14を出力す
る識別部3とを備える。
ここで本発明の特徴とするところは、標準パタン部4は
、上記話者クラスタごとに対応して上記あらかじめ定め
られた標準パタンとして発声した音声が自話者クラスタ
に最も類似した他の複数の話者クラスタおよび白話者ク
ラスタが格納された類似話者クラスタテーブルを設けて
おき、マツチング部2の出力テンプレーH7に基づいて
上記入力パタンに最も類似したテンプレート情報を得て
上記二つのテーブルを参照して該当する類似話者クラス
タのテンプレート16を選択してマツチング処理部2に
与えるテンプレート選択部5を備えたことを特徴とする
。
、上記話者クラスタごとに対応して上記あらかじめ定め
られた標準パタンとして発声した音声が自話者クラスタ
に最も類似した他の複数の話者クラスタおよび白話者ク
ラスタが格納された類似話者クラスタテーブルを設けて
おき、マツチング部2の出力テンプレーH7に基づいて
上記入力パタンに最も類似したテンプレート情報を得て
上記二つのテーブルを参照して該当する類似話者クラス
タのテンプレート16を選択してマツチング処理部2に
与えるテンプレート選択部5を備えたことを特徴とする
。
このような構成の音声認識装置の動作について説明する
。第1表は本発明の音声認識装置の類似話者クラスタテ
ーブルである。第2表は本発明の音声認識装置のカテゴ
リテーブルである。第2図は本発明の音声認識装置のテ
ンプレート選択部の動作を示すフローチャートである。
。第1表は本発明の音声認識装置の類似話者クラスタテ
ーブルである。第2表は本発明の音声認識装置のカテゴ
リテーブルである。第2図は本発明の音声認識装置のテ
ンプレート選択部の動作を示すフローチャートである。
(以下本頁余白)
第1表
第2表
まず、分析部1は、入力信号11を入力パタン12に変
換する。マツチング部2では、この入カバターン12と
マツチングに用いるテンプレート16とのマツチング処
理を行う。識別部3では、そのマツチング結果13から
識別結果14を出力する。
換する。マツチング部2では、この入カバターン12と
マツチングに用いるテンプレート16とのマツチング処
理を行う。識別部3では、そのマツチング結果13から
識別結果14を出力する。
また、テンプレート選択部5では、前回のマツチング処
理の結果入カバターン12に最も類似したテンプレート
17を受取り、その情報から次にマツチングを行う際に
用いるテンプレートを選択する。
理の結果入カバターン12に最も類似したテンプレート
17を受取り、その情報から次にマツチングを行う際に
用いるテンプレートを選択する。
選択されたテンプレート15を標準パターン部4から受
取り次にマツチングに用いるテンプレート16として出
力する。
取り次にマツチングに用いるテンプレート16として出
力する。
ここでこのテンプレート選択部5での処理をさらに詳し
く説明する。第1表は話者クラスタに対応する類似話者
クラスタを示す話者クラスタテーブルである。まず話者
クラスタ (St 、S2、S、)とはあらかじめ定め
られた標準パタンとして用いる音声を発声した話者に対
してクラスタリングしたものである。クラスタ、リング
するためのデータは、たとえば各話者が発声した5個の
母音を用いたり、より多くの孤立発声した音素データを
用いたり、またはカテゴリとなる全単語(または音素等
)のデータを用いたりする方法がある。
く説明する。第1表は話者クラスタに対応する類似話者
クラスタを示す話者クラスタテーブルである。まず話者
クラスタ (St 、S2、S、)とはあらかじめ定め
られた標準パタンとして用いる音声を発声した話者に対
してクラスタリングしたものである。クラスタ、リング
するためのデータは、たとえば各話者が発声した5個の
母音を用いたり、より多くの孤立発声した音素データを
用いたり、またはカテゴリとなる全単語(または音素等
)のデータを用いたりする方法がある。
クラスタリングされた各話者クラスタ間の類似度をクラ
スタリングに使用したデータを用いて求める。たとえば
各話者クラスタについて最も類似した他の話者クラスタ
を数個選び、自分自身を含めた数個の類似話者クラスタ
を求める。この個数は全話者クラスタにおいて同じにす
る必要はない。
スタリングに使用したデータを用いて求める。たとえば
各話者クラスタについて最も類似した他の話者クラスタ
を数個選び、自分自身を含めた数個の類似話者クラスタ
を求める。この個数は全話者クラスタにおいて同じにす
る必要はない。
このテーブル例では、S、に対する類似話者クラスタは
、s、 、s、、Sbであり、S2に対しては32 、
Sc、Saである。
、s、 、s、、Sbであり、S2に対しては32 、
Sc、Saである。
次に第2表は、各話者クラスタ(St、・−1S15、
Sl)における各カテゴリ (W+ 、−1WJ、・、
Wo)のテンプレート(T10、・・・・、Tl、、・
・T□)を示すカテゴリテーブルである。この例では各
話者クラスタにおける各カテゴリのテンプレートは1゛
個であるが、複数の場合もある。
Sl)における各カテゴリ (W+ 、−1WJ、・、
Wo)のテンプレート(T10、・・・・、Tl、、・
・T□)を示すカテゴリテーブルである。この例では各
話者クラスタにおける各カテゴリのテンプレートは1゛
個であるが、複数の場合もある。
第2図において、まず、マツチング部2からマツチング
処理の結果入カバターンと最も類似したテンプレート1
7としてテンプレートT1」の情報を受取る(Sl)。
処理の結果入カバターンと最も類似したテンプレート1
7としてテンプレートT1」の情報を受取る(Sl)。
これから第2表に示すカテゴリテーブルを参照して話者
クラスタSiを見つける(S2)。次に第1表に示す話
者クラスタテーブルを参照して類似話者クラスタS1、
So、Sfを見つける(S3)。最後にもう一度第2表
に示すテーブルを参照して次のマツチング処理に用いる
テンプレート15としてテンプレートTi0、TI□、
% Tin%Tel、T、2、 、Tan5 T’r
+、Tf21、Tいを選択する。そしてこの選択された
テンプレートをテンプレート16としてマツチング部2
へ出力する。(S4)。
クラスタSiを見つける(S2)。次に第1表に示す話
者クラスタテーブルを参照して類似話者クラスタS1、
So、Sfを見つける(S3)。最後にもう一度第2表
に示すテーブルを参照して次のマツチング処理に用いる
テンプレート15としてテンプレートTi0、TI□、
% Tin%Tel、T、2、 、Tan5 T’r
+、Tf21、Tいを選択する。そしてこの選択された
テンプレートをテンプレート16としてマツチング部2
へ出力する。(S4)。
以上説明したように、本発明は、限られた量のテンプレ
ートの質を話者に適応して最大限に高めることができ、
認識率を高くできる優れた効果がある。
ートの質を話者に適応して最大限に高めることができ、
認識率を高くできる優れた効果がある。
構成図。
第2図は本発明の音声認識装置のテンプレート選択部の
動作を示すフローチャート。
動作を示すフローチャート。
1・・・分析部、2・・・マツチング部、3・・・識別
部、4・・・標準パタン部、5・・・テンプレート選択
部、11・・・入力信号、12・・・入力パタン、13
・・・マツチング結果、14・・・識別結果、15・・
・選択されたテンプレート、16・・・マツチングに用
いるテンプレート、17・・・マツチング処理の結果入
カバターンと最も類似したテンプレート。
部、4・・・標準パタン部、5・・・テンプレート選択
部、11・・・入力信号、12・・・入力パタン、13
・・・マツチング結果、14・・・識別結果、15・・
・選択されたテンプレート、16・・・マツチングに用
いるテンプレート、17・・・マツチング処理の結果入
カバターンと最も類似したテンプレート。
代理人 弁理士 井 出 直 孝
第1図は本発明一実施例音声認識装置ブロック実施例
第1図
実施例 テンプレート選択部のフローチャート第2図
Claims (1)
- 【特許請求の範囲】 1、あらかじめ定められた標準パタンの音声を発声した
話者に対してクラスタリングした話者クラスタごとに対
応し所定のカテゴリごとに分割されたテンプレートが格
納されたカテゴリテーブルを含む標準パタン部と、 入力信号を分析して入力パタンに変換する分析部と、 この分析部の出力と上記カテゴリテーブルの内容とのマ
ッチング処理を行うマッチング部とを備えた音声認識装
置において、 上記標準パタン部は、上記話者クラスタごとに対応して
上記あらかじめ定められた標準パタンとして発声した音
声が自話者クラスタに最も類似した他の複数の話者クラ
スタおよび自話者クラスタが格納された類似話者クラス
タテーブルを設けておき、 上記マッチング部の出力に基づいて上記入力パタンに最
も類似したテンプレート情報を得て上記二つのテーブル
を参照して該当する類似話者クラスタのテンプレートを
選択して上記マッチング処理部に与えるテンプレート選
択部 を備えたことを特徴とする音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4588389A JPH02226200A (ja) | 1989-02-27 | 1989-02-27 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4588389A JPH02226200A (ja) | 1989-02-27 | 1989-02-27 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH02226200A true JPH02226200A (ja) | 1990-09-07 |
Family
ID=12731634
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP4588389A Pending JPH02226200A (ja) | 1989-02-27 | 1989-02-27 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH02226200A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010145784A (ja) * | 2008-12-19 | 2010-07-01 | Casio Computer Co Ltd | 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム |
-
1989
- 1989-02-27 JP JP4588389A patent/JPH02226200A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010145784A (ja) * | 2008-12-19 | 2010-07-01 | Casio Computer Co Ltd | 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1185976B1 (en) | Speech recognition device with reference transformation means | |
| JPH02226200A (ja) | 音声認識装置 | |
| JPS597998A (ja) | 連続音声認識装置 | |
| JPH02232696A (ja) | 音声認識装置 | |
| Chiba et al. | A speaker-independent word-recognition system using multiple classification functions | |
| JPH09179578A (ja) | 単音節認識装置 | |
| KR19990015122A (ko) | 음성 인식 방법 | |
| JP2000207166A (ja) | 音声入力装置及び音声入力方法 | |
| JPH04324499A (ja) | 音声認識装置 | |
| JP3446666B2 (ja) | 音声認識用音響モデルの話者適応装置及び方法 | |
| JP3536380B2 (ja) | 音声認識装置 | |
| JPH0430598B2 (ja) | ||
| JPH02109100A (ja) | 音声入力装置 | |
| JPS638798A (ja) | 音声認識装置 | |
| JPS6073592A (ja) | 特定話者用音声認識装置 | |
| JPH04271397A (ja) | 音声認識装置 | |
| JPH0462679B2 (ja) | ||
| JPH01319099A (ja) | 音声認識装置 | |
| JPS59214900A (ja) | 音声認識装置 | |
| JPS6287993A (ja) | 音声認識装置 | |
| JPH01161399A (ja) | 音声認識装置における話者適応化方法 | |
| JPS61105599A (ja) | 連続音声認識装置 | |
| JPH071434B2 (ja) | 標準パタン作成方式 | |
| JPH04298795A (ja) | 標準パタン作成装置 | |
| JPS63218999A (ja) | 音声認識装置 |