JPH02226200A

JPH02226200A - 音声認識装置

Info

Publication number: JPH02226200A
Application number: JP4588389A
Authority: JP
Inventors: Haruyuki Hayashi; 晴之林
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1989-02-27
Filing date: 1989-02-27
Publication date: 1990-09-07

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、ディジタル音声処理の音声認識装置に利用す
る。特に、マルチテンプレート方式による不特定話者用
および多数話者用の音声認識装置に関するものである。

〔概要〕

本発明は音声認識装置において、１回前のマツチング処理の結果から得られた人力パタン
に最も類似したテンプレートの情報に基づいて類似話者
クラスタを推定し次にマッチング処理を行う際に用いる
テンプレートを選択することにより、限られた量のテンプレートの利用価値を話者に適応して
最大限に高めることができ、認識率を向上するようにし
たものである。

〔従来の技術〕

従来、不特定話者用および多数話者用の音声認識装置は
、マルチテンプレート方式を用いるものが多いが、この
方式はカテゴリごとにあらかじめ用意された複数のテン
プレートを常時すべてマツチングに使用していた。

〔発明が解決しようとする問題点〕

しかし、このような音声ｔＲｍ装置では、テンプレート
の質と量とによって認識性能が大きく左右される。この
うちテンプレートの量に関してはハードウェアの制限を
受けるために、限られたテンプレートの量で多くの話者
に適用させる場合に、認識性能に限界が生じる欠点があ
った。すなわち、相異度の高い話者がそれぞれ発声した
別々の内容の音声が高い類似度を示す場合がある。その
ために別々の内容の音声が同じ識別結果となったり、逆
に同じ内容の音声が別々の識別結果となる場合があり、
結果として認識性能の低下を招く欠点があった。

本発明は上記の欠点を解決するもので、限られた量のテ
ンプレートの質を話者に適応して最大限に高めることが
でき、認識率を向上できる音声δ忍識装置を提供するこ
とを目的とする。

〔問題点を解決するための手段〕

本発明は、あらかじめ定められた標準パタンの音声を発
声した話者に対してクラスタリングした話者クラスタご
とに対応し所定のカテゴリごとに分割されたテンプレー
トが格納されたカテゴリテーブルを含む標準パタン部と
、入力信号を分析して人力パタンに変換する分析部と、
この分析部の出力と上記カテゴリテーブルの内容とのマ
ツチング処理を行うマツチング部とを備えた音声認識装
置において、上記標準パタン部は、上記話者クラスタご
とに対応して上記あらかじめ定められた標準パタンとし
て発声した音声が自話者クラスタに最も類似した他の複
数の話者クラスタおよび自話者クラスタが格納された類
似話者クラスタテーブルを設けておき、上記マツチング
部の出力に基づいて上記人力パタンに最も類似したテン
プレート情報を得て上記二つのテーブルを参照して該当
する類似話者クラスタのテンプレートを選択して上記マ
ツチング処理部に与えるテンプレート選択部を備えたこ
とを特徴とする。

〔作用〕

標準パタン部に話者クラスタごとに対応してあらかじめ
定められた標準パタンとして発声した音声が自話者クラ
スタに最も類似した他の複数の話者クラスタおよび自話
者クラスタが格納された類似話者タラスタテーブルを設
ける。テンプレート選択部はマツチング部の出力に基づ
いて入力パタンに最も類似したテンプレート情報を得て
カテゴリテーブルおよび類似話者クラスタテーブルを参
照して該当する類似話者クラスタのテンプレートを選択
してマツチング処理部に与える。以上の動作により限ら
れた量のテンプレートの質を話者に適応して最大限に高
めることができ、認識率を向上できる。

〔実施例〕

本発明の実施例について図面を参照して説明する。第１
図は本発明一実施例音声認識装置のブロック構成図であ
る。第１図において、音声認識装置は、あらかじめ定め
られた標準パタンとして音声を発声した話者に対してク
ラスタリングした話者クラスタごとに対応し所定のカテ
ゴリごとに分割されたテンプレートが格納されたカテゴ
リテーブルを含む標準パタン部４と、入力信号１１を分
析して人力パタンに変換する分析部１と、この分析部１
の出力人力パタン１２と上記カテゴリテーブルの内容と
のマツチング処理を行うマツチング部２と、マツチング
部２のマツチング結果に基づいて識別結果１４を出力す
る識別部３とを備える。

ここで本発明の特徴とするところは、標準パタン部４は
、上記話者クラスタごとに対応して上記あらかじめ定め
られた標準パタンとして発声した音声が自話者クラスタ
に最も類似した他の複数の話者クラスタおよび白話者ク
ラスタが格納された類似話者クラスタテーブルを設けて
おき、マツチング部２の出力テンプレーＨ７に基づいて
上記入力パタンに最も類似したテンプレート情報を得て
上記二つのテーブルを参照して該当する類似話者クラス
タのテンプレート１６を選択してマツチング処理部２に
与えるテンプレート選択部５を備えたことを特徴とする
。

このような構成の音声認識装置の動作について説明する
。第１表は本発明の音声認識装置の類似話者クラスタテ
ーブルである。第２表は本発明の音声認識装置のカテゴ
リテーブルである。第２図は本発明の音声認識装置のテ
ンプレート選択部の動作を示すフローチャートである。

（以下本頁余白）第１表第２表まず、分析部１は、入力信号１１を入力パタン１２に変
換する。マツチング部２では、この入カバターン１２と
マツチングに用いるテンプレート１６とのマツチング処
理を行う。識別部３では、そのマツチング結果１３から
識別結果１４を出力する。

また、テンプレート選択部５では、前回のマツチング処
理の結果入カバターン１２に最も類似したテンプレート
１７を受取り、その情報から次にマツチングを行う際に
用いるテンプレートを選択する。

選択されたテンプレート１５を標準パターン部４から受
取り次にマツチングに用いるテンプレート１６として出
力する。

ここでこのテンプレート選択部５での処理をさらに詳し
く説明する。第１表は話者クラスタに対応する類似話者
クラスタを示す話者クラスタテーブルである。まず話者
クラスタ　（Ｓｔ　、Ｓ２、Ｓ、）とはあらかじめ定め
られた標準パタンとして用いる音声を発声した話者に対
してクラスタリングしたものである。クラスタ、リング
するためのデータは、たとえば各話者が発声した５個の
母音を用いたり、より多くの孤立発声した音素データを
用いたり、またはカテゴリとなる全単語（または音素等
）のデータを用いたりする方法がある。

クラスタリングされた各話者クラスタ間の類似度をクラ
スタリングに使用したデータを用いて求める。たとえば
各話者クラスタについて最も類似した他の話者クラスタ
を数個選び、自分自身を含めた数個の類似話者クラスタ
を求める。この個数は全話者クラスタにおいて同じにす
る必要はない。

このテーブル例では、Ｓ、に対する類似話者クラスタは
、ｓ、　、ｓ、、Ｓｂであり、Ｓ２に対しては３２　、
Ｓｃ、Ｓａである。

次に第２表は、各話者クラスタ（Ｓｔ、・−１Ｓ１５、
Ｓｌ）における各カテゴリ　（Ｗ＋　、−１ＷＪ、・、
Ｗｏ）のテンプレート（Ｔ１０、・・・・、Ｔｌ、、・
・Ｔ□）を示すカテゴリテーブルである。この例では各
話者クラスタにおける各カテゴリのテンプレートは１゛
個であるが、複数の場合もある。

第２図において、まず、マツチング部２からマツチング
処理の結果入カバターンと最も類似したテンプレート１
７としてテンプレートＴ１」の情報を受取る（Ｓｌ）。

これから第２表に示すカテゴリテーブルを参照して話者
クラスタＳｉを見つける（Ｓ２）。次に第１表に示す話
者クラスタテーブルを参照して類似話者クラスタＳ１、
Ｓｏ、Ｓｆを見つける（Ｓ３）。最後にもう一度第２表
に示すテーブルを参照して次のマツチング処理に用いる
テンプレート１５としてテンプレートＴｉ０、ＴＩ□、
％　Ｔｉｎ％Ｔｅｌ、Ｔ、２、　　、Ｔａｎ５　Ｔ’ｒ
＋、Ｔｆ２１、Ｔいを選択する。そしてこの選択された
テンプレートをテンプレート１６としてマツチング部２
へ出力する。（Ｓ４）。

〔発明の効果〕

以上説明したように、本発明は、限られた量のテンプレ
ートの質を話者に適応して最大限に高めることができ、
認識率を高くできる優れた効果がある。

構成図。

第２図は本発明の音声認識装置のテンプレート選択部の
動作を示すフローチャート。

１・・・分析部、２・・・マツチング部、３・・・識別
部、４・・・標準パタン部、５・・・テンプレート選択
部、１１・・・入力信号、１２・・・入力パタン、１３
・・・マツチング結果、１４・・・識別結果、１５・・
・選択されたテンプレート、１６・・・マツチングに用
いるテンプレート、１７・・・マツチング処理の結果入
カバターンと最も類似したテンプレート。

代理人　　弁理士　井　出　直　孝

【図面の簡単な説明】

第１図は本発明一実施例音声認識装置ブロック実施例第１図実施例　テンプレート選択部のフローチャート第２図

Claims

【特許請求の範囲】１、あらかじめ定められた標準パタンの音声を発声した
話者に対してクラスタリングした話者クラスタごとに対
応し所定のカテゴリごとに分割されたテンプレートが格
納されたカテゴリテーブルを含む標準パタン部と、入力信号を分析して入力パタンに変換する分析部と、この分析部の出力と上記カテゴリテーブルの内容とのマ
ッチング処理を行うマッチング部とを備えた音声認識装
置において、上記標準パタン部は、上記話者クラスタごとに対応して
上記あらかじめ定められた標準パタンとして発声した音
声が自話者クラスタに最も類似した他の複数の話者クラ
スタおよび自話者クラスタが格納された類似話者クラス
タテーブルを設けておき、上記マッチング部の出力に基づいて上記入力パタンに最
も類似したテンプレート情報を得て上記二つのテーブル
を参照して該当する類似話者クラスタのテンプレートを
選択して上記マッチング処理部に与えるテンプレート選
択部を備えたことを特徴とする音声認識装置。