JPH02220099A - 単語音声認識装置 - Google Patents
単語音声認識装置Info
- Publication number
- JPH02220099A JPH02220099A JP1042191A JP4219189A JPH02220099A JP H02220099 A JPH02220099 A JP H02220099A JP 1042191 A JP1042191 A JP 1042191A JP 4219189 A JP4219189 A JP 4219189A JP H02220099 A JPH02220099 A JP H02220099A
- Authority
- JP
- Japan
- Prior art keywords
- codebook
- vectors
- vector
- input
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
この発明は、不特定多数の発声者に対して認識能力を向
上した単語音声認識装置に関する。
上した単語音声認識装置に関する。
不特定多数の話者が発声した単語音声の認識においては
、従来、確率的なモデルによって音声の変動をモデル化
し吸収する方法、各単語毎に複数の話者の発声に対応す
る標準パターンを用意しておき、入力音声に最も近い標
準パターンを選択する方法、などが用いられているが、
いずれの場合でも、標準からはずれた話者に関しては高
い認識性能を得ることが難しい、このため、発声者に認
識装置を適応化する方法が試みられているが(例えば文
献、中村・鹿狩:セパレートベクトル量子化を用いたス
ペクトログラムの正規化、日本音響学会誌、44. 8
. P、595.1988参照)、これを行うためには
、発声者が変わるたびにあらかじめ決められた学習用の
多数の単語や文章を発声する必要があり、極めて不便で
あった。あらかじめ決められた単語や文章ではなく、認
識すべき未知の入力音声を用いて適応化する方法もこれ
までに試みられているが(例えば文献、杉山:母音の教
師なし話者適応における各種の方法の比較、電子情報通
信学会論文誌、70−D、 5. P、958.19
87参照)、高い適応化性能が得られないという問題が
あった。
、従来、確率的なモデルによって音声の変動をモデル化
し吸収する方法、各単語毎に複数の話者の発声に対応す
る標準パターンを用意しておき、入力音声に最も近い標
準パターンを選択する方法、などが用いられているが、
いずれの場合でも、標準からはずれた話者に関しては高
い認識性能を得ることが難しい、このため、発声者に認
識装置を適応化する方法が試みられているが(例えば文
献、中村・鹿狩:セパレートベクトル量子化を用いたス
ペクトログラムの正規化、日本音響学会誌、44. 8
. P、595.1988参照)、これを行うためには
、発声者が変わるたびにあらかじめ決められた学習用の
多数の単語や文章を発声する必要があり、極めて不便で
あった。あらかじめ決められた単語や文章ではなく、認
識すべき未知の入力音声を用いて適応化する方法もこれ
までに試みられているが(例えば文献、杉山:母音の教
師なし話者適応における各種の方法の比較、電子情報通
信学会論文誌、70−D、 5. P、958.19
87参照)、高い適応化性能が得られないという問題が
あった。
この発明は、上記に鑑みてなされたもので、その目的と
しては、発声者の任意の音声を用いて、その発声者の音
声と標準的な音声との対応関係を算出し、これに基づい
てその発声者の音声を標準的な音声に自動的に適応化し
、あるいは標準的な音声をその発声者の音声に適応化す
ることにより、不特定話者の音声に対して高い認識性能
が得られるようにした音声認識装置を提供することにあ
る。
しては、発声者の任意の音声を用いて、その発声者の音
声と標準的な音声との対応関係を算出し、これに基づい
てその発声者の音声を標準的な音声に自動的に適応化し
、あるいは標準的な音声をその発声者の音声に適応化す
ることにより、不特定話者の音声に対して高い認識性能
が得られるようにした音声認識装置を提供することにあ
る。
上記目的を達成するため、この発明は、単語の音声信号
の周波数スペクトルおよびパワーの時間的変化を示すパ
ラメータベクトルを算出するパラメータベクトル算出手
段と、 一人または複数の標準話者が発声した多数の単語の音声
信号から算出した多数のパラメータベクトルをクラスタ
化して、複数の代表的なベクトル値を符号帳に蓄える符
号帳作成手段と、各認識対象l!鴬を、符号帳に蓄えら
れているベクトル値の、一つまたは複数の時系列で表現
して単語辞書に蓄える単語辞書作成手段と、入力音声信
号から算出された多数の人力パラメータベクトルと、符
号帳の要素ベクトルを、階層的にクラスタに分割化する
手段と、 分割化された各クラスタごとに入力パラメータベクトル
を符号帳に適応化するための、区分移動方向ベクトルを
決定する手段と、 これらの区分移動方向ベクトルの加重平均を用いてすべ
ての入力パラメータベクトルを適応化する手段と、 これらの適応化された入力パラメータベクトルと、符号
帳の各要素との距離を算出する手段と、これらの算出さ
れた距離と各単語辞書を用いて、動的計画法あるいは隠
れマルコフモデルによって入力音声と各認識対象語彙と
の距離を算出する手段とを有することを要旨とする。あ
るいは入力パラメータベクトルを符号帳に適応化する代
りに、符号帳を入力パラメータに適応して、その適応化
された符号帳要素と入力パラメータベクトルとの距離を
算出する。
の周波数スペクトルおよびパワーの時間的変化を示すパ
ラメータベクトルを算出するパラメータベクトル算出手
段と、 一人または複数の標準話者が発声した多数の単語の音声
信号から算出した多数のパラメータベクトルをクラスタ
化して、複数の代表的なベクトル値を符号帳に蓄える符
号帳作成手段と、各認識対象l!鴬を、符号帳に蓄えら
れているベクトル値の、一つまたは複数の時系列で表現
して単語辞書に蓄える単語辞書作成手段と、入力音声信
号から算出された多数の人力パラメータベクトルと、符
号帳の要素ベクトルを、階層的にクラスタに分割化する
手段と、 分割化された各クラスタごとに入力パラメータベクトル
を符号帳に適応化するための、区分移動方向ベクトルを
決定する手段と、 これらの区分移動方向ベクトルの加重平均を用いてすべ
ての入力パラメータベクトルを適応化する手段と、 これらの適応化された入力パラメータベクトルと、符号
帳の各要素との距離を算出する手段と、これらの算出さ
れた距離と各単語辞書を用いて、動的計画法あるいは隠
れマルコフモデルによって入力音声と各認識対象語彙と
の距離を算出する手段とを有することを要旨とする。あ
るいは入力パラメータベクトルを符号帳に適応化する代
りに、符号帳を入力パラメータに適応して、その適応化
された符号帳要素と入力パラメータベクトルとの距離を
算出する。
従来技術とは、発声内容が限定されない任意の言葉を発
声した音声を用いて、パラメータベクトルと符号帳のク
ラスタ化を行い、これに基づいて入力音声パラメータベ
クトル又は符号帳を適応化する手段を有することが異な
る。
声した音声を用いて、パラメータベクトルと符号帳のク
ラスタ化を行い、これに基づいて入力音声パラメータベ
クトル又は符号帳を適応化する手段を有することが異な
る。
以下、図面を用いてこの発明の詳細な説明する。
第1図は、この発明に係る単語音声認識装置の回路ブロ
ックを示す図である。
ックを示す図である。
同図において、1は例えばマイクロホン等に接続され、
単語の音声信号(以下単に「音声信号」と呼ぶ)を入力
して、次段の音声区間検出回路2に供給する音声入力端
子である。
単語の音声信号(以下単に「音声信号」と呼ぶ)を入力
して、次段の音声区間検出回路2に供給する音声入力端
子である。
音声区間検出回路2は、音声信号が一般に主に雑音で構
成される無音の部分とそうでない実際の音声の部分を含
むので、設定時間(例えば10m5)毎のパワーを演算
し、それに基づいて無音の部分と音声の部分を判別する
回路である0判別方法としては、例えば設定時間ごとの
パワーの絶対値が所定レベルを越えている部分を音声部
分と判別する方法、設定時間ごとのパワーについて所定
のレベルを越える状態が所定時間継続すればこれを音声
部分と判別する方法等、種々の周知の方法が通用できる
。音声区間検出回路2はパラメータベクトル算出回路3
に接続されている。音声区間検出回路2で演算されたパ
ワー値のうち、音声区間と判別された区間の値は、パラ
メータベクトル算出回路3に入力される。
成される無音の部分とそうでない実際の音声の部分を含
むので、設定時間(例えば10m5)毎のパワーを演算
し、それに基づいて無音の部分と音声の部分を判別する
回路である0判別方法としては、例えば設定時間ごとの
パワーの絶対値が所定レベルを越えている部分を音声部
分と判別する方法、設定時間ごとのパワーについて所定
のレベルを越える状態が所定時間継続すればこれを音声
部分と判別する方法等、種々の周知の方法が通用できる
。音声区間検出回路2はパラメータベクトル算出回路3
に接続されている。音声区間検出回路2で演算されたパ
ワー値のうち、音声区間と判別された区間の値は、パラ
メータベクトル算出回路3に入力される。
パラメータベクトル算出回路3は、音声区間検出回路2
で検出された音声部分の信号を周波数スペクトルおよび
パワーの時間的変化を示すパラメータベクトル系列に変
換処理する回路である。この変換処理については、すで
に公知の方法、例えば音声信号を線形予測ケプストラム
(以下単にrケプストラム」と呼ぶ)の時系列に変換す
る方法を用いる。これは、音声信号をまず線形予測係数
の時系列に変換し、次にこれをケプストラムに変換する
ことによって行う。
で検出された音声部分の信号を周波数スペクトルおよび
パワーの時間的変化を示すパラメータベクトル系列に変
換処理する回路である。この変換処理については、すで
に公知の方法、例えば音声信号を線形予測ケプストラム
(以下単にrケプストラム」と呼ぶ)の時系列に変換す
る方法を用いる。これは、音声信号をまず線形予測係数
の時系列に変換し、次にこれをケプストラムに変換する
ことによって行う。
音声信号から線形予測係数への変換処理の概要(例えば
、文献、機素・斉H:統計的手法による音声スペクトル
密度とホルマント周波数の推定、電子通信学会論文誌、
53−A、 1. P、35.1970参照)は、次の
通りである。基本的にはまず低域通過フィルタに通した
のち、標本化及び量子化を行い、一定時間(例えばio
ms)ごとに短区間の波形を切り出してハミング窓等を
乗じ、積和の演算によって相関係数を計算する。その相
関係数から、繰り返し演算処理によって代数方程式を解
くことにより、容易に線形予測係数が抽出されるのであ
る。
、文献、機素・斉H:統計的手法による音声スペクトル
密度とホルマント周波数の推定、電子通信学会論文誌、
53−A、 1. P、35.1970参照)は、次の
通りである。基本的にはまず低域通過フィルタに通した
のち、標本化及び量子化を行い、一定時間(例えばio
ms)ごとに短区間の波形を切り出してハミング窓等を
乗じ、積和の演算によって相関係数を計算する。その相
関係数から、繰り返し演算処理によって代数方程式を解
くことにより、容易に線形予測係数が抽出されるのであ
る。
線形予測係数からケプストラムへの変換処理の詳11(
例えば文献、斉藤・中日:音声情報処理の基礎、オーム
社、第7章、P、102 、1981参照)は省略する
が、線形予測係数を用いた再帰式を演算することにより
処理できる。この変換処理で得られたケプストラムは、
音声区間検出回路2から入力されたパワーと組み合わさ
れて、パラメータベクトルとされ、パラメータベクトル
算出回路3の出力段に接続されている符号帳作成回路4
に供給される。
例えば文献、斉藤・中日:音声情報処理の基礎、オーム
社、第7章、P、102 、1981参照)は省略する
が、線形予測係数を用いた再帰式を演算することにより
処理できる。この変換処理で得られたケプストラムは、
音声区間検出回路2から入力されたパワーと組み合わさ
れて、パラメータベクトルとされ、パラメータベクトル
算出回路3の出力段に接続されている符号帳作成回路4
に供給される。
符号帳作成回路4は、一人または複数の標準話者が発声
した多数の単語の音声信号から算出された多数のパラメ
ータベクトルをクラスタ化するものである。このクラス
タ化は、多数のパラメータベクトルの組を、あらかじめ
定められた一定数の代表的なベクトル値の組にまとめる
ことである。
した多数の単語の音声信号から算出された多数のパラメ
ータベクトルをクラスタ化するものである。このクラス
タ化は、多数のパラメータベクトルの組を、あらかじめ
定められた一定数の代表的なベクトル値の組にまとめる
ことである。
例えば4名の話者が発声した100種類の単語音声から
10m!毎に11次元のベクトル(10次元のケプスト
ラムとパワー)が抽出されているとすると、単語音声の
長さが平均して500s+sであるとすれば、全部で5
0 X 4 X 100−20.000種類の11次元
ベクトルが与えられる。これを例えば1 、024種類
の代表的11次元ベクトルにまとめるには、公知の方法
(文献、!、 Linde+ A、Buzo andR
,M、 Gray : An algorit
lv for vector quanti−z
ation+ 111111 TraIIs、
Commun、、 vol、 C0M−28+
pp。
10m!毎に11次元のベクトル(10次元のケプスト
ラムとパワー)が抽出されているとすると、単語音声の
長さが平均して500s+sであるとすれば、全部で5
0 X 4 X 100−20.000種類の11次元
ベクトルが与えられる。これを例えば1 、024種類
の代表的11次元ベクトルにまとめるには、公知の方法
(文献、!、 Linde+ A、Buzo andR
,M、 Gray : An algorit
lv for vector quanti−z
ation+ 111111 TraIIs、
Commun、、 vol、 C0M−28+
pp。
84−95.1980)を用いることがてきる。この方
法では、amしているベクトルはまとめて一つの平均値
で代表させ、もとの20.006種類のすべてのベクト
ルを1,024種類の代表値のうちの最も近いもので置
き換えたときの、置き換えによる誤差が全体として最も
小さくなるように、代表値が決定される。このようにし
て決定された1、024種類のそれぞれ11次元のベク
トル代表値は、符号帳要素として、符号帳蓄積部5に蓄
積される。符号帳蓄積部5の出力端子と、パラメータベ
クトル算出回路3の出力端子は、単語辞書作成回路6に
接続されている。
法では、amしているベクトルはまとめて一つの平均値
で代表させ、もとの20.006種類のすべてのベクト
ルを1,024種類の代表値のうちの最も近いもので置
き換えたときの、置き換えによる誤差が全体として最も
小さくなるように、代表値が決定される。このようにし
て決定された1、024種類のそれぞれ11次元のベク
トル代表値は、符号帳要素として、符号帳蓄積部5に蓄
積される。符号帳蓄積部5の出力端子と、パラメータベ
クトル算出回路3の出力端子は、単語辞書作成回路6に
接続されている。
単語辞書作成回路6は、一人または複数の話者が発声し
たすべての認識対象語案の音声信号から算出されたパラ
メータベクトル系列を、符号帳蓄積部5に蓄えられてい
る符号帳要素の時系列に変換するものである。この方法
は、各単語の例えば10■3毎のパラメータベクトルと
、すべての符号帳要素との距離を算出して、最も距離の
小さい符号帳要素を選択し、こうして得られた符号帳要
素を示す番号の時系列に変換することによって行う。
たすべての認識対象語案の音声信号から算出されたパラ
メータベクトル系列を、符号帳蓄積部5に蓄えられてい
る符号帳要素の時系列に変換するものである。この方法
は、各単語の例えば10■3毎のパラメータベクトルと
、すべての符号帳要素との距離を算出して、最も距離の
小さい符号帳要素を選択し、こうして得られた符号帳要
素を示す番号の時系列に変換することによって行う。
こうして決定された各単語ごとに一つまたは複数の番号
系列は、単語辞書として単語辞書蓄積部7に蓄えられる
。
系列は、単語辞書として単語辞書蓄積部7に蓄えられる
。
パラメータベクトル算出回路3の出力端子は、学習ベク
トル蓄積部8に接続されている。学習ベクトル蓄積部8
は、認識すべき音声の話者が発声した複数の単語の音声
信号から算出された多数のパラメータベクトル(以下、
「学習用パラメータベクトル」と呼ぶ)の組を蓄えるも
のである。
トル蓄積部8に接続されている。学習ベクトル蓄積部8
は、認識すべき音声の話者が発声した複数の単語の音声
信号から算出された多数のパラメータベクトル(以下、
「学習用パラメータベクトル」と呼ぶ)の組を蓄えるも
のである。
符号帳蓄積部5の出力端子と、学習ベクトル蓄積部8の
出力端子は、階層的クラスタ化回路9に接続されている
0階層的クラスタ化回路9は、符号帳蓄積部5に蓄えら
れているすべての符号帳の要素ベクトル(以下、「符号
帳ベクトル」と呼ぶ)と、学習ベクトル蓄積部8に蓄え
られているすべての学習用パラメータベクトルを階層的
にクラスタ化するものである。この方法は、まずクラス
タ数を1とし、全符号帳ベクトルの平均ベクトル(以下
、「符号帳セントロイド」と呼ぶ)を算出する。同時に
、全学習用パラメータベクトルの平均ベクトル(以下、
「学習音声セントロイド」と呼ぶ)を算出する。この両
者のセントロイドは、階1葡クラスタ化回路9に接続さ
れている区分移動ベクトル算出回路lOに供給される。
出力端子は、階層的クラスタ化回路9に接続されている
0階層的クラスタ化回路9は、符号帳蓄積部5に蓄えら
れているすべての符号帳の要素ベクトル(以下、「符号
帳ベクトル」と呼ぶ)と、学習ベクトル蓄積部8に蓄え
られているすべての学習用パラメータベクトルを階層的
にクラスタ化するものである。この方法は、まずクラス
タ数を1とし、全符号帳ベクトルの平均ベクトル(以下
、「符号帳セントロイド」と呼ぶ)を算出する。同時に
、全学習用パラメータベクトルの平均ベクトル(以下、
「学習音声セントロイド」と呼ぶ)を算出する。この両
者のセントロイドは、階1葡クラスタ化回路9に接続さ
れている区分移動ベクトル算出回路lOに供給される。
区分移動ベクトル算出回路10は、符号帳セントロイド
から学習音声セントロイドを減算することにより、区分
移動ベクトルを求める回路である。
から学習音声セントロイドを減算することにより、区分
移動ベクトルを求める回路である。
このようにして得られた区分移動ベクトルは、学習ベク
トル蓄積部8の内容とともに学習音声適応化回路11に
供給される。
トル蓄積部8の内容とともに学習音声適応化回路11に
供給される。
学習音声適応化回路11は、各学習用パラメータベクト
ルに区分移動ベクトルを加算することによって、学習用
パラメータベクトルを符号帳ベクトルに近付ける適応化
処理を行うものである。適応化処理された学習用パラメ
ータベクトルは、−旦学習ベクトル蓄積部8に蓄えられ
た後、再び階層的クラスタ化回路9に供給される。この
際、学習ベクトル蓄積部8に蓄えられている学習用パラ
メータベクトルの初期値は消去されず、適応化処理され
たベクトルが別に蓄えられる。
ルに区分移動ベクトルを加算することによって、学習用
パラメータベクトルを符号帳ベクトルに近付ける適応化
処理を行うものである。適応化処理された学習用パラメ
ータベクトルは、−旦学習ベクトル蓄積部8に蓄えられ
た後、再び階層的クラスタ化回路9に供給される。この
際、学習ベクトル蓄積部8に蓄えられている学習用パラ
メータベクトルの初期値は消去されず、適応化処理され
たベクトルが別に蓄えられる。
階層的クラスタ化回路9では、クラスタ数を2倍に増や
し、全符号帳ベクトルをクラスタ化して、各クラスタの
平均ベクトルすなわち符号帳セントロイドを算出する0
次に、各学習用パラメータベクトルについて、すべての
符号帳セントロイドとのI!離を計算し、最も距離の小
さい符号帳セントロイドに対応付ける。すべての学習用
パラメータベクトルについて、同じ符号帳セントロイド
に対応付けられたベクトルの平均ベクトルすなわち学習
音声セントロイドを算出する。すべての符号帳セントロ
イドと、対応するすべての学習音声セントロイドは、階
層的クラスタ化回路9に接続されている区分移動ベクト
ル算出回路10に供給される。
し、全符号帳ベクトルをクラスタ化して、各クラスタの
平均ベクトルすなわち符号帳セントロイドを算出する0
次に、各学習用パラメータベクトルについて、すべての
符号帳セントロイドとのI!離を計算し、最も距離の小
さい符号帳セントロイドに対応付ける。すべての学習用
パラメータベクトルについて、同じ符号帳セントロイド
に対応付けられたベクトルの平均ベクトルすなわち学習
音声セントロイドを算出する。すべての符号帳セントロ
イドと、対応するすべての学習音声セントロイドは、階
層的クラスタ化回路9に接続されている区分移動ベクト
ル算出回路10に供給される。
区分移動ベクトル算出回路10では、各符号帳セントロ
イドから対応する学習音声セントロイドを減算すること
により、各セントロイドに対応する区分移動ベクトルが
算出される。このようにして得られた各区分移動ベクト
ルは、学習ベクトル蓄積部8の内容とともに学習音声適
応化回路11に供給される。
イドから対応する学習音声セントロイドを減算すること
により、各セントロイドに対応する区分移動ベクトルが
算出される。このようにして得られた各区分移動ベクト
ルは、学習ベクトル蓄積部8の内容とともに学習音声適
応化回路11に供給される。
学習音声適応化回路11では、各学習用パラメータベク
トルに区分移動ベクトルの重み付き平均値(以下、「適
応化ベクトル」と呼ぶ)を加算することによって、学習
用パラメータベクトルを符号帳ベクトルに近付ける適応
化処理が行われる。
トルに区分移動ベクトルの重み付き平均値(以下、「適
応化ベクトル」と呼ぶ)を加算することによって、学習
用パラメータベクトルを符号帳ベクトルに近付ける適応
化処理が行われる。
適応化ベクトルは、次のようにして算出される。
二こで、a、は1番目の学習用パラメータベクトルに加
算する適応化ベクトル、p、はm番目の区分移動ベクト
ル、Mは区分移動ベクトルの総数(クラスタの数)%W
111は重み係数で、W1+e−1/ l I
C! −u−1l (2)
にょう計算される。ここで、clは1番目の学習用パラ
メータベクトル、U、はm番目の学習音声セントロイド
、II IIはベクトルのノルム(大きさ)の計算
である。適応化処理された学習用パラメータベクトルは
、−旦学習ベクトル蓄積部8に蓄えられた後、再び階層
的クラスタ化回路9に供給される。
算する適応化ベクトル、p、はm番目の区分移動ベクト
ル、Mは区分移動ベクトルの総数(クラスタの数)%W
111は重み係数で、W1+e−1/ l I
C! −u−1l (2)
にょう計算される。ここで、clは1番目の学習用パラ
メータベクトル、U、はm番目の学習音声セントロイド
、II IIはベクトルのノルム(大きさ)の計算
である。適応化処理された学習用パラメータベクトルは
、−旦学習ベクトル蓄積部8に蓄えられた後、再び階層
的クラスタ化回路9に供給される。
階層的クラスタ化回路9では、再度クラスタ数が2倍に
増加され、階層的クチスタ化回路9、区分移動ベクトル
真出回路10、及び学習音声適応化回路11によって、
上記と同様に学習用パラメータベクトルの適応化処理が
行われる。この一連の処理は、クラスタ数がある事前に
定めた数に達するか、適応化ベクトルの大きさがある事
前に定めた値よりも小さくなるまで繰り返される。二の
繰り返し処理が終了すると、学習ベクトル蓄積部8に蓄
えられていた学習用パラメータベクトルの初ItlI(
i!Iが、区分移動ベクトル算出回路10に供給され、
最終状態の適応化された学習用パラメータベクトルとそ
れぞれの初期値の差として、区分移動ベクトルが算出さ
れる0区分移動ベクトルは、区分移動ベクトル算出回路
10の出力段に接続された入力適応化回路12に供給さ
れる。
増加され、階層的クチスタ化回路9、区分移動ベクトル
真出回路10、及び学習音声適応化回路11によって、
上記と同様に学習用パラメータベクトルの適応化処理が
行われる。この一連の処理は、クラスタ数がある事前に
定めた数に達するか、適応化ベクトルの大きさがある事
前に定めた値よりも小さくなるまで繰り返される。二の
繰り返し処理が終了すると、学習ベクトル蓄積部8に蓄
えられていた学習用パラメータベクトルの初ItlI(
i!Iが、区分移動ベクトル算出回路10に供給され、
最終状態の適応化された学習用パラメータベクトルとそ
れぞれの初期値の差として、区分移動ベクトルが算出さ
れる0区分移動ベクトルは、区分移動ベクトル算出回路
10の出力段に接続された入力適応化回路12に供給さ
れる。
次に、認識すべき未知の音声信号が、音声入力端子1に
入力される。この音声信号は、音声区間検出回路2に供
給され、実際の音声の区間が判別される。音声区間と判
別された区間の音声信号は、パラメータベクトル算出回
路3に供給され、パラメータベクトル系列に変換処理さ
れる。パラメータベクトル系列は、入力適応化回路12
に供給される。人力適応化回路12では、パラメータベ
クトル系列中の各ベクトルに適応化ベクトルを加算する
ことによって、パラメータベクトルを符号帳ベクトルに
近付ける適応化処理が行われる。適応化ベクトルは、す
でに同回路に供給されている区分移動ベクトルを用いて
、次のようにして算出される。
入力される。この音声信号は、音声区間検出回路2に供
給され、実際の音声の区間が判別される。音声区間と判
別された区間の音声信号は、パラメータベクトル算出回
路3に供給され、パラメータベクトル系列に変換処理さ
れる。パラメータベクトル系列は、入力適応化回路12
に供給される。人力適応化回路12では、パラメータベ
クトル系列中の各ベクトルに適応化ベクトルを加算する
ことによって、パラメータベクトルを符号帳ベクトルに
近付ける適応化処理が行われる。適応化ベクトルは、す
でに同回路に供給されている区分移動ベクトルを用いて
、次のようにして算出される。
ここで、bjはパラメータベクトル系列中のj番目のベ
クトルに加算する適応化ベクトル、q、、はn番目の区
分移動ベクトル、Nは区分移動ベクトルの総数(学習用
パラメータベクトルの敗)、Vj++は重み係数で、 vjm−1/l l yj t、11 l
(4)により計算される。ここで、yjはj番目のパ
ラメータベクトル、tlはn番目の学習用パラメータベ
クトルである。適応化処理されたパラメータベクトル系
列は、距離行列計算回路13に供給される。
クトルに加算する適応化ベクトル、q、、はn番目の区
分移動ベクトル、Nは区分移動ベクトルの総数(学習用
パラメータベクトルの敗)、Vj++は重み係数で、 vjm−1/l l yj t、11 l
(4)により計算される。ここで、yjはj番目のパ
ラメータベクトル、tlはn番目の学習用パラメータベ
クトルである。適応化処理されたパラメータベクトル系
列は、距離行列計算回路13に供給される。
距離行列計算回路13には、並行して符号帳蓄積部5か
らすべての符号帳要素が供給され、各パラメータベクト
ルと全符号帳要素との距離が計算される。これらの距離
値は、離散化された時間軸と符号帳要素番号をそれぞれ
行と列とする行列の形に並べられて、DP演算回路14
に送られる。
らすべての符号帳要素が供給され、各パラメータベクト
ルと全符号帳要素との距離が計算される。これらの距離
値は、離散化された時間軸と符号帳要素番号をそれぞれ
行と列とする行列の形に並べられて、DP演算回路14
に送られる。
DP演算回路14には、同時に、単語辞書蓄積部7に蓄
えられているすべての認識対象語紮の単語辞書すなわち
符号帳系列が供給される。DP演算回路14は、入力音
声信号のスペクトル系列(以下、「入カバターン」と呼
ぶ)と、各認識対象語索の符号帳系列で表現されるスペ
クトル系列(以下、「標準パターン」と呼ぶ)との類似
の度合(距II)を計算するものである。音声の発声速
度は、同じ話者が同じ単語を繰り返し発声しても、その
度に部分的及び全体的に変化するので、両者を比較する
には、共通の音(音韻)が対応するように、一方の時間
軸を適当に非線形に伸縮して他方の時間軸に合わせ、対
応する時点のパラメータベクトルどうしを比較する必要
がある。この演算は、距離行列と単語辞書を用いた動的
計画法(DP)演算によって行うことができることがす
でに知られているので(文献、管材・古井:擬音韻標準
パタンによる大語い単語音声認識、電子通信学会論文誌
、65−d、 8. P、1041 、1982参照)
、これを用いる。
えられているすべての認識対象語紮の単語辞書すなわち
符号帳系列が供給される。DP演算回路14は、入力音
声信号のスペクトル系列(以下、「入カバターン」と呼
ぶ)と、各認識対象語索の符号帳系列で表現されるスペ
クトル系列(以下、「標準パターン」と呼ぶ)との類似
の度合(距II)を計算するものである。音声の発声速
度は、同じ話者が同じ単語を繰り返し発声しても、その
度に部分的及び全体的に変化するので、両者を比較する
には、共通の音(音韻)が対応するように、一方の時間
軸を適当に非線形に伸縮して他方の時間軸に合わせ、対
応する時点のパラメータベクトルどうしを比較する必要
がある。この演算は、距離行列と単語辞書を用いた動的
計画法(DP)演算によって行うことができることがす
でに知られているので(文献、管材・古井:擬音韻標準
パタンによる大語い単語音声認識、電子通信学会論文誌
、65−d、 8. P、1041 、1982参照)
、これを用いる。
動的計画法の演算によって標準パターンと入カバターン
の11偵度が最も大きくなるように時間軸を対応付けた
ときの、対応する時点どうしの標準パターンと入カバタ
ーンの距離を全音声区間について平均した値(以下、「
総合的距離」と呼ぶ)を計算する。このようにして得ら
れた総合的距離は、DP演算回路14の出力段に接続さ
れた認識判定回路15に出力される。
の11偵度が最も大きくなるように時間軸を対応付けた
ときの、対応する時点どうしの標準パターンと入カバタ
ーンの距離を全音声区間について平均した値(以下、「
総合的距離」と呼ぶ)を計算する。このようにして得ら
れた総合的距離は、DP演算回路14の出力段に接続さ
れた認識判定回路15に出力される。
!!識判定回路15は、供給された総合的距離のうち、
最も値の小さい、すなわち最も類似の度合が高い標準パ
ターンを判別し、この標準パターンの示す単語を、音声
入力端子1から入力された単語であると判定し、その結
果を出力段に接続されている認識結果出力端子16を介
して出力する。
最も値の小さい、すなわち最も類似の度合が高い標準パ
ターンを判別し、この標準パターンの示す単語を、音声
入力端子1から入力された単語であると判定し、その結
果を出力段に接続されている認識結果出力端子16を介
して出力する。
従来においては、適応化に用いる単語をあらかじめ決め
ておいて、その単語を発声した音声から抽出した入カバ
ターンと標準パターンとの動的計画法による時間軸整合
を用い、対応付けられた入カバターンと標準パターンの
スペクトルの差としての移動ベクトルを用いて適応化を
行っていたが、この実施例においては、入力音声と符号
帳とクラスタ化して得られたセントロイドの差に基づい
て算出した移動ベクトルを用いて適応化を行っている。
ておいて、その単語を発声した音声から抽出した入カバ
ターンと標準パターンとの動的計画法による時間軸整合
を用い、対応付けられた入カバターンと標準パターンの
スペクトルの差としての移動ベクトルを用いて適応化を
行っていたが、この実施例においては、入力音声と符号
帳とクラスタ化して得られたセントロイドの差に基づい
て算出した移動ベクトルを用いて適応化を行っている。
その結果として、任意の少数の単語音声あるいは短い文
章音声を用いて適応化が行えるようになり、不特定多数
の発声者に対して、従来技術よりも極めて容易に認識精
度の大きな向上を達成することができる。
章音声を用いて適応化が行えるようになり、不特定多数
の発声者に対して、従来技術よりも極めて容易に認識精
度の大きな向上を達成することができる。
この実施例によれば、都市名100単語を認識対象語當
として、男性4名の標準話者の音声から作成した符号帳
と単語辞書(各単語について411類の符号帳系列)を
蓄積しておき、その話者と異なる男性20名の音声に対
して、任意の10単語音声による適応化の後に認識を行
った場合、96.6%の認識精度を得るに至った。適応
化を行わなかつた場合の認識精度は95.1%であった
ことと比較すると、極めて少数の任意の単語による適応
化処理でありながら、明確な改善効果が得られることが
わかる。
として、男性4名の標準話者の音声から作成した符号帳
と単語辞書(各単語について411類の符号帳系列)を
蓄積しておき、その話者と異なる男性20名の音声に対
して、任意の10単語音声による適応化の後に認識を行
った場合、96.6%の認識精度を得るに至った。適応
化を行わなかつた場合の認識精度は95.1%であった
ことと比較すると、極めて少数の任意の単語による適応
化処理でありながら、明確な改善効果が得られることが
わかる。
この実施例においては符号帳全体をクラスタ化したが、
その符号帳を構成する要素がどの標準話者の音声に属す
るかをあらかじめ明示しておき、入力音声信号に最も近
い標準話者に属する符号帳要素だけを取り出して、クラ
スタ化に用いてもよい、この標準話者の選択は、入力音
声信号から算出されたパラメータベクトルと、各標準話
者に属する符号帳要素との距離を算出して、これら算出
された距離に基づいて行うことができる。この方法によ
って、上記と同様の条件で単語音声認識を行った場合、
97,2%のv2va精度を得るに至った。
その符号帳を構成する要素がどの標準話者の音声に属す
るかをあらかじめ明示しておき、入力音声信号に最も近
い標準話者に属する符号帳要素だけを取り出して、クラ
スタ化に用いてもよい、この標準話者の選択は、入力音
声信号から算出されたパラメータベクトルと、各標準話
者に属する符号帳要素との距離を算出して、これら算出
された距離に基づいて行うことができる。この方法によ
って、上記と同様の条件で単語音声認識を行った場合、
97,2%のv2va精度を得るに至った。
適応化を行わなかった場合に比べて、極めて大きな改善
効果が得られることがわかる。
効果が得られることがわかる。
また、複数の標準話者の音声を用いて符号帳作成を行う
前に、あらかじめ、この発明の技術を用いて、一人の標
準話者の音声から作成した符号帳に、他の標準話者の音
声信号を適応化しておいてもよい、この方法によってあ
らかじめ標準話者間の適応化を行ってから作成した符号
帳を用い、標準話者の選択は行わずにこの符号帳を入力
音声に適応化させた場合、上記と同様の条件で、97.
4%の認識精度を得るに至った。この方法による改善効
果も極めて大きい。
前に、あらかじめ、この発明の技術を用いて、一人の標
準話者の音声から作成した符号帳に、他の標準話者の音
声信号を適応化しておいてもよい、この方法によってあ
らかじめ標準話者間の適応化を行ってから作成した符号
帳を用い、標準話者の選択は行わずにこの符号帳を入力
音声に適応化させた場合、上記と同様の条件で、97.
4%の認識精度を得るに至った。この方法による改善効
果も極めて大きい。
上記の実施例では、認識すべき音声と異なる単語音声を
適応化処理に用いているが、この発明によれば適応化ベ
クトルを算出するための音声として任意の音声が使える
ので、認識すべき未知の音声を一旦蓄積してそれを適応
化処理に用いてもよい、この場合には、話者は適応化の
ための音声を特別に発声する必要がなくなり、−層話者
の負担が少なくなる。
適応化処理に用いているが、この発明によれば適応化ベ
クトルを算出するための音声として任意の音声が使える
ので、認識すべき未知の音声を一旦蓄積してそれを適応
化処理に用いてもよい、この場合には、話者は適応化の
ための音声を特別に発声する必要がなくなり、−層話者
の負担が少なくなる。
上記実施例では入力パラメータベクトルを符号帳に適応
化したが、符号帳を入力パラメータに適応して、その適
応化された符号帳要素と入力パラメータベクトルとの距
離を算出してもよい。
化したが、符号帳を入力パラメータに適応して、その適
応化された符号帳要素と入力パラメータベクトルとの距
離を算出してもよい。
なお、この実施例では、音声の周波数スペクトルを示す
パラメータとして線形予測ケプストラムを用いたが、線
形予測係数、ホルマント周波数、パーコール係数、対数
断面積比、零交差数などを用いてもよい、また、入カバ
ターンと標準パターンの時間軸整合に動的計画法を用い
たが、隠れマルコフモデルなどを用いてもよい。
パラメータとして線形予測ケプストラムを用いたが、線
形予測係数、ホルマント周波数、パーコール係数、対数
断面積比、零交差数などを用いてもよい、また、入カバ
ターンと標準パターンの時間軸整合に動的計画法を用い
たが、隠れマルコフモデルなどを用いてもよい。
以上説明したように、この発明の単語音声認識装置によ
れば、話者が発声した任意の音声を用いで、蓄積されて
いる符号帳に合うように話者の音声信号を適応化するこ
とができ、あるいは話者の音声信号に合うように蓄積さ
れている符号帳を適応化することができるので、少数の
単語音声又は認識すべき音声をそのまま適応化に用いて
、不特定話者に関して高性能な音声認識を行うことがで
きる利点がある。
れば、話者が発声した任意の音声を用いで、蓄積されて
いる符号帳に合うように話者の音声信号を適応化するこ
とができ、あるいは話者の音声信号に合うように蓄積さ
れている符号帳を適応化することができるので、少数の
単語音声又は認識すべき音声をそのまま適応化に用いて
、不特定話者に関して高性能な音声認識を行うことがで
きる利点がある。
第1図は、この発明の実施例を示す単語音声認識装置の
ブロック図である。 特許出願人 日本電信電話株式会社
ブロック図である。 特許出願人 日本電信電話株式会社
Claims (4)
- (1)単語の音声信号の周波数スペクトルおよびパワー
の時間的変化を示すパラメータベクトルを算出するパラ
メータベクトル算出手段と、 一人または複数の標準話者が発生した多数の単語の音声
信号から算出した多数のパラメータベクトルをクラスタ
化して、複数の代表的なベクトル値を符号帳に蓄える符
号帳作成手段と、 各認識対象語彙を、上記符号帳に蓄えられているベクト
ル値の、一つまたは複数の時系列で表現して単語辞書に
蓄える単語辞書作成手段と、入力音声信号から算出され
た多数の入力パラメータベクトルと、上記符号帳の要素
ベクトルを、階層的にクラスタに分割化する手段と、 その分割化された各クラスタごとに上記入力パラメータ
ベクトルを上記符号帳に適応化するための、区分移動方
向ベクトルを決定する手段と、これらの区分移動方向ベ
クトルの加重平均としてすべての入力パラメータベクト
ルを適応化する手段と、 これらの適応化された入力パラメータベクトルと、上記
符号帳の各要素との距離を算出する手段と、 これらの算出された距離と上記単語辞書を用いて、動的
計画法あるいは隠れマルコフモデルによって入力音声と
各認識対象語彙との距離を算出する手段とからなる単語
音声認識装置。 - (2)単語の音声信号の周波数スペクトルおよびパワー
の時間的変化を示すパラメータベクトルを算出するパラ
メータベクトル算出手段と、 一人または複数の標準話者が発声した多数の単語の音声
信号から算出した多数のパラメータベクトルをクラスタ
化して、複数の代表的なベクトル値を符号帳に蓄える符
号帳作成手段と、 各認識対象語彙を、上記符号帳に蓄えられているベクト
ル値の、一つまたは複数の時系列で表現して単語辞書に
蓄える単語辞書作成手段と、入力音声信号から算出され
た多数の入力パラメータベクトルと、上記符号帳の要素
ベクトルを、階層的にクラスタに分割化する手段と、 その分割化された各クラスタごとに上記符号帳を上記入
力パラメータベクトルに適応化するための、区分移動方
向ベクトルを決定する手段と、これらの区分移動方向ベ
クトルの加重平均としてすべての上記符号帳の要素を適
応化する手段と、これらの適応化された符号帳要素と、
入力パラメータベクトルとの距離を算出する手段と、こ
れらの算出された距離と上記単語辞書を用いて、動的計
画法あるいは隠れマルコフモデルによって入力音声と各
認識対象語彙との距離を算出する手段とからなる単語音
声認識装置。 - (3)上記符号帳のどの要素がどの標準話者に属するか
を表示する手段と、 入力音声信号から算出された入力パラメータベクトルと
、各標準話者の符号帳要素との距離を算出する手段と、 これら算出された距離に基づいて、上記入力音声信号に
最も近い標準話者の符号帳を選択する手段を有し、 このようにして選択された符号帳を用いることを特徴と
する請求項1記載の単語音声認識装置。 - (4)上記複数標準話者による符号帳作成を行う前に、
あらかじめ、一人の標準話者から作成した符号帳を用い
て、他の標準話者の音声信号から算出されたパラメータ
ベクトルをその一人の符号帳に適応化しておくことを特
徴とする請求項1、2又は3に記載の単語音声認識装置
。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1042191A JPH02220099A (ja) | 1989-02-21 | 1989-02-21 | 単語音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1042191A JPH02220099A (ja) | 1989-02-21 | 1989-02-21 | 単語音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH02220099A true JPH02220099A (ja) | 1990-09-03 |
Family
ID=12629117
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1042191A Pending JPH02220099A (ja) | 1989-02-21 | 1989-02-21 | 単語音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH02220099A (ja) |
-
1989
- 1989-02-21 JP JP1042191A patent/JPH02220099A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5745873A (en) | Speech recognition using final decision based on tentative decisions | |
| Loizou et al. | High-performance alphabet recognition | |
| US5865626A (en) | Multi-dialect speech recognition method and apparatus | |
| US6009391A (en) | Line spectral frequencies and energy features in a robust signal recognition system | |
| JP3114975B2 (ja) | 音素推定を用いた音声認識回路 | |
| Yu et al. | Speaker recognition using hidden Markov models, dynamic time warping and vector quantisation | |
| JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
| US5459815A (en) | Speech recognition method using time-frequency masking mechanism | |
| US6256607B1 (en) | Method and apparatus for automatic recognition using features encoded with product-space vector quantization | |
| CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
| US6003003A (en) | Speech recognition system having a quantizer using a single robust codebook designed at multiple signal to noise ratios | |
| KR20010102549A (ko) | 화자 인식 방법 및 장치 | |
| JPH08123484A (ja) | 信号合成方法および信号合成装置 | |
| US5832181A (en) | Speech-recognition system utilizing neural networks and method of using same | |
| Paliwal | Lexicon-building methods for an acoustic sub-word based speech recognizer | |
| CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
| JP2898568B2 (ja) | 声質変換音声合成装置 | |
| Devi et al. | A novel approach for speech feature extraction by cubic-log compression in MFCC | |
| Syfullah et al. | Efficient vector code-book generation using K-means and Linde-Buzo-Gray (LBG) algorithm for Bengali voice recognition | |
| JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
| Shaikh Naziya et al. | Speech recognition system—a review | |
| JP2912579B2 (ja) | 声質変換音声合成装置 | |
| Nijhawan et al. | Real time speaker recognition system for hindi words | |
| Li | Speech recognition of mandarin monosyllables | |
| EP1505572A1 (en) | Voice recognition method |