JPH0426480B2 - - Google Patents
Info
- Publication number
- JPH0426480B2 JPH0426480B2 JP59264782A JP26478284A JPH0426480B2 JP H0426480 B2 JPH0426480 B2 JP H0426480B2 JP 59264782 A JP59264782 A JP 59264782A JP 26478284 A JP26478284 A JP 26478284A JP H0426480 B2 JPH0426480 B2 JP H0426480B2
- Authority
- JP
- Japan
- Prior art keywords
- time
- speech
- power
- standard pattern
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Description
【発明の詳細な説明】
「産業上の利用分野」
この発明は入力音声の特徴量の時系列と、対応
する標準パタン音声の時系列との間の類似度を、
これらの時系列の要素間の距離を計算することに
基づき求める音声認識装置に関するものである。
する標準パタン音声の時系列との間の類似度を、
これらの時系列の要素間の距離を計算することに
基づき求める音声認識装置に関するものである。
「従来の技術」
従来のこの種の音声認識装置では、入力音声の
特徴量の時系列〓=〓1,〓2,……〓lとパターン
音声の特徴量の時系列〓=〓1,〓2,……〓nと
に対し、その要素〓iと〓jとの間の距離尺度を各
要素における全パワーを一定に正規化したスペク
トルを用いて求めていた。このため要素〓iが母
音で、要素〓jが子音というように音声パワーが
極端に異なる要素間でも距離がかなり小さくなる
ということが起こり得るという欠点があつた。
特徴量の時系列〓=〓1,〓2,……〓lとパターン
音声の特徴量の時系列〓=〓1,〓2,……〓nと
に対し、その要素〓iと〓jとの間の距離尺度を各
要素における全パワーを一定に正規化したスペク
トルを用いて求めていた。このため要素〓iが母
音で、要素〓jが子音というように音声パワーが
極端に異なる要素間でも距離がかなり小さくなる
ということが起こり得るという欠点があつた。
音声認識においては一つの標準パタンを用いて
なるべく多く人の音声を認識できることが望まし
いが、従来の方法の多くは、個人差の影響の出や
すいスペクトルに基づいた距離を用いていたた
め、母音と子音との誤認識等の誤りが起こりやす
く、特に入力音声が標準パタンと同一の話者のも
のでない場合には認識率の大幅な低下が見られ
た。
なるべく多く人の音声を認識できることが望まし
いが、従来の方法の多くは、個人差の影響の出や
すいスペクトルに基づいた距離を用いていたた
め、母音と子音との誤認識等の誤りが起こりやす
く、特に入力音声が標準パタンと同一の話者のも
のでない場合には認識率の大幅な低下が見られ
た。
この問題に対処するため、スペクトル情報とパ
ワー情報とを併用した音声時系列の要素間マツチ
ング距離尺度を用いる試みも行われている(例え
ば文献、相川、鹿野、古井:パワー情報で重みづ
けた距離による単語音声認識、日本音響学会音声
研究会資料、S81−59,1981参照)。しかしこの
方法では音声の入力レベルによるパワー情報の変
動に対処する必要性から、音声区間全体のパワー
の最大値と最小値とを調べて、これが一定値とな
るように音声パワーを正規化する必要があつた。
このため音声区間が終了するまで、あるいは数秒
間にわたつて音声パワーの変化を調べ、こののち
に距離尺度の計算を開始する必要があり、認識結
果が得られるまでに時間遅れが生じたり、距離尺
度の算出に高速の素子を用いなければならなくな
るという欠点があつた。
ワー情報とを併用した音声時系列の要素間マツチ
ング距離尺度を用いる試みも行われている(例え
ば文献、相川、鹿野、古井:パワー情報で重みづ
けた距離による単語音声認識、日本音響学会音声
研究会資料、S81−59,1981参照)。しかしこの
方法では音声の入力レベルによるパワー情報の変
動に対処する必要性から、音声区間全体のパワー
の最大値と最小値とを調べて、これが一定値とな
るように音声パワーを正規化する必要があつた。
このため音声区間が終了するまで、あるいは数秒
間にわたつて音声パワーの変化を調べ、こののち
に距離尺度の計算を開始する必要があり、認識結
果が得られるまでに時間遅れが生じたり、距離尺
度の算出に高速の素子を用いなければならなくな
るという欠点があつた。
この発明の目的は不特定話者の音声に対しても
従来の方法に比べ、より正確かつ遅れ時間なしで
音声認識ができるようにした単語音声認識装置を
提供することにある。
従来の方法に比べ、より正確かつ遅れ時間なしで
音声認識ができるようにした単語音声認識装置を
提供することにある。
「問題点を解決するための手段」
この発明によれば個人差が少なく、しかも音声
の入力レベルの変動の影響を受けない、音声パワ
ーの時間波形の線形回帰係数の距離をスペクトル
距離と併用する。すなわち入力音声と標準パタン
音声とのそれぞれの特徴量時系列の要素間スペク
トル距離Dsを求めると共に、入力音声と標準パ
タン音声とについてそれぞれ音声パワーの時間波
形から線形回帰係数の時間波形を全時点について
算出し、これら線形回帰係数を用いて入力音声と
標準パタンとの要素間のパワー回帰係数距離Dp
を求める。これらスペクトル距離Dsとパワー回
帰係数距離Dpとから求まる要素間マツチング距
離を用いて、入力音声と標準パタン音声との類似
度を時間正規化マツチングにより計算する。
の入力レベルの変動の影響を受けない、音声パワ
ーの時間波形の線形回帰係数の距離をスペクトル
距離と併用する。すなわち入力音声と標準パタン
音声とのそれぞれの特徴量時系列の要素間スペク
トル距離Dsを求めると共に、入力音声と標準パ
タン音声とについてそれぞれ音声パワーの時間波
形から線形回帰係数の時間波形を全時点について
算出し、これら線形回帰係数を用いて入力音声と
標準パタンとの要素間のパワー回帰係数距離Dp
を求める。これらスペクトル距離Dsとパワー回
帰係数距離Dpとから求まる要素間マツチング距
離を用いて、入力音声と標準パタン音声との類似
度を時間正規化マツチングにより計算する。
「実施例」
第1図はこの発明の実施例を示し、音声入力端
子1に加えられた入力音声信号はまず音声区間検
出回路2によつて無音(雑音)区間が除去されて
実際の音声区間だけが抽出される。この音声区間
の検出にはすでによく知られているいくつかの方
法、例えば入力音声信号波の短時間パワー、ある
一定値以上のパワーが継続する時間等を用いるこ
とができる。検出された音声区間の信号波は線形
予測分析回路3に送られ、線形予測係数とパワー
の時間波形とに変換される。この技術はすでに公
知であるので(例えば文献、板倉、斎藤:統計的
手法による音声スペクトル密度とホルマント周波
数の推定、電子通信学会論文誌、53−A,1,
P35,1970参照)、詳細は省略するが、基本的に
はまず低域フイルタに通したのち標本化及び量子
化を行い、一定時間毎に短区間の波形ハミング窓
等を乗じて切り出し、積和の演算によつてパワー
と相関係数とを計算する。ハミング窓の長さとし
ては例えば30ms、これを更新する周期としては
例えば10msのような値が用いられる。この相関
係数から繰返し演算処理によつて代数方程式を解
くことにより線形予測係数が抽出される。この線
形予測係数は例えば第1次から第10次までの値を
計算する。
子1に加えられた入力音声信号はまず音声区間検
出回路2によつて無音(雑音)区間が除去されて
実際の音声区間だけが抽出される。この音声区間
の検出にはすでによく知られているいくつかの方
法、例えば入力音声信号波の短時間パワー、ある
一定値以上のパワーが継続する時間等を用いるこ
とができる。検出された音声区間の信号波は線形
予測分析回路3に送られ、線形予測係数とパワー
の時間波形とに変換される。この技術はすでに公
知であるので(例えば文献、板倉、斎藤:統計的
手法による音声スペクトル密度とホルマント周波
数の推定、電子通信学会論文誌、53−A,1,
P35,1970参照)、詳細は省略するが、基本的に
はまず低域フイルタに通したのち標本化及び量子
化を行い、一定時間毎に短区間の波形ハミング窓
等を乗じて切り出し、積和の演算によつてパワー
と相関係数とを計算する。ハミング窓の長さとし
ては例えば30ms、これを更新する周期としては
例えば10msのような値が用いられる。この相関
係数から繰返し演算処理によつて代数方程式を解
くことにより線形予測係数が抽出される。この線
形予測係数は例えば第1次から第10次までの値を
計算する。
抽出された線形予測係数の時間波形は、ケプス
トラム変換回路4により線形予測ケプストラム係
数に変換される。この技術もすでに公知であるの
で(例えば文献、斎藤、中田:音声情報処理の基
礎、オーム社、第7章、P102,1981参照)詳細
は省略するが、線形予測係数を用いた再帰式の演
算により、線形予測ケプストラム係数(以下簡単
のため単にケプストラム係数と呼ぶ)を容易に得
ることができる。抽出されたケプストラム係数は
特徴パラメータレジスタ5に一たん蓄えられる。
トラム変換回路4により線形予測ケプストラム係
数に変換される。この技術もすでに公知であるの
で(例えば文献、斎藤、中田:音声情報処理の基
礎、オーム社、第7章、P102,1981参照)詳細
は省略するが、線形予測係数を用いた再帰式の演
算により、線形予測ケプストラム係数(以下簡単
のため単にケプストラム係数と呼ぶ)を容易に得
ることができる。抽出されたケプストラム係数は
特徴パラメータレジスタ5に一たん蓄えられる。
一方、線形予測分析回路3で抽出されたもう一
方の特性であるパワーの時間波形は、その抽出周
期(上述の例では10ms)毎に一定の時間長の区
間の波形が対数変換されたのちパワーレジスタ6
に一たん蓄えられ、このレジスタ6の内容は回帰
係数計算回路7に送られて、線形回帰係数が演算
される。このレジスタ6および回帰係数計算回路
7に入力される時間波形の長さとしては、例えば
50msのような値を用いる。対数パワーの時間波
形xj(j=−M,……M)であらわすと、この線
形回帰係数a(以下ではこれをパワー回帰係数と
呼ぶ)は次の演算で求めることができる。
方の特性であるパワーの時間波形は、その抽出周
期(上述の例では10ms)毎に一定の時間長の区
間の波形が対数変換されたのちパワーレジスタ6
に一たん蓄えられ、このレジスタ6の内容は回帰
係数計算回路7に送られて、線形回帰係数が演算
される。このレジスタ6および回帰係数計算回路
7に入力される時間波形の長さとしては、例えば
50msのような値を用いる。対数パワーの時間波
形xj(j=−M,……M)であらわすと、この線
形回帰係数a(以下ではこれをパワー回帰係数と
呼ぶ)は次の演算で求めることができる。
a=(M
Σj=-M
xj・j)/(M
Σj=-M
j2) ……(1)
パワー回帰係数は上述の周期毎に更新される回
帰係数計算回路7の入力に応じて計算され、ケプ
ストラム係数とあわせて特徴パラメータレジスタ
5に蓄えられる。
帰係数計算回路7の入力に応じて計算され、ケプ
ストラム係数とあわせて特徴パラメータレジスタ
5に蓄えられる。
スイツチ8は学習モードと認識モードとを選択
するスイツチであつて、最初にスイツチ8を端子
8aに接続しておいて、後に認識すべき音声を入
力する本人、あるいはその本人とは異なる複数人
の音声から、各認識対象語彙に対してケプストラ
ム係数とパワー回帰係数からなる特徴パラメータ
波形を求め、特徴パラメータレジスタ5に蓄えた
のち標準パタン蓄積部9に入力し、その語彙の標
準パタンとして蓄える。
するスイツチであつて、最初にスイツチ8を端子
8aに接続しておいて、後に認識すべき音声を入
力する本人、あるいはその本人とは異なる複数人
の音声から、各認識対象語彙に対してケプストラ
ム係数とパワー回帰係数からなる特徴パラメータ
波形を求め、特徴パラメータレジスタ5に蓄えた
のち標準パタン蓄積部9に入力し、その語彙の標
準パタンとして蓄える。
その後の認識すべき音声に対してはスイツチ8
を端子8bに接続しておいて、特徴パラメータレ
ジスタ5の内容を時間正規化マツチング回路10
に入力する。同時に各語彙に対応した標準パタン
を標準パタン蓄積部9から一つ一つ読出し、時間
正規化マツチング回路10に入力する。時間正規
化マツチング回路10では、標準パタンと入力音
声との特徴パラメータの類似性の度合いを計算す
る。
を端子8bに接続しておいて、特徴パラメータレ
ジスタ5の内容を時間正規化マツチング回路10
に入力する。同時に各語彙に対応した標準パタン
を標準パタン蓄積部9から一つ一つ読出し、時間
正規化マツチング回路10に入力する。時間正規
化マツチング回路10では、標準パタンと入力音
声との特徴パラメータの類似性の度合いを計算す
る。
音声の発声速度は同じ話者が同じ言葉を繰返し
発声してもその度ごとに部分的及び全体的に変化
するので、両者を比較するには共通の音(音韻)
が対応するように、一方の時間軸を適当に非線形
に伸縮して他方の時間軸にあわせ、対応する時点
の特徴パラメータどうしを比較する必要がある。
一方を基準にして、両者が最もよくあうように
(両者の類似度が最も大きくなるように)他方の
時間軸を非線形に伸縮する技術としては、動的計
画法による最適化の手法を使用できることが知ら
れている(文献:迫江、千葉:動的計画法を利用
した音声の時間正規化に基づく連続単語認識、日
本音響学会誌、27,9,P483,1971)。
発声してもその度ごとに部分的及び全体的に変化
するので、両者を比較するには共通の音(音韻)
が対応するように、一方の時間軸を適当に非線形
に伸縮して他方の時間軸にあわせ、対応する時点
の特徴パラメータどうしを比較する必要がある。
一方を基準にして、両者が最もよくあうように
(両者の類似度が最も大きくなるように)他方の
時間軸を非線形に伸縮する技術としては、動的計
画法による最適化の手法を使用できることが知ら
れている(文献:迫江、千葉:動的計画法を利用
した音声の時間正規化に基づく連続単語認識、日
本音響学会誌、27,9,P483,1971)。
この発明の装置においても、時間正規化マツチ
ング回路10では動的計画法の演算を行う。標準
パターンのある時点kにおけるケプストラム係数
をCR ki(1ip,pとしては前述のように10の
ような値を用いる)、パワー回帰係数をaR k、入力
音声のある時点lにおけるケプストラム係数を
CI li(1ip)、パワー回帰係数をaI lであらわす
と、ここではケプストラム係数、パワー回帰係数
のそれぞれに関する時点kの標準パタンと時点l
の入力音声との距離(小さくなるほど類似度が大
きいことを示す数値)Ds(k,l),Dp(k,l)
として次のような値を用いる。
ング回路10では動的計画法の演算を行う。標準
パターンのある時点kにおけるケプストラム係数
をCR ki(1ip,pとしては前述のように10の
ような値を用いる)、パワー回帰係数をaR k、入力
音声のある時点lにおけるケプストラム係数を
CI li(1ip)、パワー回帰係数をaI lであらわす
と、ここではケプストラム係数、パワー回帰係数
のそれぞれに関する時点kの標準パタンと時点l
の入力音声との距離(小さくなるほど類似度が大
きいことを示す数値)Ds(k,l),Dp(k,l)
として次のような値を用いる。
Ds(k,l)=p
Σi=1
(CR ki−CI li)2 ……(2)
Dp(k,l)=(aR k−aI l)2 ……(3)
次にこの両者を次のように重みつき加算平均し
たD(k,l)を求め、この値を時点との標準パ
タンと時点lの入力音声の要素間マツチング距離
として、動的計画法の演算を行う。
たD(k,l)を求め、この値を時点との標準パ
タンと時点lの入力音声の要素間マツチング距離
として、動的計画法の演算を行う。
D(k,l)=
√s(,)+(1−)p(,)
……(4) この式で用いる重みWは0以上1以下の値を有
し、この値は予備実験の結果にもとづいて比較的
高い認識精度が得られるように適切な値に定めて
重みレジスタ11に蓄えておく。
……(4) この式で用いる重みWは0以上1以下の値を有
し、この値は予備実験の結果にもとづいて比較的
高い認識精度が得られるように適切な値に定めて
重みレジスタ11に蓄えておく。
動的計画法の演算によつて標準パターンと入力
音声の一致度が最もよくなるように時間軸を対応
づけたときの対応する時点どうしの標準パタンと
入力音声との要素間マツチング距離を全音声区間
について平均した値を計算する。この値を標準パ
タンと入力音声の総合的距離と呼ぶことにする。
各語彙に対応した標準パタンと入力音声との総合
的距離を比較回路12に入力し、論理回路により
これらすべての総合的距離のうち、最も総合的距
離の小さい語彙を判定する。この判定結果は、出
力端子13から出力される。
音声の一致度が最もよくなるように時間軸を対応
づけたときの対応する時点どうしの標準パタンと
入力音声との要素間マツチング距離を全音声区間
について平均した値を計算する。この値を標準パ
タンと入力音声の総合的距離と呼ぶことにする。
各語彙に対応した標準パタンと入力音声との総合
的距離を比較回路12に入力し、論理回路により
これらすべての総合的距離のうち、最も総合的距
離の小さい語彙を判定する。この判定結果は、出
力端子13から出力される。
ところで音声パワーの時間波形は母音部では高
く、子音部では低くなるという基本的性質があ
り、この性質は話者が異なつても不変である。第
2図は4人の話者がそれぞれ2回ずつ発声した
「札幌」という単語の対数パワーの時間波形であ
り、対数パワー時間波形を最大値と最小値とが一
定になるように正規化して示している。この第2
図から理解されるようにパワー時間波形は話者が
変わつてもあまり差異がなく、しかも時間的に比
較的なめらかに変化するので50ms程度の一定区
間を10ms程度ずつずらしながらその一定区間内
の時間波形の線形回帰係数、つまり線形近似した
時の傾斜を求めれば、この値は線形回帰係数の原
理から時間波形が全体的に一定量増減してもその
影響を受けないため、異なる話者に共通し発声レ
ベルの変動の影響を受けない安定した単語の特徴
を抽出することができる。従つてこの実施例のよ
うにパワー回帰係数をケプストラム係数とあわせ
て標準パタンと入力音声の時間正規化マツチング
を行えば、スペクトル(ケプストラム)とパワー
の両方が共に類似した部分どうしがマツチング
し、母音と子音とのマツチングを避けることがで
き、認識率向上をはかることができる。このよう
な構造になつているからその結果として音声区間
全体におけるパワーの最大値と最小値を調べてパ
ワーの時間波形を正規化することなく、パワーの
時間波形に含まれる安定した特徴を用いることに
より、音声が入力されるとただちに認識のための
演算を開始して時間遅れなしに、誰の声に対して
も高い精度で認識結果を出力できる単語音声認識
装置を実現することができる。これまでの実験に
よれば都市名100単語を認識対象として、本人と
異なる話者1名の音声を標準パタンとしたときに
ケプストラム係数のみを用いた従来の装置による
認識率が85.5%であつたのに対し、この実施例の
装置では89.3%の認識率が得られ、この発明が優
れたものであることが確認された。
く、子音部では低くなるという基本的性質があ
り、この性質は話者が異なつても不変である。第
2図は4人の話者がそれぞれ2回ずつ発声した
「札幌」という単語の対数パワーの時間波形であ
り、対数パワー時間波形を最大値と最小値とが一
定になるように正規化して示している。この第2
図から理解されるようにパワー時間波形は話者が
変わつてもあまり差異がなく、しかも時間的に比
較的なめらかに変化するので50ms程度の一定区
間を10ms程度ずつずらしながらその一定区間内
の時間波形の線形回帰係数、つまり線形近似した
時の傾斜を求めれば、この値は線形回帰係数の原
理から時間波形が全体的に一定量増減してもその
影響を受けないため、異なる話者に共通し発声レ
ベルの変動の影響を受けない安定した単語の特徴
を抽出することができる。従つてこの実施例のよ
うにパワー回帰係数をケプストラム係数とあわせ
て標準パタンと入力音声の時間正規化マツチング
を行えば、スペクトル(ケプストラム)とパワー
の両方が共に類似した部分どうしがマツチング
し、母音と子音とのマツチングを避けることがで
き、認識率向上をはかることができる。このよう
な構造になつているからその結果として音声区間
全体におけるパワーの最大値と最小値を調べてパ
ワーの時間波形を正規化することなく、パワーの
時間波形に含まれる安定した特徴を用いることに
より、音声が入力されるとただちに認識のための
演算を開始して時間遅れなしに、誰の声に対して
も高い精度で認識結果を出力できる単語音声認識
装置を実現することができる。これまでの実験に
よれば都市名100単語を認識対象として、本人と
異なる話者1名の音声を標準パタンとしたときに
ケプストラム係数のみを用いた従来の装置による
認識率が85.5%であつたのに対し、この実施例の
装置では89.3%の認識率が得られ、この発明が優
れたものであることが確認された。
ケプストラム係数の線形回帰係数b(ケプスト
ラム回帰係数と呼ぶ)を計算し、ケプストラム係
数とケプストラム回帰係数とパワー回帰係数とを
用いて入力音声と標準パタン音声との類似度を時
間正規化マツチングすることにより、更に高い認
識率を得ることができる。
ラム回帰係数と呼ぶ)を計算し、ケプストラム係
数とケプストラム回帰係数とパワー回帰係数とを
用いて入力音声と標準パタン音声との類似度を時
間正規化マツチングすることにより、更に高い認
識率を得ることができる。
第3図はこの例を示し、第1図と対応する部分
に同一符号を付けて示す。ケプストラム変換回路
4で計算されたケプストラム係数Coは特徴パラ
メータレジスタ5に直接供給されると共に、この
ケプストラム係数Coの時間波形は、一定間隔ご
とに一定の時間長の区間がケプストラムレジスタ
14に一旦蓄えられ、このレジスタ14の内容は
回帰係数計算回路15に送られて、線形回帰係数
(ケプストラム回帰係数)が演算される。このケ
プストラムレジスタ14及び回帰係数計算回路1
5に入力される時間波形の長さとしては、例えば
50ms、これを更新する周期としては、例えば
10msのような値を用いる。ケプストラム係数の
時間波形をyj(j=−M,……M)であらわすと、
このケプストラム回帰係数bは次の演算で求める
ことができる。
に同一符号を付けて示す。ケプストラム変換回路
4で計算されたケプストラム係数Coは特徴パラ
メータレジスタ5に直接供給されると共に、この
ケプストラム係数Coの時間波形は、一定間隔ご
とに一定の時間長の区間がケプストラムレジスタ
14に一旦蓄えられ、このレジスタ14の内容は
回帰係数計算回路15に送られて、線形回帰係数
(ケプストラム回帰係数)が演算される。このケ
プストラムレジスタ14及び回帰係数計算回路1
5に入力される時間波形の長さとしては、例えば
50ms、これを更新する周期としては、例えば
10msのような値を用いる。ケプストラム係数の
時間波形をyj(j=−M,……M)であらわすと、
このケプストラム回帰係数bは次の演算で求める
ことができる。
b=(M
Σj=M
yj・j)/(M
Σj=M
j2) ……(5)
ケプストラム回帰係数bは、各次数のケプスト
ラム係数に対して、10ms毎に更新される回帰係
数計算回路15の入力に応じて計算され、このケ
プストラム回帰係数bはケプストラム係数とあわ
せて2p次元の特徴パラメータとして特徴パラメ
ータレジスタ7に送られて蓄えられる。時間正規
化マツチング回路10では標準パタンのある時点
kにおけるケプストラム係数及びケプストラム回
帰係数をrki(1i2p)、入力音声のある時点
lにおけるケプストラム係数及びケプストラム回
帰係数をxli(1i2p)であらわすと、ここで
両者の距離(小さくなるほど類似度が大きいこと
を示す数値)として次のような値を用いる。
ラム係数に対して、10ms毎に更新される回帰係
数計算回路15の入力に応じて計算され、このケ
プストラム回帰係数bはケプストラム係数とあわ
せて2p次元の特徴パラメータとして特徴パラメ
ータレジスタ7に送られて蓄えられる。時間正規
化マツチング回路10では標準パタンのある時点
kにおけるケプストラム係数及びケプストラム回
帰係数をrki(1i2p)、入力音声のある時点
lにおけるケプストラム係数及びケプストラム回
帰係数をxli(1i2p)であらわすと、ここで
両者の距離(小さくなるほど類似度が大きいこと
を示す数値)として次のような値を用いる。
d=1/2p2p
Σi=1
wi 2(rki−xli)2 ……(6)
i=2pまでとするのはケプストラム係数の次
数がP、ケプストラム回帰係数の次数がPであ
り、両者合せて2Pの次数となるためである。こ
こでwiは各係数に対してあらかじめ定められてい
る重みを示す数値で、この値は予備実験の結果に
もとづいて比較的高い認識精度が得られるように
適切な値に定め、重みレジスタ16に蓄えてお
く。距離dの計算は(6)式に示すように同一時点の
P次のケプストラム係数とP次のケプストラム回
帰係数とについて入力音声と標準パタンとの差の
二乗和として計算しており、つまりケプストラム
係数とケプストラム回帰係数との互に性質が異な
るものを一緒に使つており、これらの平衡をとる
ためにwiの重み付けを行うものであり、従つてwi
の値としてはケプストラム係数について演算する
際に用いるwaと、ケプストラム回帰係数につい
て演算する際に用いるwbとの少くとも二つの値
を用いる。これら重みwa〜wbは重みレジスタ1
6に蓄えておく。
数がP、ケプストラム回帰係数の次数がPであ
り、両者合せて2Pの次数となるためである。こ
こでwiは各係数に対してあらかじめ定められてい
る重みを示す数値で、この値は予備実験の結果に
もとづいて比較的高い認識精度が得られるように
適切な値に定め、重みレジスタ16に蓄えてお
く。距離dの計算は(6)式に示すように同一時点の
P次のケプストラム係数とP次のケプストラム回
帰係数とについて入力音声と標準パタンとの差の
二乗和として計算しており、つまりケプストラム
係数とケプストラム回帰係数との互に性質が異な
るものを一緒に使つており、これらの平衡をとる
ためにwiの重み付けを行うものであり、従つてwi
の値としてはケプストラム係数について演算する
際に用いるwaと、ケプストラム回帰係数につい
て演算する際に用いるwbとの少くとも二つの値
を用いる。これら重みwa〜wbは重みレジスタ1
6に蓄えておく。
時間正規化マツチング回路10では、更に(6)式
で得た時点kの標準パタンと時点lの入力音声と
の距離d(k,l)を(4)式におけるDs(k,l)
として用いて、この(4)式を演算する。その他の動
作は第1図の場合と同様である。
で得た時点kの標準パタンと時点lの入力音声と
の距離d(k,l)を(4)式におけるDs(k,l)
として用いて、この(4)式を演算する。その他の動
作は第1図の場合と同様である。
なお音声特徴量としてケプストラム係数を用い
たが、線形予測係数、ホルマント周波数、パーコ
ール係数、対数断面積比、零交差数などを用いて
もよい。
たが、線形予測係数、ホルマント周波数、パーコ
ール係数、対数断面積比、零交差数などを用いて
もよい。
「発明の効果」
以上説明したように、この発明によればパワー
回帰係数とスペクトル距離とから成る距離を用い
て入力音声と標準パタン音声とのマツチングを行
うため、スペクトル距離のみでは認識誤りを生じ
やすい不特定話者単語音声認識において認識能力
を向上でき、しかもパワーの絶対値の正規化演算
を必要としないため認識演算の時間遅れを生じな
いという利点がある。
回帰係数とスペクトル距離とから成る距離を用い
て入力音声と標準パタン音声とのマツチングを行
うため、スペクトル距離のみでは認識誤りを生じ
やすい不特定話者単語音声認識において認識能力
を向上でき、しかもパワーの絶対値の正規化演算
を必要としないため認識演算の時間遅れを生じな
いという利点がある。
第1図はこの発明の単語音声認識装置の実施例
を機能的に示すブロツク図、第2図は単語「札
幌」の音声対数パワーの時間パタンを示す図、第
3図はこの発明の他の実施例を機能的に示すブロ
ツク図である。 1:音声入力端子、2:音声区間検出回路、
3:線形予測分析回路、4:ケプストラム変換回
路、5:特徴パラメータレジスタ、6:パワーレ
ジスタ、7:回帰係数計算回路、8:スイツチ、
9:標準パターン蓄積部、10:時間正規化マツ
チング回路、11:重みレジスタ、12:比較回
路、13:出力端子。
を機能的に示すブロツク図、第2図は単語「札
幌」の音声対数パワーの時間パタンを示す図、第
3図はこの発明の他の実施例を機能的に示すブロ
ツク図である。 1:音声入力端子、2:音声区間検出回路、
3:線形予測分析回路、4:ケプストラム変換回
路、5:特徴パラメータレジスタ、6:パワーレ
ジスタ、7:回帰係数計算回路、8:スイツチ、
9:標準パターン蓄積部、10:時間正規化マツ
チング回路、11:重みレジスタ、12:比較回
路、13:出力端子。
Claims (1)
- 【特許請求の範囲】 1 入力音声と標準パタン音声とのそれぞれの特
徴量時系列の要素間のスペクトル距離Dsを求め
る手段と、 前記入力音声と標準パタン音声とについてそれ
ぞれ音声パワーの時間波形から線形回帰係数の時
間波形を全時点について導出する手段と、 その線形回帰係数を用いて入力音声と標準パタ
ンとの要素間のパワー回帰係数距離Dpを求める
手段と、 前記スペクトル距離Dsと前記パワー回帰係数
距離Dpから求まる要素間マツチング距離を用い
て前記入力音声と標準パタン音声との類似度を時
間正規化マツチングによつて計算する手段とを有
する単語音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59264782A JPS61141500A (ja) | 1984-12-14 | 1984-12-14 | 単語音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59264782A JPS61141500A (ja) | 1984-12-14 | 1984-12-14 | 単語音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS61141500A JPS61141500A (ja) | 1986-06-28 |
| JPH0426480B2 true JPH0426480B2 (ja) | 1992-05-07 |
Family
ID=17408114
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59264782A Granted JPS61141500A (ja) | 1984-12-14 | 1984-12-14 | 単語音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS61141500A (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2577891B2 (ja) * | 1986-08-06 | 1997-02-05 | 日本電信電話株式会社 | 単語音声予備選択装置 |
| JP6767430B2 (ja) * | 2018-05-29 | 2020-10-14 | ファナック株式会社 | レーザ発振器 |
-
1984
- 1984-12-14 JP JP59264782A patent/JPS61141500A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS61141500A (ja) | 1986-06-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR0123934B1 (ko) | 저렴한 음성 인식 시스템 및 방법 | |
| US5459815A (en) | Speech recognition method using time-frequency masking mechanism | |
| JPH07146699A (ja) | 音声認識方法 | |
| US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
| JP2745535B2 (ja) | 音声認識装置 | |
| JP2001166789A (ja) | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 | |
| US7072750B2 (en) | Method and apparatus for rejection of speech recognition results in accordance with confidence level | |
| Elenius et al. | Effects of emphasizing transitional or stationary parts of the speech signal in a discrete utterance recognition system | |
| JPH0426480B2 (ja) | ||
| IL322559A (en) | Identification of expressive event types for computer speech analysis | |
| JPH07191696A (ja) | 音声認識装置 | |
| JPH0426479B2 (ja) | ||
| JP2834471B2 (ja) | 発音評価法 | |
| JP2506730B2 (ja) | 音声認識方法 | |
| Saxena et al. | A microprocessor based speech recognizer for isolated hindi digits | |
| JP2001083978A (ja) | 音声認識装置 | |
| Hutter | Comparison of classic and hybrid HMM approaches to speech recognition over telephone lines | |
| Furui | A VQ-based preprocessor using cepstral dynamic features for large vocabulary word recognition | |
| JP2577891B2 (ja) | 単語音声予備選択装置 | |
| JPH0455518B2 (ja) | ||
| JPH054680B2 (ja) | ||
| JPS62116997A (ja) | 単語音声認識装置 | |
| JPH0221598B2 (ja) | ||
| Chaudhuri et al. | Automatic Recognition of Isolated Spoken Words with New Features | |
| JPH042197B2 (ja) |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EXPY | Cancellation because of completion of term |