JPH067358B2 - 相対関係に基づく音声認識方式 - Google Patents
相対関係に基づく音声認識方式Info
- Publication number
- JPH067358B2 JPH067358B2 JP63205684A JP20568488A JPH067358B2 JP H067358 B2 JPH067358 B2 JP H067358B2 JP 63205684 A JP63205684 A JP 63205684A JP 20568488 A JP20568488 A JP 20568488A JP H067358 B2 JPH067358 B2 JP H067358B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- vowel
- basic unit
- candidate sequence
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【発明の詳細な説明】 〔概要〕 連続音声中における母音等の認識基本単位の認識方式に
係り、特に不特定話者にも適用可能な相対関係に基づく
音声認識方式に関し、 話者の変動及び調音結合の影響等を受けにくく、かつ、
簡単な構成によって高い認識率で、母音又は子音等の認
識基本単位の認識を可能とすることを目的とし、 同一のものを含む所定複数種類の認識基本単位の組の各
々につき、その組の各認識基本単位から得られる各特徴
量間の特徴空間上の相対的な位置関係の標準パターンを
記憶する相対関係標準パターン記憶手段と、未知入力音
声から各々複数候補ずつの認識基本単位候補系列群を抽
出する予備識別手段と、該認識基本単位候補系列群から
選択される前記所定複数種類の認識基本単位候補の組の
各々につき、その組内の各特徴量と前記相対関係標準パ
ターン記憶手段上のその組に相対する前記相対関係標準
パターンとの整合度を演算し、該各整合度に基づいて前
記認識基本単位候補系列群の中から前記未知入力音声に
対応する最適認識基本単位候補系列を認識する最適認識
基本単位候補系列認識手段とを有するように構成する。
係り、特に不特定話者にも適用可能な相対関係に基づく
音声認識方式に関し、 話者の変動及び調音結合の影響等を受けにくく、かつ、
簡単な構成によって高い認識率で、母音又は子音等の認
識基本単位の認識を可能とすることを目的とし、 同一のものを含む所定複数種類の認識基本単位の組の各
々につき、その組の各認識基本単位から得られる各特徴
量間の特徴空間上の相対的な位置関係の標準パターンを
記憶する相対関係標準パターン記憶手段と、未知入力音
声から各々複数候補ずつの認識基本単位候補系列群を抽
出する予備識別手段と、該認識基本単位候補系列群から
選択される前記所定複数種類の認識基本単位候補の組の
各々につき、その組内の各特徴量と前記相対関係標準パ
ターン記憶手段上のその組に相対する前記相対関係標準
パターンとの整合度を演算し、該各整合度に基づいて前
記認識基本単位候補系列群の中から前記未知入力音声に
対応する最適認識基本単位候補系列を認識する最適認識
基本単位候補系列認識手段とを有するように構成する。
本発明は、連続音声中における母音等の認識基本単位の
認識方式に係り、特に不特定話者にも適用可能な相対関
係に基づく音声認識方式に関する。
認識方式に係り、特に不特定話者にも適用可能な相対関
係に基づく音声認識方式に関する。
音声認識を行う場合、通常は、音声を短いフレーム(数
十msec)に分割し、各フレーム毎に特徴ベクトル(特徴
量)を抽出し、その特徴ベクトルに基づいて認識を行
う。そして、この特徴ベクトルにつき、典型的な標準パ
ターン(例えば母音の場合、5母音)を予め辞書として
記憶させておき、未知入力音声の特徴ベクトルを、辞書
内の各標準パターンと距離尺度を用いてマッチングさせ
ることにより、音声の各部分の認識を行っている。この
ような認識方式を個別認識方式と呼ぶ。
十msec)に分割し、各フレーム毎に特徴ベクトル(特徴
量)を抽出し、その特徴ベクトルに基づいて認識を行
う。そして、この特徴ベクトルにつき、典型的な標準パ
ターン(例えば母音の場合、5母音)を予め辞書として
記憶させておき、未知入力音声の特徴ベクトルを、辞書
内の各標準パターンと距離尺度を用いてマッチングさせ
ることにより、音声の各部分の認識を行っている。この
ような認識方式を個別認識方式と呼ぶ。
一方、母音等に対応する特徴ベクトル間の相対的な距離
関係、すなわち、例えば5母音から選択可能な3母音の
組み合わせの各々につき、3母音の特徴ベクトルの相互
の距離の大小関係を標準パターンとして記憶させてお
き、その相対距離に基づいて認識を行う方式も提案され
ている。
関係、すなわち、例えば5母音から選択可能な3母音の
組み合わせの各々につき、3母音の特徴ベクトルの相互
の距離の大小関係を標準パターンとして記憶させてお
き、その相対距離に基づいて認識を行う方式も提案され
ている。
しかし、一般に、連続音声中から抽出される特徴量は、
音韻性の情報の他に、個人性及び前後の音韻による調音
結合の影響が混在する複雑な形態を示すため、例えば不
特定多数話者を対象とする音声認識では、音韻情報の分
離が困難である。
音韻性の情報の他に、個人性及び前後の音韻による調音
結合の影響が混在する複雑な形態を示すため、例えば不
特定多数話者を対象とする音声認識では、音韻情報の分
離が困難である。
例えば、母音について考案してみると、まず、母音は一
般に周波数軸上の特定の2〜3個の周波数位置にピーク
をもち、このうち低周波数領域の2つの周波数は、第1
ホルマント周波数F1及び第2ホルマント周波数F2と
呼ばれている。そして、F1を横軸、F2を縦軸にとっ
て、5種類の母音{/I/,/E/,/A/,/O/,/U/}の各々につ
いてプロットすると、5母音は第6図の実線で示した5
角形を形成する。従って、このようなホルマント周波数
に良く対応する特徴ベクトルを辞書として持っておけば
認識ができることになるが、実際には、例えば話者が異
なった場合の5種類の母音の形成する5角形は、第6図
の破線及び小文字で示したように変動する。そしてこの
とき、実線の方の母音/0/と、破線の方の母音/u/及び/o
/とが接近し、従って、片方のみの標準パターンを持っ
ているだけでは、これらの母音が相互に誤認識されてし
まう。この問題は、連続音声中の母音が前後の音韻の調
音結合の影響を受ける場合にも同様に発生する。このよ
うに、従来の個別識別法では、話者の変動又は調音結合
の影響等により、認識率が悪くなるという問題点を有し
ている。
般に周波数軸上の特定の2〜3個の周波数位置にピーク
をもち、このうち低周波数領域の2つの周波数は、第1
ホルマント周波数F1及び第2ホルマント周波数F2と
呼ばれている。そして、F1を横軸、F2を縦軸にとっ
て、5種類の母音{/I/,/E/,/A/,/O/,/U/}の各々につ
いてプロットすると、5母音は第6図の実線で示した5
角形を形成する。従って、このようなホルマント周波数
に良く対応する特徴ベクトルを辞書として持っておけば
認識ができることになるが、実際には、例えば話者が異
なった場合の5種類の母音の形成する5角形は、第6図
の破線及び小文字で示したように変動する。そしてこの
とき、実線の方の母音/0/と、破線の方の母音/u/及び/o
/とが接近し、従って、片方のみの標準パターンを持っ
ているだけでは、これらの母音が相互に誤認識されてし
まう。この問題は、連続音声中の母音が前後の音韻の調
音結合の影響を受ける場合にも同様に発生する。このよ
うに、従来の個別識別法では、話者の変動又は調音結合
の影響等により、認識率が悪くなるという問題点を有し
ている。
上記問題点のうち、個人性の問題を解決するためには、
個人性の変動に強い特徴量・距離尺度の選択、変動
に強い標準パターン・認識関数の選択、個人差への適
応化等の解決策が考えられる。,は、統計的手法に
代表され、高い認識率を示すが、標準パターンの設計に
用いた集団の分布から外れた話者に対して、著しく誤り
が多くなる。従って、多数話者を対象とする場合には、
標準パターンの複数化や、学習による適応が必要にな
る。については、予め用意してある標準パターンを話
者の発声に適応して教師なしで修正していく方式がある
が、次のような問題点がある。まず、初期標準パターン
による認識結果をもとにして、その時々の入力音声を修
正に用いるか否かを判断して5母音を個別に修正する
と、誤った方向に修正が行われる危険性がある。また、
修正の方向は正しくても、認識率は必ずしも向上しない
可能性もある。そして、教師なし学習は、このような問
題点を避けるために複雑な認識系を構成する必要があ
る。
個人性の変動に強い特徴量・距離尺度の選択、変動
に強い標準パターン・認識関数の選択、個人差への適
応化等の解決策が考えられる。,は、統計的手法に
代表され、高い認識率を示すが、標準パターンの設計に
用いた集団の分布から外れた話者に対して、著しく誤り
が多くなる。従って、多数話者を対象とする場合には、
標準パターンの複数化や、学習による適応が必要にな
る。については、予め用意してある標準パターンを話
者の発声に適応して教師なしで修正していく方式がある
が、次のような問題点がある。まず、初期標準パターン
による認識結果をもとにして、その時々の入力音声を修
正に用いるか否かを判断して5母音を個別に修正する
と、誤った方向に修正が行われる危険性がある。また、
修正の方向は正しくても、認識率は必ずしも向上しない
可能性もある。そして、教師なし学習は、このような問
題点を避けるために複雑な認識系を構成する必要があ
る。
一方、調音結合の問題では、主に連続母音について、前
後の音韻の影響を考慮した方式が考えられるが、通常の
単語音声中の子音に後続する母音はより複雑な挙動を示
し、その解析も困難である。
後の音韻の影響を考慮した方式が考えられるが、通常の
単語音声中の子音に後続する母音はより複雑な挙動を示
し、その解析も困難である。
また、前記した特徴ベクトル間の相対的な距離関係に基
づいて母音等の認識を行う方式は、第6図の5母音の5
角形は、移動することはあっても、その形自体は話者の
変動等があってもあまり変化しないという事実に基づ
き、5母音の相対的な関係を認識に利用しようという方
式であり、個人性又は調音結合の影響等に比較的強いと
いう利点を有する。しかし、特徴ベクトル間の単純な距
離関係だけでは、情報量が少なすぎ、認識率が必ずしも
高くないという問題点を有している。
づいて母音等の認識を行う方式は、第6図の5母音の5
角形は、移動することはあっても、その形自体は話者の
変動等があってもあまり変化しないという事実に基づ
き、5母音の相対的な関係を認識に利用しようという方
式であり、個人性又は調音結合の影響等に比較的強いと
いう利点を有する。しかし、特徴ベクトル間の単純な距
離関係だけでは、情報量が少なすぎ、認識率が必ずしも
高くないという問題点を有している。
本発明は、話者の変動及び調音結合の影響等を受けにく
く、かつ、簡単な構成によって高い認識率で、母音又は
子音等の認識基本単位の認識を可能とすることを目的と
する。
く、かつ、簡単な構成によって高い認識率で、母音又は
子音等の認識基本単位の認識を可能とすることを目的と
する。
第1図は、本発明による相対関係に基づく音声認識方式
のブロック図である。
のブロック図である。
相対関係標準パターン記憶手段105は、同一のものを
含む所定複数種類の認識基本単位の組の各々につき、そ
の組の各認識基本単位から得られる各特徴量間の特徴空
間上の相対的な位置関係の標準パターン106を記憶す
る。同手段は、例えば同一のものを含む2種類の母音の
組の各々につき、その組の各母音から得られる各特徴ベ
クトルの差ベクトルの標準パターンを記憶する差ベクト
ル標準パターン記憶手段により実現される。そして、こ
の差ベクトル標準パターン記憶手段には、例えば2種類
の母音の組の各々につき、その組の複数の学習のサンプ
ルから得られる差ベクトルの平均差ベクトルと共分散行
列が前記差ベクトル標準パターンとして記憶される。
含む所定複数種類の認識基本単位の組の各々につき、そ
の組の各認識基本単位から得られる各特徴量間の特徴空
間上の相対的な位置関係の標準パターン106を記憶す
る。同手段は、例えば同一のものを含む2種類の母音の
組の各々につき、その組の各母音から得られる各特徴ベ
クトルの差ベクトルの標準パターンを記憶する差ベクト
ル標準パターン記憶手段により実現される。そして、こ
の差ベクトル標準パターン記憶手段には、例えば2種類
の母音の組の各々につき、その組の複数の学習のサンプ
ルから得られる差ベクトルの平均差ベクトルと共分散行
列が前記差ベクトル標準パターンとして記憶される。
予備識別手段102は、未知入力音声101から各々複
数候補ずつの認識基本単位候補系列群103を抽出す
る。同手段は、例えば5母音の各母音毎の特徴量の標準
パターンを記憶する母音別標準パターン記憶手段と、未
知入力単語音声101を時間軸方向に分割した複数フレ
ームから複数の母音区間とその区間の特徴量を抽出する
母音区間抽出手段と、各母音区間毎に、その区間の特徴
量と母音別標準パターン記憶手段上の各標準パターンと
のマッチングをとることにより、各母音区間毎に3位ま
での母音候補を識別し、3候補ずつの母音候補系列群と
して出力する母音候補系列群生成手段とによって実現さ
れる。
数候補ずつの認識基本単位候補系列群103を抽出す
る。同手段は、例えば5母音の各母音毎の特徴量の標準
パターンを記憶する母音別標準パターン記憶手段と、未
知入力単語音声101を時間軸方向に分割した複数フレ
ームから複数の母音区間とその区間の特徴量を抽出する
母音区間抽出手段と、各母音区間毎に、その区間の特徴
量と母音別標準パターン記憶手段上の各標準パターンと
のマッチングをとることにより、各母音区間毎に3位ま
での母音候補を識別し、3候補ずつの母音候補系列群と
して出力する母音候補系列群生成手段とによって実現さ
れる。
最適認識基本単位候補系列認識手段104は、認識基本
単位候補系列群103から選択される前記所定複数種類
の認識基本単位候補の組の各々につき、その組内の各特
徴量と相対関係標準パターン記憶手段105上のその組
に対応する相対関係標準パターン106との整合度を演
算し、該各整合度に基づいて認識基本単位候補系列群1
03の中から未知入力音声101に対応する最適認識基
本単位候補系列107を認識する。同手段は、例えば前
記母音候補系列群から選択される前記2種類の母音の組
の各々につき、その組内の各特徴ベクトルの差ベクトル
を演算し該差ベクトルと前記差ベクトル標準パターン記
憶手段上のその組に対応する前記差ベクトル標準パター
ンとの整合度を演算し、その整合度に基づいて前記母音
候補系列群の中から前記未知入力音声101に対応する
最適母音候補系列を認識する手段により実現される。そ
して、そのときの整合度の演算は、2種類の母音の各組
の生起確率が等しく、整合を行うべき組における差ベク
トルの確率分布が、前記差ベクトル標準パターン記憶手
段上のその組に対応する前記平均差ベクトルと前記共分
散行列とで定まる多次元正規分布に従うと仮定した場合
の、整合を行うべき差ベクトルを入力とするベイズ識別
関数を求める演算により実現される。そして、各整合度
からの最適母音候補系列の認識は、確率的弛緩法により
前記母音候補系列群の各母音候補の確率を各整合度に基
づいて更新し、所定回数の更新動作の後、各母音候補毎
に各々の確率が最も高くなった母音候補を選択して母音
候補系列を認識する動作により実現される。
単位候補系列群103から選択される前記所定複数種類
の認識基本単位候補の組の各々につき、その組内の各特
徴量と相対関係標準パターン記憶手段105上のその組
に対応する相対関係標準パターン106との整合度を演
算し、該各整合度に基づいて認識基本単位候補系列群1
03の中から未知入力音声101に対応する最適認識基
本単位候補系列107を認識する。同手段は、例えば前
記母音候補系列群から選択される前記2種類の母音の組
の各々につき、その組内の各特徴ベクトルの差ベクトル
を演算し該差ベクトルと前記差ベクトル標準パターン記
憶手段上のその組に対応する前記差ベクトル標準パター
ンとの整合度を演算し、その整合度に基づいて前記母音
候補系列群の中から前記未知入力音声101に対応する
最適母音候補系列を認識する手段により実現される。そ
して、そのときの整合度の演算は、2種類の母音の各組
の生起確率が等しく、整合を行うべき組における差ベク
トルの確率分布が、前記差ベクトル標準パターン記憶手
段上のその組に対応する前記平均差ベクトルと前記共分
散行列とで定まる多次元正規分布に従うと仮定した場合
の、整合を行うべき差ベクトルを入力とするベイズ識別
関数を求める演算により実現される。そして、各整合度
からの最適母音候補系列の認識は、確率的弛緩法により
前記母音候補系列群の各母音候補の確率を各整合度に基
づいて更新し、所定回数の更新動作の後、各母音候補毎
に各々の確率が最も高くなった母音候補を選択して母音
候補系列を認識する動作により実現される。
以上の手段において、まず、認識の基本となる整合度の
計算において、所定複数種類の認識基本単位の組の各々
につき、その組の各認識基本単位から得られる各特徴量
間の特徴空間上の相対的な位置関係を用いることによ
り、話者の変動や調音結合の影響に左右されにくい整合
度の演算が可能となる。これにより、単純に特徴量間の
距離によって認識基本単位間の相対関係を表現する方式
等に比較して、認識基本単位間の相対関係に関する情報
がはるかに多く抽出され、精度の高い認識処理が実現さ
れる。
計算において、所定複数種類の認識基本単位の組の各々
につき、その組の各認識基本単位から得られる各特徴量
間の特徴空間上の相対的な位置関係を用いることによ
り、話者の変動や調音結合の影響に左右されにくい整合
度の演算が可能となる。これにより、単純に特徴量間の
距離によって認識基本単位間の相対関係を表現する方式
等に比較して、認識基本単位間の相対関係に関する情報
がはるかに多く抽出され、精度の高い認識処理が実現さ
れる。
次に、本発明では、予備識別手段102で抽出される各
々複数候補ずつの認識基本単位候補系列群103を認識
に使用することにより、真の認識基本単位候補が除外さ
れてしまうのを防いでいる。
々複数候補ずつの認識基本単位候補系列群103を認識
に使用することにより、真の認識基本単位候補が除外さ
れてしまうのを防いでいる。
更に、本発明では、認識対象を認識基本単位候補系列群
とし、そのような系列群に対して、そこから選択される
前記所定複数種類の認識基本単位候補の組の整合度を順
次評価し、それらを総合して全体的に高く評価された系
列を最適認識基本単位候補系列として認識している。従
って、本発明では、多くの認識基本単位候補を用いて総
合的な評価を行うことにより、個人性や調音結合の影響
による個々の認識基本単位の曖味性を減少させ、前記整
合度の利用による効果とあいまって、安定かつ精度の高
い認識が行われる。
とし、そのような系列群に対して、そこから選択される
前記所定複数種類の認識基本単位候補の組の整合度を順
次評価し、それらを総合して全体的に高く評価された系
列を最適認識基本単位候補系列として認識している。従
って、本発明では、多くの認識基本単位候補を用いて総
合的な評価を行うことにより、個人性や調音結合の影響
による個々の認識基本単位の曖味性を減少させ、前記整
合度の利用による効果とあいまって、安定かつ精度の高
い認識が行われる。
特にこの場合、最適認識基本単位候補系列の選択のため
に確率的弛緩法を採用することにより、認識基本単位候
補系列群の全ての系列の組み合わせについて計算を行う
必要性を回避し、効率の高い処理を実現している。
に確率的弛緩法を採用することにより、認識基本単位候
補系列群の全ての系列の組み合わせについて計算を行う
必要性を回避し、効率の高い処理を実現している。
以下、本発明の実施例につき詳細に説明を行う。
{本発明の実施例の構成} 第2図は、本発明の実施例の構成図である。未知入力音
声201は、特徴ベクトル抽出部202に入力し、ここ
で10次のメル・ケプストラム係数である特徴ベクトル
が抽出される。
声201は、特徴ベクトル抽出部202に入力し、ここ
で10次のメル・ケプストラム係数である特徴ベクトル
が抽出される。
次に、その特徴ベクトル及び同時に求まる対数パワー
(後述する)は母音特徴ベクトル系列抽出部203に入
力し、ここで未知入力音声201の母音区間が抽出さ
れ、その区間の母音特徴ベクトル系列(後述する)が抽
出される。
(後述する)は母音特徴ベクトル系列抽出部203に入
力し、ここで未知入力音声201の母音区間が抽出さ
れ、その区間の母音特徴ベクトル系列(後述する)が抽
出される。
続いて、母音特徴ベクトル系列は予備識別部204に入
力する。ここでは、上記母音特徴ベクトル系列の各特徴
ベクトルと、母音別標準パターン記憶部205に予め記
憶されている5母音別の各特徴ベクトルの標準パターン
とがパターンマッチングされ、各々第3位までの候補か
らなる母音候補系列群が識別される。
力する。ここでは、上記母音特徴ベクトル系列の各特徴
ベクトルと、母音別標準パターン記憶部205に予め記
憶されている5母音別の各特徴ベクトルの標準パターン
とがパターンマッチングされ、各々第3位までの候補か
らなる母音候補系列群が識別される。
母音候補系列群は、更に最適母音候補系列抽出部206
に入力する。ここでは、相対関係標準パターン記憶部2
07に予め記憶されている相対関係標準パターンに基づ
いて、母音候補系列群の中から最も良く相対関係を満た
す母音候補系列を最適母音候補系列として出力して、未
知入力音声201の最適認識結果とする。
に入力する。ここでは、相対関係標準パターン記憶部2
07に予め記憶されている相対関係標準パターンに基づ
いて、母音候補系列群の中から最も良く相対関係を満た
す母音候補系列を最適母音候補系列として出力して、未
知入力音声201の最適認識結果とする。
{本発明の実施例の動作} 上記実施例の動作につき以下に説明を行う。
整合度演算方式の第1の実施例の動作 まず、第2図の実施例の説明を行う前に、本実施例の全
体動作の基本となる整合度演算方式の第1の実施例につ
き説明を行う。
体動作の基本となる整合度演算方式の第1の実施例につ
き説明を行う。
機械による母音認識は、入力の母音を個別・独立に認識
する方式が一般的である。しかし、母音を個別に見た場
合、「発明が解決しようとする課題」の項で説明したよ
うに、話者の個人差及び前後の音韻による調音結合の影
響を受けて、各母音の特徴空間上の特性は複雑に変化す
る。
する方式が一般的である。しかし、母音を個別に見た場
合、「発明が解決しようとする課題」の項で説明したよ
うに、話者の個人差及び前後の音韻による調音結合の影
響を受けて、各母音の特徴空間上の特性は複雑に変化す
る。
一方、母音間に何らかの相関があるとすれば、母音を系
列として捉え、総合的に評価することにより、認識の精
度を高めることができる。ここで、第6図で説明したよ
うに、母音の第1、第2ホルマント平面における5母音
の5角形は話者の変動や発声の変動に対して、その相対
的な位置関係を良く保存している。
列として捉え、総合的に評価することにより、認識の精
度を高めることができる。ここで、第6図で説明したよ
うに、母音の第1、第2ホルマント平面における5母音
の5角形は話者の変動や発声の変動に対して、その相対
的な位置関係を良く保存している。
そこで、本実施例では、まず、5母音から選択される各
2母音間の相対的な位置関係を表す2項関係の整合度を
以下のようにして定義する。
2母音間の相対的な位置関係を表す2項関係の整合度を
以下のようにして定義する。
今、入力として2母音(特徴ベクトルxp,xq,次元数m)
が与えられた場合、それらが母音組(vi,vj)である確か
らしさ、すなわち、母音組(vi,vj)に対する特徴ベクト
ル(xp,xq)の整合度をRvivj(xp,xq)で表し、2項関数の
整合度と呼ぶことにする。但し、vi,vj∈Vで、V={/i
/,/e/,/a/,/o/,/u/}とする。
が与えられた場合、それらが母音組(vi,vj)である確か
らしさ、すなわち、母音組(vi,vj)に対する特徴ベクト
ル(xp,xq)の整合度をRvivj(xp,xq)で表し、2項関数の
整合度と呼ぶことにする。但し、vi,vj∈Vで、V={/i
/,/e/,/a/,/o/,/u/}とする。
ここで、2母音の特徴ベクトルxp,xqの差ベクトルを、 Δpq=xp-xq としたとき、2項関係の整合度Rvivjを以下のように定
義する。
義する。
ここで、Δvivjは、母音組(vi,vj)に対する特徴ベクト
ルを各々xvi,xvjとするとき、 Δvivj=xvi−xvjの平均ベクトル、Σvivjは、次に述べ
るようにして求まる共分散行列であり、{Σvivj}−1
はその逆行列である。
ルを各々xvi,xvjとするとき、 Δvivj=xvi−xvjの平均ベクトル、Σvivjは、次に述べ
るようにして求まる共分散行列であり、{Σvivj}−1
はその逆行列である。
まず、複雑の話者による学習用母音をM個のグループに
分割し、各グループ内には5母音が各々N個あるものと
する。グループ番号g(1≦g≦N)における母音vkの第p
番目(1≦p≦N)の学習資料をx(g)vkpとおいたとき、母
音組(vi,vj)の共分散行列Σvivjを次式で定義する。
分割し、各グループ内には5母音が各々N個あるものと
する。グループ番号g(1≦g≦N)における母音vkの第p
番目(1≦p≦N)の学習資料をx(g)vkpとおいたとき、母
音組(vi,vj)の共分散行列Σvivjを次式で定義する。
一般に、グループ数Mは学習資料に使われる話者数に等
しくするのが妥当である。
しくするのが妥当である。
ここで、前記(1)式は、母音組(vi,vj)において、その特
徴ベクトルxvi,xvjの差ベクトルΔvivj=xvi−xvjの確
率分布が、多次元の正規分布 に従うと仮定した場合の、未知入力である差ベクトルΔ
pqを入力するベイズ識別関数を対数表現したものであ
る。
徴ベクトルxvi,xvjの差ベクトルΔvivj=xvi−xvjの確
率分布が、多次元の正規分布 に従うと仮定した場合の、未知入力である差ベクトルΔ
pqを入力するベイズ識別関数を対数表現したものであ
る。
ベイズ識別関数は、一般にカゲゴリΩiにつき、 Gi(x)=P(x|Ωi)・P(Ωi) ・・・(2) として与えられる。この式は、入力xがカゲゴリΩiに
含まれる確率に示している。上記(2)式について対数表
現をしても大小関係は不変であるので、一般にベイズ識
別関数Gi(x)は、(2)式の対数をとって、 Gi(x)=logP(x|Ωi)+logP(Ωi) ・・・(3) で与えられる。上記(3)式において、未知入力xが前記
の差ベクトルΔpqで、また、カテゴリΩiが母音組(vi,
vj)で、その特徴ベクトルxvi,xvjの差ベクトルΔvivj=
xvi,xvjの確率分布が、多次元の正規分布 に従うと仮定し、かつ、母音組(vi,vj)の生起確率が他
の母音組のそれと等しいと仮定して(3)式の左辺第2項
を省略することにより、前記(1)式が得られる。従っ
て、(1)式の意味を前記(2)式と同様に考えると、差ベク
トルΔpqに対応する未知入力の母音組が、母音組(vi,
vj)である確からしさを整合度Rvivjと定義しているこ
とにほかならない。
含まれる確率に示している。上記(2)式について対数表
現をしても大小関係は不変であるので、一般にベイズ識
別関数Gi(x)は、(2)式の対数をとって、 Gi(x)=logP(x|Ωi)+logP(Ωi) ・・・(3) で与えられる。上記(3)式において、未知入力xが前記
の差ベクトルΔpqで、また、カテゴリΩiが母音組(vi,
vj)で、その特徴ベクトルxvi,xvjの差ベクトルΔvivj=
xvi,xvjの確率分布が、多次元の正規分布 に従うと仮定し、かつ、母音組(vi,vj)の生起確率が他
の母音組のそれと等しいと仮定して(3)式の左辺第2項
を省略することにより、前記(1)式が得られる。従っ
て、(1)式の意味を前記(2)式と同様に考えると、差ベク
トルΔpqに対応する未知入力の母音組が、母音組(vi,
vj)である確からしさを整合度Rvivjと定義しているこ
とにほかならない。
上記考案より、2母音の次元数mの特徴ベクトルxp,xq
の母音組(vi,vj)に対する整合度Rvivj(xp,xq)は、2母
音の特徴ベクトルの差ベクトルとして表現される特徴空
間上でのm次元の相対的な位置関係を評価尺度とした場
合に、入力した母音組が母音組(vi,vj)にどの程度似て
いるかということを表現している。
の母音組(vi,vj)に対する整合度Rvivj(xp,xq)は、2母
音の特徴ベクトルの差ベクトルとして表現される特徴空
間上でのm次元の相対的な位置関係を評価尺度とした場
合に、入力した母音組が母音組(vi,vj)にどの程度似て
いるかということを表現している。
そして、この相対的な位置関係は、話者の変動や発声の
変動に対して良く保存され、従って、不特定話者の音声
認識装置を構成する上で、有効な評価尺度となる。
変動に対して良く保存され、従って、不特定話者の音声
認識装置を構成する上で、有効な評価尺度となる。
従って、5母音から同一のものを含む2母音ずつを選択
して得た各母音組(vi,vj)に対応する を辞書として記憶させ、未知入力の母音組について、辞
書の各母音組に対する整合度を計算することにより、そ
の整合度の高さを母音認識のための有効な評価尺度とす
ることができる。
して得た各母音組(vi,vj)に対応する を辞書として記憶させ、未知入力の母音組について、辞
書の各母音組に対する整合度を計算することにより、そ
の整合度の高さを母音認識のための有効な評価尺度とす
ることができる。
なお、本実施例では、上記各母音組(vi,vj)に対応する を相対関係標準パターンとして、第2図の相対関係標準
パターン記憶部207にあらかじめ記憶させておくが、 であるから、同一母音関係を含めて全部で15組準備し
ておけばよいことになる。
パターン記憶部207にあらかじめ記憶させておくが、 であるから、同一母音関係を含めて全部で15組準備し
ておけばよいことになる。
母音系列の認識動作 上記2項関係の整合度を利用して、母音系列の認識を行
う第2図の実施例の動作につき、以下に説明を行う。
う第2図の実施例の動作につき、以下に説明を行う。
まず、未知入力音声201は、第2図の特徴ベクトル抽
出部202に入力する。ここでの動作フローチャートを
第3図に示す。以下、これに従って動作説明を行う。
出部202に入力する。ここでの動作フローチャートを
第3図に示す。以下、これに従って動作説明を行う。
まず、未知入力音声201は、カットオフ周波数9kH
z、−40dB/octのローパスフィルタ(LPF)に通
される(S301)。
z、−40dB/octのローパスフィルタ(LPF)に通
される(S301)。
続いて、20kHz、12bitの符号付きでA/D変換
され、ディジタル音声信号に変換される(S302)。
され、ディジタル音声信号に変換される(S302)。
次に、この信号に対して、パワーの時間的な変化が演算
され、一定閾値を設定することにより、単語区間が自動
的に切り出される(S303)。
され、一定閾値を設定することにより、単語区間が自動
的に切り出される(S303)。
続いて、このようにして切り出された単語区間の先頭か
ら順に、1次差分による高域強調の後、窓長25.6msec(H
amming Window)、更新周期12.8msecで各フレームのディ
ジタル音声信号が切り出される(S304)。
ら順に、1次差分による高域強調の後、窓長25.6msec(H
amming Window)、更新周期12.8msecで各フレームのディ
ジタル音声信号が切り出される(S304)。
その後、そのフレームのディジタル音声信号に対して、
512ポイントのFFT(高速フーリエ変換)分析を行
い、対数化して対数パワースペクトルに変換する(S3
05)。
512ポイントのFFT(高速フーリエ変換)分析を行
い、対数化して対数パワースペクトルに変換する(S3
05)。
上記処理により求められた512ポイントパワースペク
トルに対して、メル周波数上を50チャネルに等分割し
たバンドパスフィルタ(BPF)を構成し、周波数軸を
メル尺度に変換して50チャネルのメル化した対数パワ
ースペクトルを求める(S306)。
トルに対して、メル周波数上を50チャネルに等分割し
たバンドパスフィルタ(BPF)を構成し、周波数軸を
メル尺度に変換して50チャネルのメル化した対数パワ
ースペクトルを求める(S306)。
次のケプストラム分析(S307)は、上記50チャネ
ルのうち、1〜40チャネルまでの出力を20チャネル
に圧縮した後、次式のコサイン展開を行う。
ルのうち、1〜40チャネルまでの出力を20チャネル
に圧縮した後、次式のコサイン展開を行う。
ここで、Ciはi次のメル・ケプストラム係数、Xkは
圧縮後のkチャネルのパワースペクトルである。母音認
識においては、直流分(Co)は必要なく、また、各係
数は正規化されていた方が取扱が簡単で、かつ、識別結
果にほとんど影響を及ぼさないので、以下のようにノル
ムを1にする正規化を行う。
圧縮後のkチャネルのパワースペクトルである。母音認
識においては、直流分(Co)は必要なく、また、各係
数は正規化されていた方が取扱が簡単で、かつ、識別結
果にほとんど影響を及ぼさないので、以下のようにノル
ムを1にする正規化を行う。
更に、後述する認識処理には20次までのメル・ケプス
トラム係数のうち低次の1〜10次までの係数を使用す
る。
トラム係数のうち低次の1〜10次までの係数を使用す
る。
上記処理を、1単語区間の全フレームについて繰り返し
(S308→S304)、これにより得られる全フレー
ム分の正規化されたメル・ケプストラム係数を、特徴ベ
クトルとして第2図の特徴ベクトル抽出部202から出
力する(S309)。
(S308→S304)、これにより得られる全フレー
ム分の正規化されたメル・ケプストラム係数を、特徴ベ
クトルとして第2図の特徴ベクトル抽出部202から出
力する(S309)。
次に、第2図の母音特徴ベクトル系列抽出部203の動
作について説明を行う。
作について説明を行う。
ここでは、未知入力音声201から母音区間を抽出し、
前記処理により抽出された特徴ベクトルのうち母音区間
に対応するものから母音特徴ベクトル系列を抽出する。
そのためのアルゴリズムを以下に示す。
前記処理により抽出された特徴ベクトルのうち母音区間
に対応するものから母音特徴ベクトル系列を抽出する。
そのためのアルゴリズムを以下に示す。
前記特徴ベクトル抽出部202から出力された特徴ベ
クトルと、前記第3図のS305で求まる対数パワーを
用い、主にその時間変化の極大点を区間(ゼグメント)
の境界とする。
クトルと、前記第3図のS305で求まる対数パワーを
用い、主にその時間変化の極大点を区間(ゼグメント)
の境界とする。
区間毎に、無声化、パワー・ディップ、過渡部等のラ
ベル付けを行い、それを基に、母音区間の判別を行う。
ベル付けを行い、それを基に、母音区間の判別を行う。
母音区間内で最も変化の小さい安定なフレームを母音
の中心フレームとする。そして、中心フレームを含む3
フレームを切り出し、そのメル・ケプストラム係数の平
均値をもって、この区間の代表値とし、後述する認識処
理に使用する。
の中心フレームとする。そして、中心フレームを含む3
フレームを切り出し、そのメル・ケプストラム係数の平
均値をもって、この区間の代表値とし、後述する認識処
理に使用する。
以上のアルゴリズムにより求まる長さnの母音特徴ベク
トル系列を(x1,x2,・・・,xn)とする。ここで、xp(p=
1,2,・・・,n)は、各々10次のメル・ケプストラム係
数からなる特徴ベクトルであり、各母音区間の周波数包
絡特性をパラメータ化したものである。
トル系列を(x1,x2,・・・,xn)とする。ここで、xp(p=
1,2,・・・,n)は、各々10次のメル・ケプストラム係
数からなる特徴ベクトルであり、各母音区間の周波数包
絡特性をパラメータ化したものである。
続いて、第2図の予備識別部204の動作につき説明を
行う。
行う。
ここでは、母音特徴ベクトル系列抽出部203で求まる
上記母音特徴ベクトル系列の各々にちき、パターンマッ
チングによる予備識別を行う。
上記母音特徴ベクトル系列の各々にちき、パターンマッ
チングによる予備識別を行う。
そのために、第2図の母音別標準パターン記憶部205
に、予め5母音の特徴ベクトルの代表的な標準パターン
が記憶されている。
に、予め5母音の特徴ベクトルの代表的な標準パターン
が記憶されている。
そして、母音特徴ベクトル系列抽出部203では母音特
徴ベクトル系列((x1,x2,・・・,xn)を順次入力し、各x
p(p=1,2,・・・,n)毎に、母音識別標準パターン記憶
部205上の各母音別標準パターンとパターンマッチン
グを行い、第3位まで候補を求めて、母音候補系列群を
作成する。このとき、p番目の母音特徴ベクトルxp(p
=1,2,・・・,n)の母音候補を c(p)=(c(p) 1,c(p) 2,c(p) 3)t で表す。但し、第i候補c(p) iは5母音のいずれかを指
すものとする。すなわち、c(p) i∈V、 V={/i/,/e/,/a/,/o/,/u/},(i=1,2,3)である。また、
tは転置を表す。ここで、母音候補として第3候補まで
考慮するのは、5つの母音候補のうち第3候補までとれ
ば、その中に正しい候補が含まれていると考えられるか
らである。実際、上記のような簡単な予備識別処理で
も、第3位までに正しい母音が入る割合は99.5%程
度にまでなり、実用上問題ない。以上の処理により、第
2図に示すような母音候補系列群が出力される。
徴ベクトル系列((x1,x2,・・・,xn)を順次入力し、各x
p(p=1,2,・・・,n)毎に、母音識別標準パターン記憶
部205上の各母音別標準パターンとパターンマッチン
グを行い、第3位まで候補を求めて、母音候補系列群を
作成する。このとき、p番目の母音特徴ベクトルxp(p
=1,2,・・・,n)の母音候補を c(p)=(c(p) 1,c(p) 2,c(p) 3)t で表す。但し、第i候補c(p) iは5母音のいずれかを指
すものとする。すなわち、c(p) i∈V、 V={/i/,/e/,/a/,/o/,/u/},(i=1,2,3)である。また、
tは転置を表す。ここで、母音候補として第3候補まで
考慮するのは、5つの母音候補のうち第3候補までとれ
ば、その中に正しい候補が含まれていると考えられるか
らである。実際、上記のような簡単な予備識別処理で
も、第3位までに正しい母音が入る割合は99.5%程
度にまでなり、実用上問題ない。以上の処理により、第
2図に示すような母音候補系列群が出力される。
次に、第2図の最適母音候補系列抽出部206の動作に
つき説明を行う。
つき説明を行う。
ここでは、第2図の予備識別部204で得られた母音候
補系列群に対し、個別に認識を行うのではなく、母音系
列全体で一括して認識を行うことを特徴とする。すなわ
ち、各母音系列から選択される2母音の組に対して、既
に説明した整合度を評価しながら、系列全体として認識
を行い、このように大局的に相互間の情報を利用するこ
とにより、個々の母音のゆらぎを吸収し、認識により確
実に行うように動作する。
補系列群に対し、個別に認識を行うのではなく、母音系
列全体で一括して認識を行うことを特徴とする。すなわ
ち、各母音系列から選択される2母音の組に対して、既
に説明した整合度を評価しながら、系列全体として認識
を行い、このように大局的に相互間の情報を利用するこ
とにより、個々の母音のゆらぎを吸収し、認識により確
実に行うように動作する。
まず、最適母音候補系列抽出部206の具体的な動作の
説明の前に、最適母音候補系列抽出のための理論的動作
につき説明を行う。
説明の前に、最適母音候補系列抽出のための理論的動作
につき説明を行う。
第2図の予備識別部204で求まる長さnの母音候補系
列群から得られる可能な母音候補系列は3n通りあり、
この中に正しい母音系列が含まれているとする。
列群から得られる可能な母音候補系列は3n通りあり、
この中に正しい母音系列が含まれているとする。
今、任意の母音候補系列を で表し、その集合をCs={cs}とする。ここで、添
え字mpはc(p)の第mp要素(候補)を表す。今、母音
候補系列csに含まれる長さ2の部分列の任意の1つを、 としたとき、その部分列における相対関係の整合度を▲
r(p,q) mp mqで表せば、母音候補系列csの全体として
の整合度R(cs)は、全ての部分列の整合度の和として、 で与えられる。なお、整合度の定義式である前記(1)の
表現を用いれば、 である。従って、第2図の相対関係標準パターン記憶部
207には、母音候補系列csから選択しうる長さ2の部
分列csubの全ての可能な組み合わせに対して、前記
(1)、(4)、(5)式の整合度を計算できるように、5母音
から同一のものを含む2母音ずつを選択して得られる部
分列(母音組)のすべての組み合わせに対して、前記
(1)式の計算のための、vivjと{Σvivj}−1を相対
関係標準パターンとして記憶させておけばよく、その組
み合わせは既に説明したように15組でよい。
え字mpはc(p)の第mp要素(候補)を表す。今、母音
候補系列csに含まれる長さ2の部分列の任意の1つを、 としたとき、その部分列における相対関係の整合度を▲
r(p,q) mp mqで表せば、母音候補系列csの全体として
の整合度R(cs)は、全ての部分列の整合度の和として、 で与えられる。なお、整合度の定義式である前記(1)の
表現を用いれば、 である。従って、第2図の相対関係標準パターン記憶部
207には、母音候補系列csから選択しうる長さ2の部
分列csubの全ての可能な組み合わせに対して、前記
(1)、(4)、(5)式の整合度を計算できるように、5母音
から同一のものを含む2母音ずつを選択して得られる部
分列(母音組)のすべての組み合わせに対して、前記
(1)式の計算のための、vivjと{Σvivj}−1を相対
関係標準パターンとして記憶させておけばよく、その組
み合わせは既に説明したように15組でよい。
ここで、R(cs)は、純粋に相対関係に基づく整合度を与
えるが、個別認識による母音個々の信頼度も考慮に入れ
るために以下のようなA(cs)を導入する。
えるが、個別認識による母音個々の信頼度も考慮に入れ
るために以下のようなA(cs)を導入する。
a(▲c(p) mp▼)は母音候補▲c(p) mp▼の確からしさ
を示すもので、第2図の予備識別部204における予備
識別の結果に基づいて与えられるものとする。上記(6)
式で定義されるA(cs)を使うことにより、母音候補系列
の得点はR(cs)とA(cs)の重み付き線形和、 で定義することができる。従って、求める最適母音候補
系列、 は、S(cs)を最大にする系列として定義される。すなわ
ち、 である。これにより、第2図の最適母音候補系列抽出部
206から、最適母音候補系列cs optが出力される。
を示すもので、第2図の予備識別部204における予備
識別の結果に基づいて与えられるものとする。上記(6)
式で定義されるA(cs)を使うことにより、母音候補系列
の得点はR(cs)とA(cs)の重み付き線形和、 で定義することができる。従って、求める最適母音候補
系列、 は、S(cs)を最大にする系列として定義される。すなわ
ち、 である。これにより、第2図の最適母音候補系列抽出部
206から、最適母音候補系列cs optが出力される。
以上の最適母音候補系列抽出動作において、第2図の予
備識別部204で求まる長さnの母音候補系列群から得
られる可能な母音候補系列は3n通りあり、この中から
長さ2の部分列を選択する組み合わせはnC2通りであ
る。従って、単純に計算を行うと、最適母音候補系列を
求めるために必要な計算量は、nC2・3n通り程度の膨
大な組み合わせ計算が必要となり、実用的でない。例え
ば、n=10のとき、2,657,205通りとなってしまう。
このような計算方式は、全ての組み合わせについて行う
方式のため、枚挙法と呼ばれる。
備識別部204で求まる長さnの母音候補系列群から得
られる可能な母音候補系列は3n通りあり、この中から
長さ2の部分列を選択する組み合わせはnC2通りであ
る。従って、単純に計算を行うと、最適母音候補系列を
求めるために必要な計算量は、nC2・3n通り程度の膨
大な組み合わせ計算が必要となり、実用的でない。例え
ば、n=10のとき、2,657,205通りとなってしまう。
このような計算方式は、全ての組み合わせについて行う
方式のため、枚挙法と呼ばれる。
そこで、第2図の最適母音候補系列抽出部206におい
ては、計算量を減らすために、枚挙法で厳密な最適解の
みを求めることにこだわらず、近似解を求める手法とし
て、弛緩整合法を採用する。弛緩法は、各母音候補に初
期確率を与えた後、相対関係の整合度を利用して各候補
の確率を修正する操作を繰り返し、最終的に最も整合度
の高い候補の確率を最大にする手法である。以下に、第
2図の最適母音候補系列抽出部206の動作アルゴリズ
ムを詳細に説明する。ここでの動作アルゴリズムは、次
の(STEP1)〜(STEP3)の繰り返し動作からなっている。
ては、計算量を減らすために、枚挙法で厳密な最適解の
みを求めることにこだわらず、近似解を求める手法とし
て、弛緩整合法を採用する。弛緩法は、各母音候補に初
期確率を与えた後、相対関係の整合度を利用して各候補
の確率を修正する操作を繰り返し、最終的に最も整合度
の高い候補の確率を最大にする手法である。以下に、第
2図の最適母音候補系列抽出部206の動作アルゴリズ
ムを詳細に説明する。ここでの動作アルゴリズムは、次
の(STEP1)〜(STEP3)の繰り返し動作からなっている。
(STEP1)第2図の母音特徴ベクトル系列抽出部203か
ら出力される母音特徴ベクトル系列xp(p=1,2,・・,n)に
対して、第2図の予備識別部204での予備識別の結果
に基づき、第3位までの各母音候補c(p)iに、その確
からしさを表す候補確率s(p)iを、次式により第4図
に示すように与える。
ら出力される母音特徴ベクトル系列xp(p=1,2,・・,n)に
対して、第2図の予備識別部204での予備識別の結果
に基づき、第3位までの各母音候補c(p)iに、その確
からしさを表す候補確率s(p)iを、次式により第4図
に示すように与える。
ここで、予備識別の結果、1位から3位までの候補に対
する順序付けが数量的に、 g(p) 1≧g(p) 2≧g(p) 3>0 の形で与えられたとすると、s(p) ii(i=1,2,3)に与え
られる初期確率は、 となる。また、count=0とおく。
する順序付けが数量的に、 g(p) 1≧g(p) 2≧g(p) 3>0 の形で与えられたとすると、s(p) ii(i=1,2,3)に与え
られる初期確率は、 となる。また、count=0とおく。
(STEP2)各候補の確率spiを次式の修正公式で更新す
る。
る。
s(p) i←s(p) i+Λ(sp,u (STEP3)(終了条件の判定) count←count+1 STEP2において全てのs(p) iが変化しないか、又は、cou
nt≧L(最大修正回数)ならば、 終了 そうでないときは、STEP2に戻る。
nt≧L(最大修正回数)ならば、 終了 そうでないときは、STEP2に戻る。
STEPZにおいて、初期確率の設定方法として前記(10)式
を使用しているが、弛緩法における初期確率の与え方と
して、各候補に等確率(1/3)を与える方法と収束を早
め、誤りを少なくするために何らかの異なる初期確率を
与える方法が考えられる。一般に、パターンマッチング
による個別識別では、母音候補間の距離(尤度)が近い
(高い)場合には認識の信頼性が高く、大きい(低い)
場合には信頼性が低い。従って、個別識別である予備識
別の結果を弛緩法の初期確率に反映させることは有効で
ある。
を使用しているが、弛緩法における初期確率の与え方と
して、各候補に等確率(1/3)を与える方法と収束を早
め、誤りを少なくするために何らかの異なる初期確率を
与える方法が考えられる。一般に、パターンマッチング
による個別識別では、母音候補間の距離(尤度)が近い
(高い)場合には認識の信頼性が高く、大きい(低い)
場合には信頼性が低い。従って、個別識別である予備識
別の結果を弛緩法の初期確率に反映させることは有効で
ある。
前記STEP2において、u(p) iは候補c(p) i について、xpの近傍入力{xq}q≠pとの整合性の
良さを表すもので、次式で与える。
良さを表すもので、次式で与える。
ここで、▲r(p,q) ijは、母音候補c(p)iとc(q)j
で定まる長さZの2の部分列の整合度であり、前記(1)
及び(5)式で与えられる。また、N(p) bはpの近傍を意
味し、s(p) iに直接影響を及ぼす範囲を決めるもの
で、その幅をWNとすれば、 N(p) b={q||q−p|≦WN,q≠p, 1≦q≦n}・・・(B) である。次に前記(11)式において、Λ(s,u)は正規化関
数であり、候補確率s(p) iが0と1の間に収まるよう
に正規化をかける関数である。また、(s)は弛緩法に
おける収束を早めるために強調をかける関数であり、
(0)=0を満たす滑らかな非負関数で、次式で与えられ
る。
で定まる長さZの2の部分列の整合度であり、前記(1)
及び(5)式で与えられる。また、N(p) bはpの近傍を意
味し、s(p) iに直接影響を及ぼす範囲を決めるもの
で、その幅をWNとすれば、 N(p) b={q||q−p|≦WN,q≠p, 1≦q≦n}・・・(B) である。次に前記(11)式において、Λ(s,u)は正規化関
数であり、候補確率s(p) iが0と1の間に収まるよう
に正規化をかける関数である。また、(s)は弛緩法に
おける収束を早めるために強調をかける関数であり、
(0)=0を満たす滑らかな非負関数で、次式で与えられ
る。
但し、ηは0<η≦1なる定数である。
次に、前記(7)式で定義したように、個別識別に基づく
各候補の信頼度を弛緩法に導入することを考える。前記
(7)式の直接表現する代わりに、ここでは各候補の近傍
との整合性の良さを示すu(p) iに自分自身の個別識別
の信頼度を加える事によって間接的に表現する。すなわ
ち、u(p) iの計算に自己ループの特性を加え、以下の
ように前記(12)式を修正する。
各候補の信頼度を弛緩法に導入することを考える。前記
(7)式の直接表現する代わりに、ここでは各候補の近傍
との整合性の良さを示すu(p) iに自分自身の個別識別
の信頼度を加える事によって間接的に表現する。すなわ
ち、u(p) iの計算に自己ループの特性を加え、以下の
ように前記(12)式を修正する。
ここで、λは正規化係数で、 λ=Σl で与えられる。なお、lは前記STEP1〜STEP3の現在まで
の更新の回数である。この(15)式と前記(12)式のどちら
を用いるかによって、認識結果にどのような影響を及ぼ
すかについては、後に検討することとする。
の更新の回数である。この(15)式と前記(12)式のどちら
を用いるかによって、認識結果にどのような影響を及ぼ
すかについては、後に検討することとする。
以上に示したSTEP1〜STEP3のアリゴリズムをを繰り返し
ながら、第2図の相対関係標準パターン記憶部207に
記憶されている相対関係標準パターンを用いて、前記
(1)、(5)式の整合度、続いて前記(12)式又は前記(15)式
のu(p) iを求め、それに基づいて前記(11)式の各候補
確率s(p) iを更新する。そして、所定回数L回繰り返
した後に、各母音特徴ベクトルxp(p=1,2・・,n)に対
応する第3位までの各母音候補c(p) iのうち、、その
候補確率s(p) iが最も高い候補を選択し、P=1〜nに
ついて選択したもの全体を、最適母音候補系列、 として出力する。
ながら、第2図の相対関係標準パターン記憶部207に
記憶されている相対関係標準パターンを用いて、前記
(1)、(5)式の整合度、続いて前記(12)式又は前記(15)式
のu(p) iを求め、それに基づいて前記(11)式の各候補
確率s(p) iを更新する。そして、所定回数L回繰り返
した後に、各母音特徴ベクトルxp(p=1,2・・,n)に対
応する第3位までの各母音候補c(p) iのうち、、その
候補確率s(p) iが最も高い候補を選択し、P=1〜nに
ついて選択したもの全体を、最適母音候補系列、 として出力する。
第5図に、上記アルゴリズムにより母音候補系列群の各
候補確率が更新されてゆく例を示す。但し、初期確率は
簡単のため全て0.33にしてある。この結果、3回程度の
更新で、最終的に下線を付した確率が非常に高くなり、
それに対応する下線を付した各母音候補が、最適母音候
補系列として出力されることになる。
候補確率が更新されてゆく例を示す。但し、初期確率は
簡単のため全て0.33にしてある。この結果、3回程度の
更新で、最終的に下線を付した確率が非常に高くなり、
それに対応する下線を付した各母音候補が、最適母音候
補系列として出力されることになる。
以上に示した母音認識処理の認識性能につき、簡単に説
明する。
明する。
まず、認識環境について説明を行う。始めに、弛緩法に
おける前記整合性u(p) iの計算において、前記(12)式
と前記(6)式に基づく前記(15)式のどちらを用いるかに
ついて検討すると、実験的に、前記(15)式を用いてα=
0.5〜0.7程度に設定するのが最も高い認識結果が得られ
る。しかし、(15)式でα=0((6)ではα=1)とし
て、相対関係の整合度のみの情報を用いて決定した場合
と比較して、認識率の差は0.1〜0.4%程度にすぎないた
め、実用上は前記(12)式を用いても問題はない。次に、
前記(13)式の近傍幅WNはn−1、すなわち長さnの母
音系列のうち自分を除いた全体とするのが望ましいが、
N=2程度に狭くしても認識率は、1%以下程度しか下
がらず、その場合、計算量を1/2程度に削減できる。ま
た、前記(14)式の弛緩法の修正式においては、実験的に
b=2、η=0.67程度、弛緩法の最大修正回数L=20
回程度がよい。
おける前記整合性u(p) iの計算において、前記(12)式
と前記(6)式に基づく前記(15)式のどちらを用いるかに
ついて検討すると、実験的に、前記(15)式を用いてα=
0.5〜0.7程度に設定するのが最も高い認識結果が得られ
る。しかし、(15)式でα=0((6)ではα=1)とし
て、相対関係の整合度のみの情報を用いて決定した場合
と比較して、認識率の差は0.1〜0.4%程度にすぎないた
め、実用上は前記(12)式を用いても問題はない。次に、
前記(13)式の近傍幅WNはn−1、すなわち長さnの母
音系列のうち自分を除いた全体とするのが望ましいが、
N=2程度に狭くしても認識率は、1%以下程度しか下
がらず、その場合、計算量を1/2程度に削減できる。ま
た、前記(14)式の弛緩法の修正式においては、実験的に
b=2、η=0.67程度、弛緩法の最大修正回数L=20
回程度がよい。
次に、第2図の未知入力音声101に含まれる母音系列
の影響について検討する。本実施例による認識方式は、
母音を系列として認識する方式であるため、認識精度は
系列長の影響を受ける。系列の長さが極端に短い場合に
は、2項関係を調べる母音組が少なく、また、母音の種
類も少なくなるが、実験的には、系列長n(第2図参
照)は、10〜20程度あれば十分高い認識率が得ら
れ、従って、単音節でない単語であればそれほど問題は
なく、また、単音節であっても、いくつかをまとめて認
識することにより、認識率の低下を防ぐことができる。
なお、本実施例による方法では、単語の順序を入れ換え
ても、認識率の変動はほとんどないことが実験的に確か
められている。
の影響について検討する。本実施例による認識方式は、
母音を系列として認識する方式であるため、認識精度は
系列長の影響を受ける。系列の長さが極端に短い場合に
は、2項関係を調べる母音組が少なく、また、母音の種
類も少なくなるが、実験的には、系列長n(第2図参
照)は、10〜20程度あれば十分高い認識率が得ら
れ、従って、単音節でない単語であればそれほど問題は
なく、また、単音節であっても、いくつかをまとめて認
識することにより、認識率の低下を防ぐことができる。
なお、本実施例による方法では、単語の順序を入れ換え
ても、認識率の変動はほとんどないことが実験的に確か
められている。
続いて、個人的の影響について検討する。一般に、単語
中では個人性の影響と、前後の音韻による影響とを分離
するのは困難であるため、単音節母音を複数個合わせた
ものを用いて個人性の影響を検討する。これによると、
本実施例は従来の個別識別法と比較して、平均認識率が
高く、個人性による変動に強いことが確かめられてい
る。これは、本実施例が母音間の相関的な位置関係を整
合度として認識に用いたためであり、上記位置関係は個
人性の影響を受けにくいということがいえる。
中では個人性の影響と、前後の音韻による影響とを分離
するのは困難であるため、単音節母音を複数個合わせた
ものを用いて個人性の影響を検討する。これによると、
本実施例は従来の個別識別法と比較して、平均認識率が
高く、個人性による変動に強いことが確かめられてい
る。これは、本実施例が母音間の相関的な位置関係を整
合度として認識に用いたためであり、上記位置関係は個
人性の影響を受けにくいということがいえる。
一方、音韻性の影響について検討すると、本実施例によ
る認識方式では、単語の語頭、語尾、連鎖部分のいずれ
においても、全体的に高い認識率を示すことが実験的に
確認されている。従って、調音結合の影響を受けた母音
系列においても本実施例の認識方式は有効である。すな
わち、母音間の相対的な位置関係は調音結合の影響も受
けにくいということがいえる。
る認識方式では、単語の語頭、語尾、連鎖部分のいずれ
においても、全体的に高い認識率を示すことが実験的に
確認されている。従って、調音結合の影響を受けた母音
系列においても本実施例の認識方式は有効である。すな
わち、母音間の相対的な位置関係は調音結合の影響も受
けにくいということがいえる。
次に、最適母音候補系列を求めるためのアルゴリズムで
ある弛緩法の信頼性について検討する。既に説明したよ
うに、弛緩法は、近似解を求める手法であるため、得ら
れた最適母音候補系列が真に最適なものであるという保
証はない。従って、本実施例による認識方式の誤認識の
原因が、弛緩法に誤りによるのか、相対関係の与え方の
問題によるのかどうかを明らかにしておくことは重要で
ある。弛緩法による誤りを調べるには、前記(4)〜(8)式
による枚挙法で得られる最適母音候補系列と、前記(9)
式〜(15)式による弛緩法で得られる最適母音候補系列と
の比較をすればよいが、枚挙法は前記したように膨大な
計算量が必要なため、実現困難である。そこで、あらか
じめ視察ラベリングにより抽出した正しい母音系列を含
む母音候補系列群について、まず、前記(7)式で正しい
母音系列の得点S(cs)を計算し、一方、上記母音候補系
列群から弛緩法により抽出した最適母音候補系列の得点
を同様に前記(7)式で計算する。そして、もし、弛緩法
による系列の得点の方が低ければ、弛緩法が誤ったこと
を示している。このようにして、弛緩法の信頼性を実験
的に検討すると、弛緩法により認識誤りの確率は、本実
施例全体の認識誤り数を100としたときに、そのうちの
わずか1%前後にすぎない。従って、弛緩法の信頼性は
非常に高いということがわかる。
ある弛緩法の信頼性について検討する。既に説明したよ
うに、弛緩法は、近似解を求める手法であるため、得ら
れた最適母音候補系列が真に最適なものであるという保
証はない。従って、本実施例による認識方式の誤認識の
原因が、弛緩法に誤りによるのか、相対関係の与え方の
問題によるのかどうかを明らかにしておくことは重要で
ある。弛緩法による誤りを調べるには、前記(4)〜(8)式
による枚挙法で得られる最適母音候補系列と、前記(9)
式〜(15)式による弛緩法で得られる最適母音候補系列と
の比較をすればよいが、枚挙法は前記したように膨大な
計算量が必要なため、実現困難である。そこで、あらか
じめ視察ラベリングにより抽出した正しい母音系列を含
む母音候補系列群について、まず、前記(7)式で正しい
母音系列の得点S(cs)を計算し、一方、上記母音候補系
列群から弛緩法により抽出した最適母音候補系列の得点
を同様に前記(7)式で計算する。そして、もし、弛緩法
による系列の得点の方が低ければ、弛緩法が誤ったこと
を示している。このようにして、弛緩法の信頼性を実験
的に検討すると、弛緩法により認識誤りの確率は、本実
施例全体の認識誤り数を100としたときに、そのうちの
わずか1%前後にすぎない。従って、弛緩法の信頼性は
非常に高いということがわかる。
なお、第2図の母音特徴ベクトル系列抽出部203にお
いて、母音区間を抽出する場合の抽出精度も全体の認識
結果に影響を及ぼすが、母音区間の認識方式としては、
本実施例で示したアルゴリズムの他にも抽出精度の高い
様々な方式が提案されているため、特には言及しないこ
とにする。
いて、母音区間を抽出する場合の抽出精度も全体の認識
結果に影響を及ぼすが、母音区間の認識方式としては、
本実施例で示したアルゴリズムの他にも抽出精度の高い
様々な方式が提案されているため、特には言及しないこ
とにする。
計算量は、枚挙法による場合、nC2・3nものの組み
合わせ計算が必要であるが、弛緩法を適用するとnC2
・3nものの組み合わせ計算が必要であるが、弛緩法を
適用するとnC2・nC2・n3・,程度で済む。こ
こで、l(1≦l≦L)は更新の回数である。
合わせ計算が必要であるが、弛緩法を適用するとnC2
・3nものの組み合わせ計算が必要であるが、弛緩法を
適用するとnC2・nC2・n3・,程度で済む。こ
こで、l(1≦l≦L)は更新の回数である。
整合度演算方式の第2の実施例の動作 上記実施例においては、第2図の最適母音候補系列抽出
部206での認識動作に用いた整合度は、2母音間の相
対的な位置関係として、2母音の特徴ベクトルxp,xqの
差ベクトルとして、 ΔpC=xp−xq を用いたものに基づく、前記(1)式で定義されるもので
あった。
部206での認識動作に用いた整合度は、2母音間の相
対的な位置関係として、2母音の特徴ベクトルxp,xqの
差ベクトルとして、 ΔpC=xp−xq を用いたものに基づく、前記(1)式で定義されるもので
あった。
しかし、本発明による相対的な位置関係は、上記のよう
な2母音間の差ベクトルに限られるものではなく、特徴
空間上の相対的な位置関係を示すものであれば他のもの
でも利用可能であり、更に、2母音以上の例えば3母音
の関係も規定できる。ここでは、整合度演算方式の第2
の実施例として、母音推定を用いた方式について説明す
る。
な2母音間の差ベクトルに限られるものではなく、特徴
空間上の相対的な位置関係を示すものであれば他のもの
でも利用可能であり、更に、2母音以上の例えば3母音
の関係も規定できる。ここでは、整合度演算方式の第2
の実施例として、母音推定を用いた方式について説明す
る。
この方式は、話者の変動や発声の変動に対して、母音の
相対的な位置関係が良く保存されることから、既知の2
母音又は3母音の組につき、1つの母音を他の母音から
推定する場合のパラメータを、第2図の相対関係標準パ
ターン記憶部207に相対関係標準パターンとして記憶
する方式である。
相対的な位置関係が良く保存されることから、既知の2
母音又は3母音の組につき、1つの母音を他の母音から
推定する場合のパラメータを、第2図の相対関係標準パ
ターン記憶部207に相対関係標準パターンとして記憶
する方式である。
今、2つの母音組の特徴ベクトルxv,xv′、又は3
つの母音組の特徴ベクトルxv,xv′,xv″がある
とき、そのうちの1つの特徴ベクトルxvを他の特徴ベク
トルxv′又はxv′,xv″から推定するための、次
式に示す2項関係及び3項関係の線形モデルを定義す
る。
つの母音組の特徴ベクトルxv,xv′,xv″がある
とき、そのうちの1つの特徴ベクトルxvを他の特徴ベク
トルxv′又はxv′,xv″から推定するための、次
式に示す2項関係及び3項関係の線形モデルを定義す
る。
ここで、xvは、特徴ベクトルxvの推定値(ベクトル)
であり、添え字v,v′,v″は5母音のうちいずれか
を指す。また、A、Bは推定係数行列、a、bは定数ベ
クトルで、いずれも重回帰分析によって決定する。そし
て、これらの推定係数行列及び定数ベクトルは、5母音
の中から選択される2母音又は3母音の各組み合わせ毎
に求め、第2回の相対関係標準パターン記憶部207に
相対関係標準パターンとして記憶させる。従って、2項
関係用に25組(同一母音関係を含む)、3項関係用に
30組(全て異なる母音の組み合わせ)を用意すればよ
い。
であり、添え字v,v′,v″は5母音のうちいずれか
を指す。また、A、Bは推定係数行列、a、bは定数ベ
クトルで、いずれも重回帰分析によって決定する。そし
て、これらの推定係数行列及び定数ベクトルは、5母音
の中から選択される2母音又は3母音の各組み合わせ毎
に求め、第2回の相対関係標準パターン記憶部207に
相対関係標準パターンとして記憶させる。従って、2項
関係用に25組(同一母音関係を含む)、3項関係用に
30組(全て異なる母音の組み合わせ)を用意すればよ
い。
次に、上記(16)式で定義される母音推定モデルを用い
て、第2図の最適母音候補系列抽出部206において、
第1の実施例の整合度を与える前記(1)式に対応する第
2の実施例の整合度を与える式を以下のように定義す
る。すなわち、2母音(特徴ベクトルxp,xq)が与えら
れた場合に、それに対応する2項関係の整合度Rvivj(x
p,xq)を次式で定義する。但し、vivj∈Vであって、 V={/i/,/e/./a/,/o/,/u/} とする。
て、第2図の最適母音候補系列抽出部206において、
第1の実施例の整合度を与える前記(1)式に対応する第
2の実施例の整合度を与える式を以下のように定義す
る。すなわち、2母音(特徴ベクトルxp,xq)が与えら
れた場合に、それに対応する2項関係の整合度Rvivj(x
p,xq)を次式で定義する。但し、vivj∈Vであって、 V={/i/,/e/./a/,/o/,/u/} とする。
ここで、‖・‖はベクトルのノルムを意味し、次式のよ
うに定義する。
うに定義する。
‖x‖2=xtWvivj・・・(18) 上記(18)で、Wvivjは重み係数行列で、Wvivj=I(単
位行列)のときは、いわゆるユークリッド距離になる。
位行列)のときは、いわゆるユークリッド距離になる。
上記(17)、(18)式は、2項関係の整合度Rvivj(xp,xq)
を演算するための式であるが、3項関係の整合度Rvivj
vk(xp,xq,xr)も同様に定義できる。
を演算するための式であるが、3項関係の整合度Rvivj
vk(xp,xq,xr)も同様に定義できる。
以上のような母音推定モデルを用いた2項関係又は2項
関係の整合度を、前記(4)〜(15)式で示した母音系列認
識に適用することにより、前記差ベクトルに基づく整合
度を用いたものと同様に母音系列の認識を実現すること
ができる。この場合、2項関係と共に3項関係も用いて
いるが、3項関係に基づく母音系列認識は、前記(4)式
のもとになる長さ2の部分列の代わりに、長さ3の部分
列をとって行えばよく、また、弛緩法のアルゴリズムに
3項関係を適用する場合、前記(12)の代わりに、次の(1
9)式の用いればよい。
関係の整合度を、前記(4)〜(15)式で示した母音系列認
識に適用することにより、前記差ベクトルに基づく整合
度を用いたものと同様に母音系列の認識を実現すること
ができる。この場合、2項関係と共に3項関係も用いて
いるが、3項関係に基づく母音系列認識は、前記(4)式
のもとになる長さ2の部分列の代わりに、長さ3の部分
列をとって行えばよく、また、弛緩法のアルゴリズムに
3項関係を適用する場合、前記(12)の代わりに、次の(1
9)式の用いればよい。
本発明の他の実施例 以上、第1及び第2の整合度の演算方式につき説明を行
ってきたが、そのほかにも、例えば前記差ベクトルを3
項関係に適用することも可能である。すなわち、3つの
母音組から2母音ずつとった組み合わせの各差ベクトル
同士につき、更に差ベクトルをとったもの等によっても
整合度を演算することができる。ここで、2項関係の整
合度を用いた弛緩法の計算では、既に説明したように、
nC2・n3・l程度の組み合わせ計算となるが、上記3
項関係の場合には、nC2・n3・l程度となる。
ってきたが、そのほかにも、例えば前記差ベクトルを3
項関係に適用することも可能である。すなわち、3つの
母音組から2母音ずつとった組み合わせの各差ベクトル
同士につき、更に差ベクトルをとったもの等によっても
整合度を演算することができる。ここで、2項関係の整
合度を用いた弛緩法の計算では、既に説明したように、
nC2・n3・l程度の組み合わせ計算となるが、上記3
項関係の場合には、nC2・n3・l程度となる。
一方、前記差ベクトルを用いた第1の実施例における整
合度演算方式において相対関係標準パターンとの整合度
を評価する場合、(1)式に示したようにベイズ識別関数
を利用しているが、そのほかにユークリッド距離又はマ
ハラノビス距離等の評価尺度を用いても実現可能であ
る。
合度演算方式において相対関係標準パターンとの整合度
を評価する場合、(1)式に示したようにベイズ識別関数
を利用しているが、そのほかにユークリッド距離又はマ
ハラノビス距離等の評価尺度を用いても実現可能であ
る。
また、上記実施例では、本発明による相対関係を用いた
系列認識方式を、母音系列の認識に適用した例を示した
が、母音認識以外の例えば子音認識に適用することも可
能である。
系列認識方式を、母音系列の認識に適用した例を示した
が、母音認識以外の例えば子音認識に適用することも可
能である。
いずれにしても、本発明では、2母音等の各認識基本単
位の特徴量間の単純な距離ではなく、多次元の特徴量空
間上の相対的な位置関係を整合度演算のために用いるこ
とにより、高い認識率を実現することができる。
位の特徴量間の単純な距離ではなく、多次元の特徴量空
間上の相対的な位置関係を整合度演算のために用いるこ
とにより、高い認識率を実現することができる。
本発明によれば、認識の基本となる整合度の計算におい
て、所定複数種類の認識基本単位の組の各々につき、そ
の組の各認識基本単位から得られる各特徴量間の特徴空
間上の相対的な位置関係を用いることにより、話者の変
動や調音結合の影響に左右されにくい整合度の演算が可
能となる。これにより、単純に特徴量間の距離によって
認識基本単位間の相対関係に関する情報がはるかに多く
抽出され、精度の高い認識処理が実現される。
て、所定複数種類の認識基本単位の組の各々につき、そ
の組の各認識基本単位から得られる各特徴量間の特徴空
間上の相対的な位置関係を用いることにより、話者の変
動や調音結合の影響に左右されにくい整合度の演算が可
能となる。これにより、単純に特徴量間の距離によって
認識基本単位間の相対関係に関する情報がはるかに多く
抽出され、精度の高い認識処理が実現される。
特に、2種類の認識基本単位の組の各特徴ベクトルの差
ベクトルを用いることにより、少ない計算量で多くの相
対関係の情報を得ることが可能となる。
ベクトルを用いることにより、少ない計算量で多くの相
対関係の情報を得ることが可能となる。
更に、この場合、相対関係標準パターンである差ベクト
ル標準パターンとして、平均差ベクトルと共分散行列を
記憶させ、べイズ識別を用いて整合度を計算することに
より、精度の高い整合度の計算が可能となる。
ル標準パターンとして、平均差ベクトルと共分散行列を
記憶させ、べイズ識別を用いて整合度を計算することに
より、精度の高い整合度の計算が可能となる。
次に、本発明では、予備識別手段で抽出される各々複数
候補ずつの認識基本単位候補系列群を認識に使用するこ
とにより、真の認識基本単位候補が除外されてしまうの
を防ぐことができる。
候補ずつの認識基本単位候補系列群を認識に使用するこ
とにより、真の認識基本単位候補が除外されてしまうの
を防ぐことができる。
更に、本発明では、認識基本単位候補系列群を入力と
し、前記整合度をもとにして、多くの認識基本単位候補
を用いて総合的な評価を行うことにより、個人的や調音
結合の影響による個々の認識基本単位の曖味性を減少さ
せ、前記整合度の利用による効果とあいまって、安定か
つ精度の高い認識が行われる。すなわち、本発明では、
情報量の多い相対関係に基づく整合度演算と、曖味性を
減少させることのできる系列認識とを組み合わせること
により、相乗効果的な認識性能の向上を実現している。
そして、全体的な構成は、基本的にはこの2つの構成の
組み合わせからなる簡単な構成とすることができるとい
う効果も有する。
し、前記整合度をもとにして、多くの認識基本単位候補
を用いて総合的な評価を行うことにより、個人的や調音
結合の影響による個々の認識基本単位の曖味性を減少さ
せ、前記整合度の利用による効果とあいまって、安定か
つ精度の高い認識が行われる。すなわち、本発明では、
情報量の多い相対関係に基づく整合度演算と、曖味性を
減少させることのできる系列認識とを組み合わせること
により、相乗効果的な認識性能の向上を実現している。
そして、全体的な構成は、基本的にはこの2つの構成の
組み合わせからなる簡単な構成とすることができるとい
う効果も有する。
そして、特に上記の場合、最適認識基本単位母音候補系
列の選択のために確率的弛緩法を採用することにより、
認識基本単位候補系列群の全ての系列の組み合わせにつ
いて計算を行う必要性を回避し、効率の高い処理を実現
している。
列の選択のために確率的弛緩法を採用することにより、
認識基本単位候補系列群の全ての系列の組み合わせにつ
いて計算を行う必要性を回避し、効率の高い処理を実現
している。
一方、2種類の認識基本単位の組の各特徴ベクトルを線
形モデルで互いに推定する場合の推定行列及びに定数ベ
クトルを相対関係として用いる整合度を演算し、前記系
列認識と組み合わせることによっても精度の高い音声認
識を実現することができる。
形モデルで互いに推定する場合の推定行列及びに定数ベ
クトルを相対関係として用いる整合度を演算し、前記系
列認識と組み合わせることによっても精度の高い音声認
識を実現することができる。
第1図は、本発明のブロック図、 第2図は、本発明の実施例の構成図、 第3図は、特徴ベクトル抽出部の動作フローチャートを
示した図、 第4図は、弛緩法の説明図、 第5図は、弛緩法による候補確率の変化例を示した図、 第6図は、従来例の問題点の説明図である。 101……未知入力音声、 102……予備識別半段、 103……認識基本単位候補系列群、 104……最適認識基本単位候補系列認識手段、 105……相対関係標準パターン記憶手段、 106……相対関係標準パターン、 107……最適認識基本単位候補系列.
示した図、 第4図は、弛緩法の説明図、 第5図は、弛緩法による候補確率の変化例を示した図、 第6図は、従来例の問題点の説明図である。 101……未知入力音声、 102……予備識別半段、 103……認識基本単位候補系列群、 104……最適認識基本単位候補系列認識手段、 105……相対関係標準パターン記憶手段、 106……相対関係標準パターン、 107……最適認識基本単位候補系列.
フロントページの続き (56)参考文献 特開 平3−101799(JP,A) 特公 平4−27560(JP,B2) 特公 平2−28160(JP,B2) 日本音響学会講演論文集 昭和57年10月 2−7−7 P.103−104 日本音響学会講演論文集 昭和60年9〜 10月 2−4−17 P.83−84 電子情報通信学会技術研究報告 SP87 −20 P.33−39(1987/6/25)
Claims (4)
- 【請求項1】同一のものを含む所定複数種類の認識基本
単位候補の組の各々につき、その組の各種類の認識基本
単位候補の特徴ベクトルをその種類を除くその組の他の
認識基本単位候補の特徴ベクトルから線形モデルで推定
する場合の推定係数行列及び定数ベクトルを各々その組
の複数の学習サンプルから重回帰分析により演算して求
めたものを相対関係標準パターンとして記憶する相対関
係標準パターン記憶手段と、 未知入力音声から各々複数候補ずつの認識基本単位候補
系列群を抽出する予備識別手段と、 該認識基本単位候補系列群から選択される前記所定複数
種類の認識基本単位候補の組の各々につき、その組の各
種類の認識基本単位候補の特徴ベクトルとそれを前記相
対関係標準パターン記憶手段上のその組に対応する前記
推定係数行列及び定数ベクトルを用いて前記線形モデル
で推定したものとの差ベクトルのノルムのその組の全種
類についての総和の負符号を付した値を演算することに
より整合度を求め、該各整合度に基づいて前記認識基本
単位候補系列群の中から前記未知入力音声に対応する最
適認識基本単位候補系列を認識する最適認識基本単位候
補系列認識手段とを有することを特徴とする相対関係に
基づく音声認識方式。 - 【請求項2】前記認識基本単位は母音であり、 前記予備識別手段は、 5母音の各母音毎の特徴量の標準パターンを記憶する母
音別標準パターン記憶手段と、 前記未知入力単語音声を時間軸方向に分割した複数フレ
ームから複数の母音区間とその区間の特徴量を抽出する
母音区間抽出手段と、 該各母音区間毎に、その区間の特徴量と前記母音別標準
パターン記憶手段上の前記各標準パターンとのマッチン
グをとることにより、前記各母音区間毎に3位までの母
音候補を識別し、3候補ずつの母音候補系列群として出
力する母音候補系列群生成手段とによって構成されるこ
とを特徴とする請求項1記載の相対関係に基づく音声認
識方式。 - 【請求項3】前記母音区間抽出手段は、 前記複数フレームのそれぞれについて、対数パワースペ
クトル値を演算し、 該演算した対数パワースペクトル値のうちの所定の値に
基づいて前記複数の母音区間を決定し、 該母音区間のそれぞれについて、前記所定の対数パワー
スペクトル値の変化が最も小さい安定なフレームを該母
音区間の中心フレームとし、該中心フレームを含む前後
所定フレームの特徴量の平均値として該母音区間の特徴
量を算出することを特徴とする請求項2記載の相対関係
に基づく音声認識方式。 - 【請求項4】前記最適認識基本単位候補系列認識手段
は、確率的弛緩法により前記認識基本単位候補系列群の
各認識基本単位候補の確率を前記各整合度に基づいて更
新し、所定回数の更新動作の後、各認識基本単位候補毎
に各々の確率が最も高くなった認識基本単位候補を選択
して前記最適認識基本単位候補系列を認識することを特
徴とする請求項1、2又は3記載の相対関係に基づく音
声認識方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63205684A JPH067358B2 (ja) | 1988-08-20 | 1988-08-20 | 相対関係に基づく音声認識方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63205684A JPH067358B2 (ja) | 1988-08-20 | 1988-08-20 | 相対関係に基づく音声認識方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0255398A JPH0255398A (ja) | 1990-02-23 |
| JPH067358B2 true JPH067358B2 (ja) | 1994-01-26 |
Family
ID=16510987
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63205684A Expired - Fee Related JPH067358B2 (ja) | 1988-08-20 | 1988-08-20 | 相対関係に基づく音声認識方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH067358B2 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5495858B2 (ja) * | 2010-03-02 | 2014-05-21 | 三菱電機株式会社 | 音楽音響信号のピッチ推定装置及び方法 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS57195300A (en) * | 1981-05-26 | 1982-11-30 | Sanyo Electric Co | Voice recognition unit |
| JPS6255700A (ja) * | 1985-09-04 | 1987-03-11 | 木村 正行 | 音声母音認識方法 |
-
1988
- 1988-08-20 JP JP63205684A patent/JPH067358B2/ja not_active Expired - Fee Related
Non-Patent Citations (3)
| Title |
|---|
| 日本音響学会講演論文集昭和57年10月2−7−7P.103−104 |
| 日本音響学会講演論文集昭和60年9〜10月2−4−17P.83−84 |
| 電子情報通信学会技術研究報告SP87−20P.33−39(1987/6/25) |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0255398A (ja) | 1990-02-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6073096A (en) | Speaker adaptation system and method based on class-specific pre-clustering training speakers | |
| US6260013B1 (en) | Speech recognition system employing discriminatively trained models | |
| US9672815B2 (en) | Method and system for real-time keyword spotting for speech analytics | |
| US4837831A (en) | Method for creating and using multiple-word sound models in speech recognition | |
| JP2965537B2 (ja) | 話者クラスタリング処理装置及び音声認識装置 | |
| US4741036A (en) | Determination of phone weights for markov models in a speech recognition system | |
| US20220223066A1 (en) | Method, device, and computer program product for english pronunciation assessment | |
| US6490555B1 (en) | Discriminatively trained mixture models in continuous speech recognition | |
| EP0763816A2 (en) | Discriminative utterance verification for connected digits recognition | |
| US7689419B2 (en) | Updating hidden conditional random field model parameters after processing individual training samples | |
| US20030023438A1 (en) | Method and system for the training of parameters of a pattern recognition system, each parameter being associated with exactly one realization variant of a pattern from an inventory | |
| US6401064B1 (en) | Automatic speech recognition using segmented curves of individual speech components having arc lengths generated along space-time trajectories | |
| CN101390156B (zh) | 标准模式适应装置、标准模式适应方法 | |
| Bocchieri et al. | Discriminative feature selection for speech recognition | |
| US5884261A (en) | Method and apparatus for tone-sensitive acoustic modeling | |
| JP3533696B2 (ja) | 音声認識の境界推定方法及び音声認識装置 | |
| Aradilla | Acoustic models for posterior features in speech recognition | |
| EP3309778A1 (en) | Method for real-time keyword spotting for speech analytics | |
| JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
| Dehzangi et al. | Discriminative feature extraction for speech recognition using continuous output codes | |
| WO2018169772A2 (en) | Quality feedback on user-recorded keywords for automatic speech recognition systems | |
| JP3403838B2 (ja) | 句境界確率計算装置および句境界確率利用連続音声認識装置 | |
| JP2531227B2 (ja) | 音声認識装置 | |
| JPH067358B2 (ja) | 相対関係に基づく音声認識方式 | |
| JP2000075886A (ja) | 統計的言語モデル生成装置及び音声認識装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |