JPH0346838B2 - - Google Patents
Info
- Publication number
- JPH0346838B2 JPH0346838B2 JP59179693A JP17969384A JPH0346838B2 JP H0346838 B2 JPH0346838 B2 JP H0346838B2 JP 59179693 A JP59179693 A JP 59179693A JP 17969384 A JP17969384 A JP 17969384A JP H0346838 B2 JPH0346838 B2 JP H0346838B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- standard pattern
- standard
- approximation
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は音声認識装置に関し、特に分析フレー
ムが圧縮された形式でトレーニング時(登録時)
に登録された標準パタンと、認識処理の都度入力
される入力音声パタンとの時間正規化いわゆるパ
タンマツチングを特定話者単語について実施し入
力単語音声を認識する圧縮DP型の音声認識装置
に関する。
ムが圧縮された形式でトレーニング時(登録時)
に登録された標準パタンと、認識処理の都度入力
される入力音声パタンとの時間正規化いわゆるパ
タンマツチングを特定話者単語について実施し入
力単語音声を認識する圧縮DP型の音声認識装置
に関する。
特定された話者の発する複数の単語音声を予め
定めた一定の分析周期、すなわち分析フレームご
とに分析して抽出した特徴パラメータの分布に関
する標準パタンを求めたうえこれをDP手法によ
つて圧縮して入力パターンとの時間正規化を実施
し、空間ベクトルである両者間のベクトルである
両者間のベクトル距離の最小なもの、すなわち認
識音声の歪が最小であるものをDPパスの追跡を
介して求める圧縮DP型の特定話者単独による音
声認識装置は近特よく知られている。
定めた一定の分析周期、すなわち分析フレームご
とに分析して抽出した特徴パラメータの分布に関
する標準パタンを求めたうえこれをDP手法によ
つて圧縮して入力パターンとの時間正規化を実施
し、空間ベクトルである両者間のベクトルである
両者間のベクトル距離の最小なもの、すなわち認
識音声の歪が最小であるものをDPパスの追跡を
介して求める圧縮DP型の特定話者単独による音
声認識装置は近特よく知られている。
このような圧縮DP型の音声認識装置は、入力
パタンとの時間正規化を図るべき標準パタンを圧
縮状態で利用しているため標準パタンをストアす
べき標準パタンメモリを削減し得て時間正規化の
ための処理量も削減し従つてハードウエア規模も
これに対応して簡素化しうるという特徴がある。
パタンとの時間正規化を図るべき標準パタンを圧
縮状態で利用しているため標準パタンをストアす
べき標準パタンメモリを削減し得て時間正規化の
ための処理量も削減し従つてハードウエア規模も
これに対応して簡素化しうるという特徴がある。
上述した時間正規化は、入力パタンと標準パタ
ンとが同一者の音声パタンである場合で、かつ通
常の使用環境を想定する場合には発声速度変動が
最大の変動要因になり、これによつて母音部と子
音部とで発するそれぞれ異る複雑な非常形伸縮を
除去せんとするものである。この時間正規化の目
的は入力パタンと標準パタンとの間の写像関数を
最適なものとして見出し、標準パタンの時間軸を
入力パタンの時間軸に揃える操作であつて、通常
はベクトル距離、換言すればパタン間離を評価尺
度とするDP手法を実施してこれの最小とするも
のを求めるという方法で行なわれている。
ンとが同一者の音声パタンである場合で、かつ通
常の使用環境を想定する場合には発声速度変動が
最大の変動要因になり、これによつて母音部と子
音部とで発するそれぞれ異る複雑な非常形伸縮を
除去せんとするものである。この時間正規化の目
的は入力パタンと標準パタンとの間の写像関数を
最適なものとして見出し、標準パタンの時間軸を
入力パタンの時間軸に揃える操作であつて、通常
はベクトル距離、換言すればパタン間離を評価尺
度とするDP手法を実施してこれの最小とするも
のを求めるという方法で行なわれている。
さて、このような圧縮DP型の音声認識装置で
は上述した如き種々の特徴を有するものの、標準
パタンの圧縮方法としては矩形近似が用いられて
いるため演算量と得られる歪量低減との割合いわ
ゆる圧縮効率には限度があることが避けられない
という欠点がある。
は上述した如き種々の特徴を有するものの、標準
パタンの圧縮方法としては矩形近似が用いられて
いるため演算量と得られる歪量低減との割合いわ
ゆる圧縮効率には限度があることが避けられない
という欠点がある。
本発明の目的は上述した欠点を除去し、特定話
者単語音声を対象とする圧縮DP型の音声認識装
置において、標準パタンの圧縮手段としては最適
台形近似を利用してDPを図るとともに時間正規
化は入力パタンを圧縮標準パタンに対応せしめて
圧縮したうえ正規化するかもしくは標準パタンを
入力パタンに合せるように伸張せしめてDPパス
を求めるDPマツチング手法を備えて音声認識処
理を実行することにより圧縮効率を著しく改善し
た音声認識装置を提供することにある。
者単語音声を対象とする圧縮DP型の音声認識装
置において、標準パタンの圧縮手段としては最適
台形近似を利用してDPを図るとともに時間正規
化は入力パタンを圧縮標準パタンに対応せしめて
圧縮したうえ正規化するかもしくは標準パタンを
入力パタンに合せるように伸張せしめてDPパス
を求めるDPマツチング手法を備えて音声認識処
理を実行することにより圧縮効率を著しく改善し
た音声認識装置を提供することにある。
本発明の装置は、分析フレームがDP手法で圧
縮された形式で登録された標準パタンと前記特定
話者による単語音声の入力パタンとの時間正規化
によるパタンマツチングを介して特定話者単語に
対する音声認識を行なう圧縮DP型の音声認識装
置において、標準パタンの圧縮をDP手法による
最適台形近似にもとづいて実施する標準パタン圧
縮手段と、入力パタンを標準パタンに合はせるよ
うに圧縮したうえ標準パタン長で時間正規化する
かもしくは標準パタンを入力パタンに合わせるよ
うに延伸して時間正規化しかつこれら時間正規化
は前記標準パタンに対する歪量を評価尺度として
これを最小ならしめるDPパスを見出すことによ
つて求める時間正規化手段とを備えて構成され
る。
縮された形式で登録された標準パタンと前記特定
話者による単語音声の入力パタンとの時間正規化
によるパタンマツチングを介して特定話者単語に
対する音声認識を行なう圧縮DP型の音声認識装
置において、標準パタンの圧縮をDP手法による
最適台形近似にもとづいて実施する標準パタン圧
縮手段と、入力パタンを標準パタンに合はせるよ
うに圧縮したうえ標準パタン長で時間正規化する
かもしくは標準パタンを入力パタンに合わせるよ
うに延伸して時間正規化しかつこれら時間正規化
は前記標準パタンに対する歪量を評価尺度として
これを最小ならしめるDPパスを見出すことによ
つて求める時間正規化手段とを備えて構成され
る。
次に図面を参照して本発明を詳細に説明する。
第1図は本発明による音声認識装置の一実施例を
示すブロツク図である。
第1図は本発明による音声認識装置の一実施例を
示すブロツク図である。
第1図に示す実施例は音響分析器1、切替器
2、圧縮処理器3、標準パタンメモリ4、パタン
マツチング器5、最小距離検索器6等を備えて構
成される。
2、圧縮処理器3、標準パタンメモリ4、パタン
マツチング器5、最小距離検索器6等を備えて構
成される。
特定話者単語音声の音声認識では、まず特定話
者の発声する複数の単語に関する標準パタンをあ
らかじめストアしておく必要があるがこれは次の
ようにして実施される。
者の発声する複数の単語に関する標準パタンをあ
らかじめストアしておく必要があるがこれは次の
ようにして実施される。
すなわち音響分析器1はLPF(Low Pass
Filter)、A/Dコンバータ、LSP(Line
Spectrum Pairs、線スペクトル対)で分析器等
さ内蔵し、入力音声を所定の遮断周波数のLPF
でレイルタリングしたのち所定のサンプリング周
波数でサンプリングしてデイジタルデータに変換
したうえLSP分析器にかける。
Filter)、A/Dコンバータ、LSP(Line
Spectrum Pairs、線スペクトル対)で分析器等
さ内蔵し、入力音声を所定の遮断周波数のLPF
でレイルタリングしたのち所定のサンプリング周
波数でサンプリングしてデイジタルデータに変換
したうえLSP分析器にかける。
LSP分析器はLPC(Linear Prediction
Coefficient、線型予測係数)分析器も有し、あ
らかじめ設定する分析周期の時間フレームすなわ
ち分析フレームごとにLPC分析器で分析、抽出
したPRRCOR(偏自己相関係数)等のLPC係数か
ら公知の技術、たとえばニユートン(Newton)
の反復法を利用する高次方程式を解く方法などに
よつて分析フレームごとにあらかじめ設定する次
数のLSP係数列を求めてこれを切替器2に送出す
る。こうして得られるLSP係数は声道の共振特性
を表わすパラメータであり声門を仮想的に完全開
放および完全閉塞した場合の声道フイルタの伝達
関数の線スペクトル周波数によるパラメータであ
り周波数領域で扱われる特徴パラメータであるこ
ともまたよく知られている。
Coefficient、線型予測係数)分析器も有し、あ
らかじめ設定する分析周期の時間フレームすなわ
ち分析フレームごとにLPC分析器で分析、抽出
したPRRCOR(偏自己相関係数)等のLPC係数か
ら公知の技術、たとえばニユートン(Newton)
の反復法を利用する高次方程式を解く方法などに
よつて分析フレームごとにあらかじめ設定する次
数のLSP係数列を求めてこれを切替器2に送出す
る。こうして得られるLSP係数は声道の共振特性
を表わすパラメータであり声門を仮想的に完全開
放および完全閉塞した場合の声道フイルタの伝達
関数の線スペクトル周波数によるパラメータであ
り周波数領域で扱われる特徴パラメータであるこ
ともまたよく知られている。
切替器2は、標準パタンのトレーニング時(登
録時)にあつては点線に示す接続状態に切替えら
れ、従つて特定話者の単語に関するLSPパラメー
タは圧縮処理器3に供給される。
録時)にあつては点線に示す接続状態に切替えら
れ、従つて特定話者の単語に関するLSPパラメー
タは圧縮処理器3に供給される。
圧縮処理器3は次のようにしてこのLSPパラメ
ータの最適台形近似によるフレーム圧縮処理を
DP手法を利用して実施する。
ータの最適台形近似によるフレーム圧縮処理を
DP手法を利用して実施する。
フレーム圧縮処理には最適線形近似のほか近時
は最適矩形近似、さらには最適台形近似といつた
ものが可変長フレーム型線形予測ポコーダ等の分
野で利用されつつあることはよく知られており、
これら最適近似のうち最適矩形近似は音声認識装
置における圧縮利用の基本手段として多用されて
いる。これは圧縮の結果期待しうる演算量の減少
が最適線形近似に比して著しいことによるが一方
最適矩形近似の本質から、得られる近似度には限
度があり従つて歪量も最適線形近似に比して非常
に増加してしまう。
は最適矩形近似、さらには最適台形近似といつた
ものが可変長フレーム型線形予測ポコーダ等の分
野で利用されつつあることはよく知られており、
これら最適近似のうち最適矩形近似は音声認識装
置における圧縮利用の基本手段として多用されて
いる。これは圧縮の結果期待しうる演算量の減少
が最適線形近似に比して著しいことによるが一方
最適矩形近似の本質から、得られる近似度には限
度があり従つて歪量も最適線形近似に比して非常
に増加してしまう。
一方、最適台形近似は演算量の減少こそ最適矩
形近似に及ばないものの近似度ははるかに増大
し、従つて歪量も最適線形近似とほぼ近似した状
態まで改善し得て圧縮効率を著しく向上すること
ができる。
形近似に及ばないものの近似度ははるかに増大
し、従つて歪量も最適線形近似とほぼ近似した状
態まで改善し得て圧縮効率を著しく向上すること
ができる。
第2図Aは最適矩形近似の、またBは最適台形
近似の原理を説明するための原理図である。
近似の原理を説明するための原理図である。
第2図Aにおいて、入力音声aは分析フレーム
ごとにたとえばLSPパラメータが特徴ベクトルと
して抽出される。最適矩形近似においてはこうし
て次次に連続して供給されるLSPパラメータベク
トルのKフレーム分ずつをまとめて新たなひとつ
の処理区分として取扱い、この処理区分ごとにあ
らかじめ設定する最大数M(1<M<K)個の特
徴パラメータと、M個の特徴パラメータのそれぞ
れが代表すべき分析フレームとの最適組合せを選
択し、このような選択によつて近似された分析フ
レームの連続が第2図Aのbに示す最適矩形距離
による可変長フレームとなる。
ごとにたとえばLSPパラメータが特徴ベクトルと
して抽出される。最適矩形近似においてはこうし
て次次に連続して供給されるLSPパラメータベク
トルのKフレーム分ずつをまとめて新たなひとつ
の処理区分として取扱い、この処理区分ごとにあ
らかじめ設定する最大数M(1<M<K)個の特
徴パラメータと、M個の特徴パラメータのそれぞ
れが代表すべき分析フレームとの最適組合せを選
択し、このような選択によつて近似された分析フ
レームの連続が第2図Aのbに示す最適矩形距離
による可変長フレームとなる。
上述した処理区分ごとに設定すべき特徴ベクト
ルの最大数Mは1とKとの間で圧縮効率を考慮し
て任意に設定しうる。こうして各区分ごとに設定
される最大数Mの特徴ベクトル群は、DP手法を
利用しつつそれぞれがどの分析フレームを代表す
るどのような組合せのM個であるかが決定され
る。この場合のDPはこうした矩形近似による歪
を評価尺度として実行され、この歪は代表するM
個の特徴ベクトル群がそれぞれどの分析フレーム
を代表するときその矩形近似特徴ベクトルともこ
の特徴ベクトルの距離とを最小とするかについて
処理区分ごとに求めるという方法を繰返しつつ容
易に求められる。
ルの最大数Mは1とKとの間で圧縮効率を考慮し
て任意に設定しうる。こうして各区分ごとに設定
される最大数Mの特徴ベクトル群は、DP手法を
利用しつつそれぞれがどの分析フレームを代表す
るどのような組合せのM個であるかが決定され
る。この場合のDPはこうした矩形近似による歪
を評価尺度として実行され、この歪は代表するM
個の特徴ベクトル群がそれぞれどの分析フレーム
を代表するときその矩形近似特徴ベクトルともこ
の特徴ベクトルの距離とを最小とするかについて
処理区分ごとに求めるという方法を繰返しつつ容
易に求められる。
しかしながらこのようなDP利用最適矩形近似
は前述の如き圧縮効率の限度に関する問題があ
る。そこで本実施例においては最適台形近似を
DP手法によつて求めこの問題性の大幅な緩和を
図つている。
は前述の如き圧縮効率の限度に関する問題があ
る。そこで本実施例においては最適台形近似を
DP手法によつて求めこの問題性の大幅な緩和を
図つている。
最適台形近似は、音声情報の変化の激しい過度
部分はほぼ一定の時間長、通常は約20mSEC程度
であることを利用してこの過度部分をあらかじめ
設定した一定数の分析フレーム数に相当する時間
長で表現する。矩形関数の代りに台形関数を利用
する最適近似であり、本質的に最適矩形近似より
も近似度が高くなる。このような最適台形近似も
原特徴ベクトルとのベクトル空間距離を最小とす
る代表特徴ベクトル群の選定をDP手法を介して
実施しつつこれら選定代表特徴ベクトル間は前記
一定の時間長いわゆる傾斜区間で表現するという
方法によつて基本的には処理され、近時可変長フ
レームボコーダ等の利用分野でも多用されつつあ
るが、本実施例にあつては処理区分ごとに処理す
る、いわゆる区分的近似ではなく標準パタンとし
て登録すべき各単語の1単語ずつをひとつの処理
区分とし、歪総量を目安として台形近似による最
適化を図り、従つて選択されるフレーム数も固定
数としていない点に特徴を有する。
部分はほぼ一定の時間長、通常は約20mSEC程度
であることを利用してこの過度部分をあらかじめ
設定した一定数の分析フレーム数に相当する時間
長で表現する。矩形関数の代りに台形関数を利用
する最適近似であり、本質的に最適矩形近似より
も近似度が高くなる。このような最適台形近似も
原特徴ベクトルとのベクトル空間距離を最小とす
る代表特徴ベクトル群の選定をDP手法を介して
実施しつつこれら選定代表特徴ベクトル間は前記
一定の時間長いわゆる傾斜区間で表現するという
方法によつて基本的には処理され、近時可変長フ
レームボコーダ等の利用分野でも多用されつつあ
るが、本実施例にあつては処理区分ごとに処理す
る、いわゆる区分的近似ではなく標準パタンとし
て登録すべき各単語の1単語ずつをひとつの処理
区分とし、歪総量を目安として台形近似による最
適化を図り、従つて選択されるフレーム数も固定
数としていない点に特徴を有する。
第2図Bはこのような特徴を有する最適台形近
似原理図であり、曲線cは特定話者による1単語
音声、台形dは1単語音声cを1処理区間とする
近似台形であり、点P1,P2,P3,P4等は代表特
徴パラメータ群を示し、これら代表特徴パラメー
タによつて代表される可変長フレーム区間1〜4
相互間はあらかじめ設定する一定の時間長の傾斜
区間が設定される。最適台形近似を決定すること
は台形dと1単語音声cとによつて形成される斜
線で示す面積を最小とする台形をDP手法によつ
て求めることに他ならない。またかくして求めら
れる最適台形近似は第2図Bからも明らから如
く、矩形台形よりもはるかに近似度が増大し、従
つて、代表特徴ベクトルの設定もはるかに少なく
てすみ圧縮効率も向上することとなる。
似原理図であり、曲線cは特定話者による1単語
音声、台形dは1単語音声cを1処理区間とする
近似台形であり、点P1,P2,P3,P4等は代表特
徴パラメータ群を示し、これら代表特徴パラメー
タによつて代表される可変長フレーム区間1〜4
相互間はあらかじめ設定する一定の時間長の傾斜
区間が設定される。最適台形近似を決定すること
は台形dと1単語音声cとによつて形成される斜
線で示す面積を最小とする台形をDP手法によつ
て求めることに他ならない。またかくして求めら
れる最適台形近似は第2図Bからも明らから如
く、矩形台形よりもはるかに近似度が増大し、従
つて、代表特徴ベクトルの設定もはるかに少なく
てすみ圧縮効率も向上することとなる。
ふたたび第1図に戻つて説明する。圧縮処理器
3はこのような最適台形近似処理を特定話者の発
声する単語音声ごとに分析、抽出される特徴パラ
メータ、LSPパラメータについて実施しこれらを
標準パタンとして標準パタンメモリ4に送出しス
トアせしめる。
3はこのような最適台形近似処理を特定話者の発
声する単語音声ごとに分析、抽出される特徴パラ
メータ、LSPパラメータについて実施しこれらを
標準パタンとして標準パタンメモリ4に送出しス
トアせしめる。
こうして標準パタンがストアされている状態で
切替器2を認識側に切替え入力端子101を介し
て特定話者が標準パタンメモリ4にストアされて
いるどの単語音声かを発声し、これを音響分析器
1にかけてLSPパラメータを抽出したあとパタン
マツチング器5に供給する。
切替器2を認識側に切替え入力端子101を介し
て特定話者が標準パタンメモリ4にストアされて
いるどの単語音声かを発声し、これを音響分析器
1にかけてLSPパラメータを抽出したあとパタン
マツチング器5に供給する。
パタンマツチング器5は、スペクトル距離計測
器、補間器等を備えスペクトル距離を評価尺度と
するDP手法を実施し標準パタンと、この標準パ
タンに合わせるように圧縮した入力パタンとの間
で標準パタン長での時間正規化を次のようにして
実施する。
器、補間器等を備えスペクトル距離を評価尺度と
するDP手法を実施し標準パタンと、この標準パ
タンに合わせるように圧縮した入力パタンとの間
で標準パタン長での時間正規化を次のようにして
実施する。
標準パタンメモリ4から次次に読出される標準
パタンはパタンマツチング器5の内蔵する補間器
によつて、DP圧縮された代表特徴ベクトル間に
補間値を設定したうえ内蔵スペクトル距離計測器
によつて計測した。スペクトル距離を評価尺度と
するDP手法を介して時間正規化を標準パタン長
で行なう。
パタンはパタンマツチング器5の内蔵する補間器
によつて、DP圧縮された代表特徴ベクトル間に
補間値を設定したうえ内蔵スペクトル距離計測器
によつて計測した。スペクトル距離を評価尺度と
するDP手法を介して時間正規化を標準パタン長
で行なう。
DP圧縮した標準パタンと入力パタンとの時間
正規化には2通りの方法があり、入力パタンを、
圧縮した標準パタンに合わせるように間引いて圧
縮したうえ標準パタン長で時間正規化する方法も
しくは標準パタンを入力パタンに対応して代表特
徴ベクトル間隔を繰返し発生して延伸して時間正
規化を図る方法があるが本実施例においては前者
の手法によつて時間正規化を図つている。圧縮さ
れた標準パタンと圧縮されない状態の入力パタン
の時間軸を合はせるため、つまり標準パタンと入
力パタンとの間の字像関数を見出して時間正規化
を図るためには入力パタンを間引きして標準パタ
ンに合せても、また逆に標準パタンを入力パタン
に合せて延伸してもどちらでも差支えないわけで
ある。
正規化には2通りの方法があり、入力パタンを、
圧縮した標準パタンに合わせるように間引いて圧
縮したうえ標準パタン長で時間正規化する方法も
しくは標準パタンを入力パタンに対応して代表特
徴ベクトル間隔を繰返し発生して延伸して時間正
規化を図る方法があるが本実施例においては前者
の手法によつて時間正規化を図つている。圧縮さ
れた標準パタンと圧縮されない状態の入力パタン
の時間軸を合はせるため、つまり標準パタンと入
力パタンとの間の字像関数を見出して時間正規化
を図るためには入力パタンを間引きして標準パタ
ンに合せても、また逆に標準パタンを入力パタン
に合せて延伸してもどちらでも差支えないわけで
ある。
第3図は第1図の実施例におけるパタンマツチ
ング処理の原理を示すパタンマツチング原理図で
ある。以下に第3図を参照しながら実施例の説明
を続行する。
ング処理の原理を示すパタンマツチング原理図で
ある。以下に第3図を参照しながら実施例の説明
を続行する。
第3図において標準パタン1001は前述した
最適台形近似による、かつDP手法を利用して形
成された標準パタンのひとつであり、入力パタン
1002は標準パタン1001とパタンマツチン
グすべき、すなわち時間正規化を図るべき入力パ
タンとする。
最適台形近似による、かつDP手法を利用して形
成された標準パタンのひとつであり、入力パタン
1002は標準パタン1001とパタンマツチン
グすべき、すなわち時間正規化を図るべき入力パ
タンとする。
いま第3図に示す如きi−j平面を考え、i方
向には標準パタン1001、j方向には入力パタ
ン1002を対応させ、黒丸で示す縦線は実計測
のLSPパラメータとする。パタンマツチング器5
は内蔵する補間器でこれら実線間にX印で示す補
間LSPパラメータを点線で示す如く設定する。
向には標準パタン1001、j方向には入力パタ
ン1002を対応させ、黒丸で示す縦線は実計測
のLSPパラメータとする。パタンマツチング器5
は内蔵する補間器でこれら実線間にX印で示す補
間LSPパラメータを点線で示す如く設定する。
また入力パタンは音響分析器1の分析周期t0ご
とにLSPパラメータベクトルがj方向に直角な実
線としていう得られ、これらi−j面を構成する
縦、横の交差線の交点が時間正規化を実施すべき
両者の対応位置となり、これら各対応位置につい
ての両パタンのLSPパラメータベクトル間のスペ
クトル距離をあらゆる対応点の組について求め、
これを評価尺度とするDP手法によつて両パタン
間の距離を最小とするDPパスを求めればこれら
が両パタン間のスペクトル距離を示すものとな
る。ただし、このDP手法によつて両パタン間の
距離を最小とするDPパスを求める場合、実際に
は生じないようなパタン間の極端な時間軸変動範
囲は排除しDP処理は通常整合窓と呼ばれる処理
範囲l1とl2間に限定して行なわれる。
とにLSPパラメータベクトルがj方向に直角な実
線としていう得られ、これらi−j面を構成する
縦、横の交差線の交点が時間正規化を実施すべき
両者の対応位置となり、これら各対応位置につい
ての両パタンのLSPパラメータベクトル間のスペ
クトル距離をあらゆる対応点の組について求め、
これを評価尺度とするDP手法によつて両パタン
間の距離を最小とするDPパスを求めればこれら
が両パタン間のスペクトル距離を示すものとな
る。ただし、このDP手法によつて両パタン間の
距離を最小とするDPパスを求める場合、実際に
は生じないようなパタン間の極端な時間軸変動範
囲は排除しDP処理は通常整合窓と呼ばれる処理
範囲l1とl2間に限定して行なわれる。
第3図において、たとえばi−j平面上のQ1
における標準パタンのLSPパラメータベクトルと
入力パタンにおける対応LSPパラメータベクトル
との矢印で示すスペクトル距離を計測する。これ
らのスペクトル距離においてdにおけるパス、45
度のラインは最適台形近似における一定の時間長
区間いわゆる傾斜区間に相当し、これを含め直線
および析線で示されるスペクトル距離を計測す
る。このスペクトル計測は線l1とl2で限定された
処理範囲内の点線を含むすべての縦横の交差点位
置に関する標準パタンと入力パタンとの対応ぶん
についてかつ標準パタン長で実施する。この標準
パタン長での実施条件は標準パタンのDP圧縮度
によつて異るが、本実施例の場合は第3図に示す
如く対応個数6個ずつの総組合せを対象として実
施される。
における標準パタンのLSPパラメータベクトルと
入力パタンにおける対応LSPパラメータベクトル
との矢印で示すスペクトル距離を計測する。これ
らのスペクトル距離においてdにおけるパス、45
度のラインは最適台形近似における一定の時間長
区間いわゆる傾斜区間に相当し、これを含め直線
および析線で示されるスペクトル距離を計測す
る。このスペクトル計測は線l1とl2で限定された
処理範囲内の点線を含むすべての縦横の交差点位
置に関する標準パタンと入力パタンとの対応ぶん
についてかつ標準パタン長で実施する。この標準
パタン長での実施条件は標準パタンのDP圧縮度
によつて異るが、本実施例の場合は第3図に示す
如く対応個数6個ずつの総組合せを対象として実
施される。
こうして標準パタン1001と入力パタン10
02との間で入力パタン1002を標準パタン1
001に対して合わせるように圧縮し、かつ標準
パタン長で時間正規化したものがDPパスgとし
て求められ、この時間正規化入力パタンと全標準
パタン間のスペクトル距離が次次に最小距離検索
器6に供給される。
02との間で入力パタン1002を標準パタン1
001に対して合わせるように圧縮し、かつ標準
パタン長で時間正規化したものがDPパスgとし
て求められ、この時間正規化入力パタンと全標準
パタン間のスペクトル距離が次次に最小距離検索
器6に供給される。
一般に二つのLSPパラメータスペクトル間の距
離は次の(1)式に示すスペクトル距離Dsrによつて
示される。
離は次の(1)式に示すスペクトル距離Dsrによつて
示される。
Dsr=1/π∫〓0{Ss(ω)−Sr(ω)}2dw ……(1)
(1)式はまた、通常は次の(2)式に近似式に変換さ
れて利用される。
れて利用される。
Dsr=N
〓k=1
WK{PK (s)−PK (r)}2 ……(2)
(1)および(2)式においてs、rは分析フレームも
しくは処理区分(ブロツク)の番号、Ss(ω)、Sr
(ω)は周波数ωの関数としての分析フレームも
しくはブロツクs、rの対数スペクトル、PK (s)、
PK (r)は分析フレームもしくはブロツクsおよびr
における分析次数K次のLSPパラメータベクト
ル、WKはK次のLSP周波数スペクトル感度であ
る。
しくは処理区分(ブロツク)の番号、Ss(ω)、Sr
(ω)は周波数ωの関数としての分析フレームも
しくはブロツクs、rの対数スペクトル、PK (s)、
PK (r)は分析フレームもしくはブロツクsおよびr
における分析次数K次のLSPパラメータベクト
ル、WKはK次のLSP周波数スペクトル感度であ
る。
前述したDP手法による時間正規化、換言すれ
ばDPパタンマツチングは上述した演算根拠にも
とづき入力パタンを標準パタンに対して間引いた
内容で再パタン間の空間ベクトル距離を演算し、
この演算を入力パタンに対し全標準パタンの各パ
タンにわたつて実施、その結果はスペクトル距離
データとして次次に最小距離検索器6に標準パタ
ンの指定番号データとともに供給する。
ばDPパタンマツチングは上述した演算根拠にも
とづき入力パタンを標準パタンに対して間引いた
内容で再パタン間の空間ベクトル距離を演算し、
この演算を入力パタンに対し全標準パタンの各パ
タンにわたつて実施、その結果はスペクトル距離
データとして次次に最小距離検索器6に標準パタ
ンの指定番号データとともに供給する。
最小距離検索器6は入力した各標準パタンごと
の入力パタンに対するスペクトル距離データをい
つたん内蔵メモリにストアしたうえ相互間の大小
関係を判定し最小値を有するものを検索し、その
最小スペクトル距離データを提供した標準パタン
指定番号データから当該標準パタン情報を認識結
果として出力端子601に供給し、かくして最適
台形近似による標準パタンとのDPパタンマツチ
ングを介しての音声認識が実行される。
の入力パタンに対するスペクトル距離データをい
つたん内蔵メモリにストアしたうえ相互間の大小
関係を判定し最小値を有するものを検索し、その
最小スペクトル距離データを提供した標準パタン
指定番号データから当該標準パタン情報を認識結
果として出力端子601に供給し、かくして最適
台形近似による標準パタンとのDPパタンマツチ
ングを介しての音声認識が実行される。
なお、上述した実施例においては標準パタンと
してストアすべき音声単語の特徴パラメータには
LSPパラメータを利用しているが、これは他の特
徴パラメータ、たとえば単語音声に関するスペク
トルの対数の逆変換で表現されるケプストラム
(Cepstrum)等を利用しても同様に実施しうるこ
とは明らかである。
してストアすべき音声単語の特徴パラメータには
LSPパラメータを利用しているが、これは他の特
徴パラメータ、たとえば単語音声に関するスペク
トルの対数の逆変換で表現されるケプストラム
(Cepstrum)等を利用しても同様に実施しうるこ
とは明らかである。
また、本実施例では時間正規化の方法として入
力パタンを標準パタンに合わせるように圧縮し、
かつ標準パタン長での正規化を図る場合を例とし
ているが、これは圧縮された標準パタンを入力パ
タンに合わせるように延伸するようにしてDPに
よる時間正規化を図つても同じことであり、この
場合は圧縮された標準パタンを入力パタンに時間
的に合わせるように読出し繰返す形式で容易に実
施しうる。
力パタンを標準パタンに合わせるように圧縮し、
かつ標準パタン長での正規化を図る場合を例とし
ているが、これは圧縮された標準パタンを入力パ
タンに合わせるように延伸するようにしてDPに
よる時間正規化を図つても同じことであり、この
場合は圧縮された標準パタンを入力パタンに時間
的に合わせるように読出し繰返す形式で容易に実
施しうる。
以上説明した如く本発明によれば、分析フレー
ムを圧縮した形式で登録した標準パタンと、特定
話者の発声した単語音声による入力パタンとの時
間正規化を介して特定話者による単語音声を認識
する音声認識装置において、DP手法を利用して
去めた圧縮DP型の最適台形近似による標準パタ
ンを備えるとともに、入力パタンと標準パタンと
の時間正規化においては、入力パタンを標準パタ
ンに合わせるように圧縮しかつ標準パタン長での
正規化を実行するか、もしくは標準パタンを入力
パタンに合わせるように延伸するかのいずれかを
両パタン間の特徴ベクトル距離を評価尺度とする
DP手法にもとづいて実施するという手段を備え
ることによつて圧縮効率を大幅に改善し、標準パ
タンのメモリ容量も大幅に削減しうる音声認識装
置を実現しうるという効果がある。
ムを圧縮した形式で登録した標準パタンと、特定
話者の発声した単語音声による入力パタンとの時
間正規化を介して特定話者による単語音声を認識
する音声認識装置において、DP手法を利用して
去めた圧縮DP型の最適台形近似による標準パタ
ンを備えるとともに、入力パタンと標準パタンと
の時間正規化においては、入力パタンを標準パタ
ンに合わせるように圧縮しかつ標準パタン長での
正規化を実行するか、もしくは標準パタンを入力
パタンに合わせるように延伸するかのいずれかを
両パタン間の特徴ベクトル距離を評価尺度とする
DP手法にもとづいて実施するという手段を備え
ることによつて圧縮効率を大幅に改善し、標準パ
タンのメモリ容量も大幅に削減しうる音声認識装
置を実現しうるという効果がある。
第1図は本発明の一実施例を示すブロツク図、
第2図Aは最適矩形近似の原理を示す最適矩形近
似原理図、第2図Bは最適台形近似の原理を示す
最適台形近似原理図、第3図は第1図の実施例に
おける時間正規化を説明するための時間正規化説
明図である。 1……音響分析器、2……切替器、3……圧縮
処理器、4……標準パタンメモリ、5……パタン
マツチング器、6……最小距離検索器。
第2図Aは最適矩形近似の原理を示す最適矩形近
似原理図、第2図Bは最適台形近似の原理を示す
最適台形近似原理図、第3図は第1図の実施例に
おける時間正規化を説明するための時間正規化説
明図である。 1……音響分析器、2……切替器、3……圧縮
処理器、4……標準パタンメモリ、5……パタン
マツチング器、6……最小距離検索器。
Claims (1)
- 1 分析フレームがダイナミツクプログラミング
(Dynamic Programming、動的計画法、以下
DPと略称する)手法で圧縮された形式で登録さ
れた特定話者による単語音声の標準パタンと前記
特定話者による単語音声の入力パタンとの時間正
規化によるパタンマツチングを介して特定話者単
語に対する音声認識を行なう圧縮DP型の音声認
識装置において、標準パタンの圧縮をDP手法に
よる最適台形近似にもとづいて実施する標準パタ
ン圧縮手段と、入力パタンを標準パタンに合わせ
るように圧縮したうえ標準パタン長で時間正規化
するかもしくは標準パタンを入力パタンに合わせ
るように延伸して時間正規化しかつこれら時間正
規化は前記標準パタンに対する歪量を評価尺度と
してこれを最小ならしめるDPパスを見出すこと
によつて求める時間正規化手段とを備えて成るこ
とを特徴とする音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59179693A JPS6157995A (ja) | 1984-08-29 | 1984-08-29 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59179693A JPS6157995A (ja) | 1984-08-29 | 1984-08-29 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6157995A JPS6157995A (ja) | 1986-03-25 |
| JPH0346838B2 true JPH0346838B2 (ja) | 1991-07-17 |
Family
ID=16070220
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59179693A Granted JPS6157995A (ja) | 1984-08-29 | 1984-08-29 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6157995A (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6497651B2 (ja) * | 2015-03-19 | 2019-04-10 | 株式会社レイトロン | 音声認識装置および音声認識プログラム |
-
1984
- 1984-08-29 JP JP59179693A patent/JPS6157995A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6157995A (ja) | 1986-03-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2763322B2 (ja) | 音声処理方法 | |
| US5327521A (en) | Speech transformation system | |
| CA2098629C (en) | Speech recognition method using time-frequency masking mechanism | |
| CN1173333C (zh) | 分段和识别语音信号的系统和方法 | |
| JPH0361959B2 (ja) | ||
| JPS6254297A (ja) | 音声認識装置 | |
| JPS6128998B2 (ja) | ||
| JP2002268698A (ja) | 音声認識装置と標準パターン作成装置及び方法並びにプログラム | |
| JP2898568B2 (ja) | 声質変換音声合成装置 | |
| JP2779325B2 (ja) | ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法 | |
| JP3354252B2 (ja) | 音声認識装置 | |
| JPH0346838B2 (ja) | ||
| JP2912579B2 (ja) | 声質変換音声合成装置 | |
| JP2951514B2 (ja) | 声質制御型音声合成装置 | |
| JP4603727B2 (ja) | 音響信号分析方法及び装置 | |
| JPH0197997A (ja) | 声質変換方法 | |
| JPS59131999A (ja) | 音声認識装置 | |
| JPH0235994B2 (ja) | ||
| JPH0246960B2 (ja) | ||
| JPH06202695A (ja) | 音声信号処理装置 | |
| JPH0736119B2 (ja) | 区分的最適関数近似方法 | |
| JPH0754438B2 (ja) | 音声処理装置 | |
| JPH054679B2 (ja) | ||
| JPH0451037B2 (ja) | ||
| JPH05313695A (ja) | 音声分析装置 |