JPH05197397A

JPH05197397A - 音声認識方法及びその装置

Info

Publication number: JPH05197397A
Application number: JP744192A
Authority: JP
Inventors: Tetsuo Kosaka; 哲夫小坂
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1992-01-20
Filing date: 1992-01-20
Publication date: 1993-08-06

Abstract

(57)【要約】【目的】より精度の高い音声認識を実現する。【構成】マイク１から入力された音声を音声分析部２
で分析し、ＬＰＣケプストラム係数、デルタケプストラ
ム係数、パワー、デルタパワーなどのパラメータを求め
る。これらのパラメータに基づいて、ＣＰＵ４は重み関
数ω（ｔ）を求めた後、ＲＯＭ６に格納されている全て
の単語の標準パターンのパラメータとＤＰマッチングを
行って、距離計算を実行する。マッチング終了後、距離
が最小となる単語を音声認識結果の最適な単語として選
択し、データ出力インタフェース７から出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識方法及びその装
置に関し、特に、音声の静的な特徴を表すパラメータと
動的な特徴を表すパラメータとを併用した音声認識を行
う音声認識方法及びその装置に関するものである。

【０００２】

【従来の技術】近年音声認識のためのパラメータとして
従来からの静的な特徴を表すパラメータのみではなく、
動的特徴を表すパラメータを併用する手法が研究されて
いる。これは以下のような理由による。

【０００３】従来のＬＰＣ（Linear Predictive Codin
g：線形予測分析）ケプストラムのようなある１時点の
みを表すパラメータでは、破裂音、鼻音のような動的な
特徴を持つ音素の特徴を捉えにくい。これに対して、パ
ラメータとして時間に関する変化量を表すものを用いれ
ば、破裂音、鼻音のような動的な特徴を持つ音素の特徴
をうまく表現できると考えられる。このデルタケプスト
ラムとはＬＰＣケプストラム法などにより求められたケ
プストラムの、数フレームにわたる一次回帰係数を求め
パラメータとしたものである。

【０００４】従来の音声認識装置の距離計算部では、デ
ルタケプストラムのみでは、逆に母音などの静的な特徴
を持つ音素が認識できなくなるため、ＬＰＣケプストラ
ムから求めた距離（ＬＰＣケプストラム距離）とデルタ
ケプストラムから求めた距離にある重みをかけて、足し
あわせることにより計算している。ここで、ＬＰＣのケ
プストラムから求めた距離をＤ（ｃ）、デルタケプスト
ラムから求めた距離をＤ（ｄｃ）とし重み係数をωとす
ると、２者を併用した距離（Ｄ_sum ）は以下のように表
現できる。

【０００５】Ｄ_sum ＝ωＤ（ｃ）＋（１−ω）Ｄ（ｄｃ） …（１）但し（０≦ω≦１）

【０００６】

【発明が解決しようとする課題】しかしながら上記従来
例では、音声区間全体に対して一定の割合で重みをかけ
ているため、定常的な特徴に重みを置きたい母音などの
区間にも、また動的な特徴に重みをおきたい破裂音など
の区間にも、一律の重みがかかるという欠点があった。

【０００７】本発明は上記従来例に鑑みてなされたもの
で、音声の特徴を考慮して距離計算を行うことにより音
声認識率の向上を図った音声認識方法及びその装置を提
供することを目的としている。

【０００８】

【課題を解決するための手段】上記目的を達成するため
に本発明の音声認識方法は、以下のような工程からな
る。即ち、入力音声をパラメータ化して参照すべき単語
情報との比較を行って音声認識を行う音声認識方法であ
って、前記入力音声の内、破裂音、鼻音などの動的な特
徴を捉えた第１パラメータと前記入力音声の内、母音な
どの静的な特徴を捉えた第２パラメータとを生成するパ
ラメータ生成工程と、前記入力音声の時間に関するスペ
クトル変動を考慮して、時間に関して変動する前記第１
パラメータ及び第２パラメータに関する重み係数を算出
する重み係数算出工程と、前記第１及び第２パラメータ
と前記重み係数とに基づいて、前記参照すべき単語情報
から最適な単語を選択して出力する単語選択工程とを有
することを特徴とする音声認識方法を備える。

【０００９】また他の発明によれば、音声をパラメータ
化して参照すべき単語情報との比較を行って音声認識を
行う音声認識装置であって、前記音声を入力する入力手
段と、前記参照すべき単語情報を格納する記憶手段と、
前記入力手段によって入力された音声の内、破裂音、鼻
音などの動的な特徴を捉えた第１パラメータと前記音声
の内、母音などの静的な特徴を捉えた第２パラメータと
を生成するパラメータ生成手段と、前記音声の時間に関
するスペクトル変動を考慮して、時間に関して変動する
前記第１パラメータ及び第２パラメータに関する重み係
数を算出する重み係数算出手段と、前記第１及び第２パ
ラメータと前記重み係数とに基づいて前記音声に関し
て、前記記憶手段に格納された前記単語情報と比較する
ことにより最適な単語を選択して出力する単語選択手段
とを有することを特徴とする音声認識装置を備える。

【００１０】

【作用】以上の構成により本発明は、入力した音声につ
いて、破裂音、鼻音などの動的な特徴を捉えた第１パラ
メータと母音などの静的な特徴を捉えた第２パラメータ
とを用いてパラメータ化し、音声の時間に関するスペク
トル変動を考慮して、時間に関して変動する第１パラメ
ータ及び第２パラメータに関する重み係数を算出して、
この重み係数と第１パラメータ及び第２パラメータとに
基づいて、音声認識を実行するよう動作する。

【００１１】

【実施例】以下添付図面を参照して本発明の好適な実施
例を詳細に説明する。

【００１２】［装置の概要説明（図１）］図１は本発明
の代表的な実施例である音声認識装置の構成を示すブロ
ック図である。図１において、マイク１に入力された音
声は音声分析部２によってＬＰＣのケプストラム係数が
求められ、さらに、ＬＰＣのケプストラム係数に基づい
てデルタケプストラム係数を求める。同時に、パワー及
びその一次回帰係数であるデルタパワーも求める。この
ようにして求められたＬＰＣのケプストラム係数、デル
タケプストラム係数、パワー、デルタパワーは入力バッ
ファ３を経てＲＡＭ８に格納される。

【００１３】次に、ＲＡＭ８に格納された上記の情報に
基づいて、ＣＰＵ４はＲＯＭ５に格納されている音声認
識プログラムを実行することにより単語の認識を行な
う。

【００１４】本実施例は音素認識をベースとした単語認
識、或は、単語標準パターンを用いた単語認識などいず
れにも用いることができるが、本実施例では単語標準パ
ターンを用いた単語認識について説明する。

【００１５】［重み係数ωの算出方法の説明］本実施例
では従来の技術が抱えていた問題を解決するために、音
声全体に対し一律に重みωをかけるのではなく、音声の
うち時間的なスペクトルの変動の少ない部分ではωの値
を大きくし、スペクトルの変動が大きい部分ではωの値
を小さくすることにより、認識率の向上を図っている。
つまり、ωを定数とするのではなく時間の関数ω（ｔ）
として扱う。この場合、距離（Ｄ_sum ）は以下のように
表現できる。

【００１６】Ｄ_sum ＝ω（ｔ）Ｄ（ｃ）＋｛１−ω（ｔ）｝Ｄ（ｄｃ）…（２）次にωの値の設定法について、２通りの方法を述べる。

【００１７】（１）デルタパワーを用いる方法スペクトル変化が大きいところは一般にパワーも大きく
変化する。そこでパワーの一次回帰係数として求まるデ
ルタパワーを使ってωの値を決定する。ここでは標準パ
タンの時刻ｔにおけるデルタパワーをＤＰ（ｔ）、デル
タパワーとω間の変換関数をｆ（ｘ）とすると、つまり（２）式は以下のように表現できる。

【００１８】Ｄ_sum ＝ｆ（ＤＰ（ｔ））Ｄ（ｃ）＋｛１−ｆ（ＤＰ（ｔ））｝Ｄ（ｄｃ） …（４）（２）デルタケプストラムの二乗和を用いる方法デルタケプストラムの大きさ自身で重みをつける。ここ
で、時刻ｔにおける標準パタンのデルタケプストラムの
ｎ次の項をｄｃ_n （ｔ）とし、またデルタケプストラム
の二乗和とω間の変換関数をｆ（ｘ）とすると、つまり（２）式は以下のように表現できる。

【００１９】Ｄ_sum ＝ｆ｛√（Σｄｃ_k （ｔ）² ）｝・Ｄ（ｃ）＋〔１−ｆ｛√（Σｄｃ_k （ｔ）² ）｝〕・Ｄ（ｄｃ）…（６）ここで、（１）〜（２）式ともＤ（ｃ）及びＤ（ｄｃ）
の距離計算ではマハラノビス距離を使うものとする。距
離にパラメータの絶対値の大きさが関係するユークリッ
ド距離などを使用する場合は、一般にＤ（ｄｃ）の値が
小さく、そのため距離の値も小さく出力されるので、Ｄ
（ｄｃ）に係数をかけ、Ｄ（ｃ）と距離の値のオーダが
合うように調整して使用する。

【００２０】以上のようにＬＰＣケプストラムとデルタ
ケプストラムの割合を時刻ごとに設定して重みωを設定
することにより、音声認識精度の向上が図られる。

【００２１】［音声認識処理の説明（図２）］ここでは
図２に示すフローチャートを参照して本実施例の音声認
識装置が実行する音声認識処理について説明する。この
処理はＣＰＵ４がＲＯＭ５に格納されている音声認識プ
ログラムを実行することによってなされる。

【００２２】まず、ステップＳ１では（３）または
（５）式に従つて、入力音声（Ｘ）のデルタパワー或は
デルタケプストラムに基づいて、重み関数ω（ｔ）の計
算を行なう。

【００２３】次に、重み関数ω（ｔ）及び音声分析部２
で得られた種々のパラメータを用いて、ステップＳ２〜
Ｓ５ではＲＯＭ６に格納されている単語標準パターンに
基づいて単語認識をおこなう。この単語標準パターンは
ＤＰ（Dynamic Programming)マッチングのために、パラ
メータ化されているパターンとする。

【００２４】ステップＳ２ではＤＰマッチングの初期設
定として以下の設定を行なう。

【００２５】ｇ（１，１）＝ｄ（１，１） …（７）ここで、ｇ（ｉ，ｊ）はＤＰマッチングによって得られ
た距離の累積距離を、ｄ（ｉ，ｊ）は局所的な距離を表
す。

【００２６】ステップＳ３では、入力音声（Ｘ）の短時
間スペクトルを表す特徴ベクトル（ｘ_1,ｘ_2,…ｘ_i,…ｘ
_I ：Ｉは入力音声の特徴ベクトルの数）と単語標準パタ
ーン（Ｙ）の特徴ベクトル（ｙ_1,ｙ_2,…ｙ_j,…ｙ_J ：Ｊ
は標準パターンの特徴ベクトルの数）について以下の式
を用いてＤＰマッチングを実行する。

【００２７】ｇ(i,j) ＝ min {ｇ(i-1,j),ｇ(i-1,j-1),ｇ(i-1,j-2)}＋ｄ(i,j) ｊ＝１（ｊ＜０） …（８）ｊ＝ｉ−ｒ，…，ｉ＋ｒ（０≦ｊ≦Ｊ，ｒ：ＤＰ整合窓幅）ｊ＝Ｊ（ｊ＞Ｊ）ここで局所距離ｄ（ｉ，ｊ）の計算には（４）或は
（６）式を用いる。さらに累積距離のの計算を以下の式
によっておこなう。

【００２８】ＤＷ（Ｔ，Ｒ）＝ｇ（Ｉ，Ｊ）／Ｉ …（９）ここでＤＷは単語に対する距離、Ｔは入力パタン、Ｒは
標準パターンを表す。ステップＳ４では、以上のように
して求められた距離計算結果をＲＡＭ８に格納する。

【００２９】ステップＳ５では入力音声の特徴ベクトル
と全単語標準パターンの特徴ベクトルとのマッチングが
終了したかどうかを調べ、マッチング終了なら処理はス
テップＳ６へ進み、マッチング継続なら処理はステップ
Ｓ２へ戻り、単語標準パターンとのマッチングを単語数
だけ繰り返す。

【００３０】全ての単語との距離計算が終了すると、ス
テップＳ６では距離が最小となる単語を認識結果として
選択し、ＲＡＭ８に単語を表すコードを入れ、また、デ
ータ出力インタフェース７を通して出力する。この出力
はＣＲＴ９に表示することも可能である。

【００３１】従って本実施例に従えば、入力音声の特徴
に応じた重み関数ω（ｔ）を求め、その重み関数ω
（ｔ）によって距離Ｄ_sum を算出して単語を認識し、例
えば、文字データとして得ることができる。

【００３２】

【他の実施例】上記実施例では単語標準パターンを用い
る単語認識についての説明したが、音素認識をベースと
した単語認識についても応用が可能である。

【００３３】音素認識結果から単語を認識する方法は種
々提案されているが、本実施例では音素認識、特に、音
素認識の代表的な例として、ＨＭＭ（ヒドンマルコフモ
デル）を行なう場合について述べる。なお本実施例にお
いても、前述の実施例で説明した音声認識装置を共通の
装置として用いるものとする。ただし、ＲＯＭ５にはＨ
ＭＭに基づく音声認識処理プログラムが、ＲＯＭ６には
全ての単語情報を確率モデルに基づいて表現したパラメ
ータが格納されているものとする。

【００３４】ＨＭＭによる認識は通常は以下のように行
なわれる。

【００３５】

【数１】ここで、αは累積確率、π_i は初期確率、ａ_ijは遷移確
率、ｂ_jiは出力確率、ｙは観測系列、Ｍは単語モデル、
Ｔは観測系列長、Ｓは状態係数である。

【００３６】このうち、出力確率ｂ_jiを以下のように設
定する。

【００３７】ｂ_ji（ｋ）＝ω・ｂｃ_ji（ｋ）＋（１−ω）・ｂｄ_ji（ｋ）…（１１）ここでｂｃ_ji（ｋ）はケプストラムから推定される出力
確率、ｂｄ_ji（ｋ）はデルタケプストラムから推定され
る出力確率である。

【００３８】以上の式に従うなら、入力音声（Ｘ）に対
してケプストラムから推定される出力確率とデルタケプ
ストラムから推定される出力確率との混合確率に基づい
た確率Ｐが得られることになる。このＰの値とＲＯＭ６
に格納されている全ての単語に関するパラメータとを比
較することにより、最も確からしい単語が認識結果とし
て選択されて、ＲＡＭ８に単語を表すコードを入れ、ま
た、データ出力インタフェース７を通して出力される。
この出力はＣＲＴ９に表示することも可能である。

【００３９】従って本実施例に従うなら、入力音声の特
徴に応じた重み関数ω（ｔ）をＨＭＭに適用して確率モ
デルに基づく音声認識を行うことができる。さらに、本
実施例の場合、特定話者に対する音声認識を対象とした
ＤＰマッチングと比較して、音声情報を統計的に扱うこ
とができるため、不特定話者に対する音声認識に適用す
ることができる。

【００４０】尚、本発明は、複数の機器から構成される
システムに適用しても良いし、１つの機器から成る装置
に適用しても良い。また、本発明は、システム或は装置
にプログラムを供給することによって達成される場合に
も適用できることはいうまでもない。

【００４１】

【発明の効果】以上説明したように本発明によれば、音
声の動的な特徴を捉えた第１パラメータと静的な特徴を
捉えた第２パラメータとに関する重みづけが音声の時間
に関するスペクトル変動を考慮して動的に適切に設定さ
れるため、より精度の高い音声認識が可能となる。

【図面の簡単な説明】

【図１】本発明の代表的な実施例である音声認識装置の
構成を示すブロック図である。

【図２】音声認識処理の手順を示すフローチャートであ
る。

【符号の説明】

１マイク２音声分析部３入力バッファ４ＣＰＵ５プログラム用ＲＯＭ６単語辞書用ＲＯＭ７データ出力インタフェース８ＲＡＭ９ＣＲＴ

Claims

【特許請求の範囲】

【請求項１】入力音声をパラメータ化して参照すべき
単語情報との比較を行って音声認識を行う音声認識方法
であって、前記入力音声の内、破裂音、鼻音などの動的な特徴を捉
えた第１パラメータと前記入力音声の内、母音などの静
的な特徴を捉えた第２パラメータとを生成するパラメー
タ生成工程と、前記入力音声の時間に関するスペクトル変動を考慮し
て、時間に関して変動する前記第１パラメータ及び第２
パラメータに関する重み係数を算出する重み係数算出工
程と、前記第１及び第２パラメータと前記重み係数とに基づい
て、前記参照すべき単語情報から最適な単語を選択して
出力する単語選択工程とを有することを特徴とする音声
認識方法。
【請求項２】音声をパラメータ化して参照すべき単語
情報との比較を行って音声認識を行う音声認識装置であ
って、前記音声を入力する入力手段と、前記参照すべき単語情報を格納する記憶手段と、前記入力手段によって入力された音声の内、破裂音、鼻
音などの動的な特徴を捉えた第１パラメータと前記音声
の内、母音などの静的な特徴を捉えた第２パラメータと
を生成するパラメータ生成手段と、前記音声の時間に関するスペクトル変動を考慮して、時
間に関して変動する前記第１パラメータ及び第２パラメ
ータに関する重み係数を算出する重み係数算出手段と、前記第１及び第２パラメータと前記重み係数とに基づい
て前記音声に関して、前記記憶手段に格納された前記単
語情報と比較することにより最適な単語を選択して出力
する単語選択手段とを有することを特徴とする音声認識
装置。
【請求項３】前記パラメータ生成手段によって生成さ
れる前記第１パラメータはＬＰＣケプストラムから求め
られるパラメータであり、前記第２パラメータはデルタ
ケプストラムから求められるパラメータであることを特
徴とする請求項第２項に記載の音声認識装置。
【請求項４】前記重み係数は前記参照すべき単語情報
の音声パワーの一次回帰係数から設定することを特徴と
する請求項第２項に記載の音声認識装置。
【請求項５】前記重み係数は前記参照すべき単語情報
のデルタケプストラムの大きさから設定することを特徴
とする請求項第２項に記載の音声認識装置。
【請求項６】前記単語選択手段は、前記参照すべき単
語情報の標準パターンを用いてＤＰマッチングを行うこ
とによって最適な単語を選択することを特徴とする請求
項第２項に記載の音声認識装置。
【請求項７】前記単語選択手段は、前記参照すべき単
語情報の音素に基づいて確率モデルを用いることによっ
て最適な単語を選択することを特徴とする請求項第２項
に記載の音声認識装置。