JPH04254897A

JPH04254897A - 音声認識方式

Info

Publication number: JPH04254897A
Application number: JP3036706A
Authority: JP
Inventors: Takashi Ariyoshi; 有吉　敬
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1991-02-06
Filing date: 1991-02-06
Publication date: 1992-09-10

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力音声の特徴量と標
準パターンの特徴量とのマッチングを行なうことにより
入力音声を認識する音声認識方式に関する。

【０００２】

【従来の技術】入力音声の特徴量と標準パターンの特徴
量とのマッチングを行なうことにより入力音声を認識さ
せようとする場合に、一般に、同じ話者の発声であって
も入力音声の時間的長さはその都度変動し、しかも非線
形に伸縮するので、入力音声と登録音声の標準パターン
との同じ音素同士が対応するように時間軸を非線形に伸
縮する時間正規化を行なう必要がある。このため、この
種の音声認識方式には動的計画法（ＤＰ：ダイナミック
プログラミング）を用いたマッチング（以下、ＤＰマッ
チングと称す）が採用されている。

【０００３】しかしながら、ＤＰマッチングは、通常処
理量が多く、特に、騒音下での音声認識に適したワード
スポッティング法において用いられる連続ＤＰでは、さ
らに多くの処理量が必要となる。

【０００４】ＤＰマッチングにおける処理量を削減する
のに、従来、例えば特開平１−２８３５９９号に開示さ
れているような音声認識方式が知られている。この音声
認識方式では、所定時間（フレーム）ごとに、ＢＰＦ（
帯域通過フィルタ）出力値やＬＰＣ（線形予測）分析結
果などを入力音声の第１の特徴量として抽出し、また短
時間エネルギー（パワー）の増減傾向やホルマントの遷
移状態を第２の特徴量として抽出する。しかる後、ＤＰ
マッチングにおいては、入力音声の第１の特徴量と登録
音声の第１の特徴量とからこれらのフレーム間距離を算
出し、この際に、入力音声の第２の特徴量と登録音声の
第２の特徴量との局所的な似具合いに基づく入力音声と
登録音声とのパターン間の時間的対応付けの情報を用い
て、照合範囲が限定されたＤＰマッチングが実行され、
その照合値を基にして最終的な認識結果を得るようにな
っている。

【０００５】

【発明が解決しようとする課題】このように上述した従
来の音声認識方式では、入力音声の第２の特徴量と登録
音声の第２の特徴量との局所的な似具合いに基づく入力
音声と登録音声とのパターン間の時間的対応付けの情報
により、第１の特徴量のＤＰマッチングのパスを局所的
に制限してＤＰマッチングにおける処理量をある程度は
削減できるが、第１の特徴量自体の情報量が多いので、
ＤＰマッチングのパスを局所的に制限しても、処理量を
大幅に削減することができないという問題があった。

【０００６】本発明は、入力音声の特徴量と登録音声の
特徴量とのＤＰマッチングにおける処理量を大幅に削減
することの可能な音声認識方式を提供することを目的と
している。

【０００７】

【課題を解決するための手段】上記目的を達成するため
に本発明は、入力音声の特徴量と予め登録された複数の
登録音声の特徴量とのマッチングを行なうことにより入
力音声を認識する音声認識方式において、前記入力音声
の特徴量と前記各登録音声の特徴量とは、いずれも、比
較的情報量の少ない第１の特徴量と、比較的情報量の多
い第２の特徴量とからなり、前記入力音声の第１の特徴
量と前記各登録音声の第１の特徴量とに基づき、動的計
画法を用いて入力音声と各登録音声とのマッチングパス
を決定し、該マッチングパスに時間的にそれぞれ対応す
る前記入力音声の第２の特徴量と前記各登録音声の第２
の特徴量とを用いて、入力音声と各登録音声との尤度を
求め、該尤度に基づき入力音声の認識結果を得るように
なっていることを特徴としている。また、前記入力音声
および前記各登録音声の第１の特徴量は、音声のパワー
の変化率を用いた特徴量であることを特徴としている。また、前記入力音声の第１の特徴量を求める際に、入力
音声のパワーの値が予め定められたパワーの下限値に満
たない場合には、該パワーの下限値を入力音声のパワー
の値として用いるようになっていることを特徴としてい
る。また、入力音声の第１の特徴量と各登録音声の第１
の特徴量とに基づき、入力音声と各登録音声のマッチン
グパスを決定する際には、入力音声の第１の特徴量と各
登録音声の第１の特徴量との距離が求められ、該距離の
値に応じて候補の絞り込みを行ない、絞られた候補の登
録音声に対してのみ、第２の特徴量を用いて尤度が求め
られるようになっていることを特徴としている。

【０００８】

【作用】本発明では、比較的情報量の少ない第１の特徴
量を用いて、動的計画法で入力音声と各登録音声とのマ
ッチングパスを決定し、マッチングパスを大幅に制限し
てから、このマッチングパスに従って比較的情報量の多
い第２の特徴量を用いて入力音声と各登録音声との尤度
を求めるので、処理量を低減できる。

【０００９】比較的情報量の少ない第１の特徴量として
は、音声のパワーの変化率を用いることができ、この場
合、入力音声のパワーの値が予め定められたパワーの下
限値に満たない場合には、このパワーの下限値を入力音
声のパワーの値として用いる。

【００１０】また、入力音声と各登録音声とのマッチン
グパスを決定する際に、入力音声の第１の特徴量と各登
録音声の第１の特徴量との距離を求め、距離の値に応じ
て各登録音声，すなわち候補の絞り込みを行なった上で
、第２の特徴量を用いて尤度を求めるようにすれば、さ
らに処理量を低減できる。

【００１１】

【実施例】以下、本発明の一実施例を図面に基づいて説
明する。図１は本発明の一実施例のブロック図である。図１を参照すると、本実施例では、入力音声から一定の
フレーム周期（１０〜２０ｍｓ）毎に特徴量を抽出する
特徴量抽出部１と、入力音声の音声区間を検出する音声
区間検出部２と、複数の登録音声の特徴量が予め記憶さ
れている登録音声メモリ３と、動的計画法（ＤＰ）を用
いて入力音声の特徴量と登録音声の特徴量とのＤＰマッ
チングを行なうマッチング部４とが設けられている。

【００１２】特徴量抽出部１に入力する入力音声は、例
えばマイクアンプやアンチエリアスフィルタを介してＡ
／Ｄ変換器でデジタル化されたものであり、特徴量抽出
部１では、入力音声の特徴量として、比較的に情報量の
少ない第１の特徴量と、比較的に情報量の多い第２の特
徴量とを抽出するようになっている。

【００１３】入力音声の第１の特徴量としては、例えば
、入力音声のパワーの変化率が用いられ、この場合には
、入力音声の第１の特徴量Ｐｘ（ｉ）は、各フレームの
入力音声のパワーをｅ（ｉ）とすると、

【００１４】

【数１】として抽出される。ここで、ｉは、フレーム番号である
。

【００１５】また、第２の特徴量としては、例えば、バ
ンドパスフィルタ（ＢＰＦ）バンクで得られる公知の短
時間スペクトルＳｘ（ｉ，ω）が用いられる。

【００１６】音声区間検出部２は、例えば、入力音声の
パワーｅ（ｉ）が予め定められている閾値を超えたか否
かにより音声区間を検出するようになっている。

【００１７】また、登録音声メモリ３には、登録音声の
特徴量として、入力音声の第１，第２の特徴量と対応さ
せた形で、第１の特徴量Ｐｔｋ（ｊ），第２の特徴量Ｓ
ｔｋ（ｊ，ω）が記憶されている。ここで、ｊはフレー
ム番号であり、ｋは登録音声番号である。

【００１８】マッチング部４は、音声区間検出部２で検
出された音声区間の入力音声の第１の特徴量Ｐｘ（ｉ）
と各登録音声毎の第１の特徴量Ｐｔｋ（ｊ）とを用いて
、動的計画法（ＤＰ）によりＤＰマッチングを行ない、
最小の距離をＰｘ（ｉ）とＰｔｋ（ｊ）との距離として
記憶し、またその距離を与えたマッチングパスを記憶す
るようになっており、このようにして全ての登録音声に
対する第１の特徴量の距離を求めた後、これらの距離の
うちで閾値以上の距離を与えた登録音声を認識対象から
除外し、候補の絞り込みを行なうようになっている。マ
ッチング部４は、次いで、入力音声の第２の特徴量Ｓｘ
（ｉ，ω）と、絞り込まれた候補の各登録音声の第２の
特徴量Ｓｔｋ（ｊ，ω）に対して、各登録音声毎に記憶
されているマッチングパスのみを用いて距離を計算し、
これを入力音声と各登録音声との距離とし、これらの距
離のうちで最小のものが予め定められた閾値以下の場合
に、その最小の距離を与えた登録音声のカテゴリーを認
識結果として出力するようになっている。

【００１９】次にこのような構成における音声認識処理
動作について説明する。本実施例では、入力音声の第１
の特徴量として、数１で示されるようなフレームｉごと
のパワーの変動量Ｐｘ（ｉ）を用いる。これにより、入
力音声の第１の特徴量Ｐｘは、

【００２０】

【数２】の時系列で表わされる。また、登録音声番号ｋの登録音
声の第１の特徴量Ｐｔｋは、

【００２１】

【数３】の時系列で表わされる。

【００２２】図２で示すようなＰｘ，Ｐｔｋからなる平
面を考えると、マッチングパスＬ，すなわち、ＰｘとＰ
ｔｋとの時間軸の対応付けは、この平面上の格子点Ｃ＝
（ｉ，ｊ）の系列Ｆ，すなわち、

【００２３】

【数４】として表現することができる。２つの特徴量Ｐｘ（ｉ）
，Ｐｔｋ（ｊ）との距離をｄ（ｃ）＝ｄ（ｉ，ｊ）で表
わすと、Ｆに沿った距離の総和Ｄｋ（Ｆ）は、

【００２
４】

【数５】として表わすことができ、この値が小さい程、ＰｘとＰ
ｔｋとの対応付けが良いことを示す。ここで、ｗｌはＦ
に関連した正の重み関数である。

【００２５】マッチング部４では、動的計画法（ＤＰ）
を用い、数５を次のような制約条件の下でＦに関して最
小化する。すなわち、単調性と連続性の条件として、

【
００２６】

【数６】を設定し、境界条件として、

【００２７】

【数７】を設定し、整合窓Ｗの条件として（すなわち，極端な伸
縮を防ぐためｒを定数として）、

【００２８】

【数８】を設定し、さらに数５で分母がＦに依存しない定数にな
るようにｗｌを定めると、数５は簡単化される。例えば
、

【００２９】

【数９】とすると、ｗｌは碁盤の縦横の線に沿ったパス（経路）
，すなわち市街化距離となり、

【００３０】

【数１０】となる。このとき、数５は、

【００３１】

【数１１】となり、最小化する目的関数が加法的になる。動的計画
法では、この最小化を行なうのに、

【００３２】

【数１２】の部分和を考え、これを、数６乃至数８の条件と数９と
を用いて、

【００３３】

【数１３】の漸化式で表わし、ｇ（１，１）＝２ｄ（１，１），Ｊ
＝１として、整合窓Ｗの範囲内でｉを変えながら数１３
を計算し、次にｊを増加させて、ｊ＝Ｊとなるまで同様
の計算を繰り返せば、最後に入力音声の特徴量Ｐｘ（ｉ
）と登録音声の特徴量Ｐｔｋ（ｊ）との２つの時系列間
の時間正規化後の距離Ｄｋを、

【００３４】

【数１４】として求めることができる。

【００３５】このようにして求められた距離Ｄｋと、そ
の距離Ｄｋを与えたマッチングパスＬ，すなわち数１３
の演算で選択された（ｉ，ｊ）の履歴は、所定のメモリ
（図示せず）に記憶される。例えば、整合窓Ｗの定数ｒ
を用いると、パスは最大（２ｒ＋１）個となり、また、
１つの最大長さは、（Ｉｍａｘ＋２ｒ＋１）となる。こ
こでＩｍａｘは、入力音声の最大フレーム長である。従
って、マッチングパスＬを記憶するのに、メモリとして
は、（２ｒ＋１）（Ｉｍａｘ＋２ｒ＋１）個が必要であ
る。メモリへのマッチングパスＭＰの記憶法としては、
数１３において（ａ）が選択された場合には、ｇ（ｉ，
ｊ−１）のパスに（ｉ，ｊ）を加え、（ｂ）が選択され
た場合には、ｇ（ｉ−１，ｊ−１）のパスに（ｉ，ｊ）
と（ｉ，ｊ）を加え、（ｃ）が選択された場合には、ｇ
（ｉ−１，ｊ）のパスに（ｉ，ｊ）を加え、これらのい
ずれかをｇ（ｉ−１，ｊ−１）のパスが記憶されていた
メモリに記憶する。最終的なパスＬは、ｇ（Ｉ，Ｊ）の
パスであり、例えば、図３に示すように記憶される。な
お、各データは、ｉが増加するか否か、ｊが増加するか
否かの２ビット情報だけで表現されて記憶されていも良
い。

【００３６】しかる後、マッチング部４は、メモリに記
憶された各登録音声ごとの距離Ｄｋのうちで、所定の閾
値以上の距離を与えた登録音声を認識対象から除外し、
候補の絞り込みを行なう。候補の絞り込みを行なうと、
次いで、絞られた候補のみについてその第２の特徴量Ｓ
ｔｋ（ｊ，ω）と入力音声の第２の特徴量Ｓｘ（ｊ，ω
）との距離Ｄ´（Ｌ）をそれぞれ、上記のようにして求
められたパスＬを用いて、

【００３７】

【数１５】として求める。ここで、ｄ´（ｉｋ（ｎ），ｊｋ（ｎ）
）は、

【００３８】

【数１６】である。なお、ωは周波数に対応し、チャンネル数Ｅは
、例えば２５０Ｈｚから６３５０Ｈｚまでの１／３ｏｃ
ｔの１５チャンネルである（一般的にチャンネル数Ｅは
、８〜３０程度）。

【００３９】このようにして、入力音声の第２の特徴量
Ｓｘ（ｉ，ω）と絞られた候補である各登録音声の第２
の特徴量Ｓｔｋ（ｊ，ω）との距離Ｄ´（Ｌ）をそれぞ
れ計算し、これらの距離のうちで最小のものを求め、こ
れが所定の閾値以下の場合に、この最小距離を与えた候
補のカテゴリ−を認識結果として出力する。

【００４０】ところで、本実施例では、ＤＰマッチング
の処理量は、第１の特徴量を用いてマッチングパスを求
める際の処理量と、第１の特徴量の距離Ｄ´（Ｌ）を求
める際の処理量との和になる。

【００４１】第１の特徴量を用いてマッチングパスを求
める際には、先づｄ（ｉ，ｊ）の計算が必要となり、ｄ
（ｉ，ｊ）の計算では、各ｉ，ｊごとに、数１において
入力音声のパワーｅ（ｉ）の割算演算｛ｅ（ｉ）／ｅ（
ｉ−１）｝が１回、その対数演算ｌｏｇが１回、また、
数１において算出された入力音声の第１の特徴量Ｐｘ（
ｉ）と登録音声の第１の特徴量Ｐｔｋ（ｊ）との減算演
算が１回、その絶対値演算が１回必要となり、合計で４
回の処理量となる。

【００４２】また、このようにしてｄ（ｉ，ｊ）が計算
された後、ｇ（ｉ，ｊ）の計算が必要となり、ｇ（ｉ，
ｊ）の計算では、各ｉ，ｊごとに、数１３の（ａ）の加
算演算が１回、数１３の（ｂ）の加算演算が２回、数１
３の（ｃ）の加算演算が１回、（ａ），（ｂ），（ｃ）
の比較演算が２回必要となり、合計で６回の処理量とな
る。

【００４３】従って、各ｉ，ｊ毎に（４＋６）回，すな
わち１０回の処理量を要し、各ｉ毎に〔１０・（２ｒ＋
１）〕回の処理量となり、第１の特徴量の距離を求める
際には、合計〔１０・（２Ｒ＋１）・Ｉ〕回の処理量が
必要となる。

【００４４】また、第２の特徴量の距離Ｄ´（Ｌ）を求
める際には、数１６において、各チャンネル毎に、対数
演算Ｌｏｇが１回、減算演算が１回、絶対値演算が１回
必要となるので、チャンネル数がＥであるとすると、こ
の段階で（３Ｅ）回の処理量を要する。さらにチャンネ
ル毎の処理結果を加算するのに、加算演算が（Ｅ−１）
回必要となる。従って、数１６において各ｎ毎に合計（
４Ｅ−１）回の処理量が必要となり、数１５において、
第２の特徴量の距離Ｄ´（Ｌ）を求める際には、合計〔
（４Ｅ−１）・（Ｉ＋Ｊ）〕回の処理量が必要となる。

【００４５】これにより、本実施例による全体の処理量
Ｑは、

【００４６】

【数１７】となる。

【００４７】次に、このような本実施例の音声認識方式
での処理量を特開平１−２８３５９９号に開示されてい
るような従来の音声認識方式での処理量と比較する。従
来の音声認識方式では、ｄ（ｉ，ｊ），ｇ（ｉ，ｊ）を
それぞれ、

【００４８】

【数１８】

【００４９】

【数１９】のように演算すると、ｄ（ｉ，ｊ）の演算には、各チャ
ンネルに、対数演算が１回、減算演算が１回、絶対値演
算が１回必要であり、チャンネル数がＥであるとすると
、この段階で、（３Ｅ）回の処理量を要する。さらにチ
ャンネル毎の処理結果を加算するのに、加算演算が（Ｅ
−１）回必要となる。この結果、数１８においてｄ（ｉ
，ｊ）を求めるのには、各ｉ，ｊ毎に合計（４Ｅ−１）
回の処理量が必要となる。

【００５０】また、数１９のｇ（ｉ，ｊ）の演算には、
加算演算が４回、比較演算が２回必要となるので、各ｉ
，ｊ毎に、合計６回の処理量が必要になる。

【００５１】これにより、各ｉ毎に、〔（４Ｅ＋５）・
（２ｒ＋１）〕回の処理量が必要となり、全体の処理量
Ｒは、

【００５２】

【数２０】となる。

【００５３】いま、チャンネル数Ｅを“１５”，整合窓
の定数ｒを“２０”，ＩおよびＪをそれぞれ“６０”と
すると、従来の音声認識方式では、ＤＰマッチングに要
する全体の処理量Ｒは、数２０により約１６０，０００
回となるのに対し、本実施例の音声認識方式では、ＤＰ
マッチングに要する全体の処理量Ｑは、数１７により３
２，０００回で済み、この例では、従来に比べて約１／
５程度に処理量を削減することが可能となる。

【００５４】このように本実施例では、比較的に情報量
の少ない第１の特徴量を用いて、動的計画法で入力音声
と各登録音声とのマッチングパスを決定し、マッチング
パスを大幅に制限してから、このマッチングパスに従っ
て比較的に情報量の多い第２の特徴量を用いて入力音声
と各登録音声との距離を計算するようにしているので、
ＤＰマッチングを用いるときにも、処理量の大幅な削減
が可能となる。

【００５５】さらに本実施例では、マッチングパスの決
定の際に得られる第１の特徴量を用いた距離の値に応じ
て、候補の絞り込みを行なっているので、さらに処理量
を低減することができる。

【００５６】また、本実施例では、第１の特徴量として
、入力音声のパワーｅ（ｉ）の変化率を用いているので
、入力される音声のレベルに違いがあっても、これによ
る影響を少なくすることができる。

【００５７】なお、第１の特徴量としての入力音声のパ
ワーｅ（ｉ）の変化率を求めるに際して、入力音声のパ
ワーｅ（ｉ）の値が予め定められたパワーの下限値ｅｍ
ｉｎ　（〉０）に満たない場合には、入力音声のパワー
ｅ（ｉ）の値として下限値ｅｍｉｎを用いるのが良く、
これにより、入力音声のパワーｅ（ｉ）が小さい場合の
第１の特徴量の誤差を低減することができる。あるいは
、この場合に、入力音声のパワーｅ（ｉ）として、パワ
ーを数フレーム程度の平滑化をして用いても良い。

【００５８】また、第１の特徴量としては、最大パワー
で正規化された入力音声のパワーの対数値を用いても良
いし、これらの対数変換される前の値などを用いても良
い。あるいは、ゼロ交差点を用いても良い。

【００５９】また、上述の例における第１の特徴量とし
ての短時間スペクトルは、ＦＦＴによっても求めること
ができる。また、第２の特徴量として、ＬＰＣ分析によ
るケプストラム，メルケプストラムなどの他の特徴量を
用いても良い。

【００６０】また、音声区間検出部２において音声区間
の検出を２閾値法などの他の方法で行なうこともできる
。

【００６１】

【発明の効果】以上に説明したように本発明によれば、
比較的情報量の少ない第１の特徴量を用いて、動的計画
法で入力音声と各登録音声とのマッチングパスを決定し
、マッチングパスを大幅に制限してから、このマッチン
グパスに従って比較的情報量の多い第２の特徴量を用い
て入力音声と各登録音声との尤度を求めるようにしてい
るので、処理量を低減できる。

【００６２】また、比較的情報量の少ない第１の特徴量
として、音声のパワーの変化率を用いることにより、入
力音声のレベルに違いがあってもこれによる影響を防止
することができる。また、この場合、入力音声のパワー
の値が予め定められたパワーの下限値に満たない場合に
は、このパワーの下限値を入力音声のパワーの値として
用いることにより、入力音声のパワーが小さい場合の第
１の特徴量の誤差を低減できる。

【００６３】また、入力音声と各登録音声とのマッチン
グパスを決定する際に、入力音声の第１の特徴量と各登
録音声の第１の特徴量との距離を求め、距離の値に応じ
て各登録音声，すなわち候補の絞り込みを行なった上で
、第２の特徴量を用いて尤度を求めるようにすれば、さ
らに処理量を低減できる。

【図面の簡単な説明】

【図１】本発明の一実施例のブロック図である。

【図２】入力音声と登録音声とのマッチングパスを説明
するための図である。

【図３】入力音声と登録音声とのマッチングパスの具体
的なデータを示す図である。

【符号の説明】

１　　　　特徴量抽出部２　　　　音声区間検出部３　　　　登録音声メモリ４　　　　マッチング部

Claims

【特許請求の範囲】

【請求項１】　　入力音声の特徴量と予め登録された複
数の登録音声の特徴量とのマッチングを行なうことによ
り入力音声を認識する音声認識方式において、前記入力
音声の特徴量と前記各登録音声の特徴量とは、いずれも
、比較的情報量の少ない第１の特徴量と、比較的情報量
の多い第２の特徴量とからなり、前記入力音声の第１の
特徴量と前記各登録音声の第１の特徴量とに基づき、動
的計画法を用いて入力音声と各登録音声とのマッチング
パスを決定し、該マッチングパスに時間的にそれぞれ対
応する前記入力音声の第２の特徴量と前記各登録音声の
第２の特徴量とを用いて、入力音声と各登録音声との尤
度を求め、該尤度に基づき入力音声の認識結果を得るよ
うになっていることを特徴とする音声認識方式。
【請求項２】　　前記入力音声および前記各登録音声の
第１の特徴量は、音声のパワーの変化率を用いた特徴量
であることを特徴とする請求項１記載の音声認識方式。
【請求項３】　　前記入力音声の第１の特徴量を求める
際に、入力音声のパワーの値が予め定められたパワーの
下限値に満たない場合には、該パワーの下限値を入力音
声のパワーの値として用いるようになっていることを特
徴とする請求項２記載の音声認識方式。
【請求項４】　　入力音声の第１の特徴量と各登録音声
の第１の特徴量とに基づき、入力音声と各登録音声のマ
ッチングパスを決定する際には、入力音声の第１の特徴
量と各登録音声の第１の特徴量との距離が求められ、該
距離の値に応じて候補の絞り込みを行ない、絞られた候
補の登録音声に対してのみ、第２の特徴量を用いて尤度
が求められるようになっていることを特徴とする請求項
１，２または３記載の音声認識方式。