JPH09222899A

JPH09222899A - 単語音声認識方法およびこの方法を実施する装置

Info

Publication number: JPH09222899A
Application number: JP8028921A
Authority: JP
Inventors: Yoshio Nakadai; 芳夫中台; Tetsutada Sakurai; 哲真桜井; Yutaka Nishino; 豊西野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1996-02-16
Filing date: 1996-02-16
Publication date: 1997-08-26

Abstract

(57)【要約】【課題】音声区間として検出した雑音の付加に起因し
て生ずる認識誤りを軽減する単語音声認識方法および装
置を提供する。【解決手段】各標準パターンについて、音声の特徴が
現われている部分標準パターンを予め抽出しておき、入
力音声パターンについて、一定時間間隔毎の各位置を真
の音声の始端と仮定して始端から部分標準パターンと同
一の時間的位置関係を有する部分入力パターンを抽出
し、両部分パターン間においてパターンマッチング処理
を行なって両部分パターン間の距離の極小値が得られる
部分入力パターンの位置より入力音声パターン中の真の
音声区間の始端および終端位置を決定し、入力音声パタ
ーンの真の音声区間と標準パターンの間においてマッチ
ングを行う単語音声認識方法および装置。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、単語音声認識方
法およびこの方法を実施する装置に関し、特に、単語単
位の音声入力をして認識結果を出力する単語音声認識方
法およびこの方法を実施する装置に関する。

【０００２】

【従来の技術】従来例を図を参照して説明する。電気機
器その他の機械装置を人間の手により操作する代わりに
音声によりコマンドを入力して操作する場面で使用され
る音声認識装置については、従来より様々な研究開発が
行われている。

【０００３】音声認識技術は、人間が任意の場所から任
意のタイミングで発声した任意長の音声を１００％の確
率で認識するのが理想である。しかし、完璧な認識性能
を達成しようとすると、音声認識技術は、様々な雑音が
存在する実際の音響環境下において任意のタイミングで
発声される音声を正確に捕捉することを要求される。そ
の結果、音声入力処理において、雑音をも含めて観測さ
れる信号区間の内から音声の始端と終端とを何回も検出
し、且つ、雑音その他の不要な信号区間を除外する様な
複雑な区間検出アルゴリズムが常に実行される処理操作
を必要とされ、処理に要する計算量が膨大化する。この
様な理由から、簡易な音声認識技術として、或る一定時
間中において音声の始端と終端とをそれぞれ１回のみ検
出する孤立単語音声認識方式が採用される。

【０００４】図４を参照して孤立単語音声認識装置を説
明する。図４において、音声入力部１はマイクロホンそ
の他音声を電気的な音声波形に変換して入力するところ
である。変換部２は音声分析の前処理として音声波形を
ディジタルの数値に変換するところである。音声特徴抽
出部３は音声波形を短時間スペクトル分析して一定時間
間隔、即ち短時間フレーム毎に音声波形から音声認識に
必要とされる特徴を抽出するところである。音声区間検
出部５は音声特徴抽出部３から得られる音声特徴量に基
づいて音声の始端および終端をそれぞれ１箇所だけ決定
するところである。起動スイッチ部４は音声区間検出に
際して外部より始端検出開始のトリガを与えるところで
ある。入力パターン格納部６は音声区間検出部５におい
て決定された音声始端から音声終端に到る音声特徴量を
音声特徴抽出部３から取り込んでこれを入力音声パター
ンとするところである。標準パターン記憶部７は、入力
パターン格納部６と同様の手順により格納され、ラベル
名を付与された音声認識に使用される複数の単語音声パ
ターンを格納した記憶部である。パターンマッチング部
８は入力パターン格納部６に格納された未知の入力音声
パターンと標準パターン記憶部７に格納されている各標
準パターンの間のマッチング処理を行い、その結果であ
る入力音声パターンと各標準パターンとの間の距離値を
出力するところである。距離比較部９はパターンマッチ
ング部８の出力する距離値を、マッチングする各標準パ
ターン毎に蓄積および比較し、その結果一つの未知入力
パターンに対する各標準パターンのマッチング結果の内
から最小の距離値を得るところである。結果出力部１０
は距離比較部９より出力された距離値の内の最も小さい
距離値を持つ標準パターンのラベル名を、音声認識装置
を動作させる上位ホストへ出力するところである。

【０００５】以下、図４の音声認識装置の動作について
説明する。標準パターンは入力音声パターンと同様に分
析され整備されたものが標準パターン記憶部７に予め登
録されているものとする。音声は、常時、音声入力部
１、変換部２、音声特徴抽出部３を介して１０〜３０ｍ
ｓｅｃ程度の一定時間間隔、即ち短時間フレーム毎に入
力および分析され、その分析結果の一部の情報、例えば
音声信号の対数パワーは音声区間検出部５に送られ、音
声区間検出の情報とされる。ここで、発声者或は音声認
識装置を動作させる上位ホストの操作により起動スイッ
チ部４を駆動し、音声区間検出開始のトリガが発生した
ものとする。これにより音声区間検出部５は初期化さ
れ、音声特徴抽出部３から入力する情報について音声始
端の検出を開始する。音声始端の検出方法としては、例
えば、信号パワー値が音声のない状態から或る一定閾値
以上の大きな値で一定時間継続したときにその信号パワ
ー値の立ち上がり位置を始端とする方法がある。この
後、音声区間検出部５は音声の信号パワー値の減衰点を
検出してこれを音声の終端とし、動作を終了する。この
様にして検出された音声の始端から終端に到る区間につ
いて音声特徴抽出部３の分析結果を、入力パターン格納
部６に入力音声パターンとして格納する。格納が完了し
た時点において、パターンマッチング部８は入力パター
ン格納部６に格納した入力音声パターンと標準パターン
記憶部７に記憶されている各標準パターンの内容を、Ｄ
Ｐマッチングその他のパターンマッチング手法により照
合して距離計算を行う。各標準パターンに対する距離計
算結果は距離比較部９において小さい距離値の順に整
理され、最も小さい距離値となった標準パターンのラベ
ル名が結果出力部１０を介して上位ホストへ出力され
る。

【０００６】しかし、この様な孤立単語音声認識装置に
おいては、音声区間を正確に検出する技術が必要とされ
る。音声区間検出を目的として、音声特徴抽出部により
得られる全ての情報をニューラルネットその他のフィル
タリング操作部に入力し、正確に音声区間のみを抽出す
る方法があるが、この抽出に使用される計算方法は大が
かりなものであり、いわゆる文音声認識と大差のない計
算量を必要とする。このため、一般に、少量の計算量に
より音声区間検出を実施しようとする場合、音声パワ
ー、零交差数その他の単純な情報に基づいて音声区間を
検出する。また、音声区間検出段階において音声区間
の一部がが未検出となることを防ぐために、区間検出時
には２つの音声区間に挟まれた短い雑音区間もまとめて
１つの音声区間として検出する様な方法を採用すること
ができる。

【０００７】この様な音声区間検出方法により切り出さ
れた音声の模式図を図５に示す。これは音声信号パワー
に着目して音声区間を切り出した例である。図５におい
て、区間（１）は口唇を動かし始めた時に収録したノイ
ズであり、一般にリップノイズと称される。区間（２）
は検出を意図した真の音声区間を示す。区間（３）は発
声後に受信した呼吸音を示し、区間（４）は周囲騒音或
は音声入力部１から変換部２に到る間において生じた伝
送上のノイズを示す。図５は、音声入力部１が電話機の
ハンドセットの様に発声者の口元に近い場合、真の音声
区間の前後に呼吸音或はリップノイズが付随したり、周
囲騒音或は伝送系に起因するノイズについても音声区間
と誤って判断される場合の生ずることを示している。こ
の様に、真の音声区間以外に不要な信号区間の付随が生
じたものは、標準パターンが真の音声区間と同一のもの
であったとしても、不要な信号区間を含めた形でパター
ンマッチング処理を実行するところから、二つのパター
ン間に食い違いを生じ、結果的には音声認識誤りを生ず
る。この様に音声認識誤りを引き起こす区間検出の状態
を、一般に音声区間検出誤りと呼ぶ。

【０００８】音声区間検出誤りによる誤認識は、入力音
声パターンを調整することにより回避しなければならな
い。その理由は、標準パターンが最適な認識率が得られ
る様に発声者が注意深く発声して作成されたものであっ
たり、或は計算機上において自動生成されたものであっ
たりして、殆どの場合、区間検出誤りが排除されたパタ
ーンであるのに対して、入力音声パターンは実環境の元
において収録された音声についてのものであるので、区
間検出誤りの原因および発生状態が発声の都度異なるか
らである。また、音声認識装置は事前に想定し得ない未
知の音響環境下においても有効に作用する回避手法であ
ることも要求される。

【０００９】入力音声の区間検出誤りにより生ずる誤認
識を回避する方法としては、いわゆるワードスポッティ
ングという手法が使われている。即ち、入力音声につい
ては音声が含まれると思われる区間を事前に大まかに検
出しておき、その区間中の一定時間間隔毎の各位置を真
の入力音声の始端と考え、標準パターンとの間で終端フ
リーのパターンマッチングを繰り返し、その結果得られ
る最小の距離値を二つのパターン間のマッチング結果と
するものである。しかし、この方法は大まかに切り出し
た音声区間の長さに相当するマッチングを繰り返すこと
となり、計算量が膨大になる。

【００１０】

【発明が解決しようとする課題】上述した通り、少量の
計算規模で実行することを目的とした単語音声認識装置
は、音声区間検出処理を簡素化しているところから、真
の音声区間以外の不要信号区間が前後に付随した区間検
出結果を生じ、この様な音声については正しい認識結果
が得られない。また、この問題を解決するには計算量が
膨大になるアルゴリズムを使用しなければならない。

【００１１】ここで、区間検出誤りに起因する誤認識を
回避する有効な方法とされているワードスポッティング
技術の効果を検証すると、以下の様になる。図６はワー
ドスポッティングの一例を説明する図である。この手法
は長い区間として検出された横軸方向の入力音声パター
ンと、縦軸方向の短い標準パターンとを、入力音声パタ
ーン中の一定時間間隔毎の各位置を開始点として終端フ
リーのマッチングを行い、距離値を算出するものであ
る。ところが、二つのパターン間のパターンマッチング
を行う範囲は、図６の斜線部の様に二つのパターンが交
差する全区間に及び、膨大な計算量を必要とすることが
判る。マッチング結果として算出された距離値は図６の
上部のグラフの例の様に、標準パターンと最も類似性の
高い部分区間で極小値を取る様に推移する。ワードスポ
ッティングの効果は、パターンマッチング自体が音声区
間検出を兼ね、距離値が極小値になる区間が真の音声区
間であるとする充分条件を利用していることにある。

【００１２】ところが、パターンマッチングはＤＰマッ
チング法に代表される様に、音声区間をおおよそ推定す
ることができれば、音声始端および終端部分のゆらぎ、
パターン間の時間伸縮のゆらぎを吸収することができ
る。この特性を利用し、標準パターンの内の音声の特徴
が現われている部分区間を使用してワードスポッティン
グと同様の手順で音声区間をおおまかに推定し、その
後、標準パターン全区間と推定された入力音声パターン
の部分区間との間においてパターンマッチングを実行す
れば、ワードスポッティングと比較して少ない計算量で
従来のワードスポッティングに匹敵する音声認識性能を
得ることができることになる。

【００１３】この発明は、入力音声の前後に不要信号区
間が付随する区間検出結果が生じた場合においても、音
声の特徴が現われている標準パターンの一部区間を使用
した簡易なワードスポッティングアルゴリズムにより音
声区間を推定してマッチングを行うことにより、計算量
の膨大化を招くことなしに正確に音声認識をすることが
できる音声認識装置を提供するものである。

【００１４】

【課題を解決するための手段】比較されるべき各標準パ
ターンの部分区間と類似性の高い部分区間を入力音声パ
ターンから導出し、これを手がかりに真の音声区間を推
定し、マッチングを行う単語音声認識方法を構成した。
そして、先の単語音声認識方法において、比較されるべ
き各標準パターンについて、音声の特徴が現われている
部分区間である部分標準パターンを予め抽出しておき、
認識対象である入力音声パターンについて、一定時間間
隔毎の各位置を真の音声の始端と仮定して始端から部分
標準パターンと同一の時間的位置関係を有する部分区間
である部分入力パターンを抽出し、両部分パターン間に
おいてパターンスポッティング処理を行なって両部分パ
ターン間の距離の極小値が得られる真の音声区間の始端
および終端位置を決定し、入力音声パターンの真の音声
区間と標準パターンの間においてでマッチングを行う単
語音声認識方法を構成した。

【００１５】音声信号を入力する音声入力部１を具備
し、入力された音声信号より音声特徴パターンを抽出す
る音声特徴抽出部３を具備し、音声特徴抽出部３の出力
する音声特徴パターン情報に基づいて音声区間を検出す
る音声区間検出部５を具備し、音声区間検出結果に基づ
いて音声区間の始端および終端を確定しこの両端で示さ
れる区間の音声特徴パターンを格納する入力音声パター
ン格納部６を具備し、音声認識に使用する標準パターン
を格納した標準パターン記憶部７を具備し、格納された
各標準パターンより音声の特徴が現われている部分区間
パターンを抽出する部分標準パターン抽出部１１を具備
し、入力音声パターンの内の一定時間間隔毎の各位置を
始端として標準パターンの部分区間パターンと同様の時
間関係を有する部分区間パターンを抽出する部分入力パ
ターン抽出部１２を具備し、標準パターンの部分区間と
入力音声パターンの部分区間との間のパターンマッチン
グを行う部分パターンスポッティング部１３を具備し、
部分パターンスポッティング部１３のマッチング結果よ
り部分区間パターンと入力音声パターンの間の距離値が
極小値となる位置を真の音声区間の始端および終端位置
として決定する区間位置決定部１４を具備し、区間位置
決定部１４より得られる位置関係情報に基づいて標準パ
ターンと入力音声パターンとの間のパターンマッチング
を行い距離値を出力するパターンマッチング部８を具備
し、各標準パターンと入力音声パターンとの間のマッチ
ング結果として出力された距離値を蓄積し最小距離値の
標準パターンを特定する距離比較部９を具備し、最小距
離値と判定された標準パターンのラベル名を出力する結
果出力部１０を具備する単語音声認識装置を構成した。

【００１６】

【発明の実施の形態】この発明は、先ず、音声認識に使
用する各標準パターンを登録すると共に、音声の特徴が
現われている部分区間を標準パターンの内からそれぞれ
抽出する。次に、認識されるべき音声を入力させ、信号
パワーの如き簡易な情報に着目して音声区間を検出し、
入力音声パターンとする。ここで、検出した入力音声パ
ターンの始端から終端まで一定間隔であるフレーム毎に
部分標準パターンと同様の時間的位置関係を持つ部分区
間を抽出し、先に抽出しておいた各標準パターンの部分
区間との間で簡単なパターンマッチングを行い、両部分
区間パターン間の累積距離値を求める。このパターンマ
ッチングの結果、入力音声パターンについて累積距離値
が極小値を取る部分区間の位置を推定することができ
る。この始端位置情報に基づいて、区間長は比較する標
準パターンと同一と仮定して、照合すべき入力音声パタ
ーンの区間位置を特定し、標準パターン全区間と特定し
た入力パターン部分との間のマッチングを行い、距離値
を求める。これらの処理を各標準パターン毎に繰り返し
た結果、累積距離値が最小となった標準パターンを認識
結果として得ることができ、音声区間検出誤りに起因す
る認識誤りを回避することができる。

【００１７】

【実施例】この発明の実施例を図１を参照して説明す
る。図１において、音声入力部１は音声を入力するとこ
ろあり、オーディオマイクロホン、オーディオ入力端子
を使用する。変換部２は音声分析の前処理として音声波
形をディジタルの数値に変換するところである。音声特
徴抽出部３は変換部２により得られた音声波形を短時間
スペクトル分析して１０〜３０ｍｓｅｃ程度の一定時間
間隔、即ち短時間フレーム毎に音声波形から音声認識に
必要とされる特徴量を抽出するところであって、その分
析手法としては、短時間対数パワー分析およびケプスト
ラム分析の如き手法が採用される。起動スイッチ部４は
孤立単語音声認識を実現するに必要とされる音声区間検
出時の始端検出開始のトリガを与えるところである。音
声区間検出部５は音声特徴抽出部３から得られる音声特
徴量に基づいて音声の始端および終端をそれぞれ１箇所
だけ決定するところであり、その検出の手法としては、
音声発生以前の雑音レベルを測定しておき、その雑音レ
ベルより導出される一定閾値以上の対数パワー値を有す
る信号成分が一定時間内で推移する区間を音声区間とす
る方法を採用することができる。また、一定閾値を超え
る区間が、閾値未満の短い区間を挟んで２つ存在する場
合には、この３つの区間を合わせて１つの部分区間とみ
なす方法を採用することができる。入力パターン格納部
６は音声区間検出部５において決定された音声始端から
音声終端に到る音声特徴量を音声特徴抽出部３から取り
込んでこれを入力音声パターンとするところである。標
準パターン記憶部７は、入力パターン格納部６と同様の
手順により格納され、ラベル名を付与された音声認識に
使用される複数の単語音声パターンを格納した記憶部で
ある。

【００１８】この発明により付加される部分標準パター
ン抽出部１１は、音声の特徴が現われている部分区間で
ある部分標準パターンを標準パターン記憶部７より抽出
し、後で説明される部分パターンスポッティング部１３
に供給するところであり、マッチングに使用する。同様
にこの発明により付加される部分入力パターン抽出部１
２は、入力パターン格納部６より入力された音声パター
ンについて、始端から終端まで一定間隔で位置をずらし
ながら、部分標準パターン抽出部１１により抽出したも
のと同様の部分区間である部分入力パターンを抽出する
ところである。この発明により付加される部分パターン
スポッティング部１３は、部分標準パターン抽出部１１
より出力された部分区間パターンと部分入力パターン抽
出部１２より出力された部分区間パターンとの間で簡単
なパターンマッチングを実行し、両部分区間パターン間
の距離値を出力するところである。区間位置決定部１４
もこの発明により付加される構成であり、部分パターン
スポッティング部１３から出力される距離値を部分入力
パターンの抽出位置毎に蓄積および比較し、距離値が極
小値となる入力パターンの位置を特定し、更に比較対象
とされた標準部分パターンを参照して、パターンマッチ
ング部８において照合を行う入力音声パターン区間の位
置を特定するところである。パターンマッチング部８
は、入力パターン格納部６に格納された未知の入力音声
パターンと標準パターン記憶部７に格納されている各標
準パターンとの間において、区間位置決定部１４の情報
に基づいて位置合わせしてパターンマッチングを実行
し、入力音声パターンとの間の距離値を出力するところ
であり、そのパターンマッチングの手法としては、音声
認識のパターンマッチング法としてよく知られているＤ
Ｐマッチング法を採用することができる。距離比較部９
はパターンマッチング部８の出力する距離値を、マッチ
ングする各標準パターン毎に蓄積および比較し、その結
果一つの未知入力パターンに対する各標準パターンのマ
ッチング結果の内から最小の距離値を得るところであ
る。結果出力部１０は距離比較部９より出力された距離
値の内の最も小さい距離値を有する標準パターンを導出
し、その標準パターンのラベル名を音声認識装置を動作
させる上位ホストへ出力するところである。

【００１９】以下、図１の音声認識装置の動作について
説明する。標準パターンは入力音声パターンと同様に分
析され整備されたものが標準パターン記憶部７に予め登
録されているものとする。音声は、常時、音声入力部
１、変換部２、音声特徴抽出部３を介して１０〜３０ｍ
ｓｅｃ程度の一定時間間隔、即ち短時間フレーム毎に入
力および分析され、その分析結果の一部の情報、例えば
音声信号の対数パワーは音声区間検出部５に送られ、音
声区間検出の情報とされる。ここで、発声者或は音声認
識装置を動作させる上位ホストの操作により起動スイッ
チ部４を駆動し、音声区間検出開始のトリガが発生した
ものとする。これにより音声区間検出部５は初期化さ
れ、音声特徴抽出部３から入力する情報について音声始
端の検出を開始する。音声始端の検出方法としては、例
えば、信号パワー値が音声のない状態から或る一定閾値
以上の大きな値で一定時間継続したときにその信号パワ
ー値の立ち上がり位置を始端とする方法がある。この
後、音声区間検出部５は音声の信号パワー値の減衰点を
検出してこれを音声の終端とし、動作を終了する。この
様にして検出された音声の始端から終端に到る区間につ
いて音声特徴抽出部３の分析結果を、入力パターン格納
部６に入力音声パターンとして格納する。

【００２０】入力パターン格納部６に対する入力音声パ
ターンの格納が完了すると、この入力音声パターンと登
録されている各標準パターンとの間のマッチングが開始
される。先ず、部分標準パターン抽出部１１において、
標準パターンより音声の特徴が現われている部分区間で
ある部分標準パターンを抽出して部分パターンスポッテ
ィング部１３に供給する。部分標準パターンの抽出の仕
方を図２を参照して説明する。標準パターン全体を図２
（ａ）の通りとする。説明を簡略化するために対数音声
パワーのみにより音声波形を表記している。部分区間の
抽出例としては、（ｂ）の斜線により示される様な音声
の特徴が現われている１つ以上の部分区間、（ｃ）の斜
線により示される始端および終端の短い部分区間、
（ｄ）の斜線により示される、例えば、標準パターン全
長の１／４、３／４、にあたる位置その他の、図形的に
計算の容易な位置の部分区間を採用すると好適である。
この場合、部分標準パターンの相互位置関係は元の標準
パターン区間上の位置関係を保持したまま、即ち時間伸
縮は考慮しないものとする。

【００２１】次に、部分入力パターン抽出部１２におい
て、入力パターン格納部６に格納した入力音声パターン
に対して、パターンの始端から終端に到る区間をフレー
ム単位の一定時間間隔如に細分化したときの各フレーム
を真の入力音声パターンの始端と仮定し、始端より部分
標準パターンと同一位置の部分パターンである部分入力
パターンを抽出する。この様に、部分標準パターン抽出
部１１において抽出された部分標準パターンと部分入力
パターン抽出部１２において抽出された部分入力パター
ンとの間のマッチングを部分パターンスポッティング部
１３において実行する。各部分区間に対するマッチング
の方法は、例えば、ケプストラムのユークリッド距離の
累積距離値を使用する。この距離計算結果は、区間位置
決定部１４へ送出されるが、区間位置決定部１４におい
ては、部分入力パターン抽出部１２で走査する入力音声
パターンの仮定始端毎に累積距離値の推移を見る。この
推移の例を図３に示す。図３において、部分標準パター
ンと入力音声パターンとの間で部分パターンスポッティ
ングのためにスペクトル距離計算を必要とする領域は図
３の中央の枠の内の斜線部のみであり、図６の場合と比
較して、計算領域は明らかに小さい領域で済んでいるこ
とが判る。部分パターンスポッティングの結果、部分区
間同士の距離値は図３の上部に示される様に推移する
が、標準パターン全長と、入力音声パターンの内の真の
入力音声部分とがほぼ合致する位置関係を取ったときに
距離値は極小値となる。区間位置決定部１４において
は、この極小値を取ったときの入力音声パターンの仮定
始端を真の音声区間に対する始端と決定し、その情報を
パターンマッチング部８へ送出する。パターンマッチン
グ部８は、区間決定部１４から送出された部分区間位置
情報を入力し、標準パターン記憶部７より供給される標
準パターンの全長と入力パターン記憶部６より供給され
る入力音声パターンとについて、区間決定部１４により
判断された部分区間位置情報に基づいてマッチングを行
う。このとき、入力音声の区間長は、標準パターン区間
長と同一とする。マッチング結果は距離比較部９におい
て各標準パターンについて蓄積されると共に、小さい距
離値の順に整理され、結果出力部１０へ送出される。最
も小さい距離値を取った標準パターンのラベル名が結果
出力部１０を介して上位ホストへ出力される。なお、各
標準パターンと入力音声パターンとの比較において、入
力音声パターン長が標準パターン長より短い場合があ
る。この場合は、区間位置決定部１４の判断により入力
音声パターンの全長と標準パターンの全長とをパターン
マッチングする様にパターンマッチング部８に指示す
る。

【００２２】以上のアルゴリズムについて、実際の音声
に対して実験した結果を説明する。認識対象は文献「音
声認識用共通音声データ」（著者板橋、音響学会予稿
集、１９８５年発表）に記述された日本都市名１００単
語中上位２０単語を男性話者１名が発声したものであ
る。音声は電話帯域（３００Ｈｚ〜３. ４ｋＨｚ）のフ
ィルタを通して８ｋＨｚでＡ／Ｄ変換され、１６ｍｓｅ
ｃ毎に３２ｍｓｅｃ長の短時間フレームについてＬＰＣ
ケプストラム分析が実行される。音声区間検出は短時間
対数パワーに着目して行った。発声においては、この発
明の音声認識手法の有効性を明確化するために（１）認
識語彙の前に「えー」を付随させて発声する、（２）認
識語彙の後に「です」を付随させて発声する、（３）認
識語彙の前後に「えー」および「です」をそれぞれ付随
させて発声する、のスタイルで発声させた。部分標準パ
ターンの抽出方法は、図２（ｄ）の様に標準パターンの
始端から１／４および終端から１／４、即ち始端から３
／４の２箇所の区間のみに抽出する方法を採用した。そ
の結果、音声区間を一つに固定する従来の認識手法にお
いて、（１）、（２）、（３）の各発声スタイルによる
認識率がそれぞれ１０％、４０％および５％であったの
に対して、入力パターンから真の音声区間を推定してマ
ッチングを行うこの発明の方法においては認識率はそれ
ぞれ１００％、１００％および８５％となり、この発明
の方法が有効であることが確認された。

【００２３】この発明は、また、この実験の様に意図的
に付随させた不要音声だけでなく、発声者の意図に関係
なく発生するリップノイズ、呼吸音、或は背景雑音その
他の雑音を音声区間から除外して音声認識することがで
きる。

【００２４】

【発明の効果】以上の通りであって、この発明は、音声
区間検出を行ってからパターンマッチングを行う単語音
声認識装置について、音声区間検出時に誤って音声区間
として検出した不要音声、リップノイズ、呼吸音、或は
背景雑音その他の雑音の付加に起因して生ずる認識誤り
を音声区間検出アルゴリズムに対する簡易な演算の追加
により回避する効果を奏する。

【図面の簡単な説明】

【図１】実施例を説明するブロック図。

【図２】標準パターンの内から部分パターンを抽出する
仕方を説明する図。

【図３】パターンスポッティングを行ったときの入力音
声パターンの位置に対する累積距離値の推移を示す図。

【図４】従来例を説明するブロック図。

【図５】音声区間検出時に生じる信号現象を説明する
図。

【図６】ワードスポッティングを行ったときの入力音声
パターンの位置に対する累積距離値の推移を示す図。

【符号の説明】

１音声入力部２変換部３音声特徴抽出部４起動スイッチ部５音声区間検出部６入力パターン格納部７標準パターン記憶部８パターンマッチング部９距離比較部１０結果出力部１１部分標準パターン抽出部１２部分入力パターン抽出部１３部分パターンスポッティング部１４区間位置決定部

Claims

【特許請求の範囲】

【請求項１】比較されるべき各標準パターンの部分区
間と類似性の高い部分区間を入力音声パターンから導出
して真の音声区間を推定し、マッチングを行うことを特
徴とする単語音声認識方法。
【請求項２】請求項１に記載される単語音声認識方法
において、比較されるべき各標準パターンについて、音声の特徴が
現われている部分区間である部分標準パターンを予め抽
出しておき、認識対象である入力音声パターンについ
て、一定時間間隔毎の各位置を真の音声の始端と仮定し
て始端から部分標準パターンと同一の時間的位置関係を
有する部分区間である部分入力パターンを抽出し、両部
分パターン間においてパターンマッチング処理を行なっ
て両部分パターン間の距離の極小値が得られる部分入力
パターンの位置より入力音声パターン中の真の音声区間
の始端および終端位置を決定し、入力音声パターンの真
の音声区間と標準パターンの間においてマッチングを行
うことを特徴とする単語音声認識方法。
【請求項３】音声信号を入力する音声入力部を具備
し、入力された音声信号より音声特徴パターンを抽出す
る音声特徴抽出部を具備し、音声特徴抽出部の出力する
音声特徴パターン情報に基づいて音声区間を検出する音
声区間検出部を具備し、音声区間検出結果に基づいて音
声区間の始端および終端を確定しこの両端で示される区
間の音声特徴パターンを格納する入力音声パターン格納
部を具備し、音声認識に使用する標準パターンを格納し
た標準パターン記憶部を具備し、格納された各標準パタ
ーンより音声の特徴が現われている部分区間パターンを
抽出する部分標準パターン抽出部を具備し、入力音声パ
ターンの内の一定時間間隔毎の各位置を始端として標準
パターンの部分区間パターンと同様の時間関係を有する
部分区間パターンを抽出する部分入力パターン抽出部を
具備し、標準パターンの部分区間と入力音声パターンの
部分区間との間のパターンマッチングを行う部分パター
ンスポッティング部を具備し、部分パターンスポッティ
ング部のマッチング結果より部分区間パターンと入力音
声パターンの間の距離値が極小値となる位置を真の音声
区間の始端および終端位置として決定する区間位置決定
部を具備し、区間位置決定部より得られる位置関係情報
に基づいて標準パターンと入力音声パターンとの間のパ
ターンマッチングを行い距離値を出力するパターンマッ
チング部を具備し、各標準パターンと入力音声パターン
との間のマッチング結果として出力された距離値を蓄積
し最小距離値の標準パターンを特定する距離比較部を具
備し、最小距離値と判定された標準パターンのラベル名
を出力する結果出力部を具備することを特徴とする単語
音声認識装置。