JPH09222899A - 単語音声認識方法およびこの方法を実施する装置 - Google Patents
単語音声認識方法およびこの方法を実施する装置Info
- Publication number
- JPH09222899A JPH09222899A JP8028921A JP2892196A JPH09222899A JP H09222899 A JPH09222899 A JP H09222899A JP 8028921 A JP8028921 A JP 8028921A JP 2892196 A JP2892196 A JP 2892196A JP H09222899 A JPH09222899 A JP H09222899A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- voice
- section
- partial
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 音声区間として検出した雑音の付加に起因し
て生ずる認識誤りを軽減する単語音声認識方法および装
置を提供する。 【解決手段】 各標準パターンについて、音声の特徴が
現われている部分標準パターンを予め抽出しておき、入
力音声パターンについて、一定時間間隔毎の各位置を真
の音声の始端と仮定して始端から部分標準パターンと同
一の時間的位置関係を有する部分入力パターンを抽出
し、両部分パターン間においてパターンマッチング処理
を行なって両部分パターン間の距離の極小値が得られる
部分入力パターンの位置より入力音声パターン中の真の
音声区間の始端および終端位置を決定し、入力音声パタ
ーンの真の音声区間と標準パターンの間においてマッチ
ングを行う単語音声認識方法および装置。
て生ずる認識誤りを軽減する単語音声認識方法および装
置を提供する。 【解決手段】 各標準パターンについて、音声の特徴が
現われている部分標準パターンを予め抽出しておき、入
力音声パターンについて、一定時間間隔毎の各位置を真
の音声の始端と仮定して始端から部分標準パターンと同
一の時間的位置関係を有する部分入力パターンを抽出
し、両部分パターン間においてパターンマッチング処理
を行なって両部分パターン間の距離の極小値が得られる
部分入力パターンの位置より入力音声パターン中の真の
音声区間の始端および終端位置を決定し、入力音声パタ
ーンの真の音声区間と標準パターンの間においてマッチ
ングを行う単語音声認識方法および装置。
Description
【0001】
【発明の属する技術分野】この発明は、単語音声認識方
法およびこの方法を実施する装置に関し、特に、単語単
位の音声入力をして認識結果を出力する単語音声認識方
法およびこの方法を実施する装置に関する。
法およびこの方法を実施する装置に関し、特に、単語単
位の音声入力をして認識結果を出力する単語音声認識方
法およびこの方法を実施する装置に関する。
【0002】
【従来の技術】従来例を図を参照して説明する。電気機
器その他の機械装置を人間の手により操作する代わりに
音声によりコマンドを入力して操作する場面で使用され
る音声認識装置については、従来より様々な研究開発が
行われている。
器その他の機械装置を人間の手により操作する代わりに
音声によりコマンドを入力して操作する場面で使用され
る音声認識装置については、従来より様々な研究開発が
行われている。
【0003】音声認識技術は、人間が任意の場所から任
意のタイミングで発声した任意長の音声を100%の確
率で認識するのが理想である。しかし、完璧な認識性能
を達成しようとすると、音声認識技術は、様々な雑音が
存在する実際の音響環境下において任意のタイミングで
発声される音声を正確に捕捉することを要求される。そ
の結果、音声入力処理において、雑音をも含めて観測さ
れる信号区間の内から音声の始端と終端とを何回も検出
し、且つ、雑音その他の不要な信号区間を除外する様な
複雑な区間検出アルゴリズムが常に実行される処理操作
を必要とされ、処理に要する計算量が膨大化する。この
様な理由から、簡易な音声認識技術として、或る一定時
間中において音声の始端と終端とをそれぞれ1回のみ検
出する孤立単語音声認識方式が採用される。
意のタイミングで発声した任意長の音声を100%の確
率で認識するのが理想である。しかし、完璧な認識性能
を達成しようとすると、音声認識技術は、様々な雑音が
存在する実際の音響環境下において任意のタイミングで
発声される音声を正確に捕捉することを要求される。そ
の結果、音声入力処理において、雑音をも含めて観測さ
れる信号区間の内から音声の始端と終端とを何回も検出
し、且つ、雑音その他の不要な信号区間を除外する様な
複雑な区間検出アルゴリズムが常に実行される処理操作
を必要とされ、処理に要する計算量が膨大化する。この
様な理由から、簡易な音声認識技術として、或る一定時
間中において音声の始端と終端とをそれぞれ1回のみ検
出する孤立単語音声認識方式が採用される。
【0004】図4を参照して孤立単語音声認識装置を説
明する。図4において、音声入力部1はマイクロホンそ
の他音声を電気的な音声波形に変換して入力するところ
である。変換部2は音声分析の前処理として音声波形を
ディジタルの数値に変換するところである。音声特徴抽
出部3は音声波形を短時間スペクトル分析して一定時間
間隔、即ち短時間フレーム毎に音声波形から音声認識に
必要とされる特徴を抽出するところである。音声区間検
出部5は音声特徴抽出部3から得られる音声特徴量に基
づいて音声の始端および終端をそれぞれ1箇所だけ決定
するところである。起動スイッチ部4は音声区間検出に
際して外部より始端検出開始のトリガを与えるところで
ある。入力パターン格納部6は音声区間検出部5におい
て決定された音声始端から音声終端に到る音声特徴量を
音声特徴抽出部3から取り込んでこれを入力音声パター
ンとするところである。標準パターン記憶部7は、入力
パターン格納部6と同様の手順により格納され、ラベル
名を付与された音声認識に使用される複数の単語音声パ
ターンを格納した記憶部である。パターンマッチング部
8は入力パターン格納部6に格納された未知の入力音声
パターンと標準パターン記憶部7に格納されている各標
準パターンの間のマッチング処理を行い、その結果であ
る入力音声パターンと各標準パターンとの間の距離値を
出力するところである。距離比較部9はパターンマッチ
ング部8の出力する距離値を、マッチングする各標準パ
ターン毎に蓄積および比較し、その結果一つの未知入力
パターンに対する各標準パターンのマッチング結果の内
から最小の距離値を得るところである。結果出力部10
は距離比較部9より出力された距離値の内の最も小さい
距離値を持つ標準パターンのラベル名を、音声認識装置
を動作させる上位ホストへ出力するところである。
明する。図4において、音声入力部1はマイクロホンそ
の他音声を電気的な音声波形に変換して入力するところ
である。変換部2は音声分析の前処理として音声波形を
ディジタルの数値に変換するところである。音声特徴抽
出部3は音声波形を短時間スペクトル分析して一定時間
間隔、即ち短時間フレーム毎に音声波形から音声認識に
必要とされる特徴を抽出するところである。音声区間検
出部5は音声特徴抽出部3から得られる音声特徴量に基
づいて音声の始端および終端をそれぞれ1箇所だけ決定
するところである。起動スイッチ部4は音声区間検出に
際して外部より始端検出開始のトリガを与えるところで
ある。入力パターン格納部6は音声区間検出部5におい
て決定された音声始端から音声終端に到る音声特徴量を
音声特徴抽出部3から取り込んでこれを入力音声パター
ンとするところである。標準パターン記憶部7は、入力
パターン格納部6と同様の手順により格納され、ラベル
名を付与された音声認識に使用される複数の単語音声パ
ターンを格納した記憶部である。パターンマッチング部
8は入力パターン格納部6に格納された未知の入力音声
パターンと標準パターン記憶部7に格納されている各標
準パターンの間のマッチング処理を行い、その結果であ
る入力音声パターンと各標準パターンとの間の距離値を
出力するところである。距離比較部9はパターンマッチ
ング部8の出力する距離値を、マッチングする各標準パ
ターン毎に蓄積および比較し、その結果一つの未知入力
パターンに対する各標準パターンのマッチング結果の内
から最小の距離値を得るところである。結果出力部10
は距離比較部9より出力された距離値の内の最も小さい
距離値を持つ標準パターンのラベル名を、音声認識装置
を動作させる上位ホストへ出力するところである。
【0005】以下、図4の音声認識装置の動作について
説明する。標準パターンは入力音声パターンと同様に分
析され整備されたものが標準パターン記憶部7に予め登
録されているものとする。音声は、常時、音声入力部
1、変換部2、音声特徴抽出部3を介して10〜30m
sec程度の一定時間間隔、即ち短時間フレーム毎に入
力および分析され、その分析結果の一部の情報、例えば
音声信号の対数パワーは音声区間検出部5に送られ、音
声区間検出の情報とされる。ここで、発声者或は音声認
識装置を動作させる上位ホストの操作により起動スイッ
チ部4を駆動し、音声区間検出開始のトリガが発生した
ものとする。これにより音声区間検出部5は初期化さ
れ、音声特徴抽出部3から入力する情報について音声始
端の検出を開始する。音声始端の検出方法としては、例
えば、信号パワー値が音声のない状態から或る一定閾値
以上の大きな値で一定時間継続したときにその信号パワ
ー値の立ち上がり位置を始端とする方法がある。この
後、音声区間検出部5は音声の信号パワー値の減衰点を
検出してこれを音声の終端とし、動作を終了する。この
様にして検出された音声の始端から終端に到る区間につ
いて音声特徴抽出部3の分析結果を、入力パターン格納
部6に入力音声パターンとして格納する。格納が完了し
た時点において、パターンマッチング部8は入力パター
ン格納部6に格納した入力音声パターンと標準パターン
記憶部7に記憶されている各標準パターンの内容を、D
Pマッチングその他のパターンマッチング手法により照
合して距離計算を行う。各標準パターンに対する距離計
算結果は 距離比較部9において小さい距離値の順に整
理され、最も小さい距離値となった標準パターンのラベ
ル名が結果出力部10を介して上位ホストへ出力され
る。
説明する。標準パターンは入力音声パターンと同様に分
析され整備されたものが標準パターン記憶部7に予め登
録されているものとする。音声は、常時、音声入力部
1、変換部2、音声特徴抽出部3を介して10〜30m
sec程度の一定時間間隔、即ち短時間フレーム毎に入
力および分析され、その分析結果の一部の情報、例えば
音声信号の対数パワーは音声区間検出部5に送られ、音
声区間検出の情報とされる。ここで、発声者或は音声認
識装置を動作させる上位ホストの操作により起動スイッ
チ部4を駆動し、音声区間検出開始のトリガが発生した
ものとする。これにより音声区間検出部5は初期化さ
れ、音声特徴抽出部3から入力する情報について音声始
端の検出を開始する。音声始端の検出方法としては、例
えば、信号パワー値が音声のない状態から或る一定閾値
以上の大きな値で一定時間継続したときにその信号パワ
ー値の立ち上がり位置を始端とする方法がある。この
後、音声区間検出部5は音声の信号パワー値の減衰点を
検出してこれを音声の終端とし、動作を終了する。この
様にして検出された音声の始端から終端に到る区間につ
いて音声特徴抽出部3の分析結果を、入力パターン格納
部6に入力音声パターンとして格納する。格納が完了し
た時点において、パターンマッチング部8は入力パター
ン格納部6に格納した入力音声パターンと標準パターン
記憶部7に記憶されている各標準パターンの内容を、D
Pマッチングその他のパターンマッチング手法により照
合して距離計算を行う。各標準パターンに対する距離計
算結果は 距離比較部9において小さい距離値の順に整
理され、最も小さい距離値となった標準パターンのラベ
ル名が結果出力部10を介して上位ホストへ出力され
る。
【0006】しかし、この様な孤立単語音声認識装置に
おいては、音声区間を正確に検出する技術が必要とされ
る。音声区間検出を目的として、音声特徴抽出部により
得られる全ての情報をニューラルネットその他のフィル
タリング操作部に入力し、正確に音声区間のみを抽出す
る方法があるが、この抽出に使用される計算方法は大が
かりなものであり、いわゆる文音声認識と大差のない計
算量を必要とする。このため、一般に、少量の計算量に
より音声区間検出を実施しようとする場合、音声パワ
ー、零交差数その他の単純な情報に基づいて音声区間を
検出する。また、音声区間検出段階において 音声区間
の一部がが未検出となることを防ぐために、区間検出時
には2つの音声区間に挟まれた短い雑音区間もまとめて
1つの音声区間として検出する様な方法を採用すること
ができる。
おいては、音声区間を正確に検出する技術が必要とされ
る。音声区間検出を目的として、音声特徴抽出部により
得られる全ての情報をニューラルネットその他のフィル
タリング操作部に入力し、正確に音声区間のみを抽出す
る方法があるが、この抽出に使用される計算方法は大が
かりなものであり、いわゆる文音声認識と大差のない計
算量を必要とする。このため、一般に、少量の計算量に
より音声区間検出を実施しようとする場合、音声パワ
ー、零交差数その他の単純な情報に基づいて音声区間を
検出する。また、音声区間検出段階において 音声区間
の一部がが未検出となることを防ぐために、区間検出時
には2つの音声区間に挟まれた短い雑音区間もまとめて
1つの音声区間として検出する様な方法を採用すること
ができる。
【0007】この様な音声区間検出方法により切り出さ
れた音声の模式図を図5に示す。これは音声信号パワー
に着目して音声区間を切り出した例である。図5におい
て、区間(1)は口唇を動かし始めた時に収録したノイ
ズであり、一般にリップノイズと称される。区間(2)
は検出を意図した真の音声区間を示す。区間(3)は発
声後に受信した呼吸音を示し、区間(4)は周囲騒音或
は音声入力部1から変換部2に到る間において生じた伝
送上のノイズを示す。図5は、音声入力部1が電話機の
ハンドセットの様に発声者の口元に近い場合、真の音声
区間の前後に呼吸音或はリップノイズが付随したり、周
囲騒音或は伝送系に起因するノイズについても音声区間
と誤って判断される場合の生ずることを示している。こ
の様に、真の音声区間以外に不要な信号区間の付随が生
じたものは、標準パターンが真の音声区間と同一のもの
であったとしても、不要な信号区間を含めた形でパター
ンマッチング処理を実行するところから、二つのパター
ン間に食い違いを生じ、結果的には音声認識誤りを生ず
る。この様に音声認識誤りを引き起こす区間検出の状態
を、一般に音声区間検出誤りと呼ぶ。
れた音声の模式図を図5に示す。これは音声信号パワー
に着目して音声区間を切り出した例である。図5におい
て、区間(1)は口唇を動かし始めた時に収録したノイ
ズであり、一般にリップノイズと称される。区間(2)
は検出を意図した真の音声区間を示す。区間(3)は発
声後に受信した呼吸音を示し、区間(4)は周囲騒音或
は音声入力部1から変換部2に到る間において生じた伝
送上のノイズを示す。図5は、音声入力部1が電話機の
ハンドセットの様に発声者の口元に近い場合、真の音声
区間の前後に呼吸音或はリップノイズが付随したり、周
囲騒音或は伝送系に起因するノイズについても音声区間
と誤って判断される場合の生ずることを示している。こ
の様に、真の音声区間以外に不要な信号区間の付随が生
じたものは、標準パターンが真の音声区間と同一のもの
であったとしても、不要な信号区間を含めた形でパター
ンマッチング処理を実行するところから、二つのパター
ン間に食い違いを生じ、結果的には音声認識誤りを生ず
る。この様に音声認識誤りを引き起こす区間検出の状態
を、一般に音声区間検出誤りと呼ぶ。
【0008】音声区間検出誤りによる誤認識は、入力音
声パターンを調整することにより回避しなければならな
い。その理由は、標準パターンが最適な認識率が得られ
る様に発声者が注意深く発声して作成されたものであっ
たり、或は計算機上において自動生成されたものであっ
たりして、殆どの場合、区間検出誤りが排除されたパタ
ーンであるのに対して、入力音声パターンは実環境の元
において収録された音声についてのものであるので、区
間検出誤りの原因および発生状態が発声の都度異なるか
らである。また、音声認識装置は事前に想定し得ない未
知の音響環境下においても有効に作用する回避手法であ
ることも要求される。
声パターンを調整することにより回避しなければならな
い。その理由は、標準パターンが最適な認識率が得られ
る様に発声者が注意深く発声して作成されたものであっ
たり、或は計算機上において自動生成されたものであっ
たりして、殆どの場合、区間検出誤りが排除されたパタ
ーンであるのに対して、入力音声パターンは実環境の元
において収録された音声についてのものであるので、区
間検出誤りの原因および発生状態が発声の都度異なるか
らである。また、音声認識装置は事前に想定し得ない未
知の音響環境下においても有効に作用する回避手法であ
ることも要求される。
【0009】入力音声の区間検出誤りにより生ずる誤認
識を回避する方法としては、いわゆるワードスポッティ
ングという手法が使われている。即ち、入力音声につい
ては音声が含まれると思われる区間を事前に大まかに検
出しておき、その区間中の一定時間間隔毎の各位置を真
の入力音声の始端と考え、標準パターンとの間で終端フ
リーのパターンマッチングを繰り返し、その結果得られ
る最小の距離値を二つのパターン間のマッチング結果と
するものである。しかし、この方法は大まかに切り出し
た音声区間の長さに相当するマッチングを繰り返すこと
となり、計算量が膨大になる。
識を回避する方法としては、いわゆるワードスポッティ
ングという手法が使われている。即ち、入力音声につい
ては音声が含まれると思われる区間を事前に大まかに検
出しておき、その区間中の一定時間間隔毎の各位置を真
の入力音声の始端と考え、標準パターンとの間で終端フ
リーのパターンマッチングを繰り返し、その結果得られ
る最小の距離値を二つのパターン間のマッチング結果と
するものである。しかし、この方法は大まかに切り出し
た音声区間の長さに相当するマッチングを繰り返すこと
となり、計算量が膨大になる。
【0010】
【発明が解決しようとする課題】上述した通り、少量の
計算規模で実行することを目的とした単語音声認識装置
は、音声区間検出処理を簡素化しているところから、真
の音声区間以外の不要信号区間が前後に付随した区間検
出結果を生じ、この様な音声については正しい認識結果
が得られない。また、この問題を解決するには計算量が
膨大になるアルゴリズムを使用しなければならない。
計算規模で実行することを目的とした単語音声認識装置
は、音声区間検出処理を簡素化しているところから、真
の音声区間以外の不要信号区間が前後に付随した区間検
出結果を生じ、この様な音声については正しい認識結果
が得られない。また、この問題を解決するには計算量が
膨大になるアルゴリズムを使用しなければならない。
【0011】ここで、区間検出誤りに起因する誤認識を
回避する有効な方法とされているワードスポッティング
技術の効果を検証すると、以下の様になる。図6はワー
ドスポッティングの一例を説明する図である。この手法
は長い区間として検出された横軸方向の入力音声パター
ンと、縦軸方向の短い標準パターンとを、入力音声パタ
ーン中の一定時間間隔毎の各位置を開始点として終端フ
リーのマッチングを行い、距離値を算出するものであ
る。ところが、二つのパターン間のパターンマッチング
を行う範囲は、図6の斜線部の様に二つのパターンが交
差する全区間に及び、膨大な計算量を必要とすることが
判る。マッチング結果として算出された距離値は図6の
上部のグラフの例の様に、標準パターンと最も類似性の
高い部分区間で極小値を取る様に推移する。ワードスポ
ッティングの効果は、パターンマッチング自体が音声区
間検出を兼ね、距離値が極小値になる区間が真の音声区
間であるとする充分条件を利用していることにある。
回避する有効な方法とされているワードスポッティング
技術の効果を検証すると、以下の様になる。図6はワー
ドスポッティングの一例を説明する図である。この手法
は長い区間として検出された横軸方向の入力音声パター
ンと、縦軸方向の短い標準パターンとを、入力音声パタ
ーン中の一定時間間隔毎の各位置を開始点として終端フ
リーのマッチングを行い、距離値を算出するものであ
る。ところが、二つのパターン間のパターンマッチング
を行う範囲は、図6の斜線部の様に二つのパターンが交
差する全区間に及び、膨大な計算量を必要とすることが
判る。マッチング結果として算出された距離値は図6の
上部のグラフの例の様に、標準パターンと最も類似性の
高い部分区間で極小値を取る様に推移する。ワードスポ
ッティングの効果は、パターンマッチング自体が音声区
間検出を兼ね、距離値が極小値になる区間が真の音声区
間であるとする充分条件を利用していることにある。
【0012】ところが、パターンマッチングはDPマッ
チング法に代表される様に、音声区間をおおよそ推定す
ることができれば、音声始端および終端部分のゆらぎ、
パターン間の時間伸縮のゆらぎを吸収することができ
る。この特性を利用し、標準パターンの内の音声の特徴
が現われている部分区間を使用してワードスポッティン
グと同様の手順で音声区間をおおまかに推定し、その
後、標準パターン全区間と推定された入力音声パターン
の部分区間との間においてパターンマッチングを実行す
れば、ワードスポッティングと比較して少ない計算量で
従来のワードスポッティングに匹敵する音声認識性能を
得ることができることになる。
チング法に代表される様に、音声区間をおおよそ推定す
ることができれば、音声始端および終端部分のゆらぎ、
パターン間の時間伸縮のゆらぎを吸収することができ
る。この特性を利用し、標準パターンの内の音声の特徴
が現われている部分区間を使用してワードスポッティン
グと同様の手順で音声区間をおおまかに推定し、その
後、標準パターン全区間と推定された入力音声パターン
の部分区間との間においてパターンマッチングを実行す
れば、ワードスポッティングと比較して少ない計算量で
従来のワードスポッティングに匹敵する音声認識性能を
得ることができることになる。
【0013】この発明は、入力音声の前後に不要信号区
間が付随する区間検出結果が生じた場合においても、音
声の特徴が現われている標準パターンの一部区間を使用
した簡易なワードスポッティングアルゴリズムにより音
声区間を推定してマッチングを行うことにより、計算量
の膨大化を招くことなしに正確に音声認識をすることが
できる音声認識装置を提供するものである。
間が付随する区間検出結果が生じた場合においても、音
声の特徴が現われている標準パターンの一部区間を使用
した簡易なワードスポッティングアルゴリズムにより音
声区間を推定してマッチングを行うことにより、計算量
の膨大化を招くことなしに正確に音声認識をすることが
できる音声認識装置を提供するものである。
【0014】
【課題を解決するための手段】比較されるべき各標準パ
ターンの部分区間と類似性の高い部分区間を入力音声パ
ターンから導出し、これを手がかりに真の音声区間を推
定し、マッチングを行う単語音声認識方法を構成した。
そして、先の単語音声認識方法において、比較されるべ
き各標準パターンについて、音声の特徴が現われている
部分区間である部分標準パターンを予め抽出しておき、
認識対象である入力音声パターンについて、一定時間間
隔毎の各位置を真の音声の始端と仮定して始端から部分
標準パターンと同一の時間的位置関係を有する部分区間
である部分入力パターンを抽出し、両部分パターン間に
おいてパターンスポッティング処理を行なって両部分パ
ターン間の距離の極小値が得られる真の音声区間の始端
および終端位置を決定し、入力音声パターンの真の音声
区間と標準パターンの間においてでマッチングを行う単
語音声認識方法を構成した。
ターンの部分区間と類似性の高い部分区間を入力音声パ
ターンから導出し、これを手がかりに真の音声区間を推
定し、マッチングを行う単語音声認識方法を構成した。
そして、先の単語音声認識方法において、比較されるべ
き各標準パターンについて、音声の特徴が現われている
部分区間である部分標準パターンを予め抽出しておき、
認識対象である入力音声パターンについて、一定時間間
隔毎の各位置を真の音声の始端と仮定して始端から部分
標準パターンと同一の時間的位置関係を有する部分区間
である部分入力パターンを抽出し、両部分パターン間に
おいてパターンスポッティング処理を行なって両部分パ
ターン間の距離の極小値が得られる真の音声区間の始端
および終端位置を決定し、入力音声パターンの真の音声
区間と標準パターンの間においてでマッチングを行う単
語音声認識方法を構成した。
【0015】音声信号を入力する音声入力部1を具備
し、入力された音声信号より音声特徴パターンを抽出す
る音声特徴抽出部3を具備し、音声特徴抽出部3の出力
する音声特徴パターン情報に基づいて音声区間を検出す
る音声区間検出部5を具備し、音声区間検出結果に基づ
いて音声区間の始端および終端を確定しこの両端で示さ
れる区間の音声特徴パターンを格納する入力音声パター
ン格納部6を具備し、音声認識に使用する標準パターン
を格納した標準パターン記憶部7を具備し、格納された
各標準パターンより音声の特徴が現われている部分区間
パターンを抽出する部分標準パターン抽出部11を具備
し、入力音声パターンの内の一定時間間隔毎の各位置を
始端として標準パターンの部分区間パターンと同様の時
間関係を有する部分区間パターンを抽出する部分入力パ
ターン抽出部12を具備し、標準パターンの部分区間と
入力音声パターンの部分区間との間のパターンマッチン
グを行う部分パターンスポッティング部13を具備し、
部分パターンスポッティング部13のマッチング結果よ
り部分区間パターンと入力音声パターンの間の距離値が
極小値となる位置を真の音声区間の始端および終端位置
として決定する区間位置決定部14を具備し、区間位置
決定部14より得られる位置関係情報に基づいて標準パ
ターンと入力音声パターンとの間のパターンマッチング
を行い距離値を出力するパターンマッチング部8を具備
し、各標準パターンと入力音声パターンとの間のマッチ
ング結果として出力された距離値を蓄積し最小距離値の
標準パターンを特定する距離比較部9を具備し、最小距
離値と判定された標準パターンのラベル名を出力する結
果出力部10を具備する単語音声認識装置を構成した。
し、入力された音声信号より音声特徴パターンを抽出す
る音声特徴抽出部3を具備し、音声特徴抽出部3の出力
する音声特徴パターン情報に基づいて音声区間を検出す
る音声区間検出部5を具備し、音声区間検出結果に基づ
いて音声区間の始端および終端を確定しこの両端で示さ
れる区間の音声特徴パターンを格納する入力音声パター
ン格納部6を具備し、音声認識に使用する標準パターン
を格納した標準パターン記憶部7を具備し、格納された
各標準パターンより音声の特徴が現われている部分区間
パターンを抽出する部分標準パターン抽出部11を具備
し、入力音声パターンの内の一定時間間隔毎の各位置を
始端として標準パターンの部分区間パターンと同様の時
間関係を有する部分区間パターンを抽出する部分入力パ
ターン抽出部12を具備し、標準パターンの部分区間と
入力音声パターンの部分区間との間のパターンマッチン
グを行う部分パターンスポッティング部13を具備し、
部分パターンスポッティング部13のマッチング結果よ
り部分区間パターンと入力音声パターンの間の距離値が
極小値となる位置を真の音声区間の始端および終端位置
として決定する区間位置決定部14を具備し、区間位置
決定部14より得られる位置関係情報に基づいて標準パ
ターンと入力音声パターンとの間のパターンマッチング
を行い距離値を出力するパターンマッチング部8を具備
し、各標準パターンと入力音声パターンとの間のマッチ
ング結果として出力された距離値を蓄積し最小距離値の
標準パターンを特定する距離比較部9を具備し、最小距
離値と判定された標準パターンのラベル名を出力する結
果出力部10を具備する単語音声認識装置を構成した。
【0016】
【発明の実施の形態】この発明は、先ず、音声認識に使
用する各標準パターンを登録すると共に、音声の特徴が
現われている部分区間を標準パターンの内からそれぞれ
抽出する。次に、認識されるべき音声を入力させ、信号
パワーの如き簡易な情報に着目して音声区間を検出し、
入力音声パターンとする。ここで、検出した入力音声パ
ターンの始端から終端まで一定間隔であるフレーム毎に
部分標準パターンと同様の時間的位置関係を持つ部分区
間を抽出し、先に抽出しておいた各標準パターンの部分
区間との間で簡単なパターンマッチングを行い、両部分
区間パターン間の累積距離値を求める。このパターンマ
ッチングの結果、入力音声パターンについて累積距離値
が極小値を取る部分区間の位置を推定することができ
る。この始端位置情報に基づいて、区間長は比較する標
準パターンと同一と仮定して、照合すべき入力音声パタ
ーンの区間位置を特定し、標準パターン全区間と特定し
た入力パターン部分との間のマッチングを行い、距離値
を求める。これらの処理を各標準パターン毎に繰り返し
た結果、累積距離値が最小となった標準パターンを認識
結果として得ることができ、音声区間検出誤りに起因す
る認識誤りを回避することができる。
用する各標準パターンを登録すると共に、音声の特徴が
現われている部分区間を標準パターンの内からそれぞれ
抽出する。次に、認識されるべき音声を入力させ、信号
パワーの如き簡易な情報に着目して音声区間を検出し、
入力音声パターンとする。ここで、検出した入力音声パ
ターンの始端から終端まで一定間隔であるフレーム毎に
部分標準パターンと同様の時間的位置関係を持つ部分区
間を抽出し、先に抽出しておいた各標準パターンの部分
区間との間で簡単なパターンマッチングを行い、両部分
区間パターン間の累積距離値を求める。このパターンマ
ッチングの結果、入力音声パターンについて累積距離値
が極小値を取る部分区間の位置を推定することができ
る。この始端位置情報に基づいて、区間長は比較する標
準パターンと同一と仮定して、照合すべき入力音声パタ
ーンの区間位置を特定し、標準パターン全区間と特定し
た入力パターン部分との間のマッチングを行い、距離値
を求める。これらの処理を各標準パターン毎に繰り返し
た結果、累積距離値が最小となった標準パターンを認識
結果として得ることができ、音声区間検出誤りに起因す
る認識誤りを回避することができる。
【0017】
【実施例】 この発明の実施例を図1を参照して説明す
る。図1において、音声入力部1は音声を入力するとこ
ろあり、オーディオマイクロホン、オーディオ入力端子
を使用する。変換部2は音声分析の前処理として音声波
形をディジタルの数値に変換するところである。音声特
徴抽出部3は変換部2により得られた音声波形を短時間
スペクトル分析して10〜30msec程度の一定時間
間隔、即ち短時間フレーム毎に音声波形から音声認識に
必要とされる特徴量を抽出するところであって、その分
析手法としては、短時間対数パワー分析およびケプスト
ラム分析の如き手法が採用される。起動スイッチ部4は
孤立単語音声認識を実現するに必要とされる音声区間検
出時の始端検出開始のトリガを与えるところである。音
声区間検出部5は音声特徴抽出部3から得られる音声特
徴量に基づいて音声の始端および終端をそれぞれ1箇所
だけ決定するところであり、その検出の手法としては、
音声発生以前の雑音レベルを測定しておき、その雑音レ
ベルより導出される一定閾値以上の対数パワー値を有す
る信号成分が一定時間内で推移する区間を音声区間とす
る方法を採用することができる。また、一定閾値を超え
る区間が、閾値未満の短い区間を挟んで2つ存在する場
合には、この3つの区間を合わせて1つの部分区間とみ
なす方法を採用することができる。入力パターン格納部
6は音声区間検出部5において決定された音声始端から
音声終端に到る音声特徴量を音声特徴抽出部3から取り
込んでこれを入力音声パターンとするところである。標
準パターン記憶部7は、入力パターン格納部6と同様の
手順により格納され、ラベル名を付与された音声認識に
使用される複数の単語音声パターンを格納した記憶部で
ある。
る。図1において、音声入力部1は音声を入力するとこ
ろあり、オーディオマイクロホン、オーディオ入力端子
を使用する。変換部2は音声分析の前処理として音声波
形をディジタルの数値に変換するところである。音声特
徴抽出部3は変換部2により得られた音声波形を短時間
スペクトル分析して10〜30msec程度の一定時間
間隔、即ち短時間フレーム毎に音声波形から音声認識に
必要とされる特徴量を抽出するところであって、その分
析手法としては、短時間対数パワー分析およびケプスト
ラム分析の如き手法が採用される。起動スイッチ部4は
孤立単語音声認識を実現するに必要とされる音声区間検
出時の始端検出開始のトリガを与えるところである。音
声区間検出部5は音声特徴抽出部3から得られる音声特
徴量に基づいて音声の始端および終端をそれぞれ1箇所
だけ決定するところであり、その検出の手法としては、
音声発生以前の雑音レベルを測定しておき、その雑音レ
ベルより導出される一定閾値以上の対数パワー値を有す
る信号成分が一定時間内で推移する区間を音声区間とす
る方法を採用することができる。また、一定閾値を超え
る区間が、閾値未満の短い区間を挟んで2つ存在する場
合には、この3つの区間を合わせて1つの部分区間とみ
なす方法を採用することができる。入力パターン格納部
6は音声区間検出部5において決定された音声始端から
音声終端に到る音声特徴量を音声特徴抽出部3から取り
込んでこれを入力音声パターンとするところである。標
準パターン記憶部7は、入力パターン格納部6と同様の
手順により格納され、ラベル名を付与された音声認識に
使用される複数の単語音声パターンを格納した記憶部で
ある。
【0018】この発明により付加される部分標準パター
ン抽出部11は、音声の特徴が現われている部分区間で
ある部分標準パターンを標準パターン記憶部7より抽出
し、後で説明される部分パターンスポッティング部13
に供給するところであり、マッチングに使用する。同様
にこの発明により付加される部分入力パターン抽出部1
2は、入力パターン格納部6より入力された音声パター
ンについて、始端から終端まで一定間隔で位置をずらし
ながら、部分標準パターン抽出部11により抽出したも
のと同様の部分区間である部分入力パターンを抽出する
ところである。この発明により付加される部分パターン
スポッティング部13は、部分標準パターン抽出部11
より出力された部分区間パターンと部分入力パターン抽
出部12より出力された部分区間パターンとの間で簡単
なパターンマッチングを実行し、両部分区間パターン間
の距離値を出力するところである。区間位置決定部14
もこの発明により付加される構成であり、部分パターン
スポッティング部13から出力される距離値を部分入力
パターンの抽出位置毎に蓄積および比較し、距離値が極
小値となる入力パターンの位置を特定し、更に比較対象
とされた標準部分パターンを参照して、パターンマッチ
ング部8において照合を行う入力音声パターン区間の位
置を特定するところである。パターンマッチング部8
は、入力パターン格納部6に格納された未知の入力音声
パターンと標準パターン記憶部7に格納されている各標
準パターンとの間において、区間位置決定部14の情報
に基づいて位置合わせしてパターンマッチングを実行
し、入力音声パターンとの間の距離値を出力するところ
であり、そのパターンマッチングの手法としては、音声
認識のパターンマッチング法としてよく知られているD
Pマッチング法を採用することができる。距離比較部9
はパターンマッチング部8の出力する距離値を、マッチ
ングする各標準パターン毎に蓄積および比較し、その結
果一つの未知入力パターンに対する各標準パターンのマ
ッチング結果の内から最小の距離値を得るところであ
る。結果出力部10は距離比較部9より出力された距離
値の内の最も小さい距離値を有する標準パターンを導出
し、その標準パターンのラベル名を音声認識装置を動作
させる上位ホストへ出力するところである。
ン抽出部11は、音声の特徴が現われている部分区間で
ある部分標準パターンを標準パターン記憶部7より抽出
し、後で説明される部分パターンスポッティング部13
に供給するところであり、マッチングに使用する。同様
にこの発明により付加される部分入力パターン抽出部1
2は、入力パターン格納部6より入力された音声パター
ンについて、始端から終端まで一定間隔で位置をずらし
ながら、部分標準パターン抽出部11により抽出したも
のと同様の部分区間である部分入力パターンを抽出する
ところである。この発明により付加される部分パターン
スポッティング部13は、部分標準パターン抽出部11
より出力された部分区間パターンと部分入力パターン抽
出部12より出力された部分区間パターンとの間で簡単
なパターンマッチングを実行し、両部分区間パターン間
の距離値を出力するところである。区間位置決定部14
もこの発明により付加される構成であり、部分パターン
スポッティング部13から出力される距離値を部分入力
パターンの抽出位置毎に蓄積および比較し、距離値が極
小値となる入力パターンの位置を特定し、更に比較対象
とされた標準部分パターンを参照して、パターンマッチ
ング部8において照合を行う入力音声パターン区間の位
置を特定するところである。パターンマッチング部8
は、入力パターン格納部6に格納された未知の入力音声
パターンと標準パターン記憶部7に格納されている各標
準パターンとの間において、区間位置決定部14の情報
に基づいて位置合わせしてパターンマッチングを実行
し、入力音声パターンとの間の距離値を出力するところ
であり、そのパターンマッチングの手法としては、音声
認識のパターンマッチング法としてよく知られているD
Pマッチング法を採用することができる。距離比較部9
はパターンマッチング部8の出力する距離値を、マッチ
ングする各標準パターン毎に蓄積および比較し、その結
果一つの未知入力パターンに対する各標準パターンのマ
ッチング結果の内から最小の距離値を得るところであ
る。結果出力部10は距離比較部9より出力された距離
値の内の最も小さい距離値を有する標準パターンを導出
し、その標準パターンのラベル名を音声認識装置を動作
させる上位ホストへ出力するところである。
【0019】以下、図1の音声認識装置の動作について
説明する。標準パターンは入力音声パターンと同様に分
析され整備されたものが標準パターン記憶部7に予め登
録されているものとする。音声は、常時、音声入力部
1、変換部2、音声特徴抽出部3を介して10〜30m
sec程度の一定時間間隔、即ち短時間フレーム毎に入
力および分析され、その分析結果の一部の情報、例えば
音声信号の対数パワーは音声区間検出部5に送られ、音
声区間検出の情報とされる。ここで、発声者或は音声認
識装置を動作させる上位ホストの操作により起動スイッ
チ部4を駆動し、音声区間検出開始のトリガが発生した
ものとする。これにより音声区間検出部5は初期化さ
れ、音声特徴抽出部3から入力する情報について音声始
端の検出を開始する。音声始端の検出方法としては、例
えば、信号パワー値が音声のない状態から或る一定閾値
以上の大きな値で一定時間継続したときにその信号パワ
ー値の立ち上がり位置を始端とする方法がある。この
後、音声区間検出部5は音声の信号パワー値の減衰点を
検出してこれを音声の終端とし、動作を終了する。この
様にして検出された音声の始端から終端に到る区間につ
いて音声特徴抽出部3の分析結果を、入力パターン格納
部6に入力音声パターンとして格納する。
説明する。標準パターンは入力音声パターンと同様に分
析され整備されたものが標準パターン記憶部7に予め登
録されているものとする。音声は、常時、音声入力部
1、変換部2、音声特徴抽出部3を介して10〜30m
sec程度の一定時間間隔、即ち短時間フレーム毎に入
力および分析され、その分析結果の一部の情報、例えば
音声信号の対数パワーは音声区間検出部5に送られ、音
声区間検出の情報とされる。ここで、発声者或は音声認
識装置を動作させる上位ホストの操作により起動スイッ
チ部4を駆動し、音声区間検出開始のトリガが発生した
ものとする。これにより音声区間検出部5は初期化さ
れ、音声特徴抽出部3から入力する情報について音声始
端の検出を開始する。音声始端の検出方法としては、例
えば、信号パワー値が音声のない状態から或る一定閾値
以上の大きな値で一定時間継続したときにその信号パワ
ー値の立ち上がり位置を始端とする方法がある。この
後、音声区間検出部5は音声の信号パワー値の減衰点を
検出してこれを音声の終端とし、動作を終了する。この
様にして検出された音声の始端から終端に到る区間につ
いて音声特徴抽出部3の分析結果を、入力パターン格納
部6に入力音声パターンとして格納する。
【0020】入力パターン格納部6に対する入力音声パ
ターンの格納が完了すると、この入力音声パターンと登
録されている各標準パターンとの間のマッチングが開始
される。先ず、部分標準パターン抽出部11において、
標準パターンより音声の特徴が現われている部分区間で
ある部分標準パターンを抽出して部分パターンスポッテ
ィング部13に供給する。部分標準パターンの抽出の仕
方を図2を参照して説明する。標準パターン全体を図2
(a)の通りとする。説明を簡略化するために対数音声
パワーのみにより音声波形を表記している。部分区間の
抽出例としては、(b)の斜線により示される様な音声
の特徴が現われている1つ以上の部分区間、(c)の斜
線により示される始端および終端の短い部分区間、
(d)の斜線により示される、例えば、標準パターン全
長の1/4、3/4、にあたる位置その他の、図形的に
計算の容易な位置の部分区間を採用すると好適である。
この場合、部分標準パターンの相互位置関係は元の標準
パターン区間上の位置関係を保持したまま、即ち時間伸
縮は考慮しないものとする。
ターンの格納が完了すると、この入力音声パターンと登
録されている各標準パターンとの間のマッチングが開始
される。先ず、部分標準パターン抽出部11において、
標準パターンより音声の特徴が現われている部分区間で
ある部分標準パターンを抽出して部分パターンスポッテ
ィング部13に供給する。部分標準パターンの抽出の仕
方を図2を参照して説明する。標準パターン全体を図2
(a)の通りとする。説明を簡略化するために対数音声
パワーのみにより音声波形を表記している。部分区間の
抽出例としては、(b)の斜線により示される様な音声
の特徴が現われている1つ以上の部分区間、(c)の斜
線により示される始端および終端の短い部分区間、
(d)の斜線により示される、例えば、標準パターン全
長の1/4、3/4、にあたる位置その他の、図形的に
計算の容易な位置の部分区間を採用すると好適である。
この場合、部分標準パターンの相互位置関係は元の標準
パターン区間上の位置関係を保持したまま、即ち時間伸
縮は考慮しないものとする。
【0021】次に、部分入力パターン抽出部12におい
て、入力パターン格納部6に格納した入力音声パターン
に対して、パターンの始端から終端に到る区間をフレー
ム単位の一定時間間隔如に細分化したときの各フレーム
を真の入力音声パターンの始端と仮定し、始端より部分
標準パターンと同一位置の部分パターンである部分入力
パターンを抽出する。この様に、部分標準パターン抽出
部11において抽出された部分標準パターンと部分入力
パターン抽出部12において抽出された部分入力パター
ンとの間のマッチングを部分パターンスポッティング部
13において実行する。各部分区間に対するマッチング
の方法は、例えば、ケプストラムのユークリッド距離の
累積距離値を使用する。この距離計算結果は、区間位置
決定部14へ送出されるが、区間位置決定部14におい
ては、部分入力パターン抽出部12で走査する入力音声
パターンの仮定始端毎に累積距離値の推移を見る。この
推移の例を図3に示す。図3において、部分標準パター
ンと入力音声パターンとの間で部分パターンスポッティ
ングのためにスペクトル距離計算を必要とする領域は図
3の中央の枠の内の斜線部のみであり、図6の場合と比
較して、計算領域は明らかに小さい領域で済んでいるこ
とが判る。部分パターンスポッティングの結果、部分区
間同士の距離値は図3の上部に示される様に推移する
が、標準パターン全長と、入力音声パターンの内の真の
入力音声部分とがほぼ合致する位置関係を取ったときに
距離値は極小値となる。区間位置決定部14において
は、この極小値を取ったときの入力音声パターンの仮定
始端を真の音声区間に対する始端と決定し、その情報を
パターンマッチング部8へ送出する。パターンマッチン
グ部8は、区間決定部14から送出された部分区間位置
情報を入力し、標準パターン記憶部7より供給される標
準パターンの全長と入力パターン記憶部6より供給され
る入力音声パターンとについて、区間決定部14により
判断された部分区間位置情報に基づいてマッチングを行
う。このとき、入力音声の区間長は、標準パターン区間
長と同一とする。マッチング結果は距離比較部9におい
て各標準パターンについて蓄積されると共に、小さい距
離値の順に整理され、結果出力部10へ送出される。最
も小さい距離値を取った標準パターンのラベル名が結果
出力部10を介して上位ホストへ出力される。なお、各
標準パターンと入力音声パターンとの比較において、入
力音声パターン長が標準パターン長より短い場合があ
る。この場合は、区間位置決定部14の判断により入力
音声パターンの全長と標準パターンの全長とをパターン
マッチングする様にパターンマッチング部8に指示す
る。
て、入力パターン格納部6に格納した入力音声パターン
に対して、パターンの始端から終端に到る区間をフレー
ム単位の一定時間間隔如に細分化したときの各フレーム
を真の入力音声パターンの始端と仮定し、始端より部分
標準パターンと同一位置の部分パターンである部分入力
パターンを抽出する。この様に、部分標準パターン抽出
部11において抽出された部分標準パターンと部分入力
パターン抽出部12において抽出された部分入力パター
ンとの間のマッチングを部分パターンスポッティング部
13において実行する。各部分区間に対するマッチング
の方法は、例えば、ケプストラムのユークリッド距離の
累積距離値を使用する。この距離計算結果は、区間位置
決定部14へ送出されるが、区間位置決定部14におい
ては、部分入力パターン抽出部12で走査する入力音声
パターンの仮定始端毎に累積距離値の推移を見る。この
推移の例を図3に示す。図3において、部分標準パター
ンと入力音声パターンとの間で部分パターンスポッティ
ングのためにスペクトル距離計算を必要とする領域は図
3の中央の枠の内の斜線部のみであり、図6の場合と比
較して、計算領域は明らかに小さい領域で済んでいるこ
とが判る。部分パターンスポッティングの結果、部分区
間同士の距離値は図3の上部に示される様に推移する
が、標準パターン全長と、入力音声パターンの内の真の
入力音声部分とがほぼ合致する位置関係を取ったときに
距離値は極小値となる。区間位置決定部14において
は、この極小値を取ったときの入力音声パターンの仮定
始端を真の音声区間に対する始端と決定し、その情報を
パターンマッチング部8へ送出する。パターンマッチン
グ部8は、区間決定部14から送出された部分区間位置
情報を入力し、標準パターン記憶部7より供給される標
準パターンの全長と入力パターン記憶部6より供給され
る入力音声パターンとについて、区間決定部14により
判断された部分区間位置情報に基づいてマッチングを行
う。このとき、入力音声の区間長は、標準パターン区間
長と同一とする。マッチング結果は距離比較部9におい
て各標準パターンについて蓄積されると共に、小さい距
離値の順に整理され、結果出力部10へ送出される。最
も小さい距離値を取った標準パターンのラベル名が結果
出力部10を介して上位ホストへ出力される。なお、各
標準パターンと入力音声パターンとの比較において、入
力音声パターン長が標準パターン長より短い場合があ
る。この場合は、区間位置決定部14の判断により入力
音声パターンの全長と標準パターンの全長とをパターン
マッチングする様にパターンマッチング部8に指示す
る。
【0022】以上のアルゴリズムについて、実際の音声
に対して実験した結果を説明する。認識対象は文献「音
声認識用共通音声データ」(著者 板橋、音響学会予稿
集、1985年発表)に記述された日本都市名100単
語中上位20単語を男性話者1名が発声したものであ
る。音声は電話帯域(300Hz〜3. 4kHz)のフ
ィルタを通して8kHzでA/D変換され、16mse
c毎に32msec長の短時間フレームについてLPC
ケプストラム分析が実行される。音声区間検出は短時間
対数パワーに着目して行った。発声においては、この発
明の音声認識手法の有効性を明確化するために(1)認
識語彙の前に「えー」を付随させて発声する、(2)認
識語彙の後に「です」を付随させて発声する、(3)認
識語彙の前後に「えー」および「です」をそれぞれ付随
させて発声する、のスタイルで発声させた。部分標準パ
ターンの抽出方法は、図2(d)の様に標準パターンの
始端から1/4および終端から1/4、即ち始端から3
/4の2箇所の区間のみに抽出する方法を採用した。そ
の結果、音声区間を一つに固定する従来の認識手法にお
いて、(1)、(2)、(3)の各発声スタイルによる
認識率がそれぞれ10%、40%および5%であったの
に対して、入力パターンから真の音声区間を推定してマ
ッチングを行うこの発明の方法においては認識率はそれ
ぞれ100%、100%および85%となり、この発明
の方法が有効であることが確認された。
に対して実験した結果を説明する。認識対象は文献「音
声認識用共通音声データ」(著者 板橋、音響学会予稿
集、1985年発表)に記述された日本都市名100単
語中上位20単語を男性話者1名が発声したものであ
る。音声は電話帯域(300Hz〜3. 4kHz)のフ
ィルタを通して8kHzでA/D変換され、16mse
c毎に32msec長の短時間フレームについてLPC
ケプストラム分析が実行される。音声区間検出は短時間
対数パワーに着目して行った。発声においては、この発
明の音声認識手法の有効性を明確化するために(1)認
識語彙の前に「えー」を付随させて発声する、(2)認
識語彙の後に「です」を付随させて発声する、(3)認
識語彙の前後に「えー」および「です」をそれぞれ付随
させて発声する、のスタイルで発声させた。部分標準パ
ターンの抽出方法は、図2(d)の様に標準パターンの
始端から1/4および終端から1/4、即ち始端から3
/4の2箇所の区間のみに抽出する方法を採用した。そ
の結果、音声区間を一つに固定する従来の認識手法にお
いて、(1)、(2)、(3)の各発声スタイルによる
認識率がそれぞれ10%、40%および5%であったの
に対して、入力パターンから真の音声区間を推定してマ
ッチングを行うこの発明の方法においては認識率はそれ
ぞれ100%、100%および85%となり、この発明
の方法が有効であることが確認された。
【0023】この発明は、また、この実験の様に意図的
に付随させた不要音声だけでなく、発声者の意図に関係
なく発生するリップノイズ、呼吸音、或は背景雑音その
他の雑音を音声区間から除外して音声認識することがで
きる。
に付随させた不要音声だけでなく、発声者の意図に関係
なく発生するリップノイズ、呼吸音、或は背景雑音その
他の雑音を音声区間から除外して音声認識することがで
きる。
【0024】
【発明の効果】以上の通りであって、この発明は、音声
区間検出を行ってからパターンマッチングを行う単語音
声認識装置について、音声区間検出時に誤って音声区間
として検出した不要音声、リップノイズ、呼吸音、或は
背景雑音その他の雑音の付加に起因して生ずる認識誤り
を音声区間検出アルゴリズムに対する簡易な演算の追加
により回避する効果を奏する。
区間検出を行ってからパターンマッチングを行う単語音
声認識装置について、音声区間検出時に誤って音声区間
として検出した不要音声、リップノイズ、呼吸音、或は
背景雑音その他の雑音の付加に起因して生ずる認識誤り
を音声区間検出アルゴリズムに対する簡易な演算の追加
により回避する効果を奏する。
【図1】実施例を説明するブロック図。
【図2】標準パターンの内から部分パターンを抽出する
仕方を説明する図。
仕方を説明する図。
【図3】パターンスポッティングを行ったときの入力音
声パターンの位置に対する累積距離値の推移を示す図。
声パターンの位置に対する累積距離値の推移を示す図。
【図4】従来例を説明するブロック図。
【図5】音声区間検出時に生じる信号現象を説明する
図。
図。
【図6】ワードスポッティングを行ったときの入力音声
パターンの位置に対する累積距離値の推移を示す図。
パターンの位置に対する累積距離値の推移を示す図。
1 音声入力部 2 変換部 3 音声特徴抽出部 4 起動スイッチ部 5 音声区間検出部 6 入力パターン格納部 7 標準パターン記憶部 8 パターンマッチング部 9 距離比較部 10 結果出力部 11 部分標準パターン抽出部 12 部分入力パターン抽出部 13 部分パターンスポッティング部 14 区間位置決定部
Claims (3)
- 【請求項1】 比較されるべき各標準パターンの部分区
間と類似性の高い部分区間を入力音声パターンから導出
して真の音声区間を推定し、マッチングを行うことを特
徴とする単語音声認識方法。 - 【請求項2】 請求項1に記載される単語音声認識方法
において、 比較されるべき各標準パターンについて、音声の特徴が
現われている部分区間である部分標準パターンを予め抽
出しておき、認識対象である入力音声パターンについ
て、一定時間間隔毎の各位置を真の音声の始端と仮定し
て始端から部分標準パターンと同一の時間的位置関係を
有する部分区間である部分入力パターンを抽出し、両部
分パターン間においてパターンマッチング処理を行なっ
て両部分パターン間の距離の極小値が得られる部分入力
パターンの位置より入力音声パターン中の真の音声区間
の始端および終端位置を決定し、入力音声パターンの真
の音声区間と標準パターンの間においてマッチングを行
うことを特徴とする単語音声認識方法。 - 【請求項3】 音声信号を入力する音声入力部を具備
し、入力された音声信号より音声特徴パターンを抽出す
る音声特徴抽出部を具備し、音声特徴抽出部の出力する
音声特徴パターン情報に基づいて音声区間を検出する音
声区間検出部を具備し、音声区間検出結果に基づいて音
声区間の始端および終端を確定しこの両端で示される区
間の音声特徴パターンを格納する入力音声パターン格納
部を具備し、音声認識に使用する標準パターンを格納し
た標準パターン記憶部を具備し、格納された各標準パタ
ーンより音声の特徴が現われている部分区間パターンを
抽出する部分標準パターン抽出部を具備し、入力音声パ
ターンの内の一定時間間隔毎の各位置を始端として標準
パターンの部分区間パターンと同様の時間関係を有する
部分区間パターンを抽出する部分入力パターン抽出部を
具備し、標準パターンの部分区間と入力音声パターンの
部分区間との間のパターンマッチングを行う部分パター
ンスポッティング部を具備し、部分パターンスポッティ
ング部のマッチング結果より部分区間パターンと入力音
声パターンの間の距離値が極小値となる位置を真の音声
区間の始端および終端位置として決定する区間位置決定
部を具備し、区間位置決定部より得られる位置関係情報
に基づいて標準パターンと入力音声パターンとの間のパ
ターンマッチングを行い距離値を出力するパターンマッ
チング部を具備し、各標準パターンと入力音声パターン
との間のマッチング結果として出力された距離値を蓄積
し最小距離値の標準パターンを特定する距離比較部を具
備し、最小距離値と判定された標準パターンのラベル名
を出力する結果出力部を具備することを特徴とする単語
音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8028921A JPH09222899A (ja) | 1996-02-16 | 1996-02-16 | 単語音声認識方法およびこの方法を実施する装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8028921A JPH09222899A (ja) | 1996-02-16 | 1996-02-16 | 単語音声認識方法およびこの方法を実施する装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH09222899A true JPH09222899A (ja) | 1997-08-26 |
Family
ID=12261875
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP8028921A Pending JPH09222899A (ja) | 1996-02-16 | 1996-02-16 | 単語音声認識方法およびこの方法を実施する装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH09222899A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11249773A (ja) * | 1998-02-27 | 1999-09-17 | Toshiba Corp | マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法 |
-
1996
- 1996-02-16 JP JP8028921A patent/JPH09222899A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11249773A (ja) * | 1998-02-27 | 1999-09-17 | Toshiba Corp | マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CA2366892C (en) | Method and apparatus for speaker recognition using a speaker dependent transform | |
| US4811399A (en) | Apparatus and method for automatic speech recognition | |
| JP3691511B2 (ja) | 休止検出を行う音声認識 | |
| JP3826032B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
| EP0518638B1 (en) | Apparatus and method for identifying a speech pattern | |
| CN1639768B (zh) | 自动语音识别方法及装置 | |
| WO2002029784A1 (en) | Audio visual speech processing | |
| JPH0968994A (ja) | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 | |
| KR101888058B1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 | |
| US20030220792A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
| JP3069531B2 (ja) | 音声認識方法 | |
| Neti et al. | Perceptual interfaces for information interaction: joint processing of audio and visual information for human-computer interaction. | |
| JP2000330587A (ja) | 音声認識方法および装置 | |
| KR101809511B1 (ko) | 발화자의 연령대 인식 장치 및 방법 | |
| JP7347511B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
| JPH09222899A (ja) | 単語音声認識方法およびこの方法を実施する装置 | |
| EP0177854B1 (en) | Keyword recognition system using template-concatenation model | |
| JP2001350494A (ja) | 照合装置及び照合方法 | |
| JP2000099099A (ja) | データ再生装置 | |
| JP2000122678A (ja) | 音声認識機器制御装置 | |
| KR101648396B1 (ko) | 발화자의 성별 인식 장치 및 그를 이용한 성별 인식 방법 | |
| JPH1097269A (ja) | 音声検出装置及び方法 | |
| JP2000148187A (ja) | 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体 | |
| JP2752981B2 (ja) | 音声認識装置 | |
| JP2891259B2 (ja) | 音声区間検出装置 |