JPH10274993A

JPH10274993A - 音声認識装置および音声認識方法

Info

Publication number: JPH10274993A
Application number: JP9095293A
Authority: JP
Inventors: Masaru Kuroda; 勝黒田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1997-03-28
Filing date: 1997-03-28
Publication date: 1998-10-13
Anticipated expiration: 2017-03-28
Also published as: JP3578587B2; US6157911A

Abstract

(57)【要約】【課題】「ナナナナ」のように音節が連続してなる認
識対象(認識単語)に対しても、ワードスポッティング特
有の不要な認識結果が出力されないようにすることの可
能な音声認識装置および音声認識方法を提供する。【解決手段】音声を入力する入力部(例えばマイクロ
ホン)１と、入力部１から入力された音声から特徴量を
抽出する特徴抽出部２と、全ての認識対象の標準的な特
徴量が予め格納されている標準辞書３と、特徴抽出部１
で抽出された入力音声の特徴量を標準辞書３に格納され
ている各認識対象の標準的な特徴量と照合し、各認識対
象との類似度を算出する照合部４と、照合部４の照合結
果に基づき、例えば、類似度が最も高い認識対象であっ
て、該類似度(の最大値)が所定の閾値(リジェクト閾値)
を越えた認識対象を認識結果として出力する結果出力部
５とを有している。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法に関する。

【０００２】

【従来の技術】従来、音声認識の手法として、音声区間
検出を行なって音声認識を行なう方法が知られている。
音声区間検出を行なって音声認識を行なう方法では、音
声のパワー情報などを使用して、認識すべき音声区間の
始端と終端を決定し、この音声区間情報に基づいて認識
処理を行なうようになっている。図９は音声区間検出を
行なって音声認識を行なう方法の処理例を示すフローチ
ャートであり、音声区間検出を行なって音声認識を行な
う方法では、認識開始の起動を行なった後(ステップＳ
１)、話者が発声することで音声区間検出を行ない(ステ
ップＳ２)、その後、音声区間の音声情報と辞書との照
合を行ない(ステップＳ３)、最も類似度の高い認識対象
(辞書単語)を認識結果として出力する。この場合、ステ
ップＳ２において、音声区間の始端はパワー情報によっ
て容易に検出できるが、音声区間の終端は、音声中の破
裂性の子音の前の無音や促音の無音とを区別するため
に、無音が一定時間以上継続する場合に音声区間の終端
として判定するようになっている。

【０００３】しかしながら、音声区間の終端を判定する
ための無音の継続時間は、促音の無音とを区別するため
に、一般に２５０〜３５０ｍ秒程度であり、従って、こ
の方法では、音声入力が終了しても、２５０〜３５０ｍ
秒程度の時間が経過するまでは認識結果を出力すること
ができず、応答の遅い認識システムとなってしまう。ま
た、応答を速くするために、終端判定のための無音継続
時間を短かくすると、発声が終了する前に促音で結果が
出力されて、誤った認識結果が出力されるという欠点が
あった。

【０００４】また、一般的に、ある発声をするときに、
話者は「え〜」や「あの〜」といった認識とは無関係な
不要語を発声することがよくある。認識対象となる音声
に対して、辞書との照合は音声区間の始端から始めるの
で、「え〜」や「あの〜」という発声が入ると、類似度
が著しく悪くなり、誤認識の原因となる。

【０００５】上記各々の欠点を解消する方法として、ワ
ードスポッティング法がある。図１０はワードスポッテ
ィング法の処理例を示すフローチャートであり、ワード
スポッティング法では、認識開始の起動を行なった後
(ステップＳ１１)、話者が音声を発声すると、音声区間
検出を行なうことなく、発声した音声情報を辞書と照合
する(ステップＳ１２)。そして、この照合の結果の類似
度が所定の閾値を越えたか否かを判断し(ステップＳ１
３)、所定の閾値を越えていないときには、再びステッ
プＳ１２に戻り、音声情報の辞書との照合を継続する。
そして、ステップＳ１３において、類似度が所定の閾値
を越えたときに、この類似度を与えた認識対象を認識結
果として出力する(ステップＳ１４)。このようなワード
スポッティング法は、音声区間検出を必要としないの
で、応答の速いシステムを構築し易く、また、不要語に
対しても、発声全体から不要語を取り除いて認識結果を
出力するので、良好な認識結果を得ることができるとい
う利点がある。

【０００６】

【発明が解決しようとする課題】しかしながら、ワード
スポッティング法にも次のような問題がある。

【０００７】すなわち、ワードスポッティング法では、
例えば、電話番号のような数字を認識するときに、例え
ば「５６７７」という発声があった場合、図１１に示す
ように、「５(ゴ)」，「６(ロク)」の発声に対して、
「５」，「６」の認識結果が出力されるが、「７(ナ
ナ)」，「７(ナナ)」に対しては同じ音が並ぶために、
「７」の認識結果が３回出力されてしまう。すなわち、
図１１に示すように、「ナナナナ」という発声の中にお
いて、「ナナ」という音が３ヶ所でスポッティングされ
るため、「７」の認識結果が１回余分に出力されてしま
うという問題があった。

【０００８】本発明は、「ナナナナ」のように音節が連
続してなる認識対象(認識単語)に対しても、ワードスポ
ッティング特有の不要な認識結果が出力されないように
することの可能な音声認識装置および音声認識方法を提
供することを目的としている。

【０００９】

【課題を解決するための手段】上記目的を達成するため
に、請求項１記載の発明は、音声を入力する入力手段
と、入力手段から入力された音声から特徴量を抽出する
特徴抽出手段と、全ての認識対象の標準的な特徴量が予
め格納されている標準辞書と、特徴抽出手段で抽出され
た入力音声の特徴量を標準辞書に格納されている各認識
対象の標準的な特徴量と照合し、各認識対象との類似度
を算出する照合手段と、照合手段の照合結果に基づき、
類似度が高い認識対象を認識結果として出力する結果出
力手段とを有しており、連続する音節によって構成され
る認識対象が標準辞書に存在するときには、該認識対象
の照合による認識結果出力の応答時間を、標準辞書に含
まれる他の認識対象の認識結果出力の応答時間よりも長
く設定することを特徴としている。

【００１０】また、請求項２記載の発明は、音声を入力
する入力手段と、入力手段から入力された音声から特徴
量を抽出する特徴抽出手段と、全ての認識対象の標準的
な特徴量が予め格納されている標準辞書と、特徴抽出手
段で抽出された入力音声の特徴量を標準辞書に格納され
ている各認識対象の標準的な特徴量と照合し、各認識対
象との類似度を算出する照合手段と、照合手段の照合結
果に基づき、類似度が高い認識対象を認識結果として出
力する結果出力手段とを有しており、連続する音節によ
って構成される認識対象が存在するときには、該認識対
象に無音区間を付加した認識対象をも標準辞書に設定す
ることを特徴としている。

【００１１】また、請求項３記載の発明は、ワードスポ
ッティング法により音声認識を行なう音声認識方法にお
いて、連続する音節によって構成される認識対象が標準
辞書に存在するときには、該認識対象の照合による認識
結果出力の応答時間を、標準辞書に含まれる他の認識対
象の認識結果出力の応答時間よりも長く設定することを
特徴としている。

【００１２】また、請求項４記載の発明は、ワードスポ
ッティング法により音声認識を行なう音声認識方法にお
いて、連続する音節によって構成される認識対象が存在
するときには、該認識対象に無音区間を付加した認識対
象をも標準辞書に設定することを特徴としている。

【００１３】

【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図１は本発明に係る音声認識装置の
構成例を示す図である。図１を参照すると、この音声認
識装置は、音声を入力する入力部(例えばマイクロホン)
１と、入力部１から入力された音声から特徴量を抽出す
る特徴抽出部２と、全ての認識対象の標準的な特徴量が
予め格納されている標準辞書３と、特徴抽出部１で抽出
された入力音声の特徴量を標準辞書３に格納されている
各認識対象の標準的な特徴量と照合し、各認識対象との
類似度を算出する照合部４と、照合部４の照合結果に基
づき、例えば、類似度が最も高い認識対象であって、該
類似度(の最大値)が所定の閾値(リジェクト閾値)を越え
た認識対象を認識結果として出力する結果出力部５とを
有している。

【００１４】ここで、特徴抽出部２，標準辞書３，照合
部４，結果出力部５には、例えば、音声区間を必要とし
ないワードスポッティング法による認識技術が用いられ
る。なお、ワードスポッティング法による認識技術とし
ては、例えば継続時間制御型状態遷移モデルを用いた単
語音声認識法を用いることができ、単語音声認識法によ
る認識を行なえば、音声の終了付近で類似度が最大とな
り、類似度のピーク点を検出することで認識結果を出力
することができる。

【００１５】次に、図１の音声認識装置の動作について
説明する。音声が入力部１に入力されると、入力された
音声は、特徴抽出部２で所定の特徴量に変換される。こ
こで、特徴量としては、周波数帯域でのパワー値を示す
ＴＳＰやケプストラム値などが一般的である。

【００１６】特徴抽出部２で得られた入力音声の特徴量
は、照合部４において、標準辞書３に予め格納されてい
る各認識対象の標準的な特徴量と比較され、各認識対象
の類似度が計算される。そして、結果出力部５は、照合
部４の照合結果に基づき、例えば、類似度が最も高い認
識対象であって、該類似度(の最大値)が所定の閾値(リ
ジェクト閾値)を越えた認識対象を認識結果として出力
する。

【００１７】次に、具体的な動作例について説明する。
上記のような構成の音声認識装置において、実際に図２
に示すような「ゼロ」という発声が行なわれた時には、
この入力音声の特徴量を標準辞書３内の標準的な特徴量
と照合して類似度を計算する際、計算された類似度は
「ゼロ」という発声が終わったところで最大となる。し
かし、この類似度が最大となったか否かは、類似度が最
大値となった後、ある時間を経過しないと検出できな
い。すなわち、類似度が最大値となった後、類似度が最
大値に達したか否かは、ある時間を経過しないとわから
ない。ある認識対象について類似度が最大となった時点
からこの類似度の最大値が検出される時点までの期間ｔ
_iを、本発明では、この認識対象の応答時間(ｔ_i)と定義
する。

【００１８】この応答時間ｔ_iを考慮して、図３に示す
ように、認識対象となる単語毎に、その単語に対する辞
書に応答時間ｔ_iの属性を付加することができる。例え
ば、標準辞書３として、認識対象となる単語毎に、標準
的な特徴量とともに、応答時間ｔ_iを付加することがで
きる。なお、図３の例では、全ての認識対象について、
一率に同じ応答時間ｔ_i(＝０．２秒)が付加されている
場合が示されている。しかしながら、図３の例のよう
に、全ての認識対象について、一率に同じ応答時間ｔ
_i(＝０．２秒)を付加する場合、前述のように、「ナナ
ナナ」のように音節が連続してなる認識対象(認識単語)
に対しても、ワードスポッティング特有の不要な認識結
果が出力されてしまうという問題が生ずる。すなわち、
この場合、「えーとナナナナの…」のように、連続して
発声した時は、図４に示すように、「ナナナナ」の発声
に対し３回の類似度ピークＰ₁，Ｐ₂，Ｐ₃が得られ、
「ナナ」の認識結果が３回出力されてしまう。

【００１９】このような問題を回避するため、本発明の
第１の実施形態では、連続する音節によって構成される
認識対象(認識単語)が標準辞書に存在するときには、そ
の認識単語の照合による認識結果出力の応答時間ｔ
_iを、標準辞書に含まれる他の認識単語の認識結果出力
の応答時間よりも長く設定するようになっている。

【００２０】ここで、連続する音節によって構成される
認識単語の認識結果出力の応答時間ｔ_iとしては、実際
に測定される(考えられうる)応答時間ｔ_iの最大の時
間、あるいは、実際に測定される(考えられうる)応答時
間ｔ_iよりも長い応答時間を設定することができる。こ
の場合には、設定される応答時間ｔ_iを長くすればする
ほど、この応答時間ｔ_iの時間分だけ不要語による類似
度の上昇を吸収できる。すなわち、ある認識対象につい
て類似度が最大となった時点からこの類似度の最大値が
検出される時点までの応答時間ｔ_i内に、ある認識対象
(同じ認識対象をも含む)について類似度が最大となった
場合に、応答時間ｔ_i中に類似度の最大値(ピーク)を与
えた認識対象を不要語として棄却するようにしている。
例えば、応答時間ｔ_iのを計時開始時の類似度の最大値
(ピーク)と応答時間ｔ_i中の類似度の最大値とを比較し
て、その大きい方を認識結果として出力するが、一般
に、応答時間ｔ_iが適切に設定されているとき、応答時
間ｔ_i中の類似度の最大値の方が応答時間ｔ_iの計時開始
時の類似度の最大値(ピーク)よりも小さいので(すなわ
ち、本来、認識対象としている単語の類似度は高く、不
要語による類似度は認識対象単語の類似度よりも低いの
で)、応答時間ｔ_i中の類似度の最大値は不要語として棄
却される(認識結果として出力されない)。

【００２１】しかしながら、辞書に設定される応答時間
ｔ_iを長くすることは、認識結果の出力がユーザから見
て遅くなることになるため、設定される応答時間ｔ
_iは、最大でも０．５〜０．８秒程度が限界である。ま
た、連続する音節によって構成される認識単語以外の認
識単語については、認識結果出力が迅速になされるよ
う、応答時間ｔ_iが短かく設定されるのが良い。

【００２２】図５には、本発明の第１の実施形態による
応答時間ｔ_iの付加例が示されており、図５の例では、
認識対象「７(ナナ)」についての応答時間ｔ_iが、他の
認識対象の応答時間ｔ_iに比べて長く設定されている。
すなわち、「０(ゼロ)」や「１(イチ)」などは、応答時
間ｔ_iが０．２秒に設定されているのに対し、「７(ナ
ナ)」については応答時間ｔ_iが０．５秒と長く設定され
ている。

【００２３】このような設定では、「ゼロ」や「イチ」
をそれぞれ発声した時は、応答時間が０．２秒であるの
で、各々の発声終了後０．２秒で認識結果が出力され
る。また、これらを例えば「えーとゼロイチの…」のよ
うに連続して発声したときも、同様に、「ゼロ」，「イ
チ」をワードスポッティングした後、０．２秒で認識結
果が出力される。また、「ナナ」と発声した時は、応答
時間が０．５秒であるので、「ナナ」の発声終了後、
０．５秒で認識結果が出力される。また、「えーとナナ
ナナの…」のように、連続して発声した時は、図６に示
すように、「ナナナナ」の発声に対し３回の類似度ピー
クＰ₁，Ｐ₂，Ｐ₃が得られる。このとき、２番目の「ナ
ナ」は１番目の「ナナ」や３番目の「ナナ」と異なり、
発声に微妙な間(ま)があるため、２番目の「ナナ」の類
似度ピークＰ₂は、１番目，３番目の「ナナ」の類似度
ピークＰ₁，Ｐ₃に比べていくらか下がり、このことか
ら、２番目の「ナナ」は不要語であることがわかる。本
発明では、認識対象「ナナ」については、応答時間ｔ_i
を０．５秒と長くすることにより、２番目の類似度ピー
クＰ₂は１番目の類似度ピークＰ₁に隠れて、その認識結
果は出力されなくなる。従って、全体として、１番目の
類似度ピークＰ₁と３番目の類似度ピークＰ₃とによる２
つの「ナナ」の認識結果だけが出力され、２番目の類似
度ピークＰ₂によるものは棄却される。

【００２４】このように、本発明の第１の実施形態で
は、連続する音節によって構成される認識対象が標準辞
書に存在するときには、該認識対象の照合による認識結
果出力の応答時間を、標準辞書に含まれる他の認識対象
の認識結果出力の応答時間よりも長く設定することで、
「ナナナナ」のように音節が連続してなる認識対象(認
識単語)に対しても、ワードスポッティング特有の不要
な認識結果が出力されないようにすることができる。

【００２５】また、本発明の第２の実施形態では、連続
する音節によって構成される認識対象が存在するときに
は、該認識対象に無音区間を付加した認識対象をも標準
辞書に設定するようになっている。具体的に、ｑを無音
区間とするとき、「ナナ」に無音区間「ｑ」を付加した
「ナナｑ」をも認識対象として辞書に登録するようにし
ている。

【００２６】図７は、この第２の実施形態の処理例を説
明するための図である。図７からわかるように、例えば
「えーとナナナナ」の発声について、通常の場合は、
「ナナナナ」の２つ目の「ナ」を発声し終えたところで
類似度が最大となるところを、辞書に「ナナｑ」の認識
対象をも付加したことによって、すなわち、「ナナｑ」
の辞書を新たに設けたことによって、「ナナ」を発声し
終わった後、僅かの時間を置いて類似度が最大となる。
従って、「えーとナナナナの…」と発声した場合、「ナ
ナナナ」の部分については、類似度のピークは、認識対
象「ナナｑ」によるピークＰ_aと、その後の認識対象
「ナナ」によるピークＰ_bとの２つとなり、類似度のピ
ークが「ナナ」の発声直後「ｑ］の時間分遅れて２回だ
け現われ、第１の実施形態と同様に、「ナナ」の認識結
果が３回生起するのを有効に防止できる。なお、この第
２の実施形態では、「ナナｑ」をも含めた各認識対象の
応答時間は、例えば図３に示すように、全て同じものに
設定することができる。このように、１番目の「ナナ」
の発声部分と３番目の「ナナ」の発声部分との間の無音
区間ｑを辞書に取り込むことによっても、「ナナ」の認
識結果が３回生起するのを有効に防止できる。

【００２７】このように、本発明の音声認識装置におい
ては、「ナナナナ」のように音節が連続してなる認識対
象(認識単語)に対しても、ワードスポッティング特有の
不要な認識結果が出力されないようにすることができ
る。

【００２８】図８は図１の音声認識装置のハードウェア
構成例を示す図である。図８を参照すると、この音声認
識装置は、例えばパーソナルコンピュータ等で実現さ
れ、全体を制御するＣＰＵ２１と、ＣＰＵ２１の制御プ
ログラム等が記憶されているＲＯＭ２２と、ＣＰＵ２１
のワークエリア等として使用されるＲＡＭ２３と、音声
を入力する入力装置２４と、音声認識結果を出力する結
果出力装置(例えば、ディスプレイやプリンタなど)２６
とを有している。

【００２９】ここで、ＣＰＵ２１は、図１の特徴抽出部
２，照合部４などの機能を有している。

【００３０】なお、ＣＰＵ２１におけるこのような特徴
抽出部２，照合部４等としての機能は、例えばソフトウ
ェアパッケージ(具体的には、ＣＤ−ＲＯＭ等の情報記
録媒体)の形で提供することができ、このため、図８の
例では、情報記録媒体３０がセットさせるとき、これを
駆動する媒体駆動装置３１が設けられている。

【００３１】換言すれば、本発明の音声認識装置は、汎
用の計算機システムにＣＤ−ＲＯＭ等の情報記録媒体に
記録されたプログラムを読み込ませて、この汎用計算機
システムのマイクロプロセッサに音声認識処理を実行さ
せる装置構成においても実施することが可能である。こ
の場合、本発明の音声認識処理を実行するためのプログ
ラム(すなわち、ハードウェアシステムで用いられるプ
ログラム)は、媒体に記録された状態で提供される。プ
ログラムなどが記録される情報記録媒体としては、ＣＤ
−ＲＯＭに限られるものではなく、ＲＯＭ，ＲＡＭ，フ
レキシブルディスク，メモリカード等が用いられても良
い。媒体に記録されたプログラムは、ハードウェアシス
テムに組み込まれている記憶装置、例えばハードディス
ク装置にインストールされることにより、このプログラ
ムを実行して、上述した本発明の音声認識処理機能を実
現する音声認識装置の構築に寄与する。

【００３２】また、本発明の音声認識処理機能を実現す
るためのプログラムは、媒体の形で提供されるのみなら
ず、通信によって(例えばサーバによって)提供されるも
のであっても良い。

【００３３】

【発明の効果】以上に説明したように、請求項１，請求
項３記載の発明によれば、ワードスポッティング法によ
り音声認識を行なう場合、連続する音節によって構成さ
れる認識対象が標準辞書に存在するときには、該認識対
象の照合による認識結果出力の応答時間を、標準辞書に
含まれる他の認識対象の認識結果出力の応答時間よりも
長く設定するので、音節が連続してなる認識単語に対し
ても、ワードスポッティング特有の不要な認識結果を出
力させないようにすることができる。

【００３４】また、請求項２，請求項４記載の発明によ
れば、ワードスポッティング法により音声認識を行なう
場合、連続する音節によって構成される認識対象が存在
するときには、該認識対象に無音区間を付加した認識対
象をも標準辞書に設定するので、音節が連続してなる認
識単語に対しても、ワードスポッティング特有の不要な
認識結果を出力させないようにすることができる。

【図面の簡単な説明】

【図１】本発明に係る音声認識装置の構成例を示す図で
ある。

【図２】応答時間を説明するための図である。

【図３】全ての認識対象について、一率に同じ応答時間
ｔ_i(＝０．２秒)が付加されている場合を示す図であ
る。

【図４】応答時間が図３のように設定されている場合の
認識結果の出力例を示す図である。

【図５】本発明の第１の実施形態による応答時間ｔ_iの
付加例を示す図である。

【図６】応答時間が図５のように設定されている場合の
認識結果の出力例を示す図である。

【図７】本発明の第２の実施形態の処理例を説明するた
めの図である。

【図８】本発明の音声認識装置のハードウェア構成例を
示す図である。

【図９】音声区間検出を行なって音声認識を行なう方法
の処理例を示すフローチャートである。

【図１０】ワードスポッティング法の処理例を示すフロ
ーチャートである。

【図１１】従来の認識結果出力例を説明するための図で
ある。

【符号の説明】

１入力部２特徴抽出部３標準辞書４照合部５結果出力部

Claims

【特許請求の範囲】

【請求項１】音声を入力する入力手段と、入力手段か
ら入力された音声から特徴量を抽出する特徴抽出手段
と、全ての認識対象の標準的な特徴量が予め格納されて
いる標準辞書と、特徴抽出手段で抽出された入力音声の
特徴量を標準辞書に格納されている各認識対象の標準的
な特徴量と照合し、各認識対象との類似度を算出する照
合手段と、照合手段の照合結果に基づき、類似度が高い
認識対象を認識結果として出力する結果出力手段とを有
しており、連続する音節によって構成される認識対象が
標準辞書に存在するときには、該認識対象の照合による
認識結果出力の応答時間を、標準辞書に含まれる他の認
識対象の認識結果出力の応答時間よりも長く設定するこ
とを特徴とする音声認識装置。
【請求項２】音声を入力する入力手段と、入力手段か
ら入力された音声から特徴量を抽出する特徴抽出手段
と、全ての認識対象の標準的な特徴量が予め格納されて
いる標準辞書と、特徴抽出手段で抽出された入力音声の
特徴量を標準辞書に格納されている各認識対象の標準的
な特徴量と照合し、各認識対象との類似度を算出する照
合手段と、照合手段の照合結果に基づき、類似度が高い
認識対象を認識結果として出力する結果出力手段とを有
しており、連続する音節によって構成される認識対象が
存在するときには、該認識対象に無音区間を付加した認
識対象をも標準辞書に設定することを特徴とする音声認
識装置。
【請求項３】ワードスポッティング法により音声認識
を行なう音声認識方法において、連続する音節によって
構成される認識対象が標準辞書に存在するときには、該
認識対象の照合による認識結果出力の応答時間を、標準
辞書に含まれる他の認識対象の認識結果出力の応答時間
よりも長く設定することを特徴とする音声認識方法。
【請求項４】ワードスポッティング法により音声認識
を行なう音声認識方法において、連続する音節によって
構成される認識対象が存在するときには、該認識対象に
無音区間を付加した認識対象をも標準辞書に設定するこ
とを特徴とする音声認識方法。