JPH0997095A

JPH0997095A - 音声認識装置

Info

Publication number: JPH0997095A
Application number: JP7253146A
Authority: JP
Inventors: Nobuyuki Kono; 信幸香野
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1995-09-29
Filing date: 1995-09-29
Publication date: 1997-04-08

Abstract

(57)【要約】【目的】咳払いなどの不正な発声音声の入力に対応す
るためのリジェクトしきい値を利用者に応じた尤度で設
定および利用することを可能にする単語音声を認識する
ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌを用いた音声
認識装置を提供することを目的とする。【構成】音声入力手段１、単語音声切り出し部２、特
徴抽出部３、状態数推定部４、学習部５などの他に、特
徴データとＨＭＭパラメータから尤度を求める尤度出力
部６およびリジェクトのためのしきい値を設定するしき
い値設定部８を構成した。したがって利用者が何度発声
してもリジェクトされるような不都合が生じず、利用者
の使い勝手を向上させることができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、単語音声を認識し、そ
の認識結果を出力する音声認識装置に関するものであ
る。

【０００２】

【従来の技術】従来の、ＨｉｄｄｅｎＭａｒｋｏｖ
Ｍｏｄｅｌ（本発明では、ＨＭＭと略称する）を用いた
単語音声を認識する音声認識装置の説明を行なうため
に、初めにＨＭＭによる音声認識の方法について説明す
る。ＨＭＭは、Ｎ個の状態Ｓ１，Ｓ２，．．．，ＳＮを
持ち、一定周期毎に、ある確率（遷移確率）で状態を次
々に遷移するとともに、その際に、ある確率（出力確
率）でラベル（特徴データ）を一つずつ出力するという
マルコフモデルである。

【０００３】音声をラベル（特徴データ）の時系列と見
た場合に、学習時に、各単語を数回発声してそれらをモ
デル化したＨＭＭを作成しておき、認識時には、入力音
声のラベル系列を出力する確率（尤度）が最大になるＨ
ＭＭを探すことで認識を行なう。以下、図面を参照して
具体的に説明する。

【０００４】図５は従来のＨＭＭの例図であって、日本
音響学会誌４２巻１２号（１９８６）「Ｈｉｄｄｅｎ
ＭａｒｋｏｖＭｏｄｅｌに基づいた音声認識」で示さ
れたＨＭＭの簡単な例である。このＨＭＭは、３つの状
態で構成され、２種類のラベルａとｂのみからなるラベ
ル系列を出力する。初期状態はＳ１で、Ｓ１からは、
０．３の確率でＳ１自体に遷移する（その際にラベルａ
を出力する。ラベルｂは出力確率が０．０なので出力さ
れない）か、０．７の確率でＳ２に遷移する（その際に
ラベルａを０．５の確率で、ラベルｂを０．５の確率で
出力する）。状態Ｓ２からは、０．２の確率でＳ２自体
に遷移する（その際にラベルａかｂかをそれぞれ０．
３、０．７の確率で出力する）か、０．８の確率で最終
状態Ｓ３に遷移する（その際にラベルｂを出力する。ラ
ベルａは出力確率が０．０なので出力されない）ことを
表している。

【０００５】ここで、このＨＭＭがラベル系列（特徴デ
ータの列）ａｂｂを出力する確率（尤度）を考えると、
このＨＭＭで許される状態系列はＳ１Ｓ１Ｓ２Ｓ３とＳ
１Ｓ２Ｓ２Ｓ３の２つだけであり、それぞれ確率は、
０．３＊１．０＊０．７＊０．５＊０．８＊１．０＝
０．０８４０および０．７＊０．５＊０．２＊０．７＊
０．８＊１．０＝０．０３９２である。どちらの可能性
もあるので合計０．０８４０＋０．０３９２＝０．１２
３２の確率でこのＨＭＭはａｂｂを出力することがわか
る。

【０００６】そこで、予め単語毎にそのＨＭＭを学習し
て、各単語に最も適した状態の遷移確率と各状態遷移に
おけるラベルの出力確率を求めておけば、ある未知の単
語のラベル系列が入力された場合、各ＨＭＭに対して確
率（尤度）計算を行なえば、どの単語に対するＨＭＭが
このラベル系列を出力し易いかがわかり、これにより認
識ができる。以上がＨＭＭによる音声認識の方法であ
る。

【０００７】また、図６は、従来の音声認識における音
声波形、特徴データの時系列とＨＭＭの各状態の対応を
示す例図であり、「はじめ」と発声した場合の対応を示
している。このように、音声の特徴データの時系列に対
して、その単語の音韻数程度の少ない状態でＨＭＭが表
現される。

【０００８】従来のＨＭＭを用いた単語音声を認識する
音声認識装置では、学習時に、音声認識装置に登録する
各単語に対し、その単語の音韻数程度の少ない状態数を
音韻のスペクトル変化等から求め、各状態遷移での特徴
データの出力確率と状態間の遷移確率を学習により推定
してＨＭＭにモデル化しておき、認識時に、入力音声を
これらすべてのモデルに当てはめて尤度計算を行ない、
認識していた。

【０００９】

【発明が解決しようとする課題】音声認識装置では、咳
払いなどの不正な発声音声の入力があった場合に対応す
るために、常に一番尤度の高い候補を利用者に返すので
はなく、一番尤度が高い候補が、あるしきい値を越えて
いなければ、その候補をリジェクトしてしまい、利用者
に再度発声を促すようにすることが、操作性の向上の上
で重要である。しかし、このリジェクトのためのしきい
値は、音声認識装置の提供者が予めその音声認識装置を
評価することにより決めた一定値であるため、利用者に
よっては何度発声し直しても、認識候補がリジェクトさ
れてしまい、認識できないことがあった。因みに、古井
貞照著「ディジタル信号処理」（東海大学出版会）の第
１０章１０．２音声認識の課題によると、「全体の中で
はわずかな割合の話者ではあるが、極めて認識率の低い
話者が生ずる問題がある」とされている。

【００１０】これは、認識率が低くなってしまう話者で
は、その特徴データが個人特有の声の明瞭さの違いや口
ごもり等の要因で平均的な話者の特徴データのバラツキ
の範囲外にあるために（確率的に起こりにくいという意
味で）尤度が通常より低く計算されてしまうためであ
り、このため、平均的な話者の特徴データを基に設定さ
れた尤度しきい値を常に越えないという現象が発生して
いた。

【００１１】したがって本発明は、咳払いなどの不正な
発声音声の入力に対応するためのリジェクトしきい値を
利用者に応じた尤度で設定および利用することを可能に
する単語音声を認識するＨＭＭを用いた音声認識装置を
提供することを目的とする。

【００１２】

【課題を解決するための手段】このために本発明の音声
認識装置は、単語音声を含む音声を入力するための音声
入力手段と、単語音声を含む音声から単語音声の部分だ
けを切り出す単語音声切り出し部と、切り出した単語音
声から特徴データを抽出する特徴抽出部と、特徴データ
からＨＭＭによりモデル化する際の単語音声に対する状
態数を推定する状態数推定部と、特徴データを単語モデ
ルに当てはめてＨＭＭパラメータを求める学習部と、特
徴データとＨＭＭパラメータから尤度を求める尤度出力
部と、学習したＨＭＭパラメータおよび尤度情報からな
る音声辞書ファイルと、リジェクトのためのしきい値を
設定するしきい値設定部と、各単語モデルに対して尤度
を計算して、認識候補を判定する照合判定部と、認識結
果を出力する判定結果出力部とを備えた。

【００１３】

【作用】音声認識装置への単語登録の際に、学習して求
めたＨＭＭパラメータを用いて、登録用に入力された音
声を認識し、その時の尤度を求めるようにする。つま
り、認識率が低くなってしまう話者の場合でも、その話
者の発声に応じた（低めの）尤度を利用者の尤度として
求めておく。そして、その尤度もＨＭＭパラメータと一
緒に音声辞書ファイルに登録しておく。認識の時には、
音声辞書ファイル内の尤度情報を読み、尤度しきい値の
参考値とする。これにより、利用者に応じた尤度しきい
値が設定でき、正確な認識ができる。このように利用者
に応じた尤度しきい値を設定することができるため、
「利用者によっては何度発声し直しても、認識候補がリ
ジェクトされてしまい、認識できない」ということがな
くなる。

【００１４】

【実施例】以下、本発明の一実施例について図面を参照
しながら説明する。図１は本発明の一実施例における音
声認識装置の構成ブロック図である。図中、１は単語音
声を含む音声を入力するための音声入力手段、２は単語
音声を含む音声から単語音声の部分だけを切り出す単語
音声切り出し部、３は切り出した単語音声から特徴デー
タを抽出する特徴抽出部、４は特徴データからＨＭＭに
よりモデル化する際の単語音声に対する状態数を推定す
る状態数推定部、５は特徴データを単語モデルに当ては
めてＨＭＭパラメータを求める学習部、６は特徴データ
とＨＭＭパラメータから尤度を求める尤度出力部、７は
学習したＨＭＭパラメータおよび尤度情報からなる音声
辞書ファイル、８はリジェクトのためのしきい値を設定
するしきい値設定部、９は各単語モデルに対して尤度を
計算して、認識候補を判定する照合判定部、１０は認識
結果を出力する判定結果出力部である。

【００１５】図２は本発明の一実施例における音声認識
装置の回路ブロック図であり、図中、１１はマイク、１
２は読み出し専用メモリ（ＲＯＭ）、１３は中央処理装
置（ＣＰＵ）、１４は書き込み可能メモリ（ＲＡＭ）、
１５はモニター、１６はファイル装置である。

【００１６】図１に示す音声入力手段１はマイク１１に
より、単語音声切り出し部２と特徴抽出部３と状態数推
定部４と学習部５と尤度出力部６としきい値設定部８と
照合判定部９は、ＣＰＵ１３がマイク１１とＲＯＭ１２
とＲＡＭ１４およびファイル装置１６とデータのやりと
りを行ないながらＲＯＭ１２に記憶されたプログラムを
実行することにより、音声辞書ファイル７はファイル装
置１６により、判定結果出力部１０はモニター１５によ
り実現されている。

【００１７】図３は本発明の一実施例における音声認識
装置の登録時のフローチャート、図４は本発明の一実施
例における音声認識装置の認識時のフローチャートであ
る。上記のように構成された音声認識装置に、ある単語
音声が登録される場合について、図３のフローチャート
に基づき説明する。

【００１８】ステップ１では、音声入力手段１により、
単語音声を含む発声音声が入力される。ステップ２で
は、単語音声切り出し部２により単語音声を含む発声音
声から単語音声を切り出す。これは音声のパワー等によ
り単語音声の前後の無音または低雑音部分を検出し取り
除くことにより実現できる。ステップ３では、特徴抽出
部３において、線形予測分析（ＬＰＣ分析）により、そ
の単語音声に対するＬＰＣケプストラム係数を求める等
の方法で特徴抽出を行なう。ステップ４では、状態数推
定部４により、ステップ３で単語音声から抽出した特徴
データからその単語音声に対する状態数を推定する。状
態数の推定は、日本音響学会講演論文集（１９９０．
３）「連続数字音声認識におけるＨＭＭの状態数及び混
合数について」に基づいて行なうことができる。

【００１９】ステップ５では、学習部５により単語音声
の特徴データをステップ４で求めた状態数を持つＨＭＭ
モデルを用いて学習し、各状態間の遷移確率および遷移
における特徴データの出力確率のＨＭＭパラメータを求
め、音声辞書ファイル７に、求めたＨＭＭパラメータを
格納する。ステップ６では、尤度出力部６により単語音
声の特徴データを用いて、音声辞書ファイル７から読み
込んだステップ５で求めたＨＭＭパラメータ上で尤度計
算を行ない、その尤度を求める。そして、音声辞書ファ
イル７に、この尤度の情報も格納する。

【００２０】次に、ある単語音声を認識する場合につい
て、以下、この動作を図４のフローチャートに基づき説
明する。ステップ１１では、音声入力手段１により、単
語音声を含む発声音声が入力される。ステップ１２で
は、単語音声切り出し部２により単語音声を含む発声音
声から単語音声を切り出す。ステップ１３では、特徴抽
出部３により単語音声に対する特徴抽出を行なう。ステ
ップ１４では、照合判定部９により単語音声の特徴デー
タを用いて音声辞書ファイル７から読み込んだ各単語モ
デルのＨＭＭパラメータ上で尤度計算を行ない尤度の高
い単語モデルを認識候補と判定する。

【００２１】ステップ１５では、しきい値設定部８によ
り、音声辞書ファイル７から読み込んだ尤度情報によ
り、リジェクトのためのしきい値を設定する。このしき
い値は、「読み込んだ尤度情報をそのまましきい値とす
る」ようにして、あるいは、「音声認識装置を評価して
決定したしきい値に対して、読み込んだ尤度情報で重み
付けしたものをしきい値とする」等として設定できる。
ステップ１６では、照合判定部９により、ステップ１４
で求めた認識候補の尤度がステップ１５で設定したしき
い値を越えているかどうかを判断し、越えていれば、ス
テップ１７に進み、越えていなければ、リジェクトして
利用者に再度入力してもらうためステップ１１に戻る。
ステップ１７では、判定結果出力部１０により認識結果
を利用者に通知する。

【００２２】

【発明の効果】以上説明したように本発明の音声認識装
置によれば、登録時に、学習して求めたＨＭＭパラメー
タを用いて、登録時の入力音声を認識させ、その尤度情
報を求めておくことにより、認識時に、利用者に応じた
リジェクトのしきい値の設定が行なえるため、利用者
が、何度発声してもリジェクトされるような不都合が生
じず、利用者の使い勝手を向上させることができる。

【図面の簡単な説明】

【図１】本発明の一実施例における音声認識装置の構成
ブロック図

【図２】本発明の一実施例における音声認識装置の回路
ブロック図

【図３】本発明の一実施例における音声認識装置の登録
時のフローチャート

【図４】本発明の一実施例における音声認識装置の認識
時のフローチャート

【図５】従来のＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅ
ｌの例図

【図６】従来の音声認識における音声波形、特徴データ
の時系列とＨＭＭの各状態の対応を示す例図

【符号の説明】

１音声入力手段２単語音声切り出し部３特徴抽出部４状態数推定部５学習部６尤度出力部７音声辞書ファイル８しきい値設定部９照合判定部１０判定結果出力部１１マイク１２ＲＯＭ１３ＣＰＵ１４ＲＡＭ１５モニター１６ファイル装置

Claims

【特許請求の範囲】

【請求項１】単語音声を含む音声を入力するための音声
入力手段と、単語音声を含む音声から単語音声の部分だ
けを切り出す単語音声切り出し部と、切り出した単語音
声から特徴データを抽出する特徴抽出部と、特徴データ
からＨＭＭによりモデル化する際の単語音声に対する状
態数を推定する状態数推定部と、特徴データを単語モデ
ルに当てはめてＨＭＭパラメータを求める学習部と、特
徴データとＨＭＭパラメータから尤度を求める尤度出力
部と、学習したＨＭＭパラメータおよび尤度情報からな
る音声辞書ファイルと、リジェクトのためのしきい値を
設定するしきい値設定部と、各単語モデルに対して尤度
を計算して、認識候補を判定する照合判定部と、認識結
果を出力する判定結果出力部とを備えたことを特徴とす
る音声認識装置。