JPH0997095A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0997095A
JPH0997095A JP7253146A JP25314695A JPH0997095A JP H0997095 A JPH0997095 A JP H0997095A JP 7253146 A JP7253146 A JP 7253146A JP 25314695 A JP25314695 A JP 25314695A JP H0997095 A JPH0997095 A JP H0997095A
Authority
JP
Japan
Prior art keywords
voice
word
unit
likelihood
hmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7253146A
Other languages
English (en)
Inventor
Nobuyuki Kono
信幸 香野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP7253146A priority Critical patent/JPH0997095A/ja
Publication of JPH0997095A publication Critical patent/JPH0997095A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 咳払いなどの不正な発声音声の入力に対応す
るためのリジェクトしきい値を利用者に応じた尤度で設
定および利用することを可能にする単語音声を認識する
Hidden Markov Modelを用いた音声
認識装置を提供することを目的とする。 【構成】 音声入力手段1、単語音声切り出し部2、特
徴抽出部3、状態数推定部4、学習部5などの他に、特
徴データとHMMパラメータから尤度を求める尤度出力
部6およびリジェクトのためのしきい値を設定するしき
い値設定部8を構成した。したがって利用者が何度発声
してもリジェクトされるような不都合が生じず、利用者
の使い勝手を向上させることができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、単語音声を認識し、そ
の認識結果を出力する音声認識装置に関するものであ
る。
【0002】
【従来の技術】従来の、Hidden Markov
Model(本発明では、HMMと略称する)を用いた
単語音声を認識する音声認識装置の説明を行なうため
に、初めにHMMによる音声認識の方法について説明す
る。HMMは、N個の状態S1,S2,...,SNを
持ち、一定周期毎に、ある確率(遷移確率)で状態を次
々に遷移するとともに、その際に、ある確率(出力確
率)でラベル(特徴データ)を一つずつ出力するという
マルコフモデルである。
【0003】音声をラベル(特徴データ)の時系列と見
た場合に、学習時に、各単語を数回発声してそれらをモ
デル化したHMMを作成しておき、認識時には、入力音
声のラベル系列を出力する確率(尤度)が最大になるH
MMを探すことで認識を行なう。以下、図面を参照して
具体的に説明する。
【0004】図5は従来のHMMの例図であって、日本
音響学会誌42巻12号(1986)「Hidden
Markov Modelに基づいた音声認識」で示さ
れたHMMの簡単な例である。このHMMは、3つの状
態で構成され、2種類のラベルaとbのみからなるラベ
ル系列を出力する。初期状態はS1で、S1からは、
0.3の確率でS1自体に遷移する(その際にラベルa
を出力する。ラベルbは出力確率が0.0なので出力さ
れない)か、0.7の確率でS2に遷移する(その際に
ラベルaを0.5の確率で、ラベルbを0.5の確率で
出力する)。状態S2からは、0.2の確率でS2自体
に遷移する(その際にラベルaかbかをそれぞれ0.
3、0.7の確率で出力する)か、0.8の確率で最終
状態S3に遷移する(その際にラベルbを出力する。ラ
ベルaは出力確率が0.0なので出力されない)ことを
表している。
【0005】ここで、このHMMがラベル系列(特徴デ
ータの列)abbを出力する確率(尤度)を考えると、
このHMMで許される状態系列はS1S1S2S3とS
1S2S2S3の2つだけであり、それぞれ確率は、
0.3*1.0*0.7*0.5*0.8*1.0=
0.0840および0.7*0.5*0.2*0.7*
0.8*1.0=0.0392である。どちらの可能性
もあるので合計0.0840+0.0392=0.12
32の確率でこのHMMはabbを出力することがわか
る。
【0006】そこで、予め単語毎にそのHMMを学習し
て、各単語に最も適した状態の遷移確率と各状態遷移に
おけるラベルの出力確率を求めておけば、ある未知の単
語のラベル系列が入力された場合、各HMMに対して確
率(尤度)計算を行なえば、どの単語に対するHMMが
このラベル系列を出力し易いかがわかり、これにより認
識ができる。以上がHMMによる音声認識の方法であ
る。
【0007】また、図6は、従来の音声認識における音
声波形、特徴データの時系列とHMMの各状態の対応を
示す例図であり、「はじめ」と発声した場合の対応を示
している。このように、音声の特徴データの時系列に対
して、その単語の音韻数程度の少ない状態でHMMが表
現される。
【0008】従来のHMMを用いた単語音声を認識する
音声認識装置では、学習時に、音声認識装置に登録する
各単語に対し、その単語の音韻数程度の少ない状態数を
音韻のスペクトル変化等から求め、各状態遷移での特徴
データの出力確率と状態間の遷移確率を学習により推定
してHMMにモデル化しておき、認識時に、入力音声を
これらすべてのモデルに当てはめて尤度計算を行ない、
認識していた。
【0009】
【発明が解決しようとする課題】音声認識装置では、咳
払いなどの不正な発声音声の入力があった場合に対応す
るために、常に一番尤度の高い候補を利用者に返すので
はなく、一番尤度が高い候補が、あるしきい値を越えて
いなければ、その候補をリジェクトしてしまい、利用者
に再度発声を促すようにすることが、操作性の向上の上
で重要である。しかし、このリジェクトのためのしきい
値は、音声認識装置の提供者が予めその音声認識装置を
評価することにより決めた一定値であるため、利用者に
よっては何度発声し直しても、認識候補がリジェクトさ
れてしまい、認識できないことがあった。因みに、古井
貞照著「ディジタル信号処理」(東海大学出版会)の第
10章10.2音声認識の課題によると、「全体の中で
はわずかな割合の話者ではあるが、極めて認識率の低い
話者が生ずる問題がある」とされている。
【0010】これは、認識率が低くなってしまう話者で
は、その特徴データが個人特有の声の明瞭さの違いや口
ごもり等の要因で平均的な話者の特徴データのバラツキ
の範囲外にあるために(確率的に起こりにくいという意
味で)尤度が通常より低く計算されてしまうためであ
り、このため、平均的な話者の特徴データを基に設定さ
れた尤度しきい値を常に越えないという現象が発生して
いた。
【0011】したがって本発明は、咳払いなどの不正な
発声音声の入力に対応するためのリジェクトしきい値を
利用者に応じた尤度で設定および利用することを可能に
する単語音声を認識するHMMを用いた音声認識装置を
提供することを目的とする。
【0012】
【課題を解決するための手段】このために本発明の音声
認識装置は、単語音声を含む音声を入力するための音声
入力手段と、単語音声を含む音声から単語音声の部分だ
けを切り出す単語音声切り出し部と、切り出した単語音
声から特徴データを抽出する特徴抽出部と、特徴データ
からHMMによりモデル化する際の単語音声に対する状
態数を推定する状態数推定部と、特徴データを単語モデ
ルに当てはめてHMMパラメータを求める学習部と、特
徴データとHMMパラメータから尤度を求める尤度出力
部と、学習したHMMパラメータおよび尤度情報からな
る音声辞書ファイルと、リジェクトのためのしきい値を
設定するしきい値設定部と、各単語モデルに対して尤度
を計算して、認識候補を判定する照合判定部と、認識結
果を出力する判定結果出力部とを備えた。
【0013】
【作用】音声認識装置への単語登録の際に、学習して求
めたHMMパラメータを用いて、登録用に入力された音
声を認識し、その時の尤度を求めるようにする。つま
り、認識率が低くなってしまう話者の場合でも、その話
者の発声に応じた(低めの)尤度を利用者の尤度として
求めておく。そして、その尤度もHMMパラメータと一
緒に音声辞書ファイルに登録しておく。認識の時には、
音声辞書ファイル内の尤度情報を読み、尤度しきい値の
参考値とする。これにより、利用者に応じた尤度しきい
値が設定でき、正確な認識ができる。このように利用者
に応じた尤度しきい値を設定することができるため、
「利用者によっては何度発声し直しても、認識候補がリ
ジェクトされてしまい、認識できない」ということがな
くなる。
【0014】
【実施例】以下、本発明の一実施例について図面を参照
しながら説明する。図1は本発明の一実施例における音
声認識装置の構成ブロック図である。図中、1は単語音
声を含む音声を入力するための音声入力手段、2は単語
音声を含む音声から単語音声の部分だけを切り出す単語
音声切り出し部、3は切り出した単語音声から特徴デー
タを抽出する特徴抽出部、4は特徴データからHMMに
よりモデル化する際の単語音声に対する状態数を推定す
る状態数推定部、5は特徴データを単語モデルに当ては
めてHMMパラメータを求める学習部、6は特徴データ
とHMMパラメータから尤度を求める尤度出力部、7は
学習したHMMパラメータおよび尤度情報からなる音声
辞書ファイル、8はリジェクトのためのしきい値を設定
するしきい値設定部、9は各単語モデルに対して尤度を
計算して、認識候補を判定する照合判定部、10は認識
結果を出力する判定結果出力部である。
【0015】図2は本発明の一実施例における音声認識
装置の回路ブロック図であり、図中、11はマイク、1
2は読み出し専用メモリ(ROM)、13は中央処理装
置(CPU)、14は書き込み可能メモリ(RAM)、
15はモニター、16はファイル装置である。
【0016】図1に示す音声入力手段1はマイク11に
より、単語音声切り出し部2と特徴抽出部3と状態数推
定部4と学習部5と尤度出力部6としきい値設定部8と
照合判定部9は、CPU13がマイク11とROM12
とRAM14およびファイル装置16とデータのやりと
りを行ないながらROM12に記憶されたプログラムを
実行することにより、音声辞書ファイル7はファイル装
置16により、判定結果出力部10はモニター15によ
り実現されている。
【0017】図3は本発明の一実施例における音声認識
装置の登録時のフローチャート、図4は本発明の一実施
例における音声認識装置の認識時のフローチャートであ
る。上記のように構成された音声認識装置に、ある単語
音声が登録される場合について、図3のフローチャート
に基づき説明する。
【0018】ステップ1では、音声入力手段1により、
単語音声を含む発声音声が入力される。ステップ2で
は、単語音声切り出し部2により単語音声を含む発声音
声から単語音声を切り出す。これは音声のパワー等によ
り単語音声の前後の無音または低雑音部分を検出し取り
除くことにより実現できる。ステップ3では、特徴抽出
部3において、線形予測分析(LPC分析)により、そ
の単語音声に対するLPCケプストラム係数を求める等
の方法で特徴抽出を行なう。ステップ4では、状態数推
定部4により、ステップ3で単語音声から抽出した特徴
データからその単語音声に対する状態数を推定する。状
態数の推定は、日本音響学会講演論文集(1990.
3)「連続数字音声認識におけるHMMの状態数及び混
合数について」に基づいて行なうことができる。
【0019】ステップ5では、学習部5により単語音声
の特徴データをステップ4で求めた状態数を持つHMM
モデルを用いて学習し、各状態間の遷移確率および遷移
における特徴データの出力確率のHMMパラメータを求
め、音声辞書ファイル7に、求めたHMMパラメータを
格納する。ステップ6では、尤度出力部6により単語音
声の特徴データを用いて、音声辞書ファイル7から読み
込んだステップ5で求めたHMMパラメータ上で尤度計
算を行ない、その尤度を求める。そして、音声辞書ファ
イル7に、この尤度の情報も格納する。
【0020】次に、ある単語音声を認識する場合につい
て、以下、この動作を図4のフローチャートに基づき説
明する。ステップ11では、音声入力手段1により、単
語音声を含む発声音声が入力される。ステップ12で
は、単語音声切り出し部2により単語音声を含む発声音
声から単語音声を切り出す。ステップ13では、特徴抽
出部3により単語音声に対する特徴抽出を行なう。ステ
ップ14では、照合判定部9により単語音声の特徴デー
タを用いて音声辞書ファイル7から読み込んだ各単語モ
デルのHMMパラメータ上で尤度計算を行ない尤度の高
い単語モデルを認識候補と判定する。
【0021】ステップ15では、しきい値設定部8によ
り、音声辞書ファイル7から読み込んだ尤度情報によ
り、リジェクトのためのしきい値を設定する。このしき
い値は、「読み込んだ尤度情報をそのまましきい値とす
る」ようにして、あるいは、「音声認識装置を評価して
決定したしきい値に対して、読み込んだ尤度情報で重み
付けしたものをしきい値とする」等として設定できる。
ステップ16では、照合判定部9により、ステップ14
で求めた認識候補の尤度がステップ15で設定したしき
い値を越えているかどうかを判断し、越えていれば、ス
テップ17に進み、越えていなければ、リジェクトして
利用者に再度入力してもらうためステップ11に戻る。
ステップ17では、判定結果出力部10により認識結果
を利用者に通知する。
【0022】
【発明の効果】以上説明したように本発明の音声認識装
置によれば、登録時に、学習して求めたHMMパラメー
タを用いて、登録時の入力音声を認識させ、その尤度情
報を求めておくことにより、認識時に、利用者に応じた
リジェクトのしきい値の設定が行なえるため、利用者
が、何度発声してもリジェクトされるような不都合が生
じず、利用者の使い勝手を向上させることができる。
【図面の簡単な説明】
【図1】本発明の一実施例における音声認識装置の構成
ブロック図
【図2】本発明の一実施例における音声認識装置の回路
ブロック図
【図3】本発明の一実施例における音声認識装置の登録
時のフローチャート
【図4】本発明の一実施例における音声認識装置の認識
時のフローチャート
【図5】従来のHidden Markov Mode
lの例図
【図6】従来の音声認識における音声波形、特徴データ
の時系列とHMMの各状態の対応を示す例図
【符号の説明】
1 音声入力手段 2 単語音声切り出し部 3 特徴抽出部 4 状態数推定部 5 学習部 6 尤度出力部 7 音声辞書ファイル 8 しきい値設定部 9 照合判定部 10 判定結果出力部 11 マイク 12 ROM 13 CPU 14 RAM 15 モニター 16 ファイル装置

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】単語音声を含む音声を入力するための音声
    入力手段と、単語音声を含む音声から単語音声の部分だ
    けを切り出す単語音声切り出し部と、切り出した単語音
    声から特徴データを抽出する特徴抽出部と、特徴データ
    からHMMによりモデル化する際の単語音声に対する状
    態数を推定する状態数推定部と、特徴データを単語モデ
    ルに当てはめてHMMパラメータを求める学習部と、特
    徴データとHMMパラメータから尤度を求める尤度出力
    部と、学習したHMMパラメータおよび尤度情報からな
    る音声辞書ファイルと、リジェクトのためのしきい値を
    設定するしきい値設定部と、各単語モデルに対して尤度
    を計算して、認識候補を判定する照合判定部と、認識結
    果を出力する判定結果出力部とを備えたことを特徴とす
    る音声認識装置。
JP7253146A 1995-09-29 1995-09-29 音声認識装置 Pending JPH0997095A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7253146A JPH0997095A (ja) 1995-09-29 1995-09-29 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7253146A JPH0997095A (ja) 1995-09-29 1995-09-29 音声認識装置

Publications (1)

Publication Number Publication Date
JPH0997095A true JPH0997095A (ja) 1997-04-08

Family

ID=17247166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7253146A Pending JPH0997095A (ja) 1995-09-29 1995-09-29 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0997095A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7107209B2 (en) * 2000-11-10 2006-09-12 Honda Giken Kogyo Kabushiki Kaisha Speech communication apparatus with gain control for clear communication
JP2007041319A (ja) * 2005-08-03 2007-02-15 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識方法
JP2007127738A (ja) * 2005-11-02 2007-05-24 Advanced Telecommunication Research Institute International 音声認識装置、およびプログラム
JP2013257448A (ja) * 2012-06-13 2013-12-26 Seiko Epson Corp 音声認識装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7107209B2 (en) * 2000-11-10 2006-09-12 Honda Giken Kogyo Kabushiki Kaisha Speech communication apparatus with gain control for clear communication
JP2007041319A (ja) * 2005-08-03 2007-02-15 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識方法
JP2007127738A (ja) * 2005-11-02 2007-05-24 Advanced Telecommunication Research Institute International 音声認識装置、およびプログラム
JP2013257448A (ja) * 2012-06-13 2013-12-26 Seiko Epson Corp 音声認識装置

Similar Documents

Publication Publication Date Title
EP2048655B1 (en) Context sensitive multi-stage speech recognition
EP1936606A1 (en) Multi-stage speech recognition
CN1639768B (zh) 自动语音识别方法及装置
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP4666129B2 (ja) 発声速度正規化分析を用いた音声認識装置
CN1178203C (zh) 话音识别拒绝方法
KR20210052563A (ko) 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
JP3496706B2 (ja) 音声認識方法及びそのプログラム記録媒体
Rose Word spotting from continuous speech utterances
EP1734509A1 (en) Method and system for speech recognition
JP3444108B2 (ja) 音声認識装置
JP2996019B2 (ja) 音声認識装置
JP2000250593A (ja) 話者認識装置及び方法
JPH0997095A (ja) 音声認識装置
JP2002189487A (ja) 音声認識装置および音声認識方法
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
EP0177854B1 (en) Keyword recognition system using template-concatenation model
KR20020045960A (ko) 음성인식에서 핵심어 검출 성능 개선 방법
JPH096387A (ja) 音声認識装置
KR100677224B1 (ko) 안티워드 모델을 이용한 음성인식 방법
JP2003345383A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JPH08241096A (ja) 音声認識方法
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4297349B2 (ja) 音声認識システム
JP3357752B2 (ja) パターンマッチング装置