JPH09106296A

JPH09106296A - 音声認識装置及び方法

Info

Publication number: JPH09106296A
Application number: JP8201536A
Authority: JP
Inventors: Paul Wesley Cohrs; ウェスレイコーズポール; Mitra P Deldar; ピー．デルダーミトラ; Donald Marion Keen; マリオンキーンドナルド; Ellen Anne Keen; アンキーンエレン
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1995-07-31
Filing date: 1996-07-31
Publication date: 1997-04-22
Also published as: EP0757342A3; DE69614789D1; TW299437B; CA2180392C; CA2180392A1; DE69614789T2; US5960393A; EP0757342B1; EP0757342A2

Abstract

(57)【要約】【課題】音声認識装置及び方法の改善。【解決手段】電気通信装置１０が、音声語に基づいて
少なくとも１個の語を含む句を認識するための音声認識
装置１４と、格納された複数の認識基準部類のうちの１
個の認識基準部類から少なくとも１個の認識基準を選択
するための選択モジュール２６と、ここで前記格納され
た認識基準部類の各々は、与えられた音声語を認識する
対応確率に連関し、選択モジュールに応動して、最も近
接した一致状態にある音声モデルに対応する類似性測定
基準が選択された認識基準を満足するかどうかを定める
ための比較モジュール及び選択された認識基準が満足さ
れる場合に音声語を最も近接した一致状態にある音声モ
デルに対応する句として認識するための認識モジュール
を内蔵するディジタル信号処理装置３０とからなる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識の分野に
関し、例えば、連続音声におけるコマンドの検出に関す
る。

【０００２】

【従来の技術】人の音声（ボイス）に応動するコマンド
検出システムは、広範囲の消費者製品にとってきわめて
望ましいシステムである。例えば電気通信装置におい
て、開閉、送受信、音量調整、押しボタンダイヤル操
作、音声認識装置の調整、及び留守番電話応答装置機能
の実行のような一般的な動作は、可聴周波（オーディ
オ）入力チャネルをモニタして、「話者から音声で発出
される語」（音声語）のうちの、特定のコマンドを意味
する音声語（コマンド語）が入力に現れた場合に適切な
措置をとることによって、実行される。

【０００３】システムが認識すべき各コマンドについ
て、例えば技術的に周知の、テンプレートすなわち「隠
されたマルコフモデル」（ＨＭＭモデル）のような統計
的モデルが設けられる。この統計的モデルによって、あ
る与えられた入力セグメントがコマンド音声語を含む可
能性（尤（ゆう）度）が定義される。

【０００４】従来のコマンド検出システムはその動作中
に、現観察対象の入力におけるコマンド語の自己識別性
（アイデンティティ）及び所在位置についての推量又は
仮説を連続的に生成する。各仮説は、それぞれのコマン
ドモデルに対して点検され、それぞれの「ゆう度」につ
いての得点が生成される。得点は、例えば従来のビタビ
（Ｖｉｔｅｒｂｉ）採点法によって決定される。もし得
点がしきい値Ｔを超える場合、仮説は容認されたものと
考えられ、これに連関する措置が実行される。そうでな
い場合には、この仮説は拒否される。

【０００５】正しい仮説又は正しくない仮説についての
得点の確率分布は、話者、変換器、及び音響的環境を含
む種々の関与部分に依存する。固定のしきい値Ｔは通
常、最大数の使用者に対して、予期される動作状態の全
範囲にわたって、正しくない警告の率を受容可能な低さ
に確保するのに十分な高さに設定される。残念ながら、
ユーザの音声特性及び周囲条件が広範に変動するため、
選択されたしきい値が或るユーザに対してはよく機能
し、別のユーザに対してはそれほどよく機能しないこと
が一般的である。

【０００６】

【発明が解決しようとする課題】しきい値を超える確率
が常に低いユーザは、システムから無視される。ユーザ
が頻繁に拒否される問題に対処する１つの手法は、しき
い値のレベルを下げることである。しかし、しきい値の
セット値が低すぎると、結果として平均的ユーザに対し
て、正しくないポジティブ仮説の数が受容不可能なほど
高くなる。

【０００７】

【課題を解決するための手段】本発明によれば、従来の
技術における上記の欠点が、種々の用途のうちで、コマ
ンドの検出及び孤立した語の検出に適した可変認識基準
音声認識手法によって回避される。

【０００８】複数の認識基準部類又は複数の認識基準の
セットのうちから１個の認識基準又は１個の認識基準の
セットがユーザによって手動で選択される。音声語と１
個以上の音声モデルとの比較の各々に対する類似性測定
基準を定めるために、音声語が１個以上の音声モデルと
比較される。

【０００９】これら１個以上の類似性測定基準に基づい
て、音声語に最も近接した一致状態にある音声モデルが
決定される。音声語に最も近接した一致状態にある音声
に対応する類似性測定基準が分析されて、この類似性測
定基準が、選択された認識基準を満足するかどうかが定
められる。

【００１０】認識基準の或るものは認識しきい値を増加
させ、別の或るものは認識しきい値を減少させる。本発
明の一実施例によれば、本発明の音声認識システム及び
方法を用いたデバイスのユーザは、音声語に適用される
認識基準のセットの選択能力を与えられる。例えば、選
択手段は機能オプション又は切り換えの設定についての
選択を含む。認識基準のセットの選択は、ユーザ、コマ
ンド、及びコマンドファミリの個々について、又はこれ
らの組み合わせについて行われる。

【００１１】本発明の新規性についての種々の特徴を、
本発明の開示の一部を構成する特許請求の範囲に示す。
本発明及びその動作の利点、並びにその使用目的につい
てのよりよい理解を得るために、以下に本発明のいくつ
かの実施例について図面を参照して説明する。

【００１２】

【発明の実施の形態】説明を分かりやすくするために、
本発明の実施例においては、個々別々の機能ブロック
（プロセッサ、と名付ける機能ブロックを含む）から構
成されるものとして述べる。これらの機能ブロックによ
って表される機能は、ソフトウエアを実行できる能力を
有するハードウエアを含むがこれに限られない共用又は
専用のハードウエアを用いて実現される。

【００１３】例として図１に示す複数のプロセッサの機
能は、例えばディジタル信号処理装置（ＤＳＰ）のよう
な、単一の共用プロセッサとして実現される。しかし、
本説明で用いる用語「プロセッサ」は、ソフトウエアを
実行できる能力を有するハードウエアだけを意味するも
のではない。

【００１４】図１は、本発明の一実施例で、音声認識機
能を用いる留守番電話応答デバイスに関するものであ
る。しかし、本発明は、音声により操作される制御イン
タフェース機能が望まれるようなどのデバイスにも同等
に適用可能である。

【００１５】例えば、本発明に基づく音声認識について
の選択可能な多しきい値認識基準を用いる手法は、従来
の家庭及びビジネス電話機、コードレス及びセルラ（携
帯）電話機、個人用データ編成機、ファクシミリ装置、
パーソナルコンピュータのようなコンピュータ、並びに
コンピュータ端末の制御にまで拡張することが容易であ
る。

【００１６】いかなる場合でも、図１に示すように、電
気通信装置としてのデバイス１０は、ユーザからの入力
音声を受信するマイクロホン１２と、音声認識システム
１４と、デバイス１０の種々の機能を実行する構成要素
の動作を指揮するためのデバイス制御プロセッサ１６と
を有する。

【００１７】図示の実施例においては、デバイス１０は
留守番電話応答装置として構成されており、これらの構
成要素は、オーディオプロセッサ１８と、スピーカ２０
と、メッセージ記憶装置２２と、電話回線（図示しな
い）を介して電話発信側当事者（呼者）との間でオーデ
ィオ信号の送受を行うための回線インタフェース２４と
を有する。

【００１８】オーディオプロセッサ１８は、技術的には
従来のもので、デバイス制御プロセッサ１６の制御の下
に種々の機能を実行する。例えば、オーディオプロセッ
サ１８は、マイクロホン１２及び回線インタフェース２
４からオーディオ入力信号を受信する。これらの信号は
各々、特定の電話システム要件の要求に応じて処理さ
れ、アナログ又はディジタルのうちの適切なフォーマッ
トでメッセージ記憶装置２２に格納される。

【００１９】オーディオプロセッサ１８は更に、例えば
出メッセージを表すオーディオ出力信号又は呼者から受
信されたメッセージを、回線インタフェース２４又はス
ピーカ２０へそれぞれ送る。更に、オーディオプロセッ
サ１８は、例えばデバイス制御プロセッサ１６から受信
された音声プロンプトのようなメッセージを、オーディ
オ信号に符号化してスピーカ２０へ送る。

【００２０】デバイス制御プロセッサ１６も又、従来の
設計のものである。上記のように、デバイス制御プロセ
ッサ１６は、電話についての呼処理と、デバイスすなわ
ち留守電話応答装置１０の全体的動作とを制御する。デ
バイス制御プロセッサ１６が、音声認識システム１４及
びオーディオプロセッサ１８から入力を受信し、音声認
識システム１４及びオーディオプロセッサ１８に対して
制御命令を発する。

【００２１】デバイス制御プロセッサ１６は又、認識基
準選択スイッチ２６から入力を受信する。認識基準選択
スイッチ２６が、後に更に詳しく述べる仕方で、ユーザ
による多数の認識基準のうちからの認識基準の選択を可
能にして、音声認識システム１４の性能を改善する。デ
バイス制御プロセッサ１６は、ユーザによる選択の入力
に応動して、下で述べるように適切な命令を送って音声
認識システム１４の動作モードを変更する。

【００２２】更に図１を参照すると、音声認識システム
１４が、次の構成要素を有することがわかる。

【００２３】すなわち、これらの構成要素は、マイクロ
ホン１２によって拾われたオーディオ信号をディジタル
サンプル（標本）ストリームに変換するための、アナロ
グからディジタルへの（アナログ／ディジタル）変換器
（Ａ／Ｄ変換器）２８と、Ａ／Ｄ変換器２８によって生
成されたディジタル信号標本を処理する、ＡＴ＆ＴＤＳ
Ｐ１６Ａのようなディジタル信号処理装置３０とからな
る。

【００２４】これらの構成要素は更にはディジタル信号
処理装置３０によって実行されるプログラム命令を内蔵
するＲＯＭ３２と、仮の計算結果が格納されるＲＡＭ３
４と、「隠されたマルコフモデル」（ＨＭＭ）パラメー
タメモリ３６とからなる。

【００２５】ＨＭＭパラメータメモリ３６は、例えばＥ
ＥＰＲＯＭ、ＲＯＭ、フラッシュＲＡＭ、電池バックア
ップ付きのＲＡＭ、等のような不揮発性メモリで、本実
施例においては、認識すべき句（フレーズ）についての
少なくとも２個の「隠されたマルコフモデル」（ＨＭ
Ｍ）パラメータセットを内蔵する。当業者であればすぐ
に分かるように、１個以上のデバイス２８、３０、３
２、３４、及び３６は物理的に、同じ電子チップ上に位
置する。

【００２６】音声認識システム１４が、デバイス制御プ
ロセッサ１６からの、ユーザによって発動されたデバイ
ス制御動作で現在未決のものがないことを示す信号によ
って、コマンド検出モードに置かれる。

【００２７】このモードにおいて、音声認識システム１
４が、ＨＭＭパラメータメモリ３６に格納された１個以
上の「隠されたマルコフモデル」（ＨＭＭ）パラメータ
セットに対応するコマンド句が存在するかどうかについ
て、Ａ／Ｄ変換器２８から入来する音声語を点検する。

【００２８】言い換えれば、コマンド検出モードにおい
て、音声認識システム１４が、例えば「メッセージ再
生」、「出メッセージを記録する」、「次のメッセー
ジ」、「巻き戻し」、等のコマンド句に対応するＨＭＭ
パラメータメモリ３６内のＨＭＭパラメータセットを用
いる。もちろん当業者には、ＨＭＭモデルが、用いられ
るモデルの単なる例示に過ぎないこと、又適したモデル
ならどれでも利用できることがすぐに理解されよう。

【００２９】もしこのようなコマンド句の存在が音声認
識システム１４によって確認された場合、ユーザからの
音声語がコマンドとして受け入れられる。そうでない場
合には、音声語は拒否される。もし仮説が受け入れられ
た場合、特定のコマンド句が検出されたことを示す信号
が音声認識システム１４からデバイス制御プロセッサ１
６へ送られる。

【００３０】それからデバイス制御プロセッサ１６が、
このコマンドに連関する動作を発動する。もし音声語が
拒否された場合、デバイス制御プロセッサ１６へはメッ
セージは何も送られない。受け入れられたコマンドに応
動して行われるデバイス制御プロセッサ１６の動作は、
従来の技術範囲内の動作である。

【００３１】次に図２に、音声認識システム１４のディ
ジタル信号処理装置３０によって行われる処理のブロッ
ク流れ図を示す。各ブロックは、ＲＯＭ３２に格納され
ているプログラムのサブルーチンとして一般に実現され
る個々の処理機能を表す。音声の認識に係わる４個の基
礎ステップとして、特徴抽出、時間測定、パターン類似
性測定、及び決断戦略のステップがある。現音声認識シ
ステムにおいては、種々の手法を用いてこれらの基礎ス
テップが実行される。各手法には、それぞれの性能とコ
ストとの組み合わせとしての特徴がある。

【００３２】一般的な音声認識戦略は、入来する音声デ
ータを連続的に「走査」し、動的プログラミングを行
い、話された音声語と格納されている参考パターンとの
間の類似性測定値、すなわち「距離」を計算し、音声語
が認識されたと宣言するに十分なほどに、類似性測定値
が予想値に最も近接した一致状態にあるかどうかを定め
ることである。

【００３３】更に図２を参照すると、Ａ／Ｄ変換器２８
によって供給される音声サンプルが従来の音声特徴抽出
器４０によって処理されて、一般に１００〜２００ベク
トル／秒のレートで音声特徴ベクトルのストリームが生
成されることが分かる。音声の認識に有用な時間変動パ
ラメータによって音声信号を表すために種々の信号処理
手法が存在する。

【００３４】適切な信号処理変形の例として、直接スペ
クトル測定（帯域フィルタ群又は分散フーリエ変形によ
って定まる）、ケプストラム、及び線形予測モデルの適
切なパラメータセットがある（文献（J.D.Markel and
A.H.Gray,Jr., "Linear Prediction of Speech",Spring
er-Verlag, New York,(1976)参照）。

【００３５】図２の実施例において、各ベクトルは、音
声エネルギー、データ音声エネルギー、ケプストラム係
数、及びデルタケプストラム係数に関する１０〜３０個
の音声特徴構成要素を含む。特徴ベクトルのストリーム
は、音声に内蔵されている音声語の始点及び終点を定め
る従来の終点検出器４２によって処理される。終点検出
器４２の出力は、音声ベクトルの有限シーケンスからな
り、ベクトルの各シーケンスは単一の音声語に対応す
る。

【００３６】特徴抽出／終点検出の後、次の基本認識ス
テップは、格納されている参考値と、音声語から抽出さ
れた時間正規化されたパラメータとの間の類似性測定値
の計算である。この目的のため、仮説設定器４３が終点
検出器４２によって出力された音声ベクトルのシーケン
スを受信して、これらシーケンスの言語的内容に関して
仮説を生成する。

【００３７】この仮説生成の際、仮説設定器４３は句に
対して、ＨＭＭモデルとＨＭＭ背景モデルとを用いる。
これらＨＭＭモデルのパラメータは句モデルパラメータ
ブロック４４に示すように格納され、ＨＭＭ背景モデル
のパラメータは背景モデルパラメータブロック４５に示
すように格納されている。用語「背景」は、無音、騒
音、又はその他コマンド句の１つではない音声を意味す
る。物理的には、これらのモデルは全て図１のＨＭＭパ
ラメータメモリに位置する。

【００３８】仮説設定器４３は２種類の仮説を生成す
る。第１の種類の仮説（背景仮説と称する）は、「音声
特徴ベクトルシーケンスが背景だけからなる」という仮
説である。第２の種類の仮説（句仮説と称する）は、
「音声特徴ベクトルシーケンスがコマンド語からなり、
おそらくその後又は前に背景が付く」という仮説であ
る。

【００３９】これら２種類の仮説の各々について仮説設
定器４３が、ビタビ復号化又は採点手順のような従来
の、動的プログラミング最適化手順を適用する。この手
順によって、その種類についての最も可能性のある仮説
と、対応するその仮説の推定された可能性（ゆう度）の
数値（又は得点値）とが定められる。

【００４０】加えて、上記の動的プログラミング最適化
手順は、句仮説についていくつかの追加パラメータ（一
致パラメータと称する）を生成する。第１の一致パラメ
ータは、最も可能性のある句仮説についての予期される
「句の長さ」（句長）と、最も可能性のある句仮説に対
応する音声語について仮説設定器によって定められる句
長との間の差を形成することによって生成される。

【００４１】第２の一致パラメータは、最も可能性のあ
る仮説の予期される「ＨＭＭ状態の長さ」（ＨＭＭ状態
長）と、仮説設定器４３によって定められるＨＭＭ状態
長との間の差の絶対値の平均を形成することによって生
成される。第３の一致パラメータは、最良の句仮説と２
番目に最良の句仮説との、最も可能性のある仮説につい
ての可能性（ゆう度）得点値の差を形成することによっ
て生成される。

【００４２】当業者にすぐに分かるように、一致パラメ
ータの生成に用いられるデータは、例えばＨＭＭ及びビ
タビ採点法を用いる従来の音声認識プロセスの一部とし
て入手可能である。

【００４３】仮説設定器４３の出力は、最も可能性のあ
る句仮説と、これに対応する得点、すなわち句仮説ゆう
度推定値の対数と背景仮説ゆう度推定値の対数との差
と、一致パラメータとからなる。検証器４６が仮説設定
器４３の出力を受信して、一致パラメータの各々が、対
応する予め定められた範囲内にあるかどうかを点検す
る。

【００４４】検証器４６は、第１の一致パラメータが例
えば−１／２〜１の範囲内にあるかどうかを点検し、第
２の一致パラメータが例えば１００ｍｓの範囲内にある
かどうかを点検し、又第３の一致パラメータが最良の仮
説得点の１０％以内にあるかどうかを点検する（これら
の範囲は特定の動作環境に合わせて変えられる）。

【００４５】もし一致パラメータが予め定められた範囲
内にある場合、検証器４６はその仮説とその仮説の得点
とを決定器４７に送る。もし一致パラメータが予め定め
られた範囲内にない場合には、その仮説は拒否される。

【００４６】決定器４７が、最も可能性のある句仮説を
受け入れるか又は拒否するかを定める。もしその句仮説
が決定器４７によって受け入れられた場合、その仮説は
図１のデバイス制御プロセッサ１６に報告される。決定
器４７が決定を行う方法を図３のブロック流れ図によっ
て説明する。

【００４７】図３の流れ図は、仮説を設けられたコマン
ド句と、対応するその得点とが受信されたブロック５０
から始まる。本発明の簡単化した一実施例によれば、プ
ロセスはブロック５２に進み、ここでしきい値Ｔがメモ
リ（ＲＡＭ３４又はＲＯＭ３２）に格納されている複数
の固定値Ｔ１、Ｔ２、Ｔ３、Ｔ４、及びＴ５のうちの１
つに設定される。

【００４８】Ｔ３は、通常状態において平均的ユーザに
ついてよく機能するように従来の仕方で選択されたデフ
ォルト値である。Ｔ２及びＴ１の値は、正しくないポジ
ティブ警告の数が増加するという潜在的な不利益を代償
として、ポジティブ認識の「ゆう度」を増加させる（デ
フォルト設定に比べてそれぞれ例えば確率を２０％及び
４０％高くする）ように選択される。

【００４９】一方、Ｔ４及びＴ５の値は、検出できない
コマンドの数が増加するという潜在的な不利益を代償と
して、ポジティブ認識の「ゆう度」を減少させる（デフ
ォルト設定に比べてそれぞれ例えば確率を−１５％及び
−３０％低くする）ように選択される。

【００５０】選択された認識基準に対応する値が、Ｔｓ
に設定され、得られた仮説得点と比較される（ブロック
５４）。もし得点がＴｓを超える場合、仮説は受け入れ
られる（ブロック５６）。もし得点がＴｓよりも低い場
合には、仮説は拒否される（ブロック５８）。それか
ら、ブロック６０に示すように、受け入れ／拒否の決定
が出力され、デバイス制御プロセッサによって従来の仕
方で用いられる。

【００５１】本発明の更に高度な内容の実施例において
は、ブロック５２で示す動作中に、複数の認識基準セッ
トのうちからしきい値のセット又は認識基準のセットが
選択される。このような基準セットを用いることによっ
て、（実際に選択される基準セットによって左右される
が）コマンドが認識される度合いが、デフォルトの基準
セットに比べて多少増加する。

【００５２】この点に関して、ＨＭＭ語認識が、格納さ
れている語モデルの各々について未知の入力語パターン
を生成する可能性（ゆう度）を計算することによって達
成されることを注記したい。この場合、この入力語は、
ゆう度が最大であるモデルとして認識される。

【００５３】モデルの精度は、音声語の終点の位置、音
声語の長さ及び各状態におけるフレームの数のような基
準値に影響される。これらの基準は各々、ユーザによる
選択の入力に基づいて個別に調整される。

【００５４】この調整は、平均的ユーザにとってはより
頻繁に正しくない認識結果がでるという不利益点を代償
にして、認識確率（ゆう度）が増加するように、又より
少数の一部のユーザにとってはより高い精度で、認識確
率が減少するように、行われる。各基準についてのデフ
ォルト値は、通常の環境条件において平均的ユーザに最
良の結果をもたらすように従来の仕方で最適化されて、
ユーザによる選択の入力がない場合に用いられる。

【００５５】追加例として、電気通信装置がコードレス
電話機として構成される場合には、音声認識システム１
４が、ユーザがダイヤル操作手順を発動したことを示す
デバイス制御プロセッサ１６からの信号によって、コマ
ンド検索モードからダイヤル操作モードに切り換えられ
る。このダイヤル操作手順は、キーパッドボタンを押す
か又はコマンド語（例えば「ダイヤル」）を発語するこ
とによって発動され、これによってダイヤル動作が呼び
出される。

【００５６】このモードにおいては、音声認識システム
１４が、上記のコマンド検出モードにおけるコマンド句
の代わりに、名前からなる句（名前句）のＨＭＭモデル
を用いる。この場合、各名前句は対応する電話番号に連
関する。このような名前句ＨＭＭとそれに連関する電話
番号とがメモリ（ＲＡＭ）３４に格納される。

【００５７】もし名前句の音声語が音声認識システム１
４によって受け入れられた場合、名前句の認識が受け入
れられたことを示すメッセージがデバイス制御プロセッ
サ１６に送られる。するとデバイス制御プロセッサ１６
が、認識された名前句に連関する電話番号をダイヤルし
て名前が正しく認識されたことをユーザに通知する。

【００５８】しかしもし音声認識システム１４が音声語
を拒否した場合には、音声語が拒否されたことを示すメ
ッセージが音声認識システム１４からデバイス制御プロ
セッサ１６に送られる。するとデバイス制御プロセッサ
１６が、音声語の繰り返しを促すプロンプトをユーザに
流す。これらの通知とプロンプトとは一般に、それぞれ
に特徴的なトーンとそれに続く適切な音声メッセージの
可聴再生との組み合わせによって行われる。

【００５９】以上の説明は、本発明の一実施例に関する
もので、この技術分野の当業者であれば、本発明の種々
の変形例を考え得るが、それらはいずれも本発明の技術
的範囲に包含される。尚、特許請求の範囲に記載した参
照番号は発明の容易な理解のためで、その技術的範囲を
制限するよう解釈されるべきではない。

【００６０】

【発明の効果】以上述べたごとく本発明によれば、音声
認識のための本発明の方法及び装置において、複数の認
識基準部類から１個の認識基準又は１個の認識基準のセ
ットがユーザによって手動で選択されるように構成した
ので、ユーザは、より高い音声認識精度を有する、ユー
ザにとって最良の結果が得られる認識基準部類を選択す
ることができ、電気通信システムにおける音声認識装置
の能力が改善される。

【図面の簡単な説明】

【図１】本発明に基づく、ユーザによる選択が可能な多
基準の音声認識を利用するために構成された例示デバイ
スのブロック図である。

【図２】図１の例示デバイスについて制御インタフェー
ス処理を行わせるための音声認識の実行状態を示すブロ
ック流れ図である。

【図３】本発明の一実施例に基づき認識基準のセットが
ユーザによって手動で選択されるプロセスを示すブロッ
ク流れ図である。

【符号の説明】

１０電気通信装置としてのデバイス（留守番電話応答
装置）１２マイクロホン１４音声認識システム１６デバイス制御プロセッサ１８オーディオプロセッサ２０スピーカ２２メッセージ記憶装置２４回線インタフェース２６認識基準選択スイッチ２８アナログ／ディジタル変換器（Ａ／Ｄ変換器）３０ディジタル信号処理装置３２ＲＯＭ３４ＲＡＭ３６「隠されたマルコフモデル」（ＨＭＭ）パラメー
タメモリ４０音声特徴抽出器４２終点検出器４３仮説設定器４４句モデルパラメータブロック４５背景モデルパラメータブロック４６検証器４７決定器

───────────────────────────────────────────────────── フロントページの続き (72)発明者ミトラピー．デルダーアメリカ合衆国，46256 インディアナ, ハミルトン，インディアナポリス，リッジサイドロード 12324 (72)発明者ドナルドマリオンキーンアメリカ合衆国，46240 インディアナ, マリオン，インディアナポリス，シークォイアコート 8012 (72)発明者エレンアンキーンアメリカ合衆国，46240 インディアナ, マリオン，インディアナポリス，シークォイアコート 8012

Claims

【特許請求の範囲】

【請求項１】音声語に基づいて、少なくとも１個の語
を含む句を認識するための音声認識装置１４であって、該音声認識装置が、格納された複数の認識基準部類のうちの１個の認識基準
部類から少なくとも１個の認識基準を選択するための選
択モジュール２６と、ここで前記格納された認識基準部
類の各々は、与えられた音声語を認識する対応確率に連
関し、前記選択モジュールに応動して、最も近接した一致状態
にある音声モデルに対応する類似性測定基準が前記選択
された認識基準を満足するかどうかを定めるための比較
モジュール４３と、前記選択された認識基準が満足される場合に、前記音声
語を、前記最も近接した一致状態にある音声モデルに対
応する句として認識するための認識モジュール４７と、
からなることを特徴とする、音声認識装置。
【請求項２】音声モデルが１個以上の予め定められた
語を表すことを特徴とする請求項１の装置。
【請求項３】予め定められた語が利用デバイスに対す
るコマンド語からなることを特徴とする請求項２の装
置。
【請求項４】前記装置が更に、利用デバイスからなる
ことを特徴とする請求項２の装置。
【請求項５】前記利用デバイスが電話機であることを
特徴とする請求項４の装置。
【請求項６】前記利用デバイスが留守番電話応答機で
あることを特徴とする請求項４の装置。
【請求項７】前記認識基準の各々がしきい値からな
り、前記比較モジュールが、前記最も近接した一致状態にあ
る音声モデルに対応する類似性測定基準を、選択された
認識基準のセットと比較するように作動することを特徴
とする請求項２の装置。
【請求項８】前記格納された複数の認識基準部類が、
通常状態において平均的ユーザについて最適化されたデ
フォルト部類からなり、少なくとも１個の認識基準部類
が前記デフォルト部類よりも大きい認識確率を有し、少
なくとも１個の認識基準部類が前記デフォルト部類より
も小さい認識確率を有し、前記選択モジュールをユーザが操作することによって前
記認識基準部類のうちの１個の選択が行われることを特
徴とする請求項７の装置。
【請求項９】マイクロホン１２を有する電気通信装置
１０であって、該電気通信装置が、音声語に基づいて、少なくとも１個の語を含む句を認識
するための音声認識装置１４からなり、該音声認識装置が、格納された複数の認識基準部類のうちの１個の認識基準
部類から少なくとも１個の認識基準を選択するための選
択モジュール２６と、ここで前記格納された認識基準部
類の各々は、与えられた音声語を認識する対応確率に連
関し、前記選択モジュールに応動して、最も近接した一致状態
にある音声モデルに対応する類似性測定基準が前記選択
された認識基準を満足するかどうかを定めるための比較
モジュール４３と、前記音声認識装置による音声語の認識に応動するデバイ
ス制御回路１６と、からなることを特徴とする電気通信
装置。
【請求項１０】前記デバイス制御回路１６が、音声語
の認識に対応して電話機を作動させる電話回路であるこ
とを特徴とする請求項９の装置。
【請求項１１】前記装置が更に、ラジオトランシーバと、前記電話回路によって供給される制御信号に応動してマ
イクロホンと電話回路とを前記ラジオトランシーバにイ
ンタフェースするためのオーディオプロセッサと、から
なることを特徴とする請求項１０の装置。
【請求項１２】前記デバイス制御回路が、音声語の認
識に応動して、格納されたメッセージを可聴状態で再生
するための留守番電話応答装置であることを特徴とする
請求項９の装置。
【請求項１３】音声語に基づいて、少なくとも１個の
語を含む句を認識する音声認識方法であって、前記音声語と１個以上の音声モデルとの比較の各々に対
する類似性測定基準を定めるために、前記音声語を１個
以上の音声モデルと比較するステップと、第１の決定ステップとして、前記比較ステップにおいて
得られた前記１個以上の類似性測定基準に基づいて、ど
の音声モデルが前記音声語に最も近接した一致状態にあ
るかを決定するステップと、格納された複数の認識基準部類のうちの１個の認識基準
部類から少なくとも１個の認識基準を選択するステップ
と、ここで前記格納された認識基準部類の各々は、与え
られた音声語を認識する対応確率に連関し、第２の決定ステップとして、前記音声語に最も近接した
一致状態にある音声に対応する類似性測定基準が前記選
択された認識基準を満足するかどうかを定めるステップ
と、前記選択された認識基準が満足される場合に、前記音声
語を、前記最も近接した一致状態にある音声モデルに対
応する句として認識するステップと、からなることを特
徴とする音声認識方法。