JPH08508108A - 休止検出を行う音声認識 - Google Patents

休止検出を行う音声認識

Info

Publication number
JPH08508108A
JPH08508108A JP6520841A JP52084194A JPH08508108A JP H08508108 A JPH08508108 A JP H08508108A JP 6520841 A JP6520841 A JP 6520841A JP 52084194 A JP52084194 A JP 52084194A JP H08508108 A JPH08508108 A JP H08508108A
Authority
JP
Japan
Prior art keywords
recognition
signal
noise
pattern
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6520841A
Other languages
English (en)
Other versions
JP3691511B2 (ja
Inventor
パワー、ケビン・ジョゼフ
ジョンソン、スチーブン・ハワード
スカヒル、フランシス・ジェイムズ
リングランド、サイモン・パトリック・アレキサンダー
タリンタイヤー、ジョン・エドワード
Original Assignee
ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー filed Critical ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー
Publication of JPH08508108A publication Critical patent/JPH08508108A/ja
Application granted granted Critical
Publication of JP3691511B2 publication Critical patent/JP3691511B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Indicating And Signalling Devices For Elevators (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 音声信号を受信するための入力手段と、所定のパターンに対する類似性を示すために音声信号を処理するための認識処理手段と、この認識処理手段は繰り返して音声信号をパターンを含む部分、及び上述のパターンを含む部分に先行及び続くノイズ、あるいは、無音信号に分割し、上述のパターンを含む部分に対応するパターンを識別するために規定される、上述のパターンの一つの認識を示す認識信号を供給するための出力手段とで構成される認識システムにおいて、パターンを含む部分に続くノイズ、あるいは、無音部分を検出するための休止検出手段、その検出に応答して、パターン部分に現在対応するパターンを識別する信号を出力手段に供給するために規定された手段を特徴とするシステム。また、同様に動作する除去手段が設けられている。

Description

【発明の詳細な説明】 休止検出を行う音声認識 本発明は、音声認識のための方法及び機器に関するものである。機械を制御す るための入力手段として音声認識を使用する。現在のところ、音声認識機器は、 一般的に分離された単一の単語を認識している。また、文、あるいは、語句で連 続的に話された複数の単語を認識することを目的とした音声認識機器が開発中で ある;これは、連結音声認識と呼ばれている。 音声認識では、マイクロフォンが、話者からの音声信号を採取して、次に、音 声信号がディジタル化され、認識のために処理される。しかしながら、マイクロ フォンは、一般的にバックグラウンドノイズ、あるいは、周囲ノイズも採取して 、マイクロフォンと音声認識機器との間の電気システムも同様にノイズ(例えば 、熱ノイズ、量子化ノイズ、及び−ここで、音声は、電気通信チャネルを通して 伝送される−回線ノイズ)を追加する。ノイズは、例えば、無声音の歯擦音とい った音声の部分に似ていることがある。従って、単語の正しい認識は、ノイズ、 あるいは、無音の初めと終わりに対応する単語の初めと終わりを区別する能力に 大きく依存している。音声認識の信頼性が、著しく、音声の正しい初めと終わり を識別することに依存することが示されている。 分離した単語の認識技術を用いて、単語のシーケーンスを認 識できるようにすることを目的とした一つの音声認識法が、”分離のための連結 ”(CFI)技術であり、それは、EP特許93302538.9に説明してあ り、また、参考文献に含めてある。この技術は、マイクロフォンからの信号には 、単語とノイズの交代期間が含まれ、交互に音声とノイズを認識しようとする、 ということを仮定している。 音声認識の一般的な取り組み方は、統計的処理を使用して、そもそも音声が生 じる機構に関する仮定は行わない。例えば、(英国電気通信ジャーナル、198 8年4月、第6巻、第2号、105ページ、コックスに記述されているように) かくれ(hidden)マルコフモデリング(HMM)を使用する。HMM認識では、 各々の到来する音声フレームを幾つかの状態と比較し、そうした状態の各々に対 応する音声フレームの可能性を決定し、生成された状態可能性を認識しようとす る異なる単語に対応する状態シーケンスで構成される幾つかの予め決定されたモ デルと比較する。単語が認識される間、幾つかの異なる状態シーケンス、すなわ ち、幾つかの異なる単語が同時に可能であり;すべての単語を受け取った時に最 も可能性がある状態シーケンスを選択することによって、いずれの状態シーケン スが観察されたかという最終的な決定が行われる。 幾つかのタイプのHMM音声認識は、認識中に、認識されている単語を決定す るための現在最も可能性があるシーケンスを含む幾つかの可能な状態シーケンス を維持する。 そうしたシーケンス認識装置では、選択された単語を識別 する決定が、生成された状態シーケンスに基づいているので、シーケンスが完了 するまで決定を行うことができない。受け取った各々のフレームについて、最も 可能性がある状態シーケンスを再計算することができるので、単語の終わりが明 確に識別されると直ちに、現在最も可能性がある状態シーケンスに対応する認識 信号を出力するだけで、認識を行うことができる。認プロセスそれ自身によって 開始点及び終了点が生成されるが、これは、認識された単語の選択と共に行われ 、別個の予備的な終了点ステップとして行われる訳ではない。 従って、CFI認識装置は、ノイズに対応する状態シーケンスを維持して、音 声信号中のノイズ−単語−ノイズのシーケンスを認識することによって、自動的 に単語の開始と終了を突き止めることができる。しかしながら、多くの単語には 、単語の部分の間のギャップ、あるいは、休止部が含まれることがあり、これは 、単語の終わりとして誤って認識されることがある。従って、話者が確実に発生 を終了するまで、単語の最終的識別を行うべきではない、ということが重要であ る。 これを行う一つの方法は、明瞭にノイズとして識別できる予め決定された期間 の後に”タイムアウト”を設けることである。しかしながら、当該の期間を成功 を保証するに充分長くすれば、ユーザにとっていらだたしく長い遅延が生じるこ とが判明している。 従って、本発明の一つの観点は、最も有望な状態シーケンスを選択するタイプ の認識装置のために音声の終わりを検出 する手段を提供することである。 一つの観点では、本発明により、入力発声を音声部分とそれに続く、ノイズ部 分に区分することに基づいて連続的に認識出力を生成するための手段で構成され る音声認識システムが得られ、入力音声信号に由来するパラメータを用いて区分 を試験することによって、続くノイズ部分の存在を検出するための手段が特徴で ある。、そのパラメータが、あるいは、それぞれのパラメータが入力音声信号の エネルギーに基づくことが望ましい。パラメータが、上述の区分によって示され る音声部分とノイズ部分の相対的な大きさを示すパラメータで構成されることが 望ましい。付加的に、あるいは、代替的に、パラメータによって、区分に従って ノイズ部分のエネルギーの変動の測度が得られる。いずれの事例においても、幾 つかの連続した期間に渡って、エネルギーを平滑化、あるいは、平均化すること が望ましく、また、連続する平均から外れるエネルギーの短時間のスパイクの影 響を限定するために平均が非線形であることが望ましい。 音声認識装置が、最も有望な単語を選択することによって、ある単語を認識し た場合、類似の単語を(例えば、認識装置の語彙にない単語)、あるいは、ノイ ズのいずれかに基づいて、認識を誤ったという可能性がある。 一定の誤って認識した単語の認識を排除するための手段は、”HMMの多段階 認知とトレースを用いた無関係の入力の排除”、Mathan及びMiclet 、1991年、IEEE ICASSP 91第1巻ページ93〜96、及び” か くれマルコフモデルを用いた連続音声認識における排除技術”、Moreno及 びその他、信号処理V:理論及び応用、1990年、EUSIPCOの手順−9 0第2巻、ページ1383〜1386(Elsevier)に記述されている。 それに応じて、本発明の別の観点の目的は、音声認識装置によって識別された 後で一定の単語を排除するための改善された手段を提供することである。 従って、本発明の一つの観点によって、音声信号を受け取るための手段;認識 しようとする予め決定されたパターンに対する類似性を示すために音声信号を処 理するための認識処理手段;上述のパターンのひとつの認識を示す認識信号を供 給するための手段手段;及び、予め決定された状態の認識信号を排除するための 排除手段で構成される認識システムが得られ、上述の認識手段の出力に依存しな い少なくとも一つの信号を受け取るためのパラメータ排除手段が配置されている 、ということを特徴とする。 音声信号は、スペクトルについてどちらかといえばゆっくり変動するので、音 声認識の際に音声信号を、複数の音声サンプルで構成される、一般的に10〜1 00ミリ秒の持続時間のフレームの時間連鎖に区分することが知られている。音 声信号が著しく以前のフレームから変化した場合に新しいフレームのみを生成す ることによって、そのようにして生成された幾つかのフレームを制限するために 、(”音声認識における可変フレーム率分析の使用”、Ponting及びPe eling、コンピュータ音声及び言語(19991年)5、 169〜179)が提案されている。 従って本発明の別の観点によって、可変フレーム率を使用する認識装置に使用 するための休止検出手段、及び/あるいは、排除手段が得られる。 本発明の別の観点と実施例は、ここで記述/あるいは、特許請求したとおりで あり、下記の記述と図面によって。その利点は明白である。 これから、添付の図面を参照しながら、実例を挙げて本発明を説明する。図面 は、次のようなものである: 図1は、本発明に従った認識システムの応用を概略的に示す; 図2は、本発明の実施例に従った図1の認識プロセッサを形成する部分のエレ メントを概略的に示すブロック図を示す; 図3は、図2の実施例の分類器を形成する部分のコンポーネントを概略的に示 すブロック図を示す; 図4は、図3の分類器の動作を概略的に示すフロー図を示す; 図5は、図2の実施例のシーケンス・パーサを形成する部分の構造を概略的に 示すブロック図を示す; 図6は、図5の記憶部を形成する部分内のフィールドの内容を概略的に示す; 図7は、図5のバッファを形成する部分の内容を概略的に示す; 図8は、図5のシーケンス・パーサの動作を概略的に示す; 図9は、図2の実施例の休止検出器を形成する部分の構造を示すブロック図を 示す; 図10は、図9の構造の一部を概略的に示すブロック図を更に詳細に示す; 図11は、図10の平均処理部形成部の動作を説明するフロー図である; 図12は、図10の装置によって信号からノイズ率を得るプロセスを説明する フロー図である; 図13は、図10の装置による信号の差異の測度を形成するプロセスを説明す るフロー図である; 図14は、図10の構造の部分を更に詳細に示すブロック図である; 図15は、図10の組み合わせロジック形成部を更に詳細に示すブロック図で ある; 図16は、時間に関する音声信号のエネルギーとエネルギー平均を示し、信号 フレームとの一致を示すダイヤグラムである; 図17は、図2のリジェクタを形成する部分の動作を説明するフロー図である ; 図18は、本発明の第2の実施例の平均に由来するプロセスを説明する図11 に対応するフロー図である; 図19は、図18の実施例における時間に対するエネルギーとエネルギー平均 のダイヤグラムであり、図16に対応している。第1の実施例 図1を参照すると、音声認識を行う電気通信システムは、一般的に、電話の受 話器の一般的構成部分であるマイクロフォン1、電気通信ネットワーク(一般的 に公共交換回線ネットワーク(PSTN))2、ネットワーク2から音声信号を 受信するために接続された認識プロセッサ3、及び、認識プロセッサ3の接続さ れ、そこから認識、あるいは、そうでなければ特定の単語、あるいは、語句を示 す音声認識信号を受信し、それに応じて動作を行うために規定された利用装置4 で構成される。例えば、利用装置4は、銀行取引を行うための遠隔操作銀行端末 であっても良い。 いずれにせよ、利用装置4は、ネットワーク2を介して、一般的に加入者の受 話器の一部を形成するスピーカー5に伝送される、話者に対する音響応答を生成 する。 動作においては、話者は、マイクロフォン1に向かって話し、アナログ音声信 号がマイクロフォン1からネットワーク2を介して認識プロセッサ3に伝達され 、そこで、音声信号が分析され、識別、あるいは、特定の単語、あるいは、語句 を示す信号が生成され、利用装置4に伝達され、次に、期待する単語、あるいは 、語句が認識されると、適切な動作が行われる。 例えば、数字0〜9、”はい”及び”いいえ”を認識して、個人識別番号及び (例えば、明細書、あるいは、特定のサービスを要求する)特定の動作を行うた めのコマンド語の範囲を認識できるように、認識プロセッサ3を規定することが で きる。 図2を参照すると、認識プロセッサ3は、(ディジタル・ネットワークから、 あるいは、アナログ−ディジタル・コンバータから)ディジタル形式で音声を受 信するための入力31、連続ディジタルサンプルを連続サンプルのフレームに区 分するためのフレーム・プロセッサ32;サンプルのフレームから対応する特徴 ベクトルを生成するための特徴抽出器33;連続した特徴ベクトルを受信し、異 なる単語、音素、あるいは、語句に対応する複数のモデルを用いて各々に対して 動作し、認識結果を生成する分類器34;及び、分類器34から分類結果を受信 して、分類器の出力のシーケンスが最大の類似性を示す単語を決定するために規 定されたパーサ35で構成される。 また、認識が信頼できない場合にパーサ35によって認識された単語の認識を 排除するために規定された認識リジェクタ36、及びパーサ35が単語認識信号 を出力できるように単語の終わりに続く休止を検出するために規定された休止検 出器37も設けられている。パーサ35からの単語認識信号、あるいは、リジェ クタ36からの排除信号が、利用装置4の制御に使用するために、制御信号出力 38に出力される。フレーム発生器32 例えば、8,000サンプル/秒の率で音声サンプルを受信して、1フレーム /26msのフレーム率で256の連続サンプルで構成されるフレームを形成す るために、フレーム発生器32が配置されている。望ましくは、各々のフレーム にウインドウを開け(すなわち、フレームのエッジに向かうサンプルに予め決定 された重み付き定数を掛ける)、例えば、ハミング・ウインドウを使用して、フ レーム・エッジによって生成された疑似生成物を削減する。好ましい実施例では 、ウインドウを作成した影響を改善するために、(例えば、50%だけ)フレー ムを重ねる。特徴抽出器33 特徴抽出器33は、フレーム発生器32からフレームを受信して、各々の事例 で特徴のセット、あるいは、ベクトルを生成する。特徴は、例えば、cepstral係 数(例えば、”基準システムを用いた音声認識装置及びデータベースの評価につ いて”、Chollet&Gagnoulet、1982年の手順、IEEEp 2026に記述されているようなLPC cepstral係数、あるいは、mel周波数c epstral係数)、あるいは、”話者認識における瞬間及び遷移スペクトル情報の 利用について”、Soong&Rosenberg、1988年、IEEE翻訳 、音響、音声、及び信号処理について、第16巻、No.6、p871に記述さ れているような各々の係数について係数と先行するフレームの対応する係数値と の間の差で構成されるそうした係数の微分値で構成されている。同様に、幾つか のタイプの特徴係数の混合を使用することができる。 下記に論じるので、この実施例では、特徴抽出器33は、各々のフレームのエ ネルギーに関する値も抽出する(エネルギー値は、認識で使用される特徴係数の 一つであっても良い が、そうである必要はない)。エネルギー値は、フレームのサンプルの平方の和 として生成することができる。 最後に、特徴抽出器33は、各々の連続するフレームについて増大させたフレ ーム数を出力する。 フレーム発生器32及び特徴抽出器33は、この実施例では(モトローラDS P56000、テキアスインスツルメンツTNS C 320、あるいは、類似 のデバイスといった)適切にプログラムされた単一のディジタル信号プロセッサ (DSP)デバイスで構成される。分類器34 図3を参照すると、この実施例では、分類器34は、分類プロセッサ341及 び状態メモリ342で構成される。 状態メモリ342は、複数の音声状態の各々について状態フィールド3421 、3422、.....で構成される。例えば、認識プロセッサによって認識し ようとする各々の単語は、6、あるいは、8つの状態で構成され、それに応じて 、6、あるいは、8つの状態フィールドが、認識しようとする各々の単語につい て状態メモリ342に設けられる。また、(実際上、単一のノイズ状態だけを設 けることができるが)単語の初めのノイズ/無音のための状態フィールド、及び 単語の終わりのノイズ/無音状態のための状態フィールドが設けられる。 状態メモリ342の各々の状態フィールドは、問題の状態を特徴付ける特徴係 数値の多次元ガウス分布を規定するデータで構成される。 例えば、異なる特徴係数がある場合、状態を特徴付けるデータは、定数C、特 徴平均値のセットul、及びd特徴偏差のセット、σiである;換言すれば、総 計で2d+1数である。 メモリ342内の各々の状態フィールドを代わる代わる読み取るために、分類 プロセッサ34が配置されており、現在の入力特徴係数セットを用いて、各々に ついて、入力特徴セット、あるいは、ベクトルが相応する状態に対応するという 確率を計算する。それを行うには、図4に示したように、プロセッサ341を配 置して、次のような方程式を計算する: 幾つかの異なるモード、あるいは、分布によって単一の状態を表現することが できる;それに応じて、各々の状態について、状態メモリ342を上記の状態フ ィールドに対応する幾つかのモード・フィールドで構成することができる。この 場合、各々のモードについて入力ベクトルがそのモードに対応する確率を計算し 、次に、(適切に重み付けされた)モードの確率を合計するために、分類プロセ ッサ341が配置されている。 それに応じて、分類プロセッサ341の出力は、状態メモ リ342の各々について一つずつの複数の状態確率であり、入力特徴ベクトルが 各々の状態に対応する可能性を示している。 分類プロセッサ341は、適切にプログラムしたディジタル信号処理デバイス (DSP)とすることができ、特に、特徴抽出器33と同じディジタル信号処理 デバイスとすることができる。 パーサ35 図5を参照すると、この実施例のパーサ35は、状態シーケンス・メモリ35 2、文法解析プロセッサ351、及びパーサ出力バッファ354で構成される。 また、処理された各々のフレームについて、確率プロセッサ341によって出 力された状態確率を記憶する状態確率メモリ353が設けられている。状態シー ケンス・メモリ352は、各々、認識しようとするノイズ−単語−ノイズ・シー ケンスに対応する複数の状態シーケンス・フィールド(及び、ノイズのみのシー ケンスに対応する一つのフィールド)で構成される。 状態シーケンス・メモリ352の中の各々の状態シーケンスは、図6に示すよ うに、幾つかの状態P1、P2、PN(ここで、Nは、6、あるいは、8である) 、各々のシーケンスについて、2つの確率;繰り返し確率(P11)及び次に続く 遷移確率(P12)で構成される。CFI認識装置の場合、最初と最後の状態は、 ノイズ状態である。従って、一連のフレームと関連した状態の観察したシーケン スは、各々の状態 シーケンス・モデル3521、等の各々の状態P1の幾つかの状態の繰り返しで 構成される;例えば: 従って、あるフレーム番号では(ここでは、フレーム番号3)、観察したシー ケンスは、初期ノイズ状態から、次の音声状態に移動する;この遷移は、認識し ようとする単語の始まりを示す。同様に、あるフレームでは(ここでは、フレー ムZ)、シーケンスは、認識しようとする単語の終わりに続くノイズ、あるいは 、無音に対応する最後の状態Pnに到達する。従って、フレームZは、認識しよ うとする単語の終わりに対応する。 図8に示したように、各々のフレームで、確率プロセッサ341による状態確 率出力及び状態確率メモリ353の中の以前に記憶された状態確率を読み取り、 最も有望な期間全体に渡って日付に対する状態の推移を計算して、それを、状態 シーケンス・メモリ352に記憶された各々の状態シーケンスと比較するために 、文法解析プロセッサ351が配置されている。 計算には、上記の参考として挙げたCoxの論文に記述されたよく知られた陰 マルコフモデル法を用いる。都合の良いことに、文法解析プロセッサ351によ って実行されたHM M処理では、良く知られたヴィテルビ・アルゴリズムが使用される。文法解析プ ロセッサ351は、例えば、インテル(TM)i−486(TM)マイクロプロセッ サ、あるいは、モトローラ(TM)68000マイクロプロセッサとすることがで き、あるいは、その代わりに、(例えば、先行するプロセッサのいずれかに使用 されたものと同じDSPデバイス)DSPデバイスとすることができる。 それに相応して、(単語に対応する)各々の状態シーケンスについて、入力音 声の各々のフレームで、パーサ・プロセッサ351によって確率スコアが出力さ れる。最も有望な状態シーケンスの一致、すなわち、認識された単語は、話者に よる発声の持続期間中にかなり変化することがある。 パーサ出力バッファ354は、各々、認識しようとする単語に対応する複数の フィールド3541、3542、...(及び、ノイズのみのシーケンスに対応 するフィールド)で構成される。図7に実例として示したように、各々のフィー ルドは、現在のフレームについて、存在する対応する単語の可能性、及び2つの フレーム番号を示す確率スコアS;ノイズ−単語−ノイズが観察されたフレーム のシーケンスの単語の最初のフレーム(発生開始);及び単語の最初のフレーム を示す第2の(発生終了)で構成される。発生開始の前に、観察されたシーケン スの状態は、初期ノイズで構成され、発生終了の後で、観察されたシーケンスの 状態は、最後のノイズに対応する。もちろん、各々のフィールド3541、35 42、・・・のフレーム番号は、互いに異なる。休止検出器37 図3を参照すると、休止検出器37は、信号ベース検出器370、及びモデル ・ベース検出器3705で構成されている。信号ベース検出器370は、音声信 号から抽出されたパラメータを受信するために、特徴抽出器33に接続されてい る。本実施例では、パラメータは、フレーム・エネルギー、あるいは、フレーム ・エネルギーに基づいた何らかのパラメータである。 モデル・ベース検出器375は、現在の最良状態シーケンスの表示を受信する ために、パーサ35に接続されている。特に、モデル・ベース検出器375が配 置されており、パーサ出力バッファ354から、もしあるとすれば、現在の最も 有望な状態シーケンスの最終ノイズ状態の始まりのフレーム番号を読み取り、現 在のフレーム番号からそれを減算して、現在、認識されたと想定される単語の終 わりに続く期間の長さを見付け出す。 信号ベース休止検出器370とモデル・ベース休止検出器375の出力は、ロ ジック378によって組み合わされて、出力379の休止検出信号を生成する。 図10を参照すると、信号ベース休止検出器370は、幾つかの先行するエネ ルギー値に関する移動平均エネルギー・レベルを保持する移動平均処理部371 、SN比(SNR)検出器372、及びノイズ差異(NVR)検出器373で構 成され、ロジック378によって組み合わされるために、その出力が供給される 。 また、連続フレームに対応する移動平均エネルギー値を保存するために、平均 処理部371の出力に接続された平均エネルギー・レベル・バッファ376が設 けられている。移動平均処理部371 図11に示したプロセスを実行するために、移動平均処理部371が組織的に 配置されている。この実施例のプロセスでは、各々のフレームについて、フレー ムのエネルギーが特徴抽出器33から読み取られ、記憶された移動平均値から減 算されて、差分値が得られる。差分値が閾値、あるいは、予め決定された絶対値 のステップと比較される。差が+/−ステップ値の範囲内であれば、移動平均は 影響を受けないが、定係数、あるいは、図11に示したように、移動平均からの プラスの差については最初の定係数(上方係数)及び移動平均からのマイナスの 差については第2の定係数(下方係数)で割られた差に等しく設定することによ って、ステップの値が削減される。 他方、現在のフレーム入力値と記憶された移動平均との間の差がステップ値を 超過する場合は、左の大きさに応じて、ステップ値だけ移動平均を増大、あるい は、削減する。次に、ステップ値を以前のように更新する。 このプロセスの効果は次のようなものである。まず、移動平均を維持するプロ セスによるエネルギー値の平滑化が行われる。従って、瞬間移動平均は、過去の エネルギー・レベルを考慮に入れた規在のフレームのエネルギー・レベルの平滑 化された値を示す。 第2に、閾値試験を行うことによって、以前の平均エネルギー・レベルから大 幅に異なる高いプラス、あるいは、マイナスのエネルギー・レベルをまず無視す るように、非線形性がプロセスに導入される。しかしながら、閾値が大幅に拡大 されるので、高エネルギー・レベルが維持されれば、それが結局閾値内に入り、 移動平均に影響を与える。 従って、ノイズ・スパイクを原因とする短時間持続する高エネルギー・レベル は、閾値ステージが理由で、移動平均エネルギー・レベルには殆ど、あるいは、 全く影響を与えない。しかしながら、例えば、音声への遷移を原因とする純粋に 高いエネルギー・レベルは、結局、移動平均エネルギー・レベルに影響を与える 。従って、閾値は、時間に適合可能なので、到来するエネルギー・レベルは、現 在の平均に密接に対応して、閾値、あるいは、ステップ・レベルが累進的に低レ ベルに減少するが、到来するエネルギー・レベルが平均からずれる場合は、閾値 は始めは低いままであるが、次に拡大する。 平均処理部371は、次に、平均レベルを維持するよう動作し、その平均レベ ルは、幾分移動平均のような挙動を示す。SNR検出器372 SNR検出器372が各々のフレームに配置され、パーサ35が現在最も有望 な認識された単語の開始及び終了フレームとして識別したフレーム番号を入力し て、平均エネルギー・レベル・バッファ376を読み取って、音声として識別さ れた現在のフレームに関する代表的なエネルギー・レベル、及びノイズとして表 現された現在のフレームに関する代表的 なエネルギー・レベルを決定する。 本実施例では、代表的な測度は、ノイズ・セグメントに関する平均連続エネル ギー・レベル、及び音声セグメントに関するピーク平均エネルギー・レベルで構 成される。SNR検出器372の動作を図12に示してある。 計算したSN比値、SNRが予め決定された閾値よりも大きい場合は、SNR 休止検出器372が、休止が発生したことを示す信号を出力する(すなわち、音 声が終わったことである。SNR値が、閾値以下であった場合は、休止が認識さ れなかったことを示す信号が出力される。 SNR測度が、正しい単語の終わりが識別されたかどうかの有用な識別子であ ることが判明した。これは、一部はパーサ35によって単語の始まりと終わり( 及び、一致)が誤って認識されることによって、音声フレームが、平均ノイズ・ レベルを計算するために使用された音声フレームに含まれることになり、閾値い かに計算されたSNRの値が削減されるので、休止が誤って認識されることはな い。SNRを計算する際に音声に関する特性エネルギー・レベルとしてピーク・ エネルギー・レベルを使用することによって、一般的に逆効果を避けることがで きる。というのは、一般的に、(完全に誤った認識を行わない限り)ピークが用 語の誤った始まりと終わりの識別の影響を受けないからである。NVR検出器373 図13を参照すると、NVR検出器373が配置されており、最後のN1(こ こで、N1は、予め決定された定数であ る)移動平均エネルギー・レベルをバッファ376から読み取り、最大及び最小 値を見いだし、最大値と最小値との間の比率を計算する。この比率は、最も最近 のN1フレームに関するエネルギー・レベルの変動量を示すものである。。変動 のレベルを閾値と比較した場合;変動が高レベルであることは、先行するN1フ レームにある音声が含まれている可能性を示し、他方、予め決定された閾値と比 較して変動が低レベルであることは、最後のN1フレームにノイズだけが含まれ ている可能性を示すので、NVR検出器373が休止検出信号を出力する。 音声の終わりに続く無音期間のエネルギー・レベルが低い場合があるので、比 率、状況によっては非常に小さい数の分割に対応することがある。それに相応し て、最小平均エネルギーが予め決定された閾値レベル(例えば、1)以下に低下 するような計算の単一性を避けるために、最大値と最小値との間ではなく、最大 値と決定されたレベルとの間で計算を行う。 差異の他の測度(例えば、最大値と最小値との間の差)を用いることができる が、信号強度全体の全差異が考慮に入れられるので、比率が望ましい。モデル・ベース検出器375 図14に示したように、モデル・ベース休止検出器は、第1及び第2のタイム アウト検出器376a、376bで構成されており、パーサ35から、現在識別 された音声の終了/ノイズの開始フレーム数を入力して、第1の比較的短い閾 値N1と第2の比較的長い閾値N2に対して、このフレームと現在のフレームと の間の差Nを試験するするよう配置されている。例えば、単語内の短いギャップ の長さの程度になるように(すなわち、20〜60フレーム、及び、都合良くN VR検出器373に使用した試験と同じ長さ)N1を選択し、大幅に長くなるよ うに(すなわち、2分の1秒程度)N2を選択する。 また、ノイズ・スコア・テスタ377も設けられており、パーサ35から、現 在最も有望な状態シーケンスに対応する終わりのノイズに関する可能性スコアを 読み取り、予め決定された閾値に対してスコアを試験し、ノイズ・スコアが閾値 を越えた場合に”休止検出”信号を出力するよう配置されている。 最後に、第3のタイムアウト検出器376cが設けられており、長いタイムア ウトN3に対して、日付に対するフレームの総数(現在のフレーム数)Tを試験 して、早期に音声の終わりを検出しなかった場合に、認識プロセスを終了する。組み合わせロジック378 図15を参照すると、検出器376b、377、372、及び373の出力が 、AND関係で接続され、4つの組み合わされた出力がOR関係で検出器376 a及び376cの出力と接続される、ということが分かる。 従って、認識の開始が長いタイムアウト(N3フレーム)の終結後か、あるい は、ノイズが始まった段の比較的長いタイムアウト(N2フレーム)の後、ある いは、比較的短いタイムアウト(N1フレーム)の後で休止が検出され、それに 続いで、ノイズ・スコアが高に、SN比が高に、及びノイズの差異が低になる。 図16には、単語に関するエネルギー及び平均エネルギーRM(t)を示して ある。リジェクタ36 リジェクタ36が配置されており、休止検出器37の動作後に、パーサ35に よる単語の識別の信頼性のレベルを試験する。識別が疑わしい場合は、その識別 が排除される。識別に自信がなければ、リジェクタ36によって”照会”信号が 発行され、利用装置4が、例えば、”...(識別された単語)と言いましたか ”といった語句を合成して、確認の対話を開始するか、あるいは、その単語を繰 り返すようユーザに 求めることが可能になる。 図17を参照すると、リジェクタ36の一般的な動作は、次のようなものであ る: 第1に、信号が無音、あるいは、ノイズのみの検出に対応するかどうかをリジ ェクタが試験する。パーサ35によって検出された最も有望なシーケンスがノイ ズのみの状態を含むシーケンスに対応する場合に、それが行われる。また、SN R検出器372によって計算されたSNRが非常に低い閾値以下であるかどうか を試験することによって、無音も検出される。いずれの場合でも、検出器376 aによって行われた試験も満たされるならば、単語が検出されなかった(無音) ことがリジェクタによって表示される。 第2に、リジェクタは、排除試験(下記で詳細に論じる)を行って、比較的緩 い閾値に対して結果を試験する。比較的緩い閾値が満たされない場合には、その 識別が排除される。 比較的緩い閾値が満たされた場合は、比較的厳しい閾値に対して試験が繰り返 される。比較的厳しい閾値が満たされた場合は、識別され単語が合格したことが 表示される。厳しい閾値が満たされなかった場合は、照会出力が生成され、利用 装置がユーザに照会することが可能になる。 リジェクタによって行われる試験は次のようなもので構成される: 1)パーサ35による最も有望な経路について生成された確率スコアSの試験 (語彙にない単語の排除) 2)騒音状態と語彙にない単語を排除するための、SNR 休止検出器372によって計算されたSN比を用いた試験。 3)NVRテスタ373によって計算された(騒音状態を排除するための)ノ イズ差異を用いた試験。 4)最も有望な経路についてパーサによって生成されたスコアと第2の最も有 望な経路について生成されたスコアとの間の比率の試験;及び、オプションとし て 5)特定の混同し易い単語間で行われる試験(例えば、パーサ35によって認 識された最も有望な単語が”5”であって、第2の最も有望な単語が”9”であ る場合、2つの間の差、あるいは、比率を試験することができる。) 従って、リジェクタ36は、単語を受け入れるが、この場合、パーサ35の出 力は、出力38に伝達される;あるいは、無音が存在することが表示される(す なわち、単語が存在しない)、ここで、無音を識別する信号が出力38に伝達さ れる;あるいは、パーサ35によって、単語の識別が排除、あるいは、照会され る。この場合、パーサ35の出力が禁止され、対応する”排除”、あるいは、” 照会”制御信号が出力38に伝達され、利用装置4による処置が可能になる。第2の実施例 第2の実施例では、特徴発生器33が配置されており、新たに生成された特徴 係数のセットが、最後の特徴係数の出力セットと比較されて、以前のセットから の全体的差が予め決定された閾値よりも大きければ、特徴係数の新しいセットだ けが出力される。例えば、距離は、絶対差の合計、あるいは、 ”都市ブロック”距離測度、あるいは、その他の好都合な測度とすることができ る。 この技術によって、例えは、60%の程度で、分類器34とパーサ35により 必要とされる計算の量を大幅に削減することができる、ということが判明してい る。更に、HMMプロセスで、後の状態が互いに独立しているものと仮定され、 それによって、係数の連続した各々のセットが、先行するセットから大幅に異な る原因となるので、本実施例では、ある種の状況では仮定の妥当性を増大させる ことができる。 この場合、分類器34とパーサ35の動作が大幅には変わらない、ということ が判明している。しかしながら、平均には、連続するフレーム間の期間の持続時 間を考慮に入れる必要があるので、信号ベース休止検出器370、特に、移動平 均処理部371の動作が変わっている。 本実施例では、特徴抽出器33が、休止検出器37に各々のフレームに関連し た番号N(t)を生成、供給する。この番号は、そのフレームと特徴抽出器33 によって出力された最後のフレームとの間のフレーム数を示している。 また、特徴抽出器33は、各々のフレームのエネルギーを累積して、各々の特 徴係数のセットでの累積エネルギーE(t)を供給し、この特徴係数は、その係 数のセットを生じさせるエネルギーと、そのフレームと特徴抽出器33によって 出力された以前のフレームとの間のすべての別のフレームのエネルギーの合計に 相当する出力である。 図18を参照すると、本実施例では、平均処理部371は、 累積エネルギーE(t)とVFRフレームで表現されるフレーム数N(t)を読 み取って、N(t)でE(t)を除算することによって、各々の介在フレームに 関する平均エネルギーを生成する。次に、平均処理部は、主として、各々平均エ ネルギーを有するN(t)連続フレームを受け取る影響をシミュレーションして 、それに応じて、移動平均を増大、あるいは、減少させる。 しかしながら、SN比計算に使用された平均連続エネルギー値が正しいことを 保証するために、N連続移動平均を平均化し、移動平均を累積し、次に、計算の 終わりでN(t)で正規化することによって、VFRフレームについて計算した 最終平均エネルギー・レベルRM(t)を見付ける。 従って、本実施例では、出力バッファ374に保存された数は、係数発生器3 3によって可変速度で生成された特徴係数の各々のフレームに関する値RM(t )で構成され、この係数は、現在のフレームに先行する信号フレームの平均レベ ルに対応する。 実際、本実施例では、最小及び最大エネルギー・レベルは、最初の実施例より 明確に定義されない。というのは、特徴抽出器33で実行された先行するフレー ムのエネルギーを累積するプロセスが、鋭いピークを平坦化するか、あるいは、 入力音声信号のエネルギー・レベルの中に理め込んでしまう役割を果たすからで ある。 本実施例では、もちろん、そうしたフレームによって、認識のために特徴ベク トルを出力させるかどうかに拘りなく、 平均処理部371の代わりに、特徴発生器33が受け取った各々の信号フレーム から各々のエネルギー・レベル受け取って、処理することができる。しかしなが ら、これには、更に計算とバッファ保持の必要がある。 本実施例では、省略したフレームの数N(t)を蓄積して、次に、それを用い て、音声Nの終わりからの時間を計算して算出したフレーム数を維持することに よって、現在の係数ベクトルを生成した変動率を考慮に入れるために、検出器3 76a、376bによって算出された休止試験を計算する。 図19には、単語に関するエネルギー及び平均エネルギーRM(t)を示して ある。発明の利点 前述の実施例から、本発明の観点には幾つかの利点がある、ということが分か る。 能動的に音声信号を吟味する休止検出器を連続音声認識装置に設けることによ って、入力された単語、語句、あるいは、文を急速に認識することができる。音 声検出器によって想定された音声/ノイズ・モデルとは別個のパラメータを休止 検出器に吟味させることによって、より大きい信頼性が保証される。エネルギー ・ベースの測度は、音声及びノイズを区別する際に特に有効であるということが 判明しており、特に、認識装置によって使用されるノイズ−音声−ノイズ・モデ ルが正しいという仮定に基づいて生成された信号レベルとノイズ・レベルとの間 の差を試験(特に、SN比の測度)することが、その仮定が正しいことを確認す る有効な手段であると いうことが判明している。更に詳しく述べれば、音声期間に関するピーク値とノ イズ期間に関する平均値との間で計算されたSN比が有効であることが判明して いる。 休止の検出、あるいは、識別された単語の排除といったその他の目的の基礎と して、信号エネルギーの平均化、あるいは、平滑化された測度を使用するするこ とが有効であり;特に、移動平均測度、及び更に厳密に言えば、ノイズ・スパイ クを濾波する非線形平均が好ましい、ということが判明している。信号のエネル ギーの平均ではなく、中央値を近似的に追跡するように、アルゴリズムを定める ことが好ましい。 別の観点から見れば、予め決定された量だけ移動平均を増大、あるいは削減す るよう、アルゴリズムを規定するか、あるいは、入力エネルギー・レベルと移動 平均との間の差に応じて、予め決定された量を適合させることが好ましい。 更に、信号エネルギーの変動(更に詳しく言えば、平滑化、及び平均化された 信号エネルギーの変動)の測度を使用すれば、良好な識別が可能になり、ノイズ だけが存在するかどうかを決定することができるということ;特に、ノイズだけ が存在する場合は、ピーク・エネルギーと最小エネルギーとの間の比率の測度が 、一般的に低いということが判明している。それに相応して、認識プロセスで生 成されたノイズ−単語−ノイズ・モデルを確認するために、この試験を用いるこ とができる。 上記の試験は、有利ではあるが、必ずしも、ノイズの認識で生成されたスコア の試験及び、認識されたノイズが始まっ てからの時間の長さの試験といった、認識装置の出力自身に基づいた試験と組み 合わせる必要はない。 上記で説明した信号ベースノ試験が、異なる閾値を用いて、上記のように不安 定な認識条件の下で、認識された単語を後に排除するための基礎を得るために、 同様に有効であることが判明している。発明の別の観点及び実施例 前述から、説明した実施例は、単に本発明の実例であるので、それに限定され るものではない、ということが明らかである。上記で明確に説明したか、あるい は、熟練した人物にとって明確であるかどうかに拘りなく、特に、説明した実施 例の様々な新しい特徴には、別個の利点があり、そうした利点のある各々の特徴 、及び、そうした特徴の有利な組み合わせに対して別個に保護を求める。 ガウスの連続密度分類器を使用することを、ここに記述したが、ベクトル量子 化を用いる分類器も、同様に使用することができる。同様に、別のタイプのシー ケンス処理(例えば、ダイナミック・タイム・ワープ)を使用することもできる 。 ”繰り返し”確率と”遷移”確率のみを論じたが、一つおいて次、及び、二つ おいて次(等)の状態への遷移の確率(スキップ遷移)が、良く知られており、 同様に使用することができる。同様にまた、単語とノイズについて上記で述べた 幾つかの状態も、純粋に実例である。 特定の実施例を詳細に説明したが、適切に構成、あるいは、プログラムしたデ ィジタル、あるいは、アナログ・ハードウ エアを用いて、それ以外の実施例を実現することができる。 「ノイズが先行及び後に続く」孤立した単語を認識する認識構文を説明したが 、本発明は、同様に連結語認識にも応用することができる。この場合、状態シー ケンス・モデルは、ノイズ−単語1−単語2−・・・単語N−ノイズのシーケン スを表現し、SNR及びノイズ差異試験は、音声ポイントの終了後のノイズにの み応答することが好ましい。 音声認識を説明したが、他のタイプの認識(例えば、話者認識、あるいは、確 認)に関連して同じ技術を使用することは排除しない。 保護の範囲は、実質的に同じ結果を達成するか、あるいは、同じ原理、あるい は、動作を用いて、実質的に異なる結果を達成する同等の構造物と共に、ここに 添付したクレームの範囲内のすべての構造物を包含することを目的としている。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FR,GB,GR,IE,IT,LU,M C,NL,PT,SE),AU,CA,CN,FI,J P,KR,NZ,US (72)発明者 ジョンソン、スチーブン・ハワード イギリス国、アイピー1・4イーエイチ、 サフォーク、イプスウイッチ、ブルームヒ ル・ロード 9 (72)発明者 スカヒル、フランシス・ジェイムズ イギリス国、アイピー1・4イーエイチ、 サフォーク、イプスウイッチ、ブルームヒ ル・ロード 9 (72)発明者 リングランド、サイモン・パトリック・ア レキサンダー イギリス国、アイピー5・7ティービー、 サフォーク、イプスウイッチ、マートレス ハム・ヒース、カールフォード・クロース 48 (72)発明者 タリンタイヤー、ジョン・エドワード イギリス国、シーエム8・2ディーディ ー、エセックス、ウイサム、ブレインツリ ー・ロード 17

Claims (1)

  1. 【特許請求の範囲】 1.音声信号を受信するための入力手段;音声信号を処理して所定のパターン に対する類似性を示す認識処理手段;前記認識処理手段は、繰り返して音声信号 をパターンを含む部分、及び前記パターンを含む部分に先行及び続くノイズ、あ るいは、無音信号に分割し、前記パターンを含む部分に対応するパターンを識別 する;前記パターンの一つの認識を示す認識信号を供給するための出力手段とで 構成される認識システムにおいて、 パターンを含む部分に続くノイズ、あるいは、無音部分を検出するための休止 検出手段、その検出に応答して、前記パターン部分に対応する現在のパターンを 識別する信号を出力手段に供給する手段に特徴を有するシステム。 2.前記パターンは、音素、単語、語句、あるいは文に対応することを特徴と する請求項1記載のシステム。 3.前記パターンは、単語に対応することを特徴とする請求項2記載のシステ ム。 4.前記休止検出手段は、前記認識処理手段による前記分割に依存しない前記 音声信号から由来する少なくとも一つの信号パラメータを受け取ることを特徴と する請求項1〜3のいずれかに記載のシステム。 5.前記休止検出手段は、前記認識処理手段による前記分割に従って、前記信 号パラメータを処理し、前記分割の精度に依存する少なくとも一つの測度を生成 することを特徴とす る請求項4記載のシステム。 6.前記信号パラメータは、ノイズ、あるいは、無音が存在する際に、パター ンが存在する場合の大きさとは異なる大きさを有することを特徴とする請求項5 記載のシステム。 7.前記パラメータは、前記音声信号のエネルギーに関連していることえお特 徴とする請求項6記載のシステム。 8.前記休止検出手段は、時間に関する前記パラメータを平滑化するための手 段を有することを特徴とする請求項4〜7のいずれかに記載のシステム。 9.前記平滑化手段が、前記パラメータの移動平均値を導出するための手段を 有し、前記測度、あるいは、複数の測度を生成する際に前記移動平均が用いられ ることを特徴とする請求項8記載のシステム。 10.非線形平滑化を前記パラメータに適用して、その突然の大きさの変動の 影響を削減するように前記移動平均手段が構成されていることを特徴とする請求 項9記載のシステム。 11.前記パラメータの中央値を追跡するために、前記移動平均を導出するこ とを特徴とする請求項9または請求項10記載のシステム。 12.前記休止検出手段は、前記パターンを含む部分に続く前記ノイズ、ある いは、無音部分内で、前記パラメータ、あるいは、パラメータに由来する変動の レベルの測度を導出するための変動検出手段を有することを特徴とする請求項5 〜11のいずれかに記載のシステム。 13.前記変動検出手段が、前記パラメータ、あるいは、 導出パラメータの最大値及び最小値を導出し、その間の比率に依存するように前 記測度を導出することを特徴とする請求項12記載のシステム。 14.前記比率が、小さい数による分割を避けるように導出されることを特徴 とする請求項13記載のシステム。 15.前記変動検出手段が、前記後に続くノイズ、あるいは、無音部分内にあ る音声信号の予め決定された過去の部分に渡って延びる時間ウインドウに関する 前記パラメータの値に応じて、前記測度を導出することを特徴とする請求項12 〜14のいずれかに記載のシステム。 16.前記休止検出手段が、前記パラメータの相対レベル、あるいは、前記パ ターンを含む部分に関して、及び前記無音、あるいは、ノイズ部分に関してそこ から導出されたパラメータを示す測度を導出するための手段を有することを特徴 とする請求項5〜15のいずれかに記載のシステム。 17.前記パターンを含む部分から導出された第1の値と前記無音、あるいは 、ノイズ部分から導出された第2の値との間の比率に依存するように、前記測度 が導出されることを特徴とする請求項16記載のシステム。 18.第1の値が、前記パラメータ、あるいは、導出パラメータの最大値であ ることを特徴とする請求項17記載のシステム。 19.第2の値が、前記パラメータ、あるいは、導出パラメータの平均値であ ることを特徴とする請求項17記載のシステム。 20.前記認識処理手段は、ノイズ、あるいは、無音を認識するように構成さ れており、前記休止検出手段は、ノイズ、あるいは、無音の前記認識の信頼性の レベルの応答するよう構成されていることを特徴とする請求項1〜19のいずれ か1項に記載のシステム。 21.前記休止検出手段は、前記パターンを含む部分に続く無音、あるいは、 ノイズ部分の持続時間に応答するよう構成されていることを特徴とする請求項1 〜19のいずれか1項に記載のシステム。 22.音声信号を受信するための入力手段;所定のパターンに対する類似性を 示すために音声信号を処理するための認識処理手段;前記パターンの一つの認識 を示す認識信号を供給するための出力手段;所定の条件で認識信号を排除するた めの排除手段とで構成される認識システムにおいて、 前記排除手段は、前記認識手段の出力に依存しない前記音声信号から導出され た少なくとも一つの信号パラメータを受け取ることを特徴とするシステム。 23.前記認識手段は、音声信号をパターンを含む部分、及び前記パターンを 含む部分に先行し、その後に続くノイズ、あるいは、無音部分に分割し、前記排 除手段は、前記分割に応答することを特徴とする請求項22記載のシステム。 24.前記排除手段は、パターンを含んでいる部分の間、あるいは、ノイズ、 あるいは、無音部分の間に、パラメータ、あるいは、それから導出されたパラメ ータの相対的な大きさに依存して、前記認識信号を排除することを特徴とする請 求 項23記載のシステム。 25.前記排除手段は、パラメータ、あるいは、無音、あるいは、ノイズ部分 に関して導出されたパラメータの変動の程度に依存して、前記認識信号を取り扱 うことを特徴とする請求項23または24に記載のシステム。 26.前記認識処理手段は、複数の状態シーケンス確率を定義するデータを保 存するため、及び、各々の状態シーケンスに対応する前記音声信号の可能性を計 算するための手段を有することを特徴とする請求項1〜25のいずれか1項に記 載のシステム。 27.前記認識処理手段は、異なる状態に対応する複数の連続確率分布を定義 するデータを保存するための手段、及び、前記分布データを前記音声信号に適用 して、音声信号と各々の前記状態との間の一致の測度を計算するための手段を有 することを特徴とする請求項26記載のシステム。 28.前記音声信号を連続する部分のシーケンスに分割するため、及び、前記 部分を先行する部分と比較するための手段をさらに備え、前記部分がその先行す る部分と大幅に異ならない場合に、前記システムが、前記認識処理手段を動作さ せないことを特徴とする請求項1〜25のいずれか1項に記載のシステム。 29.音声認識信号を繰り返して生成するために音声信号に応じて動作する音 声認識システムにおいて、即時音声認識出力を供給できるように、音声の終わり を検出するよう規定されている休止検出器 30.音声認識システムにおいて、音声信号のエネルギーから導出したパラメ ータに依存して、音声の終わりを検出するための休止検出器。 31.音声信号に応じて動作する認識システムにおいて、エネルギー平均処理 部:平均エネルギー・レベルを保存するための手段;音声信号エネルギーと前記 平均エネルギー・レベルとの間の差を所定の閾値と比較するための手段;差が閾 値を超過した場合に、保存された平均エネルギー・レベルを確認するための手段 ;差が閾値を超過した場合に、音声信号に依存して閾値を確認するための手段を 通することを特徴とする認識システム。 32.請求項1〜31のいずれか1項の機能を実行する音声認識の方法。
JP52084194A 1993-03-25 1994-03-25 休止検出を行う音声認識 Expired - Fee Related JP3691511B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP93302302 1993-03-25
EP93302302.0 1993-03-25
EP93302541 1993-03-31
EP93302541.3 1993-03-31
PCT/GB1994/000630 WO1994022131A2 (en) 1993-03-25 1994-03-25 Speech recognition with pause detection

Publications (2)

Publication Number Publication Date
JPH08508108A true JPH08508108A (ja) 1996-08-27
JP3691511B2 JP3691511B2 (ja) 2005-09-07

Family

ID=26134232

Family Applications (1)

Application Number Title Priority Date Filing Date
JP52084194A Expired - Fee Related JP3691511B2 (ja) 1993-03-25 1994-03-25 休止検出を行う音声認識

Country Status (9)

Country Link
US (1) US5848388A (ja)
EP (2) EP0962913B1 (ja)
JP (1) JP3691511B2 (ja)
AU (1) AU6433094A (ja)
CA (1) CA2158849C (ja)
DE (2) DE69421911T2 (ja)
ES (1) ES2141824T3 (ja)
SG (1) SG93215A1 (ja)
WO (1) WO1994022131A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003524794A (ja) * 1999-02-08 2003-08-19 クゥアルコム・インコーポレイテッド 雑音のある信号におけるスピーチのエンドポイント決定

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9620082D0 (en) 1996-09-26 1996-11-13 Eyretel Ltd Signal monitoring apparatus
GB9625284D0 (en) * 1996-12-04 1997-01-22 Canon Kk A data processing method and apparatus for identifying a classification to which data belongs
EP0944036A4 (en) * 1997-04-30 2000-02-23 Japan Broadcasting Corp METHOD AND DEVICE FOR DETECTING LANGUAGE AREAS, AND METHOD AND DEVICE FOR LANGUAGE SPEED CONVERSION
US5930748A (en) * 1997-07-11 1999-07-27 Motorola, Inc. Speaker identification system and method
US6374219B1 (en) * 1997-09-19 2002-04-16 Microsoft Corporation System for using silence in speech recognition
US6006182A (en) * 1997-09-22 1999-12-21 Northern Telecom Limited Speech recognition rejection method using generalized additive models
US6718302B1 (en) * 1997-10-20 2004-04-06 Sony Corporation Method for utilizing validity constraints in a speech endpoint detector
JP3075250B2 (ja) * 1998-03-04 2000-08-14 日本電気株式会社 話者認識方法及び装置
DE19824354A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
DE19824353A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
DE19939102C1 (de) * 1999-08-18 2000-10-26 Siemens Ag Verfahren und Anordnung zum Erkennen von Sprache
GB2355833B (en) * 1999-10-29 2003-10-29 Canon Kk Natural language input method and apparatus
US6910035B2 (en) * 2000-07-06 2005-06-21 Microsoft Corporation System and methods for providing automatic classification of media entities according to consonance properties
US7035873B2 (en) 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
US20020042709A1 (en) * 2000-09-29 2002-04-11 Rainer Klisch Method and device for analyzing a spoken sequence of numbers
US20030023439A1 (en) * 2001-05-02 2003-01-30 Gregory Ciurpita Method and apparatus for automatic recognition of long sequences of spoken digits
US20040104062A1 (en) * 2002-12-02 2004-06-03 Yvon Bedard Side panel for a snowmobile
EP1363271A1 (de) 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220524B4 (de) 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
US7356466B2 (en) * 2002-06-28 2008-04-08 Samsung Electronics Co., Ltd. Method and apparatus for performing observation probability calculations
US20040044517A1 (en) * 2002-08-30 2004-03-04 Robert Palmquist Translation system
US7539086B2 (en) * 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
JP4463526B2 (ja) * 2003-10-24 2010-05-19 株式会社ユニバーサルエンターテインメント 声紋認証システム
CN1890668A (zh) * 2003-12-16 2007-01-03 思比驰盖尔公司 翻译机数据库
US7359849B2 (en) * 2003-12-17 2008-04-15 Speechgear, Inc. Translation techniques for acronyms and ambiguities
US7664642B2 (en) * 2004-03-17 2010-02-16 University Of Maryland System and method for automatic speech recognition from phonetic features and acoustic landmarks
US9117460B2 (en) 2004-05-12 2015-08-25 Core Wireless Licensing S.A.R.L. Detection of end of utterance in speech recognition system
US7558389B2 (en) * 2004-10-01 2009-07-07 At&T Intellectual Property Ii, L.P. Method and system of generating a speech signal with overlayed random frequency signal
US7584098B2 (en) * 2004-11-29 2009-09-01 Microsoft Corporation Vocabulary-independent search of spontaneous speech
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
EP1708172A1 (en) * 2005-03-30 2006-10-04 Top Digital Co., Ltd. Voiceprint identification system for E-commerce
KR101116363B1 (ko) * 2005-08-11 2012-03-09 삼성전자주식회사 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치
US7603275B2 (en) * 2005-10-31 2009-10-13 Hitachi, Ltd. System, method and computer program product for verifying an identity using voiced to unvoiced classifiers
WO2007069377A1 (ja) * 2005-12-14 2007-06-21 Mitsubishi Electric Corporation 音声認識装置
JP4906379B2 (ja) * 2006-03-22 2012-03-28 富士通株式会社 音声認識装置、音声認識方法、及びコンピュータプログラム
EP1933302A1 (en) * 2006-12-12 2008-06-18 Harman Becker Automotive Systems GmbH Speech recognition method
US20080221882A1 (en) * 2007-03-06 2008-09-11 Bundock Donald S System for excluding unwanted data from a voice recording
RU2441286C2 (ru) * 2007-06-22 2012-01-27 Войсэйдж Корпорейшн Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов
DE102008039329A1 (de) * 2008-01-25 2009-07-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Berechnung von Steuerinformationen für ein Echounterdrückungsfilter und Vorrichtung und Verfahren zur Berechnung eines Verzögerungswerts
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
US8838449B2 (en) * 2010-12-23 2014-09-16 Microsoft Corporation Word-dependent language model
US8924213B2 (en) * 2012-07-09 2014-12-30 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9064492B2 (en) 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
US20140365068A1 (en) * 2013-06-06 2014-12-11 Melvin Burns Personalized Voice User Interface System and Method
US9928851B2 (en) * 2013-09-12 2018-03-27 Mediatek Inc. Voice verifying system and voice verifying method which can determine if voice signal is valid or not
US10832005B1 (en) 2013-11-21 2020-11-10 Soundhound, Inc. Parsing to determine interruptible state in an utterance by detecting pause duration and complete sentences
US9311932B2 (en) * 2014-01-23 2016-04-12 International Business Machines Corporation Adaptive pause detection in speech recognition
KR102446392B1 (ko) * 2015-09-23 2022-09-23 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
US10339918B2 (en) 2016-09-27 2019-07-02 Intel IP Corporation Adaptive speech endpoint detector
US9984689B1 (en) * 2016-11-10 2018-05-29 Linearhub Apparatus and method for correcting pronunciation by contextual recognition
US10636421B2 (en) 2017-12-27 2020-04-28 Soundhound, Inc. Parse prefix-detection in a human-machine interface
RU2761940C1 (ru) 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу
KR102913171B1 (ko) * 2019-12-18 2026-01-15 엘지전자 주식회사 간투어 검출 모델을 훈련시키기 위한 훈련 데이터 생성 방법 및 장치
US12118984B2 (en) 2020-11-11 2024-10-15 Rovi Guides, Inc. Systems and methods to resolve conflicts in conversations
US11705125B2 (en) 2021-03-26 2023-07-18 International Business Machines Corporation Dynamic voice input detection for conversation assistants

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE31188E (en) * 1978-10-31 1983-03-22 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
DE3066499D1 (en) * 1979-08-13 1984-03-15 Linear Pneumatics Inc Method of removing stuck gaskets and pneumatic impact tool therefor
US4348553A (en) * 1980-07-02 1982-09-07 International Business Machines Corporation Parallel pattern verifier with dynamic time warping
US4761815A (en) * 1981-05-01 1988-08-02 Figgie International, Inc. Speech recognition system based on word state duration and/or weight
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4989248A (en) * 1983-01-28 1991-01-29 Texas Instruments Incorporated Speaker-dependent connected speech word recognition method
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
GB2182795B (en) * 1985-11-12 1988-10-05 Nat Res Dev Apparatus and methods for speech analysis
US5040127A (en) * 1986-06-02 1991-08-13 Motorola, Inc. Continuous speech recognition system
JPH0760318B2 (ja) * 1986-09-29 1995-06-28 株式会社東芝 連続音声認識方式
US4829578A (en) * 1986-10-02 1989-05-09 Dragon Systems, Inc. Speech detection and recognition apparatus for use with background noise of varying levels
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4803729A (en) * 1987-04-03 1989-02-07 Dragon Systems, Inc. Speech recognition method
EP0295354B1 (de) * 1987-06-16 1990-10-17 Santex AG Verfahren zum Glätten und Schrumpfen von textiler Schlauchware
US5228110A (en) * 1989-09-15 1993-07-13 U.S. Philips Corporation Method for recognizing N different word strings in a speech signal
DE69128990T2 (de) * 1990-09-07 1998-08-27 Toshiba Kawasaki Kk Sprecherkennungsvorrichtung
FR2677828B1 (fr) * 1991-06-14 1993-08-20 Sextant Avionique Procede de detection d'un signal utile bruite.
JP2870224B2 (ja) * 1991-06-19 1999-03-17 松下電器産業株式会社 音声認識方法
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5583961A (en) * 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003524794A (ja) * 1999-02-08 2003-08-19 クゥアルコム・インコーポレイテッド 雑音のある信号におけるスピーチのエンドポイント決定

Also Published As

Publication number Publication date
SG93215A1 (en) 2002-12-17
EP0962913B1 (en) 2003-04-23
DE69432570T2 (de) 2004-03-04
CA2158849C (en) 2000-09-05
DE69421911D1 (de) 2000-01-05
ES2141824T3 (es) 2000-04-01
EP0691022A1 (en) 1996-01-10
CA2158849A1 (en) 1994-09-29
JP3691511B2 (ja) 2005-09-07
DE69432570D1 (de) 2003-05-28
US5848388A (en) 1998-12-08
WO1994022131A2 (en) 1994-09-29
EP0691022B1 (en) 1999-12-01
AU6433094A (en) 1994-10-11
DE69421911T2 (de) 2000-07-20
WO1994022131A3 (en) 1995-01-12
EP0962913A1 (en) 1999-12-08

Similar Documents

Publication Publication Date Title
JP3691511B2 (ja) 休止検出を行う音声認識
US5732394A (en) Method and apparatus for word speech recognition by pattern matching
KR100312919B1 (ko) 화자인식을위한방법및장치
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US20140156276A1 (en) Conversation system and a method for recognizing speech
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
US7359856B2 (en) Speech detection system in an audio signal in noisy surrounding
KR20090030063A (ko) 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
JPH0990974A (ja) 信号処理方法
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
KR100930587B1 (ko) 혼동 행렬 기반 발화 검증 방법 및 장치
JP4696418B2 (ja) 情報検出装置及び方法
JP2797861B2 (ja) 音声検出方法および音声検出装置
Pfau et al. A combination of speaker normalization and speech rate normalization for automatic speech recognition
JP3428805B2 (ja) 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法
Ouzounov Telephone speech endpoint detection using Mean-Delta feature
KR100526110B1 (ko) 화자인식시스템의 화자 특징벡터 생성방법 및 시스템
Sriskandaraja et al. A model based voice activity detector for noisy environments.
JP2007508577A (ja) 音声認識システムの環境的不整合への適応方法
JPH05249987A (ja) 音声検出方法および音声検出装置
Fakotakis et al. A continuous HMM text-independent speaker recognition system based on vowel spotting.
WO1997037345A1 (en) Speech processing
Goronzy et al. Phone-duration-based confidence measures for embedded applications.
JPH034918B2 (ja)
JP4391031B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050616

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090624

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100624

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110624

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110624

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120624

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120624

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130624

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees