JPH0612092A - 音声認識装置およびその動作方法 - Google Patents
音声認識装置およびその動作方法Info
- Publication number
- JPH0612092A JPH0612092A JP5098442A JP9844293A JPH0612092A JP H0612092 A JPH0612092 A JP H0612092A JP 5098442 A JP5098442 A JP 5098442A JP 9844293 A JP9844293 A JP 9844293A JP H0612092 A JPH0612092 A JP H0612092A
- Authority
- JP
- Japan
- Prior art keywords
- word
- sequence
- model
- database
- recorded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011017 operating method Methods 0.000 title description 2
- 238000000034 method Methods 0.000 claims abstract description 15
- 230000004044 response Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 description 7
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 1
- 235000012055 fruits and vegetables Nutrition 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
Abstract
(57)【要約】
【目的】 音声認識システムにデータを記録し、記録デ
ータに対応する発話データを認識する装置および方法を
実現する。 【構成】 入力されたデータに応答して、音声表示の列
を生成する。入力データおよび生成した音声表示列が、
音声認識システムの語彙集に記録される。発話データの
受信に応答して、その発話データを特徴づける部分語の
モデルを構成し、構成した部分語列に一致する音声表示
列に対応するデータとして発話データを認識するため
に、構成した部分語モデルを語彙集に記録された音声表
示列と比較する。
ータに対応する発話データを認識する装置および方法を
実現する。 【構成】 入力されたデータに応答して、音声表示の列
を生成する。入力データおよび生成した音声表示列が、
音声認識システムの語彙集に記録される。発話データの
受信に応答して、その発話データを特徴づける部分語の
モデルを構成し、構成した部分語列に一致する音声表示
列に対応するデータとして発話データを認識するため
に、構成した部分語モデルを語彙集に記録された音声表
示列と比較する。
Description
【0001】
【産業上の利用分野】本発明は、音声認識システムで使
用される単語モデルを生成する装置および方法に関し、
特に、生成された単語を認識するために使用される単語
モデルに関する。
用される単語モデルを生成する装置および方法に関し、
特に、生成された単語を認識するために使用される単語
モデルに関する。
【0002】
【従来の技術】音声認識システムは通常、さまざまなア
プリケーションで使用される完全な数詞、語および句を
表すデータベース辞書記憶パターン(例えば音声テンプ
レートまたはモデル)を有する。
プリケーションで使用される完全な数詞、語および句を
表すデータベース辞書記憶パターン(例えば音声テンプ
レートまたはモデル)を有する。
【0003】
【発明が解決しようとする課題】システム所有者および
その所有者の顧客のみによって頻繁に使用され、それら
の者に固有の音声テンプレートのデータベース辞書を、
個々の音声認識システムが必要とする際に問題が生じ
る。例えば、病院の音声認識システムは、青果卸売業者
の辞書に記録された音声テンプレートとは異なる別個の
音声テンプレートの辞書を必要とする。すなわち、各音
声認識システムは、それぞれ特定の音声認識システムア
プリケーションに必要なテンプレートを構成するため
に、多数の音声データサンプルの収集およびその音声デ
ータサンプルの手作業の確認を必要とする。従って、多
数の音声データサンプルの収集および確認を必要とせず
に、システムの所有者が自己のビジネスアプリケーショ
ンで使用される情報を音声認識システムに入力すること
ができるような、音声認識システムのための自動音声認
識器、および、その自動音声認識器を動作させる方法が
必要である。
その所有者の顧客のみによって頻繁に使用され、それら
の者に固有の音声テンプレートのデータベース辞書を、
個々の音声認識システムが必要とする際に問題が生じ
る。例えば、病院の音声認識システムは、青果卸売業者
の辞書に記録された音声テンプレートとは異なる別個の
音声テンプレートの辞書を必要とする。すなわち、各音
声認識システムは、それぞれ特定の音声認識システムア
プリケーションに必要なテンプレートを構成するため
に、多数の音声データサンプルの収集およびその音声デ
ータサンプルの手作業の確認を必要とする。従って、多
数の音声データサンプルの収集および確認を必要とせず
に、システムの所有者が自己のビジネスアプリケーショ
ンで使用される情報を音声認識システムに入力すること
ができるような、音声認識システムのための自動音声認
識器、および、その自動音声認識器を動作させる方法が
必要である。
【0004】
【課題を解決するための手段】上記の問題は、音声認識
システムの語彙集データベース内の音声認識システムに
データを入力し、それによってシステムが、発話データ
を格納されたデータとして認識することを可能にする装
置および方法によって解決される。プロセッサが、入力
されたデータから音声表記を生成し、そのデータ(例え
ば英数字)および生成された対応する音声表記の両方を
語彙集データベースに記録・格納する。プロセッサは、
発話データの部分語特性の列からなるモデルを構成する
ことによって、発話データの受信に応答し、構成した部
分語モデルを、語彙集データベースに記録された音声表
記と比較する。構成された部分語モデルが、記録された
データに対応する記録された音声表記と一致すると、発
話データは記録されたデータとして認識される。
システムの語彙集データベース内の音声認識システムに
データを入力し、それによってシステムが、発話データ
を格納されたデータとして認識することを可能にする装
置および方法によって解決される。プロセッサが、入力
されたデータから音声表記を生成し、そのデータ(例え
ば英数字)および生成された対応する音声表記の両方を
語彙集データベースに記録・格納する。プロセッサは、
発話データの部分語特性の列からなるモデルを構成する
ことによって、発話データの受信に応答し、構成した部
分語モデルを、語彙集データベースに記録された音声表
記と比較する。構成された部分語モデルが、記録された
データに対応する記録された音声表記と一致すると、発
話データは記録されたデータとして認識される。
【0005】
【実施例】本発明の実施例において、音声認識システム
1(図1)は、発話データ(例えば英数字データ)を認
識するように配置される。一般的に、このようなシステ
ムはさまざまなアプリケーション(例えば、大規模店の
受注部)において使用可能である。このようなシステム
は、例えば、電話線(例えば電話線31)に接続され、
電話機3を使用する発呼顧客に音声指示メッセージを送
信するために使用される。
1(図1)は、発話データ(例えば英数字データ)を認
識するように配置される。一般的に、このようなシステ
ムはさまざまなアプリケーション(例えば、大規模店の
受注部)において使用可能である。このようなシステム
は、例えば、電話線(例えば電話線31)に接続され、
電話機3を使用する発呼顧客に音声指示メッセージを送
信するために使用される。
【0006】音声認識システム1は、店に注文する顧客
によって発話された英数字データを認識することによっ
て、発呼顧客に応答する。他のアプリケーションでは、
音声認識システム1は、電話交換手アプリケーションに
おいて、発呼者発話電話番号を認識するため、および、
株式仲買業者によって、顧客の注文および情報要求を認
識するために使用される。さらに他のアプリケーション
では、音声認識システム1の原理は、コンピュータが、
コンピュータのユーザによって発話される英数字データ
を認識することを可能にするために、コンピュータとと
もに使用される。
によって発話された英数字データを認識することによっ
て、発呼顧客に応答する。他のアプリケーションでは、
音声認識システム1は、電話交換手アプリケーションに
おいて、発呼者発話電話番号を認識するため、および、
株式仲買業者によって、顧客の注文および情報要求を認
識するために使用される。さらに他のアプリケーション
では、音声認識システム1の原理は、コンピュータが、
コンピュータのユーザによって発話される英数字データ
を認識することを可能にするために、コンピュータとと
もに使用される。
【0007】音声認識システム1は、例えば、AT&T
386または486コンピュータのようなコンピュータ
10である。このコンピュータ(図2)は、本発明の理
解のためには詳細は不要であり、一般的に、中央処理装
置101、メモリユニット102、およびインタフェー
スユニット100を有し、これらはそれぞれアドレス
線、データ線および制御線によってデータバス104に
接続される。
386または486コンピュータのようなコンピュータ
10である。このコンピュータ(図2)は、本発明の理
解のためには詳細は不要であり、一般的に、中央処理装
置101、メモリユニット102、およびインタフェー
スユニット100を有し、これらはそれぞれアドレス
線、データ線および制御線によってデータバス104に
接続される。
【0008】インタフェースユニット100は、データ
入力装置(例えばキーボード11)と相互接続されたデ
ータリンク1110をデータバス104と結合し、キー
ボード11に入力された英数字データ(例えば語、数お
よび情報)が中央処理装置101およびメモリユニット
102と交換されるようにする。データバス104はま
た、アドレス線、データ線および制御線によってデータ
ベース構造体(例えばデータベース構造体1030、1
031および1032)に格納・記録するために使用さ
れるデータ記憶装置103とも相互接続される。音声認
識システム1として使用されるコンピュータ10(図
1)は、データおよび情報を表示するために使用される
ビデオ端末12を有することも可能である。
入力装置(例えばキーボード11)と相互接続されたデ
ータリンク1110をデータバス104と結合し、キー
ボード11に入力された英数字データ(例えば語、数お
よび情報)が中央処理装置101およびメモリユニット
102と交換されるようにする。データバス104はま
た、アドレス線、データ線および制御線によってデータ
ベース構造体(例えばデータベース構造体1030、1
031および1032)に格納・記録するために使用さ
れるデータ記憶装置103とも相互接続される。音声認
識システム1として使用されるコンピュータ10(図
1)は、データおよび情報を表示するために使用される
ビデオ端末12を有することも可能である。
【0009】図2で、本発明の原理によれば、動作時に
は、プログラム(例えば、新しい語の部分語スペル生成
プログラム1020、自動音声認識(ASR)アルゴリ
ズムプログラム1021およびキーボード入力プログラ
ム1022)は、メモリユニット102に格納され、音
声認識システム1の動作を制御する適当な時刻に中央処
理装置101にロードされる。データベース構造体(辞
書データベース1030、語彙集データベース103
1、および部分語モデルデータベース1032)はデー
タ記憶装置103に格納され、情報の読み出しおよび格
納のために中央処理装置103によってアクセスされ
る。
は、プログラム(例えば、新しい語の部分語スペル生成
プログラム1020、自動音声認識(ASR)アルゴリ
ズムプログラム1021およびキーボード入力プログラ
ム1022)は、メモリユニット102に格納され、音
声認識システム1の動作を制御する適当な時刻に中央処
理装置101にロードされる。データベース構造体(辞
書データベース1030、語彙集データベース103
1、および部分語モデルデータベース1032)はデー
タ記憶装置103に格納され、情報の読み出しおよび格
納のために中央処理装置103によってアクセスされ
る。
【0010】辞書データベース1030(図3)は、語
および各格納語の音声表示を格納する。一般的に、語は
標準的な辞書に存在する語であり、格納語の音声表示と
ともに辞書データベース1030に格納される。また
は、語は、新しい語の部分語スペル生成プログラム10
20によって計算される。例えば、語「house」
は、対応する音声表示「haus」によって表現され
る。同様に、格納語「car」は、対応する音声表示
「kaar」によって表現され、語「compute
r」は、対応する音声表示「kempyuter」によ
って表現される。さらに、「d」および「w」のような
文字は、表示「diy」および「dahbixlyu
w」によって表現される。
および各格納語の音声表示を格納する。一般的に、語は
標準的な辞書に存在する語であり、格納語の音声表示と
ともに辞書データベース1030に格納される。また
は、語は、新しい語の部分語スペル生成プログラム10
20によって計算される。例えば、語「house」
は、対応する音声表示「haus」によって表現され
る。同様に、格納語「car」は、対応する音声表示
「kaar」によって表現され、語「compute
r」は、対応する音声表示「kempyuter」によ
って表現される。さらに、「d」および「w」のような
文字は、表示「diy」および「dahbixlyu
w」によって表現される。
【0011】ASR語彙集データベース1031は、語
および記録される語の変形を表現する音声表示の文字列
とともに、語およびその変形を記録・格納する。典型的
な例では、新しい語の部分語スペル生成プログラム10
20は、語「car」および対応する音声表示文字列
「kaar」を語彙集データベース1031に記録す
る。他の例では、語「rail」および「road」の
変形が、「railroad」として、対応する音声表
示文字列「reylrowd」とともに記録される。
および記録される語の変形を表現する音声表示の文字列
とともに、語およびその変形を記録・格納する。典型的
な例では、新しい語の部分語スペル生成プログラム10
20は、語「car」および対応する音声表示文字列
「kaar」を語彙集データベース1031に記録す
る。他の例では、語「rail」および「road」の
変形が、「railroad」として、対応する音声表
示文字列「reylrowd」とともに記録される。
【0012】部分語モデルデータベース1032は、発
話を区別するために利用する音声の小単位を識別する各
音素を格納する。例えば、「cot」の中にあるような
音を表す音素「aa」が部分語モデルデータベース10
32に格納される。同様に、データベース1032は、
「buf」、「dad」および「bait」の中にある
ような音を表す各音素「ah」、「d」、「ey」を格
納する。
話を区別するために利用する音声の小単位を識別する各
音素を格納する。例えば、「cot」の中にあるような
音を表す音素「aa」が部分語モデルデータベース10
32に格納される。同様に、データベース1032は、
「buf」、「dad」および「bait」の中にある
ような音を表す各音素「ah」、「d」、「ey」を格
納する。
【0013】図1で、語もしくは数字またはその列は、
キーボード11のキー110およびキーパッド111上
の語または数字をタイプすることによって音声認識シス
テム1に入力される。他のアプリケーションでは、新た
な追加語および数字は、テープ、ディスクドライブ、外
部メモリまたは、プログラムによってコンピュータ10
にデータを入力するいくつかの異なる周知の手段(例え
ばキーボード入力プログラム1022)によって語およ
び数字を入力することによって音声認識システム1に追
加される。
キーボード11のキー110およびキーパッド111上
の語または数字をタイプすることによって音声認識シス
テム1に入力される。他のアプリケーションでは、新た
な追加語および数字は、テープ、ディスクドライブ、外
部メモリまたは、プログラムによってコンピュータ10
にデータを入力するいくつかの異なる周知の手段(例え
ばキーボード入力プログラム1022)によって語およ
び数字を入力することによって音声認識システム1に追
加される。
【0014】新しい語の部分語スペル生成プログラム1
020(図2)は、本発明の実施例によれば、中央処理
装置101の動作を制御し、辞書データベース1030
にアクセスすることによって語および数字の入力に応答
する。図3で、入力された語(例えば「house」)
が発見された場合、新しい語の部分語スペル生成プログ
ラム1020は、入力語によって識別される辞書データ
の辞書音声表示から音声表示列「haus」を生成す
る。
020(図2)は、本発明の実施例によれば、中央処理
装置101の動作を制御し、辞書データベース1030
にアクセスすることによって語および数字の入力に応答
する。図3で、入力された語(例えば「house」)
が発見された場合、新しい語の部分語スペル生成プログ
ラム1020は、入力語によって識別される辞書データ
の辞書音声表示から音声表示列「haus」を生成す
る。
【0015】辞書データベース1030に格納された語
の変形(例えば語「railroad」)が音声認識シ
ステム1に入力された場合、新しい語の部分語スペル生
成プログラム1020は、辞書データベース1030に
アクセスし、入力された「railroad」によって
識別される語「rail」および「road」とともに
格納された辞書データベース1030音声表示「rey
l」および「rowd」から音声表示列「reylro
wd」を生成する。
の変形(例えば語「railroad」)が音声認識シ
ステム1に入力された場合、新しい語の部分語スペル生
成プログラム1020は、辞書データベース1030に
アクセスし、入力された「railroad」によって
識別される語「rail」および「road」とともに
格納された辞書データベース1030音声表示「rey
l」および「rowd」から音声表示列「reylro
wd」を生成する。
【0016】新しい語の部分語スペル生成プログラム1
020は、各入力語およびそれに対応して生成された音
声表示列を語彙集データベース1031に記録する。こ
うして、入力語「car」および「railroad」
ならびにこれらに対応する音声列「kaar」および
「reylrowd」が、音声認識システム1によって
受信される発話語を認識する際に使用するために、語彙
集データベース1031に記録される。
020は、各入力語およびそれに対応して生成された音
声表示列を語彙集データベース1031に記録する。こ
うして、入力語「car」および「railroad」
ならびにこれらに対応する音声列「kaar」および
「reylrowd」が、音声認識システム1によって
受信される発話語を認識する際に使用するために、語彙
集データベース1031に記録される。
【0017】図1で、電話線31を通じて発話英数字デ
ータを受信後、自動音声認識(ASR)アルゴリズムプ
ログラム1021(図3)は、部分語モデルデータベー
ス1032にアクセスし、音素(発話を区別するために
利用される音声の小単位をそれぞれ識別する)の列から
なり、受信した発話語の音を表現するモデルを構成す
る。こうして、発話語「car」が受信された場合、A
SRアルゴリズムプログラム1021は、部分語モデル
データベース1032にアクセスし、受信した発話語
「car」を識別する音素列「k aa r」として音
素「k」、「aa」および「r」を構成する。同様にし
て、ASRアルゴリズムプログラム1021は、発話語
「railroad」の受信に応答して、部分語モデル
データベース1032にアクセスし、受信した発話語
「railroad」を表現する音素の列「r ey
l r ow d」からなるモデルを構成する。
ータを受信後、自動音声認識(ASR)アルゴリズムプ
ログラム1021(図3)は、部分語モデルデータベー
ス1032にアクセスし、音素(発話を区別するために
利用される音声の小単位をそれぞれ識別する)の列から
なり、受信した発話語の音を表現するモデルを構成す
る。こうして、発話語「car」が受信された場合、A
SRアルゴリズムプログラム1021は、部分語モデル
データベース1032にアクセスし、受信した発話語
「car」を識別する音素列「k aa r」として音
素「k」、「aa」および「r」を構成する。同様にし
て、ASRアルゴリズムプログラム1021は、発話語
「railroad」の受信に応答して、部分語モデル
データベース1032にアクセスし、受信した発話語
「railroad」を表現する音素の列「r ey
l r ow d」からなるモデルを構成する。
【0018】受信した発話語を表現する列音素モデルを
構成した後、ASRアルゴリズムプログラム1021は
語彙集データベース1031にアクセスし、構成された
列音素モデルを、語彙集データベース1031に記録さ
れた音声表示列と比較する。構成された列音素モデル
が、語彙集データベース1031に記録された音声表示
列と一致した場合、発話語は、一致した音声表示列に対
応する記録された語として認識される。
構成した後、ASRアルゴリズムプログラム1021は
語彙集データベース1031にアクセスし、構成された
列音素モデルを、語彙集データベース1031に記録さ
れた音声表示列と比較する。構成された列音素モデル
が、語彙集データベース1031に記録された音声表示
列と一致した場合、発話語は、一致した音声表示列に対
応する記録された語として認識される。
【0019】例えば、音声認識器システム1(図1)が
発話語「railroad」を受信した場合、ASRア
ルゴリズムプログラム1021(図3)は、部分語モデ
ルデータベース1032にアクセスし、列音素モデル
「r ey l r ow d」を構成する。次に、プ
ログラム1021は語彙集データベース1031にアク
セスし、構成された列音素モデル「r ey l r
ow d」を、語彙集に記録された音声表示列と比較す
る。構成された列音素モデル「r ey l row
d」が記録された音声表示列「reylrowd」と一
致した場合、発話語「railroad」は音声表示列
「reylrowd」とともに記録された語「rail
road」として認識される。
発話語「railroad」を受信した場合、ASRア
ルゴリズムプログラム1021(図3)は、部分語モデ
ルデータベース1032にアクセスし、列音素モデル
「r ey l r ow d」を構成する。次に、プ
ログラム1021は語彙集データベース1031にアク
セスし、構成された列音素モデル「r ey l r
ow d」を、語彙集に記録された音声表示列と比較す
る。構成された列音素モデル「r ey l row
d」が記録された音声表示列「reylrowd」と一
致した場合、発話語「railroad」は音声表示列
「reylrowd」とともに記録された語「rail
road」として認識される。
【0020】音声認識システム1(図1)は、通常、辞
書データベース1030および語彙集データベース10
31にそれぞれ多数の語を格納し記録している。システ
ムが追加語を認識することを可能にするために、追加語
が、音声認識システム1に入力され、語彙集データベー
ス1031に記録される。このような語は、音声認識シ
ステム1の特定アプリケーションで使用される固有語で
あることが可能である。本発明の実施例では、特定アプ
リケーションに固有の特殊な語「dwd」が音声認識シ
ステム1に入力されたと仮定する。
書データベース1030および語彙集データベース10
31にそれぞれ多数の語を格納し記録している。システ
ムが追加語を認識することを可能にするために、追加語
が、音声認識システム1に入力され、語彙集データベー
ス1031に記録される。このような語は、音声認識シ
ステム1の特定アプリケーションで使用される固有語で
あることが可能である。本発明の実施例では、特定アプ
リケーションに固有の特殊な語「dwd」が音声認識シ
ステム1に入力されたと仮定する。
【0021】「dwd」のような発話語を認識するため
に音声認識システム1を動作させる方法は、語「dw
d」から音声表示列「diydahbixlyuwdi
y」を生成するステップと、語「dwd」および生成さ
れた音声表示列「diydahbixlyuwdiy」
の両方を語彙集データベース1031(図3)に記録す
るステップからなる。発話語「dwd」を受信した後、
本発明の音声認識システム1を動作させる方法は、部分
語モデルデータベース1032にアクセスし、発話語
「dwd」の音を特徴づける音素のモデル列「d iy
d ah b ix l y uw d iy」を構
成する。
に音声認識システム1を動作させる方法は、語「dw
d」から音声表示列「diydahbixlyuwdi
y」を生成するステップと、語「dwd」および生成さ
れた音声表示列「diydahbixlyuwdiy」
の両方を語彙集データベース1031(図3)に記録す
るステップからなる。発話語「dwd」を受信した後、
本発明の音声認識システム1を動作させる方法は、部分
語モデルデータベース1032にアクセスし、発話語
「dwd」の音を特徴づける音素のモデル列「d iy
d ah b ix l y uw d iy」を構
成する。
【0022】構成された音素列モデル「d iy d
ah b ix l y uw diy」は、語彙集に
記録された音声表示列と比較され、構成された音素列モ
デル「d iy d ah b ix l y uw
d iy」と語彙集データベース1031に記録された
音声表示列「diydahbixlyuwdiy」の一
致があった場合、発話語は、一致した音声表示列「di
ydahbixlyuwdiy」とともに記録された語
「dwd」として認識される。
ah b ix l y uw diy」は、語彙集に
記録された音声表示列と比較され、構成された音素列モ
デル「d iy d ah b ix l y uw
d iy」と語彙集データベース1031に記録された
音声表示列「diydahbixlyuwdiy」の一
致があった場合、発話語は、一致した音声表示列「di
ydahbixlyuwdiy」とともに記録された語
「dwd」として認識される。
【0023】図1で、本発明の動作方法において、標準
語の辞書および各標準語の音声表示が最初に辞書データ
ベース1030に格納される。同様に、部分語モデルデ
ータベース1032は、最初に、「d」および「w」の
ような音素(発話を区別するために利用される音声の小
単位をそれぞれ識別する)を格納する。新しい語(例え
ば語「dwd」)を音声認識システム1に入力するため
には、語「dwd」がキーボード11にタイプされ、キ
ーボード入力プログラム1022に入力される(図4、
ステップ102200、102201)。
語の辞書および各標準語の音声表示が最初に辞書データ
ベース1030に格納される。同様に、部分語モデルデ
ータベース1032は、最初に、「d」および「w」の
ような音素(発話を区別するために利用される音声の小
単位をそれぞれ識別する)を格納する。新しい語(例え
ば語「dwd」)を音声認識システム1に入力するため
には、語「dwd」がキーボード11にタイプされ、キ
ーボード入力プログラム1022に入力される(図4、
ステップ102200、102201)。
【0024】新しい語の部分語スペル生成プログラム1
020(図1)は、英数字データおよびその変形(例え
ば語「dwd」)の入力に応答して、辞書データベース
1030にアクセスする(図4、ステップ10200
0、102001)。入力語が辞書データベース103
0に発見された場合(ステップ102002)、新しい
語の部分語スペル生成プログラム1020は、その後お
よび対応する音声表示列を選択し(ステップ10200
3)、その後および対応する音声表示列の両方を語彙集
データベース1031に記録する(ステップ10200
5、102006)。
020(図1)は、英数字データおよびその変形(例え
ば語「dwd」)の入力に応答して、辞書データベース
1030にアクセスする(図4、ステップ10200
0、102001)。入力語が辞書データベース103
0に発見された場合(ステップ102002)、新しい
語の部分語スペル生成プログラム1020は、その後お
よび対応する音声表示列を選択し(ステップ10200
3)、その後および対応する音声表示列の両方を語彙集
データベース1031に記録する(ステップ10200
5、102006)。
【0025】入力語(例えば語変形「dwd」)が辞書
データベース1030に発見されなかった場合(ステッ
プ102002)、新しい語の部分語スペル生成プログ
ラム1020は、図3で、成分語「d」および「w」を
辞書データベース1030から選択し、音声表示列「d
iydahbixlyuwdiy」を生成する(ステッ
プ102004)。語変形「dwd」および生成された
音声表示列「diydahbixlyuwdiy」は、
語彙集データベース1031に記録される(ステップ1
02005、102006)。
データベース1030に発見されなかった場合(ステッ
プ102002)、新しい語の部分語スペル生成プログ
ラム1020は、図3で、成分語「d」および「w」を
辞書データベース1030から選択し、音声表示列「d
iydahbixlyuwdiy」を生成する(ステッ
プ102004)。語変形「dwd」および生成された
音声表示列「diydahbixlyuwdiy」は、
語彙集データベース1031に記録される(ステップ1
02005、102006)。
【0026】さらに多くの語が音声認識システム1に入
力されている場合(ステップ102007)、ステップ
102201およびステップ102000〜10200
7が、すべての入力語が語彙集データベース1031に
記録されるまで反復され、その後、中央処理装置101
は、新しい語の部分語スペル生成プログラム1020を
終了する(ステップ102008)。
力されている場合(ステップ102007)、ステップ
102201およびステップ102000〜10200
7が、すべての入力語が語彙集データベース1031に
記録されるまで反復され、その後、中央処理装置101
は、新しい語の部分語スペル生成プログラム1020を
終了する(ステップ102008)。
【0027】ASRアルゴリズムプログラム1021に
従って動作する音声認識システム1(図1)は、電話線
31を通じて受信された発話語(例えば語「dwd」)
に応答して、部分語モデルデータベース1032にアク
セスする(図5、ステップ102100、10210
1、102102)。発話語「dwd」の受信に応答し
て、ASRアルゴリズムプログラム1021は、受信し
た発話語「dwd」を表現する音素の列からなるモデル
の構成を開始する(ステップ102103)。
従って動作する音声認識システム1(図1)は、電話線
31を通じて受信された発話語(例えば語「dwd」)
に応答して、部分語モデルデータベース1032にアク
セスする(図5、ステップ102100、10210
1、102102)。発話語「dwd」の受信に応答し
て、ASRアルゴリズムプログラム1021は、受信し
た発話語「dwd」を表現する音素の列からなるモデル
の構成を開始する(ステップ102103)。
【0028】このモデルの構成は、受信した「dwd」
の音に従い、音「d」の結果、列モデルの最初の部分で
「d iy」が選択される(ステップ102104)。
モデルは完成していない(ステップ102105)た
め、ステップ102101〜102105が反復され、
「w」の音の結果、音素「d ah b ix l y
uw」が部分語モデルデータベース1032から選択さ
れモデルに付加される。最後の音「d」の結果として音
素「d iy」が列に付加され、発話語「dwd」を表
現する音素列モデル「d iy d ah b ix
l y uwd iy」が完成する(ステップ1021
05)。
の音に従い、音「d」の結果、列モデルの最初の部分で
「d iy」が選択される(ステップ102104)。
モデルは完成していない(ステップ102105)た
め、ステップ102101〜102105が反復され、
「w」の音の結果、音素「d ah b ix l y
uw」が部分語モデルデータベース1032から選択さ
れモデルに付加される。最後の音「d」の結果として音
素「d iy」が列に付加され、発話語「dwd」を表
現する音素列モデル「d iy d ah b ix
l y uwd iy」が完成する(ステップ1021
05)。
【0029】発話語「dwd」を表現する構成された音
素列モデル「d iy d ahb ix l y u
w d iy」の完成後、ASRアルゴリズムプログラ
ム1021は、語彙集データベース1031にアクセス
し、構成された列音素モデル「d iy d ah b
ix l y uw d iy」を、語彙集データベ
ースに記録された音声表示列と比較する(ステップ10
2106、102107、102108)。
素列モデル「d iy d ahb ix l y u
w d iy」の完成後、ASRアルゴリズムプログラ
ム1021は、語彙集データベース1031にアクセス
し、構成された列音素モデル「d iy d ah b
ix l y uw d iy」を、語彙集データベ
ースに記録された音声表示列と比較する(ステップ10
2106、102107、102108)。
【0030】構成された音素列モデル「d iy d
ah b ix l y uw diy」と、記録され
た音声表示列「diydahbixlyuwdiy」の
一致があった場合(ステップ102109)、発話語
「dwd」が、語彙集データベース1031に記録され
た語「dwd」として認識される(ステップ10211
0)。さらに発話語がある場合(ステップ10211
1)、すべての語が認識されるまでステップ10210
1〜102111が反復される。
ah b ix l y uw diy」と、記録され
た音声表示列「diydahbixlyuwdiy」の
一致があった場合(ステップ102109)、発話語
「dwd」が、語彙集データベース1031に記録され
た語「dwd」として認識される(ステップ10211
0)。さらに発話語がある場合(ステップ10211
1)、すべての語が認識されるまでステップ10210
1〜102111が反復される。
【0031】一致が失敗した場合(ステップ10210
9)、かつ、一致試行が所定試行数以下である場合(ス
テップ102113)、ASRアルゴリズムプログラム
1021は、反復試行数を増加させ、発呼者に、発話語
を反復するよう促す(ステップ102114)。この場
合、ステップ102101〜102109が反復され
る。試行数が所定試行数を超過した場合、エラーが発生
したと判断される(ステップ102115)。
9)、かつ、一致試行が所定試行数以下である場合(ス
テップ102113)、ASRアルゴリズムプログラム
1021は、反復試行数を増加させ、発呼者に、発話語
を反復するよう促す(ステップ102114)。この場
合、ステップ102101〜102109が反復され
る。試行数が所定試行数を超過した場合、エラーが発生
したと判断される(ステップ102115)。
【0032】一致プロセス(ステップ102109)中
に、信頼性認識因子が、構成された音素列モデルと、語
彙集データベース1031に記録された音声表示列の一
致に対して割り当てられる。割り当てられた信頼性認識
因子が所定しきい値を超過した場合、構成された音素列
モデルに対応する発話語が、語彙集データベース103
1に記録されている、一致した音声表示列に対応する語
として認識されることが決定される。
に、信頼性認識因子が、構成された音素列モデルと、語
彙集データベース1031に記録された音声表示列の一
致に対して割り当てられる。割り当てられた信頼性認識
因子が所定しきい値を超過した場合、構成された音素列
モデルに対応する発話語が、語彙集データベース103
1に記録されている、一致した音声表示列に対応する語
として認識されることが決定される。
【0033】
【発明の効果】以上述べたごとく、本発明によれば、多
数の音声データサンプルの収集および確認を必要とせず
に、システムの所有者が自己のビジネスアプリケーショ
ンで使用される情報を音声認識システムに入力すること
ができるような、音声認識システムのための自動音声認
識器、および、その自動音声認識器を動作させる方法が
実現される。
数の音声データサンプルの収集および確認を必要とせず
に、システムの所有者が自己のビジネスアプリケーショ
ンで使用される情報を音声認識システムに入力すること
ができるような、音声認識システムのための自動音声認
識器、および、その自動音声認識器を動作させる方法が
実現される。
【図1】本発明の原理を実現する音声認識システムのブ
ロック図である。
ロック図である。
【図2】本発明の原理による、図1に示された音声認識
システムのプロセッサの詳細のブロック図である。
システムのプロセッサの詳細のブロック図である。
【図3】図1および2に示す音声認識システムとともに
使用されるプロセッサプログラムおよびデータベースフ
ァイルの例の図である。
使用されるプロセッサプログラムおよびデータベースフ
ァイルの例の図である。
【図4】本発明の原理による、図1に示された音声認識
システムの動作の流れ図である。
システムの動作の流れ図である。
【図5】本発明の原理による、図1に示された音声認識
システムの動作の流れ図である。
システムの動作の流れ図である。
1 音声認識システム 3 電話機 10 コンピュータ 11 キーボード 12 ビデオ端末 31 電話線 100 インタフェースユニット 101 中央処理装置 102 メモリユニット 103 データ記憶装置 104 データバス 110 キー 111 キーパッド 1020 新しい語の部分語スペル生成プログラム 1021 自動音声認識(ASR)アルゴリズムプログ
ラム 1022 キーボード入力プログラム 1030 辞書データベース 1031 語彙集データベース 1032 部分語モデルデータベース 1110 データリンク
ラム 1022 キーボード入力プログラム 1030 辞書データベース 1031 語彙集データベース 1032 部分語モデルデータベース 1110 データリンク
───────────────────────────────────────────────────── フロントページの続き (72)発明者 エンリコ エル.ボッチェリ アメリカ合衆国 07940 ニュージャージ ー マジソン、ナンバー31 マジソン ア ヴェニュー 17 (72)発明者 セダ アイ.ゴクセン アメリカ合衆国 43230 オハイオ ガー ナ、ウィットレー ドライヴ 474 (72)発明者 ラジェンドラ ピー.ミッキリネニ アメリカ合衆国 43230 オハイオ ガー ナ、ステッドウェイ コート 551 (72)発明者 デヴィッド ビー.ロー アメリカ合衆国 07922 ニュージャージ ー バークレー ハイツ、オーヴァールッ ク ドライヴ 8 (72)発明者 ジェイ ゴードン ウィルポン アメリカ合衆国 07059 ニュージャージ ー ウォーレン、ラウンド トップ ロー ド 75
Claims (20)
- 【請求項1】 語から音声表示の列を生成し、その語お
よび生成した音声表示列を語彙集に記録するプロセッサ
手段からなり、 このプロセッサ手段が、 発話語の受信に応答して、その発話語を特徴づける部分
語のモデルを構成し、構成した部分語モデルと生成した
音声表示列が一致した場合に発話語を前記語として認識
するために、構成した部分語モデルを語彙集に記録され
た音声表示列と比較することを特徴とする音声認識装
置。 - 【請求項2】 プロセッサ手段が、語および各格納語の
音声表示を格納する辞書データベースを有することを特
徴とする請求項1の装置。 - 【請求項3】 プロセッサ手段が、前記語およびその変
形を、前記語およびその語変形を表現する音声表示の列
とともに記録する語彙集データベースを有することを特
徴とする請求項2の装置。 - 【請求項4】 プロセッサ手段が、前記音声認識装置へ
の語の入力に応答して、辞書データベースにアクセス
し、入力された語およびその組合せによって識別される
音声表示の列を辞書データベースの音声表示から生成
し、入力された語および生成した音声表示列を語彙集デ
ータベースに記録する手段を有することを特徴とする請
求項3の装置。 - 【請求項5】 プロセッサ手段が、発話を区別するため
に利用される音声の小単位をそれぞれ識別する部分語を
格納する部分語モデルデータベースを有することを特徴
とする請求項4の装置。 - 【請求項6】 プロセッサ手段が、前記音声認識装置に
よる語の受信に応答して、部分語モデルデータベースに
アクセスし、前記受信した発話語を表現する部分語の列
からなるモデルを構成することを特徴とする請求項5の
装置。 - 【請求項7】 アクセス・構成手段が、語彙集データベ
ースにアクセスし、構成した部分語列モデルを、語彙集
データベースに記録された音声表示列と比較し、構成し
た列部分語モデルと一致する音声表示列とともに記録さ
れた語として前記発話語を認識する手段を有することを
特徴とする請求項6の装置。 - 【請求項8】 語から音声表示の列を生成し、その語お
よび生成した音声表示列を語彙集データベースに記録す
る手段と、 発話語の受信に応答して、その発話語の音を特徴づける
音素の列のモデルを構成し、語彙集データベースにアク
セスし、モデル音素列と語彙集データベースに記録され
た音声表示列のうちの1つが一致した場合に、一致した
語彙集データベースに記録された音声表示列とともに記
録された語として前記発話語を認識するために、構成し
た音素列モデルを語彙集データベースに記録された音声
表示列と比較する手段とからなることを特徴とする音声
認識装置。 - 【請求項9】 語および各格納語の音声表示を格納する
辞書データベースと、 前記語およびその変形を、前記語およびその語変形を表
現する音声表示の列とともに記録する語彙集データベー
スと、 音声認識装置への語の入力に応答して、辞書データベー
スにアクセスし、入力された語およびその変形によって
識別される音声表示の列を辞書データベースから生成
し、入力された語および生成した音声表示列を語彙集デ
ータベースに記録する第1プロセッサ手段と、 発話を区別するために利用される音声の小単位をそれぞ
れ識別する音素を格納する部分語モデルデータベース
と、 前記音声認識装置による発話語の受信に応答して、部分
語モデルデータベースにアクセスし、前記受信した発話
語を表現する音声の小単位を表す音素の列からなるモデ
ルを構成し、構成した音素モデル列と一致する音声表示
列とともに記録された語として前記発話語を認識するた
めに、構成した音素モデル列を語彙集データベースに記
録された音声表示列と比較する第2プロセッサ手段とか
らなることを特徴とする音声認識装置。 - 【請求項10】 語の変形をそれぞれ表現する音声表示
を格納し、発話を区別するために利用される音声の小単
位をそれぞれ識別する音素を格納する手段と、 語を識別する音声表示の列を生成し、その語および生成
した音声表示列の両方を前記格納手段に記録するプロセ
ッサ手段とからなり、このプロセッサ手段が、 発話語の受信に応答して、その発話語を特徴づける音素
の列のモデルを構成し、モデル音素列が記録された音声
表示列のうちの1つと一致した場合に、記録された音声
表示列に対応しそれとともに記録された語として前記発
話語を認識するために、構成した音素列モデルを記録さ
れた音声表示列と比較することを特徴とする音声認識装
置。 - 【請求項11】 語から音声表示の列を生成し、その語
および生成した音声表示列を語彙集に記録するステップ
と、 発話語の受信後、その発話後を特徴づける音素の列のモ
デルを構成し、発話語を語彙集に記録された語のうちの
1つとして認識するために、構成した音素列モデルを語
彙集に記録された音声表示列と比較するステップとから
なることを特徴とする音声認識装置の動作方法。 - 【請求項12】 前記生成・記録ステップが、語および
各格納語の音声表示を辞書データベースに格納するステ
ップを有することを特徴とする請求項11の方法。 - 【請求項13】 前記生成・記録ステップが、前記語お
よびその変形を、前記語およびその語変形を表現する音
声表示の列とともに語彙集データベースに記録するステ
ップをさらに有することを特徴とする請求項12の方
法。 - 【請求項14】 前記生成・記録ステップが、 前記音声認識装置への語の入力に応答して、辞書データ
ベースにアクセスするステップと、 入力された語およびその組合せによって識別される音声
表示の列を辞書データベースに格納された音声表示から
生成するステップと、 入力された語および生成した音声表示列を語彙集データ
ベースに記録するステップとをさらに有することを特徴
とする請求項13の方法。 - 【請求項15】 発話を区別するために利用される音声
の小単位をそれぞれ識別する音素を部分語モデルデータ
ベースに格納するステップをさらに有することを特徴と
する請求項14の方法。 - 【請求項16】 前記構成・比較ステップが、 前記音声認識装置による語の受信に応答して、部分語モ
デルデータベースにアクセスするステップと、 前記受信した発話語を表現する音素の列からなるモデル
を構成するステップとを有することを特徴とする請求項
15の方法。 - 【請求項17】 前記構成・比較ステップが、 語彙集データベースにアクセスするステップと、 構成した列音素モデルを、語彙集データベースに記録さ
れた音声表示列と比較するステップと、 構成した列音素モデルと一致する音声表示列とともに記
録された語として前記発話語を認識するステップとをさ
らに有することを特徴とする請求項16の方法。 - 【請求項18】 プロセッサを有する音声認識装置にお
いて、 このプロセッサは、このプロセッサと結合されたキーボ
ードで入力された語に応答して、キーボード入力語から
音声表示の列を生成し、その語および生成した音声表示
列を語彙集に記録し、発話語の受信に応答して、その発
話語を特徴づける音素の列モデルを構成し、その発話語
をキーボード入力語として認識するために、構成した音
素モデル列を語彙集に記録された音声表示列と比較する
ことを特徴とする音声認識装置。 - 【請求項19】 英数字データの変形をそれぞれ表現す
る音声表示を格納し、発話を区別するために利用される
音声の小単位をそれぞれ識別する音素を格納する手段
と、 英数字データを識別する音声表示の列を生成し、その英
数字データおよびその英数字データに対応して生成した
音声表示列の両方を前記格納手段に記録する手段とから
なり、この手段が、 発話英数字データの受信に応答して、その発話英数字デ
ータを特徴づける音素の列のモデルを構成し、モデル音
素列が記録された音声表示列のうちの1つと一致した場
合に、記録された音声表示列に対応する英数字データと
して前記発話英数字データを認識するために、構成した
音素列モデルを記録された音声表示列と比較することを
特徴とする音声認識装置。 - 【請求項20】 英数字データから音声表示の列を計算
し、その英数字データおよびそれに対応する生成した音
声表示列の両方を語彙集に記録するステップと、 入力された英数字データの受信後、入力された英数字デ
ータを特徴づける音素の列のモデルを構成し、入力され
た英数字データを語彙集に記録された英数字データのう
ちの1つとして認識するために、構成した音素列モデル
を語彙集に記録された音声表示列と比較するステップと
からなることを特徴とする音声認識方法。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US86239492A | 1992-04-02 | 1992-04-02 | |
| US862394 | 1992-04-02 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0612092A true JPH0612092A (ja) | 1994-01-21 |
Family
ID=25338399
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5098442A Pending JPH0612092A (ja) | 1992-04-02 | 1993-04-02 | 音声認識装置およびその動作方法 |
Country Status (8)
| Country | Link |
|---|---|
| US (1) | US5329608A (ja) |
| EP (1) | EP0564166B1 (ja) |
| JP (1) | JPH0612092A (ja) |
| KR (1) | KR930022267A (ja) |
| CA (1) | CA2088080C (ja) |
| DE (1) | DE69327188T2 (ja) |
| ES (1) | ES2142332T3 (ja) |
| FI (1) | FI931471A7 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6952675B1 (en) | 1999-09-10 | 2005-10-04 | International Business Machines Corporation | Methods and apparatus for voice information registration and recognized sentence specification in accordance with speech recognition |
Families Citing this family (198)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5951300A (en) | 1997-03-10 | 1999-09-14 | Health Hero Network | Online system and method for providing composite entertainment and health information |
| US8626521B2 (en) * | 1997-11-21 | 2014-01-07 | Robert Bosch Healthcare Systems, Inc. | Public health surveillance system |
| US20030212579A1 (en) * | 2002-05-08 | 2003-11-13 | Brown Stephen J. | Remote health management system |
| US5307263A (en) | 1992-11-17 | 1994-04-26 | Raya Systems, Inc. | Modular microprocessor-based health monitoring system |
| US5956501A (en) | 1997-01-10 | 1999-09-21 | Health Hero Network, Inc. | Disease simulation system and method |
| US6196970B1 (en) | 1999-03-22 | 2001-03-06 | Stephen J. Brown | Research data collection and analysis |
| US8027809B2 (en) | 1992-11-17 | 2011-09-27 | Health Hero Network, Inc. | Home power management system |
| US7970620B2 (en) * | 1992-11-17 | 2011-06-28 | Health Hero Network, Inc. | Multi-user remote health monitoring system with biometrics support |
| US7613590B2 (en) | 1992-11-17 | 2009-11-03 | Health Hero Network, Inc. | Modular microprocessor-based power tool system |
| US7624028B1 (en) | 1992-11-17 | 2009-11-24 | Health Hero Network, Inc. | Remote health monitoring and maintenance system |
| US8078407B1 (en) | 1997-03-28 | 2011-12-13 | Health Hero Network, Inc. | System and method for identifying disease-influencing genes |
| US5832448A (en) | 1996-10-16 | 1998-11-03 | Health Hero Network | Multiple patient monitoring system for proactive health management |
| US20010011224A1 (en) | 1995-06-07 | 2001-08-02 | Stephen James Brown | Modular microprocessor-based health monitoring system |
| US6330426B2 (en) | 1994-05-23 | 2001-12-11 | Stephen J. Brown | System and method for remote education using a memory card |
| US8078431B2 (en) | 1992-11-17 | 2011-12-13 | Health Hero Network, Inc. | Home power management system |
| US6968375B1 (en) | 1997-03-28 | 2005-11-22 | Health Hero Network, Inc. | Networked system for interactive communication and remote monitoring of individuals |
| WO2001037174A1 (en) | 1992-11-17 | 2001-05-25 | Health Hero Network, Inc. | Method and system for improving adherence with a diet program or other medical regimen |
| US8095340B2 (en) | 1992-11-17 | 2012-01-10 | Health Hero Network, Inc. | Home power management system |
| US9215979B2 (en) | 1992-11-17 | 2015-12-22 | Robert Bosch Healthcare Systems, Inc. | Multi-user remote health monitoring system |
| DE69425564D1 (de) * | 1993-03-12 | 2000-09-21 | Stanford Res Inst Int | Verfahren und vorrichtung für sprachunterricht mittels interaktiver sprachsteuerung |
| US5369704A (en) * | 1993-03-24 | 1994-11-29 | Engate Incorporated | Down-line transcription system for manipulating real-time testimony |
| US7249026B1 (en) * | 1993-03-24 | 2007-07-24 | Engate Llc | Attorney terminal having outline preparation capabilities for managing trial proceedings |
| US7631343B1 (en) * | 1993-03-24 | 2009-12-08 | Endgate LLC | Down-line transcription system using automatic tracking and revenue collection |
| US5623578A (en) * | 1993-10-28 | 1997-04-22 | Lucent Technologies Inc. | Speech recognition system allows new vocabulary words to be added without requiring spoken samples of the words |
| US5970454A (en) * | 1993-12-16 | 1999-10-19 | British Telecommunications Public Limited Company | Synthesizing speech by converting phonemes to digital waveforms |
| US8015033B2 (en) * | 1994-04-26 | 2011-09-06 | Health Hero Network, Inc. | Treatment regimen compliance and efficacy with feedback |
| US5737723A (en) * | 1994-08-29 | 1998-04-07 | Lucent Technologies Inc. | Confusable word detection in speech recognition |
| AU684214B2 (en) * | 1994-09-07 | 1997-12-04 | Motorola, Inc. | System for recognizing spoken sounds from continuous speech and method of using same |
| US5594834A (en) * | 1994-09-30 | 1997-01-14 | Motorola, Inc. | Method and system for recognizing a boundary between sounds in continuous speech |
| US5596679A (en) * | 1994-10-26 | 1997-01-21 | Motorola, Inc. | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs |
| US5638486A (en) * | 1994-10-26 | 1997-06-10 | Motorola, Inc. | Method and system for continuous speech recognition using voting techniques |
| EP0789901B1 (en) * | 1994-11-01 | 2000-01-05 | BRITISH TELECOMMUNICATIONS public limited company | Speech recognition |
| US5680510A (en) * | 1995-01-26 | 1997-10-21 | Apple Computer, Inc. | System and method for generating and using context dependent sub-syllable models to recognize a tonal language |
| US5822727A (en) * | 1995-03-30 | 1998-10-13 | At&T Corp | Method for automatic speech recognition in telephony |
| US5724481A (en) * | 1995-03-30 | 1998-03-03 | Lucent Technologies Inc. | Method for automatic speech recognition of arbitrary spoken words |
| US5675706A (en) * | 1995-03-31 | 1997-10-07 | Lucent Technologies Inc. | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition |
| JP3741156B2 (ja) * | 1995-04-07 | 2006-02-01 | ソニー株式会社 | 音声認識装置および音声認識方法並びに音声翻訳装置 |
| US5745875A (en) * | 1995-04-14 | 1998-04-28 | Stenovations, Inc. | Stenographic translation system automatic speech recognition |
| US5852801A (en) * | 1995-10-04 | 1998-12-22 | Apple Computer, Inc. | Method and apparatus for automatically invoking a new word module for unrecognized user input |
| US5832439A (en) * | 1995-12-14 | 1998-11-03 | U S West, Inc. | Method and system for linguistic command processing in a video server network |
| GB9601925D0 (en) * | 1996-01-31 | 1996-04-03 | British Telecomm | Database access |
| US7305348B1 (en) | 1996-02-20 | 2007-12-04 | Health Hero Network, Inc. | Aggregating and pooling health related information in a communication system with feedback |
| DE59700536D1 (de) * | 1996-04-02 | 1999-11-11 | Siemens Ag | Anordnung zur erstellung eines digitalen wörterbuchs und verfahren zum aufbau eines digitalen wörterbuchs mit hilfe eines rechners |
| US5758024A (en) * | 1996-06-25 | 1998-05-26 | Microsoft Corporation | Method and system for encoding pronunciation prefix trees |
| US5752230A (en) * | 1996-08-20 | 1998-05-12 | Ncr Corporation | Method and apparatus for identifying names with a speech recognition program |
| US6018568A (en) * | 1996-09-25 | 2000-01-25 | At&T Corp. | Voice dialing system |
| WO1998014934A1 (en) * | 1996-10-02 | 1998-04-09 | Sri International | Method and system for automatic text-independent grading of pronunciation for language instruction |
| US5991712A (en) * | 1996-12-05 | 1999-11-23 | Sun Microsystems, Inc. | Method, apparatus, and product for automatic generation of lexical features for speech recognition systems |
| US6151586A (en) * | 1996-12-23 | 2000-11-21 | Health Hero Network, Inc. | Computerized reward system for encouraging participation in a health management program |
| US7590549B2 (en) | 1996-12-23 | 2009-09-15 | Health Hero Network, Inc. | Network media access control system for encouraging patient compliance with a treatment plan |
| US6032119A (en) | 1997-01-16 | 2000-02-29 | Health Hero Network, Inc. | Personalized display of health information |
| JP3373755B2 (ja) | 1997-04-09 | 2003-02-04 | 株式会社鷹山 | 複素型逆拡散処理装置 |
| CA2294430C (en) * | 1997-06-26 | 2016-02-02 | Charles Schwab & Co., Inc. | System and method for automatically providing financial services to a user using speech signals |
| US6006181A (en) * | 1997-09-12 | 1999-12-21 | Lucent Technologies Inc. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoder network |
| US6404876B1 (en) * | 1997-09-25 | 2002-06-11 | Gte Intelligent Network Services Incorporated | System and method for voice activated dialing and routing under open access network control |
| US6108627A (en) * | 1997-10-31 | 2000-08-22 | Nortel Networks Corporation | Automatic transcription tool |
| US5983177A (en) * | 1997-12-18 | 1999-11-09 | Nortel Networks Corporation | Method and apparatus for obtaining transcriptions from multiple training utterances |
| US6243678B1 (en) * | 1998-04-07 | 2001-06-05 | Lucent Technologies Inc. | Method and system for dynamic speech recognition using free-phone scoring |
| US6233553B1 (en) * | 1998-09-04 | 2001-05-15 | Matsushita Electric Industrial Co., Ltd. | Method and system for automatically determining phonetic transcriptions associated with spelled words |
| US8521546B2 (en) | 1998-09-25 | 2013-08-27 | Health Hero Network | Dynamic modeling and scoring risk assessment |
| FR2786600B1 (fr) * | 1998-11-16 | 2001-04-20 | France Telecom | Procede de recherche par le contenu de documents textuels utilisant la reconnaissance vocale |
| WO2000036591A1 (en) * | 1998-12-17 | 2000-06-22 | Koninklijke Philips Electronics N.V. | Speech operated automatic inquiry system |
| JP2002535728A (ja) * | 1999-01-05 | 2002-10-22 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | サブワードメモリを含む音声認識装置 |
| US20080201168A1 (en) * | 1999-05-03 | 2008-08-21 | Brown Stephen J | Treatment regimen compliance and efficacy with feedback |
| US7797730B2 (en) * | 1999-06-24 | 2010-09-14 | Engate Llc | Downline transcription system using automatic tracking and revenue collection |
| US6442520B1 (en) | 1999-11-08 | 2002-08-27 | Agere Systems Guardian Corp. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network |
| JP2001249684A (ja) * | 2000-03-02 | 2001-09-14 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| US7047196B2 (en) | 2000-06-08 | 2006-05-16 | Agiletv Corporation | System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery |
| JP2002123283A (ja) * | 2000-10-12 | 2002-04-26 | Nissan Motor Co Ltd | 音声認識操作装置 |
| US8095370B2 (en) | 2001-02-16 | 2012-01-10 | Agiletv Corporation | Dual compression voice recordation non-repudiation system |
| US20030192688A1 (en) * | 2002-04-10 | 2003-10-16 | Thomson Michael A. | Tubing saver rotator and method for using same |
| EP1652173B1 (en) | 2002-06-28 | 2015-12-30 | Chemtron Research LLC | Method and system for processing speech |
| DE10253786B4 (de) * | 2002-11-19 | 2009-08-06 | Anwaltssozietät BOEHMERT & BOEHMERT GbR (vertretungsberechtigter Gesellschafter: Dr. Carl-Richard Haarmann, 28209 Bremen) | Verfahren zur rechnergestützten Ermittlung einer Ähnlichkeit eines elektronisch erfassten ersten Kennzeichens zu mindestens einem elektronisch erfassten zweiten Kennzeichen sowie Vorrichtung und Computerprogramm zur Durchführung desselben |
| US7260480B1 (en) | 2003-04-07 | 2007-08-21 | Health Hero Network, Inc. | Method and system for integrating feedback loops in medical knowledge development and healthcare management |
| US7399276B1 (en) | 2003-05-08 | 2008-07-15 | Health Hero Network, Inc. | Remote health monitoring system |
| US8954325B1 (en) * | 2004-03-22 | 2015-02-10 | Rockstar Consortium Us Lp | Speech recognition in automated information services systems |
| US7831549B2 (en) * | 2004-09-17 | 2010-11-09 | Nokia Corporation | Optimization of text-based training set selection for language processing modules |
| KR100679042B1 (ko) * | 2004-10-27 | 2007-02-06 | 삼성전자주식회사 | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 |
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US7925677B2 (en) * | 2006-03-16 | 2011-04-12 | Tele Atlas North America, Inc. | Geographic feature name reduction using phonetic algorithms |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
| US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
| US8744856B1 (en) | 2011-02-22 | 2014-06-03 | Carnegie Speech Company | Computer implemented system and method and computer program product for evaluating pronunciation of phonemes in a language |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| GB2486038B (en) * | 2011-06-28 | 2013-09-25 | Andrew Levine | Speech-to-text conversion |
| US8781825B2 (en) * | 2011-08-24 | 2014-07-15 | Sensory, Incorporated | Reducing false positives in speech recognition systems |
| US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
| US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
| US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
| WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
| WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
| KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
| KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
| US8768712B1 (en) * | 2013-12-04 | 2014-07-01 | Google Inc. | Initiating actions based on partial hotwords |
| US9953632B2 (en) * | 2014-04-17 | 2018-04-24 | Qualcomm Incorporated | Keyword model generation for detecting user-defined keyword |
| US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
| US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
| US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
| US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
| US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
| US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
| US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
| US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
| US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
| US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
| US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
| US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
| US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
| KR102075796B1 (ko) * | 2017-11-14 | 2020-03-02 | 주식회사 엘솔루 | 자동 음성인식 장치 및 방법 |
| CN116386678A (zh) | 2018-08-27 | 2023-07-04 | 谷歌有限责任公司 | 故事读者阅读中断的算法确定 |
| US11417325B2 (en) | 2018-09-04 | 2022-08-16 | Google Llc | Detection of story reader progress for pre-caching special effects |
| US11526671B2 (en) * | 2018-09-04 | 2022-12-13 | Google Llc | Reading progress estimation based on phonetic fuzzy matching and confidence interval |
| US11328712B2 (en) * | 2019-08-02 | 2022-05-10 | International Business Machines Corporation | Domain specific correction of output from automatic speech recognition |
Family Cites Families (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4277644A (en) * | 1979-07-16 | 1981-07-07 | Bell Telephone Laboratories, Incorporated | Syntactic continuous speech recognizer |
| USRE32012E (en) * | 1980-06-09 | 1985-10-22 | At&T Bell Laboratories | Spoken word controlled automatic dialer |
| USRE33597E (en) * | 1982-10-15 | 1991-05-28 | Hidden Markov model speech recognition arrangement | |
| GB8412424D0 (en) * | 1983-10-26 | 1984-06-20 | Marconi Co Ltd | Speech responsive apparatus |
| US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
| US4748670A (en) * | 1985-05-29 | 1988-05-31 | International Business Machines Corporation | Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor |
| US4757541A (en) * | 1985-11-05 | 1988-07-12 | Research Triangle Institute | Audio visual speech recognition |
| US4882759A (en) * | 1986-04-18 | 1989-11-21 | International Business Machines Corporation | Synthesizing word baseforms used in speech recognition |
| JP2815579B2 (ja) * | 1987-03-10 | 1998-10-27 | 富士通株式会社 | 音声認識における単語候補削減装置 |
| US5072452A (en) * | 1987-10-30 | 1991-12-10 | International Business Machines Corporation | Automatic determination of labels and Markov word models in a speech recognition system |
| JP2955297B2 (ja) * | 1988-05-27 | 1999-10-04 | 株式会社東芝 | 音声認識システム |
| US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
| US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
| DE4022511A1 (de) * | 1990-07-14 | 1992-01-16 | Grundig Emv | Sprachgesteuertes geraet der unterhaltungselektronik insbesondere videorecorder |
-
1993
- 1993-01-26 CA CA002088080A patent/CA2088080C/en not_active Expired - Fee Related
- 1993-03-25 DE DE69327188T patent/DE69327188T2/de not_active Expired - Lifetime
- 1993-03-25 ES ES93302286T patent/ES2142332T3/es not_active Expired - Lifetime
- 1993-03-25 EP EP93302286A patent/EP0564166B1/en not_active Expired - Lifetime
- 1993-03-26 KR KR1019921004783A patent/KR930022267A/ko active Pending
- 1993-04-01 FI FI931471A patent/FI931471A7/fi unknown
- 1993-04-02 JP JP5098442A patent/JPH0612092A/ja active Pending
- 1993-08-18 US US08/108,839 patent/US5329608A/en not_active Expired - Lifetime
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6952675B1 (en) | 1999-09-10 | 2005-10-04 | International Business Machines Corporation | Methods and apparatus for voice information registration and recognized sentence specification in accordance with speech recognition |
Also Published As
| Publication number | Publication date |
|---|---|
| FI931471A7 (fi) | 1993-10-03 |
| FI931471A0 (fi) | 1993-04-01 |
| EP0564166A3 (en) | 1995-03-29 |
| CA2088080A1 (en) | 1993-10-03 |
| ES2142332T3 (es) | 2000-04-16 |
| EP0564166B1 (en) | 1999-12-08 |
| DE69327188T2 (de) | 2004-09-02 |
| EP0564166A2 (en) | 1993-10-06 |
| HK1004497A1 (en) | 1998-11-27 |
| DE69327188D1 (de) | 2000-01-13 |
| US5329608A (en) | 1994-07-12 |
| CA2088080C (en) | 1997-10-07 |
| KR930022267A (ko) | 1993-11-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH0612092A (ja) | 音声認識装置およびその動作方法 | |
| US7143037B1 (en) | Spelling words using an arbitrary phonetic alphabet | |
| US6269335B1 (en) | Apparatus and methods for identifying homophones among words in a speech recognition system | |
| JP3388845B2 (ja) | 混同するほど類似した語句の入力を防止する方法と装置 | |
| US9418152B2 (en) | System and method for flexible speech to text search mechanism | |
| US5454062A (en) | Method for recognizing spoken words | |
| US5748840A (en) | Methods and apparatus for improving the reliability of recognizing words in a large database when the words are spelled or spoken | |
| JP3477052B2 (ja) | 連続音声認識中にフレーズを編集する方法及びシステム | |
| JP3860613B2 (ja) | 音声信号中の発声単語列の認識方法及び装置 | |
| US20020123894A1 (en) | Processing speech recognition errors in an embedded speech recognition system | |
| US20070094003A1 (en) | Conversation controller | |
| US20030149561A1 (en) | Spoken dialog system using a best-fit language model and best-fit grammar | |
| US20030220793A1 (en) | Interactive system and method of controlling same | |
| JP3703991B2 (ja) | 自由音声評点法を用いた動的音声認識の方法および装置 | |
| US6260014B1 (en) | Specific task composite acoustic models | |
| KR100467590B1 (ko) | 발음 사전 갱신 장치 및 방법 | |
| JP2010054549A (ja) | 回答音声認識システム | |
| US6952674B2 (en) | Selecting an acoustic model in a speech recognition system | |
| JPH07261793A (ja) | 対話処理装置 | |
| KR20210150833A (ko) | 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 | |
| KR20190070682A (ko) | 강의 콘텐츠 구성 및 제공을 위한 시스템 및 방법 | |
| EP1187431B1 (en) | Portable terminal with voice dialing minimizing memory usage | |
| CN109213877A (zh) | 一种基于智能语音人机互动设备的金融服务系统 | |
| HK1004497B (en) | Automatic speech recognizer | |
| JPH06175698A (ja) | 音声検索装置 |