JPH03144875A - 文字の認識方法及び音素の認識方法 - Google Patents
文字の認識方法及び音素の認識方法Info
- Publication number
- JPH03144875A JPH03144875A JP2280534A JP28053490A JPH03144875A JP H03144875 A JPH03144875 A JP H03144875A JP 2280534 A JP2280534 A JP 2280534A JP 28053490 A JP28053490 A JP 28053490A JP H03144875 A JPH03144875 A JP H03144875A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- probability
- character
- data
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 17
- 238000012549 training Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、文字と音素の認識技術に関する。さらに詳し
くは、本発明は、未知の人力文字または音素を認識する
ため、−組の類似する可能性を有する文字または音素を
使用する技術に関する。
くは、本発明は、未知の人力文字または音素を認識する
ため、−組の類似する可能性を有する文字または音素を
使用する技術に関する。
(従来技術)
1988年4月、ニューヨークで開催された音響、音声
、および信号処理に関する国際会議で発表されたKun
du、 A、およびBahl、 Pの「手書き文字の認
識、隠れたマルコフ・モデルに基づくアプローチ」の9
28頁〜931頁に、文字に基づく語の認2装置が説明
され、これは正しく認識された語またはその語の推測の
1つとしての正しい語を含む語の小さな組いずれかを出
力する。929頁には一組の特徴が説明され、これらの
特徴に対して最適の符号がベクトル量子化アルゴリズム
および距離の測度としての重み付けをしないユークリッ
ド距離を使用して発生され、これにはサンプルの文字が
付けられている。各文字の特徴のべりトルは、最短距離
基準、即ち最も近い隣接法則に従って符号の1つとして
分類され、この符号に関する確率が決定される。これら
の符号は、隠れたマルコフ・モデルと関連して認識のた
めに使用される。
、および信号処理に関する国際会議で発表されたKun
du、 A、およびBahl、 Pの「手書き文字の認
識、隠れたマルコフ・モデルに基づくアプローチ」の9
28頁〜931頁に、文字に基づく語の認2装置が説明
され、これは正しく認識された語またはその語の推測の
1つとしての正しい語を含む語の小さな組いずれかを出
力する。929頁には一組の特徴が説明され、これらの
特徴に対して最適の符号がベクトル量子化アルゴリズム
および距離の測度としての重み付けをしないユークリッ
ド距離を使用して発生され、これにはサンプルの文字が
付けられている。各文字の特徴のべりトルは、最短距離
基準、即ち最も近い隣接法則に従って符号の1つとして
分類され、この符号に関する確率が決定される。これら
の符号は、隠れたマルコフ・モデルと関連して認識のた
めに使用される。
パターン認識、第21巻、第5号、1988年の455
ないし462頁記載のGoshtasby、 A、およ
びEhrich、 R,W、による「確率的緩和分類法
を使用した文脈による語の認識」には、確率的緩和分類
法を使用した文脈による語の認識方法が説明されている
。第1図に関連して図示および説明されるように、文脈
による語の認識システムは文字認識モジュールを有し、
このモジュールは、各入力文字に対してこれらの入力さ
れた文字がaから2までのラベルを有することの確イ言
(conf 1dence)を示す26の数字を割り当
てる。この確信は、次に確率に変換される。この文字認
識装置の出力は、実際には代替セットと呼ぶ一連のセッ
トのシーケンスであり、各セントは特定の文字に対する
代替案を非ゼロの確率で有する。全ての可能性のある語
は代替のセットの各々から1つの文字を選択することに
よって得られるが、これらの代替のセットから形成でき
るこれらの語の内1つのみが正しい語である。事後処理
装置は、言語の文脈の情報を使用して代替のセットのシ
ーケンスから正しい語を識別する。456頁から始まる
第2章は主要な事後処理方法を概説している。第3章と
第4章は、提案された事後処理装置によって得られた結
果を紹介および説明しており、この情報処理装置は、ラ
ベルの確率が収束して特定の語を決定する迄、語中のこ
の確率を反復して更新するために文字の遷移確率を使用
する。第5図は、入力された語の類似性の測度に対して
事後処理装置がどのように作用するかを示し、この事後
処理装置は低い類似性の測度をゼロに設定し、最も一致
したろうベルが得られる迄、緩和プロセスを反復して適
用して残りの類似性を確率値に変換する。
ないし462頁記載のGoshtasby、 A、およ
びEhrich、 R,W、による「確率的緩和分類法
を使用した文脈による語の認識」には、確率的緩和分類
法を使用した文脈による語の認識方法が説明されている
。第1図に関連して図示および説明されるように、文脈
による語の認識システムは文字認識モジュールを有し、
このモジュールは、各入力文字に対してこれらの入力さ
れた文字がaから2までのラベルを有することの確イ言
(conf 1dence)を示す26の数字を割り当
てる。この確信は、次に確率に変換される。この文字認
識装置の出力は、実際には代替セットと呼ぶ一連のセッ
トのシーケンスであり、各セントは特定の文字に対する
代替案を非ゼロの確率で有する。全ての可能性のある語
は代替のセットの各々から1つの文字を選択することに
よって得られるが、これらの代替のセットから形成でき
るこれらの語の内1つのみが正しい語である。事後処理
装置は、言語の文脈の情報を使用して代替のセットのシ
ーケンスから正しい語を識別する。456頁から始まる
第2章は主要な事後処理方法を概説している。第3章と
第4章は、提案された事後処理装置によって得られた結
果を紹介および説明しており、この情報処理装置は、ラ
ベルの確率が収束して特定の語を決定する迄、語中のこ
の確率を反復して更新するために文字の遷移確率を使用
する。第5図は、入力された語の類似性の測度に対して
事後処理装置がどのように作用するかを示し、この事後
処理装置は低い類似性の測度をゼロに設定し、最も一致
したろうベルが得られる迄、緩和プロセスを反復して適
用して残りの類似性を確率値に変換する。
(発明の概要)
本発明は、文字または音素確率クラスタという中間的な
認識にもとづいて文字または音素の候補を認識する方法
を提供する。さらに、本発明は、認識において文字また
は音素確率クラスタ識別装置を使用する方法を提供する
。例えば、クラスタの識別装置は、このクラスタの文字
または音素の確率を定義するデータを取り出すために使
用することができる。
認識にもとづいて文字または音素の候補を認識する方法
を提供する。さらに、本発明は、認識において文字また
は音素確率クラスタ識別装置を使用する方法を提供する
。例えば、クラスタの識別装置は、このクラスタの文字
または音素の確率を定義するデータを取り出すために使
用することができる。
本発明の特徴の1つは、文字および音素の認識に対する
従来のアプローチの基本問題を認識することに基づく。
従来のアプローチの基本問題を認識することに基づく。
一般的に、各文字または音素の候補は、単一の文字また
は音素の種類の例、つまり長さが固定されたものかまた
は固定されたしきい値を超える確率を有する文字または
音素の種類の短いリストの例として分類され、またはい
ずれの確率も固定されたしきい値を超えないために結論
に到達できない文字または音素を疑わしい文字または音
素と分類される。分類の結果は、シーケンスの次の候補
に移る前に、事後分類装置または事後処理装置に転送さ
れる。しかしこの方法の分類は、しばしば認識に役に立
つ候補、情報に適用できる他の文字または音素の種類に
関する情報を無駄に廃棄する。
は音素の種類の例、つまり長さが固定されたものかまた
は固定されたしきい値を超える確率を有する文字または
音素の種類の短いリストの例として分類され、またはい
ずれの確率も固定されたしきい値を超えないために結論
に到達できない文字または音素を疑わしい文字または音
素と分類される。分類の結果は、シーケンスの次の候補
に移る前に、事後分類装置または事後処理装置に転送さ
れる。しかしこの方法の分類は、しばしば認識に役に立
つ候補、情報に適用できる他の文字または音素の種類に
関する情報を無駄に廃棄する。
この特徴は、異なるアプローチを行うことによって、こ
の問題を解決できることを発見したことに更に基づいて
いる。1つの最も可能性の高い種類の例、または最も可
能性の高い種類の短いリストの例として、各候補を分類
するのではなく、本発明の方法は、この候補に対する一
組の完全な確率に基づいて、多数の文字または音素確率
クラスタのいずれがこの候補に最も近似しているかを識
別する。これらの確率のクラスタは文字または音素の確
率空間で定義され、各クラスタは一組の文字または音素
の種類の全ての文字または音素の種類に対してそれぞれ
の確率を有する。したがって、いずれのクラスタが候補
に最も近似しているか識別すれば、すべての種類に対す
るそのクラスタの確率に関する比較的正確な情報を得る
ことができる。
の問題を解決できることを発見したことに更に基づいて
いる。1つの最も可能性の高い種類の例、または最も可
能性の高い種類の短いリストの例として、各候補を分類
するのではなく、本発明の方法は、この候補に対する一
組の完全な確率に基づいて、多数の文字または音素確率
クラスタのいずれがこの候補に最も近似しているかを識
別する。これらの確率のクラスタは文字または音素の確
率空間で定義され、各クラスタは一組の文字または音素
の種類の全ての文字または音素の種類に対してそれぞれ
の確率を有する。したがって、いずれのクラスタが候補
に最も近似しているか識別すれば、すべての種類に対す
るそのクラスタの確率に関する比較的正確な情報を得る
ことができる。
本発明の他の特徴は、従来の文字または音素認識システ
ムのアーキテクチャの基本的な問題を認識することに基
づいている。かかるシステムは、候補が1つである可能
性が最も高い種類の例として、または候補の数が少ない
可能性が最も高い複数の種類の例として分類される迄、
従来この候補に関する全ての情報を保持している。最も
可能性のが高い1つの種類または複数の種類を表わすデ
ータは、事後分類装置または事後処理装置に加えること
ができる。複数の工程または処理装置の間の候補に関す
るより完全な情報を転送するためには、より広い帯域幅
を必要とし、これはモジュラ−化に必要な分類装置と事
後分類装置との間の従来の狭い帯域幅での接続と干渉す
る。モジュール化は重要であるが、その理由は、これに
よって異なった事後分類装置を所定の分類装置と共に使
用することが可能になり、また異なった分類装置を所定
の事後分類装置と共に使用することが可能になるからで
ある。要約すれば、モジュラ−・システムであって、事
後分類装置または事後処理装置に完全な情報を与えるシ
ステムを提供することは困難である。
ムのアーキテクチャの基本的な問題を認識することに基
づいている。かかるシステムは、候補が1つである可能
性が最も高い種類の例として、または候補の数が少ない
可能性が最も高い複数の種類の例として分類される迄、
従来この候補に関する全ての情報を保持している。最も
可能性のが高い1つの種類または複数の種類を表わすデ
ータは、事後分類装置または事後処理装置に加えること
ができる。複数の工程または処理装置の間の候補に関す
るより完全な情報を転送するためには、より広い帯域幅
を必要とし、これはモジュラ−化に必要な分類装置と事
後分類装置との間の従来の狭い帯域幅での接続と干渉す
る。モジュール化は重要であるが、その理由は、これに
よって異なった事後分類装置を所定の分類装置と共に使
用することが可能になり、また異なった分類装置を所定
の事後分類装置と共に使用することが可能になるからで
ある。要約すれば、モジュラ−・システムであって、事
後分類装置または事後処理装置に完全な情報を与えるシ
ステムを提供することは困難である。
この特徴は、認識システムのモジュール間を狭い帯域幅
で接続しても、比較的完全な各候補の情報の転送が妨げ
られないということを認識することに更に基づいている
。言い換えれば、認識システムの上流のモジュールは、
さらに処理を行う下流のモジュールに比較的完全な各候
補の情報を提供できる。
で接続しても、比較的完全な各候補の情報の転送が妨げ
られないということを認識することに更に基づいている
。言い換えれば、認識システムの上流のモジュールは、
さらに処理を行う下流のモジュールに比較的完全な各候
補の情報を提供できる。
この解決方法は、文字または音素の確率空間中でその候
補に最も近似し、各々の認識可能な種類に対するそれぞ
れの確率を有する確率のクラスタを識別するデータを各
候補に対して提供することによって実行できる。各クラ
スタを識別するデータ(ここでは「クラスタIDJと呼
ぶ)は、それ自身、全ての適当な制約充足方法によって
、文字または音素の種類を識別するデータ(ここでは「
文字IDJまたは「音素IDJと呼ぶ)を得る場合に使
用できる。もし結論に達するために必要であれば、この
クラスタIDを使用して、1つ以上の種類に対するこの
クラスタのそれぞれの確率、即ちその後に続く識別ステ
ップの期間中に取り出すための予備的トレーニング・ス
テップの期間中に記憶されているこれらの確率に関する
適当な適切なデータを取り出すことができる。
補に最も近似し、各々の認識可能な種類に対するそれぞ
れの確率を有する確率のクラスタを識別するデータを各
候補に対して提供することによって実行できる。各クラ
スタを識別するデータ(ここでは「クラスタIDJと呼
ぶ)は、それ自身、全ての適当な制約充足方法によって
、文字または音素の種類を識別するデータ(ここでは「
文字IDJまたは「音素IDJと呼ぶ)を得る場合に使
用できる。もし結論に達するために必要であれば、この
クラスタIDを使用して、1つ以上の種類に対するこの
クラスタのそれぞれの確率、即ちその後に続く識別ステ
ップの期間中に取り出すための予備的トレーニング・ス
テップの期間中に記憶されているこれらの確率に関する
適当な適切なデータを取り出すことができる。
これを実行すると、確率のクラスタの識別装置と制約充
足装置との間のモジュール化が可能になり、複数のクラ
スタIDを送信するためのこれらの装置の間を接続する
帯域幅が狭くなる。トレーニングステップの期間中、ク
ラスタ識別装置は各クラスタに対する文字または音素の
確率に関するデータを記憶し、識別ステップの期間中、
この制約充足装置はクラスタIDを使用して対応する確
率データを取り出すことができる。この解決方法の1つ
の利点は、識別の期間中、制約充足装置は、複数のクラ
スタIDのシーケンスを提供するためのみに、確率のク
ラスタ識別装置に依存することである。その結果、制約
充足装置は、文脈内の各候補に関する比較的完全な情報
を有しながら、任意の長い文脈に渡って動作することが
でき、この情報はこれらのクラスタIDからコンパクト
な形成で得ることができる。確率クラスタの識別装置と
制約充足装置は、1つの処理装置で動作する独立したプ
ロセスであってもよく、または並列処理装置で動作して
もよく、いずれの場合でも、クラスタIDを使用するこ
とによって、これらの処理装置の間を比較的狭い帯域幅
でリンクすることができる。
足装置との間のモジュール化が可能になり、複数のクラ
スタIDを送信するためのこれらの装置の間を接続する
帯域幅が狭くなる。トレーニングステップの期間中、ク
ラスタ識別装置は各クラスタに対する文字または音素の
確率に関するデータを記憶し、識別ステップの期間中、
この制約充足装置はクラスタIDを使用して対応する確
率データを取り出すことができる。この解決方法の1つ
の利点は、識別の期間中、制約充足装置は、複数のクラ
スタIDのシーケンスを提供するためのみに、確率のク
ラスタ識別装置に依存することである。その結果、制約
充足装置は、文脈内の各候補に関する比較的完全な情報
を有しながら、任意の長い文脈に渡って動作することが
でき、この情報はこれらのクラスタIDからコンパクト
な形成で得ることができる。確率クラスタの識別装置と
制約充足装置は、1つの処理装置で動作する独立したプ
ロセスであってもよく、または並列処理装置で動作して
もよく、いずれの場合でも、クラスタIDを使用するこ
とによって、これらの処理装置の間を比較的狭い帯域幅
でリンクすることができる。
以下の説明、図面および特許請求の範囲は、本発明のこ
れらおよび他の目的、特徴並びに利点を更に説明する。
れらおよび他の目的、特徴並びに利点を更に説明する。
(実施例)
A、概念的な構成
以下の概念的な構成は、本発明の広範な範囲を理解する
のに役に立ち、以下で定義する用語は特許請求の範囲を
含む本出願全体で示す意味を持つ。
のに役に立ち、以下で定義する用語は特許請求の範囲を
含む本出願全体で示す意味を持つ。
「語」とは、言語の最小単位の意味である。
「書き言葉」は、アルファベット、数字、または絵文字
の要素のような個別の要素の形態で記録された複数の語
のことである。「話し言葉」または「会話」は、話し手
から発せられたような連続的な形態で受は取った語を意
味する。記録された会話のような連続的な形態で記録さ
れた語は、従って「書き表した語」ではないが、再生さ
れた場合は「話し言葉」となる。「隔離された話し言葉
」とは、全ての先行する語または後続する語から別々に
受は取られた「話し言葉」である。
の要素のような個別の要素の形態で記録された複数の語
のことである。「話し言葉」または「会話」は、話し手
から発せられたような連続的な形態で受は取った語を意
味する。記録された会話のような連続的な形態で記録さ
れた語は、従って「書き表した語」ではないが、再生さ
れた場合は「話し言葉」となる。「隔離された話し言葉
」とは、全ての先行する語または後続する語から別々に
受は取られた「話し言葉」である。
「テキスト」とは「書き言葉」の配列であり、通常はシ
ーケンスのことである。したがって、「テキスト」はゼ
ロ以上の語を有し、各語は少なくとも1個の個別の要素
を含む。
ーケンスのことである。したがって、「テキスト」はゼ
ロ以上の語を有し、各語は少なくとも1個の個別の要素
を含む。
「文字」とは、テキストで現れる個別の要素を意味する
。したがって、「文字」は英数字の要素のみではなく、
句読点、区分表示杆、およびテキストに含まれる他の要
素も含む。「文字の種類」とは、「文字」がレター(l
e t ter)または数字のようなものである可能性
を有する範晴のことである。
。したがって、「文字」は英数字の要素のみではなく、
句読点、区分表示杆、およびテキストに含まれる他の要
素も含む。「文字の種類」とは、「文字」がレター(l
e t ter)または数字のようなものである可能性
を有する範晴のことである。
「音素」とは、「会話」で発生する一連の要素の一部で
ある1つの要素を意味する。辞書に見られるような語の
音素による表現は一連の「音素」である。「音素の種類
」とは、「音素」が1つの例となる可能性のある範喝で
ある。
ある1つの要素を意味する。辞書に見られるような語の
音素による表現は一連の「音素」である。「音素の種類
」とは、「音素」が1つの例となる可能性のある範喝で
ある。
「文字の候補」とは、分類または識別のためにシステム
に独立して与えられるテキストのいずれかの部分である
。一般的な文字認識システムの場合、文字の候補は、文
字の候補が文字であることを示す基準に基づいて区分さ
れているテキストの一部である。
に独立して与えられるテキストのいずれかの部分である
。一般的な文字認識システムの場合、文字の候補は、文
字の候補が文字であることを示す基準に基づいて区分さ
れているテキストの一部である。
「音素の候補」とは、分類または識別のためにシステム
に独立して与えられる発声のいずれかの部分である。一
般的な音素認識システムの場合、音素の候補は、音素の
候補が音素であることを示す基準に基づいて区分されて
いる発声の一部である。
に独立して与えられる発声のいずれかの部分である。一
般的な音素認識システムの場合、音素の候補は、音素の
候補が音素であることを示す基準に基づいて区分されて
いる発声の一部である。
「候補」とは、文字の候補または音素の候補のいずれか
を意味することができる。
を意味することができる。
「文字の確率空間」とは、各寸法(dimension
)によって、ある候補が特定の文字の種類の例であるこ
との確率が示される数学的空間である。「音素の確率空
間」とは、各寸法によって、ある候補が特定の音素の種
類の例であることの確率が示される数学的空間である。
)によって、ある候補が特定の文字の種類の例であるこ
との確率が示される数学的空間である。「音素の確率空
間」とは、各寸法によって、ある候補が特定の音素の種
類の例であることの確率が示される数学的空間である。
「文字の確率のクラスタ」とは、文字または文字の候補
が発生する文字の確率空間の統計的に定義された領域で
ある。文字の確率のクラスタは、例えば、このクラスタ
内で生じる文字および文字の候補の確率の平均値、また
はこのクラスタの中心の他の統計的な測度によって定義
することができる。これは、更にこのクラスタ内で生じ
る文字の確率および候補の確率の分散、またはその形状
または寸法を他の統計的な測度(measure)によ
って定義することができる。
が発生する文字の確率空間の統計的に定義された領域で
ある。文字の確率のクラスタは、例えば、このクラスタ
内で生じる文字および文字の候補の確率の平均値、また
はこのクラスタの中心の他の統計的な測度によって定義
することができる。これは、更にこのクラスタ内で生じ
る文字の確率および候補の確率の分散、またはその形状
または寸法を他の統計的な測度(measure)によ
って定義することができる。
「音素の確率のクラスタ」とは、音素または音素の候補
が発生する音素確率空間の統計的に定義された領域であ
る。音素の確率のクラスタは、例えば、このクラスタ内
で生じる音素および音素の候補の確率の平均値、または
このクラスタの中心の他の統計的な測度によって定義す
ることができる。これは、更にこのクラスタ内で生じる
音素の確率および候補の確率の分散、またはその形状ま
たは寸法を他の統計的な測度によって定義することがで
きる。
が発生する音素確率空間の統計的に定義された領域であ
る。音素の確率のクラスタは、例えば、このクラスタ内
で生じる音素および音素の候補の確率の平均値、または
このクラスタの中心の他の統計的な測度によって定義す
ることができる。これは、更にこのクラスタ内で生じる
音素の確率および候補の確率の分散、またはその形状ま
たは寸法を他の統計的な測度によって定義することがで
きる。
「クラスタ」とは、「文字の確率のクラスタ」または「
音素の確率のクラスタ」のいづれかを意味する。
音素の確率のクラスタ」のいづれかを意味する。
「クラスタIDJとは、−組のクラスタの1つを示すデ
ータである。r文字IDJとは、−組の文字の種類の1
つを示すデータである。「音素ID」とは、−組の音素
の種類の1つを示すデータである。
ータである。r文字IDJとは、−組の文字の種類の1
つを示すデータである。「音素ID」とは、−組の音素
の種類の1つを示すデータである。
クラスタと候補との間の「距離」は、候補の確率の間の
ユークリッド距離によって、または他のいづれかの統計
的距離の測度によって定義することができる。
ユークリッド距離によって、または他のいづれかの統計
的距離の測度によって定義することができる。
クラスタとある候補との間の距離が他のいづれのクラス
タと候補との間の距離よりも短い場合、多数のクラスタ
の1つはその候補と「最短」にある。
タと候補との間の距離よりも短い場合、多数のクラスタ
の1つはその候補と「最短」にある。
「制約充足装置」とは、システムに与えられるデータが
一組の制約を充足するかどうかを決定するこのシステム
のいずれかの構成要素である。
一組の制約を充足するかどうかを決定するこのシステム
のいずれかの構成要素である。
「制約充足装置」は、データが制約を充足するかどうか
を決定することのできるプロセス、処理装置、または他
のいづれかの構成要素である。「制約充足装置」は、規
則またはパターン、またはこれらの規則またはパターン
のいづれかの組み合わせを含むいづれかの適当な形態で
制約を取り扱うことができる。
を決定することのできるプロセス、処理装置、または他
のいづれかの構成要素である。「制約充足装置」は、規
則またはパターン、またはこれらの規則またはパターン
のいづれかの組み合わせを含むいづれかの適当な形態で
制約を取り扱うことができる。
B、−船釣な特徴
本発明の一般的な特徴は、第1図と第2図から理解する
ことができる。第1図は、本発明の特徴を実行するシス
テムの幾つかの構成要素を示す。
ことができる。第1図は、本発明の特徴を実行するシス
テムの幾つかの構成要素を示す。
第2図は、第1図のシステムの構成要素によって実行さ
れるステップを示す。
れるステップを示す。
一般的な特徴についての以下の説明は、文字および文字
認識に関して述べているが、注記したものを除いて、音
素および音素認識にも同様に適用できる。
認識に関して述べているが、注記したものを除いて、音
素および音素認識にも同様に適用できる。
第1図は、文字認識システム10の幾つかの構成要素を
示す。システム10は、文字候補に対して認識されるべ
き文字を含むテキストに関するデータを区分する構成要
素および各候補に関連するデータを得る構成要素のよう
な図示していない他の従来の構成要素をまた有すること
もできる。確率のクラスタの識別装置12は、各候補に
関するデータを順に受は取り、図示のように、この装置
が受は取るデータは、各識別可能な文字の種類について
、当該候補がその種類である確率を示す確率データであ
る。識別装置12は、多数のクラスタの内のいずれが各
候補に最も近いかを決定し、これらのクラスタは、上で
定義したように、文字の確率のクラスタである。与えら
れたクラスタがある候補に最も近似すると決定すれば、
識別装置12はその出力として対応するクラスタ■Dを
発生する。
示す。システム10は、文字候補に対して認識されるべ
き文字を含むテキストに関するデータを区分する構成要
素および各候補に関連するデータを得る構成要素のよう
な図示していない他の従来の構成要素をまた有すること
もできる。確率のクラスタの識別装置12は、各候補に
関するデータを順に受は取り、図示のように、この装置
が受は取るデータは、各識別可能な文字の種類について
、当該候補がその種類である確率を示す確率データであ
る。識別装置12は、多数のクラスタの内のいずれが各
候補に最も近いかを決定し、これらのクラスタは、上で
定義したように、文字の確率のクラスタである。与えら
れたクラスタがある候補に最も近似すると決定すれば、
識別装置12はその出力として対応するクラスタ■Dを
発生する。
制約充足装置14は、これらのクラスタIDを識別装置
12から受は取り、メモリ16から関係データを取り出
す。メモリ16は、制約充足装置14が一連のクラスタ
!Dが関係する制約を充足するかどうか決定する場合に
使用することのできる規則とパターンに関連する規則/
パターン・データ18を図示のように記憶する。メモリ
16は、また文字/確率データ20も記憶し、これらの
データは、そのクラスタに対する特定の文字の種類の各
々の確率を得るために、クラスタIDに基づいてアクセ
スすることができる。取り出されたデータおよびこれら
のクラスタIDに基づいて、制約充足装置14は一連の
文字!Dを取得し、装置14はこれらの文字IDをその
出力とする。制約充足装置14は、代りにg!識別子を
その出力とすることもできる。
12から受は取り、メモリ16から関係データを取り出
す。メモリ16は、制約充足装置14が一連のクラスタ
!Dが関係する制約を充足するかどうか決定する場合に
使用することのできる規則とパターンに関連する規則/
パターン・データ18を図示のように記憶する。メモリ
16は、また文字/確率データ20も記憶し、これらの
データは、そのクラスタに対する特定の文字の種類の各
々の確率を得るために、クラスタIDに基づいてアクセ
スすることができる。取り出されたデータおよびこれら
のクラスタIDに基づいて、制約充足装置14は一連の
文字!Dを取得し、装置14はこれらの文字IDをその
出力とする。制約充足装置14は、代りにg!識別子を
その出力とすることもできる。
第2図は、文字rc1.Jで示され確率のクラスタ識別
装置12によって実行されるステップ、および文字rc
s、Jで示され制約充足装置14によって実行されるス
テップを示す。
装置12によって実行されるステップ、および文字rc
s、Jで示され制約充足装置14によって実行されるス
テップを示す。
ボックス30で、識別装置12は、上述したように文字
の種類に対する確率データのような次の候補に対するデ
ータを受は取る。ボックス32では、最も近似するクラ
スタが識別され、ボックス34では、次の候補に対する
データを受は取るためにボックス30に戻る前に、最短
のクラスタのクラスタIDが出力される。
の種類に対する確率データのような次の候補に対するデ
ータを受は取る。ボックス32では、最も近似するクラ
スタが識別され、ボックス34では、次の候補に対する
データを受は取るためにボックス30に戻る前に、最短
のクラスタのクラスタIDが出力される。
ボックス40で、制約充足装置14は識別装置12から
の次のクラスタIDを受は取る。制約充足を実行するコ
ースの場合、ボックス42の分岐は、特定の文字の種類
の各々の確率についてのデータがこのクラスタIDと関
連して必要かどうかに基づいて実行される。必要なら、
ボックス44のステップは必要な確率を取り出す。ボッ
クス46の分岐は、制約を充足させることが成功である
かどうかによって実行され、もし成功であれば、制約充
足装置14はボックス48で出力として識別された複数
の文字IDを出力し、もし成功でなければ、プロセスは
次のクラスタIDを受は取るためにボックス40に戻る
。
の次のクラスタIDを受は取る。制約充足を実行するコ
ースの場合、ボックス42の分岐は、特定の文字の種類
の各々の確率についてのデータがこのクラスタIDと関
連して必要かどうかに基づいて実行される。必要なら、
ボックス44のステップは必要な確率を取り出す。ボッ
クス46の分岐は、制約を充足させることが成功である
かどうかによって実行され、もし成功であれば、制約充
足装置14はボックス48で出力として識別された複数
の文字IDを出力し、もし成功でなければ、プロセスは
次のクラスタIDを受は取るためにボックス40に戻る
。
ここで、本発明がどのように実行されるかを検討する。
C0実行
本発明は種々の方法で実行することができる。
第3図ないし第5図は、1つのシリアル処理装置に適し
た実行を示す、第3図は、クラスタ識別装置のトレーニ
ングの場合のステップを示し、第4図は識別を行う場合
のステップを示す、第5図は、第3図と第4図のステッ
プを実行するシステムの構成要素を示す。
た実行を示す、第3図は、クラスタ識別装置のトレーニ
ングの場合のステップを示し、第4図は識別を行う場合
のステップを示す、第5図は、第3図と第4図のステッ
プを実行するシステムの構成要素を示す。
第3図のトレーニングを行う場合、−船釣に、トウJ、
T、 (Tou、 J、 T、)およびゴンザL/、
2. R。
T、 (Tou、 J、 T、)およびゴンザL/、
2. R。
C,(Gonzalez+ R,C,)によるパターン
認識の原理、1974年、ロンドン、アディソンーウエ
ズレイ社刊、97ないし100頁に述べられたアイソデ
ータ (isodata)アルゴリズムのステップに従
うが、これはここに参考文献として含まれている。この
文献に示されるように、アイソデータ・アルゴリズムは
、原理的にはに平均クラスタ化と同様である。結果が文
字または音素確率空間内の一組のクラスタであり、各々
がそれぞれの組の確率とクラスタIDを有するものであ
れば、K平均クラスタ化または他のいずれかの適当なア
ルゴリズムも、トレーニング・ステップで使用すること
ができる。
認識の原理、1974年、ロンドン、アディソンーウエ
ズレイ社刊、97ないし100頁に述べられたアイソデ
ータ (isodata)アルゴリズムのステップに従
うが、これはここに参考文献として含まれている。この
文献に示されるように、アイソデータ・アルゴリズムは
、原理的にはに平均クラスタ化と同様である。結果が文
字または音素確率空間内の一組のクラスタであり、各々
がそれぞれの組の確率とクラスタIDを有するものであ
れば、K平均クラスタ化または他のいずれかの適当なア
ルゴリズムも、トレーニング・ステップで使用すること
ができる。
各クラスタの平均値または他の統計的な中心の座標は、
例えば、そのクラスタの確率として使用することができ
る。
例えば、そのクラスタの確率として使用することができ
る。
ボックス100のステップで、使用者はアイソデータ・
アルゴリズムのステップ1と同様に、最初の確率のクラ
スタの中央値(center)とパラメータを選択する
。これらの最初のクラスタの中央値は無作為に選択する
ことができる。所望のクラスタの中央値の数は、認識で
きる文字または音素の数の3倍である。クラスタ当たり
のサンプルの最小数は5である。標準偏差のパラメータ
は、全てのトレーニング・データに対してサンプル標準
偏差の最小要素に設定することができる。−括(lum
ping)パラメータは、標準偏差のパラメータの3分
の1に設定することができる。−括することのできるク
ラスタの中央値の対の最大数は2に設定できる。許容反
復回数は最初100に設定することができるが、収束す
るにしたがってコンピュータ時間が許せば増加すること
ができる。
アルゴリズムのステップ1と同様に、最初の確率のクラ
スタの中央値(center)とパラメータを選択する
。これらの最初のクラスタの中央値は無作為に選択する
ことができる。所望のクラスタの中央値の数は、認識で
きる文字または音素の数の3倍である。クラスタ当たり
のサンプルの最小数は5である。標準偏差のパラメータ
は、全てのトレーニング・データに対してサンプル標準
偏差の最小要素に設定することができる。−括(lum
ping)パラメータは、標準偏差のパラメータの3分
の1に設定することができる。−括することのできるク
ラスタの中央値の対の最大数は2に設定できる。許容反
復回数は最初100に設定することができるが、収束す
るにしたがってコンピュータ時間が許せば増加すること
ができる。
ボックス102のステップで、−組のサンプル確率リス
トを集積しくcluster)、アイソデータ・アルゴ
リズムのステップ2ないし6と同様に、関連する演算を
実行する。サンプル確率リストは、識別ステップで使用
されるのと同じ分類装置から得なければならない。この
分類装置は、ある候補に対して完全な確率リストを提供
する決定ツリーまたは従来からある他のいずれの分類装
置でもよい、ボックス102で集積するためのサンプル
確率リストを設けるため、この分類装置は識別ステップ
で識別されるべきテキスト、または会話を正しく表すテ
キスト、または会話に基づいて動作しなければならない
。集積の結果、新しい一組の中央値が得られ、各々の中
央値は対応する中心を有し、この中心の座標は完全な確
率リストを定義する。
トを集積しくcluster)、アイソデータ・アルゴ
リズムのステップ2ないし6と同様に、関連する演算を
実行する。サンプル確率リストは、識別ステップで使用
されるのと同じ分類装置から得なければならない。この
分類装置は、ある候補に対して完全な確率リストを提供
する決定ツリーまたは従来からある他のいずれの分類装
置でもよい、ボックス102で集積するためのサンプル
確率リストを設けるため、この分類装置は識別ステップ
で識別されるべきテキスト、または会話を正しく表すテ
キスト、または会話に基づいて動作しなければならない
。集積の結果、新しい一組の中央値が得られ、各々の中
央値は対応する中心を有し、この中心の座標は完全な確
率リストを定義する。
集積が完了すると、トレーニング・ステップは、ボック
ス110で最後の反復が実行されたかどうかに基づいて
分岐する。もし実行されなかった場合、ボックス112
のステップは、状況に応じクラスタの中央値を分割、ま
たは集積して、使用者が新しいパラメータを設定するこ
とを可能にし、アイソデータ・アルゴリズムのステソブ
マないし13と同様に、関連する計算を実行する。次に
、トレーニング・ステップはボックス102に戻ってサ
ンプル確率リストを再び集積する。
ス110で最後の反復が実行されたかどうかに基づいて
分岐する。もし実行されなかった場合、ボックス112
のステップは、状況に応じクラスタの中央値を分割、ま
たは集積して、使用者が新しいパラメータを設定するこ
とを可能にし、アイソデータ・アルゴリズムのステソブ
マないし13と同様に、関連する計算を実行する。次に
、トレーニング・ステップはボックス102に戻ってサ
ンプル確率リストを再び集積する。
最終の反復が実行されると、ボックス104のステップ
は、各々の最終クラスタに対して、そのIDとその中心
の座標を記憶し、これらは対応する確率リストを定義す
る。これによってトレーニング・ステップを完了する。
は、各々の最終クラスタに対して、そのIDとその中心
の座標を記憶し、これらは対応する確率リストを定義す
る。これによってトレーニング・ステップを完了する。
第4図の識別ステップはボックス120で開始され、こ
こで識別用の一組の候補の確率リストを受は取る。これ
らの確率リストは、第3図のボックス102で集積され
たサンプル確率リストを与えたのと同じ分類装置によっ
て与えられなければならず、バッファまたはバッファ化
したデータ構造を介して分類装置から非同期的に受は取
ることができる。
こで識別用の一組の候補の確率リストを受は取る。これ
らの確率リストは、第3図のボックス102で集積され
たサンプル確率リストを与えたのと同じ分類装置によっ
て与えられなければならず、バッファまたはバッファ化
したデータ構造を介して分類装置から非同期的に受は取
ることができる。
ボックス122のステップは、バッファからの候補の確
率リストの各々を順に取り扱う反復ループによって開始
される。ボックス124のステップは、次の候補の確率
リストを第、3図のボックス114に記憶されたのと同
様に、最終クラスタの確率リストと比較し、最短のクラ
スタを見出だす。
率リストの各々を順に取り扱う反復ループによって開始
される。ボックス124のステップは、次の候補の確率
リストを第、3図のボックス114に記憶されたのと同
様に、最終クラスタの確率リストと比較し、最短のクラ
スタを見出だす。
この比較は、ユークリッドの距離またはマハラノビスの
距離によって行うことができる。最短のクラスタを見出
すと、そのクラスタのクラスタIDはボックス126で
出力され、この識別ステップはボックス122のステッ
プに戻り、取り扱うべき候補がなくなるまでm続し、な
くなった時点でこの識別ステップは終了する。
距離によって行うことができる。最短のクラスタを見出
すと、そのクラスタのクラスタIDはボックス126で
出力され、この識別ステップはボックス122のステッ
プに戻り、取り扱うべき候補がなくなるまでm続し、な
くなった時点でこの識別ステップは終了する。
第4図のこれらのステップは、第2図のクラスタ識別装
置によって実行されるステップと対応する。ボックス1
20はボックス30と対応し、ボックス124はボック
ス32と対応し、ボックス126はボックス34と対応
する。
置によって実行されるステップと対応する。ボックス1
20はボックス30と対応し、ボックス124はボック
ス32と対応し、ボックス126はボックス34と対応
する。
第5図は、第3図と第4図のステップを実行するシステ
ム150を示す、システム150は、処理装置152、
ワークステーションCPUまたは他の適当な処理装置を
有する。処理装置152は入力装置154を介して入力
を受は取り、これはテキスト・スキャナ、受話器、マウ
ス付きキーボード、およびその他の適当な装置を有する
ことができる。処理装置152は出力装置156を介し
て出力を発生し、この出力装置はCRTまたは他の表示
装置を含む。処理装置は、また動作中にメモリ158を
アクセスする。
ム150を示す、システム150は、処理装置152、
ワークステーションCPUまたは他の適当な処理装置を
有する。処理装置152は入力装置154を介して入力
を受は取り、これはテキスト・スキャナ、受話器、マウ
ス付きキーボード、およびその他の適当な装置を有する
ことができる。処理装置152は出力装置156を介し
て出力を発生し、この出力装置はCRTまたは他の表示
装置を含む。処理装置は、また動作中にメモリ158を
アクセスする。
メモリ158は、プログラム・メモリ160とデータ・
メモリ170を図示のように有するが、メモリ158は
いずれかの適当な方法によって管理することができる。
メモリ170を図示のように有するが、メモリ158は
いずれかの適当な方法によって管理することができる。
プログラム・メモリ160は、分類装置162、第3図
と同様に実行することのできるクラスタ識別装置トレー
ニング・ルーチン164、第4図と同様に実行すること
のできるクラスタ識別ルーチン166、および制約充足
装置168を有し、この制約充足装置168は、「スト
リング認識に基づく文脈の文字または音素の認識」とい
う名称の共願の共に譲渡されている米国特許出願番号第
07/427,147号(ドケソト番号第D/8836
4号)に説明される方法によって実行することができ、
これはここで参考文献として参照しているものである。
と同様に実行することのできるクラスタ識別装置トレー
ニング・ルーチン164、第4図と同様に実行すること
のできるクラスタ識別ルーチン166、および制約充足
装置168を有し、この制約充足装置168は、「スト
リング認識に基づく文脈の文字または音素の認識」とい
う名称の共願の共に譲渡されている米国特許出願番号第
07/427,147号(ドケソト番号第D/8836
4号)に説明される方法によって実行することができ、
これはここで参考文献として参照しているものである。
データ・メモIJ 170は、制約充足装置168用の
規則/パターン・データ172、トレーニング・ルーチ
ン用のトレーニング・サンプル174とトレーニング・
パラメータ176、トレーニング・ルーチン164によ
って記憶され識別ルーチン166によってアクセスされ
るクラスタ確率リスト/[D178、および候補確率リ
スト・バッファのようなデータ用の別の一時的な記憶装
置を有する。データ・メモリ170は、また分類装置1
62の必要とする全てのデータを有し、したがってビッ
トマツプ、テンプレート、または文字または音素の候補
を表わす他のものを有する。
規則/パターン・データ172、トレーニング・ルーチ
ン用のトレーニング・サンプル174とトレーニング・
パラメータ176、トレーニング・ルーチン164によ
って記憶され識別ルーチン166によってアクセスされ
るクラスタ確率リスト/[D178、および候補確率リ
スト・バッファのようなデータ用の別の一時的な記憶装
置を有する。データ・メモリ170は、また分類装置1
62の必要とする全てのデータを有し、したがってビッ
トマツプ、テンプレート、または文字または音素の候補
を表わす他のものを有する。
第5図の実行は、したがって第1図の要素構成の各々に
対応する構成要素を有する。識別ルーチン166はクラ
スタ識別装置12と対応し、制約充足装置168は制約
充足装置14と対応し、規則/パターン・データ172
は規則/パターン・データ18と対応し、クラスタ確率
リスト/ID178は文字/確率データ20と対応する
。制約充足装置168は、したがって文字または音素を
認識するのに必要なら、クラスタ10を使用してクラス
タ確率リスト/ID17B内の対応する確率リストをア
クセスする。
対応する構成要素を有する。識別ルーチン166はクラ
スタ識別装置12と対応し、制約充足装置168は制約
充足装置14と対応し、規則/パターン・データ172
は規則/パターン・データ18と対応し、クラスタ確率
リスト/ID178は文字/確率データ20と対応する
。制約充足装置168は、したがって文字または音素を
認識するのに必要なら、クラスタ10を使用してクラス
タ確率リスト/ID17B内の対応する確率リストをア
クセスする。
D、その他
本発明は、特許請求の範囲内で他の多くの方法によって
実行することが可能である。
実行することが可能である。
上で説明した実行は、確率のクラスタ識別装置と制約充
足装置との間で使用可能な帯域幅を最適に使用するため
に変形することができる。可能性のある調整の1つは、
所定の固定した長さのクラスタIDを使用することがで
きるように確率のクラスタの数を選択することである。
足装置との間で使用可能な帯域幅を最適に使用するため
に変形することができる。可能性のある調整の1つは、
所定の固定した長さのクラスタIDを使用することがで
きるように確率のクラスタの数を選択することである。
他の調整は、高周波数のクラスタには短いクラスタ10
を設け、低周波数のクラスタには長いクラスタIDを設
けることである。
を設け、低周波数のクラスタには長いクラスタIDを設
けることである。
本発明で使用する制約充足装置は、ここで参考文献とし
て参照している共願で、共に譲渡された米国特許出願番
号第07/427.147号(ドケット番号第D/88
364号)で説明されている認識方法を含む広範囲な形
式のいずれを取ることもできる。−船釣に、特別の用途
、複合文脈、または動的な文脈の知識が制約充足装置に
よる認識プロセスに影響を与える可能性がある。多重言
語に対して多重スペル・チエッカを使用することができ
る。形式分野(for+++ field)で特定の文
法で駆動されるスペル・チエッカを使用することもまた
できる。経済情報、時間志向の情報、またはパーツ・リ
スト情報のような専門的な入力の場合に最小量の冗長を
利用することのできるプロセスを使用することもできる
0文字認識の他に、制約充足装置はクラスタ10の内容
を引き出すために語認識とフォント認識を適用すること
ができる。
て参照している共願で、共に譲渡された米国特許出願番
号第07/427.147号(ドケット番号第D/88
364号)で説明されている認識方法を含む広範囲な形
式のいずれを取ることもできる。−船釣に、特別の用途
、複合文脈、または動的な文脈の知識が制約充足装置に
よる認識プロセスに影響を与える可能性がある。多重言
語に対して多重スペル・チエッカを使用することができ
る。形式分野(for+++ field)で特定の文
法で駆動されるスペル・チエッカを使用することもまた
できる。経済情報、時間志向の情報、またはパーツ・リ
スト情報のような専門的な入力の場合に最小量の冗長を
利用することのできるプロセスを使用することもできる
0文字認識の他に、制約充足装置はクラスタ10の内容
を引き出すために語認識とフォント認識を適用すること
ができる。
上に説明した実行は、確率のクラスタ識別と制約の充足
のために1つのシリアル処理装置を採用している。しか
し、これらの機能は並列処理装置または他のいずれかの
適当な方法によって同時に実行することができ、各機能
は多重処理装置または他のいずれかの適当なアーキテク
チャで同様に実行することができる。さらに、もし1つ
のシリアル処理装置を使用するなら、マルチタスクのよ
うな従来の方法を適用することができる。
のために1つのシリアル処理装置を採用している。しか
し、これらの機能は並列処理装置または他のいずれかの
適当な方法によって同時に実行することができ、各機能
は多重処理装置または他のいずれかの適当なアーキテク
チャで同様に実行することができる。さらに、もし1つ
のシリアル処理装置を使用するなら、マルチタスクのよ
うな従来の方法を適用することができる。
本発明をその変形、変更、および拡張と共に種々の実行
に関連して説明したが、他の実行、変形、変更および拡
張も本発明の範囲に包含される。本発明は、したがって
ここに含まれる説明または図面によって限定されるもの
ではなく、特許請求の範囲のみによって限定されるもの
である。
に関連して説明したが、他の実行、変形、変更および拡
張も本発明の範囲に包含される。本発明は、したがって
ここに含まれる説明または図面によって限定されるもの
ではなく、特許請求の範囲のみによって限定されるもの
である。
第1図は、本発明による認識システムの機能的構成要素
の幾つかを示す概略ブロック図である。 第2図は、第1図の確率のクラスタ識別装置と制約充足
装置によって実行されるステップを示すフローチャート
である。 第3図は、確率のクラスタ識別装置のトレーニング・ス
テップの期間中に実行されるステップを示すフローチャ
ートである。 第4図は、確率のクラスタ識別装置による識別ステップ
の期間中に実行されるステップを示すフローチャートで
ある。 第5図は、第3図と第4図のステップを実行することが
できるシステムの構成要素を示す概略図である。 10.150・・・・・・文字認識システム、12・・
・・・・確率のクラスタ識別装置、14.168・・・
・・・制約充足装置、16.158.170・・・・・
・メモリ、1B、172・・・・・・規則/パターン・
データ、20・・・・・・文字/確率データ、 152・・・・・・処理装置、 154・・・・・・入力装置、 156・・・・・・出力装置、 160・・・・・・プログラム・メモリ、162・・・
・・・分類装置、
の幾つかを示す概略ブロック図である。 第2図は、第1図の確率のクラスタ識別装置と制約充足
装置によって実行されるステップを示すフローチャート
である。 第3図は、確率のクラスタ識別装置のトレーニング・ス
テップの期間中に実行されるステップを示すフローチャ
ートである。 第4図は、確率のクラスタ識別装置による識別ステップ
の期間中に実行されるステップを示すフローチャートで
ある。 第5図は、第3図と第4図のステップを実行することが
できるシステムの構成要素を示す概略図である。 10.150・・・・・・文字認識システム、12・・
・・・・確率のクラスタ識別装置、14.168・・・
・・・制約充足装置、16.158.170・・・・・
・メモリ、1B、172・・・・・・規則/パターン・
データ、20・・・・・・文字/確率データ、 152・・・・・・処理装置、 154・・・・・・入力装置、 156・・・・・・出力装置、 160・・・・・・プログラム・メモリ、162・・・
・・・分類装置、
Claims (2)
- (1)多数の文字確率クラスタ(cluster)の内
のいずれが文字候補と最も近似しているかを識別するデ
ータを提供する確率クラスタ識別装置;および 前記確率クラスタ識別装置からの前記クラスタ識別デー
タに基づいて文字候補の文字の種類を識別するデータを
提供する制約充足装置;によって構成されることを特徴
とするシステム。 - (2)多数の音素確率クラスタのいずれが音素候補と最
も近似しているかを識別するデータを提供する確率クラ
スタ識別装置;および 前記確率クラスタ識別装置からの前記クラスタ識別デー
タに基づいて音素候補の音素の種類を識別するデータを
提供する制約充足装置:によって構成されることを特徴
とするシステム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US07/427,148 US5075896A (en) | 1989-10-25 | 1989-10-25 | Character and phoneme recognition based on probability clustering |
| US427148 | 1989-10-25 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH03144875A true JPH03144875A (ja) | 1991-06-20 |
| JP2991473B2 JP2991473B2 (ja) | 1999-12-20 |
Family
ID=23693682
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2280534A Expired - Fee Related JP2991473B2 (ja) | 1989-10-25 | 1990-10-18 | 文字の認識方法及び音素の認識方法 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US5075896A (ja) |
| EP (1) | EP0425290B1 (ja) |
| JP (1) | JP2991473B2 (ja) |
| DE (1) | DE69029188T2 (ja) |
Families Citing this family (196)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2836159B2 (ja) * | 1990-01-30 | 1998-12-14 | 株式会社日立製作所 | 同時通訳向き音声認識システムおよびその音声認識方法 |
| JPH0481988A (ja) * | 1990-07-24 | 1992-03-16 | Sharp Corp | クラスタリング方式 |
| EP0498978A1 (en) * | 1991-02-13 | 1992-08-19 | International Business Machines Corporation | Mechanical recognition of characters in cursive script |
| US5392367A (en) * | 1991-03-28 | 1995-02-21 | Hsu; Wen H. | Automatic planar point pattern matching device and the matching method thereof |
| US5257323A (en) * | 1991-05-29 | 1993-10-26 | Canon Kabushiki Kaisha | Selection agent for a symbol determination system with multiple character recognition processors |
| KR950008022B1 (ko) * | 1991-06-19 | 1995-07-24 | 가부시끼가이샤 히다찌세이사꾸쇼 | 문자처리방법 및 장치와 문자입력방법 및 장치 |
| JP3118725B2 (ja) * | 1991-09-11 | 2000-12-18 | 株式会社日立製作所 | 自動分類方法 |
| US5343537A (en) * | 1991-10-31 | 1994-08-30 | International Business Machines Corporation | Statistical mixture approach to automatic handwriting recognition |
| US5483650A (en) * | 1991-11-12 | 1996-01-09 | Xerox Corporation | Method of constant interaction-time clustering applied to document browsing |
| US5442778A (en) * | 1991-11-12 | 1995-08-15 | Xerox Corporation | Scatter-gather: a cluster-based method and apparatus for browsing large document collections |
| US5544257A (en) * | 1992-01-08 | 1996-08-06 | International Business Machines Corporation | Continuous parameter hidden Markov model approach to automatic handwriting recognition |
| US5325445A (en) * | 1992-05-29 | 1994-06-28 | Eastman Kodak Company | Feature classification using supervised statistical pattern recognition |
| JPH064093A (ja) * | 1992-06-18 | 1994-01-14 | Matsushita Electric Ind Co Ltd | Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置 |
| JP2611904B2 (ja) * | 1992-10-19 | 1997-05-21 | 株式会社エイ・ティ・アール視聴覚機構研究所 | 文字認識装置 |
| CA2108536C (en) | 1992-11-24 | 2000-04-04 | Oscar Ernesto Agazzi | Text recognition using two-dimensional stochastic models |
| JP3422541B2 (ja) * | 1992-12-17 | 2003-06-30 | ゼロックス・コーポレーション | キーワードのモデル化方法及び非キーワードhmmの提供方法 |
| US5535305A (en) * | 1992-12-31 | 1996-07-09 | Apple Computer, Inc. | Sub-partitioned vector quantization of probability density functions |
| DE69425564D1 (de) * | 1993-03-12 | 2000-09-21 | Stanford Res Inst Int | Verfahren und vorrichtung für sprachunterricht mittels interaktiver sprachsteuerung |
| JPH0773190A (ja) * | 1993-04-29 | 1995-03-17 | Matsushita Electric Ind Co Ltd | ペンベースコンピューターシステム用絵文字ネーミング |
| US5537488A (en) * | 1993-09-16 | 1996-07-16 | Massachusetts Institute Of Technology | Pattern recognition system with statistical classification |
| EP0680653B1 (en) * | 1993-10-15 | 2001-06-20 | AT&T Corp. | A method for training a tts system, the resulting apparatus, and method of use thereof |
| EP0654755B1 (en) * | 1993-11-23 | 2000-08-02 | International Business Machines Corporation | A system and method for automatic handwriting recognition with a writer-independent chirographic label alphabet |
| US6304675B1 (en) | 1993-12-28 | 2001-10-16 | Sandia Corporation | Visual cluster analysis and pattern recognition methods |
| US5621859A (en) * | 1994-01-19 | 1997-04-15 | Bbn Corporation | Single tree method for grammar directed, very large vocabulary speech recognizer |
| US5745649A (en) * | 1994-07-07 | 1998-04-28 | Nynex Science & Technology Corporation | Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories |
| JP3260979B2 (ja) * | 1994-07-15 | 2002-02-25 | 株式会社リコー | 文字認識方法 |
| US5825978A (en) * | 1994-07-18 | 1998-10-20 | Sri International | Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions |
| EP0694862A3 (en) * | 1994-07-22 | 1996-07-24 | At & T Corp | Detection of degraded, grayscale documents using two-dimensional hidden pseudo-Markov models and N-best hypotheses |
| US5768423A (en) * | 1994-09-02 | 1998-06-16 | Panasonic Technologies Inc. | Trie structure based method and apparatus for indexing and searching handwritten databases with dynamic search sequencing |
| US5854855A (en) * | 1994-09-09 | 1998-12-29 | Motorola, Inc. | Method and system using meta-classes and polynomial discriminant functions for handwriting recognition |
| US5802205A (en) * | 1994-09-09 | 1998-09-01 | Motorola, Inc. | Method and system for lexical processing |
| DE4436408C1 (de) * | 1994-10-12 | 1995-12-07 | Daimler Benz Ag | Mustererkennungsverfahren |
| US5642440A (en) * | 1994-12-08 | 1997-06-24 | Grumman Aerospace Corporation | System using ergodic ensemble for image restoration |
| US5982926A (en) * | 1995-01-17 | 1999-11-09 | At & T Ipm Corp. | Real-time image enhancement techniques |
| US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
| JPH08293028A (ja) * | 1995-04-24 | 1996-11-05 | Matsushita Electric Ind Co Ltd | 並列画像クラスタリング装置 |
| US6044171A (en) * | 1995-05-09 | 2000-03-28 | Polyakov; Vladislav G. | Method and apparatus for pattern recognition and representation using fourier descriptors and iterative transformation-reparametrization |
| US5659771A (en) * | 1995-05-19 | 1997-08-19 | Mitsubishi Electric Information Technology Center America, Inc. | System for spelling correction in which the context of a target word in a sentence is utilized to determine which of several possible words was intended |
| US5774576A (en) * | 1995-07-17 | 1998-06-30 | Nec Research Institute, Inc. | Pattern recognition by unsupervised metric learning |
| US6282324B1 (en) * | 1995-08-31 | 2001-08-28 | Northrop Grumman Corporation | Text image deblurring by high-probability word selection |
| US5778095A (en) * | 1995-12-20 | 1998-07-07 | Xerox Corporation | Classification of scanned symbols into equivalence classes |
| US5787422A (en) * | 1996-01-11 | 1998-07-28 | Xerox Corporation | Method and apparatus for information accesss employing overlapping clusters |
| US5982933A (en) * | 1996-01-12 | 1999-11-09 | Canon Kabushiki Kaisha | Information processing method, information processing apparatus, and storage medium |
| US5742522A (en) * | 1996-04-01 | 1998-04-21 | General Electric Company | Adaptive, on line, statistical method and apparatus for detection of broken bars in motors by passive motor current monitoring and digital torque estimation |
| US5828999A (en) * | 1996-05-06 | 1998-10-27 | Apple Computer, Inc. | Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems |
| US5806030A (en) * | 1996-05-06 | 1998-09-08 | Matsushita Electric Industrial Co Ltd | Low complexity, high accuracy clustering method for speech recognizer |
| US5850480A (en) * | 1996-05-30 | 1998-12-15 | Scan-Optics, Inc. | OCR error correction methods and apparatus utilizing contextual comparison |
| JP2973944B2 (ja) * | 1996-06-26 | 1999-11-08 | 富士ゼロックス株式会社 | 文書処理装置および文書処理方法 |
| WO1998014934A1 (en) * | 1996-10-02 | 1998-04-09 | Sri International | Method and system for automatic text-independent grading of pronunciation for language instruction |
| CN1110775C (zh) * | 1996-12-10 | 2003-06-04 | 许文星 | 平面图形点的自动对比方法及装置 |
| JP3969775B2 (ja) * | 1996-12-17 | 2007-09-05 | キヤノン株式会社 | 手書き情報入力装置および手書き情報入力方法 |
| US6137911A (en) * | 1997-06-16 | 2000-10-24 | The Dialog Corporation Plc | Test classification system and method |
| US6298158B1 (en) * | 1997-09-25 | 2001-10-02 | Babylon, Ltd. | Recognition and translation system and method |
| US6067514A (en) * | 1998-06-23 | 2000-05-23 | International Business Machines Corporation | Method for automatically punctuating a speech utterance in a continuous speech recognition system |
| AU777693B2 (en) | 1999-03-05 | 2004-10-28 | Canon Kabushiki Kaisha | Database annotation and retrieval |
| US6662180B1 (en) * | 1999-05-12 | 2003-12-09 | Matsushita Electric Industrial Co., Ltd. | Method for searching in large databases of automatically recognized text |
| US6618697B1 (en) * | 1999-05-14 | 2003-09-09 | Justsystem Corporation | Method for rule-based correction of spelling and grammar errors |
| US6631211B1 (en) * | 1999-07-08 | 2003-10-07 | Perkinelmer Las, Inc. | Interactive system for analyzing scatter plots |
| US7310600B1 (en) | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
| EP1228452B1 (en) * | 1999-10-28 | 2007-09-19 | Canon Kabushiki Kaisha | Pattern matching method and apparatus |
| US6882970B1 (en) | 1999-10-28 | 2005-04-19 | Canon Kabushiki Kaisha | Language recognition using sequence frequency |
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| GB0011798D0 (en) * | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
| GB0015233D0 (en) | 2000-06-21 | 2000-08-16 | Canon Kk | Indexing method and apparatus |
| GB0023930D0 (en) | 2000-09-29 | 2000-11-15 | Canon Kk | Database annotation and retrieval |
| GB0027178D0 (en) | 2000-11-07 | 2000-12-27 | Canon Kk | Speech processing system |
| GB0028277D0 (en) * | 2000-11-20 | 2001-01-03 | Canon Kk | Speech processing system |
| US7343041B2 (en) * | 2001-02-22 | 2008-03-11 | International Business Machines Corporation | Handwritten word recognition using nearest neighbor techniques that allow adaptive learning |
| US7139755B2 (en) * | 2001-11-06 | 2006-11-21 | Thomson Scientific Inc. | Method and apparatus for providing comprehensive search results in response to user queries entered over a computer network |
| DE10220524B4 (de) | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
| EP1363271A1 (de) | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
| US7167587B2 (en) * | 2002-08-30 | 2007-01-23 | Lockheed Martin Corporation | Sequential classifier for use in pattern recognition system |
| US7366352B2 (en) * | 2003-03-20 | 2008-04-29 | International Business Machines Corporation | Method and apparatus for performing fast closest match in pattern recognition |
| BRPI0506675A (pt) * | 2003-12-31 | 2007-05-15 | Thomson Global Resources | sistema, métodos, interfaces e software para estender resultados de busca além dos limites definidos pela consulta inicial |
| JP4172584B2 (ja) * | 2004-04-19 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文字認識結果出力装置、文字認識装置、その方法及びプログラム |
| NO20052966D0 (no) * | 2005-06-16 | 2005-06-16 | Lumex As | Monsterkodede ordboker |
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| US8175394B2 (en) * | 2006-09-08 | 2012-05-08 | Google Inc. | Shape clustering in post optical character recognition processing |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| KR100933707B1 (ko) * | 2008-05-30 | 2009-12-24 | 고려대학교 기술지주 (주) | 사용자 필적 조합 시스템 |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
| US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
| US9244612B1 (en) | 2012-02-16 | 2016-01-26 | Google Inc. | Key selection of a graphical keyboard based on user input posture |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
| US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
| WO2014047161A2 (en) | 2012-09-18 | 2014-03-27 | Google Inc. | Posture-adaptive selection |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| US8782549B2 (en) | 2012-10-05 | 2014-07-15 | Google Inc. | Incremental feature-based gesture-keyboard decoding |
| US8701032B1 (en) | 2012-10-16 | 2014-04-15 | Google Inc. | Incremental multi-word recognition |
| US8850350B2 (en) | 2012-10-16 | 2014-09-30 | Google Inc. | Partial gesture text entry |
| US8843845B2 (en) | 2012-10-16 | 2014-09-23 | Google Inc. | Multi-gesture text input prediction |
| US8819574B2 (en) | 2012-10-22 | 2014-08-26 | Google Inc. | Space prediction for text input |
| US8832589B2 (en) | 2013-01-15 | 2014-09-09 | Google Inc. | Touch keyboard using language and spatial models |
| DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
| US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
| WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
| WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| US9081500B2 (en) | 2013-05-03 | 2015-07-14 | Google Inc. | Alternative hypothesis error correction for gesture typing |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
| KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
| KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
| US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
| US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
| US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
| US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
| US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
| US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
| US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
| US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
| US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
| US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
| US10924478B2 (en) | 2018-07-02 | 2021-02-16 | Paypal, Inc. | Identification based on snapshot of device memory |
| CN115359783B (zh) * | 2022-07-19 | 2025-07-22 | 科大讯飞股份有限公司 | 音素识别方法、装置、电子设备和存储介质 |
Family Cites Families (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB1243969A (en) * | 1967-11-15 | 1971-08-25 | Emi Ltd | Improvements relating to pattern recognition devices |
| US3810162A (en) * | 1970-06-01 | 1974-05-07 | Texas Instruments Inc | Nonlinear classification recognition system |
| US3755780A (en) * | 1971-06-28 | 1973-08-28 | Pattern Analysis & Recognition | Method for recognizing characters |
| US3969698A (en) * | 1974-10-08 | 1976-07-13 | International Business Machines Corporation | Cluster storage apparatus for post processing error correction of a character recognition machine |
| US4180799A (en) * | 1978-04-21 | 1979-12-25 | Caere Corporation | Apparatus and method for recognizing characters |
| US4541115A (en) * | 1983-02-08 | 1985-09-10 | Pattern Processing Technologies, Inc. | Pattern processing system |
| US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
| US4773099A (en) * | 1985-10-10 | 1988-09-20 | The Palantir Corporation | Pattern classification means for use in a pattern recognition system |
| US4903305A (en) * | 1986-05-12 | 1990-02-20 | Dragon Systems, Inc. | Method for representing word models for use in speech recognition |
| US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
| JPS63225300A (ja) * | 1987-03-16 | 1988-09-20 | 株式会社東芝 | パタ−ン認識装置 |
| US4958375A (en) * | 1988-02-17 | 1990-09-18 | Nestor, Inc. | Parallel, multi-unit, adaptive pattern classification system using inter-unit correlations and an intra-unit class separator methodology |
| JPH02143326A (ja) * | 1988-11-25 | 1990-06-01 | Canon Inc | ソーティング回路 |
-
1989
- 1989-10-25 US US07/427,148 patent/US5075896A/en not_active Expired - Lifetime
-
1990
- 1990-10-18 JP JP2280534A patent/JP2991473B2/ja not_active Expired - Fee Related
- 1990-10-25 EP EP90311710A patent/EP0425290B1/en not_active Expired - Lifetime
- 1990-10-25 DE DE69029188T patent/DE69029188T2/de not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| EP0425290A3 (en) | 1992-10-28 |
| JP2991473B2 (ja) | 1999-12-20 |
| DE69029188D1 (de) | 1997-01-02 |
| US5075896A (en) | 1991-12-24 |
| EP0425290A2 (en) | 1991-05-02 |
| DE69029188T2 (de) | 1997-03-20 |
| EP0425290B1 (en) | 1996-11-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2991473B2 (ja) | 文字の認識方法及び音素の認識方法 | |
| Audhkhasi et al. | End-to-end ASR-free keyword search from speech | |
| Jansen et al. | Efficient spoken term discovery using randomized algorithms | |
| Weinman et al. | Scene text recognition using similarity and a lexicon with sparse belief propagation | |
| EP0387602B1 (en) | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system | |
| CN108228732B (zh) | 语言存储方法和语言对话系统 | |
| JP5240457B2 (ja) | 拡張認識辞書学習装置と音声認識システム | |
| Liu et al. | Completely unsupervised phoneme recognition by adversarially learning mapping relationships from audio embeddings | |
| CN113254582A (zh) | 一种基于预训练模型的知识驱动对话方法 | |
| CN111506726B (zh) | 基于词性编码的短文本聚类方法、装置及计算机设备 | |
| Bazzi et al. | A multi-class approach for modelling out-of-vocabulary words. | |
| Niyozmatova et al. | Classification based on decision trees and neural networks | |
| JPH11328317A (ja) | 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体 | |
| EP0425291A2 (en) | Word recognition process and apparatus | |
| Bhati et al. | Unsupervised Acoustic Segmentation and Clustering Using Siamese Network Embeddings. | |
| JP2938865B1 (ja) | 音声認識装置 | |
| Selamat et al. | Arabic script web documents language identification using decision tree-ARTMAP model | |
| JP2968792B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
| JP3249676B2 (ja) | パターン認識辞書作成方法 | |
| JPH10254480A (ja) | 音声認識方法 | |
| Bhati et al. | Bottom-up unsupervised word discovery via acoustic units | |
| JP2001125589A (ja) | 音響モデル学習装置、音響モデル変換装置及び音声認識装置 | |
| Mary et al. | Keyword spotting techniques | |
| Toselli et al. | Probabilistic Interpretation of Traditional KWS Approaches | |
| Gaonkar et al. | Exploring the Effectiveness of Feature Reduction and Kernel-Based Matching for Query-by-Example Spoken Term Detection Using CNN |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |