JPH0228875B2 - - Google Patents
Info
- Publication number
- JPH0228875B2 JPH0228875B2 JP56085895A JP8589581A JPH0228875B2 JP H0228875 B2 JPH0228875 B2 JP H0228875B2 JP 56085895 A JP56085895 A JP 56085895A JP 8589581 A JP8589581 A JP 8589581A JP H0228875 B2 JPH0228875 B2 JP H0228875B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- segment
- output
- local
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/754—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries involving a deformation of the sample pattern or of the reference pattern; Elastic matching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Description
本発明の分野
本発明はデイジタル・パターン認識システムに
関し、具体的には入力パターンと記憶された模範
パターンの集合とを比較する認識システムに関す
る。 背景の技術 パターン認識適用分野において、時間変動パタ
ーンを、一群の模範パターンと比較する必要が生
じる。ここで所与のパターンが必ずしも均一の速
度で再発生しない場合、大きな問題が起る。短時
間しか持続しないパターンの場合、測定されたパ
ターンと記憶されたプロトタイプ(prototype)
とは、周知の技法(例えば交差相関法、フイルタ
比較法、最小距離測定法など)によつて比較され
てよい。 長時間持続するパターンの場合、測定されたパ
ターンと記憶されたプロトタイプとの部分ごとの
時間的配列を調整することが必要である。例え
ば、米国特許第3700815号は、話し手の音声のサ
ンプルと、予め記憶されたサンプルから引出され
た同一テキストの標準音声とを比較することによ
つて、話し手の真偽を確かめるシステムを開示し
ている。話し手が本人として受入れられるか拒絶
されるかは、多数の音声パラメータ(例えばフオ
ーマツト周波数、ピツチ速度、音声エネルギな
ど)が一致するかどうかによつてきめられる。一
致の程度は、サンプルと標準音声とを時間的に配
列することによつて評価される。時間的配列は、
非線形的処理によつてなされるが、この処理は、
時間尺度をこま切れ的かつ連続的に線形変換する
ことによつてサンプルと標準との類似性を最大に
しようと試みる。最大の類似性を達成するのに必
要な時間変換の程度は、本人であることを認める
か拒絶するかの決定に影響を与える。 時間的配列の問題は、簡単な例によつて説明で
きる。パターンがアルフアベツト文字のストリン
グよりなるものと仮定する。パターンの基本部分
は単一の文字である。測定されたパターンの基本
部分と記憶されたプロトタイプの基本部分との差
異の程度は、アルフアベツト順に配置された文字
の距離によつて表わされる。 表 A Y M B P W C
……測定されたパターン D W R E Q Z H
……記憶されたプロトタイプ 3 2 5 3 1 3 5
……距離 全体の距離:22 表に例においては、時間的配列の問題は発生
せず、測定されたパターンと記憶されたプロトタ
イプとの全体の距離は、容易に22であると分る。
関し、具体的には入力パターンと記憶された模範
パターンの集合とを比較する認識システムに関す
る。 背景の技術 パターン認識適用分野において、時間変動パタ
ーンを、一群の模範パターンと比較する必要が生
じる。ここで所与のパターンが必ずしも均一の速
度で再発生しない場合、大きな問題が起る。短時
間しか持続しないパターンの場合、測定されたパ
ターンと記憶されたプロトタイプ(prototype)
とは、周知の技法(例えば交差相関法、フイルタ
比較法、最小距離測定法など)によつて比較され
てよい。 長時間持続するパターンの場合、測定されたパ
ターンと記憶されたプロトタイプとの部分ごとの
時間的配列を調整することが必要である。例え
ば、米国特許第3700815号は、話し手の音声のサ
ンプルと、予め記憶されたサンプルから引出され
た同一テキストの標準音声とを比較することによ
つて、話し手の真偽を確かめるシステムを開示し
ている。話し手が本人として受入れられるか拒絶
されるかは、多数の音声パラメータ(例えばフオ
ーマツト周波数、ピツチ速度、音声エネルギな
ど)が一致するかどうかによつてきめられる。一
致の程度は、サンプルと標準音声とを時間的に配
列することによつて評価される。時間的配列は、
非線形的処理によつてなされるが、この処理は、
時間尺度をこま切れ的かつ連続的に線形変換する
ことによつてサンプルと標準との類似性を最大に
しようと試みる。最大の類似性を達成するのに必
要な時間変換の程度は、本人であることを認める
か拒絶するかの決定に影響を与える。 時間的配列の問題は、簡単な例によつて説明で
きる。パターンがアルフアベツト文字のストリン
グよりなるものと仮定する。パターンの基本部分
は単一の文字である。測定されたパターンの基本
部分と記憶されたプロトタイプの基本部分との差
異の程度は、アルフアベツト順に配置された文字
の距離によつて表わされる。 表 A Y M B P W C
……測定されたパターン D W R E Q Z H
……記憶されたプロトタイプ 3 2 5 3 1 3 5
……距離 全体の距離:22 表に例においては、時間的配列の問題は発生
せず、測定されたパターンと記憶されたプロトタ
イプとの全体の距離は、容易に22であると分る。
【表】
挿入:3
置換距離:0
表の例において、挿入された文字及び削除さ
れた文字について配列の問題が生じる。表で
は、置換(文字の変更)がないから、正しい配列
状態を発見することは容易である。
置換距離:0
表の例において、挿入された文字及び削除さ
れた文字について配列の問題が生じる。表で
は、置換(文字の変更)がないから、正しい配列
状態を発見することは容易である。
+b〓w〔i、j、P(t)〕
この値は、部分結果メモリ32中に記憶され
る。 第1図において、左方の2個の局部決定モジユ
ールを除く各モジユールは、2個の先行するモジ
ユールへ接続される。この構造は、任意の時間的
圧縮を可能とし(即ち、測定されたパターンから
セグメントを削除すること)、かつ2又は1のフ
アクタだけ時間的伸長を行うことを可能とする
(即ち、セグメントの挿入)。しかし、局部決定モ
ジユールは、どのような態様でも接続することが
できる。どのような態様を選択するかは、モデル
化されるプロセスによつて決定されるべきであ
る。時間的再配列の範囲は、Rコントロール及び
局部決定モジユールの相互接続によつて、完全に
決定される。 第6図は、測定されたパターンと記憶されたプ
ロトタイプ・パターンの全ての可能な時間ずれと
を比較するため、局部決定モジユール中で使用さ
れるハードウエアを例示する回路図である。局部
決定モジユールは、256個の記憶されたプロトタ
イプを与える。一般的なパターン・プロトタイプ
における各ノードのために別個の比較モジユール
を並列に動作させることにより、システムは、1
秒当り1000回の測定を超える良好な速度で、256
個のプロトタイプの全てと測定パターンのシーケ
ンスとを比較することができる。 確率の乗算は、その対数を加算することによつ
て実行される。対数関数は単調であるから、確率
の比較はその対数比較によつて実行される。部分
結果メモリ70は、256×8ビツトのランダム・
アクセス・メモリであり、現在の測定パターンま
での(但し、それを含まない)最良比較の対数確
率を含む。部分結果メモリ70は、第3図に示さ
れる部分結果メモリと同じ機能及び動作を実行す
る。同様に、第6図に示される他のハードウエ
ア・エレメントは第3図、第4図、第5図に示さ
れた対応エレメントと同じ機能及び動作を実行す
る。第5図及び第4図に示されるWコントロール
64及びRコントロール40は、第6図において
同一の番号で示されている。 Wコントロール64は線66上に現在のワー
ド・アドレスを与える。このアドレスは、部分結
果メモリ70において256個のプロトタイプの中
で更新されつつあるものを選択する。メモリ70
は、8×256ビツトのランダム・アクセス・メモ
リである。それぞれの局部決定モジユール10a
―10nは、所与の時点で、Wコントロール64
によつて得られた同じワード上で動作する。それ
ぞれの測定パターンについて、Wコントロール6
4は局部決定モジユールを256個のプロトタイプ
の各々へ進める。次いで、測定パターンが準備さ
れる。 第6図において、104はセレクタであり、1
06はワード・プロトタイプ・コントローラであ
る。それぞれの局部決定モジユールは線72を介
してそれ自体の部分結果メモリ70から入力を受
取ると共に、マルチプレクサ76へ入る入力74
によつて示されるように、7個までの他の局部決
定モジユールから部分結果メモリの内容を受取
る。マルチプレクサ76は8対1のマルチプレク
サであり、線41を介してRコントロール40に
よつて制御される。マルチプレクサ76は8個の
入力の1つを選択し、アキユムレータ・メモリ7
8において、入力対数確率は、推移見込メモリ8
2から線80を介して受取られた推移確率の対数
へ加えられる。アキユムレータ・メモリ78は4
ビツト加算器であり、推移見込メモリ82は16×
4のランダム・アクセス・メモリである。一時的
記憶レジスタ84は、アキユムレータ・メモリ7
8から線86を介して受取られた入力及び推移確
率の対数の最良の組合せを記憶する。一時的記憶
レジスタ84は、Rコントロール40からのR出
力が1から8まで変化するにつれて、4ビツト比
較器88から出る出力線90により連続的に更新
される。一時的記憶レジスタ84は、Wコントロ
ール64が津進されるときクリアされる。 前述したように、入力及び推移確率の対数の最
良の組合せは、一時的記憶レジスタ84によつて
線92へ与えられる。線92は比較器88及びア
キユムレータ94へ接続されている。アキユムレ
ータ94は4ビツト加算器である。 一般的なパターン・プロトタイプにおけるそれ
ぞれのノードについて、256個のパターンごとに
内部事象を指定する識別情報が存在する。上記の
内部事象は、特定のパターンについてそのノード
に対応する。スクランブル・インデツクス・メモ
リ96は、そのような識別情報を記憶する。便宜
上、識別情報の数は256と設定されたが、その数
は、スクランブル・インデツクス・メモリ96の
ワードの長さ、及び基本認識結果メモリ98にお
けるワードの数を増加させることによつて拡張す
ることができる。実施例において、スクランブ
ル・インデツクス・メモリは8×256ビツトのラ
ンダム・アクセス・メモリより成る音声辞書であ
る。もし比較されるべきパターンのセツトが固定
していれば、推移見込メモリ82及びスクランブ
ル・インデツクス・メモリ96は、読取専用メモ
リで構成することができる。 基本認識結果メモリ98は4×256ビツトのラ
ンダム・アクセス・メモリであつて、内部事象へ
条件件づけられた現在の測定パターンの対数確率
を保持する。上記の内部事象は、スクランブル・
インデツクス・メモリ96から得られた識別情報
によつて指定される。それぞれの測定パターンに
ついて、確率は中央プロセツサによつて計算さ
れ、計算結果は全ての局部決定モジユール10a
―10nの基本認識結果メモリ98へ並列にロー
ドされる。アキユムレータ94は、一時的記憶レ
ジスタ84から線92を介して得られた最良の入
力及び推移の組合せを、基本認識結果メモリ98
から線100を介して受取られた現在の測定結果
へ加算し、加算結果を部分結果メモリ70への線
102へ与える。この時点で、局部決定モジユー
ルは、Wコントロール64から得られたカウンタ
値を増進することによつて、次のプロトタイプ・
パターンを処理する準備を整える。 第6図を参照して説明された局部決定モジユー
ルは、8個のそれらモジユールが使用されるシス
テムにおいて、256個のプロトタイプを選択する
特殊のハードウエアを含むが、本質的には第3
図、第4図、第5図を参照して説明された局部決
定モジユールと同じ機能及び動作を実行する。具
体的に説明すると、第3図に示される部分結果メ
モリ32は、第6図に示される部分結果メモリ7
0と同じである。第3図及び第4図に示されるセ
レクタ26は、第6図のセレクタ104と同じで
ある。セレクタ104はマルチプレクサ76、ア
キユムレータ・メモリ78、推移見込メモリ8
2、比較器88、一時的記憶レジスタ84を含
む。Rコントロール40も含まれる。更に、第5
図に示されるワード・プロトタイプ・コントロー
ラ20は、第6図のワード・プロトタイプ・コン
トローラ106と同じものである。ワード・プロ
トタイプ・コントローラ106はWコントロール
64、スクランブル・インデツクス・メモリ9
6、基本認識結果メモリ98を含む。第3図に示
されるアキユムレータ28は、第6図に示される
4ビツト加算器のアキユムレータ94と同じであ
る。 以上説明したように、本発明では、複数の継続
した局所決定装置(10a〜10n、第1図)を
設け、これを標準ワード音声パターンの継続した
セグメント(たとえば0.01秒)に順次対応付け、
各局所決定装置のメモリ(22、第5図)にすべ
ての標準ワード音声パターンにつき、対応するセ
グメント位置の標準セグメント・パターンをスト
アするようにして、さらにすべての局所決定装置
の他のメモリ(56、第5図)にすべての種類の
標準セグメント・パターンとすべての種類の入力
セグメント・パターンとの相関値をストアするよ
うにしている。入力セグメント・パターンは入力
音声パターンをセグメントごとに分類して生成す
るものであるが、標準セグメント・パターンのセ
ツトを用いてもよい。 本発明ではこのようにすることによりヒドン・
マルコフ・モデル(Hidden Markov Model)
の音声認識を極めて高速に行る。すなわち、この
音声認識では r(t、j)= Maxi 〔r(t−1、i) ×a(i、j)〕×b〔i、j、P(t)〕 の計算を行うが、b〔i、j、P(t)〕すなわち
位置iからjへの遷移でパターンP(t)を出力
する確率をb〔l、P(t)〕で近似し、これらb
〔l、P(t)〕を各局所決定装置にストアしてお
き、高速処理を行えるようにしているのである。
なおb〔l、P(t)〕は標準セグメント・パター
ンl(レーベル)と入力セグメント・パターンP
(t)との相関値で、トレーニング時に予め作つ
ておく。
る。 第1図において、左方の2個の局部決定モジユ
ールを除く各モジユールは、2個の先行するモジ
ユールへ接続される。この構造は、任意の時間的
圧縮を可能とし(即ち、測定されたパターンから
セグメントを削除すること)、かつ2又は1のフ
アクタだけ時間的伸長を行うことを可能とする
(即ち、セグメントの挿入)。しかし、局部決定モ
ジユールは、どのような態様でも接続することが
できる。どのような態様を選択するかは、モデル
化されるプロセスによつて決定されるべきであ
る。時間的再配列の範囲は、Rコントロール及び
局部決定モジユールの相互接続によつて、完全に
決定される。 第6図は、測定されたパターンと記憶されたプ
ロトタイプ・パターンの全ての可能な時間ずれと
を比較するため、局部決定モジユール中で使用さ
れるハードウエアを例示する回路図である。局部
決定モジユールは、256個の記憶されたプロトタ
イプを与える。一般的なパターン・プロトタイプ
における各ノードのために別個の比較モジユール
を並列に動作させることにより、システムは、1
秒当り1000回の測定を超える良好な速度で、256
個のプロトタイプの全てと測定パターンのシーケ
ンスとを比較することができる。 確率の乗算は、その対数を加算することによつ
て実行される。対数関数は単調であるから、確率
の比較はその対数比較によつて実行される。部分
結果メモリ70は、256×8ビツトのランダム・
アクセス・メモリであり、現在の測定パターンま
での(但し、それを含まない)最良比較の対数確
率を含む。部分結果メモリ70は、第3図に示さ
れる部分結果メモリと同じ機能及び動作を実行す
る。同様に、第6図に示される他のハードウエ
ア・エレメントは第3図、第4図、第5図に示さ
れた対応エレメントと同じ機能及び動作を実行す
る。第5図及び第4図に示されるWコントロール
64及びRコントロール40は、第6図において
同一の番号で示されている。 Wコントロール64は線66上に現在のワー
ド・アドレスを与える。このアドレスは、部分結
果メモリ70において256個のプロトタイプの中
で更新されつつあるものを選択する。メモリ70
は、8×256ビツトのランダム・アクセス・メモ
リである。それぞれの局部決定モジユール10a
―10nは、所与の時点で、Wコントロール64
によつて得られた同じワード上で動作する。それ
ぞれの測定パターンについて、Wコントロール6
4は局部決定モジユールを256個のプロトタイプ
の各々へ進める。次いで、測定パターンが準備さ
れる。 第6図において、104はセレクタであり、1
06はワード・プロトタイプ・コントローラであ
る。それぞれの局部決定モジユールは線72を介
してそれ自体の部分結果メモリ70から入力を受
取ると共に、マルチプレクサ76へ入る入力74
によつて示されるように、7個までの他の局部決
定モジユールから部分結果メモリの内容を受取
る。マルチプレクサ76は8対1のマルチプレク
サであり、線41を介してRコントロール40に
よつて制御される。マルチプレクサ76は8個の
入力の1つを選択し、アキユムレータ・メモリ7
8において、入力対数確率は、推移見込メモリ8
2から線80を介して受取られた推移確率の対数
へ加えられる。アキユムレータ・メモリ78は4
ビツト加算器であり、推移見込メモリ82は16×
4のランダム・アクセス・メモリである。一時的
記憶レジスタ84は、アキユムレータ・メモリ7
8から線86を介して受取られた入力及び推移確
率の対数の最良の組合せを記憶する。一時的記憶
レジスタ84は、Rコントロール40からのR出
力が1から8まで変化するにつれて、4ビツト比
較器88から出る出力線90により連続的に更新
される。一時的記憶レジスタ84は、Wコントロ
ール64が津進されるときクリアされる。 前述したように、入力及び推移確率の対数の最
良の組合せは、一時的記憶レジスタ84によつて
線92へ与えられる。線92は比較器88及びア
キユムレータ94へ接続されている。アキユムレ
ータ94は4ビツト加算器である。 一般的なパターン・プロトタイプにおけるそれ
ぞれのノードについて、256個のパターンごとに
内部事象を指定する識別情報が存在する。上記の
内部事象は、特定のパターンについてそのノード
に対応する。スクランブル・インデツクス・メモ
リ96は、そのような識別情報を記憶する。便宜
上、識別情報の数は256と設定されたが、その数
は、スクランブル・インデツクス・メモリ96の
ワードの長さ、及び基本認識結果メモリ98にお
けるワードの数を増加させることによつて拡張す
ることができる。実施例において、スクランブ
ル・インデツクス・メモリは8×256ビツトのラ
ンダム・アクセス・メモリより成る音声辞書であ
る。もし比較されるべきパターンのセツトが固定
していれば、推移見込メモリ82及びスクランブ
ル・インデツクス・メモリ96は、読取専用メモ
リで構成することができる。 基本認識結果メモリ98は4×256ビツトのラ
ンダム・アクセス・メモリであつて、内部事象へ
条件件づけられた現在の測定パターンの対数確率
を保持する。上記の内部事象は、スクランブル・
インデツクス・メモリ96から得られた識別情報
によつて指定される。それぞれの測定パターンに
ついて、確率は中央プロセツサによつて計算さ
れ、計算結果は全ての局部決定モジユール10a
―10nの基本認識結果メモリ98へ並列にロー
ドされる。アキユムレータ94は、一時的記憶レ
ジスタ84から線92を介して得られた最良の入
力及び推移の組合せを、基本認識結果メモリ98
から線100を介して受取られた現在の測定結果
へ加算し、加算結果を部分結果メモリ70への線
102へ与える。この時点で、局部決定モジユー
ルは、Wコントロール64から得られたカウンタ
値を増進することによつて、次のプロトタイプ・
パターンを処理する準備を整える。 第6図を参照して説明された局部決定モジユー
ルは、8個のそれらモジユールが使用されるシス
テムにおいて、256個のプロトタイプを選択する
特殊のハードウエアを含むが、本質的には第3
図、第4図、第5図を参照して説明された局部決
定モジユールと同じ機能及び動作を実行する。具
体的に説明すると、第3図に示される部分結果メ
モリ32は、第6図に示される部分結果メモリ7
0と同じである。第3図及び第4図に示されるセ
レクタ26は、第6図のセレクタ104と同じで
ある。セレクタ104はマルチプレクサ76、ア
キユムレータ・メモリ78、推移見込メモリ8
2、比較器88、一時的記憶レジスタ84を含
む。Rコントロール40も含まれる。更に、第5
図に示されるワード・プロトタイプ・コントロー
ラ20は、第6図のワード・プロトタイプ・コン
トローラ106と同じものである。ワード・プロ
トタイプ・コントローラ106はWコントロール
64、スクランブル・インデツクス・メモリ9
6、基本認識結果メモリ98を含む。第3図に示
されるアキユムレータ28は、第6図に示される
4ビツト加算器のアキユムレータ94と同じであ
る。 以上説明したように、本発明では、複数の継続
した局所決定装置(10a〜10n、第1図)を
設け、これを標準ワード音声パターンの継続した
セグメント(たとえば0.01秒)に順次対応付け、
各局所決定装置のメモリ(22、第5図)にすべ
ての標準ワード音声パターンにつき、対応するセ
グメント位置の標準セグメント・パターンをスト
アするようにして、さらにすべての局所決定装置
の他のメモリ(56、第5図)にすべての種類の
標準セグメント・パターンとすべての種類の入力
セグメント・パターンとの相関値をストアするよ
うにしている。入力セグメント・パターンは入力
音声パターンをセグメントごとに分類して生成す
るものであるが、標準セグメント・パターンのセ
ツトを用いてもよい。 本発明ではこのようにすることによりヒドン・
マルコフ・モデル(Hidden Markov Model)
の音声認識を極めて高速に行る。すなわち、この
音声認識では r(t、j)= Maxi 〔r(t−1、i) ×a(i、j)〕×b〔i、j、P(t)〕 の計算を行うが、b〔i、j、P(t)〕すなわち
位置iからjへの遷移でパターンP(t)を出力
する確率をb〔l、P(t)〕で近似し、これらb
〔l、P(t)〕を各局所決定装置にストアしてお
き、高速処理を行えるようにしているのである。
なおb〔l、P(t)〕は標準セグメント・パター
ンl(レーベル)と入力セグメント・パターンP
(t)との相関値で、トレーニング時に予め作つ
ておく。
第1図は本発明に従う音声認識システムの全体
的ブロツク図、第2図は第1図に示される基本認
識装置の詳細図、第3図は第1図に示される局部
決定モジユールの詳細図、第4図は局部決定モジ
ユールで使用される局部的最適時間ひずみのセレ
クタを示すブロツク図、第5図は局部決定モジユ
ールで使用されるワード・プロトタイプ・コント
ローラを示すブロツク図、第6図は記憶されたプ
ロトタイプの全ての可能な時間ひずみと測定され
たパターンとを比較するため局部決定モジユール
中で使用されるハードウエアを示す回路図であ
る。第7図は本発明に従う上述音声認識システム
の例の原理的な構成を示すブロツク図である。 10a―10n…局部結定モジユール、12…
基本認識装置、14…A/D変換器、12d…相
関装置、20…ワード・プロトタイプ・コントロ
ーラ、26…局部的最適時間ひずみのセレクタ、
28…局部比較のアキユムレータ。
的ブロツク図、第2図は第1図に示される基本認
識装置の詳細図、第3図は第1図に示される局部
決定モジユールの詳細図、第4図は局部決定モジ
ユールで使用される局部的最適時間ひずみのセレ
クタを示すブロツク図、第5図は局部決定モジユ
ールで使用されるワード・プロトタイプ・コント
ローラを示すブロツク図、第6図は記憶されたプ
ロトタイプの全ての可能な時間ひずみと測定され
たパターンとを比較するため局部決定モジユール
中で使用されるハードウエアを示す回路図であ
る。第7図は本発明に従う上述音声認識システム
の例の原理的な構成を示すブロツク図である。 10a―10n…局部結定モジユール、12…
基本認識装置、14…A/D変換器、12d…相
関装置、20…ワード・プロトタイプ・コントロ
ーラ、26…局部的最適時間ひずみのセレクタ、
28…局部比較のアキユムレータ。
Claims (1)
- 【特許請求の範囲】 1 認識対象ワードを発音したときに測定される
音声パターンを一定時間間隔のパターン・セグメ
ントに分割し、このパターン・セグメントを分類
して入力パターン・セグメントの識別子を出力す
る基本認識装置212と、標準ワード音声パター
ンに共通な縦続した一定時間間隔のパターン・セ
グメント位置ごとに設けられた複数の局部決定モ
ジユール210a,…,210nとを有し、 上記局部決定モジユールの各々は、 当該局部決定モジユールに対応するパターン・
セグメント位置における各標準ワード音声パター
ンの標準時パターン・セグメントの識別子を記憶
する識別子記憶部222と、 各標準パターン・セグメントおよび各入力パタ
ーン・セグメントの間の相関値を記憶する相関値
記憶部256と、 上記基本認識装置から出力される入力パター
ン・セグメントの識別子および上記音声パターン
に比較しようとしている標準ワード音声パターン
の標準パターン・セグメントの識別子に応じて上
記識別子記憶部および相関値記憶部を制御して対
応する相関値を取り出し、上記基本認識装置から
出力された入力パターン・セグメントが、当該局
部決定モジユールに対応するパターン・セグメン
ト位置に関連して生成される入力パターン・セグ
メント生成確率として出力する生成確率発生部2
20と、 標準ワード音声パターンの1つのパターン・セ
グメント位置から1つのパターン・セグメント位
置へ遷移する遷移確率を記憶する遷移確率記憶部
244と、 当該局部決定モジユールの出力を送出する出力
部232と、 当該局部決定モジユールの出力および先行する
パターン・セグメント位置に対応する他の局部決
定モジユールからの出力を択一的に受け取る切換
部242と、 上記切換部から択一的に出力される、当該局部
決定モジユールの出力および先行するパターン・
セグメント位置に対応する他の局部決定モジユー
ルからの出力のうちの1つに、対応する遷移確率
を累積する遷移確率累積部252と、 当該局部決定モジユールの出力および先行する
パターン・セグメント位置に対応する他の局部決
定モジユールからの出力の各々に応じて上記遷移
確率累積部で累積された累積結果の最適値を出力
する最適値決定部254と、 上記最適値に上記入力パターン・セグメント生
成確率を累積して、当該局部決定モジユールに対
応するパターン・セグメント位置までの、上記音
声パターンと、この音声パターンに比較しようと
している標準ワード音声パターンとの間の部分的
な尤度として上記出力手段から出力される生成確
率累積部228とを有し、 上記音声パターンに比較しようとしている標準
ワード音声パターンの最終のパターン・セグメン
ト位置に対応する局部決定モジユールからの出力
を、上記音声パターンと上記比較しようとしてい
る標準ワード音声パターンとの間の尤度とし、こ
の尤度に基づいて上記音声パターンの認識を行う
ようにしたことを特徴とする音声認識システム。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US06/165,466 US4348553A (en) | 1980-07-02 | 1980-07-02 | Parallel pattern verifier with dynamic time warping |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5730900A JPS5730900A (en) | 1982-02-19 |
| JPH0228875B2 true JPH0228875B2 (ja) | 1990-06-26 |
Family
ID=22599010
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP8589581A Granted JPS5730900A (en) | 1980-07-02 | 1981-06-05 | Voice recognizing system |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US4348553A (ja) |
| EP (1) | EP0043006B1 (ja) |
| JP (1) | JPS5730900A (ja) |
| DE (1) | DE3173355D1 (ja) |
Families Citing this family (188)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4587670A (en) * | 1982-10-15 | 1986-05-06 | At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
| IT1156544B (it) * | 1982-11-08 | 1987-02-04 | Olivetti & Co Spa | Metodo ed apparecchiatura di riconoscimento fonetico di parole |
| AU586167B2 (en) * | 1984-05-25 | 1989-07-06 | Sony Corporation | Speech recognition method and apparatus thereof |
| US4718094A (en) * | 1984-11-19 | 1988-01-05 | International Business Machines Corp. | Speech recognition system |
| US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
| US4759068A (en) * | 1985-05-29 | 1988-07-19 | International Business Machines Corporation | Constructing Markov models of words from multiple utterances |
| GB8517918D0 (en) * | 1985-07-16 | 1985-08-21 | British Telecomm | Recognition system |
| US5023911A (en) * | 1986-01-10 | 1991-06-11 | Motorola, Inc. | Word spotting in a speech recognition system without predetermined endpoint detection |
| CA1311059C (en) * | 1986-03-25 | 1992-12-01 | Bruce Allen Dautrich | Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words |
| US4827521A (en) * | 1986-03-27 | 1989-05-02 | International Business Machines Corporation | Training of markov models used in a speech recognition system |
| US4918733A (en) * | 1986-07-30 | 1990-04-17 | At&T Bell Laboratories | Dynamic time warping using a digital signal processor |
| US4805219A (en) * | 1987-04-03 | 1989-02-14 | Dragon Systems, Inc. | Method for speech recognition |
| JPH04194999A (ja) * | 1990-11-27 | 1992-07-14 | Sharp Corp | 学習を用いた動的計画法 |
| US5745873A (en) * | 1992-05-01 | 1998-04-28 | Massachusetts Institute Of Technology | Speech recognition using final decision based on tentative decisions |
| US5502774A (en) * | 1992-06-09 | 1996-03-26 | International Business Machines Corporation | Automatic recognition of a consistent message using multiple complimentary sources of information |
| US5535305A (en) * | 1992-12-31 | 1996-07-09 | Apple Computer, Inc. | Sub-partitioned vector quantization of probability density functions |
| US5734791A (en) * | 1992-12-31 | 1998-03-31 | Apple Computer, Inc. | Rapid tree-based method for vector quantization |
| US5596680A (en) * | 1992-12-31 | 1997-01-21 | Apple Computer, Inc. | Method and apparatus for detecting speech activity using cepstrum vectors |
| CA2158849C (en) * | 1993-03-25 | 2000-09-05 | Kevin Joseph Power | Speech recognition with pause detection |
| US6230128B1 (en) | 1993-03-31 | 2001-05-08 | British Telecommunications Public Limited Company | Path link passing speech recognition with vocabulary node being capable of simultaneously processing plural path links |
| JPH08508583A (ja) * | 1993-03-31 | 1996-09-10 | ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 接続スピーチ認識 |
| AU6938894A (en) * | 1994-03-03 | 1995-09-18 | Alexandr Sergeevich Dmitriev | Method of objects recognition |
| US5625747A (en) * | 1994-09-21 | 1997-04-29 | Lucent Technologies Inc. | Speaker verification, speech recognition and channel normalization through dynamic time/frequency warping |
| US6463361B1 (en) * | 1994-09-22 | 2002-10-08 | Computer Motion, Inc. | Speech interface for an automated endoscopic system |
| US5617509A (en) * | 1995-03-29 | 1997-04-01 | Motorola, Inc. | Method, apparatus, and radio optimizing Hidden Markov Model speech recognition |
| US5737489A (en) * | 1995-09-15 | 1998-04-07 | Lucent Technologies Inc. | Discriminative utterance verification for connected digits recognition |
| US5806029A (en) * | 1995-09-15 | 1998-09-08 | At&T Corp | Signal conditioned minimum error rate training for continuous speech recognition |
| US6911916B1 (en) | 1996-06-24 | 2005-06-28 | The Cleveland Clinic Foundation | Method and apparatus for accessing medical data over a network |
| EP0978793A2 (en) * | 1998-08-06 | 2000-02-09 | ATR Interpreting Telecommunications Research Laboratories | Apparatus and method for producing analogically similar word based on pseudo-distances between words |
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| US7398208B2 (en) * | 2001-10-11 | 2008-07-08 | Siemens Atkiengesellschaft | Method for producing reference segments describing voice modules and method for modeling voice units of a spoken test model |
| ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
| US7286993B2 (en) | 2002-01-31 | 2007-10-23 | Product Discovery, Inc. | Holographic speech translation system and method |
| US6978240B1 (en) * | 2002-01-31 | 2005-12-20 | Brotz Gregory R | Speech translation system utilizing holographic data storage medium |
| KR100462472B1 (ko) * | 2002-09-11 | 2004-12-17 | 학교법인 포항공과대학교 | 동적 타임 워핑 디바이스와 이를 이용한 음성 인식 장치 |
| GB2418764B (en) * | 2004-09-30 | 2008-04-09 | Fluency Voice Technology Ltd | Improving pattern recognition accuracy with distortions |
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US20080255773A1 (en) * | 2007-04-13 | 2008-10-16 | Chao Yuan | Machine condition monitoring using pattern rules |
| US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
| US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
| US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US8218880B2 (en) * | 2008-05-29 | 2012-07-10 | Microsoft Corporation | Linear laplacian discrimination for feature extraction |
| US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
| US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
| US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
| US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
| US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
| US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
| US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
| US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
| US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
| US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
| US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
| US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
| US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
| DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
| US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
| US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
| US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
| US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
| US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
| US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
| US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
| US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
| US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
| US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
| US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
| US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
| DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
| US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
| US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
| US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
| US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
| US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
| US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
| WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| KR102057795B1 (ko) | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
| US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
| WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
| CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
| KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
| KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
| US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
| US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
| US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
| US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
| US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
| WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
| US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
| US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
| US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
| US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
| US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
| US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| US10235993B1 (en) * | 2016-06-14 | 2019-03-19 | Friday Harbor Llc | Classifying signals using correlations of segments |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
| CN108877768B (zh) * | 2018-05-21 | 2020-12-11 | 广东省电信规划设计院有限公司 | 座机提示音识别方法、装置及计算机设备 |
| CN111859031B (zh) * | 2020-07-15 | 2023-06-20 | 中国安全生产科学研究院 | 一种油气管道事故失效因素分析方法 |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US3700815A (en) * | 1971-04-20 | 1972-10-24 | Bell Telephone Labor Inc | Automatic speaker verification by non-linear time alignment of acoustic parameters |
| JPS4891935A (ja) * | 1972-03-08 | 1973-11-29 | ||
| JPS5272504A (en) * | 1975-12-15 | 1977-06-17 | Fuji Xerox Co Ltd | Device for recognizing word audio |
| US4164025A (en) * | 1977-12-13 | 1979-08-07 | Bell Telephone Laboratories, Incorporated | Spelled word input directory information retrieval system with input word error corrective searching |
| JPS552205A (en) * | 1978-06-20 | 1980-01-09 | Kogyo Gijutsuin | Real time continuous sound discriminator |
| JPS5569880A (en) * | 1978-11-22 | 1980-05-26 | Nec Corp | Pattern recognition unit |
-
1980
- 1980-07-02 US US06/165,466 patent/US4348553A/en not_active Expired - Lifetime
-
1981
- 1981-06-05 JP JP8589581A patent/JPS5730900A/ja active Granted
- 1981-06-10 EP EP81104440A patent/EP0043006B1/en not_active Expired
- 1981-06-10 DE DE8181104440T patent/DE3173355D1/de not_active Expired
Also Published As
| Publication number | Publication date |
|---|---|
| US4348553A (en) | 1982-09-07 |
| EP0043006B1 (en) | 1986-01-02 |
| JPS5730900A (en) | 1982-02-19 |
| EP0043006A2 (en) | 1982-01-06 |
| EP0043006A3 (en) | 1982-01-20 |
| DE3173355D1 (en) | 1986-02-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH0228875B2 (ja) | ||
| US5212730A (en) | Voice recognition of proper names using text-derived recognition models | |
| EP0109190A1 (en) | Monosyllable recognition apparatus | |
| EP0705473A1 (en) | Speech recognition method using a two-pass search | |
| JPH1063291A (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
| CN102334119B (zh) | 声音检索装置及声音检索方法 | |
| EP0453649A2 (en) | Method and apparatus for modeling words with composite Markov models | |
| US7460995B2 (en) | System for speech recognition | |
| EP0241183B1 (en) | Speech recognition system | |
| CN113129864A (zh) | 语音特征预测方法、装置、设备及可读存储介质 | |
| CN110570877B (zh) | 手语视频生成方法、电子设备及计算机可读存储介质 | |
| CN109300474B (zh) | 一种语音信号处理方法及装置 | |
| EP0482395A2 (en) | Method and apparatus for generating models of spoken words based on a small number of utterances | |
| KR100719942B1 (ko) | 패턴 인식 | |
| JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
| JP3322536B2 (ja) | ニューラルネットワークの学習方法および音声認識装置 | |
| JPS61148497A (ja) | 標準パタン作成装置 | |
| JP2738403B2 (ja) | 音声認識装置 | |
| JP3052520B2 (ja) | パターン分類装置 | |
| JP2003022091A (ja) | 音声認識方法および音声認識装置ならびに音声認識プログラム | |
| JP2577891B2 (ja) | 単語音声予備選択装置 | |
| JP4344195B2 (ja) | 音声合成用リスト生成装置及び音声合成用リスト生成プログラム | |
| JP2005265874A (ja) | 素片接続型音声合成装置 | |
| KR20000033276A (ko) | 대표 특징열을 이용한 프레임 압축 방법 및그를 이용한 음성인식 방법 | |
| JP3092384B2 (ja) | パターン照合装置 |