JP2012505477A - リアルタイムデータパターン解析システム、およびその動作の方法 - Google Patents

リアルタイムデータパターン解析システム、およびその動作の方法 Download PDF

Info

Publication number
JP2012505477A
JP2012505477A JP2011531145A JP2011531145A JP2012505477A JP 2012505477 A JP2012505477 A JP 2012505477A JP 2011531145 A JP2011531145 A JP 2011531145A JP 2011531145 A JP2011531145 A JP 2011531145A JP 2012505477 A JP2012505477 A JP 2012505477A
Authority
JP
Japan
Prior art keywords
data
data pattern
module
real
memory module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011531145A
Other languages
English (en)
Other versions
JP5714495B2 (ja
Inventor
ファストウ,リチャード・エム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JP2012505477A publication Critical patent/JP2012505477A/ja
Application granted granted Critical
Publication of JP5714495B2 publication Critical patent/JP5714495B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Testing Or Measuring Of Semiconductors Or The Like (AREA)
  • Tests Of Electronic Circuits (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

リアルタイムデータパターン解析システムの動作方法は、集積回路ダイに配置されたメモリモジュール、計算ユニット、および、統合データ転送モジュールを提供すること、メモリモジュール内にデータパターンを記憶すること、統合データ転送モジュールを用いてメモリモジュールから計算ユニットへデータパターンを転送すること、ならびに、計算ユニットを用いて、処理後データとデータパターンとを比較することを含む。

Description

関連出願の相互参照
本出願は、2008年10月10日に出願された米国仮特許出願番号61/195,743の利益を主張し、その内容は参照によりここに引用される。
技術分野
本発明は、一般的に、リアルタイムデータパターン解析システムに関し、より特定的には、音声認識のためのシステムに関する。
リアルタイムデータパターン認識は、小型でかつネットワーク化された電子システムを制御するプロセスにおけるデータを解析するために、ますます用いられている。たとえば、音声認識システムは、携帯、サーバ、およびPC市場において、ますます一般的になっている。低価格の性能スペクトル(capability spectrum)について、音声認識システムは、連続した数字(10字)または英字(26字)を認識する必要がある。一方、高価格のスペクトルについては、5,000語の連続口述能力が必要であり得る。文法モデルも含まれる場合、20,000語のトライグラム語彙が必要とされ得る。
音声認識システムにおける単語誤り率は、人間の音声認識についてよりも十分に高い。いくつかの場合(特に、ノイズ環境においては)機械音声認識システムは、人間の聞き手よりも、1桁高い誤り率を有し得る。
大語彙音声認識システムは、典型的に、信号処理ステージ(特徴抽出器)と、それに引き続く音響モデリングステージ(セノン(senone)計算機)と、それに引き続く音索評価器(ビタビ探索(Viterbi search))と、それに引き続く単語モデラで構成される。
信号処理ステージにおいては、線形予測符号化(linear predictive coding:LPC)または高速フーリエ変換(FFT)のような技術が、入力信号のパラメータデジタル表現を抽出するために適用される。この手法は、およそ10msの一定時間間隔またはフレームで繰り返される。
音響モデリングステージにおいては、これらのパラメータ観測ベクトルは、次に、メモリに記憶されたセノンと比較される(語句「セノン」は、基本副音声ユニットを示す)。パラメータ観測ベクトルとセノンとの比較は、10msごとに最大20,000セノンが比較されるような、演算およびメモリ集中タスクである。この比較の間、多変量ガウス確率が各セノンについて計算され得、これは、入力特徴ベクトルと記憶されたセノンの各々との間の数学的「距離」を表わす。
音索評価ステージにおいては、隠れマルコフモデル(Hidden Markov Model:HMM)が、一連のセノンとしての音索をモデル化するために用いられ、ここで、特定のセノンがHMMにおける状態と確率的に関連付けられ得る。所与の観測された一連のセノンについて、対応するHMM内の最も有望な一連の状態がある。この対応するHMMは、観測された音索と関連付けられる。一連のセノンに対応する最も有望な音索を見出すために、ビテビアルゴリズム(Viterbi algorithm)がしばしば採用される。
ビテビアルゴリズムは、時間同期方式で、第1のフレームから開始し、その後同時に1つのフレームに進む演算を実行する。確率スコアが、考慮されるHMM内の各セノンについて演算される。したがって、ビテビアルゴリズムが連続観測ベクトルを分析するときに、可能性のあるセノン配列の各々について、累積確率スコアが連続的に演算される。発声の終了まで、ビテビアルゴリズムによって演算された最高確率スコアを有するHMMが、全配列についての最も有望な音索を提供する。
音響モデリングステージは、音声認識プロセスの演算上のボトルネックである。これは、2つの要因によるものであり、1)各セノンの多変量ガウス確率を評価するために必要とされる多くの浮動小数点計算、および、2)セノンデータへのアクセスのメモリ帯域幅制限である。
1.7GHz x86マイクロプロセッサベースプラットフォームについての標準的なSPHINX3音声認識システムの評価は、1000語のタスクが、処理のために実時間よりも160%長い時間を要し、メモリバス帯域幅の多くの部分を消費することを示した。ボトルネックは、遅い処理速度およびモバイルプロセッサの低減された電力要件のために、類似の構造を有する大語彙音声認識ソフトウェアを実行するにはモバイル機器の能力を大幅に制限する。
音声認識システムの速度および記憶/処理能力の問題は、リアルタイムまたはリアルタイムに近い状態で、データストリームの解析に関連する複雑さを示す。したがって、音声認識に関連する問題は、ストリーミング媒体から高性能ユーティリティネットワークにおける信号挙動の解析まで拡がる、他のデータストリームに対する解析にまで一般化される。
したがって、携帯電話において用いられる音声認識システムのような、電子的かつネットワーク化されたシステムにおけるデータパターンの解析のボトルネックを低減するためのシステムおよび方法についての要求が、依然として残っている。電子機器およびネットワークの制御におけるリアルタイムデータ解析についての要求が増加する点において、これらの問題に対する答えを見出すことは非常に重要である。
さらに、市場における消費者の期待の増加および意味のある製品差別化に関する減少する機会とともに、依然として増加する商業的競争圧力の観点において、これらの問題に対する答えを見出すことは非常に重要である。
さらに、コストの低減、効率および性能の改善、ならびに競争圧力を満足するための要求は、これらの問題に対する答えを見出すための重要な必要性に、より大きな緊急性を追加する。
こられの問題に対する解決が長く望まれてきたが、これまでの開発はいかなる教示も示唆もしておらず、したがって、これらの問題に対する解決は当業者を長期にわたってかわしてきた。
発明の開示
本発明は、集積回路ダイに配置されたメモリモジュール、計算ユニット、および、統合データ転送モジュールを提供すること、メモリモジュール内にデータパターンを記憶すること、統合データ転送モジュールを用いてメモリモジュールから計算ユニットへデータパターンを転送すること、計算ユニットを用いて、処理後データとデータパターンとを比較することを含む、リアルタイムデータパターン解析システムの動作の方法を提供する。
さらに、本発明は、データパターンを記憶するためのメモリモジュールと、処理後データをデータパターンと比較するための計算ユニットと、メモリモジュールから計算ユニットへデータパターンを転送するための統合データ転送モジュールを備える、リアルタイムデータパターン解析システムを提供する。
本発明の特定の実施形態は、上述のものに加えて、または代えて、他のステップまたは要素を有する。ステップまたは要素は、添付の図面を参照して、以下の詳細な説明を読むことによって、当業者に明らかになるであろう。
本発明の実施形態における、リアルタイムデータパターン解析システム100を示す概略ブロック図を示す。 本発明の他の実施形態における、集積回路ダイに集積されたリアルタイムデータパターン解析システムの平面図の概略代表図である。 本発明のさらに他の実施形態において用いられる、隠れマルコフモデル(HMM)に基づく音声認識方法300を示すフローチャートである。 図3の音声認識方法の前段のさらなる詳細を示すフローチャートである。 本発明のさらなる実施形態において用いられる、図1のリアルタイムデータパターン解析システムに基づく、リアルタイム音声認識システムを示す概略ブロック図である。 本発明のまたさらなる実施形態における、リアルタイムデータパターン解析システムの動作方法のフローチャートである。
本発明を実施するための最良の形態
以下の実施形態は、当業者が本発明を造りおよび使用することができるように、十分に詳細に説明される。他の実施形態が本開示に基づいて明白であること、および、本発明の範囲から逸脱することなく、システム、プロセス、または機械的変更がなされ得ることが理解されるべきである。
以下の説明においては、本発明の完全な理解を提供するために、多くの特定の詳細が与えられる。しかしながら、本発明はこれらの特定の詳細を伴わずに実行され得ることは明らかであろう。本発明を曖昧にすることを避けるために、いくつかの周知の回路、システム構成、およびプロセスステップの詳細は開示されていない。
本システムの実施形態を示す図面は、準図解的(semi-diagrammatic)であり、縮尺通りには描かれておらず、特に、いくつかの寸法は提示の明確化のためであり、図面の各図において誇張されて示される。同様に、説明を容易にするために、図面内の視点は概して同じ方向を示しているが、図中のこの描写は、ほとんどの部分について任意的である。一般的に、本発明はいかなる方向においても動作可能である。
全ての図において、同じ要素に対して同じ番号が用いられる。実施形態は、説明の都合上、第1の実施形態、第2の実施形態などのように番号付けされるが、他の重要性を有すること、または本発明についての限定を与えることを意図したものではない。
まず、図1を参照して、本発明の一実施形態における、リアルタイムデータパターン解析システム100を示す、概略的なブロック図が示される。リアルタイムデータパターン解析システム100の構造は、データストリーム102に由来する処理後データ104とメモリモジュール108に記憶されたデータパターン106とを比較することによって、データストリーム102のリアルタイム解析を提供するように最適化され、メモリモジュール108は、DRAMのような揮発性メモリ、またはフラッシュメモリのような不揮発性メモリを用いて実現される。
本発明の好ましい実施形態においては、メモリモジュール108は、不揮発性メモリを用いて実現される。不揮発性メモリの例としては、多くの他の選択肢の中で、NORフラッシュメモリ、NANDフラッシュメモリ、位相変化メモリ、抵抗メモリ、磁気RAMメモリ、またはFERAMメモリを含む。
リアルタイムデータパターン解析システム100は、データストリーム102を処理後データ104に変換するための信号処理モジュール110を含み得る。信号処理モジュール110によって実行される信号処理機能は、アナログ−デジタル変換、時間領域から周波数領域への変換、および/または、データストリーム102の、データパターン106と比較することができる処理後データ104への適切な変換をもたらす他の信号操作を含み得る。
計算ユニット112は、処理後データ104とデータパターン106との間の比較を演算し、処理後データ104とデータパターン106との間のパターン一致を定量化するスコア出力114を生成する。このような比較の実行において、計算ユニット112は、処理後データ104を、メモリモジュール108に存在する複数の異なるバリエーションのデータパターン106と比較しなければならない。
本発明の1つの実施形態においては、計算ユニット112によって実行される比較は、処理後データ104とデータパターン106との間の「数学的距離」を示す、メモリモジュール108内に記憶されたデータパターン106の各インスタンスに対する多変量ガウス確率の計算である。
メモリモジュール108から計算ユニット112へのデータパターン106の転送は、高帯域幅大規模並列データバス118、メモリバッファ120、および高帯域幅データバス122を含み得る統合データ転送モジュール116を用いて実行される。
リアルタイムデータパターン解析システム100の実行における速度制限ステップは、メモリモジュール108と計算ユニット112との間のデータ転送であることが発見された。この理由のために、リアルタイムデータパターン解析システム100の重要な側面は、集積回路ダイ124内への、メモリモジュール108、統合データ転送モジュール116、および計算ユニット112の集積化である。本発明の代替的な実施形態においては、信号処理モジュール110もまた、集積回路ダイ124に集積化される。
集積回路ダイ124内へのメモリモジュール108、統合データ転送モジュール114、および計算ユニット112の集積化は、データ転送に間違いを生じさせ得る寄生容量(parasitic)を最小化しながら相互接続を最大化する方法で、統合データ転送モジュール114の実行を可能とすることが、予想外にも観測された。
データパターン解析システムの非集積構成においては、メモリモジュール108と計算ユニット112との間のデータバス幅は、利用可能な入出力接触パッドの数まで制限され、それは8ビットから32ビットの範囲である。それに対して、集積回路ダイ124内への統合データ転送モジュール114の実行例は、256ビットを超えるバス幅を可能とし、メモリモジュール108と計算ユニット112との間で、毎秒1ギガバイトを超える転送速度で直接転送する。
リアルタイムデータパターン解析システム100が、音声データ、マルチメディアストリーミングデータ、または解析を必要とするグリッドやネットワークを通して転送されるいかなるデータであり得る、データストリーム102のリアルタイム解析またはリアルタイムに近い解析のために採用され得ることが、予想外にも確認された。たとえば、リアルタイムデータパターン解析システム100は、電力転送グリッドまたはローカル電力回路におけるデータシグネチャを認識するために採用され得、データシグネチャは、グリッドまたはネットワーク内における特定の装置の異常または動作を示す。
リアルタイムデータパターン解析システム100の複数のインスタンスが並列して用いられ、データストリーム102の複雑性に依存して拡張性を提供することが、予想外にも発見された。リアルタイムデータパターン解析システム100の並列使用のために、追加的なモジュール(図示せず)が、データストリーム102を管理するため、およびリアルタイムデータパターン解析システム100のインスタンス間で機能を連携させるために必要とされ得る。
図2を参照して、本発明の他の実施形態における、集積回路ダイ202に集積化されたリアルタイムデータパターン解析システム200の平面図の概略代表図が示される。リアルタイムデータパターン解析システム200は、高帯域幅大規模並列データバス206を通してアクセスされる、フラッシュメモリコアアレイのような不揮発性メモリコア204を含み、それは、不揮発性メモリコア204から計算ユニット210を含む周辺回路モジュール208へ、図1のデータパターン106を転送するために用いられる。集積回路ダイ202は、不揮発性メモリコア204および周辺回路モジュール208を支持するために、適当な電圧レベルを提供するためのチャージポンプモジュール212を含む。
集積回路ダイ202は、リアルタイムデータパターン解析システム200のために必要とされる記憶容量に依存して適切に、1つまたはより多くの不揮発性メモリコア204のインスタンスを含み得る。たとえば、いくつかの用途においては、不揮発性メモリコア204の1つまたは2つのインスタンスが、図1のデータパターン106の多くのインスタンスを記憶するために必要とされ、600メガビットの全要求記憶容量まで達し得る。より高い記憶容量は、不揮発性メモリコア204のインスタンスの数を増加することによって達成可能である。
本発明の好ましい実施形態においては、高帯域幅大規模並列データバス206は、少なくとも256ビット幅である。不揮発性メモリコア204が高速NORフラッシュメモリ技術を用いて実現されると仮定すると、256ビットは、バーストモードにおいておよそ30ナノ秒で読み込まれ、これは毎秒1ギガバイトを越える効果的なデータ転送速度を表わす。したがって、集積回路ダイ206における高帯域幅大規模並列データバス206の実現は、不揮発性メモリコア204と計算ユニット210を含む周辺回路モジュール208との間で、毎秒1ギガバイトのデータ転送速度の実現を可能とすることが発見された。
図1のデータパターン106は、メモリバッファ214を通って周辺回路モジュール208に入り、高帯域幅データバス216を通って計算ユニット210へ送られる。本発明の1つの実施形態においては、メモリバッファ214は、エラー補正コードを実行するための回路、すなわち読込エラーを補正する方法を含む。高電圧モジュール218は、集積回路ダイ202における要素のための追加的な電力調整を提供し、マイクロコントローラ状態機械モジュール220は、チップ制御機能および外部チップインターフェース機能を提供する。低電圧電力調整回路は、マイクロコントローラ状態機械モジュール220内に統合され得る。
図3を参照して、本発明のさらに他の実施形態において用いられる、隠れマルコフモデル(HMM)に基づく音声認識方法300を示すフローチャートが示される。隠れマルコフモデルに基づく音声認識システムは、他の技術と比べて相対的に高い精度を有することに注意すべきである。このようなシステムにおいては、基本音声ユニット(「音(phone)」)は、副音声ユニット(「セノン」)で構築された隠れマルコフモデルを用いて記述される。したがって、音声認識システムの精度は、多くの場合、与えられた期間における発声と比較することができるセノンの数によって決定される。セノンスコアリングのこのプロセスは、典型的に、音声認識システムの計算上のボトルネックである。
アナログ音声信号302が信号処理モジュール304に入力され、アナログ音声信号302のデジタル表現である特徴ベクトル306に変換される。メル周波数ケプストラム係数は、音の短時間パワースペクトルをまとめて表わす係数であり、アナログ音声信号302を表わすために採用され得る。最初の13のケプストラム係数のみが必要とされる。
特徴ベクトル306は、ガウススコアリングユニット308へ提供され、特徴ベクトル306と、セノンベクトルテーブル312に記憶された1つまたはより多くのセノンとの間の、数学的距離または最良適合を表わすセノンスコア310を計算するために用いられる。セノンベクトルテーブル312に記憶された情報は、セノンモデルの各混合の各ベクトル要素についての、平均、共分散、および、重み因子を含む。
本技術分野の公知の状態においては、セノンベクトルテーブル312は、個別のDRAMチップ(図示せず)に記憶され、システムの電源が入っている間セノンデータがアップロードされ、システムの電源が切られると失われる。音索モデリングユニット314は、アクティブセノンリスト316をガウススコアリングユニット308へ提供する。アクティブセノンリスト316は、特徴ベクトル306と比較される必要がある、セノンベクトルテーブル312内に記憶されたセノンの選択を決定する。
単語318を認識するために用いられる追加のステージがある。セノンスコア310は、音索モデリングユニット314に送られる。音索は、発声間の意味のあるコントラストを形成するために必要とされる音の最小セグメント単位である。音索モデリングユニット314においては、最も有望なセノンを決定するために、連続したセノンが用いられる。同様に、単語モデリングユニット320においては、単語318の最も有望な選択を決定するために、連続した音索が用いられる。
図4を参照して、図3の音声認識方法300の前段のさらなる詳細を示すフローチャートが示される。アナログ音声信号302は、信号処理モジュール402によって処理され、メル周波数ケプストラム係数404を出力する。ケプストラム平均正規化モジュール406は、マイクロフォンまたは環境音響からの歪みを補償し、特徴ベクトル306の生成をもたらす。セノンベクトルテーブル312およびガウススコアリングユニット308を含むセノンスコアリングユニット408は、特徴ベクトル306を採用してセノンスコア310を演算する。
図5を参照して、本発明のさらなる実施形態において用いられる、図1のリアルタイムデータパターン解析システム100に基づく、リアルタイム音声認識システム500を示す概略ブロック図が示される。リアルタイム音声認識システム500の構造は、最適化されて、アナログ音声信号に由来する特徴ベクトルと図3のセノンベクトルテーブル312を記憶するメモリモジュール108内に記憶されたセノン502とを比較することによって、リアルタイム−およそ10msフレーム−のアナログ音声信号302の解析を提供する。
リアルタイム音声認識システム500は、アナログ音声信号302を特徴ベクトル306に変換するための信号処理モジュール110を含み得る。信号処理モジュール110によって実行される信号処理機能は、アナログ−デジタル変換、時間領域から周波数領域への変換、および/または、アナログ音声信号302の特徴ベクトル306への適切な変換をもたらす他の信号操作を含み得る。
計算ユニット112は、特徴ベクトル306と、メモリモジュール208に記憶されたセノン502との間の比較を演算し、特徴ベクトル306とセノン502との間の最良適合を定量化するセノンスコア310を生成する。このような比較の実行において、計算ユニット112は、特徴ベクトル306を、メモリモジュール108に存在する複数の異なるバリエーションのセノン502と比較しなければならない。したがって、計算ユニット112は、図3のガウススコアリングユニット308の機能を実行する。
メモリモジュール108から計算ユニット112へのセノン502の転送は、高帯域幅大規模並列データバス118と、メモリバッファ120と、高帯域幅データバス122とを含み得る統合データ転送モジュール116を用いて実行される。
リアルタイム音声認識システム500、および図2に示されるリアルタイムデータパターン解析システム200の使用は、携帯電話のような携帯機器によって継続され得る電力消費における高速データレートを支援し得ることが発見された。
リアルタイム音声認識システム500は、13,000を超えるセノン502のバリエーションを十分に記憶することができるメモリモジュール108を備えることによって、記憶の問題を解決する。セノンの各バリエーションは、集積回路ダイ124に設けられるメモリモジュール108内に、バイナリ形式で記憶される。セノン情報を記憶する標準的な方法は、39要素を有するベクトルである。ベクトルの各要素は、32ビットの解像度を有し、セノン502は、これらのベクトルのうちの20の混合である。男性の音声および女性の音声の両方をカバーする必要があることを考慮して、記憶要件は650ギガビットのオーダの情報(13,000のセノン、39の要素、20の混合、32ビット、および2つのコードブックの積)であり得、NORフラッシュメモリによって対処することができる容量である。
リアルタイム動作のために、特徴ベクトルおよび306とメモリモジュール108に記憶されたセノン502の複数のバリエーションとの比較が、10ミリ秒のフレーム内でなされなければならない。メモリモジュール108の外部にセノン502を読んで計算ユニット112へ入れることは、非常に高いデータ転送速度を必要とする。リアルタイム音声認識システム500がNORフラッシュメモリ技術を用いて実現される場合、256ビットの情報が、バーストモードにおいて、30ナノ秒で並列に読み込まれ、これは、8.5ミリ秒フレームをサポートできる、毎秒1ギガバイトのデータ転送速度を表わす。
図6を参照して、本発明のまたさらなる実施形態における、リアルタイムデータパターン解析システムの動作方法600のフローチャートが示される。方法600は、ブロック602にて集積回路ダイに配置されたメモリモジュール、計算ユニット、および、統合データ転送モジュールを提供すること、ステップ604にてメモリモジュール内にデータパターンを記憶すること、ブロック606にて統合データ転送モジュールを用いて、メモリモジュールから計算ユニットへデータパターンを転送すること、および、ブロック608にて計算ユニットを用いて、処理後データとデータパターンとを比較することを含む。
結果として得られる方法、プロセス、装置、機器、製品、および/または、システムは、容易で、費用対効果があり、複雑でなく、非常に万能で、正確で、感度がよく、効率的であり、既存の、高能率かつ経済的な製造、用途、および利用のための公知の要素を適用することによって実現することができる。
本発明の他の重要な側面は、コスト削減、システムの単純化、および性能向上の歴史的動向を有益に支援し、提供することである。
本発明のこれらおよび他の有益な側面は、結果として、技術状態を少なくとも次のレベルまで引き上げる。
発明は、特定の最良の形態とともに説明されたが、多くの変形、修正、および変化が、上述の説明に照らして、当業者には明らかであることが理解されるべきである。したがって、添付の請求の範囲の範囲内に含まれるそれらの変形、修正、および変化の全てを包含することが意図される。これまで本明細書に記載された、または添付の図面に示された全ての内容は、例示的であり、非制限の意味で解釈されるべきである。

Claims (10)

  1. リアルタイムデータパターン解析システムの動作方法であって、
    集積回路ダイに配置されたメモリモジュール、計算ユニット、および、統合データ転送モジュールを提供するステップと、
    前記メモリモジュール内にデータパターンを記憶するステップと、
    前記統合データ転送モジュールを用いて、前記メモリモジュールから前記計算ユニットへ前記データパターンを転送するステップと、
    前記計算ユニットを用いて、処理後データと前記データパターンとを比較するステップとを備える、方法。
  2. 信号処理モジュールを用いて、データストリームを前記処理後データに変換するステップをさらに備える、請求項1に記載の方法。
  3. 前記計算ユニットを用いて、処理後データと前記データパターンとを比較するステップは、前記計算ユニットからスコア出力をもたらす、請求項1に記載の方法。
  4. 前記統合データ転送モジュールを用いて、前記メモリモジュールから前記計算ユニットへ前記データパターンを転送するステップは、毎秒1ギガバイトを越えるデータ転送速度で行なわれる、請求項1に記載の方法。
  5. 前記統合データ転送モジュールを用いて、前記メモリモジュールから前記計算ユニットへ前記データパターンを転送するステップは、転送ごとに256ビットを用いて行なわれる、請求項1に記載の方法。
  6. リアルタイムデータパターン解析システムであって、
    データパターンを記憶するためのメモリモジュールと、
    処理後データを前記データパターンと比較するための計算ユニットと、
    前記メモリモジュールから前記計算ユニットへ前記データパターンを転送するための統合データ転送モジュールとを含む、集積回路ダイを備える、システム。
  7. 前記メモリモジュールは、不揮発性メモリコアを含む、請求項6に記載のシステム。
  8. マイクロコントローラ状態機械モジュールをさらに備える、請求項6に記載のシステム。
  9. 前記統合データ転送モジュールは、高帯域幅大規模並列データバスと、メモリバッファと、高帯域幅データバスとを含む、請求項6に記載のシステム。
  10. 前記統合データ転送モジュールは、少なくとも256ビット幅である、請求項6に記載のシステム。
JP2011531145A 2008-10-10 2009-10-07 解析システム、およびデータパターン解析の方法 Expired - Fee Related JP5714495B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US19574308P 2008-10-10 2008-10-10
US61/195,743 2008-10-10
PCT/US2009/059862 WO2010042631A2 (en) 2008-10-10 2009-10-07 Real-time data pattern analysis system and method of operation thereof

Publications (2)

Publication Number Publication Date
JP2012505477A true JP2012505477A (ja) 2012-03-01
JP5714495B2 JP5714495B2 (ja) 2015-05-07

Family

ID=42101185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011531145A Expired - Fee Related JP5714495B2 (ja) 2008-10-10 2009-10-07 解析システム、およびデータパターン解析の方法

Country Status (5)

Country Link
US (1) US9135918B2 (ja)
JP (1) JP5714495B2 (ja)
KR (1) KR101611464B1 (ja)
DE (1) DE112009002426T5 (ja)
WO (1) WO2010042631A2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8818802B2 (en) 2008-10-10 2014-08-26 Spansion Llc Real-time data pattern analysis system and method of operation thereof
US8924453B2 (en) * 2011-12-19 2014-12-30 Spansion Llc Arithmetic logic unit architecture
US10726834B1 (en) * 2019-09-06 2020-07-28 Verbit Software Ltd. Human-based accent detection to assist rapid transcription with automatic speech recognition

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60168196A (ja) * 1984-02-10 1985-08-31 富士通株式会社 音声パタ−ン照合回路
JPH05189383A (ja) * 1991-07-22 1993-07-30 Internatl Business Mach Corp <Ibm> マルチプロセッサデータ処理システム及びインターフェース装置
JPH06167995A (ja) * 1992-11-30 1994-06-14 Sony Corp 音声認識装置
WO1999053477A1 (fr) * 1998-04-15 1999-10-21 Hitachi, Ltd. Systeme de reconnaissance vocale a micro-ordinateur parallele
US6024580A (en) * 1998-01-08 2000-02-15 International Business Machines Corporation High performance pad on pad connector for flex circuit packaging
US20040196709A1 (en) * 2000-09-21 2004-10-07 Ong Adrian E. Chip testing within a multi-chip semiconductor package
WO2006030214A2 (en) * 2004-09-14 2006-03-23 Zentian Limited A speech recognition circuit and method
WO2006129762A1 (ja) * 2005-06-02 2006-12-07 Sony Corporation 半導体イメージセンサ・モジュール及びその製造方法
JP2007335076A (ja) * 1995-06-09 2007-12-27 Telefon Ab Lm Ericsson メモリ構造

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4741036A (en) 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system
IT1229782B (it) 1989-05-22 1991-09-11 Face Standard Ind Metodo ed apparato per riconoscere parole verbali sconosciute mediante estrazione dei parametri e confronto con parole di riferimento
US5487086A (en) 1991-09-13 1996-01-23 Comsat Corporation Transform vector quantization for adaptive predictive coding
FR2687496B1 (fr) 1992-02-18 1994-04-01 Alcatel Radiotelephone Procede de reduction de bruit acoustique dans un signal de parole.
US5535305A (en) 1992-12-31 1996-07-09 Apple Computer, Inc. Sub-partitioned vector quantization of probability density functions
US5794197A (en) 1994-01-21 1998-08-11 Micrsoft Corporation Senone tree representation and evaluation
US5710866A (en) 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
DE19744690A1 (de) 1997-10-10 1999-04-15 Philips Patentverwaltung Integrierter Abstandsberechner
US7047196B2 (en) 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
KR100365340B1 (ko) 2001-01-12 2002-12-18 삼성전자 주식회사 유.엠.티.에스 시스템의 안내방송 장치
CA2359544A1 (en) 2001-10-22 2003-04-22 Dspfactory Ltd. Low-resource real-time speech recognition system using an oversampled filterbank
US7228275B1 (en) 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
US7231019B2 (en) 2004-02-12 2007-06-12 Microsoft Corporation Automatic identification of telephone callers based on voice characteristics
US20090222270A2 (en) 2006-02-14 2009-09-03 Ivc Inc. Voice command interface device
US7774202B2 (en) * 2006-06-12 2010-08-10 Lockheed Martin Corporation Speech activated control system and related methods
US8457959B2 (en) 2007-03-01 2013-06-04 Edward C. Kaiser Systems and methods for implicitly interpreting semantically redundant communication modes
TWI336880B (en) 2007-06-11 2011-02-01 Univ Nat Taiwan Voice processing methods and systems, and machine readable medium thereof
JP2009065547A (ja) * 2007-09-07 2009-03-26 Hitachi Ltd 半導体集積回路装置及びその半導体集積回路装置を備えるストレージ装置
US8352265B1 (en) 2007-12-24 2013-01-08 Edward Lin Hardware implemented backend search engine for a high-rate speech recognition system
US8364486B2 (en) 2008-03-12 2013-01-29 Intelligent Mechatronic Systems Inc. Speech understanding method and system
US8818802B2 (en) 2008-10-10 2014-08-26 Spansion Llc Real-time data pattern analysis system and method of operation thereof

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60168196A (ja) * 1984-02-10 1985-08-31 富士通株式会社 音声パタ−ン照合回路
JPH05189383A (ja) * 1991-07-22 1993-07-30 Internatl Business Mach Corp <Ibm> マルチプロセッサデータ処理システム及びインターフェース装置
US5410654A (en) * 1991-07-22 1995-04-25 International Business Machines Corporation Interface with address decoder for selectively generating first and second address and control signals respectively in response to received address and control signals
JPH06167995A (ja) * 1992-11-30 1994-06-14 Sony Corp 音声認識装置
JP2007335076A (ja) * 1995-06-09 2007-12-27 Telefon Ab Lm Ericsson メモリ構造
US6024580A (en) * 1998-01-08 2000-02-15 International Business Machines Corporation High performance pad on pad connector for flex circuit packaging
WO1999053477A1 (fr) * 1998-04-15 1999-10-21 Hitachi, Ltd. Systeme de reconnaissance vocale a micro-ordinateur parallele
US20040196709A1 (en) * 2000-09-21 2004-10-07 Ong Adrian E. Chip testing within a multi-chip semiconductor package
WO2006030214A2 (en) * 2004-09-14 2006-03-23 Zentian Limited A speech recognition circuit and method
US20080255839A1 (en) * 2004-09-14 2008-10-16 Zentian Limited Speech Recognition Circuit and Method
WO2006129762A1 (ja) * 2005-06-02 2006-12-07 Sony Corporation 半導体イメージセンサ・モジュール及びその製造方法

Also Published As

Publication number Publication date
US20110208519A1 (en) 2011-08-25
DE112009002426T5 (de) 2011-09-29
US9135918B2 (en) 2015-09-15
KR20110095257A (ko) 2011-08-24
KR101611464B1 (ko) 2016-04-11
WO2010042631A2 (en) 2010-04-15
WO2010042631A3 (en) 2010-07-22
JP5714495B2 (ja) 2015-05-07

Similar Documents

Publication Publication Date Title
US9142209B2 (en) Data pattern analysis
Feng et al. Speech feature denoising and dereverberation via deep autoencoders for noisy reverberant speech recognition
Li et al. An overview of noise-robust automatic speech recognition
JP7825043B2 (ja) エンドツーエンド音声認識モデルのオンデバイスバッチ処理のための単語境界を予測すること
JP7808190B2 (ja) ロングフォーム音声認識のための訓練
US8515758B2 (en) Speech recognition including removal of irrelevant information
JP7716491B2 (ja) タイイングされ縮小されたrnn-t
US9484019B2 (en) System and method for discriminative pronunciation modeling for voice search
CN113362804A (zh) 一种合成语音的方法、装置、终端及存储介质
US20230298570A1 (en) Rare Word Recognition with LM-aware MWER Training
US8386249B2 (en) Compressing feature space transforms
JP5714495B2 (ja) 解析システム、およびデータパターン解析の方法
Yuan et al. Speech recognition on DSP: issues on computational efficiency and performance analysis
JP2004109590A (ja) 音響モデル作成方法および音声認識装置
Lin et al. Exploring the use of speech features and their corresponding distribution characteristics for robust speech recognition
Juhár et al. Phoneme-Based Continuous Speech Recognition
Rajput et al. Speech in Mobile and Pervasive Environments
US20260120687A1 (en) Automatic speech recognition with voice personalization and generalization
Sarkar et al. Supervector-based approaches in a discriminative framework for speaker verification in noisy environments
Abdelmoula et al. A deep learning-based noise-resilient keyword spotting engine for embedded platforms
JP2004038163A (ja) 隠れマルコフモデルアルゴリズムの観測確率の演算装置
HK40055799A (en) Speech synthesis method and apparatus, terminal, and storage medium
JP2006235298A (ja) 音声認識ネットワーク生成方法、音声認識装置及びそのプログラム
Verma et al. Analysis of Speech Recognition Techniques on the Hindi Speech Digits Database
Dogaru et al. A Novel Feature Extraction Method for Isolated Word Recognition Based on Nested Temporal Averaging

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20120907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120907

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121005

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150311

R150 Certificate of patent or registration of utility model

Ref document number: 5714495

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees