JPH11327583A - ネットワ―ク話し言葉語彙システム - Google Patents

ネットワ―ク話し言葉語彙システム

Info

Publication number
JPH11327583A
JPH11327583A JP11079072A JP7907299A JPH11327583A JP H11327583 A JPH11327583 A JP H11327583A JP 11079072 A JP11079072 A JP 11079072A JP 7907299 A JP7907299 A JP 7907299A JP H11327583 A JPH11327583 A JP H11327583A
Authority
JP
Japan
Prior art keywords
server
word
words
user
vocabulary list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11079072A
Other languages
English (en)
Other versions
JP3519015B2 (ja
Inventor
Keith Loring
キース・ローリング
Paritosh D Patel
パリトシュ・ディ・パテル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH11327583A publication Critical patent/JPH11327583A/ja
Application granted granted Critical
Publication of JP3519015B2 publication Critical patent/JP3519015B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer And Data Communications (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 音声アプリケーションのためのネットワーク
話し言葉語彙システムを提供すること。 【解決手段】 音声アプリケーションのためのネットワ
ーク話し言葉語彙システムは、ネットワークを介して互
いに通信するネットワーク・サーバ及び複数のネットワ
ーク・クライアントと、認識可能な単語のためのサーバ
内の中央語彙リストと、各クライアント内の音声認識エ
ンジン及びローカル語彙リスト・キャッシュとを含む。
キャッシュは、サーバ内の中央語彙リストから伝達さ
れ、以前に認識された単語と、音声アプリケーションに
より認識された新たな単語とを有する。新たな単語の各
々はサーバに伝達されて、中央語彙リストに追加され、
中央語彙リストに追加された新たな単語の各々が、少な
くとも1つの他のクライアントに伝達されて、キャッシ
ュに追加される。新たな単語は自動的にサーバに、及び
サーバから伝達される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は一般に、音声アプリ
ケーションの分野に関して、特に、新たな単語発音を、
ネットワーク上の音声アプリケーション・クライアント
に自動的に記憶、追跡、及び配布する方法及び装置に関
する。
【0002】
【従来の技術】コンピュータにおける話し言葉の使用
は、通常、音声認識及び音声合成に関連付けられ、単語
の綴りだけでなく、単語に関連付けられる他のデータ、
例えば音素や代替発音、或いは名詞、動詞、形容詞など
の他の単語及び音声部分との関連性を記憶及び検索する
ステップを含む。
【0003】初期のコンピュータ・システムは、もっぱ
ら書き言葉を扱うために開発された。書き言葉は多くの
物事にとって有用であり、話し言葉よりも、コンピュー
タ・システムにおいて解釈、表現、及び再生することが
遥かに容易である。今日、コンピュータ・システムは2
つの技術形式、すなわち音声認識及び音声合成により、
話し言葉を処理している。音声合成は、テキスト−音声
(TTS)変換とも呼ばれる。
【0004】話し言葉をサポートするために、コンピュ
ータにより実行される作業の定義は、話し言葉を書き言
葉と比較することにより支援される。これらの2つの伝
達形式に共通しているのは単語であるが、その形態は異
なっている。例えば、単語は話される音声または書かれ
た文字として異なって表現される。書き言葉はまた、句
読点や、強調のための太字などのフォントという固有の
特徴を有し、一方、話し言葉は、例えば音量、ピッチ、
韻律(スピード)、及び抑揚という固有の特徴を有す
る。
【0005】コンピュータが話し言葉のサポートに取り
組むとき、通常話される話し言葉が、音声認識によりテ
キスト形式に変換され、音声合成により発音形式に逆変
換される。このことは、可聴表現に比較して、書き言葉
表現を記憶または伝送する際の、システム資源に対する
要求の多大な低減を利用する。書き言葉と話し言葉との
差が、音声アプリケーションにおける多くの問題を生成
する。
【0006】
【発明が解決しようとする課題】エンドユーザは、認識
可能な語彙単語のスタータ・セットに含まれない単語の
発音を追加する必要性により、多大な不便を被る。設計
上、エンドユーザは、不正に認識された単語の特殊ケー
スとして、この問題に遭遇する。認識は、ユーザにより
話された単語に関する、認識エンジンによる最善の推測
と見なされる。ユーザが認識エンジンに知れていない単
語を話すとき、認識エンジンは単に誤って推測する。こ
の時、ユーザは単語の訂正を開始し、適切な代替語の候
補リストから、新たな単語を選択しなければならない。
話された単語が、代替選択肢としてリストされていない
場合、ユーザは通常、その単語をタイプ入力し、多分そ
れを再度発音するように要求される。この不便さはユー
ザに正当な訂正プロシージャを無視させ、単に訂正され
たテキストをタイプ入力するように仕向ける。残念なが
ら、このプロシージャは差し当たり迅速であるが、音声
認識システムが正当なプロシージャにより、訂正に関し
て学習することが重要である。なぜなら、この情報が単
語を追加及び訂正するための、従って将来の認識性能を
向上するための、唯一の方法であるからである。
【0007】音声アプリケーションにおいて提供される
音声認識エンジンは、十分に正確ではなく、時に、誤認
識や誤認識を訂正するために必要とされる時間により、
スループットが悪くなる。
【0008】誤認識された単語の訂正は、1分当たりの
単語数を含む音声認識の有効性及び有用性の測定におい
て、主要な要素である。語彙外の単語から生じる訂正の
数を制限するために、大きな語彙が提供される。
【0009】独立型のシステムでは、ユーザが動き回っ
たり、システム間を切り替わるとき(例えばホーム・コ
ンピュータとオフィス・コンピュータ間、及び携帯コン
ピュータとデスクトップ・コンピュータ間)、或いはコ
ンピュータまたは音声認識アプリケーションを更新する
とき、ユーザにより追加された単語がバックアップさ
れ、システム間で移動される必要がある。この作業は時
間を消費し、冗長で、不明確であるため、その後は一般
に実行されないのが普通である。
【0010】通常、音声認識または合成ソフトウェアと
共に、発音を含む単語のスタータ・セットがコンピュー
タ上に導入される。発音は、単語が発音されるまたは聞
こえる様子に関する指示を表す基本形式として記憶され
る。所与のアプリケーションのための理想的なスタータ
・セットを生成するために、多くの要素が考慮されなけ
ればならない。スタータ・セット内の単語の数は、通
常、要求される記憶空間、単語の使用頻度、共通使用
度、及びスタータ・セット内の他の全ての単語に対する
認識精度など、考慮すべき要件を均衡させることにより
決定される。音声認識システムの開発者は、通常、認識
のために要求される単語−発音データの大きな語彙を導
入する。こうした語彙を生成することは、かなり冗長で
時間の掛かる作業である。
【0011】
【課題を解決するための手段】本発明の構成に従い開発
及び管理されるネットワーク汎用話し言葉語彙は、従来
技術で述べられた全ての問題を克服する。本発明の構成
は、話し言葉語彙データの記憶、追跡、共用、及び配布
を自動化及び最適化する。全ての既知の単語に関する単
語情報が、ネットワークに接続されたサーバから配布さ
れる。任意のクライアント・ユーザにより追加された新
たな単語が、全てのユーザにとって使用可能にされ、続
くユーザが各々、同一の新たな単語に関するデータを提
供する必要性を排除する。
【0012】各ユーザにより要求される手操作による発
音の追加が、より一層低減し、それによりユーザは、音
声アプリケーションに新たな単語を教えるように、誤認
識を訂正するプロシージャに従うことが多くなり、従っ
て、全てのユーザにとって将来の認識性能が改善され
る。
【0013】本発明の構成に従う音声認識及び音声合成
システムまたはアプリケーションは、2人以上のユーザ
が同じ新たな単語を追加する必要性を排除する。新たな
単語の1番目のユーザだけが、その新たな単語を追加す
る必要がある。本システムは、代替単語の認識または決
定もできるが、汎用語彙サーバに新たな単語を問い合わ
せることができ、データの提供のためにユーザを煩わす
ことはない。
【0014】話された単語と既知の正確に認識された単
語との間の、高いヒット率による、音声認識の正確さ及
びスループットの向上が高度に最適化され、キャッシュ
される汎用語彙の利点である。
【0015】大きな語彙を各システム上に導入及び保持
する要求が、有利に低減される。ユーザにとって、単語
がサーバ上に記憶されていることは透過的であり、シス
テムが使用されるとき、キャッシングがヒット率を高
め、クライアント上に記憶される単語の数を低減し、同
時に一般にスピードアップを達成する。
【0016】ユーザにより追加された単語を保持する必
要性、及び更新された語彙リストを個々にバックアップ
し、移動する必要性が、データ・バックアップの集中化
により、都合良く排除される。
【0017】事前に最も適切なスタータ・セットを慎重
に選択する負担が、有利に排除される。なぜなら、特殊
化された単語が、ユーザのネットワークにより、効率的
に且つ負担分散方式により追加されるからである。反対
に、全てのユーザのための語彙が、ユーザ対話を要求す
ること無く、必要に際して自動的に更新される。
【0018】本発明の構成に従う、音声アプリケーショ
ンのためのネットワーク話し言葉語彙システムは、ネッ
トワークを介して互いに通信するネットワーク・サーバ
及び複数のネットワーク・クライアントと、認識可能な
単語のためのサーバ内の中央語彙リストと、各クライア
ント内の音声認識エンジン及びローカル語彙リスト・キ
ャッシュとを含み、前記キャッシュが、サーバ内の中央
語彙リストから伝達され、以前に認識された単語と、音
声アプリケーションにより認識された新たな単語とを有
する。そして、新たな単語の各々がサーバに伝達され
て、中央語彙リストに追加され、中央語彙リストに追加
された新たな単語の各々が、少なくとも1つの他のクラ
イアントに伝達されて、キャッシュに追加される。
【0019】新たな単語はクライアントからサーバに自
動的に伝達され、またサーバから1つ以上のクライアン
トに自動的に伝達される。
【0020】サーバは更に、ユーザ・プロファイル・テ
ーブルを含み、これは各ユーザに対応して、音声認識の
ために使用される中央語彙リストのそれぞれのサブセッ
トを示すデータ、及びワークグループ内の会員を示すデ
ータを有する。このデータが使用可能なとき、あるワー
クグループ内の任意のユーザから、サーバに伝達された
新たな単語の各々が、自動的にそのワークグループ内の
他の全てのユーザに伝達される。更に、ワークグループ
内の各ユーザは、音声認識のために使用される中央語彙
リストの同一のサブセットを受信できる。
【0021】各クライアントは更に、サーバに伝達され
る新たな単語を識別し、キャッシュに追加するための、
単語発音追加ツールを含み得る。単語発音追加ツール
は、新たな単語がクライアント内の音声認識エンジンに
より認識されるとき、及び新たな単語がサーバから伝達
されるとき、それらを追加できる。
【0022】中央語彙リストは、各単語に対する複数の
データ・レコードを含み得、それらには、綴り、音素、
使用領域、原クライアント、及び単語を要求するワーク
グループが含まれる。
【0023】本発明の別の構成に従う、音声アプリケー
ションのためのネットワーク話し言葉語彙システムは、
認識可能な単語のための永久中央語彙リスト及びユーザ
・プロファイル・データベースを有するネットワーク・
サーバと、各々が音声認識エンジン及びローカル語彙リ
スト・キャッシュを有する、複数のネットワーク・クラ
イアントと、サーバ及びクライアントが通信し合うネッ
トワークとを含む。キャッシュは、サーバ内の中央語彙
リストから伝達され、以前に認識された単語と、セッシ
ョンの間に音声アプリケーションにより認識された新た
な単語とのサブセットを記憶する。新たな単語の各々は
サーバに伝達され、中央語彙リストに追加される。中央
語彙リストに追加された新たな単語の各々は、ユーザ・
プロファイル・データベース内のデータに従い、他のク
ライアントに伝達される。
【0024】新たな単語は自動的にサーバに、及びサー
バから伝達される。
【0025】ユーザ・プロファイル・データベースは、
各ユーザに対応して、音声認識のために使用される中央
語彙リストのそれぞれのサブセットを示すデータ、及び
ワークグループ内の会員を示すデータを有する。このデ
ータが使用可能なとき、あるワークグループ内の任意の
ユーザから、サーバに伝達された新たな単語の各々が、
自動的にそのワークグループ内の他の全てのユーザに伝
達される。更に、ワークグループ内の各ユーザが、音声
認識のために使用される中央語彙リストの同一のサブセ
ットを受信できる。
【0026】各クライアントは更に、サーバに伝達され
る新たな単語を識別し、また単語をキャッシュに追加す
るための、単語発音追加ツールを含み得る。単語発音追
加ツールは、新たな単語がクライアント内の音声認識エ
ンジンにより認識されるとき、及び新たな単語がサーバ
から伝達されるとき、それらを追加できる。
【0027】中央語彙リストは、各単語に対する複数の
データ・レコードを含み得、これらのデータ・レコード
には、綴り、音素、使用領域、原クライアント、及び単
語を要求するワークグループが含まれる。
【0028】
【発明の実施の形態】図1に、音声認識及び音声合成な
どの、話し言葉技術のための語彙サポートの全ての側面
をカバーする包括システム10が示される。このシステ
ムは単語発音または語彙サーバ12を含み、これはネッ
トワーク20を介して、複数の語彙クライアント14、
16、18に接続される。ネットワーク20は、ローカ
ル・エリア・ネットワーク(LAN)または広域ネット
ワーク(WAN)である。本発明の構成によれば、単語
発音または語彙サーバ12は、全ての既知の単語及び関
連する話し言葉属性のための汎用貯蔵部である。新たな
単語が必要に際して、ネットワーク・クライアントから
獲得され、またネットワーク・クライアントに配布され
る。
【0029】単語発音サーバ12は、汎用語彙サーバ・
プログラム22、汎用語彙リストまたはデータベース2
4、及びユーザ・プロファイル・テーブル26を含む。
単語発音サーバ12は、ネットワークに接続されたコン
ピュータ・システムであり、汎用語彙データベース及び
汎用語彙サーバ・ソフトウェア・プログラム22をホス
トとして維持する。プログラム22は、音声認識プログ
ラムまたは音声合成プログラムを実行中のクライアント
・コンピュータ・システムからの要求に応答する。
【0030】汎用語彙リスト24はシステムに知れた全
ての単語を含み、それらには綴りや発音方法を示すデー
タが含まれる。用語"汎用"は、ネットワーク全体を通じ
ることを意味する。この意味において、汎用語彙リスト
は、中央語彙リストまたはマスタ語彙リストと見なされ
る。各単語エントリに対するデータ・レコードには、次
の情報すなわち、綴り、音素すなわち発音データ、使用
領域のリスト、その単語を追加した原クライアント、及
びその単語を使用しそうなユーザのワークグループが含
まれる。
【0031】ユーザ・プロファイル・テーブル26は、
汎用語彙クライアント・プログラムをサポートするため
に要求される情報を含む、データベースである。特定の
ユーザが使用する単語グループ、及びユーザが属するユ
ーザ・グループに関するデータが、サーバ上に保持さ
れ、各クライアントがセッションを音声認識またはTT
Sソフトウェアから開始するとき、彼らに伝送される。
【0032】用語"クライアント"は、単語発音サーバ1
2によりサービスされるワーク・ステーションの意味に
おいて使用される。ユーザはクライアントにおける作業
者である。ユーザ・プロファイル・テーブルまたはデー
タベース26は、名前またはログイン識別により識別さ
れるユーザに合わせて準備され、従ってどのユーザに対
しても、使用される特定のワーク・ステーションまたは
クライアントに関係無しに、語彙単語の適切なサブセッ
トを提供することができる。特定のクライアントまたは
ワーク・ステーションのユーザが、ユーザ・プロファイ
ル・テーブル内に存在しない場合、ユーザ・プロファイ
ル・テーブルは、そのクライアントまたはワーク・ステ
ーション識別に合わせることもできる。或いは、未確認
ユーザに対するデフォルトのサブセットを定義してもよ
い。更に別の現在好適な代替例として、未確認ユーザは
ユーザ・プロファイル・テーブル内で識別されるため
の、十分な情報を提供するように指示され、その後、適
切なサブセット語彙リスト及び適切な新たな単語を提供
される。
【0033】適切な語彙リストは更に、モデム、衛星通
信、またはインターネットにより、リモート・ワーク・
ステーションに転送され得るが、即時の自動更新は、リ
モート・リンクが維持された場合に限り、使用可能であ
る。この点で、ネットワーク20は更にリモート・リン
クも表す。
【0034】クライアント14、16及び18の各々
は、汎用語彙クライアント・プログラム30、音声認識
エンジン32、単語発音追加ツール34、及び汎用語彙
リスト24の個別化されたサブセットを記憶するローカ
ル語彙リスト・キャッシュ36を含む。説明の都合上、
クライアント14及び16は、ユーザ・プロファイルA
に関連付けられるワークグループのメンバである。クラ
イアント18は、ユーザ・プロファイルBに関連付けら
れるワークグループのメンバである。
【0035】単語発音追加ツール34は、各クライアン
トに新たに追加された単語を、ネットワーク20を介し
て、単語発音サーバ12に伝送し、そこで新たな単語が
汎用語彙リスト24に追加される。単語発音追加ツール
34はまた、単語発音サーバ12からネットワーク20
を介して、新たな単語を受信し、それをローカル語彙リ
スト・キャッシュ36に向ける。
【0036】汎用語彙クライアント・プログラム30
は、汎用語彙リスト24からキャッシュされたローカル
・サブセット36を維持するクライアント・システム上
で実行されるアプリケーションである。単語はユーザか
ら、及び汎用語彙リストからキャッシュ36に追加さ
れ、一方、キャッシュに保持しておく価値のなくなった
単語は消去される。ローカル語彙リスト・キャッシュ3
6は、従来の独立型のスタータ・セット語彙に代わるも
ので、動的に最適化される。
【0037】ローカル語彙リスト・キャッシュ36を保
守するプログラムは、ネットワーク・トラフィック、使
用可能なローカル記憶装置、使用頻度、システム・プロ
セッサ・スピード、現エンドユーザ・タスク、及びエン
ドユーザ設定を考慮して、キャッシュのパラメータを決
定することができるアルゴリズムを使用する。キャッシ
ュは最適なローカル語彙と見なされる。キャッシュが最
適である理由は、ユーザが話したことがわかっている単
語を含むことにより、認識を向上させ、同時に、ユーザ
が話していないことがわかっている単語を含まないこと
で、突き合わせのためにキャッシュを探索するのに必要
な処理時間が低減されるからである。
【0038】クライアント・アプリケーションは、新た
に追加された単語に関するデータを、汎用語彙サーバ・
プログラムに送信する。デフォルトでは、全ての単語は
公用として、すなわち共用されるように追加されるが、
ユーザは特定の理由から、追加された単語が私用として
保持されるように選択することもできる。
【0039】単純な例が図1に示される。ここでは、ク
ライアント14が新たな単語を追加している。追加され
た新たな単語は、単語発音追加ツール34からネットワ
ーク20を介して、単語発音サーバ12に伝送され、そ
この汎用語彙リスト24に追加される。この様子が破線
矢印1により示されている。クライアント16が口述を
行っているか、またはその後いつか口述を開始する場
合、汎用語彙サーバ・プログラム22が、破線矢印2に
より示されるように、クライアント16に対するユーザ
・プロファイルを、ユーザ・プロファイル・テーブル2
6から読み出す。ユーザ・プロファイルは、クライアン
ト16がクライアント14と同一のワークグループ(同
一のプロファイルAを用いて表される)に属することを
示す。クライアント16が既に口述を行っている場合、
新たな単語がクライアント16に転送され、ローカル語
彙リスト・キャッシュ36に追加される。クライアント
16が口述を開始する場合、個別化された語彙リストが
クライアント16に転送され、ローカル語彙リスト・キ
ャッシュ36に記憶される。ユーザ16はユーザ14と
同じプロファイルAを使用するので、転送されてきたリ
ストには、クライアント14により以前に追加された新
たな単語が含まれている。両方の例が、破線矢印3によ
り示される。
【0040】本発明の構成によれば、包括的なデータベ
ースが、ユーザにより動的且つ増分式に強化され、時間
の経過に伴い自動的に最適化されるので、全体的なシス
テム性能が向上され、またネットワーク帯域幅、ファイ
ル及びキャッシング技術を使用したデータ記憶装置など
のコンピュータ・システム資源が平衡化される。
【0041】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0042】(1)音声アプリケーションのためのネッ
トワーク話し言葉語彙システムであって、ネットワーク
を介して互いに通信するネットワーク・サーバ及び複数
のネットワーク・クライアントと、認識可能な単語のた
めの前記サーバ内の中央語彙リストと、前記クライアン
トの各々内の音声認識エンジン及びローカル語彙リスト
・キャッシュとを含み、前記キャッシュが、前記サーバ
内の前記中央語彙リストから伝達され、以前に認識され
た単語と、前記音声アプリケーションにより認識された
新たな単語とを有し、前記新たな単語の各々が前記サー
バに伝達され、前記中央語彙リストに追加され、前記中
央語彙リストに追加された前記新たな単語の各々が、少
なくとも1つの他の前記クライアントに伝達されて、前
記キャッシュに追加される、システム。 (2)前記新たな単語が自動的に前記サーバに伝達され
る、前記(1)記載のシステム。 (3)前記新たな単語が自動的に前記サーバに、及び前
記サーバから伝達される、前記(1)記載のシステム。 (4)前記サーバが、各ユーザに対応して、音声認識の
ために使用される前記中央語彙リストのそれぞれのサブ
セットを示すデータを有する、ユーザ・プロファイル・
テーブルを含む、前記(1)記載のシステム。 (5)前記サーバが、各ユーザに対応して、ワークグル
ープ内の会員を示すデータを有する、ユーザ・プロファ
イル・テーブルを含む、前記(1)記載のシステム。 (6)あるワークグループ内の任意のユーザから、前記
サーバに伝達された新たな単語の各々が、自動的に当該
ワークグループ内の他の全てのユーザに伝達される、前
記(5)記載のシステム。 (7)前記ユーザ・プロファイル・テーブルが、各ユー
ザに対応して、ワークグループ内の会員を示すデータを
有し、前記ワークグループ内の各ユーザが、音声認識の
ために使用される前記中央語彙リストの同一のサブセッ
トを受信する、前記(4)記載のシステム。 (8)前記クライアントの各々が、前記サーバに伝達さ
れる前記新たな単語を識別し、前記新たな単語を前記キ
ャッシュに追加するための単語発音追加ツールを含む、
前記(1)記載のシステム。 (9)前記単語発音追加ツールが、前記新たな単語が前
記クライアント内の前記音声認識エンジンにより認識さ
れるとき、及び前記サーバから伝達されるとき、前記新
たな単語を追加できる、前記(8)記載のシステム。 (10)前記中央語彙リストが、各単語に対する複数の
データ・レコードを含み、前記データ・レコードが、綴
り、音素、使用領域、原クライアント、及び当該単語を
要求するワークグループを含む、前記(1)記載のシス
テム。 (11)音声アプリケーションのためのネットワーク話
し言葉語彙システムであって、認識可能な単語のための
永久中央語彙リスト及びユーザ・プロファイル・データ
ベースを有するネットワーク・サーバと、各々が音声認
識エンジン及びローカル語彙リスト・キャッシュを有す
る、複数のネットワーク・クライアントと、前記サーバ
及び前記クライアントが通信し合うネットワークと、前
記サーバ内の前記中央語彙リストから伝達され、以前に
認識された単語と、セッションの間に前記音声アプリケ
ーションにより認識された新たな単語とのサブセットを
記憶したキャッシュとを含み、前記新たな単語の各々が
前記サーバに伝達され、前記中央語彙リストに追加さ
れ、前記中央語彙リストに追加された前記新たな単語の
各々が、前記ユーザ・プロファイル・データベース内の
データに従い、他のクライアントに伝達される、システ
ム。 (12)前記新たな単語が自動的に前記サーバに、及び
前記サーバから伝達される、前記(11)記載のシステ
ム。 (13)前記ユーザ・プロファイル・データベースが、
各ユーザに対応して、音声認識のために使用される前記
中央語彙リストのそれぞれのサブセットを示すデータを
有する、前記(11)記載のシステム。 (14)前記ユーザ・プロファイル・データベースが、
各ユーザに対応して、ワークグループ内の会員を示すデ
ータを有する、前記(11)記載のシステム。 (15)あるワークグループ内の任意のユーザから、前
記サーバに伝達された新たな単語の各々が、自動的に当
該ワークグループ内の他の全てのユーザに伝達される、
前記(14)記載のシステム。 (16)前記ユーザ・プロファイル・データベースが、
各ユーザに対応して、ワークグループ内の会員を示すデ
ータを有し、前記ワークグループ内の各ユーザが、音声
認識のために使用される前記中央語彙リストの同一のサ
ブセットを受信する、前記(11)記載のシステム。 (17)前記クライアントの各々が、前記サーバに伝達
される前記新たな単語を識別し、前記新たな単語を前記
キャッシュに追加するための単語発音追加ツールを含
む、前記(11)記載のシステム。 (18)前記単語発音追加ツールが、前記新たな単語が
前記クライアント内の前記音声認識エンジンにより認識
されるとき、及び前記サーバから伝達されるとき、前記
新たな単語を追加できる、前記(17)記載のシステ
ム。 (19)前記中央語彙リストが、各単語に対する複数の
データ・レコードを含み、前記データ・レコードが、綴
り、音素、使用領域、原クライアント、及び当該単語を
要求するワークグループを含む、前記(11)記載のシ
ステム。
【図面の簡単な説明】
【図1】本発明の構成に従うネットワーク汎用話し言葉
語彙システムのブロック図である。
【符号の説明】
10 包括システム 12 サーバ 14、16、18 クライアント 20 ネットワーク 22 汎用語彙サーバ・プログラム 24 汎用語彙リスト 26 ユーザ・プロファイル・テーブル 30 汎用語彙クライアント・プログラム 32 音声認識エンジン 34 単語発音追加ツール 36 ローカル語彙リスト・キャッシュ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 パリトシュ・ディ・パテル アメリカ合衆国33442、フロリダ州ディア フィールド・ビーチ、パラディアン・サー クル 3503

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】音声アプリケーションのためのネットワー
    ク話し言葉語彙システムであって、 ネットワークを介して互いに通信するネットワーク・サ
    ーバ及び複数のネットワーク・クライアントと、 認識可能な単語のための前記サーバ内の中央語彙リスト
    と、 前記クライアントの各々内の音声認識エンジン及びロー
    カル語彙リスト・キャッシュとを含み、前記キャッシュ
    が、前記サーバ内の前記中央語彙リストから伝達され、
    以前に認識された単語と、前記音声アプリケーションに
    より認識された新たな単語とを有し、前記新たな単語の
    各々が前記サーバに伝達され、前記中央語彙リストに追
    加され、前記中央語彙リストに追加された前記新たな単
    語の各々が、少なくとも1つの他の前記クライアントに
    伝達されて、前記キャッシュに追加される、システム。
  2. 【請求項2】前記新たな単語が自動的に前記サーバに伝
    達される、請求項1記載のシステム。
  3. 【請求項3】前記新たな単語が自動的に前記サーバに、
    及び前記サーバから伝達される、請求項1記載のシステ
    ム。
  4. 【請求項4】前記サーバが、各ユーザに対応して、音声
    認識のために使用される前記中央語彙リストのそれぞれ
    のサブセットを示すデータを有する、ユーザ・プロファ
    イル・テーブルを含む、請求項1記載のシステム。
  5. 【請求項5】前記サーバが、各ユーザに対応して、ワー
    クグループ内の会員を示すデータを有する、ユーザ・プ
    ロファイル・テーブルを含む、請求項1記載のシステ
    ム。
  6. 【請求項6】あるワークグループ内の任意のユーザか
    ら、前記サーバに伝達された新たな単語の各々が、自動
    的に当該ワークグループ内の他の全てのユーザに伝達さ
    れる、請求項5記載のシステム。
  7. 【請求項7】前記ユーザ・プロファイル・テーブルが、
    各ユーザに対応して、ワークグループ内の会員を示すデ
    ータを有し、前記ワークグループ内の各ユーザが、音声
    認識のために使用される前記中央語彙リストの同一のサ
    ブセットを受信する、請求項4記載のシステム。
  8. 【請求項8】前記クライアントの各々が、前記サーバに
    伝達される前記新たな単語を識別し、前記新たな単語を
    前記キャッシュに追加するための単語発音追加ツールを
    含む、請求項1記載のシステム。
  9. 【請求項9】前記単語発音追加ツールが、前記新たな単
    語が前記クライアント内の前記音声認識エンジンにより
    認識されるとき、及び前記サーバから伝達されるとき、
    前記新たな単語を追加できる、請求項8記載のシステ
    ム。
  10. 【請求項10】前記中央語彙リストが、各単語に対する
    複数のデータ・レコードを含み、前記データ・レコード
    が、綴り、音素、使用領域、原クライアント、及び当該
    単語を要求するワークグループを含む、請求項1記載の
    システム。
  11. 【請求項11】音声アプリケーションのためのネットワ
    ーク話し言葉語彙システムであって、 認識可能な単語のための永久中央語彙リスト及びユーザ
    ・プロファイル・データベースを有するネットワーク・
    サーバと、 各々が音声認識エンジン及びローカル語彙リスト・キャ
    ッシュを有する、複数のネットワーク・クライアント
    と、 前記サーバ及び前記クライアントが通信し合うネットワ
    ークと、 前記サーバ内の前記中央語彙リストから伝達され、以前
    に認識された単語と、セッションの間に前記音声アプリ
    ケーションにより認識された新たな単語とのサブセット
    を記憶したキャッシュとを含み、前記新たな単語の各々
    が前記サーバに伝達され、前記中央語彙リストに追加さ
    れ、前記中央語彙リストに追加された前記新たな単語の
    各々が、前記ユーザ・プロファイル・データベース内の
    データに従い、他のクライアントに伝達される、システ
    ム。
  12. 【請求項12】前記新たな単語が自動的に前記サーバ
    に、及び前記サーバから伝達される、請求項11記載の
    システム。
  13. 【請求項13】前記ユーザ・プロファイル・データベー
    スが、各ユーザに対応して、音声認識のために使用され
    る前記中央語彙リストのそれぞれのサブセットを示すデ
    ータを有する、請求項11記載のシステム。
  14. 【請求項14】前記ユーザ・プロファイル・データベー
    スが、各ユーザに対応して、ワークグループ内の会員を
    示すデータを有する、請求項11記載のシステム。
  15. 【請求項15】あるワークグループ内の任意のユーザか
    ら、前記サーバに伝達された新たな単語の各々が、自動
    的に当該ワークグループ内の他の全てのユーザに伝達さ
    れる、請求項14記載のシステム。
  16. 【請求項16】前記ユーザ・プロファイル・データベー
    スが、各ユーザに対応して、ワークグループ内の会員を
    示すデータを有し、前記ワークグループ内の各ユーザ
    が、音声認識のために使用される前記中央語彙リストの
    同一のサブセットを受信する、請求項11記載のシステ
    ム。
  17. 【請求項17】前記クライアントの各々が、前記サーバ
    に伝達される前記新たな単語を識別し、前記新たな単語
    を前記キャッシュに追加するための単語発音追加ツール
    を含む、請求項11記載のシステム。
  18. 【請求項18】前記単語発音追加ツールが、前記新たな
    単語が前記クライアント内の前記音声認識エンジンによ
    り認識されるとき、及び前記サーバから伝達されると
    き、前記新たな単語を追加できる、請求項17記載のシ
    ステム。
  19. 【請求項19】前記中央語彙リストが、各単語に対する
    複数のデータ・レコードを含み、前記データ・レコード
    が、綴り、音素、使用領域、原クライアント、及び当該
    単語を要求するワークグループを含む、請求項11記載
    のシステム。
JP07907299A 1998-03-27 1999-03-24 ネットワーク話し言葉語彙システム Expired - Fee Related JP3519015B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/049736 1998-03-27
US09/049,736 US6195641B1 (en) 1998-03-27 1998-03-27 Network universal spoken language vocabulary

Publications (2)

Publication Number Publication Date
JPH11327583A true JPH11327583A (ja) 1999-11-26
JP3519015B2 JP3519015B2 (ja) 2004-04-12

Family

ID=21961423

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07907299A Expired - Fee Related JP3519015B2 (ja) 1998-03-27 1999-03-24 ネットワーク話し言葉語彙システム

Country Status (6)

Country Link
US (1) US6195641B1 (ja)
EP (1) EP0945851B1 (ja)
JP (1) JP3519015B2 (ja)
KR (1) KR100324079B1 (ja)
DE (1) DE69917112T2 (ja)
TW (1) TW405109B (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073084A (ja) * 2000-06-21 2002-03-12 Internatl Business Mach Corp <Ibm> 音声キャッシュを管理する方法
JP2002182679A (ja) * 2000-12-18 2002-06-26 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
JP2002182688A (ja) * 2000-12-18 2002-06-26 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
JP2003255982A (ja) * 2002-02-28 2003-09-10 Fujitsu Ltd 音声認識システムおよび音声ファイル記録システム
JP2004212641A (ja) * 2002-12-27 2004-07-29 Toshiba Corp 音声入力システム及び音声入力システムを備えた端末装置
WO2008007688A1 (en) * 2006-07-13 2008-01-17 Nec Corporation Talking terminal having voice recognition function, sound recognition dictionary update support device, and support method
JP2008089825A (ja) * 2006-09-29 2008-04-17 Fujitsu Ltd 音声認識装置、および音声認識プログラム
WO2008114708A1 (ja) * 2007-03-14 2008-09-25 Nec Corporation 音声認識システム、音声認識方法、および音声認識処理プログラム
JP2009294269A (ja) * 2008-06-03 2009-12-17 Nec Corp 音声認識システム
US7983911B2 (en) 2001-02-13 2011-07-19 Thomson Licensing Method, module, device and server for voice recognition
JP2012063537A (ja) * 2010-09-15 2012-03-29 Ntt Docomo Inc 通信端末、音声認識方法、および音声認識プログラム
CN101164102B (zh) 2005-02-03 2012-06-20 语音信号科技公司 自动扩展移动通信设备的话音词汇的方法和装置
JP2018132626A (ja) * 2017-02-15 2018-08-23 クラリオン株式会社 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法
JP2018189904A (ja) * 2017-05-11 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム、ディクテーション方法、情報処理装置及び情報処理プログラム

Families Citing this family (218)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6412011B1 (en) * 1998-09-14 2002-06-25 At&T Corp. Method and apparatus to enhance a multicast information stream in a communication network
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
WO2000038175A1 (en) * 1998-12-21 2000-06-29 Koninklijke Philips Electronics N.V. Language model based on the speech recognition history
DE19918382B4 (de) * 1999-04-22 2004-02-05 Siemens Ag Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät
GB2356318A (en) * 1999-09-04 2001-05-16 Marconi Comm Ltd Server with voice recognition
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7024454B1 (en) * 2000-08-25 2006-04-04 Practicefirst.Com L.L.C. Work sharing and communicating in a web site system
JP3581648B2 (ja) * 2000-11-27 2004-10-27 キヤノン株式会社 音声認識システム、情報処理装置及びそれらの制御方法、プログラム
EP1215661A1 (en) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Mobile terminal controllable by spoken utterances
US20020091515A1 (en) * 2001-01-05 2002-07-11 Harinath Garudadri System and method for voice recognition in a distributed voice recognition system
US7437295B2 (en) * 2001-04-27 2008-10-14 Accenture Llp Natural language processing for a location-based services system
US6944447B2 (en) * 2001-04-27 2005-09-13 Accenture Llp Location-based services
US7698228B2 (en) * 2001-04-27 2010-04-13 Accenture Llp Tracking purchases in a location-based services system
US7970648B2 (en) * 2001-04-27 2011-06-28 Accenture Global Services Limited Advertising campaign and business listing management for a location-based services system
US6848542B2 (en) * 2001-04-27 2005-02-01 Accenture Llp Method for passive mining of usage information in a location-based services system
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US20030009334A1 (en) * 2001-07-03 2003-01-09 International Business Machines Corporation Speech processing board for high volume speech processing applications
US7920682B2 (en) * 2001-08-21 2011-04-05 Byrne William J Dynamic interactive voice interface
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US7133829B2 (en) * 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
US6785654B2 (en) 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US7236931B2 (en) 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US8959019B2 (en) 2002-10-31 2015-02-17 Promptu Systems Corporation Efficient empirical determination, computation, and use of acoustic confusability measures
US20050060156A1 (en) * 2003-09-17 2005-03-17 Corrigan Gerald E. Speech synthesis
US8150697B2 (en) * 2003-09-30 2012-04-03 Nuance Communications, Inc. Autonomous systems and network management using speech
US8954325B1 (en) * 2004-03-22 2015-02-10 Rockstar Consortium Us Lp Speech recognition in automated information services systems
DE602004024172D1 (de) * 2004-05-21 2009-12-31 Harman Becker Automotive Sys Automatische Erzeugung einer Wortaussprache für die Spracherkennung
US7813928B2 (en) * 2004-06-10 2010-10-12 Panasonic Corporation Speech recognition device, speech recognition method, and program
US20060095266A1 (en) * 2004-11-01 2006-05-04 Mca Nulty Megan Roaming user profiles for speech recognition
US8024194B2 (en) * 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
EP1859608A1 (fr) * 2005-03-16 2007-11-28 France Telecom S.A. Procédé de création automatique d'étiquettes vocales dans un carnet d'adresses
US7542904B2 (en) 2005-08-19 2009-06-02 Cisco Technology, Inc. System and method for maintaining a speech-recognition grammar
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US8635073B2 (en) * 2005-09-14 2014-01-21 At&T Intellectual Property I, L.P. Wireless multimodal voice browser for wireline-based IPTV services
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US20070271104A1 (en) * 2006-05-19 2007-11-22 Mckay Martin Streaming speech with synchronized highlighting generated by a server
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8214208B2 (en) * 2006-09-28 2012-07-03 Reqall, Inc. Method and system for sharing portable voice profiles
US20080082316A1 (en) * 2006-09-30 2008-04-03 Ms. Chun Yu Tsui Method and System for Generating, Rating, and Storing a Pronunciation Corpus
JP4859642B2 (ja) * 2006-11-30 2012-01-25 富士通株式会社 音声情報管理装置
US20080129520A1 (en) * 2006-12-01 2008-06-05 Apple Computer, Inc. Electronic device with enhanced audio feedback
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
TWI336048B (en) * 2007-05-11 2011-01-11 Delta Electronics Inc Input system for mobile search and method therefor
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) * 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) * 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) * 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) * 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) * 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) * 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US20120078635A1 (en) * 2010-09-24 2012-03-29 Apple Inc. Voice control system
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8898065B2 (en) 2011-01-07 2014-11-25 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
WO2012116110A1 (en) * 2011-02-22 2012-08-30 Speak With Me, Inc. Hybridized client-server speech recognition
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
CN104769668B (zh) 2012-10-04 2018-10-30 纽昂斯通讯公司 改进的用于asr的混合控制器
US20140136210A1 (en) * 2012-11-14 2014-05-15 At&T Intellectual Property I, L.P. System and method for robust personalization of speech recognition
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
DE102013216427B4 (de) * 2013-08-20 2023-02-02 Bayerische Motoren Werke Aktiengesellschaft Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung
US9218804B2 (en) * 2013-09-12 2015-12-22 At&T Intellectual Property I, L.P. System and method for distributed voice models across cloud and device for embedded text-to-speech
DE102013219649A1 (de) * 2013-09-27 2015-04-02 Continental Automotive Gmbh Verfahren und System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9959863B2 (en) 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
KR102325724B1 (ko) * 2015-02-28 2021-11-15 삼성전자주식회사 다수의 기기에서 텍스트 데이터 동기화
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
DE102015211101B4 (de) * 2015-06-17 2025-02-06 Volkswagen Aktiengesellschaft Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server
GB201511887D0 (en) 2015-07-07 2015-08-19 Touchtype Ltd Improved artificial neural network for language modelling and prediction
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
KR102168974B1 (ko) 2016-05-10 2020-10-22 구글 엘엘씨 디바이스들 상의 보이스 어시스턴트에 대한 구현들
CN108604180A (zh) 2016-05-13 2018-09-28 谷歌有限责任公司 用于语音用户界面的视觉效果的led设计语言
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11205110B2 (en) 2016-10-24 2021-12-21 Microsoft Technology Licensing, Llc Device/server deployment of neural network data entry system
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10515637B1 (en) * 2017-09-19 2019-12-24 Amazon Technologies, Inc. Dynamic speech processing
US11170762B2 (en) * 2018-01-04 2021-11-09 Google Llc Learning offline voice commands based on usage of online voice commands
JP2021156907A (ja) * 2018-06-15 2021-10-07 ソニーグループ株式会社 情報処理装置および情報処理方法
US11552966B2 (en) 2020-09-25 2023-01-10 International Business Machines Corporation Generating and mutually maturing a knowledge corpus

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8702910D0 (en) * 1987-02-10 1987-03-18 British Telecomm Multi-user speech recognition system
JP2989211B2 (ja) * 1990-03-26 1999-12-13 株式会社リコー 音声認識装置における辞書制御方式
US5165095A (en) 1990-09-28 1992-11-17 Texas Instruments Incorporated Voice telephone dialing
US5425128A (en) * 1992-05-29 1995-06-13 Sunquest Information Systems, Inc. Automatic management system for speech recognition processes
US5613036A (en) * 1992-12-31 1997-03-18 Apple Computer, Inc. Dynamic categories for a speech recognition system
US5774628A (en) * 1995-04-10 1998-06-30 Texas Instruments Incorporated Speaker-independent dynamic vocabulary and grammar in speech recognition
US5765132A (en) * 1995-10-26 1998-06-09 Dragon Systems, Inc. Building speech models for new words in a multi-word utterance
US5905773A (en) * 1996-03-28 1999-05-18 Northern Telecom Limited Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models
US5819220A (en) * 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073084A (ja) * 2000-06-21 2002-03-12 Internatl Business Mach Corp <Ibm> 音声キャッシュを管理する方法
JP2002182679A (ja) * 2000-12-18 2002-06-26 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
JP2002182688A (ja) * 2000-12-18 2002-06-26 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
US7983911B2 (en) 2001-02-13 2011-07-19 Thomson Licensing Method, module, device and server for voice recognition
US7979278B2 (en) 2002-02-28 2011-07-12 Fujitsu Limited Speech recognition system and speech file recording system
JP2003255982A (ja) * 2002-02-28 2003-09-10 Fujitsu Ltd 音声認識システムおよび音声ファイル記録システム
JP2004212641A (ja) * 2002-12-27 2004-07-29 Toshiba Corp 音声入力システム及び音声入力システムを備えた端末装置
CN101164102B (zh) 2005-02-03 2012-06-20 语音信号科技公司 自动扩展移动通信设备的话音词汇的方法和装置
WO2008007688A1 (en) * 2006-07-13 2008-01-17 Nec Corporation Talking terminal having voice recognition function, sound recognition dictionary update support device, and support method
JP2008089825A (ja) * 2006-09-29 2008-04-17 Fujitsu Ltd 音声認識装置、および音声認識プログラム
WO2008114708A1 (ja) * 2007-03-14 2008-09-25 Nec Corporation 音声認識システム、音声認識方法、および音声認識処理プログラム
US8676582B2 (en) 2007-03-14 2014-03-18 Nec Corporation System and method for speech recognition using a reduced user dictionary, and computer readable storage medium therefor
JP2009294269A (ja) * 2008-06-03 2009-12-17 Nec Corp 音声認識システム
JP2012063537A (ja) * 2010-09-15 2012-03-29 Ntt Docomo Inc 通信端末、音声認識方法、および音声認識プログラム
JP2018132626A (ja) * 2017-02-15 2018-08-23 クラリオン株式会社 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法
JP2018189904A (ja) * 2017-05-11 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム、ディクテーション方法、情報処理装置及び情報処理プログラム

Also Published As

Publication number Publication date
DE69917112T2 (de) 2006-03-30
EP0945851B1 (en) 2004-05-12
JP3519015B2 (ja) 2004-04-12
KR19990077872A (ko) 1999-10-25
US6195641B1 (en) 2001-02-27
DE69917112D1 (de) 2004-06-17
EP0945851A2 (en) 1999-09-29
EP0945851A3 (en) 2000-01-12
TW405109B (en) 2000-09-11
KR100324079B1 (ko) 2002-02-16

Similar Documents

Publication Publication Date Title
JP3519015B2 (ja) ネットワーク話し言葉語彙システム
JP4267081B2 (ja) 分散システムにおけるパターン認識登録
CN111710333B (zh) 用于生成语音转录的方法和系统
US8032383B1 (en) Speech controlled services and devices using internet
US7139697B2 (en) Determining language for character sequence
US8918308B2 (en) Providing multi-lingual searching of mono-lingual content
EP1014277A1 (en) Communication system and method employing automatic language identification
CN110415679A (zh) 语音纠错方法、装置、设备和存储介质
CN118782043A (zh) 利用本地文本响应映射呈现对用户的口头话语的响应
US20200394258A1 (en) Generation of edited transcription for speech audio
US20230177272A1 (en) Location-Based Mode(s) For Biasing Provisioning Of Content When An Automated Assistant Is Responding To Condensed Natural Language Inputs
EP4325483B1 (en) Speech interaction method, server, and storage medium
WO2019216873A1 (en) Determining responsive content for a compound query based on a set of generated sub-queries
US20080114747A1 (en) Speech interface for search engines
WO2006106415A1 (en) Method, device, and computer program product for multi-lingual speech recognition
JP2008234427A (ja) ユーザ間の対話を支援する装置、方法およびプログラム
EP3635572B1 (en) Subquery generation from a query
US20250118285A1 (en) Code-mixed speech engine in a speech synthesis system
KR20020077422A (ko) 인터넷 접근을 위한 분산 음성 인식
JP2015200860A (ja) 辞書データベース管理装置、apiサーバ、辞書データベース管理方法、及び辞書データベース管理プログラム
JP3836607B2 (ja) 音声認識のための統計的言語モデル作成装置
TWI307845B (en) Directory assistant method and apparatus for providing directory entry information, and computer readable medium storing thereon related instructions
KR20210053512A (ko) Tts 서비스 제공 방법 및 tts 서비스 제공 시스템
US20250316268A1 (en) Apparatus and Method and for Correcting Result of Speech Recognition by Using Camera
CN112151024B (zh) 用于生成语音音频的经编辑的转录的方法和装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040127

LAPS Cancellation because of no payment of annual fees