JP7604656B2

JP7604656B2 - 検出のシーケンスに基づいたホットフレーズトリガ

Info

Publication number: JP7604656B2
Application number: JP2023535570A
Authority: JP
Inventors: ヴィクター・カルブネ; マシュー・シャリフィ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-12-10
Filing date: 2021-11-21
Publication date: 2024-12-23
Anticipated expiration: 2041-11-21
Also published as: US12555577B2; US20230298588A1; JP7791972B2; KR20230113368A; CN116601598A; WO2022125294A1; US20220189469A1; EP4244851B1; JP2025041689A; US11694685B2; JP2023553451A; EP4244851A1

Description

本開示は、検出のシーケンスに基づいたホットフレーズトリガに関する。

音声使用可能環境によって、ユーザが単にクエリを話すことまたはロードを命令することが可能になり、デジタルアシスタントが、クエリを受け止めて返答し、および/または、コマンドを実施させることになる。音声使用可能環境(たとえば、家、職場、学校など)は、環境の様々な部屋および/または区域にわたって分散される、接続されたマイクロフォンデバイスのネットワークを使用して実装することができる。そのようなマイクロフォンのネットワークを通して、ユーザは、彼/彼女の前または近くにさえコンピュータまたは他のデバイスを有する必要なしに、環境中の基本的にはどこからでも、デジタルアシスタントに口頭でクエリを行う力を有する。これらのデバイスは、環境中の別の個々の存在に向けられる発話とは逆に、所与の発話がシステムに向けられるときを見分けるのを助けるためのホットワードを使用することができる。したがって、デバイスは、スリープ状態または休止状態で動作し、検出した発話がホットワードを含むときだけ起動することができる。一度起動すると、デバイスは、完全なデバイス上での自動音声認識(ASR)またはサーバベースASRなどのより高価な処理を実施するように進むことができる。たとえば、台所で料理する際に、ユーザは、指定されたホットワード「ヘイ、コンピュータ」を口にして、音声使用可能デバイスをトリガして起動し、次いで、音声使用可能デバイス上で動作するデジタルアシスタントに「タイマを20分に設定して欲しい」と頼むことができ、それに応じて、デジタルアシスタントは、タイマが設定されたことを(たとえば、合成音声出力の形で)確認し、20分後にタイマが経過したらユーザに(たとえば、音響スピーカからの警報または他の可聴警告の形で)警告することになる。

本開示の一態様は、ホットフレーズを検出するための方法を提供する。方法は、ユーザに関連付けられたユーザデバイスのデータ処理ハードウェアで、ユーザによって話され、ユーザデバイスによってキャプチャされた発話に対応するオーディオデータを受け取るステップを含む。発話は、デジタルアシスタントが動作を実施するコマンドを含む。オーディオデータの複数の固定長時間ウィンドウの各々の期間に、方法は、データ処理ハードウェアによって、ホットフレーズに関連するトリガワードの組の中の各トリガワードを検出するように構成されるホットフレーズ検出器を使用して、トリガワードの組の中のトリガワードのいずれかが、対応する固定長時間ウィンドウの間にオーディオデータ中で検出されたかを決定するステップと、ホットフレーズに関連するトリガワードの組の中のトリガワードのうちの1つが、対応する固定長時間ウィンドウの間にオーディオデータ中に検出されるとき、データ処理ハードウェアによって、ホットフレーズに関連するトリガワードの組の中の各々他のトリガワードがオーディオデータ中にやはり検出されたかを決定するステップと、トリガワードの組の中の各々他のトリガワードがオーディオデータ中にやはり検出されたとき、データ処理ハードウェアによって、発話に対応するオーディオデータ中でホットフレーズを識別するステップとを含む。方法は、データ処理ハードウェアによって、ホットフレーズが発話に対応するオーディオデータ中で識別されると、オーディオデータ上で音声認識を実施するために自動音声認識器(ASR)をトリガするステップをやはり含む。

本開示の別の態様は、オーディオデータ中のホットフレーズを検出するためのシステムを提供する。システムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアであって、データ処理ハードウェア上で実行するとデータ処理ハードウェアに動作を実施させる命令を記憶するメモリハードウェアとを含む。動作は、ユーザによって話されてユーザに関連するユーザデバイスによってキャプチャされた発話に対応するオーディオデータを受け取るステップを含む。発話は、デジタルアシスタントが動作を実施するコマンドを含む。オーディオデータの複数の固定長時間ウィンドウの各々の期間に、動作は、ホットフレーズに関連するトリガワードの組の中の各トリガワードを検出するように構成されるホットフレーズ検出器を使用して、トリガワードの組の中のトリガワードのいずれかが、対応する固定長時間ウィンドウの間にオーディオデータ中で検出されたかを決定するステップと、ホットフレーズに関連するトリガワードの組の中のトリガワードのうちの1つが、対応する固定長時間ウィンドウの間にオーディオデータ中に検出されるとき、ホットフレーズに関連するトリガワードの組の中の各々他のトリガワードがオーディオデータ中にやはり検出されたかを決定するステップと、トリガワードの組の中の各々他のトリガワードがオーディオデータ中にやはり検出されたとき、発話に対応するオーディオデータ中でホットフレーズを識別するステップとをやはり含む。動作は、ホットフレーズが発話に対応するオーディオデータ中で識別されると、オーディオデータ上で音声認識を実施するために自動音声認識器(ASR)をトリガするステップをやはり含む。

本開示の1つまたは複数の実装形態の詳細は、添付図面および下の説明に記載される。他の態様、特徴、および利点は、説明および図面、ならびに請求項から明らかとなろう。

音の中のホットフレーズを検出するためのホットフレーズ検出器を含む例示的システムの図である。図1のホットフレーズ検出器の例の図である。音の中のホットフレーズを検出する方法についての、動作の例示的配置のフローチャートである。本明細書に記載されるシステムおよび方法を実装するために使用できる例示的なコンピューティングデバイスの概略図である。

様々な図面中の同様の参照符号は同様の要素を示す。

そのような1つまたは複数のアシスタント使用可能デバイスのネットワークを通して、ユーザは、クエリまたは命令を声に出して話すこと、ならびに、デジタルアシスタントフィールドを有すること、クエリに返答すること、および/または、コマンドを実施させることのための力を有する。理想的には、ユーザは、アシスタント使用可能デバイスに向かってクエリ/コマンドを話すことによって別の人に話しかける場合のように、デジタルアシスタントとやり取りすることが可能となるべきである。しかし、スマートフォンまたはスマートウォッチなどといった制限されたリソースを有するアシスタント使用可能デバイス上で、連続的に完全な音声認識を実行するのは、極めて高価であるという事実に起因して、デジタルアシスタントが、ユーザに常に反応するのは、困難である。

したがって、これらのアシスタント使用可能デバイスは、一般的にスリープ状態または休止状態で動作し、ここで低電力ホットワードモデルは、音声認識を実行することなく、音の中の予め規定されたホットワードを検出することが可能である。話された発話中の予め規定されたホットワードを検出すると、アシスタント使用可能デバイスが起動して、完全なデバイス上での自動音声認識(ASR)またはサーバベースASRなどのより高価な処理を実施するように進むことができる。ユーザが予め規定されたホットワードを話す必要性を緩和し、したがって、常時オンの音声をサポートする経験を作り出すために、いくつかの現在の努力は、一般的なフレーズ(たとえば、「タイマを設定する」、「音量を下げる」など)の狭いセットについて直接デジタルアシスタントを活動状態にすることに焦点が合っている。低電力状態の間に、アシスタント使用可能デバイスは、小型ホットフレーズ(またはウォームワード)モデルなどの低電力モデル、または、音の中の固定のホットフレーズを検出/認識することが可能な低電力音声認識器を実行することができる。固定のホットフレーズが低電力モデルによって検出/認識されると、音声使用可能デバイスは、より高い電力のより正確なモデルをトリガして起動し、音の中の固定のフレーズの存在を検証する。

ホットフレーズ検出モデルの1つの課題は、ホットフレーズモデルが認識するよう訓練された正確なコマンドをユーザが話すことが必要であるために、ホットフレーズ検出モデルには柔軟性がないことである。すなわち、異なるフレーズでの変形体/柔軟性を受け入れる能力なしで、ユーザはホットフレーズモデルが期待する正確なホットフレーズを話さなければならない。多くのシナリオでは、所与のコマンドについてのワードのシーケンスは、常に発話中で連続的に話されるわけではなく、それによって、所与のコマンドをホットフレーズで表すことが困難になる。たとえば、テキストメッセージを送信するためコマンドを実施するとき、ユーザは、「ジョンに、私は遅刻しそうというメッセージを送信する」と言う場合がある。ここで、コマンドは、固定部分、および、従来型の低電力ホットフレーズ検出モデルを使用して検出/認識するのが難しいいくつかの可変部分を含む。したがって、従来型の低電力ホットフレーズ検出モデルは、柔軟性を欠き、限定された数の異なるホットフレーズだけをサポートする。

本明細書の実装形態は、低電力で動作することが可能なより柔軟なホットワード検出モデルを使用可能にする一方で、ユーザが柔軟性を増した常時オンのアシスタント使用可能デバイス(AED)とより自然にやり取りするのを可能にすることに関する。より具体的には、AEDは、発話中の複数の異なるホットワードを検出するように構成される単一ホットワード検出モデルを実行する、または、各ホットワード検出モデルが発話中の対応するホットワードを検出するように構成されるホットワード検出モデルの組を並列化して実行する、のいずれかである、第1段階のホットフレーズ検出器を実行することができる。ホットワード検出モデルの組が所与の発話中に複数のホットワードを検出すると、第1段階のホットフレーズ検出器は、完全なホットフレーズを検出するため複数のホットワードを統合することができる。すなわち、複数のホットワードが予期された順番で予め規定された時間ウィンドウ内に検出されるとき、完全なホットフレーズを検出することができ、それによって、AEDを低電力状態から起動して、第2段階のホットフレーズ検出器を実行し、検出されたホットフレーズを検証することが可能になる。第2段階のホットフレーズ検出器を使用して、第1段階によって検出されたホットワードを検証し、および/または、第1段階のホットフレーズ検出器によって検出/認識されなかった予め規定された時間ウィンドウ内のパラメータを認識するのを可能にすることができる。これらのパラメータは、たとえば、ホットワードモデルが検出するよう訓練されていないが、発行されたクエリ/コマンドの部分として話された発話中に他の方法で分散される中間の言葉/用語を含むことができる。

ホットフレーズ検出器は、活動化/初期化して、現在使用中のアプリケーションに関係する状況および/またはAEDのスクリーン上に表示されるコンテンツに基づいて複数のホットワード/トリガワードを検出することができる。たとえば、ユーザがスクリーン上に表示される「メッセージを送信する」および「呼出に返答する」を見る場合、ホットフレーズ検出器は、送信/返答/呼出/メッセージという言葉を活動化することができる。

図1は、ユーザ102が音声を通して相互作用することができるデジタルアシスタント109を実行するアシスタント使用可能デバイス(AED)104を含む例示的なシステム100を示す。示される例では、AED104がスマートスピーカに対応する。しかしAED104としては、限定しないが、スマートフォン、タブレット、スマートディスプレイ、デスクトップ/ラップトップ、スマートウォッチ、スマート家電、ヘッドホン、または車載インフォテインメントデバイスなどの他のコンピューティングデバイスが挙げられる。AED104は、データ処理ハードウェア10と、データ処理ハードウェア10上で実行するとデータ処理ハードウェア10に動作を実施させる命令を記憶するメモリハードウェア12とを含む。AED104は、AED104に向けられる音声などの音響音をキャプチャするように構成される1つまたは複数のマイクロフォン16のアレイを含む。AED104は、ユーザ102に再生するため音を出力できるオーディオ出力デバイス(たとえば、スピーカ)をやはり含むことができ、または通信することができる。

示される例では、ユーザ102は、AED104の近くで、「ジョンに、『私は遅刻しそう』というメッセージを送信する」という発話110を話す。AED104のマイクロフォン16が発話110を受け取って、発話110に対応するオーディオデータ202を処理する。オーディオデータの最初の処理は、オーディオデータをフィルタ処理するステップと、オーディオデータをアナログ信号からデジタル信号に変換するステップとを含むことができる。AED104がオーディオデータを処理すると、AEDは、さらなる処理のために、メモリハードウェア12のバッファにオーディオデータを記憶することができる。バッファ中のオーディオデータを用いて、AED104は、オーディオデータ202がホットフレーズを含むかを検出するためにホットフレーズ検出器200を使用することができる。より具体的には、ホットフレーズ検出器は、オーディオデータ202の固定長時間ウィンドウ220の間に、オーディオデータ中で、ホットフレーズに関連するトリガワードの組の中の各トリガワードを検出するように構成される。したがって、ホットフレーズ検出器200は、オーディオデータに音声認識を実施することなく、オーディオデータに含まれるトリガワードを識別するように構成される。示される例では、ホットフレーズ検出器200は、オーディオデータ202の固定長時間ウィンドウ220の間に、ホットフレーズ検出器200が、オーディオデータ中に、トリガワード「送信する」、「メッセージ」、および「という」の各々の特性である音響的特徴を検出する場合、「ジョンに、『私は遅刻しそう』というメッセージを送信する」という発話110が「<..>という<..>メッセージを<..>送信する」というホットフレーズ210を含むと決定することができる。音響的特徴は、発話110の短期間パワースペクトルを表すメル周波数ケプストラム係数(MFCC)であってよく、または、発話110についてのメルスケールフィルタバンクエネルギーであってよい。例では、各トリガワードを完成した言葉として表現する一方で、トリガワードは、サブワードまたは言葉の部分を含むこともできる。

本明細書で使用する、ホットフレーズ210とは、それぞれの行為動作を直接トリガするために音声認識を実施することなく、音の中で認識/検出するようにAED104が構成されるトリガワードの狭い組(たとえば、ウォームワード)のことを呼ぶ。すなわち、ホットフレーズ210は、2重の目的の呼出フレーズを扱い、AED104を低電力状態(たとえば、スリープ状態または休止状態)から起動して、デジタルアシスタント109が実施する動作を指定するコマンドを発する。例では、「という<..>メッセージを<..>送信する」というホットフレーズ210によって、最初にAED104を起動してコマンド/クエリに対応する後続の音を処理するための予め規定された呼出フレーズ(たとえば、ホットワード、起動ワード)をユーザが発話110の頭に付ける必要なしに、ユーザは、AED104を呼び出して、それぞれの動作の履行をトリガすること(たとえば、受信者にメッセージ内容を送信すること)が可能になる。

特に、ホットフレーズ検出器200は、ホットフレーズ210に関連するトリガワードの組の中の各トリガワードが、固定長時間ウィンドウ220の間/内にホットフレーズ210に関連する予め規定された順番と一致するシーケンスでオーディオデータ中に検出される限り、ホットフレーズ210を検出するように構成される。すなわち、トリガワードの組に対応する固定部分に加えて、ホットフレーズ検出器200は、発話110が、最初のトリガワード(たとえば、「送信する」)と最後のトリガワード(たとえば、「という」)の間にユーザ102が話した言葉/用語などのホットフレーズに関連しない何らかの可変部分をやはり含む場合があることを検出するように構成される。そのため、ホットフレーズ検出器200は、ホットフレーズ検出器200が検出するよう訓練される正確なコマンドをユーザ102が話す必要はない。すなわち、ホットフレーズ検出器200は、ホットフレーズに関連する異なるフレーズでの変形体/柔軟性を受け入れる能力を有し、したがって、ユーザがトリガワードの組を連続して話す必要がなく、ユーザがホットフレーズの内側にオープンエンドのパラメータを埋め込むことが可能になる。発話中でいくつかのホットフレーズ(たとえば、「音量アップ」、「音量ダウン」、「次のトラック」、「タイマ設定」、「アラーム停止」など)は通常連続して話される一方で、本明細書に開示されるホットフレーズ検出器200は、必ずしも連続して話されるとは限らないホットフレーズについてのトリガワードのシーケンスを検出することがやはり可能であり、それによって、AED104がより幅広いホットフレーズ210を検出することが可能になる。たとえば、図1の例では、ユーザ102は、わずかに異なる発話である、「私の同僚のジョンに、『私は遅刻しそう』という素敵なメッセージを送信してください」を話すことによって、デジタルアシスタント109に動作を実施させる同じコマンドを伝えることができる。ここで、この発話は、「という<..>メッセージを<..>送信する」というホットフレーズ110に関連するトリガワードの組を依然として含むが、最初のトリガワード(たとえば、「送信する」)と最後のトリガワード(たとえば、「という」)の間にユーザ102が話した異なる種類の言葉/用語を有する。したがって、ホットフレーズ検出器200は、依然として、ホットフレーズ210を検出し、AED104を呼び出して、起動させ、それぞれの動作の履行をトリガすること(たとえば、受信者にメッセージ内容を送信すること)ができる。

ホットフレーズ検出器200がAED104上で連続して動作/実行することができる一方で、AED104は、低電力状態で、ストリーミングオーディオ中のトリガワードの組の中の各トリガワードを聞いている。AED104がスマートフォンなどの電池駆動式デバイスを含むとき、ホットフレーズ検出器200は、デジタル信号プロセッサ(DSP)チップなどといった低電力ハードウェア上で実行することができる。ホットフレーズ検出器200は、他のタイプのAEDのアプリケーションプロセス(AP)/CPU上で動作/実行するが、音声認識を実施するよりも少ない電力を消費し、少ない処理を必要とすることができる。

ホットフレーズ検出器200が、オーディオデータ202の固定長時間ウィンドウ220の間にトリガワードの組の中の各トリガワードを検出することによって、オーディオデータ202の中のホットフレーズ210を識別するとき、AED104は、起動プロセスをトリガして、発話110に対応するオーディオデータ202上で音声認識を開始することができる。たとえば、AED104上で動作する自動音声認識器(ASR)116は、検証段階としてオーディオデータ202に音声認識を実施して、オーディオデータ202中のホットフレーズ210の存在を確認することができる。ホットフレーズ検出器200は、第1のトリガワードが検出されたとき、または検出される前に、メモリハードウェア12の中にバッファされたオーディオデータを巻き戻して、第1のトリガワードが検出されたとき、または検出される前に始まるオーディオデータ202を、その上での処理を実施するためにASR116に提供することができる。こうして、ASR116に提供された、バッファされたオーディオデータ202は、第1のトリガワードの前に始まる何らかの導入部の音を含むことができる。導入部の音の期間は、第1のトリガワードが、所与の発話中の他の用語に関係して存在すると予期される場合に基づいて、具体的なホットフレーズ210に依存することができる。ASR116に提供されるオーディオデータ202は、導入部の音に対応する部分、ならびに、トリガワードの検出された組を特徴づける固定長時間ウィンドウ220および「私は遅刻しそう」というメッセージ内容を含む後続部分222を含む。

ここで、ASR116は、オーディオデータ202を処理することによって、発話110の転写120を生成し、ホットフレーズ210に関連するトリガワードの組の中の各トリガワードが転写120の中で認識されるかを決定する。ASR116は、転写120の中に含めるため、最後のトリガワード(たとえば、「という」)の後の「私は遅刻しそう」といったメッセージの内容に対応するオーディオデータ202の部分222をやはり処理することができる。トリガワードの組の中の各トリガワードが転写120の中に認められるとASR116が決定すると、ASR116は、クエリ処理180に転写120を提供し、デジタルアシスタント109についてのコマンドを識別するために転写120にクエリ解釈を実施して、動作を実施することができる。クエリ処理180は、発話110の転写120を受け取って、発話110が、デジタルアシスタント109に向けられたクエリ/コマンド様の発話に対応する可能性を分類するように構成される専用モデルを実行することができる。クエリ処理180は、追加または代わりに、意図分類を実施するため、自然言語処理(NLP)層を通してクエリ解釈を実施することができる。例では、クエリ処理180によって転写120上で実施されたクエリ解釈は、コマンドを識別し、ジョンに関連付けられた受取りデバイスにメッセージを送信し、ジョンに関連付けられた受取りデバイスへ伝達するため、メッセージアプリケーションに「私は遅刻しそう」というメッセージ内容を含む転写120の部分を提供することができる。

他方で、トリガワードの組の中のトリガワードのうちの1つまたは複数が転写120の中に認識されないとASR116が決定すると、ASR116は、トリガミスイベントがホットフレーズ検出器200で発生し、したがって、ホットフレーズ210はユーザの発話110中で話されなかったと決定する。示される例では、ASR116は、AED104で起動プロセスを抑制し、トリガミスイベントと決定した際には低電力状態に戻るように命令する。いくつかの例では、ホットフレーズ検出器200によって検出されたトリガワードのうちの1つまたは複数がASRによって誤認識されたとき、AED104は、ASRによって誤認識された各トリガワードに基づいて、ホットフレーズ検出器を微調整するため改良プロセスを実行する。

任意選択で、ASR116は、ネットワークを介してAED104と通信するリモートサーバ(図示せず)上で実行することができる。いくつかの例では、コンピュータ的により強力な第2段階のホットフレーズ検出器が、ASR116によって実施された検証に加えてまたは検証の代わりに、オーディオデータ202の中のホットフレーズ210の存在を確認する。

図2を参照して、いくつかの実装形態では、ホットフレーズ検出器200は、ホットフレーズ210に関連するトリガワードの組の中の各トリガワードを検出するように訓練されるトリガワード検出モデル205を含む。AED104のマイクロフォン16によってキャプチャされたストリーミングオーディオから変換されたオーディオデータ202は、バッファでバッファされ、トリガワード検出モデル205に供給される。バッファは、メモリハードウェア12上に常駐することができる。モデル205は、ホットフレーズ210に関連するトリガワードの組を含むサポートされるトリガワードの範囲についての信頼度スコア207を出力するよう構成される。サポートされるトリガワードの範囲は、1つまたは複数のさらなるホットフレーズに関連するトリガワードの異なる組についての他のトリガワードを含むことができる。いくつかのトリガワードが、トリガワードの複数の組に属することができる。たとえば、「メッセージ」というトリガワードは、「<..>というメッセージを口述する」という別のホットフレーズに関連するトリガワードの別の組にやはり属することができる。いくつかの例では、モデル205は、Nms毎の音の分類(たとえば、信頼度スコア207)を生成するため、オーディオフレームを処理するように構成される、いくつかのニューラルネットワーク層ブロックを有する固定ウィンドウオーディオモデルを含む。ここで、ニューラルネットワーク層ブロックは、畳込みブロックを含むことができる。複数の時間ステップの各々で、モデルの出力層は、サポートされる各トリガワードについての信頼度スコア207を出力することができる。こうして、モデルによってサポートされる各トリガワードは、目標クラスと呼ばれる場合がある。モデル205が、トリガワード信頼度しきい値を満足させるトリガワードについてそれぞれの信頼度スコア207を出力すると、ホットフレーズ検出器200は、オーディオデータ202の中のトリガワードの存在を示すそれぞれのトリガイベント260を検出し、それぞれのトリガイベント260をバッファ中にバッファする。

示される例では、バッファ中の各それぞれのトリガイベント260が、対応するトリガワードについてのそれぞれの信頼度スコア207を示し、それぞれのタイムスタンプ209が、オーディオデータ202中で対応するトリガワードが検出された時を示す。たとえば、トリガワード信頼度しきい値が0.7に等しいとき、現在の固定長時間ウィンドウ220が開始する時を示すゼロ(0)ミリ秒(ms)で「送信する」というトリガワードについて、モデル205が0.95に等しいそれぞれの信頼度スコアを出力すると、それぞれのトリガイベント260を検出することができ、300msで「メッセージ」というトリガワードについて、モデル205が0.8に等しいそれぞれの信頼度スコアを出力すると、それぞれのトリガイベント260を検出することができ、1000msで「という」というトリガワードについて、モデル205が0.85に等しいそれぞれの信頼度スコアを出力すると、それぞれのトリガイベント260を検出することができる。特に、ホットフレーズ検出器200は、各個別のトリガワードについてのトリガイベント260を検出することに応答して起動プロセスを開始しない。

ホットフレーズ検出器200は、トリガワード検出モデル205がそれぞれのトリガイベント260を検出するたびに、トリガワード統合ルーチン280を実行するようにさらに構成される。ここで、ルーチン280は、トリガワードの組の中の各々他の対応するトリガワードについてそれぞれのトリガイベント260がバッファ中にあるかを決定し、トリガワードの組の中の各々他の対応するトリガワードについてそれぞれのトリガイベント260がバッファ中にやはりあるとき、ユーザによって話された発話がホットフレーズ210を含む可能性を示すホットフレーズ信頼度スコア282を決定するように構成される。いくつかの例では、ホットフレーズ検出器200は、ホットフレーズ信頼度スコア282がホットフレーズ信頼度しきい値を満足すると、オーディオデータ202の中のホットフレーズを識別する。

ルーチン280は、トリガワードの組の中の各対応するトリガワードについての、バッファ中のそれぞれのトリガイベント260によって示されるそれぞれのトリガワード信頼度スコア207およびそれぞれのタイムスタンプ209に基づいて、ホットフレーズ信頼度スコア282を決定するように構成することができる。実際には、それぞれのトリガイベント260は、トリガワード信頼度スコア207がトリガワード信頼度しきい値を超える場合を示す複数のそれぞれのタイムスタンプ209を含み、複数の技法を使用して組み合わせられた連続する検出を可能にすることができる。たとえば、最も高いトリガワード信頼度スコア207に関連するタイムスタンプ209を、バッファ中に記憶されるトリガイベント260によって示すことができる。トリガワード統合ルーチン280を実行するステップは、ニューラルネットワークベースモデルを実行するステップを含むことができる。ニューラルネットワークベースモデルは、再帰型ニューラルネットワーク(RNN)アーキテクチャを有するモデルなどといった、シーケンスベースの機械学習モデルを含むことができる。他の例では、トリガワード統合ルーチン280を実行するステップは、文法または発見ベースモデルを実行するステップを含む。ルーチン280は、固定長時間ウィンドウ220の期間にトリガワードが検出されたシーケンスをやはり考慮する。すなわち、オーディオデータ202中で検出されたトリガワードの組のシーケンスは、ホットフレーズ210を識別するために、ホットフレーズ210に関連する予め規定された順番と一致しなければならない。たとえば、示される例では、「という」というトリガワードの検出を示すトリガイベント260を受け取ると、ルーチン280は、バッファ中のそれぞれのタイムスタンプ209を使用して、「メッセージ」というトリガワードが、「送信する」というトリガワードの後、「という」というトリガワードの前に検出されたことを決定することができる。

いくつかの例では、ルーチン280によって生成されるホットフレーズ信頼度スコア282は、オーディオデータ中で検出されたトリガワードの組の中の隣接するトリガワードの各対間のそれぞれの時間期間にさらに基づく。たとえば、ルーチン280は、特定のフレーズについて、隣接するトリガワードの対間で予期される対応する基準の時間期間と、各それぞれの時間期間を比較することができる。すなわち、「という<..>メッセージを<..>送信する」というホットフレーズ210では、「送信する」と「メッセージ」というトリガワード間で予期される基準の時間期間は、「メッセージ」と「という」というトリガワード間で予期される基準の時間期間より短い。ルーチン280は、トリガワードの特定の対間の最大時間期間に基づいてホットフレーズをやはり制約する場合がある。

トリガワード検出モデル205についての文法(たとえば、目標クラス/トリガワード)は、手動で構築すること、または、学習/訓練することができる。学習するとき、特定のバーティカルまたは意図についてのAEDクエリを使用することができる。たとえば、ハンズフリー方式でメッセージを口述し受信者にメッセージを送信するためのコマンドを表すため、メッセージを口述し送信するためコマンドをユーザが話すクエリ転写は、送信メッセージコマンドについてのクエリ転写の最大部分をカバーするトリガワードの最小の組を学習するため、トリガワード検出モデル205が使用するのに活用することができる。すなわち、転写の最大部分をカバーするトリガワードの最小の組は、最高頻度で転写中で発生するトリガワードに関連する。別の例では、音楽を演奏するための低電力コマンドをサポートするため、トリガワード検出モデル205を構築するとき、音楽演奏コマンドについてのクエリ転写を得て、得られたクエリ転写中の転写の最大部分をカバーするトリガワードの最小の組を識別することができる。特に、トリガワード検出モデル205は、デバイス上および/またはユーザ毎ベースで構築することができる。その結果、トリガワード検出モデル205は、特定のAEDの1人のユーザおよび/または複数のユーザが話す個人化したホットフレーズを検出するように構築される。共通/汎用ホットフレーズについてのトリガワード検出モデルがサーバ側で検出され、AEDの集団にプッシュすることもできる。

図3は、オーディオデータ202の固定長時間ウィンドウ220の期間にオーディオデータ202中のホットフレーズ210を検出する方法300についての、動作の例示的配置についてのフローチャートである。動作302において、方法300は、ユーザ102に関連付けられたユーザデバイス104のデータ処理ハードウェア10で、ユーザ102によって話され、ユーザデバイス104によってキャプチャされた発話110に対応するオーディオデータ202を受け取るステップを含む。発話110は、デジタルアシスタント109が動作を実施するコマンドを含む。ユーザデバイス104は、デジタルアシスタント109を実行するアシスタント使用可能デバイス(AED)を含むことができる。

方法300についての動作304、306、308は、オーディオデータ202の複数の固定長時間ウィンドウ220の各々の間に実施される。動作304において、方法300は、データ処理ハードウェア10によって、ホットフレーズ210に関連するトリガワードの組の中の各トリガワードを検出するように構成されるホットフレーズ検出器200を使用して、トリガワードの組の中のトリガワードのいずれかが、対応する固定長時間ウィンドウ220の間にオーディオデータ202中で検出されたかを決定するステップを含む。動作306において、ホットフレーズ210に関連するトリガワードの組の中のトリガワードのうちの1つが、対応する固定長時間ウィンドウ220の間にオーディオデータ202中に検出されるとき、方法300は、データ処理ハードウェア10によって、ホットフレーズ210に関連するトリガワードの組の中の各々他のトリガワードがオーディオデータ中にやはり検出されたかを決定するステップをやはり含む。動作308において、トリガワードの組の中の各々他のトリガワードがオーディオデータ中にやはり検出されたとき、方法300は、データ処理ハードウェアによって、発話に対応するオーディオデータ中でホットフレーズを識別するステップをやはり含む。

動作310において、方法300は、データ処理ハードウェア10によって、ホットフレーズが発話に対応するオーディオデータ中で識別されると、オーディオデータ上で音声認識を実施するために自動音声認識器(ASR)をトリガするステップをやはり含む。ここで、ASRは、第1のトリガワードが検出されたとき、または検出される前に開始する音を処理して、発話についての転写120を生成し、トリガワードの組の中の各トリガワードが転写120の中に認められるかを決定することができる。

ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)とは、コンピューティングデバイスにタスクを実施させるコンピュータソフトウェアのことを呼ぶことができる。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれる場合がある。例示的なアプリケーションとしては、限定しないが、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、文書処理アプリケーション、スプレッドシートアプリケーション、メッセージアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワークアプリケーション、およびゲームアプリケーションが挙げられる。

非一時的メモリは、コンピューティングデバイスが使用するための、一時的なまたは永続ベースの、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を記憶するため使用される物理的デバイスであってよい。非一時的メモリは、揮発性および/または不揮発性のアドレス指定可能な半導体メモリであってよい。不揮発性メモリの例としては、限定しないが、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラム可能読取り専用メモリ(PROM)/消去可能プログラム可能読取り専用メモリ(EPROM)/電気的消去可能プログラム可能読取り専用メモリ(EEPROM)(たとえば、典型的には、ブートプログラムなどのファームウェアに使用される)が挙げられる。揮発性メモリの例としては、限定しないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープが挙げられる。

図4は、本文書に記載されるシステムおよび方法を実装するために使用できる例示的なコンピューティングデバイス400の概略図である。コンピューティングデバイス400は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の好適なコンピュータなどのデジタルコンピュータの様々な形式を代表することが意図される。ここに示される構成要素、それらの接続および関係、ならびにそれらの機能は、例示であることだけが意図されており、本文書に記載および/または特許請求される発明の実装を限定することは意図していない。

コンピューティングデバイス400は、プロセッサ410、メモリ420、記憶デバイス430、メモリ420および高速拡張ポート450に接続される高速インターフェース/コントローラ440、ならびに、低速バス470および記憶デバイス430に接続される低速インターフェース/コントローラ460を含む。構成要素410、420、430、440、450、および460の各々は、様々なバスを使用して相互接続され、一般的なマザーボード上、または適宜他の方式で取り付けることができる。プロセッサ410は、高速インターフェース440に結合されたディスプレイ480などといった外部入出力デバイス上のグラフィカルユーザインターフェース(GUI)のためのグラフィック情報を表示するため、メモリ420または記憶デバイス430に記憶された命令を含む、コンピューティングデバイス400内で実行するための命令を処理することができる。他の実装形態では、複数のプロセッサおよび/または複数のバスを、複数のメモリおよび複数のタイプのメモリとともに適宜使用することができる。また、複数のコンピューティングデバイス400を、(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)必要な動作の部分を実現する各デバイスと接続することができる。

メモリ420は、コンピューティングデバイス400内に非一時的に情報を記憶する。メモリ420は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってよい。非一時的メモリ420は、コンピューティングデバイス400が使用するための、一時的なまたは永続ベースの、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を記憶するため使用される物理的デバイスであってよい。不揮発性メモリの例としては、限定しないが、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラム可能読取り専用メモリ(PROM)/消去可能プログラム可能読取り専用メモリ(EPROM)/電気的消去可能プログラム可能読取り専用メモリ(EEPROM)(たとえば、典型的には、ブートプログラムなどのファームウェアに使用される)が挙げられる。揮発性メモリの例としては、限定しないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープが挙げられる。

記憶デバイス430は、コンピューティングデバイス400用に大容量記憶を提供することが可能である。いくつかの実装形態では、記憶デバイス430は、コンピュータ可読媒体である。様々な異なる実装形態では、記憶デバイス430は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様の固体メモリデバイス、または記憶領域ネットワークもしくは他の構成中のデバイスを含むデバイスのアレイであってよい。さらなる実装形態では、コンピュータプログラム製品が、情報キャリア中に有形に具体化される。コンピュータプログラム製品は、実行されると、上で記載したものなどといった1つまたは複数の方法を実施する命令を含む。情報キャリアは、メモリ420、記憶デバイス430、またはプロセッサ410上のメモリなどといったコンピュータまたは機械可読媒体である。

高速コントローラ440がコンピューティングデバイス400のために帯域幅集約動作を管理する一方で、低速コントローラ460がより低い帯域幅集約動作を管理する。そのような負荷の配置は単なる例示である。いくつかの実装形態では、高速コントローラ440は、メモリ420、(たとえば、グラフィックスプロセッサまたはアクセラレータを通した)ディスプレイ480、および、様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート450に結合される。いくつかの実装形態では、低速コントローラ460は、記憶デバイス430および低速拡張ポート490に結合される。様々な通信ポート(たとえば、USB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含むことができる低速拡張ポート490は、キーボード、ポインティングデバイス、スキャナなどといった1つもしくは複数の入出力デバイス、またはたとえばネットワークアダプタを通してスイッチもしくはルータなどといったネットワークデバイスに結合することができる。

コンピューティングデバイス400は、図に示されるように、いくつかの異なる形で実装することができる。たとえば、コンピューティングデバイス400は、標準的サーバ400aとして、またはそのようなサーバ400aのグループで複数回、ラップトップコンピュータ400bとして、またはラックサーバシステム400cの部分として実装することができる。

本明細書に記載されるシステムおよび技法の様々な実装形態は、デジタル電気および/または光回路、集積回路、専用設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組合せで実現することができる。これらの様々な実装形態は、専用または汎用の、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受け取り、データおよび命令を送信するように結合することができる少なくとも1つのプログラム可能プロセッサを含むプログラム可能システム上で実行可能および/または解釈可能な、1つまたは複数のコンピュータプログラムにおける実装形態を含むことができる。

これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている)は、プログラム可能プロセッサ用の機械命令を含み、高レベル手続型言語および/またはオブジェクト指向型プログラミング言語、ならびに/あるいはアセンブリ言語/機械言語で実装することができる。本明細書で使用する、「機械可読媒体」および「コンピュータ可読媒体」という用語は、プログラム可能プロセッサに機械命令および/またはデータを提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置、および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラム可能論理デバイス(PLD))のことを呼び、機械可読信号として機械命令を受け取る機械可読媒体を含む。「機械可読信号」という用語は、プログラム可能プロセッサに機械命令および/またはデータを提供するために使用される任意の信号のことを呼ぶ。

本明細書に記載されるプロセスおよび論理フローは、データ処理ハードウェアとも呼ばれ、入力データに操作し出力を生成することによって機能を実施するように1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラム可能プロセッサが実施することができる。プロセスおよび論理フローは、たとえば、FPGA(フィールドプログラム可能ゲートアレイ)またはASIC(特定用途向け集積回路)といった専用論理回路によって実施することもできる。コンピュータプログラムの実行に好適なプロセッサとしては、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサが挙げられる。一般的に、プロセッサは、読取り専用メモリまたはランダムアクセスメモリあるいはその両方から命令およびデータを受け取る。コンピュータの基本要素は、命令を実施するためのプロセッサと、命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般的に、コンピュータは、たとえば、磁気ディスク、光磁気ディスク、または光ディスクといったデータを記憶するための1つまたは複数の大容量デバイスをやはり含み、あるいは大容量デバイスからデータを受け取り、または大容量デバイスにデータを送信し、あるいはその両方のために動作可能に結合されることになる。しかし、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに好適なコンピュータ可読媒体としては、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイスといった半導体メモリデバイス、たとえば内蔵ハードディスクまたは取外し可能ディスクといった磁気ディスク、光磁気ディスク、ならびにCD ROMおよびDVD-ROMディスクを例として含む、全ての形の不揮発性メモリ、媒体、およびメモリデバイスが挙げられる。プロセッサおよびメモリは、専用論理回路が補足すること、または、専用論理回路の中に組み込むことができる。

ユーザとの相互作用を実現するために、本開示の1つまたは複数の態様は、ユーザに情報を表示するための、たとえば、CRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーンといった表示デバイス、ならびに任意選択で、ユーザがコンピュータに入力を提供できる、キーボードおよびたとえばマウスまたはトラックボールといったポインティングデバイスを有するコンピュータ上に実装することができる。他の種類のデバイスも同様にユーザとの相互作用を実現するため使用することができる。たとえば、ユーザへのフィードバックは、たとえば視覚的フィードバック、音声フィードバック、または触覚的フィードバックといった任意の形式のセンサフィードバックであってよく、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形式で受け取ることができる。加えて、コンピュータは、たとえば、ウェブブラウザから受け取った要求に応じてユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザに使用されるデバイスに文書を送信し、デバイスから文書を受け取ることによって、ユーザと相互作用することができる。

いくつかの実装形態を記載してきた。それにもかかわらず、本開示の精神および範囲から逸脱することなく様々な変形形態を行うことができることを理解されよう。したがって、他の実装形態は、以下の特許請求の範囲内である。

10 データ処理ハードウェア
12 メモリハードウェア
16 マイクロフォン
100 システム
102 ユーザ
104 ユーザデバイス、アシスタント使用可能デバイス、AED
109 デジタルアシスタント
110 発話
116 自動音声認識器、ASR
120 転写
180 クエリ処理
200 ホットフレーズ検出器
202 オーディオデータ
205 トリガワード検出モデル
207 トリガワード信頼度スコア
209 タイムスタンプ
210 ホットフレーズ
220 固定長時間ウィンドウ
222 部分
250 ホットフレーズイベント
260 トリガイベント
280 トリガワード統合ルーチン
282 ホットフレーズ信頼度スコア
300 方法
400 コンピューティングデバイス
400a 標準的サーバ
400b ラップトップコンピュータ
400c ラックサーバシステム
410 プロセッサ
420 メモリ
430 記憶デバイス
440 高速インターフェース/コントローラ
450 高速拡張ポート
460 低速インターフェース/コントローラ
470 低速バス
480 ディスプレイ
490 低速拡張ポート

Claims

ユーザに関連付けられたユーザデバイス(104)のデータ処理ハードウェア(10)で、前記ユーザによって話され、前記ユーザデバイス(104)によってキャプチャされた発話(110)に対応するオーディオデータ(202)を受け取るステップであって、前記発話(110)が、デジタルアシスタント(109)が動作を実施するコマンドを含む、ステップと、
前記オーディオデータ(202)の複数の固定長時間ウィンドウ(220)の各々の間に、
前記データ処理ハードウェア(10)によって、ホットフレーズ(210)に関連するトリガワードの組の中の各トリガワードを検出するように構成されるホットフレーズ検出器(200)を使用して、トリガワードの前記組の中の前記トリガワードのいずれかが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中で検出されたかを決定するステップ、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の前記トリガワードのうちの1つが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中に検出されるとき、前記データ処理ハードウェア(10)によって、前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたかを決定するステップ、および
トリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたとき、前記データ処理ハードウェア(10)によって、前記発話(110)に対応する前記オーディオデータ(202)中で前記ホットフレーズ(210)を識別するステップと、
前記データ処理ハードウェア(10)によって、前記ホットフレーズ(210)が前記発話(110)に対応する前記オーディオデータ(202)中で識別されると、前記オーディオデータ(202)上で音声認識を実施するために自動音声認識器(116)(ASR)をトリガするステップと
を含む方法であって、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の前記トリガワードのうちの1つが前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中に検出されるとき、前記データ処理ハードウェア(10)によって、
トリガワードの前記組の中の各々他の対応するトリガワードについてそれぞれのトリガイベント(260)が前記データ処理ハードウェア(10)と通信するメモリハードウェア(12)の中にやはりバッファされるかを決定し、
トリガワードの前記組の中の各々他の対応するトリガワードについて前記それぞれのトリガイベント(260)が前記メモリハードウェア(12)の中にやはりバッファされるとき、前記ユーザによって話された前記発話(110)が前記ホットフレーズ(210)を含む可能性を示すホットフレーズ信頼度スコア(282)を決定し、
前記ホットフレーズ(210)を識別するステップが、前記ホットフレーズ信頼度スコア(282)がホットフレーズ信頼度しきい値を満足すると前記ホットフレーズ(210)を識別するステップを含むように構成される、トリガワード統合ルーチン(280)を実行するステップをさらに含む、方法(300)。
前記ユーザが前記発話(110)を話すとき、前記ユーザデバイス(104)が低電力状態であり、
前記ユーザが話した前記発話(110)が、前記ユーザデバイス(104)をトリガして前記低電力状態から起動させるように構成される予め規定されたホットワードを含まない、請求項1に記載の方法(300)。
トリガワードの前記組の中の前記トリガワードのいずれかが前記オーディオデータ(202)中で検出されたかを決定するステップが、トリガワードの前記組の中の各トリガワードについて、
前記ホットフレーズ検出器(200)を使用して、前記対応する固定長時間ウィンドウ(220)の期間に、前記オーディオデータ(202)の中に前記対応するトリガワードが存在する可能性を示すそれぞれのトリガワード信頼度スコア(207)を生成するステップと、
前記それぞれのトリガワード信頼度スコア(207)がトリガワード信頼度しきい値を満足すると、前記対応する固定長時間ウィンドウ(220)の期間の前記オーディオデータ(202)中の前記対応するトリガワードを検出するステップと、
前記メモリハードウェア(12)の中に、前記オーディオデータ(202)および前記オーディオデータ(202)の中に検出された前記対応するトリガワードについてのそれぞれのトリガイベント(260)をバッファするステップであって、前記それぞれのトリガイベント(260)が前記それぞれのトリガワード信頼度スコア(207)および前記対応するトリガワードが前記オーディオデータ(202)の中で検出されたときを示すそれぞれのタイムスタンプを示す、ステップと
を含む、請求項1または2に記載の方法(300)。
前記トリガワード統合ルーチンが、トリガワードの前記組の中の各対応するトリガワードについての、前記それぞれのトリガワード信頼度スコア(207)および前記メモリハードウェア(12)の中にバッファされたそれぞれの検出イベントによって示される前記それぞれのタイムスタンプに基づいて、前記ホットフレーズ信頼度スコア(282)を決定するように構成される、請求項3に記載の方法(300)。
前記トリガワード統合ルーチン(280)を実行するステップが、ニューラルネットワークベースモデルを実行するステップを含む、請求項1から4のいずれか一項に記載の方法(300)。
前記トリガワード統合ルーチン(280)を実行するステップが、発見ベースモデルを実行するステップを含む、請求項1から5のいずれか一項に記載の方法(300)。
トリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたとき、
前記データ処理ハードウェア(10)によって、前記オーディオデータ(202)の中に検出されたトリガワードの前記組のシーケンスが、前記ホットフレーズ(210)に関連する予め規定された順番と一致するかを決定するステップ
をさらに含み、
前記発話(110)に対応する前記オーディオデータ(202)の中の前記ホットフレーズ(210)を識別するステップが、前記オーディオデータ(202)の中で検出されたトリガワードの前記組の前記シーケンスが前記ホットフレーズ(210)に関連する前記予め規定された順番と一致するときに、前記ホットフレーズ(210)を識別するステップを含む、請求項1から6のいずれか一項に記載の方法(300)。
ユーザに関連付けられたユーザデバイス(104)のデータ処理ハードウェア(10)で、前記ユーザによって話され、前記ユーザデバイス(104)によってキャプチャされた発話(110)に対応するオーディオデータ(202)を受け取るステップであって、前記発話(110)が、デジタルアシスタント(109)が動作を実施するコマンドを含む、ステップと、
前記オーディオデータ(202)の複数の固定長時間ウィンドウ(220)の各々の間に、
前記データ処理ハードウェア(10)によって、ホットフレーズ(210)に関連するトリガワードの組の中の各トリガワードを検出するように構成されるホットフレーズ検出器(200)を使用して、トリガワードの前記組の中の前記トリガワードのいずれかが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中で検出されたかを決定するステップ、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の前記トリガワードのうちの1つが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中に検出されるとき、前記データ処理ハードウェア(10)によって、前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたかを決定するステップ、および
トリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたとき、前記データ処理ハードウェア(10)によって、前記発話(110)に対応する前記オーディオデータ(202)中で前記ホットフレーズ(210)を識別するステップと、
前記データ処理ハードウェア(10)によって、前記ホットフレーズ(210)が前記発話(110)に対応する前記オーディオデータ(202)中で識別されると、前記オーディオデータ(202)上で音声認識を実施するために自動音声認識器(116)(ASR)をトリガするステップと
を含む方法であって、
前記データ処理ハードウェア(10)によって、前記オーディオデータ(202)中で検出されたトリガワードの前記組の中の隣接するトリガワードの各対間のそれぞれの時間期間を決定するステップをさらに含み、
前記発話(110)に対応する前記オーディオデータ(202)の中の前記ホットフレーズ(210)を識別するステップが、隣接するトリガワードの各対間の前記それぞれの時間期間に基づく、方法(300)。
ユーザに関連付けられたユーザデバイス(104)のデータ処理ハードウェア(10)で、前記ユーザによって話され、前記ユーザデバイス(104)によってキャプチャされた発話(110)に対応するオーディオデータ(202)を受け取るステップであって、前記発話(110)が、デジタルアシスタント(109)が動作を実施するコマンドを含む、ステップと、
前記オーディオデータ(202)の複数の固定長時間ウィンドウ(220)の各々の間に、
前記データ処理ハードウェア(10)によって、ホットフレーズ(210)に関連するトリガワードの組の中の各トリガワードを検出するように構成されるホットフレーズ検出器(200)を使用して、トリガワードの前記組の中の前記トリガワードのいずれかが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中で検出されたかを決定するステップ、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の前記トリガワードのうちの1つが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中に検出されるとき、前記データ処理ハードウェア(10)によって、前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたかを決定するステップ、および
トリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたとき、前記データ処理ハードウェア(10)によって、前記発話(110)に対応する前記オーディオデータ(202)中で前記ホットフレーズ(210)を識別するステップと、
前記データ処理ハードウェア(10)によって、前記ホットフレーズ(210)が前記発話(110)に対応する前記オーディオデータ(202)中で識別されると、前記オーディオデータ(202)上で音声認識を実施するために自動音声認識器(116)(ASR)をトリガするステップと
を含む方法であって、
前記オーディオデータ(202)上で音声認識を実施するため前記ASR(116)をトリガするステップが、
前記オーディオデータ(202)を処理することによって、前記発話(110)の転写(120)を生成するステップと、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各トリガワードが前記発話(110)の前記転写(120)の中で認識されるかを決定するステップと、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各トリガワードが前記転写(120)の中に認められるとき、前記動作を実施するため前記デジタルアシスタント(109)についての前記コマンドを前記転写(120)が含むことを識別するために、前記転写(120)上でクエリ解釈を実施するステップと
を含む、方法(300)。
前記転写(120)を生成するステップが、
トリガワードの前記組の中の第1のトリガワードが前記オーディオデータ(202)の中に検出されたとき、または検出される前に、前記データ処理ハードウェア(10)と通信するメモリハードウェア(12)の中にバッファされた前記オーディオデータ(202)を巻き戻すステップと、
トリガワードのシーケンスの中の前記第1のトリガワードのとき、または前記第1のトリガワードより前に開始する前記オーディオデータ(202)を処理して、前記発話(110)の前記転写(120)を生成するステップと
を含む、請求項9に記載の方法(300)。
前記転写(120)が、前記転写(120)の中に認められたトリガワードの前記組の中の第1のトリガワードと、前記転写(120)の中に認められたトリガワードの前記組の中の最後のトリガワードとの間に、前記ホットフレーズ(210)に関連しない1つまたは複数の他の言葉を含む、請求項9または10に記載の方法(300)。
前記ホットフレーズ検出器(200)が、前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各トリガワードを検出するように訓練されるトリガワード検出モデル(205)を含む、請求項1から11のいずれか一項に記載の方法(300)。
データ処理ハードウェア(10)、および
前記データ処理ハードウェア(10)と通信するメモリハードウェア(12)であって、前記データ処理ハードウェア(10)上で実行すると前記データ処理ハードウェア(10)に、
ユーザによって話され、前記ユーザに関連するユーザデバイス(104)によってキャプチャされた発話(110)に対応するオーディオデータ(202)を受け取るステップであって、前記発話(110)が、デジタルアシスタント(109)が動作を実施するコマンドを含む、ステップと、
前記オーディオデータ(202)の複数の固定長時間ウィンドウ(220)の各々の間に、
ホットフレーズ(210)に関連するトリガワードの組の中の各トリガワードを検出するように構成されるホットフレーズ検出器(200)を使用して、トリガワードの前記組の中の前記トリガワードのいずれかが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中で検出されたかを決定するステップ、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の前記トリガワードのうちの1つが前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中に検出されるとき、前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたかを決定するステップ、および
トリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたとき、前記発話(110)に対応する前記オーディオデータ(202)中で前記ホットフレーズ(210)を識別するステップと、
前記ホットフレーズ(210)が前記発話(110)に対応する前記オーディオデータ(202)中で識別されると、前記オーディオデータ(202)上で音声認識を実施するために自動音声認識器(116)(ASR)をトリガするステップと
を含む動作であって、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の前記トリガワードのうちの1つが前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中に検出されるとき、
トリガワードの前記組の中の各々他の対応するトリガワードについてそれぞれのトリガイベント(260)が前記メモリハードウェア(12)の中にやはりバッファされるかを決定し、
トリガワードの前記組の中の各々他の対応するトリガワードについて前記それぞれのトリガイベント(260)が前記データ処理ハードウェア(10)と通信するメモリハードウェア(12)の中にやはりバッファされるとき、前記ユーザによって話された前記発話(110)が前記ホットフレーズ(210)を含む可能性を示すホットフレーズ信頼度スコア(282)を決定し、
前記ホットフレーズ(210)を識別するステップが、前記ホットフレーズ信頼度スコア(282)がホットフレーズ信頼度しきい値を満足すると前記ホットフレーズ(210)を識別するステップを含むように構成されるトリガワード統合ルーチン(280)を実行するステップをさらに含む動作を実施させる命令を記憶するメモリハードウェア(12)
を備える、システム(100)。
前記ユーザが前記発話(110)を話すとき、前記ユーザデバイス(104)が低電力状態であり、
前記ユーザが話した前記発話(110)が、前記ユーザデバイス(104)をトリガして前記低電力状態から起動させるように構成される予め規定されたホットワードを含まない、請求項13に記載のシステム(100)。
トリガワードの前記組の中の前記トリガワードのいずれかが前記オーディオデータ(202)中で検出されたかを決定するステップが、トリガワードの前記組の中の各トリガワードについて、
前記ホットフレーズ検出器(200)を使用して、前記対応する固定長時間ウィンドウ(220)の期間に、前記オーディオデータ(202)の中に前記対応するトリガワードが存在する可能性を示すそれぞれのトリガワード信頼度スコア(207)を生成するステップと、
前記それぞれのトリガワード信頼度スコア(207)がトリガワード信頼度しきい値を満足すると、前記対応する固定長時間ウィンドウ(220)の期間の前記オーディオデータ(202)中の前記対応するトリガワードを検出するステップと、
前記メモリハードウェア(12)の中に、前記オーディオデータ(202)および前記オーディオデータ(202)の中に検出された前記対応するトリガワードについてのそれぞれのトリガイベント(260)をバッファするステップであって、前記それぞれのトリガイベント(260)が前記それぞれのトリガワード信頼度スコア(207)および前記対応するトリガワードが前記オーディオデータ(202)の中で検出されたときを示すそれぞれのタイムスタンプを示す、ステップと
を含む、請求項13または14に記載のシステム(100)。
前記トリガワード統合ルーチンが、トリガワードの前記組の中の各対応するトリガワードについての、前記それぞれのトリガワード信頼度スコア(207)および前記メモリハードウェア(12)の中にバッファされたそれぞれの検出イベントによって示される前記それぞれのタイムスタンプに基づいて、前記ホットフレーズ信頼度スコア(282)を決定するように構成される、請求項15に記載のシステム(100)。
前記トリガワード統合ルーチン(280)を実行するステップが、ニューラルネットワークベースモデルを実行するステップを含む、請求項13から16のいずれか一項に記載のシステム(100)。
前記トリガワード統合ルーチン(280)を実行するステップが、発見ベースモデルを実行するステップを含む、請求項13から17のいずれか一項に記載のシステム(100)。
前記動作が、
トリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたとき、
前記オーディオデータ(202)の中に検出されたトリガワードの前記組のシーケンスが、前記ホットフレーズ(210)に関連する予め規定された順番と一致するかを決定するステップをさらに含み、
前記発話(110)に対応する前記オーディオデータ(202)の中の前記ホットフレーズ(210)を識別するステップが、前記オーディオデータ(202)の中で検出されたトリガワードの前記組の前記シーケンスが前記ホットフレーズ(210)に関連する前記予め規定された順番と一致するときに、前記ホットフレーズ(210)を識別するステップを含む、請求項13から18のいずれか一項に記載のシステム(100)。
データ処理ハードウェア(10)、および
前記データ処理ハードウェア(10)と通信するメモリハードウェア(12)であって、前記データ処理ハードウェア(10)上で実行すると前記データ処理ハードウェア(10)に、
ユーザによって話され、前記ユーザに関連するユーザデバイス(104)によってキャプチャされた発話(110)に対応するオーディオデータ(202)を受け取るステップであって、前記発話(110)が、デジタルアシスタント(109)が動作を実施するコマンドを含む、ステップと、
前記オーディオデータ(202)の複数の固定長時間ウィンドウ(220)の各々の間に、
ホットフレーズ(210)に関連するトリガワードの組の中の各トリガワードを検出するように構成されるホットフレーズ検出器(200)を使用して、トリガワードの前記組の中の前記トリガワードのいずれかが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中で検出されたかを決定するステップ、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の前記トリガワードのうちの1つが前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中に検出されるとき、前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたかを決定するステップ、および
トリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたとき、前記発話(110)に対応する前記オーディオデータ(202)中で前記ホットフレーズ(210)を識別するステップと、
前記ホットフレーズ(210)が前記発話(110)に対応する前記オーディオデータ(202)中で識別されると、前記オーディオデータ(202)上で音声認識を実施するために自動音声認識器(116)(ASR)をトリガするステップと
を含む動作であって、
前記オーディオデータ(202)中で検出されたトリガワードの前記組の中の隣接するトリガワードの各対間のそれぞれの時間期間を決定するステップをさらに含み、
前記発話(110)に対応する前記オーディオデータ(202)の中の前記ホットフレーズ(210)を識別するステップが、隣接するトリガワードの各対間の前記それぞれの時間期間に基づく、動作を実施させる命令を記憶するメモリハードウェア(12)
を備える、システム(100)。
データ処理ハードウェア(10)、および
前記データ処理ハードウェア(10)と通信するメモリハードウェア(12)であって、前記データ処理ハードウェア(10)上で実行すると前記データ処理ハードウェア(10)に、
ユーザによって話され、前記ユーザに関連するユーザデバイス(104)によってキャプチャされた発話(110)に対応するオーディオデータ(202)を受け取るステップであって、前記発話(110)が、デジタルアシスタント(109)が動作を実施するコマンドを含む、ステップと、
前記オーディオデータ(202)の複数の固定長時間ウィンドウ(220)の各々の間に、
ホットフレーズ(210)に関連するトリガワードの組の中の各トリガワードを検出するように構成されるホットフレーズ検出器(200)を使用して、トリガワードの前記組の中の前記トリガワードのいずれかが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中で検出されたかを決定するステップ、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の前記トリガワードのうちの1つが前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中に検出されるとき、前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたかを決定するステップ、および
トリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたとき、前記発話(110)に対応する前記オーディオデータ(202)中で前記ホットフレーズ(210)を識別するステップと、
前記ホットフレーズ(210)が前記発話(110)に対応する前記オーディオデータ(202)中で識別されると、前記オーディオデータ(202)上で音声認識を実施するために自動音声認識器(116)(ASR)をトリガするステップと
を含む動作であって、
前記オーディオデータ(202)上で音声認識を実施するため前記ASR(116)をトリガするステップが、
前記オーディオデータ(202)を処理することによって、前記発話(110)の転写(120)を生成するステップと、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各トリガワードが前記発話(110)の前記転写(120)の中で認識されるかを決定するステップと、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各トリガワードが前記転写(120)の中に認められるとき、前記動作を実施するため前記デジタルアシスタント(109)についての前記コマンドを前記転写(120)が含むことを識別するために、前記転写(120)上でクエリ解釈を実施するステップと
を含む、動作を実施させる命令を記憶するメモリハードウェア(12)
を備える、システム(100)。
前記転写(120)を生成するステップが、
トリガワードの前記組の中の第1のトリガワードが前記オーディオデータ(202)の中に検出されたとき、または検出される前に、前記データ処理ハードウェア(10)と通信するメモリハードウェア(12)の中にバッファされた前記オーディオデータ(202)を巻き戻すステップと、
トリガワードのシーケンスの中の前記第1のトリガワードのとき、または前記第1のトリガワードより前に開始する前記オーディオデータ(202)を処理して、前記発話(110)の前記転写(120)を生成するステップと
を含む、請求項21に記載のシステム(100)。
前記転写(120)が、前記転写(120)の中に認められたトリガワードの前記組の中の第1のトリガワードと、前記転写(120)の中に認められたトリガワードの前記組の中の最後のトリガワードとの間に、前記ホットフレーズ(210)に関連しない1つまたは複数の他の言葉を含む、請求項21または22に記載のシステム(100)。
前記ホットフレーズ検出器(200)が、前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各トリガワードを検出するように訓練されるトリガワード検出モデル(205)を含む、請求項13から23のいずれか一項に記載のシステム(100)。