JP7604656B2 - 検出のシーケンスに基づいたホットフレーズトリガ - Google Patents
検出のシーケンスに基づいたホットフレーズトリガ Download PDFInfo
- Publication number
- JP7604656B2 JP7604656B2 JP2023535570A JP2023535570A JP7604656B2 JP 7604656 B2 JP7604656 B2 JP 7604656B2 JP 2023535570 A JP2023535570 A JP 2023535570A JP 2023535570 A JP2023535570 A JP 2023535570A JP 7604656 B2 JP7604656 B2 JP 7604656B2
- Authority
- JP
- Japan
- Prior art keywords
- trigger
- audio data
- hot
- words
- trigger words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
- G06F1/3231—Monitoring the presence, absence or movement of users
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24522—Translation of natural language queries to structured queries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Description
12 メモリハードウェア
16 マイクロフォン
100 システム
102 ユーザ
104 ユーザデバイス、アシスタント使用可能デバイス、AED
109 デジタルアシスタント
110 発話
116 自動音声認識器、ASR
120 転写
180 クエリ処理
200 ホットフレーズ検出器
202 オーディオデータ
205 トリガワード検出モデル
207 トリガワード信頼度スコア
209 タイムスタンプ
210 ホットフレーズ
220 固定長時間ウィンドウ
222 部分
250 ホットフレーズイベント
260 トリガイベント
280 トリガワード統合ルーチン
282 ホットフレーズ信頼度スコア
300 方法
400 コンピューティングデバイス
400a 標準的サーバ
400b ラップトップコンピュータ
400c ラックサーバシステム
410 プロセッサ
420 メモリ
430 記憶デバイス
440 高速インターフェース/コントローラ
450 高速拡張ポート
460 低速インターフェース/コントローラ
470 低速バス
480 ディスプレイ
490 低速拡張ポート
Claims (24)
- ユーザに関連付けられたユーザデバイス(104)のデータ処理ハードウェア(10)で、前記ユーザによって話され、前記ユーザデバイス(104)によってキャプチャされた発話(110)に対応するオーディオデータ(202)を受け取るステップであって、前記発話(110)が、デジタルアシスタント(109)が動作を実施するコマンドを含む、ステップと、
前記オーディオデータ(202)の複数の固定長時間ウィンドウ(220)の各々の間に、
前記データ処理ハードウェア(10)によって、ホットフレーズ(210)に関連するトリガワードの組の中の各トリガワードを検出するように構成されるホットフレーズ検出器(200)を使用して、トリガワードの前記組の中の前記トリガワードのいずれかが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中で検出されたかを決定するステップ、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の前記トリガワードのうちの1つが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中に検出されるとき、前記データ処理ハードウェア(10)によって、前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたかを決定するステップ、および
トリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたとき、前記データ処理ハードウェア(10)によって、前記発話(110)に対応する前記オーディオデータ(202)中で前記ホットフレーズ(210)を識別するステップと、
前記データ処理ハードウェア(10)によって、前記ホットフレーズ(210)が前記発話(110)に対応する前記オーディオデータ(202)中で識別されると、前記オーディオデータ(202)上で音声認識を実施するために自動音声認識器(116)(ASR)をトリガするステップと
を含む方法であって、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の前記トリガワードのうちの1つが前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中に検出されるとき、前記データ処理ハードウェア(10)によって、
トリガワードの前記組の中の各々他の対応するトリガワードについてそれぞれのトリガイベント(260)が前記データ処理ハードウェア(10)と通信するメモリハードウェア(12)の中にやはりバッファされるかを決定し、
トリガワードの前記組の中の各々他の対応するトリガワードについて前記それぞれのトリガイベント(260)が前記メモリハードウェア(12)の中にやはりバッファされるとき、前記ユーザによって話された前記発話(110)が前記ホットフレーズ(210)を含む可能性を示すホットフレーズ信頼度スコア(282)を決定し、
前記ホットフレーズ(210)を識別するステップが、前記ホットフレーズ信頼度スコア(282)がホットフレーズ信頼度しきい値を満足すると前記ホットフレーズ(210)を識別するステップを含むように構成される、トリガワード統合ルーチン(280)を実行するステップをさらに含む、方法(300)。 - 前記ユーザが前記発話(110)を話すとき、前記ユーザデバイス(104)が低電力状態であり、
前記ユーザが話した前記発話(110)が、前記ユーザデバイス(104)をトリガして前記低電力状態から起動させるように構成される予め規定されたホットワードを含まない、請求項1に記載の方法(300)。 - トリガワードの前記組の中の前記トリガワードのいずれかが前記オーディオデータ(202)中で検出されたかを決定するステップが、トリガワードの前記組の中の各トリガワードについて、
前記ホットフレーズ検出器(200)を使用して、前記対応する固定長時間ウィンドウ(220)の期間に、前記オーディオデータ(202)の中に前記対応するトリガワードが存在する可能性を示すそれぞれのトリガワード信頼度スコア(207)を生成するステップと、
前記それぞれのトリガワード信頼度スコア(207)がトリガワード信頼度しきい値を満足すると、前記対応する固定長時間ウィンドウ(220)の期間の前記オーディオデータ(202)中の前記対応するトリガワードを検出するステップと、
前記メモリハードウェア(12)の中に、前記オーディオデータ(202)および前記オーディオデータ(202)の中に検出された前記対応するトリガワードについてのそれぞれのトリガイベント(260)をバッファするステップであって、前記それぞれのトリガイベント(260)が前記それぞれのトリガワード信頼度スコア(207)および前記対応するトリガワードが前記オーディオデータ(202)の中で検出されたときを示すそれぞれのタイムスタンプを示す、ステップと
を含む、請求項1または2に記載の方法(300)。 - 前記トリガワード統合ルーチンが、トリガワードの前記組の中の各対応するトリガワードについての、前記それぞれのトリガワード信頼度スコア(207)および前記メモリハードウェア(12)の中にバッファされたそれぞれの検出イベントによって示される前記それぞれのタイムスタンプに基づいて、前記ホットフレーズ信頼度スコア(282)を決定するように構成される、請求項3に記載の方法(300)。
- 前記トリガワード統合ルーチン(280)を実行するステップが、ニューラルネットワークベースモデルを実行するステップを含む、請求項1から4のいずれか一項に記載の方法(300)。
- 前記トリガワード統合ルーチン(280)を実行するステップが、発見ベースモデルを実行するステップを含む、請求項1から5のいずれか一項に記載の方法(300)。
- トリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたとき、
前記データ処理ハードウェア(10)によって、前記オーディオデータ(202)の中に検出されたトリガワードの前記組のシーケンスが、前記ホットフレーズ(210)に関連する予め規定された順番と一致するかを決定するステップ
をさらに含み、
前記発話(110)に対応する前記オーディオデータ(202)の中の前記ホットフレーズ(210)を識別するステップが、前記オーディオデータ(202)の中で検出されたトリガワードの前記組の前記シーケンスが前記ホットフレーズ(210)に関連する前記予め規定された順番と一致するときに、前記ホットフレーズ(210)を識別するステップを含む、請求項1から6のいずれか一項に記載の方法(300)。 - ユーザに関連付けられたユーザデバイス(104)のデータ処理ハードウェア(10)で、前記ユーザによって話され、前記ユーザデバイス(104)によってキャプチャされた発話(110)に対応するオーディオデータ(202)を受け取るステップであって、前記発話(110)が、デジタルアシスタント(109)が動作を実施するコマンドを含む、ステップと、
前記オーディオデータ(202)の複数の固定長時間ウィンドウ(220)の各々の間に、
前記データ処理ハードウェア(10)によって、ホットフレーズ(210)に関連するトリガワードの組の中の各トリガワードを検出するように構成されるホットフレーズ検出器(200)を使用して、トリガワードの前記組の中の前記トリガワードのいずれかが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中で検出されたかを決定するステップ、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の前記トリガワードのうちの1つが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中に検出されるとき、前記データ処理ハードウェア(10)によって、前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたかを決定するステップ、および
トリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたとき、前記データ処理ハードウェア(10)によって、前記発話(110)に対応する前記オーディオデータ(202)中で前記ホットフレーズ(210)を識別するステップと、
前記データ処理ハードウェア(10)によって、前記ホットフレーズ(210)が前記発話(110)に対応する前記オーディオデータ(202)中で識別されると、前記オーディオデータ(202)上で音声認識を実施するために自動音声認識器(116)(ASR)をトリガするステップと
を含む方法であって、
前記データ処理ハードウェア(10)によって、前記オーディオデータ(202)中で検出されたトリガワードの前記組の中の隣接するトリガワードの各対間のそれぞれの時間期間を決定するステップをさらに含み、
前記発話(110)に対応する前記オーディオデータ(202)の中の前記ホットフレーズ(210)を識別するステップが、隣接するトリガワードの各対間の前記それぞれの時間期間に基づく、方法(300)。 - ユーザに関連付けられたユーザデバイス(104)のデータ処理ハードウェア(10)で、前記ユーザによって話され、前記ユーザデバイス(104)によってキャプチャされた発話(110)に対応するオーディオデータ(202)を受け取るステップであって、前記発話(110)が、デジタルアシスタント(109)が動作を実施するコマンドを含む、ステップと、
前記オーディオデータ(202)の複数の固定長時間ウィンドウ(220)の各々の間に、
前記データ処理ハードウェア(10)によって、ホットフレーズ(210)に関連するトリガワードの組の中の各トリガワードを検出するように構成されるホットフレーズ検出器(200)を使用して、トリガワードの前記組の中の前記トリガワードのいずれかが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中で検出されたかを決定するステップ、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の前記トリガワードのうちの1つが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中に検出されるとき、前記データ処理ハードウェア(10)によって、前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたかを決定するステップ、および
トリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたとき、前記データ処理ハードウェア(10)によって、前記発話(110)に対応する前記オーディオデータ(202)中で前記ホットフレーズ(210)を識別するステップと、
前記データ処理ハードウェア(10)によって、前記ホットフレーズ(210)が前記発話(110)に対応する前記オーディオデータ(202)中で識別されると、前記オーディオデータ(202)上で音声認識を実施するために自動音声認識器(116)(ASR)をトリガするステップと
を含む方法であって、
前記オーディオデータ(202)上で音声認識を実施するため前記ASR(116)をトリガするステップが、
前記オーディオデータ(202)を処理することによって、前記発話(110)の転写(120)を生成するステップと、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各トリガワードが前記発話(110)の前記転写(120)の中で認識されるかを決定するステップと、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各トリガワードが前記転写(120)の中に認められるとき、前記動作を実施するため前記デジタルアシスタント(109)についての前記コマンドを前記転写(120)が含むことを識別するために、前記転写(120)上でクエリ解釈を実施するステップと
を含む、方法(300)。 - 前記転写(120)を生成するステップが、
トリガワードの前記組の中の第1のトリガワードが前記オーディオデータ(202)の中に検出されたとき、または検出される前に、前記データ処理ハードウェア(10)と通信するメモリハードウェア(12)の中にバッファされた前記オーディオデータ(202)を巻き戻すステップと、
トリガワードのシーケンスの中の前記第1のトリガワードのとき、または前記第1のトリガワードより前に開始する前記オーディオデータ(202)を処理して、前記発話(110)の前記転写(120)を生成するステップと
を含む、請求項9に記載の方法(300)。 - 前記転写(120)が、前記転写(120)の中に認められたトリガワードの前記組の中の第1のトリガワードと、前記転写(120)の中に認められたトリガワードの前記組の中の最後のトリガワードとの間に、前記ホットフレーズ(210)に関連しない1つまたは複数の他の言葉を含む、請求項9または10に記載の方法(300)。
- 前記ホットフレーズ検出器(200)が、前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各トリガワードを検出するように訓練されるトリガワード検出モデル(205)を含む、請求項1から11のいずれか一項に記載の方法(300)。
- データ処理ハードウェア(10)、および
前記データ処理ハードウェア(10)と通信するメモリハードウェア(12)であって、前記データ処理ハードウェア(10)上で実行すると前記データ処理ハードウェア(10)に、
ユーザによって話され、前記ユーザに関連するユーザデバイス(104)によってキャプチャされた発話(110)に対応するオーディオデータ(202)を受け取るステップであって、前記発話(110)が、デジタルアシスタント(109)が動作を実施するコマンドを含む、ステップと、
前記オーディオデータ(202)の複数の固定長時間ウィンドウ(220)の各々の間に、
ホットフレーズ(210)に関連するトリガワードの組の中の各トリガワードを検出するように構成されるホットフレーズ検出器(200)を使用して、トリガワードの前記組の中の前記トリガワードのいずれかが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中で検出されたかを決定するステップ、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の前記トリガワードのうちの1つが前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中に検出されるとき、前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたかを決定するステップ、および
トリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたとき、前記発話(110)に対応する前記オーディオデータ(202)中で前記ホットフレーズ(210)を識別するステップと、
前記ホットフレーズ(210)が前記発話(110)に対応する前記オーディオデータ(202)中で識別されると、前記オーディオデータ(202)上で音声認識を実施するために自動音声認識器(116)(ASR)をトリガするステップと
を含む動作であって、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の前記トリガワードのうちの1つが前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中に検出されるとき、
トリガワードの前記組の中の各々他の対応するトリガワードについてそれぞれのトリガイベント(260)が前記メモリハードウェア(12)の中にやはりバッファされるかを決定し、
トリガワードの前記組の中の各々他の対応するトリガワードについて前記それぞれのトリガイベント(260)が前記データ処理ハードウェア(10)と通信するメモリハードウェア(12)の中にやはりバッファされるとき、前記ユーザによって話された前記発話(110)が前記ホットフレーズ(210)を含む可能性を示すホットフレーズ信頼度スコア(282)を決定し、
前記ホットフレーズ(210)を識別するステップが、前記ホットフレーズ信頼度スコア(282)がホットフレーズ信頼度しきい値を満足すると前記ホットフレーズ(210)を識別するステップを含むように構成されるトリガワード統合ルーチン(280)を実行するステップをさらに含む動作を実施させる命令を記憶するメモリハードウェア(12)
を備える、システム(100)。 - 前記ユーザが前記発話(110)を話すとき、前記ユーザデバイス(104)が低電力状態であり、
前記ユーザが話した前記発話(110)が、前記ユーザデバイス(104)をトリガして前記低電力状態から起動させるように構成される予め規定されたホットワードを含まない、請求項13に記載のシステム(100)。 - トリガワードの前記組の中の前記トリガワードのいずれかが前記オーディオデータ(202)中で検出されたかを決定するステップが、トリガワードの前記組の中の各トリガワードについて、
前記ホットフレーズ検出器(200)を使用して、前記対応する固定長時間ウィンドウ(220)の期間に、前記オーディオデータ(202)の中に前記対応するトリガワードが存在する可能性を示すそれぞれのトリガワード信頼度スコア(207)を生成するステップと、
前記それぞれのトリガワード信頼度スコア(207)がトリガワード信頼度しきい値を満足すると、前記対応する固定長時間ウィンドウ(220)の期間の前記オーディオデータ(202)中の前記対応するトリガワードを検出するステップと、
前記メモリハードウェア(12)の中に、前記オーディオデータ(202)および前記オーディオデータ(202)の中に検出された前記対応するトリガワードについてのそれぞれのトリガイベント(260)をバッファするステップであって、前記それぞれのトリガイベント(260)が前記それぞれのトリガワード信頼度スコア(207)および前記対応するトリガワードが前記オーディオデータ(202)の中で検出されたときを示すそれぞれのタイムスタンプを示す、ステップと
を含む、請求項13または14に記載のシステム(100)。 - 前記トリガワード統合ルーチンが、トリガワードの前記組の中の各対応するトリガワードについての、前記それぞれのトリガワード信頼度スコア(207)および前記メモリハードウェア(12)の中にバッファされたそれぞれの検出イベントによって示される前記それぞれのタイムスタンプに基づいて、前記ホットフレーズ信頼度スコア(282)を決定するように構成される、請求項15に記載のシステム(100)。
- 前記トリガワード統合ルーチン(280)を実行するステップが、ニューラルネットワークベースモデルを実行するステップを含む、請求項13から16のいずれか一項に記載のシステム(100)。
- 前記トリガワード統合ルーチン(280)を実行するステップが、発見ベースモデルを実行するステップを含む、請求項13から17のいずれか一項に記載のシステム(100)。
- 前記動作が、
トリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたとき、
前記オーディオデータ(202)の中に検出されたトリガワードの前記組のシーケンスが、前記ホットフレーズ(210)に関連する予め規定された順番と一致するかを決定するステップをさらに含み、
前記発話(110)に対応する前記オーディオデータ(202)の中の前記ホットフレーズ(210)を識別するステップが、前記オーディオデータ(202)の中で検出されたトリガワードの前記組の前記シーケンスが前記ホットフレーズ(210)に関連する前記予め規定された順番と一致するときに、前記ホットフレーズ(210)を識別するステップを含む、請求項13から18のいずれか一項に記載のシステム(100)。 - データ処理ハードウェア(10)、および
前記データ処理ハードウェア(10)と通信するメモリハードウェア(12)であって、前記データ処理ハードウェア(10)上で実行すると前記データ処理ハードウェア(10)に、
ユーザによって話され、前記ユーザに関連するユーザデバイス(104)によってキャプチャされた発話(110)に対応するオーディオデータ(202)を受け取るステップであって、前記発話(110)が、デジタルアシスタント(109)が動作を実施するコマンドを含む、ステップと、
前記オーディオデータ(202)の複数の固定長時間ウィンドウ(220)の各々の間に、
ホットフレーズ(210)に関連するトリガワードの組の中の各トリガワードを検出するように構成されるホットフレーズ検出器(200)を使用して、トリガワードの前記組の中の前記トリガワードのいずれかが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中で検出されたかを決定するステップ、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の前記トリガワードのうちの1つが前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中に検出されるとき、前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたかを決定するステップ、および
トリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたとき、前記発話(110)に対応する前記オーディオデータ(202)中で前記ホットフレーズ(210)を識別するステップと、
前記ホットフレーズ(210)が前記発話(110)に対応する前記オーディオデータ(202)中で識別されると、前記オーディオデータ(202)上で音声認識を実施するために自動音声認識器(116)(ASR)をトリガするステップと
を含む動作であって、
前記オーディオデータ(202)中で検出されたトリガワードの前記組の中の隣接するトリガワードの各対間のそれぞれの時間期間を決定するステップをさらに含み、
前記発話(110)に対応する前記オーディオデータ(202)の中の前記ホットフレーズ(210)を識別するステップが、隣接するトリガワードの各対間の前記それぞれの時間期間に基づく、動作を実施させる命令を記憶するメモリハードウェア(12)
を備える、システム(100)。 - データ処理ハードウェア(10)、および
前記データ処理ハードウェア(10)と通信するメモリハードウェア(12)であって、前記データ処理ハードウェア(10)上で実行すると前記データ処理ハードウェア(10)に、
ユーザによって話され、前記ユーザに関連するユーザデバイス(104)によってキャプチャされた発話(110)に対応するオーディオデータ(202)を受け取るステップであって、前記発話(110)が、デジタルアシスタント(109)が動作を実施するコマンドを含む、ステップと、
前記オーディオデータ(202)の複数の固定長時間ウィンドウ(220)の各々の間に、
ホットフレーズ(210)に関連するトリガワードの組の中の各トリガワードを検出するように構成されるホットフレーズ検出器(200)を使用して、トリガワードの前記組の中の前記トリガワードのいずれかが、前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中で検出されたかを決定するステップ、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の前記トリガワードのうちの1つが前記対応する固定長時間ウィンドウ(220)の間に前記オーディオデータ(202)中に検出されるとき、前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたかを決定するステップ、および
トリガワードの前記組の中の各々他のトリガワードが前記オーディオデータ(202)中にやはり検出されたとき、前記発話(110)に対応する前記オーディオデータ(202)中で前記ホットフレーズ(210)を識別するステップと、
前記ホットフレーズ(210)が前記発話(110)に対応する前記オーディオデータ(202)中で識別されると、前記オーディオデータ(202)上で音声認識を実施するために自動音声認識器(116)(ASR)をトリガするステップと
を含む動作であって、
前記オーディオデータ(202)上で音声認識を実施するため前記ASR(116)をトリガするステップが、
前記オーディオデータ(202)を処理することによって、前記発話(110)の転写(120)を生成するステップと、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各トリガワードが前記発話(110)の前記転写(120)の中で認識されるかを決定するステップと、
前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各トリガワードが前記転写(120)の中に認められるとき、前記動作を実施するため前記デジタルアシスタント(109)についての前記コマンドを前記転写(120)が含むことを識別するために、前記転写(120)上でクエリ解釈を実施するステップと
を含む、動作を実施させる命令を記憶するメモリハードウェア(12)
を備える、システム(100)。 - 前記転写(120)を生成するステップが、
トリガワードの前記組の中の第1のトリガワードが前記オーディオデータ(202)の中に検出されたとき、または検出される前に、前記データ処理ハードウェア(10)と通信するメモリハードウェア(12)の中にバッファされた前記オーディオデータ(202)を巻き戻すステップと、
トリガワードのシーケンスの中の前記第1のトリガワードのとき、または前記第1のトリガワードより前に開始する前記オーディオデータ(202)を処理して、前記発話(110)の前記転写(120)を生成するステップと
を含む、請求項21に記載のシステム(100)。 - 前記転写(120)が、前記転写(120)の中に認められたトリガワードの前記組の中の第1のトリガワードと、前記転写(120)の中に認められたトリガワードの前記組の中の最後のトリガワードとの間に、前記ホットフレーズ(210)に関連しない1つまたは複数の他の言葉を含む、請求項21または22に記載のシステム(100)。
- 前記ホットフレーズ検出器(200)が、前記ホットフレーズ(210)に関連するトリガワードの前記組の中の各トリガワードを検出するように訓練されるトリガワード検出モデル(205)を含む、請求項13から23のいずれか一項に記載のシステム(100)。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024215360A JP7791972B2 (ja) | 2020-12-10 | 2024-12-10 | 検出のシーケンスに基づいたホットフレーズトリガ |
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US17/118,251 US11694685B2 (en) | 2020-12-10 | 2020-12-10 | Hotphrase triggering based on a sequence of detections |
| US17/118,251 | 2020-12-10 | ||
| PCT/US2021/060233 WO2022125294A1 (en) | 2020-12-10 | 2021-11-21 | Hotphrase triggering based on a sequence of detections |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024215360A Division JP7791972B2 (ja) | 2020-12-10 | 2024-12-10 | 検出のシーケンスに基づいたホットフレーズトリガ |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023553451A JP2023553451A (ja) | 2023-12-21 |
| JP7604656B2 true JP7604656B2 (ja) | 2024-12-23 |
Family
ID=79024200
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023535570A Active JP7604656B2 (ja) | 2020-12-10 | 2021-11-21 | 検出のシーケンスに基づいたホットフレーズトリガ |
| JP2024215360A Active JP7791972B2 (ja) | 2020-12-10 | 2024-12-10 | 検出のシーケンスに基づいたホットフレーズトリガ |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024215360A Active JP7791972B2 (ja) | 2020-12-10 | 2024-12-10 | 検出のシーケンスに基づいたホットフレーズトリガ |
Country Status (6)
| Country | Link |
|---|---|
| US (2) | US11694685B2 (ja) |
| EP (1) | EP4244851B1 (ja) |
| JP (2) | JP7604656B2 (ja) |
| KR (1) | KR20230113368A (ja) |
| CN (1) | CN116601598A (ja) |
| WO (1) | WO2022125294A1 (ja) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12431125B2 (en) * | 2021-03-05 | 2025-09-30 | Comcast Cable Communications, Llc | Keyword detection |
| US12165648B2 (en) * | 2021-05-25 | 2024-12-10 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
| GB2617420B (en) * | 2021-09-01 | 2024-06-19 | Apple Inc | Voice trigger based on acoustic space |
| US11908475B1 (en) * | 2023-02-10 | 2024-02-20 | Cephable Inc. | Systems, methods and non-transitory computer readable media for human interface device accessibility |
| US12525234B2 (en) * | 2023-09-18 | 2026-01-13 | Qualcomm Incorporated | Low power always-on listening artificial intelligence (AI) system |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006215499A (ja) | 2005-02-07 | 2006-08-17 | Toshiba Tec Corp | 音声処理装置 |
| US20150095027A1 (en) | 2013-09-30 | 2015-04-02 | Google Inc. | Key phrase detection |
| US20190266240A1 (en) | 2019-05-09 | 2019-08-29 | Intel Corporation | Time asynchronous spoken intent detection |
| WO2019239656A1 (ja) | 2018-06-12 | 2019-12-19 | ソニー株式会社 | 情報処理装置および情報処理方法 |
Family Cites Families (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2001001389A2 (de) | 1999-06-24 | 2001-01-04 | Siemens Aktiengesellschaft | Verfahren und vorrichtung zur spracherkennung |
| EP1262954A1 (en) * | 2001-05-30 | 2002-12-04 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for verbal entry of digits or commands |
| KR100650473B1 (ko) * | 2002-05-10 | 2006-11-29 | 아사히 가세이 가부시키가이샤 | 음성 인식 장치 |
| RU2654789C2 (ru) * | 2014-05-30 | 2018-05-22 | Общество С Ограниченной Ответственностью "Яндекс" | Способ (варианты) и электронное устройство (варианты) обработки речевого запроса пользователя |
| US10276161B2 (en) * | 2016-12-27 | 2019-04-30 | Google Llc | Contextual hotwords |
| EP4060476B1 (en) * | 2017-06-13 | 2025-08-06 | Google LLC | Establishment of audio-based network sessions with non-registered resources |
| WO2019079957A1 (en) | 2017-10-24 | 2019-05-02 | Beijing Didi Infinity Technology And Development Co., Ltd. | SYSTEM AND METHOD FOR IDENTIFYING KEY EXPRESSIONS |
| US10276175B1 (en) * | 2017-11-28 | 2019-04-30 | Google Llc | Key phrase detection with audio watermarking |
| US20190237067A1 (en) | 2018-01-31 | 2019-08-01 | Toyota Motor Engineering & Manufacturing North America, Inc. | Multi-channel voice recognition for a vehicle environment |
| CN108492827B (zh) | 2018-04-02 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 应用程序的唤醒处理方法、装置及存储介质 |
| EP3576084B1 (de) * | 2018-05-29 | 2020-09-30 | Christoph Neumann | Effiziente dialoggestaltung |
| JP7000268B2 (ja) | 2018-07-18 | 2022-01-19 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
| US10650807B2 (en) * | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
| US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
| KR102893976B1 (ko) * | 2019-03-19 | 2025-12-03 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 인식 제어 방법 |
| JP6842489B2 (ja) | 2019-03-28 | 2021-03-17 | Necパーソナルコンピュータ株式会社 | 電子機器、制御方法およびプログラム |
| US11361756B2 (en) * | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
-
2020
- 2020-12-10 US US17/118,251 patent/US11694685B2/en active Active
-
2021
- 2021-11-21 KR KR1020237021866A patent/KR20230113368A/ko active Pending
- 2021-11-21 EP EP21827325.8A patent/EP4244851B1/en active Active
- 2021-11-21 JP JP2023535570A patent/JP7604656B2/ja active Active
- 2021-11-21 CN CN202180083577.1A patent/CN116601598A/zh active Pending
- 2021-11-21 WO PCT/US2021/060233 patent/WO2022125294A1/en not_active Ceased
-
2023
- 2023-05-25 US US18/323,725 patent/US12555577B2/en active Active
-
2024
- 2024-12-10 JP JP2024215360A patent/JP7791972B2/ja active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006215499A (ja) | 2005-02-07 | 2006-08-17 | Toshiba Tec Corp | 音声処理装置 |
| US20150095027A1 (en) | 2013-09-30 | 2015-04-02 | Google Inc. | Key phrase detection |
| WO2019239656A1 (ja) | 2018-06-12 | 2019-12-19 | ソニー株式会社 | 情報処理装置および情報処理方法 |
| US20190266240A1 (en) | 2019-05-09 | 2019-08-29 | Intel Corporation | Time asynchronous spoken intent detection |
Also Published As
| Publication number | Publication date |
|---|---|
| US12555577B2 (en) | 2026-02-17 |
| US20230298588A1 (en) | 2023-09-21 |
| JP7791972B2 (ja) | 2025-12-24 |
| KR20230113368A (ko) | 2023-07-28 |
| CN116601598A (zh) | 2023-08-15 |
| WO2022125294A1 (en) | 2022-06-16 |
| US20220189469A1 (en) | 2022-06-16 |
| EP4244851B1 (en) | 2025-09-03 |
| JP2025041689A (ja) | 2025-03-26 |
| US11694685B2 (en) | 2023-07-04 |
| JP2023553451A (ja) | 2023-12-21 |
| EP4244851A1 (en) | 2023-09-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12073826B2 (en) | Freeze words | |
| JP7604656B2 (ja) | 検出のシーケンスに基づいたホットフレーズトリガ | |
| JP6926241B2 (ja) | ホットワード認識音声合成 | |
| US9805715B2 (en) | Method and system for recognizing speech commands using background and foreground acoustic models | |
| JP7818079B2 (ja) | デジタル信号プロセッサベースの継続的な会話 | |
| EP3659028A1 (en) | Utterance classifier | |
| US11942094B2 (en) | Hybrid multilingual text-dependent and text-independent speaker verification | |
| JP7621492B2 (ja) | ホットワード特性に基づいた自動音声認識パラメータの適応 | |
| CN116648743A (zh) | 基于个性化否定来适应热词辨识 | |
| CN119522453A (zh) | 基于历史的asr错误修正 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230720 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230720 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240805 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240925 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241111 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241211 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7604656 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |