JP7365985B2 - 音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム - Google Patents
音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム Download PDFInfo
- Publication number
- JP7365985B2 JP7365985B2 JP2020157479A JP2020157479A JP7365985B2 JP 7365985 B2 JP7365985 B2 JP 7365985B2 JP 2020157479 A JP2020157479 A JP 2020157479A JP 2020157479 A JP2020157479 A JP 2020157479A JP 7365985 B2 JP7365985 B2 JP 7365985B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- analysis result
- valid
- slot
- splicing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Description
なお、出願当初の特許請求の範囲の記載は以下の通りである。
請求項1:
音声フレームが検出されたことに応答して、リアルタイムで前記音声フレームを現在のテキストに変換するステップと、
以前に保存されていた履歴テキストが存在しない場合、前記現在のテキストを意味解析モデルに入力し、解析結果を取得するステップと、
前記解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了するステップと、
前記有効な意図のスロットに対応する命令を出力するステップと
を含む、音声を認識するための方法。
請求項2:
前記方法は、
解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるステップをさらに含む、請求項1に記載の方法。
請求項3:
前記方法は、
以前に保存されていた履歴テキストが存在する場合、前記現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するステップと、
新しい解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストに合併して保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるステップと、
新しい解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了し、履歴テキストを空にし、有効な意図のスロットに対応する命令を出力するステップと
をさらに含む、請求項2に記載の方法。
請求項4:
前記現在のテキストと前記履歴テキストとを意味解析モデルに入力するステップは、
前記現在のテキストと前記履歴テキストとをスプライシングするステップと、
スプライシングに成功した場合、スプライシング後の現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するステップと、を含む、請求項3に記載の方法。
請求項5:
前記現在のテキストと前記履歴テキストとを意味解析モデルに入力するステップは、
スプライシングに失敗した場合、前記履歴テキストを前記現在のテキストにリセットし、前記現在のテキストのみを意味解析モデルに入力するステップと
を含む、請求項4に記載の方法。
請求項6:
前記方法は、
前記解析結果が有効な意図のスロットを含むとともに一定の結果である場合、前記解析結果をキャッシュ命令とし、キャッシュ命令と現在のテキストとの対応関係テーブルを記憶するステップと、
解析すべきテキストが取得されたことに応答して、解析すべきテキストと前記対応関係テーブルとをマッチングするステップと、
マッチングに成功した場合、意味解析モデルを介さずに、前記解析すべきテキストに対応するキャッシュ命令を直接返すステップと
をさらに含む、請求項1~5のいずれか一項に記載の方法。
請求項7:
音声フレームが検出されたことに応答して、リアルタイムで前記音声フレームを現在のテキストに変換するように構成された変換ユニットと、
以前に保存されていた履歴テキストが存在しない場合、前記現在のテキストを意味解析モデルに入力し、解析結果を取得するように構成された解析ユニットと、
前記解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了するように構成された判断ユニットと、
前記有効な意図のスロットに対応する命令を出力するように構成された出力ユニットと
を含む、音声を認識するための装置。
請求項8:
前記装置は、
解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるように構成されたスプライシングユニットをさらに含む、請求項7に記載の装置。
請求項9:
前記スプライシングユニットはさらに、
以前に保存されていた履歴テキストが存在する場合、前記現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得し、
新しい解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストに合併して保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させ、
新しい解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了し、履歴テキストを空にし、有効な意図のスロットに対応する命令を出力するように構成されている、請求項8に記載の装置。
請求項10:
前記スプライシングユニットはさらに、
前記現在のテキストと前記履歴テキストとをスプライシングし、
スプライシングに成功した場合、スプライシング後の現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するように構成されている、請求項9に記載の装置。
請求項11:
前記スプライシングユニットはさらに、
スプライシングに失敗した場合、前記履歴テキストを前記現在のテキストにリセットし、前記現在のテキストのみを意味解析モデルに入力するように構成されている、請求項10に記載の装置。
請求項12:
前記装置は、
前記解析結果が有効な意図のスロットを含むとともに一定の結果である場合、前記解析結果をキャッシュ命令とし、キャッシュ命令と現在のテキストとの対応関係テーブルを記憶し、
解析すべきテキストが取得されたことに応答して、解析すべきテキストと前記対応関係テーブルとをマッチングし、
マッチングに成功した場合、意味解析モデルを介さずに、前記解析すべきテキストに対応するキャッシュ命令を直接返すように構成されたキャッシュユニットをさらに含む、請求項7~11のいずれか一項に記載の装置。
請求項13:
1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶する記憶装置と、を含む音声を認識するための電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサが請求項1~6のいずれか一項に記載の方法を実施する、音声を認識するための電子機器。
請求項14:
コンピュータプログラムが記憶されているコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1~6のいずれか一項に記載の方法を実現する、コンピュータ可読記憶媒体。
Claims (11)
- 音声フレームが検出されたことに応答して、リアルタイムで前記音声フレームを第1のテキストに変換して現在のテキストとするステップと、
以前に保存されていた履歴テキストが存在しない場合、前記第1のテキストを意味解析モデルに入力し、第1の解析結果を取得するステップと、
前記第1の解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して音声認識を完了するステップと、
前記有効な意図のスロットに対応する命令を出力するステップと、
前記第1の解析結果に有効な意図のスロットが含まれない場合、前記第1のテキストを履歴テキストとして保存し、新しい音声フレームを引き続き検出して第2のテキストに変換して現在のテキストとし、前記履歴テキストと前記第2のテキストとをスプライシングするステップと、
前記履歴テキストと前記第2のテキストとのスプライシングに失敗した場合、前記履歴テキストを前記第2のテキストにリセットし、前記第2のテキストのみを前記意味解析モデルに入力して第2の解析結果を取得するステップと
を含む、音声を認識するための方法。 - 前記方法は、
前記第2の解析結果に有効な意図のスロットが含まれない場合、新しい音声フレームを引き続き検出して現在のテキストとし、音声エンドポイントの検出の終了時間を遅延させるステップと、
前記第2の解析結果に有効な意図のスロットが含まれる場合、有効な意図のスロットに対応する命令を出力して前記履歴テキストを空にするステップと
をさらに含む、請求項1に記載の方法。 - 前記方法は、
前記履歴テキストと前記第2のテキストとのスプライシングに成功した場合、スプライシング後のテキストを前記意味解析モデルに入力し、第3の新しい解析結果を取得するステップと、
前記第3の解析結果に有効な意図のスロットが含まれない場合、前記スプライシング後のテキストを前記履歴テキストとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出の終了時間を遅延させるステップと、
前記第3の解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して音声認識を完了し、履歴テキストを空にし、有効な意図のスロットに対応する命令を出力するステップと
をさらに含む、請求項1に記載の方法。 - 前記方法は、
前記第1の解析結果、前記第2の解析結果および前記第3の解析結果が有効な意図のスロットを含むとともに一定の結果である場合、それぞれの解析結果をキャッシュ命令とし、キャッシュ命令と現在のテキストとの対応関係テーブルを記憶するステップと、
解析すべきテキストが取得されたことに応答して、解析すべきテキストと前記対応関係テーブルとをマッチングするステップと、
マッチングに成功した場合、意味解析モデルを介さずに、前記解析すべきテキストに対応するキャッシュ命令を直接返すステップと
をさらに含む、請求項3に記載の方法。 - 音声フレームが検出されたことに応答して、リアルタイムで前記音声フレームを第1のテキストに変換して現在のテキストとするように構成された変換ユニットと、
以前に保存されていた履歴テキストが存在しない場合、前記第1のテキストを意味解析モデルに入力し、第1の解析結果を取得するように構成された解析ユニットと、
前記第1の解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して音声認識を完了するように構成された判断ユニットと、
前記有効な意図のスロットに対応する命令を出力するように構成された出力ユニットと、
前記第1の解析結果に有効な意図のスロットが含まれない場合、前記第1のテキストを履歴テキストとして保存し、新しい音声フレームを引き続き検出して第2のテキストに変換して現在のテキストとし、前記履歴テキストと前記第2のテキストとをスプライシングし、前記履歴テキストと前記第2のテキストとのスプライシングに失敗した場合、前記履歴テキストを前記第2のテキストにリセットし、前記第2のテキストのみを前記意味解析モデルに入力して第2の解析結果を取得するように構成されたスプライシングユニットと
を含む、音声を認識するための装置。 - 前記スプライシングユニットはさらに、
前記第2の解析結果に有効な意図のスロットが含まれない場合、新しい音声フレームを引き続き検出して現在のテキストとし、音声エンドポイントの検出の終了時間を遅延させ、
前記第2の解析結果に有効な意図のスロットが含まれる場合、有効な意図のスロットに対応する命令を出力して前記履歴テキストを空にするように構成される、請求項5に記載の装置。 - 前記スプライシングユニットはさらに、
前記履歴テキストと前記第2のテキストとのスプライシングに成功した場合、スプライシング後のテキストを前記意味解析モデルに入力し、第3の解析結果を取得し、
前記第3の解析結果に有効な意図のスロットが含まれない場合、前記スプライシング後のテキストを前記履歴テキストとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出の終了時間を遅延させ、
前記第3の解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して音声認識を完了し、履歴テキストを空にし、有効な意図のスロットに対応する命令を出力するように構成されている、請求項5に記載の装置。 - 前記装置は、
前記第1の解析結果、前記第2の解析結果および前記第3の解析結果が有効な意図のスロットを含むとともに一定の結果である場合、それぞれの解析結果をキャッシュ命令とし、キャッシュ命令と現在のテキストとの対応関係テーブルを記憶し、
解析すべきテキストが取得されたことに応答して、解析すべきテキストと前記対応関係テーブルとをマッチングし、
マッチングに成功した場合、意味解析モデルを介さずに、前記解析すべきテキストに対応するキャッシュ命令を直接返すように構成されたキャッシュユニットをさらに含む、請求項7に記載の装置。 - 1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶する記憶装置と、
を含む音声を認識するための電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサが請求項1~4のいずれか一項に記載の方法を実施する、音声を認識するための電子機器。 - コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1~4のいずれか一項に記載の方法を実現する、コンピュータ可読記憶媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1~4のいずれか一項に記載の方法を実現する、コンピュータプログラム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010143037.5A CN113362828B (zh) | 2020-03-04 | 2020-03-04 | 用于识别语音的方法和装置 |
| CN202010143037.5 | 2020-03-04 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021140134A JP2021140134A (ja) | 2021-09-16 |
| JP7365985B2 true JP7365985B2 (ja) | 2023-10-20 |
Family
ID=72474202
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020157479A Active JP7365985B2 (ja) | 2020-03-04 | 2020-09-18 | 音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US11416687B2 (ja) |
| EP (1) | EP3876231A1 (ja) |
| JP (1) | JP7365985B2 (ja) |
| CN (1) | CN113362828B (ja) |
Families Citing this family (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111667831B (zh) * | 2020-06-08 | 2022-04-26 | 中国民航大学 | 基于管制员指令语义识别的飞机地面引导系统及方法 |
| CN114021576A (zh) * | 2021-10-27 | 2022-02-08 | 四川启睿克科技有限公司 | 一种基于文本的自然语言理解的决策方法 |
| CN113903342B (zh) * | 2021-10-29 | 2022-09-13 | 镁佳(北京)科技有限公司 | 一种语音识别纠错方法及装置 |
| CN114078474A (zh) * | 2021-11-09 | 2022-02-22 | 京东科技信息技术有限公司 | 基于多模态特征的语音对话处理方法、装置和电子设备 |
| CN114299941B (zh) * | 2021-11-12 | 2024-08-06 | 北京百度网讯科技有限公司 | 语音交互的方法、装置、电子设备及存储介质 |
| CN114171029B (zh) * | 2021-12-07 | 2025-03-14 | 广州虎牙科技有限公司 | 音频识别方法、装置、电子设备和可读存储介质 |
| CN114420096B (zh) * | 2022-01-17 | 2026-02-10 | 广州小鹏汽车科技有限公司 | 语音交互方法及其装置、车辆和存储介质 |
| US12322376B2 (en) * | 2022-01-20 | 2025-06-03 | Google Llc | Personalized speech query endpointing based on prior interaction(s) involving a specific phrase preceding an endpoint |
| CN114582333A (zh) * | 2022-02-21 | 2022-06-03 | 中国第一汽车股份有限公司 | 语音识别方法、装置、电子设备及存储介质 |
| CN114662500A (zh) * | 2022-03-18 | 2022-06-24 | 支付宝(杭州)信息技术有限公司 | 一种人机交互方法、装置及电子设备 |
| CN115101075B (zh) * | 2022-05-05 | 2024-09-27 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法以及相关装置 |
| CN114898755B (zh) * | 2022-07-14 | 2023-01-17 | 科大讯飞股份有限公司 | 语音处理方法及相关装置、电子设备、存储介质 |
| CN115457959B (zh) * | 2022-11-08 | 2023-02-10 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器及计算机可读存储介质 |
| CN116312521A (zh) * | 2023-03-20 | 2023-06-23 | 长城汽车股份有限公司 | 语音识别方法、装置、语音识别设备及车辆 |
| CN119785791B (zh) * | 2025-03-10 | 2025-06-27 | 科大讯飞股份有限公司 | 语音交互方法及相关装置、设备、系统和存储介质 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003216179A (ja) | 2002-01-24 | 2003-07-30 | Nec Corp | 音声認識システム |
| JP2017516153A (ja) | 2014-05-20 | 2017-06-15 | アマゾン テクノロジーズ インコーポレイテッド | 以前の対話行為を使用する自然言語処理における文脈解釈 |
| JP2018504623A (ja) | 2015-09-03 | 2018-02-15 | グーグル エルエルシー | 強化された発話エンドポイント指定 |
| JP2018151631A (ja) | 2017-03-10 | 2018-09-27 | サウンドハウンド,インコーポレイテッド | ドメイン曖昧性除去を含む音声対応システム |
| WO2019031268A1 (ja) | 2017-08-09 | 2019-02-14 | ソニー株式会社 | 情報処理装置、及び情報処理方法 |
| JP2019534492A (ja) | 2016-08-18 | 2019-11-28 | ハイパーコネクト インコーポレイテッド | 通訳装置及び方法(device and method of translating a language into another language) |
Family Cites Families (34)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6138100A (en) * | 1998-04-14 | 2000-10-24 | At&T Corp. | Interface for a voice-activated connection system |
| US6813603B1 (en) * | 2000-01-26 | 2004-11-02 | Korteam International, Inc. | System and method for user controlled insertion of standardized text in user selected fields while dictating text entries for completing a form |
| US6865528B1 (en) * | 2000-06-01 | 2005-03-08 | Microsoft Corporation | Use of a unified language model |
| US6964023B2 (en) | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
| JP3795350B2 (ja) * | 2001-06-29 | 2006-07-12 | 株式会社東芝 | 音声対話装置、音声対話方法及び音声対話処理プログラム |
| US9318108B2 (en) * | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| US8296151B2 (en) * | 2010-06-18 | 2012-10-23 | Microsoft Corporation | Compound gesture-speech commands |
| US11068657B2 (en) * | 2010-06-28 | 2021-07-20 | Skyscanner Limited | Natural language question answering system and method based on deep semantics |
| US9437186B1 (en) | 2013-06-19 | 2016-09-06 | Amazon Technologies, Inc. | Enhanced endpoint detection for speech recognition |
| JP2015099253A (ja) * | 2013-11-19 | 2015-05-28 | 東芝テック株式会社 | 音声認識装置、音声認識方法、音声認識プログラム |
| US10614799B2 (en) * | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
| US9818404B2 (en) * | 2015-12-22 | 2017-11-14 | Intel Corporation | Environmental noise detection for dialog systems |
| US10152965B2 (en) * | 2016-02-03 | 2018-12-11 | Google Llc | Learning personalized entity pronunciations |
| US10140988B2 (en) * | 2016-03-01 | 2018-11-27 | Microsoft Technology Licensing, Llc | Speech recognition |
| CN107665706B (zh) * | 2016-07-29 | 2021-05-04 | 科大讯飞股份有限公司 | 快速语音交互方法及系统 |
| US10331791B2 (en) * | 2016-11-23 | 2019-06-25 | Amazon Technologies, Inc. | Service for developing dialog-driven applications |
| KR102847032B1 (ko) * | 2017-01-17 | 2025-08-20 | 삼성전자주식회사 | 발화 완료 감지 방법 및 이를 구현한 전자 장치 |
| CN106874259B (zh) | 2017-02-23 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种基于状态机的语义解析方法及装置、设备 |
| KR102398649B1 (ko) * | 2017-03-28 | 2022-05-17 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 동작 방법 |
| CN107146602B (zh) * | 2017-04-10 | 2020-10-02 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
| CN107195303B (zh) * | 2017-06-16 | 2021-08-20 | 云知声智能科技股份有限公司 | 语音处理方法及装置 |
| CN107919130B (zh) * | 2017-11-06 | 2021-12-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
| CN107992587A (zh) * | 2017-12-08 | 2018-05-04 | 北京百度网讯科技有限公司 | 一种浏览器的语音交互方法、装置、终端和存储介质 |
| US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
| US10943606B2 (en) | 2018-04-12 | 2021-03-09 | Qualcomm Incorporated | Context-based detection of end-point of utterance |
| KR102096590B1 (ko) * | 2018-08-14 | 2020-04-06 | 주식회사 알티캐스트 | Gui 음성제어 장치 및 방법 |
| CN109447819A (zh) * | 2018-09-03 | 2019-03-08 | 中国平安人寿保险股份有限公司 | 一种智能话术提醒方法、系统及终端设备 |
| US10825450B2 (en) * | 2018-10-25 | 2020-11-03 | Motorola Solutions, Inc. | Methods and systems for providing a response to an audio query where the response is determined to have a public safety impact |
| CN109599130B (zh) * | 2018-12-10 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 收音方法、装置及存储介质 |
| CN109754809B (zh) * | 2019-01-29 | 2021-02-09 | 北京猎户星空科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
| CN109979437B (zh) * | 2019-03-01 | 2022-05-20 | 阿波罗智联(北京)科技有限公司 | 语音识别方法、装置、设备和存储介质 |
| CN110287303B (zh) * | 2019-06-28 | 2021-08-20 | 北京猎户星空科技有限公司 | 人机对话处理方法、装置、电子设备及存储介质 |
| US11551665B2 (en) * | 2019-09-12 | 2023-01-10 | Oracle International Corporation | Dynamic contextual dialog session extension |
| US11749265B2 (en) * | 2019-10-04 | 2023-09-05 | Disney Enterprises, Inc. | Techniques for incremental computer-based natural language understanding |
-
2020
- 2020-03-04 CN CN202010143037.5A patent/CN113362828B/zh active Active
- 2020-09-10 US US17/017,510 patent/US11416687B2/en active Active
- 2020-09-14 EP EP20195910.3A patent/EP3876231A1/en not_active Ceased
- 2020-09-18 JP JP2020157479A patent/JP7365985B2/ja active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003216179A (ja) | 2002-01-24 | 2003-07-30 | Nec Corp | 音声認識システム |
| JP2017516153A (ja) | 2014-05-20 | 2017-06-15 | アマゾン テクノロジーズ インコーポレイテッド | 以前の対話行為を使用する自然言語処理における文脈解釈 |
| JP2018504623A (ja) | 2015-09-03 | 2018-02-15 | グーグル エルエルシー | 強化された発話エンドポイント指定 |
| JP2019534492A (ja) | 2016-08-18 | 2019-11-28 | ハイパーコネクト インコーポレイテッド | 通訳装置及び方法(device and method of translating a language into another language) |
| JP2018151631A (ja) | 2017-03-10 | 2018-09-27 | サウンドハウンド,インコーポレイテッド | ドメイン曖昧性除去を含む音声対応システム |
| WO2019031268A1 (ja) | 2017-08-09 | 2019-02-14 | ソニー株式会社 | 情報処理装置、及び情報処理方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN113362828A (zh) | 2021-09-07 |
| US20210279418A1 (en) | 2021-09-09 |
| JP2021140134A (ja) | 2021-09-16 |
| EP3876231A1 (en) | 2021-09-08 |
| CN113362828B (zh) | 2022-07-05 |
| US11416687B2 (en) | 2022-08-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7365985B2 (ja) | 音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
| US11887604B1 (en) | Speech interface device with caching component | |
| CN110047481B (zh) | 用于语音识别的方法和装置 | |
| JP7113047B2 (ja) | 人工知能基盤の自動応答方法およびシステム | |
| CN112259089B (zh) | 语音识别方法及装置 | |
| CN110689877A (zh) | 一种语音结束端点检测方法及装置 | |
| CN105654943A (zh) | 一种语音唤醒方法、装置及系统 | |
| WO2017076222A1 (zh) | 语音识别方法及装置 | |
| CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
| CN110995943B (zh) | 多用户流式语音识别方法、系统、设备及介质 | |
| CN101542592A (zh) | 关键词提取装置 | |
| JP7230806B2 (ja) | 情報処理装置、及び情報処理方法 | |
| US12243517B1 (en) | Utterance endpointing in task-oriented conversational systems | |
| KR102948992B1 (ko) | 자동화된 어시스턴트 응답 제시의 핫워드 프리 선점 | |
| CN114330371A (zh) | 基于提示学习的会话意图识别方法、装置和电子设备 | |
| CN109887490A (zh) | 用于识别语音的方法和装置 | |
| CN113555016A (zh) | 语音交互方法、电子设备及可读存储介质 | |
| CN118020100A (zh) | 语音数据的处理方法及装置 | |
| CN117275467A (zh) | 一种噪音环境下的语音指令识别方法及装置 | |
| CN115440220A (zh) | 一种话语权切换方法、装置、设备和存储介质 | |
| CN113763921B (zh) | 用于纠正文本的方法和装置 | |
| CN120071971A (zh) | 一种人机交互方法、装置、设备及介质 | |
| JP2015052743A (ja) | 情報処理装置、情報処理装置の制御方法、及びプログラム | |
| TW201828279A (zh) | 語音識別方法及裝置 | |
| CN116153310A (zh) | 语音对话交互方法、系统、电子设备和存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201224 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201224 |
|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20211101 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220113 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220704 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220906 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220913 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20220915 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220927 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221209 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230407 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230705 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231006 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231010 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7365985 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |