JP2020003774A - 音声を処理する方法及び装置 - Google Patents
音声を処理する方法及び装置 Download PDFInfo
- Publication number
- JP2020003774A JP2020003774A JP2019047290A JP2019047290A JP2020003774A JP 2020003774 A JP2020003774 A JP 2020003774A JP 2019047290 A JP2019047290 A JP 2019047290A JP 2019047290 A JP2019047290 A JP 2019047290A JP 2020003774 A JP2020003774 A JP 2020003774A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- input
- received
- interactive device
- spoken dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
Claims (12)
- 音声を処理する方法であって、
目標音声対話装置のセットのうち少なくとも一つの音声対話装置が入力音声を受信したと確定されたことに応答して、前記少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置が受信した入力音声の音声特徴を取得するステップと、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基いて、前記少なくとも一つの音声対話装置から、音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させるステップと、
を含む方法。 - 前記音声特徴は、ボリュームを含み、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から、音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させるステップは、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で、前記少なくとも一つの音声対話装置から、所定の第1の数の音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させるステップを含む、請求項1に記載の方法。 - 前記音声特徴は音圧を含み、
前記の前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させるステップは、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音圧の大きい順で、前記少なくとも一つの音声対話装置から所定の第2の数の音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させるステップを含む、請求項1に記載の方法。 - 前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から音声対話装置を選択し、された音声対話装置に前記入力音声を処理させるステップは、
前記入力音声に所定のウェークアップワードが含まれると確定されたことに応答して、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップすることにより、ウェークアップされた音声対話装置に前記入力音声を処理させるステップを含む請求項1に記載の方法。 - 前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させるステップの前に、前記方法は、更に、
前記入力音声を解析して解析結果を取得するステップを含み、
前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させるステップは、
前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置が前記解析結果により指示された操作を実行するように、選択された音声対話装置へ前記解析結果を送信することを含む請求項1から4の何れか一つに記載の方法。 - 音声を処理する装置であって、
目標音声対話装置のセットのうち少なくとも一つの音声対話装置が入力音声を受信したと確定されたことに応答して、前記少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得するように配置される取得ユニットと、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させるように配置される選択ユニットと、を備える装置。 - 前記音声特徴はボリュームを含み、
前記選択ユニットは、更に、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させる時、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で前記少なくとも一つの音声対話装置から、所定の第1の数の音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させるように配置される、請求項6に記載の装置。 - 前記音声特徴は音圧を含み、
前記選択ユニットは、更に、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させる時、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音圧の大きい順で前記少なくとも一つの音声対話装置から所定の第二数の音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させるように配置される、請求項6に記載の装置。 - 前記選択ユニットは、更に、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させる時、
前記入力音声に所定のウェークアップワードが含まれると確定されたことに応答して、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップすることにより、ウェークアップされた音声対話装置に前記入力音声を処理させるように配置される、請求項6に記載の装置。 - 前記装置は、
前記入力音声を解析して解析結果を取得するように配置される解析ユニットを更に備え、
前記選択ユニットは、更に、
前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させる時、
前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置が前記解析結果により指示された操作を実行するように、選択された音声対話装置へ前記解析結果を送信するように配置される、請求項6から9の何れか一つに記載の装置。 - 一つ又は複数のプロセッサと、
一つ又は複数のプログラムが記憶される記憶装置と、を備え、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項1から5の何れか一つに記載の方法を実現させる電子装置。 - コンピュータプログラムが記憶されており、当該コンピュータプログラムがプロセッサにより実行されると、請求項1から5の何れか一つに記載の方法を実現させるコンピュータに読取可能な媒体。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201810718087.4A CN108922528B (zh) | 2018-06-29 | 2018-06-29 | 用于处理语音的方法和装置 |
| CN201810718087.4 | 2018-06-29 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2020003774A true JP2020003774A (ja) | 2020-01-09 |
| JP6783339B2 JP6783339B2 (ja) | 2020-11-11 |
Family
ID=64423452
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019047290A Active JP6783339B2 (ja) | 2018-06-29 | 2019-03-14 | 音声を処理する方法及び装置 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US11244686B2 (ja) |
| JP (1) | JP6783339B2 (ja) |
| CN (1) | CN108922528B (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2023286775A1 (ja) * | 2021-07-13 | 2023-01-19 | 株式会社ニコン | 音声認識装置、音声認識方法、音声認識プログラム、撮像装置 |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111354336B (zh) * | 2018-12-20 | 2023-12-19 | 美的集团股份有限公司 | 分布式语音交互方法、装置、系统及家电设备 |
| CN109841214B (zh) | 2018-12-25 | 2021-06-01 | 百度在线网络技术(北京)有限公司 | 语音唤醒处理方法、装置和存储介质 |
| CN111653284B (zh) * | 2019-02-18 | 2023-08-11 | 阿里巴巴集团控股有限公司 | 交互以及识别方法、装置、终端设备及计算机存储介质 |
| CN109841207A (zh) * | 2019-03-01 | 2019-06-04 | 深圳前海达闼云端智能科技有限公司 | 一种交互方法及机器人、服务器和存储介质 |
| WO2021002493A1 (ko) * | 2019-07-01 | 2021-01-07 | 엘지전자 주식회사 | 지능형 게이트웨이 장치 및 그를 포함하는 제어 시스템 |
| CN110610720B (zh) * | 2019-09-19 | 2022-02-25 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2017058293A1 (en) * | 2015-09-30 | 2017-04-06 | Apple Inc. | Intelligent device identification |
| JP2017520008A (ja) * | 2014-10-09 | 2017-07-20 | グーグル インコーポレイテッド | 複数のデバイス上でのホットワード検出 |
| JP2017537361A (ja) * | 2014-09-12 | 2017-12-14 | アップル インコーポレイテッド | 発語トリガを常時リッスンするための動的閾値 |
| JP2018512619A (ja) * | 2015-03-27 | 2018-05-17 | クアルコム,インコーポレイテッド | 発話の方向に基づく電子デバイスの制御 |
Family Cites Families (27)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9342516B2 (en) * | 2011-05-18 | 2016-05-17 | Microsoft Technology Licensing, Llc | Media presentation playback annotation |
| JP2013153307A (ja) * | 2012-01-25 | 2013-08-08 | Sony Corp | 音声処理装置および方法、並びにプログラム |
| US20130238326A1 (en) * | 2012-03-08 | 2013-09-12 | Lg Electronics Inc. | Apparatus and method for multiple device voice control |
| US9892729B2 (en) * | 2013-05-07 | 2018-02-13 | Qualcomm Incorporated | Method and apparatus for controlling voice activation |
| KR102371770B1 (ko) * | 2015-01-19 | 2022-03-07 | 삼성전자주식회사 | 음성 인식 장지 및 방법 |
| WO2016152007A1 (ja) * | 2015-03-25 | 2016-09-29 | パナソニックIpマネジメント株式会社 | 画像処理装置およびこれを備えた監視システムならびに画像処理方法 |
| EP3200187A1 (en) * | 2016-01-28 | 2017-08-02 | Flex Ltd. | Human voice feedback system |
| CN106452987B (zh) * | 2016-07-01 | 2019-07-30 | 广东美的制冷设备有限公司 | 一种语音控制方法及装置、设备 |
| CN107622767B (zh) * | 2016-07-15 | 2020-10-02 | 青岛海尔智能技术研发有限公司 | 家电系统的语音控制方法与家电控制系统 |
| US10134399B2 (en) * | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
| KR102575634B1 (ko) * | 2016-07-26 | 2023-09-06 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
| US10832684B2 (en) * | 2016-08-31 | 2020-11-10 | Microsoft Technology Licensing, Llc | Personalization of experiences with digital assistants in communal settings through voice and query processing |
| US10390096B2 (en) * | 2016-09-16 | 2019-08-20 | DISH Technologies L.L.C. | Collecting media consumer data |
| AU2017327003B2 (en) * | 2016-09-19 | 2019-05-23 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
| CN107016993A (zh) * | 2017-05-15 | 2017-08-04 | 成都铅笔科技有限公司 | 一种智能家居的语音交互系统及方法 |
| US20180336892A1 (en) * | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
| CN107195305B (zh) * | 2017-07-21 | 2021-01-19 | 合肥联宝信息技术有限公司 | 一种信息处理方法及电子设备 |
| CN107610700A (zh) * | 2017-09-07 | 2018-01-19 | 唐冬香 | 一种基于mems麦克风的终端控制方法和系统 |
| CN107680591A (zh) * | 2017-09-21 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 基于车载终端的语音交互方法、装置及其设备 |
| US10466962B2 (en) * | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
| CN107895578B (zh) * | 2017-11-15 | 2021-07-20 | 百度在线网络技术(北京)有限公司 | 语音交互方法和装置 |
| EP4191412B1 (en) * | 2017-12-08 | 2026-02-04 | Google LLC | Signal processing coordination among digital voice assistant computing devices |
| CN108461084A (zh) * | 2018-03-01 | 2018-08-28 | 广东美的制冷设备有限公司 | 语音识别系统控制方法、控制装置及计算机可读存储介质 |
| WO2019171732A1 (ja) * | 2018-03-08 | 2019-09-12 | ソニー株式会社 | 情報処理装置、情報処理方法、プログラム及び情報処理システム |
| US11145299B2 (en) * | 2018-04-19 | 2021-10-12 | X Development Llc | Managing voice interface devices |
| US11488590B2 (en) * | 2018-05-09 | 2022-11-01 | Staton Techiya Llc | Methods and systems for processing, storing, and publishing data collected by an in-ear device |
| JP7014072B2 (ja) * | 2018-07-17 | 2022-02-01 | 日本電信電話株式会社 | 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム |
-
2018
- 2018-06-29 CN CN201810718087.4A patent/CN108922528B/zh active Active
-
2019
- 2019-03-14 JP JP2019047290A patent/JP6783339B2/ja active Active
- 2019-03-15 US US16/355,164 patent/US11244686B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017537361A (ja) * | 2014-09-12 | 2017-12-14 | アップル インコーポレイテッド | 発語トリガを常時リッスンするための動的閾値 |
| JP2017520008A (ja) * | 2014-10-09 | 2017-07-20 | グーグル インコーポレイテッド | 複数のデバイス上でのホットワード検出 |
| JP2018512619A (ja) * | 2015-03-27 | 2018-05-17 | クアルコム,インコーポレイテッド | 発話の方向に基づく電子デバイスの制御 |
| WO2017058293A1 (en) * | 2015-09-30 | 2017-04-06 | Apple Inc. | Intelligent device identification |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2023286775A1 (ja) * | 2021-07-13 | 2023-01-19 | 株式会社ニコン | 音声認識装置、音声認識方法、音声認識プログラム、撮像装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6783339B2 (ja) | 2020-11-11 |
| US11244686B2 (en) | 2022-02-08 |
| CN108922528A (zh) | 2018-11-30 |
| CN108922528B (zh) | 2020-10-23 |
| US20200005793A1 (en) | 2020-01-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6783339B2 (ja) | 音声を処理する方法及び装置 | |
| US12562167B2 (en) | Localized wakeword verification | |
| KR102660922B1 (ko) | 복수의 지능형 개인 비서 서비스를 위한 관리 계층 | |
| CN107623614B (zh) | 用于推送信息的方法和装置 | |
| CN107895578B (zh) | 语音交互方法和装置 | |
| JP2022126805A (ja) | ニューラルネットワークモデルを用いた選択的ウェイクワード検出のシステム及び方法 | |
| CN107112014B (zh) | 在基于语音的系统中的应用焦点 | |
| EP3522151B1 (en) | Method and device for processing dual-source audio data | |
| CN107423364B (zh) | 基于人工智能的回答话术播报方法、装置及存储介质 | |
| JP2019204074A (ja) | 音声対話方法、装置及びシステム | |
| US20200265843A1 (en) | Speech broadcast method, device and terminal | |
| US9799329B1 (en) | Removing recurring environmental sounds | |
| JP7618811B2 (ja) | 単一の発話におけるデバイスまたはアシスタント固有ホットワードの組合せ | |
| TW202006532A (zh) | 播報語音的確定方法、裝置和設備 | |
| CN105551498A (zh) | 一种语音识别的方法及装置 | |
| US20120053937A1 (en) | Generalizing text content summary from speech content | |
| US20240105167A1 (en) | Memory allocation for keyword spotting engines | |
| CN108986814A (zh) | 一种唤醒应用服务的方法及装置 | |
| CN111161734A (zh) | 基于指定场景的语音交互方法及装置 | |
| CN112700770A (zh) | 语音控制方法、音箱设备、计算设备和存储介质 | |
| JP2016045253A (ja) | データ構造、音声対話装置及び電子機器 | |
| TW202418138A (zh) | 語言資料處理系統及方法與電腦程式產品 | |
| CN112307161B (zh) | 用于播放音频的方法和装置 | |
| WO2023005193A1 (zh) | 字幕显示方法及装置 | |
| Coucke et al. | On-device voice control on sonos speakers |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190411 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190411 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200424 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200602 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200828 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201021 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6783339 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |