JP2017506767A - 話者辞書に基づく発話モデル化のためのシステムおよび方法 - Google Patents
話者辞書に基づく発話モデル化のためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2017506767A JP2017506767A JP2016554210A JP2016554210A JP2017506767A JP 2017506767 A JP2017506767 A JP 2017506767A JP 2016554210 A JP2016554210 A JP 2016554210A JP 2016554210 A JP2016554210 A JP 2016554210A JP 2017506767 A JP2017506767 A JP 2017506767A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- utterance
- noise
- speech signal
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本出願は、2014年2月27日に出願された米国仮特許出願第61/945,691号、「SYSTEMS AND METHODS FOR SPEAKER DICTIONARY BASED SPEECH MODELING」に関し、その優先権を主張する。
104 雑音のある発話信号
106 リアルタイム雑音基準決定モジュール
108 リアルタイム雑音基準
110 リアルタイム雑音辞書決定モジュール
112 リアルタイム雑音辞書
114 第1の発話辞書
116 残余雑音低減モジュール
118 残余雑音抑制発話信号
120 第2の発話辞書
122 再構築モジュール
124 再構築された発話信号
126 第1のモデル化段階
128 第2のモデル化段階
200 方法
304 入力
312 リアルタイム雑音辞書
314 第1の発話辞書Ws1
318 残余雑音抑制発話信号
320 第2の発話辞書Ws2
324 再構築された発話信号
326 第1のモデル化段階
328 第2のモデル化段階
330 前処理モジュール
332 事前増強された入力
334 話者認識モジュール
336 発話辞書選択モジュール
338 話者固有発話辞書
340 Nに基づく発話/雑音モデル化モジュール
342 再構築誤差
344 信号選択モジュール
346 出力
348 オフライン辞書学習モジュール
350 話者辞書データベース
352 雑音抑制モジュール
402 電子デバイス
404 雑音のある発話信号
406 リアルタイム雑音基準決定モジュール
408 リアルタイムの雑音基準
410 リアルタイム雑音辞書決定モジュール
412 リアルタイム雑音辞書
414 第1の発話辞書
416 残余雑音低減モジュール
418 残余雑音抑制発話信号
420 第2の発話辞書
424 再構築された発話信号
452 第1の発話辞書生成モジュール
454 第2の発話辞書生成モジュール
456 音高決定モジュール
458 音高固有辞書決定モジュール
460 サブバンド音高固有辞書決定モジュール
462 サブバンド決定モジュール
464 発話モデル化および再構築モジュール
500 方法
666 周波数
668 時間
766 周波数
768 時間
770 残余雑音
772 欠けている高調波倍音および損なわれた発話エンベロープ
866 周波数
868 時間
966 周波数
968 時間
1004 雑音のある発話
1008 リアルタイムの適合された雑音基準
1010 雑音辞書モジュール
1024 増強された発話
1032 NS発話大きさのスペクトル
1034 声紋モジュール
1036 発話辞書モジュール
1040 NMFに基づく発話/雑音モデル化モジュール
1048 清澄な話者固有辞書訓練モジュール
1050 話者固有辞書データベース
1052 雑音抑制モジュール
1166a 周波数
1166b 周波数
1166c 周波数
1166d 周波数
1168b 時間
1168c 時間
1168d 時間
1168e 時間
1174a グラフA
1174b グラフB
1174c グラフC
1174d グラフD
1174e グラフE
1176 辞書番号
1178 辞書番号
1204 入力
1212 リアルタイム雑音辞書
1214 低ランク発話辞書Ws1
1220 音高エンベロープ固有発話辞書Ws2
1224 再構築された発話信号
1226 第1のモデル化段階
1228 第2のモデル化段階
1230 前処理モジュール
1232 事前増強された入力
1234 話者認識モジュール
1236 発話辞書選択モジュール
1238 話者固有発話辞書
1240 NMFに基づく発話/雑音モデル化モジュール
1242 再構築誤差
1244 信号選択モジュール
1246 出力
1248 オフライン辞書学習モジュール
1250 話者辞書データベース
1252 雑音抑制モジュール
1314 第1の発話辞書
1380 話者固有の清澄な発話の大きさのスペクトル
1382 NMFに基づく発話辞書学習モジュール
1484 周波数
1486 辞書の番号
1520 第2の発話辞書
1580 話者固有の清澄な発話の大きさのスペクトル
1588 音高/調波性推定モジュール
1701 辞書
1703 ソース分離モジュール
1704 入力
1705 管理されたNMF発話分離
1707 再構築モジュール
1709 Wienerフィルタリング発話再構築モジュール
1711 有効化係数H
1712 雑音辞書
1713 初期化されたH
1714 第1の発話辞書
1715 適合されたH
1718 出力発話の大きさ
1728 第2のモデル化段階
1730 前処理モジュール
1732 事前増強された入力
1750 話者固有辞書データベース
1752 雑音抑制モジュール
1804 入力
1808 雑音基準
1812 雑音辞書
1817 FFT
1819 NS出力の位相
1821 NS出力の大きさ
1823 主要チャネル入力X
1830 前処理
1832 事前増強された入力
1852 雑音抑制
1901 辞書
1903 分離モジュール
1905 管理されたNMF発話分離
1911 有効化係数
1912 雑音辞書
1913 初期化されたH
1914 発話辞書
1915 適合されたH
1932 事前に増強された入力
2001 辞書
2007 再構築モジュール
2009 Wienerフィルタリング発話再構築モジュール
2011 適合された有効化係数
2012 雑音辞書
2014 発話辞書
2018 出力発話の大きさ
2025 発話有効化係数
2027 雑音有効化係数
2032 事前に増強された入力
2104 主要入力
2118 損なわれた発話の大きさ
2126 第1の段階の処理
2129 NS出力
2131 音高固有辞書
2133 サブバンド発話の大きさ
2135 サブバンド音高固有辞書
2137 管理されたサブバンドNMF発話モデル化モジュール
2138 話者固有辞書
2139 適合されたH
2141 発話再構築モジュール
2142 再構築誤差
2144 最終的な増強された発話
2148 オフライン辞書学習
2150 話者辞書データベース
2156 音高推定モジュール
2162 ビンごとのSNR
2202 ワイヤレス通信デバイス
2243 スピーカー
2245 イヤピース
2247 出力ジャック
2249 マイクロフォン
2251 オーディオコーデック
2253 アプリケーションプロセッサ
2255 ベースバンドプロセッサ
2257 高周波送受信機
2259 電力増幅器
2261 アンテナ
2263 電力管理回路
2265 電池
2267 入力デバイス
2269 出力デバイス
2271 アプリケーションメモリ
2273 ディスプレイコントローラ
2275 ディスプレイ
2277 ベースバンドメモリ
2302 電子デバイス
2379 メモリ
2381 データ
2381a データ
2383 命令
2385 バスシステム
2387 アンテナ
2389 送受信機
2391 送信機
2393 受信機
2395 プロセッサ
2395a 命令
Claims (30)
- 電子デバイスによる発話モデル化のための方法であって、
雑音のある発話信号に基づいて、リアルタイムの雑音基準を取得するステップと、
前記リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書を取得するステップと、
第1の発話辞書および第2の発話辞書を取得するステップと、
第1のモデル化段階において、残余雑音抑制発話信号を生成するために、前記リアルタイム雑音辞書および前記第1の発話辞書に基づいて残余雑音を低減するステップと、
第2のモデル化段階において、前記残余雑音抑制発話信号および前記第2の発話辞書に基づいて、再構築された発話信号を生成するステップとを備える、方法。 - 前記第1のモデル化段階が非負値行列因子分解(NMF)に基づく、請求項1に記載の方法。
- 前記第2のモデル化段階が非負値行列因子分解(NMF)に基づく、請求項1に記載の方法。
- 残余雑音を低減するステップが、
前記第1の発話辞書および前記リアルタイム雑音辞書を備える、発話および雑音辞書を確定するステップと、
有効化係数を初期化するステップと、
収束するまで前記有効化係数を更新するステップとを備える、請求項1に記載の方法。 - 前記残余雑音を低減するステップが、
前記第1の発話辞書、前記リアルタイム雑音辞書、適応された発話有効化係数、および適応された雑音有効化係数に基づいて、フィルタを作成するステップと、
前記フィルタおよび事前増強された入力に基づいて、前記残余雑音抑制発話信号を推定するステップとを備える、請求項1に記載の方法。 - 前記再構築された発話信号を生成するステップが、
サブバンド音高固有辞書を確定するステップと、
収束するまで有効化係数を更新するステップと、
音高固有辞書および前記有効化係数に基づいて、前記再構築された発話信号を生成するステップとを備える、請求項1に記載の方法。 - 音高に基づいて、話者固有辞書から前記音高固有辞書を決定するステップと、
ビンごとの信号対雑音比(SNR)に基づいて、前記音高固有辞書から前記サブバンド音高固有辞書を決定するステップとをさらに備える、請求項6に記載の方法。 - 再構築誤差に基づいて、前記再構築された発話信号および前記残余雑音抑制発話信号から出力発話信号を選択するステップをさらに備える、請求項1に記載の方法。
- 前記第1の発話辞書および前記第2の発話辞書が、話者固有発話辞書に基づく、請求項1に記載の方法。
- 前記第1の発話辞書を取得するステップが、
複数の有効化係数および発話基底関数を初期化するステップと、
収束するまでパラメータを更新するステップとを備える、請求項1に記載の方法。 - 前記第2の発話辞書を取得するステップが、
複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定するステップと、
前記話者固有発話の大きさのスペクトルから、調波性閾値を上回る対応する調波性を有する発話スペクトルを選択するステップと、
前記選択された発話スペクトルの各々を対応する音高によって標識するステップとを備える、請求項1に記載の方法。 - 発話モデル化のための電子デバイスであって、
プロセッサと、
前記プロセッサと電子通信しているメモリと、
前記メモリに記憶された命令とを備え、前記命令が、
雑音のある発話信号に基づいて、リアルタイムの雑音基準を取得し、
前記リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書を取得し、
第1の発話辞書および第2の発話辞書を取得し、
第1のモデル化段階において、残余雑音抑制発話信号を生成するために、前記リアルタイム雑音辞書および前記第1の発話辞書に基づいて残余雑音を低減し、
第2のモデル化段階において、前記残余雑音抑制発話信号および前記第2の発話辞書に基づいて、再構築された発話信号を生成する
ように実行可能である、電子デバイス。 - 前記第1のモデル化段階が非負値行列因子分解(NMF)に基づく、請求項12に記載の電子デバイス。
- 前記第2のモデル化段階が非負値行列因子分解(NMF)に基づく、請求項12に記載の電子デバイス。
- 残余雑音を低減するステップが、
前記第1の発話辞書および前記リアルタイム雑音辞書を備える、発話および雑音辞書を確定するステップと、
有効化係数を初期化するステップと、
収束するまで前記有効化係数を更新するステップとを備える、請求項12に記載の電子デバイス。 - 前記残余雑音を低減するステップが、
前記第1の発話辞書、前記リアルタイム雑音辞書、適応された発話有効化係数、および適応された雑音有効化係数に基づいて、フィルタを作成するステップと、
前記フィルタおよび事前増強された入力に基づいて、前記残余雑音抑制発話信号を推定するステップとを備える、請求項12に記載の電子デバイス。 - 前記再構築された発話信号を生成するステップが、
サブバンド音高固有辞書を確定するステップと、
収束するまで有効化係数を更新するステップと、
音高固有辞書および前記有効化係数に基づいて、前記再構築された発話信号を生成するステップとを備える、請求項12に記載の電子デバイス。 - 前記命令がさらに、
音高に基づいて、話者固有辞書から前記音高固有辞書を決定し、
ビンごとの信号対雑音比(SNR)に基づいて、前記音高固有辞書から前記サブバンド音高固有辞書を決定するように実行可能である、請求項17に記載の電子デバイス。 - 前記命令がさらに、再構築誤差に基づいて、前記再構築された発話信号および前記残余雑音抑制発話信号から出力発話信号を選択するように実行可能である、請求項12に記載の電子デバイス。
- 前記第1の発話辞書および前記第2の発話辞書が、話者固有発話辞書に基づく、請求項12に記載の電子デバイス。
- 前記第1の発話辞書を取得するステップが、
複数の有効化係数および発話基底関数を初期化するステップと、
収束するまでパラメータを更新するステップとを備える、請求項12に記載の電子デバイス。 - 前記第2の発話辞書を取得するステップが、
複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定するステップと、
前記話者固有発話の大きさのスペクトルから、調波性閾値を上回る対応する調波性を有する発話スペクトルを選択するステップと、
前記選択された発話スペクトルの各々を対応する音高によって標識するステップとを備える、請求項12に記載の電子デバイス。 - 発話モデル化のためのコンピュータプログラム製品であって、命令を有する非一時的有形コンピュータ可読媒体を備え、前記命令が、
電子デバイスに、雑音のある発話信号に基づいて、リアルタイムの雑音基準を取得させるためのコードと、
前記電子デバイスに、前記リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書を取得させるためのコードと、
前記電子デバイスに、第1の発話辞書および第2の発話辞書を取得させるためのコードと、
前記電子デバイスに、第1のモデル化段階において、残余雑音抑制発話信号を生成するために、前記リアルタイム雑音辞書および前記第1の発話辞書に基づいて残余雑音を低減させるためのコードと、
前記電子デバイスに、第2のモデル化段階において、前記残余雑音抑制発話信号および前記第2の発話辞書に基づいて、再構築された発話信号を生成させるためのコードとを備える、コンピュータプログラム製品。 - 前記再構築された発話信号を生成するステップが、
サブバンド音高固有辞書を確定するステップと、
収束するまで有効化係数を更新するステップと、
音高固有辞書および前記有効化係数に基づいて、前記再構築された発話信号を生成するステップとを備える、請求項23に記載のコンピュータプログラム製品。 - 前記第1の発話辞書を取得するステップが、
複数の有効化係数および発話基底関数を初期化するステップと、
収束するまでパラメータを更新するステップとを備える、請求項23に記載のコンピュータプログラム製品。 - 前記第2の発話辞書を取得するステップが、
複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定するステップと、
前記話者固有発話の大きさのスペクトルから、調波性閾値を上回る対応する調波性を有する発話スペクトルを選択するステップと、
前記選択された発話スペクトルの各々を対応する音高によって標識するステップとを備える、請求項23に記載のコンピュータプログラム製品。 - 発話モデル化のための装置であって、
雑音のある発話信号に基づいて、リアルタイムの雑音基準を取得するための手段と、
前記リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書を取得するための手段と、
第1の発話辞書および第2の発話辞書を取得するための手段と、
第1のモデル化段階において、残余雑音抑制発話信号を生成するために、前記リアルタイム雑音辞書および前記第1の発話辞書に基づいて残余雑音を低減するための手段と、
第2のモデル化段階において、前記残余雑音抑制発話信号および前記第2の発話辞書に基づいて再構築された発話信号を生成するための手段とを備える、装置。 - 前記再構築された発話信号を生成するための前記手段が、
サブバンド音高固有辞書を確定するための手段と、
収束するまで有効化係数を更新するための手段と、
音高固有辞書および前記有効化係数に基づいて、前記再構築された発話信号を生成するための手段とを備える、請求項27に記載の装置。 - 前記第1の発話辞書を取得するための前記手段が、
複数の有効化係数および発話基底関数を初期化するための手段と、
収束するまでパラメータを更新するための手段とを備える、請求項27に記載の装置。 - 前記第2の発話辞書を取得するための前記手段が、
複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定するための手段と、
前記話者固有発話の大きさのスペクトルから、調波性閾値を上回る対応する調波性を有する発話スペクトルを選択するための手段と、
前記選択された発話スペクトルの各々を対応する音高によって標識するための手段とを備える、請求項27に記載の装置。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201461945691P | 2014-02-27 | 2014-02-27 | |
| US61/945,691 | 2014-02-27 | ||
| US14/629,109 US10013975B2 (en) | 2014-02-27 | 2015-02-23 | Systems and methods for speaker dictionary based speech modeling |
| US14/629,109 | 2015-02-23 | ||
| PCT/US2015/017336 WO2015130685A1 (en) | 2014-02-27 | 2015-02-24 | Systems and methods for speaker dictionary based speech modeling |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2017506767A true JP2017506767A (ja) | 2017-03-09 |
| JP2017506767A5 JP2017506767A5 (ja) | 2018-03-29 |
Family
ID=53882822
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016554210A Pending JP2017506767A (ja) | 2014-02-27 | 2015-02-24 | 話者辞書に基づく発話モデル化のためのシステムおよび方法 |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US10013975B2 (ja) |
| EP (1) | EP3111445B1 (ja) |
| JP (1) | JP2017506767A (ja) |
| KR (1) | KR20160125984A (ja) |
| CN (1) | CN106030705A (ja) |
| WO (1) | WO2015130685A1 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2024500746A (ja) * | 2020-12-18 | 2024-01-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 話者固有音声増幅 |
Families Citing this family (22)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9536537B2 (en) * | 2015-02-27 | 2017-01-03 | Qualcomm Incorporated | Systems and methods for speech restoration |
| EP3387648B1 (en) * | 2015-12-22 | 2020-02-12 | Huawei Technologies Duesseldorf GmbH | Localization algorithm for sound sources with known statistics |
| CN106971741B (zh) * | 2016-01-14 | 2020-12-01 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
| CN109644304B (zh) | 2016-08-31 | 2021-07-13 | 杜比实验室特许公司 | 混响环境的源分离 |
| US10528147B2 (en) | 2017-03-06 | 2020-01-07 | Microsoft Technology Licensing, Llc | Ultrasonic based gesture recognition |
| US10276179B2 (en) * | 2017-03-06 | 2019-04-30 | Microsoft Technology Licensing, Llc | Speech enhancement with low-order non-negative matrix factorization |
| US10984315B2 (en) | 2017-04-28 | 2021-04-20 | Microsoft Technology Licensing, Llc | Learning-based noise reduction in data produced by a network of sensors, such as one incorporated into loose-fitting clothing worn by a person |
| CN107248414A (zh) * | 2017-05-23 | 2017-10-13 | 清华大学 | 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置 |
| US10811030B2 (en) * | 2017-09-12 | 2020-10-20 | Board Of Trustees Of Michigan State University | System and apparatus for real-time speech enhancement in noisy environments |
| CN108145974B (zh) * | 2017-12-29 | 2020-04-07 | 深圳职业技术学院 | 一种基于语音识别的3d打印成型的方法及系统 |
| CN109273021B (zh) * | 2018-08-09 | 2021-11-30 | 厦门亿联网络技术股份有限公司 | 一种基于rnn的实时会议降噪方法及装置 |
| CN108986834B (zh) * | 2018-08-22 | 2023-04-07 | 中国人民解放军陆军工程大学 | 基于编解码器架构与递归神经网络的骨导语音盲增强方法 |
| US11227621B2 (en) | 2018-09-17 | 2022-01-18 | Dolby International Ab | Separating desired audio content from undesired content |
| CN110931028B (zh) * | 2018-09-19 | 2024-04-26 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
| KR102863773B1 (ko) | 2019-07-15 | 2025-09-24 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
| WO2021010562A1 (en) | 2019-07-15 | 2021-01-21 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
| US11710492B2 (en) * | 2019-10-02 | 2023-07-25 | Qualcomm Incorporated | Speech encoding using a pre-encoded database |
| CN111383652B (zh) * | 2019-10-25 | 2023-09-12 | 南京邮电大学 | 一种基于双层字典学习的单通道语音增强方法 |
| US20230027353A1 (en) * | 2019-11-05 | 2023-01-26 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Deconvoluting Tumor Ecosystems for Personalized Cancer Therapy |
| CN112141837A (zh) * | 2020-09-08 | 2020-12-29 | 金陵科技学院 | 一种基于多层字典学习的智能语音电梯系统 |
| CN115472174A (zh) * | 2022-07-27 | 2022-12-13 | 北京探境科技有限公司 | 声音降噪方法和装置、电子设备和存储介质 |
| CN119052696B (zh) * | 2024-08-23 | 2025-11-04 | 天键电声股份有限公司 | 一种基于声纹识别及反向波抵消降风噪的耳机控制方法 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20090132245A1 (en) * | 2007-11-19 | 2009-05-21 | Wilson Kevin W | Denoising Acoustic Signals using Constrained Non-Negative Matrix Factorization |
| US20120143604A1 (en) * | 2010-12-07 | 2012-06-07 | Rita Singh | Method for Restoring Spectral Components in Denoised Speech Signals |
| JPWO2012160602A1 (ja) * | 2011-05-24 | 2014-07-31 | 三菱電機株式会社 | 目的音強調装置およびカーナビゲーションシステム |
Family Cites Families (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3571821B2 (ja) | 1995-09-13 | 2004-09-29 | 株式会社東芝 | 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法 |
| US7171357B2 (en) * | 2001-03-21 | 2007-01-30 | Avaya Technology Corp. | Voice-activity detection using energy ratios and periodicity |
| CN100507485C (zh) * | 2003-10-23 | 2009-07-01 | 松下电器产业株式会社 | 频谱编码装置和频谱解码装置 |
| US7725314B2 (en) * | 2004-02-16 | 2010-05-25 | Microsoft Corporation | Method and apparatus for constructing a speech filter using estimates of clean speech and noise |
| CA2558595C (en) * | 2005-09-02 | 2015-05-26 | Nortel Networks Limited | Method and apparatus for extending the bandwidth of a speech signal |
| DK1760696T3 (en) | 2005-09-03 | 2016-05-02 | Gn Resound As | Method and apparatus for improved estimation of non-stationary noise to highlight speech |
| US7873064B1 (en) * | 2007-02-12 | 2011-01-18 | Marvell International Ltd. | Adaptive jitter buffer-packet loss concealment |
| US8473283B2 (en) * | 2007-11-02 | 2013-06-25 | Soundhound, Inc. | Pitch selection modules in a system for automatic transcription of sung or hummed melodies |
| US8874441B2 (en) * | 2011-01-19 | 2014-10-28 | Broadcom Corporation | Noise suppression using multiple sensors of a communication device |
| US8554553B2 (en) | 2011-02-21 | 2013-10-08 | Adobe Systems Incorporated | Non-negative hidden Markov modeling of signals |
| US8812322B2 (en) * | 2011-05-27 | 2014-08-19 | Adobe Systems Incorporated | Semi-supervised source separation using non-negative techniques |
| JP5662276B2 (ja) * | 2011-08-05 | 2015-01-28 | 株式会社東芝 | 音響信号処理装置および音響信号処理方法 |
| US9966088B2 (en) * | 2011-09-23 | 2018-05-08 | Adobe Systems Incorporated | Online source separation |
| US8775167B2 (en) * | 2011-09-26 | 2014-07-08 | Adobe Systems Incorporated | Noise-robust template matching |
| WO2013057659A2 (en) * | 2011-10-19 | 2013-04-25 | Koninklijke Philips Electronics N.V. | Signal noise attenuation |
| BR112014009647B1 (pt) * | 2011-10-24 | 2021-11-03 | Koninklijke Philips N.V. | Aparelho de atenuação do ruído e método de atenuação do ruído |
| US9786275B2 (en) * | 2012-03-16 | 2017-10-10 | Yale University | System and method for anomaly detection and extraction |
| CN102915742B (zh) | 2012-10-30 | 2014-07-30 | 中国人民解放军理工大学 | 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法 |
| US9324338B2 (en) * | 2013-10-22 | 2016-04-26 | Mitsubishi Electric Research Laboratories, Inc. | Denoising noisy speech signals using probabilistic model |
| US10540979B2 (en) * | 2014-04-17 | 2020-01-21 | Qualcomm Incorporated | User interface for secure access to a device using speaker verification |
| US9553681B2 (en) * | 2015-02-17 | 2017-01-24 | Adobe Systems Incorporated | Source separation using nonnegative matrix factorization with an automatically determined number of bases |
-
2015
- 2015-02-23 US US14/629,109 patent/US10013975B2/en active Active
- 2015-02-24 CN CN201580010366.XA patent/CN106030705A/zh active Pending
- 2015-02-24 WO PCT/US2015/017336 patent/WO2015130685A1/en not_active Ceased
- 2015-02-24 KR KR1020167024059A patent/KR20160125984A/ko not_active Withdrawn
- 2015-02-24 EP EP15710339.1A patent/EP3111445B1/en active Active
- 2015-02-24 JP JP2016554210A patent/JP2017506767A/ja active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20090132245A1 (en) * | 2007-11-19 | 2009-05-21 | Wilson Kevin W | Denoising Acoustic Signals using Constrained Non-Negative Matrix Factorization |
| JP2009128906A (ja) * | 2007-11-19 | 2009-06-11 | Mitsubishi Electric Research Laboratories Inc | 音響信号と雑音信号とを含む混成信号の雑音を除去するための方法およびシステム |
| US20120143604A1 (en) * | 2010-12-07 | 2012-06-07 | Rita Singh | Method for Restoring Spectral Components in Denoised Speech Signals |
| JP2013541023A (ja) * | 2010-12-07 | 2013-11-07 | ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド | 試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分を復元するための方法 |
| JPWO2012160602A1 (ja) * | 2011-05-24 | 2014-07-31 | 三菱電機株式会社 | 目的音強調装置およびカーナビゲーションシステム |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2024500746A (ja) * | 2020-12-18 | 2024-01-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 話者固有音声増幅 |
| JP7790842B2 (ja) | 2020-12-18 | 2025-12-23 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 話者固有音声増幅 |
Also Published As
| Publication number | Publication date |
|---|---|
| US10013975B2 (en) | 2018-07-03 |
| EP3111445A1 (en) | 2017-01-04 |
| EP3111445B1 (en) | 2018-12-19 |
| US20150243284A1 (en) | 2015-08-27 |
| WO2015130685A1 (en) | 2015-09-03 |
| CN106030705A (zh) | 2016-10-12 |
| KR20160125984A (ko) | 2016-11-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP3111445B1 (en) | Systems and methods for speaker dictionary based speech modeling | |
| Liu et al. | Bone-conducted speech enhancement using deep denoising autoencoder | |
| US8706483B2 (en) | Partial speech reconstruction | |
| CN106486131B (zh) | 一种语音去噪的方法及装置 | |
| US9704478B1 (en) | Audio output masking for improved automatic speech recognition | |
| EP2491558B1 (en) | Determining an upperband signal from a narrowband signal | |
| US20080140396A1 (en) | Model-based signal enhancement system | |
| JP6374120B2 (ja) | 発話の復元のためのシステムおよび方法 | |
| US20160284346A1 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
| US20110218803A1 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
| CN113571047B (zh) | 一种音频数据的处理方法、装置及设备 | |
| KR101224755B1 (ko) | 음성-상태 모델을 사용하는 다중-감각 음성 향상 | |
| US20130332171A1 (en) | Bandwidth Extension via Constrained Synthesis | |
| CN111326166B (zh) | 语音处理方法及装置、计算机可读存储介质、电子设备 | |
| US9076446B2 (en) | Method and apparatus for robust speaker and speech recognition | |
| CN108198566B (zh) | 信息处理方法及装置、电子设备及存储介质 | |
| US20150162014A1 (en) | Systems and methods for enhancing an audio signal | |
| Saleem et al. | Spectral phase estimation based on deep neural networks for single channel speech enhancement | |
| Ananth et al. | Multi-Channel Audio Enhancement using Dual-Stream Encoders with Attention Mechanisms and Spatial Discrimination GAN | |
| CN116758930A (zh) | 语音增强方法、装置、电子设备及存储介质 | |
| PS et al. | Hybrid speech enhancement in modulation domain | |
| Wang et al. | Incorporation of a modified temporal cepstrum smoothing in both signal-to-noise ratio and speech presence probability estimation for speech enhancement | |
| Pacheco et al. | Spectral subtraction for reverberation reduction applied to automatic speech recognition | |
| US20250201259A1 (en) | Acoustic Echo Cancellation With Text-To-Speech (TTS) Data Loopback | |
| Singh et al. | Improved Keyword Spotting in Soundbars: Mitigating Self-Generated Noise and Playback Distortions |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160830 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180209 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180209 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181228 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190121 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190924 |