JP7443823B2 - 音響処理方法 - Google Patents
音響処理方法 Download PDFInfo
- Publication number
- JP7443823B2 JP7443823B2 JP2020033347A JP2020033347A JP7443823B2 JP 7443823 B2 JP7443823 B2 JP 7443823B2 JP 2020033347 A JP2020033347 A JP 2020033347A JP 2020033347 A JP2020033347 A JP 2020033347A JP 7443823 B2 JP7443823 B2 JP 7443823B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- frequency band
- intensity spectrum
- data
- output data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title description 5
- 238000001228 spectrum Methods 0.000 description 173
- 238000012545 processing Methods 0.000 description 93
- 238000000926 separation method Methods 0.000 description 54
- 238000012549 training Methods 0.000 description 52
- 238000000034 method Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 22
- 230000015572 biosynthetic process Effects 0.000 description 16
- 238000003786 synthesis reaction Methods 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 14
- 230000005236 sound signal Effects 0.000 description 13
- 230000000694 effects Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000009527 percussion Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 230000006872 improvement Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Auxiliary Devices For Music (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
図1は、本開示の第1実施形態に係る音響処理システム100の構成を例示するブロック図である。音響処理システム100は、制御装置11と記憶装置12と放音装置13とを具備するコンピュータシステムである。音響処理システム100は、例えばスマートフォン,タブレット端末またはパーソナルコンピュータ等の情報端末により実現される。なお、音響処理システム100は、単体の装置で実現されるほか、相互に別体で構成された複数の装置(例えばクライアントサーバシステム)でも実現される。
図2は、音響処理システム100の機能的な構成を例示するブロック図である。図2に例示される通り、制御装置11は、記憶装置12に記憶された音響処理プログラムP1を実行することで音響処理部20として機能する。音響処理部20は、音響信号Sxから音響信号Szを生成する。音響処理部20は、周波数解析部21と音源分離部22と帯域拡張部23と波形合成部24と音量調整部25とを具備する。
図2に例示される通り、制御装置11は、記憶装置12に記憶された機械学習プログラムP2を実行することで学習処理部30として機能する。学習処理部30は、音響処理Saに利用される推定モデルMを機械学習により確立する。学習処理部30は、取得部31と訓練部32とを具備する。
第2実施形態について以下に説明する。なお、以下に例示する各形態において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図9は、第3実施形態における入力データD(m)の模式図である。第3実施形態の入力データD(m)は、混合音データDx(m)と第1入力データD1(m)と第2入力データD2(m)とに加えて強度指標αを含む。強度指標αは、前述の通り、入力データD(m)の全体で表現されるベクトルVの大きさ(例えばL2ノルム)を表す指標であり、前掲の数式(2)で算定される。学習処理Sbに利用される訓練用の入力データDt(m)についても同様に、混合音データDx(m)と第1入力データD1(m)と第2入力データD2(m)とに加えて、当該入力データDt(m)で表現されるベクトルVの大きさに応じた強度指標αが含まれる。なお、混合音データDx(m)と第1入力データD1(m)と第2入力データD2(m)とは、第1実施形態または第2実施形態と同様である。
図13は、第5実施形態における入力データD(m)および出力データO(m)の模式図である。第1実施形態の出力データO(m)における第1出力データO1(m)は、全帯域BFにわたる強度スペクトルZ1(m)を表し、第2出力データO2(m)は、全帯域BFにわたる強度スペクトルZ2(m)を表す。第5実施形態における第1出力データO1(m)は、第1音のうち周波数帯域BHの成分を表す。すなわち、第1出力データO1(m)は、第1音の強度スペクトルZ1(m)のうち周波数帯域BH内の強度スペクトルH1(m)を表し、周波数帯域BL内の強度スペクトルを含まない。同様に、第5実施形態における第2出力データO2(m)は、第2音のうち周波数帯域BHの成分を表す。すなわち、第2出力データO2(m)は、第2音の強度スペクトルZ2(m)のうち周波数帯域BH内の強度スペクトルH2(m)を表し、周波数帯域BL内の強度スペクトルを含まない。
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
以上に例示した形態から、例えば以下の構成が把握される。
Claims (1)
- 第1音源に対応する第1音のうち第1周波数帯域の成分を表す第1入力データと、前記第1音源とは異なる第2音源に対応する第2音のうち前記第1周波数帯域の成分を表す第2入力データと、前記第1音と前記第2音との混合音のうち前記第1周波数帯域とは異なる第2周波数帯域を含む周波数帯域の成分を含む音を表す混合音データと、を含む入力データを取得し、
学習済の推定モデルに前記入力データを入力することで、前記第1音のうち前記第2周波数帯域を含む周波数帯域の成分を表す第1出力データと、前記第2音のうち前記第2周波数帯域を含む周波数帯域の成分を表す第2出力データとの少なくとも一方を生成する
コンピュータにより実現される音響処理方法。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020033347A JP7443823B2 (ja) | 2020-02-28 | 2020-02-28 | 音響処理方法 |
| CN202180014435.XA CN115136234A (zh) | 2020-02-28 | 2021-02-19 | 音响处理方法、推定模型的训练方法、音响处理系统及程序 |
| PCT/JP2021/006263 WO2021172181A1 (ja) | 2020-02-28 | 2021-02-19 | 音響処理方法、推定モデルの訓練方法、音響処理システムおよびプログラム |
| US17/896,671 US12039994B2 (en) | 2020-02-28 | 2022-08-26 | Audio processing method, method for training estimation model, and audio processing system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020033347A JP7443823B2 (ja) | 2020-02-28 | 2020-02-28 | 音響処理方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021135446A JP2021135446A (ja) | 2021-09-13 |
| JP7443823B2 true JP7443823B2 (ja) | 2024-03-06 |
Family
ID=77491500
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020033347A Active JP7443823B2 (ja) | 2020-02-28 | 2020-02-28 | 音響処理方法 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US12039994B2 (ja) |
| JP (1) | JP7443823B2 (ja) |
| CN (1) | CN115136234A (ja) |
| WO (1) | WO2021172181A1 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7505830B2 (ja) * | 2020-10-22 | 2024-06-25 | ガウディオ・ラボ・インコーポレイテッド | 機械学習モデルを用いて複数の信号成分を含むオーディオ信号処理装置 |
| JP7790351B2 (ja) * | 2020-11-09 | 2025-12-23 | ソニーグループ株式会社 | 信号処理装置、信号処理方法およびプログラム |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008278406A (ja) | 2007-05-07 | 2008-11-13 | Kobe Steel Ltd | 音源分離装置,音源分離プログラム及び音源分離方法 |
Family Cites Families (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4580210B2 (ja) * | 2004-10-19 | 2010-11-10 | ソニー株式会社 | 音声信号処理装置および音声信号処理方法 |
| JP4521461B2 (ja) * | 2008-12-25 | 2010-08-11 | 株式会社東芝 | 音響処理装置、音響再生装置、及び音響処理方法 |
| JP5516169B2 (ja) * | 2010-07-14 | 2014-06-11 | ヤマハ株式会社 | 音響処理装置およびプログラム |
| BR112012031656A2 (pt) * | 2010-08-25 | 2016-11-08 | Asahi Chemical Ind | dispositivo, e método de separação de fontes sonoras, e, programa |
| US8965832B2 (en) * | 2012-02-29 | 2015-02-24 | Adobe Systems Incorporated | Feature estimation in sound sources |
| JP5911101B2 (ja) * | 2012-08-30 | 2016-04-27 | 日本電信電話株式会社 | 音響信号解析装置、方法、及びプログラム |
| JP2014178641A (ja) * | 2013-03-15 | 2014-09-25 | Yamaha Corp | 分離用データ処理装置およびプログラム |
| US9721202B2 (en) * | 2014-02-21 | 2017-08-01 | Adobe Systems Incorporated | Non-negative matrix factorization regularized by recurrent neural networks for audio processing |
| CN105989852A (zh) * | 2015-02-16 | 2016-10-05 | 杜比实验室特许公司 | 分离音频源 |
| CN105070304B (zh) * | 2015-08-11 | 2018-09-04 | 小米科技有限责任公司 | 实现对象音频录音的方法及装置、电子设备 |
| US9947364B2 (en) * | 2015-09-16 | 2018-04-17 | Google Llc | Enhancing audio using multiple recording devices |
| US11373672B2 (en) * | 2016-06-14 | 2022-06-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
| WO2018042791A1 (ja) * | 2016-09-01 | 2018-03-08 | ソニー株式会社 | 情報処理装置、情報処理方法及び記録媒体 |
| JP6581054B2 (ja) * | 2016-09-06 | 2019-09-25 | 日本電信電話株式会社 | 音源分離装置、音源分離方法及び音源分離プログラム |
| CN109661705B (zh) * | 2016-09-09 | 2023-06-16 | 索尼公司 | 声源分离装置和方法以及程序 |
| EP3392882A1 (en) * | 2017-04-20 | 2018-10-24 | Thomson Licensing | Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium |
| WO2019102585A1 (ja) * | 2017-11-24 | 2019-05-31 | 三菱電機株式会社 | 音響信号分離装置および音響信号分離方法 |
| CN108564963B (zh) * | 2018-04-23 | 2019-10-18 | 百度在线网络技术(北京)有限公司 | 用于增强语音的方法和装置 |
| JP7243052B2 (ja) * | 2018-06-25 | 2023-03-22 | カシオ計算機株式会社 | オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム |
| US11355137B2 (en) * | 2019-10-08 | 2022-06-07 | Spotify Ab | Systems and methods for jointly estimating sound sources and frequencies from audio |
| JP2020021098A (ja) * | 2019-10-29 | 2020-02-06 | カシオ計算機株式会社 | 情報処理装置、電子機器及びプログラム |
-
2020
- 2020-02-28 JP JP2020033347A patent/JP7443823B2/ja active Active
-
2021
- 2021-02-19 WO PCT/JP2021/006263 patent/WO2021172181A1/ja not_active Ceased
- 2021-02-19 CN CN202180014435.XA patent/CN115136234A/zh active Pending
-
2022
- 2022-08-26 US US17/896,671 patent/US12039994B2/en active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008278406A (ja) | 2007-05-07 | 2008-11-13 | Kobe Steel Ltd | 音源分離装置,音源分離プログラム及び音源分離方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2021172181A1 (ja) | 2021-09-02 |
| US12039994B2 (en) | 2024-07-16 |
| CN115136234A (zh) | 2022-09-30 |
| JP2021135446A (ja) | 2021-09-13 |
| US20220406325A1 (en) | 2022-12-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6881459B2 (ja) | 情報処理装置、情報処理方法及び記録媒体 | |
| JP7103390B2 (ja) | 音響信号生成方法、音響信号生成装置およびプログラム | |
| JP7067669B2 (ja) | 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム | |
| JP2015040903A (ja) | 音声処理装置、音声処理方法、及び、プログラム | |
| JPWO2015159731A1 (ja) | 音場再現装置および方法、並びにプログラム | |
| JP7443823B2 (ja) | 音響処理方法 | |
| CN109416911B (zh) | 声音合成装置及声音合成方法 | |
| WO2019181767A1 (ja) | 音処理方法、音処理装置およびプログラム | |
| US11875777B2 (en) | Information processing method, estimation model construction method, information processing device, and estimation model constructing device | |
| Ananth et al. | Multi-Channel Audio Enhancement using Dual-Stream Encoders with Attention Mechanisms and Spatial Discrimination GAN | |
| JP6925995B2 (ja) | 信号処理装置、音声強調装置、信号処理方法およびプログラム | |
| JP6337698B2 (ja) | 音響処理装置 | |
| WO2020241641A1 (ja) | 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法 | |
| JP7088403B2 (ja) | 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム | |
| JP2017151228A (ja) | 信号処理方法および音信号処理装置 | |
| US12475872B2 (en) | Audio processing method, audio processing system, and computer-readable medium | |
| JP7709139B2 (ja) | 信号処理装置、信号処理方法、およびプログラム | |
| WO2023171522A1 (ja) | 音響生成方法、音響生成システムおよびプログラム | |
| JP6409417B2 (ja) | 音響処理装置 | |
| JP2014137389A (ja) | 音響解析装置 | |
| JP2021057711A (ja) | 音響処理方法、音響処理装置およびプログラム | |
| FR2958069A1 (fr) | Procede et dispositif de synthese d'un signal audio selon des contacts impartis sur un organe vibrant |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20200916 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200916 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221220 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240123 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240205 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 7443823 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |



