JP7681699B2 - オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体 - Google Patents
オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP7681699B2 JP7681699B2 JP2023532254A JP2023532254A JP7681699B2 JP 7681699 B2 JP7681699 B2 JP 7681699B2 JP 2023532254 A JP2023532254 A JP 2023532254A JP 2023532254 A JP2023532254 A JP 2023532254A JP 7681699 B2 JP7681699 B2 JP 7681699B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- audio
- target
- signal
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers
- H04R3/04—Circuits for transducers for correcting frequency response
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/01—Aspects of volume control, not necessarily automatic, in sound systems
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Description
実際オーディオ信号に対応する第1オーディオ特徴を取得するステップと、
前記第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、前記実際オーディオ信号に対応するオーディオタイプ表徴データを取得するステップと、
前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得するステップと、を備える。
前記取得モジュールは、実際オーディオ信号に対応する第1オーディオ特徴を取得する取得モジュールと、
分類モジュールは、前記第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、前記実際オーディオ信号に対応するオーディオタイプ表徴データを取得する分類モジュールと、
前記増強モジュールは、前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する増強モジュールと、を備える。
分類モジュール602は、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得する。
増強モジュール603は、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。
Claims (9)
- オーディオ信号増強方法であって、
実際オーディオ信号に対応する第1オーディオ特徴を取得するステップと、
前記第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、前記実際オーディオ信号に対応するオーディオタイプ表徴データを取得するステップと、
前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得するステップと、を備え、
前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する前記ステップは、
前記オーディオタイプ表徴データに対して所定回数のメディアンフィルタリングを実行し、異常値のないオーディオタイプ表徴データを取得するステップと、
前記異常値のないオーディオタイプ表徴データが前記ターゲットオーディオタイプに対応する場合、前記実際オーディオ信号において前記ターゲットオーディオタイプに合致する異なる周波数帯域の前記ターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行し、増強オーディオ信号を取得するステップと、を含む、
ことを特徴とするオーディオ信号増強方法。 - 前記第1オーディオ特徴をトレーニング済み分類器に入力して分類識別する前記ステップの前に、
所定のオーディオ信号サンプルセットを取得するステップと、
前記オーディオ信号サンプルセットにおける複数のオーディオ信号サンプルに対応する第2オーディオ特徴をそれぞれ取得し、オーディオ特徴サンプルセットを取得するステップと、
前記オーディオ特徴サンプルセットに基づいて所定の分類器モデルをトレーニングし、トレーニング済みの前記分類器を取得するステップと、をさらに備える、
ことを特徴とする請求項1に記載のオーディオ信号増強方法。 - 前記オーディオ信号サンプルセットにおける複数のオーディオ信号サンプルに対応する第2オーディオ特徴をそれぞれ取得する前記ステップの前に、
所定のフレーミング指標によって、前記オーディオ信号サンプルセットにおける各オーディオ信号サンプルに対してフレーミング処理を実行し、第1フレーム信号を取得するステップと、
ここで、前記フレーミング指標は、データフレーム単位長さと、隣接データフレームの重ね長さとを含み、
各前記第1フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第1オーディオ特徴の組み合わせを取得するステップと、
ここで、前記オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも1つを含み、
前記第1オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、前記第2オーディオ特徴を取得するステップと、をさらに備える、
ことを特徴とする請求項2に記載のオーディオ信号増強方法。 - 前記実際オーディオ信号に対応する第1オーディオ特徴を取得する前記ステップの前に、
前記フレーミング指標によって、前記実際オーディオ信号に対してフレーミング処理を実行し、第2フレーム信号を取得するステップと、
各前記第2フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第2オーディオ特徴の組み合わせを取得するステップと、
ここで、前記オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも1つを含み、
前記第2オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、前記第1オーディオ特徴を取得するステップと、
または、前記実際オーディオ信号および過去オーディオ信号の前記第2オーディオ特徴の組み合わせに対して平均演算および分散演算を実行し、前記第1オーディオ特徴を取得するステップと、
ここで、前記過去オーディオ信号の信号収集時点は、前記実際オーディオ信号より前である、
をさらに備える、
ことを特徴とする請求項3に記載のオーディオ信号増強方法。 - 前記実際オーディオ信号において前記ターゲットオーディオタイプに合致する異なる周波数帯域の前記ターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行する前記ステップは、
前記実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域の前記ターゲットオーディオ信号に対し、所定のイコライザフェードイン・フェードアウト時間を参照して利得を実行し、および/または、所定のダイナミックレンジコントロールの時間パラメータを参照してダイナミックレンジ増強を実行するステップを含む、
ことを特徴とする請求項1に記載のオーディオ信号増強方法。 - 前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する前記ステップの後に、
前記増強オーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得するステップを備える、
ことを特徴とする請求項1に記載のオーディオ信号増強方法。 - オーディオ信号増強装置であって、
実際オーディオ信号に対応する第1オーディオ特徴を取得する取得モジュールと、
前記第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、前記実際オーディオ信号に対応するオーディオタイプ表徴データを 取得する分類モジュールと、
前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する増強モジュールであって、前記オーディオタイプ表徴データに対して所定回数のメディアンフィルタリングを実行し、異常値のないオーディオタイプ表徴データを取得し、前記異常値のないオーディオタイプ表徴データが前記ターゲットオーディオタイプに対応する場合、前記実際オーディオ信号において前記ターゲットオーディオタイプに合致する異なる周波数帯域の前記ターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行し、増強オーディオ信号を取得する増強モジュールと、を備える、
ことを特徴とするオーディオ信号増強装置。 - 電子機器であって、
メモリと、プロセッサとを備え、
前記メモリは、プログラム指示を含む情報を記録し、
前記プロセッサは、前記メモリに記録されたプログラムを実行し、
前記プロセッサは前記プログラムを実行すると、請求項1~請求項6のいずれか1項に記載の前記方法におけるステップを実行する、
ことを特徴とする電子機器。 - プログラムが記録されたコンピュータ読み取り可能な記録媒体であって、
前記プログラムがプロセッサによって実行されると、請求項1~請求項6のいずれか1項に記載の前記方法におけるステップを実行する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202211649357.3A CN116030822A (zh) | 2022-12-21 | 2022-12-21 | 一种音频信号增强方法、装置、设备及可读存储介质 |
| CN202211649357.3 | 2022-12-21 | ||
| PCT/CN2023/081940 WO2024130865A1 (zh) | 2022-12-21 | 2023-03-16 | 一种音频信号增强方法、装置、设备及可读存储介质 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2025503345A JP2025503345A (ja) | 2025-02-04 |
| JP7681699B2 true JP7681699B2 (ja) | 2025-05-22 |
Family
ID=91583090
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023532254A Active JP7681699B2 (ja) | 2022-12-21 | 2023-03-16 | オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US12413906B2 (ja) |
| JP (1) | JP7681699B2 (ja) |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2016530765A (ja) | 2014-01-30 | 2016-09-29 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | オーディオ信号を圧縮するためのデジタルコンプレッサ |
| US20190392852A1 (en) | 2018-06-22 | 2019-12-26 | Babblelabs, Inc. | Data driven audio enhancement |
| CN111369982A (zh) | 2020-03-13 | 2020-07-03 | 北京远鉴信息技术有限公司 | 音频分类模型的训练方法、音频分类方法、装置及设备 |
| US20210065733A1 (en) | 2019-08-29 | 2021-03-04 | Mentor Graphics Corporation | Audio data augmentation for machine learning object classification |
| CN113593603A (zh) | 2021-07-27 | 2021-11-02 | 浙江大华技术股份有限公司 | 音频类别的确定方法、装置、存储介质及电子装置 |
| JP2021536705A (ja) | 2018-09-07 | 2021-12-27 | グレースノート インコーポレイテッド | オーディオ分類を介した動的な音量調整のための方法及び装置 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA3075738C (en) * | 2017-09-12 | 2021-06-29 | Whisper. Ai Inc. | Low latency audio enhancement |
| US20200344545A1 (en) * | 2019-04-25 | 2020-10-29 | Cisco Technology, Inc. | Audio signal adjustment |
| US11763832B2 (en) * | 2019-05-01 | 2023-09-19 | Synaptics Incorporated | Audio enhancement through supervised latent variable representation of target speech and noise |
-
2023
- 2023-03-16 JP JP2023532254A patent/JP7681699B2/ja active Active
- 2023-05-31 US US18/327,009 patent/US12413906B2/en active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2016530765A (ja) | 2014-01-30 | 2016-09-29 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | オーディオ信号を圧縮するためのデジタルコンプレッサ |
| US20190392852A1 (en) | 2018-06-22 | 2019-12-26 | Babblelabs, Inc. | Data driven audio enhancement |
| JP2021536705A (ja) | 2018-09-07 | 2021-12-27 | グレースノート インコーポレイテッド | オーディオ分類を介した動的な音量調整のための方法及び装置 |
| US20210065733A1 (en) | 2019-08-29 | 2021-03-04 | Mentor Graphics Corporation | Audio data augmentation for machine learning object classification |
| CN111369982A (zh) | 2020-03-13 | 2020-07-03 | 北京远鉴信息技术有限公司 | 音频分类模型的训练方法、音频分类方法、装置及设备 |
| CN113593603A (zh) | 2021-07-27 | 2021-11-02 | 浙江大华技术股份有限公司 | 音频类别的确定方法、装置、存储介质及电子装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20240214730A1 (en) | 2024-06-27 |
| US12413906B2 (en) | 2025-09-09 |
| JP2025503345A (ja) | 2025-02-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10511908B1 (en) | Audio denoising and normalization using image transforming neural network | |
| JP4797342B2 (ja) | オーディオデータを自動的に認識する方法及び装置 | |
| CN114203163A (zh) | 音频信号处理方法及装置 | |
| WO2023040520A1 (zh) | 视频配乐方法、装置、计算机设备和存储介质 | |
| Elminshawi et al. | New insights on target speaker extraction | |
| CN115273826B (zh) | 歌声识别模型训练方法、歌声识别方法及相关装置 | |
| US12033660B2 (en) | Data processing device and data processing method | |
| CN115206345B (zh) | 基于时频结合的音乐人声分离方法、装置、设备及介质 | |
| CN118918913A (zh) | 场景感知的视听语音增强方法、装置、介质及程序产品 | |
| CN112885318B (zh) | 多媒体数据生成方法、装置、电子设备及计算机存储介质 | |
| CN118136034A (zh) | 语音增广方法及相关方法、装置、设备和存储介质 | |
| CN107464563B (zh) | 一种语音交互玩具 | |
| JP2020134887A (ja) | 音信号処理プログラム、音信号処理方法及び音信号処理装置 | |
| CN120359567A (zh) | 基于音频内容类型识别的音频场景分析 | |
| CN109741761B (zh) | 声音处理方法和装置 | |
| JP7681699B2 (ja) | オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体 | |
| CN116312606A (zh) | 高频噪声的抑制方法、装置、终端设备及存储介质 | |
| US11935552B2 (en) | Electronic device, method and computer program | |
| CN116744203A (zh) | 一种基于语音身份识别的助听方法、装置及设备 | |
| WO2024130865A1 (zh) | 一种音频信号增强方法、装置、设备及可读存储介质 | |
| TWI906748B (zh) | 評估聲紋辨識演算法的方法及評估裝置 | |
| CN112309419B (zh) | 多路音频的降噪、输出方法及其系统 | |
| CN117528328A (zh) | 一种耳麦音频降噪处理方法及系统 | |
| CN115440237A (zh) | 一种快速获取智能设备回采时延的方法及装置 | |
| CN118038888A (zh) | 对白清晰度的确定方法、装置、电子设备和存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230525 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230616 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241210 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250304 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250507 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250512 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7681699 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |