WO2024139730A1 - 音频数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品 - Google Patents

音频数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品 Download PDF

Info

Publication number
WO2024139730A1
WO2024139730A1 PCT/CN2023/129766 CN2023129766W WO2024139730A1 WO 2024139730 A1 WO2024139730 A1 WO 2024139730A1 CN 2023129766 W CN2023129766 W CN 2023129766W WO 2024139730 A1 WO2024139730 A1 WO 2024139730A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio data
noise reduction
noise
data
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/CN2023/129766
Other languages
English (en)
French (fr)
Inventor
邹欢彬
李志成
赵军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to EP23909663.9A priority Critical patent/EP4560627A4/en
Publication of WO2024139730A1 publication Critical patent/WO2024139730A1/zh
Priority to US18/908,353 priority patent/US20250029627A1/en
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Definitions

  • the embodiments of the present application provide an audio data processing method, apparatus, device, computer-readable storage medium, and computer program product, which can avoid loss of valid audio data during noise reduction, thereby improving the quality of audio data.
  • the present application provides an audio data processing device, including:
  • An acquisition module used for acquiring original noisy video data to be processed and target scene parameters associated with the original noisy video data
  • a target noise reduction intensity parameter for denoising the original noisy audio data is adaptively determined through a target scene parameter associated with the original noisy audio data, and based on the target noise reduction intensity parameter, the noise content in the original noisy audio data is quantitatively reduced. That is, the target scene parameter here reflects at least one of the application scene and the acquisition scene of the original noisy audio data, and the target noise reduction intensity parameter reflects the strength of noise suppression in the original noisy audio data.
  • the noise content in the original noisy audio data is quantitatively reduced, and a certain degree of noise residue is accepted, without completely separating the noise data and audio data in the original noisy audio data, to completely suppress the noise, avoid loss of effective audio data during noise reduction, improve the quality of audio data, and improve the flexibility of noise processing.
  • FIG1 is a schematic diagram of an audio data processing system provided by the present application.
  • FIG2 is a schematic diagram of an interactive scenario of an audio data processing method provided by the present application.
  • FIG3 is a flow chart of an audio data processing method provided by the present application.
  • FIG5 is a schematic diagram of the structure of a target noise reduction processing model provided by the present application.
  • FIG6 is a schematic diagram of PESQ scores of noisy audio data under different noise reduction intensity parameters provided by the present application.
  • FIG7 is a schematic diagram of SI-SNR scores of noisy audio data under different noise reduction intensity parameters provided by the present application.
  • FIG8 is a schematic diagram of the structure of an audio data processing device provided in an embodiment of the present application.
  • FIG. 9 is a schematic diagram of the structure of a computer device provided in an embodiment of the present application.
  • AIaaS artificial intelligence cloud services
  • AIaaS AI as a Service
  • the AIaaS platform will split several common AI services and provide independent or packaged services in the cloud.
  • This service model is similar to opening an AI theme mall: all developers can access one or more artificial intelligence services provided by the platform through the API interface, and some senior developers can also Use the AI framework and AI infrastructure provided by the platform to deploy and operate your own cloud artificial intelligence services.
  • the artificial intelligence cloud service includes a target noise reduction processing model for performing noise reduction processing on noisy audio data.
  • the computer device can call the target noise reduction processing model in the artificial intelligence cloud service through the API interface, and input the original noisy audio data and the target noise reduction intensity parameter into the target noise reduction processing model.
  • the target noise reduction processing model is used to perform noise reduction processing on the original noisy audio data based on the target noise reduction intensity parameter, so as to quantitatively reduce the noise content in the original noisy audio data, avoid the loss of effective audio data during noise reduction, improve the quality of audio data, and make the noise reduction processing of audio data more intelligent.
  • different computer devices can call the target noise reduction processing model, so that multiple computer devices can share the target noise reduction processing model, improve the utilization rate of the target noise reduction processing model, and do not need to train the computer device separately to obtain the target noise reduction processing model, thereby reducing the computing resource overhead of the computer device.
  • the audio data processing system for implementing the present application is first introduced.
  • the audio data processing system includes a server 10 and a terminal cluster.
  • the terminal cluster may include one or more terminals, and the number of terminals is not limited here.
  • the terminal cluster may include terminal 1, terminal 2, ..., terminal n; it can be understood that terminal 1, terminal 2, terminal 3, ..., terminal n can all be connected to the server 10 through a network connection, so that each terminal can exchange data with the server 10 through a network connection.
  • the target application here can refer to an application with voice communication function, such as a target application including an independent application, a web application, a small program in a host application, etc.
  • Any terminal in the terminal cluster can be used as a sending terminal or a receiving terminal.
  • the sending terminal can refer to a terminal that generates original noisy audio data and sends the original noisy audio data
  • the receiving terminal can refer to a terminal that receives the original noisy audio data.
  • terminal 1 when user 1 corresponding to terminal 1 is communicating with user 2 corresponding to terminal 2 by voice, when user 1 needs to send audio data to user 2, terminal 1 can be called a sending terminal and terminal 2 can be called a receiving terminal; similarly, when user 2 needs to send audio data to user 1, terminal 2 can be called a sending terminal and terminal 1 can be called a receiving terminal.
  • the server 10 refers to a device that provides backend services for a target application in a terminal.
  • the server can be used to perform noise reduction processing on the original noisy video data sent by the sending terminal, and forward the original noisy video data after the noise reduction processing to the receiving terminal.
  • the server 10 can be used to forward the original noisy video data sent by the sending terminal to the receiving terminal, and the receiving terminal performs noise reduction processing on the original noisy video data to obtain the processed original noisy video data.
  • the server can be used to receive the original noisy video data after the noise reduction processing sent by the sending terminal, and forward the original noisy video data after the noise reduction processing to the receiving terminal, that is, the original noisy video data after the noise reduction processing is obtained by the sending terminal performing noise reduction processing on the original noisy video data.
  • the original noisy audio data in the embodiments of the present application may refer to audio data collected by the microphone of the sending terminal, that is, the original noisy audio data refers to audio data that has not been subjected to noise reduction processing, and usually the original noisy audio data includes audio data and noise data.
  • Audio data may refer to data useful to the user, such as the audio data may refer to voice data in the process of user voice communication, or the audio data may refer to music works recorded by the user, etc.; the audio data may be collected from the sounds emitted by people, animals, robots, etc.
  • the noise data here may refer to data that is meaningless to the user, such as the noise data may refer to environmental noise. For example, in the process of user voice communication, all audio data except the voice data of the two parties to the call are noise data.
  • the server can be an independent physical server, or a server cluster or distributed system composed of at least two physical servers, or a cloud server that provides basic cloud computing services such as cloud services, cloud databases, cloud computing, cloud functions, cloud storage, network services, cloud communications, middleware services, domain name services, security services, content delivery networks (CDNs), and big data and artificial intelligence platforms.
  • the terminal can refer to a vehicle-mounted terminal, a smart phone, a tablet computer, a laptop computer, a desktop computer, Smart speakers, speakers with screens, smart watches, etc., but not limited thereto.
  • Each terminal and server can be directly or indirectly connected via wired or wireless communication.
  • the number of terminals and servers can be one or at least two, and this application does not limit this.
  • the audio data processing system of Figure 1 can be applied to voice communication scenarios, live broadcast scenarios, audio and video recording scenarios, etc.
  • the audio data system of Figure 1 is applied to the voice communication scenario shown in Figure 2 as an example for explanation.
  • the terminal 20a in Figure 2 can be any terminal in the terminal cluster in Figure 1
  • the terminal 21a in Figure 2 can be any terminal in the terminal cluster in Figure 1 except the terminal 20a
  • the server 22a in Figure 2 can be the server 10 in Figure 1.
  • the terminal 20a can collect the speech process of the user 1 to obtain the original noisy audio data 1; the original noisy audio data 1 includes the speech content of the user 1 (i.e., the voice data 1) and the noise data 1, and the noise data 1 reflects the environmental noise during the speech process of the user 1, such as the howling emitted by the terminal 20a, or the speech content of other people, etc. After the terminal 20a collects the original noisy audio data 1, the original noisy audio data 1 can be sent to the server 22a.
  • the server 22a After receiving the original noisy audio data 1, the server 22a can obtain the target scene parameter 1 of the original noisy audio data 1; the target scene parameter 1 can be used to reflect at least one of the collection scene and application scene of the original noisy audio data 1, and the application scene of the original noisy audio data 1 is taken as an example for explanation.
  • the target scenario parameter 1 reflects that the application scenario of the original noisy audio data 1 is a voice communication scenario.
  • the server 22a can query the noise reduction intensity parameter corresponding to the application scenario of the original noisy audio data 1 according to the correspondence between the application scenario and the noise reduction intensity parameter, and determine the queried noise reduction intensity parameter as the target noise reduction intensity parameter 1 corresponding to the original noisy audio data 1.
  • terminal 21a can collect the speech process of user 2 to obtain original noisy audio data 2; the original noisy audio data 2 includes the speech content of user 2 (i.e., voice data 2) and noise data 2, and the noise data 2 reflects the environmental noise during the speech process of user 2, such as the howling emitted by terminal 21a, or the speech content of other people, etc.
  • terminal 21a collects the original noisy audio data 2, it can send the original noisy audio data 2 to server 22a.
  • server 22a After server 22a receives the original noisy audio data 2, it can obtain the target scene parameter 2 of the original noisy audio data 2; the target scene parameter 2 can be used to reflect at least one of the collection scene and application scene of the original noisy audio data 2, and the application scene of the original noisy audio data 2 is used as an example for explanation.
  • the target scenario parameter 2 reflects that the application scenario of the original noisy audio data 2 is a voice communication scenario.
  • the server 22a can query the noise reduction intensity parameter corresponding to the application scenario of the original noisy audio data 2 according to the correspondence between the application scenario and the noise reduction intensity parameter, and determine the queried noise reduction intensity parameter as the target noise reduction intensity parameter 2 corresponding to the original noisy audio data 2.
  • the target noise reduction intensity parameter 2 reflects the intensity of the noise reduction processing required for the noise data in the original noisy audio data 2. Therefore, the server 22a can perform noise reduction processing on the original noisy audio data 1 according to the target noise reduction intensity parameter 1 to obtain the target enhanced audio data 2, and send the target enhanced audio data 2 to the terminal 20a. Some noise data remains in the target enhanced audio data 2 to avoid completely separating the audio data and noise data of the original noisy audio data 2, causing the audio data in the original noisy audio data 2 to be damaged.
  • the terminal 20a receives the target enhanced audio data 2
  • the user 1 can perceive the environment in which the user 2 is located based on the target enhanced audio data 2, so that the voice communication
  • the letter process is more real and full.
  • FIG3 is a flowchart of an audio data processing method provided in an embodiment of the present application.
  • the method can be executed by any terminal in the terminal cluster in FIG1, or by the server in FIG1.
  • the devices used to execute the audio data processing method in the embodiment of the present application can be collectively referred to as computer devices.
  • the method may include the following steps:
  • the computer device may obtain the location information of the acquisition device of the original noisy video data, determine the location information of the acquisition device as the location information of the acquisition environment of the original noisy video data, and determine the location information of the acquisition environment as the target scene parameter of the original noisy video data.
  • the target scene parameter can be used to determine the acquisition scene of the original noisy video data. For example, if the recording environment is determined to be a park based on the location information of the recording environment, it indicates that the acquisition scene of the original noisy video data is outdoors or in an open place; if the recording environment is determined to be an office building based on the location information of the recording environment, it indicates that the acquisition scene of the original noisy video data is indoors, in a private place, etc.
  • the computer device may obtain a program identifier corresponding to a recording application of the original noisy audio data, and determine the program identifier of the recording application as a target scene parameter of the original noisy audio data;
  • the recording application may include but is not limited to: a voice call application, a conference application, a music playback application, etc.
  • the program identifier may be a program name, number, etc.
  • the target scene parameter may be used to determine the application scene of the original noisy audio data, for example, if the program identifier of the recording application indicates that the recording application is a voice call application, it indicates that the application scene of the original noisy audio data is a voice call scene; if the program identifier for the recording application indicates that the recording application is a conference application, it indicates that the application scene of the original noisy audio data is a conference application scene.
  • the target scene parameters may include at least one or more of the environmental parameters of the recording environment of the original noisy audio data, the location information of the recording environment, and the program identifier corresponding to the recording application.
  • the computer device may determine the collection scene associated with the original noisy video data based on the location information of the device that collected the original noisy video data, and the collection scene includes indoors, outdoors, private places or open places, etc.
  • the target scene parameter is used to determine the application scene of the original noisy video data
  • the computer device may determine the application scene of the original noisy video data based on the usage indication information of the owner of the original noisy video data, and the usage indication information is used to indicate the application scene of the original noisy video data, and the application scene may include voice communication, live broadcast, and music playback scenes, etc.
  • the computer device may determine the collection scene associated with the original noisy video data based on the location information of the device that collected the original noisy video data, and the collection scene may include indoors, outdoors, private places or open places, etc.
  • the usage instruction information of the owner of the noisy video data determines the application scenario of the original noisy video data.
  • S102 Determine a target noise reduction intensity parameter for performing noise reduction processing on the original noisy audio data according to the target scene parameter.
  • the computer device can determine the target noise reduction intensity parameter for denoising the original noisy audio data according to the target scene parameter; the target noise reduction intensity parameter is used to indicate the amount of data (i.e., content) corresponding to the noise data to be removed in the original noisy audio data, that is, the target noise reduction intensity parameter is used to indicate the strength of noise reduction for the noise data in the original noisy audio data.
  • the target noise reduction intensity parameter is used to indicate the amount of data (i.e., content) corresponding to the noise data to be removed in the original noisy audio data, that is, the target noise reduction intensity parameter is used to indicate the strength of noise reduction for the noise data in the original noisy audio data.
  • the target noise reduction intensity parameter indicates that the intensity (i.e., power) of the noise data in the original noisy audio data is reduced by 5dB, and the intensity of the noise data in the original noisy audio data (i.e., target enhanced audio data) after noise reduction is 1dB.
  • the target noise reduction intensity parameter is 5dB, because the original signal-to-noise ratio of the original noisy audio data is: the ratio between the power of the audio data in the original noisy audio data and the power of the noise data in the original noisy audio data.
  • the larger the target noise reduction intensity parameter the greater the noise reduction intensity for the original noisy audio data, and the more data corresponding to the noise data to be removed from the original noisy audio data; the smaller the target noise reduction intensity parameter, the smaller the noise reduction intensity for the original noisy audio data, and the less data corresponding to the noise data to be removed from the original noisy audio data.
  • Method three If the target scene parameter includes a program identifier corresponding to the recording application level, and environmental parameters of the recording environment of the original noisy audio data and/or location information of the recording environment, the computer device can determine the application scenario of the original noisy audio data according to the program identifier corresponding to the recording application level, and determine the acquisition scenario of the original noisy audio data according to at least one of the environmental parameters of the recording environment of the original noisy audio data and the location information of the recording environment, that is, determine that the target scene parameter reflects the acquisition scenario and application scenario of the original noisy audio data.
  • the computing device can obtain the quality requirement level of the audio data in the application scenario, and determine the first noise reduction intensity parameter for performing noise reduction processing on the original noisy audio data according to the quality requirement level.
  • the noise type and noise of the sample noise data in the sample noise-containing frequency data are The method comprises the following steps: a noise change characteristic of the noise data of the first noise type in the sample noisy audio data indicates that the intensity of the noise data of the first noise type varies within the range of [5, 10] dB, and the computer device can determine the noise reduction intensity parameter corresponding to the noise data of the first noise type according to [5, 10] dB, such as determining 7.5 dB as the noise reduction intensity parameter corresponding to the noise data of the first noise type.
  • the above step S205 includes: the computing device can obtain the error function of the initial noise reduction processing model, substitute the predicted speech enhancement data and the annotated speech enhancement data into the error function, and obtain the noise reduction processing error of the initial noise reduction processing model.
  • the error function of the initial noise reduction processing model can be a mean square error function or a cross entropy function, etc.
  • the noise reduction processing error is used to measure the noise reduction processing accuracy of the initial noise reduction processing model, that is, the larger the noise reduction processing error, the lower the noise reduction processing accuracy of the initial noise reduction processing model; the smaller the noise reduction processing error, the higher the noise reduction processing accuracy of the initial noise reduction processing model.
  • step S206 in the embodiment of the present application can refer to the above explanation of step S101
  • step S207 in the embodiment of the present application can refer to the above explanation of step S102.
  • the computer device may parse the frequency domain signal of the original noisy audio data through the speech analysis network of the target noise reduction processing model to obtain the cosine transform mask of the original noisy audio data; the cosine transform mask is used to reflect the proportion of audio data in the original noisy audio data, that is, the cosine transform mask is used to reflect the proportion of audio data in the original noisy audio data in the original noisy audio data.
  • the speech generation network of the target noise reduction processing model may be used to generate the target enhanced audio data according to the cosine transform mask of the original noisy audio data, the frequency domain signal of the original noisy audio data, and the target noise reduction intensity parameter.
  • the noise data and the speech data can be distinguished by the difference in the spectrum template of the original noisy audio data, that is, the computer device can extract key speech features based on the difference in the spectrum template of the original noisy audio data.
  • the first speech feature extraction mode, the second speech feature extraction mode and the third speech extraction mode in the embodiment of the present application are respectively methods of extracting key speech features from different angles.
  • the first speech feature extraction mode, the second speech feature extraction mode and the third speech extraction mode are respectively one of the above-mentioned extraction modes based on frequency distribution features, the extraction modes based on spectrum flatness and the extraction modes based on spectrum template differences.
  • the first speech feature extraction mode, the second speech feature extraction mode and the third speech extraction mode may be different, or at least two of the extraction modes may be the same.
  • the target noise reduction processing model includes a feature extraction network 501, a speech analysis network 502, and a speech generation network 503.
  • the feature extraction network is used to convert the original noisy frequency data in the time domain into the frequency domain to obtain the frequency domain signal of the original noisy frequency data.
  • the feature extraction network first resamples the original noisy frequency data x n , and resamples the original noisy frequency data of various sampling rate types to 48kHz. After the resampling is completed, the resampled original noisy frequency data is subjected to frame windowing processing.
  • the resampled original noisy frequency data can be divided into multiple noisy frequency data segments according to a frame length of 1024 and a frame shift of 512, and the multiple noisy frequency data segments are modulated respectively using a Hamming window.
  • a discrete cosine transform (DCT) operation is performed on the modulated multiple noisy frequency data segments to obtain the original The frequency domain signal X k of the noisy frequency data.
  • DCT discrete cosine transform
  • SDCT short-time discrete cosine transform
  • the speech analysis network 502 is used to advance the cosine transform mask of the original noisy frequency data.
  • the speech analysis network can be a deep learning network module.
  • the stride of the two-dimensional convolution is (2,1), which can reduce the number of frequency domain signals by half layer by layer, and the number of time domain frames remains unchanged, which plays a role in reducing the dimension and reducing the amount of calculation.
  • the coding layer 5021 includes three two-dimensional convolutions as an example, namely, two-dimensional convolution 1, two-dimensional convolution 2, and two-dimensional convolution 3.
  • Two-dimensional convolution 1, two-dimensional convolution 2, and two-dimensional convolution 3 extract the first key speech feature, the second key speech feature, and the third key speech feature of the original noisy audio data, respectively.
  • the decoding layer 5023 is mainly composed of DecTConv2d with transposed two-dimensional convolution (ConvTranspose2d) as the kernel.
  • the workflow of the deep learning network module is that the encoding layer receives the frequency domain signal of the original noisy frequency data from the feature extraction network, and then extracts high-dimensional features (i.e., the first key speech feature, the second key speech feature, and the third key speech feature) layer by layer through two-dimensional convolution. The corresponding output is given to the transposed two-dimensional convolution through a jump connection.
  • RNNs receive the third key speech feature from the output of the last layer of two-dimensional convolution 3, perform temporal information extraction and analysis, and give the input to the decoding layer.
  • the decoding layer receives the output from RNNs and the encoding layer, and after layer-by-layer dimensionality increase processing, finally obtains the cosine transform mask
  • the above-mentioned generating target enhanced audio data based on the enhanced signal-to-noise ratio and the frequency domain signal includes: a computer device can perform noise reduction processing on the frequency domain signal of the original noisy frequency data according to the enhanced signal-to-noise ratio and the cosine transform mask of the original noisy frequency data to obtain frequency domain enhanced audio data, transform the frequency domain enhanced audio data to obtain time domain enhanced audio data, and determine the time domain enhanced audio data as the target enhanced audio data.
  • k in formula (3) is the kth sampling point of the original noisy frequency data, and k is a positive integer greater than 1.
  • the original signal-to-noise ratio of the original noisy frequency data can be expressed by the following formula (4):
  • the frequency domain signal of the audio data in the frequency domain enhanced audio data is:
  • the frequency domain signal of the noise data in the frequency domain enhanced audio data is:
  • the frequency domain signal of the frequency domain enhanced audio data can be expressed by the following formula (5):
  • the enhanced signal-to-noise ratio of the original noisy audio data after denoising can be expressed by the following formula (6):
  • the frequency domain signal Xk of the original noisy audio data is equal to the frequency domain signal of the audio data in the frequency domain enhanced audio data.
  • the relationship between can be expressed by the following formula (7):
  • the computer device performs time domain transformation on the above formula (9) to obtain the target enhanced audio data.
  • the noise processing strength of the algorithm on the original noisy audio data is quantitatively controlled.
  • the target noise reduction intensity parameter can be flexibly configured, which improves the adaptability of the present application to different scenarios and improves the generalization of the present application.
  • the present application can cover most voice data application scenarios and actual needs, reducing the difficulty of algorithm development and system complexity.
  • pure speech is not used as the target enhanced speech, but the speech signal (i.e., sample audio data) and the noise signal (i.e., sample noise data) are mixed according to a certain signal-to-noise ratio (sample noise reduction intensity parameter) to obtain the target enhanced speech (i.e., labeled speech enhancement data), which to a certain extent avoids the speech loss problem and noise residual discontinuity problem that are prone to occur in conventional speech enhancement and noise reduction algorithms.
  • sample audio data i.e., sample audio data
  • noise signal i.e., sample noise data
  • a batch of test data i.e., noisy frequency data
  • the noise reduction strength parameter ⁇ snr is set to 5 dB, 10 dB, 20 dB, and 40 dB respectively.
  • the perceptual evaluation of speech quality (PESQ) and scale-invariant signal-to-noise ratio (SI-SNR) are selected as reference indicators for noise reduction effect.
  • FIG6 shows the PESQ scores of noisy video data under different noise reduction intensity parameters.
  • the horizontal axis of FIG6 represents the original signal-to-noise ratio of the noisy video data
  • the vertical axis represents the PESQ score of the noisy video data after noise reduction according to the noise reduction intensity parameter.
  • Each original signal-to-noise ratio corresponds to 5 rectangles.
  • the length of the first rectangle from left to right represents the PESQ score of the noisy video data without noise reduction
  • the lengths of the second to fifth rectangles represent the PESQ scores of the noisy video data after noise reduction according to the noise reduction intensity parameters of 5dB, 10dB, 20dB, and 40dB, respectively.
  • the PESQ score of the noisy video data after noise reduction according to the noise reduction intensity parameter is higher than the PESQ score of the noisy video data without noise reduction, which is particularly obvious when the original signal-to-noise ratio of the noisy video data is greater than 4dB.
  • the larger the noise reduction intensity parameter the higher the PESQ score of the noisy frequency data after being processed according to the noise reduction intensity parameter; the smaller the noise reduction intensity parameter, the lower the PESQ score of the noisy frequency data after being processed according to the noise reduction intensity parameter.
  • FIG7 shows the SI-SNR scores of noisy audio data under different noise reduction intensity parameters.
  • the horizontal axis of FIG7 represents the original signal-to-noise ratio of the noisy audio data
  • the vertical axis represents the SI-SNR score of the noisy audio data after noise reduction processing according to the noise reduction intensity parameter.
  • Each original signal-to-noise ratio corresponds to 5 rectangles.
  • the length of the first rectangle from left to right represents the SI-SNR score of the noisy audio data without noise reduction processing
  • the lengths of the second to fifth rectangles represent the SI-SNR scores of the noisy audio data after noise reduction processing according to the noise reduction intensity parameters of 5dB, 10dB, 20dB, and 40dB, respectively.
  • the SI-SNR score of the noisy audio data after processing according to the noise reduction intensity parameter is higher than the SI-SNR score of the noisy audio data without noise reduction processing.
  • This situation is particularly obvious when the original signal-to-noise ratio of the noisy audio data is greater than 4dB.
  • the noise reduction intensity parameter the higher the SI-SNR score of the noisy audio data after processing according to the noise reduction intensity parameter; the noise reduction intensity parameter The smaller it is, the lower the SI-SNR score of the noisy audio data after being processed according to the noise reduction intensity parameter.
  • a target noise reduction intensity parameter for denoising the original noisy audio data is adaptively determined through a target scene parameter associated with the original noisy audio data, and based on the target noise reduction intensity parameter, the noise content in the original noisy audio data is quantitatively reduced. That is, the target scene parameter here reflects at least one of the application scene and the acquisition scene of the original noisy audio data, and the target noise reduction intensity parameter reflects the strength of noise suppression in the original noisy audio data.
  • the noise content in the original noisy audio data is quantitatively reduced, and a certain degree of noise residue is accepted, without completely separating the noise data and audio data in the original noisy audio data, to completely suppress the noise, avoid loss of effective audio data during noise reduction, improve the quality of audio data, and improve the flexibility of noise processing.
  • FIG 8 is a schematic diagram of the structure of an audio data processing device provided in an embodiment of the present application.
  • the above-mentioned audio data processing device can be a computer program (including program code) running in a network device, for example, the audio data processing device is an application software; the device can be used to execute the corresponding steps in the method provided in an embodiment of the present application.
  • the audio data processing device may include:
  • the determination module 802 includes an acquisition unit 81a and a determination unit 82a; the acquisition unit 81a is configured to acquire the quality requirement level of the audio data in the application scenario if the target scenario parameter is used to determine the application scenario of the original noisy audio data; the determination unit 82a is configured to determine the target noise reduction intensity parameter for denoising the original noisy audio data based on the quality requirement level.
  • the acquisition unit 81a is configured to acquire the historical noise data within a historical time period in the acquisition scene if the target scene parameter is used to determine the acquisition scene of the original noisy audio data; the determination unit 82a is configured to determine the target noise reduction intensity parameter for denoising the original noisy audio data based on the historical noise data.
  • the determination unit 82a determines the target noise reduction intensity parameters for denoising the original noisy audio data based on the historical noise data, including: determining from the historical noise data, the noise type and noise change characteristics corresponding to the noise data of the acquisition scene within the historical time period; and determining the target noise reduction intensity parameters for denoising the original noisy audio data based on the noise type and the noise change characteristics.
  • the noise data of the acquisition scene within the historical time period corresponds to M noise types
  • the determination unit 82a determines the target noise reduction intensity parameters for denoising the original noisy audio data according to the noise type and the noise change characteristics, including: determining M candidate noise reduction intensity parameters for denoising the original noisy audio data based on the noise change characteristics corresponding to the M noise types respectively; determining the M candidate noise reduction intensity parameters as the target noise reduction intensity parameters; or performing mean calculation on the M candidate noise intensity parameters to obtain the target noise reduction intensity parameters.
  • the processing module 803 includes an extraction unit 83a, a parsing unit 84a and a generation unit 85a;
  • the extraction unit 83a is configured to extract the frequency domain signal of the original noisy audio data through the feature extraction network of the target noise reduction processing model;
  • the parsing unit 84a is configured to parse the frequency domain signal of the original noisy audio data through the speech parsing network of the target noise reduction processing model to obtain the cosine transform mask of the original noisy audio data;
  • the cosine transform mask is used to reflect the proportion of audio data in the original noisy audio data;
  • the generation unit 85a is configured to generate the cosine transform mask of the original noisy audio data according to the cosine transform of the original noisy audio data through the speech generation network of the target noise reduction processing model.
  • the target enhanced audio data is generated by combining the mask, the frequency domain signal of the original noisy audio data and the target noise reduction strength parameter.
  • the parsing unit 84a parses the first key speech feature, the second key speech feature and the third key speech feature to obtain a cosine transform mask of the original noisy audio data, including: parsing the third key speech feature through the timing parsing layer in the speech parsing network to obtain the timing information of the original noisy audio data; parsing through the decoding layer in the speech parsing network according to the timing information, the first key speech feature, the second key speech feature and the third key speech feature to obtain a cosine transform mask of the original noisy audio data.
  • the training module 805 adjusts the model parameters of the initial denoising processing model according to the denoising processing error and the stability to obtain the target denoising processing model, including: The processing error determines the convergence state of the initial denoising processing model; if the convergence state of the initial denoising processing model is a non-converged state, or the stability is less than a stability threshold, the model parameters of the initial denoising processing model are adjusted according to the denoising processing error; until the convergence state of the adjusted initial denoising processing model is a converged state, and the corresponding stability is greater than or equal to the stability threshold, the adjusted initial denoising processing model is determined as the target denoising processing model.
  • the generation module 804 generates annotated speech enhancement data according to the sample noise reduction intensity parameter, the sample audio data and the sample noise data, including: performing noise reduction processing on the sample noise data according to the sample noise reduction intensity parameter to obtain processed sample noise data; combining the processed sample noise data with the sample audio data to obtain annotated speech enhancement data.
  • the various modules in the audio data processing device shown in Figure 8 can be separately or all combined into one or several units to constitute, or one (some) of the units can be further divided into at least two functionally smaller sub-units, which can achieve the same operation without affecting the realization of the technical effects of the embodiments of the present application.
  • the above modules are divided based on logical functions.
  • the functions of one module can also be implemented by at least two units, or the functions of at least two modules can be implemented by one unit.
  • the audio data processing device may also include other units.
  • these functions can also be implemented with the assistance of other units, and can be implemented by the collaboration of at least two units.
  • a target noise reduction intensity parameter for noise reduction processing of the original noisy audio data is adaptively determined through a target scene parameter associated with the original noisy audio data, and based on the target noise reduction intensity parameter, the noise content in the original noisy audio data is quantitatively reduced. That is, the target scene parameter here reflects at least one of the application scene and the acquisition scene of the original noisy audio data, and the target noise reduction intensity parameter reflects the strength of noise suppression in the original noisy audio data.
  • the processor 1001 may be configured to call a computer application stored in the memory 1005.
  • the method includes: parsing the third key speech feature through the timing parsing layer in the speech parsing network to obtain the timing information of the original noisy audio data; parsing according to the timing information, the first key speech feature, the second key speech feature and the third key speech feature through the decoding layer in the speech parsing network to obtain the cosine transform mask of the original noisy audio data.
  • the processor 1001 can be used to call a computer application stored in the memory 1005 to achieve: obtaining sample audio data and sample noise data, and generating sample noisy audio data based on the sample audio data and the sample noise data; obtaining sample noise reduction intensity parameters for performing noise reduction processing on the sample noisy audio data; generating labeled speech enhancement data based on the sample noise reduction intensity parameters, the sample audio data and the sample noise data; performing noise reduction processing on the sample noisy audio data based on the sample noise reduction intensity parameters through an initial noise reduction processing model to obtain predicted speech enhancement data; optimizing and training the initial noise reduction processing model based on the predicted speech enhancement data and the labeled speech enhancement data to obtain the target noise reduction processing model.
  • the processor 1001 can be used to call a computer application stored in the memory 1005 to optimize the training of the initial noise reduction processing model according to the predicted speech enhancement data and the annotated speech enhancement data to obtain the target noise reduction processing model, including: determining the noise reduction processing error of the initial noise reduction processing model according to the predicted speech enhancement data and the annotated speech enhancement data; determining the stability of the noise data contained in the predicted speech enhancement data according to the predicted speech enhancement data; adjusting the model parameters of the initial noise reduction processing model according to the noise reduction processing error and the stability to obtain the target noise reduction processing model.
  • the processor 1001 can be used to call a computer application stored in the memory 1005 to adjust the model parameters of the initial denoising processing model according to the denoising processing error and the stability to obtain the target denoising processing model, including: determining the convergence state of the initial denoising processing model according to the denoising processing error; if the convergence state of the initial denoising processing model is an unconverged state, or the stability is less than a stability threshold, adjusting the model parameters of the initial denoising processing model according to the denoising processing error; until the convergence state of the adjusted initial denoising processing model is a converged state, and the corresponding stability is greater than or equal to the stability threshold, the adjusted initial denoising processing model is determined as the target denoising processing model.
  • the noise content in the original noisy audio data is quantitatively reduced, and a certain degree of noise residue is accepted, without completely separating the noise data and audio data in the original noisy audio data, to completely suppress the noise, avoid the loss of effective audio data during noise reduction, improve the quality of audio data, and improve the flexibility of noise processing.
  • the computer device described in the embodiments of the present application can execute the description of the above-mentioned audio data processing method in the corresponding embodiments above, and can also execute the description of the above-mentioned audio data processing device in the corresponding embodiments above.
  • the embodiment of the present application also provides a computer-readable storage medium
  • the above-mentioned computer-readable storage medium stores a computer program executed by the audio data processing device mentioned above, and the above-mentioned computer program includes program instructions.
  • the above-mentioned processor executes the above-mentioned program instructions, it can execute the description of the above-mentioned audio data processing method in the corresponding embodiment of the above text.
  • the description of the beneficial effects of using the same method will not be repeated.
  • the description of the method embodiment of this application please refer to the description of the method embodiment of this application.
  • the above program instructions may be deployed on a computer device for execution, or deployed on at least two computer devices at one location for execution, or executed on at least two computer devices distributed at at least two locations and interconnected through a communication network.
  • At least two computer devices distributed at at least two locations and interconnected through a communication network may constitute a blockchain network.
  • the above-mentioned computer-readable storage medium can be the audio data processing device provided in any of the above-mentioned embodiments or the central storage unit of the above-mentioned computer device, such as the hard disk or memory of the computer device.
  • the computer-readable storage medium can also be an external storage device of the computer device, such as a plug-in hard disk equipped on the computer device, a smart memory card (SMART Media card, SMC), a secure digital (Secure digital, SD) card, a flash memory card (flaSh card), etc.
  • the computer-readable storage medium can also include both the central storage unit of the computer device and an external storage device.
  • the computer-readable storage medium is used to store the computer program and other programs and data required by the computer device.
  • the computer-readable storage medium can also be used to temporarily store data that has been output or is to be output.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

一种音频数据处理方法、装置、设备及存储介质,应用于云技术中的云服务器,方法包括:获取待处理的原始带噪音频数据,以及与原始带噪音频数据关联的目标场景参数(S101),根据目标场景参数,确定用于对原始带噪音频数据进行降噪处理的目标降噪强度参数(S102),根据目标降噪强度参数,对原始带噪音频数据进行降噪处理,得到目标增强音频数据(S103)。

Description

音频数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品
相关申请的交叉引用
本申请基于申请号为202211725937.6、申请日为2022年12月30日的中国专利申请提出,并要求以上中国专利申请的优先权,以上中国专利申请的全部内容在此引入本申请作为参考。
技术领域
本申请涉及云技术等领域,尤其涉及一种音频数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品。
背景技术
目前,基于互联网的IP语音传输(Voice over Internet Protocol,VoIP)通信和蜂窝通信等通信系统已在多种通信场景中普及,例如,网络电话、网络会议、直播等。由于讲话者所处环境复杂且具有多样性,导致采集到的音频数据通常包含噪声数据,因此,需要对带噪音频数据(即包含噪声数据的音频数据)进行去噪声处理,以确保音频数据的质量。目前在对带噪音频数据进行去噪声处理的过程中,需要将噪声数据与纯音频数据(即有效语音数据)完全分离,进而去除噪声;实践中发现,这种去噪声处理方式,会对纯音频数据造成一定程度的损失,导致音频数据的质量不佳。
发明内容
本申请实施例提供一种音频数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品,能够避免降噪时对有效音频数据造成损失,从而提高音频数据的质量。
本申请实施例提供一种音频数据处理方法,应用于计算机设备,包括:
获取待处理的原始带噪音频数据,以及与所述原始带噪音频数据关联的目标场景参数;
根据所述目标场景参数,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数;
根据所述目标降噪强度参数,对所述原始带噪音频数据进行降噪处理,得到目标增强音频数据。
本申请实施例提供一种音频数据处理装置,包括:
获取模块,用于获取待处理的原始带噪音频数据,以及与所述原始带噪音频数据关联的目标场景参数;
确定模块,用于根据所述目标场景参数,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数;
处理模块,用于根据所述目标降噪强度参数,对所述原始带噪音频数据进行降噪处理,得到目标增强音频数据。
本申请实施例提供了一种计算机设备,包括存储器和处理器,上述存储器存储有计 算机程序,上述处理器执行上述计算机程序时实现上述的音频数据处理方法的步骤。
本申请实施例一方面提供了一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现上述的音频数据处理方法的步骤。
本申请实施例一方面提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的音频数据处理方法的步骤。
在本申请实施例中,通过原始带噪音频数据关联的目标场景参数,自适应地确定用于对原始带噪音频数据进行降噪处理的目标降噪强度参数,基于目标降噪强度参数,定量地降低原始带噪音频数据中的噪声含量。即此处的目标场景参数反映原始带噪音频数据的应用场景和采集场景中的至少一种,目标降噪强度参数反映对原始带噪音频数据中的噪声抑制的力度。换言之,通过原始带噪音频数据的应用场景中针对音频数据的实际需求(和\或原始带噪音频数据的采集场景中的噪声分布情况),定量地降低原始带噪音频数据中的噪声含量,并接受一定程度的噪声残留,不需要完全分离原始带噪音频数据中的噪声数据和音频数据,来彻底抑制噪声,避免在降噪时对有效音频数据造成损失,提高音频数据的质量,提高噪声处理的灵活性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种音频数据处理系统示意图;
图2是本申请提供的一种音频数据处理方法的交互场景示意图;
图3是本申请提供的一种音频数据处理方法的流程示意图;
图4是本申请提供的一种音频数据处理方法的流程示意图;
图5是本申请提供的一种目标降噪处理模型的结构示意图;
图6为是本申请提供的一种带噪音频数据在不同降噪强度参数下的PESQ得分情况的示意图;
图7为是本申请提供的一种带噪音频数据在不同降噪强度参数下的SI-SNR得分情况的示意图;
图8是本申请实施例提供的一种音频数据处理装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中主要涉及人工智能云服务,所谓人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以 使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
例如,该人工智能云服务中包括用于对带噪音频数据进行降噪处理的目标降噪处理模型,当需要对原始带噪音频数据进行降噪处理时,计算机设备可以通过API接口调用该人工智能云服务中的目标降噪处理模型,将该原始带噪音频数据和目标降噪强度参数输入至该目标降噪处理模型中。通过该目标降噪处理模型基于该目标降噪强度参数,对原始带噪音频数据进行降噪处理,实现定量地降低原始带噪音频数据中的噪声含量,避免降噪时对有效音频数据造成损失,提高音频数据的质量,使音频数据的降噪处理更加智能化。同时,不同计算机设备均可调用该目标降噪处理模型,实现多个计算机设备共享目标降噪处理模型,提高目标降噪处理模型的利用率,不需要计算机设备单独训练得到目标降噪处理模型,降低计算机设备的计算资源开销。
为了便于更清楚理解本申请,首先介绍实现本申请的音频数据处理系统,如图1所示,该音频数据处理系统中包括服务器10和终端集群,终端集群可以包括一个或者多个终端,这里将不对终端的数量进行限制。如图1所示,终端集群可以包括终端1、终端2、…、终端n;可以理解的是,终端1、终端2、终端3、…、终端n均可以与服务器10进行网络连接,以便于每个终端均可以通过网络连接与服务器10之间进行数据交互。
终端中安装有一个或多个目标应用,此处的目标应用可以是指具有语音通信功能的应用,如目标应用包括独立的应用程序、网页应用、宿主应用中的小程序等。终端集群中的任一终端可以作为发送终端,也可以作为接收终端,发送终端可以是指生成原始带噪音频数据并发送原始带噪音频数据的终端,接收终端可以是指接收原始带噪音频数据的终端。例如,终端1对应的用户1与终端2对应的用户2进行语音通信时,当用户1需要向用户2发送音频数据时,这时终端1可以称为发送终端,终端2可以称为接收终端;同理,当用户2需要向用户1发送音频数据时,这时终端2可以称为发送终端,终端1可以称为接收终端。
服务器10是指为终端中的目标应用提供后端服务的设备,在一个实施例中,服务器可以用于对发送终端发送的原始带噪音频数据进行降噪处理等等,将降噪处理后的原始带噪音频数据转发至接收终端。在一个实施例中,服务器10可以用于将发送终端发送的原始带噪音频数据转发至接收终端,由接收终端对原始带噪音频数据进行降噪处理,得到处理后的原始带噪音频数据。在一个实施例中,服务器可以用于接收发送终端发送的降噪处理后原始带噪音频数据,并将降噪处理后原始带噪音频数据转发至接收终端,即降噪处理后原始带噪音频数据是由发送终端对原始带噪音频数据进行降噪处理得到的。
在一些实施例中,本申请实施例中的原始带噪音频数据可以是指由发送终端的麦克风采集到的音频数据,即原始带噪音频数据是指未进行降噪处理的音频数据,通常原始带噪音频数据包括音频数据和噪声数据。音频数据可以是指对用户有用的数据,如该音频数据可以是指用户语音通信过程中的语音数据,或音频数据可以是指用户录制的音乐作品等等;音频数据可以由人、动物、机器人等所发出的声音进行采集得到的。此处的噪声数据可以是指对用户无意义的数据,如该噪声数据可以是指环境噪声,例如,在用户语音通信的过程中,除通话双方的语音数据以外的音频数据均为噪声数据。
在一些实施例中,服务器可以是独立的一个物理服务器,也可以是至少两个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、中容分发网络(Content Delivery NetworK,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是指车载终端、智能手机、平板电脑、笔记本电脑、桌上型电脑、 智能音箱、有屏音箱、智能手表等等,但并不局限于此。各个终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,同时,终端以及服务器的数量可以为一个或至少两个,本申请在此不做限制。
图1的音频数据处理系统可应用于语音通信场景、直播场景、音视频录制场景等等,以图1的音频数据系统应用于图2所示的语音通信场景为例进行说明,图2中的终端20a可以为图1中的终端集群中的任一终端,图2中的终端21a可以为图1中的终端集群中除终端20a以外的任一终端,图2中的服务器22a可以为图1中的服务器10。
在终端20a对应的用户1与终端21a对应的用户2进行语音通信的过程中,终端20a可以对用户1的讲话过程进行采集,得到原始带噪音频数据1;该原始带噪音频数据1包括用户1的讲话内容(即语音数据1)以及噪声数据1,噪声数据1反映用户1讲话的过程中的环境噪声,如终端20a发出的啸叫,或其他人的讲话内容等等。终端20a采集到原始带噪音频数据1后,可以将该原始带噪音频数据1发送至服务器22a,服务器22a接收到原始带噪音频数据1后,可以获取该原始带噪音频数据1的目标场景参数1;该目标场景参数1可以用于反映该原始带噪音频数据1的采集场景和应用场景中的至少一种,以该目标场景参数1反映该原始带噪音频数据1的应用场景为例进行说明。该目标场景参数1反映原始带噪音频数据1的应用场景为语音通信场景,服务器22a可以根据应用场景与降噪强度参数之间的对应关系,查询该原始带噪音频数据1的应用场景对应的降噪强度参数,将查询到的降噪强度参数确定为原始带噪音频数据1对应的目标降噪强度参数1。
目标降噪强度参数1反映原始带噪音频数据1需要对噪声数据进行降噪处理的力度,因此,服务器22a可以根据该目标降噪强度参数1对原始带噪音频数据1进行降噪处理,得到目标增强音频数据1,将该目标增强音频数据1发送至终端21a。该目标增强音频数据1中残留了部分噪声数据,避免对原始带噪音频数据1的音频数据与噪声数据完全分离,造成原始带噪音频数据1中的音频数据受损。终端21a接收到目标增强音频数据1后,用户2可以基于目标增强音频数据1感知用户1所处的环境,使语音通信过程更加真实饱满。
同理,在终端20a对应的用户1与终端21a对应的用户2进行语音通信的过程中,终端21a可以对用户2的讲话过程进行采集,得到原始带噪音频数据2;该原始带噪音频数据2包括用户2的讲话内容(即语音数据2)以及噪声数据2,噪声数据2反映用户2讲话的过程中的环境噪声,如终端21a发出的啸叫,或其他人的讲话内容等等。终端21a采集到原始带噪音频数据2后,可以将该原始带噪音频数据2发送至服务器22a,服务器22a接收到原始带噪音频数据2后,可以获取该原始带噪音频数据2的目标场景参数2;该目标场景参数2可以用于反映该原始带噪音频数据2的采集场景和应用场景中的至少一种,以该目标场景参数2反映该原始带噪音频数据2的应用场景为例进行说明。该目标场景参数2反映原始带噪音频数据2的应用场景为语音通信场景,服务器22a可以根据应用场景与降噪强度参数之间的对应关系,查询该原始带噪音频数据2的应用场景对应的降噪强度参数,将查询到的降噪强度参数确定为原始带噪音频数据2对应的目标降噪强度参数2。
目标降噪强度参数2反映需要对原始带噪音频数据2中的噪声数据进行降噪处理的力度,因此,服务器22a可以根据该目标降噪强度参数1对原始带噪音频数据1进行降噪处理,得到目标增强音频数据2,将该目标增强音频数据2发送至终端20a。该目标增强音频数据2中残留了部分噪声数据,避免对原始带噪音频数据2的音频数据与噪声数据完全分离,造成原始带噪音频数据2中的音频数据受损。终端20a接收到目标增强音频数据2后,用户1可以基于目标增强音频数据2感知用户2所处的环境,使语音通 信过程更加真实饱满。
在一些实施例中,请参见图3,是本申请实施例提供的一种音频数据处理方法的流程示意图。如图3所示,该方法可由图1中的终端集群中的任一终端来执行,也可以由图1中的服务器来执行,本申请实施例中用于执行该音频数据处理方法的设备可以统称为计算机设备。其中,该方法可以包括如下步骤:
S101、获取待处理的原始带噪音频数据,以及与该原始带噪音频数据关联的目标场景参数。
在一些实施例中,计算机设备可以采集得到待处理的原始带噪音频数据,或,计算机设备可以从其他设备中获取待处理的原始带噪音频数据,然后获取与该原始带噪音频数据关联的目标场景参数。该目标场景参数用于确定该原始带噪音频数据的采集场景和应用场景中的至少一种。
在一个实施例中,计算机设备可以通过传感器对原始带噪音频数据的录制环境进行检测,得到录制环境的环境参数,将该录制环境的环境参数,确定为该原始带噪音频数据的目标场景参数;录制环境的环境参数包括光线、温度、湿度等等中的一种或多种,即目标场景参数包括录制环境的环境参数。该目标场景参数可用于确定原始带噪音频数据的采集场景,例如,如果录制环境的光线为自然光,则表明原始带噪音频数据的采集场景为户外;如果录制环境的光线为人造光,则表明原始带噪音频数据的采集场景为室内。
在一个实施例中,计算机设备可以获取该原始带噪音频数据的采集设备的位置信息,将采集设备的位置信息确定为原始带噪音频数据的采集环境的位置信息,将该采集环境的位置信息确定为该原始带噪音频数据的目标场景参数。该目标场景参数可用于确定原始带噪音频数据的采集场景,例如,如果基于录制环境的位置信息确定录制环境为公园,则表明原始带噪音频数据的采集场景为户外或开放场所;如果基于录制环境的位置信息确定录制环境为办公楼,则表明原始带噪音频数据的采集场景为室内、私密场所等。
在一个实施例中,计算机设备可以获取原始带噪音频数据的录制应用程序对应的程序标识,将该录制应用程序的程序标识,确定为原始带噪音频数据的目标场景参数;录制应用程序可以包括但不限于:语音通话应用程序、会议应用程序、音乐播放应用程序等等,程序标识可以为程序名称、编号等。该目标场景参数可用于确定原始带噪音频数据的应用场景,例如,如果录制应用程序的程序标识指示录制应用程序为语音通话应用程序,则表明该原始带噪音频数据的应用场景为语音通话场景;如果用于录制应用程序的程序标识指示录制应用程序为会议应用程序,则表明该原始带噪音频数据的应用场景为会议应用场景。
在一些实施例中,目标场景参数可以包括原始带噪音频数据的录制环境的环境参数、录制环境的位置信息以及录制应用程序对应的程序标识等中的至少一种或多种。
在一个实施例中,当该目标场景参数用于确定该原始带噪音频数据的采集场景时,计算机设备可以根据采集该原始带噪音频数据的设备的位置信息,确定该原始带噪音频数据关联的采集场景,该采集场景包括室内、户外、私密场所或开放场所等等。在一个实施例中,当该目标场景参数用于确定该原始带噪音频数据的应用场景时,计算机设备可以根据该原始带噪音频数据的所有者的使用指示信息,确定该原始带噪音频数据的应用场景,使用指示信息用于指示该原始带噪音频数据的应用场景,该应用场景可以包括语音通信、直播、音乐作品的播放场景等等。在一个实施例中,当该目标场景参数用于确定该原始带噪音频数据的应用场景和采集场景时,计算机设备可以根据采集该原始带噪音频数据的设备的位置信息,确定该原始带噪音频数据关联的采集场景,根据该原始 带噪音频数据的所有者的使用指示信息,确定该原始带噪音频数据的应用场景。
S102、根据该目标场景参数,确定用于对该原始带噪音频数据进行降噪处理的目标降噪强度参数。
在一些实施例中,计算机设备可以根据该目标场景参数,确定用于对该原始带噪音频数据进行降噪处理的目标降噪强度参数;该目标降噪强度参数用于指示原始带噪音频数据中需去除的噪声数据对应的数据量(即含量),也即目标降噪强度参数用于指示对原始带噪音频数据中的噪声数据的降噪力度。例如,假设原始带噪音频数据中的噪声数据的强度为6dB,该目标降噪强度参数为5dB,该目标降噪强度参数指示将原始带噪音频数据中的噪声数据的强度(即功率)降低5dB,降噪处理后的原始带噪音频数据(即目标增强音频数据)中的噪声数据的强度为1dB。或者,假设原始带噪音频数据的原始信噪比为10dB,该目标降噪强度参数为5dB,由于原始带噪音频数据的原始信噪比为:原始带噪音频数据中的音频数据的功率与原始带噪音频数据中的噪声数据的功率之间的比值。因此,将原始带噪音频数据中的噪声数据的强度(即功率)降低5dB,相当于将原始带噪音频数据中音频数据的信噪比提升5dB,即降噪处理后的原始带噪音频数据(即目标增强音频数据)的信噪比变更为5dB+6dB=11dB。该目标降噪强度参数越大,表明针对原始带噪音频数据的降噪力度越大,原始带噪音频数据中需去除的噪声数据对应数据量越多;该目标降噪强度参数越小,表明针对原始带噪音频数据的降噪力度越小,原始带噪音频数据中需去除的噪声数据对应数据量越少。
在一些实施例中,计算机设备可以通过如下三种方式中的任一种方式,确定用于对原始带噪音频数据进行降噪处理的目标降噪强度参数:方式一,如果目标场景参数包括录制应用程序对应的程序标识,计算机设备可以根据录制应用程序对应的程序标识确定该原始带噪音频数据的应用场景,即确定该目标场景参数能够表征该原始带噪音频数据的应用场景,获取在该应用场景下关于音频数据的质量需求等级;该质量需求等级反映该应用场景下针对音频数据的质量要求,即该质量需求等级越高,该应用场景下针对音频数据的质量要求越高;即该质量需求等级越低,该应用场景下针对音频数据的质量要求越低。通常针对该原始带噪音频数据的目标降噪强度参数越大,原始带噪音频数据中需去除的噪声数据对应数据量越多,同时,对原始带噪音频数据中音频数据的损失也越大;针对该原始带噪音频数据的目标降噪强度参数越小,原始带噪音频数据中需去除的噪声数据对应数据量越少,同时,对原始带噪音频数据中音频数据的损失也越小。因此,计算设备可以根据该质量需求等级与降噪强度参数之间的对应关系,查询该原始带噪音频数据对应的质量需求等级对应的降噪强度参数,将查询到的降噪强度参数,确定为用于对该原始带噪音频数据进行降噪处理的目标降噪强度参数。此处质量需求等级与降噪强度参数之间的对应关系可以是根据历史经验得到的,该质量需求等级与目标降噪强度参数之间具有负相关关系。也就是说,质量需求等级越低,目标降噪强度参数越大;质量需求等级越高,目标降噪强度参数越小,避免过度对原始带噪音频数据降噪处理,造成原始带噪音频数据中的音频数据受到损失,提高音频数据的质量。
例如,在视频会议场景下用户通常可接受音频数据的质量受到一定程度的损失,不接受该视频会议场景下存在大量噪声数据。因此,计算机设备可以将第一质量等级确定为原始带噪音频数据在视频会议场景下的质量需求等级;将第一降噪强度参数,确定为用于对原始带噪音频数据进行降噪处理的目标降噪强度参数,以便消除视频会议场景下更多的噪声数据,避免噪声数据干扰视频会议。在语音通信场景下用户通常对音频数据的质量要求比较高,接受语音数据场景下存在一定的噪声数据。因此,计算机设备可以将第二质量等级确定为原始带噪音频数据在视频会议场景下的质量需求等级;将第二降噪强度参数,确定为用于对原始带噪音频数据进行降噪处理的目标降噪强度参数,以便 消除视频会议场景下较少的噪声数据,以便用户可以基于残留的噪声数据,感受语音通信双方所在的真实环境,给语音通信双方营造身临其境的氛围。第一质量等级小于第二质量等级,第一降噪强度参数大于第二降噪强度参数。
方式二,如果该目标场景参数包括该原始带噪音频数据的录制环境的环境参数和录制环境的位置信息中的至少一种,则计算机设备可以根据该目标场景参数确定原始带噪音频数据的采集场景,即确定该目标场景参数反映该原始带噪音频数据的采集场景,计算设备可以获取在该采集场景中在历史时间段内的历史噪声数据,该历史时间段可以是指近一天内,近一周内,或者,该历史时间段是根据当前时间确定的,如该当前时间段为12月16日的19:20:00~19:30:00,历史时间段可以是指12月15日的19:20:00~19:30:00。由于同一采集场景下在历史时间段内的噪声数据的分布特征,与该当前时间段内的噪声数据的分布特征具有相似性,因此,计算机设备可以根据该历史噪声数据,确定用于对该原始带噪音频数据进行降噪处理的目标降噪强度参数。通过采集场景下的历史噪声数据,确定目标降噪强度参数,避免噪声残留不稳定的问题,即噪声数据忽大忽小,忽有忽无。
需要说明的是,上述根据该历史噪声数据,确定用于对该原始带噪音频数据进行降噪处理的目标降噪强度参数,包括:计算机设备可以从该历史噪声数据中,确定该采集场景在该历史时间段内的噪声数据对应噪声类型和噪声变化特征。该噪声类型包括稳态噪声、非稳态噪声以及脉冲噪声等等,稳态噪声是指噪声强度的变化较小(一般不大于3dB),且不随时间有大幅度的变化,如电机、风机及其他电磁噪声,固定转速的摩擦、转动等噪声。非稳态噪声:指噪声强度随时间而有起伏波动(声压变化大于3dB),有的呈周期性噪声,如锤击;有的呈无规律的起伏噪声,如交通噪声。脉冲噪声:指持续时间小于1s的单个或多个突发声组成的噪声,声压级原始水平升至峰值又回至原始水平所需的持续时间短于500ms,其峰值声压级大于40dB。脉冲噪声往往是突发的高强噪声,如爆破、火炮发射等所产生的噪声。该噪声变化特征是指历史噪声数据的强度随时间的变化速度(即变化快慢),也即该噪声变化特征反映历史噪声数据是否稳定。在一些实施例中,计算机设备可以根据该噪声类型和该噪声变化特征,确定用于对该原始带噪音频数据进行降噪处理的目标降噪强度参数,通过采集场景下的历史噪声数据的分布特征(即噪声类型和噪声变化特征),确定目标降噪强度参数,避免噪声残留不稳定的问题。
需要说明的是,该采集场景在历史时间段内的历史噪声数据的噪声类型的数量为M时,M为大于或等于1的正整数,计算机设备可以基于M个噪声类型的历史噪声数据分别对应的噪声变化特征,确定用于对原始带噪音频数据进行降噪处理的M个候选降噪强度参数,一个噪声类型的历史噪声数据对应一个候选降噪强度参数。在一些实施例中,计算机设备可以将M个候选降噪强度参数,确定为目标降噪强度参数;或者,计算机设备可以根据M个候选降噪强度参数进行加权平均处理(或算数平均处理),得到目标降噪强度参数。噪声类型的历史噪声数据对应的候选降噪强度参数,可以为随着对应噪声变化特征变化的变量,或者,噪声类型的历史噪声数据对应的候选降噪强度参数,可以为基于对应噪声变化特征变化确定的固定值。这样可以避免无法抑制所有噪声类型的噪声,同时,避免在非稳态噪声情况下,由于噪声变化特征随时间变化而快速变化,从而引起噪声残留不连续的问题,即避免经过降噪处理后的原始带噪音频数据中的噪声数据出现忽大忽小、忽有忽无,导致音频数据的可感知度比较地问题。换言之,通过根据历史噪声数据的噪声类型和噪声变化特征,确定用于对原始带噪音频数据进行降噪处理的目标降噪强度参数,这样有利于对原始带噪音频数据中的所有噪声类型的噪声进行降噪处理(即抑制处理),使降噪处理后的原始带噪音频数据中的噪声残留更加稳 定、平滑,提高降噪处理后的原始带噪音频数据中的音频数据的感知度。
例如,原始带噪音频数据中的第一噪声类型的噪声数据的噪声变化特征指示第一噪声类型的噪声数据的强度位于[5,10]dB范围内变化,计算机设备可以根据[5,10]dB确定第一噪声类型的噪声数据对应的降噪强度参数,如将3dB确定为第一噪声类型的噪声数据对应的降噪强度参数。同理,原始带噪音频数据中的第二噪声类型的噪声数据的噪声变化特征指示第二噪声类型的噪声数据的强度位于[2,6]dB范围内变化,计算机设备可以根据[2,6]dB确定第二噪声类型的噪声数据对应的降噪强度参数,如将4dB确定为第二噪声类型的噪声数据对应的降噪强度参数。然后,可以将第一噪声类型的噪声数据对应的降噪强度参数,以及第二噪声类型的噪声数据对应的降噪强度参数,确定为用于对原始带噪音频数据进行降噪处理的目标降噪强度参数。其中,第一噪声类型的噪声数据对应的降噪强度参数用于对原始带噪音频数据中的第一噪声类型的噪声数据进行降噪处理,第二噪声类型的噪声数据对应的降噪强度参数用于对原始带噪音频数据中的第二噪声类型的噪声数据进行降噪处理。第一噪声数据类型的噪声数据的降噪处理顺序可以位于第二噪声数据类型的噪声数据的降噪处理顺序之前(或之后),第一噪声数据类型的噪声数据的降噪处理顺序与第二噪声数据类型的噪声数据的降噪处理顺序相同。其中,第一噪声类型可以是指稳态噪声,第二噪声类型可以为非稳态噪声。或者,计算机设备可以对第一噪声类型的噪声数据对应的降噪强度参数和第二噪声类型的噪声数据对应的降噪强度参数进行合并处理,得到用于对原始带噪音频数据进行降噪处理的目标降噪强度参数,此处的合并处理可以为求和处理或平均化处理等等。
方式三,如果目标场景参数包括录制应用程度对应的程序标识,以及该原始带噪音频数据的录制环境的环境参数和/或录制环境的位置信息,计算机设备可以根据录制应用程度对应的程序标识,确定原始带噪音频数据的应用场景,根据该原始带噪音频数据的录制环境的环境参数和录制环境的位置信息中的至少一种,确定该原始带噪音频数据的采集场景,即确定该目标场景参数反映该原始带噪音频数据的采集场景和应用场景。计算设备可以获取在该应用场景下关于音频数据的质量需求等级,根据该质量需求等级确定用于对该原始带噪音频数据进行降噪处理的第一降噪强度参数。之后获取在该采集场景中在历史时间段内的历史噪声数据,根据该历史噪声数据,确定用于对该原始带噪音频数据进行降噪处理的第二降噪强度参数。上述确定第一降噪强度参数的实现过程可以参考上述方式一,确定第二降噪强度参数的实现过程可以参考上述方式二;然后,对第一降噪强度参数和第二降噪强度参数进行平均化处理,得到用于对原始带噪音频数据进行降噪处理的目标降噪强度参数,或者,计算机设备可以将第一降噪强度参数和第二降噪强度参数,确定为用于对原始带噪音频数据进行降噪处理的目标降噪强度参数,即目标降噪强度参数包括第一降噪强度参数和第二降噪强度参数。通过综合考虑原始带噪音频数据的采集场景和应用场景,确定用于对原始带噪音频数据进行降噪处理的目标降噪强度参数,提高对原始带噪音频数据进行降噪处理的准确度。
在一些实施例中,当目标降噪强度参数包括上述第一降噪强度参数和第二降噪强度参数时,第一降噪强度参数的对应的处理顺序位于第二降噪强度参数对应的处理顺序之前,即计算机设备可以先采用第一降噪强度参数对原始带噪音频数据进行降噪处理,得到第一候选增强音频数据,然后,采用第二降噪强度参数对第一候选增强音频数据进行降噪处理,得到目标增强音频数据。第一降噪强度参数的对应的处理顺序可以位于第二降噪强度参数对应的处理顺序之后,即计算机设备可以先采用第二降噪强度参数对原始带噪音频数据进行降噪处理,得到第二候选增强音频数据,然后,采用第一降噪强度参数对第二候选增强音频数据进行降噪处理,得到目标增强音频数据。或者,第一降噪强度参数的对应的处理顺序与第二降噪强度参数对应的处理顺序相同,即计算机设备可以 同时采用第一降噪强度参数和第二降噪强度参数对原始带噪音频数据进行降噪处理,得到目标增强音频数据。
S103、根据该目标降噪强度参数,对该原始带噪音频数据进行降噪处理,得到目标增强音频数据。
在一些实施例中,计算机设备可以根据该目标降噪强度参数,对该原始带噪音频数据进行降噪处理,得到该目标增强音频数据,即该目标增强音频数据为降噪处理后的原始带噪音频数据,该目标增强音频数据中的噪声数据的强度低于原始带噪音频数据中的噪声数据的强度,且,该目标增强音频数据中的噪声数据的稳定度大于原始带噪音频数据中的噪声数据的稳定度,即目标增强音频数据中的噪声数据更加稳定、平滑,有利于用户感知目标增强音频数据中的音频数据(即语音数据)。
在一些实施例中,通过原始带噪音频数据关联的目标场景参数,自适应地确定用于对原始带噪音频数据进行降噪处理的目标降噪强度参数,基于目标降噪强度参数,定量地降低原始带噪音频数据中的噪声含量。即此处的目标场景参数反映原始带噪音频数据的应用场景和采集场景中的至少一种,目标降噪强度参数反映对原始带噪音频数据中的噪声抑制的力度。换言之,通过原始带噪音频数据的应用场景中针对音频数据的实际需求(和/或原始带噪音频数据的采集场景中的噪声分布情况),定量地降低原始带噪音频数据中的噪声含量,并接受一定程度的噪声残留,不需要完全分离原始带噪音频数据中的噪声数据和音频数据,来彻底抑制噪声,避免降噪时对有效音频数据造成损失,提高音频数据的质量,提高噪声处理的灵活性。
在一些实施例中,请参见图4,是本申请实施例提供的一种音频数据处理方法的流程示意图。如图4所示,该方法可由图1中的终端集群中的任一终端来执行,也可以由图1中的服务器来执行,本申请实施例中用于执行该音频数据处理方法的设备可以统称为计算机设备。其中,该方法可以包括如下步骤:
本申请实施例中,步骤S201至S205为对初始降噪处理模型进行优化训练,得到目标降噪处理模型的过程,步骤S206至S208为通过目标降噪处理模型,基于目标降噪强度参数对原始带噪音频数据进行降噪处理的过程。
S201、获取样本音频数据以及样本噪声数据,根据该样本音频数据和该样本噪声数据生成样本带噪音频数据。
本申请实施例中,计算机设备可以获取语音数据集和噪声数据集,语音数据集中包括多个样本音频数据(即纯语音数据),噪声数据集包括多个样本噪声数据(即纯噪声数据)。然后将该语音数据集的样本音频数据与噪声数据集中的样本噪声数据进行组合,得到多个样本带噪音频数据。
例如,假设样本音频数据为sn,样本噪声数据为dn,样本带噪音频数据为xn,则样本带噪音频数据可以采用如下公式(1)表示:
xn=sn+dn(1);
S202、获取用于对该样本带噪音频数据进行降噪处理的样本降噪强度参数。
本申请实施例中,计算机设备可以随机生成用于对样本带噪音频数据进行降噪处理的样本降噪强度参数;或者,计算机设备可以根据样本带噪音频数据中的样本噪声数据的噪声类型和噪声变化特征,生成用于对样本带噪音频数据进行降噪处理的样本降噪强度参数;或者,计算机设备可以根据样本带噪音频数据中的样本音频数据的应用场景,生成用于对样本带噪音频数据进行降噪处理的样本降噪强度参数。计算机设备生成用于对该样本带噪音频数据进行降噪处理的样本降噪强度参数的实现过程,可以参考上述生成用于对原始带噪音频数据进行降噪处理的目标降噪强度参数的实现过程。
在一些实施例中,上述根据样本带噪音频数据中的样本噪声数据的噪声类型和噪声 变化特征,生成用于对样本带噪音频数据进行降噪处理的样本降噪强度参数,包括:样本带噪音频数据中的第一噪声类型的噪声数据的噪声变化特征指示第一噪声类型的噪声数据的强度位于[5,10]dB范围内变化,计算机设备可以根据[5,10]dB确定第一噪声类型的噪声数据对应的降噪强度参数,如将7.5dB确定为第一噪声类型的噪声数据对应的降噪强度参数。同理,样本带噪音频数据中的第二噪声类型的噪声数据的噪声变化特征指示第二噪声类型的噪声数据的强度位于[2,6]dB范围内变化,计算机设备可以根据[2,6]dB确定第二噪声类型的噪声数据对应的降噪强度参数,如将3dB确定为第二噪声类型的噪声数据对应的降噪强度参数。然后,可以将第一噪声类型的噪声数据对应的降噪强度参数,以及第二噪声类型的噪声数据对应的降噪强度参数,确定为用于对样本带噪音频数据进行降噪处理的样本降噪强度参数。其中,第一噪声类型的噪声数据对应的降噪强度参数用于对样本带噪音频数据中的第一噪声类型的噪声数据进行降噪处理,第二噪声类型的噪声数据对应的降噪强度参数用于对样本带噪音频数据中的第二噪声类型的噪声数据进行降噪处理。如第一噪声类型可以是指稳态噪声,第二噪声类型可以为非稳态噪声。或者,计算机设备可以对第一噪声类型的噪声数据对应的降噪强度参数和第二噪声类型的噪声数据对应的降噪强度参数进行合并处理,得到用于对样本带噪音频数据进行降噪处理的样本降噪强度参数,此处的合并处理可以为求和处理或平均化处理等等。在一些实施例中,上述根据样本带噪音频数据中的样本音频数据的应用场景,生成用于对样本带噪音频数据进行降噪处理的样本降噪强度参数,包括:计算机设备可以获取在样本音频数据的应用场景下关于音频数据的质量需求等级;该质量需求等级反映该应用场景下针对音频数据的质量要求,即该质量需求等级越高,该应用场景下针对音频数据的质量要求越高;即该质量需求等级越低,该应用场景下针对音频数据的质量要求越低。在一些实施例中,根据质量需求等级确定用于对样本带噪音频数据进行降噪处理的样本降噪强度参数,如质量需求等级越低,样本降噪强度参数越大;质量需求等级越高,样本降噪强度参数越小,避免过度对样本带噪音频数据降噪处理,造成样本带噪音频数据中的音频数据受到损失,提高音频数据的质量。
S203、根据该样本降噪强度参数、该样本音频数据以及样本噪声数据生成标注语音增强数据。
本申请实施例中,该样本降噪强度参数用于将样本带噪音频数据中的样本噪声数据进行抑制处理,因此,计算机设备可以根据该样本降噪强度参数,该样本音频数据以及样本噪声数据生成标注语音增强数据。
在一些实施例中,上述步骤S203包括:计算机设备可以根据该样本降噪强度参数生成降噪因子,将降噪因子与样本噪声数据之间的乘积,确定为对该样本噪声数据进行降噪处理得到的处理后的样本噪声数据。该降噪因子可以为小于1的正数,当该样本降噪强度参数为小于1的正数,该降噪因子可以为样本降噪强度参数;当该样本降噪强度参数为大于1的正数,该降噪因子可以为对该样本降噪强度参数进行归一化处理得到的,如样本降噪强度参数为δsnr,降噪因子可以为在一些实施例红,计算机设备可以将该处理后的样本噪声数据与该样本音频数据进行组合(即求和处理),得到标注语音增强数据。
例如,假设标注语音增强数据为yn,则该标注语音增强数据可以采用如下公式(2)表示:
其中,公式(2)中的δsnr1为样本降噪强度参数,该标注语音增强数据为初始降噪处理模型的优化训练的目标,根据公式(2)可知,初始降噪处理模型的优化训练的目标为:在降低样本带噪音频数据中的样本音频数据的损失的情况下,按照样本降噪强度 参数,对样本带噪音频数据中的样本噪声数据进行抑制处理。
S204、通过初始降噪处理模型基于该样本降噪强度参数,对该样本带噪音频数据进行降噪处理,得到预测语音增强数据。
在一些实施例中,计算机设备可以将该样本降噪增强度参数和样本带噪音频数据输入至初始降噪处理模型中,通过该初始降噪处理模型,基于该样本降噪强度参数,对该样本带噪音频数据进行降噪处理,得到预测语音增强数据。
需要说明的是,初始降噪处理模型基于该样本降噪强度参数,对该样本带噪音频数据进行降噪处理,得到预测语音增强数据的实现过程,可以参考目标降噪处理模型基于目标降噪强度参数,对原始带噪音频数据进行降噪处理,得到目标增强音频数据的实现过程。
在一些实施例中,初始降噪处理模型可以为深度神经网络、卷积神经网络、长短时间记忆网络等中的一种。
S205、根据该预测语音增强数据和该标注语音增强数据,对该初始降噪处理模型进行优化训练,得到目标降噪处理模型。
在一些实施例中,如果该预测语音增强数据与该标注语音增强数据之间的差异比较小,表明初始降噪处理模型的降噪处理准确度比较高;如果该预测语音增强数据与该标注语音增强数据之间的差异比较大,表明初始降噪处理模型的降噪处理准确度比较低。也就是说,预测语音增强数据和标注语音增强数据可用于衡量初始降噪处理模型的降噪处理准确度,因此,计算机设备可以根据该预测语音增强数据和标注语音增强数据,对该初始降噪处理模型进行优化训练,得到目标降噪处理模型,提高目标降噪处理模型的降噪处理准确度。
在一些实施例中,上述步骤S205包括:计算设备可以获取该初始降噪处理模型的误差函数,将该预测语音增强数据和标注语音增强数据代入至误差函数中,得到该初始降噪处理模型的降噪处理误差。初始降噪处理模型的误差函数可以为均方误差函数或交叉熵函数等等,该降噪处理误差用于衡量初始降噪处理模型的降噪处理准确度,即降噪处理误差越大,表明初始降噪处理模型的降噪处理准确度越低;降噪处理误差越小,表明初始降噪处理模型的降噪处理准确度越高。之后计算机设备可以检测预测语音增强数据中所包含的噪声数据的强度的噪声变化特征,根据预测语音增强数据中所包含的噪声数据的强度的噪声变化特征,确定该预测语音增强数据中所包含的噪声数据的稳定度。此处该预测语音增强数据中所包含的噪声数据的稳定度:用于反映预测语音增强数据中残留的噪声数据的稳定度,也用于反映初始降噪处理模型的降噪处理稳定度。然后,可以根据该降噪处理误差和该稳定度,对该初始降噪处理模型的模型参数进行调整,得到该目标降噪处理模型,以便可以提高目标降噪处理模型的降噪处理准确度以及降噪处理的稳定度。
在一些实施例中,上述根据该降噪处理误差和该稳定度,对该初始降噪处理模型的模型参数进行调整,得到该目标降噪处理模型,包括:计算机设备可以根据该降噪处理误差确定该初始降噪处理模型的收敛状态;该初始降噪处理模型的收敛状态用于反映该初始降噪处理模型的降噪处理误差是否达到最小值,收敛状态包括已收敛状态或未收敛状态。通常该降噪处理误差小于误差阈值时,计算机设备可以确定该初始降噪处理模型的收敛状态为已收敛状态,即该初始降噪处理模型的降噪处理误差为最小值;如果该降噪处理误差大于或等于误差阈值时,计算机设备可以确定该初始降噪处理模型的收敛状态为未收敛状态,即该初始降噪处理模型的降噪处理误差大于最小值。因此,若该初始降噪处理模型的收敛状态为已收敛状态,且该稳定度大于或等于稳定度阈值,表明该初始降噪处理模型的降噪处理误差达到最小值,或该初始降噪处理模型的降噪处理稳定度 比较高。这时,不需要对初始降噪处理模型的模型参数进行调整,计算机设备可以将该初始降噪处理模型确定为目标降噪处理模型。此处的该稳定度阈值可以手动设置的,或者,该稳定度阈值可以是指根据该样本噪声数据的采集场景或样本音频数据的应用场景确定的。同理,若该初始降噪处理模型的收敛状态为未收敛状态,或该稳定度小于稳定度阈值,表明该初始降噪处理模型的降噪处理误差未达到最小值,或该初始降噪处理模型的降噪处理稳定度比较差。这时,计算机设备可以根据该降噪处理误差,对该初始降噪处理模型的模型参数进行调整;直到调整后的初始降噪处理模型的收敛状态为已收敛状态,且对应的稳定度大于或等于该稳定度阈值,将该调整后的初始降噪处理模型,确定为该目标降噪处理模型。通过根据稳定度和收敛状态,对初始降噪处理模型的模型参数进行调整,有利于训练得到降噪处理准确度高,且降噪处理稳定度高的目标降噪处理模型。
S206、获取待处理的原始带噪音频数据,以及与该原始带噪音频数据关联的目标场景参数。
S207、根据该目标场景参数,确定用于对该原始带噪音频数据进行降噪处理的目标降噪强度参数。
需要说明的是,本申请实施例中对步骤S206的解释说明可以参考上述对步骤S101的解释说明,本申请实施例中对步骤S207的解释说明可以参考上述对步骤S102的解释说明。
S208、通过目标降噪处理模型根据该目标降噪强度参数,对该原始带噪音频数据进行降噪处理,得到目标增强音频数据。
在一些实施例中,该目标降噪处理模型可以包括特征提取网络以及语音解析网络以及语音生成网络,上述步骤S208可以包括:计算机设备可以通过目标降噪处理模型的特征提取网络,提取该原始带噪音频数据的频域信号,该原始带噪音频数据的频域信号反映原始带噪音频数据的频域特征,如该原始带噪音频数据的频域信号反映原始带噪音频数据的频率与信号强度之间的变化特征。然后计算机设备可以通过该目标降噪处理模型的语音解析网络,对该原始带噪音频数据的频域信号进行解析,得到该原始带噪音频数据的余弦变换掩码;该余弦变换掩码用于反映该原始带噪音频数据中的音频数据的占比,即该余弦变换掩码用于反映该原始带噪音频数据中的音频数据在原始带噪音频数据中的占比。然后,可以通过该目标降噪处理模型的语音生成网络,根据该原始带噪音频数据的余弦变换掩码、该原始带噪音频数据的频域信号以及该目标降噪强度参数,生成目标增强音频数据。如,计算机设备可以对该目标降噪强度参数进行指数运算,得到降噪因子,如获取1与余弦变换掩码之间的差值,获取该差值与降噪因子之间的乘积,获取该乘积与余弦变换掩码之间的和,得到降噪值,将该降噪值与该原始带噪音频数据的频域信号的乘积,确定频域增强音频数据,对该频域音频数据进行时域变换,得到目标增强音频数据。通过目标降噪处理模型,对原始带噪音频数据进行降噪处理,可避免对原始带噪音频数据中的音频数据造成损失的问题,以及避免目标增强音频数据中的噪声残留不稳定的问题,提高目标增强音频数据中的噪声残留的稳定度和平滑度,提高目标增强音频数据中的音频数据的感知度。
在一些实施例中,上述通过该目标降噪处理模型的语音解析网络,对该原始带噪音频数据的频域信号进行解析,得到该原始带噪音频数据的余弦变换掩码,包括:计算机设备可以通过该语音解析网络中的编码层,按照第一语音特征提取模式对该原始带噪音频数据的频域信号进行语音特征提取,得到第一关键语音特征,按照第二语音特征提取模式对该第一关键语音特征进行语音特征提取,得到第二关键语音特征,按照第三语音特征提取模式对该第一关键语音特征和该第二关键语音特征进行语音特征提取,得到第 三关键语音特征。对该第一关键语音特征、该第二关键语音特征以及该第三关键语音特征进行解析,得到该原始带噪音频数据的余弦变换掩码。通过根据不同语音特征提取模式,提取原始带噪音频数据中的语音数据(即音频数据),避免原始带噪音频数据中的语音特征丢失,造成语音数据损失的问题。
需要说明的是,由于用户的声带振动产生一般低于500Hz的基音及其谐波信号,因此,计算机设备可以根据原始带噪音频数据的频率分布特征提取关键语音特征。通常语音数据的频谱往往会在基频(基音)和谐波信号中出现峰值,而噪声数据的频谱则相对平坦,因此,计算机设备可以根据原始带噪音频数据的频谱平坦度,提取关键语音特征。同时,噪声数据的频谱比语音数据的频谱更稳定,即噪声数据的频谱的整体波形形状在任何给定阶段都倾向于保持相同,因此,可以通过原始带噪音频数据的频谱模板差异来区分噪声数据和语音数据,即计算机设备可以根据原始带噪音频数据的频谱模板差异,来提取关键语音特征。本申请实施例中的第一语音特征提取模式、第二语音特征提取模式以及第三语音提取模式分别为从不同角度提取关键语音特征的方式,如,第一语音特征提取模式、第二语音特征提取模式以及第三语音提取模式分别为上述基于频率分布特征的提取模式、基于频谱平坦度的提取模式以及频谱模板差异的提取模式中的一种,第一语音特征提取模式、第二语音特征提取模式以及第三语音提取模式可以不相同,也可以存在至少两个提取模式相同。
在一些实施例中,上述对该第一关键语音特征、该第二关键语音特征以及该第三关键语音特征进行解析,得到该原始带噪音频数据的余弦变换掩码,包括:计算机设备可以通过该语音解析网络中的时序解析层,对该第三关键语音特征进行解析,得到该原始带噪音频数据的时序信息,该原始带噪音频数据的时序信息反映原始带噪音频数据中的关键语音特征与时间之间的关系。在一些实施例中,计算机设备可以通过该语音解析网络中的解码层,根据该时序信息、该第一关键语音特征、该第二关键语音特征以及该第三关键语音特征进行解析,得到该原始带噪音频数据的余弦变换掩码。
在一些实施例中,上述通过该目标降噪处理模型的语音生成网络,根据该原始带噪音频数据的余弦变换掩码、该原始带噪音频数据的频域信号以及该目标降噪强度参数,生成目标增强音频数据,包括:计算机设备可以通过该目标降噪处理模型的语音生成网络,根据该原始带噪音频数据的频域信号,确定该原始带噪音频数据的原始信噪比,根据该原始信噪比以及该目标降噪强度参数,生成该原始带噪音频数据降噪后的增强信噪比。例如,假设目标降噪强度参数为δsnr2,目标降噪强度参数δsnr2的单位为dB,代表的物理意义是原始带噪音频数据需要提升的信噪比。原始带噪音频数据的原始信噪比为λ,则该原始带噪音频数据降噪后的增强信噪比可以为λ+δsnr2。之后计算机设备可以根据该增强信噪比、该原始带噪音频数据的余弦变换掩码以及该原始带噪音频数据的频域信号,生成目标增强音频数据。通过定量地抑制原始带噪音频数据中的噪声数据,避免原始带噪音频数据的音频数据损失,提高目标增强音频数据中的噪声残留的稳定度和平滑度,提高目标增强音频数据中的音频数据的感知度。
例如,如图5所示,该目标降噪处理模型包括特征提取网络501、语音解析网络502以及语音生成网络503,该特征提取网络用于将时域的原始带噪音频数据进行频域转换,得到原始带噪音频数据的频域信号。在一些实施例中,该特征提取网络首先对原始带噪音频数据xn进行重采样操作,将各种采样率类型的原始带噪音频数据重采样至48kHz。重采样完成后,对重采样后的原始带噪音频数据进行分帧加窗处理,如可以按照帧长1024、帧移512,将重采样后的原始带噪音频数据分割成多个带噪音频数据片段,采用汉明窗分别对多个带噪音频数据片段进行调制。分帧加窗处理结束后,对调制后的多个带噪音频数据片段进行离散余弦变换(Discrete cosine transform,DCT)操作,得到原始 带噪音频数据的频域信号Xk。对原始带噪音频数据进行分帧加窗与余弦变换操作结合又可称之为短时余弦变换(Short-time discrete cosine transform,SDCT)。语音解析网络502用于提前原始带噪音频数据的余弦变换掩码,该语音解析网络可以为深度学习网络模块,深度学习网络模块包括编码层5021、时序解析层5022以及解码层5023,编码层5021可以由多个二维卷积构成,每一个二维卷积的卷积核大小kernel size为(5,2),这代表频域视野为5,时域视野为2,每一帧信号特征(即当前的带噪音频数据片段对应的频域信号)的分析处理会参考前一帧信号(即前一个带噪音频数据片段对应的频域信号)。而二维卷积的步长stride为(2,1),这能够让频域信号数目逐层减半,时域帧数不变,起到了降维减小计算量的作用。如图5所示,以该编码层5021包括三个二维卷积为例,分别为二维卷积1、二维卷积2以及二维卷积3。二维卷积1、二维卷积2以及二维卷积3分别提取原始带噪音频数据的第一关键语音特征、第二关键语音特征以及第三关键语音特征。解码层5023部分主要由转置二维卷积(ConvTranspose2d)为内核的DecTConv2d组成,图5以解码层包括三个转置二维卷积为例,分别为转置二维卷积1、转置二维卷积2以及转置二维卷积3,每一层的DecTConv2d参数都与对应的二维卷积相同,实现了信号维度的还原。在编码层与解码层之间,采用了时序解析层5022,该时序解析层5022可以由门控循环单元(Gated Recurrent Units,GRU)堆叠构成的循环神经网络模块RNNs,RNNs的作用主要提取并分析音频信号帧间时序信息。所以深度学习网络模块的工作流程是,编码层接受来自特征提取网络的原始带噪音频数据的频域信号,然后经过二维卷积逐层提取高维度特征(即第一关键语音特征、第二关键语音特征以及第三关键语音特征)。对应的输出通过跳连接方式给到转置二维卷积。RNNs接受来自最后一层二维卷积3输出的第三关键语音特征,进行时序信息提取分析,并且将输入给到解码层。而解码层接受来自RNNs和编码层的输出,经过逐层维度升高处理,最终得到余弦变换掩码
在一些实施例中,上述根据该增强信噪比以及该频域信号,生成目标增强音频数据,包括:计算机设备可以根据该增强信噪比、该原始带噪音频数据的余弦变换掩码对该原始带噪音频数据的频域信号进行降噪处理,得到频域增强音频数据,对该频域增强音频数据进行变换,得到时域增强音频数据,将该时域增强音频数据,确定为目标增强音频数据。
例如,假设该原始带噪音频数据的频域信号为Xk,原始带噪音频数据中的音频数据的频域信号为Yk,原始带噪音频数据中的噪声数据的频域信号为Dk,该原始带噪音频数据的频域信号可以采用如下公式(3)表示:
Xk=Yk+Dk(3);
其中,公式(3)中的k为原始带噪音频数据的第k个采样点,k为大于1的正整数,基于公式(3),原始带噪音频数据的原始信噪比可以采用如下公式(4)表示:
假设频域增强音频数据为频域增强音频数据中的音频数据的频域信号为频域增强音频数据中的噪声数据的频域信号为该频域增强音频数据的频域信号可以采用如下公式(5)表示:
在一些实施例中,基于公式(5),该原始带噪音频数据降噪后的增强信噪比可以采用如下公式(6)表示:
由于原始带噪音频数据的余弦变换掩码反映原始带噪音频数据中的音频数据的占 比,因此,该原始带噪音频数据的频域信号Xk与频域增强音频数据中的音频数据的频域信号之间的关系可以采用如下公式(7)表示:
其中,公式(7)中的为原始带噪音频数据的余弦变换掩码,基于公式(4)、公式(6)和公式(7),频域增强音频数据中的噪声数据的频域信号可以采用如下公式(8)表示:
(8);
在一些实施例中,基于公式(7)和公式(8),上述公式(5)可以变换为如下公式(9):
然后,计算机设备对上述公式(9)进行时域变换,得到目标增强音频数据。
在一些实施例中,本申请实施例中通过引入目标降噪强度参数,定量地控制算法对原始带噪音频数据的噪声处理力度。针对原始带噪音频数据不同的应用场景和/或采集场景,可以灵活配置该目标降噪强度参数,提升了本申请对不同场景的适配性,提升了本申请的泛化性。本申请可以做到覆盖大多数语音数据应用场景和实际需求,减小算法开发难度和系统复杂性。由于申请中采用新的模型训练模式来满足可控降噪力度的需求,不以纯净语音当做目标增强语音,而是按照一定信噪比(样本降噪强度参数)来混合语音信号(即样本音频数据)和噪声信号(即样本噪声数据)得到目标增强语音(即标注语音增强数据),这在一定程度上规避了常规语音增强降噪算法容易出现的语音损失问题和噪声残留不连续问题。
接下来给出本申请在不同降噪强度参数下的降噪效果表现,按照信噪比范围[-10,30]dB生成了一批测试数据(即带噪音频数据),将降噪强度参数δsnr分别设置为5dB,10dB,20dB,40dB,选取可感知语音质量参数(Perceptual evaluation of speech quality,PESQ)和尺度不变性信噪比参数(Scale-Invariant Source-to-Noise Ratio,SI-SNR)两项常用的语音增强降噪质量评价指标作为降噪效果参考指标。图6为带噪音频数据在不同降噪强度参数下的PESQ得分情况,图6的横坐标表示带噪音频数据的原始信噪比,纵坐标表示带噪音频数据在根据降噪强度参数进行降噪处理后的PESQ得分,其中每个原始信噪比对应5个矩形,同一原始信噪比下,从左到右的第一个矩形的长度表示带噪音频数据不进行降噪处理的PESQ得分,第二个矩形到第五个矩形的长度分别表示带噪音频数据在根据降噪强度参数5dB,10dB,20dB,40dB进行降噪处理后的PESQ得分。从图6可知,带噪音频数据根据降噪强度参数处理后的PESQ得分高于带噪音频数据不进行降噪处理的PESQ得分,这种情况在带噪音频数据的原始信噪比大于4dB时特别明显。同时,在同一原始信噪比下,降噪强度参数越大,带噪音频数据根据降噪强度参数处理后的PESQ得分越高;降噪强度参数越小,带噪音频数据根据降噪强度参数处理后的PESQ得分越低。
图7为带噪音频数据在不同降噪强度参数下的SI-SNR得分情况,图7的横坐标表示带噪音频数据的原始信噪比,纵坐标表示带噪音频数据在根据降噪强度参数进行降噪处理后的SI-SNR得分,其中每个原始信噪比对应5个矩形,同一原始信噪比下,从左到右的第一个矩形的长度表示带噪音频数据不进行去噪处理的SI-SNR得分,第二个矩形到第五个矩形的长度分别表示带噪音频数据在根据降噪强度参数5dB,10dB,20dB,40dB进行降噪处理后的SI-SNR得分。从图7可知,带噪音频数据根据降噪强度参数处理后的SI-SNR得分高于带噪音频数据不进行降噪处理的SI-SNR得分,这种情况在带噪音频数据的原始信噪比大于4dB时特别明显。同时,在同一原始信噪比下,降噪强度参数越大,带噪音频数据根据降噪强度参数处理后的SI-SNR得分越高;降噪强度参数 越小,带噪音频数据根据降噪强度参数处理后的SI-SNR得分越低。
在本申请实施例中,通过原始带噪音频数据关联的目标场景参数,自适应地确定用于对原始带噪音频数据进行降噪处理的目标降噪强度参数,基于目标降噪强度参数,定量地降低原始带噪音频数据中的噪声含量。即此处的目标场景参数反映原始带噪音频数据的应用场景和采集场景中的至少一种,目标降噪强度参数反映对原始带噪音频数据中的噪声抑制的力度。换言之,通过原始带噪音频数据的应用场景中针对音频数据的实际需求(和/或原始带噪音频数据的采集场景中的噪声分布情况),定量地降低原始带噪音频数据中的噪声含量,并接受一定程度的噪声残留,不需要完全分离原始带噪音频数据中的噪声数据和音频数据,来彻底抑制噪声,避免降噪时对有效音频数据造成损失,提高音频数据的质量,提高噪声处理的灵活性。
请参见图8,是本申请实施例提供的一种音频数据处理装置的结构示意图。上述音频数据处理装置可以是运行于网络设备中的一个计算机程序(包括程序代码),例如该音频数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图8所示,该音频数据处理装置可以包括:
获取模块801,配置为获取待处理的原始带噪音频数据,以及与所述原始带噪音频数据关联的目标场景参数;确定模块802,配置为根据所述目标场景参数,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数;处理模块803,配置为根据所述目标降噪强度参数,对所述原始带噪音频数据进行降噪处理,得到目标增强音频数据。
在一些实施例中,确定模块802包括获取单元81a和确定单元82a;获取单元81a,配置为若所述目标场景参数用于确定所述原始带噪音频数据的应用场景,则获取在所述应用场景下关于音频数据的质量需求等级;确定单元82a,配置为根据所述质量需求等级,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数。
获取单元81a,配置为若所述目标场景参数用于确定所述原始带噪音频数据的采集场景,获取在所述采集场景中在历史时间段内的历史噪声数据;确定单元82a,配置为根据所述历史噪声数据,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数。
在一些实施例中,确定单元82a根据所述历史噪声数据,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数,包括:从所述历史噪声数据中,确定所述采集场景在所述历史时间段内的噪声数据对应噪声类型和噪声变化特征;根据所述噪声类型和所述噪声变化特征,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数。
在一些实施例中,采集场景在所述历史时间段内的噪声数据对应M个噪声类型,确定单元82a根据所述噪声类型和所述噪声变化特征,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数,包括:基于所述M个噪声类型分别对应的噪声变化特征,确定用于对原始带噪音频数据进行降噪处理的M个候选降噪强度参数;将所述M个候选降噪强度参数确定为目标降噪强度参数;或者,对所述M个候选噪声强度参数进行均值计算,得到目标降噪强度参数。
处理模块803包括提取单元83a、解析单元84a以及生成单元85a;提取单元83a,配置为通过目标降噪处理模型的特征提取网络,提取所述原始带噪音频数据的频域信号;解析单元84a,配置为通过所述目标降噪处理模型的语音解析网络,对所述原始带噪音频数据的频域信号进行解析,得到所述原始带噪音频数据的余弦变换掩码;所述余弦变换掩码用于反映所述原始带噪音频数据中的音频数据的占比;生成单元85a,配置为通过所述目标降噪处理模型的语音生成网络,根据所述原始带噪音频数据的余弦变换 掩码、所述原始带噪音频数据的频域信号以及所述目标降噪强度参数,生成目标增强音频数据。
在一些实施例中,解析单元84a通过所述目标降噪处理模型的语音解析网络,对所述原始带噪音频数据的频域信号进行解析,得到所述原始带噪音频数据的余弦变换掩码,包括:通过所述语音解析网络中的编码层,按照第一语音特征提取模式对所述原始带噪音频数据的频域信号进行语音特征提取,得到第一关键语音特征;按照第二语音特征提取模式对所述第一关键语音特征进行语音特征提取,得到第二关键语音特征;按照第三语音特征提取模式对所述第一关键语音特征和所述第二关键语音特征进行语音特征提取,得到第三关键语音特征;对所述第一关键语音特征、所述第二关键语音特征以及所述第三关键语音特征进行解析,得到所述原始带噪音频数据的余弦变换掩码。
在一些实施例中,解析单元84a对所述第一关键语音特征、所述第二关键语音特征以及所述第三关键语音特征进行解析,得到所述原始带噪音频数据的余弦变换掩码,包括:通过所述语音解析网络中的时序解析层,对所述第三关键语音特征进行解析,得到所述原始带噪音频数据的时序信息;通过所述语音解析网络中的解码层,根据所述时序信息、所述第一关键语音特征、所述第二关键语音特征以及所述第三关键语音特征进行解析,得到所述原始带噪音频数据的余弦变换掩码。
在一些实施例中,生成单元85a通过所述目标降噪处理模型的语音生成网络,根据所述原始带噪音频数据的余弦变换掩码、所述原始带噪音频数据的频域信号以及所述目标降噪强度参数,生成目标增强音频数据,包括:通过所述目标降噪处理模型的语音生成网络,根据所述原始带噪音频数据的频域信号,确定所述原始带噪音频数据的原始信噪比;根据所述原始信噪比以及所述目标降噪强度参数,生成所述原始带噪音频数据降噪后的增强信噪比;根据所述增强信噪比、所述原始带噪音频数据的余弦变换掩码以及所述原始带噪音频数据的频域信号,生成目标增强音频数据。
在一些实施例中,生成单元85a根据所述增强信噪比、所述原始带噪音频数据的余弦变换掩码以及所述原始带噪音频数据的频域信号,生成目标增强音频数据,包括:根据所述增强信噪比、所述原始带噪音频数据的余弦变换掩码对所述原始带噪音频数据的频域信号进行降噪处理,得到频域增强音频数据;对所述频域增强音频数据进行变换,得到时域增强音频数据,将所述时域增强音频数据,确定为目标增强音频数据。
获取模块801,还配置为获取样本音频数据以及样本噪声数据,根据所述样本音频数据和所述样本噪声数据生成样本带噪音频数据;获取用于对所述样本带噪音频数据进行降噪处理的样本降噪强度参数;生成模块804,配置为根据所述样本降噪强度参数、所述样本音频数据以及样本噪声数据生成标注语音增强数据;处理模块803,配置为通过初始降噪处理模型基于所述样本降噪强度参数,对所述样本带噪音频数据进行降噪处理,得到预测语音增强数据;训练模块805,配置为根据所述预测语音增强数据和所述标注语音增强数据,对所述初始降噪处理模型进行优化训练,得到所述目标降噪处理模型。
在一些实施例中,训练模块805根据所述预测语音增强数据和所述标注语音增强数据,对所述初始降噪处理模型进行优化训练,得到所述目标降噪处理模型,包括:根据所述预测语音增强数据和所述标注语音增强数据,确定所述初始降噪处理模型的降噪处理误差;根据所述预测语音增强数据确定所述预测语音增强数据中所包含的噪声数据的稳定度;根据所述降噪处理误差和所述稳定度,对所述初始降噪处理模型的模型参数进行调整,得到所述目标降噪处理模型。
在一些实施例中,训练模块805根据所述降噪处理误差和所述稳定度,对所述初始降噪处理模型的模型参数进行调整,得到所述目标降噪处理模型,包括:根据所述降噪 处理误差确定所述初始降噪处理模型的收敛状态;若所述初始降噪处理模型的收敛状态为未收敛状态,或所述稳定度小于稳定度阈值,则根据所述降噪处理误差,对所述初始降噪处理模型的模型参数进行调整;直到调整后的初始降噪处理模型的收敛状态为已收敛状态,且对应的稳定度大于或等于所述稳定度阈值,将所述调整后的初始降噪处理模型,确定为所述目标降噪处理模型。
在一些实施例中,生成模块804根据所述样本降噪强度参数、所述样本音频数据以及样本噪声数据生成标注语音增强数据,包括:根据所述样本降噪强度参数对所述样本噪声数据进行降噪处理,得到处理后的样本噪声数据;将所述处理后的样本噪声数据与所述样本音频数据进行组合,得到标注语音增强数据。
根据本申请的一个实施例,前文所示的音频数据处理方法所涉及的步骤可由图8所示的音频数据处理装置中的各个模块来执行。例如,图3中所示的步骤S101可由图8中的获取模块801来执行,图3中所示的步骤S102可由图8中的确定模块802来执行;图3中所示的步骤S103可由图8中的处理模块803来执行。
根据本申请的一个实施例,图8所示的音频数据处理装置中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的至少两个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由至少两个单元来实现,或者至少两个模块的功能由一个单元实现。在本申请的其它实施例中,音频数据处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由至少两个单元协作实现。
根据本申请的一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理组件和存储组件的例如计算机的通用计算机设备上运行能够执行如前文所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图8中所示的音频数据处理装置,以及来实现本申请实施例的音频数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
在一些实施例中,通过原始带噪音频数据关联的目标场景参数,自适应地确定用于对原始带噪音频数据进行降噪处理的目标降噪强度参数,基于目标降噪强度参数,定量地降低原始带噪音频数据中的噪声含量。即此处的目标场景参数反映原始带噪音频数据的应用场景和采集场景中的至少一种,目标降噪强度参数反映对原始带噪音频数据中的噪声抑制的力度。换言之,通过原始带噪音频数据的应用场景中针对音频数据的实际需求(和¥或原始带噪音频数据的采集场景中的噪声分布情况),定量地降低原始带噪音频数据中的噪声含量,并接受一定程度的噪声残留,不需要完全分离原始带噪音频数据中的噪声数据和音频数据,来彻底抑制噪声,避免降噪时对有效音频数据造成损失,提高音频数据的质量,提高噪声处理的灵活性。
可以理解的是,在本申请实施例中,涉及到原始带噪音频数据、目标增加音频数据等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
请参见图9,是本申请实施例提供的一种计算机设备的结构示意图。如图9所示,上述计算机设备1000可以为上述方法中的第一设备,可以是指终端或服务器,包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一条通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,在一些实施例中,用户接口1003可以包括显示屏(DiSPlay)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络 接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile MeMory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个在远离前述处理器1001的存储装置。如图9所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机应用程序。
在图9所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于提供输入的接口;而处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现:获取待处理的原始带噪音频数据,以及与所述原始带噪音频数据关联的目标场景参数;根据所述目标场景参数,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数;根据所述目标降噪强度参数,对所述原始带噪音频数据进行降噪处理,得到目标增强音频数据。
在一些实施例中,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现根据所述目标场景参数,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数,包括:若所述目标场景参数反映所述原始带噪音频数据的应用场景,则获取在所述应用场景下关于音频数据的质量需求等级;根据所述质量需求等级,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数。
在一些实施例中,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现根据所述目标场景参数,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数,包括:若所述目标场景参数反映所述原始带噪音频数据的采集场景,则获取在所述采集场景中在历史时间段内的历史噪声数据;根据所述历史噪声数据,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数。
在一些实施例中,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现根据所述历史噪声数据,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数,包括:从所述历史噪声数据中,统计所述采集场景在所述历史时间段内的噪声数据对应噪声类型和噪声变化特征;根据所述噪声类型和所述噪声变化特征,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数。
在一些实施例中,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现根据所述目标降噪强度参数,对所述原始带噪音频数据进行降噪处理,得到目标增强音频数据,包括:通过目标降噪处理模型的特征提取网络,提取所述原始带噪音频数据的频域信号;通过所述目标降噪处理模型的语音解析网络,对所述原始带噪音频数据的频域信号进行解析,得到所述原始带噪音频数据的余弦变换掩码;所述余弦变换掩码用于反映所述原始带噪音频数据中的音频数据的占比;通过所述目标降噪处理模型的语音生成网络,根据所述原始带噪音频数据的余弦变换掩码、所述原始带噪音频数据的频域信号以及所述目标降噪强度参数,生成目标增强音频数据。
在一些实施例中,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现通过所述目标降噪处理模型的语音解析网络,对所述原始带噪音频数据的频域信号进行解析,得到所述原始带噪音频数据的余弦变换掩码,包括:通过所述语音解析网络中的编码层,按照第一语音特征提取模式对所述原始带噪音频数据的频域信号进行语音特征提取,得到第一关键语音特征;按照第二语音特征提取模式对所述第一关键语音特征进行语音特征提取,得到第二关键语音特征;按照第三语音特征提取模式对所述第一关键语音特征和所述第二关键语音特征进行语音特征提取,得到第三关键语音特征;对所述第一关键语音特征、所述第二关键语音特征以及所述第三关键语音特征进行解析,得到所述原始带噪音频数据的余弦变换掩码。
在一些实施例中,处理器1001可以用于调用存储器1005中存储的计算机应用程序, 以实现对所述第一关键语音特征、所述第二关键语音特征以及所述第三关键语音特征进行解析,得到所述原始带噪音频数据的余弦变换掩码,包括:通过所述语音解析网络中的时序解析层,对所述第三关键语音特征进行解析,得到所述原始带噪音频数据的时序信息;通过所述语音解析网络中的解码层,根据所述时序信息、所述第一关键语音特征、所述第二关键语音特征以及所述第三关键语音特征进行解析,得到所述原始带噪音频数据的余弦变换掩码。
在一些实施例中,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现通过所述目标降噪处理模型的语音生成网络,根据所述原始带噪音频数据的余弦变换掩码、所述原始带噪音频数据的频域信号以及所述目标降噪强度参数,生成目标增强音频数据,包括:通过所述目标降噪处理模型的语音生成网络,根据所述原始带噪音频数据的频域信号,确定所述原始带噪音频数据的原始信噪比;根据所述原始信噪比以及所述目标降噪强度参数,生成所述原始带噪音频数据降噪后的增强信噪比;根据所述增强信噪比、所述原始带噪音频数据的余弦变换掩码以及所述原始带噪音频数据的频域信号,生成目标增强音频数据。
在一些实施例中,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现根据所述增强信噪比、所述原始带噪音频数据的余弦变换掩码以及所述原始带噪音频数据的频域信号,生成目标增强音频数据,包括:根据所述增强信噪比、所述原始带噪音频数据的余弦变换掩码对所述原始带噪音频数据的频域信号进行降噪处理,得到频域增强音频数据;对所述频域增强音频数据进行变换,得到时域增强音频数据,将所述时域增强音频数据,确定为目标增强音频数据。
在一些实施例中,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现:获取样本音频数据以及样本噪声数据,根据所述样本音频数据和所述样本噪声数据生成样本带噪音频数据;获取用于对所述样本带噪音频数据进行降噪处理的样本降噪强度参数;根据所述样本降噪强度参数、所述样本音频数据以及样本噪声数据生成标注语音增强数据;通过初始降噪处理模型基于所述样本降噪强度参数,对所述样本带噪音频数据进行降噪处理,得到预测语音增强数据;根据所述预测语音增强数据和所述标注语音增强数据,对所述初始降噪处理模型进行优化训练,得到所述目标降噪处理模型。
在一些实施例中,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现根据所述预测语音增强数据和所述标注语音增强数据,对所述初始降噪处理模型进行优化训练,得到所述目标降噪处理模型,包括:根据所述预测语音增强数据和所述标注语音增强数据,确定所述初始降噪处理模型的降噪处理误差;根据所述预测语音增强数据确定所述预测语音增强数据中所包含的噪声数据的稳定度;根据所述降噪处理误差和所述稳定度,对所述初始降噪处理模型的模型参数进行调整,得到所述目标降噪处理模型。
在一些实施例中,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现根据所述降噪处理误差和所述稳定度,对所述初始降噪处理模型的模型参数进行调整,得到所述目标降噪处理模型,包括:根据所述降噪处理误差确定所述初始降噪处理模型的收敛状态;若所述初始降噪处理模型的收敛状态为未收敛状态,或所述稳定度小于稳定度阈值,则根据所述降噪处理误差,对所述初始降噪处理模型的模型参数进行调整;直到调整后的初始降噪处理模型的收敛状态为已收敛状态,且对应的稳定度大于或等于所述稳定度阈值,将所述调整后的初始降噪处理模型,确定为所述目标降噪处理模型。
在一些实施例中,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现根据所述样本降噪强度参数、所述样本音频数据以及样本噪声数据生成标注语音 增强数据,包括:根据所述样本降噪强度参数对所述样本噪声数据进行降噪处理,得到处理后的样本噪声数据;将所述处理后的样本噪声数据与所述样本音频数据进行组合,得到标注语音增强数据。
在一些实施例中,通过原始带噪音频数据关联的目标场景参数,自适应地确定用于对原始带噪音频数据进行降噪处理的目标降噪强度参数,基于目标降噪强度参数,定量地降低原始带噪音频数据中的噪声含量。即此处的目标场景参数反映原始带噪音频数据的应用场景和采集场景中的至少一种,目标降噪强度参数反映对原始带噪音频数据中的噪声抑制的力度。换言之,通过原始带噪音频数据的应用场景中针对音频数据的实际需求(和/或原始带噪音频数据的采集场景中的噪声分布情况),定量地降低原始带噪音频数据中的噪声含量,并接受一定程度的噪声残留,不需要完全分离原始带噪音频数据中的噪声数据和音频数据,来彻底抑制噪声,避免降噪时对有效音频数据造成损失,提高音频数据的质量,提高噪声处理的灵活性。
应当理解,本申请实施例中所描述的计算机设备可执行前文所对应实施例中对上述音频数据处理方法的描述,也可执行前文所对应实施例中对上述音频数据处理装置的描述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的音频数据处理装置所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文对应实施例中对上述音频数据处理方法的描述。另外,对采用相同方法的有益效果描述,也不再进行重复说明。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
作为示例,上述程序指令可被部署在一个计算机设备上执行,或者被部署在一个地点的至少两个计算机设备上执行,又或者,在分布在至少两个地点且通过通信网络互连的至少两个计算机设备上执行,分布在至少两个地点且通过通信网络互连的至少两个计算机设备可以组成区块链网络。
上述计算机可读存储介质可以是前述任一实施例提供的音频数据处理装置或者上述计算机设备的中部存储单元,例如计算机设备的硬盘或中存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(SMart Media card,SMC),安全数字(Secure digital,SD)卡,闪存卡(flaSh card)等。在一些实施例中,该计算机可读存储介质还可以既包括该计算机设备的中部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同媒体中容,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
在一些实施例中,本申请以上实施例如果需要用到用户信息等,需要获得用户许可或者同意,需要遵守相关国家和地区的相关法律法规。
本申请实施例还提供了一种计算机程序产品,包括计算机程序/指令,上述计算机程序/指令被处理器执行时实现前文对应实施例中对上述音频数据处理方法、解码方法的描述。另外,对采用相同方法的有益效果描述不再重复说明。对于本申请所涉及的计算机程序产品的实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程网络连接设备的处理器以产生一个机器,使得通过计算机或其他可编程网络连接设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程网络连接设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程网络连接设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (18)

  1. 一种音频数据处理方法,应用于计算机设备,包括:
    获取待处理的原始带噪音频数据,以及与所述原始带噪音频数据关联的目标场景参数;
    根据所述目标场景参数,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数;
    根据所述目标降噪强度参数,对所述原始带噪音频数据进行降噪处理,得到目标增强音频数据。
  2. 如权利要求1所述的方法,其中,所述根据所述目标场景参数,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数,包括:
    若所述目标场景参数用于确定所述原始带噪音频数据的应用场景,获取在所述应用场景下关于音频数据的质量需求等级;
    根据所述质量需求等级,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数。
  3. 如权利要求1所述的方法,其中,所述根据所述目标场景参数,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数,包括:
    若所述目标场景参数用于确定所述原始带噪音频数据的采集场景,获取在所述采集场景中在历史时间段内的历史噪声数据;
    根据所述历史噪声数据,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数。
  4. 如权利要求3所述的方法,其中,所述根据所述历史噪声数据,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数,包括:
    从所述历史噪声数据中,确定所述采集场景在所述历史时间段内的噪声数据对应噪声类型和噪声变化特征;
    根据所述噪声类型和所述噪声变化特征,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数。
  5. 根据权利要求4中所述的方法,其中,所述采集场景在所述历史时间段内的噪声数据对应M个噪声类型,所述根据所述噪声类型和所述噪声变化特征,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数,包括:
    基于所述M个噪声类型分别对应的噪声变化特征,确定用于对原始带噪音频数据进行降噪处理的M个候选降噪强度参数;
    将所述M个候选降噪强度参数确定为目标降噪强度参数;或者,
    对所述M个候选噪声强度参数进行均值计算,得到目标降噪强度参数。
  6. 如权利要求1所述的方法,其中,所述根据所述目标降噪强度参数,对所述原始带噪音频数据进行降噪处理,得到目标增强音频数据,包括:
    获取目标降噪处理模型,所述目标降噪处理模型包括特征提取网络、语音解析网络和语音生成网络;
    通过所述特征提取网络,提取所述原始带噪音频数据的频域信号;
    通过所述语音解析网络,对所述原始带噪音频数据的频域信号进行解析,得到所述原始带噪音频数据的余弦变换掩码;所述余弦变换掩码用于反映所述原始带噪音频数据中的音频数据的占比;
    通过所述语音生成网络,根据所述原始带噪音频数据的余弦变换掩码、所述原始带噪音频数据的频域信号以及所述目标降噪强度参数,生成目标增强音频数据。
  7. 如权利要求6所述的方法,其中,所述通过所述语音解析网络,对所述原始带噪音频数据的频域信号进行解析,得到所述原始带噪音频数据的余弦变换掩码,包括:
    通过所述语音解析网络中的编码层,按照第一语音特征提取模式对所述原始带噪音频数据的频域信号进行语音特征提取,得到第一关键语音特征;
    按照第二语音特征提取模式对所述第一关键语音特征进行语音特征提取,得到第二关键语音特征;
    按照第三语音特征提取模式对所述第一关键语音特征和所述第二关键语音特征进行语音特征提取,得到第三关键语音特征;
    对所述第一关键语音特征、所述第二关键语音特征以及所述第三关键语音特征进行解析,得到所述原始带噪音频数据的余弦变换掩码。
  8. 如权利要求7所述的方法,其中,所述对所述第一关键语音特征、所述第二关键语音特征以及所述第三关键语音特征进行解析,得到所述原始带噪音频数据的余弦变换掩码,包括:
    通过所述语音解析网络中的时序解析层,对所述第三关键语音特征进行解析,得到所述原始带噪音频数据的时序信息;
    通过所述语音解析网络中的解码层,根据所述时序信息、所述第一关键语音特征、所述第二关键语音特征以及所述第三关键语音特征进行解析,得到所述原始带噪音频数据的余弦变换掩码。
  9. 如权利要求6所述的方法,其中,所述通过所述语音生成网络,根据所述原始带噪音频数据的余弦变换掩码、所述原始带噪音频数据的频域信号以及所述目标降噪强度参数,生成目标增强音频数据,包括:
    通过所述语音生成网络,根据所述原始带噪音频数据的频域信号,确定所述原始带噪音频数据的原始信噪比;
    根据所述原始信噪比以及所述目标降噪强度参数,生成所述原始带噪音频数据降噪后的增强信噪比;
    根据所述增强信噪比、所述原始带噪音频数据的余弦变换掩码以及所述原始带噪音频数据的频域信号,生成目标增强音频数据。
  10. 如权利要求7所述的方法,其中,所述根据所述增强信噪比、所述原始带噪音频数据的余弦变换掩码以及所述原始带噪音频数据的频域信号,生成目标增强音频数据,包括:
    根据所述增强信噪比、所述原始带噪音频数据的余弦变换掩码对所述原始带噪音频数据的频域信号进行降噪处理,得到频域增强音频数据;
    对所述频域增强音频数据进行变换,得到时域增强音频数据,将所述时域增强音频数据,确定为目标增强音频数据。
  11. 如权利要求6所述的方法,其中,所述方法还包括:
    获取样本音频数据以及样本噪声数据,根据所述样本音频数据和所述样本噪声数据生成样本带噪音频数据;
    获取用于对所述样本带噪音频数据进行降噪处理的样本降噪强度参数;
    根据所述样本降噪强度参数、所述样本音频数据以及样本噪声数据生成标注语音增强数据;
    通过初始降噪处理模型基于所述样本降噪强度参数,对所述样本带噪音频数据进行降噪处理,得到预测语音增强数据;
    根据所述预测语音增强数据和所述标注语音增强数据,对所述初始降噪处理模型进行优化训练,得到所述目标降噪处理模型。
  12. 如权利要求11所述的方法,其中,所述根据所述预测语音增强数据和所述标注语音增强数据,对所述初始降噪处理模型进行优化训练,得到所述目标降噪处理模型,包括:
    根据所述预测语音增强数据和所述标注语音增强数据,确定所述初始降噪处理模型的降噪处理误差;
    根据所述预测语音增强数据确定所述预测语音增强数据中所包含的噪声数据的稳定度;
    根据所述降噪处理误差和所述稳定度,对所述初始降噪处理模型的模型参数进行调整,得到所述目标降噪处理模型。
  13. 如权利要求12所述的方法,其中,所述根据所述降噪处理误差和所述稳定度,对所述初始降噪处理模型的模型参数进行调整,得到所述目标降噪处理模型,包括:
    根据所述降噪处理误差确定所述初始降噪处理模型的收敛状态;
    若所述初始降噪处理模型的收敛状态为未收敛状态,或所述稳定度小于稳定度阈值,则根据所述降噪处理误差,对所述初始降噪处理模型的模型参数进行调整;
    直到调整后的初始降噪处理模型的收敛状态为已收敛状态,且对应的稳定度大于或等于所述稳定度阈值,将所述调整后的初始降噪处理模型,确定为所述目标降噪处理模型。
  14. 如权利要求11所述的方法,其中,所述根据所述样本降噪强度参数、所述样本音频数据以及样本噪声数据生成标注语音增强数据,包括:
    根据所述样本降噪强度参数对所述样本噪声数据进行降噪处理,得到处理后的样本噪声数据;
    将所述处理后的样本噪声数据与所述样本音频数据进行组合,得到标注语音增强数据。
  15. 一种音频数据处理装置,包括:
    获取模块,配置为获取待处理的原始带噪音频数据,以及与所述原始带噪音频数据关联的目标场景参数;
    确定模块,配置为根据所述目标场景参数,确定用于对所述原始带噪音频数据进行降噪处理的目标降噪强度参数;
    处理模块,配置为根据所述目标降噪强度参数,对所述原始带噪音频数据进行降噪处理,得到目标增强音频数据。
  16. 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至14中任一项所述的方法的步骤。
  17. 一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的音频数据处理方法的步骤。
  18. 一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至14中任一项所述的音频数据处理方法的步骤。
PCT/CN2023/129766 2022-12-30 2023-11-03 音频数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品 Ceased WO2024139730A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP23909663.9A EP4560627A4 (en) 2022-12-30 2023-11-03 METHOD AND APPARATUS FOR PROCESSING AUDIO DATA, AND DEVICE, COMPUTER-READABLE STORAGE MEDIA AND COMPUTER PROGRAM PRODUCT
US18/908,353 US20250029627A1 (en) 2022-12-30 2024-10-07 Method and apparatus for processing audio data, device, and computer-readable storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202211725937.6 2022-12-30
CN202211725937.6A CN118280377A (zh) 2022-12-30 2022-12-30 音频数据处理方法、装置、设备及存储介质

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/908,353 Continuation US20250029627A1 (en) 2022-12-30 2024-10-07 Method and apparatus for processing audio data, device, and computer-readable storage medium

Publications (1)

Publication Number Publication Date
WO2024139730A1 true WO2024139730A1 (zh) 2024-07-04

Family

ID=91643243

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2023/129766 Ceased WO2024139730A1 (zh) 2022-12-30 2023-11-03 音频数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品

Country Status (4)

Country Link
US (1) US20250029627A1 (zh)
EP (1) EP4560627A4 (zh)
CN (1) CN118280377A (zh)
WO (1) WO2024139730A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119155583A (zh) * 2024-08-13 2024-12-17 江西瑞声电子有限公司 耳机自适应降噪的方法、耳机与存储介质
CN119559940A (zh) * 2024-11-26 2025-03-04 北京航空航天大学 一种高噪声条件下的空管指令端到端语音识别方法
CN119479670A (zh) * 2024-12-04 2025-02-18 歌尔股份有限公司 语音增强模型训练方法、语音增强方法、设备、介质及产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197670A (zh) * 2019-06-04 2019-09-03 大众问问(北京)信息科技有限公司 音频降噪方法、装置及电子设备
CN111785288A (zh) * 2020-06-30 2020-10-16 北京嘀嘀无限科技发展有限公司 语音增强方法、装置、设备及存储介质
US20210074282A1 (en) * 2019-09-11 2021-03-11 Massachusetts Institute Of Technology Systems and methods for improving model-based speech enhancement with neural networks
CN113362845A (zh) * 2021-05-28 2021-09-07 阿波罗智联(北京)科技有限公司 声音数据降噪方法、装置、设备、存储介质及程序产品
CN113395539A (zh) * 2020-03-13 2021-09-14 北京字节跳动网络技术有限公司 音频降噪方法、装置、计算机可读介质和电子设备
CN113539283A (zh) * 2020-12-03 2021-10-22 腾讯科技(深圳)有限公司 基于人工智能的音频处理方法、装置、电子设备及存储介质
DE102021203815A1 (de) * 2021-04-16 2022-10-20 Robert Bosch Gesellschaft mit beschränkter Haftung Tonverarbeitungsvorrichtung, System und Verfahren

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220092389A1 (en) * 2020-09-21 2022-03-24 Aondevices, Inc. Low power multi-stage selectable neural network suppression
WO2022182356A1 (en) * 2021-02-26 2022-09-01 Hewlett-Packard Development Company, L.P. Noise suppression controls

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197670A (zh) * 2019-06-04 2019-09-03 大众问问(北京)信息科技有限公司 音频降噪方法、装置及电子设备
US20210074282A1 (en) * 2019-09-11 2021-03-11 Massachusetts Institute Of Technology Systems and methods for improving model-based speech enhancement with neural networks
CN113395539A (zh) * 2020-03-13 2021-09-14 北京字节跳动网络技术有限公司 音频降噪方法、装置、计算机可读介质和电子设备
CN111785288A (zh) * 2020-06-30 2020-10-16 北京嘀嘀无限科技发展有限公司 语音增强方法、装置、设备及存储介质
CN113539283A (zh) * 2020-12-03 2021-10-22 腾讯科技(深圳)有限公司 基于人工智能的音频处理方法、装置、电子设备及存储介质
DE102021203815A1 (de) * 2021-04-16 2022-10-20 Robert Bosch Gesellschaft mit beschränkter Haftung Tonverarbeitungsvorrichtung, System und Verfahren
CN113362845A (zh) * 2021-05-28 2021-09-07 阿波罗智联(北京)科技有限公司 声音数据降噪方法、装置、设备、存储介质及程序产品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4560627A4 *

Also Published As

Publication number Publication date
EP4560627A4 (en) 2025-11-19
CN118280377A (zh) 2024-07-02
US20250029627A1 (en) 2025-01-23
EP4560627A1 (en) 2025-05-28

Similar Documents

Publication Publication Date Title
WO2024139730A1 (zh) 音频数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品
CN113539283B (zh) 基于人工智能的音频处理方法、装置、电子设备及存储介质
US12586599B2 (en) Audio signal processing method and apparatus, electronic device, and storage medium with machine learning and for microphone mute state features in a multi person voice call
US10218856B2 (en) Voice signal processing method, related apparatus, and system
CN115101082B (zh) 语音增强方法、装置、设备、存储介质及程序产品
JP2016502139A (ja) 圧縮されたオーディオ信号を修復するシステム、コンピュータ可読記憶媒体、および方法
EP4243019B1 (en) Voice processing method, smart terminal and storage medium
WO2024027295A1 (zh) 语音增强模型的训练、增强方法、装置、电子设备、存储介质及程序产品
US11924367B1 (en) Joint noise and echo suppression for two-way audio communication enhancement
CN112151055B (zh) 音频处理方法及装置
CN110956976A (zh) 一种回声消除方法、装置、设备及可读存储介质
CN110782907B (zh) 语音信号的发送方法、装置、设备及可读存储介质
CN107578783A (zh) 音视频直播中的音频降噪方法及系统、存储器及电子设备
WO2022156336A1 (zh) 音频数据处理方法、装置、设备、存储介质及程序产品
CN114333892A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN115083440B (zh) 音频信号降噪方法、电子设备和存储介质
US11521637B1 (en) Ratio mask post-filtering for audio enhancement
CN110364188A (zh) 音频播放方法、装置及计算机可读存储介质
CN114760389B (zh) 语音通话方法、装置、计算机存储介质及电子设备
CN113113046B (zh) 音频处理的性能检测方法、装置、存储介质及电子设备
CN118250486A (zh) 视频卡顿的检测方法、装置、终端及存储介质
CN114093373A (zh) 音频数据传输方法、装置、电子设备及存储介质
CN114724572B (zh) 确定回声延时的方法和装置
CN117153178B (zh) 音频信号处理方法、装置、电子设备和存储介质
CN117727334B (zh) 一种音频处理方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23909663

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023909663

Country of ref document: EP

Ref document number: 23909663

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2023909663

Country of ref document: EP

Effective date: 20250219

WWP Wipo information: published in national office

Ref document number: 2023909663

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE