CN111192599A - 一种降噪方法及装置 - Google Patents

一种降噪方法及装置 Download PDF

Info

Publication number
CN111192599A
CN111192599A CN201811352262.9A CN201811352262A CN111192599A CN 111192599 A CN111192599 A CN 111192599A CN 201811352262 A CN201811352262 A CN 201811352262A CN 111192599 A CN111192599 A CN 111192599A
Authority
CN
China
Prior art keywords
noise reduction
model
voice
terminal device
voice information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811352262.9A
Other languages
English (en)
Other versions
CN111192599B (zh
Inventor
宋钦梅
方华
袁其政
屈跃强
程宝平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201811352262.9A priority Critical patent/CN111192599B/zh
Publication of CN111192599A publication Critical patent/CN111192599A/zh
Application granted granted Critical
Publication of CN111192599B publication Critical patent/CN111192599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/19Arrangements of transmitters, receivers, or complete sets to prevent eavesdropping, to attenuate local noise or to prevent undesired transmission; Mouthpieces or receivers specially adapted therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/18Automatic or semi-automatic exchanges with means for reducing interference or noise; with means for reducing effects due to line faults with means for protecting lines

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请实施例公开了一种降噪方法及装置,其中方法包括:通过基于频域构建的深度学习训练模型对训练数据的时域特征值和目标值进行训练,服务器可以将得到的模型参数发送给终端设备,以使终端设备接收到该模型参数后,对第一语音降噪模型的参数进行更新,并使用更新后的第一语音降噪模型对用户输入的语音信息进行降噪处理。本申请实施例中,通过使用深度学习训练模型训练得到的模型参数对终端设备中的第一语音降噪模型的参数进行更新,可以使得终端设备采用深度学习训练模型训练得到的模型参数对用户输入的语音信息进行降噪处理,从而能够使降噪处理得到的语音信息更加准确,提高用户的体验感。

Description

一种降噪方法及装置
技术领域
本申请涉及通信技术领域,尤其涉及一种降噪方法及装置。
背景技术
现实生活中,用户发出的语音信息中通常含有噪声,比如,环境中的风声、汽车声、机器运转的声音等。在用户使用语音装置进行通话的过程中,这些噪声可能会影响用户的通话质量,使得用户的体验不好。举个例子,用户A和用户B通过终端设备(比如手机)进行通话,若用户A通过手机a发出的语音信息中包含的噪声较大,可能会使得用户B通过手机b无法正常获取到用户A的语音信息,比如获取到的语音信息不够清晰,或者获取不到用户A发出的语音信息。
因此,目前亟需一种降噪方法,用以解决因存在噪声而导致用户之间通话质量较低的技术问题。
发明内容
本申请实施例提供一种降噪方法及装置,用以解决因存在噪声而导致用户之间通话质量较低的技术问题。
本申请实施例提供的一种降噪方法,包括:
服务器获取训练数据,所述训练数据包括在第一环境中收集的第一语音信息和在第二环境中收集的第二语音信息,所述第一环境中的噪声小于等于预设阈值,所述第二环境中的噪声大于所述预设阈值;
所述服务器根据所述训练数据,确定所述训练数据的时域特征值和目标值;所述训练数据的时域特征值包括噪声阈值、长时能量值、短时能量值和噪声包络跟踪值中的一项或多项;所述训练数据的目标值包括所述第一语音信息的语音活动检测值和/或所述第二语音信息的全带信噪比;
所述服务器基于频域构建的深度学习训练模型,对所述时域特征值和所述目标值进行训练,得到模型参数,并将所述模型参数发送给终端设备;所述模型参数用于所述终端设备对用户输入的语音信息进行降噪处理。
本申请实施例提供的一种降噪方法,包括:
终端设备接收服务器发送的模型参数;
所述终端设备根据所述模型参数,对所述终端设备中的第一语音降噪模型的参数进行更新,得到更新后的第一语音降噪模型;
所述终端设备在接收到用户输入的语音信息后,使用所述更新后的第一语音降噪模型对所述语音信息进行降噪处理。
可选地,所述终端设备接收服务器发送的模型参数之后,还包括:
所述终端设备将预设标志更新为第一指示值;
所述终端设备得到更新后的第一语音降噪模型之后,还包括:
所述终端设备将所述预设标志更新为第二指示值。
可选地,所述终端设备在接收到用户输入的语音信息后,使用所述更新后的第一语音降噪模型对所述语音信息进行更新之前,还包括:
所述终端设备确定所述预设标志为所述第二指示值。
可选地,所述方法还包括:
所述终端设备在接收到用户输入的语音信息后,若确定所述预设标志为所述第一指示值,则使用所述终端设备中的第二语音降噪模型对所述语音信息进行降噪处理;所述第二语音降噪模型为所述第一语音降噪模型的备用模型。
本申请实施例提供的一种服务器,该服务器包括:
获取模块,用于获取训练数据,所述训练数据包括在第一环境中收集的第一语音信息和在第二环境中收集的第二语音信息,所述第一环境中的噪声小于等于预设阈值,所述第二环境中的噪声大于所述预设阈值;
确定模块,用于根据所述训练数据,确定所述训练数据的时域特征值和目标值,所述训练数据的时域特征值包括噪声阈值、长时能量值、短时能量值和噪声包络跟踪值中的一项或多项;所述训练数据的目标值包括所述第一语音信息的语音活动检测值和/或所述第二语音信息的全带信噪比;
处理模块,用于基于频域构建的深度学习训练模型,对所述时域特征值和所述目标值进行训练,得到模型参数,并将所述模型参数发送给终端设备,以使所述终端设备使用所述模型参数对用户输入的语音信息进行降噪处理。
本申请实施例提供的一种终端设备,该终端设备包括:
收发模块,用于接收服务器发送的模型参数;
更新模块,用于根据所述模型参数,对所述终端设备中的第一语音降噪模型的参数进行更新,得到更新后的第一语音降噪模型;
降噪模块,用于在接收到用户输入的语音信息后,使用所述更新后的第一语音降噪模型对所述语音信息进行降噪处理。
可选地,在所述收发模块接收到服务器发送的模型参数之后,所述更新模块还用于:将预设标志更新为第一指示值,以及在得到更新后的第一语音降噪模型之后,将所述预设标志更新为第二指示值。
可选地,所述降噪模块还用于:
确定所述预设标志为所述第二指示值。
可选地,所述降噪模块还用于:
在接收到用户输入的语音信息后,若确定所述预设标志为所述第一指示值,则使用所述终端设备中的第二语音降噪模型对所述语音信息进行降噪处理;所述第二语音降噪模型为所述第一语音降噪模型的备用模型。
本申请的上述实施例中,服务器通过将收集到的第一环境(噪声小于等于预设阈值)中的第一语音信息和第二环境(噪声大于预设阈值)中的第二语音信息作为训练数据,并在确定训练数据的时域特征值和目标值后,基于频域构建的深度学习训练模型对时域特征值和目标值进行训练,得到模型参数,以及将模型参数发送给终端设备,使得终端设备可以在接收到服务器发送的模型参数后,对终端设备中的第一语音降噪模型的参数进行更新,并可以使用更新后的第一语音降噪模型对用户输入的语音信息进行降噪处理。本申请实施例中,通过获取训练数据的时域特征值(可以体现时域特征)和目标值,并采用基于频域构建的深度学习训练模型(可以体现频域特征)对训练数据的时域特征值和目标值进行训练,可以在训练模型的过程中将语音信息的时域特征和频域特征进行结合,进而提升深度学习训练模型的训练性能,加快深度学习训练模型的训练速度;且,由于训练数据可以包括多种环境下的语音信息,并可以多次采用不同的训练数据对深度学习训练模型进行训练,因此可以得到比较准确的模型参数;进一步地,通过使用深度学习训练模型训练得到的模型参数对终端设备中的第一语音降噪模型的参数进行更新,可以使得终端设备采用深度学习训练模型训练得到的模型参数对用户输入的语音信息进行降噪处理,从而能够使降噪处理得到的语音信息更加准确,提高用户的体验感。此外,采用深度学习训练模型对训练数据进行训练获取模型参数的过程和终端设备对用户语音信息的降噪过程可以并行处理,从而能够提高语音降噪的处理速度和处理效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种可能的系统架构示意图;
图2为本申请实施例提供的一种降噪方法对应的流程示意图;
图3为本申请实施例中提供的一种服务器的结构示意图;
图4为本申请实施例中提供的一种终端设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种可能的系统架构,该系统架构中可以包括网络设备100、一个或多个终端设备(比如,图1中示意出的终端设备101和终端设备102),终端设备101和终端设备102可以通过网络设备100进行通信。其中,网络设备100可以为基站,比如长期演进(Long Term Evolution,LTE)通信系统中的演进型基站(比如,evolved NodeB)。终端设备可以为手机(mobile phone)、平板电脑(Pad)等,具体不做限定。
本申请实施例中,用户A和用户B可以通过终端设备进行通话,其中,用户A使用终端设备101,用户B使用终端设备102,一种可能的场景为,用户A向终端设备101输入语音信息,终端设备101通过网络设备100将用户A输入的语音信息传输给终端设备102,终端设备102在接收到语音信息后,将接收到的语音信息提供给用户B。
为了提高通话质量,一种可能的实现方式(为便于描述简称实现方式a)为,采用预设噪声信号对用户发出的语音信息进行降噪处理,即过滤掉用户发出的语音信息中的预设噪声信号,得到过滤后的语音信息。采用这种语音降噪方法,可以对用户发出的语音信息中的预设噪声信号进行过滤。然而,该种方法所采用的预设噪声信号是固定的,也就是说,终端设备可能会采用该预设噪声信号对所有后续用户发出的语音信息进行降噪处理,而不会对终端设备中的模型参数进行更新。在某种情况下,采用预设噪声信号对用户在多种不同环境下的语音信息进行降噪处理得到的语音信息可能会不准确。
基于此,本申请实施例提供一种语音降噪方法,用以解决因存在噪声而导致用户之间通话质量较低的技术问题。
图2为本申请实施例提供的一种降噪方法对应的流程示意图,该方法包括:
步骤201,服务器获取训练数据,并确定训练数据的时域特征值和目标值。
此处,训练数据可以包括在第一环境中收集的第一语音信息和在第二环境中收集的第二语音信息,第一环境中的噪声可以小于等于预设阈值,也就是说,第一环境中的噪声较小,第二环境中的噪声可以大于预设阈值,也就是说,第一环境中的噪声较大。其中,预设阈值可以是由本领域技术人员根据经验进行设置得到的,或者也可以是通过一次或多次实验确定的,本申请实施例对此不作限定。
本申请实施例中,训练数据的获取方式可以有多种,在一种可能的实现方式中,可以由测试人员携带语音采集装置分别在第一环境和第二环境中收集第一语音信息和第二语音信息。举个例子,以预设阈值为-30分贝为例,若应用场景为预设楼层的某个房间,则可以将语音采集装置采集到的测试人员在该房间噪声小于等于-30分贝(或者没有噪声)的第一位置发出的语音信息作为第一语音信息,且可以将语音采集装置采集到的测试人员在该房间噪声大于-30分贝的第二位置发出的相同的语音信息作为第二语音信息。比如,用户在室内远离窗户的A位置对语音采集装置说“测试室内环境的噪声”(为便于描述,简称语音1),并在窗户旁边的位置B对语音采集装置说“测试室内环境的噪声”(为便于描述,简称语音2),则第一语音信息可以为语音1,第二语音信息可以为语音2。
本申请实施例中,语音信息作为一种信号,一般可以具有时域特征和频域特征。具体地说,语音信息的时域特征可以由语音信息的幅值维度和语音信息的时间维度来描述,比如,可以表示为幅值随时间变化的函数;通过语音信息的时域特征,可以获取到语音信息在某个时间段内的能量值、语音信息在某个时间点的幅值等信息。语音信息的频域特征可以由语音信息的幅值维度和语音信息的频率维度来描述,比如,可以表示为幅值随频率变化的函数。语音信息的时域特征与频域特征之间可以进行转换,在一个示例中,可以通过傅里叶变换将随时间变化的语音信息拆解为多个具有不同频率的语音信息。
本申请实施例中,服务器可以获取语音采集装置采集的训练数据,并确定训练数据的时域特征值,训练数据的时域特征值可以用于指示训练数据在时间域上的特征,在一种可能的实现方式中,训练数据的时域特征值可以包括噪声阈值、长时能量值、短时能量值和噪声包络跟踪值中的一项或多项。可以理解的,训练数据的时域特征值还可以包括其他的信息,本申请实施例对此不作限定。
具体实施中,噪声阈值可以用于指示噪声的幅值范围,在一个示例中,可以预先设置一个初始噪声阈值(比如,-40分贝),此时,训练数据中幅值小于-40分贝的语音信息可以认定为噪声,幅值大于-40分贝的语音信息可以认定为用户的语音。具体实施中,不同的环境可以对应有不同的初始噪声阈值,比如,办公环境对应的初始噪声阈值可以为-40分贝,商场对应的初始噪声阈值可以为-30分贝。本申请实施例中,每一个环境对应的初始噪声阈值可以由本领域技术人员根据经验进行设置,或者也可以由本领域技术人员通过实验进行确定,对此不作限定。
长时能量值和短时能量值可以用于指示语音信息在预设时间段内的能量信息。下面以第一语音信息为例描述获取第一语音信息的长时能量值和短时能量值的实现过程,获取第二语音信息的长时能量值和短时能量值的过程可以参照第一语音信息来处理。
本申请实施例中,可以预先根据第一语音信息的总时长对第一语音信息进行分帧操作,得到多帧语音信息。其中,多帧语音信息中任意两帧语音信息的时长可以相同,或者也可以不同。具体实施中,将第一语音信息划分为多帧语音信息的方式可以有多种,在一种可能的实现方式中,可以预先设置一个标准帧时长(比如,10ms),从而根据标准帧时长将第一语音信息划分为多帧语音信息。在一个示例中(为便于描述,简称示例一),第一语音信息的总时长为205ms,则根据标准帧时长划分后,可以得到21帧语音信息,其中第1帧语音信息至第20帧语音信息的时长和标准帧时长相同,均为10ms,第21帧语音信息的时长为5ms。
进一步地,可以设置长时能量值为A帧(比如,A为3)语音信息的总能量的平均值,并可以设置短时能量值为最近B帧(比如,B为1)语音信息的能量值。基于示例一中的多帧语音信息和每帧语音信息的时长,则长时能量值可以为30ms时长的语音信息的总能量的平均值(若包括第21帧语音信息,则可以为25ms时长的语音信息的总能量的平均值);相应地,短时能量值可以为第21帧语音信息的能量值。需要说明的是,本申请实施例中,A和B的数值可以由本领域技术人员根据实际情况进行调整,对此不作限定。
噪声包络跟踪值可以用于对噪声的幅值进行估计。一般来说,噪声可能会比语音具有更宽的时间特性,因此,可以通过跟踪第二语音信息中每帧语音信息对应的最小幅值来获取噪声幅值的估计值。比如,可以预先提取第二语音信息中每帧语音信息对应的最小值,并据此绘制噪声包络跟踪图,并可以根据噪声包络跟踪图和预设指标(比如,快降慢升的原则),计算得到估计的噪声信息(比如,长时能量值对应的噪声包络值、短时能量值对应的噪声包络值等)。
需要说明的是,本申请实施例中,噪声阈值的大小还可以根据噪声包络跟踪值进行调整。在一个示例中,可以预设一个增量(比如,2分贝),若计算得到的噪声包络跟踪值大于初始噪声阈值(比如,-40分贝),则可以按照预设增量依次增大噪声阈值。举个例子,若第一次计算得到的噪声包络跟踪值为-35分贝,则可以将噪声阈值调整为-33分贝,并可以基于-33分贝的噪声阈值对噪声包络跟踪值进行计算。
本申请实施例中,服务器还可以确定训练数据的目标值,训练数据的目标值可以包括第一语音信息的语音活动检测值和/或第二语音信息的全带信噪比。其中,第一语音信息的语音活动检测值可以用于指示检测到的是语音还是噪声,在一个示例中,可以预设第一指示值(1)和第二指示值(0),比如,“1”可以用于指示当前检测到的是语音,“0”可以用于指示当前检测到的是噪声,或者,“0”可以用于指示当前检测到的是语音,“1”可以用于指示当前检测到的是噪声,本申请实施例对此不做限定。第二语音信息的全带信噪比可以用于指示语音和噪声的对应关系,在一个示例中,第二语音信息的全带信噪比可以为第二语音信息的平均功率和第二语音信息相对应的噪声的平均功率的比值。
步骤202,服务器基于频域构建的深度学习训练模型,对时域特征值和目标值进行训练,得到模型参数。
此处,深度学习训练模型的构建方法可以有多种,在一种可能的实现方式中,可以基于keras构建深度学习训练模型。具体地说,Keras是一个基于Theano的高度模块化的神经网络库,比如,Keras可以基于Torch并可以采用Python语言进行编写,且Keras可以支持图形处理器(Graphics Processing Unit,GPU)和中央处理器(Central Processing Unit,CPU)。
本申请实施例中,深度学习训练模型可以包括语音活动检测模块、噪声谱估计模块和谱减模块。其中,语音活动检测模块可以通过检测第一语音信息和第二语音信息,并根据检测到的第一语音信息和第二语音信息的活动标志(比如,幅值范围等)来区分语音和幅值。噪声谱估计模块可以用于对第一语音信息和第二语音信息进行计算,并可以根据计算得到的结果对噪声的频谱特性进行估计。谱减模块可以用于根据语音活动检测模块和噪声谱估计模块得到的计算结果,确定增益值,该增益值可以用于对语音信息中的噪声进行抑制。
具体实施中,服务器可以将训练数据的时域特征值作为深度学习训练模型的输入信息,并可以将训练数据的目标值作为深度学习训练模型的输出信息,进而控制深度学习训练模型根据输入信息和输出信息进行模型训练,得到模型参数。在一个示例中,服务器通过将时域特征值输入语音活动检测模块,可以得到第一模型参数;进一步地,服务器通过将第一模型参数输入噪声谱估计模块,可以得到第二模型参数,同时,服务器通过将第一模型参数输入谱减模块,可以得到第三模型参数;最后,服务器通过将第一模型参数、第二模型参数和第三模型参数共同输入谱减模块,可以得到训练数据经过深度学习训练模型训练后的模型参数。需要说明的是,本申请实施例中,深度学习训练模型中的各个模块可以为通过Keras构建的功能模块,也就是说,语音活动检测模块、噪声谱估计模块和谱减模块仅为对确定模型参数的过程进行描述而引入的,具体实施中,还可以包括其它模块,具体不做限定。且,各个功能模块的名称也可以为其它可能的名称,具体不做限定。
步骤203,将模型参数发送给终端设备。
此处,服务器可以通过与终端设备进行通信,将模型参数发送给终端设备,其中,服务器与终端设备进行通信的方式可以有多种,在一个示例中,服务器可以通过无线方式与终端设备进行通信;在又一个示例中,服务器也可以通过有线(比如,光纤、网线等)与终端设备进行通信,本申请实施例对此不作限定。
步骤204,终端设备接收服务器发送的模型参数,并使用该模型参数对终端设备中的第一语音降噪模型的参数进行更新。
本申请实施例中,终端设备中可以预先设置有第一语音降噪模型和第二语音降噪模型,第二语音降噪模型可以为第一语音降噪模型的备用模型。其中,第一语音降噪模块和第二语音降噪模型在初始状态(比如,在终端设备出厂时,或者终端设备被初始化后)的参数可以为未对基于Kears搭建的深度语音学习训练模型进行模型训练前的参数。
具体实施中,终端设备中可以设置有一个预设标志,该预设标志可以用于指示终端设备中的第一语音降噪模型是否处于更新状态。在一个示例中,终端设备在接收到服务器发送的模型参数,并在使用该模型参数对终端设备中的第一语音降噪模型的参数进行更新之前,终端设备可以将预设标志更新为第一指示值,第一指示值可以用于指示终端设备中的第一语音降噪模型处于更新状态。进一步地,终端设备可以在得到更新后的第一语音降噪模型之后,将预设标志更新为第二指示值,第二指示值可以用于指示终端设备中的第一语音降噪模型处于未更新状态,或者可以用于指示终端设备中的第一语音降噪模型已更新完成。本申请实施例中,预设标志可以通过一个比特位来表示,比如,第一指示值可以为“0”,第二指示值可以为“1”;或者,第一指示值可以为“1”,第二指示值可以为“0”,具体不做限定。
本申请实施例中,若终端设备检测到第一语音降噪模型由于某些原因(比如,终端设备的某些硬件损坏或者第一语音降噪模型的更新算法出错等)无法进行降噪处理,则终端设备也可以将预设标志更新为第一指示值。
需要说明的是,本申请实施例中,终端设备可以在得到更新后的第一语音降噪模型后,将第二语音降噪模块更新为第一语音降噪模块,比如,可以将第二语音降噪模块的参数更新为第一语音降噪模块的参数。
步骤205,终端设备在接收到用户输入的语音信息后,若确定预设标志为第一指示值,则可以执行步骤206a;若确定预设标志为第二指示值,则可以执行步骤206b;若确定预设标志为第二指示值,则可以执行步骤206b。
步骤206a,终端设备使用第二语音降噪模型对语音信息进行降噪处理。
此处,终端设备若确定预设标志为第一指示值,说明终端设备中的第一语音降噪模型处于更新状态,或者第一语音降噪模型无法进行降噪处理,此时,终端设备可以控制终端设备中的第二语音降噪模型对用户输入的语音信息进行降噪处理。
具体地说,第二语音降噪模型的参数可以为终端设备接收到的服务器上一次进行模型训练所得到的模型参数(或者在初始状态下可以为传统语音降噪模型的模型参数),因此,终端设备可以采用上一次得到的模型参数(或者传统语音降噪模型的模型参数)对用户输入的语音信息进行降噪处理。
步骤206a,终端设备使用更新后的第一语音降噪模型对语音信息进行降噪处理。
此处,终端设备确定预设标志为第二指示值,说明终端设备中的第一语音降噪模型已更新完成,此时,终端设备可以控制更新后的第一语音降噪模型对用户输入的语音信息进行降噪处理。也就是说,终端设备可以采用服务器进行模型训练得到的最新的模型参数对用户输入的语音信息进行降噪处理。
本申请的上述实施例中,通过获取训练数据的时域特征值(可以体现时域特征)和目标值,并采用基于频域构建的深度学习训练模型(可以体现频域特征)对训练数据的时域特征值和目标值进行训练,可以在训练模型的过程中将语音信息的时域特征和频域特征进行结合,进而提升深度学习训练模型的训练性能,加快深度学习训练模型的训练速度;且,由于训练数据可以包括多种环境下的语音信息,并可以多次采用不同的训练数据对深度学习训练模型进行训练,因此可以得到比较准确的模型参数;进一步地,通过使用深度学习训练模型训练得到的模型参数对终端设备中的第一语音降噪模型的参数进行更新,可以使得终端设备采用深度学习训练模型训练得到的模型参数对用户输入的语音信息进行降噪处理,从而能够使降噪处理得到的语音信息更加准确,提高用户的体验感。此外,采用深度学习训练模型对训练数据进行训练获取模型参数的过程和终端设备对用户语音信息的降噪过程可以并行处理,从而能够提高语音降噪的处理速度和处理效率。
针对上述方法流程,本申请实施例还提供一种降噪装置,该装置的具体内容可以参照上述方法实施。
图3为本申请实施例提供的一种服务器的结构示意图,包括:
获取模块301,用于获取训练数据,所述训练数据包括在第一环境中收集的第一语音信息和在第二环境中收集的第二语音信息,所述第一环境中的噪声小于等于预设阈值,所述第二环境中的噪声大于所述预设阈值;
确定模块302,用于根据所述训练数据,确定所述训练数据的时域特征值和目标值,所述训练数据的时域特征值包括噪声阈值、长时能量值、短时能量值和噪声包络跟踪值中的一项或多项;所述训练数据的目标值包括所述第一语音信息的语音活动检测值和/或所述第二语音信息的全带信噪比;
处理模块303,用于基于频域构建的深度学习训练模型,对所述时域特征值和所述目标值进行训练,得到模型参数,并将所述模型参数发送给终端设备,以使所述终端设备使用所述模型参数对用户输入的语音信息进行降噪处理。
图4为本申请实施例提供的一种终端设备的结构示意图,包括:
收发模块401,用于接收服务器发送的模型参数;
更新模块402,用于根据所述模型参数,对所述终端设备中的第一语音降噪模型的参数进行更新,得到更新后的第一语音降噪模型;
降噪模块403,用于在接收到用户输入的语音信息后,使用所述更新后的第一语音降噪模型对所述语音信息进行降噪处理。
可选地,在所述收发模块401接收到服务器发送的模型参数之后,所述更新模块402还用于:将预设标志更新为第一指示值,以及在得到更新后的第一语音降噪模型之后,将所述预设标志更新为第二指示值。
可选地,所述降噪模块403还用于:
确定所述预设标志为所述第二指示值。
可选地,所述降噪模块403还用于:
在接收到用户输入的语音信息后,若确定所述预设标志为所述第一指示值,则使用所述终端设备中的第二语音降噪模型对所述语音信息进行降噪处理;所述第二语音降噪模型为所述第一语音降噪模型的备用模型。
从上述内容可以看出:本申请的上述实施例中,服务器通过将收集到的第一环境(噪声小于等于预设阈值)中的第一语音信息和第二环境(噪声大于预设阈值)中的第二语音信息作为训练数据,并在确定训练数据的时域特征值和目标值后,基于频域构建的深度学习训练模型对时域特征值和目标值进行训练,得到模型参数,以及将模型参数发送给终端设备,使得终端设备可以在接收到服务器发送的模型参数后,对终端设备中的第一语音降噪模型的参数进行更新,并可以使用更新后的第一语音降噪模型对用户输入的语音信息进行降噪处理。本申请实施例中,通过获取训练数据的时域特征值(可以体现时域特征)和目标值,并采用基于频域构建的深度学习训练模型(可以体现频域特征)对训练数据的时域特征值和目标值进行训练,可以在训练模型的过程中将语音信息的时域特征和频域特征进行结合,进而提升深度学习训练模型的训练性能,加快深度学习训练模型的训练速度;且,由于训练数据可以包括多种环境下的语音信息,并可以多次采用不同的训练数据对深度学习训练模型进行训练,因此可以得到比较准确的模型参数;进一步地,通过使用深度学习训练模型训练得到的模型参数对终端设备中的第一语音降噪模型的参数进行更新,可以使得终端设备采用深度学习训练模型训练得到的模型参数对用户输入的语音信息进行降噪处理,从而能够使降噪处理得到的语音信息更加准确,提高用户的体验感。此外,采用深度学习训练模型对训练数据进行训练获取模型参数的过程和终端设备对用户语音信息的降噪过程可以并行处理,从而能够提高语音降噪的处理速度和处理效率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种降噪方法,其特征在于,所述方法包括:
服务器获取训练数据,所述训练数据包括在第一环境中收集的第一语音信息和在第二环境中收集的第二语音信息,所述第一环境中的噪声小于等于预设阈值,所述第二环境中的噪声大于所述预设阈值;
所述服务器根据所述训练数据,确定所述训练数据的时域特征值和目标值;所述训练数据的时域特征值包括噪声阈值、长时能量值、短时能量值和噪声包络跟踪值中的一项或多项;所述训练数据的目标值包括所述第一语音信息的语音活动检测值和/或所述第二语音信息的全带信噪比;
所述服务器基于频域构建的深度学习训练模型,对所述时域特征值和所述目标值进行训练,得到模型参数,并将所述模型参数发送给终端设备,所述模型参数用于所述终端设备对用户输入的语音信息进行降噪处理。
2.一种降噪方法,其特征在于,所述方法包括:
终端设备接收服务器发送的模型参数;
所述终端设备根据所述模型参数,对所述终端设备中的第一语音降噪模型的参数进行更新,得到更新后的第一语音降噪模型;
所述终端设备在接收到用户输入的语音信息后,使用所述更新后的第一语音降噪模型对所述语音信息进行降噪处理。
3.根据权利要求2所述的方法,其特征在于,所述终端设备接收服务器发送的模型参数之后,还包括:
所述终端设备将预设标志更新为第一指示值;
所述终端设备得到更新后的第一语音降噪模型之后,还包括:
所述终端设备将所述预设标志更新为第二指示值。
4.根据权利要求3所述的方法,其特征在于,所述终端设备在接收到用户输入的语音信息后,使用所述更新后的第一语音降噪模型对所述语音信息进行更新之前,还包括:
所述终端设备确定所述预设标志为所述第二指示值。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
所述终端设备在接收到用户输入的语音信息后,若确定所述预设标志为所述第一指示值,则使用所述终端设备中的第二语音降噪模型对所述语音信息进行降噪处理;所述第二语音降噪模型为所述第一语音降噪模型的备用模型。
6.一种服务器,其特征在于,所述服务器包括:
获取模块,用于获取训练数据,所述训练数据包括在第一环境中收集的第一语音信息和在第二环境中收集的第二语音信息,所述第一环境中的噪声小于等于预设阈值,所述第二环境中的噪声大于所述预设阈值;
确定模块,用于根据所述训练数据,确定所述训练数据的时域特征值和目标值,所述训练数据的时域特征值包括噪声阈值、长时能量值、短时能量值和噪声包络跟踪值中的一项或多项;所述训练数据的目标值包括所述第一语音信息的语音活动检测值和/或所述第二语音信息的全带信噪比;
处理模块,用于基于频域构建的深度学习训练模型,对所述时域特征值和所述目标值进行训练,得到模型参数,并将所述模型参数发送给终端设备,以使所述终端设备使用所述模型参数对用户输入的语音信息进行降噪处理。
7.一种终端设备,其特征在于,所述终端设备包括:
收发模块,用于接收服务器发送的模型参数;
更新模块,用于根据所述模型参数,对所述终端设备中的第一语音降噪模型的参数进行更新,得到更新后的第一语音降噪模型;
降噪模块,用于在接收到用户输入的语音信息后,使用所述更新后的第一语音降噪模型对所述语音信息进行降噪处理。
8.根据权利要求7所述的终端设备,其特征在于,在所述收发模块接收到服务器发送的模型参数之后,所述更新模块还用于:将预设标志更新为第一指示值,以及在得到更新后的第一语音降噪模型之后,将所述预设标志更新为第二指示值。
9.根据权利要求8所述的终端设备,其特征在于,所述降噪模块还用于:
确定所述预设标志为所述第二指示值。
10.根据权利要求9所述的终端设备,其特征在于,所述降噪模块还用于:
在接收到用户输入的语音信息后,若确定所述预设标志为所述第一指示值,则使用所述终端设备中的第二语音降噪模型对所述语音信息进行降噪处理;所述第二语音降噪模型为所述第一语音降噪模型的备用模型。
CN201811352262.9A 2018-11-14 2018-11-14 一种降噪方法及装置 Active CN111192599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811352262.9A CN111192599B (zh) 2018-11-14 2018-11-14 一种降噪方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811352262.9A CN111192599B (zh) 2018-11-14 2018-11-14 一种降噪方法及装置

Publications (2)

Publication Number Publication Date
CN111192599A true CN111192599A (zh) 2020-05-22
CN111192599B CN111192599B (zh) 2022-11-22

Family

ID=70708941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811352262.9A Active CN111192599B (zh) 2018-11-14 2018-11-14 一种降噪方法及装置

Country Status (1)

Country Link
CN (1) CN111192599B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933105A (zh) * 2020-09-17 2020-11-13 南昌工程学院 一种汽车噪声控制装置及其控制方法
CN112565997A (zh) * 2020-12-04 2021-03-26 可孚医疗科技股份有限公司 助听器的自适应降噪方法、装置、助听器及存储介质
CN112580823A (zh) * 2020-12-17 2021-03-30 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、可读存储介质和电子设备
CN112634932A (zh) * 2021-03-09 2021-04-09 南京涵书韵信息科技有限公司 音频信号处理方法、装置、服务器及相关设备
CN113421577A (zh) * 2021-05-10 2021-09-21 北京达佳互联信息技术有限公司 一种视频配音方法、装置、电子设备和存储介质
CN113840034A (zh) * 2021-11-29 2021-12-24 荣耀终端有限公司 声音信号处理方法和终端设备
WO2022026948A1 (en) 2020-07-31 2022-02-03 Dolby Laboratories Licensing Corporation Noise reduction using machine learning
CN116941185A (zh) * 2021-07-09 2023-10-24 Oppo广东移动通信有限公司 基于迁移学习的降噪方法、终端设备、网络设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105023580A (zh) * 2015-06-25 2015-11-04 中国人民解放军理工大学 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法
CN106024002A (zh) * 2015-02-11 2016-10-12 恩智浦有限公司 时间零收敛单麦克风降噪
US20180033449A1 (en) * 2016-08-01 2018-02-01 Apple Inc. System and method for performing speech enhancement using a neural network-based combined symbol
CN107845389A (zh) * 2017-12-21 2018-03-27 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
CN108346433A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106024002A (zh) * 2015-02-11 2016-10-12 恩智浦有限公司 时间零收敛单麦克风降噪
CN105023580A (zh) * 2015-06-25 2015-11-04 中国人民解放军理工大学 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法
US20180033449A1 (en) * 2016-08-01 2018-02-01 Apple Inc. System and method for performing speech enhancement using a neural network-based combined symbol
CN107845389A (zh) * 2017-12-21 2018-03-27 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
CN108346433A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4383256A2 (en) 2020-07-31 2024-06-12 Dolby Laboratories Licensing Corporation Noise reduction using machine learning
CN116057626A (zh) * 2020-07-31 2023-05-02 杜比实验室特许公司 使用机器学习的降噪
WO2022026948A1 (en) 2020-07-31 2022-02-03 Dolby Laboratories Licensing Corporation Noise reduction using machine learning
CN111933105A (zh) * 2020-09-17 2020-11-13 南昌工程学院 一种汽车噪声控制装置及其控制方法
CN111933105B (zh) * 2020-09-17 2024-03-29 南昌工程学院 一种汽车噪声控制装置及其控制方法
CN112565997B (zh) * 2020-12-04 2022-03-22 可孚医疗科技股份有限公司 助听器的自适应降噪方法、装置、助听器及存储介质
CN112565997A (zh) * 2020-12-04 2021-03-26 可孚医疗科技股份有限公司 助听器的自适应降噪方法、装置、助听器及存储介质
CN112580823A (zh) * 2020-12-17 2021-03-30 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、可读存储介质和电子设备
CN112634932A (zh) * 2021-03-09 2021-04-09 南京涵书韵信息科技有限公司 音频信号处理方法、装置、服务器及相关设备
CN112634932B (zh) * 2021-03-09 2021-06-22 赣州柏朗科技有限公司 音频信号处理方法、装置、服务器及相关设备
CN113421577A (zh) * 2021-05-10 2021-09-21 北京达佳互联信息技术有限公司 一种视频配音方法、装置、电子设备和存储介质
CN116941185A (zh) * 2021-07-09 2023-10-24 Oppo广东移动通信有限公司 基于迁移学习的降噪方法、终端设备、网络设备及存储介质
CN113840034A (zh) * 2021-11-29 2021-12-24 荣耀终端有限公司 声音信号处理方法和终端设备

Also Published As

Publication number Publication date
CN111192599B (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
CN111192599B (zh) 一种降噪方法及装置
CN111149370B (zh) 会议系统中的啸叫检测
EP3998557A1 (en) Audio signal processing method, model training method, and related apparatus
CN105979197B (zh) 基于啸叫音自动识别的远程会议控制方法及装置
CN103065631B (zh) 一种语音识别的方法、装置
CN103971680B (zh) 一种语音识别的方法、装置
US20200265857A1 (en) Speech enhancement method and apparatus, device and storage mediem
CN110335593B (zh) 语音端点检测方法、装置、设备及存储介质
RU2588596C2 (ru) Определение расстояния и/или качества акустики между мобильным устройством и базовым блоком
WO2019112468A1 (en) Multi-microphone noise reduction method, apparatus and terminal device
CN104103278A (zh) 一种实时语音去噪的方法和设备
US12119015B2 (en) Systems, methods, apparatus, and storage medium for processing a signal
US20150032445A1 (en) Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium
CN111883173A (zh) 基于神经网络的音频丢包修复方法、设备和系统
CN103617801A (zh) 语音检测方法、装置及电子设备
CN111223492A (zh) 一种回声路径延迟估计方法及装置
US20150325252A1 (en) Method and device for eliminating noise, and mobile terminal
US20150098587A1 (en) Processing apparatus, processing method, program, computer readable information recording medium and processing system
JP2005516247A (ja) 雑音環境のための音声活動検出器及び有効化器
EP2993666B1 (en) Voice switching device, voice switching method, and computer program for switching between voices
CN108039182B (zh) 一种语音激活检测方法
CN106340310B (zh) 语音检测方法及装置
CN103337245B (zh) 基于子带信号的信噪比曲线的噪声抑制方法及装置
GB2580821A (en) Analysing speech signals
CN116193321A (zh) 声音信号处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant