WO2013189199A1

WO2013189199A1 - 一种单通道语音去混响的方法和装置

Info

Publication number: WO2013189199A1
Application number: PCT/CN2013/073584
Authority: WO
Inventors: 楼厦厦; 吴晓婕; 李波
Original assignee: Goertek Inc
Current assignee: Goertek Inc
Priority date: 2012-06-18
Filing date: 2013-04-01
Publication date: 2013-12-27
Anticipated expiration: 2014-12-18
Also published as: EP2863391B1; CN102750956A; KR20150005719A; EP2863391A4; JP2017021385A; US9269369B2; JP2015519614A; CN102750956B; DK2863391T3; EP2863391A1; JP6431884B2; US20150149160A1; KR101614647B1

Description

本发明涉及语音增强领域，特别涉及单通道语音去混响的方法和装置。背景技术在电话会议，智能电视网络电话等语音通讯中，说话人距离麦克风比较 -远，且通话环境是一个相对封闭的空间，麦克风端接收的信号容易受到环境混响的影响。比如，在房间内，语音经过墙面、地板和家具等多次反射，麦克风端接收到的信号是直达声和反射声的混合信号。这部分反射声就是混响信号。混响严重时，会导致语音不清楚，影响通话质量。另外，混响带来的千扰，还会导致声学接收系统性能变差，语音识别系统性能显著下降等。

早期的去混响方法主要是利用反卷积来进行的。这类方法需要提前知道准确的混响环境（房间或办公室等）的沖激响应或传递函数。混响环境的冲激响应可以通过某种特别的方法或装置提前测量得到，也可以通过其它方法单独估计得到。然后利用这个已知的混响环境冲激响应，估计逆滤波器，实现对混响信号的反卷积，从而实现去混。这类方法的问题是，混响环境的沖激响应往往很难提前获得，且求取逆滤波器的过程本身可能引入新的不稳定因素。

另一类去混响方法，不需要估计混响环境的沖激响应，因此不需要计算逆滤波器和进行逆滤波运算，也被称为盲去混响方法。这类方法通常基于语音模型假设，比如：混响导致接收的浊音激励脉冲发生变化，使得周期性变得不那么明显，从,¾影响语音清晰度。这类方法一般基于 LPC( Linear Prediction Coding, 线性预测编码）模型，假定产生语音的模型是一个全极点模型，而混响或其它加性噪声在整个系统中引入了新的零点，从而千扰了浊音激凝脉冲，但并不影响全极点滤波器。去混响方法是：估计信号的 LPC残差，然后按照基因同步猝发 >(1则 ( pitch— synchronous clustering criterion )或¹¹ 更 { K rtosis )

^: , 来估计干净的脉冲激励序列，从而实现去混响。这类方法的问题是计算复杂度往往非常高，且对于混响只影响全零点滤波器的假设，与实验分析存在不相符的情况。利用錯减法去混响是一个较佳的方案，语音信号包括直达声、早期反射声和晚期反射声，采用谱减法将晚期反射声的功率谱从整个语音的功率谱中除去能够提高语音质量。但其中的关键问题在于晚期反射声的谱的估计，即如何获得比较准确的晚期反射声的功率谱，从, ¾在将晚期反射声的成份有效去除的同时又不损伤语音。在单通道语音去混响中，因为只有一路麦克风信息可用，因此估计混响环境的传递函数或估计混响时间（RT60 ) 非常困难。发明内容本发明提供的一种单通道语音去混响的方法和装置，以解决单通道语音去混响中估计混响环境的传递函数或估计混响时间困难的问¾。

本发明公开了一种单通道语音去混响的方法，所述方法包括：

对输入的单通道语音信号进.行分幀，按时间顺序对帧信号进 ^于如下处理：对当前帧进 ^亍短时傅里叶变换，获得当前帧的功率谱和相位谱；

选取当前帧之前的、到当前帧的距离在设置的时长范围内的若千幀，将这些帧的功率谱进-行线性叠加估计出当前帧的晚期反射声的功率谱；

通过讲减法从当前帧的功率讲中去除估计出的当前帧的晚期反射声的功率谱，得到当前帧的直达声和早期反射声的功率谱；

将当前帧的直达声和早期反射声的功率錯与当前帧的相位谱一起进行短时傅里叶逆变换，获得当前帧去混响后的信号。

较佳地，依据晚期反.射声的衰减特性，设置所述时长范围的上限值；依据语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区域，设置所述时长范围的下限值。

较佳地，所述时长范围的上限值选择在 ()。3秒〜 0.5秒之间的值。

较佳地，所述时长范围的下限值选择在 50毫秒〜 80毫秒之间的值。

较佳地，所述将这些幀的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱具体包括：

应用自回归 AR模型将这些帧的功率谱中全部成分进行线姓叠加估计出当前幀的晚期反射声的功率谱；

或^ ¾，应用滑动平均 MA模型将这些帧的功率借中直达声和早期反射声成分进行线性叠加估计出当前帧的晚期反.射声的功率谱-; 应用自回归 AR模型将这些帧的功率谱中全部成分进行线性叠加，并且应用滑动平均 M A模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加，估计出当前幀的晚期反射声的功率谱。

本发明还公开了一种单通道语音去混响的装置， ^述装置包括：

分帧单元，用于对输入的单通道语音信号进行分帧，按时间顺序向傅里叶变换单元输出帧信号；

傅里叶变换单元，用于对接收的当前帧进行短时傅里叶变换，获得当前帧的功率谱和相位谱，向谱减单元和谱估计单元输出当前幀的功率谱，向傅里叶逆变换单元输出相位；

传计单元，用于将当前帧之前的、到当前帧的距离在设置的时长范围内的若千帧的功率-潜进行线性叠力^ 估计出当前帧的晚期反射声的功率谱，向-潜减单元输出估计的当前帧的晚期反射声的功率 -潜；

谱减单元，用于通过谱减法从傅里叶变换单元获得的当前帧的功率语中去除从錯估计单元获得的当前幀的晚期反射声的功率讲，得到当前帧的直达声和早期反射声的功率讲，向傅里叶逆变换单元输出当前帧的直达声和早期反射声的功率 ;

傅里叶逆变换单元，用于将从谱减单元获得的当前帧的直达声和早期反射声的功率谱与从傅里叶变换单元获得的当前幀的相位谱一起进行短时傅里叶逆变换，输出当前帧去混响后的信号。

较佳地，所述谱估计单元具体用于，依据晚期反射声的衰减特性设置所述时长范围的上限值；和 Z或，依椐语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区域设置所述时长范围的下限值。

较佳地， ^述潘估计单元具体用于，选择时长范围的上限值为 (),3秒〜 0.5秒之.间的值。

较佳地，所述潜估计单元具体用于，选择时长范围的下限值为 50毫秒〜 8()毫秒之间的俏.。

较佳地，所述估计单元具体用于：对于当前帧之前的、到当前帧的距离在所述设置的时长范围内的若千帧，应用自回归 AR模型将这些帧的功率谱中全部成分进行线性叠加估计出当前帧的晚期反射声的功率谱；对于当前帧之前的到当前帧的距离在所述设置的时长范围内的若千帧，应用滑动平均 MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加估计出当前幀的晚期反射声的功率谱；

或者，

对于当前帧之前的到当前帧的距离在所述设置的时长范围内的若千帧，应用自回归 AR 型将这些帧的功率谱中全部成分进行线性叠加，并且应用滑动平均 MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加，估计出当前帧的晚期反射声的功率谱。

本发明实施例的有益效果是：通过选取当前帧之前的、到当前帧的距离在设置的时长范围内的若千帧，将这些幀的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱，能够不需估计混响环境的传递函数或混响时间，便可以估计出当前帧的晚期反射声的功率谱，进而利用谱减法进行去混响，简化了去依据语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区域设置时长范围的下限值，能够在去除混响的同时更^ "保留有用的直达声和早依据晚期反射声的衰减特性设置时长范围的上限值，能够在保证估计的晚期反射声的功率谱的准确性的同时，减少叠加运算量；

本发明实施例将上限值选择为 0.3秒〜 (),5秒之间的值，该上限值为通过实验获得的门限值，在混响环境发生变化时，无需调整该上限值，都能够获得 4 好的去混响效果；

本发明实施例将下限值设置在 5()毫秒〜 80毫秒之间，在混响环境变化时，无需改变下限值，便能够有效避开直达声和早期反射声进行叠加，使得叠加结果中基本不包含直达声和早期反射声 , 从而在去混响的同时保留有用的直达声和早期反射声，取得较好的话音质量

上述混环境的变化包括：从无混响的消声室到混响非常严重的大礼堂 W"围说明图 i为本发明单通道语音去混响的方法的流程图；

图 2为真实房间的冲激应的示意图；

图 3为本发明实施效果示意图，图 3 ( a )为混响信号时域示意图，图 3 ( b ) 为去混响后的信号的时域示意图，图 3 ( e ) 为混响信号和去混响信号的能量包络曲线；

图 4为本发明单通道—语音去混响装置的结构图；

图 5为本发明单通道—语音去混响装置具体实施方式的结构图。

为使本发明的目的 > 技术方案和优点更.加清楚，下面将结合附图对本发明实旅方式作进一步地详.细描述- 参见图 1，为本发明提供的单通道语音去混响的方法的流程图。

步骤. S100, 对输入的单通道语音信号进-行分帧，按时间顺序对帧信号进-行如下处理。

步骤 S200，对当前帧进短时傅里叶变换，获得当前帧的功率錯和相位谱。步骤 S300, 选取当前帧之前的、到当前幀的距离在设置的时长范围内的若千帧，将这些帧的功率谱进 _行线性叠加估计出当前帧的晚期反射声的功率谱。

所述若千帧为一个预设数量的帧，可以为时长范围内的所有帧或该时长范围内的一部分帧。

步驟 S400，通过谱减法从当前帧的功率谱中去除估计的当前帧的晚期反.射声的功率谱，得到当前帧的直达声和早期反射声的功率谋。

步驟 S50()，将当前幀的直达声和早期反射声的功率谱与当前帧的相位谱一起进行短时傅里叶逆变换，获得当前幀去混响后的信号。

在混响环境中，麦克风采集到的信号 )，即单通道语音信号，是直达声和反射声的混合，可用如下混响模型表示：

x(t) = h * s(t) + n(t)

其中，是从声源发出的信号， A是从声源位置到麦克风位置两点之间的房间冲激响应， *表示卷积运算，表示混响环境内的其它加性噪声。

—个真实房间的沖激响应，如图 2所示。可以将它划分为 3个部分，直达峰^、早期反射和晚期反射。和 ⁵(0的卷积可以简单地认为是声源发出的信号经过一定的延迟后在麦克风端的再现，对应于 ^x 中的直达声部分。早期反射部分的冲击响应对应于之后一段时长的部分，该时长的结東时间点为

50ms至 80ms中的某个时间点。一般.认为这一部分和 )卷积所产生的早期反射声对直达声有加强和改善音质的作用。晚期反射声部分的冲击响应是去除和 ^后房间冲激响应余下的长长的拖尾部分，这一部分与信号 )卷积所产生的反射声，就是会对听感造成影响的混响成份。去混响算法主要是去除这一部分的影响。

因此，混响模型也可表示为：

x(t) = {he! + he) * s(t) + M * s(j) + n{t) hi部分符合指数衰减模型 , 可用如下方程近似：

3 In 10

hl( ) - h(i)e ⁷

其中，是混响环境的混响时间（RT60 ), )是零均值高斯分布随机变量。下面详细描述如何进行晚期反射声的功率语估计。

从功率谱分柝角度来看，信号功率谱可以表示为：其中 /)为晚期反射声的功率谱，而 ^， /)是直达声和早期反射声的功率谱，应予以保留。估计出晚期反射声的功率谱后，可以利用谱减法把^}^/) 从 /)中估计出来，从而实现去混响。

根据混响产生模型分折，晚期反射声的功率谱与在它之前的信号功率谱或信号功率中的某些成份成线性关系，而直达声和早期反射声的功率由于人的语音特性，恰恰和过去的信号功率谱或信号功率讲中的某些成份不构成线性关系。因此，通过对当前帧之前的特定时长的帧的功率錯中成分进行线性叠加，能够估计出当前帧的晚期反射声的功率谱。接着，再通过谱减法将晚期反射声的功率谱从功率谱中去除掉，能够实现单通道语音去混响。较.佳地，依据晚期反射声的衰减特性设置所述时长范围的上限值。

进行语估计所用的帧越多，估计越准确，但是过多的帧造成运算量的增加。通过图 2和 ^部分的指数衰减模型可知距离当前幀越远的反射声能量越小，在某一时刻之后的反射声能量可以被忽略。因此，依据晚期反射声的衰减特性获得该反射声能量可以被忽略的时刻，设置上限值为该时刻距离当前幀时刻的时长。由此，能够在保证估计的晚期反射声的功率谱的准确性的同时，减少叠加运界量。较佳地，依椐语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区域, 来设置 ^述时长范围的下限值。

通过图 2可知直达声和早期反射声能量集中在距离当前幀较近的时间内。依据直达声和早期反射声在混响环境下的冲击响应分布区域设置下限值，使得在线性叠加时避开直达声和早期反射声能量集中的时间段，能够在去除混响的同时更好保留有用的直达声和早期反射声，提高话音质量。较佳地，所述时长范围的下限值选择为 50毫秒〜 80毫秒之间的值。

通过实验发现，在各种环境下，只要保证下限值取值为 50ms〜 80ms之间的数值，就可以有效地绕过直达声和早期.反射声部分，更好地估计出有效的晚期反射声的功率谱。当环境发生变化后，无需调整下限值设置，便可获得较好话音质量。较佳地，所述时长范围的上限值选择为在 0.3秒〜 0.5秒之间的值。

理论上，上限值的设置与应用方法的具体环境相关。在本发明所涉及的晚期反射声的功率语估计中，上限值理论上对应于房间冲激响应的长度，但结合混响产生模型以及真实环境的冲激响应 ^部分按指数模型衰减，距离当前时刻越远的反射声能量越小，超过 0.5s后反射声的能量几乎可以忽略不计。因此，实际中只需要使用一个粗略的上限值就可以适用于绝大多数混响环境。经验证，上限值取在 0.3秒〜 0,5秒之间的值时，对消声室环境（混响时间常短）、一般办公室环境（混响时间 0,3 ~ 0.5s )、甚或大礼堂（混响时间 >i s ) 的多种混响环境都具有艮好的适应性。在消声室环境下，几乎没有晚期反射声。本发明的方法只估计线性成份，且绕过了直达声和早期反射声的能量集中时间段，因此即便上限值的取值比消声室的混响时间长很多，但有效的语音成份并不会被去除。而在大礼堂环境中，虽然上限值的取值可能小于真实的混时间，但由于冲激响应按指数衰减得非常快，前 0,3s 内的晚期反射声成份占据了总体晚期反射声成份的绝大部分能量，因为也可以把混响很.好地去除。在一具体实施方式中，所述将这些帧的功率谱进行线性叠加估计出当前帧的晚期反.射声的功率谱具体包括：应用自回归 AR模型将这些帧的功率谱中全部成分进行线姓叠加估计出当前帧的晚期反射声的功率谱。

例如，按如下公式使用 AR模型估计当前帧的晚期反射声的功率谱：

R , f) -∑ ' X(t j - At, f) 其中，为估计的晚期反射声的功率谱，为由设置的时长范围的下限值得出的起始阶数， ^为由设置的时长范围的上限值得出的 AR模型的阶数， ""为 AR模型估计参数； ^^Δί，/)为当前帧之前 j帧的功率谱，为帧间距。在一具体实施方式中，所述将这些帧的功率讲进行线性叠加估计出当前幀的晚期反射声的功率谱具体包括：应用滑动平均 MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加估计出当前帧的晚期反射声的功率谱。

例如, 按如下公式使用 MA模型估计当前幀的晚期反射声的功率谱：

R(i f) - 2 β, _f ' Y(t - j ' Δ ·， /) 其中，为估计的晚期反射声的功率谱， ^为由设置的时长范围的下限值得出的起始阶数，为由设置的时长范围的上限值得出的 ΜΑ模型的阶数， ^β 为 ΜΑ模型估计参数；。^/)为当前帧之前 j帧的直达声和早期反.射声的功率谱，为帧间距。在一具体实施方式中，所述将这些帧的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱具体包括：应用自回归 AR模型将这些幀的功率谱中全部成分进行线姓叠加，并且应用滑动平均 MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加，估计出当前帧的晚期反射声的功率潘。

例如，按如下公式使用 ARMA模型估计当前帧的晚期反射声的功率谱：

R(t, f) - ¾ a _f , X(t - j ' At, ./') .+· Y(t― j ' At, f) 其中，计的晚期反射声的功率谱， ^为由设置的

值得出的起始阶数， J 为由设置的时长范围的上限值得出的 AR模型的阶数， ^a 为 AR模型估计 -数，为由设置的上限值得出的 MA模型的阶数，为 MA模型怙 "ί十参数， Y(t -- j - M )为当前帧之前 j帧的直达声和早期反射声的功率谱， ^ίϊ~^'^Δί'/)为当前帧之前 j帧的功率讲，为帧间距。

AR模型、 ΜΑ模型、 ARMA模型的具体求解，现有技术中存在公知算法，比如，利用 Yule- Walker (尤利-沃克）方程求解或 Burg (伯格）算法。

利用讲减法来去混响，估计晚期反射声的功率谱最为关键。现有技术中提到的晚期反射声的功率谱估计往往是上述提出的 AR或 MA或 ARMA模型的某种特例，此外，其它晚期反射声的功率讲估计方法往往需要在语音间歇阶段估计混响环境的混响时间（RT60 )，作为晚期反射声的功率谱估计中的一个重要参数。在本专利中，不需要估计混响时间或对各种环境估计冲激响应，便可以适应多种不同的混响环境，以及说话人在混响环境中由于运动等造成的混响冲激响应或混响时间发生改变的情况。中，通

函数；

ή直达声和早期反射声的功率

^ * 功率谱 ^、/)估计完成后，去除混响的语音信号可以通过谱减法得到:

其中， ,/) 为谱-; Gain (增益 ) 函数' n ：^果如图 3 所示。混响信号（单通道语音信号）采集自会议室，声源和麦克风距离 2m，混响时间（ RT60 )约 0,45s。按本发明中提出的 AR 模型估计晚期反射声的功率谱，下限值设置为 80ms，上限值设置为 0,5s。依图示可知，应用本发明方法去混响后，混响拖尾明显衰减，语音质量得到显著提升。本发明的装置如图 4所示，单通道―语音去混响的装置包括如下单元。

分帧单元 100，用于对输入的单通道 _语音信号进行分帧，按时间顺序向傅里叶变换单元 200输出幀信号。

傅里叶变换单元 200，用于对接收的当前帧进行短时傅里叶变换，获得当前幀的功率谱和相位谱，向谱减单元 400和估计单元 300输出当前帧的功率谱，向傅里叶逆变换单元 500输出相位谱。

谱估计单元 300, 用于将当前帧之前的、到当前帧的距离在设置的时长范围内的若千幀的功率谱进行线姓叠加，估计出当前帧的晚期反声的功率谱，向谱减单元 400输出估计的当前帧的晚期反射声的功率

减单元 400，用于通过 f减法从傅里叶变换单元 200获得的当前帧的功率谱中去除从估计单元 300获得的当前幀的晚期反射声的功率谱，得到当前顿的直达声和早期反射声的功率谱，向傅里叶逆变换单元 500输出当前帧的直达声和早期反射声的功率语。

傅里叶逆变换单元 500，用于将从傳减单元 400获得的当前帧的直达声和早期反射声的功率谱与从傅里叶变换单元 200获得的当前幀的相位谱一起进行短时傅里叶逆变换，输出当前帧去混响后的信号。

较佳地，所述讲估计单元 300具体用于，依据晚期反射声的衰减特性设置所述时长范围的上限值。

较佳地，谋估计单元 300 具体用于，依据语音相关特性及直达声和早期反射声在混响环境下的沖击响应分布区域设置所述时长范围的下限值。

较佳地，谱估计单元 300具体用于，选择时长范围的上限值为 0.3秒〜 0.5秒之.间的值。

较佳地，潘估计单元 300具体用于，选择时长范围的下限值为 5()毫秒〜 80 毫秒之间的值。

具体实施方式的装置如图 5所示，所述估计单元 300具体用于：对于当前帧之前的到当前帧的距离在设置的时长范围内的若千帧，应用自回归 AR 模型将这些帧的功率谱中全部成分进行线性叠加估计出当前帧的晚期反射声的功率谱。例如，按如下公式使用 AR模型估计当前帧的晚期反射声的功率借： R(t, f) 二 J α_Ί, _f ' X(i - j ' At, f)

其中，为估计的晚期反射声的功率谱， '⁷。为由设置的下限值得出的起始级数，为由设置的上限值得出的 AR模型的阶数，为 AR模型估计参数; X{t -j - M )为当前帧之前 j帧的功率谱，为幀间距。

在另一具体实施方式中，所述錯估计单元 300具体用于：对于当前帧之前的到当前幀的距离在设置的时长范围内的若千帧，应用滑动平均 MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加估计出当前帧的晚期反射声的功率谱-。

例如, 按如下公式使用 MA模型估计当前幀的晚期反射声的功率谱： '/ ) =^ U ( . · 。 ^Δ"')

==^:Jo

其中，为估计的晚期反射声的功率谱， ^。为由设置的下限^ ί得出的起始级数，为由设置的上限值得出的 ΜΑ模型的阶数， /为 ΜΑ模型估计参数； . ,/)为当前帧之前 j帧的直达声和早期反射声的功率錯，为帧间距。

在另一具体实施方式中，所述錯估计单元 300具体用于：对于当前幀之前的、到当前帧的距离在设置的时长范围内的若千帧，应用自回归 AR模型将这些幀的功率谱中全部成分进行线性叠加，并且应用滑动平均 MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加，估计出当前帧的晚期反.射声的功率请。

例如，按如下公式使用 ARMA模型估计当前幀的晚期反身声的功率谱： R{t, f) = ^a i, _f ' ^x^― j ' Δί, ) + β · Y(i― j · At, f)

j ' J

其中，为估计的晚期反射声的功率讲，为由设置的下限值得出的起始级数，为由设置的上限值得出的 AR模型的阶数， /为 AR模型估计参数， ^"为由设置的上限值得出的 MA模型的阶数，为 MA 模型估计参数， Y(t ~j - At,f)为当前帧之前 j 帧的直达声和早期反射声的功率谱， X(t -j -M,f)为当前帧之前 j帧的功率谱， ^为幀间距

AR模型、 ΜΑ模型、 A MA模型的具体求解，现有技术中存在公知算法，比如，利用 Yuie- Walker (尤利-沃克）方程求解或 Burg (伯格）算法，所述谱减单元 400具体用于：依据晚期反射声的功率谱通

益函数，将增益函数与当前帧的功率谱相乘得当前帧的直达声和早期反射声的功率 -。

晚期反射声的功率谱估计完成后，去除混响的语音信号 ^'/)可以通过谱减法得到：

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含本发明的保护范围内。

Claims

1、一种单通道语音去混响的方法，其特征在于，所述方法包括：对输入的单通道语音信号进.行分帧，按时间顺序对帧信号进.行如下处理：对当前幀进行短时傅里叶变换，获得当前帧的功率谱和相位谱；

选取当前帧之前的、到当前帧的距离在设置的时长范围内的若千帧，将这些幀的功率-潜进行线性叠加估计出当前幀的晚期反射声的功率语；

通过语减法从当前帧的功率讲中去除估计出的当前帧的晚期反射声的功率谱，得到当前幀的直达声和早期反射声的功率谱；

将当前帧的直达声和早期反射声的功率谱与当前帧的相位錯一起进行短时傅里叶逆变换，获得当前帧去混响后的信号。

2、根据权利要求 1所述的方法，其特征在于，

依据晚期反射声的衰减特性，设置所述时长范围的上限值；

和,' '或，

依据语音相关特性及直达声和早期反声在混响环境下的冲击响应分布区域，设置所述时长范围的下限值。

3、根据权利要求 1所述的方法，其特征在于，

所述时长范围的上限值选择在 0,3秒〜 0,5秒之间的值。

4、根据权利要求 1所述的方法，其特征在于，

所述时长范围的下限值选择在 50毫秒〜 80毫秒之间的值。

5、根据权利要求 1所述的方法，其特征在于，

所述将这些顿的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱具体包括：

应用自回归 AR模型将这些幀的功率谱中全部成分进线性叠加估计出当前幀的晚期反射声的功率谱；应用滑动平均 MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加估计出当前帧的晚期反射声的功率谱; 加，估计出当前帧的晚期反射声的功率谱。

6、一种单通道.语音去混响的装置，其特征在于，所述装置包括：

分幀单元，用于对输入的单通道—语音信号进行分帧，按时间顺序向傅里叶变换单元输出帧信号；

傅里叶变换单元，用于对接收的当前帧进行短时傅里叶变换，获得当前帧的功率谱和相位'谱，向谱减单元和谱估计单元输出当前帧的功率讲，向傅里叶逆变换单元输出相位谱；

谱估计单元，用于将当前帧之前的、到当前帧的距离在设置的时长范围内的若千帧的功率谱进行线性叠加，估计出当前帧的晚期反射声的功率谱，向谱减单元输出估计的当前幀的晚期反射声的功率讲；

谱减单元，用于通过谱减法从傅里叶变换单元获得的当前帧的功率谱中去除从讲估计单元获得的当前帧的晚期反射声的功率谱，得到当前帧的直达声和早期反射声的功率谱，向傅里叶逆变换单元输出当前帧的直达声和早期反射声的功率 -潜；

傅里叶逆变换单元，用于将从傳减单元获得的当前帧的直达声和早期反射声的功率谱与从傅里叶变换单元获得的当前帧的相位谱一起进行短时傅里叶逆变换，输出当前帧去混响后的信号。

7、根据权利要求 6所述的装置，其特征在于，

所述讲估计单元具体用于，依据晚期反射声的衰减特性设置所述时长范围的上限值；和 /或，依据语音相关特性及直达声和早期反射声在混响环境下的沖击响应分布区域设置所述时长范围的下限值。

8、根据权刹要求 6所述的装置，其特征在于，

所述潘估计单元具体用于，选择时长范围的上限值为 0.3秒〜 0,5秒之间的值。

9、根据权利要求 6所述的装置，其特征在于，

所述潘估计单元具体用于，选择时长范围的下限值为 50毫秒〜 8()毫秒之间的值。

10、根据权利要求 6所述的装置，其特征在于，

所述潘估计单元具体用于：

对于当前帧之前的、到当前帧的距离在所述_设置的时长范围内的若千帧，应用自回归 AR模型将这些帧的功率谱中全部成分进行线性叠加估计出当前幀对于当前帧之前的、到当前帧的距离在所述设置的时长范围内的若千帧，应用滑动平均 MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加估计出当前帧的晚期反射声的功率谱；

或者，

对于当前帧之前的到当前帧的距离在所述设置的时长范围内的若干帧，应用自回归 AR模型将这些幀的功率谱中全部成分进行线性叠加，并且应用滑动平均 MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加，估计出当前帧的晚期反射声的功率谱。