WO2010130225A1

WO2010130225A1 - 一种音频解码方法和音频解码器

Info

Publication number: WO2010130225A1
Application number: PCT/CN2010/072781
Authority: WO
Inventors: 张琦; 张立斌
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2009-05-14
Filing date: 2010-05-14
Publication date: 2010-11-18
Anticipated expiration: 2011-11-14
Also published as: EP2431971A1; KR101343898B1; KR20120016115A; CN101556799B; CN101556799A; EP2431971B1; JP5418930B2; EP2431971A4; US20120095769A1; US8620673B2; JP2012527001A

Description

一种音频解码方法和音频解码器本申请要求于 2009 年 5 月 14 日提交中国专利局、申请号为 200910137565.3，发明名称为 "一种音频解码方法和音频解码器" 的中国专利申请的优先权，在先申请文件的内容通过引用结合在本申请中。技术领域

本发明涉及多声道音频编解码技术领域，具体涉及一种音频解码方法和音频解码器。背景技术

目前，多声道音频信号有着广泛的应用场景，如电话会议、游戏等，因此多声道音频信号的编解码也越来越受到重视。基于波形编码的传统编码器如 MPEG-II ( Moving Pictures Experts Group II，动态图像专家组标准第二版）、 MP3 ( Moving Picture Experts Group Audio Layer III, 动态图像专家组音频第三层）和 AAC ( Advanced Audio Coding, 高级音频编码）在对多声道信号进行编码时，都是对每一个声道进行独立编码。这种方法虽然能够较好地恢复出多声道信号，但是需要的带宽、编码码率是单声道信号的数倍。

目前较为流行的立体声或多声道编码技术是参数立体声编码，其利用很少的带宽就可以重建出听觉感受和原始信号完全相同的多声道信号。其基本方法是：在编码端，将多声道信号下混成一个单声道信号，并对此信号进行独立编码，同时提取各声道间的声道参数，并对这些参数进行编码。在解码端，首先解码出下混后的单声道信号，然后解码出各声道间的声道参数，最后利用这些声道参数与下混后的单声道信号一起合成出各多声道信号。典型的参数立体声编码技术，如 PS (变量立体声）等都有着广泛的应用。在参数立体声编码中通常用来描述各声道间相互关系的声道参数有

ITD( Inter-channel Time Difference,声道间时间差)、 ILD( Inter-channel Level Difference, 声道间幅度差）及 ICC ( Inter-Channel Coherence, 声道间相关性）等。这些参数可以表征立体声声像信息，如声源发声方向、位置等。在编码端对这些参数进行编码传输，并且对由多声道得到的下混信号进行编码传输，就可以在解码端较好地重构出立体声信号，而且占用带宽小，编码码率低。但是，在对现有技术的研究和实践过程中，本发明的发明人发现，采用现有的参数立体声编解码方法，存在编解码端处理信号不一致的问题，这种编解码信号的不一致会使解码得到的信号质量下降。

发明内容

本发明实施例提供一种音频解码方法和音频解码器，能够使编解码端处理信号一致，提高解码立体声信号的质量。

本发明实施例包括以下技术方案：

一种音频解码方法，包括：

确定待解码的码流为单声道编码层和立体声第一增强层码流；对所述单声道编码层进行解码，获得单声道解码频域信号；

在第一子带区域采用能量调整后的所述单声道解码频域信号对左右声道频域信号进行重构；

在第二子带区域采用未经能量调整的所述单声道解码频域信号对左右声道频域信号进行重构。

一种音频解码器，包括：判断单元、处理单元和第一重构单元，其中：所述判断单元，用于判断待解码的码流是否为单声道编码层和立体声第一增强层码流，如果是，则触发第一重构单元；

所述处理单元，用于对所述单声道编码层进行解码，获得单声道解码频域信号；

所述第一重构单元，用于在第一子带区域采用能量调整后的单声道解码频域信号对左右声道频域信号进行重构；在第二子带区域采用所述处理单元解码得到的未经能量调整的所述单声道解码频域信号对左右声道频域信号进行重构。本发明实施例根据待解码的码流状态决定解码过程中在对单声道信号进行重构时所采用的单声道信号类型，其中在确定待解码的码流为单声道编码层和立体声第一增强层码流时，在第一子带区域采用能量调整后的单声道解码频域信号对左右声道频域信号进行重构；在第二子带区域采用未经能量调整的单声道解码频域解码信号对左右声道频域信号进行重构，由于待解码的码流只包含单声道编码层和立体声第一增强层码流，而不包含残差第二子带区域的参数，所以在第二子带区域采用未经能量调整的解码频域解码信号对左右声道频域信号进行重构，从而使得解码端与编码端信号保持一致，因此可以提高解码立体声信号质量。附图说明

图 1是参数立体声音频编码方法流程图；

图 2是本发明实施例中一种音频解码方法流程图；

图 3是本发明实施例中另一种音频解码方法流程图；

图 4是本发明实施例中音频解码器一结构示意图；

图 5是本发明实施例中音频解码器二结构示意图。

具体实施方式

本发明的发明人发现，现有音频解码方法所重构的立体声信号质量取决于两方面：重构的单声道信号质量和立体声参数提取的准确性。其中，在解码端重构的单声道信号质量对最终输出的重构立体声信号质量起着非常重要的作用。因此在解码端需要尽可能高质量地重构出单声道信号，在此基上才能重构出高质量的立体声信号。

本发明实施例提供一种音频解码方法，能够使编解码端的处理信号一致，从而可以提高解码立体声信号的质量。本发明实施例还提供相应的音频解码器。

为使本领域技术人员更好地理解和实现本发明实施例，以下首先对参数立体声编码在编码端所执行的操作进行伴细说明，参照图 1，为参数立体声音频编码方法流程图，具体步骤如下：

511、根据原始左右声道信号提取声道参数 ITD，根据 ITD参数对左右声道信号进行声道延时调整，对调整后的左右声道信号进行下混处理，得到单声道信号（也可称为和信号即 M信号）和边信号（S信号）。

M信号和 S信号在 [0~7khz]频带内的频域信号分别为： {w(0),w(l),---,w(N-l)}, ^SXO^I N— 1)}。根据式（1 )得到左右声道在 [0~7khz] 频带内的频域信号 Z{/(0),/(l),---,/(N-l)} ，

R{r(0),r(\),---,r(N-\)}_a

512、将左右声道的频域信号划分为 8个子带，按子带提取左右声道参数 ILD: W[band][l],W[band][r] , 并进行量化编码得到量化后的声道参数 ILD: W_q[band][l],W_q[band][r], 其中 b i e (0，1，2，3，4，5，6，7)， 1表示左声道参数 ILD， r标识为右声道参数 ILD。

513、对 M信号进行编码，并且进行本地解码得到本地解码频域信号 M_x {m_x (0), m_x (1)，•••,w₁(N-l)}₀

514、将 S13得到的频域信号划分为和左右声道相同的 8个子带，按照式（2)计算 5， 6， 7子带的能量补偿参数画对能量补偿参数进行量化编码，得到量化后

。 ecomp[band] =

q an r x q an r x nmo yenergy an

(2) 其中： C[ba"i] [/][/]= ,

Unmofiyenergy[ban ] = (/) x m_x (/)分别表示在当前子带原始左声道 i [st rt_barui,end_band]

能量、原始右声道能量、本地解码单声道能量， [stoW ， i ]表示当前子带频率点的起始位置和结束位置。

515、对本地解码频域信号进行频语峰值分析，得到频谱分析结果 MASK{mask{Q),mask{\),- --,mask{N - 1)}，其中 mask(i)G {0,1}。当 ]^在1处的频语信号1¾为峰值时， wo^( ) = l，否则 wo^0') = 0。

516、选择最佳能量调整因子 multiplier, 按照式（3)对解码频域信号 Mi 进行能量调整，得到能量调整后的频域信号 M₂ {m₂(0),m₂(\),- · ·， w₂(N - 1)}，对能量调整因子 multiplier进行量化编码。

S17、利用能量调整后的频域信号 M₂、左右声道频域信号 L、 R以及左右声道量化后的声道参数 ILD: W_q, 按照式（4)计算左右声道残差信息

--,eleft(N - 1) ，以及 resright{eright(0), eright(\), ···, eright(N - 1)}。

eleft(i) = /(/) - W [band] [I] x m₂ (i)

， i ^,end , band = 0,1,2,3,·· -7 erightii) = r{i)-W_q [band] [r]xm₂ (i) ^{1 band}, ^band ，，，， (4)

S18、对左右声道残差进行 K-L (Karhunen-Loeve)变换，对变换核 H进行量化编码，对变换后得到的残差主元^7{^(0)，^(1)，...，^(^ - 1)}、残差

、 t ED{ed(0),ed(l),' - -,ed{N - 1)}进行分层多次量化编码。

S 19、对编码端提取的各种编码信息按照重要程度进行分层封装码流，将编码码流传输。

其中， M信号的编码信息最重要，首先作为单声道编码层进行封装；声道参数 ILD、声道参数 ITD、能量调整因子、能量补偿参数、 K-L变换核和残差主元 0~4子带第一次量化编码结果作为立体声第一增强层进行封装；其他信息也按重要性进行分层封装。

由于码流的传输网络环境时刻在变化，当网络资源不足时，在解码端不能接收到所有的编码信息。例如只接收到单声道编码层和立体声第一增强层码流，其他层码流没有接收到。

本发明的发明人在对现有技术的研究和实践过程中发现：对于解码端只接收到单声道编码层和立体声第一增强层码流的情况下，即待解码的码流只有单声道编码层和立体声第一增强层码流，现有技术中对解码端的能量补偿是基于能量调整后的单声道解码频域信号进行的，而在编码端步骤 S14中提取 5， 6， 7子带的能量补偿参数是基于未经能量调整的单声道解码频域信号进行的，此时，编解码段的处理信号不一致，这种编解码端信号的不一致会使解码输出信号的质量出现下降。

而本发明实施例在解码端根据待解码的码流状态决定解码过程中采用的单声道解码频域信号类型，当解码端只接收到单声道编码层和立体声第一增强层码流时，在重构 5， 6, 7子带的立体声信号时采用未经能量调整的单声道解码频域信号进行重构；在重构 0~4子带的立体声信号时采用经过能量调整后的单声道解码频域信号进行重构。

参照图 2，为本发明实施例中一种音频解码方法流程图，包括：

S21、确定待解码的码流为单声道编码层和立体声第一增强层码流； 522、对所述单声道编码层进行解码，获得单声道解码频域信号；

523、在第一子带区域采用能量调整后的所述单声道解码频域信号对左右声道频域信号进行重构；

524、在第二子带区域采用未经能量调整的所述单声道解码频域信号对左右声道频域信号进行重构。

本发明实施例提供了一种音频解码方法，根据接收到的码流状态决定解码过程中在对单声道信号进行重构时所采用的单声道信号类型，在确定接收到的码流为单声道编码层和立体声第一增强层码流时，在第一子带区域采用能量调整后的单声道解码频域信号对左右声道频域信号进行重构；在第二子带区域采用未经能量调整的单声道解码频域信号对左右声道频域信号进行重构，由于待解码的码流只有单声道编码层和立体声第一增强层码流，解码端没有接收到残差第二子带区域的参数，所以在第二子带区域采用未经能量调整的单声道解码频域信号对左右声道频域信号进行重构，从而使得解码端与编码端信号的处理信号保持一致，从而可以提高解码立体声信号质量。

参照图 3，为本发明实施例中另一种音频解码方法流程图，以下通过具体步骤详细说明在解码端确定只接收到单声道编码层和立体声第一增强层码流的情况下，本发明实施例在解码端所采用的解码方法：

S3 K判断接收到的码流是否只包含单声道编码层和立体声第一增强层码流，如果是，则执行步骤 S32;

S32、对接收到的单声道编码层码流可以采用与编码端使用的音频 /语音编码器对应的任意一种音频 /语音解码器进行解码操作，进行得到单声道解码频域信号：

该信号即为编码端步骤 S13得到的信号。从立体声第一增强层码流中读取各个参数对应的码字，对各参数进行解码得到声道参数 ILD: W band][l],W band][r] . 声道参数 ITD、能量调整因子 multiplie 量化后能量补偿参数 ecowpjb i]、 K-L变换核 H和残差主元 0~4子带第一次量化结果 EU_q {eu_qX (0), eu_qX (1), ···, eu_qX {end, ),0,0…，0}。

533、对单声道解码频域信号 Ml进行频语峰值分析，即在频域中搜索频语极大值，得到频谱分析结果： MASK maskiQ maski^cmask N— 1 , 其中 wa^()e{0，l}。当 Ml在 i处的频谱信号 ml(i)为峰值，即极大值时， mask{i) = 1，否贝 "] mask{i) = 0。

534、根据解码得到的能量调整因子 multiplier和频谱分析结果对单声道解码频域信号采用式（5)进行能量调整：

(i) x multiplier， mask i) = 0

m_l (i) ， mask{i) = 1 (5)

从而得到能量调整后的单声道解码频域信号 M₂ {m₂ (0), w₂ (1)，…， w₂ (N - 1)}。

S35、根据 K-L变换核 H和残差主元 0~4子带第一次量化结果 {e"_l(0),eM _l(l)， 0"c/₄ ),0,0…,。）按式（ 6 )进行^ K-L变换，得到左右声道在 0~4 子带的第一次量化残差信息 resleft _qX {eleft_ql (0), eleft_q (1)， ···, eleft_ql {end )，0,0…，0} ， resright _x {eright _x (0), eright _x (1), - - - , eright _χ end ),0,0· . ·，0}。

(6)

S36、在 0~4子带采用经过能量调整后的单声道解码频域信号 M₂，根据式（7) 重构左右声道频域信号，在 5， 6, 7子带采用未经能量调整的单声道解码频域信号^^根据式（8)重构左右声道频域信号。

I ( = eleft_ql ( + W_q [band] [I] x m₂ (i)

r i) = eright , (i) + W [band] [r] x m₂ (i) i [st rt _band, end _band],band = 0,1,2,3,4

( 7 )

/'(/') = deft (i) + W [band] [I] x m_x (i)

， i≡\start_h , , end, A.band = 5,6,7 r ' ( = eright_ql (/) + W_q [band] [r] x _mi (/) ^L ，」，，，

( 8 ) 由于在解码端接收到了立体声第一增强层码流，其中包含 0-4子带的左右声道残差信息，因此在重构 0~4子带的立体声信号时采用能量调整后的单声道解码频域信号 M₂对左右声道频域信号进行重构。而除了单声道编码层和立体声第一增强层之外的码流，解码端没有接收到其他的增强层码流，从而无法获得 5， 6, 7子带的左右声道残差信息，且在编码端的步骤 S14中，是按照式（2 )提取 5， 6， 7子带的能量补偿参数的，从 S14可以看出，所述能量补偿参数是基于单声道解码频域信号 Μ_ι;¾行的，因此本步骤中在重构 5， 6 , 7子带的立体声信号时采用未经能量调整的单声道解码频域信号进行重构，而在 0~4子带的立体声信号采用经过能量调整后的单声道解码频域信号 M₂进行重构，从而使得编解码端的信号保持一致。

537、按照式（9 )对重构后的左右声道频域信号的 5， 6, 7子带进行能量补偿调整。

_ _χ J Qecomp_q [band]/20

, , .、― ，, .、 _{1 A}_[ ]/2₀ - ^{1 G} start_band , end_band ] , band = 5,6,7

(9)

538、对左右声道频域信号进行处理，得到最终的左右声道输出信号。以上以参数立体声音频编码过程中将频域信号划分为 8个子带，且主元参数的 0~4子带封装在立体声第一增强层，有关残差的其他参数封装在其他立体声增强层进行说明，需要说明的是，此时， 0~4子带称为第一子带区域， 5~7子带称为第二子带区域。可以理解的是，在具体实施中，参数立体声音频编码过程中也可以将频域信号划分为其他数目的多个子带。即使对于划将主元参数的 0~3子带封装在立体声第一增强层，有关残差的其他参数封装在其他立体声增强层，此时， 0~3子带称为第一子带区域， 4~7子带称为第二子带区域，相应的，对于待解码的码流只有单声道编码层和立体声第一增强层码流的情况，本发明实施例在解码端在 0~3子带（第一子带区域）采用能量调整后的单声道解码频域信号对左右声道频域信号进行重构；在 4~7 子带（第二子带区域）采用未经能量调整的单声道解码频域信号对左右声道频域信号进行重构。

从本实施例可以看出，根据接收到的码流状态决定解码过程中在对单声道信号进行重构时所采用的单声道信号类型，其中在确定接收到的码流为单声道编码层和立体声第一增强层码流时，在第一子带区域采用能量调整后的单声道解码频域信号对左右声道频域信号进行重构；在第二子带区域采用未经能量调整的单声道解码频域信号对左右声道频域信号进行重构，由于待解码的码流只有单声道编码层和立体声第一增强层码流，解码端没有接收到残差第二子带区域的参数，所以在第二子带区域采用未经能量调整的单声道解码频域信号对左右声道频域信号进行重构，从而使得解码端与编码端信号的处理信号保持一致，从而可以提高解码立体声信号质量。

对于解码端接收到的码流除了单声道编码层和立体声第一增强层码流外，还包含其他立体声增强层码流（例如，单声道编码层和所有立体声增强层码流完全接收）时，解码过程与上述过程有所不同。不同之处在于，此时可以解码得到残差在所有子带区域的信息，因此在对左右声道频域信号（包括第一子带区域的立体声信号和第二子带区域的立体声信号）进行重构时采用能量调整后的单声道解码频域信号。并且，由于能够完整得到残差在所有子带区域的信息，因此不需要对第一子带或第二子带的左右声道频域信号进行能量补偿。从而使得编解码端处理信号一致。

以上对本发明实施例所采用的音频解码方法进行了详细说明，以下对使用上述音频解码方法的解码器进行对应介绍。

参照图 4，为本发明实施例中音频解码器一结构示意图，音频解码器一包括：判断单元 41、处理单元 42和第一重构单元 43，其中：

判断单元 41，用于判断待解码的码流是否为单声道编码层和立体声第一增强层码流，如果是，则触发第一重构单元 43;

处理单元 42，用于对所述单声道编码层进行解码，获得单声道解码频域信号；

第一重构单元 43，用于在第一子带区域采用能量调整后的单声道解码频域信号对左右声道频域信号进行重构；在第二子带区域采用所述处理单元 42解码得到的未经能量调整的所述单声道解码频域信号对左右声道频域信号进行重构。

所述处理单元 42还用于对所述立体声第一增强层码流进行解码，获得能量调整因子，对所述单声道解码频域信号进行频语峰值分析，获得频谱分析结果，根据所述频谱分析结果和所述能量调整因子对所述单声道解码频域信号进行能量调整。

如果参数立体声音频编码过程中将频域信号划分为 8个子带，且主元参数的 0~4子带封装在立体声第一增强层，有关残差的其他参数封装在其他立体声增强层，则第一重构单元 43具体用于在 0~4子带采用能量调整后的单声道解码频域信号对左右声道频域信号进行重构，在 5， 6， 7子带采用处理单元 42解码得到的未经能量调整的单声道解码频域信号对左右声道频域信号进行重构。

当第一重构单元 43获得重构后的左右声道频域信号后，所述处理单元 42还用于对重构后的左右声道频域信号的 5， 6， 7子带进行能量补偿调整。

可见，本实施例所介绍的音频解码器在确定只接收到单声道编码层和立体声第一增强层码流时，在第一子带区域采用能量调整后的单声道解码频域信号对左右声道频域信号进行重构；在第二子带区域采用未经能量调整的单声道频域信号对左右声道频域信号进行重构，由于只接收到单声道编码层和立体声第一增强层码流，因此残差第二子带区域的参数没有接收到，所以在第二子带区域采用未经能量调整的单声道解码频域信号对左右声道频域信号进行重构，从而使得解码端与编码端处理信号保持一致，因此可以提高解码立体声信号质量。

参照图 4，为本发明实施例中音频解码器二结构示意图，与音频解码器一的不同之处在于，音频解码器二中还包括第二重构单元 51，其中：

当所述判断单元 41的判断结果为待解码的码流除了单声道编码层和立体声第一增强层码流外，还包含其他立体声增强层码流时，所述第二重构单元 51用于在所有子带区域采用能量调整后的所述单声道解码频域信号对左右声道频域信号进行重构。

可以理解的是，在具体实施中，第一重构单元 43与第二重构单元 51可以集成在一起，作为一个重构单元。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括： ROM、 RAM, 磁盘或光盘等。以上对本发明实施例所提供的音频解码方法和音频解码器进行了详细上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

权利要求

1、一种音频解码方法，其特征在于，包括：

2、如权利要求 1所述的方法，其特征在于，还包括：

对所述单声道解码频域信号进行能量调整。

3、如权利要求 2所述的方法，其特征在于，所述对所述单声道解码频域信号进行能量调整包括：

对所述立体声第一增强层码流进行解码，获得能量调整因子；对所述单声道解码频域信号进行频语峰值分析，获得频谱分析结果；根据所述频谱分析结果和所述能量调整因子对所述单声道解码频域信号进行能量调整。

4、如权利要求 1-3任一所述的方法，其特征在于，所述在第一子带区域采用能量调整后的所述单声道解码频域信号对左右声道频域信号进行重构；在第二子带区域采用未经能量调整的所述单声道解码频域信号对左右声道频域信号进行重构具体为：

在 0~4子带采用能量调整后的所述单声道解码频域信号对左右声道频域信号进行重构；在 5， 6, 7子带采用未经能量调整的所述单声道解码频域信号对左右声道频域信号进行重构。

5、如权利要求 4所述的方法，其特征在于，对左右声道频域信号重构后还包括：对重构后的左右声道频域信号的 5， 6, 7子带进行能量补偿调整。

6、一种音频解码器，其特征在于，包括：判断单元、处理单元和第一重构单元，其中：

所述判断单元，用于判断待解码的码流是否为单声道编码层和立体声第一增强层码流，如果是，则触发第一重构单元；

所述第一重构单元，用于在第一子带区域采用能量调整后的单声道解码频域信号对左右声道频域信号进行重构；在第二子带区域采用所述处理单元解码得到的未经能量调整的所述单声道解码频域信号对左右声道频域信号进行重构。

7、如权利要求 6所述的音频解码器，其特征在于，所述处理单元还用于对所述立体声第一增强层码流进行解码，获得能量调整因子，对所述单声道解码频域信号进行频谱峰值分析，获得频谱分析结果，根据所述频谱分析结果和所述能量调整因子对所述单声道解码频域信号进行能量调整。

8、如权利要求 7所述的音频解码器，其特征在于，所述第一重构单元具体用于在 0~4子带采用能量调整后的单声道解码频域信号对左右声道频域信号进行重构；在 5， 6， 7子带采用所述处理单元解码得到的未经能量调整的所述单声道解码频域信号对左右声道频域信号进行重构。

9、如权利要求 8所述的音频解码器，其特征在于，当第一重构单元获得重构后的左右声道频域信号后，所述处理单元还用于对重构后的左右声道频域信号的 5， 6， 7子带进行能量补偿调整。

10、如权利要求 6所述的音频解码器，其特征在于，还包括：第二重构单元，当所述判断单元的判断结果为待解码的码流除了单声道编码层和立体声第一增强层码流外，还包含其他立体声增强层码流时，所述第二重构单元用于在所有子带区域采用能量调整后的所述单声道解码频域信号对左右声道频域信号进行重构。