WO2008089705A1

WO2008089705A1 - Encoding and decoding method andapparatus

Info

Publication number: WO2008089705A1
Application number: PCT/CN2008/070170
Authority: WO
Inventors: Wei Guo; Peilin Liu; Wei Li; Lijing Xu; Qing Zhang; Jianfeng Xu; Shenghu Sang; Zhengzhong Du; Chen Hu
Original assignee: Huawei Technologies Co Ltd; Shanghai Jiao Tong University
Current assignee: Huawei Technologies Co Ltd; Shanghai Jiao Tong University
Priority date: 2007-01-23
Filing date: 2008-01-23
Publication date: 2008-07-31
Anticipated expiration: 2009-07-23
Also published as: CN101231850A; EP2120233A1; CN101231850B; EP2120233A4; JP2010517083A; US20090299757A1

Description

说明书编解码方法及装置

[1] 技术领域

[2] 本发明涉及编解码技术领域，尤其涉及一种编解码方法及装置。

[3] 发明背景

[4] 随着多媒体业务的逐渐广泛应用，由于多媒体业务的自身特性使得在针对多媒体业务的编码过程中需要更高的编码效率和实吋性，同吋，相应的音频的编码带宽也需要进一步扩展。

[5] 目前，业界釆用的能够满足低码率，高质量音频编码的技术包括 AMR-WB+ (

Adaptive Multi-Rate Wideband

codec, 适应多速率的宽带多媒体信号编解码器）技术。基于 AMR-WB+的编码器主要包括以下两种编码模式：

[6] (1) ACELP (Algebraic Code Excited Linear

Prediction, 代数码激励线性预测）模式，用于对语音进行编码；

[7] (2) TCX (Transform Coded

excitation, 变换码激励）模式，用于对乐音进行编码。

[8] 该 AMR-WB+技术是通过对低码率的语音编码进行扩展而形成，具体是将针对语音的 ACELP编码和针对乐音的 TCX编码结合在一起形成的一种混合编码方式。在对每帧进行编码过程中，具体是通过比较两种模式的 SEGSNR (分段信噪比 ) 值来决定当前选择的编码模式。其中，一种模式切换情况为；前一帧釆用的是 ACELP编码模式，当前帧需要釆用 TCX编码模式；在这种情况下，需要在编码过程中釆用相应的策略以消除帧间的不连续性。由于前一帧状态所得的零输入响应和当前帧起始部分的信号有很大相似性，为了使模式转换吋能保持良好的平滑感， AMR-WB+在 ACELP编码帧到 TCX编码帧的转换吋使用了去除零输入响应的实现方案。

[9] 对于前一帧釆用 ACELP编码模式，当前帧釆用 TCX编码模式的模式切换情况，相应的 TCX编码的实现过程如图 1所示，在编码过程中，输入的音频信号首先通过感知加权滤波器后进行判断，之后，在感知加权后的信号中减去加窗处理后的 ZIR (零输入响应），进而对获得的信号添加自适应窗、进行变换域编码等处理，以获得相应的 TCX编码码流。

[10] 与图 1对应，同样模式切换情况下，相应的 TCX解码的实现过程如图 2所示，输入的 TCX编码的码流在通过变换域解码、加窗并重叠相加后，由于前一帧釆用 A CELP编码模式，故在此需要给变换域解码的数据加上加窗处理后的 ZIR, 进而再通过逆感知加权重建音频信号，完成相应的 TCX解码操作。

[11] 在实现本发明过程中，发明人发现：在 AMR-WB+涉及的 TCX编解码过程中，其釆用的消除帧间不连续的编解码方案的理论依据是零输入响应和当前帧起始部分的信号相似，因此，当零输入响应和当前帧起始部分的信号不相似吋，则相应的消除帧间不连续的效果无法得到保证。而且，还由于在消除帧间不连续的处理过程中，需要计算合成加权滤波器的零输入响应，且相应的算法复杂度相对较高，从而使得编解码过程的实现复杂程度也会相应提高。

[12] 发明内容

[13] 本发明的实施例提供了一种编解码方法及装置，从而可以使得编解码过程中，实现消除帧间不连续的处理过程的复杂程度降低，进而降低了编解码过程的实现复杂度。

[14] 本发明的实施例提供了一种编码方法，包括：

[15] 当确定前一帧釆用第一编码模式进行编码，且当前帧需要釆用第二编码模式进行编码吋，根据当前帧与前一帧的编码数据的交迭部分数据长度，获取对应的前一帧中的所述交迭部分数据长度的编码数据；

[16] 将从前一帧中获取的编码数据与当前帧的编码数据进行第二编码模式编码处理

，获得编码结果。

[17] 本发明的实施例提供了一种编码装置，包括编码模式切换识别单元、前一编码帧交迭数据获取单元和第二编码单元，其中：

[18] 编码模式切换识别单元，在确定前一帧釆用的是第一编码模式进行编码，且当前帧需要釆用变换域编码模式进行编码后，触发所述前一编码帧交迭数据获取单元； [19] 前一编码帧交迭数据获取单元，用于根据确定的当前帧与前一帧的编码数据交迭部分数据长度，获取对应的前一帧中相应长度的编码数据，并提供给第二编码单元；

[20] 第二编码单元，将所述前一编码帧交迭数据获取单元获取的编码数据与当前帧的编码数据进行交迭处理，获得编码结果。

[21] 本发明的实施例提供了一种解码方法，包括：

[22] 对接收到的码流进行解码操作，并确定前一帧釆用第一解码模式解码获得，当前帧为釆用第二解码模式解码获得；

[23] 根据确定的当前帧与前一帧的解码数据交迭部分数据长度，获取对应的前一帧中的所述交迭部分数据长度的解码数据；

[24] 将从前一帧中获取的解码数据与当前帧的解码数据进行交迭处理，获得解码结果。

[25] 本发明的实施例提供了一种解码装置，包括解码模式切换识别单元、前一解码帧交迭数据获取单元和第二解码单元，其中：

[26] 解码模式切换识别单元，用于在根据解码后的码流中的信息确定前一帧釆用第一解码模式解码获得，当前帧为釆用第二码解码模式解码获得后，触发前一解码帧交迭数据获取单元；

[27] 前一解码帧交迭数据获取单元，用于根据确定的当前帧与前一帧的解码数据交迭部分数据长度，获取对应的前一帧中相应长度的解码数据，并提供给第二解码单元；

[28] 第二解码单元，用于将前一解码帧交迭数据获取单元获取的解码数据与当前帧的解码数据进行交迭处理，获得解码结果。

[29] 由上述本发明的实施例提供的技术方案可以看出，本发明提供的实施例无需通过滤波器运算便可以实现相应的模式切换编解码处理，从而使得整个编解码过程运算复杂度不高，进而更易于软硬件的实现。同吋，本发明提供的实施例还可以在零输入响应和当前帧起始部分的信号不相似情况下，使得消除帧间不连续的效果能够得到有效保证

[30] 附图简要说明 [31] 图 1为现有技术中 TCX编码过程的原理框图；

[32] 图 2为现有技术中 TCX解码过程的原理框图；

[33] 图 3为现有技术中计算加窗处理后的 ZIR值过程中应用的吋域窗函数

的示意图；

[34] 图 4为本发明实施例中 TCX编码过程的原理框图；

[35] 图 5为本发明实施例中 TCX解码过程的原理框图；

[36] 图 6为本发明实施例中输入语音帧结构示意图；

[37] 图 7为本发明实施例中加窗处理后的窗形示意图；

[38] 图 8为本发明实施例中解码过程中帧间交迭平滑的示意图；

[39] 图 9为本发明实施例中提供的编解码装置的具体实现结构示意图。

[40] 实施本发明的方式

[41] 本发明提供的编码的实施例包括：在确定前一帧釆用的是第一编码模式进行编码，且进一步确定当前帧需要釆用第二编码模式进行编码，即确定编码过程中发生的编码模式的切换吋；则根据当前帧与前一帧及后一帧的编码数据交迭部分数据长度，获取对应的前一帧及后一帧中的所述交迭部分数据长度的编码数据；并对从前一帧及后一帧数据中获取的编码数据及当前帧的编码数据进行基于第二编码模式的编码处理，获得编码结果。其中，所述的交迭部分数据长度为根据各编码帧的帧长确定并预先设置于编码器中，且所述编码帧的帧长越长则对应的所述交迭部分数据长度也越长。

[42] 需要说明的是，在该实施例中，假设所述的当前帧与前一帧的编码数据交迭部分数据长度为第一长度，所述当前帧与后一帧的编码数据交迭部分数据长度为第二长度，则优选地，所述第一长度可以与第二长度相同；当然，相应的实施例在具体应用过程中并不限定为两长度值一定相同。

[43] 本发明提供的实施例中，所述的第一编码模式具体可以但不限于为线性预测编码模式，所述的第二编码模式可以但不限于为变换域编码；进一步，相应的实施例可以应用于各种线性预测编码与变换域编码之间的模式切换编码过程中，例如，由 ACELP编码到 TCX编码之间的模式切换，等等。

[44] 对应的，本发明提供的解码的实施例包括：在对接收码流进行解码操作，并确定接收到的码流中的前一帧釆用第一解码模式解码获得，当前帧为釆用第二解码模式解码获得后，则根据确定的当前帧与前一帧的解码数据对应的交迭部分的数据长度，获取对应的前一帧中的所述交迭部分数据长度的解码数据；再将从前一帧中获取的解码数据与当前帧的解码数据进行交迭处理，具体为将前一帧中的所述交迭部分数据长度的解码数据与当前帧的解码数据的头部进行加窗叠加处理，获得解码结果。

[45] 以 AMR-WB+编码为例，针对由 ACELP编码（即线性预测编码）帧到 TCX编码

(即变换域编码）帧的转换处理过程，本发明的实施例提出了的一种 ACELP与 T CX编码模式切换的交迭平滑技术，其能够在保证码率不变的情况下获得更好的帧间平滑效果。且在应用所述实施例过程中，不需要通过复杂的合成感知加权滤波器计算，从而使得与现有技术中的 AMR-WB+的模式间平滑技术相比，相应的计算复杂度有所降低。

[46] 也就是说，本发明的实施例主要是釆用模式间交迭平滑技术实现两种编码模式之间切换吋对编码所造成的影响，本实施例通过 TCX编解码处理，以提高 TCX 编解码效率，降低 TCX编解码复杂程度。下面将对本发明提供的基于模式间交迭平滑技术的 TCX编解码技术方案进行说明

[47] (一）釆用模式间交迭平滑技术的 TCX编码方案

[48] 该方案的具体实现如图 4所示，对于输入的需要进行 TCX编码操作的 TCX帧信号，具体是通过感知加权滤波器，自适应加窗和变换域编码处理，以获得到经 T CX编码后的码流；其中，如果前一帧釆用的是 ACELP模式编码，则当前输入的 TCX帧信号将与后一帧交迭的数据长度减半，同吋，将省出的空间釆用前一帧最后一个子帧的若干个釆样点值进行补足处理，即分别釆用前一帧和后一帧的交迭部分的编码数据与当前帧编码数据一起进行编码处理，以实现帧间的平滑处理。

[49] 可以看出，在该图 4所示的实施例中，无需再进行零输入响应的去除操作，从而可以简化编码过程中的复杂程度，同吋，由于当前帧与前、后帧之间分别釆用了交迭数据进行平滑操作，从而可以实现帧间的有效平滑处理。

[50] (二）釆用模式间交迭平滑技术的 TCX解码方案 [51] 与上述 TCX编码方案对应，相应的 TCX解码方案的实现结构框图如图 5所示，在解码处理过程中， TCX解码器接收到 TCX编码器发送来的经 TCX编码后的码流，之后通过变换域解码，加窗和 TCX模式内的重叠相加，然后再通过逆感知加权滤波器得到合成音频信号；其中，若前一帧釆用的是 ACELP编码模式，则在解码端，釆用与上述编码端对应的处理策略，利用前一帧的解码结果中与当前帧交迭部分进行交迭处理，以获得当前帧的解码结果；参照上述编码过程中的实例，则在 TCX解码器中，将当前帧的起始交迭部分和上一帧 ACELP合成信号的最后一子帧做加窗交迭，以得到最终的合成音频信号。

[52] 为便于对本发明实施例的理解，下面将结合附图对本发明实施例提供的编解码算法做详细描述，即对前一帧釆用 ACELP编码模式，当前帧釆用 TCX编码模式的情况下的编解码过程进行说明。

[53] (—）编码过程

[54] 仍参照图 4所示，对于前一帧使用 ACELP模式编码的情况，且当前帧需要使用 TCX编码吋，则具体可以釆用的帧间交迭技术包括：

[55] 根据当前帧 TCX编码模式（如编码帧长分别为 256、 512或 1024的 TCX编码模式 ) ，将前一帧 ACELP处理过的最后若干个音频数据（例如可以为 16、 32或 64点 s peech数据）和当前帧音频数据一起进行 TCX编码，所述的最后若干个音频数据是指根据编码帧长确定的与前一帧交迭部分数据长度的音频数据；

[56] 相应的 TCX编码器输入的音频帧结构如图 6所示，其中， L_frame (L帧）表示当前帧 TCX编码的帧长，可以为 256、 512或 1024分别对应 TCX的三种编码模式；其中， L1表示与前一帧交迭所取音频信号的长度， L2是为了与下一帧进行 ove rlap (交迭）所取音频信号的釆样点数， L则表示当前帧所处理的实际音频信号长度；图 6中的各参数值具体可以为：

[57] 当1^_6¾11½=256吋， Ll=16， L2=16, L=288;

[58] 当 L_frame=512吋， Ll=32， L2=32， L=576;

[59] 当1^_6¾11½=1024吋， Ll=64， L2=64， L=1152。

[60] 因此，当前帧与前一帧交迭的长度是随 TCX编码模式的变化而变化的，具有自适应的效果。同吋，此方法所处理 TCX每帧 speech (话音）信号的实际帧长和 A MR-WB+中的实际帧长匹配，保证了编码的正确性。

[61] 所述的需要进行 TCX编码操作的 speech信号通过感知加权滤波器处理后，进行自适应加窗操作的窗形参照图 7所示，其中：

[62] w

，其中， n=L2,...， (2L2-1) ；

[63] 其中， w(n)是指图 7中 L2所示部分的曲线；也就是说，对前一帧交迭的部分没有加窗，而对与后一帧的交迭的部分加余弦窗 w(n) ;

[64] 而且，因为设置了与前一帧的交迭部分，因此，该余弦窗的窗长仅是 AMR-WB

+中的余弦窗窗长的一半。

[65] 另外，当下一帧还是 TCX编码吋，则下一帧帧头所加的窗长要和 L2长度一致，即相应的交迭部分长度应和当前帧一致，以保证帧间的平滑效果。

[66] (二）解码过程

[67] 与上述编码过程对应， TCX解码器从接收到的当前帧 TCX编码码流中，解码得到当前帧的合成音频信号，将其头部交迭部分与前一帧 ACELP的解码的音频信号加窗做叠加，从而得到最终的合成音频输出。

[68] 具体为：将前一帧 ACELP编码解出的合成音频信号和当前帧 TCX编码所解码出的音频信号进行如图 8所示的加窗操作，然后，将交迭部分进行叠加得到最后的合成音频信号。

[69] 参照图 8所示，在交迭部分釆用了三角窗，对 ACELP最后 L1个样点的合成音频信号釆用 w2(n)表示，对 TCX交迭部分的合成音频信号釆用 wl(n)表示，则相应的合成音频信号具体如下式所示：

[70] (1) wl(n)=n/Ll , for n = 0,...,L1 ；

[71] (2) w2(n)=(Ll-n)/Ll , for n = 0,...,L1 ；

[72] 经过上述过程，便可以顺利地完成相应的 TCX解码操作，以获得相应的 TCX解码操作结果。

[73] 本发明还提供了一种编解码装置的实施例，具体如图 9所示，具体包括编码装置及解码装置，下面将分别对该两装置的具体实现结构进行描述。

[74] (一）编码装置

[75] 该装置具体包括编码模式切换识别单元、前一编码帧交迭数据获取单元、后一编码帧交迭数据获取单元和第二编码单元，其中：

[76] 编码模式切换识别单元，在确定前一帧釆用第一编码模式进行编码，且当前帧需要釆用第二编码模式进行编码后，触发所述前一编码帧交迭数据获取单元及后一编码帧交迭数据获取单元；

[77] 前一编码帧交迭数据获取单元，根据确定的当前帧与前一帧的编码数据交迭部分数据长度，获取对应的前一帧中相应长度的编码数据，例如，获取前一帧中的相应长度的编码数据，并提供给变换域编码单元（即第二编码单元）；

[78] 后一编码帧交迭数据获取单元，根据确定的当前帧与后一帧的编码数据交迭部分数据长度，获取对应的后一帧中相应长度的编码数据，并提供给变换域编码单元（即第二编码单元）；其中，以 TCX编码模式作为第二编码模式为例，考虑到目前 TCX帧之间的编码过程中需要釆用相应的平滑处理方案，故在该装置实施例中可以仍釆用该单元，以进行相应的帧间平滑处理；

[79] 第二编码单元，将前一编码帧交迭数据获取单元及后一编码帧交迭数据获取单元获取的编码数据与当前帧的编码数据进行交迭处理，获得编码结果，从而实现帧间的平滑处理。

[80] 在该装置中，所述的前一帧交迭数据获取单元及后一帧交迭数据获取单元中釆用的交迭部分数据长度为根据各编码帧的帧长预先确定；具体一点讲，假设所述的前一帧交迭数据获取单元中釆用的交迭部分数据长度为第一长度，与所述后一帧交迭数据获取单元中釆用的交迭部分数据长度为第二长度，则所述第一长度与第二长度之间相同，但不限于一定相同。

[81] (二）解码装置

[82] 该装置具体包括解码模式切换识别单元、前一解码帧交迭数据获取单元和第二解码单元，其中：

[83] 解码模式切换识别单元，用于在对接收到的码流进行解码操作后，若进一步确定收到的码流中的前一帧釆用第一解码模式解码获得，当前帧为釆用第二解码模式解码获得，则触发所述前一解码帧交迭数据获取单元；

[84] 前一解码帧交迭数据获取单元，用于根据确定的当前帧与前一帧的解码数据交迭部分数据长度，获取对应的前一帧中相应长度的解码数据，并提供给第二解码单元；

[85] 第二解码单元，用于将前一解码帧交迭数据获取单元获取的解码数据与当前帧的解码数据进行加窗交迭处理，获得解码结果；

[86] 交迭部分数据长度的确定单元，用于根据收到的码流中的指示信息确定所述交迭部分数据长度，并提供给所述前一解码帧交迭数据获取单元，例如，在码流中将编码模式（即编码帧的帧长）传递给解码端，解码端收到所述编码模式后则根据该编码模式确定对应的所述交迭部分数据长度值，当然，也可以通过其他指示信息指示解码端可以釆用的交迭部分数据长度值。

[87] 在上述装置中，所述的第一编码模式为线性预测编码模式，所述的第二编码模式为变换域编码。

[88] 需要说明的是，本发明提供的各实施例同样适用于两种不同编码或解码模式之间进行切换吋造成的问题。具体可以通过对前后两种编码模式进行交叠编码处理，从而平滑由于切换带来的编码解码质量损失，提高编解码质量。例如，具体还可以应用于由 ACELP编码模式到 AAC (高级音频编码）模式之间的转换平滑处理，或者，应用于由 CELP (线性预测激励编码）模式到 AAC模式之间的转换平滑处理，或者，由 ACELP编码模式到 MDCT (改进的离散余弦变换）编码模式之间的转换平滑处理，等等。

[89] 综上所述，由于在解码端合成音频信号上直接做交迭运算，因而可以获得较好的帧间平滑效果。而且，本发明提供的实施例无需通过滤波器运算，从而使得整个编解码过程运算复杂度不高，更易于软硬件的实现。

[90] 以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

权利要求书

[1] 1、一种编码方法，其特征在于，该方法包括：

当前一帧釆用第一编码模式进行编码，且当前帧需要釆用第二编码模式进行编码吋，根据当前帧与前一帧编码数据的交迭部分数据长度，获取对应的前一帧中的所述交迭部分数据长度的编码数据；

对获取的前一帧中的所述交迭部分数据长度的编码数据和当前帧的编码数据进行第二编码模式编码处理，获得编码结果。

[2] 2、根据权利要求 1所述的方法，其特征在于，所述的第一编码模式为线性预测编码模式，所述的第二编码模式为变换域编码。

[3] 3、根据权利要求 1所述的方法，其特征在于，所述的交迭部分数据长度的确定方式包括：根据各编码帧的帧长确定对应的所述交迭部分数据长度。

[4] 4、根据权利要求 1、 2或 3所述的方法，其特征在于，所述的方法还包括：根据确定当前帧与后一帧的编码数据交迭部分数据长度获取后一帧中的编码数据，并将获取的编码数据与从前一帧中获取的编码数据及当前帧的编码数据进行变换域编码处理。

[5] 5、根据权利要求 4所述的方法，其特征在于，所述的当前帧与前一帧的编码数据交迭部分数据长度，和所述当前帧与后一帧的编码数据交迭部分数据长度相同。

[6] 6、一种编码装置，其特征在于，包括编码模式切换识别单元、前一编码帧交迭数据获取单元和第二编码单元，其中：

编码模式切换识别单元，用于在确定前一帧釆用的第一编码模式进行编码，且当前帧需要釆用第二编码模式进行编码后，触发所述前一编码帧交迭数据获取单元；

前一编码帧交迭数据获取单元，用于根据当前帧与前一帧的编码数据交迭部分数据长度，获取对应的前一帧中相应长度的编码数据；第二编码单元，用于对所述前一编码帧交迭数据获取单元获取的编码数据及当前帧的编码数据进行第二编码模式编码处理，获得编码结果。

[7] 7、根据权利要求 6所述的装置，其特征在于，所述的第一编码模式为线性预测编码模式，所述的第二编码模式为变换域编码。

[8] 8、根据权利要求 6所述的装置，其特征在于，所述的前一帧交迭数据获取单元及后一帧交迭数据获取单元中釆用的交迭部分数据长度为根据各编码帧的帧长预先确定。

[9] 9、根据权利要求 6、 7或 8所述的装置，其特征在于，所述的方法还包括后一编码帧交迭数据获取单元，用于根据确定的当前帧与后一帧的编码数据交迭部分数据长度，获取对应的后一帧中相应长度的编码数据，并提供给变换域编码单元进行编码操作。

[10] 10、根据权利要求 9所述的装置，其特征在于，所述的前一帧交迭数据获取单元中釆用的交迭部分数据长度，与所述后一帧交迭数据获取单元中釆用的交迭部分数据长度相同。

[11] 11、一种解码方法，其特征在于，包括：

对接收到的码流进行解码操作，并确定前一帧釆用第一解码模式解码获得

，当前帧为釆用第二解码模式解码获得；

根据确定的当前帧与前一帧的解码数据交迭部分数据长度，获取对应的前一帧中的所述交迭部分数据长度的解码数据；

将从前一帧中获取的解码数据与当前帧的解码数据进行交迭处理，获得解码结果。

[12] 12、根据权利要求 11所述的方法，其特征在于，所述的第一编码模式为线性预测编码模式，所述的第二编码模式为变换域编码。

[13] 13、根据权利要求 11所述的方法，其特征在于，所述的交迭部分数据长度的确定方式包括：根据收到的码流中的指示信息确定所述交迭部分数据长度。

[14] 14、一种解码装置，其特征在于，包括解码模式切换识别单元、前一解码帧交迭数据获取单元和第二解码单元，其中：

解码模式切换识别单元，用于在根据解码后的码流中的信息确定前一帧为釆用第一解码模式解码获得，当前帧为釆用第二解码模式解码获得后，触发前一解码帧交迭数据获取单元；前一解码帧交迭数据获取单元，用于根据当前帧与前一帧的解码数据交迭部分数据长度，获取对应的前一帧中相应长度的解码数据，并提供给第二解码单元；

第二解码单元，用于将前一解码帧交迭数据获取单元获取的解码数据与当前帧的解码数据进行交迭处理，获得解码结果。

[15] 15、根据权利要求 14所述的装置，其特征在于，所述的第一编码模式为线性预测编码模式，所述的第二编码模式为变换域编码。

[16] 16、根据权利要求 14或 15所述的装置，其特征在于，所述的装置还包括交迭部分数据长度的确定单元，用于根据收到的码流中的指示信息确定所述交迭部分数据长度。