CN101606193B

CN101606193B - 音频编码和解码装置和方法

Info

Publication number: CN101606193B
Application number: CN2008800047316A
Authority: CN
Inventors: 李健炯; 吴宰源; 李�雨; 郑钟勋; 李男淑
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2007-02-12
Filing date: 2008-02-05
Publication date: 2013-11-13
Anticipated expiration: 2028-02-05
Also published as: WO2008100034A1; KR101149448B1; US8055506B2; US20080195398A1; EP2115738A4; KR20080075409A; CN101606193A; EP2115738A1

Abstract

提供一种用于当连接和编码音频信号的正弦波时提高压缩比率同时保持声音质量的音频编码和解码装置和方法。该音频编码方法包括：连接输入的音频信号的正弦波；将连接的正弦波的每一个的频率转换成心理声学频率；执行用于编码该心理声学频率的第一编码操作；执行用于编码连接的正弦波的每一个的幅度的第二编码操作；以及通过混合第一编码操作的编码结果和第二编码操作的编码结果输出编码的音频信号。

Description

音频编码和解码装置和方法

技术领域

与本发明一致的装置和方法涉及音频编码和解码，更具体地，涉及连接和编码音频信号的正弦波。

背景技术

参量编码(parametric coding)是一种将输入的音频信号在时域按照特定长度分段并且对于分段后的音频信号提取正弦波的方法。作为提取正弦波的结果，如果具有相似频率的正弦波在时域内连续了几段(segment)，则使用参量编码来连接并且编码该具有相似频率的正弦波。

当在参量编码中连接并编码具有相似频率的正弦波时，每一个正弦波的频率、相位和幅度被首先编码，然后所连接的正弦波的相位值和幅度差被编码。

当编码相位值时，在传统参量编码中，根据先前段(或先前帧)的频率和相位预测当前段的相位，并且执行当前段的预测相位和实际相位之间的误差的自适应差分脉冲编码调制(ADPCM)。但是，ADPCM是一种当误差较小时通过降低误差信号测量标度(scale)来使用相同位数更精细地编码随后段的方法。

发明内容

技术问题

因而，当输入的音频信号的频率被突然改变并且紧接着频率改变之前的误差信号测量标度非常小时，检测到的误差可能超出使用ADPCM的位能够表示的范围，因而可能获得错误的编码结果，导致声音质量的下降。

技术方案

本发明提供一种用于当连接并编码音频信号的正弦波时提高压缩比率同时保持声音质量的音频编码和解码装置和方法。

本发明还提供一种用于将连接的正弦波和不连接的正弦波从多个段中分离并且编码和解码分离后的正弦波的音频编码和解码装置和方法。

有益效果

如上所述，根据本发明，当连接并编码音频信号的正弦波时，通过将每个连接的正弦波的频率转换成心理声学频率并且编码该心理声学频率，可以提高音频信号的压缩比率同时保持音频信号的声音质量。

此外，通过编码心理声学频率和预测频率之间的差，可以进一步提高音频信号的压缩比率，以及通过使用利用心理声学模型和每个连接的正弦波的幅度计算的掩蔽级别来设置量化步长并且使用所设置的量化步长编码该差，可以更加进一步提高音频信号的压缩比率。

如果从当前分段的音频信号中提取的至少一个正弦波具有与从先前分段的音频信号中提取的任意一个正弦波的频率都不相似的频率，则通过从当前分段的音频信号中提取的正弦波中将连接到从先前分段的音频信号中提取的正弦波的正弦波以及不连接到从先前分段的音频信号中提取的正弦波的正弦波分离开来，并且编码分离后的正弦波，可以防止由于不正确的编码而导致的声音质量的退化。

附图说明

通过下面参考附图对本发明的示范性实施例的详细描述，本发明的上述及其它方面将变得更加明显，其中：

图1是根据本发明的一个示范性实施例的音频编码装置的框图；

图2示出了正弦频率和由图1所示的频率转换器定义的心理声学频率之间的相关性；

图3是根据本发明的另一个示范性实施例的音频编码装置的框图；

图4是根据本发明的另一个示范性实施例的音频编码装置的框图；

图5是根据本发明的又一个示范性实施例的音频编码装置的框图；

图6是根据本发明的一个示范性实施例的音频解码装置的框图；

图7是根据本发明的另一个示范性实施例的音频解码装置的框图；

图8是根据本发明的另一个示范性实施例的音频解码装置的框图；

图9是根据本发明的又一个示范性实施例的音频解码装置的框图；

图10是根据本发明的一个示范性实施例的音频编码方法的流程图；

图11是根据本发明的另一个示范性实施例的音频编码方法的流程图；

图12是根据本发明的另一个示范性实施例的音频编码方法的流程图；

图13是根据本发明的又一个示范性实施例的音频编码方法的流程图；

图14是根据本发明的一个示范性实施例的音频解码方法的流程图；

图15是根据本发明的另一个示范性实施例的音频解码方法的流程图；

图16是根据本发明的另一个示范性实施例的音频解码方法的流程图；以及

图17是根据本发明的又一个示范性实施例的音频解码方法的流程图。

具体实施方式

最佳模式

根据本发明的一方面，提供一种音频编码方法，包括：连接输入的音频信号的正弦波；将每一个连接的正弦波的频率转换成心理声学(psychoacoustic)频率；执行用于编码该心理声学频率的第一编码操作；执行用于编码每一个连接的正弦波的幅度的第二编码操作；以及通过混合第一编码操作的编码结果和第二编码操作的编码结果而输出编码的音频信号。

该音频编码方法还可以包括：检测该心理声学频率和基于前一段的心理声学频率预测的频率之间的差，其中第一编码操作包括编码该差而不是该心理声学频率。

该音频编码方法还可以包括：基于利用输入的音频信号的心理声学模型和连接的正弦波的幅度计算的掩蔽级别(masking level)设置量化步长；以及利用该设置的量化步长量化该差，其中第一编码操作包括编码该量化的差而不是该差，以及所述输出编码的音频信号的步骤包括通过处理该量化步长来输出关于该量化步长的信息作为控制参数。

该音频编码方法还可以包括：按照特定长度分段该输入的音频信号；从每一个分段的音频信号中提取正弦波；比较该提取的正弦波的频率与从前一段的音频信号中提取的正弦波的频率；作为比较的结果，如果该提取的正弦波当中至少一个正弦波的频率与从前一段的音频信号中提取的任意一个正弦波的频率都不相似，则从该提取的正弦波中将连接到从前一段的音频信号中提取的正弦波的正弦波以及不连接到从前一段的音频信号中提取的正弦波的正弦波分离开来，并且编码该分离的正弦波，其中对于连接的正弦波，依次执行该连接正弦波、转换频率、第一编码操作、第二编码操作以及输出编码的音频信号；以及作为比较的结果，如果该提取的正弦波的频率与从前一段的音频信号中提取的任意一个正弦波的频率相似，则对于该提取的正弦波，依次执行该连接正弦波、转换频率、第一编码操作、第二编码操作以及输出编码的音频信号。

根据本发明的另一方面，提供一种音频解码方法，包括：通过解析编码的音频信号来检测编码的心理声学频率和编码的正弦幅度；执行用于解码该编码的心理声学频率的第一解码操作；将解码的心理声学频率转换成正弦频率；执行用于解码该编码的正弦幅度的第二解码操作；基于该解码的正弦幅度和正弦频率检测正弦相位；以及基于该检测的正弦相位、解码的正弦幅度和正弦频率来解码正弦波，并且利用该解码的正弦波来解码音频信号。

根据本发明的另一方面，提供一种音频编码装置，包括：分段单元，按照特定长度分段输入的音频信号；正弦波提取器，从分段单元输出的音频信号中提取至少一个正弦波；正弦波连接器，连接由正弦波提取器提取的正弦波；频率转换器，将每一个连接的正弦波的频率转换成心理声学频率；第一编码器，编码该心理声学频率；第二编码器，编码每个连接的正弦波的幅度；和混合器，通过混合第一编码器编码的结果和第二编码器编码的结果来输出编码的音频信号。

根据本发明的另一方面，提供一种音频解码装置，包括：解析器，解析编码的音频信号；第一解码器，解码从解析器输出的编码的心理声学频率；逆频率转换器，将解码的心理声学频率转换成正弦频率；第二解码器，解码从解析器输出的编码的正弦幅度；相位检测器，基于该解码的正弦幅度和正弦频率来检测正弦相位；和音频解码器，基于该检测的正弦相位、解码的正弦幅度和正弦频率来解码正弦波，并且利用该解码的正弦波来解码音频信号。

本发明的模式

下面通过参考附图解释本发明的示范性实施例来详细描述本发明。

图1是根据本发明的示范性实施例的音频编码装置100的框图。参考图1，音频编码装置100包括分段单元101、正弦波提取器102、正弦波连接器103、频率转换器104、第一编码器105、第二编码器106和混合器107。

分段单元101在时域中按照特定长度L分段输入的音频信号，其中该特定长度L是整数。因而，如果从分段单元101输出的音频信号是S(n)，则n是时间上的索引并且可以被定义为n＝1～L。当按照特定长度L分段输入的音频信号时，分段的音频信号可以与前一段交叠L/2的量或特定长度。

正弦波提取器102以匹配跟踪方法从分段单元101输出的分段的音频信号中提取至少一个正弦波。也就是说，首先，正弦波提取器102从分段的音频信号S(n)中提取具有最大幅度的正弦波。接着，正弦波提取器102从分段的音频信号S(n)中提取具有第二最大幅度的正弦波。正弦波提取器102可以重复地从分段的音频信号S(n)中提取正弦波，直到提取的正弦幅度达到预置正弦幅度。预置正弦幅度可以根据目标比特率来确定。但是，正弦波提取器102可以从分段的音频信号S(n)中提取不设置预置正弦幅度的正弦波。

正弦波提取器102提取的正弦波可以由公式1定义。

[公式1]

a_iv_i(n)

在公式1中，a_i表示提取的正弦波的幅度，以及v_i是由公式2表示的正弦波，其具有频率k_i和相位

[公式2]

在公式2中，A表示用于使得v_i(n)的幅度为1的归一化常数。此外，i对应于检测的正弦波的数目并且是指示不同的正弦波的索引。如果对于单个段，正弦波提取器102检测的正弦波的数目是K，则i＝1～K。

正弦波连接器103基于从当前分段的音频信号中提取的正弦波的频率和从先前分段的音频信号中提取的正弦波的频率，将从当前分段的音频信号中提取的正弦波连接到从先前分段的音频信号中提取的正弦波。正弦波的连接可以被定义为频率跟踪(tracking)。

频率转换器104将每一个连接的正弦波的频率转换成心理声学频率。如果音频信号的频率较高，则人不能根据心理声学特征察觉正确的频率或相位。因而，为了精细地编码较低频率并且不精细地编码较高频率，频率转换器104定义如图2所示的正弦频率和心理声学频率之间的相关性，并且基于该定义将每一个连接的正弦波的频率转换成心理声学频率。如图2所示，随着正弦频率变得更高，心理声学频率的变化范围变得更小。

此外，频率转换器104可以利用等效矩形带(ERB)标度、bark带标度或临界带标度来转换频率。当使用ERB标度时，频率转换器104可以通过利用公式3转换正弦频率f来输出心理声学频率S(f)。

[公式3]

S(f)＝log(0.00437×f+1)

如果从正弦波连接器103输出的正弦波的数目是K，则频率转换器104将K个正弦波的每一个的频率转换成心理声学频率。

第一编码器105编码心理声学频率。第二编码器106编码从正弦波连接器103输出的每个连接的正弦波的幅度a_i。第一编码器105和第二编码器106可以利用霍夫曼编码方法执行编码。

混合器107通过混合从第一编码器105输出的编码的心理声学频率和从第二编码器106输出的编码的幅度来输出编码的音频信号。编码的音频信号可以具有比特流样式。

图3是根据本发明的另一个示范性实施例的音频编码装置300的框图。图3所示的音频编码装置300包括分段单元301、正弦波提取器302、正弦波连接器303、频率转换器304、差值检测器305、第一编码器306、预测器307、第二编码器308和混合器309。

图3所示的音频编码装置300是其中向在图1所示的音频编码装置100增加了预测功能的示范性的实施例。因而，包括在音频编码装置300中的分段单元301、正弦波提取器302、正弦波连接器303、频率转换器304、第二编码器308和混合器309分别与包括在图1所示的音频编码装置100中的分段单元101、正弦波提取器102、正弦波连接器103、频率转换器104、第二编码器106和混合器107类似地被配置以及操作。

参考图3，差值检测器305检测基于前一段的心理声学频率预测的频率和从频率转换器304输出的心理声学频率之间的差，并且将检测的差发送到第一编码器306。如果预测的频率的数目是K，则差值检测器305使用与从频率转换器304输出的心理声学频率对应的预测的频率来检测该差。

第一编码器306编码从差值检测器305输出的差。第一编码器306可以使用霍夫曼编码方法编码该差。第一编码器306将编码结果发送到混合器309。

预测器307基于从第一编码器306接收到的编码之前的心理声学频率预测当前段的心理声学频率。例如，由于后一心理声学频率与前一值相似的概率最大，因此前一值可以被用作预测值。因而，预测的心理声学频率作为预测的频率被提供给差值检测器305。

图4是根据本发明的另一个示范性实施例的音频编码装置400的框图。图4所示的音频编码装置400包括分段单元401、正弦波提取器402、正弦波连接器403、频率转换器404、差值检测器405、量化器406、预测器407、掩蔽级别提供器408、第一编码器409、第二编码器410和混合器411。

图4所示的音频编码装置400是其中向在图3所示的音频编码装置300增加了量化功能的示范性实施例。因而，包括在图4所示的音频编码装置400中的分段单元401、正弦波提取器402、正弦波连接器403、频率转换器404、差值检测器405和第二编码器410分别与包括在图3所示的音频编码装置300中的分段单元301、正弦波提取器302、正弦波连接器303、频率转换器304、差值检测器305和第二编码器308类似地被配置以及操作。

参考图4，掩蔽级别提供器408基于从分段单元401输出的当前分段的音频信号的心理声学模型计算掩蔽级别，并且提供计算的掩蔽级别作为当前分段的音频信号的掩蔽级别。

量化器406基于掩蔽级别提供器408提供的掩蔽级别以及从正弦波连接器403输出的每个连接的正弦波的幅度a_i来设置量化步长。也就是说，如果每个连接的正弦波的幅度a_i大于该掩蔽级别，则量化器406将量化步长设置为较小，以及如果每个连接的正弦波的幅度a_i不大于掩蔽级别，则量化器406将量化步长设置为较大。量化器406使用设置的量化步长来量化从差值检测器405中输出的差。量化器406还将量化之前的差作为前一段的心理声学频率发送给预测器407并且将设置的量化步长发送给混合器411。

预测器407基于该差预测当前段的心理声学频率并且将预测的频率提供给差值检测器405。

第一编码器409编码从量化器406输出的量化的差信号。混合器411混合从第一编码器409、第二编码器410输出的编码结果、以及从量化器406输出的量化步长，并且输出混合的结果作为编码的音频信号。量化步长被混合作为编码的音频信号的控制参数。

图5是根据本发明的另一个示范性实施例的音频编码装置500的框图。图5所示的音频编码装置500包括分段单元501、正弦波提取器502、正弦波连接器503、频率转换器504、差值检测器505、量化器506、预测器507、掩蔽级别提供器508、第一编码器509、第二编码器510、第三编码器511和混合器512。

图5所示的音频编码装置500是其中向在图4所示的音频编码装置400增加了通过区分连接的正弦波与不连接的正弦波而执行编码的功能的示范性实施例。因而，包括在图5所示的音频编码装置500中的分段单元501、正弦波提取器502、频率转换器504、差值检测器505、量化器506、预测器507、掩蔽级别提供器508、第一编码器509和第二编码器510分别与包括在图4所示的音频编码装置400中的分段单元401、正弦波提取器402、频率转换器404、差值检测器405、量化器406、预测器407、掩蔽级别提供器408、第一编码器409和第二编码器410类似地被配置以及操作。

参考图5，正弦波连接器503比较正弦波提取器502当前提取的正弦波的频率与从前一段的音频信号中提取的正弦波的频率。如果作为比较的结果，当前提取的正弦波中的至少一个正弦波的频率与从前一段的音频信号中提取的任意一个正弦波的频率不相似，则正弦波连接器503将具有不相似的频率的正弦波的频率、相位和幅度发送到第三编码器511。在当前提取的正弦波当中，对于其频率与从前一段的音频信号中提取的任意一个正弦波的频率相似的每个正弦波，正弦波连接器503将该正弦波连接到从前一段的音频信号中提取的正弦波，将连接的正弦波的频率发送到频率转换器504，以及将连接的正弦波的幅度发送到第二编码器510。

第三编码器511编码从正弦波连接器503接收到的不连接到从前一段的音频信号中提取的任意一个正弦波的每个正弦波的频率、相位和幅度。

混合器512混合从第一编码器509、第二编码器510、第三编码器511输出的编码结果以及从量化器506输出的量化步长，并且输出混合结果作为编码的音频信号。

由图5所示的音频编码装置500定义的通过区分连接的正弦波与不连接的正弦波而执行编码的功能可以被增加给图1所示的音频编码装置100或图3所示的音频编码装置300。因而，图1所示的正弦波连接器103或图3所示的正弦波连接器303可以被实施为与图5所示的正弦波连接器503类似地配置或操作，以及图1所示的音频编码装置100或图3所示的音频编码装置300可以被实施为还包括图5所示的第三编码器511。

图6是根据本发明的示范性实施例的音频解码装置600的框图。图6所示的音频解码装置600包括解析器601、第一解码器602、逆频率转换器603、第二解码器604、相位检测器605和音频信号解码器606。图6所示的音频解码装置600对应于图1所示的音频编码装置100。

参考图6，当输入编码的音频信号时，解析器601解析输入的编码的音频信号。输入的编码的音频信号可以具有比特流样式。解析器601发送编码的心理声学频率到第一解码器602，并且发送编码的正弦幅度到第二解码器604。

第一解码器602解码从解析器601接收到的编码的心理声学频率。第一解码器602按照与图1所示的第一编码器105执行的编码对应的解码方法来解码频率。

逆频率转换器603将从第一解码器602输出的解码的心理声学频率逆转换为正弦频率。详细来说，逆频率转换器603使用与图1所示的频率转换器104执行的转换对应的逆转换方法来将解码的心理声学频率逆转换为正弦频率。

第二解码器604解码从解析器601接收到的编码的正弦幅度。第二解码器604按照与图1所示的第二编码器106执行的编码对应的解码方法来解码幅度。

相位检测器605基于从逆频率转换器603输出的正弦频率和从第二解码器604输出的解码的正弦幅度来检测正弦相位。也就是说，相位检测器605可以利用公式4来检测正弦相位。

[公式4]

\sin usoidal phase = φ_{0} + \frac{(k_{0} + k_{1})}{2} \times π

在公式4中，φ₀表示先前连接的正弦波的相位，k₀和k₁分别表示先前连接的正弦波的频率(定义为bin的频率)和当前正弦波的频率(定义为bin的频率)。

音频信号解码器606基于相位检测器605检测的正弦相位和经由相位检测器605输入的正弦幅度及正弦频率来解码正弦波，并且使用解码的正弦波解码音频信号。

图7是根据本发明的另一个示范性实施例的音频解码装置700的框图。图7所示的音频解码装置700包括解析器701、第一解码器702、加法器703、预测器704、逆频率转换器705、第二解码器706、相位检测器707和音频信号解码器708。图7所示的音频解码装置700对应于图3所示的音频编码装置300，并且是其中将预测功能增加到图6所示的音频解码装置600的示范性实施例。

因而，图7所示的解析器701、第一解码器702、第二解码器706、相位检测器707和音频信号解码器708与图6所示的解析器601、第一解码器602、第二解码器604、相位检测器605和音频信号解码器606类似地被配置和操作。

参考图7，加法器703将预测的频率与从第一解码器702输出的解码后的心理声学频率相加，并且将相加结果发送到逆频率转换器705。逆频率转换器705将从加法器703接收到的相加的频率逆转换为正弦频率。从逆频率转换器705输出的正弦频率被发送到相位检测器707。

预测器704从逆频率转换器705接收逆转换之前的频率，并且通过将从逆频率转换器705接收到的频率当作前一段的解码的心理声学频率来预测当前段的心理声学频率。预测方法可以与图3所示的预测器307的预测方法相似。

图8是根据本发明的另一个示范性实施例的音频解码装置800的框图。图8所示的音频解码装置800包括解析器801、第一解码器802、去量化器803、加法器804、预测器805、逆频率转换器806、第二解码器807、相位检测器808和音频信号解码器809。图8所示的音频解码装置800对应于图4所示的音频编码装置400，并且是其中将去量化功能增加到图7所示的音频解码装置700的示范性实施例。

因而，图8所示的第一解码器802、预测器805、逆频率转换器806、第二解码器807、相位检测器808和音频信号解码器809与图7所示的第一解码器702、预测器704、逆频率转换器705、第二解码器706、相位检测器707和音频信号解码器708类似地被配置和操作。

参考图8，解析器801解析输入的编码的音频信号，将编码的心理声学频率发送到第一解码器802，将编码的正弦幅度发送到第二解码器807，以及将包含作为编码的音频信号的控制参数的量化步长信息发送到去量化器803。

去量化器803基于量化步长来去量化从第一解码器802接收到的解码的心理声学频率。加法器804将从去量化器803输出的去量化的心理声学频率与从预测器805输出的预测的频率相加，并且输出相加结果。

图9是根据本发明的另一个示范性实施例的音频解码装置900的框图。图9所示的音频解码装置900包括解析器901、第一解码器902、去量化器903、加法器904、预测器905、逆频率转换器906、第二解码器907、相位检测器908、第三解码器909和音频信号解码器910。图9所示的音频解码装置900对应于图5所示的音频编码装置500，并且是其中将如下功能增加到图8所示的音频解码装置800的示范性实施例：通过区分连接到从前一段的音频信号中提取的正弦波的正弦波与不连接到从前一段的音频信号中提取的正弦波的正弦波来执行解码。

因而，图9所示的第一解码器902、去量化器903、加法器904、预测器905、逆频率转换器906、第二解码器907和相位检测器908与图8所示的第一解码器802、去量化器803、加法器804、预测器805、逆频率转换器806、第二解码器807和相位检测器808类似地被配置和操作。

参考图9，解析器901解析输入的编码的音频信号，将编码的心理声学频率发送到第一解码器902，将编码的正弦幅度发送到第二解码器907，以及将包含作为编码的音频信号的控制参数的量化步长信息发送到去量化器903。如果不连接到从前一段的音频信号中提取的正弦波的正弦波的编码的频率、幅度和相位包含在输入的编码的音频信号中，则解析器901将该不连接到从前一段的音频信号中提取的正弦波的正弦波的编码的频率、幅度和相位发送到第三解码器909。

第三解码器909按照与图5所示的第三编码器511对应的解码方法来解码编码的正弦频率、幅度和相位。由第三解码器909解码的正弦频率、幅度和相位被发送到音频信号解码器910。

音频信号解码器910基于从相位检测器908接收到的连接到前一段的每个正弦波的相位、幅度和频率来解码正弦波，并且使用从第三解码器909接收到的不连接到前一段的每个正弦波的相位、幅度和频率来解码正弦波。音频信号解码器910使用解码的正弦波来解码音频信号。也就是说，音频信号解码器910通过组合解码的正弦波来解码音频信号。

图6或图7所示的音频解码装置600或700可以被修改为还包括图9所示的第三解码器909。如果图6或图7所示的音频解码装置600或700还包括第三解码器909，则图6或图7所示的解析器601或701被实施为通过检查不连接到前一段的正弦波的频率、幅度和相位是否包含在输入的编码的音频信号中来解析输入的编码的音频信号，如图9所示的解析器901所执行的。

图10是根据本发明的示范性实施例的音频编码方法的流程图。现在将参考图1描述图10所示的音频编码方法。

在操作1001中连接从输入的音频信号中提取的正弦波。如关于图1所示的正弦波连接器103所述来执行正弦波的连接。

在操作1002，如在图1所示的频率转换器104中那样，每一个连接的正弦波的频率被转换为心理声学频率。在操作1003，如在图1所示的第一编码器105中那样，编码心理声学频率。在操作1004，如在图1所示的第二编码器106中那样，编码在操作1001中连接的每一个正弦波的幅度。在操作1005，通过混合在操作1003中编码的频率和在操作1004中编码的幅度来输出编码的音频信号。

图11是根据本发明的另一个示范性实施例的音频编码方法的流程图。图11所示的音频编码方法是其中将预测功能增加到图10所示的音频编码方法的示范性实施例。因而，图11的操作1101、1102和1105分别类似于图10的操作1001、1002和1004。

参考图11，在操作1103中检测心理声学频率和预测的频率之间的差。，如在图3所示的预测器307中那样，基于前一段的心理声学频率来预测该预测的频率。

在操作1104中，如在图3所示的第一编码器306中那样，编码检测的差。在操作1106中通过混合编码的差和编码的正弦幅度输出编码的音频信号。

图12是根据本发明的另一个示范性实施例的音频编码方法的流程图。图12所示的音频编码方法是其中将量化功能增加到图11所示的音频编码方法的示范性实施例。因而，图12的操作1201、1202、1203和1207分别类似于图11的操作1101、1102、1103和1105。

参考图12，在操作1204中设置量化步长。按照在图4所示的掩蔽级别提供器408和量化器406中描述的方法来设置量化步长。

在操作1205中使用量化步长来量化在操作1203中检测的差。在操作1206中编码量化的差。

当编码的差和编码的幅度彼此混合时，在操作1208中量化步长信息充当编码的音频信号的控制参数。因而，编码的音频信号包含量化步长信息作为控制参数。

图13是根据本发明的另一个示范性实施例的音频编码方法的流程图。图13所示的音频编码方法是这样的示范性实施例：其中，当通过按照特定长度分段输入的音频信号来提取正弦波时，通过检查提取的正弦波中的每一个是否可以连接到从前一段中提取的正弦波来编码音频信号。

参考图13，在操作1301中，如在图1所示的分段单元101中那样，按照特定长度来分段输入的音频信号。在操作1302中，如在图1所示的正弦波提取器102中那样，提取分段的音频信号的正弦波。

在操作1303中将提取的正弦波的频率与从前一段的音频信号中提取的正弦波的频率相比较。从当前段的音频信号中提取的正弦波的数目可以不同于从前一段的音频信号中提取的正弦波的数目。

在操作1304中，作为比较的结果，如果从当前段的音频信号中提取的正弦波中的至少一个正弦波的频率与从前一段的音频信号中提取的任意一个正弦波的频率都不相似，则在操作1305中，从在操作1302中提取的正弦波中分离连接到从前一段的音频信号中提取的正弦波的正弦波和不连接到从前一段的音频信号中提取的正弦波的正弦波，并且编码该分离的正弦波。

为了检查正弦波的相似性，当从当前段的音频信号中提取的正弦波的频率是例如20Hz、30Hz和35Hz时，并且当预置可接受误差范围是±0.2时，如果在范围(20±0.2)Hz、(30±0.2)Hz和(35±0.2)Hz范围内的所有频率都存在于从前一段的音频信号中提取的正弦波的频率当中，则从当前段的音频信号中提取的正弦波的所有频率与从前一段的音频信号中提取的正弦波的频率相似。如果范围(20±0.2)Hz中的频率不存在于从前一段的音频信号中提取的正弦波的频率当中，则从当前段的音频信号中提取的正弦波当中的20Hz的正弦波的频率与从前一段的音频信号中提取的任意一个正弦波的频率不相似。因而，从当前段的音频信号中提取的具有20Hz的频率的正弦波被分离作为不连接到前一段的正弦波，并且具有30Hz和35Hz的频率的正弦波被分离作为连接到前一段的正弦波。

通过依次执行图10所示的操作1001到1004、图11所示的操作1101到1105、或图12所示的操作1201到1207来编码连接到前一段的正弦波，以及如在图5所示的第三编码器511中那样地编码不连接到前一段的正弦波。通过混合由编码连接到前一段的正弦波获得的结果与由编码不连接到前一段的正弦波获得的结果来输出编码的音频信号。

在操作1304中，作为比较的结果，如果从当前段的音频信号中提取的所有正弦波的频率都与从前一段的音频信号中提取的任意一个正弦波的频率相似，则在操作1306中，通过依次执行图10所示的操作1001到1005、图11所示的操作1101到1106、或图12所示的操作1201到1208来编码连接到前一段的正弦波。

图14是根据本发明的示范性实施例的音频解码方法的流程图。参考图14，在操作1401中通过解析编码的音频信号来检测编码的心理声学频率和编码的正弦幅度。在操作1402中解码编码的心理声学频率，以及在操作1403中，如在图6所示的逆频率转换器603中那样，将解码的心理声学频率转换到正弦频率。

在操作1404中解码编码的正弦幅度。在操作1405中基于解码的正弦幅度和正弦频率来检测正弦相位。在操作1406中，基于检测的正弦相位、解码的正弦幅度和正弦频率来解码正弦波，以及使用解码的正弦波来解码音频信号。

图15是根据本发明的另一个示范性实施例的音频解码方法的流程图。图15所示的音频解码方法是其中将预测功能增加到图11所示的音频解码方法的示范性实施例。因而，图15的操作1501、1502、1505、1506和1507分别类似于图14的操作1401、1402、1404、1405和1406。

参考图15，在操作1503中，基于前一段的解码的心理声学频率预测的频率与在操作1502中解码的心理声学频率相加。在操作1504中，将相加的结果转换为正弦频率。

图16是根据本发明的另一个示范性实施例的音频解码方法的流程图。图16所示的音频解码方法是其中将去量化功能增加到图15所示的音频解码方法的示范性实施例。因而，图16的1601、1602、1605、1606、1607和1608分别类似于图15的操作1501、1502、1504、1505、1506和1507。

参考图16，在操作1603中使用量化步长来去量化解码的心理声学频率。当在操作1601中解析编码的音频信号时，从编码的音频信号中检测量化步长。在操作1604中去量化结果与预测的频率相加。

图17是根据本发明的另一个示范性实施例的音频解码方法的流程图。图17所示的音频解码方法是这样的示范性实施例：其中，当解码编码的音频信号时，分离并且解码连接到从前一段的音频信号中提取的正弦波的正弦波和不连接到从前一段的音频信号中提取的正弦波的正弦波。

参考图17，在操作1701中解析编码的音频信号。在操作1702中确定是否存在不连接到从前一段的音频信号中提取的任意一个正弦波的正弦波(以下称为不连接的正弦波)。也就是说，如果不连接的正弦波的频率、幅度和相位存在于编码的音频信号中，则确定不连接的正弦波存在于编码的音频信号中。

如果不连接的正弦波存在于编码的音频信号中，则在操作1703中，从编码的音频信号中分离不连接的正弦波和连接到从前一段的音频信号中提取的正弦波的正弦波(以下，称为连接的正弦波)，并且解码。

也就是说，在操作1703中，通过解析编码的音频信号来分离不连接的正弦波和连接的正弦波，通过依次执行图14的操作1402到1405、图15的操作1502到1506、或图16的操作1602到1607来检测每个连接的正弦波的频率、幅度和相位，以及通过如图9所示的第三解码器909那样地执行解码来检测每个不连接的正弦波的频率、幅度和相位。基于每个连接的正弦波的频率、幅度和相位来解码连接的正弦波，基于每个不连接的正弦波的频率、幅度和相位来解码不连接的正弦波，以及通过组合解码的连接的正弦波和解码的不连接的正弦波来解码音频信号。

作为操作1702的确定的结果，如果没有不连接的正弦波存在于编码的音频信号中，则在操作1704中解码连接的正弦波。通过与对于连接的正弦波而在操作1703中执行的方法类似的方法来执行连接的正弦波的解码。

本发明也可以被具体化为计算机可读记录介质上的计算机可读代码。计算机可读记录介质是可以储存其后可以被计算机系统读取的数据的任何数据存储设备。计算机可读记录介质的例子包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备。计算机可读记录介质也可以被分布在网络耦合的计算机系统之上以使得计算机可读代码以分布式被存储和执行。

尽管已经参考本发明的示范性实施例对本发明进行了具体示出和描述，但是本领域技术人员应当理解，在不脱离由所附权利要求书所定义的本发明的精神和范围的情况下，可以对本发明做出形式和细节上的各种修改。示范性实施例应该被认为是描述的意义上的而不是限制的目的。因此，本发明的范围不是由本发明的具体实施方式定义的而是由所附权利要求书定义的，该范围内的所有差别将被认为包括在本发明内。

Claims

1.一种音频编码方法，包括：

连接输入的音频信号的正弦波；

将连接的正弦波中的一个正弦波的频率转换成心理声学频率；

执行用于编码该心理声学频率的第一编码操作；

执行用于编码连接的正弦波中的该一个正弦波的幅度的第二编码操作；以及

通过混合第一编码操作的编码结果和第二编码操作的编码结果而输出编码的音频信号。

2.如权利要求1所述的音频编码方法，还包括：

按照特定长度分段该输入的音频信号以产生分段的音频信号；

从分段的音频信号的一个中提取正弦波；以及

比较该提取的正弦波的频率与从该分段的音频信号的前一段中提取的正弦波的频率；

其中，作为比较的结果，如果该提取的正弦波当中的至少一个正弦波的频率与从前一段中提取的正弦波的频率的任意一个都不相似，则从该提取的正弦波中分离连接到从前一段中提取的正弦波的正弦波以及不连接到从前一段中提取的正弦波的正弦波，以产生分离的正弦波，并且编码该分离的正弦波，

其中对于该连接的正弦波，依次执行所述连接正弦波、转换频率、第一编码操作、第二编码操作和输出编码的音频信号，以及

其中，作为比较的结果，如果提取的正弦波的频率与从前一段的音频信号中提取的正弦波的频率中的任意一个相似，则对于该提取的正弦波，依次执行所述连接正弦波、转换频率、第一编码操作、第二编码操作和输出编码的音频信号。

3.一种音频编码方法，包括：

连接输入的音频信号的正弦波；

检测该心理声学频率和基于音频信号的前一段的心理声学频率预测的频率之间的差；

执行用于编码该差的第一编码操作；

4.一种音频编码方法，包括：

连接输入的音频信号的正弦波；

基于使用输入的音频信号的心理声学模型和连接的正弦波的幅度计算的掩蔽级别来设置量化步长；

使用所设置的量化步长来量化该差；

执行用于编码该量化的差的第一编码操作；

通过混合第一编码操作的编码结果和第二编码操作的编码结果输出编码的音频信号，其中所述输出编码的音频信号的步骤包括通过处理该量化步长来输出关于该量化步长的信息作为控制参数。

5.如权利要求4所述的音频编码方法，其中，所述设置量化步长的步骤包括：如果连接的正弦波的幅度的每一个大于该掩蔽级别，则将量化步长设置为较小，以及如果连接的正弦波的幅度的每一个不大于该掩蔽级别，则将该量化步长设置为较大。

6.一种音频解码方法，包括：

通过解析编码的音频信号来检测编码的心理声学频率和编码的正弦幅度；

执行用于解码该编码的心理声学频率的第一解码操作；

将解码的心理声学频率转换成正弦频率；

执行用于解码该编码的正弦幅度的第二解码操作；

基于解码的正弦幅度和所述正弦频率检测正弦相位；以及

基于该检测的正弦相位、解码的正弦幅度和所述正弦频率来解码正弦波，并且利用解码的正弦波来解码音频信号。

7.如权利要求6所述的音频解码方法，还包括：

作为所述解析该编码的音频信号的结果，如果至少一个不连接到从前一段中提取的正弦波的正弦波存在于该编码的音频信号中，则分离连接到从音频信号的前一段中提取的正弦波的正弦波与不连接到从前一段中提取的正弦波的正弦波；

通过依次执行所述检测、第一解码操作、转换、第二解码操作和检测正弦相位来执行用于检测每一个连接的正弦波的幅度、频率和相位的第一检测操作；以及

通过解码每一个不连接的正弦波来执行用于检测每一个不连接的正弦波的幅度、频率和相位的第二检测操作，

其中，所述解码音频信号的步骤包括：基于在第一检测操作和第二检测操作中检测的正弦波的幅度、频率和相位来解码正弦波，以及使用该解码的正弦波来解码音频信号。

8.一种音频解码方法，包括：

执行用于解码该编码的心理声学频率的第一解码操作；

将解码的心理声学频率与基于音频信号的前一段的解码的心理声学频率预测的频率相加以产生相加结果；

将该相加结果转换为正弦频率；

执行用于解码该编码的正弦幅度的第二解码操作；

基于解码的正弦幅度和所述正弦频率检测正弦相位；以及

9.一种音频解码方法，包括：

执行用于解码该编码的心理声学频率的第一解码操作；

通过解析该编码的音频信号来检测量化步长；

使用该检测的量化步长来去量化解码的心理声学频率以产生去量化结果；

将该去量化结果与基于音频信号的前一段的解码的心理声学频率预测的频率相加以产生相加结果；

将该相加结果转换为正弦频率；

执行用于解码该编码的正弦幅度的第二解码操作；

基于解码的正弦幅度和所述正弦频率检测正弦相位；以及

10.一种音频编码装置，包括：

分段单元，按照特定长度分段输入的音频信号以产生分段的音频信号；

正弦波提取器，从分段单元输出的分段的音频信号的段中提取至少一个正弦波；

正弦波连接器，连接由正弦波提取器提取的至少一个正弦波；

频率转换器，将连接的正弦波中的一个正弦波的频率转换成心理声学频率；

第一编码器，编码该心理声学频率；

第二编码器，编码连接的正弦波中的该一个正弦波的幅度；和

混合器，通过混合第一编码器编码的编码结果和第二编码器编码的编码结果来输出编码的音频信号。

11.如权利要求10所述的音频编码装置，其中，该正弦波连接器比较该提取的正弦波的频率与从该分段的音频信号的前一段中提取的正弦波的频率，以及编码其频率与从前一段的音频信号中提取的正弦波的频率的任意一个都不相似的正弦波的每一个的频率、幅度和相位。

12.一种音频编码装置，包括：

预测器，基于分段的音频信号的前一段的心理声学频率来预测频率；

差值检测器，检测由该预测器预测的频率和从该频率转换器输入的心理声学频率之间的差；

第一编码器，编码该差；

13.一种音频编码装置，包括：

正弦波连接器，连接由该正弦波提取器提取的至少一个正弦波；

频率转换器，将连接的正弦波中的一个正弦波的频率转换为心理声学频率；

预测器，基于该分段的音频信号的前一段的心理声学频率来预测频率；和

差值检测器，检测由预测器预测的频率和从该频率转换器输入的心理声学频率之间的差；

掩蔽级别提供器，提供使用从该分段单元输出的分段的音频信号的心理声学模型计算的掩蔽级别；

量化器，基于从正弦波连接器输出的连接的正弦波的幅度和掩蔽级别来设置量化步长，使用所设置的量化步长来量化从该差值检测器输出的信号，以及将从该差值检测器输出的信号发送到该预测器作为分段的音频信号的前一段的心理声学频率；

第一编码器，编码从该量化器输出的量化信号；

第二编码器，编码该连接的正弦波中的该一个正弦波的幅度；和

混合器，通过混合第一编码器编码的编码结果和第二编码器编码的编码结果来输出编码的音频信号，

其中，该混合器混合从该量化器输出的量化步长作为该编码的音频信号的控制参数。

14.如权利要求13所述的音频编码装置，其中，如果连接的正弦波的幅度的每一个大于该掩蔽级别，则该量化器将量化步长设置为较小，以及如果连接的正弦波的幅度的每一个不大于该掩蔽级别，则将该量化步长设置为较大。

15.一种音频解码装置，包括：

解析器，解析编码的音频信号；

第一解码器，解码从解析器输出的编码的心理声学频率；

逆频率转换器，将解码的心理声学频率转换成正弦频率；

第二解码器，解码从解析器输出的编码的正弦幅度；

相位检测器，基于解码的正弦幅度和所述正弦频率检测正弦相位；和

音频解码器，基于该检测的正弦相位、解码的正弦幅度和所述正弦频率来解码正弦波，并且利用该解码的正弦波来解码音频信号。

16.如权利要求15所述的音频解码装置，还包括：第三解码器，如果从该解析器输出不连接到从音频信号的前一段中提取的正弦波的正弦波的编码的频率、幅度和相位，则第三解码器解码该不连接到从音频信号的前一段的音频信号中提取的正弦波的正弦波的编码的频率、幅度和相位，

其中该音频解码器基于由该第三解码器解码的正弦波的幅度、频率和相位来解码正弦波，以及使用该解码的正弦波来解码音频信号。

17.一种音频解码装置，包括：

解析器，解析编码的音频信号；

第一解码器，解码从解析器输出的编码的心理声学频率；

预测器，基于音频信号的前一段的解码的心理声学频率来预测频率；和

加法器，将从第一解码器输出的解码的心理声学频率与从该预测器输出的预测的频率相加以产生相加结果；

逆频率转换器，将该相加结果转换为正弦频率；

第二解码器，解码从解析器输出的编码的正弦幅度；

音频解码器，基于该检测的正弦相位、解码的正弦幅度和所述正弦频率解码正弦波，并且利用该解码的正弦波解码音频信号。

18.如权利要求17所述的音频解码装置，还包括：去量化器，其使用从该解析器输出的量化步长来去量化从第一解码器输出的解码的心理声学频率，

其中该加法器将从该去量化器输出的去量化结果与该预测的频率相加。