CN106910509B - 用于修正通用音频合成的设备及其方法 - Google Patents

用于修正通用音频合成的设备及其方法 Download PDF

Info

Publication number
CN106910509B
CN106910509B CN201710020311.8A CN201710020311A CN106910509B CN 106910509 B CN106910509 B CN 106910509B CN 201710020311 A CN201710020311 A CN 201710020311A CN 106910509 B CN106910509 B CN 106910509B
Authority
CN
China
Prior art keywords
frequency
domain excitation
frequency domain
excitation
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710020311.8A
Other languages
English (en)
Other versions
CN106910509A (zh
Inventor
T.瓦兰考特
M.杰里尼克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shengdai Evs Ltd
Original Assignee
Voisage
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=48191141&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN106910509(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Voisage filed Critical Voisage
Publication of CN106910509A publication Critical patent/CN106910509A/zh
Application granted granted Critical
Publication of CN106910509B publication Critical patent/CN106910509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

一种用于修正由时域解码器解码的时域激励的合成的方法和设备,其中解码的时域激励的合成被分类到多个类别之一。将解码的时域激励转换成频域激励,并作为解码的时域激励的合成被分类到的类别的函数,对频域激励进行修正。将修正的频域激励转换成修正的时域激励,并向合成滤波器提供修正的时域激励,以产生解码的时域激励的修正的合成。

Description

用于修正通用音频合成的设备及其方法
本申请是申请日为2012年11月1日、申请号为201280065936.1、发明名称为“改善低速率码激励线性预测解码器的非语音内容”的发明专利申请的分案申请。
技术领域
本公开涉及一种装置和方法,用于修正由时域解码器解码的时域激励的合成。
背景技术
现有技术的会话编解码器可以用非常好的质量表现具有大约8kbps比特率的干净语音信号和16kbps比特率的近似透明度。为了维持这样的高语音质量,即使在低比特率,也可以使用多模态编码方案。通常,输入声音信号被分离成反映其特性的不同类别。例如,不同的类别可以包括浊音(voiced)、清音(unvoiced)和起始(onset)。编解码器对所有这些类别使用优化的不同的编码模式。
然而,一些部署的语音编解码器不使用这种多模态方法,导致对不同于干净语音的声音信号的次优质量(特别是在低比特率)。由于比特流被标准化,并且对比特流的任何修正都将破坏编解码器的互操作性的事实,因此在部署编解码器时,很难对编码器进行修正。然而,对解码器进行修正可以被实现用来改善在接收器侧感知到的质量。
发明内容
根据第一方面,本公开涉及一种用于修正由时域解码器解码的时域激励的合成的设备,包括:分类器,用于将解码的时域激励的合成分类到多个类别之一;用于将解码的时域激励转换到频域激励的转换器;修正器,作为通过分类器将解码的时域激励的合成分类到的类别的函数来修正频域激励;用于将修正的频域激励转换到修正的时域激励的转换器;以及合成滤波器,被提供修正的时域激励以产生解码的时域激励的修正的合成。
根据另一个方面,本公开涉及一种用于解码通过编码参数编码的声音信号的设备,包括:响应于声音信号编码参数对时域激励进行解码的解码器;合成滤波器,响应于解码的时域激励产生所述时域激励的合成;以及上述用于修正时域激励的合成的设备。
根据第三方面,本公开涉及一种用于修正由时域解码器解码的时域激励的合成的方法,包括:将解码的时域激励的合成分类到多个类别之一中;将解码的时域激励转换到频域激励;作为解码的时域激励的合成被分类到的类别的函数来修改频域激励;将修正的频域激励转换成修正的时域激励;以及合成修正的时域激励以产生解码的时域激励的修正的合成。
根据进一步的方面,本公开涉及一种用于解码通过编码参数编码的声音信号的方法,包括:响应于声音信号编码参数解码时域激励;合成解码的时域激励以产生所述时域激励的合成;以及上述用于修正时域激励的合成的方法。
在阅读参照附图以非限制性示例的方式给出的下面的非限制性描述之后,用于修正时域激励的合成的设备和方法的前述和其他特征将变得更加明显。
附图说明
在附图中:
图1是示出用于无效(inactive)和有效(active)的清音帧改善的CELP解码器的变型的简化示意图;
图2是示出用于无效和有效的清音帧改善的CELP解码器变型的详细示意图;
图3是示出用于通用音频帧改善的CELP解码器的变型的简化示意图;以及
图4是示出用于通用音频帧改善的CELP解码器变型的详细示意图。
具体实施方式
本公开涉及一种在解码器侧实现多模态解码以维持互操作性并提升感知质量的方法。在本公开中,虽然如在参考文献[3GPP TS 26.190,《Adaptive Multi-Rate-Wideband(AMR-WB)speech codec;Transcoding functions》]中描述的AMR-WB用作示例性示例,但应该切记的是,这种方法也可以应用到其他类型的低比特率语音解码器,该参考文献的全部内容通过引用并入本文。
参照图1,为了实现这种多模态解码,时域激励解码器102首先对接收到的比特流101进行整体解码,例如AMR-WB比特流,以获得完整的时域码本激励线性预测(CELP)解码的激励。解码的时域激励通过线性预测(LP)合成滤波器103进行处理,以获得解码器内部采样频率的语音/声音信号时域合成。对于AMR-WB,该内部采样频率为12.8kHz,但对另一编解码器,它可能是不同的。
来自LP合成滤波器103的当前帧的时域合成通过分类器104-105-106-301(图1、图2和图3)进行处理,其中向所述分类器提供来自比特流101的话音有效性检测(VAD)信息109。分类器104-105-106-301分析时域合成并将其分类成无效语音、有效浊音语音、有效清音或通用音频。无效语音(在1051检测到)包括语音突发、表示主动语音突发期间具有浊音特性的帧的有效浊音语音(在1061检测到)、表示在语音突发期间具有清音特性的帧的有效的清音语音(在1062检测到)、以及表示音乐或混响语音的通用音频(在3010检测到)之间的所有的背景噪音。其他的类别可以添加或从上述类别得到。所公开的方法的目的是改进尤其(但并非排他性地)是无效的语音、有效的清音语音和通用音频的感知质量。
一旦确定了时域合成的类别,转换器/修正器107就使用非重叠频率变换将来自时域激励解码器102的解码的激励转换到频域。也可以使用重叠变换,但它意味着增加了端到端延迟,这在大多数情况下是不希望的。然后,在转换器/修正器107中,将激励的频率表示分离到不同的频带。频带可以有固定的大小,可以依赖于临界频带[[J.D.Johnston,“Transform coding of audio signal using perceptual noise criteria”,IEEEJ.Select.Areas Commun.,第6卷,第314-323页,1988年2月](其全部内容通过引入并入本文),或任何其他的组合。然后,计算每个频带的能量,并将其保存在转换器/修正器107的存储器中,以在整形(resample)处理后使用,以确保修正不改变全局的帧能量级。
转换器/修正器107执行的频域中的激励的修正可能会随着合成的分类而不同。对于无效的语音和有效的清音语音,整形可以包括对低频归一化再添加噪声,以及仅用噪声替换高频内容。解码的时域合成的截止频率、低频和高频之间的界限可以固定在约1至1.2kHz的值。当在未修正的帧和修正的帧之间进行切换时,保持解码的时域合成的一些低频内容以防止伪像。也可以通过选择频率区间(frequency bin)作为来自时域激励解码器102的解码的基音(pitch)的函数而使得截止频率逐帧可变化。修正处理具有除去与低比特率语音编解码器相关联的电噪声种类的效果。修正处理后,应用每频带的增益匹配,以取回每个频带的初始能量级,其中稍微增加6kHz以上的频率的能量,以补偿在这些频率上的LP滤波器增益下降。
对于被归类为通用音频的帧,转换器/修正器107中的处理是不同的。首先,对所有频带的每一个频带进行归一化。在归一化操作中,频带中低于频带内最大频率值的一部分的所有区间都被设置为零。对于更高的频段,每个频段内更多的区间归零。这以较高的比特预算模拟了频率量化方案,但更多的比特分配给了较低的频率。归一化处理后,可以应用噪声填充,用随机噪声替换归零的区间,但取决于不同的比特率,并不总是使用噪声填充。修正处理后,应用每频带的增益匹配,以取回每个频带的初始能量级,并沿频带应用取决于比特率的倾斜校正,以补偿在通用音频输入情形中对LP滤波器的系统性低估。通用音频路径的另一个不同来自于增益匹配并非应用在所有的频率区间上的事实。由于通用音频的频谱通常比语音更加多尖峰,因此当可以识别频谱脉冲并对其加重时,改善了感知质量。要做到这一点,只对频带内的最高能量区间应用具有倾斜校正的全增益匹配。对于最低能量区间,对这些区间只应用一部分增益匹配。这导致增加频谱动态。
在激励频率整形和增益匹配之后,转换器/修正器107应用逆频率变换,以获得修正的时域激励。该修正的激励通过LP合成滤波器108处理,以得到修正的时域合成。在去加重滤波器和重采样器112中最终去加重和重采样至16kHz(对于AMR-WB的示例)之前,取决于时域解码合成的分类,覆写器110简单地用来自LP合成滤波器108的修正后的时域合成覆写来自LP合成滤波器103的时域解码合成。
在无效的语音的情形中,与有效的清音语音的修正相比,唯一的区别是使用平滑器111用于平滑LP合成滤波器108以给出更平滑的噪声变化。其余的修正都与有效的清音路径相同。在下面的文本中,参照图2描述实现公开的方法的更详细的示例。
1)信号分类
参照图2,分类器104-105-106-301对于应用了修正的比特率在解码器执行如上文描述的语音/声音信号的时域合成的分类1021。为了简化附图的目的,图2没有示出LP滤波器103。解码器处的分类与如在参考文献[Milan Jelinek和Philippe Gournay;PCT专利申请WO03102921A1,“A method and device for efficient frame erasure concealmentin linear predictive based speech codecs”]和[T.Vaillancourt等人,PCT专利申请WO2007073604A1,“Method and device for efficient frame erasure concealment inspeech codecs”]中描述的相似(这些参考文献的全部内容通过引用并入本文),加上对通用音频检测的一些适配。下面的参数用于在解码器处对帧进行分类:归一化的相关性rx、频谱倾斜度量et、基音稳定性计数器pc、在当前帧Es结束处声音信号的相对帧能量和过零计数器zc。这些用于对信号进行分类的参数的计算在下面说明。
归一化的相关性rx在帧结束处基于语音/声音信号的时域合成Sout(n)计算。使用来自时域激励解码器102的最后一个子帧的基音滞后(lag)。更具体地,归一化的相关性rx基音同步地计算如下:
Figure GDA0002498323070000051
其中x(n)=Sout(n),T是最后一个子帧的基音滞后,t=L-T,L是帧大小。如果最后一个子帧的基音滞后大于3N/2(N是子帧的大小),那么将T设置为最后两个子帧的平均基音滞后。
因此,归一化的相关性rx是使用语音/声音信号时域合成Sout(n)计算得到的。对于低于子帧大小(64个采样)的基音滞后,归一化的相关性在时刻t=L-T和T=L-2T计算两次,并且归一化的相关性rx作为这两次计算的平均值给出。
频谱倾斜参数et包含有关能量的频率分布的信息。作为非限定性的示例,解码器处的频谱倾斜被估计为时域合成的第一归一化自相关系数。它基于最后的3个子帧计算为:
Figure GDA0002498323070000052
其中x(n)=Sout(n)是时域合成信号,N是子帧大小,L是帧大小(在AMR-WB的示例中,N=64,L=256)。
基音稳定性计数器pc对基音周期的变化进行评估。它在解码器处如下计算:pc=|p3+p2-p1-p0| (3)
值P0,P1,P2和P3对应于来自当前帧的4个子帧的闭环基音滞后(在AMR-WB的示例中)。
相对帧能量Es计算为以dB为单位的当前帧能量Ef和其长期平均值Elt之间的差
Es=Ef-Elt (4)
其中当前帧能量Ef是在帧结束处基音同步地计算得到的以dB为单位的时域合成Sout(n)的能量
Figure GDA0002498323070000061
其中L=256(在AMR-WB的示例中)是帧的长度,T是最后两个子帧的平均基音滞后。如果T小于子帧的大小,那么将T设置为2T(对于短基音滞后使用两个基音周期计算得到的能量)。
使用下面的关系式更新有效语音帧的长期平均能量:
Eff=0.99Eff+0.01Ef (6)
最后一个参数是在时域合成Sout(n)的一个帧上计算得到的过零计数器zc。作为非限制性的示例,过零计数器zc计数在该间隔期间时域合成的符号从正变为负的次数。
为了使分类更鲁棒,将分类参数放在一起考虑形成评价(merit)函数fm。为了这个目的,首先使用线性函数对分类参数进行缩放。让我们考虑参数Px,其缩放版本使用下式获得:
ps=kp·px+cp (7)
缩放后的基音稳定性计数器pc被截短(clip)在0和1之间。对于每个参数已经通过实验找到函数系数Kp和Cp。在该实现的示例中使用的值总结在表1中:
表1:解码器处的帧分类参数和其相应的缩放函数的系数
Figure GDA0002498323070000062
Figure GDA0002498323070000071
评价函数定义为:
Figure GDA0002498323070000072
其中上标s表示参数的缩放版本。
然后,使用评价函数fm并遵循在表2中总结的规则进行帧的分类:
表2:解码器处的信号分类规则
Figure GDA0002498323070000073
除此分类之外,与编码器的话音有效性检测(VAD)相关的信息109可被发送至比特流101中(图1),与在AMR-WB的示例中的情形一样。因此,一比特被发送到比特流101以指定编码器是否将当前帧视为有效内容(VAD=1)或无效内容(背景噪声,VAD=0)。当VAD信息表明内容是无效的时,分类器部分104,105,106和301然后将分类覆写为清音。
分类方案还包括通用的音频检测(见分类器部分301,图3)。通用音频类别包括音乐、混响语音,还可以包括背景音乐。分类的第二个步骤允许分类器104-105-106-301以较好的置信度确定当前帧可以被归类为通用音频。使用两个参数来实现该第二分类步骤。一个参数是如等式(5)中表达的总帧能量Ef
首先,过去四十(40)个总帧能量变化的平均值
Figure GDA0002498323070000081
用下面的关系式计算得到:
Figure GDA0002498323070000082
其中
Figure GDA0002498323070000083
然后,最后十五(15)个帧上的能量变化历史的统计偏差σE用下面的关系式确定:
Figure GDA0002498323070000084
得到的偏差σE给出对解码的合成的能量稳定性的指示。通常情况下,音乐比语音具有更高的能量稳定性(较低的能量变化历史的统计偏差)。
此外,第一个步骤的分类被用来评估当如在等式(5)中表达的帧能量Ef大于-12dB时被分类为清音NUV的两个帧之间的间隔。当帧被分类为清音,并且帧能量Ef大于-9dB时,意味着信号是清音而不是无声(silent),如果如在等式(6)中表达的长期有效语音能量Elt小于40dB,那么将清音间隔计数器设置为16,否则将清音间隔计数器NUV减小8。对于有效语音信号,计数器NUV也被限制在0和300之间,对于无效语音信号,被限制在0和125之间。应该提醒注意的是,在说明性的示例中,有效和无效语音信号之间的差可以从包含在比特流101中的话音有效性检测VAD信息推导得到。
对于有效语音信号,从该清音帧计数器得到长期平均值:
Figure GDA0002498323070000085
对于无效的语音信号则如下:
Figure GDA0002498323070000086
此外,当长期平均值很高,并且偏差σE也高时,例如在实现的当前示例中,当NUVlt>140并且σE>5时,长期平均值修正如下:
Figure GDA0002498323070000087
分类器104-105-106-301使用有关被分类为清音的帧之间的帧的数量的长期平均值的参数,来确定所述帧是否应被视为通用音频。越多清音帧在时间上接近,帧越可能具有语音特征(更小可能是通用音频)。在说明性的示例中,用来决定帧是否被视为通用音频GA的阈值定义如下:
帧是GA,如果:
Figure GDA0002498323070000091
并且
Figure GDA0002498323070000092
加上在等式(9)中定义的参数
Figure GDA0002498323070000093
以便不将大的能量变化分类为通用音频,而是将它保持为有效语音。
对激励的修正的执行取决于帧的分类,并且对一些类型的帧,根本没有修正。下表3总结了可以进行或不可以进行修正的情况。
表3:激励修正的信号类别
Figure GDA0002498323070000094
*可以取决于对通用音频类别进行或不进行修正。例如,可以仅当通用音频是无效的时候对其进行修正,或仅当通用音频是有效的时候进行修正,始终进行修正或根本不进行修正。
2)频率变换
在频域修正阶段,需要将激励表示到变换域。例如,通过使用给出25Hz频率分辨率的II型DCT(离散余弦变换)的转换器/修正器107的时域到频域转换器201实现时间到频率转换,但也可以使用任何其他合适的变换。如果使用另一种变换,那么频率分辨率(上面定义的)、频带的数目和每个频带的频率区间的数目(下文进一步定义)可能需要相应地修改。在时域到频域转换器201中计算的时域CELP激励fe的频率表示如下给出:
Figure GDA0002498323070000101
其中etd(n)是时域CELP激励,L是帧长度。在AMR-WB的示例中,对于对应的内采样频率12.8kHz帧长度是256个采样。
在时域CELP解码器,诸如102中,时域激励信号由以下给出:
etd(n)=bv(n)+gc(n) (15)
其中V(n)是自适应码本贡献,b是自适应码本增益,c(n)是固定码本贡献,g是固定码本增益。
3)每个频带的能量分析
在对时域激励进行任何修正之前,转换器/修正器107包括增益计算器208-209-210,其本身包括子计算器209,用来计算频域激励的每个频带的能量Eb并将计算得到的每个频带的能量Eb保存在存储器中以用于激励频谱整形后的能量调整。对于12.8kHz的采样频率,可以通过子计算器209如下计算能量:
Figure GDA0002498323070000102
其中CBb代表每个频带的累积频率区间,Bb为每个频带的区间数量,定义为:
Bb={4,4,4,4,4,5,6,6,6,8,8,10,11,13,15,18,22,16,16,20,20·20,16}
Figure GDA0002498323070000103
低频带可以对应于临界(critical)音频频带,如在Milan Jelinek和PhilippeGournay的PCT专利申请WO03102921A1,“A method and device for efficient frameerasure concealment in linear predictive based speech codecs”中描述的,其全部内容通过引用并入本文,但3700Hz以上的频带可以短一点,以更好地匹配这些频带中可能的频谱能量变化。频谱频带的任何其他的配置也是可能的。
4)无效和有效的清音帧的激励修正
a)时域贡献的截止频率对比噪声填充
为了实现无效帧和有效的清音帧的未修正激励和修正后激励之间的透明切换,至少保持时域激励贡献的较低频率。转换器/修正器107包括截止频率计算器203,用来确定停止使用时域贡献的频率,截止频率fc具有最小值1.2kHz。这意味着,始终保持解码的激励的第一个1.2kHz,并且取决于来自时域激励解码器102的解码的基音值,截止频率可以更高。8次谐波从所有子帧的最低基音计算得到,时域贡献保持高达该8次谐波。对8次谐波的估计计算如下:
Figure GDA0002498323070000111
其中Fs=12800Hz,Nsub是子帧的数量,T是解码的子帧基音。对于所有的i<Nb,其中Nb是被包括在频率范围Lf中的最大频带,通过搜索最高的频带以找到8次谐波所在的频带来进行验证,对于该最高的频带,依然验证下面的不等式:
Figure GDA0002498323070000112
其中Lf定义为:
Figure GDA0002498323070000113
Lf中的频带的索引将被称为
Figure GDA0002498323070000117
它表明8次谐波可能位于的频段。截止频率计算器203使用下面的关系将最终的截止频率ftc计算为1.2kHz和8次谐波可能位于的频带中的最后频率
Figure GDA0002498323070000114
之间的较高的频率,:
Figure GDA0002498323070000115
b)归一化和噪声填充
转换器/修正器107还包括将高于截止频率fc的频带的频率区间归零的归零器204。
对于无效帧和有效的清音帧,转换器/修正器107的归一化器205使用下面的关系在[0,4]之间归一化低于时域CELP激励fe的频率表示的频带的fc的频率区间:
Figure GDA0002498323070000116
然后,转换器/修正器107包括随机噪声产生器206,用来产生随机噪声,并通过加法器207来进行简单的噪声填充,以在所有的频率区间上以恒定的等级添加噪声。描述噪声添加的函数定义如下:
对于
Figure GDA0002498323070000121
其中rand是限制在-1到1之间的随机数产生器。
c)修正后激励频谱的每个频带的能量分析
增益计算器208-209-210的子计算器208用与在上面的第3小节描述的相同方法确定在频谱整形后每个频带的能量Eb’。
d)能量匹配
对于无效帧和有效的清音帧,能量匹配仅在于在对其初始值进行激励频谱修正后调整每个频带的能量。对于每个频带i,增益计算器208-209-210的子计算器210确定用来应用到频带中的所有区间的匹配增益Gb,以如下匹配能量:
Figure GDA0002498323070000122
其中Eb(i)是如在子计算器209中使用上面第3小节的方法确定的激励频谱修正之前的每个频带的能量,Eb’(i)是如在子计算器208中计算的激励频谱修正之后的每个频带的能量。对于特定的频带i,如在子计算器210中确定的修正后的(去归一化的)频域激励f′edN可以写为:
对于CBb(i)≤j<CBb(i)+Bb(i)
f′edN(j)=Gb(i)·f′eN(j) (23)
其中CBb和Bb在上面的第3小节中定义。
5)通用音频帧的激励修正
a)归一化和噪声填充
现在将参考图3。对于如通过分类部分301确定的通用音频帧,归一化是略有不同的,并通过归一化器302执行。首先,归一化因子Nf逐频带变化,对于低频带使用较大的值,对于高频带使用较小的值。这个想法允许在脉冲定位更准确的低频带的较高幅度,以及在脉冲定位不那么准确的较高频带的较低幅度。在这个示例性示例中,根据频带变化的归一化因子Nf定义为:
Nf={16,16,16,16,16,16,16,12,12,12,12,8,8,8,8,8,4,4,2,2,1,1,1}
对于特定的频带i,通用音频帧的时域激励(频域激励)fe的频率表示的归一化可以描述如下:
Figure GDA0002498323070000131
对于CBb(i)≤j<CBb(i)+Bb(i) (24)
其中Bb是每个频带的区间的数量,每个频带的累积频率区间是CBb,feN(j)是归一化频域激励。Bb和CBb在上面的第3小节中描述。
此外,归一化器302包括归零器(未显示),用来对每个频带中feN(j)的最大值的一部分Zf以下的所有频率区间进行归零以得到f’eN(j):
Figure GDA0002498323070000132
其中Zf可以表示为:
Zf={1,1,1,1,1,1,1,1,1,1,1。1,1,1,1,1,1,1,1,1,0.5,0.5,0.5}
如果想要提高频谱的多峰性(peakyness),更积极的归零可以通过增大向量Zf的值来执行。
b)修正后激励频谱的每个频带的能量分析
增益计算器303-304-306的计算器部分303确定用与在上面的第3小节描述的相同方法的频谱整形之后的每频带的能量Eb’。
c)能量匹配
图3示出了增益计算器303-304-306,图4更详细描述了该增益计算器的计算器部分306。
对于通用音频帧,能量匹配更复杂,因为它的目的也是提高频谱动态。对于每个频带i,增益计算器303-304-306的计算器部分306的子计算器413计算如在等式(22)中类似地定义的估计的增益Ge
Figure GDA0002498323070000133
其中Eb(i)是如在计算器部分304中使用如上面第3小节描述的方法确定的激励频谱修正之前的每个频带的能量,Eb’(i)是如在计算器部分303中计算的激励频谱修正之后的每个频带的能量。
计算器部分306的子计算器414使用下面的关系将增益G应用到来自归一化器302和频谱分割器401-420的归一化频域激励f’eN的第一个400Hz(或最先的4个频带)以提供修正的(去归一化的)频域激励f’edN
f′edN(j)=Ge(i)·f′eN(j),对于CBb(i)≤j<CBb(i)+Bb(i)l0≤i<4 (27)
查找器404确定在400Hz以上的每个频带j的最大值maxa≤j<b(|feN(j)|),其中a=CBb(i),b=CBb(i)+Bb(i)在上面的第3小节中定义。
对于包含在归一化频域激励的400Hz和2kHz(频带4至12)之间的频带(参见模块420和450),如果归一化频域激励在频率区间f′eN(j)≥0.86maxa≤j<b(|feN(j)|)中(参见模块451),则放大器402如在等式(28)的上面一行所示将来自子计算器413的增益Ge放大因子1.1。子计算器403根据等式(28)的第一行将来自放大器402的放大的增益应用到频率区间中的归一化频谱激励f’eN以获得修正的(去归一化的)频域激励f’edN
再次,对于包含在归一化频域激励的400Hz和2kHz(频带4至12)之间的频带(参见模块420和450),如果归一化频域激励在频率区间f′eN(j)<0.86maxa≤j<b(|feN(j)|)中(参见模块451),则衰减器405如在等式(28)的下面一行所示将来自子计算器413的增益Ge衰减因子0.86。子计算器406根据等式(28)的下面一行将来自衰减器405的衰减的增益应用到频率区间中的归一化频谱激励f’eN以获得修正的(去归一化的)频域激励f’edN
用于总结,修正后的(去归一化的)频谱激励f’edN如下给出:
Figure GDA0002498323070000141
最后,对于频谱中更高的部分,在该示例中为归一化频域激励2kHz以上的频带(频带>12)(参见模块420和450),如果归一化频域激励在频率区间f′eN(j)≥0.86maxa≤j<b(|feN(j)|)中(参见模块452),那么将作为频带i的函数并且也可以是比特率的函数的倾斜添加到增益Ge,以补偿LPC滤波器过低的能量估计。每个频带的倾斜值δ(i)表示为:
Figure GDA0002498323070000142
倾斜通过倾斜计算器407-408计算得到,并通过子计算器409根据等式(30)的上面一行按频率区间应用到归一化频域激励f’eN,以得到修正的(去归一化的)频域激励f’edN
再次,对于频谱中更高的部分,在该示例性示例中为归一化频域激励2kHz以上的频带(频带>12)(参见模块420和450),如果归一化频域激励在频率区间f′eN(j)<0.86maxa≤j<b(|feN(j)|)中(参见模块452),那么衰减器410计算由子计算器406根据等式(30)的下面一行按频率区间应用到归一化频谱激励f’eN以获得修正的(去归一化的)频域激励f’edN的衰减增益[f′eN(j)/maxa≤j<b(|feN(j)|)]2
用于总结,去归一化的频谱激励f’edN如下确定:
Figure GDA0002498323070000151
其中a和b在本文的上面有描述。也可以进一步增大应用到最新频带的增益,其中LPC的能量匹配是最差的。
6)逆频率变换
合成器453合成来自子计算器414,403,406,409和411的对修正的(去归一化的)频域激励f’edN的贡献,以形成完整的修正的(去归一化的)频域激励f’edN
在频域处理完成后,将逆频率时间变换202应用于来自合成器453的修正的(去归一化的)频域激励f’edN,以找到时域修正后的激励。在这个示例性实施例中,频率到时间转换使用与对于时间到频率转换使用的给出25Hz分辨率的相同的II型DCT的逆过程实现。再次,可以使用任何其他的变换。获得如下的修正的时域激励e′td
Figure GDA0002498323070000152
其中f’edN是修正后的激励的频率表示,L是帧长度。在这个示例性示例中,对于对应的12.8kHz的内部采样频率,帧长度为256个采样(AMR-WB)。
7)合成滤波和覆写当前的CELP合成
一旦完成激励修正,就通过合成滤波器108处理修正后的激励,以获得当前帧的修正的合成。覆写器110使用此修正的合成覆写解码的合成,从而提高感知质量。
最后的去加重和重采样到16kHz可以随后在去加重滤波器和重采样器112中进行。

Claims (18)

1.一种用于修正由时域解码器解码的时域激励的通用音频合成的设备,包括:
用于将解码的时域激励转换到频域激励的第一转换器;
用于频域激励的修正器,其中频域激励被划分成多个频带,每个频带划分成多个频率区间,并且其中所述修正器包括:使用随频带变化的归一化因子对频域激励进行归一化以产生归一化的频域激励的归一化器;
用于将修正的频域激励转换到修正的时域激励的第二转换器;以及
合成滤波器,被提供修正的时域激励以产生解码的时域激励的修正的合成。
2.如权利要求1所述的设备,其中修正器包括对包含多个频率区间的频带中的归一化的频域激励的最大值的一部分以下的频率区间进行归零的归零器。
3.如权利要求1所述的设备,其中所述修正器包括:
使用修正前和修正后的频域激励的能量计算每个频带的匹配增益的第一计算器。
4.如权利要求3所述的设备,其中所述修正器,包括对于第一频率以下的频带:
将匹配增益应用到归一化的频域激励以产生修正的频域激励的第二计算器。
5.如权利要求3所述的设备,对于第一较低频率和第二较高频率之间的频带包括:
用于查找归一化的频域激励在每个频带的最大值的查找器;
放大器,用于当频率区间中归一化的频域激励等于或高于与频带的所述最大值成比例的值时,在每个频率区间将匹配增益放大一放大因子;以及
用于将放大的匹配增益应用到频率区间中归一化的频域激励以在所述频率区间中产生修正的频域激励的第二计算器。
6.如权利要求3所述的设备,对于第一较低频率和第二较高频率之间的频带包括:
用于查找归一化的频域激励在每个频带的最大值的查找器;
衰减器,用于当频率区间中归一化的频域激励低于与频带的所述最大值成比例的值时,在每个频带的频率区间将匹配增益衰减一衰减因子;
用于将衰减的匹配增益应用到所述频率区间中归一化的频域激励以在所述频率区间中产生修正的频域激励的第二计算器。
7.如权利要求3所述的设备,对于给定频率以上的频带包括:
用于查找归一化的频域激励在每个频带的最大值的查找器;
用于当频率区间中归一化的频域激励高于与频带的所述最大值成比例的值时,计算匹配增益的倾斜的第二计算器,所述第二计算器将计算出的倾斜应用到匹配增益;以及
用于将已经应用了计算出的倾斜的匹配增益应用到所述频率区间中归一化的频域激励以在所述频率区间中产生修正的频域激励的第三计算器。
8.如权利要求3所述的设备,对于给定频率以上的频带包括:
用于查找归一化的频域激励在每个频带的最大值的查找器;
衰减器,用于当频域区间中的归一化的频域激励低于与频带的最大值成比例的值时,在频带的每个频率区间将匹配增益衰减一放大因子;以及
用于将衰减的匹配增益应用到所述频率区间中归一化的频域激励以在所述频率区间中产生修正的频域激励的第二计算器。
9.一种用于解码通过编码参数编码的声音信号的设备,包括:
响应于声音信号编码参数对时域激励进行解码的解码器;
合成滤波器,响应于解码的时域激励产生所述时域激励的合成;以及
根据权利要求1至8中任一项所述的设备。
10.一种用于修正由时域解码器解码的时域激励的通用音频合成的方法,包括:
将解码的时域激励转换到频域激励;
修正频域激励,其中频域激励被划分成多个频带,每个频带划分成多个频率区间,并且其中修正频域激励包括:使用随频带变化的归一化因子归一化频域激励以产生归一化的频域激励;
将修正的频域激励转换成修正的时域激励;以及
合成修正的时域激励以产生解码的时域激励的修正的合成。
11.如权利要求10所述的方法,其中修正频域激励包括对包含多个频率区间的频带中的归一化的频域激励的最大值的一部分以下的频率区间进行归零。
12.如权利要求10所述的方法,其中修正频域激励包括:
使用修正前和修正后的频域激励的能量计算每个频带的匹配增益。
13.如权利要求12所述的方法,其中修正频域激励包括对于第一频率以下的频带,将匹配增益应用到归一化的频域激励以产生修正的频域激励。
14.如权利要求12所述的方法,包括对于第一较低频率和第二较高频率之间的频带:
查找归一化的频域激励在每个频带的最大值;
当频率区间中归一化的频域激励等于或高于与频带的所述最大值成比例的值时,在每个频率区间将匹配增益放大一放大因子;以及
将放大的匹配增益应用到频率区间中归一化的频域激励以在所述频率区间中产生修正的频域激励。
15.如权利要求12所述的方法,包括对第一较低频率和第二较高频率之间的频带:
查找归一化的频域激励在每个频带的最大值;
当频率区间中归一化的频域激励低于与频带的所述最大值成比例的值时,在频带的每个频率区间将匹配增益衰减一衰减因子;
将衰减的匹配增益应用到所述频率区间中归一化的频域激励以在所述频率区间中产生修正的频域激励。
16.如权利要求12所述的方法,包括对于给定频率以上的频带:
查找归一化的频域激励在每个频带的最大值;
当频率区间中归一化的频域激励高于与频带的所述最大值成比例的值时,计算匹配增益的倾斜,并将计算出的倾斜应用到匹配增益;以及
将已经应用了计算出的倾斜的匹配增益应用到所述频率区间中归一化的频域激励以在所述频率区间中产生修正的频域激励。
17.如权利要求12所述的方法,包括对给定频率以上的频带:
查找归一化的频域激励在每个频带的最大值;
当频域区间中的归一化的频域激励低于与频带的最大值成比例的值时,在频带的每个频率区间将匹配增益衰减一放大因子;以及
将衰减的匹配增益应用到所述频率区间中归一化的频域激励,以在所述频率区间中产生修正的频域激励。
18.一种用于解码通过编码参数编码的声音信号的方法,包括:
响应于声音信号编码参数解码时域激励;
合成解码的时域激励以产生所述时域激励的合成;以及
根据权利要求10至17中任一项所述的方法。
CN201710020311.8A 2011-11-03 2012-11-01 用于修正通用音频合成的设备及其方法 Active CN106910509B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161555246P 2011-11-03 2011-11-03
US61/555,246 2011-11-03
CN201280065936.1A CN104040624B (zh) 2011-11-03 2012-11-01 改善低速率码激励线性预测解码器的非语音内容

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201280065936.1A Division CN104040624B (zh) 2011-11-03 2012-11-01 改善低速率码激励线性预测解码器的非语音内容

Publications (2)

Publication Number Publication Date
CN106910509A CN106910509A (zh) 2017-06-30
CN106910509B true CN106910509B (zh) 2020-08-18

Family

ID=48191141

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201710019918.4A Active CN107068158B (zh) 2011-11-03 2012-11-01 用于改善低速率码激励线性预测解码器的非语音内容的方法及其设备
CN201710020311.8A Active CN106910509B (zh) 2011-11-03 2012-11-01 用于修正通用音频合成的设备及其方法
CN201280065936.1A Active CN104040624B (zh) 2011-11-03 2012-11-01 改善低速率码激励线性预测解码器的非语音内容

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201710019918.4A Active CN107068158B (zh) 2011-11-03 2012-11-01 用于改善低速率码激励线性预测解码器的非语音内容的方法及其设备

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201280065936.1A Active CN104040624B (zh) 2011-11-03 2012-11-01 改善低速率码激励线性预测解码器的非语音内容

Country Status (15)

Country Link
US (1) US9252728B2 (zh)
EP (3) EP4488997A3 (zh)
JP (5) JP6239521B2 (zh)
KR (1) KR102105044B1 (zh)
CN (3) CN107068158B (zh)
CA (1) CA2851370C (zh)
DK (2) DK3709298T3 (zh)
ES (2) ES3012033T3 (zh)
FI (1) FI3709298T3 (zh)
HR (2) HRP20201070T1 (zh)
HU (2) HUE050600T2 (zh)
IN (1) IN2014DN03022A (zh)
LT (2) LT2774145T (zh)
SI (2) SI3709298T1 (zh)
WO (1) WO2013063688A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4488997A3 (en) * 2011-11-03 2025-01-22 VoiceAge EVS LLC Improving non-speech content for low rate celp decoder
EP3848929B1 (en) 2013-03-04 2023-07-12 VoiceAge EVS LLC Device and method for reducing quantization noise in a time-domain decoder
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
CN106463143B (zh) * 2014-03-03 2020-03-13 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
CN110097892B (zh) 2014-06-03 2022-05-10 华为技术有限公司 一种语音频信号的处理方法和装置
JP6401521B2 (ja) * 2014-07-04 2018-10-10 クラリオン株式会社 信号処理装置及び信号処理方法
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
US9972334B2 (en) * 2015-09-10 2018-05-15 Qualcomm Incorporated Decoder audio classification
US10373608B2 (en) 2015-10-22 2019-08-06 Texas Instruments Incorporated Time-based frequency tuning of analog-to-information feature extraction
KR20250016479A (ko) * 2017-09-20 2025-02-03 보이세지 코포레이션 씨이엘피 코덱에 있어서 비트-예산을 효율적으로 분배하는 방법 및 디바이스
TWI790705B (zh) * 2021-08-06 2023-01-21 宏正自動科技股份有限公司 語速調整方法及其系統
CN115857614B (zh) * 2022-11-17 2023-12-29 弘正储能(上海)能源科技有限公司 多路光伏mppt交错式boost控制方法及其系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58220199A (ja) * 1982-06-17 1983-12-21 日本電気株式会社 帯域分割型ボコ−ダ
JP3088121B2 (ja) * 1991-04-12 2000-09-18 沖電気工業株式会社 統計励振コードベクトルの最適化方法
JP2606006B2 (ja) * 1991-05-24 1997-04-30 ヤマハ株式会社 ノイズ音発生装置
JP3328080B2 (ja) * 1994-11-22 2002-09-24 沖電気工業株式会社 コード励振線形予測復号器
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
JP3451998B2 (ja) * 1999-05-31 2003-09-29 日本電気株式会社 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体
US7272553B1 (en) * 1999-09-08 2007-09-18 8X8, Inc. Varying pulse amplitude multi-pulse analysis speech processor and method
US7139700B1 (en) * 1999-09-22 2006-11-21 Texas Instruments Incorporated Hybrid speech coding and system
JP3478209B2 (ja) * 1999-11-01 2003-12-15 日本電気株式会社 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
JP3462464B2 (ja) * 2000-10-20 2003-11-05 株式会社東芝 音声符号化方法、音声復号化方法及び電子装置
JP2003110429A (ja) * 2001-09-28 2003-04-11 Sony Corp 符号化方法及び装置、復号方法及び装置、伝送方法及び装置、並びに記録媒体
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP3861770B2 (ja) * 2002-08-21 2006-12-20 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
WO2004084182A1 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Decomposition of voiced speech for celp speech coding
WO2004090870A1 (ja) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
UA94041C2 (ru) * 2005-04-01 2011-04-11 Квелкомм Инкорпорейтед Способ и устройство для фильтрации, устраняющей разреженность
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
KR20080047443A (ko) * 2005-10-14 2008-05-28 마츠시타 덴끼 산교 가부시키가이샤 변환 부호화 장치 및 변환 부호화 방법
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
KR20080101872A (ko) * 2006-01-18 2008-11-21 연세대학교 산학협력단 부호화/복호화 장치 및 방법
CN101385386B (zh) * 2006-03-03 2012-05-09 日本电信电话株式会社 混响除去装置和混响除去方法
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
CN101140759B (zh) * 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
EP3629328A1 (en) * 2007-03-05 2020-04-01 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for smoothing of stationary background noise
CN101388214B (zh) * 2007-09-14 2012-07-04 向为 一种变速率的声码器及其编码方法
CN100585699C (zh) * 2007-11-02 2010-01-27 华为技术有限公司 一种音频解码的方法和装置
RU2455709C2 (ru) * 2008-03-03 2012-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки аудиосигнала
RU2452042C1 (ru) * 2008-03-04 2012-05-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки аудиосигнала
CN101620854B (zh) * 2008-06-30 2012-04-04 华为技术有限公司 频带扩展的方法、系统和设备
CN102105930B (zh) * 2008-07-11 2012-10-03 弗朗霍夫应用科学研究促进协会 用于编码采样音频信号的帧的音频编码器和解码器
EP2144229A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
PT2146344T (pt) * 2008-07-17 2016-10-13 Fraunhofer Ges Forschung Esquema de codificação/descodificação de áudio com uma derivação comutável
JP5555707B2 (ja) * 2008-10-08 2014-07-23 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチ分解能切替型のオーディオ符号化及び復号化スキーム
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
MY163358A (en) * 2009-10-08 2017-09-15 Fraunhofer-Gesellschaft Zur Förderung Der Angenwandten Forschung E V Multi-mode audio signal decoder,multi-mode audio signal encoder,methods and computer program using a linear-prediction-coding based noise shaping
CN102714040A (zh) * 2010-01-14 2012-10-03 松下电器产业株式会社 编码装置、解码装置、频谱变动量计算方法和频谱振幅调整方法
US8958572B1 (en) * 2010-04-19 2015-02-17 Audience, Inc. Adaptive noise cancellation for multi-microphone systems
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
CN102074245B (zh) * 2011-01-05 2012-10-10 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及语音增强方法
EP4488997A3 (en) * 2011-11-03 2025-01-22 VoiceAge EVS LLC Improving non-speech content for low rate celp decoder
DE102014101462B3 (de) * 2014-02-06 2015-03-05 Sartorius Lab Instruments Gmbh & Co. Kg Verfahren zur Funktionsprüfung eines Messgerätes

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《A 5.85 kbits CELP algorithm for cellular applications》;W.B. Kleijn et al.;《1993 IEEE International Conference on Acoustics, Speech, and Signal Processing》;19931231;全文 *
《A new model of LPC excitation for producing natural-sounding speech at low bit rates》;B. Atal et al.;《ICASSP "82. IEEE International Conference on Acoustics, Speech, and Signal Processing》;19821231;全文 *
《Retrieving Sparse Patterns Using a Compressed Sensing Framework: Applications to Speech Coding Based on Sparse Linear Prediction》;Daniele Giacobello et al.;《IEEE Signal Processing Letters ( Volume: 17 , Issue: 1 , Jan. 2010 )》;20101231;全文 *
《基于子带清浊音模式的声码器增益参数抗误码算法》;洪侃 等;《清华大学学报(自然科学版)》;20081231;全文 *

Also Published As

Publication number Publication date
EP2774145A1 (en) 2014-09-10
FI3709298T3 (fi) 2025-02-21
JP2022022247A (ja) 2022-02-03
JP2015501452A (ja) 2015-01-15
HUE050600T2 (hu) 2021-01-28
ES2805308T3 (es) 2021-02-11
EP3709298B1 (en) 2024-11-20
HK1198265A1 (zh) 2015-03-20
LT3709298T (lt) 2025-02-25
JP2018045244A (ja) 2018-03-22
ES3012033T3 (en) 2025-04-08
DK3709298T3 (da) 2025-01-13
SI2774145T1 (sl) 2020-10-30
CA2851370C (en) 2019-12-03
DK2774145T3 (da) 2020-07-20
JP2018045243A (ja) 2018-03-22
US9252728B2 (en) 2016-02-02
US20130121508A1 (en) 2013-05-16
HRP20201070T1 (hr) 2020-10-30
EP2774145B1 (en) 2020-06-17
JP6239521B2 (ja) 2017-11-29
IN2014DN03022A (zh) 2015-05-08
WO2013063688A1 (en) 2013-05-10
CN107068158B (zh) 2020-08-21
HUE070390T2 (hu) 2025-06-28
JP6513769B2 (ja) 2019-05-15
JP6532926B2 (ja) 2019-06-19
CA2851370A1 (en) 2013-05-10
LT2774145T (lt) 2020-09-25
SI3709298T1 (sl) 2025-05-30
HRP20241659T1 (hr) 2025-02-28
EP4488997A2 (en) 2025-01-08
KR102105044B1 (ko) 2020-04-27
EP4488997A3 (en) 2025-01-22
JP7237127B2 (ja) 2023-03-10
CN106910509A (zh) 2017-06-30
CN107068158A (zh) 2017-08-18
CN104040624B (zh) 2017-03-01
EP2774145A4 (en) 2015-10-21
CN104040624A (zh) 2014-09-10
JP2019152878A (ja) 2019-09-12
EP3709298A1 (en) 2020-09-16
KR20140090214A (ko) 2014-07-16

Similar Documents

Publication Publication Date Title
CN106910509B (zh) 用于修正通用音频合成的设备及其方法
JP7427752B2 (ja) 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法
JP5247826B2 (ja) 復号化音調音響信号を増強するためのシステムおよび方法
CN107710324A (zh) 音频编码器和用于对音频信号进行编码的方法
HK40035914A (zh) 改善低速率celp解码器的非语音内容
HK40117447A (zh) 改进低速率celp解码器的非语音内容
HK40035914B (zh) 改善低速率celp解码器的非语音内容
HK1198265B (zh) 改善低速率碼激勵線性預測解碼器的非語音內容
HK40045960B (zh) 用於降低时域解码器中的量化噪声的装置和方法
HK40011549A (zh) 用於降低时域解码器中的量化噪声的装置和方法
HK1212088B (zh) 用於降低時域解碼器中的量化噪聲的裝置和方法
HK40029446A (zh) 用於降低时域解码器中的量化噪声的装置和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200908

Address after: California, USA

Patentee after: Shengdai EVs Limited

Address before: Kaisan ohokkatsu

Patentee before: Voisage