WO2014042439A1 - 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치 - Google Patents

손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치 Download PDF

Info

Publication number
WO2014042439A1
WO2014042439A1 PCT/KR2013/008235 KR2013008235W WO2014042439A1 WO 2014042439 A1 WO2014042439 A1 WO 2014042439A1 KR 2013008235 W KR2013008235 W KR 2013008235W WO 2014042439 A1 WO2014042439 A1 WO 2014042439A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
band
current frame
attenuation constant
previous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/KR2013/008235
Other languages
English (en)
French (fr)
Inventor
정규혁
전혜정
강인규
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Priority to US14/427,778 priority Critical patent/US9633662B2/en
Priority to EP13837778.3A priority patent/EP2897127B1/en
Priority to JP2015531852A priority patent/JP6139685B2/ja
Priority to CN201380053376.2A priority patent/CN104718570B/zh
Priority to KR1020157006324A priority patent/KR20150056770A/ko
Publication of WO2014042439A1 publication Critical patent/WO2014042439A1/ko
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Definitions

  • the present invention relates to the encoding and decoding of audio signals, and more particularly, to a method and apparatus for recovering loss in the decoding process of an audio signal.
  • the present invention relates to a restoration invention for a case where a bitstream from a voice and audio encoder is lost in a digital communication environment and an apparatus using the same.
  • audio signals include signals of various frequencies, and the human audible frequency is in the range of about 200 Hz to 3 kHz, whereas the average human voice is in the range of about 200 Hz to 3 kHz.
  • the input audio signal may include not only a band in which a human voice exists but also a component of a high frequency region of 7 kHz or more, where a human voice is hard to exist.
  • SWB wide band
  • a coding scheme suitable for NB (sampling rate ⁇ ⁇ 8 kHz) or a coding scheme suitable for WB (sampling rate ⁇ ⁇ 16 kHz) is applied to a signal of SWB (sampling rate ⁇ 32 kHz).
  • SWB sampling rate
  • information loss may occur in the encoding process of the speech signal or the transmission of the encoded information.
  • a process for restoring or concealing the lost information may be performed.
  • an optimized encoding / decoding method for each band when a loss occurs in the SWB signal, it is necessary to restore or conceal the loss in a manner different from the method of coping with the loss of the WB. .
  • the present invention provides a method and apparatus for adaptively obtaining scaling coefficients (attenuation constants) for restoring MDCT coefficients of a current frame through correlation between normal frames before the current frame as a lossless recovery method without additional delay. It aims to do it.
  • An object of the present invention is to provide a method and apparatus for applying attenuation constants reflecting band-specific characteristics.
  • An object of the present invention is to provide a method and apparatus for deriving attenuation constants according to a tonal degree per band based on a predetermined number of normal frames before a current frame.
  • An object of the present invention is to provide a method and apparatus for reconstructing a current frame by reflecting transform coefficient characteristics of normal frames before a lost current frame.
  • the present invention does not merely perform frame reconstruction on the premise of prior attenuation, even in the case of continuous frame loss, but is derived for application to the attenuation constant and / or continuous frame loss induced for application to a single frame loss. It is an object of the present invention to provide a method and apparatus for effectively reconstructing a signal by applying an attenuation constant to the reconstructed transform coefficients of a previous frame.
  • An embodiment of the present invention is a frame loss recovery method of an audio signal, comprising the steps of grouping the transform coefficients of at least one of the previous frames of the current frame into a predetermined number of bands, the attenuation constant according to the tonality of the grouped bands And reconstructing the transform coefficient of the current frame by applying an attenuation constant to a previous frame of the current frame.
  • Another embodiment of the present invention is an audio decoding method, comprising: determining whether a current frame is lost, reconstructing a transform coefficient of a current frame based on transform coefficients of previous frames of the current frame when the current frame is lost; And inversely transforming the reconstructed transform coefficients, and in the step of restoring the transform coefficients, the transform coefficients of the current frame may be reconstructed based on the band-specific tonality of the transform coefficients of at least one of the previous frames.
  • a reconstruction effect can be greatly increased by adaptively calculating an attenuation constant using a plurality of normal frames before the current frame as well as the frame immediately before the lost current frame.
  • the present invention it is possible to obtain a reconstruction effect in which the band-specific characteristics are reflected by applying the attenuation constant by reflecting the band-specific characteristics.
  • the attenuation constant can be derived according to the tonal degree for each band based on a predetermined number of normal frames before the current frame, the attenuation constant can be adaptively applied in consideration of band characteristics.
  • the recovery performance can be improved.
  • FIG. 1 schematically illustrates an example of an encoder configuration that may be used when an ultra-wideband signal is processed by a band extension method.
  • FIG. 2 schematically illustrates an example of a decoder configuration that may be used when an ultra-wideband signal is processed by a band extension method.
  • FIG. 3 is a block diagram schematically illustrating an example of a decoder that may be applied when a bitstream containing audio information is lost in a communication environment.
  • FIG. 4 is a block diagram schematically illustrating an example of a decoder applied to conceal frame loss according to the present invention.
  • FIG. 5 is a block diagram schematically illustrating an example of a frame loss concealment unit according to the present invention.
  • FIG. 6 is a flowchart schematically illustrating an example of a method of concealing / recovering frame loss in a decoder according to the present invention.
  • FIG. 7 is a diagram schematically illustrating inducing a correlation in accordance with the present invention.
  • FIG. 8 is a flowchart schematically illustrating another example of a method of concealing / recovering frame loss in a decoder according to the present invention.
  • FIG. 9 is a flowchart schematically illustrating an example of a frame loss recovery (hidden) method according to the present invention.
  • FIG. 10 is a flowchart schematically illustrating an example of an audio decoding method according to the present invention.
  • first and second may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another.
  • Components shown in the embodiments of the present invention are shown independently to represent different characteristic functions, and do not mean that each component is made of separate hardware or one software component unit.
  • Each component is included in a list of components for convenience of description, and at least two of the components may be combined to form one component, or one component may be divided into a plurality of components to perform a function.
  • NB narrow bands
  • WB wide bands
  • SWBs super wide bands
  • a speech and audio encoding / decoding technique a Code Excited Linear Prediction (CELP) mode, a sinusoidal mode, or the like may be used.
  • CELP Code Excited Linear Prediction
  • the coder may be divided into a baseline coder and an enhancement layer.
  • the enhancement layer may be further divided into a lower band enhancement layer (LBE) layer, a bandwidth extension (BWE) layer, and a higher band enhancement layer (HBE) layer.
  • LBE lower band enhancement layer
  • BWE bandwidth extension
  • HBE higher band enhancement layer
  • the LBE layer improves low-band sound quality by encoding / decoding a difference signal, that is, an excitation signal, between a sound source processed by a core encoder / core decoder and an original sound. Since the high band signal has similarity with the low band signal, it is possible to recover the high band signal at a low bit rate through the high band extension method using the low band.
  • a method of scaling and processing a SWB signal may be considered.
  • the method of band extending the SWB signal may operate in the Modified Discrete Cosine Transform (MDCT) domain.
  • MDCT Modified Discrete Cosine Transform
  • the enhancement layers may be handled by being divided into a generic mode and a sinusoidal mode. For example, when three enhancement layers are used, the first enhancement layer may be processed in generic mode and sign mode, and the second and third enhancement layers may be processed in sign mode.
  • a sinusoid includes both a sine wave and a cosine wave in which the sinusoid is shifted in phase by half. Therefore, in the present invention, a sinusoid may mean a sine wave or a cosine wave. If the input sine wave is a cosine wave, it may be converted into a sine wave or cosine wave in the encoding / decoding process, and the conversion depends on the conversion method of the input signal. Even when the input sine wave is a sine wave, it may be converted to a cosine wave or a sine wave in the encoding / decoding process, and the conversion depends on the conversion method of the input signal.
  • coding is based on adaptive replication of the coded wideband signal subbands.
  • sine mode coding a sine wave is added to high frequency contents.
  • the sine mode is an efficient encoding technique for a signal having a strong periodicity or a signal having a tone component, and may encode sign, amplitude, and position information for each sine wave component.
  • a predetermined number for example, 10 MDCT coefficients may be encoded for each layer.
  • FIG. 1 schematically illustrates an example of an encoder configuration that may be used when an ultra-wideband signal is processed by a band extension method.
  • an encoder structure of a G.718 Annex B scalable extension to which a sine mode is applied will be described as an example.
  • the encoder of FIG. 1 is composed of a generic mode and a sign mode for SWB extension, and when an additional bit is allocated, the encoder mode can be used by extending the sign mode.
  • the encoder 100 includes a down sampling unit 105, a WB core 110, a transformer 115, a tonality estimator 120, and a SWB (Super Wide Band). ) Includes an encoder 150.
  • the SWB encoder 150 includes a tonality determination unit 125, a generic mode unit 130, a sine wave mode unit 135, and additional sine wave units 140 and 145.
  • the down sampling unit 105 down-samples the input signal to generate a WB signal that can be processed by a core encoder.
  • SWB encoding is performed in the MDCT domain.
  • the WB core 110 MDCTs the synthesized WB signal by encoding the WB signal, and outputs MDCT coefficients.
  • MDCT Modified Discrete Cosine Transform
  • Input signal in the windowed time domain Is a symmetric window function.
  • the converter 115 MDCTs the SWB signal, and the tonality estimator 120 estimates the tonality of the MDCT signal. Whether to select the generic mode or the sine mode can be determined based on the tonality.
  • Tonal degree estimation may be performed based on a correlation analysis between spectral peaks in a current frame and a past frame.
  • the tonality estimation unit 120 outputs a tonality estimation value to the tonality determination unit 125.
  • the tonal degree determining unit 125 determines whether the MDCT-converted signal is tonal based on the tonality, and transmits it to the generic mode unit 130 and the sine wave mode unit 135. For example, the tonal degree determination unit 125 may determine whether the MDCT-converted signal is a tonal signal or a non-tonal signal by comparing the tonal degree estimation value input from the tonal degree estimator 120 with a predetermined reference value.
  • the SWB encoder 150 processes the MDCT coefficients of the MDCT SWB signal.
  • the SWB encoder 130 may process the MDCT coefficients of the SWB signal by using the MDCT coefficients of the synthesized WB signal input through the core encoder 110.
  • the signal is transmitted to the generic mode unit 130, and when it is determined to be tonal, the signal is transmitted to the sine wave mode unit 135. .
  • the generic mode may be used when it is determined that the input frame is not tonal.
  • the generic mode unit 130 may directly transpose the low frequency spectrum to high frequencies and parameterize it to follow the envelope of the original high frequency. At this time, the parameterization can be made more coarsely than the case of the original high frequency.
  • high frequency content can be coded at a low bit rate.
  • the high frequency band is divided into sub-bands, and according to a predetermined similarity criterion, the one that is most similarly matched among coded and block normalized broadband contents is selected.
  • the selected contents are scaled and output as synthesized high frequency content.
  • the sinusoidal mode unit 135 may be used when the input frame is tonal. In sine mode, a finite set of sinusoidal components is added to the high frequency (HF) spectrum to generate a SWB signal. At this time, the HF spectrum is generated using the MDCT coefficients of the SW synthesis signal.
  • HF high frequency
  • the sine wave mode may be extended and applied through the additional sine wave units 140 and 145.
  • the additional sine wave units 140 and 145 improve the generated signal by adding additional sine waves to the signal output in the generic mode and the signal output in the sine mode. For example, when additional bits are allocated, the additional sine wave units 140 and 145 determine the additional sine wave (pulse) to transmit and extend the sine mode to quantize to improve the signal.
  • the outputs of the core encoder 110, the tonality degree determiner 125, the generic mode unit 135, the sinusoidal mode unit 140, and the additional sine wave units 145, 150 are decoded into a bit stream. May be sent to the device.
  • FIG. 2 schematically illustrates an example of a decoder configuration that may be used when an ultra-wideband signal is processed by a band extension method.
  • a decoder used for band extension of an ultra wideband signal is described as an example of a decoder of G.718 Annex B SWB scalable extension.
  • the decoder 200 includes a WB decoder 205, a SWB decoder 235, an inverse transformer 240, and an adder 245.
  • the SWB decoder 235 includes a tonality determination unit 210, a generic mode unit 215, a sine wave mode unit 225, and additional sine wave units 220 and 230.
  • the SWB signal is synthesized through the SWB decoder 235 according to parsing information of the bitstream.
  • the WB signals of the frames are synthesized by the WB decoder 205 using SWB parameters.
  • the final SWB signal output from the decoder 200 is the sum of the WB signal output from the WB decoder 205 and the SWB extension signal output through the SWB decoder 235 and the inverse transformer 140.
  • target information to be processed from the bit stream and / or auxiliary information for processing may be input to the WB decoder 205 and the SWB decoder 235.
  • the WB decoder 205 decodes the wideband signal and synthesizes the WB signal.
  • the MDCT transform coefficients of the synthesized WB signal may be input to the SWB decoder 235.
  • the SWB decoder 235 decodes the MDCT of the SWB signal input from the bitstream.
  • the MDCT coefficients of the synthesized WB signal (Synthesized Super Wide Band Signal) input from the WB decoder 205 may be used.
  • the decoding of the SWB signal is mainly performed in the MDCT domain.
  • the tonal degree determination unit 210 may determine whether the MDCT-converted signal is a tonal signal or a non-tonal signal. If it is determined that the MDCT-converted signal is tonal, the SWB extension signal is synthesized by the generic mode unit 215, and when it is determined that the MDCT signal is not tonal, the SWB extension signal (MDCT coefficient) is obtained through the sine wave information in the sine wave mode unit 225. Can be synthesized.
  • the generic mode unit 215 and the sine wave mode unit 225 decode the first layer of the enhancement layer, and the upper layer may be decoded in the additional sine wave units 235 and 230 using additional bits. For example, MDCT coefficients may be synthesized with respect to the layer 7 or the layer 8 by using sine wave information bits of an additional sine wave mode.
  • the synthesized MDCT coefficients may be inversely transformed by the inverse transform unit 240 to generate a SWB extended synthesis signal. At this time, it is synthesized according to the layer information of the additional sine wave block.
  • the adder 245 may add the WB signal output from the WB decoder 205 and the SWB extension synthesis signal output from the inverse transformer 240 to output the SWB signal.
  • the loss when a loss occurs in the process of transmitting the encoded audio information to the decoder, the loss may be restored or concealed through FEC (Forward Error Correction).
  • FEC Forward Error Correction
  • error / loss correction information information (error / loss correction information) that can correct an error or compensate / hid a loss is included in data transmitted from a transmitting (encoder) side or data stored in a storage medium.
  • error / loss correction information parameters of a previous good frame, MDCT coefficients, an encoded / decoded signal, and the like may be used.
  • the SWB bitstream may include a bitstream of the WB signal and the SWB extension signal. Since the bitstream of the WB signal and the bitstream of the SWB extension signal are composed of one packet, if one frame of the audio signal is lost, both the bits of the WB signal and the bits of the SWB extension signal are lost.
  • the FEC decoder outputs the WB signal and the SWB extension signal separately by applying FEC, and then outputs the SWB signal for the lost frame by adding the WB signal and the SWB extension signal, similarly to the decoding operation for the normal frame. can do.
  • the FEC decoder may synthesize MDCT coefficients for the lost current frame using the MDCT coefficients synthesized with tonal information of the normal frame before the current frame.
  • the FEC decoder may inversely convert the synthesized MDCT coefficients to output the SWB extension signal, and may decode the SWB signal for the lost current frame by adding the SWB extension signal and the WB signal.
  • FIG. 3 is a block diagram schematically illustrating an example of a decoder that may be applied when a bitstream containing audio information is lost in a communication environment.
  • FIG. 3 is an example of a decoder capable of decoding a lost frame.
  • an FEC decoder of G.718 Annex B SWB scalable extension will be described as an example of a decoder capable of applying a lost frame.
  • the FEC decoder 300 includes a WB FEC decoder 305, a SWB FEC decoder 330, an inverse transformer 335, and an adder 340.
  • the WB FEC decoder 305 may decode the WB signal of the bitstream.
  • the WB FEC decoder 305 may perform decoding by applying the FEC to the lost WB signal (MDCT coefficient of the WB signal).
  • the WB FEC decoder 305 may restore the MDCT coefficients of the current frame by using the information of the previous frame (normal frame) of the current frame that has been lost.
  • the SWB FEC decoder 330 may decode the SWB extension signal of the bitstream.
  • the SWB FEC decoder 330 may perform decoding by applying the FEC to the lost SWB extension signal (MDCT coefficient of the SWB extension signal).
  • the SWB FEC decoder 330 may include a tonal degree determiner 310 and a replication unit 315, 320, or 325.
  • the tonality determination unit 310 may determine whether the SWV extension signal is tonal.
  • the SWB extension signal (tonal SWB extension signal) determined to be tonal and the SWB extension signal (non-tonal SWB extension signal) determined not to be tonal may be restored through different processes.
  • the tonal SWB extension signal passes through the replica unit 315
  • the non-tonal SWB extension signal passes through the replica unit 320 and then the two signals are combined to be restored by the replica unit 325.
  • the scaling factor applied to the tonal SWB extension signal and the scaling factor applied to the non-tonal SWB extension signal have different values.
  • the scaling factor applied to the SWB extension signal obtained by combining the tonal SWB extension signal and the non-tonal SWB extension signal may be different from the scaling factor applied to the tonal component and the non-tonal component.
  • the SWB FEC decoder 330 may restore an inverse transform target signal (MDCT coefficient of the SWB extension signal) so that an inverse transform (IMDCT) is performed by the inverse transform unit 335 to restore the SWB extension signal.
  • the SWB FEC decoder 330 applies a scaling factor according to the mode of the normal frame before the lost frame (the current frame) to linearly attenuate the signal (MDCT coefficient) of the normal frame to the SWB signal of the lost frame. It is possible to recover the MDCT coefficients for.
  • scaling factors may be applied depending on whether the signal to be restored is a signal in the general mode or the signal in the sinusoidal mode (either a tonal signal or a non-tonal signal).
  • the scaling factor ⁇ FEC may be applied to the generic mode and the scaling factor ⁇ FEC, sin may be applied to the sine wave mode.
  • the MDCT coefficient of the current frame (lost frame) may be restored as shown in Equation 2.
  • Equation 2 Wow Is the synthesized MDCT coefficient, Denotes the magnitude of the MDCT coefficient of the current frame at frequency k of the SWB band. Denotes the magnitude of the MDCT coefficients synthesized in the previous frame and the magnitude of the MDCT coefficient of the previous frame at the frequency k of the SWB band.
  • pos FEC (n) represents a position corresponding to the wave number n in a signal reconstructed by applying FEC.
  • n FEC indicates the number of MDCT coefficients restored by applying the FEC.
  • the MDCT coefficient of the current frame (lost frame) may be restored as in Equation 3.
  • Equation 4 the MDCT coefficients for the SWB extension signal of the lost frame may be restored as shown in Equation 4.
  • the FEC method as described above may exhibit good performance in a communication environment of a small loss rate in which one or two frames are lost in a section of a normal frame. On the contrary, when successive frames are lost (when the loss occurs frequently) or when the loss period is long, the sound quality loss may be apparent in the recovered signal.
  • the present invention adaptively scales using not only the transform coefficients (MDCT coefficients) of one of the normal frames before the current frame (the damaged frame) but also the degree of change of the normal frames before the current frame. Factors can be applied.
  • the present invention may reflect that the MDCT characteristics are different for each band.
  • the scaling factor in consideration of the degree of change of normal frames before the current frame (corrupted frame) may be modified for each band. Therefore, the change in the MDCT coefficient may be reflected in the scaling factor for each band.
  • the present invention can be applied to converting a time axis signal to another axis (for example, frequency axis) signal such as MDCT or Fast Fourier Transform (FFT), FIG. 2 or FIG.
  • axis for example, frequency axis
  • FFT Fast Fourier Transform
  • the method of concealing the frame loss can largely comprise three steps: (i) to (iii): (i) determining whether a received frame is lost, (ii) If a loss occurs in the received frame, recovering the transform coefficient for the lost frame from the transform coefficients for the previous normal frames, and (iii) inverse transforming the recovered transform coefficient.
  • the transform for the previous frames (n-1 th frame, n-2 th frame, ..., nN th frame)
  • the transform coefficient for the nth frame may be restored from the transform coefficients stored as the coefficient.
  • N means the number of frames used in the loss concealment process.
  • the frame loss can then be concealed by inverse transform (IMDCT) the transform coefficient (MDCT coefficient) for the reconstructed nth frame.
  • the attenuation constant (scaling factor) may be different for each variable.
  • the presence or absence of tonal components of the normal frames may be calculated from previous normal frames, and the attenuation constant may be changed according to the presence or absence of the tonal components.
  • correlation information of sine wave pulses (MDCT coefficients) in previous frames may be used to derive an attenuation constant to be used to restore a transform coefficient of a lost frame.
  • energy information of transform coefficients (MDCT coefficients) for previous normal frames may be estimated to derive an attenuation constant to be used to recover the transform coefficient of the lost frame.
  • the reconstructed transform coefficients, the tonal information of each band, and the attenuation constant may be stored for loss reconstruction (hiding) for the case where the loss of the frame is continuous.
  • the method of concealing the loss can largely comprise two steps: (a) and (b): For example, determining whether successive frames have been lost, and (b) if successive frames are lost, use the transform coefficients of previous normal frames (lossless frames) to generate an excitation signal for successive lost frames ( Restoring the MDCT coefficients.
  • the additional attenuation constant (scaling factor) to be applied for each band may vary depending on the presence or absence of the tonal component for each band or the strength of the tonal component.
  • FIG. 4 is a block diagram schematically illustrating an example of a decoder applied to conceal frame loss according to the present invention.
  • the decoder 400 includes a frame loss determiner 405 for the WB signal, a frame loss concealment unit 410 for the WB signal, a decoder 415 for the WB signal, and a frame for the SWB signal.
  • the loss determiner 420, the SWB signal decoder 425, the frame loss concealment unit 430 of the SWB signal, the frame back-up unit 435, the inverse transformer 440, and the adder 445 are included.
  • the frame loss determiner 405 determines whether a frame is lost for the WB signal.
  • the frame loss determiner 420 determines whether a frame is lost for the SWB signal.
  • the frame loss determination unit 405 or 420 may also determine whether the loss occurs in a single frame or in successive frames.
  • the decoder 400 may include one frame loss unit, and the frame loss unit may determine both the frame loss for the WB signal and the frame loss for the SWB signal.
  • the determination result may be applied to the SWB signal, and the frame loss for the SWB signal may be determined. The result can also be applied to the WB signal.
  • the frame loss concealment unit 410 conceals frame loss.
  • the frame loss concealment unit 410 may restore the information of the frame (current prem) in which the loss occurs based on the previous normal frame information.
  • the WB decoder 415 may perform decoding of the WB signal.
  • Signals decoded or reconstructed with respect to the WB signal may be transferred to the SWB decoder 425 for decoding or reconstructing the SWB signal.
  • the signals decoded or reconstructed with respect to the WB signal may be transferred to the adder 445 and used to synthesize the SWB signal.
  • the SWB decoder 425 may decode the SWB extension signal with respect to the frame of the SWB signal determined that there is no loss. In this case, the SWB decoder 425 may decode the SWB extension signal by using the decoded WB signal.
  • the SWB frame loss concealment unit 430 may restore or conceal the frame loss for the frame of the SWB signal determined to be lost.
  • the SWB frame loss concealment unit 430 may restore the changed coefficient of the current frame using the conversion coefficients of previous normal frames stored in the frame backup unit 435. If there is a loss of successive frames, the SWB frame loss concealment unit 430 may use the information used to recover the transform coefficients of the previous lost frame, as well as the transform coefficients of the lost frames and the transform coefficients of the normal frames. (Eg, tonal information per band, attenuation constant information for each band, etc.) may be used to restore a transform coefficient for a current frame (loss frame).
  • the transform coefficients (MDCT coefficients) reconstructed by the SWB frame loss concealment unit 430 may be inverse transformed (IMDCT) by the inverse transform unit 440.
  • the frame backup unit 435 may store transform coefficients (MDCT coefficients) of the current frame.
  • the frame backup unit 435 may delete the transform coefficients (the transform coefficients of the previous frame) previously stored and store the transform coefficients for the current frame.
  • the transform coefficients for the current frame can be used to conceal the loss if there is a loss in the next frame.
  • the frame backup unit 435 may have N buffers (N is an integer) and store conversion coefficients of the frames.
  • the frame stored in the buffer may be a frame recovered from the normal frame and the loss.
  • the frame backup unit 435 erases the transform coefficients stored in the N-th buffer, shifts the transform coefficients of the frames stored in each buffer one by one to the next buffer, and then converts the transform coefficients for the current frame into the first buffer. You can save them.
  • the number N of buffers may be determined in consideration of the performance of the decoder, the audio quality, and the like.
  • the inverse transform unit 440 may generate the SWB extension signal by inversely transforming the transform coefficient decoded by the SWB decoder 425 and the transform coefficient reconstructed by the SWB frame loss concealment unit 430.
  • the adder 445 may output the SWB signal by adding the WB signal and the SWB extension signal.
  • FIG. 5 is a block diagram schematically illustrating an example of a frame loss concealment unit according to the present invention.
  • the frame loss concealment unit for the case where a single frame is lost will be described as an example.
  • the frame loss concealment unit may restore the transform coefficients of the lost frame using the information on the transform coefficients of the previous normal frame stored in the frame backup unit as described above.
  • the frame loss concealment unit 500 includes a band divider 505, a tonal component presence determiner 510, a correlation calculator 515, an attenuation constant calculator 520, and an energy.
  • the calculator 525 includes an energy predictor 530, an attenuation constant calculator 535, and a lost frame transform coefficient recovery unit 540.
  • the MDCT coefficients can be restored in consideration of the characteristics of the band-specific MDCT coefficients. Specifically, in the frame loss / hidden according to the present invention, by applying a different change rate (attenuation constant) for each band, the MDCT coefficient for the lost frame can be restored.
  • the band divider 505 groups the transform coefficients of the previous normal frame stored in the buffer into M bands (M groups).
  • the band dividing unit 505 has the effect of splitting the transform coefficients of the normal frame for each frequency band by allowing consecutive transform coefficients to belong to one band when grouping. For example, M groups become M bands.
  • the tonal component determination unit 510 analyzes the energy correlation of spectral peaks in a log domain using the transform coefficients stored in the N buffers (1st to Nth buffers) to determine the tonality of the transform coefficients. It can be calculated for each band. That is, the tonal component presence determining unit 510 may determine the presence or absence of the tonal component for each band by calculating the tonal degree for each band. For example, when the lost frame is the n th frame, tonal for M bands of the n th frame (loss frame) using the transform coefficients of the previous frames (n-1 th frame to nN th frame) stored in the N buffers. The degree can be derived.
  • bands with many tonal components may be restored using the attenuation constant derived through the correlation calculator 515 and the attenuation constant calculator 520.
  • bands having no or no tonal component are attenuated by the attenuation constants derived by the energy calculator 525, the energy predictor 530, and the attenuation constant calculator 535. Can be restored.
  • the correlation calculator 515 for transform coefficients of the lossless frame may calculate a correlation for the band (eg, the m-th band) determined as tonal by the tonal component determination unit 510. That is, the correlation calculator 515 may determine the consecutive normal frames (n ⁇ 1 th frame,..., NN th frame) before the current frame (loss frame), which is the n th frame, in the band where the tonal component exists. By measuring the correlation of the position between the pulses of the correlation can be determined.
  • correlation determination may be performed under the assumption that the position of the pulse (MDCT coefficient) is located between ⁇ L from an important MDCT coefficient or a large MDCT coefficient.
  • the attenuation constant calculator 520 may adaptively calculate the attenuation constant for the band having a large tonal component based on the correlation calculated by the correlation calculator 515.
  • the energy calculator 525 for the frames of the lossless frame may calculate energy for a band having no or no tonal component.
  • the energy calculator 525 may calculate energy for each band for the normal frames before the current frame (loss frame). For example, if the current frame (loss frame) is the n-th frame and information about the N previous frames is stored in the N buffers, the energy calculator 525 may perform the n-1 th frame to the nN th frame. Energy may be calculated for each frame for each band.
  • the bands for which energy is calculated may be bands belonging to bands in which the tonal component presence or absence determination unit 510 determines that there is no tonal component.
  • the energy predictor 606 may estimate the energy of the current frame (loss frame) based on the energy of each band calculated by the energy calculator 525 for each frame.
  • the attenuation constant calculator 535 may derive attenuation constant for a band having no or no tonal component based on the predicted energy value calculated by the energy predictor 530.
  • the attenuation constant calculator 520 may derive the attenuation constant based on the correlation between the transform coefficients of the lossless frames calculated by the correlation calculator 515.
  • the attenuation constant may be derived based on a ratio between the energy of the current frame (loss frame) predicted by the energy predictor 530 and the energy of the previous normal frame.
  • the ratio between the energy predicted by the energy of the nth frame and the energy of the n-1th frame (energy of the n-1th frame / energy of the nth frame) Prediction value) can be derived as an attenuation constant to be applied to the nth frame.
  • the transform coefficient recovery unit 540 of the lost frame converts the current frame (loss frame) using the attenuation constant (scaling factor) calculated by the attenuation constant calculators 520 and 535 and the transform coefficients of the normal frame before the current frame. Can be restored.
  • FIG. 6 is a flowchart schematically illustrating an example of a method of concealing / recovering frame loss in a decoder according to the present invention.
  • a frame loss concealment method applied when a single frame is lost will be described as an example. 6 may be performed by an audio signal decoder or a specific operation unit within the decoder. For example, referring to FIG. 5, the operation of FIG. 6 may be performed by the frame loss concealment unit of FIG. 5. However, for the convenience of description, it is described here that the decoder performs the operation of FIG. 6.
  • the decoder receives a frame including an audio signal (S600).
  • the decoder determines whether there is a frame loss (S605).
  • SWB decoding may be performed through the SWB decoding unit (S650). If it is determined that there is a frame loss, the decoder performs frame loss concealment.
  • the decoder takes the transform coefficients for the previous normal frame stored from the frame backup buffer (S615) and divides them into M bands (M is an integer) (S610). .
  • M is an integer
  • the decoder determines whether tonal components of the lossless frames (normal frames) (S620). For example, when the current frame (lost frame) is the nth frame, the decoder is n-1th frame, n-2nd frame,..., Previous frames of the current frame. Using the transform coefficients grouped into M bands of the n-N-th frames, it is possible to determine the degree of tonal component for each band. In this case, N is the number of buffers that store the transform coefficients of the previous frame, and when the number of buffers is N, the transform coefficients for the N frames may be stored.
  • the degree of tonality may be determined differently for each band, and attenuation constants for each band may be derived using different methods according to the degree of tonality.
  • a correlation between transform coefficients of a lossless frame (normal frame) may be calculated (S625), and attenuation constant may be calculated based on the calculated correlation (S630).
  • the decoder may calculate a correlation between transform coefficients of a lossless frame (normal frame) using a signal obtained by band-splitting the transform coefficients (MDCT coefficients) stored in the frame backup buffer (S625).
  • the calculation of the correlation may be performed only for the band determined to have a tonal component in step S620.
  • Calculating the correlation of the transform coefficients is to measure the harmonics having a high continuity in a band with a strong tonality (tonality), the sine wave (sinusoild) pulse of the transform coefficient in successive normal frames Take advantage of the fact that the position does not change significantly.
  • the correlation between the sine wave pulses of consecutive normal frames may be measured to calculate the correlation for each band.
  • K transform coefficients having a large magnitude (large absolute value) may be selected as a sine wave pulse for calculating a correlation.
  • W m represents a weight for the m th band.
  • W 1 ⁇ W 2 ⁇ W 3 ... Relationship can be established.
  • W m may have a value greater than 1. Therefore, Equation 5 can be applied even when the signal increases for each frame.
  • N i, n-1 represents the i-th sine wave pulse of the n-1 th frame
  • N i, n-2 represents the i-th sine wave pulse of the n-2 th frame.
  • Equation 5 has been described in which only two normal frames (n-1 th normal frame and n-2 th normal frame) before the current frame (loss frame) are considered.
  • FIG. 7 is a diagram schematically illustrating inducing a correlation in accordance with the present invention.
  • band 1 and band 2 are bands in which tonality exists.
  • the correlation may be calculated by Equation 5.
  • the decoder may calculate an attenuation constant based on the calculated correlation (S630). Since the maximum value of the correlation is less than 1, the decoder may derive the correlation per band as an attenuation constant. That is, the decoder may use the correlation for each band as an attenuation constant.
  • the attenuation constant may be adaptively calculated according to the correlation between the pulses calculated for the band having tonality.
  • the decoder calculates the energy of the lossless frame (normal frame) transform coefficients (S635) and predicts the energy of the n th frame (the current frame, the lost frame) based on the calculated energy.
  • the attenuation constant may be calculated using the energy of the predicted lost frame and the energy of the normal frame.
  • the decoder may calculate energy for each band for normal frames before the current frame (loss frame) (S635). For example, if the current frame is the n th frame, the n-1 th frame, the n-2 th frame,... For example, the energy value for each band may be calculated for the n-N (N is the number of buffers) frames.
  • the decoder may predict the energy of the current frame (loss frame) based on the calculated energies of the normal frame (S640). For example, the energy of the current frame may be estimated in consideration of the amount of energy change per frame in the previous normal frames.
  • the decoder may calculate an attenuation constant using the ratio of energy between frames (S645). For example, the decoder may calculate an attenuation constant through the ratio between the predicted energy of the current frame (n th frame) and the energy of the previous frame (n ⁇ 1 th frame). If the predicted energy of the current frame is E n, pred and the energy of the previous frame of the current frame is E n-1 , the attenuation constant for the band with little or no tonality of the current frame is E n, pred / E n Can be -1 .
  • the decoder may restore the transform coefficient of the current frame (loss frame) using the attenuation constant calculated for each band (S660).
  • the decoder may restore the transform coefficient of the current frame by multiplying the attenuation constant calculated for each band by the transform coefficient of the normal frame before the current frame. In this case, since the attenuation constant is derived for each band, the attenuation constant is multiplied by the transform coefficients of the corresponding band among the bands formed of the transform coefficients of the normal frame.
  • the decoder may multiply the attenuation constant for the k th band by the k th band transform coefficients of the n ⁇ 1 th frame to derive the transform coefficients of the k th band of the n th frame (the lost current frame) ( k, n are integers).
  • the decoder may reconstruct the transform coefficients of the n th frame (the current frame) for the entire band by multiplying corresponding attenuation constants for each band of the n ⁇ 1 th frame.
  • the decoder may inversely transform the reconstructed transform coefficients and the decoded transform coefficients to output the SWB extension signal (S665).
  • the decoder can output the SWB extension signal by inversely transforming the transform coefficients (MDCT coefficients).
  • the decoder may output the SWB signal by adding the SWB extension signal and the WB signal.
  • information such as a transform coefficient restored in S660, tonal component presence information determined in S620, and attenuation constants calculated in S630 and S645 may be stored in the frame backup buffer (S655).
  • the stored transform coefficients can be used to recover the transform coefficients of the lost frame in the event that subsequent frames are lost. For example, if the successive frames are lost, the decoder performs restoration on the successive lost frames by using the reconstruction information stored in the previous frame (transformation coefficient reconstructed from the previous frame, tonal component information of previous frames, attenuation constant, etc.). can do.
  • FIG. 8 is a flowchart schematically illustrating another example of a method of concealing / recovering frame loss in a decoder according to the present invention.
  • a frame loss concealment method applied when the consecutive frames are lost will be described as an example. 8 may be performed by an audio signal decoder or a specific operation unit within the decoder. For example, referring to FIG. 5, the operation of FIG. 8 may be performed by the frame loss concealment unit of FIG. 5. However, for the convenience of description, it is described here that the decoder performs the operation of FIG. 8.
  • the decoder determines whether there is a frame loss with respect to the current frame (S800).
  • the decoder determines whether successive frames are lost (S810). If the current frame is lost, the decoder may determine whether the previous frame is also lost, and determine whether subsequent frames will be lost.
  • the decoder may proceed in the band division step S610 and subsequent steps described with reference to FIG. 6 in order.
  • the decoder may obtain information from the frame backup buffer (S820) and divide the M into M bands (M is an integer) (S830). Band segmentation performed in S830 is also as described above. However, unlike the case of a single frame loss in which the transform coefficients in the previous normal frame are divided into M bands, in S830, the transform coefficients reconstructed in the previous lost frame are divided into M bands.
  • the decoder determines whether a tonal component is present in a previous frame (restored frame) (S840). For example, when the current frame (loss frame) is the n-th frame, the decoder uses the transform coefficients grouped into M bands of the n-1 th frame, which is the lost frame, as the previous frame of the current frame to determine which tonal component for each band. You can judge the degree.
  • the degree of tonality may be determined differently for each band, and the attenuation constant for each band may be derived according to the degree of tonality.
  • the decoder may induce an attenuation constant to be applied to the current frame by applying an additional attenuation factor to the attenuation constant of the previous frame (S850).
  • the initial attenuation constant for the first frame loss is ⁇ 1
  • the additional attenuation constant for the second frame loss is ⁇ 2.
  • the additional attenuation constant for the q th frame loss is ⁇ q
  • the additional attenuation constant for the p th frame loss can be determined by [lambda] p (p and q are integers, q ⁇ p).
  • the attenuation constant applied to the qth of the lost frames may be derived from the product of these initial attenuation constants and / or further attenuation constants.
  • a large additional attenuation may be applied to a band having a strong tonal degree, and a small additional attenuation may be applied to a band having a weak tonal degree. Therefore, when the tonal degree of the band is large, the additional attenuation may be increased.
  • the additional attenuation constant ⁇ r, strong tonality of the band with the strong tonality is greater than the additional attenuation constant ⁇ r, weak tonality with the weaker tonality , as shown in Equation 6. Or the same value.
  • the initial attenuation constant for the first frame loss is set to 1
  • the additional attenuation constant is set to 0.9 for the second frame loss
  • the additional attenuation constant is 0.7 for the third frame loss.
  • the attenuation constant can be set to 1 for the first frame loss, the additional attenuation constant to 0.95 for the second frame loss, and 0.85 for the third frame loss. have.
  • the additional attenuation constant can be set differently depending on whether the tonal level is strong or the tonal level is weak, but the initial attenuation constant for the first frame loss is set differently depending on whether the tonal level is strong or the tonal level is weak. It may be set or may be set regardless of the tonality of the band.
  • the decoder may restore the transform coefficient of the current frame by applying the derived attenuation constant to the band of the previous frame (S860).
  • the decoder may apply the attenuation constant derived for each band to the corresponding band of the previous frame (the restored frame). For example, if the current frame is the nth frame (loss frame) and the n-1th frame is the reconstruction frame, the decoder configures the kth band of the reconstruction frame (n-1th frame) with an attenuation constant for the kth band.
  • the conversion coefficients constituting the k-th band of the current frame (n-th frame) may be obtained by multiplying the transform coefficients.
  • the decoder may reconstruct the transform coefficients of the n th frame (the current frame) for the entire band by multiplying corresponding attenuation constants for each band of the n ⁇ 1 th frame.
  • the decoder may inverse transform the reconstructed transform coefficients (S880).
  • the decoder may generate an SWB extension signal by performing inverse transform (IMDCT) on the recovered transform coefficients (MDCT coefficients), and output the SWB signal by adding the WB signal.
  • IMDCT inverse transform
  • FIG. 8 illustrates that the initial decay constant and the additional decay constant are set according to the tonal degree, the present invention is not limited thereto.
  • At least one of an initial attenuation constant and an additional attenuation constant may be derived depending on the degree of tonality.
  • the decoder may calculate an attenuation constant as described in S625 and S630 based on a correlation between the transform coefficients of the normal frame and the reconstructed frame stored in the frame backup buffer for the tonal level band.
  • h frames h is an integer
  • the current frame is the h th frame among the lost frames
  • the decay constant becomes the initial decay constant, and the decay constants from the second reconstruction frame to the current frame become additional decay constants.
  • the attenuation constant of the band having a strong tonality for the current frame may be derived as the product of the attenuation constants for the previous h-1 consecutive reconstructed frames and the decay constant derived for the current frame, as shown in Equation 7.
  • Equation 7 current Is the attenuation constant applied to the previous reconstruction frame to derive the transform coefficient of the current frame, ts1 Is the attenuation constant for the first frame loss for h consecutive frame losses, ⁇ ts2 Is the attenuation constant for the second frame loss, ⁇ tsh Is an attenuation constant derived based on the correlation with previous frames for the current frame. Attenuation constants may be derived for each band for a band having a strong tonal degree.
  • the decoder may calculate an attenuation constant as described in S635 to S645 based on the energy of the transform coefficients of the normal frame and the reconstructed frame stored in the frame backup buffer for a band having a weak tonality.
  • h frames h is an integer
  • the current frame is the h th frame among the lost frames
  • the decay constant becomes the initial decay constant, and the decay constants from the second reconstruction frame to the current frame become additional decay constants.
  • the attenuation constant of the band having a weak tonality for the current frame may be derived as a product of the attenuation constants for the previous h-1 consecutive reconstructed frames and the attenuation constant derived for the current frame, as shown in Equation 8.
  • Equation 7 current Is the attenuation constant applied to the previous reconstruction frame to derive the transform coefficient of the current frame, tw1 Is the attenuation constant for the first frame loss for h consecutive frame losses, ⁇ tw2 Is the attenuation constant for the second frame loss, ⁇ twh Is an attenuation constant derived based on the correlation with previous frames for the current frame. Attenuation constants may be derived for each band for a band having a weaker tonality.
  • 9 is a flowchart schematically illustrating an example of a frame loss recovery (hidden) method according to the present invention. 9 may be performed by the decoder or may be performed by the frame loss concealment unit within the decoder. For convenience of description, the decoder performs the operation of FIG. 9.
  • the decoder groups transform coefficients of at least one frame among previous frames of the current frame into a predetermined number of bands (S910).
  • the current frame may be a lost frame
  • previous frames of the current frame may be normal frames or reconstructed frames stored in the frame backup buffer.
  • the decoder may derive an attenuation constant according to the tonal degree of the grouped bands (S920).
  • the attenuation constant may be derived based on transform coefficients of N normal frames (N is an integer) before the current frame, and N may be the number of buffers that store information of the previous frame.
  • the attenuation constant may be derived based on the correlation between the transform coefficients of the previous normal frames. Can be derived based on energies.
  • the attenuation constant may be derived based on the transform coefficients of the N normal frames and the reconstructed frames before the current frame (N is an integer), and N may be the number of buffers that store information of the previous frame.
  • the attenuation constant may be derived based on the correlation between the transform coefficients of the previous normal frames and the reconstructed frames in a band with a high tonal degree of the transform coefficient. It may be derived based on the energies for frames and reconstructed frames.
  • the decoder may restore the transform coefficients of the current frame by applying an attenuation constant to the previous frame of the current frame (S930).
  • the transform coefficient of the current frame may be restored to a value obtained by multiplying the transform coefficient of each band of the previous frame by the attenuation constant derived for each band.
  • the previous frame of the current frame is a reconstructed frame, that is, when successive frames are lost, the conversion coefficient of the current frame may be reconstructed by applying the attenuation constant of the current frame to the attenuation constant of the previous frame.
  • FIG. 10 is a flowchart schematically illustrating an example of an audio decoding method according to the present invention. The operation of FIG. 10 may be performed in the decoder.
  • the decoder may determine whether a current frame is lost (S1010).
  • the decoder may restore the transform coefficient of the current frame based on the transform coefficients of previous frames of the current frame (S1020). In this case, the decoder may restore the transform coefficients of the current frame based on the tonal degree for each band of the transform coefficients of at least one of the previous frames.
  • Restoration of the transform coefficient groups the transform coefficients of at least one of the previous frames of the current frame into a predetermined number of bands, derives attenuation constants according to the tonality of the grouped bands, and attenuation constants in the previous frame of the current frame. Can be performed by applying.
  • the conversion coefficient of the current frame may be reconstructed by applying the attenuation constant of the current frame to the attenuation constant of the previous frame, for a band having a strong tonal component
  • the additionally applied attenuation constant may be less than or equal to the additionally applied attenuation constant for the band where the tonal component is weak.
  • the decoder may inverse transform the reconstructed transform coefficients (S1030).
  • the decoder may generate the SWB extension signal through the inverse transform (IMDCT) when the restored transform coefficient (MDCT coefficient) is for the SWB, and output the SWB signal in combination with the WB signal.
  • IMDCT inverse transform
  • tonal components there are three tonal components, many tonal components, and three tonal degrees, which means that there are more tonal components than a predetermined reference value, and there are no tonal components, no or less tonal components, and tonal. All three expressions (less or less) mean that the tonal component is less than a predetermined reference value.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치에 관한 것으로서, 본 발명에 따른 오디오 신호의 프레임 손실 복원 방법은 현재 프레임의 이전 프레임들 중 적어도 한 프레임의 변환 계수들을 소정 개수의 대역들로 그룹핑하는 단계, 그룹핑된 대역들의 토널 정도에 따라서 감쇄 상수를 유도하는 단계 및 현재 프레임의 이전 프레임에 감쇄 상수를 적용하여 현재 프레임의 변환 계수를 복원하는 단계를 포함한다.

Description

손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치
본 발명은 오디오(audio) 신호의 부호화 및 복호화에 관한 것으로서, 구체적으로 오디오 신호의 복호화 과정에서 손실을 복구하는 방법 및 장치에 관한 것이다.
더 구체적으로, 본 발명은 디지털 통신 환경에서 음성 및 오디오 부호화기로부터의 비트스트림이 손실되었을 경우에 대한 복원 발명과 이를 이용하는 장치에 관한 것이다.
일반적으로, 오디오 신호는 다양한 주파수의 신호가 포함되어 있고, 사람의 가청 주파수는, 20Hz-20kHz인데 비해, 보통 사람의 음성은 약 200Hz-3kHz 영역에 존재한다. 입력 오디오 신호는 사람의 음성이 존재하는 대역뿐만 아니라, 사람의 음성이 존재하기 어려운 7kHz 이상의 고주파 영역의 성분까지 포함하는 경우가 있다.
최근 네트워크의 발달과 고품질 서비스에 대한 사용자 요구가 증가하고 있으며, 협대역(Narrow Band: NB, 이하 ‘NB’라 함), 광대역(Wide Band: WB, 이하 ‘WB’라 함), 초광대역(Super Wide Band: SWB, 이하 ‘SWB’라 함)과 같이 폭넓은 대역을 통해 오디오 신호를 전송하고 있다.
이와 관련하여 WB(샘플링 레이트(sampling rate)가 ~ 약 16 kHz) 의 신호에 대해서, NB(샘플링 레이트가 ~ 약 8 kHz)에 적합한 부호화 방식을 적용하게 되면, 음질의 열화가 발생되는 문제점이 있다.
또한 SWB(샘플링 레이트가 ~ 약 32 kHz)의 신호에 대해서 NB(샘플링 레이트가 ~ 약 8 kHz)에 적합한 부호화 방식이나 WB(샘플링 레이트(sampling rate)가 ~ 약 16 kHz) 에 적합한 부호화 방식을 적용하게 되면 음질의 열화가 발생되는 문제점이 있다.
따라서, NB부터 WB 또는 SWB에 이르는 다양한 대역에 대하여, 혹은 다양한 대역 사이에서 통신 환경을 포함하는 다양한 환경에서 사용 가능한 음성 및 오디오 부호화 장치/복호화 장치에 관한 개발이 진행되고 있다.
한편, 음성 신호의 부호화 과정 혹은 부호화된 정보의 전송 과정에서는 정보의 손실이 발생할 수 있다. 이 경우, 복호화 과정에서는, 손실된 정보의 복원 혹은 은닉을 위한 프로세스가 수행될 수 있다. 상술한 바와 같이, 대역별로 최적화된 부호화/복호화 방법이 사용되는 있는 상황에서, SWB 신호에 손실이 발생하는 경우에는 WB의 손실에 대처하는 방법과는 다른 방법으로 손실을 복원하거나 은닉할 필요가 있다.
본 발명은 손실된 현재 프레임의 MDCT 계수를 복원하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은 추가적인 지연이 없는 손실 복구 방법으로서 현재 프레임 이전의 정상 프레임들 간의 상관 관계를 통해 현재 프레임의 MDCT 계수를 복원하기 위한 스케일링 계수(감쇄 상수)들을 대역별로 적응적으로 구하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은, 손실된 현재 프레임의 바로 이전 프레임뿐만 아니라 현재 프레임 이전 복수 개의 정상 프레임을 이용하여 감쇄 상수를 적응적으로 산출하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은, 대역별 특징을 반영하여 감쇄 상수를 적용하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은, 현재 프레임 이전 소정 개수의 정상 프레임들을 기반으로 대역별 토널 정도에 따라 감쇄 상수를 유도하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은, 손실된 현재 프레임 이전 정상 프레임들의 변환 계수 특성을 반영하여 현재 프레임을 복원하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은, 연속된 프레임 손실이 있는 경우에도, 단순히 선행 감쇄를 전제로 프레임 복원을 수행하는 것이 아니라, 단일 프레임 손실에 적용하기 위해 유도된 감쇄 상수 및/또는 연속 프레임 손실에 적용하기 위해 유도된 감쇄 상수를 이전 프레임의 복원된 변환 계수에 적용함으로써 효과적으로 신호를 복원하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명의 일 실시형태는 오디오 신호의 프레임 손실 복원 방법으로서, 현재 프레임의 이전 프레임들 중 적어도 한 프레임의 변환 계수들을 소정 개수의 대역들로 그룹핑하는 단계, 그룹핑된 대역들의 토널 정도에 따라서 감쇄 상수를 유도하는 단계 및 현재 프레임의 이전 프레임에 감쇄 상수를 적용하여 현재 프레임의 변환 계수를 복원하는 단계를 포함한다.
본 발명의 다른 실시형태는 오디오 복호화 방법으로서, 현재 프레임의 손실 여부를 판단하는 단계, 현재 프레임이 손실된 경우에 현재 프레임의 이전 프레임들의 변환 계수들을 기반으로 현재 프레임의 변환 계수를 복원하는 단계 및 복원된 변환 계수를 역변환하는 단계를 포함하며, 변환 계수를 복원하는 단계에서는 이전 프레임들 중 적어도 한 프레임의 변환 계수들의 대역별 토널 정도를 기반으로 현재 프레임의 변환 계수를 복원할 수 있다.
본 발명에 의하면, 손실된 현재 프레임의 바로 이전 프레임뿐만 아니라 현재 프레임 이전 복수 개의 정상 프레임을 이용하여 감쇄 상수를 적응적으로 산출함으로써, 복원 효과를 크게 높일 수 있다.
본 발명에 의하면, 대역별 특징을 반영하여 감쇄 상수를 적용함으로써 대역별 특성이 반영된 복원 효과를 얻을 수 있다.
본 발명에 의하면, 현재 프레임 이전 소정 개수의 정상 프레임들을 기반으로 대역별 토널 정도에 따라 감쇄 상수를 유도할 수 있으므로, 대역 특성을 고려하여 감쇄 상수를 적응적으로 적용할 수 있다.
본 발명에 의하면, 손실된 현재 프레임 이전 정상 프레임들의 변환 계수 특성을 반영하여 현재 프레임을 복원할 수 있으므로 복원 성능을 향상 시킬 수 있다.
본 발명에 의하면, 연속된 프레임 손실이 있는 경우에도, 단순히 선행 감쇄를 전제로 프레임 복원을 수행하는 것이 아니라, 단일 프레임 손실에 적용하기 위해 유도된 감쇄 상수 및/또는 연속 프레임 손실에 적용하기 위해 유도된 감쇄 상수를 이전 프레임의 복원된 변환 계수에 적용함으로써 더 효과적으로 신호를 복원할 수 있다.
도 1은 초광대역 신호를 대역 확장 방법으로 처리하는 경우에 이용할 수 있는 부호화기 구성의 일 예를 개략적으로 나타낸 것이다.
도 2는 초광대역 신호를 대역 확장 방법으로 처리하는 경우에 이용할 수 있는 복호화기 구성의 일 예를 개략적으로 나타낸 것이다.
도 3은 통신 환경에서 오디오 정보를 담은 비트스트림이 유실되는 경우에 적용될 수 있는 복호화기의 일 예를 개략적으로 설명하는 블록도이다.
도 4는 본 발명에 따라서 프레임 손실을 은닉하는데 적용되는 복호화기의 일 예를 개략적으로 설명하는 블록도이다.
도 5는 본 발명에 따른 프레임 손실 은닉부의 일 예를 개략적으로 설명하는 블록도이다.
도 6은 본 발명에 따라 복호화기에서 프레임 손실을 은닉/복원하는 방법의 일 예를 개략적으로 설명하는 순서도이다.
도 7은 본 발명에 따라서 상관도를 유도하는 것을 개략적으로 설명하는 도면이다.
도 8은 본 발명에 따라 복호화기에서 프레임 손실을 은닉/복원하는 방법의 다른 예를 개략적으로 설명하는 순서도이다.
도 9는 본 발명에 따른 프레임 손실 복원(은닉) 방법의 일 예를 개략적으로 설명하는 순서도이다.
도 10은 본 발명에 따른 오디오 복호화 방법의 일 예를 개략적으로 설명하는 순서도이다.
이하, 도면을 참조하여, 본 발명의 실시형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어서, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 설명을 생략할 수도 있다.
어떤 구성 요소가 다른 구성 요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성 단위로 이루어짐을 의미하지 않는다. 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있다.
네트워크의 발달과 고품질 서비스에 대한 요구에 대응하여, NB(Narrow Band)부터 WB(Wide Band) 또는 SWB(Super Wide Band)에 이르는 다양한 대역에 대하여 오디오 신호 처리 방법이 연구되고 있다. 예컨대, 음성 및 오디오 부호화/복호화 기술로서, CELP(Code Excited Linear Prediction) 모드, 사인(sinusoidal) 모드 등이 사용될 수 있다.
부호화기는 베이스라인 코더(baseline coder)와 향상 계층(enhancement layer)으로 구분될 수 있다. 향상 계층은 다시 저대역 향상(Lower Band Enhancement: LBE) 계층과 대역 확장(Bandwidth Extension: BWE) 계층 그리고 고대역 향상(Higher Band Enhancement: HBE) 계층으로 나뉠 수 있다.
LBE 계층은 핵심 부호화기(core encoder)/핵심 복호화기(core decoder)로 처리한 음원과 원음과의 차이 신호, 즉 여기 신호(excited signal)를 부호화/복호화함으로써, 저대역의 음질을 향상시킨다. 고대역 신호는 저대역 신호와의 사이에서 유사성을 가지므로, 저대역을 이용한 고대역 확장 방법을 통해 낮은 비트율로 고대역 신호를 복원할 수 있다.
고대역의 신호를 확장하여 부호화하고, 복호화 과정을 거처 복원하는 방법으로서, SWB 신호를 스케일러블하게 확장(scalable extension)하여 처리하는 방법을 고려할 수 있다. SWB 신호를 대역 확장하는 방법은 MDCT(Modified Discrete Cosine Transform) 도메인에서 동작할 수 있다.
확장 계층들은 제네릭 모드(generic mode)와 사인 모드(sinusoidal mode)로 나뉘어 처리될 수 있다. 예컨대, 3 개의 확장 계층이 이용되는 경우에, 첫 번째 확장 계층은 제네릭 모드와 사인 모드로 처리되며, 두 번째 및 세 번째 확장 계층은 사인 모드로 처리되도록 할 수 있다.
본 명세서에서 사인파(sinusoid)는 정현파(sine wave)와 정현파를 반파장만큼 위상 쉬프트(shift)한 여현파(cosine wave)를 모두 포함한다. 따라서, 본 발명에서 사인파(sinusoid)는 정현파(sine wave)를 의미할 수도 있고, 여현파(cosine wave)를 의미할 수도 있다. 입력된 사인파가 여현파인 경우에는 부호화/복호화 과정에서 정현파 또는 여현파로 변환될 수 있으며, 이 변환은 입력 신호가 거치는 변환의 변환 방법에 따른다. 입력되는 사인파가 정현파인 경우에도 부호화/복호화 과정에서 여현파 또는 정현파로 변환될 수 있으며, 이 변환은 입력 신호가 거치는 변환의 변환 방법에 따른다.
제네릭 모드에서, 코딩은 코딩된 광대역(wideband) 시그널 서브 대역의 적응적 복제(replication)에 기반해서 이루어진다. 사인 모드의 코딩에서는 고주파 콘텐츠(high frequency contents)에 사인파가 추가된다.
사인 모드는 주기성이 강한 신호 또는 톤 성분이 있는 신호에 대한 효율적 부호화 기법으로서, 각 사인파 성분에 대해 부호(sign), 크기(amplitude), 위치(position) 정보를 부호화할 수 있다. 각 계층(layer)마다 소정 개수, 예를 들면 10개의 MDCT 계수들을 부호화 할 수 있다.
도 1은 초광대역 신호를 대역 확장 방법으로 처리하는 경우에 이용할 수 있는 부호화기 구성의 일 예를 개략적으로 나타낸 것이다. 도 1에서는 사인 모드가 적용된 G.718 애넥스(annex) B 스케일러블 확장(scalable extension)의 부호화기 구조를 예로서 설명한다.
도 1의 부호화기는 SWB 확장을 위해 제네릭 모드와 사인 모드로 구성되며, 추가적인 비트가 할당될 경우, 사인 모드를 확장하여 사용할 수 있다.
도 1을 참조하면, 부호화기(100)는 다운 샘플링부(105), WB 코어(110), 변환부(115), 토널 정도(tonality, 토널리티) 추정부(120), SWB(Super Wide Band) 부호화부(150)를 포함한다. SWB 부호화부(150)는 토널 정도(tonality) 판단부(125), 제네릭 모드부(130), 사인파 모드부(135), 추가 사인파부(140, 145)를 포함한다.
SWB 신호가 입력되면, 다운 샘플링부(105)는 입력 신호를 다운 샘플링하여 핵심 부호화기(core encoder)가 처리할 수 있는 WB 신호를 생성한다.
SWB 부호화는 MDCT 도메인에서 수행된다. WB 코어(110)는 WB 신호를 부호화하여 합성된 WB 신호를 MDCT 하고, MDCT 계수들을 출력한다.
MDCT(Modified Discrete Cosine Transform)는 시간 영역의 신호를 주파수 영역의 신호로 변환시키는 변환으로서, 중첩 합산(overlap-addition) 방식을 사용하여 원본 신호를 변환 전 신호를 완전 복원(perfect reconstruction) 할 수 있다. 수식 1은 MDCT의 일 예를 나타낸 것이다.
<수식 1>
Figure PCTKR2013008235-appb-I000001
Figure PCTKR2013008235-appb-I000002
는 윈도윙된 시간 영역의 입력 신호
Figure PCTKR2013008235-appb-I000003
는 대칭 윈도우 함수이다.
Figure PCTKR2013008235-appb-I000004
는 N개의 MDCT 계수이다.
Figure PCTKR2013008235-appb-I000005
는 2N 개의 샘플을 가지는 복원된 시간 영역의 입력 신호이다.
변환부(115)는 SWB 신호를 MDCT하며, 토널 정도 추정부(120)가 MDCT된 신호의 토널정도를 추정한다. 제네릭 모드와 사인 모드 중 어떤 모드를 선택할 것인지는 토널 정도(tonality)에 기반해서 판단할 수 있다.
토널 정도 추정은 현재 프레임(current frame)과 과거 프레임(past frame)에서 스펙트럴 피크(spectral peak)들 사이의 상관 분석(correlation analysis)에 기반하여 수행될 수 있다. 토널 정도 추정부(120)은 토널 정도(tonality) 추정값을 토널 정도 판단부(125)로 출력한다.
토널 정도 판단부(125)는 MDCT 변환된 신호가 토널(tonal)인지를 토널 정도(tonality)를 기반으로 판단해서, 제네릭 모드부(130) 및 사인파 모드부(135)에 전달한다. 예컨대, 토널 정도 판단부(125)는 토널 정도 추정부(120)로부터 입력된 토널 정도 추정값을 소정의 기준값과 비교하여 MDCT 변환된 신호가 토널 신호인지 비토널 신호인지를 판단할 수 있다.
도시된 바와 같이, SWB 부호화부(150)는 MDCT된 SWB 신호의 MDCT 계수를 처리한다. 이때, SWB 부호화부(130)는 핵심 부호화기(110)를 거쳐 입력되는 합성 WB 신호의 MDCT 계수를 이용하여 SWB 신호의 MDCT 계수를 처리할 수 있다.
토널 정도 판단부(125)에 의해 MDCT 변환된 신호가 토널이 아니라고 판단된 경우에는 제네릭 모드부(130)로 신호가 전달되고, 토널이라고 판단된 경우에는 사인파 모드부(135)로 신호가 전달된다.
제네릭 모드는 입력 프레임이 토널(tonal)이 아니라고 판단된 경우에 이용될 수 있다. 제네릭 모드부(130)는 저대역 스펙트럼(low frequency spectrum)을 직접 고주파수(high frequency)들로 트랜스포즈(transpose)하고, 원래(original) 고주파수의 포락선(envelope)을 따르도록 파라미터화 할 수 있다. 이때, 파라미터화는 원래 고주파수의 경우보다 더 개략적으로(coarsely) 이루어질 수 있다. 제네릭 모드를 적용함으로써, 고주파 콘텐츠를 낮은 비트율로 코딩할 수 있다.
예컨대, 제네릭 모드에서는 고주파 대역을 부대역(sub-band)로 나누고 소정의 유사성 판단 기준에 따라서, 부호화되고 파락선 정규화된 광대역 콘텐츠들 중에서 가장 유사하게 매치(match)되는 것을 선택한다. 선택된 콘텐츠들은 스케일링된 뒤에 합성된 고주파 컨텐츠로 출력된다.
사인파 모드(sinusoidal mode)부(135)는 입력된 프레임이 토널인 경우에 이용될 수 있다. 사인 모드에서는 사인파 성분들의 유한 집합(finite set)을 HF(High Frequency) 스펙트럼에 더해서 SWB 신호를 생성한다. 이때, HF 스펙트럼은 SW 합성 신호의 MDCT 계수를 이용하여 생성된다.
추가적인 비트가 할당될 경우에는 추가 사인파부(140, 145)를 통해, 사인파 모드를 확장하여 적용할 수 있다.
추가 사인파부(140, 145)에서는 제네릭 모드로 출력된 신호와 사인 모드로 출력된 신호에 추가 사인파를 부가하여 생성 신호를 향상시킨다. 예컨대, 추가 사인파부(140, 145)은 추가 비트가 할당되는 경우에, 전송할 추가 사인파(펄스)를 결정하고, 양자화하는 사인 모드를 확장하여 신호를 개선한다.
한편, 도시된 바와 같이, 핵심 부호화기(110), 토널 정도 판정부(125), 제네릭 모드부(135), 사인파 모드부(140), 추가 사인파부(145, 150)의 출력들은 비트 스트림으로 복호화기에 전송될 수 있다.
도 2는 초광대역 신호를 대역 확장 방법으로 처리하는 경우에 이용할 수 있는 복호화기 구성의 일 예를 개략적으로 나타낸 것이다. 도 2에서는 초광대역 신호의 대역 확장에 사용되는 복호화기의 예로서, G.718 애넥스 B SWB 스케일러블 확장의 복호화기를 예로서 설명한다.
도 2을 참조하면, 복호화기(200)는 WB 디코더(205), SWB 복호화부(235), 역변환부 (240), 가산부(245)를 포함한다. SWB 복호화부(235)는 토널 정도(tonality) 판정부(210), 제네릭 모드부(215), 사인파 모드부(225), 추가 사인파부(220, 230)를 포함한다.
일반적으로 정상 프레임이 입력되면, 비트스트림의 파싱(parsing) 정보에 따라서, SWB 복호화부(235)를 통해서 SWB 신호가 합성된다.
프레임의 WB 신호는 WB 복호화부(205)에서 SWB 파라미터를 이용하여 합성하게 된다.
복호화기(200)에서 출력되는 최종적인 SWB 신호는 WB 복호화부(205)에서 출력되는 WB 신호와, SWB 복호화부(235) 및 역변환부(140)을 거쳐 출력되는 SWB 확장 신호의 합이 된다.
구체적으로, WB 복호화기(205), SWB 복호화긴(235)에는 비트 스트림으로부터 처리할 대상 정보 및/또는 처리를 위한 보조 정보가 입력될 수 있다.
WB 복호화기(205)는 광대역 신호를 복호화하여 WB 신호를 합성한다. 합성된 WB 신호의 MDCT 변환 계수는 SWB 복호화부(235)으로 입력될 수 있다.
SWB 복호화부(235)는 비트스트림으로부터 입력된 SWB 신호의 MDCT를 복호화한다. 이때, WB 복호화기(205)로부터 입력되는 합성된 WB 신호(Synthesized Super Wide Band Signal)의 MDCT 계수를 이용할 수 있다. SWB 신호의 복호화는 주로 MDCT 도메인에서 수행된다.
토널 정도 판정부(210)는 MDCT 변환된 신호가 토널 신호인지 비토널 신호인지를 판단할 수 있다. MDCT 변환된 신호가 토널이라고 판단된 경우에는 제네릭 모드부(215)에서 SWB 확장 신호가 합성되고, 토널이 아니라고 판단된 경우에는 사인파 모드부(225)에서 사인파 정보를 통해 SWB 확장 신호(MDCT 계수)가 합성될 수 있다. 제네릭 모드부(215)와 사인파 모드부(225)는 확장 계층의 첫 번째 계층을 디코딩하며, 상위 계층은 추가 비트를 이용하여 추가 사인파부(235, 230)에서 복호화될 수 있다. 예컨대, 레이어 7이나 레이어 8에 대해서는 추가 사인파 모드의 사인파 정보 비트를 이용하여 MDCT 계수를 합성할 수 있다.
합성된 MDCT 계수들은 역변환부(240)에서 역변환되어 SWB 확장 합성 신호가 생성될 수 있다. 이때, 추가 사인파 블록의 레이어 정보에 따라 합성된다.
가산부(245)는 WB 디코더(205)에서 출력된 WB 신호와 역변환부(240)에서 출력된 SWB 확장 합성 신호를 가산하여 SWB 신호를 출력할 수 있다.
한편, 부호화된 오디오 정보가 복호화기로 전달되는 과정에서 손실이 발생하는 경우 FEC(Forward Error Correction)을 통해 손실을 복원하거나 은닉(concealment)할 수 있다.
정보의 전송 과정에서 오류가 발생한 경우에 수신측에서 정보의 수신 여부를 시그너링하여 송신측으로부터 정보를 재전송 받는 ARQ(Automatic Repeat Request)와 달리, FEC의 경우에는 수신측에서 오류를 정정하거나 손실을 보상/은닉할 수 있다.
구체적으로, FEC의 경우는, 송신(인코더)측에서 전송하는 데이터 혹은 저장 매체에 저장된 데이터에 오류를 정정하거나 손실을 보상/은닉할 수 있는 정보(오류/손실 정정용 정보)가 포함되며, 수신(디코더)측에서는 전송된 데이터 혹은 저장된 데이터의 오류/손실을 오류/손실 정정용 정보를 이용하여 복원할 수 있다. 이때, 오류/손실 정정용 정보로서, 이전 정상 프레임(previous good frame)의 파라미터들, MDCT 계수, 부호화/복호화된 신호 등이 이용될 수 있다.
도 1에서 설명한 바와 같이, SWB 비트스트림은 WB 신호와 SWB 확장 신호의 비트스트림으로 구성될 수 있다. WB 신호의 비트스트림과 SWB 확장 신호의 비트스트림은 하나의 패킷으로 구성되기 때문에, 오디오 신호의 한 프레임이 손실되었다면, WB 신호의 비트와 SWB 확장 신호의 비트가 모두 손실되게 된다.
이 경우, FEC 복호화기는, 정상적인 프레임에 대한 복호화 동작과 유사하게, FEC를 적용하여 WB 신호와 SWB 확장 신호를 따로 출력한 뒤, WB 신호와 SWB 확장 신호를 합산하여 손실 프레임에 대한 SWB 신호를 출력할 수 있다.
현재 프레임이 손실된 경우에, FEC 복호화기는, 현재 프레임 이전 정상 프레임의 토널 정보(tonal information)와 합성된 MDCT 계수를 이용하여, 손실된 현재 프레임에 대한 MDCT 계수를 합성할 수 있다. FEC 복호화기는 합성된 MDCT 계수를 역변환하여 SWB 확장 신호를 출력할 수 있으며, SWB 확장 신호와 WB 신호를 더하여 손실된 현재 플레임에 대한 SWB 신호를 복호화할 수 있다.
도 3은 통신 환경에서 오디오 정보를 담은 비트스트림이 유실되는 경우에 적용될 수 있는 복호화기의 일 예를 개략적으로 설명하는 블록도이다. 구체적으로, 도 3은 손실된 프레임에 대한 복호화를 수행할 수 있는 복호화기의 일 예이다.
도 3에서는, G.718 애넥스 B SWB 스케일러블 확장(G.718 Annex B SWB scalable extension)의 FEC 복호화기를 손실 프레임에 적용할 수 있는 복호화기의 일 예로서 설명한다.
도 3을 참조하면, FEC 복호화기(300)는 WB FEC 복호화부(305), SWB FEC 복호화부(330), 역변환부(335) 및 가산부(340)를 포함한다.
WB FEC 복호화부(305)는 비트스트림의 WB 신호를 디코딩할 수 있다. WB FEC 복호화부(305)는 손실된 WB 신호(WB 신호의 MDCT 계수)에 FEC를 적용하여 복호화를 수행할 수 있다. 이때, WB FEC 복호화부(305)는 손실된 현재 프레임의 이전 프레임(정상 프레임)의 정보를 이용하여 현재 프레임의 MDCT 계수를 복원할 수 있다.
SWB FEC 복호화부(330)는 비트스트림의 SWB 확장 신호를 디코딩할 수 있다. SWB FEC 복호화부(330)는 손실된 SWB 확장 신호(SWB 확장 신호의 MDCT 계수)에 FEC를 적용하여 복호화를 수행할 수 있다. SWB FEC 복호화부(330)는 토널 정도 판정부(310), 복제부(replication unit, 315, 320, 325)를 포함할 수 있다.
토널 정도(tonality) 판정부(310)는 SWV 확장 신호가 토널(tonal)인지 아닌지를 판단할 수 있다.
토널로 판정된 SWB 확장 신호(토널 SWB 확장 신호)와 토널이 아닌 것으로 판정된 SWB 확장 신호(비토널 SWB 확장 신호)는 서로 다른 과정을 통해 복원될 수 있다. 예컨대, 토널 SWB 확장 신호는 복제부(315)를 거치며, 비토널(atonal) SWB 확장 신호는 복제부(320)를 거친 뒤 두 신호가 합쳐져 복제부(325)를 통해 복원될 수 있다.
이때, 토널 SWB 확장 신호에 적용되는 스케일링 팩터와 비토널 SWB 확장 신호에 적용되는 스케일링 팩터는 서로 다른 값을 가진다. 또한, 토널 SWB 확장 신호와 비토널 SWB 확장 신호를 합친 SWB 확장 신호에 적용되는 스케일링 팩터는 토널 성분과 비토널 성분에 대하여 적용하는 스케일링 팩터와 상이할 수 있다.
구체적으로, SWB 확장 신호를 복원하기 위해 역변환부(335)에서 역변환(IMDCT)이 수행되도록 SWB FEC 복호화부(330)는 역변환의 대상 신호(SWB 확장 신호의 MDCT 계수)를 복원할 수 있다. SWB FEC 복호화부(330)는 손실된 프레임(현재 프레임) 이전의 정상 프레임의 모드에 따른 스케일링 계수를 적용하여 정상 프레임의 신호(MDCT 계수)가 선형적으로 감쇄하게 함으로써 손실된 프레임의 SWB 신호에 대한 MDCT 계수들을 복원할 수 있다.
이 경우, 연속된 프레임 손실에 대해서도 선형적 감쇄를 유지함으로써, 연속된 프레임들이 손실된 경우에도 손실된 신호를 복원할 수 있다.
복원 대상 신호가 제너릭 모드의 신호인지 사인파 모드의 신호인지(토널 신호인지 비토널(stonal) 신호인지)에 따라서 상이한 스케일링 계수가 적용될 수 있다. 예컨대, 제너릭 모드에 대해서는 스케일링 팩터 βFEC를 적용하고 사인파 모드에 대해서는 스케일링 팩터 βFEC,sin를 적용할 수 있다.
예를 들어, 현재 프레임이 손실되었고, 정상 프레임인 이전 프레임이 제네릭 모드이며, 레이어가 레이어 7까지 있다고 하면, 현재 프레임(손실 프레임)을 복원하기 위한 스케일링 팩터로서 βFEC=0.5, βFEC,sin=0.6으로 설정될 수 있다. 이때, 현재 프레임(손실된 프레임)의 MDCT 계수는 수식 2와 같이 복원될 수 있다.
<수식 2>
Figure PCTKR2013008235-appb-I000006
수식 2에서,
Figure PCTKR2013008235-appb-I000007
Figure PCTKR2013008235-appb-I000008
는 합성된 MDCT 계수로서,
Figure PCTKR2013008235-appb-I000009
은 SWB 대역의 주파수 k에서 현재 프레임의 MDCT 계수의 크기를 나타낸다.
Figure PCTKR2013008235-appb-I000010
는 이전 프레임에서 합성된 MDCT 계수의 크기를 나타내며, SWB 대역의 주파수 k에서 이전 프레임의 MDCT 계수의 크기를 나타낸다. posFEC(n)는 FEC가 적용되어 복원된 신호에서 파수 n에 대응하는 위치를 나타낸다. nFEC는 FEC가 적용되어 복원된 MDCT 계수의 개수를 나타낸다.
또한, 현재 프레임이 손실되었고, 정상 프레임인 이전 프레임이 사인파 모드이며, 레이어가 7까지 있다고 하면, 현재 프레임(손실 프레임)을 복원하기 위한 스케일링 팩터로서 βFEC=0, βFEC,sin=0.8로 설정될 수 있다. 이때, 현재 프레임(손실된 프레임)의 MDCT 계수는 수식 3과 같이 복원될 수 있다.
<수식 3>
Figure PCTKR2013008235-appb-I000011
수식 2와 수식 3을 일반화하면, 손실된 프레임의 SWB 확장 신호에 대한 MDCT 계수는 수식 4와 같이 복원될 수 있다.
<수식 4>
Figure PCTKR2013008235-appb-I000012
한편, 상술한 바와 같은 FEC 방법에서는, 현재 프레임이 손실된 경우에 이전 프레임(과거 프레임)의 MDCT 계수만을 이용해서, MDCT 계수가 선형 감쇄하는 것을 가정함으로써 손실된 신호를 복원한다. 이 방법을 적용하는 경우에는, 신호의 에너지가 점차 감쇄하는 구간에서 손실이 발생하였다면 신호를 효과적으로 복원할 수 있으나, 신호의 에너지가 증가하는 경우이거나 신호가 정상 상태(에너지의 크기가 일정 범위 내에서 유지되는 상태)인 경우에는 음질 왜곡이 발생하게 된다.
또한, 상술한 바와 같은 FEC 방법은 손실된 프레임이 정상 프레임의 구간 중 한두 프레임이 손실되는 작은 손실률의 통신 환경에서는 좋은 성능을 보일 수 있다. 이와 달리, 연속하는 프레임들이 손실되는 경우(손실이 자주 발생하는 경우) 혹은 손실이 발생하는 구간이 긴 경우에는 복원된 신호에도 음질 손실이 뚜렷이 나타날 수 있다.
상술한 점들을 고려하여, 본 발명에서는 현재 프레임(손상된 프레임) 이전의 정상 프레임들 중 한 프레임의 변환 계수(MDCT 계수)들뿐만 아니라 현재 프레임 이전의 정상 프레임들의 변화 정도를 이용하여 적응적으로 스케일링 팩터들을 적용할 수 있다.
또한, 앞서 설명한 바와 같이 SWB 확장 대역에 동일한 스케일링 팩터를 적용하는 대신, 본 발명에서는 MDCT 특성이 대역별로 상이하다는 것을 반영할 수 있다. 예컨대, 본 발명에서는 현재 프레임(손상된 프레임) 이전의 정상 프레임들의 변화 정도를 고려한 스케일링 팩터를 대역별로 수정할 수 있다. 따라서, MDCT 계수의 변화가 대역별로 스케일링 팩터에 반영될 수 있다.
본 발명의 적용 방법을 대상별로 분류하면, 아래의 (1)과 (2)처럼 개략적으로 분류할 수 있다.

(1) 단일 프레임이 손실된 경우 - 본 발명은 MDCT 또는 FFT(Fast Fourier Transform)와 같이 시간축 신호를 다른 축(예컨대, 주파수축) 신호로 변환하는 경우에도 적용할 수 있기 때문에, 도 2 또는 도 3에 도시된 G.718의 SWB 복호화기 구조에서 상위 SWB 쪽에서의 프레임 손실을 효과적으로 복원 혹은 은닉할 수 있다.
단일 프레임의 손실에 있어서, 프레임 손실을 은닉하는 방법은 크게 (i)~(iii)와 같은 3 가지 단계를 포함할 수 있다: (i) 수신된 프레임의 손실 여부를 판단하는 단계, (ii) 수신된 프레임에 손실이 발생된 경우, 이전의 정상 프레임들에 대한 변환 계수들로부터 손실된 프레임에 대한 변환 계수를 복원하는 단계, 및 (iii) 복원된 변환 계수를 역변환 하는 단계.
예컨대, 프레임 손실이 확인된 경우, 변환 계수를 복원하는 단계에서는 n 번째 프레임이 손실된 경우에, 이전 프레임들(n-1 번째 프레임, n-2 번째 프레임,… , n-N 번째 프레임)에 대한 변환 계수로서 저장되어 있는 변환 계수들로부터 n 번째 프레임에 대한 변환 계수를 복원할 수 있다. 여기서, N은 손실 은닉 과정에서 사용되는 프레임의 개수를 의미한다. 이어서, 복원된 n 번째 프레임에 대한 변환 계수(MDCT 계수)를 역변환(IMDCT)함으로써 프레임 손실을 은닉할 수 있다.
이때, 변환 계수를 복원하는 단계에서는 변드별로 감쇄 상수(스케일링 팩터)를 달리 할 수 있다. 또한, 정상 프레임(무손실 프레임)들의 토널 성분 유무를 이전의 정상 프레임들로부터 산출하고, 토널 성분의 유무에 따라 감쇄 상수를 달리 할 수도 있다.
예컨대, 토널 성분이 강한 대역의 경우에는 이전의 프레임들에서 사인파 펄스(MDCT 계수)들의 상관 정보를 이용하여, 손실된 프레임의 변환 계수를 복원하기 위해 사용할 감쇄 상수를 유도할 수 있다. 토널 성분이 없거나 약한 대역의 경우에는, 이전 정상 프레임들에 대한 변환 계수(MDCT 계수)들의 에너지 정보를 추정하여, 손실된 프레임의 변환 계수를 복원하기 위해 사용할 감쇄 상수를 유도할 수 있다.
복원된 변환 계수, 각 대역의 토널 정보 및 감쇄 상수는 프레임의 손실이 연속되는 경우에 대한 손실 복원(은닉)을 위해 저장될 수 있다.
(2) 연속된 프레임들이 손실된 경우 - 연속된 프레임들이 손실된 경우에, 손실을 은닉하는 방법은 크게 (a)와 (b)의 두 단계를 포함할 수 있다: (a) 수신된 프레임에 대하여, 연속된 프레임들이 손실되었는지 판단하는 단계, 및 (b) 연속된 프레임들이 손실된 경우에, 이전의 정상 프레임(무손실 프레임)들의 변환 계수들을 이용하여 연속적으로 손실된 프레임들에 대한 여기 신호(MDCT 계수)를 복원하는 단계.
연속된 프레임들이 손실된 경우도, 대역별로 토널 성분의 유무 혹은 토널 성분의 강약에 따라서 대역별로 적용될 추가 감쇄 상수(스케일링 팩터)에 변화를 줄 수 있다.

도 4는 본 발명에 따라서 프레임 손실을 은닉하는데 적용되는 복호화기의 일 예를 개략적으로 설명하는 블록도이다.
도 4를 참조하면, 복호화기(400)는 WB 신호에 대한 프레임 손실 판단부(405), WB 신호에 대한 프레임 손실 은닉부(410), WB 신호의 복호화부(415), SWB 신호에 대한 프레임 손실 판단부(420), SWB 신호의 복호화부(425), SWB 신호의 프레임 손실 은닉부(430), 프레임 벡업부(435), 역변환부(440), 가산부(445)를 포함한다.
프레임 손실 판단부(405)는 WB 신호에 대한 프레임 손실 여부를 판단한다. 프레임 손실 판단부(420)는 SWB 신호에 대한 프레임 손실 여부를 판단하다. 프레임 손실 판단부(405, 420)는 손실이 단일 프레임에 발생했는지 연속된 프레임들에 발생했는지도 판단할 수 있다.
여기서는 WB 신호에 대한 프레임 손실 판단부(405)와 SWB 신호에 대한 프레임 손실 판단부(420)를 별도의 동작부로 설명하였지만, 본 발명은 이에 한정되지 않는다. 예컨대, 복호화기(400)는 하나의 프레임 손실부를 포함하고, 프레임 손실부에서 WB 신호에 대한 프레임 손실과 SWB 신호에 대한 프레임 손실을 모두 판단할 수 있다. 혹은 프레임에 손실이 발생했다면 WB 신호와 SWB 신호 모두 손실되었을 것이므로, WB 신호에 대한 프레임 손실을 판단한 뒤, 판단 결과를 SWB 신호에 대해서 적용할 수도 있고, SWB 신호에 대한 프레임 손실을 판단한 뒤, 판단 결과를 WB 신호에 대해서 적용할 수도 있다.
손실이 있다고 판단된 WB 신호의 프레임에 대하여, 프레임 손실 은닉부(410)는 프레임 손실을 은닉한다. 프레임 손실 은닉부(410)는 이전의 정상 프레임 정보를 기반으로 손실이 발생한 프레임(현재 프리엠)의 정보를 복원할 수 있다.
손실이 없다고 판단된 WB 신호의 프레임에 대하여, WB 복호화부(415)는 WB 신호의 복호화를 수행할 수 있다.
WB 신호에 대하여 복호화 혹은 복원된 신호들은 SWB 신호의 복호화 또는 복원을 위해 SWB 복호화부(425)로 전달될 수 있다. 또한, WB 신호에 대하여 복호화 혹은 복원딘 신호들은 가산부(445)로 전달되어 SWB 신호를 합성하는데 이용될 수 있다.
한편, 손실이 없다고 판단된 SWB 신호의 프레임에 대하여, SWB 복호화부(425)는 SWB 확장 신호의 복호화를 수행할 수 있다. 이때, SWB 복호화부(425)는 복호화된 WB 신호를 이용하여 SWB 확장 신호를 복호화할 수도 있다.
손실이 있다고 판단된 SWB 신호의 프레임에 대해서는 SWB 프레임 손실 은닉부(430)이 프레임의 손실을 복원 혹은 은닉할 수 있다.
단일 프레임의 손실이 있는 경우, SWB 프레임 손실 은닉부(430)는 프레임 백업부(435)에 저장된 이전 정상 프레임들의 변환 계수를 이용하여 현재 프레임의 변한 계수를 복원할 수 있다. 연속된 프레임의 손실이 있는 경우, SWB 프레임 손실 은닉부(430)는 이전에 복원된 손실 프레임들의 변환 계수들과 정상 프레임들의 변환 계수들뿐만 아니라, 이전 손실 프레임의 변환 계수들을 복원하는데 사용되었던 정보들(예컨대, 대역별 토널 정보, 대역별 감쇄 상수 정보 등)을 이용하여 현재 프레임(손실 프레임)에 대한 변환 계수를 복원할 수 있다.
SWB 프레임 손실 은닉부(430)에서 복원된 변환 계수(MDCT 계수)는 역변환부(440)에서 역변환(IMDCT)될 수 있다.
프레임 백업부(435)는 현재 프레임의 변환 계수(MDCT 계수)들을 저장할 수 있다. 프레임 백업부(435)에서는 이전에 저장되었던 변환 계수들(이전 프레임의 변환 계수들)을 지우고, 현재 프레임에 대한 변환 계수들을 저장할 수 있다. 현재 프레임에 대한 변환 계수들은 바로 다음 프레임에 손실이 있는 경우에, 손실을 은닉하기 위해 사용될 수 있다.
이와 달리, 프레임 백업부(435)는 N 개의 버퍼(N은 정수)를 가지고, 프레임들의 변환 계수를 저장할 수도 있다. 이 경우, 버퍼에 저장되는 프레임은 정상 프레임과 손실로부터 복원된 프레임일 수 있다.
예컨대, 프레임 백업부(435)는 N 번째 버퍼에 저장된 변환 계수들을 지워버리고, 각 버퍼에 저장된 프레임들의 변환 계수들을 바로 옆 버퍼로 하나씩 이동(shift)시킨 뒤에 첫 번째 버퍼에 현재 프레임에 대한 변환 계수들을 저장할 수 있다. 이때, 버퍼의 개수 N은 복호화기의 성능, 오디오 품질 등을 고려하여 정해질 수 있다.
역변환부(440)는 SWB 복호화부(425)에서 복호화된 변환 계수와 SWB 프레임 손실 은닉부(430)에서 복원된 변환 계수를 역변환하여 SWB 확장 신호를 생성할 수 있다.
가산부(445)는 WB 신호와 SWB 확장 신호를 합하여 SWB 신호를 출력할 수 있다.
도 5는 본 발명에 따른 프레임 손실 은닉부의 일 예를 개략적으로 설명하는 블록도이다. 도 5에서는 단일 프레임이 손실된 경우에 대한 프레임 손실 은닉부를 예로서 설명한다.
단일 프레임이 손실된 경우에 프레임 손실 은닉부는, 상술한 바와 같이, 프레임 백업부에 저장된 이전 정상 프레임의 변환 계수들에 대한 정보를 이용하여 손실된 프레임의 변환 계수를 복원할 수 있다.
도 5를 참조하면, 프레임 손실 은닉부(500)는 대역 분할부(505), 토널(tonal) 성분 유무 판별부(510), 상관도 산출부(515), 감쇄 상수 산출부(520), 에너지 산출부(525), 에너지 예측부(530), 감쇄 상수 산출부(535), 손실 프레임 변환 계수 복원부(540)를 포함한다.
본 발명에 따른 프레임 손실 은닉/복원에서는 대역별 MDCT 계수의 특성을 고려하여 MDCT 계수를 복원할 수 있다. 구체적으로, 본 발명에 따른 프레임 손실/은닉에서는 대역별로 상이한 변화율(감쇄 상수)를 적용하여, 손실 프레임에 대한 MDCT 계수를 복원할 수 있다.
따라서, 프레임 손실 은닉부(500)에서는 대역(band) 분할부(505)가 버퍼에 저장된 이전 정상 프레임의 변환 계수들을 M 개의 대역(M 개의 그룹)으로 그룹핑(grouping)한다. 대역 분할부(505)는 그룹핑을 할 때 연속되는 변환 계수들이 하나의 대역에 속하도록 함으로써, 주파수 대역별로 정상 프레임의 변환 계수들이 분할되는 효과를 얻게 된다. 예컨대, M 개의 그룹은 M 개의 대역이 된다.
토널 성분 유무 판별부(510)에서는 N 개의 버퍼들(1~N 번째 버퍼들)에 저장된 변환 계수들을 이용하여 스펙트럴 피크들의 에너지 상관도를 로그(log) 도메인에서 분석함으로써 변환 계수들의 토널 정도를 각 대역별로 산출할 수 있다. 즉, 토널 성분 유무 판별부(510)는 토널 정도를 각 대역별로 산출함으로써 대역별로 토널 성분 유무를 판별할 수 있다. 예컨대, 손실 프레임이 n 번째 프레임인 경우, N 개의 버퍼에 저장된 이전 프레임들(n-1 번째 프레임 ~ n-N 번째 프레임)의 변환 계수들을 이용하여 n 번째 프레임(손실 프레임)의 M 개 대역에 대한 토널 정도가 유도될 수 있다.
손실된 프레임의 토널 정도를 대역(band)별로 판단한 결과, 토널 성분이 많은 대역들은 상관도 산출부(515), 감쇄 상수 산출부(520)을 통해 유도된 감쇄 상수를 이용해서 복원될 수 있다.
손실된 프레임의 토널 정보도를 대역별로 판단한 결과, 토널 성분이 없거나 적은 대역들은 에너지 산출부(525), 에너지 예측부(530), 감쇄 상수 산출부(535)를 통해 유도된 감쇄 상수를 이용하여 복원될 수 있다.
구체적으로 무손실 프레임의 변환 계수들에 대한 상관도 산출부(515)는 토널 성분 유무 판별부(510)에서 토널로 판단한 대역(예컨대, m 번째 대역)에 대한 상관도를 산출할 수 있다. 즉, 상관도 산출부(515)는 토널 성분이 존재한다고 판단되는 대역에서, n 번째 프레임인 현재 프레임(손실 프레임) 이전의 연속된 정상 프레임들(n-1 번째 프레임,…, n-N 번째 프레임)의 펄스들 간 위치의 상관도를 측정함으로써, 상관도를 판단할 수 있다.
연속된 정상 프레임에서 강한 상관성을 가지는 프레임들이라면 펄스(MDCT 계수)의 위치는 중요한 MDCT 계수 혹은 크기가 큰 MDCT 계수로부터 ±L 사이에 위치할 것을 전제로 상관도 판단을 수행할 수 있다.
감쇄 상수 산출부(520)는 상관도 산출부(515)에서 산출한 상관도에 기반해서 토널 성분이 많은 대역에 대한 감쇄 상수를 적응적으로 산출할 수 있다.
한편, 무손실 프레임의 프레임들에 대한 에너지 산출부(525)는 토널 성분이 없거나 적은 대역에 대한 에너지를 산출할 수 있다. 에너지 산출부(525)는 현재 프레임(손실 프레임) 이전의 정상 프레임들에 대하여 각 대역(band)별로 에너지를 산출할 수 있다. 예를 들어, 현재 프레임(손실 프레임)이 n 번째 프레임이고, N 개의 버퍼에 N 개의 이전 프레임에 대한 정보가 저장되어 있다면, 에너지 산출부(525)는 n-1 번째 프레임부터 n-N 번째 프레임까지의 프레임들에 대하여 대역별로 에너지를 산출할 수 있다. 이때, 에너지가 산출되는 대역은, 토널 성분 유무 판별부(510)에 의해 토널 성분이 없거나 적은 것으로 판별된 대역에 속하는 대역들일 수 있다.
에너지 예측부(606)에서는 에너지 산출부(525)로부터 프레임별로 산출된 대역별 에너지를 기반으로 현재 프레임(손실 프레임)의 에너지를 선형 예측함으로써 추정할 수 있다.
감쇄 상수 산출부(535)는 에너지 예측부(530)에서 산출된 에너지의 예측값을 기반으로 토널 성분이 없거나 적은 대역에 대한 감쇄 상수를 유도할 수 있다.
다시 말해서, 토널 성분이 많은 대역에 대해서, 상관도 산출부(515)에서 산출된 무손실 프레임들의 변환 계수들 간 상관도에 기반하여 감쇄 상수 산출부(520)가 감쇄 상수를 유도할 수 있다. 또한, 토널 성분이 없거나 적은 대역에 대해서는, 에너지 예측부(530)에서 예측된 현재 프레임(손실 프레임)의 에너지와 이전 정상 프레임의 에너지 사이의 비를 기반으로 감쇄 상수를 유도할 수 있다. 예컨대, 현재 프레임(손실 프레임)이 n 번째 프레임인 경우에, n 번째 프레임의 에너지로 예측된 값과 n-1 번째 프레임의 에너지 사이의 비(n-1 번째 프레임의 에너지/n 번째 프레임의 에너지 예측값)을 n 번째 프레임에 적용할 감쇄 상수로서 유도할 수 있다.
손실 프레임의 변환 계수 복원부(540)에서는 감쇄 상수 산출부(520, 535)에서 산출된 감쇄 상수(스케일링 팩터)와 현재 프레임 이전 정상 프레임의 변환 계수들을 이용하여 현재 프레임(손실 프레임)의 변환 계수를 복원할 수 있다.
도 5의 프레임 손실 은닉부에서 수행하는 동작을 도면을 이용하여 더 구체적으로 설명한다.
도 6은 본 발명에 따라 복호화기에서 프레임 손실을 은닉/복원하는 방법의 일 예를 개략적으로 설명하는 순서도이다. 도 6에서는 단일 프레임이 손실된 경우에 적용하는 프레임 손실 은닉 방법을 예로서 설명한다. 도 6의 동작은 오디오 신호 복호화기 또는 복호화기 내 특정 동작부에서 수행될 수도 있다. 예컨대, 도 5에서 설명한 바를 참조하면, 도 6의 동작은 도 5의 프레임 손실 은닉부에서 수행될 수도 있다. 다만, 여기서는 설명의 편의를 위해, 복호화기가 도 6의 동작을 수행하는 것으로 설명한다.
도 6을 참조하면, 복호화기는 오디오 신호를 포함하는 프레임을 수신한다(S600). 복호화기는 프레임 손실이 있는지를 판단한다(S605).
수신한 프레임이 정상 프레임으로 판단되면, SWB 복호화부를 통해서 SWB 복호화가 수행될 수 있다(S650). 프레임 손실이 있는 것으로 판단되면, 복호화기는 프레임 손실 은닉을 수행한다.
구체적으로, 프레임 손실이 있는 것으로 판단되면, 복호화기는 프레임 백업 버퍼로부터 저장되어 있던 이전의 정상 프레임에 대한 변환 계수들을 가져와서(S615), M 개(M은 정수)의 대역으로 분할한다(S610). 대역 분할에 관해서는 앞서 설명한 바와 같다.
복호화기는 무손실 프레임(정상 프레임)들의 토널 성분 유무를 판단한다(S620). 예컨대, 현재 프레임(손실 프레임)이 n 번째 프레임인 경우에, 복호화기는 현재 프레임의 이전 프레임들인 n-1 번째 프레임, n-2 번째 프레임,…, n-N 번째 프레임들의 M 개의 대역으로 그룹핑된 변환 계수들을 이용하여 대역별로 토널 성분이 어느 정도인지를 판단할 수 있다. 이때, N은 이전 프레임의 변환 계수를 저장하는 버퍼의 개수이며, 버퍼의 개수가 N인 경우에 N 개의 프레임들에 대한 변환 계수들이 저장될 수 있다.
토널 정도는 정상 프레임들(n-1 번째 프레임, n-2 번째 프레임,…, n-N 번째 프레임)의 대역별 변환 계수를 이용하여 로그(log) 축에서의 스펙트럼 유사성에 기반해 결정될 수 있다. 예컨대, 변환 계수를 세 개의 대역(M=3)로 그룹핑하는 경우라면, 현재 프레임 이전의 정상 프레임들의 변환 계수들이 3 개의 대역으로 분류되는데, 대역마다 토널 정도가 다를 수 있다. 가령, 첫 번째 대역은 토널 성분이 있고, 두 번째 대역은 토널 성분이 없고, 세 번째 대역은 토널 성분이 있다고 판단될 수 있다.
이처럼, 토널 정도는 대역별로 다르게 판단될 수 있으며, 토널 정도에 따라 다른 방법을 이용해서 대역별 감쇄 상수를 유도할 수 있다.
예컨대, 토널 성분이 많은 것으로 판단된 경우에는, 무손실 프레임(정상 프레임)의 변환 계수들 간 상관도를 산출(S625)하고, 산출된 상관도를 기반으로 감쇄 상수를 산출할 수 있다(S630).
구체적으로, 복호화기는 프레임 백업 버퍼에 저장된 변환 계수(MDCT 계수)들을 대역 분할한 신호를 이용하여 무손실 프레임(정상 프레임)의 변환 계수들 간 상관도를 산출할 수 있다(S625). 상관도의 산출은 S620 단계에서 토널 성분이 있는 것으로 판단된 대역에 대해서만 수행될 수 있다.
변환 계수들의 상관도를 산출하는 단계(S625)는 토널 정도(토널리티, tonality)가 강한 대역에서 연속성이 큰 하모닉을 측정하는 것으로서, 연속된 정상 프레임들에서 변환 계수의 사인파(sinusoild) 펄스의 위치가 크게 변하지 않는다는 점을 이용한다.
즉, 연속된 정상 프레임의 사인파 펄스들의 위치 상관도를 측정하여 대역 별로 상관도를 산출할 수 있다. 이때, 상관도를 산출하기 위한 사인파 펄스로서 크기가 큰(절대값이 큰) K 개의 변환 계수들이 선택될 수 있다.
대역별 상관도는 수식 5를 이용하여 산출될 수 있다.
<수식 5>
Figure PCTKR2013008235-appb-I000013
여기서, Wm는 m 번째 대역에 대한 가중치를 나타낸다. 가중치는 낮은 주파수 대역일수록 큰 값이 할당될 수 있다. 따라서, W1≥W2≥W3…의 관계가 성립될 수 있다. 수식 5에서 Wm은 1보다 큰 값을 가질 수 있다. 따라서, 수식 5는 프레임별로 신호가 증가하는 경우에도 적용할 수 있다.
수식 5에서 Ni,n-1은 n-1 번째 프레임의 i번째 사인파 펄스를 나타내며, Ni,n-2는 n-2 번째 프레임의 i번째 사인파 펄스를 나타낸다.
수식 5에서는 설명의 편의를 위해, 현재 프레임(손실 프레임) 이전의 두 정상 프레임(n-1 번째 정상 프레임, n-2 번째 정상 프레임)만을 고려하는 경우를 설명하였다.
도 7은 본 발명에 따라서 상관도를 유도하는 것을 개략적으로 설명하는 도면이다.
도 7에서는 설명의 편의를 위해, 두 정상 프레임(n-1 번째 프레임과 n-2 번째 프레임)에서 변환 계수가 세 개의 대역으로 그룹핑되는 경우를 예로서 설명한다.
도 7의 예에서는, 대역 1과 대역 2가 토널 정도(tonality)가 존재하는 대역이라고 가정한다. 이 경우, 수식 5에 의해 상관도가 산출될 수 있다.
수식 5를 이용하면, 대역 1의 경우는 n-1 번째 프레임과 n-2 번째 프레임에서 크기가 큰 펄스의 위치가 비슷하기 때문에 큰 값의 상관도가 산출된다. 이와 달리, 대역 1의 경우에는 n-1 번째 프레임과 n-2 번째 프레임에서 크기가 큰 펄스의 위치가 상이하기 때문에 작은 값의 상관도가 산출된다.
다시 도 6으로 돌아오면, 산출된 상관도를 기반으로 복호화기는 감쇄 상수를 산출할 수 있다(S630). 상관도의 최대값은 1보다 작기 때문에, 복호화기는 대역별 상관도를 감쇄 상수로서 유도할 수도 있다. 즉, 복호화기는 대역별 상관도를 감쇄 상수로 사용할 수도 있다.
S625 및 S630 단계에서 설명한 바와 같이, 본 발명에 의하면, 토널 정도(tonality)가 있는 대역에 대하여 산출된 펄스들 간의 상관도에 따라서 감쇄 상수가 적응적으로 산출될 수 있다.
한편, 토널 정도가 적은 또는 없는 대역에 대해서, 복호화기는 무손실 프레임(정상 프레임) 변환 계수들의 에너지 계산하고(S635), 계산된 에너지를 기반으로 n 번째 프레임(현재 프레임, 손실 프레임)의 에너지를 예측하며(S640), 예측된 손실 프레임의 에너지와 정상 프레임의 에너지를 이용하여 감쇄 상수를 산출(S645)할 수 있다.
구체적으로, 토널 정도가 적거나 없는 대역에 대해서, 복호화기는 현재 프레임(손실 프레임) 이전의 정상 프레임들에 대해 대역별로 에너지를 산출할 수 있다(S635). 예컨대, 현재 프레임이 n 번째 프레임이라면, n-1 번째 프레임, n-2 번째 프레임,…, n-N (N은 버퍼의 개수) 번째 프레임에 대하여 대역별로 에너지 값을 산출할 수 있다.
복호화기는 산출된 정상 프레임의 에너지들을 기반으로 현재 프레임(손실 프레임)의 에너지를 예측할 수 있다(S640). 예컨대, 현재 프레임의 에너지는 이전 정상 프레임들에 있어서 프레임당 에너지 변화량을 고려하여 예측될 수 있다.
복호화기는 프레임 간 에너지의 비를 이용하여 감쇄 상수를 산출할 수 있다(S645). 예컨대, 복호화기는 현재 프레임(n 번째 프레임)의 예측된 에너지와 이전 프레임(n-1 번째 프레임)의 에너지 사이의 비를 통해 감쇄 상수를 산출할 수 있다. 현재 프레임의 예측된 에너지가 En,pred이고, 현재 프레임의 이전 프레임에서의 에너지가 En-1이라면, 현재 프레임의 토널 정도가 적거나 없는 대역에 대한 감쇄 상수는 En,pred/En-1이 될 수 있다.
복호화기는 대역별로 산출된 감쇄 상수를 이용하여 현재 프레임(손실 프레임)의 변환 계수를 복원할 수 있다(S660). 복호화기는 대역별로 산출된 감쇄 상수를 현재 프레임 이전의 정상 프레임의 변환 계수에 곱해서 현재 프레임의 변환 계수를 복원할 수 있다. 이때, 감쇄 상수는 대역별로 유도되므로, 정상 프레임의 변환 계수들로 구성되는 대역들 중 대응하는 대역의 변환 계수들에 곱해지게 된다.
예컨대, 복호화기는 k 번째 대역에 대한 감쇄 상수를 n-1 번째 프레임의 k 번째 대역 내 변환 계수들에 곱해서, n 번째 프레임(손실된 현재 프레임)의 k 번째 대역의 변환 계수들을 유도할 수 있다(k, n은 정수). 복호화기는 n-1 번째 프레임의 각 대역에 대하여 대응하는 감쇄 상수를 곱해서 전체 대역에 대한 n 번째 프레임(현재 프레임)의 변환 계수를 복원할 수 있다.
복호화기는 복원된 변환 계수 및 복호화된 변환 계수를 역변환하여 SWB 확장 신호를 출력할 수 있다(S665). 복호화기는 변환 계수(MDCT 계수)를 역변환(IMDCT)함으로써, SWB 확장 신호를 출력할 수 있다. 복호화기는 SWB 확장 신호와 WB 신호를 합해서 SWB 신호를 출력할 수 있다.
한편, S660에서 복원된 변환 계수, S620에서 판단된 토널 성분 유무 정보, S630과 S645에서 산출된 감쇄 상수와 같은 정보는 프레임 백업 버퍼에 저장될 수 있다(S655). 저장된 변환 계수는 이후의 프레임이 손실된 경우에 손실된 프레임의 변환 계수를 복원하기 위해 사용될 수 있다. 예컨대, 복호화기는 연속된 프레임들이 손실된 경우에는 저장한 복원 정보(이전 프레임에서 복원된 변환 계수, 이전 프레임들에 대한 토널 성분 정보, 감쇄 상수 등)를 이용하여 연속된 손실 프레임에 대한 복원을 수행할 수 있다.
도 8은 본 발명에 따라 복호화기에서 프레임 손실을 은닉/복원하는 방법의 다른 예를 개략적으로 설명하는 순서도이다. 도 8에서는 연속된 프레임들이 손실된 경우에 적용하는 프레임 손실 은닉 방법을 예로서 설명한다. 도 8의 동작은 오디오 신호 복호화기 또는 복호화기 내 특정 동작부에서 수행될 수도 있다. 예컨대, 도 5에서 설명한 바를 참조하면, 도 8의 동작은 도 5의 프레임 손실 은닉부에서 수행될 수도 있다. 다만, 여기서는 설명의 편의를 위해, 복호화기가 도 8의 동작을 수행하는 것으로 설명한다.
도 8을 참조하면, 복호화기는 현재 프레임에 대하여 프레임 손실이 있는지를 판단한다(S800).
복호화기는 프레임 손실이 있는 경우에, 연속된 프레임들이 손실된 것인지를 판단한다(S810). 복호화기는 현재 프레임이 손실되었다면, 이전 프레임도 손실되었는지를 판단하여, 연속된 프레임이 손실될 것인지를 결정할 수 있다.
이전 프레임이 정상 프레임이라면(단일 프레임이 손상된 것이라면), 복호화기는 도 6에서 설명한 대역 분할 단계(S610)와 그 이후의 단계를 순서대로 진행할 수 있다.
이전 프레임에도 프레임 손실이 있어서 연속된 프레임들이 손실된 것으로 판단되면, 복호화기는 프레임 백업 버퍼로부터 정보를 가져와(S820), M 개(M은 정수)의 대역으로 분할할 수 있다(S830). S830에서 수행하는 대역 분할 역시 앞서 설명한 바와 같다. 다만, 이전의 정상 프레임에서의 변환 계수들을 M 개의 대역으로 분할했던 단일 프레임 손실의 경우와 달리, S830에서는 이전 손실 프레임에서 복원된 변환 계수들을 M 개의 대역으로 분할한다.
복호화기는 이전 프레임(복원 프레임)의 토널 성분 유무를 판단한다(S840). 예컨대, 현재 프레임(손실 프레임)이 n 번째 프레임인 경우에, 복호화기는 현재 프레임의 이전 프레임으로서 손실 프레임인 n-1 번째 프레임의 M 개의 대역으로 그룹핑된 변환 계수들을 이용하여 대역별로 토널 성분이 어느 정도인지를 판단할 수 있다.
토널 정도는 대역별 변환 계수를 이용하여 로그(log) 축에서의 스펙트럼 유사성에 기반해 결정될 수 있다. 예컨대, 변환 계수를 세 개의 대역(M=3)으로 그룹핑하는 경우라면, 이전 프레임의 변환 계수들이 3 개의 대역으로 분류되는데, 대역마다 토널 정도가 다를 수 있다. 가령, 첫 번째 대역은 토널 성분이 있고, 두 번째 대역은 토널 성분이 없고, 세 번째 대역은 토널 성분이 있다고 판단될 수 있다.
이처럼, 토널 정도는 대역별로 다르게 판단될 수 있으며, 토널 정도에 따라 대역별 감쇄 상수를 유도할 수 있다.
복호화기는 이전 프레임의 감쇄 상수에 추가 감쇄 요소를 적용하여 현재 프레임에 적용할 감쇄 상수를 유도할 수 있다(S850).
구체적으로, p 개의 프레임이 연속하여 손실된 경우(p 번의 프레임 손실이 연속하여 발생한 경우)에, 첫 번째 프레임 손실에 대한 초기 감쇄 상수는 λ1, 두 번째 프레임 손실에 대한 추가 감쇄 상수는 λ2,…, q 번째 프레임 손실에 대한 추가 감쇄 상수는 λq,…, p 번째 프레임 손실에 대한 추가 감쇄 상수는 λp로 결정될 수 있다(p와 q는 정수, q < p). 이 경우, 손실된 프레임들 중 q 번째 프레임에 적용되는 감쇄 상수는 이들 초기 감쇄 상수 및/또는 추가 감쇄 상수들의 곱으로부터 유도될 수 있다.
이때, 토널 정도가 강한 대역에 대해서는 큰 추가 감쇄를 적용하고, 토널 정도가 약한 대역에 대해서는 작은 추가 감쇄를 적용할 수 있다. 따라서, 대역의 토널 정도가 크면 추가 감쇄를 많이 하고, 대역의 토널 정도가 작으면 추가 감쇄를 적게 할 수 있다.
예컨대, r(r은 정수) 번째 프레임 손실에 대해서, 토널 정도가 강한 대역의 추가 감쇄 상수 λr,strong tonality는 수식 6과 같이, 토널 정도가 약한 대역의 추가 감쇄 상수 λr,weak tonality보다 크거나 같은 값을 가지게 된다.
<수식 6>
λr,strong tonality ≤ λr,strong tonality
일 예로서, 3 개의 프레임이 연속으로 손실된 경우를 가정하자. 이때, 토널 정도가 강한 대역이라면, 첫 번째 프레임 손실에 대한 초기 감쇄 상수를 1로 설정하고, 두 번째 프레임 손실에 대해서는 추가 감쇄 상수를 0.9로 설정하며, 세 번째 프레임 손실에 대해서는 추가 감쇄 상수를 0.7로 설정할 수 있다. 토널 정도가 약한 대역이라면, 첫 번째 프레임 손실에 대하여 감쇄 상수를 1로 설정하고, 두 번째 프레임 손실에 대해서는 추가 감쇄 상수를 0.95로 설정하며, 세 번째 프레임 손실에 대해서는 추가 감쇄 상수를 0.85로 설정할 수 있다.
추가 감쇄 상수는 토널 정도가 강한 대역인지 토널 정도가 약한 대역인지에 따라서 다르게 설정될 수 있지만, 첫 번째 프레임 손실에 대한 초기 감쇄 상수는 토널 정도가 강한 대역인지 토널 정도가 약한 대역인지에 따라서 다르게 설정될 수도 있고, 대역의 토널 정도와 무관하게 설정될 수도 있다.
복호화기는 유도한 감쇄 상수를 이전 프레임의 대역에 적용하여(S860), 현재 프레임의 변환 계수를 복원할 수 있다.
복호화기는 대역별로 유도한 감쇄 상수를 이전 프레임(복원된 프레임)의 대응하는 대역에 적용할 수 있다. 예컨대, 현재 프레임이 n 번째 프레임(손실 프레임)이고, n-1 번째 프레임이 복원 프레임인 경우, 복호화기는 k 번째 대역에 대한 감쇄 상수를 복원 프레임(n-1 번째 프레임)의 k 번째 대역을 구성하는 변환 계수들에 곱하여 현재 프레임(n 번째 프레임)의 k 번째 대역을 구성하는 변환 계수들을 얻을 수 있다. 복호화기는 n-1 번째 프레임의 각 대역에 대하여 대응하는 감쇄 상수를 곱해서 전체 대역에 대한 n 번째 프레임(현재 프레임)의 변환 계수를 복원할 수 있다.
복호화기는 복원된 변환 계수를 역변환할 수 있다(S880). 복호화기는 복원된 변환 계수(MDCT 계수)를 역변환(IMDCT)하여 SWB 확장 신호를 생성할 수 있으며, WB 신호와 합해서 SWB 신호를 출력할 수 있다.

한편, 도 8에서는 초기 감쇄 상수와 추가 감쇄 상수를 토널 정도에 따라서 설정하는 것으로 설명하였으나, 본 발명은 이에 한정되지 않는다.
예컨대, 토널 정도에 따라서 초기 감쇄 상수와 추가 감쇄 상수 중 적어도 하나를 유도할 수도 있다. 구체적으로, 복호화기는 토널 정도가 강한 대역에 대해서 프레임 백업 버퍼에 저장된 정상 프레임 및 복원 프레임의 변환 계수들과의 상관도를 기반으로 S625 및 S630에서 설명한 바와 같이 감쇄 상수를 산출할 수 있다. 이 경우, h 개(h는 정수)의 프레임이 연속으로 손실되었고, 현재 프레임이 손실된 프레임들 중 h 번째 프레임이라고 가정하면, 복원 프레임들 중 첫 번째 프레임에 대한 감쇄 상수로서 프레임 백업 버퍼에 저장된 감쇄 상수를 초기 감쇄 상수가 되고, 두 번째 복원 프레임부터 현재 프레임까지의 감쇄 상수들은 추가 감쇄 상수가 된다. 따라서, 현재 프레임에 대한 토널 정도가 강한 대역의 감쇄 상수는 수식 7과 같이 이전 h-1 개의 연속된 복원 프레임에 대한 감쇄 상수들과 현재 프레임에 대해 유도된 감쇄 상수의 곱으로 유도될 수 있다.
<수식 7>
λts,current = λts1ts2*…*λtsh
수식 7에서 λts,current는 현재 프레임의 변환 계수를 유도하기 위해 이전 복원 프레임에 적용되는 감쇄 상수이며, λts1은 h 개의 연속된 프레임 손실에 대해서 첫 번째 프레임 손실에 대한 감쇄 상수, λts2는 두 번째 프레임 손실에 대한 감쇄 상수, λtsh는 현재 프레임에 대해 이전 프레임들과의 상관도를 기반으로 유도된 감쇄 상수이다. 감쇄 상수들은 토널 정도가 강한 대역에 대하여 대역별로 유도될 수 있다.
또한, 복호화기는 토널 정도가 약한 대역에 대해서 프레임 백업 버퍼에 저장된 정상 프레임 및 복원 프레임의 변환 계수들의 에너지를 기반으로 S635 내지 S645에서 설명한 바와 같이 감쇄 상수를 산출할 수 있다. 이 경우, h 개(h는 정수)의 프레임이 연속으로 손실되었고, 현재 프레임이 손실된 프레임들 중 h 번째 프레임이라고 가정하면, 복원 프레임들 중 첫 번째 프레임에 대한 감쇄 상수로서 프레임 백업 버퍼에 저장된 감쇄 상수를 초기 감쇄 상수가 되고, 두 번째 복원 프레임부터 현재 프레임까지의 감쇄 상수들은 추가 감쇄 상수가 된다. 따라서, 현재 프레임에 대한 토널 정도가 약한 대역의 감쇄 상수는 수식 8과 같이 이전 h-1 개의 연속된 복원 프레임에 대한 감쇄 상수들과 현재 프레임에 대해 유도된 감쇄 상수의 곱으로 유도될 수 있다.
<수식 8>
λtw,current = λtw1tw2*…*λtwh
수식 7에서 λtw,current는 현재 프레임의 변환 계수를 유도하기 위해 이전 복원 프레임에 적용되는 감쇄 상수이며, λtw1은 h 개의 연속된 프레임 손실에 대해서 첫 번째 프레임 손실에 대한 감쇄 상수, λtw2는 두 번째 프레임 손실에 대한 감쇄 상수, λtwh는 현재 프레임에 대해 이전 프레임들과의 상관도를 기반으로 유도된 감쇄 상수이다. 감쇄 상수들은 토널 정도가 약한 대역에 대하여 대역별로 유도될 수 있다.

도 9는 본 발명에 따른 프레임 손실 복원(은닉) 방법의 일 예를 개략적으로 설명하는 순서도이다. 도 9의 동작은 복호화기에서 수행될 수도 있고, 복호화기 내 프레임 손실 은닉부에서 수행될 수도 있다. 여기서는 설명의 편의를 위해 복호화기에서 도 9의 동작을 수행하는 것으로 설명한다.
도 9를 참조하면, 복호화기는 현재 프레임의 이전 프레임들 중 적어도 한 프레임의 변환 계수들을 소정 개수의 대역들로 그룹핑한다(S910). 이때 현재 프레임은 손실 프레임일 수 있으며, 현재 프레임의 이전 프레임들은 프레임 백업 버퍼에 저장된 정상 프레임 혹은 복원 프레임일 수 있다.
복호화기는 그룹핑된 대역들의 토널 정도에 따라서 감쇄 상수를 유도할 수 있다(S920). 이때, 감쇄 상수는 현재 프레임 이전 N 개(N은 정수)의 정상 프레임들의 변환 계수들을 기반으로 유도될 수 있으며, N은 이전 프레임의 정보를 저장하는 버퍼의 개수일 수 있다.
또한, 변환 계수의 토널 정도가 강한 대역에서 감쇄 상수는 이전 정상 프레임들의 변환 계수들 간의 상관도를 기반으로 유도될 수 있으며, 변환 계수의 토널 정도가 약한 대역에서 감쇄 상수는 이전 정상 프레임들에 대한 에너지들을 기반으로 유도될 수 있다.
또한, 감쇄 상수는 현재 프레임 이전 N 개(N은 정수)의 정상 프레임들 및 복원 프레임들의 변환 계수들을 기반으로 유도될 수도 있으며, N은 이전 프레임의 정보를 저장하는 버퍼의 개수일 수 있다.
또한, 변환 계수의 토널 정도가 강한 대역에서 감쇄 상수는 이전 정상 프레임들 및 복원 프레임들의 변환 계수들 간의 상관도를 기반으로 유도될 수도 있으며, 변환 계수의 토널 정도가 약한 대역에서 감쇄 상수는 이전 정상 프레임들 및 복원 프레임들에 대한 에너지들을 기반으로 유도될 수도 있다.
감쇄 상수에 대한 구체적인 내용은 앞서 자세히 설명한 바와 같다.
복호화기는 현재 프레임의 이전 프레임에 감쇄 상수를 적용하여 현재 프레임의 변환 계수를 복원할 수 있다(S930). 현재 프레임의 변환 계수는 상기 이전 프레임의 각 대역별 변환 계수에 대역별로 유도된 감쇄 상수를 곱한 값으로 복원될 수 있다. 현재 프레임의 이전 프레임이 복원 프레임인 경우, 즉 연속된 프레임들이 손실된 경우에, 현재 프레임의 변환 계수는 이전 프레임의 감쇄 상수에 현재 프레임의 감쇄 상수를 추가 적용하여 복원될 수도 있다.
감쇄 상수를 적용하여 현재 프레임(손실 프레임)의 변환 계수를 복원하는 방법의 구체적인 내용은 앞서 설명한 바와 같다.
도 10은 본 발명에 따른 오디오 복호화 방법의 일 예를 개략적으로 설명하는 순서도이다. 도 10의 동작은 복호화기에서 수행될 수 있다.
도 10을 참조하면, 복호화기는 현재 프레임의 손실 여부를 판단할 수 있다(S1010).
현재 프레임이 손실된 경우에, 복호화기는 현재 프레임의 이전 프레임들의 변환 계수들을 기반으로 상기 현재 프레임의 변환 계수를 복원할 수 있다(S1020). 이때, 복호화기는 이전 프레임들 중 적어도 한 프레임의 변환 계수들의 대역별 토널 정도를 기반으로 현재 프레임의 변환 계수를 복원할 수 있다.
변환 계수의 복원은 현재 프레임의 이전 프레임들 중 적어도 한 프레임의 변환 계수들을 소정 개수의 대역들로 그룹핑하고, 그룹핑된 대역들의 토널 정도에 따라서 감쇄 상수를 유도하며, 현재 프레임의 이전 프레임에 감쇄 상수를 적용함으로써 수행될 수 있다. 이때, 현재 프레임의 이전 프레임이 복원 프레임인 경우에, 상기 현재 프레임의 변환 계수는 상기 이전 프레임의 감쇄 상수에 상기 현재 프레임의 감쇄 상수를 추가 적용하여 복원될 수 있으며, 토널 성분이 강한 대역에 대하여 추가 적용되는 감쇄 상수는 토널 성분이 약한 대역에 대하여 추가 적용되는 감쇄 상수보다 작거나 같을 수도 있다.
대역들의 그룹핑, 감쇄 상수의 유도, 감쇄 상수의 적용에 관해서는 도 9를 비롯하여 본 명세서의 앞부분에서 자세히 설명한 바와 같다.
복호화기는 복원된 변환 계수를 역변환할 수 있다(S1030). 복호화기는 복원된 변환 계수(MDCT 계수)가 SWB에 대한 것이면 역변환(IMDCT)을 통해 SWB 확장 신호를 생성할 수 있으며, WB 신호와 합해서 SWB 신호를 출력할 수 있다.
한편, 지금까지는 본 명세서에서는 (a) 토널 성분이 있다 & 토널 성분이 없다 (b) 토널 성분이 많다 & 토널 성분이 없거나 적다 (c) 토널 정도(토널리티, tonality)가 있다 & 토널 정도가 (적거나) 없다는 세 가지 표현으로, 토널 정도에 대한 판단 기준을 나타내었으나, 이 세 가지 표현은 설명의 편의를 위한 것으로서 동일한 기준을 나타낸 것이며 서로 다른 판단 기준이 아님에 유의한다.
다시 말하면, 본 명세서에서 토널 성분이 있다, 토널 성분이 많다, 토널 정도가 있다는 세 가지 표현은 모두 소정의 기준치보다 많은 토널 성분이 존재한다는 의미이며, 토널 성분이 없다, 토널 성분이 없거나 적다, 토널 정도가 (적거나) 없다는 세 가지 표현은 모두 토널 성분이 소정의 기준치보다 적다는 것을 의미한다.

상술한 예시들에서, 방법들은 일련의 단계 또는 블록으로써 순서도를 기초로 설명되고 있지만, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 상술한 실시예들은 다양한 양태의 예시들을 포함한다. 예컨대, 상술한 실시형태들을 서로 조합하여 실시할 수도 있으며, 이 역시 본 발명에 따른 실시형태에 속한다. 본 발명은 이하의 특허청구범위 내에 속하는 본 발명의 기술적 사상에 따른 다양한 수정 및 변경을 포함한다.


Claims (17)

  1. 현재 프레임의 이전 프레임들 중 적어도 한 프레임의 변환 계수들을 소정 개수의 대역들로 그룹핑하는 단계;
    상기 대역들의 토널 정도에 따라서 감쇄 상수를 유도하는 단계; 및
    상기 현재 프레임의 이전 프레임에 상기 감쇄 상수를 적용하여 상기 현재 프레임의 변환 계수를 복원하는 단계를 포함하는 프레임 손실 복원 방법.
  2. 제1항에 있어서, 상기 감쇄 상수는 상기 현재 프레임 이전 N 개(N은 정수)의 정상 프레임들의 변환 계수들을 기반으로 유도되는 것을 특징으로 하는 프레임 손실 복원 방법.
  3. 제2항에 있어서, 상기 N은 이전 프레임의 정보를 저장하는 버퍼의 개수인 것을 특징으로 하는 프레임 손실 복원 방법.
  4. 제1항에 있어서, 변환 계수의 토널 정도가 강한 대역에서 상기 감쇄 상수는 이전 정상 프레임들의 변환 계수들 간의 상관도를 기반으로 유도되는 것을 특징으로 하는 프레임 손실 복원 방법.
  5. 제4항에 있어서, 대역별 상관도를 대역별 감쇄 상수로서 이용하되, 프레임 간 사인파 펄스의 위치 상관도가 높은 대역은 높은 상관도를 가지는 것을 특징으로 하는 프레임 손실 복원 방법.
  6. 제1항에 있어서, 변환 계수의 토널 정도가 약한 대역에서 상기 감쇄 상수는 이전 정상 프레임들에 대한 에너지들을 기반으로 유도되는 것을 특징으로 하는 프레임 손실 복원 방법.
  7. 제6항에 있어서, 상기 감쇄 상수는 이전 프레임들의 에너지들 간 변화를 기반으로 예측된 상기 현재 프레임에 대한 에너지 예측 값과 상기 현재 프레임의 이전 프레임에 대한 에너지 값 간의 비인 것을 특징으로 하는 프레임 손실 복원 방법.
  8. 제1항에 있어서, 상기 현재 프레임의 변환 계수는 상기 이전 프레임의 각 대역별 변환 계수에 대역별로 유도된 감쇄 상수를 곱한 값으로 복원되는 것을 특징으로 하는 프레임 손실 복원 방법.
  9. 제8항에 있어서, 상기 현재 프레임의 이전 프레임이 복원 프레임인 경우에, 상기 현재 프레임의 변환 계수는 상기 이전 프레임의 감쇄 상수에 상기 현재 프레임의 감쇄 상수를 추가 적용하여 복원되는 것을 특징으로 하는 프레임 손실 복원 방법.
  10. 현재 프레임의 손실 여부를 판단하는 단계;
    상기 현재 프레임이 손실된 경우에, 상기 현재 프레임의 이전 프레임들의 변환 계수들을 기반으로 상기 현재 프레임의 변환 계수를 복원하는 단계; 및
    상기 복원된 변환 계수를 역변환하는 단계를 포함하며,
    상기 변환 계수를 복원하는 단계에서는 상기 이전 프레임들 중 적어도 한 프레임의 변환 계수들의 대역별 토널 정도를 기반으로 상기 현재 프레임의 변환 계수를 복원하는 것을 특징으로 하는 오디오 복호화 방법.
  11. 제1항에 있어서, 상기 변환 계수를 복원하는 단계는,
    현재 프레임의 이전 프레임들 중 적어도 한 프레임의 변환 계수들을 소정 개수의 대역들로 그룹핑하는 단계;
    상기 대역들의 토널 정도에 따라서 감쇄 상수를 유도하는 단계; 및
    상기 현재 프레임의 이전 프레임에 상기 감쇄 상수를 적용하여 상기 현재 프레임의 변환 계수를 복원하는 단계를 포함하는 것을 특징으로 하는 오디오 복호화 방법.
  12. 제11항에 있어서, 상기 감쇄 상수는 상기 현재 프레임 소정 개수의 이전 정상 프레임들의 변환 계수들을 기반으로 유도되는 것을 특징으로 하는 오디오 복호화 방법.
  13. 제11항에 있어서, 변환 계수의 토널 정도가 강한 대역에서 상기 감쇄 상수는 이전 정상 프레임들의 변환 계수들 간의 상관도를 기반으로 유도되는 것을 특징으로 하는 오디오 복호화 방법.
  14. 제11항에 있어서, 변환 계수의 토널 정도가 약한 대역에서 상기 감쇄 상수는 이전 정상 프레임들에 대한 에너지들을 기반으로 유도되는 것을 특징으로 하는 오디오 복호화 방법.
  15. 제10항에 있어서, 상기 현재 프레임의 변환 계수는 상기 이전 프레임의 각 대역별 변환 계수에 대역별로 유도된 감쇄 상수를 곱한 값으로 복원되는 것을 특징으로 하는 오디오 복호화 방법.
  16. 제15항에 있어서, 상기 현재 프레임의 이전 프레임이 복원 프레임인 경우에, 상기 현재 프레임의 변환 계수는 상기 이전 프레임의 감쇄 상수에 상기 현재 프레임의 감쇄 상수를 추가 적용하여 복원되는 것을 특징으로 하는 오디오 복호화 방법.
  17. 제16항에 있어서, 토널 성분이 강한 대역에 대하여 추가 적용되는 감쇄 상수는 토널 성분이 약한 대역에 대하여 추가 적용되는 감쇄 상수보다 작거나 같은 것을 특징으로 하는 오디오 복호화 방법.
PCT/KR2013/008235 2012-09-13 2013-09-11 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치 Ceased WO2014042439A1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US14/427,778 US9633662B2 (en) 2012-09-13 2013-09-11 Frame loss recovering method, and audio decoding method and device using same
EP13837778.3A EP2897127B1 (en) 2012-09-13 2013-09-11 Frame loss recovering method, and audio decoding method and device using same
JP2015531852A JP6139685B2 (ja) 2012-09-13 2013-09-11 損失フレーム復元方法及びオーディオ復号化方法とそれを利用する装置
CN201380053376.2A CN104718570B (zh) 2012-09-13 2013-09-11 帧丢失恢复方法,和音频解码方法以及使用其的设备
KR1020157006324A KR20150056770A (ko) 2012-09-13 2013-09-11 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201261700865P 2012-09-13 2012-09-13
US61/700,865 2012-09-13

Publications (1)

Publication Number Publication Date
WO2014042439A1 true WO2014042439A1 (ko) 2014-03-20

Family

ID=50278466

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/008235 Ceased WO2014042439A1 (ko) 2012-09-13 2013-09-11 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치

Country Status (6)

Country Link
US (1) US9633662B2 (ko)
EP (1) EP2897127B1 (ko)
JP (1) JP6139685B2 (ko)
KR (1) KR20150056770A (ko)
CN (1) CN104718570B (ko)
WO (1) WO2014042439A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10424305B2 (en) 2014-12-09 2019-09-24 Dolby International Ab MDCT-domain error concealment

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2915437C (en) 2013-06-21 2017-11-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
CN104301064B (zh) 2013-07-16 2018-05-04 华为技术有限公司 处理丢失帧的方法和解码器
CN105225666B (zh) * 2014-06-25 2016-12-28 华为技术有限公司 处理丢失帧的方法和装置
US9837094B2 (en) * 2015-08-18 2017-12-05 Qualcomm Incorporated Signal re-use during bandwidth transition period
WO2017153300A1 (en) 2016-03-07 2017-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Error concealment unit, audio decoder, and related method and computer program using characteristics of a decoded representation of a properly decoded audio frame
CN109313905B (zh) 2016-03-07 2023-05-23 弗劳恩霍夫应用研究促进协会 隐藏音频帧丢失的错误隐藏单元、音频解码器及相关方法
CN107248411B (zh) * 2016-03-29 2020-08-07 华为技术有限公司 丢帧补偿处理方法和装置
WO2018218081A1 (en) * 2017-05-24 2018-11-29 Modulate, LLC System and method for voice-to-voice conversion
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
WO2022076923A1 (en) 2020-10-08 2022-04-14 Modulate, Inc. Multi-stage adaptive system for content moderation
US12341619B2 (en) 2022-06-01 2025-06-24 Modulate, Inc. User interface for content moderation of voice chat

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006030609A (ja) * 2004-07-16 2006-02-02 Yamaha Corp 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム
KR20060035998A (ko) * 2004-10-23 2006-04-27 삼성전자주식회사 음소별 코드북 매핑에 의한 음색변환방법
US20070094009A1 (en) * 2005-10-26 2007-04-26 Ryu Sang-Uk Encoder-assisted frame loss concealment techniques for audio coding
KR20110002070A (ko) * 2008-05-22 2011-01-06 후아웨이 테크놀러지 컴퍼니 리미티드 프레임 손실 은폐를 위한 방법 및 장치
KR20110095236A (ko) * 2008-09-10 2011-08-24 성준형 디바이스 인터페이싱을 위한 다중모드 조음 통합

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
CN101375330B (zh) * 2006-08-15 2012-02-08 美国博通公司 丢包后解码音频信号的时间扭曲的方法
JP5123516B2 (ja) * 2006-10-30 2013-01-23 株式会社エヌ・ティ・ティ・ドコモ 復号装置、符号化装置、復号方法及び符号化方法
PT2571024E (pt) * 2007-08-27 2014-12-23 Ericsson Telefon Ab L M Frequência de transição adaptativa entre preenchimento de ruído e extensão da largura de banda
BRPI0915358B1 (pt) * 2008-06-13 2020-04-22 Nokia Technologies Oy método e aparelho para a ocultação de erro de quadro em dados de áudio codificados usando codificação de extensão
CN101777960B (zh) 2008-11-17 2013-08-14 华为终端有限公司 音频编码方法、音频解码方法、相关装置及通信系统
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
RU2601188C2 (ru) * 2012-02-23 2016-10-27 Долби Интернэшнл Аб Способы и системы для эффективного восстановления высокочастотного аудиоконтента

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006030609A (ja) * 2004-07-16 2006-02-02 Yamaha Corp 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム
KR20060035998A (ko) * 2004-10-23 2006-04-27 삼성전자주식회사 음소별 코드북 매핑에 의한 음색변환방법
US20070094009A1 (en) * 2005-10-26 2007-04-26 Ryu Sang-Uk Encoder-assisted frame loss concealment techniques for audio coding
KR20110002070A (ko) * 2008-05-22 2011-01-06 후아웨이 테크놀러지 컴퍼니 리미티드 프레임 손실 은폐를 위한 방법 및 장치
KR20110095236A (ko) * 2008-09-10 2011-08-24 성준형 디바이스 인터페이싱을 위한 다중모드 조음 통합

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10424305B2 (en) 2014-12-09 2019-09-24 Dolby International Ab MDCT-domain error concealment
US10923131B2 (en) 2014-12-09 2021-02-16 Dolby International Ab MDCT-domain error concealment

Also Published As

Publication number Publication date
CN104718570A (zh) 2015-06-17
EP2897127B1 (en) 2017-11-08
JP6139685B2 (ja) 2017-05-31
CN104718570B (zh) 2017-07-18
JP2015534115A (ja) 2015-11-26
US9633662B2 (en) 2017-04-25
KR20150056770A (ko) 2015-05-27
EP2897127A1 (en) 2015-07-22
US20150255074A1 (en) 2015-09-10
EP2897127A4 (en) 2016-08-17

Similar Documents

Publication Publication Date Title
JP6139685B2 (ja) 損失フレーム復元方法及びオーディオ復号化方法とそれを利用する装置
JP4861196B2 (ja) Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
CN101878504B (zh) 使用时间分辨率能选择的低复杂性频谱分析/合成
JP6789365B2 (ja) 音声符号化装置および方法
JP4950210B2 (ja) オーディオ圧縮
US6351730B2 (en) Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
CN105793924B (zh) 使用错误隐藏提供经解码的音频信息的音频解码器及方法
US20070147518A1 (en) Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
US20130030797A1 (en) Efficient temporal envelope coding approach by prediction between low band signal and high band signal
CN102918590B (zh) 编码方法和装置、以及解码方法和装置
US9472199B2 (en) Voice signal encoding method, voice signal decoding method, and apparatus using same
EP3928312A1 (en) Methods for phase ecu f0 interpolation split and related controller
KR20150096483A (ko) 디지털 오디오 신호 내의 프리-에코의 효과적인 감쇠
CN102160114B (zh) 用于对数字音频信号中的前回声进行衰减的方法和装置
US7805314B2 (en) Method and apparatus to quantize/dequantize frequency amplitude data and method and apparatus to audio encode/decode using the method and apparatus to quantize/dequantize frequency amplitude data
Geiser et al. Joint pre-echo control and frame erasure concealment for VoIP audio codecs

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13837778

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20157006324

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14427778

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2015531852

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

REEP Request for entry into the european phase

Ref document number: 2013837778

Country of ref document: EP