WO2010032992A2 - Mdct기반의 코너와 이종의 코더간 변환에서의 인코딩 장치 및 디코딩 장치 - Google Patents
Mdct기반의 코너와 이종의 코더간 변환에서의 인코딩 장치 및 디코딩 장치 Download PDFInfo
- Publication number
- WO2010032992A2 WO2010032992A2 PCT/KR2009/005340 KR2009005340W WO2010032992A2 WO 2010032992 A2 WO2010032992 A2 WO 2010032992A2 KR 2009005340 W KR2009005340 W KR 2009005340W WO 2010032992 A2 WO2010032992 A2 WO 2010032992A2
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- block
- window
- input signal
- current frame
- characteristic signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
Definitions
- the present invention relates to a method and apparatus for incorporating MDCT-based audio coders and other voice / audio coders to cancel distortions generated when converting between different types of coders when encoding or decoding an audio signal.
- performance and sound quality may be maximized by applying different encoding and decoding methods according to characteristics of the input signal. For example, it is more efficient to apply a CELP (Code Excited Linear Prediction) encoder to a signal that has similar characteristics to speech, and to apply a frequency conversion based encoder to a signal such as audio.
- CELP Code Excited Linear Prediction
- the integrated encoder can receive continuous input signals over time and analyze the characteristics of the input signals at specific times. Thereafter, the integrated encoder may encode the input signal by applying different types of encoding apparatuses through switching according to characteristics of the input signal.
- signal distortion may occur when switching signals. Since the integrated encoder encodes the input signal in units of blocks, blocking artifacts may occur when different types of encoding are applied. In order to solve this problem, the integrated encoder may perform an overlap operation by applying a window to blocks to which different encodings are applied.
- the integrated encoder may perform an overlap operation by applying a window to blocks to which different encodings are applied.
- such a method requires additional bit stream information due to overlap, and an additional bit stream for removing distortion between blocks may increase when switching occurs frequently. If the bitstream is increased, the encoding efficiency may be degraded.
- the integrated coder may encode the audio characteristic signal by using an encoding apparatus of a modified discrete cosine transform (MDCT) transform scheme.
- MDCT conversion method refers to a method of converting an input signal in the time domain into an input signal in the frequency domain and performing an overlap operation between blocks.
- the MDCT conversion method has an advantage that the bit rate does not increase even when the overlap operation is performed.
- the MDCT conversion method has an disadvantage of causing aliasing in the time domain.
- the current block to be output may be decoded dependently on the output result of the previous block.
- the previous block is not encoded through the MDCT transform in the integrated encoder, the current block encoded through the MDCT transform cannot utilize the MDCT information of the previous block and thus cannot be decoded through the overlap operation. Therefore, when the integrated coder encodes the current block through MDCT transformation after switching, the integrated coder additionally requires MDCT information on the previous block.
- the present invention provides an encoding method and apparatus, and a decoding method and apparatus for minimizing MDCT information required for switching while removing signal distortion between blocks.
- An encoding apparatus includes a first encoding unit for encoding a speech characteristic signal of an input signal according to a heterogeneous coding scheme different from an MDCT-based coding scheme and the MDCT-based coding scheme. And a second encoding unit encoding an audio characteristic signal of an input signal, wherein the second encoding unit is a voice characteristic signal in a current frame of the input signal, and when switching between current audio characteristic signals occurs,
- the generated folding point may be encoded by applying an analysis window that does not exceed the folding point at the transformation point.
- the folding point means a portion where an aliasing signal generated when performing MDCT transformation / inverse transformation is folded.
- the folding point is N / 4, 3 * N / 4 points. Since this is one of the well-known characteristics occurring in the MDCT transformation, a description of the mathematical basis will be omitted in the present invention, and a simple concept of the MDCT transformation and the folding point will be described with reference to FIG. 5.
- switching is generated for the folding point, i.e., when the previous frame signal is a voice characteristic signal, and the signal of the current frame is an audio specific signal.
- the name of the folding point used at the time of connection will be referred to as a 'folding point at which switching occurs' and will be used in the following description.
- the folding point used when connecting heterogeneous characteristic signals is called a 'folding point where switching occurs'. I will order it.
- An encoding apparatus includes a window processor for applying an analysis window to a current frame of an input signal, an MDCT converter for MDCT converting a current frame to which the analysis window is applied, and encoding the MDCT converted current frame. And a bit stream generating unit configured to generate a bit stream of the input signal, wherein the window processing unit is a folding device in which a switching occurs between audio characteristic signals of which a previous frame signal is a voice characteristic signal and a current frame in a current frame of the input signal. If the point 'is present, it is possible to apply an analysis window that does not exceed the folding point.
- a decoding apparatus includes a first decoding unit for decoding a speech characteristic signal of an input signal encoded according to a heterogeneous coding scheme different from an MDCT-based coding scheme, and the MDCT-based coding scheme. And a second decoder to decode an audio characteristic signal of the encoded input signal, and a block compensator to restore an input signal by performing block compensation on the result of the first decoder and the result of the second decoder.
- the compensator may apply a synthesis window not exceeding the folding point when there is a 'folding point at which switching occurs' between the voice characteristic signal and the audio characteristic signal in the current frame of the input signal.
- the decoding apparatus provides an additional information derived from the current frame and the voice characteristic signal when a 'folding point at which switching occurs' occurs between the voice characteristic signal and the audio characteristic signal in the current frame of the input signal. It may include a block compensation unit for restoring the input signal by applying a synthesis window to each information.
- signal distortion between blocks may be eliminated while minimizing additional MDCT information required when switching between heterogeneous coders occurs according to characteristics of an input signal.
- coding efficiency may be improved by preventing an increase in bit rate.
- FIG. 1 is a diagram illustrating an encoding apparatus and a decoding apparatus according to an embodiment of the present invention.
- FIG. 2 is a block diagram illustrating a detailed configuration of an encoding apparatus according to an embodiment of the present invention.
- FIG. 3 is a diagram illustrating a process of encoding an input signal through a second encoding unit according to an embodiment of the present invention.
- FIG. 4 is a diagram illustrating a process of encoding an input signal through window processing according to an embodiment of the present invention.
- FIG. 5 is a diagram illustrating an MDCT conversion process according to an embodiment of the present invention.
- FIG. 6 is a diagram illustrating a process (C1, C2) for performing heterogeneous encoding according to an embodiment of the present invention.
- FIG. 7 is a diagram illustrating a process of generating a bit stream in the case of C1 according to an embodiment of the present invention.
- FIG. 8 is a diagram illustrating a process of encoding an input signal through window processing in the case of C1 according to an embodiment of the present invention.
- FIG. 9 is a diagram illustrating a process of generating a bit stream in the case of C2 according to an embodiment of the present invention.
- FIG. 10 is a diagram illustrating a process of encoding an input signal through window processing in the case of C2 according to an embodiment of the present invention.
- FIG. 11 is a diagram illustrating additional information applied when encoding an input signal according to an embodiment of the present invention.
- FIG. 12 is a block diagram showing a detailed configuration of a decoding apparatus according to an embodiment of the present invention.
- FIG. 13 is a diagram illustrating a process of decoding a bit stream through a second decoding unit according to an embodiment of the present invention.
- FIG. 14 is a diagram illustrating a process of deriving an output signal through an overlap operation according to an embodiment of the present invention.
- 15 is a diagram illustrating a process of generating an output signal in the case of C1 according to an embodiment of the present invention.
- 16 is a diagram illustrating a process of performing block compensation in the case of C1 according to an embodiment of the present invention.
- 17 is a diagram illustrating a process of generating an output signal in the case of C2 according to an embodiment of the present invention.
- FIG. 18 is a diagram illustrating a process of performing block compensation in the case of C2 according to an embodiment of the present invention.
- FIG. 1 is a diagram illustrating an encoding apparatus and a decoding apparatus according to an embodiment of the present invention.
- the encoding apparatus 101 may generate a bit stream by encoding an input signal in units of blocks.
- the encoding apparatus 101 may encode a voice characteristic signal representing a feature similar to a voice and an audio characteristic signal representing a feature similar to the audio.
- a bit stream for the input signal can be generated and passed to the decoding device 102.
- the decoding apparatus 101 may restore the encoded input signal by decoding the bit stream to generate an output signal.
- the encoding apparatus 101 may analyze a state of a continuous input signal in time and switch to apply an encoding method corresponding to a characteristic of the input signal according to a result of the state analysis of the input signal. Therefore, the encoding apparatus 101 may encode blocks to which heterogeneous coding schemes are applied. As an example, the encoding apparatus 101 may encode the voice characteristic signal according to the CELP scheme and may encode the audio characteristic signal according to the MDCT scheme. On the contrary, the decoding apparatus 102 may decode the input signal encoded according to the CELP scheme according to the CELP scheme, restore the input signal, and decode the input signal encoded according to the MDCT scheme according to the MDCT scheme, to restore the input signal. have.
- the encoding apparatus 101 may convert and encode from the CELP method to the MDCT method through switching. Since the encoding is performed in units of blocks, interblock distortion may occur. In this case, the decoding apparatus 102 may remove the inter-block distortion through the inter-block overlap operation.
- the MDCT information of the previous block is required to restore the current block.
- the previous block is encoded according to the CELP scheme, since the MDCT information of the previous block does not exist, the current block cannot be restored according to the MDCT transformation scheme. Accordingly, additional MDCT transformation information is required for the previous block, and the encoding apparatus 101 according to an embodiment of the present invention can minimize the additional MDCT transformation information to prevent an increase in the bit rate.
- FIG. 2 is a block diagram illustrating a detailed configuration of an encoding apparatus according to an embodiment of the present invention.
- the encoding apparatus 101 may include a block delay unit 201, a state analyzer 202, a signal truncation unit 203, a first encoding unit 204, and a second encoding unit 205. Can be.
- the block delay unit 201 may delay the input signal in block units.
- the input signal may be processed block by block for encoding.
- the block delay unit 201 may delay the input current block in the past ( ⁇ ) or in the future delay (+).
- the state analyzer 202 may determine the characteristics of the input signal. For example, the state analyzer 202 may determine whether the input signal is a voice characteristic signal or an audio characteristic signal. At this time, the output of the state analyzer 202 may output a control variable. The control variable allows the determination of which encoding scheme to encode the current block of the input signal.
- the state analyzer 202 analyzes the characteristics of the input signal so that (1) the Steady-Harmonic (SH) State, which clearly and stably shows the harmonic component, and (2) the periodicity of the harmonic component are relatively long and low.
- a signal section corresponding to a low steady state (LSH) state exhibiting strong steady characteristics in the frequency band and a steady-noise (SN) state, which is a white noise state, may be determined as a voice characteristic signal.
- the state analyzer 202 analyzes the characteristics of the input signal (4) Complex-Harmonic (CH) State representing a complex harmonic structure by mixing several tone components, (5) Complex-Noisy including unstable noise components
- the signal section corresponding to the (CN) state may be determined as an audio characteristic signal.
- the signal period may correspond to the block unit of the input signal.
- the signal cutter 203 may cut the input signal into blocks to form a plurality of sub-set signals.
- the first encoder 204 may encode a voice characteristic signal among the input signals in block units.
- the first encoding unit 204 may encode the voice characteristic signal according to LPC (Linear Predictive Coding) in the time domain.
- the first encoding unit 204 may encode the voice characteristic signal according to a CELP-based coding scheme. Although only one first encoding unit 204 is illustrated in FIG. 3, one or more first encoding units 204 may be configured.
- the second encoder 205 may encode the audio characteristic signal among the input signals in block units.
- the second encoding unit 205 may convert the audio characteristic signal from the time domain to the frequency domain and encode it.
- the second encoding unit 205 may encode the audio characteristic signal according to an MDCT-based coding scheme.
- the encoding result of the first encoding unit 204 and the second encoding unit 205 is generated in the bit stream, and the bit stream generated in each encoding unit may be adjusted to one bit stream through the bit stream MUX.
- the encoding apparatus 101 may switch according to the control variable of the state analyzer 202 to encode the input signal through either the first encoder 204 or the second encoder 205.
- the first encoding unit 204 may encode the voice characteristic signal of the input signal according to a heterogeneous coding scheme different from the MDCT-based coding scheme.
- the second encoder 205 may encode the audio characteristic signal of the input signal according to the MDCT-based coding scheme.
- FIG. 3 is a diagram illustrating a process of encoding an input signal through a second encoding unit according to an embodiment of the present invention.
- the second encoder 205 may include a window processor 301, an MDCT converter 302, and a bitstream generator 303.
- X (b) represents a basic block unit of the input signal.
- the input signal will be described in detail with reference to FIGS. 4 and 6.
- the input signal may be input to the window processor 301.
- the input signal may be input to the window processor 301 through the block delay unit 201.
- the window processor 301 may apply an analysis window to the current frame of the input signal.
- the window processor 301 may apply an analysis window to the past block X (b-2) in which the current block has been delayed in the past through the current block X (b) and the block delay unit 201. .
- the window processor 301 may apply an analysis window not exceeding the folding point to the current frame when there is a 'folding point at which switching occurs' between the voice characteristic signal and the audio characteristic signal in the current frame.
- the window processing unit 301 may include a window corresponding to the first sub block representing the voice characteristic signal, a window corresponding to the additional information area among the second sub blocks, and a second sub block representing the audio characteristic signal based on the folding point.
- An analysis window composed of windows corresponding to the remaining areas of the screen may be applied.
- the window corresponding to the first sub block may be 0, and the window corresponding to the remaining area of the second sub block may have a value of 1.
- the degree of block delay performed by the block delay unit 201 may vary depending on the block unit configuring the input signal.
- the analysis signal is applied to the input signal ⁇ X (b-2), X (b) ⁇ . W analysis can be derived.
- the MDCT converter 302 may MDCT convert the current frame to which the analysis window is applied.
- the bitstream generator 303 may generate a bitstream of the input signal by encoding a current frame of the MDCT-converted input signal.
- FIG. 4 is a diagram illustrating a process of encoding an input signal through window processing according to an embodiment of the present invention.
- the window processor 301 may apply an analysis window to an input signal.
- the analysis window may be in the form of a rectangle or sine.
- the shape of the analysis window may change according to the input signal.
- the window processing unit 301 analyzes the analysis window in the past block X (b-2) and the current block X (b) which have been delayed in the past through the block delay unit 102.
- W analysis can be applied.
- the input signal may be set in block X (b) according to Equation 1 as a basic unit.
- the input signal may be encoded by setting two blocks to one frame.
- N may mean the size of a block constituting the input signal. That is, the input signal may be composed of a plurality of blocks, and each block may be composed of two sub blocks. The number of sub blocks included in one block may be changed according to the configuration of the system or an input signal.
- the analysis window may be defined according to the following equation (3).
- the result of applying the analysis window to the current block of the input signal may be expressed according to Equation 4 below.
- the analysis window may be applied to two blocks.
- the analysis window may be applied to four sub-blocks.
- the window processor 301 performs a point by point multiplication operation on N-Points of the input signal.
- N-Point is the MDCT transform size. That is, the window processor 301 may perform a multiplication operation between regions corresponding to the sub block among the sub block and the analysis window.
- the MDCT converter 302 may perform MDCT conversion on the input signal processed by the analysis window.
- FIG. 5 is a diagram illustrating an MDCT conversion process according to an embodiment of the present invention.
- the input signal includes a frame composed of a plurality of blocks, and one block may be composed of two sub blocks.
- the encoding device 101 is a sub block constituting the current frame To input signals separated by You can apply analysis window and analysis separated by.
- an MDCT / quantization / IMDCT Inverse MDCT
- an original part and an aliasing area are generated.
- the decoding apparatus 102 may derive an output signal by applying a synthesis window to the encoded input signal and eliminating aliasing occurring in the MDCT conversion process through an overlap Add operation.
- FIG. 6 is a diagram illustrating a process (C1, C2) for performing heterogeneous encoding according to an embodiment of the present invention.
- C1 (Change Case I) and C2 (Change Case II) indicate a boundary of an input signal to which a heterogeneous encoding scheme is applied.
- Subblocks (s (b-5), s (b-4), s (b-3), s (b-2)) present on the left centering on C1 mean a voice characteristic signal and exist on the right side.
- the sub blocks s (b-1), s (b), s (b + 1), and s (b + 2) denote audio signal.
- the subblocks s (b + m-1) and s (b + m) present on the left side of C2 represent an audio characteristic signal and the subblocks s (b + m + present on the right side. 1), s (b + m + 2)) means a voice characteristic signal.
- the decoding apparatus 102 may remove the inter-block distortion through an overlap operation using both the past block and the current block.
- additional information for MDCT-based decoding is needed.
- additional information S oL (b-1) is required
- additional information S hL (b + m) is required.
- the encoding apparatus 101 may encode additional information for restoring the audio characteristic signal when switching between the voice characteristic signal and the audio characteristic signal occurs.
- the additional information may be encoded through the first encoding unit 204 for encoding the voice characteristic signal.
- the region corresponding to SOL (b-1) is encoded as additional information in s (b-2), which is the speech characteristic signal
- s (b + m + which is the speech characteristic signal In 1
- a region corresponding to S hL (b + m) may be encoded as additional information.
- FIG. 7 is a diagram illustrating a process of generating a bit stream in the case of C1 according to an embodiment of the present invention.
- the state analyzer 202 may analyze the state of the block.
- block X (b) is an audio characteristic signal
- block X (b-2) is a voice characteristic signal
- the state analyzer 202 is arranged between block X (b) and block X (b-2). It can be appreciated that C1 has occurred at an existing folding point. Then, the control information indicating that C1 is generated may be transmitted to the block delay unit 201, the window processing unit 301, and the first encoding unit 204.
- Block X (b) of the input signal When the block X (b) of the input signal is input, the block X (b + 2) having a future delay (+2) is input to the window processor 301 through the block X (b) and the block delay unit 201. Then, in FIG. 6, block X (b) consisting of subblocks s (b-1) and s (b) and block X (b +) consisting of subblocks s (b + 1) and s (b + 2) For 2) an analysis window is applied. Blocks X (b) and X (b + 2) to which the analysis window is applied are MDCT-converted through the MDCT converter 302, and MDCT-converted blocks are encoded through the bit stream generator 303 to block X of the input signal. The bit stream for (b) is generated.
- Block delay unit 201 delays the block X (b) past (-1) to block X ( b-1) can be derived.
- Block X (b-1) is composed of subblocks s (b-2) and S (b-1).
- the signal truncation unit 203 may perform signal truncation to extract S oL (b-1) corresponding to additional information in the block X (b-1).
- SO (b-1) may be determined according to Equation 5 below.
- N means the size of a block for MDCT transform.
- the first encoding unit 204 may encode a portion of the speech characteristic signal corresponding to the additional information area for the overlap between blocks based on the folding point at which the audio characteristic signal and the speech characteristic signal are switched.
- the first encoding unit 204 may encode S oL (b-1) corresponding to the additional information area oL in the sub block s (b-2) which is a voice characteristic signal. That is, the first encoding unit 204 encodes the additional information SO o (b-1) extracted through the signal cutting unit 203 to generate a bit stream for SO o (b-1). That is, when C1 occurs, the first encoding unit 204 may generate only a bit stream for S oL (b-1), which is additional information. When C1 occurs, SO (b-1) is used as additional information for removing inter-block distortion.
- the first encoding unit 204 may not encode SO L (b-1). .
- FIG. 8 is a diagram illustrating a process of encoding an input signal through window processing in the case of C1 according to an embodiment of the present invention.
- a folding point 'switched' from the voice characteristic signal to the audio characteristic signal is located between the zero subblock as the voice characteristic signal and the sub block S (b-1) as the audio characteristic signal.
- the window processor 301 may apply an analysis window to the input current frame.
- the window processor 301 can be encoded by applying the analysis window not exceeding the folding point to the current frame.
- the window processing unit 301 may include a window corresponding to the first sub block representing the voice characteristic signal and a window corresponding to the additional information area among the second sub blocks representing the audio characteristic signal based on the folding point.
- An analysis window composed of windows corresponding to the remaining areas of the screen may be applied.
- the window corresponding to the first sub block may be 0, and the window corresponding to the remaining area of the second sub block may be 1.
- the folding point is located at N / 4 point in the current frame composed of sub-blocks of size N / 4.
- the analysis window is a window corresponding to the zero sub-block which is a voice characteristic signal , May be of a W 2 consisting of S (b-1) the window corresponding to the window and the remaining areas N / 4-oL area corresponding to the additional information area oL of the sub-block indicating the audio characteristic signal.
- the window processing unit 301 analyzes the window for the zero sub-block which is the voice characteristic signal. Can be replaced with zero.
- the window processing unit 301 also analyzes the window corresponding to the sub block s (b-1) representing the audio characteristic signal. It can be determined according to the following equation (6).
- the analysis window applied to the subblock s (b-1) May include an oL area which is an additional information area, an additional information area oL, and the remaining area N / 4-oL.
- the remaining area may be configured as one.
- Is The first half of the sine-window of size. oL means the size for overlap operation between blocks in C1, Wow Determine the size of. And, in the block sample 800, the block sample Is defined for later description.
- the first encoding unit 204 may encode a portion corresponding to the additional information area in a sub block representing a voice characteristic signal for inter-block overlap with respect to the folding point.
- the first encoding unit 204 may encode a portion corresponding to oL as an additional information area in s (b-2) corresponding to a zero block, as additional information.
- the first encoding unit 204 may encode a portion corresponding to the additional information region according to an MDCT-based coding scheme and a heterogeneous coding scheme.
- the window processor 301 may apply a sine type analysis window to an input signal. However, when C1 occurs, the window processing unit 301 may set the analysis window corresponding to the sub block zero located before the folding point C1 to zero.
- the window processing unit 301 includes an analysis window corresponding to the sub block s (b-1) located after C1 and includes an analysis window corresponding to the additional information area oL and an analysis window corresponding to the remaining area N / 4-oL. Can be set to The analysis window corresponding to the remaining area is 1 and the analysis window corresponding to the additional information area may be the first half of the sine signal.
- the MDCT converter 302 inputs an input signal to which the analysis window shown in FIG. 8 is applied. You can perform an MDCT transformation on.
- FIG. 9 is a diagram illustrating a process of generating a bit stream in the case of C2 according to an embodiment of the present invention.
- the state analyzer 202 may analyze the state of the block. As shown in FIG. 6, the sub block s (b + m) is an audio characteristic signal, and when the subblock s (b + m + 1) is a voice characteristic signal, the state analyzer 202 indicates that C2 has occurred. It can be recognized. Then, control information indicating that C2 has occurred may be transmitted to the block delay unit 201, the window processing unit 301, and the first encoding unit 204.
- block X (b + m-1) of the input signal When block X (b + m-1) of the input signal is input, block X (b + m + 1) having a future delay (+2) through block X (b + m-1) and block delay unit 201 Is input to the window processing unit 301. Then, in block C (b + m + 1) and subblock s (b + m-2) and s (b) consisting of subblocks s (b + m) and s (b + m + 1) in FIG. The analysis window is applied to block X (b + m-1) consisting of + m-1).
- the window processing unit 301 may apply an analysis window not exceeding the folding point to the audio characteristic signal.
- Blocks X (b + m-1) and X (b + m-1) to which the analysis window is applied are MDCT-converted by the MDCT converter 302, and the MDCT-converted blocks are encoded by the bit stream generator 303. The result is a bit stream for block X (b + m-1) of the input signal.
- the block delay unit 201 sets the block X (b + m-1) as a future delay ( +1) to derive block X (b + m).
- Block X (b + m) is composed of subblocks s (b + m-1) and S (b + m).
- the signal truncation unit 203 may perform signal truncation on the block X (b + m) to derive only S hL (b + m).
- S hL (b + m) may be determined according to Equation 7 below.
- N means the size of a block for MDCT transform.
- the first encoding unit 204 encodes the additional information S hL (b + m) to generate a bit stream for S hL (b + m). That is, when C2 occurs, the first encoding unit 204 may generate only a bit stream for S hL (b + m) which is additional information. When C2 occurs, S hL (b + m) is used as additional information for removing inter-block distortion.
- FIG. 10 is a diagram illustrating a process of encoding an input signal through window processing in the case of C2 according to an embodiment of the present invention.
- the folding point C2 that is switched from the audio characteristic signal to the speech characteristic signal is located between the sub blocks s (b + m) and s (b + m + 1). That is, when the current frame shown in FIG. 10 is composed of N / 4 sized subblocks, the folding point C2 is located at the 3N / 4 point.
- the window processor 301 may apply an analysis window not exceeding the folding point to the audio characteristic signal when there is a 'folding point at which switching occurs' between the voice characteristic signal and the audio characteristic signal in the current frame of the input signal. Can be. That is, the window processor 301 may apply the analysis window to the input current frame.
- the window processing unit 301 may include a window corresponding to the first sub-block indicating the voice characteristic signal and a window corresponding to the additional information area among the second sub-blocks indicating the audio characteristic signal.
- An analysis window composed of windows corresponding to the remaining areas may be applied.
- the window corresponding to the first sub block may be 0, and the window corresponding to the remaining area of the second sub block may be 1.
- the folding point is located at 3N / 4 point in the current frame composed of sub-blocks of size N / 4.
- the window processing unit 301 analyzes the window corresponding to s (b + m + 1) representing the voice characteristic signal Can be replaced with zero.
- the window processing unit 301 also analyzes the window corresponding to the sub block s (b + m) representing the audio characteristic signal. Can be determined according to Equation 8 below.
- the analysis window applied to the sub-block s (b + m) representing the audio characteristic signal around the folding point May include a window corresponding to hL, which is an additional information area, and a remaining area N / 4-oL.
- the window corresponding to the remaining area may be configured as one.
- Is Means the second half of the sine-window of size.
- hL means the size for overlap operation between blocks in C2, Wow Determine the size of.
- the first encoding unit 204 may encode a portion corresponding to the additional information area in a sub block representing a voice characteristic signal for inter-block overlap with respect to the folding point.
- the first encoding unit 204 may encode a portion corresponding to hL, which is an additional information region, in the s (b + m + 1) subblock as additional information.
- the first encoding unit 204 may encode a portion corresponding to the additional information region according to an MDCT-based coding scheme and a heterogeneous coding scheme.
- the window processor 301 may apply a sine type analysis window to an input signal. However, when C2 occurs, the window processing unit 301 may set the analysis window corresponding to the sub block located after the folding point C2 to zero.
- the window processing unit 301 includes an analysis window corresponding to the sub block s (b + m) located before C2 and an analysis window corresponding to the additional information area hL and an analysis window corresponding to the remaining area N / 4-hL. Can be set to At this time, the remaining analysis window has a value of 1.
- the MDCT converter 302 inputs an input signal to which the analysis window illustrated in FIG. 10 is applied. You can perform an MDCT transformation on.
- FIG. 11 is a diagram illustrating additional information applied when encoding an input signal according to an embodiment of the present invention.
- the additional information 1101 corresponds to a part of the sub block representing the voice characteristic signal centering on the folding point C1
- the additional information 1102 corresponds to a part of the sub block representing the voice characteristic signal centering on the folding point C2. do.
- a synthesis window reflecting the first half of the additional information 1101 may be applied to the sub block corresponding to the audio characteristic signal existing after C1.
- the remaining area N / 4-oL may be replaced with one.
- a synthesis window reflecting the second half hL of the additional information 1102 may be applied to the subblock corresponding to the audio characteristic signal existing before C2.
- the remaining area N / 4-hL may be replaced with one.
- FIG. 12 is a block diagram showing a detailed configuration of a decoding apparatus according to an embodiment of the present invention.
- the decoding apparatus 102 may include a block delay unit 1201, a first decoding unit 1202, a second decoding unit 1203, and a block compensator 1204.
- the block delay unit 1201 may later or past delay the corresponding block according to the control variables C1 and C2 included in the input bit stream.
- the decoding apparatus 102 may determine to decode the bit stream in either the first decoding unit 1202 or the second decoding unit 1203 by switching the decoding scheme according to the control variable of the input bit stream.
- the first decoding unit 1202 may decode the encoded voice characteristic signal
- the second decoding unit 1202 may decode the encoded audio characteristic signal.
- the first decoding unit 1202 may decode the voice characteristic signal according to the CELP scheme
- the second decoding unit 1202 may decode the audio characteristic signal according to the MDCT scheme.
- the result decoded by the first decoder 1202 and the second decoder 1203 is derived as a final input signal through the block compensator 1204.
- the block compensator 1204 may restore the input signal by performing block compensation on the result of the first decoder 1202 and the result of the second decoder 1203. For example, the block compensator 1204 may apply a synthesis window that does not exceed the folding point when there is a 'switching folding point' between the voice characteristic signal and the audio characteristic signal in the current frame of the input signal.
- the block compensator 1204 applies the first synthesis window to the additional information derived from the first decoder 1202, and applies the second synthesis window to the current frame derived from the second decoder 1203. You can apply the overlap operation.
- the block compensator 1204 is configured by 0 for the first sub block representing the voice characteristic signal based on the folding point, and is configured by the additional information area and 1 for the second sub block representing the audio characteristic signal. You can apply a window to the current frame.
- the block compensation unit 1204 will be described in detail with reference to FIGS. 16 and 18.
- FIG. 13 is a diagram illustrating a process of decoding a bit stream through a second decoding unit according to an embodiment of the present invention.
- the second decoding unit 1203 may include a bit stream reconstruction unit 1301, an IMDCT converter 1302, a window synthesis unit 1303, and an overlap operation unit 1304.
- the bit stream recovery unit 1301 may decode the input bit stream.
- the IMDCT converter 1302 may convert the decoded signal into samples in the time domain through inverse MDCT (IMDCT) transformation.
- IMDCT inverse MDCT
- the Y (b) transformed by the IMDCT converter 1302 may be input to the window synthesizer 1303 after being delayed in the past through the block delay unit 1201.
- Y (b) may be directly input to the window synthesizing unit 1303 without passing through a past delay.
- Y (b) is It can have a value of.
- X (b) means the current block input through the second encoding unit 205 in FIG. 3.
- the window synthesizing unit 1303 may apply a synthesis window to the input Y (b) and the past delayed Y (b-2). When C1 and C2 do not occur, the window synthesis unit 1303 may apply the synthesis window to Y (b) and Y (b-2) in the same manner.
- the window synthesis unit 1303 may apply a synthesis window to the input Y (b) as shown in Equation 9 below.
- the synthesis window W systhesis may be the same as the analysis window W analysis .
- the overlap operator 1304 may perform a 50% overlap add operation on the result of applying the synthesis window to Y (b) and Y (b-2). Result derived by the overlap calculation unit 1304 May have a value of Equation 10 below.
- FIG. 14 is a diagram illustrating a process of deriving an output signal through an overlap operation according to an embodiment of the present invention.
- the windows 1401, 1402, and 1403 shown in FIG. 14 mean a composite window.
- the overlap operation unit 1304 overlaps the block 1405 to which the synthesis window 1402 is applied, the block 1406 and the block 1404 to which the synthesis window 1401 is applied, and blocks 1405 to output the block 1405. can do.
- the overlap operation unit 1304 overlaps the block 1405 to which the synthesis window 1402 is applied, the block 1406 and the block 1406 to which the synthesis window 1403 is applied, and blocks 1407 to perform an overlap add operation. 1406).
- the overlap operation unit 1304 may derive a sub block constituting the current block by performing an overlap operation on the current block and the past delayed past block. At this time, each block represents an audio characteristic signal associated with the MDCT transform.
- block 1404 is a voice characteristic signal and block 1405 is an audio characteristic signal (C1 has occurred)
- overlap operation is not possible because block 1404 does not have MDCT conversion information.
- MDCT side information for block 1404 is required for the overlap operation.
- block 1404 is an audio characteristic signal and block 1405 is a speech characteristic signal (C2 has occurred)
- block 1405 does not have MDCT conversion information
- an overlap operation is not possible.
- the MDCT side information for the block 1405 for the overlap operation is required.
- FIG. 15 is a diagram illustrating a process of generating an output signal in the case of C1 according to an embodiment of the present invention. That is, FIG. 15 illustrates a configuration of decoding the input signal encoded through FIG. 7.
- C1 denotes a folding point at which the audio characteristic signal is generated after the voice characteristic signal in the current frame 800 of the input signal. At this time, the folding point is located at the point N / 4 in the current frame 800.
- the bit stream recovery unit 1301 may decode the input bit stream. Thereafter, the IMDCT converter 1302 may perform IMDCT (Inverse MDCT) transform on the decoded result. Thereafter, the window synthesizer 1303 blocks the current frame 800 of the input signal encoded by the second encoder 205. You can apply a composite window for. That is, the second decoding unit 1203 may perform decoding on s (b) and s (b + 1) of blocks not adjacent to the folding point in the current frame 800 of the input signal.
- IMDCT Inverse MDCT
- Block of the current frame 800 through the second decoding unit 1203 Only the input signal corresponding to is restored.
- the current frame 800 has a block Since only exists, the overlap operation unit 1304 is a block in which the overlap add operation is not performed. The input signal corresponding to may be restored.
- block Means a block to which the synthesis window is not applied in the second decoding unit 1203 for the current frame 800.
- the first decoding unit 1202 decodes additional information included in the bit stream and subblocks. You can output
- the final output signal may be generated through the block compensator 1204.
- 16 is a diagram illustrating a process of performing block compensation in the case of C1 according to an embodiment of the present invention.
- the block compensator 1204 may restore the input signal by performing block compensation on the result of the first decoder 1202 and the result of the second decoder 1203. As an example, the block compensator 1204 may apply a synthesis window that does not exceed the folding point when there is a folding point for switching between the voice characteristic signal and the audio characteristic signal with respect to the current frame of the input signal.
- the block compensator 1204 is a subblock On windows Can be applied.
- subblock On windows Block applied Can be derived from Equation 12 below.
- the synthesis window 1601 is applied through the block compensator 1204.
- the block compensator 1204 may correspond to the additional information region oL and the remaining region N / 4-oL among the dnlsehn corresponding to the sub-block indicating the voice characteristic signal and the sub-block indicating the audio characteristic signal around the folding point.
- a composite window composed of windows may be applied to the current frame 800.
- Block with composite window 1601 applied Is as shown in Equation 13.
- the block Denotes a window corresponding to the zero sub block representing the voice characteristic signal and a sub block representing the audio characteristic signal.
- the window corresponding to the zero sub block is 0, and the sub block The window corresponding to the remaining area is one.
- block Subblocks Is determined by the following equation (14).
- the sub-block in the equation (14) Is determined by the following equation (15).
- the sub block in the equation (14) Subblocks corresponding to the remaining regions except for the oL region Is determined by the following equation (16).
- FIG. 17 is a diagram illustrating a process of generating an output signal in the case of C2 according to an embodiment of the present invention. That is, FIG. 17 illustrates a configuration of decoding the input signal encoded through FIG. 9.
- C2 denotes a folding point at which the voice characteristic signal is generated after the audio characteristic signal in the current frame 1000 of the input signal. At this time, the folding point is located at 3N / 4 point in the current frame 1000.
- the bit stream recovery unit 1301 may decode the input bit stream. Thereafter, the IMDCT converter 1302 may perform IMDCT (Inverse MDCT) transform on the decoded result. Thereafter, the window synthesizing unit 1303 blocks the current frame 1000 of the input signal encoded by the second encoding unit 205. You can apply a composite window for. That is, the second decoder 1203 may perform decoding on blocks s (b + m-2) and s (b + m-1) that are not adjacent to the folding point in the current frame 1000 of the input signal. have.
- IMDCT Inverse MDCT
- Equation 17 The result of applying the synthesis window with respect to Equation 17 is as follows.
- Block of the current frame 1000 through the second decoding unit 1203 Only the input signal corresponding to is restored.
- the current frame 1000 has a block Since only there exists, the overlap operation unit 1304 is a block in which no overlap operation is performed. The input signal corresponding to may be restored.
- block Denotes a decoded block to which the synthesis window is not applied in the second decoding unit 1203 for the current frame 1000.
- the first decoding unit 1202 decodes additional information included in the bit stream and subblocks. You can output
- the final output signal may be generated through the block compensator 1204.
- FIG. 18 is a diagram illustrating a process of performing block compensation in the case of C2 according to an embodiment of the present invention.
- the block compensator 1204 may restore the input signal by performing block compensation on the result of the first decoder 1202 and the result of the second decoder 1203. For example, the block compensator 1204 may apply a synthesis window that does not exceed the folding point when the voice characteristic signal and the audio characteristic signal 'switching folding point' exist for the current frame of the input signal.
- the block compensator 1204 is a subblock On windows Can be applied.
- subblock On windows Block applied Can be derived from Equation 18 below.
- the synthesis window 1801 is applied through the block compensator 1204.
- the block compensator 1204 may add a window corresponding to the sub block s (b + m + 1) representing the voice characteristic signal and a sub block s (b + m) representing the audio characteristic signal based on the folding point.
- a composition window including a window corresponding to the information area hL and the remaining areas N / 4-hL may be applied to the current frame 1000. At this time, the window corresponding to the sub block s (b + m + 1) is 0, and the window corresponding to the remaining area N / 4-hL is 1.
- the subblock Corresponds to the hL region Is derived.
- the sub-block in the equation (20) Is determined by the following equation (21).
- the sub block in the equation (20) Subblocks corresponding to the remaining regions except the hL region Is determined by the following equation (22).
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
MDCT기반의 코더와 이종의 코더간 변환에서의 인코딩 장치 및 디코딩 장치가 개시된다. 인코등 장치는 MDCT기반의 코더간 변환이 발생할때, MDCT기반의 코딩방식에 따라 인코딩된 입력신호를 복원하기 위해 부가정보를 코딩할 수 있다. 인코딩 장치에 의하면, 불필요한 비트스트림의 생성을 방지하는 한편, 최소한의 부가정보를 인코딩할 수 있다.
Description
본 발명은 MDCT 기반의 오디오 코더와 다른 음성/오디오 코더를 통합하여 오디오 신호를 인코딩 또는 디코딩할 때 서로 다른 종류의 코더 간 변환 시 발생하는 왜곡을 상쇄하기 위한 방법 및 장치에 관한 것이다.
음성과 오디오가 결합된 형태의 입력 신호에 대해서는 입력 신호의 특성에 따라 인코딩, 디코딩 방법을 달리 적용하면, 성능 및 음질이 극대화 될 수 있다. 예를 들어, 음성과 유사한 특성을 나타낸 신호는 CELP(Code Excited Linear Prediction) 구조의 인코더를 적용하는 것이 효율이 높고, 오디오와 같은 신호는 주파수 변환 기반의 인코더를 적용하는 것이 효율이 높다.
이러한 개념을 적용한 것이 통합 부호화기(USAC: United Sound and Audio Coding)이다. 통합 부호화기는 시간에 대해 연속적인 입력 신호를 수신하고, 특정 시간마다 입력 신호의 특성을 분석할 수 있다. 그런 후, 통합 부호화기는 입력 신호의 특성에 따라 스위칭을 통해 인코딩 장치의 종류를 다르게 적용하여 입력 신호를 인코딩할 수 있다.
이와 같은 통합 부호화기에서 신호의 스위칭시 신호의 왜곡이 발생할 수 있다. 통합 부호화기는 입력 신호를 블록 단위로 인코딩하기 때문에, 서로 다른 방식의 인코딩이 적용되는 경우 블록 간 왜곡(Blocking Artifact)이 발생할 수 있다. 이러한 문제를 해결하기 위해 통합 부호화기는 서로 다른 인코딩이 적용되는 블록들에 윈도우를 적용하여 오버랩 연산을 수행할 수 있다. 그러나, 이와 같은 방법은 오버랩으로 인해 추가 비트 스트림 정보가 필요하고, 스위칭이 빈번하게 발생하는 경우 블록 간의 왜곡을 제거하기 위한 추가적인 비트 스트림이 증가할 수 있다. 비트스트림이 증가하는 경우, 인코딩 효율이 떨어질 수 있다.
특히, 통합 부호화기는 오디오 특성 신호를 MDCT(Modified Discrete Cosine Transform) 변환 방식의 인코딩 장치를 이용하여 인코딩할 수 있다. MDCT 변환 방식은 시간 영역의 입력 신호를 주파수 영역의 입력 신호로 변환하고, 블록 간 오버랩 연산을 수행하는 방식을 의미한다. MDCT 변환 방식은 오버랩 연산을 수행하더라도 비트 레이트가 증가하지 않는 장점이 있으나, 시간 영역에 aliasing을 발생시키는 단점이 있다.
이 때, MDCT 변환 방식에 따라 입력 신호를 복원하기 위해서는 이웃 블록과 50% 오버랩 연산이 수행되어야 한다. 즉, 출력하고자 하는 현재 블록은 이전 블록의 출력 결과에 종속적으로 디코딩될 수 있다. 그러나, 통합 부호화기에서 이전 블록이 MDCT 변환을 통해 인코딩되지 않은 경우, MDCT 변환을 통해 인코딩된 현재 블록은 이전 블록의 MDCT 정보를 활용할 수 없어 오버랩 연산을 통해 디코딩될 수 없다. 따라서, 통합 부호화기는 스위칭 이후 MDCT 변환을 통해 현재 블록을 인코딩하는 경우, 이전 블록에 대한 MDCT 정보를 추가적으로 요구한다.
만약, 스위칭이 빈번하게 발생하는 경우, 디코딩을 위한 추가적인 MDCT 정보가 스위칭 횟수만큼 증가한다. 그러면, 추가적인 MDCT 정보로 인해 비트 레이트가 증가하여 코딩 효율이 현저하게 감소하는 문제점이 있다. 따라서, 스위칭할 때 추가적인 MDCT 정보를 최소화하면서 블록 간 왜곡을 제거할 수 있는 방법이 필요하다.
본 발명은 블록간 신호 왜곡을 제거하면서도 스위칭시 요구하는 MDCT 정보를 최소화하는 인코딩 방법 및 장치와 디코딩 방법 및 장치를 제공한다.
본 발명의 일실시예에 따른 인코딩 장치는 MDCT 기반의 코딩 방식과 다른 이종(hetero)의 코딩 방식에 따라 입력 신호의 음성 특성 신호를 인코딩하는 제1 인코딩부 및 상기 MDCT 기반의 코딩 방식에 따라 상기 입력 신호의 오디오 특성 신호를 인코딩하는 제2 인코딩부를 포함하고, 상기 제2 인코딩부는 상기 입력 신호의 현재 프레임에서 이전 프레임의 신호가 음성 특성 신호이고, 현재 오디오 특성 신호 간에 스위칭이 발생할 경우, MDCT 변환시 발생하는 폴딩 포인트에 대하여, 변환지점에서의 폴딩 포인트를 넘지 않는 분석 윈도우를 적용하여 인코딩할 수 있다. 여기서 폴딩 포인트란 MDCT 변환/역변환을 수행 시, 발생하는 aliasing 신호가 접히는 부분을 의미한다. 이 때, N-point MDCT 수행 시, 폴딩 포인트는 N/4, 3*N/4되는 지점이다. 이는 MDCT 변환에서 발생하는 널리 알려진 특성 중에 하나이므로 그 수학적 근거에 대한 설명은 본 발명에서 생략하기로 하며, 명세서 설명을 위한 MDCT 변환 및 폴딩 포인트의 간단한 개념에 대해서는 도 5에서 설명하기로 한다.
또한, 본 발명의 간결한 설명 및 분명한 이해를 돕기 위해, 상기 폴딩 포인트에 대해서, 즉, 이전 프레임 신호가 음성 특성 신호이고, 현재 프레임의 신호가 오디오 특특 신호일 때, 스위칭이 발생되어 두 이종의 특성 신호 연결 시 이용되는 상기 폴딩 포인트의 명칭을, ‘스위칭이 발생하는 폴딩 포인트’라고 명하기로 하고 이후 명세서 설명에 활용하기로 하겠다. 뿐만 아니라, 그 역인 경우에도, 즉, 이후 프레임 신호가 음성특성신호이고, 현재 프레임의 신호가 오디오 특성 신호일 때, 이종의 특성 신호 연결 시 이용되는 폴딩 포인트에 대해서도 ‘스위칭이 발생하는 폴딩 포인트라’라고 명하기로 한다.
본 발명의 일실시예에 따른 인코딩 장치는 입력 신호의 현재 프레임에 대해 분석 윈도우를 적용하는 윈도우 처리부, 상기 분석 윈도우가 적용된 현재 프레임을 MDCT 변환하는 MDCT 변환부 및 상기 MDCT 변환된 현재 프레임을 인코딩하여 상기 입력 신호의 비트 스트림을 생성하는 비트 스트림 생성부를 포함하고, 상기 윈도우 처리부는 상기 입력 신호의 현재 프레임에서 이전 프레임의 신호가 음성 특성 신호이며, 현재 프레임인 오디오 특성 신호 간에 ‘스위칭이 발생하는 폴딩 포인트’가 존재하는 경우, 상기 폴딩 포인트를 넘지 않는 분석 윈도우를 적용할 수 있다.
본 발명의 일실시예에 따른 디코딩 장치는 MDCT 기반의 코딩 방식과 다른 이종(hetero)의 코딩 방식에 따라 인코딩된 입력 신호의 음성 특성 신호를 디코딩하는 제1 디코딩부, 상기 MDCT 기반의 코딩 방식에 따라 인코딩된 입력 신호의 오디오 특성 신호를 디코딩하는 제2 디코딩부 및 상기 제1 디코딩부의 결과와 상기 제2 디코딩부의 결과에 대해 블록 보상을 수행하여 입력 신호를 복원하는 블록 보상부를 포함하고, 상기 블록 보상부는 상기 입력 신호의 현재 프레임에서 음성 특성 신호와 오디오 특성 신호 간에 ‘스위칭이 발생하는 폴딩 포인트’가 존재하는 경우, 상기 폴딩 포인트를 넘지 않는 합성 윈도우를 적용할 수 있다.
본 발명의 일실시예에 따른 디코딩 장치는 입력 신호의 현재 프레임에서 음성 특성 신호와 오디오 특성 신호 간에 ‘스위칭이 발생하는 폴딩 포인트’가 존재하는 경우, 상기 현재 프레임과 상기 음성 특성 신호로부터 도출된 부가 정보에 각각 합성 윈도우를 적용하여 상기 입력 신호를 복원하는 블록 보상부를 포함할 수 있다.
본 발명의 일실시예에 따르면, 입력 신호의 특성에 따라 이종 코더 간 스위칭이 발생할 때 요구되는 추가적인 MDCT 정보를 최소화하면서도 블록간 신호 왜곡을 제거할 수 있다.
본 발명의 일실시예에 따르면, 이종의 코더간 스위칭시 필요한 추가적인 MDCT 정보를 최소화함으로써 비트 레이트의 증가를 방지하여 코딩 효율을 향상시킬 수 있다.
도 1은 본 발명의 일실시예에 따라 인코딩 장치와 디코딩 장치를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따라 인코딩 장치의 세부 구성을 도시한 블록 다이어그램이다.
도 3은 본 발명의 일실시예에 따라 제2 인코딩부를 통해 입력 신호를 인코딩하는 과정을 나타낸 도면이다.
도 4는 본 발명의 일실시예에 따라 윈도우 처리를 통해 입력 신호를 인코딩하는 과정을 나타낸 도면이다.
도 5는 본 발명의 일실시예에 따라 MDCT 변환 과정을 나타낸 도면이다.
도 6은 본 발명의 일실시예에 따라 이종의 인코딩을 수행하는 과정(C1, C2)을 나타낸 도면이다.
도 7은 본 발명의 일실시예에 따라 C1인 경우 비트 스트림을 생성하는 과정을 나타낸 도면이다.
도 8은 본 발명의 일실시예에 따라 C1인 경우 윈도우 처리를 통해 입력 신호를 인코딩하는 과정을 나타낸 도면이다.
도 9는 본 발명의 일실시예에 따라 C2인 경우 비트 스트림을 생성하는 과정을 나타낸 도면이다.
도 10은 본 발명의 일실시예에 따라 C2인 경우 윈도우 처리를 통해 입력 신호를 인코딩하는 과정을 나타낸 도면이다.
도 11은 본 발명의 일실시예에 따라 입력 신호를 인코딩할 때 적용되는 부가 정보를 나타낸 도면이다.
도 12는 본 발명의 일실시예에 따라 디코딩 장치의 세부 구성을 도시한 블록 다이어그램이다.
도 13은 본 발명의 일실시예에 따라 제2 디코딩부를 통해 비트 스트림을 디코딩하는 과정을 나타낸 도면이다.
도 14는 본 발명의 일실시예에 따라 오버랩 연산을 통해 출력 신호를 도출하는 과정을 나타낸 도면이다.
도 15는 본 발명의 일실시예에 따라 C1인 경우 출력 신호를 생성하는 과정을 나타낸 도면이다.
도 16은 본 발명의 일실시예에 따라 C1인 경우 블록 보상을 수행하는 과정을 나타낸 도면이다.
도 17은 본 발명의 일실시예에 따라 C2인 경우 출력 신호를 생성하는 과정을 나타낸 도면이다.
도 18은 본 발명의 일실시예에 따라 C2인 경우 블록 보상을 수행하는 과정을 나타낸 도면이다.
이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 일실시예에 따라 인코딩 장치와 디코딩 장치를 도시한 도면이다.
인코딩 장치(101)는 블록 단위의 입력 신호를 인코딩하여 비트 스트림을 생성할 수 있다. 이 때, 인코딩 장치(101)는 음성과 유사한 특성을 나타내는 음성 특성 신호와 오디오와 유사한 특성을 나타내는 오디오 특성 신호를 인코딩할 수 있다. 인코딩 결과, 입력 신호에 대한 비트 스트림이 생성되어 디코딩 장치(102)로 전달될 수 있다. 그러면, 디코딩 장치(101)는 비트 스트림을 디코딩하여 출력 신호를 생성함으로써 인코딩된 입력 신호를 복원할 수 있다.
구체적으로, 인코딩 장치(101)는 시간적으로 연속적인 입력 신호의 상태를 분석하고, 입력 신호의 상태 분석 결과에 따라 입력 신호의 특성에 대응하는 인코딩 방식을 적용할 수 있도록 스위칭할 수 있다. 따라서, 인코딩 장치(101)는 이종의 코딩 방식이 적용되는 블록들을 인코딩할 수 있다. 일례로, 인코딩 장치(101)는 음성 특성 신호를 CELP 방식에 따라 인코딩할 수 있고, 오디오 특성 신호를 MDCT 방식에 따라 인코딩할 수 있다. 반대로, 디코딩 장치(102)는 CELP 방식에 따라 인코딩된 입력 신호를 CELP 방식에 따라 디코딩하여 입력 신호를 복원하고, MDCT 방식에 따라 인코딩된 입력 신호를 MDCT 방식에 따라 디코딩하여 입력 신호를 복원할 수 있다.
이 때, 입력 신호가 음성 특성 신호에서 오디오 특성 신호로 스위칭되는 경우, 인코딩 장치(101)는 스위칭을 통해 CELP 방식에서 MDCT 방식으로 변환하여 인코딩할 수 있다. 인코딩은 블록 단위로 이루어지기 때문에, 블록 간 왜곡이 발생할 수 있다. 이 경우, 디코딩 장치(102)는 블록 간 오버랩 연산을 통해 블록 간 왜곡을 제거할 수 있다.
그리고, 입력 신호의 현재 블록이 MDCT 방식에 따라 인코딩된 경우, 이를 복원하기 위해서는 이전 블록의 MDCT 정보가 요구된다. 그러나, 이전 블록이 CELP 방식에 따라 인코딩된 경우, 이전 블록의 MDCT 정보가 존재하지 않기 때문에 현재 블록을 MDCT 변환 방식에 따라 복원할 수 없다. 따라서, 이전 블록에 대해 추가적인 MDCT 변환 정보가 필요하며, 본 발명의 일실시예에 따른 인코딩 장치(101)는 추가적인 MDCT 변환 정보를 최소화하여 비트 레이트의 증가를 방지할 수 있다.
도 2는 본 발명의 일실시예에 따라 인코딩 장치의 세부 구성을 도시한 블록 다이어그램이다.
도 2를 참고하면, 인코딩 장치(101)는 블록 지연부(201), 상태 분석부(202), 신호 절단부(203), 제1 인코딩부(204) 및 제2 인코딩부(205)를 포함할 수 있다.
블록 지연부(201)는 입력 신호를 블록 단위로 지연시킬 수 있다. 입력 신호는 인코딩을 위해 블록 단위로 처리될 수 있다. 블록 지연부(201)는 입력된 현재 블록을 과거 지연(-)시키거나 또는 미래 지연(+) 시킬 수 있다.
상태 분석부(202)는 입력 신호의 특성을 결정할 수 있다. 일례로, 상태 분석부(202)는 입력 신호가 음성 특성 신호인 지 또는 오디오 특성 신호인지 여부를 결정할 수 있다. 이 때, 상태 분석부(202)의 출력은 제어 변수를 출력할 수 있다. 제어 변수는 입력 신호의 현재 블록을 어떤 인코딩 방식에 따라 인코딩할 것인지를 결정하도록 한다.
예를 들어, 상태 분석부(202)는 입력 신호의 특성을 분석하여 (1) 하모닉 성분이 명확하고 안정되게 나타내는 Steady-Harmonic(SH) State, (2) 하모닉 성분의 주기성이 상대적으로 길고, 낮은 주파수 대역에서 강한 steady 특성을 나타내는 Low Steady Harmonic(LSH) State, (3) 백색성 잡음 상태인 Steady-Noise(SN) State에 대응하는 신호 구간을 음성 특성 신호로 결정할 수 있다. 그리고, 상태 분석부(202)는 (4)입력 신호의 특성을 분석하여 여러 톤 성분들이 혼합되어 복잡한 하모닉 구조를 나타내는 Complex-Harmonic(CH) State, (5) 불안정한 잡음 성분들이 포함된 Complex-Noisy(CN) State에 대응하는 신호 구간을 오디오 특성 신호로 결정할 수 있다. 여기서, 신호 구간은 입력 신호의 블록 단위에 대응할 수 있다.
신호 절단부(203)는 입력 신호를 블록 단위로 절단하여 복수의 sub-set 신호로 만들 수 있다.
제1 인코딩부(204)는 블록 단위의 입력 신호 중 음성 특성 신호를 인코딩할 수 있다. 일례로, 제1 인코딩부(204)는 음성 특성 신호를 시간 영역에서 LPC(Linear Predictive Coding)에 따라 인코딩할 수 있다. 이 때, 제1 인코딩부(204)는 음성 특성 신호를 CELP 기반의 코딩 방식에 따라 인코딩할 수 있다. 도 3에서 제1 인코딩부(204)는 하나만 도시되었으나, 하나 이상으로 구성될 수 있다.
제2 인코딩부(205)는 블록 단위의 입력 신호 중 오디오 특성 신호를 인코딩할 수 있다. 일례로, 제2 인코딩부(205)는 오디오 특성 신호를 시간 영역에서 주파수 영역으로 변환하여 인코딩할 수 있다. 이 때, 제2 인코딩부(205)는 오디오 특성 신호를 MDCT 기반의 코딩 방식에 따라 인코딩할 수 있다. 제1 인코딩부(204)와 제2 인코딩부(205)의 인코딩 결과는 비트 스트림에 생성되고, 각각의 인코딩부에서 생성된 비트 스트림은 비트 스트림 MUX를 통해 하나의 비트 스트림으로 조절될 수 있다.
결국, 인코딩 장치(101)는 상태 분석부(202)의 제어 변수에 따라 스위칭하여 입력 신호를 제1 인코딩부(204) 또는 제2 인코딩부(205) 중 어느 하나를 통해 인코딩할 수 있다. 그리고, 제1 인코딩부(204)는 MDCT 기반의 코딩 방식과 다른 이종(hetero)의 코딩 방식에 따라 입력 신호의 음성 특성 신호를 인코딩할 수 있다. 또한, 제2 인코딩부(205)는 MDCT 기반의 코딩 방식에 따라 입력 신호의 오디오 특성 신호를 인코딩할 수 있다.
도 3은 본 발명의 일실시예에 따라 제2 인코딩부를 통해 입력 신호를 인코딩하는 과정을 나타낸 도면이다.
도 3을 참고하면, 제2 인코딩부(205)는 윈도우 처리부(301), MDCT 변환부(302) 및 비트스트림 생성부(303)를 포함할 수 있다.
도 3에서, X(b)는 입력 신호의 기본 블록 단위를 나타낸다. 입력 신호에 대해서는 도 4, 도 6에서 구체적으로 설명된다. 입력 신호는 윈도우 처리부(301)에 입력될 수 있다. 그리고, 입력 신호는 블록 지연부(201)를 거쳐 윈도우 처리부(301)에 입력될 수 있다.
윈도우 처리부(301)는 입력 신호의 현재 프레임에 대해 분석 윈도우(analysis window)를 적용할 수 있다. 구체적으로, 윈도우 처리부(301)는 현재 블록(X(b))와 블록 지연부(201)를 통해 현재 블록이 과거 지연된 과거 블록(X(b-2))에 대해 분석 윈도우를 적용할 수 있다.
일례로, 윈도우 처리부(301)는 현재 프레임에서 음성 특성 신호와 오디오 특성 신호 간에 '스위칭이 발생하는 폴딩 포인트'가 존재하는 경우, 폴딩 포인트를 넘지 않는 분석 윈도우를 현재 프레임에 적용할 수 있다. 이 때, 윈도우 처리부(301)는 폴딩 포인트를 중심으로 음성 특성 신호를 나타내는 제1 서브 블록에 대응하는 윈도우, 제2 서브 블록 중 부가 정보 영역에 대응하는 윈도우 및 오디오 특성 신호를 나타내는 제2 서브 블록 중 나머지 영역에 대응하는 윈도우로 구성되는 분석 윈도우를 적용할 수 있다. 이 때, 제1 서브 블록에 대응하는 윈도우는 0이고, 상기 제2 서브 블록 중 나머지 영역에 대응하는 윈도우는 1의 값을 가질 수 있다.
블록 지연부(201)가 수행하는 블록 지연의 정도는 입력 신호를 구성하는 블록 단위에 따라 달라질 수 있다. 입력 신호가 윈도우 처리부(301)를 거치면, 입력 신호가 분석 윈도우가 적용되어 {X(b-2), X(b)} Wanalysis가 도출될 수 있다. 그러면, MDCT 변환부(302)는 분석 윈도우가 적용된 현재 프레임을 MDCT 변환할 수 있다. 그리고, 비트스트림 생성부(303)는 MDCT 변환된 입력 신호의 현재 프레임을 인코딩하여 입력 신호의 비트스트림을 생성할 수 있다.
도 4는 본 발명의 일실시예에 따라 윈도우 처리를 통해 입력 신호를 인코딩하는 과정을 나타낸 도면이다.
도 4를 참고하면, 윈도우 처리부(301)는 입력 신호에 대해 분석 윈도우를 적용할 수 있다. 이 때, 분석 윈도우는 rectangle 형태이거나 또는 sine형태일 수 있다. 분석 윈도우의 형태는 입력 신호에 따라 변경될 수 있다.
현재 블록(X(b))가 입력되면, 윈도우 처리부(301)는 블록 지연부(102)를 통해 과거 지연된 과거 블록(X(b-2))과 현재 블록(X(b))에 분석 윈도우(Wanalysis)를 적용할 수 있다. 일례로, 입력 신호는 하기 수학식 1에 따른 블록 X(b)를 기본 단위로 설정될 수 있다. 이 때, 입력 신호는 2개의 블록이 하나의 프레임으로 설정되어 인코딩될 수 있다.
이 때, N은 입력 신호를 구성하는 블록의 사이즈를 의미할 수 있다. 즉, 입력 신호는 복수 개의 블록으로 구성될 수 있고, 각각의 블록은 2개의 서브 블록으로 구성될 수 있다. 하나의 블록에 포함되는 서브 블록의 개수는 시스템의 구성 또는 입력 신호에 따라 변경될 수 있다.
일례로, 분석 윈도우는 하기 수학식 3에 따라 정의될 수 있다. 그리고, 수학식 2와 수학식3에 따라, 입력 신호의 현재 블록에 분석 윈도우가 적용된 결과는 하기 수학식 4에 따라 표현될 수 있다.
는 분석 윈도우를 의미하며, symmetric한 특성을 나타낸다. 결국, 도 4에서 볼 수 있듯이, 분석 윈도우는 2개의 블록에 적용될 수 있다. 다시 말해, 분석 윈도우는 4개의 서브 블록에 적용될 수 있다. 그리고, 윈도우 처리부(301)는 입력 신호의 N-Point에 대해 Point by Point 곱셈 연산을 수행한다. N-Point는 MDCT 변환사이즈이다. 즉, 윈도우 처리부(301)는 서브 블록 및 분석 윈도우 중 서브 블록에 대응하는 영역 간에 곱셈 연산을 수행할 수 있다.
MDCT 변환부(302)는 분석 윈도우가 처리된 입력 신호에 대해 MDCT 변환을 수행할 수 있다.
도 5는 본 발명의 일실시예에 따라 MDCT 변환 과정을 나타낸 도면이다.
도 5를 참고하면, 볼록 단위로 구성된 입력 신호와 입력 신호에 적용되는 분석 윈도우가 도시된다. 앞서 설명하였듯이, 본 발명의 일실시예에 따르면, 입력 신호는 복수 개의 블록으로 구성된 프레임을 포함하며, 하나의 블록은 2개의 서브 블록으로 구성될 수 있다.
인코딩 장치(101)는 현재 프레임을 구성하는 서브 블록 로 구분된 입력 신호에 로 구분된 분석 윈도우 Wanalysis를 적용할 수 있다. 그리고, 분석 윈도우가 적용된 입력 신호가 서브 블록을 구분하는 폴딩 포인트를 기초로 MDCT/양자화/IMDCT(Inverse MDCT)가 적용되면, Original 부분과 Aliasing 영역이 발생한다.
디코딩 장치(102)는 인코딩된 입력 신호에 합성 윈도우를 적용하고 오버랩 Add 연산을 통해 MDCT 변환 과정에서 발생하는 Aliasing을 제거하면서 출력 신호를 도출할 수 있다.
도 6은 본 발명의 일실시예에 따라 이종의 인코딩을 수행하는 과정(C1, C2)을 나타낸 도면이다.
도 6에서 C1(Change Case Ⅰ)과 C2(Change Case Ⅱ)는 이종(hetero)의 인코딩 방식이 적용되는 입력 신호의 경계를 나타낸다. C1을 중심으로 왼쪽에 존재하는 서브 블록(s(b-5), s(b-4), s(b-3), s(b-2))은 음성 특성 신호를 의미하고, 오른쪽에 존재하는 서브 블록(s(b-1), s(b), s(b+1), s(b+2))은 오디오 특성 신호를 의미한다. 그리고, C2를 중심으로 왼쪽에 존재하는 서브 블록(s(b+m-1), s(b+m))은 오디오 특성 신호를 의미하고, 오른쪽에 존재하는 서브 블록(s(b+m+1), s(b+m+2))은 음성 특성 신호를 의미한다.
도 2에서, 음성 특성 신호는 제1 인코딩부(204)를 통해 인코딩되고, 오디오 특성 신호는 제2 인코딩부(205)를 통해 인코딩되므로, C1과 C2에서 스위칭이 발생할 수 있다. 이 때, 서브 블록 간의 폴딩 포인트에서 스위칭이 발생할 수 있다. 그리고, C1과 C2를 중심으로 입력 신호의 특성이 달라지고, 이에 따라 인코딩 방식이 다르게 적용되기 때문에 블록 간 왜곡이 발생할 수 있다.
이 때, MDCT 기반의 코딩 방식에 따라 인코딩된 경우, 디코딩 장치(102)는 과거 블록과 현재 블록을 모두 사용하는 오버랩 연산을 통해 블록 간 왜곡을 제거할 수 있다. 다만, C1과 C2와 같이 오디오 특성 신호와 음성 특성 신호 간에 스위칭이 발생하는 경우, MDCT 기반의 오버랩 연산이 불가능하기 때문에 MDCT 기반의 디코딩을 위한 부가 정보가 필요하다. 일례로, C1의 경우, 부가 정보 SoL(b-1)가 요구되며, C2의 경우, 부가 정보 ShL(b+m)이 요구된다. 본 발명의 일실시예에 따르면, 부가 정보 SoL(b-1)와 부가 정보 ShL(b+m)를 최소화함으로써, 비트 레이트의 증가를 방지하여 코딩 효율을 향상시킬 수 있다.
본 발명의 일실시예에 따른 인코딩 장치(101)는 음성 특성 신호와 오디오 특성 신호 간에 스위칭이 발생할 때, 오디오 특성 신호를 복원하기 위한 부가 정보를 인코딩할 수 있다. 이 때, 부가 정보는 음성 특성 신호를 인코딩하는 제1 인코딩부(204)를 통해 인코딩될 수 있다. 구체적으로, C1의 경우, 음성 특성 신호인 s(b-2)에서 SoL(b-1)에 대응하는 영역이 부가 정보로 인코딩되고, C2의 경우, 음성 특성 신호인 s(b+m+1)에서 ShL(b+m)에 대응하는 영역이 부가 정보로 인코딩 될 수 있다.
C1 및 C2가 발생했을 때, 인코딩하는 방법은 도 7 내지 도 11에서 구체적으로설명되고, 디코딩하는 방법은 도 15 내지 도 18에서 구체적으로 설명된다.
도 7은 본 발명의 일실시예에 따라 C1인 경우 비트 스트림을 생성하는 과정을 나타낸 도면이다.
상태 분석부(202)는 입력 신호의 블록 X(b)가 입력되면, 해당 블록의 상태를 분석할 수 있다. 이 때, 블록 X(b)는 오디오 특성 신호이고, 블록 X(b-2)는 음성 특성 신호인 경우, 상태 분석부(202)는 블록 X(b)와 블록 X(b-2) 사이에 존재하는 폴딩 포인트에 C1이 발생했음을 인지할 수 있다. 그러면, C1이 발생했다는 제어 정보는 블록 지연부(201), 윈도우 처리부(301) 및 제1 인코딩부(204)에 전달될 수 있다.
입력 신호의 블록 X(b)가 입력되면, 블록 X(b)와 블록 지연부(201)를 통해 미래 지연(+2)된 블록 X(b+2)이 윈도우 처리부(301)에 입력된다. 그러면, 도 6의 C1에서 서브 블록 s(b-1), s(b)로 구성된 블록 X(b)와 서브 블록 s(b+1), s(b+2)로 구성된 블록 X(b+2)에 대해 분석 윈도우가 적용된다. 분석 윈도우가 적용된 블록 X(b), X(b+2)는 MDCT 변환부(302)를 통해 MDCT 변환되고, 비트 스트림 생성부(303)를 통해 MDCT 변환된 블록이 인코딩되어 입력 신호의 블록 X(b)에 대한 비트 스트림이 생성된다.
또한, 블록 X(b)에 대해 오버랩 연산을 위한 부가 정보 SoL(b-1)를 생성하기 위해, 블록 지연부(201)는 블록 X(b)를 과거 지연(-1)하여 블록 X(b-1)를 도출할 수 있다. 블록 X(b-1)는 서브 블록 s(b-2)와 S(b-1)로 구성된다. 그리고, 신호 절단부(203)는 신호 절단을 수행하여 블록 X(b-1) 중 부가 정보에 대응하는 SoL(b-1)를 추출할 수 있다.
일례로, SoL(b-1)는 하기 수학식 5에 따라 결정될 수 있다.
이 때, N은 MDCT 변환을 위한 블록의 사이즈를 의미한다.
그러면, 제1 인코딩부(204)는 오디오 특성 신호와 음성 특성 신호가 스위칭되는 폴딩 포인트를 중심으로 블록 간 오버랩을 위해 음성 특성 신호 중 부가 정보 영역에 대응하는 부분을 인코딩할 수 있다. 일례로, 제1 인코딩부(204)는 음성 특성 신호인 서브 블록 s(b-2)에서 부가 정보 영역 oL에 대응하는 SoL(b-1)를 인코딩할 수 있다. 즉, 제1 인코딩부(204)는 신호 절단부(203)를 통해 추출된 부가 정보 SoL(b-1)를 인코딩하여 SoL(b-1)에 대한 비트 스트림을 생성한다. 즉, C1이 발생하면, 제1 인코딩부(204)는 부가 정보인 SoL(b-1)에 대한 비트 스트림만 생성할 수 있다. C1이 발생하는 경우, SoL(b-1)는 블록 간 왜곡을 제거하는 부가 정보로 활용된다.
다른 일례로, 블록 X(b-1)이 인코딩 될 때 SoL(b-1)이 획득될 수 있는 경우, 제1 인코딩부(204)는 SoL(b-1)를 인코딩하지 않을 수 있다.
도 8은 본 발명의 일실시예에 따라 C1인 경우 윈도우 처리를 통해 입력 신호를 인코딩하는 과정을 나타낸 도면이다.
도 8에서, 음성 특성 신호에서 오디오 특성 신호로 '스위칭되는 폴딩 포인트'인 C1은 음성 특성 신호인 zero 서브 블록과 오디오 특성 신호인 서브 블록 S(b-1) 사이에 위치한다. 도 8에서 볼 수 있듯이, 블록 X(b)이 입력되면, 윈도우 처리부(301)는 입력된 현재 프레임에 분석 윈도우를 적용할 수 있다. 도 8에서 볼 수 있듯이, 입력 신호의 현재 프레임에서 음성 특성 신호(Zero)와 오디오 특성 신호(s(b-1)) 간에 '스위칭이 발생하는 폴딩 포인트'가 존재하는 경우, 윈도우 처리부(301)는 폴딩 포인트를 넘지 않는 분석 윈도우를 현재 프레임에 적용하여 인코딩 할 수 있다.
일례로, 윈도우 처리부(301)는 폴딩 포인트를 중심으로 음성 특성 신호를 나타내는제1 서브 블록에 대응하는 윈도우, 오디오 특성 신호를 나타내는 제2 서브 블록 중 부가 정보 영역에 대응하는 윈도우 및 제2 서브 블록 중 나머지 영역에 대응하는 윈도우로 구성되는 분석 윈도우를 적용할 수 있다. 이 때, 제1 서브 블록에 대응하는 윈도우는 0이고, 제2 서브 블록 중 나머지 영역에 대응하는 윈도우는 1일 수 있다. 도 8에서, 폴딩 포인트는 N/4 크기의 서브 블록으로 구성된 현재 프레임에서 N/4 지점에 위치한다.
즉, 도 8에서 볼 수 있듯이, 분석 윈도우는 음성 특성 신호인 Zero 서브 블록에 대응하는 윈도우 , 오디오 특성 신호를 나타내는 S(b-1) 서브 블록 중 부가 정보 영역 oL에 대응하는 윈도우 및 나머지 영역 N/4-oL 영역에 대응하는 윈도우로 구성된 W2로 구성될 수 있다.
이 때, 윈도우 처리부(301)는 음성 특성 신호인 zero 서브 블록에 대해 분석 윈도우 를 zero값으로 대체할 수 있다. 또한, 윈도우 처리부(301)는 오디오 특성 신호를 나타내는 서브 블록 s(b-1)에 대응하는 분석 윈도우 를 하기 수학식 6에 따라 결정할 수 있다.
즉, 서브 블록 s(b-1)에 대해 적용되는 분석 윈도우 는 부가 정보 영역인 oL 영역과 부가 정보 영역(oL)과 나머지 영역(N/4-oL)으로 구성될 수 있다. 이 때, 나머지 영역은 1로 구성될 수 있다.
이 때, 는 의 크기의 sine-window의 전반부 절반을 의미한다. oL은 C1에서 블록 간의 오버랩 연산을 위한 사이즈를 의미하며, 와 의 사이즈를 결정한다. 그리고, 블록샘플(800)에서, 블록샘플 는 이후 설명을 위해 정의된 것이다.
일례로, 제1 인코딩부(204)는 폴딩 포인트를 중심으로 블록 간 오버랩을 위해 음성 특성 신호를 나타내는 서브 블록에서 부가 정보 영역에 대응하는 부분을 인코딩할 수 있다. 도 8에서, 제1 인코딩부(204)는 zero 블록에 해당하는 s(b-2)에서 부가 정보 영역인 oL에 대응하는 부분을 부가 정보로 인코딩할 수 있다. 앞서 설명하였듯이, 제1 인코딩부(204)는 부가 정보 영역에 대응하는 부분을 MDCT 기반의 코딩 방식과 이종의 코딩 방식에 따라 인코딩할 수 있다.
도 8에서 볼 수 있듯이, 윈도우 처리부(301)는 sine 형태의 분석 윈도우를 입력신호에 적용할 수 있다. 다만, C1이 발생하면, 윈도우 처리부(301)는 폴딩 포인트인 C1 이전에 위치한 서브 블록 zero에 대응하는 분석 윈도우를 0으로 설정할 수 있다. 그리고, 윈도우 처리부(301)는 C1 이후에 위치한 서브 블록 s(b-1)에 대응하는 분석 윈도우를 부가 정보 영역 oL에 대응하는 분석 윈도우와 나머지 영역 N/4-oL에 대응하는 분석 윈도우로 구성되도록 설정할 수 있다. 나머지 영역에 대응하는 분석 윈도우는 1 이고, 부가 정보 영역에 대응하는 분석 윈도우는 sine 신호의 전반부일 수 있다. MDCT 변환부(302)는 도 8에 도시된 분석 윈도우가 적용된 입력 신호 에 대해 MDCT 변환을 수행할 수 있다.
도 9는 본 발명의 일실시예에 따라 C2인 경우 비트 스트림을 생성하는 과정을 나타낸 도면이다.
상태 분석부(202)는 입력 신호의 블록 X(b)가 입력되면, 해당 블록의 상태를 분석할 수 있다. 도 6과 같이 서브 블록 s(b+m)는 오디오 특성 신호이고, 이후에 존재하는 서브 블록 s(b+m+1)이 음성 특성 신호인 경우, 상태 분석부(202)는 C2가 발생했음을 인지할 수 있다. 그러면, C2가 발생했다는 제어 정보는 블록 지연부(201), 윈도우 처리부(301) 및 제1 인코딩부(204)에 전달될 수 있다.
입력 신호의 블록 X(b+m-1)가 입력되면, 블록 X(b+m-1)와 블록 지연부(201)를 통해 미래 지연(+2)된 블록 X(b+m+1)가 윈도우 처리부(301)에 입력된다. 그러면, 도 6의 C2에서 서브 블록 s(b+m), s(b+m+1)로 구성된 블록 X(b+m+1)와 서브 블록 s(b+m-2), s(b+m-1)로 구성된 블록 X(b+m-1)에 대해 분석 윈도우가 적용된다.
일례로, 윈도우 처리부(301)는 입력 신호의 현재 프레임에서 음성 특성 신호와 오디오 특성 신호 간에 폴딩 포인트 C2가 존재하는 경우, 폴딩 포인트를 넘지 않는 분석 윈도우를 오디오 특성 신호에 적용할 수 있다.
분석 윈도우가 적용된 블록 X(b+m-1), X(b+m-1)는 MDCT 변환부(302)를 통해 MDCT 변환되고, 비트 스트림 생성부(303)를 통해 MDCT 변환된 블록이 인코딩되어 입력 신호의 블록 X(b+m-1)에 대한 비트 스트림이 생성된다.
또한, 블록 X(b+m-1)에 오버랩 연산을 위한 부가 정보 ShL(b+m)를 생성하기 위해, 블록 지연부(201)는 블록 X(b+m-1)를 미래 지연(+1)하여 블록 X(b+m)을 도출할 수 있다. 블록 X(b+m)은 서브 블록 s(b+m-1)와 S(b+m)로 구성된다. 그리고, 신호 절단부(203)는 블록 X(b+m)에 대해 신호 절단을 수행하여 ShL(b+m)만 도출할 수 있다.
일례로, ShL(b+m)는 하기 수학식 7에 따라 결정될 수 있다.
이 때, N은 MDCT 변환을 위한 블록의 사이즈를 의미한다.
그러면, 제1 인코딩부(204)는 부가 정보 ShL(b+m)를 인코딩하여 ShL(b+m)에 대한 비트 스트림을 생성한다. 즉, C2가 발생하면, 제1 인코딩부(204)는 부가 정보인 ShL(b+m)에 대한 비트 스트림만 생성할 수 있다. C2가 발생하는 경우, ShL(b+m)은 블록 간 왜곡을 제거하는 부가 정보로 활용된다.
도 10은 본 발명의 일실시예에 따라 C2인 경우 윈도우 처리를 통해 입력 신호를 인코딩하는 과정을 나타낸 도면이다.
도 10에서, 오디오 특성 신호에서 음성 특성 신호로 스위칭되는 폴딩 포인트인 C2는 서브 블록 s(b+m)과 s(b+m+1) 사이에 위치한다. 즉, 도 10에 도시된 현재 프레임이 N/4 크기의 서브 블록으로 구성된 경우, 폴딩 포인트 C2는 3N/4 지점에 위치한다.
일례로, 윈도우 처리부(301)는 입력 신호의 현재 프레임에서 음성 특성 신호와 오디오 특성 신호 간에 '스위칭이 발생하는 폴딩 포인트'가 존재하는 경우, 폴딩 포인트를 넘지 않는 분석 윈도우를 오디오 특성 신호에 적용할 수 있다. 즉, 윈도우 처리부(301)는 입력된 현재 프레임에 분석 윈도우를 적용할 수 있다.
또한, 윈도우 처리부(301)는 폴딩 포인트를 중심으로 음성 특성 신호를 나타내는 제1 서브 블록에 대응하는 윈도우, 오디오 특성 신호를 나타내는 제2 서브 블록 중 부가 정보 영역에 대응하는 윈도우 및 제2 서브 블록 중 나머지 영역에 대응하는 윈도우로 구성되는 분석 윈도우를 적용할 수 있다. 이 때, 제1 서브 블록에 대응하는 윈도우는 0이고, 상기 제2 서브 블록 중 나머지 영역에 대응하는 윈도우는 1일 수 있다. 도 10에서, 폴딩 포인트는 N/4 크기의 서브 블록으로 구성된 현재 프레임에서 3N/4 지점에 위치한다.
즉, 윈도우 처리부(301)는 음성 특성 신호를 나타내는 s(b+m+1)에 대응하는 분석 윈도우 를 zero값으로 대체할 수 있다. 또한, 윈도우 처리부(301)는 오디오 특성 신호를 나타내는 서브 블록 s(b+m)에 대응하는 분석 윈도우 를 하기 수학식 8에 따라 결정할 수 있다.
즉, 폴딩 포인트를 중심으로 오디오 특성 신호를 나타내는 서브 블록 s(b+m)에 대해 적용되는 분석 윈도우 는 부가 정보 영역인 hL 과 나머지 영역 N/4-oL에 대응하는 윈도우로 구성될 수 있다. 이 때, 나머지 영역에 대응하는 윈도우는 1로 구성될 수 있다.
이 때, 는 의 크기의 sine-window의 후반부 절반을 의미한다. hL은 C2에서 블록 간의 오버랩 연산을 위한 사이즈를 의미하며, 와 의 사이즈를 결정한다. 그리고, 블록샘플(1000)에서, 블록샘플 는 이후 설명을 위해 정의된 것이다.
일례로, 제1 인코딩부(204)는 폴딩 포인트를 중심으로 블록 간 오버랩을 위해 음성 특성 신호를 나타내는 서브 블록에서 부가 정보 영역에 대응하는 부분을 인코딩할 수 있다. 도 10에서, 제1 인코딩부(204)는 s(b+m+1) 서브 블록에서 부가 정보 영역인 hL에 대응하는 부분을 부가 정보로 인코딩할 수 있다. 앞서 설명하였듯이, 제1 인코딩부(204)는 부가 정보 영역에 대응하는 부분을 MDCT 기반의 코딩 방식과 이종의 코딩 방식에 따라 인코딩할 수 있다.
도 10에서 볼 수 있듯이, 윈도우 처리부(301)는 sine 형태의 분석 윈도우를 입력 신호에 적용할 수 있다. 다만, C2가 발생하면, 윈도우 처리부(301)는 폴딩 포인트인 C2 이후에 위치한 서브 블록에 대응하는 분석 윈도우를 0으로 설정할 수 있다. 그리고, 윈도우 처리부(301)는 C2 이전에 위치한 서브 블록 s(b+m)에 대응하는 분석 윈도우를 부가 정보 영역 hL에 대응하는 분석 윈도우와 나머지 영역 N/4-hL에 대응하는 분석 윈도우로 구성되도록 설정할 수 있다. 이 때, 나머지 분석 윈도우는 1 값을 가진다. MDCT 변환부(302)는 도 10에 도시된 분석 윈도우가 적용된 입력 신호 에 대해 MDCT 변환을 수행할 수 있다.
도 11은 본 발명의 일실시예에 따라 입력 신호를 인코딩할 때 적용되는 부가 정보를 나타낸 도면이다.
부가 정보(1101)는 폴딩 포인트인 C1 를 중심으로 음성 특성 신호를 나타내는 서브 블록의 일부에 대응하고, 부가 정보(1102)는 폴딩 포인트인 C2를 중심으로 음성 특성 신호를 나타내는 서브 블록의 일부에 대응한다. 이 때, C1 이후에 존재하는 오디오 특성 신호에 대응하는 서브 블록은 부가 정보(1101) 중 전반부(oL)가 반영된 합성 윈도우가 적용될 수 있다. 나머지 영역(N/4-oL)은 1로 대체될 수 있다. 그리고, C2 이전에 존재하는 오디오 특성 신호에 대응하는 서브 블록은 부가 정보(1102) 중 후반부(hL)가 반영된 합성 윈도우가 적용될 수 있다. 나머지 영역(N/4-hL)은 1로 대체될 수 있다.
도 12는 본 발명의 일실시예에 따라 디코딩 장치의 세부 구성을 도시한 블록 다이어그램이다.
도 12를 참고하면, 디코딩 장치(102)는 블록 지연부(1201), 제1 디코딩부(1202), 제2 디코딩부(1203) 및 블록 보상부(1204)를 포함할 수 있다.
블록 지연부(1201)는 입력된 비트 스트림에 포함된 제어 변수(C1, C2)에 따라 대응하는 블록을 미래 지연하거나 과거 지연할 수 있다.
그리고, 디코딩 장치(102)는 입력된 비트 스트림의 제어 변수에 따라 디코딩 방식을 스위칭함으로써 비트 스트림을 제1 디코딩부(1202) 또는 제2 디코딩부(1203) 중 어느 하나에서 디코딩하도록 결정할 수 있다. 이 때, 제1 디코딩부(1202)는 인코딩된 음성 특성 신호를 디코딩하고, 제2 디코딩부(1202)는 인코딩된 오디오 특성 신호를 디코딩할 수 있다. 일례로, 제1 디코딩부(1202)는 CELP 방식에 따라 음성 특성 신호를 디코딩하고, 제2 디코딩부(1202)는 MDCT 방식에 따라 오디오 특성 신호를 디코딩할 수 있다.
제1 디코딩부(1202) 및 제2 디코딩부(1203)를 통해 디코딩된 결과는 블록 보상부(1204)를 통해 최종적인 입력 신호로 도출된다.
블록 보상부(1204)는 제1 디코딩부(1202)의 결과와 제2 디코딩부(1203)의 결과에 대해 블록 보상을 수행하여 입력 신호를 복원할 수 있다. 일례로, 블록 보상부(1204)는 입력 신호의 현재 프레임에서 음성 특성 신호와 오디오 특성 신호 간에 '스위칭되는 폴딩 포인트'가 존재하는 경우, 폴딩 포인트를 넘지 않는 합성 윈도우를 적용할 수 있다.
이 때, 블록 보상부(1204)는 제1 디코딩부(1202)로부터 도출된 부가 정보에 제1 합성 윈도우를 적용하고, 제2 디코딩부(1203)로부터 도출된 현재 프레임에 대해 제2 합성 윈도우를 적용하여 오버랩 연산을 수행할 수 있다. 블록 보상부(1204)는 폴딩 포인트를 중심으로 음성 특성 신호를 나타내는 제1 서브 블록에 대해 0으로 구성되고, 오디오 특성 신호를 나타내는 제2 서브 블록에 대해 부가 정보 영역과 1로 구성되는 제2 합성 윈도우를 현재 프레임에 적용할 수 있다. 블록 보상부(1204)에 대해서는 도 16 및 도 18에서 구체적으로 설명된다.
도 13은 본 발명의 일실시예에 따라 제2 디코딩부를 통해 비트 스트림을 디코딩하는 과정을 나타낸 도면이다.
도 13을 참고하면, 제2 디코딩부(1203)는 비트 스트림 복원부(1301), IMDCT 변환부(1302), 윈도우 합성부(1303) 및 오버랩 연산부(1304)를 포함할 수 있다.
비트 스트림 복원부(1301)는 입력된 비트 스트림을 디코딩할 수 있다. 그리고, IMDCT 변환부(1302)는 IMDCT(Inverse MDCT) 변환을 통해 디코딩된 신호를 시간 영역의 샘플로 변환할 수 있다.
IMDCT 변환부(1302)를 통해 변환된 Y(b)는 블록 지연부(1201)를 통해 과거 지연되어 윈도우 합성부(1303)에 입력될 수 있다. 그리고, Y(b)는 과거 지연을 거치지 않고 바로 윈도우 합성부(1303)에 입력될 수 있다. 이 때, Y(b)는 의 값을 가질 수 있다. 이 때, X(b)는 도 3에서 제2 인코딩부(205)를 통해 입력된 현재 블록을 의미한다.
윈도우 합성부(1303)는 입력된 Y(b)와 과거 지연된 Y(b-2)에 합성 윈도우(synthesis window)를 적용할 수 있다. C1과 C2가 발생하지 않을 때, 윈도우 합성부(1303)는 Y(b)와 Y(b-2)에 대해 동일하게 합성 윈도우를 적용할 수 있다.
일례로, 윈도우 합성부(1303)는 입력된 Y(b)에 대해 하기 수학식 9와 같이 합성 윈도우를 적용할 수 있다.
이 때, 합성 윈도우 Wsysthesis는 분석 윈도우 Wanalysis와 동일할 수 있다.
오버랩 연산부(1304)는 Y(b)와 Y(b-2)에 합성 윈도우가 적용된 결과를 50% 오버랩 add 연산을 수행할 수 있다. 오버랩 연산부(1304)를 통해 도출된 결과 는 하기 수학식 10의 값을 가질 수 있다.
이 때, 는 Y(b)에 관한 것이고, Y(b-2)에 관한 것이다. 수학식 10을 참고하면, 는 와 합성 윈도우의 전반부 가 결합된 결과 및 와 합성 윈도우의 후반부 가 결합된 결과가 오버랩 add 연산된 것임을 의미한다.
도 14는 본 발명의 일실시예에 따라 오버랩 연산을 통해 출력 신호를 도출하는 과정을 나타낸 도면이다.
도 14에 도시된 윈도우(1401, 1402, 1403)는 합성 윈도우를 의미하다. 오버랩 연산부(1304)는 합성 윈도우(1402)가 적용된 블록(1405), 블록(1406)과 합성 윈도우(1401)가 적용된 블록(1404), 블록(1405)을 오버랩 Add 연산하여 블록(1405)을 출력할 수 있다. 동일한 방법으로, 오버랩 연산부(1304)는 합성 윈도우(1402)가 적용된 블록(1405), 블록(1406)과 합성 윈도우(1403)가 적용된 블록(1406), 블록(1407)을 오버랩 Add 연산하여 블록(1406)을 출력할 수 있다.
즉, 도 14를 참고하면, 오버랩 연산부(1304)는 현재 블록과 과거 지연된 과거 블록을 오버랩 연산하여 현재 블록을 구성하는 서브 블록을 도출할 수 있다. 이 때, 각각의 블록은 MDCT 변환과 관련된 오디오 특성 신호를 나타낸 것이다.
그러나, 만약, 블록(1404)이 음성 특성 신호이고, 블록(1405)은 오디오 특성 신호인 경우(C1이 발생한 경우), 블록(1404)는 MDCT 변환 정보를 가지지 않기 때문에 오버랩 연산이 불가능하다. 이 경우, 오버랩 연산을 위해 블록(1404)에 대한 MDCT 부가 정보가 요구된다. 반대로, 블록(1404)이 오디오 특성 신호이고, 블록(1405)가 음성 특성 신호인 경우(C2가 발생한 경우), 블록(1405)는 MDCT 변환 정보를 가지지 않기 때문에 오버랩 연산이 불가능하다. 이 경우, 오버랩 연산을 위한 블록(1405)에 대한 MDCT 부가 정보가 요구된다.
도 15는 본 발명의 일실시예에 따라 C1인 경우 출력 신호를 생성하는 과정을 나타낸 도면이다. 즉, 도 15는 도 7을 통해 인코딩된 입력 신호를 디코딩하는 구성을 나타낸다.
C1은 입력 신호의 현재 프레임(800)에서 음성 특성 신호 이후에 오디오 특성 신호가 발생하는 폴딩 포인트를 의미한다. 이 때, 폴딩 포인트는 현재 프레임(800)에서 N/4 지점에 위치한다.
비트 스트림 복원부(1301)는 입력된 비트 스트림을 디코딩할 수 있다. 그 후, IMDCT 변환부(1302)는 디코딩된 결과에 대해 IMDCT(Inverse MDCT) 변환을 수행할 수 있다. 그 이후, 윈도우 합성부(1303)는 제2 인코딩부(205)를 통해 인코딩된 입력 신호의 현재 프레임(800) 중 블록 에 대해 합성 윈도우를 적용할 수 있다. 즉, 제2 디코딩부(1203)는 입력 신호의 현재 프레임(800)에서 폴딩 포인트에 인접하지 않은 블록에 s(b)와 s(b+1)대해 디코딩을 수행할 수 있다.
이 때, 도 13과 달리, 도 15에서는 IMDCT 변환된 결과는 블록 지연부(1201)를 거치지 않는다.
제2 디코딩부(1203)를 통해 현재 프레임(800) 중 블록 에 대응하는 입력 신호만 복원된다. 따라서, 현재 프레임(800)에는 블록 만이 존재하므로, 오버랩 연산부(1304)는 오버랩 add 연산이 수행되지 않은 블록 에 대응하는 입력 신호를 복원할 수 있다. 블록 는 현재 프레임(800)에 대해 제2 디코딩부(1203)에서 합성 윈도우가 적용되지 않은 블록을 의미한다. 그리고, 제1 디코딩부(1202)는 비트 스트림에 포함된 부가 정보를 디코딩하여 서브 블록 를 출력할 수 있다.
제2 디코딩부(1203)를 통해 도출된 블록 과 제1 디코딩부(1202)를 통해 도출된 블록 은 블록 보상부(1204)에 입력된다. 블록 보상부(1204)를 통해 최종적인 출력 신호가 생성될 수 있다.
도 16은 본 발명의 일실시예에 따라 C1인 경우 블록 보상을 수행하는 과정을 나타낸 도면이다.
블록 보상부(1204)는 제1 디코딩부(1202)의 결과와 제2 디코딩부(1203)의 결과에 대해 블록 보상을 수행하여 입력 신호를 복원할 수 있다. 일례로, 블록 보상부(1204)는 입력 신호의 현재 프레임에 대해 음성 특성 신호와 오디오 특성 신호 간에 스위칭이 발생하는 폴딩 포인트가 존재하는 경우, 폴딩 포인트를 넘지 않는 합성 윈도우를 적용할 수 있다.
도 15에서 부가 정보 는 제1 디코딩부(1202)를 통해 도출된다. 블록 보상부(1204)는 서브 블록 에 윈도우 를 적용할 수 있다. 따라서, 서브 블록 에 윈도우 가 적용된 서브 블록 은 하기 수학식 12로 도출될 수 있다.
일례로, 블록 보상부(1204)는 폴딩 포인트를 중심으로 음성 특성 신호를 나타내는 서브 블록에 대응하는 dnlsehn와 오디오 특성 신호를 나타내는 서브 블록 중 부가 정보 영역 oL과 나머지 영역 N/4-oL에 대응하는 윈도우로 구성된 합성 윈도우를 현재 프레임(800)에 적용할 수 있다. 합성 윈도우(1601)가 적용된 블록 는 하기 수학식 13과 같다.
즉, 블록 는 음성 특성 신호를 나타내는 zero 서브 블록에 대응하는 윈도우와 오디오특성 신호를 나타내는 서브 블록 중 윈도우가 부가 정보 영역 oL과 나머지 영역 N/4-oL에 대응하는 윈도우로 구성된 합성 윈도우가 적용된다. 여기서, zero 서브 블록에 대응하는 윈도우는 0이고, 서브 블록 중 나머지 영역에 대응하는 윈도우는 1이다.
여기서, 블록 보상부(1204)는 합성 윈도우(1601)와 합성 윈도우(1602)에서 WoL 영역을 오버랩 Add 연산하면, 서브 블록 중 oL 영역에 대응하는 가 도출된다. 이 때, 수학식 14에서 서브 블록 은 하기 수학식 15로 결정된다. 그리고, 수학식 14에서 서브 블록 중 oL 영역을 제외한 나머지 영역에 대응하는 서브 블록 은 하기 수학식 16으로 결정된다.
도 17은 본 발명의 일실시예에 따라 C2인 경우 출력 신호를 생성하는 과정을 나타낸 도면이다. 즉, 도 17은 도 9를 통해 인코딩된 입력 신호를 디코딩하는 구성을 나타낸다.
C2는 입력 신호의 현재 프레임(1000)에서 오디오 특성 신호 이후에 음성 특성 신호가 발생하는 폴딩 포인트를 의미한다. 이 때, 폴딩 포인트는 현재 프레임(1000)에서 3N/4 지점에 위치한다.
비트 스트림 복원부(1301)는 입력된 비트 스트림을 디코딩할 수 있다. 그 후, IMDCT 변환부(1302)는 디코딩된 결과에 대해 IMDCT(Inverse MDCT) 변환을 수행할 수 있다. 그 이후, 윈도우 합성부(1303)는 제2 인코딩부(205)를 통해 인코딩된 입력 신호의 현재 프레임(1000) 중 블록 에 대해 합성 윈도우를 적용할 수 있다. 즉, 제2 디코딩부(1203)는 입력 신호의 현재 프레임(1000)에서 폴딩 포인트에 인접하지 않은 블록 s(b+m-2), s(b+m-1)에 대해 디코딩을 수행할 수 있다.
이 때, 도 13과 달리, 도 17에서는 IMDCT 변환된 결과는 블록 지연부(1201)를 거치지 않는다.
제2 디코딩부(1203)를 통해 현재 프레임(1000) 중 블록 에 대응하는 입력 신호만 복원된다. 따라서, 현재 프레임(1000)에는 블록 만이 존재하므로, 오버랩 연산부(1304)는 오버랩 연산이 수행되지 않은 블록 에 대응하는 입력 신호를 복원할 수 있다. 블록 는 현재 프레임(1000)에 대해 제2 디코딩부(1203)에서 합성 윈도우가 적용되지 않은 디코딩된 블록을 의미한다. 그리고, 제1 디코딩부(1202)는 비트 스트림에 포함된 부가 정보를 디코딩하여 서브 블록 을 출력할 수 있다.
제2 디코딩부(1203)를 통해 도출된 블록 과 제1 디코딩부(1202)를 통해 도출된 블록 은 블록 보상부(1204)에 입력된다. 블록 보상부(1204)를 통해 최종적인 출력 신호가 생성될 수 있다.
도 18은 본 발명의 일실시예에 따라 C2인 경우 블록 보상을 수행하는 과정을 나타낸 도면이다.
블록 보상부(1204)는 제1 디코딩부(1202)의 결과와 제2 디코딩부(1203)의 결과에 대해 블록 보상을 수행하여 입력 신호를 복원할 수 있다. 일례로, 블록 보상부(1204)는 입력 신호의 현재 프레임에 대해 음성 특성 신호와 오디오 특성 신호 '스위칭되는 폴딩 포인트'가 존재하는 경우, 폴딩 포인트를 넘지 않는 합성 윈도우를 적용할 수 있다.
도 17에서 부가 정보 는 제1 디코딩부(1202)를 통해 도출된다. 블록 보상부(1204)는 서브 블록 에 윈도우 를 적용할 수 있다. 따라서, 서브 블록 에 윈도우 가 적용된 서브 블록 은 하기 수학식 18로 도출될 수 있다.
그리고, 오버랩 연산부(1304)를 통해 도출된 블록 는 블록 보상부(1204)를 통해 합성 윈도우(1801)가 적용된다. 일례로, 블록 보상부(1204)는 폴딩 포인트를 중심으로 음성 특성 신호를 나타내는 서브 블록 s(b+m+1)에 대응하는 윈도우와 오디오 특성 신호를 나타내는 서브 블록 s(b+m) 중 부가 정보 영역 hL과 나머지 영역 N/4-hL에 대응하는 윈도우로 구성된 합성 윈도우를 현재 프레임(1000)에 적용할 수 있다. 이 때, 서브 블록 s(b+m+1)에 대응하는 윈도우는 0이고, 나머지 영역 N/4-hL에 대응하는 윈도우는 1이다.
여기서, 블록 보상부(1204)는 합성 윈도우(1801)과 합성 윈도우(1802)에서 WhL 영역을 오버랩 Add 연산하면, 서브 블록 중 hL 영역에 대응하는 가 도출된다. 이 때, 수학식 20에서 서브 블록 은 하기 수학식 21로 결정된다. 그리고, 수학식 20에서 서브 블록 중 hL 영역을 제외한 나머지 영역에 대응하는 서브 블록 은 하기 수학식 22로 결정된다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
Claims (19)
- MDCT 기반의 코딩 방식과 다른 이종(hetero)의 코딩 방식에 따라 입력 신호의 음성 특성 신호를 인코딩하는 제1 인코딩부; 및상기 MDCT 기반의 코딩 방식에 따라 상기 입력 신호의 오디오 특성 신호를 인코딩하는 제2 인코딩부를 포함하고,상기 제2 인코딩부는,상기 입력 신호의 현재 프레임에서 음성 특성 신호와 오디오 특성 신호 간에 스위칭이 발생하는 폴딩 포인트가 존재하는 경우, 상기 폴딩 포인트를 넘지 않는 분석 윈도우를 적용하여 인코딩하는 것을 특징으로 하는 인코딩 장치.
- 제1항에 있어서,상기 제2 인코딩부는,상기 폴딩 포인트를 중심으로 음성 특성 신호를 나타내는 제1 서브 블록에 대응하는 윈도우, 오디오 특성 신호를 나타내는 제2 서브 블록 중 부가 정보 영역에 대응하는 윈도우 및 제2 서브 블록 중 나머지 영역에 대응하는 윈도우로 구성되는 분석 윈도우를 적용하고,상기 제1 서브 블록에 대응하는 윈도우는 0이고, 상기 제2 서브 블록 중 나머지 영역에 대응하는 윈도우는 1인 것을 특징으로 하는 인코딩 장치.
- 제1항에 있어서,상기 폴딩 포인트는,상기 현재 프레임이 N/4 크기의 서브 블록으로 구성된 경우, N/4 지점이거나 또는 3N/4 지점에 설정되는 것을 특징으로 하는 인코딩 장치.
- 제2항에 있어서,상기 제1 인코딩부는,상기 폴딩 포인트를 중심으로 블록 간 오버랩을 위해 부가 정보 영역에 대응하는 제1 서브 블록을 인코딩하는 것을 특징으로 하는 인코딩 장치.
- 입력 신호의 현재 프레임에 대해 분석 윈도우를 적용하는 윈도우 처리부;상기 분석 윈도우가 적용된 현재 프레임을 MDCT 변환하는 MDCT 변환부; 및상기 MDCT 변환된 현재 프레임을 인코딩하여 상기 입력 신호의 비트 스트림을 생성하는 비트 스트림 생성부를 포함하고,상기 윈도우 처리부는,상기 입력 신호의 현재 프레임에서 음성 특성 신호와 오디오 특성 신호 간에 스위칭이 발생하는 폴딩 포인트가 존재하는 경우, 상기 폴딩 포인트를 넘지 않는 분석 윈도우를 적용하는 것을 특징으로 하는 인코딩 장치.
- 제5항에 있어서,상기 윈도우 처리부는,상기 폴딩 포인트를 중심으로 음성 특성 신호를 나타내는 제1 서브 블록에 대응하는 윈도우, 오디오 특성 신호를 나타내는 제2 서브 블록 중 부가 정보 영역에 대응하는 윈도우 및 제2 서브 블록 중 나머지 영역에 대응하는 윈도우로 구성되는 분석 윈도우를 적용하고,상기 제1 서브 블록에 대응하는 윈도우는 0이고, 상기 제2 서브 블록 중 나머지 영역에 대응하는 윈도우는 1인 것을 특징으로 하는 인코딩 장치.
- 제5항에 있어서,상기 폴딩 포인트는,상기 현재 프레임이 N/4 크기의 서브 블록으로 구성된 경우, N/4 지점이거나 또는 3N/4 지점에 설정되는 것을 특징으로 하는 인코딩 장치.
- 제6항에 있어서,상기 제1 서브 블록에서 부가 정보 영역에 대응하는 부분은,상기 폴딩 포인트를 중심으로 블록 간 오버랩을 위해 상기 MDCT 기반의 코딩 방식과 이종의 코딩 방식에 따라 인코딩되는 것을 특징으로 하는 인코딩 장치.
- MDCT 기반의 코딩 방식과 다른 이종(hetero)의 코딩 방식에 따라 인코딩된 입력 신호의 음성 특성 신호를 디코딩하는 제1 디코딩부;상기 MDCT 기반의 코딩 방식에 따라 인코딩된 입력 신호의 오디오 특성 신호를 디코딩하는 제2 디코딩부; 및상기 제1 디코딩부의 결과와 상기 제2 디코딩부의 결과에 대해 블록 보상을 수행하여 입력 신호를 복원하는 블록 보상부를 포함하고,상기 블록 보상부는,상기 입력 신호의 현재 프레임에서 음성 특성 신호와 오디오 특성 신호 간에 스위칭이 발생하는 폴딩 포인트가 존재하는 경우, 상기 폴딩 포인트를 넘지 않는 합성 윈도우를 적용하는 것을 특징으로 하는 디코딩 장치.
- 제9항에 있어서,상기 블록 보상부는,상기 제1 디코딩부로부터 도출된 부가 정보에 제1 합성 윈도우를 적용하고, 상기 제2 디코딩부로부터 도출된 현재 프레임에 대해 제2 합성 윈도우를 적용하여 오버랩 연산을 수행하는 것을 특징으로 하는 디코딩 장치.
- 제10항에 있어서,상기 블록 보상부는,상기 폴딩 포인트를 중심으로 음성 특성 신호를 나타내는 제1 서브 블록에 대응하는 윈도우, 오디오 특성 신호를 나타내는 제2 서브 블록 중 부가 정보 영역에 대응하는 윈도우 및 제2 서브 블록 중 나머지 영역에 대응하는 윈도우로 구성되는 상기 제2 합성 윈도우를 적용하고,상기 제1 서브 블록에 대응하는 윈도우는 0이고, 상기 제2 서브 블록 중 나머지 영역에 대응하는 윈도우는 1인 것을 특징으로 하는 디코딩 장치.
- 제9항에 있어서,상기 제2 디코딩부는,상기 입력 신호의 현재 프레임에서 상기 폴딩 포인트에 인접하지 않은 블록에 대해 디코딩하고,상기 블록 보상부는,상기 입력 신호의 현재 프레임에서 상기 폴딩 포인트에 인접하는 서브 블록에 대해 제2 합성 윈도우를 적용하는 것을 특징으로 하는 디코딩 장치.
- 제9항에 있어서,상기 제1 디코딩부는,상기 입력 신호의 현재 프레임에서 오디오 특성 신호를 복원하기 위해 상기 이종의 코딩 방식에 따라 인코딩된 부가 정보를 디코딩하는 것을 특징으로 하는 디코딩 장치.
- 제9항에 있어서,상기 폴딩 포인트는,상기 현재 프레임이 N/4 크기의 서브 블록으로 구성된 경우, N/4 지점이거나 또는 3N/4 지점에 설정되는 것을 특징으로 하는 디코딩 장치.
- 입력 신호의 현재 프레임에서 음성 특성 신호와 오디오 특성 신호 간에 스위칭이 발생하는 폴딩 포인트가 존재하는 경우, 상기 현재 프레임과 상기 음성 특성 신호로부터 도출된 부가 정보에 각각 합성 윈도우를 적용하여 상기 입력 신호를 복원하는 블록 보상부를 포함하는 디코딩 장치.
- 제15항에 있어서,상기 블록 보상부는,상기 폴딩 포인트를 넘지 않는 합성 윈도우를 상기 현재 프레임과 상기 부가 정보에 적용하여 오버랩 연산을 수행하는 것을 특징으로 하는 디코딩 장치.
- 제15항에 있어서,상기 블록 보상부는,상기 폴딩 포인트를 중심으로 제1 서브 블록에 대응하는 윈도우, 제2 서브 블록 중 부가 정보 영역에 대응하는 윈도우 및 제2 서브 블록 중 나머지 영역에 대응하는 윈도우로 구성되는 합성 윈도우를 상기 현재 프레임에 적용하고,상기 제1 서브 블록에 대응하는 윈도우는 0이고, 상기 제2 서브 블록 중 나머지 영역에 대응하는 윈도우는 1인 것을 특징으로 하는 디코딩 장치.
- 제17항에 있어서,상기 블록 보상부는,상기 입력 신호의 현재 프레임에서 상기 폴딩 포인트에 인접하는 서브 블록에 대해 합성 윈도우를 적용하는 것을 특징으로 하는 디코딩 장치.
- 제15항에 있어서,상기 폴딩 포인트는,상기 현재 프레임이 N/4 크기의 서브 블록으로 구성된 경우, N/4 지점이거나 또는 3N/4 지점에 설정되는 것을 특징으로 하는 디코딩 장치.
Priority Applications (8)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP09814808.3A EP2339577B1 (en) | 2008-09-18 | 2009-09-18 | Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and hetero coder |
| EP18162769.6A EP3373297B1 (en) | 2008-09-18 | 2009-09-18 | Decoding apparatus for transforming between modified discrete cosine transform-based coder and hetero coder |
| US13/057,832 US9773505B2 (en) | 2008-09-18 | 2009-09-18 | Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and different coder |
| ES09814808.3T ES2671711T3 (es) | 2008-09-18 | 2009-09-18 | Aparato de codificación y aparato de decodificación para transformar entre codificador basado en transformada de coseno discreta modificada y hetero codificador |
| CN200980145832XA CN102216982A (zh) | 2008-09-18 | 2009-09-18 | 在基于修正离散余弦变换的译码器与异质译码器间转换的编码设备和解码设备 |
| US15/714,273 US11062718B2 (en) | 2008-09-18 | 2017-09-25 | Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and different coder |
| US17/373,243 US12148438B2 (en) | 2008-09-18 | 2021-07-12 | Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and different coder |
| US18/948,841 US20250069609A1 (en) | 2008-09-18 | 2024-11-15 | Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and different coder |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR10-2008-0091697 | 2008-09-18 | ||
| KR20080091697 | 2008-09-18 |
Related Child Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| US13/057,832 A-371-Of-International US9773505B2 (en) | 2008-09-18 | 2009-09-18 | Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and different coder |
| US15/714,273 Continuation US11062718B2 (en) | 2008-09-18 | 2017-09-25 | Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and different coder |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| WO2010032992A2 true WO2010032992A2 (ko) | 2010-03-25 |
| WO2010032992A3 WO2010032992A3 (ko) | 2010-11-04 |
Family
ID=42040027
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/KR2009/005340 Ceased WO2010032992A2 (ko) | 2008-09-18 | 2009-09-18 | Mdct기반의 코너와 이종의 코더간 변환에서의 인코딩 장치 및 디코딩 장치 |
Country Status (6)
| Country | Link |
|---|---|
| US (4) | US9773505B2 (ko) |
| EP (2) | EP3373297B1 (ko) |
| KR (8) | KR101670063B1 (ko) |
| CN (2) | CN104240713A (ko) |
| ES (1) | ES2671711T3 (ko) |
| WO (1) | WO2010032992A2 (ko) |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2010032992A2 (ko) * | 2008-09-18 | 2010-03-25 | 한국전자통신연구원 | Mdct기반의 코너와 이종의 코더간 변환에서의 인코딩 장치 및 디코딩 장치 |
| WO2010044593A2 (ko) | 2008-10-13 | 2010-04-22 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
| KR101649376B1 (ko) | 2008-10-13 | 2016-08-31 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
| FR2977439A1 (fr) * | 2011-06-28 | 2013-01-04 | France Telecom | Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard. |
| AU2014283198B2 (en) | 2013-06-21 | 2016-10-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method realizing a fading of an MDCT spectrum to white noise prior to FDNS application |
| KR102398124B1 (ko) | 2015-08-11 | 2022-05-17 | 삼성전자주식회사 | 음향 데이터의 적응적 처리 |
| KR102837794B1 (ko) | 2019-07-02 | 2025-07-24 | 한국전자통신연구원 | 오디오의 고대역 부호화 방법 및 고대역 복호화 방법, 그리고 상기 방법을 수하는 부호화기 및 복호화기 |
Family Cites Families (41)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1090409C (zh) * | 1994-10-06 | 2002-09-04 | 皇家菲利浦电子有限公司 | 采用不同编码原理的传送系统 |
| US5642464A (en) * | 1995-05-03 | 1997-06-24 | Northern Telecom Limited | Methods and apparatus for noise conditioning in digital speech compression systems using linear predictive coding |
| US5867819A (en) * | 1995-09-29 | 1999-02-02 | Nippon Steel Corporation | Audio decoder |
| US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
| FI114248B (fi) * | 1997-03-14 | 2004-09-15 | Nokia Corp | Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen |
| ATE302991T1 (de) * | 1998-01-22 | 2005-09-15 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen |
| AU3372199A (en) * | 1998-03-30 | 1999-10-18 | Voxware, Inc. | Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment |
| US7117156B1 (en) * | 1999-04-19 | 2006-10-03 | At&T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
| US6959274B1 (en) * | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
| DE10102155C2 (de) * | 2001-01-18 | 2003-01-09 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Erzeugen eines skalierbaren Datenstroms und Verfahren und Vorrichtung zum Decodieren eines skalierbaren Datenstroms |
| DE10102159C2 (de) * | 2001-01-18 | 2002-12-12 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Erzeugen bzw. Decodieren eines skalierbaren Datenstroms unter Berücksichtigung einer Bitsparkasse, Codierer und skalierbarer Codierer |
| US6658383B2 (en) | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
| DE10200653B4 (de) * | 2002-01-10 | 2004-05-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Skalierbarer Codierer, Verfahren zum Codieren, Decodierer und Verfahren zum Decodieren für einen skalierten Datenstrom |
| AU2003234763A1 (en) * | 2002-04-26 | 2003-11-10 | Matsushita Electric Industrial Co., Ltd. | Coding device, decoding device, coding method, and decoding method |
| EP1611772A1 (en) * | 2003-03-04 | 2006-01-04 | Nokia Corporation | Support of a multichannel audio extension |
| AU2003208517A1 (en) * | 2003-03-11 | 2004-09-30 | Nokia Corporation | Switching between coding schemes |
| DE10328777A1 (de) * | 2003-06-25 | 2005-01-27 | Coding Technologies Ab | Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals |
| GB2403634B (en) * | 2003-06-30 | 2006-11-29 | Nokia Corp | An audio encoder |
| US7325023B2 (en) | 2003-09-29 | 2008-01-29 | Sony Corporation | Method of making a window type decision based on MDCT data in audio encoding |
| CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
| US7596486B2 (en) * | 2004-05-19 | 2009-09-29 | Nokia Corporation | Encoding an audio signal using different audio coder modes |
| ATE537536T1 (de) | 2004-10-26 | 2011-12-15 | Panasonic Corp | Sprachkodierungsvorrichtung und sprachkodierungsverfahren |
| US7386445B2 (en) * | 2005-01-18 | 2008-06-10 | Nokia Corporation | Compensation of transient effects in transform coding |
| US20070147518A1 (en) * | 2005-02-18 | 2007-06-28 | Bruno Bessette | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
| KR101295729B1 (ko) * | 2005-07-22 | 2013-08-12 | 프랑스 텔레콤 | 비트 레이트규모 가변적 및 대역폭규모 가변적 오디오디코딩에서 비트 레이트 스위칭 방법 |
| KR101171098B1 (ko) | 2005-07-22 | 2012-08-20 | 삼성전자주식회사 | 혼합 구조의 스케일러블 음성 부호화 방법 및 장치 |
| US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
| KR101366124B1 (ko) * | 2006-02-14 | 2014-02-21 | 오렌지 | 오디오 인코딩/디코딩에서의 인지 가중 장치 |
| US8682652B2 (en) * | 2006-06-30 | 2014-03-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
| EP1903559A1 (en) * | 2006-09-20 | 2008-03-26 | Deutsche Thomson-Brandt Gmbh | Method and device for transcoding audio signals |
| BRPI0718738B1 (pt) * | 2006-12-12 | 2023-05-16 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Codificador, decodificador e métodos para codificação e decodificação de segmentos de dados representando uma corrente de dados de domínio de tempo |
| CN101025918B (zh) * | 2007-01-19 | 2011-06-29 | 清华大学 | 一种语音/音乐双模编解码无缝切换方法 |
| US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
| EP2015293A1 (en) * | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
| PL3002750T3 (pl) * | 2008-07-11 | 2018-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Koder i dekoder audio do kodowania i dekodowania próbek audio |
| WO2010032992A2 (ko) * | 2008-09-18 | 2010-03-25 | 한국전자통신연구원 | Mdct기반의 코너와 이종의 코더간 변환에서의 인코딩 장치 및 디코딩 장치 |
| KR101649376B1 (ko) * | 2008-10-13 | 2016-08-31 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
| KR101315617B1 (ko) * | 2008-11-26 | 2013-10-08 | 광운대학교 산학협력단 | 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기 |
| US9384748B2 (en) * | 2008-11-26 | 2016-07-05 | Electronics And Telecommunications Research Institute | Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching |
| US8725503B2 (en) * | 2009-06-23 | 2014-05-13 | Voiceage Corporation | Forward time-domain aliasing cancellation with application in weighted or original signal domain |
| MY196436A (en) * | 2016-01-22 | 2023-04-11 | Fraunhofer Ges Forschung | Apparatus and Method for Encoding or Decoding a Multi-Channel Signal Using Frame Control Synchronization |
-
2009
- 2009-09-18 WO PCT/KR2009/005340 patent/WO2010032992A2/ko not_active Ceased
- 2009-09-18 ES ES09814808.3T patent/ES2671711T3/es active Active
- 2009-09-18 US US13/057,832 patent/US9773505B2/en active Active
- 2009-09-18 CN CN201410428865.8A patent/CN104240713A/zh active Pending
- 2009-09-18 KR KR1020090088524A patent/KR101670063B1/ko active Active
- 2009-09-18 CN CN200980145832XA patent/CN102216982A/zh active Pending
- 2009-09-18 EP EP18162769.6A patent/EP3373297B1/en active Active
- 2009-09-18 EP EP09814808.3A patent/EP2339577B1/en active Active
-
2016
- 2016-10-21 KR KR1020160137911A patent/KR101797228B1/ko active Active
-
2017
- 2017-09-25 US US15/714,273 patent/US11062718B2/en active Active
- 2017-11-07 KR KR1020170147487A patent/KR101925611B1/ko active Active
-
2018
- 2018-11-29 KR KR1020180151175A patent/KR102053924B1/ko active Active
-
2019
- 2019-12-03 KR KR1020190159104A patent/KR102209837B1/ko active Active
-
2021
- 2021-01-25 KR KR1020210010462A patent/KR102322867B1/ko active Active
- 2021-07-12 US US17/373,243 patent/US12148438B2/en active Active
- 2021-11-01 KR KR1020210148143A patent/KR20210134564A/ko not_active Ceased
-
2024
- 2024-03-21 KR KR1020240039174A patent/KR20240041305A/ko active Pending
- 2024-11-15 US US18/948,841 patent/US20250069609A1/en active Pending
Non-Patent Citations (1)
| Title |
|---|
| None |
Also Published As
| Publication number | Publication date |
|---|---|
| KR101925611B1 (ko) | 2018-12-05 |
| US11062718B2 (en) | 2021-07-13 |
| EP3373297A1 (en) | 2018-09-12 |
| CN102216982A (zh) | 2011-10-12 |
| US20180130478A1 (en) | 2018-05-10 |
| ES2671711T3 (es) | 2018-06-08 |
| EP2339577A2 (en) | 2011-06-29 |
| KR20210134564A (ko) | 2021-11-10 |
| KR20100032843A (ko) | 2010-03-26 |
| WO2010032992A3 (ko) | 2010-11-04 |
| CN104240713A (zh) | 2014-12-24 |
| KR20210012031A (ko) | 2021-02-02 |
| US9773505B2 (en) | 2017-09-26 |
| KR101797228B1 (ko) | 2017-11-13 |
| KR20240041305A (ko) | 2024-03-29 |
| KR101670063B1 (ko) | 2016-10-28 |
| EP2339577B1 (en) | 2018-03-21 |
| KR20170126426A (ko) | 2017-11-17 |
| KR20180129751A (ko) | 2018-12-05 |
| EP2339577A4 (en) | 2012-05-23 |
| KR20190137745A (ko) | 2019-12-11 |
| KR102322867B1 (ko) | 2021-11-10 |
| EP3373297B1 (en) | 2023-12-06 |
| KR102209837B1 (ko) | 2021-01-29 |
| US20220005486A1 (en) | 2022-01-06 |
| KR20160126950A (ko) | 2016-11-02 |
| KR102053924B1 (ko) | 2019-12-09 |
| US12148438B2 (en) | 2024-11-19 |
| US20250069609A1 (en) | 2025-02-27 |
| US20110137663A1 (en) | 2011-06-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2010032992A2 (ko) | Mdct기반의 코너와 이종의 코더간 변환에서의 인코딩 장치 및 디코딩 장치 | |
| WO2010062123A2 (ko) | 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기 | |
| WO2012036487A2 (en) | Apparatus and method for encoding and decoding signal for high frequency bandwidth extension | |
| WO2017222140A1 (ko) | Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치 | |
| WO2015012600A1 (ko) | 영상 부호화/복호화 방법 및 장치 | |
| WO2019147079A1 (ko) | 서브블록 기반의 모션 보상을 이용한 비디오 신호 처리 방법 및 장치 | |
| WO2010005272A2 (ko) | 멀티 채널 부호화 및 복호화 방법 및 장치 | |
| WO2010038951A2 (ko) | 영상 부호화/복호화 방법 및 장치 | |
| WO2013141638A1 (ko) | 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치 | |
| EP2524508A2 (en) | Method and apparatus for encoding and decoding image by using large transform unit | |
| WO2009110721A2 (ko) | 복수 참조에 의한 움직임 예측을 이용한 부호화 방법 및 장치, 그리고 복수 참조에 의한 움직임 예측을 이용한 복호화 방법 및 장치 | |
| WO2015093810A1 (ko) | 이미지 블록의 포워드 복수-가설 인코딩/디코딩 방법 및 장치 | |
| WO2009116815A2 (en) | Apparatus and method for encoding and decoding using bandwidth extension in portable terminal | |
| WO2011122875A2 (ko) | 부호화 방법 및 장치, 그리고 복호화 방법 및 장치 | |
| WO2016204524A1 (ko) | 영상의 부호화/복호화 방법 및 이를 위한 장치 | |
| WO2016204579A1 (ko) | 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치 | |
| WO2020263027A1 (ko) | 양방향 예측 가중치 인덱스를 유도하는 방법 및 영상 복호화 장치 | |
| EP2452492A2 (en) | Method and apparatus for encoding and decoding an image by using rotational transform | |
| WO2015088284A1 (ko) | 비디오 부호화 및 복호화에서의 픽셀 프로세싱 방법 및 장치 | |
| WO2016204583A1 (ko) | 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치 | |
| WO2017164606A2 (ko) | 블록 기반의 오디오 부호화/복호화 장치 및 그 방법 | |
| WO2013129822A1 (ko) | 영상 부호화와 복호화 장치 및 영상을 부호화와 복호화하는 방법 | |
| WO2010008173A2 (ko) | 오디오 신호의 상태결정 장치 | |
| WO2016204462A1 (ko) | 영상의 부호화/복호화 방법 및 이를 위한 장치 | |
| WO2023113490A1 (ko) | 복소수 데이터를 이용한 오디오 처리 방법 및 그를 수행하는 장치 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| WWE | Wipo information: entry into national phase |
Ref document number: 200980145832.X Country of ref document: CN |
|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 09814808 Country of ref document: EP Kind code of ref document: A2 |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 13057832 Country of ref document: US |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 2009814808 Country of ref document: EP |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |









