WO2011122731A1 - 멀티채널 오디오의 다운믹스 방법 및 장치 - Google Patents

멀티채널 오디오의 다운믹스 방법 및 장치 Download PDF

Info

Publication number
WO2011122731A1
WO2011122731A1 PCT/KR2010/002549 KR2010002549W WO2011122731A1 WO 2011122731 A1 WO2011122731 A1 WO 2011122731A1 KR 2010002549 W KR2010002549 W KR 2010002549W WO 2011122731 A1 WO2011122731 A1 WO 2011122731A1
Authority
WO
WIPO (PCT)
Prior art keywords
channel
channels
correlation
downmix
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/KR2010/002549
Other languages
English (en)
French (fr)
Inventor
문한길
이철우
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority to US13/638,820 priority Critical patent/US9478223B2/en
Publication of WO2011122731A1 publication Critical patent/WO2011122731A1/ko
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Definitions

  • the present invention relates to a method and apparatus for downmixing an audio signal, and more particularly, to a method and apparatus for more efficiently downmixing multichannel audio.
  • Waveform audio coding includes MPEG-2 MC audio coding, AAC MC audio coding, and BSAC / AVS MC audio coding.
  • Parametric audio coding decomposes an audio signal into components such as frequency and amplitude, and encodes an audio signal by parameterizing information about the frequency and amplitude.
  • monochannel audio is generated by downmixing the ⁇ channel and right channel audio of stereo audio, and encoding the generated monochannel audio.
  • the information necessary for reconstructing the monochannel audio back to the stereochannel audio is also encoded so that the stereochannel audio can be reconstructed from the monochannel audio at the audio decoding side.
  • the present invention provides a method and apparatus for more efficiently downmixing, encoding, and decoding multichannel audio, and provide a computer-readable recording medium having recorded thereon a program for executing the method.
  • multi-channel audio can be encoded at a higher compression rate by downmixing highly correlated channels based on the correlation between the channels.
  • FIG. 1 illustrates an apparatus for encoding multichannel audio according to an embodiment of the present invention.
  • FIG. 3 illustrates a method of generating information for determining the strength of a downmixed channel according to an embodiment of the present invention.
  • FIG 4 illustrates multichannel audio according to an embodiment of the present invention.
  • FIG 5 illustrates adjacent channels in accordance with an embodiment of the present invention.
  • FIG 6 illustrates adjacent channels in accordance with another embodiment of the present invention.
  • FIG 8 illustrates an apparatus for decoding multichannel audio according to an embodiment of the present invention.
  • FIG. 9 is a flowchart illustrating a method of encoding multichannel audio according to an embodiment of the present invention.
  • FIG. 10 is a flowchart illustrating a downmix method according to an embodiment of the present invention.
  • FIG. 11 is a flowchart illustrating a method of decoding multichannel audio according to an embodiment of the present invention.
  • a method of down-mixing multichannel audio comprising: calculating correlation between channels of the multichannel audio; Selecting a first channel and a second channel to downmix based on the calculated correlation; And downmixing the selected first channel and the second channel.
  • the calculating of the correlation includes calculating a cross correlation between channels for each frame.
  • the calculating of the cross correlation includes calculating the cross correlation between channels arranged at spatially adjacent positions for each frame.
  • the step of selecting the first channel and the second channel, as a result of the calculation of the cross-correlation, the two channels having the largest cross-correlation as the first channel and the second channel Selecting is performed.
  • the selecting of the first channel and the second channel may be performed by downmixing the two channels having the largest cross correlation as two or more pairs as a result of the calculation of the cross correlation. Selecting two channels capable of encoding at least one additional information necessary for reconstructing all downmix channels from the audio signal at the highest compression rate as the first channel and the second channel.
  • the at least one additional information includes additional information necessary to restore the strength of two channels before downmixing.
  • the downmix method is a correlation between the mono-channel resulting from the downmixing of the first channel and the second channel and other channels except for the first channel and the second channel. Calculating; Selecting a third channel and a fourth channel to downmix based on the calculated correlation; And downmixing the selected third and fourth channels.
  • the downmix method is a correlation between the mono-channel resulting from the downmixing of the first channel and the second channel and other channels except for the first channel and the second channel Calculating; Selecting a third channel to downmix with the monochannel based on the calculated correlation; And downmixing the monochannel and the selected third channel.
  • an apparatus for down-mixing multichannel audio calculates a correlation between channels of the multichannel audio, and calculates a correlation between the channels.
  • a controller selecting a first channel and a second channel to downmix based on the first channel; And a downmix unit downmixing the selected first channel and the second channel.
  • an embodiment of the present invention provides a computer-readable recording medium having recorded thereon a program for executing the above-described downmix method.
  • 1 illustrates an apparatus for encoding multichannel audio according to an embodiment of the present invention.
  • 1 illustrates a multi-channel audio encoding apparatus 100 including a downmix apparatus 110 according to an embodiment of the present invention.
  • the multi-channel audio encoding apparatus 100 includes a controller 112, a downmixer 114, an additional information generator 120, and an encoder 130. do.
  • the downmix apparatus 110 receives N multichannel audio Ch.1 to Ch.N and downmixes the received multichannel audio.
  • N-channel audio can be downmixed to produce one mono-channel audio, or M-channel audio smaller than N can be produced.
  • the N-channel audio may be downmixed and downmixed into three-channel audio or six-channel audio to correspond to 2.1-channel audio or 5.1-channel audio.
  • two channels are selected from the N channels and downmixed to generate a first monochannel, and a second monochannel is generated by downmixing a different channel from the generated first monochannel.
  • the final monochannel audio or M channel audio may be generated by repeating the downmixing process by adding another channel to the monochannel resulting from the downmix.
  • an embodiment of the present invention downmixes multichannel audio at a higher compression rate by downmixing highly correlated channels.
  • the controller 112 sequentially selects a channel to be downmixed in the multichannel audio.
  • the correlation between the channels is calculated to select two channels with high correlation. It will be described later in detail with reference to Figures 4 to 6.
  • the downmixer 114 sequentially downmixes the channels selected by the controller 112 based on the correlation calculation. Based on the correlation calculation among the multi-channels, the controller 112 downmixes two selected channels to generate a first mono channel, and the controller 112 calculates a correlation between the first mono channel and the non-downmixed channels. Based on this, another channel is downmixed with the first monochannel. When the controller 112 repeatedly selects a channel based on the correlation calculation, the downmix with the mono channel is repeated to generate final mono channel audio or M channel audio.
  • the controller 112 When selecting a channel to be downmixed based on the plurality of reference channels, the controller 112 downmixes the selected channel for each of the plurality of reference channels.
  • a mono channel is generated by repeating downmixes of channels included in each group based on selection of the controller 112. do.
  • the additional information generator 120 generates additional information necessary to restore the multichannel in the downmixed channel. Each time the downmix unit 114 sequentially downmixes the multichannels, the downmixer 114 generates additional information necessary to restore the multichannels from the downmixed channels. Information for determining the strength of the downmixed two channels and information for determining the phase of the two channels are generated.
  • the additional information generator 120 each time the downmix progresses, the additional information generator 120 generates information indicating which channels are downmixed.
  • the downmix is not performed in a fixed order, but since the channels selected by the controller 112 are sequentially downmixed based on the correlation calculation, the downmix order of the channels is generated as additional information.
  • the additional information generation unit 120 repeats generation of information necessary to restore the downmixed channel in the mono channel whenever the downmixing continues. For example, if 22 channels are repeatedly mixed down 21 times to generate one mono channel, information about downmix order, information for determining channel strength, and information for determining channel phase are provided. 21 times each.
  • information for determining the strength of the channel and the information for determining the phase of the channel may be generated for each of the plurality of subbands as described below, If k, 21 * k pieces of information for determining the strength of the channel are generated, and 21 * k pieces of information for determining the phase of the channel are generated.
  • each channel audio is converted into a frequency domain to encode information on the strength and phase of each channel audio in the frequency domain. This will be described in detail with reference to FIG. 2.
  • the audio signal may be represented by discrete values in the frequency domain. That is, the audio signal may be represented by the sum of the plurality of sinusoids.
  • the frequency domain is divided into a plurality of subbands, and information for determining the strength of two downmixed channels in each subband and two channels.
  • the information for determining the phase of is encoded.
  • the additional information on the strength and phase in the subband s + 1 is similarly encoded.
  • the audio encoding method has an addition coded as information for determining the strength of the channel p and the channel q in the subband s.
  • a vector for the strength of the channel p and a vector for the strength of the channel p are used in the subband s.
  • the average value of the intensities in the frequencies f1, f2, ..., fn of the frequency spectrum in which the channel p is converted into the frequency domain is the intensity of the channel p in the subband s, and the frequency of the frequency spectrum in which the channel p is converted into the frequency domain.
  • the mean value of the intensities in f1, f2, ..., fn is the intensity of channel q in subband s.
  • FIG. 3 illustrates a method of generating information for determining the strength of a downmixed channel according to an embodiment of the present invention.
  • the intensity in the subband s of the monochannel generated by performing the downmix is a vector for the intensity of the channel p in the subband s and the vector for the intensity of the channel q in the subband s by a predetermined angle. It is represented by the sum of the vector for the intensity of the channel p and the vector for the intensity of the channel q in the two-dimensional vector space created to achieve (eg, 90 degrees). Since the intensity of the monochannel can be obtained from the frequency spectrum of the monochannel audio, if only ⁇ I is encoded as additional information, the decoding side can obtain the strengths of both the channel p and the channel q in the subband s.
  • the side information generator 120 uses the same method as the angle between the vector for the intensity of the monochannel and the vector for the intensity of the channel p, or the vector and channel for the intensity of the monochannel. Information about the angle between the vectors for the strength of q is generated as information for determining the strength of the two downmixed channels.
  • the additional information generator 120 is information for determining the phase of the channel p and the channel q in the subband s between the channel p and the channel q in the subband s. Generate information about the phase difference.
  • the downmix unit 114 when the downmix unit 114 downmixes the channel p and the channel q, the downmix is adjusted by adjusting the phase of the channel q such that the phase of the channel p is the same as the phase of the channel q. do. Create a phase-adjusted channel q equal to the phase of channel p and downmix channel p and phase-adjusted channel q.
  • phase of the monochannel generated as a result of the downmix is the same as the phase of the channel p, if the additional information generator 120 generates only information on the difference between the phase of the channel p and the phase of the channel q before the phase adjustment, On the decoding side, the phase of the channel p and the phase of the channel q can be determined from the phase of the monochannel.
  • the downmixer 114 equals the phase of the channel q at the frequencies f1, f2, ..., fn with the phase of the channel p at the frequencies f1, f2, ..., fn. Adjust each one separately.
  • the channel p is represented by
  • the channel q is
  • the channel q (Ch2 ') phase adjusted at the frequency f1 can be obtained by the following equation (1).
  • [theta] 1 is the phase of channel p at frequency f1
  • [theta] 2 is the phase of channel q at frequency f1.
  • the phase of the channel q at the frequency f1 is equal to the phase of the channel p.
  • This phase adjustment is repeated for channel q at different frequencies of subband k, i.e., f2, f3, ..., fn, resulting in phased channel q in subband s.
  • the channel q phase-adjusted in the subband s is the same as the phase of the channel p, if only ' ⁇ 1- ⁇ 2', which is a phase difference between the channel p and the channel q, is encoded, the phase of the channel q is decoded by the side which decodes the downmixed audio. You can get it.
  • the phase of the channel p and the phase of the mono channel generated by the downmix unit 114 are the same, it is not necessary to separately code information about the phase of the channel p.
  • a method of encoding information for determining the strength of the channel p and the channel q using the intensity vectors of the channel audios in the aforementioned subband s and determining the phase of the channel p and the channel q in the subband s using phase adjustment may be used independently or in combination.
  • the information for determining the strength of the downmixed channels may be encoded using a vector according to the present invention, and the information for determining the phase of the downmixed channels may be encoded according to the prior art.
  • the information for determining the strength of the downmixed channels may be encoded according to the prior art, and only the information for determining the phase of the downmixed channels may be encoded according to the present invention.
  • both methods according to the present invention may be used to encode information for determining the strength and phase of downmixed channels.
  • the encoder 130 encodes one monochannel audio or M channel audio generated by downmixing in the downmixer 114.
  • the audio output from the downmixer 114 is an analog signal
  • the analog signal is converted into a digital signal, and the symbols are encoded according to a predetermined algorithm.
  • the encoder 130 also encodes the additional information generated by the additional information generator 120 to recover the multichannel audio from the monochannel audio.
  • FIG 4 illustrates multichannel audio according to an embodiment of the present invention.
  • Multi-channel audio may be arranged in the peripheral three-dimensional space of the listener 410 in the screen direction.
  • Ten channels from Ch.1 to Ch.10 may be arranged in the same height plane as the listener, and nine channels from Ch.11 to Ch.19 may be arranged in the plane higher than the listener.
  • three channels are arranged from Ch.20 to Ch.22 in the plane lower than the listener.
  • the control unit 112 calculates the correlation between the two channels by combining the channels Ch.1 to Ch.22, and selects two channels having the highest correlation as the channel to be downmixed based on the calculation result.
  • the correlation between two channels may be calculated for all 231 combinations from Ch.1 to Ch.22, and two channels having the highest correlation may be selected as a channel to be downmixed.
  • the controller 112 selects two channels as a channel to be downmixed, and the downmixer 114 performs downmixing. Create the first mono channel.
  • the controller 112 When the first monochannel is generated, the controller 112 recalculates the correlation between the generated first monochannel and other non-downmixed channels.
  • the first monochannel was created by downmixing Ch.3 and Ch.12, calculate the correlation between the first monochannel and 20 channels except Ch.3 and Ch.12.
  • two channels to be downmixed can be selected by calculating a correlation between all 21 channels including the first monochannel.
  • the correlation can be calculated for a total of 210 combinations, and based on the calculation result, two channels to be downmixed second can be selected.
  • the first monochannel may not be included in the two channels selected in the second downmix.
  • the downmix device 110 may repeat the selection and downmixing of these two channels to generate one final monochannel audio or M channel audio.
  • the second and subsequent downmixes may downmix a channel different from a previously generated monochannel.
  • the controller 112 calculates a correlation between the first mono channel generated by downmixing Ch.3 and Ch.12 and other channels except Ch.3 and Ch.12, and thus, the first mono channel. You can select another channel to downmix with the channel. Since the number of channels except the first mono channel is 20, the channel to be secondly downmixed may be selected by calculating a correlation with the first mono channel for each of the 20 channels. As a result of the calculation of the correlation, if the selected channel is Ch.21, the downmixer 114 downmixes the first monochannel and Ch.21 to generate a second monochannel.
  • the downmix apparatus 110 may repeat the selection and downmix of the channel to additionally downmix such as to generate the final monochannel audio or generate the M channel audio.
  • FIG 5 illustrates adjacent channels in accordance with an embodiment of the present invention.
  • the control unit 112 calculates down only the correlation between spatially adjacent channels among the channels arranged in the three-dimensional space around the three-dimensional listener. You can select channels to mix. Taking Ch.1 as an example, Ch.1 is adjacent to Ch.11 arranged at the top of Ch.1, Ch.20 arranged at the bottom, Ch.6 arranged at the left and Ch.2 arranged at the right. Doing. When the control unit 112 calculates the correlation between the channels, as described above, if the correlation is calculated for 210 combinations of 22 channels, a large amount of time is required to calculate the correlation, which may be inefficient.
  • control unit 112 calculates only the correlation between the adjacent channels, and can only calculate the correlation between Ch.1 and the adjacent channels Ch.11, Ch.20, Ch.6 and Ch.2 four times. have.
  • Ch.2 can only calculate the correlation between Ch.1 and Ch.3 twice
  • Ch.3 can calculate only the correlation between Ch.12, Ch.21, Ch.2 and Ch.4 four times. Can be.
  • Ch.1 and Ch.11 are selected as the channels to be downmixed according to the result of the correlation calculation, when the control unit 112 selects the channel to be downmixed next time, the mono channel that combines Ch.1 and Ch.11 together is selected. Considering one channel, the correlation between adjacent channels can be recalculated. In other words, the monochannel generated by downmixing Ch.1 and Ch.11 may be regarded as one channel, and the correlation between the monochannel and Ch.20, Ch.6, and Ch.2 may be calculated.
  • a monochannel may be generated by setting at least one reference channel and downmixing adjacent channels one by one around the reference channel. There may be one reference channel or a plurality of reference channels.
  • the controller 112 sets Ch.3, which is one channel, as a reference channel, and selects one of the channels adjacent to Ch.3 based on the correlation calculation.
  • the downmix section 114 downmixes the selected channel with Ch. 3 to generate the first mono channel
  • the second mono channel and the adjacent channel are recalculated to select the second channel to be downmixed. do.
  • the downmix unit 114 downmixes the selected channel with the first mono channel to generate a second mono channel
  • the controller 112 selects a channel to be downmixed again.
  • the adjacent channels are added one by one based on Ch. 3 and downmixing can be performed to generate the final monochannel audio or M channel audio.
  • the downmix apparatus 110 may set a plurality of reference channels and repeat the process of downmixing adjacent channels around the reference channel.
  • Ch.1, Ch.5, Ch.8, and Ch.10 may be selected as reference channels, and downmixing adjacent channels one by one around a plurality of reference channels.
  • FIG 6 illustrates adjacent channels in accordance with another embodiment of the present invention.
  • Ch.1 and Ch.5 reference channels shown in FIG. 2 and downmixed by selecting adjacent channels based on the correlation calculation Ch.1 and Ch.2 are downmixed. If a first mono channel is generated, and Ch. 5 and Ch. 4 are downmixed to generate a second mono channel, only Ch. 3 exists between the two mono channels.
  • Ch.3 is also included in adjacent channel candidates (Ch.6, Ch.11, Ch.20, Ch.3., Ch.12 and Ch.21) that can be further downmixed to the first monochannel.
  • adjacent channel candidates Ch.7, Ch.13, Ch.22, Ch.3, Ch.12 and Ch.21 which may be further downmixed to the second monochannel.
  • 1 / You can multiply Ch.3 into two channels by multiplying them and downmix them to two mono channels, considering the two separate channels as different channels.
  • a channel to be downmixed may be selected regardless of spatial arrangement. For example, if the correlation between Ch.1 and Ch.10 is the highest, two channels of the spatially farthest position, Ch.1 and Ch.10, may be selected as the channel to be downmixed. However, if the purpose of the downmix is to produce 2.1 channel audio or 5.1 channel audio, it is preferable to select the channel to be downmixed in consideration of spatial arrangement.
  • channels arranged in a three-dimensional space as shown in FIG. 4 are divided into a plurality of groups 610 to 650 as shown in FIG. 7, and only downmixed channels included in each group.
  • FIG. 7 illustrates a case in which 22 channels shown in FIG. 4 are grouped to correspond to five channels.
  • a group comprising Ch.1, Ch.2, Ch.3, Ch.6, Ch.11, Ch.12, Ch.14, Ch.20, and Ch.21, disposed on the front left side of the listener in the screen direction, Ch.3, Ch.4, Ch.5, Ch.7, Ch.12, Ch.13, Ch16, Ch.21 and Ch.22 disposed on the right front side, Ch.
  • Channels arranged at the boundary of each group are 1 / intensity as described above with reference to FIG. 6. Multiply by to separate the two channels, and consider the two separate channels as different channels and downmix in each group.
  • the control unit 112 calculates a correlation between only channels included in each group to select a channel to be downmixed, and selects channels to be downmixed in each group based on the calculation result. Since only spatially adjacent channels within each group are downmixed, multi-channel audio can be converted to correspond to 2.1-channel or 5.1-channel audio.
  • the controller 112 may calculate a correlation between channels according to Equation 2 below to select a channel to be downmixed.
  • Cross-correlation between channel i and channel j may be calculated in units of frames.
  • the controller 112 may display 2L + 1 symbols included in the voice frame of channel i and 2L + 1 symbols included in the voice frame of channel j.
  • Cross correlation between symbols may be calculated by Equation 1.
  • x i (k) denotes a symbol of channel i
  • x j (k) denotes a symbol of channel j
  • d may be '0' as a constant that may be determined differently according to an embodiment, or may be 1/2 of the number of symbols included in one voice frame. For example, if there are 1024 symbols in one voice frame, d may be set to 512 to calculate a cross correlation.
  • the selection of the channel to be downmixed is performed in units of voice frames. For example, Ch.11 may be selected as the channel to be downmixed with Ch.1 in the nth voice frame, and Ch.20 may be selected as the channel to be downmixed with Ch.1 in the n + 1th voice frame.
  • Cross correlation can be calculated in the frequency domain.
  • symbols included in one voice frame are fast fourier transformed (FFT), they are represented by discrete values representing the strength of frequency components in the frequency domain.
  • FFT fast fourier transformed
  • the controller 112 may calculate the cross correlation between the channels based on the discrete values of the frequency domain generated as a result of the FFT.
  • the cross correlation between the values representing the strength of the frequency component generated by FFT the symbols of channel i and the values representing the strength of the frequency component generated by FFT the symbols of channel j is calculated according to Equation 1.
  • x i (k) represents values representing the strength of the frequency component generated by FFT the symbols of channel i
  • x j (k) represents the strength of the frequency component generated by FFT the symbols of channel j.
  • d may be '0' as described above
  • the frequency domain may be divided into a plurality of subbands, and cross correlation may be calculated for each subband.
  • the cross-correlation between the values representing the strength of the frequency component of the subband s of channel i and the values representing the strength of the frequency component of the subband s of channel j is calculated, and the subband s + of channel i is calculated.
  • a cross correlation may be calculated between values representing the strength of the frequency component of 1 and values representing the strength of the frequency component of subband s + 1 of channel j. In the same way, the calculation of the cross correlation is repeated for all subbands.
  • a channel to be downmixed by the controller 112 may be selected for each subband. Since the cross correlation is calculated for each subband, the channels selected for downmixing are different for each subband. For example, as a result of calculating the cross correlation in subband s, even if Ch.11 is selected as the channel to be downmixed with Ch.1, Ch.20 is the channel to be downmixed with Ch.1 in subband s + 1. Can be selected.
  • two or more pairs of channels may have the same correlation.
  • the controller 112 calculates the correlation between the 22 channels of FIG. 4, the correlation between Ch.1 and Ch.11 and the correlation between Ch.5 and Ch.13 are the same. Can be the largest. In this case, the controller 112 selects a channel capable of encoding the additional information generated by the additional information generator 120 at the highest compression rate in order to recover the multichannel from the downmixed channel. As described above with reference to FIGS. 2 and 3, the information for determining the strength of the downmixed channels and the information for determining the phase are encoded together with the audio of the downmixed channels, so that the additional information is encoded at the highest compression ratio. Select the channel that you can.
  • the information for determining the intensity of downmixed channels may include the angle between the vector for the monochannel intensity and the vector for the intensity of channel p or the vector for channel intensity and channel q. It may be an angle between the vectors with respect to the intensity of. Therefore, the controller 112 selects a channel capable of encoding ⁇ I at the highest compression rate. If downmixing Ch.1 and Ch.11 can encode information about ⁇ I at a higher compression rate than downmixing Ch.5 and Ch.13, you can downmix Ch.1 and Ch.11. Selected by channel. For example, if ⁇ I is small so that information about ⁇ I can be encoded at a higher compression rate, two channels with ⁇ I are selected as a channel to downmix.
  • control unit 112 calculates the correlation between adjacent channels as shown in FIG. 5, the correlation between Ch.1 and Ch.11 and the correlation between Ch.1 and Ch.20 are the same and are the largest. Can be.
  • the control unit 112 may select two channels for downmixing two channels capable of encoding the additional information generated by the additional information generating unit 120 at the highest compression rate in order to restore the multichannel in the downmixed channel. have.
  • FIG 8 illustrates an apparatus for decoding multichannel audio according to an embodiment of the present invention.
  • the multi-channel audio decoding apparatus 700 includes an extractor 710, a decoder 720, and an upmixer 730.
  • the extractor 710 extracts encoded audio and encoded additional information from the received audio data, that is, the bitstream.
  • the encoded audio may be generated by downmixing N channels into one mono channel or M channel, and then encoding the audio signal according to a predetermined algorithm.
  • the decoder 720 decodes the encoded audio and additional information extracted by the extractor 710.
  • the encoded audio and the additional information are decoded using the same algorithm as the algorithm used for encoding. As a result of decoding the audio, one monochannel or M channel audio is restored.
  • the upmixer 730 up-mixes the audio decoded by the decoder 720 to restore the N-channel audio before downmixing.
  • the N-channel audio is restored based on the additional information decoded by the decoder 720.
  • the downmix process described above with reference to FIGS. 4 to 6 is reversed with reference to the additional information to upmix downmixed audio to multichannel audio.
  • the channels are sequentially separated from the mono channel with reference to the additional information.
  • the channels may be sequentially separated from the monochannel by determining the strength and phase of the downmixed channels according to the information for determining the strength and phase of the downmixed channels.
  • FIG. 9 is a flowchart illustrating a method of encoding multichannel audio according to an embodiment of the present invention.
  • the multichannel audio encoding apparatus 100 downmixes multichannel audio.
  • the channels to be downmixed are selected based on the correlation calculation between the channels, and the downmixing process is repeated to generate one final monochannel audio or M channel audio.
  • the multichannel audio encoding apparatus 100 generates information necessary for reconstructing multichannel audio from audio generated by performing downmixing in operation 810 in operation 820.
  • information for determining the strength and phase of the downmixed channels may be generated as additional information.
  • information about the downmix order of the channels may be generated as additional information.
  • the multichannel audio encoding apparatus 100 encodes the downmixed audio generated in operation 810 and the additional information generated in operation 820.
  • FIG. 10 is a flowchart illustrating a downmix method according to an embodiment of the present invention.
  • FIG. 10 illustrates step 810 of FIG. 9 in more detail.
  • the downmixer 110 calculates a correlation between channels of multichannel audio. As shown in Equation 2, cross correlation between channels may be calculated in the time domain or the frequency domain. If you have a monochannel that was previously downmixed, you can calculate the correlation between the monochannel and the channels that have not yet been downmixed.
  • the downmix apparatus 110 selects two channels to be downmixed, that is, a first channel and a second channel, based on the calculation result of operation 812. As a result of the calculation of step 812, two channels having the largest cross correlation are selected. When there are two or more pairs of channels having the largest cross correlation, two channels capable of encoding side information at the highest compression rate are selected as channels to be downmixed.
  • the additional information may be information for determining the strength and phase of the two downmixed channels.
  • Information for determining the strength of the two downmixed channels may be a vector and a downlink for the strength of the monochannel as shown in FIG. 3. It may be information about angles between vectors with respect to the strength of the channels to be mixed.
  • the downmix apparatus 110 downmixes the first channel and the second channel selected in operation 814.
  • the downmix apparatus 110 repeats steps 812 to 816 until all of the downmix is completed to produce one monochannel or M channel audio.
  • FIG. 11 is a flowchart illustrating a method of decoding multichannel audio according to an embodiment of the present invention.
  • the multi-channel audio decoding apparatus 700 extracts additional information and downmixed audio in step 910.
  • the additional information and the downmixed audio required for reconstructing the multichannel are extracted from the audio data, that is, the downmixed audio from the bitstream.
  • the multichannel audio decoding apparatus 700 decodes the side information and the downmixed audio extracted in operation 910.
  • the side information and the downmixed audio are decoded using the same algorithm as the used algorithm.
  • the multi-channel audio decoding apparatus 700 upmixes the downmixed audio based on the additional information decoded in operation 920.
  • the multi-channel audio is reconstructed by upmixing downmixed audio based on the additional information described above with respect to the additional information generation unit 120.
  • the downmix apparatus, the multichannel audio encoding apparatus, and the multichannel audio decoding apparatus are a bus coupled to respective units of the apparatus as shown in FIGS. 1 and 8. It may include at least one processor coupled to the bus. It may also include a memory coupled to the bus for storing instructions, received messages or generated messages and coupled to at least one processor for performing instructions as described above.
  • the computer-readable recording medium also includes all kinds of recording devices in which data that can be read by a computer system is stored. Examples of the recording medium include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device and the like.
  • the computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

채널들 사이의 상관도 계산에 기초해 다운믹스할 채널들을 선택하여 다운믹스하는 멀티채널 오디오의 다운믹스 방법 및 장치가 개시된다.

Description

멀티채널 오디오의 다운믹스 방법 및 장치
본 발명은 오디오 신호를 다운믹스하는 방법 및 장치에 관한 것으로 보다 상세히는 멀티채널 오디오를 보다 효율적으로 다운믹스하는 방법 및 장치에 관한 것이다.
일반적으로 멀티채널 오디오를 부호화하는 방법에는 웨이브폼(waveform) 오디오 코딩와 파라메트릭(parametric) 오디오 코딩이 있다. 웨이브폼 부호화에는 MPEG-2 MC 오디오 코딩, AAC MC 오디오 코딩 및 BSAC/AVS MC 오디오 코딩 등이 있다.
파라메트릭 오디오 코딩에서는 오디오 신호를 주파수, 진폭과 같은 성분으로 분해하고 이러한 주파수, 진폭 등에 대한 정보를 파라미터화하여 오디오 신호를 부호화한다.
파라메트릭 오디오 코딩에서는 스테레오 오디오의 촤채널 및 우채널 오디오를 다운믹스하여 모노채널 오디오를 생성하고, 생성된 모노채널 오디오를 부호화한다. 이 때, 모노채널 오디오를 다시 스테레오채널 오디오로 복원하는데 필요한 정보들도 함께 부호화함으로써, 오디오를 복호화하는 측에서 모노채널 오디오로부터 스테레오채널 오디오를 복원할 수 있게 한다.
본 발명은 멀티채널 오디오를 보다 효율적으로 다운믹스하여 부호화, 복호화하는 방법 및 장치를 제공하고, 상기 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.
본 발명의 일 실시예에 따르면, 채널들 사이의 상관도에 기초해 상관도가 높은 채널들끼리 다운믹스함으로써, 보다 높은 압축률로 멀티채널 오디오를 부호화할 수 있다.
도 1은 본 발명의 일 실시예에 따른 멀티채널 오디오를 부호화하는 장치를 도시한다.
도 2는 파라메트릭 오디오 코딩에서의 서브 밴드들을 도시한다.
도 3은 본 발명의 일 실시예에 따른 다운믹스된 채널의 세기를 결정하기 위한 정보를 생성하는 방법을 도시한다.
도 4는 본 발명의 일 실시예에 따른 멀티채널 오디오를 도시한다.
도 5는 본 발명의 일 실시예에 따른 인접한 채널들을 도시한다.
도 6은 본 발명의 또 다른 실시예에 따른 인접한 채널들을 도시한다.
도 7은 본 발명의 일 실시예에 따른 다운믹스 그룹을 도시한다.
도 8은 본 발명의 일 실시예에 따른 멀티채널 오디오를 복호화하는 장치를 도시한다.
도 9는 본 발명의 일 실시예에 따른 멀티채널 오디오를 부호화하는 방법을 설명하기 위한 흐름도이다.
도 10은 본 발명의 일 실시예에 따른 다운믹스 방법을 설명하기 위한 흐름도이다.
도 11은 본 발명의 일 실시예에 따른 멀티채널 오디오를 복호화하는 방법을 설명하기 위한 흐름도이다.
상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 멀티채널 오디오를 다운믹스(down-mix)하는 방법은 상기 멀티채널 오디오의 채널들 사이의 상관도를 계산하는 단계; 상기 계산된 상관도에 기초해 다운믹스할 제1 채널 및 제2 채널을 선택하는 단계; 및 상기 선택된 제1 채널과 상기 제2 채널을 다운믹스하는 단계를 포함한다.
본 발명의 또 다른 실시예에 따르면, 상기 상관도를 계산하는 단계는 프레임마다 채널들 사이의 교차 상관도(cross correlation)를 계산하는 단계를 포함한다.
본 발명의 또 다른 실시예에 따르면, 상기 교차 상관도를 계산하는 단계는 프레임마다 공간적으로 인접한 위치에 배치된 채널들 사이의 교차 상관도를 계산하는 단계를 포함한다.
본 발명의 또 다른 실시예에 따르면, 상기 제1 채널 및 제2 채널을 선택하는 단계는 상기 교차 상관도의 계산 결과, 교차 상관도가 가장 큰 두 개의 채널을 상기 제1 채널 및 제2 채널로 선택하는 단계를 포함한다.
본 발명의 또 다른 실시예에 따르면, 상기 제1 채널 및 제2 채널을 선택하는 단계는 상기 교차 상관도의 계산 결과, 교차 상관도가 가장 큰 두 개의 채널이 두 쌍 이상이면, 다운믹스되어 생성된 오디오 신호에서 다운믹스 전 채널들을 복원하기 위해 필요한 적어도 하나의 부가정보를 가장 높은 압축률로 부호화할 수 있는 두 개의 채널을 상기 제1 채널 및 제2 채널로 선택하는 단계를 포함한다.
본 발명의 또 다른 실시예에 따르면, 상기 적어도 하나의 부가정보는 다운믹스 전 두 개의 채널의 세기를 복원하기 위해 필요한 부가정보를 포함한다.
본 발명의 또 다른 실시예에 따르면, 상기 다운믹스 방법은 상기 제1 채널과 제2 채널의 다운믹스 결과 생성된 모노채널 및 상기 제1 채널 및 상기 제2 채널을 제외한 다른 채널들 사이의 상관도를 계산하는 단계; 상기 계산된 상관도에 기초해 다운믹스할 제3 채널 및 제4 채널을 선택하는 단계; 및 상기 선택된 제3 채널 및 제4 채널을 다운믹스하는 단계를 더 포함한다.
본 발명의 또 다른 실시예에 따르면, 상기 다운믹스 방법은 상기 제1 채널과 제2 채널의 다운믹스 결과 생성된 모노채널과 상기 제1 채널 및 상기 제2 채널을 제외한 다른 채널들 사이의 상관도를 계산하는 단계; 상기 계산된 상관도에 기초해 상기 모노채널과 함께 다운믹스할 제3 채널을 선택하는 단계; 및 상기 모노채널 및 상기 선택된 제3 채널을 다운믹스하는 단계를 더 포함한다.
상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 멀티채널 오디오를 다운믹스(down-mix)하는 장치는 상기 멀티채널 오디오의 채널들 사이의 상관도를 계산하고, 상기 계산된 상관도에 기초해 다운믹스할 제1 채널 및 제2 채널을 선택하는 제어부; 및 상기 선택된 제1 채널과 상기 제2 채널을 다운믹스하는 다운믹스부를 포함한다.
상기 기술적 과제를 해결하기 위해 본 발명의 일 실시예는 상기된 다운믹스 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 멀티채널 오디오를 부호화하는 장치를 도시한다. 도 1은 본 발명의 일 실시예에 따른 다운믹스 장치(110)를 포함하는 멀티채널 오디오 부호화 장치(100)를 도시한다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 멀티채널 오디오 부호화 장치(100)는 제어부(112), 다운믹스부(114), 부가정보생성부(120) 및 부호화부(130)를 포함한다.
다운믹스 장치(110)는 N개의 멀티채널 오디오(Ch.1 내지 Ch.N)를 수신하고, 수신된 멀티채널 오디오를 다운믹스한다. N 채널 오디오를 다운믹스하여 하나의 모노채널 오디오를 생성할 수도 있고, N 보다 작은 M 채널 오디오를 생성할 수도 있다. 예를 들어, N 채널 오디오를 다운믹스하여 2.1 채널 오디오 또는 5.1 채널 오디오에 대응되도록 3개 채널의 오디오 또는 6개 채널의 오디오로 다운믹스할 수도 있다.
본 발명의 일 실시예에 따르면, N 채널에서 두 채널을 선택하고 다운믹스하여 제1 모노채널을 생성하고, 생성된 제1 모노채널과 다른 채널을 다시 다운믹스하여 제2 모노채널을 생성한다. 다운믹스 결과 생성되는 모노채널에 다른 채널을 추가하여 다운믹스하는 과정을 반복하여 최종 모노채널 오디오 또는 M 채널 오디오를 생성할 수도 있다.
N 채널 오디오를 다운믹스함에 있어, 엔트로피를 최소화하여 다운믹스하기 위해서는 유사한 채널을 다운믹스하는 것이 바람직하다. 따라서, 본 발명의 일 실시예는 상관도가 높은 채널들끼리 다운믹스함으로써 보다 높을 압축률로 멀티채널 오디오를 다운믹스한다.
제어부(112)는 멀티채널 오디오에서 다운믹스할 채널을 순차적으로 선택한다. 채널들 사이의 상관도를 계산하여 상관도가 높은 두 채널을 선택한다. 도 4 내지 6을 참조하여 상세히 후술한다.
다운믹스부(114)는 제어부(112)가 상관도 계산에 기초해 선택한 채널들을 순차적으로 다운믹스한다. 멀티채널 중 상관도 계산에 기초해 제어부(112)가 선택한 두 채널을 다운믹스하여 제1 모노채널을 생성하고, 제어부(112)가 제1 모노채널과 다운믹스되지 않은 채널들 사이의 상관도 계산에 기초해 또 다른 채널을 제1 모노채널과 다운믹스한다. 제어부(112)가 상관도 계산에 기초해 반복적으로 채널을 선택하면, 모노채널과의 다운믹스를 반복하여 최종 모노채널 오디오 또는 M 채널 오디오를 생성한다.
복수의 기준 채널에 기초해 다운믹스할 채널을 선택하는 경우에는 복수의 기준 채널 각각에 대해 제어부(112)가 선택한 채널을 다운믹스한다. 또한, 후술하는 도 7에 도시된 바와 같이 멀티채널을 공간적인 배치에 기초해 그룹화하였다면, 제어부(112)의 선택에 기초해 각각의 그룹에 포함된 채널들끼리 다운믹스를 반복하여 모노채널을 생성한다.
부가정보생성부(120)는 다운믹스된 채널에서 멀티채널을 복원하기 위해 필요한 부가정보를 생성한다. 다운믹스부(114)가 멀티채널을 순차적으로 다운믹스할 때마다, 다운믹스된 채널에서 멀티채널을 복원하기 위해 필요한 부가정보를 생성한다. 다운믹스된 두개의 채널의 세기를 결정하기 위한 정보 및 두개의 채널의 위상을 결정하기 위한 정보를 생성한다.
또한, 부가정보생성부(120)는 다운믹스가 진행될 때마다, 어떤 채널들이 다운믹스되었는지 나타내는 정보를 생성한다. 고정된 순서에 따라 다운믹스가 진행되는 것이 아니라, 상관도 계산에 기초해 제어부(112)가 선택한 채널이 순차적으로 다운믹스되므로, 채널들의 다운믹스 순서를 부가정보로서 생성한다.
부가정보생성부(120)는 다운믹스가 계속될 때마다 모노채널에서 다운믹스된 채널을 복원하기 위해 필요한 정보들의 생성을 반복한다. 예를 들어, 22개의 채널을 21회 반복하여 순차적으로 다운믹스하여 하나의 모노채널을 생성한다면, 다운믹스 순서에 대한 정보, 채널의 세기를 결정하기 위한 정보 및 채널의 위상을 결정하기 위한 정보가 각각 21회씩 생성된다. 또한, 본 발명의 일 실시예에 따르면, 후술하는 바와 같이 채널의 세기를 결정하기 위한 정보 및 채널의 위상을 결정하기 위한 정보를 복수의 서브밴드 각각에 대해 생성할 수 있으므로, 서브밴드의 개수가 k라고 하면, 채널의 세기를 결정하기 위한 정보가 21*k개 생성되고, 채널의 위상을 결정하기 위한 정보 21*k개 생성된다.
채널의 세기를 결정하기 위한 정보 및 채널의 위상을 결정하기 위한 정보에 대해 도 2 및 3을 참조하여 보다 상세히 설명한다.
(1) 세기를 결정하기 위한 정보
파라메트릭 오디오 코딩에서는 각각의 채널 오디오를 주파수 도메인으로 변환하여 주파수 도메인에서 채널 오디오 각각의 세기 및 위상에 대한 정보를 부호화할 수 있다. 도 2를 참조하여 상세히 설명한다.
도 2는 파라메트릭 오디오 코딩에서의 서브 밴드들을 도시한다.
도 2는 오디오 신호의 프레임을 주파수 도메인으로 변환한 주파수 스펙트럼을 도시한다. 소정 채널의 오디오 신호를 고속 푸리에 변환(Fast Fourier Transform)하면, 오디오 신호는 주파수 도메인에서 이산(discrete)된 값들에 의해 표현될 수 있다. 즉, 오디오 신호는 복수의 정현파들의 합으로 표현될 수 있다.
파라메트릭 오디오 코딩에서는 오디오 신호가 주파수 도메인으로 변환되면, 주파수 도메인을 복수의 서브 밴드들로 분할하고, 각각의 서브 밴드들에서의 다운믹스된 두 개 채널의 세기를 결정하기 위한 정보 및 두 개 채널의 위상을 결정하기 위한 정보를 부호화한다. 이때, 서브 밴드 s에서의 세기 및 위상에 대한 부가정보들을 부호화한 후에, 마찬가지로 서브 밴드 s+1에서의 세기 및 위상에 대한 부가정보들을 부호화한다. 서브 밴드마다 세기 및 위상에 대한 부가정보들을 생성하고, 부호화함으로써 복호화하는 측에서 모노채널 오디오의 주파수 스팩트럼으로부터 다운믹스 전 채널들을 복원할 수 있게 한다.
채널 p 및 채널 q를 다운믹스하여 모노채널을 생성한다고 가정했을 때, 본 발명의 일실시예에 따른 오디오 부호화 방법은 서브 밴드 s에서 채널 p과 채널 q의 세기를 결정하기 위한 정보로서 부호화되는 부가정보들의 개수를 최소화하기 위하여 서브 밴드 s에서 채널 p의 세기에 대한 벡터 및 채널 p의 세기에 대한 벡터를 이용한다. 여기서, 채널 p를 주파수 도메인으로 변환한 주파수 스펙트럼의 주파수 f1, f2, ... , fn에서 세기들의 평균값이 서브 밴드 s에서 채널 p의 세기이고, 채널 p를 주파수 도메인으로 변환한 주파수 스펙트럼의 주파수 f1, f2, ... , fn에서 세기들의 평균값이 서브 밴드 s에서 채널 q의 세기이다.
도 3은 본 발명의 일 실시예에 따른 다운믹스된 채널의 세기를 결정하기 위한 정보를 생성하는 방법을 도시한다.
도 3을 참조하면, 다운믹스를 수행하여 생성된 모노채널의 서브 밴드 s에서의 세기는 서브 밴드 s에서 채널 p의 세기에 대한 벡터 및 서브 밴드 s에서 채널 q의 세기에 대한 벡터가 소정의 각도(예를 들어, 90도)를 이루도록 생성된 2차원 벡터 공간에서 채널 p의 세기에 대한 벡터 및 채널 q의 세기에 대한 벡터의 합으로 표시된다. 모노채널의 세기는 모노채널 오디오의 주파수 스펙트럼으로부터 구할 수 있으므로, θI만 부가정보로 부호화하면, 복호화하는 측은 서브밴드 s에서 채널 p 및 채널 q의 세기를 모두 구할 수 있다.
부가정보생성부(120)는 동일한 방법으로 다른 서브밴드들에 대해서도 다운믹스 결과 생성된 모노채널의 세기에 대한 벡터와 채널 p의 세기에 대한 벡터 사이의 각도 또는 모노채널의 세기에 대한 벡터와 채널 q의 세기에 대한 벡터 사이의 각도에 대한 정보를 다운믹스된 두 채널의 세기를 결정하기 위한 정보로서 생성한다.
(2) 위상을 결정하기 위한 정보
본 발명의 일실시예에 따른 오디오 부호화 방법에 따르면, 부가정보 생성부(120)는 서브밴드 s에서 채널 p와 채널 q의 위상을 결정하기 위한 정보로서 서브 밴드 s에서 채널 p와 채널 q 사이의 위상 차이에 대한 정보를 생성한다.
본 발명의 일실시예에 따르면, 다운믹스부(114)가 채널 p와 채널 q를 다운믹스할 때, 채널 p의 위상과 채널 q의 위상이 동일해지도록, 채널 q의 위상을 조절하여 다운믹스한다. 채널 p의 위상과 동일하게 위상 조절된 채널 q를 생성하고, 채널 p와 위상 조절된 채널 q를 다운믹스한다. 따라서, 다운믹스 결과 생성된 모노채널의 위상은 채널 p의 위상과 동일하므로, 부가정보생성부(120)가 채널 p의 위상과 위상 조절 전의 채널 q의 위상 사이의 차이에 대한 정보만 생성하면, 복호화하는 측에서는 모노채널의 위상으로부터 채널 p의 위상 및 채널 q의 위상을 결정할 수 있다.
서브 밴드 s를 예로 들어 설명하면, 다운믹스부(114)는 주파수 f1, f2, ... , fn에서 채널 q의 위상을 주파수 f1, f2, ... , fn에서 채널 p의 위상과 동일해지도록 각각 조절한다. 주파수 f1에서 채널 q의 위상을 조절하는 경우를 예로 들어 설명하면, 주파수 f1에서 채널 p가 |Ch1|ei(2πf1t+θ1)로 표시되고, 채널 q가 |Ch2|ei(2πf1t+θ2)로 표시되면, 주파수 f1에서 위상 조절된 채널 q(Ch2')는 다음 수학식 1에 의해 구해질 수 있다. θ1은 주파수 f1에서 채널 p의 위상이고, θ2는 주파수 f1에서 채널 q의 위상이다.
수학식 1
Figure PCTKR2010002549-appb-M000001
수학식 1에 의해 주파수 f1에서 채널 q의 위상은 채널 p의 위상과 동일해진다. 이와 같은 위상 조절은 서브 밴드 k의 다른 주파수들 즉, f2, f3, ... , fn에서 채널 q에 대해 반복하여 서브 밴드 s에서 위상 조절된 채널 q가 생성된다.
서브 밴드 s에서 위상 조절된 채널 q는 채널 p의 위상과 동일하므로, 채널 p와 채널 q의 위상 차이인 'θ1-θ2'만 부호화하면, 다운믹스된 오디오를 복호화하는 측에서 채널 q의 위상을 구할 수 있다. 또한, 채널 p의 위상과 다운믹스부(114)에서 생성된 모노채널의 위상은 동일하므로, 별도로 채널 p의 위상에 대한 정보를 부호화할 필요가 없다.
한편, 전술한 서브 밴드 s에서 채널 오디오들의 세기 벡터를 이용해 채널 p와 채널 q의 세기를 결정하기 위한 정보를 부호화하는 방법과, 위상 조절을 이용해 서브 밴드 s에서 채널 p와 채널 q의 위상을 결정하기 위한 정보를 부호화하는 방법은 각각 독립적으로 이용될 수도 있고 조합되어 이용될 수 있다.
다시 말해, 다운믹스된 채널들의 세기를 결정하기 위한 정보는 본 발명에 따라 벡터를 이용해 부호화하고, 다운믹스된 채널들의 위상을 결정하기 위한 정보는 종래 기술에 따라 부호화할 수 있다. 반대로, 다운믹스된 채널들의 세기를 결정하기 위한 정보는 종래 기술에 따라 부호화하고, 다운믹스된 채널들의 위상을 결정하기 위한 정보만 본 발명에 따라 부호화할 수도 있다. 물론, 본 발명에 따른 두 가지 방법을 모두 이용하여 다운믹스된 채널들의 세기 및 위상을 결정하기 위한 정보를 부호화할 수도 있다.
다시 도 1을 참조하면, 부호화부(130)는 다운믹스부(114)에서 다운믹스되어 생성된 하나의 모노채널 오디오 또는 M 채널 오디오를 부호화한다. 다운믹스부(114)에서 출력되는 오디오가 아날로그 신호인 경우에는 아날로그 신호를 디지털 신호로 변환한 다음, 심볼들을 소정의 알고리즘에 따라 부호화한다. 부호화 알고리즘에는 제한이 없으며, 오디오 신호를 부호화하여 비트스트림을 생성하는 모든 알고리즘이 부호화부(130)에서 이용될 수 있다. 또한, 부호화부(130)는 부가정보생성부(120)에서 모노채널 오디오로부터 멀티채널 오디오를 복원하기 위해 생성된 부가정보도 부호화한다.
이하에서는 다운믹스장치(110)가 멀티채널 오디오를 다운믹스하는 방법을 도 4 내지 6을 참조하여 보다 상세히 설명한다.
도 4는 본 발명의 일 실시예에 따른 멀티채널 오디오를 도시한다.
스크린 방향으로 청취자(410)의 주변 3차원 공간에 멀티채널 오디오가 배치될 수 있다. 청취자와 같은 높이의 평면에 Ch.1로부터 Ch.10까지 10개의 채널이 배치될 수 있으며, 청취자보다 높은 평면에 Ch.11로부터 Ch.19까지 9개의 채널이 배치될 수 있다. 또한, 청취자보다 낮은 평면에 Ch.20로부터 Ch.22까지 3개의 채널이 배치된다.
(3) 다운믹스될 채널의 선택
제어부(112)는 Ch.1로부터 Ch.22까지의 채널들을 조합하여 두 채널 사이의 상관도를 계산하고, 계산 결과에 기초해 상관도가 가장 높은 2개의 채널을 다운믹스할 채널로 선택한다.
본 발명의 일 실시예에 따르면, Ch.1로부터 Ch.22까지 전체 231개 조합에 대해 두 채널 사이의 상관도를 계산하고, 상관도가 가장 높은 두 채널을 다운믹스할 채널로 선택할 수 있다.
예를 들어, 상관도 계산 결과 Ch.3과 Ch.12의 상관도가 가장 높으면, 제어부(112)는 두 채널을 다운믹스할 채널로 선택하고, 다운믹스부(114)는 다운믹스를 수행하여 첫 번째 모노채널을 생성한다.
첫 번째 모노채널이 생성되면, 제어부(112)는 생성된 첫 번째 모노채널 및 다운믹스 되지 않은 다른 채널들 사이의 상관도를 다시 계산한다.
첫 번째 모노채널이 Ch.3과 Ch.12를 다운믹하여 생성되었다면, 첫 번째 모노채널 및 Ch.3과 Ch.12를 제외한 20개의 채널 사이의 상관도를 계산한다. 다시 말해, 다운믹스 결과 하나의 채널이 감소하였으므로, 첫 번째 모노채널을 포함하는 전체 21개의 채널들 사이의 상관도를 계산하여 다운믹스할 두 채널을 선택할 수 있다. 21개의 채널을 조합하여 전체 210개의 조합에 대해 상관도를 계산하고, 계산 결과에 기초하 두 번째로 다운믹스할 두 채널을 선택할 수 있다.
상관도의 계산에 기초하기 때문에 두 번째 다운믹스에서 선택되는 두 채널에 첫 번째 모노채널이 포함되지 않을 수 있다. 다운믹스 장치(110)는 이와 같은 두 채널의 선택 및 다운믹스를 반복하여 하나의 최종 모노채널 오디오 또는 M 채널 오디오를 생성할 수 있다.
또한, 본 발명의 또 다른 실시예에 따르면, 두 번째 이후의 다운믹스에서는 이전에 생성된 모노채널과 다른 채널을 다운믹스할 수 있다.
예를 들어, 제어부(112)는 Ch.3과 Ch.12를 다운믹스하여 생성된 첫 번째 모노채널과 Ch.3 및 Ch.12를 제외한 다른 채널들 사이의 상관도를 계산하여, 첫 번째 모노채널과 다운믹스할 다른 채널을 선택할 수 있다. 첫 번째 모노채널을 제외한 채널의 개수는 20개이므로, 20개의 채널들 각각에 대해 첫 번째 모노채널과의 상관도를 계산하여 두 번째로 다운믹스될 채널을 선택할 수 있다. 상관도의 계산 결과, 선택된 채널이 Ch.21이면 다운믹스부(114)는 첫 번째 모노채널과 Ch.21을 다운믹스하여 두 번째 모노채널을 생성한다. 다운믹스 장치(110)는 이와 같은 추가적으로 다운믹스할 채널의 선택 및 다운믹스를 반복하여 최종 모노채널 오디오를 생성하거나, M 채널 오디오를 생성할 수 있다.
도 5는 본 발명의 일 실시예에 따른 인접한 채널들을 도시한다.
본 발명의 또 다른 실시예에 따르면, 제어부(112)는 도 2에 도시된 바와 같이 3차원 청취자의 주변의 3차원 공간에 배치된 채널들 중에서 공간적으로 인접한 채널들 사이의 상관도만 계산하여 다운믹스할 채널들을 선택할 수 있다. Ch.1을 예로 들어 설명하면, Ch.1은 Ch.1의 상부에 배치된 Ch.11, 하부에 배치된 Ch.20, 좌측에 배치된 Ch.6 및 우측에 배치된 Ch.2와 인접하고 있다. 제어부(112)가 채널들 사이의 상관도를 계산할 때, 전술한 바와 같이 22개의 채널들의 210개의 조합에 대해 상관도를 계산하면, 상관도 계산에 많은 시간이 소모되어 비효율적일 수 있다.
따라서, 제어부(112)는 인접한 채널들 사이의 상관도만 계산하는 바, Ch.1과 인접한 채널들인 Ch.11, Ch.20, Ch.6 및 Ch.2 사이의 상관도만 네 번 계산할 수 있다. 마찬가지로 Ch.2는 Ch.1 및 Ch.3 사이의 상관도만 두 번 계산할 수 있으며, Ch.3은 Ch.12, Ch.21, Ch.2 및 Ch.4 사이의 상관도만 네 번 계산할 수 있다.
상관도 계산 결과에 따라 Ch.1과 Ch.11이 다운믹스할 채널들로 선택되면, 제어부(112)가 다음 번 다운믹스될 채널을 선택할 때에는 Ch.1 및 Ch.11을 하나로 묶은 모노채널을 하나의 채널로 간주하여 인접한 채널들 사이의 상관도를 다시 계산할 수 있다. 다시 말해, Ch.1 및 Ch.11를 다운믹스하여 생성된 모노채널을 하나의 채널로 간주하여 모노채널과 Ch.20, Ch.6 및 Ch.2 사이의 상관도를 계산할 수 있다.
또한, 본 발명의 또 다른 실시예에 따르면, 적어도 하나의 기준 채널을 설정하고 기준 채널을 중심으로 인접한 채널들을 하나씩 다운믹스하여 모노채널을 생성할 수도 있다. 기준 채널은 하나일 수도 있고, 복수일 수도 있다.
예를 들어, 도 2에서 제어부(112)는 하나의 채널인 Ch.3을 기준 채널로 설정하고, Ch.3에 인접한 채널 중 하나를 상관도 계산에 기초해 선택한다. 다운믹스부(114)가 선택된 채널과 Ch.3을 다운믹스하여 첫 번째 모노채널을 생성하면, 첫 번째 모노채널과 인접한 채널들 사이의 상관도를 다시 계산하여 두 번째로 다운믹스될 채널을 선택한다. 다운믹스부(114)는 선택된 채널을 첫 번째 모노채널과 다운믹스하여 두 번째 모노채널을 생성하고, 제어부(112)는 세 번째로 다운믹스될 채널을 또 다시 선택한다. 이와 같은 다운믹스될 채널의 선택과 다운믹스를 반복하여 Ch.3을 기준으로 인접한 채널을 하나씩 추가하며 다운믹스를 수행하여 최종 모노채널 오디오 또는 M 채널 오디오를 생성할 수 있다.
다운믹스 장치(110)는 복수의 기준 채널을 설정하고, 기준 채널을 중심으로 인접한 채널을 다운믹스하는 과정을 반복할 수도 있다. 예를 들어, Ch.1, Ch.5, Ch.8 및 Ch.10을 기준 채널로 선택하고, 복수의 기준 채널을 중심으로 인접한 채널들을 하나씩 다운믹스할 수도 있다.
도 6은 본 발명의 또 다른 실시예에 따른 인접한 채널들을 도시한다.
도 6을 참조하면, 복수의 기준 채널을 설정하여 순차적으로 인접한 채널들을 다운믹스하다 보면, 하나의 채널을 공유하여 다운믹스를 수행해야 하는 경우가 발생한다.
예를 들어, 도 2에 도시된 Ch.1 및 Ch.5 기준 채널로 설정하고, 상관도 계산에 기초해 인접한 채널을 선택하여 다운믹스를 수행한 결과, Ch.1과 Ch.2이 다운믹스되어 제1 모노채널이 생성되고, Ch.5와 Ch.4이 다운믹스되어 제2 모노채널이 생성되었다면, 두 모노채널 사이에는 Ch.3만 존재한다. 이런 경우, Ch.3은 제1 모노채널에 추가로 다운믹스될 수 있는 인접 채널 후보들(Ch.6, Ch.11, Ch.20, Ch.3., Ch.12 및 Ch.21)에도 포함되고, 제2 모노채널에 추가로 다운믹스될 수 있는 인접 채널 후보들(Ch.7, Ch.13, Ch.22, Ch.3, Ch.12 및 Ch.21)에도 포함된다. 이 때에는 Ch.3의 세기에 1/
Figure PCTKR2010002549-appb-I000001
를 곱하여 Ch.3을 두 개의 채널로 분리하고, 분리된 두 개의 채널을 서로 다른 채널로 간주하여 두 모노채널에 다운믹스할 수 있다.
도 7은 본 발명의 일 실시예에 따른 다운믹스 그룹을 도시한다.
도 4와 관련하여 전술한 바와 같이 상관도 계산에 기초해 다운믹스될 채널을 선택하면, 공간적인 배치와 무관하게 다운믹스될 채널이 선택될 수 있다. 예를 들어, Ch.1과 Ch.10의 상관도가 가장 높으면, 공간적으로 가장 먼 위치의 두 채널인 Ch.1 및 Ch.10이 다운믹스할 채널로 선택될 수 있다. 그러나, 다운믹스의 목적이 2.1 채널 오디오 또는 5.1 채널 오디오를 생성하는데 있다면, 공간적인 배치를 고려하여 다운믹스될 채널을 선택하는 것이 바람직하다.
이를 위해, 도 4와 같이 3차원 공간에 배치된 채널들을 도 7과 같이 복수의 그룹(610 내지 650)으로 나누고 각각의 그룹에 포함된 채널들끼리만 다운믹스한다. 도 7은 도 4에 도시된 22개의 채널을 5개의 채널에 대응되도록 그룹화하는 경우를 도시한다. 스크린 방향으로 청취자의 좌측전면에 배치된 Ch.1, Ch.2, Ch.3, Ch.6, Ch.11, Ch.12, Ch.14, Ch.20 및 Ch.21을 포함하는 그룹, 우측전면에 배치된 Ch.3, Ch.4, Ch.5, Ch.7, Ch.12, Ch.13, Ch16, Ch.21 및 Ch.22를 포함하는 그룹, 좌측후면에 배치된 Ch.6, Ch.8, Ch.9, Ch.14, Ch.17 및 Ch.18을 포함하는 그룹, 우측후면에 배치된 Ch.7, Ch.9, Ch.10, Ch.16, Ch.18 및 Ch.19를 포함하는 그룹 및 Ch.3, Ch.12, Ch.15 및 Ch.21을 포함하는 그룹으로 22개의 채널을 그룹화한다.
각각의 그룹의 경계에 배치된 채널들은 도 6과 관련하여 전술한 바와 같이 세기에 1/
Figure PCTKR2010002549-appb-I000002
을 곱하여 두 개의 채널로 분리하고, 분리된 두 개의 채널을 서로 다른 채널로 간주하여 각각의 그룹에서 다운믹스한다.
제어부(112)는 다운믹스할 채널을 선택하기 위해 각각의 그룹에 포함된 채널들끼리만 상관도를 계산하고, 계산 결과에 기초해 각각의 그룹에서 다운믹스할 채널들을 선택한다. 각각의 그룹 안에서 공간적으로 인접한 채널들끼리만 다운믹스되므로, 멀티채널 오디오를 2.1 채널 오디오 또는 5.1 채널 오디오에 대응되게 변환할 수 있다.
(4) 상관도의 계산
제어부(112)는 도 4 내지 6와 관련하여 전술한 바와 같이 다운믹스할 채널을 선택하기 위해 다음의 수학식 2에 따라 채널 사이의 상관도를 계산할 수 있다.
수학식 2
Figure PCTKR2010002549-appb-M000002
채널 i와 채널 j 사이의 교차 상관도(cross-correlation)를 프레임 단위로 계산할 수 있다.
시간 도메인에서 두 채널 사이의 상관도를 계산하는 방법을 먼저 설명하면, 제어부(112)는 채널 i의 음성 프레임에 포함된 2L+1개의 심볼들과 채널 j의 음성 프레임에 포함된 2L+1개의 심볼들 사이의 교차 상관도를 수학식 1에 의해 계산할 수 있다.
xi(k)는 채널 i의 심볼을 의미하고, xj(k)는 채널 j의 심볼을 의미한다. d는 실시예에 따라 다르게 결정될 수 있는 상수로서 '0'일 수 있으며, 하나의 음성 프레임에 포함된 심볼들의 개수의 1/2일 수도 있다. 예를 들어, 하나의 음성 프레임에 1024개의 심볼들이 있다면, d는 512로 설정하여 교차 상관도를 계산할 수 있다.
음성 프레임마다 교차 상관도가 계산되는 경우에는 다운믹스할 채널의 선택도 음성 프레임 단위로 수행된다. 예를 들어, n번째 음성 프레임에서 Ch.1과 다운믹스될 채널로 Ch.11이 선택되고, n+1번째 음성 프레임에서는 Ch.1과 다운믹스될 채널로 Ch.20이 선택될 수 있다.
교차 상관도는 주파수 도메인에서 계산될 수 있다. 하나의 음성 프레임에 포함된 심볼들을 FFT(Fast Fourier Transform)하면, 주파수 도메인에서는 주파수 성분의 세기를 나타내는 이산된 값들로 표현된다.
제어부(112)는 FFT 결과 생성된 주파수 도메인의 이산된 값들에 기초해 채널들 사이의 교차 상관도를 계산할 수 있다. 채널 i의 심볼들을 FFT하여 생성된 주파수 성분의 세기를 나타내는 값들과 채널 j의 심볼들을 FFT하여 생성된 주파수 성분의 세기를 나타내는 값들의 교차 상관도를 수학식 1에 따라 계산한다.
주파수 도메인에서 계산될 때에 xi(k)는 채널 i의 심볼들을 FFT하여 생성된 주파수 성분의 세기를 나타내는 값들을 나타내며, xj(k)는 채널 j의 심볼들을 FFT하여 생성된 주파수 성분의 세기를 나타내는 값들을 나타낸다. d는 전술한 바와 같이 '0'일 수 있으며, L은 교차 상관도는 구하기 위한 주파수 영역을 설정하기 위한 값일 수 있다. 예를 들어, f=0Hz부터 512Khz까지의 주파수 성분의 세기에 대한 값들을 비교하도록 L을 설정할 수 있다.
또한, 도 2와 같이 주파수 도메인을 복수의 서브 밴드로 분할하고, 각각의 서브 밴드에 대해 교차 상관도를 계산할 수 도 있다. 예를 들어, 채널 i의 서브 밴드 s의 주파수 성분의 세기를 나타내는 값들과, 채널 j의 서브 밴드 s의 주파수 성분의 세기를 나타내는 값들 사이의 교차 상관도를 계산하고, 채널 i의 서브 밴드 s+1의 주파수 성분의 세기를 나타내는 값들과, 채널 j의 서브 밴드 s+1의 주파수 성분의 세기를 나타내는 값들 사이의 교차 상관도를 계산할 수도 있다. 동일한 방법으로 모든 서브 밴드들에 대해 교차 상관도의 계산을 반복한다.
서브 밴드마다 교차 상관도를 계산하는 경우에는 제어부(112)의 다운믹스할 채널 선택은 서브 밴드마다 수행될 수 있다. 교차 상관도가 서브 밴드마다 계산되므로, 서브 밴드마다 다운믹스를 위해 선택되는 채널이 상이하다. 예를 들어, 서브 밴드 s에서의 교차 상관도를 계산할 결과, Ch.1과 다운믹스될 채널로 Ch.11이 선택되었더라도, 서브 밴드 s+1에서는 Ch.1과 다운믹스될 채널로 Ch.20이 선택될 수 있다.
(5) 상관도가 동일한 경우의 취급
도 4 내지 6과 관련하여 전술한 바와 같이 채널들 사이의 상관도를 계산하면, 두 쌍 이상의 채널의 쌍이 상관도가 동일할 수 잇따
예를 들어, 제어부(112)가 도 4의 22개 채널들 사이의 상관도를 계산했을 때, Ch.1과 Ch.11 사이의 상관도 및 Ch.5와 Ch.13 사이의 상관도가 동일하면서 가장 클 수 있다. 이때 제어부(112)는 다운믹스된 채널에서 멀티채널을 복원하기 위해 부가정보생성부(120)에서 생성되는 부가정보를 가장 높은 압축률로 부호화할 수 있는 채널을 선택한다. 도 2 및 3과 관련하여 전술한 바와 같이 다운믹스된 채널들의 세기를 결정하기 위한 정보 및 위상을 결정하기 위한 정보가 다운믹스된 채널들의 오디오와 함께 부호화되는 바, 부가정보를 가장 높은 압축률로 부호화할 수 있는 채널을 선택한다.
도 3과 관련하여 전술한 바와 같이 다운믹스된 채널들의 세기를 결정하기 위한 정보는 모노채널의 세기에 대한 벡터와 채널 p의 세기에 대한 벡터 사이의 각도 또는 모노채널의 세기에 대한 벡터와 채널 q의 세기에 대한 벡터 사이의 각도일 수 있다. 따라서, 제어부(112)는 θI를 가장 높은 압축률로 부호화할 수 있는 채널을 선택한다. Ch.1과 Ch.11을 다운믹스했을 때가 Ch.5와 Ch.13을 다운믹스했을 때보다 더 높은 압축률로 θI에 대한 정보를 부호화할 수 있다면, Ch.1과 Ch.11을 다운믹스할 채널로 선택된다. 예를 들어, θI가 작아야 θI에 대한 정보를 더 높을 압축률 로 부호화할 수 있다면, θI가 작은 두 채널을 다운믹스할 채널로 선택된다.
인접한 채널들 사이의 상관도만 계산하는 경우에도 마찬가지이다. 제어부(112)가 도 5에 도시된 바와 같이 인접한 채널들의 상관도를 계산했을 때, Ch.1과 Ch.11 사이의 상관도 및 Ch.1과 Ch.20 사이의 상관도가 동일하면서 가장 클 수 있다. 이때 제어부(112)는 다운믹스된 채널에서 멀티채널을 복원하기 위해 부가정보생성부(120)에서 생성되는 부가정보를 가장 높은 압축률로 부호화할 수 있는 두 채널을 다운믹스할 두개의 채널로 선택할 수 있다.
도 8은 본 발명의 일 실시예에 따른 멀티채널 오디오를 복호화하는 장치를 도시한다.
도 8을 참조하면, 본 발명의 일 실시예에 따른 멀티채널 오디오 복호화 장치(700)는 추출부(710), 복호화부(720) 및 업믹스부(730)를 포함한다.
추출부(710)는 수신된 오디오 데이터 즉, 비트스트림으로부터 부호화된 오디오 및 부호화된 부가정보를 추출한다. 부호화된 오디오는 N 채널을 하나의 모노채널 또는 M 채널로 다운믹스한 다음, 소정의 알고리즘에 따라 오디오 신호를 부호화하여 생성된 것일 수 있다.
복호화부(720)는 추출부(710)에서 추출된 부호화된 오디오 및 부가정보를 복호화한다. 부호화에 이용된 알고리즘과 동일한 알고리즘을 이용하여 부호화된 오디오 및 부가정보를 복호화한다. 오디오의 복호화 결과, 하나의 모노채널 또는 M개 채널 오디오가 복원된다.
업믹스부(730)는 복호화부(720)에서 복호화된 오디오를 업믹스(up-mix)하여 다운믹스 이전의 N 채널 오디오를 복원한다. 복호화부(720)에서 복호화된 부가정보에 기초해 N 채널 오디오를 복원한다. 부가정보를 참조하여 도 4 내지 6과 관련하여 전술한 다운믹스 과정을 거꾸로 수행하여 다운믹스된 오디오를 멀티채널 오디오로 업믹스한다.
부가정보는 채널들의 다운믹스 순서에 대한 정보가 포함되어 있으므로, 부가정보를 참조하여, 모노채널에서 순서대로 채널들을 분리한다. 다운믹스된 채널들의 세기 및 위상을 결정하기 위한 정보에 따라 다운믹스된 채널들의 세기 및 위상을 결정하므로서 모노채널에서 순서대로 채널들을 분리할 수 있다.
도 9는 본 발명의 일 실시예에 따른 멀티채널 오디오를 부호화하는 방법을 설명하기 위한 흐름도이다.
도 9를 참조하면, 단계 810에서 본 발명의 일 실시예에 따른 멀티채널 오디오 부호화 장치(100)는 멀티채널 오디오를 다운믹스한다. 도 4 내지 6과 관련하여 전술한 바와 같이 채널들 사이의 상관도 계산에 기초해 다운믹스할 채널들을 선택하고, 다운믹스하는 과정을 반복하여 하나의 최종 모노채널 오디오 또는 M 채널 오디오를 생성한다.
단계 820에서 멀티채널 오디오 부호화 장치(100)는 단계 820에서 단계 810에서 다운믹스를 수행하여 생성된 오디오에서 멀티채널 오디오를 복원하기 위해 필요한 정보를 생성한다. 부가정보생성부(120)와 관련하여 전술한 바와 같이 다운믹스된 채널들의 세기 및 위상을 결정하기 위한 정보가 부가정보로서 생성될 수 있다. 또한, 다운믹스가 순차적으로 진행되는 동안, 채널들의 다운믹스 순서에 대한 정보가 부가정보로서 생성될 수 있다.
단계 830에서 멀티채널 오디오 부호화 장치(100)는 단계 810에서 생성된 다운믹스된 오디오 및 단계 820에서 생성된 부가정보를 부호화한다.
도 10은 본 발명의 일 실시예에 따른 다운믹스 방법을 설명하기 위한 흐름도이다. 도 10은 도 9의 단계 810을 보다 상세히 도시한다.
도 10을 참조하면, 단계 812에서 다운믹스 장치(110)는 멀티채널 오디오의 채널들 사이의 상관도를 계산한다. 수학식 2와 같이 채널들 사이의 교차 상관도를 시간 도메인 또는 주파수 도메인에서 계산할 수 있다. 이전에 다운믹스되어 생성된 모노채널이 있으면, 모노채널 과 아직 다운믹스되지 않은 채널들 사이의 상관도를 계산할 수 있다.
단계 814에서 다운믹스 장치(110)는 단계 812의 계산 결과에 기초해 다운믹스할 두 채널 즉, 제1 채널 및 제2 채널을 선택한다. 단계 812의 계산 결과 교차 상관도가 가장 큰 두 채널이 선택된다. 교차 상관도가 가장 큰 채널의 쌍이 두 쌍 이상 있는 경우에는 부가정보를 가장 높은 압축률로 부호화할 수 있는 두 채널이 다운믹스될 채널들로 선택된다. 부가정보는 다운믹스되는 두 채널의 세기 및 위상을 결정하기 위한 정보일 수 있으며, 다운믹스되는 두 채널의 세기를 결정하기 위한 정보는 도 3에 도시된 바와 같이 모노채널의 세기에 대한 벡터와 다운믹스되는 채널의 세기에 대한 벡터 사이의 각도에 대한 정보일 수 있다.
단계 816에서 다운믹스 장치(110)는 단계 814에서 선택된 제1 채널 및 제2 채널을 다운믹스한다.
다운믹스 장치(110)는 다운믹스가 모두 완료되어 하나의 모노채널 또는 M개채널 오디오가 생성될 때까지 단계 812 내지 816을 반복한다.
도 11은 본 발명의 일 실시예에 따른 멀티채널 오디오를 복호화하는 방법을 설명하기 위한 흐름도이다.
도 11을 참조하면, 본 발명의 일 실시예에 따른 멀티채널 오디오 복호화 장치(700)는 단계 910에서 부가정보 및 다운믹스된 오디오를 추출한다. 오디오 데이터 즉, 비트스트림으로부터 다운믹스된 오디오에서 멀티채널을 복원하기 위해 필요한 부가정보 및 다운믹스된 오디오를 추출한다.
단계 920에서 멀티채널 오디오 복호화 장치(700)는 단계 910에서 추출된 부가정보 및 다운믹스된 오디오를 복호화한다. 멀티채널 오디오를 부호화할 때, 이용한 알고리즘과 동일한 알고리즘을 이용해 부가정보 및 다운믹스된 오디오를 복호화한다.
단계 930에서 멀티채널 오디오 복호화 장치(700)는 단계 920에서 복호화된 부가정보에 기초해 다운믹스된 오디오를 업믹스한다. 부가정보생성부(120)과 관련하여 전술한 부가정보에 기초해 다운믹스된 오디오를 업믹스하여 멀티채널 오디오를 복원한다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명이 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이와 균등하거나 또는 등가적인 변형 모두는 본 발명 사상의 범주에 속한다 할 것이다. 또한, 본 발명에 따른 시스템은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다.
예를 들어, 본 발명의 예시적인 실시예에 따른 다운믹스 장치, 멀티채널 오디오 부호화 장치 및 멀티채널 오디오 복호화 장치는 도 1 및 도 8에 도시된 바와 같은 장치의 각각의 유닛들에 커플링된 버스, 상기 버스에 결합된 적어도 하나의 프로세서를 포함할 수 있다. 또한, 명령, 수신된 메시지 또는 생성된 메시지를 저장하기 위해 상기 버스에 결합되어, 전술한 바와 같은 명령들을 수행하기 위한 적어도 하나의 프로세서에 커플링된 메모리를 포함할 수 있다.
또한, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

Claims (17)

  1. 멀티 채널 오디오를 다운믹스(down-mix)하는 방법에 있어서,
    상기 멀티 채널 오디오의 채널들 사이의 상관도를 계산하는 단계;
    상기 계산된 상관도에 기초해 다운믹스할 제1 채널 및 제2 채널을 선택하는 단계; 및
    상기 선택된 제1 채널과 상기 제2 채널을 다운믹스하는 단계를 포함하는 것을 특징으로 하는 다운믹스 방법.
  2. 제 1 항에 있어서, 상기 상관도를 계산하는 단계는
    프레임마다 채널들 사이의 교차 상관도(cross correlation)를 계산하는 단계를 포함하는 것을 특징으로 하는 다운믹스 방법.
  3. 제 2 항에 있어서, 상기 교차 상관도를 계산하는 단계는
    프레임마다 공간적으로 인접한 위치에 배치된 채널들 사이의 교차 상관도를 계산하는 단계를 포함하는 것을 특징으로 하는 다운믹스 방법.
  4. 제 2 항에 있어서, 상기 제1 채널 및 제2 채널을 선택하는 단계는
    상기 교차 상관도의 계산 결과, 교차 상관도가 가장 큰 두 개의 채널을 상기 제1 채널 및 제2 채널로 선택하는 단계를 포함하는 것을 특징으로 하는 다운믹스 방법.
  5. 제 4 항에 있어서, 상기 제1 채널 및 제2 채널을 선택하는 단계는
    상기 교차 상관도의 계산 결과, 교차 상관도가 가장 큰 두 개의 채널이 두 쌍 이상이면, 다운믹스되어 생성된 오디오 신호에서 다운믹스 전 채널들을 복원하기 위해 필요한 적어도 하나의 부가정보를 가장 높은 압축률로 부호화할 수 있는 두 개의 채널을 상기 제1 채널 및 제2 채널로 선택하는 단계를 포함하는 것을 특징으로 하는 다운믹스 방법.
  6. 제 5 항에 있어서, 상기 적어도 하나의 부가정보는
    다운믹스 전 두 개의 채널의 세기를 복원하기 위해 필요한 부가정보를 포함하는 것을 특징으로 하는 다운믹스 방법.
  7. 제 1 항에 있어서,
    상기 제1 채널과 제2 채널의 다운믹스 결과 생성된 모노채널 및 상기 제1 채널 및 상기 제2 채널을 제외한 다른 채널들 사이의 상관도를 계산하는 단계;
    상기 계산된 상관도에 기초해 다운믹스할 제3 채널 및 제4 채널을 선택하는 단계; 및
    상기 선택된 제3 채널 및 제4 채널을 다운믹스하는 단계를 더 포함하는 것을 특징으로 하는 다운믹스 방법.
  8. 제 1 항에 있어서,
    상기 제1 채널과 제2 채널의 다운믹스 결과 생성된 모노채널과 상기 제1 채널 및 상기 제2 채널을 제외한 다른 채널들 사이의 상관도를 계산하는 단계;
    상기 계산된 상관도에 기초해 상기 모노채널과 함께 다운믹스할 제3 채널을 선택하는 단계; 및
    상기 모노채널 및 상기 선택된 제3 채널을 다운믹스하는 단계를 더 포함하는 것을 특징으로 하는 다운믹스 방법.
  9. 멀티 채널 오디오를 다운믹스(down-mix)하는 장치에 있어서,
    상기 멀티 채널 오디오의 채널들 사이의 상관도를 계산하고, 상기 계산된 상관도에 기초해 다운믹스할 제1 채널 및 제2 채널을 선택하는 제어부; 및
    상기 선택된 제1 채널과 상기 제2 채널을 다운믹스하는 다운믹스부를 포함하는 것을 특징으로 하는 다운믹스 장치.
  10. 제 9 항에 있어서, 상기 제어부는
    프레임마다 채널들 사이의 교차 상관도(cross correlation)를 계산하는 것을 특징으로 하는 다운믹스 장치.
  11. 제 10 항에 있어서, 상기 제어부는
    프레임마다 공간적으로 인접한 위치에 배치된 채널들 사이의 교차 상관도를 계산하는 것을 특징으로 하는 다운믹스 장치.
  12. 제 10 항에 있어서, 상기 제어부는
    상기 교차 상관도의 계산 결과, 교차 상관도가 가장 큰 두 개의 채널을 상기 제1 채널 및 제2 채널로 선택하는 것을 특징으로 하는 다운믹스 장치
  13. 제 12 항에 있어서, 상기 제어부는
    상기 교차 상관도의 계산 결과, 교차 상관도가 가장 큰 두 개의 채널이 두 쌍 이상이면, 다운믹스되어 생성된 오디오 신호에서 다운믹스 전 채널들을 복원하기 위해 필요한 적어도 하나의 부가정보를 가장 높은 압축률로 부호화할 수 있는 두 개의 채널을 상기 제1 채널 및 제2 채널로 선택하는 것을 특징으로 하는 다운믹스 장치.
  14. 제 13 항에 있어서, 상기 적어도 하나의 부가정보는
    다운믹스 전 두 개의 채널의 세기를 복원하기 위해 필요한 부가정보를 포함하는 것을 특징으로 하는 다운믹스 장치.
  15. 제 9 항에 있어서,
    상기 제어부는 상기 제1 채널과 제2 채널의 다운믹스 결과 생성된 모노채널 및 상기 제1 채널 및 상기 제2 채널을 제외한 다른 채널들 사이의 상관도를 계산하여 상기 계산된 상관도에 기초해 다운믹스할 제3 채널 및 제4 채널을 선택하고,
    상기 다운믹스부는 상기 선택된 제3 채널 및 제4 채널을 다운믹스하는 것을 특징으로 하는 다운믹스 장치.
  16. 제 9 항에 있어서,
    상기 제어부는 상기 제1 채널과 제2 채널의 다운믹스 결과 생성된 모노채널과 상기 제1 채널 및 상기 제2 채널을 제외한 다른 채널들 사이의 상관도를 계산하여 상기 계산된 상관도에 기초해 상기 모노채널과 함께 다운믹스할 제3 채널을 선택하고,
    상기 다운믹스부는 상기 모노채널 및 상기 선택된 제3 채널을 다운믹스하는 것을 특징으로 하는 다운믹스 장치.
  17. 제 1 항 내지 제 8 항 중 어느 한 항의 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
PCT/KR2010/002549 2010-03-29 2010-04-23 멀티채널 오디오의 다운믹스 방법 및 장치 Ceased WO2011122731A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/638,820 US9478223B2 (en) 2010-03-29 2010-04-23 Method and apparatus for down-mixing multi-channel audio

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020100028090A KR101641685B1 (ko) 2010-03-29 2010-03-29 멀티채널 오디오의 다운믹스 방법 및 장치
KR10-2010-0028090 2010-03-29

Publications (1)

Publication Number Publication Date
WO2011122731A1 true WO2011122731A1 (ko) 2011-10-06

Family

ID=44720393

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2010/002549 Ceased WO2011122731A1 (ko) 2010-03-29 2010-04-23 멀티채널 오디오의 다운믹스 방법 및 장치

Country Status (3)

Country Link
US (1) US9478223B2 (ko)
KR (1) KR101641685B1 (ko)
WO (1) WO2011122731A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2838086A1 (en) 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
EP3067885A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
EP3719799A1 (en) * 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation
CN110941415B (zh) * 2019-11-08 2023-11-28 北京达佳互联信息技术有限公司 一种音频文件的处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001195096A (ja) * 1998-11-16 2001-07-19 Victor Co Of Japan Ltd 音声符号化装置
KR20070020012A (ko) * 2004-03-25 2007-02-16 디티에스, 인코포레이티드 무손실의 다채널 오디오 코덱
KR20070088461A (ko) * 2005-04-15 2007-08-29 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 콤팩트 보조 정보를 이용한 다중-채널 계층형 오디오 코딩
KR20090066186A (ko) * 2007-12-18 2009-06-23 한국전자통신연구원 음원 간 상호상관을 이용한 멀티트랙 다운믹싱 장치 및 그방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
US8239210B2 (en) * 2007-12-19 2012-08-07 Dts, Inc. Lossless multi-channel audio codec

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001195096A (ja) * 1998-11-16 2001-07-19 Victor Co Of Japan Ltd 音声符号化装置
KR20070020012A (ko) * 2004-03-25 2007-02-16 디티에스, 인코포레이티드 무손실의 다채널 오디오 코덱
KR20070088461A (ko) * 2005-04-15 2007-08-29 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 콤팩트 보조 정보를 이용한 다중-채널 계층형 오디오 코딩
KR20090066186A (ko) * 2007-12-18 2009-06-23 한국전자통신연구원 음원 간 상호상관을 이용한 멀티트랙 다운믹싱 장치 및 그방법

Also Published As

Publication number Publication date
US20130077793A1 (en) 2013-03-28
KR101641685B1 (ko) 2016-07-22
US9478223B2 (en) 2016-10-25
KR20110108730A (ko) 2011-10-06

Similar Documents

Publication Publication Date Title
US12322404B2 (en) Methods and devices for encoding and/or decoding immersive audio signals
US10187739B2 (en) System and method for capturing, encoding, distributing, and decoding immersive audio
KR101029077B1 (ko) 스테레오 신호 생성 방법 및 장치
JP5081838B2 (ja) オーディオ符号化及び復号
CN113678199B (zh) 空间音频参数的重要性的确定及相关联的编码
WO2011021845A2 (en) Method and apparatus for encoding multi-channel audio signal and method and apparatus for decoding multi-channel audio signal
TWI459376B (zh) 用以從下混信號與空間參數資訊抽取直接/周圍信號之裝置及方法
JP2009522894A (ja) バイノーラルオーディオ信号の復号
WO2015152665A1 (ko) 오디오 신호 처리 방법 및 장치
KR20110068957A (ko) 스테레오 신호 생성 방법
WO2009123409A2 (ko) 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
He et al. Linear estimation based primary-ambient extraction for stereo audio signals
WO2022200666A1 (en) Combining spatial audio streams
WO2014021587A1 (ko) 오디오 신호 처리 장치 및 방법
WO2019143867A1 (en) Methods and devices for coding soundfield representation signals
WO2012050382A2 (en) Method and apparatus for downmixing multi-channel audio signals
EP3808106A1 (en) Spatial audio capture, transmission and reproduction
WO2011122731A1 (ko) 멀티채널 오디오의 다운믹스 방법 및 장치
WO2006041137A1 (ja) 音響信号符号化装置及び音響信号復号装置
WO2014021586A1 (ko) 오디오 신호 처리 방법 및 장치
GB2572761A (en) Quantization of spatial audio parameters
He et al. Primary-ambient extraction using ambient spectrum estimation for immersive spatial audio reproduction
WO2024167222A1 (en) Deep learning based voice extraction and primary-ambience decomposition for stereo to surround upmixing with dialog-enhanced center channel
CN108028988A (zh) 处理低复杂度格式转换的内部声道的设备和方法
He et al. Time-shifting based primary-ambient extraction for spatial audio reproduction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10849053

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13638820

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 10849053

Country of ref document: EP

Kind code of ref document: A1