WO2014021587A1 - 오디오 신호 처리 장치 및 방법 - Google Patents

오디오 신호 처리 장치 및 방법 Download PDF

Info

Publication number
WO2014021587A1
WO2014021587A1 PCT/KR2013/006730 KR2013006730W WO2014021587A1 WO 2014021587 A1 WO2014021587 A1 WO 2014021587A1 KR 2013006730 W KR2013006730 W KR 2013006730W WO 2014021587 A1 WO2014021587 A1 WO 2014021587A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
signal
transmission
audio
present
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/KR2013/006730
Other languages
English (en)
French (fr)
Inventor
오현오
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intellectual Discovery Co Ltd
Original Assignee
Intellectual Discovery Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intellectual Discovery Co Ltd filed Critical Intellectual Discovery Co Ltd
Priority to US14/414,902 priority Critical patent/US20150213790A1/en
Priority to JP2015523021A priority patent/JP2015528925A/ja
Priority to EP13826484.1A priority patent/EP2863387A4/en
Priority to CN201380039780.4A priority patent/CN104541326A/zh
Publication of WO2014021587A1 publication Critical patent/WO2014021587A1/ko
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages

Definitions

  • the present invention relates to a method and apparatus for processing an audio signal. More particularly, the present invention relates to decoding an audio signal using a sum and a difference signal in an extended form for two or more channels of audio signals received through a digital medium or a broadcast or communication signal. A method and apparatus are provided.
  • the conventional high quality audio coding method finds a signal band which cannot be heard by human auditory masking using a psychoacoustic model, and concentrates the quantization noise generated in the encoding process on the masking band so that the sound quality is the same as that of the original audio signal. Use a method that allows for this possible and high compression. Such a high quality audio coding method is also called perceptual coding.
  • MP3 MPEG-1 / 2 Layer-III
  • AAC Advanced Audio Coding
  • the quantization noise that is a masking target does not completely match the audio signal, causing a problem that the masking phenomenon cannot be maximized. That is, a case where the compression efficiency of perceptual coding is limited. Therefore, in order to make the most of the masking phenomenon, a process of modifying the audio signal to be encoded is required.
  • a method of encoding an audio signal of at least two channels receiving a first audio signal and a second audio signal, and a correlation between the first audio signal and the second audio signal is determined. Calculating a first gain value and a second gain value by using the first audio signal and the second audio signal when the result of the determination is true. And generating a first transmission audio signal and a second transmission audio signal by using the first audio signal, the second audio signal, the first gain value, and the second gain value. And an audio signal processing method for encoding the second transmission audio signal by a perceptual encoding technique.
  • the second output audio signal may be provided with an audio signal processing method such as the first transmission audio signal.
  • the masking by the psychoacoustic model can be used to the maximum regardless of the spatial position of the sound source, so that the sound quality of the high quality audio encoding can be expected.
  • 1 is a diagram illustrating spatial positions of a signal and quantization noise in a conventional dual mono encoding method.
  • FIG. 2 is a diagram illustrating spatial positions of a signal and quantization noise in a conventional sum coding method.
  • 3 is a diagram illustrating spatial positions of signals, protons, and noises when signal levels of left and right channels are different in a conventional dual mono encoding method
  • FIG. 4 is a diagram showing spatial positions of a signal and both and noise when the signal levels of the left and right channels are different in a conventional sum coding method.
  • FIG. 5 is an exemplary configuration diagram of an audio encoder to which the extended sum coding method according to the present invention is applied.
  • FIG. 6 is a diagram illustrating a first signal processing procedure in which an extended sum matrix processing unit generates a transmission audio signal using an input signal according to an embodiment of the present invention.
  • FIG. 7 is an exemplary diagram for explaining that quantization noise is masked by the effect of the extended sum matrix processing according to the present invention.
  • FIG. 8 is a diagram illustrating a second signal processing procedure in which the extended sum matrix processing unit generates a transmission audio signal using an input signal according to another embodiment of the present invention.
  • FIG. 9 is a flowchart illustrating an extended sum coding process according to an embodiment of the present invention.
  • FIG. 10 is an exemplary configuration diagram of an audio decoder to which the extended sum decoding method according to the present invention is applied.
  • FIG. 11 is an exemplary configuration diagram of an extended sum inverse matrix process according to the present invention.
  • FIG. 12 is an exemplary configuration diagram when an extended sum inverse matrix according to the present invention is not used.
  • FIG. 13 is a flowchart illustrating an extended sum inverse matrix process according to an embodiment of the present invention.
  • a method of encoding an audio signal of at least two channels receiving a first audio signal and a second audio signal, and a correlation between the first audio signal and the second audio signal is determined. Calculating a first gain value and a second gain value by using the first audio signal and the second audio signal when the result of the determination is true. And generating a first transmission audio signal and a second transmission audio signal by using the first audio signal, the second audio signal, the first gain value, and the second insertion value. And an audio signal processing method for encoding the second transmission audio signal by a perceptual encoding technique.
  • the perceptual encoding technique further includes calculating a first masking threshold for the first transmission audio signal and a second masking threshold for the second transmission audio signal. It may include.
  • the audio signal processing method may further be provided with an audio signal processing method for perceptually encoding the first transmission audio signal using the first masking threshold.
  • the audio signal processing method may further include generating a first transmission audio signal equal to a first audio signal and a second transmission audio signal equal to a second audio signal when the correlation is less than the reference value. It may further include.
  • the first gain value and the second gain value are calculated using a channel level difference value.
  • the first transmission audio signal includes at least more main sound sources than the first audio signal and the second audio signal.
  • the second transmission audio signal includes at least less main sound sources than the first audio signal and the second audio signal.
  • the second output audio signal may be provided with an audio signal processing method such as the first transmission audio signal.
  • the audio signal processing method receives channel gain information when the extended sum matrix usage information is 1.
  • a first output audio signal is obtained by multiplying a sum of a first transmission audio signal and a second transmission audio signal by a first gain value
  • the second output audio signal is The difference between the first transmission audio signal and the second transmission audio signal is obtained by multiplying the second gain value
  • the first transmission audio signal and the second transmission audio signal are perceptually encoded signals.
  • the first gain value is proportional to the root root of the square of the channel gain information plus a constant 1
  • the second gain value is the root root of the channel gain information plus the constant 1 It is proportional to the value divided by the gain information.
  • the first output audio signal and the second output audio signal are audio signals respectively output to two paired speakers.
  • Coding can be interpreted as encoding or decoding in some cases, and information is a term that encompasses values, parameters, coefficients, elements, and so on. It may be interpreted otherwise, but the present invention is not limited thereto.
  • BMLD Binary Masking Level Difference
  • FIG. 1 shows spatial positions of a signal S and quantization noises N1 and N2 in a conventional dual mono encoding method
  • FIG. 2 shows signals S and quantization noises N1 and N2 in a sum coding method. The position in space is shown.
  • the correlation between the two channel audio signals of the stereo audio signal is very high and the magnitude is the same, the image (sound) of the sound is centered between the two speakers. If there is no correlation, independent sound is generated from each speaker and the image is different. Bear in the speaker. As shown in FIG. 1, when each channel is independently mono coded with respect to the input signal having the maximum correlation, the sound image of the audio signal S is at the center, and the sound image of the quantization noises N1 and N2 is It will be attached to each speaker separately. That is, since the quantization noises N1 and N2 in each channel are not correlated with each other, the phase is formed separately in each speaker.
  • the quantization noises N1 and N2 which should be masquerades, are not masked due to spatial inconsistency, resulting in a problem that sounds human to distortion.
  • the sum coding shown in FIG. 2 generates a signal (Mid signal) and a subtraction signal (Difference) of two channel signals, and then uses a psychoacoustic model and quantizes the same.
  • the quantization noises N1 and N2 generated in the example of FIG. 2 are formed at the same position as the audio signal S.
  • FIG. On the other hand, in the case of an independent signal having no correlation between two channel audio signals, it is preferable to encode in dual mono as conventionally, such a MS encoding method can be variably applied according to the characteristics of the input signal.
  • 3 and 4 show the signal S when the signal levels of the left (L) and right (R) channels are different, and the spatial positions of both and the noises (N1, N2).
  • 3 shows a conventional dual mono coding scheme
  • FIG. 4 shows a conventional sum coding scheme.
  • FIGS. 3 and 4 illustrate a case where the level difference between the left and right channels is 10 dB (the left is 10 dB larger).
  • the positions of the sound sources S and 110 are located in the center, left, and right sides of the sound space. It will be in an arbitrary position, not a speaker.
  • the position of the source S 110 that becomes the mask and the quantization noise N1 (120a, 130a), which is the mask A problem arises in that the positions of N2 120b and 130b are difficult to match.
  • the present invention provides an extended form of encoding method.
  • FIG. 5 illustrates an embodiment of an audio encoder 500 to which the extended sum coding method according to the present invention is applied.
  • audio signals CH1 and CH2 of two channels are input to a correlation calculator 510, a gain information calculator 520, and an extended sum matrix processor 530, respectively.
  • CH1 and CH2 may be audio block data corresponding to a predetermined time interval of the stereo audio signal, or may be a signal of part or all of the frequency domain in which the filter bank is converted for the audio block.
  • an independent audio signal is represented as a channel (eg, CH1 and CH2), where the channel represents one signal reproduced through one loud speaker.
  • the present invention is not limited thereto, and the channel of the present invention may include one independent audio object signal or one signal in which a plurality of audio signals are bundled and represented.
  • the correlation calculator 510 calculates how much the correlation is in a corresponding section of the input CH1 and CH2.
  • the present invention may use an Inter-Channel Coherence (ICC) value defined in the following manner.
  • ICC Inter-Channel Coherence
  • the correlation can be obtained by various methods in addition to the method using the ICC as shown in Equation 1, and the present invention is not limited thereto. According to an embodiment of the present invention, it may be determined whether to perform extended sum matrix processing based on the calculated correlation. However, embodiments of the present invention are not limited thereto, and other methods may be used to determine whether to perform extended sum matrix processing according to the present invention.
  • the gain information calculating unit 520 calculates gains g1 and g2 to be used in the extended sum matrix processing according to the present invention using the inputs CH1 and CH2.
  • the channel level difference c needed to obtain the extended sum matrix gain can be obtained as follows.
  • the channel level difference coefficient c represents the ratio of the signal magnitude (power or energy) between CH1 and CH2.
  • the gains g1 and g2 may be calculated by further multiplying an additional gain for compensating the energy of the input signal.
  • the extended sum matrix processing unit 530 receives the input CH1 and CH2 signals and generates extended sum signal TCH1 and TCH2 through matrix operation according to the present invention.
  • FIG. 6 illustrates a process of the first signal processing 600 in which the extended sum matrix processing unit 530 generates the transmission audio signals TCH1 and TCH2 using the input signals CH1 and CH2. This is expressed as a formula as follows.
  • the extended sum matrix processing unit 530 generates the extended sum signals TCH1 and TCH2 using the input signals CH1 and CH2 and gains g1 and g2.
  • the generated extended sum signal TCH1 and TCH2 may be a transmission audio signal according to an embodiment of the present invention.
  • the extended sum matrix processing unit 530 may determine whether to perform the first signal processing 600 process using correlation information. For example, when the correlation ICC value obtained in Equation 1 is larger than a preset threshold value, the extended sum matrix processing unit 530 may perform the signal processing 600. Therefore, the extended sum matrix processing unit 530 may need correlation information and extended sum matrix gain information together with the input signals CH1 and CH2 to generate the extended sum signals TCH1 and TCH2.
  • FIG. 7 illustrates a phenomenon in which quantization noise is masked by the effect of the extended sum matrix processing according to an embodiment of the present invention. That is, FIG. 7 illustrates a case in which an input audio signal according to the exemplary embodiment of FIGS. 3 and 4 is converted into an extended sum signal according to the first signal processing 600 and output.
  • the image of the extended summation signals TCH1 and TCH2 is located at the point where the main sound sources S and 110 are located in the sound space between the two channels.
  • the quantization noises N1 140a and N2 140b generated as a result of the perceptual coding for the converted signals TCH1 and TCH2 are well spatially masked by the sound source S 110 as shown in FIG. 7. As a result, sound distortion can be reduced.
  • FIG. 8 illustrates a process of a second signal processing 800 in which the extended sum matrix processing unit 530 generates the transmission audio signals TCH1 and TCH2 using the input signals CH1 and CH2 according to another embodiment of the present invention.
  • whether the extended sum matrix processing unit 530 performs the extended sum matrix processing according to the first signal processing 600 may be determined based on the correlation information and / or the channel level difference coefficient. .
  • the extended sum matrix processing unit 530 may independently encode each channel as in the prior art without performing a process for extended sum coding. That is, as shown in FIG. 8 and Equation 5, the extended sum matrix processing unit 530 may directly output the input signals CH1 and CH2 as the transmission audio signals TCH1 and TCH2, respectively.
  • the psychoacoustic model unit 550 receives the outputs TCH1 and TCH2 of the extended sum matrix processing unit 530, performs a psychoacoustic model for each channel, and outputs a masking threshold for each channel. For example, a signal-to-mask ratio (SMR) value, which is a ratio of a masked size to each signal component in a channel signal of a specific analysis section, may be calculated. Therefore, the target signal for calculating the SMR may vary according to the execution result of the extended sum matrix processing unit 530 according to the present invention.
  • SMR signal-to-mask ratio
  • the quantization unit 560 receives the outputs TCH1 and TCH2 of the extended sum matrix processing unit 530 and receives the masking threshold SMR through the psychoacoustic model unit 560 to perform quantization. In this case, the quantization unit 560 determines the quantization size based on the SMR, so that the quantization noise is masked by the signal so that it is not heard by the listener's ear during reproduction. This is similar to the method used in the conventional perceptual encoding method such as AAC.
  • the entropy encoder 570 performs additional data compression on the transmission audio signals qTCH1 and qTCH2 quantized by the quantizer 560 through entropy coding such as Huffman coding or Arithmatic coding. Perform.
  • entropy coding such as Huffman coding or Arithmatic coding.
  • the quantization unit 560 and the entropy encoding 570 may be repeatedly performed and optimized in one loop.
  • the correlation value ICC output from the correlation calculator 510 and the channel level difference coefficient c output from the gain information calculator 520 enter the input of the extended sum additional information encoder 540 to be encoded.
  • the extended sum usage information ems_flag and the channel level difference coefficient c indicating whether to perform the extended sum matrix operation may be encoded according to the correlation value.
  • the encoded side information may be transmitted to the decoder.
  • the channel level coefficient c, the gains g1 and g2, etc., in the encoder also use quantized values for transmission.
  • the MUX unit 580 collects the output of the extended sum additional information encoder 540, the output of the entropy encoder 570, the output of the psychoacoustic model unit 550, and generates an output bit string.
  • the output of the extended sum additional information encoder 540 may include a correlation value (ICC), a channel level difference coefficient (c), and extended sum usage information (ems_flag).
  • the output of the entropy encoder 570 may include an entropy coded signal of the quantized transmission audio signals qTCH1 and qTCH2.
  • the output of the psychoacoustic model unit 550 may include a masking threshold for each channel, such as an SMR value.
  • the mux unit 580 multiplexes at least one of the aforementioned outputs to generate an output bit string.
  • FIG. 9 is a flowchart illustrating an extended sum coding process according to an embodiment of the present invention. Each step of FIG. 9 may be performed by the audio encoder 500 of the present invention described with reference to FIG. 5.
  • the audio encoder of the present invention may receive the audio signals CH1 and CH2 and calculate an inter-channel correlation (ICC) using the received signals. Next, the audio encoder determines whether the correlation (ICC) value is greater than a preset threshold.
  • ICC inter-channel correlation
  • the input audio signal CH1 and CH2 can be set as the transmission audio signal TCH1 and TCH2 as it is.
  • the audio encoder of the present invention may output the transmission audio signals TCH1 and TCH2 generated as described above.
  • the audio encoder can generate the quantized signals qTCH1 and qTCH2 of the transmission audio signals TCH1 and TCH2 respectively.
  • the audio encoder may output a signal obtained by performing quantization and entropy encoding on the transmission audio signals TCH1 and TCH2.
  • FIG. 10 shows an embodiment of an audio decoder 1000 for decoding a bit string encoded by the extended sum coding method according to the present invention.
  • the audio decoding process may be performed in a reverse process of the encoding process described with reference to FIG. 5.
  • the audio decoder 1000 receives the transmitted bit string and separates the information into the information necessary for each decoding step through the demux unit 1010.
  • the entropy decoder 1030 restores the entropy coded data into a quantized signal.
  • the dequantizer 1040 dequantizes the restored signal to obtain qTCH1 and qTCH2, that is, a transmission audio signal.
  • the inverse quantization unit 1040 may determine the inverse quantization size based on the additional additional information, which may be determined based on the masking threshold SMR described with reference to FIG. 5.
  • the transmission audio signals qTCH1 and qTCH2 obtained by the inverse quantization unit 1040 are sent to the extended sum inverse matrix processing unit 1050.
  • the inverse gain information calculation unit 1020 calculates inverse matrix gain values h1 and h2 to be used in the extended sum inverse matrix process using the transmitted channel level difference coefficient c as in the following equation.
  • Equation 6 may further multiply corresponding gains.
  • the extended sum inverse matrix processing unit 1050 receives the transmission audio signals qTCH1 and qTCH2 and the gain values h1 and h2 calculated above and outputs the output audio signals qCH1 and qCH2.
  • the inverse matrix operation performed by the extended sum inverse matrix processing unit 1050 may be performed by any one of the third signal processing 1100 shown in FIG. 11 and the fourth signal processing 1200 shown in FIG. 12.
  • the third signal processing 1100 is a summation inverse matrix operation corresponding to the first signal processing 600 shown in FIG. 6, and the fourth signal processing 1200 is performed by the second signal processing shown in FIG. 8. 800) A sum inverse matrix operation corresponding to the process.
  • the audio decoder 1000 performs the third signal processing 1100 and the fourth signal processing based on the extended sum additional information (eg, extended sum usage information ems_flag) obtained from a bit string.
  • the extended sum reverse matrix processing unit 1050 bypasses the transmission audio signals qTCH1 and qTCH2 according to the fourth signal processing 1100 to output the output audio signals qCH1 and qCH2 may be generated.
  • the channel level difference coefficient c may not be transmitted to the audio decoder 1000, and the reverse gain information calculator of the audio decoder 1000 may be used. 1020 may also not work.
  • the outputs qCH1 and qCH2 of the extended sum inverse matrix processing unit 1050 are time-domain signals, they can be directly reproduced as speakers as output audio signals.
  • an inverse filter bank e.g. IMDCT, not shown
  • IMDCT inverse filter bank
  • FIG. 13 is a flowchart illustrating an extended sum inverse matrix process according to an embodiment of the present invention. Each step of FIG. 13 may be performed by the audio decoder 1000 of the present invention described with reference to FIG. 10.
  • an audio decoder may receive a bit string.
  • the bit string may include quantized signals qTCH1 and qTCH2, channel level difference coefficient (c), extended sum usage information (ems_flag), and the like.
  • the present invention is not limited thereto, and the bit string received by the audio decoder may include the audio signal and additional information collected when the mux unit 580 of FIG. 5 generates the bit string.
  • the audio coder may set the signals qTCH1 and qTCH2 as the output audio signals qCH1 and qCH2 as they are.
  • the extended sum matrix processing according to the present invention can be applied to parametric encoding in addition to the encoding decoding process for each channel of an audio signal. That is, in the case of a parametric stereo technique which collectively encodes a method of downmixing a stereo signal to mono and generating a stereo signal through additional information, instead of the downmix that is generally performed, the present invention proposes When the gain value is generated and downmixed as in the method, masking in perceptual encoding that encodes the same can be operated more effectively, and the overall sound quality can be improved.
  • the signal processing process of downmixing the audio signal, or in the case of image, video signal, bio information signal, etc. in addition to the audio is required to transmit two or more signals having similarities. It may be possible.
  • the wired / wireless communication unit 310 receives a bitstream through a wired / wireless communication scheme.
  • the wired / wireless communication unit 310 may include at least one of a wired communication unit 310A, an infrared communication unit 310B, a Bluetooth unit 310C, and a wireless LAN communication unit 310D.
  • the user authentication unit 320 receives user information and performs user authentication.
  • the user authentication unit 320 includes one or more of the fingerprint recognition unit 320A, the iris recognition unit 320B, the face recognition unit 320C, and the voice recognition unit 320D.
  • the fingerprint, iris information, facial contour information, and voice information may be input, converted into user information, and the user authentication may be performed by determining whether the user information matches the existing registered user data. .
  • the input unit 330 is an input device for a user to input various types of commands, and may include one or more of a keypad unit 330A, a touch pad unit 330B, and a remote controller unit 330C. It is not limited.
  • the signal coding unit 340 encodes or decodes an audio signal and / or a video signal received through the wired / wireless communication unit 310, and outputs an audio signal of a time domain.
  • the signal coding unit 340 may include an audio signal processing device 345.
  • the audio signal processing apparatus 345 corresponds to an embodiment of the present invention (that is, the encoder 500 according to an embodiment and the decoder 1000 according to another embodiment) as described above.
  • the apparatus 345 and the signal coding unit 340 including the same may be implemented by one or more processors.
  • the controller 350 receives input signals from the input devices, and controls all processes of the signal coding unit 340 and the output unit 360.
  • the output unit 360 is a component in which an output signal generated by the signal coding unit 340 is output, and may include a speaker unit 360A and a display unit 360B. When the output signal is an audio signal, the output signal is output to the speaker, and when the output signal is a video signal, the output signal is output through the display.
  • the audio signal processing method according to the present invention can be stored in a computer-readable recording medium which is produced as a program for execution in a computer, and multimedia data having a data structure according to the present invention can also be stored in a computer-readable recording medium.
  • the computer readable recording medium includes all kinds of storage devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like, and may also be implemented in the form of a carrier wave (for example, transmission over the Internet). Include.
  • the bitstream generated by the encoding method may be stored in a computer-readable recording medium or transmitted using a wired / wireless communication network.
  • the present invention can be applied to a process of encoding and decoding an audio signal or performing various processing on the audio signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은 오디오 신호 처리 방법 및 장치에 관한 것으로서, 보다 구체적으로, 디지털 매체 또는 방송, 통신 신호를 통해 수신한 두 채널 이상의 오디오 신호에 대해 확장된 형태의 합과 차신호를 이용하여 오디오 신호를 디코딩하는 방법 및 장치에 관한 것이다. 본 발명에 따르면 적어도 두 채널의 오디오신호를 부호화하는 방법에 있어서, 제1오디오신호 및 제2오디오신호를 입력받는 단계, 상기 제1오디오신호와 상기 제2오디오신호에 대한 상관도를 구하는 단계, 상기 상관도가 기준값 이상인지 여부를 판단하는 단계, 상기 판단 결과가 참인 경우, 상기 제1오디오신호와 상기 제2오디오신호를 이용하여 제1게인값과 제2게인값을 산출하는 단계, 및 상기 제1오디오신호, 제2오디오신호, 제1게인값, 제2게입값을 이용하여 제1전송오디오신호와 제2전송오디오신호를 생성하는 단계를 포함하고, 상기 제1전송오디오신호와 상기 제2전송오디오신호는 지각 부호화 기법에 의해 부호화하는 오디오 신호 처리 방법이 제공될 수 있다.

Description

오디오 신호 처리 장치 및 방법
본 발명은 오디오 신호 처리 방법 및 장치에 관한 것으로서, 보다 구체적으로, 디지털 매체 또는 방송, 통신 신호를 통해 수신한 두 채널 이상의 오디오 신호에 대해 확장된 형태의 합과 차신호를 이용하여 오디오 신호를 디코딩하는 방법 및 장치에 관한 것이다.
종래의 고음질 오디오 부호화 방법은 심리음향모델을 이용하여 인간의 청각적 마스킹에 의해 들리지 않는 신호대역을 찾아내고, 부호화 과정에서 발생하는 양자화 잡음을 마스킹 대역에 집중하도록 하여 청취 시 원 오디오 신호와 동일한 음질이 가능하면서도 높은 압축을 가능하게 하는 방법을 사용한다. 이와 같은 고음질 오디오 부호화 방법을 지각 부호화(Perceptual Coding)라고도 한다.
MP3 (MPEG-1/2 Layer-III), AAC (Advanced Audio Coding) 등은 대표적인 지각 부호화 방법으로 스테레오 오디오 신호에 대한 효과적인 압축을 위해 조인트 스테레오 부호화 방법의 하나인 합차 부호화 (Mid-Side Stereo Coding)를 사용하기도 한다. 조인트 스테레오 부호화 하지 않고, 독립적으로 두 채널을 따로 부호화 하는 경우를 듀얼 모노(Dual Mono)라고 부른다.
종래의 듀얼 모노 부호화 및 합차 부호화 방법으로는 마스킹 대상이 되는 양자화 잡음이 오디오 신호와 공간적으로 완전히 일치하지 않아 마스킹 현상을 최대로 이용하지 못하는 문제가 발생한다. 즉, 지각 부호화의 압축 효율이 제한적인 경우가 발생한다. 따라서, 마스킹 현상을 최대로 이용하기 위해서 부호화의 대상이 되는 오디오 신호를 변형하는 과정이 필요하다.
본 발명의 일 양상에 따르면 적어도 두 채널의 오디오신호를 부호화하는 방법에 있어서, 제1오디오신호 및 제2오디오신호를 입력받는 단계, 상기 제1오디오신호와 상기 제2오디오신호에 대한 상관도를 구하는 단계, 상기 상관도가 기준값 이상인지 여부를 판단하는 단계, 상기 판단 결과가 참인 경우, 상기 제1오디오신호와 상기 제2오디오신호를 이용하여 제1게인값과 제2게인값을 산출하는 단계, 및 상기 제1오디오신호, 제2오디오신호, 제1게인값, 제2게인값을 이용하여 제1전송오디오신호와 제2전송오디오신호를 생성하는 단계를 포함하고, 상기 제1전송오디오신호와 상기 제2전송오디오신호는 지각 부호화 기법에 의해 부호화하는 오디오 신호 처리 방법이 제공될 수 있다.
본 발명의 다른 양상에 따르면 제1전송오디오신호, 제2전송오디오신호, 확장합차행렬사용정보를 수신하는 단계, 상기 확장합차행렬사용정보에 따라 채널게인정보의 수신 여부가 결정되고, 상기 채널게인정보가 수신된 경우, 상기 채널게인정보를 이용하여 제1게인값 및 제2게인값을 산출하는 단계, 및 상기 제1전송오디오신호, 상기 제2전송오디오신호, 상기 제1게인값, 상기 제2게인값을 이용하여 제1출력오디오신호 및 제2출력오디오신호를 생성하는 단계를 포함하고, 상기 채널게인정보가 수신되지 않은 경우, 상기 제1출력오디오신호는 상기 제1전송오디오신호와 같고 상기 제2출력오디오신호는 상기 제1전송오디오신호와 같은 오디오 신호 처리 방법이 제공될 수 있다.
본 발명에 의하면, 음원의 공간상 위치에 관계없이 심리음향 모델에 의한 마스킹을 최대한 이용할 수 있어서 고음질 오디오 부호화의 음질 향상을 기대할 수 있다.
본 발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.
도 1은 종래의 듀얼 모노 부호화 방법에서 신호 및 양자화 잡음의 공간상의 위치를 나타낸 도면
도 2는 종래의 합차 부호화 방법에서 신호 및 양자화 잡음의 공간상의 위치를 나타낸 도면
도 3은 종래의 듀얼 모노 부호화 방법에서 좌, 우 채널의 신호 레벨이 다른 경우의 신호 및 양자와 잡음의 공간상의 위치를 나타낸 도면
도 4는 종래의 합차 부호화 방법에서 좌, 우 채널의 신호 레벨이 다른 경우의 신호 및 양자와 잡음의 공간상의 위치를 나타낸 도면
도 5는 본 발명에 따른 확장 합차 부호화 방법이 적용된 오디오 부호화기의 예시적인 구성도
도 6은 본 발명의 일 실시예에 따라 확장 합차행렬 처리부가 입력 신호를 이용하여 전송 오디오 신호를 생성하는 제 1 신호 처리 과정을 나타낸 도면
도 7은 본 발명에 따른 확장 합차행렬 처리의 효과로 양자화 잡음이 마스킹되는 것을 설명하기 위한 예시도
도 8은 본 발명의 다른 실시예에 따라 확장 합차행렬 처리부가 입력 신호를 이용하여 전송 오디오 신호를 생성하는 제 2 신호 처리 과정을 나타낸 도면
도 9는 본 발명의 실시예에 따른 확장 합차 부호화 과정을 나타낸 순서도
도 10은 본 발명에 따른 확장 합차 복호화 방법이 적용된 오디오 복호화기의 예시적인 구성도
도 11은 본 발명에 따른 확장 합차역행렬 처리과정의 예시적인 구성도
도 12는 본 발명에 따른 확장 합차역행렬이 사용되지 않는 경우의 예시적인 구성도
도 13은 본 발명의 실시예에 따른 확장 합차역행렬 처리과정을 나타낸 순서도
본 발명의 일 양상에 따르면 적어도 두 채널의 오디오신호를 부호화하는 방법에 있어서, 제1오디오신호 및 제2오디오신호를 입력받는 단계, 상기 제1오디오신호와 상기 제2오디오신호에 대한 상관도를 구하는 단계, 상기 상관도가 기준값 이상인지 여부를 판단하는 단계, 상기 판단 결과가 참인 경우, 상기 제1오디오신호와 상기 제2오디오신호를 이용하여 제1게인값과 제2게인값을 산출하는 단계, 및 상기 제1오디오신호, 제2오디오신호, 제1게인값, 제2게입값을 이용하여 제1전송오디오신호와 제2전송오디오신호를 생성하는 단계를 포함하고, 상기 제1전송오디오신호와 상기 제2전송오디오신호는 지각 부호화 기법에 의해 부호화하는 오디오 신호 처리 방법이 제공될 수 있다.
본 발명에 있어서, 상기 오디오 신호 처리 방법에서 상기 지각 부호화 기법은 상기 제1전송오디오신호에 대한 제1마스킹임계치를 산출하고, 상기 제2전송오디오신호에 대한 제2마스킹임계치를 산출하는 단계를 더 포함할 수 있다.
본 발명에 있어서, 상기 오디오 신호 처리 방법은 상기 제1마스킹임계치를 이용하여 상기 제1전송오디오신호를 지각 부호화하는 오디오 신호 처리 방법이 더 제공될 수 있다.
본 발명에 있어서, 상기 오디오 신호처리 방법은 상기 상관도가 상기 기준값 미만인 경우, 제1전송오디오신호는 제1오디오신호와 같고, 제2전송오디오신호는 제2오디오신호와 같도록 생성하는 단계를 더 포함할 수 있다.
본 발명에 있어서, 상기 오디오 신호 처리 방법은 상기 제1게인값과 상기 제2게인값은 채널레벨차 값을 이용하여 산출된다.
여기서, 상기 제1전송오디오신호는 적어도 상기 제1오디오신호 및 상기 제2오디오신호보다 주음원을 더 많이 포함한다.
또한, 상기 제2전송오디오신호는 적어도 상기 제1오디오신호 및 상기 제2오디오신호보다 주음원을 더 적게 포함한다.
본 발명의 다른 양상에 따르면 제1전송오디오신호, 제2전송오디오신호, 확장합차행렬사용정보를 수신하는 단계, 상기 확장합차행렬사용정보에 따라 채널게인정보의 수신 여부가 결정되고, 상기 채널게인정보가 수신된 경우, 상기 채널게인정보를 이용하여 제1게인값 및 제2게인값을 산출하는 단계, 및 상기 제1전송오디오신호, 상기 제2전송오디오신호, 상기 제1게인값, 상기 제2게인값을 이용하여 제1출력오디오신호 및 제2출력오디오신호를 생성하는 단계를 포함하고, 상기 채널게인정보가 수신되지 않은 경우, 상기 제1출력오디오신호는 상기 제1전송오디오신호와 같고 상기 제2출력오디오신호는 상기 제1전송오디오신호와 같은 오디오 신호 처리 방법이 제공될 수 있다.
여기서, 상기 오디오 신호 처리 방법은 상기 확장합차행렬사용정보가 1인 경우 채널게인정보를 수신한다.
또한, 상기 오디오 신호 처리 방법은 상기 채널게인정보가 수신된 경우 제1출력오디오신호는 제1전송오디오신호와 제2전송오디오신호의 합에 제1게인값을 곱하여 얻고, 제2출력오디오신호는 제1전송오디오신호와 제2전송오디오신호의 차에 제2게인값을 곱하여 얻는다.
또한, 상기 오디오 신호 처리 방법에 있어서 상기 제1전송오디오신호와 제2전송오디오신호는 지각 부호화된 신호이다.
여기서, 상기 제1게인값은 채널게인정보의 제곱에 상수 1을 더한 값에 루트근한 값에 비례하고, 상기 제2게인값은 채널게인정보의 제곱에 상수 1을 더한 값에 루트근한 값을 채널게인정보로 나눈 값에 비례한다.
여기서, 상기 제1출력오디오신호와 상기 제2출력오디오신호는 쌍으로 이루어진 두 스피커에 각각 출력되는 오디오 신호이다.
이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
본 발명에서 다음 용어는 다음과 같은 기준으로 해석될 수 있고, 기재되지 않은 용어라도 하기 취지에 따라 해석될 수 있다. 코딩은 경우에 따라 인코딩 또는 디코딩으로 해석될 수 있고, 정보(information)는 값(values), 파라미터(parameter), 계수(coefficients), 성분(elements) 등을 모두 아우르는 용어로서, 경우에 따라 의미는 달리 해석될 수 있는 바, 그러나 본 발명은 이에 한정되지 아니한다.
좌,우 두 개의 스피커를 이용한 오디오 재생 방법인 스테레오 오디오를 부호화하기 위한 방법 가운데 합차부호화 (Mid-Side Stereo Coding) 방법이 있는데, 이는 특히 심리음향 실험에 근거하여 알려져 있는 BMLD (Binaural Masking Level Difference) 현상을 극복하고자 고안되었다. 즉, 심리음향에서의 마스킹 현상은 마스킹을 발생시키는 마스커(Masker)와 마스킹이 되는 마스키(Maskee)가 공간적으로 동일한 방향에 있을 때 가능하다는 것이 BMLD이다.
도 1은 종래의 듀얼 모노 부호화 방법에서 신호(S) 및 양자화 잡음(N1, N2)의 공간상의 위치를 나타내고 있으며, 도 2는 합차 부호화 방법에서 신호(S) 및 양자화 잡음(N1, N2)의 공간상의 위치를 나타내고 있다.
스테레오 오디오 신호의 두 채널 오디오 신호간의 상관성이 매우 높고, 그 크기가 같은 경우 그 소리에 대한 상(음상)이 두 스피커 사이 중앙에 맺히게 되며, 상관성이 없는 경우 각 스피커에서 독립된 소리가 나와 그 상이 각각 스피커에 맺히게된다. 도 1에 도시된 예와 같이, 상관성이 최대인 입력 신호에 대해 각 채널을 독립적으로 부호화(dual mono)할 경우 오디오 신호(S)의 음상은 중앙에, 양자화 잡음(N1, N2)의 음상은 각 스피커에 따로 맺히게 될 것이다. 즉, 각 채널에서의 양자화 잡음(N1, N2)은 서로 상관성이 없으므로, 그 상이 각 스피커에 따로 맺히게 되는 것이다. 따라서, 마스키가 되야하는 양자화 잡음(N1, N2)이 공간적 불일치로 인해 마스킹되지 않아, 결국 사람에게 왜곡으로 들리는 문제가 발생한다. 도 2에 도시된 합차부호화는 이와 같은 문제를 해결하고자, 두 채널 신호를 더한 신호 (Mid 신호)와 뺀 신호 (Difference)를 생성한 후 이를 이용하여 심리음향 모델을 수행하고, 이를 이용하여 양자화한다. 이러한 방법에 따르면, 도 2의 예에서 발생한 양자화 잡음(N1, N2)이 오디오 신호(S)와 같은 위치에 맺히게 된다. 한편, 두 채널 오디오 신호간의 상관성이 없는 독립적인 신호인 경우는 기존대로 듀얼 모노로 부호화하는 것이 바람직하므로, 이와 같은 MS 부호화 방법은 입력된 신호의 특성에 따라 가변적으로 적용 가능하다.
도 3 및 도 4는 좌(L), 우(R) 채널의 신호 레벨이 다른 경우의 신호(S) 및 양자와 잡음(N1, N2)의 공간상의 위치를 나타내고 있다. 도 3은 종래의 듀얼 모노 부호화 방식을, 도 4는 종래의 합차 부호화 방식을 나타낸다.
도 3 및 도 4는 좌, 우 채널의 레벨차이가 10dB (좌측이 10dB 큰) 경우를 예시하고 있다. 도 3 및 도 4에 예시한 것과 같이 입력 스테레오 오디오 신호의 상관도는 높으나 좌, 우 채널의 신호 레벨이 다른 경우, 사운드 공간상에 음원(S, 110)의 위치가 중앙이나 좌,우 측면의 스피커가 아닌 임의 위치에 존재하게 된다. 이와 같은 경우, 도 3에 도시된 종래의 듀얼 모노 방법 뿐만 아니라 도 4에 도시된 합차 부호화 방법을 이용하더라도 마스커가 되는 소스 S(110)의 위치와 마스키인 양자화 잡음 N1 (120a, 130a), N2 (120b, 130b)의 위치가 일치하기 어려운 문제가 발생한다. 본 발명은 이와 같은 문제를 해결하기 위해, 확장된 형태의 합차 부호화 방법을 제시한다.
도 5는 본 발명에 따른 확장 합차 부호화 방법이 적용된 오디오 부호화기(500)의 일 실시예를 나타낸다. 도 5를 참조하면, 두 채널의 오디오 신호 CH1, CH2은 상관도 산출부(510), 게인정보 산출부(520), 확장 합차행렬 처리부(530)에 각각 입력된다. 이때, CH1, CH2는 스테레오 오디오 신호의 일정 시간 구간에 해당하는 오디오 블럭 데이터일 수 있으며, 혹은 오디오 블럭에 대해 필터뱅크 변환된 주파수 영역의 일부 혹은 전부의 신호일 수 있다. 한편, 본 발명에서는 독립된 하나의 오디오 신호를 채널(이를 테면, CH1, CH2)로 표현하는데, 여기서 채널은 하나의 라우드 스피커를 통해 재생되는 하나의 신호를 나타낸다. 그러나, 본 발명은 이에 한정되지 않으며, 본 발명의 채널은 독립된 하나의 오디오 객체 신호나 복수의 오디오 신호가 묶여서 표현된 하나의 신호 등을 포함할 수 있다.
상관도 산출부(510)는 입력 CH1, CH2의 해당 구간에서의 상관도가 얼마나 되는지를 계산한다. CH1에 해당하는 입력신호를 x, CH2에 해당하는 입력신호를 y라고 할 때, 본 발명에서는 일 실시예로써 다음과 같은 식으로 정의된 ICC(Inter-Channel Coherence) 값을 사용할 수 있다.
수학식 1
Figure PCTKR2013006730-appb-M000001
본 발명의 실시예에 따르면, 상기 수학식 1과 같이 ICC를 이용하는 방법 이외에도 다양한 방법으로 상관도를 구할 수 있으며, 본 발명은 이에 한정되지 않는다. 본 발명의 일 실시예에 따르면, 상기 산출된 상관도에 기초하여, 확장 합차행렬 처리를 수행할지 여부를 결정할 수 있다. 그러나 본 발명의 실시예는 이에 한정하지 않으며, 본 발명에 따른 확장 합차행렬 처리를 수행할지 여부를 결정하기 위해 다른 방법을 사용할 수 있다.
게인정보 산출부(520)는 입력 CH1, CH2를 이용하여 본 발명에 따른 확장 합차행렬 처리에 사용될 게인 g1과 g2를 산출한다. 확장 합차행렬 게인을 얻기위해 필요한 채널레벨차 c는 다음과 같이 구할 수 있다.
수학식 2
Figure PCTKR2013006730-appb-M000002
즉, 채널레벨차 계수 c는 CH1과 CH2의 신호 크기(파워 혹은 에너지)의 비율을 나타낸다. 채널레벨차 c를 이용하여 확장 합차행렬 게인 g1, g2를 계산하는 일 실시예는 다음과 같다.
수학식 3
Figure PCTKR2013006730-appb-M000003
본 발명의 다른 실시예에 따르면, 입력 신호의 에너지를 보상하기 위한 추가적인 게인을 더 곱하여 상기 게인 g1 및 g2를 산출할 수 있다. 확장 합차행렬 처리부(530)는 입력 CH1, CH2 신호를 받아서 본 발명에 따른 행렬 연산을 통해 확장 합차 신호 TCH1과 TCH2를 생성한다.
도 6은 본 발명의 일 실시예에 따라 확장 합차행렬 처리부(530)가 입력 신호 CH1 및 CH2를 이용하여 전송 오디오 신호 TCH1 및 TCH2를 생성하는 제 1 신호 처리(600) 과정을 나타내고 있다. 이를 수식으로 나타내면 다음과 같다.
수학식 4
Figure PCTKR2013006730-appb-M000004
Figure PCTKR2013006730-appb-I000001
즉, 본 발명의 실시예에 다른 확장 합차행렬 처리부(530)는 입력 신호 CH1, CH2와 게인 g1, g2를 이용하여 확장 합차 신호 TCH1 및 TCH2를 생성한다. 상기 생성된 확장 합차 신호 TCH1 및 TCH2는 본 발명의 실시예에 따른 전송 오디오 신호가 될 수 있다.
본 발명의 일 실시예에 따르면, 확장 합차행렬 처리부(530)는 상관도 정보를 이용하여 상기 제 1 신호 처리(600) 과정을 수행할지 여부를 결정할 수 있다. 예를 들어, 수학식 1에서 구한 상관도 ICC값이 기 설정된 임계값 보다 클 경우, 확장 합차행렬 처리부(530)는 상기 신호 처리(600) 과정을 수행할 수 있다. 따라서 확장 합차행렬 처리부(530)는 확장 합차 신호 TCH1 및 TCH2를 생성하기 위해, 입력신호 CH1, CH2 와 함께 상관도 정보와 확장 합차행렬 게인 정보를 필요로 할 수 있다.
도 7은 본 발명의 실시예에 따른 확장 합차행렬 처리의 효과로 양자화 잡음이 마스킹되는 현상을 도시하고 있다. 즉, 도 7은 도 3 및 도 4의 실시예에 따른 입력 오디오 신호가 상기 제 1 신호 처리(600) 과정에 따라 확장 합차 신호로 변환되어 출력될 때를 나타내고 있다. 본 발명의 실시예에 따른 확장 합차행렬 처리 과정을 거치게 되면, 두 채널 사이의 사운드 공간에서 주요 음원(S, 110)이 위치한 지점 중심으로 확장 합차 신호 TCH1, TCH2에 의한 상이 위치하도록 변환된다. 따라서, 이렇게 변환된 신호 TCH1와 TCH2에 대한 지각 부호화의 결과로 발생한 양자화 잡음 N1(140a) 및 N2(140b)는 도 7에 도시된 바와 같이 음원 S(110)에 의해 공간적으로도 마스킹이 잘 되어 결국 음질 왜곡이 줄어드는 효과를 얻을 수 있다.
도 8은 본 발명의 다른 실시예에 따라 확장 합차행렬 처리부(530)가 입력 신호 CH1 및 CH2를 이용하여 전송 오디오 신호 TCH1 및 TCH2를 생성하는 제 2 신호 처리(800) 과정을 나타내고 있다. 상기 언급한 바와 같이, 확장 합차행렬 처리부(530)에서 제 1 신호 처리(600) 과정에 따라 확장 합차행렬 처리를 수행할 지 여부는 상관도 정보 및/또는 채널레벨차 계수 등에 기초하여 결정될 수 있다. 예를 들어, ICC값이 기 설정된 임계값 이하이면, 확장 합차행렬 처리부(530)는 확장 합차 부호화를 위한 처리를 수행하지 않고 종래와 같이 각 채널을 독립적으로 부호화 할 수 있다. 즉, 도 8 및 다음의 수학식 5와 같이 확장 합차행렬 처리부(530)는 입력 신호 CH1 및 CH2를 바로 전송 오디오 신호 TCH1 및 TCH2로 각각 출력할 수 있다.
수학식 5
Figure PCTKR2013006730-appb-M000005
Figure PCTKR2013006730-appb-I000002
다시 도 5를 참조 하면, 심리음향모델부(550)는 확장 합차행렬 처리부(530)의 출력 TCH1과 TCH2를 입력받아서 각 채널별로 심리음향모델을 수행하여 각 채널별 마스킹 임계치를 출력한다. 예를 들어, 특정 분석 구간의 채널 신호에서 각 신호 성분 대비 마스킹되는 크기의 비율인 SMR (Signal-to-Mask Ratio)값이 산출될 수 있다. 따라서, 본 발명에 따른 확장 합차행렬 처리부(530)의 수행결과에 따라, SMR을 산출하는 대상 신호가 달라질 수 있다.
양자화부(560)는 확장 합차행렬 처리부(530)의 출력 TCH1과 TCH2를 입력받고, 심리음향모델부(560)를 통해 마스킹 임계치 SMR을 입력받아서 양자화를 수행한다. 이때 양자화부(560)는 SMR에 기초하여 양자화 크기를 결정함으로, 양자화 잡음이 신호에 의해 마스킹되어 재생시 청자의 귀에 들리지 않도록 할 수 있다. 이는 종래의 AAC 같은 지각 부호화 방법에서 사용하는 방법과 유사하다.
엔트로피 부호화부(570)는 상기 양자화부(560)에 의해 양자화된 전송 오디오 신호(qTCH1와 qTCH2)에 대해 허프만 부호화(Huffman Coding)나 대수 부호화(Arithmatic Coding)와 같은 엔트로피 부호화를 통해 추가적인 데이터 압축을 수행한다. 구현 방법에 따라 양자화부(560)와 엔트로피 부호화(570)는 하나의 루프 안에서 반복적으로 수행하며 최적화될 수 있다.
한편, 상관도 산출부(510)의 출력인 상관도 값(ICC)과 게인정보 산출부(520)의 출력값인 채널레벨차 계수 c는 확장 합차 부가정보 부호화부(540)의 입력으로 들어가서 부호화될 수 있다. 예를들어, 상관도 값에 따라 확장 합차행렬 연산의 수행여부를 표시한 확장 합차 사용정보 ems_flag와 채널레벨차 계수 c가 부호화될 수 있다. 이때, 확장합차행렬 연산이 사용된 경우는 ems_flag=1로 부호화되고, 사용되지 않은 경우는 ems_flag=0 으로 부호화될 수 있다. 이렇게 부호화 된 부가정보는 복호화기에 전달될 수 있다.
한편 부호화기와 복호화기에서 사용되는 게인값간의 오차를 최소화하기 위해, 부호화기에서도 체널레벨차 계수 c와 게인 g1, g2 등은 전송을 위해 양자화된 값을 사용하는 것이 바람직하다.
먹스(MUX)부(580)에서는 확장 합차 부가정보 부호화부(540)의 출력, 엔트로피 부호화부(570)의 출력, 심리음향모델부(550)의 출력 등을 취합하여 출력 비트열로 생성한다. 전술한 바와 같이, 상기 확장 합차 부가정보 부호화부(540)의 출력으로는 상관도 값(ICC), 채널레벨차 계수(c), 확장 합차 사용정보(ems_flag) 등이 포함될 수 있다. 또한, 상기 엔트로피 부호화부(570)의 출력으로는 양자화된 전송 오디오 신호(qTCH1, qTCH2)의 엔트로피 부호화 된 신호가 포함될 수 있다. 또한, 상기 심리음향모델부(550)의 출력으로는 각 채널별 마스킹 임계치, 이를 테면 SMR 값이 포함될 수 있다. 먹스부(580)는 상기 언급된 출력 중 적어도 하나를 멀티플렉싱 하여 출력 비트열을 생성한다.
도 9는 본 발명의 실시예에 따른 확장 합차 부호화 과정을 나타낸 순서도이다. 도 9의 각 단계는 도 5를 참조로 설명한 본 발명의 오디오 부호화기(500)에 의해 수행될 수 있다.
먼저, 본 발명의 오디오 부호화기는 오디오 신호 CH1, CH2를 입력받고, 입력받은 신호를 이용하여 채널간 상관도(ICC)를 계산할 수 있다. 다음으로 오디오 부호화기는 상기 상관도(ICC) 값이 기 설정된 임계값보다 큰지 여부를 판별한다.
만약, 상관도(ICC)가 기 설정된 임계값 보다 클 경우, 오디오 부호화기는 입력받은 오디오 신호 CH1 및 CH2 간의 입력레벨차 계수 c를 산출한다. 또한, 오디오 부호화기는 전술한 실시예에 따라 확장 합차행렬 게인 g1 및 g2를 산출한다. 다음으로, 본 발명의 오디오 부호화기는 입력된 오디오 신호 CH1 및 CH2에 대하여 확장 합차행렬 처리를 수행하여 전송 오디오 신호 TCH1 및 TCH2를 생성한다. 또한, 오디오 부호화기는 확장 합차 사용정보를 ems_flag=1로 설정하여 부호화한다.
한편, 상관도(ICC)가 기 설정된 임계값 보다 크지 않을 경우, 입력된 오디오 신호 CH1 및 CH2를 그대로 전송 오디오 신호 TCH1 및 TCH2로 설정할 수 있다. 이때, 오디오 부호화기는 확장 합차 사용정보를 ems_flag=0으로 설정하여 부호화한다.본 발명의 오디오 부호화기는 이와 같이 생성된 전송 오디오 신호 TCH1 및 TCH2를 출력할 수 있다. 바람직한 실시예에 따르면, 오디오 부호화기는 상기 전송 오디오 신호 TCH1 및 TCH2 각각의 양자화 된 신호 qTCH1 및 qTCH2를 생성할 수 있다. 다른 실시예에 따르면, 오디오 부호화기는 상기 전송 오디오 신호 TCH1 및 TCH2에 대하여 양자화 및 엔트로피 부호화를 수행한 신호를 출력할 수 있다.
도 10는 본 발명에 따른 확장 합차 부호화 방법으로 부호화된 비트열을 복호화기 위한 오디오 복호화기(1000)의 일 실시예를 나타낸다. 도 10을 참조하면, 오디오 복호화 과정은 도 5를 참조로 설명한 부호화 과정의 역과정으로 진행될 수 있다. 먼저, 오디오 복호화기(1000) 전송된 비트열을 수신하고, 디먹스(DEMUX)부(1010)를 통해 각 복호화 단계에 필요한 정보들로 분리한다.
엔트로피 복호화부(1030)는 엔트로피 부호화된 데이터를 양자화된 신호로 복원한다. 역양자화부(1040)는 상기 복원된 신호를 역양자화하여 qTCH1 및 qTCH2 즉, 전송 오디오 신호를 획득한다. 이때 역양자화부(1040)는 별도의 부가정보에 기초하여 역양자화 크기를 결정할 수 있는데, 상기 부가정보는 도 5에서 설명한 마스킹 임계치 SMR에 기초하여 결정될 수 있다. 역양자화부(1040)에서 획득된 전송 오디오 신호 qTCH1, qTCH2는 확장 합차역행렬 처리부(1050)로 보내어 진다.
역게인정보 산출부(1020)는 전송된 채널레벨차 계수 c를 이용하여 확장 합차역행렬 처리에 사용될 역행렬 게인값 h1, h2를 다음 수학식과 같이 계산한다.
수학식 6
Figure PCTKR2013006730-appb-M000006
Figure PCTKR2013006730-appb-I000003
한편, 앞서 수학식 3에서 설명한 바와 같이 본 발명의 다른 실시예에 따라 게인 g1, g2에 에너지 보상 게인이 포함된 경우, 수학식 6에서도 이에 대응하는 별도의 게인을 추가로 곱할 수 있다.
확장 합차역행렬 처리부(1050)는 전송 오디오 신호 qTCH1, qTCH2와 앞서 계산한 게인값 h1,h2를 입력받아 출력 오디오 신호 qCH1, qCH2를 출력하는 연산을 수행한다. 확장 합차역행렬 처리부(1050)에서 수행되는 역행렬 연산 과정은 도 11에 도시된 제 3 신호 처리(1100) 과정 및 도 12에 도시된 제 4 신호 처리(1200) 과정 중 어느 하나로 수행될 수 있다. 상기 제 3 신호 처리(1100) 과정은 도 6에 도시된 제 1 신호 처리(600) 과정에 대응하는 합차역행렬 연산이며, 제 4 신호 처리(1200) 과정은 도 8에 도시된 제 2 신호 처리(800) 과정에 대응하는 합차역행렬 연산이다.
본 발명의 실시예에 따른 오디오 복호화기(1000)는 비트열로부터 획득되는 확장 합차 부가정보(이를테면, 확장 합차 사용정보 ems_flag)에 기초하여, 상기 제 3 신호 처리(1100) 과정 및 제 4 신호 처리(1200) 과정 중 하나를 이용하여 출력 오디오 신호 qCH1, qCH2를 생성한다. 만약 획득된 확장 합차 부가정보 ems_flag=1일 경우, 확장 합차역행렬 처리부(1050)는 제 3 신호 처리(1100) 과정을 이용하여 아래 수학식 7과 같이 출력 오디오 신호 qCH1 및 qCH2를 생성할 수 있다.
수학식 7
Figure PCTKR2013006730-appb-M000007
Figure PCTKR2013006730-appb-I000004
그러나 획득된 확장 합차 부가정보 ems_flag=0일 경우, 확장 합차역행렬 처리부(1050)는 제 4 신호 처리(1100) 과정에 따라 전송 오디오 신호 qTCH1 및 qTCH2를 바이패스(bypass)하여 상기 출력 오디오 신호 qCH1 및 qCH2를 생성할 수 있다. 본 발명의 일 실시예에 따르면, 확장 합차 부가정보 ems_flag=0일 경우, 채널레벨차 계수 c가 오디오 복호화기(1000)에 전송되지 않을 수 있으며, 오디오 복호화기(1000)의 역게인정보 산출부(1020)도 동작하지 않을 수 있다.
확장 합차역행렬 처리부(1050)의 출력 qCH1 및 qCH2가 시간영역 신호인 경우, 바로 출력 오디오 신호로써 스피커로 재생될 수 있다. 그러나 상기 출력 qCH1 및 qCH2가 주파수 영역의 신호인 경우, 역필터뱅크 (e.g. IMDCT, 미도시)를 수행하여 최종 오디오 신호로 출력될 수 있다.
도 13은 본 발명의 실시예에 따른 확장 합차역행렬 처리과정을 나타낸 순서도이다. 도 13의 각 단계는 도 10을 참조로 설명한 본 발명의 오디오 복호화기(1000)에 의해 수행될 수 있다.
먼저, 본 발명의 실시예에 따른 오디오 복호화기는 비트열을 수신할 수 있다. 본 발명의 실시예에서, 상기 비트열에는 양자화 된 신호 qTCH1 및 qTCH2, 채널레벨차 계수(c), 확장 합차 사용정보(ems_flag) 등이 포함될 수 있다. 다만, 본 발명은 이에 한정하지 않으며, 오디오 복호화기가 수신하는 비트열에는 도 5의 먹스부(580)가 비트열을 생성할 때 취합된 오디오 신호 및 부가 정보들이 포함될 수 있다.
다음으로, 본 발명의 실시예에 따른 오디오 복호화기는 수신된 비트열에 포함된 확장 합차 사용정보 ems_flag=1 인지 여부를 판별한다. 만약 ems_flag=1일 경우, 오디오 복호화기는 확장 합차역행렬 게인 h1, h2를 산출한다. 또한, 산출된 게인 h1, h2를 이용하여, 신호 qTCH1 및 qTCH2에 대한 확장 합차역행렬 처리를 수행하여 출력 오디오 신호 qCH1, qCH2를 생성한다.
그러나 ems_flag=1이 아닐 경우(즉, ems_flag=0일 경우), 오디오 부호화기는 신호 qTCH1 및 qTCH2를 그대로 출력 오디오 신호 qCH1 및 qCH2로 설정할 수 있다.
이상의 과정을 통해 두 채널의 입력 신호를 대상으로 하는 오디오 신호의 부호화 및 복호화 방법을 실시예로 본 발명에 따른 확장 합차행렬 처리 방법을 설명하였으나 동일한 발명의 사상에 근거해서 두 채널 이상의 입력 신호에 대해서도 적용이 가능하다. 예를 들어, 3차원 공간상에 세 개의 스피커 출력 신호 사이에 음원을 위치하는 방법인 VBAP(Vector Based Amplitude Panning)으로 렌더링된 채널 신호가 입력되는 경우, 이를 고려하여 세 채널 입력 신호를 각 채널별로 독립 부호화 하는 대신 유사한 합차 기술을 이용하여 각 채널 신호에 의한 마스킹 임계치 및 그에 따르는 양자화 잡음이 공간적으로 신호에 의해 보다 잘 마스킹되도록 부호화 하는 것이 가능하다.
또한, 본 발명에 따른 확장 합차행렬 처리는 오디오 신호의 채널별 부호화 복호화 과정 이외에도 파라메트릭 부호화에서도 적용 가능하다. 즉, 스테레오 신호를 모노로 다운믹스하고, 별도 부가 정보를 통해 스테레오 신호를 생성하는 방법의 부호화를 통칭하는 파라메트릭 스테레오(Parametric Stereo) 기법의 경우, 일반적으로 수행하는 다운믹스 대신, 본 발명에서 제안한 방법과 같이 게인값을 생성해서 다운믹스하면, 이를 부호화하는 지각 부호화에서의 마스킹이 보다 효과적으로 동작할 수 있어서 전체적인 음질이 향상되는 효과를 기대할 수 있다.
또한, 오디오 부호화 이외에도 오디오 신호를 다운믹스하는 신호 처리 과정이나, 오디오 이외에 이미지나 비디오 신호, 생체 정보 신호와 같은 경우를 대상해서도 2개 이상으로써 유사성을 가지고 있는 신호를 전송해야하는 경우에 확장하여 적용 가능할 수 있다.
도 14는 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 구현된 제품들의 관계를 보여주는 도면이다. 우선 도 14를 참조하면, 유무선 통신부(310)는 유무선 통신 방식을 통해서 비트스트림을 수신한다. 구체적으로 유무선 통신부(310)는 유선통신부(310A), 적외선통신부(310B), 블루투스부(310C), 무선랜통신부(310D) 중 하나 이상을 포함할 수 있다.
사용자 인증부는(320)는 사용자 정보를 입력 받아서 사용자 인증을 수행하는 것으로서 지문인식부(320A), 홍채인식부(320B), 얼굴인식부(320C), 및 음성인식부(320D) 중 하나 이상을 포함할 수 있는데, 각각 지문, 홍채정보, 얼굴 윤곽 정보, 음성 정보를 입력받아서, 사용자 정보로 변환하고, 사용자 정보 및 기존 등록되어 있는 사용자 데이터와의 일치여부를 판단하여 사용자 인증을 수행할 수 있다.
입력부(330)는 사용자가 여러 종류의 명령을 입력하기 위한 입력장치로서, 키패드부(330A), 터치패드부(330B), 리모컨부(330C) 중 하나 이상을 포함할 수 있지만, 본 발명은 이에 한정되지 아니한다.
신호 코딩 유닛(340)는 유무선 통신부(310)를 통해 수신된 오디오 신호 및/또는 비디오 신호에 대해서 인코딩 또는 디코딩을 수행하고, 시간 도메인의 오디오 신호를 출력한다. 상기 신호 코딩 유닛(340)은 오디오 신호 처리 장치(345)를 포함할 수 있다. 이때, 오디오 신호 처리 장치(345)는 앞서 설명한 본 발명의 실시예(즉, 일 실시예에 따른 부호화기(500) 및 다른 실시예에 따른 복호화기(1000))에 해당하는 것으로서, 이와 같이 오디오 처리 장치(345) 및 이를 포함한 신호 코딩 유닛(340)은 하나 이상의 프로세서에 의해 구현될 수 있다.
제어부(350)는 입력장치들로부터 입력 신호를 수신하고, 신호 코딩 유닛(340)와 출력부(360)의 모든 프로세스를 제어한다. 출력부(360)는 신호 코딩 유닛(340)에 의해 생성된 출력 신호 등이 출력되는 구성요소로서, 스피커부(360A) 및 디스플레이부(360B)를 포함할 수 있다. 출력 신호가 오디오 신호일 때 출력 신호는 스피커로 출력되고, 비디오 신호일 때 출력 신호는 디스플레이를 통해 출력된다.
본 발명에 따른 오디오 신호 처리 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 인코딩 방법에 의해 생성된 비트스트림은 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유/무선 통신망을 이용해 전송될 수 있다.
이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.
전술한 바와 같이, 발명의 실시를 위한 최선의 형태에서 관련 사항을 기술하였다.
본 발명은 오디오 신호를 인코딩 및 디코딩하거나 오디오 신호에 다양한 처리를 하는 과정에 적용될 수 있다.

Claims (6)

  1. 제1 전송 오디오 신호, 제2 전송 오디오 신호 및 확장 합차 사용정보를 포함하는 비트열을 수신하는 단계;
    상기 제1 전송 오디오 신호 및 제2 전송 오디오 신호에 대응하는 채널레벨차 계수를 수신하는 단계; 및
    상기 확장 합차 사용정보에 기초하여, 상기 제1 전송 오디오 신호 및 제2 전송 오디오 신호로부터 제1 출력 오디오 신호 및 제2 출력 오디오 신호를 생성하는 단계를 포함하되,
    상기 확장 합차 사용정보의 값이 1일 경우, 상기 생성하는 단계는,
    상기 채널레벨차 계수를 이용하여 제1 게인값 및 제2 게인값을 산출하고,
    상기 제1 전송 오디오 신호, 제2 전송 오디오 신호, 제1 게인값 및 제2 게인값을 이용하여 상기 제1 출력 오디오 신호 및 제2 출력 오디오 신호를 생성하는 오디오 신호 처리 방법.
  2. 제 1 항에 있어서,
    상기 수신하는 단계는,
    상기 확장 합차 사용정보의 값이 1인 경우 상기 채널레벨차 계수를 수신하는 오디오 신호 처리 방법.
  3. 제 1 항에 있어서,
    상기 제1 출력 오디오 신호는 상기 제1 전송 오디오 신호와 제2 전송 오디오 신호의 합에 상기 제1 게인값을 곱하여 얻고, 상기 제2 출력 오디오 신호는 상기 제1 전송 오디오 신호와 제2 전송 오디오 신호의 차에 상기 제2 게인값을 곱하여 얻는 오디오 신호 처리 방법.
  4. 제 1 항에 있어서,
    상기 제1 전송 오디오 신호와 제2 전송 오디오 신호는 지각 부호화된 신호인 오디오 신호 처리 방법.
  5. 제 1 항에 있어서,
    상기 제1 게인값은 상기 채널레벨차 계수의 제곱에 상수 1을 더한 값의 제곱근에 비례하고, 상기 제2 게인값은 상기 채널레벨차 계수의 제곱에 상수 1을 더한 값의 제곱근을 상기 채널레벨차 계수로 나눈 값에 비례하는 오디오 신호 처리 방법.
  6. 제 1 항에 있어서,
    상기 제1 출력 오디오 신호와 상기 제2 출력 오디오 신호는 두 개의 스피커에 각각 출력되는 스테레오 오디오 신호인 오디오 신호 처리 방법.
PCT/KR2013/006730 2012-07-31 2013-07-26 오디오 신호 처리 장치 및 방법 Ceased WO2014021587A1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US14/414,902 US20150213790A1 (en) 2012-07-31 2013-07-26 Device and method for processing audio signal
JP2015523021A JP2015528925A (ja) 2012-07-31 2013-07-26 オーディオ信号処理装置および方法
EP13826484.1A EP2863387A4 (en) 2012-07-31 2013-07-26 DEVICE AND METHOD FOR PROCESSING SOUND SIGNALS
CN201380039780.4A CN104541326A (zh) 2012-07-31 2013-07-26 一种设备和方法,用于处理音频信号

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020120084207A KR20140017338A (ko) 2012-07-31 2012-07-31 오디오 신호 처리 장치 및 방법
KR10-2012-0084207 2012-07-31

Publications (1)

Publication Number Publication Date
WO2014021587A1 true WO2014021587A1 (ko) 2014-02-06

Family

ID=50028214

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/006730 Ceased WO2014021587A1 (ko) 2012-07-31 2013-07-26 오디오 신호 처리 장치 및 방법

Country Status (6)

Country Link
US (1) US20150213790A1 (ko)
EP (1) EP2863387A4 (ko)
JP (1) JP2015528925A (ko)
KR (1) KR20140017338A (ko)
CN (1) CN104541326A (ko)
WO (1) WO2014021587A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
JP6817433B2 (ja) * 2016-11-08 2021-01-20 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 少なくとも2つのチャンネルをダウンミックスするためのダウンミキサおよび方法ならびにマルチチャンネルエンコーダおよびマルチチャンネルデコーダ
KR102468799B1 (ko) * 2017-08-11 2022-11-18 삼성전자 주식회사 전자장치, 그 제어방법 및 그 컴퓨터프로그램제품
WO2019049245A1 (ja) * 2017-09-06 2019-03-14 ヤマハ株式会社 オーディオシステム、オーディオ機器、及びオーディオ機器の制御方法
US10650834B2 (en) 2018-01-10 2020-05-12 Savitech Corp. Audio processing method and non-transitory computer readable medium
EP3872808B1 (en) * 2018-10-25 2025-12-24 NEC Corporation Audio processing apparatus, audio processing method, and program
US12340284B2 (en) 2019-02-15 2025-06-24 Nec Corporation Time-series data processing method
EP3719799A1 (en) * 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation
WO2021099363A2 (en) * 2019-11-20 2021-05-27 Dolby International Ab Methods and devices for personalizing audio content
US20250063316A1 (en) * 2021-12-15 2025-02-20 Atieva, Inc. Signal processing approximating a standardized studio experience in a vehicle audio system having non-standard speaker locations

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6499010B1 (en) * 2000-01-04 2002-12-24 Agere Systems Inc. Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency
US20050234716A1 (en) * 2004-04-20 2005-10-20 Vernon Stephen D Reduced computational complexity of bit allocation for perceptual coding
US20070208557A1 (en) * 2006-03-03 2007-09-06 Microsoft Corporation Perceptual, scalable audio compression
US20080004873A1 (en) * 2006-06-28 2008-01-03 Chi-Min Liu Perceptual coding of audio signals by spectrum uncertainty
US20080091415A1 (en) * 2006-10-12 2008-04-17 Schafer Ronald W System and method for canceling acoustic echoes in audio-conference communication systems

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3951690B2 (ja) * 2000-12-14 2007-08-01 ソニー株式会社 符号化装置および方法、並びに記録媒体
JP2004325633A (ja) * 2003-04-23 2004-11-18 Matsushita Electric Ind Co Ltd 信号符号化方法、信号符号化プログラム及びその記録媒体
KR101135726B1 (ko) * 2004-04-05 2012-04-16 코닌클리케 필립스 일렉트로닉스 엔.브이. 인코더, 디코더, 인코딩 방법, 디코딩 방법 및 기록 매체
BRPI0516658A (pt) * 2004-11-30 2008-09-16 Matsushita Electric Industrial Co Ltd aparelho de codificação de estéreo, aparelho de decodificação de estéreo e seus métodos
CN101069232A (zh) * 2004-11-30 2007-11-07 松下电器产业株式会社 立体声编码装置、立体声解码装置及其方法
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
EP2084703B1 (en) * 2006-09-29 2019-05-01 LG Electronics Inc. Apparatus for processing mix signal and method thereof
EP2102856A4 (en) * 2006-12-07 2010-01-13 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL
JP2008203315A (ja) * 2007-02-16 2008-09-04 Matsushita Electric Ind Co Ltd オーディオ符号化・復号化装置、方法、及びソフトウェア

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6499010B1 (en) * 2000-01-04 2002-12-24 Agere Systems Inc. Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency
US20050234716A1 (en) * 2004-04-20 2005-10-20 Vernon Stephen D Reduced computational complexity of bit allocation for perceptual coding
US20070208557A1 (en) * 2006-03-03 2007-09-06 Microsoft Corporation Perceptual, scalable audio compression
US20080004873A1 (en) * 2006-06-28 2008-01-03 Chi-Min Liu Perceptual coding of audio signals by spectrum uncertainty
US20080091415A1 (en) * 2006-10-12 2008-04-17 Schafer Ronald W System and method for canceling acoustic echoes in audio-conference communication systems

Also Published As

Publication number Publication date
JP2015528925A (ja) 2015-10-01
EP2863387A1 (en) 2015-04-22
EP2863387A4 (en) 2016-03-30
CN104541326A (zh) 2015-04-22
US20150213790A1 (en) 2015-07-30
KR20140017338A (ko) 2014-02-11

Similar Documents

Publication Publication Date Title
WO2014021587A1 (ko) 오디오 신호 처리 장치 및 방법
CN111316354B (zh) 目标空间音频参数和相关联的空间音频播放的确定
KR102664650B1 (ko) 공간 오디오 파라미터의 유의성의 결정 및 관련 인코딩
JP5081838B2 (ja) オーディオ符号化及び復号
CN112997248B (zh) 确定空间音频参数的编码和相关联解码
CN107731238B (zh) 多声道信号的编码方法和编码器
RU2409911C2 (ru) Декодирование бинауральных аудиосигналов
TWI639347B (zh) 用於音訊信號處理之多聲道直接-周圍分解之裝置及方法
WO2011021845A2 (en) Method and apparatus for encoding multi-channel audio signal and method and apparatus for decoding multi-channel audio signal
EP3762923B1 (en) Audio coding
US20240185869A1 (en) Combining spatial audio streams
EP2839460A1 (en) Stereo audio signal encoder
JP2022505964A (ja) 方向性音量マップベースのオーディオ処理
JP2025041781A (ja) 空間音声パラメータの量子化
WO2012161089A1 (ja) テレビ会議装置
CN115580822A (zh) 空间音频捕获、传输和再现
WO2014021586A1 (ko) 오디오 신호 처리 방법 및 장치
RU2648632C2 (ru) Классификатор многоканального звукового сигнала
WO2011122731A1 (ko) 멀티채널 오디오의 다운믹스 방법 및 장치
WO2020057050A1 (zh) 直达声与背景声提取方法、扬声器系统及其声重放方法
CN116547749B (zh) 音频参数的量化
KR20230069173A (ko) 공간 오디오 파라미터 양자화
CN118946930A (zh) 参数化空间音频编码
WO2015133795A1 (ko) 대역폭 확장을 위한 고주파 복호화 방법 및 장치
WO2012169808A2 (ko) 오디오 신호 처리방법, 오디오 부호화장치, 오디오 복호화장치, 및 이를 채용하는 단말기

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13826484

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2013826484

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2013826484

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2015523021

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14414902

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE