KR20070041336A

KR20070041336A - 오디오 신호의 인코딩 및 디코딩 방법, 및 이를 구현하기위한 장치

Info

Publication number: KR20070041336A
Application number: KR1020060097318A
Authority: KR
Inventors: 방희석; 오현오; 김동수; 임재현; 정양원
Original assignee: 엘지전자 주식회사
Priority date: 2005-10-14
Filing date: 2006-10-02
Publication date: 2007-04-18

Abstract

본 발명은 스테레오 상태로 다운믹스된 오디오 신호를 다시 멀티채널 오디오 신호로 복원할 수 있는 오디오 신호의 인코딩 및 디코딩 방법, 및 이를 구현하기 위한 장치에 관한 것으로서, 본 발명은 (a) 오디오 신호에 관한 비트스트림으로부터 임의적 다운믹스 오디오 신호 및 세밀 이득을 추출하는 단계; 및, (b) 세밀 이득을 근거로 임의적 다운믹스 오디오 신호를 스테레오 다운믹스 오디오 신호로 디코딩하는 단계를 포함한다. 본 발명에 따르면, 양자화 레벨 간격이 상대적으로 넓은 임의적 다운믹스 이득뿐만 아니라, 양자화 레벨 간격이 좁은 세밀 이득까지 고려함으로써, 멀티채널 오디오 신호로의 복원율을 높일 수 있다.

오디오, 디코더, 다운믹스 이득

Description

오디오 신호의 인코딩 및 디코딩 방법, 및 이를 구현하기 위한 장치{METHOD FOR ENCODING AND DECODING, AND APPARATUS FOR IMPLEMENTING THE SAME}

도 1은 본 발명의 실시예에 따른 오디오 신호의 인코딩 장치의 블럭도.

도 2는 임의적 다운믹스 이득의 양자화 테이블의 일 예.

도 3a 내지 도 3d는 세밀 이득의 양자화 테이블의 일 예.

도 4는 본 발명의 실시예에 따른 오디오 신호의 인코딩 방법의 순서도.

도 5는 본 발명의 실시예에 따른 오디오 신호의 디코딩 장치의 블럭도.

도 6은 본 발명의 실시예에 따른 오디오 신호의 디코딩 방법의 순서도.

본 발명은 오디오 신호의 인코딩 및 디코딩 방법 및 이를 구현하기 위한 장치에 관한 것으로서, 더욱 상세하게는 스테레오 상태로 다운믹스된 오디오 신호를 다시 멀티채널 오디오 신호로 복원할 수 있는 오디오 신호의 인코딩 및 디코딩 방법, 및 이를 구현하기 위한 장치에 관한 것이다.

일반적으로, 오디오 신호의 인코더는 멀티채널 오디오 신호를 스테레오 채널이나 모노 채널로 다운믹스하여 다운믹스 오디오 신호를 생성하고, 추후 다운믹스 오디오 신호를 멀티채널 오디오 신호로 업믹스하기 위해 필요한 공간정보를 멀티채널 오디오 신호로부터 추출한다. 이와 같이 멀티채널 오디오 신호를 다운믹스하는 데 있어서, 인코더가 기설정에 따라 자동적으로 다운믹스하여 스테레오 다운믹스 오디오 신호를 생성할 수도 있지만, 음악가 등과 같은 작업자가 개입되어 임의적으로 다운믹스 오디오 신호(이하, 임의적 다운믹스(Arbitrary Downmix) 오디오 신호)를 생성할 수도 있다.

한편, 스테레오 다운믹스 오디오 신호는 멀티채널 상태에 최적화되어 있는 데 비해, 임의적 다운믹스(Arbitrary Downmix) 오디오 신호는 다운믹스 신호가 스테레오 채널인 경우 업믹스하지 않고 그대로 듣기 위한 것이기 때문에, 임의적 다운믹스 오디오 신호는 스테레오 상태에 최적화되어 있다. 그렇기 때문에 임의적 다운믹스 오디오 신호를 수신하여 그대로 듣지 않고 이를 멀티채널 오디오 신호로 복원하기 위해서는, 디코더는 우선 임의적 다운믹스 오디오 신호를 멀티채널 오디오 상태로 최적화되어 있는 스테레오 다운믹스 오디오 신호로 변환하는 것이 바람직하다. 이 과정에서, 디코더는 임의적 다운믹스 이득(ADG: Arbitrary Downmix Gain)을 이용할 수 있는 데, 임의적 다운믹스 이득이란, 좌측(또는 우측) 임의적 다운믹스 오디오 신호의 에너지에 대한 좌측(또는 우측) 스테레오 다운믹스 오디오 신호의 에너지 비로 정의될 수 있다.

한편, 인코더는 이러한 임의적 다운믹스 이득(ADG)을 양자화시킨 후에 양자화된 값을 비트스트림에 포함시키는 데, 이때 양자화 과정에 있어서 특정 개수의 이산적인 값들이 나열되어 있는 양자화 테이블을 이용한다. 이러한 양자화 테이블 은 채널간 레벨차이(CLD: Channel Level Difference)를 양자화하기 위한 양자화 테이블과 동일한 것으로서, 임의적 다운믹스 이득을 양자화는 데 적합하기 보다는 채널간 레벨차이를 양자화하는 데 적합하다. 구체적으로, 임의적 다운믹스 이득의 값들은 채널간 레벨차이의 범위보다 상대적으로 좁은 영역에 분포되어 있는 데 비해, 종래의 양자화 테이블은 양자화 레벨 간격이 너무 넓기 때문에, 종래의 양자화 테이블로는 임의적 다운믹스 이득을 정확하게 표현하지 못하는 문제점이 있었다.

본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 임의적 다운믹스 오디오 신호를 스테레오 다운믹스 오디오 신호로 복원하는 데 있어서, 양자화 레벨 간격이 상대적으로 넓은 임의적 다운믹스 이득뿐만 아니라, 양자화 레벨 간격이 좁은 세밀 이득까지 고려함으로써, 멀티채널 오디오 신호로의 복원율을 높일 수 있는 오디오 신호의 인코딩 및 디코딩 방법, 및 이를 구현하기 위한 장치를 제공하는 데 그 목적이 있다.

상기와 같은 목적을 달성하기 위하여 본 발명에 따른 오디오 신호의 디코딩 방법은, (a) 오디오 신호에 관한 비트스트림으로부터 임의적 다운믹스 오디오 신호 및 세밀 이득을 추출하는 단계; 및, (b) 상기 세밀 이득을 근거로 상기 임의적 다운믹스 오디오 신호를 스테레오 다운믹스 오디오 신호로 디코딩하는 단계를 포함한다.

본 발명에 따르면, 상기 세밀 이득의 양자화 레벨 간격은 임의적 다운믹스 이득의 양자화 레벨 간격의 최소값보다 작은 것일 수 있다.

본 발명에 따르면, 상기 세밀 이득의 최대값은 임의적 다운믹스 이득의 양자화 레벨 간격의 최대값보다 작은 것일 수 있다.

본 발명에 따르면, 상기 (a) 단계에서 세밀 이득의 지시자를 더 추출하고, 상기 (b) 단계는, 상기 세밀 이득에 관한 지시자가 세밀이득의 존재를 의미할 것을 조건으로 수행될 수 있다.

본 발명에 따르면, 상기 (a) 단계에서, 임의적 다운믹스 이득을 더 추출하고, 상기 (b) 단계는, 상기 임의적 다운믹스 이득 및 상기 세밀 이득을 근거로 상기 임의적 다운믹스 오디오 신호를 스테레오 다운믹스 오디오 신호로 디코딩하는 단계일 수 있다.

본 발명에 따르면, 상기 (a) 단계에서, 임의적 다운믹스 이득의 지시자를 더 추출하고, 상기 (b) 단계는, 상기 임의적 다운믹스 이득의 지시자가 임의적 다운믹스 이득의 존재를 의미할 것을 조건으로 수행되는 것일 수 있다.

본 발명에 따르면, 상기 (b) 단계는, 상기 임의적 다운믹스 이득을 역양자화한 값, 및 상기 세밀 이득(fine gain)을 역양자화한 값을 합산하는 단계; 및, 상기 합산된 값을 근거로 상기 임의적 다운믹스 오디오 신호를 상기 스테레오 다운믹스 오디오 신호로 디코딩하는 단계를 포함할 수 있다.

본 발명에 따르면, 상기 세밀 이득은 하나 이상의 혼성 밴드(hybrid band)를 포함하는 주파수 대역별로 존재하는 것이며, 상기 (b) 단계는, 상기 주파수 대역별로 수행될 수 있다.

본 발명에 따르면,상기 세밀 이득은 하나 이상의 복소 지수 변조 필터 밴드(QMF band)를 포함하는 주파수 대역별로 존재하는 것이며, 상기 (b) 단계는, 상기 주파수 대역별로 수행될 수 있다.

본 발명에 따르면, 상기 세밀 이득은 하나 이상의 파라미터 밴드(parameter band)를 포함하는 주파수 대역별로 존재하는 것이며, 상기 (b) 단계는, 상기 주파수 대역별로 수행될 수 있다.

본 발명에 따르면, 상기 (a) 단계에서 공간 정보를 더 추출하고, 상기 공간 정보를 이용하여 상기 스테레오 다운믹스 오디오 신호를 멀티채널 오디오 신호로 디코딩하는 단계를 더 포함할 수 있다.

본 발명의 또 다른 측면에 따르면, 세밀 이득을 근거로 임의적 다운믹스 오디오신호를 디코딩하여 스테레오 다운믹스 오디오 신호를 생성하는 임의적 다운믹스 변환부; 및, 공간정보를 근거로 상기 스테레오 다운믹스 오디오신호를 디코딩하여 멀티채널 오디오 신호를 생성하는 멀티채널 생성부를 포함하는 오디오 신호의 디코딩 장치가 제공된다.

본 발명에 따르면, 오디오 신호에 관한 비트스트림을 공간정보 비트스트림 및 코어코덱 비트스트림으로 분리하는 역다중화부를 더 포함하고, 상기 공간정보 비트스트림은 상기 공간정보, 및 상기 세밀 이득을 포함하고, 상기 코어코덱 비트스트림은 상기 임의적 다운믹스 오디오 신호에 관한 것일 수 있다.

본 발명의 또 다른 측면에 따르면, (a) 멀티채널 오디오 신호를 다운믹스하여 스테레오 다운믹스 오디오 신호를 생성하고, 사용자에 의해 임의적으로 다운믹 스된 임의적 다운믹스 오디오 신호를 입력받는 단계; 및, (b) 상기 스테레오 다운믹스 오디오 신호 및 상기 임의적 다운믹스 오디오 신호를 이용하여 세밀 이득을 계산하는 단계를 포함하는 오디오 신호의 인코딩 방법이 제공된다.

본 발명의 또 다른 측면에 따르면, 멀티채널 오디오 신호를 다운믹스하여 스테레오 다운믹스 오디오 신호를 생성하는 다운믹스부; 및, 상기 스테레오 다운믹스 오디오 신호 및, 임의적으로 다운믹스된 임의적 다운믹스 오디오 신호를 입력받아 세밀 이득을 산출하는 세밀 이득 산출부를 포함하는 오디오 신호의 인코딩 장치가 제공된다.

본 발명의 또 다른 측면에 따르면, 스테레오 다운믹스 오디오 신호 및 임의적 다운믹스 오디오 신호를 이용하여 산출된 세밀 이득을 포함하고, 상기 세밀 이득의 양자화 레벨 간격은 임의적 다운믹스 이득의 양자화 레벨 간격보다 세밀한 것인 오디오 신호의 데이터 구조가 제공된다.

본 발명에 따르면, 상기 세밀 이득의 존재여부를 나타내는 세밀이득의 지시자를 더 포함할 수 있다.

이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

특히, 본 발명의 실시예는 멀티채널 오디오 신호를 다운믹스하여 스테레오 다운믹스 오디오 신호를 생성하고, 이를 다시 멀티채널 오디오 신호로 업믹스하는 경우에 해당하는 것이지만, 본 발명은 스테레오 오디오 신호는 물론, 모노 오디오 신호뿐만 아니라, 멀티채널 오디오 신호보다 적은 채널수의 오디오 신호로 다운믹스하는 모든 경우에 적용될 수 있다.

도 1은 본 발명의 일 실시예에 따른 오디오 신호의 인코딩 장치의 구성을 보여주는 도면이다. 도면을 참조하면, 본 발명의 일 실시예에 따른 오디오 신호의 인코딩 장치(100)(이하, 인코딩 장치(100))는 다운믹스부(110), 공간정보 추출부(120), 다운믹스 이득 산출부(130), 세밀이득 산출부(140), 공간정보 인코딩부(150), 코어 인코딩부(160), 및 다중화부(170)를 포함한다.

다운믹스부(110)는 멀티채널 오디오 신호(multichannel audio signal)(IN_M)를 다운믹스하여 스테레오 다운믹스 오디오 신호(stereo downmix audio signal)(101)를 생성한다. 여기서 멀티채널 오디오 신호(IN_M)란, 3개 채널을 통해 각기 다른 신호가 출력될 수 있는 오디오 신호를 일컫는 것으로서, 2개의 채널 신호인 스테레오(stereo) 오디오 신호, 및 1개 채널 신호인 모노(mono) 오디오 신호와 구별되는 개념이다. 멀티채널 오디오 신호에는 일반적으로 5.1 채널 오디오 신호, 7.1 채널 오디오 신호 등이 있을 수 있다. 멀티채널 오디오 신호가 5.1 채 널(F_L, R_L, F_R, R_R,C, LFE)일 경우, 다운믹스부(110)는 총 6개의 멀티채널 오디오 신호를 다운믹스하여 2개의 스테레오 다운믹스 오디오 신호(즉, 좌측 스테레오 다운믹스 신호(L) 및 우측 스테레오 다운믹스 신호(R))(101)를 생성한다.

공간정보 추출부(120)는 멀티채널 오디오 신호(IN_M)로부터 공간정보(102)를 추출한다. 여기서 공간 정보란, 디코더가 스테레오 다운믹스 오디오를 다시 멀티채널 오디오 신호로 복원하는데 사용되는 정보로서, 공간 파라미터라고도 표현할 수 있다. 이러한 공간 정보 또는 공간 파라미터에는 두 채널간의 에너지 차이를 나타내는 채널간 레벨차이(CLD: Channel Level Differences), 두 채널간의 상관관계를 나타내는 채널간 상관도(ICC: Inter-channel coherence/cross-correlation), 두 채널간의 시간 차이를 나타내는 채널 예측 계수(CPC: Channel Prediction Coefficients) 등이 있을 수 있지만, 본 발명은 이에 한정되지 아니한다.

다운믹스 이득 산출부(130)는 다운믹스부(110)로부터 입력된 스테레오 다운믹스 오디오 신호(101) 및, 외부로부터 입력된 임의적 다운믹스 오디오 신호(Arbitrary Downmix Audio Signal)(IN_A)(L', R')를 근거로 임의적 다운믹스 이득(ADG: Arbitrary Downmix Gain)(103)을 산출한다. 우선 임의적 다운믹스 오디오 신호란, 멀티채널 오디오 신호가 사용자에 의해 임의적으로 다운믹스된 오디오 신호이다. 좌측 임의적 다운믹스 오디오 신호(L')는 사용자가 결정한 계수들과 멀티채널 오디오 신호들과의 선형조합으로 이루어진 값이 될 수 있고, 마찬가지로 우측 임의적 다운믹스 오디오 신호(R')도 사용자가 결정한 계수들과 멀티채널 오디오 신 호들과의 선형조합으로 이루어진 값이 될 수 있다.

한편, 임의적 다운믹스 이득(ADG)이란, 좌측(또는 우측) 임의적 다운믹스 신호의 에너지에 대한 좌측(또는 우측) 스테레오 다운믹스 오디오 신호의 에너지 비로서 다음 수학식 1과 같이 표현될 수 있다.

ADG(L) = Energy(L)/ Energy(L')

ADG(R) = Energy(R)/ Energy(R')

Energy()는 특정 구간의 신호에 대한 에너지를 구하는 함수

L, R, L', R': 특정 프레임 또는 타임 슬롯과 특정 파라미터에서의 좌측(또는 우측) 스테레오(또는 임의적) 다운믹스 신호

ADG(L) : 좌측 임의적 다운믹스 이득

ADG(R) : 우측 임의적 다운믹스 이득

다운믹스 이득 산출부(130)는 위와 같이 임의적 다운믹스 이득을 구한 이후, 그 값을 양자화한다. 양자화 과정을 통해 임의적 다운믹스 이득은 소정 간격을 갖는 이산적인 값들 중의 하나로 변환된다. 여기서 이산적인 값들이 열거된 것을 양자화 테이블이라고 하는 데, 임의적 다운믹스 이득의 양자화 테이블의 일 예는 도 2와 같다.

도 2를 참조하면, 양자화 레벨은 인덱스가 -15부터 15까지이고, 양자화 값은 -150dB부터 150dB까지, 총 31개의 레벨이 존재한다. 도 2에서 레벨 간격을 살펴보면, 레벨 간격이 가장 작을 때가 2dB(인덱스가 -5부터 5까지에서)이고, 레벨 간격 이 가장 넓을 때는 인덱스가 레벨 간격은 105dB(14부터 15까지(또는 -15에서 -14까지)에서)이다. 이와 같이 최소 2dB의 간격을 갖는 양자화 테이블을 이용하여 임의적 다운믹스 이득을 산출하는 경우, 다운믹스 이득 산출부(130)가 산출한 임의적 다운믹스 이득은 그 레벨 간격이 최소 2dB 이상인 값으로 양자화된다.

다시 도 1을 참조하면서, 나머지 구성요소에 대해 구체적인 설명을 하고자 한다.

세밀이득 산출부(140)는 다운믹스부(110)로부터 입력된 스테레오 다운믹스 신호(101), 및 외부로부터 입력된 임의적 다운믹스 신호(IN_A)로부터 세밀 이득(fine gain)(104)을 산출한다. 세밀 이득(fine gain)(fADG)이란, 임의적 다운믹스 이득이 앞서 설명된 임의적 다운믹스 이득의 양자화 테이블에 따라 양자화될 때, 양자화된 나머지를 일컫는다. 예를 들어, 임의적 다운믹스 이득이 'ADG=23.8dB'인 경우, 도 2와 같은 기존의 임의적 다운믹스 이득의 양자화 테이블에 따르면, '22dB(idx:9)로 양자화되므로, 그 나머지는 '1.8dB'이므로, 세밀 이득은 'fADG=1.8dB'이다.

세밀이득 산출부(140)는 세밀 이득(104)을 구한 뒤, 그 세밀 이득을 세밀 이득의 양자화 테이블에 따라 양자화한다. 세밀 이득의 양자화 테이블의 일 예는 도 3a 내지 도 3d와 같다. 도 3a를 살펴보면, 세밀 이득의 양자화 레벨 간격은 '0.3dB'로서, 도 2의 임의적 다운믹스 이득의 양자화 레벨 간격의 최소값(2dB)보다 훨씬 작음을 알 수 있고, 세밀 이득의 최대값은 '1.8dB'로서 임의적 다운믹스 이득의 양자화 레벨 간격의 최대값(105dB)보다 작음을 알 수 있다. 도 3b를 살펴보면, 세밀 이득의 양자화 레벨 간격은 도 3a의 경우와 마찬가지로 '0.3dB'로서, 도 2의 임의적 다운믹스 이득의 양자화 레벨 간격의 최소값(2dB)보다 훨씬 작음을 알고 있고, 세밀 이득의 최대값은 '2.7dB'로서, 도 3a의 경우보다 크지만, 역시 임의적 다운믹스 이득의 양자화 레벨 간격의 최대값(105dB)보다 작음을 알 수 있다. 도 3a 내지 도 3d의 경우, 세밀 이득의 양자화 레벨 간격과 임의적 다운믹스 이득의 양자화 레벨 간격의 최소값 등을 비교한 표는 다음과 같다.

	세밀 이득의 양자화 레벨 간격	임의적 다운믹스 이득의 양자화 레벨 간격의 최소값	세밀 이득의 최대값	임의적 다운믹스 이득의 양자화 레벨 간격의 최대값
제1예 (도 3a)	0.3dB	2dB	1.8dB	105dB
제2예 (도 3b)	0.3dB		2.7dB
제3예 (도 3c)	0.2dB		2.8dB
제4예 (도 3d)	0.5dB		4.5dB

이와 같이, 세밀 이득의 양자화 레벨 간격이 임의적 다운믹스 이득의 양자화 레벨 간격의 최소값보다 훨씬 작기 때문에, 임의적 다운믹스 이득이 양자화된 나머지(최소 -1.0dB∼1.0dB)를 세밀 이득으로서 표현될 수 있다. 한편, 세밀 이득의 최대값(1.8dB, 4.5dB 등)이 임의적 다운믹스 이득의 양자화 레벨 간격의 최대값(105dB)보다는 작기 때문에, 세밀 이득의 양자화 테이블은 임의적 다운믹스 이득이 양자화된 나머지(최대 -52.5dB∼52.5dB)의 표현을 위해 사용될 수 있는 값들로만 이루어진 것이다.

이와 같이 임의적 다운믹스 이득의 레벨 간격보다 훨씬 세밀한 값을 세밀 이득으로 표현할 수 있는데, 세밀 이득의 양자화 레벨 수가 총 31개(idx:-15∼15)이하일 경우, 세밀 이득은 약 4bits로 표현될 수 있다.

한편, 임의적 다운믹스 이득은 대체적으로 작은 값들로서, 대부분 -10dB∼10dB 범위내에 분포하는 값들이기 때문에, 도 2에 나타난 임의적 다운믹스 이득의 양자화 테이블에 따르면, 임의적 다운믹스 이득은 인덱스 -5∼5사이에 존재하게 되고, 이 구간의 임의적 다운믹스 이득의 양자화 레벨 간격은 2dB이 된다. 그렇기 때문에, 이러한 경우에는, 세밀 이득의 양자화 테이블 중 세밀 이득이 -2.0dB 초과 2.0dB 미만의 구간(도 3a 내지 도 3d에서의 빗금 친 부분)만이 필요할 수 있다. 특히, 도 3d에서의 빗금 친 부분의 양자화 레벨 수는 총 7개(idx:-3∼3)이므로, 이 경우 세밀 이득은 3bits로도 표현될 수 있다.

공간정보 인코딩부(150)는 공간정보(102), 임의적 다운믹스 이득(103), 세밀 이득(104)을 인코딩하여 공간정보 비트스트림(105)을 생성한다. 이때, 공간정보 인코딩부(150)는 임의적 다운믹스 이득의 존재여부를 나타내는 임의적 다운믹스 이득의 지시자(indicator), 및 세밀 이득의 존재여부를 나타내는 세밀 이득의 지시자(indicator)를 공간정보 비트스트림(105)에 더 포함시킬 수 있다.

임의적 다운믹스 이득(103) 및 세밀 이득(104)은 공간정보 비트스트림(105)에 포함될 수 있지만, 직접 다중화부(170)에 입력될 수도 있다.

코어 인코딩부(160)는 임의적으로 다운믹스된 임의적 다운믹스 오디오 신호(Arbitrary Downmix Audio Signal)(IN_A)(L', R')를 입력받아 인코딩하여 코어코덱 비트스트림(106)을 생성한다.

다중화부(170)는 공간정보 인코딩부(150)로부터 입력된 공간정보 비트스트림(105)과 코어 인코딩부(160)로부터 입력된 코어코덱 비트스트림(106)을 다중화하여 오디오 신호에 관한 비트스트림(OUT)을 생성한다. 한편, 오디오 신호에 관한 비트스트림(OUT)은 다음과 같은 오디오 신호의 데이터 구조를 가질 수 있다. 스테레오 다운믹스 오디오 신호 및 임의적 다운믹스 오디오 신호를 이용하여 산출된 세밀 이득을 포함하되, 상기 세밀 이득의 양자화 레벨 간격은 임의적 다운믹스 이득의 양자화 레벨 간격보다 세밀하다.

본 발명의 일 실시예에 따른 인코딩 장치는 위와 같은 구성요소들을 구비함으로써, 임의적 다운믹스 이득뿐만 아니라 세밀 이득까지 인코딩할 수 있다.

도 4는 본 발명의 일 실시예에 따른 오디오 신호의 인코딩 방법의 순서도이다. 도 4을 참조하면, 우선, 외부로부터 멀티채널 오디오 신호(예: F_L, R_L, F_R, R_R,C, LFE)가 입력되면, 인코딩 장치는 이를 수신한다(S110 단계). 인코딩 장치는 S110 단계에서 수신한 멀티채널 오디오 신호를 다운믹스하여 스테레오 다운믹스 오디오 신호(L, R)를 생성한다(S120 단계). 그런 다음, 인코딩 장치는 S120 단계에서 생성된 스테레오 다운믹스 신호(L, R) 및, 외부에서 입력된 임의적 다운믹스 오디오 신호(L', R')를 근거로 임의적 다운믹스 이득(ADG(L) 또는 ADG(R))을 계산한다(S130 단계). 그리고 인코딩 장치는 S130 단계에서 계산한 임의적 다운믹스 이득을 양자화하고, 그 양자화한 후의 나머지를 이용하여 세밀 이득을 산출한다(S140 단계).

한편 인코딩 장치는 상기 멀티채널 오디오 신호로부터 공간정보를 추출한다(S150 단계). S150 단계 역시 S120 단계 내지 S140 단계와 동시에, 또는 S120 단계 내지 S140 단계에 앞서 이루어질 수 있다.

그런 다음, 인코딩 장치는 외부에서 입력된 임의적 다운믹스 오디오 신호, S130 단계에서 산출된 임의적 다운믹스 이득(ADG(L) 또는 ADG(R)), S140 단계에서 산출된 세밀 이득, 및 S150 단계에서 추출된 공간정보를 다중화하여 공간정보 비트스트림을 생성한다(S160 단계). 이때, 임의적 다운믹스 이득의 존재여부를 나타내는 임의적 다운믹스 이득의 지시자, 및 세밀 이득의 존재여부를 나타내는 세밀 이득의 지시자를 공간정보 비트스트림에 더 포함시킬 수 있다. 그리고 외부로부터 입력된 임의적 다운믹스 오디오 신호를 인코딩하여 코어코덱 비트스트림을 생성한다(S170 단계). 그런 다음, S160 단계에서 생성된 공간정보 비트스트림과, S170 단계에서 생성된 코어코덱 비트스트림을 다중화하여 오디오 신호에 관한 비트스트림을 생성한다(S180 단계).

도 5는 본 발명의 일 실시예에 따른 오디오 신호의 디코딩 장치의 블록도이다. 도 5를 참조하면, 본 발명의 일 실시예에 따른 오디오 신호의 디코딩 장치(200)(이하, 디코딩 장치(200))는 역다중화부(210), 공간정보 디코딩부(220), 코어 디코딩부(230), 임의적 다운믹스 변환부(240), 멀티채널 생성부(250)를 포함한다.

역다중화부(210)는 외부로부터 입력되는 오디오 신호에 관한 비트스트림(IN_1)으로부터 공간정보 비트스트림(201S) 및 코어코덱 비트스트림(202S)으로 분리한다. 여기서 상기 비트스트림(IN)은 본 발명의 일 실시예에 따른 오디오 신호의 인코딩 장치(100)에서 생성된 비트스트림(OUT)일 수 있다. 역다중화부(210)는 공간정보 비트스트림(201S)을 공간정보 디코딩부(220)에 입력하고, 코어코덱 비트스트림(202S)은 코어 디코딩부(230)에 입력한다.

공간정보 디코딩부(220)는 공간정보 비트스트림(201S)을 디코딩하고 이로부터 공간정보(203S), 임의적 다운믹스 이득(203a)(ADG(L) 또는 ADG(R)), 세밀 이득(203b)을 추출한다.

코어 디코딩부(230)는 코어코덱 비트스트림(202S)을 디코딩하여 디코딩된 임의적 다운믹스 오디오 신호(arbitrary downmix audio signal)(L', R')(202d)를 생성한다.

임의적 다운믹스 변환부(240)는 임의적 다운믹스 이득(203a) 및 세밀 이득(203b)을 이용하여 임의적 다운믹스 오디오 신호(L', R')(202d)를 스테레오 다운믹스 오디오 신호(L, R)(204)로 변환한다. 구체적으로, 우선 임의적 다운믹스 이득(203a)을 역양자화한 값과, 세밀 이득(203b)을 역양자화한 값을 합산한다. 예를 들어, 임의적 다운믹스 이득이 'idx=2'이고, 세밀 이득이 'idx=2'인 경우, 도 2 및 도 3a와 같은 양자화 테이블에 따르면, 임의적 다운믹스 이득의 역양자화한 값은 'ADG=2dB'이 되고, 세밀 이득을 역양자화한 값은 'fADG=0.6dB'이 된다. 이를 합산하면, '2.6dB'이 된다. 이 값과 임의적 다운믹스 오디오 신호(L', R')(202d)를 이용하여 스테레오 다운믹스 오디오 신호(L, R)(204)를 구할 수 있다. 이때 앞서 설명된 수학식 1이 이용될 수 있다.

한편, 세밀 이득은 하나 이상의 혼성 밴드(hybrid band)를 포함하는 주파수 대역별로 존재하는 것일 수도 있고, 하나 이상의 복소 지수 변조 필터 밴드(QMF band)를 포함하는 주파수 대역별로 존재하는 것일 수도 있으며, 하나 이상의 파라미터 밴드(parameter band)를 포함하는 주파수 대역별로 존재하는 것일 수도 있다. 이와 같이 임의적 다운믹스 오디오 신호(L', R')(202d)를 스테레오 다운믹스 오디오 신호(L, R)(204)로 변환하는 것은 위와 같이 주파수 대역별로 수행될 수 있다.

멀티채널 생성부(250)는 공간정보 디코딩부(220)로부터 입력된 공간정보(203S)를 이용하여, 코어 디코딩부(230)로부터 입력된 스테레오 다운믹스 오디오 신호(L, R)(204)를 디코딩하여 멀티채널 오디오 신호(OUT_M)(예: F_L, R_L, F_R, R_R,C, LFE)를 생성한다.

본 발명의 일 실시예에 따른 디코딩 장치는 위와 같은 구성요소들을 구비함으로써, 임의적 다운믹스 이득뿐만 아니라 세밀 이득까지 고려함으로써, 스테레오 상태에 최적화되어 있는 임의적 다운믹스 신호를 멀티채널 상태에 최적화되어 있는 스테레오 다운믹스 신호로 보다 정밀하게 복원할 수 있다.

도 6은 본 발명의 일 실시예에 따른 오디오 신호의 디코딩 방법의 순서도이다. 도 6을 참조하면, 우선 외부로부터 오디오 신호에 관한 비트스트림이 입력되면, 디코딩 장치는 이를 수신한다(S210 단계). 그런 다음, 디코딩 장치는 S210 단계에서 입력된 비트 스트림을 공간정보 비트스트림 및 코어코덱 비트스트림으로 분리한다(S220 단계).

그리고 디코딩 장치는 공간정보 비트스트림에서 세밀 이득의 지시자를 추출하여, 세밀 이득이 존재하는지 여부를 조회한다(S230 단계). 만약, 세밀 이득의 지시자가 세밀 이득의 존재를 의미하는 경우(S230 단계의 '예'), 임의적 다운믹스 이득 및 세밀 이득을 추출한 후, 각각을 역양자화한 후 합산한다(S240 단계). 이때, 만약, 임의적 다운믹스 이득의 지시자가 임의적 다운믹스 이득의 부존재를 의미하는 경우, S240 단계에서 세밀 이득만을 역양자화시킨다.

반대로, 세밀 이득의 지시자가 세밀 이득의 부존재를 의미하는 경우(S230 단계의 '아니오'), 임의적 다운믹스 이득만을 추출하여 역양자화한다(S250 단계).

디코딩 장치는 S240 단계 및 S250 단계에서 역양자화된 값을 이용하여 임의적 다운믹스 신호(L', R')를 스테레오 다운믹스 오디오 신호(L, R)로 변환한다(S260 단계).

S260 단계 이후, 디코딩 장치는 공간정보 비트스트림으로부터 분리한 공간정보를 이용하여 S260 단계에서 변환된 스테레오 다운믹스 오디오 신호(L, R)를 멀티채널 오디오 신호(예: F_L, R_L, F_R, R_R,C, LFE)로 디코딩한다(S270 단계).

이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.

본 발명의 일 측면에 따르면, 임의적 다운믹스 오디오 신호를 스테레오 다운믹스 오디오 신호로 복원하는 데 있어서, 임의적 다운믹스 이득뿐만 아니라, 세밀 이득까지 고려하기 때문에, 멀티채널 오디오 신호로의 복원율을 현저히 높일 수 있다.

본 발명의 다른 측면에 따르면, 임의적 다운믹스 이득의 값에 따라 세밀 이득의 포함여부를 결정함으로써, 복원률을 높이면서도 데이터 용량을 크게 상승시키지 않을 수 있다.

Claims

(a) 오디오 신호에 관한 비트스트림으로부터 임의적 다운믹스 오디오 신호 및 세밀 이득을 추출하는 단계; 및,

(b) 상기 세밀 이득을 근거로 상기 임의적 다운믹스 오디오 신호를 스테레오 다운믹스 오디오 신호로 디코딩하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제 1 항에 있어서,

상기 세밀 이득의 양자화 레벨 간격은 임의적 다운믹스 이득의 양자화 레벨 간격의 최소값보다 작은 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제 1 항에 있어서,

상기 세밀 이득의 최대값은 임의적 다운믹스 이득의 양자화 레벨 간격의 최대값보다 작은 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제 1 항에 있어서,

상기 (a) 단계에서 세밀 이득의 지시자를 더 추출하고,

상기 (b) 단계는, 상기 세밀 이득에 관한 지시자가 상기 세밀이득의 존재를 의미할 것을 조건으로 수행되는 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제 1 항에 있어서,

상기 (a) 단계에서, 임의적 다운믹스 이득을 더 추출하고,

상기 (b) 단계는, 상기 임의적 다운믹스 이득 및 상기 세밀 이득을 근거로 상기 임의적 다운믹스 오디오 신호를 스테레오 다운믹스 오디오 신호로 디코딩하는 단계인 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제 5 항에 있어서,

상기 (a) 단계에서, 임의적 다운믹스 이득의 지시자를 더 추출하고,

상기 (b) 단계는, 상기 임의적 다운믹스 이득의 지시자가 임의적 다운믹스 이득의 존재를 의미할 것을 조건으로 수행되는 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제 5 항에 있어서,

상기 (b) 단계는, 상기 임의적 다운믹스 이득을 역양자화한 값, 및 상기 세밀 이득(fine gain)을 역양자화한 값을 합산하는 단계; 및,

상기 합산된 값을 근거로 상기 임의적 다운믹스 오디오 신호를 상기 스테레오 다운믹스 오디오 신호로 디코딩하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제 1 항에 있어서,

상기 세밀 이득은 하나 이상의 혼성 밴드(hybrid band)를 포함하는 주파수 대역별로 존재하는 것이며,

상기 (b) 단계는, 상기 주파수 대역별로 수행되는 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제 1 항에 있어서,

상기 세밀 이득은 하나 이상의 복소 지수 변조 필터 밴드(QMF band)를 포함하는 주파수 대역별로 존재하는 것이며,

상기 (b) 단계는, 상기 주파수 대역별로 수행되는 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제 1 항에 있어서,

상기 세밀 이득은 하나 이상의 파라미터 밴드(parameter band)를 포함하는 주파수 대역별로 존재하는 것이며,

상기 (b) 단계는, 상기 주파수 대역별로 수행되는 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제 1 항에 있어서,

상기 (a) 단계에서 공간 정보를 더 추출하고,

상기 공간 정보를 이용하여 상기 스테레오 다운믹스 오디오 신호를 멀티채널 오디오 신호로 디코딩하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호의 디코딩 방법.
세밀 이득을 근거로 임의적 다운믹스 오디오신호를 디코딩하여 스테레오 다운믹스 오디오 신호를 생성하는 임의적 다운믹스 변환부; 및,

공간정보를 근거로 상기 스테레오 다운믹스 오디오신호를 디코딩하여 멀티채널 오디오 신호를 생성하는 멀티채널 생성부를 포함하는 것을 특징으로 하는 오디오 신호의 디코딩 장치.
제 12 항에 있어서,

오디오 신호에 관한 비트스트림을 공간정보 비트스트림 및 코어코덱 비트스트림으로 분리하는 역다중화부를 더 포함하고,

상기 공간정보 비트스트림은 상기 공간정보, 및 상기 세밀 이득을 포함하고, 상기 코어코덱 비트스트림은 상기 임의적 다운믹스 오디오 신호에 관한 것임을 특징으로 하는 오디오 신호의 디코딩 장치.
(a) 멀티채널 오디오 신호를 다운믹스하여 스테레오 다운믹스 오디오 신호를 생성하고, 사용자에 의해 임의적으로 다운믹스된 임의적 다운믹스 오디오 신호를 입력받는 단계; 및,

(b) 상기 스테레오 다운믹스 오디오 신호 및 상기 임의적 다운믹스 오디오 신호를 이용하여 세밀 이득을 계산하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
멀티채널 오디오 신호를 다운믹스하여 스테레오 다운믹스 오디오 신호를 생성하는 다운믹스부; 및,

상기 스테레오 다운믹스 오디오 신호 및, 임의적으로 다운믹스된 임의적 다운믹스 오디오 신호를 입력받아 세밀 이득을 산출하는 세밀 이득 산출부를 포함하는 것을 특징으로 하는 오디오 신호의 인코딩 장치.
스테레오 다운믹스 오디오 신호 및 임의적 다운믹스 오디오 신호를 이용하여 산출된 세밀 이득을 포함하고,

상기 세밀 이득의 양자화 레벨 간격은 임의적 다운믹스 이득의 양자화 레벨 간격보다 세밀한 것을 특징으로 하는 오디오 신호의 데이터 구조.
제 16 항에 있어서,

상기 세밀 이득의 존재여부를 나타내는 세밀이득의 지시자를 더 포함하는 것을 특징으로 하는 오디오 신호의 데이터 구조.