KR20040105741A

KR20040105741A - 효율적으로 개선된 스케일러블 오디오 부호화

Info

Publication number: KR20040105741A
Application number: KR10-2004-7013617A
Authority: KR
Inventors: 스트라이히세바스찬; 빌레르모미이까
Original assignee: 노키아 코포레이션
Priority date: 2002-03-12
Filing date: 2002-03-12
Publication date: 2004-12-16
Anticipated expiration: 2022-03-12
Also published as: WO2003077235A1; US20030220783A1; CN1266673C; KR100711989B1; EP1483759A1; DE60214599T2; CN1623185A; EP1483759B1; DE60214599D1; AU2002246280A1; US7277849B2

Abstract

제1 계층 및 제2 계층을 지니는 계층화된 데이터 스트림으로 오디오 신호들을 부호화하는 오디오 부호화 방법이 제공되어 있다. 상기 제2 계층은 상기 제1 계층의 확장에 적합하다. 상기 방법은 원래의 디지털 오디오 신호(300)를 형성하는 단계, 제1 계층 신호(310)를 획득하도록 상기 원래의 디지털 오디오 신호를 부호화하는 단계, 상기 원래의 디지털 오디오 신호 및 상기 제1 계층 신호 간의 차를 반영하도록 나머지 신호(336)를 생성하는 단계, 부호화를 위해 상기 원래의 디지털 오디오 신호 또는 상기 나머지 신호를 선택하는 단계, 및 상기 선택된 신호를 부호화함으로써 제2 계층 신호를 생성하는 단계를 포함한다. 또한, 상기 나머지 신호(336)는 평가되며, 상기 평가의 결과가 주어진 기준을 충족할 경우, 사전에 결정된 낮은 엔트로피 신호가 상기 원래의 디지털 오디오 신호 또는 상기 나머지 신호 대신에 상기 제2 계층 신호로서 부호화되도록 선택된다.

Description

효율적으로 개선된 스케일러블 오디오 부호화{Efficient improvements in scalable audio coding}

오디오, 즉, 음향 에너지는 그의 본질면에서 아날로그이다. 그러나, 저장 또는 전송을 위해 오디오를 디지털 형태로 표현하는 것이 편리하다. 아날로그 오디오 신호를 샘플링 및 디지털화함으로써 획득되는 순수한 디지털 오디오 데이터는, 예를 들면 44 kHz의 샘플링 속도(전형적인 오디오 CD 품질)에서 16 비트/샘플로 표현될 수 있는, 특히, 고품질의 오디오를 위해 대용량의 저장 능력 및 채널 대역폭을 필요로 한다. 그 결과, 디지털 오디오는 대개 여러 공지된 소스 부호화 기법들에 따라 압축된다.

MPEG 계층-3(MP3), MPEG-2 및 MPEG-4와 같은 지각 오디오 부호화 기법들 모두는 데이터의 양을 감소시키도록 사람의 귀에 대한 신호 마스킹 특성들을 이용한다. 그렇게 함으로써, 양자화 잡음은 총체적인 신호에 의해 마스킹되는, 다시 말하면, 들리지 않는 상태로 되는 방식으로 주파수 대역들에 분산된다. 상당한 저장 크기 감소는 오디오 품질의 거의 또는 전혀 지각할 수 없는 손실 정도로 가능하다.

지각 오디오 부호화 기법들은 종종 스케일러블(scalable)하고 기본 계층 및 적어도 하나의 확장 계층을 지니는 계층화된 비트 스트림을 생성한다. 이는 즉, 복호기 측에서 서로 다른 오디오 품질 레벨들로 복호하거나 트래픽 세이핑(traffic shaping) 또는 트래픽 조절(traffic conditioning)에 의해 네트워크에서 비트율을 감소시키는 비트율 스케일러빌리티(bit-rate scalability; 비트율 계층적 분해능력)를 허용한다. 한가지 해결 방안은 단지 모노(mono)로만 기본 계층 부호화를 제공하고, 스테레오 품질을 오디오에 추가하는 확장 계층 부호화를 제공하는 것이다. 이러한 방식으로, 복호기 측에서 (예를 들면, 단지 복호기 측에서만 수신기 장치가 하나의 스피커를 지니는 경우에) 기본 계층 정보만을 복호하거나 또는 스테레오 음성을 생성하도록 확장 계층 정보 뿐만 아니라 기본 계층 정보를 복호하도록 선택하는 것이 가능하다.

스케일러블 오디오 부호화의 문맥 내에서, "기본 계층" 및 "코어 계층"이 동의어로서 사용된다.

ISO/IEC 14496-3:2001(E), 서브파트(Subpart) 4에는 MPEG-4 오디오 표준의 일부가 언급되어 있으며, 효율적인 비트율 스케일러빌리티를 제공하기 위한 AAC(Advanced Audio Coding; 고급 오디오 부호화) 확장 계층 코덱과, MPEG-4 순응 코어 코덱, 또는 CELP(Code Excited Linear Prediction; 부호 여기 선형 예측) 형태의 외부 코어 코덱과의 결합이 제시되어 있다.

AMR-WB(Adaptive Multi-Rate Wideband; 적응성 다중 비율 광대역) 음성 코덱은 3세대 이동 단말기에서 사용되는 CELP 형태 코덱의 일례이며 3세대 파트너십 프로젝트(3rd Generation Partnership Project; 3GPP) TS 26.190 V5.0.0 (2001-03)에 언급되어 있다.

위에서 언급된 MPEG-4 오디오 표준에서 언급된 것과 같은 스케일러블 오디오 부호화 장치에서, 확장 계층 내의 주파수 선택 스위칭 유닛(frequency selective switching unit; FSSU)은 원래의 디지털 오디오 신호 또는 이전 계층(코어 계층)의 재구성된 출력 신호 및 상기 원래의 디지털 오디오 신호를 감산함으로써 획득되는 나머지 신호를 부호화하는 데 필요한 비트들의 양을 추정한다. 상기 FSSU는 항상 부호화를 위해 보다 적은 비트들을 필요로 하는 대안(alternative)을 선택한다. 오디오 프레임 내에서 각각의 개별 주파수 부대역에 대하여(즉, 상기 신호를 나타내는 스펙트럼 라인들의 각각 고정된 그룹에 대하여) 이러한 결정이 내려진다. 복호기 측 상에서의 재구성을 허용하기 위해, 상기 부호기는 2개의 대안들 중 어느 하나가 각각의 오디오 프레임 내의 각각의 부대역에 대하여 선택되었는 지를 나타내기 위한 FSS 제어 정보를 전송하여야 한다. 이러한 제어 정보에 따라, 확장 계층 복호기로부터의 출력 신호가 그후, 나머지 신호가 부호화된 그러한 부대역에서만 코어 계층 복호기의 출력에 가산된다.

그러나, 본 발명자들은 위에서 언급된 것과 같은 스케일러블 오디오 부호화 장치들과 관련된 다음과 같은 문제점을 알아내었다. 특히, 예컨대, 12 kbps - 24 kbps 범위의 낮고 적절한 비트율들에 대해, 때로는 양자화 오차가 지각할 수 없는 상태에 있는 방식으로 확장 신호를 부호화하는 데 이용가능한 충분한 비트들이 존재하지 않는다. 복호기 측에서, 그러한 오차들은 크랙(crack), 팝(pop) 등과 같은 소리를 내게 하고 결과적으로는 매우 혼란스럽게 한다. 사실상, 이같은 오차들은 심지어 코어 계층만의 출력 신호와 비교해 볼 때 지각된 품질에서의 열화를 초래시킬 수 있다.

종래 기술에서, 이러한 효과를 방지하기 위하여는, 가청 정보의 손상을 무릅쓰고 부호화된 주파수 범위를 제한하여야 하거나, 또는 확장 계층 코덱에 대한 비트율을 증가시켜야 하는 데, 이는 이용가능한 네트워크 대역폭의 견지에서 바람직하지 않거나 또는 심지어 가능하지 않은 선택일 수 있다.

본 발명은 제1 계층 및 상기 제1 계층의 확장에 적합한 제2 계층을 지니는 계층화된 데이터 스트림으로 오디오 신호들을 부호화하는 오디오 부호화 방법에 관한 것이다. 보다 구체적으로 기술하면, 본 발명은 원래의 디지털 오디오 신호가 제1 계층 신호를 획득하도록 부호화되고, 나머지 신호가 상기 원래의 디지털 오디오 신호 및 상기 제1 계층 신호 사이의 차를 반영하도록 생성되며, 상기 원래의 디지털 오디오 신호 또는 상기 나머지 신호가 제2 계층 신호로 부호화되도록 선택되는 오디오 부호화 방법에 관한 것이다.

도 1은 본 발명이 적용될 수 있게 하는 통신 시스템을 개략적으로 예시하는 도면이다.

도 2는 도 1의 요소들 중 일부를 개략적으로 예시하는 블록선도이다.

도 3은 바람직한 실시예에 따른 스케일러블 오디오 부호기를 개략적으로 예시하는 블록선도이다.

도 4는 복수개의 주파수 부대역들을 지니고 본 발명에 사용될 수 있는 예시적인 스펙트럼 오디오 프레임 포맷을 예시하는 도면이다.

도 5는 도 4에 도시된 오디오 프레임의 서로 다른 부대역들에 대한 부호화된 오디오 신호의 기점들을 나타내는 데 적합한 주파수 선택 스위칭(FSS) 어레이를 예시하는 도면이다.

도 6은 바람직한 실시예에 따라 최적의 비트율들 및 최소화된 양자화 오차들로 오디오 신호를 양자화하는 주요 단계들을 간단하게 예시하는 도면이다.

도 7은 도 6의 양자화를 수행하기 위한 변형된 AAC 율/왜곡 제어 루프를 예시하는 도면이다.

위에서 언급된 내용을 감안하여 볼 때, 본 발명의 목적은 위에서 언급된 문제를 해결하거나 또는 적어도 저감하고 또한 종래 기술에서 보다 훨씬 적거나 또는 동일한 비트율들로 개선된 음성 품질을 제공하는 것이다.

일반적으로, 위에서 언급된 목적은 첨부된 독립 청구항들에 따른 오디오 부호화 방법, 오디오 부호기, 오디오 트랜스부호기(transcoder), 오디오 복호기, 컴퓨터 프로그램 생성물, 집적 회로 및 이동 통신 네트워크용 국에 의해 달성된다.

간단히 말하면, 상기 목적은 종래 기술에서의 나머지 또는 원래의 신호에 대한 사용 선택에 부가해서, 확장 계층 신호를 부호화하기 위한 추가의 대안을 고려함으로써 달성되었다. 바람직한 실시예에서, 그러한 대안은 몇몇 주파수 부대역들에 대해 확장 계층의 출력으로서 상기 코어 계층의 출력 신호를 직접 수용하는 것으로 이루어져 있다. 이는 0으로, 또는 다른 유사한 낮은 엔트로피 신호로 나머지 신호를 대체하고, 해당 부대역에 대해 나머지 신호가 부호화되었다는 것을 앞서 언급된 FSS 제어 정보에서 표시함으로써 수행된다. 그 결과, 어떠한 추가의 오버헤드가 복호기 측에서 필요하지 않으며, 나머지 신호가 부호화되었고 해당하는 주파수 부대역들이 부호기에서 0들로 대체되었다는 것을 FSS 제어 정보가 나타내는 경우, 상기 복호기에서의 코어 계층의 출력 신호는 이같은 부대역들에 대하여 추가됨으로써 0들로 대체된다.

본 발명은 적어도 2가지 주된 이점을 제공한다. 첫째로, 본 발명은 양자화에 의해 야기된 오차가 이전 계층만을 사용함으로써 야기된 오차보다 결코 크지 않게 하는 데 사용될 수 있다. 그 외에도, 양자화에 의해 야기된 가청 오차들이 매우 성가시게 하기 때문에, 현재 계층의 부호기는 양자화 오차의 마스킹이 보장될 수 있게 하는 그러한 주파수 부대역들에서만 부호화하기 위해 0이 아닌 값들을 강제로 사용하게 될 수 있다. 더욱이, "대역 분할(band split)" 해결 방안이 이용가능하며, 이에 따라, 이전 계층의 출력 신호가 로 엔드(low end) 주파수 범위에 대해 완전히 수정되지 않은 상태에 있지만, 확장 계층 코덱만이 로 엔드 주파수 범위보다 높은 몇몇 추가의 고주파 성분들을 부호화한다. 이러한 해결 방안은 특히 음성을 포함하는 샘플들 및 음성 부호화를 양호하게 수행하는 코어 계층 코덱에 적용가능하다.

둘째로, 본 발명은 확장 계층 부호화 과정에서의 필요한 비트들의 개수를 감소시킨다. 0이 아닌 값들과 비교해 볼 때 단지 0만을 포함하는 하나의 주파수 부대역을 부호화하는 것이 대개는 심지어 최악의 경우라도 몇몇 비트들을 절약한다. 실험에서, 전체 비트율에서의 약 10%에 이르는 절약은 이러한 본 발명의 실시태양 때문에 달성될 수 있는 것으로 발견되었다. 이같은 두번째 이점은 확장 계층 코덱의 비트율을 감소시키는 데 사용될 수도 있고 동일 프레임에서 다른 주파수 대역들의 양자화 오차를 감소시키는 데 사용될 수도 있다.

위에서 언급된 것 외에도, 본 발명자들은 부호기 및 복호기가 효율적인 방식으로 0을 각각 부호화 및 복호하도록 설계된 경우, 오디오 신호들을 보다 빠르게 부호화 및 복호할 것이라고 생각한다.

본 발명의 다른 목적들, 특징들 및 이점들은 이하 상세한 설명, 첨부된 종속 청구항들과 아울러 도면들로부터 분명해질 것이다.

지금부터 본 발명의 바람직한 실시예가 첨부 도면을 참조하여 보다 상세하게 설명될 것이다.

도 1은 본 발명이 적용될 수 있게 하는 통신 시스템을 개략적으로 예시한 도면이다. 도 1의 시스템에서, 오디오 데이터는 다른 네트워크(110,120,130)들을 통해 여러 유닛(100,112,122,132)들 사이로 전달된다. 오디오 데이터는 음성, 음악 또는 기타 형태의 음향 정보를 나타낼 수 있다. 그러므로, 음성은 고정된 전화(132)의 사용자로부터 공중 전화 교환망(public switched telephone network; PSTN; 130) 및 이동 통신 네트워크(110)를 통해, 상기 이동 통신 네트워크(110)의 기지국(104)을 거쳐, 무선 통신 링크(102)를 통해 이동 전화(100)에 전달될 수 있고 역 또한 동일하다. 상기 이동 전화는 GSM, UMTS 또는 D-AMPS와 같은 임의의 공지된 이동 통신 시스템용의 상업적으로 입수가능한 임의의 장치일 수 있다.

더욱이, 데이터베이스(124) 내에 저장되는 디지털 방식으로 부호화된 음악은 서버(122)로부터 인터넷(120) 및 이동 통신 네트워크(110)를 통해 이동 전화(100)에나 또는 상기 이동 통신 네트워크(110)를 이용하는 다른 휴대용 장치(112)에 전달될 수 있다. 상기 휴대용 장치(112)는, 예를 들면, 개인 휴대 정보 단말기, GSM 또는 UMTS 인터페이스를 지닌 랩탑 컴퓨터, 스마트 헤드셋 또는 이같은 장치들용의 다른 액세서리 등일 수 있다. 데이터베이스(124) 내에 저장되어 있는 대신에, 상기 서버(122)에 의해 제공되는 오디오 데이터는 CD 또는 DVD와 같은 광학 저장 장치로부터 직접 판독될 수 있다. 더욱이, 서버(122)는 인터넷(120)을 통해 스트리밍 오디오 서비스들을 휴대용 장치(100,112)들에 제공하도록 무선 방송국에 접속될 수도 있고 무선 방송국 내에 포함될 수도 있다.

따라서, 도 1에 예시된 시스템은 단지 예시만을 위해 제공된 것이며, 오디오 데이터가 서로 다른 유닛들 간에 전송되는 다른 여러 상황들은 본 발명의 범위 내에서 가능하다.

도 2는 이동 단말기(250) 및 네트워크 국(200)을 포함하는 이동 오디오 데이터 전송 시스템을 총체적으로 보여준 블록선도이다. 상기 이동 단말기(250)는 예를 들면, 도 1의 이동 전화(100)를 나타낼 수 있지만, 상기 네트워크 국(200)은 도 1에서의 이동 통신 네트워크(110)의 기지국(104)을 나타낼 수 있다.

상기 이동 단말기(250)는 전송 채널(206)(예컨대, 상기 이동 전화(100) 및 도 1에서의 기지국(104) 간의 무선 링크(102))을 통해 상기 네트워크 국(200)으로 음성을 전송할 수 있다. 마이크로폰(252)은 상기 이동 단말기(250)의 사용자로부터음향 입력을 수신하고 상기 입력을 대응하는 아날로그 전기 신호로 변환하고, 이러한 전기 신호는 오디오 부호화/복호화 블록(260)에 공급된다. 이러한 블록은 오디오 부호기(262) 및 오디오 복호기(264)를 지니며, 이들은 함께 오디오 코덱(codec)을 형성한다. 아날로그 마이크로폰 신호는 필터링, 샘플링 및 디지털화된 다음에, 상기 오디오 부호기(262)가 상기 이동 통신 네트워크에 적용가능한 오디오 부호화를 수행한다. 상기 오디오 부호화/복호화 블록(260)의 출력은 채널 부호화/복호화 블록(270)에 공급되며, 상기 채널 부호화/복호화 블록(270)에서는, 채널 부호기(272)가 상기 이동 통신 네트워크에서의 적용가능한 표준에 따라 부호화된 오디오 신호 상에서의 채널 부호화를 수행한다.

상기 채널 부호화/복호화 블록(270)의 출력은 (도 2에 도시되지 않은) 안테나와 아울러, 무선 주파수(RF) 송신기(282; TX) 및 RF 수신기(284; RX)를 포함하는 RF 블록(280)에 공급된다. 당 기술 분야에 공지되어 있는 바와 같이, 상기 RF 블록(280)은 전력 증폭기들, 필터들, 국부 발진기들 및 믹서들과 같은 여러 회로들을 포함하고, 이들 모두는 상기 부호화된 오디오 신호를 반송파로 변조시키며, 이러한 반송파는 상기 이동 단말기(250)의 안테나로부터 전파하는 전자파(electromagnetic wave)들로서 방출된다.

상기 채널(206)을 통해 전송된 후에는, 전송된 RF 신호가, 내부에 포함된 그의 부호화된 오디오 데이터와 함께, 상기 네트워크 국(200)에서 RF 블록(230)에 의해 수신된다. 상기 이동 단말기(250) 내의 블록(280)과 마찬가지로, 상기 RF 블록(230)은 RF 송신기(232; TX)와 아울러 RF 수신기(234; RX)를 포함한다. 상기 수신기(234)는 위에서 언급된 바와 같이 상기 송신기(282)에 의해 수행되는 절차와는 본질적으로 반대인 방식으로 상기 수신된 RF 신호를 수신 및 복조하여 출력을 채널 부호화/복호화 블록(220)에 공급한다. 채널 복호기(224)는 상기 수신된 신호를 복호하여 출력을 오디오 부호화/복호화 블록(210)에 공급하는 데, 상기 오디오 부호화/복호화 블록(210)에서, 오디오 복호기(214)는 상기 이동 단말기(250)에서 상기 오디오 부호기(262)에 의해 원래 부호화된 오디오 데이터를 복호한다. 복호된 오디오 출력(204), 예를 들면, PCM 신호는 (시스템 내에 포함된 다른 한 이동 단말기로 전송되도록) 상기 이동 통신 네트워크(110) 내에 전송될 수도 있고, 변형적으로는 예컨대, PSTN(130) 또는 인터넷(120)에 전송될 수도 있다.

오디오 데이터가 반대 방향으로, 다시 말하면, 상기 네트워크 국(200)으로부터 상기 이동 단말기(250)로 전송될 경우, (PCM 신호와 같은) 오디오 입력 신호( 202)는 상기 오디오 부호화/복호화 블록(210)의 오디오 부호기(212)에 의해 예컨대 상기 서버(122) 또는 상기 고정된 전화(132)로부터 수신된다. 상기 오디오 입력 신호에 오디오 부호화를 적용한 후에는, 채널 부호화가 상기 채널 부호화/복호화 블록(220) 내의 채널 부호기(222)에 의해 수행된다. 그후, 상기 부호화된 오디오 신호는 상기 RF 블록(230)의 송신기(232)에 의해 반송파로 변조되고 상기 채널(206)을 통해 상기 이동 단말기(250) 내의 RF 블록(280)의 수신기(284)에 전송된다. 상기 수신기(284)의 출력은 상기 채널 부호화/복호화 블록(270)의 채널 복호기(274)에 공급되고, 내부에서 복호되며 상기 오디오 부호화/복호화 블록(260)의 오디오 복호기(264)에 전송된다. 상기 오디오 데이터는 상기 오디오 복호기(264)에 의해복호되고 궁극적으로는 아날로그 신호로 변환되며, 이러한 아날로그 신호는 필터링되어 스피커(254)에 공급되는 데, 이러한 스피커(254)는 상기 이동 단말기(250)의 사용자에 전송된 오디오 신호를 음향적으로 제공한다.

일반적으로 공지되어 있는 바와 같이, 상기 이동 단말기(250)의 오디오 부호화/복호화 블록(260), 채널 부호화/복호화 블록(270)과 아울러 RF 블록(280)의 동작은 관련 메모리(292)를 지니는 제어기(290)에 의해 제어된다. 마찬가지로, 상기 네트워크 국(200)의 오디오 부호화/복호화 블록(210), 채널 부호화/복호화 블록( 220)과 아울러 RF 블록(230)의 동작은 관련 메모리(242)를 지니는 제어기(240)에 의해 제어된다.

도 3은 도 2의 오디오 부호기(262)를 보다 상세하게 예시한 도면이다. 바람직한 실시예에 있어서, 상기 오디오 부호기(262)는 CELP 형태인 AMR-WB 코어 계층 코덱(304)과 아울러, 도 3의 요소들 대부분에 의해 형성되는 AAC 확장 계층 코덱을 포함한다. 바람직한 실시예의 확장 계층 코덱은 MPEG-4 AAC 코덱이지만, MPEG-2 AAC, ISO/MPEG 오디오 계층-3 (MP3), 또는, 예컨대, 이산 코사인 변환(discrete cosine transform) 또는 웨이브릿(wavelet) 변환으로 동작하는 기타의 주파수 변환 코덱이 본 발명의 범위에 속하는 확장 계층 코덱으로서 사용될 수 있다. 상기 코어 계층 코덱의 선택은 본 발명에 주요하지 않지만, 다른 여러 공지된 코덱들(유리하지만 반드시 필요하지 않은 CELP 코덱들)이, MP3, AAC, AMR-NB(Adaptive Multi-Rate Narrow Band; 적응성 다중 협대역) 또는 EFR(Enhanced Full Rate; 확장 완전 비율)을 포함하지만 이들에 국한되지 않은 AMR-WB CELP 코덱(304) 대신에 사용될수 있다.

CELP 코어 계층 부호화와 아울러, AAC 확장 계층 부호화를 포함하는 스케일러블 오디오 부호화는 당 기술 분야에 그 자체로 공지되어 있기 때문에, 본 명세서에서 상세한 설명이 필요하지 않을 것이다. 예를 들면, ISO/IEC 14496-3:2001(E), 서브파트 4를 참조하기 바란다. 더욱이, AMR-WB CELP 코덱은 3세대 파트너십 프로젝트; 3rd Generation Partnership Project; 3GPP) TS 26.190 V5.0.0 (2001-03)에 언급되어 있다. 그러므로, 명료성 때문에, 도 3은 AMR-WB CELP 코어 계층 및 AAC 확장 계층 오디오 부호기를 완벽하게 예시한 도면이 아니라, 오히려 본 발명의 핵심 실시태양을 예시하는 데 적합한 도면이다. 따라서, 몇몇 오디오 부호기 요소들이 예를 들면, 도 3에서 상기 AAC 확장 계층 코덱에 대해 생략되었다.

TNS(Temporal Noise Shaping; 일시적 잡음 세이핑). 부호화 잡음의 미세 시간 구조를 제어하도록 부호화될 오디오 신호의 일시적 엔벨로프(temporal envelope )를 편평하게 함.

LTP(Long Term Prediction; 장기 예측) 및예측. 예측을 통해 오디오 신호의 중복성(redundancy)을 감소시킴.

강도/결합(Intensity/Coupling). 스테레오 부호화 효율을 개선시킴.

PNS(Perceptual Noise Substitution; 지각 잡음 대체). 잡음과 같은 채널들의 효율적인 표현을 제공함.

M/S(중간/측 대역 스테레오). 스테레오 이미징 품질을 향상시키고, 어느 정도까지는, 부호화 효율을 향상시킴.

도면에 도시된 바와 같이, 상기 오디오 부호기는 PCM 신호, 또는, 본질적으로 당 기술 분야에 공지된 기타의 디지털 오디오 신호와 같은, 디지털 비-압축된 오디오 입력 신호(300)를 수신한다. 상기 오디오 신호는 예를 들면, 도 1에서의 음악 또는 무선 방송 스트리밍 서버(122)로부터 또는 상기 PSTN(13)으로부터 음성 신호 등으로서 공급될 수 있다. 변형적으로는, 상기 오디오 부호기는 예컨대, 마이크로폰으로부터 아날로그 전기 신호를 수신하고, 당업자라면 용이하게 알 수 있는 바와 같이, 종래의 A/D 변환을 통해 상기 아날로그 전기 신호를 디지털 신호로 변환시키기에 적합할 수 있다.

바람직한 실시예에 있어서, 오디오 부호화는 프레임 단위를 기초로 하여 수행되는 데, 이 경우 각각의 프레임은 10㎳의 배수와 같은, 사전에 결정된 시간 주기 내에 복수개의 오디오 샘플들을 포함한다. 인접 프레임들의 오디오 샘플들은 중첩하지 않을 수도 있고 부분적으로 중첩할 수도 있다.

입력 신호(300)는 지각 모델(330)에 공급되는 데, 이러한 목적은 차후에 설명될 것이다. 더욱이, 입력 신호(300)는 다음과 같은 방식으로 코어 계층 코덱( 304)에 공급된다. 먼저, 입력 신호(300)는 코어 계층 코덱(304)에 적합한 샘플링 속도로 참조 번호(302)에서 다운 샘플링된다. 그후, 코어 계층 부호화가 참조 번호(306)에서 수행되고, 코어 계층 출력(310)은 확장 계층 코덱으로부터의 출력(370)과 함께, 참조 번호(312)에서 다중화되어, 부호화된 오디오 출력 스트림(314)를 형성하고, 이는 그후 도 2의 참조 번호(222)에서 채널 부호화된다.

더욱이, 상기 코어 계층 코덱(304)은 참조 번호(308)에서 부호화된 코어 계층 신호를 복호하고 참조 번호(316)에서 복호된 결과를 업 샘플링하여, 코어 계층 부호화 및 복호화 이후의 신호의 표현인 재구성된 계층 신호(318)를 생성한다. 모든 지각 오디오 부호화와 같이, 코어 계층 코덱(304)은 오디오 데이터 내에 어느 정도의 왜곡을 도입시킨다. 그러므로, 상기 재구성된 코어 계층 신호(318)는 원래의 입력 신호(300)와 동일하지 않게 된다.

원래의 입력 신호(300)는 필터 뱅크(320)에서 주파수 영역의 대응하는 신호(324)로 변환된다. 마찬가지로, 재구성된 코어 계층 신호(318)는 필터 뱅크(322)에서 주파수 영역으로 변환된다. 비록 도 3에서 개별 요소들로서 예시되어 있지만, 상기 필터 뱅크(320,322)들은, MPEG-4 표준에 따라 수정된 이산 코사인 변환(modified discrete cosine transform; MDCT)을 적용하는, 하나의 공통 필터 뱅크로서 구현될 수 있다.

도 3에서 점선(328)으로 표시된 바와 같이, 상기 필터 뱅크(320,322)들은 필요할 경우 상기 필터 뱅크들의 윈도우 길이를 감소시키도록 지각 모델(330)로부터의 출력에 의해 선택적으로 제어될 수 있다. 상기 필터 뱅크(320,322)들에서의 MDCT 변환들은 복수개의 주파수 부대역들을 지니는 스펙트럼 오디오 프레임들을 생성한다. 도 4는 총 1024개의 MDCT 계수들을 갖는 49개의 부대역(401,402,...,449)들을 지니는 오디오 프레임(400)의 일례를 예시한 도면이다. 상기 부대역들은 부분적으로 중첩되어 있을 수도 있고 변형적으로는 중첩되어 있지 않을 수도 있다. 도 4에 도시된 바와 같이, 하부 주파수 부대역들은 부대역당 MDCT 계수들을 상부 주파수 부대역들보다 적게 지닌다. 변환된 원래의 신호(324)는 주파수 선택 스위칭 유닛(FSSU; 332)에 공급되며 또한 감산 유닛(334)에 공급되는 데, 상기 감산 유닛(334)은 또한 변환된 코어 계층 신호(326)를 수신한다. 상기 감산 유닛(334)은 코어 계층 신호(326)의 MDCT 계수들을 원래의 신호(324)의 MDCT 계수들로부터 감산함으로써 나머지 신호(336)를 생성한다. 상기 나머지 신호(336)는 상기 FSSU(332)에 공급되며 상기 코어 계층 코덱(304)에 의해 야기된 오류의 표시자이다.

상기 스펙트럼 오디오 프레임(400)의 각각의 부대역(401-449)에 대하여, 상기 FSSU(332)는 원래의 신호(324) 및 나머지 신호(336)의 지각 엔트로피(338,340)들을 각각 계산한다. 개별 부대역을 부호화하는 데 필요한 추정된 비트량에 비례하는 지각 엔트로피는,

와 같이 계산될 수 있는 데, 상기 식 중, 신호 에너지는 당 기술 분야에 공지된 여러 방식 중 어느 한 방식에 따라 계산될 수 있다. 상기 마스킹 한계는 상기 지각 모델(330)에 의해 제공되며 한계값을 나타내는 데, 상기 한계값 이하에서는 부대역의 내용이 사람의 귀에 들리지 않는다. 또한, 상기 마스킹 한계가 여러 방식으로 결정될 수 있는 데, 그 한가지 방식은 미국, 플로리다, 올랜도에서 1999년 10월 30일부터 11월 4일까지 개최된 7차 ACM 국제 멀티미디어 회의에서 왕, 와이., 빌레르모, 엠.이 발표한 논문 "오디오 압축을 위한 여기 레벨 기반 심리음향 모델"(Wang, Y., Vilermo, M. "An Excitation Level Based Psychoacoustic Model for Audio Compression", The 7th ACM International Multimedia Conference, October 30 toNovember 4, 1999 Orlando, Florida, USA)에 언급되어 있으며 본 명세서와 함께 참조로서 병합된다.

참조 번호(342)에서, 상기 FSSU(332)는 계산된 지각 엔트로피(338,340)들을 비교하고, 신호(324,336)들 중 어느 하나가 가장 낮은 지각 엔트로피를 지니는 지(결과적으로는, 동일한 품질로 부호화하는 데 적은 비트들을 필요로 함)를 결정하며 그 결과로 도 5에 도시된 FSS 어레이(500) 내의 개별 제어 정보 플래그(501-549)를 설정한다. 따라서, 상기 원래의 신호(324) 또는 상기 나머지 신호(336)는 서로 다른 부대역(401-449)들에 대하여 상기 FSSU(332)로부터 참조 번호(344,346)에서 각각 출력(360,362)으로서 선택된다. 오디오 프레임(400)의 각각의 부대역(401-449)은 각각의 개별 플래그(501-549)를 지니며, 이는 단일의 2진 비트로 표시되는 것이 바람직하다. 상기 FSS 어레이는 상기 부호화된 오디오 데이터(310,370)와 함께 다중화된 비트스트림(314)을 이루어 수신기 측에 전송되고, 수신된 부호화된 오디오 데이터를 복호할 경우 확장 계층 신호를 코어 계층 신호에 추가해야 할 지를 복호기에 나타낸다.

상기 FSSU(332)로부터의 출력은 각각의 개별 주파수 대역(401-449)에 대한 나머지 신호(336/362) 또는 원래의 신호(324/360)의 MDCT 계수들을 도 4에 도시된 포맷을 지니는 하나의 공통 프레임 어레이로 복사함으로써, 상기 FSS 어레이(500) 내의 비트 설정값들에 따라 어셈블될 수 있다. 이와 같이 어셈블된 출력은 일반 AAC 확장 계층 코덱에 해당하며 도 6 및 도 7을 참조하여 차후에 보다 상세하게 설명될 율/왜곡 제어 과정(348)에 공급된다.

위에서 언급된 내용에 추가하여 그리고 바람직한 실시예에 따라, 상기 나머지 신호(336)는 참조 번호(356)에 도시된 바와 같이, 현재의 주파수 대역(401-449)에 대한 마스킹 한계(350)와 병렬 관계로 비교된다. 상기 나머지 신호가 실제로 상기 마스킹 한계 이하에 있는 것으로 발견될 경우, 이것이 의미하는 것은 상기 코어 계층 코덱(304)에 의해 야기된 오류가 현재 주파수 대역에서 들리지 않는다는 것을 의미한다. 그러므로, 이같은 경우에는, 참조 번호(358,364)에 도시된 바와 같이, 이러한 특정 주파수 대역에서 확장 신호로서 단지 0들만을 부호화하기에 충분하다. 이러한 상태는 최상위 우선순위를 지니고 지각 엔트로피 계산의 출력(360/362)을 지배함으로써, 차후의 양자화 과정의 약간 빠른 계산으로 추가의 이점을 제공한다.

더욱이, 참조 번호(352,354)에서, 상기 마스킹 한계(350) 및 상기 나머지 신호(334) 간의 차이는 각각의 주파수 대역(401-449)에 대해 계산된다. 개선된 정확도에 대해, 이러한 계산용으로 MDCT 계수들보다는 오히려, 고속 푸리에 변환(Fast Fourier Transform; FFT)이 사용될 수 있다. 그 결과들은 모든 프레임(400)에 대해 누산되어 상기 코어 계층의 품질에 대한 측정, 즉, 상기 코어 계층에서 오디오 입력 신호(300)를 부호화할 경우 상기 코어 계층 코덱(304)이 양호하게 수행했는 지 아니면 불량하게 수행했는 지의 표시를 반영한다. 차후에 설명되겠지만, 상기 코어 계층 품질 측정은 각각의 프레임에 대해 곱 인자(multiplication factor; 도 7에서의 참조 번호(710) 참조)로서 사용되며, 이는 상기 나머지 신호와 비교하기 전에, 참조 번호(348)에서 차후의 양자화 과정에서의 양자화 오차에 적용된다.

바람직한 실시예에 따라 수정된 율/왜곡 제어 과정(348)이 지금부터 도 6 및도 7을 참조하여 설명될 것이다. 이는 앞서 언급된 ISO/IEC 14496-3:2001(E), 서브파트 4의 부록 4.B.10-11에 보다 상세하게 언급되어 있는 배율 인자 유닛, 양자화 유닛 및 무잡음 부호화 유닛을 포함하는 AAC에서의 전형적인 율/왜곡 제어 과정을 기초로 하고 있다.

상기 율/왜곡 제어 과정의 주 목적은 부호화될 오디오 신호의 양자화 및 무잡음 부호화를 제공하는 것이다. 바람직한 실시예에 의하면, 양자화 과정(600)은 2-단계 절차로 나뉘어지는 데, 먼저, 제1의 AAC 양자화 과정(610)이 모든 부대역들에 대해 수행된다. 이러한 제1의 AAC 양자화 과정은 양자화 오차가 나머지 신호를 고려하여 반복 평가되고, 이러한 평가에 응답하여, 몇몇의 부대역들에 대하여 나머지 신호를 0들로 대체하도록 결정될 수 있다는 면에서 일반적인 AAC 양자화와 비교하여 볼 때 수정된 것이다. 도 6에서 참조 번호(620)로 표시되어 있는 바와 같이, 단지 모든 부대역들이 처리된 경우에만 실제 대체가 생긴다. 마지막으로, 제2의 AAC 양자화 과정(630)은 모든 남아 있는 (즉, 0이 아닌) 부대역들에 대해 수행되지만, 이때에는 어떠한 0 대체들도 생기지 않는다.

도 7에는 AAC 양자화(610)의 수정된 율/왜곡 제어 과정이 보다 상세하게 예시되어 있다. 신호(702)는 상기 FSSU(332)로부터 공급되며 양자화될 현재의 주파 영역 샘플들을 표시한다. 참조 번호(706)에서, 상기 샘플들은 서로 다른 배율 인자들을 통해 서로 다른 방법으로 여러 번 양자화된다. 각각의 양자화 이후에, 양자화 오차가 참조 번호(708)에서 계산되고 참조 번호(718)에서 평가된다. 매번, 상기 과정은 양자화 잡음의 "컬러링(coloring)"을 개선하려고 시도한다. 다시 말하면, 상기 과정은 상기 양자화 잡음의 청취도를 최소화하는 방식으로 서로 다른 주파수 대역에 이용가능한 비트들을 분산하려고 시도한다. 이는 서로 다른 주파수 대역들에 대하여 배율 인자들을 변경시킴으로써 수행된다. 배율 인자들(각각의 대역에 대하여 하나의 배율 인자)은 양자화 스텝 크기를 제어함으로써, 각각의 주파수 대역에 서로 다른 잡음량을 할당한다. 각각의 양자화 라운드(quantization round) 이후에, 각각의 대역 내의 잡음이 검사되고, 상기 잡음이 가장 방해하고 있는 대역에서, 양자화 스텝 크기가 다음 라운드에서 감소된다.

그러나, 이러한 과정은 전역 최적(global optimum)을 반드시 적용할 필요가 없고, 결과적으로는, 몇몇 주파수 대역들에 대하여, 상기 코드 코덱이 양자화된 나머지보다 작은 오차를 생성할 수 있다. 이같은 대역들에 대하여는, 이때, 코어 코덱 신호만을 대신 사용하는 것이 유리하다. 여기서 유념하여야 할 점은 양자화 하에 있는 신호가 원래의 신호일 수도 있고 (원래의 신호에서 코어 코덱 신호가 감산된) 나머지 신호일 수도 있다는 것이다.

따라서, 도 7에서의 블록(710-720)들을 참조하여 이하의 동작이 수행된다. 각각의 양자화 라운드 이후에 단지 양자화 잡음만을 검사하기보다는 오히려, 단지 코어 코덱 출력(즉, 상기 FSSU(332)로부터 공급된 나머지 신호(704))만을 사용함으로써 초래되는 잡음 및 양자화 잡음의 최소값이 참조 번호(714)에서 검사된다. 상기 코어 코덱 출력이 충분히 양호할 경우, 이러한 주파수 대역에 대하여 양자화 스텝 크기를 감소시킬 필요가 없다. 상기 양자화 잡음 및 상기 코어 코덱 잡음 모두가 너무 높은 경우, 상기 스텝 크기가 감소된다.

상기 코어 코덱이 (음성 신호들 및 음성 코어 코덱에서 일어나는 것처럼) 대체로 양호할 경우, 훨씬 더 오차 계산을 수정하는 것이 유리하다. 상기 코어 코덱이 양호할 경우, 이는 도 3의 참조 번호(354)에서 획득되는 바와 같이, 코어 계층 품질 측정(710)의 값들에 반영된다. 이같은 경우에, 상기 코어 코덱 신호 내의 작은 오차들은 무시될 수 있으며, 비록 코어 코덱만을 사용함으로써 야기되는 오차들이 상기 양자화 오차들보다 약간 큰 경우라도, 상기 코어 코덱 신호는 여전히 단독으로 사용될 수 있다. 상기 코어 코덱 오차가 상기 양자화 오차보다 약간 큰 주파수 대역들 내에서 코어 코덱 신호를 사용하기 때문에, 비트들이 상기 코어 코덱 오차가 상기 양자화 오차보다 훨씬 큰 다른 대역들에서 사용하는 데 이용될 수 있다. 그러므로, 참조 번호(708)에서 생성된 양자화 오차는 참조 번호(714)에서의 코어 계층 잡음과 비교하기 전에, 도 7에서의 참조 번호(712)에서 코어 계층 품질 측정 기능(712)에 의해 승산된다. 이러한 기능은 예를 들면, 간단한 한계값을 기초로 할 수 있다. 상기 코어 코덱이 양호할 경우, 상기 코어 계층 품질 측정이 상기 한계값(예컨대, 0)보다 큰 상태에 있게 되고, 상기 양자화 오차는 4와 같은 사전에 결정된 상수에 의해 승산된다. 이와는 달리, 상기 양자화 오차는 참조 번호(714)에서의 비교에서 변경되지 않는 상태에 있게 된다.

결과적으로 형성된 양자화 루프는 다음과 같은 3가지 파괴 상태(breaking condition)를 지닌다:

1. 지각할 수 있는 어떠한 양자화 오차도 나타나지 않음,

2. 양자화 오차의 더 이상의 감소가 가능하지 않음, 및

3. 루프 실행들의 최대 한계값에 도달함.

여러 양자화 라운드들을 실행한 후에, 상기 파괴 상태들이 직면하게 된다. 몇몇 주파수 대역들에서, 양자화된 결과 대신에 코어 코덱 출력을 사용하는 것이 아직도 양호한 경우에, 양자화된 신호는 참조 번호(720)에 표시된 바와 같이, 이같은 대역들에서 0으로 대체된다. 그 외에도, FFS 정보는 나머지 신호가 사용되어야 한다는 것을 이같은 대역들이 나타내도록 표시됨(참조 번호(716) 참조)으로써, 사실상, 복호기가 오직 이같은 대역들에서만 코어 코덱 신호를 사용하게 한다.(최후의 경우에서는, 비트들이 재할당되지는 않지만, 이 방법은 비트 절약들을 초래시킨다.)

0들로 대체되는 주파수 대역들이 존재한다면, 양자화된 신호는 계산된 것보다 적은 비트들을 필요로 한다. 프레임들 간에 비트 버퍼를 사용함으로써, 이같은 비트들은 다음과 같은 프레임들이 사용되게 하는 상태에 놓여질 수 있다. 이같은 비트들은 또한 도 6에서 참조 번호(630)로 표시된 바와 같이, 양자화 루프를 다시 실행함으로써 현재 프레임의 양자화를 개선하는 데 사용될 수 있지만, 이러한 시간은 첫번째 시간, 즉, 도 6의 단계(610)에서 달성되고 위에서 언급된 바와 같이, 몇몇 주파수 대역들에서 가능한 0 대체들을 포함하는 최종 결과에서 시작된다. 제2의 양자화 과정(630) 동안, 상기 신호는 상기 제1의 양자화 과정(610)에 대해 설명한 오차 계산에서의 수정 없이 양자화된다. 다시 말하면, 단계(630)에서의 양자화는 MPEG-4 AAC 표준에 완전히 일치한다.

위에서 언급된 실시예에 대한 변형예로서, 어느 부대역들을 0들로 대체하여야 할 지의 여부를 결정하는 것와 아울러, 모든 부대역들에 대하여 제1의 양자화 과정을 수행하고, 관련된 부대역들을 0들로 대체한 다음에, 남아 있는 부대역들에 대하여 추가의 양자화 과정을 수행하기보다는 오히려, 하나의 공통 양자화 과정에서 남아 있는 (0이 아닌) 부대역들의 비트율들을 결정하는 것이 가능하다.

본 발명에 따른 오디오 부호기는 예컨대, GSM 또는 UMTS 네트워크의 오디오 트랜스부호기(transcoder) 내에 포함되는 것이 유리할 수 있다. GSM에서, 그같은 오디오 트랜스부호기는 트랜스부호기/율 적응기 유닛(transcoder/rate adapter unit; TRAU)이라 지칭되며 PSTN(130)으로부터의 64 kbps PCM 음성에서 완전 비율( full rate; FR) 또는 확장 완전 비율(enhanced full rate; EFR) 13-16 kbps 디지털화된 GSM 음성으로의 변환을 제공하고, 이의 역 또한 동일하다. 오디오 트랜스부호기는 기지국 부속-시스템(base station sub-system; BSS)의 일부인 기지국 송수신기(base transceiver station; BTS)에 배치될 수도 있고, 변형적으로는 이동 전화 교환국(mobile switching center; MSC)에 배치될 수도 있다.

위에서 언급된 스케일러블 오디오 부호화 기능은 집적 회로(ASIC)로서 또는 기타의 디지털 전자 장치들의 형태로서 실현될 수 있다. 변형 실시예에 있어서, 위에서 언급된 스케일러블 오디오 부호화 기능은 프로세서의 메모리, 유리하게는 도 2의 네트워크 국(200)/이동국(250)의 제어기(240/290) 및 그의 관련 메모리(242/ 292) 내에 직접 적재가능한 컴퓨터 프로그램 제품으로서 구현될 수 있다. 상기 컴퓨터 프로그램 제품은 상기 프로세서에 의해 실행될 경우 스케일러블 오디오 부호화 기능을 제공하기 위한 프로그램 코드를 포함한다.

본 발명에 따른 오디오 부호기는 또한 (도 1에서의 휴대용 장치(100,112)들과 같은) 네트워크 클라이언트들에 오디오 서비스들을 제공하기 위해 (도 1에서의 서버(122)와 같은) 네트워크 서버에 포함될 수 있다.

앞서 설명된 바와 같이, 위에서 언급된 본 발명의 실시예들에서는 복호기 측에 어떠한 변화도 이루어질 필요가 없는 데, 그 이유는 상기 복호기가 FSS 어레이( 500)로 표시되는 모든 부대역(401-449) 내에 이전의 계층 출력 신호의 MDCT 계수를 추가하기 때문이다. 그러나, 본 발명의 변형 실시예는 수정된 복호기를 포함하는 데, 이는 부호화된 제1 계층 신호 및 적어도 하나의 부호화된 제2 계층 신호를 포함하는 계층화된 데이터 스트림을 수신하기에 적합하다. 데이터 스트림은 복수개의 스펙트럼 부대역들을 지닌 부호화된 프레임들을 포함하지만, 이와는 달리 임의의 공지된 포맷을 지닐 수 있다. 상기 제1 계층 신호 및 상기 제2 계층 신호 모두를 결정한 후에, 상기 복호기가 상기 제2 계층 신호를 분석하고 각각의 부대역에 대한 지각 품질 측정을 결정한다. 그후, 상기 복호기는 지각 품질 측정이 사전에 결정된 기준을 충족하는 지의 여부를 결정하고, 만약 지각 품질 측정이 사전에 결정된 기준을 충족할 경우, 상기 제2 계층 신호는 복호된 출력 신호를 생성하도록 해당 부대역에 대하여 상기 제1 계층 신호와 결합된다. 만약 지각 품질 측정이 사전에 결정된 기준을 충족하지 못할 경우, 상기 복호된 출력 신호는 이러한 부대역에 대하여 상기 제1 계층 신호만으로부터 생성된다. 다시 말하면, 상기 제2 계층 신호가 0들로 대체된다.

지각 품질 측정은 수신된 계층화된 데이터 스트림, 다시 말하면, 부호기 측으로부터 발생된 수신된 계층화된 데이터 스트림 내에 포함될 수 있다. 변형적으로는, 상기 복호기가 복호된 제2 계층 신호에서, 스파이크들, 잡음 또는 예기치 않은 파형들과 같은 부자연스러운 오디오 성분들을 식별하고, 결과적으로는 복호된 제2 계층 신호가 왜곡되어 상기 복호된 제1 계층 신호에 추가되어선 안된다는 것을 결정함으로써 지각 품질 측정을 획득할 수 있다.

본 발명은 주로 바람직한 실시예를 참조하여 위에서 설명되었다. 그러나, 당업자라면 용이하게 알 수 있겠지만, 위에서 언급된 것들과는 다른 실시예들이 첨부된 특허 청구항들에 의해 정의되는 바와 같이 본 발명의 범위 내에서 등가적으로 가능하다.

여기서 강조되어야 할 점은 본 발명이 기본 계층 및 하나의 확장 계층에 국한되는 것이 아니라, 본 발명의 원리들이 또한 다중 계층 오디오 부호화 기술에서 2개의 연속된 확장 계층들에 적용될 수도 있다는 것이다. 그 외에도, 변형 실시예에 있어서, FSS 정보는 주파수 대역들 모두가 아니라, 몇몇의 주파수 대역들에 대해서만, 사용되어 수신기 측에 전송된다. 이는 확장 계층이 고주파들만의 개선을 위해 사용되는 상황에서 유용하다. 따라서, 저주파수들에 대하여 상기 FSS 정보를 전송할 필요가 없다. 물론, 수신기 측에는 이러한 사실이 디폴트(default)에 의해서나 또는 송신기 측과의 초기 핸드셰이킹(initial handshaking)을 통해 통지되어야 한다.

또한, 위에서 언급된 오디오 부호기, 복호기, 트랜스부호기, 컴퓨터 프로그램 및 집적 회로는 위에서 예시된 위치들에 국한되지 않는다. 예를 들면, 상기 오디오 부호기는 도 1에 도시된 오디오 송신 장치들 중 어느 하나에나 또는 명시적으로 본 명세서에 기재되어 있지도 본 도면에 도시되어 있지도 않은 다른 한 오디오 송신 장치에 배치될 수 있다.

Claims

제1 계층 및 상기 제1 계층의 확장에 적합한 제2 계층을 지니는 계층화된 데이터 스트림으로 오디오 신호들을 부호화하는 오디오 부호화 방법으로서,

원래의 디지털 오디오 신호(300)를 형성하는 단계; 제1 계층 신호(310)를 획득하도록 상기 원래의 디지털 오디오 신호(300)를 부호화하는 단계; 상기 원래의 디지털 오디오 신호 및 상기 제1 계층 신호 간의 차를 반영하도록 나머지 신호(336)를 생성하는 단계; 부호화를 위해 상기 원래의 디지털 오디오 신호 또는 상기 나머지 신호를 선택하는 단계; 및 상기 선택된 신호를 부호화함으로써 제2 계층 신호를 생성하는 단계를 포함하는 오디오 부호화 방법에 있어서,

상기 나머지 신호(336)를 평가하는 단계; 및

상기 평가의 결과가 주어진 기준에 충족할 경우에, 상기 원래의 신호 또는 상기 나머지 신호 대신에, 상기 제2 계층 신호로서 부호화될 사전에 결정된 낮은 엔트로피 신호를 선택하는 단계를 포함하는 것을 특징으로 하는 오디오 부호화 방법.
제1항에 있어서, 상기 원래의 디지털 오디오 신호(300) 및 상기 나머지 신호(336)는 복수개의 주파수 대역(401-449)들을 포함하고, 상기 나머지 신호를 평가하는 단계 및 상기 사전에 결정된 낮은 엔트로피 신호를 선택하는 단계는 상기 복수개의 주파수 대역들에 대하여 개별적으로 수행되는 것을 특징으로 하는 오디오 부호화 방법.
제1항 또는 제2항에 있어서, 상기 평가 단계는 상기 나머지 신호(336)를 마스킹 한계(350)와 비교하는 단계를 포함하고, 상기 기준은 상기 나머지 신호가 상기 마스킹 한계 이하에 있는 것으로 발견된다는 것을 포함하는 것을 특징으로 하는 오디오 부호화 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 평가 단계는 원래의 신호(324) 또는 상기 나머지 신호(336)의 양자화에 의해 야기된 오차를 계산하는 단계를 포함하는 것을 특징으로 하는 오디오 부호화 방법.
제4항에 있어서, 상기 기준은 양자화에 의해 야기된 오차가 지각할 수 있다는 것을 포함하는 것을 특징으로 하는 오디오 부호화 방법.
제4항 또는 제5항에 있어서, 상기 기준은 양자화에 의해 야기된 오차가 나머지 신호보다 크다는 것을 포함하는 것을 특징으로 하는 오디오 부호화 방법.
제2항 내지 제6항 중 어느 한 항에 있어서, 상기 오디오 부호화 방법은 상기 나머지 신호가 상기 사전에 결정된 균일 신호로 대체되지 않은, 상기 복수개의 주파수 대역(401-449)들 중 적어도 하나의 주파수 대역의 비트율을 증가시키는 추가의 단계를 포함하는 것을 특징으로 하는 오디오 부호화 방법.
제2항 내지 제6항 중 어느 한 항에 있어서, 상기 오디오 부호화 방법은 전체적으로 상기 복수개의 주파수 대역(401-449)들에 대하여 총체적인 비트율을 감소시키는 추가의 단계를 포함하는 것을 특징으로 하는 오디오 부호화 방법.
제2항 내지 제6항 중 어느 한 항에 있어서, 상기 오디오 부호화 방법은 상기 나머지 신호가 상기 사전에 결정된 균일 신호로 대체되지 않은, 상기 복수개의 주파수 대역(401-449)들 중 적어도 하나의 주파수 대역의 양자화 오차를 감소시키는 추가의 단계를 포함하는 것을 특징으로 하는 오디오 부호화 방법.
제1항 내지 제9항 중 어느 한 항에 있어서, 상기 사전에 결정된 낮은 엔트로피 신호는 일정한 낮은 진폭 신호인 것을 특징으로 하는 오디오 부호화 방법.
제10항에 있어서, 상기 사전에 결정된 낮은 엔트로피 신호는 0 진폭을 지니는 것을 특징으로 하는 오디오 부호화 방법.
제1항 내지 제11항 중 어느 한 항에 있어서, 상기 제1 계층 신호는 코어 계층 신호인 것을 특징으로 하는 오디오 부호화 방법.
제12항에 있어서, 상기 제1 계층 신호는 적응성 다중 비율 광대역(Adaptive Multi-Rate Wideband(AMR-WB) 부호화에 의해 생성되는 것을 특징으로 하는 오디오 부호화 방법.
제1항 내지 제13항 중 어느 한 항에 있어서, 상기 제2 계층 신호는 AAC( Advanced Audio Coding) 부호화에 의해 생성되는 것을 특징으로 하는 오디오 부호화 방법.
제2항 내지 제14항 중 어느 한 항에 있어서,

상기 복수개의 주파수 대역(401-449)들에 대하여, 개별 주파수 대역들에 대하여 상기 마스킹 한계(350)들 및 나머지 신호(336)들 간의 차들을 모두 합산함으로써, 코어 계층 품질 측정(710)을 누산하는 단계; 및

상기 나머지 신호(336)를 평가할 경우 상기 코어 계층 품질 측정을 사용하는 단계를 추가로 포함하는 것을 특징으로 하는 오디오 부호화 방법.
제1항 내지 제15항 중 어느 한 항에 있어서, 복호된 제1 계층 신호(310)를 획득하도록 상기 제1 계층 신호를 복호하는 추가의 단계를 포함하고, 상기 나머지 신호(336)가 상기 원래의 신호 및 상기 복호된 제1 계층 신호 간의 차를 반영하는 것을 특징으로 하는 오디오 부호화 방법.
프로세서(240)의 메모리(242) 내에 직접 적재가능한 컴퓨터 프로그램 생성물로서, 상기 프로세서에 의해 실행될 경우 청구항 제1항 내지 제16항 중 어느 한 항에 따른 방법을 수행하기 위한 프로그램 코드를 포함하는 컴퓨터 프로그램 생성물.
청구항 제1항 내지 제16항 중 어느 한 항에 따른 방법을 수행하기에 적합한 집적 회로.
제1 계층 및 상기 제1 계층의 확장에 적합한 제2 계층을 지니는 계층화된 데이터 스트림으로 오디오 신호들을 부호화하는 오디오 부호기로서,

원래의 디지털 오디오 신호(300)를 제1 계층 신호(310)로 부호화하는 것이 가능한 제1 부호기 요소(304); 상기 원래의 디지털 오디오 신호 및 상기 제1 계층 신호 사이의 차를 반영하도록 나머지 신호(336)를 생성하는 수단(334); 제2 계층 신호로서의 부호화를 위해 상기 원래의 디지털 오디오 신호 또는 상기 나머지 신호를 선택하기에 적합한 제1 선택기(332); 및 상기 선택된 신호를 부호화함으로써 상기 제2 계층 신호를 생성하는 것이 가능한 제2 부호기 요소를 포함하는 오디오 부호기에 있어서,

상기 나머지 신호(336)를 평가하고 상기 평가의 결과가 주어진 기준을 충족한다라는 표시를 제공하는 수단; 및

상기 평가 수단에 연결되어 있는 제2 선택기(356)로서, 상기 표시를 수신함에 따라, 상기 원래의 디지털 오디오 신호 또는 상기 나머지 신호 대신에 상기 제2부호기 요소에 의해 부호화될 사전에 결정된 낮은 엔트로피 신호를 선택하기에 적합한 제2 선택기(356)를 포함하는 것을 특징으로 하는 오디오 부호기.
제19항에 있어서, 상기 원래의 디지털 오디오 신호(300) 및 상기 나머지 신호(336)는 복수개의 주파수 대역(401-449)들을 포함하고, 상기 나머지 신호를 평가하는 수단 및 상기 제2 선택기(356)는 상기 복수개의 주파수 대역들 중 개별 주파수 대역들에 따라 동작하기에 적합한 것을 특징으로 하는 오디오 부호기.
제19항 또는 제20항에 있어서, 상기 제1 부호기 요소는 적응성 다중 비율 광대역(Adaptive Multi-Rate Wideband; AMR-WB) 부호기인 것을 특징으로 하는 오디오 부호기.
제19항 내지 제21항 중 어느 한 항에 있어서, 상기 제2 부호기 요소는 AAC( Advanced Audio Coding) 부호기인 것을 특징으로 하는 오디오 부호기.
오디오 복호기를 포함하는 오디오 트랜스부호기로서, 상기 오디오 복호기가 공지된 오디오 부호화 기법에 따라 부호화된 오디오 입력 신호를 수신 및 복호하기에 적합한 오디오 트랜스부호기에 있어서,

청구항 제19항 내지 제22항 중 어느 한 항에 따른 오디오 부호기를 포함하는 것을 특징으로 하는 오디오 트랜스부호기.
부호화된 제1 계층 신호 및 적어도 하나의 부호화된 제2 계층 신호를 포함하는 계층화된 데이터 스트림을 수신하는 수단, 상기 제1 계층 신호를 복호하는 것이 가능한 제1 복호기 요소, 및 상기 제2 계층 신호를 복호하는 것이 가능한 제2 복호기 요소를 포함하는 오디오 복호기에 있어서,

상기 제2 계층 신호에 대해 지각 품질 측정을 결정하는 수단;

상기 지각 품질 측정이 사전에 결정된 기준을 충족하는 지를 결정하는 수단;

상기 지각 품질 측정이 상기 기준을 충족할 경우, 복호된 출력 신호를 생성하도록 상기 제1 계층 신호와 상기 제2 계층 신호를 결합하는 수단; 및

상기 지각 품질 측정이 상기 기준을 충족하지 못할 경우, 상기 제1 계층 신호만으로부터 상기 복호된 출력 신호를 생성하는 수단을 포함하는 것을 특징으로 하는 오디오 복호기.
제24항에 있어서, 상기 지각 품질 측정은 상기 수신된 계층화된 데이터 스트림 내에 포함되어 있는 것을 특징으로 하는 오디오 복호기.
제24항에 있어서, 상기 오디오 복호기는 상기 복호된 제2 계층 신호 내에서 부자연스러운 오디오 성분들을 식별함으로써 상기 지각 품질 측정을 획득하는 수단을 더 포함하는 것을 특징으로 하는 오디오 복호기.
제26항에 있어서, 상기 부자연스러운 오디오 성분들은 스파이크들, 잡음 또는 예기치 않은 파형들 중 적어도 하나를 포함하는 것을 특징으로 하는 오디오 복호기.
청구항 제19항 내지 제22항 중 어느 한 항에 따른 오디오 부호기, 청구항 제24항에 따른 오디오 복호기, 및 청구항 제23항에 따른 오디오 트랜스부호기 중 적어도 하나를 포함하는 이동 통신 네트워크(110)용 국(200).
제28항에 있어서, 상기 국은 기지국(104)인 것을 특징으로 하는 이동 통신 네트워크(110)용 국(200).
제28항에 있어서, 상기 국은 이동 단말기(100,112)인 것을 특징으로 하는 이동 통신 네트워크(110)용 국(200).