KR20170076671A

KR20170076671A - 오디오 신호들의 인코딩 및 디코딩

Info

Publication number: KR20170076671A
Application number: KR1020177010760A
Authority: KR
Inventors: 크리스토퍼 크조엘링; 알렉산더 그로에쉘; 하이코 펀하겐; 홀거 호에리치; 커트 크라우스
Original assignee: 돌비 인터네셔널 에이비
Priority date: 2014-10-24
Filing date: 2015-10-23
Publication date: 2017-07-04
Anticipated expiration: 2035-10-23
Also published as: JP6728154B2; RU2708942C2; EP3210206A1; US20170243595A1; US10304471B2; EP3210206B1; RU2017117896A; JP2017532603A; BR112017007833A2; RU2017117896A3; ES2709274T3; CN107112024A; WO2016062869A1; CN107112024B; KR102474541B1

Abstract

오디오 신호(X)는 프레임들로 세그먼트화되는 비트스트림(B)에 의해 표현된다. 오디오 프로세싱 시스템(500)은 버퍼(510) 및 디코딩 섹션(520)을 포함한다. 버퍼는 N개의 각자의 프레임들(F₁, F₂,..., F_N)에 의해 반송되는 오디오 데이터의 세트들(D₁, D₂, ..., D_N)을 제1 프레임 레이트에 그리고 프레임 당 오디오 신호들의 샘플들의 제1 개수에 대응하는 오디오 데이터의 하나의 디코딩가능한 세트(D)로 결합시킨다. 프레임들은 프레임 당 오디오 신호의 오디오 샘플들 제2 개수에 대응하는 제2 프레임 레이트를 가진다. 샘플들의 제1 개수는 샘플들의 제2 개수의 N배이다. 디코딩 섹션은 오디오 신호의 샘플들의 제1 개수에 대응하는 스트라이드를 이용하여, 오디오 데이터의 디코딩가능한 세트에 기초하여, 적어도 신호 합성을 사용함으로써 오디오 데이터의 디코딩가능한 세트를 오디오 신호의 세그먼트로 디코딩한다.

Description

오디오 신호들의 인코딩 및 디코딩{ENCODING AND DECODING OF AUDIO SIGNALS}

관련 출원들에 대한 교차 참조

이 출원은, 그 전체가 참조로 본원에 포함되는, 2014년 10월 24일에 출원된 미국 특허 가출원 제62/068,187호를 우선권 주장한다.

본원에 개시되는 발명은 일반적으로 오디오 신호들의 인코딩 및 디코딩에 관한 것이며, 특히 높은 프레임 레이트들에 대한 유리한 스케일링 행태를 가지는 오디오 비트스트림 포맷에 관한 것이다.

오늘날 이용가능한 대부분의 상업용 애플리케이션들에서 사용되는 오디오 및 비디오 프레임 레이트들(또는 프레임 주파수들)은 레코딩 및 재생 소프트웨어 제품들, 하드웨어 컴포넌트들 양자에서 뿐만 아니라 통신 파티들 간에 오디오 및 비디오를 전송하기 위한 합의된 포맷들로, 그 자체를 나타내는(manifesting) 별도의 설정된 산업 표준들에 따른다. 오디오 프레임 레이트들은 통상적으로 상이한 코딩 알고리즘에 특정되고, 44.1 및 48 kHz와 같은 특정 오디오 샘플링 주파수들과 연관되는데, 이는 이들의 각자의 지리적 영역들에서의 비디오 프레임 레이트들 29.97 fps (NTSC) 및 25 fps (PAL)만큼 악명높으며(notorious); 추가적인 표준 비디오 프레임 레이트들은 23.98, 24 및 30 fps, 또는 더 일반화된 형태인 24, 25, 30 fps 및 (24, 25, 30) x 1000/1001 fps를 포함한다. 오디오 프레임 레이트들을 통합하거나 맞추려는(harmonize) 시도들은, 아날로그로부터 디지털 배포로의 시프트에도 불구하고 아직 성공적이지 못한데, 이는 오디오 프레임(예를 들어, 네트워크를 통한 전송에 적합한 패킷 또는 코딩 유닛)이 일반적으로 시청각 데이터 스트림에서의 정수 개수의 비디오 프레임들에 대응하지 않음을 내포한다.

시청각 데이터 스트림들을 동기화시킬 필요성은, 클록 시프트의 결과로서 또는 몇몇 스트림들이 방송국들에서 빈번하게 당면하는 상황에서, 서버에서의 공통 프로세싱, 편집 또는 스플라이싱(splicing)을 위해 상이한 소스들로부터 수신될 때 반복적으로 발생한다. (예를 들어, 스플라이싱을 위한 스트림들을 준비하기 위해) 스트림들 중 하나 내의 비디오 프레임들을 복제하거나 드롭(drop)시킴으로써 2개의 시청각 데이터 스트림들 사이의 비디오-대-비디오 동기성을 개선시키려는 시도는 통상적으로, 오디오 프레임들과 비디오 프레임들의 크기들이 매치하지 않는 경우 그 시청각 데이터 스트림 내의 오디오-대-비디오 래그(lag)를 초래한다. 일반적으로, 래그는 비디오 편집에 대응하는 오디오 프레임들이 삭제되거나 복제되더라도 - 적어도 일부 넌-제로 듀레이션 동안 - 지속한다.

더 많은 프로세싱을 감수하여, 동기화 동안 오디오를 프레임들로의 분할과는 독립적인 로우-레벨 포맷, 예를 들어, 베이스밴드 포맷으로 일시적으로 디코딩함으로써, 또는 오리지널 샘플링 주파수에서 분석되는(resolved) 펄스-코드 변조(PCM)에 의해, 처리할 더 큰 공간이 생성될 수 있다. 그러나 이러한 코딩은 특정 오디오 세그먼트들에 대한 메타데이터의 정확한 앵커링(anchoring)을 모호하게 하고, '완벽한' 중간 포맷으로 디코딩함으로써 교정될(remedied) 수 없는 정보 손실을 생성한다. 일 예로서, 동적 범위 제어(dynamic range control)(DRC)는 통상적으로 모드-종속적이고 장비-종속적이며, 따라서, 실제 재생 순간에만 소모될 수 있고; 오디오 패킷 전반에 걸친 DRC의 특성들을 관리하는 데이터 구조는 동기화가 발생된 이후 신뢰성 있게 복원하기 어렵다. 따라서, 이러한 타입의 과거 연속적인 디코딩, 동기화 및 인코딩 스테이지들의 메타데이터를 보존하는 작업은, 복잡성 제약들을 받는 경우 단순한 작업이 아니다.

2-채널 PCM 신호들을 반송하도록 설계되며 따라서 코딩된 형태로만 멀티-채널 콘텐츠를 핸들링할 수 있는 리거시 인프라 구조와 관련하여 훨씬 더 심각한 어려움들이 발생할 수 있다.

주어진 프레임 내의 데이터가 레코딩되고 코딩된 시청각 신호 내의 동일한 시간 세그먼트에 대응한다는 의미에서 오디오 및 비디오 데이터 프레임을 동기적으로 인코딩하는 것이 명백히 훨씬 더 편리하다. 이는 시청각 스트림의 프레임-방식 조작, 즉, 스트림 내의 하나 이상의 전체 독립적인 코딩 유닛의 복제 또는 거절 하에서 오디오-대-비디오 동기성을 보존한다. Dolby E™ 오디오 포맷에서 이용가능한 프레임 길이들은 비디오 프레임 길이들에 매치한다. 그러나, 448 kbps의 통상적인 비트 레이트를 가지고, 이러한 포맷은, 그것의 선호되는 저장 양식으로서 디지털 비디오 카세트와 같은 하드 미디어를 이용하여, 주로 전문 제조의 목적으로 설계되었다.

출원인의 공동-계류 중인, 아직 공개되지 않은 출원 PCT/EP2014/056848호에서, 프레임-동기식 시청각 포맷의 일부로서의 배포 목적으로 적합한 오디오 포맷과 호환가능한 시스템들 및 방법들이 제안된다.

높은 프레임 레이트들에 대한 개선된 스케일링 행태를 가지는, 프레임-동기식 시청각 포맷의 일부로서의 배포 목적으로 적합한 대안적인 오디오 포맷에 대한 필요성이 존재한다. 이와 함께 사용하기에 적합한 코딩 및 디코딩 장비에 대한 필요성이 또한 존재한다.

다음에서, 예시적인 실시예들이 더 상세하게 그리고 첨부 도면들을 참조하여 기술될 것이다.
도 1은 예시적인 실시예에 따른, 오디오 신호를 오디오 비트스트림으로서 나타내기 위한 오디오 프로세싱 시스템의 일반화된 블록도이다.
도 2는 예시적인 실시예에 따른, 오디오 신호를 오디오 비트스트림으로서 나타내는 방법의 플로우 차트이다.
도 3 및 4는 예시적인 실시예들에 따른, 도 1에 도시된 오디오 프로세싱 시스템에 의해 제공되는 오디오 비트스트림의 예들을 예시한다.
도 5는 예시적인 실시예에 따른, 비트스트림에 의해 표현되는 오디오 신호를 재구성하기 위한 오디오 프로세싱 시스템의 일반화된 블록도이다.
도 6은 예시적인 실시예에 따른, 비트스트림에 의해 표현되는 오디오 신호를 재구성하는 방법의 플로우 차트이다.
도 7은 예시적인 실시예에 따른, 오디오 신호를 나타내는 오디오 비트스트림을 트랜스코딩하기 위한 오디오 프로세싱 시스템의 일반화된 블록도이다.
모든 도면들은 개략적이며, 발명을 설명하기 위해 필요한 파트들만을 일반적으로 도시하는 반면, 다른 파트들은 생략될 수 있거나 시사되기만 할 수 있다.

본원에서 사용되는 바와 같이, 오디오 신호는 독립형 오디오 신호, 시청각 신호 또는 멀티미디어 신호의 오디오 파트, 또는 메타데이터와 결합되는(in combination with) 이들 중 임의의 것일 수 있다.

I. 개요 - 인코더 측

제1 양태에 따르면, 예시적인 실시예들은 오디오 비트스트림으로서 오디오 신호를 나타내기 위한 오디오 프로세싱 시스템들, 방법들 및 컴퓨터 프로그램 제품들을 제안한다. 제안된 시스템들, 방법들 및 컴퓨터 프로그램 제품들은, 제1 양태에 따라, 일반적으로 동일한 특징들 및 장점들을 공유할 수 있다.

예시적인 실시예들에 따르면, 오디오 신호를 오디오 비트스트림으로서 나타내는 방법이 제공된다. 방법은: 본원에서 기본 스트라이드(basic stride)라 지칭되는 오디오 신호의 샘플들의 제1 개수에 대응하는 스트라이드를 이용하여, 오디오 신호의 세그먼트 상에서, 적어도 신호 분석을 수행함으로써 오디오 신호의 세그먼트를 오디오 데이터의 하나의 디코딩가능한 세트로서 인코딩하는 것을 포함한다. 오디오 데이터의 디코딩가능한 세트는 제1 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응한다. 방법은: 오디오 데이터의 디코딩가능한 세트를 N개 부분들로 나누는 것 ― 여기서 N ≥ 2임 ― ; 및 각자의 부분들을 반송하는 N개의 비트스트림 프레임들을 형성하는 것을 포함한다. 비트스트림 프레임들은 비트스트림 프레임 당 오디오 신호의 샘플들의 제2 개수에 대응하는 제2 프레임 레이트를 가진다. 샘플들의 제1 개수는 샘플들의 제2 개수의 N배이다. 방법은 형성된 N개의 비트스트림 프레임들을 포함하는 비트스트림 프레임들로 세그먼트화되는 비트스트림을 출력하는 것을 포함한다.

시청각 데이터 스트림에서, 오디오 프레임들 및 비디오 프레임들은 동기화될 수 있고, 예를 들어, 클록 드리프트의 스플라이싱 또는 보상과 관련하여 프레임 드롭 또는 프레임 복제를 용이하게 하기 위해, 동일한 듀레이션일 수 있다. 더 높은 비디오 프레임 레이트들에 대한 시청각 데이터 스트림에서 오디오-비디오 동기성을 유지하기 위해, 오디오 프레임 레이트가 또한 증가될 수 있다. 그러나, 예측성 코딩이 통상적으로 비디오 프레임 레이트를 증가시키는 것의 비트 레이트 비용을 감소시키기 위해 사용되는 반면, 예측성 코딩은 오디오 콘텐츠가 더 짧은 시간 스케일 상에서 가변적일 수 있음에 따라 오디오 프레임들에 대해 덜 효율적일 수 있고, 비디오 콘텐츠보다는 연속적 프레임들 사이의 더 낮은 상관도와 연관될 수 있다. 이 개시내용의 목적들을 위해, 다른 방식으로 언급되지 않는 한, 비디오 프레임은 하나의 완전한 스크린 이미지(예를 들어, 시퀀스 내의 정지 이미지)에 대응하는 반면, 오디오 프레임은 원칙적으로는 임의의 듀레이션을 가지는 오디오 신호 세그먼트에 대응하는 오디오 데이터를 반송할 수 있다.

제1(더 낮은) 프레임 레이트와 연관된 오디오 데이터의 디코딩가능한 세트를 반송하는 것과 함께, 제2(더 높은) 프레임 레이트의 N개의 비트스트림 프레임들을 제공하기 위한 본 방법의 능력은, 더 높은 비디오 프레임 레이트들에 대해, 그러나 비트레이트 소모에서의 대응하는 증가 없이, 시청각 동기성을 유지하는 것을 허용한다. 더 정확하게는, 본 방법에 따라 증가한 프레임 레이트에서 동작하는 것은 통상적으로 이러한 더 높은 프레임 레이트들을 가지는 규칙적인 오디오 프레임들을 사용할 때 요구되는 것보다 더 낮은 비트레이트를 초래한다. 따라서 본 방법은 예를 들어, 시청각 데이터 스트림들의 스플라이싱을 용이하게 하고 그리고/또는 클록 드리프트의 보상을 용이하게 할 수 있다.

실제로, 오디오 데이터의 디코딩가능한 세트는 제1(더 낮은) 프레임 레이트의 규칙적 오디오 프레임에 의해 반송되는 데이터의 양에 대응할 수 있고, N개의 비트스트림 프레임들이 프레임 포맷(하기 참조)에 따르는데 필요한 추가적인 넌-페이로드 데이터를 포함할 필요가 있더라도, 인코더 측으로부터 디코더 측으로 전송되는 데이터의 전체 양은 제2(더 높은) 프레임 레이트를 가지는 규칙적 오디오 프레임들을 사용하는 것에 비해 감소할 수 있다. 특히, 더 짧은 스트라이드(예를 들어, 오디오 신호의 샘플들의 제2 개수에 대응함)를 이용하는 것 대신, 기본 스트라이드를 이용하여 신호 분석을 수행하는 것은 디코더 측 상에서 다시 오디오 신호를 합성하는데 요구되는 데이터의 양을 감소시키고, 이에 의해 디코더 측으로 데이터를 전송하기 위해 요구되는 비트레이트를 감소시킨다.

오디오 비트스트림을 다른 비트스트림들과 스플라이싱시키는 것은, 예를 들어, 비트스트림 프레임들에 의해 반송되는 오디오 데이터와는 무관하게 수행될 수 있다. 다시 말해, 스플라이싱을 수행하는 디바이스 또는 유닛은, 모든 N개의 비트스트림 프레임들이 오디오 신호의 세그먼트를 재구성하기 위해 요구될 수 있으며, 예를 들어, 이들이 독립적으로 디코딩가능한 것처럼 비트스트림 프레임들을 처리할 수 있다는 사실을 인식할 필요가 없다. 스플라이싱된 비트스트림 내의 잠재적으로 유실되는 비트스트림 프레임들은 예를 들어, 성공적인 디코딩을 허용할 수 없는 이러한 비트스트림 프레임들을 숨김으로써 디코더 측 상에서 처리될 수 있다.

오디오 데이터의 디코딩가능한 세트는 오디오 신호의 세그먼트를 디코딩하는데 충분한 오디오 데이터의 세트를 의미한다. 오디오 데이터의 디코딩가능한 세트는 오디오 신호의 세그먼트의 디코딩이 오디오 신호의 세그먼트와 관련된 추가적인 데이터 없이 수행될 수 있다는 의미에서 완전할 수 있다(반면, 오버헤드 비트들, 헤더들 또는 프리-앰블들과 같은 넌-페이로드 데이터는 예를 들어 디코더 측 상에서 오디오 데이터의 디코딩가능한 세트를 식별하기 위해 사용될 수 있다).

오디오 신호의 샘플들의 제1 개수에 대응하는 기본 스트라이드를 이용한 신호 분석을 수행하는 것은, 신호 분석이 오디오 신호의 특정 개수의 샘플들의 분석 윈도우 내에서 수행되며, 오디오 신호의 다음 세그먼트가 인코딩될 때, 분석 윈도우가 기본 스트라이드와 동일한 샘플들의 개수만큼 시프트됨을 의미한다. 신호 분석은, 예를 들어, 오버랩하는 분석 윈도우들을 이용하여 수행될 수 있고, 어느 경우든, 분석 윈도우는 기본 스트라이드보다 더 길 수 있다. 또다른 예에서, 분석 윈도우의 길이는 기본 스트라이드와 일치할 수 있다.

오디오 신호가 멀티채널 신호인 경우, 기본 스트라이드가, 각자의 채널들에 대한 샘플들의 합산으로서보다는, 매 채널-기반으로 오디오 신호의 샘플들의 제1 개수에 대응할 수 있다는 것이 이해될 것이다.

오디오 신호의 세그먼트를 인코딩하는 단계는, 예를 들어, 다수의 하위-단계들을 포함할 수 있고, 그 중 하나 이상은 기본 스트라이드를 이용한 신호 분석을 포함할 수 있다.

오디오 데이터의 디코딩가능한 세트는 오디오 신호의 샘플들의 제1 개수에 대응하는 오디오 신호의 세그먼트들을 나타낼 수 있다. 오디오 데이터의 디코딩가능한 세트는 제1 프레임 레이트를 가지는 프레임에 대응할 수 있다.

오디오 데이터의 디코딩가능한 세트를 나누는 것은, 예를 들어, 데이터의 디코딩가능한 세트를, 예를 들어, 적어도 대략 동일한 개수의 비트들을 포함하는 적어도 대략 균등한 크기의 부분들로 분할하는 것을 포함할 수 있다.

N개 부분들 각각은, 다른 부분들에 액세스하지 않고, 한 부분이 오디오 신호의 세그먼트(또는 서브-세그먼트)를 디코딩하기에 불충분할 수 있다는 의미에서, 오디오 데이터의 불완전한 세트일 수 있다.

N개의 비트스트림 프레임들 각각에 대해, N개의 비트스트림 프레임들은, 예를 들어, 그 비트스트림 프레임을 포함하고, 그로부터 오디오 데이터가 결합되어 그 비트스트림 프레임에 의해 반송되는 데이터에 의해 표현되는 오디오 신호의 세그먼트를 디코딩할 수 있는, 비트스트림 프레임들의 최소의 콜렉션일 수 있다. 다시 말해, N개의 비트스트림 프레임들은 오디오 데이터의 동일한 디코딩가능한 세트에 원래 포함된 데이터를 반송하는 것들일 수 있다.

비트스트림 프레임들은, N개의 비트스트림들이 제1(더 낮은) 프레임 레이트에 대응하는 오디오 데이터의 디코딩가능한 세트와 동일한 오디오 신호의 세그먼트를 함께 표현한다는 의미에서, 제2(더 높은) 프레임 레이트에 대응한다.

유사하게, 비트스트림 프레임들은, N개의 비트스트림들이 또한 오디오 데이터의 디코딩가능한 세트에 의해 표현되는 제1(더 높은) 개수의 샘플들을 함께 표현한다는 의미에서, 비트스트림 프레임 당 제2(더 작은) 개수의 샘플들에 대응한다.

비트스트림 프레임들이, 예를 들어, 오디오 신호의 세그먼트의 스펙트럼 표현의 각자의 부분들을 반송할 수 있고, 오디오 신호의 제2(더 작은) 개수의 샘플들과 비트스트림 프레임들 중 하나 사이에 연결이 존재하지 않을 수 있다는 것이 이해될 것이다.

N개의 비트스트림 프레임들은, 예를 들어, 비트스트림 프레임들이 기초 스트림 레벨 상에서 예를 들어, 동영상 전문가 그룹(Moving Picture Experts Group)(MPEG) 기초 스트림들에 의해 제공하는 것과 같은, 오디오 포맷에 따르는 페이로드들 및 메타데이터를 반송할 수 있다는 의미에서, 오디오 포맷에 따를 수 있다. 이러한 의미에서 오디오 포맷에 따르지만, 비트스트림 프레임들에 의해 반송되는 메타데이터 중 일부 및 페이로드가, 예를 들어, 종래 기술에 공지된 오디오 프레임들에서와는 상이한 타입 및/또는 포맷일 수 있다는 것이 이해될 것이다.

N개의 부분들을 반송하는 N개의 비트스트림 프레임들은 예를 들어, 비트스트림 내의 N개의 연속적인 비트스트림 프레임들로서 출력될 수 있다.

예시적인 실시예에서, 신호 분석을 수행하는 것은, 기본 스트라이드를 이용하여: 스펙트럼 분석; 에너지 분석; 및/또는 엔트로피 분석을 수행하는 것을 포함할 수 있다. 기본 스트라이드를 이용한 스펙트럼 분석은 예를 들어, 오디오 신호의 세그먼트를 시간 도메인으로부터 주파수 도메인으로 변환시키기 위해 수행될 수 있다. 기본 스트라이드를 이용한 에너지 분석은 예를 들어, 에너지-기반 코딩 기법을 이용하여 오디오 신호의 세그먼트를 인코딩하기 위해 수행될 수 있다. 기본 스트라이드를 이용한 엔트로피 분석은 예를 들어, 엔트로피-기반 코딩 기법을 이용하여 오디오 신호를 인코딩하기 위해 수행될 수 있다.

예시적인 실시예에서, 오디오 신호의 세그먼트를 인코딩하는 것은: 변환 스트라이드로서 기본 스트라이드를 가지는 윈도우화된 변환을 적용하는 것; 및/또는 다운믹스 신호 및 다운믹스 신호로부터 오디오 신호의 파라메트릭 재구성을 위한 파라미터들을 계산하는 것을 포함할 수 있고, 파라미터들은 신호 분석에 기초하여 계산된다.

윈도우화된 변환은 예를 들어, 오버랩하는 변환 윈도우들을 사용하는, 예를 들어, 수정된 이산 코사인 변환(Modified Discrete Cosine Transform)(MDCT)과 같은 조화 변환(harmonic transform)일 수 있다.

오디오 신호는, 예를 들어 멀티채널 오디오 신호일 수 있고, 다운믹스 신호는, 예를 들어, 멀티채널 신호의 채널들의 선형 조합으로서 획득되는, 멀티채널 신호보다 더 적은 채널들을 이용하는 신호일 수 있다. 다운믹스 신호는, 예를 들어, 멀티채널 오디오 신호의 모노 또는 스테레오 다운믹스일 수 있다.

예시적인 실시예에서, 방법은: 부분들을 반송하는 N개의 비트스트림 프레임들 중 적어도 하나에 메타데이터를 포함시키는 것을 포함할 수 있다. 메타데이터는 오디오 데이터의 완전한 디코딩가능한 세트가 N개의 비트스트림 프레임들에 의해 반송되는 부분들로부터 획득가능함을 표시할 수 있다.

N개의 비트스트림 프레임들 각각은 예를 들어, 오디오 데이터의 디코딩가능한 세트를 획득할 수 있는 N개의 비트스트림 프레임들의 그룹에 속하는 것들로서 이들을 식별하는 메타데이터를 반송할 수 있다. 또다른 예에서, 비트스트림 프레임들 중 하나는 N개의 비트스트림들 모두를 식별하는 메타데이터를 반송할 수 있는 반면, 그룹의 다른 N-1개의 비트스트림 프레임들은 이러한 메타데이터를 반드시 반송하지는 않는다. 비트스트림은 예를 들어, 이러한 메타데이터를 반송하지 않는 다른 비트스트림 프레임들을 포함할 수 있다.

메타데이터는 N개의 비트스트림 프레임들이 서로에 대해 미리 결정되지 않은 위치들에 위치되도록 할 수 있다. 메타데이터는 N개의 비트스트림 프레임들 사이의 다른 비트스트림 프레임들을 허용할 수 있다. 메타데이터는 N개의 비트스트림 프레임들 중 하나 이상이, 예를 들어, 스플라이싱 또는 프레임 드롭으로 인해, 비트스트림에서 언제 유실되는지를 검출하는 것을 허용할 수 있다.

예시적인 실시예에서, 오디오 비트스트림은 비디오 프레임들의 스트림과 연관될수 있다. 방법은: 특정 타입의 비디오 프레임을 포함하는 비디오 프레임들의 스트림에 응답하여, 오디오 신호의 샘플들의 제2 개수에 대응하는 단축된 스트라이드를 이용하여, 비디오 프레임에 시간상으로 관련된 오디오 신호의 세그먼트 상에서, 적어도 신호 분석을 수행함으로써 비디오 프레임에 시간상으로 관련된 오디오 신호의 세그먼트를 오디오 데이터의 제2 디코딩가능한 세트로서 인코딩하는 것을 더 포함할 수 있다. 오디오 데이터의 제2 디코딩가능한 세트는 제2 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 제2 개수에 대응할 수 있다. 방법은 비트스트림에 오디오 데이터의 제2 디코딩가능한 세트를 반송하는 비트스트림 프레임을 포함시키는 것을 포함할 수 있다.

비디오 프레임들의 스트림들은 예를 들어, 디코더 측 상에서 비디오 프레임들의 스플라이싱된 시퀀스의 디코딩을 용이하게 하기 위한, 독립적으로 코딩된 비디오 프레임들과 같은, 특정 타입의 프레임들에 인접한 포인트들에서 스플라이싱될 수 있다. 제2 프레임 레이트에 대응하는 오디오 데이터의 제2 디코딩가능한 세트로서 상기 특정 타입의 비디오 프레임에 시간상으로 관련된 오디오 신호의 세그먼트를 인코딩하는 방식, 및 비트스트림에 오디오 데이터의 제2 디코딩가능한 세트를 반송하는 비트스트림 프레임을 포함시키는 방식은, 디코더 측 상에서 오디오 신호의 해당 세그먼트의 독립적 디코딩을 허용한다. 따라서 본 예시적인 실시예는, 예를 들어, 비디오 프레임들의 스트림 및 오디오 비트스트림을 포함하는 데이터의 시청각 스트림의 하나 이상의 다른 시청각 데이터 스트림들과의 스플라이싱의 결과로서, 오디오 비트스트림으로부터의 선행하는 또는 후속하는 비트스트림 프레임이 디코더 측 상에서 유실될 수 있는 경우, 오디오 신호의 해당 세그먼트의 디코딩을 용이하게 할 수 있다.

특정 타입의 비디오 프레임에 시간상으로 관련된 오디오 신호의 세그먼트는 예를 들어, 특정 타입의 비디오 프레임이 디스플레이 상에서 재생되도록 의도되는 시점에 대응할 수 있다.

비디오 프레임들의 스트림은 예를 들어, 독립적으로 코딩된 프레임들 및 예측된 코딩된 프레임들(인접한 프레임들에 대한 단방향성 또는 양방향성 종속성을 가짐)을 포함할 수 있고, 특정 타입의 비디오 프레임은 예를 들어 독립적으로 코디오딘 비디오 프레임일 수 있다.

방법은 예를 들어, 비디오 프레임들의 스트림 내의 특정 타입의 비디오 프레임의 존재를 검출하는 것을 포함할 수 있다. 특정 타입의 비디오 프레임의 존재는 예를 들어, 비디오 인코더로부터의 시그널링을 통해 검출될 수 있다.

단축된 스트라이드를 이용한 신호 분석을 수행하는 것은 예를 들어, 단축된 스트라이드를 이용하여: 스펙트럼 분석; 에너지 분석; 및/또는 엔트로피 분석을 수행하는 것을 포함할 수 있다.

특정 타입의 비디오 프레임에 시간상으로 관련된 오디오 신호의 세그먼트를 인코딩하는 것은 예를 들어: 변환 스트라이드로서 단축된 스트라이드를 가지는 윈도우화된 변환을 적용하는 것; 및/또는 다운믹스 신호 및 다운믹스 신호로부터 오디오 신호의 파라메트릭 재구성을 위한 파라미터들을 계산하는 것을 포함할 수 있고, 파라미터들은 단축된 스트라이드를 이용한 신호 분석에 기초하여 계산된다.

예시적인 실시예에서, 방법은: 특정 타입의 비디오 프레임을 포함하는 비디오 프레임들의 스트림에 응답하여, N개의 연속적인 세그먼트들 각각에 대해, 적어도 단축된 스트라이드를 이용한 신호 분석을 적용함으로써 오디오 데이터의 각자의 디코딩가능한 세트들로서 오디오 신호의 N개의 연속적인 세그먼트들을 인코딩하는 것을 포함할 수 있다. 비디오 프레임에 시간상으로 관련된 세그먼트는 N개의 연속적인 세그먼트들 중 하나일 수 있다. 방법은: 비트스트림에 N개의 연속적인 세그먼트들과 연관된 오디오 데이터의 각자의 디코딩가능한 세트들을 반송하는 비트스트림 프레임들을 포함시키는 것을 포함할 수 있다.

비트스트림은 예를 들어 함께 디코딩가능한 오디오 데이터의 각자의 부분들을 반송하는 N개의 연속적인 비트스트림 프레임들의 그룹들을 포함할 수 있다. 따라서, 디코더 측 상에서, 비트스트림의 N개의 비트스트림 프레임들은 한꺼번에 디코딩될 수 있다. 본 예시적인 실시예에서, N개의 비트스트림 프레임들의 그룹들의 구조는 또한, 상기 특정 타입의 비디오 프레임이, 예를 들어, 또한 비트스트림 내의 N개의 연속적인 비트스트림 프레임들의 그룹들의 위치들에 대한 상기 특정 타입의 비디오 프레임의 비티오 프레임들의 스트림 내의 위치와는 무관하게, 비디오 프레임들의 연관된 스트림에서 발생할 때 보존될 수 있다.

예시적인 실시예들에 따르면, 오디오 비트스트림에 의해 오디오 신호를 나타내기 위한 오디오 프로세싱 시스템이 제공된다. 오디오 프로세싱 시스템은: 오디오 신호의 샘플들의 제1 개수에 대응하는 기본 스트라이드를 이용하여, 오디오 신호의 세그먼트 상에서, 적어도 신호 분석을 수행함으로써 오디오 신호의 세그먼트를 오디오 데이터의 하나의 디코딩가능한 세트로서 인코딩하도록 구성되는 인코딩 섹션을 포함한다. 오디오 데이터의 디코딩가능한 세트는 제1 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응한다. 오디오 프로세싱 시스템은: 오디오 데이터의 디코딩가능한 세트를 N개 부분들로 나누고 ― 여기서 N ≥ 2임 ―; 각자의 부분들을 반송하는 N개의 비트스트림 프레임들을 형성하도록 구성되는 리프레이밍 섹션을 포함한다. 비트스트림 프레임들은 비트스트림 프레임 당 오디오 신호의 샘플들의 제2 개수에 대응하는 제2 프레임 레이트를 가진다. 샘플들의 제1 개수는 샘플들의 제2 개수의 N배이다. 리프레이밍 섹션은 형성된 N개의 비트스트림 프레임들을 포함하는 비트스트림 프레임들로 세그먼트화된 비트스트림을 출력하도록 구성된다.

예시적인 실시예들에 따르면, 제1 양태의 방법들 중 임의의 것을 수행하기 위한 컴퓨터-판독가능한 매체를 포함하는 컴퓨터 프로그램 제품들이 제공된다.

예시적인 실시예들에 따르면, N=2 또는 N=4, 즉, N개의 비트스트림 프레임들이 4개의 비트스트림 프레임들 중 2개일 수 있다는 것이 유지될 수 있다.

II. 개요 - 디코더 측

제2 양태에 따르면, 예시적인 실시예들은 비트스트림에 의해 표현되는 오디오 신호를 재구성하기 위한 오디오 프로세싱 시스템들 뿐만 아니라 방법들 및 컴퓨터 프로그램 제품들을 제안한다. 제안된 시스템들, 방법들 및 컴퓨터 프로그램 제품들은, 제2 양태에 따라, 일반적으로 동일한 특징들 및 장점들을 공유할 수 있다. 또한, 시스템들, 방법들 및 컴퓨터 프로그램 제품들의 특징들에 대해 위에 제시된 장점들은, 제1 양태에 따라, 일반적으로, 제2 양태에 따른 시스템들, 방법들 및 컴퓨터 프로그램 제품들의 대응하는 특징들에 대해 유효할 수 있다.

예시적인 실시예들에 따르면, 비트스트림 프레임들로 세그먼트화된 비트스트림에 의해 표현되는 오디오 신호를 재구성하는 방법이 제공된다. 방법은: N개의 각자의 비트스트림 프레임들에 의해 반송되는 오디오 데이터의 세트들을 제1 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응하는 오디오 데이터의 하나의 디코딩가능한 세트로 결합시키는 것을 포함하고, 여기서 N ≥ 2이다. 비트스트림 프레임들은 비트스트림 프레임 당 오디오 신호의 샘플들의 제2 개수에 대응하는 제2 프레임 레이트를 가진다. 샘플들의 제1 개수는 샘플들의 제2 개수의 N배이다. 방법은: 본원에서 기본 스트라이드라 지칭되며, 오디오 신호의 샘플들의 제1 개수에 대응하는 스트라이드를 이용하여, 데이터의 디코딩가능한 세트에 기초하여, 적어도 신호 합성을 사용함으로써 오디오 데이터의 디코딩가능한 세트를 오디오 신호의 세그먼트로 디코딩하는 것을 포함한다.

시청각 데이터 스트림에서, 오디오 프레임들 및 비디오 프레임들은 동기화될 수 있고, 예를 들어, 클록 드리프트의 스플라이싱 또는 보상과 관련된 프레임 드롭 또는 프레임 복제를 용이하게 하기 위해, 동일한 듀레이션일 수 있다. 더 높은 비디오 프레임 레이트들에 대한 시청각 데이터 스트림에서 오디오-비디오 동기성을 유지하기 위해, 오디오 프레임 레이트가 또한 증가할 수 있다. 그러나, 예측성 코딩이 통상적으로 비디오 프레임 레이트의 증가의 비트 레이트 비용을 감소시키기 위해 사용되지만, 예측성 코딩은 오디오 콘텐츠의 더 짧은 시간 스케일 상에서 가변적일 수 있음에 따라 오디오 프레임들에 대해 덜 효율적일 수 있고, 비디오 콘텐츠보다 연속적인 프레임들 간의 더 낮은 상관도와 연관될 수 있다. 그것이 변환 스트라이드를 제한할 수 있기 때문에 오디오 프레임 길이가 또한 너무 짧아야 하고, 이는 이후 주파수 분해능에 대한 제한을 설정한다.

본 방법의 능력은, 제2(더 높은) 프레임 레이트의 N개의 각자의 비트스트림 프레임들에 의해 반송되는 오디오 데이터의 세트들을 제1(더 낮은) 프레임 레이트와 연관된 오디오 데이터의 하나의 디코딩가능한 세트로 결합시키기 위해, 더 높은 비디오 프레임 레이트들에 대해, 그러나 비트레이트 소모에서의 대응하는 증가 없이, 시청각 동기성을 유지하는 것을 허용한다. 더 정확하게는, 본 방법에 따른 증가한 프레임 레이트에서 동작할 때의 비트레이트는 이러한 더 높은 프레임 레이트들을 가지는 규칙적 오디오 프레임들을 사용할 때 요구되는 것보다는 더 낮을 수 있다. 본 방법은 예를 들어, 시청각 데이터 스트림들의 스플라이싱을 용이하게 하고 그리고/또는 클록 드리프트의 보상을 용이하게 할 수 있다.

특히, (예를 들어, 오디오 신호의 샘플들의 제2 개수에 대응하는) 더 짧은 스트라이드를 이용한 합성 대신, 기본 스트라이드를 이용한 신호 합성을 사용하는 것은, 오디오 신호를 동기화시키는데 요구되는 데이터의 양을 감소시키고, 이에 의해 데이터를 전송기키기 위해 요구되는 비트레이트를 감소시킨다.

오디오 데이터의 디코딩가능한 세트로 결합되는 데이터 세트들 각각은, 세트들 중 하나가, 다른 세트들에의 액세스 없이는, 오디오 신호의 세그먼트(또는 서브-세그먼트)를 디코딩하기에 불충분할 수 있다는 의미에서, 오디오 데이터의 불완전한 세트일 수 있다.

N개의 비트스트림 프레임들 각각에 대해, N개의 비트스트림 프레임들은 예를 들어, 그 비트스트림 프레임을 포함하며, 이로부터 오디오 데이터가 결합되어 그 비트스트림 프레임에 의해 반송되는 데이터에 의해 표현되는 오디오 신호의 세그먼트를 디코딩할 수 있는, 비트스트림 프레임들의 최소의 콜렉션일 수 있다.

오디오 데이터의 디코딩가능한 세트는 오디오 신호의 세그먼트를 디코딩하기에 충분한 오디오 데이터의 세트를 의미한다. 오디오 데이터의 디코딩가능한 세트는, 오디오 신호의 세그먼트의 디코딩이 추가적인 오디오 데이터 없이 수행될 수 있다는 의미에서, 완전할 수 있다.

오디오 데이터의 세트들을 오디오 데이터의 디코딩가능한 세트로 결합시키는 것은 예를 들어, 데이터의 각자의 세트들을 나타내는 비트들을 서로 다음에(after each other) 배열함으로써, 데이터의 세트들을 연쇄시키는 것(concatenating)을 포함할 수 있다.

오디오 신호의 샘플들의 제1 개수에 대응하는 기본 스트라이드를 이용한 신호 합성을 사용하는 것은, 신호 합성이 오디오 신호의 특정 개수의 샘플들에 대응하는 오디오 신호의 세그먼트에 대해 수행되며, 오디오 신호의 다음 세그먼트가 재구성될 때, 신호 합성 프로세스가 기본 스트라이드와 동일한 개수의 샘플들만큼 시프트되는 범위에 대한 출력을 산출함을 의미한다.

기본 스트라이드를 이용한 신호 합성은 예를 들어, 오디오 데이터의 디코딩가능한 세트에 직접 기초하여 사용될 수 있거나, 또는 오디오 데이터의 디코딩가능한 세트에 간접적으로 기초하여, 예를 들어, 오디오 데이터의 디코딩가능한 세트를 프로세싱함으로써 획득되는 오디오 데이터 또는 신호들에 기초하여 사용될 수 있다.

오디오 신호가 멀티채널 신호인 경우, 기본 스트라이드가, 각자의 채널에 대한 샘플들의 합산으로서보다는, 매-채널 기반으로 오디오 신호의 샘플들의 제1 개수에 대응할 수 있다는 것이 이해될 것이다.

오디오 데이터의 디코딩가능한 세트를 디코딩하는 단계는, 예를 들어, 다수의 하위-단계들을 포함할 수 있고, 그 중 하나 이상은 기본 스트라이드를 이용한 신호 합성을 포함할 수 있다.

N개의 비트스트림 프레임들은 예를 들어, 비트스트림 프레임들이, 기초 스트림 레벨에서, 예를 들어, 동영상 전문가 그룹(Moving Picture Experts Group)(MPEG) 기초 스트림에서 제공되는 것으로서, 오디오 포맷에 따르는 메타데이터 및 페이로드들을 반송할 수 있다는 의미에서, 오디오 포맷에 따를 수 있다. 이러한 의미에서 오디오 포맷에 따르지만, 비트스트림 프레임들에 의해 반송되는 메타데이터 중 적어도 일부 및 페이로드가 예를 들어 종래 기술에 알려진 오디오 프레임들에서와는 상이한 타입 및/또는 포맷일 수 있다는 것이 이해될 것이다.

인코더에 의해 제공되는 비트스트림은 예를 들어 디코더 측에 도달하기 이전에 또다른 비트스트림과 스플라이싱되었을 수 있다. 예를 들어, N개의 비트스트림 프레임들 중 하나 이상은, 예를 들어, 디코더 측에서 수신되는 비트스트림에서 유실될 수 있다. 일부 예시적인 실시예들에서, 오디오 프로세싱 방법은 따라서 오디오 데이터의 세트들을 완전한 디코딩가능한 세트로 결합시킬 N개의 비트스트림 프레임들 중 하나 이상이 비트스트림에서 유실되는지를 검출하는 것을 포함할 수 있다. 방법은, 예를 들어, N개의 비트스트림 프레임들 중 하나 이상이 비트스트림에서 유실됨을 검출하는 것에 응답하여, 에러 은닉을 적용하는 것을 포함할 수 있다. 에러 은닉은 예를 들어, 수신된 비트스트림 프레임들 중 하나 이상에 의해 반송되는 오디오 데이터를 제로들로 대체하는 것, 및 선택적으로 페이드-아웃 및/또는 페이드-인을 적용하는 것을 포함할 수 있다.

예시적인 실시예에서, 오디오 데이터의 디코딩가능한 세트를 디코딩하는 것은: 변환 스트라이드로서 기본 스트라이드를 가지는 윈도우화된 변환을 적용하는 것; 및/또는 다운믹스 신호 및 오디오 데이터의 디코딩가능한 세트로부터 획득되는 연관된 파라미터들에 기초하여, 오디오 신호의 세그먼트의, 기본 스트라이드를 이용한, 파라메트릭 재구성을 수행하는 것을 포함할 수 있다.

윈도우화된 변환은, 예를 들어, 역의 수정된 이산 코사인 변환(inverse Modified Discrete Cosine Transform)(MDCT)와 같은 조화 변환일 수 있다.

오디오 신호는 예를 들어 멀티채널 오디오 신호일 수 있고, 다운믹스 신호는 예를 들어, 멀티채널 신호의 채널들의 선형 조합으로서 획득되는, 멀티채널 신호보다 더 적은 채널들을 가지는 신호일 수 있다. 다운믹스 신호는 예를 들어 멀티채널 오디오 신호의 모노 또는 스테레오 다운믹스일 수 있다. 오디오 데이터의 디코딩가능한 세트는 예를 들어 다운믹스 신호 및 오디오 신호의 세그먼트의 파라메트릭 재구성을 위한 연관된 파라미터들을 포함할 수 있다. 대안적으로, 오디오 데이터의 디코딩가능한 세트는, 다운믹스 신호 및 연관된 파라미터들이 유도될 수 있는, 예를 들어, 양자화된 형태로, 다운믹스 신호 및 연관된 파라미터들을 나타내는 데이터를 포함할 수 있다.

예시적인 실시예에서, 오디오 데이터의 세트들이 오디오 데이터의 디코딩가능한 세트로 결합되는 N개의 비트스트림 프레임들은, N개의 연속적인 비트스트림 프레임들일 수 있다. 오디오 데이터의 디코딩가능한 세트로 결합가능한 오디오 데이터의 세트들을 반송하기 위해 연속적인 프레임들을 사용하는 것은 오디오 신호의 디코딩을 용이하게 할 수 있고, 그에 대한 데이터가 오디오 데이터의 디코딩가능한 세트로 결합될 비트스트림 프레임들을 메타데이터가 식별할 필요성을 감소시킬 수 있다. 오디오 데이터의 디코딩가능한 세트로 결합가능한 오디오 데이터의 세트들을 반송하기 위한 연속적인 프레임들을 사용하는 것은 디코딩을 수행하기 위한 데이터를 버퍼링시키기 위한 필요성을 감소시킬 수 있다.

예시적인 실시예에서, 방법은: 비트스트림 내의 비트스트림 프레임들의 적어도 일부에 의해 반송되는 메타데이터에 기초하여, 오디오 데이터의 불완전한 세트들을 오디오 데이터의 디코딩가능한 세트로 결합시킬 비트스트림 프레임들의 그룹을 결정하는 것을 더 포함할 수 있다. 메타데이터는, N개의 비트스트림 프레임들의 그룹들을 식별하기 위해, 예를 들어, 모든 비트스트림 프레임들에 의해, 또는 N개의 비트스트림 프레임들의 그룹 당 하나 이상의 비트스트림 프레임에 의해 반송될 수 있다. 비트스트림이 N개의 프레임들의 그룹들을 식별하는 메타데이터를 반송하는 다른 프레임들을 포함할 수 있는 반면, N개의 비트스트림 프레임들 자체는 이러한 메타데이터를 반송하지 않을 수도 있다는 실시예들이 또한 참작될 수 있다.

예시적인 실시예에서, 방법은: 비트스트림 프레임이 제2 프레임 레이트에 대응하는 오디오 데이터의 디코딩가능한 세트를 반송하는지를 검출하는 것; 및 샘플들의 제2 개수에 대응하는 단축된 스트라이드를 이용하여, 제2 프레임 레이트에 대응하는 오디오 데이터의 디코딩가능한 세트에 기초하여, 적어도 신호 합성을 사용함으로써 제2 프레임 레이트에 대응하는 오디오 데이터의 디코딩가능한 세트를 오디오 신호의 세그먼트로 디코딩하는 것을 더 포함한다.

독립적으로 디코딩가능한 오디오 데이터의 세트들을 반송하는 비트스트림 프레임들이, 예를 들어, 스플라이싱 이후 그리고/또는 프레임 드롭들/복제들 이후, 비트스트림들의 디코딩을 용이하게 하기 위해 사용될 수 있다. 단축된 스트라이드를 사용하여 디코딩하기 위한 본 예시적인 실시예에서의 방법의 능력은 그것을 오디오 및 비디오 프레임들의 동기화를 용이하게 하는 비트스트림 포맷과 호환가능하게 할 수 있다.

제2 프레임 레이트에 대응하는 오디오 데이터의 디코딩가능한 세트를 디코딩하는 것은, 예를 들어, 변환 스트라이드로서 단축된 스트라이드를 가지는 윈도우화된 변환을 적용하는 것; 및/또는 다운믹스 신호 및 오디오 데이터의 제2 디코딩가능한 세트로부터 획득되는 연관된 파라미터들에 기초하여, 오디오 신호의 세그먼트의, 단축된 스트라이드를 이용한, 파라메트릭 재구성을 수행하는 것을 포함할 수 있다.

비트스트림 프레임이 제2 프레임 레이트에 대응하는 오디오 데이터의 디코딩가능한 세트를 반송하는지에 대한 검출은 예를 들어 비트스트림에 의해 반송되는 메타데이터에 기초하거나, 또는 비트스트림 프레임 내의 특정 타입의 메타데이터의 부재에 기초할 수 있다.

예시적인 실시예에서, 제2 프레임 레이트에 대응하는 오디오 데이터의 디코딩가능한 세트를 디코딩하는 것은: N개의 비트스트림 프레임들의 그룹의 비트스트림 프레임들이 각각 오디오 데이터의 디코딩가능한 세트로 결합하는 것을 요구하는 오디오 데이터의 세트들을 반송한 것처럼 동시에 제2 프레임 레이트에서 N개의 연속적인 비트스트림 프레임들의 그룹의 디코딩이 완료되도록 지연을 제공하는 것을 포함할 수 있다. 본 예시적인 실시예는 기본 스트라이드를 사용하여 재구성된 오디오 신호의 세그먼트들과 단축된 스트라이드를 사용하여 재구성된 오디오 신호의 세그먼트들 사이의 매끄러운 트랜지션들을 용이하게 하고, 청취자에 의해 인지되는 것으로서의 재생 품질을 개선시킬 수 있다.

예시적인 실시예에서, 지연은 제2 프레임 레이트에 대응하는 오디오 데이터의 적어도 하나의 디코딩가능한 세트를 버퍼링시키거나 또는 오디오 신호의 적어도 하나의 세그먼트를 버퍼링시킴으로써 제공될 수 있다. 다시 말해, 지연은, 신호 합성을 수행하기 이전에, 제2 프레임 레이트에 대응하는 오디오 데이터의 하나 이상의 디코딩가능한 세트들을 버퍼링시킴으로써, 또는 신호 합성을 수행한 이후, 제2 프레임 레이트에 대응하는 오디오 데이터의 더 많은 디코딩가능한 세트들로부터 재구성된 오디오 신호의 세그먼트들 중 하나 이상을 버퍼링시킴으로써, 제공될 수 있다.

예시적인 실시예에서, 비트스트림은 제2 프레임 레이트와 일치하는 프레임 레이트를 가지는 비디오 프레임들의 스트림과 연관될 수 있다. 본 예시적인 실시예에서, 비트스트림 프레임들의 프레임 레이트는 비디오 프레임들의 프레임 레이트와 일치할 수 있는데, 이는 비디오 프레임들의 스트림 및 비트스트림을 포함하는 시청각 데이터 스트림의 다른 시청각 데이터 스트림들과의 스플라이싱 및/또는 동기화를 용이하게 할 수 있다.

예시적인 실시예에서, 제1 프레임 레이트에 대응하는 오디오 데이터의 디코딩가능한 세트에 기초하여 오디오 신호의 세그먼트를 디코딩하는 것은: 제1 프레임 레이트에 대응하는 오디오 데이터의 디코딩가능한 세트에 대응하는 양자화된 스펙트럼 계수들을 수신하는 것; 역양자화를 수행하며 후속적으로 주파수-대-시간 변환을 수행하여, 이에 의해 중간 오디오 신호의 표현이 획득되는 것; 중간 오디오 신호에 대해 주파수 도메인에서 적어도 하나의 프로세싱 단계를 수행하는 것; 및 프로세싱된 오디오 신호의 샘플링 레이트를 타겟 샘플링 주파수로 변경하여, 이에 의해 재구성된 오디오 신호의 시간-도메인 표현이 획득되는 것을 포함할 수 있다.

타겟 샘플링 주파수는 미리 정의된 양일 수 있으며, 이는 인입 비트스트림의 특징들(예를 들어, 프레임 레이트)과는 독립적으로 사용자 또는 시스템 설계자에 의해 구성가능하다.

역 양자화는 미리 결정된 양자화 레벨들(또는 재구성 레벨들, 또는 재구성 포인트들)을 이용하여 수행될 수 있다. 양자화 레벨들은 심리음향적(psychoacoustic) 고려사항들에 기초하여, 예를 들어, 주어진 주파수(또는 주파수 대역)에 대한 양자화 잡음이 마스킹 임계를 초과하지 않는 방식으로 인코더 측 상에서 선택되었을 수 있다. 마스킹 임계가 주파수-종속적이기 때문에, 경제적 관점에서, 주파수에 대해 불균일한 인코더 측 선택 양자화 레벨들을 가지는 것이 선호된다. 그 결과, 양자화 및 탈양자화는, 최적의 출력이 산출되는, 예상되는(in mind) 특정 물리적 샘플링 주파수를 이용하여 통상적으로 발생한다.

적어도 하나의 프로세싱 단계는, 예를 들어, 스펙트럼 대역 복제(spectral band replication)(SBR) 및/또는 동적 범위 제어(DRC)와 연관될 수 있다.

적어도 하나의 프로세싱 단계가 주파수 도메인에서 수행됨에 따라, 방법은: 중간 오디오 신호의 주파수 표현을 획득하기 위해, 예를 들어, 직교 미러 필터(Quadrature Mirror Filter)(QMF) 분석 필터뱅크에 의해 수행되는, 시간-대-주파수 변환을 수행하는 것; 및 프로세싱된 오디오 신호를 다시 시간 도메인으로 변환시키기 위한, 예를 들어, QMF 합성 필터뱅크에 의해 수행되는, 추가적인 주파수-대-시간 변환을 수행하는 것을 포함할 수 있다.

예시적인 실시예에서, 방법은 제2 프레임 레이트에 대한 적어도 2개의 상이한 값들과 연관되는, 그러나 프레임 당 샘플들의 제2 개수에 대한 공통 값과 연관되는 비트스트림들을 수용할 수 있다. 제2 프레임 레이트의 각자의 값들은 기껏해야 5%만큼 상이할 수 있다. 주파수-대-시간 변환은 제2 프레임 레이트에 대한 적어도 2개의 상이한 값들에 대해 변환 스트라이드로서 기본 스트라이드에 대한 공통의 미리 정의된 값을 가지는 윈도우화된 변환을 사용하도록 구성되는 기능 컴포넌트에서 수행될 수 있다.

데이터의 시청각 스트림에서, 오디오 프레임 레이트는 예를 들어, 오디오-비디오 동기화 및/또는 스플라이싱을 용이하게 하기 위해, 비디오 프레임 레이트에 대해 조정될 수 있다(예를 들어, 이와 일치할 수 있다). 상이한 프레임 레이트들을 가지는 오디오 비트스트림들을 수용하기 위한 본 예시적인 실시예에서의 방법의 능력은 따라서 시청각 데이터 스트림들의 오디오-비디오 동기화 및/또는 스플라이싱을 용이하게 할 수 있다.

임계 샘플링된 시스템(critically sampled system)에서, 물리적 샘플링 주파수는 오디오 프레임의 물리적 듀레이션 대 그 내에 포함된 스펙트럼 계수들의 개수의 비에 대응한다. 역양자화 및 주파수-대-시간 변환을 수행하는 기능 컴포넌트(들)는 오디오 데이터의 디코딩가능한 세트 내의 계수들의 물리적 듀레이션을 알고 있을 필요가 없으며, 단지 계수들은 오디오 데이터의 동일한 디코딩가능한 세트에 속한다. 제2 프레임 레이트의 값들이 기껏해야 5%만큼 상이하기 때문에, 결과적인 내부 샘플링 주파수는 (물리적 단위들에서) 다소 적게 변경할 것이며, 최종 샘플링 레이트 전환에서 사용되는 리샘플링 인자는 1에 가까울 것이다. 따라서, 내부 샘플링 주파수의 비-불변성은 재구성된 오디오 신호의 임의의 인지가능한 저하를 통상적으로 초래하지는 않을 것이다. 다시 말해, 타겟 샘플링 주파수와는 약간 상이한 샘플링 주파수에서 최적인 것으로 산출된, 중간 오디오 신호의 약간의 상향- 또는 하향-샘플링은, 심리 음향적으로 중요하지(significant) 않을 것이다. 특히, 역 양자화 및/또는 주파수-대-시간 변환을 수행하는 기능 컴포넌트(들)의 의도된 물리적 샘플링 주파수와, 그것의 다운스트림의 임의의 컴포넌트들이 동조되는 물리적 샘플링 주파수들 사이의 일부 양의 부정합은 편차가 제한되는 한 허용가능할 수 있다.

예시적인 실시예들에 따르면, 비트스트림 프레임들로 세그먼트화된 비트스트림에 의해 표현되는 오디오 신호를 재구성하기 위한 오디오 프로세싱 시스템이 제공된다. 오디오 프로세싱 시스템은: N개의 각자의 비트스트림 프레임들에 의해 반송되는 오디오 데이터의 세트들을 제1 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응하는 오디오 데이터의 하나의 디코딩가능한 세트로 결합시키도록 구성되는 버퍼를 포함하고, 여기서 N ≥ 2이다. 비트스트림 프레임들은 비트스트림 프레임 당 오디오 신호의 샘플들의 제2 개수에 대응하는 제2 프레임 레이트를 가진다. 샘플들의 제1 개수는 샘플들의 제2 개수의 N배이다. 시스템은, 오디오 신호의 샘플들의 제1 개수에 대응하는 기본 스트라이드를 이용하여, 오디오 데이터의 디코딩가능한 세트에 기초하여, 적어도 신호 합성을 사용함으로써 오디오 데이터의 디코딩가능한 세트를 오디오 신호의 세그먼트로 디코딩하도록 구성되는 디코딩 섹션을 포함한다.

예시적인 실시예들에 따르면, 제2 양태의 방법들 중 임의의 것을 수행하기 위한 컴퓨터-판독가능한 매체를 포함하는 컴퓨터 프로그램 제품이 제공된다.

예시적인 실시예들에 따르면, N = 2 또는 N = 4, 즉 N개의 비트스트림 프레임들이 4개의 비트스트림 프레임들 중 2개일 수 있다는 것이 유지될 수 있다.

III. 개요 - 트랜스코딩

제3 양태에 따르면, 예시적인 실시예들은 오디오 신호를 나타내는 오디오 비트스트림을 트랜스코딩하기 위한 오디오 프로세싱 시스템들 뿐만 아니라 방법들 및 컴퓨터 프로그램 제품들을 제안한다. 제안되는 시스템들, 방법들 및 컴퓨터 프로그램 제품들은, 제3 양태에 따르면, 일반적으로 동일한 특징들 및 장점들을 공유할 수 있다. 또한, 제1 및/또는 양태에 따른 시스템들, 방법들 및 컴퓨터 프로그램 제품들의 특징들에 대해 위에서 제시된 장점들은 제3 양태에 따른 시스템들, 방법들 및 컴퓨터 프로그램 제품들의 대응하는 특징들에 대해 일반적으로 유효할 수 있다.

예시적인 실시예들에 따르면, 오디오 신호를 나타내는 오디오 비트스트림을 트랜스코딩하는 방법이 제공된다. 비트스트림은 제1 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응하는 오디오 데이터의 디코딩가능한 세트들의 시퀀스를 포함한다. 방법은: 비트스트림으로부터 오디오 데이터의 디코딩가능한 세트를 추출하는 것; 오디오 데이터의 디코딩가능한 세트를 N개 부분들로 나누는 것 ― 여기서 N ≥ 2임 ― ; 및 각자의 부분들을 반송하는 N개의 비트스트림 프레임들을 형성하는 것을 포함한다. 비트스트림 프레임들은 비트스트림 프레임 당 오디오 신호의 샘플들의 제2 개수에 대응하는 제2 프레임 레이트를 가진다. 샘플들의 제1 개수는 샘플들의 제2 개수의 N배이다. 이것 이후에, 형성된 N개의 비트스트림 프레임들을 포함하는 비트스트림 프레임들로 세그먼트화되는 비트스트림이 출력된다. 선택적으로, 오디오 데이터의 디코딩가능한 세트를 프로세싱하는 단계는 세트를 N개 부분까지 나누는 단계 이전에 수행된다. 프로세싱의 속성에 따라, 이는 오디오 데이터를 변환 또는 파형 표현으로 초기에 디코딩하는 것을 요구할 수 있다.

제1(더 낮은) 프레임 레이트와 연관된 오디오 데이터의 디코딩가능한 세트를 반송하는 것과 함께, 제2(더 높은) 프레임 레이트의 N개의 비트스트림 프레임들을 제공하기 위한 본 방법의 능력은, 더 높은 비디오 프레임 레이트들에 대해, 그러나 비트레이트 소모에서의 대응하는 증가 없이, 시청각 동기성을 유지하는 것을, 허용한다. 본 방법에 따른 증가한 프레임 레이트에서 동작할 때의 비트레이트는 이러한 더 높은 프레임 레이트들을 가지는 규칙적인 오디오 프레임들을 사용할 때 요구되는 것보다 더 낮을 수 있다. 본 방법은 따라서, 시청각 데이터 스트림들의 스플라이싱을 용이하게 하고 그리고/또는 클록 드리프트의 보상을 용이하게 할 수 있다.

방법은 예를 들어, 오디오 데이터의 디코딩가능한 세트의 프로세싱된 버전을 N개 부분들로 나누는 것을 포함할 수 있다.

예시적인 실시예들에 따르면, 오디오 신호를 나타내는 오디오 비트스트림을 트랜스코딩하기 위한 오디오 프로세싱 시스템이 제공되며, 비트스트림은 제1 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응하는 오디오 데이터의 디코딩가능한 세트들의 시퀀스를 포함한다. 오디오 프로세싱 시스템은: 비트스트림으로부터 오디오 데이터의 디코딩가능한 세트를 추출하도록 구성되는 수신 섹션; 및 오디오 데이터의 디코딩가능한 세트를 프로세싱하도록 구성되는 선택적 프로세싱 섹션을 포함한다. 오디오 프로세싱 시스템은, 오디오 데이터의 디코딩가능한 세트를 N개 부분들로 나누고 ― 여기서 N ≥ 2임 ― ; 그리고 각자의 부분들을 반송하는 N개의 비트스트림 프레임들을 형성하도록 구성되는 리프레이밍 섹션을 포함한다. 비트스트림 프레임들은 비트스트림 프레임 당 오디오 신호의 샘플들의 제2 개수에 대응하는 제2 프레임 레이트를 가진다. 샘플들의 제1 개수는 샘플들의 제2 개수의 N배이다. 리프레이밍 섹션은 형성된 N개의 비트스트림 프레임들을 포함하는 비트스트림 프레임들로 세그먼트화되는 비트스트림을 출력하도록 구성된다.

예시적인 실시예들에 따르면, 제3 양태의 방법들 중 임의의 것을 수행하기 위한 컴퓨터-판독가능한 매체를 포함하는 컴퓨터 프로그램 제품들이 제공된다.

예시적인 실시예들에 따르면, N = 2 또는 N = 4, 즉, N개의 비트스트림 프레임들이 4개의 비트스트림 프레임들 중 2개일 수 있다는 것이 유지될 수 있다.

IV. 개요 - 컴퓨터- 판독가능한 매체

제4 양태에 따르면, 예시적인 실시예들은 오디오 신호를 나타내는 컴퓨터-판독가능한 매체를 제안한다. 제1, 제2 및/또는 제3 양태에 따른 시스템들, 방법들 및 컴퓨터 프로그램 제품들의 특징들에 대해 위에서 제시된 장점들은 일반적으로 제4 양태에 따른 컴퓨터-판독가능한 매체의 대응하는 특징들에 대해 유효할 수 있다.

예시적인 실시예들에 따르면, 오디오 신호를 나타내며 비트스트림 프레임들로 세그먼트화되는 컴퓨터-판독가능한 매체가 제공된다. 컴퓨터-판독가능한 매체에서, 비트스트림 프레임들 중 N개는 제1 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응하는 오디오 데이터의 하나의 디코딩가능한 세트로 결합가능한 오디오 데이터의 각자의 세트들을 반송하고, 여기서 N ≥ 2이다. 오디오 데이터의 디코딩가능한 세트는, 오디오 신호의 샘플들의 제1 개수에 대응하는 기본 스트라이드를 이용하여, 오디오 데이터의 디코딩가능한 세트에 기초하여, 적어도 신호 합성을 사용함으로써 오디오 신호의 세그먼트로 디코딩가능하다. 비트스트림 프레임들은 비트스트림 프레임 당 오디오 신호의 샘플들의 제2 개수에 대응하는 제2 프레임 레이트를 가진다. 샘플들의 제1 개수는 샘플들의 제2 개수의 N배이다.

제1(더 낮은) 프레임 레이트와 연관된 오디오 데이터의 디코딩가능한 세트를 반송하는 것과 함께, 제2(더 높은) 프레임 레이트의 N개의 비트스트림 프레임들은, 더 높은 비디오 프레임 레이트들에 대해, 그러나 비트레이트 소모에서의 대응하는 증가 없이, 시청각 동기성을 유지하는 것을 허용한다. 더 정확하게는, 본 컴퓨터-판독가능한 매체에 따른 증가한 프레임 레이트에서 동작할 때의 비트레이트는 이러한 더 높은 프레임 레이트들을 가지는 규칙적인 오디오 프레임들을 사용할 때 요구되는 것보다 더 낮을 수 있다. 본 컴퓨터-판독가능한 매체는 따라서, 시청각 데이터 스트림들의 스플라이싱을 용이하게 하고 그리고/또는 클록 드리프트의 보상을 용이하게 할 수 있다.

오디오 데이터의 하나의 디코딩가능한 세트로 결합가능한 오디오 데이터의 각자의 세트들을 반송하는 N개의 비트스트림 프레임들은 예를 들어 N개의 연속적인 비트스트림 프레임들일 수 있다.

예시적인 실시예에서, N개의 비트스트림 프레임들 중 적어도 하나는 오디오 데이터의 세트들을 오디오 데이터의 디코딩가능한 세트로 결합시킬 비트스트림 프레임들의 그룹을 나타내는 메타데이터를 반송할 수 있다.

예시적인 실시예에서, 컴퓨터-판독가능한 매체는, 오디오 신호의 샘플들의 제2 개수에 대응하는 단축된 스트라이드를 이용하여 오디오 데이터의 제2 세트에 기초하여, 적어도 신호 합성을 사용함으로써 오디오 신호의 세그먼트로 디코딩가능한 오디오 데이터의 제2 세트를 반송하는 비트스트림 프레임을 더 포함할 수 있다.

본 예시적인 실시예에 따른, 독립적으로 디코딩가능한 오디오 데이터의 세트들을 반송하는 비트스트림 프레임들은, 예를 들어, 스플라이싱 이후 그리고/또는 프레임 드롭들/복제들 이후 비트스트림들의 디코딩을 용이하게 하기 위해 사용될 수 있다.

V. 예시적인 실시예들

예시적인 실시예에 따르면, 도 1은 오디오 신호(X)를 오디오 비트스트림(B)으로서 나타내기 위한 오디오 프로세싱 시스템(100)의 일반화된 블록도이다.

오디오 프로세싱 시스템(100)은 인코딩 섹션(110) 및 리프레이밍 섹션(120)을 포함한다. 인코딩 섹션(110)은 오디오 신호(X)의 샘플들의 제1 개수에 대응하는 기본 스트라이드를 이용하여 오디오 신호(X)의 세그먼트 상에서 적어도 신호 분석을 수행함으로써 오디오 신호(X)의 세그먼트를 오디오 데이터의 하나의 디코딩가능한 세트(D)로서 인코딩한다.

오디오 신호(X)의 샘플들의 제1 개수에 대응하는 기본 스트라이드를 이용하여 신호 분석을 수행하는 것은, 신호 분석이 오디오 신호(X)의 특정 개수의 샘플들의 분석 윈도우 내에서 수행되며, 오디오 신호(X)의 다음 세그먼트가 인코딩될 때, 분석 윈도우가 기본 스트라이드와 동일한 샘플들의 개수만큼 시프트됨을 의미한다. 신호 분석은 예를 들어, 오버랩하는 분석 윈도우들을 이용하여 수행될 수 있고, 어느 경우든, 분석 윈도우는 기본 스트라이드보다 더 길 수 있다. 또다른 예에서, 분석 윈도우의 길이는 기본 스트라이드와 일치할 수 있다.

오디오 신호(X)는 멀티채널 오디오 신호에 의해 본원에 예시된다. 본 예시적인 실시예에서, 인코딩 섹션(110)은, 오디오 신호(X)의 해당 세그먼트의 주파수-도메인 표현을 제공하기 위해 오디오 신호(X)의 세그먼트에 대해, 변환 스트라이드로서 기본 스트라이드를 이용하여, 윈도우화된 변환, 예를 들어, 수정된 이산 코사인 변환(Modified Discrete Cosine Transform)(MDCT)을 적용한다. 주파수 도메인에서, 인코딩 섹션(110)은 이후 오디오 신호(X)의 각자의 채널들의 선형 조합으로서 다운믹스 신호(예를 들어, 모노 또는 스테레오 다운믹스)를 계산한다. 인코딩 섹션(110)은 또한 다운믹스 신호로부터 멀티채널 오디오 신호(X)의 파라메트릭 재구성을 위한 파라미터들을 결정한다. 본 예시적인 실시예에서, 오디오 데이터의 디코딩가능한 세트(D)는 다운믹스 신호 및 파라메트릭 재구성을 위한 파라미터들을 포함한다.

파라미터들은 예를 들어, 주파수-도메인 표면의 신호 분석에 기초하여 결정될 수 있다. 이러한 신호 분석은 기본 스트라이드를 사용할 수 있는데, 즉, 그것은 윈도우화된 변환과 동일한 스트라이드를 사용할 수 있다. 신호 분석은 예를 들어, 멀티채널 오디오 신호(X)의 채널들의 에너지들 및/또는 공분산들의 계산을 포함할 수 있다.

파라메트릭 재구성을 위한 파라미터들이 윈도우화된 변환과는 상이한 스트라이드를 이용한 신호 분석에 기초하여 결정되는 실시예들이 또한 참작될 수 있다. 예를 들어, 윈도우화된 변환이 기본 스트라이드보다 더 짧은 변환 스트라이드들 사용하며, 파라메트릭 재구성을 위한 파라미터들이 기본 스트라이드를 이용한 신호 분석에 기초하여 결정되는 실시예들이 참작될 수 있다.

오디오 데이터의 디코딩가능한 세트(D)가 제1 프레임 레이트, 예를 들어, 30 fps에, 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응한다. 다시 말해, 데이터의 디코딩가능한 세트(D)는 오디오 신호의 제1 개수의 샘플들을 나타내며, 제1 프레임 레이트에 따르는 프레임에 대응한다.

리프레이밍 섹션(120)은 예를 들어, 오디오 데이터의 디코딩가능한 세트(D)를 N개의 적어도 대략 균등한 크기의 부분들(D₁, D₂, ..., D_N)로 분할함으로써, 오디오 데이터의 디코딩가능한 세트(D)를 N개 부분들(D₁, D₂, ..., D_N)로 나눈다. N은 예를 들어, 2 또는 4일 수 있거나, 또는 2보다 더 크거나 같은 임의의 정수일 수 있다.

본 예시적인 실시예에서, 오디오 데이터의 디코딩가능한 세트(D)는 제1 개수의 샘플들의 주파수-도메인 표현이다. 따라서, 오디오 데이터의 디코딩가능한 세트(D)가 균등한 크기의 부분들(D₁, D₂, ..., D_N)로 나뉠 때, 이러한 부분들(D₁, D₂, ..., D_N)은 주파수-도메인 표현의 각자의 서브세트들을 포함할 수 있으며, 이는 오디오 신호의 제1 개수의 샘플들의 임의의 특정 서브세트들에 반드시 대응하지는 않는다. 따라서, 부분들(D₁, D₂, ..., D_N)은, 부분들(D₁, D₂, ..., D_N) 중 어느 것도 모든 N개의 부분들(D₁, D₂, ..., D_N) 없이 디코딩될 수 없다는 의미에서, 오디오 데이터의 불완전한 세트들이다.

리프레이밍 섹션(120)은 각자의 부분들(D₁, D₂, ..., D_N)을 반송하는 N개의 비트스트림 프레임들(F₁, F₂, ..., F_N)을 형성한다. N개의 비트스트림 프레임들(F₁, F₂, ..., F_N)이 오디오 데이터의 하나의 디코딩가능한 세트(D)를 표현함에 따라, 비트스트림 프레임들(F₁, F₂, ..., F_N)은 오디오 데이터의 디코딩가능한 세트(D)의 프레임 레이트의 N배인 제2 프레임 레이트를 가진다. 유사하게, 비트스트림 프레임들(F₁, F₂, ..., F_N)은 그 자체가 오디오 신호(X)의 특정 샘플들을 표현하지는 않지만, N개의 비트스트림 프레임들(F₁, F₂, ..., F_N)은 오디오 데이터의 디코딩가능한 세트(D)를 표현하고, 따라서, 프레임 당 샘플들의 제2 개수에 대응하며, 여기서, 프레임 당 샘플들의 제1 개수는 프레임 당 샘플들의 제2 개수의 N배이다.

리프레이밍 섹션(120)은 N개의 연속적인 비트스트림 프레임들로서 형성된 N개의 비트스트림 프레임들(F₁, F₂, ..., F_N)을 포함하는 비트스트림 프레임들로 세그먼트화된 비트스트림(B)을 출력한다.

오디오 데이터의 부분들(D₁, D₂, ..., D_N) 뿐만 아니라, 비트스트림 프레임들(F₁, F₂, ..., F_N)은, 오디오 데이터의 디코딩가능한 세트(D)가 비트스트림 프레임들(F₁, F₂, ..., F_N)에 의해 반송되는 부분들(D₁, D₂, ..., D_N)로부터 획득가능함을 나타내는 각자의 메타데이터(μ₁, μ₂, ..., μ_N)를 또한 포함한다. 비트스트림 프레임들(F₁, F₂, ..., F_N) 각각의 메타데이터(μ₁, μ₂, ..., μ_N)는 예를 들어, 오디오 데이터의 디코딩가능한 세트(D)의 어느 부분이 그 비트스트림 프레임에 의해 반송되는지를 표시할 수 있고, 선택적으로, 오디오 데이터의 디코딩가능한 세트(D)의 다른 N-1개 부분들을 반송하는 비트스트림 프레임들을 또한 표시할 수 있다.

예시적인 실시예들에 따르면, 도 3 및 4는, 도 1에 관해 기술된, 오디오 프로세싱 시스템(100)에 의해 제공되는 비트스트림들의 예들을 예시한다.

도 1에 도시된 오디오 프로세싱 시스템(100에 의해 출력되는 비트스트림(B)은 비디오 프레임들의 스트림과 연관될 수 있다. 비트스트림(B)은 비트스트림 프레임들의 스트림(A1) 및 비디오 프레임들의 스트림(V1)에 의해 도 3에서 예시되며, 우측 방향은 시간(t)의 증가에 대응한다.

비디오 프레임들의 스트림(V1)은 예측된 코딩된 비디오 프레임들(P)(선행 프레임들에만 종속적인 프레임들 및/또는 선행 및 후속 프레임들 모두에 종속적인 소위 양방향 프레임들을 포함함) 및 독립적으로 코딩된 비디오 프레임(I)을 포함한다. 비트스트림 프레임들의 스트림(A1)은, 다른 시청각 데이터 스트림들과의 스플라이싱 및/또는 동기화를 용이하게 하기 위해, 비디오 프레임들과 동일한 프레임 레이트 및 동일한 듀레이션을 가지는 비트스트림 프레임들을 포함한다.

본 예시적인 실시예에서, N = 4 및 오디오 프로세싱 시스템(100)은 오디오 데이터의 디코딩가능한 세트의 각자의 부분들을 반송하는 4개의 비트스트림 프레임들(311, 312, 313, 314)의 그룹들(310) 내에 비트스트림 프레임들을 제공한다. 그러나, 비디오 프레임들의 스트림(V1)이 비디오 프레임들의 다른 스트림들과 스플라이싱될 경우, 스플라이싱 이후의 비디오 프레임들의 디코딩을 용이하게 하기 위해 스플라이싱은 독립적으로 코딩된 비디오 프레임(I)에 인접한 포인트에서 수행될 수 있다. 오디오-비디오 동기성을 유지하기 위해, 비트스트림 프레임들의 스트림(A1)은 비디오 프레임들의 스트림(V1)과 동일한 스플라이싱 포인트에서 스플라이싱될 수 있다.

비트스트림 프레임들의 또다른 스트림과의 스플라이싱 이후 비트스트림 프레임들의 디코딩을 용이하게 하기 위해, 오디오 프로세싱 시스템(100)은 오디오 신호(X)의 샘플들의 제2 개수에 대응하는 단축된 변환 스트라이드를 이용한 신호 분석을 적용함으로써 오디오 데이터의 디코딩가능한 세트로서 독립적으로 코딩된 비디오 프레임(I)에 시간 상으로 관련된 오디오 신호(X)의 세그먼트를 인코딩하는데, 이는 예를 들어, 독립적으로 코딩된 비디오(I) 프레임의 듀레이션에 대응할 수 있다.

기본 스트라이드를 이용한 신호 분석이 사용되는 인코딩과 유사하게, 단축된 스트라이드를 이용한 신호 분석을 사용하는 인코딩은, 변환 스트라이드로서 단축된 스트라이드를 이용하는 윈도우화된 변환, 예를 들어, MDCT를 적용하는 것, 및 다운믹스 신호로부터 오디오 신호의 세그먼트의 파라메트릭 재구성을 위한 파라미터들을 결정하는 것을 포함할 수 있고, 파라미터들은 단축된 스트라이드를 이용한 신호 분석에 기초하여 결정된다. 단축된 스트라이드와 연관된 오디오 데이터의 디코딩가능한 세트는 다운믹스 신호 및 파라미터들을 포함할 수 있다.

오디오 프로세싱 시스템(100)은 다른 비트스트림 프레임들에 의해 반송되는 오디오 데이터에의 액세스 없이 독립적으로 디코딩될 수 있는, 오디오 데이터의 디코딩가능한 세트를 반송하는 비트스트림 프레임(321)을 포함한다. 비트스트림 프레임들의 스트림(A1)에서, 비트스트림 프레임(321)은 오디오 데이터의 디코딩가능한 세트의 각자의 부분들을 반송하는 4개의 비트스트림 프레임들(331, 332, 333, 334)의 또다른 그룹(330)에 선행한다.

오디오 프로세싱 시스템(100)은 예를 들어, 단축된 스트라이드를 이용한 신호 분석을 적용함으로써 오디오 신호(X)의 세그먼트들을 인코딩하도록 구성되는 추가적인 인코딩 섹션(도 1에 미도시됨)을 포함할 수 있다. 대안적으로, 인코딩 섹션(110)은 단축된 스트라이드를 사용하도록 동작가능할 수 있고, 리프레이밍 섹션(120)은 비트스트림(B) 내에, 단축된 스트라이드와 연관된 오디오 데이터의 디코딩가능한 세트를 반송하는, 비트스트림 프레임(321)을 포함시키도록 동작가능할 수 있다.

도 3에 관해 기술되는 예에서, 특정 위치들에서의 독립적으로 코딩된 비디오 프레임(I)의 존재는 4개의 비트스트림 프레임들의 그룹들(310, 330) 사이에, 단축된 변환 스트라이드와 연관된 오디오 데이터의 디코딩가능한 세트를 반송하는, 비트스트림 프레임(321)을 포함시킴으로써 핸들링될 수 있다. 그러나, 적어도 일부 예시적인 시나리오들에서, 독립적으로 코딩된 비디오 프레임들(I)의 위치들은 선험적으로 알려져 있지 않을 수 있으며, 그리고/또는 독립적으로 코딩된 비디오 프레임들(I)은 4개의 비트스트림 프레임들의 그룹들 사이의 위치들에 매치하지 않는 위치들에서 발생할 수 있다. 이러한 시나리오가 도 4에 예시된다.

비트스트림(B) 및 비디오 프레임들의 연관된 스트림은 비트스트림 프레임들의 또다른 비트스트림(A2) 및 비디오 프레임들의 또다른 스트림(V2)에 의해 도 4에 예시되며, 시간(t)은 우측으로 전파한다.

도 3에 관해 기술된 예시적인 시나리오와 유사하게, 비트스트림 프레임들은 4개의 비트스트림 프레임들의 그룹들(410, 430) 내의 오디오 프로세싱 시스템(100)에 의해 제공된다. 그러나, 독립적으로 코딩된 비디오 프레임(I)이 비디오 프레임들의 스트림(V2)에서 일단 검출되면, 4개의 연속적인 비트스트림 프레임들(421, 422, 423, 424)은 이들 각각에 대해 단축된 스트라이드를 사용하는 오디오 프로세싱 시스템(100)에 의해 인코딩된다. 비디오 프레임들의 스트림(V2) 내의 독립적으로 코딩된 비디오 프레임(I)의 위치에 따라, 독립적으로 코딩된 비디오 프레임(I)은 단축된 변환 스트라이드를 사용하여 제공되는 4개의 비트스트림 프레임들(421, 422, 423, 424) 중 임의의 하나에 대응할 수 있다. 본 시나리오에서, 독립적으로 코딩된 비트스트림 프레임(423)은, 기본 스트라이드를 사용하여 인코딩되는 비트스트림(A2) 내의 4개의 비트스트림 프레임들의 임의의 그룹들에 대해, 비디오 프레임들의 스트림(V2) 내의 독립적으로 코딩된 비디오 프레임(I)의 위치와는 무관하게, 독립적으로 코딩된 비디오(I)에 대응하는 비트스트림(A2) 내의 위치에서 제공될 수 있다. 본 시나리오에서, 비트스트림 프레임들은, 비디오 프레임들의 스트림(V2) 내의 독립적으로 코딩된 비디오 프레임들(I)의 존재와는 무관하게, 4개의 비트스트림 프레임들의 그룹들 내에서 정렬된다.

예시적인 실시예에 따르면, 도 2는 오디오 비트스트림에 의해 오디오 신호를 나타내는 방법(200)의 플로우 차트이다. 방법(110)은, 도 1에 관해 기술된, 오디오 인코딩 시스템(100)에 의해 수행되는 방법에 의해 본원에서 예시된다.

방법(200)은 비디오 프레임들의 스트림(V1)의 현재 프레임이 독립적으로 코딩되는지를 검출하는 것(210)을 포함한다. 현재 프레임이 독립적으로 코딩되지 않는 경우(플로우 차트에서 N에 의해 표시됨), 방법(200)은, 적어도 기본 스트라이드를 이용한 신호 분석을 사용함으로써, 오디오 데이터의 디코딩가능한 세트(D)로서 오디오 신호(X)의 세그먼트를 인코딩하고(220); 오디오 데이터의 디코딩가능한 세트(D)를 N개 부분들(D₁, D₂, ..., D_N)로 나누고(230); 각자의 부분들(D₁, D₂, ..., D_N)을 반송하는 N개의 비트스트림 프레임들(F₁, F₂, ..., F_N)을 형성하고(240); 그리고 형성된 비트스트림 프레임들(F₁, F₂, ..., F_N)을 비트스트림 프레임(B)의 일부로서 출력함으로써(250) 계속된다. 방법(200)은 이후 오디오 신호(X)의 다른 세그먼트들을 인코딩하는 것으로 돌아간다.

반면, 비디오 프레임들의 스트림(V1)의 현재 프레임이 독립적으로 코딩되는 경우(플로우 차트에서 Y에 의해 표시됨), 방법(200)은 대신, 적어도 단축된 스트라이드를 이용한 신호 분석을 사용함으로써 오디오 신호(X)의 세그먼트를 오디오 데이터의 디코딩가능한 세트로서 인코딩하고(260); 그리고 비트스트림(B) 내에 오디오 데이터의 제2 디코딩가능한 세트를 반송하는 비트스트림 프레임을 포함시키는 것(270)에 의해 계속된다. 방법(200)은 이후 오디오 신호(X)의 다른 세그먼트들을 디코딩하는 것으로 돌아간다.

예시적인 실시예에 따르면, 도 5는 비트스트림에 의해 표현되는 오디오 신호를 재구성하기 위한 오디오 프로세싱 시스템(500)의 일반화된 블록도이다.

본 예시적인 실시예에서, 비트스트림은 도 1에 관해 기술된, 오디오 프로세싱 시스템(100)에 의해 출력되는 비트스트림(B)에 의해 예시된다. 오디오 프로세싱 시스템(500)에 의해 수신되기 이전에 예를 들어, 프레임 드롭들 및/또는 프레임 복제들에 의해 수정된 비트스트림들을 오디오 프로세싱 시스템(500)이 수신하는 예시적인 실시예들이 또한 하기에 기술된다.

오디오 프로세싱 시스템(500)은 버퍼(510) 및 디코딩 섹션(520)을 포함한다. 버퍼(510)는 N개의 각자의 비트스트림 프레임들(F₁, F₂, ..., F_N)에 의해 반송되는 오디오 데이터의 세트들(D₁, D₂, ..., D_N)을 제1 프레임 레이트, 예를 들어, 30 fps에, 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응하는 오디오 데이터의 하나의 디코딩가능한 세트(D)로 결합시킨다. 도 1에 관해 기술되는 바와 같이, 비트스트림 프레임들(F₁, F₂, ..., F_N)은 비트스트림 프레임 당 오디오 신호의 샘플들의 제2 개수에 대응하는 제2 프레임 레이트를 가지며, 샘플들의 제1 개수는 샘플들의 제2 개수의 N배이다. 버퍼(510)는 결합될 오디오 데이터의 세트들(D₁, D₂, ..., D_N)을 반송하는 프레임들(F₁, F₂, ..., F_N)을 식별하기 위해 비트스트림 프레임들에 의해 반송되는 메타데이터(μ₁, μ₂, ..., μ_N)를 사용한다.

디코딩 섹션(520)은, 도 1에 관해 기술된 기본 스트라이드, 즉, 오디오 신호(X)의 샘플들의 제1 개수에 대응하는 기본 스트라이드를 이용하여, 오디오 데이터의 디코딩가능한 세트(D)에 기초하여, 신호 합성을 사용함으로써 오디오 데이터의 디코딩가능한 세트(D)를 오디오 신호(X)의 세그먼트로 디코딩한다. 오디오 프로세싱 시스템(500)은 오디오 신호(X)의 재구성된 버전(X)을 출력한다.

도 1에 관해 기술된 바와 같이, 오디오 신호(X)는 멀티채널 오디오 신호이고, 오디오 데이터의 디코딩가능한 세트(D)는 다운믹스 신호 및 오디오 신호(X)의 파라메트릭 재구성을 위한 연관된 업믹스 파라미터들을 포함한다. 디코딩 섹션(520)은 기본 스트라이드를 사용하여, 오디오 신호(X)의 세그먼트의 주파수-도메인 표현의 파라메트릭 재구성을 수행한다. 디코딩 섹션(520)은 이후 오디오 신호(X)의 세그먼트의 시간-도메인 표현을 획득하기 위해, 변환 스트라이드로서 기본 스트라이드를 가지는 윈도우화된 변환, 예를 들어, 역 MDCT를 적용한다.

파라메트릭 재구성이 윈도우화된 변환과는 상이한 스트라이드를 이용하여 수행되는 실시예들이 또한 참작될 수 있다. 예를 들어, 윈도우화된 변환이 기본 스트라이드보다 더 짧은 변환 스트라이드를 사용하며, 파라메트릭 재구성이 기본 스트라이드를 이용하여 수행되는 실시예들이 참작될 수 있다.

도 3 및 4에 관해 기술되는 바와 같이, 비트스트림(B)은, 오디오 데이터의 디코딩가능한 세트들, 즉, 단축된 스트라이드를 사용함으로써 서로 독립적으로 디코딩가능한 오디오 데이터의 세트들을 반송하는 비트스트림 프레임들을 포함할 수 있다. 오디오 프로세싱 시스템(500)은 예를 들어, 단축된 스트라이드를 사용하는 오디오 데이터의 디코딩가능한 세트를 디코딩하도록 구성되는 추가적인 디코딩 섹션(도 5에 미도시됨)을 포함할 수 있다. 대안적으로, 디코딩 섹션(520)은 단축된 스트라이드를 사용하여 오디오 데이터의 이러한 디코딩가능한 세트를 디코딩하도록 동작가능할 수 있고, 버퍼(510)는 다른 비트스트림 프레임들로부터의 오디오 데이터와 결합시키지 않고 오디오 데이터의 이러한 디코딩가능한 세트를 디코딩 섹션(520)으로 전달하도록 동작가능할 수 있다.

단축된 스트라이드르 사용하여 디코딩된 오디오 신호(X)의 세그먼트들과, 기본 스트라이드를 사용하여 디코딩된 오디오 신호(X)의 세그먼트들 사이의 매끄러운 스위칭을 허용하기 위해, 오디오 프로세싱 시스템(500)은 예를 들어, 제2 프레임 레이트에서 N개의 연속적인 비트스트림 프레임들의 그룹을 디코딩하는 것, 즉, 단축된 스트라이드를 사용하는 것이, 비트스트림 프레임들이 각각 디코딩을 위해 오디오 데이터의 디코딩가능한 세트로의 결합을 요구하는 오디오 데이터의 세트들을 반송한 것처럼 동시에 완료되도록 지연을 제공할 수 있다. 버퍼(510)는 예를 들어, 오디오 데이터의 디코딩가능한 세트들을 디코딩 섹션(520)에 전송하기 이전에 이들을 버퍼링시킴으로써 이러한 지연을 제공할 수 있다. 대안적으로, 디코딩 섹션(520)은, 오디오 신호(X)의 재구성된 세그먼트들을 출력으로서 제공하기 이전에, 이들을 버퍼링시킴으로써 지연을 제공할 수 있다.

도 1에 관해 기술된 오디오 프로세싱 시스템(100)에 의해 출력되는 오디오 비트스트림(B)은 예를 들어, 다른 비트스트림들과 스플라이싱함으로써, 또는 그것이 도 5에 관해 기술되는 오디오 프로세싱 시스템(500)에 의해 수신되기 이전에 프레임 드롭/복제에 의해 수정되었을 수 있다.

도 3에 관해 기술된 바와 같이, 비트스트림 프레임들은 비디오 프레임들의 연관된 스트림(V1) 내의 대응하는 비디오 프레임들과 동일한 듀레이션들을 가질 수 있다. 시청각 데이터 스트림들에서 이러한 동기화된 오디오 스트림들(A1) 및 비디오 스트림들(V1)을 사용하는 것은 시청각 스트림들의 스플라이싱 및/또는 동기화를 용이하게 한다.

스플라이싱을 수행하는 디바이스 또는 컴포넌트들은 어떤 타입들의 비트스트림 프레임들이 스플라이싱 전 또는 스플라이싱 후에 배열되는지를 고려할 필요가 없을 수도 있다. 대신, 오디오 프로세싱 시스템(500)은 오디오 데이터의 디코딩가능한 세트(D)의 각자의 부분들(D₁, D₂, ..., D_N)을 반송하는 그룹의 N개의 비트스트림 프레임들(F₁, F₂, ..., F_N)중 일부가 예를 들어, 스플라이싱 및/또는 프레임 드롭/복제로 인해, 수신된 비트스트림(B)에서 유실되는 상황을 핸들링하도록 조정될 수 있다. 오디오 프로세싱 시스템(500)은 예를 들어, 각자의 비트스트림 프레임들(F₁, F₂, ..., F_N)에 의해 반송되는 메타데이터(μ₁, μ₂, ..., μ_N)에 기초하여, 비트스트림 프레임들이 유실됨을 검출하도록 구성될 수 있다.

일단 디코딩을 위해 요구되는 비트스트림 프레임들이 유실되었음이 검출되면, 오디오 프로세싱 시스템(500)은 오디오 신호(X)의 디코딩을 계속하기 위해 예를 들어, 에러 은닉 전략을 사용할 수 있다. 은닉 전략은 예를 들어, 비트스트림 프레임들의 불완전한 그룹, 즉, 하나 이상의 비트스트림 프레임들이 수신된 비트스트림에서 유실되는 그룹 내의 비트스트림 프레임들에 의해 반송되는 오디오 데이터를 사일런스(silence)로(예를 들어, 오디오 신호(X)에 대한 주파수-도메인 계수들로서 제로들로) 대체하는 것을 포함할 수 있다. 페이드-아웃 및/또는 페이드-인은 예를 들어, 청취자에 의해 인지되는 것으로서, 오디오 신호(X)의 디코딩가능한 세그먼트들과, 오디오 신호(X)의 디코딩-불가능한 세그먼트들을 대체하는 사일런스 사이의 더 매끄러운 천이들을 제공하기 위해, 오디오 프로세싱 시스템(500)에 의해 사용될 수 있다.

일부 예시적인 실시예들에서, 오디오 프로세싱 시스템(500)은, 제2 프레임 레이트에 대한 적어도 2개의 상이한 미리 정의된 값들과 연관된, 그러나, 프레임 당 샘플들의 제2 개수에 대한 공통 값과 연관된, 비트스트림들을 수용하도록 구성될 수 있다. 이는 표 1에서 제2 프레임 레이트에 대해 값들 59.940 fps 및 60.000 fps, 및 프레임 당 샘플들의 제2 개수에 대해 공통 값 768에 의해 예시된다. 이러한 프레임 레이트들은 이러한 프레임 레이트들을 가지는 비디오 스트림들과 연관된 오디오 스트림들에 대해 유용할 수 있다.

본 예에서, 제2 프레임 레이트의 값들은 5% 미만만큼 상이하다. 오디오 프로세싱 시스템(500)은 제2 프레임 레이트의 이러한 2개의 상이한 값들에 대한 기본 스트라이드에 대해 동일한 값을 사용하여 오디오 신호(X)를 디코딩하도록 조정될 수 있다. 출원인의 공동-계류중인, 아직 공개되지 않은, 특허 출원 제PCT/EP2014/056848호에 기술된 바와 같이(특히, 도 1 및 표 1을 기술하는, 섹션 "II. 예시적인 실시예들" 파트를 참조하라), 제2 프레임 레이트에서의 차이에 의해 야기되는 디코딩 섹션(520)의 내부 샘플링 주파수의 변형은, 청취자에 의해 인지되는 것으로서 재구성된 오디오 신호(X)의 수용가능한 재생 품질이 여전히 오디오 프로세싱 시스템(500)에 의해 재공될 수 있도록, 통상적으로 작을 수 있다. 5% 미만만큼 상이한 제2 프레임 레이트의 값들의 표 1에서의 또다른 예는 제2 프레임 레이트에 대해서는 값들 119.880 fps 및 120.000 fps, 및 프레임 당 샘플들의 제2 개수에 대해서는 공통 값 384에 의해 주어진다.

표 1에 도시된 바와 같이, 비디오 프레임 레이트가 60.00 fps인 경우, 제2 프레임 레이트 60.000 fps를 가지는 N = 2 개의 비트스트림 프레임들이 제1 프레임 레이트 30.000 fps를 가지는 오디오 데이터의 하나의 디코딩가능한 세트를 나타내기 위해 사용될 수 있다. 유사하게, 비디오 프레임 레이트가 59.940 fps인 경우, 제2 프레임 레이트 59.940를 가지는 N=2개의 비트스트림 프레임들이 제1 프레임 레이트 29.970 fps를 가지는 오디오 데이터의 하나의 디코딩가능한 세트를 나타내기 위해 사용될 수 있다. 표 1는 또한 비디오 프레임 레이트가 120 fps인 경우, 제2 프레임 레이트 120.000를 가지는 N=4개의 비트스트림 프레임들이 제1 프레임 레이트 30.000 fps를 가지는 오디오 데이터의 하나의 디코딩가능한 세트를 나타내기 위해 사용될 수 있음을 또한 보여준다. 유사하게, 비디오 프레임 레이트가 119.880 fps인 경우, 제2 프레임 레이트 119.880를 가지는 N = 4개의 비트스트림 프레임들은 제1 프레임 레이트 29.970 fps를 가지는 오디오 데이터의 하나의 디코딩가능한 세트를 나타내기 위해 사용될 수 있다.

예시적인 실시예에 따르면, 도 6은 비트스트림에 의해 표현되는 오디오 신호를 재구성하는 오디오 프로세싱 방법(600)의 플로우차트이다. 방법(600)은 도 5에 관해 기술된 오디오 프로세싱 시스템(500)에 의해 수행되는 방법에 의해 본원에 예시된다.

방법(600)은 수신된 비트스트림 프레임이 제2 프레임 레이트에 대응하는 오디오 데이터의 디코딩가능한 세트를 반송하는지를 검출하는 것(610)을 포함한다.

만약 검출하지 않는다면(플로우차트에서 N에 위해 표시됨), 방법(600)은 N개의 각자의 비트스트림 프레임들(F₁, F₂, ..., F_N)에 의해 반송되는 오디오 데이터의 세트들(D₁, D₂, ..., D_N)을 제1 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응하는 오디오 데이터의 하나의 디코딩가능한 세트(D)로 결합시키고(620); 오디오 신호(X)의 샘플들의 제1 개수에 대응하는 기본 스트라이드를 이용하여, 데이터의 디코딩가능한 세트(D)에 기초하여, 적어도 신호 합성을 사용함으로써 오디오 데이터의 디코딩가능한 세트(D)를 오디오 신호(X)의 세그먼트로 디코딩함으로써(630) 계속된다. 방법(600)은 이후 다음 수신되는 비트스트림 프레임이 오디오 데이터의 디코딩가능한 세트를 반송하는지를 검출하는 단계(610)로 돌아간다.

만약 검출한다면(플로우차트에서 Y에 의해 표시됨), 방법(600)은 대신, 적어도 오디오 신호(X)의 샘플들의 제2 개수에 대응하는 단축된 스트라이드를 사용함으로써, 제2 프레임 레이트에 대응하는 오디오 데이터의 디코딩가능한 세트를 오디오 데이터(X)의 세그먼트로 디코딩함으로써(640) 계속한다. 방법(600)은 이후 다음 수신되는 비트스트림 프레임이 오디오 데이터의 디코딩가능한 세트를 반송하는지를 검출하는 단계(610)로 돌아간다.

예시적인 실시예에 따르면, 도 7은 오디오 신호를 나타내는 오디오 비트스트림을 트랜스코딩하기 위한 오디오 프로세싱 시스템(700)의 일반화된 블록도이다.

오디오 프로세싱 시스템(700)은 수신 섹션(710), 선택적 프로세싱 섹션(720), 및 리프레이밍 섹션(730)을 포함한다. 수신 섹션(710)은 예를 들어, 도 1에 관해 기술된 제1 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응하는 오디오 데이터의 디코딩가능한 세트들(D)의 시퀀스를 포함하는 비트스트림(B1)을 수신한다. 수신 섹션(710)은 비트스트림(B1)으로부터 오디오 데이터의 디코딩가능한 세트(D)를 추출한다.

(선택적) 프로세싱 섹션(720)은 오디오 데이터의 디코딩가능한 세트(D)를 프로세싱한다. 프로세싱의 속성에 따라, 이는 오디오 데이터를 변환 또는 파형 표현으로 초기에 디코딩하는 것을 요구할 수 있고; 프로세싱 섹션(720)은 이후 시퀀스 신호 합성, 프로세싱, 신호 분석을 수행할 수 있다.

리프레이밍 섹션(730)은 오디오 데이터의 프로세싱된 디코딩가능한 세트 D를 N개 부분들(D₁, D₂, ..., D_N)로 나누고, 각자의 부분들(D₁, D₂, ..., D_N)을 반송하는 N개의 비트스트림 프레임들(F₁, F₂, ..., F_N)을 형성한다. 본 예시적인 실시예에서, 리프레이밍 섹션(730)은 도 1에 관해 기술된 오디오 프로세싱 시스템(100) 내의 리프레이밍 섹션(120)과 동일한 동작들을 수행한다. 따라서, 비트스트림 프레임들(F₁, F₂, ..., F_N)은 비트스트림 프레임 당 오디오 신호의 샘플들의 제2 개수에 대응하는 제2 프레임 레이트를 가지고, 리프레이밍 섹션(730)은 형성된 N개의 비트스트림 프레임들(F₁, F₂, ..., F_N)을 포함하는 비트스트림 프레임들로 세그먼트화된 비트스트림(B2)을 출력한다.

오디오 프로세싱 시스템(700)에 의해 출력되는 비트스트림(B2)은 예를 들어, 도 1에 관해 기술된 오디오 프로세싱 시스템(100)에 의해 출력되는 비트스트림(B)과 일치할 수 있다. 오디오 프로세싱 시스템(700)에 의해 수신되는 비트스트림(B1)은 예를 들어, 종래 기술에 알려진 오디오 인코더에 의해 제공되는 30 fps 오디오 비트스트림일 수 있다.

예시적인 실시예들에 따라, 도 1 및 5에 관해 기술된 비트스트림(B), 및 도 3에 관해 기술된 비트스트림 프레임들의 비트스트림(A1)이, 오디오 신호(X)를 나타내며 비트스트림 프레임들로 세그먼트화되는 컴퓨터-판독가능한 매체의 예들이라는 것이 이해될 것이다.

N이 1보다 더 큰 임의의 정수일 수 있다는 것이 또한 이해될 것이다.

VI. 등가물들, 확장들, 대안들 및 기타

본 개시내용이 특정 예시적인 실시예들을 기술하고 도시하지만, 발명은 이러한 특정 예들로 제한되지 않는다. 위의 예시적인 실시예들에 대한 수정들 및 변형들은 첨부된 청구항들에 의해서만 정의되는 발명의 범위로부터 벗어나지 않고 이루어질 수 있다.

청구항들에서, 단어 "포함하는"은 다른 엘리먼트들 또는 단계들을 배제하지 않으며, 부정관사("a" 또는 "an")는 복수를 배제하지 않는다. 특정 수단들이 상호 상이한 종속 청구항들에서 인용된다는 단순한 사실은 이러한 수단들이 유리하게 사용될 수 없다는 것을 나타내지 않는다. 청구항들에서 나타나는 임의의 참조 부호들은 이들의 범위를 제한하는 것으로서 이해되지 않는다.

위에 개시된 디바이스들 및 방법들은 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로서 구현될 수 있다. 하드웨어 구현예에서, 위의 기재에서 기술된 기능 유닛들 사이의 작업들의 분할은 물리적 유닛들로의 분할에 반드시 대응하지는 않으며; 반면, 하나의 물리적 컴포넌트는 다수의 기능성들을 가질 수 있고, 하나의 작업은 협업 시 몇몇 물리적 컴포넌트들에 의해, 분산 방식으로 수행될 수 있다. 특정 컴포넌트들 또는 모든 컴포넌트들은 디지털 프로세서, 신호 프로세서 또는 마이크로프로세서에 의해 실행되는 소프트웨어로서 구현될 수 있거나, 또는 하드웨어로서 또는 애플리케이션-특정 집적 회로로서 구현될 수 있다. 이러한 소프트웨어는, 컴퓨터 저장 매체(또는 비-일시적 매체) 및 통신 매체(또는 일시적 매체)를 포함할 수 있는, 컴퓨터 판독가능한 매체 상에서 분산될 수 있다. 본 기술분야의 통상의 기술자에게 널리 공지된 바와 같이, 용어 컴퓨터 저장 매체는 컴퓨터 판독가능한 명령어들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터와 같은 정보의 저장을 위해 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 제거가능 및 제거불가능 매체 모두를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다목적 디스크들(DVD) 또는 다른 광 디스크 저장소, 자기 카세트들, 자기 테이프, 자기 디스크 저장소 또는 다른 자기 저장 디바이스들, 또는 원하는 정보를 저장하기 위해 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만, 이에 제한되지는 않는다. 또한, 통신 매체는 컴퓨터 판독가능한 명령어들, 데이터 구조들, 프로그램 모듈들 또는 반송파 또는 다른 전송 메커니즘과 같은 변조된 데이터 신호 내의 다른 데이터를 통상적으로 내장하며, 임의의 정보 전달 매체를 포함한다는 것이 통상의 기술자에게 널리 공지된다.

Claims

오디오 신호(X)를 오디오 비트스트림(B)으로서 나타내는 방법(200)으로서,
상기 오디오 신호의 샘플들의 제1 개수에 대응하는 기본 스트라이드(basic stride)를 이용하여, 상기 오디오 신호의 세그먼트 상에서, 적어도 신호 분석을 수행함으로써 상기 오디오 신호의 세그먼트를 오디오 데이터의 하나의 디코딩가능한 세트(D)로서 인코딩(220)하는 단계 ― 상기 오디오 데이터의 디코딩가능한 세트는 제1 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응함 ― ;
상기 오디오 데이터의 디코딩가능한 세트를 N개 부분들(D₁, D₂, ..., D_N)로 나누는 단계(230) ― 여기서, N ≥ 2임 ― ;
각자의 상기 부분들을 반송하는 N개의 비트스트림 프레임들(F₁, F₂, ..., F_N)을 형성하는 단계(240) ― 상기 비트스트림 프레임들은 비트스트림 프레임 당 오디오 신호의 샘플들의 제2 개수에 대응하는 제2 프레임 레이트를 가지고, 상기 샘플들의 제1 개수는 상기 샘플들의 제2 개수의 N배임 ― ; 및
이전에 형성된 N개의 비트스트림 프레임들을 포함하는 비트스트림 프레임들로 세그먼트화된 비트스트림을 출력하는 단계(250)
를 포함하는, 방법.
제1항에 있어서,
상기 신호 분석을 수행하는 것은, 상기 기본 스트라이드를 이용하여,
스펙트럼 분석,
에너지 분석,
엔트로피 분석
을 포함하는 그룹 중 적어도 하나를 수행하는 것을 포함하는, 방법.
제1항 또는 제2항에 있어서,
상기 오디오 신호의 세그먼트를 인코딩하는 단계는:
상기 기본 스트라이드를 변환 스트라이드로서 가지는 윈도우화된 변환을 적용하는 것;
다운믹스 신호(downmix signal), 및 상기 다운믹스 신호로부터의 상기 오디오 신호의 파라메트릭(parametric) 재구성을 위한 파라미터들을 계산하는 것 - 상기 파라미터들은 상기 신호 분석에 기초하여 계산됨 -
을 포함하는 그룹 중 적어도 하나를 포함하는, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 부분들을 반송하는 N개의 비트스트림 프레임들 중 적어도 하나 내에 메타데이터(μ₁, μ₂, ..., μ_N)를 포함시키는 단계 - 상기 메타데이터는 오디오 데이터의 완전한 디코딩가능한 세트가 상기 N개의 비트스트림 프레임들에 의해 반송되는 부분들로부터 획득가능함을 나타냄 - 를 더 포함하는, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 오디오 비트스트림은 비디오 프레임들(V1, V2)의 스트림과 연관되고, 상기 방법은:
특정 타입(I)의 비디오 프레임을 포함하는 상기 비디오 프레임들의 스트림에 응답하여, 상기 오디오 신호의 샘플들의 상기 제2 개수에 대응하는 단축된 스트라이드를 이용하여, 상기 비디오 프레임에 시간상으로 관련된 오디오 신호의 세그먼트 상에서, 적어도 신호 분석을 수행함으로써 상기 비디오 프레임에 시간상으로 관련된 오디오 신호의 세그먼트를 오디오 데이터의 제2 디코딩가능한 세트로서 인코딩하는 단계(260) ― 상기 오디오 데이터의 제2 디코딩가능한 세트는 상기 제2 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 상기 제2 개수에 대응함 ― ; 및
상기 비트스트림 내에 오디오 데이터의 제2 디코딩가능한 세트를 반송하는 비트스트림 프레임(321)을 포함시키는 단계(270)
를 더 포함하는, 방법.
제5항에 있어서,
상기 타입의 비디오 프레임을 포함하는 상기 비디오 프레임들의 스트림에 응답하여, N개의 연속적인 세그먼트들 각각에 대해, 적어도 단축된 스트라이드를 이용한 신호 분석을 적용함으로써 상기 오디오 신호의 N개의 연속적인 세그먼트들을 오디오 데이터의 각자의 디코딩가능한 세트들로서 인코딩하는 단계 ― 상기 비디오 프레임에 시간 상으로 관련된 상기 세그먼트는 상기 N개의 연속적인 세그먼트들 중 하나임 ― ; 및
상기 비트스트림 내에 상기 N개의 연속적인 세그먼트들과 연관된 오디오 데이터의 각자의 디코딩가능한 세트들을 반송하는 비트스트림 프레임들(421, 422, 423, 424)을 포함시키는 단계
를 포함하는, 방법.
오디오 신호(X)를 오디오 비트스트림(B)에 의해 나타내기 위한 오디오 프로세싱 시스템(100)으로서,
상기 오디오 신호의 샘플들의 제1 개수에 대응하는 기본 스트라이드를 이용하여, 상기 오디오 신호의 세그먼트 상에서, 적어도 신호 분석을 수행함으로써 상기 오디오 신호의 세그먼트를 오디오 데이터의 하나의 디코딩가능한 세트(D)로서 인코딩하도록 구성되는 인코딩 섹션(110) ― 상기 오디오 데이터의 디코딩가능한 세트는 제1 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응함 ― ;
상기 오디오 데이터의 디코딩가능한 세트를 N개 부분들(D₁, D₂, ..., D_N)로 나누고 ― 여기서, N ≥ 2임 ― ;
각자의 상기 부분들을 반송하는 N개의 비트스트림 프레임들(F₁, F₂, ..., F_N)을 형성하고 ― 상기 비트스트림 프레임들은 비트스트림 프레임 당 오디오 신호의 샘플들의 제2 개수에 대응하는 제2 프레임 레이트를 가지고, 상기 샘플들의 제1 개수는 상기 샘플들의 제2 개수의 N배임 ― ;
이전에 형성된 N개의 비트스트림 프레임들을 포함하는 비트스트림 프레임들로 세그먼트화된 비트스트림을 출력하도록
구성되는 리프레이밍 섹션(reframing section)(120)
을 포함하는, 시스템.
비트스트림 프레임들로 세그먼트화된 비트스트림(B)에 의해 표현되는 오디오 신호(X)를 재구성하는 방법(600)으로서,
N개의 각자의 비트스트림 프레임들(F₁, F₂, ..., F_N)에 의해 반송되는 오디오 데이터의 세트들(D₁, D₂, ..., D_N)을, 제1 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응하는 오디오 데이터의 하나의 디코딩가능한 세트(D)로 결합시키는 단계(620) ― 여기서, N ≥ 2이고, 비트스트림 프레임들은 비트스트림 프레임 당 오디오 신호의 샘플들의 제2 개수에 대응하는 제2 프레임 레이트를 가지고, 상기 샘플들의 제1 개수는 상기 샘플들의 제2 개수의 N배임 ― ; 및
상기 오디오 신호의 샘플들의 제1 개수에 대응하는 기본 스트라이드를 이용하여, 상기 데이터의 디코딩가능한 세트에 기초하여, 적어도 신호 합성을 사용함으로써 상기 오디오 데이터의 디코딩가능한 세트를 오디오 신호의 세그먼트로 디코딩하는 단계(630)
를 포함하는, 방법.
제8항에 있어서,
상기 오디오 데이터의 디코딩가능한 세트를 디코딩하는 단계는:
상기 기본 스트라이드를 변환 스트라이드로서 가지는 윈도우화된 변환을 적용하는 것;
다운믹스 신호, 및 오디오 데이터의 디코딩가능한 세트로부터 획득되는 연관된 파라미터들에 기초하여, 상기 오디오 신호의 세그먼트의, 상기 기본 스트라이드를 이용한, 파라메트릭 재구성을 수행하는 것
을 포함하는 그룹 중 적어도 하나를 포함하는, 방법.
제8항 또는 제9항에 있어서,
오디오 데이터의 세트들이 오디오 데이터의 디코딩가능한 세트로 결합되는, 상기 N개의 비트스트림 프레임들은 N개의 연속적인 비트스트림 프레임들인, 방법.
제8항 내지 제10항 중 어느 한 항에 있어서,
상기 비트스트림 내의 비트스트림 프레임들의 적어도 일부에 의해 반송되는 메타데이터(μ₁, μ₂, ..., μ_N)에 기초하여, 오디오 데이터의 불완전한 세트들을 오디오 데이터의 디코딩가능한 세트로 결합시킬 비트스트림 프레임들의 그룹을 결정하는 단계를 더 포함하는, 방법.
제8항 내지 제11항 중 어느 한 항에 있어서,
비트스트림 프레임이 상기 제2 프레임 레이트에 대응하는 오디오 데이터의 디코딩가능한 세트를 반송하는지를 검출하는 단계(610); 및
상기 샘플들의 제2 개수에 대응하는 단축된 스트라이드를 이용하여, 상기 제2 프레임 레이트에 대응하는 오디오 데이터의 디코딩가능한 세트에 기초하여, 적어도 신호 합성을 사용함으로써 상기 제2 프레임 레이트에 대응하는 오디오 데이터의 디코딩가능한 세트를 상기 오디오 신호의 세그먼트로 디코딩하는 단계(640)
를 더 포함하는, 방법.
제12항에 있어서,
상기 제2 프레임 레이트에 대응하는 오디오 데이터의 디코딩가능한 세트를 디코딩하는 단계는, N개의 비트스트림 프레임들의 그룹의 비트스트림 프레임들이 각각 오디오 데이터의 디코딩가능한 세트로 결합할 것을 요구하는 오디오 데이터의 세트들을 반송한 것처럼 동시에 상기 제2 프레임 레이트에서 N개의 연속적인 비트스트림 프레임들의 그룹의 디코딩이 완료되도록 지연을 제공하는 것을 포함하는, 방법.
제13항에 있어서,
상기 지연은 상기 제2 프레임 레이트에 대응하는 오디오 데이터의 적어도 하나의 디코딩가능한 세트를 버퍼링시키거나, 또는 상기 오디오 신호의 적어도 하나의 세그먼트를 버퍼링시킴으로써 제공되는, 방법.
제8항 내지 제14항 중 어느 한 항에 있어서,
상기 비트스트림은 상기 제2 프레임 레이트와 일치하는 프레임 레이트를 가지는 비디오 프레임들(V1, V2)의 스트림과 연관되는, 방법.
제8항 내지 제15항 중 어느 한 항에 있어서,
상기 제1 프레임 레이트에 대응하는 오디오 데이터의 디코딩가능한 세트에 기초하여 상기 오디오 신호의 세그먼트를 디코딩하는 단계는:
상기 제1 프레임 레이트에 대응하는 오디오 데이터의 디코딩가능한 세트에 대응하는 양자화된 스펙트럼 계수들을 수신하는 것;
역양자화를 수행하며 후속적으로 주파수-대-시간 변환을 수행하여, 이에 의해 중간 오디오 신호의 표현이 획득되는 것;
상기 중간 오디오 신호에 대해 주파수 도메인에서 적어도 하나의 프로세싱 단계를 수행하는 것; 및
상기 프로세싱된 오디오 신호의 샘플링 레이트를 타겟 샘플링 주파수로 변경시켜서, 이에 의해 재구성된 오디오 신호의 시간-도메인 표현이 획득되는 것
을 포함하는, 방법.
제16항에 있어서,
상기 제2 프레임 레이트에 대한 적어도 2개의 상이한 값들과 연관되지만 프레임 당 샘플들의 제2 개수에 대한 공통 값과 연관되는 비트스트림들을 수용하는 단계를 더 포함하고, 상기 제2 프레임 레이트의 각자의 값들은 기껏해야 5%만큼 상이하고, 상기 주파수-대-시간 변환은 상기 제2 프레임 레이트에 대한 상기 적어도 2개의 상이한 값들에 대한 변환 스트라이드로서 상기 기본 스트라이드에 대한 공통의 미리 정의된 값을 가지는 윈도우화된 변환을 사용하도록 구성되는 기능 컴포넌트에서 수행되는, 방법.
비트스트림 프레임들로 세그먼트화된 비트스트림(B)에 의해 표현되는 오디오 신호(X)를 재구성하기 위한 오디오 프로세싱 시스템(500)으로서,
N개의 각자의 비트스트림 프레임들(F₁, F₂, ..., F_N)에 의해 반송되는 오디오 데이터의 세트들(D₁, D₂, ..., D_N)을 제1 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응하는 오디오 데이터의 하나의 디코딩가능한 세트(D)로 결합시키도록 구성되는 버퍼(510) ― 여기서, N ≥ 2이고, 상기 비트스트림 프레임들은 비트스트림 프레임 당 오디오 신호의 샘플들의 제2 개수에 대응하는 제2 프레임 레이트를 가지고, 상기 샘플들의 제1 개수는 상기 샘플들의 제2 개수의 N배임 ― ; 및
상기 오디오 신호의 샘플들의 제1 개수에 대응하는 기본 스트라이드를 이용하여, 상기 오디오 데이터의 디코딩가능한 세트에 기초하여, 적어도 신호 합성을 사용함으로써 상기 오디오 데이터의 디코딩가능한 세트를 상기 오디오 신호의 세그먼트로 디코딩하도록 구성되는 디코딩 섹션(520)
을 포함하는, 시스템.
오디오 신호(X)를 나타내는 오디오 비트스트림(B1)을 트랜스코딩하는 방법으로서,
상기 비트스트림은 제1 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응하는 오디오 데이터의 디코딩가능한 세트들의 시퀀스를 포함하며, 상기 방법은:
상기 비트스트림으로부터 오디오 데이터의 디코딩가능한 세트(D)를 추출하는 단계;
상기 오디오 데이터의 디코딩가능한 세트를 N개 부분들(D₁, D₂, ..., D_N)로 나누는 단계 ― 여기서, N ≥ 2임 ― ;
각자의 상기 부분들을 반송하는 N 개의 비트스트림 프레임들(F₁, F₂, ..., F_N)을 형성하는 단계 ― 상기 비트스트림 프레임들은 비트스트림 프레임 당 오디오 신호의 샘플들의 제2 개수에 대응하는 제2 프레임 레이트를 가지고, 상기 샘플들의 제1 개수는 상기 샘플들의 제2 개수의 N배임 ― ; 및
이전에 형성된 N개의 비트스트림 프레임들을 포함하는 비트스트림 프레임들로 세그먼트화된 비트스트림(B2)을 출력하는 단계
를 포함하는, 방법.
오디오 신호(X)를 나타내는 오디오 비트스트림(B1)을 트랜스코딩하기 위한 오디오 프로세싱 시스템(700)으로서,
상기 비트스트림은 제1 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응하는 오디오 데이터의 디코딩가능한 세트들의 시퀀스를 포함하고, 상기 오디오 프로세싱 시스템은:
상기 비트스트림으로부터 오디오 데이터의 디코딩가능한 세트(D)를 추출하도록 구성되는 수신 섹션(710); 및
상기 오디오 데이터의 디코딩가능한 세트를 N개 부분들(D₁, D₂, ..., D_N)로 나누고 ― 여기서, N ≥ 2임 ― ;
각자의 상기 부분들을 반송하는 N개의 비트스트림 프레임들(F₁, F₂, ..., F_N)을 형성하고 ― 상기 비트스트림 프레임들은 비트스트림 프레임 당 오디오 신호의 샘플들의 제2 개수에 대응하는 제2 프레임 레이트를 가지고, 상기 샘플들의 제1 개수는 상기 샘플들의 제2 개수의 N배임 ― ;
이전에 형성된 N개의 비트스트림 프레임들을 포함하는 비트스트림 프레임들로 세그먼트화된 비트스트림(B2)을 출력하도록
구성되는 리프레이밍 섹션(730)
을 포함하는, 시스템.
제1항 내지 제6항, 제8항 내지 제17항, 및 제19항 중 어느 한 항의 방법을 수행하기 위한 명령어들을 가지는 컴퓨터-판독가능한 매체를 포함하는, 컴퓨터 프로그램 제품.
오디오 신호(X)를 나타내며 비트스트림 프레임들로 세그먼트화되는 컴퓨터-판독가능한 매체(B, A1, A2)로서,
N개의 비트스트림 프레임들(F₁, F₂, ..., F_N)은 제1 프레임 레이트에 그리고 프레임 당 오디오 신호의 샘플들의 제1 개수에 대응하는 오디오 데이터의 하나의 디코딩가능한 세트(D)로 결합가능한 오디오 데이터의 각자의 세트들(D₁, D₂, ..., D_N)을 반송하고, 여기서 N ≥ 2이고;
상기 오디오 데이터의 디코딩가능한 세트는, 상기 오디오 신호의 샘플들의 제1 개수에 대응하는 기본 스트라이드를 이용하여, 상기 오디오 데이터의 디코딩가능한 세트에 기초하여, 적어도 신호 합성을 사용함으로써 상기 오디오 신호의 세그먼트로 디코딩가능하고;
상기 비트스트림 프레임들은 비트스트림 프레임 당 오디오 신호의 샘플들의 제2 개수에 대응하는 제2 프레임 레이트를 가지고;
상기 샘플들의 제1 개수는 상기 샘플들의 제2 개수의 N배인, 컴퓨터-판독가능한 매체.
제22항에 있어서,
상기 N개의 비트스트림 프레임들 중 적어도 하나는 오디오 데이터의 세트들을 오디오 데이터의 디코딩가능한 세트로 결합시킬 비트스트림 프레임들의 그룹을 나타내는 메타데이터(μ₁, μ₂, ..., μ_N)를 반송하는, 컴퓨터-판독가능한 매체.
제22항 또는 제23항에 있어서,
상기 오디오 신호의 샘플들의 제2 개수에 대응하는 단축된 스트라이드를 이용하여, 상기 오디오 데이터의 제2 세트에 기초하여, 적어도 신호 합성을 사용함으로써 상기 오디오 신호의 세그먼트로 디코딩가능한 오디오 데이터의 제2 세트를 반송하는 비트스트림 프레임(321)을 더 포함하는, 컴퓨터-판독가능한 매체.
N=2 또는 N=4인, 제1항 내지 제6항, 제8항 내지 제17항 및 제19항 중 어느 한 항의 방법, 제7항, 제18항 및 제20항 중 어느 한 항의 시스템, 제21항의 컴퓨터 프로그램 제품, 또는 제22항 내지 제24항 중 어느 한 항의 컴퓨터-판독가능한 매체.