KR20200090776A

KR20200090776A - 인코딩 및 디코딩 방법들, 및 대응하는 디바이스들

Info

Publication number: KR20200090776A
Application number: KR1020207014480A
Authority: KR
Inventors: 파브리쓰 르레아넥; 탕기 푸아리에; 야 첸
Original assignee: 인터디지털 브이씨 홀딩스 인코포레이티드
Priority date: 2017-11-23
Filing date: 2018-11-07
Publication date: 2020-07-29
Anticipated expiration: 2038-11-07
Also published as: US11695962B2; KR102854715B1; IL274657B1; IL274657A; CN111386702B; JP7398368B2; EP3714599A1; WO2019103845A1; EP3490253A1; CN111386702A; JP2021504996A; US20200382810A1; CN118450119A; IL274657B2; KR20250135344A

Abstract

디코딩 방법이 개시된다. 먼저, 화상의 블록의 현재 변환 계수와 연관된 신택스 요소에 대한 컨텍스트가 결정된다. 컨텍스트는 상기 블록의 영역, 블록 내의 현재 변환 계수의 위치 및 로컬 템플릿에서의 비-제로 이웃 변환 계수들의 수에 기초하여 결정된다. 둘째로, 신택스 요소들이 적어도 결정된 컨텍스트에 기초하여 디코딩된다. 유리하게도, 로컬 템플릿들은 상기 블록의 모양에 의존한다.

Description

인코딩 및 디코딩 방법들, 및 대응하는 디바이스들

본 실시예들 중 적어도 하나는 일반적으로 화상(picture)의 인코딩 및 디코딩을 위한 방법 및 디바이스에 관한 것으로, 특히 변환 계수들의 엔트로피 코딩 및 디코딩에 관한 것이다.

높은 압축 효율을 달성하기 위해, 이미지 및 비디오 코딩 방식들은 비디오 콘텐츠에서의 공간적 및 시간적 리던던시(spatial and temporal redundancy)를 레버리지(leverage)하기 위해 통상적으로 예측 및 변환을 이용한다. 일반적으로, 인트라(intra) 또는 인터(inter) 예측은 인트라 또는 인터 프레임 상관관계를 이용하기 위해 사용되고, 다음으로, 종종 예측 에러들(prediction errors) 또는 예측 잔차들(prediction residuals)이라고 표시되는, 원본 화상 블록과 예측된 화상 블록 사이의 차이들은 변환(transformed), 양자화(quantized) 및 엔트로피 코딩(entropy coded)된다. 인코딩 동안, 원본 화상 블록은 통상적으로 아마도 쿼드-트리 파티셔닝(quad-tree partitioning)을 사용하여 서브 블록들로 파티션(partitioned)/분할(split)된다. 비디오를 재구성하기 위해, 압축된 데이터는 예측, 변환, 양자화 및 엔트로피 코딩에 대응하는 역 프로세스들(inverse processes)에 의해 디코딩된다.

디코딩 방법으로서,

화상의 블록의 현재 변환 계수와 연관된 신택스 요소(syntax element)에 대한 컨텍스트를, 상기 블록의 영역, 블록 내의 현재 변환 계수의 위치 및 로컬 템플릿에서의 비-제로(non-zero) 이웃 변환 계수들의 개수에 기초하여 결정하는 단계; 및

적어도 결정된 컨텍스트에 기초하여 상기 신택스 요소를 디코딩하는 단계

를 포함하고, 여기서 로컬 템플릿은 상기 블록의 모양(shape)에 의존하는 디코딩 방법이 개시된다.

인코딩 방법으로서,

화상의 블록의 현재 변환 계수와 연관된 신택스 요소에 대한 컨텍스트를, 상기 블록의 영역, 블록 내의 현재 변환 계수의 위치 및 로컬 템플릿에서의 비-제로 이웃 변환 계수들의 개수에 기초하여 결정하는 단계; 및

적어도 결정된 컨텍스트에 기초하여 상기 신택스 요소를 인코딩하는 단계

를 포함하고, 여기서 로컬 템플릿은 상기 블록의 모양에 의존하는 인코딩 방법이 개시된다.

화상의 블록을 나타내는 인코딩된 데이터를 포함하도록 포맷팅된 스트림(stream)이 개시되고, 인코딩된 데이터는 위의 인코딩 방법에 따라 인코딩된다. 스트림을 지니는 컴퓨터 판독 가능 저장 매체가 개시된다.

다양한 실시예들에 따른 위의 인코딩 및 디코딩 방법들에 대한 프로그램 코드 명령어들을 포함하는 소프트웨어 프로그램을 지니는 컴퓨터 판독 가능 저장 매체가 개시된다.

컴퓨터 프로그램이 프로세서에 의해 실행될 때 다양한 실시예들에 따라 인코딩 및 디코딩 방법들을 수행하기 위한 소프트웨어 코드 명령어들을 포함하는 컴퓨터 프로그램이 개시된다.

디코딩 디바이스로서,

화상의 블록의 현재 변환 계수와 연관된 신택스 요소에 대한 컨텍스트를, 상기 블록의 영역, 블록 내의 현재 변환 계수의 위치 및 로컬 템플릿에서의 비-제로 이웃 변환 계수들의 개수에 기초하여 결정하기 위한 수단; 및

적어도 결정된 컨텍스트에 기초하여 상기 신택스 요소를 디코딩하기 위한 수단

을 포함하고, 여기서 로컬 템플릿은 상기 블록의 모양에 의존하는 디코딩 디바이스가 개시된다.

적어도 스트림에 액세스하도록 구성된 통신 인터페이스, 및 적어도 하나의 프로세서를 포함하는 디코딩 디바이스로서, 적어도 하나의 프로세서는:

화상의 블록의 현재 변환 계수와 연관된 신택스 요소에 대한 컨텍스트를, 상기 블록의 영역, 블록 내의 현재 변환 계수의 위치 및 로컬 템플릿에서의 비-제로 이웃 변환 계수들의 개수에 기초하여 결정하고;

적어도 결정된 컨텍스트에 기초하여 액세스된 스트림으로부터의 상기 신택스 요소를 디코딩

하도록 구성되고, 여기서 로컬 템플릿은 상기 블록의 모양에 의존하는 디코딩 디바이스가 개시된다.

인코딩 디바이스로서,

적어도 결정된 컨텍스트에 기초하여 상기 신택스 요소를 인코딩하기 위한 수단

을 포함하고, 여기서 로컬 템플릿은 상기 블록의 모양에 의존하는 인코딩 디바이스가 개시된다.

화상의 블록에 액세스하도록 구성된 통신 인터페이스 및 적어도 하나의 프로세서를 포함하는 인코딩 디바이스로서, 적어도 하나의 프로세서는:

액세스된 블록의 현재 변환 계수와 연관된 신택스 요소에 대한 컨텍스트를, 상기 블록의 영역, 블록 내의 현재 변환 계수의 위치 및 로컬 템플릿에서의 비-제로 이웃 변환 계수들의 개수에 기초하여 결정하고;

적어도 결정된 컨텍스트에 기초하여 상기 신택스 요소를 인코딩

하도록 구성되고, 여기서 로컬 템플릿은 상기 블록의 모양에 의존하는 인코딩 디바이스가 개시된다.

이하의 실시예들은 위에서 개시된 디코딩 방법, 디코딩 디바이스들, 인코딩 방법, 인코딩 디바이스들, 컴퓨터 프로그램, 컴퓨터 판독 가능 저장 매체 및 스트림에 적용된다.

유리하게도, 상기 로컬 템플릿은 블록의 가장 긴 치수(dimension)의 방향을 따라 더 많은 이웃 변환 계수들을 포함한다.

특정 실시예에서, 로컬 템플릿은 현재 블록의 복수의 이웃 변환 계수들을 포함하고, 여기서 상기 복수의 이웃 변환 계수들 및 상기 현재 변환 계수는 상기 현재 블록이 수평 직사각형인 경우 수평 직사각형을 형성하고, 상기 현재 블록이 수직 직사각형인 경우 수직 직사각형을 형성한다.

특정 실시예에서, 상기 컨텍스트는 상기 블록의 스캔 패턴에 기초하여 더 결정된다.

예로서, 로컬 템플릿은 현재 블록의 복수의 이웃 변환 계수들을 포함하고, 상기 복수의 이웃 변환 계수들 및 상기 현재 변환 계수는 상기 스캔 패턴이 수평인 경우 수평 직사각형을 형성하고, 상기 스캔 패턴이 수직인 경우 수직 직사각형을 형성한다.

유리하게도, 상기 신택스 요소는 상기 변환 계수가 비-제로인지 여부(예를 들어, 유의 플래그(significant flag)), 상기 변환 계수가 1보다 큰지 여부, 및 상기 변환 계수가 2보다 큰지 여부 중 적어도 하나를 결정한다.

도 1은 특정하고 비제한적인 실시예에 따른, 비트스트림에서 화상을 인코딩하도록 구성된 송신기의 예시적인 아키텍처(architecture)를 도시한다.
도 2는 도 8 내지 도 10, 도 14 및 도 16 중 임의의 하나의 인코딩 방법을 실행하도록 적응된 예시적인 비디오 인코더를 도시한다.
도 3은 종래 기술에 따른, 코딩 트리 유닛이 코딩 유닛들로 파티셔닝된 것을 도시하고, 코딩 유닛들은 쿼드-트리 및 이진 트리(binary tree)의 대칭 분할 모드들(symmetric split modes)에 따라 분할될 수 있다.
도 4는 도 3에 나타난 코딩 트리 유닛의 분할과 연관된 코딩 트리를 도시한다.
도 5는 종래 기술에 따른 쿼드-트리 및 대칭 이진 트리 분할 모드들을 도시한다.
도 6은 특정하고 비제한적인 실시예에 따른 비대칭 이진 트리 분할 모드들 및 대칭 트리플 트리(symmetric triple tree) 분할 모드들을 도시한다.
도 7은 계수들의 4x4 서브-블록들로 분할된 16x16 변환 블록을 도시한다.
도 8 및 도 9는 특정하고 비제한적인 실시예들에 따른, 비트스트림에서 유의 계수 플래그(significant coefficient flag)를 인코딩하기 위한 방법의 흐름도들을 도시한다.
도 10은 특정하고 비제한적인 실시예들에 따른, 유의 계수 플래그 컨텍스트 증분을 결정하기 위한 방법의 흐름도를 도시한다.
도 11은 세 개의 구역들로 분할된 직사각형 변환 블록들을 도시한다.
도 12는 종래 기술에 따른, 유의 계수 플래그를 인코딩/디코딩하는 데 사용되는 로컬 템플릿을 도시한다.
도 13a 및 도 13b는 특정하고 비제한적인 실시예들에 따른, 유의 계수 플래그를 인코딩/디코딩하는 데 사용되는 새로운 로컬 템플릿들을 도시한다.
도 14는 도 13a 및 도 13b의 새로운 로컬 템플릿들을 사용하는 유의 계수 플래그의 결정을 도시한다.
도 15a 및 도 15b는 특정하고 비제한적인 실시예들에 따른, 유의 계수 플래그를 인코딩/디코딩하는 데 사용되는 새로운 로컬 템플릿들을 도시한다.
도 16은 도 15a 및 도 15b의 새로운 로컬 템플릿들을 사용하는 유의 계수 플래그의 결정을 도시한다.
도 17은 특정하고 비제한적인 실시예에 따라, 디코딩된 화상을 획득하기 위해 비트스트림으로부터의 화상을 디코딩하도록 구성된 수신기(2000)의 예시적인 아키텍처를 도시한다.
도 18은 도 10, 도 14, 도 16, 도 19 및 도 20 중 임의의 하나의 디코딩 방법을 실행하도록 적응된 예시적인 비디오 디코더의 블록도를 도시한다.
도 19는 특정하고 비제한적인 실시예에 따른, 비트스트림으로부터의 화상을 디코딩하기 위한 방법의 흐름도를 도시한다.
도 20은 특정하고 비제한적인 실시예에 따른, 유의 계수 플래그를 디코딩하기 위한 예시적인 방법의 흐름도를 도시한다.

도면들 및 설명들은, 명료함을 위해, 통상적인 인코딩 및/또는 디코딩 디바이스들에서 발견되는 많은 다른 요소들을 제거하면서, 본 실시예들의 명확한 이해에 관련되는 요소들을 예시하기 위해 간략화되었다는 점이 이해되어야 한다. 비록 다양한 요소들을 설명하기 위해 제1 및 제2라는 용어들이 본 명세서에서 사용될 수 있지만, 이러한 요소들은 이러한 용어들에 의해 제한되지 않아야 한다는 것이 이해될 것이다. 이 용어들은 하나의 요소를 다른 요소와 구별하는 데만 사용된다.

화상은 단색 포맷(monochrome format)에서의 루마(luma) 샘플들의 어레이, 또는 4:2:0, 4:2:2 및 4:4:4 컬러 포맷에서의 루마 샘플들의 어레이 및 크로마(chroma) 샘플들의 두 개의 대응하는 어레이들(또는 RGB와 같은 3색 컬러 샘플들의 세 개의 어레이들)이다. 일반적으로, "블록(block)"은 샘플 어레이(예컨대, 루마 Y) 내의 특정 영역을 다루고, "유닛(unit)"은 모든 컬러 컴포넌트들(루마 Y, 및 아마도 크로마 Cb 및 크로마 Cr)의 공동 위치된(collocated) 블록을 포함한다. 슬라이스(slice)는 HEVC 코딩 트리 유닛들 또는 H.264 매크로블록 유닛들과 같은 정수 개수의 기본 코딩 유닛들이다. 슬라이스는 완전한 화상뿐만 아니라 그 일부로 이루어질 수 있다. 각각의 슬라이스는 하나 이상의 슬라이스 세그먼트들을 포함할 수 있다.

이하에서, 단어 "재구성된" 및 "디코딩된"은 상호교환 가능하게 사용될 수 있다. 보통, "재구성된"은 인코더 측에서 사용되며, "디코딩된"은 디코더 측에서 사용되지만 반드시 그러하지는 않다. 용어 "디코딩된" 또는 "재구성된"은 비트스트림이 부분적으로 "디코딩된" 또는 "재구성된" 것, 예를 들어, 디블로킹 필터링(deblocking filtering) 이후, 그러나 SAO 필터링 이전에 획득된 신호를 의미할 수 있고, 재구성된 샘플들은 디스플레이에서 사용되는 최종적으로 디코딩된 출력과 상이할 수 있다는 점에 유의해야 한다. 또한, 용어들 "이미지", "화상", 및 "프레임"도 상호교환 가능하게 사용할 수 있다.

다양한 실시예들이 HEVC 표준에 대해 설명된다. 그러나, 본 실시예들은 HEVC에 제한되지 않으며, 예를 들어 HEVC 또는 포맷 범위(Format Range, RExt), 스케일러빌리티(Scalability, SHVC), 멀티-뷰(Multi-View, MV-HEVC) 확장들 및 H.266과 같은 HEVC 확장들을 포함하는 다른 표준들, 권고들, 및 확장들에 적용될 수 있다. 다양한 실시예들은 슬라이스의 인코딩/디코딩에 관하여 설명된다. 이들은 전체 화상 또는 화상들의 전체 시퀀스(sequence)를 인코딩/디코딩하는 데 적용될 수 있다.

다양한 방법들이 앞서 설명되었고, 방법들 각각은 설명된 방법을 달성하기 위한 하나 이상의 단계들 또는 동작들을 포함한다. 방법의 적절한 동작을 위해 단계들 또는 동작들의 특정 순서가 요구되지 않으면, 특정 단계들 및/또는 동작들의 순서 및/또는 사용은 수정되거나 결합될 수 있다.

도 1은 특정하고 비제한적인 실시예에 따라 비트스트림에서 화상을 인코딩하도록 구성되는 송신기(1000)의 예시적인 아키텍처를 나타낸다.

송신기(1000)는 내부 메모리(1030)(예컨대, RAM, ROM, 및/또는 EPROM)와 함께, 예를 들어, CPU, GPU 및/또는 DSP(디지털 신호 프로세서(Digital Signal Processor)의 영문 두문자어)를 포함할 수 있는, 하나 이상의 프로세서(들)(1005)를 포함한다. 송신기(1000)는, 각각이 출력 정보를 디스플레이하고/하거나 사용자가 명령들 및/또는 데이터를 입력하는 것을 허용하도록 적응되는 하나 이상의 통신 인터페이스(들)(1010)(예컨대, 키보드, 마우스, 터치패드 및 웹캠); 및 송신기(1000)의 외부에 있을 수 있는 전원(1020)을 포함한다. 송신기(1000)는 또한 하나 이상의 네트워크 인터페이스(들)(미도시)를 포함할 수 있다. 인코더 모듈(1040)은 코딩 기능들을 수행하기 위해 디바이스 내에 포함될 수 있는 모듈을 나타낸다. 추가적으로, 인코더 모듈(1040)은 송신기(1000)와 분리된 요소로서 구현될 수 있거나, 본 기술분야의 통상의 기술자에게 공지된 바와 같이 하드웨어와 소프트웨어의 조합으로서 프로세서(들)(1005) 내에 통합될 수 있다.

화상은 소스(source)로부터 획득될 수 있다. 상이한 실시예들에 따르면, 소스는 다음과 같을 수 있지만, 이에 제한되는 것은 아니다:

- 로컬 메모리, 예를 들어, 비디오 메모리, RAM, 플래시 메모리, 하드디스크;

- 저장 인터페이스, 예를 들어, 대용량 저장소, ROM, 광학 디스크 또는 마그네틱 서포트(magnetic support)와의 인터페이스;

- 통신 인터페이스, 예를 들어, 유선 인터페이스(예를 들어, 버스 인터페이스, 광역 네트워크 인터페이스, 로컬 영역 네트워크 인터페이스) 또는 무선 인터페이스(예를 들어, IEEE 802.11 인터페이스 또는 블루투스 인터페이스); 및

- 화상 캡처 회로(예를 들어, CCD(또는 전하 결합 소자(Charge-Coupled Device)) 또는 CMOS(또는 상보성 금속-산화물 반도체(Complementary Metal-Oxide-Semiconductor))와 같은 센서).

상이한 실시예들에 따르면, 비트스트림은 목적지로 전송될 수 있다. 예로서, 비트스트림은 원격 메모리 또는 로컬 메모리, 예를 들어, 비디오 메모리 또는 RAM, 하드디스크에 저장될 수 있다. 변형에서, 비트스트림은 저장 인터페이스, 예를 들어, 대용량 저장소, ROM, 플래시 메모리, 광학 디스크 또는 마그네틱 서포트와의 인터페이스에 전송될 수 있고/있거나 통신 인터페이스, 예를 들어, 포인트-대-포인트 링크, 통신 버스, 포인트-대-멀티포인트 링크 또는 방송 네트워크에 대한 인터페이스에 송신될 수 있다.

예시적이고 비제한적인 실시예에 따르면, 송신기(1000)는 메모리(1030)에 저장된 컴퓨터 프로그램을 더 포함한다. 컴퓨터 프로그램은 송신기(1000)에 의해, 특히 프로세서(1005)에 의해 실행될 때 송신기(1000)가 도 8 내지 도 10, 도 14 및 도 16 중 임의의 하나를 참조하여 설명되는 인코딩 방법을 실행 가능하게 하는 명령어들을 포함한다. 변형에 따르면, 컴퓨터 프로그램은 송신기(1000)의 외부에서, 비-일시적 디지털 데이터 지원, 예를 들어 모두 본 기술분야에서 공지된 HDD, CD-ROM, DVD, 읽기-전용 및/또는 DVD 드라이브 및/또는 DVD 읽기/쓰기 드라이브와 같은 외부 저장 매체 상에 저장된다. 따라서, 송신기(1000)는 컴퓨터 프로그램을 판독하는 메커니즘을 포함한다. 더 나아가서, 송신기(1000)는 대응하는 USB 포트들(미도시)을 통해 하나 이상의 USB(Universal Serial Bus)-타입 저장 디바이스들(예를 들어, "메모리 스틱들")에 액세스할 수 있다.

예시적이고 비제한적인 실시예들에 따르면, 송신기(1000)는 다음과 같을 수 있지만, 이에 제한되는 것은 아니다:

- 모바일 디바이스;

- 통신 디바이스;

- 게임 디바이스;

- 태블릿(또는 태블릿 컴퓨터);

- 랩톱;

- 정지 영상 카메라(still picture camera);

- 비디오 카메라;

- 인코딩 칩 또는 인코딩 디바이스/장치;

- 정지 화상 서버; 및

- 비디오 서버(예를 들어, 방송 서버, 주문형 비디오 서버 또는 웹 서버).

도 2는 도 8 내지 도 10, 도 14 및 도 16 중 임의의 하나의 인코딩 방법을 실행하도록 적응된, 예를 들어 HEVC 타입의 예시적인 비디오 인코더(100)를 도시한다. 인코더(100)는 송신기(1000) 또는 이러한 송신기(1000)의 일부의 예시이다.

코딩에 대해, 화상은 통상적으로 기본 코딩 유닛들로, 예를 들어 HEVC에서 코딩 트리 유닛(coding tree unit, CTU)들로 또는 H.264에서 매크로블록 유닛들(macroblock units)로 파티셔닝된다. 가능한 연속적인 기본 코딩 유닛들의 세트는 슬라이스로 그룹화된다. 기본 코딩 유닛은 모든 컬러 컴포넌트들의 기본 코딩 블록들을 포함한다. HEVC에서, 가장 작은 코딩 트리 블록(coding tree block, CTB) 사이즈인 16x16은 이전의 비디오 코딩 표준들에서 사용된 바와 같은 매크로블록 사이즈와 대응한다. 비록 CTU 및 CTB라는 용어들은 본 명세서에서 인코딩/디코딩 방법들 및 인코딩/디코딩 장치들을 설명하기 위해 사용되지만, 이러한 방법들 및 장치들은, H.264와 같은 다른 표준들에서 상이하게(예를 들어, 매크로블록) 쓰일 수 있는 이러한 특정 용어들에 제한되지 않아야 한다는 점이 이해될 것이다.

HEVC 코딩에서, 화상은 통상적으로 64x64, 128x128, 또는 256x256의 설정 가능한 사이즈(configurable size)를 갖는 정사각형 모양의 CTU들로 파티셔닝된다. CTU는 같은 사이즈의, 즉 폭과 높이가 표준 블록 사이즈의 절반인 네 개의 정사각형 코딩 유닛(CU)들로 파티셔닝되는 쿼드-트리의 루트이다. 쿼드-트리는 부모 노트가 네 개의 자식 노드들로 분할될 수 있는 트리이고, 그 각각은 다른 네 개의 자식 노드들로 분할되는 부모 노드가 될 수 있다. HEVC에서, 코딩 블록(Coding Block, CB)은 하나 이상의 예측 블록(Prediction Block, PB)들로 파티셔닝되고, 변환 블록(Transform Block, TB)들로 파티셔닝되는 쿼드트리의 루트를 형성한다. 코딩 블록, 예측 블록 및 변환 블록에 대응하여, 코딩 유닛(CU)은 예측 유닛들(PU들), 및 변환 유닛들(TU들)의 트리-구조 세트를 포함하고, PU는 모든 컬러 컴포넌트들에 대한 예측 정보를 포함하고, TU는 각각의 컬러 컴포넌트에 대한 잔차 코딩 신택스 구조(residual coding syntax structure)를 포함한다. 루마 컴포넌트의 CB, PB 및 TB의 사이즈는 대응하는 CU, PU 및 TU에 적용된다. TB는 동일한 변환이 적용되는 샘플들의 블록이다. PB는 동일한 예측이 적용되는 샘플들의 블록이다.

더 최근의 인코딩 시스템들에서, CTU는 코딩 유닛(CU)들로 파티셔닝되는 코딩 트리의 루트이다. 코딩 트리는 부모 노드(통상적으로 CU에 대응함)가 자식 노드들로(예를 들어, 2, 3 또는 4개의 자식 노드들로) 분할될 수 있는 트리이고, 이들 각각은 다른 자식 노드들로 분할되는 부모 노드가 될 수 있다. 쿼드-트리 분할 모드에 추가로, 가능한 분할 모드들의 전체 개수를 증가시키는 새로운 분할 모드들(이진 트리 대칭 분할 모드들, 이진 트리 비대칭 분할 모드들 및 트리플 트리 분할 모드들)이 또한 정의된다. 코딩 트리는 고유 루트 노드(unique root node), 예를 들어 CTU를 갖는다. 코딩 트리의 리프(leaf)는 트리의 종단 노드이다. 코딩 트리의 각각의 노드는 또한 서브-CU들 또는 더 일반적으로 서브-블록들이라 명명되는 더 작은 CU들로 더 분할될 수 있는 CU를 나타낸다. CTU의 CU들로의 파티셔닝이 결정되고 나면, 코딩 트리의 리프들에 대응하는 CU들이 인코딩된다. CTU의 CU들로의 파티셔닝 및 각각의 CU(코딩 트리의 리프에 대응함)를 인코딩하기 위해 사용되는 코딩 파라미터들은 레이트 왜곡 최적화 절차(rate distortion optimization procedure)를 통해 인코더 측에서 결정될 수 있다. PB들 및 TB들로의 CB의 파티셔닝은 없고, 즉 CU는 단일 PU 및 단일 TU로 만들어진다.

이진 트리 대칭 분할 모드들은 CU가 같은 사이즈의 두 개의 코딩 유닛들로 수평으로 또는 수직으로 분할되는 것을 허용하도록 정의된다. 도 3은 CTU의 CU들로의 파티셔닝을 나타내고, 코딩 유닛들은 쿼드-트리 및 이진 트리 대칭 분할 모드들 양쪽 모두에 따라 분할될 수 있다. 도 3에서 실선들은 쿼드-트리 파티셔닝을 나타내고 점선들은 대칭적인 CU들로의 CU의 이진 분할을 나타낸다. 도 4는 연관된 코딩 트리를 나타낸다. 도 4에서, 실선들은 쿼드-트리 분할을 나타내고 점선들은 쿼드-트리 리프들에 공간적으로 임베딩된 이진 분할을 나타낸다. 도 5는 도 3에서 사용되는 네 개의 스플릿 모드들을 묘사한다. 비_분할(NO_SPLIT) 모드는 CU가 더 분할되지 않는 것을 나타낸다. 쿼드트리_분할(QT_SPLIT) 모드는 CU가 쿼드-트리에 따라 네 개의 사분면으로 분할되는 것을 나타내고, 사분면들은 두 개의 분할선들(split lines)에 의해 분리된다. 수평(HOR) 모드는 CU가 하나의 분할선에 의해 분리되는 같은 사이즈의 두 개의 CU들로 수평으로 분할되는 것을 나타낸다. 수직(VER)은 CU가 하나의 분할선에 의해 분리되는 같은 사이즈의 두 개의 CU들로 수직으로 분할되는 것을 나타낸다. 분할선들은 도 5에서 점선들로 표현된다.

이진 트리 비대칭 분할 모드들은, 도 6에 묘사된 바와 같이, CU가 각각 (w, h/4) 및 (w, 3h/4)의 직사각형 사이즈들을 갖는 두 개의 코딩 유닛들로 수평으로, 또는 각각 (w/4, h) 및 (3w/4, h)의 직사각형 사이즈들을 갖는 두 개의 코딩 유닛들로 수직으로 분할되는 것을 허용하도록 정의된다. 두 개의 코딩 유닛들은 도 6에서 점선으로 표현된 하나의 분할선에 의해 분리된다.

도 6은 또한 코딩 유닛이 수직 및 수평 방향들 양쪽 모두에서 세 개의 코딩 유닛들로 분할되는 트리플 트리 분할 모드들을 도시한다. 수평 방향에서, CU는 각각 (w, h/4), (w, h/2) 및 (w, h/4)의 사이즈들의 세 개의 코딩 유닛들로 분할된다. 수직 방향에서, CU는 각각 (w/4, h), (w/2, h) 및 (w/4, h)의 사이즈들의 세 개의 코딩 유닛들로 분할된다.

이하에서, 용어 "블록" 또는 "화상 블록"은 CTU, CU, PU, TU, CB, PB 및 TB 중 임의의 하나를 지칭하는 데 사용될 수 있다. 추가로, 용어 "블록" 또는 "화상 블록"은 H.264/AVC에서 또는 다른 비디오 코딩 표준들에서 특정된 바와 같은 매크로블록, 파티션 및 서브-블록을 지칭하는 데, 더 일반적으로 다수의 사이즈들의 샘플들의 어레이를 지칭하는 데 사용될 수 있다.

도 2로 되돌아가서, 예시적인 인코더(100)에서, 화상은 아래 설명되는 바와 같이 인코더 요소들에 의해 인코딩된다. 인코딩될 화상은 CU들의 단위들로 프로세싱된다. 각각의 CU는 인트라 또는 인터 모드를 사용하여 인코딩된다. CU가 인트라 모드에서 인코딩되는 경우, 인트라 예측(160)을 수행한다. 인터 모드에서, 움직임 추정(175) 및 보상(170)이 수행된다. 인코더는 CU를 인코딩하는 데 인트라 모드 또는 인터 모드 중 어느 것을 사용할지를 결정(105)하고, 예측 모드 플래그에 의해 인트라/인터 결정을 표시한다. 잔차들은 원본 화상 블록으로부터 예측 샘플 블록(또한 예측기(predictor)라고도 알려짐)을 감산(110)함으로써 계산된다.

인트라 모드에서의 CU들은 예를 들어 동일한 슬라이스 내에서 재구성된 이웃 샘플들로부터 예측된다. DC, 평면, 및 33개의 각도 예측 모드들을 포함하는 35개의 인트라 예측 모드들의 세트가 HEVC에서 이용 가능하다. 따라서, 인트라 예측 레퍼런스는 현재 블록에 인접한 행(row) 및 열(column)로부터 재구성될 수 있다. 인터 모드에서의 CU들은 레퍼런스 화상 버퍼(180)에 저장된 레퍼런스 화상의 재구성된 샘플들로부터 예측된다.

잔차들은 변환되고(125) 양자화된다(130). 양자화된 변환 계수들뿐만 아니라 움직임 벡터들 및 다른 신택스 요소들은 비트스트림을 출력하도록 엔트로피 코딩된다(145).

엔트로피 코딩은 CABAC(적응 산술 코딩(Context Adaptive Binary Arithmetic Coding)), CAVLC(적응 가변 길이 코딩(Context Adaptive Variable Length Coding)), 허프만(Huffman), 산술(arithmetic), exp-Golomb(지수 Golomb) 등일 수 있다. CABAC는 H.264에서 처음 도입되었고 HEVC에서도 또한 사용되는 엔트로피 코딩 방법이다. CABAC는 이진화, 컨텍스트 모델링 및 이진 산술 코딩을 포함한다. 이진화는 신택스 요소들을 이진 기호들(빈들(bins))에 매핑한다. 컨텍스트 모델링은 일부 특정 컨텍스트에 기초하여 각각의 규칙적으로 코딩된 빈(즉 비-우회됨(non-bypassed))의 확률을 결정한다. 마지막으로, 이진 산술 코딩은 빈들을 결정된 확률에 따라 비트들로 압축한다.

이진화는 빈들의 시퀀스들에 대한 신택스 요소 값들의 고유 매핑을 정의한다. 단항(unary), 절단된 단항(truncated unary), k차 exp-Golomb 및 고정-길이 이진화와 같은 몇몇 이진화 프로세스들이 사용될 수 있다. 이진화 프로세스는 신택스 요소의 유형에 기초하여, 그리고 일부 경우들에서는 또한 이전에 프로세싱된 신택스 요소의 값에 기초하여 선택될 수 있다. (우회 코딩 모드와 대조적으로) 정규 코딩 모드에서, 다음으로, 각각의 빈 값(bin value)은 신택스 요소의 유형 및 빈 위치(bin position)에 기초하여 고정된 선택에 의해 결정되거나 부가 정보(예를 들어, 블록의 깊이(depth)/사이즈, TU 내의 위치 등)에 의존하는 복수의 확률 모델들로부터 적응적으로 선택될 수 있는 확률 모델을 사용하여 인코딩된다.

컨텍스트 모델링은 높은 코딩 효율을 달성하는 데 요구되는 정확한 확률 추정을 제공한다. 따라서, 이것은 고도로 적응적이고, 상이한 컨텍스트 모델들이 상이한 빈들에 대해 사용될 수 있고, 그 컨텍스트 모델의 확률은 이전에 코딩된 빈들의 값들에 기초하여 업데이트된다. 확률 모델의 선택은 컨텍스트 모델링을 언급한다. 우회 코딩 모드에서, 고정된 확률 모델은 빈 값들 '0' 및 '1' 둘 다에 대해 동일한 확률로 적용된다. H.264에서의 우회 코딩 모드는 양자화된 계수들의 절댓값들의 부호들 및 최하위 빈들에 대해 주로 사용되었다. HEVC에서, 가능한 빈 값들의 대부분은 우회 코딩 모드에 의해 처리된다.

산술 코딩은 재귀적 구간 분할에 기초한다. 0 내지 1의 초기 값을 갖는 범위는 빈의 확률에 기초하여 두 개의 서브구간들로 분할된다. 인코딩된 비트들은 이진 소수점(binary fraction)으로 변환될 때, 디코딩된 빈의 값을 나타내는 두 개의 서브구간들 중 하나를 선택하는 오프셋을 제공한다. 모든 디코딩된 빈 후에, 범위는 선택된 서브구간과 같도록 업데이트되고, 구간 분할 프로세스는 그 자체를 반복한다. 범위 및 오프셋은 제한된 비트 정밀도를 갖고, 따라서 언더플로우(underflow)를 방지하기 위해 범위가 특정 값 아래로 떨어질 때마다 재정규화(renormalization)가 요구된다. 재정규화는 각각의 빈이 디코딩된 후에 발생할 수 있다. 산술 코딩은 추정된 확률을 사용하여(컨텍스트 기반 인코딩), 또는 0.5의 동일한 확률을 가정하여(우회 코딩 모드) 행해질 수 있다.

인코더는 또한 변환을 스킵하거나 변환과 양자화 양쪽 모두를 우회할 수 있고, 즉, 잔차는 변환 또는 양자화 프로세스들의 적용 없이 직접 코딩된다. 인코더는 디코딩 루프를 더 포함하고, 따라서 추가 예측들에 대한 레퍼런스를 제공하기 위해 인코딩된 블록을 디코딩한다. 양자화된 변환 계수들은 잔차들을 디코딩하기 위해 역양자화되고(140) 역변환된다(150). 이하에서, 양자화된 변환 계수들은 계수들로 지칭된다. 화상 블록은 디코딩된 잔차들과 예측된 샘플 블록을 결합함으로써(155) 재구성된다. 루프 내 필터(165)는 예를 들어 코딩 아티팩트들(coding artifacts)을 감소시키기 위한 디블로킹/SAO(Sample Adaptive Offset)를 수행하기 위해 재구성된 화상에 적용될 수 있다. 필터링된 화상은 레퍼런스 화상 버퍼(180)에 저장될 수 있고 다른 화상들에 대한 레퍼런스로서 사용될 수 있다.

도 7은 코딩 그룹(CG)들이라고도 또한 지칭되는 계수들의 4x4 서브-블록들로 분할되는 16x16 TB, 즉 동일한 변환이 적용되는 샘플들의 16x16 블록을 묘사한다. 엔트로피 코딩/디코딩은 몇몇 가능한 스캔 패턴들, 예를 들어, 대각선, 수평 및 수직 중에서 선택된 스캔 패턴에 따라 TB를 스캔하는 몇몇 스캐닝 경로들로 만들어진다.

계수 코딩은 다섯 개의 주요 단계들을 수반할 수 있다: 스캐닝, 마지막 유의 계수 코딩(last significant coefficient coding), 유의도 맵(significance map) 코딩, 계수 레벨 코딩 및 부호 데이터 코딩. 다섯 개의 주요 단계들은 변환 블록의 샘플들을 인코딩하는 데 사용되는 프로세싱의 상이한 유형들에 대응한다. 스캐닝은 마지막 유의 계수에서 시작하는 주어진 CG 스캐닝 순서에 따른 CG에 걸친 루프, 및 계수 스캐닝 순서에 따른 각각의 CG 내부의 계수들에 대한 루프에 대응한다. 마지막 유의 계수 위치는 TB에서의 마지막 비-제로(non-zero) 계수의 위치 (X, Y)이다.

유의도 맵은 디코더가 TB에서의 비-제로 계수들의 위치를 식별하는 것을 허용하는 코딩된 정보이다. 정보는 CG의 유의 플래그(HEVC에서 coded_sub_block_flag로 지칭됨) 및 CG 내의 계수들의 유의 플래그들(HEVC에서 sig_coeff_flag로 지칭됨)을 포함한다. CG 유의 플래그는 CG 내의 모든 계수들이 0인지 여부를 나타낸다. 만약 CG 유의 플래그가 0과 같다면, 이 CG 내의 모든 계수들이 0과 같고, 유의 계수 플래그들은 이 CG 내에 포함된 계수들에 대해 시그널링되지 않고; 그렇지 않으면 이들은 시그널링된다(코딩된다). 계수의 유의 플래그는 이 계수가 비-제로인지를 나타낸다. 계수 레벨 코딩은 변환 계수의 크기를 코딩하는 것에 대응한다. 부호 데이터 코딩은 변환 계수의 부호를 코딩하는 것에 대응한다.

인터 블록들에 대해, 도 7의 좌측의 대각 스캐닝이 사용될 수 있는 반면, 4x4 및 8x8 인트라 블록에 대해, 스캐닝 순서는 그 블록에 대해 활성화된 인트라 예측 모드에 의존할 수 있다.

따라서, TB에 걸친 스캔 경로는 스캐닝 순서들(대각, 수평, 수직) 중 하나에 따라 순차적으로 각각의 CG를 프로세싱하는 것으로 구성되고, 각각의 CG 내부의 16개의 계수들은 또한 고려된 스캐닝 순서에 따라 스캔된다. TB에 걸친 스캔 경로는 TB 내의 마지막 유의 계수에서 시작하고, DC 계수(도 7의 TB 내의 상부 좌측 계수)까지 모든 계수들을 프로세싱한다.

TB 내의 마지막 유의 계수는 그 좌표들을 인코딩함으로써 시그널링된다. HEVC에서, 전체 TB에서의 마지막 비-제로 계수들의 공간적 위치(x- 및 y-좌표들)를 디코더에 제공하는 다음의 신택스 요소들이 인코딩된다: x방향 또는 축에서의 마지막 유의 계수 프리픽스(last_sig_coeff_x_prefix), y방향에서의 마지막 유의 계수 프리픽스(last_sig_coeff_y_prefix), x방향에서의 마지막 유의 계수 서픽스(last_sig_coeff_x_suffix), 및 y방향에서의 마지막 유의 계수 서픽스(last_sig_coeff_y_suffix). y방향 또는 축은 수직 방향일 수 있고 x방향 또는 축은 수평 방향일 수 있다. 그 역 또한 참을 유지할 수 있다. 예로서, 32x32 사이즈의 정사각형 TB, 및 마지막 유의 계수의 좌표들(x=6, y=9)에 대해, 좌표들은 두 개의 부분들로 이진화된다: 프리픽스 및 서픽스. 프리픽스는 TB의 사이즈에 관련된 구간을 나타낸다. T로 표시된 TB의 사이즈가 32와 같을 경우, 구간들의 개수 N은 10과 같다(N=2log2(T)). 이것은 절단된 단항 표현을 갖고, 빈들은 정규 모드로 코딩된다. x에 대해, 값은 6번째 구간 내에 있고, 따라서 그 프리픽스는 111110이고; 한편 y에 대해, 그것은 7번째 구간 내에 있고, 따라서 그 프리픽스는 1111110이다.

서픽스는 구간 내의 오프셋을 나타낸다. 그것은 고정 길이 표현을 가지고, 빈들은 우회 모드로 코딩된다. 6번째 구간에서, 2개의 오프셋들이 있고, x=6의 값에 대해, 서픽스는 0이다(값=7인 경우, 서픽스는 1). 7번째 구간에서, 3개의 오프셋들이 있고, y=9에 대해, 서픽스는 01이다. 따라서, x는 111110 0으로 표현되고 y는 1111110 01로 표현된다.

다음으로, TB 내의 마지막 유의 계수를 포함하는 CG에서 시작하여 TB 내의 상부-좌측 CG까지의 각각의 연속적인 CG에 대해, 다음의 단계들이 현재 CG에 적용된다. 첫번째로, 현재 CG 유의 플래그(HEVC에서 coded_sub_block_flag)가 인코딩된다. 두번째로, 현재 CG 내의 계수들에 대한 계수 레벨 정보가 이하의 리스트에서 각각의 신택스 요소의 코딩에 각각 전용되는 최대 5개의 스캔 경로들을 이용하여 인코딩된다:

유의 계수 플래그(예를 들어, sig_coeff_flag): 계수의 유의성(제로/비-제로);

계수 절대 레벨이 1보다 큰 플래그(예를 들어, coeff_abs_level_greater1_flag): 계수 레벨의 절댓값이 1보다 큰지 여부를 표시함;

계수 절대 레벨이 2보다 큰 플래그(예를 들어, coeff_abs_level_greater2_flag): 계수 레벨의 절댓값이 2보다 큰지 여부를 표시함;

계수 부호 플래그(예를 들어, coeff_sign_flag): 유의 계수 레벨의 부호(예를 들어, 0: 양수, 1: 음수, 그 역 또한 참을 유지할 수 있음);

계수 절대 레벨 나머지(예를 들어, coeff_abs_level_remaining): 계수 레벨의 절댓값의 나머지. 코딩/디코딩할 변환 계수의 크기는 항상 양의 정수 값이다. 계수 절대 레벨 나머지는 계수 마이너스 3(coefficient minus 3)의 절댓값에 대응한다(계수가 2보다 크다고 알려진 경우).

각각의 스캔 경로에서, 신택스 요소는 이전 스캔 경로들에 의해 결정될 때와 같이 필요할 경우에만 코딩된다. 예를 들어, 계수가 유의하지 않은 경우, 나머지 스캔 경로들은 그 계수에 대해 필요하지 않다. 동일한 것이 부호 코딩에 대해 수행된다: 계수 부호 플래그는 비-제로 계수들에 대해서만 전송된다.

도 8은 특정하고 비제한적인 실시예에 따른, 비트스트림으로 유의 계수 플래그를 인코딩하기 위한 방법의 흐름도를 나타낸다.

이 방법은 단계(S100)에서 시작한다. 단계(S110)에서, 예를 들어 인코더(100)와 같은 송신기(1000)는 화상의 블록에 액세스한다. 단계(S120)에서, 송신기는 블록의 영역, 블록 내의 계수의 위치 및 로컬 템플릿에서의 유의, 즉 비-제로 이웃 계수들의 개수에 기초하여 블록의 계수의 유의 플래그에 대한 컨텍스트를 결정하고, 여기서 로컬 템플릿은 상기 블록의 모양에 의존한다. 단계(S130)에서, 송신기는 결정된 컨텍스트에 기초하여 유의 플래그를 인코딩한다. 이 방법은 단계(S180)에서 종료된다.

도 9는 실시예에 따른 유의 계수 플래그를 인코딩하기 위한 예시적인 방법의 흐름도를 도시한다.

이 방법은 단계(S200)에서 시작한다. 단계(S210)에서, 예를 들어 인코더(100)와 같은 송신기(1000)는 TB 및 액세스된 TB 내의 현재 코딩 그룹 currCG에 액세스한다. TB의 사이즈는 폭 및 높이 값들로 정의된다.

단계(S220)에서, 송신기는 currCG의 계수의 유의 플래그에 대한 컨텍스트를 결정한다. 컨텍스트는 인덱스 currCtxIdx에 의해 식별된다. 따라서, 컨텍스트를 결정하는 단계는 컨텍스트들의 세트에서 컨텍스트를 식별하는 인덱스 currCtxIdx를 결정하는 단계를 포함한다.

단계(S2100)에서, 컨텍스트 인덱스 오프셋 ctxOffset이 결정된다. TB가 크로마 컴포넌트인 경우 ctxOffset은 54와 같고, TB가 크로마가 아닌 경우(즉, TB가 루마 블록인 경우) indexOnTBSize와 같다. indexOnTBSize의 결정은 TB 사이즈에, 더 정확하게는 TB 영역에 의존한다. 다음의 값이 계산된다:

여기서 >>는 우-시프트(right-shift) 연산자이다.

현재 TB가 루마 블록인 경우, 유의 계수 플래그를 코딩하는 데 사용되는 컨텍스트들은 이러한 값

의 함수로서 결정된다.

여기서 f()는 예를 들어 룩업 테이블(Look-Up Table)의 형태로 정의된 함수이고, (a<b?i:j)는 만약 a<b라면 결과가 i이고 그렇지 않으면 결과가 j라는 것을 의미한다. 예로서,

결과적으로, 컨텍스트들(예컨대, CABAC 컨텍스트들)의 분리된 세트들은 루마 컴포넌트들에 대해 상이한 영역들을 갖는 TB의 유의 계수 플래그를 코딩하기 위해 이용된다. 컨텍스트들의 이러한 상이한 세트들은 유의 계수 플래그의 코딩에 유용한 컨텍스트들의 글로벌 세트에서의 어드레스인 컨텍스트 오프셋(ctxOffset)에 의해 표현된다.

단계(S2110)는, 도 7에서와 같이, 스캔이 현재 CG에서의 마지막으로부터 제1 계수로 진행하기 때문에, 현재 스캔 위치(currScanPos) 및 현재 CG에서의 제1 위치(firstPosInCG), 즉, 마지막 계수 인덱스 및 현재 CG에서의 제1 계수 인덱스를 각각 초기화한다.

도 9의 코딩 방법의 단계들(S2120 내지 S240)은 마지막 계수로부터 최저 주파수 계수를 향한, 현재 TB의 현재 CG에서의 각각의 계수에 걸친 루프로 이루어진다. 단계(S2120)는, currScanPos에서의 계수가 비-제로인 경우 1이고 그렇지 않으면 0인 변수 uiSig로서 유의 계수 플래그 또는 유의도(significance)(또한, sig_coeff_flag)를 결정한다. 다음으로, 단계(S2130)는 유의 계수 플래그 컨텍스트 증분(ctxIncrement)을 결정한다. 이 단계는 도 10에서 상세 설명된다.

각각의 계수에 대해, 그것의 유의도의 코딩에 대한 컨텍스트 인덱스(currCtxIdx)는 단계(S2140)에서 컨텍스트 오프셋(ctxOffset)과 컨텍스트 증분(ctxIncrement)의 함수로서 계산된다. 일 실시예에서, 함수는 단계(S2140)에서와 같이 덧셈일 수 있거나, 다른 선형 또는 비선형 함수일 수 있다. 현재 계수(currScanPos에 의해 정의됨)에 대한 컨텍스트 인덱스 currCtxIdx가 획득된 다음, 변수 uiSig에 의해 표현되는 그것의 유의도 빈은 단계(S230)에서 currCtxIdx에 의해 식별되는 컨텍스트에 기초하여 엔트로피 인코딩된다(예를 들어, CABAC 인코딩됨). 단계(S240)에서, 방법은 currScanPos가 firstPosInCG보다 큰지 여부를 체크한다. 단계(S240)에서의 체크가 참이라면, 방법은 단계(S250)에서 currScanPos를 1만큼 감소시키고 단계(S2120)로 되돌아간다. 단계(S240)에서의 체크가 거짓이라면, 방법은 단계(S280)에서 끝난다. 방법은 루프가 현재 CG에서의 최저 주파수(또는 DC 계수)를 갖는 계수, 즉, firstPosInCG로 표현되는 도 7에서의 상부 좌측 계수에 도달하는 경우 종료된다.

도 10은 특정하고 비제한적인 실시예에 따른, 현재 계수 x에 대한 유의 계수 플래그 컨텍스트 증분을 결정하기 위한 방법(도 9의 단계(S2130)에 대응함)의 흐름도를 도시한다.

상이한 주파수들에서 계수들의 특성을 캡처하기 위해, 하나의 TB는 도 11에 도시된 바와 같이 상이한 컬러들로 식별되는 세 개까지의 컨텍스트 영역들(R1, R2 및 R3)로 분할된다. 각각의 영역에 할당되는 컨텍스트 증분들 ctxIncrement는 예로서 다음과 같다: 영역 R1에 대해 12-17, 영역 R2에 대해 6-11 및 영역 R3에 대해 0-5.

예컨대 도 11의 직사각형 블록들과 같은 블록에서의 계수 x와 연관된 컨텍스트 증분은 도 10의 단계들(S2132 내지 S2138)에 의해 결정된다. 방법은 단계(S2132)에서 시작한다. 단계(S2133)에서, 방법은 TB에서의 계수 x에 액세스한다. 단계(S2134)에서, 로컬 템플릿에 의해 커버되는 x의 이웃에서의 유의 계수들의 개수는 다음과 같이 결정된다:

여기서

는 로컬 템플릿에서의 계수

의 유의도 또는 유의 계수 플래그이다.

단계(S2135)에서, 계수 x가 속하는 대각선의 인덱스는 그 좌표들의 합으로서 계산된다:

여기서 x와 y는 계수의 좌표들이다.

단계(S2136)에서, 계수 x가 속하는 영역은 정의된 값들을 갖는 diag를 비교함으로써 식별된다:

따라서, diag는 값들 2 및 5에 대해 비교되고, diag가 각각의 값들보다 작은지 여부에 의존하여 값들 6 또는 0이 비교들에 대해 할당된다.

그러므로, 계수 x가 영역 R1에 속하는 경우,

=12이다. 계수 x가 영역 R2에 속하는 경우,

=6이고, 계수 x가 영역 R3에 속하는 경우,

=0이다.

마지막으로, 단계(S2137)에서, 현재 계수 x에 대한 컨텍스트 증분은 다음과 같이 계산된다:

루마 및 크로마 컴포넌트들은 유사한 방식으로 처리되지만 컨텍스트 모델들의 별개의 세트들을 갖는다.

컨텍스트 증분 결정은 로컬 템플릿에 의해 커버되는 이웃에서의 이전에 코딩된 계수들의 유의 계수 플래그의 값들에 의존한다. 더 구체적으로, 컨텍스트 인덱스는 이웃 계수들의 유의 계수 플래그들(0 또는 1의 값을 갖는 각각의 플래그)의 합에 기초하여 결정된다. 도 12는 종래 기술에 따라 해당 계수의 유의 플래그를 코딩할 때, 각각의 변환 계수에 CABAC 컨텍스트들을 할당하는 데 사용되는 로컬 템플릿을 도시한다. 이 로컬 템플릿은 대칭적이고 두 개의 이용 가능한 우측 이웃 계수들(x0, x3), 두 개의 하부 이웃 계수들(x1, x4), 및 한 개의 우측-하부 이웃 계수(x2)를 또한 커버한다. 이러한 로컬 템플릿은 정사각형 TB들에 더 적절하다.

그러나, 변환 계수들의 크기는 계수와 연관된 주파수 레벨의 함수로서 통계적으로 감소한다는 것을 안다. 더욱이, 블록의 변환은 일반적으로 수직 및 수평 방향들에서 각각 두 개의 1D 변환들의 분리 가능한 조합으로 이루어질 수 있다. 그러므로, 로컬 템플릿에서의 이웃 계수들의 효율적인 선택은 블록의 모양(더 구체적으로 이 경우에는 블록의 치수들)에 의존할 수 있다.

실시예에 따르면, TB의 모양, 예컨대 직사각형 TB의 폭과 높이는 변환 계수 신택스 요소들, 예를 들어 유의도 정보를 인코딩/디코딩하는 데 사용되는 컨텍스트 모델들(예를 들어, CABAC 컨텍스트들)의 할당에 대한 로컬 템플릿을 결정하는 데 있어서 고려된다.

일 실시예에 따르면, 가장 긴 길이가 폭(x 방향)인지 높이(y 방향)인지를 막론하고 TB의 가장 긴 길이의 방향을 따라 로컬 템플릿에서 더 많은 이웃 계수들이 선택된다.

도 13a에서, 흑색 점에 의해 식별되는 좌측-하부 이웃(도 12에서 x4)을 가장 긴 방향, 즉 수평 직사각형 TB의 경우 폭 방향을 따라 인접한 이웃으로 대체함으로써 새로운 로컬 템플릿들이 획득된다. 도 13b에서, 우측-상부 이웃(도 12에서 x3)을 가장 긴 방향, 즉 수직 직사각형 TB의 경우 높이를 따라 인접한 이웃으로 대체함으로써 새로운 로컬 템플릿들이 획득된다. 실제로, 직사각형 TB의 폭 및 높이 중에서 가장 큰 치수에 대응하는 방향(폭 및 높이 중에서)을 따라 더 많은 수의 유의 계수들이 존재할 확률이 크다. 도 13a 및 도 13b에 의해 도시된 바와 같이 로컬 템플릿을 수정함으로써, 파라미터

가 블록의 모양에 적응된다.

변형에 따르면, 새로운 로컬 템플릿들은 일부 블록 사이즈들, 예를 들어 4x16, 16x4, 8x32 및 32x8에 대해서만 사용된다.

다른 변형에 따르면, 새로운 로컬 템플릿들은 coeff_abs_level_greater1_flag 신택스 요소의 코딩을 위해 오직 일부(예를 들어 4x16, 16x4, 8x32 및 32x8)에 대해 또는 모든 블록 사이즈들에 대해 사용된다.

다른 변형에 따르면, 새로운 로컬 템플릿들은 coeff_abs_level_greater2_flag 신택스 요소의 코딩을 위해 오직 일부(예를 들어 4x16, 16x4, 8x32 및 32x8)에 대해 또는 모든 블록 사이즈들에 대해 사용된다.

도 14는 도 10의 단계(S2134)에서 새로운 로컬 템플릿들(즉 T1 또는 T2)에서의

를 결정하는 데 사용될 유의 계수 플래그

의 결정을 도시한다.

맨 앞의 세 개의 단계들(S2134-1, S2134-2 및 S2134-3)은 현재 변환 계수 (x,y)의 첫 세 개의 이웃들의 유의도를 결정하는 단계로 이루어진다. 예로서, 단계(S2134-1)에서, sig(x₀)=x_x+1,y ?1:0은 변환 계수 (x+1,y)의 값(x_x+1,y)이 비-제로인 경우 sig(x₀)는 1과 같고, 그렇지 않으면 sig는 0과 같다는 것을 의미한다. 동일한 프로세스가 다른 단계들에 적용된다.

다음으로, 새로운 로컬 템플릿에서의 현재 계수 (x,y)의 나머지 이웃들의 위치들은 TB 모양에 의해 결정된다(S2134-4). 단계(S2134-4)에서, TB가 직사각형인지 아닌지 체크된다. TB가 직사각형일 경우, 이 TB가 수평 직사각형인지 수직 직사각형인지에 기초하여(S2134-5), 로컬 템플릿에서의 나머지 이웃들의 위치들은 블록 모양에 관하여 조정되고(S2134-8 내지 S2134-11); 그렇지 않으면(TB가 정사각형이면), 마지막 두 개의 이웃들의 위치들은 여전히 (x,y+2) 및 (x,y+2)일 것이다(S2134-6 및 S2134-7).

이 예시적인 실시예에서, 나머지 이웃 위치들의 적응은 TB의 폭 및 높이 중에서 가장 짧은 치수에 대응한다(S2134-5). 폭이 더 짧은 치수인 경우, 위치 (x,y+2) 및 위치 (x,y+3)을 갖는 이웃들(S2134-10 및 S2134-11)이 로컬 템플릿에서 선택되고; 그렇지 않으면, (x+2,y) 및 (x+3,y)를 위치로 갖는 이웃들(S2134-8 및 S2134-9)이 로컬 템플릿에서 선택된다.

로컬 템플릿들은 직사각형과 상이할 수 있는 다른 종류의 TB 모양들에 적응될 수 있다.

도 12의 로컬 템플릿은 도 7의 대각선 스캔에 아주 적합하다.

그러나, 변환 계수들의 유의도들은 TB의 선택된 스캐닝 순서와 관련된다. 인트라 코딩의 경우, 상이한 인트라 예측 모드들은 상이한 잔차 통계를 야기한다. 예를 들어, 잔차 신호의 크기는 수평 예측 모드들이 사용되는 경우 수평적으로 통계적으로 감소한다. 추가로, 유의 계수 플래그들은 비록 변환 프로세스에 의해 일부 상관관계들이 감소되었더라도, 잔차 신호 값들과 여전히 더 높은 일관성을 갖는다. 따라서, 변환 계수들의 스캔 패턴들은 그 블록에 대해 활성인 인트라 예측 모드에 의존하고, 이에 의해 그 뒤따르는(trailing) 제로 계수들에 대한 엔트로피 비용을 최소화하고 코딩 효율을 개선한다. 그러므로, 로컬 템플릿에서의 인접 계수들의 효율적인 선택은 또한 스캔 패턴들에 의존할 수 있다.

다른 실시예에 따르면, 예컨대 유의도 정보와 같은 변환 계수 신택스 요소들의 인코딩/디코딩을 위해 사용되는 컨텍스트 모델들(예컨대, CABAC 컨텍스트들)의 할당을 위한 로컬 템플릿들을 결정하는 데 있어서 현재 TB의 스캔 패턴이 고려된다.

도 15a에서, 수평 스캔 패턴에 적응되는 새로운 로컬 템플릿들이 획득된다. 도 15a의 좌측에 있는 새로운 로컬 템플릿은 좌측-하부 이웃을 하나의 이용 가능한 인접 수평 이웃으로 대체함으로써 획득된다. 도 15b에서, 수직 스캔 패턴에 적응되는 새로운 로컬 템플릿들이 획득된다. 도 15b의 좌측에 있는 새로운 로컬 템플릿은 우측-상부 이웃을 하나의 이용 가능한 인접 수직 이웃으로 대체함으로써 획득된다. 수평 또는 수직 스캐닝 순서의 경우에서, 스캐닝 방향을 따라 더 많은 수의 유의 계수들이 존재할 확률이 높다.

현재 유의 계수와의 약한 상관관계로 인해, 도 15a 및 도 15b의 우측에 도시된 바와 같이, 일부 인접 이웃들은 복잡성을 감소시키기 위해 로컬 템플릿으로부터 제거될 수 있다. 도 15a 및 도 15b에 의해 도시된 바와 같이 로컬 템플릿을 수정함으로써, 파라미터

는 블록의 스캔 패턴에 적응된다.

다른 변형에 따르면, 새로운 로컬 템플릿들이 coeff_abs_level_greater1_flag 신택스 요소의 코딩을 위해 사용된다.

다른 변형에 따르면, 새로운 로컬 템플릿들이 coeff_abs_level_greater2_flag 신택스 요소의 코딩을 위해 사용된다.

도 16은 도 10의 단계(S2134)에서 새로운 로컬 템플릿들(즉, T3 또는 T4)에서의

를 결정하는 데 사용될 유의 계수 플래그

의 결정을 도시한다.

맨 앞의 세 개의 단계들(S2134-12, S2134-13 및 S2134-14)은 현재 변환 계수 (x,y)의 첫 세 개의 이웃들의 유의도를 결정하는 단계로 이루어진다. 다음으로, 로컬 템플릿에서의 현재 계수 (x,y)의 이웃 위치들은 스캐닝 순서에 기초하여 선택된다(S2134-15). 스캔 패턴이 대각선 스캔 순서인 경우, 이웃들 (x+2,y) 및 (x,y+2)와 함께 도 12의 로컬 템플릿이 사용된다(S2134-17 및 S2134-18). 그렇지 않으면, 일부 이웃들의 위치들이 스캔 패턴에 따라 결정된다(S2134-16).

스캔 패턴이 수평인 경우, 로컬 템플릿에서 위치 (x+2,y+1)을 갖는 수평 이웃이 위치 (x,y+2)를 갖는 이웃 대신에 선택되고(S2134-20); 스캔 패턴이 수직인 경우, 로컬 템플릿에서 위치 (x+1,y+2)를 갖는 수직 이웃이 위치 (x+2,y)를 갖는 이웃 대신에 선택된다(S2134-21).

도 17은 특정하고 비제한적인 실시예에 따른, 디코딩된 화상을 획득하기 위해 비트스트림으로부터 화상을 디코딩하도록 구성되는 수신기(2000)의 예시적인 아키텍처를 나타낸다.

수신기(2000)는 내부 메모리(2030)(예를 들어, RAM, ROM 및/또는 EPROM)와 함께, 예를 들어, CPU, GPU 및/또는 DSP(디지털 신호 프로세서(Digital Signal Processor)의 영문 두문자어)를 포함할 수 있는 하나 이상의 프로세서(들)(2005)를 포함한다. 수신기(2000)는, 각각이 출력 정보를 디스플레이하고/하거나 사용자가 명령들 및/또는 데이터(예컨대, 디코딩된 화상)를 입력할 수 있게 하도록 적응되는 하나 이상의 통신 인터페이스(들)(2010)(예를 들어, 키보드, 마우스, 터치패드 및 웹캠); 및 수신기(2000)의 외부에 있을 수 있는 전원(2020)을 포함한다. 수신기(2000)는 또한 하나 이상의 네트워크 인터페이스(들)(미도시)를 포함할 수 있다. 디코더 모듈(2040)은 디코딩 기능들을 수행하기 위해 디바이스 내에 포함될 수 있는 모듈을 나타낸다. 추가적으로, 디코더 모듈(2040)은 수신기(2000)의 별도 요소로서 구현될 수 있거나, 본 기술분야의 통상의 기술자에게 공지된 바와 같이 하드웨어와 소프트웨어의 조합으로서 프로세서(들)(2005) 내에 통합될 수 있다.

비트스트림은 소스로부터 획득될 수 있다. 상이한 실시예들에 따르면, 소스는 다음과 같을 수 있지만, 이에 제한되는 것은 아니다:

- 저장 인터페이스, 예를 들어, 대용량 저장소, ROM, 광학 디스크 또는 마그네틱 서포트와의 인터페이스;

- 이미지 캡처 회로(예를 들면, 예를 들어 CCD(또는 전하 결합 소자(Charge-Coupled Device)) 또는 CMOS(또는 상보성 금속-산화물 반도체(Complementary Metal-Oxide-Semiconductor))와 같은 센서).

상이한 실시예들에 따르면, 디코딩된 화상은 목적지, 예컨대 디스플레이 디바이스에 전송될 수 있다. 예로서, 디코딩된 화상은 원격 또는 로컬 메모리, 예를 들어 비디오 메모리 또는 RAM, 하드디스크에 저장된다. 변형에서, 디코딩된 화상은 저장 인터페이스, 예컨대 대용량 저장소, ROM, 플래시 메모리, 광학 디스크 또는 마그네틱 서포트와의 인터페이스로 전송되고/되거나 통신 인터페이스, 예컨대 포인트-투-포인트 링크, 통신 버스, 포인트-투-멀티포인트 링크 또는 방송 네트워크에 대한 인터페이스를 통해 송신된다.

특정하고 비제한적인 실시예에 따르면, 수신기(2000)는 메모리(2030)에 저장된 컴퓨터 프로그램을 더 포함한다. 컴퓨터 프로그램은, 수신기(2000)에 의해, 특히 프로세서(2005)에 의해 실행될 때, 수신기가 도 10, 도 14, 도 16 및 도 19 내지 도 20 중 임의의 하나를 참조하여 설명된 디코딩 방법을 실행할 수 있게 하는 명령어들을 포함한다. 변형에 따르면, 컴퓨터 프로그램은 비-일시적 디지털 데이터 지원 상에서, 예를 들어 모두 본 기술분야에 알려져 있는 HDD, CD-ROM, DVD, 읽기-전용 및/또는 DVD 드라이브 및/또는 DVD 읽기/쓰기 드라이브와 같은 외부 저장 매체 상에서 수신기(2000)의 외부에 저장된다. 따라서, 수신기(2000)는 컴퓨터 프로그램을 판독하는 메커니즘을 포함한다. 더 나아가서, 수신기(2000)는 대응하는 USB 포트들(미도시)을 통해 하나 이상의 USB(Universal Serial Bus)-타입 저장 디바이스들(예를 들어, "메모리 스틱들")에 액세스할 수 있다.

예시적이고 비제한적인 실시예들에 따르면, 수신기(2000)는 다음과 같을 수 있지만, 이에 제한되는 것은 아니다:

- 모바일 디바이스;

- 통신 디바이스;

- 게임 디바이스;

- 셋톱 박스;

- TV 세트;

- 태블릿(또는 태블릿 컴퓨터);

- 랩톱;

- 비디오 플레이어, 예를 들어, 블루레이 플레이어, DVD 플레이어;

- 디스플레이; 및

- 디코딩 칩 또는 디코딩 디바이스/장치.

도 18은 도 10, 도 14, 도 16 및 도 19 내지 도 20 중 임의의 하나의 디코딩 방법을 실행하도록 적응된 예시적인 비디오 디코더(200), 예컨대 HEVC 비디오 디코더의 블록도를 도시한다. 비디오 디코더(200)는 수신기(2000) 또는 이러한 수신기(2000)의 일부의 예시이다. 예시적인 디코더(200)에서, 비트스트림은 아래 설명되는 바와 같이 디코더 요소들에 의해 디코딩된다. 비디오 디코더(200)는 일반적으로, 비디오 데이터 인코딩의 일부로서 비디오 디코딩을 수행하는 도 2에서 설명된 인코딩 경로와 상호적인 디코딩 경로를 수행한다.

특히, 디코더의 입력은 비디오 인코더(100)에 의해 생성될 수 있는 비디오 비트스트림을 포함한다. 비트스트림은 변환 계수들, 움직임 벡터들, 및 다른 코딩된 정보를 획득하기 위해 첫째로 엔트로피 디코딩(230)된다. 변환 계수들은 잔차들을 디코딩하기 위해 역-양자화되고(240) 역변환된다(250). 다음으로, 디코딩된 잔차들은 디코딩된/재구성된 화상 블록을 획득하기 위해 예측된 샘플 블록(또한 예측기로도 알려짐)과 결합된다(255). 예측된 샘플 블록은 인트라 예측(260) 또는 움직임 보상 예측(즉, 인터 예측)(275)으로부터 획득될 수 있다(270). 앞서 설명된 바와 같이, AMVP 및 머지 모드(merge mode) 기술들은 레퍼런스 블록의 서브-정수 샘플들에 대한 보간된 값들을 계산하기 위해 보간 필터들을 사용할 수 있는 움직임 보상 동안 사용될 수 있다. 루프 내 필터(265)는 재구성된 화상에 적용된다. 루프 내 필터는 디블로킹 필터 및 SAO 필터를 포함할 수 있다. 필터링된 화상은 레퍼런스 화상 버퍼(280)에 저장된다.

도 19는 특정하고 비제한적인 실시예에 따라 비트스트림으로부터 화상을 디코딩하기 위한 방법의 흐름도를 나타낸다.

방법은 단계(S300)에서 시작한다. 단계(S310)에서, 예컨대 디코더(200)와 같은 수신기(2000)는 비트스트림에 액세스한다. 단계(S320)에서, 수신기는 블록의 영역, 블록 내의 계수의 위치 및 로컬 템플릿에서의 유의, 즉 비-제로 이웃 계수들의 개수에 기초하여 블록의 계수의 유의 플래그에 대한 컨텍스트를 결정하고, 여기서 로컬 템플릿은 상기 블록의 모양에 의존한다. 단계(S330)에서, 수신기는 결정된 컨텍스트에 기초하여 유의 플래그를 디코딩한다. 방법은 단계(S380)에서 끝난다.

도 20은 일 실시예에 따른 유의 계수 플래그를 디코딩하는 예시적인 방법의 흐름도를 도시한다.

방법은 단계(S400)에서 시작한다. 단계(S410)에서, 예컨대 디코더(200)와 같은 수신기(2000)는 TB 및 액세스된 TB에서의 현재 코딩 그룹 currCG에 액세스한다. TB의 사이즈는 폭 및 높이 값들에 의해 정의된다.

단계(S420)에서, 수신기는 currCG의 계수의 유의 플래그에 대한 컨텍스트를 결정한다. 도 9의 단계(S220)와 유사한 단계(S420)는 더 설명되지 않을 것이다. 이것은 단계들(S2100, S2110, S2130 및 S2140)을 포함한다.

현재 계수(currScanPos에 의해 정의됨)에 대한 컨텍스트 인덱스 currCtxIdx가 획득되면, 변수

로 표현되는 그 유의도 빈은 단계(S430)에서 컨텍스트 인덱스의 함수로서 엔트로피 디코딩된다(예를 들어, CABAC 디코딩됨). 단계(S440)에서, 프로세스는 CurrScanPos가 firstPosInCG보다 큰지 여부를 체크한다. 단계(S440)에서의 체크가 참인 경우, 프로세스는 단계(S450)에서 CurrScanPos를 1만큼 감소시키고 단계(S2120)로 되돌아간다. 단계(S440)에서의 체크가 거짓인 경우, 방법은 단계(S480)에서 끝난다. 방법은 루프가 현재 CG에서 최저 주파수(또는 DC 계수)를 갖는 계수, 즉, 도 7에서 firstPosInCG로 표현되는 상부 좌측 계수에 도달하는 때 종료된다.

여기에 기술된 구현들은 예컨대 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 오직 단일 형태의 구현의 상황에서 논의되는(예를 들어, 오직 방법 또는 디바이스로서만 논의되는) 경우에도, 논의되는 특징들의 구현은 또한 다른 형태들(예를 들어, 프로그램)로 구현될 수 있다. 장치는 예를 들어, 적절한 하드웨어, 소프트웨어 및 펌웨어로 구현될 수 있다. 예를 들어, 방법들은, 예를 들어 컴퓨터, 마이크로프로세서, 집적 회로(integrated circuit), 또는 프로그래밍가능 로직 디바이스를 포함하는 프로세싱 디바이스들을 일반적으로 지칭하는, 예를 들어 프로세서와 같은 장치로 구현될 수 있다. 프로세서들은 또한, 예를 들어, 컴퓨터들, 휴대폰들, PDA(portable/personal digital assistant)들, 및 최종 사용자들 간의 정보의 전달을 용이하게 하는 다른 디바이스들과 같은, 통신 디바이스들을 포함한다.

본 명세서에서 설명되는 다양한 프로세스들 및 특징들의 구현들은 여러 상이한 장비 또는 애플리케이션들에서, 특히 예를 들어 장비 또는 애플리케이션에서 구현될 수 있다. 이러한 장비의 예들은 인코더, 디코더, 디코더로부터의 출력을 처리하는 후처리기(post-processor), 인코더에 입력을 제공하는 전처리기(pre-processor), 비디오 코더, 비디오 디코더, 비디오 코덱, 웹 서버, 셋톱 박스, 랩톱, 개인용 컴퓨터, 휴대폰, PDA, 및 다른 통신 디바이스들을 포함한다. 명백한 것처럼, 장비는 이동식일 수 있고 심지어 이동식 차량에 설치될 수 있다.

추가적으로, 방법들은 프로세서 의해 수행되는 명령어들에 의해 구현될 수 있고, 그러한 명령어들(및/또는 구현에 의해 산출되는 데이터 값들)은 예를 들어, 집적 회로, 소프트웨어 캐리어, 또는 예컨대 하드 디스크, CD(compact diskette), (예를 들어, 보통 디지털 범용 디스크 또는 디지털 비디오 디스크라고 언급되는 DVD와 같은) 광학 디스크, RAM(random access memory), 또는 ROM(read-only memory)과 같은 다른 저장 디바이스와 같은 프로세서-판독 가능 매체(processor-readable medium) 상에 저장될 수 있다. 명령어들은 프로세서-판독 가능 매체 상에 유형으로(tangibly) 구현된 애플리케이션 프로그램을 형성할 수 있다. 명령어들은 예를 들어 하드웨어, 펌웨어, 소프트웨어 또는 이들의 조합일 수 있다. 명령어들은 예를 들어 운영 체제, 별도의 애플리케이션, 또는 이 둘의 조합에서 발견될 수 있다. 따라서, 프로세서는 예를 들어 프로세스를 수행하도록 구성된 디바이스 및 프로세스를 수행하기 위한 명령어들을 갖는 (저장 디바이스와 같은) 프로세서-판독 가능 매체를 포함하는 디바이스 모두로서 특징지어질 수 있다. 더 나아가서, 프로세서-판독 가능 매체는 명령어들에 추가하여 또는 명령어들을 대신하여, 구현에 의해 생성된 데이터 값들을 저장할 수 있다.

본 기술분야의 통상의 기술자에게 명백한 바와 같이, 구현들은 예컨대 저장되거나 또는 전송될 수 있는 정보를 운반하도록 포맷팅된 다양한 신호들을 생성할 수 있다. 이 정보는 예를 들어 방법을 수행하기 위한 명령어들 또는 설명된 구현들 중 하나에 의해 생성된 데이터를 포함할 수 있다. 예를 들어, 신호는 기술된 실시예의 신택스를 작성 또는 판독하는 것에 대한 규칙들을 데이터로서 운반하도록, 또는 기술된 실시예에 의해 작성된 실제 신택스-값(syntax-value)들을 데이터로서 운반하도록 포맷팅될 수 있다. 이러한 신호는 예컨대 (예컨대, 스펙트럼의 무선 주파수 부분을 사용하여) 전자기파로서 또는 기저대역 신호로서 포맷팅될 수 있다. 포맷팅은, 예를 들어 데이터 스트림을 인코딩하고 인코딩된 데이터 스트림으로 반송파(carrier)를 변조하는 것을 포함할 수 있다. 신호가 운반하는 정보는 예를 들어 아날로그 또는 디지털 정보일 수 있다. 신호는 알려진 바와 같이 여러 상이한 유선 또는 무선 연결들을 통해 전송될 수 있다. 신호는 프로세서-판독 가능 매체 상에 저장될 수 있다.

다수의 구현들이 설명되었다. 그럼에도 불구하고, 다양한 수정들이 이루어질 수 있음이 이해될 것이다. 예를 들어, 상이한 구현들의 요소들은 결합, 보충, 수정, 또는 제거되어 다른 구현들을 생성할 수 있다. 게다가, 통상의 기술자는 다른 구조들 및 프로세스들이 개시된 것들에 대체될 수 있고 그 결과의 구현들이 개시된 구현들과 적어도 실질적으로 동일한 결과(들)를 달성하기 위해 적어도 실질적으로 동일한 기능(들)을 적어도 실질적으로 동일한 방식(들)으로 수행할 것이라는 점을 이해할 것이다. 따라서, 이들 및 다른 구현들이 본 출원에 의해 고려된다.

Claims

디코딩 방법으로서,
화상(picture)의 블록의 현재 변환 계수와 연관된 신택스 요소(syntax element)에 대한 컨텍스트(context)를, 상기 블록의 영역, 상기 블록 내의 상기 현재 변환 계수의 위치 및 로컬 템플릿(local template)에서의 비-제로(non-zero) 이웃 변환 계수들의 개수에 기초하여 결정하는 단계(S320); 및
적어도 결정된 컨텍스트에 기초하여 상기 신택스 요소를 디코딩하는 단계(S330)
를 포함하고, 상기 로컬 템플릿의 모양은 상기 블록의 모양에 의존하는, 디코딩 방법.
제1항에 있어서, 상기 신택스 요소는 유의 플래그(significant flag)인, 디코딩 방법.
제1항 또는 제2항에 있어서, 상기 로컬 템플릿은 상기 블록의 가장 긴 치수(longest dimension)의 방향을 따라 더 많은 이웃 변환 계수들을 포함하는, 디코딩 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 로컬 템플릿은 상기 현재 블록의 복수의 이웃 변환 계수들을 포함하고, 상기 복수의 이웃 변환 계수들 및 상기 현재 변환 계수는 상기 현재 블록이 수평 직사각형인 경우 수평 직사각형을 형성하고, 상기 현재 블록이 수직 직사각형인 경우 수직 직사각형을 형성하는, 디코딩 방법.
제1항에 있어서, 상기 로컬 템플릿의 모양은 상기 블록의 스캔 패턴(scan pattern)에 추가로 의존하는, 디코딩 방법.
제5항에 있어서, 상기 로컬 템플릿은 상기 현재 블록의 복수의 이웃 변환 계수들을 포함하고, 상기 복수의 이웃 변환 계수들 및 상기 현재 변환 계수는 상기 스캔 패턴이 수평적인 경우 수평 직사각형을 형성하고, 상기 스캔 패턴이 수직적인 경우 수직 직사각형을 형성하는, 디코딩 방법.
인코딩 방법으로서,
화상의 블록의 현재 변환 계수와 연관된 신택스 요소에 대한 컨텍스트를, 상기 블록의 영역, 상기 블록 내의 상기 현재 변환 계수의 위치 및 로컬 템플릿에서의 비-제로 이웃 변환 계수들의 개수에 기초하여 결정하는 단계(S120); 및
적어도 결정된 컨텍스트에 기초하여 상기 신택스 요소를 인코딩하는 단계(S130)
를 포함하고, 상기 로컬 템플릿은 상기 블록의 모양에 의존하는, 인코딩 방법.
제7항에 있어서, 상기 신택스 요소는 유의 플래그인, 인코딩 방법.
제7항 또는 제8항에 있어서, 상기 로컬 템플릿은 상기 블록의 가장 긴 치수의 방향을 따라 더 많은 이웃 변환 계수들을 포함하는, 인코딩 방법.
제7항 내지 제9항 중 어느 한 항에 있어서, 상기 로컬 템플릿은 상기 현재 블록의 복수의 이웃 변환 계수들을 포함하고, 상기 복수의 이웃 변환 계수들 및 상기 현재 변환 계수는 상기 현재 블록이 수평 직사각형인 경우 수평 직사각형을 형성하고, 상기 현재 블록이 수직 직사각형인 경우 수직 직사각형을 형성하는, 인코딩 방법.
제7항에 있어서, 상기 로컬 템플릿의 모양은 상기 블록의 스캔 패턴에 추가로 의존하는, 인코딩 방법.
제11항에 있어서, 상기 로컬 템플릿은 상기 현재 블록의 복수의 이웃 변환 계수들을 포함하고, 상기 복수의 이웃 변환 계수들 및 상기 현재 변환 계수는 상기 스캔 패턴이 수평적인 경우 수평 직사각형을 형성하고, 상기 스캔 패턴이 수직적인 경우 수직 직사각형을 형성하는, 인코딩 방법.
디코딩 디바이스로서,
화상의 블록의 현재 변환 계수와 연관된 신택스 요소에 대한 컨텍스트를, 상기 블록의 영역, 상기 블록 내의 상기 현재 변환 계수의 위치 및 로컬 템플릿에서의 비-제로 이웃 변환 계수들의 개수에 기초하여 결정하기 위한 수단; 및
적어도 결정된 컨텍스트에 기초하여 상기 신택스 요소를 디코딩하기 위한 수단
을 포함하고, 상기 로컬 템플릿의 모양은 상기 블록의 모양에 의존하는, 디코딩 디바이스.
인코딩 디바이스로서,
화상의 블록의 현재 변환 계수와 연관된 신택스 요소에 대한 컨텍스트를, 상기 블록의 영역, 상기 블록 내의 상기 현재 변환 계수의 위치 및 로컬 템플릿에서의 비-제로 이웃 변환 계수들의 개수에 기초하여 결정하기 위한 수단; 및
적어도 결정된 컨텍스트에 기초하여 상기 신택스 요소를 인코딩하기 위한 수단
을 포함하고, 상기 로컬 템플릿의 모양은 상기 블록의 모양에 의존하는, 인코딩 디바이스.
제1항 내지 제6항 중 어느 한 항에 따른 디코딩 방법에 대한 프로그램 코드 명령어들을 포함하는 소프트웨어 프로그램을 지니는, 컴퓨터 판독 가능 저장 매체(computer-readable storage medium).
제1항 내지 제7항 중 어느 한 항에 따른 인코딩 방법에 대한 프로그램 코드 명령어들을 포함하는 소프트웨어 프로그램을 지니는, 컴퓨터 판독 가능 저장 매체.