KR20020006632A

KR20020006632A - 간결한 트랜스코딩 힌트 메타데이터를 발생하는 방법 및장치

Info

Publication number: KR20020006632A
Application number: KR1020017014472A
Authority: KR
Inventors: 피터 쿤
Original assignee: 이데이 노부유끼; 소니 가부시끼 가이샤
Priority date: 2000-03-13
Filing date: 2001-03-13
Publication date: 2002-01-23
Anticipated expiration: 2021-03-13
Also published as: WO2001069936A3; EP1177691B1; AU2005202313A1; KR100776529B1; AU4112201A; EP1177691A1; KR100844816B1; HK1051941A1; CA2374067A1; JP2003527005A; AU780811B2; CA2374067C; JP4576783B2; CN1372769A; WO2001069936A2; AU2005202313B2; CN100338956C; KR20070063560A

Abstract

멀티미디어 설명(description)의 간결한 표현 및 다른 (예를 들면, MPEG) 압축 콘텐츠 표현들 사이에서의 트랜스코딩 (transcoding)을 위한 트랜스코딩 힌트 메타데이터를 추출하고, 프레임 비율, 비트 전송율, 세션 (session) 크기, 양자화 매개변수들, 및 화상 코딩 타입 구조 (예를 들면, 화상들의 그룹 또는 "GOP" (group of pictures))와 같은 (예를 들면, MPEG 압축된) 비트스트림 매개변수들을 조작하고, A/V 콘텐츠를 분류하고, 또한 멀티미디어 정보를 검색하기 위한 오디오/비디오 (또는 시청각, "A/V") 신호 처리 장치 및 방법이 제공된다.

Description

간결한 트랜스코딩 힌트 메타데이터를 발생하는 방법 및 장치 {Method and apparatus for generating compact transcoding hints metadata}

광학적, 무선, 및 유선 네트워크를 통해 A/V 콘텐츠가 증가적으로 전송되고 있다. 이들 네트워크는 다른 네트워크 대역폭 제한치에 의해 특징지워지기 때문에, 주관적인 시각적 신호 품질을 변화시키도록 유발하는 다른 비트 전송율로 A/V 콘텐츠를 표현할 필요가 있다. A/V 콘텐츠의 압축 표현에 대한 추가 요구조건은 화면 크기, 계산 능력, 및 A/V 단말의 메모리 제한치에 의해 부여된다.

그러므로, 예를 들어 MPEG (Moving Pictures Experts Group)에 의해 정의된바와 같이 압축 포맷으로 저장된 A/V 콘텐츠는 다른 A/V 단말의 복호화 복잡도 및 메모리 제한치 변화에 따라 변환되고, 예컨대, 다른 비트 전송율, 프레임 비율, 화면 크기로 변환되어야 한다.

다른 네트워크 대역폭 및 다른 A/V 단말에 대해 다수의 동일한 A/V 콘텐츠의 압축 표현을 다수 저장할 필요를 없애기 위해, 압축 MPEG 포맷으로 저장된 A/V 콘텐츠는 다른 MPEG 포맷으로 트랜스코딩 (transcoding) 될 수 있다.

비디오 트랜스코딩에 대해서는 다음을 참고한다:

W009838800A1: O.H. Werner, N.D. Wells, M.J. Knee: 개선된 양자화의 디지털 압축 부호화 (Digital Compression Encoding with improved quantization), 1999, 적응적 양자화 구조를 제안;

US5870146: Zhu; Qin-Fan: 디지털 비디오 트랜스코딩을 위한 디바이스 및 방법 (Device and method for digital video transcoding), 1999;

W009929113A1: Nilsson, Michael, Erling; Ghanbari, Mohammed: 트랜스코딩 (Transcoding), 1999;

US5805224: Keesman; Gerrit J, Van Otterloo; Petrus J.: 비디오 신호를 트랜스코딩하는 방법 및 디바이스 (Method and Device for Transcoding Video Signal), 1998;

W009943162AL Golin, Stuart, Jay: 비디오 순차를 트랜스코딩하는 동작 벡터 외삽법 (Motion vector extrapolation for transcoding video sequences), 1999;

US5838664: Polomski; Mark D.: 디지털 트랜스코딩을 갖춘 화상 회의 시스템(Video teleconferencing system with digital transcoding), 1998:

W009957673A2: Balliol, Nicolas: 데이터 스트림의 트랜스코딩 (Transcoding of a data stream), 1999;

US5808570: Bakhmutsky; Michael: 호프만-트랜스코딩 및 고성능 가변 길이 디코더를 사용하는 2-워드 비트스트림 분할과 이들을 쌍-정합시키는 디바이스 및 방법 (Device and Method for pair-matching Huffman-Transcoding and high performance variable length decoder with two-word bitstream segmentation which utilizes the same), 1998;

W009905870A2: Lemaguet, Yann: 비디오 순차와 대응하는 디바이스 사이의 스위칭 방법 (Method of Switching between Video Sequences and corresponding Device), 1999; 및

W009923560A1: LUDWIG, Lester; BROWN, William; YUL, Inn, J.; VUONG, Anh, T.; VANDERLIPPE, Richard; BURNETT, Gerald; LAUWERS, Chris; LUI, Richard; APPLEBAUM, Daniel: 측정가능한 네트워크화 멀티미디어 시스템 및 응용 (Scalable networked multimedia system and application), 1999.

그러나, 비디오 트랜스코딩에 대한 이들 특허 중 어떠한 것도 A/V 트랜스코딩을 용이하게 하는데 트랜스코딩 힌트 메타데이터 정보를 사용하는 것을 설명하거나 제한하지 않는다.

"SMPTE" (The Society of Motion Picture and Television)는 MPEG-2 비디오 기록 데이터 세트상의 텔레비전에 대한 표준 (327M-2000)을 제안하였고, 이는 소스포맷의 모든 매크로블록 (macroblock) 마다 256 비트를 사용하여 메타데이터를 재부호화하도록 제공된다. 그러나, 트랜스코딩 힌트 메타데이터의 이러한 추출 및 표현은 몇가지 단점을 갖는다. 예를 들어, 제안된 표준에 따라, 트랜스코딩 힌트 메타데이터 (GOP 구조, 양자화 셋팅, 동작 벡터 등과 같은)는 A/V 소스 콘텐츠의 모든 단일 프레임 및 매크로블록마다 추출된다. 이 방법은 상세하고 콘텐츠 적응 트랜스코딩 힌트를 제공하는 이점을 제공하여, 주관적인 A/V 이중성을 널리 보존하면서 트랜스코딩을 용이하게 한다. 그러나, 트랜스코딩 힌트 데이터는 매우 크다. 제안된 표준의 한가지 특정한 실시에서는 MPEG 비디오의 매크로블록 당 256 비트의 트랜스코딩 힌트 데이터가 저장된다. 이 많은 양의 트랜스코딩 힌트 메타데이터는 로컬 (예를 들면, 가정) A/V 콘텐츠 서버에 방송 배급하는 것이 쉽지 않다. 결과적으로, 트랜스코딩 힌트 메타데이터에 대해 제안된 표준은 방송 스튜디오 응용에 제한된다.

트랜스코딩 힌트 메타데이터 추출 및 표현에 대한 또 다른 기술은 특정한 비트 전송율을 갖는 압축 A/V 소스 콘텐츠를 또 다른 압축 포맷 및 비트 전송율로 트랜스코딩하기 위해 일반 트랜스코딩 힌트 메타데이터를 수집하는 것을 포함한다. 그러나, 이 기술은 트랜스코딩된 콘텐츠의 특징적인 특성을 고려하지 않는 다는 단점이 있다. 예를 들어, 소스 콘텐츠에서, A/V 특성은 제한된 양의 동작 및 적은 상세 콘텐츠 (예를 들면, 뉴스 앵커 화면)을 갖는 A/V 세그먼트를 고속 동작 및 수많은 상세 콘텐츠 (예를 들면, 스포츠 이벤트 화면)을 갖는 또 다른 A/V 세그먼트로 변화시킬 수 있다. 이 기술에 따라, 비디오 세그먼트들 양자 모두의 다른 특성을 적절하게 표현하지 않은 잘못된 트랜스코딩 힌트 메타데이터가 선택되므로, A/V 신호 품질이 열악하고 잘못된 비트 전송율 할당을 제공하게 된다.

본 발명은 다른 (예를 들면, MPEG) 압축 콘텐츠 표현들 간의 트랜스코딩 (transcoding)을 위해 멀티미디어 설명(description) 및 트랜스코딩 힌트 메타데이터 (transcoding hints metadata)의 간결한 표현을 추출하고, 프레임 비율, 비트 전송율, 세션 (session) 크기, 양자와 매개변수, 및 화상의 그룹 또는 "GOP (group of pictures)"와 같은 화상 코딩 타입 구조와 같은 비트스트림 매개변수들을 (예를 들어, MPEG 압축된) 조작하고, A/V 콘텐츠를 분류하고, 또한 멀티미디어 정보를 검색하는 오디오/비디오 (또는 시청각, "A/V") 신호 처리 방법 및 A/V 신호 처리 장치에 관한 것이다.

도 1은 본 발명의 한 실시예에 따른 다양한 A/V 단말을 갖춘 가정용 네트워크에서의 트랜스코딩 시스템(transcoding system)을 도시하는 시스템 개요도.

도 2는 본 발명의 한 실시예에 따른 트랜스코딩 힌트 추출 (Group of Pictures, "GOP")을 설명하는 도면.

도 3은 본 발명의 한 실시예에 따라 프레임 당 새로운 특징점의 수에 따라트랜스코딩 상태를 선택하는 예를 설명하는 도면.

도 4는 본 발명의 한 실시예에 따라 3개의 상태를 갖는 트랜스코딩 힌트 상태도의 예를 도시하는 도면.

도 5는 본 발명의 한 실시예에 따라 압축 및 비압축 소스 콘텐츠로부터 트랜스코딩 힌트 메타데이터를 추출하는 것을 설명하는 도면.

도 6은 본 발명의 한 실시예에 따라 비디오 분할 및 트랜스코딩 힌트 상태 선택 처리를 도시하는 도면.

도 7은 본 발명의 한 실시예에 따라 새로운 비디오 세그먼트 (또는 새로운 GOP)의 경계를 결정하는 방법을 도시하는 도면.

도 8은 본 발명의 한 실시예에 따라 트랜스코딩 힌트 상태를 선택하는 방법에 대한 알고리즘을 도시하는 도면.

도 9는 본 발명의 한 실시예에 따른 트랜스코딩 힌트 메타데이터의 구조적인 조직의 개요도.

도 10은 본 발명의 한 실시예에 따른 일반 트랜스코딩 힌트 메타데이터 설명의 구조적인 조직을 도시하는 도면.

도 11은 본 발명의 한 실시예에 따른 소스 포맷 정의에 대한 트랜스코딩 힌트 메타데이터를 도시하는 도면.

도 12는 본 발명의 한 실시예에 따른 타켓 포맷 정의에 대한 트랜스코딩 힌트 메타데이터를 도시하는 도면.

도 13은 본 발명의 한 실시예에 따른 일반 트랜스코딩 힌트 메타데이터 표현을 도시하는 도면.

도 14는 본 발명의 한 실시예에 따른 세그먼트-기반의 트랜스코딩 힌트 메타데이터를 도시하는 도면.

도 15는 본 발명의 한 실시예에 따른 부호화 복잡도 트랜스코딩 힌트 메타데이터를 도시하는 도면.

도 16은 본 발명의 한 실시예에 따른 트랜스코딩 힌트 상태 메타데이터를 도시하는 도면.

상기를 고려하여, 본 발명의 목적은 간결하고 A/V-콘텐츠 적응 멀티미디어 설명 및 트랜스코딩 힌트 메타데이터 표현(transcoding hints metadata representation)을 추출하는 방법 및 장치를 제공하는 것이다.

본 발명의 또 다른 목적은 트랜스코딩 방법에 대한 요구조건 중 하나로 상당한 지연 및 금지없이 계산의 복잡도를 갖지 않고 실시간 실행을 허용하는 트랜스코딩 방법 및 장치를 제공하는 것이다. 트랜스코딩 방법에 대한 제2 요구조건은 주관적인 A/V 신호 품질을 가능한한 많이 보전하는 것이다. 다양한 압축 타켓 포맷에 대한 이들 요구조건 모두를 달성하는 트랜스코딩 방법을 용이하게 하기 위해, 트랜스코딩 힌트 메타데이터는 미리 발생되어 압축 A/V 콘텐츠와 함께 또는 분리되어 저장될 수 있다. 본 발명의 또 다른 목적은 저장 크기를 감소시키고 멀티미디어 설명 및 트랜스코딩 힌트 메타데이터의 배급 (예를 들면, 로컬 A/V 콘텐츠 서버에 대한 방송)을 용이하게 하도록 매우 간결한 표현을 제공하는 것이다.

그래서, 본 발명의 목적은: 1) 트랜스코딩 처리를 통해 A/V 신호 품질을 보전하고, 2) 최소 지연으로 실시간 응용을 가능하게 하기 위해 계산의 복잡도를 제한하는 트랜스코딩 시스템을 제공하는 것이다. 본 발명의 한 실시예에 따라, 트랜스코딩 힌트를 포함하는 추가 데이터 (메타데이터)는 압축 A/V 콘텐츠에 연관될 수 있다.

본 발명의 다른 목적 및 이점은 명세서 및 도면으로부터 일부 밝혀지고 명확해진다. 본 발명은 자동적인 트랜스코딩 힌트 메타데이터 추출 및 간결한 표현을 제공하는 장치 및 방법에 관한 것이다.

본 발명은 지원하는 트랜스코딩 메타데이터를 사용하여 압축 A/V 콘텐츠를 하나의 압축 포맷으로부터 또 다른 포맷의 A/V 콘텐츠로 트랜스코딩하는 분야에 관한 것이다. 용어 트랜스코딩은 압축 포맷을 변화시키는 것에 제한되지 않고 (예를 들면, MPEG-2 포맷에서 MPEG-4 포맷으로의 변환), 프레임-비율 변환, 비트 전송율-변환, 세션-크기 변환, 화면-크기 변환, 화상 코딩 타입 변환 등을 포함한다.

본 발명은 또한 비디오에서 다른 화면 활동의 등급으로 상술된 트랜스코딩 힌트 상태를 사용하여 자동적으로 비디오를 분류하는데 적용될 수 있다.

따라서, 본 발명은 다음의 상세한 설명에서 예시화된 바와 같이 여러 단계 및 다른 것에 대해 하나 이상의 이와 관련된 단계, 또한 이러한 단계를 실시하도록 적응된 구조 특성, 소자의 조합 및 부품 배열을 실현하는 장치를 구비하고, 본 발명의 범위는 청구항에서 나타내진다.

본 발명의 더 완전한 이해를 위해, 다음의 설명 및 첨부한 도면을 참조한다.

도 1은 본 발명의 한 실시예에 따라 가정용 네트워크 환경에서 트랜스코딩하기 위한 시스템(100)의 일반적인 개요도를 도시한다. 도 1에 도시된 바와 같이, A/V 콘텐츠 서버(102)는 A/V 콘텐츠 저장기(103), A/V 트랜스코딩 유닛(106), 트랜스코딩 힌트 메타데이터 추출 유닛(104), 및 A/V 트랜스코딩 힌트 메타데이터 저장 버퍼(105)를 포함한다. A/V 콘텐츠 저장기(103)는 비트 전송율을 변화시키고 주관적인 신호 품질을 변화시키는 동시에 다양한 소스로부터 압축 A/V 자료들을 저장한다. 예를 들어, AV 내용 저장기(103)는 휴대용 DV(Digital Video) 비디오 카메라(111)로부터의 가정용 비디오, MPEG-4 인터넷 카메라(112)로부터의 매우 낮은 비트 전송율 (10 kbit/s)을 갖는 MPEG-4 압축 비디오, 및 일부 경우에서 이미 트랜스코딩 힌트 메타데이터와 연관되어 있는 방송 서비스(101)로부터 약 5 Mbit/s의 메인 레벨 ("MP@ML") 압축 방송 비디오에서의 MPEG-2 메인 프로파일을 포함할수 있다. A/V 내용 서버(102)는 또한 상당히 더 높은 비트 전송율의 고선명도 압축 MPEG 비디오를 포함할 수 있다.

도 1에 도시된 바와 같이, A/V 내용 서버(102)는 유선 또는 무선 가정용 네트워크가 될 수 있는 네트워크(113)에 연결된다. 제한되지는 않지만, 무선 MPEG-4 A/V PDA (personal digital assistant)(107), 고 선명도 텔레비전 오락용 고선명도 A/V 단말(108), A/V 게임 콘솔 (console)(109), 및 ITU-T (International Telecommunications Union Technical Standards Group) 기반의 비디오폰(110)을 포함하여, 네트워크(113)에는 다른 특성을 갖는 여러 A/V 단말이 또한 부착될 수 있다. A/V 단말(107, 108, 109, 110)은 다른 비트 전송율의 전송 특성으로 (케이블이나 무선 링크로 인하여) 가정용 네트워크(113)에 부착될 수 있다.

더욱이, 무선 비디오 PDA(107)는 예를 들어 계산 능력, 저장 메모리, 화면 크기, 비디오 프레임 비율, 및 네트워크 비트 전송율에 대해 제한될 수 있다. 그러므로, A/V 트랜스코딩 유닛(106)은 예를 들어, European 25 fps (frames per second)의 5 Mbit/s MPEG-2 방송 비디오 및 A/V 콘텐츠 서버(102)에 포함된 720 x 480 pel을 무선 전송을 위한 MPEG-4 500 kbit/s 15 fps 비디오 및 무선 MPEG-4 비디오 PDA(107)에 의한 352 x 240 pel 디스플레이상의 디스플레이로 트랜스코딩한다. A/V 트랜스코딩 유닛(106)은 A/V 콘텐츠의 압축 소스 비트 전송율을 특정한 각 타겟 A/V 단말 (107, 108, 109, 및 110)의 특성으로 실시간 트랜스코딩하기 위해 버퍼(105)로부터의 트랜스코딩 힌트 메타데이터를 사용한다. 트랜스코딩 힌트 메타데이터는 트랜스코딩 힌트 메타데이터 추출 유닛(104)에서 발생되거나, 방송서비스(101)에 의해 배급될 수 있다.

도 1에 도시된 바와 같이, 소스 포맷의 압축 비트스트림은 (이후 "제1 비트스트림") A/V 콘텐츠 버퍼(103)로부터 A/V 트랜스코딩 유닛(106)으로 전달된다. 타켓 포맷의 비트스트림은 (이후 "제2 비트스트림") 트랜스코딩 유닛(106)에서 트랜스코딩한 이후에 가정용 네트워크(113)로 전달된다. 가정용 네트워크(113)로부터, 예를 들어, 압축 DV 포맷의 콘텐츠는 링크(114)를 통해 A/V 콘텐츠 저장기(103)에 저장된다.

도 2는 본 발명의 한 실시예에 따른 트랜스코딩 힌트 추출, 트랜스코딩 힌트 저장, 및 트랜스코딩 처리를 설명한다. 도 2에 도시된 바와 같이, 버퍼(201)는 소스 포맷의 A/V 콘텐츠를 포함한다. 버퍼(202)는 비트 전송율, 압축 방법, GOP 구조, 화면 크기, 비월 (interlace) 또는 진행 (progressive) 포맷 등과 같은 소스 포맷의 설명을 포함한다. 버퍼(203)는 비트 전송율, 압축 방법, GOP 구조, 화면 크기, 비월 또는 진행 포맷 등과 같은 타켓 포맷의 설명을 포함한다. 트랜스코딩 힌트 추출 유닛(207)은 A/V 버퍼(201)로부터 압축 소스 포맷의 A/V 콘텐츠, 버퍼(202)로부터 소스 포맷 설명, 및 버퍼(203)로부터 트랜스코딩 타켓 포맷 설명을 판독한다. 트랜스코딩 힌트 추출 유닛(207)에 의해 트랜스코딩 힌트가 계산된 이후에, 트랜스코딩 힌트는 트랜스코딩 힌트 메타데이터 버퍼(206)에 저장된다. A/V 트랜스코딩 유닛(205)은 A/V 콘텐츠 버퍼(201)로부터 소스 포맷의 제1 비트스트림(204)을 판독하고, 버퍼(206)에 저장된 트랜스코딩 힌트 메타데이터를 통해 소스 포맷을 타켓 포맷으로 변환한다. A/V 트랜스코딩 유닛(205)은 새로운 압축 타켓 포맷의 제2 비트스트림(208)을 A/V 타켓 버퍼 저장기(209)에 출력하여 저장한다.

도 3 및 도 4는 본 발명의 한 실시예에 따른 트랜스코딩 힌트 메타데이터 조직의 원리를 설명한다. MPEG-기반의 비디오 압축은 예측가능한 방법을 사용하여, 연속적인 프레임 사이의 변화가 부호화된다. 한 프레임에서 다음 프레임 사이에 많은 수의 변화를 포함하는 비디오 콘텐츠는 프레임 사이의 변화가 작은 비디오 콘텐츠 보다 다른 재부호화 매개변수 셋팅을 요구한다 (비트 전송율을 제한하면서 주관적인 신호 품질을 유지하기 위해). 그러므로, 재부호화 매개변수를 미리 결정하는 것이 중요하다. 트랜스코딩 힌트 메타데이터 선택은 주로 예측불가능한 시각 콘텐츠의 양과 특성에 의존하다. 새로운 시각 콘텐츠는 이전 프레임으로부터 예측될 수 없고, DCT-계수를 사용하여 비트 전송율 강조 부호화될 수 있다. 이와 같이, 본 발명의 방법은 프레임 당 새로운 콘텐츠의 양을 결정하기 위해 이전 프레임으로부터 현재 프레임까지 트래킹 (tracking)되지 않은 새로운 특징점의 수를 사용한다.

도 3은 비디오의 프레임수 (수평축, 시간축)에 따라 프레임 당 새로운 특징점의 수에 대한 그래프를 도시한다. 섹션(301)은 이어지는 프레임 사이에 매우 작은 양의 새로운 콘텐츠만이 나타나는 경우의 비디오 세그먼트 일부이므로, 각 트랜스코딩 힌트 메타데이터 (예를 들면, 큰 GOP 크기, 낮은 프레임 비율, 낮은 비트 전송율, ...)가 선택될 수 있다. 섹션(302)은 프레임 당 약간 더 높은 새로운 특징점의 수를 포함하고, 이는 트랜스코딩 힌트 메타데이터를 설명하는 상태가 선택되어 이 상황에 최적의 트랜스코딩 매개변수를 제공함을 의미한다 (예를 들면, 약간 더 작은 GOP 크기, 더 높은 비트 전송율). 섹션(303)은 프레임 당 높은 새로운 특징점의 수를 갖는 트랜스코딩 메타데이터 힌트 상태(transcoding metadata hints state)를 설명하므로, 화면 당 높은 새로운 콘텐츠량을 갖는다. 이와 같이, 더 작은 M 값 (I/P-프레임 거리) 및 더 높은 비트 전송율이 선택된다.

도 4는 3개의 이산적 트랜스코딩 힌트 메타데이터 상태로 구성된 트랜스코딩 힌트 메타데이터 상태도에 대한 기본 조직예를 도시한다. 모든 이산적 트랜스코딩 상태는 GOP 구조, 양자화기 매개변수, 비트 전송율, 화면 크기 등에 대한 메타데이터를 포함할 수 있다. 이들 트랜스코딩 힌트 매개변수는 고정된 값을 갖거나 또 다른 매개변수의 함수가 될 수 있다. 예를 들어, GOP 길이는 프레임 당 새로운 특징점의 수에 대한 이산적 함수가 될 수 있고, 양자화기 매개변수는 DCT 계수로부터 유도된 텍스처 액티비티(texture activity) 및 엣지 (edge)의 함수가 될 수 있다. 본 예에서 3개의 트랜스코딩 힌트 메타데이터 상태 각각은 3개의 다른 부호화 상황을 수용하도록 선택될 수 있다. 도 4에 도시된 바와 같이, 상태 "3"(403)은 프레임 당 높은 동작량과 낮은 새로운 콘텐츠량에 대해 선택되고, 이러한 콘텐츠에 대한 트랜스코딩 힌트 메타데이터의 최적 상태를 나타낸다. 상태 "2"(402)는 낮은 동작량과 높은 엣지 액티비티를 갖는 높은 콘텐츠량에 대해 선택되어, 높은 비트수가 소모될 것을 요구할 수 있다. 상태 "1"(401)은 예를 들어, 낮은 화면 액티비티를 갖는 A/V 콘텐츠에 대해 트랜스코딩 처리를 수용하도록 선택된다. 또한, 다른 크로스페이딩 (crossfading) 효과, 갑작스런 화면 변화, 또는 두 화면 사이의 흑색화상과 같이, 비디오 편집 효과에 대해 제공되는 다른 특수한 트랜스코딩 힌트 메타데이터 상태가 있다. 비디오 편집 효과의 위치는 수동적으로, 반자동적으로, 또는 완전히 자동적으로 검출될 수 있다.

도 5는 본 발명의 한 실시예에 따라 압축 및 비압축 소스 콘텐츠로부터 트랜스코딩 힌트 메타데이터를 추출하는 것을 설명한다. 도 5에 도시된 바와 같이, 시스템(500)은 A/V 소스 콘텐츠 버퍼(501), 소스 포맷 설명 버퍼(502), 및 타켓 포맷 설명 버퍼(503)를 포함한다.

메모리(504)는 압축 또는 비압축 영역으로부터 특징점 추출, DCT-계수, 및 동작 벡터를 저장하도록 포함된다. 압축 영역에서, P- 및 B-매크로블록으로부터의 동작 벡터는 비트스트림으로부터 직접 추출될 수 있다. 그러나, 인트라-매크로블록 (Intra-macroblock)에 대해서는 동작 벡터가 없다. 그러므로, B- 및 P- 매크로블록에 대해 구해진 동작 벡터는 I-매크로블록에 대해 보간될 수 있다. (Roy Wang, Thomas Huang: "MPEG 영역에서의 고속 카메라 동작 분석 (Fast Camera motion Analysis in MPEG domain)", IEEE International Conference on Image Processing, ICIP 99, Kobe, Japan, 1999년 10월을 참고) 인트라-매크로블록의 블록에 대한 DCT 계수는 비트스트림으로부터 직접 추출될 수 있다. P- 및 B-매크로블록에 대해, 제한된 수의 DCT-계수 (DC 및 2AC 계수)는 Shih-Fu Chang, David G. Messerschmid: "MC-DCT 압축 비디오의 조작 및 합성 (Manipulation and Composition of MC-DCT compressed video)", IEEE Journal on Selected Areas in Communications, vol. 8, 1996에 의해 설명된 방법에 의해 구해질 수 있다. 압축영역 특징점 추출 및 동작 추정에 대한 모범적인 방법은 여기서 참고로 포함되는 Peter Kuhn: "압축 영역 특징점 등록 및 동작 추정을 위한 방법 및 장치 (Method and Apparatus for compressed domain feature point registration and motion estimation)", 1999년 12월, PCT 특허에 의해 개시된다. 일부 경우, AV 소스 콘텐츠는 MPEG-1, MPEG-2, MPEG-4, ITU-T H.261, 및 ITU-T H.263에 의해 사용되는 DCT 및 동작 보상 원리에 기초하지 않는 비압축 포맷 또는 압축 포맷에서만 이용가능하다. DV 포맷에 대해서는 DCT-계수만이 이용가능한 경우가 될 수 있다. 이들 경우, 동작 벡터는 예를 들어, Peter Kuhn: "MPEG-4 동작 추정을 위한 알고리즘, 복잡도 분석, 및 VLSI 구조 (Algorithms, Complexity Analysis and VLSI Architectures for MPEG-4 Motion Estimation)", Kluwer Academic Publishers, 1999의 동작 추정 방법에 의해 구해질 수 있다. DCT-계수는 K.R. Rao, P. Yip: "이산적 코사인 변환 - 알고리즘, 이점, 응용 (Discrete Cosine Transform - Algorithms, Advantages, Applications)", Academic Press 1990의 블록-기반의 DCT-변환을 실행함으로서 구해질 수 있다. 펠 영역(pel domain ; 비압축 영역)에서의 특징점은 예를 들어 Bruce D. Lucas, Takeo Kanade: "스테레오 비젼에 대한 응용을 갖는 반복적 등록 기술 (An iterative registration technique with an application to stereo vision)", International Joint Conference on Artificial Intelligence, pp. 674-679, 1981에 의해 구해질 수 있다.

동작 분석 부분(505)은 메모리(504)내의 동작 벡터 표현으로부터 매개변수적 동작 모델의 매개변수를 추출한다. 매개변수적 동작 모델은 6 및 8개 매개변수를갖고, 매개변수적 동작 추정은 M. Tekalp: "디지털 비디오 프로세싱 (Digital Video Processing)", Prentice Hall, 1995에서 설명된 방법에 의해 구해질 수 있다. 동작 표현을 사용하는 목적은 지연 및 속도를 이유로 하는 트랜스코더에서의 동작 추정을 제거하는 것이다. 그러므로, 소스 비트스트림으로부터의 동작에 대한 입력 표현은 출력 표현 (타켓 비트스트림)을 유도하는데 사용될 수 있다. 예를 들어, 화면-크기 재조정, 비월-진행 변환(interlaced-progressive conversion) 등이 동작 표현에 많이 의존한다. 동작 표현에 대한 매개변수는 또한 GOP 구조에서의 코드화 결정에 사용될 수 있다. 텍스처/엣지 분석 부분(506)은 예를 들어, K.R. Rao, P Yip: "이산적 코사인 변환 - 알고리즘, 이점, 응용 (Discrete Cosine Transform - Algorithms, Advantages, Applications)", Academic Press 1990 또는 K.W. Chum, K.W. Lim, H.D. Cho, J.B. Ra: "비디오 부호화에 대한 적응적 인지 양자화 알고리즘 (An adaptive perceptual quantization algorithm for video encoding)", IEEE Transactions on Consumer Electronics, Vol. 39, No. 3, 1993년 8월에서 설명된 바와 같이, 비트스트림으로부터 추출된 DCT-계수에 기초할 수 있다.

압축 영역에 대한 특징점 트래킹 부분(507)은 여기서 참고로 포함되는 Peter Kuhn: "압축 영역 특징점 등록 및 동작 추정을 위한 방법 및 장치 (Method and Apparatus for compressed domain feature point registration and motion estimation)", PCT 특허, 1999년 12월에서 설명된 기술을 사용한다. 프로세서(510)는 프레임 당 새로운 특징점의 수를 계산한다. 프로세서(509)는 임시 비디오 세그먼트를 계산하고, 프로세서(510)는 모든 세그먼트에 대한 트랜스코딩 힌트 상태를 계산한다. 본 발명의 한 실시예에 따른 이들 계산 방법은 도 6, 도 7, 및 도 8을 참고로 이후 상세히 설명된다.

메모리(511)는 동작-관련 트랜스코딩 힌트 메타데이터를 포함한다. 메모리(512)는 텍스처/엣지 관련 트랜스코딩 힌트 메타데이터를 포함하고, 메모리(513)는 특징점 트랜스코딩 힌트 메타데이터를 포함하며, 이들은 모두 도 15를 참고로 이후 상세히 설명된다. 메모리(514)는 비디오 세그먼트 트랜스코딩 힌트 선택 메타데이터를 포함하고, 이는 도 16을 참고로 설명된다. 이제는 트랜스코딩 힌트 메타데이터의 자동 추출, 간결한 표현, 및 용도가 설명된다.

도 6은 본 발명의 한 실시예에 따른 비디오 분할 및 트랜스코딩 힌트 상태 선택 처리를 설명한다. 단계(601)에서는 일부 변수가 초기화된다. 변수 "frame"은 소스 비트스트림의 현재 프레임수이고, "nframes"은 새로운 비디오 세그먼트 (또는 GOP, group of pictures)내에서의 프레임수이다. 다른 변수들은 이 루틴내에서면 사용된다. 단계(602)에서는 GOP내의 프레임수가 증가된다. 단계(603)에서는 새로운 세그먼트/GOP가 그 프레임내에서 시작되는지 여부를 결정하고, 이에 대한 상세한 내용은 도 7을 참고로 상세히 논의된다. 그런 경우 ("예"), 제어는 단계(604)로 전해지고, 그렇지 않은 경우에는 단계(615)로 전해진다. 단계(604)에서는 변수 "last_gop_start"가 "new_gop_start"의 값으로 초기화된다. 단계 (608, 609)에서는 변수 "frame"이 1 보다 큰 경우 변수 "last_gop_stop"이 "frame-1"로 설정된다. 그렇지 않은 경우에는 단계(610)에서 "last_gop_stop"이 1로 설정된다.도 8에서 상세히 설명되는 다음 단계(611)는 동작 매개변수(605), 텍스처/엣지 매개변수(606), 및 특징점 데이터(607)에 기초하여 트랜스코딩 힌트 상태를 결정한다. 단계(612)에서는 트랜스코딩 힌트 메타데이터가 트랜스코딩 힌트 메타데이터 버퍼로 출력된다. 본 발명의 한 실시예에 따라, 트랜스코딩 힌트 메타데이터는 "nframes" (GOP내에서의 프레임수), 모든 매개변수를 갖는 트랜스코딩 힌트 상태, 및 새로운 GOP의 시작 프레임수 ("new_gop_start")를 구비한다. 그 이후에, 변수 "nframes"는 0으로 설정되고, 현재 프레임수 "frame"에는 변수 "new_gop_start"가 주어진다. 이어서, 단계(615)에서는 소스 비트스트림의 모든 프레임이 처리되었나를 결정하도록 테스트된다. 그렇지 않은 경우 ("아니오")에는 제어가 단계(614)로 전해져 프레임수가 증가되고, 처리는 단계(602)로부터 시작되어 반복된다. 그렇지 않은 경우에는 처리가 종료된다.

도 7은 본 발명의 한 실시예에 따라 새로운 비디오 세그먼트 또는 GOP의 시작 프레임 및 끝 프레임을 결정하는 방법을 설명한다. 단계(701)에서는 도 6으로부터의 변수 "nframes"이 M (I/P 프레임 거리)의 정수 배수인가 여부를 결정한다. 그런 경우, "아니오"가 선택되고, 단계(702)에서는 현재 프레임 번호가 제1 프레임인가 여부를 결정한다. 그런 경우 ("아니오"), 제어는 단계(703)로 진행되어, "nframes"이 GOP내에서 프레임의 최소수 "gop_min" 보다 큰가 여부를 결정한다. 단계(702)에서 결과가 "예"인 경우, 새로운 GOP는 단계(705)에서 시작된다. 단계(703)에서 결과가 "예"인 경우, 새로운 GOP는 단계(705)에서 시작된다. 단계(703)에서 결과가 "아니오"인 경우, 제어는 단계(704)로 전해지고, "nframes"이 GOP내에서 프레임의 최대수 "gop_max" 보다 큰가 여부를 결정한다. 단계(704)에서 결과가 "예"인 경우, GOP는 단계(706)에서 폐쇄되고, 그렇지 않은 경우에는 처리가 종료된다.

도 8은 본 발명의 한 실시예에 따라 특정한 GOP 또는 A/V 세그먼트가 프레임 당 새로운 특징점의 수만을 고려하여 트랜스코딩 힌트 상태를 선택하는 처리를 설명한다. 설명되는 기본 개념에 기초하여, 상술된 매개변수적 동작 추정으로부터의 동작 매개변수 뿐만 아니라 DCT-계수로부터 얻어진 텍스처/엣지 매개변수를 사용하여 유사한 결정 구조가 실시될 수 있다. 설명된 등급 또는 알고리즘은 또한 동작, 엣지 액티비티, 프레임 당 새로운 콘텐츠 등에 대해 A/V 자료들을 분류하여 더 높은 레벨의 A/V 분류에 이르는데 사용될 수 있음을 주목한다. 이러한 경우, 트랜스코딩 힌트 상태는 다른 자료들의 특정한 등급을 나타낸다. 이제 도 8을 참고로, 단계(801)에서는 변수 "frame_no", "last_gop_start", "sum", 및 "new_seg"가 초기화된다. 변수 "frame no"에는 "last_gop_start" 매개변수의 콘텐츠가 주어지고, 변수 "sum" 및 "new_seg"는 0으로 초기화된다. 이어서, 단계(802)에서는 변수 "sum"의 콘텐츠가 현재 프레임의 새로운 특징점의 수 ("frame_no") 만큼 증가된다. 단계(803)에서는 변수 "frame_no"가 변수 "last_gop_stop" 보다 작은가 여부를 결정한다. 그런 경우 ("예"), 단계(802)가 반복되고, 그렇지 않은 경우에는 제어가 단계(804)로 전해진다. 단계(804)에서는 변수 "sum"의 값이 소정의 매개변수 "summax"의 1/8 보다 작은가 여부를 결정한다. 매개변수 "summax"는 프레임 "last_gop_start" 및 "last_gop_stop" 사이의 프레임 수 만큼 곱하여져 프레임에서프레임으로 트래킹될 수 있는 특징점의 최대수를 나타내는 상수이다. 이는 본 발명의 한 실시예에 따라 값 200을 갖는다. 단계(804)에서의 결과가 "예"이면, 매개변수가 도 8의 도표 1에 도시된 바와 같인 단계(806)에서 트랜스코딩 힌트 상태(1)가 선택된다. 그렇지 않은 경우, 단계(805)에서는 변수 "sum"의 값이 소정의 매개변수 "summax"의 1/4 보다 작은가 여부를 결정한다. 그런 경우 ("예"), 트랜스코딩 힌트 상태(2)는 도표 1에 도시된 바와 같이 단계(807)에서 선택된다. 그렇지 않은 경우 ("아니오")에는 트랜스코딩 힌트 상태(3) (도표 1에 도시된 바와 같이)가 단계(808)에서 선택되고, 처리는 종료된다. 단계 (804, 805)에서의 결정 임계값은 트랜스코딩 힌트 상태의 정의 및 수에 의존함을 주목하여야 한다.

트랜스코딩 힌트 메타데이터 설명

메타데이터 설명에서는 의사 C-코드 (pseudo C-code) 스타일이 사용될 수 있다. 긴급 MPEG-7 메타데이터 표준에서 정의된 바와 같이, 설명에 대한 약자 D 및 설명 구조에 대한 약자 DS가 사용된다.

도 9는 본 발명의 한 실시예에 따라 일반 A/V DS(901)내에서 트랜스코딩 힌트 메타데이터의 구조적인 조직을 도시한다. 도 9에 도시된 바와 같이, 세그먼트 DS(904) 및 매체 정보 DS(902)는 일반 A/V DS(901)로부터 유도된다. 세그먼트 분해(906)는 세그먼트 DS(904)로부터 유도되고, 비디오 세그먼트 DS(907) 및 이동 영역 DS(907)은 세그먼트 분해(906)로부터 유도된다. 도 14를 참고로 상세히 설명될 세그먼트-기반의 트랜스코딩 힌트 DS(909)는 비디오 세그먼트 DS(907)로부터 유도된다. 비디오 세그먼트 DS(907)는 도 16을 참고로 상세히 설명될 하나 또는 수개의 트랜스코딩 힌트 상태 DS(911)를 액세스한다. 이동 영역 DS(908)로부터, 도 14를 참고로 상세히 설명될 세그먼트-기반의 트랜스코딩 힌트 DS(910)는 이동 영역에 대해 유도되고, 도 16을 참고로 상세히 설명될 하나 또는 수개의 트랜스코딩 힌트 상태 DS(912)를 액세스한다. 매체 정보 DS(902)에 대해, 매체 프로파일 DS(903)가 유도된다. 매체 프로파일 DS(903)로부터, 도 10을 참고로 설명될 일반 트랜스코딩 힌트 DS(905)가 유도된다.

도 10은 트랜스코딩 힌트 DS(1001)의 구조적인 조직을 도시하고, 이는 도 11을 참고로 설명될 소스 포맷 정의 DS(1002)의 한 예와, 도 12를 참고로 설명될 타켓 포맷 정의 DS(1003)에 대한 하나 또는 수개의 예로 구성된다. 부가하여, 트랜스코딩 힌트 DS(1001)는 도 13을 참고로 설명될 일반 트랜스코딩 힌트 DS(1004)의 한 선택적인 예와, 도 15를 참고로 설명될 한가지 선택적인 트랜스코딩 부호화 복잡도 DS(1005)로 구성된다.

도 11은 본 발명의 한 실시예에 따라 전체적인 A/V 콘텐츠 또는 특정한 A/V 세그먼트에 연관된 소스 포맷 정의 트랜스코딩 힌트 메타데이터 (예를 들면, 도 10의 소스 포맷 정의 DS(1002))를 도시한다. 도 11에 도시된 바와 같이, 관련된 설명자 및 설명 구조는 다음을 포함할 수 있다:

* bitrate는 타입 <int>이고, 소스 A/V 데이터 스트림의 초당 비트 전송율을 설명한다.

* size_of_pictures는 타입 <2*int>이고, x 및 y 방향으로 소스 A/V 포맷의 화상 크기를 설명한다.

* number_of_frames_per_second는 타입 <int>이고, 소스 콘텐츠의 초당 프레임의 수를 나타낸다.

* pel_aspect_ratio는 타입 <float>이고, 펠 종횡비를 설명한다.

* pel_colour_depth는 타입 <int>이고, 칼라 깊이를 설명한다.

* usage_of_progressive_interlaced_format은 크기 <1 비트>이고, 소스 포맷이 진행 또는 비월 포맷인가 여부를 설명한다.

* usage_of_frame_field_pictures는 크기 <1 비트>이고, 프레임 또는 필드 화상이 사용되는지 여부를 설명한다.

* compression method는 타입 <int>이고, 소스 포맷에 사용되는 압축 방법을 정의하고, MPEG-1, MPEG-2, MPEG-4, DV, H.263, H.261 등을 포함하는 리스트로부터 선택될 수 있다. 모든 압축 방법에 대해, 여기서는 매개변수가 더 정의될 수 있다.

* GOP_structure는 I, P, B 상태의 런-렝스 (run length) 부호화 데이터 필드이다. 예를 들어, MPEG-2 비디오에 I-프레임만이 있는 경우, 압축 영역에서 DV 포맷으로의 직접적인 변환이 가능하다.

도 12는 본 발명의 한 실시예에 따라 전체적인 A/V 콘텐츠 또는 특정한 A/V 세그먼트에 연관된 타켓 포맷 정의 트랜스코딩 힌트 메타데이터를 도시한다. 도 12에 도시된 바와 같이, 관련된 설명자 및 설명 구조는 다음을 포함할 수 있다:

* bitrate는 타입 <int>이고, 타켓 A/V 데이터 스트림의 초당 비트 전송율을 설명한다.

* size_of_pictures는 타입 <2*int>이고, x 및 y 방향으로 타켓 A/V 포맷의 화상 크기를 설명한다.

* number_of_frames_per_second는 타입 <int>이고, 타켓 콘텐츠의 초당 프레임의 수를 나타낸다.

* pel_aspect_ratio는 타입 <float>이고, 펠 종횡비를 설명한다.

* pel_colour_depth는 타입 <int>이고, 칼라 깊이를 설명한다.

* usage_of_progressive_interlaced_format은 크기 <1 비트>이고, 타켓 포맷이 진행 또는 비월될 필요가 있는지 여부를 설명한다.

* compression method는 타입 <int>이고, 타켓 포맷에 사용되는 압축 방법을 정의하고, MPEG-1, MPEG-2, MPEG-4, DV, H.263, H.261 등을 포함하는 리스트로부터 선택될 수 있다. 모든 압축 방법에 대해, 여기서는 매개변수가 더 정의될 수 있다.

* GOP_structure는 I, P, B 상태의 선택적인 런-렝스 부호화 데이터 필드이다. 이 선택적인 매개변수로, 고정된 GOP 구조가 강요될 수 있다. 고정된 GOP 구조는 예를 들어, 특정한 위치에 있는 I-프레임이 비디오 편집을 용이하게 시키는데 유용하다.

도 13은 본 발명의 한 실시예에 따라 전체적인 A/V 콘텐츠 또는 특정한 A/V 세그먼트에 연관된 일반 트랜스코딩 힌트 메타데이터 (예를 들면, 도 11의 일반 트랜스코딩 힌트 DS(1004))를 설명한다. 도 13에 도시된 바와 같이, 관련된 설명자 및 설명 구조는 다음을 포함할 수 있다:

* use_region_of_interest_DS는 <1 비트>의 길이를 갖고, 관심있는 설명 구조의 영역이 트랜스코딩 힌트로 이용가능한가 여부를 나타낸다.

* region_of_interest_DS가 사용되는 경우, motion_trajectory_D와 함께 shape_D (예를 들어 다음 중 하나가 될 수 있는: boundary_box_D, MB_shape_D, 또는 임의의 다른 shape_D)는 관심 영역을 공간적 및 시간적으로 설명하는데 사용될 수 있다. MB_shape_D는 객체 형상 설명에 매크로블록 (16x16) 크기의 블록을 사용할 수 있다. Motion_trajectory_D는 이미 시간 표시를 포함하므로, region_of_interest_DS의 시작 프레임 및 종료 프레임이 정의될 수 있다. region_of_interest_DS는 각 shape_D의 크기 및 각 motion_trajectory_D의 크기를 가질 수 있다. 트랜스코딩 응용에서, region_of_interest_DS는 예를 들어, 배경 보다 관심있는 영역내의 블록에 더 많은 비트를 쓰는데 (또는 양자화기를 각각 수정하는데) 사용될 수 있다. MPEG-4에 대한 또 다른 트랜스코딩 응용은 분리된 MPEG-4 객체에 의해 관심있는 영역을 설명하고 배경과 같이 다른 MPEG-4 보다 관심있는 영역에 더 높은 비트 전송율 및 더 높은 프레임 비율을 쓰는 것이다. region_of_interest_DS의 추출은 자동적으로 또는 수동적으로 실행될 수 있다.

* use_editing_effects_transcoding_hints_DS는 <1 비트>의 길이를 갖고, 정보가 편집 효과에 기초하여 트랜스코딩 힌트에 이용가능한가를 나타낸다.

* camera_flash는 카메라 플래쉬가 일어나는 경우 모든 엔트리가 프레임수를설명하는 엔트리 (entry)의 리스트이다. 그러므로, 설명자의 길이는 <int>로 곱하여진 카메라 플래쉬 이벤트의 수이다. 트랜스코딩 응용에서는 Peter Kuhn: "MPEG-4 동작 추정에 대한 알고리즘, 복잡도 분석, 및 VLSI 설계 (Algorithms, Complecity Analysis and VLSI Architectures for MPEG-4 motion estimation)", Kluwer Academic Publishers, 1999에서 설명된 휘도 차이에 기초하여 대부분의 비디오 (재) 인코더/트랜스코더가 동작 추정 방법을 사용하므로, camera_flash 설명자는 매우 유용하다. 휘도-기반의 동작 추정의 경우, 2개의 연속적인 프레임 (플래쉬를 가진 것, 플래쉬를 가지지 않은 것)의 2개 매크로블록 사이의 평균 절대 에러는 예측하기에 너무 높고, 카메라 플래쉬를 갖는 프레임이 높은 비트 전송율 비용을 갖는 인트라-프레임으로 부호화되어야 한다. 그러므로, 트랜스코딩 힌트 설명자 구조 ("DS")내에서 카메라 플래쉬를 나타내는 것은 예를 들어, 적절한 비트 전송율로 앵커 프레임으로부터 카메라 플래쉬를 갖는 프레임을 예측하는데 휘도 정정 동작 추정 방법 또는 다른 수단을 사용하도록 허용한다.

* cross_fading은 모든 엔트리가 크로스패이딩의 시작 프레임 및 종료 프레임을 설명하는 엔트리의 리스트이다. 그러므로, 이 설명자의 길이는 크로스패이딩 이벤트의 수의 2배 <int>이다. 트랜스코딩 힌트 메타데이터에서 크로스패이딩 이벤트를 나타내는 것은 크로스패이딩 동안 비트 전송율/양자화기를 제어하는데 매우 유용하다. 크로스패이딩 동안, 예측은 일반적으로 제한된 용도이므로, 예측 에러 코딩에 대해 비트 전송율을 증가시킨다. 크로스패이딩 동안 화면이 통상적으로 흐려지므로, 비트 전송율 증가는 양자화기 스케일, 비트 전송율, 또는 비율 제어 매개변수를 각각 조정함으로서 제한될 수 있다.

*black_pictures는 모든 엔트리가 흑색 화상의 순차의 시작 프레임 및 종료 프레임을 설명하는 엔트리의 리스트이다. 화면 사이에는 특히, 가정용 비디오에서 흑색 화상이 일어난다. 실험적으로, 일련의 흑색 화상은 예측이 단지 제한된 용도이기 때문에 동작-보상된 DCT 코드에서 비트 전송율을 증가시키는 것으로 나타난다. 그러므로, 이 트랜스코딩 힌트 설명자는 양자화기 스케일, 비트 전송율, 또는 비율 제어 매개변수를 각각 조정함으로서 흑색 화상 동안 비트 전송율을 제한시키는데 사용될 수 있다.

* fade_in은 cross_fading과 유사하고, 패이드인의 시작 프레임 및 종류 프레임을 결정하는 다수의 엔트리로 설명된다. 크로스패이딩과 비교하여, 패이드인은 흑색 화상으로부터 시작하므로, 양자화기 스케일, 비트 전송율, 또는 비율 제어 매개변수를 각각 조정함으로서, 일종의 눈에 대한 마스킹 (masking) 효과가 패이드인 동안 비트 전송율을 제한하는데 사용될 수 있다.

* fade_out은 장면 이후에, 일련의 흑색 화상이 설명되는 것을 제외하고 fade_in과 유사하다.

* abrupt_change는 패이딩이 나타나지 않고 어디서 갑작스런 장면 또는 숏 (shot)이 변하는지를 나타내는 타입 <int>의 단일 프레임수의 리스트에 의해 설명된다. 이들 이벤트는 예를 들어, 도 3의 매우 높고 예리한 피크에 의해 나타내진다. 이들 피크는 새로운 카메라 숏 또는 장면의 시작을 나타낸다. abrupt_change 편집 효과는 패이딩 효과와 대조적이다. 두 비디오 세그먼트 사이에 갑작스런 변화가 일어날 때, 사람의 시각적 인지는 새로운 A/V 세그먼트의 상세한 내용을 인식하고 적응하는데 수 millisecond를 필요로 한다. 사람 눈의 이러한 지연 효과는 예를 들어, 장면 또는 숏의 갑작스런 변화 이후에 비트 전송율을 감소시키거나 비디오 세그먼트의 제1 프레임에 대한 양자화기 스케일을 수정하도록 비디오 트랜스코딩에 유리하게 사용될 수 있다.

* use_motion_transcoding_hints_DS는 <1 비트>의 길이를 갖고, 동작-관련 트랜스코딩 힌트 메타데이터의 사용을 나타낸다.

* number of regions는 이어지는 동작-관련 트랜스코딩 힌트 메타데이터가 유효한 영역의 수를 나타낸다.

* for_every_region은 <1 비트> 길이의 필드로, 영역이 직사각형 또는 임의의 형상인가 여부를 나타낸다. 영역이 임의의 형상인 경우, 영역 설명자 (예를 들어, 형상 설명자 및 동작 궤도 설명자로 구성된)가 사용된다. 직사각형 영역인 경우, 직사각형 영역의 크기가 사용된다. 이 영역내의 동작 필드는 매개변수적 동작 모델에 의해 설명되고, 이는 프레임의 순차 또는 모든 프레임에 대한 수개의 매개변수에 의해 결정된다. 트랜스코딩에서, 소스 비디오의 실제 동작에 대한 동작 표현은 (재)부호화 부분의 계산적으로 복잡한 동작 추정의 검색 영역을 제한하고, 또한 빠르고 효과적인 비월/역비월 (프레임/필드) 변환을 위해 비디오내의 동작량에 의존하여 GOP (Group of Pictures) 구조를 결정하는데 사용될 수 있다. 동작 표현은 또한 비디오의 크기 변환을 위해 유리하게 사용될 수 있다.

도 14는 본 발명의 한 실시예에 따라 일정한 특성을 도시하는 A/V 세그먼트에 대한 (재)부호화/트랜스코더 셋팅을 결정하는데 사용될 수 있는 세그먼트-기반의 트랜스코딩 힌트 메타데이터 (예를 들면, 도 9의 세그먼트-기반의 트랜스코딩 힌트 DS (909, 910)를 도시한다. 도 14에 도시된 바와 같이, 관련된 설명자 및 설명자 구조는 다음을 포함할 수 있다:

* start_frame은 타입 <int>이고, A/V 세그먼트의 트랜스코딩 힌트 메타데이터의 시작부에서 프레임수를 설명한다.

* nframes는 타입 <int>이고, A/V 세그먼트의 길이를 설명한다.

* I_frame_location은 A/V 세그먼트내에서 I-프레임의 위치를 설명하는데 몇가지 가능성을 제공한다.

* select_one_out_of_following은 크기 <2 비트>이고, 다음의 4가지 I-프레임 위치 설명 방법 중 하나를 선택한다.

* first frame은 크기 <1 비트>이고, 디폴트 (default) I-프레임 위치이다. 이 방법은 제1 프레임만이 A/V 세그먼트의 인트라 프레임으로 또 다른 예측을 위해 앵커로 사용되고 A/V 세그먼트내의 다른 모든 프레임이 P- 또는 B-프레임인 경우 A/V 세그먼트를 설명한다.

* List of frames는 A/V 세그먼트내에서 인트라-프레임의 프레임수의 리스트를 제공한다. 이 방법은 A/V 세그먼트내에서 인트라-프레임의 위치를 임의로 설명하도록 허용하다. 이 리스트내의 k 프레임에 대해, 이 설명자의 크기는 <k*int>이다.

* first_frame_and_every_k_frames는 타입 <int>이고, 여기서 세그먼트내의제1 프레임은 인트라이고 k는 A/V 세그먼트내에서 I-프레임의 간격을 설명한다.

* no_I_frame은 크기 <1 비트>이고, A/V 세그먼트내에서 I-프레임이 사용되지 않는 경우를 설명하고, 이는 A/V 세그먼트의 부호화가 이전 세그먼트에서의 앵커 (인트라-프레임)에 기초할 때 유용하다.

* quantizer_scale은 타입 <int>이고, A/V 세그먼트에 대한 초기 양자화기 스케일값을 설명한다.

* target_bitrate는 타입 <int>이고, A/V 세그먼트에서 초당 타켓 비트 전송율을 설명한다.

* target_min_bitrate는 크기 <int>이고, A/V 세그먼트에서 초당 최소 타켓 비트 전송율을 설명한다 (선택적).

* target_max_bitrate는 크기 <int>이고, A/V 세그먼트에서 초당 최대 타켓 비트 전송율을 설명한다 (선택적).

* use_transcoding_states는 크기 <1 비트>이고, 트랜스코딩 힌트 상태가 A/V 세그먼트에 사용되는지 여부를 설명한다.

* transcoding_state_nr은 타입 <int>이고, 세그먼트에 대한 트랜스코딩 힌트 메타데이터 상태를 제공한다. 트랜스코딩 힌트 메타데이터 상태는 트랜스코딩 힌트 상태의 테이블에서 엔트리에 대한 포인터이다. 트랜스코딩 힌트 상태의 테이블은 수개의 엔트리를 가질 수 있고, 여기서 새로운 엔트리는 트랜스코딩 힌트 매개변수에 의해 부가 또는 삭제될 수 있다. 단일 트랜스코딩 힌트 상태의 트랜스코딩 힌트 메타데이터는 도 16을 참고로 설명된다.

* add_new_transcoding_state는 크기 <1 비트>이고, 연관된 정보를 갖는 새로운 트랜스코딩 상태가 트랜스코딩 힌트 테이블에 부가되어야 하는지 여부를 설명한다. add_new_transcoding_state 신호가 "예"이면, 새로운 트랜스코딩 힌트 사태의 매개변수 리스트가 주어진다. 매개변수 리스트의 크기는 한 트랜스코딩 힌트 상태의 매개변수의 수와 트랜스코딩 힌트 상태의 수에 의해 결정된다.

* remove_transcoding_state는 트랜스코딩 상태가 제거될 수 있는지 여부를 나타내는 크기 <1 비트>의 플래그이다. 트랜스코딩 상태가 제거될 수 있는 경우, 제거되는 트랜스코딩 상태의 상태수 (타입:<int>)가 주어진다.

* use_encoding_complexity_description은 크기 <1 비트>이고, 도 15에서 정의된 바와 같이 보다 상세한 부호화 복잡도 설명이 사용되어야 하는지 여부를 알린다.

도 15는 본 발명의 한 실시예에 따라 전체적인 A/V 콘텐츠 또는 특정한 A/V 세그먼트에 연관될 수 있는 코드화 복잡도 트랜스코딩 힌트 메타데이터를 도시한다. 부호화 복잡도 메타데이터는 비율 제어에 사용될 수 있고, 양자화기 및 비트 전송율 셋팅을 결정한다.

* use_feature_points는 크기 <1 비트>이고, 특징점 기반의 복잡도 평가 데이터의 사용을 나타낸다.

*select_feature_point_method는 크기 <2 비트>이고, 특징점 방법을 선택한다.

* 프레임 당 number_of_new_feature_points는 도 3에 나타내진 바와 같이 프레임 당 새로운 특징점의 수에 대한 리스트를 설명하고, 이는 크기 <nframes*int>이다. 이 메트릭(metric)은 프레임 당 새로운 콘텐츠의 양을 나타낸다.

* feature_point_metrics는 한 세그먼트내에서 프레임 당 새로운 특징점에 기초하여 메트릭의 리스트를 설명한다. 메트릭들은 다음 수단으로 <int> 값의 순서 리스트로 나타내진다: 프레임 당 새로운 특징점의 수에 대한 평균치, 최대치, 최소치, 분산, 표준편차.

* use_equation_description은 프레임 당 부호화 복잡도의 수식-기반의 설명에 대한 <int> 포인터이다.

* use_motion_description은 크기 <1 비트>이고, 동작-기반의 복잡도 설명의 사용을 나타낸다.

* select_motion_method는 크기 <4 비트>이고, 동작 설명 방법을 선택한다.

* param_k_motion은 크기 <nframes*k*int>이고, 전반적인 매개변수적 동작 모델의 모든 단일 프레임에 대해 k 매개변수를 설명한다.

* motion_metrics는 동작 벡터의 크기에 기초하여 전체적인 세그먼트에 대한 메트릭들의 리스트를 설명한다. 메트릭들은 다음 수단으로 <int> 값의 순서 리스트로 나타내진다: 매크로블록 동작 벡터의 평균치, 최대치, 최소치, 분산, 표준편차.

* block_motion_field는 m*m 블록 크기의 동작 필드의 모든 벡터를 설명하고, 크기 <nframes*int*size_x*size_y/(m*m)>이다.

* use_texture_edge_metrics는 텍스처 또는 엣지 메트릭들이 사용될 때 설정되는 플래그이고, 크기 <1 비트>이다.

* select_texture_edge_metrics는 크기 <4 비트>이고, 다음으로부터 어떤 텍스처 메트릭이 사용되는지를 결정한다.

* DCT_block_energy는 한 블록의 모든 DCT-계수들의 합이고 프레임 내의 모든 블록에 대해 정의된다. 그 크기는 <size_y*size_X*nframes*int/64>이다.

* DCT_block_activity는 DC 계수 없이 한 블록의 모든 DCT-계수의 합으로 정의된다. 이는 프레임내에서 모든 블록에 대해 정의되고, 크기 <size_y*size_x *nframes*int/64>이다.

* DCT_energy_metric은 각 블록의 각 DCT 에너지에 기초하는 전체적인 세그먼트에 대한 메트릭들의 리스트를 설명한다. 메트릭들은 다음 수단으로 <int> 값의 순서 리스트로 나타내진다: 모든 각기 DCT 에너지 메트릭들의 평균치, 최대치, 최소치, 분산, 표준편차. 설명자의 크기는 <6*int>이다. 이 설명자의 다른 실시는 비디오 세그먼트의 모든 단일 프레임에 대해 DCT 에너지 메트릭을 설명하는 것이다.

* DCT_activity_metric은 각 블록의 개별 DCT 동작에 기초하여 전체적인 세그먼트에 대한 메트릭들의 리스트를 설명한다. 메트릭들은 다음 수단으로 <int> 값의 순서 리스트로 나타내진다: 모든 각기 DCT 액티비티 메트릭들의 평균치, 최대치, 최소치, 분산, 표준편차. 설명자의 크기는 <6*int>이다. 이 설명자의 다른 실시는 비디오 세그먼트의 모든 단일 프레임에 대해 DCT 액티비티 메트릭을 설명하는 것이다.

도 16은 본 발명의 한 실시예에 따라 전체적인 시청각 콘텐츠 또는 특정한 A/V 세그먼트에 연관된 트랜스코딩 힌트 상태 메타데이터를 도시한다. 관련된 설명자 및 설명 구조는 다음을 포함할 수 있다:

* M은 타입 <int>이고, I-프레임/P-프레임 거리를 설명한다.

* bitrate_fraction_for_I는 타입 <float>이고, I 프레임에 이용가능한 A/V 세그먼트에 대해 정의된 비트 전송율 일부를 설명한다.

* bitrate_fraction_for_P는 타입 <float>이고, P 프레임에 사용될 수 있는 A/V 세그먼트에 대해 정의된 비트 전송율 일부를 설명한다. B-프레임에 대한 비트 전송율 일부는 100%의 퍼센트에서 나머지 부분이다.

* quantizer_scale_ratio_I_P는 타입 <float>이고, I- 및 P-프레임 사이에서 양자화기 스케일의 관계 (이 세그먼트에 대해 정의된 바와 같은)를 나타낸다.

* quantizer_scale_ratio_I_B는 타입 <float>이고, I- 및 P-프레임 사이에서 양자화기 스케일의 관계 (이 세그먼트에 대해 정의된 바와 같은)를 나타낸다. 비트 전송율 설명자 (bitrate_fraction_for_I < bitrate_fraction_for_P), quantizer _scale_ratio 설명자 (quantizer_scale_ratio_I_P, quantizer_scale_ ratio_I_B), 또는 다음의 비율-제어 매개변수가 필수적임을 주목한다.

* X_I, X_P, X_B는 frame_vbv_complexities로 각각 타입 <int>이고, 프레임 기반의 압축 타켓 포맷의 경우에 정의된다 (예를 들면, 도 12). 이들 및 다음의 VBV (Virtual Buffer Verifier) 복잡도 조정은 선택적이고, 소스 콘텐츠 특성 및 타켓 포맷 정의에 따라 비율 제어 구조를 수정하는데 사용될 수 있다.

* X_I top, X_P top, X_B top은 상단 필드에 대한 field_vbv_complexities로 각각 타입 <int>이고, 필드 기반의 압축 타켓 포맷의 경우에 정의된다 (예를 들면, 도 12).

* X_I bot, X_P bot, X_B bot는 바닥 필드에 대한 field_vbv_complexities로 각각 타입 <int>이고, 필드 기반의 압축 타켓 포맷의 경우에 정의된다 (예를 들면, 도 12).

이와 같이, 선행하는 설명으로부터 명백해지는 것 중에서, 상기에 설명된 목적들이 효과적으로 이루어짐을 볼 수 있고, 본 발명의 의도 및 범위에서 벗어나지 않고 설명된 구조에서 상기 방법을 실행할 때 특정한 변화가 일어날 수 있기 때문에, 상기 설명에 포함되고 첨부된 도면에 도시된 모든 내용은 제한적인 의미가 아니라 설명적인 의미로 해석되도록 의도된다.

또한, 다음의 청구항은 여기서 설명된 본 발명의 일반적인 특성 및 특정한 특성과 언어적인 문제로 그에 포함되는 것이라 말하여질 수 있는 본 발명의 범위에 대한 모든 언급을 모두 포함하도록 의도되는 것으로 이해하여야 한다.

Claims

공급된 비디오/오디오 신호들을 처리하는 비디오/오디오 신호 처리 방법에 있어서:

트랜스코딩 타켓 비트스트림 매개변수들(transcoding target bitstream parameters)을 기술하는 단계;

트랜스코딩 힌트 메타데이터 (transcoding hints metadata)를 추출하는 단계;

상기 트랜스코딩 힌트 메타데이터를 저장하는 단계;

A/V 자료들을 세그먼트들(segments)로 분리하는 단계;

상기 트랜스코딩 힌트 메타데이터를 상기 분리된 A/V 세그먼트들에 연관시키는 단계; 및

상기 A/V 자료들을 트랜스코딩하는 단계를 포함하는, 비디오/오디오 신호 처리 방법.
제 1 항에 있어서,

트랜스코딩 타켓 비트스트림 매개변수들을 기술하는 단계는:

압축 영상들의 제2 비트스트림의 비트 전송율을 정의하는 단계;

상기 압축 영상들의 제2 비트스트림의 화상 크기를 정의하는 단계;

상기 압축 영상들의 제2 비트스트림의 초당 프레임수를 정의하는 단계;

상기 압축 영상들의 제2 비트스트림의 펠 (pel)의 종횡비(aspect ratio)를 정의하는 단계;

상기 압축 영상들의 제2 비트스트림의 각 펠에 대한 칼라 깊이를 정의하는 단계;

상기 압축 영상들의 제2 비트스트림에 진행 포맷 (progressive format)이 사용되는지 여부를 정의하는 단계;

상기 압축 영상들의 제2 비트스트림에 비월 포맷 (interlaced format)이 사용되는지 여부를 정의하는 단계;

상기 압축 영상들의 제2 비트스트림에 프레임 화상들이 사용되는지 여부를 정의하는 단계;

상기 압축 영상들의 제2 비트스트림에 홀드 (hold) 화상들이 사용되는지 여부를 정의하는 단계; 및

상기 압축 영상들의 제2 비트스트림의 압축 방법을 정의하는 단계를 포함하는, 비디오/오디오 신호 처리 방법.
제 2 항에 있어서,

상기 트랜스코딩 타켓 비트스트림 매개변수들을 기술하는 단계는 MPEG (Moving Pictures Expert Group)에 의해 정의된 바와 같이 사용된 압축 표준들을 정의하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 2 항에 있어서,

상기 트랜스코딩 타켓 비트스트림 매개변수들을 기술하는 단계는 ITU-T (International Telecommunications Union Technical Standards Group)에 의해 정의된 바와 같이 상기 사용된 압축 표준들을 정의하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 1 항에 있어서,

상기 트랜스코딩 힌트 메타데이터를 추출하는 단계는:

제1 GOP 구조를 갖는 압축 영상 데이터의 제1 비트스트림을 수신하는 단계;

상기 제1 비트스트림으로부터 제1 동작 정보를 구하는 단계;

상기 제1 세그먼트의 텍스처/엣지 (texture/edge) 정보를 구하는 단계;

상기 제1 비트스트림으로부터 특징점들 및 연관된 동작 정보를 구하는 단계; 및

상기 제1 비트스트림으로부터 관심 정보의 영역을 구하는 단계를 포함하는, 비디오/오디오 신호 처리 방법.
제 5 항에 있어서,

상기 트랜스코딩 힌트 메타데이터를 추출하는 단계는 상기 트랜스코딩 힌트 메타데이터로서 제1 동작 정보를 저장하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 5 항에 있어서,

상기 트랜스코딩 힌트 메타데이터를 추출하는 단계는 매개변수적 동작 모델(parametric motion model)의 매개변수들로 동작-관련 트랜스코딩 힌트 메타데이터를 표현하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 7 항에 있어서,

상기 트랜스코딩 힌트 메타데이터를 추출하는 단계는 이어지는 직사각형 비디오 프레임들내에서 전체적인 동작을 기술하기 위해 상기 매개변수적 동작 모델을 사용하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 7 항에 있어서,

상기 트랜스코딩 힌트 메카데이터를 추출하는 단계는 임의의 형상의 정의 영역내에서 동작을 기술하기 위해 상기 매개변수적 동작 모델을 사용하는 단계를 포함하는, 비디오/오디오 신호 처리 방법.
제 9 항에 있어서,

상기 매개변수적 동작 모델은 MPEG-4내에서 사용되는 바와 같이 임의의 형상의 정의 영역내에서 동작을 기술하는데 사용되는, 비디오/오디오 신호 처리 방법.
제 5 항에 있어서,

상기 트랜스코딩 힌트 메타데이터를 추출하는 단계는 상기 압축 영상 데이터의 제1 비트스트림에 포함된 동작 벡터들의 어레이로 동작-관련 트랜스코딩 힌트 메타데이터를 표현하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 5 항에 있어서,

상기 트랜스코딩 힌트 메타데이터를 추출하는 단계는 상기 압축 영상 데이터의 제1 비트스트림에 포함된 동작 벡터들로부터 유도되는 동작 벡터들의 어레이로 동작-관련 트랜스코딩 힌트 메타데이터를 표현하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 5 항에 있어서,

상기 트랜스코딩 힌트 메타데이터를 추출하는 단계는 이어지는 프레임들내에서 트래킹되는 연관된 동작 벡터들을 갖는 특징점들의 리스트로 동작-관련 트랜스코딩 힌트 메타데이터를 표현하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 5 항에 있어서,

상기 트랜스코딩 힌트 메타데이터를 추출하는 단계는 이어지는 프레임들내에서 임의의 형상의 영역내에서 트래킹되는 연관된 동작 벡터들을 갖는 특징점들의리스트로 동작-관련 트랜스코딩 힌트 메타데이터를 표현하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 5 항에 있어서,

상기 트랜스코딩 힌트 메타데이터를 추출하는 단계는 DCT-계수들 및 그로부터 유도된 측정치 (평균치, 최소치, 최대치, 분산, 및 표준편차 중 하나)의 리스트 중 하나로 텍스처-관련 트랜스코딩 힌트 메타데이터를 표현하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 5 항에 있어서,

상기 트랜스코딩 힌트 메타데이터를 추출하는 단계는 DCT-계수들 및 그로부터 유도되는 측정치 (평균치, 최소치, 최대치, 분산, 및 표준편차 중 하나)의 리스트 중 하나로 엣지-관련 트랜스코딩 힌트 메타데이터를 표현하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 5 항에 있어서,

상기 트랜스코딩 힌트 메타데이터를 추출하는 단계는 리스트로 상기 특징점들 및 연관된 동작-관련 트랜스코딩 힌트 메타데이터를 표현하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 5 항에 있어서,

상기 트랜스코딩 힌트 메타데이터를 추출하는 단계는 한 프레임로부터 다음 프레임까지 손실된 특징점들 및 새로운 특징점들의 수를 사용하여 이어지는 프레임들내에서 트래킹된 특징점들의 수명 리스트로부터 유도된 복잡도 메트릭(complicity metric)으로 부호화-복잡도-관련 트랜스코딩 힌트 메타데이터를 표현하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 1 항에 있어서,

상기 트랜스코딩 힌트 메타데이터를 저장하는 단계는 수개의 상황들에 대한 트랜스코딩 힌트 메타데이터를 포함하는 버퍼를 유지하는 단계를 포함하는, 비디오/오디오 신호 처리 방법.
제 19 항에 있어서,

상기 트랜스코딩 힌트 메타데이터를 저장하는 단계는 수개의 타켓 디바이스들에 대해 개별적인 일반 트랜스코딩 힌트 메타데이터를 저장하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 19 항에 있어서,

상기 트랜스코딩 힌트 메타데이터를 저장하는 단계는 변화하는 장면 액티비티의 A/V 세그먼트들에 대해 일반 트랜스코딩 힌트 메타데이터를 저장하는 단계를더 포함하는, 비디오/오디오 신호 처리 방법.
제 1 항에 있어서,

상기 A/V 자료들을 세그먼트들로 분리하는 단계는:

연관된 동작 벡터들을 갖는 특징점들을 사용하는 단계;

특징점들을 트래킹하고 특징점들의 수명을 유지하는 단계; 및

한 프레임으로부터 다음 프레임까지 트래킹될 수 없었던 특징점들의 수에 기초하여 트랜스코딩을 위한 새로운 A/V 세그먼트를 결정하는 단계를 포함하는, 비디오/오디오 신호 처리 방법.
제 1 항에 있어서,

상기 트랜스코딩 힌트 메타데이터를 분리된 A/V 세그먼트들에 연관시키는 단계는:

프레임 당 새로운 특징점들의 수를 계산하는 단계;

새로운 특징점들의 수가 소정의 임계값들을 넘는지를 결정하는 단계; 및

상기 결정에 기초하여 수개의 트랜스코딩 힌트 상태들 중 하나의 상태를 선택하는 단계를 포함하는, 비디오/오디오 신호 처리 방법.
제 1 항에 있어서,

상기 A/V 자료들을 트랜스코딩하는 단계는:

제1 GOP 구조를 갖는 압축 영상 데이터의 제1 비트스트림을 수신하는 단계;

상기 제1 비트스트림으로부터 트랜스코딩 힌트 메타데이터를 추출하는 단계;

상기 트랜스코딩을 용이하게 하기 위해 상기 제1 비트스트림에 연관된 상기 트랜스코딩 힌트 메타데이터를 사용하는 단계; 및

제2 비트스트림을 출력하는 단계를 포함하는, 비디오/오디오 신호 처리 방법.
제 24 항에 있어서,

상기 A/V 자료들을 트랜스코딩하는 단계는 트랜스코딩을 용이하게 하기 위해 상기 제1 비트스트림의 시간 세그먼트들(temporal segments)에 연관된 트랜스코딩 힌트 메타데이터를 사용하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 24 항에 있어서,

상기 A/V 자료들을 트랜스코딩하는 단계는 트랜스코딩을 용이하게 하기 위해 제1 비트스트림의 공간 세그먼트들(spatial segments)에 연관된 상기 트랜스코딩 힌트 메타데이터를 사용하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 24 항에 있어서,

상기 A/V 자료들을 트랜스코딩하는 단계는 상기 제1 GOP 구조와 다른 제2 GOP 구조를 갖는 압축 영상 데이터의 상기 제2 비트스트림에 대해 제2 동작 정보를외삽(extrapolate)하기 위해 상기 트랜스코딩 힌트 메타데이터에 포함된 동작 정보를 사용하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 24 항에 있어서,

상기 A/V 자료들을 트랜스코딩하는 단계는 상기 제1 비트스트림의 비트 전송율이 상기 제2 비트스트림의 비트 전송율과 다르도록 제2 비트스트림의 비트 전송율을 제어하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 28 항에 있어서,

상기 A/V 자료들을 트랜스코딩하는 단계는 상기 제2 비트스트림에 의해 표현된 상기 화상들이 상기 제1 비트스트림에 의해 표현된 상기 화상들의 크기와 다른 크기를 나타내도록 상기 제1 비트스트림에 의해 표현된 상기 화상들의 크기를 조정하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 24 항에 있어서,

상기 A/V 자료들을 트랜스코딩하는 단계는 상기 제2 비트스트림에 의해 표현된 상기 화상들이 상기 제1 비트스트림에 의해 표현된 상기 화상들의 크기와 다른 크기를 나타내도록 상기 제1 비트스트림에 의해 표현된 상기 화상들의 크기를 조정하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 30 항에 있어서,

상기 A/V 자료들을 트랜스코딩하는 단계는 상기 제1 비트스트림에 의해 표현된 상기 화상들이 프레임 화상들로 부호화될 때 상기 제2 비트스트림에 의해 표현된 상기 화상들을 필드 화상들로 부호화하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 30 항에 있어서,

상기 A/V 자료들을 트랜스코딩하는 단계는 상기 제1 비트스트림에 의해 표현된 상기 화상들이 필드 화상들로 부호화될 때 상기 제2 비트스트림에 의해 표현된 상기 화상들을 프레임 화상들로 부호화하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 30 항에 있어서,

상기 A/V 자료들을 트랜스코딩하는 단계는 상기 제1 비트스트림에 의해 표현된 상기 화상들이 진행 순차로 수신될 때 상기 제2 비트스트림에 의해 표현된 상기 화상들이 비월 순차로 출력되도록 상기 제1 비트스트림에 의해 표현된 상기 화상들을 비월 처리하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 30 항에 있어서,

A/V 자료들을 트랜스코딩하는 단계는 상기 제1 비트스트림에 의해 표현된 상기 화상들이 비월 순차로 수신될 때 상기 제2 비트스트림에 의해 표현된 상기 화상들이 진행 순차로 출력되도록 상기 제1 비트스트림에 의해 표현된 상기 화상들을 역비월 (de-interlacing) 처리하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 24 항에 있어서,

상기 A/V 자료들을 트랜스코딩하는 단계는 상기 제1 비트스트림에 의해 표현된 상기 화상들이 프레임 화상들로 부호화될 때 상기 제2 비트스트림에 의해 표현된 상기 화상들을 필드 화상들로 부호화하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 24 항에 있어서,

상기 A/V 자료들을 트랜스코딩하는 단계는 상기 제1 비트스트림에 의해 표현된 상기 화상들이 필드 화상들로 부호화될 때 상기 제2 비트스트림에 의해 표현된 상기 화상들을 프레임 화상들로 부호화하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 24 항에 있어서,

상기 A/V 자료들을 트랜스코딩하는 단계는 상기 제1 비트스트림에 의해 표현된 상기 화상들이 진행 순차로 수신될 때 상기 제2 비트스트림에 의해 표현된 상기화상들이 비월 순차로 출력되도록 상기 제1 비트스트림에 의해 표현된 상기 화상들을 비월 처리하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
제 24 항에 있어서,

상기 A/V 자료들을 트랜스코딩하는 단계는 상기 제1 비트스트림에 의해 표현된 화상들이 비월 순차로 수신될 때 상기 제2 비트스트림에 의해 표현된 상기 화상들이 진행 순차로 출력되도록 상기 제1 비트스트림에 의해 표현된 상기 화상들을 역비월 처리하는 단계를 더 포함하는, 비디오/오디오 신호 처리 방법.
트랜스코딩 방법에 있어서,

제1 크기의 화상들을 표현하는 압축 영상 데이터의 제1 비트스트림을 수신하는 단계;

상기 제1 비트스트림으로부터 제1 동작-관련 트랜스코딩 힌트 메타데이터를 추출하는 단계;

상기 제1 동작-관련 트랜스코딩 힌트 메타데이터를 저장하는 단계;

상기 제1 크기와 다른 제2 크기의 화상들을 표현하는 압축 영상 데이터의 제2 비트스트림에 대해 제2 동작 정보를 외삽하기 위해 상기 저장된 제1 동작-관련 트랜스코딩 힌트 메타데이터를 사용하는 단계; 및

상기 제2 비트스트림을 출력하는 단계를 포함하는 트랜스코딩 방법.
트랜스코딩 방법에 있어서,

비월 순차를 정의하는 화상들을 표현하는 압축 영상 데이터의 제1 비트스트림을 수신하는 단계;

상기 제1 비트스트림으로부터 제1 동작-관련 트랜스코딩 힌트 메타데이터를 추출하는 단계;

상기 제1 동작-관련 트랜스코딩 힌트 메타데이터를 저장하는 단계;

진행 순차를 정의하는 화상들을 표현하는 압축 영상 데이터의 제2 비트스트림에 대해 제2 동작 정보를 외삽하기 위해 상기 저장된 제1 동작-관련 트랜스코딩 힌트 메타데이터를 사용하는 단계; 및

상기 제2 비트스트림을 출력하는 단계를 포함하는, 트랜스코딩 방법.
트랜스코딩 방법에 있어서,

진행 순차를 정의하는 화상들을 표현하는 압축 영상 데이터의 제1 비트스트림을 수신하는 단계;

상기 제1 비트스트림으로부터 제1 동작-관련 트랜스코딩 힌트 메타데이터를 추출하는 단계;

상기 제1 동작-관련 트랜스코딩 힌트 메타데이터를 저장하는 단계;

비월 순차를 정의하는 화상들을 표현하는 압축 영상 데이터의 제2 비트스트림에 대해 제2 동작 정보를 외삽하기 위해 상기 저장된 제1 동작-관련 트랜스코딩 힌트 메타데이터를 사용하는 단계; 및

상기 제2 비트스트림을 출력하는 단계를 포함하는, 트랜스코딩 방법.
트랜스코딩 방법에 있어서,

프레임 화상들을 표현하는 압축 영상 데이터의 제1 비트스트림을 수신하는 단계;

상기 제1 비트스트림으로부터 제1 동작-관련 트랜스코딩 힌트 메타데이터를 추출하는 단계;

상기 제1 동작-관련 트랜스코딩 힌트 메타데이터를 저장하는 단계;

필드 화상들을 표현하는 압축 영상 데이터의 제2 비트스트림에 대해 제2 동작 정보를 외삽하기 위해 상기 저장된 제1 동작-관련 트랜스코딩 힌트 메타데이터를 사용하는 단계; 및

상기 제2 비트스트림을 출력하는 단계를 포함하는, 트랜스코딩 방법.
트랜스코딩 방법에 있어서,

필드 화상들을 표현하는 압축 영상 데이터의 제1 비트스트림을 수신하는 단계;

상기 제1 비트스트림으로부터 제1 동작-관련 트랜스코딩 힌트 메타데이터를 추출하는 단계;

상기 제1 동작-관련 트랜스코딩 힌트 메타데이터를 저장하는 단계;

프레임 화상들을 표현하는 압축 영상 데이터의 제2 비트스트림에 대해 제2동작 정보를 외삽하기 위해 상기 저장된 제1 동작-관련 트랜스코딩 힌트 메타데이터를 사용하는 단계; 및

상기 제2 비트스트림을 출력하는 단계를 포함하는, 트랜스코딩 방법.
트랜스코딩 방법에 있어서,

메인 영상을 표현하는 압축 영상 데이터의 제1 비트스트림을 수신하는 단계;

상기 제1 비트스트림으로부터 제1 동작-관련 트랜스코딩 힌트 메타데이터를 추출하는 단계;

상기 제1 동작-관련 트랜스코딩 힌트 메타데이터를 저장하는 단계;

상기 메인 영상의 일부를 표현하는 압축 영상 데이터의 제2 비트스트림에 대해 제2 동작 정보를 외삽하기 위해 저장된 제1 동작-관련 트랜스코딩 힌트 메타데이터를 사용하는 단계; 및

상기 제2 비트스트림을 출력하는 단계를 포함하는, 트랜스코딩 방법.
트랜스코딩 방법에 있어서,

GOP 구조, 화상 크기, 비트 전송율, 프레임 화상 포맷, 필드 화상 포맷, 진행 순차, 및 비월 순차 중 적어도 하나를 포함하는 다수의 코딩 매개변수들(coding parameters)을 갖는 압축 영상 데이터의 제1 비트스트림을 수신하는 단계;

상기 제1 비트스트림으로부터 제1 동작-관련 트랜스코딩 힌트 메타데이터를 추출하는 단계;

상기 제1 동작-관련 트랜스코딩 힌트 메타데이터를 저장하는 단계;

상기 제2 비트스트림의 코딩 매개변수들 중 하나 이상의 매개변수들이 상기 제1 비트스트림의 코딩 매개변수들과 다르도록 다수의 코딩 매개변수들을 갖는 압축 영상 데이터의 제2 비트스트림에 대해 제2 동작 정보를 외삽하기 위해 상기 저장된 제1 동작-관련 트랜스코딩 힌트 메타데이터를 사용하는 단계; 및

상기 제2 비트스트림을 출력하는 단계를 포함하는, 트랜스코딩 방법.
트랜스코딩 방법에 있어서,

제1 크기의 화상들을 표현하는 압축 영상 데이터의 제1 비트스트림을 수신하는 단계;

상기 제1 비트스트림으로부터 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 추출하는 단계;

상기 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 저장하는 단계;

상기 제1 크기와 다른 제2 크기의 화상들을 표현하는 압축 영상 데이터의 제2 비트스트림에 대해 제2 동작 정보를 외삽하기 위해 상기 저장된 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 사용하는 단계; 및

상기 제2 비트스트림을 출력하는 단계를 포함하는, 트랜스코딩 방법.
트랜스코딩 방법에 있어서,

비월 순차를 정의하는 화상들을 표현하는 압축 영상 데이터의 제1 비트스트림을 수신하는 단계;

상기 제1 비트스트림으로부터 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 추출하는 단계;

상기 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 저장하는 단계;

진행 순차를 정의하는 화상들을 표현하는 압축 영상 데이터의 제2 비트스트림에 대해 제2 동작 정보를 외삽하기 위해 상기 저장된 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 사용하는 단계; 및

상기 제2 비트스트림을 출력하는 단계를 포함하는, 트랜스코딩 방법.
트랜스코딩 방법에 있어서,

진행 순차를 정의하는 화상들을 표현하는 압축 영상 데이터의 제1 비트스트림을 수신하는 단계;

상기 제1 비트스트림으로부터 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 추출하는 단계;

제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 저장하는 단계;

비월 순차를 정의하는 화상들을 표현하는 압축 영상 데이터의 제2 비트스트림에 대해 제2 동작 정보를 외삽하기 위해 상기 저장된 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 사용하는 단계; 및

상기 제2 비트스트림을 출력하는 단계를 포함하는, 트랜스코딩 방법.
트랜스코딩 방법에 있어서,

프레임 화상들을 표현하는 압축 영상 데이터의 제1 비트스트림을 수신하는 단계;

상기 제1 비트스트림으로부터 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 추출하는 단계;

제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 저장하는 단계;

필드 화상들을 표현하는 압축 영상 데이터의 제2 비트스트림에 대해 제2 동작 정보를 외삽하기 위해 상기 저장된 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 사용하는 단계; 및

상기 제2 비트스트림을 출력하는 단계를 포함하는, 트랜스코딩 방법.
트랜스코딩 방법에 있어서,

필드 화상들을 표현하는 압축 영상 데이터의 제1 비트스트림을 수신하는 단계;

상기 제1 비트스트림으로부터 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 추출하는 단계;

상기 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 저장하는 단계;

프레임 화상들을 표현하는 압축 영상 데이터의 제2 비트스트림에 대해 제2 동작 정보를 외삽하기 위해 상기 저장된 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 사용하는 단계; 및

상기 제2 비트스트림을 출력하는 단계를 포함하는, 트랜스코딩 방법.
트랜스코딩 방법에 있어서,

메인 영상을 표현하는 압축 영상 데이터의 제1 비트스트림을 수신하는 단계;

상기 제1 비트스트림으로부터 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 추출하는 단계;

상기 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 저장하는 단계;

상기 메인 영상의 일부를 표현하는 압축 영상 데이터의 제2 비트스트림에 대해 제2 동작 정보를 외삽하기 위해 상기 저장된 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 사용하는 단계; 및

상기 제2 비트스트림을 출력하는 단계를 포함하는, 트랜스코딩 방법.
트랜스코딩 방법에 있어서,

GOP 구조, 화상 크기, 비트 전송율, 프레임 화상 포맷, 필드 화상 포맷, 진행 순차, 및 비월 순차 중 적어도 하나를 포함하는 다수의 코딩 매개변수들을 갖는 압축 영상 데이터의 제1 비트스트림을 수신하는 단계;

상기 제1 비트스트림으로부터 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 추출하는 단계;

상기 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 저장하는 단계;

상기 제2 비트스트림의 코딩 매개변수들 중 하나 이상의 매개변수가 상기제1 비트스트림의 코딩 매개변수들과 다르도록 다수의 코딩 매개변수들을 갖는 압축 영상 데이터의 제2 비트스트림에 대해 제2 동작 정보를 외삽하기 위해 상기 저장된 제1 특징점 동작-관련 트랜스코딩 힌트 메타데이터를 사용하는 단계; 및

상기 제2 비트스트림을 출력하는 단계를 포함하는, 트랜스코딩 방법.
공급된 비디오 신호들을 처리하는 비디오 처리 방법에 있어서:

소스 비디오를 수신하는 단계; 및

동작 메타데이터, 텍스처/엣지 메타데이터, 및 특징점들과 프레임 당 새로운 특징점들의 수를 포함하는 연관된 동작 메타데이터 중 하나를 사용하여 상기 소스 비디오의 콘텐츠를 분류하는 단계를 포함하는, 비디오 처리 방법.
제 53 항에 있어서,

상기 방법은 트랜스코드의 트랜스코딩 매개변수들 셋팅들을 결정하는데 사용되는, 비디오 처리 방법.
제 53 항에 있어서,

상기 방법은 상기 소스 비디오의 콘텐츠의 분류에 기초하여 시청각 자료들을 조직화하기 위해 사용되는, 비디오 처리 방법.
공급된 비디오/오디오 신호들을 처리하는 장치에 있어서:

트랜스코딩 타켓 비트스트림 매개변수들 중 적어도 하나의 설명(description)을 저장하는 타켓 버퍼;

적어도 하나의 설명에 기초하여 트랜스코딩 힌트 메타데이터를 추출하는 추출 유닛;

상기 트랜스코딩 힌트 메타데이터를 저장하는 버퍼;

A/V 자료들을 세그먼트들로 분리하는 분리 유닛; 및

트랜스코딩 힌트 메타데이터를 상기 분리된 A/V 세그먼트들에 연관시키고 상기 A/V 자료들을 트랜스코딩하는 트랜스코딩 유닛을 포함하는, 비디오/오디오 신호 처리 장치.
트랜스 코딩 장치에 있어서,

제1 크기의 화상들을 표현하는 압축 영상 데이터의 제1 비트스트림을 수신하는 입력;

상기 제1 비트스트림으로부터 트랜스코딩 힌트 메타데이터를 추출하는 트랜스코딩 힌트 메타데이터 추출 유닛;

상기 트랜스코딩 힌트 메타데이터를 저장하는 버퍼;

상기 제1 비트스트림과 다른 압축 영상 데이터의 제2 비트스트림에 대해 동작 정보를 외삽하기 위해 상기 저장된 트랜스코딩 힌트 메타데이터를 사용하는 처리 유닛; 및

상기 제2 비트스트림을 출력하는 출력을 포함하는, 트랜스코딩 장치.
공급된 비디오 신호들을 처리하는 장치에 있어서:

소스 비디오를 수신하는 입력; 및

동작 메타데이터, 텍스처/엣지 메타데이터, 및 특징점들과 프레임 당 새로운 특징점들의 수를 포함하는 연관된 동작 메타데이터 중 하나를 사용하여 상기 소스 비디오의 콘텐츠를 분류하는 프로세서를 포함하는, 비디오 신호 처리 장치.