KR20220080695A

KR20220080695A - 이미지 프레임들의 스트림을 생성하기 위한 방법 및 시스템

Info

Publication number: KR20220080695A
Application number: KR1020210153144A
Authority: KR
Inventors: 다니엘슨 니클라스; 다니엘슨 판 싱
Original assignee: 엑시스 에이비
Priority date: 2020-12-07
Filing date: 2021-11-09
Publication date: 2022-06-14
Anticipated expiration: 2041-11-09
Also published as: TWI873391B; EP4009635C0; JP7654530B2; KR102844729B1; CN114666591A; US11627318B2; EP4009635B1; EP4009635A1; JP2022090619A; TW202231068A; US20220182625A1

Abstract

이미지 프레임들의 스트림을 생성하기 위한 방법, 시스템 및 컴퓨터 프로그램 제품. 스트리밍 비디오에서의 이미지 프레임들은 배경 세그먼트들과 인스턴스 세그먼트들로 분할된다. 상기 배경 세그먼트들을 포함하는 배경 이미지 프레임이 생성된다. 인스턴스 세그먼트들 중 적어도 일부는 관심 있는 이동 가능한 물체들과 관심 없는 이동 가능한 물체들로 분류된다. 배경 업데이트 기간 동안, 관심 없는 이동 가능한 물체가 이동하여 배경 영역이 노출되면 상기 배경 이미지 프레임이 업데이트되어, 상기 배경 이미지 프레임에 상기 노출된 배경 영역이 포함된다. 상기 관심 있는 이동 가능한 물체들을 포함하는 전경 이미지가 생성된다. 상기 업데이트된 배경 및 전경 이미지 프레임들의 픽셀 블록이 인코딩된다. 제1 프레임 레이트를 갖는 인코딩된 전경 이미지 프레임들의 스트림이 생성된다. 인코딩되고 업데이트된 배경 이미지 프레임들의 스트림은 초당 더 낮은 프레임 레이트가 생성된다.

Description

이미지 프레임들의 스트림을 생성하기 위한 방법 및 시스템{METHOD AND SYSTEM FOR PRODUCING STREAMS OF IMAGE FRAMES}

본 발명은 비디오 인코딩에 관한 것으로, 보다 구체적으로 대역폭 효율적인 방식으로 비디오의 스트림들을 생성하는 것에 관한 것이다.

모니터링 카메라와 같은 카메라는 다양한 환경을 모니터링하기 위해, 실내 및 실외의 많은 상이한 적용에서 사용된다. 캡처된 장면을 묘사하는 이미지들은 예를 들어, 운영자 또는 경비원에 의해 모니터링될 수 있다. 많은 상황에서, 캡처된 이미지의 특정 물체가 다른 물체보다 운영자에게 더 흥미로울 수 있다. 예를 들어, 모니터링 카메라의 운영자는 사람 활동에 매우 관심이 있을 수 있지만, 동물, 지나가는 차량 또는 바람에 움직이는 나무와 같이 이미지에서 다른 이동 또는 변화하지만, 중요하지 않은 물체에는 관심이 덜할 수 있다.

그러나, 기존 인코더는 일반적으로 운영자의 관심에 관계없이, 동일한 방식으로 비디오 스트림의 전체 이미지 프레임들을 인코딩한다. 결과적으로, 특히 이동하는 물체로 인해 배경에서 작은 변화가 있는 경우, 이미지 프레임의 "덜 흥미로운" 부분이 대역폭에 크게 기여한다. 이는 또한 이미지 또는 비디오 스트림에서 가장 "흥미로운" 정보만 유지되는 것보다 더 높은 저장 사용량으로 이어질 수 있다.

따라서, 모니터링 카메라에 의해 사용되는 대역폭뿐만 아니라, 장기간 저장을 위한 저장 요건을 추가로 감소시키는 비디오 인코딩에 대한 해결책을 찾는 것은 흥미로울 것이다.

제1 양태에 따르면, 본 발명은 인코딩 시스템에서 이미지 프레임들의 스트림들을 생성하기 위한 방법에 관한 것이다. 상기 방법은:

· 이미지 프레임들의 스트림에서 이미지 프레임을 하나 이상의 배경 세그먼트(background segment)와 하나 이상의 인스턴스 세그먼트(instance segment)로 분할하는 단계;

· 상기 하나 이상의 배경 세그먼트를 포함하는 배경 이미지 프레임을 생성하는 단계;

· 상기 하나 이상의 인스턴스 세그먼트 중 적어도 일부를 관심 있는 이동 가능한 물체와 관심 없는 이동 가능한 물체로 분류하는 단계;

· 배경 업데이트 기간 동안, 관심 없는 이동 가능한 물체가 (추가) 배경 영역을 노출하도록 이동한 경우, 상기 배경 이미지 프레임에서 노출된/추가 배경 영역을 포함하도록 상기 배경 이미지 프레임을 업데이트하는 단계;

· 관심 있는 이동 가능한 물체를 포함하는 전경 이미지 프레임(foreground image frame)을 생성하는 단계;

· 상기 업데이트된 배경 이미지 프레임의 픽셀 블록을 인코딩하는 단계;

· 상기 전경 이미지 프레임의 픽셀 블록을 인코딩하는 단계;

· 제1 프레임 레이트(frame rate)를 갖는 인코딩된 전경 이미지 프레임의 스트림을 생성하는 단계; 및

· 상기 제1 프레임 레이트보다 낮은 제2 프레임 레이트를 갖는 인코딩되고 업데이트된 배경 이미지 프레임들의 스트림을 생성하는 단계를 포함한다.

이러한 방법은 운영자에게 관심 있는 정보만 높은 이미지 프레임 레이트, 예를 들어 초당 30개 이미지 프레임들로 스트리밍(streaming)되기 때문에, 기존 인코딩이 사용되는 경우와 비교하여 비디오를 스트리밍하는데 필요한 스트리밍 대역폭을 감소시키는 반면, 운영자에게 거의 또는 전혀 관심이 없는 정보는 분당 하나의 이미지 프레임과 같은 훨씬 더 낮은 레이트로 스트리밍된다. 상기 배경이 낮은 비트레이트로 스트리밍되기 때문에, 예를 들어 밤에서 낮으로의 느린 전환으로 인한 빛의 변화, 흐리게 되는 맑은 날, 또는 밤에 가로등이 켜질 때와 같이 장면의 전체 변화가 느리게 포착될 수 있다. 이는 운영자가 완전히 고정된 배경을 갖는 것과 비교하여 전체 장면을 더 잘 이해하는데 도움이 되며, 조명 설정이 두개의 스트림들 간에 거의 동일하게 업데이트되는 것을 보장한다. 또한, 운영자가 지적으로 처리해야 하는 정보(즉, 이미지 데이터)의 양을 감소시킴으로써, 감시 상황의 가장 중요한 측면에 주의를 집중하고 임의의 잠재적인 위험이나 위협을 보다 정확하게 감지할 수 있다. 또한, 비트레이트를 감소시키는 것은 특정 사용 경우에 대해 최적의 시각적 품질을 제공할 수 있고, 이는 상기 저장된 대역폭이 상기 인스턴스 세그먼트를 향상시키는데 사용될 수 있기 때문이다. 상기 배경 세그먼트는 배경 영역일 수 있고 상기 인스턴스 세그먼트는 물체 감지에 의해 감지되는 물체일 수 있다. 상기 관심 있는 이동 가능한 물체는 사용자에게 관심 있는 이동 가능한 물체일 수 있고, 관심 없는 이동 가능한 물체는 사용자에게 관심이 없는 이동 가능한 물체일 수 있다.

일 실시 형태에 따르면, 이미지 프레임들의 분할은 팬옵틱 분할(panoptic segmentation)을 사용하여 수행되며, 여기서 상기 이미지 프레임에서의 픽셀은 특정 유형의 물체 그룹을 포함하는 영역을 나타내는 배경 세그먼트에 할당되거나, 개별 물체를 나타내는 인스턴스 세그먼트에 할당된다. 팬옵틱 분할은 당업자에게 잘 알려진 기술이며, 인스턴스 분할(즉, 이미지에서 개별 인스턴스의 식별 및 분할)과 의미적 분할(semantic segmentation)(즉, (특정 인스턴스보다) 이들이 속하는 클래스에 기반한 이미지에서의 픽셀 분할)의 조합으로 설명될 수 있다. 따라서 팬옵틱 분할은 인코딩 및 전송(transmission)과 관련하여 이미지의 부분(예를 들어, 배경)이 개별 물체(예를 들어, 관심 물체 및/또는 비관심 물체)와 다르게 처리되어야 하는 이러한 유형의 적용에 특히 적합하다. 이는 이미 다양한 목적을 위해 팬옵틱 분할을 사용할 수 있는 기존 시스템과 본 발명의 통합을 용이하게 한다.

일 실시 형태에 따르면, 상기 방법은 물체 유형의 목록으로부터 사용자 선택을 수신하는 단계를 더 포함하고, 상기 사용자 선택은 어떤 유형의 물체가 관심 있는 이동 가능한 물체 및 관심 없는 이동 가능한 물체로 간주되어야 하는지를 나타낸다. 관심 있는 이동 가능한 물체와 관심 없는 이동 가능한 물체를 선택하는 능력은 이러한 결정이 요일(day) 또는 주(week)에 따라 변경될 수 있기 때문에, 운영자에게 큰 다양성을 제공한다. 예를 들어, 정상 업무 시간 동안 매장을 둘러보기 위해 멈춰선 개인은 운영자가 추적하는 것에 그다지 흥미롭지 않을 수 있지만, 새벽 3시에 동일한 행동을 보이는 개인은 운영자로부터 더 세심한 주의가 필요할 수 있다. 따라서 이러한 경우, 사람이 관심 있는 이동 가능한 물체로서 선택될 수 있다(운영자의 관심은 시간대에 따라 다양할 수 있음에도 불구하고). 그러나, 같은 매장 외부에 앉아 있는 개는 시간대에 관계없이, 관심 없는 이동 가능한 물체로 간주될 가능성이 높다. 또한, 가능한 물체 유형 목록을 제공함으로써, 사용자에게 제한적이고 소화하기 쉬운 물체 선택을 제공할 수 있다. 예를 들어, 보트를 식별할 수 있다고 하더라도, 일반적으로 상점 외부에서 보트를 찾을 수 있는 상황이 없으므로, 시스템이 그렇게 할 수 있는 능력이 있더라도, 운영자가 관심 있는 이동 가능한 물체를 선택할 수 있는 목록에 보트를 포함할 필요가 없다.

일 실시 형태에 따르면, 관심 있는 이동 가능한 물체는 사람, 차량, 무기, 가방, 및 안면 마스크 중 하나 이상을 포함한다. 모든 감시 상황은 특이하지만, 이러한 목록은 일반적인 감시 상황에서 관심 있는 보다 일반적인 이동 가능한 물체 중 일부를 나타낸다. 이들 물체 중 일부는 스스로 이동 가능하지 않을 수 있지만, 사람이 움직일 때 이동할 수 있다. 예를 들어, 자전거 자체는 관심 있는 이동 가능한 물체가 될 수 없지만, 감시 하에 있는 영역으로 사람이 타고 있는 자전거는 관심 있는 이동 가능한 물체 등으로 간주될 가능성이 매우 높다.

일 실시 형태에 따르면, 상기 배경 업데이트 기간 동안 움직임 및 물체 감지기(motion and object detector)에 의해 관심 없는 이동 가능한 물체의 이동(movement)을 추적하고, 상기 배경 업데이트 기간 만료(expiration) 전에 상기 배경 이미지 프레임이 여러 번 업데이트된다. 움직임 및 물체 감지는 당업자에게 친숙한 다양한 딥 러닝 알고리즘(Deep Learning algorithm)의 범위를 사용하여 수행될 수 있다. 이들 기술의 비-제한적인 목록은: 지역-기반 컨볼루션 신경망(R-CNN), 빠른 지역-기반 컨볼루션 신경망(Fast R-CNN), 더 빠른 지역-기반 컨볼루션 신경망(Faster R-CNN), 지역-기반 풀 컨볼루션 신경망(R-FCN), 유 온리 룩 원스(YOLO), 단일-샷 검지기(SSD), 신경 아키텍처 검색 망(NASNet), 마스크 지역-기반 컨볼루션 신경망(Mask R-CNN)을 포함한다. 이들 각각에 대한 설명은 더 자세한 소스에 대한 참조와 함께 https://medium.com/zylapp/review-of-deep-learning-algorithms-for-object-detection-c1f3d437b852에서 찾을 수 있다.

예를 들어, 관심 없는 이동하는 물체가 벽 앞에 앉아 있는 개라고 가정한다. 개가 이동할 때, 개에 의해 이전에 감춰졌던 벽의 일부가 노출되고, 상기 배경 프레임이 운영자에게 전송될 때 개가 있는 것으로 사용되는 "틈새 구멍(gaping hole)"이 아닌 벽이 보이도록 채워야 한다. 상기 배경 업데이트 기간이 1분이면, 개가 여러 번 이동하고 마지막 배경 시간 업데이트 기간이 만료되었을 때 개가 있던 위치와 비교하여 상기 이미지 프레임의 완전히 다른 부분에서 끝날 수 있다. 이는 운영자에게 어색하게 보일 수 있으며, 그 때문에 (무엇보다도) 상기 배경 업데이트 기간 동안 상기 배경 프레임을 여러 번 업데이트하는 것이 유리하다. 또한, 개가 상기 업데이트 시간 동안 장면을 떠나고 전체 배경을 노출할 만큼 충분히 움직인다면, 개가 렌더링(rendering)될 필요가 전혀 없지만, 전체 배경을 업데이트할 수 있다. 이는 단일 업데이트(또는 복수의 업데이트)로 수행할 수 있다. 그러나, 개가 비트 단위로 이동하거나 방향을 변경하면(예를 들어, 부분적으로 오른쪽으로 이동한 다음 부분적으로 왼쪽으로 이동), 업데이트를 단일 업데이트로 수행할 수 없으며, 배경 업데이트 기간 동안 여러 증분 업데이트가 필요하다.

일 실시 형태에 따르면, 상기 전경 이미지 프레임을 인코딩하는 단계는 관심 있는 이동 가능한 물체에 해당하는 픽셀에 대해서만 픽셀 데이터를 인코딩하고, 상기 전경 이미지 프레임의 나머지를 블랙 픽셀로 인코딩하는 단계를 포함한다. 관심 있는 이동 가능한 물체(들)에 대한 픽셀 데이터만 기존 방식으로 인코딩하고 상기 이미지 프레임의 나머지를 블랙 픽셀로 인코딩하면 비트 전송률이 크게 감소하므로, 인코딩된 전경 이미지 프레임이 전송될 때 대역폭 요건이 감소하고/덜 하다. 블랙 픽셀(일반적으로 0으로 인코딩됨)이 여기에 언급되어 있지만, 임의의 일관된 픽셀 값에 대해 동일하거나 매우 유사한 절감이 얻어질 수 있다. 동일한 픽셀 값(블랙 또는 기타)을 반복하는 것은 실제로 임의의 새로운 정보가 추가되지 않기 때문에, 매우 효율적으로 간결한 표현으로 압축될 수 있다.

개념적으로, 이러한 기술을 사용하는 것을 통해 얻어진 비트레이트에서의 절감은 블랙 사각형이 인코딩되는 방식을 고려하면 더 쉽게 이해될 수 있다. 바이트가 항상 동일한 값(즉, 0)을 가지더라도, 모든 픽셀에 대해 바이트를 전송하여 블랙 사각형에서의 모든 픽셀을 인코딩하는 것은 상당한 양의 메모리를 필요로 할 것이다. 그러나, 블랙 사각형을 나타내는 것과 동등한 방법은 이의 상단 왼쪽 모서리의 좌표와, 블랙 사각형의 폭와 높이, 즉 4개의 값만 전송하는 것이다. 큰 블랙 사각형의 경우, 이러한 표현을 전송하는데 필요한 데이터는 블랙 사각형에서의 모든 단일 픽셀에 대해 0 값을 전송하는 것과 비교하여 사실상 아무것도 아니다. 따라서, 이러한 기술을 사용할 때 필요한 대역폭은 본질적으로 관심 있는 물체만을 전송하는데 필요한 대역폭과 동일하다. 물론, 다른 실제 인코더는 다른 인코딩 체계를 사용하며, 이러한 기술과 유사한 결과를 얻을 수 있는 대역폭을 절약하는 많은 인코더별 방법이 존재한다. 그러나, 일반적인 원칙은 동일하게 유지되고, 즉 관심 없는 영역을 블랙아웃(blacking out)하거나, 일부 다른 대역폭 절약 방법을 사용하여 이들을 인코딩하는 것은 이들이 있었을 때와 본질적으로 동일한 대역폭 사용이 발생하고, 이미지의 이들 부분들은 전혀 전송되지 않는다.

일 실시 형태에 따르면, 상기 제1 프레임 레이트는 대략 초당 30개 이미지 프레임이고 제2 프레임 레이트는 대략 분당 하나의 이미지 프레임이다. 일반적인 이미지 프레임 업데이트 레이트보다 훨씬 낮은 배경 이미지 프레임 업데이트 레이트를 사용하면, 전송되는 데이터의 양과 필요한 대역폭이 크게 줄어든다.

일 실시 형태에 따르면, 상기 방법은 인스턴스 세그먼트를 관심 없는 정지 물체로 분류하는 단계 및 관심 없는 정지 물체를 포함하도록 배경 이미지를 업데이트하는 단계를 더 포함한다. 예를 들어, 나무, 깃발, 깜박이는 네온 사인 등은 인스턴스 세그먼트로 식별될 수 있으며, 물체의 부분이 이동할 수 있는 동안 일반적으로 이러한 물체를 빠른 프레임 레이트로 업데이트할 필요가 없다. 대신, 물체가 관심 없는 정지 물체로 분류되어 배경 이미지 프레임에 포함될 수 있으므로, 더 느린 프레임 레이트로 업데이트되고, 다시 전송되는 데이터를 크게 절약하는데 기여할 수 있다.

일 실시 형태에 따르면, 상기 방법은: 상기 배경 업데이트 기간의 끝에서, 상기 배경 이미지 프레임에 대한 업데이트의 완전성(completeness)을 검증(verifying)하는 단계; 상기 배경 이미지 프레임 업데이트가 불완전한 것을 결정한 것에 응답하여, 어떤 관심 없는 이동 가능한 물체가 불완전성을 야기했는지를 결정하는 단계; 및 상기 전경 이미지 프레임에서 불완전성을 야기하는 관심이 없는 이동 가능한 물체를 포함하는 단계를 포함한다. 개와 관련된 위의 실시예를 다시 참조하면, 배경 업데이트 기간의 끝(end)에 의해 개가 개 뒤에 있는 모든 배경을 노출할만큼 충분히 이동하지 않은 경우, 더 빠른 전경 이미지 스트림에서 개를 포함하여 해당 영역에 대한 기존 인코딩으로 후퇴된다. 그렇지 않으면 업데이트 정보가 포함되지 않은 픽셀 영역이 존재한다. 이는 배경 업데이트가 제시간에 완료되게 한다.

일 실시 형태에 따르면, 완전성을 검증하는 단계는 전체 배경 이미지 프레임이 업데이트되었는지를 결정하는 단계를 포함한다. 이는 대부분의 시스템에서 이미 이용 가능한 정보를 사용하기 때문에, 완전성을 결정하는 표준적이고 간단한 방법이다. 일 구현예에서, 이는 상기 배경 업데이트 간격 동안 임의의 시간에(즉, 임의의 이미지에서) 배경 픽셀이 해당 좌표에서 보여졌는지 여부와 같이, 이는 모든 픽셀 좌표를 검사(check)함으로써 수행될 수 있다. 물론, 이는 인코더에서 구현되는 방법에 대한 정확한 메커니즘이 특정 인코더에 따라 다르지만, 위의 개념 설명은 다양한 유형의 디코더에 대해 동일하게 유지된다.

일 실시 형태에 따르면, 관심 없는 이동 가능한 물체가 배경 영역을 노출하기 위해 이동된 경우 배경 이미지 프레임을 업데이트하는 단계는: 관심 없는 이동 가능한 물체의 이동을 영역 종속 임계값, 거리 종속 임계값 및 시간 종속 임계값 중 하나 이상과 비교하는 단계; 및 상기 관심 없는 이동 가능한 물체의 이동이 적어도 하나의 임계값을 초과하는 경우, 상기 배경 이미지 프레임을 업데이트하는 단계를 포함한다. 예를 들어, 최소 이동 영역, 최소 이동 거리 및/또는 최소 시간 주기는 배경 업데이트 기간 동안 배경 업데이트가 트리거(trigger)되기 전에 관심 없는 이동 가능한 물체에 대해 설정될 수 있다. 다시, 개가 있는 실시예를 사용하여, 개가 몇 인치만 움직이거나 꼬리를 흔드는 경우, 배경 이미지 프레임 업데이트를 트리거하기에 충분한 양의 이동이 아닐 수 있다. 그러나, 개가 왼쪽으로 2피트 이동하거나 누워서 앉기 등으로 이동하는 경우, 배경 업데이트를 보증하기에 충분한 이동일 수 있다. 정확한 임계값은 물체의 유형 및 장면에서 특정 상황과 같은 다양한 요인을 기반으로 운영자에 의해 구성될 수 있다.

일 실시 형태에 따르면, 임계값은 이용 가능한 컴퓨팅 리소스에 기초하여, 예를 들어 배경 이미지 프레임의 업데이트 빈도가 이용 가능한 컴퓨팅 리소스에 의해 동반될 수 있는 업데이트 빈도에 제한되도록 설정된다. 예를 들어, 카메라 시스템이 제한된 컴퓨팅 리소스를 갖는 경우, 이는 임의의 배경 이미지 프레임 업데이트를 가능한 한 오래 연기하는 것이 유리할 수 있지만, 카메라 시스템이 컴퓨팅 리소스가 많으면, 업데이트가 더 빈번하게 이루어질 수 있다.

제2 양태에 따르면, 본 발명은 이미지 프레임들의 스트림을 생성하기 위한 인코딩 시스템에 관한 것이다. 상기 시스템은 움직임과 물체 감지기 및 인코더를 포함한다. 상기 움직임 및 물체 감지기는:

· 이미지 프레임들의 스트림에서의 이미지 프레임들을 하나 이상의 배경 세그먼트와 하나 이상의 인스턴스 세그먼트로 분할하고; 그리고

· 상기 하나 이상의 인스턴스 세그먼트 중 적어도 일부를 관심 있는 이동 가능한 물체와 관심 없는 이동 가능한 물체로 분류;하도록 구성된다.

상기 인코더는:

· 상기 하나 이상의 배경 세그먼트를 포함하는 배경 이미지 프레임을 생성하고;

· 배경 업데이트 기간 동안, 관심 없는 이동 가능한 물체가 (추가) 배경 영역을 노출시키기 위해 이동한 경우 상기 배경 이미지 프레임에서 노출된/추가 배경 영역을 포함하도록 상기 배경 이미지 프레임을 업데이트하고; 그리고

· 상기 관심 있는 이동 가능한 물체를 포함하는 전경 이미지 프레임을 생성하고;

· 상기 업데이트된 배경 이미지 프레임의 픽셀 블록을 인코딩하고;

· 상기 전경 이미지 프레임의 픽셀 블록을 인코딩하고;

· 제1 프레임 레이트를 갖는 인코딩된 전경 이미지 프레임들의 스트림을 생성하고; 그리고

· 상기 제1 프레임 레이트보다 낮은 제2 프레임 레이트를 갖는 인코딩되고 업데이트된 배경 이미지 프레임들의 스트림을 생성하도록 구성된다.

상기 시스템 이점은 상기 방법의 이점에 해당하고 유사하게 변화될 수 있다.

제3 양태에 따르면, 본 발명은 이미지 프레임들의 스트림을 생성하기 위한 컴퓨터 프로그램 제품에 관한 것이다. 상기 컴퓨터 프로그램은:

· 이미지 프레임들의 스트림에서의 이미지 프레임을 하나 이상의 배경 세그먼트 및 하나 이상의 인스턴스 세그먼트로 분할하는 단계;

· 상기 하나 이상의 인스턴스 세그먼트 중 적어도 일부를 관심 있는 이동 가능한 물체 및 관심 없는 이동 가능한 물체로 분류하는 단계;

· 배경 업데이트 기간 동안, 관심 없는 이동 가능한 물체가 (추가) 배경 영역을 노출하기 위해 이동한 경우 상기 배경 이미지 프레임에서 노출된/추가 배경 영역을 포함하도록 상기 배경 이미지 프레임을 업데이트하는 단계;

· 상기 관심 있는 이동 가능한 물체를 포함하는 전경 이미지 프레임을 생성하는 단계;

· 제1 프레임 레이트를 갖는 인코딩된 전경 이미지 프레임들의 스트림을 생성하는 단계; 및

· 상기 제1 프레임 레이트보다 낮은 제2 프레임 레이트를 갖는 인코딩되고 업데이트된 배경 이미지 프레임들의 스트림을 생성하는 단계에 해당하는 명령어를 포함한다.

상기 컴퓨터 프로그램은 상기 방법의 이점에 해당하는 이점을 포함하고 유사하게 변화될 수 있다.

본 발명의 하나 이상의 실시 형태들의 세부사항은 첨부된 도면 및 아래의 상세한 설명에 설명된다. 본 발명의 다른 특징 및 이점은 상세한 설명과 도면, 그리고 청구범위로부터 명백할 것이다.

도 1은 본 발명의 다양한 방법 및 시스템이 적용될 수 있는 일 실시 형태에 따른, 예시적인 환경(100)을 나타내는 개략도이다.
도 2는 일 실시 형태에 따른, 도 1에 도시된 카메라 시스템(108)의 상세도를 나타내는 블록도이다.
도 3은 일 실시 형태에 따른, 이미지 프레임들의 스트림을 처리하기 위한 방법을 나타내는 흐름도이다.
도 4는 일 실시 형태에 따른, 카메라 시스템으로부터 리시버로 전송되는 전경 이미지 비디오 스트림 및 배경 이미지 비디오 스트림의 개략도이다.
다양한 도면에서 유사한 참조 기호는 유사한 요소를 나타낸다.

위에서 설명된 바와 같이, 본 발명의 다양한 실시 형태들이 갖는 목표는 기존 인코딩이 사용될 때와 비교하여, 비디오를 스트리밍(streaming)하는데 요구되는 대역폭을 감소시키는 것이다. 이는 운영자에게 관심 있는 정보만 스트리밍하고, 해당 정보를 높은 레이트로 스트리밍하여 수행된다. 운영자에게 거의 또는 전혀 관심이 없는 정보는 훨씬 낮은 레이트로 스트리밍된다.

간략하게, 본 발명의 다양한 실시 형태들은 운영자가 사람 활동에 관심이 있는 장면의 이미지들을 찍는 카메라, 예를 들어 고정 카메라를 포함하는 카메라 시스템에 관한 것으로 설명될 수 있다. 고정 카메라는 설치 후 작동 동안 이의 시야가 변경되지 않는 카메라이다. 그러나, 카메라는 팬 및 틸트 방향으로 이의 시야를 변경하고 이의 시야를 확대 및 축소할 수 있는 팬 틸트 줌(PTZ) 카메라일 수 있다. 카메라가 PTZ 카메라인 경우, PTZ 카메라는 정지 단계 또는 정지 모드에 있는 것으로 이해되어야 하고, 즉 PTZ 카메라는 본 발명의 이미지가 적용되는 장면의 이미지를 캡처할 때, 하나 및 동일한 팬, 틸트 및 줌 설정을 갖도록 설정되어야 한다. 인간 활동에서 운영자의 관심 때문에, 운영자가 이미지를 보고 사람 활동을 모니터링할 수 있는 카메라로부터 리시버로 이러한 활동에 관한 임의의 정보를 식별하고 자주 전송하는 것이 바람직하다. 해당 영상 정보는 관심 물체에 대한 이미지 정보라고 지칭한다. 대조적으로, 장면에서의 배경은 주로 전경 물체의 동작을 이해할 수 있는 컨텍스트(context)에 넣는 역할을 하므로 업데이트/전송 빈도가 낮아질 수 있다. 배경은 정지되어 있거나 어떤 의미에서 움직임이 흥미롭지 않아 렌더링되어서는 안되는 물체를 포함할 수 있다. 이러한 움직임의 일례는 바람에 흔들리는 나뭇가지일 것이다.

대역폭을 낮추기 위한 또 다른 수단으로, 관심 있는 물체 이외의 이동 가능한 물체(즉, 이의 지리적 위치를 변경할 수 있는 물체)에 대한 이미지 정보는 전혀 전송되지 않는 것이 이상적이며, 이는 대역폭을 절약할 뿐만 아니라, 운영자가 관심 있는 물체에만 집중하게 한다. 이러한 물체는 본 발명에서 "관심 없는 이동 가능한 물체"로 지칭될 것이다. 관심 없는 이동 가능한 물체의 일례는 동물이다. 또 다른 실시예는 일종의 차량이다. 예를 들어, 보안 카메라가 건물 입구를 모니터링하는 경우, 일반적으로 자전거나 자동차를 타고 빠르게 건물 입구를 지나가는 사람보다 문 바로 외부에서 걸어가는 사람의 행동을 지켜보는 것에 더 관심이 있다. 또 다른 실시예에서, 관심없는 물체로 간주되는 것은 위치와 같은 다른 규칙에 기초하여 결정될 수 있다. 예를 들어, 감시 영역 외부에 있는 사람을 관심 없는 이동 가능한 물체로 처리하고 동물에 대해 위에서 설명한대로 처리하도록 선택할 수 있는 반면, 감시 영역 내부의 사람은 관심 물체로 처리된다.

배경 업데이트 기간 동안, 관심 없는 이동 가능한 물체의 이동을 추적하고 상기 배경 이미지는 관심 없는 이동 가능한 물체에 의해 차단되고 관심 없는 이동 가능한 물체가 이동될 때 노출되는 배경 부분으로 업데이트된다. 배경 이미지는 배경 업데이트 기간 동안 관심 없는 물체가 이동함에 따라 점진적으로 업데이트될 수 있다. 배경 이미지는 관심 있는 물체를 갖는 정보의 프레임 레이트와 비교하여 낮은 프레임 레이트로 전송된다. 위에서 언급한 바와 같이, 관심 없는 물체는 운영자에게 나타내지 않을 것이다. 이를 위해, 일 실시 형태는 배경 프레임 및 전경 프레임 중 어느 하나에서 관심 없는 이동 가능한 물체를 포함하는 것을 회피하는 것을 포함한다.

일 실시 형태에서, 관심 없는 물체가 배경 업데이트 기간 동안 임의의 배경 부분을 노출할 만큼 충분히 이동하지 않은 경우, 관심 없는 물체에 대한 이미지 정보는 이미지에서 "구멍"이 생기지 않도록 관심 있는 물체의 스트림으로 전송된다. 리시버(receiver)는 이미지 정보의 이미지를 관심 물체(및 가능하게 관심 없는 물체) 및 최신 배경 이미지와 함께 결합할 수 있다. 이제 본 발명의 다양한 실시 형태들이 도면을 참조하여 예로서 설명될 것이다.

도 1은 본 발명의 다양한 실시 형태들이 구현될 수 있는 예시적인 환경(100)의 개략도를 나타낸다. 도 1에서 볼 수 있는 바와 같이, 건물(106)을 향해 걸어가는 사람(104)이 있는 장면(102)이 카메라 시스템(108)에 의해 캡처된다. 장면(102)의 묘사는 단지 예시의 목적을 위해 단순한 시야라는 점에 유의해야 한다. 장면(102)은 보다 일반적인 의미에서 크기와 모양이 장면을 기록하는 카메라의 시야에 의해 정의되는 임의의 3차원 물리적 공간으로 설명될 수 있다.

본 발명이 적용될 이미지 프레임들을 캡처할 때, 카메라 시스템(108), 예를 들어 정지 모드에서의 고정 카메라 시스템 또는 PTZ 카메라 시스템, 즉 하나이고 동일한 고정 PTZ 설정을 갖는 PTZ 카메라 시스템이 도 2에 더욱 상세히 도시된다. 카메라 시스템(108)은 장면(102)을 캡처하고 이미지 센서(112)에 이를 투영하는 렌즈(110)를 갖는다. 렌즈(110)와 이미지 센서(112)는 함께 이미지 캡처링 시스템(109)을 형성한다. 이미지 센서(112)는 비디오 스트림을 함께 형성하는 이미지 프레임들의 시퀀스를 캡처한다. 이미지 캡처링 시스템(109)은 이미지 처리 파이프라인(202) 및 인코더(204)를 포함하는 이미지 처리 및 인코딩 시스템(205)에 결합되며, 이들 모두는 하기에서 더욱 상세히 설명될 것이다. 이미지 처리 및 인코딩 시스템(205)은 카메라 시스템(108) 내부에 바람직하게 위치되지만, 카메라 시스템(108) 외부에 있을 수도 있다. 예를 들어, 모듈식 카메라 시스템에서, 이미지 캡처링 시스템(109) 및 이미지 처리 및 인코딩 시스템(205)은 서로 개별적으로 배치되고 서로 통신하도록 배치될 수 있다. 또한, 이미지 캡처링 시스템(109)은 이동 가능할 수 있지만, 이미지 처리 및 인코딩 시스템(205)은 정지될 수 있다.

도 2에 도시된 것과 같은 일부 실시 형태들에서, 이미지 처리 및 인코딩 시스템(205)은 움직임 및 물체 감지기(206)를 더 포함한다. 인코더(204) 및 움직임과 물체 감지기(206)는 인코딩 시스템(210)에 포함되며, 이는 때때로 본 개시물에서 기존 인코딩 시스템과 비교하여 향상되기 때문에, 향상된 인코딩 시스템(210)으로 지칭된다. 하기에서 상세히 설명되는 바와 같이, 향상된 인코딩 시스템(210)이 입력/출력 인터페이스(208)로 인해 운영자에게 네트워크를 통해 전송하기에 적절한 포맷(format)으로 비디오 스트림을 인코딩하기 전에, 이미지 처리 파이프라인(202)은 이미지 센서(112)로부터 신호를 수신하고 다양한 유형의 이미지 처리 작동을 수행한다. 도 1에서, 인코딩된 비디오는 라디오 링크(116)를 통해 유선 네트워크(118)로, 그리고 결국에는 네트워크(118)에 연결되는 클라이언트(120)로 전송되지만, 물론 사용될 수 있는 무선 및 유선 전송 모델의 많은 조합이 존재한다.

클라이언트(120)는 운영자가 카메라로부터 이미지 비디오 스트림을 볼 수 있는 디스플레이를 갖는다. 일반적으로, 클라이언트(120)는 또한 비디오가 저장 및/또는 추가 처리될 수 있는 서버에 연결된다. 종종, 클라이언트(120)는 또한 예를 들어 운영자가 클라이언트(120)에 제어 명령어를 발행함으로써, 카메라(108)를 제어하는데 사용된다. 예를 들어, 운영자는 장면(102)의 특정 세부사항을 확대하기 위해 카메라에 지시할 수 있거나, 사람(104)이 나무(106)에서 멀어지기 시작하면 사람을 추적하도록 카메라에 지시할 수 있다. 그러나 운영자가 카메라를 제어하지 않지만, 카메라가 정지되어 있고 운영자가 클라이언트(120)에서 볼 수 있는 이미지 스트림만 제공하는 상황도 존재한다.

도 2에 도시된 바와 같이, 카메라 시스템(108)은 이미지 센서(112)에서 장면(102)을 이미지화하는 렌즈(110), 이미지 처리 파이프라인(IPP)(202), 인코더(204), 움직임 및 물체 감지기(206), 및 다른 장치들과 통신하기 위한 입력 및 출력 인터페이스(208)를 포함한다. IPP는 이미지 센서(112)로부터 수신된 이미지 데이터에 대해 다양한 작동 범위를 수행한다. 이러한 작동은 필터링(filtering), 디모자이싱(demosaicing), 색상 보정(color correction), 노이즈 필터링(noise filtering)(공간 및/또는 시간적 노이즈 제거용), 왜곡 보정(distortion correction)(예를 들어, 배럴 왜곡의 효과 제거용), 전역 및/또는 국부 톤 맵핑(tone mapping)(예를 들어, 다양한 강도를 포함하는 장면의 이미지화 가능), 변환(transformation)(예를 들어, 회전), 플랫-필드 보정(flat-field correction)(예를 들어, 비네팅(vignetting) 효과 제거용), 오버레이 적용(예를 들어, 프라이버시 마스크(privacy mask), 설명 텍스트(explanatory text) 등)를 포함할 수 있다. IPP(202)는 물체 감지 및 분류를 수행하는데 사용되는 움직임 및 물체 감지기(206)와 관련될 수 있을 뿐만 아니라 아래에서 더 상세히 설명될 다른 기능의 범위와 관련될 수 있다. 일부 실시 형태들에서, 이들 작동 중 일부(예를 들어, 배럴 왜곡, 회전 등의 보정과 같은 변환 작동)는 IPP(202) 외부의 하나 이상의 서브시스템에 의해, 예를 들어 IPP(202) 및 인코더(204) 사이의 유닛에서 수행될 수 있다.

이미지 IPP(202)에 뒤이어, 이미지는 인코더(204)로 전달되고, 여기서 정보는 인코딩 프로토콜에 따라 인코딩되며 입력/출력 인터페이스(208)를 사용하여 네트워크(118)를 통해 수신하는 클라이언트(120)로 전달된다. 움직임 및 물체 감지기(206)는 물체 감지 및 분류뿐만 아니라, 인코더(204)에 인코딩 작동을 수행하는데 필요한 필수 정보를 제공하기 위해, 하기에서 상세히 설명될 다른 기능의 범위를 수행하는데 사용된다. 도 2에 도시된 카메라 시스템(108)은 또한 프로세서, 메모리 등과 같은 다수의 다른 구성 요소를 포함하고, 이들은 기존의 카메라 시스템에서 일반적이고 이들 목적 및 작동이 당업자에게 잘 알려져 있다는 것에 유의해야 한다. 이러한 구성 요소는 도 2의 예시 및 설명에서 명확성 이유로 생략되었다. 기존의 비디오 인코딩 포맷에는 여러 가지가 있다. 본 발명의 다양한 실시 형태들과 함께 작동하는 몇가지 일반적인 비디오 인코딩 포맷은: H.265 및 MPEG-H Part 2로도 알려진 고효율 비디오 인코딩(HEVC); H.264 및 MPEG-4 Part 10이라고도 알려진 고급 비디오 코딩(AVC); H.266, MPEG-I Part 3 및 차세대 비디오 코딩(FVC)이라고도 알려진 다용도 비디오 코딩(VVC); 일부 실시예들로 제공되는 VP9, VP10 및 AOMedia Video 1(AV1)을 포함한다.

도 3은 일 실시 형태에 따른, 카메라에 의해 캡처된 이미지 프레임들의 스트림을 처리하기 위한 방법을 나타낸다. 도 3에서 볼 수 있는 바와 같이, 방법은 이미지 프레임을 배경 세그먼트 및 인스턴스 세그먼트로 분할함으로써 시작된다(단계 302). 이러한 단계는 움직임 및 물체 감지기(206)에 의해 수행될 수 있다. 예를 들어, 움직임 및 물체 감지기(206)는 인코더(204)로부터의 요청에 응답하여 분할을 수행할 수 있다. 위에서 언급한 바와 같이, 인코더(204) 및 움직임과 물체 감지기(206)는 향상된 인코딩 시스템(210)에 포함된다. 위에서 논의된 바와 같이, 일 실시 형태에서, 분할은 팬옵틱 분할을 사용하여 수행된다. 팬옵틱 분할은 관심 있는 물체(예를 들어, 사람)의 인스턴스와 관심 없는 물체(예들 들어, 동물)의 인스턴스를 생성하고, 즉 각각의 개별 물체는 식별 가능하다. 팬옵틱 분할은 하나 이상의 배경 세그먼트, 즉 임의의 인스턴스 분할을 포함하지 않는 영역(예를 들어, 나무 및 개별 나무가 서로 구별되지 않는 영역)을 추가로 생성한다. 이러한 분할을 가지면 관심 물체를 서로 다르게 처리하고 관심 물체와 상이한 배경을 처리하는 것이 가능하다. 인코딩은 특정 실시 형태 및 현재 장면에 따라 달라질 수 있다는 점에 유의해야 한다. 예를 들어, 숲은 배경 세그먼트로 더 잘 인코딩될 수 있는 반면, 실내 설정에서 화분은 관심 없는 이동 가능한 물체지만 정지된 것으로 인코딩될 수 있다(화분은 누군가에 의해 이동할 수 있기 때문에). 따라서, 당면한 특정 상황에 따라, 당업자에 의해 많은 변형이 구상될 수 있다.

다음으로, 배경 이미지 프레임이 생성된다(단계 304). 이러한 단계는 인코더(204)에 의해 수행될 수 있다. 배경 이미지 프레임은 단계 302에서 식별된 배경 세그먼트를 포함한다. 일부 실시 형태들에서, 아래에서 더 상세히 설명하는 바와 같이, 배경 이미지 프레임은 또한 관심 없는 정지 물체를 포함한다. 다른 실시 형태들에서 배경은 배경 세그먼트만을 포함한다. 배경 이미지 프레임의 생성이 모든 프레임에 대해 수행되는 것은 아님을 이해해야 한다. 또한 생성된 배경 이미지 프레임은 단계 314를 참조하여 아래에서 설명되는 바와 같이 배경 업데이트 기간 동안 후속 이미지 프레임들로부터의 정보로 업데이트될 수 있음을 이해해야 한다.

다음으로, 인스턴스 세그먼트는 관심 있는 물체의 이동과 관심 없는 물체의 이동으로 각각 분류된다(단계 306). 이러한 단계는 움직임 및 물체 감지기(206)에 의해 수행될 수 있다. 관심 있는 물체의 이동 및 관심 없는 물체의 이동인 것으로 여겨지는 것은 당면한 특정 사용 경우를 기반으로 결정될 수 있다. 예를 들어, 일부 실시 형태들에서, 운영자는 주어진 날에 소가 관심 있는 이동 물체인 반면, 사람은 관심 없는 이동 물체인 것을 선택할 수 있다. 다른 날에서, 상황이 반대일 수 있으며, 운영자는 관심 있는 이동하는 물체로서 자동차 등을 포함할 수도 있다. 일반적으로, 운영자는 시스템이 사전에 인식하도록 훈련된 물체 범주 목록으로부터 관심 있는 이동하는 물체와 관심 없는 이동하는 물체로 각각 간주되는 물체를 선택할 수 있다. 이러한 선택을 하면, 관심 있는 이동하는 물체에 대한 정보만이 운영자에게 전송될 것이고, 운영자는 비디오 스트림에서 "관련 없는" 정보에 의해 주의가 분산되지 않을 것이다.

일부 실시 형태들에서 또 다른 분류: 관심 없는 정지 물체가 존재한다. 이들 물체는 정지되어 있음에도 불구하고, 약간의 이동을 포함하는 인스턴스 세그먼트이다. 관심 없는 정지 물체의 일례는 나무이다. 나무는 팬옵틱 분할을 사용하여 식별할 수 있는 물체의 인스턴스이다. 나무는 위치를 변경하지 않는다는 점에서 정지되어 있다. 나뭇가지가 바람에 움직일 수 있지만, 이러한 이동은 일반적으로 대부분의 모니터링 상황과 관련하여 거의 또는 전혀 관심이 없다. 따라서, 나무는 관심 없는 정지된 물체이며, 대역폭을 절약하기 위해 드물게 업데이트되는 배경 이미지 프레임에 나무가 추가될 수 있다. 대부분의 실시 형태들에서, 운영자는 배경 이미지 프레임에 관심이 없는 정지 물체를 포함하기 위해 "허용가능한" 이동인 것을 정의하는 옵션으로 제공되거나, 카메라 시스템에 의해 이러한 결정을 자동으로 내리기 위한 미리 정의된 기준이 존재할 수 있다.

일반적으로, 관심 없는 이동 가능한 물체는 위에서 설명한 바와 같이 관심이 거의 또는 전혀 없기 때문에, 인코딩되거나 운영자에게 전송되지 않는다. 그러나, 정지되어 있지만 관심 없는 이동 가능한 물체(예를 들어, 화분)는 이동 가능하지만 정지되어 있지 않을 것으로 예상되는 동물과 달리, 때때로 배경에 포함될 수 있다. 많은 상황에서, 배경 섹션에서 정지되어 있지만 관심 없는 이동 가능한 물체를 포함할지 여부에 대한 결정은 운영자가 허용 가능한 것을 발견하는 것에 따라 다르다. 아래에서 더욱 상세히 설명될 바와 같이, 배경 이미지 프레임은 분당 대략 하나의 이미지 프레임의 레이트로 리시버와 운영자에게 전송될 수 있다. 단계 306에서 분류한 후, 프로세스는 관심 있는 이동하는 물체, 즉 전경 이미지 프레임의 처리와 관련된 빠른 분기(branch)와 배경 이미지의 처리와 관련된 느린 분기로 나뉜다. 이제 이들 각각의 분기에 대해 설명할 것이다.

단계 308에서, 관심 있는 이동 가능한 물체를 포함하는 전경 이미지 프레임이 생성된다. 이러한 단계는 인코더(204)에 의해 수행될 수 있다. 위에서 설명된 바와 같이, 전경 이미지 프레임에서 관심 있는 이동 가능한 물체만을 포함하고 전경 이미지 프레임과 배경 이미지 프레임 모두에서 관심 없는 이동 가능한 물체를 제외하는 것은 가장 관련된 정보를 장면을 모니터링하는 운영자에게 제공하는 것을 가능하게 한다. 도 1의 장면(102)을 실시예로서 사용하여, 운영자가 사람 활동에만 관심이 있다면, 사람(104)만이 전경 이미지 프레임에 포함될 것이다. 위에서 언급했듯이, 사람은 관심 있는 이동 가능한 물체의 하나의 실시예일 뿐이다. 다른 일반적인 실시예들은 특정 장면이나 당면한 감시 상황에 따라, 차량, 무기, 가방 또는 안면 마스크를 포함한다.

전경 이미지 프레임들을 생성한 후, 각각의 프레임의 픽셀 블록은 인코더(204)에 의해 인코딩된다(단계 310). 전경 이미지 프레임들에 대해, 인코더(204)는 기존의 기술을 사용하여 관심 있는 이동 물체(들)(104)에 속하는 픽셀 블록을 인코딩하고, 전경 이미지 프레임의 나머지 부분을 블랙 픽셀로 인코딩한다. 픽셀을 블랙 픽셀(또는 임의의 다른 색)로 인코딩하면 위에서 설명된 바와 같이 픽셀 블록이 위치 좌표, 폭 및 높이를 갖는 것으로 인코딩될 수 있으며, 이는 기존 인코딩와 비교하여 상당한 양의 데이터를 절약한다. 단계 312에서, 제1 프레임 레이트를 갖는 인코딩된 전경 이미지 프레임들의 스트림이 생성된다. 이는 인코더(204)에 의해 수행될 수 있다. 인코딩된 전경 이미지 프레임들의 스트림은 제1 프레임 레이트로 리시버로 전송될 수 있거나 저장 장치로 전송될 수 있다.

이제 프로세스(300)의 느린 분기로 돌아가서, 단계 314에서 배경 업데이트 기간을 정의하는, 타이머가 설정된다. 이러한 배경 업데이트 기간 동안, 관심 없는 이동 가능한 물체의 위치가 변경되어 배경 영역이 노출되면 배경 이미지 프레임이 업데이트된다. 이러한 단계는 배경 이미지 프레임을 업데이트하는 인코더(204) 및 관심 없는 이동 가능한 물체의 움직임을 결정하는 움직임 및 물체 감지기(206)에 의해 수행될 수 있다. 이들 업데이트는 배경 업데이트 기간 만료 시 배경에서 "구멍"이 나타나는 것을 방지하기 위해 수행된다. 배경 업데이트 기간은 일반적으로 약 1분 정도인 배경 이미지 프레임에 대한 프레임 레이트와 관련된다. 관심 없는 이동 가능한 물체의 수와 이동량에 따라, 배경 업데이트 기간 동안 배경 이미지 프레임이 여러 번 업데이트되어 관심 없는 이동 가능한 물체의 이동으로 인해 생성되는 임의의 "빈 영역"이 채워질 수 있다.

관심 없는 임의의 이동 가능한 물체의 이동은 전술한 바와 같이, 움직임 및 물체 감지기(206)를 사용하여 추적된다. 일부 실시 형태들에서, 움직임 및 물체 감지기(206)는 배경 이미지 프레임의 업데이트가 요구될 때를 결정하기 위해 트리거(trigger) 역할을 한다. 예를 들어, 임계값은 배경 이미지 프레임에서 특정 픽셀 수 이상보다 더 많이 이동하는 경우 배경 이미지 프레임이 트리거되도록 설정될 수 있다. 임계값은 예를 들어, 사용 가능한 계산 리소스를 기반으로 설정될 수 있다. 예를 들어, 제한된 계산 리소스를 갖는 카메라 시스템은 계산 리소스가 풍부한 카메라보다 배경 이미지 프레임을 덜 자주 업데이트할 수 있다.

일부 실시 형태들에서, 배경 업데이트 기간 끝에서, 완전한 배경 이미지 프레임을 보장하기 위해 배경 이미지 프레임에 대한 업데이트의 완전성이 검증된다. 이는 인코더(204)에 의해 수행될 수 있다. 이러한 맥락에서 "완전성"은 단순히 관심 없는 이동 가능한 물체의 이동으로 나타나고 배경 업데이트 기간의 끝에서 배경 픽셀 정보로 채워지지 않는 배경 이미지에 "구멍"이 없다는 것을 보증하는 것을 나타낸다. 배경 이미지 프레임에 대한 업데이트가 불완전하였음을 결정하고, 움직임 및 물체 감지기(206)는 관심 없는 이동 가능한 물체가 불완전한 것을 야기하는 것을 결정하도록 사용될 수 있고, 전술한 바와 같이 해당 물체가 관심 있는 이동 가능한 물체와 함께 전경 이미지 프레임의 부분으로서 대신 처리될 수 있다.

다음으로, 빠른 분기와 유사하게 느린 분기에서, 업데이트된 배경 이미지가 인코더에 의해 인코딩된다(단계 316). 배경 업데이트 기간 동안 배경 이미지 프레임이 여러 번 업데이트될 수 있더라도, 배경 이미지 프레임의 인코딩은 업데이트 기간당 한번만 수행(예를 들어, 각각의 배경 업데이트 기간의 끝에서)되는 것을 유의해야 한다. 배경 이미지들의 인코딩은 기존 인코딩 기술을 사용할 수 있다.

마지막으로, 단계(318)에서, 제2 프레임 레이트를 갖는 인코딩되고 업데이트된 배경 이미지 프레임의 스트림이 생성된다. 전술한 바와 같이, 제2 프레임 레이트는 제1 프레임 레이트보다 낮다. 인코딩된 배경 이미지 프레임들의 스트림은 전경 이미지 프레임들의 프레임 레이트에 비해 더 느린 프레임 레이트로 리시버에 전송될 수 있다. 도 4는 인코딩된 전경 이미지 프레임(404)들의 스트림이 제1 프레임 레이트로 전송되고, 인코딩된 배경 이미지 프레임(406)들의 스트림이 카메라 시스템(108)으로부터 리시버(402)로 더 느린 제2 프레임 레이트로 전송되는 방법을 개략적으로 나타낸다. 도 4에서 용이한 예시 목적을 위해, 배경 이미지 프레임들은 3개의 전경 이미지 프레임들마다 전송되는 것으로 도시되는 것에 유의해야 한다. 그러나, 일반적인 시나리오에서 전경 이미지 프레임들의 스트림에 대한 프레임 레이트는 일반적으로 초당 30개 프레임들이고, 배경 이미지 프레임들의 스트림에 대한 프레임 레이트는 일반적으로 분당 약 1개 프레임이므로, 실제 시나리오에서 2개의 스트림들 사이의 차이는 도 4에 도시된 것보다 상당히 더 크다. 2개의 이미지 스트림들이 카메라 시스템을 떠날 때, 이들은 디코딩될 수 있고 그렇지 않으면 리시버(402), 예를 들어 기존 디코더에 의해 처리될 수 있는 포맷에 있다. 리시버(402)는 도 1에 도시된 클라이언트(120)에 포함될 수 있거나 이에 연결될 수 있다.

리시버(402)에서, 2개의 이미지 스트림들은 함께 융합되어 운영자가 보는 복합 이미지 스트림을 생성한다. 이는 당업자에게 친숙한 광범위한 표준 기술을 사용하여 수행될 수 있다. 예를 들어, 물체의 가장자리를 따라 점진적으로 융합되어 운영자에게 보다 즐거운 시청 경험을 제공할 수 있다. 이러한 점진적인 융합을 달성하기 위한 많은 방법이 있으며, 이는 당업자에게 잘 알려져 있다. 예를 들어, 물체 및 배경 픽셀이 추가되고 평균될 수 있으며, 배경에 더 높은 가중치가 제공되도록 가중치(weight)를 적용할 수 있으며, 가중치를 지정하는 혼합 곡선이 사용될 수 있다(알파 혼합(alpha blending)으로도 지칭됨).

결론 코멘트

위의 실시예들은 가시광선의 맥락에서 설명되었지만, 주로 가시광 범위 대 적외선 범위에서 작동하는 카메라에 사용되는 이미지 센서의 특성으로 인해, 적절한 변경이 이루어는 경우, 상이한 프레임 레이트로 배경 및 전경 프레임들을 인코딩하고 전송하는 동일한 일반적인 원칙이 열화상 카메라의 맥락에서 적용될 수 있다.

본 발명에서 개시된 시스템 및 이미지 처리 파이프라인, 인코더 및 움직임과 물체 감지기와 같은 이들의 부분, 및 방법은 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로 구현될 수 있다. 하드웨어 구현에서, 위의 설명에서 언급된 기능 유닛 또는 구성 요소 간의 작업 분할은 반드시 물리적 유닛으로 분할에 해당하는 것은 아니며; 반대로, 하나의 물리적 구성 요소는 여러 기능을 수행할 수 있고, 하나의 작업은 여러 물리적 구성 요소가 협력하여 수행될 수 있다.

특정 구성 요소 또는 모든 구성 요소는 디지털 신호 프로세서 또는 마이크로 프로세서에 의해 실행되는 소프트웨어로 구현될 수 있거나, 하드웨어 또는 응용 프로그램별 집적 회로로 구현될 수 있다. 이러한 소프트웨어는 컴퓨터 저장 매체(또는 비일시적 매체) 및 통신 매체(또는 일시적 매체)를 포함할 수 있는 컴퓨터 판독 가능 매체에 분배될 수 있다. 당업자에게 잘 알려진 바와 같이, 컴퓨터 저장 매체라는 용어는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체 모두를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, 디지털 다목적 디스크(DVD) 또는 다른 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 다른 자기 저장 장치 또는 원하는 정보를 저장하는데 사용할 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함하나, 이에 제한되는 것은 아니다.

도면에서의 흐름도 및 블록도는 본 발명의 다양한 실시 형태들에 따른 시스템, 방법, 및 컴퓨터 프로그램 제품의 가능한 구현의 아키텍처, 기능 및 작동을 예시한다. 이와 관련하여, 순서도 또는 블록도에서의 각각의 블록은 모듈, 세그먼트, 또는 특정 논리 기능(들)을 구현하기 위한 하나 이상의 실행 가능한 명령어를 포함하는 명령어의 일부를 나타낼 수 있다. 일부 대안적인 구현예에서, 블록에서 언급된 기능들은 도면에 언급된 순서와 다르게 발생할 수 있다. 예를 들어, 연속적으로 도시된 2개의 블록은 실질적으로 동시에 실행될 수 있거나, 관련된 기능에 따라 블록이 때때로 역순으로 실행될 수 있다. 또한 블록도 및/또는 순서도 그림의 각각의 블록과 블록도 및/또는 순서도 그림에서의 블록의 조합은 지정된 기능 또는 동작을 수행하거나 특수 목적 하드웨어와 컴퓨터 명령어의 조합을 수행하는 특수 목적 하드웨어 기반 시스템에 의해 구현될 수 있다.

당업자는 전술한 실시 형태들을 여러가지 방식으로 변경할 수 있고, 위의 실시 형태들에 도시된 바와 같이 본 발명의 이점을 여전히 사용할 수 있음을 이해할 것이다. 따라서, 본 발명은 도시된 실시 형태들로 제한되어서는 안되며 첨부된 청구범위에 의해서만 정의되어야 한다. 또한, 당업자가 이해하는 바와 같이, 도시된 실시 형태들은 조합될 수 있다.

Claims

인코딩 시스템에서, 이미지 프레임들의 스트림을 생성하기 위한 방법으로서,
이미지 프레임들의 스트림에서 이미지 프레임들을 하나 이상의 배경 세그먼트 및 하나 이상의 인스턴스 세그먼트로 분할하는 단계;
상기 하나 이상의 배경 세그먼트를 포함하는 배경 이미지 프레임을 생성하는 단계;
상기 하나 이상의 인스턴스 세그먼트 중 적어도 일부를 관심 있는 이동 가능한 물체 및 관심 없는 이동 가능한 물체로 분류하는 단계;
배경 업데이트 기간 동안, 관심 없는 이동 가능한 물체가 추가 배경 영역을 노출하기 위해 이동한 경우, 상기 배경 이미지 프레임에서 추가 배경 영역을 포함하도록 상기 배경 이미지 프레임을 업데이트하는 단계;
상기 관심 있는 이동 가능한 물체를 포함하는 전경 이미지 프레임을 생성하는 단계;
상기 업데이트된 배경 이미지 프레임의 픽셀 블록을 인코딩하는 단계;
상기 전경 이미지 프레임의 픽셀 블록을 인코딩하는 단계;
제1 프레임 레이트를 갖는 인코딩된 전경 이미지 프레임들의 스트림을 생성하는 단계; 및
상기 제1 프레임 레이트보다 낮은 제2 프레임 레이트를 갖는 인코딩되고 업데이트된 배경 이미지 프레임들의 스트림을 생성하는 단계를 포함하는 방법.
제1항에 있어서, 상기 이미지 프레임들의 분할은 팬옵틱 분할을 사용하여 수행되고, 상기 이미지 프레임에서의 픽셀은 특정 유형의 물체 그룹을 포함하는 영역을 나타내는 배경 세그먼트에 할당되거나, 개별 물체를 나타내는 인스턴스 세그먼트에 할당되는 방법.
제1항에 있어서, 물체 유형의 목록으로부터 사용자 선택을 수신하는 단계를 더 포함하고, 상기 사용자 선택은 어떤 유형의 물체가 관심 있는 이동 가능한 물체 및 관심 없는 이동 가능한 물체로 간주되어야 하는지를 나타내는 방법.
제1항에 있어서, 상기 관심 있는 이동 가능한 물체는 사람, 차량, 무기, 가방 및 안면 마스크 중 하나 이상을 포함하는 방법.
제1항에 있어서, 상기 관심 없는 이동 가능한 물체의 이동은 상기 배경 업데이트 기간 동안 움직임 및 물체 감지기에 의해 추적되고, 상기 배경 이미지 프레임은 상기 배경 업데이트 기간의 만료 전에 여러 번 업데이트되는 방법.
제1항에 있어서, 상기 전경 이미지 프레임을 인코딩하는 단계는 관심 있는 이동 가능한 물체에 해당하는 픽셀에 대해서만 픽셀 데이터를 인코딩하고, 나머지 전경 이미지 프레임을 블랙 픽셀로 인코딩하는 단계를 포함하는 방법.
제1항에 있어서, 상기 제1 프레임 레이트는 초당 30개의 이미지 프레임이고, 상기 제2 프레임 레이트는 분당 하나의 이미지 프레임인 방법.
제1항에 있어서,
인스턴스 세그먼트를 관심 없는 정지 물체로 분류하는 단계; 및
상기 관심 없는 정지 물체를 포함하기 위해 상기 배경 이미지 프레임을 업데이트하는 단계;를 더 포함하는 방법.
제1항에 있어서,
상기 배경 업데이트 기간의 끝에서 상기 배경 이미지 프레임에 대한 업데이트의 완전성을 검증하는 단계;
상기 배경 이미지 프레임 업데이트가 불완전하다고 결정한 것에 응답하여, 어떤 관심 없는 이동 가능한 물체가 불완전성을 야기했는지를 결정하는 단계; 및
상기 전경 이미지 프레임에서 불완전성을 유발하는 상기 관심 없는 이동 가능한 물체를 포함하는 단계;를 더 포함하는 방법.
제9항에 있어서, 완전성을 검증하는 단계는:
상기 전체 배경 이미지 프레임이 업데이트되었는지를 결정하는 단계를 포함하는 방법.
제1항에 있어서, 상기 관심 없는 이동 가능한 물체가 배경 영역을 노출하기 위해 이동한 경우 상기 배경 이미지 프레임을 업데이트하는 단계는:
관심 없는 이동 가능한 물체의 이동을 영역 종속 임계값, 거리 종속 임계값 및 시간 종속 임계값 중 하나 이상과 비교하는 단계; 및
상기 관심 없는 이동 가능한 물체의 이동이 적어도 하나의 임계값을 초과할 때, 상기 배경 이미지 프레임을 업데이트하는 단계를 포함하는 방법.
제11항에 있어서,
이용 가능한 컴퓨팅 리소스를 기반으로 상기 임계값을 설정하는 단계를 더 포함하는 방법.
제12항에 있어서, 상기 임계값을 설정하는 단계는:
상기 배경 이미지 프레임의 업데이트 빈도가 이용 가능한 컴퓨팅 리소스에 의해 동반될 수 있는 업데이트 빈도로 제한되도록 상기 임계값을 설정하는 단계를 포함하는 방법.
이미지 프레임들의 스트림을 생성하기 위한 인코딩 시스템으로서, 인코더 및 움직임과 물체 감지기를 포함하고,
- 상기 움직임 및 물체 감지기는:
이미지 프레임들의 스트림에서의 이미지 프레임들을 하나 이상의 배경 세그먼트 및 하나 이상의 인스턴스 세그먼트로 분할하고; 그리고
상기 하나 이상의 인스턴스 세그먼트 중 적어도 일부를 관심 있는 이동 가능한 물체 및 관심 없는 이동 가능한 물체로 분류;하도록 구성되고,
- 상기 인코더는:
상기 하나 이상의 배경 세그먼트를 포함하는 배경 이미지 프레임을 생성하고;
배경 업데이트 기간 동안, 관심 없는 이동 가능한 물체가 추가 배경 영역을 노출하기 위해 이동한 경우, 상기 배경 이미지 프레임에서 추기 배경 영역을 포함하도록 상기 배경 이미지 프레임을 업데이트하고;
상기 관심 있는 이동 가능한 물체를 포함하는 전경 이미지 프레임을 생성하고;
상기 업데이트된 배경 이미지 프레임의 픽셀 블록을 인코딩하고;
상기 전경 이미지 프레임의 픽셀 블록을 인코딩하고;
제1 프레임 레이트를 갖는 인코딩된 전경 이미지 프레임들의 스트림을 생성하고; 그리고
상기 제1 프레임 레이트보다 낮은 제2 프레임 레이트를 갖는 인코딩되고 업데이트된 배경 이미지 프레임들의 스트림을 생성하도록 구성되는, 인코딩 시스템.
이미지 프레임들의 스트림을 생성하기 위한 컴퓨터 프로그램 제품으로서, 프로그램 명령어를 갖는 컴퓨터 판독가능 저장 매체를 포함하고, 상기 컴퓨터 판독가능 저장 매체는 그 자체로 일시적인 신호가 아니며, 상기 프로그램 명령어는:
이미지 프레임들의 스트림에서의 이미지 프레임들을 하나 이상의 배경 세그먼트 및 하나 이상의 인스턴스 세그먼트로 분할하는 단계;
상기 하나 이상의 배경 세그먼트를 포함하는 배경 이미지 프레임을 생성하는 단계;
상기 하나 이상의 인스턴스 세그먼트 중 적어도 일부를 관심 있는 이동 가능한 물체 및 관심 없는 이동 가능한 물체로 분류하는 단계;
배경 업데이트 기간 동안, 관심 없는 이동 가능한 물체가 추가 배경 영역을 노출하기 위해 이동한 경우, 상기 배경 이미지 프레임에서 추가 배경 영역을 포함하도록 상기 배경 이미지 프레임을 업데이트하는 단계;
상기 관심 있는 이동 가능한 물체를 포함하는 전경 이미지 프레임을 생성하는 단계;
상기 업데이트된 배경 이미지 프레임의 픽셀 블록을 인코딩하는 단계;
상기 전경 이미지 프레임의 픽셀 블록을 인코딩하는 단계;
제1 프레임 레이트를 갖는 인코딩된 전경 이미지 프레임들의 스트림을 생성하는 단계; 및
상기 제1 프레임 레이트보다 낮은 제2 프레임 레이트를 갖는 인코딩되고 업데이트된 배경 이미지 프레임들의 스트림을 생성하는 단계를 포함하는 방법을 수행하도록 프로세서에 의해 실행 가능한, 컴퓨터 프로그램 제품.