KR20200071808A

KR20200071808A - 객체 검출기의 학습 방법, 이를 수행하기 위한 기록매체 및 장치

Info

Publication number: KR20200071808A
Application number: KR1020180151958A
Authority: KR
Inventors: 고성제; 엄광현; 조성진; 국형근; 김승욱
Original assignee: 고려대학교 산학협력단
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2020-06-22
Anticipated expiration: 2038-11-30
Also published as: KR102204565B1

Abstract

객체 검출기의 학습 방법, 이를 수행하기 위한 기록매체 및 장치가 개시된다. 객체 검출기의 학습 방법은 영상 내 객체 검출에 사용되는 적어도 하나의 특징 맵과 영상 내 객체 영역에 설정되는 적어도 하나의 GT(Ground Truth) 박스를 박스의 크기에 따라 매칭하여 적어도 하나의 특징 맵에서 각각 매칭된 GT 박스를 학습하는 단계, 상기 적어도 하나의 GT 박스를 각각 확대 또는 축소하여 상기 적어도 하나의 GT 박스 별로 적어도 하나의 추가 GT 박스를 생성하는 단계, 상기 적어도 하나의 특징 맵을 분리하여 상기 적어도 하나의 특징 맵 별로 적어도 하나의 하위 특징 맵을 생성하는 단계 및 상기 적어도 하나의 하위 특징 맵과 상기 적어도 하나의 추가 GT 박스를 박스의 크기에 따라 매칭하여 적어도 하나의 하위 특징 맵에서 각각 매칭된 추가 GT 박스를 추가로 학습하는 단계를 포함한다.

Description

객체 검출기의 학습 방법, 이를 수행하기 위한 기록매체 및 장치{LEARNING METHOD OF OBJECT DETECTOR, COMPUTER READABLE MEDIUM AND APPARATUS FOR PERFORMING THE METHOD}

본 발명은 객체 검출기의 학습 방법, 이를 수행하기 위한 기록매체 및 장치에 관한 것으로, 보다 상세하게는 영상 내 객체의 위치를 특정하고, 위치가 특정된 객체를 분류하는 객체 검출기의 학습 방법, 이를 수행하기 위한 기록매체 및 장치에 관한 것이다.

영상 내 객체 검출 기법으로 영상 피라미드(image pyramid) 기반의 기법이 알려져 있다. 영상 피라미드 기반의 객체 검출 기법은 입력 영상의 크기를 다양하게 변환하고, 변환된 영상들을 각각 고정된 크기의 입력을 받는 검출기에 적용하여 영상으로부터 객체를 검출하는 방식이다. 이러한 기법은 입력 영상의 크기에 따라 영상 내 객체들의 크기도 달라진다는 점을 이용하여 검출기가 다양한 크기의 객체를 검출할 수 있다.

최근에는 합성곱 신경망(CNN: convolutional neural networks)에 기반한 SSD(Single Shot multibox detector)이 실시간 객체 검출기로 각광받고 있다. SSD는 합성곱 신경망을 이용하여 특징 맵(feature map)을 추출하고, 특징 맵을 영상 내 객체 검출에 이용하여 기존의 영상 피라미드 기반의 객체 검출 기법에 비해 다양한 크기의 객체를 실시간으로 검출할 수 있다.

그러나 SSD의 특징 맵이 구성하는 특징 계층은 할당된 크기의 개체들에 대한 정보만을 학습하여 특징 계층 간의 추상화 정도가 다르고, 낮은 해상도의 특징 계층에 할당되는 일부 개체들에 대한 추상화 정도는 약할 수 있어 객체 검출의 정확도가 다소 떨어질 수 있다.

본 발명은 SSD의 각 특징 계층에서 할당된 크기의 개체들에 대한 정보뿐만 아니라 할당된 크기로 확대 또는 축소된 다른 개체들에 대한 정보의 추가 학습을 지원하는 객체 검출기의 학습 방법, 이를 수행하기 위한 기록매체 및 장치를 제공한다.

본 발명에 따른 생성하는 객체 검출기의 학습 방법은 영상 내 객체 검출에 사용되는 적어도 하나의 특징 맵과 영상 내 객체 영역에 설정되는 적어도 하나의 GT(Ground Truth) 박스를 박스의 크기에 따라 매칭하여 적어도 하나의 특징 맵에서 각각 매칭된 GT 박스를 학습하는 단계, 상기 적어도 하나의 GT 박스를 각각 확대 또는 축소하여 상기 적어도 하나의 GT 박스 별로 적어도 하나의 추가 GT 박스를 생성하는 단계, 상기 적어도 하나의 특징 맵을 분리하여 상기 적어도 하나의 특징 맵 별로 적어도 하나의 하위 특징 맵을 생성하는 단계 및 상기 적어도 하나의 하위 특징 맵과 상기 적어도 하나의 추가 GT 박스를 박스의 크기에 따라 매칭하여 적어도 하나의 하위 특징 맵에서 각각 매칭된 추가 GT 박스를 추가로 학습하는 단계를 포함한다.

한편, 상기 적어도 하나의 GT 박스를 각각 확대 또는 축소하여 상기 적어도 하나의 GT 박스 별로 적어도 하나의 추가 GT 박스를 생성하는 단계는, 상기 적어도 하나의 GT 박스 별로 각각 GT 박스와 중심 좌표는 동일하되, 크기가 확대 또는 축소된 적어도 하나의 추가 GT 박스를 생성하는 단계를 포함할 수 있다.

또한, 상기 적어도 하나의 특징 맵을 분리하여 상기 적어도 하나의 특징 맵 별로 적어도 하나의 하위 특징 맵을 생성하는 단계는, 상기 적어도 하나의 특징 맵을 각각 상기 적어도 하나의 GT 박스 별로 생성하는 추가 GT 박스의 개수와 동일한 개수로 분리하는 단계를 포함할 수 있다.

또한, 상기 적어도 하나의 하위 특징 맵과 상기 적어도 하나의 추가 GT 박스를 박스의 크기에 따라 매칭하여 적어도 하나의 하위 특징 맵에서 각각 매칭된 추가 GT 박스를 추가로 학습하는 단계는, 상기 적어도 하나의 추가 GT 박스와 상기 적어도 하나의 GT 박스의 박스 크기를 비교하여 상기 적어도 하나의 추가 GT 박스 별로 GT 박스를 매칭하는 단계 및 상기 적어도 하나의 추가 GT 박스를 각각 상기 적어도 하나의 추가 GT 박스 별로 매칭되는 GT 박스를 학습한 특징 맵으로부터 분리되어 생성된 하위 특징 맵과 매칭하는 단계를 포함할 수 있다.

또한, 상기 적어도 하나의 하위 특징 맵과 상기 적어도 하나의 추가 GT 박스를 박스의 크기에 따라 매칭하여 적어도 하나의 하위 특징 맵에서 각각 매칭된 추가 GT 박스를 추가로 학습하는 단계는, 상기 적어도 하나의 하위 특징 맵에서 각각 합성곱 신경망(CNN: Convolutional neural networks)을 이용하여 매칭된 추가 GT 박스를 학습하는 단계를 포함할 수 있다.

또한, 상기 객체 검출기의 학습 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체일 수 있다.

한편, 본 발명에 따른 객체 검출기의 학습 장치는 영상 내 객체 검출에 사용되는 적어도 하나의 특징 맵에서 각각 영상 내 객체 영역에 설정되는 적어도 하나의 GT(Ground Truth) 박스를 학습할 수 있도록 상기 적어도 하나의 특징 맵과 상기 적어도 하나의 GT 박스를 박스의 크기에 따라 매칭하는 GT 박스 매칭부, 상기 적어도 하나의 GT 박스를 각각 확대 또는 축소하여 상기 적어도 하나의 GT 박스 별로 적어도 하나의 추가 GT 박스를 생성하는 추가 GT 박스 생성부, 상기 적어도 하나의 특징 맵을 분리하여 상기 적어도 하나의 특징 맵 별로 적어도 하나의 하위 특징 맵을 생성하는 특징 맵 분리부 및 상기 적어도 하나의 하위 특징 맵에서 각각 상기 적어도 추가 GT 박스를 추가로 학습할 수 있도록 상기 적어도 하나의 하위 특징 맵과 상기 적어도 하나의 추가 GT 박스를 박스의 크기에 따라 매칭하는 추가 GT 박스 매칭부를 포함한다.

한편, 상기 추가 GT 박스 생성부는, 상기 적어도 하나의 GT 박스 별로 각각 GT 박스와 중심 좌표는 동일하되, 크기가 확대 또는 축소된 적어도 하나의 추가 GT 박스를 생성할 수 있다.

또한, 상기 특징 맵 분리부는, 상기 적어도 하나의 특징 맵을 각각 상기 적어도 하나의 GT 박스 별로 생성하는 추가 GT 박스의 개수와 동일한 개수로 분리할 수 있다.

또한, 상기 추가 GT 박스 매칭부는, 상기 적어도 하나의 추가 GT 박스와 상기 적어도 하나의 GT 박스의 박스 크기를 비교하여 상기 적어도 하나의 추가 GT 박스 별로 GT 박스를 매칭하고, 상기 적어도 하나의 추가 GT 박스를 각각 상기 적어도 하나의 추가 GT 박스 별로 매칭되는 GT 박스를 학습한 특징 맵으로부터 분리되어 생성된 하위 특징 맵과 매칭할 수 있다.

본 발명에 따르면 SSD의 모든 특징 맵이 영상 내 다양한 크기의 객체에 대한 정보를 학습하도록 지원할 수 있으며, 이로 인해 SSD의 검출 성능 향상을 도모할 수 있다. 아울러, 영상 내 다양한 크기의 객체 검출이 요구되는 자율 주행, 지능형 감시 시스템, 스마트 팩토리 등의 4차 산업 혁명 핵심 분야에 적용될 수 있을 것이다.

도 1은 본 발명에 따른 객체 검출기의 학습 장치가 적용되는 SSD(Single Shot Multibox Detector)에서의 객체 검출 방법을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 객체 검출기의 학습 장치의 블록도이다.
도 3은 도 2에 도시된 GT 박스 매칭부에서의 특징 맵과 GT 박스 매칭을 설명하기 위한 도면이다.
도 4는 도 2에 도시된 추가 GT 박스 매칭부에서의 하위 특징 맵과 추가 GT 박스 매칭을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 객체 검출기의 학습 방법의 흐름도이다.
도 6은 영상 내에서 종래의 SSD로부터 객체를 검출한 결과 및 본 발명에 따른 객체 검출기의 학습 방법을 적용한 SSD로부터 객체를 검출한 결과를 보여주는 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계 및 동작은 하나 이상의 다른 구성요소, 단계 및 동작의 존재 또는 추가를 배제하지 않는다.

도 1은 본 발명에 따른 객체 검출기의 학습 장치가 적용되는 SSD(Single Shot Multibox Detector)에서의 객체 검출 방법을 설명하기 위한 도면이다.

도 1을 참조하면, SSD는 특징 맵(feature map)(F₁, F₂, F₃)을 이용하여 영상(I) 내 객체를 검출할 수 있다.

SSD는 합성곱 신경망(CNN: Convolutional neural network) 기반의 실시간 검출기로, 기존의 영상 피라미드 기반의 검출기에 비해 다양한 크기의 객체를 실시간으로 검출할 수 있어 널리 이용되고 있다.

영상 내 객체 검출에 있어서 다양한 크기의 객체를 검출하는 것이 중요한데, SSD는 영상 내 다양한 크기의 객체를 각각 다른 해상도를 갖는 특징 맵을 이용하여 검출할 수 있다. 예를 들어, 크기가 큰 객체는 해상도가 낮은 특징 맵을 이용하여 검출할 수 있으며, 크기가 작은 객체는 해상도가 높은 특징 맵을 이용하여 검출할 수 있다. 이때, 특징 맵은 합성곱 신경망을 이용하여 영상 내 객체에 설정되는 GT(Ground Truth) 박스에 대한 지식을 학습하며, 영상 내 객체 검출에 사용될 수 있다.

본 발명에 따른 객체 검출기의 학습 장치는 이러한 SSD에 적용되어 영상 내 객체 검출에 사용되는 특징 맵의 학습을 지원할 수 있다. 이하 도 2 이하를 참조하여 본 발명에 따른 객체 검출기의 학습 장치에 대해 구체적으로 설명한다.

도 2는 본 발명의 일 실시예에 따른 객체 검출기의 학습 장치의 블록도이다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 객체 검출기의 학습 장치(1)는 GT 박스 매칭부(10), 추가 GT 박스 생성부(30), 특징 맵 분리부(50) 및 추가 GT 박스 매칭부(70)를 포함할 수 있다.

본 발명의 일 실시예에 따른 객체 검출기의 학습 장치(1)는 상술한 것처럼 SSD에 적용되어 영상 내 객체 검출에 사용되는 특징 맵의 GT 박스 학습을 지원할 수 있다.

본 발명의 일 실시예에 따른 객체 검출기의 학습 장치(1)는 SSD의 일부 모듈을 구성하거나, SSD와 연결되는 별도의 모듈을 구성할 수 있다.

본 발명의 일 실시예에 따른 객체 검출기의 학습 장치(1)는 특징 맵의 학습을 지원하기 위한 소프트웨어(어플리케이션)가 설치되어 실행될 수 있으며, GT 박스 매칭부(10), 추가 GT 박스 생성부(30), 특징 맵 분리부(50) 및 추가 GT 박스 매칭부(70)는 특징 맵의 학습을 지원하기 위한 소프트웨어에 의해 제어될 수 있다.

GT 박스 매칭부(10), 추가 GT 박스 생성부(30), 특징 맵 분리부(50) 및 추가 GT 박스 매칭부(70)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.

본 발명의 일 실시예에 따른 객체 검출기의 학습 장치(1)는 이동성을 갖거나 고정될 수 있다. 본 발명의 일 실시예에 따른 객체 검출기의 학습 장치(1)는 컴퓨터(computer), 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), MT(mobile terminal), UT(user terminal), SS(subscriber station), 무선기기(wireless device), PDA(personal digital assistant), 무선 모뎀(wireless modem), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.

이하, 도 2에 도시된 본 발명의 일 실시예에 따른 객체 검출기의 학습 장치(1)의 각 구성에 대해 구체적으로 설명한다.

GT 박스 매칭부(10)는 영상 내 검출에 사용되는 적어도 하나의 특징 맵과 영상 내 객체 영역에 설정되는 적어도 하나의 GT 박스를 매칭할 수 있다.

GT 박스 매칭부(10)는 SSD에서 종래의 방식에 따라 진행되는 특징 맵의 학습을 지원할 수 있다. SSD는 적어도 하나의 특징 맵에 각각 영상 내 객체 영역에 설정되는 GT 박스를 할당하고, 적어도 하나의 특징 맵에서 각각 할당된 GT 박스에 대한 정보를 학습하도록 한다. 여기서, GT 박스는 영상 내 객체에 대한 정보를 포함하며 객체의 크기에 따라 그 크기가 할당될 수 있다. 즉, 적어도 하나의 특징 맵은 각각 학습한 GT 박스에 포함되는 객체에 대한 지식을 저장할 수 있으며, SSD는 이러한 특징 맵을 이용하여 영상 내 객체를 검출할 수 있을 것이다.

GT 박스 매칭부(10)는 이처럼 적어도 하나의 특징 맵에서 각각 적어도 하나의 GT 박스를 학습할 수 있도록 적어도 하나의 특징 맵과 적어도 하나의 GT 박스를 박스의 크기에 따라 매칭할 수 있다. 이와 관련하여 도 3을 참조하여 설명한다.

도 3은 도 2에 도시된 GT 박스 매칭부에서의 특징 맵과 GT 박스 매칭을 설명하기 위한 도면이다.

도 3을 참조하면, SSD는 제1 특징 맵(F₁) 및 제2 특징 맵(F₂)의 특징 계층(feature layer)을 구성할 수 있다. 이때, 제1 특징 맵(F₁)은 제2 특징 맵(F₂)보다 큰 해상도를 가질 수 있다.

SSD는 영상에 포함되는 개 및 소의 객체를 검출할 수 있다. 영상 내 개 영역은 제1 GT 박스(g₁)가 설정되고, 영상 내 소 영역은 제2 GT 박스(g₂)가 설정될 수 있다. 이때, 제1 GT 박스(g₁)는 제2 GT 박스(g₂)보다 작은 크기가 할당될 수 있다.

GT 박스 매칭부(10)는 제1 특징 맵(F₁)과 제1 GT 박스(g₁)를 매칭하고, 제2 특징 맵(F₂)과 제2 GT 박스(g₂)를 매칭할 수 있다. 즉, 제1 GT 박스(g₁)에 포함되는 객체는 제1 특징 맵(F₁)에 의해 검출되도록 할당되고, 제2 GT 박스(g₂)에 포함되는 객체는 제2 특징 맵(F₂)에 의해 검출되도록 할당될 수 있다. 이를 위해, 제1 특징 맵(F₁)은 제1 GT 박스(g₁)를 학습하여 개에 대한 지식을 저장하고, 제2 특징 맵(F₂)은 제2 GT 박스(g₂)를 학습하여 소에 대한 지식을 저장할 수 있다.

예를 들면, GT 박스 매칭부(10)는 SSD의 특징 계층을 구성하는 적어도 하나의 특징 맵을 해상도가 높은 순으로 정렬하고, 영상 내 객체 영역에 설정되는 적어도 하나의 GT 박스를 그 크기가 작은 순으로 정렬하여, 정렬된 순서대로 적어도 하나의 특징 맵과 적어도 하나의 GT 박스를 매칭할 수 있다.

한편, SSD는 종래의 방식에 따르면 특징 맵은 GT 박스의 크기에 따라 미리 할당되는 GT 박스에 대한 정보만을 저장하고 있어 특징 맵 간의 추상화 정도(semantic level)가 다르고, 낮은 특징 레벨을 구성하는 특징 맵의 경우 추상화 정도가 낮다. 따라서 본 실시예에서는 SSD의 모든 특징 맵이 영상 내 다양한 크기의 객체에 대한 정보를 학습하도록 하여 검출 성능 향상을 도모할 수 있다.

이를 위해, 추가 GT 박스 생성부(30)는 영상 내 객체 영역에 설정되는 GT 박스 외에 추가 GT 박스를 생성할 수 있다.

추가 GT 박스 생성부(30)는 영상 내 객체 영역에 설정되는 적어도 하나의 GT 박스를 각각 확대 또는 축소하여 적어도 하나의 GT 박스 별로 적어도 하나의 추가 GT 박스를 생성할 수 있다.

추가 GT 박스 생성부(30)는 적어도 하나의 GT 박스 별로 각각 GT 박스와 중심 좌표는 동일하되, 크기가 확대 또는 축소된 적어도 하나의 추가 GT 박스를 생성할 수 있다. 이와 관련하여 구체적인 설명은 도 4를 참조하여 후술한다.

즉, 종래의 SSD 방식에 따르면 영상 내 특정 객체 영역에는 하나의 GT 박스만이 설정되는 반면, 본 발명에 따르면 영상 내 특정 개체 영역에는 종래의 SSD 방식에 따른 GT 박스 외에도, GT 박스와 크기가 다른 추가 GT 박스를 설정할 수 있다. 이에 영상 내 특정 객체에 대한 지식은 크기가 상이한 복수의 GT 박스로부터 획득할 수 있을 것이다.

또한, 특징 맵 분리부(50)는 적어도 하나의 특징 맵을 분리하여 적어도 하나의 특징 맵 별로 적어도 하나의 하위 특징 맵을 생성할 수 있다.

특징 맵 분리부(50)는 적어도 하나의 특징 맵을 각각 적어도 하나의 GT 박스 별로 생성하는 추가 GT 박스의 개수와 동일한 개수로 분리할 수 있다. 이와 관련하여 구체적인 설명은 도 4를 참조하여 후술한다.

추가 GT 박스 매칭부(70)는 적어도 하나의 하위 특징 맵과 적어도 하나의 추가 GT 박스를 매칭할 수 있다.

추가 GT 박스 매칭부(70)는 적어도 하나의 하위 특징 맵에서 각각 적어도 하나의 추가 GT 박스를 학습할 수 있도록 적어도 하나의 하위 특징 맵과 적어도 하나의 추가 GT 박스를 박스의 크기에 따라 매칭할 수 있다. 이와 관련하여 도 4를 참조하여 설명한다.

도 4는 도 2에 도시된 추가 GT 박스 매칭부에서의 하위 특징 맵과 추가 GT 박스 매칭을 설명하기 위한 도면이다.

도 4를 참조하면, 추가 GT 박스 생성부(30)는 영상 내 개 영역에 설정된 제1 GT 박스(g₁)를 확대하여 제1 추가 GT 박스(g₁ ¹)를 생성하고, 영상 내 소 영역에 설정된 제2 GT 박스(g₂)를 축소하여 제2 추가 GT 박스(g₂ ⁴)를 생성할 수 있다. 여기서, 제1 추가 GT 박스(g₁ ¹)는 영상 내 축소된 개에 대한 정보를 포함하고, 제2 추가 GT 박스(g₂ ⁴)는 영상 내 확대된 소의 일부 영역에 대한 정보를 포함할 수 있다.

이처럼 추가 GT 박스 생성부(30)는 기존의 GT 박스의 크기를 확대 또는 축소하여 추가 GT 박스를 생성할 수 있다. 즉, 추가 GT 박스는 기존의 GT 박스의 일부 영역에 설정되는 박스이거나, 기존의 GT 박스를 내부에 포함하는 영역에 설정되는 박스일 수 있다.

도 4에서는 추가 GT 박스 생성부(30)가 제1 GT 박스(g₁) 및 제2 GT 박스(g₂)로부터 각각 하나의 추가 GT 박스를 생성하는 것을 예로 들어 도시하였으나 이에 한정하는 것은 아니며, 하나 이상의 추가 GT 박스를 생성할 수 있음은 물론이다.

추가 GT 박스 생성부(30)가 제1 GT 박스(g₁) 및 제2 GT 박스(g₂)로부터 각각 K 개의 추가 GT 박스를 생성하는 경우, 제1 GT 박스(g₁)로부터 생성되는 추가 GT 박스의 집합은 {g₁ ¹,??,g₁ ^k}와 같이 나타내고, 제2 GT 박스(g₂)로부터 생성되는 추가 GT 박스의 집합은 {g₂ ¹,??,g₂ ^k}와 같이 나타낼 수 있다. 여기서, 제1 추가 GT 박스(g₁ ^k) 및 제2 추가 GT 박스(g₂ ^k)는 각각 제1 GT 박스(g₁) 및 제2 GT 박스(g₂)와 그 중심 좌표가 동일하다.

이때, 제1 GT 박스(g₁)의 크기가 HxW인 경우, 제1 추가 GT 박스(g₁ ^k)의 크기는 s_kHxs_kW일 수 있다. 여기서, s={s₁,??,s_k}는 k개의 스케일 파라미터의 집합이다.

특징 맵 분리부(50)는 SSD의 특징 계층을 구성하는 제1 특징 맵(F₁) 및 제2 특징 맵(F₂)을 각각 분리할 수 있다.

도 4에서는 제1 특징 맵(F₁) 및 제2 특징 맵(F₂)이 각각 4 개의 하위 특징 맵으로 분리된 것을 예로 들어 도시하였으나, 이에 한정하는 것은 아니며, 특징 맵 분리부(50)는 하나의 GT 박스 별로 생성하는 추가 GT 박스의 개수(K)와 동일한 개수로 제1 특징 맵(F₁) 및 제2 특징 맵(F₂)을 분리하여 각각 K 개의 하위 특징 맵을 생성할 수 있다.

특징 맵 분리부(50)가 제1 특징 맵(F₁) 및 제2 특징 맵(F₂)으로부터 각각 K 개의 하위 특징 맵을 생성하는 경우, 제1 특징 맵(F₁)으로부터 생성되는 하위 특징 맵의 집합은 {f₁ ¹,??,f₁ ^k}와 같이 나타내고, 제2 특징 맵(F₂)으로부터 생성되는 하위 특징 맵의 집합은 {f₂ ¹,??,f₂ ^k}와 같이 나타낼 수 있다.

추가 GT 박스 매칭부(70)는 추가 GT 박스(g_n ^k)를 그 박스 크기에 따라 제1 특징 맵(F₁)으로부터 생성되는 하위 특징 맵{f₁ ^k} 또는 제2 특징 맵(F₂)으로부터 생성되는 하위 특징 맵{f₂ ^k}에서 학습하도록 할당할 수 있다.

즉, 추가 GT 박스 매칭부(70)는 제2 특징 맵(F₂)으로부터 분리되는 하위 특징 맵(f₂ ¹)에 제1 추가 GT 박스(g₁ ¹)를 매칭하고, 제1 특징 맵(F₁)으로부터 분리되는 하위 특징 맵(f₁ ⁴)에 제2 추가 GT 박스(g₂ ⁴)를 매칭할 수 있다.

이에 따라 제1 추가 GT 박스(g₁ ¹)에 포함되는 객체는 제2 특징 맵(F₂)에 의해서도 검출되도록 할당되고, 제2 추가 GT 박스(g₂ ⁴)에 포함되는 객체는 제1 특징 맵(F₁)에 의해서도 검출되도록 할당될 수 있다. 이를 위해, 제2 특징 맵(F₂)으로부터 분리되는 하위 특징 맵(f₂ ¹)은 제1 추가 GT 박스(g₁ ¹)를 학습하여 영상 내 축소된 개에 대한 지식을 저장하고, 제1 특징 맵(F₁)으로부터 분리되는 하위 특징 맵(f₁ ⁴)은 제2 추가 GT 박스(g₂ ⁴)를 학습하여 영상 내 확대된 소의 일부 영역에 대한 지식을 저장할 수 있다.

예를 들면, 추가 GT 박스 매칭부(70)는 추가 GT 박스와 GT 박스의 박스 크기를 비교하여 추가 GT 박스 별로 GT 박스를 매칭할 수 있다. 그리고 추가 GT 박스 매칭부(70)는 추가 GT 박스를 추가 GT 박스 별로 매칭되는 GT 박스를 학습한 특징 맵으로부터 분리되어 생성된 하위 특징 맵과 매칭할 수 있다.

즉, 제1 추가 GT 박스(g₁ ¹)는 박스 크기가 유사한 제2 GT 박스(g₂)와 매칭되고, 제2 추가 GT 박스(g₂ ⁴)는 박스 크기가 유사한 제1 GT 박스(g₁)와 매칭될 수 있다. 제1 추가 GT 박스(g₁ ¹)는 제2 GT 박스(g₂)를 학습한 제2 특징 맵(F₂)으로부터 분리되어 생성된 하위 특징 맵(f₂ ¹)과 매칭되고, 제2 추가 GT 박스(g₂ ⁴)는 제1 GT 박스(g₁)를 학습한 제1 특징 맵(F₁)으로부터 분리되어 생성된 하위 특징 맵(f₁ ⁴)과 매칭될 수 있다.

이와 같은 경우 각 특징 맵은 해상도에 따라 최초 할당되는 GT 박스의 크기와 유사한 크기의 추가 GT 박스를 학습하게 될 것이다. 즉, 각 특징 맵은 영상에서 유사한 크기의 영역 내에 포함되는 확대 또는 축소된 객체에 대한 지식을 저장할 수 있다.

이와 같이, 본 발명의 일 실시예에 따른 객체 검출기의 학습 장치(1)는 GT 박스 및 특징 맵을 분리하여 SSD의 모든 특징 맵이 영상 내 모든 객체에 대한 정보를 학습하도록 지원할 수 있으며, 이로 인해 SSD의 검출 성능 향상을 도모할 수 있다.

이하에서는 도 5를 참조하여 본 발명의 일 실시예에 따른 객체 검출기의 학습 방법에 대하여 설명한다.

도 5는 본 발명의 일 실시예에 따른 객체 검출기의 학습 방법의 흐름도이다.

본 발명의 일 실시예에 따른 객체 검출기의 학습 방법은 도 2에 도시된 객체 검출기의 학습 장치(1)와 실질적으로 동일한 구성에서 실행될 수 있다. 따라서 도 2에 도시된 객체 검출기의 학습 장치(1)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.

도 5를 참조하면, GT 박스 매칭부(10)는 특징 맵과 GT 박스를 매칭하여 특징 맵에서 GT 박스를 학습하도록 할 수 있다 (S100).

GT 박스 매칭부(10)는 SSD에서 영상 내 객체 검출에 사용되는 적어도 하나의 특징 맵과 영상 내 객체 영역에 설정되는 적어도 하나의 GT 박스를 박스의 크기에 따라 매칭하여 적어도 하나의 특징 맵에서 각각 매칭된 GT 박스를 학습하도록 할 수 있다.

추가 GT 박스 생성부(30)는 GT 박스로부터 추가 GT 박스를 생성할 수 있다(S200).

추가 GT 박스 생성부(30)는 적어도 하나의 GT 박스 별로 각각 GT 박스와 중심 좌표는 동일하되, 크기가 확대 또는 축소된 적어도 하나의 추가 GT 박스를 생성할 수 있다.

특징 맵 분리부(50)는 특징 맵으로부터 하위 특징 맵을 생성할 수 있다(S300).

특징 맵 분리부(50)는 적어도 하나의 특징 맵을 각각 적어도 하나의 GT 박스 별로 생성하는 추가 GT 박스의 개수와 동일한 개수로 분리하여 적어도 하나의 특징 맵 별로 하위 특징 맵을 생성할 수 있다.

추가 GT 박스 매칭부(70)는 하위 특징 맵과 추가 GT 박스를 매칭하여 하위 특징 맵에서 추가 GT 박스를 학습하도록 할 수 있다(S400).

추가 GT 박스 매칭부(70)는 적어도 하나의 하위 특징 맵과 적어도 하나의 추가 GT 박스를 박스의 크기에 따라 매칭하여 적어도 하나의 하위 특징 맵에서 각각 추가 GT 박스를 추가로 학습하도록 할 수 있다.

예를 들면, 추가 GT 박스 매칭부(70)는 적어도 하나의 추가 GT 박스와 적어도 하나의 GT 박스의 박스 크기를 비교하여 적어도 하나의 추가 GT 박스 별로 GT 박스를 매칭할 수 있다. 그리고, 추가 GT 박스 매칭부(70)는 적어도 하나의 추가 GT 박스를 각각 적어도 하나의 추가 GT 박스 별로 매칭되는 GT 박스를 학습한 특징 맵으로부터 분리되어 생성된 하위 특징 맵과 매칭할 수 있다.

이에 따라, 각 특징 맵은 영상에서 유사한 크기의 영역 내에 포함되는 객체, 확대 또는 축소된 객체에 대한 지식을 저장할 수 있을 것이다. 즉, 영상 내 객체에 대한 정보는 다양한 크기로 특징 맵에 학습될 수 있다. 아울러 이러한 특징 맵을 이용하여 객체를 검출하는 SSD의 검출 성능 향상을 기대할 수 있다.

한편, 특징 맵과 GT 박스를 매칭하여 특징 맵에서 GT 박스를 학습하도록 하는 단계(S100) 및 하위 특징 맵과 추가 GT 박스를 매칭하여 하위 특징 맵에서 추가 GT 박스를 학습하도록 하는 단계(S400)에서 특징 맵 또는 하위 특징 맵은 각각 합성곱 신경망(CNN)을 이용하여 매칭된 GT 박스 또는 추가 GT 박스를 학습할 수 있다.

여기서, 합성곱 신경망(CNN)은 네트워크를 학습시키기 위해 널리 사용되는 multibox 손실 함수를 사용할 수 있다. GT 박스들의 세트를 G라 하고, G에 대해 예측된 결과를 x라 하면, multibox 손실 함수는 L(x,G)로 나타낼 수 있다. Multibox 손실 함수는 객체 분류 결과의 신뢰도에 대한 손실 함수인 softmax 함수와 객체 위치 추정에 대한 손실 함수인 smooth L1 함수로 구성될 수 있다.

특징 맵(F_n) 및 하위 특징 맵(f_n ^k)은 각각 구성된 합성곱 계층을 거쳐 최종 결과인 x_k 및 x_org를 출력할 수 있으며, 아래 수학식 1과 같은 최종 손실 함수를 이용하여 매칭된 GT 박스 또는 추가 GT 박스를 학습할 수 있다.

수학식 1에서 G_org 및 G^k는 각각 GT 박스의 집합 및 s_k만큼 크기가 변화된 추가 GT 박스의 집합을 나타내고,

는 가중치로, 일예로, 0.25로 설정될 수 있다.

이하에서는 본 발명에 따른 객체 검출기의 학습 방법을 적용한 SSD의 유리한 효과에 대해 설명한다.

도 6은 영상 내에서 종래의 SSD로부터 객체를 검출한 결과 및 본 발명에 따른 객체 검출기의 학습 방법을 적용한 SSD로부터 객체를 검출한 결과를 보여주는 도면이다.

도 6의 (a)는 종래의 SSD로부터 객체를 검출한 결과를 보여주는 다양한 예시 영상으로, SSD의 각 특징 계층은 할당된 크기의 개체들에 대한 정보만을 학습하여 특징 계층 간의 추상화 정도가 다르고 낮은 해상도의 특징 계층에 할당되는 일부 개체들에 대한 추상화 정도는 약한 상태이다.

도 6의 (b)는 본 발명에 따른 객체 검출기의 학습 방법을 적용한 SSD 로부터 객체를 검출한 결과를 보여주는 다양한 예시 영상으로, SSD의 각 특징 계층은 할당된 크기의 개체들에 대한 정보뿐만 아니라 할당된 크기로 확대 또는 축소된 다른 개체들에 대한 정보를 추가로 학습하여, 특징 계층 간의 추상화 정도가 같고, 영상 내 개체들에 대한 추상화 정도가 증가한 상태이다.

도 6의 (a) 및 도 6의 (b)를 비교하면, 종래의 SSD에서는 몇몇 객체들을 검출하는데 실패한 반면 본 발명에 따른 객체 검출기의 학습 방법을 적용한 SSD에서는 보다 많은 객체를 정확하게 검출한 것을 확인할 수 있다.

이처럼, 본 발명에 따른 객체 검출기의 학습 방법은 SSD의 검출 성능 향상의 유리한 효과를 갖는다.

이와 같은 본 발명의 객체 검출기의 학습 방법은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

1: 객체 검출기의 학습 장치
10: GT 박스 매칭부
30: 추가 GT 박스 생성부
50: 특징 맵 분리부
70: 추가 GT 박스 매칭부

Claims

영상 내 객체 검출에 사용되는 적어도 하나의 특징 맵과 영상 내 객체 영역에 설정되는 적어도 하나의 GT(Ground Truth) 박스를 박스의 크기에 따라 매칭하여 적어도 하나의 특징 맵에서 각각 매칭된 GT 박스를 학습하는 단계;
상기 적어도 하나의 GT 박스를 각각 확대 또는 축소하여 상기 적어도 하나의 GT 박스 별로 적어도 하나의 추가 GT 박스를 생성하는 단계;
상기 적어도 하나의 특징 맵을 분리하여 상기 적어도 하나의 특징 맵 별로 적어도 하나의 하위 특징 맵을 생성하는 단계; 및
상기 적어도 하나의 하위 특징 맵과 상기 적어도 하나의 추가 GT 박스를 박스의 크기에 따라 매칭하여 적어도 하나의 하위 특징 맵에서 각각 매칭된 추가 GT 박스를 추가로 학습하는 단계를 포함하는 객체 검출기의 학습 방법.
제1항에 있어서,
상기 적어도 하나의 GT 박스를 각각 확대 또는 축소하여 상기 적어도 하나의 GT 박스 별로 적어도 하나의 추가 GT 박스를 생성하는 단계는,
상기 적어도 하나의 GT 박스 별로 각각 GT 박스와 중심 좌표는 동일하되, 크기가 확대 또는 축소된 적어도 하나의 추가 GT 박스를 생성하는 단계를 포함하는 객체 검출기의 학습 방법.
제1항에 있어서,
상기 적어도 하나의 특징 맵을 분리하여 상기 적어도 하나의 특징 맵 별로 적어도 하나의 하위 특징 맵을 생성하는 단계는,
상기 적어도 하나의 특징 맵을 각각 상기 적어도 하나의 GT 박스 별로 생성하는 추가 GT 박스의 개수와 동일한 개수로 분리하는 단계를 포함하는 객체 검출기의 학습 방법.
제1항에 있어서,
상기 적어도 하나의 하위 특징 맵과 상기 적어도 하나의 추가 GT 박스를 박스의 크기에 따라 매칭하여 적어도 하나의 하위 특징 맵에서 각각 매칭된 추가 GT 박스를 추가로 학습하는 단계는,
상기 적어도 하나의 추가 GT 박스와 상기 적어도 하나의 GT 박스의 박스 크기를 비교하여 상기 적어도 하나의 추가 GT 박스 별로 GT 박스를 매칭하는 단계; 및
상기 적어도 하나의 추가 GT 박스를 각각 상기 적어도 하나의 추가 GT 박스 별로 매칭되는 GT 박스를 학습한 특징 맵으로부터 분리되어 생성된 하위 특징 맵과 매칭하는 단계를 포함하는 객체 검출기의 학습 방법.
제1항에 있어서,
상기 적어도 하나의 하위 특징 맵과 상기 적어도 하나의 추가 GT 박스를 박스의 크기에 따라 매칭하여 적어도 하나의 하위 특징 맵에서 각각 매칭된 추가 GT 박스를 추가로 학습하는 단계는,
상기 적어도 하나의 하위 특징 맵에서 각각 합성곱 신경망(CNN: Convolutional neural networks)을 이용하여 매칭된 추가 GT 박스를 학습하는 단계를 포함하는 객체 검출기의 학습 방법.
제1항 내지 제5항 중 어느 하나의 항에 따른 객체 검출기의 학습 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
영상 내 객체 검출에 사용되는 적어도 하나의 특징 맵에서 각각 영상 내 객체 영역에 설정되는 적어도 하나의 GT(Ground Truth) 박스를 학습할 수 있도록 상기 적어도 하나의 특징 맵과 상기 적어도 하나의 GT 박스를 박스의 크기에 따라 매칭하는 GT 박스 매칭부;
상기 적어도 하나의 GT 박스를 각각 확대 또는 축소하여 상기 적어도 하나의 GT 박스 별로 적어도 하나의 추가 GT 박스를 생성하는 추가 GT 박스 생성부;
상기 적어도 하나의 특징 맵을 분리하여 상기 적어도 하나의 특징 맵 별로 적어도 하나의 하위 특징 맵을 생성하는 특징 맵 분리부; 및
상기 적어도 하나의 하위 특징 맵에서 각각 상기 적어도 추가 GT 박스를 추가로 학습할 수 있도록 상기 적어도 하나의 하위 특징 맵과 상기 적어도 하나의 추가 GT 박스를 박스의 크기에 따라 매칭하는 추가 GT 박스 매칭부를 포함하는 객체 검출기의 학습 장치.
제7항에 있어서,
상기 추가 GT 박스 생성부는,
상기 적어도 하나의 GT 박스 별로 각각 GT 박스와 중심 좌표는 동일하되, 크기가 확대 또는 축소된 적어도 하나의 추가 GT 박스를 생성하는 객체 검출기의 학습 장치.
제7항에 있어서,
상기 특징 맵 분리부는,
상기 적어도 하나의 특징 맵을 각각 상기 적어도 하나의 GT 박스 별로 생성하는 추가 GT 박스의 개수와 동일한 개수로 분리하는 객체 검출기의 학습 장치.
제7항에 있어서,
상기 추가 GT 박스 매칭부는,
상기 적어도 하나의 추가 GT 박스와 상기 적어도 하나의 GT 박스의 박스 크기를 비교하여 상기 적어도 하나의 추가 GT 박스 별로 GT 박스를 매칭하고, 상기 적어도 하나의 추가 GT 박스를 각각 상기 적어도 하나의 추가 GT 박스 별로 매칭되는 GT 박스를 학습한 특징 맵으로부터 분리되어 생성된 하위 특징 맵과 매칭하는 객체 검출기의 학습 장치.