WO2024181702A1

WO2024181702A1 - 그립 대상 객체를 파지하기 위한 그리퍼를 포함하는 전자 장치 및 그 제어 방법

Info

Publication number: WO2024181702A1
Application number: PCT/KR2024/001660
Authority: WO
Inventors: 윤재민; 안준모; 정락준; 하창수; 한흥우
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2023-02-27
Filing date: 2024-02-05
Publication date: 2024-09-06
Anticipated expiration: 2025-08-27

Abstract

전자 장치가 개시된다. 전자 장치는, 제1 센서, 제2 센서, 그리퍼(gripper), 제1 센서를 통해 획득된 제1 이미지를 제1 신경망 모델에 입력하여 제1 이미지에 대응되는 제1 특징(feature) 맵을 획득하고, 제2 센서를 통해 획득된 제2 이미지를 제2 신경망 모델에 입력하여 제2 이미지에 대응되는 제2 특징 맵을 획득하고, 제1 특징 맵 및 제2 특징 맵을 병합하여 제3 이미지를 획득하고, 제3 이미지에 기초하여 그립 대상 객체를 식별하고, 그립 대상 객체를 파지하도록 그리퍼를 제어하는 하나 이상의 프로세서를 포함한다.

Description

그립 대상 객체를 파지하기 위한 그리퍼를 포함하는 전자 장치 및 그 제어 방법

본 발명은 전자 장치 및 그 제어 방법에 관한 것으로, 보다 상세하게는 그리퍼를 포함하는 전자 장치 및 그 제어 방법에 관한 것이다.

최근 전자 기술의 발전에 따라 다양한 유형의 전자 장치가 개발 및 보급되고 있는 실정이다.

특히, 다양한 목적의 로봇이 공장, 가정에도 배치되고 있으며, 이러한 로봇은 외부 객체를 파지하여 일 위치에서 타 위치로 이동시키거나, 운반하는 동작을 수행할 수 있다.

예를 들어, 공장에 배치된 산업용 로봇은 사람이 파지하기 어려운 객체를 파지하여 특정 위치로 운반할 수도 있고, 조립을 수행할 수도 있다. 다른 예로, 가정에 배치된 로봇은 이물질을 운반하는 등 실내 청소를 수행할 수도 있고, 사람이 파지하기 어려운 물체 또는 위험한 물체를 특정 위치로 이동시킬 수도 있다.

다만, 종래의 로봇은 객체를 정확히 인식한 경우 예를 들어, 객체와의 거리, 객체의 형태 등을 정확하게 인식한 경우에만 해당 객체를 파지할 수 있었다. 객체와의 거리 또는 객체의 형태를 정확하게 인식하기란 매우 어려운 문제가 있었다.

이에, 객체와의 거리, 객체의 형태 등을 정확하게 인식하여 객체에 대한 파지 성공률을 증가시키는 기술에 대한 요구가 있었다.

본 개시의 상술한 목적을 달성하기 위한 일 예에 따른 전자 장치는, 제1 센서, 제2 센서, 그리퍼(gripper), 상기 제1 센서를 통해 획득된 제1 이미지를 제1 신경망 모델에 입력하여 상기 제1 이미지에 대응되는 제1 특징(feature) 맵을 획득하고, 상기 제2 센서를 통해 획득된 제2 이미지를 제2 신경망 모델에 입력하여 상기 제2 이미지에 대응되는 제2 특징 맵을 획득하고, 상기 제1 특징 맵 및 상기 제2 특징 맵을 병합하여 제3 이미지를 획득하고, 상기 제3 이미지에 기초하여 그립 대상 객체를 식별하고, 상기 그립 대상 객체를 파지하도록 상기 그리퍼를 제어하는 하나 이상의 프로세서를 포함한다.

본 개시의 상술한 목적을 달성하기 위한 일 예에 따른 그리퍼(Gripper)를 포함하는 전자 장치의 제어 방법은, 제1 센서를 통해 획득된 제1 이미지를 제1 신경망 모델에 입력하여 상기 제1 이미지에 대응되는 제1 특징(feature) 맵을 획득하는 단계, 제2 센서를 통해 획득된 제2 이미지를 제2 신경망 모델에 입력하여 제2 이미지에 대응되는 제2 특징 맵을 획득하는 단계, 상기 제1 특징 맵 및 상기 제2 특징 맵을 병합하여 제3 이미지를 획득하는 단계, 상기 제3 이미지에 기초하여 그립 대상 객체를 식별하는 단계 및 상기 그립 대상 객체를 파지하도록 상기 그리퍼를 제어하는 단계를 포함한다.

본 개시의 상술한 목적을 달성하기 위한 일 실시 예에 따른 그리퍼(Gripper)를 포함하는 전자 장치의 제어 방법을 실행하는 프로그램을 포함하는 컴퓨터 판독 가능 기록 매체에 있어서, 상기 전자 장치의 제어 방법은, 제1 센서를 통해 획득된 제1 이미지를 제1 신경망 모델에 입력하여 상기 제1 이미지에 대응되는 제1 특징(feature) 맵을 획득하는 단계, 제2 센서를 통해 획득된 제2 이미지를 제2 신경망 모델에 입력하여 제2 이미지에 대응되는 제2 특징 맵을 획득하는 단계, 상기 제1 특징 맵 및 상기 제2 특징 맵을 병합하여 제3 이미지를 획득하는 단계, 상기 제3 이미지에 기초하여 그립 대상 객체를 식별하는 단계 및 상기 그립 대상 객체를 파지하도록 상기 그리퍼를 제어하는 단계를 포함한다.

도 1은 본 개시의 일 실시 예에 따른 그리퍼(Gripper) 및 그립 대상 객체를 개략적으로 설명하기 위한 도면이다.

도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블록도이다.

도 3은 본 개시의 일 실시 예에 따른 제1 신경망 모델 및 제2 신경망 모델을 설명하기 위한 도면이다.

도 4는 본 개시의 일 실시 예에 따른 제3 신경망 모델 및 이동 정보를 설명하기 위한 도면이다.

도 5는 본 개시의 일 실시 예에 따른 신뢰도를 설명하기 위한 도면이다.

도 6은 본 개시의 일 실시 예에 따른 전자 장치가 그립 대상 객체를 이동시킨 결과를 설명하기 위한 도면이다.

도 7은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.　

본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 개시의 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시 예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.　그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

도 1은 본 개시의 일 실시 예에 따른 그리퍼 및 그립 대상 객체를 개략적으로 설명하기 위한 도면이다.

도 1에 도시된 바에 따르면, 본 개시의 일 실시 예에 따른 전자 장치(100)는 사용자 단말 장치, 디스플레이 장치, 셋톱 박스(set-top box), 태블릿 PC(tablet personal computer), 스마트 폰(smart phone), 전자책 리더기(e-book reader), 데스크탑 PC (desktop PC), 랩탑 PC(laptop PC), 워크스테이션(workstation), 서버, PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 키오스크(Kiosk) 등과 같은 다양한 형태의 디바이스로 구현될 수 있다. 다만, 이는 일 실시 예이며, 전자 장치(100)는 엑세서리 형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘텍트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체 형(예: 전자 의복) 중 적어도 하나의 형태에 해당하는 웨어러블 장치, 구동부를 포함하는 로봇(robot), 프로젝터(projector), 서버 등 다양한 유형의 전자 장치로 구현될 수도 있다.

본 개시의 일 실시 예에 따른 전자 장치(100)는 로봇으로 구현될 수 있다. 여기서, 로봇은 스스로 일 기능을 수행하는 능력을 가진 다양한 형태의 기계를 의미할 수 있다. 일 예로, 로봇은 단순 반복 기능 외에 센서, 카메라 등을 기반으로 실시간으로 주변 환경을 감지하고, 정보를 수집하여 자율적으로 동작하는 스마트 기계를 의미할 수도 있다.

본 개시의 일 실시 예에 따른 전자 장치(100)는 인간의 손가락과 같이 외부 객체를 파지하거나 또는 이동시킬 수 있는 그리퍼(Gripper)를 포함할 수 있다. 한편, 그리퍼는 다관절 로봇의 말단부인 로봇 핸드(robot hand), 그래스퍼(Grasper) 등으로 불릴 수도 있으나, 이하에서는 설명의 편의를 위해 그리퍼로 통칭하도록 한다.

한편, 전자 장치(100)는 이용 분야 또는 수행 가능한 기능에 따라서 산업용, 의료용, 가정용, 군사용 및 탐사용 로봇 등으로 구분될 수 있다. 일 실시 예에 따라 산업용 로봇은 공장의 제품 제조 과정에서 이용되는 로봇, 매장 또는 식당 등에서 손님 응대, 주문 접수 및 서빙 등을 수행하는 로봇 등으로 세분화될 수도 있다. 예를 들어, 본 개시의 일 실시 예에 따른 전자 장치(100)는 공장, 호텔, 마트, 병원, 의류 매장 등 다양한 장소에서 전자 장치(100)에 구비된 그리퍼를 제어하여 외부 객체를 그립(Grip)한 뒤, 외부 객체를 특정 위치까지 운반할 수 있는 로봇으로 구현될 수 있다. 다만, 이는 일 예에 불과할 뿐, 로봇은 활용 분야, 기능 및 사용 목적에 따라 다양하게 분류될 수 있고, 상술한 예에 한정되지 않음은 물론이다.

종래의 로봇은 외부 객체를 포함하는 뎁스(Depth) 이미지 또는 RGB 이미지에 기초하여 외부 객체와 그리퍼 간의 거리를 구체적인 수치로 산출하고, 산출된 거리에 기초하여 그리퍼를 이동시킨 뒤, 외부 객체를 그립(Grip)하였다.

예를 들어, 종래의 로봇은 외부 객체를 인식한 경우에 한하여 그리퍼를 외부 객체에 인접하게 위치시킬 수 있으며, 외부 객체를 그립하도록 그리퍼를 제어할 수 있었다.

이와 같은 그립 방법은 로봇이 외부 객체를 다소 높은 정확도(또는, 신뢰도)로 인식한 경우에 한하여 외부 객체를 원활히 그립할 수 있는 단점이 있었다. 예를 들어, 로봇이 외부 객체와 그리퍼 간의 거리를 오차 범위 내에서 다소 정확하게 산출한 경우, 외부 객체의 형태에 따른 그립 포즈(grip pose)를 적절히 식별한 경우에 한하여 외부 객체를 그립할 수 있으며, 산출된 거리가 오차 범위를 초과하거나 또는 그립 포즈가 외부 객체의 형태에 적절하지 않으면, 외부 객체를 그립하지 못하거나 수 차례 시행 착오 끝에 외부 객체를 그립하는 문제가 있다. 여기서, 시행 착오는 로봇이 외부 객체의 파지에 실패하면, 외부 객체와 그리퍼 간의 거리를 재 산출하거나 그립 포즈를 재 식별한 후 그리퍼를 재 이동시켜 외부 객체를 그립함을 의미한다. 한편, 이하에서는 설명의 편의를 위해 전자 장치(100)가 그리퍼를 통해 그립하는 외부 객체를 그립 대상 객체로 통칭하도록 한다.

종래의 로봇이 RGB 이미지 또는 뎁스 이미지를 이용하여 그립 대상 객체를 인식하는데 반하여, 본 개시의 일 실시 예에 따른 전자 장치(100)는 RGB 이미지와 뎁스 이미지를 적절히 이용하여 그립 대상 객체를 인식할 수 있다.

일 예로, 전자 장치(100)는 그립 대상 객체를 포함하는 주변 환경의 제1 특성(characteristic)을 감지(또는, 촬상)한 제1 이미지와 주변 환경의 제2 특성을 감지한 제2 이미지 모두를 이용하여 그립 대상 객체를 식별하므로, 종래의 로봇 보다 높은 정확도(또는, 신뢰도)로 그립 대상 객체를 식별할 수 있다. 예를 들어, 전자 장치(100)는 그립 대상 객체와 그리퍼 간의 거리, 그립 대상 객체를 그립하기 위한 그립 포즈(pose) 등을 높은 정확도로 식별할 수 있다.

도 2를 참조하면, 전자 장치(100)는 제1 센서(110), 제2 센서(120), 그리퍼(130) 및 하나 이상의 프로세서(140)를 포함한다.

제1 센서(110)는 정지 영상 또는 동영상을 촬상하기 위한 구성이다. 일 예로, 제1 센서(110)는 RGB 카메라 센서를 포함할 수 있다. RGB 카메라 센서는, 가시광선(400~700nm)을 수집하여 이를 전기 신호로 변환하여 하나 이상의 프로세서(140)로 전송할 수 있다. 일 예에 따라 하나 이상의 프로세서(140)는 RGB 카메라 센서로부터 수신된 전기 신호에 기초하여 주변 환경의 제1 특성을 포함하는 제1 이미지를 획득할 수 있다. 여기서, 제1 특성은, RGB 특성을 포함할 수 있다.

제2 센서(120)는 거리에 대한 정보를 획득하는 위한 구성이다. 일 예로, 제2 센서(120)는 뎁스(Depth) 카메라 센서를 포함할 수 있다.

예를 들어, 제2 센서(120)는 스테레오 카메라이며, 약 6.5cm 떨어져 있는 사람의 양안이 동일한 객체를 바라보았을 때 좌안과 우안에 상이하게 상이 맺히는 것과 동일한 원리에 기초하여 스테레오 비전 카메라는 동일한 그립 대상 객체를 서로 다르게 촬영한 좌안(left-eye) 이미지 및 우안(right-eye) 이미지를 획득할 수 있다. 일 예에 따른 하나 이상의 프로세서(140)는 좌안 이미지(left-eye image) 및 우안 이미지(right-eye image) 간의 시차(disparity)에 기초하여 주변 환경에 포함된 적어도 하나의 객체(예를 들어, 그립 대상 객체)의 제2 특성을 포함하는 제2 이미지를 획득할 수 있다. 여기서, 제2 특성은 뎁스(depth) 특성을 포함할 수 있다.

다만, 이는 일 예시이며, 이에 한정되지 않음은 물론이다. 예를 들어, 제2 센서(120)는 ToF(Time of Flight) 카메라 센서를 포함할 수도 있다. 일 예에 따라, ToF 카메라 센서는, 신호(예를 들어, 근적외선, 초음파, 레이저 등)를 조사하고, 조사된 신호가 그립 대상 객체에 의해 반사되어 ToF 센서가 수신하기까지의 시간을 측정하여 ToF 카메라 센서와 그립 대상 객체 간의 거리를 측정하는 센서일 수 있다.

일 예에 따라 그리퍼(130)는 하나 이상의 프로세서(140)에 의해 3자유도(3 Degrees of Freedom, 3 DOF) 또는 6자유도(6 DOF)로 제어 가능할 수 있다.

여기서, 3자유도는, 3차원 직각 좌표계에서 X축을 중심으로 좌우 회전(roll), Y축을 중심으로 앞뒤 회전(pitch), Z축을 중심으로 위아래 회전(yaw) 동작을 의미하며, 6자유도는, 3DOF에 추가적으로 앞뒤(forward/back, surge), 좌우(left/right, sway), 위아래(up/down, heave) 병진 동작(translational motion)을 의미할 수 있다.

일 예에 따라 그리퍼(130)는 하나 이상의 프로세서(140)에 의해 그립 대상 객체에 인접하게 위치한 후, 하나 이상의 프로세서(140)의 제어에 따른 그립 포즈로 그립 대상 객체를 파지할 수 있다.

본 개시의 일 실시 예에 따른 하나 이상의 프로세서(140)는 전자 장치(100)의 전반적인 동작을 제어한다.

본 개시의 일 실시 예에 따라, 프로세서(140)는 디지털 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Timing controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서, AI(Artificial Intelligence) 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(140)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다. 프로세서(140)는 메모리에 저장된 컴퓨터 실행가능 명령어(computer executable instructions)를 실행함으로써 다양한 기능을 수행할 수 있다.

하나 이상의 프로세서(140)는 CPU (Central Processing Unit), GPU (Graphics Processing Unit), APU (Accelerated Processing Unit), MIC (Many Integrated Core), DSP (Digital Signal Processor), NPU (Neural Processing Unit), 하드웨어 가속기 또는 머신 러닝 가속기 중 하나 이상을 포함할 수 있다. 하나 이상의 프로세서(140)는 전자 장치의 다른 구성요소 중 하나 또는 임의의 조합을 제어할 수 있으며, 통신에 관한 동작 또는 데이터 처리를 수행할 수 있다. 하나 이상의 프로세서(140)는 메모리에 저장된 하나 이상의 프로그램 또는 명령어(instruction)을 실행할 수 있다. 예를 들어, 하나 이상의 프로세서(140)는 메모리에 저장된 하나 이상의 명령어를 실행함으로써, 본 개시의 일 실시 예에 따른 방법을 수행할 수 있다.

본 개시의 일 실시 예에 따른 방법이 복수의 동작을 포함하는 경우, 복수의 동작은 하나의 프로세서에 의해 수행될 수도 있고, 복수의 프로세서에 의해 수행될 수도 있다. 예를 들어, 일 실시 예에 따른 방법에 의해 제 1 동작, 제 2 동작, 제 3 동작이 수행될 때, 제 1 동작, 제 2 동작, 및 제 3 동작 모두 제 1 프로세서에 의해 수행될 수도 있고, 제 1 동작 및 제 2 동작은 제 1 프로세서(예를 들어, 범용 프로세서)에 의해 수행되고 제 3 동작은 제 2 프로세서(예를 들어, 인공지능 전용 프로세서)에 의해 수행될 수도 있다.

하나 이상의 프로세서(140)는 하나의 코어를 포함하는 단일 코어 프로세서(single core processor)로 구현될 수도 있고, 복수의 코어(예를 들어, 동종 멀티 코어 또는 이종 멀티 코어)를 포함하는 하나 이상의 멀티 코어 프로세서(multicore processor)로 구현될 수도 있다. 하나 이상의 프로세서(140)가 멀티 코어 프로세서로 구현되는 경우, 멀티 코어 프로세서에 포함된 복수의 코어 각각은 캐시 메모리, 온 칩(On-chip) 메모리와 같은 프로세서 내부 메모리를 포함할 수 있으며, 복수의 코어에 의해 공유되는 공통 캐시가 멀티 코어 프로세서에 포함될 수 있다. 또한, 멀티 코어 프로세서에 포함된 복수의 코어 각각(또는 복수의 코어 중 일부)은 독립적으로 본 개시의 일 실시 예에 따른 방법을 구현하기 위한 프로그램 명령을 판독하여 수행할 수도 있고, 복수의 코어 전체(또는 일부)가 연계되어 본 개시의 일 실시 예에 따른 방법을 구현하기 위한 프로그램 명령을 판독하여 수행할 수도 있다.

본 개시의 일 실시 예에 따른 방법이 복수의 동작을 포함하는 경우, 복수의 동작은 멀티 코어 프로세서에 포함된 복수의 코어 중 하나의 코어에 의해 수행될 수도 있고, 복수의 코어에 의해 수행될 수도 있다. 예를 들어, 일 실시 예에 따른 방법에 의해 제 1 동작, 제 2 동작, 및 제 3 동작이 수행될 때, 제 1 동작, 제2 동작, 및 제3 동작 모두 멀티 코어 프로세서에 포함된 제 1 코어에 의해 수행될 수도 있고, 제 1 동작 및 제 2 동작은 멀티 코어 프로세서에 포함된 제 1 코어에 의해 수행되고 제 3 동작은 멀티 코어 프로세서에 포함된 제 2 코어에 의해 수행될 수도 있다.

본 개시의 실시 예들에서, 프로세서는 하나 이상의 프로세서 및 기타 전자 부품들이 집적된 시스템 온 칩(SoC), 단일 코어 프로세서, 멀티 코어 프로세서, 또는 단일 코어 프로세서 또는 멀티 코어 프로세서에 포함된 코어를 의미할 수 있으며, 여기서 코어는 CPU, GPU, APU, MIC, DSP, NPU, 하드웨어 가속기 또는 기계 학습 가속기 등으로 구현될 수 있으나, 본 개시의 실시 예들이 이에 한정되는 것은 아니다.

특히, 하나 이상의 프로세서(140)는 제1 센서(110)를 통해 획득된 제1 이미지를 제1 신경망 모델에 입력하여 제1 이미지에 대응되는 제1 특징(Feature) 맵을 획득하고, 제2 센서(120)를 통해 획득된 제2 이미지를 제2 신경망 모델에 입력하여 제2 이미지에 대응되는 제2 특징 맵을 획득할 수 있다.

일 예에 따른 하나 이상의 프로세서(140)는 제1 특징 맵 및 제2 특징 맵을 병합(또는, 융합)하여 제3 이미지를 획득할 수 있다. 일 예에 따라 제3 이미지는, 제1 특징 맵과 제2 특징 맵이 융합된 이미지(fused image)일 수 있다.

하나 이상의 프로세서(140)는 제3 이미지에 기초하여 그립 대상 객체를 식별하고, 그립 대상 객체를 파지하기 위한 그리퍼(130)의 이동 정보를 획득할 수 있다. 여기서, 그리퍼(130)의 이동 정보는, 그리퍼(130)의 이동 방향, 이동 거리 및 회전 각도(예를 들어, 그립 대상 객체의 형태 정보에 따른 그리퍼(130)의 그립 포즈)를 포함할 수 있다.

도 3을 참조하면, 하나 이상의 프로세서(140)는 제1 센서(110)를 통해 획득된 제1 이미지(1)를 제1 신경망 모델(10)에 입력하여 제1 이미지(1)에 대응되는 제1 특징(Feature) 맵(1')을 획득할 수 있다.

일 예에 따른 제1 신경망 모델(10)는 샘플 이미지에 포함된 RGB 정보에 기초하여 샘플 이미지 내의 객체에 따른 RGB 특징 정보를 출력하도록 학습된 모델일 수 있다.

일 예에 따른 하나 이상의 프로세서(140)는 제2 센서(120)를 통해 획득된 제2 이미지(2)를 제2 신경망 모델(20)에 입력하여 제2 이미지(2)에 대응되는 제2 특징 맵(2')을 획득할 수 있다.

일 예에 따른 제2 신경망 모델(20)은 샘플 이미지에 포함된 뎁스 정보에 기초하여 샘플 이미지 내의 객체에 따른 뎁스 특징 정보를 출력하도록 학습된 모델일 수 있다.

본 개시에 따른 인공지능과 관련된 기능은 전자 장치(100)의 하나 이상의 프로세서(140)와 메모리를 통해 동작된다.

하나 이상의 프로세서(140)는 CPU(Central Processing Unit), GPU(Graphic Processing Unit), NPU(Neural Processing Unit) 중 적어도 하나를 포함할 수 있으나 전술한 프로세서의 예시에 한정되지 않는다.

CPU는 일반 연산뿐만 아니라 인공지능 연산을 수행할 수 있는 범용 프로세서로서, 다계층 캐시(Cache) 구조를 통해 복잡한 프로그램을 효율적으로 실행할 수 있다. CPU는 순차적인 계산을 통해 이전 계산 결과와 다음 계산 결과의 유기적인 연계가 가능하도록 하는 직렬 처리 방식에 유리하다. 범용 프로세서는 전술한 CPU로 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.

GPU는 그래픽 처리에 이용되는 부동 소수점 연산 등과 같은 대량 연산을 위한 프로세서로서, 코어를 대량으로 집적하여 대규모 연산을 병렬로 수행할 수 있다. 특히, GPU는 CPU에 비해 컨볼루션(Convolution) 연산 등과 같은 병렬 처리 방식에 유리할 수 있다. 또한, GPU는 CPU의 기능을 보완하기 위한 보조 프로세서(co-processor)로 이용될 수 있다. 대량 연산을 위한 프로세서는 전술한 GPU로 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.

NPU는 인공 신경망을 이용한 인공지능 연산에 특화된 프로세서로서, 인공 신경망을 구성하는 각 레이어를 하드웨어(예로, 실리콘)로 구현할 수 있다. 이때, NPU는 업체의 요구 사양에 따라 특화되어 설계되므로, CPU나 GPU에 비해 자유도가 낮으나, 업체가 요구하기 위한 인공지능 연산을 효율적으로 처리할 수 있다. 한편, 인공지능 연산에 특화된 프로세서로, NPU 는 TPU(Tensor Processing Unit), IPU(Intelligence Processing Unit), VPU(Vision processing unit) 등과 같은 다양한 형태로 구현 될 수 있다. 인공 지능 프로세서는 전술한 NPU로 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.

또한, 하나 이상의 프로세서(140)는 SoC(System on Chip)으로 구현될 수 있다. 이때, SoC에는 하나 이상의 프로세서(140) 이외에 메모리, 및 프로세서와 메모리 사이의 데이터 통신을 위한 버스(Bus)등과 같은 네트워크 인터페이스를 더 포함할 수 있다.

전자 장치(100)에 포함된 SoC(System on Chip)에 복수의 프로세서가 포함된 경우, 전자 장치(100)는 복수의 프로세서 중 일부 프로세서를 이용하여 인공지능과 관련된 연산(예를 들어, 인공지능 모델의 학습(learning)이나 추론(inference)에 관련된 연산)을 수행할 수 있다. 예를 들어, 전자 장치(100)는 복수의 프로세서 중 컨볼루션 연산, 행렬 곱 연산 등과 같은 인공지능 연산에 특화된 GPU, NPU, VPU, TPU, 하드웨어 가속기 중 적어도 하나를 이용하여 인공지능과 관련된 연산을 수행할 수 있다. 다만, 이는 일 실시예에 불과할 뿐, CPU 등과 범용 프로세서를 이용하여 인공지능과 관련된 연산을 처리할 수 있음은 물론이다.

또한, 전자 장치(100)는 하나의 프로세서에 포함된 멀티 코어(예를 들어, 듀얼 코어, 쿼드 코어 등)를 이용하여 인공지능과 관련된 기능에 대한 연산을 수행할 수 있다. 특히, 전자 장치(100)는 프로세서에 포함된 멀티 코어를 이용하여 병렬적으로 컨볼루션 연산, 행렬 곱 연산 등과 같은 인공 지능 연산을 수행할 수 있다.

하나 이상의 프로세서(140)는, 메모리에 저장된 기정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 기정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다.

여기서, 학습을 통해 만들어진다는 것은, 다수의 학습 데이터들에 학습 알고리즘을 적용함으로써, 원하는 특성의 기정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버/시스템을 통해 이루어 질 수도 있다.

인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 적어도 하나의 레이어는 적어도 하나의 가중치(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 적어도 하나의 정의된 연산을 통해 레이어의 연산을 수행한다. 신경망의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 및 심층 Q-네트워크 (Deep Q-Networks), Transformer가 있으며, 본 개시에서의 신경망은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.

학습 알고리즘은, 다수의 학습 데이터들을 이용하여 소정의 대상 기기(예컨대, 로봇)을 훈련시켜 소정의 대상 기기 스스로 결정을 내리거나 예측을 할 수 있도록 하는 방법이다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으며, 본 개시에서의 학습 알고리즘은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.

도 4를 참조하면, 일 예에 따른 하나 이상의 프로세서(140)는 제1 이미지(1)를 제1 신경망 모델(10)에 입력하여 제1 이미지(1)에 대응되는 제1 특징 맵(1')을 획득할 수 있다.

예를 들어, 하나 이상의 프로세서(140)는 RGB 정보를 포함하는 제1 이미지(1)를 ResNet-50과 Feature Pyramid Network (FPN) 기반의 제1 신경망 모델(10)에 입력할 수 있다. 일 예로, 제1 신경망 모델(10)은 RGB 특징 정보를 포함하는 제1 특징 맵(1')을 출력할 수 있다.

일 예로, 하나 이상의 프로세서(140)는 제2 이미지(2)를 제2 신경망 모델(20)에 입력하여 제2 이미지(2)에 대응되는 제2 특징 맵(2')을 획득할 수 있다.

예를 들어, 하나 이상의 프로세서(140)는 뎁스 정보를 포함하는 제2 이미지(2)를 PointNet++의 set abstraction 및 feature propagation layers 기반의 제2 신경망 모델(20)에 입력할 수 있다. 일 예로, 제2 신경망 모델(20)은 뎁스 특징 정보를 포함하는 제2 특징 맵(2')을 출력할 수 있다.

일 예에 따른 하나 이상의 프로세서(140)는 제2 이미지(2)가 수신되면, 제2 이미지(2)를 전처리(pre-processing)하고, 전처리된 제2 이미지를 제2 신경망 모델(20)에 입력할 수 있다.

여기서, 전처리된 제2 이미지는, 그립 대상 객체에 대한 포인트 클라우드 정보를 포함할 수 있다. 포인트 클라우드 정보는, 그립 대상 객체(예를 들어, 3차원 객체)를 복수의 포인트들의 집합체로 가정하여 그립 대상 객체를 나타낸 정보를 의미할 수 있다.

일 예에 따라, 하나 이상의 프로세서(140)는 제2 이미지(2) 내의 이미지 공간에 균일한 그리드 샘플링(uniform grid sampling)을 적용하여 포인트 클라우드 정보를 획득할 수 있다. 일 예로, 하나 이상의 프로세서(140)는 포인트 클라우드 정보를 제2 신경망 모델(20)에 입력하므로 입력 크기를 감소시켜 계산 부하를 감소시킬 수 있다.

하나 이상의 프로세서(140)는 제1 특징 맵(1') 및 제2 특징 맵(2')을 병합하여 제3 이미지(3)를 획득할 수 있다.

일 예로, 하나 이상의 프로세서(140)는 제1 특징 맵(1')에 포함된 RGB 특징 정보와, 제2 특징 맵(2')에 포함된 뎁스 특징 정보를 활용하기 위해, 채널 방향(channel direction)으로 RGB 특징 정보와 뎁스 특징 정보를 연결(concatenate)하여 융합된 특징(fused feature)를 포함하는 제3 이미지(3)를 획득할 수 있다.

하나 이상의 프로세서(140)는 제3 이미지(3)를 제3 신경망 모델(30)에 입력하여, 그리퍼(130)가 그립 대상 객체를 파지하도록 제어하기 위한 그리퍼(130)의 이동 정보를 획득할 수 있다.

일 예에 따른 하나 이상의 프로세서(140)는 제3 이미지(3)를 MLP(Multi-Layer Perceptron) 기반의 제3 신경망 모델(30)에 입력하여 그리퍼(130)의 이동 정보를 획득할 수 있다.

일 예에 따라 제3 신경망 모델(30)은 그립 대상 객체의 파지 가능 여부를 예측하기 위해 파지 확률(또는, 0 내지 1의 그랩 점수(grasp score))을 출력하도록 학습된 모델일 수 있다.

일 예에 따라 제3 신경망 모델(30)은, 제3 이미지에 포함된 그립 대상 객체의 형태 정보에 기초하여 그리퍼(130)의 이동 방향, 이동 거리 및 회전 각도 중 적어도 하나를 포함하는 이동 정보를 출력할 수 있다.

일 예로, 제3 신경망 모델(30)은, 이동 거리를 추론하기 위한 이동 거리 헤드(Head), 그립 대상 객체를 파지하기 위한 그리퍼(130)의 이동 방향 헤드(또는, 접근 방향 헤드(Approach Direction Head))와 회전 각도(이하, 그립 대상 객체에 대한 측면 방향)를 추론하기 위한 측면 방향 헤드(Lateral Direction Head)를 포함할 수 있다.

일 예에 따라 이동 거리 헤드는, 그리퍼(130)를 그립 대상 객체에 인접하게 이동시키기 위한 그리퍼(130)의 이동 거리, 그립 대상 객체를 파지하기 위한 그리퍼(130)의 그립 폭(Grip width)를 출력할 수 있다.

일 예에 따라 하나 이상의 프로세서(140)는 이동 방향 및 이동 거리에 따라 그리퍼(130)를 그립 대상 객체에 인접하기 위치시킬 수 있다.

하나 이상의 프로세서(140)는 회전 각도에 따라 그립 대상 객체에 대한 측면 방향을 식별하고, 식별된 측면 방향으로 그립 대상 객체를 파지하도록 그리퍼(130)를 제어할 수 있다. 여기서, 그립 대상 객체에 대한 측면 방향은, 그립 대상 객체를 적절히 파지하기 위한 그립 포즈(grasp pose)를 포함할 수 있다.

도 5를 참조하면, 제3 신경망 모델(30)은 그립 대상 객체의 형태 정보에 기초하여 그리퍼(130)가 그립 대상 객체를 파지하기 위한 그리퍼(130)의 복수의 이동 정보를 획득할 수 있다.

제3 신경망 모델(30)은 복수의 이동 정보 각각에 대응되는 신뢰도를 획득하고, 가장 높은 신뢰도를 가지는 이동 정보를 출력할 수 있다.

일 에에 따라 제3 신경망 모델(30)은 그립 대상 객체를 파지하기 위한 그리퍼(130)의 이동 정보를 출력하도록 학습된 이동 거리 헤드(Head), 접근 방향 헤드(Approach Direction Head) 및 측면 방향 헤드(Lateral Direction Head)를 포함하며, 그립 대상 객체를 파지하는 동안에 다른 객체와 충돌하는지 여부를 추론하기 위한 충돌 헤드(Collision Head)를 포함할 수 있다.

일 실시 예에 따른 제3 신경망 모델(30)은 이동 거리 헤드(Head), 접근 방향 헤드(Approach Direction Head) 및 측면 방향 헤드(Lateral Direction Head) 각각의 출력에 적합한 손실 함수(Loss functions)을 이용하여 학습된 모델일 수 있다.

일 예로, 제3 신경망 모델(30)은 이진 교차-엔트로피 손실 함수(binary cross-entropy loss function)를 이용한 헤드의 예측 값과 실제 값(Ground truth) 간의 회귀-분류 작업(regression-classification task)이 학습된 모델일 수 있다.

일 예로, 제3 신경망 모델(30)은 제3 이미지(3) 내 모든 픽셀에 대해 이진 교차-엔트로피 손실 함수의 출력 값을 획득하고, 그립 대상 객체를 파지 가능한 포인트를 식별할 수 있다.

일 예에 따라, 제3 신경망 모델(30)은, 그립 대상 객체를 파지 가능한 포인트들의 집합체인 포인트 클라우드를 식별할 수 있다.

일 실시 예에 따라, 제3 신경망 모델(30)은, 회귀 손실 함수(regression loss function)를 이용하여 회귀 작업이 훈련된 모델일 수 있다. 일 예로, 회귀 손실 함수는, 평균 절대 오차(mean absolute error)를 포함할 수 있다. 일 예로, 제3 신경망 모델(30)은 파지 가능한 포인트들에 대해 평균 절대 오차를 이용하여 회귀 손실 함수를 정의할 수 있다.

일 실시 예에 따라 제3 신경망 모델(30)은 복수의 이동 정보를 출력하며, 복수의 이동 정보 각각에 따른 그립 대상 객체의 파지 확률 및 다른 객체와의 충돌 확률 등을 고려한 신뢰도를 획득할 수 있다.

일 예로, 제3 신경망 모델(30)은 복수의 신뢰도 중 가장 높은 신뢰도를 가지는 이동 정보를 출력하며, 하나 이상의 프로세서(130)는 제3 신경망 모델(30)이 출력한 이동 정보에 기초하여 그립 대상 객체에 인접하게 위치하며, 그립 대상 객체를 파지할 수 있다.

도 6을 참조하면, 일 예에 따른 하나 이상의 프로세서(140)는 그립 대상 객체를 파지하도록 그리퍼(130)를 제어하며, 그리퍼(130)가 그립 대상 객체를 파지하면, 그립 대상 객체를 다른 위치로 이동시킬 수 있다.

도 6을 참조하면, 일 예에 따른 하나 이상의 프로세서(140)는 제1 특성이 강화된 제1 특징 맵(1')과 제2 특성이 강화된 제2 특징 맵(2')을 융합한 제3 이미지(3)에 기초하여 그립 대상 객체를 식별하고, 그립 대상 객체를 파지하기 위한 그리퍼(130)의 이동 정보를 획득하므로, 테이블 상의 접시(plate)처럼 형태가 평평(flat)하거나, 나이프(knife)처럼 뎁스(depth) 특징 정보를 획득하기 어려운 경우에도, 그립 대상 객체에 대한 파지 성공률이 증가할 수 있다.

일 예에 따라, 하나 이상의 프로세서(140)는 제1 특성이 강화된 제1 특징 맵(1')과 제2 특성이 강화된 제2 특징 맵(2')을 융합한 제3 이미지(3)에 기초하여 그립 대상 객체를 파지하기 위한 그리퍼(130)의 이동 정보를 획득하므로, 제1 특성을 획득하기 어려운 경우(예를 들어, 주변 환경이 어두운 경우)에도 그립 대상 객체에 대한 파지 성공률이 감소하지 않을 수 있다.

종래의 로봇과 비교하면, 본 개시에 따른 전자 장치(100)의 파지 성공률은 다음 표 1과 같다.

방법 (Methods)	종래 로봇 A	종래 로봇 B	전자 장치
성공 확률	45.2%	56.7%	71.3%
클리어런스 확률	55.5%	51.5%	97.5%
Bottle	24/25(성공횟수/시도횟수)	24/25	22/25
Container	24/25	18/25	25/25
Bowl	20/25	24/25	25/25
Cup	24/25	20/25	23/25
Plate	10/25	10/25	25/25
Spoon	5/25	5/25	25/25
Fork	4/25	2/25	25/25
Knife	0/25	0/25	25/25

일 예로, 종래 로봇 A 및 B는 제1 특징 정보를 포함하는 제1 이미지(1)를 제1 신경망 모델(10)에 입력하고, 제2 특징 정보를 포함하는 제2 이미지(2)를 제2 신경망 모델(20)에 입력하여 제1 특징 맵(1') 및 제2 특징 맵(2')을 획득하지 않으며, 제1 특징 맵(1') 및 제2 특징 맵(2')을 융합한 제3 이미지(3)를 이용하여 그립 대상 객체를 파지 하지 않으므로, 종래 로봇 A 및 B는 본 개시의 일 예에 따른 전자 장치(100)의 파지 성공 확률 보다 낮은 성공 확률로 그립 대상 객체를 파지할 수 있다.본 개시의 일 예에 따른 하나 이상의 프로세서(140)는 실시간 또는 기 설정된 간격으로 제1 센서(110)로부터 업데이트된 제1 이미지(1)를 획득하고, 제2 센서(120)로부터 업데이트된 제2 이미지(2)를 획득할 수 있다.

일 예에 따른 하나 이상의 프로세서(140)는 업데이트된 제1 이미지(1)를 제1 신경망 모델(10)에 입력하여 업데이트된 제1 특징 맵(1')을 획득하고, 업데이트된 제2 이미지(2)를 제2 신경망 모델(20)에 입력하여 업데이트된 제2 특징 맵(2')을 획득할 수 있다.

일 예에 따른 하나 이상의 프로세서(140)는 업데이트된 제1 특징 맵(1') 및 업데이트된 제2 특징 맵(2')을 병합하여 업데이트된 제3 이미지(3)를 획득할 수 있다.

일 예에 따른 하나 이상의 프로세서(140)는 업데이트된 제3 이미지(3)에 기초하여 그리퍼(130)가 그립 대상 객체를 파지하도록 제어하기 위한 그리퍼(130)의 이동 정보를 업데이트하고, 업데이트된 이동 정보에 기초하여 그리퍼(130)를 제어할 수 있다.

그리퍼(Gripper)를 포함하는 전자 장치의 제어 방법에 있어서, 제1 센서를 통해 획득된 제1 이미지를 제1 신경망 모델에 입력하여 제1 이미지에 대응되는 제1 특징(feature) 맵을 획득한다(S710).

제어 방법은, 제2 센서를 통해 획득된 제2 이미지를 제2 신경망 모델에 입력하여 제2 이미지에 대응되는 제2 특징 맵을 획득한다(S720).

제어 방법은, 제1 특징 맵 및 제2 특징 맵을 병합하여 제3 이미지를 획득한다(S730).

제어 방법은, 제3 이미지에 기초하여 그립 대상 객체를 식별한다(S740).

제어 방법은, 그립 대상 객체를 파지하도록 그리퍼를 제어한다(S750).

일 예에 따른 상기 제1 센서는, RGB 센서이고, 상기 제1 특징 맵을 획득하는 S710 단계는, 상기 RGB 센서를 통해 RGB 정보를 포함하는 상기 제1 이미지가 수신되면, 상기 제1 이미지를 상기 제1 신경망 모델에 입력하는 단계를 포함하고, 상기 제1 신경망 모델로부터 획득된 상기 제1 특징 맵은, 상기 그립 대상 객체에 대한 RGB 특징 정보를 포함할 수 있다.

일 예에 따른 상기 제2 센서는, 뎁스(Depth) 센서이고, 상기 제2 특징 맵을 획득하는 S720 단계는, 상기 뎁스 센서를 통해 뎁스 정보를 포함하는 상기 제2 이미지가 수신되면, 상기 제2 이미지를 상기 제2 신경망 모델에 입력하는 단계를 포함하고, 상기 제2 신경망 모델로부터 획득된 상기 제2 특징 맵은, 상기 그립 대상 객체에 대한 뎁스 특징 정보를 포함할 수 있다.

상기 제2 특징 맵을 획득하는 S720 단계는, 상기 제2 이미지가 수신되면, 상기 제2 이미지를 전처리(pre-processing)하는 단계 및 상기 전처리된 제2 이미지를 상기 제2 신경망 모델에 입력하는 단계를 포함하고, 상기 전처리된 제2 이미지는, 상기 그립 대상 객체에 대한 포인트 클라우드 정보를 포함할 수 있다.

일 예에 따른 상기 그립 대상 객체를 식별하는 S740 단계는, 상기 제3 이미지를 제3 신경망 모델에 입력하여 상기 그리퍼가 상기 그립 대상 객체를 파지하도록 제어하기 위한 상기 그리퍼의 이동 정보를 획득하는 단계를 포함하고, 상기 제3 신경망 모델은, 상기 제3 이미지에 포함된 상기 그립 대상 객체의 형태 정보에 기초하여 상기 그리퍼의 이동 방향, 이동 거리 및 회전 각도 중 적어도 하나를 포함하는 상기 이동 정보를 출력할 수 있다.

일 예에 따른 상기 그리퍼를 제어하는 S750 단계는, 상기 이동 방향 및 상기 이동 거리에 따라 상기 그리퍼를 상기 그립 대상 객체에 인접하게 위치시키는 단계, 상기 회전 각도에 따라 상기 그립 대상 객체에 대한 측면 방향을 식별하는 단계 및 상기 식별된 측면 방향으로 상기 그립 대상 객체를 파지하도록 상기 그리퍼를 제어하는 단계를 포함할 수 있다.

일 예에 따른 상기 제3 신경망 모델은, 상기 형태 정보에 기초하여, 상기 그리퍼가 상기 그립 대상 객체를 파지하기 위한 상기 그리퍼의 복수의 이동 정보를 획득하고, 상기 복수의 이동 정보 각각에 대응되는 신뢰도를 획득하고, 가장 높은 신뢰도를 가지는 이동 정보를 출력하며, 상기 신뢰도는, 상기 그리퍼의 상기 그립 대상 객체의 파지 확률을 포함할 수 있다.

일 예에 따른 제어 방법은, 실시간 또는 기 설정된 시간 간격으로 상기 제1 센서로부터 업데이트된 제1 이미지를 획득하고, 상기 제2 센서로부터 업데이트된 제2 이미지를 획득하는 단계, 상기 업데이트된 제1 이미지를 상기 제1 신경망 모델에 입력하여 업데이트된 제1 특징 맵을 획득하는 단계, 상기 업데이트된 제2 이미지를 상기 제2 신경망 모델에 입력하여 업데이트된 제2 특징 맵을 획득하는 단계, 상기 업데이트된 제1 특징 맵 및 상기 업데이트된 제2 특징 맵을 병합하여 업데이트된 제3 이미지를 획득하는 단계, 상기 업데이트된 제3 이미지에 기초하여 상기 그리퍼가 상기 그립 대상 객체를 파지하도록 제어하기 위한 상기 그리퍼의 이동 정보를 업데이트하는 단계 및 상기 업데이트된 이동 정보에 기초하여 상기 그리퍼를 제어하는 단계를 더 포함할 수 있다.

일 예에 따른 상기 제1 이미지 및 상기 제2 이미지 각각은, 상기 그리퍼의 적어도 일부 및 상기 그립 대상 객체를 포함하는 이미지일 수 있다.

일 예에 따른 상기 그리퍼를 제어하는 S750 단계는, 상기 그리퍼를 6자유도(6 Degrees of Freedom)로 제어하는 단계를 포함할 수 있다.

다만, 본 개시의 다양한 실시 예들은 전자 장치 뿐 아니라, 모든 유형의 로봇 장치에 적용될 수 있음은 물론이다.

한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시 예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.

한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치의 프로세싱 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치(100)에서의 처리 동작을 특정 기기가 수행하도록 한다.

비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

제1 센서;

제2 센서;

그리퍼(gripper);

상기 제1 센서를 통해 획득된 제1 이미지를 제1 신경망 모델에 입력하여 상기 제1 이미지에 대응되는 제1 특징(feature) 맵을 획득하고,

상기 제2 센서를 통해 획득된 제2 이미지를 제2 신경망 모델에 입력하여 상기 제2 이미지에 대응되는 제2 특징 맵을 획득하고,

상기 제1 특징 맵 및 상기 제2 특징 맵을 병합하여 제3 이미지를 획득하고,

상기 제3 이미지에 기초하여 그립 대상 객체를 식별하고,

상기 그립 대상 객체를 파지하도록 상기 그리퍼를 제어하는 하나 이상의 프로세서;를 포함하는 전자 장치.
제1항에 있어서,

상기 제1 센서는,

RGB 센서이고,

상기 하나 이상의 프로세서는,

상기 RGB 센서를 통해 RGB 정보를 포함하는 상기 제1 이미지가 수신되면, 상기 제1 이미지를 상기 제1 신경망 모델에 입력하고,

상기 제1 신경망 모델로부터 획득된 상기 제1 특징 맵은, 상기 그립 대상 객체에 대한 RGB 특징 정보를 포함하는, 전자 장치.
제1항에 있어서,

상기 제2 센서는,

뎁스(Depth) 센서이고,

상기 하나 이상의 프로세서는,

상기 뎁스 센서를 통해 뎁스 정보를 포함하는 상기 제2 이미지가 수신되면, 상기 제2 이미지를 상기 제2 신경망 모델에 입력하고,

상기 제2 신경망 모델로부터 획득된 상기 제2 특징 맵은, 상기 그립 대상 객체에 대한 뎁스 특징 정보를 포함하는, 전자 장치.
제3항에 있어서,

상기 하나 이상의 프로세서는,

상기 제2 이미지가 수신되면, 상기 제2 이미지를 전처리(pre-processing)하고, 상기 전처리된 제2 이미지를 상기 제2 신경망 모델에 입력하며,

상기 전처리된 제2 이미지는, 상기 그립 대상 객체에 대한 포인트 클라우드 정보를 포함하는, 전자 장치.
제1항에 있어서,

상기 하나 이상의 프로세서는,

상기 제3 이미지를 제3 신경망 모델에 입력하여 상기 그리퍼가 상기 그립 대상 객체를 파지하도록 제어하기 위한 상기 그리퍼의 이동 정보를 획득하고,

상기 제3 신경망 모델은,

상기 제3 이미지에 포함된 상기 그립 대상 객체의 형태 정보에 기초하여 상기 그리퍼의 이동 방향, 이동 거리 및 회전 각도 중 적어도 하나를 포함하는 상기 이동 정보를 출력하는, 전자 장치.
제5항에 있어서,

상기 하나 이상의 프로세서는,

상기 이동 방향 및 상기 이동 거리에 따라 상기 그리퍼를 상기 그립 대상 객체에 인접하게 위치시키며,

상기 회전 각도에 따라 상기 그립 대상 객체에 대한 측면 방향을 식별하고,

상기 식별된 측면 방향으로 상기 그립 대상 객체를 파지하도록 상기 그리퍼를 제어하는, 전자 장치.
제5항에 있어서,

상기 제3 신경망 모델은,

상기 형태 정보에 기초하여, 상기 그리퍼가 상기 그립 대상 객체를 파지하기 위한 상기 그리퍼의 복수의 이동 정보를 획득하고,

상기 복수의 이동 정보 각각에 대응되는 신뢰도를 획득하고,

가장 높은 신뢰도를 가지는 이동 정보를 출력하며,

상기 신뢰도는,

상기 그리퍼의 상기 그립 대상 객체의 파지 확률을 포함하는, 전자 장치.
제1항에 있어서,

상기 하나 이상의 프로세서는,

실시간 또는 기 설정된 시간 간격으로 상기 제1 센서로부터 업데이트된 제1 이미지를 획득하고, 상기 제2 센서로부터 업데이트된 제2 이미지를 획득하고,

상기 업데이트된 제1 이미지를 상기 제1 신경망 모델에 입력하여 업데이트된 제1 특징 맵을 획득하고,

상기 업데이트된 제2 이미지를 상기 제2 신경망 모델에 입력하여 업데이트된 제2 특징 맵을 획득하고,

상기 업데이트된 제1 특징 맵 및 상기 업데이트된 제2 특징 맵을 병합하여 업데이트된 제3 이미지를 획득하고,

상기 업데이트된 제3 이미지에 기초하여 상기 그리퍼가 상기 그립 대상 객체를 파지하도록 제어하기 위한 상기 그리퍼의 이동 정보를 업데이트하고,

상기 업데이트된 이동 정보에 기초하여 상기 그리퍼를 제어하는, 전자 장치.
제1항에 있어서,

상기 제1 이미지 및 상기 제2 이미지 각각은,

상기 그리퍼의 적어도 일부 및 상기 그립 대상 객체를 포함하는 이미지인, 전자 장치.
제1항에 있어서,

상기 하나 이상의 프로세서는,

상기 그리퍼를 6자유도(6 Degrees of Freedom)로 제어하는, 전자 장치.
그리퍼(Gripper)를 포함하는 전자 장치의 제어 방법에 있어서,

제1 센서를 통해 획득된 제1 이미지를 제1 신경망 모델에 입력하여 상기 제1 이미지에 대응되는 제1 특징(feature) 맵을 획득하는 단계;

제2 센서를 통해 획득된 제2 이미지를 제2 신경망 모델에 입력하여 제2 이미지에 대응되는 제2 특징 맵을 획득하는 단계;

상기 제1 특징 맵 및 상기 제2 특징 맵을 병합하여 제3 이미지를 획득하는 단계;

상기 제3 이미지에 기초하여 그립 대상 객체를 식별하는 단계; 및

상기 그립 대상 객체를 파지하도록 상기 그리퍼를 제어하는 단계;를 포함하는 제어 방법.
제11항에 있어서,

상기 제1 센서는,

RGB 센서이고,

상기 제1 특징 맵을 획득하는 단계는,

상기 RGB 센서를 통해 RGB 정보를 포함하는 상기 제1 이미지가 수신되면, 상기 제1 이미지를 상기 제1 신경망 모델에 입력하는 단계;를 포함하고,

상기 제1 신경망 모델로부터 획득된 상기 제1 특징 맵은, 상기 그립 대상 객체에 대한 RGB 특징 정보를 포함하는, 제어 방법.
제11항에 있어서,

상기 제2 센서는,

뎁스(Depth) 센서이고,

상기 제2 특징 맵을 획득하는 단계는,

상기 뎁스 센서를 통해 뎁스 정보를 포함하는 상기 제2 이미지가 수신되면, 상기 제2 이미지를 상기 제2 신경망 모델에 입력하는 단계;를 포함하고,

상기 제2 신경망 모델로부터 획득된 상기 제2 특징 맵은, 상기 그립 대상 객체에 대한 뎁스 특징 정보를 포함하는, 제어 방법.
제13항에 있어서,

상기 제2 특징 맵을 획득하는 단계는,

상기 제2 이미지가 수신되면, 상기 제2 이미지를 전처리(pre-processing)하는 단계; 및

상기 전처리된 제2 이미지를 상기 제2 신경망 모델에 입력하는 단계;를 포함하고,

상기 전처리된 제2 이미지는, 상기 그립 대상 객체에 대한 포인트 클라우드 정보를 포함하는, 제어 방법.
제11항에 있어서,

상기 그립 대상 객체를 식별하는 단계는,

상기 제3 이미지를 제3 신경망 모델에 입력하여 상기 그리퍼가 상기 그립 대상 객체를 파지하도록 제어하기 위한 상기 그리퍼의 이동 정보를 획득하는 단계;를 포함하고,

상기 제3 신경망 모델은,

상기 제3 이미지에 포함된 상기 그립 대상 객체의 형태 정보에 기초하여 상기 그리퍼의 이동 방향, 이동 거리 및 회전 각도 중 적어도 하나를 포함하는 상기 이동 정보를 출력하는, 제어 방법.