WO2024181702A1 - 그립 대상 객체를 파지하기 위한 그리퍼를 포함하는 전자 장치 및 그 제어 방법 - Google Patents

그립 대상 객체를 파지하기 위한 그리퍼를 포함하는 전자 장치 및 그 제어 방법 Download PDF

Info

Publication number
WO2024181702A1
WO2024181702A1 PCT/KR2024/001660 KR2024001660W WO2024181702A1 WO 2024181702 A1 WO2024181702 A1 WO 2024181702A1 KR 2024001660 W KR2024001660 W KR 2024001660W WO 2024181702 A1 WO2024181702 A1 WO 2024181702A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
target object
gripper
neural network
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/KR2024/001660
Other languages
English (en)
French (fr)
Inventor
윤재민
안준모
정락준
하창수
한흥우
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020230094078A external-priority patent/KR20240133506A/ko
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of WO2024181702A1 publication Critical patent/WO2024181702A1/ko
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Program-controlled manipulators
    • B25J9/02Program-controlled manipulators characterised by movement of the arms, e.g. cartesian coordinate type
    • B25J9/04Program-controlled manipulators characterised by movement of the arms, e.g. cartesian coordinate type by rotating at least one arm, excluding the head movement itself, e.g. cylindrical coordinate type or polar coordinate type
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Program-controlled manipulators
    • B25J9/16Program controls
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the present invention relates to an electronic device and a method for controlling the same, and more particularly, to an electronic device including a gripper and a method for controlling the same.
  • robots for various purposes are being deployed in factories and homes, and these robots can perform actions such as grasping external objects and moving them from one location to another or transporting them.
  • industrial robots deployed in factories can pick up objects that are difficult for humans to pick up and transport them to specific locations, or perform assembly.
  • robots deployed in homes can perform indoor cleaning, such as transporting foreign substances, or move objects that are difficult for humans to pick up or dangerous objects to specific locations.
  • the electronic device includes a first sensor, a second sensor, a gripper, and one or more processors configured to input a first image acquired through the first sensor into a first neural network model to acquire a first feature map corresponding to the first image, input a second image acquired through the second sensor into a second neural network model to acquire a second feature map corresponding to the second image, merge the first feature map and the second feature map to acquire a third image, identify a grip target object based on the third image, and control the gripper to grasp the grip target object.
  • a method for controlling an electronic device including a gripper for achieving the above-described purpose includes the steps of: inputting a first image acquired through a first sensor into a first neural network model to acquire a first feature map corresponding to the first image; inputting a second image acquired through a second sensor into a second neural network model to acquire a second feature map corresponding to the second image; acquiring a third image by merging the first feature map and the second feature map; identifying a grip target object based on the third image; and controlling the gripper to grasp the grip target object.
  • a computer-readable recording medium including a program for executing a control method for an electronic device including a gripper
  • the control method for the electronic device includes a step of inputting a first image acquired through a first sensor into a first neural network model to acquire a first feature map corresponding to the first image, a step of inputting a second image acquired through a second sensor into a second neural network model to acquire a second feature map corresponding to the second image, a step of merging the first feature map and the second feature map to acquire a third image, a step of identifying a grip target object based on the third image, and a step of controlling the gripper to grasp the grip target object.
  • FIG. 1 is a drawing schematically illustrating a gripper and a grip target object according to one embodiment of the present disclosure.
  • FIG. 2 is a block diagram showing the configuration of an electronic device according to an embodiment of the present disclosure.
  • FIG. 3 is a diagram for explaining a first neural network model and a second neural network model according to one embodiment of the present disclosure.
  • FIG. 4 is a diagram for explaining a third neural network model and movement information according to one embodiment of the present disclosure.
  • FIG. 5 is a diagram for explaining reliability according to one embodiment of the present disclosure.
  • FIG. 6 is a drawing for explaining the result of an electronic device moving a grip target object according to an embodiment of the present disclosure.
  • FIG. 7 is a flowchart for explaining a method for controlling an electronic device according to an embodiment of the present disclosure.
  • first, second, etc. may be used to describe various components, but the components should not be limited by the terms. The terms are used only to distinguish one component from another.
  • a “module” or “part” performs at least one function or operation, and may be implemented by hardware or software, or by a combination of hardware and software.
  • a plurality of “modules” or a plurality of “parts” may be integrated into at least one module and implemented by at least one processor (not shown), except for a “module” or “part” that needs to be implemented by a specific hardware.
  • FIG. 1 is a drawing schematically illustrating a gripper and a grip target object according to one embodiment of the present disclosure.
  • an electronic device (100) may be implemented as various types of devices, such as a user terminal device, a display device, a set-top box, a tablet personal computer (PC), a smart phone, an e-book reader, a desktop PC, a laptop PC, a workstation, a server, a personal digital assistant (PDA), a portable multimedia player (PMP), an MP3 player, a kiosk, and the like.
  • a user terminal device such as a user terminal device, a display device, a set-top box, a tablet personal computer (PC), a smart phone, an e-book reader, a desktop PC, a laptop PC, a workstation, a server, a personal digital assistant (PDA), a portable multimedia player (PMP), an MP3 player, a kiosk, and the like.
  • PDA personal digital assistant
  • PMP portable multimedia player
  • MP3 player an MP3 player
  • the electronic device (100) may be implemented as various types of electronic devices, such as a wearable device in the form of at least one of an accessory type (e.g., a watch, a ring, a bracelet, an anklet, a necklace, glasses, a contact lens, or a head-mounted device (HMD)), a fabric or clothing-integrated type (e.g., an electronic garment), a robot including a driving unit, a projector, a server, etc.
  • an accessory type e.g., a watch, a ring, a bracelet, an anklet, a necklace, glasses, a contact lens, or a head-mounted device (HMD)
  • a fabric or clothing-integrated type e.g., an electronic garment
  • a robot including a driving unit, a projector, a server, etc.
  • An electronic device (100) may be implemented as a robot.
  • a robot may mean various types of machines that have the ability to perform work functions on their own.
  • a robot may mean a smart machine that, in addition to simple repetitive functions, detects the surrounding environment in real time based on sensors, cameras, etc., collects information, and operates autonomously.
  • An electronic device (100) may include a gripper capable of grasping or moving an external object, like a human finger.
  • the gripper may also be called a robot hand, a grasper, etc., which is an end portion of a multi-joint robot, but for convenience of explanation, it will be collectively called a gripper hereinafter.
  • the electronic device (100) may be classified into industrial, medical, household, military, and exploration robots depending on the field of use or the functions that can be performed.
  • the industrial robot may be subdivided into a robot used in the product manufacturing process in a factory, a robot that performs customer service, order reception, and serving in a store or restaurant, etc.
  • the electronic device (100) according to an embodiment of the present disclosure may be implemented as a robot that can grip an external object by controlling a gripper provided in the electronic device (100) in various places such as a factory, a hotel, a mart, a hospital, and a clothing store, and then transport the external object to a specific location.
  • the robot may be classified in various ways depending on the field of use, function, and purpose of use, and is of course not limited to the above-described examples.
  • Conventional robots calculate the distance between an external object and a gripper as a specific numerical value based on a depth image or RGB image containing the external object, move the gripper based on the calculated distance, and then grip the external object.
  • conventional robots could position a gripper adjacent to an external object only when the external object was recognized, and could control the gripper to grip the external object.
  • This gripping method has a disadvantage in that it can smoothly grip an external object only when the robot recognizes the external object with relatively high accuracy (or reliability). For example, if the robot calculates the distance between the external object and the gripper relatively accurately within the error range, it can grip the external object only when it properly identifies the grip pose according to the shape of the external object. If the calculated distance exceeds the error range or the grip pose is not appropriate for the shape of the external object, there is a problem in that it cannot grip the external object or it has to grip the external object after several trials and errors.
  • trial and error means that if the robot fails to grasp the external object, it recalculates the distance between the external object and the gripper or re-identifies the grip pose and then moves the gripper again to grip the external object.
  • a grip target object an external object that the electronic device (100) grips through the gripper is collectively referred to as a grip target object.
  • an electronic device (100) can recognize a grip target object by appropriately using an RGB image and a depth image.
  • the electronic device (100) identifies the grip target object by using both the first image that detects (or captures) a first characteristic of the surrounding environment including the grip target object and the second image that detects a second characteristic of the surrounding environment, so that the electronic device (100) can identify the grip target object with higher accuracy (or reliability) than a conventional robot.
  • the electronic device (100) can identify the distance between the grip target object and the gripper, the grip pose for gripping the grip target object, etc. with high accuracy.
  • FIG. 2 is a block diagram showing the configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device (100) includes a first sensor (110), a second sensor (120), a gripper (130), and one or more processors (140).
  • the first sensor (110) is configured to capture a still image or a moving image.
  • the first sensor (110) may include an RGB camera sensor.
  • the RGB camera sensor may collect visible light (400 to 700 nm), convert it into an electric signal, and transmit it to one or more processors (140).
  • the one or more processors (140) may obtain a first image including a first characteristic of the surrounding environment based on the electric signal received from the RGB camera sensor.
  • the first characteristic may include an RGB characteristic.
  • the second sensor (120) is configured to obtain information about the distance.
  • the second sensor (120) may include a depth camera sensor.
  • the second sensor (120) is a stereo camera, and based on the same principle that when a person's two eyes about 6.5 cm apart look at the same object, different images are formed in the left and right eyes, the stereo vision camera can obtain a left-eye image and a right-eye image that are differently captured of the same grip target object.
  • one or more processors (140) can obtain a second image including a second characteristic of at least one object (e.g., a grip target object) included in the surrounding environment based on the disparity between the left-eye image and the right-eye image.
  • the second characteristic can include a depth characteristic.
  • the second sensor (120) may include a ToF (Time of Flight) camera sensor.
  • the ToF camera sensor may be a sensor that measures the distance between the ToF camera sensor and the grip target object by irradiating a signal (e.g., near-infrared, ultrasonic, laser, etc.) and measuring the time until the irradiated signal is reflected by the grip target object and received by the ToF sensor.
  • a signal e.g., near-infrared, ultrasonic, laser, etc.
  • the gripper (130) may be controllable in three degrees of freedom (3 DOF) or six degrees of freedom (6 DOF) by one or more processors (140).
  • 3 degrees of freedom means left and right rotation (roll) around the X-axis, forward and backward rotation (pitch) around the Y-axis, and up and down rotation (yaw) around the Z-axis in a 3D rectangular coordinate system
  • 6 degrees of freedom can mean forward/back (surge), left/right (sway), and up/down (heave) translational motion in addition to 3DOF.
  • the gripper (130) can be positioned adjacent to a grip target object by one or more processors (140), and then grasp the grip target object in a grip pose under the control of one or more processors (140).
  • One or more processors (140) control the overall operation of the electronic device (100).
  • the processor (140) may be implemented as a digital signal processor (DSP) for processing a digital signal, a microprocessor, a timing controller (TCON).
  • DSP digital signal processor
  • the present invention is not limited thereto, and may include one or more of a central processing unit (CPU), a micro controller unit (MCU), a micro processing unit (MPU), a controller, an application processor (AP), a communication processor (CP), an ARM processor, and an artificial intelligence (AI) processor, or may be defined by the corresponding terms.
  • the processor (140) may be implemented as a system on chip (SoC) having a processing algorithm built in, a large scale integration (LSI), or may be implemented in the form of a field programmable gate array (FPGA).
  • SoC system on chip
  • LSI large scale integration
  • FPGA field programmable gate array
  • the processor (140) may perform various functions by executing computer executable instructions stored in a memory.
  • the one or more processors (140) may include one or more of a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), an APU (Accelerated Processing Unit), an MIC (Many Integrated Core), a DSP (Digital Signal Processor), an NPU (Neural Processing Unit), a hardware accelerator, or a machine learning accelerator.
  • the one or more processors (140) may control one or any combination of other components of the electronic device, and may perform operations related to communication or data processing.
  • the one or more processors (140) may execute one or more programs or instructions stored in a memory. For example, the one or more processors (140) may perform a method according to an embodiment of the present disclosure by executing one or more instructions stored in a memory.
  • the plurality of operations may be performed by one processor or may be performed by a plurality of processors.
  • the first operation, the second operation, and the third operation may all be performed by the first processor, or the first operation and the second operation may be performed by the first processor (e.g., a general-purpose processor) and the third operation may be performed by the second processor (e.g., an artificial intelligence-only processor).
  • One or more processors (140) may be implemented as a single core processor including one core, or may be implemented as one or more multicore processors including multiple cores (e.g., homogeneous multi-core or heterogeneous multi-core).
  • processors (140) are implemented as a multi-core processor
  • each of the multiple cores included in the multi-core processor may include an internal processor memory, such as a cache memory or an on-chip memory, and a common cache shared by the multiple cores may be included in the multi-core processor.
  • each of the multiple cores (or some of the multiple cores) included in the multi-core processor may independently read and execute a program instruction for implementing a method according to an embodiment of the present disclosure, or all (or some) of the multiple cores may be linked to read and execute a program instruction for implementing a method according to an embodiment of the present disclosure.
  • the plurality of operations may be performed by one core among the plurality of cores included in the multi-core processor, or may be performed by the plurality of cores.
  • the first operation, the second operation, and the third operation may all be performed by a first core included in the multi-core processor, or the first operation and the second operation may be performed by a first core included in the multi-core processor, and the third operation may be performed by a second core included in the multi-core processor.
  • a processor may mean a system on a chip (SoC) in which one or more processors and other electronic components are integrated, a single core processor, a multi-core processor, or a core included in a single core processor or a multi-core processor, wherein the core may be implemented as a CPU, a GPU, an APU, a MIC, a DSP, an NPU, a hardware accelerator, or a machine learning accelerator, but embodiments of the present disclosure are not limited thereto.
  • SoC system on a chip
  • one or more processors (140) can input a first image acquired through a first sensor (110) into a first neural network model to obtain a first feature map corresponding to the first image, and input a second image acquired through a second sensor (120) into a second neural network model to obtain a second feature map corresponding to the second image.
  • one or more processors (140) may merge (or fuse) the first feature map and the second feature map to obtain a third image.
  • the third image may be a fused image of the first feature map and the second feature map.
  • One or more processors (140) can identify a grip target object based on the third image and obtain movement information of the gripper (130) for grasping the grip target object.
  • the movement information of the gripper (130) can include a movement direction, a movement distance, and a rotation angle of the gripper (130) (e.g., a grip pose of the gripper (130) according to shape information of the grip target object).
  • FIG. 3 is a diagram for explaining a first neural network model and a second neural network model according to one embodiment of the present disclosure.
  • one or more processors (140) can input a first image (1) acquired through a first sensor (110) into a first neural network model (10) to acquire a first feature map (1') corresponding to the first image (1).
  • the first neural network model (10) may be a model learned to output RGB feature information according to an object in a sample image based on RGB information included in the sample image.
  • one or more processors (140) may input a second image (2) acquired through a second sensor (120) into a second neural network model (20) to acquire a second feature map (2') corresponding to the second image (2).
  • a second neural network model (20) may be a model learned to output depth feature information according to an object in a sample image based on depth information included in the sample image.
  • the artificial intelligence related function according to the present disclosure is operated through one or more processors (140) and memory of the electronic device (100).
  • the one or more processors (140) may include at least one of a CPU (Central Processing Unit), a GPU (Graphic Processing Unit), and an NPU (Neural Processing Unit), but are not limited to the examples of the processors described above.
  • a CPU Central Processing Unit
  • GPU Graphic Processing Unit
  • NPU Neurological Processing Unit
  • CPU is a general-purpose processor that can perform not only general operations but also artificial intelligence operations, and can efficiently execute complex programs through a multi-layer cache structure.
  • CPU is advantageous in a serial processing method that enables organic linkage between the previous calculation result and the next calculation result through sequential calculation.
  • General-purpose processors are not limited to the above-mentioned examples, except in the case where they are specified as CPUs.
  • GPU is a processor for large-scale operations such as floating point operations used in graphic processing, and can perform large-scale operations in parallel by integrating a large number of cores.
  • GPU may be advantageous over CPU in parallel processing methods such as convolution operations.
  • GPU may be used as a co-processor to supplement the function of CPU.
  • Processors for large-scale operations are not limited to the examples described above, except in the case where they are specified as GPUs described above.
  • An NPU is a processor specialized in artificial intelligence operations using an artificial neural network, and each layer constituting the artificial neural network can be implemented with hardware (e.g., silicon).
  • hardware e.g., silicon
  • an NPU can be implemented in various forms such as a TPU (Tensor Processing Unit), an IPU (Intelligence Processing Unit), a VPU (Vision processing unit), etc.
  • the artificial intelligence processor is not limited to the examples described above, except in the case where it is specified as an NPU described above.
  • processors (140) may be implemented as a SoC (System on Chip).
  • SoC System on Chip
  • the SoC may further include, in addition to one or more processors (140), a memory, and a network interface such as a bus for data communication between the processor and the memory.
  • the electronic device (100) may perform operations related to artificial intelligence (for example, operations related to learning or inference of an artificial intelligence model) by using some of the plurality of processors.
  • the electronic device (100) may perform operations related to artificial intelligence by using at least one of a GPU, an NPU, a VPU, a TPU, and a hardware accelerator specialized in artificial intelligence operations such as convolution operations and matrix multiplication operations among the plurality of processors.
  • this is only one embodiment, and it is of course possible to process operations related to artificial intelligence by using a CPU or a general-purpose processor.
  • the electronic device (100) can perform operations for functions related to artificial intelligence by using multiple cores (e.g., dual cores, quad cores, etc.) included in one processor.
  • the electronic device (100) can perform artificial intelligence operations such as convolution operations, matrix multiplication operations, etc. in parallel by using multiple cores included in the processor.
  • One or more processors (140) are controlled to process input data according to predefined operation rules or artificial intelligence models stored in memory.
  • the predefined operation rules or artificial intelligence models are characterized by being created through learning.
  • being created through learning means that a predetermined operation rule or artificial intelligence model with desired characteristics is created by applying a learning algorithm to a large number of learning data.
  • This learning may be performed in the device itself on which the artificial intelligence according to the present disclosure is performed, or may be performed through a separate server/system.
  • the artificial intelligence model may be composed of a plurality of neural network layers. At least one layer has at least one weight value and performs the operation of the layer through the operation result of the previous layer and at least one defined operation.
  • Examples of the neural network include a CNN (Convolutional Neural Network), a DNN (Deep Neural Network), an RNN (Recurrent Neural Network), an RBM (Restricted Boltzmann Machine), a DBN (Deep Belief Network), a BRDNN (Bidirectional Recurrent Deep Neural Network), and Deep Q-Networks, and a Transformer, and the neural network in the present disclosure is not limited to the above-described examples unless otherwise specified.
  • a learning algorithm is a method of training a given target device (e.g., a robot) using a plurality of learning data so that the given target device can make decisions or predictions on its own.
  • Examples of learning algorithms include supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, and the learning algorithm in the present disclosure is not limited to the above-described examples unless otherwise specified.
  • FIG. 4 is a diagram for explaining a third neural network model and movement information according to one embodiment of the present disclosure.
  • one or more processors (140) may input a first image (1) into a first neural network model (10) to obtain a first feature map (1') corresponding to the first image (1).
  • one or more processors (140) may input a first image (1) including RGB information to a first neural network model (10) based on ResNet-50 and a Feature Pyramid Network (FPN).
  • the first neural network model (10) may output a first feature map (1') including RGB feature information.
  • one or more processors (140) can input a second image (2) into a second neural network model (20) to obtain a second feature map (2') corresponding to the second image (2).
  • one or more processors (140) can input a second image (2) including depth information to a second neural network model (20) based on set abstraction and feature propagation layers of PointNet++.
  • the second neural network model (20) can output a second feature map (2') including depth feature information.
  • one or more processors (140) may pre-process the second image (2) when the second image (2) is received and input the pre-processed second image into the second neural network model (20).
  • the preprocessed second image may include point cloud information about the grip target object.
  • the point cloud information may mean information representing the grip target object by assuming the grip target object (e.g., a 3D object) as a collection of multiple points.
  • one or more processors (140) can obtain point cloud information by applying uniform grid sampling to the image space within the second image (2).
  • one or more processors (140) can input point cloud information into the second neural network model (20), thereby reducing the input size and thus reducing the computational load.
  • One or more processors (140) can merge the first feature map (1') and the second feature map (2') to obtain a third image (3).
  • one or more processors (140) may obtain a third image (3) including a fused feature by concatenating the RGB feature information and the depth feature information in the channel direction to utilize the RGB feature information included in the first feature map (1') and the depth feature information included in the second feature map (2').
  • One or more processors (140) can input the third image (3) into the third neural network model (30) to obtain movement information of the gripper (130) to control the gripper (130) to grasp the grip target object.
  • one or more processors (140) can input a third image (3) into a third neural network model (30) based on a multi-layer perceptron (MLP) to obtain movement information of the gripper (130).
  • MLP multi-layer perceptron
  • the third neural network model (30) may be a model trained to output a grasp probability (or a grasp score of 0 to 1) to predict whether a grip target object can be grasped.
  • the third neural network model (30) can output movement information including at least one of a movement direction, a movement distance, and a rotation angle of the gripper (130) based on shape information of a grip target object included in the third image.
  • the third neural network model (30) may include a movement distance head (Head) for inferring a movement distance, a movement direction head (or, Approach Direction Head) of a gripper (130) for grasping a grip target object, and a lateral direction head (Lateral Direction Head) for inferring a rotation angle (hereinafter, lateral direction with respect to the grip target object).
  • a movement distance head Head
  • a movement direction head or, Approach Direction Head
  • a gripper for grasping a grip target object
  • a lateral direction head Lateral Direction Head
  • the moving distance head can output the moving distance of the gripper (130) to move the gripper (130) adjacent to the grip target object and the grip width of the gripper (130) to grasp the grip target object.
  • one or more processors (140) can position the gripper (130) adjacent to a grip target object based on the movement direction and movement distance.
  • One or more processors (140) can identify a lateral direction for a grip target object based on a rotation angle and control the gripper (130) to grasp the grip target object in the identified lateral direction.
  • the lateral direction for the grip target object can include a grasp pose for appropriately grasping the grip target object.
  • FIG. 5 is a diagram for explaining reliability according to one embodiment of the present disclosure.
  • the third neural network model (30) can obtain multiple movement information of the gripper (130) for grasping the grip target object based on the shape information of the grip target object.
  • the third neural network model (30) can obtain a reliability corresponding to each of multiple pieces of movement information and output the movement information with the highest reliability.
  • the third neural network model (30) includes a movement distance head, an approach direction head, and a lateral direction head that are learned to output movement information of a gripper (130) for grasping a grip target object, and may include a collision head for inferring whether or not the grip target object collides with another object while being grasped.
  • the third neural network model (30) may be a model learned using loss functions suitable for the outputs of each of the moving distance head, the approach direction head, and the lateral direction head.
  • the third neural network model (30) may be a model that learns a regression-classification task between the predicted value of the head and the actual value (ground truth) using a binary cross-entropy loss function.
  • the third neural network model (30) can obtain the output value of the binary cross-entropy loss function for all pixels in the third image (3) and identify points at which the grip target object can be grasped.
  • the third neural network model (30) can identify a point cloud, which is a collection of points capable of grasping a grip target object.
  • the third neural network model (30) may be a model trained on a regression task using a regression loss function.
  • the regression loss function may include a mean absolute error.
  • the third neural network model (30) may define a regression loss function using the mean absolute error for graspable points.
  • the third neural network model (30) outputs a plurality of pieces of movement information, and can obtain reliability by considering the probability of grasping the grip target object and the probability of collision with another object according to each piece of movement information.
  • the third neural network model (30) outputs movement information having the highest reliability among multiple reliabilities
  • one or more processors (130) are positioned adjacent to the grip target object and can grasp the grip target object based on the movement information output by the third neural network model (30).
  • FIG. 6 is a drawing for explaining the result of an electronic device moving a grip target object according to an embodiment of the present disclosure.
  • one or more processors (140) control the gripper (130) to grasp a grip target object, and when the gripper (130) grasps the grip target object, the grip target object can be moved to another location.
  • one or more processors (140) identify a grip target object based on a third image (3) that fuses a first feature map (1') with an enhanced first characteristic and a second feature map (2') with an enhanced second characteristic, and obtains movement information of a gripper (130) for grasping the grip target object. Therefore, even when the grip target object is flat, such as a plate on a table, or when it is difficult to obtain depth feature information, such as a knife, the grasping success rate for the grip target object can be increased.
  • one or more processors (140) obtain movement information of a gripper (130) for grasping a grip target object based on a third image (3) that fuses a first feature map (1') with an enhanced first characteristic and a second feature map (2') with an enhanced second characteristic, so that even when it is difficult to obtain the first characteristic (for example, when the surrounding environment is dark), the grasping success rate for the grip target object may not decrease.
  • conventional robots A and B do not input a first image (1) including first feature information into a first neural network model (10), and do not input a second image (2) including second feature information into a second neural network model (20) to obtain a first feature map (1') and a second feature map (2'), and do not grasp a grip target object using a third image (3) that is a fusion of the first feature map (1') and the second feature map (2'), so conventional robots A and B can grasp a grip target object with a lower success probability than the grasping success probability of an electronic device (100) according to an example of the present disclosure.
  • One or more processors (140) can obtain an updated first image (1) from a first sensor (110) in real time or at preset intervals, and can obtain an updated second image (2) from a second sensor (120).
  • one or more processors (140) may input an updated first image (1) into a first neural network model (10) to obtain an updated first feature map (1'), and input an updated second image (2) into a second neural network model (20) to obtain an updated second feature map (2').
  • One or more processors (140) can merge the updated first feature map (1') and the updated second feature map (2') to obtain an updated third image (3).
  • One or more processors (140) can update movement information of the gripper (130) to control the gripper (130) to grasp the grip target object based on the updated third image (3), and control the gripper (130) based on the updated movement information.
  • FIG. 7 is a flowchart for explaining a method for controlling an electronic device according to an embodiment of the present disclosure.
  • a first image acquired through a first sensor is input into a first neural network model to acquire a first feature map corresponding to the first image (S710).
  • the control method inputs a second image acquired through a second sensor into a second neural network model to acquire a second feature map corresponding to the second image (S720).
  • the control method acquires a third image by merging the first feature map and the second feature map (S730).
  • the control method identifies a grip target object based on a third image (S740).
  • the control method controls the gripper to grasp a grip target object (S750).
  • the first sensor is an RGB sensor
  • the step S710 of obtaining the first feature map includes the step of, when the first image including RGB information is received through the RGB sensor, inputting the first image into the first neural network model, and the first feature map obtained from the first neural network model may include RGB feature information for the grip target object.
  • the second sensor is a depth sensor
  • the step S720 of obtaining the second feature map includes the step of, when the second image including depth information is received through the depth sensor, inputting the second image into the second neural network model, and the second feature map obtained from the second neural network model may include depth feature information for the grip target object.
  • the step S720 of obtaining the second feature map includes the step of preprocessing the second image when the second image is received, and the step of inputting the preprocessed second image into the second neural network model, wherein the preprocessed second image may include point cloud information for the grip target object.
  • the step S740 of identifying the grip target object includes a step of inputting the third image into a third neural network model to obtain movement information of the gripper for controlling the gripper to grasp the grip target object, and the third neural network model can output the movement information including at least one of a movement direction, a movement distance, and a rotation angle of the gripper based on shape information of the grip target object included in the third image.
  • the step S750 of controlling the gripper may include the steps of positioning the gripper adjacent to the grip target object according to the movement direction and the movement distance, the step of identifying a lateral direction for the grip target object according to the rotation angle, and the step of controlling the gripper to grip the grip target object in the identified lateral direction.
  • the third neural network model obtains, based on the shape information, a plurality of movement information of the gripper for the gripper to grasp the grip target object, obtains a reliability corresponding to each of the plurality of movement information, and outputs movement information having the highest reliability, wherein the reliability may include a probability of the gripper grasping the grip target object.
  • a control method may further include the steps of: acquiring an updated first image from the first sensor in real time or at preset time intervals, and acquiring an updated second image from the second sensor; inputting the updated first image into the first neural network model to acquire an updated first feature map; inputting the updated second image into the second neural network model to acquire an updated second feature map; merging the updated first feature map and the updated second feature map to acquire an updated third image; updating movement information of the gripper based on the updated third image to control the gripper to grasp the grip target object; and controlling the gripper based on the updated movement information.
  • each of the first image and the second image may be an image including at least a portion of the gripper and the grip target object.
  • the step S750 of controlling the gripper may include a step of controlling the gripper with 6 degrees of freedom.
  • the various embodiments described above may be implemented in a recording medium that can be read by a computer or a similar device using software, hardware, or a combination thereof.
  • the embodiments described in this specification may be implemented by the processor itself.
  • embodiments such as the procedures and functions described in this specification may be implemented by separate software modules. Each of the software modules may perform one or more functions and operations described in this specification.
  • computer instructions for performing processing operations of an electronic device may be stored in a non-transitory computer-readable medium.
  • the computer instructions stored in the non-transitory computer-readable medium are executed by a processor of a specific device, they cause the specific device to perform processing operations in the electronic device (100) according to various embodiments described above.
  • a non-transitory computer-readable medium is not a medium that stores data for a short period of time, such as a register, cache, or memory, but a medium that permanently stores data and can be read by a device.
  • Specific examples of non-transitory computer-readable media include CDs, DVDs, hard disks, Blu-ray disks, USBs, memory cards, and ROMs.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

전자 장치가 개시된다. 전자 장치는, 제1 센서, 제2 센서, 그리퍼(gripper), 제1 센서를 통해 획득된 제1 이미지를 제1 신경망 모델에 입력하여 제1 이미지에 대응되는 제1 특징(feature) 맵을 획득하고, 제2 센서를 통해 획득된 제2 이미지를 제2 신경망 모델에 입력하여 제2 이미지에 대응되는 제2 특징 맵을 획득하고, 제1 특징 맵 및 제2 특징 맵을 병합하여 제3 이미지를 획득하고, 제3 이미지에 기초하여 그립 대상 객체를 식별하고, 그립 대상 객체를 파지하도록 그리퍼를 제어하는 하나 이상의 프로세서를 포함한다.

Description

그립 대상 객체를 파지하기 위한 그리퍼를 포함하는 전자 장치 및 그 제어 방법
본 발명은 전자 장치 및 그 제어 방법에 관한 것으로, 보다 상세하게는 그리퍼를 포함하는 전자 장치 및 그 제어 방법에 관한 것이다.
최근 전자 기술의 발전에 따라 다양한 유형의 전자 장치가 개발 및 보급되고 있는 실정이다.
특히, 다양한 목적의 로봇이 공장, 가정에도 배치되고 있으며, 이러한 로봇은 외부 객체를 파지하여 일 위치에서 타 위치로 이동시키거나, 운반하는 동작을 수행할 수 있다.
예를 들어, 공장에 배치된 산업용 로봇은 사람이 파지하기 어려운 객체를 파지하여 특정 위치로 운반할 수도 있고, 조립을 수행할 수도 있다. 다른 예로, 가정에 배치된 로봇은 이물질을 운반하는 등 실내 청소를 수행할 수도 있고, 사람이 파지하기 어려운 물체 또는 위험한 물체를 특정 위치로 이동시킬 수도 있다.
다만, 종래의 로봇은 객체를 정확히 인식한 경우 예를 들어, 객체와의 거리, 객체의 형태 등을 정확하게 인식한 경우에만 해당 객체를 파지할 수 있었다. 객체와의 거리 또는 객체의 형태를 정확하게 인식하기란 매우 어려운 문제가 있었다.
이에, 객체와의 거리, 객체의 형태 등을 정확하게 인식하여 객체에 대한 파지 성공률을 증가시키는 기술에 대한 요구가 있었다.
본 개시의 상술한 목적을 달성하기 위한 일 예에 따른 전자 장치는, 제1 센서, 제2 센서, 그리퍼(gripper), 상기 제1 센서를 통해 획득된 제1 이미지를 제1 신경망 모델에 입력하여 상기 제1 이미지에 대응되는 제1 특징(feature) 맵을 획득하고, 상기 제2 센서를 통해 획득된 제2 이미지를 제2 신경망 모델에 입력하여 상기 제2 이미지에 대응되는 제2 특징 맵을 획득하고, 상기 제1 특징 맵 및 상기 제2 특징 맵을 병합하여 제3 이미지를 획득하고, 상기 제3 이미지에 기초하여 그립 대상 객체를 식별하고, 상기 그립 대상 객체를 파지하도록 상기 그리퍼를 제어하는 하나 이상의 프로세서를 포함한다.
본 개시의 상술한 목적을 달성하기 위한 일 예에 따른 그리퍼(Gripper)를 포함하는 전자 장치의 제어 방법은, 제1 센서를 통해 획득된 제1 이미지를 제1 신경망 모델에 입력하여 상기 제1 이미지에 대응되는 제1 특징(feature) 맵을 획득하는 단계, 제2 센서를 통해 획득된 제2 이미지를 제2 신경망 모델에 입력하여 제2 이미지에 대응되는 제2 특징 맵을 획득하는 단계, 상기 제1 특징 맵 및 상기 제2 특징 맵을 병합하여 제3 이미지를 획득하는 단계, 상기 제3 이미지에 기초하여 그립 대상 객체를 식별하는 단계 및 상기 그립 대상 객체를 파지하도록 상기 그리퍼를 제어하는 단계를 포함한다.
본 개시의 상술한 목적을 달성하기 위한 일 실시 예에 따른 그리퍼(Gripper)를 포함하는 전자 장치의 제어 방법을 실행하는 프로그램을 포함하는 컴퓨터 판독 가능 기록 매체에 있어서, 상기 전자 장치의 제어 방법은, 제1 센서를 통해 획득된 제1 이미지를 제1 신경망 모델에 입력하여 상기 제1 이미지에 대응되는 제1 특징(feature) 맵을 획득하는 단계, 제2 센서를 통해 획득된 제2 이미지를 제2 신경망 모델에 입력하여 제2 이미지에 대응되는 제2 특징 맵을 획득하는 단계, 상기 제1 특징 맵 및 상기 제2 특징 맵을 병합하여 제3 이미지를 획득하는 단계, 상기 제3 이미지에 기초하여 그립 대상 객체를 식별하는 단계 및 상기 그립 대상 객체를 파지하도록 상기 그리퍼를 제어하는 단계를 포함한다.
도 1은 본 개시의 일 실시 예에 따른 그리퍼(Gripper) 및 그립 대상 객체를 개략적으로 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블록도이다.
도 3은 본 개시의 일 실시 예에 따른 제1 신경망 모델 및 제2 신경망 모델을 설명하기 위한 도면이다.
도 4는 본 개시의 일 실시 예에 따른 제3 신경망 모델 및 이동 정보를 설명하기 위한 도면이다.
도 5는 본 개시의 일 실시 예에 따른 신뢰도를 설명하기 위한 도면이다.
도 6은 본 개시의 일 실시 예에 따른 전자 장치가 그립 대상 객체를 이동시킨 결과를 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다. 
본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 개시의 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시 예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 본 개시의 일 실시 예에 따른 그리퍼 및 그립 대상 객체를 개략적으로 설명하기 위한 도면이다.
도 1에 도시된 바에 따르면, 본 개시의 일 실시 예에 따른 전자 장치(100)는 사용자 단말 장치, 디스플레이 장치, 셋톱 박스(set-top box), 태블릿 PC(tablet personal computer), 스마트 폰(smart phone), 전자책 리더기(e-book reader), 데스크탑 PC (desktop PC), 랩탑 PC(laptop PC), 워크스테이션(workstation), 서버, PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 키오스크(Kiosk) 등과 같은 다양한 형태의 디바이스로 구현될 수 있다. 다만, 이는 일 실시 예이며, 전자 장치(100)는 엑세서리 형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘텍트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체 형(예: 전자 의복) 중 적어도 하나의 형태에 해당하는 웨어러블 장치, 구동부를 포함하는 로봇(robot), 프로젝터(projector), 서버 등 다양한 유형의 전자 장치로 구현될 수도 있다.
본 개시의 일 실시 예에 따른 전자 장치(100)는 로봇으로 구현될 수 있다. 여기서, 로봇은 스스로 일 기능을 수행하는 능력을 가진 다양한 형태의 기계를 의미할 수 있다. 일 예로, 로봇은 단순 반복 기능 외에 센서, 카메라 등을 기반으로 실시간으로 주변 환경을 감지하고, 정보를 수집하여 자율적으로 동작하는 스마트 기계를 의미할 수도 있다.
본 개시의 일 실시 예에 따른 전자 장치(100)는 인간의 손가락과 같이 외부 객체를 파지하거나 또는 이동시킬 수 있는 그리퍼(Gripper)를 포함할 수 있다. 한편, 그리퍼는 다관절 로봇의 말단부인 로봇 핸드(robot hand), 그래스퍼(Grasper) 등으로 불릴 수도 있으나, 이하에서는 설명의 편의를 위해 그리퍼로 통칭하도록 한다.
한편, 전자 장치(100)는 이용 분야 또는 수행 가능한 기능에 따라서 산업용, 의료용, 가정용, 군사용 및 탐사용 로봇 등으로 구분될 수 있다. 일 실시 예에 따라 산업용 로봇은 공장의 제품 제조 과정에서 이용되는 로봇, 매장 또는 식당 등에서 손님 응대, 주문 접수 및 서빙 등을 수행하는 로봇 등으로 세분화될 수도 있다. 예를 들어, 본 개시의 일 실시 예에 따른 전자 장치(100)는 공장, 호텔, 마트, 병원, 의류 매장 등 다양한 장소에서 전자 장치(100)에 구비된 그리퍼를 제어하여 외부 객체를 그립(Grip)한 뒤, 외부 객체를 특정 위치까지 운반할 수 있는 로봇으로 구현될 수 있다. 다만, 이는 일 예에 불과할 뿐, 로봇은 활용 분야, 기능 및 사용 목적에 따라 다양하게 분류될 수 있고, 상술한 예에 한정되지 않음은 물론이다.
종래의 로봇은 외부 객체를 포함하는 뎁스(Depth) 이미지 또는 RGB 이미지에 기초하여 외부 객체와 그리퍼 간의 거리를 구체적인 수치로 산출하고, 산출된 거리에 기초하여 그리퍼를 이동시킨 뒤, 외부 객체를 그립(Grip)하였다.
예를 들어, 종래의 로봇은 외부 객체를 인식한 경우에 한하여 그리퍼를 외부 객체에 인접하게 위치시킬 수 있으며, 외부 객체를 그립하도록 그리퍼를 제어할 수 있었다.
이와 같은 그립 방법은 로봇이 외부 객체를 다소 높은 정확도(또는, 신뢰도)로 인식한 경우에 한하여 외부 객체를 원활히 그립할 수 있는 단점이 있었다. 예를 들어, 로봇이 외부 객체와 그리퍼 간의 거리를 오차 범위 내에서 다소 정확하게 산출한 경우, 외부 객체의 형태에 따른 그립 포즈(grip pose)를 적절히 식별한 경우에 한하여 외부 객체를 그립할 수 있으며, 산출된 거리가 오차 범위를 초과하거나 또는 그립 포즈가 외부 객체의 형태에 적절하지 않으면, 외부 객체를 그립하지 못하거나 수 차례 시행 착오 끝에 외부 객체를 그립하는 문제가 있다. 여기서, 시행 착오는 로봇이 외부 객체의 파지에 실패하면, 외부 객체와 그리퍼 간의 거리를 재 산출하거나 그립 포즈를 재 식별한 후 그리퍼를 재 이동시켜 외부 객체를 그립함을 의미한다. 한편, 이하에서는 설명의 편의를 위해 전자 장치(100)가 그리퍼를 통해 그립하는 외부 객체를 그립 대상 객체로 통칭하도록 한다.
종래의 로봇이 RGB 이미지 또는 뎁스 이미지를 이용하여 그립 대상 객체를 인식하는데 반하여, 본 개시의 일 실시 예에 따른 전자 장치(100)는 RGB 이미지와 뎁스 이미지를 적절히 이용하여 그립 대상 객체를 인식할 수 있다.
일 예로, 전자 장치(100)는 그립 대상 객체를 포함하는 주변 환경의 제1 특성(characteristic)을 감지(또는, 촬상)한 제1 이미지와 주변 환경의 제2 특성을 감지한 제2 이미지 모두를 이용하여 그립 대상 객체를 식별하므로, 종래의 로봇 보다 높은 정확도(또는, 신뢰도)로 그립 대상 객체를 식별할 수 있다. 예를 들어, 전자 장치(100)는 그립 대상 객체와 그리퍼 간의 거리, 그립 대상 객체를 그립하기 위한 그립 포즈(pose) 등을 높은 정확도로 식별할 수 있다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블록도이다.
도 2를 참조하면, 전자 장치(100)는 제1 센서(110), 제2 센서(120), 그리퍼(130) 및 하나 이상의 프로세서(140)를 포함한다.
제1 센서(110)는 정지 영상 또는 동영상을 촬상하기 위한 구성이다. 일 예로, 제1 센서(110)는 RGB 카메라 센서를 포함할 수 있다. RGB 카메라 센서는, 가시광선(400~700nm)을 수집하여 이를 전기 신호로 변환하여 하나 이상의 프로세서(140)로 전송할 수 있다. 일 예에 따라 하나 이상의 프로세서(140)는 RGB 카메라 센서로부터 수신된 전기 신호에 기초하여 주변 환경의 제1 특성을 포함하는 제1 이미지를 획득할 수 있다. 여기서, 제1 특성은, RGB 특성을 포함할 수 있다.
제2 센서(120)는 거리에 대한 정보를 획득하는 위한 구성이다. 일 예로, 제2 센서(120)는 뎁스(Depth) 카메라 센서를 포함할 수 있다.
예를 들어, 제2 센서(120)는 스테레오 카메라이며, 약 6.5cm 떨어져 있는 사람의 양안이 동일한 객체를 바라보았을 때 좌안과 우안에 상이하게 상이 맺히는 것과 동일한 원리에 기초하여 스테레오 비전 카메라는 동일한 그립 대상 객체를 서로 다르게 촬영한 좌안(left-eye) 이미지 및 우안(right-eye) 이미지를 획득할 수 있다. 일 예에 따른 하나 이상의 프로세서(140)는 좌안 이미지(left-eye image) 및 우안 이미지(right-eye image) 간의 시차(disparity)에 기초하여 주변 환경에 포함된 적어도 하나의 객체(예를 들어, 그립 대상 객체)의 제2 특성을 포함하는 제2 이미지를 획득할 수 있다. 여기서, 제2 특성은 뎁스(depth) 특성을 포함할 수 있다.
다만, 이는 일 예시이며, 이에 한정되지 않음은 물론이다. 예를 들어, 제2 센서(120)는 ToF(Time of Flight) 카메라 센서를 포함할 수도 있다. 일 예에 따라, ToF 카메라 센서는, 신호(예를 들어, 근적외선, 초음파, 레이저 등)를 조사하고, 조사된 신호가 그립 대상 객체에 의해 반사되어 ToF 센서가 수신하기까지의 시간을 측정하여 ToF 카메라 센서와 그립 대상 객체 간의 거리를 측정하는 센서일 수 있다.
일 예에 따라 그리퍼(130)는 하나 이상의 프로세서(140)에 의해 3자유도(3 Degrees of Freedom, 3 DOF) 또는 6자유도(6 DOF)로 제어 가능할 수 있다.
여기서, 3자유도는, 3차원 직각 좌표계에서 X축을 중심으로 좌우 회전(roll), Y축을 중심으로 앞뒤 회전(pitch), Z축을 중심으로 위아래 회전(yaw) 동작을 의미하며, 6자유도는, 3DOF에 추가적으로 앞뒤(forward/back, surge), 좌우(left/right, sway), 위아래(up/down, heave) 병진 동작(translational motion)을 의미할 수 있다.
일 예에 따라 그리퍼(130)는 하나 이상의 프로세서(140)에 의해 그립 대상 객체에 인접하게 위치한 후, 하나 이상의 프로세서(140)의 제어에 따른 그립 포즈로 그립 대상 객체를 파지할 수 있다.
본 개시의 일 실시 예에 따른 하나 이상의 프로세서(140)는 전자 장치(100)의 전반적인 동작을 제어한다.
본 개시의 일 실시 예에 따라, 프로세서(140)는 디지털 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Timing controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서, AI(Artificial Intelligence) 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(140)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다. 프로세서(140)는 메모리에 저장된 컴퓨터 실행가능 명령어(computer executable instructions)를 실행함으로써 다양한 기능을 수행할 수 있다.
하나 이상의 프로세서(140)는 CPU (Central Processing Unit), GPU (Graphics Processing Unit), APU (Accelerated Processing Unit), MIC (Many Integrated Core), DSP (Digital Signal Processor), NPU (Neural Processing Unit), 하드웨어 가속기 또는 머신 러닝 가속기 중 하나 이상을 포함할 수 있다. 하나 이상의 프로세서(140)는 전자 장치의 다른 구성요소 중 하나 또는 임의의 조합을 제어할 수 있으며, 통신에 관한 동작 또는 데이터 처리를 수행할 수 있다. 하나 이상의 프로세서(140)는 메모리에 저장된 하나 이상의 프로그램 또는 명령어(instruction)을 실행할 수 있다. 예를 들어, 하나 이상의 프로세서(140)는 메모리에 저장된 하나 이상의 명령어를 실행함으로써, 본 개시의 일 실시 예에 따른 방법을 수행할 수 있다.
본 개시의 일 실시 예에 따른 방법이 복수의 동작을 포함하는 경우, 복수의 동작은 하나의 프로세서에 의해 수행될 수도 있고, 복수의 프로세서에 의해 수행될 수도 있다. 예를 들어, 일 실시 예에 따른 방법에 의해 제 1 동작, 제 2 동작, 제 3 동작이 수행될 때, 제 1 동작, 제 2 동작, 및 제 3 동작 모두 제 1 프로세서에 의해 수행될 수도 있고, 제 1 동작 및 제 2 동작은 제 1 프로세서(예를 들어, 범용 프로세서)에 의해 수행되고 제 3 동작은 제 2 프로세서(예를 들어, 인공지능 전용 프로세서)에 의해 수행될 수도 있다.
하나 이상의 프로세서(140)는 하나의 코어를 포함하는 단일 코어 프로세서(single core processor)로 구현될 수도 있고, 복수의 코어(예를 들어, 동종 멀티 코어 또는 이종 멀티 코어)를 포함하는 하나 이상의 멀티 코어 프로세서(multicore processor)로 구현될 수도 있다. 하나 이상의 프로세서(140)가 멀티 코어 프로세서로 구현되는 경우, 멀티 코어 프로세서에 포함된 복수의 코어 각각은 캐시 메모리, 온 칩(On-chip) 메모리와 같은 프로세서 내부 메모리를 포함할 수 있으며, 복수의 코어에 의해 공유되는 공통 캐시가 멀티 코어 프로세서에 포함될 수 있다. 또한, 멀티 코어 프로세서에 포함된 복수의 코어 각각(또는 복수의 코어 중 일부)은 독립적으로 본 개시의 일 실시 예에 따른 방법을 구현하기 위한 프로그램 명령을 판독하여 수행할 수도 있고, 복수의 코어 전체(또는 일부)가 연계되어 본 개시의 일 실시 예에 따른 방법을 구현하기 위한 프로그램 명령을 판독하여 수행할 수도 있다.
본 개시의 일 실시 예에 따른 방법이 복수의 동작을 포함하는 경우, 복수의 동작은 멀티 코어 프로세서에 포함된 복수의 코어 중 하나의 코어에 의해 수행될 수도 있고, 복수의 코어에 의해 수행될 수도 있다. 예를 들어, 일 실시 예에 따른 방법에 의해 제 1 동작, 제 2 동작, 및 제 3 동작이 수행될 때, 제 1 동작, 제2 동작, 및 제3 동작 모두 멀티 코어 프로세서에 포함된 제 1 코어에 의해 수행될 수도 있고, 제 1 동작 및 제 2 동작은 멀티 코어 프로세서에 포함된 제 1 코어에 의해 수행되고 제 3 동작은 멀티 코어 프로세서에 포함된 제 2 코어에 의해 수행될 수도 있다.
본 개시의 실시 예들에서, 프로세서는 하나 이상의 프로세서 및 기타 전자 부품들이 집적된 시스템 온 칩(SoC), 단일 코어 프로세서, 멀티 코어 프로세서, 또는 단일 코어 프로세서 또는 멀티 코어 프로세서에 포함된 코어를 의미할 수 있으며, 여기서 코어는 CPU, GPU, APU, MIC, DSP, NPU, 하드웨어 가속기 또는 기계 학습 가속기 등으로 구현될 수 있으나, 본 개시의 실시 예들이 이에 한정되는 것은 아니다.
특히, 하나 이상의 프로세서(140)는 제1 센서(110)를 통해 획득된 제1 이미지를 제1 신경망 모델에 입력하여 제1 이미지에 대응되는 제1 특징(Feature) 맵을 획득하고, 제2 센서(120)를 통해 획득된 제2 이미지를 제2 신경망 모델에 입력하여 제2 이미지에 대응되는 제2 특징 맵을 획득할 수 있다.
일 예에 따른 하나 이상의 프로세서(140)는 제1 특징 맵 및 제2 특징 맵을 병합(또는, 융합)하여 제3 이미지를 획득할 수 있다. 일 예에 따라 제3 이미지는, 제1 특징 맵과 제2 특징 맵이 융합된 이미지(fused image)일 수 있다.
하나 이상의 프로세서(140)는 제3 이미지에 기초하여 그립 대상 객체를 식별하고, 그립 대상 객체를 파지하기 위한 그리퍼(130)의 이동 정보를 획득할 수 있다. 여기서, 그리퍼(130)의 이동 정보는, 그리퍼(130)의 이동 방향, 이동 거리 및 회전 각도(예를 들어, 그립 대상 객체의 형태 정보에 따른 그리퍼(130)의 그립 포즈)를 포함할 수 있다.
도 3은 본 개시의 일 실시 예에 따른 제1 신경망 모델 및 제2 신경망 모델을 설명하기 위한 도면이다.
도 3을 참조하면, 하나 이상의 프로세서(140)는 제1 센서(110)를 통해 획득된 제1 이미지(1)를 제1 신경망 모델(10)에 입력하여 제1 이미지(1)에 대응되는 제1 특징(Feature) 맵(1')을 획득할 수 있다.
일 예에 따른 제1 신경망 모델(10)는 샘플 이미지에 포함된 RGB 정보에 기초하여 샘플 이미지 내의 객체에 따른 RGB 특징 정보를 출력하도록 학습된 모델일 수 있다.
일 예에 따른 하나 이상의 프로세서(140)는 제2 센서(120)를 통해 획득된 제2 이미지(2)를 제2 신경망 모델(20)에 입력하여 제2 이미지(2)에 대응되는 제2 특징 맵(2')을 획득할 수 있다.
일 예에 따른 제2 신경망 모델(20)은 샘플 이미지에 포함된 뎁스 정보에 기초하여 샘플 이미지 내의 객체에 따른 뎁스 특징 정보를 출력하도록 학습된 모델일 수 있다.
본 개시에 따른 인공지능과 관련된 기능은 전자 장치(100)의 하나 이상의 프로세서(140)와 메모리를 통해 동작된다.
하나 이상의 프로세서(140)는 CPU(Central Processing Unit), GPU(Graphic Processing Unit), NPU(Neural Processing Unit) 중 적어도 하나를 포함할 수 있으나 전술한 프로세서의 예시에 한정되지 않는다.
CPU는 일반 연산뿐만 아니라 인공지능 연산을 수행할 수 있는 범용 프로세서로서, 다계층 캐시(Cache) 구조를 통해 복잡한 프로그램을 효율적으로 실행할 수 있다. CPU는 순차적인 계산을 통해 이전 계산 결과와 다음 계산 결과의 유기적인 연계가 가능하도록 하는 직렬 처리 방식에 유리하다. 범용 프로세서는 전술한 CPU로 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
GPU는 그래픽 처리에 이용되는 부동 소수점 연산 등과 같은 대량 연산을 위한 프로세서로서, 코어를 대량으로 집적하여 대규모 연산을 병렬로 수행할 수 있다. 특히, GPU는 CPU에 비해 컨볼루션(Convolution) 연산 등과 같은 병렬 처리 방식에 유리할 수 있다. 또한, GPU는 CPU의 기능을 보완하기 위한 보조 프로세서(co-processor)로 이용될 수 있다. 대량 연산을 위한 프로세서는 전술한 GPU로 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
NPU는 인공 신경망을 이용한 인공지능 연산에 특화된 프로세서로서, 인공 신경망을 구성하는 각 레이어를 하드웨어(예로, 실리콘)로 구현할 수 있다. 이때, NPU는 업체의 요구 사양에 따라 특화되어 설계되므로, CPU나 GPU에 비해 자유도가 낮으나, 업체가 요구하기 위한 인공지능 연산을 효율적으로 처리할 수 있다. 한편, 인공지능 연산에 특화된 프로세서로, NPU 는 TPU(Tensor Processing Unit), IPU(Intelligence Processing Unit), VPU(Vision processing unit) 등과 같은 다양한 형태로 구현 될 수 있다. 인공 지능 프로세서는 전술한 NPU로 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
또한, 하나 이상의 프로세서(140)는 SoC(System on Chip)으로 구현될 수 있다. 이때, SoC에는 하나 이상의 프로세서(140) 이외에 메모리, 및 프로세서와 메모리 사이의 데이터 통신을 위한 버스(Bus)등과 같은 네트워크 인터페이스를 더 포함할 수 있다.
전자 장치(100)에 포함된 SoC(System on Chip)에 복수의 프로세서가 포함된 경우, 전자 장치(100)는 복수의 프로세서 중 일부 프로세서를 이용하여 인공지능과 관련된 연산(예를 들어, 인공지능 모델의 학습(learning)이나 추론(inference)에 관련된 연산)을 수행할 수 있다. 예를 들어, 전자 장치(100)는 복수의 프로세서 중 컨볼루션 연산, 행렬 곱 연산 등과 같은 인공지능 연산에 특화된 GPU, NPU, VPU, TPU, 하드웨어 가속기 중 적어도 하나를 이용하여 인공지능과 관련된 연산을 수행할 수 있다. 다만, 이는 일 실시예에 불과할 뿐, CPU 등과 범용 프로세서를 이용하여 인공지능과 관련된 연산을 처리할 수 있음은 물론이다.
또한, 전자 장치(100)는 하나의 프로세서에 포함된 멀티 코어(예를 들어, 듀얼 코어, 쿼드 코어 등)를 이용하여 인공지능과 관련된 기능에 대한 연산을 수행할 수 있다. 특히, 전자 장치(100)는 프로세서에 포함된 멀티 코어를 이용하여 병렬적으로 컨볼루션 연산, 행렬 곱 연산 등과 같은 인공 지능 연산을 수행할 수 있다.
하나 이상의 프로세서(140)는, 메모리에 저장된 기정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 기정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다.
여기서, 학습을 통해 만들어진다는 것은, 다수의 학습 데이터들에 학습 알고리즘을 적용함으로써, 원하는 특성의 기정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버/시스템을 통해 이루어 질 수도 있다.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 적어도 하나의 레이어는 적어도 하나의 가중치(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 적어도 하나의 정의된 연산을 통해 레이어의 연산을 수행한다. 신경망의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 및 심층 Q-네트워크 (Deep Q-Networks), Transformer가 있으며, 본 개시에서의 신경망은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
학습 알고리즘은, 다수의 학습 데이터들을 이용하여 소정의 대상 기기(예컨대, 로봇)을 훈련시켜 소정의 대상 기기 스스로 결정을 내리거나 예측을 할 수 있도록 하는 방법이다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으며, 본 개시에서의 학습 알고리즘은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
도 4는 본 개시의 일 실시 예에 따른 제3 신경망 모델 및 이동 정보를 설명하기 위한 도면이다.
도 4를 참조하면, 일 예에 따른 하나 이상의 프로세서(140)는 제1 이미지(1)를 제1 신경망 모델(10)에 입력하여 제1 이미지(1)에 대응되는 제1 특징 맵(1')을 획득할 수 있다.
예를 들어, 하나 이상의 프로세서(140)는 RGB 정보를 포함하는 제1 이미지(1)를 ResNet-50과 Feature Pyramid Network (FPN) 기반의 제1 신경망 모델(10)에 입력할 수 있다. 일 예로, 제1 신경망 모델(10)은 RGB 특징 정보를 포함하는 제1 특징 맵(1')을 출력할 수 있다.
일 예로, 하나 이상의 프로세서(140)는 제2 이미지(2)를 제2 신경망 모델(20)에 입력하여 제2 이미지(2)에 대응되는 제2 특징 맵(2')을 획득할 수 있다.
예를 들어, 하나 이상의 프로세서(140)는 뎁스 정보를 포함하는 제2 이미지(2)를 PointNet++의 set abstraction 및 feature propagation layers 기반의 제2 신경망 모델(20)에 입력할 수 있다. 일 예로, 제2 신경망 모델(20)은 뎁스 특징 정보를 포함하는 제2 특징 맵(2')을 출력할 수 있다.
일 예에 따른 하나 이상의 프로세서(140)는 제2 이미지(2)가 수신되면, 제2 이미지(2)를 전처리(pre-processing)하고, 전처리된 제2 이미지를 제2 신경망 모델(20)에 입력할 수 있다.
여기서, 전처리된 제2 이미지는, 그립 대상 객체에 대한 포인트 클라우드 정보를 포함할 수 있다. 포인트 클라우드 정보는, 그립 대상 객체(예를 들어, 3차원 객체)를 복수의 포인트들의 집합체로 가정하여 그립 대상 객체를 나타낸 정보를 의미할 수 있다.
일 예에 따라, 하나 이상의 프로세서(140)는 제2 이미지(2) 내의 이미지 공간에 균일한 그리드 샘플링(uniform grid sampling)을 적용하여 포인트 클라우드 정보를 획득할 수 있다. 일 예로, 하나 이상의 프로세서(140)는 포인트 클라우드 정보를 제2 신경망 모델(20)에 입력하므로 입력 크기를 감소시켜 계산 부하를 감소시킬 수 있다.
하나 이상의 프로세서(140)는 제1 특징 맵(1') 및 제2 특징 맵(2')을 병합하여 제3 이미지(3)를 획득할 수 있다.
일 예로, 하나 이상의 프로세서(140)는 제1 특징 맵(1')에 포함된 RGB 특징 정보와, 제2 특징 맵(2')에 포함된 뎁스 특징 정보를 활용하기 위해, 채널 방향(channel direction)으로 RGB 특징 정보와 뎁스 특징 정보를 연결(concatenate)하여 융합된 특징(fused feature)를 포함하는 제3 이미지(3)를 획득할 수 있다.
하나 이상의 프로세서(140)는 제3 이미지(3)를 제3 신경망 모델(30)에 입력하여, 그리퍼(130)가 그립 대상 객체를 파지하도록 제어하기 위한 그리퍼(130)의 이동 정보를 획득할 수 있다.
일 예에 따른 하나 이상의 프로세서(140)는 제3 이미지(3)를 MLP(Multi-Layer Perceptron) 기반의 제3 신경망 모델(30)에 입력하여 그리퍼(130)의 이동 정보를 획득할 수 있다.
일 예에 따라 제3 신경망 모델(30)은 그립 대상 객체의 파지 가능 여부를 예측하기 위해 파지 확률(또는, 0 내지 1의 그랩 점수(grasp score))을 출력하도록 학습된 모델일 수 있다.
일 예에 따라 제3 신경망 모델(30)은, 제3 이미지에 포함된 그립 대상 객체의 형태 정보에 기초하여 그리퍼(130)의 이동 방향, 이동 거리 및 회전 각도 중 적어도 하나를 포함하는 이동 정보를 출력할 수 있다.
일 예로, 제3 신경망 모델(30)은, 이동 거리를 추론하기 위한 이동 거리 헤드(Head), 그립 대상 객체를 파지하기 위한 그리퍼(130)의 이동 방향 헤드(또는, 접근 방향 헤드(Approach Direction Head))와 회전 각도(이하, 그립 대상 객체에 대한 측면 방향)를 추론하기 위한 측면 방향 헤드(Lateral Direction Head)를 포함할 수 있다.
일 예에 따라 이동 거리 헤드는, 그리퍼(130)를 그립 대상 객체에 인접하게 이동시키기 위한 그리퍼(130)의 이동 거리, 그립 대상 객체를 파지하기 위한 그리퍼(130)의 그립 폭(Grip width)를 출력할 수 있다.
일 예에 따라 하나 이상의 프로세서(140)는 이동 방향 및 이동 거리에 따라 그리퍼(130)를 그립 대상 객체에 인접하기 위치시킬 수 있다.
하나 이상의 프로세서(140)는 회전 각도에 따라 그립 대상 객체에 대한 측면 방향을 식별하고, 식별된 측면 방향으로 그립 대상 객체를 파지하도록 그리퍼(130)를 제어할 수 있다. 여기서, 그립 대상 객체에 대한 측면 방향은, 그립 대상 객체를 적절히 파지하기 위한 그립 포즈(grasp pose)를 포함할 수 있다.
도 5는 본 개시의 일 실시 예에 따른 신뢰도를 설명하기 위한 도면이다.
도 5를 참조하면, 제3 신경망 모델(30)은 그립 대상 객체의 형태 정보에 기초하여 그리퍼(130)가 그립 대상 객체를 파지하기 위한 그리퍼(130)의 복수의 이동 정보를 획득할 수 있다.
제3 신경망 모델(30)은 복수의 이동 정보 각각에 대응되는 신뢰도를 획득하고, 가장 높은 신뢰도를 가지는 이동 정보를 출력할 수 있다.
일 에에 따라 제3 신경망 모델(30)은 그립 대상 객체를 파지하기 위한 그리퍼(130)의 이동 정보를 출력하도록 학습된 이동 거리 헤드(Head), 접근 방향 헤드(Approach Direction Head) 및 측면 방향 헤드(Lateral Direction Head)를 포함하며, 그립 대상 객체를 파지하는 동안에 다른 객체와 충돌하는지 여부를 추론하기 위한 충돌 헤드(Collision Head)를 포함할 수 있다.
일 실시 예에 따른 제3 신경망 모델(30)은 이동 거리 헤드(Head), 접근 방향 헤드(Approach Direction Head) 및 측면 방향 헤드(Lateral Direction Head) 각각의 출력에 적합한 손실 함수(Loss functions)을 이용하여 학습된 모델일 수 있다.
일 예로, 제3 신경망 모델(30)은 이진 교차-엔트로피 손실 함수(binary cross-entropy loss function)를 이용한 헤드의 예측 값과 실제 값(Ground truth) 간의 회귀-분류 작업(regression-classification task)이 학습된 모델일 수 있다.
일 예로, 제3 신경망 모델(30)은 제3 이미지(3) 내 모든 픽셀에 대해 이진 교차-엔트로피 손실 함수의 출력 값을 획득하고, 그립 대상 객체를 파지 가능한 포인트를 식별할 수 있다.
일 예에 따라, 제3 신경망 모델(30)은, 그립 대상 객체를 파지 가능한 포인트들의 집합체인 포인트 클라우드를 식별할 수 있다.
일 실시 예에 따라, 제3 신경망 모델(30)은, 회귀 손실 함수(regression loss function)를 이용하여 회귀 작업이 훈련된 모델일 수 있다. 일 예로, 회귀 손실 함수는, 평균 절대 오차(mean absolute error)를 포함할 수 있다. 일 예로, 제3 신경망 모델(30)은 파지 가능한 포인트들에 대해 평균 절대 오차를 이용하여 회귀 손실 함수를 정의할 수 있다.
일 실시 예에 따라 제3 신경망 모델(30)은 복수의 이동 정보를 출력하며, 복수의 이동 정보 각각에 따른 그립 대상 객체의 파지 확률 및 다른 객체와의 충돌 확률 등을 고려한 신뢰도를 획득할 수 있다.
일 예로, 제3 신경망 모델(30)은 복수의 신뢰도 중 가장 높은 신뢰도를 가지는 이동 정보를 출력하며, 하나 이상의 프로세서(130)는 제3 신경망 모델(30)이 출력한 이동 정보에 기초하여 그립 대상 객체에 인접하게 위치하며, 그립 대상 객체를 파지할 수 있다.
도 6은 본 개시의 일 실시 예에 따른 전자 장치가 그립 대상 객체를 이동시킨 결과를 설명하기 위한 도면이다.
도 6을 참조하면, 일 예에 따른 하나 이상의 프로세서(140)는 그립 대상 객체를 파지하도록 그리퍼(130)를 제어하며, 그리퍼(130)가 그립 대상 객체를 파지하면, 그립 대상 객체를 다른 위치로 이동시킬 수 있다.
도 6을 참조하면, 일 예에 따른 하나 이상의 프로세서(140)는 제1 특성이 강화된 제1 특징 맵(1')과 제2 특성이 강화된 제2 특징 맵(2')을 융합한 제3 이미지(3)에 기초하여 그립 대상 객체를 식별하고, 그립 대상 객체를 파지하기 위한 그리퍼(130)의 이동 정보를 획득하므로, 테이블 상의 접시(plate)처럼 형태가 평평(flat)하거나, 나이프(knife)처럼 뎁스(depth) 특징 정보를 획득하기 어려운 경우에도, 그립 대상 객체에 대한 파지 성공률이 증가할 수 있다.
일 예에 따라, 하나 이상의 프로세서(140)는 제1 특성이 강화된 제1 특징 맵(1')과 제2 특성이 강화된 제2 특징 맵(2')을 융합한 제3 이미지(3)에 기초하여 그립 대상 객체를 파지하기 위한 그리퍼(130)의 이동 정보를 획득하므로, 제1 특성을 획득하기 어려운 경우(예를 들어, 주변 환경이 어두운 경우)에도 그립 대상 객체에 대한 파지 성공률이 감소하지 않을 수 있다.
종래의 로봇과 비교하면, 본 개시에 따른 전자 장치(100)의 파지 성공률은 다음 표 1과 같다.
방법
(Methods)
종래 로봇 A 종래 로봇 B 전자 장치
성공 확률 45.2% 56.7% 71.3%
클리어런스 확률 55.5% 51.5% 97.5%
Bottle 24/25(성공횟수/시도횟수) 24/25 22/25
Container 24/25 18/25 25/25
Bowl 20/25 24/25 25/25
Cup 24/25 20/25 23/25
Plate 10/25 10/25 25/25
Spoon 5/25 5/25 25/25
Fork 4/25 2/25 25/25
Knife 0/25 0/25 25/25
일 예로, 종래 로봇 A 및 B는 제1 특징 정보를 포함하는 제1 이미지(1)를 제1 신경망 모델(10)에 입력하고, 제2 특징 정보를 포함하는 제2 이미지(2)를 제2 신경망 모델(20)에 입력하여 제1 특징 맵(1') 및 제2 특징 맵(2')을 획득하지 않으며, 제1 특징 맵(1') 및 제2 특징 맵(2')을 융합한 제3 이미지(3)를 이용하여 그립 대상 객체를 파지 하지 않으므로, 종래 로봇 A 및 B는 본 개시의 일 예에 따른 전자 장치(100)의 파지 성공 확률 보다 낮은 성공 확률로 그립 대상 객체를 파지할 수 있다.본 개시의 일 예에 따른 하나 이상의 프로세서(140)는 실시간 또는 기 설정된 간격으로 제1 센서(110)로부터 업데이트된 제1 이미지(1)를 획득하고, 제2 센서(120)로부터 업데이트된 제2 이미지(2)를 획득할 수 있다.
일 예에 따른 하나 이상의 프로세서(140)는 업데이트된 제1 이미지(1)를 제1 신경망 모델(10)에 입력하여 업데이트된 제1 특징 맵(1')을 획득하고, 업데이트된 제2 이미지(2)를 제2 신경망 모델(20)에 입력하여 업데이트된 제2 특징 맵(2')을 획득할 수 있다.
일 예에 따른 하나 이상의 프로세서(140)는 업데이트된 제1 특징 맵(1') 및 업데이트된 제2 특징 맵(2')을 병합하여 업데이트된 제3 이미지(3)를 획득할 수 있다.
일 예에 따른 하나 이상의 프로세서(140)는 업데이트된 제3 이미지(3)에 기초하여 그리퍼(130)가 그립 대상 객체를 파지하도록 제어하기 위한 그리퍼(130)의 이동 정보를 업데이트하고, 업데이트된 이동 정보에 기초하여 그리퍼(130)를 제어할 수 있다.
도 7은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
그리퍼(Gripper)를 포함하는 전자 장치의 제어 방법에 있어서, 제1 센서를 통해 획득된 제1 이미지를 제1 신경망 모델에 입력하여 제1 이미지에 대응되는 제1 특징(feature) 맵을 획득한다(S710).
제어 방법은, 제2 센서를 통해 획득된 제2 이미지를 제2 신경망 모델에 입력하여 제2 이미지에 대응되는 제2 특징 맵을 획득한다(S720).
제어 방법은, 제1 특징 맵 및 제2 특징 맵을 병합하여 제3 이미지를 획득한다(S730).
제어 방법은, 제3 이미지에 기초하여 그립 대상 객체를 식별한다(S740).
제어 방법은, 그립 대상 객체를 파지하도록 그리퍼를 제어한다(S750).
일 예에 따른 상기 제1 센서는, RGB 센서이고, 상기 제1 특징 맵을 획득하는 S710 단계는, 상기 RGB 센서를 통해 RGB 정보를 포함하는 상기 제1 이미지가 수신되면, 상기 제1 이미지를 상기 제1 신경망 모델에 입력하는 단계를 포함하고, 상기 제1 신경망 모델로부터 획득된 상기 제1 특징 맵은, 상기 그립 대상 객체에 대한 RGB 특징 정보를 포함할 수 있다.
일 예에 따른 상기 제2 센서는, 뎁스(Depth) 센서이고, 상기 제2 특징 맵을 획득하는 S720 단계는, 상기 뎁스 센서를 통해 뎁스 정보를 포함하는 상기 제2 이미지가 수신되면, 상기 제2 이미지를 상기 제2 신경망 모델에 입력하는 단계를 포함하고, 상기 제2 신경망 모델로부터 획득된 상기 제2 특징 맵은, 상기 그립 대상 객체에 대한 뎁스 특징 정보를 포함할 수 있다.
상기 제2 특징 맵을 획득하는 S720 단계는, 상기 제2 이미지가 수신되면, 상기 제2 이미지를 전처리(pre-processing)하는 단계 및 상기 전처리된 제2 이미지를 상기 제2 신경망 모델에 입력하는 단계를 포함하고, 상기 전처리된 제2 이미지는, 상기 그립 대상 객체에 대한 포인트 클라우드 정보를 포함할 수 있다.
일 예에 따른 상기 그립 대상 객체를 식별하는 S740 단계는, 상기 제3 이미지를 제3 신경망 모델에 입력하여 상기 그리퍼가 상기 그립 대상 객체를 파지하도록 제어하기 위한 상기 그리퍼의 이동 정보를 획득하는 단계를 포함하고, 상기 제3 신경망 모델은, 상기 제3 이미지에 포함된 상기 그립 대상 객체의 형태 정보에 기초하여 상기 그리퍼의 이동 방향, 이동 거리 및 회전 각도 중 적어도 하나를 포함하는 상기 이동 정보를 출력할 수 있다.
일 예에 따른 상기 그리퍼를 제어하는 S750 단계는, 상기 이동 방향 및 상기 이동 거리에 따라 상기 그리퍼를 상기 그립 대상 객체에 인접하게 위치시키는 단계, 상기 회전 각도에 따라 상기 그립 대상 객체에 대한 측면 방향을 식별하는 단계 및 상기 식별된 측면 방향으로 상기 그립 대상 객체를 파지하도록 상기 그리퍼를 제어하는 단계를 포함할 수 있다.
일 예에 따른 상기 제3 신경망 모델은, 상기 형태 정보에 기초하여, 상기 그리퍼가 상기 그립 대상 객체를 파지하기 위한 상기 그리퍼의 복수의 이동 정보를 획득하고, 상기 복수의 이동 정보 각각에 대응되는 신뢰도를 획득하고, 가장 높은 신뢰도를 가지는 이동 정보를 출력하며, 상기 신뢰도는, 상기 그리퍼의 상기 그립 대상 객체의 파지 확률을 포함할 수 있다.
일 예에 따른 제어 방법은, 실시간 또는 기 설정된 시간 간격으로 상기 제1 센서로부터 업데이트된 제1 이미지를 획득하고, 상기 제2 센서로부터 업데이트된 제2 이미지를 획득하는 단계, 상기 업데이트된 제1 이미지를 상기 제1 신경망 모델에 입력하여 업데이트된 제1 특징 맵을 획득하는 단계, 상기 업데이트된 제2 이미지를 상기 제2 신경망 모델에 입력하여 업데이트된 제2 특징 맵을 획득하는 단계, 상기 업데이트된 제1 특징 맵 및 상기 업데이트된 제2 특징 맵을 병합하여 업데이트된 제3 이미지를 획득하는 단계, 상기 업데이트된 제3 이미지에 기초하여 상기 그리퍼가 상기 그립 대상 객체를 파지하도록 제어하기 위한 상기 그리퍼의 이동 정보를 업데이트하는 단계 및 상기 업데이트된 이동 정보에 기초하여 상기 그리퍼를 제어하는 단계를 더 포함할 수 있다.
일 예에 따른 상기 제1 이미지 및 상기 제2 이미지 각각은, 상기 그리퍼의 적어도 일부 및 상기 그립 대상 객체를 포함하는 이미지일 수 있다.
일 예에 따른 상기 그리퍼를 제어하는 S750 단계는, 상기 그리퍼를 6자유도(6 Degrees of Freedom)로 제어하는 단계를 포함할 수 있다.
다만, 본 개시의 다양한 실시 예들은 전자 장치 뿐 아니라, 모든 유형의 로봇 장치에 적용될 수 있음은 물론이다.
한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시 예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치의 프로세싱 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치(100)에서의 처리 동작을 특정 기기가 수행하도록 한다.
비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (15)

  1. 제1 센서;
    제2 센서;
    그리퍼(gripper);
    상기 제1 센서를 통해 획득된 제1 이미지를 제1 신경망 모델에 입력하여 상기 제1 이미지에 대응되는 제1 특징(feature) 맵을 획득하고,
    상기 제2 센서를 통해 획득된 제2 이미지를 제2 신경망 모델에 입력하여 상기 제2 이미지에 대응되는 제2 특징 맵을 획득하고,
    상기 제1 특징 맵 및 상기 제2 특징 맵을 병합하여 제3 이미지를 획득하고,
    상기 제3 이미지에 기초하여 그립 대상 객체를 식별하고,
    상기 그립 대상 객체를 파지하도록 상기 그리퍼를 제어하는 하나 이상의 프로세서;를 포함하는 전자 장치.
  2. 제1항에 있어서,
    상기 제1 센서는,
    RGB 센서이고,
    상기 하나 이상의 프로세서는,
    상기 RGB 센서를 통해 RGB 정보를 포함하는 상기 제1 이미지가 수신되면, 상기 제1 이미지를 상기 제1 신경망 모델에 입력하고,
    상기 제1 신경망 모델로부터 획득된 상기 제1 특징 맵은, 상기 그립 대상 객체에 대한 RGB 특징 정보를 포함하는, 전자 장치.
  3. 제1항에 있어서,
    상기 제2 센서는,
    뎁스(Depth) 센서이고,
    상기 하나 이상의 프로세서는,
    상기 뎁스 센서를 통해 뎁스 정보를 포함하는 상기 제2 이미지가 수신되면, 상기 제2 이미지를 상기 제2 신경망 모델에 입력하고,
    상기 제2 신경망 모델로부터 획득된 상기 제2 특징 맵은, 상기 그립 대상 객체에 대한 뎁스 특징 정보를 포함하는, 전자 장치.
  4. 제3항에 있어서,
    상기 하나 이상의 프로세서는,
    상기 제2 이미지가 수신되면, 상기 제2 이미지를 전처리(pre-processing)하고, 상기 전처리된 제2 이미지를 상기 제2 신경망 모델에 입력하며,
    상기 전처리된 제2 이미지는, 상기 그립 대상 객체에 대한 포인트 클라우드 정보를 포함하는, 전자 장치.
  5. 제1항에 있어서,
    상기 하나 이상의 프로세서는,
    상기 제3 이미지를 제3 신경망 모델에 입력하여 상기 그리퍼가 상기 그립 대상 객체를 파지하도록 제어하기 위한 상기 그리퍼의 이동 정보를 획득하고,
    상기 제3 신경망 모델은,
    상기 제3 이미지에 포함된 상기 그립 대상 객체의 형태 정보에 기초하여 상기 그리퍼의 이동 방향, 이동 거리 및 회전 각도 중 적어도 하나를 포함하는 상기 이동 정보를 출력하는, 전자 장치.
  6. 제5항에 있어서,
    상기 하나 이상의 프로세서는,
    상기 이동 방향 및 상기 이동 거리에 따라 상기 그리퍼를 상기 그립 대상 객체에 인접하게 위치시키며,
    상기 회전 각도에 따라 상기 그립 대상 객체에 대한 측면 방향을 식별하고,
    상기 식별된 측면 방향으로 상기 그립 대상 객체를 파지하도록 상기 그리퍼를 제어하는, 전자 장치.
  7. 제5항에 있어서,
    상기 제3 신경망 모델은,
    상기 형태 정보에 기초하여, 상기 그리퍼가 상기 그립 대상 객체를 파지하기 위한 상기 그리퍼의 복수의 이동 정보를 획득하고,
    상기 복수의 이동 정보 각각에 대응되는 신뢰도를 획득하고,
    가장 높은 신뢰도를 가지는 이동 정보를 출력하며,
    상기 신뢰도는,
    상기 그리퍼의 상기 그립 대상 객체의 파지 확률을 포함하는, 전자 장치.
  8. 제1항에 있어서,
    상기 하나 이상의 프로세서는,
    실시간 또는 기 설정된 시간 간격으로 상기 제1 센서로부터 업데이트된 제1 이미지를 획득하고, 상기 제2 센서로부터 업데이트된 제2 이미지를 획득하고,
    상기 업데이트된 제1 이미지를 상기 제1 신경망 모델에 입력하여 업데이트된 제1 특징 맵을 획득하고,
    상기 업데이트된 제2 이미지를 상기 제2 신경망 모델에 입력하여 업데이트된 제2 특징 맵을 획득하고,
    상기 업데이트된 제1 특징 맵 및 상기 업데이트된 제2 특징 맵을 병합하여 업데이트된 제3 이미지를 획득하고,
    상기 업데이트된 제3 이미지에 기초하여 상기 그리퍼가 상기 그립 대상 객체를 파지하도록 제어하기 위한 상기 그리퍼의 이동 정보를 업데이트하고,
    상기 업데이트된 이동 정보에 기초하여 상기 그리퍼를 제어하는, 전자 장치.
  9. 제1항에 있어서,
    상기 제1 이미지 및 상기 제2 이미지 각각은,
    상기 그리퍼의 적어도 일부 및 상기 그립 대상 객체를 포함하는 이미지인, 전자 장치.
  10. 제1항에 있어서,
    상기 하나 이상의 프로세서는,
    상기 그리퍼를 6자유도(6 Degrees of Freedom)로 제어하는, 전자 장치.
  11. 그리퍼(Gripper)를 포함하는 전자 장치의 제어 방법에 있어서,
    제1 센서를 통해 획득된 제1 이미지를 제1 신경망 모델에 입력하여 상기 제1 이미지에 대응되는 제1 특징(feature) 맵을 획득하는 단계;
    제2 센서를 통해 획득된 제2 이미지를 제2 신경망 모델에 입력하여 제2 이미지에 대응되는 제2 특징 맵을 획득하는 단계;
    상기 제1 특징 맵 및 상기 제2 특징 맵을 병합하여 제3 이미지를 획득하는 단계;
    상기 제3 이미지에 기초하여 그립 대상 객체를 식별하는 단계; 및
    상기 그립 대상 객체를 파지하도록 상기 그리퍼를 제어하는 단계;를 포함하는 제어 방법.
  12. 제11항에 있어서,
    상기 제1 센서는,
    RGB 센서이고,
    상기 제1 특징 맵을 획득하는 단계는,
    상기 RGB 센서를 통해 RGB 정보를 포함하는 상기 제1 이미지가 수신되면, 상기 제1 이미지를 상기 제1 신경망 모델에 입력하는 단계;를 포함하고,
    상기 제1 신경망 모델로부터 획득된 상기 제1 특징 맵은, 상기 그립 대상 객체에 대한 RGB 특징 정보를 포함하는, 제어 방법.
  13. 제11항에 있어서,
    상기 제2 센서는,
    뎁스(Depth) 센서이고,
    상기 제2 특징 맵을 획득하는 단계는,
    상기 뎁스 센서를 통해 뎁스 정보를 포함하는 상기 제2 이미지가 수신되면, 상기 제2 이미지를 상기 제2 신경망 모델에 입력하는 단계;를 포함하고,
    상기 제2 신경망 모델로부터 획득된 상기 제2 특징 맵은, 상기 그립 대상 객체에 대한 뎁스 특징 정보를 포함하는, 제어 방법.
  14. 제13항에 있어서,
    상기 제2 특징 맵을 획득하는 단계는,
    상기 제2 이미지가 수신되면, 상기 제2 이미지를 전처리(pre-processing)하는 단계; 및
    상기 전처리된 제2 이미지를 상기 제2 신경망 모델에 입력하는 단계;를 포함하고,
    상기 전처리된 제2 이미지는, 상기 그립 대상 객체에 대한 포인트 클라우드 정보를 포함하는, 제어 방법.
  15. 제11항에 있어서,
    상기 그립 대상 객체를 식별하는 단계는,
    상기 제3 이미지를 제3 신경망 모델에 입력하여 상기 그리퍼가 상기 그립 대상 객체를 파지하도록 제어하기 위한 상기 그리퍼의 이동 정보를 획득하는 단계;를 포함하고,
    상기 제3 신경망 모델은,
    상기 제3 이미지에 포함된 상기 그립 대상 객체의 형태 정보에 기초하여 상기 그리퍼의 이동 방향, 이동 거리 및 회전 각도 중 적어도 하나를 포함하는 상기 이동 정보를 출력하는, 제어 방법.
PCT/KR2024/001660 2023-02-27 2024-02-05 그립 대상 객체를 파지하기 위한 그리퍼를 포함하는 전자 장치 및 그 제어 방법 Ceased WO2024181702A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20230026026 2023-02-27
KR10-2023-0026026 2023-02-27
KR10-2023-0094078 2023-07-19
KR1020230094078A KR20240133506A (ko) 2023-02-27 2023-07-19 그립 대상 객체를 파지하기 위한 그리퍼를 포함하는 전자 장치 및 그 제어 방법

Publications (1)

Publication Number Publication Date
WO2024181702A1 true WO2024181702A1 (ko) 2024-09-06

Family

ID=92590804

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2024/001660 Ceased WO2024181702A1 (ko) 2023-02-27 2024-02-05 그립 대상 객체를 파지하기 위한 그리퍼를 포함하는 전자 장치 및 그 제어 방법

Country Status (1)

Country Link
WO (1) WO2024181702A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019093461A (ja) * 2017-11-20 2019-06-20 株式会社安川電機 把持システム、学習装置、把持方法、及び、モデルの製造方法
JP2020001127A (ja) * 2018-06-28 2020-01-09 勇貴 高橋 ピッキングシステム,ピッキング処理装置及びプログラム
KR102220304B1 (ko) * 2020-02-28 2021-02-25 주식회사 두산 로봇 제어 장치 및 로봇 제어 방법
JP2022077725A (ja) * 2020-11-12 2022-05-24 オムロン株式会社 計測システム、計測装置、計測方法及び計測プログラム
JP2022179118A (ja) * 2021-05-21 2022-12-02 株式会社Preferred Networks 把持推定装置、モデル生成方法、モデル学習装置、及びグリッパ

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019093461A (ja) * 2017-11-20 2019-06-20 株式会社安川電機 把持システム、学習装置、把持方法、及び、モデルの製造方法
JP2020001127A (ja) * 2018-06-28 2020-01-09 勇貴 高橋 ピッキングシステム,ピッキング処理装置及びプログラム
KR102220304B1 (ko) * 2020-02-28 2021-02-25 주식회사 두산 로봇 제어 장치 및 로봇 제어 방법
JP2022077725A (ja) * 2020-11-12 2022-05-24 オムロン株式会社 計測システム、計測装置、計測方法及び計測プログラム
JP2022179118A (ja) * 2021-05-21 2022-12-02 株式会社Preferred Networks 把持推定装置、モデル生成方法、モデル学習装置、及びグリッパ

Similar Documents

Publication Publication Date Title
CN111055279B (zh) 基于触觉与视觉结合的多模态物体抓取方法与系统
EP3557521B1 (en) Industrial device image recognition processor and controller
CN108908334A (zh) 一种基于深度学习的智能抓取系统及方法
CN108290286A (zh) 用于教导工业机器人拾取零件的方法
WO2020149493A1 (ko) 전자 장치 및 이의 제어 방법
CN106256512A (zh) 包括机器视觉的机器人装置
CN115578460A (zh) 基于多模态特征提取与稠密预测的机器人抓取方法与系统
WO2024072001A1 (en) Apparatus and method for sharing and pruning weights for vision and language models
WO2019124728A1 (ko) 객체를 식별하기 위한 장치 및 방법
CN114820796A (zh) 基于自监督表示学习的视觉抓取检测方法及系统
WO2024122845A1 (ko) 서비스 로봇
WO2024181702A1 (ko) 그립 대상 객체를 파지하기 위한 그리퍼를 포함하는 전자 장치 및 그 제어 방법
WO2021246645A1 (ko) 이미지 처리 알고리즘의 최적화 방법 및 이를 구비한 전자 장치
KR20240133506A (ko) 그립 대상 객체를 파지하기 위한 그리퍼를 포함하는 전자 장치 및 그 제어 방법
WO2023167490A1 (en) Apparatus and method for self-supervised learning for visual feature representation of egocentric images
WO2024053876A1 (ko) 카메라 캘리브레이션(camera calibration)을 수행하는 전자 장치 및 그 동작 방법
WO2025159384A1 (ko) 오브젝트의 크기를 고려하여 오브젝트를 이동시키는 로봇 및 그 제어 방법
CN112288819B (zh) 多源数据融合的视觉引导机器人抓取及分类系统及方法
WO2023063570A1 (ko) 손 동작에 관한 이미지 데이터를 획득하는 전자 장치 및 그 동작 방법
Barstuğan et al. Deep Learning Based Human Robot Interaction With 5G Communication
Chiha et al. Improving NAO Robot Grasps with Deep Learning-Based Rectangle Detection
Štursa et al. Multiple objects localization using image segmentation with U-net
Osmanpaşaoğlu et al. Deep Learning Based Human Robot Interaction With 5g Communication
US20240351198A1 (en) Trained model generation method, trained model generation device, trained model, and holding mode inference device
WO2026059073A1 (ko) 코어 모듈, 이를 포함하는 로봇 장치 및 이의 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 24764102

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 24764102

Country of ref document: EP

Kind code of ref document: A1