WO2023075508A1 - 전자 장치 및 그 제어 방법 - Google Patents
전자 장치 및 그 제어 방법 Download PDFInfo
- Publication number
- WO2023075508A1 WO2023075508A1 PCT/KR2022/016711 KR2022016711W WO2023075508A1 WO 2023075508 A1 WO2023075508 A1 WO 2023075508A1 KR 2022016711 W KR2022016711 W KR 2022016711W WO 2023075508 A1 WO2023075508 A1 WO 2023075508A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- shape model
- image
- information
- texture
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—Three-dimensional [3D] animation
- G06T13/40—Three-dimensional [3D] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—Three-dimensional [3D] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three-dimensional [3D] modelling for computer graphics
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three-dimensional [3D] modelling for computer graphics
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Definitions
- the present disclosure relates to an electronic device and a control method thereof, and more particularly, to an electronic device for acquiring a 3D avatar corresponding to a human object included in an image and a control method thereof.
- An artificial intelligence system is a system in which a machine learns, judges, and becomes smart, unlike existing rule-based smart systems.
- Machine learning is an algorithm technology that classifies/learns the characteristics of input data by itself
- element technology is a technology for performing functions such as recognition and judgment of the human brain by using machine learning algorithms such as deep learning. It consists of technical fields such as visual understanding, reasoning/prediction, knowledge expression, and motion control.
- linguistic understanding is a technology for recognizing and applying/processing human language/text, and includes natural language processing, machine translation, dialogue system, question and answering, voice recognition/synthesis, and the like.
- One technical problem to be solved by the present invention is to create a 3D avatar that resembles the user's actual appearance with a single image of the user.
- a communication interface including a communication circuit; a memory storing at least one instruction; and a processor, wherein the processor obtains an image including a human object, obtains a 3D shape model corresponding to the human object included in the image, and based on identification information for each region of the 3D shape model
- An electronic device may be provided that maps the texture of the image to the 3D shape model and generates a 3D avatar corresponding to the human object based on the 3D shape model to which the texture of the image is mapped.
- the processor acquires a first 3D shape model by mapping the texture of the image to a first region of the 3D shape model, and obtains a second region of the 3D shape model that is not the first region based on the identification information.
- a second 3D shape model may be obtained by mapping the texture of the image to the region.
- the processor may obtain identification information for each region of the 3D shape model by performing image segmentation on the first 3D shape model.
- the processor inputs the image to a first neural network model trained to identify a region corresponding to a preset object, obtains information on a region in which the human object exists in the image, and learns to estimate a posture of the object.
- the image is input to the second neural network model to obtain posture information of the human object, and information about the region in which the human object exists in the image to a third neural network model trained to generate a 3D shape model and the Information on the 3D shape model may be obtained by inputting the posture information of the human object.
- the processor inputs the image, the information on the 3D shape model, and the identification information to a fourth neural network model learned to obtain information on a texture corresponding to the 3D shape model, so that the texture to be mapped to the 3D shape model It is possible to obtain texture information, and perform texture mapping on the 3D shape model based on the acquired texture information.
- the processor acquires joint information corresponding to the human object by inputting information about the 3D shape model and posture information of the human object into a fifth neural network model learned to obtain joint information, and the texture of the image is
- the 3D avatar may be generated based on the mapped 3D shape model and the joint information.
- the processor acquires a photographed image of the face of the human object, obtains a 3D face model of the human object by inputting the photographed image to a sixth neural network model learned to reconstruct the face, and obtains the 3D shape model And the 3D face model can be synthesized.
- the processor may control the communication interface to transmit information on the 3D avatar to an external device when the quality of the 3D avatar is equal to or greater than a preset quality.
- a control method of an electronic device includes obtaining an image including a human object; obtaining a 3D shape model corresponding to a human object included in the image; mapping the texture of the image to the 3D shape model based on identification information for each region of the 3D shape model; and generating a 3D avatar corresponding to the human object based on the 3D shape model to which the texture of the image is mapped.
- the mapping of the texture of the image to the 3D shape model may include obtaining a first 3D shape model by mapping the texture of the image to a first region of the 3D shape model, and the 3D shape model based on the identification information.
- the method may include obtaining a second 3D shape model by mapping a texture of the image to a second area of the shape model, not the first area.
- the control method may further include obtaining identification information for each region of the 3D shape model by performing image segmentation on the first 3D shape model.
- the obtaining of the 3D shape model may include obtaining information about a region in which the human object exists in the image by inputting the image to a first neural network model trained to identify a region corresponding to a preset object; acquiring posture information of the human object by inputting the image to a second neural network model trained to estimate the posture of the object;
- the method may include obtaining information on the 3D shape model by inputting information on the existing region and the posture information of the human object.
- the image, the information on the 3D shape model, and the identification information are transferred to a fourth neural network model learned to obtain texture information corresponding to the 3D shape model.
- the method may include obtaining texture information to be mapped to the 3D shape model by inputting the input, and performing texture mapping on the 3D shape model based on the obtained texture information.
- the control method further includes obtaining joint information corresponding to the human object by inputting information about the 3D shape model and posture information of the human object into a fifth neural network model learned to obtain joint information.
- the 3D avatar may be generated based on the 3D shape model to which the texture of the image is mapped and the joint information.
- the control method may include obtaining a photographed image of a face of the human object; and acquiring information on a 3D face model of the human object by inputting the photographed image to a sixth neural network model learned to reconstruct a face, wherein the acquiring of the 3D shape model comprises: A step of synthesizing the shape model and the 3D face model may be included.
- the control method may further include transmitting information on the 3D avatar to an external device if the quality of the 3D avatar is equal to or greater than a preset quality.
- the electronic device may create a 3D avatar resembling the user's actual appearance with a single image of the user.
- the electronic device may generate a 3D avatar by automatically performing rigging. Accordingly, user convenience may be improved.
- FIG. 1 is a diagram for explaining a 3D avatar generation system according to an embodiment of the present disclosure.
- FIG. 2 is a block diagram showing the configuration of an electronic device according to a first embodiment of the present disclosure.
- FIG. 3 is a block diagram showing the configuration of an electronic device according to a second embodiment of the present disclosure.
- FIG. 4 is a diagram for explaining a method for acquiring a 3D shape model according to an embodiment of the present disclosure.
- FIG. 5 is a diagram for explaining a method for obtaining a 3D shape model according to an embodiment of the present disclosure.
- FIG. 6 is a diagram for explaining a texture mapping method according to an embodiment of the present disclosure.
- FIG. 7 is a diagram for explaining a texture mapping method according to an embodiment of the present disclosure.
- FIG. 8 is a diagram for explaining a rigging method according to an embodiment of the present disclosure.
- FIG. 9 is a flowchart illustrating a control method of an electronic device according to an embodiment of the present disclosure.
- FIG. 10 is a sequence diagram for explaining a 3D avatar generation system according to an embodiment of the present disclosure.
- FIG. 11 is a flowchart illustrating a control method of an electronic device according to an embodiment of the present disclosure.
- Embodiments of the present disclosure may apply various transformations and may have various embodiments, and specific embodiments are illustrated in the drawings and described in detail in the detailed description. However, this is not intended to limit the scope to specific embodiments, and should be understood to include all transformations, equivalents, and substitutes included in the spirit and scope of technology disclosed. In describing the embodiments, if it is determined that a detailed description of a related known technology may obscure the subject matter, the detailed description will be omitted.
- FIG. 1 is a diagram for explaining a 3D avatar generation system according to an embodiment of the present disclosure.
- a 3D avatar creation system 1000 may include a user terminal 101 and a server 102 .
- the user terminal 101 may identify the image 11 including the human object 1 stored in the user terminal 101 .
- the user terminal 101 may identify the image 11 by searching for an image including a human object among a plurality of stored images.
- the user terminal 101 may identify the image 11 based on a user command for selecting a specific image.
- the user terminal 101 may transmit the image 11 to the server 102 .
- the server 102 may create a 3D avatar 12 corresponding to the human object 1 .
- the server 102 may transmit information about the 3D avatar 12 to the user terminal 101 .
- the user terminal 101 may render and output 3D content based on information about the 3D avatar 12 .
- a plurality of images taken from various angles of the same environment were required to create a 3D avatar.
- Various embodiments of the present disclosure provide a system and method for generating a 3D avatar from a single image.
- a 3D avatar 12 may be created using only one image 11 stored in the user terminal 101 . Therefore, the 3D avatar creation system 1000 has an advantage in that the 3D avatar 12 can be created more conveniently than the existing avatar creation systems.
- FIG. 2 is a block diagram showing the configuration of an electronic device according to a first embodiment of the present disclosure.
- the electronic device 200 may include a communication interface 210 , a memory 220 and a processor 230 .
- the electronic device 200 may be the server 102 of FIG. 1 .
- the communication interface 210 includes at least one communication circuit and can perform communication with various types of external devices or external servers.
- the communication interface 210 may receive an image including a human object from an external device.
- the communication interface 210 may transmit information about the 3D avatar generated based on the image to an external device.
- the communication interface 210 is a Wi-Fi communication module, cellular communication module, 3G (3rd generation) mobile communication module, 4G (4th generation) mobile communication module, 4th generation LTE (Long Term Evolution) communication module, 5G (5th generation) It may include at least one of the mobile communication modules.
- the memory 220 may store an Operating System (OS) for controlling overall operations of components of the electronic device 200 and commands or data related to components of the electronic device 200 .
- the memory 220 may store data necessary for a module for generating a 3D avatar to perform various operations.
- the memory 220 may include a 3D shape model generation module 231 , a texture mapping module 232 , a rigging module 233 , a face reconstruction module 234 , and a 3D avatar generation module 235 .
- the memory 220 may store a neural network model required to generate a 3D avatar.
- the memory 220 may be implemented as a non-volatile memory (ex: hard disk, solid state drive (SSD), flash memory), volatile memory, or the like.
- the processor 230 may be electrically connected to the memory 220 to control overall functions and operations of the electronic device 200 .
- the processor 230 loads data for the modules 231 to 235 stored in the non-volatile memory to perform various operations into the volatile memory. )can do.
- loading refers to an operation of loading and storing data stored in a non-volatile memory into a volatile memory so that the processor 230 can access the data.
- the 3D avatar generation module 235 is a module for generating a 3D avatar corresponding to a user object, and includes a 3D shape model generation module 231, a texture mapping module 232, a rigging module 233, and a face reconstruction module 234. can include
- the 3D shape model generation module 231 may generate a 3D shape model corresponding to an object included in an image received through the communication interface 210 .
- the 3D shape model generation module 231 may generate a 3D shape model corresponding to a human object included in the image.
- a 3D shape model may mean an object or a polygon mesh in a 3D space.
- the 3D shape model generation module 231 may generate a 3D shape model corresponding to a human object included in an image by using a neural network model. For example, the 3D shape model generation module 231 may input an image to a first neural network model trained to identify a region corresponding to a predetermined object, and obtain information about a region in which a human object exists in the image. . In addition, the 3D shape model generation module 231 may acquire posture information of a human object by inputting an image to a second neural network model learned to estimate the posture of the object. Then, the 3D shape model generation module 231 acquires information about the 3D shape model by inputting information about the region where the human object exists and posture information of the human object to the third neural network model learned to generate the 3D shape model. can do.
- the texture mapping module 232 may perform texture mapping on the 3D shape model. Texture mapping refers to an operation of describing detailed textures or painting colors on the surface of a 3D shape model.
- the texture mapping module 232 may extract a texture of an image and project the extracted texture onto a 3D shape model. For example, the texture mapping module 232 may acquire the first 3D shape model by projecting the texture of the image onto the first area (eg, the front area) of the 3D shape model.
- the texture mapping module 232 may perform texture mapping based on identification information for each region of the 3D shape model.
- the texture mapping module 232 may obtain a second 3D shape model by mapping the texture of the image to a second area, not the first area, of the area of the 3D shape model based on the identification information.
- the identification information may include a label value corresponding to a specific body part.
- the texture mapping module 232 may include an image (eg, a user's face) in the first region (face region) of the 3D shape model.
- the texture of the front image can be projected as it is.
- the texture mapping module 232 may project a texture of a specific region (eg, the frontal region) among the textures of the image to the second region (the back of the head region).
- the texture mapping module 232 may project the texture of the image onto the entire torso region. Meanwhile, the texture mapping module 232 may obtain identification information for each region of the 3D shape model by performing image segmentation on the first 3D shape model.
- the texture mapping module 232 may perform texture mapping using a neural network model. For example, the texture mapping module 232 inputs an image, information on a 3D shape model, and identification information to a fourth neural network model trained to acquire information on a texture corresponding to a 3D shape model, and maps the information to the 3D shape model. Information about the texture to be obtained can be obtained. Information about a texture to be mapped to the 3D shape model may include information about a UV map. The texture mapping module 232 may perform texture mapping on the 3D shape model based on texture information acquired through the fourth neural network model.
- the rigging module 233 may perform rigging on the 3D shape model based on the 3D shape model and posture information of the human object.
- the rigging module 233 may define a relationship between each joint constituting the 3D shape model and the surface of the 3D shape model.
- the rigging module 233 may obtain joint information of the 3D shape model and store it in the memory 220 .
- the joint information of the 3D shape model may include parameters corresponding to each joint constituting the 3D shape model.
- a parameter corresponding to each joint may be related to a correlation between each joint and the surface of the 3D shape model.
- the first parameter corresponding to the first joint may be related to information about how the surface of the first region of the 3D shape model changes according to the movement of the first joint.
- the rigging module 233 may obtain joint information of a 3D shape model using a neural network model.
- the rigging module 233 may obtain joint information corresponding to the human object by inputting information about the 3D shape model and posture information of the human object to the fifth neural network model learned to obtain joint information.
- the face reconstruction module 234 may obtain a 3D face model based on a photographed image of a face of a human object.
- the face reconstruction module 234 may synthesize the 3D shape model generated by the 3D shape model generation module 231 and the 3D face model. For example, a face region of a 3D shape model may be replaced with a 3D face model. Accordingly, the quality of the face region of the 3D shape model may be improved.
- the texture mapping module 232 may perform texture mapping on a new 3D shape model in which the 3D shape model and the 3D face model are synthesized.
- the rigging module 233 may obtain joint information of a new 3D shape model.
- a 3D avatar may be generated from the 3D shape model.
- the 3D avatar creation module 235 may store information about the created 3D avatar in the memory 220 . Meanwhile, the 3D avatar creation module 235 may render the motion of the 3D avatar based on pre-stored motion parameters.
- Processor 230 may be composed of one or a plurality of processors.
- the one or more processors may be a general-purpose processor such as a CPU, an AP, or a digital signal processor (DSP), a graphics-only processor such as a GPU or a vision processing unit (VPU), or an artificial intelligence-only processor such as an NPU.
- DSP digital signal processor
- GPU graphics-only processor
- VPU vision processing unit
- NPU an artificial intelligence-only processor
- One or more processors control input data to be processed according to predefined operating rules or artificial intelligence models stored in the memory 220 .
- the processors dedicated to artificial intelligence may be designed with a hardware structure specialized for processing a specific artificial intelligence model.
- a predefined action rule or an artificial intelligence model is characterized in that it is created through learning.
- being made through learning means that a basic artificial intelligence model is learned using a plurality of learning data by a learning algorithm, so that a predefined action rule or artificial intelligence model set to perform a desired characteristic (or purpose) is created. means burden.
- Such learning may be performed in the device itself in which artificial intelligence according to the present disclosure is performed, or through a separate server and/or system.
- Examples of learning algorithms include supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, but are not limited to the above examples.
- AI models can be created through learning.
- being made through learning means that a basic artificial intelligence model is learned using a plurality of learning data by a learning algorithm, so that a predefined action rule or artificial intelligence model set to perform a desired characteristic (or purpose) is created.
- An artificial intelligence model may be composed of a plurality of neural network layers.
- Each of the plurality of neural network layers has a plurality of weight values, and a neural network operation is performed through an operation between an operation result of a previous layer and a plurality of weight values.
- a plurality of weights possessed by a plurality of neural network layers may be optimized by a learning result of an artificial intelligence model. For example, a plurality of weights may be updated so that a loss value or a cost value obtained from an artificial intelligence model is reduced or minimized during a learning process.
- the artificial intelligence model can be processed by an artificial intelligence processor designed with a hardware structure specialized for the processing of artificial intelligence models.
- AI models can be created through learning.
- being made through learning means that a basic artificial intelligence model is learned using a plurality of learning data by a learning algorithm, so that a predefined action rule or artificial intelligence model set to perform a desired characteristic (or purpose) is created. means burden.
- An artificial intelligence model may be composed of a plurality of neural network layers. Each of the plurality of neural network layers has a plurality of weight values, and a neural network operation is performed through an operation between an operation result of a previous layer and a plurality of weight values.
- the artificial neural network may include a deep neural network (DNN), for example, a Convolutional Neural Network (CNN), a Deep Neural Network (DNN), a Recurrent Neural Network (RNN), a Generative Adversarial Network (GAN), Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), Bidirectional Recurrent Deep Neural Network (BRDNN), or Deep Q-Networks, but is not limited to the above examples.
- DNN deep neural network
- CNN Convolutional Neural Network
- DNN Deep Neural Network
- RNN Recurrent Neural Network
- GAN Generative Adversarial Network
- RBM Restricted Boltzmann Machine
- DBN Deep Belief Network
- BDN Bidirectional Recurrent Deep Neural Network
- Deep Q-Networks Deep Q-Networks
- the electronic device 100 includes an adaptive echo canceller (AEC) module, a noise suppression (NS) module, and an end-point detection (EPD) module for preprocessing the user's voice. or an automatic gain control (AGC) module.
- AEC adaptive echo canceller
- NS noise suppression
- EPD end-point detection
- AGC automatic gain control
- the electronic device 100 may include a digital signal processor (DSP) that converts an analog audio signal into a digital signal or converts a stored digital video or digital audio signal into an analog signal.
- DSP digital signal processor
- FIG. 3 is a block diagram showing the configuration of an electronic device according to a second embodiment of the present disclosure.
- the electronic device 300 may include a user input unit 310, a display 320, a communication interface 330, a memory 340, and a processor 350.
- the electronic device 300 may be the user terminal 101 of FIG. 1 .
- the communication interface 330, memory 340, and processor 350 may correspond to the communication interface 210, memory 220, and processor 230 described in FIG. 2, and duplicate descriptions are omitted. let it do
- the user input unit 310 is a component for receiving a user command.
- the processor 350 may receive a user command for selecting a specific image through the user input unit 310 .
- the user input unit 310 may include one or more buttons, a keyboard, a mouse, and the like, and may include a camera for receiving a user command in the form of a motion.
- the display 320 is implemented as a touch pad or touch panel, the display 320 may be included in the user input unit 310 in that it receives a user command in the form of a touch.
- the display 320 is a component for displaying one or more images under the control of the processor 350 .
- the display 320 may display rendered 3D content.
- the display 320 may be implemented as a Liquid Crystal Display Panel (LCD), Organic Light Emitting Diodes (OLED), or the like, and the display 320 may be implemented as a flexible display, a transparent display, or the like.
- the display 320 according to the present disclosure is not limited to a specific type.
- the processor 350 may identify an image that can be restored in 3D among a plurality of images stored in the memory 340 .
- the processor 350 may identify an image including a human object as an image capable of being 3D restored.
- the processor 350 may identify an image in which a face region of the human object appears among images including the human object.
- the processor 350 may identify an image selected by the user.
- the processor 350 may control the communication interface 330 to transmit the identified image to an external device.
- the processor 350 may render the created 3D avatar. And, the processor 350 may control the display 320 to display the rendered 3D avatar.
- FIG. 4 is a diagram for explaining a method for acquiring a 3D shape model according to an embodiment of the present disclosure.
- the electronic device 200 may acquire an image 41 including a human object 1 .
- the electronic device 200 may obtain information about a region corresponding to the human object 1 by inputting the image 41 to the first neural network model NN1.
- the first neural network model NN1 may be a neural network model learned to extract a region corresponding to an object.
- the electronic device 200 may acquire posture information of the human object 1 by inputting the image 41 to the second neural network model NN2.
- the second neural network model NN2 may be a neural network model trained to estimate the posture of an object.
- the electronic device 200 inputs information about a region corresponding to the human object 1 and posture information of the human object 1 to the third neural network model NN3 to generate a 3D shape model (corresponding to the human object 1). 42) can be obtained.
- the third neural network model NN3 may be a neural network model trained to generate a 3D shape model.
- the first neural network model NN1, the second neural network model NN2, and the third neural network model NN3 may be integrated into one neural network model.
- the electronic device 200 may acquire information about the 3D shape model 42 by inputting the image 41 to the integrated neural network model.
- FIG. 5 is a diagram for explaining a method for obtaining a 3D shape model according to an embodiment of the present disclosure.
- the electronic device 200 may acquire a photographed image 51 of a face 2 of a human object.
- the captured image 51 may be stored in the user terminal.
- the electronic device 200 may obtain a 3D face model 52 corresponding to the face 2 by reconstructing the face 2 of the human object (S510).
- the electronic device 200 may acquire the 3D face model 52 by inputting the photographed image 51 to the sixth neural network model learned to reconstruct the face.
- the electronic device 200 may synthesize the 3D face model 52 and the 3D shape model 53 corresponding to the human object to obtain a new 3D shape model 54 with improved quality of the face region.
- FIG. 6 is a diagram for explaining a texture mapping method according to an embodiment of the present disclosure.
- the electronic device 200 may project the texture of the image 61 including the human object 1 onto the first 3D shape model 62 corresponding to the human object 1 (S610). ). Accordingly, the electronic device 200 may acquire the second 3D shape model 63 in which the texture is projected onto the first region.
- the electronic device 200 may obtain identification information 64 for each region of the second 3D shape model 63 by performing segmentation on the second 3D shape model 63 (S620). For example, the electronic device 200 may obtain identification information for each of the head, arm, and leg parts of the second 3D shape model 63 .
- the electronic device 200 may perform texture in-painting on the second 3D shape model 63 based on the identification information 64 for each region of the second 3D shape model 63 (S630). Accordingly, the electronic device 200 may acquire a third 3D shape model 65 in which the texture is projected on the entire area of the second 3D shape model 63 .
- the electronic device 200 may project the texture of the first area (eg, the front area) to the second area (eg, the rear area) as it is. there is.
- the electronic device 200 may not project the texture of the first area onto the second area as it is.
- the electronic device 200 may project the texture of a specific region (eg, hair) of the head onto the second region (ie, the back of the head) of the head.
- the electronic device 200 may produce a more natural texture by performing texture mapping in consideration of the characteristics of each part of the 3D shape model.
- FIG. 7 is a diagram for explaining a texture mapping method according to an embodiment of the present disclosure.
- the electronic device 200 generates an image 71 including a human object 1, a 3D shape model 72 corresponding to the human object 1, and each region of the 3D shape model 72.
- Information 74 on a texture to be projected onto the 3D shape model 72 may be acquired by inputting the identification information 73 to the fourth neural network model NN4.
- the electronic device 200 may perform texture mapping on the 3D shape model 72 based on the acquired texture information 74 .
- the fourth neural network model NN4 may be a neural network model learned to obtain texture information corresponding to the 3D shape model.
- FIG. 8 is a diagram for explaining a rigging method according to an embodiment of the present disclosure.
- the electronic device 200 performs rigging on a 3D shape model 82 based on posture information 81 of a human object and a 3D shape model 82 corresponding to the human object. It can (S810).
- the electronic device 200 may define a relationship between each joint constituting the 3D shape model 82 and the surface of the 3D shape model 82 .
- the electronic device 200 may obtain joint information 83 of the 3D shape model 82 by performing rigging.
- the joint information 83 may include parameters corresponding to each joint constituting the 3D shape model 82 .
- a parameter corresponding to each joint may be related to a correlation between each joint and the surface of the 3D shape model 82 .
- the electronic device 200 may generate a 3D avatar 85 corresponding to a human object based on joint information 83 and texture information 84 . That is, the electronic device 200 may generate the 3D avatar 85 by performing rigging and texture mapping on the 3D shape model 82 .
- FIG. 9 is a flowchart illustrating a control method of an electronic device according to an embodiment of the present disclosure.
- the electronic device 200 may acquire a first image of a face of a human object (S910).
- the electronic device 200 may extract feature values and parameters for each element of the face of the human object. For example, the electronic device 200 may obtain feature values for each element of the human object, such as the eyes, nose, and mouth. Also, the electronic device 200 may extract parameters for each element of the face of the human object based on the acquired feature values. The electronic device 200 may obtain feature values and parameters using a neural network model.
- the electronic device 200 may obtain a 3D face model corresponding to the face of the human object based on the acquired parameters (S930). For example, the electronic device 200 may obtain a 3D face model by inputting parameters to a pre-stored 3D face generating program. The electronic device 200 may obtain a second image based on the 3D face model (S940). The electronic device 200 may acquire the second image by performing 2D rendering on the 3D face model. The electronic device 200 may determine whether the difference between the first image and the second image is equal to or less than a preset value (S950). For example, the electronic device 200 may calculate a difference between the first image and the second image by comparing pixel values of the first image and the second image.
- a preset value S950
- the electronic device 200 may store the obtained parameter (S960).
- the electronic device 200 may generate a 3D face model by inputting parameters to a pre-stored 3D face generation program.
- the electronic device 200 may increase the quality of the face region of the 3D shape model by synthesizing the 3D face model with the 3D shape model corresponding to the human object.
- the electronic device 200 may newly extract feature values and parameters for each element of the face of the human object (S920). .
- FIG. 10 is a sequence diagram for explaining a 3D avatar generation system according to an embodiment of the present disclosure.
- a 3D avatar creation system 1000 may include a user terminal 101 and a server 102 .
- the user terminal 101 may obtain an image including a human object (S1010).
- the user terminal 101 may identify an image including a human object among images stored in the user terminal 101 .
- the user terminal 101 may identify an image based on a user command for selecting a specific image.
- the user terminal 101 may transmit an image including a human object to the server 102 (S1020).
- the server 102 may generate a 3D avatar corresponding to the human object based on the image (S1030).
- the method for generating a 3D avatar has been described above with reference to FIGS. 2 to 8 , so detailed descriptions thereof will be omitted.
- the server 102 may determine whether the quality of the 3D avatar is equal to or greater than a preset quality (S1040). When the quality of the 3D avatar is equal to or higher than the predetermined quality (S1040-Y), the server 102 may store information on the 3D avatar (S1050). And, the server 102 may transmit information about the 3D avatar to the user terminal 101 (S1060). The user terminal 101 may render and output 3D content based on information about the 3D avatar (S1070). If the quality of the 3D avatar is lower than the preset quality (S1040-N), the server 102 may regenerate a new 3D avatar corresponding to the human object (S1030).
- a preset quality S1040
- the server 102 may store information on the 3D avatar (S1050). And, the server 102 may transmit information about the 3D avatar to the user terminal 101 (S1060). The user terminal 101 may render and output 3D content based on information about the 3D avatar (S1070). If the quality of the 3D avatar is lower than
- FIG. 11 is a flowchart illustrating a control method of an electronic device according to an embodiment of the present disclosure.
- the electronic device 200 may acquire an image including a human object (S1110).
- the electronic device 200 may obtain a 3D shape model corresponding to the human object included in the image (S1120).
- the electronic device 200 may acquire information about a region where a human object exists in an image by inputting an image to a first neural network model trained to identify a region corresponding to a preset object.
- the electronic device 200 may acquire posture information of a human object by inputting an image to the second neural network model trained to estimate the posture of the object.
- the electronic device 200 may acquire information about the 3D shape model by inputting information about a region in which a human object exists in an image and information on the posture of the human object to a third neural network model learned to generate a 3D shape model. there is.
- the electronic device 200 may acquire a photographed image of a face of a human object.
- the electronic device 200 may acquire a 3D face model of a human object by inputting a photographed image to a sixth neural network model learned to reconstruct a face.
- the electronic device 200 may synthesize a 3D shape model and a 3D face model. Accordingly, it is possible to obtain a 3D shape model in which the quality of the face region is improved.
- the electronic device 200 may map the texture of the image to the 3D shape model based on the identification information for each region of the 3D shape model (S1130).
- the electronic device 200 may obtain a first 3D shape model by mapping the texture of the image to the first region of the 3D shape model.
- the electronic device 200 may obtain the second 3D shape model by mapping the texture of the image to the second area instead of the first area among the areas of the 3D shape model.
- the electronic device 200 may obtain identification information for each region of the 3D shape model by performing image segmentation on the first 3D shape model.
- the electronic device 200 inputs an image, information on a 3D shape model, and identification information to a fourth neural network model trained to obtain information on a texture corresponding to a 3D shape model, thereby providing information on a texture to be mapped to a 3D shape model. can be obtained.
- the electronic device 200 may perform texture mapping on the 3D shape model based on the acquired texture information.
- the electronic device 200 may generate a 3D avatar corresponding to the human object based on the 3D shape model to which the texture of the image is mapped (S1140).
- the electronic device 200 may acquire joint information corresponding to the human object by inputting information about the 3D shape model and posture information of the human object to the fifth neural network model learned to obtain joint information.
- the electronic device 200 may generate a 3D avatar based on the 3D shape model to which the texture of the image is mapped and joint information.
- embodiments described above may be implemented in a recording medium readable by a computer or a similar device using software, hardware, or a combination thereof.
- the embodiments described herein may be implemented in a processor itself.
- embodiments such as procedures and functions described in this specification may be implemented as separate software modules. Each of the software modules may perform one or more functions and operations described herein.
- Computer instructions for performing processing operations according to various embodiments of the present disclosure described above may be stored in a non-transitory computer-readable medium.
- Computer instructions stored in such a non-transitory computer readable medium may cause a specific device to perform processing operations according to various embodiments described above when executed by a processor.
- a non-transitory computer readable medium is a medium that stores data semi-permanently and is readable by a device, not a medium that stores data for a short moment, such as a register, cache, or memory.
- Specific examples of the non-transitory computer readable media may include CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.
- the device-readable storage medium may be provided in the form of a non-transitory storage medium.
- 'non-temporary storage medium' only means that it is a tangible device and does not contain signals (e.g., electromagnetic waves), and this term refers to the case where data is stored semi-permanently in the storage medium and temporary It does not discriminate if it is saved as .
- a 'non-temporary storage medium' may include a buffer in which data is temporarily stored.
- the method according to various embodiments disclosed in this document may be provided by being included in a computer program product.
- Computer program products may be traded between sellers and buyers as commodities.
- a computer program product is distributed in the form of a device-readable storage medium (e.g. compact disc read only memory (CD-ROM)), or through an application store (e.g. Play StoreTM) or on two user devices (e.g. It can be distributed (eg downloaded or uploaded) online, directly between smartphones.
- a part of a computer program product eg, a downloadable app
- a device-readable storage medium such as a memory of a manufacturer's server, an application store server, or a relay server. It can be temporarily stored or created temporarily.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Geometry (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
전자 장치가 개시된다. 본 개시에 따른 전자 장치는, 통신 회로를 포함하는 통신 인터페이스; 적어도 하나의 인스트럭션을 저장하는 메모리; 및 프로세서;를 포함하고, 프로세서는, 사람 오브젝트를 포함하는 이미지를 획득하고, 이미지에 포함된 사람 오브젝트에 대응되는 3D 형상 모델을 획득하고, 3D 형상 모델의 각 영역 별 식별 정보에 기초하여 이미지의 텍스처를 3D 형상 모델에 매핑하고, 이미지의 텍스처가 매핑된 3D 형상 모델에 기초하여 사람 오브젝트에 대응되는 3D 아바타를 생성한다.
Description
본 개시는 전자 장치 및 그 제어 방법으로, 보다 상세하게는, 이미지에 포함된 사람 오브젝트에 대응되는 3D 아바타를 획득하는 전자 장치 및 그 제어 방법에 관한 것이다.
근래에는 인공 지능 시스템이 다양한 분야에서 이용되고 있다. 인공 지능 시스템은 기존의 룰(rule) 기반 스마트 시스템과 달리 기계가 스스로 학습시키고 판단하며 똑똑해지는 시스템이다. 인공 지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 룰 기반 스마트 시스템은 점차 딥러닝 기반 인공 지능 시스템으로 대체되고 있다.
인공 지능 기술은 기계학습(예로, 딥러닝) 및 기계 학습을 활용한 요소 기술들로 구성된다. 기계 학습은 입력 데이터들의 특징을 스스로 분류/학습시키는 알고리즘 기술이며, 요소 기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 수행하기 위한 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다. 특히, 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화 시스템, 질의 응답, 음성 인식/합성 등을 포함한다.
한편, 최근에는 인공 지능 모델을 이용하여 사람에 대응되는 3D 아바타를 생성하는 기술에 대한 연구가 활발히 진행 중이다. 기존의 아바타 생성 시스템은, 사용자의 얼굴 사진을 캡쳐한 뒤, 3D 얼굴 모델을 생성하고 얼굴을 제외한 나머지 부분들은 기존의 템플릿 모델을 활영하여 3D 아바타를 생성하였다. 때문에, 생성된 3D 아바타가 실제 사용자의 모습과 닮지 않는다는 문제가 있었다. 또한, 3D 아바타 생성을 위해서는 다양한 각도에서 사용자를 촬영한 다수의 이미지가 필요하였으며, 사람이 매뉴얼하게 리깅하는 작업을 수행해야만 했다.
이에 따라, 사용자의 추가적인 리깅 작업 없이 사용자를 촬영한 하나의 이미지만으로도 사용자의 실제 모습과 닮은 3D 아바타를 생성할 수 있는 기술이 필요한 실정이다.
본 발명이 해결하고자 하는 일 기술적 과제는, 사용자를 촬영한 하나의 이미지로 사용자의 실제 모습과 닮은 3D 아바타를 생성하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.
상술한 기술적 과제를 해결하기 위한 본 개시의 예시적인 일 실시 예에 따르면, 전자 장치에 있어서, 통신 회로를 포함하는 통신 인터페이스; 적어도 하나의 인스트럭션을 저장하는 메모리; 및 프로세서;를 포함하고, 상기 프로세서는, 사람 오브젝트를 포함하는 이미지를 획득하고, 상기 이미지에 포함된 사람 오브젝트에 대응되는 3D 형상 모델을 획득하고, 상기 3D 형상 모델의 각 영역 별 식별 정보에 기초하여 상기 이미지의 텍스처를 상기 3D 형상 모델에 매핑하고, 상기 이미지의 텍스처가 매핑된 상기 3D 형상 모델에 기초하여 상기 사람 오브젝트에 대응되는 3D 아바타를 생성하는 전자 장치가 제공될 수 있다.
상기 프로세서는, 상기 이미지의 텍스처를 상기 3D 형상 모델의 제1 영역에 매핑하여 제1 3D 형상 모델을 획득하고, 상기 식별 정보에 기초하여 상기 3D 형상 모델의 영역 중 상기 제1 영역이 아닌 제2 영역에 상기 이미지의 텍스처를 매핑하여 제2 3D 형상 모델을 획득할 수 있다.
상기 프로세서는, 상기 제1 3D 형상 모델에 대해 이미지 세그멘테이션(image segmentation)을 수행하여 상기 3D 형상 모델의 각 영역 별 식별 정보를 획득할 수 있다.
상기 프로세서는, 기설정된 오브젝트에 대응되는 영역을 식별하도록 학습된 제1 신경망 모델에 상기 이미지를 입력하여 상기 이미지에서 상기 사람 오브젝트가 존재하는 영역에 대한 정보를 획득하고, 오브젝트의 자세를 추정하도록 학습된 제2 신경망 모델에 상기 이미지를 입력하여 상기 사람 오브젝트의 자세 정보를 획득하고, 3D 형상 모델을 생성하도록 학습된 제3 신경망 모델에 상기 이미지에서 상기 사람 오브젝트가 존재하는 상기 영역에 대한 정보 및 상기 사람 오브젝트의 상기 자세 정보를 입력하여 상기 3D 형상 모델에 대한 정보를 획득할 수 있다.
상기 프로세서는, 3D 형상 모델에 대응되는 텍스처에 대한 정보를 획득하도록 학습된 제4 신경망 모델에 상기 이미지, 상기 3D 형상 모델에 대한 정보 및 상기 식별 정보를 입력하여 상기 3D 형상 모델에 매핑될 텍스처에 대한 정보를 획득하고, 상기 획득된 텍스처에 대한 정보에 기초하여 상기 3D 형상 모델에 텍스처 매핑을 수행할 수 있다.
상기 프로세서는, 조인트 정보를 획득하도록 학습된 제5 신경망 모델에 상기 3D 형상 모델에 대한 정보 및 상기 사람 오브젝트의 자세 정보를 입력하여 상기 사람 오브젝트에 대응되는 조인트 정보를 획득하고, 상기 이미지의 텍스처가 매핑된 상기 3D 형상 모델 및 상기 조인트 정보에 기초하여 상기 3D 아바타를 생성할 수 있다.
상기 프로세서는, 상기 사람 오브젝트의 얼굴을 촬영한 촬영 이미지를 획득하고, 얼굴을 재구성하도록 학습된 제6 신경망 모델에 상기 촬영 이미지를 입력하여 상기 사람 오브젝트의 3D 얼굴 모델을 획득하고, 상기 3D 형상 모델과 상기 3D 얼굴 모델을 합성할 수 있다.
상기 프로세서는, 상기 3D 아바타의 품질이 기설정된 품질 이상이면, 상기 3D 아바타에 대한 정보를 외부 장치로 전송하도록 상기 통신 인터페이스를 제어할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 개시의 예시적인 일 실시 예에 따르면, 전자 장치의 제어 방법에 있어서, 사람 오브젝트를 포함하는 이미지를 획득하는 단계; 상기 이미지에 포함된 사람 오브젝트에 대응되는 3D 형상 모델을 획득하는 단계; 상기 3D 형상 모델의 각 영역 별 식별 정보에 기초하여 상기 이미지의 텍스처를 상기 3D 형상 모델에 매핑하는 단계; 및 상기 이미지의 텍스처가 매핑된 상기 3D 형상 모델에 기초하여 상기 사람 오브젝트에 대응되는 3D 아바타를 생성하는 단계;를 포함하는 제어 방법이 제공될 수 있다.
상기 이미지의 텍스처를 상기 3D 형상 모델에 매핑하는 단계는, 상기 이미지의 텍스처를 상기 3D 형상 모델의 제1 영역에 매핑하여 제1 3D 형상 모델을 획득하는 단계, 및 상기 식별 정보에 기초하여 상기 3D 형상 모델의 영역 중 상기 제1 영역이 아닌 제2 영역에 상기 이미지의 텍스처를 매핑하여 제2 3D 형상 모델을 획득하는 단계를 포함할 수 있다.
상기 제어 방법은, 상기 제1 3D 형상 모델에 대해 이미지 세그멘테이션(image segmentation)을 수행하여 상기 3D 형상 모델의 각 영역 별 식별 정보를 획득하는 단계;를 더 포함할 수 있다.
상기 3D 형상 모델을 획득하는 단계는, 기설정된 오브젝트에 대응되는 영역을 식별하도록 학습된 제1 신경망 모델에 상기 이미지를 입력하여 상기 이미지에서 상기 사람 오브젝트가 존재하는 영역에 대한 정보를 획득하는 단계, 오브젝트의 자세를 추정하도록 학습된 제2 신경망 모델에 상기 이미지를 입력하여 상기 사람 오브젝트의 자세 정보를 획득하는 단계, 및 3D 형상 모델을 생성하도록 학습된 제3 신경망 모델에 상기 이미지에서 상기 사람 오브젝트가 존재하는 상기 영역에 대한 정보 및 상기 사람 오브젝트의 상기 자세 정보를 입력하여 상기 3D 형상 모델에 대한 정보를 획득하는 단계를 포함할 수 있다.
상기 이미지의 텍스처를 상기 3D 형상 모델에 매핑하는 단계는, 3D 형상 모델에 대응되는 텍스처에 대한 정보를 획득하도록 학습된 제4 신경망 모델에 상기 이미지, 상기 3D 형상 모델에 대한 정보 및 상기 식별 정보를 입력하여 상기 3D 형상 모델에 매핑될 텍스처에 대한 정보를 획득하는 단계, 및 상기 획득된 텍스처에 대한 정보에 기초하여 상기 3D 형상 모델에 텍스처 매핑을 수행하는 단계를 포함할 수 있다.
상기 제어 방법은, 조인트 정보를 획득하도록 학습된 제5 신경망 모델에 상기 3D 형상 모델에 대한 정보 및 상기 사람 오브젝트의 자세 정보를 입력하여 상기 사람 오브젝트에 대응되는 조인트 정보를 획득하는 단계;를 더 포함하고, 상기 3D 아바타를 생성하는 단계는, 상기 이미지의 텍스처가 매핑된 상기 3D 형상 모델 및 상기 조인트 정보에 기초하여 상기 3D 아바타를 생성할 수 있다.
상기 제어 방법은, 상기 사람 오브젝트의 얼굴을 촬영한 촬영 이미지를 획득하는 단계; 및 얼굴을 재구성하도록 학습된 제6 신경망 모델에 상기 촬영 이미지를 입력하여 상기 사람 오브젝트의 3D 얼굴 모델에 대한 정보를 획득하는 단계;를 더 포함하고, 상기 3D 형상 모델을 획득하는 단계는, 상기 3D 형상 모델과 상기 3D 얼굴 모델을 합성하는 단계를 포함할 수 있다.
상기 제어 방법은, 상기 3D 아바타의 품질이 기설정된 품질 이상이면, 상기 3D 아바타에 대한 정보를 외부 장치로 전송하는 단계;를 더 포함할 수 있다.
본 개시의 과제의 해결 수단이 상술한 해결 수단들로 제한되는 것은 아니며, 언급되지 아니한 해결 수단들은 본 명세서 및 첨부된 도면으로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
이상과 같은 본 개시의 다양한 실시 예에 따르면, 전자 장치는 사용자를 촬영한 하나의 이미지로 사용자의 실제 모습과 닮은 3D 아바타를 생성할 수 있다.
이상과 같은 본 개시의 다양한 실시 예에 따르면, 전자 장치는 자동을 리깅을 수행하여 3D 아바타를 생성할 수 있다. 이에 따라, 사용자의 편의성이 향상될 수 있다.
그 외에 본 개시의 실시 예로 인하여 얻을 수 있거나 예측되는 효과에 대해서는 본 개시의 실시 예에 대한 상세한 설명에서 직접적 또는 암시적으로 개시하도록 한다. 예컨대, 본 개시의 실시 예에 따라 예측되는 다양한 효과에 대해서는 후술될 상세한 설명 내에서 개시될 것이다.
본 개시의 다른 양상, 이점 및 두드러진 특징들은 첨부된 도면과 관련하여 본 발명의 다양한 실시 예들을 개시하는 다음의 상세한 설명으로부터 당업자에게 명백해질 것이다.
본 개시의 특정 실시 예의 양상, 특징 및 이점은 첨부된 도면들을 참조하여 후술되는 설명을 통해 보다 명확해질 것이다.
도 1은 본 개시의 일 실시 예에 따른 3D 아바타 생성 시스템을 설명하기 위한 도면이다.
도 2는 본 개시의 제1 실시 예에 따른 전자 장치의 구성을 도시한 블록도이다.
도 3은 본 개시의 제2 실시 예에 따른 전자 장치의 구성을 도시한 블록도이다.
도 4는 본 개시의 일 실시 예에 따른 3D 형상 모델 획득 방법을 설명하기 위한 도면이다.
도 5는 본 개시의 일 실시 예에 따른 3D 형상 모델 획득 방법을 설명하기 위한 도면이다.
도 6은 본 개시의 일 실시 예에 따른 텍스처 매핑 방법을 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시 예에 따른 텍스처 매핑 방법을 설명하기 위한 도면이다.
도 8은 본 개시의 일 실시 예에 따른 리깅 방법을 설명하기 위한 도면이다.
도 9는 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 도시한 순서도이다.
도 10은 본 개시의 일 실시 예에 따른 3D 아바타 생성 시스템을 설명하기 위한 시퀀스도이다.
도 11은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 도시한 순서도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.
본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 개시의 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시 예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
아래에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 본 개시의 일 실시 예에 따른 3D 아바타 생성 시스템을 설명하기 위한 도면이다.
도 1을 참조하면, 3D 아바타 생성 시스템(1000)은 사용자 단말(101) 및 서버(102)를 포함할 수 있다. 사용자 단말(101)은 사용자 단말(101)에 저장된 사람 오브젝트(1)를 포함하는 이미지(11)를 식별할 수 있다. 예를 들어, 사용자 단말(101)은 저장된 복수의 이미지 중 사람 오브젝트를 포함하는 이미지를 검색하여 이미지(11)를 식별할 수 있다. 또는, 사용자 단말(101)은 특정 이미지를 선택하는 사용자 명령에 기초하여 이미지(11)를 식별할 수 있다.
사용자 단말(101)은 이미지(11)를 서버(102)로 전송할 수 있다. 서버(102)는 사람 오브젝트(1)에 대응되는 3D 아바타(12)를 생성할 수 있다. 예를 들어, 서버(102)는 3D 아바타(12)에 대한 정보를 사용자 단말(101)로 전송할 수 있다. 사용자 단말(101)은 3D 아바타(12)에 대한 정보에 기초하여 3D 컨텐츠를 렌더링하여 출력할 수 있다.
기존의 아바타 생성 시스템에서는 3D 아바타를 생성하기 위해 동일한 환경을 다양한 각도에서 촬영된 복수의 이미지가 필요하였다. 본 개시의 다양한 실시예는 단 하나의 이미지로 3D 아바타를 생성하기 위한 시스템 및 방법을 제공한다. 예를 들어, 본 개시에 따른 3D 아바타 생성 시스템(1000)에서는 사용자 단말(101)에 저장된 하나의 이미지(11)만으로도 3D 아바타(12)가 생성될 수 있다. 따라서, 3D 아바타 생성 시스템(1000)은 기존의 아바타 생성 시스템에 비해 간편하게 3D 아바타(12)를 생성할 수 있다는 장점이 있다.
도 2는 본 개시의 제1 실시 예에 따른 전자 장치의 구성을 도시한 블록도이다.
도 2를 참조하면, 전자 장치(200)는 통신 인터페이스(210), 메모리(220) 및 프로세서(230)를 포함할 수 있다. 예를 들어, 전자 장치(200)는 도 1의 서버(102)일 수 있다.
통신 인터페이스(210)는 적어도 하나의 통신 회로를 포함하며, 다양한 유형의 외부 기기 또는 외부 서버와 통신을 수행할 수 있다. 예를 들어, 통신 인터페이스(210)는 외부 장치로부터 사람 오브젝트를 포함하는 이미지를 수신할 수 있다. 또는, 통신 인터페이스(210)는 이미지에 기초하여 생성된 3D 아바타에 대한 정보를 외부 장치로 전송할 수 있다.
한편, 통신 인터페이스(210)는 와이파이 통신 모듈, 셀룰러 통신모듈, 3G(3세대) 이동통신 모듈, 4G(4세대) 이동통신 모듈, 4세대 LTE(Long Term Evolution) 통신 모듈, 5G(5세대) 이동통신 모듈 중 적어도 하나를 포함할 수 있다.
메모리(220)는 전자 장치(200)의 구성요소들의 전반적인 동작을 제어하기 위한 운영체제(OS: Operating System) 및 전자 장치(200)의 구성요소와 관련된 명령 또는 데이터를 저장할 수 있다. 메모리(220)는 3D 아바타를 생성하기 위한 모듈이 각종 동작을 수행하기 위해 필요한 데이터를 저장할 수 있다. 메모리(220)는 3D 형상 모델 생성 모듈(231), 텍스처 매핑 모듈(232), 리깅 모듈(233), 얼굴 재구성 모듈(234) 및 3D 아바타 생성 모듈(235)을 포함할 수 있다. 또한, 메모리(220)는 3D 아바타를 생성하기 위해 필요한 신경망 모델을 저장할 수 있다. 한편, 메모리(220)는 비휘발성 메모리(ex: 하드 디스크, SSD(Solid state drive), 플래시 메모리), 휘발성 메모리 등으로 구현될 수 있다.
프로세서(230)는 메모리(220)와 전기적으로 연결되어 전자 장치(200)의 전반적인 기능 및 동작을 제어할 수 있다. 프로세서(230)는 통신 인터페이스(210)를 통해 사람 오브젝트를 포함하는 이미지가 수신되면, 비휘발성 메모리에 저장되어 있는 모듈(231 내지 235)이 각종 동작을 수행하기 위한 데이터를 휘발성 메모리로 로딩(loading)할 수 있다. 여기서, 로딩이란 프로세서(230)가 액세스할 수 있도록 비휘발성 메모리에 저장된 데이터를 휘발성 메모리에 불러들여 저장하는 동작을 의미한다.
3D 아바타 생성 모듈(235)은 사용자 오브젝트에 대응되는 3D 아바타를 생성하기 위한 모듈로, 3D 형상 모델 생성 모듈(231), 텍스처 매핑 모듈(232), 리깅 모듈(233) 및 얼굴 재구성 모듈(234)을 포함할 수 있다.
3D 형상 모델 생성 모듈(231)은 통신 인터페이스(210)를 통해 수신되는 이미지에 포함된 오브젝트에 대응되는 3D 형상 모델을 생성할 수 있다. 예를 들어, 3D 형상 모델 생성 모듈(231) 이미지에 포함된 사람 오브젝트에 대응되는 3D 형상 모델을 생성할 수 있다. 3D 형상 모델이란, 3차원 공간 상의 오브젝트 또는 폴리곤 메시(polygon mesh)를 의미할 수 있다.
3D 형상 모델 생성 모듈(231)은 신경망 모델을 이용하여 이미지에 포함된 사람 오브젝트에 대응되는 3D 형상 모델을 생성할 수 있다. 예를 들어, 3D 형상 모델 생성 모듈(231)은 기설정된 오브젝트에 대응되는 영역을 식별하도록 학습된 제1 신경망 모델에 이미지를 입력하여 이미지에서 사람 오브젝트가 존재하는 영역에 대한 정보를 획득할 수 있다. 또한, 3D 형상 모델 생성 모듈(231)은 오브젝트의 자세를 추정하도록 학습된 제2 신경망 모델에 이미지를 입력하여 사람 오브젝트의 자세 정보를 획득할 수 있다. 그리고, 3D 형상 모델 생성 모듈(231)은 3D 형상 모델을 생성하도록 학습된 제3 신경망 모델에 사람 오브젝트가 존재하는 영역에 대한 정보 및 사람 오브젝트의 자세 정보를 입력하여 3D 형상 모델에 대한 정보를 획득할 수 있다.
텍스처 매핑 모듈(232)은 3D 형상 모델에 대한 텍스처 매핑을 수행할 수 있다. 텍스처 매핑이란, 3D 형상 모델의 표면에 세부적인 질감의 묘사를 하거나 색을 칠하는 동작을 의미한다. 텍스처 매핑 모듈(232)은 이미지의 텍스처를 추출하고 추출된 텍스처를 3D 형상 모델에 투영할 수 있다. 예를 들어, 텍스처 매핑 모듈(232)은 이미지의 텍스처를 3D 형상 모델의 제1 영역(예로, 전면 영역)에 투영하여 제1 3D 형상 모델을 획득할 수 있다.
텍스처 매핑 모듈(232)은 3D 형상 모델의 각 영역 별 식별 정보에 기초하여 텍스처 매핑을 수행할 수 있다. 텍스처 매핑 모듈(232)은 식별 정보에 기초하여 3D 형상 모델의 영역 중 제1 영역이 아닌 제2 영역에 이미지의 텍스처를 매핑하여 제2 3D 형상 모델을 획득할 수 있다. 여기서, 식별 정보는, 특정 신체 부위에 대응되는 레이블 값을 포함할 수 있다. 일 예로, 3D 형상 모델의 영역 중 제1 식별 정보에 대응되는 머리 영역에 텍스처를 매핑하는 경우, 텍스처 매핑 모듈(232)은 3D 형상 모델의 제1 영역(얼굴 영역)에는 이미지(예로, 사용자의 정면을 촬영한 이미지)의 텍스처를 그대로 투영할 수 있다. 그리고, 텍스처 매핑 모듈(232)은 제2 영역(뒤통수 영역)에는 이미지의 텍스처 중 특정 영역(예로, 앞머리 영역)의 텍스처를 투영할 수 있다.
다른 일 예로, 3D 형상 모델의 영역 중 제2 식별 정보에 대응되는 몸통 영역에 텍스처를 매핑하는 경우, 텍스처 매핑 모듈(232)은 몸통 영역 전체에 이미지의 텍스처를 투영할 수 있다. 한편, 텍스처 매핑 모듈(232)은 제1 3D 형상 모델에 대해 이미지 세그멘테이션(image segmentation)을 수행하여 3D 형상 모델의 각 영역 별 식별 정보를 획득할 수 있다.
텍스처 매핑 모듈(232)은 신경망 모델을 이용하여 텍스처 매핑을 수행할 수 있다. 예를 들어, 텍스처 매핑 모듈(232)은 3D 형상 모델에 대응되는 텍스처에 대한 정보를 획득하도록 학습된 제4 신경망 모델에 이미지, 3D 형상 모델에 대한 정보 및 식별 정보를 입력하여 3D 형상 모델에 매핑될 텍스처에 대한 정보를 획득할 수 있다. 3D 형상 모델에 매핑될 텍스처에 대한 정보는 UV 맵에 대한 정보를 포함할 수 있다. 텍스처 매핑 모듈(232)은 제4 신경망 모델을 통해 획득된 텍스처에 대한 정보에 기초하여 3D 형상 모델에 텍스처 매핑을 수행할 수 있다.
리깅 모듈(233)은 3D 형상 모델 및 사람 오브젝트의 자세 정보에 기초하여 3D 형상 모델에 대한 리깅을 수행할 수 있다. 리깅 모듈(233)은 3D 형상 모델을 구성하는 각 조인트와 3D 형상 모델의 표면의 관계를 정의할 수 있다. 리깅 모듈(233)은 3D 형상 모델의 조인트 정보를 획득하여 메모리(220)에 저장할 수 있다. 3D 형상 모델의 조인트 정보란, 3D 형상 모델을 구성하는 각 조인트에 대응되는 파라미터를 포함할 수 있다. 각 조인트에 대응되는 파라미터는 각 조인트와 3D 형상 모델의 표면 간의 상관 관계와 관련될 수 있다. 예를 들어, 제1 조인트에 대응되는 제1 파라미터는 제1 조인트의 움직임에 따라 3D 형상 모델의 제1 영역의 표면이 어떻게 변하는 지에 대한 정보와 관련될 수 있다.
한편, 리깅 모듈(233)은 신경망 모델을 이용하여 3D 형상 모델의 조인트 정보를 획득할 수 있다. 예를 들어, 리깅 모듈(233)은 조인트 정보를 획득하도록 학습된 제5 신경망 모델에 3D 형상 모델에 대한 정보 및 사람 오브젝트의 자세 정보를 입력하여 사람 오브젝트에 대응되는 조인트 정보를 획득할 수 있다.
얼굴 재구성 모듈(234)은 사람 오브젝트의 얼굴을 촬영한 촬영 이미지에 기초하여 3D 얼굴 모델을 획득할 수 있다. 얼굴 재구성 모듈(234)은 3D 형상 모델 생성 모듈(231)에 의해 생성된 3D 형상 모델과 3D 얼굴 모델을 합성할 수 있다. 예를 들어, 3D 형상 모델의 얼굴 영역이 3D 얼굴 모델로 치환될 수 있다. 이에 따라, 3D 형상 모델의 얼굴 영역의 퀄리티가 향상될 수 있다. 한편, 텍스처 매핑 모듈(232)은 3D 형상 모델과 3D 얼굴 모델이 합성된 새로운 3D 형상 모델에 대해 텍스처 매핑을 수행할 수 있다. 또한, 리깅 모듈(233)은 새로운 3D 형상 모델의 조인트 정보를 획득할 수 있다.
3D 형상 모델에 대한 텍스처 매핑 및 리깅이 수행되면, 3D 형상 모델로부터 3D 아바타가 생성될 수 있다. 3D 아바타 생성 모듈(235)은 생성된 3D 아바타에 대한 정보를 메모리(220)에 저장할 수 있다. 한편, 3D 아바타 생성 모듈(235)은 기저장된 모션 파라미터에 기초하여 3D 아바타의 모션을 렌더링할 수 있다.
한편, 본 개시에 따른 인공지능과 관련된 기능은 프로세서(230)와 메모리(220)를 통해 동작된다. 프로세서(230)는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리(220)에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
인공지능 모델은 학습을 통해 만들어 질 수 있다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다.
인공지능 모델은 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계된 인공지능 전용 프로세서에 의해 처리될 수 있다. 인공지능 모델은 학습을 통해 만들어 질 수 있다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다.
인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), GAN (Generative Adversarial Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
한편, 전자 장치(100)는 사용자 음성을 전처리하기 위한 적응 반향 제거(adaptive echo canceller)(AEC) 모듈, 노이즈 억제(noise suppression)(NS) 모듈, 종점 검출(end-point detection)(EPD) 모듈 또는 자동 이득 제어(automatic gain control)(AGC) 모듈을 포함할 수 있다. 또한, 전자 장치(100)는 아날로그 음성 신호를 디지털 신호로 변경하거나, 저장된 디지털 영상 또는 디지털 음성 신호를 아날로그 신호로 변경하는 디지털신호처리부(DSP, digital signal processor)를 포함할 수 있다.
도 3은 본 개시의 제2 실시 예에 따른 전자 장치의 구성을 도시한 블록도이다.
도 3을 참조하면, 전자 장치(300)는 사용자 입력부(310), 디스플레이(320), 통신 인터페이스(330), 메모리(340) 및 프로세서(350)를 포함할 수 있다. 예를 들어, 전자 장치(300)는 도 1의 사용자 단말(101)일 수 있다. 한편, 통신 인터페이스(330), 메모리(340) 및 프로세서(350)는 도 2에서 서술한 통신 인터페이스(210), 메모리(220) 및 프로세서(230)에 대응될 수 있는 바, 중복되는 설명은 생략하도록 한다.
사용자 입력부(310)는 사용자 명령을 입력받기 위한 구성이다. 예를 들어, 프로세서(350)는 사용자 입력부(310)를 통해 특정 이미지를 선택하는 사용자 명령을 수신할 수 있다. 사용자 입력부(310)는 하나 이상의 버튼, 키보드, 마우스 등을 포함할 수 있으며, 사용자 명령을 모션 형태로 입력받기 위한 카메라를 포함할 수도 있다. 디스플레이(320)가 터치 패드 또는 터치 패널로 구현되는 경우, 디스플레이(320)는 사용자 명령을 터치 형태로 수신한다는 점에서 사용자 입력부(310)에 포함된다고 할 수 있다.
디스플레이(320)는 프로세서(350)의 제어에 따라 하나 이상의 이미지를 표시하기 위한 구성이다. 예를 들어, 디스플레이(320)는 렌더링된 3D 컨텐츠를 표시할 수 있다. 디스플레이(320)는 LCD(Liquid Crystal Display Panel), OLED(Organic Light Emitting Diodes) 등으로 구현될 수 있으며, 또한 디스플레이(320)는 플렉서블 디스플레이, 투명 디스플레이 등으로 구현될 수 있다. 다만, 본 개시에 따른 디스플레이(320)가 특정한 종류에 한정되는 것은 아니다.
프로세서(350)는 메모리(340)에 저장된 복수의 이미지들 중 3D로 복원 가능한 이미지를 식별할 수 있다. 예를 들어, 프로세서(350)는 사람 오브젝트를 포함하는 이미지를 3D로 복원 가능한 이미지로 식별할 수 있다. 프로세서(350)는 사람 오브젝트를 포함하는 이미지들 중 사람 오브젝트의 얼굴 영역이 나타나 있는 이미지를 식별할 수 있다. 또는, 프로세서(350)는 사용자에 의해 선택된 이미지를 식별할 수 있다. 프로세서(350)는 식별된 이미지를 외부 장치로 전송하도록 통신 인터페이스(330)를 제어할 수 있다.
프로세서(350)는 생성된 3D 아바타를 렌더링할 수 있다. 그리고, 프로세서(350)는 렌더링된 3D 아바타를 표시하도록 디스플레이(320)를 제어할 수 있다.
도 4는 본 개시의 일 실시 예에 따른 3D 형상 모델 획득 방법을 설명하기 위한 도면이다.
도 4를 참조하면, 전자 장치(200)는 사람 오브젝트(1)를 포함하는 이미지(41)를 획득할 수 있다. 전자 장치(200)는 이미지(41)를 제1 신경망 모델(NN1)에 입력하여 사람 오브젝트(1)에 대응되는 영역에 대한 정보를 획득할 수 있다. 제1 신경망 모델(NN1)은 오브젝트에 대응되는 영역을 추출하도록 학습된 신경망 모델일 수 있다. 전자 장치(200)는 이미지(41)를 제2 신경망 모델(NN2)에 입력하여 사람 오브젝트(1)의 자세 정보를 획득할 수 있다. 제2 신경망 모델(NN2)은 오브젝트의 자세를 추정하도록 학습된 신경망 모델일 수 있다. 전자 장치(200)는 사람 오브젝트(1)에 대응되는 영역에 대한 정보 및 사람 오브젝트(1)의 자세 정보를 제3 신경망 모델(NN3)에 입력하여 사람 오브젝트(1)에 대응되는 3D 형상 모델(42)에 대한 정보를 획득할 수 있다. 제3 신경망 모델(NN3)은 3D 형상 모델을 생성하도록 학습된 신경망 모델일 수 있다.
한편, 제1 신경망 모델(NN1), 제2 신경망 모델(NN2) 및 제3 신경망 모델(NN3)은 하나의 신경망 모델로 통합될 수 있다. 이 때, 전자 장치(200)는 통합된 신경망 모델에 이미지(41)를 입력하여 3D 형상 모델(42)에 대한 정보를 획득할 수 있다.
도 5는 본 개시의 일 실시 예에 따른 3D 형상 모델 획득 방법을 설명하기 위한 도면이다.
도 5를 참조하면, 전자 장치(200)는 사람 오브젝트의 얼굴(2)을 촬영한 촬영 이미지(51)를 획득할 수 있다. 촬영 이미지(51)는 사용자 단말에 저장되어 있을 수 있다. 전자 장치(200)는 사람 오브젝트의 얼굴(2)을 재구성하여 얼굴(2)에 대응되는 3D 얼굴 모델(52)을 획득할 수 있다(S510). 예를 들어, 전자 장치(200)는 얼굴을 재구성하도록 학습된 제6 신경망 모델에 촬영 이미지(51)를 입력하여 3D 얼굴 모델(52)을 획득할 수 있다. 전자 장치(200)는 3D 얼굴 모델(52) 및 사람 오브젝트에 대응되는 3D 형상 모델(53)을 합성하여 얼굴 영역의 퀄리티가 개선된 새로운 3D 형상 모델(54)을 획득할 수 있다.
도 6은 본 개시의 일 실시 예에 따른 텍스처 매핑 방법을 설명하기 위한 도면이다.
도 6을 참조하면, 전자 장치(200)는 사람 오브젝트(1)를 포함하는 이미지(61)의 텍스처를 사람 오브젝트(1)에 대응되는 제1 3D 형상 모델(62)에 투영할 수 있다(S610). 이에 따라, 전자 장치(200)는 제1 영역에 텍스처가 투영된 제2 3D 형상 모델(63)을 획득할 수 있다.
전자 장치(200)는 제2 3D 형상 모델(63)에 대해 세그멘테이션(segmentation)을 수행하여 상기 제2 3D 형상 모델(63)의 각 영역 별 식별 정보(64)를 획득할 수 있다(S620). 예를 들어, 전자 장치(200)는 제2 3D 형상 모델(63)의 머리 부분, 팔 부분 및 다리 부분 각각에 대한 식별 정보를 획득할 수 있다.
전자 장치(200)는 제2 3D 형상 모델(63)의 각 영역 별 식별 정보(64)에 기초하여 제2 3D 형상 모델(63)에 대해 텍스처 인 페인팅을 수행할 수 있다(S630). 이에 따라, 전자 장치(200)는 제2 3D 형상 모델(63)의 전체 영역에 텍스처가 투영된 제3 3D 형상 모델(65)을 획득할 수 있다.
예를 들어, 제2 3D 형상 모델(63)의 팔 부분에 대해서, 전자 장치(200)는 제1 영역(예로, 전면 영역)의 텍스처를 제2 영역(예로, 후면 영역)에도 그대로 투영할 수 있다. 다른 일 예로, 제2 3D 형상 모델(63)의 머리 부분에 대해서는, 전자 장치(200)는 제1 영역의 텍스처를 제2 영역에 그대로 투영하지 않을 수 있다. 이 때, 전자 장치(200)는 머리 부분의 특정 영역(예로, 머리 카락 부분)의 텍스처를 머리 부분의 제2 영역(즉, 뒤통수)에 투영할 수 있다. 이처럼, 전자 장치(200)는 3D 형상 모델의 각 부별 특징을 고려하여 텍스처 매핑을 수행함으로써 보다 자연스러운 텍스처를 연출할 수 있다.
도 7은 본 개시의 일 실시 예에 따른 텍스처 매핑 방법을 설명하기 위한 도면이다.
도 7을 참조하면, 전자 장치(200)는 사람 오브젝트(1)를 포함하는 이미지(71), 사람 오브젝트(1)에 대응되는 3D 형상 모델(72) 및 3D 형상 모델(72)의 각 영역 별 식별 정보(73)를 제4 신경망 모델(NN4)에 입력하여 3D 형상 모델(72)에 투영될 텍스처에 대한 정보(74)를 획득할 수 있다. 전자 장치(200)는 획득된 텍스처에 대한 정보(74)에 기초하여 3D 형상 모델(72)에 대한 텍스처 매핑을 수행할 수 있다. 제4 신경망 모델(NN4)은 3D 형상 모델에 대응되는 텍스처에 대한 정보를 획득하도록 학습된 신경망 모델일 수 있다.
도 8은 본 개시의 일 실시 예에 따른 리깅 방법을 설명하기 위한 도면이다.
도 8을 참조하면, 전자 장치(200)는 사람 오브젝트의 자세 정보(81) 및 사람 오브젝트에 대응되는 3D 형상 모델(82)에 기초하여 3D 형상 모델(82)에 대한 리깅(rigging)을 수행할 수 있다(S810). 예를 들어, 전자 장치(200)는 3D 형상 모델(82)을 구성하는 각 조인트와 3D 형상 모델(82)의 표면의 관계를 정의할 수 있다. 전자 장치(200)는 리깅을 수행하여 3D 형상 모델(82)의 조인트 정보(83)를 획득할 수 있다. 조인트 정보(83)는 3D 형상 모델(82)을 구성하는 각 조인트에 대응되는 파라미터를 포함할 수 있다. 각 조인트에 대응되는 파라미터는 각 조인트와 3D 형상 모델(82)의 표면 간의 상관 관계와 관련될 수 있다.
전자 장치(200)는 조인트 정보(83) 및 텍스처에 대한 정보(84)에 기초하여 사람 오브젝트에 대응되는 3D 아바타(85)를 생성할 수 있다. 즉, 전자 장치(200)는 3D 형상 모델(82)에 대한 리깅 및 텍스처 매핑을 수행하여 3D 아바타(85)를 생성할 수 있다.
도 9는 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 도시한 순서도이다.
도 9를 참조하면, 전자 장치(200)는 사람 오브젝트의 얼굴을 촬영한 제1 이미지를 획득할 수 있다(S910).
전자 장치(200)는 사람 오브젝트의 얼굴의 각 요소에 대한 특징 값 및 파라미터를 추출할 수 있다. 예를 들어, 전자 장치(200)는 사람 오브젝트의 눈, 코 및 입와 같은 각각의 요소에 대한 특징값을 획득할 수 있다. 그리고, 전자 장치(200)는 획득된 특징값에 기초하여 사람 오브젝트의 얼굴의 각 요소에 대한 파라미터를 추출할 수 있다. 전자 장치(200)는 신경망 모델을 이용하여 특징값 및 파리미터를 획득할 수 있다.
전자 장치(200)는 획득된 파라미터에 기초하여 사람 오브젝트의 얼굴에 대응되는 3D 얼굴 모델을 획득할 수 있다(S930). 예를 들어, 전자 장치(200)는 기저장된 3D 얼굴 생성 프로그램에 파라미터를 입력하여 3D 얼굴 모델을 획득할 수 있다. 전자 장치(200)는 3D 얼굴 모델에 기초하여 제2 이미지를 획득할 수 있다(S940). 전자 장치(200)는 3D 얼굴 모델에 대해 2D 렌더링을 수행하여 제2 이미지를 획득할 수 있다. 전자 장치(200)는 제1 이미지 및 제2 이미지의 차이가 기설정된 값 이하인지 판단할 수 있다(S950). 예를 들어, 전자 장치(200)는 제1 이미지 및 제2 이미지의 픽셀 값을 비교하여 제1 이미지 및 제2 이미지의 차이를 산출할 수 있다.
제1 이미지 및 제2 이미지의 차이가 기설정된 값 이하인 경우(S950-Y), 전자 장치(200)는 획득된 파라미터를 저장할 수 있다(S960). 그리고, 전자 장치(200)는 파라미터를 기저장된 3D 얼굴 생성 프로그램에 입력하여 3D 얼굴 모델을 생성할 수 있다. 전자 장치(200)는 3D 얼굴 모델을 사람 오브젝트에 대응되는 3D 형상 모델과 합성하여 3D 형상 모델의 얼굴 영역의 퀄리티를 증가시킬 수 있다. 제1 이미지 및 제2 이미지의 차이가 기설정된 값보다 작은 경우(S950-N), 전자 장치(200)는 사람 오브젝트의 얼굴의 각 요소에 대한 특징값 및 파라미터를 새롭게 추출할 수 있다(S920).
도 10은 본 개시의 일 실시 예에 따른 3D 아바타 생성 시스템을 설명하기 위한 시퀀스도이다.
도 10을 참조하면, 3D 아바타 생성 시스템(1000)은 사용자 단말(101) 및 서버(102)를 포함할 수 있다. 사용자 단말(101)은 사람 오브젝트를 포함하는 이미지를 획득할 수 있다(S1010). 예를 들어, 사용자 단말(101)은 사용자 단말(101)에 저장된 이미지들 중 사람 오브젝트를 포함하는 이미지를 식별할 수 있다. 또는, 사용자 단말(101)은 특정 이미지를 선택하는 사용자 명령에 기초하여 이미지를 식별할 수 있다.
사용자 단말(101)은 사람 오브젝트를 포함하는 이미지를 서버(102)로 전송할 수 있다(S1020). 서버(102)는 이미지에 기초하여 사람 오브젝트에 대응되는 3D 아바타를 생성할 수 있다(S1030). 3D 아바타를 생성하는 방법은, 도 2 내지 도 8을 참조하여 전술한 바 상세한 설명은 생략하도록 한다.
서버(102)는 3D 아바타의 품질이 기설정된 품질 이상인지 판단할 수 있다(S1040). 3D 아바타의 품질이 기설정된 품질 이상인 경우(S1040-Y), 서버(102)는 3D 아바타에 대한 정보를 저장할 수 있다(S1050). 그리고, 서버(102)는 3D 아바타에 대한 정보를 사용자 단말(101)로 전송할 수 있다(S1060). 사용자 단말(101)은 3D 아바타에 대한 정보에 기초하여 3D 컨텐츠를 렌더링하여 출력할 수 있다(S1070). 3D 아바타의 품질이 기설정된 품질보다 낮은 경우(S1040-N), 서버(102)는 사람 오브젝트에 대응되는 새로운 3D 아바타를 다시 생성할 수 있다(S1030).
도 11은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 도시한 순서도이다.
도 11을 참조하면, 전자 장치(200)는 사람 오브젝트를 포함하는 이미지를 획득할 수 있다(S1110). 전자 장치(200)는 이미지에 포함된 사람 오브젝트에 대응되는 3D 형상 모델을 획득할 수 있다(S1120). 전자 장치(200)는 기설정된 오브젝트에 대응되는 영역을 식별하도록 학습된 제1 신경망 모델에 이미지를 입력하여 이미지에서 사람 오브젝트가 존재하는 영역에 대한 정보를 획득할 수 있다. 전자 장치(200)는 오브젝트의 자세를 추정하도록 학습된 제2 신경망 모델에 이미지를 입력하여 사람 오브젝트의 자세 정보를 획득할 수 있다. 전자 장치(200)는 3D 형상 모델을 생성하도록 학습된 제3 신경망 모델에 이미지에서 사람 오브젝트가 존재하는 영역에 대한 정보 및 사람 오브젝트의 상기 자세 정보를 입력하여 3D 형상 모델에 대한 정보를 획득할 수 있다.
전자 장치(200)는 사람 오브젝트의 얼굴을 촬영한 촬영 이미지를 획득할 수 있다. 전자 장치(200)는 얼굴을 재구성하도록 학습된 제6 신경망 모델에 촬영 이미지를 입력하여 사람 오브젝트의 3D 얼굴 모델을 획득할 수 있다. 전자 장치(200)는 3D 형상 모델과 3D 얼굴 모델을 합성할 수 있다. 이에 따라, 얼굴 영역의 퀄리티가 개선된 3D 형상 모델을 획득할 수 있다.
전자 장치(200)는 3D 형상 모델의 각 영역 별 식별 정보에 기초하여 이미지의 텍스처를 3D 형상 모델에 매핑할 수 있다(S1130). 전자 장치(200)는 이미지의 텍스처를 3D 형상 모델의 제1 영역에 매핑하여 제1 3D 형상 모델을 획득할 수 있다. 전자 장치(200)는 식별 정보에 기초하여 3D 형상 모델의 영역 중 제1 영역이 아닌 제2 영역에 이미지의 텍스처를 매핑하여 제2 3D 형상 모델을 획득할 수 있다. 전자 장치(200)는 제1 3D 형상 모델에 대해 이미지 세그멘테이션(image segmentation)을 수행하여 3D 형상 모델의 각 영역 별 식별 정보를 획득할 수 있다.
전자 장치(200)는 3D 형상 모델에 대응되는 텍스처에 대한 정보를 획득하도록 학습된 제4 신경망 모델에 이미지, 3D 형상 모델에 대한 정보 및 식별 정보를 입력하여 3D 형상 모델에 매핑될 텍스처에 대한 정보를 획득할 수 있다. 전자 장치(200)는 획득된 텍스처에 대한 정보에 기초하여 3D 형상 모델에 텍스처 매핑을 수행할 수 있다.
전자 장치(200)는 이미지의 텍스처가 매핑된 3D 형상 모델에 기초하여 사람 오브젝트에 대응되는 3D 아바타를 생성할 수 있다(S1140). 전자 장치(200)는 조인트 정보를 획득하도록 학습된 제5 신경망 모델에 3D 형상 모델에 대한 정보 및 사람 오브젝트의 자세 정보를 입력하여 사람 오브젝트에 대응되는 조인트 정보를 획득할 수 있다. 전자 장치(200)는 이미지의 텍스처가 매핑된 3D 형상 모델 및 조인트 정보에 기초하여 3D 아바타를 생성할 수 있다.
한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시 예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 처리 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 처리 동작을 특정 기기가 수행하도록 할 수 있다.
비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.
한편, 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
Claims (15)
- 전자 장치에 있어서,통신 회로를 포함하는 통신 인터페이스;적어도 하나의 인스트럭션을 저장하는 메모리; 및상기 적어도 하나의 인스트럭션을 실행하는 프로세서;를 포함하고,상기 프로세서는,사람 오브젝트를 포함하는 이미지를 획득하고,상기 이미지에 포함된 사람 오브젝트에 대응되는 3D 형상 모델을 획득하고,상기 3D 형상 모델의 각 영역 별 식별 정보에 기초하여 상기 이미지의 텍스처를 상기 3D 형상 모델에 매핑하고,상기 이미지의 텍스처가 매핑된 상기 3D 형상 모델에 기초하여 상기 사람 오브젝트에 대응되는 3D 아바타를 생성하는전자 장치.
- 제1 항에 있어서,상기 프로세서는,상기 이미지의 텍스처를 상기 3D 형상 모델의 제1 영역에 매핑하여 제1 3D 형상 모델을 획득하고,상기 식별 정보에 기초하여 상기 3D 형상 모델의 영역 중 상기 제1 영역과 상이한 제2 영역에 상기 이미지의 텍스처를 매핑하여 제2 3D 형상 모델을 획득하는전자 장치.
- 제2 항에 있어서,상기 프로세서는,상기 제1 3D 형상 모델에 대해 이미지 세그멘테이션(image segmentation)을 수행하여 상기 3D 형상 모델의 각 영역 별 식별 정보를 획득하는전자 장치.
- 제1 항에 있어서,상기 프로세서는,기설정된 오브젝트에 대응되는 영역을 식별하도록 학습된 제1 신경망 모델에 상기 이미지를 입력하여 상기 이미지에서 상기 사람 오브젝트가 존재하는 영역에 대한 정보를 획득하고,오브젝트의 자세를 추정하도록 학습된 제2 신경망 모델에 상기 이미지를 입력하여 상기 사람 오브젝트의 자세 정보를 획득하고,3D 형상 모델을 생성하도록 학습된 제3 신경망 모델에 상기 이미지에서 상기 사람 오브젝트가 존재하는 상기 영역에 대한 정보 및 상기 사람 오브젝트의 상기 자세 정보를 입력하여 상기 3D 형상 모델에 대한 정보를 획득하는전자 장치.
- 제1 항에 있어서,상기 프로세서는,3D 형상 모델에 대응되는 텍스처에 대한 정보를 획득하도록 학습된 제4 신경망 모델에 상기 이미지, 상기 3D 형상 모델에 대한 정보 및 상기 식별 정보를 입력하여 상기 3D 형상 모델에 매핑될 텍스처에 대한 정보를 획득하고,상기 획득된 텍스처에 대한 정보에 기초하여 상기 3D 형상 모델에 텍스처 매핑을 수행하는전자 장치.
- 제1 항에 있어서,상기 프로세서는,조인트 정보를 획득하도록 학습된 제5 신경망 모델에 상기 3D 형상 모델에 대한 정보 및 상기 사람 오브젝트의 자세 정보를 입력하여 상기 사람 오브젝트에 대응되는 조인트 정보를 획득하고,상기 이미지의 텍스처가 매핑된 상기 3D 형상 모델 및 상기 조인트 정보에 기초하여 상기 3D 아바타를 생성하는전자 장치.
- 제1 항에 있어서,상기 프로세서는,상기 사람 오브젝트의 얼굴을 촬영한 촬영 이미지를 획득하고,얼굴을 재구성하도록 학습된 제6 신경망 모델에 상기 촬영 이미지를 입력하여 상기 사람 오브젝트의 3D 얼굴 모델을 획득하고,상기 3D 형상 모델과 상기 3D 얼굴 모델을 합성하는전자 장치.
- 제1 항에 있어서,상기 프로세서는,상기 3D 아바타의 품질이 기설정된 품질 이상이면, 상기 3D 아바타에 대한 정보를 외부 장치로 전송하도록 상기 통신 인터페이스를 제어하는전자 장치.
- 3D 아바타를 획득하기 위한 방법에 있어서,사람 오브젝트를 포함하는 이미지를 획득하는 단계;상기 이미지에 포함된 사람 오브젝트에 대응되는 3D 형상 모델을 획득하는 단계;상기 3D 형상 모델의 각 영역 별 식별 정보에 기초하여 상기 이미지의 텍스처를 상기 3D 형상 모델에 매핑하는 단계; 및상기 이미지의 텍스처가 매핑된 상기 3D 형상 모델에 기초하여 상기 사람 오브젝트에 대응되는 3D 아바타를 생성하는 단계;를 포함하는방법.
- 제9 항에 있어서,상기 이미지의 텍스처를 상기 3D 형상 모델에 매핑하는 단계는,상기 이미지의 텍스처를 상기 3D 형상 모델의 제1 영역에 매핑하여 제1 3D 형상 모델을 획득하는 단계, 및상기 식별 정보에 기초하여 상기 3D 형상 모델의 영역 중 상기 제1 영역과 상이한 제2 영역에 상기 이미지의 텍스처를 매핑하여 제2 3D 형상 모델을 획득하는 단계를 포함하는방법.
- 제10 항에 있어서,상기 제1 3D 형상 모델에 대해 이미지 세그멘테이션(image segmentation)을 수행하여 상기 3D 형상 모델의 각 영역 별 식별 정보를 획득하는 단계;를 더 포함하는방법.
- 제9 항에 있어서,상기 3D 형상 모델을 획득하는 단계는,기설정된 오브젝트에 대응되는 영역을 식별하도록 학습된 제1 신경망 모델에 상기 이미지를 입력하여 상기 이미지에서 상기 사람 오브젝트가 존재하는 영역에 대한 정보를 획득하는 단계,오브젝트의 자세를 추정하도록 학습된 제2 신경망 모델에 상기 이미지를 입력하여 상기 사람 오브젝트의 자세 정보를 획득하는 단계, 및3D 형상 모델을 생성하도록 학습된 제3 신경망 모델에 상기 이미지에서 상기 사람 오브젝트가 존재하는 상기 영역에 대한 정보 및 상기 사람 오브젝트의 상기 자세 정보를 입력하여 상기 3D 형상 모델에 대한 정보를 획득하는 단계를 포함하는방법.
- 제9 항에 있어서,상기 이미지의 텍스처를 상기 3D 형상 모델에 매핑하는 단계는,3D 형상 모델에 대응되는 텍스처에 대한 정보를 획득하도록 학습된 제4 신경망 모델에 상기 이미지, 상기 3D 형상 모델에 대한 정보 및 상기 식별 정보를 입력하여 상기 3D 형상 모델에 매핑될 텍스처에 대한 정보를 획득하는 단계, 및상기 획득된 텍스처에 대한 정보에 기초하여 상기 3D 형상 모델에 텍스처 매핑을 수행하는 단계를 포함하는방법.
- 제9 항에 있어서,조인트 정보를 획득하도록 학습된 제5 신경망 모델에 상기 3D 형상 모델에 대한 정보 및 상기 사람 오브젝트의 자세 정보를 입력하여 상기 사람 오브젝트에 대응되는 조인트 정보를 획득하는 단계;를 더 포함하고,상기 3D 아바타를 생성하는 단계는,상기 이미지의 텍스처가 매핑된 상기 3D 형상 모델 및 상기 조인트 정보에 기초하여 상기 3D 아바타를 생성하는방법.
- 제9 항에 있어서,상기 사람 오브젝트의 얼굴을 촬영한 촬영 이미지를 획득하는 단계; 및얼굴을 재구성하도록 학습된 제6 신경망 모델에 상기 촬영 이미지를 입력하여 상기 사람 오브젝트의 3D 얼굴 모델을 획득하는 단계;를 더 포함하고,상기 3D 형상 모델을 획득하는 단계는,상기 3D 형상 모델과 상기 3D 얼굴 모델을 합성하는 단계를 포함하는방법.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP22887703.1A EP4332905A4 (en) | 2021-10-29 | 2022-10-28 | ELECTRONIC DEVICE AND ASSOCIATED CONTROL METHOD |
| US18/208,976 US12444124B2 (en) | 2021-10-29 | 2023-06-13 | Electronic apparatus and method for controlling thereof |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020210146357A KR20230061776A (ko) | 2021-10-29 | 2021-10-29 | 전자 장치 및 그 제어 방법 |
| KR10-2021-0146357 | 2021-10-29 |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| US18/208,976 Continuation US12444124B2 (en) | 2021-10-29 | 2023-06-13 | Electronic apparatus and method for controlling thereof |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2023075508A1 true WO2023075508A1 (ko) | 2023-05-04 |
Family
ID=86160120
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/KR2022/016711 Ceased WO2023075508A1 (ko) | 2021-10-29 | 2022-10-28 | 전자 장치 및 그 제어 방법 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US12444124B2 (ko) |
| EP (1) | EP4332905A4 (ko) |
| KR (1) | KR20230061776A (ko) |
| WO (1) | WO2023075508A1 (ko) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119068091A (zh) * | 2024-08-16 | 2024-12-03 | 广州紫为云科技有限公司 | 一种三维头部模型纹理生成方法、装置和电子设备 |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20240096033A1 (en) * | 2021-10-11 | 2024-03-21 | Meta Platforms Technologies, Llc | Technology for creating, replicating and/or controlling avatars in extended reality |
| KR102746257B1 (ko) * | 2023-07-18 | 2024-12-26 | 주식회사 비브스튜디오스 | 3d 휴먼의 얼굴을 생성하는 방법 |
| WO2025105864A1 (ko) * | 2023-11-15 | 2025-05-22 | 주식회사 리브포워드 | 디지털 패브릭 제품의 생성 및 관리를 위한 전자 장치, 및 그 동작 방법 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20190112428A (ko) * | 2018-03-26 | 2019-10-07 | 한국전자통신연구원 | 통합 3d 객체모델 생성 및 의미론적 스타일전이 장치 및 방법 |
| KR102179584B1 (ko) * | 2020-04-16 | 2020-11-18 | 주식회사 딥노이드 | 의료영상 판독을 위한 인공지능 기반의 클라우드 플랫폼 시스템 |
| KR20210026521A (ko) * | 2019-08-30 | 2021-03-10 | 주식회사 케이티 | 헤어스타일 분석을 통한 3d 아바타를 생성하는 방법 및 장치 |
| KR102241153B1 (ko) * | 2019-07-01 | 2021-04-19 | 주식회사 시어스랩 | 2차원 이미지로부터 3차원 아바타를 생성하는 방법, 장치 및 시스템 |
Family Cites Families (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100327541B1 (ko) | 2000-08-10 | 2002-03-08 | 김재성, 이두원 | 3차원 얼굴 모델링 시스템 및 모델링 방법 |
| US7856125B2 (en) | 2006-01-31 | 2010-12-21 | University Of Southern California | 3D face reconstruction from 2D images |
| KR101072944B1 (ko) | 2009-08-31 | 2011-10-17 | 서울대학교산학협력단 | 3차원 인체 모델 생성 시스템 및 그 방법 |
| US10085005B2 (en) | 2015-04-15 | 2018-09-25 | Lytro, Inc. | Capturing light-field volume image and video data using tiled light-field cameras |
| EP3398168B1 (en) * | 2015-12-31 | 2022-04-13 | ML Netherlands C.V. | A method and device for real-time 3d capture and live feedback with monocular cameras |
| US20170353711A1 (en) | 2016-06-04 | 2017-12-07 | Shape Labs Inc. | System for capturing a textured 3d scan of a human body |
| US10559111B2 (en) * | 2016-06-23 | 2020-02-11 | LoomAi, Inc. | Systems and methods for generating computer ready animation models of a human head from captured data images |
| US10535163B2 (en) | 2016-12-01 | 2020-01-14 | Pinscreen, Inc. | Avatar digitization from a single image for real-time rendering |
| KR20180068485A (ko) | 2016-12-14 | 2018-06-22 | 한국전자통신연구원 | 인체 자세 정보 기반의 점진적 3차원 인체 복원장치 및 그 방법 |
| US10958887B2 (en) | 2019-01-14 | 2021-03-23 | Fyusion, Inc. | Free-viewpoint photorealistic view synthesis from casually captured video |
| JP2020149174A (ja) | 2019-03-12 | 2020-09-17 | ソニー株式会社 | 画像処理装置、および画像処理方法、並びにプログラム |
| US10769848B1 (en) | 2019-05-24 | 2020-09-08 | Adobe, Inc. | 3D object reconstruction using photometric mesh representation |
| US10891789B2 (en) | 2019-05-30 | 2021-01-12 | Itseez3D, Inc. | Method to produce 3D model from one or several images |
| US11514638B2 (en) * | 2020-09-02 | 2022-11-29 | Roblox Corporation | 3D asset generation from 2D images |
| CN112541963B (zh) | 2020-11-09 | 2023-12-26 | 北京百度网讯科技有限公司 | 三维虚拟形象生成方法、装置、电子设备和存储介质 |
| KR102245220B1 (ko) | 2020-11-09 | 2021-04-27 | 주식회사 엔닷라이트 | 딥러닝 기반으로 2차원 이미지로부터 3차원 모델을 복원하는 장치 및 그 방법 |
-
2021
- 2021-10-29 KR KR1020210146357A patent/KR20230061776A/ko active Pending
-
2022
- 2022-10-28 WO PCT/KR2022/016711 patent/WO2023075508A1/ko not_active Ceased
- 2022-10-28 EP EP22887703.1A patent/EP4332905A4/en active Pending
-
2023
- 2023-06-13 US US18/208,976 patent/US12444124B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20190112428A (ko) * | 2018-03-26 | 2019-10-07 | 한국전자통신연구원 | 통합 3d 객체모델 생성 및 의미론적 스타일전이 장치 및 방법 |
| KR102241153B1 (ko) * | 2019-07-01 | 2021-04-19 | 주식회사 시어스랩 | 2차원 이미지로부터 3차원 아바타를 생성하는 방법, 장치 및 시스템 |
| KR20210026521A (ko) * | 2019-08-30 | 2021-03-10 | 주식회사 케이티 | 헤어스타일 분석을 통한 3d 아바타를 생성하는 방법 및 장치 |
| KR102179584B1 (ko) * | 2020-04-16 | 2020-11-18 | 주식회사 딥노이드 | 의료영상 판독을 위한 인공지능 기반의 클라우드 플랫폼 시스템 |
Non-Patent Citations (2)
| Title |
|---|
| ALVAREZ DE LA CAMPA CRESPO, MERCE: "Universitat Politecnica de Catalunya 3D virtual body from a single image Supervised by", MASTER IN INNOVATION AND RESEARCH IN INFORMATICS FACULTAT D`INFORMATICA DE BARCELONA, UNIVERSITAT POLITECNICA DE CATALUNYA, 1 April 2020 (2020-04-01), Universitat Politecnica de Catalunya, XP093059985, [retrieved on 20230703] * |
| See also references of EP4332905A4 * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119068091A (zh) * | 2024-08-16 | 2024-12-03 | 广州紫为云科技有限公司 | 一种三维头部模型纹理生成方法、装置和电子设备 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20230326120A1 (en) | 2023-10-12 |
| KR20230061776A (ko) | 2023-05-09 |
| EP4332905A1 (en) | 2024-03-06 |
| EP4332905A4 (en) | 2024-10-09 |
| US12444124B2 (en) | 2025-10-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2023075508A1 (ko) | 전자 장치 및 그 제어 방법 | |
| WO2020162673A1 (en) | Electronic device for providing avatar animation and method thereof | |
| WO2019050360A1 (en) | ELECTRONIC DEVICE AND METHOD FOR AUTOMATICALLY SEGMENTING TO BE HUMAN IN AN IMAGE | |
| WO2019182346A1 (ko) | 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법 | |
| WO2024014819A1 (en) | Multimodal disentanglement for generating virtual human avatars | |
| WO2020130281A1 (en) | Electronic device and method for providing avatar based on emotion state of user | |
| CN113177892B (zh) | 生成图像修复模型的方法、设备、介质及程序产品 | |
| WO2022014790A1 (en) | Guided backpropagation-gradient updating for image processing task using redundant information from image | |
| WO2021256685A1 (ko) | 전자 장치 및 그 제어 방법 | |
| WO2021015403A1 (en) | Electronic apparatus and controlling method thereof | |
| WO2022004970A1 (ko) | 신경망 기반의 특징점 학습 장치 및 방법 | |
| WO2025028912A1 (ko) | 가상 객체를 생성하는 전자 장치 및 그 동작 방법 | |
| WO2022108008A1 (en) | Electronic apparatus and controlling method thereof | |
| WO2022177091A1 (ko) | 전자 장치 및 이의 제어 방법 | |
| WO2021261727A1 (ko) | 캡슐 내시경 영상 판독 시스템 및 방법 | |
| WO2023113548A1 (ko) | 전자 장치 및 그 제어 방법 | |
| CN111597926A (zh) | 图像处理方法及装置、电子设备及存储介质 | |
| CN115631274A (zh) | 一种人脸图像生成方法、装置、设备及存储介质 | |
| WO2022005016A1 (ko) | 전자 장치 및 그 제어 방법 | |
| WO2022145611A1 (ko) | 전자 장치 및 그 제어 방법 | |
| WO2022019389A1 (ko) | 데이터 증강 기반 공간 분석 모델 학습 장치 및 방법 | |
| WO2024071884A1 (ko) | 민머리 인물 이미지 생성 장치 및 방법, 및 민머리 인물 이미지 생성 장치를 포함하는 가상 헤어 스타일링 체험 장치 및 이를 이용한 가상 헤어 스타일링 방법 | |
| CN109711335A (zh) | 通过人体特征对目标图片进行驱动的方法及装置 | |
| WO2024242306A1 (en) | Distortion-based image rendering | |
| KR102808311B1 (ko) | 영상 처리 방법 및 장치 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22887703 Country of ref document: EP Kind code of ref document: A1 |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 2022887703 Country of ref document: EP |
|
| ENP | Entry into the national phase |
Ref document number: 2022887703 Country of ref document: EP Effective date: 20231129 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |