WO2022092742A1 - 피사체가 촬영된 영상을 생성하는 디바이스 및 방법 - Google Patents

피사체가 촬영된 영상을 생성하는 디바이스 및 방법 Download PDF

Info

Publication number
WO2022092742A1
WO2022092742A1 PCT/KR2021/015056 KR2021015056W WO2022092742A1 WO 2022092742 A1 WO2022092742 A1 WO 2022092742A1 KR 2021015056 W KR2021015056 W KR 2021015056W WO 2022092742 A1 WO2022092742 A1 WO 2022092742A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
artificial intelligence
intelligence model
model
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/KR2021/015056
Other languages
English (en)
French (fr)
Inventor
딘쿠오칸
진경환
박영오
최광표
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020200149890A external-priority patent/KR102762541B1/ko
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority to EP21886736.4A priority Critical patent/EP4209989A4/en
Priority to CN202180073360.2A priority patent/CN116420158A/zh
Publication of WO2022092742A1 publication Critical patent/WO2022092742A1/ko
Priority to US18/131,643 priority patent/US20230245285A1/en
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • H04N23/82Camera processing pipelines; Components thereof for controlling camera response irrespective of the scene brightness, e.g. gamma correction
    • H04N23/83Camera processing pipelines; Components thereof for controlling camera response irrespective of the scene brightness, e.g. gamma correction specially adapted for colour signals
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/56Processing of colour picture signals
    • H04N1/60Colour correction or control
    • H04N1/6077Colour balance, e.g. colour cast correction
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present disclosure relates to a device and method for generating an image of a subject by using an artificial intelligence model.
  • portable terminals are widely used and communication network technology develops, consumer demands related to portable terminals are diversifying. Accordingly, various types of additional devices are being installed in portable terminals.
  • the portable terminal is miniaturized, and the function of a camera for photographing a subject is supported by the portable terminal.
  • the need for a technology for generating images having various image characteristics by using a camera sensor of a mobile terminal is increasing, and furthermore, an artificial intelligence technology capable of generating a high-quality HDR (High Dynamic Range) image is required and there is.
  • HDR High Dynamic Range
  • An embodiment of the present disclosure may provide a device and method capable of generating an image of a subject by using an artificial intelligence model.
  • an embodiment of the present disclosure may provide a device and method capable of acquiring an output image of a subject by inputting a raw image generated from a camera sensor into an artificial intelligence model.
  • an embodiment of the present disclosure may provide a device and method capable of acquiring an output image of a subject by using an artificial intelligence model for generating a tone map.
  • an embodiment of the present disclosure may provide a device and method capable of obtaining an output image of a subject from a raw image by sequentially using a plurality of artificial intelligence models.
  • an embodiment of the present disclosure provides a device and method capable of acquiring a live view image for photographing a subject and an output image of the subject by using at least a part of a plurality of artificial intelligence models trained together can do.
  • an embodiment of the present disclosure provides a live view image for photographing a subject and an output image of the subject using an artificial intelligence model trained in relation to at least one of a situation in which a subject is photographed or a user's preference.
  • a device and method that can be obtained can be provided.
  • a first aspect of the present disclosure is a raw material representing a subject in front of the camera sensor by controlling a camera sensor in the device using a first processor for controlling the device acquiring an image;
  • a first artificial intelligence model trained to adjust the brightness of the raw image representing the subject in front of the camera sensor by using a second processor for image processing for the raw image using an artificial intelligence model action to type in; obtaining, by using the second processor, tone map data output from the first artificial intelligence model; and storing an output image generated based on the tone map data; may provide a method of generating, by a device, an output image of a subject from a raw image, including a.
  • a camera sensor ; display; a first memory for storing first instructions for controlling the device; a first processor executing first instructions stored in the first memory; a second memory for storing at least one artificial intelligence model for image processing on the raw image and second instructions related to the execution of the artificial intelligence model; and a second processor that executes the at least one artificial intelligence model and the second instructions stored in the second memory, wherein the first processor uses the camera sensor to display a subject in front of the camera sensor a raw image is obtained, and the second processor inputs the raw image representing the subject in front of the camera sensor into a first artificial intelligence model trained to adjust the brightness of the image, and the second processor causes the Obtaining the tone map data output from the first artificial intelligence model, and storing the output image generated based on the tone map data by the first processor in the first memory, the object photographed output from the raw image A device for generating an image may be provided.
  • a third aspect of the present disclosure may provide a computer-readable recording medium in which a program for executing the method of the first aspect is recorded on a computer.
  • FIG. 1 is a diagram illustrating an example in which a device 1000 generates an output image by photographing a subject, according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram of a device 1000 according to an embodiment of the present disclosure.
  • FIG. 3 is a view for explaining a process of generating an output image of a subject from a raw image according to an embodiment of the present disclosure
  • FIG. 4A is a diagram illustrating a process in which the device 1000 generates a tone map from a raw image 30 according to an embodiment of the present disclosure.
  • 4B is a diagram for describing a process in which the device 1000 extracts features from a raw image 30 according to an embodiment of the present disclosure.
  • 4C is a diagram for describing a process in which the device 1000 corrects feature images according to an embodiment of the present disclosure.
  • 4D is a diagram for describing a process in which the device 1000 generates an output image from corrected feature images according to an embodiment of the present disclosure.
  • FIG. 5 is a diagram illustrating an example of the structure of a feature extraction model 1732 according to an embodiment of the present disclosure.
  • FIG. 6 is a flowchart of a method of generating an output image by photographing a subject by the device 1000 according to an embodiment of the present disclosure.
  • FIG. 7 is a diagram illustrating an example in which an artificial intelligence model 1620 is trained according to an embodiment of the present disclosure.
  • FIG. 8 is a flowchart of a method for training an artificial intelligence model 1620 according to an embodiment of the present disclosure.
  • FIG 9 is a flowchart of a method of outputting a live view image by the device 1000 according to an embodiment of the present disclosure.
  • 10A is a diagram illustrating an example of deactivating the tone map generation model 1731 in the artificial intelligence model 1730 to generate a live view image according to an embodiment of the present disclosure.
  • 10B is a diagram illustrating an example of deactivating the feature extraction model 1732 and the image recovery model 1734 in the artificial intelligence model 1730 to generate a live view image according to an embodiment of the present disclosure.
  • 10C is an example of deactivating the tone map generation model 1731 , the feature extraction model 1732 , and the image recovery model 1734 in the artificial intelligence model 1730 to generate a live view image according to an embodiment of the present disclosure. It is a drawing showing
  • FIG 11 is a flowchart of a method for the device 1000 to update the artificial intelligence model 1620 by receiving the retrained artificial intelligence model 1620 from a server (not shown) according to an embodiment of the present disclosure.
  • FIG. 12 is a flowchart of a method for retraining and updating an artificial intelligence model 1620 by the device 1000 according to an embodiment of the present disclosure.
  • FIG. 13A is a diagram illustrating an example of a GUI for setting a photographing of a device 1000 for photographing a subject according to an embodiment of the present disclosure.
  • 13B is a diagram illustrating an example of a GUI for setting a photographing of the device 1000 for photographing a subject according to an embodiment of the present disclosure.
  • the AI processing unit may be a processing unit for processing an image using artificial intelligence technology.
  • the AI processing unit is a processing unit designed for image processing using an artificial intelligence model, and may be a processing unit dedicated to image processing.
  • the AI processing unit may be implemented by making settings for image processing using an artificial intelligence model in a Neural Processing Unit (NPU).
  • NPU Neural Processing Unit
  • the artificial intelligence model is a model trained to generate an output image that is a result of photographing a subject from a raw image, and may include a plurality of sub-AI models.
  • the plurality of sub-AI models included in the artificial intelligence model may include a tone map generation model, a feature extraction model, an image correction model, and an image recovery model.
  • the tone map generation model is an artificial intelligence model trained to generate a tone map from a raw image
  • the feature extraction model is an artificial intelligence model trained to extract features in the raw image input to the feature extraction model
  • the image correction model is An artificial intelligence model trained to correct feature images output from the feature extraction model
  • the image recovery model may be an artificial intelligence model trained to generate a photographed image of a subject from the corrected feature images.
  • the tone map may be map data including information for scaling the brightness of pixels in a raw image.
  • the tone map may be map data for at least one of local tone mapping that scales the brightness of pixels for each part in the original image or global tone mapping that scales the brightness of the entire original image.
  • the live view image may be an image output on the screen of the device so that a user photographing the subject may check the subject being photographed.
  • FIG. 1 is a diagram illustrating an example in which a device 1000 generates an output image by photographing a subject, according to an embodiment of the present disclosure.
  • the device 1000 may photograph a subject using an artificial intelligence model for generating an image of the subject.
  • the device 1000 may include an AI processing unit 1700 for generating an image in which a subject is captured, and the AI processing unit 1700 of the device 1000 is generated using a camera sensor in the device 1000 .
  • a raw image and preset set values for image correction may be input to the artificial intelligence model, and an output image output from the artificial intelligence model may be obtained.
  • the artificial intelligence model used by the AI processing unit 1700 is a model trained to generate an output image, which is a result obtained by photographing a raw image subject, from a raw image, and may include a plurality of sub-artificial intelligence models.
  • a plurality of sub-AI models included in the artificial intelligence model include an artificial intelligence model for generating a tone map, an artificial intelligence model for extracting features of an image, an artificial intelligence model for correcting a feature image representing the extracted features, and It may include an artificial intelligence model for generating an output image.
  • the AI processing unit 1700 of the device 1000 may generate a live view image for photographing a subject by using at least one of a plurality of sub-AI models.
  • the device 1000 is a smart phone, a tablet PC, a PC, a smart TV, a mobile phone, a personal digital assistant (PDA), a laptop, a media player, a global positioning system (GPS) device, an e-book terminal, a digital broadcasting terminal, a navigation system, a kiosk , digital cameras, home appliances, and other mobile or non-mobile computing devices.
  • the device 1000 may be a wearable device such as a watch, glasses, a hair band, and a ring having a communication function and a data processing function.
  • the present invention is not limited thereto, and the device 1000 may include any type of device capable of photographing a subject.
  • the device 1000 may communicate with a server (not shown) through a network to obtain an image of the subject.
  • a network is a wired network such as a Local Area Network (LAN), a Wide Area Network (WAN) or a Value Added Network (VAN), or any network such as a mobile radio communication network or a satellite network. It can be implemented as a kind of wireless network.
  • the network includes at least two of a local area network (LAN), a wide area network (WAN), a value added network (VAN), a mobile radio communication network, or a satellite communication network.
  • Wireless communication is, for example, wireless LAN (Wi-Fi), Bluetooth, Bluetooth low energy, Zigbee, WFD (Wi-Fi Direct), UWB (ultra wideband), infrared communication (IrDA, infrared Data Association) ), NFC (Near Field Communication), etc. may be there, but is not limited thereto.
  • FIG. 2 is a block diagram of a device 1000 according to an embodiment of the present disclosure.
  • a device 1000 includes a user input unit 1100 , a display unit 1200 , a communication interface 1300 , a camera sensor unit 1400 , and a first processor 1500 .
  • a first memory 1600 and an AI processing unit 1700 may be included.
  • the AI processing unit 1700 may include a second processor 1710 and a second memory 1720 for processing an image using artificial intelligence technology.
  • the AI processing unit 1700 is a processing unit designed for image processing using an artificial intelligence model, and may be a processing unit dedicated to image processing.
  • the AI processing unit 1700 may be implemented by setting a Neural Processing Unit (NPU) for image processing using an artificial intelligence model.
  • NPU Neural Processing Unit
  • the user input unit 1100 means a means for a user to input data for controlling the device 1000 .
  • the user input unit 1100 may include a key pad, a dome switch, and a touch pad (contact capacitive method, pressure resistance film method, infrared sensing method, surface ultrasonic conduction method, integral type). It may include at least one of a tension measurement method, a piezo effect method, etc.), a jog wheel, or a jog switch, but is not limited thereto.
  • the user input unit 1100 may receive a user input for taking a picture by a user using the device 1000 .
  • the display unit 1200 displays and outputs information processed by the device 1000 .
  • the display unit 1200 may display a GUI for taking a photo, a live view image, and an output image output as a result of taking a photo.
  • the display unit 1200 may be used as an input device in addition to an output device.
  • the display unit 1200 includes a liquid crystal display, a thin film transistor-liquid crystal display, an organic light-emitting diode, a flexible display, a three-dimensional display ( 3D display) and electrophoretic display (electrophoretic display) may include at least one. Also, depending on the implementation form of the device 1000 , the device 1000 may include two or more display units 1200 .
  • the communication interface 1300 may include one or more components that enable communication between another device (not shown) and a server (not shown).
  • the communication interface 1300 may include a short-distance communication unit, a mobile communication unit, and a broadcast receiving unit.
  • Short-range wireless communication unit Bluetooth communication unit, BLE (Bluetooth Low Energy) communication unit, near field communication unit (Near Field Communication unit), WLAN communication unit, Zigbee communication unit, infrared (IrDA, infrared Data Association) It may include a communication unit, a Wi-Fi Direct (WFD) communication unit, an ultra wideband (UWB) communication unit, an Ant+ communication unit, and the like, but is not limited thereto.
  • the mobile communication unit transmits/receives a radio signal to and from at least one of a base station, an external terminal, and a server on a mobile communication network.
  • the wireless signal may include various types of data according to transmission and reception of a voice call signal, a video call signal, or a text/multimedia message.
  • the broadcast receiver receives a broadcast signal and/or broadcast-related information from the outside through a broadcast channel.
  • the broadcast channel may include a satellite channel and a terrestrial channel. According to an implementation example, the device 1000 may not include a broadcast receiver.
  • the communication interface 1300 may transmit/receive information necessary to manage the artificial intelligence model 1620 for photographing with another device (not shown) and a server (not shown).
  • the camera sensor unit 1400 includes a color filter 1410 and an image sensor 1420 , and is controlled by a first processor 1500 or a second processor 1710 to be described later, thereby providing a raw image of a subject. ) can be created.
  • the camera sensor unit 1400 may generate a raw image of the subject under the control of the second processor 1710 or independent control of the second processor 1710 based on the control signal of the first processor 1500 .
  • the camera sensor unit may receive the control request signal and control the camera sensor unit 1400 to generate a raw image.
  • the first processor 1500 when the second processor 1710 is outside the camera sensor unit 1400, the first processor 1500 sends a control request signal for shooting to the second processor 1710, 2
  • the processor 1710 may receive the control request signal and control the camera sensor unit 1400 to generate a raw image.
  • the first processor 1500 may control the camera sensor unit 1400 to obtain a raw image and provide the obtained raw image to the second processor 1710 .
  • the front end of the image sensor 1420 is specified in the visible light region.
  • a color filter 1410 that passes only a frequency band may be disposed, and a color image may be obtained from light transmitted to the image sensor 1420 through the color filter 1410 .
  • the color filter 1410 passes light having a specific frequency band among the light transmitted from the subject.
  • the color filter 1410 is divided into a plurality of regions corresponding to a plurality of colors, and each of the plurality of regions has the same frequency as a frequency band of one of the three colors of, for example, red, green, and blue. Only light with a band can pass through.
  • the image sensor 1420 may convert the received light into an electrical signal.
  • the electrical signal converted by the image sensor 1420 may be composed of a red value, a green value, and a blue value, and a raw image composed of an array of the red value, the green value, and the blue value is generated.
  • the raw image may have a pattern according to the array pattern of the color filter 1410, for example, a Bayer pattern, an RGBE pattern, a RYYB pattern, a CYYM pattern, a CYGM pattern, an RGBW Bayer pattern, and an X-trans pattern. It can have one of the patterns.
  • the first memory 1600 may store a program for processing and controlling at least one of the first processor 1500 and the second processor 1700 to be described later, and is input to or from the device 1000 . Output data can be saved.
  • the first memory 1600 may include a flash memory type, a hard disk type, a multimedia card micro type, and a card type memory (eg, SD or XD memory). , RAM (Random Access Memory) SRAM (Static Random Access Memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, It may include at least one type of storage medium among a magnetic disk and an optical disk.
  • RAM Random Access Memory
  • SRAM Static Random Access Memory
  • ROM Read-Only Memory
  • EEPROM Electrical Erasable Programmable Read-Only Memory
  • PROM Programmable Read-Only Memory
  • magnetic memory It may include at least one type of storage medium among a magnetic disk and an optical disk.
  • Programs stored in the first memory 1600 may be classified into a plurality of modules according to their functions, for example, an image processing module 1610 , at least one artificial intelligence model 1620 , and a model management module 1630 . ) may be included.
  • the image processing module 1610 includes a preprocessing module 1611 , an output image generation module 1612 , and a live view generation module 1613
  • the artificial intelligence model 1620 is a tone map generation model.
  • the model management module 1630 is a model selection module 1634 , a downloading module 1631 , an update module 1632 , and a retraining module 1633 .
  • the first processor 1500 typically controls the overall operation of the device 1000 .
  • the control unit 1300 by executing the programs stored in the memory 1700, the user input unit 1100, the display unit 1200, the communication interface 1300, the camera sensor unit 1400 and the first memory ( 1600) can be controlled.
  • the first processor 1500 may include one or a plurality of processors.
  • the one or more processors may include at least one of a general-purpose processor such as a CPU, an AP, a digital signal processor (DSP), or the like, or a graphics-only processor such as a GPU and a vision processing unit (VPU).
  • the AI processing unit 1700 may include a second processor 1720 and a second memory 1720 .
  • the second processor 1720 and the second memory 1720 may be designed for image processing using an artificial intelligence model, but are not limited thereto.
  • the second memory 1720 may store a program for processing and controlling the second processor 1720 .
  • the second memory 1720 may store an artificial intelligence model 1720 selected from among the artificial intelligence models 1620 stored in the first memory 1600 , and the artificial intelligence model stored in the second memory 1720 . 1720 may be executed by the second processor 1720 .
  • the artificial intelligence model 1720 stored in the second memory 1720 includes a tone map generation model 1731 , a feature extraction model 1732 , and an image modifying model ( 1733 ) and a plurality of sub-AI models such as an image regression model 1734 .
  • the second memory 1720 is a flash memory type, a hard disk type, a multimedia card micro type, or a card type memory (eg, SD or XD memory).
  • RAM Random Access Memory
  • SRAM Static Random Access Memory
  • ROM Read-Only Memory
  • EEPROM Electrically Erasable Programmable Read-Only Memory
  • PROM Programmable Read-Only Memory
  • magnetic memory It may include at least one type of storage medium among a magnetic disk and an optical disk.
  • the image processing module 1610 stored in the first memory 1600 is executed by at least one of the first processor 1500 or the second processor 1720 , so that a live view image for photographing a subject and an output image of the subject are captured can create
  • the live view image is an image that is output on the display unit 1200 so that a user who takes a picture of the subject can check the subject being photographed, and the output image of the subject is a result of photographing the subject and is stored in the device 1000 . may be a recorded image.
  • the first processor 1500 may generate a raw image of the subject by executing the preprocessing module 1611 stored in the first memory 1600 . As a user input for photographing a subject is received, the first processor 1500 receives the light transmitted to the image sensor 1420 through the color filter 1410 of the camera sensor unit 1400 when the user input is received. Based on the raw image can be generated. The first processor 1500 may generate, for example, a raw image including an array of a red value, a green value, and a blue value.
  • the first processor 1500 may generate an output image of a subject by executing the output image generating module 1612 .
  • the first processor 1500 may request the second processor 1720 to generate an output image by using the raw image.
  • the second processor 1720 generates a raw image in an artificial intelligence model 1720 including a tone map generation model 1731 , a feature extraction model 1732 , an image correction model 1733 , and an image recovery model 1734 .
  • the second processor 1710 obtains a tone map by inputting the raw image to the tone map generation model 1731 , and inputs the generated tone map and the raw image to the feature extraction model 1732 to obtain a plurality of features of the subject.
  • Acquire feature images related to correct a plurality of feature images by inputting the feature images to the image correction model 1733 , and store the corrected feature images in the device 1000 by inputting the corrected feature images into the image recovery model 1734 . It is possible to obtain an output image to be Also, the output image output from the artificial intelligence model 1720 may be displayed on the display unit 1200 by the first processor 1500 and stored in the first memory 1600 .
  • an artificial intelligence model 1720 related to a situation in which the user takes a picture of a subject may be selected from the artificial intelligence models 1620 stored in the first memory 1600 and loaded into the second memory 1720, for this to be described later.
  • the second processor 1710 may input the raw image to the tone map generation model 1731 to generate a tone map used to scale the brightness of red, green, and blue values in the raw image.
  • the second processor 1710 when the second processor 1710 is included in the camera sensor unit 1400 and the first processor 1500 sends a control request signal for shooting to the camera sensor unit 1400 , the camera sensor unit The second processor 1710 in the 1400 receives the control request signal, controls the camera sensor unit 1400 to generate a raw image, and the second processor 1710 converts the raw image to the tone map generation model 1731 . can be entered.
  • the first processor 1500 sends a control request signal for shooting to the second processor 1710
  • the second processor 1710 may receive the control request signal, control the camera sensor unit 1400 to generate a raw image, and the second processor 1710 may input the raw image to the tone map generation model 1731 .
  • the first processor 1500 controls the camera sensor unit 1400 to obtain a raw image, and provides the obtained raw image to the second processor 1710
  • the second processor 1710 receives the raw image It may be input to the tone map generation model 1731 .
  • the tone map may be map data including information for scaling the brightness of pixels in a raw image.
  • the tone map may be map data for at least one of local tone mapping that scales the brightness of pixels for each part in the original image or global tone mapping that scales the brightness of the entire original image. Also, for example, the tone map may be generated to scale the brightness of the dark area to be larger than the brightness of the bright area in the original image.
  • the tone map generation model 1731 may be an artificial intelligence model trained to generate a tone map from a raw image.
  • the tone map generation model 1731 may include a plurality of neural network layers, each of the plurality of neural network layers having a plurality of weight values, and an operation result of a previous layer and a plurality of weight values. Neural network operation can be performed through the operation between them.
  • a plurality of weights of the plurality of neural network layers may be optimized by the training result of the tone map generation model 1731 .
  • the tone map generation model 1731 may include a feature extraction model 1732 and an image correction model. (1733) and image recovery model (1734).
  • the tone map generation model 1731 may include a Convolutional Neural Network (CNN), but is not limited thereto.
  • CNN Convolutional Neural Network
  • the second processor 1710 may obtain a plurality of feature images that are input to the feature extraction model 1732 by combining the raw image and the tone map and output from the feature extraction model 1732 .
  • the second processor 1710 may scale the brightness of pixels in the raw image by using the tone map, and input the scaled raw image to the feature extraction model 1732 .
  • the raw image input to the feature extraction model 1732 may be scaled so that pixels in a dark part have a bright value, and accordingly, a subject located in a dark part in the raw image may be more effectively identified.
  • the feature extraction model 1732 may extract features in the original image input to the feature extraction model 1732 .
  • a plurality of feature images each representing a plurality of features in the original image may be output from the feature extraction model 1732 .
  • the plurality of feature images may include a feature image representing a feature related to an edge in the raw image, a feature image representing a feature related to a line in the raw image, a feature image representing a feature related to a space in the raw image, and an object in the raw image. It may include, but is not limited to, a feature image representing features related to the shape and depth of , a feature image representing features related to a person in the raw image, and a feature image representing features related to objects in the raw image.
  • the feature extraction model 1732 may be an artificial intelligence model trained to extract features in the raw image input to the feature extraction model 1732 .
  • the feature extraction model 1732 may include a plurality of neural network layers, each of the plurality of neural network layers having a plurality of weight values, and an operation result of a previous layer and a plurality of weight values. Neural network operation can be performed through the operation between the two.
  • a plurality of weights of the plurality of neural network layers may be optimized by the training result of the feature extraction model 1732, for example, the feature extraction model 1732 may include a tone map generation model 1731, an image correction model ( 1733) and the image recovery model 1734.
  • the feature extraction model 1732 may be implemented by a U-NET having an End-to-End Fully-Convolutional Network-based structure as shown in FIG. 5 to be described later, but is not limited thereto.
  • the second processor 1710 may correct the feature images output from the feature extraction model 1732 .
  • the second processor 1710 may correct the feature images based on settings related to preset image properties. For example, the second processor 1710 may correct the feature images using the image correction model 1733 according to preset standards for white balance and color correction.
  • the second processor 1720 inputs the feature images output from the feature extraction model 1732 and preset attribute values related to image properties to the image correction model 1733 , and the corrected image output from the image correction model 1733 . Feature images may be obtained.
  • the second processor 1720 may determine an image property for correcting the feature images. For example, an image property for correcting a feature image may be determined according to a photographing environment of the device 1000 .
  • the second processor 1720 obtains sensing data representing an environment around the device 1000 when photographing a subject through the camera sensor unit 1400 , and corrects the feature image based on a preset criterion according to the sensing data
  • a white balance matrix value and a color correction matrix value for ? may be input to the image correction model 1733 together with the feature images.
  • the first processor 1500 may display a GUI on the screen of the device 1000 for setting a photographing of a subject, and based on a user input through the GUI, correction of white balance and color correction, etc. can be set in advance.
  • the device 1000 may display a GUI for setting a photographing setting of the device 1000 for photographing a subject on the display unit 1200 as shown in FIGS. 13A and 13B . Accordingly, the user inputs setting values related to ISO, shutter speed, white balance, color temperature, tint, contrast, saturation, highlight effect, shadow effect, etc. to the device 1000 through the GUI displayed on the display unit 1200 . can do.
  • the first processor 1500 extracts the white balance matrix value and the color correction matrix value from the first memory 1600 according to a criterion preset by the user, and the extracted white balance matrix value and the color correction matrix value may be input to the image correction model 1733 together with the feature images.
  • the image correction model 1733 may be an artificial intelligence model trained to correct image properties of feature images input to the image correction model 1733 .
  • the image correction model 1733 may include a plurality of neural network layers, each of the plurality of neural network layers having a plurality of weight values, and an operation result of a previous layer and a plurality of weight values. Neural network operation can be performed through the operation between the two.
  • the plurality of weights of the plurality of neural network layers may be optimized by the training result of the image correction model 1733, for example, the image correction model 1733 may include a tone map generation model 1731, a feature extraction model ( 1732 ) and image recovery model 1734 .
  • the white balance matrix value and the color correction matrix value are input to the image correction model 1733, the present invention is not limited thereto.
  • a plurality of artificial intelligence models 1620 may be trained for each setting related to white balance and color correction.
  • the artificial intelligence model 1730 corresponding to predetermined settings related to white balance and color correction may be loaded into the second memory 1720 and used by the second processor 1710 to generate the output image. there is. Even if a white balance matrix value and a color correction matrix value are not input to the artificial intelligence model 1730 loaded in the second memory 1720 , a predetermined white balance is generated from the artificial intelligence model 1730 loaded in the second memory 1720 . and an output image in consideration of a setting related to color correction may be output.
  • the second processor 1710 may input the corrected feature images to the image recovery model 1734 and obtain an output image output from the image recovery model 1734 .
  • the output image output from the image recovery model 1734 may be an image to be stored in the device 1000 as a result of photographing the subject.
  • the image output through the artificial intelligence model 1730 may be compressed according to a predetermined criterion, and the compressed image may be stored in the first memory 1600, but is not limited thereto. .
  • the image recovery model 1734 may be an artificial intelligence model trained to generate a photographed image of a subject from the feature images.
  • the image recovery model 1734 may include a plurality of neural network layers, each of the plurality of neural network layers having a plurality of weight values, and an operation result of a previous layer and a plurality of weight values. Neural network operation can be performed through the operation between the two.
  • a plurality of weights of the plurality of neural network layers may be optimized by the training result of the image recovery model 1734, for example, the image recovery model 1734 may include a tone map generation model 1731 and a feature extraction model. (1732) and image correction model (1733).
  • the image recovery model 1734 may include a Convolutional Neural Network (CNN), but is not limited thereto.
  • CNN Convolutional Neural Network
  • the first processor 1500 may generate a live view image by executing the live view generating module 1613 .
  • the first processor 1500 may generate a live-view image and display the generated live-view image on the display unit 1200 .
  • the first processor 1500 executes the camera application and generates a live view image so that the user can check the subject to be photographed and the display unit It can be displayed on 1200 .
  • the first processor 1500 may generate a raw image used to generate a live view image based on light input through the camera sensor unit 1400 .
  • the second processor 1710 may not use at least one of the models in the artificial intelligence model 1730 in order to shorten the time required to generate the live view image.
  • the first processor 1500 may not use at least one of the tone map generation model 1731 , the feature extraction model 1732 , the image correction model 1733 , and the image recovery model 1734 . In this case, which model among the tone map generation model 1731 , the feature extraction model 1732 , and the image recovery model 1734 is not to be used for generating the live view image may be preset.
  • the second processor 1710 may input a raw image to the artificial intelligence model 1730 in which at least one model is deactivated, and the second processor 1710 provides a live view image output from the artificial intelligence model 1730. It is provided to one processor 1500 , and the first processor 1500 may display a live view image on the display unit 1200 . In this case, the artificial intelligence model 1730 may be trained in advance to output a good live view image in a state in which at least one of the models in the artificial intelligence model 1730 is deactivated.
  • a live view image generated using a small resource of the device 1000 may be displayed on the screen of the device 1000 and the subject
  • an output image generated through the artificial intelligence model 1730 from a raw image generated when the capture input is received may be stored in the first memory 1600 .
  • the first processor 1500 selects the artificial intelligence model 1730 to be used by the second processor 1720 by executing the model management module 1630 , and the artificial intelligence model 1620 stored in the first memory 1600 . ) can be updated.
  • the first processor 1500 executes the model selection module 1634 , so that the artificial intelligence model 1730 to be used by the second processor 1720 among the at least one artificial intelligence model 1620 stored in the first memory 1600 . ) can be selected. Also, the artificial intelligence module 1730 selected by the first processor 1500 may be loaded into the second memory 1720 of the AI processing unit 1700 .
  • a plurality of artificial intelligence models 1620 may be stored in the first memory 1600 , and the plurality of artificial intelligence models 1620 may be artificial intelligence models 1620 trained according to a plurality of situations, respectively. For example, artificial intelligence models trained based on a situation related to at least one of a camera filter, a camera lens, a manufacturer of a camera, a device model, a plurality of consecutively photographed images, a photographing environment, a type of a subject, or an attribute of a photographed image. can
  • artificial intelligence models trained for each camera filter include an artificial intelligence model trained on images captured using a non-sharp mask, an artificial intelligence model trained on images captured using a contrast adjustment mask, and An artificial intelligence model trained based on images captured using a color filter mask may be included, but is not limited thereto.
  • the artificial intelligence models trained for each camera lens are an artificial intelligence model trained based on images taken using a telephoto lens, an artificial intelligence model trained based on images taken using a wide-angle lens, It may include, but is not limited to, an artificial intelligence model trained based on images captured using a fisheye lens.
  • the artificial intelligence models trained for each manufacturer of the camera are based on the artificial intelligence model trained on the basis of images photographed using the camera of the manufacturer A, and images photographed using the camera of the manufacturer B.
  • the trained artificial intelligence model may include, but is not limited to, an artificial intelligence model trained based on images captured using a camera of manufacturer C.
  • AI models trained for each device are an AI model trained based on images shot with the Galaxy S10, an AI model trained based on images shot with a Galaxy S20, and an AI model shot with the Galaxy Note 20. It may include, but is not limited to, an artificial intelligence model trained based on the images.
  • the artificial intelligence model trained for each shooting environment includes an artificial intelligence model trained on the basis of images photographed indoors, an artificial intelligence model trained on images photographed outdoors, and an artificial intelligence model photographed in a specific illuminance range. It may include, but is not limited to, an artificial intelligence model trained based on the images.
  • the artificial intelligence model trained for each type of subject includes an artificial intelligence model trained based on images of a person, an artificial intelligence model trained on images of food, and an image of a building.
  • an artificial intelligence model trained on the basis of may include, but is not limited to, an artificial intelligence model trained on the basis of
  • an artificial intelligence model trained for each property of a photographed image is an artificial intelligence model trained based on images photographed by applying a specific white balance value, and an artificial intelligence model trained based on images photographed by applying a specific ISO.
  • the AI model may include, but is not limited to, an AI model trained based on images taken at a specific shutter speed.
  • the first processor 1500 executes the model selection module 1634 to provide a camera filter, a camera lens, a manufacturer of a camera, a device model, and a plurality of consecutively photographed images. , a situation related to at least one of a shooting environment, a type of a subject, or a property of a captured image may be identified. For example, the first processor 1500 may identify at least one situation based on a sensing value of sensing the surrounding situation of the device 1000 and a setting value of a camera application.
  • the first processor 1500 displays a predetermined GUI for setting a picture taking on the display unit 1200, and identifies at least one situation based on a value set based on a user input to the GUI.
  • the first processor 1500 may display a GUI for setting the photographing of the device 1000 for photographing a subject on the display unit 1200 as shown in FIGS. 13A and 13B .
  • the user inputs setting values related to ISO, shutter speed, white balance, color temperature, tint, contrast, saturation, highlight effect, shadow effect, etc. to the device 1000 through the GUI displayed on the display unit 1200 . can do.
  • the first processor 1500 extracts an artificial intelligence model 1730 corresponding to at least one identified situation from among the artificial intelligence models 1620 stored in the first memory 1600 and loads it into the second memory 1720 .
  • the user may set settings related to ISO, white balance, color temperature, tint, saturation and contrast, etc. through the GUI displayed on the display unit 1200 of the device 1000, and the device 1000 allows the user Selects an artificial intelligence model 1730 corresponding to a set value from among a plurality of artificial intelligence models 1620 stored in the first memory 1600 based on the values set by It may be loaded into the memory 1720 .
  • the first processor 1500 is, for example, a camera filter used by the user more than a predetermined standard, a camera lens used by the user more than a predetermined standard, a manufacturer of a camera used by the user more than a predetermined standard, and a device model used by the user more than a predetermined standard , an artificial intelligence model 1730 corresponding to the user's preference based on information about at least one of a shooting environment more than a predetermined number of times, a type of a subject photographed by the user more than a predetermined criterion, or an attribute of a photographed image used by the user more than a predetermined criterion (1730) may be extracted from the first memory 1600 and loaded into the second memory 1720 .
  • the first processor 1500 displays preset images, and outputs an image having a characteristic similar to the image selected by the user based on at least one image selected by the user from among the displayed images.
  • the trained artificial intelligence model 1730 may be loaded into the second memory 1720 . For example, when the user selects a large number of images in which an edge is emphasized, an artificial intelligence model 1730 trained to output an image in which an edge is emphasized may be loaded into the second memory 1720 .
  • the first processor 1500 sends the artificial intelligence model 1730 to the server (not shown).
  • the request may be made, and the artificial intelligence model 1730 may be received from a server (not shown) and stored in the second memory 1720 .
  • the first processor 1500 may receive the retrained artificial intelligence model 1620, or data for retraining the artificial intelligence model 1620 from a server (not shown). there is.
  • the first processor 1500 may request the retrained artificial intelligence model 1620 from a server (not shown).
  • the artificial intelligence model 1620 may be retrained by a server (not shown), and the server (not shown) provides notification information indicating that the retrained artificial intelligence model 1620 exists to the device 1000.
  • the first processor 1500 may display notification information received from a server (not shown) on a screen and receive a user input for updating the artificial intelligence model 1620 .
  • the first processor 1500 may request the retrained artificial intelligence model 1620 from the server (not shown) while providing the server (not shown) with information on the user's preferred photo attribute.
  • Information on the photo properties preferred by the user may include, for example, a camera filter used by the user more than a predetermined standard, a camera lens used by the user more than a predetermined standard, a manufacturer of a camera used by the user more than a predetermined standard, and a device used by the user more than a predetermined standard It may include information about at least one of a model, a shooting environment of a predetermined number of times or more, a type of a subject photographed by the user more than a predetermined criterion, or attributes of a photographed image used by the user more than a predetermined criterion.
  • the first processor 1500 When the first processor 1500 provides information on the user's preferred photo attribute to the server (not shown), the first processor 1500 provides the artificial intelligence model retrained in relation to the user's preferred photo attribute. 1620 may be downloaded from a server (not shown). In addition, by executing the update module 1632, the first processor 1500 replaces the artificial intelligence model 1620 in the device 1000 with the retrained artificial intelligence model 1620 received from the server (not shown). , the artificial intelligence model 1620 in the device 1000 may be updated.
  • the first processor 1500 may download a reference raw image for retraining and a reference image corresponding to the reference raw image from a server (not shown) by executing the downloading module 1631 .
  • the reference image may be an image generated from a reference raw image for retraining.
  • the first processor 1500 requests a server (not shown) a reference raw image and a reference image for retraining the artificial intelligence model 1620, and a reference raw image and a reference image for retraining from the server (not shown). can receive In this case, the first processor 1500 may provide information about the photo attribute preferred by the user to a server (not shown).
  • Information on the photo properties preferred by the user may include, for example, a camera filter used by the user more than a predetermined standard, a camera lens used by the user more than a predetermined standard, a manufacturer of a camera used by the user more than a predetermined standard, and a device used by the user more than a predetermined standard It may include information about at least one of a model, a shooting environment of a predetermined number of times or more, a type of a subject photographed by the user more than a predetermined criterion, or attributes of a photographed image used by the user more than a predetermined criterion.
  • the server (not shown) may provide the device 1000 with the reference image and the reference raw image generated in relation to the photo attribute preferred by the user.
  • the first processor 1500 obtains a reference raw image for retraining and a reference image corresponding to the reference raw image by executing the retraining module 1633, and the second processor 1720 re-reduces the artificial intelligence model 1620.
  • the second processor 1710 may use the reference image received from the server (not shown) as the correct answer image, and the second processor 1710 may use the reference raw image received from the server (not shown) as the artificial intelligence model 1620 .
  • the artificial intelligence model 1620 can be retrained by comparing the output image outputted from the artificial intelligence model 1620 with a reference image.
  • the device 1000 may generate an output image in which the subject is photographed together with a server (not shown).
  • the device 1000 may request an output image from a server (not shown) while generating a raw image and transmitting the generated raw image to a server (not shown).
  • the device 1000 may also provide the raw image and setting information for image correction to a server (not shown).
  • the artificial intelligence model 1620 may be included in the server (not shown), and the server (not shown) may generate an output image from the raw image using the artificial intelligence model 1620 in the server (not shown). there is.
  • the server (not shown) may provide the generated output image to the device 1000 .
  • the device 1000 may request an output image from the server (not shown) while providing the tone map and the raw image output from the tone map generation model 1731 to the server (not shown).
  • the device 1000 may also provide a raw image, a tone map, and setting information for image correction to a server (not shown).
  • the feature extraction model 1732 , the image correction model 1733 , and the image recovery model 1734 in the artificial intelligence model 1620 may be included in a server (not shown), and the server (not shown) is a server (not shown).
  • the output image may be generated using the feature extraction model 1732 , the image correction model 1733 , and the image recovery model 1734 in the city).
  • the server (not shown) may provide the generated output image to the device 1000 .
  • the device 1000 may request an output image from the server (not shown) while providing the feature images output from the feature extraction model 1732 to the server (not shown).
  • the device 1000 may also provide feature images and setting information for image correction to a server (not shown).
  • the image correction model 1733 and the image recovery model 1734 in the artificial intelligence model 1620 may be included in the server (not shown), and the server (not shown) may include the image correction model in the server (not shown) ( 1733) and the image recovery model 1734 may be used to generate an output image.
  • the server (not shown) may provide the generated output image to the device 1000 .
  • the device 1000 may determine whether the device 1000 generates an output image alone or the device 1000 generates an output image together with a server (not shown) according to a situation of the device 1000 . For example, the device 1000 determines whether the device 1000 generates an output image alone, or whether the device 1000 generates an output image together with a server (not shown) in consideration of the remaining battery amount, resource usage, and communication state. can decide whether For example, when the remaining battery level of the device 1000 is less than a threshold value, the device 1000 may request a server (not shown) to generate an output image. Also, for example, when the resource usage of the device 1000 is greater than a threshold, the device 1000 may request a server (not shown) to generate an output image.
  • the device 1000 may request a server (not shown) to generate an output image.
  • whether the device 1000 provides the raw image, the raw image and the tone map, or the feature images while requesting the output image from the server (not shown) depends on the situation of the device 1000 . It can be set according to various criteria. For example, when the shooting function is activated, the device 1000 may identify the remaining battery level, resource usage, communication status, etc., and whether to provide a raw image to a server (not shown), or to provide a raw image and a tone map. It is possible to determine whether to provide feature images or not. Also, the device 1000 may request to provide an output image while providing at least one of a raw image, a tone map, and a feature image to a server (not shown) based on the determination.
  • FIG. 3 is a view for explaining a process of generating an output image of a subject from a raw image according to an embodiment of the present disclosure
  • the device 1000 uses the AI processing unit 1700 to input a raw image 30 of a subject into a tone map generation model 1731 and output from the tone map generation model 1731 .
  • a tone map can be obtained.
  • the device 1000 may obtain a plurality of feature images that are input to the feature extraction model 1732 by combining the raw image 30 and the tone map and output from the feature extraction model 1732 . Thereafter, the device 1000 may input a plurality of feature images to the image correction model 1733 and obtain corrected feature images output from the image correction model 1733 . Thereafter, the device 1000 may obtain the output image 38 output from the image recovery model 1734 by inputting the corrected feature images into the image recovery model 1734 .
  • Each of the tone map generation model 1731 , the feature extraction model 1732 , the image correction model 1733 , and the image recovery model 1734 may include a plurality of neural network layers.
  • Each of the plurality of neural network layers has a plurality of weight values, and a neural network operation is performed through an operation between the operation result of a previous layer and the plurality of weights.
  • the plurality of weights of the plurality of neural network layers may be optimized by the learning result of the artificial intelligence model. For example, a plurality of weights may be updated so that a loss value or a cost value obtained from the artificial intelligence model during the learning process is reduced or minimized.
  • the artificial neural network may include a deep neural network (DNN), for example, a Convolutional Neural Network (CNN), a Deep Neural Network (DNN), a Recurrent Neural Network (RNN), a Restricted Boltzmann Machine (RBM), There may be a Deep Belief Network (DBN), a Bidirectional Recurrent Deep Neural Network (BRDNN), or a Deep Q-Networks, but is not limited thereto.
  • DNN Deep Belief Network
  • BBDNN Bidirectional Recurrent Deep Neural Network
  • the tone map generation model 1731 , the feature extraction model 1732 , the image correction model 1733 , and the image recovery model 1734 are trained together using a reference raw image and a reference output image, as shown in FIG. 7 , which will be described later. can be
  • FIG. 4A is a diagram illustrating a process in which the device 1000 generates a tone map from a raw image 30 according to an embodiment of the present disclosure.
  • the device 1000 may generate a raw image 30 .
  • the device 1000 may use the camera sensor unit 1400 to generate raw images based on light provided from the subject, and as a user input for photographing the subject is received, the user When an input is received, the raw image 30 generated by the camera sensor unit 1400 may be acquired.
  • the raw image 30 may include, for example, an arrangement of a red value, a green value, and a blue value.
  • the device 1000 may identify at least one situation for photographing a subject, and store the artificial intelligence model 1720 corresponding to the identified at least one situation into the first memory 1600 . It can be extracted from and loaded into the second memory 1720 in the AI processing unit 1700 . If the artificial intelligence model 1720 corresponding to the at least one identified situation is not stored in the first memory 1600, the device 1000 is an artificial intelligence model corresponding to the at least one identified situation ( 1720 may be requested from the server (not shown), and the artificial intelligence model 1720 may be received from the server (not shown) and loaded into the second memory 1720 .
  • the device 1000 executes a camera application to generate the tone map 40 used to scale the brightness of the red value, the green value, and the blue value in the raw image 30 , and photograph the subject.
  • the raw image 30 may be input to the tone map generation model 1731 in response to receiving a user input and responding to the received user input.
  • the tone map 40 may include information for scaling the brightness of pixels in the raw image 30 . Also, for example, the tone map 40 may be generated to scale the brightness of a dark area to a greater extent than that of a bright area in the raw image 30 .
  • the tone map generation model 1731 may include a plurality of neural network layers, each of the plurality of neural network layers having a plurality of weight values, and an operation result of a previous layer and a plurality of weight values. Neural network operation can be performed through the operation between them. A plurality of weights of the plurality of neural network layers may be optimized by the training result of the tone map generation model 1731 .
  • the tone map generation model 1731 may include a feature extraction model 1732 and an image correction model. (1733) and image recovery model (1734).
  • the tone map generation model 1731 may include a Convolutional Neural Network (CNN), but is not limited thereto.
  • CNN Convolutional Neural Network
  • 4B is a diagram for describing a process in which the device 1000 extracts features from a raw image 30 according to an embodiment of the present disclosure.
  • the device 1000 combines the raw image 30 and the tone map 40 to input the feature extraction model 1732 and a plurality of feature images 42 output from the feature extraction model 1732 .
  • the device 1000 may scale the brightness of pixels in the raw image 30 using the tone map 40 , and input the brightness-scaled raw image 30 to the feature extraction model 1732 .
  • the raw image 30 input to the feature extraction model 1732 may be scaled so that pixels in a dark part have a bright value, and accordingly, a subject located in a dark part in the raw image 30 may be more effectively identified.
  • the feature extraction model 1732 may extract features in the raw image 30 input to the feature extraction model 1732 .
  • a plurality of feature images 42 each representing a plurality of features in the raw image 30 may be output from the feature extraction model 1732 .
  • the plurality of feature images 42 may include a feature image representing a feature related to an edge in the raw image 30 , a feature image representing a feature related to a line in the raw image 30 , and a feature image representing a feature related to a line in the raw image 30 .
  • a feature image representing a feature related to space a feature image representing a feature related to the shape and depth of an object in the raw image 30 , a feature image representing a feature related to a person in the raw image 30 , and an object in the raw image 30 . It may include, but is not limited to, a feature image indicating a feature related to .
  • the feature extraction model 1732 may include a plurality of neural network layers, each of the plurality of neural network layers having a plurality of weight values, and an operation result of a previous layer and a plurality of weight values. Neural network operation can be performed through the operation between the two. A plurality of weights of the plurality of neural network layers may be optimized by the training result of the feature extraction model 1732, for example, the feature extraction model 1732 may include a tone map generation model 1731, an image correction model ( 1733) and the image recovery model 1734. Also, for example, the feature extraction model 1732 may be implemented by a U-NET having an End-to-End Fully-Convolutional Network-based structure as shown in FIG. 5 , but is not limited thereto.
  • 4C is a diagram for describing a process in which the device 1000 corrects feature images according to an embodiment of the present disclosure.
  • the device 1000 may correct the feature images 42 output from the feature extraction model 1732 .
  • the device 1000 may correct the feature images 42 by inputting the feature images 42 output from the feature extraction model 1732 and setting values related to image properties to the image correction model 1733 .
  • the device 1000 may correct the feature images 42 according to preset standards for white balance and color correction.
  • the first processor 1500 of the device 1000 generates sensing data representing an environment around the device 1000 when a subject is photographed using a sensor in the device 1000 , and the generated sensing data to automatically identify the peripheral environment of the device 1000 according to the can
  • the first processor 1500 may provide the extracted white balance matrix 44 and the color correction matrix 45 to the second processor 1720 .
  • the second processor 1720 may input the white balance matrix 44 and the color correction matrix 45 provided from the first processor 1500 together with the feature images 42 into the image correction model 1733 . there is.
  • the first processor 1500 of the device 1000 may display a GUI on the device 1000 to set the white balance and color correction of the feature images 42 as the photographing function is activated.
  • the display may be displayed on the unit 1200, and settings for white balance correction and color correction may be performed in advance based on a user input through the GUI.
  • the first processor 1500 extracts a white balance matrix 44 and a color correction matrix 45 from the first memory 1600 based on a setting according to a user input, and performs a white balance matrix 44 and color correction.
  • the matrix 45 may be provided to the second processor 1720 .
  • the second processor 1720 may input the white balance matrix 44 and the color correction matrix 45 provided from the first processor 1500 together with the feature images 42 into the image correction model 1733 . there is.
  • the present invention is not limited thereto.
  • the device 1000 may correct the feature images 42 without using the image correction model 1733 .
  • the device 1000 may correct the feature images using a matrix for correcting image properties.
  • the device 1000 may correct the white balance of the feature images 42 by multiplying each of the feature images 42 by a matrix 44 for correcting the white balance.
  • the device 1000 may correct the color of the feature images 42 by multiplying each of the feature images 42 by the matrix 45 for correcting the color.
  • the white balance matrix value and the color correction matrix value are input to the image correction model 1733, the present invention is not limited thereto.
  • a plurality of artificial intelligence models 1620 may be trained for each setting related to white balance and color correction.
  • the artificial intelligence model 1730 corresponding to predetermined settings related to white balance and color correction may be loaded into the second memory 1720 and used by the second processor 1710 to generate the output image. there is.
  • a predetermined value is obtained from the artificial intelligence model 1730 loaded in the second memory 1720 .
  • An output image in consideration of settings related to white balance and color correction may be output.
  • 4D is a diagram for describing a process in which the device 1000 generates an output image from corrected feature images according to an embodiment of the present disclosure.
  • the device 1000 may input the corrected feature images 46 into the image recovery model 1734 and obtain an output image 38 output from the image recovery model 1734 .
  • the output image 38 output from the image recovery model 1734 may be an image to be stored in the device 1000 as a result of photographing a subject.
  • the image recovery model 1734 may include a plurality of neural network layers, each of the plurality of neural network layers having a plurality of weight values, and an operation result of a previous layer and a plurality of weight values. Neural network operation can be performed through the operation between the two.
  • the plurality of weights of the plurality of neural network layers may be optimized by the training result of the image recovery model 1734 .
  • the image recovery model 1734 may include a tone map generation model 1731 and a feature extraction model. (1732) can be trained with.
  • the image recovery model 1734 may include a Convolutional Neural Network (CNN), but is not limited thereto.
  • CNN Convolutional Neural Network
  • FIG. 5 is a diagram illustrating an example of the structure of a feature extraction model 1732 according to an embodiment of the present disclosure.
  • the feature extraction model 1732 may be implemented by U-NET having an End-to-End Fully-Convolutional Network based structure.
  • the feature extraction model 1732 performs up-sampling to obtain a high-resolution result from the layers of the contraction path configured for the purpose of capturing the context of the input image and the feature image of the contraction stage. It may include layers of an expanding path to perform. In addition, the layers of the contracting path and the layers of the expanding path may have a symmetrical structure.
  • FIG. 6 is a flowchart of a method of generating an output image by photographing a subject by the device 1000 according to an embodiment of the present disclosure.
  • the device 1000 receives a user input of photographing a subject around the device 1000 , and in operation S605 , the device 1000 generates a raw image based on the light input through the camera sensor unit 1400 .
  • the device 1000 may use the camera sensor unit 1400 to generate raw images based on light provided from the subject, and as a user input for photographing the subject is received, the user When an input is received, a raw image generated by the camera sensor unit 1400 may be acquired.
  • the device 1000 may input a raw image to the tone map generation model 1731 .
  • the device 1000 may input a raw image to the tone map generation model 1731 and obtain a tone map output from the tone map generation model 1731 .
  • the device 1000 may input the generated tone map and the raw image to the feature extraction model 1732 .
  • the device 1000 may scale the brightness of pixels in the raw image by using the tone map, and may input the scaled raw image to the feature extraction model. Also, the device 1000 may obtain feature images output from the feature extraction model 1732 .
  • the device 1000 may correct the feature images generated by the feature extraction model 1732 according to a preset criterion.
  • the device 1000 may correct the feature images based on settings related to preset image properties. For example, the device 1000 may correct the feature images according to preset standards for white balance correction and color correction, but the preset standards for correction of the feature image are not limited thereto.
  • the device 1000 may input the corrected feature images to the image recovery model 1734 , and in operation S630 , the device 1000 may store an output image output from the image recovery model 1734 .
  • FIG. 7 is a diagram illustrating an example in which an artificial intelligence model 1620 is trained according to an embodiment of the present disclosure.
  • a reference image 72 generated through ISP processing on a reference raw image may be used as a ground truth image (GT image) for training the artificial intelligence model 1620 .
  • a reference raw image may be generated by combining a plurality of raw images 70 generated by continuously photographing a subject for a short time period, and the reference image 72 may be processed through the existing ISP processing for the reference raw image. ) can be output.
  • Existing ISP processing may be conventional processing that processes raw images without using an artificial intelligence model. For example, preprocessing of raw images, white balance adjustment, demosaicing, gamma correction, color conversion, etc. It may be image processing in which the processing is performed without using an artificial intelligence model.
  • the output reference image 72 may be used as a ground truth image (GT image) of the artificial intelligence model.
  • GT image ground truth image
  • one of a plurality of raw images 70 generated by continuously photographing a subject for a short time period may be selected, and an image output from the selected raw image through existing ISP processing may be used as the correct answer image.
  • one of a plurality of continuously captured raw images 70 or a reference raw image may be input to the artificial intelligence model 1620 .
  • a reference raw image may be generated by combining the 8 raw images, and a reference raw image is generated from the reference raw image and the reference raw image through conventional ISP processing.
  • the reference image may be used for training the artificial intelligence model 1620 .
  • 8 output images may be generated from each of the 8 raw images through conventional ISP processing. In this case, one of the eight raw images may be selected, and the selected raw image and the output image corresponding to the selected raw image may be used for training the artificial intelligence model 1620 .
  • setting information for correcting image properties of the feature images may be input to the artificial intelligence model 1620 .
  • the setting information for correcting the image property may include, for example, a matrix for correcting a preset white balance and a matrix for correcting a preset color.
  • Setting information according to various settings may be input to the artificial intelligence model 1620 so that the artificial intelligence model 1620 can be trained for various image properties.
  • a reference raw image including a predetermined noise may be input to the artificial intelligence model 1620 for training the artificial intelligence model 1620 .
  • the artificial intelligence model 1620 may be trained by gradually inputting the reference raw images including a lot of noise into the artificial intelligence model 1620 .
  • the server (not shown) or the device 1000 generates n input images by including first to n levels of noise in the reference raw image, respectively, and stores the n input images in the artificial intelligence model 1620 .
  • Each input may be input to train the artificial intelligence model 1620 .
  • the trained artificial intelligence model 1620 may be trained to output a denoised output image from a noise-containing raw image.
  • the artificial intelligence model 1620 may include a tone map generation model 1731 , a feature extraction model 1732 , and an image recovery model 1734 , and accordingly, a neural network layer in the tone map generation model 1731 .
  • the weights of the neural network layers in the feature extraction model 1732 and the weights of the neural network layers in the image recovery model 1734 may be tuned together.
  • FIG. 8 is a flowchart of a method for training an artificial intelligence model 1620 according to an embodiment of the present disclosure.
  • the server may acquire a plurality of raw images generated by continuously photographing a subject.
  • the server may acquire a plurality of raw images generated by continuously photographing a subject for a short period of time. Since the plurality of raw images are generated through continuous shooting, image information of the plurality of raw images may be similar to each other.
  • the server may generate a reference raw image by combining a plurality of raw images.
  • the server may generate one reference raw image by combining a plurality of raw images using an image fusion technique.
  • the server may obtain a reference image generated through ISP processing from the reference raw image.
  • ISP processing may be conventional processing that processes raw images without using an artificial intelligence model. It may be image processing performed without using an artificial intelligence model.
  • the reference image generated through ISP processing may be used as a ground truth image (GT image) of the artificial intelligence model 1620 .
  • GT image ground truth image
  • the server may acquire the first output image output from the artificial intelligence model 1620 .
  • the server may input one of a plurality of raw images or a reference raw image to the artificial intelligence model 1620 , and obtain a first output image output from the artificial intelligence model 1620 .
  • the artificial intelligence model 1620 to be trained by the server may include the configurations of the artificial intelligence model 1620 described in FIG. 3 .
  • the server may analyze a loss between the reference image and the first output image.
  • the server may use the reference image as a ground truth image, and may compare a difference between the reference image and the first output image.
  • the server may change the weight of the artificial intelligence model 1620 based on the analyzed loss.
  • the server may adjust the weights of the neural network layers in the artificial intelligence model 1620 to reduce a loss between the reference image and the first output image.
  • the artificial intelligence model 1620 may include a tone map generation model 1731 , a feature extraction model 1732 , and an image recovery model 1734 , and accordingly, a neural network layer in the tone map generation model 1731 . , weights of neural network layers in the feature extraction model 1732 and weights of neural network layers in the image recovery model 1734 may be adjusted together.
  • the server (not shown) inputs at least one of the raw images or a reference raw image to the artificial intelligence model 1620 with a changed weight, and in operation S835, the server (not shown) inputs the weighted artificial intelligence model 1620 ), and in operation S840, the server (not shown) may analyze a loss between the reference image and the second output image.
  • the server may determine whether to end training of the artificial intelligence model 1620 .
  • the server may determine to end training of the artificial intelligence model 1620, and when the loss analyzed in operation S840 is greater than a preset threshold
  • the server may repeatedly perform operations for changing the weight of the artificial intelligence model 1620 .
  • a plurality of artificial intelligence models 1620 may be trained according to a plurality of situations. For example, a plurality of artificial intelligence models based on a situation related to at least one of a camera filter, a camera lens, a manufacturer of a camera, a device model, a plurality of consecutively photographed images, a photographing environment, a type of a subject, or an attribute of a photographed image (1620) can be trained.
  • the artificial intelligence model 1620 is trained using the reference raw images and captured images photographed using the non-sharp mask, and the reference raw images and captured images photographed using the contrast adjustment mask are used.
  • the artificial intelligence model 1620 may be trained, and the artificial intelligence model 1620 may be trained using reference raw images captured using a color filter mask and captured images, but is not limited thereto.
  • the artificial intelligence model 1620 may be trained using reference raw images and captured images photographed for each camera lens, and the camera lenses are, for example, a telephoto lens, a wide-angle lens, a fisheye lens, etc. may include, but is not limited thereto.
  • the artificial intelligence model 1620 may be trained using reference raw images and captured images captured by the camera for each manufacturer of the camera, and the reference raw images captured by the device for each model of the device. and the artificial intelligence model 1620 may be trained using the captured images, but is not limited thereto.
  • the artificial intelligence model 1620 is trained using the reference raw images and captured images captured indoors, and the artificial intelligence model 1620 is trained using the reference raw images and captured images photographed outdoors.
  • the artificial intelligence model 1620 may be trained using the trained and reference raw images and captured images captured in a specific illuminance range, but is not limited thereto.
  • the artificial intelligence model 1620 is trained using the reference raw images and the photographed images in which the person is photographed, and the artificial intelligence model 1620 using the reference raw images and the photographed images in which the food is photographed.
  • the artificial intelligence model 1620 may be trained using the trained, reference raw images and captured images of the building, but is not limited thereto.
  • the artificial intelligence model 1620 may be trained using reference raw images and captured images captured for each property of the captured image.
  • the properties of the captured image include white balance, ISO, It may include, but is not limited to, shutter speed and the like.
  • training of the artificial intelligence model 1620 is performed by a server (not shown) in FIG. 8 , it is not limited thereto.
  • Training of the artificial intelligence model 1620 may be performed by the device 1000 .
  • the device 1000 may directly generate a reference raw image and a reference image to be used for training the artificial intelligence model 1620 , or may request and receive the reference image from a server (not shown).
  • the device 1000 requests a reference raw image and a reference image for training the artificial intelligence model 1620 from the server (not shown) while providing the images captured by the device 1000 to the server (not shown).
  • the server (not shown) may analyze the images received from the device 1000 and provide the device 1000 with a reference raw image and a reference image related to a situation preferred by the user of the device 1000 .
  • the server analyzes the images received from the device 1000 , so that the type of the device 1000 used by the user, the type of subject in the image captured by the device 1000 , and the user's preferred image It is possible to identify the user's preference situation, such as a style and an environment (eg, indoor, outdoor, illuminance, weather, etc.) of a place where the user mainly shoots. Or, for example, the device 1000 for training of the artificial intelligence model 1620 to the server (not shown) while providing information about the camera type and lens type of the device 1000 to the server (not shown). You can request a reference raw image and a reference image.
  • the server may provide the device 1000 with a reference raw image and a reference image related to a camera type and a lens type received from the device 1000 .
  • the device 1000 provides the server (not shown) with user preference information on the user's preferred image style, shooting environment, and subject, and provides the server (not shown) with reference raw material for training the artificial intelligence model 1620 Images and reference images can be requested.
  • a server (not shown) may provide a reference raw image and a reference image related to user preference information received from the device 1000 to the device 1000 .
  • FIG 9 is a flowchart of a method of outputting a live view image by the device 1000 according to an embodiment of the present disclosure.
  • the device 1000 may receive a user input for activating a photographing function for photographing a subject.
  • the device 1000 may receive a user input for executing a camera application installed in the device 1000 .
  • the device 1000 may generate a raw image based on light input through the camera sensor unit 1400 .
  • the device 1000 may generate a raw image used to generate a live view image as the photographing function is activated.
  • the device 1000 may deactivate at least one of the models in the artificial intelligence model 1730 .
  • the device 1000 may inactivate at least one of the tone map generation model 1731 , the feature extraction model 1732 , the image correction model 1733 , and the image recovery model 1734 .
  • Which model among the tone map generation model 1731 , the feature extraction model 1732 , the image correction model 1733 , and the image recovery model 1734 is to be deactivated may be preset to generate the live view image.
  • the device 1000 may input a raw image to the artificial intelligence model 1730 in which at least one model is deactivated, and in operation S920 , the device 1000 displays a live view image output from the artificial intelligence model 1730 . can be displayed on the screen.
  • the artificial intelligence model 1620 may be trained in advance to output a good live view image in a state in which at least one of the models in the artificial intelligence model 1620 is deactivated.
  • the live view image using the artificial intelligence model 1720 in which at least one of the tone map generation model 1731 , the feature extraction model 1732 , the image correction model 1733 , and the image recovery model 1734 is inactive is used.
  • a live view image may be generated using the artificial intelligence model 1730 in which the tone map generation model 1731 , the feature extraction model 1732 , the image correction model 1733 , and the image recovery model 1734 are all activated.
  • Images may be created and stored.
  • 10A is a diagram illustrating an example of deactivating the tone map generation model 1731 in the artificial intelligence model 1730 to generate a live view image according to an embodiment of the present disclosure.
  • a raw image may be input to the artificial intelligence model 1730 .
  • the raw image is input to the feature extraction model 1732 , the feature images output from the feature extraction model 1732 are corrected, the corrected feature images are input to the image recovery model 1734 , and from the image recovery model 1734 .
  • a live view image may be output.
  • the artificial intelligence model 1730 may be a model trained in the same manner as in FIG. 7 in a state in which the tone map generation model 1731 is deactivated.
  • 10B is a diagram illustrating an example of deactivating the feature extraction model 1732 and the image recovery model 1734 in the artificial intelligence model 1730 to generate a live view image according to an embodiment of the present disclosure.
  • a raw image may be input to the artificial intelligence model 1730 .
  • the raw image is input to the tone map generating model 1731, the brightness of the raw image is adjusted based on the tone map output from the tone map generating model 1731, and the live view image is generated by correcting the brightness of the adjusted raw image.
  • the artificial intelligence model 1730 may be a model trained in the same manner as in FIG. 7 in a state in which the feature extraction model 1732 and the image recovery model 1734 are deactivated.
  • 10C is an example of deactivating the tone map generation model 1731 , the feature extraction model 1732 , and the image recovery model 1734 in the artificial intelligence model 1730 to generate a live view image according to an embodiment of the present disclosure. It is a drawing showing
  • the raw image is corrected to generate a live view image. It might be
  • the white balance matrix value and the color correction matrix value are input to the image correction model 1733 in FIGS. 10A to 10C
  • the present invention is not limited thereto.
  • a plurality of artificial intelligence models 1620 may be trained for each setting related to white balance and color correction.
  • the artificial intelligence model 1730 corresponding to the preset settings related to white balance and color correction is loaded into the second memory 1720 to be used by the second processor 1710 to generate the live view image.
  • a predetermined value is obtained from the artificial intelligence model 1730 loaded in the second memory 1720 .
  • a live view image in consideration of settings related to white balance and color correction can be output.
  • FIG 11 is a flowchart of a method for the device 1000 to update the artificial intelligence model 1620 by receiving the retrained artificial intelligence model 1620 from a server (not shown).
  • the device 1000 may request the retrained artificial intelligence model 1620 from a server (not shown).
  • the artificial intelligence model 1620 may be retrained by a server (not shown), and the server (not shown) provides notification information indicating that the retrained artificial intelligence model 1620 exists to the device 1000.
  • the device 1000 may display notification information received from a server (not shown) on a screen and receive a user input for updating the artificial intelligence model 1620 .
  • the device 1000 may request the retrained artificial intelligence model 1620 from the server (not shown) while providing information on the photo attribute preferred by the user to the server (not shown).
  • the device 1000 may request the retrained artificial intelligence model 1620 from the server (not shown) while providing the images captured by the device 1000 to the server (not shown).
  • the server (not shown) may analyze the images received from the device 1000 and retrain the artificial intelligence model 1620 using a reference raw image and a reference image related to a situation preferred by the user of the device 1000 . .
  • the server analyzes the images received from the device 1000 , so that the type of the device 1000 used by the user, the type of subject in the image captured by the device 1000 , and the user's preferred image It is possible to identify the user's preference situation, such as a style and an environment (eg, indoor, outdoor, illuminance, weather, etc.) of a place where the user mainly shoots.
  • the server may retrain the artificial intelligence model 1620 using the reference raw image and the reference image related to the user's preference situation.
  • the device 1000 provides the server (not shown) with information about the camera type and lens type of the device 1000 while providing the retrained artificial intelligence model 1620 to the server (not shown). you can request The server (not shown) may retrain the artificial intelligence model 1620 using the reference raw image and the reference image related to the camera type and lens type received from the device 1000 .
  • the device 1000 may request the retrained artificial intelligence model 1620 from the server (not shown) while providing user preference information about the user's preferred image style, shooting environment, and subject to the server (not shown). there is.
  • the server (not shown) may retrain the artificial intelligence model 1620 using the reference raw image and the reference image related to the user preference information received from the device 1000 .
  • the device 1000 may receive the retrained artificial intelligence model 1620 from a server (not shown).
  • the server (not shown) retrains the artificial intelligence model 1620 in relation to the user's preferred photo attribute. may be provided to the device 1000 .
  • the device 1000 may update the artificial intelligence model 1620 in the device 1000 based on the retrained artificial intelligence model 1620 .
  • the device 1000 may update the artificial intelligence model 1620 in the device 1000 by, for example, replacing the artificial intelligence model 1620 in the device 1000 with the retrained artificial intelligence model 1620 . there is.
  • FIG. 12 is a flowchart of a method for the device 1000 to retrain and update the artificial intelligence model 1620 .
  • the device 1000 may acquire a reference raw image for retraining and a reference image corresponding to the reference raw image.
  • the reference image may be an image generated from a reference raw image for retraining.
  • the device 1000 requests a server (not shown) for a reference raw image and a reference image for retraining the artificial intelligence model 1620, and receives a reference raw image and a reference image for retraining from the server (not shown). can do.
  • the device 1000 may provide information about a photo taken by the device 1000 or a photo attribute preferred by the user to a server (not shown), and the server (not shown) may determine the user's preferred situation and
  • the reference image and the reference raw image generated in relation to each other may be provided to the device 1000 .
  • the device 1000 provides the server (not shown) with the images captured by the device 1000 while providing the server (not shown) with a reference raw image and a reference image for retraining the artificial intelligence model 1620 .
  • the server (not shown) may analyze the images received from the device 1000 and provide the device 1000 with a reference raw image and a reference image related to a situation preferred by the user of the device 1000 .
  • the server analyzes the images received from the device 1000 , so that the type of the device 1000 used by the user, the type of subject in the image captured by the device 1000 , and the user's preferred image It is possible to identify the user's preference situation, such as a style and an environment (eg, indoor, outdoor, illuminance, weather, etc.) of a place where the user mainly shoots. Also, the server (not shown) may provide the device 1000 with a reference raw image and a reference image related to the user's preference situation.
  • the server may provide the device 1000 with a reference raw image and a reference image related to the user's preference situation.
  • the device 1000 provides the server (not shown) with information about the camera type and lens type of the device 1000 while retraining the artificial intelligence model 1620 to the server (not shown). You can request a reference raw image and a reference image for The server (not shown) may provide the device 1000 with a reference raw image and a reference image related to a camera type and a lens type received from the device 1000 .
  • the device 1000 provides the server (not shown) with user preference information on the user's preferred image style, shooting environment and subject, etc., while providing the server (not shown) with a criterion for retraining the artificial intelligence model 1620 .
  • the server (not shown) may provide the device 1000 using the reference raw image and the reference image related to the user preference information received from the device 1000 .
  • the device 1000 may update the artificial intelligence model 1620 in the device 1000 by using the reference raw image for retraining and the reference image corresponding to the reference raw image.
  • the device 1000 may use the reference image received from the server (not shown) as an answer image, and the device 1000 inputs the reference raw image received from the server (not shown) into the artificial intelligence model 1620 and
  • the artificial intelligence model 1620 may be retrained by comparing the output image output from the intelligence model 1620 with a reference image.
  • the processor may consist of one or a plurality of processors.
  • one or more processors may be a general-purpose processor such as a CPU, an AP, a digital signal processor (DSP), or the like, a graphics-only processor such as a GPU, a VPU (Vision Processing Unit), or an artificial intelligence-only processor such as an NPU.
  • DSP digital signal processor
  • One or a plurality of processors control to process input data according to a predefined operation rule or artificial intelligence model stored in the memory.
  • the AI-only processor may be designed with a hardware structure specialized for processing a specific AI model.
  • a predefined action rule or artificial intelligence model is characterized in that it is created through learning.
  • being made through learning means that a basic artificial intelligence model is learned using a plurality of learning data by a learning algorithm, so that a predefined action rule or artificial intelligence model set to perform a desired characteristic (or purpose) is created means burden.
  • Such learning may be performed in the device itself on which artificial intelligence according to the present disclosure is performed, or may be performed through a separate server and/or system.
  • Examples of the learning algorithm include, but are not limited to, supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning.
  • the artificial intelligence model may be composed of a plurality of neural network layers.
  • Each of the plurality of neural network layers has a plurality of weight values, and a neural network operation is performed through an operation between the operation result of a previous layer and the plurality of weights.
  • the plurality of weights of the plurality of neural network layers may be optimized by the learning result of the artificial intelligence model. For example, a plurality of weights may be updated so that a loss value or a cost value obtained from the artificial intelligence model during the learning process is reduced or minimized.
  • the artificial neural network may include a deep neural network (DNN), for example, a Convolutional Neural Network (CNN), a Deep Neural Network (DNN), a Recurrent Neural Network (RNN), a Restricted Boltzmann Machine (RBM), There may be a Deep Belief Network (DBN), a Bidirectional Recurrent Deep Neural Network (BRDNN), or a Deep Q-Networks, but is not limited thereto.
  • DNN Deep Neural Network
  • DNN Deep Belief Network
  • BBDNN Bidirectional Recurrent Deep Neural Network
  • Deep Q-Networks Deep Q-Networks
  • the raw image may be used as input data of the artificial intelligence model, and output image data may be output from the artificial intelligence model.
  • AI models can be created through learning.
  • being made through learning means that a basic artificial intelligence model is learned using a plurality of learning data by a learning algorithm, so that a predefined action rule or artificial intelligence model set to perform a desired characteristic (or purpose) is created means burden.
  • the artificial intelligence model may be composed of a plurality of neural network layers. Each of the plurality of neural network layers has a plurality of weight values, and a neural network operation is performed through an operation between the operation result of a previous layer and the plurality of weights.
  • Artificial intelligence models include Object Recognition, Object Tracking, Image Retrieval, Human Recognition, Scene Recognition, 3D Reconstruction/Localization, and Image It may be used for image enhancement and the like.
  • Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. Additionally, computer-readable media may include computer storage media and communication media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. Communication media may typically include computer readable instructions, data structures, or other data in a modulated data signal such as program modules.
  • the computer-readable storage medium may be provided in the form of a non-transitory storage medium.
  • 'non-transitory storage medium' is a tangible device and only means that it does not contain a signal (eg, electromagnetic wave). It does not distinguish the case where it is stored as
  • the 'non-transitory storage medium' may include a buffer in which data is temporarily stored.
  • the method according to various embodiments disclosed in this document may be included and provided in a computer program product.
  • Computer program products may be traded between sellers and buyers as commodities.
  • the computer program product is distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)), or through an application store (eg Play StoreTM) or on two user devices (eg, It can be distributed (eg downloaded or uploaded) directly or online between smartphones (eg: smartphones).
  • a portion of the computer program product eg, a downloadable app
  • a machine-readable storage medium such as a memory of a manufacturer's server, a server of an application store, or a relay server. It may be temporarily stored or temporarily created.
  • unit may be a hardware component such as a processor or circuit, and/or a software component executed by a hardware component such as a processor.
  • a, b, or c means “including only a, including only b, including only c, or including a and b, or including b and c, It may mean including a and c, or including both a, b and c.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

피사체가 촬영된 영상을 생성하는 디바이스 및 방법이 제공된다. 디바이스가 원시 영상으로부터 피사체가 촬영된 출력 영상을 생성하는 방법은, 상기 디바이스의 제어를 위한 제1 프로세서를 이용하여, 상기 디바이스 내의 카메라 센서를 제어함으로써 피사체를 나타내는 원시 영상을 획득하는 동작; 인공지능 모델을 이용하는 상기 원시 영상에 대한 영상 처리를 위한 제2 프로세서를 이용하여, 상기 피사체를 나타내는 상기 원시 영상을, 영상의 밝기를 조절하기 위해 훈련된 제1 인공지능 모델에 입력하는 동작; 상기 제2 프로세서를 이용하여, 상기 제1 인공지능 모델로부터 출력되는 톤 맵 데이터를 획득하는 동작; 및 상기 톤 맵 데이터에 기초하여 생성되는 출력 영상을 저장하는 동작;을 포함한다.

Description

피사체가 촬영된 영상을 생성하는 디바이스 및 방법
본 개시는 인공지능 모델을 이용하여 피사체가 촬영된 영상을 생성하는 디바이스 및 방법에 관한 것이다.
휴대 단말기가 널리 사용되고, 통신 네트워크 기술이 발전함에 따라 휴대 단말기와 관련된 소비자들의 요구가 다양화되고 있으며, 이에 따라 다양한 종류의 부가 장치들이 휴대 단말기에 장착되고 있다. 또한, 휴대 단말기가 소형화되고 피사체를 촬영하기 위한 카메라의 기능이 휴대 단말기에 의해 지원되고 있다.
하지만, 휴대 단말기의 소형화로 인하여, 고성능의 카메라 센서를 휴대 단말에 장착하기 힘든 어려움이 있었으며, 카메라 센서를 통해 생성되는 로우 데이터를 프로세싱하는데 휴대 단말의 많은 리소스가 필요한 문제가 있었다.
이에 따라, 휴대 단말의 카메라 센서를 이용하여 다양한 영상 특징을 가지는 영상을 생성하는 기술의 필요성이 높아지고 있으며, 나아가, 높은 품질의 HDR (High Dynamic Range) 이미지를 생성할 수 있는 인공지능 기술이 요구되고 있다.
본 개시의 일 실시예는, 인공지능 모델을 이용하여 피사체가 촬영된 영상을 생성할 수 있는 디바이스 및 방법을 제공할 수 있다.
또한, 본 개시의 일 실시예는, 카메라 센서로부터 생성되는 원시 영상을 인공지능 모델에 입력하여 피사체가 촬영된 출력 영상을 획득할 수 있는 디바이스 및 방법을 제공할 수 있다.
또한, 본 개시의 일 실시예는, 톤 맵을 생성하기 위한 인공지능 모델을 이용하여 피사체가 촬영된 출력 영상을 획득할 수 있는 디바이스 및 방법을 제공할 수 있다.
또한, 본 개시의 일 실시예는, 복수의 인공지능 모델을 순차적으로 이용하여 원시 영상으로부터 피사체가 촬영된 출력 영상을 획득할 수 있는 디바이스 및 방법을 제공할 수 있다.
또한, 본 개시의 일 실시예는, 함께 훈련된 복수의 인공지능 모델을 적어도 일부를 이용하여, 피사체를 촬영하기 위한 라이브 뷰 영상 및 피사체가 촬영된 출력 영상을 획득할 수 있는 디바이스 및 방법을 제공할 수 있다.
또한, 본 개시의 일 실시예는, 피사체가 촬영되는 상황 또는 사용자의 선호 중 적어도 하나에 관련하여 훈련된 인공지능 모델을 이용하여, 피사체를 촬영하기 위한 라이브 뷰 영상 및 피사체가 촬영된 출력 영상을 획득할 수 있는 디바이스 및 방법을 제공할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 디바이스의 제어를 위한 제1 프로세서를 이용하여, 상기 디바이스 내의 카메라 센서를 제어함으로써 상기 카메라 센서의 전방의 피사체를 나타내는 원시 영상을 획득하는 동작; 인공지능 모델을 이용하는 상기 원시 영상에 대한 영상 처리를 위한 제2 프로세서를 이용하여, 상기 카메라 센서의 전방의 상기 피사체를 나타내는 상기 원시 영상을, 영상의 밝기를 조절하기 위해 훈련된 제1 인공지능 모델에 입력하는 동작; 상기 제2 프로세서를 이용하여, 상기 제1 인공지능 모델로부터 출력되는 톤 맵 데이터를 획득하는 동작; 및 상기 톤 맵 데이터에 기초하여 생성되는 출력 영상을 저장하는 동작;을 포함하는, 디바이스가 원시 영상으로부터 피사체가 촬영된 출력 영상을 생성하는 방법을 제공할 수 있다.
또한, 본 개시의 제2 측면은, 카메라 센서; 디스플레이; 상기 디바이스의 제어를 위한 제1 명령어들을 저장하는 제1 메모리; 상기 제1 메모리에 저장된 제1 명령어들을 실행하는 제1 프로세서; 상기 원시 영상에 대한 영상 처리를 위한 적어도 하나의 인공지능 모델 및 상기 인공지능 모델의 실행에 관련된 제2 명령어들을 저장하는 제2 메모리; 및 상기 제2 메모리에 저장된 상기 적어도 하나의 인공지능 모델 및 상기 제2 명령어들을 실행하는 제2 프로세서;를 포함하며, 상기 제1 프로세서가 상기 카메라 센서를 이용하여 상기 카메라 센서의 전방의 피사체를 나타내는 원시 영상을 획득하고, 상기 제2 프로세서가 상기 카메라 센서의 전방의 상기 피사체를 나타내는 상기 원시 영상을, 영상의 밝기를 조절하기 위해 훈련된 제1 인공지능 모델에 입력하고, 상기 제2 프로세서가 상기 제1 인공지능 모델로부터 출력되는 톤 맵 데이터를 획득하고, 상기 제1 프로세서가 상기 톤 맵 데이터에 기초하여 생성되는 출력 영상을 상기 제1 메모리에 저장하는 것인, 원시 영상으로부터 피사체가 촬영된 출력 영상을 생성하는 디바이스를 제공할 수 있다.
또한, 본 개시의 제3 측면은, 제1 측면의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.
도 1은 본 개시의 일 실시예에 따른, 디바이스(1000)가 피사체를 촬영하여 출력 영상을 생성하는 예시를 나타내는 도면이다.
도 2는 본 개시의 일 실시예에 따른 디바이스(1000)의 블록도이다.
도 3은 본 개시의 일 실시예에 따른 원시 영상으로부터 피사체가 촬영된 출력 영상이 생성되는 과정을 설명하는 도면이다.
도 4a는 본 개시의 일 실시예에 따른 디바이스(1000)가 원시 영상(30)으로부터 톤 맵을 생성하는 과정을 설명하는 도면이다.
도 4b는 본 개시의 일 실시예에 따른 디바이스(1000)가 원시 영상(30)으로부터 특징들을 추출하는 과정을 설명하는 도면이다.
도 4c는 본 개시의 일 실시예에 따른 디바이스(1000)가 특징 영상들을 보정하는 과정을 설명하는 도면이다.
도 4d는 본 개시의 일 실시예에 따른 디바이스(1000)가 보정된 특징 영상들로부터 출력 영상을 생성하는 과정을 설명하는 도면이다.
도 5는 본 개시의 일 실시예에 따른 특징 추출 모델(1732)의 구조의 일례를 나타내는 도면이다.
도 6은 본 개시의 일 실시예에 따른 디바이스(1000)가 피사체를 촬영하여 출력 영상을 생성하는 방법의 흐름도이다.
도 7은 본 개시의 일 실시예에 따른 인공지능 모델(1620)이 훈련되는 예시를 나타내는 도면이다.
도 8은 본 개시의 일 실시예에 따른 인공지능 모델(1620)을 훈련하는 방법의 흐름도이다.
도 9는 본 개시의 일 실시예에 따른 디바이스(1000)가 라이브 뷰 영상을 출력하는 방법의 흐름도이다.
도 10a는 본 개시의 일 실시예에 따른 라이브 뷰 영상을 생성하기 위하여 인공지능 모델(1730) 내의 톤 맵 생성 모델(1731)을 비활성화하는 예시를 나타내는 도면이다.
도 10b는 본 개시의 일 실시예에 따른 라이브 뷰 영상을 생성하기 위하여 인공지능 모델(1730) 내의 특징 추출 모델(1732) 및 영상 회복 모델(1734)을 비활성화하는 예시를 나타내는 도면이다.
도 10c는 본 개시의 일 실시예에 따른 라이브 뷰 영상을 생성하기 위하여 인공지능 모델(1730) 내의 톤 맵 생성 모델(1731), 특징 추출 모델(1732) 및 영상 회복 모델(1734)을 비활성화하는 예시를 나타내는 도면이다.
도 11은 본 개시의 일 실시예에 따른 디바이스(1000)가 리트레이닝된 인공지능 모델(1620)을 서버(미도시)로부터 수신하여 인공지능 모델(1620)을 업데이트하는 방법의 흐름도이다.
도 12는 본 개시의 일 실시예에 따른 디바이스(1000)가 인공지능 모델(1620)을 리트레이닝하여 업데이트하는 방법의 흐름도이다.
도 13a는 본 개시의 일 실시예에 따른 피사체를 촬영하는 디바이스(1000)의 촬영 설정을 위한 GUI의 예시를 나타내는 도면이다.
도 13b는 본 개시의 일 실시예에 따른 피사체를 촬영하는 디바이스(1000)의 촬영 설정을 위한 GUI의 예시를 나타내는 도면이다.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
또한, 본 명세서에서, AI 프로세싱 유닛은 인공지능 기술을 이용하여 이미지를 처리하기 위한 프로세싱 유닛일 수 있다. 예를 들어, AI 프로세싱 유닛은 인공지능 모델을 이용한 이미지 처리를 위하여 설계된 프로세싱 유닛으로서, 이미지 처리를 위한 전용의 프로세싱 유닛일 수 있다. 또는, 예를 들어, AI 프로세싱 유닛은 NPU(Neural Processing Unit)에 인공지능 모델을 이용한 이미지 처리를 위한 설정을 함으로써 구현될 수 있다.
또한, 본 명세서에서, 인공지능 모델은 원시 영상(raw image)으로부터 피사체가 촬영된 결과물인 출력 영상을 생성하기 위하여 훈련된 모델로서, 복수의 하위 인공지능 모델을 포함할 수 있다. 인공 지능 모델에 포함된 복수의 하위 인공지능 모델은, 톤 맵 생성 모델, 특징 추출 모델, 영상 보정 모델 및 영상 회복 모델을 포함할 수 있다. 톤 맵 생성 모델은 원시 영상으로부터 톤 맵을 생성하기 위하여 훈련된 인공지능 모델이고, 특징 추출 모델은 특징 추출 모델에 입력된 원시 영상 내의 특징들을 추출하기 위하여 훈련된 인공지능 모델이며, 영상 보정 모델은 특징 추출 모델로부터 출력되는 특징 영상들을 보정하기 위하여 훈련된 인공지능 모델이며, 영상 회복 모델은 보정된 특징 영상들로부터 피사체가 촬영된 촬영 영상을 생성하기 위하여 훈련된 인공지능 모델일 수 있다.
또한, 본 명세서에서, 톤 맵은 원시 영상 내의 픽셀들의 밝기를 스케일링하기 위한 정보를 포함하는 맵 데이터일 수 있다. 톤 맵은, 원시 영상 내의 부분 별로 픽셀의 밝기를 스케일링하는 로컬톤 매핑 또는 원시 영상의 전체에 대한 밝기를 스케일링하는 글로벌톤 매핑 중 적어도 하나를 위한 맵 데이터일 수 있다.
또한, 본 명세서에서, 라이브 뷰 영상은 피사체를 촬영하는 사용자가 촬영되는 피사체를 확인할 수 있도록 디바이스의 화면 상에 출력되는 영상일 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1은 본 개시의 일 실시예에 따른, 디바이스(1000)가 피사체를 촬영하여 출력 영상을 생성하는 예시를 나타내는 도면이다.
도 1을 참조하면, 디바이스(1000)는 피사체가 촬영된 영상을 생성하기 위한 인공지능 모델을 이용하여 피사체를 촬영할 수 있다. 디바이스(1000)는 피사체가 촬영된 영상을 생성하기 위한 AI 프로세싱 유닛(1700)을 포함할 수 있으며, 디바이스(1000)의 AI 프로세싱 유닛(1700)은 디바이스(1000) 내의 카메라 센서를 이용하여 생성되는 원시 영상 및 영상 보정을 위한 기설정된 설정 값을 인공지능 모델에 입력하고, 인공지능 모델로부터 출력되는 출력 영상을 획득할 수 있다. AI 프로세싱 유닛(1700)에 의해 이용되는 인공지능 모델은, 원시 영상피사체가 촬영된 결과물인 출력 영상을 원시 영상으로부터 생성하기 위하여 훈련된 모델로서, 복수의 하위 인공지능 모델을 포함할 수 있다. 인공 지능 모델에 포함된 복수의 하위 인공지능 모델은, 톤 맵을 생성하기 위한 인공지능 모델, 영상의 특징을 추출하기 위한 인공지능 모델, 추출된 특징을 나타내는 특징 영상을 보정하기 위한 인공지능 모델 및 출력 영상을 생성하기 위한 인공지능 모델을 포함할 수 있다.
또한, 디바이스(1000)의 AI 프로세싱 유닛(1700)은 복수의 하위 인공지능 모델 중 적어도 하나를 이용하여 피사체 촬영을 위한 라이브뷰 영상을 생성할 수 있다.
디바이스(1000)는, 스마트폰, 태블릿 PC, PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, 키오스크, 디지털 카메라, 가전기기 및 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다. 또한, 디바이스(1000)는 통신 기능 및 데이터 프로세싱 기능을 구비한 시계, 안경, 헤어 밴드 및 반지 등의 웨어러블 디바이스일 수 있다. 그러나, 이에 제한되지 않으며, 디바이스(1000)는 피사체를 촬영할 수 있는 모든 종류의 기기를 포함할 수 있다.
디바이스(1000)는 피사체가 촬영된 영상을 획득하기 위하여 서버(미도시)와 네트워크를 통하여 통신할 수 있다. 네트워크는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN) 또는 부가가치 통신망(Value Added Network; VAN) 등과 같은 유선 네트워크나 이동 통신망(mobile radio communication network) 또는 위성 통신망 등과 같은 모든 종류의 무선 네트워크로 구현될 수 있다. 또한, 네트워크는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 이동 통신망(mobile radio communication network) 또는 위성 통신망 중 적어도 둘 이상의 상호 조합을 포함할 수 있으며, 각 네트워크 구성 주체가 서로 원활하게 통신을 할 수 있도록 하는 포괄적인 의미의 데이터 통신망이며, 유선 인터넷, 무선 인터넷 및 모바일 무선 통신망을 포함할 수 있다. 무선 통신은 예를 들어, 무선 랜(Wi-Fi), 블루투스, 블루투스 저 에너지(Bluetooth low energy), 지그비, WFD(Wi-Fi Direct), UWB(ultra wideband), 적외선 통신(IrDA, infrared Data Association), NFC(Near Field Communication) 등이 있을 수 있으나, 이에 한정되는 것은 아니다.
도 2는 본 개시의 일 실시예에 따른 디바이스(1000)의 블록도이다.
도 2를 참조하면, 본 개시의 일 실시예에 따른 디바이스(1000)는 사용자 입력부(1100), 디스플레이부(1200), 통신 인터페이스(1300), 카메라 센서부(1400), 제1 프로세서(1500), 제1 메모리(1600) 및 AI 프로세싱 유닛(1700)를 포함할 수 있다. 또한, AI 프로세싱 유닛(1700)은 인공지능 기술을 이용하여 이미지를 처리하기 위한 제2 프로세서(1710) 및 제2 메모리(1720)을 포함할 수 있다. 예를 들어, AI 프로세싱 유닛(1700)은 인공지능 모델을 이용한 이미지 처리를 위하여 설계된 프로세싱 유닛으로서, 이미지 처리를 위한 전용의 프로세싱 유닛일 수 있다. 또는, 예를 들어, AI 프로세싱 유닛(1700)은 NPU(Neural Processing Unit)에 인공지능 모델을 이용한 이미지 처리를 위한 설정을 함으로써 구현될 수 있다.
사용자 입력부(1100)는, 사용자가 디바이스(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1100)는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠 또는 조그 스위치 중 적어도 하나를 포함할 수 있으나 이에 한정되는 것은 아니다. 사용자 입력부(1100)는 디바이스(1000)를 이용하는 사용자가 사진을 촬영하기 위한 사용자 입력을 수신할 수 있다.
디스플레이부(1200)는 디바이스(1000)에서 처리되는 정보를 표시 출력한다. 예를 들어, 디스플레이부(1200)는, 사진 촬영을 위한 GUI, 라이브 뷰 영상, 사진 촬영의 결과물로 출력되는 출력 영상을 디스플레이할 수 있다.
한편, 디스플레이부(1200)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1200)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(1200)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고 디바이스(1000)의 구현 형태에 따라 디바이스(1000)는 디스플레이부(1200)를 2개 이상 포함할 수도 있다.
통신 인터페이스(1300)는, 다른 디바이스(미도시) 및 서버(미도시) 간의 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신 인터페이스(1300)는, 근거리 통신부, 이동 통신부, 방송 수신부를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 이동 통신부는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다. 방송 수신부는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 디바이스(1000)가 방송 수신부를 포함하지 않을 수도 있다.
또한, 통신 인터페이스(1300)는, 사진 촬영을 위한 인공지능 모델(1620)을 관리하기 위하여 필요한 정보를, 다른 디바이스(미도시) 및 서버(미도시)와 송수신할 수 있다.
카메라 센서부(1400)는 컬러 필터(1410) 및 이미지 센서(1420)를 포함하며, 후술할 제1 프로세서(1500) 또는 제2 프로세서(1710)에 의해 제어됨으로써, 피사체에 대한 원시 영상(raw image)을 생성할 수 있다. 카메라 센서부(1400)는 제1 프로세서(1500)의 제어 신호에 기초한 제2 프로세서(1710)의 제어 또는 제2 프로세서(1710)의 독립적인 제어에 의해, 피사체에 대한 원시 영상을 생성할 수 있다. 예를 들어, 제2 프로세서(1710)가 카메라 센서부(1400) 내에 포함되는 경우에, 제1 프로세서(1500)가 카메라 센서부(1400)에 대해서 촬영을 위한 제어 요청 신호를 보내면, 카메라 센서부(1400) 내의 제2 프로세서(1710)가 제어 요청 신호를 수신하여 카메라 센서부(1400)를 제어하여 원시 영상을 생성할 수 있다. 또는, 예를 들어, 제2 프로세서(1710)가 카메라 센서부(1400)의 외부에 있는 경우에, 제1 프로세서(1500)가 촬영을 위한 제어 요청 신호를 제2 프로세서(1710)에게 보내면, 제2 프로세서(1710)가 제어 요청 신호를 수신하여 카메라 센서부(1400)를 제어하여 원시 영상을 생성할 수 있다. 또는, 예를 들어, 제1 프로세서(1500)가 카메라 센서부(1400)를 제어하여 원시 영상을 획득하고 획득된 원시 영상을 제2 프로세서(1710)에게 제공할 수도 있다.
CMOS(complementary metal-oxide semiconductor) 또는 CCD(charge coupled device) 등의 이미지 센서(1420)에 의해 획득되는 영상은 단색(monochrome)의 영상이므로, 이미지 센서(1420)의 전단부에 가시광선 영역에서 특정 주파수 대역 만을 통과시키는 컬러 필터(1410)가 배치될 수 있으며, 컬러 필터(1410)를 통과하여 이미지 센서(1420)로 전달되는 광으로부터 컬러 영상이 획득될 수 있다. 컬러 필터(1410)는 피사체로부터 전달되는 광 중에서 특정 주파수 대역을 갖는 광을 통과시킨다. 컬러 필터(1410)는 복수의 색상에 대응되는 복수의 영역으로 구분되어 있으며, 복수의 영역 각각은, 예를 들어, 적색, 녹색, 청색의 3개의 색상 중 하나의 색상이 갖는 주파수 대역과 동일한 주파수 대역을 갖는 광만을 통과 시킬 수 있다. 컬러 필터(1410)를 통과한 광은 CMOS 또는 CCD 등의 이미지 센서(1420)로 전달되며, 이미지 센서(1420)는 전달받은 광을 전기적 신호로 변환할 수 있다. 예를 들어, 이미지 센서(1420)에 의해 변환된 전기적 신호는 적색 값, 녹색 값 및 청색 값으로 구성될 수 있으며, 적색 값, 녹색 값 및 청색 값의 배열로 구성된 원시 영상(raw image)이 생성될 수 있다. 원시 영상은 컬러 필터(1410)의 어레이 패턴에 따른 패턴을 가질 수 있으며, 예를 들어, 베이어(bayer) 패턴, RGBE 패턴, RYYB 패턴, CYYM 패턴, CYGM 패턴, RGBW 베이어 패턴, 및 X-trans 패턴 중 하나의 패턴을 가질 수 있다.
제1 메모리(1600)는, 후술할 제1 프로세서(1500) 또는 제2 프로세서(1700) 중 적어도 하나의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 디바이스(1000)로 입력되거나 디바이스(1000)로부터 출력되는 데이터를 저장할 수 있다.
제1 메모리(1600)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
제1 메모리(1600)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, 영상 처리 모듈(1610), 적어도 하나의 인공지능 모델(1620) 및 모델 관리 모듈(1630)을 포함할 수 있다. 또한, 영상 처리 모듈(1610)은 전처리 모듈(1611), 출력 영상 생성 모듈(1612) 및 라이브 뷰 생성 모듈(1613)을 포함하고, 인공지능 모델(1620)은 톤 맵 생성 모델(tone map generation model), 특징 추출 모델(feature extraction model), 영상 보정 모델(image modifying model) 및 영상 회복 모델(image regression model)와 같은 복수의 하위 인공지능 모델들을 포함하며, 모델 관리 모듈(1630)은 모델 선택 모듈(1634), 다운로딩 모듈(1631), 업데이트 모듈(1632) 및 리트레이닝 모듈(1633)을 포함할 수 있다. 제1 프로세서(1500)는, 통상적으로 디바이스(1000)의 전반적인 동작을 제어한다. 예를 들어, 제어부(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1100), 디스플레이부(1200), 통신 인터페이스(1300), 카메라 센서부(1400) 및 제1 메모리(1600)를 제어할 수 있다. 제1 프로세서(1500)는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서 또는 GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 중 적어도 하나를 포함할 수 있다.
AI 프로세싱 유닛(1700)은 제2 프로세서(1720) 및 제2 메모리(1720)를 포함할 수 있다. 제2 프로세서(1720) 및 제2 메모리(1720)는 인공지능 모델을 이용한 이미지 처리를 위하여 설계될 수 있으나, 이에 제한되지 않는다.
제2 메모리(1720)는 제2 프로세서(1720)의 처리 및 제어를 위한 프로그램을 저장할 수 있다. 예를 들어, 제2 메모리(1720)는 제 1 메모리(1600)에 저장된 인공지능 모델(1620) 중에서 선택된 인공지능 모델(1720)이 저장될 수 있으며, 제2 메모리(1720)에 저장된 인공지능 모델(1720)은 제2 프로세서(1720)에 의해 실행될 수 있다. 제2 메모리(1720)에 저장된 인공지능 모델(1720)은 톤 맵 생성 모델(tone map generation model)(1731), 특징 추출 모델(feature extraction model)(1732), 영상 보정 모델(image modifying model)(1733) 및 영상 회복 모델(image regression model)(1734)와 같은 복수의 하위 인공지능 모델들을 포함할 수 있다.
제2 메모리(1720)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
제1 메모리(1600)에 저장된 영상 처리 모듈(1610)은 제1 프로세서(1500) 또는 제2 프로세서(1720) 중 적어도 하나에 의해 실행됨으로써 피사체를 촬영하기 위한 라이브 뷰 영상 및 피사체가 촬영된 출력 영상을 생성할 수 있다. 라이브 뷰 영상은 피사체를 촬영하는 사용자가 촬영되는 피사체를 확인할 수 있도록 디스플레이부(1200) 상에 출력되는 영상이며, 피사체가 촬영된 출력 영상은 피사체를 촬영한 결과물로서 디바이스(1000)에 저장되는 피사체가 촬영된 영상일 수 있다.
제1 프로세서(1500)는 제1 메모리(1600)에 저장된 전처리 모듈(1611)을 실행함으로써 피사체에 대한 원시 영상을 생성할 수 있다. 제1 프로세서(1500)는, 피사체를 촬영하는 사용자 입력이 수신됨에 따라, 사용자 입력이 수신된 때에 카메라 센서부(1400)의 컬러 필터(1410)를 통과하여 이미지 센서(1420)로 전달되는 광에 기초한 원시 영상을 생성할 수 있다. 제1 프로세서(1500)는, 예를 들어, 적색 값, 녹색 값 및 청색 값의 배열로 구성된 원시 영상(raw image)을 생성할 수 있다.
제1 프로세서(1500)는 출력 영상 생성 모듈(1612)을 실행함으로써 피사체가 촬영된 출력 영상을 생성할 수 있다. 제1 프로세서(1500)는 원시 영상을 이용하여 출력 영상을 생성할 것을 제2 프로세서(1720)에게 요청할 수 있다. 이에 따라, 제2 프로세서(1720)는 톤 맵 생성 모델(1731), 특징 추출 모델(1732), 영상 보정 모델(1733) 및 영상 회복 모델(1734)을 포함하는 인공지능 모델(1720)에 원시 영상을 입력하고 인공지능 모델(1720)로부터 출력되는 출력 영상을 획득할 수 있다. 제2 프로세서(1710)는, 원시 영상을 톤 맵 생성 모델(1731)에 입력함으로써 톤 맵을 획득하고, 생성된 톤 맵 및 원시 영상을 특징 추출 모델(1732)에 입력함으로써 피사체의 복수의 특징들에 관한 특징 영상들을 획득하고, 특징 영상들을 영상 보정 모델(1733)에 입력함으로써 복수의 특징 영상들을 보정하고, 보정된 복수의 특징 영상들을 영상 회복 모델(1734)에 입력함으로써 디바이스(1000)에 저장될 출력 영상을 획득할 수 있다. 또한, 인공지능 모델(1720)로부터 출력되는 출력 영상은 제1 프로세서(1500)에 의해 디스플레이부(1200)에 표시되고 제1 메모리(1600)에 저장될 수 있다.
또한, 사용자가 피사체를 촬영하는 상황에 관련된 인공지능 모델(1720)이 제1 메모리(1600)에 저장된 인공지능 모델들(1620)로부터 선택되어 제2 메모리(1720)에 로딩될 수 있으며, 이에 대하여는 후술하기로 한다.
제2 프로세서(1710)는 원시 영상 내의 적색 값, 녹색 값 및 청색 값의 밝기(brightness)를 스케일링하기 위하여 이용되는 톤 맵을 생성하기 위하여, 원시 영상을 톤 맵 생성 모델(1731)에 입력할 수 있다. 예를 들어, 제2 프로세서(1710)가 카메라 센서부(1400) 내에 포함되는 경우에, 제1 프로세서(1500)가 카메라 센서부(1400)에 대해서 촬영을 위한 제어 요청 신호를 보내면, 카메라 센서부(1400) 내의 제2 프로세서(1710)가 제어 요청 신호를 수신하여 카메라 센서부(1400)를 제어하여 원시 영상을 생성하고, 제2 프로세서(1710)가 원시 영상을 톤 맵 생성 모델(1731)에 입력할 수 있다. 또는, 예를 들어, 제2 프로세서(1710)가 카메라 센서부(1400)의 외부에 있는 경우에, 제1 프로세서(1500)가 촬영을 위한 제어 요청 신호를 제2 프로세서(1710)에게 보내면, 제2 프로세서(1710)가 제어 요청 신호를 수신하여 카메라 센서부(1400)를 제어하여 원시 영상을 생성하고, 제2 프로세서(1710)가 원시 영상을 톤 맵 생성 모델(1731)에 입력할 수 있다. 예를 들어, 제1 프로세서(1500)가 카메라 센서부(1400)를 제어하여 원시 영상을 획득하고 획득된 원시 영상을 제2 프로세서(1710)에게 제공하며, 제2 프로세서(1710)가 원시 영상을 톤 맵 생성 모델(1731)에 입력할 수 있다. 톤 맵은 원시 영상 내의 픽셀들의 밝기를 스케일링하기 위한 정보를 포함하는 맵 데이터일 수 있다. 톤 맵은, 원시 영상 내의 부분 별로 픽셀의 밝기를 스케일링하는 로컬톤 매핑 또는 원시 영상의 전체에 대한 밝기를 스케일링하는 글로벌톤 매핑 중 적어도 하나를 위한 맵 데이터일 수 있다. 또한, 예를 들어, 톤 맵은, 원시 영상 내에서 어두운 영역의 밝기를 밝은 영역의 밝기보다 크게 스케일링하도록 생성될 수 있다. 톤 맵 생성 모델(1731)은 원시 영상으로부터 톤 맵을 생성하기 위하여 훈련된 인공지능 모델일 수 있다. 톤 맵 생성 모델(1731)은 복수의 신경망 레이어들로 구성될 수 있으며, 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 톤 맵 생성 모델(1731)의 훈련 결과에 의해 최적화될 수 있으며, 예를 들어, 톤 맵 생성 모델(1731)은 특징 추출 모델(1732), 영상 보정 모델(1733) 및 영상 회복 모델(1734)과 함께 훈련될 수 있다. 또한, 예를 들어, 톤 맵 생성 모델(1731)은 CNN (Convolutional Neural Network)를 포함할 수 있으나, 이에 제한되지 않는다.
제2 프로세서(1710)는 원시 영상 및 톤 맵을 조합하여 특징 추출 모델(1732)에 입력하고 특징 추출 모델(1732)로부터 출력되는 복수의 특징 영상들을 획득할 수 있다. 예를 들어, 제2 프로세서(1710)는 톤 맵을 이용하여 원시 영상 내의 픽셀들의 밝기를 스케일링하고, 밝기가 스케일링된 원시 영상을 특징 추출 모델(1732)에 입력할 수 있다. 특징 추출 모델(1732)에 입력되는 원시 영상은, 어두운 부분의 픽셀이 밝은 값을 가지도록 스케일링될 수 있으며 이에 따라, 원시 영상 내의 어두운 부분에 위치한 피사체가 보다 효과적으로 식별될 수 있게 된다.
특징 추출 모델(1732)은 특징 추출 모델(1732)에 입력된 원시 영상 내의 특징들을 추출할 수 있다. 원시 영상 내의 복수의 특징들을 각각 나타내는 복수의 특징 영상들이 특징 추출 모델(1732)로부터 출력될 수 있다. 예를 들어, 복수의 특징 영상들은, 원시 영상 내의 엣지에 관한 특징을 나타내는 특징 영상, 원시 영상 내의 라인에 관한 특징을 나타내는 특징 영상, 원시 영상 내의 공간에 관련된 특징을 나타내는 특징 영상, 원시 영상 내의 객체의 형상 및 깊이에 관련된 특징을 나타내는 특징 영상, 원시 영상 내의 인물에 관련된 특징을 나타내는 특징 영상 및 원시 영상 내의 사물에 관련된 특징을 나타내는 특징 영상 등을 포함할 수 있으나, 이에 제한되지 않는다.
특징 추출 모델(1732)은 특징 추출 모델(1732)에 입력된 원시 영상 내의 특징들을 추출하기 위하여 훈련된 인공지능 모델일 수 있다. 특징 추출 모델(1732)은 복수의 신경망 레이어들로 구성될 수 있으며, 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 특징 추출 모델(1732)의 훈련 결과에 의해 최적화될 수 있으며, 예를 들어, 특징 추출 모델(1732)은 톤 맵 생성 모델(1731), 영상 보정 모델(1733) 및 영상 회복 모델(1734)과 함께 훈련될 수 있다. 또한, 예를 들어, 특징 추출 모델(1732)은 후술할 도 5와 같이 End-to-End 방식의 Fully-Convolutional Network 기반 구조를 가지는 U-NET에 의해 구현될 수 있으나, 이에 제한되지 않는다.
제2 프로세서(1710)는 특징 추출 모델(1732)로부터 출력된 특징 영상들을 보정할 수 있다. 제2 프로세서(1710)는 기설정된 영상 속성들에 관련한 설정에 기초하여 특징 영상들을 보정할 수 있다. 예를 들어, 제2 프로세서(1710)는 화이트 밸런스의 보정 및 색상 보정을 위한 기설정된 기준에 따라, 영상 보정 모델(1733)을 이용하여 특징 영상들을 보정할 수 있다. 제2 프로세서(1720)는 특징 추출 모델(1732)로부터 출력된 특징 영상들 및 영상 속성에 관련된 기설정된 속성 값들을 영상 보정 모델(1733)에 입력하고, 영상 보정 모델(1733)로부터 출력되는 보정된 특징 영상들을 획득할 수 있다.
이 경우, 제2 프로세서(1720)는 특징 영상들을 보정하기 위한 영상 속성을 결정할 수 있다. 예를 들어, 특징 영상의 보정을 위한 영상 속성은, 디바이스(1000)의 촬영 환경에 따라 결정될 수 있다. 제2 프로세서(1720)는 카메라 센서부(1400)를 통하여 피사체를 촬영하는 때의 디바이스(1000) 주변의 환경을 나타내는 센싱 데이터를 획득하며, 센싱 데이터에 따라 미리 설정된 기준에 기초하여 특징 영상의 보정을 위한 화이트 밸런스 매트릭스 값 및 색상 보정 매트릭스 값을 영상 보정 모델(1733)에 특징 영상들과 함께 입력할 수 있다.
또는, 예를 들어, 제1 프로세서(1500)는 피사체 촬영의 설정을 위하여 GUI를 디바이스(1000)의 화면 상에 디스플레이할 수 있으며, GUI를 통한 사용자 입력에 기초하여 화이트 밸런스의 보정 및 색상 보정 등을 위한 설정을 미리 수행할 수 있다.
예를 들어, 디바이스(1000)는 도 13a 및 도 13b에서와 같이 피사체를 촬영하는 디바이스(1000)의 촬영 설정을 위한 GUI를 디스플레이부(1200) 상에 디스플레이할 수 있다. 이에 따라, 사용자는 디스플레이부(1200) 상에 디스플레이된 GUI를 통하여, ISO, 셔터 스피드, 화이트 밸런스, 색온도, 틴트, 대비, 채도, 하이라이트 효과, 쉐도우 효과 등에 관련된 설정 값을 디바이스(1000)에 입력할 수 있다.
이 경우, 제1 프로세서(1500)는 사용자에 의해 미리 설정된 기준에 따라, 화이트 밸런스 매트릭스 값 및 색상 보정 매트릭스 값을 제1 메모리(1600)로부터 추출하고, 추출된 화이트 밸런스 매트릭스 값 및 색상 보정 매트릭스 값을 영상 보정 모델(1733)에 특징 영상들과 함께 입력할 수 있다.
영상 보정 모델(1733)은 영상 보정 모델(1733)에 입력된 특징 영상들의 영상 속성을 보정하기 위하여 훈련된 인공지능 모델일 수 있다. 영상 보정 모델(1733)은 복수의 신경망 레이어들로 구성될 수 있으며, 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 영상 보정 모델(1733)의 훈련 결과에 의해 최적화될 수 있으며, 예를 들어, 영상 보정 모델(1733)은 톤 맵 생성 모델(1731), 특징 추출 모델(1732) 및 영상 회복 모델(1734)과 함께 훈련될 수 있다.
한편, 상기에서는, 화이트 밸런스 매트릭스 값 및 색상 보정 매트릭스 값 값이 영상 보정 모델(1733)에 입력되는 것으로 설명되었지만 이에 제한되지 않는다. 복수의 인공지능 모델(1620)이 화이트 밸런스 및 색상 보정에 관한 설정 별로 각각 훈련될 수 있다. 이 경우에는, 출력 영상을 생성하기 위해 소정의 화이트 밸런스 및 색상 보정에 관한 설정에 대응되는 인공지능 모델(1730)이 제2 메모리(1720)에 로딩되어 제2 프로세서(1710)에 의해 이용될 수 있다. 제2 메모리(1720)에 로딩된 인공지능 모델(1730)에는 화이트 밸런스 매트릭스 값 및 색상 보정 매트릭스 값이 입력되지 않더라도, 제2 메모리(1720)에 로딩된 인공지능 모델(1730)로부터 소정의 화이트 밸런스 및 색상 보정에 관한 설정을 고려한 출력 영상이 출력될 수 있다.
제2 프로세서(1710)는 보정된 특징 영상들을 영상 회복 모델(1734)에 입력하고, 영상 회복 모델(1734)로부터 출력되는 출력 영상을 획득할 수 있다. 영상 회복 모델(1734)로부터 출력되는 출력 영상은 피사체를 촬영한 결과물로서 디바이스(1000)에 저장될 영상일 수 있다.
또한, 피사체를 촬영하기 위한 사용자 입력이 수신되면 인공지능 모델(1730)을 통해 출력된 영상이 소정 기준에 따라 압축되고, 압축된 영상이 제1 메모리(1600)에 저장될 수 있으나 이에 제한되지 않는다.
영상 회복 모델(1734)은 특징 영상들로부터 피사체가 촬영된 촬영 영상을 생성하기 위하여 훈련된 인공지능 모델일 수 있다. 영상 회복 모델(1734)은 복수의 신경망 레이어들로 구성될 수 있으며, 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 영상 회복 모델(1734)의 훈련 결과에 의해 최적화될 수 있으며, 예를 들어, 영상 회복 모델(1734)은, 톤 맵 생성 모델(1731), 특징 추출 모델(1732) 및 영상 보정 모델(1733)과 함께 훈련될 수 있다. 또한, 예를 들어, 영상 회복 모델(1734)은 CNN (Convolutional Neural Network)를 포함할 수 있으나, 이에 제한되지 않는다.
제1 프로세서(1500)는 라이브 뷰 생성 모듈(1613)을 실행함으로써, 라이브 뷰 영상을 생성할 수 있다. 피사체를 촬영하기 위한 촬영 기능을 활성화하는 사용자 입력이 수신되면, 제1 프로세서(1500)는 라이브 뷰 영상을 생성하고 생성된 라이브뷰 영상을 디스플레이부(1200) 상에 디스플레이할 수 있다. 예를 들어, 디바이스(1000)에 설치된 카메라 애플리케이션을 실행하는 사용자 입력이 수신되면, 제1 프로세서(1500)는 카메라 애플리케이션을 실행하고 사용자가 촬영될 피사체를 확인할 수 있도록 라이브 뷰 영상을 생성하여 디스플레이부(1200) 상에 디스플레이할 수 있다.
제1 프로세서(1500)는, 디바이스(1000)의 촬영 기능이 활성화됨에 따라, 카메라 센서부(1400)를 통하여 입력되는 광에 기초하여 라이브 뷰 영상을 생성하는데 이용되는 원시 영상을 생성할 수 있다. 또한, 제2 프로세서(1710)는 라이브 뷰 영상을 생성하는데 소요되는 시간을 단축시키기 위하여, 인공지능 모델(1730) 내의 모델들 중에서 적어도 하나를 이용하지 않을 수 있다. 제1 프로세서(1500)는 톤 맵 생성 모델(1731), 특징 추출 모델(1732), 영상 보정 모델(1733) 또는 영상 회복 모델(1734) 중 적어도 하나를 이용하지 않을 수 있다. 이 경우, 라이브 뷰 영상의 생성을 위하여 톤 맵 생성 모델(1731), 특징 추출 모델(1732) 및 영상 회복 모델(1734) 중 어느 모델을 이용하지 않을 지는 미리 설정될 수 있다.
제2 프로세서(1710)는 적어도 하나의 모델이 비활성화된 인공지능 모델(1730)에 원시 영상을 입력할 수 있으며, 제2 프로세서(1710)는 인공지능 모델(1730)로부터 출력되는 라이브 뷰 영상을 제1 프로세서(1500)에게 제공하며, 제1 프로세서(1500)는 라이브 뷰 영상을 디스플레이부(1200) 상에 디스플레이할 수 있다. 이 경우, 인공지능 모델(1730)은 인공지능 모델(1730) 내의 모델들 중에서 적어도 하나가 비활성화된 상태에서 양호한 라이브뷰 영상이 출력될 수 있도록 미리 훈련될 수 있다.
이에 따라, 디바이스(1000)의 카메라 애플리케이션이 실행되어 촬영 기능이 활성화되면, 디바이스(1000)의 적은 리소스를 사용하여 생성되는 라이브 뷰 영상이 디바이스(1000)의 화면 상에 디스플레이될 수 있으며, 피사체를 촬영하는 사용자의 캡쳐 입력이 수신되면 캡쳐 입력이 수신될 때 생성된 원시 영상으로부터 인공지능 모델(1730)을 통해 생성되는 출력 영상이 제1 메모리(1600)에 저장될 수 있다.
제1 프로세서(1500)는 모델 관리 모듈(1630)을 실행함으로써, 제2 프로세서(1720)에 의해 이용될 인공지능 모델(1730)을 선택하고, 제1 메모리(1600)에 저장된 인공지능 모델(1620)을 업데이트할 수 있다.
제1 프로세서(1500)는 모델 선택 모듈(1634)을 실행함으로써, 제1 메모리(1600)에 저장된 적어도 하나의 인공지능 모델(1620) 중에서 제2 프로세서(1720)에 의해 이용될 인공지능 모델(1730)을 선택할 수 있다. 또한, 제1 프로세서(1500)에 의해 선택된 인공지능 모듈(1730)은 AI 프로세싱 유닛(1700)의 제2 메모리(1720)에 로딩될 수 있다.
제1 메모리(1600)에는 복수의 인공지능 모델(1620)이 저장될 수 있으며, 복수의 인공지능 모델(1620)은 복수의 상황에 따라 각각 훈련된 인공지능 모델(1620)일 수 있다. 예를 들어, 카메라 필터, 카메라 렌즈, 카메라의 제조사, 디바이스 모델, 복수의 연속 촬영된 이미지, 촬영 환경, 피사체의 종류 또는 촬영 영상의 속성 중 적어도 하나에 관련된 상황을 기준으로 훈련된 인공지능 모델들일 수 있다.
예를 들어, 카메라 필터 별로 훈련된 인공지능 모델들은, 비선명 마스크를 이용하여 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델, Contrast 조정 마스크를 이용하여 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델 및 컬러 필터 마스크를 이용하여 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델을 포함할 수 있으나, 이에 제한되지 않는다. 또한, 예를 들어, 카메라 렌즈 별로 훈련된 인공지능 모델들은, 망원 렌즈를 이용하여 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델, 광각 렌즈를 이용하여 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델, 어안 렌즈를 이용하여 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델을 포함할 수 있으나, 이에 제한되지 않는다. 또한, 예를 들어, 카메라의 제조사 별로 훈련된 인공지능 모델들은, 제조사 A의 카메라를 이용하여 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델, B 제조사 B의 카메라를 이용하여 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델, 제조사 C의 카메라를 이용하여 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델을 포함할 수 있으나, 이에 제한되지 않는다. 또한, 예를 들어, 디바이스 별로 훈련된 인공지능 모델들은 갤럭시 S10으로 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델, 갤럭시 S20으로 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델, 갤럭시 노트 20으로 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델을 포함할 수 있으나, 이에 제한되지 않는다.
또한, 예를 들어, 촬영 환경 별로 훈련된 인공지능 모델은, 실내에서 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델, 야외에서 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델, 특정 조도 범위에서 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델을 포함할 수 있으나, 이에 제한되지 않는다. 또한, 예를 들어, 피사체의 종류 별로 훈련된 인공지능 모델은, 인물이 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델, 음식이 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델, 건물이 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델을 포함할 수 있으나 이에 제한되지 않는다. 또한, 예를 들어, 촬영 영상의 속성 별로 훈련된 인공지능 모델은, 특정 화이트 밸런스 값을 적용하여 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델, 특정 ISO를 적용하여 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델, 특정 셔터 스피드에서 촬영된 이미지들을 바탕으로 훈련된 인공지능 모델을 포함할 수 있으나, 이에 제한되지 않는다.
디바이스(1000)의 카메라 애플리케이션이 실행되고 카메라 기능이 활성화되면 제1 프로세서(1500)는 모델 선택 모듈(1634)을 실행하여 카메라 필터, 카메라 렌즈, 카메라의 제조사, 디바이스 모델, 복수의 연속 촬영된 이미지, 촬영 환경, 피사체의 종류 또는 촬영 영상의 속성 중 적어도 하나에 관련된 상황을 식별할 수 있다. 예를 들어, 제1 프로세서(1500)는 디바이스(1000)의 주변 상황을 센싱한 센싱 값 및 카메라 애플리케이션의 설정 값에 기초하여, 적어도 하나의 상황을 식별할 수 있다.
또한, 제1 프로세서(1500)는 사진 촬영의 설정을 위한 소정의 GUI를 디스플레이부(1200) 상에 디스플레이하고, GUI에 대한 사용자 입력에 기초하여 설정된 값에 기초하여, 적어도 하나의 상황을 식별할 수도 있다. 예를 들어, 제1 프로세서(1500)는 도 13a 및 도 13b에서와 같이 피사체를 촬영하는 디바이스(1000)의 촬영 설정을 위한 GUI를 디스플레이부(1200) 상에 디스플레이할 수 있다. 이에 따라, 사용자는 디스플레이부(1200) 상에 디스플레이된 GUI를 통하여, ISO, 셔터 스피드, 화이트 밸런스, 색온도, 틴트, 대비, 채도, 하이라이트 효과, 쉐도우 효과 등에 관련된 설정 값을 디바이스(1000)에 입력할 수 있다.
제1 프로세서(1500)는, 제1 메모리(1600)에 저장된 인공지능 모델(1620) 중에서, 식별된 적어도 하나의 상황에 대응되는 인공지능 모델(1730)을 추출하여 제2 메모리(1720)에 로딩할 수 있다. 예를 들어, 사용자는 디바이스(1000)의 디스플레이부(1200) 상에 디스플레이된 GUI를 통하여, ISO, 화이트 밸런스, 색온도, 틴트, 채도 및 대비 등에 관련된 설정을 할 수 있으며, 디바이스(1000)는 사용자에 의해 설정된 값들에 기초하여, 제1 메모리(1600)에 저장된 복수의 인공지능 모델(1620) 중에서 설정 값에 대응되는 인공지능 모델(1730)을 선택하고, 선택된 인공지능 모델(1730)을 제2 메모리(1720)에 로딩할 수 있다.
또한, 제1 프로세서(1500)는, 예를 들어, 사용자가 소정 기준 이상 사용한 카메라 필터, 사용자가 소정 기준 이상 사용한 카메라 렌즈, 사용자가 소정 기준 이상 사용한 카메라의 제조사, 사용자가 소정 기준 이상 사용한 디바이스 모델, 소정 횟수 이상의 촬영 환경, 사용자가 소정 기준 이상 촬영된 피사체의 종류 또는 사용자가 소정 기준 이상 사용한 촬영 영상의 속성 중 적어도 하나에 관한 정보에 기초하여, 사용자의 선호에 대응되는 인공지능 모델(1730)을 제1 메모리(1600)로부터 추출하여 제2 메모리(1720)에 로딩할 수 있다.
또한, 제1 프로세서(1500)는, 예를 들어, 기설정된 이미지들을 디스플레이하고, 디스플레이된 이미지들 중에서 사용자에 의해 선택된 적어도 하나의 이미지에 기초하여, 사용자에 의해 선택된 이미지와 유사한 특징의 이미지를 출력하도록 훈련된 인공지능 모델(1730)을 제2 메모리(1720)에 로딩할 수 있다. 예를 들어, 사용자가 엣지가 강조된 이미지를 많이 선택하면 엣지가 강조된 이미지를 출력하도록 훈련된 인공지능 모델(1730)이 제2 메모리(1720)에 로딩될 수 있다.
만약, 식별된 적어도 하나의 상황에 대응되는 인공지능 모델(1730)이 제1 메모리(1600)에 저장되어 있지 않으면, 제1 프로세서(1500)는 서버(미도시)에게 인공지능 모델(1730)을 요청하고, 서버(미도시)로부터 인공지능 모델(1730)을 수신하여 제2 메모리(1720)에 저장할 수 있다.
제1 프로세서(1500)는 다운로딩 모듈(1631)을 실행함으로써, 리트레이닝된 인공지능 모델(1620), 또는 인공지능 모델(1620)을 리트레이닝하기 위한 데이터를 서버(미도시)로부터 수신할 수 있다. 제1 프로세서(1500)는 리트레이닝된 인공지능 모델(1620)을 서버(미도시)에게 요청할 수 있다. 인공지능 모델(1620)은 서버(미도시)에 의해 리트레이닝될 수 있으며, 서버(미도시)는 리트레이닝된 인공지능 모델(1620)이 존재함을 알리는 알림 정보를 디바이스(1000)에게 제공할 수 있다. 또한, 제1 프로세서(1500)는 서버(미도시)로부터 수신된 알림 정보를 화면 상에 디스플레이하고, 인공지능 모델(1620)을 업데이트하기 위한 사용자 입력을 수신할 수 있다. 제1 프로세서(1500)는 서버(미도시)에게 사용자가 선호하는 사진 속성에 관한 정보를 제공하면서 서버(미도시)에게 리트레이닝된 인공지능 모델(1620)을 요청할 수도 있다. 사용자가 선호하는 사진 속성에 관한 정보는, 예를 들어, 사용자가 소정 기준 이상 사용한 카메라 필터, 사용자가 소정 기준 이상 사용한 카메라 렌즈, 사용자가 소정 기준 이상 사용한 카메라의 제조사, 사용자가 소정 기준 이상 사용한 디바이스 모델, 소정 횟수 이상의 촬영 환경, 사용자가 소정 기준 이상 촬영된 피사체의 종류 또는 사용자가 소정 기준 이상 사용한 촬영 영상의 속성 중 적어도 하나에 관한 정보를 포함할 수 있다. 제1 프로세서(1500)가 사용자가 선호하는 사진 속성에 관한 정보를 서버(미도시)에게 제공한 경우에는, 제1 프로세서(1500)는 사용자가 선호하는 사진 속성과 관련하여 리트레이닝된 인공지능 모델(1620)을 서버(미도시)로부터 다운로드할 수 있다. 또한, 제1 프로세서(1500)는 업데이트 모듈(1632)을 실행함으로써, 디바이스(1000) 내의 인공지능 모델(1620)을 서버(미도시)로부터 수신된 리트레이닝된 인공지능 모델(1620)로 대체함으로써, 디바이스(1000) 내의 인공지능 모델(1620)을 업데이트할 수 있다.
제1 프로세서(1500)는 다운로딩 모듈(1631)을 실행함으로써, 리트레이닝을 위한 기준 원시 영상 및 기준 원시 영상에 대응되는 기준 영상을 서버(미도시)로부터 다운로드할 수 있다. 기준 영상은 리트레이닝을 위한 기준 원시 영상으로부터 생성된 영상일 수 있다. 제1 프로세서(1500)는 서버(미도시)에게 인공지능 모델(1620)의 리트레이닝을 위한 기준 원시 영상 및 기준 영상을 요청하고, 서버(미도시)로부터 리트레이닝을 위한 기준 원시 영상 및 기준 영상을 수신할 수 있다. 이 경우, 제1 프로세서(1500)는 사용자가 선호하는 사진 속성에 관한 정보를 서버(미도시)에게 제공할 수 있다. 사용자가 선호하는 사진 속성에 관한 정보는, 예를 들어, 사용자가 소정 기준 이상 사용한 카메라 필터, 사용자가 소정 기준 이상 사용한 카메라 렌즈, 사용자가 소정 기준 이상 사용한 카메라의 제조사, 사용자가 소정 기준 이상 사용한 디바이스 모델, 소정 횟수 이상의 촬영 환경, 사용자가 소정 기준 이상 촬영된 피사체의 종류 또는 사용자가 소정 기준 이상 사용한 촬영 영상의 속성 중 적어도 하나에 관한 정보를 포함할 수 있다. 이 경우, 서버(미도시)는 사용자가 선호하는 사진 속성과 관련하여 생성된 기준 영상 및 기준 원시 영상을 디바이스(1000)에게 제공할 수 있다.
제1 프로세서(1500)는 리트레이닝 모듈(1633)을 실행함으로써 리트레이닝을 위한 기준 원시 영상 및 기준 원시 영상에 대응되는 기준 영상을 획득하여 제2 프로세서(1720)가 인공지능 모델(1620)을 리트레이닝할 수 있다. 제2 프로세서(1710)는 서버(미도시)로부터 수신된 기준 영상을 정답 영상으로 이용할 수 있으며, 제2 프로세서(1710)는 서버(미도시)로부터 수신된 기준 원시 영상을 인공지능 모델(1620)에 입력하고 인공지능 모델(1620)로부터 출력되는 출력 영상을 기준 영상과 비교함으로써 인공지능 모델(1620)을 리트레이닝할 수 있다.
한편, 상기에서는 디바이스(1000)가 디바이스(1000) 내의 인공지능 모델(1620)을 이용하여 피사체가 촬영된 출력 영상을 생성하는 것으로 설명되었지만, 이에 제한되지 않는다. 디바이스(1000)는 서버(미도시)와 함께 피사체가 촬영된 출력 영상을 생성할 수도 있다. 예를 들어, 디바이스(1000)는 원시 영상을 생성하고 생성된 원시 영상을 서버(미도시)로 전송하면서 서버(미도시)에게 출력 영상을 요청할 수 있다. 디바이스(1000)는 원시 영상 및 영상 보정을 위한 설정 정보를 서버(미도시)에게 함께 제공할 수도 있다. 이 경우, 인공지능 모델(1620)은 서버(미도시)에 포함될 수 있으며, 서버(미도시)는 서버(미도시) 내의 인공지능 모델(1620)을 이용하여 원시 영상으로부터 출력 영상을 생성할 수 있다. 또한, 서버(미도시)는 생성된 출력 영상을 디바이스(1000)에게 제공할 수 있다.
또는, 예를 들어, 디바이스(1000)는 톤 맵 생성 모델(1731)로부터 출력된 톤 맵 및 원시 영상을 서버(미도시)에게 제공하면서 서버(미도시)에게 출력 영상을 요청할 수 있다. 디바이스(1000)는 원시 영상, 톤 맵 및 영상 보정을 위한 설정 정보를 서버(미도시)에게 함께 제공할 수도 있다. 이 경우, 인공지능 모델(1620) 내의 특징 추출 모델(1732), 영상 보정 모델(1733) 및 영상 회복 모델(1734)은 서버(미도시)에 포함될 수 있으며, 서버(미도시)는 서버(미도시) 내의 특징 추출 모델(1732), 영상 보정 모델(1733) 및 영상 회복 모델(1734)을 이용하여 출력 영상을 생성할 수 있다. 또한, 서버(미도시)는 생성된 출력 영상을 디바이스(1000)에게 제공할 수 있다.
또는, 예를 들어, 디바이스(1000)는 특징 추출 모델(1732)로부터 출력된 특징 영상들을 서버(미도시)에게 제공하면서 서버(미도시)에게 출력 영상을 요청할 수 있다. 디바이스(1000)는 특징 영상들 및 영상 보정을 위한 설정 정보를 서버(미도시)에게 함께 제공할 수도 있다. 이 경우, 인공지능 모델(1620) 내의 영상 보정 모델(1733) 및 영상 회복 모델(1734)은 서버(미도시)에 포함될 수 있으며, 서버(미도시)는 서버(미도시) 내의 영상 보정 모델(1733) 및 영상 회복 모델(1734)을 이용하여 출력 영상을 생성할 수 있다. 또한, 서버(미도시)는 생성된 출력 영상을 디바이스(1000)에게 제공할 수 있다.
또한, 디바이스(1000)는 디바이스(1000)의 상황에 따라, 디바이스(1000)가 혼자 출력 영상을 생성할지, 디바이스(1000)가 서버(미도시)와 함께 출력 영상을 생성할 지를 결정할 수 있다. 예를 들어, 디바이스(1000)는 배터리 잔량, 리소스 사용량 및 통신 상태 등을 고려하여 디바이스(1000)가 혼자서 출력 영상을 생성할지, 디바이스(1000)가 서버(미도시)와 함께 출력 영상을 생성할 지를 결정할 수 있다. 예를 들어, 디바이스(1000)의 배터리 잔량이 임계치보다 작은 경우에, 디바이스(1000)는 서버(미도시)에게 출력 영상을 생성할 것을 요청할 수 있다. 또한, 예를 들어, 디바이스(1000)의 리소스 사용량이 임계치보다 큰 경우에, 디바이스(1000)는 서버(미도시)에게 출력 영상을 생성할 것을 요청할 수 있다. 또한, 예를 들어, 디바이스(1000)는 디바이스(1000)의 통신 상태가 양호한 경우에, 서버(미도시)에게 출력 영상을 생성할 것을 요청할 수 있다. 이 경우, 디바이스(1000)가 서버(미도시)에게 출력 영상을 요청하면서, 원시 영상을 제공할지, 원시 영상 및 톤 맵을 제공할 지, 특징 영상들을 제공할지는, 디바이스(1000)의 상황에 따른 다양한 기준에 따라 설정될 수 있다. 예를 들어, 촬영 기능이 활성화되면, 디바이스(1000)는 배터리 잔량, 리소스 사용량 및 통신 상태 등을 식별할 수 있으며, 서버(미도시)에게 원시 영상을 제공할지, 원시 영상 및 톤 맵을 제공할 지, 특징 영상들을 제공할 지를 결정할 수 있다. 또한, 디바이스(1000)는 결정에 기초하여 원시 영상, 톤 맵, 특징 영상들 중 적어도 하나를 서버(미도시)에게 제공하면서 출력 영상을 제공해 줄 것을 요청할 수 있다.
도 3은 본 개시의 일 실시예에 따른 원시 영상으로부터 피사체가 촬영된 출력 영상이 생성되는 과정을 설명하는 도면이다.
도 3을 참조하면, 디바이스(1000)는, AI 프로세싱 유닛(1700)을 이용하여, 피사체에 대한 원시 영상(30)을 톤 맵 생성 모델(1731)에 입력하고 톤 맵 생성 모델(1731)로부터 출력되는 톤 맵을 획득할 수 있다. 또한, 디바이스(1000)는 원시 영상(30) 및 톤 맵을 조합하여 특징 추출 모델(1732)에 입력하고 특징 추출 모델(1732)로부터 출력되는 복수의 특징 영상들을 획득할 수 있다. 이후, 디바이스(1000)는 복수의 특징 영상들을 영상 보정 모델(1733)에 입력하고, 영상 보정 모델(1733)로부터 출력되는 보정된 특징 영상들을 획득할 수 있다. 이후, 디바이스(1000)는 보정된 특징 영상들을 영상 회복 모델(1734)에 입력함으로써 영상 회복 모델(1734)로부터 출력되는 출력 영상(38)을 획득할 수 있다.
톤 맵 생성 모델(1731), 특징 추출 모델(1732), 영상 보정 모델(1733) 및 영상 회복 모델(1734) 각각은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다. 톤 맵 생성 모델(1731), 특징 추출 모델(1732), 영상 보정 모델(1733) 및 영상 회복 모델(1734)은, 후술할 도 7에서와 같이, 기준 원시 영상 및 기준 출력 영상을 이용하여 함께 훈련될 수 있다.
도 4a는 본 개시의 일 실시예에 따른 디바이스(1000)가 원시 영상(30)으로부터 톤 맵을 생성하는 과정을 설명하는 도면이다.
도 4a를 참조하면, 디바이스(1000)의 카메라 애플리케이션이 실행되고 촬영 기능이 활성화됨에 따라, 디바이스(1000)는 원시 영상(30)을 생성할 수 있다. 디바이스(1000)는 피사체를 촬영하기 위한 기능이 활성화됨에 따라 카메라 센서부(1400)를 이용하여 피사체로부터 제공되는 광에 기초한 원시 영상들을 생성할 수 있으며, 피사체를 촬영하는 사용자 입력이 수신됨에 따라 사용자 입력이 수신된 때에 카메라 센서부(1400)에 의해 생성된 원시 영상(30)을 획득할 수 있다. 원시 영상(30)은, 예를 들어, 적색 값, 녹색 값 및 청색 값의 배열로 구성될 수 있다.
또한, 디바이스(1000)는 촬영 기능이 활성화됨에 따라, 피사체 촬영을 위한 적어도 하나의 상황을 식별할 수 있으며, 식별된 적어도 하나의 상황에 대응되는 인공지능 모델(1720)을 제1 메모리(1600)로부터 추출하여 AI 프로세싱 유닛(1700) 내의 제2 메모리(1720)에 로딩할 수 있다. 만약, 식별된 적어도 하나의 상황에 대응되는 인공지능 모델(1720)이 제1 메모리(1600)에 저장되어 있지 않은 경우에는, 디바이스(1000)는 식별된 적어도 하나의 상황에 대응되는 인공지능 모델(1720)을 서버(미도시)에게 요청하고, 서버(미도시)로부터 인공지능 모델(1720)을 수신하여 제2 메모리(1720)에 로딩할 수 있다.
이후, 디바이스(1000)는 원시 영상(30) 내의 적색 값, 녹색 값 및 청색 값의 밝기(brightness)를 스케일링하기 위하여 이용되는 톤 맵(40)을 생성하기 위하여, 카메라 애플리케이션이 실행되고 피사체를 촬영하는 사용자 입력을 수신하고 수신된 사용자 입력에 응답하여, 원시 영상(30)을 톤 맵 생성 모델(1731)에 입력할 수 있다. 톤 맵(40)은 원시 영상(30) 내의 픽셀들의 밝기를 스케일링하기 위한 정보를 포함할 수 있다. 또한, 예를 들어, 톤 맵(40)은, 원시 영상(30) 내에서 어두운 영역의 밝기를 밝은 영역의 밝기보다 크게 스케링일하도록 생성될 수 있다.
톤 맵 생성 모델(1731)은 복수의 신경망 레이어들로 구성될 수 있으며, 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 톤 맵 생성 모델(1731)의 훈련 결과에 의해 최적화될 수 있으며, 예를 들어, 톤 맵 생성 모델(1731)은 특징 추출 모델(1732), 영상 보정 모델(1733) 및 영상 회복 모델(1734)과 함께 훈련될 수 있다. 또한, 예를 들어, 톤 맵 생성 모델(1731)은 CNN (Convolutional Neural Network)를 포함할 수 있으나, 이에 제한되지 않는다.
도 4b는 본 개시의 일 실시예에 따른 디바이스(1000)가 원시 영상(30)으로부터 특징들을 추출하는 과정을 설명하는 도면이다.
도 4b를 참조하면, 디바이스(1000)는 원시 영상(30) 및 톤 맵(40)을 조합하여 특징 추출 모델(1732)에 입력하고 특징 추출 모델(1732)로부터 출력되는 복수의 특징 영상들(42)을 획득할 수 있다. 예를 들어, 디바이스(1000)는 톤 맵(40)을 이용하여 원시 영상(30) 내의 픽셀들의 밝기를 스케일링하고, 밝기가 스케일링된 원시 영상(30)을 특징 추출 모델(1732)에 입력할 수 있다. 특징 추출 모델(1732)에 입력되는 원시 영상(30)은, 어두운 부분의 픽셀이 밝은 값을 가지도록 스케일링될 수 있으며 이에 따라, 원시 영상(30) 내의 어두운 부분에 위치한 피사체가 보다 효과적으로 식별될 수 있게 된다.
특징 추출 모델(1732)은 특징 추출 모델(1732)에 입력된 원시 영상(30) 내의 특징들을 추출할 수 있다. 원시 영상(30) 내의 복수의 특징들을 각각 나타내는 복수의 특징 영상들(42)이 특징 추출 모델(1732)로부터 출력될 수 있다. 예를 들어, 복수의 특징 영상들(42)은, 원시 영상(30) 내의 엣지에 관한 특징을 나타내는 특징 영상, 원시 영상(30) 내의 라인에 관한 특징을 나타내는 특징 영상, 원시 영상(30) 내의 공간에 관련된 특징을 나타내는 특징 영상, 원시 영상(30) 내의 객체의 형상 및 깊이에 관련된 특징을 나타내는 특징 영상, 원시 영상(30) 내의 인물에 관련된 특징을 나타내는 특징 영상 및 원시 영상(30) 내의 사물에 관련된 특징을 나타내는 특징 영상 등을 포함할 수 있으나, 이에 제한되지 않는다.
특징 추출 모델(1732)은 복수의 신경망 레이어들로 구성될 수 있으며, 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 특징 추출 모델(1732)의 훈련 결과에 의해 최적화될 수 있으며, 예를 들어, 특징 추출 모델(1732)은 톤 맵 생성 모델(1731), 영상 보정 모델(1733) 및 영상 회복 모델(1734)과 함께 훈련될 수 있다. 또한, 예를 들어, 특징 추출 모델(1732)은 도 5와 같이 End-to-End 방식의 Fully-Convolutional Network 기반 구조를 가지는 U-NET에 의해 구현될 수 있으나, 이에 제한되지 않는다.
도 4c는 본 개시의 일 실시예에 따른 디바이스(1000)가 특징 영상들을 보정하는 과정을 설명하는 도면이다.
도 4c를 참조하면, 디바이스(1000)는 특징 추출 모델(1732)로부터 출력된 특징 영상들(42)을 보정할 수 있다. 디바이스(1000)는 특징 추출 모델(1732)로부터 출력된 특징 영상들(42) 및 영상 속성들에 관련한 설정 값들을 영상 보정 모델(1733)에 입력하여 특징 영상들(42)을 보정할 수 있다. 예를 들어, 디바이스(1000)는 화이트 밸런스의 보정 및 색상 보정을 위한 기설정된 기준에 따라, 특징 영상들(42)을 보정할 수 있다.
예를 들어, 디바이스(1000)의 제1 프로세서(1500)는 디바이스(1000) 내의 센서를 이용하여 피사체를 촬영하는 때의 디바이스(1000) 주변의 환경을 나타내는 센싱 데이터를 생성하며, 생성된 센싱 데이터에 따라 디바이스(1000)의 주변 환경을 자동으로 식별하고, 미리 설정된 기준에 기초하여 특징 영상의 보정을 위한 화이트 밸런스 매트릭스(44) 및 색상 보정 매트릭스(45)를 제1 메모리(1600)로부터 추출할 수 있다. 또한, 제1 프로세서(1500)는 추출된 화이트 밸런스 매트릭스(44) 및 색상 보정 매트릭스(45)를 제2 프로세서(1720)에게 제공할 수 있다. 또한, 제2 프로세서(1720)는 제1 프로세서(1500)로부터 제공받은 화이트 밸런스 매트릭스(44) 및 색상 보정 매트릭스(45)를 영상 보정 모델(1733)에 특징 영상들(42)과 함께 입력할 수 있다.
또는, 예를 들어, 디바이스(1000)의 제1 프로세서(1500)는 촬영 기능이 활성화됨에 따라 특징 영상들(42)의 화이트 밸런스, 색상을 보정하기 위한 설정을 위하여 GUI를 디바이스(1000)의 디스플레이부(1200) 상에 디스플레이할 수 있으며, GUI를 통한 사용자 입력에 기초하여 화이트 밸런스의 보정 및 색상 보정을 위한 설정을 미리 수행할 수 있다. 또한, 제1 프로세서(1500)는 사용자 입력에 따른 설정에 기초하여 제1 메모리(1600)로부터 화이트 밸런스 매트릭스(44) 및 색상 보정 매트릭스(45)를 추출하고, 화이트 밸런스 매트릭스(44) 및 색상 보정 매트릭스(45)를 제2 프로세서(1720)에게 제공할 수 있다. 또한, 제2 프로세서(1720)는 제1 프로세서(1500)로부터 제공받은 화이트 밸런스 매트릭스(44) 및 색상 보정 매트릭스(45)를 영상 보정 모델(1733)에 특징 영상들(42)과 함께 입력할 수 있다.
상기에서는 디바이스(1000)가 영상 보정 모델(1733)을 이용하여 특징 영상들(42)을 보정하는 것으로 설명되었지만, 이에 제한되지 않는다. 디바이스(1000)는 영상 보정 모델(1733)을 이용하지 않고 특징 영상들(42)을 보정할 수 있다. 이 경우, 디바이스(1000)는 영상 속성을 보정하기 위한 매트릭스를 이용하여 특징 영상들을 보정할 수 있다. 예를 들어, 디바이스(1000)는 화이트 밸런스를 보정하기 위한 매트릭스(44)를 특징 영상들(42)에 각각 곱함(multiply)으로써 특징 영상들(42)의 화이트 밸런스를 보정할 수 있다. 또한, 디바이스(1000)는 색상을 보정하기 위한 매트릭스(45)를 특징 영상들(42)에 각각 곱함으로써 특징 영상들(42)의 색상을 보정할 수 있다.
한편, 상기에서는, 화이트 밸런스 매트릭스 값 및 색상 보정 매트릭스 값 값이 영상 보정 모델(1733)에 입력되는 것으로 설명되었지만 이에 제한되지 않는다. 복수의 인공지능 모델(1620)이 화이트 밸런스 및 색상 보정에 관한 설정 별로 각각 훈련될 수 있다. 이 경우에는, 출력 영상을 생성하기 위해 소정의 화이트 밸런스 및 색상 보정에 관한 설정에 대응되는 인공지능 모델(1730)이 제2 메모리(1720)에 로딩되어 제2 프로세서(1710)에 의해 이용될 수 있다. 또한, 제2 메모리(1720)에 로딩된 인공지능 모델(1730)에는 화이트 밸런스 매트릭스 값 및 색상 보정 매트릭스 값이 입력되지 않더라도, 제2 메모리(1720)에 로딩된 인공지능 모델(1730)로부터 소정의 화이트 밸런스 및 색상 보정에 관한 설정을 고려한 출력 영상이 출력될 수 있게 된다.
도 4d는 본 개시의 일 실시예에 따른 디바이스(1000)가 보정된 특징 영상들로부터 출력 영상을 생성하는 과정을 설명하는 도면이다.
디바이스(1000)는 보정된 특징 영상들(46)을 영상 회복 모델(1734)에 입력하고, 영상 회복 모델(1734)로부터 출력되는 출력 영상(38)을 획득할 수 있다. 영상 회복 모델(1734)로부터 출력되는 출력 영상(38)은 피사체를 촬영한 결과물로서 디바이스(1000)에 저장될 영상일 수 있다. 영상 회복 모델(1734)은 복수의 신경망 레이어들로 구성될 수 있으며, 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 영상 회복 모델(1734)의 훈련 결과에 의해 최적화될 수 있으며, 예를 들어, 영상 회복 모델(1734)은, 톤 맵 생성 모델(1731) 및 특징 추출 모델(1732)과 함께 훈련될 수 있다. 또한, 예를 들어, 영상 회복 모델(1734)은 CNN (Convolutional Neural Network)를 포함할 수 있으나, 이에 제한되지 않는다.
도 5는 본 개시의 일 실시예에 따른 특징 추출 모델(1732)의 구조의 일례를 나타내는 도면이다.
도 5를 참조하면, 특징 추출 모델(1732)은 End-to-End 방식의 Fully-Convolutional Network 기반 구조를 가지는 U-NET에 의해 구현될 수 있다. 특징 추출 모델(1732)은 입력된 영상의 컨텍스트를 포착하기 위한 목적으로 구성된 수축 단계(contraction path)의 레이어들 및 수축 단계의 특징 영상으로부터 높은 해상도의 결과를 얻기 위한 업 샘플링(Up-Sampling)을 수행하는 팽창 단계(expanding path)의 레이어들을 포함할 수 있다. 또한, 수축 단계(contraction path)의 레이어들 및 팽창 단계(expanding path)의 레이어들은 서로 대칭되는 구조를 가질 수 있다.
도 6은 본 개시의 일 실시예에 따른 디바이스(1000)가 피사체를 촬영하여 출력 영상을 생성하는 방법의 흐름도이다.
동작 S600에서 디바이스(1000)는 디바이스(1000) 주변의 피사체를 촬영하는 사용자 입력을 수신하고, 동작 S605에서 디바이스(1000)는 카메라 센서부(1400)를 통하여 입력되는 광에 기초하여, 원시 영상을 생성할 수 있다. 디바이스(1000)는 피사체를 촬영하기 위한 기능이 활성화됨에 따라 카메라 센서부(1400)를 이용하여 피사체로부터 제공되는 광에 기초한 원시 영상들을 생성할 수 있으며, 피사체를 촬영하는 사용자 입력이 수신됨에 따라 사용자 입력이 수신된 때에 카메라 센서부(1400)에 의해 생성된 원시 영상을 획득할 수 있다.
동작 S610에서 디바이스(1000)는 원시 영상을 톤 맵 생성 모델(1731)에 입력할 수 있다. 디바이스(1000)는 원시 영상을 톤 맵 생성 모델(1731)에 입력하고, 톤 맵 생성 모델(1731)로부터 출력되는 톤 맵을 획득할 수 있다.
동작 S615에서 디바이스(1000)는 생성된 톤 맵 및 원시 영상을 특징 추출 모델(1732)에 입력할 수 있다. 디바이스(1000)는 톤 맵을 이용하여 원시 영상 내의 픽셀들의 밝기를 스케일링하고, 밝기가 스케일링된 원시 영상을 특징 추출 모델에 입력할 수 있다. 또한, 디바이스(1000)는 특징 추출 모델(1732)로부터 출력되는 특징 영상들을 획득할 수 있다.
동작 S620에서 디바이스(1000)는 특징 추출 모델(1732)에 의해 생성된 특징 영상들을 기설정된 기준에 따라 보정할 수 있다. 디바이스(1000)는 기설정된 영상 속성들에 관련한 설정에 기초하여 특징 영상들을 보정할 수 있다. 예를 들어, 디바이스(1000)는 화이트 밸런스의 보정 및 색상 보정을 위한 기설정된 기준에 따라, 특징 영상들을 보정할 수 있으나, 특징 영상의 보정을 위한 기설정된 기준은 이에 제한되지 않는다.
동작 S625에서 디바이스(1000)는 보정된 특징 영상들을 영상 회복 모델(1734)에 입력하고, 동작 S630에서 디바이스(1000)는 영상 회복 모델(1734)로부터 출력되는 출력 영상을 저장할 수 있다.
도 7은 본 개시의 일 실시예에 따른 인공지능 모델(1620)이 훈련되는 예시를 나타내는 도면이다.
도 7을 참조하면, 기준 원시 영상에 대한 ISP 프로세싱을 통해 생성되는 기준 영상(72)이 인공지능 모델(1620)의 훈련을 위한 정답 영상(GT image: Ground Truth image)으로 이용될 수 있다. 예를 들어, 피사체가 짧은 시간 구간동안 연속 촬영됨으로써 생성되는 복수의 원시 영상들(70)이 조합됨으로써 기준 원시 영상이 생성될 수 있으며, 기준 원시 영상에 대한 기존의 ISP 프로세싱을 통해 기준 영상(72)이 출력될 수 있다. 기존의 ISP 프로세싱은 인공지능 모델을 이용하지 않고 원시 영상을 영상 처리하는 기존의 프로세싱일 수 있으며, 예를 들어, 원시 영상에 대한 전처리, 화이트 밸런스 조정, 디모자이킹, 감마 보정, 색 변환 등의 처리를 인공지능 모델을 이용하지 않고 수행하는 이미지 프로세싱일 수 있다. 출력된 기준 영상(72)은 인공지능 모델의 정답 영상(GT image: Ground Truth image)으로 이용될 수 있다. 또는, 피사체가 짧은 시간 구간동안 연속 촬영됨으로써 생성되는 복수의 원시 영상들(70) 중 하나가 선택되고, 선택된 원시 영상으로부터 기존의 ISP 프로세싱을 통해 출력된 영상이 정답 영상으로 이용될 수 있다.
인공지능 모델(1620)의 훈련을 위하여, 연속 촬영된 복수의 원시 영상들(70) 중 하나 또는 기준 원시 영상이 인공지능 모델(1620)에 입력될 수 있다. 예를 들어, 버스트 샷에 의해 8장의 원시 영상들이 생성되는 경우에, 8장의 원시 영상을 조합하여 기준 원시 영상이 생성될 수 있으며, 기준 원시 영상 및 기준 원시 영상으로부터 기존의 ISP 프로세싱을 통해 생성되는 기준 영상이 인공지능 모델(1620)의 훈련에 이용될 수 있다. 또는, 예를 들어, 버스트 샷에 의해 8장의 원시 영상들이 생성되는 경우에, 8장의 원시 영상들 각각으로부터 기존의 ISP 프로세싱을 통해 8장의 출력 영상들이 생성될 수 있다. 이 경우, 8장의 원시 영상들 중 하나가 선택되고, 선택된 원시 영상 및 선택된 원시 영상에 대응되는 출력 영상이 인공지능 모델(1620)의 훈련을 위하여 이용될 수 있다.
또한, 특징 영상들의 영상 속성을 보정하기 위한 설정 정보가 인공지능 모델(1620)에 입력될 수 있다. 영상 속성을 보정하기 위한 설정 정보는, 예를 들어, 기설정된 화이트 밸런스 보정을 위한 매트릭스 및 기설정된 색상 보정을 위한 매트릭스를 포함할 수 있다. 다양한 영상 속성에 대하여 인공지능 모델(1620)이 훈련될 수 있도록 인공지능 모델(1620)에 다양한 설정에 따른 설정 정보가 입력될 수 있다.
또한, 소정의 노이즈가 포함된 기준 원시 영상이 인공지능 모델(1620)의 훈련을 위하여 인공지능 모델(1620)에 입력될 수 있다. 이 경우, 점차적으로 많은 노이즈를 포함하는 기준 원시 영상들을 인공지능 모델(1620)에 입력하여 인공지능 모델(1620)이 훈련될 수 있다. 예를 들어, 서버(미도시) 또는 디바이스(1000)는 기준 원시 영상에 제1~n 레벨의 노이즈를 각각 포함시켜, n 개의 입력 영상을 생성하고 n개의 입력 영상을 인공지능 모델(1620)에 각각 입력하여 인공지능 모델(1620)을 훈련시킬 수 있다. 이에 따라, 훈련된 인공지능 모델(1620)은 노이즈가 포함된 원시 영상으로부터 디노이징된 출력 영상을 출력하도록 훈련될 수 있다.
또한, 기준 영상(72) 및 인공지능 모델(1620)로부터 출력되는 출력 영상(74)을 비교함으로써 기준 영상(72)와 출력 영상(74) 간의 로스(loss)를 감소시킬 수 있도록 인공지능 모델(1620) 내의 신경망 레이어들의 가중치들이 튜닝될 수 있다. 이 경우, 인공지능 모델(1620)은 톤 맵 생성 모델(1731), 특징 추출 모델(1732) 및 영상 회복 모델(1734)을 포함할 수 있으며, 이에 따라, 톤 맵 생성 모델(1731) 내의 신경망 레이어들의 가중치들, 특징 추출 모델(1732) 내의 신경망 레이어들의 가중치들 및 영상 회복 모델(1734) 내의 신경망 레이어들의 가중치들이 함께 튜닝될 수 있다.
도 8은 본 개시의 일 실시예에 따른 인공지능 모델(1620)을 훈련하는 방법의 흐름도이다.
동작 S800에서 서버(미도시)는 피사체를 연속 촬영함으로써 생성되는 복수의 원시 영상들을 획득할 수 있다. 서버(미도시)는 짧은 시간 구간동안 피사체를 연속 촬영함으로써 생성되는 복수의 원시 영상들을 획득할 수 있다. 복수의 원시 영상들은 연속 촬영을 통하여 생성되므로, 복수의 원시 영상들의 영상 정보는 서로 유사할 수 있다.
동작 S805에서 서버(미도시)는 복수의 원시 영상들을 조합하여 기준 원시 영상을 생성할 수 있다. 서버(미도시)는 영상 융합(fusion) 기법을 이용하여 복수의 원시 영상들을 조합함으로써 하나의 기준 원시 영상을 생성할 수 있다.
동작 S810에서 서버(미도시)는 기준 원시 영상으로부터 ISP 프로세싱을 통해 생성되는 기준 영상을 획득할 수 있다. ISP 프로세싱은 인공지능 모델을 이용하지 않고 원시 영상을 영상 처리하는 기존의 프로세싱일 수 있으며, 예를 들어, 원시 영상에 대한 전처리, 화이트 밸런스 조정, 디모자이킹, 감마 보정, 색 변환 등의 처리를 인공지능 모델을 이용하지 않고 수행하는 이미지 프로세싱일 수 있다. ISP 프로세싱을 통해 생성된 기준 영상은 인공지능 모델(1620)의 정답 영상(GT image: Ground Truth image)으로 이용될 수 있다.
동작 S815에서 서버(미도시)는 인공지능 모델(1620)로부터 출력되는 제1 출력 영상을 획득할 수 있다. 서버(미도시)는 복수의 원시 영상들 중 하나 또는 기준 원시 영상을 인공지능 모델(1620)에 입력하고, 인공지능 모델(1620)로부터 출력되는 제1 출력 영상을 획득할 수 있다. 서버(미도시)에 의해 훈련될 인공지능 모델(1620)은 도 3에 기재된 인공지능 모델(1620)의 구성들을 포함할 수 있다.
동작 S820에서 서버(미도시)는 기준 영상 및 제1 출력 영상 간의 로스(loss)를 분석할 수 있다. 서버(미도시)는 기준 영상을 정답 영상(Ground Truth image)로 이용할 수 있으며, 기준 영상 및 제1 출력 영상 간의 차이를 비교할 수 있다.
동작 S825에서 서버(미도시)는 분석된 로스에 기초하여, 인공지능 모델(1620)의 가중치를 변경할 수 있다. 서버(미도시)는 기준 영상 및 제1 출력 영상 간의 로스(loss)를 감소시킬 수 있도록 인공지능 모델(1620) 내의 신경망 레이어들의 가중치들을 조정할 수 있다. 이 경우, 인공지능 모델(1620)은 톤 맵 생성 모델(1731), 특징 추출 모델(1732) 및 영상 회복 모델(1734)을 포함할 수 있으며, 이에 따라, 톤 맵 생성 모델(1731) 내의 신경망 레이어들의 가중치들, 특징 추출 모델(1732) 내의 신경망 레이어들의 가중치들 및 영상 회복 모델(1734) 내의 신경망 레이어들의 가중치들이 함께 조정될 수 있다.
동작 S830에서 서버(미도시)는 원시 영상들 중 적어도 하나 또는 기준 원시 영상을 가중치가 변경된 인공지능 모델(1620)에 입력하고, 동작 S835에서 서버(미도시)는 가중치가 변경된 인공지능 모델(1620)로부터 출력되는 제2 출력 영상을 획득하고, 동작 S840에서 서버(미도시)는 기준 영상 및 제2 출력 영상 간의 로스를 분석할 수 있다.
또한, 동작 S845에서 서버(미도시)는 인공지능 모델(1620)의 훈련을 종료할 지를 결정할 수 있다. 동작 S840에서 분석된 로스가 기설정된 임계치보다 작은 경우에 서버(미도시)는 인공지능 모델(1620)의 훈련을 종료할 것을 결정할 수 있으며, 동작 S840에서 분석된 로스가 기설정된 임계치보다 큰 경우에 서버(미도시)는 인공지능 모델(1620)의 가중치를 변경하기 위한 동작들을 반복하여 수행할 수 있다.
한편, 복수의 상황에 따라 복수의 인공지능 모델들(1620)이 훈련될 수 있다. 예를 들어, 카메라 필터, 카메라 렌즈, 카메라의 제조사, 디바이스 모델, 복수의 연속 촬영된 이미지, 촬영 환경, 피사체의 종류 또는 촬영 영상의 속성 중 적어도 하나에 관련된 상황을 기준으로 복수의 인공지능 모델들(1620)이 훈련될 수 있다.
예를 들어, 비선명 마스크를 이용하여 촬영된 기준 원시 영상들 및 촬영 영상들을 이용하여 인공지능 모델(1620)이 훈련되고, Contrast 조정 마스크를 이용하여 촬영된 기준 원시 영상들 및 촬영 영상들을 이용하여 인공지능 모델(1620)이 훈련되고, 컬러 필터 마스크를 이용하여 촬영된 기준 원시 영상들 및 촬영 영상들을 이용하여 인공지능 모델(1620)이 훈련될 수 있으나, 이에 제한되지 않는다. 또한, 예를 들어, 카메라 렌즈 별로 촬영된 기준 원시 영상들 및 촬영 영상들을 이용하여 인공지능 모델(1620)이 훈련될 수 있으며, 카메라 렌즈들은, 예를 들어, 망원 렌즈, 광각 렌즈, 어안 렌즈 등을 포함할 수 있으나, 이에 제한되지 않는다. 또한, 예를 들어, 카메라의 제조사 별로 카메라에 의해 촬영된 기준 원시 영상들 및 촬영 영상들을 이용하여 인공지능 모델(1620)이 훈련될 수 있으며, 디바이스의 모델 별로 디바이스에 의해 촬영된 기준 원시 영상들 및 촬영 영상들을 이용하여 인공지능 모델(1620)이 훈련될 수 있으나, 이에 제한되지 않는다. 또한, 예를 들어, 실내에서 촬영된 기준 원시 영상들 및 촬영 영상들을 이용하여 인공지능 모델(1620)이 훈련되고, 야외에서 촬영된 기준 원시 영상들 및 촬영 영상들을 이용하여 인공지능 모델(1620)이 훈련되고, 특정 조도 범위에서 촬영된 기준 원시 영상들 및 촬영 영상들을 이용하여 인공지능 모델(1620)이 훈련될 수 있으나, 이에 제한되지 않는다. 또한, 예를 들어, 인물이 촬영된 기준 원시 영상들 및 촬영 영상들을 이용하여 인공지능 모델(1620)이 훈련되고, 음식이 촬영된 기준 원시 영상들 및 촬영 영상들을 이용하여 인공지능 모델(1620)이 훈련되고, 건물이 촬영된 기준 원시 영상들 및 촬영 영상들을 이용하여 인공지능 모델(1620)이 훈련될 수 있으나 이에 제한되지 않는다. 또한, 예를 들어, 촬영 영상의 속성 별로 촬영된 기준 원시 영상들 및 촬영 영상들을 이용하여 인공지능 모델(1620)이 훈련될 수 있으며, 예를 들어, 촬영 영상의 속성은, 화이트 밸런스, ISO, 셔터 스피드 등을 포함할 수 있으나, 이에 제한되지 않는다.
한편, 도 8에서는 인공지능 모델(1620)의 훈련이 서버(미도시)에 의해 수행되는 것으로 설명되었지만, 이에 제한되지 않는다. 인공지능 모델(1620)의 훈련은 디바이스(1000)에 의해 수행될 수도 있다. 이 경우, 디바이스(1000)는 인공지능 모델(1620)의 훈련을 위하여 이용될 기준 원시 영상 및 기준 영상을 직접 생성하거나 서버(미도시)에게 요청하여 수신할 수 있다.
예를 들어, 디바이스(1000)는 디바이스(1000)에서 촬영된 영상들을 서버(미도시)에게 제공하면서 서버(미도시)에게 인공지능 모델(1620)의 훈련을 위한 기준 원시 영상 및 기준 영상을 요청할 수 있다. 서버(미도시)는 디바이스(1000)로부터 수신된 영상들을 분석하여 디바이스(1000)의 사용자가 선호하는 상황에 관련된 기준 원시 영상 및 기준 영상을 디바이스(1000)에게 제공할 수 있다. 예를 들어, 서버(미도시)는 디바이스(1000)로부터 수신된 영상들을 분석함으로써, 사용자가 이용한 디바이스(1000)의 종류, 디바이스(1000)에서 촬영된 영상 내의 피사체의 종류, 사용자가 선호하는 영상 스타일, 사용자가 주로 촬영하는 장소의 환경(예를 들어, 실내, 실외, 조도, 날씨 등) 등과 같은 사용자의 선호 상황을 식별할 수 있다. 또는, 예를 들어, 디바이스(1000)는 디바이스(1000)의 카메라의 종류, 렌즈 종류에 관한 정보를 서버(미도시)에게 제공하면서 서버(미도시)에게 인공지능 모델(1620)의 훈련을 위한 기준 원시 영상 및 기준 영상을 요청할 수 있다. 서버(미도시)는 디바이스(1000)로부터 수신된 카메라의 종류 및 렌즈 종류에 관련된 기준 원시 영상 및 기준 영상을 디바이스(1000)에게 제공할 수 있다.
또는, 디바이스(1000)는 사용자의 선호하는 영상 스타일, 촬영 환경 및 피사체 등에 관한 사용자 선호 정보를 서버(미도시)에게 제공하면서 서버(미도시)에게 인공지능 모델(1620)의 훈련을 위한 기준 원시 영상 및 기준 영상을 요청할 수 있다. 서버(미도시)는 디바이스(1000)로부터 수신된 사용자 선호 정보에 관련된 기준 원시 영상 및 기준 영상을 디바이스(1000)에게 제공할 수 있다.
도 9는 본 개시의 일 실시예에 따른 디바이스(1000)가 라이브 뷰 영상을 출력하는 방법의 흐름도이다.
동작 S900에서 디바이스(1000)는 피사체를 촬영하기 위한 촬영 기능을 활성화하는 사용자 입력을 수신할 수 있다. 예를 들어, 디바이스(1000)는 디바이스(1000)에 설치된 카메라 애플리케이션을 실행하는 사용자 입력을 수신할 수 있다.
동작 S905에서 디바이스(1000)는 카메라 센서부(1400)를 통하여 입력되는 광에 기초하여 원시 영상을 생성할 수 있다. 디바이스(1000)는 촬영 기능이 활성화됨에 따라 라이브 뷰 영상을 생성하는데 이용되는 원시 영상을 생성할 수 있다.
동작 S910에서 디바이스(1000)는 인공지능 모델(1730) 내의 모델들 중에서 적어도 하나를 비활성화할 수 있다. 디바이스(1000)는 톤 맵 생성 모델(1731), 특징 추출 모델(1732), 영상 보정 모델(1733) 또는 영상 회복 모델(1734) 중 적어도 하나를 비활성화할 수 있다. 라이브 뷰 영상의 생성을 위하여 톤 맵 생성 모델(1731), 특징 추출 모델(1732), 영상 보정 모델(1733) 또는 영상 회복 모델(1734) 중 어느 모델을 비활성화할 지는 미리 설정될 수 있다.
동작 S915에서 디바이스(1000)는 적어도 하나의 모델이 비활성화된 인공지능 모델(1730)에 원시 영상을 입력할 수 있으며, 동작 S920에서 디바이스(1000)는 인공지능 모델(1730)로부터 출력되는 라이브 뷰 영상을 화면 상에 디스플레이할 수 있다. 이 경우, 인공지능 모델(1620)은 인공지능 모델(1620) 내의 모델들 중에서 적어도 하나가 비활성화된 상태에서 양호한 라이브 뷰 영상이 출력될 수 있도록 미리 훈련될 수 있다.
한편, 상기에서는 톤 맵 생성 모델(1731), 특징 추출 모델(1732), 영상 보정 모델(1733) 또는 영상 회복 모델(1734) 중 적어도 하나가 비활성된 인공지능 모델(1720)을 이용하여 라이브 뷰 영상을 생성하는 것으로 설명되었지만 이에 제한되지 않는다. 톤 맵 생성 모델(1731), 특징 추출 모델(1732), 영상 보정 모델(1733) 및 영상 회복 모델(1734)이 모두 활성화된 인공지능 모델(1730)을 이용하여 라이브 뷰 영상이 생성될 수도 있다.
한편, 톤 맵 생성 모델(1731), 특징 추출 모델(1732), 영상 보정 모델(1733) 또는 영상 회복 모델(1734) 중 적어도 하나가 비활성된 인공지능 모델(1720)을 이용하여, 피사체가 촬영된 영상이 생성되고 저장될 수도 있다.
도 10a는 본 개시의 일 실시예에 따른 라이브 뷰 영상을 생성하기 위하여 인공지능 모델(1730) 내의 톤 맵 생성 모델(1731)을 비활성화하는 예시를 나타내는 도면이다.
도 10a를 참조하면, 인공지능 모델(1730) 내의 톤 맵 생성 모델(1731)이 비활성화된 상태에서, 인공지능 모델(1730)에 원시 영상이 입력될 수 있다. 원시 영상은 특징 추출 모델(1732)에 입력되고, 특징 추출 모델(1732)로부터 출력된 특징 영상들이 보정되고, 보정된 특징 영상들이 영상 회복 모델(1734)에 입력되며, 영상 회복 모델(1734)로부터 라이브뷰 영상이 출력될 수 있다. 이 경우, 인공지능 모델(1730)은 톤 맵 생성 모델(1731)이 비활성화된 상태에서 도 7에서와 같은 방법으로 훈련된 모델일 수 있다.
도 10b는 본 개시의 일 실시예에 따른 라이브 뷰 영상을 생성하기 위하여 인공지능 모델(1730) 내의 특징 추출 모델(1732) 및 영상 회복 모델(1734)을 비활성화하는 예시를 나타내는 도면이다.
도 10b를 참조하면, 인공지능 모델(1730) 내의 특징 추출 모델(1732) 및 영상 회복 모델(1734)이 비활성화된 상태에서, 인공지능 모델(1730)에 원시 영상이 입력될 수 있다. 원시 영상은 톤 맵 생성 모델(1731)에 입력되고, 톤 맵 생성 모델(1731)로부터 출력된 톤 맵에 기초하여 원시 영상의 밝기가 조정되고, 밝기가 조정된 원시 영상의 보정됨으로써 라이브뷰 영상이 생성될 수 있다. 이 경우, 인공지능 모델(1730)은 특징 추출 모델(1732) 및 영상 회복 모델(1734)이 비활성화된 상태에서 도 7에서와 같은 방법으로 훈련된 모델일 수 있다.
도 10c는 본 개시의 일 실시예에 따른 라이브 뷰 영상을 생성하기 위하여 인공지능 모델(1730) 내의 톤 맵 생성 모델(1731), 특징 추출 모델(1732) 및 영상 회복 모델(1734)을 비활성화하는 예시를 나타내는 도면이다.
도 10c를 참조하면, 인공지능 모델(1730) 내의 톤 맵 생성 모델(1731), 특징 추출 모델(1732) 및 영상 회복 모델(1734)이 비활성화된 상태에서, 원시 영상이 보정됨으로써 라이브뷰 영상이 생성될 수도 있다.
한편, 도 10a 내지 도 10c에서는, 화이트 밸런스 매트릭스 값 및 색상 보정 매트릭스 값 값이 영상 보정 모델(1733)에 입력되는 것으로 설명되었지만 이에 제한되지 않는다. 복수의 인공지능 모델(1620)이 화이트 밸런스 및 색상 보정에 관한 설정 별로 각각 훈련될 수 있다. 이 경우에는, 라이브뷰 영상을 생성하기 위해 소정의 화이트 밸런스 및 색상 보정에 관한 설정에 대응되는 인공지능 모델(1730)이 제2 메모리(1720)에 로딩되어 제2 프로세서(1710)에 의해 이용될 수 있다. 또한, 제2 메모리(1720)에 로딩된 인공지능 모델(1730)에는 화이트 밸런스 매트릭스 값 및 색상 보정 매트릭스 값이 입력되지 않더라도, 제2 메모리(1720)에 로딩된 인공지능 모델(1730)로부터 소정의 화이트 밸런스 및 색상 보정에 관한 설정을 고려한 라이브뷰 영상이 출력될 수 있게 된다.
도 11은 디바이스(1000)가 리트레이닝된 인공지능 모델(1620)을 서버(미도시)로부터 수신하여 인공지능 모델(1620)을 업데이트하는 방법의 흐름도이다.
동작 S1100에서 디바이스(1000)는 리트레이닝된 인공지능 모델(1620)을 서버(미도시)에게 요청할 수 있다. 인공지능 모델(1620)은 서버(미도시)에 의해 리트레이닝될 수 있으며, 서버(미도시)는 리트레이닝된 인공지능 모델(1620)이 존재함을 알리는 알림 정보를 디바이스(1000)에게 제공할 수 있다. 또한, 디바이스(1000)는 서버(미도시)로부터 수신된 알림 정보를 화면 상에 디스플레이하고, 인공지능 모델(1620)을 업데이트하기 위한 사용자 입력을 수신할 수 있다. 디바이스(1000)는 서버(미도시)에게 사용자가 선호하는 사진 속성에 관한 정보를 제공하면서 서버(미도시)에게 리트레이닝된 인공지능 모델(1620)을 요청할 수도 있다.
디바이스(1000)는 디바이스(1000)에서 촬영된 영상들을 서버(미도시)에게 제공하면서 서버(미도시)에게 리트레이닝된 인공지능 모델(1620)을 요청할 수 있다. 서버(미도시)는 디바이스(1000)로부터 수신된 영상들을 분석하여 디바이스(1000)의 사용자가 선호하는 상황에 관련된 기준 원시 영상 및 기준 영상을 이용하여 인공지능 모델(1620)을 리트레이닝할 수 있다. 예를 들어, 서버(미도시)는 디바이스(1000)로부터 수신된 영상들을 분석함으로써, 사용자가 이용한 디바이스(1000)의 종류, 디바이스(1000)에서 촬영된 영상 내의 피사체의 종류, 사용자가 선호하는 영상 스타일, 사용자가 주로 촬영하는 장소의 환경(예를 들어, 실내, 실외, 조도, 날씨 등) 등과 같은 사용자의 선호 상황을 식별할 수 있다. 또한, 서버(미도시)는 사용자의 선호 상황에 관련된 기준 원시 영상 및 기준 영상을 이용하여 인공지능 모델(1620)을 리트레이닝할 수 있다.
또는, 예를 들어, 디바이스(1000)는 디바이스(1000)의 카메라의 종류, 렌즈 종류에 관한 정보를 서버(미도시)에게 제공하면서 서버(미도시)에게 리트레이닝된 인공지능 모델(1620)을 요청할 수 있다. 서버(미도시)는 디바이스(1000)로부터 수신된 카메라의 종류 및 렌즈 종류에 관련된 기준 원시 영상 및 기준 영상을 이용하여 인공지능 모델(1620)을 리트레이닝할 수 있다.
또는, 디바이스(1000)는 사용자의 선호하는 영상 스타일, 촬영 환경 및 피사체 등에 관한 사용자 선호 정보를 서버(미도시)에게 제공하면서 서버(미도시)에게 리트레이닝된 인공지능 모델(1620)을 요청할 수 있다. 서버(미도시)는 디바이스(1000)로부터 수신된 사용자 선호 정보에 관련된 기준 원시 영상 및 기준 영상을 이용하여 인공지능 모델(1620)을 리트레이닝할 수 있다.
동작 S1110에서 디바이스(1000)는 리트레이닝된 인공지능 모델(1620)을 서버(미도시)로부터 수신할 수 있다. 디바이스(1000)가 사용자가 선호하는 사진 속성에 관한 정보를 서버(미도시)에게 제공한 경우에는, 서버(미도시)는 사용자가 선호하는 사진 속성과 관련하여 리트레이닝된 인공지능 모델(1620)을 디바이스(1000)에게 제공할 수 있다.
동작 S1120에서 디바이스(1000)는 리트레이닝된 인공지능 모델(1620)에 기초하여, 디바이스(1000) 내의 인공지능 모델(1620)을 업데이트할 수 있다. 디바이스(1000)는, 예를 들어, 디바이스(1000) 내의 인공지능 모델(1620)을 리트레이닝된 인공지능 모델(1620)로 대체함으로써, 디바이스(1000) 내의 인공지능 모델(1620)을 업데이트할 수 있다.
도 12는 디바이스(1000)가 인공지능 모델(1620)을 리트레이닝하여 업데이트하는 방법의 흐름도이다.
동작 S1200에서 디바이스(1000)는 리트레이닝을 위한 기준 원시 영상 및 기준 원시 영상에 대응되는 기준 영상을 획득할 수 있다. 기준 영상은 리트레이닝을 위한 기준 원시 영상으로부터 생성되는 영상일 수 있다. 디바이스(1000)는 서버(미도시)에게 인공지능 모델(1620)의 리트레이닝을 위한 기준 원시 영상 및 기준 영상을 요청하고, 서버(미도시)로부터 리트레이닝을 위한 기준 원시 영상 및 기준 영상을 수신할 수 있다. 이 경우, 디바이스(1000)는 디바이스(1000)에서 촬영된 사진 또는 사용자가 선호하는 사진 속성에 관한 정보를 서버(미도시)에게 제공할 수 있으며, 서버(미도시)는 사용자가 선호하는 상황과 관련하여 생성된 기준 영상 및 기준 원시 영상을 디바이스(1000)에게 제공할 수 있다.
예를 들어, 디바이스(1000)는 디바이스(1000)에서 촬영된 영상들을 서버(미도시)에게 제공하면서 서버(미도시)에게 인공지능 모델(1620)의 리트레이닝을 위한 기준 원시 영상 및 기준 영상을 요청할 수 있다. 서버(미도시)는 디바이스(1000)로부터 수신된 영상들을 분석하여 디바이스(1000)의 사용자가 선호하는 상황에 관련된 기준 원시 영상 및 기준 영상을 디바이스(1000)에게 제공할 수 있다. 예를 들어, 서버(미도시)는 디바이스(1000)로부터 수신된 영상들을 분석함으로써, 사용자가 이용한 디바이스(1000)의 종류, 디바이스(1000)에서 촬영된 영상 내의 피사체의 종류, 사용자가 선호하는 영상 스타일, 사용자가 주로 촬영하는 장소의 환경(예를 들어, 실내, 실외, 조도, 날씨 등) 등과 같은 사용자의 선호 상황을 식별할 수 있다. 또한, 서버(미도시)는 사용자의 선호 상황에 관련된 기준 원시 영상 및 기준 영상을 디바이스(1000)에게 제공할 수 있다.
또는, 예를 들어, 디바이스(1000)는 디바이스(1000)의 카메라의 종류, 렌즈 종류에 관한 정보를 서버(미도시)에게 제공하면서 서버(미도시)에게 인공지능 모델(1620)의 리트레이닝을 위한 기준 원시 영상 및 기준 영상을 요청할 수 있다. 서버(미도시)는 디바이스(1000)로부터 수신된 카메라의 종류 및 렌즈 종류에 관련된 기준 원시 영상 및 기준 영상을 디바이스(1000)에게 제공할 수 있다.
또는, 디바이스(1000)는 사용자의 선호하는 영상 스타일, 촬영 환경 및 피사체 등에 관한 사용자 선호 정보를 서버(미도시)에게 제공하면서 서버(미도시)에게 인공지능 모델(1620)의 리트레이닝을 위한 기준 원시 영상 및 기준 영상을 요청할 수 있다. 서버(미도시)는 디바이스(1000)로부터 수신된 사용자 선호 정보에 관련된 기준 원시 영상 및 기준 영상을 이용하여 디바이스(1000)에게 제공할 수 있다.
동작 S1210에서 디바이스(1000)는 리트레이닝을 위한 기준 원시 영상 및 기준 원시 영상에 대응되는 기준 영상을 이용하여, 디바이스(1000) 내의 인공지능 모델(1620)을 업데이트할 수 있다. 디바이스(1000)는 서버(미도시)로부터 수신된 기준 영상을 정답 영상으로 이용할 수 있으며, 디바이스(1000)는 서버(미도시)로부터 수신된 기준 원시 영상을 인공지능 모델(1620)에 입력하고 인공지능 모델(1620)로부터 출력되는 출력 영상을 기준 영상과 비교함으로써 인공지능 모델(1620)을 리트레이닝할 수 있다.
본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
본 개시의 일 실시예에서 원시 영상이 인공지능 모델의 입력 데이터로 이용되어 인공지능 모델로부터 출력 영상 데이터가 출력될 수 있다. 인공지능 모델은 학습을 통해 만들어 질 수 있다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 인공지능 모델은, 객체 인식(Object Recognition), 객체 추적(Object Tracking), 영상 검색(Image Retrieval), 사람 인식(Human Recognition), 장면 이해(Scene Recognition), 공간 이해(3D Reconstruction/Localization), 영상 개선(Image Enhancement) 등에 이용될 수 있다.
본 개시의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 또는 프로그램 모듈과 같은 변조된 데이터 신호의 기타 데이터를 포함할 수 있다.
또한, 컴퓨터에 의해 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
또한, 본 명세서에서, “a, b 또는 c 중 적어도 하나를 포함한다”는 “a만 포함하거나, b만 포함하거나, c만 포함하거나, a 및 b를 포함하거나, b 및 c를 포함하거나, a 및 c를 포함하거나, a, b 및 c를 모두 포함하는 것을 의미할 수 있다.
전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.

Claims (15)

  1. 디바이스가 원시 영상으로부터 피사체가 촬영된 출력 영상을 생성하는 방법에 있어서,
    상기 디바이스의 제어를 위한 제1 프로세서를 이용하여, 상기 디바이스 내의 카메라 센서를 제어함으로써 상기 카메라 센서의 전방의 피사체를 나타내는 원시 영상을 획득하는 동작;
    인공지능 모델을 이용하는 상기 원시 영상에 대한 영상 처리를 위한 제2 프로세서를 이용하여, 상기 카메라 센서의 전방의 상기 피사체를 나타내는 상기 원시 영상을, 영상의 밝기를 조절하기 위해 훈련된 제1 인공지능 모델에 입력하는 동작;
    상기 제2 프로세서를 이용하여, 상기 제1 인공지능 모델로부터 출력되는 톤 맵 데이터를 획득하는 동작; 및
    상기 톤 맵 데이터에 기초하여 생성되는 출력 영상을 저장하는 동작;
    을 포함하는, 방법.
  2. 제1 항에 있어서,
    상기 제2 프로세서를 이용하여:
    상기 카메라 센서의 전방의 피사체를 나타내는 상기 원시 영상 및 상기 제1 인공지능 모델로부터 출력되는 상기 톤 맵 데이터를, 영상의 특징들을 분석하기 위해 훈련된 제2 인공지능 모델에 입력하는 동작;
    상기 제2 인공 지능 모델로부터 출력되는 복수의 특징 영상들을 획득하는 동작;
    영상의 특징을 보정하기 위한 적어도 하나의 설정에 기초하여, 상기 제2 인공지능 모델로부터 출력된 복수의 특징 영상들을 보정하는 동작; 및
    상기 적어도 하나의 설정에 기초하여 보정된 복수의 특징 영상들에 기초하여 상기 피사체를 포함하는 출력 영상을 생성하는 동작;
    을 더 포함하는, 방법.
  3. 제2 항에 있어서,
    상기 출력 영상을 생성하는 동작은, 상기 제2 프로세서를 이용하여, 상기 보정된 복수의 특징 영상들을, 출력 영상을 생성하기 위한 제3 인공지능 모델에 입력하는 동작을 포함하는 것인, 방법.
  4. 제3 항에 있어서,
    상기 제1 인공지능 모델은 상기 원시 영상의 픽셀 별로 밝기를 조절하기 위한 톤 맵을 생성하도록 미리 훈련된 모델이고,
    상기 제2 인공지능 모델은, 영상 내의 기설정된 복수의 특징들을 분석하기 위하여 미리 훈련된 모델이며,
    상기 제3 인공지능 모델은, 복수의 특징 영상들로부터 출력 영상을 회복하도록 미리 훈련된 모델인 것인, 방법.
  5. 제3 항에 있어서,
    상기 제1 인공지능 모델, 상기 제2 인공지능 모델 및 상기 제3 인공지능 모델은, 기준 원시 영상 및 상기 기준 원시 영상으로부터 기설정된 ISP 프로세싱 (Image Signal Processing)을 통해 생성되는 기준 출력 영상을 바탕으로 함께 훈련된 것인, 방법.
  6. 제4 항에 있어서,
    연속 촬영으로 인하여 생성되는 복수의 원시 영상들을 조합함으로써 생성되는 상기 기준 원시 영상으로부터 기설정된 ISP 프로세싱을 통해 생성되는 상기 기준 출력 영상, 및 상기 기준 원시 영상으로부터 상기 제1 인공지능 모델, 상기 제2 인공지능 모델 및 상기 제3 인공지능 모델을 통해 출력되는 출력 영상 간의 로스(loss) 기초하여, 상기 제1 인공지능 모델, 상기 제2 인공지능 모델 및 상기 제3 인공지능 모델이 함께 훈련된 것인, 방법.
  7. 제1 항에 있어서,
    상기 원시 영상은 상기 카메라 센서 내의 이미지 센서 및 컬러 필터를 통하여 생성되는 영상이며, 베이어(bayer) 패턴, RGBE 패턴, RYYB 패턴, CYYM 패턴, CYGM 패턴, RGBW 베이어 패턴, 및 X-trans 패턴 중 어느 하나의 패턴을 가지는 것인, 방법.
  8. 제2 항에 있어서,
    상기 적어도 하나의 설정은, 화이트 밸런스를 보정하기 위한 설정 및 색상을 보정하기 위한 설정 중 적어도 하나를 포함하는 것인, 방법.
  9. 제3 항에 있어서,
    상기 제1 인공지능 모델, 상기 제2 인공지능 모델 및 상기 제3 인공지능 모델은, 상기 디바이스의 사용자의 선호도를 반영하여 선택된 것인, 방법.
  10. 제3 항에 있어서,
    상기 제1 인공지능 모델, 상기 제2 인공지능 모델 및 상기 제3 인공지능 모델 중 적어도 하나를 이용하지 않고, 상기 원시 영상으로부터 라이브뷰 영상을 생성하는 동작; 및
    상기 생성된 라이브뷰 영상을 디스플레이하는 동작;
    을 더 포함하는, 방법.
  11. 제3 항에 있어서,
    상기 제1 인공지능 모델, 상기 제2 인공지능 모델 및 상기 제3 인공지능 모델을 리트레이닝하는 동작;
    을 더 포함하는, 방법.
  12. 제11 항에 있어서,
    상기 리트레이닝하는 동작은,
    상기 리트레이닝을 위한 기준 영상 및 상기 기준 영상에 대응되는 기준 원시 영상을 획득하는 동작; 및
    상기 획득된 기준 영상 및 상기 기준 원시 영상을 이용하여, 상기 제1 인공지능 모델, 상기 제2 인공지능 모델 및 상기 제3 인공지능 모델을 리트레이닝하는 동작;
    을 포함하는 것인, 방법.
  13. 원시 영상으로부터 피사체가 촬영된 출력 영상을 생성하는 디바이스에 있어서,
    카메라 센서;
    디스플레이;
    상기 디바이스의 제어를 위한 제1 명령어들을 저장하는 제1 메모리;
    상기 제1 메모리에 저장된 제1 명령어들을 실행하는 제1 프로세서;
    상기 원시 영상에 대한 영상 처리를 위한 적어도 하나의 인공지능 모델 및 상기 인공지능 모델의 실행에 관련된 제2 명령어들을 저장하는 제2 메모리; 및
    상기 제2 메모리에 저장된 상기 적어도 하나의 인공지능 모델 및 상기 제2 명령어들을 실행하는 제2 프로세서;
    를 포함하며,
    상기 제1 프로세서가 상기 카메라 센서를 이용하여 상기 카메라 센서의 전방의 피사체를 나타내는 원시 영상을 획득하고,
    상기 제2 프로세서가 상기 카메라 센서의 전방의 상기 피사체를 나타내는 상기 원시 영상을, 영상의 밝기를 조절하기 위해 훈련된 제1 인공지능 모델에 입력하고,
    상기 제2 프로세서가 상기 제1 인공지능 모델로부터 출력되는 톤 맵 데이터를 획득하고,
    상기 제1 프로세서가 상기 톤 맵 데이터에 기초하여 생성되는 출력 영상을 상기 제1 메모리에 저장하는 것인, 디바이스.
  14. 제13 항에 있어서,
    상기 제2 프로세서가, 상기 제2 명령어들을 실행함으로써:
    상기 카메라 센서의 전방의 피사체를 나타내는 상기 원시 영상 및 상기 제1 인공지능 모델로부터 출력되는 톤 맵 데이터를, 영상의 특징들을 분석하기 위해 훈련된 제2 인공지능 모델에 입력하고,
    상기 제2 인공 지능 모델로부터 출력되는 복수의 특징 영상들을 획득하고,
    영상의 특징을 보정하기 위한 적어도 하나의 설정에 기초하여, 상기 제2 인공지능 모델로부터 출력된 복수의 특징 영상들을 보정하고,
    상기 적어도 하나의 설정에 기초하여 보정된 복수의 특징 영상들에 기초하여 상기 피사체를 포함하는 출력 영상을 생성하는 것인, 디바이스.
  15. 제1 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2021/015056 2020-10-27 2021-10-26 피사체가 촬영된 영상을 생성하는 디바이스 및 방법 Ceased WO2022092742A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP21886736.4A EP4209989A4 (en) 2020-10-27 2021-10-26 DEVICE AND METHOD FOR GENERATING AN IMAGE IN WHICH A SUBJECT HAS BEEN CAPTURED
CN202180073360.2A CN116420158A (zh) 2020-10-27 2021-10-26 用于生成其中被摄体已经被捕获的图像的设备和方法
US18/131,643 US20230245285A1 (en) 2020-10-27 2023-04-06 Device and method for generating image in which subject has been captured

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2020-0140682 2020-10-27
KR20200140682 2020-10-27
KR1020200149890A KR102762541B1 (ko) 2020-10-27 2020-11-11 피사체가 촬영된 영상을 생성하는 디바이스 및 방법
KR10-2020-0149890 2020-11-11

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/131,643 Continuation US20230245285A1 (en) 2020-10-27 2023-04-06 Device and method for generating image in which subject has been captured

Publications (1)

Publication Number Publication Date
WO2022092742A1 true WO2022092742A1 (ko) 2022-05-05

Family

ID=81382755

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/015056 Ceased WO2022092742A1 (ko) 2020-10-27 2021-10-26 피사체가 촬영된 영상을 생성하는 디바이스 및 방법

Country Status (5)

Country Link
US (1) US20230245285A1 (ko)
EP (1) EP4209989A4 (ko)
KR (1) KR20250021511A (ko)
CN (1) CN116420158A (ko)
WO (1) WO2022092742A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024252977A1 (en) * 2023-06-07 2024-12-12 Sony Semiconductor Solutions Corporation Signal processing device and signal processing method

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7679286B2 (ja) * 2021-11-26 2025-05-19 京セラ株式会社 画像変換装置、画像変換装置の制御方法、制御プログラム、記録媒体
US12430727B2 (en) * 2022-11-22 2025-09-30 Adobe Inc. Image and object inpainting with diffusion models
US20250104050A1 (en) * 2023-09-21 2025-03-27 The Toronto-Dominion Bank Dynamically evolving image based on pursuit of goals
US12530823B2 (en) * 2023-11-06 2026-01-20 Andrew Sanitz-Nieto Method and system for face image enhancement using artificial intelligence

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170078516A (ko) * 2015-12-29 2017-07-07 삼성전자주식회사 신경망 기반 영상 신호 처리를 수행하는 방법 및 장치
KR20180055573A (ko) * 2016-11-17 2018-05-25 삼성전자주식회사 데이터 인식 및 트레이닝 장치 및 방법
KR102029852B1 (ko) * 2019-04-09 2019-10-08 세종대학교 산학협력단 환경에 따라 신경망 모델을 선택하는 객체 인식 장치 및 그 방법
KR20200009922A (ko) * 2018-07-20 2020-01-30 삼성전자주식회사 전자 장치 및 이미지의 전송 상태에 기반하여 이미지를 보정하는 방법
US20200089994A1 (en) * 2018-09-19 2020-03-19 Canon Kabushiki Kaisha Information processing system, information processing method, and storage medium

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10776903B2 (en) * 2017-07-17 2020-09-15 Open Text Corporation Systems and methods for image modification and image based content capture and extraction in neural networks
EP3695347A4 (en) * 2017-10-10 2022-04-20 Nokia Technologies Oy Method, system and apparatus for pattern recognition
US10497105B2 (en) * 2017-11-01 2019-12-03 Google Llc Digital image auto exposure adjustment
CN109272441B (zh) * 2018-09-14 2023-02-17 三星电子(中国)研发中心 关联图像的生成方法
EP3924933B1 (en) * 2019-03-21 2026-02-25 Huawei Technologies Co., Ltd. Image processor
CN111126273B (zh) * 2019-12-24 2024-04-23 珠海奔图电子有限公司 图像处理方法、装置、电子设备以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170078516A (ko) * 2015-12-29 2017-07-07 삼성전자주식회사 신경망 기반 영상 신호 처리를 수행하는 방법 및 장치
KR20180055573A (ko) * 2016-11-17 2018-05-25 삼성전자주식회사 데이터 인식 및 트레이닝 장치 및 방법
KR20200009922A (ko) * 2018-07-20 2020-01-30 삼성전자주식회사 전자 장치 및 이미지의 전송 상태에 기반하여 이미지를 보정하는 방법
US20200089994A1 (en) * 2018-09-19 2020-03-19 Canon Kabushiki Kaisha Information processing system, information processing method, and storage medium
KR102029852B1 (ko) * 2019-04-09 2019-10-08 세종대학교 산학협력단 환경에 따라 신경망 모델을 선택하는 객체 인식 장치 및 그 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4209989A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024252977A1 (en) * 2023-06-07 2024-12-12 Sony Semiconductor Solutions Corporation Signal processing device and signal processing method

Also Published As

Publication number Publication date
EP4209989A4 (en) 2024-04-03
EP4209989A1 (en) 2023-07-12
KR20250021511A (ko) 2025-02-13
CN116420158A (zh) 2023-07-11
US20230245285A1 (en) 2023-08-03

Similar Documents

Publication Publication Date Title
WO2022092742A1 (ko) 피사체가 촬영된 영상을 생성하는 디바이스 및 방법
WO2019132518A1 (en) Image acquisition device and method of controlling the same
WO2020204668A1 (en) Electronic device and method for controlling camera using external electronic device
WO2020032555A1 (en) Electronic device and method for providing notification related to image displayed through display and image stored in memory based on image analysis
WO2019107724A1 (en) Method and system for providing recommendation information related to photography
WO2017142342A1 (en) Electronic device and operating method thereof
WO2021086040A1 (en) Method for providing preview and electronic device for displaying preview
EP3628121A1 (en) Electronic device for storing depth information in connection with image depending on properties of depth information obtained using image and control method thereof
WO2019027141A1 (en) ELECTRONIC DEVICE AND METHOD FOR CONTROLLING THE OPERATION OF A VEHICLE
WO2019156428A1 (en) Electronic device and method for correcting images using external electronic device
WO2018070793A1 (en) Method, apparatus, and recording medium for processing image
WO2017090833A1 (en) Photographing device and method of controlling the same
WO2019059635A1 (ko) 하나의 이미지 센서를 통해 획득된 rgb 이미지와 ir 이미지를 이용하여 기능을 제공하는 전자 장치
WO2022108201A1 (ko) 영상을 제공하는 방법 및 이를 지원하는 전자 장치
WO2024005333A1 (ko) 카메라를 포함하는 전자 장치 및 방법
WO2020197048A1 (en) Electronic device and method for securing personal information included in image
KR20220056068A (ko) 피사체가 촬영된 영상을 생성하는 디바이스 및 방법
WO2019190250A1 (ko) 이미지에 포함된 반사 객체의 속성에 기반하여, 반사 객체에 다른 이미지를 합성하는 방법 및 전자 장치
WO2020166791A1 (ko) Hdr 영상을 생성하는 전자 장치 및 그 동작 방법
WO2020209560A1 (en) Electronic device for performing image processing and method thereof
WO2019066281A1 (ko) 입력된 정보와 관련된 이미지를 제공하기 위한 전자 장치 및 그의 동작 방법
EP3501001A1 (en) Method, apparatus, and recording medium for processing image
WO2026029334A1 (ko) 전자 장치 및 전자 장치가 보케 영상을 제공하는 방법
WO2026063656A1 (ko) 전자 장치 및 전자 장치가 플레어 영상을 제공하는 방법
WO2025165071A1 (ko) 이미지를 생성하는 전자 장치와 이의 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21886736

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021886736

Country of ref document: EP

Effective date: 20230405

NENP Non-entry into the national phase

Ref country code: DE