WO2022087706A1 - Método de detecção e segmentação da região labial - Google Patents

Método de detecção e segmentação da região labial Download PDF

Info

Publication number
WO2022087706A1
WO2022087706A1 PCT/BR2021/050478 BR2021050478W WO2022087706A1 WO 2022087706 A1 WO2022087706 A1 WO 2022087706A1 BR 2021050478 W BR2021050478 W BR 2021050478W WO 2022087706 A1 WO2022087706 A1 WO 2022087706A1
Authority
WO
WIPO (PCT)
Prior art keywords
lip
images
image
lips
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/BR2021/050478
Other languages
English (en)
French (fr)
Inventor
Milene Haraguchi PADILHA
Camila Andréia Bernardon URIO
Clarice Scliar SASSON
Gustavo De Campos Dieamant
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Botica Comercial Farmaceutica Ltda
Original Assignee
Botica Comercial Farmaceutica Ltda
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Botica Comercial Farmaceutica Ltda filed Critical Botica Comercial Farmaceutica Ltda
Priority to EP21884190.6A priority Critical patent/EP4239573A4/en
Priority to US18/250,631 priority patent/US20240020843A1/en
Priority to JP2023527233A priority patent/JP2023550296A/ja
Publication of WO2022087706A1 publication Critical patent/WO2022087706A1/pt
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing

Definitions

  • the present invention patent belongs to the technical field of methods or arrangements for reading and identifying patterns. More specifically, it refers to the technology of using deep learning algorithms, machine learning and artificial intelligence in order to identify the lip delimitation as well as methods that allow the detection and segmentation of the lip region.
  • Patent document BR102012033722-3 presents a system and method capable of performing virtual makeup on images obtained by portable devices equipped with digital cameras. According to the patent application, the method allows the automatic identification of points of interest (eyes, mouth, eyebrow, face contour) in the image.
  • Another patent document, EP2985732B1 presents image processing again for the purpose of virtual makeup reproduction.
  • Patent document US10339685B2 presents a system and method capable of digitally removing facial makeup. All these documents present the application of facial recognition technologies that consider the face as a whole. These methodologies correlate several points of the face, such as eyes, eyebrows, nose and mouth, in order to facilitate the recognition of each of these regions.
  • Patent document US9552510B2 reveals techniques for capturing facial expressions for cartoons using artificial intelligence, but again, it correlates key points of the face as a whole to obtain a given facial recognition.
  • Another application of artificial intelligence technology in the technical field of cosmetics is related to providing recommendations for customized products, as demonstrated in patent document WO2017/165363A1.
  • Said document reveals the recognition of skin age through images captured by devices. After being analyzed by computational devices, the age of the skin is determined and specific formulations are suggested for each user.
  • the contours found are considered as polynomial curves, in which peaks and valleys define the regions of the cupid's bow (structure of the labial anatomy located in the center of the upper lip, being a V-shaped depression located just above the vermilion) and the ends of the commissures (name that the edges of openings in the form of a slit are joined in the body (eyelids, lips, etc.) ).
  • the tests are performed with images of the lip region, with people talking under natural and non-uniform lighting.
  • the developed algorithm proved to be robust in cases where the individual had a beard, and when the teeth and tongue were exposed.
  • the problems for this approach are related to the rotation of the individual's face, causing the visibility and definition of the lip features to be lost when there is a change in the angle of the face, and the definition of only the outer and not the inner edges. of the lips.
  • Hassanat, AB et al Hassanat, AB & Jassim, S. (2010, April). Color-based lip localization method.
  • Mobile Multimedia/ Image Processing, Security, and Applications 2010 Vol. 7708, p. 77080Y
  • International Society for Optics and Photonics analyzes the frequency of color intensity present on the lips and face in order to identify the regions of interest.
  • the approach to the differentiation between the skin of the lips and the face is made from the analysis of the frequency of color intensity in the color spaces: RGB, HSV and YCbCr.
  • a clustering algorithm is applied (grouping by predefined similar characteristics - technique of grouping correlated data given an n-dimensional space) by pixels of color intensity and neighborhood.
  • This document presents a video application for volunteers of different ethnicities (Africans, Asians, Europeans, Middle Easterners), female and male, and volunteers with a beard and/or mustache.
  • the model proposed by Hassanat, AB et al has as a challenge the use of color spaces for lip segmentation, since the light intensity is crucial for the lip color characteristics to be recognized by the proposed method.
  • the method obtains an average accuracy of 91.15% in relation to the location of the labial region.
  • the worst results for this approach are related to image analysis in the RGB color space.
  • a robustness in the algorithm is verified when the lips are detected in female individuals, since male individuals have hair in the facial region, a fact that ends up confusing the algorithm.
  • the color space used is L*a*b* and the combined techniques of color segmentation using Nearest Neighbor (neighborhood analysis through the proximity of data in an n-dimensional space) and color-based clustering.
  • K-Means clustering algorithm that groups correlated data according to a certain radius of neighborhood
  • a mathematical processing is applied, an ellipse is adjusted in the best way to the detected lips and thus the points of interest (Key Points) referring to the lips are extracted.
  • Skodras, E. et al are performed with images of bases used under different lighting conditions and there is no type of makeup being used by the people present in the images.
  • the SC-FAC Shape Constrained Feature-based Active Contour
  • the tests in Le, TH N et al are performed with images from different bases, and the images used are under different lighting conditions, low contrast, people with facial expressions, low resolution, blurry and makeup.
  • the proposed method is robust to the conditions tested, showing good results.
  • CNN was used in order to learn advanced image resources for the appearance of the lips and LSTM to learn the spatio-temporal variation between frames (each of the images that, when placed in sequence, give rise to the video).
  • LSTM learns the spatio-temporal variation between frames (each of the images that, when placed in sequence, give rise to the video).
  • the proposed method is not robust to lighting variation.
  • Bindal, U et al (Bindal, U., Shajan, K., Mitra, NK, & Priydarshni, B. (2015). Morphological Analysis of Vermilion Border and its Forensic Applications. J Dentistry Oral Medicine, 3(1), 21 -28) is to find the most common characteristics present in the lips with regard to sexual variations, the morphology of the lips and their anthropometric measurements .
  • the experiments carried out in Bindal, U. et al involved the participation of 300 individuals aged between 18 and 65 years. Lip edge impressions were obtained and morphometric analysis of the obtained impressions was performed using a ruler.
  • the height and width of the mouth were measured and the wrinkles and grooves in the impressions obtained were studied with the help of a magnifying glass. An individual's impressions were repeated each year for seven years. Through experiments it was found that the width of the mouth and the thickness of the lips in men are generally greater than in women. It was also found that morphologically middle lips are present in both sexes and changes in anthropometric measurements were not observed in the seven years of subsequent studies.
  • Mask R-CNN is an object segmentation method, based on Faster R-CNN (consists of a Deep Learning architecture to perform object detection), which initially needs to perform the detection of objects present in the image to then perform segmentation of such objects.
  • the architecture of the Faster R-CNN network is used to detect the objects and after that, with the detection information, in parallel, the objects are segmented through the creation of masks.
  • the approach proposed in He, K. et al surpasses previous state-of-the-art works and manages to provide good results even under challenging conditions.
  • the lip edge is not a well-defined border and, in addition to having a non-linear variation in tone, it may have asymmetries in the tracing.
  • the techniques for lip recognition identified in the prior art present problems related to the accuracy for identifying the edge that defines the limit of the lips.
  • the present invention has as main objective the use of Artificial Intelligence methods that allow the identification and segmentation of the lips in a precise way, so that it is possible to automatically apply lip products without the use of accessories, such as mirrors.
  • Figure 1 presents a representative image of identification of the various regions of a lip contour.
  • Figure 2 presents a graph of the frequencies captured by the cones in the human eye.
  • Figure 3 presents a graph with the representation of the RGB color space.
  • Figure 4 shows a comparison chart of three color spaces (Lab, RGB and CMYK).
  • Figure 5 presents an image representing the Lab color space.
  • Figure 6 presents an image representing the HSV color space.
  • Figure 7 shows a comparison image space of the YCbCr color spaces and the RGB space.
  • Figure 8 presents a detection of objects/elements in the image and their respective bounding boxes in red, green and blue.
  • Figure 9 presents a recognition of objects/elements in the image and their respective labels.
  • Figure 10 presents a segmentation of objects/elements in the image and their respective masks in red, green and blue.
  • Figure 11 presents a diagram of the training process in machine learning.
  • Figure 12 presents a diagram of the training process in deep learning.
  • Figures 13A, 13B and 13C present examples of images acquired using Leap Motion's infrared camera.
  • Figure 14 presents high resolution images obtained by a webcam camera modified to have the lowest possible focus setting and capable of capturing images in full HD.
  • Figures 15A, 15B, 15C and 15D show the use of microscopy images.
  • Figure 16 presents high definition images of the curves and design of the lips in the application of the lipstick pigment proposed by the present invention.
  • Figure 17 shows examples of images from the SCface dataset - Surveillance Cameras Face Database composed of face images captured by different cameras, one RGB and the other infrared.
  • Figures 18A and 18B present results of U-Net contour prediction.
  • Figure 19 presents a diagram of the training and testing process of the U-Net network used for mouth segmentation.
  • Figure 20 presents the results of the U-Net network for the prediction of the contours of the mouth.
  • Figure 21 presents an image used by a training image labeling tool.
  • Figure 22 presents a diagram of the training and testing process applied to the U-Net network with variations of the prediction mask.
  • Figure 23 shows examples of results for the different masks using the U-Net network.
  • Figure 24 shows examples of results from the U-Net network with the thickest lip contour mask.
  • Figures 25A and 25B represent the detection of objects and the segmentation of the same objects with the respective masks.
  • Figures 26A to 26F present examples of how the image base is made for training using only parts of the lips.
  • Figure 27 presents a diagram of the training and test execution flow in performing the segmentation of the lips region in a first scenario according to the present invention.
  • Figure 28 presents a diagram of the training and test execution flow in performing the segmentation of the lips region in a second scenario according to the present invention.
  • Figure 29 shows a diagram of the flow of execution of training and testing in performing the segmentation of the lips region in a third scenario according to the present invention.
  • Figure 30 presents images of satisfactory results of the lip segmentation process according to the first scenario.
  • Figure 31 shows images of satisfactory results of the lip segmentation process according to the second scenario.
  • Figure 32 presents images of satisfactory results of the lip segmentation process according to the third scenario.
  • Figure 33 presents images of unsatisfactory results of the lip segmentation process according to the third scenario.
  • Figure 34 illustrates a color space of a digital image (RGB) and the grouping performed.
  • Figures 35A and 35B present images resulting from the application of the superpixel method on a digital image and the result of clustering by color.
  • Figures 36A to 36E show zoning images per superpixel applied to a non-pigmented lip edge.
  • Figures 37A to 37E show zoning images per superpixel applied to a pigmented lip edge.
  • Figures 38A to 38E show zoning images per superpixel applied to a non-pigmented lip edge.
  • Figures 39A to 39C show images of superpixel zoning applied to unpigmented lip edge in HSV space.
  • Figures 40A to 40C show zoning images per superpixel applied to the lip edge without pigment in HSV space and in RGB.
  • Figure 41 presents an execution flow diagram of the junction of superpixel edges and Mask R-CNN .
  • Figure 42 presents images of satisfactory results of the process of segmentation of the lips according to the execution of the junction of the edges of superpixel and Mask R-CNN in a first scenario.
  • Figure 43 presents images of satisfactory results of the lip segmentation process according to the execution of the superpixel edges and Mask R-CNN in a second scenario.
  • the present invention refers to a method of establishing lip information by means of a processing module capable of determining and supporting a system for applying lip products to the lips with precision , more specifically presents a method of lip delimitation with steps that allow the detection and segmentation of the labial region.
  • the main motivation that propitiates the process of establishment of lip information of the present invention refers to the application of technology in hardware with respect to an intelligent system of application of lip products to the lips with precision through the necessary processing steps to accurately distinguish the boundary between the areas of the facial dermis and lip.
  • the skin of the face is thicker (sixteen cell layers) than the skin of the lips (three to five cell layers) which are composed entirely of soft tissue and thus have blood vessels closer to the surface.
  • the skin of the lips for not having hair follicles and sweat and sebaceous glands, lacks the usual protective layer of sweat and body oils that keep the skin smooth, inhibit pathogens and regulate heat. For this reason, lips dry out faster and become more chapped.
  • Figure 1 illustrates the denomination of the various parts of an image related to the definition of the lip contour (1) , such as perioral lines (2) , philtrum and cupid's bow (3) , commissure labial (4) and proportion/balance (5) .
  • the usual techniques for lip recognition have problems related to the accuracy for identification of the edge that defines the limit of the lips, consequently they lack a better definition of the area of application of the pigment of a lip product.
  • the lip border is not a well-defined border and, in addition to having a non-linear variation in tone, it may have asymmetries in the tracing. So it is necessary to understand how lip product users define this edge.
  • a class of lip products can be used to achieve the lip augmentation effect. Based on the idea of applying the product beyond the edge of the lips, pigmenting part of the nearby skin. The definition of where this new lip edge will be, starts from aesthetic issues for the drawing of a well-defined mouth.
  • the colors visible by the human visual system are known to be within a light spectrum, where by varying the frequency of light we observe a color variation.
  • the human eye is composed of several structures that allow it to focus, change the intensity of light and identify these frequencies of visible light. Since the process of capturing this light is done by cells called cones, the capture of luminosity (light or dark) is done by cells called rods.
  • the human eye is mostly made up of three types of cones, low frequency cones that are more sensitive to blue light frequencies, medium frequency cones that are more sensitive to green light frequencies, and high frequency cones that are more sensitive to red light frequencies.
  • RGB Red, green, blue
  • This space is extremely used in equipment for capturing and reproducing images such as: cameras, monitors, televisions, projectors, among others.
  • this model represents a large number of colors and intensities, it cannot represent all the colors visible to the human eye, nor does it allow a more subtle control of information such as luminosity, saturation and transparency, as it is possible to observe in the comparison between the Lab color (6) , the RGB color space (7) and the CMYK color space (8) shown in Figure 4.
  • the Lab or CieLab color space is considered the color space that most closely approximates the amount of visible colors, both in terms of amount of colors and luminous intensity.
  • This color space consists of three axes, just like in RGB, but instead of having a starting point (0,0,0) this space has coordinates that vary within a spectrum, L being the luminance normally ranging from 0 to 100 or from black to white, A and B ranging from -128 to +128, which respectively means that they vary from green to red and from blue to yellow, as shown in Figure 5.
  • RGB color space another color space used throughout this project is the YCbCr color space where Y is luminance, while Cb and Cr are respectively the blue difference and the red difference.
  • the representation of this color space is a cube, just like the RGB color space, and can be considered an extension of the RGB color space, however this color space contains a much wider range of colors than the color range of the RGB color space.
  • RGB color and for having a separation of channels, where the Y is the luminance, it allows a different amount of operations.
  • Figure 7 shows the spatial comparison between the YCbCr (outer cube) and RGB (inner cube) color spaces.
  • computer vision is the field of computing that studies ways to extract information from objects in an image. It works together with digital image processing, analyzing images to obtain a result close to the human eye.
  • computer vision is the process of modeling and replicating human vision using hardware resources implemented by a computer program, comprising a 3D scene from 2D images in terms of the properties of the structures present in the scene.
  • Object recognition is one of the main functions linked to computer vision and is closely linked to pattern recognition.
  • An object can be defined by its patterns of texture, color, shape, dimension, among others, and the individual recognition of these patterns can characterize an object as a whole, that is, be defined as a class.
  • a pattern class is a family of patterns that share common properties with each other.
  • Pattern recognition by equipment involves techniques for assigning patterns to their respective classes automatically and with the least possible human intervention, an example of this is the use of machine learning algorithms for object classification.
  • machine learning algorithms For object classification, it is necessary to analyze such properties with the help of machine learning algorithms, estimating a pattern given a new example, based on previously acquired learning.
  • machine learning has limitations, because when determining which class an object belongs to, it is necessary to extract the best possible representation, and this involves careful work in engineering areas.
  • Object detection In computer vision there are techniques for the detection and segmentation of objects in the image.
  • Object detection in turn, consists of locating the objects of interest present in the image and after this location, a bounding box is constructed for each object (consisting of a rectangular box that can be determined by the coordinates of the x and y axes in the corner). top left and bottom right of the rectangle) corresponding to the location of that object in the image, as represented in Figure 8.
  • the bounding box only informs that there is an element in that region, but does not provide any additional information such as shape, contour and the object identification.
  • Recognition is a step that consists of identifying objects always after the detection step.
  • One of the requirements of this step is the object information, that is, the region of the image where the object that the system must analyze to perform the recognition process using a previously trained machine learning model is located.
  • Figure 9 exemplifies the detection and identification of image objects according to their respective labels (cat and dog).
  • segmentation consists of creating a mask for each object present in the image, in order to partition the image into relevant segments. These masks provide more granular information about the object such as location, topography, and shape. Figure 10, represents the segmentation of three distinct objects through their respective masks (in red, green and blue).
  • Machine Learning it is a subarea of Artificial Intelligence (AI) that consists of creating models that are able to identify mathematical patterns generating outputs based on input information.
  • AI Artificial Intelligence
  • the training process as shown in the diagram in Figure 11, from the input information, some characteristics will be extracted and then, together with their labels, they are submitted to the model training process. At the end of the training process, the generated model will provide an output capable of identifying the label of an object.
  • Machine Learning is a sub-area of Machine Learning.
  • the main difference between Machine Learning techniques and those based on Deep Learning is the complexity of the algorithms, both in the mathematical models used and in the number of additional steps present in this model. These additional and more complex steps allow the model to generalize the information, being able to extract characteristics and details from the input data.
  • a disadvantage of the approach that uses Deep Learning is the need for an even larger amount of input data, as well as a variation of that data.
  • a Machine Learning algorithm can converge using hundreds of input data, while Deep Learning algorithms need thousands of images to have meaningful results.
  • Figure 12 represents in general the steps present in processes that use Deep Learning, comprising the input, extraction of features with model training and output.
  • Leap Motion is a device that consists of an infrared sensor developed and calibrated to capture and identify hand movements allowing human-machine interaction through gestures.
  • the intensity of the infrared light is adjusted and it is possible to clearly visualize the lips, as seen in Figure 13A.
  • the intensity of the infrared light is kept at maximum intensity and this makes it difficult to identify the lips, as can be seen in Figure 13B and Figure 13C.
  • High resolution images are images with a high amount of pixels, that is, they allow you to see minimal details of the images without loss of quality even with an increase in the zoom level of the image. These images allow a more accurate visualization of skin and mucosal characteristics, such as: expression lines, fingerprints and reliefs. [00102] Currently, the acquisition of high resolution images is increasingly common, since cameras capable of acquiring this type of image are becoming popular and being found in cell phones, webcams and photographic cameras.
  • the Logitech C920 camera is an example of a webcam capable of capturing full HD images.
  • One of the advantages of this camera is the amount of settings available via software such as: focus, brightness, night mode, among others.
  • Figure 14 shows some images captured with this camera model, modified to have the smallest possible focus setting (about 2 cm from the lens).
  • Figures 15A to 15D allow the visualization of more precise features of the skin and labial mucosa such as expression lines, digitalis and tubercles.
  • a camera which may or may not be RGB capture.
  • Figures 15A, 15B, 15C and 15D show examples of high resolution images captured using a special lens.
  • Figure 15A is a photo of the skin around the lips and Figure 15B is an image of the region of the lips. Both images have a 60x magnification.
  • Figure 15C and 15D are, respectively, photos of the skin around the lips and the lip, both at 100x magnification.
  • the approach using infrared images raised above consists of capturing images in a frequency of non-visible light (infrared), the benefits of this approach mainly involve non-interference with visible light, thus making it easier to identify an object in the dark or in direct light.
  • Leap Motion is a device developed for hand tracking and gesture identification, using infrared sensors. This equipment has a very good performance for hand tracking, however some limitations in its embedded computer program do not allow its use as an infrared image capture device, these limitations include access to captured images, control of LED luminosity infrared and language and operating system compatibility.
  • infrared image bases including bases with face images at different distances and positions, and bases with infrared videos and night vision, being chosen at least one base for the algorithm tests and application validation.
  • SCface -Surveillance Cameras Face Database is chosen, for example, which is composed of images of the face at various angles and captured by different cameras, one RGB and the other infrared.
  • An example of the images of this base is presented in Figure 17.
  • the network receives as input during the training process the original grayscale image and a mask, throughout the network processing it will make the encoder and decoder of the images, thus generating the predicted mask and at the same time end of training a mathematical model capable of predicting masks of the object used in training.
  • a mathematical model capable of predicting masks of the object used in training.
  • Figures 18A and 18B present an original result of this network, with image 18A representing the input image for the prediction and image 18B presenting the segmentation contours predicted by the network.
  • U-Net is a network focused on biomedical images, its ability to identify image details to use in segmentation allows this network to be used in other areas. In the context of the present invention, it is considered that this network interprets the distance information contained in the infrared images. To carry out this test, the steps adopted are shown in the diagram of Figure 19, where the biomedical images dataset (9) and their respective masks (10) , containing 30 images, are used to train the network (11) thus generating a mask prediction model (12) .
  • a haar cascade algorithm (14) is used to cut the areas of interest from the infrared image base (13) , thus obtaining a new base (15) containing, for example 30 images for testing, these images are passed to the model (16) that predicts the masks (17) .
  • Figure 20 presents some mask results predicted by the U-Net following the process and the observations presented above, in the first column the input images for the network (described in the diagram by step (15) ) and in the second column the network output (described in the diagram by step (17)).
  • the network can describe a valid mask for some of the input images. It is possible to observe that in images 2, 3, 6 and 7 the contours are highlighted, and in image 6 there is a predominance of the beard in the mask and in image 7, which does not contain the mouth, but only the user's chin, the net managed to perfectly outline the contour of the face. On the other hand, in images 1, 4 and 5 the network cannot generate a mask.
  • RGB color images for the detection and segmentation of objects is a methodology having several algorithms, mathematical models and improvement techniques developed with this focus. In this sense, some chosen techniques are presented, as well as the procedures of each one and their results for the segmentation of the mouth and lips.
  • the U-Net network described above for pattern recognition in infrared images can also be used for RGB images. There are two initial approaches to this. The first deals with a modification in the architecture of the network, allowing it to recognize images with three channels (RGB) . The second consists of converting the input image into a grayscale image. The aproach chosen is to convert the image to grayscale, in this way it is possible to obtain the test results in a faster way.
  • step (18) being the grayscale image
  • step (19) examples of different mask versions created
  • step (20) the models generated for each mask
  • step (21) the input image for the model predicts the mask
  • step (22) the different responses of each model for each mask.
  • Figure 24 presents other results for this model, the images on the left being the original grayscale images and the images on the right being the prediction made by the model.
  • the process of detecting objects in an image consists of providing the coordinates of the Bounding Boxes (colored rectangles in Figure 25A) that are drawn around each object present in the image. These coordinates are used to signal the location of each object in the image.
  • this object detection process does not provide any additional information other than the location of the objects.
  • the process of segmenting objects in an image initially performs the detection process to locate the objects in the image and then segment the objects.
  • a mask ( Figure 25B) is created for each object, which provides not only the location of the objects in the image, but also information on contour, shape and also makes it possible to separate the objects from the image as a whole, allowing the processing of objects in isolation.
  • the pattern recognition technique stands out among the object detection techniques.
  • the Faster R-CNN object detection technique proposed in the document Ren, S., He et al (Ren, S., He, K. , Girshick, R., & Sun, J. (2015).
  • Faster r- cnn Towards real-time object detection with region proposal networks.In Advances in neural information processing systems (pp. 91-99) provides good results in the detection of the most varied objects.
  • the Mask R-CNN architecture is a technique widely referenced and used in the area of Pattern Recognition with regard to object segmentation.
  • Mask R-CNN is an object segmentation method that is an extension of the technique covered in Faster R-CNN.
  • the Mask R-CNN initially, needs to perform the detection of objects present in the image and then perform the segmentation of such objects. So, at first, the architecture of the Faster R-CNN network is used to perform the detection of objects, providing the coordinates and, consequently, the location of each object in the image, and after that with the detection information, in a parallel way. , objects are segmented through the creation of masks.
  • test image base
  • a third scenario as seen in the diagram in Figure 29, the main objective is to evaluate the generalization capacity of the segmentation model. Algorithm training is performed using the base of images with parts of the lips and the test is performed using images containing the entire mouth. The ability of the segmentation model to have been trained with parts of the lips and to be able to generalize the segmentation for the entire mouth and not just for parts of the lips is evaluated. Training the algorithm with only parts of the lips, despite not having the complete context of the mouth, favors a greater extraction of the structural characteristics of the lips due to the zoom that is given at the time of image acquisition.
  • the following parameters are considered: a) training image base:
  • test image base part of the lips and without lipstick b
  • the accuracy obtained is 3%, that is, the region of the lips was correctly segmented in 3% of the cases. test images.
  • the objective of this test is to verify the ability of the segmentation model to generalize the segmentation of the lips. It is already expected that there is a drop in the accuracy of the segmentation model , given that the algorithm was trained with images of parts of the lips and in the test it was forced to segment the region of the lips with images containing the context of the entire mouth, which , were not presented to the algorithm during training.
  • the segmentation model was forced from learning with images with "micro” (lower context) representations of the lips to perform lip segmentation on images with a “macro” (larger context) representation of lips. As seen in Figure 32 and Figure 33, some results of the segmentation process of satisfactory and unsatisfactory lips are presented, respectively.
  • the superpixel technique consists of grouping the pixels of an image based on the similarity of the color characteristic.
  • the method uses conventional image processing techniques without the need for deep learning, as is done in the approaches presented above (deep learning).
  • the concept used to perform the clustering of pixels is the k-means clustering algorithm, which groups elements in a given space with similar characteristics, having as the base calculation the Euclidean distance between two points.
  • the clustering technique is used in machine learning for cases where learning is unsupervised, that is, cases where objects do not have predefined classes.
  • the grouping of objects in space makes the determination of learning to be pointed out by the group to which it belongs.
  • Figure 34 illustrates a color space of a digital image (RGB) and the grouping performed. It is possible to notice that the distribution of the colors of the pixels of an image has a pattern that can come to represent objects in the image.
  • RGB digital image
  • the image of Figure 35A is the real image
  • the image of Figure 35B is the clustered image.
  • the elements that make up the image are segmented in the sense that areas of very close colors are considered objects of the same class, an example is objects related to trees and foliage in the background that were classified as a green zone in the image, such as fact serves for the other elements as the region of the field of roses and the sky.
  • a slic algorithm is used, as proposed by Achanta, R. et al (Achanta, R., Shaji, A. , Smith, K., Lucchi, A., Fua, P., & Süsstrunk, S. (2010). Slic superpixels (No. REP_WORK) ), which performs clustering (clusters) with the k-means method.
  • the main parameters for the slic function are the number of threads, i.e. the number of clusters you want separate from the elements and the image to be processed.
  • the algorithm was applied to the clipped images of the lips dataset, as seen in Figures 36A to 36E (lip edge without pigment), 37A to 37E (lip edge with pigment), and 38A to 38E (lip edge without pigment). pigment), the number of segments used was 30, 20, 10 and 2 (this value was considered to verify if the algorithm delimits the labial zone and the skin zone).
  • the unusual combination of the Superpixel and Mask R-CNN methods according to the present invention aims to use the separation information between the lips and facial skin resulting from the execution of the Superpixel approach in the training of the Mask R approach algorithm -CNN Such superpixel separation information is inserted into the images used in the training of the Mask R-CNN according to the execution flow shown in Figure 41.
  • This flow is executed on all images of parts of the lips of the training base and all these images are used in the lower execution flow (Mask R-CNN - Training) for the training of the algorithm.
  • the images of parts of the lips from the training base were used instead of the images of the complete mouth because they have a more challenging character for the segmentation model, since they do not have the context of the complete mouth and have a smaller amount of characteristics to be learned by the user. algorithm compared to the full mouth images.
  • the mask information is inserted into the luminance channel V in order to enhance this separation between the lip and the skin of the face in the final RGB image.
  • the image in the HSV color space is converted to the RGB color space, resulting in the resulting image (27) to be inserted in the training process using the Mask R algorithm -CNN
  • the training step using the Mask R-CNN algorithm is continued by the training stage of the segmentation technique based on pattern recognition.
  • Mask R-CNN (28) and finally the segmentation model is obtained (29) .
  • the main objective is to verify if any significant improvement is obtained using images of parts of the lips both in the training base and in the test base.
  • the accuracy obtained was 23%, that is, the region of the lips was correctly segmented in 23% of the test images, as shown in the images in Figure 42.
  • the main objective is to verify the capacity of the segmentation model of generalize the knowledge gained from a base of training images of parts of the lips to test images with the context of the full mouth.
  • the accuracy obtained was 7%, that is, the region of the lips was correctly segmented in 7% of the test images, as shown in the images in Figure 43.
  • the different stages of the processing methods presented here are carried out through a processing module present in a system for applying lip products.
  • this processing module all the processing necessary for the identification of lip edges is performed, after capturing the information.
  • the processing module defines the lip regions that should receive the pigment by the lip products application system. These model-defined lip regions go through a post-processing step necessary to ensure the correct format of the information that is compatible with the lip products application system. Then, the delivery system uses the pigment and applies it to the previously identified labial region.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

A presente patente de invenção pertence ao campo técnico de métodos ou disposições de leitura e identificação de padrões. Mais especificamente, refere-se à tecnologia de utilização de algoritmos de deep learning, machine learning e inteligência artificial de modo a identificar a delimitação labial bem como métodos que permitam a detecção e a segmentação da região labial. O método de detecção e segmentação da região labial da presente invenção compreende a realização do reconhecimento de padrões por meio da extração de características de entrada de imagens labiais, rotulando-as para uma base de treinamento por meio de um módulo de processamento presente em um sistema de aplicação de produtos labiais; definição e indicação das imagens labiais rotuladas aos algoritmos de reconhecimento de padrões para aprendizagem e realização de segmentação das ditas imagens labiais pelo dito módulo de processamento; e a execução de treinamento de um modelo em aprendizagem de máquina no dito módulo de processamento com uma pluralidade de dados exemplificados e suas respectivas respostas definindo rótulos que o modelo deve aprender e predizer para identificar e gerar um padrão matemático para um sistema de aplicação de produtos labiais.

Description

"MÉTODO DE DETECÇÃO E SEGMENTAÇÃO DA REGIÃO LABIAL"
[001] A presente patente de invenção pertence ao campo técnico de métodos ou disposições de leitura e identificação da padrões. Mais especificamente, refere-se à tecnologia de utilização de algoritmos de deep learning, machine learning e inteligência artificial de modo a identificar a delimitação labial bem como métodos que permitam a detecção e a segmentação da região labial.
ESTADO DA TÉCNICA
[002] O estudo do estado da técnica é extremamente importante para o resultado proposto pela presente invenção, visto que não foi encontrada nenhuma solução que cumprisse os requisitos dispor de um processo de detecção e reconhecimento de imagens lábias precisos, por meio do uso de inteligência artificial, visando a utilização por um sistema inteligente de aplicação de produtos labiais nos lábios com precisão.
[003] Neste sentido, é realizado um levantamento das tecnologias relacionadas, direta ou indiretamente, com os problemas vinculados ao objetivo da presente invenção, tais como: segmentação dos lábios, reconhecimento de bordas e texturas, aplicação de pigmentos, entre outros. Também é realizada uma análise dos dispositivos existentes no mercado e que estão relacionados com alguma parte do processo de aplicação de produtos de beleza.
[004] Diversos documentos do estado da técnica mencionam a utilização de deep learning , machine learning e inteligência artificial visando a identificação facial, por meio de processos de detecção e reconhecimento de imagens previamente captadas, ou, ainda, em imagens em tempo real.
[005] O documento de patente BR102012033722-3 apresenta um sistema e método capaz de realizar maquiagem virtual em imagens obtidas por dispositivos portáteis equipados com câmeras digitais. De acordo com o pedido de patente, o método permite a identificação automática de pontos de interesse (olhos, boca, sobrancelha, contorno do rosto) na imagem. Outro documento de patente, EP2985732B1, apresenta um processamento de imagem novamente com a finalidade de reprodução de maquiagem virtual. Já o documento de patente US10339685B2 apresenta um sistema e um método capazes de remover digitalmente uma maquiagem facial. Todos esses documentos apresentam aplicação de tecnologias de reconhecimento facial que consideram a face como um todo. Essas metodologias correlacionam diversos pontos da face, como olhos, sobrancelhas, nariz e boca, de forma a facilitar o reconhecimento de cada uma dessas regiões.
[006] O documento de patente US9552510B2 revela técnicas para captura de expressões faciais para desenhos animados por meio de inteligência artificial, porém, novamente, correlaciona pontos chave da face como um todo para obter determinado reconhecimento facial.
[007] Outra aplicação da tecnologia de inteligência artificial no campo técnico de cosméticos está relacionada a fornecer recomendações para produtos customizados, conforme demonstrado no documento de patente WO2017/ 165363A1. Dito documento revela o reconhecimento da idade da pele por meio de imagens capturadas por dispositivos. Após analisadas por dispositivos computacionais, a idade da pele é determinada e formulações especificas são sugeridas para cada usuário.
[008] Quanto a métodos de reconhecimento, avaliação e categorização de lábios, sem a aplicação da tecnologia de inteligência artificial, podem ser citados documentos de patente como W02006043643A1 e W02008135907A1.
[009] Apesar de não pertencer ao campo de aplicação de cosméticos, o documento não-patentário intitulado "LipNet: End-to-end sentence-level Lipreading" revela a utilização de inteligência artificial, por meio de redes, para a realização de leitura labial com alta precisão. Ainda que seja uma aplicação focada em lábios, está diretamente relacionada aos seus movimentos sequenciais, bem como ao contexto de vocabulários e sentenças, que fazem parte do aprendizado da leitura .
[0010] Outros diversos documentos de literatura não patentária são conhecidos no estado da técnica, tendo como objetivo a detecção e segmentação dos lábios em imagens coloridas .
[0011] A metodologia descrita por Eveno, N. et al (Eveno, N., Caplier, A., & Coulon, P. Y. (2002, August) . Key points based segmentation of lips. In Proceedings. IEEE International Conference on Multimedia and Expo (Vol. 2, pp . 125-128) . IEEE) é baseada na detecção de Key Points labiais, que sinalizam pontos ou características representativas de uma região em uma imagem, a fim de estimar o contorno externo dos lábios. Nesta abordagem são utilizadas técnicas de processamento digital de imagens no espaço de cor RGB, e a análise da intensidade luminosa incidente sobre o lábio, para a identificação de lábio superior e inferior, uma vez que a iluminação incide no lábio superior de maneira diferente do lábio inferior. Neste documento, os contornos labiais são definidos através do rastreamento da coloração ao redor de cada pixel na imagem. Os contornos encontrados são considerados como curvas polinomiais, em que picos e vales definem as regiões do arco do cupido (estrutura da anatomia labial localizada no centro do lábio superior, sendo uma depressão em forma de V localizada logo acima do vermilion) e as extremidades das comissuras (nome que se dá as junções dos bordos de aberturas em forma de fenda, no corpo (pálpebras, lábios etc.) ) . Os testes são realizados com imagens da região labial, com pessoas falando sob iluminação natural e não uniforme. O algoritmo desenvolvido mostrou-se robusto nos casos em que o indivíduo possuia barba, e quando os dentes e lingua estavam expostos. Por outro lado, os problemas para essa abordagem estão relacionados à rotação do rosto do indivíduo, fazendo com que a visibilidade e a definição das características labiais sejam perdidas quando há a mudança de ângulo do rosto, e a definição apenas das bordas externas e não internas dos lábios.
[0012] O documento Hassanat, A. B. et al (Hassanat, A. B. & Jassim, S. (2010, April) . Color-based lip localization method. In Mobile Multimedia/ Image Processing, Security, and Applications 2010 (Vol. 7708, p. 77080Y) . International Society for Optics and Photonics) faz a análise da frequência da intensidade de cor presente nos lábios e da face a fim de identificar as regiões de interesse. A abordagem da diferenciação entre pele dos lábios e da face são feitas a partir da análise da frequência da intensidade de cor nos espaços de cor: RGB, HSV e YCbCr. Para uma aproximação mais precisa da região labial é aplicado um algoritmo de clusterização (agrupamento por características semelhantes pré definidas - técnica de agrupamento de dados correlacionados dado um espaço n-dimensional ) por pixels de intensidade de cor e vizinhança. Este documento apresenta uma aplicação em videos para voluntários de diferentes etnias (africanos, asiáticos, europeus, pessoas do oriente médio) , do sexo feminino e masculino, e voluntários com barba e/ou bigode. O modelo proposto por Hassanat, A. B. et al tem como desafio a utilização de espaços de cores para a segmentação labial, uma vez que a intensidade luminosa é crucial para que as características labiais de cor sejam reconhecidas pelo método proposto. O método obtém uma acurácia média de 91,15 % em relação à localização da região labial. Por outro lado, os piores resultados para essa abordagem estão relacionados à análise de imagens no espaço de cor RGB. É verificada uma robustez no algoritmo quando há a detecção dos lábios em indivíduos do sexo feminino, uma vez que indivíduos do sexo masculino possuem pelos na região facial, fato que acaba confundindo o algoritmo.
[0013] Em Skodras, E. et al (Skodras, E., & Fakotakis, N. (2011, May) . An unconstrained method for lip detection in color images. In 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 1013- 1016) . IEEE) , a metodologia utilizada baseia-se na segmentação por cor, a partir da imagem da face, para obter a melhor região que representa a separação entre lábios e a pele do rosto. A região é baseada na diferença de cor entre lábios e pele e essa separação é independente das intensidades particulares dos pixels da partição. Para esse propósito, o espaço de cor utilizado é o L*a*b* e as técnicas combinadas de segmentação de cor utilizando Nearest Neighbor (análise de vizinhança através da proximidade dos dados em um espaço n-dimensional ) e Clusterização baseada em cores utilizando K-Means (algoritmo de clusterização que agrupa dados correlacionados de acordo com determinado raio de vizinhança) são aplicadas. Posteriormente, um processamento matemático é aplicado, uma elipse é ajustada da melhor forma aos lábios detectados e assim os pontos de interesse (Key Points) referentes aos lábios são extraídos. Os testes apresentados por Skodras, E. et al são realizados com imagens de bases utilizadas sob diversas condições de iluminação e não há nenhum tipo de maquiagem sendo utilizada pelas pessoas presentes nas imagens. Além disso, imagens com baixa iluminação também são utilizadas, o que dificulta a segmentação por cores. O método é robusto mesmo em casos desafiadores, como em situações em que a luz não é uniforme, presença de barba, baixo contraste de cores entre a área labial e não labial ou se os dentes são visíveis. Também não é afetado pela inclinação e rotação da cabeça, desde que a região dos lábios seja visivel. Por outro lado, a abordagem de Skodras, E. et al falha em extrair resultados precisos nos casos em que os cantos da boca foram cobertos por partes da barba .
[0014] O documento Le, T. H. N et al (Le, T. H. N., & Savvides, M. (2016) . A novel shape constrained feature-based active contour model for lips/mouth segmentation in the wild. Pattern Recognition, 54, 23-33) utiliza a abordagem automática de detecção e segmentação dos lábios/boca sem restrição de condições do ambiente e robusto à posição do rosto e oclusão. Primeiramente realiza-se a predição de Key Points que representam os pontos mais importantes dos lábios. Esses Key Points são utilizados posteriormente para realizar a segmentação do objeto de interesse: os lábios/boca. Para a predição dos Key Points utiliza-se um modelo baseado na técnica Active Shape Model. Após isso, é proposto o modelo SC-FAC (Shape Constrained Feature-based Active Contour) que realiza a segmentação dos lábios/boca com base nos Key Points preditos. Os testes em Le, T. H. N et al são realizados com imagens de diversas bases, sendo que as imagens utilizadas estão sob condições de iluminação distintas, baixo contraste, pessoas com expressões faciais, baixa resolução, embaçadas e maquiagem. O método proposto é robusto às condições testadas apresentando bons resultados.
[0015] Diferentemente das abordagens anteriores utilizadas que se baseiam na extração dos Key Points para posteriormente realizar a segmentação, o trabalho apresentado em Dong, W et al (Dong, W., He, R., & Zhang, S. (2016, October) . Digital recognition from lip texture analysis. In 2016 IEEE International Conference on Digital Signal Processing (DSP) (pp. 477-481) . IEEE) propõe uma abordagem de reconhecimento de lábios através da textura utilizando Deep Learning. A arquitetura proposta é composta por redes do tipo Convolutional Neural Network (CNN) (tipo de rede neural artificial utilizado no reconhecimento de padrões) e Long Short-Term Memory (LSTM) para reconhecimento digital, que integra as vantagens da CNN e LSTM. Utilizou-se a CNN com o objetivo de aprender recursos avançados de imagem para aparência dos lábios e LSTM para aprender a variação espaço- temporal entre frames (cada uma das imagens que, quando postas em sequência, dão origem ao video) . Por outro lado, o método proposto não apresenta robustez à variação de iluminação .
[0016] Por sua vez, o objetivo do trabalho proposto por Bindal, U et al (Bindal, U., Shajan, K. , Mitra, N. K. , & Priydarshni, B. (2015) . Morphological Analysis of Vermilion Border and its Forensic Applications. J Dentistry Oral Medicine, 3 (1) , 21-28) é encontrar as características mais comuns presentes nos lábios no que diz respeito às variações sexuais, à morfologia dos lábios e suas medidas antropométricas . Os experimentos realizados em Bindal, U. et al contaram com a participação de 300 indivíduos na faixa etária entre 18 e 65 anos. As impressões da borda dos lábios foram obtidas e a análise morfométrica das impressões obtidas foram feitas usando uma régua. A altura e largura da boca foram medidas e as rugas e sulcos nas impressões obtidas foram estudadas com a ajuda de uma lente de aumento. As impressões de um indivíduo foram repetidas a cada ano durante sete anos. Através dos experimentos constatou-se que a largura da boca e a espessura dos lábios nos homens, geralmente, são maiores do que nas mulheres. Foi constatado também que morfologicamente lábios médios estão presentes em ambos os sexos e mudanças nas medidas antropométricas não foram observadas nos sete anos de estudos posteriores.
[0017] O documento apresentado em Liu, Y. et al (Liu, Y., Li, Y., Ma, X., & Song, R. (2017) . Facial expression recognition with fusion features extracted from salient facial areas. Sensors, 17 (4) , 712) tem como foco principal o reconhecimento de expressões faciais. A abordagem proposta consiste em um algoritmo que utiliza a fusão de características extraídas das áreas salientes das faces. Para extrair características mais representativas, primeiro define-se as áreas salientes nas faces da imagem e essas áreas são utilizadas para extrair características em outras imagens de faces de tamanhos similares. Portanto, pode-se extrair características mais semelhantes de diferentes indivíduos. As características provenientes de técnicas de segmentação por textura de uma imagem (Local Binary Pattern - LBP) e de descriptores de características de detecção de objetos (Histogram of Oriented Gradient - HOG) são extraídas das áreas salientes, a dimensão das fusões de características são reduzidas pelo Principal Component Analysis (PGA) (procedimento matemático que converte um conjunto de variáveis correlacionadas em linearmente não correlacionadas, chamadas de Componentes Principais) e aplica-se vários classificadores (modelos de Reconhecimento de Padrões) para classificar as seis expressões básicas (alegria, medo, surpresa, tristeza, nojo, raiva) de uma só vez. Como resultado, as áreas salientes encontradas em diferentes indivíduos são do mesmo tamanho. Além disso, a correção da iluminação da imagem é aplicada primeiramente aos recursos de LBP na estrutura de algoritmos visando melhorar as taxas de reconhecimento. Diversas bases de imagens são utilizadas nos experimentos realizados em Liu, Y. et al . Apesar do método proposto em Liu, Y. et al ter alcançado o estado da arte no que diz respeito ao reconhecimento de expressões faciais, há dois pontos em que a abordagem não apresenta boa performance. O primeiro ponto, trata-se do tamanho da base de imagens utilizada. Se a base de imagens não for suficientemente grande, o método de correção de luminosidade utilizado não consegue melhorar o reconhecimento das expressões. O segundo ponto, trata-se da utilização de Landmarks (importantes pontos de interesse dos objetos na imagem utilizados como referência pelo modelo de reconhecimento de padrões) , os quais são pontos que representam as principais caracteristicas presentes na face. Se esses pontos não forem precisos, o reconhecimento das expressões faciais também não será .
[0018] O trabalho proposto por He, K. et al (He, K. , Gkioxari, G., Dollár, P., & Girshick, R. (2017) . Mask R-CNN. In Proceedings of the IEEE international conference on computer vision (pp. 2961-2969) ) propõe uma arquitetura chamada Mask R-CNN que realiza o processo de segmentação, abordado em outros artigos já citados, porém, baseada em Deep Learning. O Mask R-CNN é um método de segmentação de objetos, baseado no Faster R-CNN (consiste em uma arquitetura de Deep Learning para realização da detecção de objetos) , que inicialmente necessita realizar a detecção dos objetos presentes na imagem para em seguida realizar a segmentação de tais objetos. Então, em um primeiro momento a arquitetura da rede do Faster R-CNN é utilizada para realizar a detecção dos objetos e após isso com a informação da detecção, de forma paralela, é feito a segmentação dos objetos através da criação de máscaras. A abordagem proposta em He, K. et al supera os trabalhos anteriores do estado da arte e consegue fornecer bons resultados ainda sob condições desafiadoras.
[0019] Diferentemente dos trabalhos já citados, o trabalho de Kobayashi, H. et al (Kobayashi, H., & Tagami, H. (2004) . Functional properties of the surface of the vermilion border of the lips are distinct from those of the facial skin. British Journal of Dermatology , 150 (3) , 563-567) propõe apresentar as diferenças entre a pele do lábio e da face através das propriedades funcionais. O estudo de Kobayashi, H. utilizou um sistema de câmaras para medição da perda transepitelial de água (TEWL) do lábio. A partir disso foi feito um estudo das propriedades biofísicas do lábio comparando-as com as da pele da bochecha. Os testes de TEWL, condutância de alta frequência, são realizados com 303 voluntários saudáveis para a região labial e região da bochecha. Os dados obtidos mostram que a o lábio possui três vezes mais capacidade de perda de água em relação a região da bochecha. Apesar de apresentar diferenciação de dados obtidos pela TEWL, o ambiente experimental é controlado em condições de umidade (50 %) e temperatura (21 °C) .
[0020] Conforme demonstrado, é possível verificar que a tecnologia de inteligência artificial vem sendo aplicada em diversas frentes relacionadas ao reconhecimento facial.
[0021] Quando aplicada especificamente aos lábios, entende-se que a maioria das técnicas faz referências a outros pontos do rosto para que a identificação dos lábios seja possível. Quando focados unicamente na boca, ainda assim necessitam pontos de referência (pontos chave) , até mesmo como dentes ou barbas, para que a identificação dos lábios se torne mais assertiva. Além dos pontos chave e, portanto, a necessidade de visualização da boca completa, ainda existem outros fatores limitantes, como iluminação e ângulo dos lábios .
[0022] Além disso, a borda labial não é uma fronteira bem definida e, além de possuir uma variação não linear de tonalidade, pode possuir assimetrias no traçado. As técnicas para reconhecimento labial identificadas no estado da técnica apresentam problemas relacionados à precisão para identificação da borda que define o limite dos lábios.
[0023] Conforme verificado, foram localizados diversos documentos que se remetem ao campo técnico da presente invenção, contudo, não se direcionam a aperfeiçoar etapas de processamento de imagens necessárias para distinguir com extrema precisão os limites entre as áreas da derme facial e labial de modo a possibilitar a aplicação de tecnologia em hardware com relação a um sistema inteligente de aplicação de produtos labiais nos lábios.
[0024] A presente invenção possui como principal objetivo a utilização de métodos de Inteligência Artificial que permitem a identificação e segmentação dos lábios de forma precisa, para que seja possível a aplicação automática de produtos labiais sem a utilização de acessórios, como espelhos .
BREVE DESCRIÇÃO DAS FIGURAS
[0025] A descrição que se segue não se limita aos desenhos ou componentes citados, tendo como referência as seguintes ilustrações referenciadas abaixo.
[0026] A Figura 1 apresenta uma imagem representativa de identificação das diversas regiões de um contorno labial.
[0027] A Figura 2 apresenta um gráfico das frequências captadas pelos cones no olho humano.
[0028] A Figura 3 apresenta um gráfico com a representação do espaço de cor RGB.
[0029] A Figura 4 apresenta um gráfico de comparação de três espaços de cores (Lab, RGB e CMYK) .
[0030] A Figura 5 apresenta uma imagem de representação do espaço de cor Lab.
[0031] A Figura 6 apresenta uma imagem de representação do espaço de cor HSV.
[0032] A Figura 7 apresenta uma imagem de comparação espacial dos espaços de cores YCbCr e o espaço RGB.
[0033] A Figura 8 apresenta uma detecção de ob j etos/elementos na imagem e seus respectivos bounding boxes em vermelho, verde e azul.
[0034] A Figura 9 apresenta um reconhecimento de obj etos/elementos na imagem e seus respectivos rótulos.
[0035] A Figura 10 apresenta uma segmentação de obj etos/elementos na imagem e suas respectivas máscaras em vermelho, verde e azul.
[0036] A Figura 11 apresenta um diagrama do processo de treinamento em aprendizagem de máquina.
[0037] A Figura 12 apresenta um diagrama do processo de treinamento em aprendizagem profunda.
[0038] As Figuras 13A, 13B e 13C apresentam exemplos de imagens adquiridas usando câmera infravermelha do Leap Motion .
[0039] A Figura 14 apresenta imagens de alta resolução obtidas por uma câmera webcam modificada para ter a menor configuração de foco possível e capaz de capturar imagens em full HD.
[0040] As Figuras 15A, 15B, 15C e 15D apresentam a utilização de imagens de microscopia.
[0041] A Figura 16 apresenta imagens de alta definição das curvas e desenho dos lábios na aplicação do pigmento de batom proposta pela presente invenção.
[0042] A Figura 17 apresenta exemplos de imagens do dataset SCface - Surveillance Cameras Face Database composta por imagens da face capturadas por câmeras distintas, uma RGB e outra infravermelha.
[0043] As Figuras 18A e 18B apresentam resultados de predição de contornos da U-Net.
[0044] A Figura 19 apresenta um diagrama do processo de treino e teste da rede U-Net utilizado para segmentação da boca .
[0045] A Figura 20 apresenta resultados da rede U-Net para a predição dos contornos da boca.
[0046] A Figura 21 apresenta uma imagem utilizada por uma ferramenta de rotulação de imagens de treinamento.
[0047] A Figura 22 apresenta um diagrama do processo de treino e teste aplicados para a rede U-Net com variações da máscara de predição.
[0048] A Figura 23 apresenta exemplos de resultados para as diferentes máscaras utilizando a rede U-Net.
[0049] A Figura 24 apresenta exemplos de resultados da rede U-Net com a máscara de contorno labial mais espessa.
[0050] As Figuras 25A e 25B representam a detecção de objetos e a segmentação dos mesmos objetos com as respectivas máscaras .
[0051] As Figuras 26A à 26F apresentam exemplos de como é feita a base de imagens para treinamento utilizando apenas partes dos lábios.
[0052] A Figura 27 apresenta um diagrama do fluxo de execução do treinamento e teste na realização da segmentação da região dos lábios em um primeiro cenário de acordo com a presente invenção.
[0053] A Figura 28 apresenta um diagrama do fluxo de execução do treinamento e teste na realização da segmentação da região dos lábios em um segundo cenário de acordo com a presente invenção.
[0054] A Figura 29 apresenta um diagrama do fluxo de execução do treinamento e teste na realização da segmentação da região dos lábios em um terceiro cenário de acordo com a presente invenção.
[0055] A Figura 30 apresenta imagens de resultados satisfatórios do processo de segmentação dos lábios de acordo com o primeiro cenário.
[0056] A Figura 31 apresenta imagens de resultados satisfatórios do processo de segmentação dos lábios de acordo com o segundo cenário.
[0057] A Figura 32 apresenta imagens de resultados satisfatórios do processo de segmentação dos lábios de acordo com o terceiro cenário.
[0058] A Figura 33 apresenta imagens de resultados insatisfatórios do processo de segmentação dos lábios de acordo com o terceiro cenário.
[0059] A Figura 34 ilustra um espaço de cor de uma imagem digital (RGB) e o agrupamento realizado.
[0060] As Figuras 35A e 35B apresentam imagens resultantes da aplicação do método de superpixel sobre uma imagem digital e a resultante da clusterização por cor.
[0061] As Figuras 36A a 36E apresentam imagens de zoneamento por superpixel apl içado em borda de lábio sem pigmento .
[0062] As Figuras 37A à 37E apresentam imagens de zoneamento por superpixel apl içado em borda de lábio com pigmento .
[0063] As Figuras 38A à 38E apresentam imagens de zoneamento por superpixel apl içado em borda de lábio sem pigmento .
[0064] As Figuras 39A à 39C apresentam imagens de zoneamento por superpixel aplicado em borda de lábio sem pigmento no espaço HSV .
[ 0065 ] As Figuras 40A à 40C apresentam imagens de zoneamento por superpixel aplicado em borda de lábio sem pigmento no espaço HSV e em RGB .
[ 0066 ] A Figura 41 apresenta um diagrama de fluxo de execução da j unção das bordas de superpixel e Mask R-CNN .
[ 0067 ] A Figura 42 apresenta imagens de resultados satis fatórios do processo de segmentação dos lábios de acordo com a execução da j unção das bordas de superpixel e Mask R- CNN em um primeiro cenário .
[ 0068 ] A Figura 43 apresenta imagens de resultados satis fatórios do processo de segmentação dos lábios de acordo com a execução da j unção das bordas de superpixel e Mask R- CNN em um segundo cenário .
DESCRIÇÃO DETALHADA
[ 0069 ] A presente invenção se refere a um método de estabelecimento de informações labiais por meio de um módulo de processamento capaz de determinar e suportar um sistema de aplicação de produtos labiais nos lábios com precisão , mais especi ficamente apresenta um método de delimitação labial com etapas que permitam a detecção e a segmentação da região labial .
[ 0070 ] Inicialmente faz-se necessário identi ficar os lábios e separar estes do restante da pele do rosto . Como se trata de um processo que visa a aplicação posterior de produtos labiais nos lábios com precisão , é necessário ter informações da forma e do contorno da boca, sendo isto um dos fatores determinantes para a aplicação precisa do batom .
[ 0071 ] A principal motivação que propicia o processo de estabelecimento de informações labiais da presente invenção se refere a aplicação de tecnologia em hardware com relação a um sistema inteligente de aplicação de produtos labiais nos lábios com precisão por meio de etapas de processamento necessárias para distinguir com precisão o limite entre as áreas da derme facial e labial.
[0072] Partindo da análise de conceitos e definições para a viabilidade de um processo de estabelecimento de informações labiais que consiga cumprir com o desafio de aplicar produtos labiais por meio de um sistema inteligente de aplicação de produtos labiais nos lábios com precisão, algumas definições e conceitos são aqui previamente estabelecidos .
[0073] Existem três áreas anatômicas reconhecidas nos lábios, como relata a introdução do artigo Bindal, U. et al (Bindal, U., Shajan, K. , Mitra, N. K. , & Priydarshni, B. (2015) . Morphological Analysis of Vermilion Border and its Forensic Applications. J Dentistry Oral Medicine, 3 (1) , 21- 28) : pele externa, vertente livre (área vermelha, externa a boca, que é considerada uma semi mucosa) e vertente interna (mucosa oral) . No que se refere à borda labial, se apresenta como sendo a fronteira da epiderme que separa a pele externa, altamente queratinizada, da vertente livre que é menos queratinizada, enquanto os lábios, se apresentam como sendo a vertente livre.
[0074] A pele do rosto é mais espessa (dezesseis camadas celulares) do que a pele dos lábios (três a cinco camadas celulares) que são compostos inteiramente por tecidos moles e assim possuem os vasos sanguíneos mais próximos à superfície. Ademais, a pele dos lábios por não possuir foliculos pilosos e glândulas sudoríparas e sebáceas, não possui a camada de proteção usual de suor e óleos corporais que mantêm a pele suave, inibem patógenos e regulam o calor. Por esse motivo, os lábios secam mais rápido e ficam mais rachados.
[0075] Ainda em relação à região labial, a Figura 1 ilustra a denominação das diversas partes de uma imagem relacionadas à definição do contorno labial (1) , tais como linhas periorais (2) , filtro e arco do cupido (3) , comissura labial (4) e proporção/equilíbrio (5) .
[0076] As técnicas para reconhecimento labial usuais possuem problemas relacionados à precisão para identificação da borda que define o limite dos lábios, consequentemente carecem de melhor definição da área de aplicação do pigmento de um produto labial. A borda labial não é uma fronteira bem definida e além de possuir uma variação não linear de tonalidade, pode possuir assimetrias no traçado. Então é necessário entender como os usuários de produtos labiais definem essa borda.
[0077] Normalmente os usuários costumam utilizar produtos de pigmentação nos lábios seguindo o desenho da sua borda labial. Muitas vezes essa aplicação costuma ultrapassar de forma sutil a borda labial em certos pontos. Mas isso não compromete a qualidade da aplicação do pigmento, ao contrário, parece ser necessário para criar um aspecto mais simétrico e perfeito dos lábios.
[0078] Uma classe de produtos labiais, os batons, podem ser usados para obtenção do efeito de aumento dos lábios. Baseando-se na ideia de aplicar o produto além da borda dos lábios, pigmentando parte da pele próxima. A definição de onde será essa nova borda labial, parte de questões estéticas para o desenho de uma boca bem delineada.
[0079] No que se refere a identificação de espaços de cor, as cores visiveis pelo sistema visual humano, são conhecidas por estarem dentro de um espectro de luz, onde ao variar a frequência da luz observamos uma variação da cor. O olho humano por sua vez, é composto por diversas estruturas que o permitem focalizar, alterar a intensidade de luz e identificar essas frequências de luz visivel. Sendo que o processo de captura desta luz é feito por células denominadas cones, já a captura de luminosidade (claro ou escuro) é feito por células denominadas bastonetes. O olho humano é composto, em sua maioria, por três tipos de cones, os cones de baixa frequência que são mais sensíveis a frequências de luz azul, de média frequência que são mais sensíveis a frequências de luz verde e os cones de alta frequência que são mais sensíveis a frequências de luz vermelha. O fato de um tipo de cone ser mais sensível a uma frequência do que outras, não significa que ele não consiga captar essas outras frequências, desta forma existe uma intersecção nas frequências captadas, o que permite ao olho humano, em geral, observar todo o espectro de luz visivel, essa intersecção pode ser observada na Figura 2 .
[0080] Considerando essas frequências visiveis, diversos modelos matemáticos foram desenvolvidos ao longo do tempo para representar essa variação de cores, estes modelos são chamados em processamento de imagens de espaços de cores. O espaço de cor mais conhecido e mais utilizado é o RGB. Este espaço é representado por um cubo onde as cores variam nos eixos, sendo o ponto de origem (0,0,0) a representação da cor preta e seu extremo oposto o ponto final (255,255,255) a representação da cor branca, sendo cada eixo representando as cores R - vermelho, G - verde e B - azul, como ilustra a Figura 3.
[0081] Esse espaço é extremamente utilizado em equipamentos de captura e de reprodução de imagens como: câmeras fotográficas, monitores, televisores, projetores, entre outros. Apesar deste modelo representar uma grande quantidade de cores e intensidades, o mesmo não consegue representar todas as cores visíveis pelo olho humano, nem permite um controle mais sutil de informações como luminosidade, saturação e transparência, como é possivel observar na comparação entre o espaço de cor Lab (6) , o espaço de cor RGB (7) e o espaço de cor CMYK (8) apresentados na Figura 4.
[0082] O espaço de cor Lab ou CieLab é considerado o espaço de cor que mais se aproxima da quantidade de cores visiveis, tanto em quantidade de cores, quanto na intensidade luminosa. Esse espaço de cor consiste em três eixos, assim como no RGB, porém ao invés de ter um ponto inicial (0,0,0) este espaço tem coordenadas que variam dentro de um espectro, sendo o L a luminância normalmente variando de 0 até 100 ou do preto até o branco, o A e o B variando de -128 a +128 o que respectivamente significa que variam do verde até o vermelho e do azul até o amarelo, como mostra a Figura 5. A grande vantagem desse espaço em relação ao RGB, além da possibilidade de se ter uma quantidade maior de cores representadas é a possibilidade de se trabalhar com o canal da luminância (L) de forma separada, podendo assim modificar algumas características da imagem sem modificar a informação de cor da imagem. [0083] Outro espaço de cor muito utilizado em processamento de imagens é o HSV - Hue, Saturation, Value. Este espaço de cor é representado no espaço como um cilindro, conforme visto na Figura 6, onde a saturação (S) é o raio, o valor (V) é a altura e o espectro de cor (H) é o perímetro, desta forma o branco é representado pela parte central do topo do cilindro, enquanto o preto é representado pela base do cilindro. Esse espaço de cor é muito utilizado em aplicações que envolvem operações com a pele humana, já que ele permite de forma fácil, identificar diferenças sutis de tonalidades, além de separar a informação cor, das outras e assim como o espaço de cor Lab, permite realizar operações nos canais, sem perder a informação de cor.
[0084] Por fim, outro espaço de cor utilizado ao longo desse projeto é o espaço de cor YCbCr onde o Y é a luminância, enquanto o Cb e o Cr são respectivamente a diferença de azul e a diferença de vermelho. A representação desse espaço de cor é um cubo, assim como o espaço de cor RGB, e pode ser considerado uma extensão do espaço de cor RGB, contudo esse espaço de cor contém uma faixa de cores muito maior que a faixa de cores do espaço de cor RGB, e por possuir uma separação de canais, onde o Y é a luminância, permite uma quantidade distinta de operações. A Figura 7 mostra a comparação espacial entre os espaços de cores YCbCr (cubo externo) e o RGB (cubo interno) .
[0085] A importância de se processar as imagens em espaços distintos está diretamente relacionada com as diferentes operações matemáticas que cada espaço permite. Desta forma uma informação que em um espaço de cor é misturado com outras informações, em outro espaço essa informação está independente, permitindo ajustes e calibrações especificas.
[0086] No que se refere à detecção, segmentação e reconhecimento de objetos em imagens digitais, a visão computacional é o campo da computação que estuda maneiras de extrair informações dos objetos de uma imagem. Atua juntamente com o processamento digital de imagens, analisando imagens para obter um resultado próximo do olhar humano. Em outras palavras, a visão computacional é o processo de modelagem e replicação da visão humana utilizando recursos de hardware implementados por programa computacional, compreendendo uma cena 3D a partir de imagens 2D em termos das propriedades das estruturas presentes na cena. O reconhecimento de objetos é uma das principais funções ligadas à visão computacional e está intimamente ligado ao reconhecimento de padrões. Um objeto pode ser definido por seus padrões de textura, cor, forma, dimensão, entre outros, e o reconhecimento individual destes padrões podem caracterizar um objeto como um todo, ou seja, ser definido como uma classe. Uma classe de padrões é uma familia de padrões que compartilham entre si propriedades em comum.
[0087] O reconhecimento de padrões por equipamentos envolve técnicas de atribuição de padrões às suas respectivas classes de forma automática e com a menor intervenção humana possível, um exemplo disto é a utilização de algoritmos de aprendizagem de máquina para a classificação de objetos. Ao extrair informações de uma imagem, é necessário analisar tais propriedades com o auxilio dos algoritmos de aprendizado de máquina, estimando um padrão dado um novo exemplo, a partir do aprendizado previamente adquirido. Entretanto o aprendizado de máquina sofre limitações, pois ao determinar a qual classe um objeto pertence é necessário a extração da melhor representação possível, e isso envolve um trabalho cauteloso nas áreas de engenharia.
[0088] Em visão computacional existem técnicas para a detecção e a segmentação de objetos na imagem. A detecção de objetos, por sua vez, consiste em localizar os objetos de interesse presentes na imagem e após essa localização, para cada objeto é construído um bounding box (que consiste em uma caixa retangular que pode ser determinada pelas coordenadas dos eixos x e y no canto superior esquerdo e inferior direito do retângulo) correspondendo à localização daquele objeto na imagem, tal como representado na Figura 8. Porém, o bounding box apenas informa que há um elemento naquela região, mas não fornece nenhum tipo de informação adicional como forma, contorno e a identificação do objeto.
[0089] O reconhecimento é uma etapa que consiste na identificação dos objetos sempre posterior à etapa de detecção. Um dos requisitos desta etapa é a informação do objeto, ou seja, a região da imagem onde encontra-se o objeto que o sistema deverá analisar para realizar o processo de reconhecimento utilizando um modelo de aprendizagem de máquina previamente treinado. A Figura 9 exemplifica a detecção e a identificação dos objetos da imagem de acordo com seus respectivos rótulos (gato e cachorro) .
[0090] Por fim, a segmentação consiste em criar uma máscara para cada objeto presente na imagem, de forma a particionar a imagem em segmentos relevantes. Essas máscaras fornecem informações mais granulares sobre o objeto como localização, topografia e a forma. A Figura 10, representa a segmentação de três objetos distintos por meio de suas respectivas máscaras (em vermelho, verde e azul) .
[0091] No que se refere a Aprendizagem de Máquina (Machine Learning) , é uma subárea da Inteligência Artificial (IA) que consiste na criação de modelos que são capazes de identificar padrões matemáticos gerando saldas baseadas nas informações de entrada. Para o modelo ser capaz de identificar um padrão matemático, é necessário que esse sistema seja treinado previamente com inúmeros exemplos de dados e suas respectivas respostas (rótulos, que representam valores verdadeiros e falsos que um modelo deve aprender e predizer)
[0092] No processo de treinamento, conforme apresentado no diagrama da Figura 11, a partir das informações de entrada, algumas características serão extraídas e em seguida, juntamente com seus rótulos, são submetidas ao processo de treinamento do modelo. Ao final do processo de treinamento, o modelo gerado fornecerá uma saida capaz de identificar o rótulo de um objeto.
[0093] Por sua vez, a Aprendizagem Profunda (Deep
Learning) é uma sub área da Aprendizagem de Máquina. A principal diferença entre as técnicas de Aprendizagem de Máquina e as baseadas em Aprendizagem Profunda é a complexidade dos algoritmos, tanto nos modelos matemáticos utilizados quanto no número de etapas adicionais presentes neste modelo. Essas etapas adicionais e mais complexas permitem que o modelo consiga generalizar as informações, conseguindo extrair características e detalhes dos dados de entrada. Uma desvantagem da abordagem que utiliza a Aprendizagem Profunda é a necessidade de uma quantidade ainda maior de dados de entrada, bem como uma variação desses dados. Um algoritmo de Aprendizagem de Máquina consegue convergir utilizando centenas de dados de entrada, enquanto algoritmos de Aprendizagem Profunda necessitam de milhares de imagens para terem resultados significativos.
[0094] A Figura 12 representa de forma geral as etapas presentes em processos que utilizam a Aprendizagem Profunda, compreendendo a entrada, extração de características com treinamento de modelo e saida.
[0095] Baseado nos estudos divulgados pelo estado da técnica e nos dispositivos relacionados com aplicação de produtos na pele, foram feitos os testes das linhas de pesquisa que determinam o processo de detecção e reconhecimento de imagens labiais precisas, por meio do uso de inteligência artificial de acordo com a presente invenção. [0096] A utilização de câmeras de infravermelho para o reconhecimento facial é uma abordagem válida, uma vez que esta é mais robusta a mudanças de iluminação e não depende da cor. Parte-se do pressuposto que existe uma diferença de volume entre os lábios e o entorno da boca.
[0097] Algumas abordagens testadas atualmente utilizam um dispositivo de infravermelho disponível, por exemplo Leap Motion, também sendo conhecido uma abordagem de câmeras infravermelho utilizando o Kinect da Microsoft.
[0098] O Leap Motion é um dispositivo que consiste em um sensor infravermelho desenvolvido e calibrado para captar e identificar os movimentos das mãos permitindo a interação humano-máquina através de gestos. Desta forma, quando o equipamento detecta a mão, a intensidade da luz infravermelha é ajustada e é possível visualizar claramente os lábios, conforme visto na Figura 13A. Em comparação, em uma situação em que o equipamento não consegue detectar a mão, a intensidade da luz infravermelha é mantida na intensidade máxima e isso torna dificil identificar os lábios, como pode ser visto na Figura 13B e na Figura 13C.
[0099] O fato de ser possível visualizar os lábios em uma imagem infravermelha, permite considerar, que a abordagem pode auxiliar na detecção dos lábios bem como uma possivel definição de borda dos lábios.
[00100] Existem diferentes abordagens para a detecção e segmentação dos lábios em imagens RGB. Essas abordagens podem se basear: em padrões de textura (uma vez que a textura da boca difere da textura ao redor) ; predição de pontos chave (Key Points) que representam as principais características do contorno dos lábios; utilização de reconhecimento de padrões, onde um modelo é treinado para identificar e segmentar a parte de interesse da imagem; segmentação por cor, uma vez que existe uma diferença na tonalidade entre a pele dos lábios e do entorno. Na utilização de pontos chave para representar os principais pontos/caracteristicas do rosto, alguns pontos não são precisos em relação às bordas dos lábios, porém, isso é algo ajustável com o objetivo de se obter maior precisão e também compensado pelo uso de outras técnicas .
[00101] Imagens de alta resolução são imagens com alta quantidade de pixels, ou seja, permitem ver detalhes minimos das imagens sem perda de qualidade mesmo com aumento do nivel de zoom da imagem. Estas imagens permitem a visualização mais precisa de características da pele e da mucosa, tais como: linhas de expressão, digitais e relevos. [00102] Atualmente, a aquisição de imagens de alta resolução é cada vez mais comum, uma vez que as câmeras capazes de adquirir esse tipo de imagem estão se popularizando e sendo encontradas em celulares, webcams e câmeras fotográficas.
[00103] A câmera Logitech C920 é um exemplo de webcam capaz de capturar imagens em full HD. Uma das vantagens desta câmera é a quantidade de configurações via software disponíveis como: foco, brilho, modo noturno, entre outras. A Figura 14 apresenta algumas imagens capturadas com este modelo de câmera, modificada para ter a menor configuração de foco possivel (cerca de 2 cm da lente) .
[00104] A utilização de imagens de microscopia simples (Figuras 15A a 15D) permite a visualização de características mais precisas da pele e da mucosa labial tais como linhas de expressão, digitais e tubérculos. Para a captura de imagens com alta resolução é necessário a utilização de lentes que permitam a aproximação desejada em relação ao objeto a ser capturado por uma câmera (podendo ser de captura RGB ou não) . As Figuras 15A, 15B, 15C e 15D mostram exemplos de imagem de alta resolução, capturadas utilizando uma lente especial. A Figura 15A trata-se de uma foto da pele ao redor dos lábios e a Figura 15B uma imagem da região dos lábios. Ambas as imagens possuem um aumento de 60x. Por sua vez, a Figura 15C e 15D são, respectivamente, fotos da pele ao redor dos lábios e do lábio, ambas com 100x de aumento.
[00105] Normalmente ao passar produtos labiais os usuários podem definir o limite do produto como sendo apenas na área dos lábios ou passando para a região da pele ao redor. Uma boa definição das curvas e do desenho do pigmento na pele, parece ser mais importante para os usuários do que a fixação do produto apenas na área dos lábios, conforme visto na Figura 16, que apresenta imagens de alta definição das curvas do desenho do lábio na aplicação do batom.
[00106] No desenvolvimento da presente invenção algumas considerações anteriores são aprofundadas e detalhadas. Outras abordagens são apresentadas de uma forma mais aprofundada. Para o aprofundamento dessas abordagens são realizados testes detalhados e elaboradas provas de conceito, que avaliam a viabilidade da abordagem.
[00107] A abordagem utilizando imagens em infravermelho levantada anteriormente consiste na captura de imagens em uma frequência de luz não visivel (infravermelha) , os benefícios desta abordagem envolvem principalmente a não interferência a luz visivel, sendo assim mais fácil de se identificar um objeto no escuro ou sobre luz direta.
[00108] Como mencionado anteriormente, o Leap Motion é um dispositivo desenvolvido para o rastreio das mãos e identificação de gestos, utilizando sensores de infravermelho. Este equipamento tem um desempenho muito bom para o rastreio das mãos, contudo algumas limitações em seu programa computacional embarcado não permitem a utilização dele como um dispositivo de captura de imagens infravermelhas, estas limitações englobam o acesso às imagens capturadas, o controle de luminosidade dos LEDs infravermelhos e a compatibilidade com linguagem e sistema operacional .
[00109] Para determinação do processo da presente invenção são consideradas bases de imagens em infravermelho, incluindo bases com imagens da face em diferentes distâncias e posições, e bases com videos em infravermelho e visão noturna, sendo escolhida ao menos uma base para os testes dos algoritmos e validação de aplicação. Dentre as bases encontradas para testes e resultados apresentados a seguir, é escolhida, por exemplo, a base SCface -Surveillance Cameras Face Database, sendo esta base composta por imagens da face em vários ângulos e capturadas por câmeras distintas, uma RGB e outra infravermelha. Um exemplo das imagens dessa base é apresentado na Figura 17.
[00110] No que se refere ao reconhecimento de padrões em imagens em infravermelho, pode ser feito utilizando diversas abordagens (modelos e técnicas) que podem ser aplicadas separadas ou combinadas. Entre essas abordagens, é escolhida a utilização de um modelo de predição de contornos, tal como a U-Net, divulgada pela publicação de Long, J. et al (Long, J., Shelhamer, E., Darrell, T. (2014) . "Fully convolutional networks for semantic segmentation. In Computer Vision and Pattern Recognition) . A U-Net e uma rede convolucional (CNN) desenvolvida para segmentação de imagens biomédicas e é principalmente utilizada para a segmentação de células em lâminas microscópicas, permitindo por exemplo a contagem das células. Esta rede é denominada fully convolutional e sua arquitetura é representada em um formato de "U" .
[00111] Desta forma a rede recebe como entrada durante o processo de treinamento a imagem original em escala de cinza e uma máscara, ao longo do processamento da rede ela irá fazer o encoder e o decoder das imagens, gerando assim a máscara predita e ao fim do treinamento um modelo matemático capaz de predizer máscaras do objeto usado no treinamento. Já durante o teste e uso do modelo gerado, apenas a imagem original em escala de cinza é utilizada como entrada, e a saida do modelo é uma máscara de segmentação. As Figuras 18A e 18B apresentam um resultado original dessa rede, sendo que a imagem 18A representa a imagem de entrada para a predição e a imagem 18B apresenta os contornos de segmentação preditos pela rede.
[00112] Apesar da U-Net ser uma rede focada em imagens biomédicas, sua capacidade de identificar detalhes da imagem para utilizar na segmentação permite que essa rede seja utilizada em outras áreas. No contexto da presente invenção, considera-se que essa rede interpreta as informações de distância contidas nas imagens em infravermelho. Para fazer este teste, as etapas adotadas são apresentadas no diagrama da Figura 19, onde o dataset de imagens biomédicas (9) e suas respectivas máscaras (10) , contendo 30 imagens, são utilizadas para o treinamento da rede (11) gerando assim um modelo de predição de máscaras (12) .
[00113] Uma vez a rede treinada e um modelo preditivo criado, é utilizado um algoritmo haar cascade (14) para recortar as áreas de interesse da base de imagens em infravermelho (13) , obtendo assim uma nova base (15) contendo, por exemplo 30 imagens para teste, sendo estas imagens são passadas para o modelo (16) que prediz as máscaras ( 17 ) .
[00114] A Figura 20 apresenta alguns resultados de máscara preditos pela U-Net seguindo o processo e as observações apresentadas anteriormente, sendo na primeira coluna imagens de entrada para a rede (descrita no diagrama pela etapa (15) ) e na segunda coluna a saida da rede (descrita no diagrama pela etapa ( 17 ) ) . [00115] Ao observar os resultados podemos concluir que a rede consegue descrever uma máscara válida para algumas das imagens de entrada. É possível observar que nas imagens 2, 3, 6 e 7 os contornos são ressaltados, sendo que na imagem 6 existe uma predominância da barba na máscara e na imagem 7, que não contêm a boca, mas apenas o queixo do usuário, a rede conseguiu delinear perfeitamente o contorno do rosto. Em contrapartida nas imagens 1, 4 e 5 a rede não consegue gerar uma máscara.
[00116] A utilização de imagens coloridas RGB para a detecção e segmentação de objetos é uma metodologia tendo diversos algoritmos, modelos matemáticos e técnicas de aprimoramento desenvolvidas com esse foco. Neste sentido são apresentadas algumas técnicas escolhidas, bem como os procedimentos de cada uma e seus resultados para a segmentação de boca e lábios.
[00117] Inicialmente, antes mesmo de realizar o treinamento de qualquer técnica de segmentação utilizando reconhecimento de padrões, é necessário rotular as imagens da base de treinamento, por exemplo, como apresentado na Figura 21. Esse processo tem a finalidade de, em linhas gerais, "mostrar" aos algoritmos de reconhecimento de padrões o que é lábio e que é isso que ele deve "aprender" para realizar a segmentação.
[00118] A rede U-Net descrita anteriormente para reconhecimento de padrões em imagens em infravermelho também pode ser utilizada para imagens RGB. Para isso existem duas abordagens iniciais. A primeira trata de uma modificação na arquitetura da rede, permitindo que ela reconheça imagens com três canais (RGB) . Já a segunda consiste na conversão da imagem de entrada em uma imagem escala de cinza. A abordagem escolhida é a de converter a imagem em escala de cinza, desta forma é possível obter os resultados dos testes de uma forma mais rápida.
[00119] Utilizando o dataset de imagens marcadas apresentado anteriormente sobre a marcação das imagens (ground truth) os testes realizados com a U-Net seguem a seguinte sequência de etapas:
- conversão das imagens de RGB para escala de cinza;
- conversão das marcações para máscaras de segmentação;
- treino da rede e criação do modelo e
- teste do modelo.
[00120] Uma vez que a U-Net é sensível à máscara de entrada durante o treinamento, diferentes formas de se criar as máscaras são testadas, sendo que para cada teste, a sequência descrita acima é refeita. A Figura 22 a seguir, mostra esse processo, sendo o passo (18) a imagem em escala de cinza, o passo (19) exemplos de diferentes versões de máscara criados, o passo (20) os modelos gerados para cada máscara, o passo (21) a imagem de entrada para o modelo predizer a máscara e o passo (22) as diferentes respostas de cada modelo para cada máscara .
[00121] Deste modo, para cada máscara é obtido um modelo distinto e assim uma predição de máscara diferente, as máscaras são variadas com relação à espessura da linha de marcação, inversão da área de interesse (representado nas máscaras pela região preta) e pela área de interesse. Exemplos destes diferentes testes podem ser observados na Figura 23 de resultados.
[00122] Como é possível observar na tabela de resultados, a máscara que permite uma melhor convergência do modelo, e assim uma melhor predição da máscara, foi a máscara de borda de lábios com a linha de contorno mais espessa (line = 10) apresentada nas linhas 3 e 6 da Figura 23 de resultados.
[00123] A Figura 24 apresenta outros resultados para esse modelo, sendo as imagens da esquerda as originais em escala de cinza e as imagens da direita a predição feita pelo modelo .
[00124] Observando os resultados da Figura 24, pode-se verificar que mesmo a rede não trabalhando com imagens coloridas, ou seja sem a informação de cor, ela consegue mensurar o contorno da boca com certa precisão. Uma vez que identificamos que a informação de cor é extremamente relevante para a delimitação dos lábios, juntamente com as informações de textura usados por essa rede, a modificação da rede para utilizar as informações de cores das imagens RGB, juntamente com uma dataset maior, de acordo com a presente invenção, pode fazer com que a rede consiga ter um resultado melhor, permitindo que seu resultado seja usado por outras redes ou técnicas para a delimitação do contorno.
[00125] Como já mencionado anteriormente sobre a detecção, segmentação e reconhecimento de objetos em imagens digitais, há diferenças entre o processo de detecção de objetos em uma imagem e a segmentação de objetos em uma imagem. O processo de detecção de objetos em uma imagem consiste em fornecer as coordenadas dos Bounding Boxes (retângulos coloridos da Figura 25A) que são desenhados ao redor de cada objeto presente na imagem. Essas coordenadas são utilizadas para sinalizar a localização de cada objeto na imagem. Porém, esse processo de detecção de objetos não fornece nenhuma informação adicional além da localização dos objetos. Já o processo de segmentação de objetos em uma imagem, inicialmente realiza o processo de detecção para localizar os objetos na imagem para depois segmentar os objetos. Na etapa de segmentação é criada uma máscara (Figura 25B) para cada objeto, a qual, fornece não só a localização dos objetos na imagem, como também informações de contorno, forma e também torna possível separar os objetos da imagem como todo, permitindo o processamento dos objetos de forma isolada.
[00126] Para o contexto do processo da presente invenção, inicialmente faz-se necessário identificar os lábios e separar estes do restante da pele do rosto. Como se trata de um processo de delimitação labial com etapas que permitam a detecção e a segmentação da região labial visando determinar e suportar um sistema inteligente de aplicação de produtos labiais nos lábios com alta precisão, não basta apenas detectar a boca, é necessário ter informações da forma e do contorno da boca, pois, isso será um dos fatores determinantes para a aplicação precisa do produto labial, tal como batom.
[00127] Tratando-se de alternativas em modos de execução, a técnica de reconhecimento de padrões se destaca entre as técnicas de detecção de objetos. A técnica de detecção de objetos Faster R-CNN, proposta no documento Ren, S., He et al (Ren, S., He, K. , Girshick, R., & Sun, J. (2015) . Faster r- cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems (pp. 91-99) propicia bons resultados na detecção dos mais variados objetos.
[00128] No sentido de não apenas detectar os lábios, sendo preciso também segmentá-los, a arquitetura Mask R-CNN é uma técnica bastante referenciada e utilizada na área de Reconhecimento de Padrões no que diz respeito à segmentação de objetos. O Mask R-CNN é um método de segmentação de objetos que consiste em uma extensão da técnica abordada no Faster R-CNN. O Mask R-CNN, inicialmente, necessita realizar a detecção dos objetos presentes na imagem para em seguida realizar a segmentação de tais objetos. Então, em um primeiro momento a arquitetura da rede do Faster R-CNN é utilizada para realizar a detecção dos objetos fornecendo as coordenadas e, consequentemente, a localização de cada objeto na imagem, e após isso com a informação da detecção, de forma paralela, é feita a segmentação dos objetos através da criação de máscaras.
[00129] Tanto o Faster R-CNN como o Mask R-CNN são abordagens utilizadas para realizar a detecção e segmentação, respectivamente, dos mais variados objetos. Alguns ajustes e adaptações são realizadas no Mask R-CNN para atender ao contexto da presente invenção.
[00130] Tais ajustes e adaptações consistem em treinar e testar os algoritmos do Mask R-CNN com imagens dos lábios ou partes dos lábios, conforme visto nas Figuras 26A à 26F, e não de vários objetos encontrados no dia a dia como o algoritmo é usualmente treinado e testado por padrão.
[00131] Alguns testes são realizados utilizando a Mask R- CNN com o objetivo de verificar a viabilidade de utilizar essa técnica para separar a região dos lábios do restante da pele do rosto e o quão precisa é a segmentação realizada por essa abordagem.
[00132] Os testes preliminares que serão mostrados a seguir objetivam treinar o algoritmo do Mask R-CNN com uma base de imagens de treinamento dos lábios ou parte dos lábios. Após o treinamento, será gerado um Modelo de Segmentação, o qual será usado para realizar a segmentação da região dos lábios das imagens de teste contendo a região dos lábios ou parte dos lábios.
[00133] Com o processo de rotular as imagens da base de treinamento concluído, os testes são realizados. Três cenários para os testes são estabelecidos e são descritos a seguir considerando a utilização de imagens da boca completa e de partes da boca da base de treinamento.
[00134] Em um primeiro cenário, conforme visto no diagrama da Figura 27, o objetivo principal é verificar a viabilidade de se utilizar o Mask R-CNN para segmentar a região dos lábios e o quão precisa é a segmentação realizada pela técnica, visto que esta é utilizada para realizar a segmentação de objetos variados presentes no dia-a-dia e no caso da presente invenção há um tipo especifico de segmentação que deverá ser realizada e com precisão, os lábios. Neste primeiro cenário são considerados os seguintes parâmetros : a) base de imagens de treinamento:
- número de imagens: 110 imagens
- contexto das imagens: boca completa e sem batom b) base de imagens de teste:
- número de imagens: 94 imagens
- contexto das imagens: boca completa e sem batom
[00135] Em um segundo cenário, conforme visto no diagrama da Figura 28, o objetivo é avaliar a capacidade do modelo de segmentação de aprender a diferenciar a pele dos lábios da pele do rosto sem possuir o contexto da boca por completo, visto que há a possibilidade de ser necessário o dispositivo final estar muito próximo dos lábios não tendo o contexto completo da boca na aquisição das imagens no momento da aplicação do batom . Esse aprendi zado ocorre em sua maior parte pelas características estruturais e de textura da pele dos lábios . Neste segundo cenário são considerados os seguintes parâmetros : a ) base de imagens de treinamento :
- número de imagens : 120 imagens
- contexto das imagens : parte dos lábios e sem batom b ) base de imagens de teste
- número de imagens : 92 imagens
- contexto das imagens : parte dos lábios
[ 00136 ] Em um terceiro cenário , conforme visto no diagrama da Figura 29 , o obj etivo principal é avaliar a capacidade de generali zação do modelo de segmentação . O treinamento do algoritmo é reali zado utili zando a base de imagens com partes dos lábios e o teste é feito utili zando imagens contendo a boca completa . Avalia-se a capacidade do modelo de segmentação em ter sido treinado com partes dos lábios e conseguir generali zar a segmentação para a boca completa e não apenas para partes dos lábios . Treinar o algoritmo com apenas partes dos lábios , apesar de não ter o contexto completo da boca, favorece a uma maior extração das características estruturais dos lábios devido ao zoom que é dado no momento da aquisição da imagem . Neste terceiro cenário são considerados os seguintes parâmetros : a ) base de imagens de treinamento :
- número de imagens : 120 imagens
- contexto das imagens : parte dos lábios e sem batom b ) base de imagens de teste :
- número de imagens : 94 imagens
- contexto das imagens : boca completa
[ 00137 ] A seguir são apresentados os resultados decorrentes dos treinamentos e testes citados nos cenários acima .
[ 00138 ] No primeiro cenário , no qual o algoritmo foi treinado com imagens da boca completa e testado com imagens também da boca completa, a acurácia obtida foi de 70% , ou sej a, a região dos lábios foi segmentada corretamente em 70% das imagens de teste . I sso mostra a viabilidade de utili zar o Mask R-CNN como parte da solução da presente invenção . Conforme visto na Figura 30 , são apresentados alguns dos resultados do processo de segmentação dos lábios considerados satis fatórios através da avaliação de um especialista .
[ 00139 ] No segundo cenário , no qual o algoritmo é treinado com imagens de partes dos lábios e testado com imagens também de partes dos lábios , a acurácia obtida foi de 47 % , ou sej a, a região dos lábios foi segmentada corretamente em 47 % das imagens de teste . O obj etivo deste teste é veri ficar se o modelo de segmentação conseguiria segmentar corretamente as regiões correspondentes aos lábios sem haver o contexto da boca completa na imagem, visto que o dispositivo final pode exigir uma distância muito próxima dos lábios para aquisição das imagens e não obter o contexto completo da boca . Através destes resultados observa-se que apesar de a acurácia ter sido menor, se comparada com a acurácia obtida no primeiro cenário , o modelo conseguiu segmentar as regiões referentes aos lábios em imagens sem o contexto da boca completa . Conforme visto na Figura 31 , são apresentados alguns dos resultados considerados satis fatórios do processo de segmentação dos lábios através da avaliação de um especialista .
[ 00140 ] No terceiro cenário , no qual o algoritmo foi treinado com imagens de partes dos lábios e testado com imagens da boca completa, a acurácia obtida é de 3% , ou sej a, a região dos lábios foi segmentada corretamente em 3% das imagens de teste . O obj etivo deste teste é veri ficar a capacidade do modelo de segmentação de generali zar a segmentação dos lábios . Já é esperada que haj a uma queda na acurácia do modelo de segmentação , dado que o algoritmo foi treinado com imagens de partes dos lábios e no teste foi forçado a segmentar a região dos lábios com imagens contendo o contexto da boca completa, as quais , não foram apresentadas ao algoritmo durante o treinamento . O modelo de segmentação foi forçado a sair de um aprendi zado com imagens com representações "micro" (menor contexto ) dos lábios para reali zar a segmentação dos lábios em imagens com uma representação dos lábios "macro" (maior contexto ) . Conforme visto na Figura 32 e na Figura 33 , são apresentados alguns resultados do processo de segmentação dos lábios satis fatórios e insatis fatórios respectivamente .
[ 00141 ] No que se refere à técnica de superpixel , consiste no agrupamento dos pixels de uma imagem com base na similaridade da característica de cor . O método utili za técnicas de processamento de imagens convencionais sem a necessidade de aprendi zagem profunda, como é feito nas abordagens apresentadas anteriormente ( deep learning) . O conceito utili zado para a reali zação do agrupamento dos pixels é o algoritmo de clusterização k-means , que agrupa elementos em dado espaço de características similares , tendo como cálculo base a distância euclidiana entre dois pontos. A técnica de clusterização é utilizada em machine learning para casos em que a aprendizagem é não-supervisionada, ou seja, casos em que os objetos não possuem classes predef inidas . O agrupamento dos objetos no espaço faz com que a determinação do aprendizado seja apontada pelo grupo ao qual ele pertence. [00142] Para melhor exemplificar tal comportamento, a Figura 34 ilustra um espaço de cor de uma imagem digital (RGB) e o agrupamento realizado. É possível perceber que a distribuição das cores dos pixels de uma imagem possui um padrão que pode vir representar objetos na imagem.
[00143] Tal fato pode ser também observado na própria imagem digital, em que o método de superpixel torna possível distinguir os objetos que ela possui. Por exemplo, a imagem da Figura 35A trata-se da imagem real, e a imagem da Figura 35B trata-se da imagem clusterizada . Os elementos que compõem a imagem são segmentados no sentido de que áreas de cores muito próximas são consideradas objetos de uma mesma classe, um exemplo são os objetos relacionados às árvores e às folhagens no plano de fundo que foram classificadas como zona verde na imagem, tal fato serve para os demais elementos como região do campo de rosas e o céu.
[00144] Para análise da segmentação dos elementos nas imagens que tratam-se de pele da face e pele da boca, é utilizado um algoritmo slic, tal como proposto por Achanta, R. et al (Achanta, R., Shaji, A., Smith, K. , Lucchi, A., Fua, P., & Süsstrunk, S. (2010) . Slic superpixels (No. REP_WORK) ) , que realiza a clusterização (agrupamentos) com o método k- means . Os principais parâmetros para a função slic são o número de segmentos, ou seja, o número de clusters que deseja separar dos elementos e a imagem a ser processada. Neste contexto, o algoritmo foi aplicado às imagens recortadas do dataset de lábios, conforme visto nas Figuras 36A à 36E (borda de lábio sem pigmento) , 37A à 37E (borda de lábio com pigmento) , e 38A à 38E (borda de lábio sem pigmento) , o número de segmentos utilizado foi de 30, 20, 10 e 2 (foi considerado esse valor para verificar se o algoritmo delimita a zona labial e a zona da pele) .
[00145] A fim de obter um melhor resultado para a segmentação dos lábios com o número de segmentos definido como 2, algumas transformações acerca do espaço de cor são realizadas, como a mudança da matiz, saturação e valor (espaço HSV - Hue, Saturation, Value) , a fim de tornar os elementos da imagem perceptíveis ao algoritmo de superpixel, em que não houveram separações bem sucedidas. Tal comportamento é apresentado nas imagens das Figuras 39A à 39C, que apresentam imagens de zoneamento por superpixel aplicado em borda de lábio sem pigmento no espaço de cor HSV. A Figura 39A representa uma imagem real, a 39B representa uma imagem em HSV e a Figura 39C representa uma imagem em HSV com superpixel de 2 segmentos.
[00146] Importante notar que no espaço de cor HSV há uma melhora na separação devido ao contraste que a saturação proporcionou à nova imagem por causa da iluminação incidente no lábio, entretanto em alguns casos o espaço de cor RGB mostra melhor desempenho, conforme visto nas Figuras 40A à 40C. A Figura 40A representa uma imagem real, a 40B representa uma imagem real com a máscara de processamento HSV e a Figura 40C representa uma imagem real com a máscara de processamento RGB. [00147] No sentido de melhorar a precisão da segmentação dos lábios, a presente invenção une as duas abordagens, antes testadas separadamente: o Superpixel e a Mask R-CNN.
[00148] A junção inusitada dos métodos de Superpixel e Mask R-CNN de acordo com a presente invenção objetiva utilizar as informações de separação entre os lábios e pele do rosto resultantes da execução da abordagem do Superpixel no treinamento do algoritmo da abordagem da Mask R-CNN. Tais informações de separação dos superpixels são inseridas nas imagens utilizadas no treinamento da Mask R-CNN de acordo com o fluxo de execução apresentado na Figura 41.
[00149] Este fluxo é executado em todas as imagens de partes dos lábios da base de treinamento e todas essas imagens são utilizadas no fluxo de execução inferior (Mask R- CNN - Treinamento) para o treinamento do algoritmo. As imagens de partes dos lábios da base de treinamento foram utilizadas ao invés das imagens da boca completa por possuírem um caráter mais desafiador para o modelo de segmentação, pois não possuem o contexto da boca completa e possuem uma quantidade menor de características a serem aprendidas pelo algoritmo se comparadas com as imagens da boca completa.
[00150] Na Figura 41, em uma primeira etapa de pré- processamento utilizando Superpixel, uma imagem original (23) de entrada do fluxo de execução é submetida à etapa de abordagem da segmentação da imagem por Superpixel com a extração de contornos (24) resultando na imagem com a separação entre lábio e pele do rosto (25) . Ainda nesta primeira etapa de pré-processamento por superpixel ocorre a etapa de extração da máscara (26) referente à imagem com a separação entre lábio e pele do rosto (25) e as informações dessa máscara são inseridas na imagem original (23) .
[00151] Ainda na etapa de extração da máscara (26) , para inserir as informações da máscara na imagem de entrada, primeiro converte-se o espaço de cor da imagem original (23) de RGB para HSV.
[00152] Em seguida, insere-se as informações da máscara no canal de luminância V com o objetivo de exaltar essa separação entre lábio e pele do rosto na imagem RGB final. Após realizar a inserção das informações da máscara no canal de luminância V, a imagem no espaço de cor HSV é convertida para o espaço de cor RGB, resultando na imagem resultante (27) a ser inserida no processo de treinamento utilizando o algoritmo da Mask R-CNN. Com a base de imagens de parte dos lábios de treinamento resultante da etapa de pré- processamento utilizando Superpixel, a etapa de treinamento utilizando o algoritmo da Mask R-CNN é continuada pela etapa de execução do treinamento da técnica de segmentação baseada no reconhecimento de padrões Mask R-CNN (28) e por fim é realizada a obtenção do modelo de segmentação (29) .
[00153] Para os testes realizados seguindo essa estratégia, há dois cenários, sendo que em um primeiro cenário, o objetivo principal é verificar se alguma melhoria significativa é obtida utilizando imagens de partes dos lábios tanto na base de treinamento como na base de testes. A acurácia obtida foi de 23%, ou seja, a região dos lábios foi segmentada corretamente em 23% das imagens de teste, conforme apresentado nas imagens da Figura 42.
[00154] Em um segundo cenário, o objetivo principal é verificar a capacidade do modelo de segmentação de generali zar o conhecimento obtido baseado em uma base de imagens de treinamento de partes dos lábios para imagens de teste com o contexto da boca completa . A acurácia obtida foi de 7 % , ou sej a, a região dos lábios foi segmentada corretamente em 7 % das imagens de teste , conforme apresentado nas imagens da Figura 43 .
[ 00155 ] As diversas etapas dos métodos de processamento aqui apresentados são reali zadas por meio de um módulo de processamento presente em um sistema de aplicação de produtos labiais . Neste módulo de processamento é reali zado todo o processamento necessário para a identi ficação das bordas labiais , após a captura das informações . Na etapa de predição do modelo é o momento em que módulo de processamento define as regiões labiais que devem receber o pigmento pelo sistema de aplicação de produtos labiais . Essas regiões labiais definidas pelo modelo passam por uma etapa de pós- processamento necessária para garantir o formato correto das informações que sej am compatíveis com o sistema de aplicação de produtos labiais . Em seguida, o sistema de aplicação utili za o pigmento e aplica na região labial identi ficada anteriormente .

Claims

45 REIVINDICAÇÕES
1 . "MÉTODO DE DETECÇÃO E SEGMENTAÇÃO DA REGIÃO LABIAL" , caracteri zado por compreender as etapas de : reali zar o reconhecimento de padrões por meio da extração de características de entrada de imagens labiais , rotulando-as para uma base de treinamento por meio de um módulo de processamento presente em um sistema de aplicação de produtos labiais ;
- definir e indicar as imagens labiais rotuladas aos algoritmos de reconhecimento de padrões para aprendi zagem e reali zação de segmentação das ditas imagens labiais pelo dito módulo de processamento ; e
- executar o treinamento de um modelo em aprendi zagem de máquina no dito módulo de processamento com uma pluralidade de dados exempli ficados e suas respectivas respostas definindo rótulos que o modelo deve aprender e predi zer para identi ficar e gerar um padrão matemático para um sistema de aplicação de produtos labiais .
2 . "MÉTODO DE DETECÇÃO E SEGMENTAÇÃO DA REGIÃO LABIAL" , de acordo com a reivindicação 1 , caracteri zado por :
- a etapa de reali zar o reconhecimento de padrões por meio da extração de características de entrada de imagens labiais compreende executar o reconhecimento de padrões em imagens em infravermelho , utili zando um modelo de predição de contornos por uma rede convolucional ( CNN) U-Net ; e
- a etapa de executar o treinamento de um modelo em aprendi zagem de máquina no dito módulo de processamento compreende executar a codi ficação e decodi f icação de imagens labiais originais recebidas em escala de cinza e uma máscara como entrada na rede convolucional ( CNN) U-Net durante o 46 processo de treinamento , gerar uma máscara predita , e ao fim do treinamento gerar um modelo matemático de predição de máscaras das imagens labiais utili zadas no treinamento .
3 . "MÉTODO DE DETECÇÃO E SEGMENTAÇÃO DA REGIÃO LABIAL" , de acordo com a reivindicação 1 , caracteri zado pela etapa de reali zar o treinamento de um modelo em aprendi zagem de máquina no dito módulo de processamento compreender :
- treinar um algoritmo do Mask R-CNN com uma base de imagens de treinamento dos lábios ou parte dos lábios de modo a aprender a di ferenciar a pele dos lábios da pele do rosto ; e
- gerar um modelo de segmentação da região das imagens contendo a região dos lábios ou parte dos lábios .
4 . "MÉTODO DE DETECÇÃO E SEGMENTAÇÃO DA REGIÃO LABIAL" , de acordo com a reivindicação 1 , caracteri zado por a etapa de reali zar o treinamento de um modelo em aprendi zagem de máquina no dito módulo de processamento compreender :
- executar um agrupamento dos pixels de uma imagem com base na similaridade da característica de cor por meio de um algoritmo de clusteri zação que agrupa elementos em dado espaço de características similares de modo que a determinação do aprendi zado sej a apontada pelo grupo ao qual ele pertence ;
- gerar um modelo de segmentação da região das imagens contendo a região dos lábios ou parte dos lábios utili zado um algoritmo slic que reali za a clusteri zação com o método k- means utili zando parâmetros de número de segmentos , sendo o algoritmo aplicado à imagens recortadas da base de dados de imagens contendo a região dos lábios ou parte dos lábios ; e executar a mudança de mati z , saturação e valor no 47 espaço de cor HSV, ou o espaço de cor RGB, de modo a tornar os elementos da imagem perceptíveis ao algoritmo de superpixel .
5 . "MÉTODO DE DETECÇÃO E SEGMENTAÇÃO DA REGIÃO LABIAL" , de acordo com a reivindicação 1 , caracteri zado por :
- em uma etapa de pré-processamento , submeter uma imagem labial original de entrada à etapa de segmentação da imagem por superpixel com a extração de contornos resultando na imagem com a separação entre lábio e pele do rosto ;
- extrair uma máscara referente à imagem com a separação entre lábio e pele do rosto , inserir as informações dessa máscara na imagem original , e converter o espaço de cor da imagem original de entrada de RGB para HSV; inserir as informações da máscara no canal de luminância V de modo a exaltar a separação entre lábio e pele do rosto na imagem RGB final ;
- converter a imagem no espaço de cor HSV para o espaço de cor RGB, obtendo uma imagem resultante ;
- inserir a imagem resultante no processo de treinamento utili zando o algoritmo da Mask R-CNN; e executar o treinamento de segmentação utili zando o algoritmo da Mask R-CNN com a base de imagens de parte dos lábios de treinamento resultante da etapa de pré- processamento ; e gerar um modelo de segmentação .
PCT/BR2021/050478 2020-10-29 2021-10-29 Método de detecção e segmentação da região labial Ceased WO2022087706A1 (pt)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP21884190.6A EP4239573A4 (en) 2020-10-29 2021-10-29 METHOD FOR DETECTION AND SEGMENTATION OF THE LIP AREA
US18/250,631 US20240020843A1 (en) 2020-10-29 2021-10-29 Method for detecting and segmenting the lip region
JP2023527233A JP2023550296A (ja) 2020-10-29 2021-10-29 唇領域を検出してセグメント化する方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
BR102020022162-0A BR102020022162A2 (pt) 2020-10-29 2020-10-29 Método de detecção e segmentação da região labial
BRBR1020200221620 2020-10-29

Publications (1)

Publication Number Publication Date
WO2022087706A1 true WO2022087706A1 (pt) 2022-05-05

Family

ID=81381902

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/BR2021/050478 Ceased WO2022087706A1 (pt) 2020-10-29 2021-10-29 Método de detecção e segmentação da região labial

Country Status (5)

Country Link
US (1) US20240020843A1 (pt)
EP (1) EP4239573A4 (pt)
JP (1) JP2023550296A (pt)
BR (1) BR102020022162A2 (pt)
WO (1) WO2022087706A1 (pt)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372425A (zh) * 2023-12-05 2024-01-09 山东省工业技术研究院 一种头颅侧位片的关键点检测方法
CN117422717A (zh) * 2023-12-19 2024-01-19 长沙韶光芯材科技有限公司 一种掩膜板污渍智能定位方法和系统
CN118430050A (zh) * 2024-06-28 2024-08-02 山东锋士信息技术有限公司 一种基于融合面部多特征的中医面诊方法和系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20250113168A (ko) * 2024-01-18 2025-07-25 원텍 주식회사 높낮이 조절이 가능한 생체 신호 측정 장치의 구동방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006043643A1 (ja) 2004-10-22 2006-04-27 Shiseido Co., Ltd. 唇の分類方法、化粧方法、分類マップ及び化粧用器具
WO2008135907A1 (en) 2007-05-03 2008-11-13 L'oreal A method of evaluating lip type and an evaluation system for implementing such a method
US9552510B2 (en) 2015-03-18 2017-01-24 Adobe Systems Incorporated Facial expression capture for character animation
EP2985732B1 (en) 2013-04-08 2017-08-02 Panasonic Intellectual Property Corporation of America Image processing device, image processing method, and program, capable of virtual reproduction of makeup application state
WO2017165363A1 (en) 2016-03-21 2017-09-28 The Procter & Gamble Company Systems and methods for providing customized product recommendations
US10339685B2 (en) 2014-02-23 2019-07-02 Northeastern University System for beauty, cosmetic, and fashion analysis
US10713794B1 (en) * 2017-03-16 2020-07-14 Facebook, Inc. Method and system for using machine-learning for object instance segmentation

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005128600A (ja) * 2003-10-21 2005-05-19 Konica Minolta Photo Imaging Inc 画像処理方法及び被写体撮影システム
KR102357326B1 (ko) * 2014-11-19 2022-01-28 삼성전자주식회사 얼굴 특징 추출 방법 및 장치, 얼굴 인식 방법 및 장치
WO2017149315A1 (en) * 2016-03-02 2017-09-08 Holition Limited Locating and augmenting object features in images
CN108229278B (zh) * 2017-04-14 2020-11-17 深圳市商汤科技有限公司 人脸图像处理方法、装置和电子设备
CN111066060B (zh) * 2017-07-13 2024-08-02 资生堂株式会社 虚拟面部化妆去除和模拟、快速面部检测和地标跟踪
CN107610201A (zh) * 2017-10-31 2018-01-19 北京小米移动软件有限公司 基于图像处理的润唇方法及装置
CN108537722A (zh) * 2018-03-30 2018-09-14 北京金山安全软件有限公司 图像处理方法、装置、电子设备及介质
US20200065559A1 (en) * 2018-08-22 2020-02-27 Nitin Vats Generating a video using a video and user image or video
US12303197B2 (en) * 2019-03-20 2025-05-20 Carl Zeiss Meditec, Inc. Patient tuned ophthalmic imaging system with single exposure multi-type imaging, improved focusing, and improved angiography image sequence display
WO2020216804A1 (en) * 2019-04-23 2020-10-29 L'oréal Sa Convolution neural network based landmark tracker
US11688070B2 (en) * 2020-06-25 2023-06-27 Intel Corporation Video frame segmentation using reduced resolution neural network and masks from previous frames

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006043643A1 (ja) 2004-10-22 2006-04-27 Shiseido Co., Ltd. 唇の分類方法、化粧方法、分類マップ及び化粧用器具
WO2008135907A1 (en) 2007-05-03 2008-11-13 L'oreal A method of evaluating lip type and an evaluation system for implementing such a method
EP2985732B1 (en) 2013-04-08 2017-08-02 Panasonic Intellectual Property Corporation of America Image processing device, image processing method, and program, capable of virtual reproduction of makeup application state
US10339685B2 (en) 2014-02-23 2019-07-02 Northeastern University System for beauty, cosmetic, and fashion analysis
US9552510B2 (en) 2015-03-18 2017-01-24 Adobe Systems Incorporated Facial expression capture for character animation
WO2017165363A1 (en) 2016-03-21 2017-09-28 The Procter & Gamble Company Systems and methods for providing customized product recommendations
US10713794B1 (en) * 2017-03-16 2020-07-14 Facebook, Inc. Method and system for using machine-learning for object instance segmentation

Non-Patent Citations (17)

* Cited by examiner, † Cited by third party
Title
ACHANTA, R. ET AL.: "SLIC Superpixels Compared to State-of-the-Art Superpixel Methods", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 34, no. 11, November 2012 (2012-11-01), pages 2274 - 2282, XP011490750, Retrieved from the Internet <URL:https://ieeexplore.ieee.org/document/6205760> [retrieved on 20220222], DOI: 10.1109/TPAMI.2012.120 *
AHMAD SOHAIB; FULLER BENJAMIN: "Unconstrained iris segmentation using convolutional neural networks", ASIAN CONFERENCE ON COMPUTER VISION, vol. 11367, 2018, pages 450 - 466, XP047510956, Retrieved from the Internet <URL:https://arxiv.org/pdf/1812.08245.pdf> [retrieved on 20220222] *
BINDAL, U.SHAJAN, K.MITRA, N. K.PRIYDARSHNI, B.: "Morphological Analysis of Vermilion Border and its Forensic Applications", J DENTISTRY ORAL MEDICINE, vol. 3, no. 1, 2015, pages 21 - 28
CHANTA, R.SHAJI, A.SMITH, K.LUCCHI, A.FUA, P.SUSSTRUNK, S., SLIC SUPERPIXELS, 2010
DONG, W.HE, R.ZHANG, S.: "IEEE International Conference on Digital Signal Processing (DSP", October 2016, IEEE, article "Digital recognition from lip texture analysis", pages: 477 - 481
EVENO, N.CAPLIER, A.COULON, P. Y.: "Proceedings. IEEE International Conference on Multimedia and Expo", vol. 2, August 2002, IEEE, article "Key points based segmentation of lips", pages: 125 - 128
HASSANAT, A. B.JASSIM, S.: "Color-based lip localization method", MOBILE MULTIMEDIA/IMAGE PROCESSING, SECURITY, AND APPLICATIONS, vol. 7708, April 2010 (2010-04-01), pages 77080Y
HE KAIMING, GKIOXARI GEORGIA, DOLLAR PIOTR, GIRSHICK ROSS: "Maskr-cnn", PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION, 2017, pages 2961 - 2969, XP033283165, Retrieved from the Internet <URL:https://openaeeess.thecvf.eom/eontent_ICCV_2017/papers/He_MaskR.-CNNICCV2017paper.pdf> [retrieved on 20220222] *
HE, K.GKIOXARI, G.DOLLAR, P.GIRSHICK, R.: "R-CNN Mask", PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION, 2017, pages 2961 - 2969
KOBAYASHI, H.TAGAMI, H.: "Functional properties of the surface of the vermilion border of the lips are distinct from those of the facial skin", BRITISH JOURNAL OF DERMATOLOGY, vol. 150, no. 3, 2004, pages 563 - 567, XP071109233, DOI: 10.1046/j.1365-2133.2003.05741.x
LE, T. H. N.SAVVIDES, M.: "A novel shape constrained feature-based active contour model for lips/mouth segmentation in the wild", PATTERN RECOGNITION, vol. 54, 2016, pages 23 - 33, XP029439145, DOI: 10.1016/j.patcog.2015.11.009
LIU, Y.LI, Y.MA, X.SONG, R.: "Facial expression recognition with fusion features extracted from salient facial areas", SENSORS, vol. 17, no. 4, 2017, pages 712
LONG, J.SHELHAMER, E.DARRELL, T.: "Fully convolutional networks for semantic segmentation", COMPUTER VISION AND PATTERN RECOGNITION, 2014
REN, S.HE, K.GIRSHICK, R.SUN, J.: "Faster r-cnn: Towards real-time object detection with region proposal networks", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS, 2015, pages 91 - 99
RONNEBERGER OLAF; FISCHER PHILIPP; BROX THOMAS: "Medicai Image Computing and Computer-Assisted Intervention - MICCAI", vol. 9351, 2015, SPRINGER, article "U-Net: Convolutional Networks for Biomedi cal Image Segmentation", pages: 234 - 241, XP047331005 *
See also references of EP4239573A4
SKODRAS, E.FAKOTAKIS, N.: "IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP", May 2011, IEEE, article "An unconstrained method for lip detection in color images", pages: 1013 - 1016

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372425A (zh) * 2023-12-05 2024-01-09 山东省工业技术研究院 一种头颅侧位片的关键点检测方法
CN117372425B (zh) * 2023-12-05 2024-03-19 山东省工业技术研究院 一种头颅侧位片的关键点检测方法
CN117422717A (zh) * 2023-12-19 2024-01-19 长沙韶光芯材科技有限公司 一种掩膜板污渍智能定位方法和系统
CN117422717B (zh) * 2023-12-19 2024-02-23 长沙韶光芯材科技有限公司 一种掩膜板污渍智能定位方法和系统
CN118430050A (zh) * 2024-06-28 2024-08-02 山东锋士信息技术有限公司 一种基于融合面部多特征的中医面诊方法和系统

Also Published As

Publication number Publication date
EP4239573A4 (en) 2024-08-21
JP2023550296A (ja) 2023-12-01
US20240020843A1 (en) 2024-01-18
EP4239573A1 (en) 2023-09-06
BR102020022162A2 (pt) 2022-05-10

Similar Documents

Publication Publication Date Title
WO2022087706A1 (pt) Método de detecção e segmentação da região labial
CN111066060B (zh) 虚拟面部化妆去除和模拟、快速面部检测和地标跟踪
KR102041906B1 (ko) 안면피부촬영장치를 통해 촬영된 영상 이미지를 활용하여 피부질환을 판별하는 인공지능 기반의 안면 피부질환 판별용 api 엔진
EP3358501B1 (en) Image processing device, imaging device, image processing method
CN102436636B (zh) 自动分割头发的方法及其系统
Naji et al. Skin segmentation based on multi pixel color clustering models
CN111524080A (zh) 脸部皮肤特征的识别方法、终端及计算机设备
Chauhan et al. Study & analysis of different face detection techniques
US20160140748A1 (en) Automated animation for presentation of images
Hammal et al. Parametric models for facial features segmentation
Kheirkhah et al. A hybrid face detection approach in color images with complex background
Roy et al. Face detection using a hybrid approach that combines HSV and RGB
CN114155569B (zh) 一种化妆进度检测方法、装置、设备及存储介质
Pallavi et al. Deep learning based application in detecting wrinkle and predicting age
López Local binary patterns applied to face detection and recognition
Shah et al. All smiles: automatic photo enhancement by facial expression analysis
Zheng et al. An adaptive thresholding method for facial skin detection in HSV color space
CN117611460A (zh) 人脸图像融合方法、装置、设备及存储介质
Prinosil et al. Automatic hair color de-identification
Naji Human face detection from colour images based on multi-skin models, rule-based geometrical knowledge, and artificial neural network
Seo et al. Object tracking using adaptive color snake model
Wang et al. Real-time moustache detection by combining image decolorization and texture detection with applications to facial gender recognition
Ramos et al. Face recognition with or without makeup using HAAR cascade classifier algorithm and Local binary pattern histogram algorithm
KR102555166B1 (ko) 매우 미세한 얼굴 피부 정보를 포함하는 얼굴 텍스처 생성 방법 및 시스템
Borza et al. Towards automatic skin tone classification in facial images

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21884190

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18250631

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2023527233

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021884190

Country of ref document: EP

Effective date: 20230530