ES2988206T3

ES2988206T3 - Método para probarse gafas en tiempo real de apariencia realista y físicamente precisa

Info

Publication number: ES2988206T3
Application number: ES16708370T
Authority: ES
Inventors: Ariel Choukroun; Jérôme Guenard; Gallou Sylvain Le; Christophe Dehais
Original assignee: FITTINGBOX
Current assignee: FITTINGBOX
Priority date: 2015-02-23
Filing date: 2016-02-22
Publication date: 2024-11-19
Anticipated expiration: 2036-02-22
Also published as: WO2016135078A1; EP3262617A1; CN107408315B; EP3262617B1; CN107408315A; US20160246078A1; US10042188B2

Abstract

La invención tiene por objeto un procedimiento para crear una imagen realista en tiempo real de un par de gafas virtuales colocadas sobre una imagen de la cara real del usuario emitida a partir de una única imagen, un conjunto de imágenes, un videoclip o un flujo de cámara en tiempo real, caracterizado porque comprende las siguientes etapas: - - 100. Un proceso de análisis de la cara para estimar la matriz de rotación 3D, el vector de traslación 3D, los parámetros de morfología de la cara del usuario; - - 200. Un proceso de posicionamiento de las gafas asociado a un modo de prueba para la mirada o simulación a tamaño real que estima la matriz de rotación 3D, el vector de traslación 3D y los parámetros de deformación global y local de las gafas virtuales, y la articulación de las patillas, adaptados a los parámetros de morfología calculados en la etapa 100; - - 400. Un proceso de renderizado realista para mezclar la imagen de la cara real del usuario con las gafas virtuales colocadas en la etapa 200. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Método para probarse gafas en tiempo real de apariencia realista y físicamente precisa

Esta invención se relaciona con el campo de procesamiento de imágenes y la síntesis de imágenes. Se relaciona más específicamente con la integración en tiempo real de un objeto virtual en fotografías o vídeos. Técnica anterior

Esta invención es una mejora de otras invenciones del mismo solicitante.

El contexto de la invención es el del ajuste virtual en tiempo real de un objeto lo más realista posible, estos objetos que son típicamente pero no se limitan a gafas para integrarse en una fotografía o un vídeo que representa la cara de una persona sustancialmente en frente de la cámara.

El crecimiento de las ventas por internet, un stock limitado o cualquier otro motivo que impida o dificulte el ajuste real de un objeto real produce la necesidad del ajuste virtual de dicho objeto. Las soluciones actuales basadas en realidad virtual o aumentada no son suficientes en el caso de las gafas ya que carecen de realismo o interactividad. Además, ellas mayormente requieren muchos datos y mucho tiempo para realizar los cálculos.

La solicitud de patente FR 1050305 del mismo solicitante, presentada el 18 de enero de 2010, ya es conocida en este campo. US2012/0313955 es otro documento conocido que describe un método de prueba virtual de gafas.

Resumen de la invención

La invención tiene como objetivo un método para crear una imagen de apariencia realista en tiempo real de unas gafas virtuales sobre una imagen de la cara real de un usuario emitida desde una cámara en tiempo real como se define en la reivindicación 1.

Breve descripción de las figuras

Las características y ventajas de la invención se comprenderán mejor con referencia a la siguiente descripción que expone las características de la invención por medio de un ejemplo de aplicación no restrictivo.

La descripción se basa en las figuras adjuntas que representan:

Figura 1: diagrama de bloques del método,

Figura 2: una ilustración de la orientación y colocación de la montura,

Figura 3: un modelo facial que ilustra los puntos usados en el método.

Descripción detallada de ejemplos de la implementación de la invención

Los inventores proponen un proceso unificado que funciona con una sola imagen, un conjunto de imágenes, videoclips y transmisiones de cámara en tiempo real, de manera que la invención solo se define para transmisiones de cámara en tiempo real. El proceso se divide en varias etapas (ver la figura 1):

100 - Análisis facial

200 - Posicionamiento de gafas

300 - Seguimiento (para tecnología en vivo)

400 - Renderizado realista

El contexto y escenario habitual es el siguiente: el usuario se sitúa en frente de una cámara (ya sea una cámara web conectada a un PC o la incluida en la mayoría de los dispositivos móviles). Para probar una sola fotografía (prueba en modo fotografía), que no es parte de la invención, el sistema permite al usuario lo mismo tomar una fotografía con la cámara o le solicita proporcionar un archivo de fotografía desde el almacenamiento interno del sistema. Para la prueba en tiempo real (prueba en modo en vivo), se muestra la transmisión de video de la cámara y el usuario puede verse a sí mismo en la pantalla como si fuera un espejo. El usuario puede probar gafas seleccionándolas en la interfaz y las gafas aparecen en su cara en dependencia de las diferentes interacciones con la aplicación.

Etapa 100: análisis facial

El proceso de análisis facial estima la posición, orientación y morfología más probables de la cara basándose en la fotografía del usuario. En el modo fotografía, que no es parte de la invención, el análisis se realiza sobre la imagen proporcionada. Para los modos en vivo o video, el análisis puede realizarse en cualquier imagen de la transmisión. El análisis facial se divide en tres bloques secuenciales principales:

110 - Detección facial (2D)

120 - Alineación de características específicas de la cara (2D)

130 - Morfología facial 3D y estimación de postura

Los resultados de cada bloque pueden usarse solos, pero normalmente proporcionan una estimación aproximada de los parámetros estimados en el siguiente.

Los bloques 110 y 120 - detección facial y de características en 2D

Los bloques 110 y 120 tienen muchas implementaciones posibles, y la manera en que se vinculan entre sí depende de las técnicas específicas empleadas. Los separamos para permitir una implementación clienteservidor rápida y confiable en sistemas con capacidades computacionales limitadas (por ejemplo, en clientes web y dispositivos móviles).

En el modo de imágenes o en vivo, permitimos que el usuario no mire la cámara estrictamente de frente; se tolera un ángulo de 30° en cada ángulo de dirección 3D. Pueden lograrse ángulos más amplios en dependencia de la calidad de la etapa de detección facial.

Primero, la detección facial se realiza gracias a un detector facial tal como el clasificador supervisado Viola-Jones. La selección del detector particular depende de su disponibilidad e idoneidad en las diferentes plataformas (clientes web, dispositivos móviles, etc.) y contextos (sistemas de quiosco, servicio alojado en servidor, etc.). Luego se usa un algoritmo de alineación de características para encontrar características faciales específicas. Usamos el detector de características proporcionado por Luxand (https://www.luxand.com/) que encuentra características faciales internas de manera muy confiable. Luego aplicamos el algoritmo de alineación de características HPAAM que ubica con precisión la proyección de características 3D significativas en la imagen ([Método para detectar un conjunto predefinido de puntos característicos de una cara, EP2678804 A1, Choukroun y Le Gallou, 2014]). A diferencia de las técnicas existentes que son propensas a errores de localización en entornos abarrotados, HPAAM es particularmente estable en características ubicadas en el contorno de la cara, tal como los puntos de las orejas. Dado que HPAAM es una técnica que depende de una fase de aprendizaje, el uso de puntos predeterminados con una correspondencia 3D tiene un impacto en el éxito de nuestra técnica de análisis facial global en términos de robustez y eficiencia. Normalmente, esta relación se especifica para unos pocos puntos en las técnicas de análisis facial 3D, tal como los puntos de inicio de una estrategia de ajuste 3DMM, donde se definen 5 puntos manualmente (ver la Tesis doctoral de Romdhani: [Face image Analysis using a Multiple Features Fitting Strategy, Romdhani PhDthesis, 2005]).

Bloque 130 - Estimación de la morfología y la postura de la cara en 3D

Luego estimamos los parámetros de faciales 3D mediante el uso de un modelo geométrico estadístico de la morfología facial humana. Licenciamos la base de datos patentada Basel Face, descrita en [Face Recognition Based on Fitting a 3D Morphable Model, Blantz and Vetter, 2003]. Sin embargo, el algoritmo presentado en esta publicación no es adecuado para la alineación facial en tiempo real, por lo que proponemos un método alternativo para estimar eficientemente la posición, orientación y morfología de la cara, así como también los parámetros internos de la cámara. Usamos las características encontradas en la etapa de detección de características y ajustamos dinámicamente los contornos en la imagen. Un enfoque similar puede encontrarse en la Tesis doctoral de Romdhani [Face Image Analysis using a Multiple Features Fitting Strategy, Romdhani PhD thesis, 2005], o la Tesis doctoral de R. Knothe [A Global-to-Local Model for the Representation of Human Faces, Knothe PhD thesis, 2009].

El objetivo es estimar los parámetros de la cámara (extrínsecos y/o intrínsecos)9dmy los parámetros del modelo facialQmodeio.Minimizamos la distancia entre las características faciales encontradas en la imagen.fij=i..ny la proyección de los puntos semánticos 3D definidos en la cara paramétricaProy(Xsi)),así como también la distancia entre la proyección de los contornos paramétricos de la cara (es decir la proyección de los puntos del modelo facial cuya normal es ortogonal a su dirección de visualización) y los bordes de la imagen asociada. Esto puede implementarse de varias maneras. Knothe o Romdhani usan mapas de distancia en una salida de detector de bordes estándar.

El problema principal es que estos detectores de bordes usan una normalización de magnitud estándar que no se adapta a la variabilidad de la imagen de la cara: la distancia a la cámara, el enfoque, partes de la cara, ... pueden afectar la magnitud de escala de los bordes y llevar a fallar la detección y una mala localización de los contornos.

Para superar este problema maestreamos la dirección ortogonal a los contornos del punto de muestra actual para muestrear los contornos por varias razones: eficiencia numérica, estabilidad y compatibilidad con otras técnicas de alineación usadas en el seguimiento de objetos 3D. Para ello, para cada iteración de la minimización, calculamos C(0cám,0modelo) que contiene un subconjunto de los puntos del modelo facialXjcon normalnortogonal con la proyección del eje y los puntos de contorno de la imagen asociadacontj=ProyContomo(Xj,n¡). ProyContornoes una función que proyecta el puntoXjy que busca a lo largo de la proyección normal el mejor contorno entre múltiples hipótesis.

Estas hipótesis se calculan localmente ya que los bordes se calculan a lo largo de la dirección normal y respetan la magnitud de la señal, lo que da una detección de bordes precisa e invariante de escala para todo el objeto facial. Nuestra función de costo puede implementarse mediante el uso de un enfoque de estimador M tal como el que usa la función de peso robusta de Tukey como en [Combining Edge and Texture Information for Real-Time Accurate 3D Camera Tracking, Vacchetti y otros, 2004]. Alternativamente, podemos calcular el residual para el punto más cercano a lo largo de la dirección normal del contorno entre múltiples hipótesis. Resolvemos:

donde ll.Jh denota la distancia euclidiana yyes un parámetro que permite dar más importancia a una de las 2 partes de la función de coste: los contornos o las características. Esta ecuación puede resolverse mediante el uso de técnicas estándar de descenso de gradiente (Levenberg-Marquardt).

La principal ventaja de nuestra técnica es que cuando hay varias imágenes disponibles (como en el modo de vídeo o al tomar varias fotografías, opcionalmente desde diferentes cámaras), se extiende a un algoritmo de análisis de múltiples imágenes que relaja la restricción de correspondencia semántica 2D/3D y permite refinar todos los parámetros estimados. Puede usarse para buscar la morfología más adecuada para todas las imágenes y los parámetros de postura de cada cámara. Si se desea, podemos agregar un algoritmo de coincidencia de características entre imágenes lo suficientemente cercanas, como se ve en [Accurate Face Models from Uncalibrated and III-Lit Video Sequences, Dimitrijevic y otros, 2004]. Pero su método está lejos de ser en tiempo real, y requiere imágenes cercanas y un campo de flujo óptico denso y robusto, que es difícil de obtener con imágenes de cámaras web estándar. Con nuestros puntos semánticos 3D, contornos y el control del número de puntos detectados predefinidos, podemos lograr eficiencia en tiempo real en este problema de múltiples vistas.

La función de costo descrita anteriormente puede usarse para el seguimiento y estimación facial combinados 3D en tiempo real, para un conjunto de imágenes clave durante una etapa de seguimiento en tiempo real o mediante el uso de múltiples imágenes dadas por el usuario a través de la interfaz. Luego resolvemos:

dcámahora contiene parámetros intrínsecos de la cámara y parámetros extrínsecos de la cámara que corresponden a cada uno de lasnblimágenes. Explicamos en la sección de seguimiento cómo obtenemos las imágenes clave para resolver estas ecuaciones.

Bloque 140 - Expresiones 3D

Las expresiones agregan variabilidad al modelo facial y su factorización permite una estimación más estable y precisa de los parámetros de morfología y postura de la cara, lo que a su vez mejora la estabilidad y precisión de la prueba.

Un enfoque habitual para crear variaciones paramétricas de una malla es usar formas combinadas, un conjunto de modelos geométricos combinados linealmente para producir instancias únicas. Una técnica común para calcular estas formas de mezcla es derivarlas estadísticamente como en [A 3D Face Model for Pose and Illumination Invariant Face Recognition, Pavsan y otros, 2009]. El modelo toma la siguiente forma:g(a)=gm+a*Vdondeg(a)es un vector que represente una nueva forma.g(a)=(xi,yi,zi,...,Xn,yn,Zn)T,con(Xi,yi,zi)es el imo vértice,gmes la forma 3D media,aes un vector los parámetros de adaptación específicos del usuario yVes una matriz que contiene la base de Forma Estadística. Generalmente, las bases de Forma Estadística no incluyen variaciones de expresión, ellas solo incluyen variaciones de identidad que garantizan una buena separabilidad de los parámetros de control.

Agregamos expresiones al modelo en una manera eficiente para el cálculo en tiempo real.

Nuestro modelo 3D es un modelo alámbrico que podría remodelarse de acuerdo cong(a,p)=gm+ aV¡5Adonde@es un vector que contiene los parámetros de animación, yAes una matriz que contiene las Unidades de Animación. Como en [CANDIDE-3 - An Updated Parameterised Face, Ahlberg, technical report, 2001], la matriz de Unidades de Animación permite que los puntos rastreados en 3D expliquen las variaciones de expresión.

Esta división de parámetros no solo es más poderosa que el modelado clásico, también simplifica el cálculo en tiempo real: en lugar de dejar que todos los parámetros de postura 3D, identidad y expresión facial cambien cada fotograma durante el proceso de seguimiento, podemos fijar los parámetros de identidad que no varían (que podrían provenir de la etapa de análisis facial) y estimar solo los parámetros de pose 3D y unos pocos parámetros de variación de expresión.

En el proceso de seguimiento, la estimación completa de los parámetros del modelo de forma deformable y la postura se basa en la resolución de:

mínproy ( Kx(RXg{a,¡.?) T )) -p2D

R,T

dondeRes la matriz de rotación 3D,Tes la traslación 3D,Kes la matriz de parámetros intrínsecos de la cámara,ase fija en la etapa de análisis facial,p2Des la posición actual del punto rastreado 3D en la imagen yproyes la función:

Etapa 200: posicionamiento de las gafas

Para posicionar finamente las gafas teniendo en cuenta la morfología del usuario y las características físicas de las gafas, definimos el modelo de gafas como un objeto 3D segmentado compuesto de al menos las siguientes partes: la montura frontal que corresponde a la parte delantera de las gafas, dos patillas, dos lentes y posiblemente plaquetas nasales cuando estén disponibles. Como queremos que las gafas se ajusten perfectamente a la cara, necesitamos tener una buena parametrización de las gafas que garantice una interpretación de máxima verosimilitud de las principales deformaciones de las gafas: abertura de las patillas y deformación de todo el objeto cuando se coloca en una cara.

Parametrización de gafas

Ahora describimos cómo obtenemos un objeto de gafas segmentado a partir de un modelo 3D que tiene una parametrización precisa para un posicionamiento físico realista. Consideramos que las patillas, aunque no se identifiquen en esta etapa, se abren (ángulo aproximado de 90 grados con respecto a la montura). Esta parametrización normalmente se hace durante una etapa fuera de línea.

Consideramos una montura de referencia aproximada para las gafas que puede obtenerse registrando los vértices 3D de la malla en un modelo 3D estadístico de modelos de gafas 3D aprendidos, mediante el uso de PCA, por ejemplo, o registrando la proyección del modelo en una imagen de la montura. La montura también puede anotarse nombrando un objeto izquierdo y uno derecho como por ejemplo lentes. La montura se orienta y coloca como se muestra en la Figura 2.

En esta montura de referencia, la primera etapa es la segmentación automática de las gafas en los diferentes elementos y en particular segmentamos las dos patillas. Teniendo en cuenta las gafas en el plano zy, aplicamos cortes a lo largo del ejey.Para cada porción, calculamos la distancia entre los puntos con elzmínimo y elzmáximo. El plano que corta las patillas de la montura frontal es el corte donde dos distancias consecutivas tienen la diferencia máxima.

Una vez que hemos segmentado la malla, necesitamos reemplazar el modelo de gafas en una montura de referencia más precisa y corregir los posibles defectos de geometría si la malla proviene de un proceso de escaneo 3D. Esto es necesario para garantizar un posicionamiento preciso en cada ubicación local de las gafas y la cara. Primero, simetrizamos las gafas combinando simetrización local y un campo de deformación no lineal en las patillas de las gafas. El modelo de gafas está alineado a lo largo de los ejesx, yyzde manera que las patillas se alinean a lo largo del ejeyy la montura a lo largo del eje x. Luego, el modelo se simetriza aplicando sucesivamente tres rotaciones alrededor de los ejesyy z, denotadoRyyRz,para minimizar la siguiente función de costo:

dondeMes la malla de entrada, Ayz es el reflejo a través del planozyyEnses la función de distancia no simétrica definida de la siguiente manera:

mín\\p± - p21|

2eW2

Para cada patilla, se extrae un esqueleto vinculando los baricentros calculados para varios cortes realizados a lo largo de la dirección más larga de la patilla. Se calcula un campo de deformación no lineal explotando este esqueleto. Un vector de desplazamiento D(P) = Ayz(Qi) -Pise calcula para cada punto de la curva del esqueleto dondeQies el punto en la curva del esqueleto de la otra patilla con las mismas coordenadas curvilíneas quePi(es decir, con la misma distancia curvilínea desde el origen de la curva). Para cualquier puntoPen la superficie de la patilla, el campo de desplazamientoDFes entonces:

dondePies el punto de la curva del esqueleto con la misma coordenadayque P,Les la longitud de la patilla de acuerdo con el ejey.

En otra modalidad, todos los parámetros descritos anteriormente pueden encontrarse en un proceso de minimización global.

Ahora, todas las gafas procesadas de esta manera, desde cualquier fuente (modelado manual 3D, escáner 3D), están en el mismo marco de referencia y configuración, y listas para probarse.

Posicionamiento y deformación físicos realistas de las gafas.

El posicionamiento se calcula en tiempo real durante la etapa en línea, y cambia con la morfología estimada en 3D. A continuación, describimos varios enfoques que usamos para posicionar las gafas con precisión en la cara, en dependencia del contexto de aplicación. El posicionamiento correcto de las gafas es sin duda clave para una experiencia de prueba realista. Describimos aquí tres modos que usamos, en dependencia de las características de prueba solicitadas:

1. Las gafas adaptadas a la cara: no se respeta la escala entre las gafas y todas las monturas se posicionan en la cara con una abertura de las patillas de 5 grados para tener en cuenta el ensanchamiento en las sienes de la cara. En este modo, las gafas siempre se ajustan a la cara del usuario.

2. Las gafas se ajustan a la cara con un tamaño relativo: no se conoce el tamaño de la cara, pero las gafas se posicionan y escalan de manera que, para el tamaño promedio de la categoría de cara elegida, las gafas se posicionan y la abertura de las patillas se calcula con una deformación de las gafas de manera que se respete el tamaño relativo de las gafas. La prueba es estadísticamente muy cercana al tamaño absoluto.

3. Las gafas adaptadas a la cara con tamaño absoluto: se conoce el tamaño real de la cara y las gafas se posicionan de la mejor manera posible en la cara, con la garantía de obtener siempre un resultado realista.

Modo 1: Posicionamiento punto a punto sin deformación física local

En una etapa de preprocesamiento fuera de línea, se definen puntos 3D en una cara promedio 3D genérica y en cada montura 3D que se usará para la prueba. A continuación, se colocan las gafas mediante el uso de al menos las siguientes etapas:

En una parte fuera de línea, los puntos de las gafas 3D se definen en el extremo de las patillas y en las almohadillas nasales.

Primero resolvemosm \nRiTI? =1W i x ( ( R x GP3D( i)T) - AP3D( i) )donde P es la matriz derotación 3D de las gafas,Tla traslación 3D, GP3D(i) el imo vértice de puntos específicos definidos en las gafas,AP3D(i)el imo vértice que corresponde aGP3D(i)en la cara 3D genérica, yWiun peso especificado por punto.

• Calculamos una escala "S" que se define por la relación entre los dos puntos más alejados en el ancho de las gafas y los puntos correspondientes en la cara 3D genérica.

. Luego resolvemos mín* T E?= iWix ( ( * x 5 XGP3D(Q T) -•Por seguridad, añadimos 1 mm de profundidad y de altura en los puntos de las gafas 3D que corresponden a las almohadillas nasales. Esto garantiza que las gafas no se intersequen con la cara parametrizada en 3D.

Modos 2 y 3: Posicionamiento de punto a superficie con deformación física local

Como la cara 3D tiene un tamaño promedio, podemos definir una cara promedio para cada partición de clase morfológica que queramos: hombre, mujer, niño, características morfológicas étnicas (africanas, asiáticas, caucásicas, etc.). Podemos construir el tamaño promedio de gafas y calcular una escala predeterminada para cada clase que almacenemos en una base de datos. En cada categoría se respetará el tamaño relativo de las gafas. Con esta técnica, el tamaño absoluto de las gafas virtuales es bastante cercano a la escala exacta durante la prueba.

El algoritmo resuelve las restricciones de punto a superficie, así como también las restricciones suaves que definen buenas reglas de posicionamiento. Funciona de la siguiente manera:

1. Parte fuera de línea

a. Parametrizar la superficie de las gafas,

b. Muestrear m puntos en la parte posterior de la montura frontal (posiblemente en las almohadillas nasales) y los almacena como metadatos de gafas 3Dg/,/=1..m,

c. Definir restricciones suaves entre la cara y las gafas que correspondan a una posición adecuada de uso de las gafas, de manera que la altura de las pupilas esté a 2/3 de la altura de los lentes, o/y la parte superior de la montura debe encontrarse con la parte inferior de las cejas.

2. Parte en línea:

a. Calcular la mejor posición y deformación parametrizada que minimice la distancia desde los puntos de las gafas definidos hasta la superficie de la cara, respetando restricciones suaves, sin interpenetración. Este cálculo lo mismo se hace cada vez que se estima una nueva morfología de usuario o se realiza una vez fuera de línea para cada clase de cara. Se requieren cuatro etapas:

i. Calcular la altura de las gafas con la regla general de que cada ojo debe estar en el tercio del lente correspondiente (traslación z), y cualquier otra regla que proporcione una primera estimación de la traslación z;

ii. Calcular la rotación R(y) haciendo que las patillas descansen sobre las orejas (en el planoyz,calculamos el ánguloyentre la dirección de la patilla y la dirección desde el inicio de la patilla hasta la sien de la cara; R(y) se define por un ángulo de Euler que corresponde al eje x);

iii. Calcular la traslación a lo largo del ejey trasyde manera quetrasy= mín/=<1>.m(||Proyy(g) - g/||<2>) dondeProyy(g/,/=i..m)es la proyección deg/en el modelo facial a lo largo del ejey(g/=<1>..m son puntos señalados como G en la Figura 3 yProyy(g/-i..m)se indican como ProyG);

iv. Calcular la deformación no rígida de las patillas de manera que las sienes del modelo facial y los puntos asociados de las patillas estén en la misma posición.

Este algoritmo es muy eficiente y pueden agregarse parámetros físicos al modelo de deformación de las gafas en dependencia de sus propiedades físicas, tales como el material y el grosor. Para el iv., la función de deformación no rígidatdeform(0, ddeform)de las patillas describe la deformación de la malla sujeta a la restricción de ángulo 0 en las patillas. Puede ser un modelo de deformación heurística simple o uno más complejo que tenga en cuenta el tipo y el grosor del material. Una de las ventajas de este método es que no se requiere minimización y garantizamos que todas las gafas no puedan interpenetrar la cabeza.tdeformpodría definirse por mín(1,f(0deform)HPp- PC||<2>/||Pp - Pt||2)R(0)(Pc - Pp)PpdondePpes el punto de pivote 3D de una patilla,Pces el punto 3D actual de la patilla a modificar,Ptes el punto de sien del modelo facial,Rla rotación de la matriz 3D definida por un ángulo de Euler que corresponde al ejezyf(ddeform)es una función que depende del material y del grosor.

Para el modo 3, se conoce el tamaño real de la cara, y la escala se conoce normalmente gracias a medidas de la cara, tal como la distancia pupilar. La prueba virtual es entonces comparable a la prueba de gafas reales, es decir, una fotografía del usuario tomada con las gafas virtuales o con las gafas reales no tiene diferencia de tamaño.

Etapa 300: seguimiento y análisis facial en 3D en tiempo real para prueba

Después de la etapa de análisis facial, tenemos la morfología 3D y la postura de la cara. En un contexto de tiempo real o de vídeo, realizamos un seguimiento de modelos 3D con una técnica inspirada en [Stable realtime 3d tracking using online and offline information, L. Vacchetti, V. Lepetit, P. Fua, Pattern Analysis and Machine Intelligence, 2004]. Para la robustez y eficiencia en tiempo real, aportamos 3 mejoras a este enfoque:

• Añadimos parámetros de expresión al modelado facial 3D. En cada fotograma, resolvemos m í nproy(Kx (R x g(a,5)T))-P2D.

•En lugar de usar un único fotograma clave en este proceso, creamos una serie de fotogramas clave que es un conjunto de fotogramas con sus puntos de seguimiento asociados y parámetros estimados (parámetros de expresión y postura de la cara 3D) guardados en valores de parámetros de pose estratégicos cuando la puntuación de seguimiento es aceptable. De esta manera elegimos el fotograma clave más cercano, en términos de distancia de parámetros, como el fotograma clave actual usado en el proceso de seguimiento. Los parámetros de postura elegidos son los que son relevantes en términos de que impactan la apariencia del modelo facial, tales como la distancia a la cámara, y dos ángulos fuera del plano (cara derecha/izquierda, y arriba/abajo).

• Nuestros puntos de interés (rastreados) se predefinen en nuestro modelo facial 3D, y pueden combinarse con características de esquinas detectadas (FAST, HARRIS). No usamos un proceso clásico de comparación de puntos como el descrito en Vacchetti y otros, porque la estabilidad y la velocidad de ejecución no se controlan: para las imágenes de caras, los puntos faciales detectados tienen una distribución espacial muy pobre y su número es bajo e inestable lo que genera fallas en el proceso de seguimiento.

Para alcanzar un rendimiento muy rápido, usamos un proceso de seguimiento de plantillas de múltiples resoluciones que permite encontrar coincidencias correspondientes en las imágenes actuales con un seguimiento de plantillas 2D. Una correlación cruzada normalizada rápida como la descrita en [Fast Normalized Cross-Correlation, J.P. Lewis, 1995] o puede usarse una técnica de flujo óptico de Lucas-Kanade. Durante el proceso de seguimiento, podemos optar por mejorar los parámetros morfológicos del usuario. De hecho, con la matriz de fotogramas clave (o con otra matriz de fotogramas), podemos realizar una minimización como se describió en la sección de estimación de morfología y así mejorar el parámetroade nuestro modelado facial 3D del usuariog(a, ¡5)=gm+aV+¡5A.Alcanzamos rendimiento en tiempo real gracias al uso de nuestro modelo de puntos y contornos y nuestra serie multidimensional de colección de fotogramas clave. Para mejorar el rendimiento, a diferencia del método de Vacchetti y otros, no necesitamos realizar una predicción de la apariencia de los puntos rastreados con un renderizado del modelo facial 3D o con parches de deformación de homografía gracias a nuestra colección de fotogramas clave.

Pueden encontrarse ideas similares sobre la fusión de puntos semánticos, puntos de esquina y contornos de siluetas en [Real Time Feature Based 3-D Deformable Face Tracking, Zhang y otros, ECCV2008]. Sin embargo, su enfoque tiene una etapa de aprendizaje para predecir las pistas de las imágenes para su coincidencia, y usa un algoritmo estocástico para generar hipótesis de solución, lo cual no es adecuado para evitar vibraciones y para tiempo real.

Etapa 400: prueba a pedido en tiempo real y renderizado realista

La última etapa consiste en la prueba visible en realidad aumentada que se muestra al usuario. En el caso del video/transmisión de prueba de cámara en vivo, el usuario se mira a sí mismo usando las gafas. La imagen actual se mezcla con objetos sintéticos y efectos que respetan la coherencia de la escena: geometría, interacciones locales del objeto virtual con la escena circundante, fotometría.

Para alcanzar efectos de renderizado realistas en tiempo real y una imagen final realista de la prueba, proponemos la siguiente tubería de renderizado de realidad aumentada original: a diferencia de los sistemas de sombreado clásicos que se basan en una variedad de códigos de sombreado para simular diferentes materiales, nuestro marco de renderizado usa un modelo de apariencia basado físicamente de los materiales y las luces para producir imágenes de apariencia realista de las gafas virtuales. Los materiales se describen por sus parámetros macroscópicos tal como albedos difusos y especulares, normales de superficie, y rugosidad de la superficie. Estos parámetros impulsan un modelo de microfacetas de difusión de la luz y normalmente se definen continuamente en la superficie mediante el uso de texturas. Estas texturas se crean lo mismo a mano o se ensamblan automáticamente a partir de nuestro sistema patentado de reconstrucción de gafas [Model and method for producing 3d photorealistic models, US 20140055570 A1, FittingBox, 2013]. Este modelo de apariencia es lo suficientemente genérico para simular realísticamente una amplia gama de materiales reales. Tener un único código sombreador evita el problema común relacionado con la gestión de muchos fragmentos de sombreadores para compilar un sombreador de tiempo de ejecución final.

A las diferentes partes de las gafas (montura, lentes, almohadillas nasales, etc...) o elementos de superficie (texels) mediante parametrización de texturas se les asigna un material específico. Esta asignación puede hacerse automática analizando la variación de la apariencia de la superficie en diferentes orientaciones y condiciones de iluminación. Dado que nuestro modelo de iluminación es compacto en términos de los parámetros, podemos resolver el problema de renderizado inverso fácilmente como en [Relighting Objects from Image Collections, Haber y otros, 2009]. Cuando la asignación se realiza portexel, la textura codifica los parámetros del material o los índices del material. Los parámetros del material también se pueden modificar de gafas a gafas si se desea.

Todos los cálculos se formulan en un lenguaje de sombreado de alto nivel para una evaluación rápida mediante unidades de procesamiento gráfico (GPU) dedicadas. Esto garantiza que los resultados renderizados se vean similares en las diferentes plataformas que soportamos (clientes web, dispositivos móviles y sistemas basados en PC).

El sistema de iluminación se hace de luces sintéticas, así como también de mapas ambientales de alto rango dinámico (HDR), lo que da como resultado una salida HDR. Para mostrar la escena renderizada en una pantalla estándar (rango dinámico bajo; LDR), se aplica una transformación de mapeo de tonos a esta salida HDR para comprimir el rango de intensidad. Se usa un operador de mapeo de tonos fotográfico para maximizar la conservación del contraste.

Durante la prueba, la transmisión de imágenes o videos debe verse a través de las partes translúcidas (especialmente los lentes), lo que lleva a la composición de una capa HDR (el renderizado de las gafas) con una capa LDR (las imágenes "reales"). Los métodos estándar basados en la combinación alfa generalmente no producen resultados realistas porque los valores de intensidad de píxeles para las capas de fondo y de aumento no representan radiancias de luz coherentes. Consideramos el enmascaramiento de la capa subyacente mediante reflejos en la escena renderizada de una manera realista aplicando una fórmula de corrección de opacidad antes del mapeo de tonos y la composición, como se explica a continuación.

La fórmula se evalúa en cada fragmento. Dejar queasea la opacidad yLhdrel valor de irradiancia calculado en el fragmento actual. Calculamos una opacidad corregidaaLDRcomo una combinación baricéntrica entreay 1.

_L h d r L h d r \

a LDR — I Máx ■a=a(1 -a)<Lrdr>

<i>Máx Ii Máx

l h d r l h d r Jl hdr

jMáx jMáx

Vemos que el coeficiente de combinación es la relación , donde es una estimación de la ^Máx irradiancia máxima observable en la escena real en la posición actual del fragmento. puede, por ejemplo, evaluarse en base a las características del dispositivo de adquisición.

Otro componente de nuestro sistema de renderizado que permite la integración impecable de las gafas en la escena real es el cálculo de sombras de apariencia realista. Este componente no es parte de la invención.

En nuestro escenario, las gafas deberían proyectar sombras en la cara del usuario. Logramos realismo calculando primero una estimación precisa de la morfología de la cara del usuario (como se detalla en las secciones anteriores) y segundo estimando la dirección principal de la luz en la escena real. Integramos el modelo facial en la escena sintética como un objeto especial que no es directamente visible, sino que actúa tanto como oclusor de las partes de las gafas que se ocultan por la cara y como un receptor de sombras.

El último aspecto se puede realizar asumiendo un modelo de reflexión paramétrico para la piel (por ejemplo, Lambertiano) y encontrando su mejor ajuste a las normales de la superficie de la cara y las intensidades de los píxeles, como se hace normalmente en los métodos de estereofotometría [Basri, R. et al., Photometric Stereo with General, Unknown Lighting. IJCV 2007], Aquí la geometría y los parámetros de la cámara se conocen de la etapa anterior y solo es necesario evaluar el entorno de iluminación. El modelo también puede incluir una estimación del área de la fuente de luz, un parámetro que luego puede usarse para renderizar sombras suaves realistas (sombras con penumbra).

Para renderizar sombras suaves en tiempo real, usamos el algoritmo Mapeo de Sombras Suaves con Varianza [Variance Soft Shadow Mapping, Yang y otros, Pacific Graphics 2010]), pero también son adecuadas otras técnicas, tal como la de Porcentaje de Sombras Suaves más Cercanas [Percentage-closer soft shadows, Fernando, SIGGRAPH 2005 Sketches].

Etapa 500: Experiencia de prueba de Realidad Aumentada impecable y sin fallos. Esta etapa no es parte de la invención.

Para mejorar la robustez, presentamos un modo de recuperación de seguimiento que permite una experiencia de prueba sin fallas visibles en la prueba. El método es válido para cualquier objeto de realidad aumentada y muy eficiente en nuestro caso.

Presentamos una puntuación de calidad de seguimiento 3D basada en la puntuación de coincidencia 2D y/o la discrepancia entre los parámetros de la postura de la cabeza actual y una predicción del modelo de movimiento de la cabeza. Como un ejemplo, puede usarse un filtro Kalman con parámetros de posición, velocidad y aceleración.

Luego, cuando la puntuación de seguimiento se hace baja, el sistema cambia del algoritmo de seguimiento descrito a un estado de recuperación.

El estado de recuperación funciona de la siguiente manera:

El sistema determina el fotograma clave a usar, llamado fotograma clave de recuperación: el fotograma clave más cercano dado por la estimación del movimiento de la cabeza o el fotograma clave frontal si la confianza en la estimación del movimiento de la cabeza no es lo suficientemente buena.

Luego, se buscan parches de fotogramas clave de recuperación y se hacen coincidir con la posición de la cara estimada dada por el detector facial o el modelo de movimiento de la cabeza. Luego, los parámetros de la postura de la cabeza 3D se estiman mediante el uso de solo este fotograma clave de recuperación. La detección de rostros puede realizarse mediante el uso de un fotograma clave como plantilla y buscándolo en toda la imagen en una resolución muy baja.

Este proceso es muy rápido, pero puede tomar algún tiempo. En una tubería de realidad aumentada clásica en la que la renderización se realiza al final de la parte de análisis de la escena, esto daría como resultado una reducción de los fotogramas por segundo de renderización o hacer desaparecer el objeto virtual. Para superar este problema, decorrelacionamos el proceso de captura de fotogramas, el proceso de análisis y una tubería de renderizado en hilos de cálculo distintos. Por lo tanto, durante el cálculo de recuperación, usamos nuestro modelo de predicción de movimiento para renderizar la escena incluso si el resultado del análisis de la escena no está disponible. Cuando los resultados del análisis de la escena están disponibles, usamos nuestro filtro Kalman para fusionar suavemente la predicción y el cálculo.

La principal ventaja de esta técnica es que el usuario no nota ningún fallo ni falta de suavidad durante la experiencia de la prueba.

Claims

REIVINDICACIONES 1. - Un método para crear una imagen de apariencia realista en tiempo real de un par de gafas virtuales colocadas sobre una imagen de la cara de un usuario real emitida desde una transmisión de cámara en tiempo real, que comprende las siguientes etapas: - 100. Un proceso de análisis facial para estimar, sobre la imagen de la cara del usuario real, parámetros faciales que comprenden la matriz de rotación 3D de la cara del usuario, el vector de traslación 3D de la cara del usuario, y los parámetros morfológicos de la cara del usuario; - 200. Un proceso de posicionamiento de gafas asociado con un modo de prueba para visualización o simulación en tamaño real que estima la matriz de rotación 3D, el vector de traslación 3D, y los parámetros de deformación global y local de las gafas virtuales, y la articulación de las patillas, adaptados a los parámetros de morfología calculados en la etapa 100; - 400. Un proceso de renderizado realista para mezclar la imagen de la cara del usuario real mostrada en una pantalla en tiempo real, con la imagen de las gafas virtuales posicionadas en la etapa 200, de manera que el usuario pueda verse a sí mismo en la pantalla como si fuera un espejo, caracterizado porque la cara del usuario se representa mediante un modelo 3D basado en un modelo 3D mediogmy parametrizado mediante los parámetros morfológicosay los parámetros de expresión¡5, y porque el proceso de análisis facial 100 comprende un algoritmo de análisis de múltiples imágenes que refina los parámetros faciales estimados que comprenden los parámetros morfológicosay los parámetros de expresión5de la cara del usuario, en donde comprende además una etapa 300 del algoritmo de seguimiento facial 3D que proporciona el vector de traslación 3D de la cara del usuario y la matriz de rotación 3D de la cara del usuario para cada fotograma minimizando los parámetros de postura de la cara 3D¡5, Ty los parámetros de expresión¡5:

dondeRes la matriz de rotación 3D,Tes la traslación 3D,Kes la matriz de parámetros intrínsecos de la cámara,p2Des la posición actual del punto rastreado 3D en la imagen yproyes una función de proyección, los puntos rastreados que se predefinen en el modelo facial 3D, en donde en la etapa 300, una pluralidad de imágenes con sus puntos de seguimiento asociados y parámetros estimados¡5, Ty¡5,llamados fotogramas clave, se seleccionan en la transmisión de la cámara, y el algoritmo de seguimiento facial 3D toma en cuenta uno de los fotogramas clave seleccionados como el fotograma clave actual usado en el proceso de seguimiento, el fotograma clave actual que es el fotograma clave más cercano en términos de distancia de los parámetros. 2. - El método de acuerdo con la reivindicación 1, en donde la etapa 100 comprende además la estimación de los parámetros de expresión de la cara del usuario. 3. - El método de acuerdo con cualquiera de las reivindicaciones 1 a 2, en donde la etapa 100 comprende además la estimación de parámetros intrínsecos de la cámara. 4. - El método de acuerdo con cualquiera de las reivindicaciones 1 a 3, en donde la etapa 200 comprende además un proceso de análisis del modelo 3D de las gafas que proporciona parametrización, segmentación en partes y corrección de malla. 5. - El método de acuerdo con cualquiera de las reivindicaciones 1 a 4, en donde la etapa 200 comprende dos procesos de posicionamiento de gafas asociados con modos de prueba para mirada o simulación a tamaño real que estiman la matriz de rotación 3D, el vector de traslación 3D, y los parámetros de deformación global y local de las gafas virtuales, y de articulación de las patillas, adaptados a los parámetros de morfología calculados en la etapa 100. 6. - El método de acuerdo con cualquiera de las reivindicaciones 1 a 5, en donde la etapa 400 comprende una estimación de los parámetros de corrección de opacidad y de mapeo de tonos. 7. - El método de acuerdo con cualquiera de las reivindicaciones 1 a 6, en donde comprende: - una tubería de procesamiento paralelo que descorrelaciona la adquisición de imágenes, el proceso de análisis de escena, y el renderizado; - un proceso rápido de recuperación de la postura de la cara 3D; - un modelo de movimiento de cabeza y un filtro de control que siempre proporciona, en cada fotograma, una postura 3D suave al proceso de renderizado. 8. - El método de acuerdo con cualquiera de las reivindicaciones 1 a 7, en donde, en el proceso de análisis facial en tiempo real de la etapa 100, los parámetros (matriz de rotación 3DR,vector de traslación 3DT,los parámetros morfológicosa,y los parámetros de expresiones6de una cara de usuario) se estiman mediante el uso del modelo facial del usuario y los contornos de la imagen y puntos semánticos 3D en correspondencia con las características detectadas. 9. - El método de acuerdo con cualquiera de las reivindicaciones 1 a 8, en donde el proceso de posicionamiento de las gafas (etapa 200) comprende: - a. una etapa de procesamiento fuera de línea para crear un objeto de gafas simetrizado y segmentado (patillas/montura) a partir de un modelo 3D que tiene una parametrización precisa y para reposicionar las gafas en un sistema de referencia. - b. una etapa de procesamiento en línea en tiempo real que estima los parámetros de posicionamiento de las gafas sin interpenetración entre las gafas virtuales y la cara del usuario, los parámetros de posicionamiento de las gafas que comprenden una matriz de rotación 3D R, un vector de traslación 3D T,un ángulo de abertura de la patilla y los parámetros de deformaciónD. 10. - El método de acuerdo con la reivindicación 9, en donde la etapa de procesamiento en línea usa un método de ajuste de gafas a la cara: donde no se respeta la escala entre gafas y todas las monturas se posicionan en la cara con una abertura de las patillas de 5 grados para tener en cuenta el ensanchamiento en las sienes de la cara. 11. - El método de acuerdo con cualquiera de las reivindicaciones 9 a 10, en donde la etapa de procesamiento en línea usa un método de ajuste de gafas a la cara con tamaño relativo: donde el tamaño de la cara no se conoce, pero las gafas se posicionan y escalan de manera que, para el tamaño promedio de la categoría de cara elegida, las gafas se posicionen y la abertura de las patillas se calcula con una deformación de las gafas de manera que se respeta el tamaño relativo de las gafas. 12. - El método de acuerdo con cualquiera de las reivindicaciones 9 a 11, en donde la etapa de procesamiento en línea usa un método de gafas ajustadas a la cara con tamaño absoluto: donde se conoce el tamaño real de la cara y se posicionan las gafas de la mejor manera posible en la cara, con la garantía de obtener siempre un resultado realista. 13. - El método de acuerdo con cualquiera de las reivindicaciones 1 a 12, en donde la etapa 400 comprende un método de composición en donde un valor de opacidadade una parte translúcida de las gafas virtuales se reemplaza por un valor de opacidad corregidoaLDRcalculado mediante el uso de la fórmula:

dondeLhdres la irradiancia calculada y es un límite superior de la irradiancia real de la escena.