ES2659961T3

ES2659961T3 - Predictor de regresión múltiple de múltiples canales de color

Info

Publication number: ES2659961T3
Application number: ES14171538.3T
Authority: ES
Inventors: Guan-Ming Su; Sheng Qu; Hubert KOEPFER; Yufei YUAN; Samir N. Hulyalkar
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2011-04-14
Filing date: 2012-04-13
Publication date: 2018-03-20
Anticipated expiration: 2032-04-13
Also published as: PL2782348T3; US20140029675A1; CN107105229A; CN106878707A; US20180278930A1; JP6490178B2; JP2018057019A; EP2782348A1; JP2016167834A; HUE046186T2; JP5921741B2; CN107105229B9; WO2012142471A1; CN106878707B; EP2782348B1; JP2014520414A; CN107105229B; PL3324622T3; CN103563372A; EP3324622A1

Abstract

Un método para aproximar utilizando un procesador una imagen que tiene un primer rango dinámico en términos de una imagen que tiene un segundo rango dinámico, comprendiendo el método; recibir una primera imagen y una segunda imagen, en donde la segunda imagen tiene una rango dinámico diferente que la primera imagen; seleccionar modelo de predicción de regresión múltiple (MMR) multicanal a partir de uno o más modelos de MMR; determinar los valores de parámetros de predicción del modelo de MMR seleccionado; calcular una imagen de salida aproximando la primera imagen en base a la segunda imagen y los valores determinados de los parámetros de predicción del modelo de predicción de MMR seleccionado, en donde los valores de píxel de al menos una componente de color en la imagen de salida se calculan en base a una combinación de los valores de píxel de todos las componentes de color en la segunda imagen; y dar salida a los valores determinados de los parámetros de predicción y a la imagen de salida calculada, en donde el modelo de predicción de MMR seleccionado es al menos uno de: un modelo de MMR de primer orden con producto cruzado que incorpora, para cada uno de los píxeles, multiplicaciones cruzadas entre las componentes de color de ese píxel, un modelo de MMR de segundo orden con producto cruzado que además incorpora, para cada uno de los píxeles, multiplicaciones cruzadas entre las segundas potencias de las componentes de color de ese píxel, o un modelo de MMR de tercer orden con producto cruzado que incorpora todavía además, para cada uno de los píxeles, multiplicaciones cruzadas entre las terceras potencias de las componentes de color de ese píxel, y en donde cualquiera de los modelos de MMR para predecir un píxel de la imagen de salida comprende, además, parámetros de predicción relacionados con píxeles vecinos de un píxel correspondiente en la segunda imagen de tal manera que los valores de píxel de dicha al menos una componente de color de un píxel previsto en la imagen de salida depende de una combinación de valores de píxel de todas las componentes de color del píxel correspondiente en la segunda imagen y además en los valores de píxel de dicha al menos una componente color de los píxeles vecinos del píxel correspondiente en la segunda imagen.

Description

5

10

15

20

25

30

35

40

45

50

DESCRIPCION

Predictor de regresión múltiple de múltiples canales de color TECNOLOGÍA

La presente invención se refiere en general a imágenes. Más particularmente, una realización de la presente invención se refiere a un predictor de regresión múltiple de múltiples canales de color entre imágenes de alto rango dinámico e imágenes de rango dinámico estándar.

ANTECEDENTES

Como se utiliza en el presente documento, el término 'rango dinámico' (DR) puede referirse a una capacidad del sistema psicovisual humano (HVS) para percibir un rango de intensidad (p. ej., luminancia, luma) en una imagen, p. ej., desde los oscuros más oscuros hasta los claros más claros. En este sentido, el DR se refiere a una intensidad 'referida a la escena'. El DR también se puede relacionar con la capacidad de un dispositivo de visualización para presentar de manera adecuada o aproximada un rango de intensidad de una amplitud particular. En este sentido, el DR se refiere a una intensidad 'referida a la visualización'. A menos que se especifique explícitamente que un sentido particular tiene un significado particular en cualquier punto de la descripción en el presente documento, se debe inferir que el término puede utilizarse en cualquier sentido, p. ej. indistintamente.

Como se utiliza en el presente documento, el término alto rango dinámico (HDR) se refiere a una amplitud de DR que abarca los aproximadamente 14-15 órdenes de magnitud del sistema visual humano (HVS). Por ejemplo, los humanos bien adaptados con esencialmente normal (p. ej., en uno o más de un sentido estadístico, biométrico u oftalmológico) tienen un rango de intensidad que abarca aproximadamente 15 órdenes de magnitud. Los humanos adaptados pueden percibir fuentes de luz tenue de tan solo unos cuantos fotones. Sin embargo, estos mismos humanos pueden percibir la intensidad casi dolorosa del sol del mediodía en el desierto, el mar o la nieve (o incluso mirar al sol, aunque sea brevemente para evitar daños). Sin embargo, este rango está disponible para humanos "adaptados", p. ej., cuyo HVS tiene un período de tiempo en el cual se reinicia y ajusta.

Por el contrario, el DR a través del cual un ser humano puede percibir simultáneamente una amplitud extensa en el rango de intensidad puede verse algo truncado en relación con el HDR. Como se utilizan en el presente documento, los términos 'rango dinámico visual' o 'rango dinámico variable' (VDR) pueden referirse individual o indistintamente al DR que es percibidle simultáneamente por un HVS. Como se utiliza en el presente documento, el VDR puede relacionarse con un DR que abarca 5-6 órdenes de magnitud. Por lo tanto, aunque quizá un poco más estrecho en relación con el HDR referido a la escena real, el VDR representa, no obstante, una extensa amplitud de DR. Como se utiliza en el presente documento, el término "rango dinámico simultáneo" puede referirse al VDR.

Hasta hace relativamente poco, las pantallas han tenido un DR significativamente más estrecho que el HDR o el VDR. Los aparatos de televisión (TV) y los monitores de ordenadores que utilizan un tubo de rayos catódicos (CRT) típico, pantallas de cristal líquido (LCD) con iluminación de fondo blanca fluorescente constante o tecnología de pantalla de plasma, pueden verse limitadas en su capacidad de representación de DR a aproximadamente tres órdenes de magnitud. Tales pantallas convencionales tipifican, por lo tanto, un rango dinámico bajo (LDR), también denominado rango dinámico estándar (SDR), en relación con el VDR y el HDR.

Sin embargo, los avances en su tecnología subyacente permiten a los diseños de visualización más modernos representar contenido de imagen y video con mejoras significativas en diversas características de calidad sobre el mismo contenido, que cuando se representa en pantallas menos modernas. Por ejemplo, los dispositivos de visualización más modernos pueden ser capaces de representar contenido de alta definición (HD) y/o contenido que puede escalarse de acuerdo con diversas capacidades de visualización, tales como un escalador de imágenes. Además, algunas pantallas más modernas son capaces de representar contenido con un DR que es más alto que el SDR de las pantallas convencionales.

Por ejemplo, algunas pantallas LCD modernas tienen una unidad de retroiluminación (BLU) que comprende una matriz de diodos emisores de luz (LED). Los LED de la matriz de BLU pueden modularse por separado de la modulación de los estados de polarización de los elementos LCD activos. Este enfoque de modulación dual es extensible (p. ej., a N capas de modulación, en las que N comprende un número entero mayor que dos), tal como con capas intermedias controlables entre la matriz de BLU y los elementos de pantalla LCD. Sus BLU basadas en la matriz de LED y modulación dual (o N) aumenta eficazmente el DR referido a la visualización de los monitores LCD que tienen tales características.

5

10

15

20

25

30

35

40

45

50

Tales "pantallas HDR" como a menudo se llaman (aunque en realidad, sus capacidades pueden aproximarse más al rango de VDR) y la extensión de DR de la que son capaces, en relación con las pantallas SDR convencionales representan un avance significativo en la capacidad de visualizar contenido de imágenes, video y otra información visual. La gama de colores que tal pantalla HDR puede representar también puede exceder significativamente la gama de colores de las pantallas más convencionales, incluso hasta el punto de representar una amplia gama de colores (WCG). El contenido de imágenes de HDR o VDR y WCG relacionado con escenas, tal como el que puede ser generado por cámaras cinematográficas y de TV de "próxima generación", ahora se pueden mostrar más fiel y eficazmente con las pantallas "HDR" (en adelante referidas como 'pantallas HDR').

Al igual que con las tecnologías de codificación de video escalable y de HDTV, extender el DR de la imagen normalmente implica un enfoque bifurcado. Por ejemplo, el contenido HDR referido a la escena que se captura con una cámara con capacidad HDR moderna se puede utilizar para generar una versión de SDR del contenido, que puede mostrarse en pantallas SDR convencionales. En un enfoque, generar la versión SDR a partir de la versión VDR capturada puede implicar la aplicación de un operador de mapeo tonal (TMO) global a los valores de píxel relacionados con la intensidad (p. ej., luminancia, luma) en el contenido HDR. En un segundo enfoque, como se describe en la Solicitud de Patente Internacional N° PCT/US2011/048861 presentada el 23 de agosto de 2011, incorporada en el presente documento como referencia para todos los fines, generar una imagen SDR puede implicar la aplicación de un operador (o predictor) invertible en los datos VDR. Para conservar el ancho de banda o por otras consideraciones, la transmisión del contenido de VDR capturado real puede no ser el mejor enfoque.

Por lo tanto, un operador de mapeo tonal inverso (iTMO), invertido en relación con el TMO original, o un operador inverso en relación con el predictor original, puede aplicarse a la versión del contenido SDR que se generó, lo que permite predecir una versión del contenido de VDR. La versión del contenido VDR prevista se puede comparar con el contenido HDR capturado originalmente. Por ejemplo, sustrayendo la versión VDR prevista de la versión VDR original puede generar una imagen residual. Un codificador puede enviar el contenido SDR generado como una capa base (BL), y empaquetar la versión del contenido SDR generado, cualquier imagen residual y el iTMO u otros predictores como una capa de mejora (EL) o como metadatos.

Enviar la EL y los metadatos, con su contenido SDR, residual y predictores, en un flujo de bits normalmente consume menos ancho de banda del que se consumiría al enviar ambos contenidos HDR y SDR directamente en el flujo de bits. Los decodificadores compatibles que reciben el flujo de bits enviado por el codificador pueden decodificar y representar el SDR en pantallas convencionales. Sin embargo, los decodificadores compatibles también pueden utilizar la imagen residual, los predictores iTMO o los metadatos para calcular una versión prevista del contenido HDR a partir de los mismos, para la utilización en pantallas más capaces. El objeto de esta invención es proporcionar métodos novedosos para generar predictores que permiten la codificación, transmisión y decodificación eficaz de datos VDR utilizando los datos SDR correspondientes.

Los enfoques descritos en esta sección son enfoques que podrían aplicarse, pero no necesariamente enfoques que hayan sido previamente concebidos o aplicados. Por lo tanto, a menos que se indique lo contrario, no debe suponerse que cualquiera de los enfoques descritos en esta sección calificado como la técnica anterior, meramente en virtud de su inclusión en esta sección. De manera similar, las cuestiones identificadas con respecto a uno o más enfoques no deben suponerse que han sido reconocidos en cualquier técnica anterior en base a esta sección, a menos que se indique lo contrario.

También se hace referencia al documento WO 2008/128898 A1, el cual da a conocer generar una capa base (BL) y una capa de mejora (EL) para dos o más versiones de un video con diferente resolución espacial, temporal o SNR. Para el caso donde las dos o más versiones con diferente profundidad de color utilizan diferente codificación de color, el documento WO 2008/128898 A1 propone un mapeo tonal basado en la predicción entre capas conjunta entre los canales de color disponibles, es decir, una predicción conjunta basada en todas las componentes de color.

Se hace referencia adicional al documento EP 2 009 921 A2 que se refiere al mapeo tonal inverso de una imagen en un decodificador. Para cada uno de los bloques de cada uno de los canales de color de la imagen, se realizan los siguientes pasos. Se determina un factor de escala para un bloque actual de la imagen añadiendo un factor de escala previsto para el bloque actual a una diferencia entre el factor de escala previsto y el factor de escala de un bloque adyacente. Se determina un valor de desplazamiento para el bloque actual añadiendo un desplazamiento previsto para el bloque actual a una diferencia entre el valor de desplazamiento previsto y el valor de desplazamiento del bloque adyacente. El factor de escala y el valor de desplazamiento se aplican a los valores de intensidad de píxel del bloque actual para producir un bloque mapeado en el que una profundidad de bits del bloque mapeado es mayor que la profundidad de bits del bloque actual.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

Una realización de la presente invención se ilustra a modo de ejemplo, y no a modo de limitación, en las figuras de los dibujos adjuntos y en los que los mismos números de referencia se refieren a elementos similares y en los que:

La FIG. 1 representa un flujo de datos de ejemplo para un sistema VDR-SDR, de acuerdo con una realización de la presente invención;

5 la FIG. 2 representa un sistema de codificación VDR de ejemplo, de acuerdo con una realización de la presente invención;

La FIG. 3 representa las interfaces de entrada y salida de un predictor de regresión múltiple multivariante, de acuerdo con una realización de la presente invención;

la FIG. 4 representa un proceso de predicción de regresión múltiple multivariante de ejemplo, de acuerdo con una 10 realización de la presente invención;

la FIG. 5 representa un proceso de ejemplo para decidir sobre el modelo de un predictor de regresión múltiple multivariante, de acuerdo con una realización de la presente invención;

la FIG. 6 representa un decodificador de imagen de ejemplo con un predictor que funciona de acuerdo con las realizaciones de esta invención.

15 DESCRIPCION DE LAS REALIZACIONES DE EJEMPLO

La predicción de imagen entre colores basada en el modelado de regresión múltiple multivariante se describe en el presente documento. Dado un par de imágenes VDR y SDR correspondientes, es decir, imágenes que representan la misma escena pero a diferentes niveles de rango dinámico, esta sección describe los métodos que permiten a un codificador aproximar la imagen VDR en términos de la imagen SDR y un predictor de regresión múltiple 20 multivariante (MMR). En la siguiente descripción, para los fines de la explicación, se exponen numerosos detalles específicos para proporcionar una comprensión completa de la presente invención. Sin embargo, será evidente que la presente invención se puede poner en práctica sin estos detalles específicos. En otros casos, las estructuras y dispositivos bien conocidos no se describen exhaustivamente, para evitar ocluir, enmascara u ofuscar innecesariamente la presente invención.

25 RESUMEN

Las realizaciones de ejemplo descritas en el presente documento se refieren a imágenes de codificación con alto rango dinámico. Una realización crea un predictor de MMR que permite expresar una imagen VDR en relación con su representación SDR correspondiente.

SISTEMA VDR-SDR DE EJEMPLO

30 La FIG. 1 representa un flujo de datos de ejemplo en un sistema VDR-SDR 100 de acuerdo con una realización de la presente invención. Se captura una imagen o secuencia de video HDR utilizando la cámara HDR 110. Después de la captura, la imagen o video capturado se procesa mediante un proceso de masterización para crear una imagen VDR objetivo 125. El proceso de masterización puede incorporar una variedad de pasos de procesamiento, tales como: edición, corrección de color primaria y secundaria, transformación de color y filtrado de ruido. La salida VDR 125 de 35 este proceso representa la intención del director sobre cómo se visualizará la imagen capturada en una pantalla VDR de destino.

El proceso de masterización también puede generar una imagen SDR 145 correspondiente, que representa la intención del director de cómo se visualizará la imagen capturada en una pantalla de SDR tradicional. La salida SDR 145 puede proporcionarse directamente desde el circuito de masterización 120 o puede generarse con un 40 convertidor de VDR a SDR 140 separado.

En esta realización de ejemplo, las señales VDR 125 y SDR 145 se introducen en un codificador 130. El objetivo del codificador 130 es crear un flujo de bits codificado que reduzca el ancho de banda requerido para transmitir las señales VDR y SDR, pero también permite a un decodificador 150 correspondiente decodificar y representar cualquiera de las señales SDR o vDr. En una implementación de ejemplo, el codificador 130 puede ser un 45 codificador en capas, tal como uno de los definidos por los estándares de codificación MPEG-2 y H.264, que representa su salida como una capa base, una capa de mejora opcional y metadatos. Como se utiliza en el presente

4

5

10

15

20

25

30

35

40

45

documento, el término "metadatos" se refiere a cualquier información auxiliar que se transmite como parte del flujo de bits codificado y ayuda a un decodificador a representar una imagen decodificada. Tales metadatos pueden incluir, pero no están limitados a, datos tales como: espacio de color o información de gama, información de rango dinámico, información de mapeo tonal, u operadores de predictor de MMR, tales como los descritos en el presente documento.

En el receptor, un decodificador 150, utiliza los flujos de bits codificados recibidos y los metadatos para representar una imagen SDR o una imagen VDR, de acuerdo con las capacidades de la pantalla de destino. Por ejemplo, una pantalla SDR puede utilizar solo la capa base y los metadatos para representar una imagen SDR. Por el contrario, una pantalla VDR puede utilizar información de todas las capas de entrada y los metadatos para representar una señal VDR.

La FIG. 2 muestra más en detalle una implementación de ejemplo del codificador 130 que incorpora los métodos de esta invención. En la Fig. 2, SDR' denota una señal SDR mejorada. Hoy, el video SDR es de datos de 8 bits, 4:2:0, ITU Rec. 709. El SDR' puede tener el mismo espacio de color (primarios y punto blanco) que el SDR, pero puede utilizar alta precisión, digamos 12 bits por píxel, con todas las componentes de color a resolución espacial completa (p. ej., RGB 4:4:4). De la FIG. 2, el SDR puede derivarse fácilmente a partir de una señal SDR' utilizando un conjunto de transformadas directas que pueden incluir cuantificación de digamos 12 bits por píxel a 8 bits por píxel, transformación de color, digamos de RGB a YUV, y submuestreo de color, digamos de 4:4:4 a 4:2:0. La salida SDR del convertidor 210 se aplica al sistema de compresión 220. Dependiendo de la aplicación, el sistema de compresión 220 puede ser con pérdidas, tal como H.264 o MPEG-2, o sin pérdidas. La salida del sistema de compresión 220 puede transmitirse como una capa base 225. Para reducir la desviación entre las señales codificadas y decodificadas, no es inusual que el codificador 130 siga al proceso de compresión 220 con un proceso de descompresión 230 correspondiente y las transformadas inversas 240, correspondientes a las transformadas directas de 210. Por lo tanto, el predictor 250 puede tener las siguientes entradas: entrada VDR 205 y cualquier señal SDR' 245, que corresponde a la señal SDR' tal como será recibida por un decodificador correspondiente, o entrada SDR' 207. El Predictor 250, utilizando los datos VDR y SDR' de entrada, creará la señal 257 que representa una aproximación o estimación de la entrada VDR 205. El sumador 260 sustrae el VDR previsto 257 del VDR original 205 para formar la señal residual de salida 265. Posteriormente (no mostrado), la residual 265 también puede codificarse por otro codificador con pérdidas o sin pérdidas, y puede transmitirse al decodificador como una capa de mejora.

El predictor 250 también puede proporcionar los parámetros de predicción que se utilizan en el proceso de predicción como metadatos 255. Dado que los parámetros de predicción pueden cambiar durante el proceso de codificación, por ejemplo, fotograma por fotograma o escena por escena, estos metadatos pueden transmitirse al decodificador como parte de los datos que también incluyen la capa base y la capa de mejora.

Dado que tanto el VDR 205 como el SDR' 207 representan la misma escena, pero están dirigidos a diferentes pantallas con diferentes características, tales como el rango dinámico y la gama de colores, se espera que haya una correlación muy estrecha entre estas dos señales. En una realización de ejemplo de esta invención, se desarrolla un predictor de regresión múltiple (MMR), multivariante 250 novedoso que permite predecir la señal VDR de entrada utilizando su señal SDR' correspondiente y un operador MMR multivariante.

EJEMPLO DE MODELOS DE PREDICCIÓN

La FIG. 3 muestra las interfaces de entrada y salida de un predictor MMR 300 de acuerdo con una implementación de ejemplo de esta invención. De la FIG. 3, el predictor 330 recibe los vectores de entrada v 310 y s 320, que representan los datos de imagen VDR y SDR, respectivamente, y da salida al vector v 340, que representa el valor previsto de la entrada v.

Notación y Nomenclatura de Ejemplo

Denotar las tres componentes de color del /-ésimo pixel en la imagen SDR 320 como

imagen1

imagen2

Denotar las tres componentes de color del /-ésimo pixel en la entrada VDR 310 como

5

10

15

20

25

30

imagen3

Denotar las tres componentes de color previstas del /-ésimo pixel en el VDR previsto 340 como

a r A a a I

v/ = L';;i v/2 vn\

(3)

Denotar el número total de píxeles en una componente de color como p.

En las ecuaciones (1-3), los píxeles de color pueden estar en RGB, YUV, YCbCr, XYZ o cualquier otra representación de color. Mientras las ecuaciones (1-3) suponen una representación de tres colores para cada uno de los píxeles en una imagen o fotograma de video, como también se muestra más adelante, los métodos descritos en el presente documento pueden extenderse fácilmente a representaciones de imágenes y videos con más de tres componentes de color por píxel, o a la representación de imágenes donde una de las entradas puede tener píxeles con un número diferente de representaciones de color que la otra entrada.

Modelo de primer orden (MMR-1)

Utilizando un modelo de regresión múltiple multivariante (MMR), el modelo de predicción de primer orden se puede expresar como:

imagen4

donde MI(1) es una matriz de 3x3 y n es un vector de 1x3 definido como:

imagen5

Destacar que este es un modelo de predicción de múltiples canales de color. En V/ de la ecuación (4), cada una de las componentes de color se expresa como una combinación lineal de todas las componentes de color en la entrada. En otras palabras, a diferencia de otros predictores de color de un solo canal, donde cada uno de los canales de color se procesa por sí mismo e independientemente el uno del otro, para cada uno de los píxeles de salida, este modelo toma en consideración todas las componentes de color de un píxel y así aprovecha al máximo cualquier correlación entre colores y redundancia.

La ecuación (4) se puede simplificar utilizando una sola expresión basada en matriz:

imagen6

dónde

5

10

15

20

25

Ma>

«11: «12 «13

<
<
<

<
<
<

»»,(>): „><» „,(0

y

imagen7

(7)

Al recopilar todos los píxeles p de un fotograma (u otra porción o partición adecuada de una entrada) juntos, uno puede tener la siguiente expresión de matriz,

V = S'M(1)

(8)

dónde

1

So: v0 /\

si: /\ Vi

v - i y T

1— VI ’ra 1____: Lvd

(9)

representan los datos de entrada y de salida previstos, S' es una matriz de datos de px4, V es una matriz de px3, y M(1) es una matriz de 4x3. Como se utiliza en el presente documento, M(1) se puede referir, indistintamente, como un operador multivariante o como una matriz de predicción.

Basado en este sistema lineal de ecuaciones (8), uno puede formular este sistema MMR como dos problemas diferentes: (a) un problema de mínimos cuadrados, o (b) un problema de mínimos cuadrados totales; ambos pueden resolverse utilizando métodos numéricos bien conocidos. Por ejemplo, utilizando un enfoque de mínimos cuadrados, el problema de resolver M puede formularse como minimizar el error cuadrático medio residual o de predicción, o

minlv-vl , (10)

M111 II II

donde V es una matriz de px3 formada utilizando los datos de entrada VDR correspondientes.

Dadas las ecuaciones (8) y (10), la solución óptima para M(1) viene dada por

M(1) =(S,rST1S,rV, (11)

donde, S'T denota la transposición de S', y S'TS' es una matriz de 4x4.

Si S' tiene rango de columna completo, p. ej., rango{S') ^ 4 < p >

entonces M(1) también se puede resolver utilizando una variedad de técnicas numéricas alternativas, que incluyen descomposiciones SVD, QR o LU.

Modelo de segundo orden (MMR-2)

La ecuación (4) representa un modelo de predicción de MMR de primer orden. También se puede considerar adoptar un orden superior de predicción como se describe a continuación.

5

10

15

20

25

imagen8

imagen9

Al recopilar todos los píxeles p juntos, uno puede definir la siguiente expresión de matriz:

dónde

imagen10

La ecuación (14) puede resolverse utilizando la misma optimización y soluciones que se describieron en la sección anterior. La solución óptima para M(2) para el problema de mínimos cuadrados es

(19)

donde S(2)TS(2) es ahora una matriz de 7x7.

Los modelos de MMR de tercer orden o superiores también se pueden construir de una manera similar.

Modelo de primer orden con producto cruzado (MMR-1C)

En un modelo de MMR alternativo, el modelo de predicción de primer orden de la ecuación (4) se puede mejorar para incorporar multiplicaciones cruzadas entre las componentes de color de cada uno de los píxeles, como en:

v, =scíC(1)+síM(1)+n (20)

imagen11

5

10

15

20

donde MI(1) es una matriz de 3x3 y n es un vector de 1x3, ambos como se define en la ecuación (5), y.

imagen12

Siguiendo el mismo enfoque que antes, el modelo de MMR-1C de la ecuación (20) se puede simplificar utilizando una única matriz de predicción MC, como en:

dónde

imagen13

se

(i) _

= [l S,. sc,.] = [l s„

,]■ (24)

Al recopilar todos los píxeles p juntos, uno puede derivar una expresión de matriz simplificada, como en

imagen14

SC es una matriz de px(1 + 7) y la ecuación (25) se puede resolver utilizando la misma solución de mínimos cuadrados descrita anteriormente.

Modelo de segundo orden con productos cruzados (MMR-2C)

El modelo de primer orden MMR-1C puede extenderse para incluir también datos de segundo orden. Por ejemplo,

imagen15

dónde

y

imagen16

5

10

15

20

25

imagen17

y las componentes de la ecuación (27) restantes son los mismas que las definidas anteriormente en las ecuaciones (5-26).

Como antes, la ecuación (27) puede simplificarse utilizando una matriz de predicción simple MC

(2)

dónde

imagen18

Al recopilar todos los píxeles p juntos, uno puede tener una expresión de matriz simplificada

imagen19

y

imagen20

imagen21

y SC(2) es una matriz de px(1 + 2 * 7) y uno puede aplicar las mismas soluciones de mínimos cuadrados como se ha descrito anteriormente.

Los modelos de tercer orden o superiores con parámetros de productos cruzados también se pueden construir de forma similar. Alternativamente, como se describe en el Capítulo 5.4.3 de "Digital Color Imaging Handbook', CRC Press, 2002, editado por Gaurav Sharma, una representación de orden K del modelo de productos cruzados MMR también puede describirse utilizando la siguiente formulación:

imagen22

5

10

15

20

25

30

35

(35)

(36)

donde K denota el orden más alto del predictor de MMR.

Extensión espacial basada en MMR (MMR-CS)

En todos los modelos de MMR descritos hasta ahora, el valor de un píxel v, previsto solo depende de los valores de entrada correspondientes, colocados normalmente, de Si. Según la predicción basada en MMR, uno también se puede beneficiar tomando en consideración los datos de los píxeles vecinos. Este enfoque corresponde a la integración en el modelo de MMR cualquier tipo de procesamiento lineal de las entradas en el dominio espacial, tal como el filtrado tipo FIR.

Si en una imagen uno considera todos los ocho píxeles vecinos posibles, este enfoque puede agregar hasta ocho variables de primer orden más por componente de color en nuestra matriz de predicción M. En la práctica, sin embargo, suele ser adecuado agregar solo las variables de predicción correspondientes a los dos píxeles vecinos horizontales y verticales, e ignorar los vecinos diagonales. Esto agregará hasta cuatro variables por componente de color en la matriz de predicción, es decir, aquellas correspondientes a los píxeles superior, izquierdo, inferior y derecho. De manera similar, uno también puede agregar los parámetros correspondientes al orden superior de los valores del píxel vecino.

Para simplificar los requisitos de complejidad y computación de dicho modelo de MMR espacial, uno puede considerar agregar extensiones espaciales a los modelos tradicionales solo para una componente de color única, tal como la componente de luminancia (como en una representación Luma-Chroma) o la componente Verde (como en una representación RGB). Por ejemplo, suponiendo que uno agrega la predicción de píxeles basada en el espacio para la componente de color solo verde, a partir de las ecuaciones (34-36), una expresión general para predecir un valor de píxel de salida verde sería

K K K

vg(t,./')-ZZZ"Vv.v.X(*>j'K(*>j'K(*>J) + Z Zsmg.^sg(*+x’J+y)- (37)

,v=0 v=0 z=0 *={-1,1} v={—1,1}

K K K

IZI'

x=0 y=0 z=0

v2 = LLLm2.*.yXs2s¡

imagen23

y

Modelo de Primer Orden con Extensión Espacial (MMR-1-S)

Como otra implementación de ejemplo, se puede considerar nuevamente el modelo de MMR de primer orden (MMR- 1) de la ecuación (4), pero ahora mejorado para incorporar extensiones espaciales en una o más de las componentes de color; Por ejemplo, cuando se aplica a cuatro píxeles vecinos de cada uno de los píxeles en la primera componente de color:

v;: =sd!.Dtl)+sfM(l)+n, (38)

donde M(1) es una matriz de 3x3 y n es un vector de 1x3, ambos como se define en la ecuación (5),

0 o"

0 0

0 0 ’

0 0

imagen24

5

10

15

20

25

30

35

imagen25

donde m en la ecuación (39) denota el número de columnas en un fotograma de entrada con m columnas y n filas, o m x n = p píxeles totales. La ecuación (39) se puede extender fácilmente para aplicar estos métodos tanto a otras componentes de color como a configuraciones de píxeles vecinos alternativas.

Siguiendo los mismos enfoques que antes, la ecuación (38) se puede formular fácilmente como un sistema de ecuaciones lineales

V - SD- MD(1)

(40)

que se puede resolver como se ha descrito anteriormente. Aplicación a Señales VDR Con Más De Tres Colores Primarios

Todos los modelos de predicción de MMR propuestos pueden extenderse fácilmente a espacios de señal con más de tres colores primarios. Como un ejemplo, uno puede considerar el caso donde una señal SDR tiene tres colores primarios, digamos RGB, pero la señal VDR se define en el espacio de color P6, con seis colores primarios. En este caso, las ecuaciones (1-3) se pueden reescribir como

imagen26

/\ I A /\ /V /"V. '"'‘I

vf=ki v¿2 vf3 ví4 v¿5 V.6J.

(43

Como antes, denotar el número de píxeles en una componente de color como p. Considerando ahora el modelo de predicción de MMR de primer orden (MMR-1) de la ecuación (4),

imagen27

La ecuación (41) se puede expresar utilizando una única matriz de predicción M(1) como

imagen28

y

5

10

15

20

25

30

35

40

Al recopilar todos los píxeles p juntos, este problema de predicción se puede describir como

imagen29

Los modelos de predicción de MMR de orden superior también se pueden extender de manera similar y las soluciones para las matrices de predicción se pueden obtener a través de los métodos presentados anteriormente.

PROCESO DE EJEMPLO PARA LA PREDICCION DE REGRESION MULTIPLE MULTICANAL

La FIG. 4 muestra un proceso de ejemplo para la predicción de regresión múltiple multicanal de acuerdo con una implementación de ejemplo de nuestra invención.

El proceso comienza en el paso 410, en donde un predictor, tal como el predictor 250, recibe las señales VDR y SDR de entrada. Dadas las dos entradas, en el paso 420, el predictor decide qué modelo de MMR seleccionar. Como se ha descrito anteriormente, el predictor puede seleccionar entre una variedad de modelos de MMR, que incluyen (pero no necesariamente se limitan a): primer orden (MMR-1), segundo orden (MMR-2), tercer orden o superior, primer orden con producto cruzado (MMR-1C), segundo orden con producto cruzado (MMR-2C), tercer orden o superior con producto cruzado, o cualquiera de los modelos anteriores con extensiones espaciales agregadas.

La selección del modelo de MMR se puede realizar utilizando una variedad de métodos que tienen en cuenta una serie de criterios, que incluyen: conocimiento previo sobre las entradas SDR y VDR, recursos computacionales y de memoria disponibles, y eficiencia de codificación objetivo. La FIG. 5 muestra una implementación de ejemplo del paso 420 en base al requisito de que la residual sea inferior a un umbral predeterminado.

Como se ha descrito anteriormente, cualquier modelo de MMR se puede representar como un conjunto de ecuaciones lineales de la forma

V - SM

(50)

donde M es una matriz de predicción.

En el paso 430, M puede resolverse utilizando una variedad de métodos numéricos. Por ejemplo, bajo la restricción de minimizar el cuadrado medio de la residual entre V y su estimación V ,

M =(SÍS)^1SIV. (51)

Finalmente, en el paso 440, utilizando la ecuación (50), el predictor da salida a V ya M.

La FIG. 5 muestra un proceso 420 de ejemplo para seleccionar un modelo de MMR durante la predicción. El predictor 250 puede comenzar en el paso 510 con un modelo de MMR inicial, tal como el que se ha utilizado en un fotograma o escena anterior, por ejemplo el modelo de segundo orden (MMR-2), o el modelo más simple posible, tal como el MMR-1. Después de resolver M, en el paso 520 el predictor calcula el error de predicción entre la entrada V y su valor previsto. En el paso 530, si el error de predicción es menor que un umbral dado, entonces el predictor selecciona el modelo existente y se detiene el proceso de selección (540), de lo contrario, en el paso 550, estudia si utiliza un modelo más complejo. Por ejemplo, si el modelo actual es MMR-2, el predictor puede decidir utilizar MMR- 2-C o MMR-2-CS. Como se ha descrito anteriormente, esta decisión puede depender de una variedad de criterios, incluyendo el valor del error de predicción, los requisitos de procesamiento de potencia y la eficiencia de codificación objetivo. Si es factible utilizar un modelo más complejo, se selecciona un nuevo modelo en el paso 560 y el proceso vuelve de nuevo al paso 520. De lo contrario, el predictor utilizará el modelo existente (540).

El proceso de predicción 400 se puede repetir en una variedad de intervalos que se consideren necesarios para mantener la eficiencia de codificación mientras se utilizan los recursos de computación disponibles. Por ejemplo, cuando se codifican señales de vídeo, el proceso 400 se puede repetir por tamaño de porción de vídeo predefinido, para cada uno de los fotogramas, un grupo de fotogramas, o siempre que el residual de predicción exceda un 5 umbral particular.

El proceso de predicción 400 también puede utilizar todos los píxeles de entrada disponibles o una submuestra de esos píxeles. En una implementación de ejemplo, uno puede utilizar píxeles sólo de cada k-ésima fila de píxeles y de cada k-ésima columna de píxeles de los datos de entrada, donde k es un número entero igual o mayor que dos. En otra implementación de ejemplo uno puede decidir saltarse píxeles de entrada que están por debajo de un cierto 10 umbral de recorte (por ejemplo, muy cerca de cero) o píxeles que están por encima de un cierto umbral de saturación (por ejemplo, para datos de n bits, los valores de los píxeles que están muy cerca de 2n - 1). En aún otra implementación, uno puede utilizar una combinación de tales técnicas de submuestreo y de umbralización con el fin de reducir el tamaño de la muestra de píxeles y acomodar las limitaciones computacionales de una implementación particular.

15 DECODIFICACIÓN DE IMAGEN

Las realizaciones de la presente invención se pueden implementar ya sea en un codificador de imagen o en un decodificador de imagen. La FIG. 6 muestra una implementación de ejemplo del decodificador 150 de acuerdo con una realización de esta invención.

El sistema de decodificación 600 recibe un flujo de bits codificado que puede combinar una capa base 690, una capa 20 de mejora (o residual) 665 opcional y los metadatos 645, que se extraen después de la descompresión 630 y de diversas transformadas inversas 640. Por ejemplo, en un sistema VDR-SDR, la capa base 690 puede representar la representación SDR de la señal codificada y los metadatos 645 pueden incluir la información sobre el modelo de predicción de MMR que se utilizó en el predictor codificador 250 y los correspondientes parámetros de predicción. En una implementación de ejemplo, cuando el codificador utiliza un predictor de MMR de acuerdo con los métodos 25 de esta invención, los metadatos pueden incluir la identificación del modelo que se utiliza (por ejemplo, MMR-1, MMR-2, MMR-2C y similares) y todos los coeficientes de la matriz asociados con ese modelo específico. La capa base 690 s dada y los parámetros de color relacionados con MMR extraídos de los metadatos 645, el predictor 650 puede calcular el V 680 previsto utilizando cualquiera de las ecuaciones correspondiente descrita en el presente documento. Por ejemplo, si el modelo identificado es MMR-2C, entonces V 680 se puede calcular utilizando la 30 ecuación (32). Si no hay residual, o el residual es insignificante, al valor 680 previsto se le puede dar salida directamente como la imagen VDR final. De lo contrario, en el sumador 660, la salida del predictor (680) se añade a la residual 665 para dar salida a la señal VDR 670.

IMPLEMENTACIÓN DEL SISTEMA INFORMÁTICO DE EJEMPLO

Las realizaciones de la presente invención pueden implementarse con un sistema informático, sistemas 35 configurados en circuitería y componentes electrónicos, un dispositivo de circuito integrado (IC), tal como un microcontrolador, una matriz de puertas programables (FPGA), u otro dispositivo lógico configurable o programable (PLD), un procesador de tiempo discreto o de señal digital (DSP), un IC de aplicación específica (ASIC), y/o aparato que incluye uno o más de tales sistemas, dispositivos o componentes. El ordenador y/o IC puede realizar, controlar o ejecutar las instrucciones relativas a la predicción basada en MMR, tales como las descritas en el presente

40 documento. El ordenador y/o IC puede calcular, cualquiera de una variedad de parámetros o valores que se refieren

a la predicción de MMR como se describe en el presente documento. Las realizaciones de extensión de rango dinámico de imagen y de vídeo pueden implementarse en hardware, software, firmware y diversas combinaciones de los mismos.

Ciertas implementaciones de la invención comprenden procesadores informáticos que ejecutan instrucciones de 45 software que hacen que los procesadores realicen un método de la invención. Por ejemplo, uno o más procesadores en una pantalla, un codificador, un decodificador, un transcodificador o similares pueden implementar métodos de predicción basados en MMR como se ha descrito anteriormente mediante la ejecución de instrucciones de software en una memoria de programa accesible para los procesadores. La invención también se puede proporcionar en forma de un producto de programa. El producto de programa puede comprender cualquier medio que transporta un

50 conjunto de señales legibles por ordenador que comprenden instrucciones que, cuando se ejecutan por un

procesador de datos, hacen que el procesador de datos ejecute un método de la invención. Los productos de programa de acuerdo con la invención pueden estar en cualquiera de una amplia variedad de formas. El producto de programa puede comprender, por ejemplo, medios físicos tales como medios de almacenamiento de datos magnético que incluyen disquetes, discos duros, medios de almacenamiento de datos ópticos que incluyen CD-

ROM, DVD, medios de almacenamiento de datos electrónicos que incluyen ROM, RAM flash o similares. Las señales legibles por ordenador en el producto de programa pueden estar opcionalmente comprimidas o codificadas.

Cuando un componente (p. ej. un módulo de software, procesador, conjunto, dispositivo, circuito, etc.) se refiere a lo anterior, a menos que se indique lo contrario, la referencia a ese componente (incluyendo una referencia a un 5 "medio") debe interpretarse como incluyendo como equivalentes de ese componente cualquier componente que realiza la función del componente descrito (p. ej., que es equivalente funcionalmente), incluyendo componentes que no son equivalentes estructuralmente a la estructura dada a conocer que realiza la función en las realizaciones de ejemplo ilustradas de la invención.

EQUIVALENTES, EXTENSIONES, ALTERNATIVAS Y VARIOS

10 Las realizaciones de ejemplo que se refieren a aplicar la predicción de MMR en la codificación de imágenes VDR y SDR se describen así. En la memoria descriptiva anterior, las realizaciones de la presente invención se han descrito con referencia a numerosos detalles específicos que pueden variar de implementación a implementación. Por lo tanto, el único y exclusivo indicador de lo que es la invención, y se pretende por los solicitantes para ser la invención, es el conjunto de reivindicaciones que se facilitan de esta solicitud, en la forma específica en la cual se facilitan tales 15 reivindicaciones, incluyendo cualquier corrección posterior. Definiciones cualesquiera expresamente establecidas en el presente documento para los términos contenidos en tales reivindicaciones regirán el significado de tales términos como se utilizan en las reivindicaciones. Por lo tanto, ninguna limitación, elemento, propiedad, característica, ventaja o atributo que no se recita expresamente en una reivindicación, de ninguna manera deben limitar el alcance de dicha reivindicación. La memoria descriptica y los dibujos están, por consiguiente, para ser considerados en un sentido 20 ilustrativo en vez de uno restrictivo.

Claims

5

10

15

20

25

30

35

40

45

REIVINDICACIONES

1. Un método para aproximar utilizando un procesador una imagen que tiene un primer rango dinámico en términos de una imagen que tiene un segundo rango dinámico, comprendiendo el método;

recibir una primera imagen y una segunda imagen, en donde la segunda imagen tiene una rango dinámico diferente que la primera imagen;

seleccionar modelo de predicción de regresión múltiple (MMR) multicanal a partir de uno o más modelos de

MMR;

determinar los valores de parámetros de predicción del modelo de MMR seleccionado;

calcular una imagen de salida aproximando la primera imagen en base a la segunda imagen y los valores determinados de los parámetros de predicción del modelo de predicción de MMR seleccionado, en donde los valores de píxel de al menos una componente de color en la imagen de salida se calculan en base a una combinación de los valores de píxel de todos las componentes de color en la segunda imagen; y

dar salida a los valores determinados de los parámetros de predicción y a la imagen de salida calculada,

en donde el modelo de predicción de MMR seleccionado es al menos uno de: un modelo de MMR de primer orden con producto cruzado que incorpora, para cada uno de los píxeles, multiplicaciones cruzadas entre las componentes de color de ese píxel, un modelo de MMR de segundo orden con producto cruzado que además incorpora, para cada uno de los píxeles, multiplicaciones cruzadas entre las segundas potencias de las componentes de color de ese píxel, o un modelo de MMR de tercer orden con producto cruzado que incorpora todavía además, para cada uno de los píxeles, multiplicaciones cruzadas entre las terceras potencias de las componentes de color de ese píxel, y

en donde cualquiera de los modelos de MMR para predecir un píxel de la imagen de salida comprende, además, parámetros de predicción relacionados con píxeles vecinos de un píxel correspondiente en la segunda imagen de tal manera que los valores de píxel de dicha al menos una componente de color de un píxel previsto en la imagen de salida depende de una combinación de valores de píxel de todas las componentes de color del píxel correspondiente en la segunda imagen y además en los valores de píxel de dicha al menos una componente color de los píxeles vecinos del píxel correspondiente en la segunda imagen.
2. El método de la reivindicación 1, en donde la primera imagen comprende una imagen de Rango Dinámico Visual (VDR) y la segunda imagen comprende una imagen de Rango Dinámico Estándar (SDR).
3. El método de la reivindicación 1, en donde los píxeles vecinos comprenden el píxel vecino izquierdo, el píxel vecino de derecha, el píxel vecino superior y el píxel vecino inferior del píxel correspondiente en la segunda imagen.
4. El método de la reivindicación 2, en donde los píxeles de la primera imagen tienen más componentes de color que los píxeles de la segunda imagen.
5. El método de la reivindicación 1, en donde determinar los valores de los parámetros de predicción del modelo de predicción de MMR seleccionado comprende además aplicar métodos numéricos que minimizan el error cuadrático medio entre la primera imagen y la imagen de salida.
6. El método de la reivindicación 1, en donde seleccionar el modelo de predicción de MMR a partir de los uno o más modelos de predicción de MMR comprende además un proceso de selección iterativo que comprende:

(a) seleccionar y aplicar un modelo predicción de MMR inicial;

(b) calcular un error residual entre la primera imagen la imagen de salida y;

(c) seleccionar el modelo de MMR inicial si el error residual es menor que un umbral de error y no es seleccionable otro modelo de predicción de MMR; de lo contrario,

seleccionar un nuevo modelo de predicción de MMR de la variedad de modelos de predicción de MMR, siendo el nuevo modelo de predicción de MMR diferente del modelo de predicción de MMR previamente seleccionado; y volver al paso (b).
7. El método de la reivindicación 1, en donde el modelo de MMR de primer orden comprende un modelo de predicción de acuerdo con la fórmula

V; =S;M(l:) +11,

5

10

15

20

25

30

35

40

en donde

V, = [v/1 v/2 v/a] denota las tres componentes de color previstas del /-ésimo píxel de la primera imagen,

Si = [s/1 s/2 Si3] denota las tres componentes de color del /-ésimo píxel de la segunda imagen, M(1) es una matriz de parámetros de predicción de 3x3 y n es un vector de parámetros de predicción de 1x3 de acuerdo con

imagen1
8. El método de la reivindicación 7, en donde el modelo de MMR de primer orden comprende además productos cruzados de acuerdo con la fórmula

y,. = sc,C(1J + s,M(1)

en donde C(1) es una matriz de parámetros de predicción de 4x3 y se, es un vector de 1x4 de acuerdo con

+ n,

imagen2

■ • S,3 ]
9. El método de la reivindicación 1, en donde el modelo de MMR de segundo orden comprende un modelo de predicción de acuerdo con la fórmula

imagen3

en donde

v/ = [í/i v/2 v/3] denota las tres componentes de color previstas del /-ésimo píxel de la primera imagen, si = [s,i S/2S/3] denota las tres componentes de color del /'-ésimo píxel de la segunda imagen,

denota los valores cuadrados de las tres componentes de color del /-ésimo píxel de la segunda imagen, M(1) y M(2) son matrices de parámetros de predicción de 3x3, y n es un vector de parámetros de predicción de 1x3.

imagen4
10. El método de la reivindicación 9, en donde el modelo de MMR de segundo orden comprende además productos cruzados de acuerdo con la fórmula

en donde

imagen5

4x3.
11. Un método de decodificación de imágenes que comprende:

recibir una primera imagen que tiene un primer rango dinámico;

recibir metadatos, en donde dichos metadatos incluyen un modelo de predicción de regresión múltiple (MMR) adaptado para aproximar una segunda imagen que tiene un segundo rango dinámico en términos de la primera imagen, y los parámetros de predicción del modelo de predicción de MMR, los metadatos que incluyen además los valores determinados previamente de los parámetros de predicción; y

aplicar la primera imagen y los valores determinados previamente de los parámetros de predicción al modelo de predicción de MMR para calcular una imagen de salida para aproximar la segunda imagen, en donde el segundo rango dinámico es diferente del primer rango dinámico, y en donde los valores de píxeles de al menos una componente de color de la imagen de salida se calcula en base a una combinación de los valores de píxel de todas las componentes de color en la primera imagen, en donde el modelo de predicción de MMR seleccionado es al menos uno de: un modelo de MMR de primer orden con producto cruzado que incorpora, para cada uno de los píxeles, multiplicaciones cruzadas entre las componentes de color de dicho píxel, un modelo de MMR de segundo orden con producto cruzado que incorpora además, para cada uno de los píxeles, multiplicaciones cruzadas entre las segundas potencias de las componentes de color de dicho píxel, o un modelo de MMR de tercer orden con

5

10

15

20

25

30

35

producto cruzado que todavía además incorpora, para cada uno de los píxeles, multiplicaciones cruzadas entre las terceras potencias de las componentes de color de dicho píxel, y

en donde el modelo de MMR para predecir un píxel de la imagen de salida comprende, además, los parámetros de predicción relacionados con los píxeles vecinos de un píxel correspondiente en la primera imagen de tal manera que los valores de píxel de dicha al menos una componente de color de un píxel previsto en la imagen de salida dependen de una combinación de valores de píxel de todas las componentes de color del píxel correspondiente en la primera imagen y además en los valores de píxel de dicha al menos una componente de color de los píxeles vecinos del píxel correspondiente en la primera imagen.
12. El método de la reivindicación 11, en donde el modelo de MMR de segundo orden comprende un modelo de predicción de acuerdo con la fórmula

imagen6

en donde

Vi = [ívi V12V3] denota las tres componentes de color previstas del i-ésimo píxel de la segunda imagen, si = [s/i S/2S/3] denota las tres componentes de color del /-ésimo píxel de la primera imagen,

j}7 = I £7 y ^ y 77 I

denota los valores cuadrados de las tres componentes de color del i-ésimo píxel de la primera imagen, M(1) y M(2) son matrices de parámetros de predicción de 3x3, y n es un vector de parámetros de predicción de 1x3.
13. El método de la reivindicación 12, en donde el modelo de MMR de segundo orden comprende además productos cruzados de acuerdo con la fórmula

v,. =sc;C(2) +sfM<2) +sc;C(l1 +s.M(1) +n en donde

y C(1) y C(2)

4x3.

imagen7

comprenden matrices de parámetros de predicción de
14. El método de la reivindicación 11, en donde la primera imagen comprende una imagen SDR y la segunda imagen comprende una imagen VDR.
15. Un medio de almacenamiento legible por ordenador no transitorio que tiene almacenadas en las mismas instrucciones ejecutables por ordenador para ejecutar con uno o más procesadores un método de acuerdo con la reivindicación 1.
16. Un medio de almacenamiento legible por ordenador no transitorio que tiene almacenadas en el mismo instrucciones ejecutables por ordenador para ejecutar con uno o más procesadores un método de acuerdo con la reivindicación 11.