ES2660610T3

ES2660610T3 - Procedimiento y aparato para la detección y clasificación de regiones de oclusión

Info

Publication number: ES2660610T3
Application number: ES11163706.2T
Authority: ES
Inventors: Bertan Gunyel; Abdullah Aydin Alatan
Original assignee: Vestel Elektronik Sanayi ve Ticaret AS
Current assignee: Vestel Elektronik Sanayi ve Ticaret AS
Priority date: 2010-04-30
Filing date: 2011-04-26
Publication date: 2018-03-23
Anticipated expiration: 2031-04-26
Also published as: EP2383992A2; EP2383992A3; EP2383992B1

Abstract

Procedimiento de interpolación de fotograma para una secuencia de fotogramas de video que comprende la localización de una fotograma interpolado (102) temporalmente entre un primer fotograma y un segundo fotograma (100, 104) de dicha secuencia, comprendiendo dicho procedimiento: - examen de una pluralidad de regiones de dicho fotograma interpolado en relación a regiones de oclusión en dicho fotograma interpolado, utilizando vectores de movimiento hacia adelante, bidireccional y hacia atrás estimados para cada uno de dichos primer, interpolado y segundo fotogramas y la comparación de, al menos, un vector de movimiento bidireccional ya con un vector de movimiento hacia atrás o con un vector de movimiento hacia adelante; - mediante dicha comparación identificación de regiones en las que se encuentran incoherencias, como regiones de oclusión, e identificación de otras regiones sin incoherencias como regiones no ocluidas; - clasificación de dichas regiones de oclusión como cubiertas o descubiertas; e - interpolación de regiones identificadas como no ocluidas, utilizando información a partir tanto de dicho primer fotograma como de dicho segundo fotograma; - interpolación de dichas regiones de oclusión clasificadas como cubiertas, utilizando información de dicho primer fotograma; e - interpolación de regiones de oclusión clasificadas como descubiertas, utilizando información de dicho segundo fotograma en el que dichas regiones de oclusión cubiertas y dichas regiones de oclusión descubiertas son interpoladas utilizando la suma ponderada de respuestas compensadas de movimiento unidireccional de vectores vecinos caracterizado porque un filtrado de desbloqueo a lo largo del borde de bloque entre bloques de píxeles vecinos, es aplicado cuando uno de los bloques es ocluido y el otro es no ocluido o ambos bloques están ocluidos con diferentes tipos de oclusión como cubiertos o descubiertos.

Description

5

10

15

20

25

30

35

40

45

50

55

60

65

Procedimiento y aparato para la detección y clasificación de regiones de oclusión Campo técnico

[0001] La presente invención se refiere a un procedimiento y a un aparato para la detección y clasificación de regiones de oclusión.

Técnica anterior

[0002] Un video se compone de varios fotogramas, siendo cada fotograma una imagen fija, el efecto de mostrar fotogramas consecutivos es dar la impresión de movimiento. La tasa de fotogramas de los videos es generalmente lo suficientemente alta como para que un espectador no pueda percibir los fotogramas individuales, sino que perciba una imagen en movimiento continuo.

[0003] En algunas pantallas de visualización de televisión, es deseable aumentar la tasa de fotogramas del video presentado desde su tasa de fotogramas original. Esto puede deberse a un requisito de tasa de fotogramas mayor para la visualización de acuerdo con un estándar diferente al que se capturó el video.

[0004] Además, muchos de los últimos equipos de televisión de altas prestaciones, particularmente de pantallas grandes y pantallas anchas (formato 16:9), usan una frecuencia de actualización de pantalla de 100Hz en lugar de la frecuencia de actualización convencional de 50Hz. Esto es principalmente para evitar el parpadeo de la pantalla y el desenfoque de movimiento, que se vuelve más perceptible y molesto para el espectador a medida que aumenta el tamaño de la pantalla. Sin embargo, las transmisiones de difusión de televisión estándar solo contienen 50 fotogramas por segundo. Por lo tanto, la tasa de fotogramas del contenido transmitido debe ajustarse para, por ejemplo, los nuevos televisores LCD que tienen frecuencias de actualización de 100 Hz, 120 Hz o 200 Hz.

[0005] El aumento en la tasa de fotogramas se denomina conversión ascendente de tasa de fotogramas. Para la conversión ascendente de la tasa de fotogramas, se insertan nuevos fotogramas entre los fotogramas existentes del contenido de video. Tres enfoques sencillos para la conversión ascendente de tasa de fotogramas se denominan "inserción de fotograma en negro", "repetición de fotograma" y "promediado de fotograma". Si bien estas técnicas son relativamente simples desde el punto de vista de cálculo, pueden degradar la prestación visual. Por ejemplo, la inserción de fotogramas en negro reduce la intensidad promedio del contenido de video, mientras que la repetición de fotogramas y promediado de fotogramas producen "vibración de movimiento" y "desenfoque de movimiento". La interpolación de fotograma compensado por movimiento es la solución de interpolación preferida para evitar el desenfoque de movimiento causado por la función de persistencia de movimiento del sistema visual humano, el largo tiempo de respuesta de las células de cristal y la característica retención-tipo de las pantallas de visualización de panel.

[0006] Sin embargo, con la conversión ascendente de tasa de fotogramas compensada por movimiento, aparecen efectos de halo, observados como "réplicas fantasmas" en las regiones de oclusión alrededor de los límites de objetos en movimiento. Se han intentado varios enfoques para hacer frente al problema del halo. Dado que la información de luminancia en las regiones de oclusión está disponible solo en uno de dos fotogramas consecutivos, se ha sugerido utilizar más de dos fotogramas tanto en la estimación de movimiento como en la compensación de movimiento.

[0007] Sin embargo, a menudo es necesario limitar el número de fotogramas a dos. En esa circunstancia se utiliza un algoritmo de gestión de oclusión como se describe en el documento US 6219436. El procedimiento propuesto en esta descripción de patente de EE. UU., hace uso del hecho de que los errores de coincidencia directa e inversa no pueden ser pequeños simultáneamente en regiones de oclusión debido a la falta de información de intensidad correspondiente en fotogramas consecutivos. Por lo tanto, las regiones de oclusión se detectan de acuerdo a la relación entre los errores de coincidencia directa e inversa y llevándose a cabo la clasificación de cubierta/descubiertas de acuerdo con las magnitudes relativas de estos errores.

[0008] La solicitud de patente US 6487313 propone un detector de oclusión y un algoritmo clasificador que detecta regiones de oclusión de acuerdo con cambios bruscos en el campo del vector de movimiento. La clasificación de las regiones de oclusión se realiza de acuerdo con las posiciones relativas de los vectores correspondientes en el espacio uno con respecto al otro.

[0009] La solicitud de patente WO-A-97/04599, detecta regiones ocluidas, basándose en la idea de que las trayectorias del vector de bloques no ocluidos deberían ser similares a campos de movimiento consecutivos. La discontinuidad de trayectorias se utiliza para etiquetar los bloques de oclusión.

[0010] El documento de ZHANG YI-XIONG ET AL: " Frame rate up-conversion using multiresolution critical point filters with occlusion refinement", revela un procedimiento de conversión ascendente de tasa de fotogramas. En este documento, se utilizan filtros de punto crítico de resolución múltiple para la operación de conversión ascendente de tasa de fotogramas. Dicho documento describe dos formas diferentes para realizar la interpolación, concretamente el modo de predicción espacial y el modo de predicción temporal. Dicho modo de predicción espacial se aplica solo si la similitud de los píxeles vecinos es mayor que un umbral. Si aparecen diferentes tipos de bloques vecinos, la similitud de los píxeles sería menor y se debería realizar el modo de predicción temporal. Por lo tanto, dicho procedimiento requiere una potencia de cálculo relativamente alta para procesar diferentes tipos de bloques vecinos.

[0011] No se ha encontrado que estas técnicas sean tan sólidas y fiables como se requiere en la práctica.

5

10

15

20

25

30

35

40

45

50

55

60

65

Breve descripción de la invención

[0012] La presente invención proporciona un procedimiento para la interpolación de fotogramas como se describe en las reivindicaciones adjuntas. Los ejemplos de procedimiento permiten detectar regiones de oclusión. En un ejemplo para encontrar inconsistencias entre un vector de movimiento bidireccional y un vector de movimiento ya sea hacia delante o hacia atrás, la suma de las diferencias absolutas de componentes del vector de movimiento entre el vector de movimiento bidireccional y un vector de movimiento ya sea hacia delante o hacia atrás, se compara con umbral predeterminado.

[0013] El procedimiento preferiblemente comprende además examinar una pluralidad de regiones del fotograma interpolado e identificar como regiones de oclusión, aquellas regiones en las que se encuentren incoherencias, y como regiones no ocluidas, aquellas otras regiones en las que no existan inconsistencias. En otro ejemplo, el procedimiento comprende además clasificar las regiones de oclusión localizadas como cubiertas o descubiertas.

[0014] La identificación de las regiones del fotograma interpolado, y la clasificación de las regiones de oclusión localizadas, permiten emplear diferentes estrategias de interpolación para cada tipo de región identificada. En general, las regiones no ocluidas se interpolarán tanto a partir del primer como del segundo fotogramas. La información a interpolar una región descubierta se tomará a partir del siguiente, segundo fotograma, mientras que la información a interpolar en una región cubierta se tomará del anterior, primer fotograma.

[0015] Preferiblemente, para clasificar las regiones de oclusión localizadas, la suma ponderada de las diferencias de las componentes x e y del vector de movimiento de un píxel, o un bloque de píxeles, se compara con un umbral de clasificación predeterminado.

[0016] Preferiblemente, en el cálculo de la suma ponderada de las diferencias de componentes del vector se incluye una pluralidad de etapas de decisión. Para proporcionar un buen rendimiento de clasificación sin agregar complejidad de cálculo innecesaria, se pueden incluir cuatro etapas de decisión.

[0017] Una vez que las regiones de oclusión han sido detectadas y clasificadas, pueden ser interpoladas. Preferiblemente, las regiones de oclusión se interpolan de acuerdo con su clasificación.

[0018] El procedimiento de interpolación de fotogramas puede usar cualquiera de las técnicas de detección y/o clasificación definidas anteriormente. De forma similar, los procedimientos de detección y clasificación definidos, se pueden combinar con cualquiera de los siguientes procedimientos de interpolación. Alternativamente, cualquiera de las técnicas individuales descritas puede usarse independientemente.

[0019] En un ejemplo, los procedimientos como se han definido anteriormente pueden comprender regiones de interpolación identificadas como no ocluidas que utilizan información tanto del primer como del segundo fotogramas;

- interpolación de regiones de oclusión clasificadas como cubiertas utilizando información del anterior, primer, fotograma; e

- interpolación de regiones de oclusión clasificadas como descubiertas, utilizando información del siguiente, segundo, fotograma.

[0020] La información utilizada para la interpolación puede ser información de píxel, por ejemplo, los valores de intensidad de píxeles individuales y/o bloques de píxeles.

[0021] En un ejemplo, la interpolación o compensación de una región no ocluida del fotograma interpolado comprende hacer una suma ponderada de los píxeles correspondientes del primer fotograma y el segundo fotograma.

[0022] En el primer fotograma un píxel correspondiente puede encontrarse en una posición espacial que está determinada por la ubicación de la región no ocluida en el fotograma interpolado, utilizando el vector de movimiento bidireccional correspondiente. De manera similar, el píxel correspondiente en el segundo fotograma puede encontrarse en una posición espacial que está determinada por la ubicación de la región no ocluida en el fotograma interpolado utilizando el vector de movimiento bidireccional correspondiente.

[0023] Preferiblemente, los coeficientes para la suma ponderada de los píxeles correspondientes del primer fotograma y del segundo fotograma, se calculan de acuerdo con la relación entre la posición temporal del fotograma interpolado y el tiempo entre el primer y el segundo fotograma menos la posición temporal del fotograma interpolado.

[0024] En un ejemplo, las regiones de oclusión cubiertas y descubiertas se interpolan usando la suma ponderada de respuestas compensadas de movimiento unidireccional de vectores vecinos. Por ejemplo, las respuestas compensadas de movimiento unidireccional de los vectores vecinos se toman del primer o del segundo fotograma según corresponda, para una posición espacial que está determinada por la posición en la fotograma interpolado, el vector de movimiento bidireccional correspondiente de la ubicación vecina correspondiente y la relación temporal anteriormente definida.

[0025] Preferiblemente, los pesos utilizados en la suma ponderada se deberían normalizar para proporcionar una suma de pesos igual a 1.

[0026] Preferiblemente, el procedimiento comprende además aplicar filtrado de desbloqueo entre bloques de píxeles vecinos.

Objeto de la invención

[0027] El objeto de la presente invención es proporcionar un procedimiento para la detección de oclusión a utilizar para procesar un fotograma interpolado en una secuencia de video.

[0028] Otro objeto de la presente invención es clasificar oclusiones y procesar un fotograma interpolado de acuerdo con dicha clasificación.

5

10

15

20

25

30

35

40

45

50

55

60

65

[0029] Otro objetivo de la presente invención es proponer un procedimiento en el que se emplee filtrado de desbloqueo entre bloques de píxeles contiguos de un fotograma interpolado para evitar artefactos de bloqueo.

Breve descripción de los dibujos

[0030]

La figura 1 muestra los campos de vectores de movimiento hacia adelante, hacia atrás y bidireccional.

La figura 2 muestra la estrategia de interpolación que se aplicará a regiones ocluidas y no ocluidas.

La figura 3 muestra una selección de vector candidato para correspondencia de bloques.

La figura 4 muestra una estructura de filtrado de desbloqueo para un borde vertical entre dos bloques 4x4.

La figura 5 muestra una estructura de filtrado de desbloqueo para un borde horizontal entre dos bloques 4x4.

La figura 6 muestra posiciones de núcleo unidimensional para el filtrado de una primera fila alrededor de un borde vertical.

La figura 7 muestra posiciones de núcleo unidimensional para el filtrado de una primera columna alrededor de un borde horizontal.

La figura 8 muestra un aparato para la interpolación de fotogramas.

La figura 9 muestra un diagrama de bloques de un detector de oclusión para un aparato como se muestra en la figura 8.

La figura 10 muestra un diagrama de bloques de una unidad de clasificación de oclusión para usar en un aparato como se muestra en la figura 8.

La figura 11 muestra un diagrama de bloques de una unidad de interpolación de fotogramas para usar en un aparato como se muestra en la figura 8.

La figura 12 muestra un diagrama de bloques de una unidad de filtrado de desbloqueo adaptativo para usar en un aparato como se muestra en la figura 8.

[0031] Los números de referencia y abreviaturas que se usan en las figuras pueden tener los siguientes significados;

Objeto de primer plano (110)

Un primer fotograma original (100)

Un segundo fotograma original (104)

Un fotograma interpolado (102)

Región de oclusión (106, 108)

Pixeles o bloques de píxeles que tienen un vector de movimiento bidireccional (112, 114, 116, 118)

Vector de movimiento hacia atrás (120, 124, 128, 132)

Vector de movimiento hacia adelante (122, 126, 130, 134)

Información de píxeles para la región descubierta (220, 224)

Información de píxeles para la región cubierta (230, 234)

Pixel (o bloque de píxeles) a compensar (300)

Los píxeles (o bloques de píxeles) contiguos a un píxel a compensar (301 - 309)

Un primer bloque de píxeles a desbloquear para un borde vertical (401 - 416)

Un segundo bloque de píxeles a desbloquear para un borde vertical (421 - 436)

Límite entre bloques de píxeles a desbloquear para un borde vertical (400)

Píxeles afectados por desbloqueo para un borde vertical (403, 404, 407, 408, 411, 412, 415, 416, 421, 422, 425, 426, 429, 430, 433 y 434)

Un primer bloque de píxeles a desbloquear para un borde horizontal (501, 502, 503, 504, 505, 506, 507, 508, 509, 510, 511, 512, 513, 514, 515 y 516)

Un segundo bloque de píxeles a desbloquear para un borde horizontal (521, 522, 523, 524, 525, 526, 527, 528, 529, 530, 531, 532, 533, 534, 535 y 536)

Píxeles afectados por desbloqueo para un borde horizontal (509, 510, 511, 512, 513, 514, 515, 516, 521, 522, 523, 524, 525, 526, 527 y 528)

Unidad de estimación de movimiento hacia adelante MEFwd Unidad de estimación de movimiento bidireccional MEBid Unidad de estimación de movimiento hacia atrás MEBwd

Descripción detallada de la invención

[0032] Los ejemplos de la presente invención son para utilizar en procedimientos para interpolación de fotogramas para una secuencia de fotogramas de video. Por lo tanto, se requiere agregar fotogramas interpolados en la secuencia, cada fotograma interpolado se sitúa temporalmente entre un primer fotograma y un segundo fotograma de la secuencia. Las realizaciones de la invención usan vectores de movimiento hacia adelante, bidireccional y hacia atrás, estimados para cada uno del primer, interpolado, y segundo fotogramas en una secuencia como se muestra en la figura 1.

[0033] La manera en que se determinan o estiman los vectores de movimiento no es importante. Además, se puede utilizar cualquier unidad de estimación de movimiento apropiada. Los campos de vectores de movimiento estimados utilizados están destinados a proporcionar proyección bidimensional del movimiento tridimensional real dentro de la

5

10

15

20

25

30

35

40

45

50

55

60

escena.

[0034] La figura 1 muestra esquemáticamente los movimientos de un objeto en primer plano (110) y el movimiento de fondo junto con los campos de vector de movimiento correspondientes de una escena hipotética. Un primer fotograma original, F(t), está marcado con (100), y un segundo fotograma original, F(t + T), se marca con (104). Un nuevo fotograma (102) está destinado a interpolarse en la posición temporal (t + 9), donde 0 <9 <T. El objeto de primer plano (110) se mueve hacia abajo con una velocidad de mientras que el fondo se mueve hacia arriba con la velocidad . Las regiones (106) y (108) son regiones de oclusión. Una región de oclusión es un área de una imagen que es visible en una secuencia de fotogramas pero que no es visible en el primer fotograma ni el segundo fotograma. Las flechas que se originan a partir del primer fotograma (100) son los vectores de movimiento hacia adelante que se estiman encontrando una correspondencia en el segundo fotograma (104) para cada píxel o bloque de píxeles definidos en el primer fotograma (100). Del mismo modo, las flechas con origen en el segundo fotograma (104) representan los vectores de movimiento hacia atrás que se calculan haciendo corresponder píxeles o bloques de píxeles en el primer fotograma (100) para cada píxel o bloque de píxeles definidos en el segundo fotograma (104). Los vectores de movimiento bidireccional se estiman encontrando una correspondencia en cada uno de los fotogramas originales (100) y (104) que están ubicados en la misma línea espacio-temporal con el píxel o bloque de píxeles particular en el fotograma interpolado (102). Estos vectores de movimiento bidireccional están representados por las dos flechas laterales situadas en el fotograma interpolado (102).

[0035] Se puede ver en la figura 1 que los vectores bidireccionales, a excepción de los situados en las regiones de oclusión, son congruentes con los vectores de movimiento hacia adelante y hacia atrás correspondientes, que están situados en posiciones apuntadas por el vector de movimiento bidireccional particular. El vector de movimiento bidireccional de píxeles o bloques de píxeles (112), que se encuentra en la región de oclusión (106), es incongruente con al menos uno de los movimientos hacia atrás y hacia adelante correspondientes vectores, (120) y (122). De manera similar, el vector de movimiento bidireccional de píxeles o bloques de píxeles (114) que también se encuentra en la región de oclusión (106) no es similar a, al menos, uno de los correspondientes vectores de movimiento hacia atrás y hacia delante (124) y (126). En la región de oclusión (108), el vector de movimiento bidireccional de píxeles o bloques de píxeles (116) no es congruente con, al menos, uno de los vectores (128) y (130), mientras que el vector de movimiento bidireccional de píxeles o bloques de píxeles (118) es divergente de, al menos, uno de los vectores (132) y (134).

[0036] De acuerdo con ello, indicando el vector de movimiento bidireccional .0. I •...' i <p) en la posición espacial x, simplemente como Dbld, las regiones de oclusión pueden ser detectadas como se establece en la relación (1).

X ^ ^occlusion SI

\f (( ^bid , Dforward , (x - A- C^|T) • ^bld> t) ) > thrc

D,

'iff ((D^.DforWard .(x + *• - (pYO •ThZ.t + T) ) > thrc

[0037] En la relación (1), Rocciusion es el conjunto de regiones de oclusión en el fotograma interpolado y throcc es un umbral predeterminado. El parámetro A es un factor de escala para mejorar la robustez del algoritmo de detección. La función D¡ff (.) Se define en la ecuación (2), donde Dx y Dy indican las componentes x e y de los vectores, respectivamente.

Z>i£r (Di, D,) = | D; - D¡ | +1D - D: | (2)

[0038] Por tanto, y tal como se establece en la relación (1) y la ecuación (2), un vector de movimiento bidireccional se compara con los vectores de movimiento hacia delante y hacia atrás, y se encuentra una inconsistencia cuando la diferencia excede un umbral predeterminado. Como se muestra en la ecuación (2), es la suma de las diferencias absolutas de las componentes del vector de movimiento de los vectores que se comparan.

[0039] Cuando se localiza una región de oclusión, se clasifica. Es necesario determinar si alguna región de oclusión detectada está cubierta, como la región de oclusión (108) en la figura 1, o está descubierta, como la región de oclusión (106) de la figura 1. La detección y la clasificación determinan cómo las regiones ocluidas y no ocluidas se ponen, o interpolan, en el fotograma interpolado (102). Generalmente, la información necesaria para la fotograma interpolado (102) se toma del siguiente, o segundo, fotograma (104) cuando la región de oclusión está descubierta, como en la región de oclusión (106). La información se toma del fotograma anterior, o primero, (100), si la región de oclusión está cubierta, como en la región de oclusión (108).

[0040] Las regiones que no están identificadas como regiones de oclusión, es decir, regiones en las que no hay inconsistencias entre un vector de movimiento bidireccional y los correspondientes vectores de movimiento hacia delante y hacia atrás, se identifican como regiones no ocluidas. Para tales regiones no ocluidas, la información necesaria para el fotograma interpolado (102) se toma de ambos fotogramas primero y segundo.

[0041] Cuando una región de oclusión detectada no puede clasificarse con precisión, puede dejarse como región de oclusión sin clasificar o indecisa. Para estas regiones, la información para el fotograma interpolado se puede realizar de forma bidireccional, es decir, se puede tomar tanto del primer como del segundo fotograma.

[0042] Para el algoritmo de clasificación de oclusión, se supone que el origen del plano de imagen es la esquina superior izquierda del fotograma de imagen. Por lo tanto, las direcciones x e y positivas apuntan de izquierda a derecha y de arriba a abajo, respectivamente.

[0043] El procedimiento de clasificación analiza las componentes x e y de las parejas de vectores ubicados en diferentes posiciones en la vecindad del píxel o bloque particular de píxeles en el fotograma interpolado F(t+^), (102). La clasificación se basa en la suma ponderada de las diferencias del componente de vector.

[0044] Indicando con Dx(x, y) y Dy(x, y), las componentes x e y del vector de movimiento de un píxel o bloque de 5 píxeles, donde (x, y) representa las coordenadas del píxel o los índices particulares del bloque particular, la suma

ponderada de las diferencias del componente vectorial, yx, y, se define como en la ecuación (3).

10

M',,, = / \cxDf (x,y) + cyD*j} (x, y)]

i=0

Df {x,y) = Dx(x~d¡,y)-Dx(x + d¡,y)

(3)

(4)

15

Dd/f (x,y) = Dy(x,y-d¡)-Dy(x,y + d¡)

(5)

[0045] El parámetro, d¡, que controla las parejas de vectores usadas en el análisis debe ser diferente para cada una de las N etapas de decisión. El coeficiente y determina la dominancia de cada pareja de vectores en la clasificación.

[0046] En un entorno en el que la componente horizontal de movimiento es más dominante que la componente 20 vertical, las diferencias en las componentes x de las parejas de vectores resultan ser más informativas que las

diferencias en las componentes y. Del mismo modo, las diferencias en las componentes y resultan ser más valiosas en un entorno donde el movimiento vertical es más dominante que el movimiento horizontal. Por lo tanto, los coeficientes cx y cy deben calcularse en consecuencia.

25

|D (x,y)| + |D (x,y)|

\DÁ^y)\

|D* (-*o;)|+| A-(-^v)|

(6)

(7)

[0047] Preferiblemente, el número de etapas de decisión, N, se establece en 4, que es una elección óptima 30 entre la complejidad de cálculo y el rendimiento de clasificación. En consecuencia, los parámetros di y y se formulan como en las ecuaciones (8) y (9).

35

d; = \ + 2i, i = 0,1,2,3

(8)

imagen1

[0048] Con el fin de realizar la clasificación, la suma ponderada de diferencias de componente de vector, ipx,y, es después comparada con un umbral de clasificación positivo.

íDescubierta, Vx,y < tbrciassi^icafion

O, y) ^ { Cubierta, ^x,y > ^^^classification

^ Indecisa, en otro caso

40

[0049] Como se establece en la relación (10), se usarán diferentes estrategias de interpolación para regiones categorizadas de manera diferente.

[0050] La figura 2 ilustra esquemáticamente la estrategia de interpolación a aplicar a regiones cubiertas, descubiertas y no ocluidas. Las regiones no ocluidas del fotograma interpolado F(t + y), se compensan utilizando

45 promediado de píxel bidireccional, ya que la información de intensidad correspondiente está presente en ambos fotogramas F (t) y F (t + T). Las regiones de oclusión deben ser interpoladas con un esquema unidireccional ya que la información de i ntensidad correspondiente solo está presente en uno de F(t) o F(t + T). La información de píxeles correcta para la región descubierta (106), se obtiene a partir del siguiente, o segundo fotograma (104) F(t + T). Por lo tanto, los píxeles o bloques de píxeles que tienen vectores de movimiento bidireccionales (112) y (114) de la región 50 descubierta (106) se compensan unidireccionalmente, utilizando la información de píxeles marcados como (220) y (224), respectivamente. La información de intensidad correcta para la región cubierta (108) se toma del anterior, o primer fotograma (100), F(t). Los píxeles o bloques de píxeles que tienen el vector de movimiento bidireccional (116) y (118) de la región cubierta (108) son respectivamente compensados por la información de píxeles (230) y (234)

5

10

15

20

25

30

35

40

45

del fotograma (100).

[0051] Dado que la correspondencia de bloque bidireccional podría no proporcionar vectores de movimiento correctos en regiones cubiertas y descubiertas, la interpolación unidireccional del fotograma correcto podría crear artefactos visuales. Esto puede observarse a partir de los vectores de movimiento de las regiones cubiertas y descubiertas (106), (108) en la figura 2. Los píxeles o bloques de píxeles que tienen los vectores de movimiento bidireccionales (112) y (114) y que son espacialmente adyacentes, son interpolados utilizando información de píxeles (220) y (224) que están sin relacionar espacialmente. Esto puede producir inconsistencia en el rendimiento visual. Se pueden observar artefactos similares en la compensación de los píxeles o bloques de píxeles adyacentes que tienen vectores de movimiento bidireccional (116) y (118) mediante información de la información de píxeles no adyacentes (230) y (234). Para suprimir dichos artefactos, se utiliza una compensación ponderada para las regiones de oclusión.

[0052] i_as respuestas unidireccionales de un vector de movimiento bidireccional Dbld para un píxel situado en v-(■'•>■) se ilustran en las ecuaciones (11) y (12) para regiones cubiertas y descubiertas, respectivamente

Rrrlrl,r ( X, Dm, t + <P ) = F X - ] • Dm, t j (11)

imagen2

[0053] El resultado de compensación ponderada se obtiene mediante el sumatorio ponderado de las respuestas de compensación de varios vectores de candidato

imagen3

[0054] La figura 3 ilustra un ejemplo de selección de vector candidato en el cual el número de vectores candidato N es 9. El píxel (o bloque de píxeles) (300), se compensa utilizando los vectores de los píxeles (o bloques de píxeles)

vecinos (301, 302, 303, 304, 305, 306, 307 and 308).

[0055] Indicando el vector de movimiento bidireccional particular 7; \ para la posición espacial x

Dbid l X, l +(p \

simplemente como Dbl¿, la respuesta de compensación bidireccional es como se define en la ecuación (15).

imagen4

[0056] La estrategia de compensación total se ilustra en la relación (16)

imagen5

[0057] En la relación (16), Rnon-occiuded, Rcover, Runcover, indican el conjunto de píxeles (o bloques de píxeles), que están marcados como no ocluidos, cubiertos y descubiertos, respectivamente.

[0058] Como se define en la relación (16), y como se describió anteriormente, los píxeles (o bloques de píxeles) cubiertos, descubiertos y no ocluidos se compensan de manera diferente. Para implementaciones como bloque, si algunos o todos estos tipos aparecen en una proximidad, se pueden observar artefactos de bloqueo visual aparentes.

[0059] Para reducir los artefactos de bloqueo en implementaciones como bloque, se puede utilizar filtrado de desbloqueo y operar en la salida de interpolación adaptativa. El filtrado se aplica a lo largo del borde del bloque entre dos bloques vecinos, si:

- uno de los bloques es ocluido y el otro es no ocluido o,

- ambos bloques están ocluidos con diferentes tipos de oclusión (cubierto o descubierto).

[0060] La figura 4 ilustra esquemáticamente la estructura de filtrado de desbloqueo para un borde vertical entre dos

5

10

15

20

25

30

35

40

45

50

55

60

65

bloques de 4x4. Los píxeles (401, 402, 403, 404, 405, 406, 407, 408, 409, 410, 411, 412, 413, 414, 415 y 416) constituyen el primer bloque de píxeles que es sometido a un filtrado de desbloqueo, mientras que el segundo bloque está formado por píxeles (421, 422, 423, 424, 425, 426, 427, 428, 429, 430, 431, 432, 433, 434, 435 y 436). El límite entre los dos bloques de píxeles está marcado como (400) El filtrado de desbloqueo es efectivo sobre los píxeles (403, 404, 407, 408, 411, 412, 415, 416, 421,422, 425, 426, 429, 430, 433 y 434).

[0061] La estructura de filtrado de desbloqueo para un borde horizontal entre dos bloques 4x4 se muestra en la figura 5, donde el primer bloque incluye los píxeles (501, 502, 503, 504, 505, 506, 507, 508, 509, 510 , 511, 512, 513, 514, 515 y 516), mientras que el segundo bloque está formado por píxeles (521, 522, 523, 524, 525, 526, 527, 528, 529, 530, 531, 532, 533, 534, 535 y 536). El límite entre los dos bloques está marcado como (500). El filtrado de desbloqueo es efectivo en los píxeles (509, 510, 511, 512, 513, 514, 515, 516, 521, 522, 523, 524, 525, 526, 527 y 528).

[0062] El filtrado se realiza con un núcleo unidimensional que tiene una longitud de (Ancho bloque + 1) para bordes verticales y (Altura bloque + 1) para bordes horizontales. La longitud del núcleo se ajusta para que sea un número impar para la auto-dominancia del pixel filtrado

[0063] La figura 6 ilustra esquemáticamente las posiciones de núcleo unidimensional para el filtrado de la primera fila alrededor de un borde vertical (400). Los dos bloques de píxeles 4x4, están formados por los píxeles (401, 402, 403, 404, 405, 406, 407, 408, 409, 410, 411, 412, 413, 414, 415, 416) y (421, 422, 423, 424, 425, 426, 427, 428, 429, 430, 431, 432, 433, 434, 435, 436), respectivamente. Los píxeles (403, 404, 421 y 422) son los píxeles filtrados en la primera fila, mientras que los píxeles filtrados se marcan con (407, 408, 425 y 426) para la segunda fila, con (411, 412, 429 y 430) para la tercera fila y con (415, 416, 433, 434) para la cuarta fila para los bloques 4x4 de píxeles en la figura 6. El filtrado debe aplicarse a las filas adicionales para las dimensiones de altura del bloque mayores a 4. Los píxeles efectivos para el filtrado de un primer píxel (403) son píxeles (401, 402, 403, 404 y 421), como se muestra en (a), mientras que los píxeles (402, 403, 404, 421 y 422) son efectivos para el filtrado de un segundo píxel (404), como se ilustra en (b). De forma similar, (c) ilustra que los píxeles (403, 404, 421, 422 y 423) contribuyen para el filtrado de un tercer píxel (421). Por último, como se representa en (d), los píxeles (404, 421, 422, 423 y 424) son efectivos para el filtrado de píxeles (422). Los píxeles efectivos para el filtrado de píxeles en otras filas son los siguientes:

- Para 407 en la fila 2: 405, 406, 407, 408, 425

- Para 408 en la fila 2: 406, 407, 408, 425, 426

- Para 425 en la fila 2: 407, 408, 425, 426, 427

- Para 426 en la fila 2: 408, 425, 426, 427, 428

- Para 411 en la fila 3: 409, 410, 411, 412, 429

- Para 412 en la fila 3: 410, 411, 412, 429, 430

- Para 429 en la fila 3: 411,412, 429, 430, 431

- Para 430 en la fila 3: 412, 429, 430, 431, 432

- Para 415 en la fila 4: 413, 414, 415, 416, 433

- Para 416 en la fila 4: 414, 415, 416, 433, 434

- Para 433 en la fila 4: 415, 416, 433, 434, 435

- Para 434 en la fila 4: 416, 433, 434, 435, 436

[0064] La figura 7 representa esquemáticamente las posiciones de núcleo unidimensional para el filtrado de la primera columna alrededor de un borde horizontal (500). Los dos bloques de píxeles 4x4, están formados por los píxeles (501, 502, 503, 504, 505, 506, 507, 508, 509, 510, 511, 512, 513, 514, 515, 516) y (521, 522, 523,524, 525, 526, 527, 528, 529, 530, 531, 532, 533, 534, 535, 536), respectivamente. Los píxeles (509, 513, 521 y 525) son los píxeles filtrados en la primera columna, mientras que los píxeles filtrados están marcados con (510, 514, 522 y 526) para la segunda fila, con (511, 515, 523, 527) para la tercera columna y con (512, 516, 524, 528) en la cuarta columna para los bloques de píxeles 4x4 en la figura 7. El filtrado debe aplicarse a las columnas adicionales para las dimensiones de ancho de bloque mayores a 4. Los píxeles efectivos para el filtrado son los siguientes:

- Para 509 en: la columna 1 501, 505, 509, 513, 521

- Para 513 en: la columna 1 : 505, 509, 513, 521, 525

- Para 521 en: la columna 1 : 509, 513, 521, 525, 529

- Para 525 en: la columna 1 513, 521, 525, 529, 533

- Para 510 en: la columna 2 : 502, 506, 510, 514, 522

- Para 514 en: la columna 2 : 506, 510, 514, 522, 526

- Para 522 en: la columna 2 510, 514, 522, 526, 530

- Para 526 en: la columna 2 : 514, 522, 526, 530, 534

- Para 511 en: la columna 3 : 503, 507, 511, 515, 523

- Para 515 en: la columna 3 : 507, 511, 515, 523, 527

- Para 523 en: la columna 3 511, 515, 523, 527, 531

- Para 527 en: la columna 3 515, 523, 527, 531, 535

- Para 512 en: la columna 4 : 504, 508, 512, 516, 524

- Para 516 en: la columna 4 : 508, 512, 516, 524, 528

- Para 524 en: la columna 4 : 512, 516, 524, 528, 532

- Para 528 en: la columna 4 : 516, 524, 528, 532, 536

[0065] Los coeficientes en la ventana de filtrado, y por lo tanto, la intensidad del filtro se ajusta de manera adaptativa de acuerdo con la diferencia a lo largo del borde entre los dos bloques. La diferencia se calcula con una profundidad de píxel en ambos lados a lo largo del borde a filtrar. La profundidad de píxel de borde para el cálculo de la

5

10

15

20

25

30

35

40

45

50

55

60

65

diferencia de borde puede establecerse para diferentes valores en diferentes implementaciones. La diferencia de borde se convierte a modo de píxel a través de división con la longitud del borde en píxeles. Los coeficientes del núcleo se calculan como se formulan en la ecuación (17)

OÍA i <■’ , k =0,±1,±2,... (17)

[0066] En la ecuación (17), a2 es la varianza de la formula gaussiana. Después de calcular todos los coeficientes, se normalizan para proporcionar una suma igual a 1.

[0067] La varianza, a2, se ajusta para que sea igual a la diferencia de borde a modo de píxel. Como el coeficiente central siempre se establece como 1 antes de la normalización, la efectividad relativa de los otros píxeles aumenta con una mayor diferencia de borde a modo de píxel. Por lo tanto, se aplica un filtrado más intenso a lo largo de los bordes con grandes valores de diferencia.

[0068] La figura 8 ilustra un aparato para interpolar una secuencia de fotogramas de video. Como se muestra, un primer fotograma (F(t)) y un segundo fotograma (F(t + T)) se aplican a las unidades de estimación de movimiento (MEFwd), (MEBid) y (MEBwd), para la estimación de campos de vectores de movimiento hacia adelante, bidireccional y hacia atrás. Los campos vectoriales de movimiento hacia adelante (DFwd), bidireccionales (DBd) y hacia atrás (DBwd) estimados, se aplican entonces a una unidad de detección de oclusión (OD) para generar un mapa de oclusión.

[0069] La unidad de detección de oclusión (OD) examina los campos de vectores de movimiento hacia adelante, bidireccional y hacia atrás estimados para identificar las regiones en las que existen inconsistencias, que se identifican como regiones de oclusión, y las regiones donde no existen inconsistencias, que se identifican como regiones no ocluidas El mapa de oclusión generado es luego procesado por una unidad clasificadora de oclusión (OC) que clasifica las regiones de oclusión como cubiertas o no cubiertas. La salida de la unidad clasificadora de oclusión es un mapa de clasificación de oclusión. El mapa de clasificación de oclusión se alimenta a un módulo de interpolación (INT), junto con el primer fotograma (F(t)) y el segundo fotograma (F(t + T)), para generar un fotograma de salida inicial (F'(t + y)). El último módulo del aparato es la unidad de filtrado adaptativo (FILT), que como entradas recibe el fotograma de salida inicial (F'(t + y)) y el mapa de clasificación de oclusión, e interpola la salida final del sistema (F(t + y)). El fotograma de salida final (F(t + y)) es el fotograma a interpolar. La secuencia de fotogramas interpolada resultante se suministra a un dispositivo de visualización para visualizarse a una tasa de fotogramas aumentada, tal como 100 Hz, 120 Hz o 200 Hz.

[0070] La figura 9 es un diagrama de bloques de un detector de oclusión (OD) para usar en un aparato como el mostrado en la figura 8. El detector de oclusión (OD) tiene unidades de comparación, (CMP1, CMP2), que comparan vectores de movimiento correspondientes y generan respectivas señales de salida binarias (CMPOut1, CMPOut2). Específicamente, los vectores de movimiento hacia adelante y los vectores de movimiento bidireccional se aplican a un primer comparador (CMP1) y su señal de salida binaria, (CMPOut1), se establece en 1 si el vector de movimiento bidireccional correspondiente,es inconsistente con el vector de movimiento hacia adelante correspondiente Dy. (CMPOut1) estableciéndose en 0, cuando no existe tal incoherencia. De forma similar, los vectores de movimiento hacia atrás y los vectores de movimiento bidireccional se aplican a un segundo comparador (CMP2) y su señal de salida binaria (CMPOut2), es establecida en 1, cuando el correspondiente vector de movimiento bidireccional, Dbld, es inconsistente con el vector de movimiento hacia atrás D¿, y estableciéndose en 0 en caso contrario. Las señales de salida binarias, (CMPOut1) y (CMPOut2) se aplican entonces a un circuito lógico de decisión, de modo que se puede tomar una decisión sobre cuando una región particular del fotograma interpolado es ocluida o no ocluida. En la realización ilustrada en la figura 9, la decisión es una comparación que utiliza una operación booleana “O”.

[0071] La figura 10 muestra esquemáticamente un diagrama de bloques de la unidad de clasificación de oclusión (OC) del aparato de la figura 8. Las unidades de unidad de diferencia de componente horizontal (DIFFH) y unidad de diferencia de componente vertical (DIFFV), calculan diferencias de componentes de vector horizontal y vertical, respectivamente, de acuerdo ^ con el parámetro di que se define en las ecuaciones (4) y (5), y cuyo valor se determina de acuerdo con el paso iesimo en el procedimiento de clasificación de oclusión de etapas múltiples. La suma ponderada de las diferencias de componente de vector (WSVCD), se calculan con respecto a los coeficientes, Cx y Cy, que se determinan de acuerdo con las características espaciales del vector de movimiento particular sometido examen. Como etapa siguiente, la suma ponderada de etapas múltiples de las diferencias de componente de vector (MSWSVCD), se calcula con respecto al coeficiente, y, que se define en la ecuación (3), y cuyo valor se determina con respecto a la etapa iesima de procedimiento de clasificación de oclusión de etapas múltiples. En la última etapa, después de completar el procedimiento de múltiples etapas, la suma ponderada de diferencia de componente de vector (MSWSVCD) de etapas múltiples, que se representa por yx¡ y de la ecuación (3), se compara con un umbral escalar con el fin de decidir el tipo de oclusión del píxel o bloque de píxeles particular como cubierto, descubierto o indeciso.

[0072] La figura 11 es un diagrama de bloques de una unidad de interpolación de fotogramas (INT) del aparato mostrado en la figura 8. El demultiplexor (DeMux) activa la unidad de compensación correspondiente mientras se desactivan las otras, de acuerdo con el mapa de clasificación de oclusión. El demultiplexor (DeMux) establece la señal de habilitación correspondiente en 1, mientras mantiene las otras señales de habilitación en 0. La compensación se realiza solo en la unidad habilitada entre compensación bidireccional, compensación de región cubierta unidireccional y compensación de región unidireccional descubierta. El valor de salida para los módulos desactivados se puede establecer en un valor apropiado. En la etapa final de la unidad de interpolación (INT), el resultado de compensación correspondiente es seleccionado por el multiplexor (Mux), de acuerdo con el mapa de

clasificación de oclusión.

[0073] La figura 12 representa un diagrama de bloques de una unidad de filtrado de desbloqueo adaptativo (FILT) tal como la utilizada en el aparato de figura 8. La unidad de decisión de filtrado (FiltDec), decide si existe necesidad de filtrado de desbloqueo entre dos bloques vecinos, de acuerdo con el mapa de clasificación de oclusión, y genera

5 señales de habilitación (activación) para otras unidades. La diferencia de borde a modo de píxel entre los bloques vecinos, se calcula en la unidad de cálculo de diferencia de borde (Edge-DiffCalc) y los coeficientes de filtro se calculan con respecto a la diferencia de borde a modo de píxel en la unidad de cálculo de coeficiente de filtro (CoeffCalc). En la última etapa, el núcleo de filtro (Filt) se aplica al fotograma de imagen.

[0074] El proceso se dirige primero a localizar regiones de oclusión a modo de píxel o a modo de bloque en el 10 fotograma a interpolar, y clasificar las regiones de oclusión detectadas como cubiertas y descubiertas. La

interpolación del nuevo fotograma se realiza en relación a las regiones cubiertas y descubiertas detectadas. En la última etapa, para implementaciones a modo de bloque, el algoritmo propone un filtrado de desbloqueo adaptativo para reducir los posibles artefactos visuales entre bloques de píxeles vecinos.

[0075] Se apreciará que los procesos descritos en este documento pueden implementarse mediante software, 15 firmware o hardware, o alguna combinación de los mismos. Además, pueden realizarse variaciones o modificaciones

en las realizaciones tal como se describen e ilustran dentro del alcance de las reivindicaciones adjuntas.

Claims

5

10

15

20

25

30

35

REIVINDICACIONES

1. Procedimiento de interpolación de fotograma para una secuencia de fotogramas de video que comprende la localización de una fotograma interpolado (102) temporalmente entre un primer fotograma y un segundo fotograma (100, 104) de dicha secuencia, comprendiendo dicho procedimiento:

- examen de una pluralidad de regiones de dicho fotograma interpolado en relación a regiones de oclusión en dicho fotograma interpolado, utilizando vectores de movimiento hacia adelante, bidireccional y hacia atrás estimados para cada uno de dichos primer, interpolado y segundo fotogramas y la comparación de, al menos, un vector de movimiento bidireccional ya con un vector de movimiento hacia atrás o con un vector de movimiento hacia adelante;

- mediante dicha comparación identificación de regiones en las que se encuentran incoherencias, como regiones de oclusión, e identificación de otras regiones sin incoherencias como regiones no ocluidas;

- clasificación de dichas regiones de oclusión como cubiertas o descubiertas; e

- interpolación de regiones identificadas como no ocluidas, utilizando información a partir tanto de dicho primer fotograma como de dicho segundo fotograma;

- interpolación de dichas regiones de oclusión clasificadas como cubiertas, utilizando información de dicho primer fotograma; e

- interpolación de regiones de oclusión clasificadas como descubiertas, utilizando información de dicho segundo fotograma

en el que dichas regiones de oclusión cubiertas y dichas regiones de oclusión descubiertas son interpoladas utilizando la suma ponderada de respuestas compensadas de movimiento unidireccional de vectores vecinos caracterizado porque

un filtrado de desbloqueo a lo largo del borde de bloque entre bloques de píxeles vecinos, es aplicado cuando uno de los bloques es ocluido y el otro es no ocluido o ambos bloques están ocluidos con diferentes tipos de oclusión como cubiertos o descubiertos.
2. Procedimiento de acuerdo con la reivindicación 1, en el que cuando una región de oclusión es clasificada como cubierta, la interpolación se lleva a cabo mediante las fórmulas siguientes:

imagen1

i-O
3. Procedimiento de acuerdo con la reivindicación 1, en el que cuando una región de oclusión se clasifica como descubierta, la interpolación se lleva a cabo mediante las fórmulas siguientes:

imagen2