ES3032702T3

ES3032702T3 - Methods and devices for coding and decoding a multi-view video sequence

Info

Publication number: ES3032702T3
Application number: ES20719686T
Authority: ES
Inventors: Joël Jung; Patrick Boissonade
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2019-03-15
Filing date: 2020-02-27
Publication date: 2025-07-23
Anticipated expiration: 2040-02-27
Also published as: WO2020188172A1; CN113785585A; US20250071328A1; EP4529171A3; JP2025004019A; EP4529171A2; US20220167014A1; US20230308682A1; PL3939304T3; JP7818055B2; KR20210135322A; EP3939304A1; JP2022525210A; EP3939304B1; US11659203B2; CN113785585B; US12167036B2; FR3093884A1; EP3939304C0; CN118354095A

Abstract

La invención se refiere a un método para decodificar al menos un flujo de datos que representa un vídeo multivista, que comprende al menos datos codificados representativos de al menos una subimagen, incluyendo datos de textura y datos de profundidad asociados a estos. La subimagen comprende al menos una zona, denominada zona útil, destinada a generar al menos una imagen de al menos una vista. Se decodifica un indicador que indica si la subimagen está codificada según un primer o un segundo método. Cuando el indicador indica que la subimagen está codificada según el primer método, se decodifica un mapa binario que indica, para al menos un píxel de la subimagen, si este pertenece o no a la zona útil. Se decodifican los datos de textura y de profundidad de la subimagen; cuando el indicador indica que la subimagen está codificada según el segundo método, los datos de profundidad de la subimagen para los píxeles situados fuera de la zona útil comprenden un valor de profundidad decodificado. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Procedimientos y dispositivos para codificar y decodificar una secuencia video de múltiples vistas

1. Campo de invención

La invención se refiere a los denominados vídeos inmersivos, representativos de una escena captada por una o más cámaras. Más particularmente, la invención se refiere a la codificación y decodificación de tales vídeos.

2. Técnica anterior

En un contexto de vídeo inmersivo, es decir en el que el espectador tiene la sensación de estar inmerso en la escena, la escena es captada clásicamente por un conjunto de cámaras, como se ilustra en la figura 1. Estas cámaras pueden ser de tipo 2D (cámaras C1, C2, C3, C4 en la figura 1), o de tipo 360, es decir, que captan toda la escena a 360 grados alrededor de la cámara (cámara C5 en la figura 1).

El conjunto de estas vistas capturadas se codifica convencionalmente y después se decodifican mediante una terminal del espectador. Sin embargo, con el fin de proporcionar una calidad de experiencia suficiente y, por lo tanto, una calidad visual y una buena inmersión en la escena mostrada al espectador, mostrar únicamente las vistas capturadas es insuficiente.

Con el fin de mejorar la sensación de inmersión en la escena, en general, se calculan una o más vistas, denominadas vistas intermedias, a partir de las vistas decodificadas.

El cálculo de estas vistas intermedias se puede realizar mediante un algoritmo denominado “síntesis” de vistas (view synthesis algorithm en inglés). En la figura 2, se ilustra un ejemplo de un algoritmo de síntesis que muestra principalmente las entradas/salidas de un algoritmo de síntesis de vistas. Según este ejemplo, a partir de n vistas (aquí 1-4), el algoritmo de síntesis es capaz de sintetizar un punto de vista “v” ubicado en un volumen dado, denominado volumen de visualización, que depende del posicionamiento de las cámaras. Las n vistas y la vista sintetizada están compuestas tanto por datos de textura (T<1>-T<4>, T<v>) como por datos de profundidad (D<1>-D<4>, D<v>) que permiten representar la distancia de los elementos de la escena con respecto a las cámaras. Los datos de profundidad se representan clásicamente en forma de mapa de profundidad, es decir, una imagen que indica en cada punto de la imagen la profundidad asociada al objeto representado en ese punto.

Estos mapas de profundidad son capturados por cámaras específicas, o calculados a partir de vistas de textura. La compresión de las vistas capturadas para representar la escena es un desafío, debido a la enorme cantidad de datos considerada.

Además, dado que las vistas capturadas son necesarias para la síntesis de vistas intermedias, es necesario tener un compromiso entre la eficacia de la codificación de las vistas y la calidad de la síntesis de las vistas intermedias.

Los codificadores MV-HEVC y 3D-HEVC son dos extensiones del codificador 2D HEVC (“High Efficiency Video Coding, Coding Tools and Specification”, Matthias Wien, Signals and Communication Technology, 2015) adecuadas para codificar vídeos de múltiples vistas.

Tales codificadores toman como entrada un conjunto de vistas y, opcionalmente, los mapas de profundidad asociados. El codificador MV-HEVC no aplica ninguna herramienta específica de codificación a nivel de bloque. Para la codificación de una imagen de una vista actual, simplemente utiliza, además de las imágenes previamente codificadas/decodificadas de la vista actual, una imagen de otra vista como imagen de referencia.

El codificador 3D-HEVC, por otro lado, añade herramientas específicas para la codificación de mapas de profundidad y utiliza redundancias inter-vistas más avanzadas, y redundancias intercomponentes, en el que la codificación de mapas de profundidad aprovecha la codificación de textura. Sin embargo, parece que para contenidos de múltiples vistas de 360°, la redundancia entre vistas no es aprovechada correctamente por estos dos codificadores. Por lo tanto, su eficacia de codificación está lejos de ser óptima. Además, no se hace nada para preservar las zonas que potencialmente conllevan oclusiones, lo que perjudica la calidad de las imágenes de las vistas sintetizadas.

La figura 3 ilustra otro método que permite codificar vídeos de múltiples vistas y que permite sintetizar vistas intermedias en el lado del decodificador.

Según este método, una o más vistas básicas (T, Den la figura 3) se codifican con un codificador 2D, por ejemplo un codificador de tipo HEVC, o con un codificador de múltiples vistas.

Las demás vistas (T<s>, D<s>) se someten a un procesamiento que permite extraer determinadas zonas de cada una de estas vistas.

En el caso en el que no todas las vistas capturadas se transmiten al decodificador, o cuando las cámaras están naturalmente distantes, las zonas de oclusiones aumentan. Estas zonas corresponden a objetos que están ocultos en las vistas transmitidas al decodificador pero que son necesarias para reconstruir una imagen desde cualquier punto de vista en el volumen de visualización. Las zonas extraídas pueden corresponder así a zonas de oclusión que están ocultas en las vistas básicas pero que son visibles en las vistas no transmitidas al decodificador.

Un submuestreo de las vistas también puede provocar defectos importantes en la síntesis de la vista, en particular cuando un objeto está muy distorsionado según la posición de visualización, es decir, el punto de vista sintetizado.

Según el método ilustrado en la figura 3, las zonas extraídas, también denominadas parches en adelante, se codifican por ejemplo mediante un codificador de vídeo clásico 2D. En el lado del decodificador, el algoritmo de síntesis puede entonces producir una o más vistas intermedias a partir de las vistas básicas y los parches decodificados.

Globalmente, los parches permiten transmitir al decodificador informaciones relativa a una misma zona que puede ser visible desde un punto de vista de una vista básica o desde otro punto de vista, de manera a poder tener en cuenta un cambio de iluminación entre los dos puntos de vista, o por ejemplo una mala calidad de proyección, relacionada con el propio objeto, por ejemplo en el caso de un objeto inclinado (que se extiende sobre un determinado intervalo de profundidad).

Con el fin de codificar los parches que representan las zonas extraídas, es necesario codificar la textura de estos parches y la profundidad asociada. Para simplificar la codificación y representación de estos parches, que pueden tener diferentes formas, en general, los parches se almacenan en forma de imágenes rectangulares o al menos en forma de cuadriláteros, también denominadas subimágenes.

Con una representación en forma de subimágenes, parece que las subimágenes comprenden los denominados datos útiles correspondientes a las zonas extraídas y susceptibles de ser utilizados para la síntesis de vistas intermedias, y datos no útiles que no pertenecen inicialmente a los parches extraídos.

Para una codificación eficaz de los parches, es necesario que la codificación de datos no útiles tenga un impacto mínimo en la codificación de datos útiles.

Además, en el lado del decodificador, es necesario transmitir al algoritmo una información de síntesis que le permita identificar cuales zonas son útiles o cuales zonas no son útiles, para que no utilice zonas inútiles durante la síntesis.

RENAUD DORE (TECHNICOLOR) ET AL: “[MPEG-I Visual] RVS based 3DoF+ Evidence”, no. m44588 9 de octubre de 2018 (09-10-2018), XP030193168 divulga la generación de subimágenes de textura y profundidad, que comprenden zonas útiles y zonas no útiles (“packed views”), que después se codifican con HEVC.

Por lo tanto, es necesario mejorar el estado de la técnica.

3. Presentación de la invención

La invención está definida por las reivindicaciones. En lo sucesivo, cuando los términos “realización” y “realización particular” se refieran a una combinación de características no reivindicada, dichos términos deberán entenderse como que se refieren a ejemplos de la presente invención.

La invención mejora el estado de la técnica. Para tal fin, se refiere a un procedimiento para decodificar al menos un flujo de datos representativo de un vídeo de múltiples vistas. El flujo de datos comprende al menos datos codificados representativos de al menos una subimagen, comprendiendo los datos codificados datos de textura y datos de profundidad asociados a dichos datos de textura, y comprendiendo la subimagen al menos una zona, denominada útil, destinada a ser utilizada para generar al menos una imagen de al menos una vista.

Tal procedimiento de decodificación comprende:

- la decodificación a partir de dicho al menos un flujo de datos, de un indicador que indica si la subimagen está codificada según un primer método o según un segundo método,

- cuando el indicador indica que la subimagen está codificada según el primer método, la decodificación para la subimagen de un mapa binario que indica para al menos un píxel de la subimagen si dicho píxel pertenece o no a la zona útil,

- la decodificación de los datos de textura y de los datos de profundidad de la subimagen, cuando el indicador indica que la subimagen está codificada según el segundo método, comprendiendo los datos de profundidad de dicha subimagen para los píxeles ubicados fuera de la zona útil un valor de profundidad decodificado.

Según la invención, es posible así codificar y decodificar subimágenes que codifican zonas útiles para la síntesis limitando al mismo tiempo el coste de codificación de estas subimágenes. En particular, según el valor de un indicador codificado en el flujo, la zona útil en una subimagen que representa un parche puede ser determinada por un algoritmo de síntesis de reconstrucción de una vista, ya sea a partir de informaciones de profundidad codificadas en el flujo para la subimagen, o a partir de un mapa binario codificado y decodificado del flujo.

Según la invención, a diferencia de las técnicas de la técnica anterior, no es necesario así codificar sistemáticamente para la subimagen un mapa binario de validez que permita identificar la zona útil de la subimagen. Por ejemplo, en el codificador, se puede implementar una competición para determinar la mejor codificación en términos de velocidad/distorsión para las informaciones de profundidad del parche. Tal competición compara los rendimientos de un primer método que codifica un mapa binario que indica qué píxeles pertenecen a la zona útil y transmitida al algoritmo de síntesis durante la síntesis de una vista, con los rendimientos de un segundo método según el cual al valor de profundidad de los píxeles situados fuera de la zona útil se le asigna un valor particular. Cuando la subimagen se codifica según el primer método, sólo se codifican y decodifican los valores de profundidad de los píxeles que pertenecen a la zona útil. Mientras que cuando la subimagen se codifica según el segundo método, se codifica y decodifica el valor de profundidad de todos los píxeles de la subimagen, independientemente de si estos píxeles pertenecen o no a la zona útil. Los píxeles de la subimagen que no pertenecen a la zona útil tienen un valor de profundidad decodificado particular que se determinó durante la codificación.

Un valor tan especial permite que el algoritmo de síntesis no utilice píxeles que no pertenecen a la zona útil durante la síntesis de una vista.

La subimagen puede comprender datos de textura y profundidad relacionados con una zona de oclusión no visible en las vistas codificadas en el flujo de datos. Así, la codificación de tal subimagen permite mejorar la calidad de la síntesis de una vista no codificada en el flujo de datos.

En otras variantes de realización, la subimagen puede comprender datos de textura y profundidad relacionados con una zona visible desde las vistas codificadas en el flujo de datos, pero que dan como resultado defectos importantes en la síntesis de una vista. La codificación de tal subimagen permite mejorar la calidad de la síntesis de esta vista al proporcionar refinamientos de textura y de profundidad a la zona.

La invención propuesta permite una mejor adaptación al contenido de las vistas y a los tipos de oclusión. En particular, el primer método permite preservar contornos claros de las zonas de oclusión durante la síntesis, mientras que el segundo método permite ahorrar costes de codificación al evitar la transmisión del mapa binario. Sin embargo, como durante la codificación con el segundo método ya no se realiza la distinción entre zona útil y zona no útil en la subimagen, no se conserva la claridad de los contornos de las zonas de oclusión.

La elección en el codificador entre el primer método y el segundo método se puede realizar, por ejemplo, a través de una optimización de velocidad/distorsión en la que se mide la distorsión en el codificador a partir de una síntesis parcial de la zona reconstruida por la zona útil.

La invención también se refiere a un procedimiento para codificar un flujo de datos representativo de un vídeo de múltiples vistas, que comprende:

- la codificación de al menos una subimagen que comprende datos de textura y datos de profundidad asociados a dichos datos de textura, comprendiendo dicha subimagen una zona, denominada útil, destinada a ser utilizada para generar al menos una imagen de al menos una vista,

la codificación de dicha al menos una subimagen comprende:

- la determinación de un método de codificación para codificar la subimagen entre un primer método y un segundo método,

- la codificación de un indicador que indica si la subimagen está codificada según el primer método o según el segundo método,

- cuando el indicador indica que la subimagen está codificada según el primer método, la codificación para la subimagen de un mapa binario que indica para al menos un píxel de la subimagen si dicho píxel pertenece o no a la zona útil,

- cuando el indicador indica que la subimagen está codificada según el segundo método:

- la determinación de un valor de profundidad de asignación,

- la asignación del valor de profundidad de asignación a los datos de profundidad de dicha subimagen para los píxeles de la subimagen ubicados fuera de la zona útil,

- la codificación de datos de textura y datos de profundidad de la subimagen.

Según una realización particular de la invención, el valor de profundidad de asignación se determina a partir de un valor de profundidad mínimo determinado sobre al menos la zona útil de la subimagen, reducido en un valor predeterminado.

Por valor de profundidad mínimo se entiende, por ejemplo, el valor de profundidad del punto más distante de la zona útil (en términos de profundidad) en la subimagen. El valor de profundidad mínima se reduce en un valor predeterminado de manera a obtener un valor de profundidad particular que es distinto de los valores de profundidad de los puntos de la zona útil. La reducción en un valor predeterminado permite así tener en cuenta errores de cuantificación durante la codificación de los datos de profundidad.

Además, el uso de un valor de profundidad particular que permanezca cerca de los valores de profundidad de los puntos en la zona útil permite limitar el impacto del coste de codificación de la profundidad para la subimagen. En efecto, la aparición de fuertes discontinuidades en las informaciones de profundidad que se debe codificar para la subimagen es limitada.

Además, el algoritmo de síntesis puede utilizar de manera ventajosa tal valor de profundidad de asignación. En efecto, en caso de conflicto durante la síntesis de una imagen, un algoritmo de síntesis favorecerá naturalmente los objetos situados en primer plano, por lo tanto con un valor de profundidad mayor, que los objetos situados en segundo plano. La utilización, para los píxeles de la subimagen situados en la zona no útil, de un valor de profundidad inferior al valor de profundidad de los píxeles de la zona útil permite así indicar al algoritmo de síntesis que los píxeles que llevan el valor de profundidad inferior no pertenecen a la zona útil, y su consideración por el algoritmo de síntesis no se verá favorecida en caso de conflictos durante la reconstrucción de una imagen sintetizada.

Según otra realización particular de la invención, cuando el indicador indica que la subimagen está codificada según el segundo método, el procedimiento de decodificación, respectivamente el procedimiento de codificación, comprende la decodificación, respectivamente la codificación, de una información representativa del valor de profundidad de asignación, correspondiendo el valor de profundidad de asignación al valor de profundidad decodificado, respectivamente codificado para los píxeles situados fuera de la zona útil.

Según esta realización particular de la invención, se puede así crear un mapa binario que indica los píxeles que pertenecen a la zona útil para las subimágenes codificadas según el segundo método, ya que el decodificador conoce el valor de profundidad denominado de asignación que se ha asignado a los píxeles situados fuera de la zona útil. De este modo, a partir del valor de profundidad de los píxeles decodificados, puede identificar cuales píxeles pertenecen a la zona útil y cuales píxeles están fuera de la zona útil. El mapa binario así construido puede transmitirse al algoritmo de síntesis. Por lo tanto, las informaciones proporcionadas como entrada al algoritmo de síntesis son idénticas, independientemente de si la subimagen se ha codificado utilizando el primer método o el segundo método.

Según otra realización particular de la invención, los datos de profundidad de la subimagen codificados en el flujo de datos comprenden, para al menos un píxel de la subimagen, un residuo determinado por una diferencia entre el valor de profundidad de dicho píxel y dicho valor de profundidad de asignación.

Esta realización particular de la invención permite reducir el coste de codificación de los datos de profundidad de la subimagen cuando la subimagen se codifica según el segundo método. En efecto, cuando la subimagen solo comprende informaciones de fondo, la dinámica de los datos de profundidad es bajo y la codificación de estos datos en forma de residuo resulta más ventajoso.

Según otra realización particular de la invención, un indicador se decodifica o se codifica para dicha al menos una subimagen que indica si los datos de profundidad están codificados por un residuo determinado por una diferencia entre el valor de profundidad de dicho píxel y dicho valor de profundidad de asignación.

Esta realización particular de la invención permite señalar si los datos de profundidad en el caso de una codificación por el segundo método están codificados por un residuo o no. En efecto, según el tipo de informaciones que lleva la subimagen, el modo de codificación por residuo puede ser ventajoso o no. La codificación por residuo puede ser ventajosa cuando la subimagen contiene informaciones relativas a zonas de oclusiones, mientras que puede ser menos interesante para las subimágenes que comprenden informaciones de refinamiento.

Según otra realización particular de la invención, el procedimiento de decodificación comprende además:

- la determinación de la zona útil:

- a partir de los datos de profundidad reconstruidos y de la información representativa del valor de profundidad de asignación decodificado cuando el indicador indica que la subimagen está codificada según el segundo método,

- a partir del mapa binario decodificado cuando el indicador indica que la subimagen está codificada según el primer método,

- la construcción de un mapa de profundidad para la subimagen en el que se asigna un valor infinito a los píxeles ubicados fuera de la zona útil,

- la transmisión de dicho mapa de profundidad a un módulo de síntesis.

Según esta realización particular de la invención, el valor infinito asignado a los valores de profundidad permite indicar de forma sencilla al algoritmo de síntesis los píxeles que pertenecen a la zona útil y a la zona no útil, y evita la transmisión al módulo de síntesis de datos adicionales, tales como un mapa binario que indica la zona útil y la zona no útil.

Según otra realización particular de la invención, el procedimiento de decodificación comprende además, cuando el indicador indica que la subimagen está codificada según el segundo método:

- la determinación de la zona útil a partir de los datos de profundidad reconstruidos y de la información representativa del valor de profundidad de asignación decodificado,

- la construcción de un mapa binario que indica, para al menos un píxel de la subimagen, si el píxel pertenece o no a la zona útil,

- la transmisión de dicho mapa binario a un módulo de síntesis.

Según otra realización particular de la invención, en el flujo de datos se codifican al menos dos subimágenes destinadas a ser utilizadas para generar dicha al menos una imagen de dicha al menos una vista, determinándose el valor mínimo de profundidad a partir de cada zona útil de dichas al menos dos subimágenes.

Según otra realización particular de la invención, el flujo de datos comprende datos codificados de al menos una vista del vídeo, correspondiendo dicha al menos una vista a una vista determinada durante la codificación a partir de al menos una vista fuente.

Por vista fuente, se entiende aquí una vista original de la escena representada por el vídeo de múltiples vistas. En otras palabras, se trata de una secuencia de imágenes que resulta de la captación de la escena por una cámara.

Según esta realización particular de la invención, al menos una vista básica transmitida al decodificador es una vista determinada a partir de una o más vistas fuentes. Esta determinación puede realizarse durante la codificación o previamente a la codificación.

Por ejemplo, puede tratarse de una vista sintetizada a partir de múltiples vistas fuentes o una vista calculada/estimada a partir de múltiples puntos de vista fuente.

Por ejemplo, la vista determinada puede corresponder a una secuencia de imágenes en la que cada imagen es de tamaño mayor que una imagen de una cámara y comprende todas las imágenes de un mismo instante de todas las cámaras de una matriz de cámaras de captación a 360°.

Según otra realización particular de la invención, el procedimiento de decodificación comprende además la recepción de los datos de textura y de los datos de profundidad de dicha subimagen, procediendo dicha subimagen de una vista intermedia sintetizada para una posición y una dirección de visualización de un observador en un volumen de visualización.

Según esta realización particular de la invención, los datos de la subimagen se proporcionan al decodificador, cuando se solicita una posición y una dirección de visualización en el volumen de visualización. Tal realización particular de la invención permite proporcionar los datos de subimágenes a demanda, durante la navegación de un observador en el vídeo de múltiples vistas. Los datos de las zonas de refinamiento u oclusión correspondientes se adaptan así mejor a la posición y a la dirección de visualización del observador.

La invención se refiere también a un dispositivo de decodificación de al menos un flujo de datos representativo de un vídeo de múltiples vistas, comprendiendo dicho al menos un flujo de datos al menos datos codificados representativos de al menos una subimagen, comprendiendo los datos codificados datos de textura y datos de profundidad asociados a dichos datos de textura, comprendiendo dicha subimagen una zona, denominada útil, destinada a ser utilizada para generar al menos una imagen de al menos una vista,

el dispositivo de decodificación está configurado para:

Según una realización particular de la invención, tal dispositivo de decodificación está comprendido en un terminal o servidor.

La invención también se refiere a un dispositivo de codificación de un flujo de datos representativo de un vídeo de múltiples vistas, configurado para:

- la codificación de al menos una subimagen que comprende datos de textura y datos de profundidad asociados a dichos datos de textura, comprendiendo dicha subimagen una zona, denominada útil, destinada a ser utilizada para generar al menos una imagen de al menos una vista que comprende:

- la determinación de un valor de profundidad de asignación,

- la codificación de los datos de textura y los datos de profundidad de la subimagen.

Según una realización particular de la invención, tal dispositivo codificador está comprendido en un terminal o servidor. La invención se refiere también a un flujo de datos representativo de un vídeo de múltiples vistas, comprendiendo al menos datos codificados representativos de al menos una subimagen, comprendiendo los datos codificados datos de textura y datos de profundidad asociados a dichos datos de textura, comprendiendo dicha subimagen una zona, denominada útil, destinada a ser utilizada para generar al menos una imagen de al menos una vista, comprendiendo el flujo de datos:

- un indicador que indica si la subimagen está codificada según un primer método o según un segundo método, - cuando el indicador indica que la subimagen está codificada según el primer método, datos codificados representativos de un mapa binario que indican para al menos un píxel de la subimagen si dicho píxel pertenece o no a la zona útil,

- cuando el indicador indica que la subimagen está codificada según el segundo método, comprendiendo los datos de profundidad de dicha subimagen para los píxeles ubicados fuera de la zona útil un valor de profundidad. Según una realización particular de la invención, el flujo de datos comprende además, cuando el indicador indica que la subimagen está codificada según el segundo método, una información representativa del valor de profundidad de asignación.

Según otra realización particular de la invención, el flujo de datos comprende un indicador para dicha al menos una subimagen que indica si los datos de profundidad están codificados mediante la obtención de un residuo determinado por una diferencia entre el valor de profundidad de un píxel y dicho valor de profundidad de asignación.

Según otra realización particular de la invención, el flujo de datos comprende además datos codificados de al menos una vista del vídeo, correspondiendo dicha al menos una vista a una vista sintetizada durante la codificación a partir de al menos una vista fuente.

El procedimiento de descodificación, respectivamente el procedimiento de codificación, según la invención se puede implementar de diversas maneras, en particular en forma cableada o bien en forma de software. Según una realización particular de la invención, el procedimiento de decodificación, respectivamente el procedimiento de codificación, se implementa mediante un programa informático. La invención también se refiere a un programa informático que comprende instrucciones para implementar el procedimiento de decodificación o el procedimiento de codificación según una cualquiera de las realizaciones particulares descritas anteriormente, cuando dicho programa es ejecutado por un procesador. Tal programa puede utilizar cualquier lenguaje de programación. Puede descargarse de una red de comunicaciones y/o grabarse en un medio legible por ordenador.

Este programa puede usar cualquier lenguaje de programación y estar en forma de código fuente, código objeto, o código intermedio entre el código fuente y el código objeto, tal como en forma parcialmente compilada o en cualquier otra forma deseable.

La invención también se refiere a un medio de grabación o medio de informaciones legible por un ordenador, y que comprende instrucciones para un programa de ordenador como se mencionó anteriormente. Los soportes de grabación mencionados anteriormente pueden ser cualquier entidad o dispositivo capaz de almacenar el programa. Por ejemplo, el soporte puede comprender un medio de almacenamiento, tal como una ROM, por ejemplo un CD-ROM o una ROM de circuito microelectrónico, una llave USB o también un medio de grabación magnética, por ejemplo un disco duro. Por otra parte, los soportes de grabación pueden corresponder a un soporte transmisible tal como una señal eléctrica u óptica, que puede transmitirse a través de un cable eléctrico u óptico, por radio o por otros medios. En particular, el programa según la invención puede descargarse de una red tipo Internet.

Alternativamente, los soportes de grabación pueden corresponder a un circuito integrado en el que se incorpora el programa, estando adaptado el circuito para ejecutar o para ser usado en la ejecución del procedimiento en cuestión.

4. Lista de figuras

Otras características y ventajas de la invención aparecerán más claramente con la lectura de la siguiente descripción según un modo particular de realización, dado a título de ejemplo sencillo, ilustrativo y no limitativo, y de los dibujos adjuntos, entre los que:

[Fig. 1] La figura 1 ilustra esquemáticamente un ejemplo de un sistema de captura de múltiples vistas de una escena.

[Fig. 2] La figura 2 ilustra un ejemplo de entradas/salidas de un módulo de síntesis de vistas.

[Fig. 3] La figura 3 ilustra esquemáticamente un ejemplo de un codificador de múltiples vistas basado en la codificación de parches.

[Fig. 4] La figura 4 ilustra las etapas de un procedimiento de codificación según una realización particular de la invención.

[Fig. 5] La figura 5 ilustra un ejemplo de una imagen que agrupa subimágenes a codificar.

[Fig. 6] La figura 6 ilustra un ejemplo de una imagen que comprende subimágenes y un mapa binario correspondiente que indica las zonas útiles y no útiles de las subimágenes para la imagen ilustrada en la figura 5.

[Fig. 7] La figura 7 ilustra un ejemplo de relleno de una zona no útil de la textura de un parche según una realización particular de la invención.

[Fig. 8] La figura 8 ilustra un ejemplo de relleno de una zona no útil de la profundidad de un parche según una realización particular de la invención.

[Fig. 9] La figura 9 ilustra las etapas de un procedimiento de decodificación según una realización particular de la invención.

[Fig. 10] La figura 10 ilustra las etapas de un procedimiento de decodificación según otra realización particular de la invención.

[Fig. 11] La figura 11 ilustra las etapas de un procedimiento de decodificación según una realización particular de la invención.

[Fig. 12] La figura 12 ilustra un ejemplo de arquitectura de un dispositivo de codificación según una realización particular de la invención.

[Fig. 13] La figura 13 ilustra un ejemplo de arquitectura de un dispositivo de decodificación según una realización particular de la invención.

[Fig. 14] La figura 14 ilustra un ejemplo de un flujo de datos según realizaciones particulares de la invención.

5. Descripción de una realización de la invención

La figura 4 ilustra las etapas de un procedimiento para codificar al menos un flujo de datos representativo de un vídeo de múltiples vistas según una realización particular de la invención.

Según la invención, el vídeo de múltiples vistas se codifica según un esquema de codificación como el presentado con respecto a la figura 3, en el que una o más de las denominadas vistas básicas se codifican en el flujo de datos y en el que subimágenes o parches que comprenden datos de textura y profundidad también se codifican en el flujo de datos y permiten al decodificador sintetizar otras vistas de la escena que no se han codificado en el flujo de datos. A continuación, se describen las etapas de tal esquema de codificación relacionadas con una realización particular de la invención.

Se considera aquí por ejemplo que la escena fue capturada según 4 puntos de vista V0-V3 y que los mapas de profundidad d0-d3 asociados a cada una de las imágenes de las vistas fueron estimados previamente. Por vista, se entiende aquí una secuencia de imágenes que representan la escena capturada a partir de un punto de vista. Por lo tanto, cada vista es un vídeo, es decir, una secuencia de imágenes, y para cada imagen de la vista se determina un mapa de profundidad.

Durante una etapa E40, las vistas V0-V3 y los mapas de profundidad asociados d0-d3 se codifican y decodifican, por ejemplo, mediante un codificador HEVC, o cualquier otro codificador 2D o de múltiples vistas adecuado. Estas vistas se consideran como vistas básicas y se transmitirán al decodificador. Podrán ser utilizadas para sintetizar vistas intermedias en el lado del decodificador. En una variante, no todas las vistas V0-V3 pueden estar codificadas, por ejemplo una sola vista, o 2 o 3 pueden ser codificadas y transmitidas al decodificador.

Según una realización particular de la invención, durante la etapa E40, una vista básica codificada en el flujo de datos corresponde a una vista sintetizada a partir de una o más vistas V0-V3.

Durante una etapa E41, se sintetiza una vista intermedia Vi utilizando las vistas codificadas que se transmitirán al decodificador. Clásicamente, tal vista intermedia Vi comprende datos de textura y datos de profundidad asociados con los datos de textura.

Durante una etapa E42, a partir de esta vista intermedia Vi y de las vistas básicas codificadas/decodificadas, se extraen una o más zonas de la vista intermedia Vi. El procedimiento se presenta aquí en el caso de una vista intermedia Vi sintetizada. Por supuesto, el procedimiento se aplica de manera idéntica si se sintetizan varias vistas intermedias, extrayéndose una o más zonas de estas vistas intermedias.

El objeto de la invención no consiste en la determinación de las zonas a extraer. Por lo tanto, no se desarrollará más el método de extracción de estas zonas.

Las zonas extraídas pueden corresponder a zonas de oclusión, es decir, zonas no visibles en las vistas básicas y visibles en la vista intermedia, o a zonas ya presentes en las vistas básicas pero que proporcionan una calidad de síntesis insuficiente en la vista sintetizada, por ejemplo debido a deformaciones que aparecen en la síntesis.

En este último caso, la vista intermedia sintetizada corresponde entonces a una vista capturada por una cámara. La vista intermedia a partir de la que se extraen las zonas puede ser una vista capturada por una cámara pero no codificada en el flujo de datos. Por lo tanto, se podrá sintetizar en el lado del decodificador y refinar mediante las subimágenes codificadas en el flujo de datos.

Las zonas extraídas se representan en forma de parches de forma arbitraria. A continuación, estos parches se denominan subimágenes. Una subimagen comprende datos de textura, datos de profundidad, una posición en cada vista y un tamaño.

Se entiende que, para la vista intermedia, se pueden extraer una o más subimágenes para una misma imagen de la vista intermedia. Asimismo, se puede extraer una subimagen que represente la misma zona extraída de la vista intermedia para diferentes imágenes de la vista intermedia. De este modo, los datos de textura y profundidad de la subimagen varían entonces con el tiempo y forman una secuencia de subimágenes.

En la figura 5 se muestran ejemplos de subimágenes P<0>-P<5>extraídas a partir de una imagen de vista intermedia Vi. En el ejemplo de la figura 5, las subimágenes se agrupan en una imagen rectangular 50 con el fin de facilitar su codificación. Se entiende que, según las variantes de realización de tal imagen, la imagen 50 puede comprender subimágenes extraídas de diferentes imágenes de la vista intermedia, o de una única imagen, o incluso subimágenes extraídas de la vista intermedia Vi y también de otras vistas intermedias.

Asimismo, las subimágenes se pueden codificar sin agruparlas en una imagen rectangular. Cada subimagen se trata entonces como una imagen o una secuencia de imágenes a medida que la subimagen varía con el tiempo.

En la figura 5, mediante la representación de las zonas extraídas de la vista intermedia en una forma adecuada para la codificación (forma rectangular o al menos cuadrilátera), parece que las subimágenes comprenden datos denominados útiles (51, zonas con rayas grandes en la figura 5) correspondientes a las zonas extraídas y que es probable que se utilicen para la síntesis de la vista intermedia u otras vistas, y datos denominados no útiles (52, zonas con rayas finas en la figura 5) que comprenden datos de textura y profundidad a 0.

Los datos útiles de la subimagen pueden estar incluidos en una zona de la subimagen o en varias zonas disjuntas de la subimagen, de modo que la subimagen comprende entonces varias zonas denominadas útiles para la síntesis.

El procedimiento de codificación según la invención tiene como objetivo reducir el coste de codificación de zonas no útiles.

A continuación, se describe la invención en el caso en el que se considera que las subimágenes están agrupadas en una imagen grande 50. Sin embargo, el principio general de la invención se aplica de manera similar al caso en el que las subimágenes no se agrupan en una imagen grande, sino que se procesan individualmente.

Durante una etapa E42, se codifican la o las subimágenes. Para este fin, según la invención, se pueden utilizar dos métodos de codificación de las subimágenes. Para una subimagen considerada, se implementa una competición entre los dos métodos de codificación con el fin de seleccionar el método de codificación que ofrece el mejor compromiso flujo/distorsión. Se codifica un indicador en el flujo para indicar, para la subimagen, qué método de codificación se utiliza.

A continuación se describen los dos métodos de codificación.

Según un primer método de codificación, la subimagen se codifica utilizando un mapa binario que indica, para un píxel considerado de la subimagen, si el píxel pertenece a la zona útil (por ejemplo, en el mapa binario, el píxel toma el valor 1) o no (por ejemplo, en el mapa binario, el píxel toma el valor 0).

La figura 6 ilustra un ejemplo de una imagen (50<text>) que comprende subimágenes y un mapa binario (50<bi>n) correspondiente que indica las zonas útiles (51, zonas rayadas en la imagen de textura 50<text>) y no útiles (52, zonas blancas en la imagen de textura 50<text>) de las subimágenes de la imagen 50 ilustrada en la figura 5. Según este primer método de codificación, únicamente se codifican y transmiten al decodificador los datos de textura y profundidad de los píxeles situados en la zona útil, codificándose el mapa binario asociado para todos los píxeles de la subimagen.

Cabe señalar aquí que no es posible utilizar un valor predefinido como referencia en los datos de textura, por ejemplo, como un 0, que especificaría que el píxel en cuestión no es útil. En efecto, después de codificar y decodificar la textura, el valor del píxel no está garantizado y puede que ya no sea cero. Además, pueden aparecer otros valores nulos para los píxeles que pertenecen a la zona útil.

En un segundo método de codificación, la subimagen se codifica utilizando un relleno de la zona no útil, tanto para datos de textura como para datos de profundidad. La subimagen se codifica entonces de manera convencional, codificando todos los píxeles de la subimagen.

Para ello, durante una etapa E420, se determina el método de codificación a utilizar para codificar la subimagen, entre el primer método y el segundo método mencionados anteriormente. Por ejemplo, se implementa una competición de la codificación de los dos métodos y se selecciona el método que proporciona el mejor compromiso velocidad/distorsión. De manera conocida, tal competición se realiza mediante una simulación de la codificación respectivamente según los dos métodos, un cálculo del caudal utilizado por cada método y la distorsión asociada calculada entre los valores originales y los valores reconstruidos de los datos de textura y/o profundidad.

Durante una etapa E421, se codifica en el flujo de datos un indicador que indica si la subimagen está codificada según el primer método o según el segundo método. Cuando el indicador indica que la subimagen está codificada según el primer método, el procedimiento pasa a la etapa E422. Cuando el indicador indica que la subimagen está codificada según el segundo método, el procedimiento pasa a la etapa E424.

Durante la etapa E422, se codifica el mapa binario de la subimagen. Por ejemplo, se utiliza la codificación entrópica.

Durante una etapa E423, se codifican los datos de textura y los datos de profundidad para la subimagen considerando únicamente los píxeles ubicados en la zona útil de la subimagen. Estos píxeles se identifican mediante el mapa binario. Los datos de textura y los datos de profundidad se codifican de manera convencional, por ejemplo, mediante un codificador HEVC o cualquier otro codificador 2D o 3D.

Durante la etapa E424, el indicador que indica que la subimagen está codificada según el segundo método, se determina un valor de profundidad de asignación d*.

Por ejemplo, el valor de profundidad de asignación d* se determina a partir de un valor de profundidad mínimo d<min>determinado al menos sobre la zona útil de la subimagen, reducido por un valor predeterminadodelta.El valor de profundidad mínimo d<min>corresponde al menor valor de profundidad de los píxeles de la subimagen perteneciente a la zona útil, es decir, a la profundidad del píxel de la subimagen perteneciente a la zona útil, más alejado: d<min>=min(d), en la que dcorresponde a los valores de profundidad de los píxeles de la zona útil, y min es la función que devuelve el valor más pequeño.

Este valor mínimo d<min>se reduce en un valordeltapara tener en cuenta el error de cuantificación introducido durante la codificación de los valores de profundidad. Por ejemplo, el valor de asignación d* se obtiene mediante d* = d<min>-delta.

Son posibles diferentes valoresdelta,por ejemplo,deltaes igual a 10.

Según una realización particular de la invención, el valor mínimo de profundidad se determina a partir de la zona útil de varias subimágenes. Por ejemplo, cuando las subimágenes se agrupan en una imagen grande, se recorren las zonas útiles de todas las subimágenes con el fin de determinar el valor mínimo de profundidad entre todas las subimágenes de la imagen grande. Tal realización particular de la invención permite tener un valor de profundidad de asignación más homogéneo para todas las subimágenes de una imagen grande.

En una etapa E425, se asigna el valor de profundidad de asignación d* como valor de profundidad a los píxeles ubicados fuera de la zona útil. Tal etapa se ilustra en la figura 8, que representa los datos de profundidad de una subimagen. Los píxeles de la zona útil (51) comprenden el valor de profundidad que se estimó para estos píxeles durante la extracción de la zona útil a partir de la vista intermedia. Los píxeles en la zona no útil (52) comprenden el valor de profundidad de asignación d*.

Durante una etapa E426, también se asigna un valor de textura a los píxeles ubicados fuera de la zona útil.

Por ejemplo, el relleno de la zona no útil se realiza mediante espejo. Los valores de textura de los píxeles fuera de la zona útil se calculan para reproducir lo mejor posible los datos presentes dentro de la zona útil, como se muestra en la figura 7. En la figura 7, se muestra una subimagen. Los datos de la zona útil (51) se propagan a la zona no útil (52) simétricamente con respecto al límite (53) entre la zona útil y la zona no útil.

Según otro ejemplo, los valores de textura de los píxeles situados fuera (52) de la zona útil corresponden al promedio de los valores de textura de los píxeles de la zona útil (51). En este ejemplo, los píxeles de la zona no útil se rellenan con un mismo valor.

En una etapa E427, los datos de textura y los datos de profundidad para la subimagen se codifican considerando todos los píxeles de la subimagen. En otras palabras, según este segundo método de codificación, se codifican los píxeles de la zona útil y los píxeles de la zona no útil. Los datos de textura y los datos de profundidad se codifican de manera convencional, por ejemplo, mediante un codificador HEVC o cualquier otro codificador 2D o 3D.

Según una realización particular de la invención, los datos de profundidad se codifican diferencialmente con respecto al valor de profundidad de asignación d*. Según esta realización particular de la invención, se calcula entonces un residuo de predicción mediante res(x,y)=prof(x,y)- d*, en la que prof(x,y) es el valor de profundidad para el píxel (x,y) de la subimagen, y res(x,y) es el valor del residuo para el píxel (x,y) de la subimagen.

Durante la codificación de los datos de profundidad para la subimagen, se codifica por lo tanto el residuo tal como se menciona anteriormente.

Según esta realización particular de la invención, con el fin de que el decodificador pueda reconstruir datos de profundidad para la subimagen a partir del residuo, el decodificador debe tener conocimiento del valor de profundidad de asignación d*.

Así, según esta realización particular de la invención, durante una etapa E428, el valor de profundidad de asignación d* se codifica en el flujo de datos.

Según una variante de esta realización particular de la invención, la codificación diferencial de los datos de profundidad se pone en competición con una codificación convencional de los datos de profundidad. Así, según esta variante, durante la etapa E420, cuando se lleva a cabo la prueba de codificación de la subimagen según el segundo método, se determina también si los datos de profundidad según este segundo método de codificación están codificados por un residuo o no. Se simulan la codificación de datos de profundidad por residuo y la codificación de datos de profundidad de manera convencional para seleccionar el modo de codificación que proporciona el mejor compromiso velocidad/distorsión.

Según esta realización de la invención, una información que indica qué modo de codificación de datos de profundidad está seleccionado debe después entonces codificarse en el flujo de datos. Así, durante una etapa E429, se codifica un indicador de codificación de datos de profundidad en el flujo de datos de la subimagen. Tal indicador indica si los datos de profundidad están codificados por un residuo o no.

La figura 9 ilustra etapas de un procedimiento para decodificar un flujo de datos representativo de un vídeo de múltiples vistas según una realización particular de la invención. Por ejemplo, el flujo de datos se generó mediante el procedimiento de codificación descrito con respecto a la figura 4.

Según la invención, el flujo de datos comprende al menos datos codificados relacionados con la codificación de una o más vistas básicas del vídeo de múltiples vistas y datos codificados representativos de subimágenes o parches que comprenden datos de textura y profundidad. Una vez decodificadas, estas subimágenes permiten al decodificador sintetizar otras vistas de la escena que no fueron codificadas en el flujo de datos, por ejemplo. A continuación, se describen las etapas de tal esquema de decodificación relacionadas con una realización particular de la invención.

Durante una etapa E90, las vistas básicas y los mapas de profundidad asociados se decodifican del flujo de datos.

Según una realización particular de la invención, una vista básica decodificada a partir del flujo de datos corresponde a una vista sintetizada en el codificador a partir de una o más vistas capturadas.

Se procede entonces a la decodificación de una subimagen codificada en el flujo de datos. Por subimagen se entiende aquí una subimagen que representa una zona útil extraída en el codificador a partir de una vista intermedia. Esta subimagen se puede agrupar con otras subimágenes en una imagen más grande.

Durante una etapa E91, se decodifica un indicador que indica para la subimagen si la subimagen está codificada según el primer método o según el segundo método que se han descrito anteriormente.

Cuando el indicador indica que la subimagen está codificada según el primer método, el procedimiento pasa a la etapa E92. Cuando el indicador indica que la subimagen está codificada según el segundo método, el procedimiento pasa a la etapa E94.

Durante la etapa E92, se decodifica un mapa binario para la subimagen. Tal mapa binario indica, para un píxel considerado de la subimagen, si el píxel pertenece o no a la zona útil.

Durante una etapa E93, los datos de textura y los datos de profundidad de la subimagen se decodifican y reconstruyen considerando únicamente los píxeles ubicados en la zona útil de la subimagen. Estos píxeles se identifican mediante el mapa binario.

Al final de la reconstrucción, los píxeles de la subimagen ubicados fuera de la zona útil comprenden valores de textura y valores de profundidad en 0.

Cuando el indicador indica que la subimagen está codificada según el segundo método, durante la etapa E94, los datos de textura y los datos de profundidad de la subimagen se decodifican de la siguiente manera.

Durante una etapa E940, los datos de textura y los datos de profundidad de la subimagen se decodifican y reconstruyen de manera convencional considerando todos los píxeles de la subimagen. Al final de la reconstrucción, todos los píxeles de la subimagen comprenden un valor de textura y un valor de profundidad. Los píxeles de la subimagen ubicados fuera de la zona útil comprenden un valor de textura y un valor de profundidad tales como se determinan durante la codificación.

Según una realización particular de la invención, cuando el indicador indica que la subimagen está codificada según el segundo método, el decodificador no distingue entre la zona útil y la zona no útil de la subimagen.

Sin embargo, el valor de profundidad decodificado para los píxeles en la zona no útil de la subimagen permite que un algoritmo de síntesis no utilice estos píxeles durante la síntesis de una vista intermedia. En efecto, según una realización particular de la invención, a tales píxeles se les ha asignado un valor de profundidad determinado a partir del valor de profundidad mínimo de la zona de la subimagen, reducido en un valor que permite tener en cuenta los errores de cuantificación. Por lo tanto, el algoritmo de síntesis considera estos píxeles como los puntos más distantes.

Según otra realización particular de la invención, durante una etapa E941, se decodifica del flujo de datos una información representativa del valor de profundidad de asignación d* asignado a la codificación de los píxeles situados fuera de la zona útil de la subimagen.

Según esta realización particular de la invención, se puede así construir un mapa binario de la subimagen con el fin de identificar los píxeles de la zona útil y los píxeles de la zona no útil, en el caso por ejemplo en el que dicho mapa fuera necesario para el algoritmo de síntesis.

En una variante de esta realización particular, los datos de profundidad de la subimagen se han codificado de forma diferencial con respecto al valor de profundidad de asignación d*.

Así, según esta variante de realización, durante una etapa E943, los datos de profundidad de la subimagen se reconstruyen añadiendo a los valores de residuos de profundidad de la subimagen que se han decodificado en la etapa E940, el valor de profundidad de asignación d* decodificado.

Según otra variante, durante una etapa E942, se decodifica un indicador de codificación de datos de profundidad para la subimagen del flujo de datos. Tal indicador de codificación indica si los datos de profundidad de la subimagen están codificados de manera diferencial o no.

Según una realización particular de la invención, el decodificador funciona en modo cliente-servidor con un servidor que proporciona los datos de un vídeo de múltiples vistas en el que está navegando un observador.

Según esta realización particular de la invención, el procedimiento de decodificación comprende una etapa previa E901 de recepción de los datos de textura y profundidad de la subimagen. Por ejemplo, tales datos de la subimagen se reciben después de una solicitud emitida por el decodificador para una posición y una dirección de visualización que corresponde a la posición y dirección de visualización de un observador en el volumen de visualización, o para una posición y dirección de visualización cercanas a las del observador.

La figura 10 ilustra las etapas del procedimiento de decodificación según otra realización particular de la invención. Según esta realización particular de la invención, se asigna un valor infinito a los valores de profundidad de los píxeles de la subimagen reconstruida que no pertenecen a la zona útil con el fin de permitir que el algoritmo de síntesis identifique la zona útil y la zona no útil.

Para ello, durante una etapa E100, se determina la zona útil de la subimagen reconstruida. Cuando el indicador decodificado en la etapa E91 indica que la subimagen está codificada según el segundo método, la zona útil se determina a partir de los datos de profundidad reconstruidos y el valor de profundidad de asignación d* decodificado. Cuando el indicador decodificado en la etapa E91 indica que la subimagen está codificada según el primer método, la zona útil se determina a partir del mapa binario decodificado en la etapa E92.

Durante una etapa E101, se construye un mapa de profundidad para la subimagen, en el que los píxeles de la zona útil toman su valor de profundidad decodificado y a los píxeles ubicados fuera de la zona útil se les asigna un valor infinito.

Durante una etapa E102, el mapa de profundidad se transmite a un módulo de síntesis.

La figura 11 ilustra las etapas del procedimiento de decodificación según otra realización particular de la invención.

Cuando el indicador decodificado en la etapa E91 indica que la subimagen está codificada según el segundo método, durante una etapa E110, los píxeles de la zona útil se determinan a partir de los datos de profundidad reconstruidos y el valor de profundidad de asignación d* decodificado.

Durante una etapa E111, se construye un mapa binario para la subimagen. Tal mapa binario indica, para un píxel considerado de la subimagen, si el píxel pertenece o no a la zona útil. Tal mapa binario es similar al mapa binario que se habría decodificado en el caso en el que la subimagen se hubiera codificado según el primer método.

Durante una etapa E112, el mapa binario se transmite a un módulo de síntesis.

La figura 12 presenta la estructura simplificada de un dispositivo de codificación COD adaptado para implementar el procedimiento de codificación según una cualquiera de las realizaciones particulares de la invención.

Según una realización particular de la invención, las etapas del método de codificación se implementan mediante instrucciones de un programa informático. Para ello, el dispositivo de codificación COD tiene la arquitectura clásica de un ordenador y comprende en particular una memoria MEM, una unidad de procesamiento UT, equipada por ejemplo con un procesador PROC, y controlada por el programa informático PG almacenado en la memoria MEM. El programa informático PG comprende instrucciones para implementar las etapas del procedimiento de codificación tal como se describe anteriormente, cuando el programa es ejecutado por el procesador PROC.

En la inicialización, las instrucciones de código del programa informático PG se cargan, por ejemplo, en una memoria RAM (no representada) antes de ser ejecutadas por el procesador PROC. El procesador PROC de la unidad de procesamiento UT implementa en particular las etapas del método de codificación descrito anteriormente, según las instrucciones del programa informático PG.

La figura 13 presenta la estructura simplificada de un dispositivo de decodificación DEC adaptado para implementar el procedimiento de decodificación según una cualquiera de las realizaciones particulares de la invención.

Según una realización particular de la invención, el dispositivo de decodificación DEC tiene la arquitectura clásica de un ordenador y comprende en particular una memoria MEM0, una unidad de procesamiento UT0, equipada por ejemplo con un procesador PROC0, y controlada por el programa informático PG0 almacenado en la memoria MEM0. El programa informático PG0 comprende instrucciones para implementar las etapas del procedimiento de codificación tal como se describe anteriormente, cuando el programa es ejecutado por el procesador PROC0.

En la inicialización, las instrucciones de código del programa informático PG0 se cargan, por ejemplo, en una memoria RAM (no representada) antes de ser ejecutadas por el procesador PROC0. El procesador PROC0 de la unidad de procesamiento UT0 implementa en particular las etapas del método de decodificación descrito anteriormente, según las instrucciones del programa informático PG0.

La figura 14 ilustra un ejemplo de flujo de datos STR según realizaciones particulares de la invención. Por ejemplo, el flujo de datos STR se generó mediante el procedimiento de codificación tal como se describe con respecto a la figura 4.

Con referencia a la figura 14, el flujo de datos STR es representativo de un vídeo de múltiples vistas, y comprende en particular datos codificados Vrepresentativos de una o más vistas básicas, y datos codificados representativos de al menos una subimagen que comprende datos de textura (text0, text1) y datos de profundidad (dpth0, dpth1) asociados con dichos datos de textura.

Según una realización particular de la invención, una vista básica codificada en el flujo de datos corresponde a una vista sintetizada durante la codificación a partir de al menos una vista fuente de la escena.

El flujo de datos STR que se muestra en la figura 14 es un ejemplo ilustrativo. Se presenta aquí comprendiendo dos subimágenes (Im0, Im1). Las subimágenes comprendidas en el flujo de datos comprenden una zona, denominada útil, destinada a ser utilizada para generar al menos una imagen de al menos una vista de la escena capturada por el vídeo de múltiples vistas.

En función de las diferentes realizaciones particulares de la invención, el flujo de datos STR comprende los siguientes datos para las subimágenes:

- un indicador (Id_meth0, Id_meth1) que indica si la subimagen está codificada según el primer método o según el segundo método que se han descrito anteriormente,

- cuando el indicador indica que la subimagen está codificada según el primer método (ld_meth1 en el ejemplo aquí descrito), datos codificados representativos de un mapa binario (valid 1) que indica para un píxel considerado de la subimagen si dicho píxel pertenece a la zona útil o no.

Según una realización particular de la invención, cuando el indicador indica que la subimagen está codificada según el segundo método (Id_meth0 en el ejemplo aquí descrito), el flujo de datos STR comprende una información representativa del valor de profundidad de asignación d*.

Según otra realización particular de la invención, cuando el indicador indica que la subimagen está codificada según el segundo método, el flujo de datos STR comprende un indicador de codificación (Id_res) para la subimagen que indica si los datos de profundidad están codificados mediante la obtención de un residuo determinado por una diferencia entre el valor de profundidad de un píxel y el valor de profundidad de asignación d*.

El ejemplo descrito anteriormente es meramente ilustrativo y no limitativo. Los datos codificados descritos anteriormente pueden estar comprendidos en un mismo flujo de datos o en varios flujos de datos o subflujos de un mismo flujo de datos. Asimismo, algunos de los datos descritos anteriormente y otros datos no descritos pueden estar comprendidos en metadatos asociados con uno o más flujos de datos.

Por ejemplo, los datos de textura y los datos de profundidad se pueden codificar en flujos distintos.

Según otro ejemplo, los datos codificados de las vistas básicas pueden estar comprendidos en un flujo de datos de video, y los datos codificados relativos a las subimágenes pueden estar comprendidos en metadatos asociados al flujo de datos de video.

Claims

REIVINDICACIONES

1. Procedimiento para decodificar al menos un flujo de datos representativo de un vídeo de múltiples vistas, comprendiendo dicho al menos un flujo de datos al menos datos codificados representativos de al menos una vista, denominada vista básica, del vídeo de múltiples vistas y al menos una subimagen, comprendiendo los datos codificados de la al menos una vista básica datos de textura y datos de profundidad asociados a dichos datos de textura, comprendiendo dicha subimagen una zona, denominada útil, y una zona denominada no útil, correspondiendo dicha zona útil a una zona extraída de una vista del vídeo de múltiples vistas no codificada en el flujo de datos, denominada vista intermedia, comprendiendo los datos codificados de la al menos una subimagen datos de textura y datos de profundidad asociados a dichos datos de textura, estando la zona útil destinada a ser utilizada para generar al menos una imagen de al menos otra vista, comprendiendo el procedimiento de decodificación:

- cuando el indicador indica que la subimagen está codificada según el primer método, la decodificación para la subimagen de un mapa binario que indica para al menos un píxel de la subimagen si dicho píxel pertenece o no a la zona útil, y, si dicho píxel pertenece a la zona útil, la decodificación para la subimagen de los datos de textura y los datos de profundidad asociados a dichos datos de textura,

- la decodificación de los datos de textura y de los datos de profundidad de la subimagen, cuando el indicador indica que la subimagen está codificada según el segundo método, los datos de textura, respectivamente de profundidad de dicha subimagen para los píxeles ubicados fuera de la zona, que comprenden un valor de textura de asignación, respectivamente de profundidad de asignación.

2. Procedimiento de codificación de un flujo de datos representativo de un vídeo de múltiples vistas, que comprende la codificación de al menos una vista, denominada vista básica, del vídeo de múltiples vistas y de al menos una subimagen, comprendiendo dicho flujo de datos codificados de la al menos una vista básica y datos codificados de la al menos una subimagen, comprendiendo los datos codificados de la al menos una vista básica datos de textura y datos de profundidad asociados a dichos datos de textura, comprendiendo dicha al menos una subimagen una zona, denominada útil, y una zona denominada no útil, correspondiendo dicha zona útil a una zona extraída de una vista del vídeo de múltiples vistas no codificada en el flujo de datos, denominada vista intermedia, comprendiendo los datos codificados de la al menos una subimagen datos de textura y datos de profundidad asociados a dichos datos de textura, estando la zona útil destinada a ser utilizada para generar al menos una imagen de al menos otra vista, comprendiendo la codificación de dicha al menos una subimagen:

- cuando el indicador indica que la subimagen está codificada según el primer método, la codificación para la subimagen de un mapa binario que indica para al menos un píxel de la subimagen si dicho píxel pertenece o no a la zona útil, y, si dicho píxel pertenece a la zona útil, la codificación de los datos de textura y los datos de profundidad asociados a dichos datos de textura,

- cuando el indicador indica que la subimagen está codificada según el segundo método, la determinación de un valor de textura de asignación, respectivamente de profundidad de asignación, la asignación del valor de textura de asignación, respectivamente de profundidad de asignación, a los datos de profundidad de dicha subimagen para los píxeles de la subimagen ubicados fuera de la zona útil, y la codificación de los datos de textura y los datos de profundidad de la subimagen.

3. Procedimiento de codificación según la reivindicación 2, en el que el valor de profundidad de asignación se determina a partir de un valor de profundidad mínimo determinado sobre al menos la zona útil de la subimagen, reducido en un valor predeterminado.

4. Procedimiento de decodificación según la reivindicación 1 o de codificación según una cualquiera de las reivindicaciones 2 o 3, que comprende además, cuando el indicador indica que la subimagen está codificada según el segundo método, la decodificación o codificación de una información representativa del valor de profundidad de asignación, correspondiendo el valor de profundidad de asignación al valor de profundidad decodificado o codificado para los píxeles ubicados fuera de la zona útil.

5. Procedimiento según la reivindicación 4, en el que los datos de profundidad de la subimagen codificados en el flujo de datos comprenden, para al menos un píxel de la subimagen, un residuo determinado por una diferencia entre el valor de profundidad de dicho píxel y dicho valor de profundidad de asignación.

6. Procedimiento según la reivindicación 5, que comprende la decodificación o codificación en el flujo de datos de un indicador para dicha al menos una subimagen que indica si los datos de profundidad están codificados por un residuo determinado por una diferencia entre el valor de profundidad de dicho píxel y dicho valor de profundidad de asignación.

7. Procedimiento de decodificación según una cualquiera de las reivindicaciones 4 a 6, que comprende además:

- la determinación de la zona útil a partir de los datos de profundidad reconstruidos y de la información representativa del valor de profundidad de asignación decodificado cuando el indicador indica que la subimagen está codificada según el segundo método, o a partir del mapa binario decodificado cuando el indicador indica que la subimagen está codificada según el primer método,

- la transmisión de dicho mapa de profundidad a un módulo de síntesis.

8. Procedimiento de decodificación según una cualquiera de las reivindicaciones 4 a 6, que comprende además, cuando el indicador indica que la subimagen está codificada según el segundo método:

- la transmisión de dicho mapa binario a un módulo de síntesis.

9. Procedimiento según la reivindicación 3, en el que al menos dos zonas útiles que pertenecen respectivamente a al menos dos subimágenes, estando dichas al menos dos zonas útiles destinadas a ser utilizadas para generar dicha al menos una imagen de al menos otra vista, se codifican en el flujo de datos, y el valor mínimo de profundidad se determina a partir de dichas al menos dos zonas útiles.

10. Procedimiento según una cualquiera de las reivindicaciones 1 a 9, en el que dicha al menos una vista básica del vídeo de múltiples vistas corresponde a una vista determinada en la codificación a partir de al menos una vista fuente.

11. Procedimiento de decodificación según una cualquiera de las reivindicaciones 1 o 4 a 10, que comprende además la recepción de los datos de textura y de los datos de profundidad de dicha subimagen, procediendo dicha subimagen de una vista intermedia sintetizada para una posición y una dirección de visualización de un observador en un volumen de visualización.

12. Dispositivo de decodificación de al menos un flujo de datos representativo de un vídeo de múltiples vistas, comprendiendo dicho al menos un flujo de datos al menos datos codificados representativos de al menos una vista, denominada vista básica, del vídeo de múltiples vistas y al menos una subimagen, comprendiendo los datos codificados de la al menos una vista básica datos de textura y datos de profundidad asociados a dichos datos de textura, comprendiendo dicha subimagen una zona, denominada útil, y una zona denominada no útil, correspondiendo dicha zona útil a una zona extraída de una vista del vídeo de múltiples vistas no codificada en el flujo de datos, denominada vista intermedia, comprendiendo los datos codificados de la al menos una subimagen datos de textura y datos de profundidad asociados a dichos datos de textura, estando la zona útil destinada a ser utilizada para generar al menos una imagen de al menos otra vista, estando el dispositivo de decodificación configurado para:

- decodificar a partir de dicho al menos un flujo de datos, un indicador que indica si la subimagen está codificada según un primer método o según un segundo método,

- cuando el indicador indica que la subimagen está codificada según el primer método, decodificar para la subimagen un mapa binario que indica para al menos un píxel de la subimagen si dicho píxel pertenece o no a la zona útil, y, si dicho píxel pertenece a la zona útil, decodificar para la subimagen los datos de textura y los datos de profundidad asociados a dichos datos de textura,

- decodificar los datos de textura y los datos de profundidad de la subimagen, cuando el indicador indica que la subimagen está codificada según el segundo método, los datos de textura, respectivamente de profundidad de dicha subimagen para los píxeles ubicados fuera de la zona comprenden un valor de textura de asignación, respectivamente de profundidad de asignación.

13. Dispositivo de codificación de un flujo de datos representativo de un vídeo de múltiples vistas, configurado para codificar al menos una vista, denominada vista básica, del vídeo de múltiples vistas y al menos una subimagen, comprendiendo dicho flujo de datos codificados de la al menos una vista básica y datos codificados de la al menos una subimagen, comprendiendo los datos codificados de la al menos una vista básica datos de textura y datos de profundidad asociados a dichos datos de textura, comprendiendo dicha subimagen una zona, denominada útil, y una zona denominada no útil, correspondiendo dicha zona útil a una zona extraída de una vista del vídeo de múltiples vistas no codificada en el flujo de datos, denominada vista intermedia, comprendiendo los datos codificados de la al menos una subimagen datos de textura y datos de profundidad asociados a dichos datos de textura, estando la zona útil destinada a ser utilizada para generar al menos una imagen de al menos otra vista, estando el dispositivo de codificación configurado para:

- determinar un método de codificación para codificar la subimagen entre un primer método y un segundo método,

- codificar un indicador que indica si la subimagen está codificada según el primer método o según el segundo método,

- cuando el indicador indica que la subimagen está codificada según el primer método, codificar para la subimagen un mapa binario que indica para al menos un píxel de la subimagen si dicho píxel pertenece o no a la zona útil, y, si dicho píxel pertenece a la zona útil, codificar para la subimagen los datos de textura y los datos de profundidad asociados a dichos datos de textura,

- cuando el indicador indica que la subimagen está codificada según el segundo método, determinar un valor de textura de asignación, respectivamente de profundidad de asignación, asignar el valor de textura de asignación, respectivamente de profundidad de asignación, a los datos de textura, respectivamente de profundidad de dicha subimagen para los píxeles de la subimagen ubicados fuera de la zona útil, y codificar los datos de textura y los datos de profundidad de la subimagen.

14. Flujo de datos representativo de un vídeo de múltiples vistas, que comprende al menos datos codificados representativos de al menos una vista, denominada vista básica, del vídeo de múltiples vistas y al menos una subimagen, comprendiendo los datos codificados de la al menos una vista básica datos de textura y datos de profundidad asociados a dichos datos de textura, comprendiendo dicha subimagen una zona, denominada útil, y una zona denominada no útil, correspondiendo dicha zona útil a una zona extraída de una vista del vídeo de múltiples vistas no codificada en el flujo de datos, denominada vista intermedia, comprendiendo los datos codificados de la al menos una subimagen datos de textura y datos de profundidad asociados a dichos datos de textura, estando la zona útil destinada a ser utilizada para generar al menos una imagen de al menos otra vista, comprendiendo el flujo de datos:

- un indicador que indica si la subimagen está codificada según un primer método o según un segundo método,

- cuando el indicador indica que la subimagen está codificada según el primer método, datos codificados representativos de un mapa binario que indica para al menos un píxel de la subimagen si dicho píxel pertenece o no a la zona útil y, si dicho píxel pertenece a la zona útil, los datos codificados de textura y los datos codificados de profundidad asociados a dichos datos de textura,

- cuando el indicador indica que la subimagen está codificada según el segundo método, los datos codificados de textura, respectivamente de profundidad, de dicha subimagen, comprendiendo los píxeles ubicados fuera de la zona útil un valor de textura de asignación, respectivamente un valor de profundidad de asignación.

15. Programa informático que comprende instrucciones para la implementación por un procesador del procedimiento de decodificación según una cualquiera de las reivindicaciones 1 o 4 a 10 y/o instrucciones para la implementación del procedimiento de codificación según una cualquiera de las reivindicaciones 2 a 6 o 9-10, cuando dicho programa es ejecutado por dicho procesador.