ES2676055T5 - Receptor de imagen eficaz para múltiples vistas - Google Patents

Receptor de imagen eficaz para múltiples vistas Download PDF

Info

Publication number
ES2676055T5
ES2676055T5 ES16176807T ES16176807T ES2676055T5 ES 2676055 T5 ES2676055 T5 ES 2676055T5 ES 16176807 T ES16176807 T ES 16176807T ES 16176807 T ES16176807 T ES 16176807T ES 2676055 T5 ES2676055 T5 ES 2676055T5
Authority
ES
Spain
Prior art keywords
image
pixels
objects
partial representation
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16176807T
Other languages
English (en)
Other versions
ES2676055T3 (es
Inventor
Wilhelmus Bruls
Christiaan Varekamp
Ralph Braspenning
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=38470538&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2676055(T5) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Application granted granted Critical
Publication of ES2676055T3 publication Critical patent/ES2676055T3/es
Publication of ES2676055T5 publication Critical patent/ES2676055T5/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/005Aspects relating to the "3D+depth" image format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Description

DESCRIPCIÓN
Receptor de imagen eficaz para múltiples vistas
La invención se refiere a un método de codificación de múltiples vistas de una imagen en una señal de imagen, tal como por ejemplo una señal de televisión comprimida de acuerdo con una de las normas MPEG.
La invención también se refiere a: un aparato para generar una señal de este tipo, un receptor para recibir una señal de este tipo, un método de extracción de la información codificada de la señal, de tal manera que puede usarse para generar las múltiples vistas, y la propia señal codificada eficazmente.
En la actualidad se está trabajando en la estandarización de la codificación de la información de imágenes tridimensionales. Existen varias formas de representar un objeto tridimensional, por ejemplo, como un conjunto de vóxels (por ejemplo, popular en una pantalla de datos médicos o una inspección de componentes industriales), o como una serie de imágenes de vistas capturadas desde diferentes direcciones y destinadas a verse desde diferentes direcciones, por ejemplo, por los dos ojos de un solo espectador o por diversos espectadores, o un espectador en movimiento, etc.
Un formato popular es el formato de izquierda/derecha, en el que se captura un fotograma por una cámara de la izquierda y se captura un fotograma por la cámara de la derecha. Estos fotogramas pueden visualizarse en diferentes pantallas, por ejemplo, el fotograma de la izquierda puede mostrarse durante un primer conjunto de instancias de tiempo, y el fotograma de la derecha durante un segundo conjunto entrelazado de instancias de tiempo, estando los ojos izquierdo y derecho del espectador bloqueados de manera sincronizada con la visualización por unas gafas de obturación. Un proyector con unos medios de polarización es otro ejemplo de una pantalla capaz de generar una impresión tridimensional de una escena, al menos de reproducir parte de la información tridimensional de la escena, es decir, lo que aproximadamente se ve como en una dirección determinada (es decir, en estéreo).
Diferentes calidades de aproximación de la escena pueden emplearse, por ejemplo, la escena 3D puede representarse como un conjunto de capas planas una detrás de la otra. Sin embargo, estas diferentes calidades pueden codificarse por los formatos existentes. El documento por Siegel et al “Compression and Interpolation of 3D-Stereoscopic and Multi-View Video” publicado en Actas de SPIE 3012, Dispositivos estereoscópicos y sistemas de realidad virtual IV, (15 de mayo de 1997) divulga crear un mapa de disparidad de calidad alta que hay que usar en una tecnología de compresión basada en disparidad de predicción y movimiento de MPEG, en la que el mapa de disparidad se usa para crear todas las posiciones de píxel de una segunda imagen de vista, una predicción de los colores de píxeles de esa segunda imagen de vista basándose en un desplazamiento basado en movimiento o disparidad de un bloque de píxeles a partir de una primera imagen de vista, y codificar en una señal de salida: la primera imagen de vista, el mapa de disparidad y para todos los píxeles una imagen residual con los componentes de color de píxel iguales a la diferencia entre la predicción a partir de la primera imagen de vista y el contenido real de la segunda imagen de vista que hay que codificar de una manera con compresión de datos.
Otra pantalla popular es la pantalla auto estereoscópica. Esta pantalla se forma, por ejemplo, colocando una pantalla LCD detrás de un conjunto de lentes, de tal manera que un grupo de píxeles se proyecta hacia una región en el espacio por una lente respectiva. De esta manera se genera un número de conos en el espacio que de dos en dos contienen imágenes izquierda y derecha para un ojo izquierdo y derecho, de manera que sin necesidad de gafas un usuario puede colocarse el mismo en un número de regiones en el espacio, y percibir 3D. Sin embargo, los datos de estos grupos de píxeles tienen que generarse a partir de las imágenes izquierda y derecha. Otra opción es que un usuario puede ver un objeto desde una serie de direcciones intermedias entre la vista izquierda y derecha de la codificación estéreo, vistas intermedias que pueden generarse calculando un campo de disparidad entre el fotograma de la izquierda y el de la derecha, y, posteriormente, interpolarlas. El documento WO 02/097733 describe una representación de este tipo de imágenes en 3D de múltiples ángulos mediante una imagen normal, una imagen de profundidad, y las imágenes adicionales que corresponden a diferentes puntos de vista.
Es una desventaja de la codificación a izquierda/derecha de la técnica anterior que se requieran muchos datos para obtener las vistas intermedias, y que aun así se obtengan resultados algo decepcionantes. Es difícil calcular un campo de disparidad precisamente coincidente, que dé lugar a artefactos en las interpolaciones, tales como unas partes de un fondo que se pega a un objeto en primer plano.
Un deseo que llevó a las siguientes realizaciones tecnológicas presentadas en el presente documento era tener una forma de codificación que pueda llevar a resultados relativamente precisos al convertir a diferentes formatos, tal como a un conjunto de vistas con vistas intermedias y que sin embargo no comprenda una cantidad excesiva de datos.
Estos requisitos se cumplen al menos parcialmente mediante un receptor de señal de imagen de acuerdo con la invención que comprende medios dispuestos para extraer desde una señal de imagen tridimensional una imagen izquierda de los valores de píxel que representa uno o más objetos capturados por una cámara izquierda; medios dispuestos para extraer desde la señal de imagen tridimensional un mapa que comprende, para los conjuntos de píxeles respectivos de los valores respectivos de la imagen izquierda que representan una posición tridimensional en el espacio de una región del uno o más objetos representados por el conjunto respectivo de píxeles; y medios dispuestos para extraer de la señal de imagen tridimensional una representación parcial de una imagen derecha de valores de píxel que representan uno o más objetos capturados por una cámara derecha en una ubicación diferente a la de la cámara izquierda, consistiendo la representación parcial en colores de píxeles de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen derecha y no en la imagen izquierda (220) y por la señal de imagen tridimensional (200) que comprende para la imagen derecha (224) solo una parte (223) de la imagen derecha, en donde representación parcial significa que los píxeles de la imagen derecha que también están presentes en la imagen izquierda no se codifican en la representación parcial de la imagen derecha.
Tales requisitos también se cumplen al menos parcialmente mediante un método de codificación de información de imágenes de dos vistas en una señal de imagen tridimensional que comprende:
- añadir a la señal de imagen una imagen izquierda de los valores de píxel que representan uno o más objetos capturados por una cámara izquierda;
- añadir a la señal de imagen un mapa que comprende para respectivos conjuntos de píxeles, valores respectivos de la imagen izquierda que representan una posición tridimensional en el espacio de una región del uno o más objetos representados por el conjunto de píxeles; y
- añadir a la señal de imagen una representación parcial de una imagen derecha de valores de píxel que representa el uno o más objetos capturados por la cámara derecha, consistiendo la representación parcial en colores de píxeles de la mayoría de los píxeles que representan regiones del uno o más objetos no visibles para la cámara izquierda, en donde representación parcial significa que los píxeles de la imagen derecha que también están presentes en la imagen izquierda no se codifican en la representación parcial de la imagen derecha.
Los inventores se han dado cuenta de que si uno entiende que por razones de calidad es mejor añadir a las imágenes a izquierda y derecha un mapa que contiene la información sobre la estructura tridimensional de la escena, lo que representa al menos esta parte de la información de escena tridimensional que se requiere para permitir la aplicación específica (con la calidad deseada), puede concebirse un formato de codificación interesante. Para la interpolación de vistas, el mapa puede ser, por ejemplo, un mapa de disparidad segmentado con precisión, los vectores de disparidad que llevarán a una buena interpolación de las vistas intermedias. Es importante observar que este mapa puede ajustarse de manera óptima en el lado de la creación/transmisión de acuerdo con su uso en el lado receptor, es decir, por ejemplo, de acuerdo con cómo se simule el entorno tridimensional en la pantalla, lo que significa que tendrá normalmente propiedades diferentes que cuando se usa para predecir de manera óptima las regiones de píxeles en la vista a izquierda y derecha.
El mapa puede, por ejemplo, ajustarse, o incluso crearse, por un operador humano, que puede obtener una vista previa a su lado como se comportaría una serie de pantallas previstas al recibir la señal. Hoy en día, y en el futuro incluso más aún, una parte del contenido ya se genera por ordenador, tal como por ejemplo un modelo tridimensional de un dinosaurio, o unas gráficas superpuestas, lo que significa que no es demasiado problemático crearlos al menos para las regiones que contienen este tipo de mapas de disparidad precisos de píxel de objetos hechos por el hombre, o mapas de profundidad, o mapas similares.
Esto es realmente cierto para las aplicaciones de juegos, en las que, por ejemplo, un usuario puede moverse ligeramente en comparación con la escena, y puede ver la escena de manera diferente, pero en un futuro próximo la invención también puede llegar a ser importante para la televisión 3D, capturada con dos cámaras, o incluso generada sobre la base de, por ejemplo, el paralaje de movimiento. Ya un número creciente de estudios (por ejemplo, la BBC) están usando, por ejemplo, los entornos virtuales para las noticias.
Este mapa puede codificarse con poca sobrecarga de datos, por ejemplo, como una imagen de valores de gris, comprimidos de acuerdo con la norma MPEG-2, y añadidos a la imagen a izquierda/derecha (o imágenes durante diversos instantes de tiempo de vídeo en movimiento) ya en la señal.
Teniendo este mapa, sin embargo, los inventores se dieron cuenta, que permite una reducción adicional de la cantidad de datos, debido a que una parte de la escena se imagina por ambas cámaras. Aunque la información de píxel puede ser útil para la interpolación bidireccional (por ejemplo, pueden mitigarse las reflexiones especulares hacia una de las cámaras), de hecho, no tanta información importante estará presente en las partes doblemente codificadas. Por lo tanto, al tener disponible el mapa, puede determinarse qué partes de la segunda imagen (por ejemplo, la imagen de la derecha) necesitan codificarse (y transmitirse), y qué partes son menos relevantes para la aplicación específica. Y en el lado del receptor puede realizarse una reconstrucción de buena calidad de los datos que faltan.
Por ejemplo, en una simple aproximación de escena (captura), con un objeto con una cara esencialmente plana hacia las cámaras (que puede colocarse en paralelo o en un pequeño ángulo hacia la escena), y no demasiado cerca, la parte que falta en la primera imagen (a la izquierda), que se captura en la segunda imagen (a la derecha) se compone de los píxeles de un objeto de fondo (por ejemplo, los elementos de la escena en el infinito).
Una realización interesante implica la codificación de un segundo mapa de disparidad o de profundidad parcial, o similar. Por ejemplo, este mapa de profundidad parcial contendrá sustancialmente los valores de profundidad de la región que no podía imaginarse por la primera cámara. A partir de estos datos de profundidad, a continuación, puede deducirse en el lado receptor qué parte no cubierta pertenece a un objeto en primer plano que tiene una primera profundidad (indicada por 130 en la figura 1), y qué parte pertenece al fondo (132). Esto puede permitir mejores estrategias de interpolación, por ejemplo, la cantidad de estiramiento y relleno de los huecos puede ajustarse de manera fina, una representación pseudo-perspectiva de una oreja puede representarse en la imagen intermedia en lugar de solo en los píxeles de fondo, etc. Otro ejemplo es que la distorsión trapezoidal de las cámaras anguladas puede codificarse en este segundo mapa para la compensación del lado del receptor.
En el caso de una deformación trapezoidal procedente de una captura con cámaras convergentes (por lo general ligeramente), habrá, en general, una disparidad vertical en adición a una horizontal. Esta componente vertical puede codificarse vectorialmente, o en un segundo mapa, como ya se ha previsto, por ejemplo, en las propuestas "auxiliary data representation" del subgrupo MPEG-4 Video-3DAV (por ejemplo, ISO/IEC JTC1/SC29/w G11 documentos. MPEG2005/12603, 12602, 12600, 12595). Los componentes de la disparidad pueden mapearse a las señales de luminancia y/o crominancia de un fotograma auxiliar, por ejemplo, la disparidad horizontal puede mapearse con una alta resolución a la luminancia, y las disparidades verticales pueden mapearse con un esquema a uno o dos componentes de crominancia (de tal manera que algunos de los datos están en la U y por una fracción de matemática como gran parte de los datos adicionales en la V).
Las ventajas de un formato a izquierda derecha "profundidad" parcial sobre, por ejemplo, una primera codificación a una vista central "profundidad" datos de oclusión son las siguientes. Al transformar los datos de oclusión para la vista central, en lugar de almacenarlos en una vista de captura de cámara original, se lleva al procesamiento a inexactitudes (en particular si el mapa(s) de profundidad se obtiene de manera automática y de menor calidad/consistencia, teniendo imperfecciones temporales y espaciales), y por lo tanto una ineficacia de codificación. Además, en el cálculo de una visión intermedia otras inexactitudes vendrán en la parte superior de la misma.
Estos y otros aspectos del método y el aparato de acuerdo con la invención serán evidentes a partir de y se aclararán con referencia a las implementaciones y las realizaciones descritas a continuación en el presente documento, y con referencia a los dibujos adjuntos, que sirven únicamente como ilustraciones específicas no limitativas que ejemplifican el concepto más general, y en las que los guiones se usan para indicar que un componente es opcional, no siendo necesariamente esenciales los componentes sin guiones.
En los dibujos:
la figura 1 ilustra esquemáticamente la captura de una escena con al menos dos cámaras;
la figura 2 ilustra esquemáticamente varias opciones de la codificación de los datos requeridos en la señal de imagen;
la figura 3 ilustra esquemáticamente un aparato a modo de ejemplo para generar la señal de imagen; y la figura 4 ilustra esquemáticamente un aparato de recepción a modo de ejemplo capaz de usar la señal.
La figura 1 muestra una primera cámara 101 que captura una primera imagen de una escena que comprende un objeto cercano 110 y un objeto lejano 112. Su campo de visión está delimitado por las líneas 103 y 104. Su vista del fondo está ocluida por el objeto más cercano, es decir, la región 132 en el lado izquierdo de la tangente 120 no es visible. Sin embargo, una segunda cámara 102 es capaz de capturar una parte de esta región 132, en una segunda imagen, que puede, por razones de simplicidad, considerarse y llamarse la imagen de la derecha (pero esto no debería interpretarse como más estrecho que el que se ha capturado algo más a la derecha del otro fotograma). La segunda cámara también es capaz de capturar una parte adicional 130 del objeto más cercano 110.
La figura 2 muestra simbólicamente que estas imágenes capturadas se verán como un conjunto de píxeles. La señal de imagen 200 puede tener, por ejemplo, un formato de codificación prescrito de JPEG y contener un fotograma codificado de la escena, o puede ser una grabación de película codificada MPEG-4. En este último caso los datos 3D 210 comprenden la información necesaria para la reconstrucción de la escena en un instante temporal específico.
La imagen 220 es la imagen de la izquierda capturada por la primera cámara, que comprende un objeto más cercano 110 y un fondo 112.
El mapa 222 es un mapa que comprende toda la información relativa a cómo los objetos se colocan en su espacio tridimensional, que comprende, al menos, la información necesaria para la reproducción de un número de vistas necesarias (estática o dinámicamente, por ejemplo, en una interacción con un usuario en movimiento en un juego) en una pantalla. Varias de estas representaciones son posibles, por ejemplo, pueden ser un mapa de profundidad, que comprende por ejemplo una distancia ortogonal aproximada (por ejemplo, el promedio sobre todas las regiones de objeto) al centro de la cámara del objeto en el fondo, en sus posiciones de dos dimensiones como se percibe por la primera cámara, o pueden ser una disparidad o un paralaje, o solo un componente horizontal de la disparidad.
La profundidad y el paralaje etc. pueden relacionarse entre sí matemáticamente.
Este mapa de profundidad puede ser, por ejemplo, un píxel preciso o puede tener un solo valor para cada bloque de 8x8 píxeles, y puede codificarse, por ejemplo, como una imagen.
Una información adicional puede añadirse al mapa de profundidad (que puede comprender unos escalares o tuplas por conjunto de píxeles, incluyendo posiblemente un conjunto de solo un único píxel), tales como por ejemplo los datos de exactitud (en cómo de fiable es una cierta parte del mapa de profundidad) determinados sobre la base del algoritmo de coincidencia para obtenerlo.
La estructura de datos parcial 223 (una parte de la imagen de la derecha 224) comprende la información de los píxeles (por ejemplo, la luminancia solamente, o el color, o cualquier otra representación usual, tal como, por ejemplo, un modelo de textura, capaz de generar píxeles en una región) del fondo que pueden verse solamente por la segunda cámara (adyacente al objeto 225 más cercano cambiado de paralaje). Esta región parcial codificada o al menos los datos necesarios para obtener los valores de píxel en una parte de una gran región codificada formada de acuerdo con un algoritmo de generación de parches de imagen puede ser algo menor que la actual región de-ocluida capturada en la imagen de la derecha, en el caso de que la aplicación del lado del receptor pueda tolerar algunos píxeles perdidos, por ejemplo, generándoles con una simple extrapolación, estiramiento, etc.
La región codificada también puede ser mayor (por ejemplo, hasta el doble de la anchura y un tamaño de búfer similar añadido en la dirección vertical). Esto puede ser interesante, por ejemplo, en el caso de duda acerca de la exactitud de la forma cuando se obtiene automáticamente, o en el caso de que por alguna razón pueda desearse la interpolación bidireccional.
También puede ser por razones de codificación. Puede ser más barato codificar bloques enteros, y uno puede beneficiarse de los píxeles extra-codificados, mientras que la codificación de forma compleja puede ser costosa. Al respecto en el lado de transmisión, un análisis (semi-) automático o manual puede realizarse en los datos de la imagen de la derecha, lo que se propone como una salida de una etapa de obtención anterior para ser útil además a los datos de la imagen de la izquierda. Por ejemplo, uno puede mirar las propiedades de píxel para identificar un reflejo especular, y decidir codificar una región de píxeles que componen la reflexión en ambas imágenes.
También puede analizarse la forma de las diferentes regiones mediante un análisis morfológico, en particular, puede determinarse el tamaño o la anchura de la región. Las regiones pequeñas pueden implicar una sobrecarga de codificación considerable, pero a menudo pueden aproximarse en el lado receptor con poca o ninguna información. Por lo tanto, las regiones pequeñas pueden omitirse de la segunda imagen parcial. Esto puede estar bajo el control de un operador humano, que comprueba el efecto de cada eliminación.
La forma (de abarque o exacta) de la región puede, por ejemplo, codificarse con aproximación poligonal o una caja delimitadora, y los valores de píxel interior (textura) pueden codificarse directamente, o por los coeficientes de una representación de transformación lineal sobre la forma, u otro modelo matemático. Además, pueden indicarse las partes que no necesitan codificarse/transmitirse.
La representación parcial puede mapearse (por ejemplo, un simple desplazamiento en las líneas de corte, una transformación, o un corte en los sub-bloques que se vuelve a apilar de acuerdo con un orden predeterminado) sobre los datos de imagen o de usuario (por ejemplo, un modelo de regeneración) no usado para la primera imagen.
Si la primera imagen con el acompañamiento del mapa de profundidad es una imagen central, puede haber unas segundas imágenes parciales para cada lado, es decir, a una cierta distancia angular (línea de base) entre las que pueden interpolarse.
La primera cámara puede representar imágenes de un fondo y la segunda cámara puede representar imágenes del fondo con, por ejemplo, un lector de noticias que cubre parte de la misma, por ejemplo, desde el mismo punto vista a una hora diferente, es decir, las cámaras no necesitan ser cámaras reales presentes simultáneamente en un momento determinado, sino más bien, por ejemplo, una de las vistas puede descargarse, por ejemplo, desde un almacenamiento de fotogramas.
Opcionalmente, al menos para la parte alrededor de las regiones de objetos no cubiertas representadas por imágenes en la segunda imagen puede añadirse un segundo mapa de profundidad 239 (una parte del mapa de profundidad total 240), o una representación similar a la señal. Este mapa de profundidad puede comprender un límite entre un objeto cercano y lejano. Con esta información, el lado de recepción puede añadir durante la interpolación los diferentes píxeles a las capas de objetos/profundidad correctas.
También, pueden añadirse unos datos adicionales 230 a la señal, por ejemplo, en campos propietarios tales como información sobre la separación o en general de la composición tridimensional de los objetos en la escena. La indicación puede ser tan simple como una línea que siga un límite de objeto de escena representada por imágenes (si, por ejemplo, el mapa de profundidad no es suficiente o lo suficientemente preciso por sí mismo para demarcar los objetos), o incluso algo tan complicado como una malla metálica (por ejemplo, de la estructura de profundidad local en las partes deocluidas) o una información obtenida de la misma.
También pueden incluirse la información de posición de cámara y la información de intervalo de escena, permitiendo que el lado de recepción haga reconstrucciones más avanzadas de las múltiples vistas (al menos dos).
La figura 3 muestra un aparato 310 para generar la señal de imagen. Por lo general será un CI o una parte de un CI, o un procesador con software apropiado. El aparato puede estar comprendido en un aparato más grande tal como un aparato de autoría dedicado en un estudio, y puede conectarse a un ordenador, o puede estar comprendido en un ordenador. En la realización a modo de ejemplo, una primera cámara 301 y una segunda cámara 302 están conectadas a la entrada del aparato 310. Cada cámara tiene un telémetro (308 resp. 309), que puede usar por ejemplo un haz láser o una rejilla proyectada, etc.
En el aparato existe una unidad de estimación de disparidad 312 que está dispuesta para determinar las disparidades entre al menos dos imágenes, al menos teniendo en cuenta la geometría del objeto (usando la información del mapa de profundidad). Se conocen diferentes técnicas de estimación de disparidad a partir de la técnica anterior, por ejemplo, por medio de una suma de las diferencias absolutas de los valores de píxel en los bloques relacionados.
Está dispuesto para determinar al menos qué regiones están presentes en solo una de las imágenes y cuales están presentes en ambas, pero, además, puede tener unidades que sean capaces de aplicar los criterios de correspondencia a las regiones de los píxeles.
También puede haber una unidad de mapa de profundidad 314 capaz de generar y/o analizar y/o del refinar los mapas de profundidad (o una representación similar como un mapa de disparidad) o determinados por la unidad de estimación de disparidad 312, o extraídos de la señal de cámara introducida que contiene unos datos de intervalo de ejemplo. Puede comprender opcionalmente una unidad de representación 316, que puede generar, por ejemplo, vistas intermedias de tal manera que un artista de estudio puede comprobar el impacto de cualquier modificación y/o codificación más eficaz. Esto se realiza mediante la unidad de interfaz de usuario 318, lo que puede permitir, por ejemplo, que el usuario cambie los valores en la representación parcial 223, o cambie su forma (por ejemplo, haciendo que sea más grande o más pequeña). El usuario también puede modificar el mapa 222. Al respecto, puede conectarse una pantalla 335 y un medio de entrada de usuario. El aparato es capaz de transmitir la señal de imagen finalmente compuesta a una red 330 a través de los medios de transmisión y composición de señales 339, que un experto en la materia puede encontrar para la red apropiada (por ejemplo, la conversión a una señal de televisión implica una conversión ascendente a una frecuencia de transmisión, la transmisión a Internet implica una paquetización, puede haber más unidades de protección de errores, etc.).
La red presentada no debería interpretarse como limitativa, y está destinada también a comprender, por ejemplo, la transmisión a una unidad de memoria o medio de almacenamiento a través de una red interna de aparato tal como un bus.
La figura 4 muestra un receptor a modo de ejemplo 400, que puede ser de nuevo, por ejemplo, (una parte de) un CI, y que comprende medios para extraer la información relevante de la señal de imagen que puede recibirse de la red 330, al menos:
- medios (402) dispuestos para extraer la primera imagen (220) de los valores de píxel que representan uno o más objetos (110, 112) capturados por una primera cámara (101);
- medios (404) dispuestos para extraer de la señal de imagen (200) el mapa, por ejemplo, un mapa de profundidad que corresponde a las posiciones de objeto de la primera imagen; y
- medios (406) dispuestos para extraer la representación parcial (223) de la segunda imagen (224) de los valores de píxel que representan el uno o más objetos (110, 112) capturados por una segunda cámara (102).
Por supuesto, pueden estar presentes medios adicionales, ya que el receptor (y el método de extracción) puede duplicar cualquiera de las realizaciones posibles para la generación, por lo que pueden ser, por ejemplo, medios para extraer los datos adicionales, tales como la indicación de la frontera entre dos objetos.
Esta información extraída se transmite a un regenerador de imágenes, que puede generar, por ejemplo, una imagen completa a izquierda y derecha. Una unidad de representación de imágenes 412 puede generar, por ejemplo, una vista intermedia (por ejemplo, mediante una interpolación mono- o bidireccional, o cualquier otro algoritmo conocido), o las señales necesarias para dos vistas (estéreo) en una pantalla autoestereoscópica. En función del tipo de visualización en 3D y cómo se representa en realidad el 3D, estas dos unidades pueden realizarse en diferentes combinaciones.
El receptor puede normalmente conectarse a o estar comprendido en una pantalla 3D 415, que puede reproducir al menos dos vistas, o la señal(s) regenerada puede almacenarse en un dispositivo de memoria 420, por ejemplo, un escritor de disco 422, o en una memoria de estado sólido, etc.
Los componentes algorítmicos desvelados en este texto pueden realizarse en la práctica (por completo o en parte) como hardware (por ejemplo, las partes de un CI de aplicación específica) o como software que se ejecuta en un procesador de señal digital especial o un procesador genérico, etc.
Bajo un producto de programa informático debería entenderse cualquier realización física de un conjunto de comandos que permiten a un procesador genérico o de propósito especial, después de una serie de etapas de carga (que pueden incluir etapas de conversión intermedias, como la traducción a un lenguaje intermedio, y a un lenguaje de procesador final) obtener los comandos en el procesador, para ejecutar cualquiera de las funciones características de una invención. En particular, el producto de programa informático puede realizarse como datos en un portador tal como, por ejemplo, un disco o una cinta, datos presentes en una memoria, datos que viajan a través de una conexión de red cableada o inalámbrica, o un código de programa en papel. Aparte del código de programa, los datos de características requeridos para el programa también pueden realizarse como un producto de programa informático.
Algunas de las etapas necesarias para el funcionamiento del método pueden estar ya presentes en la funcionalidad del procesador en lugar de descritas en el producto de programa informático, tales como las etapas de entrada y de salida de datos.
Debería observarse que las realizaciones mencionadas anteriormente ilustran en lugar de limitar la invención. Además de las combinaciones de los elementos de la invención como se combinan en las reivindicaciones, son posibles otras combinaciones de los elementos. Cualquier combinación de los elementos puede realizarse en un único elemento dedicado.
Cualquier signo de referencia entre paréntesis en la reivindicación no está destinado a limitar la reivindicación. La palabra "comprende" no excluye la presencia de elementos o aspectos no mencionados en una reivindicación. La palabra "un" o "una" precediendo un elemento no excluye la presencia de una pluralidad de tales elementos.

Claims (8)

REIVINDICACIONES
1. Un receptor de señal de imagen (400), que comprende:
- medios (402) dispuestos para extraer desde una señal de imagen tridimensional (200) una imagen izquierda (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101); - medios (404) dispuestos para extraer desde la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen izquierda (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y
- medios (406) dispuestos para extraer desde la señal de imagen tridimensional (200) una representación parcial (223) de una imagen derecha (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102) en una ubicación diferente a la de la cámara izquierda,
caracterizado por la representación parcial (223) que consiste en colores de píxeles de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen derecha y no en la imagen izquierda (220), y por la señal de imagen tridimensional (200) que comprende para la imagen derecha (224) solo una parte (223) de la imagen derecha, en donde representación parcial significa que los píxeles de la imagen derecha que también están presentes en la imagen izquierda no se codifican en la representación parcial de la imagen derecha.
2. Un receptor de señal de imagen (400), que comprende:
- medios (402) dispuestos para extraer desde una señal de imagen tridimensional (200) una imagen derecha (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102); - medios (404) dispuestos para extraer desde la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen derecha (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y
- medios (406) dispuestos para extraer desde la señal de imagen tridimensional (200) una representación parcial (223) de una imagen izquierda (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101) en una ubicación diferente a la de la cámara derecha,
caracterizado por la representación parcial (223) que consiste en colores de píxeles de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen izquierda y no en la imagen derecha (220), y por la señal de imagen tridimensional (200) que comprende para la imagen izquierda (224) solo una parte (223) de la imagen izquierda, en donde representación parcial significa que los píxeles de la imagen izquierda que también están presentes en la imagen derecha no se codifican en la representación parcial de la imagen izquierda.
3. Un método para extraer información de imagen de dos vistas desde una señal de imagen tridimensional (200) que comprende:
- extraer desde la señal de imagen tridimensional (200) una imagen izquierda (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101);
- extraer desde la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen izquierda (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y
- extraer desde la señal de imagen tridimensional (200) una representación parcial (223) de una imagen derecha (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102) en una ubicación diferente a la de la cámara izquierda,
caracterizado por la representación parcial (223) que consiste en colores de píxeles de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen derecha y no en la imagen izquierda (220), y por la señal de imagen tridimensional (200) que comprende para la imagen derecha (224) solo una parte (223) de la imagen derecha, en donde representación parcial significa que los píxeles de la imagen derecha que también están presentes en la imagen izquierda no se codifican en la representación parcial de la imagen derecha.
4. Un método para extraer información de imagen de dos vistas desde una señal de imagen tridimensional (200) que comprende:
- extraer desde la señal de imagen tridimensional (200) una imagen derecha (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102);
- extraer desde la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen derecha (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y
- extraer desde la señal de imagen tridimensional (200) una representación parcial (223) de una imagen izquierda (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101) en una ubicación diferente a la de la cámara derecha,
caracterizado por la representación parcial (223) que consiste en colores de píxeles de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen izquierda y no en la imagen derecha (220), y por la señal de imagen tridimensional (200) que comprende para la imagen izquierda (224) solo una parte (223) de la imagen izquierda, en donde representación parcial significa que los píxeles de la imagen izquierda que también están presentes en la imagen derecha no se codifican en la representación parcial de la imagen izquierda.
5. Un método para codificar información de imagen de dos vistas en una señal de imagen tridimensional (200) que comprende:
- añadir a la señal de imagen tridimensional (200) una imagen izquierda (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101);
- añadir a la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen izquierda (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y - proporcionar una imagen derecha (224) de valores de píxel que representan dicho uno o más objetos (110, 112) capturados por una cámara derecha (102) en una ubicación diferente a la de la cámara izquierda;
- determinar qué regiones están presentes en la imagen derecha (224) y no en la imagen izquierda (220) en respuesta a las disparidades entre la imagen izquierda (220) y la imagen derecha (224); y estando el método caracterizado por comprender:
- añadir a la señal de imagen tridimensional (200) una representación parcial (223) de la imagen derecha (224), consistiendo la representación parcial (223) en colores de píxeles de la mayoría de los píxeles de las regiones determinadas, y especificando regiones de la imagen derecha (224) que no necesitan ser codificadas, en donde representación parcial significa que los píxeles de la imagen derecha que también están presentes en la imagen izquierda no se codifican en la representación parcial de la imagen derecha.
6. Un método para codificar información de imagen de dos vistas en una señal de imagen tridimensional (200) que comprende:
- añadir a la señal de imagen tridimensional (200) una imagen derecha (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102);
- añadir a la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen derecha (220) valores respectivos, que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y - proporcionar una imagen izquierda (224) de valores de píxel que representan dicho uno o más objetos (110, 112) capturados por una cámara izquierda (101) en una ubicación diferente a la de la cámara derecha;
- determinar qué regiones están presentes en la imagen izquierda (224) y no en la imagen derecha (220) en respuesta a las disparidades entre la imagen derecha (220) y la imagen izquierda (224); y estando el método caracterizado el método por comprender:
- añadir a la señal de imagen tridimensional (200) una representación parcial (223) de la imagen izquierda (224), consistiendo la representación parcial (223) en colores de píxeles de la mayoría de los píxeles de las regiones determinadas, y especificando regiones de la imagen izquierda (224) que no necesitan ser codificadas, en donde representación parcial significa que los píxeles de la imagen izquierda que también están presentes en la imagen derecha no se codifican en la representación parcial de la imagen izquierda.
7. Un aparato (310) para generar una codificación en una señal de imagen tridimensional (200) de información de imagen de dos vistas que comprende:
- medios (340) dispuestos para añadir a la señal de imagen tridimensional (200) una imagen izquierda (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101); - medios (341) dispuestos para añadir a la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen izquierda (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y
- medios dispuestos para proporcionar una imagen derecha (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102) en una ubicación diferente a la de la cámara izquierda;
- medios dispuestos para determinar al menos qué regiones están presentes en la imagen derecha y no en la imagen izquierda (220) en respuesta a las disparidades entre la imagen izquierda (220) y la imagen derecha (224);
y estando el aparato caracterizado por comprender:
- medios (342) dispuestos para añadir a la señal de imagen tridimensional (200) una representación parcial (223) de la imagen derecha (224), consistiendo la representación parcial (223) en colores de píxeles de la mayoría de los píxeles de las regiones, y especificando regiones de la imagen derecha (224) que no necesitan ser codificadas, en donde representación parcial significa que los píxeles de la imagen derecha que también están presentes en la imagen izquierda no se codifican en la representación parcial de la imagen derecha.
8. Un aparato (310) para generar una codificación en una señal de imagen tridimensional (200) de información de imagen de dos vistas que comprende:
- medios (340) dispuestos para añadir a la señal de imagen tridimensional (200) una imagen derecha (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102);
- medios (341) dispuestos para añadir a la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen derecha (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y
- medios dispuestos para proporcionar una imagen izquierda (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101) en una ubicación diferente a la de la cámara derecha;
- medios dispuestos para determinar al menos qué regiones están presentes en la imagen izquierda y no en la imagen derecha (220) en respuesta a las disparidades entre la imagen derecha (220) y la imagen izquierda (224);
y estando el aparato caracterizado por comprender:
- medios (342) dispuestos para añadir a la señal de imagen tridimensional (200) una representación parcial (223) de la imagen izquierda (224), consistiendo la representación parcial (223) en colores de píxeles de la mayoría de los píxeles de las regiones, y especificando regiones de la imagen izquierda (224) que no necesitan ser codificadas, en donde representación parcial significa que píxeles de la imagen izquierda que también están presentes en la imagen derecha no se codifican en la representación parcial de la imagen derecha.
ES16176807T 2006-03-31 2007-03-23 Receptor de imagen eficaz para múltiples vistas Active ES2676055T5 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP06112096 2006-03-31
EP06112096 2006-03-31

Publications (2)

Publication Number Publication Date
ES2676055T3 ES2676055T3 (es) 2018-07-16
ES2676055T5 true ES2676055T5 (es) 2022-08-03

Family

ID=38470538

Family Applications (2)

Application Number Title Priority Date Filing Date
ES16176807T Active ES2676055T5 (es) 2006-03-31 2007-03-23 Receptor de imagen eficaz para múltiples vistas
ES07735242.5T Active ES2599858T3 (es) 2006-03-31 2007-03-23 Codificación eficaz de múltiples vistas

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES07735242.5T Active ES2599858T3 (es) 2006-03-31 2007-03-23 Codificación eficaz de múltiples vistas

Country Status (10)

Country Link
US (1) US9986258B2 (es)
EP (2) EP2005757B1 (es)
JP (1) JP5317955B2 (es)
KR (1) KR101340911B1 (es)
CN (1) CN101416520B (es)
ES (2) ES2676055T5 (es)
PL (1) PL2005757T3 (es)
RU (1) RU2431938C2 (es)
TR (1) TR201810139T4 (es)
WO (1) WO2007113725A2 (es)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101388265B1 (ko) * 2007-06-11 2014-04-22 삼성전자주식회사 2d 영상 미디어 표준을 기반으로 3d 입체영상 파일을생성 및 재생하기 위한 시스템 및 방법
KR101387212B1 (ko) * 2007-06-12 2014-04-21 삼성전자주식회사 2d 영상 미디어 표준을 기반으로 3d 입체영상 파일을생성 및 재생하기 위한 시스템 및 방법
WO2009032255A2 (en) * 2007-09-04 2009-03-12 The Regents Of The University Of California Hierarchical motion vector processing method, software and devices
KR101362647B1 (ko) * 2007-09-07 2014-02-12 삼성전자주식회사 2d 영상을 포함하는 3d 입체영상 파일을 생성 및재생하기 위한 시스템 및 방법
KR101591085B1 (ko) * 2008-05-19 2016-02-02 삼성전자주식회사 영상 파일 생성 및 재생 장치 및 방법
MY155378A (en) * 2008-07-24 2015-10-15 Koninkl Philips Electronics Nv Versatile 3-d picture format
WO2010041176A1 (en) * 2008-10-10 2010-04-15 Koninklijke Philips Electronics N.V. A method of processing parallax information comprised in a signal
TWI542190B (zh) * 2008-11-04 2016-07-11 皇家飛利浦電子股份有限公司 編碼三維影像信號的方法及系統、經編碼之三維影像信號、解碼三維影像信號的方法及系統
EP2197217A1 (en) * 2008-12-15 2010-06-16 Koninklijke Philips Electronics N.V. Image based 3D video format
EP2360930A4 (en) * 2008-12-18 2015-03-25 Lg Electronics Inc METHOD FOR PROCESSING 3D IMAGE SIGNALS AND IMAGE DISPLAY FOR ITS APPLICATION
BRPI0917764B1 (pt) 2008-12-19 2021-03-16 Koninklijke Philips N.V. método de decodificação e envio de informação de vídeo adequado para apresentação tridimensional [3d] e dispositivo para decodificação e envio de informação de vídeo adequado para monitor tridimensional [3d]
US8798158B2 (en) * 2009-03-11 2014-08-05 Industry Academic Cooperation Foundation Of Kyung Hee University Method and apparatus for block-based depth map coding and 3D video coding method using the same
WO2010126613A2 (en) 2009-05-01 2010-11-04 Thomson Licensing Inter-layer dependency information for 3dv
WO2011033673A1 (ja) * 2009-09-18 2011-03-24 株式会社 東芝 画像処理装置
JP5494283B2 (ja) * 2010-06-24 2014-05-14 ソニー株式会社 立体表示装置及び立体表示装置の制御方法
BR112013006006A2 (pt) * 2010-09-14 2017-07-18 Thomson Licensing método de compressão e aparelho para dados de oclusão
KR20120055991A (ko) * 2010-11-24 2012-06-01 삼성전자주식회사 영상처리장치 및 그 제어방법
KR101814798B1 (ko) * 2011-01-26 2018-01-04 삼성전자주식회사 입체영상 처리 장치 및 방법
WO2013049388A1 (en) 2011-09-29 2013-04-04 Dolby Laboratories Licensing Corporation Representation and coding of multi-view images using tapestry encoding
US9786253B2 (en) 2012-01-25 2017-10-10 Lumenco, Llc Conversion of a digital stereo image into multiple views with parallax for 3D viewing without glasses
KR20130094905A (ko) * 2012-02-17 2013-08-27 삼성전자주식회사 디스플레이장치 및 그 입체감 조정방법
RU2490819C1 (ru) * 2012-02-29 2013-08-20 Сергей Александрович Соболев Способ получения стереоскопических телевизионных изображений с автоматическим измерением предметного пространства в реальном времени
BR112014023535B1 (pt) * 2012-03-26 2022-06-14 Koninklijke Philips N.V Codificador de imagem para codificar uma imagem de uma cena de alto alcance dinâmico, decodificador de imagem para decodificar uma representação de imagem codificada de uma cena de alto alcance dinâmico, método de codificação de imagem para codificar uma imagem de uma cena de alto alcance dinâmico e método de decodificação da imagem para decodificar uma representação de imagem codificada de uma cena de alto alcance dinâmico
US9225962B2 (en) * 2012-07-16 2015-12-29 Cisco Technology, Inc. Stereo matching for 3D encoding and quality assessment
CN103634587A (zh) * 2012-08-22 2014-03-12 联想(北京)有限公司 图像处理方法、装置及电子设备
EP2949121B1 (en) * 2013-02-06 2020-07-15 Koninklijke Philips N.V. Method of encoding a video data signal for use with a multi-view stereoscopic display device
EP3273686A1 (en) 2016-07-21 2018-01-24 Thomson Licensing A method for generating layered depth data of a scene
US9972122B1 (en) 2016-12-20 2018-05-15 Canon Kabushiki Kaisha Method and system for rendering an object in a virtual view
US10755142B2 (en) * 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
US10484667B2 (en) * 2017-10-31 2019-11-19 Sony Corporation Generating 3D depth map using parallax
US10549186B2 (en) 2018-06-26 2020-02-04 Sony Interactive Entertainment Inc. Multipoint SLAM capture
WO2020014319A1 (en) 2018-07-11 2020-01-16 Interdigital Vc Holdings, Inc. Processing a point cloud
US11212506B2 (en) 2018-07-31 2021-12-28 Intel Corporation Reduced rendering of six-degree of freedom video
US10762394B2 (en) 2018-07-31 2020-09-01 Intel Corporation System and method for 3D blob classification and transmission
US11178373B2 (en) 2018-07-31 2021-11-16 Intel Corporation Adaptive resolution of point cloud and viewpoint prediction for video streaming in computing environments
US10893299B2 (en) 2018-07-31 2021-01-12 Intel Corporation Surface normal vector processing mechanism
US10887574B2 (en) 2018-07-31 2021-01-05 Intel Corporation Selective packing of patches for immersive video
US10819968B2 (en) * 2018-07-31 2020-10-27 Intel Corporation Neural network based patch blending for immersive video
RU2690757C1 (ru) * 2018-08-21 2019-06-05 Самсунг Электроникс Ко., Лтд. Система синтеза промежуточных видов светового поля и способ ее функционирования
DE102019127349A1 (de) 2018-10-10 2020-04-16 Intel Corporation Punktwolkencodierungsstandard-konformitätsdefintion in computerumgebungen
US11057631B2 (en) 2018-10-10 2021-07-06 Intel Corporation Point cloud coding standard conformance definition in computing environments
FR3093884A1 (fr) * 2019-03-15 2020-09-18 Orange Procédés et dispositifs de codage et de décodage d'une séquence vidéo multi-vues
EP3712843A1 (en) 2019-03-19 2020-09-23 Koninklijke Philips N.V. Image signal representing a scene
US12555298B2 (en) 2020-02-10 2026-02-17 Intel Corporation Systems and methods for improved efficient E-sports spectator mode through use of GPU attached non-volatile memory
US12330057B2 (en) 2020-02-10 2025-06-17 Intel Corporation Continuum architecture for cloud gaming
FR3109685A1 (fr) * 2020-04-22 2021-10-29 Orange Procédés et dispositifs de codage et de décodage d'une séquence vidéo multi-vues
EP3945720A1 (en) 2020-07-31 2022-02-02 Koninklijke Philips N.V. Packing of views for image or video coding
EP4114008A1 (en) * 2021-06-29 2023-01-04 Koninklijke Philips N.V. Image generation

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61144191A (ja) 1984-12-17 1986-07-01 Nippon Hoso Kyokai <Nhk> 立体テレビジョン画像伝送方法
GB8626527D0 (en) 1986-11-06 1986-12-10 British Broadcasting Corp 3d video transmission
JPH06265322A (ja) 1993-03-11 1994-09-20 Canon Inc 複数画像からの視差検出方法
JPH0715748A (ja) 1993-06-24 1995-01-17 Canon Inc 画像記録再生装置
JP3826236B2 (ja) 1995-05-08 2006-09-27 松下電器産業株式会社 中間像生成方法、中間像生成装置、視差推定方法、及び画像伝送表示装置
JPH099294A (ja) 1995-06-14 1997-01-10 Eriko Shimizu 立体画像情報構成方式
US6163337A (en) * 1996-04-05 2000-12-19 Matsushita Electric Industrial Co., Ltd. Multi-view point image transmission method and multi-view point image display method
JP3769850B2 (ja) * 1996-12-26 2006-04-26 松下電器産業株式会社 中間視点画像生成方法および視差推定方法および画像伝送方法
US6175652B1 (en) * 1997-12-31 2001-01-16 Cognex Corporation Machine vision system for analyzing features based on multiple object images
KR100914636B1 (ko) 2001-05-29 2009-08-28 코닌클리케 필립스 일렉트로닉스 엔.브이. 비주얼 통신 신호를 전송하기 위한 방법, 비주얼 통신 신호를 전송하기 위한 송신기 및 비주얼 통신 신호를 수신하기 위한 수신기
KR100433625B1 (ko) 2001-11-17 2004-06-02 학교법인 포항공과대학교 스테레오 카메라의 두영상과 양안차도를 이용한 다시점영상 합성 장치
RU2237283C2 (ru) * 2001-11-27 2004-09-27 Самсунг Электроникс Ко., Лтд. Устройство и способ представления трехмерного объекта на основе изображений с глубиной
AU2002952873A0 (en) * 2002-11-25 2002-12-12 Dynamic Digital Depth Research Pty Ltd Image encoding system
EP1431919B1 (en) * 2002-12-05 2010-03-03 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding three-dimensional object data by using octrees
KR100751422B1 (ko) * 2002-12-27 2007-08-23 한국전자통신연구원 스테레오스코픽 비디오 부호화 및 복호화 방법, 부호화 및복호화 장치
US7512250B2 (en) * 2004-11-24 2009-03-31 Siemens Corporate Research, Inc. System and method for fast illumination-invariant background subtraction using two views
WO2009150597A2 (en) * 2008-06-12 2009-12-17 Spandan Choudury A non-virtual-3d- video/photo generator rendering relative physical proportions of image in display medium (and hence also of the display medium itself) the same as the relative proportions at the original real life location

Also Published As

Publication number Publication date
JP5317955B2 (ja) 2013-10-16
RU2431938C2 (ru) 2011-10-20
TR201810139T4 (tr) 2018-08-27
CN101416520B (zh) 2011-12-14
JP2009531927A (ja) 2009-09-03
US20100231689A1 (en) 2010-09-16
EP2005757A2 (en) 2008-12-24
CN101416520A (zh) 2009-04-22
EP3104603B2 (en) 2022-06-08
US9986258B2 (en) 2018-05-29
KR101340911B1 (ko) 2013-12-13
ES2599858T3 (es) 2017-02-03
WO2007113725A3 (en) 2008-03-27
WO2007113725A2 (en) 2007-10-11
KR20090007384A (ko) 2009-01-16
ES2676055T3 (es) 2018-07-16
EP2005757B1 (en) 2016-08-24
PL2005757T3 (pl) 2017-02-28
EP3104603A1 (en) 2016-12-14
RU2008143205A (ru) 2010-05-10
EP3104603B1 (en) 2018-05-16

Similar Documents

Publication Publication Date Title
ES2676055T5 (es) Receptor de imagen eficaz para múltiples vistas
KR101484487B1 (ko) 깊이-맵을 프로세싱하는 방법 및 디바이스
JP5243612B2 (ja) 中間画像合成およびマルチビューデータ信号抽出
JP7344988B2 (ja) ボリュメトリック映像の符号化および復号化のための方法、装置、およびコンピュータプログラム製品
Muller et al. Reliability-based generation and view synthesis in layered depth video
US8488869B2 (en) Image processing method and apparatus
JP5544361B2 (ja) 三次元ビデオ信号を符号化するための方法及びシステム、三次元ビデオ信号を符号化するための符号器、三次元ビデオ信号を復号するための方法及びシステム、三次元ビデオ信号を復号するための復号器、およびコンピュータ・プログラム
EP2761878B1 (en) Representation and coding of multi-view images using tapestry encoding
KR101863767B1 (ko) 의사-3d 인위적 원근법 및 장치
KR101595993B1 (ko) 3d 이미지 신호를 인코딩하기 위한 방법 및 시스템, 인코딩된 3d 이미지 신호, 3d 이미지 신호를 디코딩하기 위한 방법 및 시스템
US20090284584A1 (en) Image processing device
US20150215600A1 (en) Methods and arrangements for supporting view synthesis
US20150304640A1 (en) Managing 3D Edge Effects On Autostereoscopic Displays
JP2011523743A (ja) 深さ情報を有するビデオ信号
US7660472B2 (en) System and method for managing stereoscopic viewing
US9866813B2 (en) Autostereo tapestry representation
KR102658474B1 (ko) 가상 시점 합성을 위한 영상 부호화/복호화 방법 및 장치
WO2011094164A1 (en) Image enhancement system using area information
Zhang et al. DIBR-based conversion from monoscopic to stereoscopic and multi-view video
Le Feuvre et al. Graphics Composition for Multiview Displays