ES2865101T3

ES2865101T3 - Procedimiento de codificación de imágenes, procedimiento de decodificación de imágenes, dispositivo de codificación de imágenes, dispositivo de decodificación de imágenes y dispositivo de codificación/decodificación de imágenes

Info

Publication number: ES2865101T3
Application number: ES13743026T
Authority: ES
Inventors: Sue Mon Thet Naing; Chong Soon Lim; Kyaw Kyaw Win; hai wei Sun; Viktor Wahadaniah; Takahiro Nishi; Hisao Sasai; Youji Shibahara; Toshiyasu Sugio; Kyoko Tanikawa; Toru Matsunobu; Kengo Terada
Original assignee: Sun Patent Trust Inc
Current assignee: Sun Patent Trust Inc
Priority date: 2012-02-03
Filing date: 2013-01-29
Publication date: 2021-10-15
Anticipated expiration: 2033-01-29
Also published as: CN103563373A; JP2013225896A; JP5341284B1; EP3829177A1; US11451815B2; US9609320B2; PL2811743T3; EP2811743A4; US9883201B2; CN107396101B; US20240022755A1; US20190268615A1; JP6090625B2; US11812048B2; US20210105498A1; TW201342927A; CN103563373B; CN107396101A; CN107483959A; US20130336403A1

Abstract

Un procedimiento de codificación de imágenes que comprende: (A) seleccionar (S121) una primera instantánea para la renovación de predicción de vector de movimiento temporal de varias instantáneas, en el que la primera instantánea incluye una pluralidad de primeros cortes, cada uno de la pluralidad de primeros cortes está asociado con una de una pluralidad de primeras banderas de predicción de vector de movimiento temporal, respectivamente, y una bandera de predicción de vector de movimiento temporal indica si ha de usarse o no la predicción de vector de movimiento temporal; (B) establecer todas las primeras banderas de predicción de vector de movimiento temporal para indicar que no ha de usarse la predicción de vector de movimiento temporal, y codificar las primeras banderas de predicción de vector de movimiento temporal; (C) codificar cada uno de los primeros cortes sin usar la predicción de vector de movimiento temporal; y (D) codificar un segundo corte incluido en una segunda instantánea que sigue a la primera instantánea en orden de codificación, sin hacer referencia a un vector de movimiento de una instantánea que precede a la primera instantánea en orden de codificación; caracterizado porque la etapa (D) incluye: (D1) considerar (S123) si el segundo corte tiene o no una instantánea de referencia coubicada que precede a la primera instantánea en orden de codificación, en el que la instantánea de referencia coubicada se selecciona para predicción temporal de vectores de movimiento de entre instantáneas de referencia disponibles usando un esquema predeterminado; (D2) cuando el segundo corte tiene una instantánea de referencia coubicada que precede a la primera instantánea en orden de codificación: (i) establecer (S125) una segunda bandera de predicción de vector de movimiento temporal, que es una bandera de predicción de vector de movimiento temporal asociada con el segundo corte, para indicar que no ha de usarse la predicción de vector de movimiento temporal; (ii) codificar (S125) la segunda bandera de predicción de vector de movimiento temporal; y (iii) codificar (S125) el segundo corte sin usar la predicción de vector de movimiento temporal; y (D3) cuando el segundo corte no tiene una instantánea de referencia coubicada que precede a la primera instantánea en orden de codificación: (i) establecer (S126) la segunda bandera de predicción de vector de movimiento temporal para indicar que ha de usarse la predicción de vector de movimiento temporal o indicar que no ha de usarse la predicción de vector de movimiento temporal; (ii) codificar (S126) la segunda bandera de predicción de vector de movimiento temporal; y (iii) codificar (S126) el segundo corte usando o sin usar la predicción de vector de movimiento temporal.

Description

DESCRIPCIÓN

Procedimiento de codificación de imágenes, procedimiento de decodificación de imágenes, dispositivo de codificación de imágenes, dispositivo de decodificación de imágenes y dispositivo de codificación/decodificación de imágenes

La presente invención se refiere a un procedimiento de codificación de imágenes y a un procedimiento de decodificación de imágenes.

En los esquemas de codificación del estado de la técnica tales como H.264/MPEG-4 AVC y la Codificación de Vídeo de Alta Eficacia (HEVC), se codifican o decodifican las imágenes y el contenido de imagen usando inter predicción que hace uso de una instantánea de referencia previamente codificada o decodificada. De esta manera, en estos esquemas de codificación de imágenes, se aprovecha la redundancia de información a través de instantáneas temporalmente consecutivas (por ejemplo, véase la Bibliografía no de Patente (NPL) 1). Además, la Bibliografía no de patente 2 y 3 desvelan enfoques para deshabilitar la predicción de vector de movimiento temporal en ciertos casos.

[Referencias no de patente]

[NPL 1] ISO/IEC 14496-10 "MPEG-4 Part 10 Advanced Video Coding"

[NPL 2] LI, BIN Y COL., "High-level Syntax: Marking process for non-TMVP pictures", 98. MPEG MEETING; 28

11-2011 -2-12-2011; Ginebra; (MOTION PICTURE EXPERT GROUP O ISO/IEC JTC1/SC29/WG11), (20111122)

[NPL 3] LI, BIN Y COL., "Constrained temporal motion vector prediction for error resilience", 4. JCT-VC MEETING;

95. MPEG MEETING; 20-1-2011 -28-1-2011; DAEGU;(JOINT COLLABORATIVE TEAM ON VIDEO CODING OF ISO/IEC JTC1/SC29/WG11 e ITU-T SG.16); URL: HTTP://WFTP3.ITU.INT/AV-ARCH/JCTVC-SITE/, (20110115), n.° JCTVC-D139, ISSN 0000-0015

Se desea una mejora de la robustez a partir de un procedimiento de codificación de imágenes y un procedimiento de decodificación de imágenes de este tipo.

En vista de esto, la presente invención tiene como un objeto proporcionar un procedimiento de codificación de imágenes y un procedimiento de decodificación de imágenes que pueden mejorar la robustez.

Esto se consigue mediante las características de las reivindicaciones independientes.

Debería observarse que estos aspectos generales y específicos anteriormente descritos pueden implementarse usando un sistema, un procedimiento, un circuito integrado, un programa informático, o un medio de grabación legible por ordenador tal como un CD-ROM, o cualquier combinación de sistemas, procedimientos, circuitos integrados, programas informáticos, o medio de grabación legible por ordenador.

La presente invención puede proporcionar un procedimiento de codificación de imágenes y un procedimiento de decodificación de imágenes que pueden mejorar la robustez.

[FIG. 1] La figura 1 es un diagrama de bloques de un aparato de codificación de imágenes de acuerdo con la realización 1.

[FIG. 2] La figura 2 es un diagrama de flujo del procedimiento de codificación de imágenes de acuerdo con la realización 1.

[FIG. 3] La figura 3 es un diagrama de flujo del procedimiento de codificación de imágenes de acuerdo con la realización 1.

[FIG. 4A] La figura 4A es un diagrama de flujo del procedimiento de codificación de imágenes de acuerdo con la realización 1.

[FIG. 4B] La figura 4B es un diagrama para describir el procedimiento de codificación de imágenes de acuerdo con la realización 1.

[FIG. 4C] La figura 4C es un diagrama para describir el procedimiento de codificación de imágenes de acuerdo con la realización 1.

[FIG. 5] La figura 5 es un diagrama de flujo de una modificación del procedimiento de codificación de imágenes de acuerdo con la realización 1.

[FIG. 6] La figura 6 es un diagrama que muestra una configuración de ejemplo de una secuencia de bits codificados de acuerdo con la realización 1.

[FIG. 7] La figura 7 es un diagrama de bloques de un aparato de decodificación de imágenes de acuerdo con la realización 1.

[FIG. 8] La figura 8 es un diagrama de flujo de un procedimiento de decodificación de imágenes de acuerdo con la realización 1.

[FIG. 9] La figura 9 es un diagrama de flujo del procedimiento de decodificación de imágenes de acuerdo con la realización 1.

[FIG. 10] La figura 10 es un diagrama de una configuración global de un sistema de suministro de contenido para implementar servicios de distribución de contenido.

[FIG. 11] La figura 11 es un diagrama de una configuración global de un sistema de difusión digital.

[FIG. 12] La figura 12 es un diagrama de bloques que muestra un ejemplo de una configuración de una t [FIG. 13] La figura 13 es un diagrama de bloques que muestra un ejemplo de una configuración de una u reproducción/grabación de información que lee y escribe información desde o en un medio de grabación que es un disco óptico.

[FIG. 14] La figura 14 es un diagrama que muestra un ejemplo de una configuración de un medio de grabación que es un disco óptico.

[FIG. 15A] La figura 15A es un diagrama que muestra un ejemplo de un teléfono celular.

[FIG. 15B] La figura 15B es un diagrama de bloques que muestra un ejemplo de una configuración de un teléfono celular.

[FIG. 16] La figura 16 es un diagrama que muestra una estructura de datos multiplexados.

[FIG. 17] La figura 17 es un diagrama que ilustra esquemáticamente cómo se multiplexa cada flujo en datos multiplexados.

[FIG. 18] La figura 18 es un diagrama que muestra en más detalle cómo se almacena un flujo de vídeo en un flujo de paquetes de PES.

[FIG. 19] La figura 19 es un diagrama que muestra una estructura de paquetes de TS y paquetes de origen en los datos multiplexados.

[FIG. 20] La figura 20 es un diagrama que ilustra una estructura de datos de una PMT.

[FIG. 21] La figura 21 es un diagrama que muestra una estructura interna de información de datos multiplexados.

[FIG. 22] La figura 22 es un diagrama que muestra una estructura interna de información de atributo de flujo. [FIG. 23] La figura 23 es un diagrama que muestra las etapas para identificar datos de vídeo.

[FIG. 24] La figura 24 es un diagrama de bloques que ilustra un ejemplo de una configuración de un circuito integrado para implementar el procedimiento de codificación de instantáneas en movimiento y el procedimiento de decodificación de instantáneas en movimiento de acuerdo con cada una de las realizaciones.

[FIG. 25] La figura 25 es un diagrama que muestra una configuración para conmutar entre frecuencias de accionamiento.

[FIG. 26] La figura 26 es un diagrama que muestra las etapas para identificar datos de vídeo y la conmutación entre frecuencias de accionamiento.

[FIG. 27] La figura 27 es un diagrama que muestra un ejemplo de una tabla de correspondencia en la que están asociadas normas de datos de vídeo con frecuencias de accionamiento.

[FIG. 28A] La figura 28A es un diagrama que ilustra un ejemplo de una configuración para compartir un módulo de una unidad de procesamiento de señal.

[FIG. 28B] La figura 28B es un diagrama que muestra otro ejemplo de una configuración para compartir un módulo de la unidad de procesamiento de señal.

(Conocimiento subyacente que forma la base de la presente invención)

Los inventores han observado la aparición de los siguientes problemas en relación con la técnica anterior.

Un aparato de decodificación de imágenes identifica una instantánea de referencia usada en la inter predicción de una unidad de predicción (un bloque de muestra de M x N, etc.), usando un índice de referencia. El índice de referencia es un índice que está asignado a cada una de una o más instantáneas de referencia incluidas en una lista de instantáneas de referencia. Adicionalmente, la lista de instantáneas de referencia es una lista ordenada que indica una o más instantáneas de referencia. Adicionalmente, el índice de referencia está asociado de manera inequívoca con una instantánea de referencia en la memoria intermedia de instantánea decodificada (DPB).

En los esquemas de codificación de imágenes del estado de la técnica, se realiza predicción temporal de vectores de movimiento. Los vectores de movimiento de un bloque de muestra objetivo se predicen desde vectores de movimiento de uno o más bloques de muestra previamente codificados incluidos en una instantánea de referencia coubicada. La instantánea de referencia coubicada se selecciona de entre las instantáneas de referencia disponibles usando un esquema predeterminado. Por ejemplo, se selecciona la primera instantánea de referencia, como la instantánea de referencia coubicada, de entre instantáneas de referencia incluidas en una lista predeterminada de instantáneas de referencia (tal como la lista de instantáneas de referencia 0).

En aplicaciones que requieren la transmisión de imágenes usando compresión irreversible, la predicción de vector de movimiento temporal es susceptible de predicción de vector de movimiento errónea cuando la instantánea de referencia coubicada se pierde o contiene errores. En el esquema de codificación de imágenes de HEVC convencional, se introduce una bandera de marcado en un conjunto de parámetros de instantánea (PPS) para marcar todas las instantáneas incluidas en la memoria intermedia de instantánea de decodificador (DPB) como "no usada para predicción de vector de movimiento temporal". Este procedimiento de marcado se realiza cuando un corte hace referencia a un PPS que tiene una bandera de marcado que indica "VERDADERO".

Los inventores han observado que, en este esquema, existe el problema de que cuando el corte en el que ha de realizarse el marcado se pierde o contiene errores, un decodificador de vídeo no puede realizar el procedimiento de marcado pretendido y la posterior sincronización entre el codificador y el decodificador. Como tal, el esquema anteriormente mencionado para deshabilitar la predicción de vector de movimiento temporal no es robusto.

En las realizaciones, deberán describirse procedimientos que mejoren la robustez frente a errores en un procedimiento de codificación de imágenes y un procedimiento de decodificación de imágenes que deshabilite la predicción de vector de movimiento temporal. El procedimiento de codificación de imágenes y el procedimiento de decodificación de imágenes de acuerdo con las realizaciones pueden eliminar el procedimiento de marcado de instantáneas de referencia como "no usadas para predicción de vector de movimiento temporal", eliminando de esta manera la susceptibilidad de error en el esquema anteriormente mencionado. El efecto ventajoso de las realizaciones es mejorar la robustez frente a error de la predicción de vector de movimiento temporal.

Un procedimiento de codificación de imágenes de acuerdo con un aspecto de las realizaciones incluye: (A) seleccionar una primera instantánea de varias instantáneas; (B) establecer una primera bandera de predicción de vector de movimiento temporal que está asociada con la primera instantánea y es una bandera de predicción de vector de movimiento temporal que indica si ha de usarse o no la predicción de vector de movimiento temporal, para indicar que no ha de usarse la predicción de vector de movimiento temporal, y codificar la primera bandera de predicción de vector de movimiento temporal; (C) codificar la primera instantánea sin usar la predicción de vector de movimiento temporal; y (D) codificar una segunda instantánea que sigue a la primera instantánea en orden de codificación, estando prohibida la referencia a un vector de movimiento de una instantánea que precede a la primera instantánea en orden de codificación.

Por consiguiente, la segunda instantánea que sigue a la primera instantánea se prohíbe de hacer referencia a un vector de movimiento de una instantánea que precede a la primera instantánea. Por consiguiente, el procedimiento de codificación de imágenes puede evitar la propagación de errores a través de la primera instantánea, y por lo tanto puede mejorar la robustez.

Por ejemplo, puede establecerse un nivel temporal a cada una de las instantáneas, y, en la etapa (A), puede seleccionarse una instantánea que tiene un nivel temporal más alto como la primera instantánea, de entre las instantáneas.

Por consiguiente, se establece una instantánea que tiene una prioridad alta como la primera instantánea. Esto puede evitar de manera más apropiada la propagación de errores.

Por ejemplo, la etapa (D) puede incluir: (D1) considerar si la segunda instantánea tiene o no una instantánea de referencia coubicada que precede a la primera instantánea en orden de codificación; (D2) cuando la segunda instantánea tiene una instantánea de referencia coubicada que precede a la primera instantánea en orden de codificación: (i) establecer una segunda bandera de predicción de vector de movimiento temporal, que es una bandera de predicción de vector de movimiento temporal asociada con la segunda instantánea, para indicar que no ha de usarse la predicción de vector de movimiento temporal; (ii) codificar la segunda bandera de predicción de vector de movimiento temporal; y (iii) codificar la segunda instantánea sin usar la predicción de vector de movimiento temporal; y (D3) cuando la segunda instantánea no tiene una instantánea de referencia coubicada que precede a la primera instantánea en orden de codificación: (i) establecer la segunda bandera de predicción de vector de movimiento temporal para indicar que ha de usarse la predicción de vector de movimiento temporal o indicar que no ha de usarse la predicción de vector de movimiento temporal; (ii) codificar la segunda bandera de predicción de vector de movimiento temporal; y (iii) codificar la segunda instantánea usando o sin usar la predicción de vector de movimiento temporal.

Por ejemplo, la etapa (D) puede incluir: (D1) considerar si la segunda instantánea precede o no a la primera instantánea en orden de visualización; (D2) considerar si la segunda instantánea tiene o no una instantánea de referencia coubicada que precede a la primera instantánea en orden de codificación o en orden de visualización; (D3) cuando la segunda instantánea sigue a la primera instantánea en orden de visualización y tiene una instantánea de referencia coubicada que precede a la primera instantánea en orden de codificación u orden de visualización: (i) establecer una segunda bandera de predicción de vector de movimiento temporal, que es una bandera de predicción de vector de movimiento temporal asociada con la segunda instantánea, para indicar que no ha de usarse la predicción de vector de movimiento temporal; (ii) codificar la segunda bandera de predicción de vector de movimiento temporal; y (iii) codificar la segunda instantánea sin usar la predicción de vector de movimiento temporal; y (D4) cuando la segunda instantánea precede a la primera instantánea en orden de visualización, o cuando la segunda instantánea sigue a la primera instantánea en orden de visualización y tiene una instantánea de referencia coubicada que precede a la primera instantánea en orden de codificación u orden de visualización: (i) establecer la segunda bandera de predicción de vector de movimiento temporal, que es la bandera de predicción de vector de movimiento temporal asociada con la segunda instantánea, para indicar que no ha de usarse la predicción de vector de movimiento temporal; (ii) codificar la segunda bandera de predicción de vector de movimiento temporal; y (iii) codificar la segunda instantánea sin usar la predicción de vector de movimiento temporal.

Por ejemplo, en la etapa (B), la primera bandera de predicción de vector de movimiento temporal que indica que no ha de usarse la predicción de vector de movimiento temporal puede escribirse en un encabezado para cada corte incluido en la primera instantánea.

Por consiguiente, la primera instantánea puede establecerse usando, en una base de corte, una bandera que indica si ha de usarse o no la predicción de vector de movimiento temporal. Con esto, puede lograrse una mejora de robustez mientras que se suprime un aumento en la cantidad de datos de la secuencia de bits codificados.

Por ejemplo, el procedimiento de codificación de imágenes puede incluir adicionalmente: (E) crear una primera lista que indica varios predictores de vectores de movimiento que incluyen un predictor de vector de movimiento temporal derivado de un vector de movimiento de una instantánea de referencia coubicada, cuando la bandera de predicción de vector de movimiento temporal indica que ha de usarse la predicción de vector de movimiento temporal; y (F) crear una segunda lista que indica varios predictores de vectores de movimiento que no incluyen el predictor de vector de movimiento temporal, cuando la bandera de predicción de vector de movimiento temporal indica que no ha de usarse la predicción de vector de movimiento temporal.

Por consiguiente, puede reducirse la cantidad de datos cuando no ha de usarse la predicción de vector de movimiento temporal.

Adicionalmente, un procedimiento de decodificación de imágenes de acuerdo con un aspecto de las realizaciones incluye: (A) obtener, desde una secuencia de bits, una primera bandera de predicción de vector de movimiento temporal, que es una bandera de predicción de vector de movimiento temporal que indica si ha de usarse o no la predicción de vector de movimiento temporal, que indica que no ha de usarse la predicción de vector de movimiento temporal en una primera instantánea; (B) decodificar la primera instantánea sin usar la predicción de vector de movimiento temporal; y (C) decodificar una segunda instantánea que sigue a la primera instantánea en orden de decodificación, estando prohibida la referencia a un vector de movimiento de una instantánea que precede a la primera instantánea en orden de decodificación.

Por consiguiente, la segunda instantánea que sigue a la primera instantánea se prohíbe de hacer referencia a un vector de movimiento de una instantánea que precede a la primera instantánea. Por consiguiente, el procedimiento de decodificación de imágenes puede evitar la propagación de errores a través de la primera instantánea, y por lo tanto puede mejorar la robustez.

Por ejemplo, puede establecerse un nivel temporal a cada una de varias instantáneas, y la primera instantánea puede ser una instantánea que tiene un nivel temporal más alto entre las instantáneas.

Por ejemplo, en la etapa (A), puede obtenerse la primera bandera de predicción de vector de movimiento temporal que indica que no ha de usarse la predicción de vector de movimiento temporal desde un encabezado de cada corte incluido en la primera instantánea.

Por ejemplo, el procedimiento de decodificación de imágenes puede incluir adicionalmente: (D) crear una primera lista que indica varios predictores de vectores de movimiento que incluyen un predictor de vector de movimiento temporal derivado de un vector de movimiento de una instantánea de referencia coubicada, cuando la bandera de predicción de vector de movimiento temporal indica que ha de usarse la predicción de vector de movimiento temporal; y (E) crear una segunda lista que indica varios predictores de vector de movimiento que no incluyen el predictor de vector de movimiento temporal, cuando la bandera de predicción de vector de movimiento temporal indica que no ha de usarse la predicción de vector de movimiento temporal.

Adicionalmente, un aparato de codificación de imágenes de acuerdo con un aspecto de las realizaciones incluye: una unidad de ajuste configurada para seleccionar una primera instantánea desde varias instantáneas y establecer una primera bandera de predicción de vector de movimiento temporal que está asociada con la primera instantánea y es una bandera de predicción de vector de movimiento temporal que indica si ha de usarse o no la predicción de vector de movimiento temporal, para indicar que no ha de usarse la predicción de vector de movimiento temporal; y una unidad de codificación configurada para (i) codificar la primera bandera de predicción de vector de movimiento temporal, (ii) codificar la primera instantánea sin usar la predicción de vector de movimiento temporal, y (iii) codificar una segunda instantánea que sigue a la primera instantánea en orden de codificación, estando prohibida la referencia a un vector de movimiento de una instantánea que precede a la primera instantánea en orden de codificación.

De acuerdo con esta configuración, la segunda instantánea que sigue a la primera instantánea se prohíbe de hacer referencia a un vector de movimiento de una instantánea que precede a la primera instantánea. Por consiguiente, el aparato de codificación de imágenes puede evitar la propagación de errores a través de la primera instantánea, y por lo tanto puede mejorar la robustez.

Adicionalmente, un aparato de decodificación de imágenes de acuerdo con un aspecto de las realizaciones incluye: una unidad de obtención configurada para obtener, desde una secuencia de bits, una primera bandera de predicción de vector de movimiento temporal, que es una bandera de predicción de vector de movimiento temporal que indica si ha de usarse o no la predicción de vector de movimiento temporal, que indica que no ha de usarse la predicción de vector de movimiento temporal en una primera instantánea; y una unidad de decodificación configurada para (i) decodificar la primera instantánea sin usar la predicción de vector de movimiento temporal, y (ii) decodificar una segunda instantánea que sigue a la primera instantánea en orden de decodificación, estando prohibida la referencia a un vector de movimiento de una instantánea que precede a la primera instantánea en orden de decodificación.

De acuerdo con esta configuración, la segunda instantánea que sigue a la primera instantánea se prohíbe de hacer referencia a un vector de movimiento de una instantánea que precede a la primera instantánea. Por consiguiente, el aparato de decodificación de imágenes puede evitar la propagación de errores a través de la primera instantánea, y por lo tanto puede mejorar la robustez.

Adicionalmente, un aparato de codificación y decodificación de imágenes de acuerdo con un aspecto de las realizaciones puede incluir el aparato de codificación de imágenes y el aparato de decodificación de imágenes.

En lo sucesivo, las realizaciones de la presente invención deberán describirse con referencia a los dibujos.

Se ha de observar que cada una de las realizaciones descritas a continuación muestra un ejemplo general o específico. Los valores numéricos, formas, materiales, elementos estructurales, la disposición y conexión de los elementos estructurales, etapas, el orden de procesamiento de las etapas, etc., mostrados en las siguientes realizaciones de ejemplo son simples ejemplos. Por lo tanto, entre los elementos estructurales en las siguientes realizaciones de ejemplo, los elementos estructurales no indicados en ninguna de las reivindicaciones independientes que definen el concepto más genérico se describen como elementos estructurales arbitrarios.

La invención se define mediante las reivindicaciones adjuntas. Cualesquiera referencias a realizaciones que no caen bajo el ámbito de las reivindicaciones han de entenderse como ejemplos útiles para entender la invención.

[Realización 1]

[Aparato de codificación]

En primer lugar, deberá describirse una configuración de un aparato de codificación de imágenes de acuerdo con esta realización. La figura 1 es un diagrama de bloques que muestra una configuración de un aparato 100 de codificación de imágenes de acuerdo con esta realización.

El aparato 100 de codificación de imágenes mostrado en la figura 1 codifica una imagen 120 de entrada (secuencia de bits de imagen de entrada) en una base por bloque para generar una secuencia de bits 132 codificados. El aparato 100 de codificación de imágenes incluye un restador 101, una unidad 102 de transformada ortogonal, una unidad 103 de cuantificación, una unidad 104 de cuantificación inversa, una unidad 105 de transformada ortogonal inversa, un sumador 106, una memoria 107 de bloque, una memoria 108 de fotograma (memoria de instantánea), una unidad 109 de intra predicción, una unidad 110 de inter predicción, una unidad 111 de conmutación, una unidad 112 de codificación de longitud variable (unidad de codificación por entropía), y una unidad 113 de control.

El restador 101 resta una imagen 131 prevista de la imagen 120 de entrada para generar una señal 121 residual. La unidad 102 de transformada ortogonal transforma la señal 121 residual en coeficientes de frecuencia para generar coeficientes 122 de transformada. La unidad 103 de cuantificación cuantifica los coeficientes 122 de transformada para generar coeficientes 123 cuantificados. La unidad 112 de codificación de longitud variable realiza codificación de longitud variable (codificación por entropía) en los coeficientes 123 cuantificados para generar la secuencia de bits 132 codificados.

La unidad 104 de cuantificación inversa cuantifica a la inversa los coeficientes 123 cuantificados para generar coeficientes 124 de transformada. La unidad 105 de transformada ortogonal inversa realiza la transformada de frecuencia inversa en los coeficientes 124 de transformada para generar una señal 125 residual. El sumador 106 añade la señal 125 residual a la imagen 131 prevista para generar una imagen 126 decodificada. La imagen 126 decodificada se almacena en la memoria 107 de bloque como una señal 127 de imagen, y se almacena en la memoria 108 de fotograma como una señal 128 de imagen. Las señales 127 y 128 de imagen se usan en procesamiento de predicción posterior.

La unidad 109 de intra predicción realiza intra predicción usando los datos 127 de imagen almacenados en la memoria 107 de bloque, para generar una imagen 129 prevista. Por ejemplo, la unidad 109 de intra predicción detecta, desde regiones de imagen procesadas incluidas en una imagen objetivo de procesamiento, una región de imagen que es más similar a una región de imagen objetivo de procesamiento. La unidad 110 de inter predicción realiza inter predicción usando la señal 128 de imagen almacenada en la memoria 108 de fotograma, para generar una imagen 130 prevista. Por ejemplo, la unidad 110 de inter predicción detecta una región de imagen incluida en otra imagen procesada y que es más similar a la región de imagen objetivo de procesamiento. La unidad 111 de conmutación selecciona una de las imágenes 129 y 130 previstas, y emite la imagen prevista seleccionada como la imagen 131 prevista.

La unidad 113 de control considera si usar o no predicción de vector de movimiento temporal para la inter predicción del corte objetivo de procesamiento, y emite una bandera 133 de predicción de vector de movimiento temporal que es una señal que indica el resultado de la consideración a la unidad 110 de inter predicción y a la unidad 112 de codificación de longitud variable. La unidad 110 de inter predicción realiza inter predicción usando o sin usar un predictor de vector de movimiento temporal, basándose en el resultado de la consideración. Adicionalmente, la unidad 112 de codificación de longitud variable genera la secuencia de bits 132 codificados que incluye la bandera 133 de predicción de vector de movimiento temporal. Adicionalmente, la predicción de vector de movimiento temporal es procesamiento en el que se realiza predicción de vector de movimiento usando un vector de movimiento incluido en otra instantánea, como un predictor de vector de movimiento.

[Procedimiento de codificación]

A continuación, deberá describirse la operación del aparato 100 de codificación de imágenes anteriormente descrito.

La figura 2 es un diagrama de flujo del procedimiento de codificación de imágenes de acuerdo con la presente realización.

En primer lugar, el aparato 100 de codificación de imágenes escribe varios parámetros de ordenación de lista de instantáneas de referencia en un encabezado de corte de un corte para especificar el orden de las instantáneas de referencia incluidas en una o más listas de instantáneas de referencia y que han de usarse para inter predicción del corte (S101). En este punto, una instantánea de referencia (tal como la primera instantánea de referencia) en una ubicación predeterminada en una cierta lista de instantáneas de referencia (tal como la lista de instantáneas de referencia 0) indica la instantánea de referencia coubicada.

A continuación, el aparato 100 de codificación de imágenes escribe una bandera de predicción de vector de movimiento temporal que indica si ha de usarse o no la predicción de vector de movimiento temporal en la inter predicción de un corte, en el encabezado de corte (S102). A continuación, el aparato 100 de codificación de imágenes considera si la bandera de predicción de vector de movimiento temporal indica que ha de usarse o no la predicción de vector de movimiento temporal (S103). El valor de la bandera es, por ejemplo, "0", cuando no ha de usarse la predicción de vector de movimiento temporal, y, es "1", cuando ha de usarse la predicción de vector de movimiento temporal.

Cuando la bandera indica que ha de usarse la predicción de vector de movimiento temporal (Sí en S104), el aparato 100 de codificación de imágenes crea una primera lista de predictores de vector de movimiento que incluyen al menos un predictor de vector de movimiento temporal derivado de un vector de movimiento de la instantánea de referencia coubicada (S105). A continuación, el aparato 100 de codificación de imágenes selecciona, desde la primera lista, un predictor de vector de movimiento para el bloque de muestra objetivo de procesamiento incluido en el corte (S106). A continuación, el aparato 100 de codificación de imágenes escribe un primer parámetro (parámetro de selección de predictor de vector de movimiento) que indica el predictor de vector de movimiento seleccionado en la secuencia de bits 132 codificados (S107).

Por otra parte, cuando la bandera indica que no ha de usarse la predicción de vector de movimiento temporal (No en S104), el aparato 100 de codificación de imágenes crea una segunda lista de predictores de vector de movimiento que no incluyen el predictor de vector de movimiento temporal (S108). A continuación, el aparato 100 de codificación de imágenes selecciona, desde la segunda lista, un predictor de vector de movimiento para el bloque de muestra objetivo de procesamiento incluido en el corte (S109). A continuación, el aparato 100 de codificación de imágenes escribe un segundo parámetro (parámetro de selección de predictor de vector de movimiento) que indica el predictor de vector de movimiento seleccionado en la secuencia de bits 132 codificados (S110).

Después de la etapa S107 o S110, el aparato 100 de codificación de imágenes realiza inter predicción de movimiento compensado usando el predictor de vector de movimiento seleccionado en la etapa S106 o la etapa S109 para generar de esta manera un bloque de muestra previsto (imagen 131 prevista) (S111). A continuación, el aparato 100 de codificación de imágenes resta el bloque de muestra previsto (imagen 131 prevista) del bloque de muestra original (imagen 120 de entrada) para generar de esta manera un bloque de muestra residual (señal 121 residual) (S112). A continuación, el aparato 100 de codificación de imágenes codifica el bloque de muestras residuales que corresponde al bloque objetivo para generar de esta manera la secuencia de bits 132 codificados (S113).

En este punto, por medio de la bandera de predicción de vector de movimiento temporal, se controla un único corte de manera independiente de otros cortes. Adicionalmente, el aparato 100 de codificación de imágenes no realiza marcado en una instantánea de referencia en la DPB. Adicionalmente, en esta realización, el valor de la bandera de predicción de vector de movimiento temporal puede ser diferente para varios cortes en la misma instantánea.

Adicionalmente, en esta realización, el número de predictores de vector de movimiento es diferente entre la primera lista y la segunda lista de predictores de vector de movimiento, y el número de predictores en la segunda lista es 1 menor que en la primera lista. Adicionalmente, en ambas listas, los predictores de vector de movimiento distintos de los predictores de vector de movimiento temporal son iguales. En la secuencia de bits 132 codificados, pueden usarse diferentes representaciones de bits para el primer parámetro y el segundo parámetro que representan el predictor de vector de movimiento seleccionado. Por ejemplo, puede usarse representación unaria truncada que tiene diferentes valores máximos en la conversión a binario de la codificación aritmética o en la codificación de longitud variable.

Debería observarse que el número de predictores de vector de movimiento en la primera lista y en la segunda lista puede ser el mismo. En este caso, en lugar del predictor de predicción de vector de movimiento temporal, la segunda lista incluye un predictor de vector de movimiento no temporal que no está presente en la primera lista. El predictor de vector de movimiento no temporal es temporalmente independiente, es decir, derivado sin usar vectores de movimiento de una instantánea de referencia. Un ejemplo del predictor de vector de movimiento no temporal es un predictor de vector de movimiento espacial derivado usando uno o más bloques vecinos en la misma instantánea que el bloque objetivo. Debería observarse que el predictor de vector de movimiento no temporal puede ser un predictor de vector de movimiento cero que tiene componentes de vector de movimiento horizontal y componentes de vector de movimiento vertical iguales a cero.

En lo sucesivo, deberá describirse otro ejemplo del procedimiento de codificación de acuerdo con esta realización. La figura 3 es un diagrama de flujo de un procedimiento de codificación para codificar varias instantáneas, de acuerdo con esta realización.

En primer lugar, el aparato 100 de codificación de imágenes selecciona, desde varias instantáneas objetivo de codificación, una instantánea de inicio para la renovación de la predicción de vector de movimiento temporal (S121). La renovación de la predicción de vector de movimiento temporal significa que la dependencia de propagación de predicción de vector de movimiento se termina en la instantánea de inicio.

En este punto, el aparato 100 de codificación de imágenes no usa instantáneas que preceden a la instantánea de inicio para predicción de vector de movimiento temporal en la codificación de todas las instantáneas que siguen a la instantánea de inicio en orden de codificación. La renovación de la predicción de vector de movimiento temporal proporciona, en la secuencia de bits 132 codificados, puntos de recuperación en los que pueden corregirse errores de reconstrucción debido a desajuste de predicción de vector de movimiento temporal. Con esto, se mejora la robustez frente a errores.

A continuación, el aparato 100 de codificación de imágenes codifica todos los cortes incluidos en la instantánea de inicio. Adicionalmente, el aparato 100 de codificación de imágenes establece las banderas de predicción de vector de movimiento temporal de todos los cortes incluidos en la instantánea de inicio para indicar que "no ha de usarse la predicción de vector de movimiento temporal" (por ejemplo, valor de bandera "0") (S122). En otras palabras, no se usará predicción de vector de movimiento temporal para todos los cortes incluidos en la instantánea de inicio.

A continuación, el aparato 100 de codificación de imágenes considera si un corte incluido en una instantánea posterior que sigue a la instantánea de inicio en orden de codificación tiene o no una instantánea de referencia coubicada que precede a la instantánea de inicio en orden de codificación (S123).

Cuando la instantánea de referencia coubicada del corte incluido en la instantánea posterior precede a la instantánea de inicio (Sí en S124), el aparato 100 de codificación de imágenes codifica el corte incluido en la instantánea posterior. En este momento, el aparato 100 de codificación de imágenes establece la bandera de predicción de vector de movimiento temporal para el corte de la instantánea posterior para indicar que "no ha de usarse la predicción de vector de movimiento temporal" (por ejemplo, valor de bandera "0") (S125). En otras palabras, se deshabilita la predicción de vector de movimiento temporal más allá de la instantánea de inicio en orden de codificación.

Por otra parte, cuando la instantánea de referencia coubicada del corte de la instantánea posterior no precede a la instantánea de inicio (es decir, la instantánea de inicio o una instantánea que sigue en orden de codificación es la instantánea de referencia coubicada) (No en S124), el aparato 100 de codificación de imágenes codifica el corte de la instantánea posterior. En este momento, el aparato 100 de codificación de imágenes establece la bandera de predicción de vector de movimiento temporal para el corte de la instantánea posterior para indicar que "ha de usarse la predicción de vector de movimiento temporal" (por ejemplo, valor de bandera "1") o para indicar que "no ha de usarse la predicción de vector de movimiento temporal" (por ejemplo, valor de bandera "0") (S126). En otras palabras, cuando la instantánea de referencia coubicada no precede a la instantánea de inicio en orden de codificación, existe la opción de usar o no predicción de vector de movimiento temporal en el corte objetivo. Adicionalmente, en esta realización, la selección de usar o no predicción de vector de movimiento temporal se determina basándose en si se maximiza o no la eficacia de codificación.

Como se ha descrito anteriormente, el aparato 100 de codificación de imágenes selecciona la primera instantánea (instantánea de inicio) de entre varias instantáneas, como se muestra en la figura 4A (S141).

A continuación, el aparato 100 de codificación de imágenes establece una primera bandera de predicción de vector de movimiento temporal asociado con la primera instantánea para indicar que no ha de usarse la predicción de vector de movimiento temporal, y codifica la primera bandera de predicción de vector de movimiento temporal (S142). Específicamente, el aparato 100 de codificación de imágenes escribe la primera bandera de predicción de vector de movimiento temporal que indica que no ha de usarse la predicción de vector de movimiento temporal, en los encabezados de todos los cortes incluidos en la primera instantánea.

Adicionalmente, el aparato 100 de codificación de imágenes codifica la primera instantánea sin usar predicción de vector de movimiento temporal (S143).

A continuación, el aparato 100 de codificación de imágenes codifica una segunda instantánea que sigue a la primera instantánea en orden de codificación, estando prohibida la referencia a un vector de movimiento de una instantánea que precede a la primera instantánea en orden de codificación (S144).

Por consiguiente, puesto que el aparato 100 de codificación de imágenes puede prohibir que la segunda instantánea que sigue a la primera instantánea haga referencia a un vector de movimiento de una instantánea que precede a la primera instantánea en orden de codificación, es posible evitar la propagación de error a través de la primera instantánea. Por lo tanto, el aparato 100 de codificación de imágenes puede mejorar la robustez.

Debería observarse que puede intercambiarse el orden de la etapa S142 y la etapa S143.

Por ejemplo, como se muestra en la figura 4B, en el momento cuando se codifica la instantánea 4, se prohíbe hacer referencia a vectores de movimiento de la instantánea 0 y la instantánea 1 que precede a la instantánea 2. Adicionalmente, como se muestra en la figura 4C, se cumple lo mismo para el caso cuando el orden de codificación y el orden de visualización (orden de salida) son diferentes. En el ejemplo mostrado en la figura 4C, en el momento cuando se codifica la instantánea 4, se prohíbe hacer referencia a un vector de movimiento de la instantánea 0 que precede a la instantánea de inicio. Debería observarse que en la figura 4B y en la figura 4C, los números de instantánea (instantánea 0, instantánea 1, ...) indican el orden de codificación.

En este punto, se ejecuta la etapa S141 y parte de S142 por una unidad de ajuste incluida en el aparato 100 de codificación de imágenes. Adicionalmente, se ejecuta otra parte de la etapa anteriormente mencionada S142, y se ejecutan las etapas S143 y S144 por una unidad de codificación incluida en el aparato 100 de codificación de imágenes. Por ejemplo, la unidad de ajuste está incluida en la unidad 113 de control mostrada en la figura 1. Adicionalmente, la función principal de la unidad de codificación se realiza mediante la unidad 110 de inter predicción, la unidad 112 de codificación de longitud variable, y la unidad 113 de control mostradas en la figura 1.

Adicionalmente, aunque como un procedimiento para prohibir que la instantánea posterior que sigue a la instantánea de inicio haga referencia a un vector de movimiento de una instantánea que precede a la instantánea de inicio, se ilustra en este punto un procedimiento que no usa predicción de vector de movimiento temporal para la instantánea posterior, pueden usarse otros procedimientos.

Por ejemplo, cuando la instantánea de referencia coubicada de la instantánea posterior precede a la instantánea de inicio, el aparato 100 de codificación de imágenes puede cambiar tal instantánea de referencia coubicada a la instantánea de inicio o a una instantánea que sigue a la instantánea de inicio.

Adicionalmente, cuando la instantánea de referencia coubicada de la instantánea posterior precede a la instantánea de inicio, el aparato 100 de codificación de imágenes puede crear una lista (la segunda lista) de predictores de vector de movimiento que no incluyen un predictor de vector de movimiento temporal, en lugar de establecer la bandera de predicción de vector de movimiento temporal para indicar que "no ha de usarse la predicción de vector de movimiento temporal". Adicionalmente, incluso cuando se crea una lista de predictores de vector de movimiento que incluye un predictor de vector de movimiento temporal, el aparato 100 de codificación de imágenes puede realizar, por ejemplo, codificación sin seleccionar el índice asignado al predictor de vector de movimiento temporal, para no seleccionar el predictor de vector de movimiento temporal.

En lo sucesivo, deberá describirse una modificación del procedimiento de codificación de acuerdo con esta realización. La figura 5 es un diagrama de flujo de un procedimiento de codificación para codificar varias instantáneas, de acuerdo con una modificación de esta realización.

El aparato 100 de codificación de imágenes selecciona, desde varias instantáneas, una instantánea de inicio para la renovación de la predicción de vector de movimiento temporal (S161). A continuación, el aparato 100 de codificación de imágenes codifica todos los cortes incluidos en la instantánea de inicio. Adicionalmente, el aparato 100 de codificación de imágenes establece las banderas de predicción de vector de movimiento temporal de todos los cortes incluidos en la instantánea de inicio para indicar que "no ha de usarse la predicción de vector de movimiento temporal" (por ejemplo, valor de bandera) (S162).

A continuación, el aparato 100 de codificación de imágenes considera si una instantánea posterior que sigue a la instantánea de inicio en orden de codificación precede o no a la instantánea de inicio en orden de salida (también denominado de manera común el orden de visualización) (S163).

Cuando la instantánea posterior precede a la instantánea de inicio en orden de salida (Sí en S164), el aparato 100 de codificación de imágenes codifica un corte de la instantánea posterior. En este momento, el aparato 100 de codificación de imágenes establece la bandera de predicción de vector de movimiento temporal para el corte de la instantánea posterior para indicar que "ha de usarse la predicción de vector de movimiento temporal" (por ejemplo, valor de bandera "1") o para indicar que "no ha de usarse la predicción de vector de movimiento temporal" (por ejemplo, valor de bandera "0") (S165). En otras palabras, cuando la instantánea posterior precede a la instantánea de inicio en orden de salida, existe la opción de usar o no predicción de vector de movimiento temporal en el corte de la instantánea posterior. En esta realización, la selección para si usar o no predicción de vector de movimiento temporal se determina basándose en si se maximiza o no la eficacia de codificación.

Por otra parte, cuando la instantánea posterior no precede a la instantánea de inicio en orden de salida (es decir, sigue a la instantánea de inicio en orden de salida) (No en S164), el aparato 100 de codificación de imágenes considera si el corte incluido en la instantánea posterior tiene o no una instantánea de referencia coubicada que precede a la instantánea de inicio en cualquiera de orden de codificación u orden de salida (S166).

Cuando la instantánea de referencia coubicada del corte incluido en la instantánea posterior precede a la instantánea de inicio en cualquiera del orden de codificación u orden de salida (Sí en S167), el aparato 100 de codificación de imágenes codifica el corte incluido en la instantánea posterior. En este momento, el aparato 100 de codificación de imágenes establece la bandera de predicción de vector de movimiento temporal para el corte para indicar que "no ha de usarse la predicción de vector de movimiento temporal" (por ejemplo, valor de bandera "0") (S168). En otras palabras, se deshabilita la predicción de vector de movimiento temporal más allá de la instantánea de inicio en cualquiera de orden de codificación u orden de salida.

Por otra parte, cuando la instantánea de referencia coubicada del corte incluido en la instantánea posterior no precede a la instantánea de inicio en cualquiera del orden de codificación y orden de salida (No en S167), el aparato 100 de codificación de imágenes codifica el corte incluido en la instantánea posterior. En este momento, el aparato 100 de codificación de imágenes establece la bandera de predicción de vector de movimiento temporal para el corte para indicar que "ha de usarse la predicción de vector de movimiento temporal" (por ejemplo, valor de bandera "1") o para indicar que "no ha de usarse la predicción de vector de movimiento temporal" (por ejemplo, valor de bandera "0") (S169). En otras palabras, cuando la instantánea de referencia coubicada sigue a la instantánea de inicio en orden de codificación y orden de salida, existe la opción de usar o no la predicción de vector de movimiento temporal en el corte objetivo. En esta realización, la selección para si usar o no predicción de vector de movimiento temporal se determina basándose en si se maximiza o no la eficacia de codificación.

Adicionalmente, en el ejemplo del procedimiento de codificación anteriormente descrito, se proporcionan restricciones normativas como se muestra a continuación.

El nivel temporal de una instantánea de inicio tiene la prioridad más alta. Un ejemplo de un nivel temporal que tiene la prioridad más alta es el nivel temporal 0 en el esquema de codificación de vídeo de HEVC, es decir, un tem poraljd en un encabezado de unidad de Capa de Abstracción de Red (NAL) del corte es igual a 0.

En este punto, el nivel temporal (jerarquía temporal) indica que una instantánea (corte) que tiene un cierto nivel temporal puede hacer referencia a información de una instantánea que tiene el mismo nivel temporal o un nivel temporal superior. Por ejemplo, se codifica una instantánea que tiene el nivel temporal más alto (temporaljd = 0) usando únicamente una instantánea que tiene el nivel temporal más alto. Dicho de otra manera, puede decodificarse la instantánea que tiene el nivel temporal más alto (temporal-id = 0) usando únicamente una instantánea que tiene el nivel temporal más alto.

Todos los cortes incluidos en una instantánea de inicio no deberán usar la predicción de vector de movimiento temporal (por ejemplo, valores de bandera establecidos a 0). Por lo tanto, se identifica una instantánea de inicio como una instantánea que tiene el nivel temporal de prioridad más alta (por ejemplo, temporaljd es 0) y la bandera de predicción de vector de movimiento temporal indica "no ha de usarse" (por ejemplo, valor de bandera es 0).

Cualesquiera instantáneas que sigan una instantánea de inicio no deberán usar predicción de vector de movimiento temporal más allá de la instantánea de inicio como se describe en la figura 3 (usando condiciones de orden de codificación) o la figura 5 (usando las condiciones de orden de codificación y orden de salida).

Adicionalmente, la secuencia de bits 132 codificados se ajusta a las condiciones normativas.

Un aparato de decodificación de imágenes de acuerdo con esta realización puede detectar no conformidades de secuencia de bits (con respecto a las restricciones normativas) y realizar de manera arbitraria procedimientos de manejo de errores cuando se detectan tales no conformidades. Por ejemplo, el aparato de decodificación de imágenes puede ocultar un bloque (o corte) no conforme sustituyendo el bloque (o corte) no conforme por un bloque (o corte) coubicado incluido en una instantánea reconstruida anterior que precede a la instantánea objetivo de decodificación y está cerca de la instantánea objetivo de decodificación.

[Sintaxis]

La figura 6 es un diagrama de sintaxis que muestra una ubicación de la bandera de predicción de vector de movimiento temporal de acuerdo con esta realización.

Como se muestra en la figura 6, los parámetros de ordenación de lista de instantáneas de referencia para especificar el orden de instantáneas de referencia en una o más listas de instantáneas de referencia están ubicados en el encabezado de corte. Estos parámetros determinan el orden efectivo o final de las listas de instantáneas de referencia usadas para inter predicción del corte que corresponde al encabezado de corte. Adicionalmente, estos parámetros pueden especificar un procedimiento de reordenación que va a realizarse en una o más listas de instantáneas de referencia iniciales, o pueden especificar que las listas de instantáneas de referencia iniciales han de usarse sin reordenación. En este punto, una lista de instantáneas de referencia inicial es una lista de instantáneas de referencia creada usando un esquema ordenado predeterminado.

Adicionalmente, una bandera de predicción de vector de movimiento temporal está incluida en el encabezado de corte de la misma manera que los parámetros de ordenación de lista de instantáneas de referencia. La bandera de predicción de vector de movimiento temporal indica si ha de usarse o no la predicción de vector de movimiento temporal para el corte que corresponde al encabezado de corte.

Se proporciona un parámetro de selección de predictor de vector de movimiento en cada una de las unidades de predicción. Este parámetro de selección de predictor de vector de movimiento indica un único predictor de vector de movimiento seleccionado en la inter predicción de una unidad de predicción, de entre varios predictores de vector de movimiento disponibles para inter predicción de la unidad de predicción.

Un parámetro de nivel temporal está incluido en el encabezado de corte. Como se ha descrito anteriormente, el aparato 100 de codificación de imágenes selecciona una instantánea de inicio para renovación de la predicción de vector de movimiento temporal de entre varias instantáneas, usando este parámetro de nivel temporal. Específicamente, el aparato 100 de codificación de imágenes selecciona, como la instantánea de inicio, una instantánea que tiene el nivel temporal más alto entre varias instantáneas.

Debería observarse que los parámetros de ordenación de lista de instantáneas de referencia y la bandera de predicción de vector de movimiento temporal pueden estar incluidos en un encabezado compartido entre varios cortes incluidos en la misma instantánea. Un ejemplo de un encabezado de este tipo es un encabezado de conjunto de parámetros de adaptación (APS).

La división de corte es un procedimiento para dividir una instantánea en múltiples particiones de subinstantánea. Por lo tanto, esta realización puede aplicarse cuando se usan otros procedimientos de división de subinstantánea, tales como unidades de división de pieza, corte de entropía o frente de onda. En otras palabras, los parámetros incluidos en un encabezado de corte pueden estar incluidos en un encabezado para una unidad de subinstantánea.

[Efecto ventajoso de la invención de la codificación]

Por consiguiente, el aparato 100 de codificación de imágenes de acuerdo con esta realización puede mejorar la robustez frente a error de inter predicción usando un predictor de vector de movimiento temporal. Adicionalmente, el aparato 100 de codificación de imágenes puede mejorar la eficacia de codificación y flexibilidad de inter predicción, ya que pueden habilitarse y deshabilitarse los predictores de vector de movimiento temporal de manera independiente en varios cortes incluidos en la misma instantánea.

[Aparato de decodificación]

En lo sucesivo, deberá describirse un aparato 200 de decodificación de imágenes de acuerdo con esta realización. El aparato 200 de decodificación de imágenes decodifica la secuencia de bits 132 codificados generada por el aparato 100 de codificación de imágenes anteriormente descrito.

La figura 7 es un diagrama de bloques que muestra una configuración del aparato 200 de decodificación de imágenes de acuerdo con esta realización.

El aparato 200 de decodificación de imágenes decodifica una secuencia de bits 232 codificados en una base por bloque para generar una imagen 226 decodificada. En este punto, la secuencia de bits 232 codificados es, por ejemplo, la secuencia de bits 132 codificados generada por el aparato 100 de codificación de imágenes anteriormente descrito.

Como se muestra en la figura 7, el aparato 200 de decodificación de imágenes incluye una unidad 212 de decodificación de longitud variable (unidad de codificación por entropía), una unidad 204 de cuantificación inversa, una unidad 205 de transformada ortogonal inversa, un sumador 206, una memoria 207 de bloque, una memoria 208 de fotograma (memoria de instantánea), una unidad 209 de intra predicción, una unidad 210 de inter predicción, y una unidad 211 de conmutación.

La unidad 212 de decodificación de longitud variable realiza decodificación de longitud variable en la secuencia de bits 232 codificados para generar coeficientes 223 cuantificados. La unidad 204 de cuantificación inversa cuantifica a la inversa los coeficientes 223 cuantificados para generar coeficientes 224 de transformada. La unidad 205 de transformada ortogonal inversa realiza la transformada de frecuencia inversa en los coeficientes 224 de transformada para generar una señal 225 residual. El sumador 206 añade la señal 225 residual y una imagen 231 prevista para generar una imagen 226 decodificada. La imagen 226 decodificada se emite, por ejemplo, a una unidad de visualización. Adicionalmente, la imagen 226 decodificada se almacena en la memoria 207 de bloque y en la memoria 208 de fotograma, como las señales 227 y 228 de imagen, respectivamente, para posterior predicción.

La unidad 209 de intra predicción realiza intra predicción usando la señal 227 de imagen almacenada en la memoria 207 de bloque, para generar una imagen 229 prevista. Por ejemplo, la unidad 209 de intra predicción detecta, desde regiones de imagen procesadas incluidas en una imagen objetivo de procesamiento, una región de imagen que es más similar a una región de imagen objetivo de procesamiento. La unidad 210 de inter predicción realiza inter predicción usando la señal 228 de imagen almacenada en la memoria 208 de fotograma, para generar una imagen 230 prevista. Por ejemplo, la unidad 210 de inter predicción detecta una región de imagen incluida en otra imagen procesada y que es más similar a la región de imagen objetivo de procesamiento. La unidad 211 de conmutación selecciona una de las imágenes 229 y 230 previstas, y emite la imagen prevista seleccionada como la imagen 231 prevista.

Adicionalmente, la unidad 212 de decodificación de longitud variable obtiene, de la secuencia de bits 232 codificados, una bandera de predicción de vector de movimiento temporal 233 que indica si ha de usarse o no la predicción de vector de movimiento temporal en la inter predicción para el corte objetivo de decodificación. La unidad 210 de inter predicción realiza inter predicción usando o sin usar un predictor de vector de movimiento temporal, basándose en esta bandera.

[Procedimiento de decodificación]

A continuación, deberá describirse la operación del aparato 200 de decodificación de imágenes anteriormente descrito. La figura 8 es un diagrama de flujo del procedimiento de decodificación de imágenes de acuerdo con la presente realización.

En primer lugar, el aparato 200 de decodificación de imágenes obtiene los parámetros de ordenación de lista de instantáneas de referencia de un encabezado de corte (S201). Adicionalmente, el aparato 200 de decodificación de imágenes identifica el orden de instantáneas de referencia incluidas en una o más listas de instantáneas de referencia y que han de usarse para inter predicción del corte, de acuerdo con los parámetros de orden de lista de instantáneas de referencia. En este punto, una instantánea de referencia en una posición predeterminada en una cierta lista de instantáneas de referencia es una instantánea de referencia coubicada.

A continuación, el aparato 200 de decodificación de imágenes obtiene la bandera de predicción de vector de movimiento temporal del encabezado de corte (S202). A continuación, el aparato 200 de decodificación de imágenes considera si ha de usarse o no la bandera de predicción de vector de movimiento temporal indica que ha de usarse la predicción de vector de movimiento temporal (S203).

Cuando la bandera indica que ha de usarse la predicción de vector de movimiento temporal (Sí en S204), el aparato 200 de decodificación de imágenes crea una primera lista de predictores de vector de movimiento que incluyen al menos un predictor de vector de movimiento temporal derivado de un vector de movimiento de la instantánea de referencia coubicada (S205). A continuación, el aparato 200 de decodificación de imágenes obtiene un primer parámetro (bandera de selección de predictor de vector de movimiento) de la secuencia de bits 232 codificados (S206). El primer parámetro indica un predictor de vector de movimiento seleccionado desde la primera lista, para un bloque de muestras objetivo de decodificación incluido en el corte.

Por otra parte, cuando la bandera indica que no ha de usarse la predicción de vector de movimiento temporal (No en S204), el aparato 200 de decodificación de imágenes crea una segunda lista de predictores de vector de movimiento que no incluyen un predictor de vector de movimiento temporal (S207). A continuación, el aparato 200 de decodificación de imágenes obtiene un segundo parámetro (bandera de selección de predictor de vector de movimiento) de la secuencia de bits 232 codificados (S208). En este punto, el segundo parámetro indica un predictor de vector de movimiento seleccionado de la segunda lista, para el bloque de muestras objetivo de decodificación incluido en el corte.

Después de la etapa S206 o S208, el aparato 200 de decodificación de imágenes realiza inter predicción de movimiento compensado usando el predictor de vector de movimiento indicado mediante el primer parámetro o el segundo parámetro para generar de esta manera un bloque de muestras previsto (imagen 231 prevista) (S209). A continuación, el aparato 200 de decodificación de imágenes decodifica un bloque de muestras residual (señal 225 residual) de la secuencia de bits 232 codificados (S210). Finalmente, el aparato 200 de decodificación de imágenes añade el bloque de muestras previsto (imagen 231 prevista) y el bloque de muestras residuales (señal 225 residual) para generar de esta manera un bloque de muestras reconstruidas (imagen 226 decodificada) que corresponde al bloque objetivo de decodificación (S211).

Adicionalmente, el aparato 200 de decodificación de imágenes de acuerdo con esta realización obtiene, de la secuencia de bits 232 codificados, una primera bandera de predicción de vector de movimiento temporal que indica que no ha de usarse la predicción de vector de movimiento temporal en la primera instantánea (instantánea de inicio). Específicamente, el aparato 200 de decodificación de imágenes obtiene, a partir de los encabezados de todos los cortes incluidos en la primera instantánea, la primera bandera de predicción de vector de movimiento temporal que indica que no ha de usarse la predicción de vector de movimiento temporal.

A continuación, el aparato 200 de decodificación de imágenes codifica la primera instantánea sin usar predicción de vector de movimiento temporal (S242). A continuación, el aparato 200 de decodificación de imágenes codifica una segunda instantánea que sigue a la primera instantánea en orden de decodificación, estando prohibida la referencia a un vector de movimiento de una instantánea que precede a la primera instantánea en orden de decodificación (S243). Debería observarse que los detalles de estos procedimientos son equivalentes a los procedimientos del aparato 100 de codificación de imágenes anteriormente descrito.

En este punto, se ejecuta la etapa S241 por una unidad de obtención incluida en el aparato 200 de decodificación de imágenes. Adicionalmente, se ejecutan las etapas S242 y S243 por una unidad de decodificación incluida en el aparato 200 de decodificación de imágenes. Por ejemplo, la unidad obtención está incluida en la unidad 212 de decodificación de longitud variable mostrada en la figura 7. Adicionalmente, la función principal de la unidad de decodificación se realiza por la unidad 210 de inter predicción mostrada en la figura 7.

[Efecto ventajoso de la invención de la decodificación]

Por consiguiente, el aparato 200 de decodificación de imágenes de acuerdo con esta realización puede decodificar una secuencia de bits codificados que se codifica con robustez frente a error mejorada, flexibilidad y eficacia de codificación de inter predicción usando un predictor de vector de movimiento temporal.

Aunque se han descrito hasta el momento un aparato de codificación de imágenes y un aparato de decodificación de imágenes de acuerdo con las realizaciones, la presente invención no se limita a tales realizaciones.

Adicionalmente, las respectivas unidades de procesamiento incluidas en el aparato de codificación de imágenes y aparato de decodificación de imágenes de acuerdo con las realizaciones anteriormente descritas se implementan típicamente como un LSI que es un circuito integrado. Estas unidades de procesamiento se pueden configurar individualmente como chips únicos o se pueden configurar de tal modo que una parte o la totalidad de las unidades de procesamiento se incluyen en un único chip.

Además, el procedimiento de integración de circuitos no se limita a LSI, y también es posible la implementación a través de un circuito especializado o procesadores de fin general. Se puede usar también una Disposición de Puertas Programables en Campo (FPGA), que permite la programación después de que se fabrique el lS i, o un procesador reconfigurable, que permite la reconfiguración de las conexiones y ajustes de las células de circuito dentro del LSI.

En las realizaciones respectivas, los elementos constituyentes respectivos se configuran usando hardware dedicado, pero también se pueden implementar al ejecutar programas de software adaptados a los elementos constituyentes respectivos. Los elementos constituyentes respectivos pueden implementarse a través de la lectura y ejecución de un programa de software grabado en un medio de grabación, tal como un disco duro o memoria de semiconductores mediante una unidad de ejecución de programa, tal como una CPU o un procesador.

Además, la presente invención puede ser el programa de software mencionado anteriormente, o un medio de grabación legible por ordenador no transitorio en el que se registra el programa mencionado anteriormente. Además, debería ser obvio que el programa mencionado anteriormente se puede distribuir por medio de un medio de transmisión tal como Internet.

Además, todas las cifras numéricas usadas en la descripción anterior son meramente ejemplos para describir la presente invención en términos específicos y, por lo tanto, la presente invención no se limita a las cifras numéricas ilustradas.

Además, la separación de los bloques funcionales en los diagramas de bloques es meramente un ejemplo, y múltiples bloques funcionales se pueden implementar como un único bloque funcional, un único bloque funcional se puede separar en múltiples bloques funcionales, o parte de las funciones de un bloque funcional se pueden transferir a otro bloque funcional. Además, las funciones de bloques funcionales que tienen funciones similares se pueden procesar, en paralelo o por compartición de tiempo, por un único hardware o software.

Además, la secuencia en la que se ejecutan las etapas incluidas en el procedimiento de codificación de imágenes y el procedimiento de decodificación de imágenes anteriormente descritos se da como un ejemplo para describir la presente invención en términos específicos y, por lo tanto, son posibles otras secuencias. Además, parte de las etapas anteriormente descritas se puede ejecutar de forma simultánea (en paralelo) con otra etapa.

Aunque un aparato de codificación de imágenes y un aparato de decodificación de imágenes de acuerdo con uno o múltiples aspectos de la presente invención se describen basándose en las realizaciones, la presente invención no se limita a tales realizaciones. Están incluidas diversas modificaciones a las presentes realizaciones que pueden concebirse por los expertos en la materia, y formas configuradas combinando elementos constituyentes en diferentes realizaciones sin alejarse de las enseñanzas de la presente invención en el ámbito de uno o más aspectos de la presente invención.

[Realización 2]

El procesamiento descrito en cada una de las realizaciones puede implementarse simplemente en un sistema informático independiente, grabando, en un medio de grabación, un programa para que implementa las configuraciones del procedimiento de codificación de instantáneas en movimiento (procedimiento de codificación de imágenes) y el procedimiento de decodificación de instantáneas en movimiento (procedimiento de decodificación de imágenes) descritos en cada una de las realizaciones. El medio de grabación puede ser cualquier medio de grabación siempre que el programa pueda grabarse, tal como un disco magnético, un disco óptico, un disco óptico magnético, una tarjeta de CI, y una memoria de semiconductores.

Posteriormente en el presente documento, se describirán las aplicaciones al procedimiento de codificación de instantáneas en movimiento (procedimiento de codificación de imágenes) y al procedimiento de decodificación de instantáneas en movimiento (procedimiento de decodificación de imágenes) descritos en cada una de las realizaciones, y sistemas que usan los mismos. El sistema tiene una característica de tener un aparato de codificación y de decodificación de imágenes que incluye un aparato de codificación de imágenes que usa el procedimiento de codificación de imágenes y un aparato de decodificación de imágenes que usa el procedimiento de decodificación de imágenes. Pueden cambiarse otras configuraciones en el sistema según sea apropiado, dependiendo de los casos.

La figura 10 ilustra una configuración global de un sistema de suministro de contenido ex100 para implementar servicios de distribución de contenido. El área para proporcionar servicios de comunicación se divide en células de tamaño deseado, y las estaciones base ex106, ex107, ex108, ex109 y ex110 que son estaciones inalámbricas fijas se colocan en cada una de las células.

El sistema de provisión de contenido ex100 está conectado a dispositivos, tales como a un ordenador ex111, un asistente digital personal (PDA) ex112, una cámara ex113, un teléfono celular ex114 y una máquina de juegos ex115, mediante Internet ex101, un proveedor de servicios de Internet ex102, una red de telefonía ex104, así como a las estaciones base ex106 a ex110, respectivamente.

Sin embargo, la configuración del sistema de provisión de contenido ex100 no se limita a la configuración mostrada en la figura 10, y es aceptable una combinación en la que está conectado cualquiera de los elementos. Además, cada dispositivo puede estar directamente conectado a la red de telefonía ex104, en lugar de mediante las estaciones base ex106 a ex110 que son las estaciones inalámbricas fijas. Adicionalmente, los dispositivos pueden interconectarse entre sí mediante una comunicación inalámbrica de corta distancia y otras.

La cámara ex113, tal como una cámara de vídeo digital, puede capturar vídeo. Una cámara ex116, tal como una cámara digital, puede capturar tanto imágenes fijas como vídeo. Adicionalmente, el teléfono celular ex114 puede ser el que cumple cualquiera de las normas tales como el Sistema Global para Comunicación Móvil (GSM) (marca registrada), Acceso Múltiple por División de Código (CDMA), Acceso Múltiple por División de Código de Banda Ancha (W-CDMA), Evolución a Largo Plazo (LTE) y Acceso por Paquetes a Alta Velocidad (HSPA). Como alternativa, el teléfono celular ex114 puede ser un Sistema Móvil Personal (PHS).

En el sistema de provisión de contenido ex100, un servidor de envío por flujo continuo ex103 está conectado a la cámara ex113 y a otros mediante la red de telefonía ex104 y la estación base ex109, que posibilita la distribución de imágenes de un espectáculo en directo y otros. En una distribución de este tipo, un contenido (por ejemplo, vídeo de un espectáculo en directo de música) capturado por el usuario que usa la cámara ex113 se codifica como se ha descrito anteriormente en cada una de las realizaciones (es decir, la cámara funciona como el aparato de codificación de imágenes de acuerdo con un aspecto de la presente invención), y el contenido codificado se transmite al servidor de flujo continuo ex103. Por otra parte, el servidor de flujo continuo ex103 lleva a cabo distribución de flujo en los datos de contenido transmitidos a los clientes tras sus solicitudes. Los clientes incluyen el ordenador ex111, el PDA ex112, la cámara ex113, el teléfono celular ex114, y la máquina de juegos ex115 que pueden decodificar los datos codificados anteriormente mencionados. Cada uno de los dispositivos que han recibido los datos distribuidos decodifican y reproducen los datos codificados (es decir, funciona como el aparato de decodificación de imágenes de acuerdo con un aspecto de la presente invención).

Los datos capturados pueden codificarse por la cámara ex113 o el servidor de flujo continuo ex103 que transmite los datos, o los procedimientos de codificación pueden compartirse entre la cámara ex113 y el servidor de flujo continuo ex103. De manera similar, los datos distribuidos pueden decodificarse por los clientes o el servidor de flujo continuo ex103, o los procedimientos de decodificaciones pueden compartirse entre los clientes y el servidor de flujo continuo ex103. Adicionalmente, los datos de las imágenes fijas y el vídeo capturado no únicamente por la cámara ex113 sino también por la cámara ex116 pueden transmitirse al servidor de flujo continuo ex103 a través del ordenador ex111. Los procedimientos de codificación pueden realizarse por la cámara ex116, el ordenador ex111, o el servidor de flujo continuo ex103, o compartirse entre ellos.

Adicionalmente, los procedimientos de codificación y decodificación pueden realizarse por un LSI ex500 generalmente incluido en cada uno del ordenador ex111 y los dispositivos. El LSI ex500 puede estar configurado de un único chip o una pluralidad de chips. El software para codificar y decodificar vídeo puede estar integrado en algún tipo de un medio de grabación (tal como un CD-ROM, un disco flexible y un disco duro) que es legible por el ordenador ex111 y otros, y los procedimientos de codificación y decodificación pueden realizarse usando el software. Adicionalmente, cuando el teléfono celular ex114 está equipado con una cámara, los datos de vídeo obtenidos por la cámara pueden transmitirse. Los datos de vídeo son datos codificados por el LSI ex500 incluido en el teléfono celular ex114.

Adicionalmente, el servidor de flujo continuo ex103 puede estar compuesto por servidores y ordenadores, y puede descentralizar los datos y procesar los datos descentralizados, registrar o distribuir los datos.

Como se ha descrito anteriormente, los clientes pueden recibir y reproducir los datos codificados en el sistema de provisión de contenido ex100. En otras palabras, los clientes pueden recibir y decodificar información transmitida por el usuario, y reproducir los datos decodificados en tiempo real en el sistema de provisión de contenido ex100, de modo que el usuario que no tiene ningún derecho y equipo particular puede implementar difusión personal.

Además del ejemplo del sistema de provisión de contenido ex100, al menos uno del aparato de codificación de instantáneas en movimiento (aparato de codificación de imágenes) y el aparato de decodificación de instantáneas en movimiento (aparato de decodificación de imágenes) descritos en cada una de las realizaciones pueden implementarse en un sistema de difusión digital ex200 ilustrado en la figura 11. Más específicamente, una estación de difusión ex201 comunica o transmite mediante ondas de radio a un satélite de difusión ex202, datos multiplexados obtenidos multiplexando datos de audio y otros en datos de vídeo. Los datos de vídeo son datos codificados por el procedimiento de codificación de instantáneas en movimiento descrito en cada una de las realizaciones (es decir, datos codificados por el aparato de codificación de imágenes de acuerdo con un aspecto de la presente invención). Tras la recepción de los datos multiplexados, el satélite de difusión ex202 transmite ondas de radio para difusión. A continuación, una antena de uso doméstico ex204 con una función de recepción de difusión por satélite recibe las ondas de radio. A continuación, un dispositivo tal como una televisión (receptor) ex300 y un decodificador de salón (STB) ex217 decodifica los datos multiplexados recibidos, y reproduce los datos decodificados (es decir, funciona como el aparato de decodificación de imágenes de acuerdo con un aspecto de la presente invención).

Adicionalmente, un lector/grabador ex218 (i) lee y decodifica los datos multiplexados grabados en un medio de grabación ex215, tal como un DVD y un BD, o (i) codifica señales de vídeo en el medio de grabación ex215, y en algunos casos, escribe datos obtenidos multiplexando una señal de audio en los datos codificados. El lector/grabador ex218 puede incluir el aparato de decodificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento como se muestra en cada una de las realizaciones. En este caso, las señales de vídeo reproducidas se visualizan en el monitor ex219, y pueden reproducirse por otro dispositivo o sistema usando el medio de grabación ex215 en el que se graban los datos multiplexados. Es también posible implementar el aparato de decodificación de instantáneas en movimiento en el decodificador de salón ex217 conectado al cable ex203 para una televisión por cable o a la antena ex204 para difusión por satélite y/o terrestre, para visualizar las señales de vídeo en el monitor ex219 de la televisión ex300. El aparato de decodificación de instantáneas en movimiento puede implementarse no en el decodificador de salón sino en la televisión ex300.

La figura 12 ilustra la televisión (receptor) ex300 que usa el procedimiento de codificación de instantáneas en movimiento y el procedimiento de decodificación de instantáneas en movimiento descritos en cada una de las realizaciones. La televisión ex300 incluye: un sintonizador ex301 que obtiene o proporciona datos multiplexados obtenidos multiplexando datos de audio a datos de vídeo, a través de la antena ex204 o el cable ex203, etc. que recibe una difusión; una unidad de modulación/demodulación ex302 que demodula los datos multiplexados recibidos o modula datos en datos multiplexados a suministrarse al exterior; y una unidad de multiplexación/demultiplexación ex303 que demultiplexa los datos multiplexados modulados en datos de vídeo y datos de audio, o multiplexa datos de vídeo y datos de audio codificados por una unidad de procesamiento de señal en datos ex306.

La televisión ex300 incluye adicionalmente: una unidad de procesamiento de señales ex306 que incluye una unidad de procesamiento de señales de audio ex304 y una unidad de procesamiento de señales de vídeo ex305 que decodifican datos de audio y datos de vídeo y codifican datos de audio y datos de vídeo, respectivamente (que funciona como el aparato de codificación de imágenes y el aparato de decodificación de imágenes de acuerdo con los aspectos de la presente invención); y una unidad de salida ex309 que incluye un altavoz ex307 que proporciona la señal de audio decodificada, y una unidad de visualización ex308 que visualiza la señal de vídeo decodificada, tal como una pantalla. Adicionalmente, la televisión ex300 incluye una unidad de interfaz ex317 que incluye una unidad de entrada de operación ex312 que recibe una entrada de una operación de usuario. Adicionalmente, la televisión ex300 incluye una unidad de control ex310 que controla de manera global cada elemento constituyente de la televisión ex300, y una unidad de circuito de fuente de alimentación ex311 que suministra potencia a cada uno de los elementos. Además de la unidad de entrada de operación ex312, la unidad de interfaz ex317 puede incluir: un puente ex313 que se conecta a un dispositivo externo, tal como el lector/grabador ex218; una unidad de ranura ex314 para posibilitar la conexión del medio de grabación ex216, tal como una tarjeta de SD; un controlador ex315 para conectarse a un medio de grabación externo, tal como un disco duro; y un módem ex316 para conectarse a una red de telefonía. En este punto, el medio de grabación ex216 puede grabar eléctricamente información usando un elemento de memoria de semiconductores no volátil/volátil para almacenamiento. Los elementos constituyentes de la televisión ex300 están conectados entre sí a través de un bus síncrono.

En primer lugar, se describirá la configuración en la que la televisión ex300 decodifica datos multiplexados obtenidos desde el exterior a través de la antena ex204 y otros y reproduce los datos decodificados. En la televisión ex300, después de la operación de un usuario a través de un controlador remoto ex220 y otros, la unidad de multiplexación/demultiplexación ex303 demultiplexa los datos multiplexados demodulados por la unidad de modulación/demodulación ex302, bajo el control de la unidad de control ex310 que incluye una CPU. Adicionalmente, la unida ex304 de procesamiento de señal de audio decodifica los datos de audio demultiplexados, y la unidad de procesamiento de señal de vídeo ex305 decodifica los datos de vídeo demultiplexados, usando el procedimiento de decodificación descrito en cada una de las realizaciones, en la televisión ex300. La unidad de salida ex309 proporciona la señal de vídeo decodificada y la señal de audio al exterior, respectivamente. Cuando la unidad de salida ex309 proporciona la señal de vídeo y la señal de audio, las señales pueden almacenarse temporalmente en las memorias intermedias ex318 y ex319, y otros de modo que las señales se reproducen en sincronización entre sí. Adicionalmente, la televisión ex300 puede leer datos multiplexados no a través de una difusión y otros sino desde el medio de grabación ex215 y ex216, tal como un disco magnético, un disco óptico, y una tarjeta de SD. A continuación, se describirá una configuración en la que la televisión ex300 codifica una señal de audio y una señal de vídeo, y transmite los datos al exterior o escribe los datos en un medio de grabación. En la televisión ex300, después de una operación de usuario a través del controlador remoto ex220 y otros, la unidad de procesamiento de señal de audio ex304 codifica una señal de audio, y la unidad de procesamiento de señal de vídeo ex305 codifica una señal de vídeo, bajo el control de la unidad de control ex310 usando el procedimiento de codificación descrito en cada una de las realizaciones. La unidad de multiplexación/demultiplexación ex303 multiplexa la señal de vídeo y la señal de audio codificadas, y proporciona la señal resultante al exterior. Cuando la unidad de multiplexación/demultiplexación ex303 multiplexa la señal de vídeo y la señal de audio, las señales pueden almacenarse temporalmente en las memorias intermedias ex320 y ex321, y otros de modo que las señales se reproducen en sincronización entre sí. En este punto, las memorias intermedias ex318, ex319, ex320 y ex321 pueden ser varias como se ilustra, o al menos una memoria intermedia puede compartirse en la televisión ex300. Adicionalmente, se pueden almacenar datos en una memoria intermedia de modo que puede evitarse el desbordamiento y subdesbordamiento del sistema entre la unidad de modulación/demodulación ex302 y la unidad de multiplexación/demultiplexación ex303, por ejemplo.

Adicionalmente, la televisión ex300 puede incluir una configuración para recibir una entrada de AV desde un micrófono o una cámara distinta de la configuración para obtener datos de audio y de vídeo desde una difusión o de un medio de grabación, y puede codificar los datos obtenidos. Aunque la televisión ex300 puede codificar, multiplexar y proporcionar datos al exterior en la descripción, puede únicamente recibir, decodificar y proporcionar datos al exterior pero no codificar, multiplexar y proporcionar datos al exterior.

Adicionalmente, cuando el lector/grabador ex218 lee o escribe datos multiplexados desde o en un medio de grabación, una de la televisión ex300 y el lector/grabador ex218 pueden decodificar o codificar los datos multiplexados, y la televisión ex300 y el lector/grabador ex218 puede compartir la decodificación o codificación.

Como un ejemplo, la figura 13 ilustra una configuración de una unidad de reproducción/grabación de información ex400 cuando se leen o escriben datos desde o en un disco óptico. La unidad de reproducción/grabación de información ex400 incluye los elementos constituyentes ex401, ex402, ex403, ex404, ex405, ex406 y ex407 que se describen en lo sucesivo. El cabezal óptico ex401 irradia un punto láser en una superficie de grabación del medio de grabación ex215 que es un disco óptico para escribir información, y detecta luz reflejada desde la superficie de grabación del medio de grabación ex215 para leer la información. La unidad de grabación de modulación ex402 acciona eléctricamente un láser de semiconductores incluido en el cabezal óptico ex401, y modula la luz de láser de acuerdo con datos grabados. La unidad de demodulación de reproducción ex403 amplifica una señal de reproducción obtenida detectando eléctricamente la luz reflejada desde la superficie de grabación usando un fotodetector incluido en el cabezal óptico ex401, y demodula la señal de reproducción separando un componente de señal grabado en el medio de grabación ex215 para reproducir la información necesaria. La memoria intermedia ex404 mantiene temporalmente la información a grabarse en el medio de grabación ex215 y la información reproducida desde el medio de grabación ex215. El motor de disco ex405 gira el medio de grabación ex215. La unidad de servocontrol ex406 mueve el cabezal óptico ex401 a una pista de información predeterminada mientras controla el mecanismo de rotación del motor de disco ex405 para seguir el punto láser. La unidad de control de sistema ex407 controla la totalidad de la unidad de reproducción/grabación de información ex400. Los procedimientos de lectura y escritura pueden implementarse por la unidad de control de sistema ex407 usando diversa información almacenada en la memoria intermedia ex404 y generando y añadiendo nueva información según sea necesaria, y por la unidad de grabación de modulación ex402, la unidad de demodulación de reproducción ex403, y la unidad de servocontrol ex406 que graban y reproducen información a través del cabezal óptico ex401 mientras se operan de una manera coordinada. La unidad de control de sistema ex407 incluye, por ejemplo, un microprocesador y ejecuta procesamiento provocando que un ordenador ejecute un programa para lectura y escritura.

Aunque el cabezal óptico ex401 irradia un punto láser en la descripción, puede realizar grabación de alta densidad usando luz de campo cercano.

La figura 14 ilustra el medio de grabación ex215 que es el disco óptico. En la superficie de grabación del medio de grabación ex215, se forman de manera espiral surcos de guía, y una pista de información ex230 graba, con antelación, información de dirección que indica una posición absoluta en el disco de acuerdo con el cambio en una forma de las ranuras de guía. La información de dirección incluye información para determinar posiciones de bloques de grabación ex231 que son una unidad para grabar datos. Reproducir la pista de información ex230 y leer la información de dirección en un aparato que graba y reproduce datos puede conducir a la determinación de las posiciones de los bloques de grabación. Adicionalmente, el medio de grabación ex215 incluye un área de grabación de datos ex233, un área de circunferencia interna ex232, y un área de circunferencia externa ex234. El área de grabación de datos ex233 es un área para su uso al grabar los datos de usuario. El área de circunferencia interna ex232 y el área de circunferencia externa ex234 que están en el interior y el exterior del área de grabación de datos ex233, respectivamente son para uso específico excepto para la grabación de los datos de usuario. La unidad de reproducción/grabación de información 400 lee y escribe datos de audio codificado, datos de vídeo codificado, o datos multiplexados obtenidos multiplexando los datos de audio y vídeo codificados, desde y en el área de grabación de datos ex233 del medio de grabación ex215.

Aunque se describe un disco óptico que tiene una capa, tal como un DVD y un BD como un ejemplo en la descripción, el disco óptico no se limita a esto, y puede ser un disco óptico que tiene una estructura de múltiples capas y que puede grabarse en una parte distinta de la superficie. Adicionalmente, el disco óptico puede tener una estructura para grabación/reproducción multidimensional, tal como grabación de información usando luz de colores con diferentes longitudes de onda en la misma porción del disco óptico y para grabar información que tiene diferentes capas desde diferentes ángulos.

Adicionalmente, un coche ex210 que tiene una antena ex205 puede recibir datos desde el satélite ex202 y otros, y reproducir vídeo en un dispositivo de visualización tal como un sistema de navegación de coche ex211 establecido en el coche ex210, en el sistema de difusión digital ex200. En este punto, una configuración del sistema de navegación de automóvil ex211 será una configuración, por ejemplo, que incluye una unidad de recepción de GPS a partir de la configuración ilustrada en la figura 12. Lo mismo se cumplirá para la configuración del ordenador ex111, el teléfono celular ex114, y otros.

La figura 15A ilustra el teléfono celular ex114 que usa el procedimiento de codificación de instantáneas en movimiento y el procedimiento de decodificación de instantáneas en movimiento descritos en las realizaciones. El teléfono celular ex114 incluye: una antena ex350 para transmitir y recibir ondas de radio a través de la estación base ex110; una unidad de cámara ex365 capaz de capturar imágenes en movimiento y fijas; y una unidad de visualización ex358 tal como un visualizador de cristal líquido para visualizar datos tales como vídeo decodificado capturado por la unidad de cámara ex365 o recibido por la antena ex350. El teléfono celular ex114 incluye adicionalmente: una unidad de cuerpo principal que incluye una unidad de teclas de operación ex366; una unidad de salida de audio ex357 tal como un altavoz para la salida de audio; una unidad de entrada de audio ex356 tal como un micrófono para la entrada de audio; una unidad de memoria ex367 para almacenar vídeo capturado o instantáneas fijas, audio grabado, datos codificados o des codificados del vídeo recibido, las instantáneas fijas, correos electrónicos, u otros; y una unidad de ranura ex364 que es una unidad de interfaz para un medio de grabación que almacena datos de la misma forma que la unidad de memoria ex367.

A continuación, se describirá un ejemplo de una configuración del teléfono celular ex114 con referencia a la figura 15B. En el teléfono celular ex114, una unidad de control principal ex360 diseñada para controlar en general cada unidad del cuerpo principal que incluye la unidad de visualización ex358 así como la unidad de teclas de operación ex366 se conecta mutuamente, a través de un bus síncrono ex370, a una unidad de circuito de fuente de alimentación ex361, una unidad de control de entrada de operación ex362, una unidad de procesamiento de señales de vídeo ex355, una unidad de interfaz de cámara ex363, una unidad de control de pantalla de cristal líquido (LCD) ex359, una unidad de modulación/demodulación ex352, una unidad de multiplexación/demultiplexación ex353, una unidad de procesamiento de señales de audio ex354, la unidad de ranura ex364 y la unidad de memoria ex367.

Cuando una tecla de fin de llamada o una tecla de alimentación es activada por una operación de un usuario, la unidad de circuito de fuente de alimentación ex361 abastece a las unidades respectivas con alimentación procedente de un paquete de batería con el fin de activar el teléfono celular ex114.

En el teléfono celular ex114, la unidad de procesamiento de señales de audio ex354 convierte las señales de audio recogidas por la unidad de entrada de audio ex356 en modo de conversación por voz en señales de audio digital bajo el control de la unidad de control principal ex360 que incluye una CPU, ROM y RAM. Entonces, la unidad de modulación/demodulación ex352 realiza un procesamiento de espectro ensanchado sobre las señales de audio digital, y la unidad de transmisión y de recepción ex351 realiza una conversión de analógico a digital y una conversión en frecuencia sobre los datos, con el fin de transmitir los datos resultantes por medio de la antena ex350. Asimismo, en el teléfono celular ex114, la unidad de transmisión y de recepción ex351 amplifica los datos recibidos por la antena ex350 en modo de conversación por voz y realiza la conversión en frecuencia y la conversión de digital a analógico sobre los datos. Entonces, la unidad de modulación/demodulación ex352 realiza un procesamiento de espectro ensanchado inverso sobre los datos, y la unidad de procesamiento de señales de audio ex354 los convierte en señales de audio analógico, con el fin de emitir las mismas por medio de la unidad de salida de audio ex357.

Además, cuando se transmite un correo electrónico en modo de comunicación de datos, datos de texto del correo electrónico introducido al operar la unidad de teclas de operación ex366 y otros del cuerpo principal se envían fuera a la unidad de control principal ex360 por medio de la unidad de control de entrada de operación ex362. La unidad de control principal ex360 da lugar a que la unidad de modulación/demodulación ex352 realice un procesamiento de espectro ensanchado sobre los datos de texto, y la unidad de transmisión y de recepción ex351 realiza la conversión de analógico a digital y la conversión en frecuencia sobre los datos resultantes para transmitir los datos a la estación base ex110 por medio de la antena ex350. Cuando se recibe un correo electrónico, un procesamiento que es aproximadamente inverso al procesamiento para transmitir un correo electrónico se realiza sobre los datos recibidos, y los datos resultantes se proporcionan a la unidad de visualización ex358.

Cuando se transmite o transmiten vídeo, imágenes fijas o vídeo y audio en modo de comunicación de datos, la unidad de procesamiento de señales de vídeo ex355 comprime y codifica señales de vídeo suministradas desde la unidad de cámara ex365 usando el procedimiento de codificación de instantáneas en movimiento mostrado en cada una de las realizaciones (es decir, funciona como el aparato de codificación de imágenes de acuerdo con el aspecto de la presente invención), y transmite los datos de vídeo codificados a la unidad de multiplexación/demultiplexación ex353. En contraposición, durante cuando la unidad de cámara ex365 captura vídeo, imágenes fijas, y otros, la unidad de procesamiento de señales de audio ex354 codifica las señales de audio recogidas por la unidad de entrada de audio ex356, y transmite los datos de audio codificados a la unidad de multiplexación/demultiplexación ex353.

La unidad de multiplexación/demultiplexación ex353 multiplexa los datos de vídeo codificados suministrados desde la unidad de procesamiento de señales de vídeo ex355 y los datos de audio codificados suministrados desde la unidad de procesamiento de señales de audio ex354, usando un procedimiento predeterminado. Entonces, la unidad de modulación/demodulación (unidad de circuito de modulación/demodulación) ex352 realiza un procesamiento de espectro ensanchado sobre los datos multiplexados, y la unidad de transmisión y de recepción ex351 realiza una conversión de analógico a digital y una conversión en frecuencia sobre los datos con el fin de transmitir los datos resultantes por medio de la antena ex350.

Cuando se reciben datos de un archivo de vídeo que está vinculado a una página web y otros en modo de comunicación de datos o cuando se recibe un correo electrónico con vídeo y/o audio adjunto, para decodificar los datos multiplexados recibidos a través de la antena ex350, la unidad de multiplexación/demultiplexación ex353 demultiplexa los datos multiplexados en una secuencia de bits de datos de vídeo y una secuencia de bits de datos de audio, y suministra a la unidad de procesamiento de señales de vídeo ex355 los datos de vídeo codificados y la unidad de procesamiento de señales de audio ex354 con los datos de audio codificados, a través del bus síncrono ex370. La unidad de procesamiento de señales de vídeo ex355 decodifica la señal de vídeo usando un procedimiento de decodificación de instantáneas en movimiento que se corresponde con el procedimiento de codificación de instantáneas en movimiento mostrado en cada una de las realizaciones (es decir, funciona como el aparato de decodificación de imágenes de acuerdo con el aspecto de la presente invención) y, entonces, la unidad de visualización ex358 visualiza, por ejemplo, el vídeo y las imágenes fijas incluidos en el archivo de vídeo vinculado a la página Web por medio de la unidad de control de LCD ex359. Además, la unidad de procesamiento de señales de audio ex354 decodifica la señal de audio, y la unidad de salida de audio ex357 proporciona el audio.

Adicionalmente, de manera similar a la televisión ex300, es posible que un terminal tal como el teléfono celular ex114 tenga 3 tipos de configuraciones de implementación que incluyen no únicamente (i) un terminal de transmisión y recepción que incluye tanto un aparato de codificación como un aparato de decodificación, sino también (ii) un terminal de transmisión que incluye únicamente un aparato de codificación y (iii) un terminal de recepción que incluye únicamente un aparato de decodificación. Aunque el sistema de difusión digital ex200 recibe y transmite los datos multiplexados obtenidos multiplexando datos de audio en datos de vídeo en la descripción, los datos multiplexados pueden ser datos obtenidos multiplexando no datos de audio sino datos de caracteres relacionados con vídeo en datos de vídeo, y pueden no ser datos multiplexados sino los mismos datos de vídeo.

En este sentido, el procedimiento de codificación de instantáneas en movimiento y el procedimiento de decodificación de instantáneas en movimiento en cada una de las realizaciones se pueden usar en cualquiera de los dispositivos y sistemas descritos. Por lo tanto, se pueden obtener las ventajas descritas en cada una de las realizaciones.

Además, la presente invención no se limita a las realizaciones, y son posibles diversas modificaciones y revisiones sin apartarse del ámbito de la presente invención.

[Realización 3]

Los datos de vídeo se pueden generar conmutando, según sea necesario, entre (i) el procedimiento de codificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento mostrados en cada una de realizaciones y (ii) un procedimiento de codificación de instantáneas en movimiento o un aparato de codificación de instantáneas en movimiento cumpliendo con una norma diferente, tal como MPEG-2, AVC de MPEG-4 y VC-1.

En este punto, cuando se genera una pluralidad de datos de vídeo que cumple con las diferentes normas y se decodifican a continuación, necesitan seleccionarse los procedimientos de decodificación para cumplir con las diferentes normas. Sin embargo, puesto que no puede detectarse con qué norma cumple cada uno de la pluralidad de datos de vídeo a decodificarse, existe un problema de que no puede seleccionarse un procedimiento de decodificación apropiado.

Para resolver el problema, los datos multiplexados obtenidos multiplexando datos de audio y otros en datos de vídeo tienen una estructura que incluye información de identificación que indica con qué norma cumplen los datos de vídeo. Se describirá en lo sucesivo la estructura específica de los datos multiplexados que incluyen los datos de vídeo generados en el procedimiento de codificación de instantáneas en movimiento y por el aparato de codificación de instantáneas en movimiento mostrados en cada una de las realizaciones. Los datos multiplexados son un flujo digital en el formato de Flujo de Transporte de MPEG-2.

La figura 16 ilustra una estructura de los datos multiplexados. Como se ilustra en la figura 16, los datos multiplexados pueden obtenerse multiplexando al menos uno de un flujo de vídeo, un flujo de audio, un flujo de gráficos de presentación (PG), y un flujo de gráficos interactivo. El flujo de vídeo representa vídeo primario y vídeo secundario de una película, el flujo de audio (IG) representa una parte de audio primario y una parte de audio secundario a mezclarse con la parte de audio primario, y el flujo de gráficos de presentación representa subtítulos de la película. En este punto, el vídeo primario es vídeo normal a visualizarse en una pantalla, y el vídeo secundario es vídeo a visualizarse en una ventana más pequeña en el vídeo primario. Adicionalmente, el flujo de gráficos interactivo representa una pantalla interactiva a generarse disponiendo los componentes de la GUI en una pantalla. El flujo de vídeo se codifica en el procedimiento de codificación de instantáneas en movimiento o por el aparato de codificación de instantáneas en movimiento mostrado en cada una de las realizaciones, o en un procedimiento de codificación de instantáneas en movimiento o por un aparato de codificación de instantáneas en movimiento cumpliendo con una norma convencional, tal como MPEG-2, AVC de MPEG-4 y VC-1. El flujo de audio se codifica de acuerdo con una norma, tal como Dolby-AC-3, Dolby Digital Plus, MLP, DTS, DTS-HD y PCM lineal.

Cada flujo incluido en los datos multiplexados se identifica por PID. Por ejemplo, se asigna 0x1011 al flujo de vídeo a usar para vídeo de una película, se asigna 0x1100 a 0x111F a los flujos de audio, se asigna 0x1200 a 0x121F al flujo de gráficos de presentación, se asigna 0x1400 a 0x141F al flujo de gráficos interactivo, se asigna 0x1B00 a 0x1B1F a los flujos de vídeo a usar para vídeo secundario de la película, y se asigna 0x1A00 a 0x1A1F a los flujos de audio a usar para el audio secundario a mezclarse con el audio principal.

La figura 17 ilustra esquemáticamente cómo se multiplexan datos. En primer lugar, un flujo de vídeo ex235 compuesto por tramas de vídeo y un flujo de audio ex238 compuesto por tramas de audio se transforman en un flujo de paquetes de PES ex236 y un flujo de paquetes de PES ex239, y adicionalmente en paquetes de TS ex237 y paquetes de TS ex240, respectivamente. De manera similar, los datos de un flujo de gráficos de presentación ex241 y los datos de un flujo de gráficos interactivo ex244 se transforman en un flujo de paquetes de PES ex242 y un flujo de paquetes de p Es ex245, y adicionalmente en paquetes de TS ex243 y paquetes de TS ex246, respectivamente. Estos paquetes de TS se multiplexan en un flujo para obtener datos multiplexados ex247.

La figura 18 ilustra cómo se almacena un flujo de vídeo en un flujo de paquetes de PES en más detalle. La primera barra en la figura 18 muestra un flujo de tramas de vídeo en un flujo de vídeo. La segunda barra muestra el flujo de paquetes de PES. Como se indica por las flechas indicadas como yy1, yy2, yy3 e yy4 en la figura 18, el flujo de vídeo se divide en instantáneas como instantáneas I, instantáneas B e instantáneas P cada una de las cuales es una unidad de presentación de vídeo, las instantáneas se almacenan en una cabida útil de cada uno de los paquetes de PES. Cada uno de los paquetes de PES tiene un encabezado de PES, y el encabezado de PES almacena una Indicación de Tiempo de Presentación (PTS) que indica un tiempo de visualización de la instantánea, y una Indicación de Tiempo de decodificación (DTS) que indica un tiempo de decodificación de la instantánea.

La figura 19 ilustra un formato de paquetes de TS a escribir finalmente en los datos multiplexados. Cada uno de los paquetes de TS es un paquete de longitud fija de 188 bytes que incluye un encabezamiento de TS de 4 bytes que tiene información, tal como un PID para identificar un flujo y una cabida útil de TS de 184 bytes para almacenar datos. Los paquetes de PES se dividen y se almacenan en las cabidas útiles de TS, respectivamente. Cuando se usa un BD ROM, a cada uno de los paquetes de TS se le proporciona un TP_Encabezamiento_Adicional de 4 bytes, dando como resultado por lo tanto paquetes de origen de 192 bytes. Los paquetes de origen se escriben en los datos multiplexados. El TP_Encabezamiento_Adicional almacena información tal como una Indicación_Tiempo_Llegada (ATS). La ATS muestra un tiempo de inicio de transferencia en el que se ha de transferir cada uno de los paquetes de TS a un filtro de PID. Los paquetes de origen se disponen en los datos multiplexados como se muestra en la parte inferior de la figura 19. Los números que incrementan desde la cabecera de los datos multiplexados se denominan números de paquete de origen (SPN).

Cada uno de los paquetes de TS incluidos en los datos multiplexados incluye no únicamente flujos de audio, vídeo, subtítulos y otros, sino también una Tabla de Asociación de Programa (PAT), una Tabla de Mapa de Programa (PMT), y una Referencia de Reloj de Programa (PCR). La PAT muestra qué indica un PID en una PMT usada en los datos multiplexados, y un PID de la misma PAT se registra como cero. La PMT almacena los PID de los flujos de vídeo, audio, subtítulos y otros incluidos en los datos multiplexados, y la información de atributo de los flujos que se corresponden con los PID. La PMT también tiene diversos descriptores relacionados con los datos multiplexados. Los descriptores tienen información tal como información de control de copia que muestra si se permite o no el copiado de los datos multiplexados. La PCR almacena información de tiempo de STC que se corresponde con una ATS que muestra cuándo se transfiere el paquete de PCR a un decodificador, para conseguir sincronización entre un Reloj de Tiempo de Llegada (ATC) que es el eje de tiempo de las ATS, y un Reloj de Tiempo de Sistema (STC) que es un eje de tiempo de las PTS y DTS.

La figura 20 ilustra la estructura de datos de la PMT en detalle. Un encabezado de PMT está dispuesto en la parte superior de la PMT. El encabezado de la PMT describe la longitud de datos incluidos en la PMT y otros. Una pluralidad de descriptores relacionados con los datos multiplexados están dispuestos después del encabezado de PMT. La información tal como la información de control de copia se describe en los descriptores. Después de los descriptores, está dispuesta una pluralidad de fragmentos de la información de flujo relacionados con los flujos incluidos en los datos multiplexados. Cada fragmento de la información de flujo incluye descriptores de flujo que cada uno describe información, tal como un tipo de flujo para identificar un códec de compresión de un flujo, un PID de flujo, e información de atributo de flujo (tal como una velocidad de tramas o una relación de aspecto). Los descriptores de flujo son iguales en número al número de flujos en los datos multiplexados.

Cuando los datos multiplexados se graban en un medio de grabación y otros, se registran juntos con archivos de información de datos multiplexados.

Cada uno de los archivos de información de datos multiplexados es información de gestión de los datos multiplexados como se muestra en la figura 21. Los archivos de información de datos multiplexados están en una correspondencia uno a uno con los datos multiplexados, y cada uno de los archivos incluye información de datos multiplexados, información de atributo de flujo y un mapa de entrada.

Como se ilustra en la figura 21, la información de datos multiplexados incluye una tasa de sistema, un tiempo de inicio de reproducción y un tiempo de fin de reproducción. La velocidad de sistema indica la velocidad de trasferencia máxima a la que un decodificador objetivo de sistema que se va a describir más adelante transfiere los datos multiplexados a un filtro de PID. Los intervalos de las ATS incluidas en los datos multiplexados se establecen para que no sean superiores a una velocidad de sistema. El tiempo de inicio de reproducción indica una PTS en una trama de vídeo en la cabecera de los datos multiplexados. Un intervalo de una trama se añade a una PTS en una trama de vídeo al final de los datos multiplexados, y la PTS se establece al tiempo de fin de reproducción.

Como se muestra en la figura 22, se registra un fragmento de información de atributo en la información de atributo de flujo, para cada PID de cada flujo incluido en los datos multiplexados. Cada fragmento de información de atributo tiene diferente información dependiendo de si el correspondiente flujo es un flujo de vídeo, un flujo de audio, un flujo de gráficos de presentación, o un flujo de gráficos interactivo. Cada fragmento de información de atributo de flujo de vídeo lleva información que incluye qué tipo de códec de compresión se usa para comprimir el flujo de vídeo, y la resolución, relación de aspecto y velocidad de tramas de los fragmentos de datos de instantánea que se incluyen en el flujo de vídeo. Cada fragmento de información de atributo de flujo de audio lleva información que incluye qué clase de códec de compresión se usa para comprimir el flujo de audio, cuántos canales están incluidos en el flujo de audio, qué idioma soporta el flujo de audio, y cómo de alta es la frecuencia de muestreo. La información de atributo de flujo de vídeo y la información de atributo de flujo de audio se usan para inicialización de un decodificador antes de que el reproductor reproduzca la información.

En la presente realización, los datos multiplexados a usar son de un tipo de flujo incluido en la PMT. Adicionalmente, cuando los datos multiplexados se graban en un medio de grabación, se usa la información de atributo de flujo de vídeo incluida en la información de datos multiplexados. Más específicamente, el procedimiento de codificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones incluyen una etapa o una unidad para asignar información única que indica datos de vídeo generados por el procedimiento de codificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento en cada una de las realizaciones, al tipo de flujo incluido en la PMT o la información de atributo de flujo de vídeo. Con la configuración, los datos de vídeo generados por el procedimiento de codificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones pueden distinguirse de los datos de vídeo que se ajustan a otra norma.

Adicionalmente, la figura 23 ilustra las etapas del procedimiento de decodificación de instantáneas en movimiento de acuerdo con la presente realización. En la etapa exS100, el tipo de flujo incluido en la PMT o la información de atributo de flujo de vídeo incluido en la información de datos multiplexados se obtiene desde los datos multiplexados. A continuación, en la etapa exS101, se determina si el tipo de flujo o la información de atributo de flujo de vídeo indica o no que los datos multiplexados se generan por el procedimiento de codificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento en cada una de las realizaciones. Cuando se determina que el tipo de flujo o la información de atributo de flujo de vídeo indica que los datos multiplexados se generan por el procedimiento de codificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento en cada una de las realizaciones, en la etapa exS102, se realiza decodificación por el procedimiento de decodificación de instantáneas en movimiento en cada una de las realizaciones. Adicionalmente, cuando el tipo de flujo o la información de atributo de flujo de vídeo indica el cumplimiento de las normas convencionales, tales como MPEG-2, AVC de MPEG-4 y VC-1, en la etapa exS103, se realiza decodificación por un procedimiento de decodificación de instantáneas en movimiento cumpliendo con las normas convencionales.

En este sentido, asignar un nuevo valor único al tipo de flujo o la información de atributo de flujo de vídeo posibilita la determinación de si el procedimiento de decodificación de instantáneas en movimiento o el aparato de decodificación de instantáneas en movimiento que se describen en cada una de las realizaciones puede realizar o no la decodificación. Incluso cuando se introducen datos multiplexados que se ajustan a una norma diferente, puede seleccionarse un procedimiento o aparato de decodificación apropiado. Por lo tanto, se hace posible decodificar información sin error alguno. Adicionalmente, el procedimiento o aparato de codificación de instantáneas en movimiento, o el procedimiento o aparato de decodificación de instantáneas en movimiento en la presente realización se puede usar en los dispositivos y sistemas anteriormente descritos.

[Realización 4]

Cada uno del procedimiento de codificación de instantáneas en movimiento, el aparato de codificación de instantáneas en movimiento, el procedimiento de decodificación de instantáneas en movimiento, y el aparato de decodificación de instantáneas en movimiento en cada una de las realizaciones se consigue típicamente en forma de un circuito integrado o un circuito Integrado a Gran Escala (LSI). Como un ejemplo del LSI, la figura 24 ilustra una configuración del LSI ex500 que se hace en un chip. El LSI ex500 incluye los elementos ex501, ex502, ex503, ex504, ex505, ex506, ex507, ex508, y ex509 que se van a describir a continuación, y los elementos están conectados entre sí a través de un bus ex510. La unidad de circuito de fuente de alimentación ex505 se activa suministrando a cada uno de los elementos con potencia cuando se activa la unidad de circuito de fuente de alimentación ex505.

Por ejemplo, cuando se realiza codificación, el LSI ex500 recibe una señal de AV desde un micrófono ex117, una cámara ex113, y otros a través de una ES de AV ex509 bajo el control de una unidad de control ex501 que incluye una CPU ex502, un controlador de memoria ex503, un controlador de flujo ex504, y una unidad de control de frecuencia de accionamiento ex512. La señal de AV recibida se almacena temporalmente en una memoria externa ex511, tal como una SDRAM. Bajo el control de la unidad de control ex501, los datos almacenados se segmentan en porciones de datos de acuerdo con la cantidad de procesamiento y velocidad a transmitir a una unidad de procesamiento de señal ex507. A continuación, la unidad de procesamiento de señal ex507 codifica una señal de audio y/o una señal de vídeo. En este punto, la codificación de la señal de vídeo es la codificación descrita en cada una de las realizaciones. Adicionalmente, la unidad de procesamiento de señal ex507 multiplexa en ocasiones los datos de audio codificados y los datos de vídeo codificados, y una ES de flujo ex506 proporciona los datos multiplexados al exterior. Los datos multiplexados proporcionados se transmiten a la estación base ex107, o se escriben en el medio de grabación ex215. Cuando se multiplexan conjuntos de datos, los datos deberían almacenarse temporalmente en la memoria intermedia ex508 de modo que los conjuntos de datos se sincronizan entre sí.

Aunque la memoria ex511 es un elemento fuera del LSI ex500, puede incluirse en el LSI ex500. La memoria intermedia ex508 no se limita a una memoria intermedia, sino que puede estar compuesta por memorias intermedias. Adicionalmente, el LSI ex500 puede estar fabricado en un chip o una pluralidad de chips.

Adicionalmente, aunque la unidad de control ex501 incluye la CPU ex502, el controlador de memoria ex503, el controlador de flujo ex504, la unidad de control de frecuencia de accionamiento ex512, la configuración de la unidad de control ex501 no se limita a esto. Por ejemplo, la unidad de procesamiento de señal ex507 puede incluir adicionalmente una CPU. La inclusión de otra Cp U en la unidad de procesamiento de señal ex507 puede mejorar la velocidad de procesamiento. Adicionalmente, como otro ejemplo, la CPU ex502 puede servir como o ser una parte de la unidad de procesamiento de señal ex507, y, por ejemplo, puede incluir una unidad de procesamiento de señal de audio. En un caso de este tipo, la unidad de control ex501 incluye la unidad de procesamiento de señal ex507 o la CPU ex502 que incluye una parte de la unidad de procesamiento de señal ex507.

El nombre usado en el presente documento es LSI, pero puede denominarse también CI, sistema LSI, súper LSI o ultra LSI dependiendo del grado de integración.

Además, las maneras para conseguir la integración no se limitan al LSI, y un circuito especial o un procesador de fin general y así sucesivamente pueden conseguir también la integración. El Campo de Matriz de Puertas Programables (FPGA) que puede programarse después de la fabricación de LSI o un procesador reconfigurable que permite la re configuración de la conexión o configuración de un LSI puede usarse para el mismo fin.

En el futuro, con el avance de la tecnología de semiconductores, una tecnología nueva puede sustituir a la LSI. Los bloques funcionales pueden integrarse usando una tecnología de este tipo. La posibilidad es que la presente invención se aplique a biotecnología.

[Realización 5]

Cuando se decodifican datos de vídeo generados en el procedimiento de codificación de instantáneas en movimiento o por el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones, es posible que la cantidad de procesamiento aumente en comparación con cuando se decodifican datos de vídeo que se ajustan a una norma convencional, tal como MPEG-2, AVC de MPEG-4 y VC-1. Por lo tanto, el LSI ex500 necesita establecer una frecuencia de accionamiento más alta que la de la CPU ex502 a usar cuando se decodifican datos de vídeo de conformidad con la norma convencional. Sin embargo, cuando la frecuencia de accionamiento se establece más alta, existe un problema de que el consumo de potencia aumenta.

Para resolver el problema, el aparato de decodificación de instantáneas en movimiento, tal como la televisión ex300 y el LSI ex500 están configurados para determinar a qué norma se ajustan los datos de vídeo, y conmutar entre las frecuencias de accionamiento de acuerdo con la norma determinada. La figura 25 ilustra una configuración ex800 en la presente realización. Una unidad de conmutación de frecuencia de accionamiento ex803 establece una frecuencia de accionamiento a una frecuencia de accionamiento superior cuando se generan datos de vídeo por el procedimiento de codificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones. A continuación, la unidad de conmutación de frecuencia de accionamiento ex803 ordena a la unidad de procesamiento de decodificación ex801 que ejecute el procedimiento de decodificación de instantáneas en movimiento descrito en cada una de las realizaciones para decodificar los datos de vídeo. Cuando los datos de vídeo se ajustan a la norma convencional, la unidad de conmutación de frecuencia de accionamiento ex803 establece una frecuencia de accionamiento a una frecuencia de accionamiento inferior a la de los datos de vídeo generados por el procedimiento de codificación de instantáneas en movimiento o el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones. A continuación, la unidad de conmutación de frecuencia de accionamiento ex803 ordena a la unidad de procesamiento de decodificación ex802 que se ajusta a la norma convencional que decodifique los datos de vídeo.

Más específicamente, la unidad de conmutación de frecuencia de accionamiento ex803 incluye la CPU ex502 y la unidad de control de frecuencia de accionamiento ex512 en la figura 24. En este punto, cada una de la unidad de procesamiento de decodificación ex801 que ejecuta el procedimiento de decodificación de instantáneas en movimiento descrito en cada una de las realizaciones y la unidad de procesamiento de decodificación ex802 que se ajusta a la norma convencional se corresponden con la unidad de procesamiento de señal ex507 en la figura 24. La c Pu ex502 determina a qué norma se ajustan los datos de vídeo. A continuación, la unidad de control de frecuencia de accionamiento ex512 determina una frecuencia de accionamiento basándose en una señal desde la CPU ex502. Adicionalmente, la unidad de procesamiento de señal ex507 decodifica los datos de vídeo basándose en la señal desde la CPU ex502. Por ejemplo, es posible que la información de identificación descrita en la realización 3 se use para identificar los datos de vídeo. La información de identificación no se limita a la descrita en la realización 3 sino que puede ser cualquier información siempre que la información indique a qué norma se ajustan los datos de vídeo. Por ejemplo, cuando a qué norma se ajustan los datos de vídeo puede determinarse basándose en una señal externa para determinar que los datos de vídeo se usan para una televisión o un disco, etc., la determinación puede realizarse basándose en una señal externa de este tipo. Adicionalmente, la CPU ex502 selecciona una frecuencia de accionamiento basándose en, por ejemplo, una tabla de correspondencia en la que las normas de los datos de vídeo están asociadas con las frecuencias de accionamiento como se muestra en la figura 27. La frecuencia de accionamiento puede seleccionarse almacenando la tabla de búsqueda en la memoria intermedia ex508 y en una memoria interna de un LSI, y con referencia a la tabla de búsqueda por la CPU ex502.

La figura 26 ilustra etapas para ejecutar un procedimiento en la presente realización. En primer lugar, en la etapa exS200, la unidad de procesamiento de señal ex507 obtiene información de identificación desde los datos multiplexados. A continuación, en la etapa exS201, la CPU ex502 determina si los datos de vídeo se generan o no por el procedimiento de codificación y el aparato de codificación descritos en cada una de las realizaciones, basándose en la información de identificación. Cuando los datos de vídeo se generan por el procedimiento de codificación de instantáneas en movimiento y el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones, en la etapa exS202, la CPU ex502 transmite una señal para establecer la frecuencia de accionamiento a una frecuencia de accionamiento superior a la de la unidad de control de frecuencia de accionamiento ex512. A continuación, la unidad de control de frecuencia de accionamiento ex512 establece la frecuencia de accionamiento a la frecuencia de accionamiento más alta. Por otra parte, cuando la información de identificación indica que los datos de vídeo se ajustan a la norma convencional, tal como MPEG-2, AVC de MPEG-4 y VC-1, en la etapa exS203, la CPU ex502 transmite una señal para establecer la frecuencia de accionamiento a una frecuencia de accionamiento inferior a la unidad de control de frecuencia de accionamiento ex512. A continuación, la unidad de control de frecuencia de accionamiento ex512 establece la frecuencia de accionamiento a la frecuencia de accionamiento inferior que la de en el caso en el que los datos de vídeo se generan por el procedimiento de codificación de instantáneas en movimiento y el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones.

Adicionalmente, junto con la conmutación de las frecuencias de accionamiento, el efecto de conservación de potencia puede mejorarse cambiando la tensión a aplicarse al LSI ex500 o a un aparato que incluye el LSI ex500. Por ejemplo, cuando la frecuencia de accionamiento se establece más baja, es posible que la tensión a aplicarse al LSI ex500 o al aparato que incluye el LSI ex500 se establezca a una tensión inferior que en el caso en el que la frecuencia de accionamiento se establece más alta.

Adicionalmente, cuando la cantidad de procesamiento para decodificación es mayor, la frecuencia de accionamiento puede establecerse más alta, y cuando la cantidad de procesamiento para decodificación es más pequeña, la frecuencia de accionamiento puede establecerse más baja que el procedimiento para establecer la frecuencia de accionamiento. Por lo tanto, el procedimiento de ajuste no se limita a los anteriormente descritos. Por ejemplo, cuando la cantidad de procesamiento para decodificar datos de vídeo cumpliendo con AVC de MPEG-4 es mayor que la cantidad de procesamiento para decodificar datos de vídeo generados por el procedimiento de codificación de instantáneas en movimiento y el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones, es posible que la frecuencia de accionamiento se establezca en orden inverso al ajuste anteriormente descrito.

Adicionalmente, el procedimiento para establecer la frecuencia de accionamiento no se limita al procedimiento para establecer la frecuencia de accionamiento más baja. Por ejemplo, cuando la información de identificación indica que los datos de vídeo se generan por el procedimiento de codificación de instantáneas en movimiento y el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones, es posible que la tensión a aplicarse al LSI ex500 o al aparato que incluye el LSI ex500 se establezca más alta. Cuando la información de identificación indica que los datos de vídeo se ajustan a la norma convencional, tal como MPEG-2, AVC de MPEG-4 y VC-1, es posible que la tensión a aplicarse al LSI ex500 o al aparato que incluye el LSI ex500 se establezca más baja. Como otro ejemplo, es posible que, cuando la información de identificación indica que los datos de vídeo son generados por el procedimiento de codificación de instantáneas en movimiento y el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones, no se suspenda el accionamiento de la CPU ex502, y cuando la información de identificación indica que los datos de vídeo cumplen con la norma convencional, tal como MPEG-2, AVC de MPEG-4 y VC-1, se suspenda el accionamiento de la CPU ex502 en un tiempo dado debido a que la CPU ex502 tiene una capacidad de procesamiento adicional. Es posible que, incluso cuando la información de identificación indica que los datos de vídeo se generan por el procedimiento de codificación de instantáneas en movimiento y el aparato de codificación de instantáneas en movimiento descritos en cada una de las realizaciones, en el caso en el que la CPU ex502 tiene capacidad de procesamiento adicional, el accionamiento de la CPU ex502 se suspenda en un tiempo dado. En un caso de este tipo, es posible que el tiempo de suspensión se establezca más corto que en el caso cuando la información de identificación indica que los datos de vídeo se ajustan a la norma convencional, tal como MPEG-2, AVC de MPEG-4 y VC-1.

Por consiguiente, el efecto de conservación de potencia puede mejorarse conmutando entre las frecuencias de accionamiento de acuerdo con la norma a la que se ajustan los datos de vídeo. Adicionalmente, cuando el LSI ex500 o el aparato que incluye el LSI ex500 se accionan usando una batería, la duración de la batería puede ampliarse con el efecto de conservación de potencia.

[Realización 6]

Existen casos en los que una pluralidad de datos de vídeo que se ajustan a diferentes normas, se proporcionan a los dispositivos y sistemas, tales como una televisión y un teléfono celular. Para posibilitar la decodificación de la pluralidad de datos de vídeo que se ajustan a las diferentes normas, la unidad de procesamiento de señal ex507 del LSI ex500 necesita ajustarse a las diferentes normas. Sin embargo, los problemas de aumento en la escala del circuito del LSI ex500 y el aumento en el coste surgen con el uso individual de las unidades de procesamiento de señal ex507 que se ajustan a las normas respectivas.

Para resolver el problema, lo que se concibe es una configuración en la que la unidad de procesamiento de decodificación para implementar el procedimiento de decodificación de instantáneas en movimiento descrita en cada una de las realizaciones y la unidad de procesamiento de decodificación que se ajusta a la norma convencional, tal como MPEG-2, AVC de MPEG-4 y VC-1 se comparten parcialmente. Ex900 en la figura 28A muestra un ejemplo de la configuración. Por ejemplo, el procedimiento de decodificación de instantáneas en movimiento descrito en cada una de las realizaciones y el procedimiento de decodificación de instantáneas en movimiento que se ajusta a AVC de MPEG-4 tienen, parcialmente en común, los detalles de procesamiento, tal como codificación de entropía, cuantificación inversa, filtrado por desbloqueo y predicción con compensación de movimiento. Es posible que una unidad de procesamiento de decodificación ex902 que cumple con AVC de MPEG-4 sea compartida por operaciones de procesamiento común, y que una unidad de procesamiento de decodificación dedicada ex901 se use para un procesamiento que es único de un aspecto de la presente invención y no cumple con AVC de MPEG-4. En particular, debido a que el aspecto de la presente invención está caracterizado por inter predicción, es posible, por ejemplo, que la unidad de procesamiento de decodificación dedicada ex901 se use para inter predicción, y que la unidad de procesamiento de decodificación sea compartida por cualquiera o la totalidad del otro procesamiento, tal como decodificación por entropía, cuantificación inversa, filtrado por desbloqueo y compensación de movimiento. La unidad de procesamiento de decodificación para implementar el procedimiento de decodificación de instantáneas en movimiento descrita en cada una de las realizaciones puede compartirse para el procesamiento a compartirse, y una unidad de procesamiento de decodificación especializada puede usarse para procesamiento único al de MPEG-4 AVC.

Adicionalmente, ex1000 en la figura 28B muestra otro ejemplo en el que el procesamiento se comparte parcialmente. Este ejemplo usa una configuración que incluye una unidad de procesamiento de decodificación especializada ex1001 que soporta el procesamiento único de un aspecto de la presente invención, una unidad de procesamiento de decodificación especializada ex1002 que soporta el procesamiento único de otra norma convencional, y una unidad de procesamiento de decodificación ex1003 que soporta procesamiento a compartirse entre el procedimiento de decodificación de instantáneas en movimiento de acuerdo con el aspecto de la presente invención y el procedimiento de decodificación de instantáneas en movimiento convencional. En este punto, las unidades de procesamiento de decodificación especializadas ex1001 y ex1002 no están necesariamente especializadas para el procesamiento de acuerdo con el aspecto de la presente invención y el procesamiento de la norma convencional, respectivamente, y pueden ser las que pueden implementar procesamiento general. Adicionalmente, la configuración de la presente realización puede implementarse por el LSI ex500.

En este sentido, reducir la escala del circuito de un LSI y reducir el coste son posibles compartiendo la unidad de procesamiento de decodificación para el procesamiento a compartirse entre el procedimiento de decodificación de instantáneas en movimiento de acuerdo con el aspecto de la presente invención y el procedimiento de decodificación de instantáneas en movimiento cumpliendo con la norma convencional.

rAplicabilidad industrial!

La presente invención se puede aplicar a un procedimiento de codificación de imágenes, un procedimiento de decodificación de imágenes, un aparato de codificación de imágenes y un aparato de decodificación de imágenes. Por ejemplo, la presente invención se puede usar en dispositivos de visualización de información y dispositivos de captura de imágenes tales como una televisión, una grabadora de vídeo digital, un sistema de navegación de coche, un teléfono celular, una cámara digital de imágenes fijas, una cámara de vídeo digital, y así sucesivamente.

ILista de signos de referencia!

100 aparato de codificación de imágenes

101 restador

102 unidad de transformada ortogonal

103 unidad de cuantificación

104, unidad de cuantización inversa

105, unidad de transformada ortogonal inversa

106, unidad de adición

107, 207 memoria de bloque

108, memoria de fotograma

109, 209 unidad de intra predicción

110, 210 unidad de inter predicción

111, 211 unidad de conmutación

112 unidad de codificación de longitud variable

113 unidad de control

120 imagen de entrada

121, 125, 225 señal residual

122, coeficientes de transformada

123, coeficientes cuantificados

126, imagen decodificada

127, 128, 227, 228 señal de imagen

129, 130, 131, 229, 230, 231 imagen prevista

132, secuencia de bits codificados

133, 233 bandera de predicción de vector de movimiento temporal

200 aparato de decodificación de imágenes

212 unidad de decodificación de longitud variable

Claims

REIVINDICACIONES

1. Un procedimiento de codificación de imágenes que comprende:

(A) seleccionar (S121) una primera instantánea para la renovación de predicción de vector de movimiento temporal de varias instantáneas, en el que la primera instantánea incluye una pluralidad de primeros cortes, cada uno de la pluralidad de primeros cortes está asociado con una de una pluralidad de primeras banderas de predicción de vector de movimiento temporal, respectivamente, y una bandera de predicción de vector de movimiento temporal indica si ha de usarse o no la predicción de vector de movimiento temporal;

(B) establecer todas las primeras banderas de predicción de vector de movimiento temporal para indicar que no ha de usarse la predicción de vector de movimiento temporal, y codificar las primeras banderas de predicción de vector de movimiento temporal;

(C) codificar cada uno de los primeros cortes sin usar la predicción de vector de movimiento temporal; y (D) codificar un segundo corte incluido en una segunda instantánea que sigue a la primera instantánea en orden de codificación, sin hacer referencia a un vector de movimiento de una instantánea que precede a la primera instantánea en orden de codificación;

caracterizado porque

la etapa (D) incluye:

(D1) considerar (S123) si el segundo corte tiene o no una instantánea de referencia coubicada que precede a la primera instantánea en orden de codificación, en el que la instantánea de referencia coubicada se selecciona para predicción temporal de vectores de movimiento de entre instantáneas de referencia disponibles usando un esquema predeterminado;

(D2) cuando el segundo corte tiene una instantánea de referencia coubicada que precede a la primera instantánea en orden de codificación:

(i) establecer (S125) una segunda bandera de predicción de vector de movimiento temporal, que es una bandera de predicción de vector de movimiento temporal asociada con el segundo corte, para indicar que no ha de usarse la predicción de vector de movimiento temporal;

(ii) codificar (S125) la segunda bandera de predicción de vector de movimiento temporal; y

(iii) codificar (S125) el segundo corte sin usar la predicción de vector de movimiento temporal; y

(D3) cuando el segundo corte no tiene una instantánea de referencia coubicada que precede a la primera instantánea en orden de codificación:

(i) establecer (S126) la segunda bandera de predicción de vector de movimiento temporal para indicar que ha de usarse la predicción de vector de movimiento temporal o indicar que no ha de usarse la predicción de vector de movimiento temporal;

(ii) codificar (S126) la segunda bandera de predicción de vector de movimiento temporal; y

(iii) codificar (S126) el segundo corte usando o sin usar la predicción de vector de movimiento temporal.

2. El procedimiento de codificación de imágenes de acuerdo con la reivindicación 1, en el que

se establece un nivel temporal a cada una de las instantáneas, y

en la etapa (A), se selecciona una instantánea que tiene un nivel temporal más alto como la primera instantánea, de entre las instantáneas.

3. El procedimiento de codificación de imágenes de acuerdo con la reivindicación 1 o la reivindicación 2, en el que en la etapa (B), cada una de las primeras banderas de predicción de vector de movimiento temporal que indica que no ha de usarse la predicción de vector de movimiento temporal se escribe en un encabezado del primer corte asociado.

4. El procedimiento de codificación de imágenes de acuerdo con cualquiera de las reivindicaciones 1 a 3, que comprende adicionalmente:

(E) crear (S105) una primera lista que indica varios predictores de vectores de movimiento que incluyen un predictor de vector de movimiento temporal derivado de un vector de movimiento de una instantánea de referencia coubicada, cuando la bandera de predicción de vector de movimiento temporal indica que ha de usarse la predicción de vector de movimiento temporal; y

(F) crear (S108) una segunda lista que indica varios predictores de vectores de movimiento que no incluyen el predictor de vector de movimiento temporal, cuando la bandera de predicción de vector de movimiento temporal indica que no ha de usarse la predicción de vector de movimiento temporal.

5. Un aparato de codificación de imágenes que comprende:

una unidad de ajuste configurada (i) para seleccionar una primera instantánea para la renovación de predicción de vector de movimiento temporal de varias instantáneas, en el que la primera instantánea incluye una pluralidad de primeros cortes, cada uno de la pluralidad de primeros cortes está asociado con una de una pluralidad de primeras banderas de predicción de vector de movimiento temporal, respectivamente, y una bandera de predicción de vector de movimiento temporal indica si ha de usarse o no la predicción de vector de movimiento temporal; y (ii) para establecer todas las primeras banderas de predicción de vector de movimiento temporal para indicar que no ha de usarse la predicción de vector de movimiento temporal;

y una unidad de codificación configurada para (i) codificar las primeras banderas de predicción de vector de movimiento temporal, (ii) codificar cada uno de los primeros cortes sin usar la predicción de vector de movimiento temporal, y (iii) codificar un segundo corte incluido en una segunda instantánea que sigue a la primera instantánea en orden de codificación, sin hacer referencia a un vector de movimiento de una instantánea que precede a la primera instantánea en orden de codificación;

caracterizado porque

la codificación del segundo corte incluye:

(D1) considerar si el segundo corte tiene o no una instantánea de referencia coubicada que precede a la primera instantánea en orden de codificación, en el que la instantánea de referencia coubicada se selecciona para predicción temporal de vectores de movimiento de entre instantáneas de referencia disponibles usando un esquema predeterminado;

(i) establecer una segunda bandera de predicción de vector de movimiento temporal, que es una bandera de predicción de vector de movimiento temporal asociada con el segundo corte, para indicar que no ha de usarse la predicción de vector de movimiento temporal;

(ii) codificar la segunda bandera de predicción de vector de movimiento temporal; y

(iii) codificar el segundo corte sin usar la predicción de vector de movimiento temporal; y

(i) establecer la segunda bandera de predicción de vector de movimiento temporal para indicar que ha de usarse la predicción de vector de movimiento temporal o indicar que no ha de usarse la predicción de vector de movimiento temporal;

(iii) codificar el segundo corte usando o sin usar la predicción de vector de movimiento temporal.

6. Un aparato de codificación y decodificación de imágenes que comprende:

el aparato de codificación de imágenes de acuerdo con la reivindicación 5; y

un aparato de decodificación de imágenes para decodificar una secuencia de bits, comprendiendo el aparato de decodificación de imágenes:

una unidad de obtención configurada para obtener, de la secuencia de bits, las primeras banderas de predicción de vector de movimiento temporal que indican que no ha de usarse la predicción de vector de movimiento temporal en una primera instantánea; y

una unidad de decodificación configurada para (i) decodificar los primeros cortes sin usar la predicción de vector de movimiento temporal, y (ii) decodificar el segundo corte sin hacer referencia al vector de movimiento de una instantánea que precede a la primera instantánea en orden de decodificación.